CN104199953A - 一种爬取手机客户端公共账号信息的方法 - Google Patents

一种爬取手机客户端公共账号信息的方法 Download PDF

Info

Publication number
CN104199953A
CN104199953A CN201410467250.6A CN201410467250A CN104199953A CN 104199953 A CN104199953 A CN 104199953A CN 201410467250 A CN201410467250 A CN 201410467250A CN 104199953 A CN104199953 A CN 104199953A
Authority
CN
China
Prior art keywords
address
public
information
account information
mobile phone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410467250.6A
Other languages
English (en)
Inventor
徐宏伟
王传超
孙海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201410467250.6A priority Critical patent/CN104199953A/zh
Publication of CN104199953A publication Critical patent/CN104199953A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种爬取手机客户端公共账号信息的方法,解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面信息。

Description

一种爬取手机客户端公共账号信息的方法
技术领域
本发明涉及网络爬虫、模拟浏览器、抓url包技术领域,具体地说是一种爬取手机客户端公共账号信息的方法。
背景技术
当今,大大小小的企业为了宣传产品或者提供服务,大部分都会注册微信的公共账号。公共账号分为组织和个人,个人只能申请订阅号。而随着公共账号的增多和账号菜单、内容的随意性,给采集也带了以下难题:
1.  标签不规则。模板采用多种样式;
2.  采集地址的随意变化;
3.  获取一个带有时间戳的ajax返回来的的URL,只能在短时间内获取该数据,否则会过期。
而本发明通过制定多模版化的采集规则,解决了标签不一,然后通过标签里的url,访问不同地址的页面内容。最后获取页面里的发送请求事件,模拟事件发送地址请求,并附带时间戳,获取到每个公共账号信息的地址。
发明内容
本发明的目的是提供一种爬取手机客户端公共账号信息的方法。
本发明的目的是按以下方式实现的,由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接; 
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
本发明的优异效果:解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面信息。这么多公众号,如何能采集每个公众号的内容信息。
附图说明
图1是实施本发明方法的流程图。
具体实施方式
参照说明书附图对本发明的爬取手机客户端公共账号信息的方法,作以下详细地说明。
由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接; 
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种爬取手机客户端公共账号信息的方法, 其特征在于由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接; 
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
CN201410467250.6A 2014-09-15 2014-09-15 一种爬取手机客户端公共账号信息的方法 Pending CN104199953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410467250.6A CN104199953A (zh) 2014-09-15 2014-09-15 一种爬取手机客户端公共账号信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410467250.6A CN104199953A (zh) 2014-09-15 2014-09-15 一种爬取手机客户端公共账号信息的方法

Publications (1)

Publication Number Publication Date
CN104199953A true CN104199953A (zh) 2014-12-10

Family

ID=52085246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410467250.6A Pending CN104199953A (zh) 2014-09-15 2014-09-15 一种爬取手机客户端公共账号信息的方法

Country Status (1)

Country Link
CN (1) CN104199953A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105429865A (zh) * 2015-12-31 2016-03-23 深圳中泓在线股份有限公司 一种基于浏览器的微信公众号数据采集方法及装置
CN105577528A (zh) * 2015-12-31 2016-05-11 深圳中泓在线股份有限公司 一种基于虚拟机的微信公众号数据采集方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791587B1 (en) * 2000-03-16 2004-09-14 International Business Machines Corporation Method and component for navigating a hierarchical user interface representation
US7197491B1 (en) * 1999-09-21 2007-03-27 International Business Machines Corporation Architecture and implementation of a dynamic RMI server configuration hierarchy to support federated search and update across heterogeneous datastores
CN103685254A (zh) * 2013-12-05 2014-03-26 奇智软件(北京)有限公司 公共账号信息的安全检测方法与服务器
CN103714438A (zh) * 2014-01-09 2014-04-09 国家电网公司 一种电业信息管理系统和使用方法
CN103794033A (zh) * 2014-02-27 2014-05-14 广州杰赛科技股份有限公司 监控报警方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7197491B1 (en) * 1999-09-21 2007-03-27 International Business Machines Corporation Architecture and implementation of a dynamic RMI server configuration hierarchy to support federated search and update across heterogeneous datastores
US6791587B1 (en) * 2000-03-16 2004-09-14 International Business Machines Corporation Method and component for navigating a hierarchical user interface representation
CN103685254A (zh) * 2013-12-05 2014-03-26 奇智软件(北京)有限公司 公共账号信息的安全检测方法与服务器
CN103714438A (zh) * 2014-01-09 2014-04-09 国家电网公司 一种电业信息管理系统和使用方法
CN103794033A (zh) * 2014-02-27 2014-05-14 广州杰赛科技股份有限公司 监控报警方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105429865A (zh) * 2015-12-31 2016-03-23 深圳中泓在线股份有限公司 一种基于浏览器的微信公众号数据采集方法及装置
CN105577528A (zh) * 2015-12-31 2016-05-11 深圳中泓在线股份有限公司 一种基于虚拟机的微信公众号数据采集方法及装置
CN105577528B (zh) * 2015-12-31 2019-01-15 深圳中泓在线股份有限公司 一种基于虚拟机的微信公众号数据采集方法及装置

Similar Documents

Publication Publication Date Title
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN107665444B (zh) 一种基于用户在线行为的网络广告即时效应评价方法及系统
CN104216921B (zh) 一种实现浏览器中快速链接的添加提示方法、装置及系统
US8255273B2 (en) Evaluating online marketing efficiency
Heymann et al. Turkalytics: analytics for human computation
CN104135365B (zh) 对访问请求进行验证的方法、服务器及客户端
CN106227832A (zh) 互联网大数据技术架构在企业内业务分析中的应用方法
CN103136330B (zh) 基于微博平台的用户可信度评估方法
CN103218412B (zh) 舆情信息处理方法与装置
WO2013185601A1 (zh) 一种获取产品信息的方法、装置及计算机存储介质
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN105224691B (zh) 一种信息处理方法及装置
CN102394798A (zh) 一种基于多元特征的微博信息传播行为预测方法及系统
CN108021651A (zh) 一种网络舆情风险评估方法及装置
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN106528777A (zh) 跨屏用户标识归一的方法及其系统
CN101819585A (zh) 一种论坛事件传播图的构建装置及构建方法
CN110519263A (zh) 防刷量方法、装置、设备及计算机可读存储介质
CN110417873A (zh) 一种实现记录网页交互操作的网络信息提取系统
Yin et al. Measuring pair-wise social influence in microblog
CN104348871A (zh) 一种同类账号扩展方法及装置
Liu et al. Request dependency graph: A model for web usage mining in large-scale web of things
CN104199953A (zh) 一种爬取手机客户端公共账号信息的方法
CN108459936B (zh) 一种基于内容模块化的精准统计方法及装置
JP2017167829A (ja) 検出装置、検出方法及び検出プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141210

WD01 Invention patent application deemed withdrawn after publication