CN104199953A - 一种爬取手机客户端公共账号信息的方法 - Google Patents
一种爬取手机客户端公共账号信息的方法 Download PDFInfo
- Publication number
- CN104199953A CN104199953A CN201410467250.6A CN201410467250A CN104199953A CN 104199953 A CN104199953 A CN 104199953A CN 201410467250 A CN201410467250 A CN 201410467250A CN 104199953 A CN104199953 A CN 104199953A
- Authority
- CN
- China
- Prior art keywords
- address
- public
- information
- account information
- mobile phone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 9
- 230000009193 crawling Effects 0.000 title abstract 2
- 230000002265 prevention Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000000265 homogenisation Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种爬取手机客户端公共账号信息的方法,解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面信息。
Description
技术领域
本发明涉及网络爬虫、模拟浏览器、抓url包技术领域,具体地说是一种爬取手机客户端公共账号信息的方法。
背景技术
当今,大大小小的企业为了宣传产品或者提供服务,大部分都会注册微信的公共账号。公共账号分为组织和个人,个人只能申请订阅号。而随着公共账号的增多和账号菜单、内容的随意性,给采集也带了以下难题:
1. 标签不规则。模板采用多种样式;
2. 采集地址的随意变化;
3. 获取一个带有时间戳的ajax返回来的的URL,只能在短时间内获取该数据,否则会过期。
而本发明通过制定多模版化的采集规则,解决了标签不一,然后通过标签里的url,访问不同地址的页面内容。最后获取页面里的发送请求事件,模拟事件发送地址请求,并附带时间戳,获取到每个公共账号信息的地址。
发明内容
本发明的目的是提供一种爬取手机客户端公共账号信息的方法。
本发明的目的是按以下方式实现的,由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接;
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
本发明的优异效果:解决了手机客户端部分公共账号信息采集的难题。目前公众号整体数量在300万多,微信整体国内用户数在5亿;这也就说明每个微信用户已经开始关注大量的微信公众号,微信公众号的信息同质化严重(尤其是信息类)。但同时,微信公众号们的弊端也越来越明显,一些杂七杂八甚至有悖于法理的信息不断干扰、冲击着人们。因此,需要通过公众号发布的内容进一步判断,有哪些有益信息,有哪些是负面信息。这么多公众号,如何能采集每个公众号的内容信息。
附图说明
图1是实施本发明方法的流程图。
具体实施方式
参照说明书附图对本发明的爬取手机客户端公共账号信息的方法,作以下详细地说明。
由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接;
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种爬取手机客户端公共账号信息的方法, 其特征在于由于各个公共账号信息地址不一样,异步加载数据的地址更是不一样,因此,分以下几步完成对手机端公共账号信息数据采集:
1)安装采集软件及分析工具;
2)分析异步加载网页,寻找异步请求地址;
3)分析出异步请求地址规律,配置相关工具实施数据采集;
4)把采集的数据通过json分析后,储存到服务器;
5)通过手机微信搜到公众账号,或通过“扫一扫”搜到公众账号;
6)打开抓包工具,设置手机网络的代理地址,把地址设置成电脑的地址,设置正确的端口号;
7)打开搜到公共账号发布的信息链接;
8)分析抓到的地址;
9)通过分析数据,预防反面言论,判断事件的目的性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410467250.6A CN104199953A (zh) | 2014-09-15 | 2014-09-15 | 一种爬取手机客户端公共账号信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410467250.6A CN104199953A (zh) | 2014-09-15 | 2014-09-15 | 一种爬取手机客户端公共账号信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104199953A true CN104199953A (zh) | 2014-12-10 |
Family
ID=52085246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410467250.6A Pending CN104199953A (zh) | 2014-09-15 | 2014-09-15 | 一种爬取手机客户端公共账号信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199953A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429865A (zh) * | 2015-12-31 | 2016-03-23 | 深圳中泓在线股份有限公司 | 一种基于浏览器的微信公众号数据采集方法及装置 |
CN105577528A (zh) * | 2015-12-31 | 2016-05-11 | 深圳中泓在线股份有限公司 | 一种基于虚拟机的微信公众号数据采集方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6791587B1 (en) * | 2000-03-16 | 2004-09-14 | International Business Machines Corporation | Method and component for navigating a hierarchical user interface representation |
US7197491B1 (en) * | 1999-09-21 | 2007-03-27 | International Business Machines Corporation | Architecture and implementation of a dynamic RMI server configuration hierarchy to support federated search and update across heterogeneous datastores |
CN103685254A (zh) * | 2013-12-05 | 2014-03-26 | 奇智软件(北京)有限公司 | 公共账号信息的安全检测方法与服务器 |
CN103714438A (zh) * | 2014-01-09 | 2014-04-09 | 国家电网公司 | 一种电业信息管理系统和使用方法 |
CN103794033A (zh) * | 2014-02-27 | 2014-05-14 | 广州杰赛科技股份有限公司 | 监控报警方法和装置 |
-
2014
- 2014-09-15 CN CN201410467250.6A patent/CN104199953A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7197491B1 (en) * | 1999-09-21 | 2007-03-27 | International Business Machines Corporation | Architecture and implementation of a dynamic RMI server configuration hierarchy to support federated search and update across heterogeneous datastores |
US6791587B1 (en) * | 2000-03-16 | 2004-09-14 | International Business Machines Corporation | Method and component for navigating a hierarchical user interface representation |
CN103685254A (zh) * | 2013-12-05 | 2014-03-26 | 奇智软件(北京)有限公司 | 公共账号信息的安全检测方法与服务器 |
CN103714438A (zh) * | 2014-01-09 | 2014-04-09 | 国家电网公司 | 一种电业信息管理系统和使用方法 |
CN103794033A (zh) * | 2014-02-27 | 2014-05-14 | 广州杰赛科技股份有限公司 | 监控报警方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429865A (zh) * | 2015-12-31 | 2016-03-23 | 深圳中泓在线股份有限公司 | 一种基于浏览器的微信公众号数据采集方法及装置 |
CN105577528A (zh) * | 2015-12-31 | 2016-05-11 | 深圳中泓在线股份有限公司 | 一种基于虚拟机的微信公众号数据采集方法及装置 |
CN105577528B (zh) * | 2015-12-31 | 2019-01-15 | 深圳中泓在线股份有限公司 | 一种基于虚拟机的微信公众号数据采集方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105357054B (zh) | 网站流量分析方法、装置和电子设备 | |
CN107665444B (zh) | 一种基于用户在线行为的网络广告即时效应评价方法及系统 | |
CN104216921B (zh) | 一种实现浏览器中快速链接的添加提示方法、装置及系统 | |
US8255273B2 (en) | Evaluating online marketing efficiency | |
Heymann et al. | Turkalytics: analytics for human computation | |
CN104135365B (zh) | 对访问请求进行验证的方法、服务器及客户端 | |
CN106227832A (zh) | 互联网大数据技术架构在企业内业务分析中的应用方法 | |
CN103136330B (zh) | 基于微博平台的用户可信度评估方法 | |
CN103218412B (zh) | 舆情信息处理方法与装置 | |
WO2013185601A1 (zh) | 一种获取产品信息的方法、装置及计算机存储介质 | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN105224691B (zh) | 一种信息处理方法及装置 | |
CN102394798A (zh) | 一种基于多元特征的微博信息传播行为预测方法及系统 | |
CN108021651A (zh) | 一种网络舆情风险评估方法及装置 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN106528777A (zh) | 跨屏用户标识归一的方法及其系统 | |
CN101819585A (zh) | 一种论坛事件传播图的构建装置及构建方法 | |
CN110519263A (zh) | 防刷量方法、装置、设备及计算机可读存储介质 | |
CN110417873A (zh) | 一种实现记录网页交互操作的网络信息提取系统 | |
Yin et al. | Measuring pair-wise social influence in microblog | |
CN104348871A (zh) | 一种同类账号扩展方法及装置 | |
Liu et al. | Request dependency graph: A model for web usage mining in large-scale web of things | |
CN104199953A (zh) | 一种爬取手机客户端公共账号信息的方法 | |
CN108459936B (zh) | 一种基于内容模块化的精准统计方法及装置 | |
JP2017167829A (ja) | 検出装置、検出方法及び検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141210 |
|
WD01 | Invention patent application deemed withdrawn after publication |