CN103984719A - 一种爬虫模拟登陆采集的方法 - Google Patents
一种爬虫模拟登陆采集的方法 Download PDFInfo
- Publication number
- CN103984719A CN103984719A CN201410196086.XA CN201410196086A CN103984719A CN 103984719 A CN103984719 A CN 103984719A CN 201410196086 A CN201410196086 A CN 201410196086A CN 103984719 A CN103984719 A CN 103984719A
- Authority
- CN
- China
- Prior art keywords
- module
- collected
- gather
- collection
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Virology (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。
Description
技术领域
本发明涉及计算机技术领域,具体的说是一种爬虫模拟登陆采集的方法。
背景技术
有的网站对爬虫做了限制,需要进行身份认证才能信息采集。如果使用爬虫直接对此类网站进行采集,得到的通常是用户信息认证失败后跳转到的用户登录页面,而不是实际想要采集的页面内容。基于此,现提供一种可以采集到需要的页面内容的方法。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种爬虫模拟登陆采集的方法。
本发明的技术方案是按以下方式实现的,该一种爬虫模拟登陆采集的方法,其具体实现过程为:
一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;
二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;
三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;
四、身份认证模块实现对待采集网站服务器返回值的记录;
五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;
六、采集请求模块发送对待采集页面的采集请求;
七、采集下载模块实现对待采集页面的采集;
八、如果不需要模拟登录采集,只需要进行步骤五和六。
本发明与现有技术相比所产生的有益效果是:
本发明的一种爬虫模拟登陆采集的方法自动化模拟用户登录,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图对本发明的一种爬虫模拟登陆采集的方法作以下详细说明。
如附图1所示,该一种爬虫模拟登陆采集的方法,其具体实现过程为:
一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;
二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;
三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;
四、身份认证模块实现对待采集网站服务器返回值的记录;
五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;
六、采集请求模块发送对待采集页面的采集请求;
七、采集下载模块实现对待采集页面的采集;
八、如果不需要模拟登录采集,只需要进行步骤五和六。
本发明适用于必须要身份认证才能采集的网页。该方法能够实现对需要身份认证网站的自动登录,并采集该页面内容。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种爬虫模拟登陆采集的方法,其特征在于其具体实现过程为:
一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;
二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;
三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;
四、身份认证模块实现对待采集网站服务器返回值的记录;
五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;
六、采集请求模块发送对待采集页面的采集请求;
七、采集下载模块实现对待采集页面的采集;
八、如果不需要模拟登录采集,只需要进行步骤五和六。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410196086.XA CN103984719A (zh) | 2014-05-12 | 2014-05-12 | 一种爬虫模拟登陆采集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410196086.XA CN103984719A (zh) | 2014-05-12 | 2014-05-12 | 一种爬虫模拟登陆采集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103984719A true CN103984719A (zh) | 2014-08-13 |
Family
ID=51276692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410196086.XA Pending CN103984719A (zh) | 2014-05-12 | 2014-05-12 | 一种爬虫模拟登陆采集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103984719A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317880A (zh) * | 2014-10-22 | 2015-01-28 | 浪潮软件集团有限公司 | 一种专门针对微博数据采集方式的方法 |
CN104468794A (zh) * | 2014-12-10 | 2015-03-25 | 北京国双科技有限公司 | 网站的模拟登陆方法和装置 |
CN105550280A (zh) * | 2015-12-10 | 2016-05-04 | 天津海量信息技术有限公司 | 登录类型网站的数据采集系统 |
CN106681992A (zh) * | 2015-11-05 | 2017-05-17 | 北京国双科技有限公司 | 管理网站登录信息的方法和装置 |
CN108076067A (zh) * | 2017-12-27 | 2018-05-25 | 北京中关村科金技术有限公司 | 一种授权爬虫配置化模拟登录的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298622A (zh) * | 2011-08-11 | 2011-12-28 | 中国科学院自动化研究所 | 基于锚文本的聚焦网络爬虫搜索方法及其系统 |
CN103514171A (zh) * | 2012-06-20 | 2014-01-15 | 同程网络科技股份有限公司 | 基于光学字符识别与垂直搜索的自定义爬虫方法 |
CN103618649A (zh) * | 2013-12-03 | 2014-03-05 | 北京人民在线网络有限公司 | 网站数据采集方法及装置 |
US10050984B2 (en) * | 2011-12-20 | 2018-08-14 | International Business Machines Corporation | Identifying requests that invalidate user sessions |
-
2014
- 2014-05-12 CN CN201410196086.XA patent/CN103984719A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298622A (zh) * | 2011-08-11 | 2011-12-28 | 中国科学院自动化研究所 | 基于锚文本的聚焦网络爬虫搜索方法及其系统 |
US10050984B2 (en) * | 2011-12-20 | 2018-08-14 | International Business Machines Corporation | Identifying requests that invalidate user sessions |
CN103514171A (zh) * | 2012-06-20 | 2014-01-15 | 同程网络科技股份有限公司 | 基于光学字符识别与垂直搜索的自定义爬虫方法 |
CN103618649A (zh) * | 2013-12-03 | 2014-03-05 | 北京人民在线网络有限公司 | 网站数据采集方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317880A (zh) * | 2014-10-22 | 2015-01-28 | 浪潮软件集团有限公司 | 一种专门针对微博数据采集方式的方法 |
CN104468794A (zh) * | 2014-12-10 | 2015-03-25 | 北京国双科技有限公司 | 网站的模拟登陆方法和装置 |
CN104468794B (zh) * | 2014-12-10 | 2018-11-06 | 北京国双科技有限公司 | 网站的模拟登陆方法和装置 |
CN106681992A (zh) * | 2015-11-05 | 2017-05-17 | 北京国双科技有限公司 | 管理网站登录信息的方法和装置 |
CN106681992B (zh) * | 2015-11-05 | 2020-12-01 | 北京国双科技有限公司 | 管理网站登录信息的方法和装置 |
CN105550280A (zh) * | 2015-12-10 | 2016-05-04 | 天津海量信息技术有限公司 | 登录类型网站的数据采集系统 |
CN108076067A (zh) * | 2017-12-27 | 2018-05-25 | 北京中关村科金技术有限公司 | 一种授权爬虫配置化模拟登录的方法及系统 |
CN108076067B (zh) * | 2017-12-27 | 2021-05-18 | 北京中关村科金技术有限公司 | 一种授权爬虫配置化模拟登录的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103984719A (zh) | 一种爬虫模拟登陆采集的方法 | |
CN105357054B (zh) | 网站流量分析方法、装置和电子设备 | |
CN104144142B (zh) | 一种Web漏洞挖掘方法及系统 | |
CN103139137B (zh) | 网络服务提供方法及装置 | |
CN102546642B (zh) | 远程登录的方法及装置 | |
CN103067198A (zh) | 一种关联用户CookieID的方法及系统 | |
CN106095979A (zh) | Url合并处理方法和装置 | |
CN102065147A (zh) | 一种基于企业应用系统获取用户登录信息的方法及装置 | |
CN104268082A (zh) | 浏览器的压力测试方法和装置 | |
CN103490896B (zh) | 多用户网站自动登录器及其实现方法 | |
CN106230809B (zh) | 一种基于url的移动互联网舆情监测方法及系统 | |
CN106330963A (zh) | 一种跨网络多节点日志采集的方法 | |
CN107612925A (zh) | 一种基于访问行为特征的WebShell挖掘方法 | |
CN104301161A (zh) | 业务质量指标的计算方法、计算装置以及通信系统 | |
CN103729380A (zh) | 一种数据处理方法、系统及装置 | |
CN105577528A (zh) | 一种基于虚拟机的微信公众号数据采集方法及装置 | |
CN104991904A (zh) | 一种动态网页的页面数据采集方法 | |
CN110555146A (zh) | 一种网络爬虫伪装数据的生成方法及系统 | |
CN105721578A (zh) | 一种用户行为数据采集方法和系统 | |
Porter et al. | The Design and Implementation of a RESTful IoT Service Using the MERN Stack | |
CN102571922B (zh) | 一种数据流处理方法及装置 | |
CN104636340A (zh) | 网页url过滤方法、装置及系统 | |
CN103581343A (zh) | 一种录制http请求的方法 | |
Lu et al. | Research on forensic model of online social network | |
CN103077599A (zh) | 一种基于仪表的数据采集器及数据采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140813 |
|
RJ01 | Rejection of invention patent application after publication |