CN103984719A - 一种爬虫模拟登陆采集的方法 - Google Patents

一种爬虫模拟登陆采集的方法 Download PDF

Info

Publication number
CN103984719A
CN103984719A CN201410196086.XA CN201410196086A CN103984719A CN 103984719 A CN103984719 A CN 103984719A CN 201410196086 A CN201410196086 A CN 201410196086A CN 103984719 A CN103984719 A CN 103984719A
Authority
CN
China
Prior art keywords
module
collected
gather
collection
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410196086.XA
Other languages
English (en)
Inventor
程瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410196086.XA priority Critical patent/CN103984719A/zh
Publication of CN103984719A publication Critical patent/CN103984719A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Virology (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。

Description

一种爬虫模拟登陆采集的方法
技术领域
本发明涉及计算机技术领域,具体的说是一种爬虫模拟登陆采集的方法。
背景技术
有的网站对爬虫做了限制,需要进行身份认证才能信息采集。如果使用爬虫直接对此类网站进行采集,得到的通常是用户信息认证失败后跳转到的用户登录页面,而不是实际想要采集的页面内容。基于此,现提供一种可以采集到需要的页面内容的方法。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种爬虫模拟登陆采集的方法。
本发明的技术方案是按以下方式实现的,该一种爬虫模拟登陆采集的方法,其具体实现过程为:
一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;
二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;
三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;
四、身份认证模块实现对待采集网站服务器返回值的记录;
五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;
六、采集请求模块发送对待采集页面的采集请求;
七、采集下载模块实现对待采集页面的采集;
八、如果不需要模拟登录采集,只需要进行步骤五和六。
本发明与现有技术相比所产生的有益效果是:
本发明的一种爬虫模拟登陆采集的方法自动化模拟用户登录,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图对本发明的一种爬虫模拟登陆采集的方法作以下详细说明。
如附图1所示,该一种爬虫模拟登陆采集的方法,其具体实现过程为:
一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;
二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;
三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;
四、身份认证模块实现对待采集网站服务器返回值的记录;
五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;
六、采集请求模块发送对待采集页面的采集请求;
七、采集下载模块实现对待采集页面的采集;
八、如果不需要模拟登录采集,只需要进行步骤五和六。
本发明适用于必须要身份认证才能采集的网页。该方法能够实现对需要身份认证网站的自动登录,并采集该页面内容。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种爬虫模拟登陆采集的方法,其特征在于其具体实现过程为:
一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;
二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;
三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;
四、身份认证模块实现对待采集网站服务器返回值的记录;
五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;
六、采集请求模块发送对待采集页面的采集请求;
七、采集下载模块实现对待采集页面的采集;
八、如果不需要模拟登录采集,只需要进行步骤五和六。
CN201410196086.XA 2014-05-12 2014-05-12 一种爬虫模拟登陆采集的方法 Pending CN103984719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410196086.XA CN103984719A (zh) 2014-05-12 2014-05-12 一种爬虫模拟登陆采集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410196086.XA CN103984719A (zh) 2014-05-12 2014-05-12 一种爬虫模拟登陆采集的方法

Publications (1)

Publication Number Publication Date
CN103984719A true CN103984719A (zh) 2014-08-13

Family

ID=51276692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410196086.XA Pending CN103984719A (zh) 2014-05-12 2014-05-12 一种爬虫模拟登陆采集的方法

Country Status (1)

Country Link
CN (1) CN103984719A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317880A (zh) * 2014-10-22 2015-01-28 浪潮软件集团有限公司 一种专门针对微博数据采集方式的方法
CN104468794A (zh) * 2014-12-10 2015-03-25 北京国双科技有限公司 网站的模拟登陆方法和装置
CN105550280A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 登录类型网站的数据采集系统
CN106681992A (zh) * 2015-11-05 2017-05-17 北京国双科技有限公司 管理网站登录信息的方法和装置
CN108076067A (zh) * 2017-12-27 2018-05-25 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统
CN103514171A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 基于光学字符识别与垂直搜索的自定义爬虫方法
CN103618649A (zh) * 2013-12-03 2014-03-05 北京人民在线网络有限公司 网站数据采集方法及装置
US10050984B2 (en) * 2011-12-20 2018-08-14 International Business Machines Corporation Identifying requests that invalidate user sessions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统
US10050984B2 (en) * 2011-12-20 2018-08-14 International Business Machines Corporation Identifying requests that invalidate user sessions
CN103514171A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 基于光学字符识别与垂直搜索的自定义爬虫方法
CN103618649A (zh) * 2013-12-03 2014-03-05 北京人民在线网络有限公司 网站数据采集方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317880A (zh) * 2014-10-22 2015-01-28 浪潮软件集团有限公司 一种专门针对微博数据采集方式的方法
CN104468794A (zh) * 2014-12-10 2015-03-25 北京国双科技有限公司 网站的模拟登陆方法和装置
CN104468794B (zh) * 2014-12-10 2018-11-06 北京国双科技有限公司 网站的模拟登陆方法和装置
CN106681992A (zh) * 2015-11-05 2017-05-17 北京国双科技有限公司 管理网站登录信息的方法和装置
CN106681992B (zh) * 2015-11-05 2020-12-01 北京国双科技有限公司 管理网站登录信息的方法和装置
CN105550280A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 登录类型网站的数据采集系统
CN108076067A (zh) * 2017-12-27 2018-05-25 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN108076067B (zh) * 2017-12-27 2021-05-18 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统

Similar Documents

Publication Publication Date Title
CN103984719A (zh) 一种爬虫模拟登陆采集的方法
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN104144142B (zh) 一种Web漏洞挖掘方法及系统
CN103139137B (zh) 网络服务提供方法及装置
CN102546642B (zh) 远程登录的方法及装置
CN103067198A (zh) 一种关联用户CookieID的方法及系统
CN106095979A (zh) Url合并处理方法和装置
CN102065147A (zh) 一种基于企业应用系统获取用户登录信息的方法及装置
CN104268082A (zh) 浏览器的压力测试方法和装置
CN103490896B (zh) 多用户网站自动登录器及其实现方法
CN106230809B (zh) 一种基于url的移动互联网舆情监测方法及系统
CN106330963A (zh) 一种跨网络多节点日志采集的方法
CN107612925A (zh) 一种基于访问行为特征的WebShell挖掘方法
CN104301161A (zh) 业务质量指标的计算方法、计算装置以及通信系统
CN103729380A (zh) 一种数据处理方法、系统及装置
CN105577528A (zh) 一种基于虚拟机的微信公众号数据采集方法及装置
CN104991904A (zh) 一种动态网页的页面数据采集方法
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
CN105721578A (zh) 一种用户行为数据采集方法和系统
Porter et al. The Design and Implementation of a RESTful IoT Service Using the MERN Stack
CN102571922B (zh) 一种数据流处理方法及装置
CN104636340A (zh) 网页url过滤方法、装置及系统
CN103581343A (zh) 一种录制http请求的方法
Lu et al. Research on forensic model of online social network
CN103077599A (zh) 一种基于仪表的数据采集器及数据采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140813

RJ01 Rejection of invention patent application after publication