CN105631030A - 一种通用的网络爬虫模拟登录方法及系统 - Google Patents

一种通用的网络爬虫模拟登录方法及系统 Download PDF

Info

Publication number
CN105631030A
CN105631030A CN201511026050.8A CN201511026050A CN105631030A CN 105631030 A CN105631030 A CN 105631030A CN 201511026050 A CN201511026050 A CN 201511026050A CN 105631030 A CN105631030 A CN 105631030A
Authority
CN
China
Prior art keywords
website
browser
access
network reptile
cookie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511026050.8A
Other languages
English (en)
Inventor
倪时龙
苏江文
张垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Yirong Information Technology Co Ltd
Original Assignee
Fujian Yirong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Yirong Information Technology Co Ltd filed Critical Fujian Yirong Information Technology Co Ltd
Priority to CN201511026050.8A priority Critical patent/CN105631030A/zh
Publication of CN105631030A publication Critical patent/CN105631030A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding

Abstract

本发明提供一种通用的网络爬虫模拟登录方法,所述方法为:配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;网络爬虫调用无UI浏览器访问各个站点;无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;网络爬虫携带cookie信息访问站点,爬取站点网页内容。本发明解决了爬虫模拟登录过程需要人工参与或需要针对特定站点进行定制程序开发的问题,减少开发工作量并避免了需要人工参与的弊端。

Description

一种通用的网络爬虫模拟登录方法及系统
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种通用的网络爬虫模拟登录方法及系统。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫是一个自动提取网页的程序,它从万维网上下载网页,是搜索引擎的重要组成,其一般是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
在网络爬虫爬取网站内容时,大部分网站要求验证用户信息后才可以访问网站的页面,因此爬虫中都会实现一些基本的模拟登录功能,能实现对多数网站的模拟登录,之后爬取网站页面内容。然而随着技术的不断发展,网站的验证机制越来越复杂,基本的模拟登录已经无法应对。
1.业界现在通常的做法是采用基本的模拟登录方法来应对验证机制比较简单的网站,对于验证复杂的网站采用针对性定制开发的方法来模拟登陆:对特定站点进行手工登录,截取登录过程中的网络数据包,分析网站的认证机制及认证参数,最后编写程序模拟登录过程。这种方案的缺点是开发工作量很大,站点认证规则变化的时候需要修改原先的程序。
2.采用人工干预的方式来进行爬虫的模拟登录:爬虫爬取特定网站时先弹出网站的登陆页面,然后由人工进行用户、密码等认证信息的录入,验证通过后再由爬虫进行网站页面内容的抓取。这种方案的缺点是需要人工参与,无法实现全自动化内容爬取。
现有技术中公开了一种“支持人工会话嫁接的网络爬虫系统和实现方法”,公开号为:CN104298716A,公开日为:2015-01-21的中国专利,该发明涉及一种支持人工会话嫁接的网络爬虫系统和实现方法。首先分析要爬取的目标网站,将登录页面设为初始页面;用户模拟模块与目标网站建立网络连接,为人工操作提供信息输入接口;人工智力参与模块输入所需要的信息并传递给用户模拟模块;用户模拟模块定位登录页面中的输入框和登录按钮,输入相关信息并通过网络访问模块外发到目标网站进行登录;登录完成后用户模拟模块打开爬虫要爬取的页面,并将页面的回应信息传递给爬虫模块;爬虫模块获得执行权限后,沿用人工在用户模拟模块中创建的网络会话,访问目标网站,爬取网站内容。该发明将人工智力参与所建立的网络会话用于爬虫模块,能够让网络爬虫获得与真人上网完全相同的网络访问能力。该发明需要人工参与,才能完成网络爬取网站内容。且该发明实现的技术方案与本专利申请并不相同。
发明内容
本发明要解决的技术问题之一,在于提供一种通用的网络爬虫模拟登录方法,通过调用无UI浏览器模拟人工登录过程并获得cookie,爬虫利用cookie实现免登陆访问站点;减少开发工作量并避免了需要人工参与的弊端。
本发明问题之一是这样实现的:一种通用的网络爬虫模拟登录方法,所述方法为:
配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;
网络爬虫调用无UI浏览器访问各个站点;
无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;
网络爬虫携带cookie信息访问站点,爬取站点网页内容。
进一步的,所述无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息,具体为:
步骤1、网络爬虫调用无UI浏览器访问网页API,将要访问的网站登陆网页地址传给无UI浏览器;
步骤2、无UI浏览器加载网站登陆网页,网络爬虫调用无UI浏览器的获取网页API,并获得网页的html内容;
步骤3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域,填入站点的用户名、密码信息,调用无UI浏览器的提交表单API,将验证信息提交给网站验证;
步骤4、提交的验证信息认证成功后,网络爬虫调用无UI浏览器获得cookie接口,通过cookie接口取得该站点的cookie信息并保存。
进一步的,所述网络爬虫携带cookie信息访问站点,爬取站点网页内容,具体为:网络爬虫发送http请求访问站点,并在http请求中设置所述取得的cookie信息,在cookie失效前网络爬虫免登录访问站点,网络爬取站点网页内容。
本发明要解决的技术问题之二,在于提供一种通用的网络爬虫模拟登录系统,通过调用无UI浏览器模拟人工登录过程并获得cookie,爬虫利用cookie实现免登陆访问站点;减少开发工作量并避免了需要人工参与的弊端。
本发明问题之二是这样实现的:一种通用的网络爬虫模拟登录系统,所述系统包括:配置模块、访问模块、模拟登录模块以及爬取网页内容模块;
所述配置模块,用于配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;
所述访问模块,用于网络爬虫调用无UI浏览器访问各个站点;
所述模拟登录模块,通过无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;
所述爬取网页内容模块,通过网络爬虫携带cookie信息访问站点,爬取站点网页内容。
进一步的,所述模拟登录模块具体的实现方式为:
1、网络爬虫调用无UI浏览器访问网页API,将要访问的网站登陆网页地址传给无UI浏览器;
2、无UI浏览器加载网站登陆网页,网络爬虫调用无UI浏览器的获取网页API,并获得网页的html内容;
3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域,填入站点的用户名、密码信息,调用无UI浏览器的提交表单API,将验证信息提交给网站验证;
4、提交的验证信息认证成功后,网络爬虫调用无UI浏览器获得cookie接口,通过cookie接口取得该站点的cookie信息并保存。
进一步的,所述网络爬虫携带cookie信息访问站点,爬取站点网页内容,具体为:网络爬虫发送http请求访问站点,并在http请求中设置所述取得的cookie信息,在cookie失效前网络爬虫免登录访问站点,网络爬取站点网页内容。
本发明具有如下优点:本发明通过调用无UI浏览器模拟人工登录过程,认证成功后保存cookie,爬取利用cookie实现免登陆访问站点爬取站点内容。解决了爬虫模拟登录过程需要人工参与或需要针对特定站点进行定制程序开发的问题,减少开发工作量并避免了需要人工参与的弊端。
附图说明
图1为本发明方法流程示意图。
图2为本发明系统的结构示意图。
具体实施方式
请参阅图1所示,本发明的一种通用的网络爬虫模拟登录方法,所述方法为:
配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;该认证信息一般保存在数据库中;
网络爬虫调用无UI浏览器访问各个站点;
无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;
其中,具体为:
步骤1、网络爬虫调用无UI浏览器访问网页API,将要访问的网站登陆网页地址传给无UI浏览器;
步骤2、无UI浏览器加载网站登陆网页,网络爬虫调用无UI浏览器的获取网页API,并获得网页的html内容;
步骤3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域,填入站点的用户名、密码信息,调用无UI浏览器的提交表单API,将验证信息提交给网站验证;
步骤4、提交的验证信息认证成功后,网络爬虫调用无UI浏览器(selenium)获得cookie接口,通过cookie接口取得该站点的cookie信息并保存。
网络爬虫携带cookie信息访问站点,爬取站点网页内容。
其中,所述网络爬虫携带cookie信息访问站点,爬取站点网页内容,具体为:网络爬虫发送http请求访问站点,并在http请求中设置所述取得的cookie信息,在cookie失效前网络爬虫免登录访问站点,网络爬取站点网页内容。
请参阅图2所示,本发明的一种通用的网络爬虫模拟登录系统,所述系统包括:配置模块、访问模块、模拟登录模块以及爬取网页内容模块;
所述配置模块,用于配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;
所述访问模块,用于网络爬虫调用无UI浏览器访问各个站点;
所述模拟登录模块,通过无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;
所述爬取网页内容模块,通过网络爬虫携带cookie信息访问站点,爬取站点网页内容。
所述模拟登录模块具体的实现方式为:
1、网络爬虫调用无UI浏览器访问网页API,将要访问的网站登陆网页地址传给无UI浏览器;
2、无UI浏览器加载网站登陆网页,网络爬虫调用无UI浏览器的获取网页API,并获得网页的html内容;
3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域,填入站点的用户名、密码信息,调用无UI浏览器的提交表单API,将验证信息提交给网站验证;
4、提交的验证信息认证成功后,网络爬虫调用无UI浏览器获得cookie接口,通过cookie接口取得该站点的cookie信息并保存。
其中,所述网络爬虫携带cookie信息访问站点,爬取站点网页内容,具体为:网络爬虫发送http请求访问站点,并在http请求中设置所述取得的cookie信息,在cookie失效前网络爬虫免登录访问站点,网络爬取站点网页内容。
总之,本发明通过调用无UI浏览器模拟人工登录过程,认证成功后保存cookie,爬取利用cookie实现免登陆访问站点爬取站点内容。解决了爬虫模拟登录过程需要人工参与或需要针对特定站点进行定制程序开发的问题,减少开发工作量并避免了需要人工参与的弊端。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (6)

1.一种通用的网络爬虫模拟登录方法,其特征在于:所述方法为:
配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;
网络爬虫调用无UI浏览器访问各个站点;
无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;
网络爬虫携带cookie信息访问站点,爬取站点网页内容。
2.根据权利要求1所述的一种通用的网络爬虫模拟登录方法,其特征在于:所述无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息,具体为:
步骤1、网络爬虫调用无UI浏览器访问网页API,将要访问的网站登陆网页地址传给无UI浏览器;
步骤2、无UI浏览器加载网站登陆网页,网络爬虫调用无UI浏览器的获取网页API,并获得网页的html内容;
步骤3、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域,填入站点的用户名、密码信息,调用无UI浏览器的提交表单API,将验证信息提交给网站验证;
步骤4、提交的验证信息认证成功后,网络爬虫调用无UI浏览器获得cookie接口,通过cookie接口取得该站点的cookie信息并保存。
3.根据权利要求1所述的一种通用的网络爬虫模拟登录方法,其特征在于:所述网络爬虫携带cookie信息访问站点,爬取站点网页内容,具体为:网络爬虫发送http请求访问站点,并在http请求中设置所述取得的cookie信息,在cookie失效前网络爬虫免登录访问站点,网络爬取站点网页内容。
4.一种通用的网络爬虫模拟登录系统,其特征在于:所述系统包括:配置模块、访问模块、模拟登录模块以及爬取网页内容模块;
所述配置模块,用于配置要爬取的各个站点的认证信息,所述认证信息包括:用户名、密码以及用户权限;
所述访问模块,用于网络爬虫调用无UI浏览器访问各个站点;
所述模拟登录模块,通过无UI浏览器模拟人工登录过程,认证成功后保存各个站点的cookie信息;
所述爬取网页内容模块,通过网络爬虫携带cookie信息访问站点,爬取站点网页内容。
5.根据权利要求4所述的一种通用的网络爬虫模拟登录系统,其特征在于:所述模拟登录模块具体的实现方式为:
(1)、网络爬虫调用无UI浏览器访问网页API,将要访问的网站登陆网页地址传给无UI浏览器;
(2)、无UI浏览器加载网站登陆网页,网络爬虫调用无UI浏览器的获取网页API,并获得网页的html内容;
(3)、网络爬虫分析获得的html内容查找登录页面的用户名、密码输入域,填入站点的用户名、密码信息,调用无UI浏览器的提交表单API,将验证信息提交给网站验证;
(4)、提交的验证信息认证成功后,网络爬虫调用无UI浏览器获得cookie接口,通过cookie接口取得该站点的cookie信息并保存。
6.根据权利要求4所述的一种通用的网络爬虫模拟登录系统,其特征在于:所述网络爬虫携带cookie信息访问站点,爬取站点网页内容,具体为:网络爬虫发送http请求访问站点,并在http请求中设置所述取得的cookie信息,在cookie失效前网络爬虫免登录访问站点,网络爬取站点网页内容。
CN201511026050.8A 2015-12-30 2015-12-30 一种通用的网络爬虫模拟登录方法及系统 Pending CN105631030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511026050.8A CN105631030A (zh) 2015-12-30 2015-12-30 一种通用的网络爬虫模拟登录方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511026050.8A CN105631030A (zh) 2015-12-30 2015-12-30 一种通用的网络爬虫模拟登录方法及系统

Publications (1)

Publication Number Publication Date
CN105631030A true CN105631030A (zh) 2016-06-01

Family

ID=56045963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511026050.8A Pending CN105631030A (zh) 2015-12-30 2015-12-30 一种通用的网络爬虫模拟登录方法及系统

Country Status (1)

Country Link
CN (1) CN105631030A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547913A (zh) * 2016-11-25 2017-03-29 网易(杭州)网络有限公司 页面信息的收集分类反馈方法、装置及系统
CN106649719A (zh) * 2016-12-22 2017-05-10 北京览群智数据科技有限责任公司 一种页面的下载方法及客户端
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN107645515A (zh) * 2016-07-20 2018-01-30 北大方正集团有限公司 网络信息的发布方法和网络信息的发布装置
CN107644021A (zh) * 2016-07-20 2018-01-30 北大方正集团有限公司 信息采集方法和信息采集装置
CN108021604A (zh) * 2017-10-24 2018-05-11 山东科技大学 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法
CN108076067A (zh) * 2017-12-27 2018-05-25 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN108322524A (zh) * 2018-01-22 2018-07-24 杭州迪普科技股份有限公司 一种负载均衡设备会话保持测试方法及装置
US10185732B2 (en) * 2015-07-02 2019-01-22 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
CN109783714A (zh) * 2019-01-08 2019-05-21 上海因致信息科技有限公司 接口数据获取方法及系统
CN110445746A (zh) * 2018-05-04 2019-11-12 腾讯科技(深圳)有限公司 cookie获取方法、装置及存储设备
CN110619072A (zh) * 2019-08-29 2019-12-27 凡普数字技术有限公司 银行账户信息的采集方法、装置以及存储介质
CN110909229A (zh) * 2019-11-27 2020-03-24 佛山科学技术学院 一种基于模拟浏览器访问的网页数据获取和存储的系统
CN110968760A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据的爬取方法、装置、网页登录方法及装置
CN110968753A (zh) * 2018-09-28 2020-04-07 北京国双科技有限公司 网页数据爬取方法及装置
CN111191097A (zh) * 2019-12-20 2020-05-22 天阳宏业科技股份有限公司 一种网络爬虫自动化获取网页信息方法、装置及系统
CN111552854A (zh) * 2020-04-24 2020-08-18 北京明略软件系统有限公司 一种网页数据抓取方法、装置、存储介质和设备
CN113032655A (zh) * 2021-04-14 2021-06-25 中国刑事警察学院 一种暗网电子数据提取固定方法
CN113254744A (zh) * 2021-04-24 2021-08-13 中电长城网际系统应用广东有限公司 一种使用网络爬虫技术获取安全设备数据信息的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN103490896A (zh) * 2013-09-16 2014-01-01 北京鹏宇成软件技术有限公司 多用户网站自动登录器及其实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN103490896A (zh) * 2013-09-16 2014-01-01 北京鹏宇成软件技术有限公司 多用户网站自动登录器及其实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WARRIOR_ZHANG: "python 利用selenium模拟登录帐号验证网站并获取cookie", 《HTTPS://BLOG.CSDN.NET/WARRIOR_ZHANG/ARTICLE/DETAILS/50198699》 *
郭颖为: "微博网络爬行器技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185732B2 (en) * 2015-07-02 2019-01-22 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
CN107645515A (zh) * 2016-07-20 2018-01-30 北大方正集团有限公司 网络信息的发布方法和网络信息的发布装置
CN107644021A (zh) * 2016-07-20 2018-01-30 北大方正集团有限公司 信息采集方法和信息采集装置
CN106547913B (zh) * 2016-11-25 2020-04-21 网易(杭州)网络有限公司 页面信息的收集分类反馈方法、装置及系统
CN106547913A (zh) * 2016-11-25 2017-03-29 网易(杭州)网络有限公司 页面信息的收集分类反馈方法、装置及系统
CN106649719A (zh) * 2016-12-22 2017-05-10 北京览群智数据科技有限责任公司 一种页面的下载方法及客户端
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN106897357B (zh) * 2017-01-04 2023-07-18 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN108021604A (zh) * 2017-10-24 2018-05-11 山东科技大学 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法
CN108076067B (zh) * 2017-12-27 2021-05-18 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN108076067A (zh) * 2017-12-27 2018-05-25 北京中关村科金技术有限公司 一种授权爬虫配置化模拟登录的方法及系统
CN108322524A (zh) * 2018-01-22 2018-07-24 杭州迪普科技股份有限公司 一种负载均衡设备会话保持测试方法及装置
CN110445746B (zh) * 2018-05-04 2022-01-07 腾讯科技(深圳)有限公司 cookie获取方法、装置及存储设备
CN110445746A (zh) * 2018-05-04 2019-11-12 腾讯科技(深圳)有限公司 cookie获取方法、装置及存储设备
CN110968753A (zh) * 2018-09-28 2020-04-07 北京国双科技有限公司 网页数据爬取方法及装置
CN110968753B (zh) * 2018-09-28 2024-02-13 北京国双科技有限公司 网页数据爬取方法及装置
CN110968760A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据的爬取方法、装置、网页登录方法及装置
CN109783714A (zh) * 2019-01-08 2019-05-21 上海因致信息科技有限公司 接口数据获取方法及系统
CN110619072A (zh) * 2019-08-29 2019-12-27 凡普数字技术有限公司 银行账户信息的采集方法、装置以及存储介质
CN110909229A (zh) * 2019-11-27 2020-03-24 佛山科学技术学院 一种基于模拟浏览器访问的网页数据获取和存储的系统
CN111191097A (zh) * 2019-12-20 2020-05-22 天阳宏业科技股份有限公司 一种网络爬虫自动化获取网页信息方法、装置及系统
CN111552854A (zh) * 2020-04-24 2020-08-18 北京明略软件系统有限公司 一种网页数据抓取方法、装置、存储介质和设备
CN113032655A (zh) * 2021-04-14 2021-06-25 中国刑事警察学院 一种暗网电子数据提取固定方法
CN113254744A (zh) * 2021-04-24 2021-08-13 中电长城网际系统应用广东有限公司 一种使用网络爬虫技术获取安全设备数据信息的方法

Similar Documents

Publication Publication Date Title
CN105631030A (zh) 一种通用的网络爬虫模拟登录方法及系统
JP6494610B2 (ja) コードの仮想化およびリモートプロセスコール生成のための方法および装置
US10567407B2 (en) Method and system for detecting malicious web addresses
CN103198130B (zh) 在客户端处实现与网页统一的登录的方法和装置
CN109933701B (zh) 一种基于多策略融合的微博数据获取方法
CN103856493B (zh) 跨域登录系统及方法
CN113272825A (zh) 通过模拟进行的强化学习模型训练
CN101872365A (zh) 一种在网页上实现的一键登录到其他网站的方法
CN107943997B (zh) 一种基于谷歌浏览器的远程网站取证方法、终端设备及存储介质
CN107609150A (zh) 一种基于页面元素选取的交互式网络爬虫创建方法及系统
CN107562548A (zh) 传输数据的方法和装置
CN103533097A (zh) 一种网络爬虫下载解析方法及装置
CN107391775A (zh) 一种通用的网络爬虫模型实现方法及系统
CN103490896B (zh) 多用户网站自动登录器及其实现方法
Tappenden et al. Agile security testing of web-based systems via httpunit
CN102710559B (zh) 一种反向代理技术实现数字文献资源网关的方法
CN102880698B (zh) 一种抓取网站确定方法及装置
CN107704499A (zh) 一种应用程序的页面跳转控制方法及装置
US11882159B2 (en) Executing code injected into an intercepted application response message to eliminate accumulation of stale computing sessions
CN104301148A (zh) 一种基于网站访问的用户行为记录方法
Gheorghe et al. Modern techniques of web scraping for data scientists
CN110489698B (zh) 一种自动化采集网页数据的系统及方法
CN103970882A (zh) 渲染页面的方法及装置
WO2020155765A1 (zh) 移动终端爬取数据的方法、装置、移动终端和存储介质
CN103399968A (zh) 一种微博信息采集方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication