CN111191097A - 一种网络爬虫自动化获取网页信息方法、装置及系统 - Google Patents
一种网络爬虫自动化获取网页信息方法、装置及系统 Download PDFInfo
- Publication number
- CN111191097A CN111191097A CN201911330026.1A CN201911330026A CN111191097A CN 111191097 A CN111191097 A CN 111191097A CN 201911330026 A CN201911330026 A CN 201911330026A CN 111191097 A CN111191097 A CN 111191097A
- Authority
- CN
- China
- Prior art keywords
- information
- webpage
- web
- web crawler
- login
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 235000014510 cooky Nutrition 0.000 claims abstract description 56
- 230000009193 crawling Effects 0.000 claims abstract description 28
- 238000004088 simulation Methods 0.000 claims abstract description 15
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 229910052711 selenium Inorganic materials 0.000 claims description 4
- 239000011669 selenium Substances 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 10
- 238000012795 verification Methods 0.000 abstract description 5
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种网络爬虫自动化获取网页信息方法、装置及系统,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;获取目标网页服务器返回的cookie信息并保存;向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程,实现真实的账号和密码输入,获取cookie信息完成网页爬取,即便需要进行登录验证,登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用,减少客户端系统程序升级,最大程度减少不可控风险。
Description
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种网络爬虫自动化获取网页信息方法、装置及系统。
背景技术
网页爬虫,又称网络蜘蛛或网络机器人,是一种按照一定规则自动抓取万维网信息的程序或脚本,对于网页爬虫来说,其核心目的就是快速、准确地抓取源网页的各类信息。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
现在很多网站都需要先进行账号登录才能爬取,传统的网页爬取方法存在以下缺陷:如果网站新增登录安全控件进行反爬虫,加密控件可以对用户输入密码进行加密,安全控件难以破解,将导致无法获取网页信息;如果目标网页参数名发生变化,将导致信息获取失败或者错误;以上缺陷将导致客户端系统信息查询失败,需要程序升级,不可控因素将影响系统正常运行。
发明内容
为此,本发明实施例提供一种网络爬虫自动化获取网页信息方法、装置及系统,以解决现有的网页爬取方法由于登录安全控件的存在或者网页参数的改变等导致信息获取失败的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提出了一种网络爬虫自动化获取网页信息方法,所述方法包括:
通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;
在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;
获取目标网页服务器返回的cookie信息并保存;
向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。
进一步地,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面之前,所述方法还包括:
通过定时器设置定时python网络爬虫。
进一步地,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面,具体包括:
所述网络爬虫通过调用Selenium自动化测试工具对所述浏览器进行操作。
进一步地,在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录,具体包括:
所述网络爬虫通过调用winIO函数库,生成键盘电信号,触发键盘按键事件,进行账号和密码的模拟输入。
进一步地,获取目标网页服务器返回的cookie信息并保存,具体包括:
所述网络爬虫通过使用BrowserMobProxy代理服务器抓取所述浏览器的http数据包,并提取所述cookie信息。
进一步地,向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息之前,所述方法还包括:
检验所述cookie信息是否过期,若过期,则通过网络爬虫重新模拟登录获取有效的cookie信息。
根据本发明实施例的第二方面,提出了一种网络爬虫自动化获取网页信息装置,其特征在于,所述装置包括:
cookie获取模块,用于通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;
在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;
获取目标网页服务器返回的cookie信息并保存;
网页爬取模块,用于向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。
进一步地,所述cookie获取模块还用于:
通过定时器设置定时python网络爬虫。
根据本发明实施例的第三方面,提出了一种网络爬虫自动化获取网页信息系统,其特征在于,所述系统包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如上一种网络爬虫自动化获取网页信息方法中任一所述的方法步骤。
根据本发明实施例的第四方面,提出了一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种网络爬虫自动化获取网页信息系统执行如上一种网络爬虫自动化获取网页信息方法中任一所述的方法步骤。
本发明实施例具有如下优点:
本发明实施例提出的一种网络爬虫自动化获取网页信息方法、装置及系统,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;获取目标网页服务器返回的cookie信息并保存;向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程,实现真实的账号和密码输入,获取cookie信息完成网页爬取,即便需要进行登录验证,登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用,减少客户端系统程序升级,最大程度减少不可控风险。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种网络爬虫自动化获取网页信息方法流程示意图;
图2为本发明实施例2提供的一种网络爬虫自动化获取网页信息装置结构示意图;
图3为本发明实施例3提供的一种网络爬虫自动化获取网页信息系统结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1提出了一种网络爬虫自动化获取网页信息方法,具体如图1所示,该方法包括:
步骤110、通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面。
本实施例中,利用Python爬虫进行网页信息爬取,首先将python爬虫脚本独立部署在一台具有python环境的windows机器运行。在执行步骤110之前,该方法还包括:通过定时器设置定时python网络爬虫。通过win定时器实现定时爬虫任务。
步骤110具体包括:网络爬虫通过调用Selenium自动化测试工具对浏览器进行操作。Selenium自动化测试工具可以模拟用户的真实操作来调用浏览器执行打开网页、输入账号和密码、点击登录等操作。
步骤120、在目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录。
步骤120具体包括:网络爬虫通过调用winIO函数库,生成键盘电信号,触发键盘按键事件,进行账号和密码的模拟输入。经过步骤110自动启动浏览器进入登录页面后,便可以将注册好的账号和密码通过模拟键盘输入至登录页面的对应位置,模仿人工操作,自动真实的输入账号和密码,实现自动化模拟登录,全程模拟人工操作,安全加密控件不影响爬虫爬取,破解安全加密控件对密码的加密。
步骤130、获取目标网页服务器返回的cookie信息并保存。
步骤130具体包括:网络爬虫通过使用BrowserMobProxy代理服务器抓取浏览器的http数据包,并提取cookie信息。BrowserMobProxy代理服务器可以监听浏览器所有的网络信息,模拟登录成功后,网页服务器会向请求端返回cookie信息,这个cookie中包含用户名和密码等用户信息,下次访问时若携带有cookie信息则证明用户是已经验证的用户,可以直接免登录访问。
步骤140、向目标网页服务器发送携带有cookie信息的访问请求访问目标网页并爬取网页信息。
具体的,通过上述过程获取到cookie信息之后,python爬虫便可以使用cookie信息发起模拟查询,免登录访问目标网页进行网页信息的爬取。在执行步骤140之前,该方法还包括:检验cookie信息是否过期,若过期,则通过网络爬虫重新模拟登录获取有效的cookie信息。cookie信息具有有效期,cookie信息若失效,则需要经过上述过程重新模拟登录,获取有效的cookie信息实现网站访问和信息爬取。
本发明实施例提出的一种网络爬虫自动化获取网页信息方法,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;获取目标网页服务器返回的cookie信息并保存;向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程,实现真实的账号和密码输入,获取cookie信息完成网页爬取,即便需要进行登录验证,登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用,减少客户端系统程序升级,最大程度减少不可控风险。
与上述实施例1相对应的,本发明实施例2提出了一种网络爬虫自动化获取网页信息装置,具体如图2所示,该装置包括cookie获取模块210和网页爬取模块220。
cookie获取模块210,用于通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;
在目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;
获取目标网页服务器返回的cookie信息并保存。
网页爬取模块220,用于向目标网页服务器发送携带有cookie信息的访问请求访问目标网页并爬取网页信息。
进一步地,cookie获取模块210还用于:通过定时器设置定时python网络爬虫。
本发明实施例2提供的一种网络爬虫自动化获取网页信息装置中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
本发明实施例提出的一种网络爬虫自动化获取网页信息装置,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;获取目标网页服务器返回的cookie信息并保存;向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程,实现真实的账号和密码输入,获取cookie信息完成网页爬取,即便需要进行登录验证,登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用,减少客户端系统程序升级,最大程度减少不可控风险。
本发明实施例3提出了一种网络爬虫自动化获取网页信息系统,具体如图3所示,该系统包括:处理器310和存储器320;
存储器320用于存储一个或多个程序指令;
处理器310,用于运行一个或多个程序指令,用以执行如上实施例1一种网络爬虫自动化获取网页信息方法中任一的方法步骤。
本发明实施例提出的一种网络爬虫自动化获取网页信息系统,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;获取目标网页服务器返回的cookie信息并保存;向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程,实现真实的账号和密码输入,获取cookie信息完成网页爬取,即便需要进行登录验证,登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用,减少客户端系统程序升级,最大程度减少不可控风险。
本发明实施例4提出了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种网络爬虫自动化获取网页信息系统执行如上实施例1一种网络爬虫自动化获取网页信息方法中任一的方法步骤。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specificntegrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种网络爬虫自动化获取网页信息方法,其特征在于,所述方法包括:
通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;
在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;
获取目标网页服务器返回的cookie信息并保存;
向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。
2.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法,其特征在于,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面之前,所述方法还包括:
通过定时器设置定时python网络爬虫。
3.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法,其特征在于,通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面,具体包括:
所述网络爬虫通过调用Selenium自动化测试工具对所述浏览器进行操作。
4.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法,其特征在于,在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录,具体包括:
所述网络爬虫通过调用winIO函数库,生成键盘电信号,触发键盘按键事件,进行账号和密码的模拟输入。
5.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法,其特征在于,获取目标网页服务器返回的cookie信息并保存,具体包括:
所述网络爬虫通过使用BrowserMob Proxy代理服务器抓取所述浏览器的http数据包,并提取所述cookie信息。
6.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法,其特征在于,向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息之前,所述方法还包括:
检验所述cookie信息是否过期,若过期,则通过网络爬虫重新模拟登录获取有效的cookie信息。
7.一种网络爬虫自动化获取网页信息装置,其特征在于,所述装置包括:
cookie获取模块,用于通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面;
在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录;
获取目标网页服务器返回的cookie信息并保存;
网页爬取模块,用于向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。
8.根据权利要求7所述的一种网络爬虫自动化获取网页信息装置,其特征在于,所述cookie获取模块还用于:
通过定时器设置定时python网络爬虫。
9.一种网络爬虫自动化获取网页信息系统,其特征在于,所述系统包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-6任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种网络爬虫自动化获取网页信息系统执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911330026.1A CN111191097A (zh) | 2019-12-20 | 2019-12-20 | 一种网络爬虫自动化获取网页信息方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911330026.1A CN111191097A (zh) | 2019-12-20 | 2019-12-20 | 一种网络爬虫自动化获取网页信息方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191097A true CN111191097A (zh) | 2020-05-22 |
Family
ID=70709308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911330026.1A Pending CN111191097A (zh) | 2019-12-20 | 2019-12-20 | 一种网络爬虫自动化获取网页信息方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191097A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859072A (zh) * | 2020-07-22 | 2020-10-30 | 广州兆和电力技术有限公司 | 一种面向内网的表单自动申报及成绩查询方法和系统 |
CN112632362A (zh) * | 2021-01-22 | 2021-04-09 | 国网河南省电力公司漯河供电公司 | 一种国网信息管理系统自动巡视方法及巡视平台 |
CN112712421A (zh) * | 2020-12-29 | 2021-04-27 | 山东浪潮通软信息科技有限公司 | 一种流水账单自动下载的方法、设备及存储介质 |
CN112910848A (zh) * | 2021-01-15 | 2021-06-04 | 深信服科技股份有限公司 | 一种网页界面的访问方法、装置、电子设备和存储介质 |
CN113032655A (zh) * | 2021-04-14 | 2021-06-25 | 中国刑事警察学院 | 一种暗网电子数据提取固定方法 |
CN113254831A (zh) * | 2021-05-26 | 2021-08-13 | 深圳壹账通智能科技有限公司 | 信息处理方法、装置、设备及存储介质 |
CN113254018A (zh) * | 2021-07-14 | 2021-08-13 | 广州易方信息科技股份有限公司 | 网页视图的自动化操作方法及装置 |
CN113434748A (zh) * | 2021-07-19 | 2021-09-24 | 湖南四方天箭信息科技有限公司 | 基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质 |
CN113626675A (zh) * | 2021-08-10 | 2021-11-09 | 北京天融信网络安全技术有限公司 | 一种数据处理方法、系统及计算机存储介质 |
CN113704590A (zh) * | 2021-09-06 | 2021-11-26 | 挂号网(杭州)科技有限公司 | 网页数据获取方法、装置、电子设备及存储介质 |
CN115001819A (zh) * | 2022-06-02 | 2022-09-02 | 上海华客信息科技有限公司 | 实名登录方法、装置及存储介质 |
CN115277451A (zh) * | 2022-07-28 | 2022-11-01 | 中译语通科技股份有限公司 | 一种基于自动化模拟器的账号登入信息初始化方法及系统 |
CN115361162A (zh) * | 2022-07-06 | 2022-11-18 | 华盟科技咨询(深圳)有限公司 | 系统登录方法及其相关设备 |
CN115426252A (zh) * | 2022-07-11 | 2022-12-02 | 浪潮通信技术有限公司 | 服务器硬件日志的获取方法及装置 |
CN116501945A (zh) * | 2023-06-27 | 2023-07-28 | 深圳市豪斯莱科技有限公司 | 一种多线程浏览器驱动爬虫方法、系统和可读存储介质 |
CN116975408A (zh) * | 2023-08-11 | 2023-10-31 | 国网吉林省电力有限公司经济技术研究院 | 一种基于人工模拟的乡村产业数据库网站自动抓取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631030A (zh) * | 2015-12-30 | 2016-06-01 | 福建亿榕信息技术有限公司 | 一种通用的网络爬虫模拟登录方法及系统 |
CN109101600A (zh) * | 2018-08-01 | 2018-12-28 | 沈文策 | 一种网页中动态数据的爬取方法及装置 |
-
2019
- 2019-12-20 CN CN201911330026.1A patent/CN111191097A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631030A (zh) * | 2015-12-30 | 2016-06-01 | 福建亿榕信息技术有限公司 | 一种通用的网络爬虫模拟登录方法及系统 |
CN109101600A (zh) * | 2018-08-01 | 2018-12-28 | 沈文策 | 一种网页中动态数据的爬取方法及装置 |
Non-Patent Citations (4)
Title |
---|
SJW1998: ""python之模拟键盘"", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1515027》 * |
SUGAR椰子皮: ""python定时爬虫三种方法"", 《HTTPS://BLOG.CSDN.NET/QQ_42423940/ARTICLE/DETAILS/84784983》 * |
刘延林: ""python+selenium+browsermob-proxy爬虫获取浏览器network请求和响应"", 《HTTPS://BLOG.CSDN.NET/QQ_32502511/ARTICLE/DETAILS/101536325》 * |
郭颖为: ""微博网络爬行器技术研究与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859072A (zh) * | 2020-07-22 | 2020-10-30 | 广州兆和电力技术有限公司 | 一种面向内网的表单自动申报及成绩查询方法和系统 |
CN112712421A (zh) * | 2020-12-29 | 2021-04-27 | 山东浪潮通软信息科技有限公司 | 一种流水账单自动下载的方法、设备及存储介质 |
CN112712421B (zh) * | 2020-12-29 | 2023-03-28 | 浪潮通用软件有限公司 | 一种流水账单自动下载的方法、设备及存储介质 |
CN112910848A (zh) * | 2021-01-15 | 2021-06-04 | 深信服科技股份有限公司 | 一种网页界面的访问方法、装置、电子设备和存储介质 |
CN112632362A (zh) * | 2021-01-22 | 2021-04-09 | 国网河南省电力公司漯河供电公司 | 一种国网信息管理系统自动巡视方法及巡视平台 |
CN113032655A (zh) * | 2021-04-14 | 2021-06-25 | 中国刑事警察学院 | 一种暗网电子数据提取固定方法 |
CN113254831A (zh) * | 2021-05-26 | 2021-08-13 | 深圳壹账通智能科技有限公司 | 信息处理方法、装置、设备及存储介质 |
CN113254018B (zh) * | 2021-07-14 | 2021-11-02 | 广州易方信息科技股份有限公司 | 网页视图的自动化操作方法及装置 |
CN113254018A (zh) * | 2021-07-14 | 2021-08-13 | 广州易方信息科技股份有限公司 | 网页视图的自动化操作方法及装置 |
CN113434748A (zh) * | 2021-07-19 | 2021-09-24 | 湖南四方天箭信息科技有限公司 | 基于模板标注的分布式爬虫方法、装置、计算机装置及计算机可读存储介质 |
CN113626675A (zh) * | 2021-08-10 | 2021-11-09 | 北京天融信网络安全技术有限公司 | 一种数据处理方法、系统及计算机存储介质 |
CN113704590A (zh) * | 2021-09-06 | 2021-11-26 | 挂号网(杭州)科技有限公司 | 网页数据获取方法、装置、电子设备及存储介质 |
CN115001819A (zh) * | 2022-06-02 | 2022-09-02 | 上海华客信息科技有限公司 | 实名登录方法、装置及存储介质 |
CN115361162A (zh) * | 2022-07-06 | 2022-11-18 | 华盟科技咨询(深圳)有限公司 | 系统登录方法及其相关设备 |
CN115426252A (zh) * | 2022-07-11 | 2022-12-02 | 浪潮通信技术有限公司 | 服务器硬件日志的获取方法及装置 |
CN115277451A (zh) * | 2022-07-28 | 2022-11-01 | 中译语通科技股份有限公司 | 一种基于自动化模拟器的账号登入信息初始化方法及系统 |
CN116501945A (zh) * | 2023-06-27 | 2023-07-28 | 深圳市豪斯莱科技有限公司 | 一种多线程浏览器驱动爬虫方法、系统和可读存储介质 |
CN116975408A (zh) * | 2023-08-11 | 2023-10-31 | 国网吉林省电力有限公司经济技术研究院 | 一种基于人工模拟的乡村产业数据库网站自动抓取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191097A (zh) | 一种网络爬虫自动化获取网页信息方法、装置及系统 | |
CN109766262B (zh) | 接口数据处理方法、自动化测试方法、装置、设备和介质 | |
CN109995755B (zh) | 一种基于小程序架构的登录状态的控制方法及装置 | |
EP2715600B1 (en) | Automated security testing | |
CN107528858B (zh) | 基于网页的登录方法、装置、设备及存储介质 | |
US9083736B2 (en) | Monitoring and mitigating client-side exploitation of application flaws | |
CN111552854A (zh) | 一种网页数据抓取方法、装置、存储介质和设备 | |
CN104956372A (zh) | 使用运行时和静态代码分析来确定动态安全扫描的覆盖率 | |
CN105302707B (zh) | 应用程序的漏洞检测方法和装置 | |
CN108259457B (zh) | 一种web认证方法及装置 | |
CN105227387A (zh) | 网页漏洞的检测方法、装置及系统 | |
CN111538883A (zh) | 一种数据爬取方法、系统及设备 | |
CN106528659A (zh) | 浏览器跳转至应用程序的控制方法及装置 | |
CN109918553B (zh) | 移动终端爬取数据的方法、装置、移动终端和存储介质 | |
CN109412896A (zh) | 上传功能的测试方法、装置、计算机设备和存储介质 | |
CN102880698B (zh) | 一种抓取网站确定方法及装置 | |
CN111666465A (zh) | 爬取数据的方法及装置、存储介质、终端 | |
CN105117340A (zh) | 用于iOS浏览器应用质量评估的URL检测方法和装置 | |
CN110855639A (zh) | 浏览器内外网登录的控制方法、装置和设备 | |
CN104954331A (zh) | 一种登录认证配置装置及方法 | |
CN104375935A (zh) | Sql注入攻击的测试方法和装置 | |
CN112507271A (zh) | 网页取证方法、装置及设备 | |
CN111371643B (zh) | 验证方法、设备及存储介质 | |
CN112464250A (zh) | 越权漏洞自动检测方法、设备及介质 | |
CN115795484B (zh) | 一种物联网设备的漏洞检测方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |