CN111191097A

CN111191097A - 一种网络爬虫自动化获取网页信息方法、装置及系统

Info

Publication number: CN111191097A
Application number: CN201911330026.1A
Authority: CN
Inventors: 杨艺祥; 吴文青; 唐禹; 陈胜路
Original assignee: Tianyang Hongye Technology Co ltd
Current assignee: Tianyang Hongye Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-22

Abstract

本发明实施例公开了一种网络爬虫自动化获取网页信息方法、装置及系统，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；获取目标网页服务器返回的cookie信息并保存；向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程，实现真实的账号和密码输入，获取cookie信息完成网页爬取，即便需要进行登录验证，登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用，减少客户端系统程序升级，最大程度减少不可控风险。

Description

一种网络爬虫自动化获取网页信息方法、装置及系统

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种网络爬虫自动化获取网页信息方法、装置及系统。

背景技术

网页爬虫，又称网络蜘蛛或网络机器人，是一种按照一定规则自动抓取万维网信息的程序或脚本，对于网页爬虫来说，其核心目的就是快速、准确地抓取源网页的各类信息。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列，然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

现在很多网站都需要先进行账号登录才能爬取，传统的网页爬取方法存在以下缺陷：如果网站新增登录安全控件进行反爬虫，加密控件可以对用户输入密码进行加密，安全控件难以破解，将导致无法获取网页信息；如果目标网页参数名发生变化，将导致信息获取失败或者错误；以上缺陷将导致客户端系统信息查询失败，需要程序升级，不可控因素将影响系统正常运行。

发明内容

为此，本发明实施例提供一种网络爬虫自动化获取网页信息方法、装置及系统，以解决现有的网页爬取方法由于登录安全控件的存在或者网页参数的改变等导致信息获取失败的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提出了一种网络爬虫自动化获取网页信息方法，所述方法包括：

通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；

在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；

获取目标网页服务器返回的cookie信息并保存；

向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。

进一步地，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面之前，所述方法还包括：

通过定时器设置定时python网络爬虫。

进一步地，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面，具体包括：

所述网络爬虫通过调用Selenium自动化测试工具对所述浏览器进行操作。

进一步地，在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录，具体包括：

所述网络爬虫通过调用winIO函数库，生成键盘电信号，触发键盘按键事件，进行账号和密码的模拟输入。

进一步地，获取目标网页服务器返回的cookie信息并保存，具体包括：

所述网络爬虫通过使用BrowserMobProxy代理服务器抓取所述浏览器的http数据包，并提取所述cookie信息。

进一步地，向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息之前，所述方法还包括：

检验所述cookie信息是否过期，若过期，则通过网络爬虫重新模拟登录获取有效的cookie信息。

根据本发明实施例的第二方面，提出了一种网络爬虫自动化获取网页信息装置，其特征在于，所述装置包括：

cookie获取模块，用于通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；

获取目标网页服务器返回的cookie信息并保存；

网页爬取模块，用于向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。

进一步地，所述cookie获取模块还用于：

通过定时器设置定时python网络爬虫。

根据本发明实施例的第三方面，提出了一种网络爬虫自动化获取网页信息系统，其特征在于，所述系统包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如上一种网络爬虫自动化获取网页信息方法中任一所述的方法步骤。

根据本发明实施例的第四方面，提出了一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种网络爬虫自动化获取网页信息系统执行如上一种网络爬虫自动化获取网页信息方法中任一所述的方法步骤。

本发明实施例具有如下优点：

本发明实施例提出的一种网络爬虫自动化获取网页信息方法、装置及系统，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；获取目标网页服务器返回的cookie信息并保存；向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程，实现真实的账号和密码输入，获取cookie信息完成网页爬取，即便需要进行登录验证，登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用，减少客户端系统程序升级，最大程度减少不可控风险。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种网络爬虫自动化获取网页信息方法流程示意图；

图2为本发明实施例2提供的一种网络爬虫自动化获取网页信息装置结构示意图；

图3为本发明实施例3提供的一种网络爬虫自动化获取网页信息系统结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提出了一种网络爬虫自动化获取网页信息方法，具体如图1所示，该方法包括：

步骤110、通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面。

本实施例中，利用Python爬虫进行网页信息爬取，首先将python爬虫脚本独立部署在一台具有python环境的windows机器运行。在执行步骤110之前，该方法还包括：通过定时器设置定时python网络爬虫。通过win定时器实现定时爬虫任务。

步骤110具体包括：网络爬虫通过调用Selenium自动化测试工具对浏览器进行操作。Selenium自动化测试工具可以模拟用户的真实操作来调用浏览器执行打开网页、输入账号和密码、点击登录等操作。

步骤120、在目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录。

步骤120具体包括：网络爬虫通过调用winIO函数库，生成键盘电信号，触发键盘按键事件，进行账号和密码的模拟输入。经过步骤110自动启动浏览器进入登录页面后，便可以将注册好的账号和密码通过模拟键盘输入至登录页面的对应位置，模仿人工操作，自动真实的输入账号和密码，实现自动化模拟登录，全程模拟人工操作，安全加密控件不影响爬虫爬取，破解安全加密控件对密码的加密。

步骤130、获取目标网页服务器返回的cookie信息并保存。

步骤130具体包括：网络爬虫通过使用BrowserMobProxy代理服务器抓取浏览器的http数据包，并提取cookie信息。BrowserMobProxy代理服务器可以监听浏览器所有的网络信息，模拟登录成功后，网页服务器会向请求端返回cookie信息，这个cookie中包含用户名和密码等用户信息，下次访问时若携带有cookie信息则证明用户是已经验证的用户，可以直接免登录访问。

步骤140、向目标网页服务器发送携带有cookie信息的访问请求访问目标网页并爬取网页信息。

具体的，通过上述过程获取到cookie信息之后，python爬虫便可以使用cookie信息发起模拟查询，免登录访问目标网页进行网页信息的爬取。在执行步骤140之前，该方法还包括：检验cookie信息是否过期，若过期，则通过网络爬虫重新模拟登录获取有效的cookie信息。cookie信息具有有效期，cookie信息若失效，则需要经过上述过程重新模拟登录，获取有效的cookie信息实现网站访问和信息爬取。

本发明实施例提出的一种网络爬虫自动化获取网页信息方法，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；获取目标网页服务器返回的cookie信息并保存；向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程，实现真实的账号和密码输入，获取cookie信息完成网页爬取，即便需要进行登录验证，登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用，减少客户端系统程序升级，最大程度减少不可控风险。

与上述实施例1相对应的，本发明实施例2提出了一种网络爬虫自动化获取网页信息装置，具体如图2所示，该装置包括cookie获取模块210和网页爬取模块220。

cookie获取模块210，用于通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；

在目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；

获取目标网页服务器返回的cookie信息并保存。

网页爬取模块220，用于向目标网页服务器发送携带有cookie信息的访问请求访问目标网页并爬取网页信息。

进一步地，cookie获取模块210还用于：通过定时器设置定时python网络爬虫。

本发明实施例2提供的一种网络爬虫自动化获取网页信息装置中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

本发明实施例提出的一种网络爬虫自动化获取网页信息装置，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；获取目标网页服务器返回的cookie信息并保存；向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程，实现真实的账号和密码输入，获取cookie信息完成网页爬取，即便需要进行登录验证，登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用，减少客户端系统程序升级，最大程度减少不可控风险。

本发明实施例3提出了一种网络爬虫自动化获取网页信息系统，具体如图3所示，该系统包括：处理器310和存储器320；

存储器320用于存储一个或多个程序指令；

处理器310，用于运行一个或多个程序指令，用以执行如上实施例1一种网络爬虫自动化获取网页信息方法中任一的方法步骤。

本发明实施例提出的一种网络爬虫自动化获取网页信息系统，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面；在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录；获取目标网页服务器返回的cookie信息并保存；向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息。通过网络爬虫模拟真实登录过程，实现真实的账号和密码输入，获取cookie信息完成网页爬取，即便需要进行登录验证，登录安全控件升级以及网页参数的改变都不影响网页爬取的正常使用，减少客户端系统程序升级，最大程度减少不可控风险。

本发明实施例4提出了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种网络爬虫自动化获取网页信息系统执行如上实施例1一种网络爬虫自动化获取网页信息方法中任一的方法步骤。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specificntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种网络爬虫自动化获取网页信息方法，其特征在于，所述方法包括：

获取目标网页服务器返回的cookie信息并保存；

2.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面之前，所述方法还包括：

通过定时器设置定时python网络爬虫。

3.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，通过预先配置的网络爬虫自动启动浏览器并进入目标网页登录页面，具体包括：

4.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，在所述目标网页登录页面通过模拟键盘输入账号和密码完成模拟登录，具体包括：

5.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，获取目标网页服务器返回的cookie信息并保存，具体包括：

所述网络爬虫通过使用BrowserMob Proxy代理服务器抓取所述浏览器的http数据包，并提取所述cookie信息。

6.根据权利要求1所述的一种网络爬虫自动化获取网页信息方法，其特征在于，向所述目标网页服务器发送携带有所述cookie信息的访问请求访问目标网页并爬取网页信息之前，所述方法还包括：

7.一种网络爬虫自动化获取网页信息装置，其特征在于，所述装置包括：

获取目标网页服务器返回的cookie信息并保存；

8.根据权利要求7所述的一种网络爬虫自动化获取网页信息装置，其特征在于，所述cookie获取模块还用于：

通过定时器设置定时python网络爬虫。

9.一种网络爬虫自动化获取网页信息系统，其特征在于，所述系统包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种网络爬虫自动化获取网页信息系统执行如权利要求1-6任一项所述的方法。