CN111666465A

CN111666465A - 爬取数据的方法及装置、存储介质、终端

Info

Publication number: CN111666465A
Application number: CN201910168830.8A
Authority: CN
Inventors: 汤奇峰; 陈泽顺
Original assignee: Shanghai Jingzan Rongxuan Technology Co ltd
Current assignee: Shanghai Jingzan Rongxuan Technology Co ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2020-09-15

Abstract

一种爬取数据的方法及装置、存储介质、终端，爬取数据的方法包括：模拟浏览器发送针对目标访问网站的访问请求；接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；根据所述状态码或页面数据更新所述访问请求；利用更新后的访问请求获取所述目标访问网站中的内容。本发明技术方案能够提升网络爬虫爬取数据的效率。

Description

爬取数据的方法及装置、存储介质、终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种爬取数据的方法及装置、存储介质、终端。

背景技术

网络爬虫是一种按照一定的规则，自动高效的抓取互联网信息的程序或者脚本。

随着大数据的高速发展，越来越多的企业、网站为了防止网站数据被网络爬虫高速批量采集网站数据，反爬虫技术应运而生。反爬虫技术也各不相同，例如，限制互联网协议地址(Internet Protocol Address，IP)的访问频率、限制浏览网页速度、账户登录验证、输入验证码等技术。

但是，随着反爬虫技术的发展和普及，导致爬虫爬取数据出现问题：1.爬虫维护成本增加；2.需要研发人员根据不同的网站反爬技术指定不同的破解反爬虫技术；3.数据遗漏，影响数据的完整性。

发明内容

本发明解决的技术问题是如何提升网络爬虫爬取数据的效率。

为解决上述技术问题，本发明实施例提供一种爬取数据的方法，爬取数据的方法包括：模拟浏览器发送针对目标访问网站的访问请求；接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；根据所述状态码或页面数据更新所述访问请求；利用更新后的访问请求获取所述目标访问网站中的内容。

可选的，所述根据所述状态码更新所述访问请求包括：如果所述状态码指示访问被拒绝，则从预设标头池中选取新的标头更新所述访问请求，所述预设标头池中的标头包括用户代理、Cookie。

可选的，所述根据所述状态码更新所述访问请求包括：如果所述状态码指示访问被拒绝，则从预设IP池中选取新的IP更新所述访问请求。

可选的，所述根据所述状态码更新所述访问请求包括：如果所述状态码指示请求的资源临时分配新的URL并且所述新的URL指示验证码验证页，则重定向到新的URL，跳转至验证码页面，并进行验证码识别；将识别结果加入所述访问请求，已得到所述更新后的访问请求。

可选的，所述根据所述状态码更新所述访问请求包括：如果所述状态码指示请求的资源永久分配新的URL，或所述状态码指示请求的资源临时分配新的URL并且所述新的URL指示登录页，则从预设账号池选取新的账号更新所述访问请求。

可选的，所述根据所述页面数据更新所述访问请求包括：根据预设正则表达式对所述页面数据进行正则匹配；如果匹配失败，则对所述页面数据进行解密，以得到解密后的访问地址；确定针对所述解密后的访问地址的所述更新后的访问请求。

可选的，所述响应消息包括所述目标访问网站的源代码；所述根据预设正则表达式对所述页面数据进行正则匹配之前还包括：根据所述目标访问网站的源代码确定加密代码；根据所述加密代码确定解密代码，以用于对所述目标访问网站返回的加密数据进行解密。

为解决上述技术问题，本发明实施例还公开了一种爬虫抓取装置，爬虫抓取装置包括：访问请求发送模块，适于模拟浏览器发送针对目标访问网站的访问请求；响应消息接收模块，适于接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；访问请求更新模块，适于根据所述状态码或页面数据更新所述访问请求；内容获取模块，适于利用更新后的访问请求获取所述目标访问网站中的内容。

为解决上述技术问题，本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述图像复原方法的步骤。

为解决上述技术问题，本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述图像复原方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案模拟浏览器发送针对目标访问网站的访问请求；接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；根据所述状态码或页面数据更新所述访问请求；利用更新后的访问请求获取所述目标访问网站中的内容。本发明技术方案通过目标访问网站反馈的状态码或页面数据可以判断出目标访问网站所设置的反爬虫配置，从而可以根据状态码或页面数据确定针对反爬虫配置的破解操作，从而通过更新访问请求重新访问目标访问网站，进而获取目标访问网站的网站内容，提高爬虫自动应变能力，提升网络爬虫爬取数据的效率。

进一步地，如果所述状态码指示访问被拒绝，则从预设标头池中选取新的标头更新所述访问请求，所述预设标头池中的标头包括用户代理、Cookie。本发明技术方案中，可以预先配置预设标头池，在访问请求被拒绝时，可以从预设标头池选取新的标头，以用于访问目标访问网站，提高访问成功率，进而提升网络爬虫爬取数据的效率。

进一步地，如果所述状态码指示访问被拒绝，则从预设IP池中选取新的IP更新所述访问请求。本发明技术方案中，可以预先配置预设IP池，在访问请求被拒绝时，可以从预设IP池选取新的IP，以用于访问目标访问网站，提高访问成功率，进而提升网络爬虫爬取数据的效率。

进一步地，根据预设正则表达式对所述页面数据进行正则匹配；如果匹配失败，则对所述页面数据进行解密，以得到解密后的访问地址；确定针对所述解密后的访问地址的所述更新后的访问请求。本发明技术方案中，通过预设正则表达式对页面数据的匹配结果，可以确定目标访问网站是否对网站内的数据进行加密，从而可以在目标访问网站对网站内的数据进行加密的情况下，实现对加密数据的解密，提升网络爬虫爬取数据的成功率。

附图说明

图1是本发明实施例一种爬取数据的方法的流程图；

图2是图1所示步骤S103的一种具体实施方式的流程图；

图3是图1所示步骤S103的另一种具体实施方式的流程图；

图4是本发明实施例一种爬取数据的装置的结构示意图。

具体实施方式

如背景技术中所述，随着反爬虫技术的发展和普及，导致爬虫爬取数据出现问题：1.爬虫维护成本增加；2.需要研发人员根据不同的网站反爬技术指定不同的破解反爬虫技术；3.数据遗漏，影响数据的完整性。

本发明技术方案通过目标访问网站反馈的状态码或页面数据可以判断出目标访问网站所设置的反爬虫配置，从而可以根据状态码或页面数据确定针对反爬虫配置的破解操作，从而通过更新访问请求重新访问目标访问网站，进而获取目标访问网站的网站内容，提高爬虫自动应变能力，提升网络爬虫爬取数据的效率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种爬取数据的方法的流程图。

所述爬取数据的方法可以包括以下步骤：

步骤S101：模拟浏览器发送针对目标访问网站的访问请求；

步骤S102：接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；

步骤S103：根据所述状态码或页面数据更新所述访问请求；

步骤S102：利用更新后的访问请求获取所述目标访问网站中的内容。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

本实施例中，目标访问网站是指提供数据源的网站，目标访问网站中具备待抓取的数据。

具体实施中，可以模拟浏览器发送针对目标访问网站的访问请求，所述访问请求可以是http请求。具体可以通过模拟浏览器发送http请求的工具(例如硬件设备、软件程序)来实现。

目标访问网站在接收到访问请求后，可以针对访问请求反馈响应消息。响应消息中至少包括状态码和页面数据。所述页面数据具体可以包括网站源代码、IP地址、网页地址、网页中子网站的网页地址、请求时间、响应时间等。在一个具体的例子中，所述响应消息可以是HTTP响应报文。

所述状态码又称HTTP状态码(HTTP Status Code)，是用以表示网页服务器超文本传输协议响应状态的3位数字代码。其中，状态码100～199：表示成功接收请求，要求客户端继续提交下一次请求才能完成整个处理过程。状态码200～299：表示成功接收请求并已完成整个处理过程。状态码300～399：为完成请求，客户需进一步细化请求；例如：请求的资源已经移动一个新地址。状态码400～499：客户端的请求有错误。状态码500～599：服务器端出现错误。

通过状态码可以确定目标访问网站当前的访问状态，从而可以在访问失败时确定访问失败原因，进而可以确定破解操作，保证后续的成功访问。

在一个非限制性的例子中，目标访问网站反馈状态码403，状态码403表示禁止(Forbidden)访问，也即服务器已经理解请求，但是拒绝执行。在这种情况下，有可能是目标访问网站设置了IP地址的访问次数限制。由此，可以通过更换IP地址的方式重新访问目标访问网站。

具体实施中，可以通过状态码或页面数据更新所述访问请求的方式，重新访问目标访问网站，以获取目标访问网站中的内容数据。

本发明实施例通过目标访问网站反馈的状态码或页面数据可以判断出目标访问网站所设置的反爬虫配置，从而可以根据状态码或页面数据确定针对反爬虫配置的破解操作，从而通过更新访问请求重新访问目标访问网站，进而获取目标访问网站的网站内容，提高爬虫自动应变能力，提升网络爬虫爬取数据的效率。

本发明一个非限制性的实施例中，图1所示步骤S103可以包括以下步骤：如果所述状态码指示访问被拒绝，则从预设标头池中选取新的标头更新所述访问请求，所述预设标头池中的标头包括用户代理、Cookie。

本实施例中，所述预设标头池可以是预先设置的，预设标头池中的标头(header)包括用户代理(User Agent)、Cookie。所述预设标头池中的标头可以是预先收集得到的。

具体地，所述状态码可以是403。

具体地，访问请求中具有header，header中包括身份标识，例如用户代理。在利用访问请求访问目标访问网站失败时，失败的原因可能是用户代理不可用，在这种情况下，可以更新用户代理来重新访问目标访问网站。

本发明实施例中，可以预先配置预设标头池，在访问请求被拒绝时，可以从预设标头池选取新的标头，以用于访问目标访问网站，提高访问成功率，进而提升网络爬虫爬取数据的效率。

本发明一个非限制性的实施例中，图1所示步骤S103可以包括以下步骤：如果所述状态码指示访问被拒绝，则从预设IP池中选取新的IP更新所述访问请求。

本实施例中，所述预设IP池可以是预先设置的，预设IP池中的IP地址可以是预先收集得到的。

具体地，所述状态码可以是403。

具体实施中，在利用访问请求访问目标访问网站失败时，失败的原因可能是IP地址失效，也即目标访问网站限制了统一IP地址的访问次数。在这种情况下，可以更新IP地址来重新访问目标访问网站。

本发明实施例中，可以预先配置预设IP池，在访问请求被拒绝时，可以从预设IP池选取新的IP，以用于访问目标访问网站，提高访问成功率，进而提升网络爬虫爬取数据的效率。

进一步地，从预设标头池中选取新的标头更新所述访问请求的优先级高于从预设IP池中选取新的IP更新所述访问请求。也就是说，在所述状态码指示访问被拒绝的情况下，优先从预设标头池中选取新的标头更新所述访问请求。如果目标访问网站反馈的状态码仍然指示访问被拒绝，则从预设IP池中选取新的IP更新所述访问请求。

请参照图2，图1所示步骤S103可以包括以下步骤：

步骤S201：如果所述状态码指示请求的资源临时分配新的URL并且所述新的URL指示验证码验证页，则重定向到新的URL，跳转至验证码页面，并进行验证码识别；

步骤S202：将识别结果加入所述访问请求，已得到所述更新后的访问请求。

具体地，状态码可以是302。状态码302指示请求到的资源在一个不同的URL处临时保存，具体可以是重定向到临时的URL，跳转至验证码、账号登陆、账号异常页面。

在新的URL指示验证码验证页的情况下，则可以跳转至验证码页面并进行验证码识别，以得到识别结果。识别结果包括识别到的验证码。具体实现中，可以使用任意可实施的方式对验证码进行识别，例如可以是预先设置的验证码识别脚本。

通过将识别结果加入所述访问请求，并用于重新访问目标访问网站，可以保证网站的访问成功率。

本发明实施例中，通过预设正则表达式对页面数据的匹配结果，可以确定目标访问网站是否对网站内的数据进行加密，从而可以在目标访问网站对网站内的数据进行加密的情况下，实现对加密数据的解密，提升网络爬虫爬取数据的成功率。

在本发明另一个可选的实施例中，图1所示步骤S103可以包括以下步骤：如果所述状态码指示请求的资源永久分配新的URL，或所述状态码指示请求的资源临时分配新的URL并且所述新的URL指示登录页，则从预设账号池选取新的账号更新所述访问请求。

本实施例中，可以预先配置账号池，所述账号池包括账号名和登录密码。利用账号池中的账号名和登录密码可以登录目标访问网站。账号池中的账号名和登录密码可以是预先在目标访问网站注册得到的。

在所述状态码指示请求的资源永久分配新的URL的情况下，可以从账号池中选取新的账号名和登录密码，来更新访问请求中已有的账号名和登录密码，形成更新后的访问请求。同理，在新的URL指示账号登陆页面或账号异常页面的情况下，可以从账号池中选取新的账号名和登录密码，以保证成功登录目标访问网站，保证对目标访问网站的成功访问。

具体地，状态码可以是301或302。状态码301指示请求到的资源都会分配一个永久的URL。

本发明一个非限制性的实施例中，请参照图3，图1所示步骤S103可以包括以下步骤：

步骤S301：根据预设正则表达式对所述页面数据进行正则匹配；

步骤S302：如果匹配失败，则对所述页面数据进行解密，以得到解密后的访问地址；

步骤S303：确定针对所述解密后的访问地址的所述更新后的访问请求。

本实施例中，预设正则表达式可以实现对网址的识别。如果匹配失败，则表示目标访问网站反馈的页面数据中不包含网址。这种情况下，有可能是目标访问网站对网页中的网址进行了加密，页面数据为加密后的字符串。在这种情况下，可以对所述页面数据进行解密，以获取网址，也即解密后的访问地址。通过访问解密后的访问地址，可以获取该地址中的页面内容数据。

具体实施中，对页面数据进行解密的过程可以是利用预先设置的解密脚本进行的。

进一步地，所述响应消息包括所述目标访问网站的源代码；在图3所示步骤S301之前还可以包括：根据所述目标访问网站的源代码确定加密代码；根据所述加密代码确定解密代码，以用于对所述目标访问网站返回的加密数据进行解密。

本发明实施例可以根据目标访问网站的源代码确定加密代码，进而确定相应的解密代码。所述解密代码可以用于对目标访问网站中的加密字符串进行解密。

需要说明的是，根据加密脚本确定对应的解密脚本的具体实施方式可参照现有技术，本发明实施例对此不作限制。

本发明一个具体的实施例中，在获取到目标访问网站的网页内容后，可以将内容数据存储至存储器中。所述存储器可以是缓存，也可以是结构化的数据库，例如可以是数据仓库。

请参照图4，本发明实施例还公开了一种爬取数据的装置40。爬取数据的装置40可以包括访问请求发送模块401、响应消息接收模块402、访问请求更新模块403和内容获取模块404。

其中，访问请求发送模块401适于模拟浏览器发送针对目标访问网站的访问请求；响应消息接收模块402适于接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；访问请求更新模块403适于根据所述状态码或页面数据更新所述访问请求；内容获取模块404适于利用更新后的访问请求获取所述目标访问网站中的内容。

关于所述同步显示装置40的工作原理、工作方式的更多内容，可以参照图1至图2中的相关描述，这里不再赘述。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1、图2或图3中所示方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1、图2或图3中所示方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种爬取数据的方法，其特征在于，包括：

模拟浏览器发送针对目标访问网站的访问请求；

接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；

根据所述状态码或页面数据更新所述访问请求；

利用更新后的访问请求获取所述目标访问网站中的内容。

2.根据权利要求1所述的爬取数据的方法，其特征在于，所述根据所述状态码更新所述访问请求包括：

如果所述状态码指示访问被拒绝，则从预设标头池中选取新的标头更新所述访问请求，所述预设标头池中的标头包括用户代理、Cookie。

3.根据权利要求1所述的爬取数据的方法，其特征在于，所述根据所述状态码更新所述访问请求包括：

如果所述状态码指示访问被拒绝，则从预设IP池中选取新的IP更新所述访问请求。

4.根据权利要求1所述的爬取数据的方法，其特征在于，所述根据所述状态码更新所述访问请求包括：

如果所述状态码指示请求的资源临时分配新的URL并且所述新的URL指示验证码验证页，则重定向到新的URL，跳转至验证码页面，并进行验证码识别；

将识别结果加入所述访问请求，已得到所述更新后的访问请求。

5.根据权利要求1所述的爬取数据的方法，其特征在于，所述根据所述状态码更新所述访问请求包括：

如果所述状态码指示请求的资源永久分配新的URL，或所述状态码指示请求的资源临时分配新的URL并且所述新的URL指示登录页，则从预设账号池选取新的账号更新所述访问请求。

6.根据权利要求1所述的爬取数据的方法，其特征在于，所述根据所述页面数据更新所述访问请求包括：

根据预设正则表达式对所述页面数据进行正则匹配；

如果匹配失败，则对所述页面数据进行解密，以得到解密后的访问地址；

确定针对所述解密后的访问地址的所述更新后的访问请求。

7.根据权利要求6所述的爬取数据的方法，其特征在于，所述响应消息包括所述目标访问网站的源代码；所述根据预设正则表达式对所述页面数据进行正则匹配之前还包括：

根据所述目标访问网站的源代码确定加密代码；

根据所述加密代码确定解密代码，以用于对所述目标访问网站返回的加密数据进行解密。

8.一种爬取数据的装置，其特征在于，包括：

访问请求发送模块，适于模拟浏览器发送针对目标访问网站的访问请求；

响应消息接收模块，适于接收所述目标访问网站针对所述访问请求的响应消息，所述响应消息包括状态码和页面数据；

访问请求更新模块，适于根据所述状态码或页面数据更新所述访问请求；

内容获取模块，适于利用更新后的访问请求获取所述目标访问网站中的内容。

9.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至7中任一项所述爬取数据的方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至7中任一项所述爬取数据的方法步骤。