CN109815385A

CN109815385A - 基于app客户端的爬虫及爬取方法

Info

Publication number: CN109815385A
Application number: CN201910102917.5A
Authority: CN
Inventors: 龚云路
Original assignee: Wuxi Fireball Pratt & Whitney Information Technology Co Ltd
Current assignee: Wuxi Fireball Pratt & Whitney Information Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-28

Abstract

本发明公开了基于APP客户端的爬虫及爬取方法，包括与爬虫服器匹配的爬虫sdk，爬虫sdk集成在APP客户端中，APP客户端通过与爬虫服务器端约定的特定参数来控制爬虫程序的启停，APP客户端作为子节点控制启动爬虫程序采集目标服务器数据实时返还给爬虫服务器，并由爬虫服务器解析采集的目标服务器数据，所有APP客户端都可自由地集成此爬虫sdk，这样既减轻了爬虫服务器的访问压力又可解决现有互联网爬虫技术在反爬虫技术检测下封杀IP的问题。

Description

基于APP客户端的爬虫及爬取方法

技术领域

本发明涉及网络爬虫领域，具体涉及基于APP客户端的爬虫及爬取方法。

背景技术

现有的爬虫技术获取目标服务器数据的方式为通过HTTP库向第三方服务器发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待第三方服务器响应，等待获取第三方服务器响应内容：如果第三方服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，JSON字符串，二进制数据(如图片视频)等类型，这种方法的缺点是由爬虫服务器直接请求第三方服务器，容易造成爬虫服务器的负载过大，一旦第三方服务器有反爬虫机制如：检查IP访问情况，一个IP如果短时间内超过了指定的次数就会被限制访问或严重情况下封杀网络IP造成无法访问。因此对于服务器的维护和更新产生了极大的困难。而且这种方法有一显著缺点就是无法应用在现有流行的个人电子产品上，如手机、个人平板电脑等移动终端，只能在服务器上使用，应用范围单一已经不是很符合现有多电子设备的社会。

发明内容

鉴于背景技术的不足，本发明是基于APP客户端的爬虫及爬取方法，所要解决的技术问题是传统的爬虫服务器直接访问目标服务器方式中，爬虫服务器定制化程度高，可移植性差、维护和更新很困难，且频繁爬取数据并上传到爬虫服务器容易被具有反爬虫的目标服务器永久封锁IP，也对爬虫服务器造成很大压力，且基于浏览器的爬虫脚本对于用户来说并不友好，每次执行新的爬虫任务时需要重新下载爬虫脚本，会被杀毒软件误杀。

为实现上述技术目的，本发明提供了如下技术方案：

基于APP客户端的爬虫，包括与爬虫服器匹配的爬虫sdk，爬虫sdk集成在APP客户端中，APP客户端通过与爬虫服务器端约定的特定参数来控制爬虫程序的启停，APP客户端作为子节点控制启动爬虫程序采集目标服务器数据并实时返还给爬虫服务器，然后由爬虫服务器解析采集的目标服务器数据。

爬虫服务器包括文件服务器、应用服务器和解析服务器，爬虫服务器将爬取的数据以文件方式存储在所述文件服务器中，由解析服务器定时解析从目标服务器采集来的数据。

基于APP客户端的爬虫的爬取方法，其特征在于包括如下步骤：

S1：APP客户端配置初始化完毕后向爬虫服务器发起启动互联网爬虫请求；

S2：所述爬虫服务器收到启动请求，并向APP客户端发送爬取规则及目标服务器的地址并判断是否生成相应的请求队列；

S3：判断每个请求的页面是否需要鉴权，如需要先通过用户协助访问页面，爬虫服务器根据请求队列按顺序拼接，封装目标服务器的Request请求返回给APP客户端；

S4：APP客户端解析Request特定参数并判断是否需要继续爬取数据，如需要就向目标服务器发起请求获取Response；不需要则停止互联网爬虫回到步骤S1重新配置爬取任务；

S5：APP客户端请求爬虫服务器，并成功响应后并携带目标服务器返回的Response，APP客户端实时向文件服务器上传Response，应用服务器根据解析规则定时解析文件服务器中的Response文件，并将解析后的数据保存到应用服务器的数据库中；

S6：爬虫服务器解析Response并修改队列状态，继续执行第S2步。

步骤S4中所述Response的状态码为403时，或是爬虫服务器校验Response不符合校验规则，则放弃此次爬虫请求。

步骤S5中的所述数据库包含关系型数据库和面向文档的非关系型数据库，与用户状态相关且以后会发生变化的字段保存在关系型数据库中，不与状态相关多用于查询的数据通过建立索引存于非关系数据库中。

本发明与现有技术相比所具有的有益效果是：将爬虫从传统的服务端转移到移动端上，爬虫程序嵌套在APP客户端里，本发明采用APP内嵌入爬虫sdk交互代码方式，安装了该APP的移动端可作为一个子节点控制爬虫的启动，服务器端持续监控协调各个爬虫的工作，及时接收爬虫回传的有用信息，通过建立和维护数据库对接收到的回传信息进行存储。本APP客户端爬虫明显减轻服务器端的运算负荷，且所有安装APP的移动端都有不同的IP地址，爬虫服务器利用移动端的IP地址抓取目标服务器的数据，在目标服务器有反爬虫机制时，这种由APP客户端和目标服务器交互的方式更像是人类在操作(网络请求行为本身就是人类操作电子设备发起请求获取资源展示给人类观看)。因为这种请求方式本身就是由用户的电子设备发起的网络请求在获取资源有效地解决了IP被封的问题；采用客户机/和服务器(c/s)模式，更具有扩展性和可移植性，相对于采用浏览器端和服务端(b/s)模式而言，基于APP客户端的爬虫无需多次下载任务脚本，有效避免被杀毒软件误杀的风险。

附图说明

本发明有如下附图：

图1为本发明的爬虫工作流程图；

图2为本发明的爬虫系统结构图。

具体实施方式

本实施例中的基于APP客户端的爬虫，包括与爬虫服务器匹配的爬虫sdk，爬虫sdk集成在APP客户端中，该爬虫sdk可移植能力强，不依赖浏览器。APP客户端通过与爬虫服务器端约定的特定参数来控制爬虫程序的启停，APP客户端作为子节点控制启动爬虫程序采集目标服务器数据实时返还给爬虫服务器，爬虫服务器包括文件服务器、应用服务器和解析服务器，爬虫服务器将爬取的数据以文件方式存储在所述文件服务器中，由解析服务器定时解析从目标服务器采集来的数据，且访问频率不超过目标服务器限制的访问频率上限，一般不超过每秒10次，这种APP客户端可以应用在更多的移动终端上，每个移动终端都提供一个不同的IP地址，这样原理上目标服务器无法完全封杀移动终端的IP地址。

图1是本实施例的基于APP客户端配置初始化完毕后向爬虫服务器发起启动互联网爬虫请求。爬虫服务器收到启动请求，会向APP客户端发送爬取规则及目标服务器的地址并判断是否生成相应的请求队列。判断每个请求的页面是否需要鉴权，如需要先通过用户协助访问页面，爬虫服务器根据请求队列，封装目标服务器的Request请求返回给APP客户端，Request请求参数包含的必要参数：URL、Method、Headers、Form表单等。APP客户端解析Request特定参数(根据前端后端约定好的特定参数判断是否需要继续爬取数据)，如需要就向目标服务器发起请求获取Response。通过模仿人的行为访问目标服务器来防止反爬虫机制的IP限制，如果不需要继续爬取则停止请求目标服务器然后回到初始状态等待爬虫服务器重新配置爬取任务。APP客户端请求爬虫服务器，成功响应后并携带目标服务器返回的Response实时上传到文件服务器，爬虫服务器校验Response并修改队列状态，继续判断是否生成相应的请求队列。同时解析服务器根据解析规则(爬取数据不同需要配置不同的解析规则，将解析规则存在MySQL数据中，项目启动后缓存在Redis数据库中，Redis数据库为非关系型数据库，效率很高，为爬虫系统做扩展准备。)定时解析文件服务器中封装的Response文件。并将解析后的符合解析规则与用户相关的字段数据存贮在MySQL数据库中，解析服务器解析Response并修改解析状态。

图2是本实施例的基于APP客户端的爬虫的系统结构图，集成爬虫sdk的APP安装在不同的移动端上就构成了本爬虫系统的一部分。与传统的分布式爬虫系统服务器端相比，本发明的服务器子系统不必为爬虫提供其运行所需的运算(CPU)资源和IP资源，本发明的爬虫占用的这两种资源都取自移动客户端，且与基于浏览器的爬虫系统相比，基于APP客户端的爬虫无需根据不同的爬取任务多次下载爬虫任务脚本，节省流量，有效避免被杀毒软件误杀的风险；实时将爬虫客户端从目标服务器上得到的Response数据上传到文件服务器中，定时由应用服务器解析后并持久保存到数据库中这样可避免基于浏览器的爬虫脚本因禁止浏览器缓存而无法完整地保存目标服务器返回的数据的问题。

Claims

1.基于APP客户端的爬虫，其特征在于：包括与爬虫服器匹配的爬虫sdk，所述爬虫sdk集成在APP客户端中，所述APP客户端通过与爬虫服务器端约定的特定参数来控制爬虫程序的启停，所述APP客户端作为子节点控制启动爬虫程序采集目标服务器数据实时返还给爬虫服务器，并由所述爬虫服务器解析采集的目标服务器数据。

2.根据权利要求1所述的基于APP客户端的爬虫，其特征在于所述爬虫服务器包括文件服务器、应用服务器和解析服务器，所述爬虫服务器将爬取的数据以文件方式存储在所述文件服务器中，由所述解析服务器定时解析从所述目标服务器采集来的数据。

3.基于APP客户端的爬虫的爬取方法，其特征在于包括如下步骤：

S1：所述APP客户端配置初始化完毕后向所述爬虫服务器发起启动互联网爬虫请求；

S2：所述爬虫服务器收到启动请求，并向所述APP客户端发送爬取规则及目标服务器的地址并判断是否生成相应的请求队列；

S3：判断每个请求的页面是否需要鉴权，如需要先通过用户协助访问页面，所述爬虫服务器根据请求队列按顺序拼接，封装所述目标服务器的Request请求返回给所述APP客户端；

S4：所述APP客户端解析Request特定参数并判断是否需要继续爬取数据，如需要就向所述目标服务器发起请求获取Response；不需要则停止互联网爬虫回到步骤S1重新配置爬取任务；

S5：所述APP客户端请求所述爬虫服务器，并成功响应后并携带所述目标服务器返回的所述Response，所述APP客户端实时向所述爬虫服务器上传所述Response，爬虫服务器将Response文件以文本形式上传至所述文件服务器，所述解析服务器根据解析规则定时解析所述文件服务器中的Response文件，并将解析后的数据保存到所述应用服务器的数据库中；

4.根据权利要求3所述的基于APP客户端的爬虫的爬取方法，其特征在于步骤S5中的所述数据库包含关系型数据库和面向文档的非关系型数据库，与用户状态相关且以后会发生变化的字段保存在关系型数据库中，不与状态相关多用于查询的数据通过建立索引存于非关系数据库中。

5.根据权利要求3所述的基于APP客户端的爬虫的爬取方法，其特征在于步骤S4中所述Response的状态码为403时，或是爬虫服务器校验Response不符合校验规则，则放弃此次爬虫请求。