CN107391775A

CN107391775A - 一种通用的网络爬虫模型实现方法及系统

Info

Publication number: CN107391775A
Application number: CN201710846672.8A
Authority: CN
Inventors: 韩吉威
Original assignee: Hubei Chu Tianyun Co Ltd
Current assignee: Hubei Chu Tianyun Co Ltd
Priority date: 2017-08-28
Filing date: 2017-09-15
Publication date: 2017-11-24

Abstract

本申请公开了一种通用的网络爬虫模型实现方法及系统；其中的方法主要包括：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

Description

一种通用的网络爬虫模型实现方法及系统

技术领域

本发明涉及网络通讯技术，尤其是涉及一种通用的网络爬虫模型实现方法、通用的网络爬虫模型实现系统、存储设备、计算设备以及机器可读存储介质。

背景技术

网络爬虫也可以称为网络蜘蛛或者网络机器人或者网页追逐者等，网络爬虫可以实现自动地从网络中爬取数据的目的。网络爬虫实质上是能够实现按照预定规则自动抓取网络数据的程序或者脚本。

发明人在实现本公开过程中发现，如何利用网络爬虫方便快捷的获得规范完整且干净的网络数据，是实现网络数据爬取过程中一个值得关注的技术问题。

发明内容

鉴于上述技术问题，本公开内容提出了一种通用的网络爬虫模型实现方法、通用的网络爬虫模型实现系统、存储设备、计算设备以及机器可读存储介质。

在本公开内容的一个方面，提供了一种通用的网络爬虫模型实现方法，该方法包括：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

在本公开内容的另一方面，提供了一种通用的网络爬虫模型实现系统，该系统主要包括：获取任务模块，用于获取待处理的爬虫爬取任务；生成任务对象模块，用于以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；创建实例模块，用于针对所述多个爬虫爬取任务对象动态创建至少一个网络爬虫实例，由网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；合并处理模块，用于针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

在本公开内容的再一方面，提供了一种存储设备，其中存储有多条指令，所述指令适于由处理器加载并执行，且所述指令在被执行时，下述步骤被运行：获取待处理的爬虫爬取任务；以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

在本公开内容的再一方面，提供了一种计算设备，包括处理器和存储器，其中所述存储器上存储有计算机程序指令，所述计算机程序指令在由所述处理器执行时实现如上述通用的网络爬虫模型实现方法中的各步骤，例如，所述计算机程序指令主要包括：用于获取待处理的爬虫爬取任务的指令；用于以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象的指令；用于由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作的指令；用于针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中的指令。

在本公开内容的其中再一个方面，提供了一种机器可读存储介质，其上存储有计算机程序指令，其中所述计算机程序指令在由处理器执行时，实现如上述通用的网络爬虫模型实现方法，例如，所述计算机程序指令主要包括：用于获取待处理的爬虫爬取任务的指令；用于以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象的指令；用于由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作的指令；用于针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中的指令。

与现有技术相比，本公开内容的有益效果为：本公开通过以URL为爬虫爬取任务执行粒度，将一各爬虫爬取任务转化为多个爬虫爬取任务对象，使爬虫爬取任务基于URL被分解；通过针对多个爬虫爬取任务对象创建一个或者多个网络爬虫实例，使多个爬虫爬取任务对象可以由网络爬虫实例可以被并行执行；通过针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理，使存储于数据集合中的网络数据不但可以符合相应的规范，而且可以形成干净且完整的网络数据。由此可知，本公开提供的技术方案有利于提高网络数据的爬取效率，并有利于提高网络数据的可用性。

附图说明

在所附权利要求书中具体阐述了本公开的新颖特征。通过参考对在其中利用到本发明原理的说明性实施方式加以阐述的以下详细描述和附图，将会对本发明的特征和优点获得更好的理解。附图仅用于示出实施方式的目的，而并不应当被认为是对本发明的限制。而且在整个附图中，用相同的附图标记表示相同的元素，在附图中：

图1示意性地示出了根据本公开实施方式的可以在其中实现的应用场景示意图；

图2示意性地示出了根据本公开一实施例的通用的网络爬虫模型实现方法流程图；

图3示意性地示出了根据本公开一实施例的将爬虫爬取任务转化为多个爬虫爬取任务对象的示意图；

图4示意性地示出了根据本公开一实施例的分布式的网络数据爬取服务的示意图；

图5示意性地示出了根据本公开一实施例的网络爬虫实例中的处理模型所执行的操作的示意图；

图6示意性地示出了根据本公开一实施例的网络爬虫实例中的存储模型所执行的操作的示意图；

图7示意性地示出了根据本公开一实施例的网络爬虫实例中的监控模型所执行的操作的示意图；

图8示意性地示出了根据本公开一实施例的通用的网络爬虫模型实现系统的结构示意图；

图9示意性地示出了根据本公开一实施例的计算设备示意图。

具体实施方式

下面将参照附图更详细地描述本公开内容的示例性实施方式。

虽然附图中显示了本公开内容的示例性实施方式，然而应当理解，可以以各种形式实现本公开内容而不应被这里阐述的实施方式所限制。相反的，提供这些实施方式是为了能够更透彻地理解本公开内容，并且能够将本公开内容的范围完整地传达给本领域技术人员。

在以下详细描述中没有任何内容旨在表明任何特定组件、特征或步骤对于本公开是必不可少的。本领域技术人员将会理解，在不脱离本公开内容的范围内各种特征或步骤可以彼此替代或结合。

本公开概述

本发明的发明人发现，用户在利用通用网络爬虫/全网网络爬虫从网络中爬取网络数据时，往往希望能够方便快捷的获得规范完整且干净的网络数据。本公开实施方式提供的技术方案通过以URL为爬取任务执行粒度，可以将一个爬虫爬取任务转化为多个爬虫爬取任务对象，从而使爬虫爬取任务基于URL被分解；通过针对多个爬取爬取任务对象创建至少一个网络爬虫实例，可以使多个爬虫爬取任务对象对应多个网络爬虫实例，例如，通过将各爬虫爬取任务对象设置于消息中间件中，且每一个网络爬虫实例都可以从消息中间件中读取多个爬虫爬取任务对象，使一个爬虫爬取任务可以基于不同的URL而被多个网络爬虫实例并行执行；通过针对爬虫爬取任务对象设置消息中间件，有利于保证网络数据爬取服务对爬虫爬取任务对象的正常消费；通过针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理，例如，去重合并整理等，可以形成干净且完整且符合相应的规范的网络数据；通过使用存储中间件，有利于保证数据库存储服务对网络数据的正常消费。最终本公开提供的技术方案有利于提高网络数据的爬取效率，并有利于提高网络数据的可用性。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1，示意性地示出了根据本公开实施方式的可以在其中实现的应用场景。

图1中，计算机110(即计算设备的一种)能够通过无线连接方式或者有线连接方式接入互联网，从而计算机110可以访问位于网络侧的多台服务器120(图1中仅示意性的示出了两台服务器120)提供的网页，即用户100可以通过计算机110与位于网络侧的各服务器120进行信息交互。

用户100在需要从相应的服务器120提供的网页中获得相应的网络数据时，可以利用其计算机110通过网络爬虫爬取的方式从相应的服务器120提供的网页中获取相应的网络数据。

然而，本领域技术人员完全可以理解，本公开实施方式的适用场景不受到该框架任何方面的限制。

示例性方法

下面结合图1所示的应用场景，参考图2来描述根据本公开示例性实施方式的通用的网络爬虫模型实现方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

参见图2，示意性地示出了根据本公开一实施例的通用的网络爬虫模型实现方法的流程图，且该方法通常是在能够运行计算机程序并能够接入网络的计算设备中执行，例如，该方法可以在台式计算机、笔记型计算机以及服务器等计算设备中执行。当然，本公开实施方式也不排除该方法由智能移动电话以及平板电脑等移动计算设备实现的可能性。

本公开实施方式的方法主要包括：步骤S200、步骤S210、步骤S220以及步骤S230。下面对本公开实施方式所包括的各步骤分别进行说明。

S200、获取待处理的爬虫爬取任务。

作为示例，本公开可以通过从爬取任务集合中获取一条待爬取记录，从而获得一个待处理的爬虫爬取任务。也就是说，本公开预先设置有爬取任务集合，该爬取任务集合中通常包含有一条或者多条记录，一条未被成功执行且当前未被正在执行的记录可以被称为待爬取记录，该待爬取记录可以成为一个待处理的爬虫爬取任务。本公开可以将已经被成功执行过的记录从爬取任务集合中删除，也可以将其保留在爬取任务集合中，并为该记录设置已成功执行状态信息，使该记录不能够被作为待处理的爬虫爬取任务，从而避免了一个爬虫爬取任务被先后重复执行的现象。本公开可以为当前正在被执行的记录设置当前正在执行状态信息，使该记录不能够再次被作为待处理的爬虫爬取任务，从而避免了一个爬虫爬取任务被同时重复执行的现象。

作为示例，本公开的爬取任务集合中的一条记录(即爬虫爬取任务)所包括的信息可以如下述表1所示：

表1

在一个可选示例中，本公开可以通过触发器从爬取任务集合中获取待处理的爬虫爬取任务，具体而言，本公开可以在接收到用户发起的包含有用户标识以及爬虫爬取任务标识的爬取请求时，从该爬取请求中获取爬虫爬取任务标识，并向触发器传输该爬虫爬取任务标识，使触发器在爬取任务集合中查找与其接收到的爬虫爬取任务标识相匹配的记录，查找到的匹配记录可能会被作为待处理的爬虫爬取任务。

在一个可选示例中，本公开在触发器基于爬虫爬取任务标识从爬取任务集合中获取到一个爬虫爬取任务之后，可以针对该爬虫爬取任务进行合法性检测，并根据合法性检测结果确定是否将本次获取到的爬虫爬取任务作为待处理的爬虫爬取任务，即在合法性检测通过的情况下，将本次从爬取任务集合中获取到的爬虫爬取任务作为待处理的爬虫爬取任务，而在合法性检测失败的情况下，不会将本次从爬取任务集合中获取到的爬虫爬取任务作为待处理的爬虫爬取任务，可以向用户返回相应的合法性检测失败的信息。

在一个可选示例中，本公开的合法性检测可以具体为针对爬虫爬取任务的状态的合法性检测，例如，判断爬虫爬取任务中的status是否为待执行状态信息，如果status为待执行状态信息，则确定本次针对爬虫爬取任务的状态的合法性检测通过；如果status为已成功执行状态信息或者当前正在执行状态信息，则确定本次针对爬虫爬取任务的状态的合法性检测失败。

在一个可选示例中，本公开的合法性检测可以具体为针对用户权限的合法性检测，例如，爬取任务集合中的每一条记录都对应有相应的用户权限信息，本公开可以从爬取请求中获取用户标识，并根据该用户标识以及从爬取任务集合中获取的爬虫爬取任务中的用户权限信息判断用户是否具有执行该爬虫爬取任务的权限，如果用户具有执行该爬虫爬取任务的权限，则确定本次针对用户权限的合法性检测通过；如果用户不具有执行该爬虫爬取任务的权限，则确定本次针对用户权限的合法性检测失败。

本公开可以根据实际需求灵活设置相应的合法性检测，本公开不限制合法性检测的具体表现形式。

在一个可选示例中，本公开中的待处理的爬虫爬取任务可以是基于所见即所得方式设置，并存储于爬取任务集合中的；一个具体的例子：首先，本公开获取待访问页面，并通过浏览器显示该待访问页面；其次，本公开确定用户基于浏览器显示的待访问页面而选取的页面元素；最后，本公开获取页面元素的定位信息，并基于页面元素的定位信息设置爬虫爬取任务，之后，将本次设置的爬虫爬取任务存储于爬取任务集合中。一个更为具体的基于所见即所得方式设置成爬虫爬取任务的例子，如下述步骤1至步骤7所示：

步骤1、用户通过计算设备中安装的浏览器形成针对待访问页面的页面访问请求，例如，HTTP GET请求，由浏览器发送该页面访问请求，该页面访问请求被传输至浏览器访问代理处；本公开中的浏览器访问代理可以与浏览器设置于同一计算设备中，也可以设置于不同的计算设备中；另外，本公开中的浏览器可以为浏览器访问代理的内核，即从浏览器访问代理的外部来看，浏览器访问代理模拟出了浏览器的行为。

步骤2、在浏览器访问代理接收到来自浏览器的页面访问请求的情况下，由浏览器访问代理继续向相应的服务器发送该页面访问请求。

步骤3、在相应的服务器接收到来自浏览器访问代理的页面访问请求的情况下，根据该页面访问请求形成待访问页面，并向浏览器访问代理发送该待访问页面。

步骤4、在浏览器访问代理接收到来自相应的服务器的待访问页面的情况下，对该待访问页面进行预处理，以便于为待访问页面中的页面元素设置事件处理响应函数，例如，为待访问页面中的页面元素设置用于实现将被点击的相应页面元素作为用户选取的页面元素(也可以称为待爬取的页面元素)的onClick事件响应函数以及用于突出显示光标在浏览器显示的待访问页面中当前悬停位置处的页面元素的mouse over事件响应函数等；另外，本公开还可以根据实际需求使上述预处理的操作包括其他内容，例如，为待访问页面中的页面元素添加元素标识，以避免页面的HTML代码书写不规范导致的页面元素没有元素标识的现象；再例如，将待访问页面引用的资源的路径(即相对路径)设置为绝对路径，使待访问页面可以在用户的浏览器处正常加载显示；再例如，根据属性过滤规则对待访问页面中的元素属性进行过滤，以去除待访问页面中具有干扰性质的元素属性(如去除用于防爬取的元素属性等)。

步骤5、从浏览器访问代理处向浏览器发送预处理后的待访问页面，由浏览器显示器接收到的预处理后的待访问页面。

步骤6、基于mouse over事件响应函数以及onClick事件响应函数确定用户基于浏览器所显示的待访问页面而选取的页面元素，并获取基于该页面元素(即待爬取的页面元素)的爬取定位信息。

步骤7、基于爬取定位信息形成一条包含有表1中的各字段的记录，并将该记录添加在爬取任务集合中。

本公开的基于所见即所得方式设置爬取任务集合中的爬虫爬取任务，使用户可以非常方便的实现网络数据的爬取，有利于提高用户体验。另外，爬取任务集合中的爬虫爬取任务也可以是采用其他方式设置，并存储于爬取任务集合中的，本公开不限制爬虫爬取任务的设置方式。

在一个可选示例中，本公开可以为爬取任务集合中的每一个爬虫爬取任务分别设置存储标识、存储规则以及存储路径等存储配置信息，本公开还可以为爬取任务集合中的每一个爬虫爬取任务分别设置监控标识以及监控参数等监控配置信息。这些配置信息会在网络爬虫实例执行网络数据爬取操作的过程中被网络爬虫实例调用，如被网络爬虫实例中的存储模型以及监控模型调用。

S210、以URL为爬取任务执行粒度将上述爬虫爬取任务转化为多个爬虫爬取任务对象。

在一个可选示例中，本公开可以根据获取到的待处理的爬虫爬取任务所包含的分页规则以及加载规则，以该爬虫爬取任务中的初始URL为基础，形成多个新的URL，即本公开可以将初始URL分解成多个URL；本公开可以针对每一个新的URL，分别形成一个爬虫爬取任务对象。

在一个可选示例中，本公开可以对由初始URL分解而成的新的URL的最大数量进行限制，即本公开可以针对一个爬虫爬取任务所对应的爬虫爬取任务对象的最大数量进行限制。一个具体的例子，在预先设定一个爬虫爬取任务一次最多可以形成100个爬虫爬取任务对象的情况下，如图3所示，本公开可以根据一个爬虫爬取任务中的分页规则以及加载规则对该爬虫爬取任务中的初始URL进行分解，从而分解出URL_0、URL_1、……以及URL_99这100个新的URL，本公开会针对URL_0、URL_1、……以及URL_99分别形成一个爬虫爬取任务对象，从而形成100个爬虫爬取任务对象，即爬虫爬取任务对象0、爬虫爬取任务对象1、……以及爬虫爬取任务对象99。

在一个可选示例中，本公开基于初始URL所形成的新的URL可以是一级页面的URL，也可以是二级页面的URL。

在一个可选示例中，本公开所形成的爬虫爬取任务对象包含有爬虫爬取任务所包含的所有内容，例如，本公开可以在爬虫爬取任务中添加基于初始URL而分解出的一个新的URL，从而形成一个爬虫爬取任务对象；也就是说，一个爬虫爬取任务对象可以包括：爬虫爬取任务标识、初始URL、由初始URL分解出的一个URL、待爬取的页面元素、待爬取的页面元素的定位信息、分页规则、加载规则、用于表征单页面爬取/深度页面爬取的页面类型信息以及爬虫爬取任务的执行状态信息等信息。其中的爬虫爬取任务标识主要用于标识唯一一个爬虫爬取任务，不同的爬虫爬取任务标识对应不同的爬虫爬取任务。其中的待爬取的页面元素、待爬取的页面元素的定位信息主要用于从相应的页面中获取相应的网络数据。其中的分页规则和加载规则主要用于对初始URL进行分解。其中的爬虫爬取任务的执行状态信息主要用于表示该爬虫爬取任务处于已经被成功执行状态或者当前正在被执行状态或者未执行状态。

在一个可选示例中，本公开可以采用FIFO(先进先出)规则将各爬虫爬取任务对象分别设置于消息中间件中，续前例，爬虫爬取任务对象0、爬虫爬取任务对象1、……以及爬虫爬取任务对象99会基于FIFO规则而被存储于消息中间件中，从而使存储于消息中间件中的所有爬虫爬取任务对象会基于其各自存储于消息中间件中的时间顺序而被先后读取出。本公开中的消息中间件可以为采用半持久化的方式来实现。

在一个可选示例中，本公开在基于分解出的新的URL形成爬虫爬取任务对象后，可以为各爬虫爬取任务对象分别设置优先级，并按照各爬虫爬取任务对象的优先级将其设置于消息中间件中。

S220、由针对上述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对上述多个爬虫爬取任务对象执行网络数据爬取操作。

在一个可选示例中，本公开中的网络爬虫实例也可以称为爬虫实例模型。本公开可以根据爬虫爬取任务对象的数量确定出需要创建的网络爬虫实例的数量，且创建出的网络爬虫实例的数量应小于爬虫爬取任务对象的数量；例如，如图4所示，在将一个爬虫爬取任务转换为100个爬虫爬取任务对象的情况下，本公开可以针对这100个爬虫爬取任务对象动态创建10个网络爬虫实例，即图4中的爬虫实例模型1、爬虫实例模型2、……、爬虫实例模型9以及爬虫实例模型10，从而动态的形成分布式的网络数据爬取服务。

本公开通过根据爬虫爬取任务对象的数量动态的确定需要创建的网络爬虫实例的数量，并创建相应的网络爬虫实例，有利于降低网络数据爬取服务与爬虫爬取任务的耦合度。

在一个可选示例中，本公开动态创建出的每一个网络爬虫实例均可以从消息中间件中读取一个或者多个爬虫爬取任务对象，并针对其读取到的各爬虫爬取任务对象执行网络数据爬取操作；例如，每一个网络爬虫实例均可以与消息中间件建立长连接，并通过该长连接从消息中间件中读取多个爬虫爬取任务对象。续前例，10个网络爬虫实例分别通过其与消息中间件之间的长连接从消息中间件中读取10个爬虫爬取任务，从而每个网络爬虫实例针对其读取到的10个爬虫爬取任务对象执行相应的网络数据爬取操作，形成分布式网络数据爬取服务。需要特别说明的是，在从消息中间件中读取爬虫爬取任务对象时，本公开可以为消息中间件中的被读取出的各爬虫爬取任务对象设置删除标记，且消息中间件中的带有删除标记的爬虫爬取任务对象会在其被成功执行后，从消息中间件中彻底删除。

在一个可选示例中，本公开的网络爬虫实例对爬虫爬取任务对象进行解析，在解析获得的页面类型信息表征单页面爬取页面的情况下，网络爬虫实例将其基于解析出的待爬取的页面元素和待爬取的页面元素的定位信息而爬取到的页面转换为一级页面；而在解析出的页面类型信息表征深度页面爬取页面的情况下，网络爬虫实例将其基于解析出的待爬取的页面元素和待爬取的页面元素的定位信息而爬取到的页面分解为一级页面和二级页面，然后，网络爬虫实例将该爬虫爬取任务对象中的页面类型信息设置为表征单页面爬取页面的页面类型信息，以形成一个新的爬虫爬取任务对象，并将该新的爬虫爬取任务对象设置于消息中间件中。上述解析、页面爬取以及形成新的爬虫爬取任务对象并存储于消息中间件的操作可以由网络爬虫实例中的处理模型实现。另外，网络爬虫实例中的处理模型还可以对其爬取到的所有一级页面进行数据清洗、数据转换、数据分解以及数据校验等数据处理。网络爬虫实例中的处理模型对其爬取到的所有一级页面所执行的数据处理操作可以根据实际需求设置，本公开不限制数据处理操作的具体表现形式。

在一个可选示例中，网络爬虫实例中的处理模型所执行的操作如图5所示。图5中，处理模型通过执行初始化操作与消息中间件建立长连接，并通过该长连接从消息中间件读取一个或多个爬虫爬取任务对象。针对一个爬虫爬取任务对象，处理模型对该爬虫爬取任务对象进行解析，在解析获得的页面类型信息表征单页面爬取页面的情况下，处理模型将其基于解析出的待爬取的页面元素和待爬取的页面元素的定位信息而爬取到的页面转换为一级页面；而在解析出的页面类型信息表征深度页面爬取页面的情况下，处理模型将其基于解析出的待爬取的页面元素和待爬取的页面元素的定位信息而爬取到的页面分解为一级页面和二级页面，然后，处理模型将该爬虫爬取任务对象中的页面类型信息设置为表征单页面爬取页面的页面类型信息，以形成一个新的爬虫爬取任务对象，并将该新的爬虫爬取任务对象设置于消息中间件中。处理模型按照自定义格式将所有的一级页面形成工作流，并对该工作流依次执行数据清洗、数据转换、数据分解以及数据校验等数据处理操作，从而可以使每一个一级页面均形成初步符合一定规范的网络数据。

S230、针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

在一个可选示例中，由于一个爬虫爬取任务所转换出的所有爬虫爬取任务对象对应相同的爬虫爬取任务标识，因此，各网络爬虫实例基于对应同一爬虫爬取任务标识的各爬虫爬取任务对象所爬取到的网络数据对应有相应的爬虫爬取任务标识，本公开可以针对对应同一爬虫爬取任务标识的所有网络数据进行去重合并等整理，不但可以避免数据集合(如存储中间件或者数据库等)中存储有冗余信息，而且可以使数据集合中存储的信息符合自定义格式。

在一个可选示例中，本公开可以通过网络爬虫实例中的存储模型对爬取到的网络数据进行去重合并等整理，一个具体的例子，如图6所示，网络爬虫实例中的存储模型可以根据预先设定的去重合并规范对多个一级页面进行去重合并处理，使其所在的网络爬虫实例所爬取到的所有一级页面形成自定义格式的一条或者多条待存储记录，存储模型判断存储中间件中当前是否存储有待存储记录，如果当前未存储有待存储记录，则将待存储记录存储于存储中间件中，如果当前已经存储有待存储记录，则禁止将待存储记录存储于存储中间件中，如存储模块可以丢弃该待存储记录。由存储模型存储于存储中间件中的各记录最终会被分别存储于相应的数据库，如存储于DB1或者DB2或者DB3中。本公开通过所有网络爬虫实例中的存储模型，可以使针对一个爬虫爬取任务所爬取到的所有网络数据形成干净且完整的网络数据。在存储模型成功将一个爬虫爬取任务对象的网络数据以自定义格式的记录的形式存储于存储中间件中之后，网络爬虫实例(如存储模型)可以触发相应的事务，使消息中间件中的带有删除标记的该爬虫爬取任务对象彻底被删除。

在一个可选示例中，本公开中的存储模型可以根据爬虫爬取任务对象所对应的爬虫爬取任务标识获取到用户预先针对该爬虫爬取任务所设置的存储标识、存储路径以及存储规则等存储配置信息，存储模型可以根据其获取到的存储配置信息执行相应的存储操作。

在一个可选示例中，本公开的网络爬虫实例可以通过监控模型网络爬虫实例中的处理模型以及存储模型所执行的操作进行监控，如图7所示，一旦监控模型监控到处理模型以及存储模型所执行的操作存在异常现象，例如，处理模型所执行的数据清洗、数据转换、数据分解或者数据校验等数据处理操作存在异常，再例如，存储模型所执行的去重合并处理操作或者存储于存储中间件的操作存在异常等；网络爬虫实例(如监控模型)可以确定出异常操作所对应的爬虫爬取任务对象，并触发相应的事务，以恢复消息中间件中的该爬虫爬取任务对象，即取消消息中间件中的该爬虫爬取任务对象的删除标记，从而该爬虫爬取任务对象可以被网络爬虫实例再次从消息中间件中读取出来，并再次针对该爬虫爬取任务对象执行相应的操作。

在一个可选示例中，本公开中的监控模型可以根据爬虫爬取任务对象所对应的爬虫爬取任务标识获取到用户预先针对该爬虫爬取任务所设置的监控参数以及监控标识等监控配置信息，监控模型可以根据其获取到的监控配置信息执行相应的监控操作。

示例性设备

在介绍了本公开示例性实施方式的方法之后，接下来，参考图8对本公开示例性实施方式的通用的网络爬虫模型实现系统进行说明。

参见图8，示意性地示出了根据本公开一实施例的通用的网络爬虫模型实现系统的结构示意图，该系统通常可以设置于能够运行计算机程序并能够接入网络的计算设备中，例如，该系统可以设置于台式计算机、笔记型计算机以及服务器等计算设备中。当然，本公开实施方式也不排除该系统设置于智能移动电话以及平板电脑等移动计算设备中的可能性。

本公开实施方式的系统主要包括：获取任务模块800、生成任务对象模块810、创建实例模块820以及合并处理模块830。下面对本公开实施方式的各模块分别进行说明。

获取任务模块800主要用于获取待处理的爬虫爬取任务。

在一个可选示例中，获取任务模块800包括触发器，且获取任务模块800可以根据来自用户的爬取请求向触发器传输爬虫爬取任务标识，经由该触发器从爬取任务集合中获取与爬虫爬取任务标识相匹配的爬虫爬取任务。另外，触发器可以对相匹配的爬虫爬取任务进行合法性检测，并在合法性检测通过的情况下，获取任务模块800将相匹配的爬虫爬取任务作为待处理的爬虫爬取任务，否则，获取任务模块800不会将相匹配的爬虫爬取任务作为待处理的爬虫爬取任务；触发器所执行的合法性检测可以包括：由触发器检测相匹配的爬虫爬取任务的执行状态信息，以确定该爬虫爬取任务是否处于已成功执行状态或者当前正在执行状态，在确定出该爬虫爬取任务并没有处于已成功执行状态或者当前正在执行状态，而是出于未执行状态时，合法性检测通过；触发器所执行的合法性检测还可以包括：由触发器检测用户是否具有启动爬虫爬取任务执行的权限，在确定出用户具有启动爬虫爬取任务执行的权限时，合法性检测通过。

另外需要说明的是，获取任务模块800所获取到的待处理的爬虫爬取任务可以是创建爬取任务模块(图8中未示出)基于所见即所得方式创建的；例如，首先，创建爬取任务模块获取待访问页面，并通过浏览器显示该待访问页面；其次，创建爬取任务模块确定用户基于浏览器显示的待访问页面而选取的页面元素；再次，创建爬取任务模块获取页面元素的定位信息(例如，页面元素的CSS选择器的选择值以及页面元素的Xpath选择器的选择值等)，并根据页面元素的定位信息创建爬虫爬取任务。创建爬取任务模块创建的爬虫爬取任务可以包括：爬虫爬取任务标识、初始URL、待爬取的页面元素、待爬取的页面元素的定位信息、分页规则、加载规则、用于表征单页面爬取/深度页面爬取的页面类型信息以及爬虫爬取任务的执行状态信息等。

创建爬取任务模块创建爬虫爬取任务的具体过程以及获取任务模块800所执行的具体操作可以参见上述方法实施例中针对步骤200的描述，在此不再重复说明。

生成任务对象模块810主要用于以URL为爬取任务执行粒度将爬虫爬取任务转化为多个爬虫爬取任务对象。

在一个可选示例中，生成任务对象模块810可以根据爬虫爬取任务所包含的分页规则以及加载规则将待处理的爬虫爬取任务所包含的初始URL分解为多个新的URL；针对每一个新的URL，生成任务对象模块810可以在待处理的爬虫爬取任务中添加一个新的URL，形成一个爬虫爬取任务对象。生成任务对象模块810还可以采用先进先出FIFO规则将各爬虫爬取任务对象设置于消息中间件中。生成任务对象模块810所执行的具体操作可以参见上述方法实施例中针对步骤S210的描述，在此不再重复说明。

创建实例模块820主要用于针对多个爬虫爬取任务对象动态创建至少一个网络爬虫实例，由网络爬虫实例针对上述多个爬虫爬取任务对象执行网络数据爬取操作。

在一个可选示例中，创建实例模块820可以针对消息中间件中的N个爬虫爬取任务对象创建M个网络爬虫实例；各网络爬虫实例分别通过其与消息中间件之间的长连接从消息中间件中读取一个或者多个爬虫爬取任务对象；由M个网络爬虫实例分别针对其读取的爬虫爬取任务对象执行网络数据爬取操作；其中，M为小于N的正整数，而N为大于1的整数。

网络爬虫实例(如网络爬虫实例中的处理模型)可以对爬虫爬取任务对象进行解析；在解析出的页面类型信息表征单页面爬取页面的情况下，由网络爬虫实例(如处理模型)将爬取到的页面转换为一级页面；而在解析出的页面类型信息表征深度页面爬取页面的情况下，由网络爬虫实例(如处理模型)将爬取到的页面分解为一级页面和二级页面，将爬虫爬取任务对象中的页面类型信息设置为表征单页面爬取页面的页面类型信息，以形成一个新的爬虫爬取任务对象，并将新的爬虫爬取任务对象设置于消息中间件中。另外，网络爬虫实例(如处理模型)可以对其爬取到的所有一级页面进行数据清洗、数据转换、数据分解以及数据校验等数据处理。创建实例模块820以及网络爬虫实例所执行的具体操作可以参见上述方法实施例中针对步骤S220的描述，在此不再重复说明。

合并处理模块830主要用于针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

在一个可选示例中，合并处理模块830可以是网络爬虫实例中的存储模型，合并处理模块830对网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行合并处理，合并处理模块830在判断出存储中间件中未存储有合并处理后的网络数据的情况下，将合并处理后的网络数据存储于存储中间件中，否则，合并处理模块830禁止将合并处理后的网络数据存储于存储中间件中。合并处理模块830所执行的具体操作可以参见上述方法实施例中针对步骤S230的描述，在此不再重复说明。

网络爬虫实例中的监控模型可以对网络爬虫实例中的处理模型的数据处理操作以及存储模型的基于存储中间件的存储处理进行监控；监控模型在监控到出现异常处理操作时，恢复消息中间件中的相应的爬虫爬取任务对象。监控模型所执行的具体操作可以参见上述方法实施例中针对步骤S220的描述中的相关内容，在此不再重复说明。

在本公开内容的一个方面，如图9所示，还提供了一种计算设备900，其包括存储器901和处理器902，其中所述存储器901上存储有计算机程序指令9020，所述计算机程序指令9020在由所述处理器901执行时实现上文描述的通用的网络爬虫模型实现方法。由于前面已经详细描述了通用的网络爬虫模型实现方法，故在此不再详述

在公开内容的另一方面，还提供了一种机器可读存储介质，该机器可读存储介质上存储有计算机程序指令，其中所述计算机程序指令在由处理器执行时实现上文所述的通用的网络爬虫模型实现方法。对于通用的网络爬虫模型实现方法，在上文已经进行了详细描述，在此不再赘述。在一些实施方式中，机器可读存储介质是数字处理设备的有形组件。在另一些实施方式中，机器可读存储介质可选地是可从数字处理设备移除的。在一些实施方式中，举非限制性示例而言，机器可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、闪速存储器、可编程存储器(PROM)、可擦除可编程存储器(EPROM)、固态存储器、磁碟、光盘、云计算系统或服务等。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

在本文所提供的说明书中，说明了大量具体细节。然而，应当理解，本公开内容的实施方式可以在没有这些具体细节的情况下实践。在一些实施方式中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

虽然本文已经示出和描述了本发明的优选实施方式，但对于本领域技术人员显而易见的是，这样的实施方式只是以示例的方式提供的。本领域技术人员可以在不偏离本发明的实现方式的情况下，想到许多更改、可改变和替代。应当理解，在实践本发明的过程中可以采用对本文所描述的本发明实施方式的各种替代方案。以下权利要求旨在限定本发明的范围，并因此覆盖这些权利要求范围内的方法和结构及其等同项。

Claims

1.一种通用的网络爬虫模型实现方法，其特征在于，包括：

获取待处理的爬虫爬取任务；

以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；

由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；

针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

2.根据权利要求1所述的方法，其特征在于，所述爬虫爬取任务的创建过程包括：

获取待访问页面，并通过浏览器显示所述待访问页面；

确定用户基于浏览器显示的所述待访问页面而选取的页面元素；

获取所述页面元素的定位信息，并根据所述页面元素的定位信息创建爬虫爬取任务。

3.根据权利要求1所述的方法，其特征在于，所述爬虫爬取任务包括：爬虫爬取任务标识、初始URL、待爬取的页面元素、待爬取的页面元素的定位信息、分页规则、加载规则、用于表征单页面爬取/深度页面爬取的页面类型信息以及爬虫爬取任务的执行状态信息中的至少一个。

4.根据权利要求3所述的方法，其特征在于，所述待爬取的页面元素的定位信息包括：

页面元素的重叠样式表CSS选择器的选择值，和/或者，页面元素的可扩展标记语言路径Xpath选择器的选择值。

5.根据权利要求3所述的方法，其特征在于，所述获取待处理的爬虫爬取任务包括：

根据来自用户的爬取请求向触发器传输爬虫爬取任务标识；

经由所述触发器从爬取任务集合中获取与所述爬虫爬取任务标识相匹配的爬虫爬取任务。

6.根据权利要求5所述的方法，其特征在于，所述获取待处理的爬虫爬取任务还包括：

经由所述触发器对所述相匹配的爬虫爬取任务进行合法性检测；

在合法性检测通过的情况下，所述触发器将所述相匹配的爬虫爬取任务作为待处理的爬虫爬取任务；

其中，所述合法性检测包括：

经由所述触发器检测所述相匹配的爬虫爬取任务的执行状态信息，以确定该爬虫爬取任务是否处于已成功执行状态或者当前正在执行状态；和/或

经由所述触发器检测所述用户是否具有启动所述爬虫爬取任务执行的权限。

7.根据权利要求3至6中任一所述的方法，其特征在于，所述以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象包括：

根据爬虫爬取任务所包含的分页规则以及加载规则将所述初始URL分解为多个新的URL；

针对每一个新的URL，在所述待处理的爬虫爬取任务中添加一个新的URL，形成一个爬虫爬取任务对象。

8.根据权利要求1所述的方法，其特征在于，所述以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象还包括：

采用先进先出FIFO规则将各爬虫爬取任务对象设置于消息中间件中。

9.根据权利要求8所述的方法，其特征在于，所述由针对所述多个爬虫爬取任务对象而动态创建的至少一个网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作包括：

针对消息中间件中的N个爬虫爬取任务对象创建M个网络爬虫实例；

各网络爬虫实例分别通过其与消息中间件之间的长连接从消息中间件中读取至少一个爬虫爬取任务对象；

由所述M个网络爬虫实例分别针对其读取的爬虫爬取任务对象执行网络数据爬取操作；

其中，N为大于1的整数，M为小于N的正整数。

10.根据权利要求9所述的方法，其特征在于，所述M个网络爬虫实例中的任一网络爬虫实例针对其读取的爬虫爬取任务对象所执行的网络数据爬取操作包括：

由网络爬虫实例对爬虫爬取任务对象进行解析；

在解析出的页面类型信息表征单页面爬取页面的情况下，由网络爬虫实例将爬取到的页面转换为一级页面；

在解析出的页面类型信息表征深度页面爬取页面的情况下，由网络爬虫实例将爬取到的页面分解为一级页面和二级页面，将爬虫爬取任务对象中的页面类型信息设置为表征单页面爬取页面的页面类型信息，以形成一个新的爬虫爬取任务对象，并将所述新的爬虫爬取任务对象设置于消息中间件中。

11.根据权利要求10所述的方法，其特征在于，所述M个网络爬虫实例中的任一网络爬虫实例针对其读取的爬虫爬取任务对象所执行的网络数据爬取操作还包括：

由网络爬虫实例对其爬取到的所有一级页面进行数据处理；

其中，所述数据处理包括：数据清洗、数据转换、数据分解以及数据校验中的至少一个。

12.根据权利要求8至11中任一所述的方法，其特征在于，所述针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中包括：

由网络爬虫实例对其爬取到的对应同一爬虫爬取任务的网络数据进行合并处理，

网络爬虫实例在判断出存储中间件中未存储有合并处理后的网络数据的情况下，将合并处理后的网络数据存储于存储中间件中，否则，禁止将合并处理后的网络数据存储于存储中间件中。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

由网络爬虫实例对其数据处理以及存储于存储中间件的存储处理进行监控；

在监控到出现异常处理操作时，恢复所述消息中间件中的相应的爬虫爬取任务对象。

14.一种通用的网络爬虫模型实现系统，其特征在于，包括：

获取任务模块，用于获取待处理的爬虫爬取任务；

生成任务对象模块，用于以统一资源定位符URL为爬取任务执行粒度将所述爬虫爬取任务转化为多个爬虫爬取任务对象；

创建实例模块，用于针对所述多个爬虫爬取任务对象动态创建至少一个网络爬虫实例，由网络爬虫实例针对所述多个爬虫爬取任务对象执行网络数据爬取操作；

合并处理模块，用于针对各网络爬虫实例爬取到的对应同一爬虫爬取任务的网络数据进行整理后，存储于数据集合中。

15.一种存储设备，其中存储有多条指令，所述指令适于由处理器加载并执行，所述指令被执行时，下述步骤被运行：

获取待处理的爬虫爬取任务；

16.一种计算设备，包括处理器和存储器，其中所述存储器上存储有计算机程序指令，所述计算机程序指令在由所述处理器执行时实现如权利要求1至13中任一项所述的通用的网络爬虫模型实现方法。

17.一种机器可读存储介质，其上存储有计算机程序指令，其中所述计算机程序指令在由处理器执行时，实现如权利要求1至13中任一项所述的通用的网络爬虫模型实现方法。