CN111147325A

CN111147325A - 分布式网络信息采集系统、方法及计算机可读存储介质

Info

Publication number: CN111147325A
Application number: CN201911313586.6A
Authority: CN
Inventors: 胡双兴; 程海龙; 张宇; 刘永强; 沈智杰; 周勇林; 景晓军
Original assignee: Surfilter Network Technology Co ltd; Shenzhen Surfilter Technology Development Co ltd
Current assignee: Surfilter Network Technology Co ltd; Shenzhen Surfilter Technology Development Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-12

Abstract

本发明公开了一种分布式网络信息采集系统，包括中央服务器、多个子采集结点和数据存储服务器，中央服务器用于选择采集目标、分配采集资源，通过请求将采集任务下发至指定的子采集结点；子采集结点用于根据采集任务采集完后数据后将采集的数据返回至中央服务器；数据存储服务器用于存储从子采集结点返回的数据。本发明由中央服务器负责采集目标管理、账号池资源管理、IP池资源管理、数据清洗、数据入库等业务，每个子采集结点负责具体页面请求采集工作，因此，通过对IP、账号、用户行为等方面进行限制，以实现对采集策略的更加灵活的处理，达到更加高效的采集数据的目的。

Description

分布式网络信息采集系统、方法及计算机可读存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种针对互联网社交平台或新闻网站的分布式网络信息采集系统、方法及计算机可读存储介质。

背景技术

随着web信息的日益发展，web方面的技术也越来越多，网络爬虫就是其中一项重要的技术。网络爬虫是一种自动提取网页信息的技术，对网页信息进行解析与提取。从体系结构、爬行策略和典型应用等方面，爬虫种类分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫四种常见网络爬虫。国内外很多大公司的搜索引擎利用网络爬虫为大众用户提供搜索服务，中型规模的网络爬虫以其灵活的可定制性为特定客户设计服务。但是，当爬虫技术的爬取频率过快时，会对数据采集速度造成影响。因此，针对网络爬虫技术数据量大、更新速度快以及具有很高重复性的特点，需要一种高效、实时的网络信息采集系统。

发明内容

本发明的主要目的在于提供一种分布式网络信息采集系统及方法。

为实现上述目的，本发明提供一种分布式网络信息采集系统，包括中央服务器、多个子采集结点和数据存储服务器，所述中央服务器用于选择采集目标、分配采集资源，通过请求将采集任务下发至指定的子采集结点；所述子采集结点用于根据采集任务采集完后数据后将采集的数据返回至所述中央服务器；所述数据存储服务器用于存储从所述子采集结点返回的数据。

在本发明提供的分布式网络信息采集系统中，所述采集资源包括采集账号和代理IP。

在本发明提供的分布式网络信息采集系统中，所述中央服务器包括：

采集目标管理模块，用于管理待采集目标，设置待采集目标的优先级，记录待采集目标的状态；

采集资源构建模块，用于为登录才能进行采集的网站构建采集帐号，为依赖IP地址进行采集的网站构建IP池；

调度分配模块，用于选择采集目标并为选择的采集目标分配好指定的采集资源；

调度处理模块，用于对来自子采集结点的数据进行处理，记录采集资源使用情况；

数据处理模块，用于将来自子采集结点的数据经过处理构造成结构化的数据最终存储至所述数据存储服务器。

在本发明提供的分布式网络信息采集系统中，所述中央服务器通过HTTP协议与各个采集结点进行通信。

本发明另一方面还提供一种分布式网络信息采集方法，包括以下步骤：

由中央服务器用于选择采集目标并分配采集资源；

通过请求将采集任务下发至指定的子采集结点；

所述子采集结点根据采集任务采集完后数据后将采集的数据返回至所述中央服务器；

将从所述子采集结点返回的数据存储至数据存储服务器。

在本发明提供的分布式网络信息采集方法中，所述采集资源包括采集账号和代理IP。

在本发明提供的分布式网络信息采集方法中，由中央服务器用于选择采集目标并分配采集资源的所述步骤包括：

管理待采集目标，设置待采集目标的优先级，记录待采集目标的状态；

为登录才能进行采集的网站构建采集帐号，为依赖IP地址进行采集的网站构建IP池；

选择采集目标并为选择的采集目标分配好指定的采集资源。

在本发明提供的分布式网络信息采集方法中，将从所述子采集结点返回的数据存储至数据存储服务器的所述步骤包括

对来自子采集结点的数据进行处理，记录采集资源使用情况；

将来自子采集结点的数据经过处理构造成结构化的数据最终存储至所述数据存储服务器。

本发明另一方面还提供一种策略集群分发匹配系统，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本发明另一方面还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本发明的分布式网络信息采集系统、方法以及计算机可读存储介质，具有以下有益效果：本发明提供的分布式网络信息采集系统，通过采集目标管理模块设置待采集目标的优先级，记录待采集目标的状态，可以实现对采集目标的采集频率的控制；通过采集资源构建模块设置采集帐号池和IP池，可以实现账号池资源管理和IP池资源管理；通过调度分配模块为采集目标分别采集资源，可以实现对采集资源的合理分配；通过调度处理模块对采集回来的信息(如采集账号使用情况和IP使用情况)进行处理，对使用情况进行标记与日志记录；通过数据处理模块对采集回来的数据实现数据清洗、数据入库等业务；由此，实现对采集策略的更加灵活的处理，达到更加高效的采集数据的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1为本发明实施例一提供的分布式网络信息采集系统的功能模块示意图；

图2为本发明实施例二提供的分布式网络信息采集方法的流程示意图；

图3为图2所示的步骤S1的流程示意图；

图4为图2所示的步骤S4的流程示意图；。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明总的思路是：由中央服务器负责采集目标管理、账号池资源管理、IP池资源管理、数据清洗、数据入库等业务，每个子采集结点负责具体页面请求采集工作，因此，通过对IP、账号、用户行为等方面进行限制，以实现对采集策略的更加灵活的处理，达到更加高效的采集数据的目的。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

图1为本发明实施例一提供的分布式网络信息采集系统的功能模块示意图。如图1所示，本发明提供的分布式网络信息采集系统包括中央服务器10、多个子采集结点20和数据存储服务器30。所述中央服务器10用于选择采集目标、分配采集资源，通过请求将采集任务下发至指定的子采集结点；所述子采集结点20用于根据采集任务采集完后数据后将采集的数据返回至所述中央服务器；所述数据存储服务器30用于存储从所述子采集结点返回的数据。

具体地，在本发明一实施例中，中央服务器10通过HTTP协议与各个采集结点进行通信，通过中央服务器10控制整个采集的调度管理和采集资源管理，以实现对采集目标与采集资源的统一管理分配。因此，中央服务器10包括：

采集目标管理模块110，用于管理待采集目标，设置待采集目标的优先级，记录待采集目标的状态；

采集资源构建模块120，用于为登录才能进行采集的网站构建采集帐号，为依赖IP地址进行采集的网站构建IP池；

调度分配模块130，用于选择采集目标并为选择的采集目标分配好指定的采集资源；

调度处理模块140，用于对来自子采集结点的数据进行处理，记录采集资源使用情况；

数据处理模块150，用于将来自子采集结点的数据经过处理构造成结构化的数据最终存储至所述数据存储服务器。

在本发明中，通过采集目标管理模块设置待采集目标的优先级，记录待采集目标的状态，可以实现对采集目标的采集频率的控制；通过采集资源构建模块设置采集帐号池和IP池，可以实现账号池资源管理和IP池资源管理；通过调度分配模块为采集目标分别采集资源，可以实现对采集资源的合理分配；通过调度处理模块对采集回来的信息(如采集账号使用情况和IP使用情况)进行处理，对使用情况进行标记与日志记录；通过数据处理模块对采集回来的数据实现数据清洗、数据入库等业务。由此，实现对采集策略的更加灵活的处理，达到更加高效的采集数据的目的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

实施例二

基于同一发明构思，本实施例公开了一种分布式网络信息采集方法，如图2所示，所述方法包括：

步骤S1、由中央服务器用于选择采集目标并分配采集资源；

具体地，在本发明一实施例中，通过中央服务器10控制整个采集的调度管理和采集资源管理，以实现对采集目标与采集资源的统一管理分配。因此，步骤S1包括以下子步骤：

步骤S11、管理待采集目标，设置待采集目标的优先级，记录待采集目标的状态；

步骤S12、为登录才能进行采集的网站构建采集帐号，为依赖IP地址进行采集的网站构建IP池；

步骤S13、选择采集目标并为选择的采集目标分配好指定的采集资源；

步骤S2、通过请求将采集任务下发至指定的子采集结点；

具体地，在本发明一实施例中，中央服务器通过HTTP协议与各个采集结点进行通信。

步骤S3、所述子采集结点根据采集任务采集完后数据后将采集的数据返回至所述中央服务器；

具体地，在本发明一实施例中，每个子采集结点负责具体页面请求采集工作。

步骤S4、将从所述子采集结点返回的数据存储至数据存储服务器。

具体地，在本发明一实施例中，中央服务器对子采集结点爬取的数据进行数据清洗、数据入库，因此，步骤S4包括以下子步骤：

步骤S41、对来自子采集结点的数据进行处理，记录采集资源使用情况；

步骤S42、将来自子采集结点的数据经过处理构造成结构化的数据最终存储至所述数据存储服务器。

实施例三

基于同一发明构思，本实施例公开了一种策略集群分发匹配系统，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤。

实施例四

基于同一发明构思，本实施例公开了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种分布式网络信息采集系统，其特征在于，包括中央服务器、多个子采集结点和数据存储服务器，所述中央服务器用于选择采集目标、分配采集资源，通过请求将采集任务下发至指定的子采集结点；所述子采集结点用于根据采集任务采集完后数据后将采集的数据返回至所述中央服务器；所述数据存储服务器用于存储从所述子采集结点返回的数据。

2.如权利要求1所述的分布式网络信息采集系统，其特征在于，所述采集资源包括采集账号和代理IP。

3.如权利要求2所述的分布式网络信息采集系统，其特征在于，所述中央服务器包括：

4.如权利要求1所述的分布式网络信息采集系统，其特征在于，所述中央服务器通过HTTP协议与各个采集结点进行通信。

5.一种分布式网络信息采集方法，其特征在于，包括以下步骤：

由中央服务器用于选择采集目标并分配采集资源；

通过请求将采集任务下发至指定的子采集结点；

将从所述子采集结点返回的数据存储至数据存储服务器。

6.如权利要求5所述的分布式网络信息采集方法，其特征在于，所述采集资源包括采集账号和代理IP。

7.如权利要求6所述的分布式网络信息采集系统，其特征在于，由中央服务器用于选择采集目标并分配采集资源的所述步骤包括：

选择采集目标并为选择的采集目标分配好指定的采集资源。

8.如权利要求5所述的分布式网络信息采集方法，其特征在于，将从所述子采集结点返回的数据存储至数据存储服务器的所述步骤包括

9.一种分布式网络信息采集系统，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求5-8任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求5-8任一项所述的方法的步骤。