CN112948659B

CN112948659B - 一种网页数据采集方法、装置、系统及介质

Info

Publication number: CN112948659B
Application number: CN202110258442.6A
Authority: CN
Inventors: 叶世立
Original assignee: Shenzhen Nine Star Interactive Technology Co ltd
Current assignee: Shenzhen Nine Star Interactive Technology Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2023-05-16
Anticipated expiration: 2041-03-09
Also published as: CN112948659A

Abstract

本发明公开了一种网页数据采集方法、装置、系统及介质，方法包括：接收网页数据采集请求并生成相应的采集配置文件；根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；对所述目标网页数据进行分类过滤后存储至预设数据库。本发明实施例通过将生成的网络爬虫形成消息列队，在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集，使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务，有效均衡了网页数据采集时的服务器资源负载。

Description

一种网页数据采集方法、装置、系统及介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种网页数据采集方法、装置、系统及介质。

背景技术

在制作新网页时，由于是新搭建的没有任何数据的网址，需要开发人员按需求在新网址中填充例如新闻等内容，如果采用人工手动上传则会产生很大的人力物力成本，而采用搜索引擎能更加快速地获取相关网络信息。

搜索引擎从互联网上搜集信息的过程主要依赖于网络爬虫对网站信息的爬取，然而目前的网络爬虫采集过程缺乏协同控制，导致数据采集过程服务器资源负载不均衡。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种网页数据采集方法、装置、系统及介质，旨在解决现有技术中网页数据采集中缺乏协同控制服务器资源分配不均衡的问题。

本发明的技术方案如下：

一种网页数据采集方法，其包括如下步骤：

接收网页数据采集请求并生成相应的采集配置文件；

根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；

通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；

对所述目标网页数据进行分类过滤后存储至预设数据库。

所述的网页数据采集方法中，所述接收网页数据采集请求并生成相应的采集配置文件，具体包括：

接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件。

所述的网页数据采集方法中，所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队，包括：

对所述采集配置文件进行解析，获取所述采集配置文件中的配置信息；

根据所述配置信息生成若干个与所述配置信息匹配的网络爬虫；

将所有的网络爬虫加入预先建立的消息列队中。

所述的网页数据采集方法中，所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据之前，还包括：

将所述消息列队中的网络爬虫按预设分配规则分配至具有预设架构的若干服务器中。

所述的网页数据采集方法中，所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据，包括：

检测各个服务器当前的资源占用率并派发采集任务；

根据接收到的采集任务控制相应的网络爬虫开启采集，直到采集完成获取目标网页数据。

所述的网页数据采集方法中，所述检测各个服务器当前的资源占用率并派发采集任务，具体包括：

检测各个服务器当前的资源占用率并按资源占用率由低到高的顺序派发采集任务。

所述的网页数据采集方法中，所述配置信息包括网站信息、信息类型、字段信息提取规则中的至少一项。

本发明又一实施例还提供了一种网页数据采集装置，所述装置包括：

配置模块，用于接收网页数据采集请求并生成相应的采集配置文件；

生成模块，用于根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；

控制模块，用于根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；

存储模块，用于对所述目标网页数据进行分类过滤后存储至预设数据库。

本发明又一实施例还提供了一种网页数据采集系统，所述系统包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述网页数据采集方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的网页数据采集方法。

本发明的另一实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行上述的网页数据采集方法。

有益效果：本发明公开了一种网页数据采集方法、装置、系统及介质，相比于现有技术，本发明实施例通过将生成的网络爬虫形成消息列队，在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集，使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务，有效均衡了网页数据采集时的服务器资源负载。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明提供的网页数据采集方法较佳实施例的流程图；

图2为本发明提供的网页数据采集装置较佳实施例的功能模块示意图；

图3为本发明提供的网页数据采集系统较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

请参阅图1，图1为本发明提供的网页数据采集方法较佳实施例的流程图。如图1所示，其包括如下步骤：

S100、接收网页数据采集请求并生成相应的采集配置文件；

S200、根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；

S300、通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；

S400、对所述目标网页数据进行分类过滤后存储至预设数据库。

本实施例中，当对新搭建的网址进行内容填充时，需要大量采集网页数据提高填充效率，此时通过终端向服务器发送网页数据采集请求，例如在检测到预设的网页数据采集操作时，触发网页数据采集请求，具体所述网页数据采集请求中包含有采集目标，例如待采集的目标网站和采集规则等，根据所述采集目标生成相应的采集配置文件；之后根据所述采集配置文件生成若干个相应的网络爬虫，其中所述网络爬虫是一种按预设规则自动抓取网络数据的程序或脚本，将生成的所有网络爬虫形成一消息列队，在进行数据采集时，向各个网络爬虫派发相应的采集任务从而控制网络爬虫进行协同采集获取目标网页数据，通过派发任务控制网络爬虫协同工作的方式，当网络爬虫在不同的服务器中工作时，可根据服务器当前资源负载情况灵活控制各个网络爬虫的工作状态，有效均衡了不同服务器之间的资源，提高数据采集效率和可靠性；获取了目标网页数据后则进一步进行分类过滤后存储至预设数据库，得到类型明确且过滤了无用信息的网页数据以用于后续的网址内容填充，使得新网址搭建时可进行快速高效且内容明确的数据填充，节约人力物力成本。

进一步地，所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队，包括：

将所有的网络爬虫加入预先建立的消息列队中。

本实施例中，根据采集目标生成的采集配置文件中包括有多项配置信息，例如包括网站信息、信息类型、字段信息提取规则中的至少一项，其中所述网站信息包括站点名称、网站首页的链接地址、网页数据更新频率、网页数据请求方式、网页数据解析方式、网页翻页规则中的至少一项，例如当输入了网页数据采集请求时，获取其中的待采集的目标网站，通过目标网站的基本信息可获得包括网页数据更新频率、网页数据请求方式、网页数据解析方式、网页翻页规则等网站信息，同时还根据网页数据采集请求中的采集规则获得需采集的数据的信息类型以及字段信息提取规则，其中信息类型可按时间分类获得目标时间段的网页数据，或者按领域分类获得目标领域内的网页数据等等，从而获得相应的配置信息生成采集配置文件。

在生成网络爬虫时，解析获取所述采集配置文件中的配置信息后生成若干个与所述配置信息匹配的网络爬虫，得到与采集目标和采集规则相对应的网络爬虫，使得网络爬虫可按预先设置的采集规则对采集目标进行网页爬取获得数据，并且在每生成一个网络爬虫后都将其加入至预先建立的消息列队中，便于后续的协同采集控制。

进一步地，所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据之前，还包括：

本实施例中，在生成了若干个网络爬虫后将其按预设分配规则分配至具有预设架构的若干服务器中开启数据采集工作，具体分配规则可根据采集需求而定，例如按采集的信息类型不同将相应的网络爬虫分配至不同的服务器等等，具体所述服务器的预设架构可采用主从架构、点对点架构或混合架构等等，采用分布式架构服务器进行采集工作可避免单一服务器采集时因服务器崩溃等问题造成的采集中断，例如在主服务器崩溃时可将主服务器上的采集任务自动切换至从服务器，由从服务器继续采集避免数据采集中断，即通过分布式架构的服务器进行网络数据爬取，提高数据采集效率和采集可靠性。

进一步地，所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据，包括：

检测各个服务器当前的资源占用率并派发采集任务；

本实施例中，在进行协同采集时，先检测各个服务器当前的资源占用率，根据检测结果派发相应的采集任务，具体按资源占用率由低到高的顺序派发采集任务，即优先向资源占用率低的服务器派发采集任务，接收到采集任务的服务器则控制相应的网络爬虫开启采集工作，完成当前的采集任务后继续接收新的采集任务，直到采集完成则可获取到目标网页数据，即本实施例中按资源占用率的排序以及各个服务器中网络爬虫任务的完成度动态派发采集任务，每次分派采集任务时，均优先向已完成前一次采集任务且资源占用率最低的服务器派发，使得在实现多个网络爬虫高效采集的同时也有效地均衡了不同服务器之间的资源分配，并且在部分服务器崩溃或者新增加服务器时均可通过动态调整采集任务的分派实现连续不中断的数据采集，保证网页数据采集的效率和稳定性。

由以上方法实施例可知，本发明提供的网页数据采集方法通过将生成的网络爬虫形成消息列队，在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集，使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务，有效均衡了网页数据采集时的服务器资源负载。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种网页数据采集装置，如图2所示，装置1包括：

配置模块11，用于接收网页数据采集请求并生成相应的采集配置文件；

生成模块12，用于根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；

控制模块13，用于根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；

存储模块14，用于对所述目标网页数据进行分类过滤后存储至预设数据库。

所述配置模块11、生成模块12、控制模块13和存储模块14依次连接，具体实施方式请参考上述对应的方法实施例，此处不再赘述。

本发明另一实施例提供一种网页数据采集系统，如图3所示，系统10包括：

一个或多个处理器110以及存储器120，图3中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器110用于完成系统10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的网页数据采集方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行系统10的各种功能应用以及数据处理，即实现上述方法实施例中的网页数据采集方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据系统10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的网页数据采集方法，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使所述处理器执行上述方法实施例的网页数据采集方法。例如，执行以上描述的图1中的方法步骤S100至步骤S400。

综上所述，本发明公开的一种网页数据采集方法、装置、系统及介质中，方法通过接收网页数据采集请求并生成相应的采集配置文件；根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；对所述目标网页数据进行分类过滤后存储至预设数据库。本发明实施例通过将生成的网络爬虫形成消息列队，在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集，使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务，有效均衡了网页数据采集时的服务器资源负载。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电子设备(可以是个人计算机，服务器，或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够"、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供一种网页数据采集方法、装置、系统及介质的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种网页数据采集方法，其特征在于，包括如下步骤：

接收网页数据采集请求并生成相应的采集配置文件；

对所述目标网页数据进行分类过滤后存储至预设数据库；

所述接收网页数据采集请求并生成相应的采集配置文件，具体包括：

接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件；

所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队，包括：

对所述采集配置文件进行解析，获取所述采集配置文件中的配置信息，所述配置信息包括网站信息、信息类型、字段信息提取规则中的至少一项，其中信息类型按时间分类获得目标时间段的网页数据，或者按领域分类获得目标领域内的网页数据；

将所有的网络爬虫加入预先建立的消息列队中；

所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据之前，还包括：

将所述消息列队中的网络爬虫按预设分配规则分配至具有预设架构的若干服务器中；

具体按采集的信息类型不同将相应的网络爬虫分配至不同的服务器；

所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据，包括：

检测各个服务器当前的资源占用率并派发采集任务；每次分派采集任务时，均优先向已完成前一次采集任务且资源占用率最低的服务器派发；

2.根据权利要求1所述的网页数据采集方法，其特征在于，所述检测各个服务器当前的资源占用率并派发采集任务，具体包括：

3.一种网页数据采集装置，其特征在于，所述装置包括：

控制模块，用于通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；

存储模块，用于对所述目标网页数据进行分类过滤后存储至预设数据库；

配置模块具体用于接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件；

生成模块具体用于对所述采集配置文件进行解析，获取所述采集配置文件中的配置信息，所述配置信息包括网站信息、信息类型、字段信息提取规则中的至少一项，其中信息类型按时间分类获得目标时间段的网页数据，或者按领域分类获得目标领域内的网页数据；根据所述配置信息生成若干个与所述配置信息匹配的网络爬虫；将所有的网络爬虫加入预先建立的消息列队中；

控制模块还用于将所述消息列队中的网络爬虫按预设分配规则分配至具有预设架构的若干服务器中；具体按采集的信息类型不同将相应的网络爬虫分配至不同的服务器；

控制模块还用于检测各个服务器当前的资源占用率并派发采集任务；每次分派采集任务时，均优先向已完成前一次采集任务且资源占用率最低的服务器派发；

4.一种网页数据采集系统，其特征在于，所述系统包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-2任一项所述的网页数据采集方法。

5.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-2任一项所述的网页数据采集方法。