CN107943858A

CN107943858A - 一种爬虫系统io优化方法及装置

Info

Publication number: CN107943858A
Application number: CN201711088268.5A
Authority: CN
Inventors: 陈开冉; 邓楚健
Original assignee: Guangzhou Trace Technology Co Ltd
Current assignee: Guangzhou Trace Technology Co Ltd
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2018-04-20

Abstract

本发明公开了一种爬虫系统IO优化方法及装置，涉及软件工程领域，用以解决现有的以爬虫任务为单位进行结果的存储工作，存在IO效率低，同时影响检索效率的问题。该方法包括：第一结果处理器缓存接收的第一爬虫，当确定缓存的爬取结果的数量超过聚合阈值，将多个爬取结果按照首尾拼接方法写入到聚合文件中，并记录每个爬取结果的位置偏移量；根据聚合文件的内容生成在大文件对象存储系统内存储的聚合路径，并将聚合文件发送至聚合路径下；根据聚合文件生成包含每个爬取结果，每个爬取结果的位置偏移量，聚合路径以及每个爬虫的编号的聚合日志，并将聚合日志发送至日志处理器。

Description

一种爬虫系统IO优化方法及装置

技术领域

本发明涉及软件工程领域，更具体的涉及一种爬虫系统IO优化方法及装置。

背景技术

目前，软件工程领域内大多是以爬虫任务为基本单位来进行结果的存储工作，比如，开源爬虫框架scrapy-redis中，一般会将结果抽象成item放到结果队列中，并采用逐个写文件或者写数据库的处理方法。这种做法的缺点是：磁盘或网络IO操作特别频繁；如果采用一个结果存一个文件的方法，则会产生大量磁盘碎片，若文件数量达到百万级别，则文件夹遍历将会占用大量的内存，并消耗大量时间，同时导致本机器上其他磁盘IO操作被阻塞，引起系统假死；如果采用一个结果写一次数据库，那也会产生大量数据库读写操作，为了加快查询速度，数据库必将建立索引，此时若记录超过百万级别，每次写数据库都会花费秒级别的时间，效率比较低。

综上所述，现有的以爬虫任务为单位进行结果的存储工作，存在IO效率低，同时影响检索效率的问题。

发明内容

本发明实施例提供一种爬虫系统IO优化方法及装置，用以解决现有的以爬虫任务为单位进行结果的存储工作，存在IO效率低，同时影响检索效率的问题。

本发明实施例提供一种爬虫系统IO优化方法，包括：

第一结果处理器缓存接收的第一爬虫，其中，所述第一爬虫内包括至少一个爬取结果，所述第一结果处理器内缓存了至少一个所述第一爬虫和与所述第一爬虫对应的至少一个爬取结果；

当确定缓存的所述爬取结果的数量超过聚合阈值，将多个所述爬取结果按照首尾拼接方法写入到聚合文件中，并记录每个所述爬取结果的位置偏移量；

根据所述聚合文件的内容生成在大文件对象存储系统内存储的聚合路径，并将所述聚合文件发送至所述聚合路径下；根据所述聚合文件生成包含每个所述爬取结果，每个所述爬取结果的位置偏移量，所述聚合路径以及每个所述第一爬虫的编号的聚合日志，并将所述聚合日志发送至日志处理器。

优选地，所述将所述聚合日志发送至日志处理器之后，还包括：

所述日志处理器将所述聚合日志添加到所述第一爬虫的日志文件。

外部系统从所述日志处理器内获取所述第一爬虫的聚合日志，根据所述聚合日志从所述大文件对象存储系统内获取与所述聚合日志对应的所述聚合文件。

本发明实施例还提供一种爬虫系统IO优化装置，包括：

接收单元，用于缓存接收的第一爬虫，其中，所述第一爬虫内包括至少一个爬取结果，所述第一结果处理器内缓存了至少一个所述第一爬虫和与所述第一爬虫对应的至少一个爬取结果；

写入单元，用于当确定缓存的所述爬取结果的数量超过聚合阈值，将多个所述爬取结果按照首尾拼接方法写入到聚合文件中，并记录每个所述爬取结果的位置偏移量；

发送单元，用于根据所述聚合文件的内容生成在大文件对象存储系统内存储的聚合路径，并将所述聚合文件发送至所述聚合路径下；根据所述聚合文件生成包含每个所述爬取结果，每个所述爬取结果的位置偏移量，所述聚合路径以及每个所述第一爬虫的编号的聚合日志，并将所述聚合日志发送至日志处理器。

优选地，还包括日志处理器，所述日志处理器用于接收所述第一结果处理器发送的所述聚合日志，将所述聚合文件添加到所述第一爬虫的日志文件。

优选地，还包括：外部系统：

外部系统用于从所述日志处理器内获取所述第一爬虫的聚合日志，根据所述聚合日志从所述大文件对象存储系统内获取与所述聚合日志对应的所述第一文件。

本发明实施例中，提供了一种爬虫系统IO优化方法及装置，包括：第一结果处理器缓存接收的第一爬虫，其中，所述第一爬虫内包括至少一个爬取结果，所述第一结果处理器内缓存了至少一个所述第一爬虫和与所述第一爬虫对应的至少一个爬取结果；当确定缓存的所述爬取结果的数量超过聚合阈值，将多个所述爬取结果按照首尾拼接方法写入到聚合文件中，并记录每个所述爬取结果的位置偏移量；根据所述聚合文件的内容生成在大文件对象存储系统内存储的聚合路径，并将所述聚合文件发送至所述聚合路径下；根据所述聚合文件生成包含每个所述爬取结果，每个所述爬取结果的位置偏移量，所述聚合路径以及每个所述第一爬虫的编号的聚合日志，并将所述聚合日志发送至日志处理器。该方法具有以下优点：利用大文件对象存储系统，实现了大量爬取结果文件的储存，并提高IO效率；使用结果处理器集群，提高了处理爬取结果的速度；将多个爬取结果按照首尾拼接方法写入到一个文件的方法，降低文件系统的IO频率；采用根据文件的内容生产在大文件对象存储系统的第一路径，并将与文件对应的第一日志存储在日志处理器中，从而可以确保检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种爬虫系统IO优化方法流程示意图；

图2为本发明实施例一提供一种爬虫系统IO优化方法示意图；

图3为本发明实施例提供的一种爬虫系统IO优化装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例提供的一种爬虫系统IO优化方法流程示意图。如图1所示，本发明实施例提供的一种爬虫系统IO优化方法包括以下步骤：

步骤101，第一结果处理器缓存接收的第一爬虫，其中，所述第一爬虫内包括至少一个爬取结果，所述第一结果处理器内缓存了至少一个所述第一爬虫和与所述第一爬虫对应的至少一个爬取结果；

步骤102，当确定缓存的所述爬取结果的数量超过聚合阈值，将多个所述爬取结果按照首尾拼接方法写入到聚合文件中，并记录每个所述爬取结果的位置偏移量；

步骤103，根据所述聚合文件的内容生成在大文件对象存储系统内存储的聚合路径，并将所述聚合文件发送至所述聚合路径下；根据所述聚合文件生成包含每个所述爬取结果，每个所述爬取结果的位置偏移量，所述聚合路径以及每个所述第一爬虫的编号的聚合日志，并将所述聚合日志发送至日志处理器。

需要说明的是，本发明实施例中，采用分布式结果处理集群来处理爬取结果，通过聚合多个聚合文件来减少聚合文件的碎片，并引入大文件对象存储系统，从而可以提高文件读写速度；进一步地，引入了一个日志处理器，建立并记录存储在大文件对象存储系统内的聚合文件的聚合日志，从而可以提高存储IO的效率，使之不会成为爬虫系统的效率瓶颈，并且不会降低检索结果文件的效率。

在步骤101之前，需要先部署大文件对象存储系统，分布式结果处理器集群和日志处理器。当一个爬虫的爬取结果即将接受处理时，可以采用本发明实施例提供的一种爬虫系统IO优化方法。

为了清楚介绍以上方法，以下以第一结果处理器，第一爬虫为例，来介绍本发明实施例提供的一种爬虫系统IO优化方法。

在步骤101中，分布式结果处理器集群是多个结果处理器构成的分布式集群，用于提高处理到达的爬取结果文件的效率，可以同时处理多个爬取结果。第一结果处理器是分布式结果处理器集群中的某一个结果处理器，且在实际应用中，第一结果处理器的工作内容以及工作方式分别与分别分布式结果处理器集群中其他的结果处理器的工作内容和工作方式相一致。

第一结果处理器接收到第一爬虫时，需要确定第一爬虫内包括的爬取结果的数量，并将第一爬虫缓存在第一结果处理器内。在本发明实施例中，一个爬虫内至少会包括一个爬取结果，第一结果处理器在介绍到第一爬虫之前，第一结果处理器内已经缓存了多个爬虫，由于一个爬虫内至少会包括一个爬取结果，即第一结果处理器内已经缓存了多个爬取结果。

进一步地，第一结果处理器需要对缓存的爬取结果的数量进行统计。

在步骤102中，第一结果处理器确定缓存的爬取结果的数量是否超过聚合阈值，若没有超过聚合阈值，则第一结果处理器对缓存的多个爬取结果不进行处理；若超过了聚合阈值，则第一结果处理器需要将缓存的多个爬取结果按照首尾拼接方法写入到一个聚合文件中，在将多个爬取结果按照首尾拼接方法写入到一个聚合文件时，需要记录每个爬取结果的开始结束位置偏移量。

在步骤103中，第一结果处理器在写成一个聚合文件后，需要将该聚合文件发送至大文件对象存储系统，而在将该聚合文件发送至大文件对象存储系统之前，先根据聚合文件的内容生成一个在大文件对象存储系统的聚合路径，即需要将聚合文件存储在大文件对象存储系统的聚合路径下。

进一步地，当第一结果处理器为聚合文件生成聚合路径之后，还需要根据聚合文件生成一个包括聚合文件内全部的爬取结果，每个爬取结果的开始结束位置偏移量，聚合路径以及每个第一爬虫的编号的聚合日志，并将该聚合日志发送至日志处理器。

在本发明实施例中，日志处理器是一个单件，主要用于处理第一结果处理器发送的聚合路径，并根据接收到的聚合路径，将聚合路径添加到与第一爬虫对应的日志文件的末端，方便后续外壁系统从日志处理器内读取该聚合路径。

进一步地，在实际应用中，当外部系统需要出大文件对象存储系统内获取聚合文件时，需要先从日志处理器内获取第一爬虫的聚合日志，并根据聚合日志内记录的聚合文件内全部的爬取结果，每个爬取结果的开始结束位置偏移量，聚合路径以及每个第一爬虫的编号，从大文件对象存储系统内获取与聚合日志对应的聚合文件。外壁系统获取到聚合文件后，可以将聚合文件下载到本地，根据聚合日志内记载的每个爬取结果的开始结束位置偏移量获取聚合文件内的每一个爬取结果，然后对获取到的爬取结果进行处理。

图2为本发明实施例一提供一种爬虫系统IO优化方法示意图，在图2中，假设一个爬虫S的爬取结果R即将要接受处理，具体地：

步骤201，爬虫R到达结果处理器集群中的一个结果处理器RH，此时结果处理器RH中已经缓存了爬虫S的数个爬取结果R；

步骤202，结果处理器RH判断爬虫S的待处理的爬取结果R的数量已经到达聚合阈值，于是将当前所有缓存的爬虫S的爬取结果R首尾拼接并写到一个文件中，记录每个爬取结果R的开始结束位置偏移量；

步骤203，结果处理器RH将这个聚合好的文件按照文件内容生成唯一路径P，并将文件上传到大文件对象存储系统的P位置；

步骤204，结果处理器RH为每个在聚合文件生成一条包含所有结果url及其在聚合文件中的偏移量、聚合文件路径P以及爬虫编号S的聚合路径记录，并将聚合路径记录发送到日志处理器；

步骤205，日志处理器接收到一条记录，并将内容添加到爬虫S的日志文件末尾；

步骤206，外部系统读取爬虫S的日志，按照每条记录到大文件对象存储系统中下载对应聚合文件，并将其拆解成爬取结果进行相应处理。

综上所述，本发明实施例中，提供了一种爬虫系统IO优化方法及装置，该方法具有以下优点：利用大文件对象存储系统，实现了大量爬取结果文件的储存，并提高IO效率；使用结果处理器集群，提高了处理爬取结果的速度；将多个爬取结果按照首尾拼接方法写入到一个文件的方法，降低文件系统的IO频率；采用根据文件的内容生产在大文件对象存储系统的第一路径，并将与文件对应的第一日志存储在日志处理器中，从而可以确保检索效率。

基于同一发明构思，本发明实施例提供了一种爬虫系统IO优化装置，由于该装置解决技术问题的原理与一种爬虫系统IO优化方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，该装置主要包括接收单元301，写入单元302，发送单元303，日志处理器304和外部系统305。

接收单元301，用于缓存接收的第一爬虫，其中，所述第一爬虫内包括至少一个爬取结果，所述第一结果处理器内缓存了至少一个所述第一爬虫和与所述第一爬虫对应的至少一个爬取结果；

写入单元302，用于当确定缓存的所述爬取结果的数量超过聚合阈值，将多个所述爬取结果按照首尾拼接方法写入到聚合文件中，并记录每个所述爬取结果的位置偏移量；

发送单元303，用于根据所述聚合文件的内容生成在大文件对象存储系统内存储的聚合路径，并将所述聚合文件发送至所述聚合路径下；根据所述聚合文件生成包含每个所述爬取结果，每个所述爬取结果的位置偏移量，所述聚合路径以及每个所述第一爬虫的编号的聚合日志，并将所述聚合日志发送至日志处理器。

优选地，还包括日志处理器304，

所述日志处理器用于接收所述第一结果处理器发送的所述聚合日志，将所述聚合文件添加到所述第一爬虫的日志文件。

优选地，还包括：外部系统305：

应当理解，以上一种爬虫系统IO优化装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的确定火蔓延速度的装置所实现的功能与上述实施例提供的一种爬虫系统IO优化方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例一中已做详细描述，此处不再详细描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种爬虫系统IO优化方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述聚合日志发送至日志处理器之后，还包括：

3.如权利要求2所述的方法，其特征在于，所述将所述聚合日志发送至日志处理器之后，还包括：

4.一种爬虫系统IO优化装置，其特征在于，包括：

5.如权利要求4所述的装置，其特征在于，还包括日志处理器，所述日志处理器用于接收所述第一结果处理器发送的所述聚合日志，将所述聚合文件添加到所述第一爬虫的日志文件。

6.如权利要求5所述的装置，其特征在于，还包括：外部系统：