CN116126553A

CN116126553A - 一种基于编排执行的信息获取方法和系统

Info

Publication number: CN116126553A
Application number: CN202211689339.8A
Authority: CN
Inventors: 陈银鹏; 张凯; 俞晓明; 裴鑫鑫; 刘悦; 沈华伟; 程学旗
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-16

Abstract

本发明提出一种基于编排执行的信息获取方法，包括：根据对目标信源的多层树状采集需求生成任务树，编排该任务树的初始配置；将该初始配置放入任务队列；由原子采集器获取该初始配置，根据该初始配置生成根采集任务；执行该根采集任务，生成该根采集任务的子任务的任务配置，将该任务配置放入任务队列，并输出该根采集任务的采集结果；由原子采集器获取任务配置，根据该任务配置生成当前任务；执行该当前任务，生成该当前任务的子任务的任务配置，将该任务配置放入任务队列，并输出该当前任务的采集结果；重复本步骤，直到完成该任务树。本发明还提出一种基于编排执行的信息获取系统，以及一种用于实现基于编排执行的信息获取的数据处理装置。

Description

一种基于编排执行的信息获取方法和系统

技术领域

本发明互联网信息获取领域，具体涉及一种基于编排执行的信息获取方法和系统。

背景技术

随着互联网的发展，出现了新闻、论坛、博客、社交、视频等多种多样的网站。互联网变成一个公开的重要的信息源，包含着很多有价值的信息。很多用户出于各种各样的需求，需要采集相关信息，为此开发人员构建了相应的采集系统。

当前各种类型的网站越来越多，网站内的信息越来越丰富和复杂，如评论、转发、点赞、粉丝、关注、账号信息等，这时用户的采集需求也变的更加复杂。用户往往不是单纯的需要采集某个信源的某种信息，在真实的采集需求场景中，往往包含着多层的采集需求，甚至还有分层分支的需求，形成树状的采集逻辑。具体需求如下所述：

1)多层的需求：完成一层采集后，需要将采集的数据作为信源，进行下一层采集，如：通过版块采集文章，再根据文章采集评论

2)分层分支的需求：完成一层采集后，需要将采集的数据作为信源，进行下一层多类数据的采集，如：通过用户采集用户的粉丝，再根据粉丝采集粉丝的个人信息和采集粉丝的发文信息。

更加不好解决的是，对于这种多层和分支的采集需求，往往不是固定的，用户根据不同的应用场景有不同的分层或分支需求，并且希望采集系统能即时满足需求。

目前应对此类采集问题的方法一般是：

1)开发专门的采集器，来处理这种情况。即开发一个采集器来满足一种或若干种指定层次关系的多层采集需求。

2)通过系统框架上设置消息队列或数据库，来处理这种情况。把前一层采集的结果放入消息队列(或数据库)，后一层采集从消息队列(或数据库)中读取数据作为输入信源。使用消息队列(或者数据库)完成前后采集器的数据传递。此时前后层采集的关系由框架的设计来定义。

以上两种方案，在此类需求比较少，时效性要求不高的时候可以使用。在此类需求比较多而且经常变化的时候，开发和维护代价较高，时效性低，很难快速的实现用户需求。

发明内容

针对上述问题，本发明提出一种基于编排执行的信息获取方法，包括：根据对目标信源的多层树状采集需求生成任务树，编排该任务树的初始配置；将该初始配置放入任务队列；由原子采集器获取该初始配置，根据该初始配置生成根采集任务；执行该根采集任务，生成该根采集任务的子任务的任务配置，将该任务配置放入任务队列，并输出该根采集任务的采集结果；由原子采集器获取任务配置，根据该任务配置生成当前任务；执行该当前任务，生成该当前任务的子任务的任务配置，将该任务配置放入任务队列，并输出该当前任务的采集结果；重复本步骤，直到完成该任务树。

本发明所述的信息获取方法，根据原子采集器的类型设置任务队列，将该初始配置和所有该任务配置放入对应类型的任务队列；由该任务队列的分配器将该初始配置和该任务配置分配给原子采集器。

本发明所述的信息获取方法，该任务分配器基于分配规则分配该初始配置和该任务配置，该分配规则包括以下规则中的至少一个：规则1，根据该初始配置和该任务配置的优先级，以及每个优先级的采集任务执行速度，控制对初始配置和任务配置的分配顺序和分配数量；规则2，对于删除的初始配置和任务配置进行标识，并不再对其进行分配；规则3，根据目标信源的采集任务数量限制，控制对初始配置和任务配置的分配速度；规则4，用户制定的信息采集规则。

本发明所述的信息获取方法，以yaml或json或xml字符串表达该初始配置和该任务配置。

本发明还提出一种基于编排执行的信息获取系统，包括：任务编排模块，用于根据对目标信源的多层树状采集需求生成任务树，编排该任务树的初始配置；将该初始配置放入任务队列；任务起始模块，用于由原子采集器获取该初始配置，根据该初始配置生成根采集任务；执行该根采集任务，生成该根采集任务的子任务的任务配置，将该任务配置放入任务队列，并输出该根采集任务的采集结果；任务执行模块，用于由原子采集器获取任务配置，根据该任务配置生成当前任务；执行该当前任务，生成该当前任务的子任务的任务配置，将该任务配置放入任务队列，并输出该当前任务的采集结果；通过重复调用该任务执行模块，以完成该任务树。

本发明所述的信息获取系统，还包括：任务分配模块，用于根据原子采集器的类型设置任务队列，将该初始配置和所有该任务配置放入对应类型的任务队列，并由该任务队列的分配器将该初始配置和该任务配置分配给原子采集器。

本发明所述的信息获取系统，其中该任务分配器基于分配规则分配该初始配置和该任务配置，该分配规则包括以下规则中的至少一个：规则1，根据该初始配置和该任务配置的优先级，以及每个优先级的采集任务执行速度，控制对初始配置和任务配置的分配顺序和分配数量；规则2，对于删除的初始配置和任务配置进行标识，并不再对其进行分配；规则3，根据目标信源的采集任务数量限制，控制对初始配置和任务配置的分配速度；规则4，用户制定的信息采集规则。

本发明所述的信息获取系统，以yaml或json或xml字符串表达该初始配置和该任务配置。

本发明还提出一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如前所述的基于编排执行的信息获取。

本发明还提出一种数据处理装置，包括如前所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，该数据处理装置实现基于编排执行的信息获取。

附图说明

图1是本发明的信息获取系统原子采集器的输入输出示意图。

图2是本发明的编排执行系统的总体架构示意图。

图3是本发明的树状采集编排任务的递进执行示意图。

图4是本发明的通过agent动态控制采集任务队列示意图。

图5是本发明的数据处理装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

发明人在进行该项技术研究时，发现现有方法大多是通过系统设计的方式来解决这类采集问题的，很难满足上述的采集需求，时效性也不高。

如果能够跳出“通过固定的系统框架设计来表达前后采集的关系”的思维模式，把这种树状的采集关系使用系统配置的方式来表达，而配置很容易生成和维护，就可以解决开发维护代价高和时效性低的问题。也就是说把这种采集用“原子采集器+编排”的方式来表达。通过配置来表达单个任务内采集间的前后关系，在此称之为“编排”任务，同时采集系统能够支持这种“编排”任务的执行。这样对于新的采集需求，不需要在系统上去进行任何改变，只需要编写新的“编排”任务的配置，就能够快速满足用户需求。

那么怎样通过这种方式来建立采集系统，这里需要解决的问题是：如何定义原子采集器？如何表达编排？如何使这种编排能够高效的执行？如何解决采集过程中的信源膨胀和封禁问题？

此处所述的信源膨胀问题，指的是采集过程中，往往下一层的信源数目会远大于上层的信源数目，例如1个新闻版块信源，可能会产生100个新闻信源(用于新闻评论的采集)。如果上层新闻持续采集，评论采集的信源队列就会膨胀。封禁问题，是指信源网站管理方，对过于频繁的采集行为会进行封禁，在设计时需要考虑这一点。

本发明是为了解决如上的多层和分支的树状采集问题，提出基于原子采集器和编排执行的处理方法。此处的树状采集的树是指以单种采集行为为点，结果数据为边的树。针对树状采集的需求和应用场景，本发明设计了“树状信源配置及递进执行+基于采集队列的调度+插件式原子采集器”的采集编排执行框架，和原子采集器的抽象定义，并针对此架构的数据采集，设计了树状信源配置的描述方法和递进执行的编排执行方法，以自动生成中间信源。此外，本发明还通过队列管理解决任务调度问题，使用agent实现对前后信源的关联调度，能够解决信源膨胀问题，也能控制对被封网站的采集行为。

一、首先，在本申请中定义如下：

(一)原子采集器：指不再拆分的采集器单元。原子采集器的输入输出如图1所示。

例如：采集指定版块的新闻的新闻采集器，采集指定新闻的评论的评论采集器，采集指定关键词搜索出的微博消息数据的微博消息采集器等

(二)前后关系：如果原子采集器A的输出，会作为原子采集器B的输入任务。则称A与B有前后关系，A在前，B在后。在本文表述中，有时使用上一层表示在前，下一层表示在后。

(三)采集编排任务：以原子采集器作为节点，以前后关系为边，以树状方式组合在一起的采集任务。

(四)采集编排任务描述：采集编排任务描述是用来表达在一个采集编排任务中，前后采集器的输入输出关系的字符串。

其中也可以包含配置信息和输出的目标。

这是一个任务的静态描述。

(五)编排执行系统：通过部署若干原子采集器，并建立队列，按照采集编排任务的描述，来动态完整执行各个采集编排任务的系统。编排执行系统的总体架构如图2所示。本发明的编排执行系统包括：

1、采集器集群

这里的采集器都是原子采集器，比如论坛帖子采集器、新闻文章采集器等，每类采集器根据需要可以部署多个。每个采集器的输入输出为：

(1)输入为一个指定的yaml字符串，作为信源配置数据

(2)输出为两种：

a.采集结果，一般输出到数据库或消息队列。

b.传给下一步的信源的配置数据(yaml)，采集器会主动从信源管理和队列管理中获取任务配置数据。

2.任务队列管理

如果采集器需要生成新的采集任务，则需要把新生成的任务数据(包括任务标识ID和任务配置)放在队列中，供后面的采集器获取。每类采集器共享一个任务队列。

3.树状信源管理

用来管理配置下发的系统。

4.监控和输出管理

监控和输出管理属于附属模块，完成相关管理工作。

本发明的编排执行系统的设计有如下基本特征：

(1)具有标准接口的原子采集器，作为插件，可以动态扩充

(2)系统支持采集编排任务描述字符串来描述采集任务，同时支持使用原子采集器，通过队列作为媒介，来完成此类采集任务。

(3)支持基于队列的采集任务调度管理

编排执行系统的主要技术细节包括：

1.采集编排任务描述

采集编排任务以yaml字符串形式表达。描述一个树状的采集任务的全部信息，对于树状采集任务的每个任务，包括采集器类型(crawler_type)、配置信息(config)、后续任务的配置(dest)、输出信息(output)。每个树状采集任务要有一个字符串作为标识ID。也可采用json或xml字符串形式表达，本发明并不以此为限。

以下是一个采集编排任务的描述的例子：

这个任务是先通过搜索某个关键词(flower)，采集获取相应的微博消息，对这些微博消息，再做两件事：

(1)采集获取微博消息的转发微博，输出，继续采集获取这些转发微博的评论，输出

(2)采集获取微博消息的评论，输出

该采集编排任务的描述包括：

这里的输出使用预先设置的default_output，请注意yaml的层次关系

2.采集编排任务的执行

(1)任务逐层剥离及任务标识

对于单个采集任务来说

A.从根节点(根原子采集器)开始执行，传入配置信息，配置信息是整个任务的编排配置，配置的ID字段作为此时的任务ID，如word_search_18547

B.采集到数据时，如果配置中有dest字段，则把数据对应的任务放入队列中，同时标记两个信息：

a.从这层任务的ID加上在dest字段中的序号，作为子任务的ID,供监控使用，如word_search_18547_1

b.从这层任务配置的dest字段中，取出对应的配置(图示中长方形的框部分)，加上本次采集获取的部分数据(如URL，ID等)，做为后层采集器的配置信息

注意：这里所述的“采集到数据”，并不一定是程序结束，而是程序每采集到一个数据(比如“新闻”)时就可以执行如上操作。

如果有多个dest字段，则下发多个队列,队列中就会出现采集任务数据如果标识output时，采集系统会将数据输出到对应数据库中。

这部分工作均在原子采集器内实现。

C.后层的原子采集器从队列中获取任务，并执行，同上流程处理，依次类推，直至所有属于该树状任务的采集任务全部执行完毕。

树状采集编排任务的递进执行过程如图3所示。

(2)任务队列及调度

为了解决采集膨胀、封禁等问题，我们使用队列的方式来控制。

原子采集器输出的下一步采集任务进入任务队列，同类型采集器共享一个采集任务队列。后一层原子采集器从队列中读取采集任务并运行。

系统中有任务队列管理模块，同时每个队列有一个队列的agent,当有采集器获取任务时，要通过agent来获取，因此采集器从队列获取任务不是严格的按照入队的时间顺序，而是通过agent按照他的当前规则来获取。

agent中会定时上报队列信息，包括各个树状采集任务的当前任务数，同时也会获取管理模块对本agent指定的当前规则。agent也可以清除队列。

agent规则包括但不限于：

A.每个优先级的下发份额，如每分钟流出多少任务等，控制分配顺序和分配数量；

B.删除的任务，用特定的正则表达式表达任务ID，例如，“word_search_15847*”，不再对其进行分配采集；

C.根据某个树状采集任务的下发份额上限，控制分配速度；

D.用户/运维人员制定的信息采集规则；

E.其他分配规则。

Agent规则，由agent定期从队列管理模块获取。运维人员可以通过队列管理模块获取各个队列信息，并控制agent规则，从而实现对队列的控制。

队列管理模块可以读取树状采集配置，获取各个采集器间的逻辑关系，自动进行前后采集器的协调。如图4所示，举例来说：采集器A完成后给B，采集器B完成后数据传给C和D类两个队列，如果读取到C或者D关于此树状任务的任务数大于阈值(或者存在封禁的情况)，则可以控制此树状任务流出给采集器B的任务数.避免C和D队列过度膨胀。

使用agent方式可以进行管理和控制如下情况：如果前面的采集速度过快，导致后面队列过长，占用资源，可以调低前面采集的下发份额；某个信源网站有封禁行为，使用agent来控制下发任务频率；如果用户取消任务执行，agent可以用来清除队列；可以进行各个优先级的动态管理，用户可以控制高优先级任务优先下发。

在此需要特别指出的是：在运行同一任务中，前面的采集器有可能和后面的采集器同时运行，因为前面采集器获得一小部分采集结果时即可以输出下一采集器的采集任务到任务队列，此时后面的采集器就可以执行，此时前后采集器同时可以执行一段时间，从而提高整个系统的执行效率。

图5是本发明的数据处理装置示意图。如图5所示，本发明实施例还提供一种计算机可读存储介质，以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令被数据处理装置的处理器执行时，实现上述基于编排执行的信息获取。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

本发明的基于编排执行信息获取方法可以以编排执行的方式应对上面提到的分层和分支采集需求，支持快速的针对各类需求编写相应的编排描述字符串，并能够高效、稳定、可控的执行此类采集任务。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于编排执行的信息获取方法，其特征在于，包括：

根据对目标信源的多层树状采集需求生成任务树，编排该任务树的初始配置；将该初始配置放入任务队列；

由原子采集器获取该初始配置，根据该初始配置生成根采集任务；执行该根采集任务，生成该根采集任务的子任务的任务配置，将该任务配置放入任务队列，并输出该根采集任务的采集结果；

由原子采集器获取任务配置，根据该任务配置生成当前任务；执行该当前任务，生成该当前任务的子任务的任务配置，将该任务配置放入任务队列，并输出该当前任务的采集结果；重复本步骤，直到完成该任务树。

2.如权利要求1所述的信息获取方法，其特征在于，根据原子采集器的类型设置任务队列，将该初始配置和所有该任务配置放入对应类型的任务队列；

由该任务队列的分配器将该初始配置和该任务配置分配给原子采集器。

3.如权利要求2所述的信息获取方法，其特征在于，该任务分配器基于分配规则分配该初始配置和该任务配置，该分配规则包括以下规则中的至少一个：

规则1，根据该初始配置和该任务配置的优先级，以及每个优先级的采集任务执行速度，控制对初始配置和任务配置的分配顺序和分配数量；

规则2，对于删除的初始配置和任务配置进行标识，并不再对其进行分配；

规则3，根据目标信源的采集任务数量限制，控制对初始配置和任务配置的分配速度；

规则4，用户制定的信息采集规则。

4.如权利要求1所述的信息获取方法，其特征在于，以yaml或json或xml字符串表达该初始配置和该任务配置。

5.一种基于编排执行的信息获取系统，其特征在于，包括：

任务编排模块，用于根据对目标信源的多层树状采集需求生成任务树，编排该任务树的初始配置；将该初始配置放入任务队列；

任务起始模块，用于由原子采集器获取该初始配置，根据该初始配置生成根采集任务；执行该根采集任务，生成该根采集任务的子任务的任务配置，将该任务配置放入任务队列，并输出该根采集任务的采集结果；

任务执行模块，用于由原子采集器获取任务配置，根据该任务配置生成当前任务；执行该当前任务，生成该当前任务的子任务的任务配置，将该任务配置放入任务队列，并输出该当前任务的采集结果；通过重复调用该任务执行模块，以完成该任务树。

6.如权利要求5所述的信息获取系统，其特征在于，还包括：任务分配模块，用于根据原子采集器的类型设置任务队列，将该初始配置和所有该任务配置放入对应类型的任务队列，并由该任务队列的分配器将该初始配置和该任务配置分配给原子采集器。

7.如权利要求6所述的信息获取系统，其特征在于，该任务分配器基于分配规则分配该初始配置和该任务配置，该分配规则包括以下规则中的至少一个：

规则4，用户制定的信息采集规则。

8.如权利要求5所述的信息获取系统，其特征在于，以yaml或json或xml字符串表达该初始配置和该任务配置。

9.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如权利要求1～4任一项所述的基于编排执行的信息获取。

10.一种数据处理装置，包括如权利要求9所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，该数据处理装置实现基于编排执行的信息获取。