CN114579190B

CN114579190B - 基于流水线机制的跨中心协同计算的编排方法与系统

Info

Publication number: CN114579190B
Application number: CN202210145958.4A
Authority: CN
Inventors: 沈志宏; 朱小杰; 宋东泽; 周健鹏
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-10-14
Anticipated expiration: 2042-02-17
Also published as: CN114579190A

Abstract

本发明公开了一种基于流水线机制的跨数据中心协同计算的编排方法与系统，涉及跨数据中心协同计算技术领域。所述方法包括：各数据中心构建逻辑统一、物理分散的数据资源目录；根据协同分析需求，生成模型描述语言，并基于数据资源目录，使用模型描述语言对协同分析任务进行描述；对协同分析任务进行动态规划，生成跨中心流水线描述语言；基于跨中心流水线描述语言，生成跨中心的流水线子任务，并将流水线子任务分发到各数据中心执行，以向所述用户返回结果。本发明能够可视化配置跨数据中心的协同计算，监控协同计算任务规划及运行状况，能够提升跨数据中心的协同分析服务能力。

Description

基于流水线机制的跨中心协同计算的编排方法与系统

技术领域

本发明涉及流水线、跨数据中心、协同计算技术领域，提出一种基于流水线机制的跨数据中心协同计算的编排方法与系统。

背景技术

典型的交叉学科应用需要融合多学科跨领域科学数据，如黑土生态分析、大气污染治理需融合分析生态数据、大气数据、土壤数据等，这些数据分散存储于不同的数据中心，数据体量大、迁移困难，同时由于安全及隐私性考虑不能公开。传统做法往往需人工拷贝数据后进行融合分析，操作复杂且效率低下。

同时，复杂流程的大数据处理与融合分析多依赖流水线系统。“一种大数据ETL任务的编排方法与系统”(申请号：201910359658.4)提出了针对单个数据中心的大数据ETL编排方法和系统，但没有对跨数据中心的数据处理与协同分析任务进行编排与调度。

本发明从这一背景出发，提供了一种基于流水线机制的跨中心协同计算的编排方法与系统。

发明内容

为提升跨数据中心的协同分析能力，本发明提供一种基于流水线机制的跨中心协同计算的编排方法和系统，实现面向复杂分析场景的跨数据中心协同分析服务。

为达到上述目的，本发明采用如下技术方案：

一种基于流水线机制的跨中心协同计算的编排方法，其步骤包括：

各数据中心基于数据源连接框架注册数据集，构建逻辑统一、物理分散的数据资源目录，其中所述数据集包括：数据集元数据和数据主体，所述数据主体包括：数据主体访问方式；

根据协同分析需求，生成模型描述语言，并基于所述数据资源目录，通过模型描述语言分别获取目标数据的数据源、将目标数据的数据主体访问方式抽象为流水线中的数据处理组件、及进行模型算法配置与数据流向配置，从而以流水线方式对协同分析任务进行描述；

结合所述数据源的使用状态监控数据，对所述协同分析任务进行动态规划，生成跨中心流水线描述语言；

基于跨中心流水线描述语言，生成跨中心的流水线子任务，并将流水线子任务分发到各数据中心执行，以向所述用户返回结果。

进一步地，所述数据集元数据包括：协同计算节点、所属数据中心名称、数据集唯一标识、数据集名称、数据集描述、数据集创建者、数据集创建时间、数据集许可证和数据集分类。

进一步地，所述数据主体还包括：数据主体元数据、数据主体条数和数据主体存储容量。

进一步地，所述协同分析任务包括：基本信息、数据处理组件和数据流向。

进一步地，所述数据处理组件包括：数据处理组件名称、数据处理组件唯一标识、数据处理组件类名、数据处理组件属、数据处理组件数据流入端口列表、数据处理组件数据流出端口列表和数据中心属性。

进一步地，所述对所述协同分析任务进行动态规划，包括：

1)根据目标数据的分布情况给数据处理组件打标签，确定数据组件所处数据中心；

2)生成协同分析任务的有向无环图，其中所述有向无环图中的节点为数据处理组件，边为数据流向；

3)按照DAG有向无环图自顶向下遍历方式进行遍历，通过如下方式

若上游的数据处理组件在同一数据中心，则当前数据处理组件在该数据中心执行；

若上游的数据处理组件不在同一数据中心，则基于所述数据源的使用状态监控数据与各数据中心中相应的目标数据体量，依据优先执行原则，动态地确定执行当前数据处理组件所在的数据中心。

进一步地，所述优先执行原则包括：优先移动小体量数据或优先资源充裕的数据源。

进一步地，所述跨中心流水线描述语言包括：至少一个单域流水线和至少一条跨中心传递路径，其中所述单域流水线的描述包括：数据中心属性、流水线输入端口和流水线输出端口。

进一步地，基于区块链技术，监控流水线子任务的执行情况，并通过账本进行存证。

一种基于流水线机制的跨中心协同计算的编排系统，包括：

跨中心流水线服务与调度引擎，包括：

统一数据源连接框架，用以构建协同共享的数据协同环境，以基于数据集生成逻辑统一、物理分散的数据资源目录，其中所述数据集包括：数据集元数据和数据主体，所述数据主体包括：数据主体访问方式；

融合分析模块，用以根据用户的协同分析需求，使用所述数据资源目录，分别获取目标数据的数据源、将目标数据的数据主体访问方式抽象为流水线中的数据处理组件、及进行模型算法配置与数据流向配置，从而以流水线方式对协同分析任务进行描述；

动态任务规划模块，用以结合所述数据源的使用状态监控数据，对所述协同分析任务进行动态规划，生成跨中心流水线描述语言；基于跨中心流水线描述语言，生成跨中心的流水线子任务；将流水线子任务分发到各数据中心执行；

算法分析流水线平台，用以基于流水线子任务向所述用户返回结果；

交互式跨中心协同分析平台，包括：

流水线可视化分析模块，用以根据协同分析需求，生成模型描述语言。

进一步地，所述交互式跨中心协同分析平台，还包括：

数据中心节点管理模块，用以对数据中心进行管理；

数据资源目录管理模块，用以对各数据中心注册的数据集进行统一管理；

运行环境监控管理模块，用以对所述编排系统进行监控和预警；

模型算法库管理模块，用以提供大数据相关处理算子。

本发明的有益效果如下：

本发明的基于流水线机制的跨中心协同计算的编排方法与系统，能够可视化配置跨数据中心的协同计算，监控协同计算任务规划及运行状况，能够提升跨数据中心的协同分析服务能力。

附图说明

图1本发明编排方法的流程图。

图2协同计算统一数据源示意图。

图3协同分析示意图。

图4协同分析流水线描述语言。

图5A-5J跨中心协同任务动态规划示意图。

图6跨中心流水线描述语言示意图。

图7跨中心协同分析子任务调度示意图。

图8基于流水线机制的跨中心协同分析系统架构图。

图9实施例协同分析示意图。

图10实施例协同分析任务动态规划示意图。

图11实施例协同分析任务调度示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明。

一种基于流水线机制的跨中心协同计算的编排方法，如图1所示，包括以下步骤：

1)各数据中心基于数据源连接框架注册数据集，构建逻辑统一、物理分散的数据资源目录，其中所述数据集包括：数据集元数据和数据主体，所述数据主体包括：数据主体访问方式；

2)根据协同分析需求，生成模型描述语言，并基于所述数据资源目录，通过模型描述语言分别获取目标数据的数据源、将目标数据的数据主体访问方式抽象为流水线中的数据处理组件、及进行模型算法配置与数据流向配置，从而以流水线方式对协同分析任务进行描述；

3)结合所述数据源的使用状态监控数据，对所述协同分析任务进行动态规划，生成跨中心流水线描述语言；

4)基于跨中心流水线描述语言，生成跨中心的流水线子任务，并将流水线子任务分发到各数据中心执行，以向所述用户返回结果。

在一实施例中，上述方法中针对大数据多源、异构等特性，制定数据管理标准规范，实现可定制的统一数据源连接框架，支撑各类多源异构大数据的接入，构建面向协同分析场景的统一数据资源目录，形成“逻辑统一、物理分散、责权管控”的数据资源池。数据中心共享发布的数据集包括数据集元数据和数据主体两部分，具体见图2。数据集元数据包括协同计算节点ComputingNode、所属数据中心名称DataCenter、数据集唯一标识DatasetId、数据集名称DatasetName、数据集描述DatasetDescription、数据集创建者DatasetCreator、数据集创建时间DatasetCreateTime、数据集许可证DatasetLicense、数据集分类DatasetSubject等；数据主体包括数据主体元数据DatasetSchema、数据主体条数DatasetEntities、数据主体存储容量DatasetCapacity和数据主体访问方式DatasetURILookupEndpoint。各数据中心按需向数据源连接框架注册数据集，基于公知的区块链技术将数据元数据信息写入到区块链账本，实现数据的确权和可信存证。

在一实施例中，上述方法将数据主体访问方式抽象为流水线中的数据处理组件，同时将数据处理、融合、存储、分析等方面的各类智能算法封装成组件，采用流水线机制对跨数据中心协同分析任务进行灵活编排。支持各类数据源、数据处理组件、模型算法配置和数据流向配置，具体见图3，用户基于逻辑统一、物理分散的数据资源池，通过流水线配置实现数据协同分析任务灵活编排。

在一实施例中，上述方法基于“一种大数据ETL任务的编排方法与系统”(专利号：201910359658.4)对协同分析任务进行描述，如图4所示。同样地，协同分析任务Flow包含基本信息BasicInfo、数据处理组件Stop和数据流向Path三个模块。

在“一种大数据ETL任务的编排方法与系统”中，BasicInfo模块包含Name(ETL任务名称)，UUID(ETL任务唯一标识)、Checkpoint(ETL检查点)和RunMode(ETL任务运行模式)，其中Checkpoint和RunMode可选。Stop模块包含Name(数据处理组件名称)、UUID(数据处理组件唯一标识)、Bundle(数据处理组件类名)、Properties(数据处理组件属性，Properties包含0到多个Property)、Inports(数据处理组件数据流入端口列表，包含多个Inport)、Outports(数据处理组件数据流出端口列表，包含多个Outport)。Path模块包含From(源数据处理组件)，Outport(源数据处理组件数据流出端口)，Inport(目标数据处理组件数据流入端口)，To(目标数据处理组件)。

而本发明对数据处理组件Stop的描述进行了扩展，增加了数据中心DataCenter属性，为协同分析任务动态规划提供支持，即本发明会根据DataCenter来确定数据的分布，从而将任务分发到对应DataCenter中去执行。

在一实施例中，根据各数据处理组件、模型算法数据分布情况，按照移动计算不移动数据原则，对协同计算任务进行规划。图5A-5J展示了任务规划示意图，首先根据数据分布情况给数据处理组件打标签，确定数据组件所处数据中心DataCenter；然后按照DAG有向无环图自顶向下遍历方式进行遍历：若上游组件都在同一数据中心，则当前组件在此数据中心执行；若上游组件不在同一数据中心，综合考虑下游组件数据中心情况，动态感知上下游各数据中心计算资源、存储资源、数据体量等情况，遵循优先移动小量数据、优先资源充裕节点的原则，动态确定所在数据中心，实现协同分析任务的高效执行。

在一实施例中，上述方法基于“一种大数据ETL任务的编排方法与系统”(专利号：201910359658.4)对流水线描述语言进行扩展，将动态规划任务描述成跨中心流水线描述语言BigFlow，如图6所示。图中每个矩形框表示一个节点，矩形框跟随的加号表示节点可展开，矩形框下方的数字表示节点允许出现的次数。BigFlow由Flow和Path两个模块组成，均为一对多关系，即一条跨中心流水线可包含多个单域流水线Flow和多条跨中心传递路径Path。Flow的描述新增数据中心DataCenter属性、流水线输入端口Inport、流水线输出端口Outport，用于描述跨数据中心流水线间的数据传输。

在一实施例中，上述方法设计统一跨域协同调度策略，将子任务分发到各个数据中心进行执行，并监控子任务执行情况，具体见图7。基于公知的区块链技术，将协同计算子任务通过账本进行存证，包括调用者、调用时间、运行节点情况、输入、关键点、返回值等，实现跨中心协同计算的数据溯源与行为安全审计，完成协同分析任务。

在一实施例中，上述方法中各数据中心需部署算法分析流水线平台，算法分析流水线平台基于“一种大数据ETL任务的编排方法与系统”(专利号：201910359658.4)实现，接收协同计算子任务并执行。

与上述方法相应地，本发明还提供一种基于流水线机制的跨中心协同计算的编排系统，具体系统结构如图8所示。该系统包括跨中心流水线服务与调度引擎和交互式跨中心协同分析平台。

所述跨中心流水线服务与调度引擎包括统一数据源连接框架、融合分析、动态任务规划、算子下推、算法分析流水线平台和可信存证与溯源。统一数据源连接框架构建协同共享的数据协同环境，支撑各类多源异构大数据的接入，构建面向融合分析场景的数据资源目录；融合分析模块基于统一数据资源目录对协同分析任务进行编排并生成跨中心流水线模型描述语言；动态任务规划模块根据数据分布、计算及存储资源等情况对协同任务进行动态规划，生成子任务；算子下推模块根据任务动态规划结果进行子任务的调度，将子任务分发到各数据中心执行；算法分析流水线平台接收子任务，执行并返回结果。协同分析过程采用公知的区块链技术保证数据确权及流转溯源由。

所述的交互式跨中心协同分析平台，包括数据中心节点管理、数据资源目录管理、运行环境监控管理、模型算法库管理和流水线可视化分析。其中，数据中心节点管理包括节点的注册、审核、删除等操作；数据资源目录管理针对各个数据中心注册的数据集进行统一管理、包括数据集注册、审核、删除等操作；运行环境监控管理包括对各数据中心的状态、算法分析流水线平台、计算及存储资源情况进行监控和预警；模型算法库管理默认提供大数据相关处理算子，支持自定义开发算子、支持算子热插拔等功能；流水线可视化分析实现以所见即所得拖拽配置方式实现跨中心的协同分析。所述的流水线可视化分析模块包括跨中心流水线模型描述语言生成器，用于将用户可视化配置的流水线协同分析任务生成模型描述语言，并发送至跨中心流水线服务与调度引擎，完成协同分析任务。

本系统的构建过程以某用户某一特定需求为例进行说明。某用户特定需求描述如下：数据中心A和数据中心B分别发布共享秋海棠属物种的分布数据集，用户需融合这两个数据集做秋海棠属物种分布分析。具体实施如下：

首先，数据中心A发布共享秋海棠属物种数据集“秋海棠属物种Dataset-A”，数据体量为5GB。数据中心B发布共享秋海棠属物种数据集“秋海棠属物种Dataset-B”，数据体量为56MB。用户通过检索统一数据资源目录，发现所需数据集。针对可用数据集进行协同分析，具体流程如图9所示，将两个数据集分别做预处理后进行融合，基于融合后的数据进行物种分布算法计算，最后以可视化形式展示。

其次，针对用户配置的协同分析流水线进行任务动态规划，见图10。首先根据数据源对数据处理组件打标签，按照自顶向下方式进行遍历，确定各组件执行位置，见第一步。两个“预处理”组件对应上游组件唯一，则所在执行位置与上游组件一致，见第二步。“Merge”组件的上游组件所在数据中心位置不一致，遵循移动少量数据原则确定执行位置为数据中心A。“物种分布算法”组件和“可视化展示”组件的上游组件唯一，则执行位置均在数据中心A。最终形成两条子任务Flow1和Flow2。

第三，根据动态规划结果，首先将Flow1分发到数据中心B执行，执行结果返回给数据中心A，并在数据中心A执行Flow2，完成协同分析任务，具体图11所示。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于流水线机制的跨中心协同计算的编排方法，其步骤包括：

根据用户的协同分析需求，生成模型描述语言，并基于所述数据资源目录，通过模型描述语言分别获取目标数据的数据源、将目标数据的数据主体访问方式抽象为流水线中的数据处理组件、及进行模型算法配置与数据流向配置，从而以流水线方式对协同分析任务进行描述；其中，所述协同分析任务包括：基本信息、数据处理组件和数据流向；所述数据处理组件包括：数据处理组件名称、数据处理组件唯一标识、数据处理组件类名、数据处理组件属、数据处理组件数据流入端口列表、数据处理组件数据流出端口列表和数据中心属性；结合所述数据源的使用状态监控数据，对所述协同分析任务进行动态规划，生成跨中心流水线描述语言；其中，所述跨中心流水线描述语言包括：至少一个单域流水线和至少一条跨中心传递路径，所述单域流水线的描述包括：数据中心属性、流水线输入端口和流水线输出端口；所述对所述协同分析任务进行动态规划，包括：

根据目标数据的分布情况给数据处理组件打标签，确定数据组件所处数据中心；

生成协同分析任务的有向无环图；其中，所述有向无环图中的节点为数据处理组件，边为数据流向；

按照DAG有向无环图自顶向下遍历方式进行遍历，包括：

若上游的数据处理组件不在同一数据中心，则基于所述数据源的使用状态监控数据与各数据中心中相应的目标数据体量，依据优先执行原则，动态地确定执行当前数据处理组件所在的数据中心；其中，所述优先执行原则包括：优先移动小体量数据或优先资源充裕的数据源；

2.如权利要求1所述的方法，其特征在于，所述数据集元数据包括：协同计算节点、所属数据中心名称、数据集唯一标识、数据集名称、数据集描述、数据集创建者、数据集创建时间、数据集许可证和数据集分类。

3.如权利要求1所述的方法，其特征在于，所述数据主体还包括：数据主体元数据、数据主体条数和数据主体存储容量。

4.如权利要求1所述的方法，其特征在于，基于区块链技术，监控流水线子任务的执行情况，并通过账本进行存证。

5.一种基于流水线机制的跨中心协同计算的编排系统，包括：

跨中心流水线服务与调度引擎，包括：

融合分析模块，用以根据用户的协同分析需求，使用所述数据资源目录，分别获取目标数据的数据源、将目标数据的数据主体访问方式抽象为流水线中的数据处理组件、及进行模型算法配置与数据流向配置，从而以流水线方式对协同分析任务进行描述；其中，所述协同分析任务包括：基本信息、数据处理组件和数据流向；所述数据处理组件包括：数据处理组件名称、数据处理组件唯一标识、数据处理组件类名、数据处理组件属、数据处理组件数据流入端口列表、数据处理组件数据流出端口列表和数据中心属性；

动态任务规划模块，用以结合所述数据源的使用状态监控数据，对所述协同分析任务进行动态规划，生成跨中心流水线描述语言；基于跨中心流水线描述语言，生成跨中心的流水线子任务；将流水线子任务分发到各数据中心执行；其中，所述跨中心流水线描述语言包括：至少一个单域流水线和至少一条跨中心传递路径，所述单域流水线的描述包括：数据中心属性、流水线输入端口和流水线输出端口；所述对所述协同分析任务进行动态规划，包括：

按照DAG有向无环图自顶向下遍历方式进行遍历，包括：

交互式跨中心协同分析平台，包括：

6.如权利要求5所述的系统，其特征在于，所述交互式跨中心协同分析平台，还包括：

数据中心节点管理模块，用以对数据中心进行管理；

模型算法库管理模块，用以提供大数据相关处理算子。