CN112925813A

CN112925813A - 基于混合编排的数据处理方法、装置、系统和存储介质

Info

Publication number: CN112925813A
Application number: CN202110349288.3A
Authority: CN
Inventors: 方荣; 罗伟锋; 郭朕; 刘鹏; 马浩
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-08

Abstract

本公开实施例涉及基于混合编排的数据处理方法、装置、系统和存储介质。方法包括：获取数据配置信息和数据处理逻辑；基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，节点包括数据节点和计算节点，边用于描述该边连接的两个节点之间的依赖关系；解析流程信息，以执行流程信息中的至少一个计算节点，完成数据处理。本公开至少一个实施例中，在获取数据配置信息和数据处理逻辑后，通过采用节点和边的数据结构，混合编排流程信息，将节点区分数据节点和计算节点，数据节点为数据提供表达和管理功能，进而通过解析流程信息，来执行流程信息中的计算节点，实现以数据为视角的处理流程。

Description

基于混合编排的数据处理方法、装置、系统和存储介质

技术领域

本公开实施例涉及机器学习技术领域，具体涉及一种基于混合编排的数据处理方法、装置、系统和存储介质。

背景技术

数据处理过程包含数据提取，转换，存储等多个步骤，也可以称为数据治理过程。目前通过任务流编排调度工具(例如Airflow)来编排数据处理流程，以根据编排的数据处理流程进行数据处理。目前的任务流编排调度工具可以实现任务定义和按任务间的依赖关系调度任务，因此，是以“任务”视角进行数据处理。

而在人工智能(Artificial Intelligence，AI)应用场景下数据处理过程中不仅包括任务流，还包括服务流和数据流，而数据流又分为多种，例如包括请求数据流，反馈数据流，展示数据流和业务数据流中的一种或多种，因此，AI应用场景下更关心的是数据定义和管理，也即以“数据”视角进行数据处理。

可见，目前的任务流编排调度工具以“任务”视角进行数据处理，缺乏对数据的定义和管理，无法以“数据”视角来编排数据处理流程，从而也无法以“数据”视角来管理任务产出的结果，因此无法满足AI应用场景下数据处理流程的编排。另外，目前的数据处理过程基本都着重于离线的数据加载和处理，这种数据处理方式有着较长的数据滞后性，在AI应用场景下也会带来线下线上数据不一致的问题。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种基于混合编排的数据处理方法、装置、系统和存储介质。

第一方面，本公开实施例提供一种基于混合编排的数据处理方法，该方法包括：

获取数据配置信息和数据处理逻辑；

基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，节点包括数据节点和计算节点，边用于描述该边连接的两个节点之间的依赖关系；

解析流程信息，以执行流程信息中的至少一个计算节点，完成数据处理。

在一些实施例中，流程信息包括至少一个数据节点、至少一个计算节点和至少一条边；数据节点包括多个数据配置项；

基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息包括：

基于数据配置信息配置数据节点的数据配置项；

基于数据处理逻辑配置计算节点的数据处理逻辑。

在一些实施例中，数据配置项包括以下一种或多种：

存储配置项、数据表字段配置项、服务地址配置项。

在一些实施例中，计算节点的数据处理逻辑包括：

流式任务、批量任务、定时任务或服务。

在一些实施例中，流程信息包括以下至少两种计算节点：

流式任务的计算节点、批量任务的计算节点、定时任务的计算节点和服务的计算节点。

在一些实施例中，在配置计算节点的数据处理逻辑后，该方法还包括：

声明计算节点的执行引擎；

配置计算节点的执行前处理方法；

配置计算节点的执行后处理方法。

在一些实施例中，配置计算节点的执行前处理方法包括：

配置计算节点的输入钩子函数，输入钩子函数中设置计算节点的执行触发条件。

在一些实施例中，配置计算节点的执行后处理方法包括：

配置计算节点的输出钩子函数，输出钩子函数用于通知计算节点的状态。

在一些实施例中，该方法还包括：

针对具有相同数据处理逻辑的不同应用场景，在混合编排流程信息时，基于不同应用场景重新配置流程信息中的数据节点，保持流程信息中的计算节点和边。

在一些实施例中，解析流程信息，包括：

查找满足执行触发条件的目标计算节点；

确定目标计算节点上下游的数据节点；

解析上下游的数据节点的数据配置信息；

将上下游的数据节点的数据配置信息注册到元数据管理系统中。

在一些实施例中，执行流程信息中的至少一个计算节点，完成数据处理包括：

在注册完成后，将上下游的数据节点的数据配置信息提交给目标计算节点，并调用目标计算节点声明的执行引擎，以执行目标计算节点的数据处理逻辑，完成数据处理。

在一些实施例中，该方法还包括：

在获取执行引擎发送的目标计算节点的状态通知信息后，再次查找满足执行触发条件的目标计算节点，直至获取流程信息中所有计算节点的状态通知信息后停止查找。

第二方面，本公开实施例还提供一种基于混合编排的数据处理装置，该装置包括：

获取单元，用于获取数据配置信息和数据处理逻辑；

编排单元，用于基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，节点包括数据节点和计算节点，边用于描述该边连接的两个节点之间的依赖关系；

解析单元，用于解析流程信息，以执行流程信息中的至少一个计算节点，完成数据处理。

编排单元，用于基于数据配置信息配置数据节点的数据配置项；并基于数据处理逻辑配置计算节点的数据处理逻辑。

在一些实施例中，数据配置项包括以下一种或多种：

存储配置项、数据表字段配置项、服务地址配置项。

在一些实施例中，计算节点的数据处理逻辑包括：

流式任务、批量任务、定时任务或服务。

在一些实施例中，流程信息包括以下至少两种计算节点：

在一些实施例中，编排单元在配置计算节点的数据处理逻辑后，还包括：

编排单元声明计算节点的执行引擎；

编排单元配置计算节点的执行前处理方法；

编排单元配置计算节点的执行后处理方法。

在一些实施例中，编排单元配置计算节点的执行前处理方法包括：

编排单元配置计算节点的输入钩子函数，输入钩子函数中设置计算节点的执行触发条件。

在一些实施例中，编排单元配置计算节点的执行后处理方法包括：

编排单元配置计算节点的输出钩子函数，输出钩子函数用于通知计算节点的状态。

在一些实施例中，编排单元还用于：

在一些实施例中，解析单元解析流程信息，包括：

解析单元查找满足执行触发条件的目标计算节点；

解析单元确定目标计算节点上下游的数据节点；

解析单元解析上下游的数据节点的数据配置信息；

解析单元将上下游的数据节点的数据配置信息注册到元数据管理系统中。

在一些实施例中，解析单元执行流程信息中的至少一个计算节点，完成数据处理包括：

解析单元在注册完成后，将上下游的数据节点的数据配置信息提交给目标计算节点，并调用目标计算节点声明的执行引擎，以执行目标计算节点的数据处理逻辑，完成数据处理。

在一些实施例中，解析单元还用于：

第三方面，本公开实施例还提出一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，指令在被至少一个计算装置运行时，促使至少一个计算装置执行如第一方面任一实施例基于混合编排的数据处理方法的步骤。

第四方面，本公开实施例还提出一种非暂态计算机可读存储介质，用于存储程序或指令，当程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如第一方面任一实施例基于混合编排的数据处理方法的步骤。

可见，本公开的至少一个实施例中，在获取数据配置信息和数据处理逻辑后，通过采用节点和边的数据结构，混合编排流程信息，将节点区分数据节点和计算节点，数据节点为数据提供表达和管理功能，进而通过解析流程信息，来执行流程信息中的计算节点，实现以数据为视角的处理流程。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种基于混合编排的数据处理方法的示例性流程图；

图2是本公开实施例提供的一种AI应用场景下混合编排的流程信息示例图；

图3是本公开实施例提供的一种基于混合编排的数据处理装置的示例性框图；

图4是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

在人工智能(Artificial Intelligence，AI)应用场景下，机器学习系统可针对不同的业务场景，解决不同的业务问题，不论是那种业务问题，均需要将多种数据流接入机器学习系统，机器学习系统才能够利用这些数据流解决相应的业务问题。在一些实施例中，机器学习系统可以为HyperCycle ML(超循环机器学习系统)，也可以为其他的机器学习系统。多种数据流例如包括：请求数据流、反馈数据流、展示数据流、业务数据流中的一种或多种。

例如，业务场景为信用卡电话营销场景，机器学习系统需要解决的业务问题为如何在打同样数量电话的情况下获得更多的信用卡订单。业务问题可转换成找到更有可能会办信用卡的客户，给这些客户打电话。定义业务问题就是找到X和Y，X即一次电话营销行为，Y即打完电话后客户是否办了信用卡。

在此业务场景下，请求数据是指发送给机器学习系统的信息，例如召回了一万个客户作为候选集，结合其他信息想要通过机器学习系统来帮忙判断每个客户实际可能会办理信用卡的概率，这一万条数据就是请求数据；经由机器学习系统中的模型进行预估后，实际进行电话营销时不会一万个客户都打电话，业务方只会选择更有可能会办理信用卡的客户去进行电话营销，可能只选中了100条，这100条就是展示数据；最后，打完电话后客户实际有没有办理信用卡则是反馈数据。除了请求数据、展示数据和反馈数据外，场景中可能还包含业务数据，业务数据是其他可能有助于提升预估效果的信息，例如客户的基本信息、客户的交易流水记录、客户的征信记录等BO(Business Object，业务对象)数据。其中，业务数据可能没有，也可能有多个。

又例如，业务场景为智能推荐场景、智能搜索场景、智能推送场景等，对于智能推荐场景，客户用手机打开一个短视频应用程序，客户登录账号后，账号信息就属于业务数据的一部分；客户点击刷新按钮或者执行刷新操作(例如向上滑动操作)即产生了一次请求；机器学习系统响应刷新操作会推荐多个短视频(例如推荐10个短视频)，但是短视频应用程序不会将这10个短视频全部显示，而是显示部分短视频(例如显示了5个短视频)，显示的这5个短视频即展示数据；若客户点击了这5个短视频中的2个短视频，那么被点击的2个短视频会被打上标签，即反馈数据。

因此，在AI应用场景下的数据处理过程中不仅包括任务流(例如流式任务、批量任务、定时任务等)，还包括服务流和数据流，服务流包括数据的收集、存储以及流式数据计算等常驻型服务，数据流又分为多种，例如包括请求数据流，反馈数据流，展示数据流和业务数据流中的一种或多种，因此，AI应用场景下更关心的是数据定义和管理，也即以“数据”视角进行数据处理。

而目前的任务流编排调度工具以“任务”视角进行数据处理，缺乏对数据的定义和管理，无法以“数据”视角来编排数据处理流程，从而也无法以“数据”视角来管理任务产出的结果，因此无法满足AI应用场景下数据处理流程的编排。另外，目前的数据处理过程基本都着重于离线的数据加载和处理，这种数据处理方式有着较长的数据滞后性，在AI应用场景下也会带来线下线上数据不一致的问题。

另外，对于AI应用场景下数据处理过程中数据的收集、存储以及流式数据计算等常驻型服务缺少编排工具。目前的服务编排工具可以通过编排使服务依赖关系更加清楚，但是不涉及服务本身的启停，因此，目前的服务编排工具也无法直接应用于AI应用场景下的数据处理过程。

为此，本公开至少一个实施例提供了一种基于混合编排的数据处理方法、装置、系统或存储介质，在获取数据配置信息和数据处理逻辑后，通过采用节点和边的数据结构，混合编排流程信息，将节点区分数据节点和计算节点，数据节点为数据提供表达和管理功能，进而通过解析流程信息，来执行流程信息中的计算节点，实现以数据为视角的处理流程。

本公开的至少一个实施例可以应用于AI场景，还可以应用于其他数据处理场景，例如：微服务架构体系下的服务编排场景，以智能推荐场景为例，可对流量分配、过滤服务、召回服务、模型粗排服务、在线特征计算服务、模型精排服务等服务进行表达(即定义)和编排。

图1为本公开实施例提供的一种基于混合编排的数据处理方法的示例性流程图。本公开实施例实现以数据为视角的处理流程，可应用于AI场景。如图1所示，在步骤101中，获取数据配置信息和数据处理逻辑。

在一些实施例中，可提供用于信息输入的用户界面，进而可获取用户在该用户界面中输入的数据配置信息和数据处理逻辑，实现可视化的数据配置和处理逻辑配置。

在一些实施例中，在提供用户界面后，可在用户界面上显示辅助信息，用以帮助用户了解编排流程信息所需输入的信息，例如包括：数据配置信息和数据处理逻辑。

在一些实施例中，在提供用户界面后，可在用户界面上显示一个或多个控件，各控件用以实现不同功能，例如包括：确认(confirm)控件、提交(submit)控件、创建(create)控件、选择(select)控件、文本输入框等。例如，用户可在文本输入框中输入数据配置信息，在输入完成后，可点击确认控件，这样，响应确认控件的点击操作，获取文本输入框中的数据配置信息。数据处理逻辑的获取方式也可以采用类似数据配置信息的获取方式。需要说明的是，本实施例仅为举例说明，在实际应用中，可根据需要进行用户界面的布局。

在步骤102中，基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，节点包括数据节点和计算节点，边用于描述该边连接的两个节点之间的依赖关系。

在一些实施例中，在获取数据配置信息和数据处理逻辑，即可混合编排流程信息，混合编排可以理解为将数据节点和计算节点同时编排到一个流程信息中，当本实施例应用于AI场景时，混合编排也可以理解为将AI场景下的任务流、数据流、服务流同时编排到一个流程信息中，这样，该流程信息中可涵盖AI应用场景下的数据处理全流程。

在一些实施例中，采用节点和边的数据结构来混合编排流程信息，将节点区分数据节点和计算节点，数据节点为数据提供表达(也即定义)和管理功能，计算节点提供任务的表达，边用于描述该边连接的两个节点之间的依赖关系。混合编排得到的流程信息包括至少一个数据节点、至少一个计算节点和至少一条边，实现以“数据”为视角的流程信息混合编排。

在一些实施例中，通过数据节点可对数据处理流程中的数据输入和数据输出提供表达和管理功能，例如，计算节点的上游数据节点，可以认为是该计算节点的输入数据的表达；计算节点的下游数据节点，可认为是该计算节点的输出数据的表达。计算节点和其上下游数据节点之间的依赖关系通过边来描述。

在一些实施例中，可提供用于显示流程视图的用户界面，相应地，在混合编排流程信息，将流程信息的可视化视图显示在该用户界面中，便于用户直观了解数据处理流程。因此，混合编排的流程信息为可视化的流程视图，可基于图形化界面拖拽来编排流程信息。在另一些实施例中，混合编排的流程信息也可以基于代码进行定义。

在步骤103中，解析流程信息，以执行流程信息中的至少一个计算节点，完成数据处理。

在一些实施例中，解析流程信息包括通过流程信息中的边解析依赖关系，进而得到依赖关系所关联的计算节点和数据节点。

在一些实施例中，在混合编排流程信息后，通过解析混合编排的流程信息，来执行流程信息中的计算节点，由于流程信息中包括数据节点和边，使得计算节点的执行依赖其上下游的数据节点，实现以“数据”为视角的处理流程。

在一些实施例中，计算节点也可以依赖其上下游的数据节点，实现计算节点产出的结果以“数据”为视角进行管理。

在一些实施例中，解析流程信息，通过流程信息中的边，解析依赖关系，并按照顺序调度节点，

可见，以上实施例中，在获取数据配置信息和数据处理逻辑后，通过采用节点和边的数据结构，混合编排流程信息，将节点区分数据节点和计算节点，数据节点为数据提供表达和管理功能，进而通过解析流程信息，来执行流程信息中的计算节点，实现以数据为视角的处理流程。

另外，以上实施例中，当应用于AI场景时，不仅适用于离线批量的数据处理流程，而且适用于实时的数据处理流程。

此外，以上实施例中，可解决数据处理过程中多部门，多工具协作不一致带来的数据排查难题。

在一些实施例中，数据节点为数据提供表达的方式为数据节点包括多个数据配置项，相应地，在步骤102中“基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息”包括如下步骤1021和1022：

1021、基于数据配置信息配置数据节点的数据配置项；

1022、基于数据处理逻辑配置计算节点的数据处理逻辑。

在一些实施例中，数据配置项可包括但不限于以下一种或多种：存储配置项、数据表字段(schema)配置项、服务地址配置项。

其中，存储配置项包括数据存储介质和数据存储位置。其中，数据存储介质例如为hdfs(hadoop distributed file system，hadoop分布式文件系统)、rtidb(实时特征存储引擎)等。数据存储位置例如为数据存储路径。

数据表字段(schema)配置项包括但不限于：数据字段名、数据类型、数据字段业务含义中的一个或多个。

服务地址可以理解为对外提供服务的地址。

在一些实施例中，可提供用于信息输入的用户界面，在该用户界面中可展示数据节点的数据配置项，用户可直观了解创建一个数据节点所需提供的数据配置信息。

在一些实施例中，计算节点的数据处理逻辑定义了对接数据源后对数据的具体处理逻辑。计算节点的数据处理逻辑可包括但不限于：流式任务、批量任务、定时任务或服务。不同的数据处理逻辑可以由开发者开发时进行设置。

在一些实施例中，应用于AI场景时，步骤102混合编排得到的流程信息包括以下至少两种计算节点：流式任务的计算节点、批量任务的计算节点、定时任务的计算节点和服务的计算节点。可见，步骤102混合编排可以将AI场景下的任务流、数据流、服务流同时编排到一个流程信息中，这样，该流程信息中可涵盖AI应用场景下的数据处理全流程。

在一些实施例中，步骤1022中基于数据处理逻辑配置计算节点的数据处理逻辑后，可对该计算节点进一步进行如下配置步骤S1至S3：

S1、声明计算节点的执行引擎；

S2、配置计算节点的执行前处理方法；

S3、配置计算节点的执行后处理方法。

在一些实施例中，在步骤S1中，计算节点本身不具有数据处理功能，因此，为了使计算节点具有数据处理功能，需要声明计算节点的执行引擎，执行引擎是具有数据处理功能的程序，由开发人员开发得到。

在一些实施例中，可提供计算节点配置界面，用户可在该界面中输入的计算节点的执行引擎信息。相应地，基于用户在该界面中输入的执行引擎信息，声明计算节点的执行引擎。

在一些实施例中，在步骤S2中，配置计算节点的执行前处理方法包括：配置计算节点的输入钩子函数，输入钩子函数中设置计算节点的执行触发条件。输入钩子函数中还可设置或指向其他方法，以实现执行前不同的处理。

钩子(hook)函数是一种用于改变应用程序编程接口(Application ProgrammingInterface，API)执行结果的技术，hook函数的实现可以采用开源的hook方案，属于计算机技术领域的成熟技术，不再赘述。

本实施例中，在执行(或调度)一个计算节点前，首先处理其输入钩子函数，判断该计算节点的执行触发条件是否均满足，若均满足，才会执行该计算节点。

在一些实施例中，为了简化输入钩子函数中的执行触发条件，提供了一些默认的执行触发策略。对于任务流，默认的执行触发策略为上游任务成功则触发下游任务。对于数据流，默认的执行触发策略为上游任务成功并且产出数据则触发下游任务。对于服务流，默认的执行触发策略是上游服务启动成功则触发下游服务。对于复杂的任务调度处理逻辑可由使用方定义并注册到计算节点的钩子函数列表中。在一些实施例中，还提供了webhooks机制，可将数据节点和计算节点的信息变化同步到其他系统。

在一些实施例中，在步骤S3中，配置计算节点的执行后处理方法包括：配置计算节点的输出钩子函数，输出钩子函数用于通知计算节点的状态。输出钩子函数中还可设置或指向其他方法，以实现执行后不同的处理。

本实施例中，当一个计算节点的执行引擎完成执行任务后，执行引擎处理输出钩子函数，将计算节点的状态修改为完成，并通知计算节点的状态已完成。接收通知的主体为混合编排系统(即本公开实施例的执行主体)。例如，执行引擎将状态标识的值修改为完成对应的标识值，并将该标识反馈给混合编排系统。

在一些实施例中，针对具有相同数据处理逻辑的不同应用场景，在混合编排流程信息时，基于不同应用场景重新配置流程信息中的数据节点，保持流程信息中的计算节点和边不变。可见，由于区分数据节点和计算节点，在同类型数据处理场景中仅需要替换数据节点即可，进而提高数据处理效率。

在一些实施例中，步骤103中解析流程信息，可包括如下步骤1031至1034：

1031、查找满足执行触发条件的目标计算节点。

1032、确定目标计算节点上下游的数据节点。

1033、解析上下游的数据节点的数据配置信息。

1034、将上下游的数据节点的数据配置信息注册到元数据管理系统中。

例如，解析流程信息，对于计算节点，根据计算节点的输入钩子函数，判断该计算节点的执行触发条件是否均满足，若均满足，则先处理该计算节点的上下游数据节点，具体地，确定该计算节点上下游的数据节点，并解析上下游的数据节点的数据配置信息，进而将上下游的数据节点的数据配置信息注册到元数据管理系统中。

在一些实施例中，在将上下游的数据节点的数据配置信息注册到元数据管理系统后，可将整个流程信息的统一上下文信息注册到元数据管理系统中，为数据血缘追溯提供元数据支持。其中，统一上下文信息例如为可以表示不同数据间存在关联关系的信息，例如同一任务流中的不同数据，来源于同一任务流视图，该视图标识DagID即为统一上下文信息；又例如，同一次执行中产生的不同数据，存在关联关系，该次执行的RunID即为统一上下文信息。

在完成信息注册后，可将上下游的数据节点的数据配置信息作为计算节点的输入和输出传递给计算节点，再根据计算节点的执行引擎，提交给对应的执行引擎。各个执行引擎通过事件机制通知混合编排系统(即本公开实施例的执行主体)。

在一些实施例中，步骤103中执行流程信息中的至少一个计算节点，完成数据处理包括：

在步骤1034完成注册后，将上下游的数据节点的数据配置信息提交给目标计算节点，并调用目标计算节点声明的执行引擎，以执行目标计算节点的数据处理逻辑，完成数据处理。

在一些实施例中，在获取执行引擎发送的目标计算节点的状态通知信息后，再次查找满足执行触发条件的目标计算节点，直至获取流程信息中所有计算节点的状态通知信息后停止查找，至此，完成整个数据处理流程。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

图2为本公开实施例提供的一种AI应用场景下混合编排的流程信息示例图。本实施例中，混合编排的流程信息为可视化的流程视图，因此，可基于图形化界面拖拽来编排流程信息。

在图2中，混合编排的流程信息包括：流式任务编排201、批量任务编排202和服务编排203，可见，混合编排将AI场景下的任务流、数据流、服务流同时编排到一个流程信息中，这样，该流程信息中可涵盖AI应用场景下的数据处理全流程。

在流式任务编排201中：

物料信息es(elastic search，全文搜索引擎)为数据节点，表示通过es检索得到的物料信息。

物料信息时间戳为计算节点，表示给物料信息增加时间戳。

物料信息kafka(分布式发布订阅消息系统)为数据节点，表示存储到kafka的物料信息。物料信息es和物料信息kafka为物料信息时间戳的上下游数据节点。

k2r(kafka to rtidb)物料信息落盘为计算节点，表示将存储到kafka的物料信息落盘到rtidb。

物料信息rtidb为数据节点，表示存储到rtidb的物料信息。物料信息kafka和物料信息rtidb为k2r物料信息落盘的上下游数据节点。

请求实时特征计算和拼接为计算节点，表示对请求进行实时特征计算和拼接。物料信息rtidb、用户信息rtidb和请求流http为请求实时特征计算和拼接的上游数据节点。

实时特征kafka为请求实时特征计算和拼接的下游数据节点，表示存储在kafka的实时特征。

k2h(kafka to hdfs)物料信息落盘为计算节点，表示将存储到kafka的物料信息落盘到hdfs。

物料落盘hdfs为数据节点，表示存储到hdfs的物料信息。物料信息kafka和物料落盘hdfs为k2h物料信息落盘的上下游数据节点。

用户信息mysql(关系型数据库管理系统)为数据节点，表示存储在mysql中的用户信息。

用户信息时间戳为计算节点，表示给用户信息增加时间戳。

用户信息kafka为数据节点，表示存储到kafka的用户信息。用户信息mysql和用户信息kafka为用户信息时间戳的上下游数据节点。

k2r用户信息落盘为计算节点，表示将存储到kafka的用户信息落盘到rtidb。

用户信息rtidb为数据节点，表示存储到rtidb的用户信息。用户信息kafka和用户信息rtidb为k2r用户信息落盘的上下游数据节点。

k2h用户信息落盘为计算节点，表示将存储到kafka的用户信息落盘到hdfs。

用户落盘hdfs为数据节点，表示存储到hdfs的用户信息。用户信息kafka和用户落盘hdfs为k2h用户信息落盘的上下游数据节点。

请求流打平Flink(分布式流数据处理系统)为计算节点，表示采用Flink将请求流数据进行打平(flatten)。

请求流打平kafka为数据节点，表示经过打平操作后的请求流数据存储到kafka。请求流kafka和请求流打平kafka为请求流打平Flink的上下游数据节点。

请求流落盘flink为计算节点，表示采用flink将请求流数据进行落盘操作。

请求流落盘hdfs为数据节点，表示存储到hdfs的请求流数据。请求流打平kafka和请求流落盘hdfs为请求流落盘flink的上下游数据节点。

展示流落盘flink为计算节点，表示采用flink将展示流数据进行落盘操作。

展示流落盘hdfs为数据节点，表示存储到hdfs的展示流数据。展示流kafka和展示流落盘hdfs为展示流落盘flink的上下游数据节点。

请求反馈拼接为计算节点，表示将请求数据和反馈数据进行拼接操作。该计算节点的上游数据节点为请求流kafka、展示流kafka和点击流kafka。

viewlog_kafka为数据节点，表示存储到kafka的viewlog数据(拼接得到的带反馈的宽表特征数据)。viewlog_kafka为请求反馈拼接的下游数据节点。

viewlog落盘flink为计算节点，表示采用flink对viewlog进行落盘操作。

viewlog落盘hdfs为数据节点，表示存储到hdfs的viewlog数据。viewlog_kafka和viewlog落盘hdfs为viewlog落盘flink的上下游数据节点。

点击流落盘flink为计算节点，表示采用flink对点击流数据进行落盘操作。

点击流落盘hdfs为数据节点，表示存储到hdfs的点击流数据。点击流kafka和点击流落盘hdfs为点击流落盘flink的上下游数据节点。

在批量任务编排202中：

用户画像计算为计算节点，其上游计算节点为定时触发，定时触发的上游数据节点为用户落盘hdfs。

离线特征计算为计算节点，其上游计算节点为定时触发，定时触发的上游数据节点为：物料落盘hdfs、用户落盘hdfs、请求流落盘hdfs、展示流落盘hdfs、viewlog落盘hdfs和点击流落盘hdfs。

在服务编排203中：

请求流http为数据节点，表示通过http方式获取的请求流数据。

展示流http为数据节点，表示通过http方式获取的展示流数据。

点击流http为数据节点，表示通过http方式获取的点击流数据。

请求流http的下游计算节点为数据收集服务，用于收集请求流数据，该数据收集服务的下游数据节点为请求流kafka，表示存储到kafka的请求流数据。

展示流http的下游计算节点为数据收集服务，用于收集展示流数据，该数据收集服务的下游数据节点为展示流kafka，表示存储到kafka的展示流数据。

点击流http的下游计算节点为数据收集服务，用于收集点击流数据，该数据收集服务的下游数据节点为点击流kafka，表示存储到kafka的点击流数据。

可见，图2所示的AI应用场景下混合编排的流程信息，可以将面向AI应用场景的数据处理过程完整表达，包括流式任务编排、批量任务编排和服务编排。在图2中，对于点击率优化场景，数据处理过程包含请求、展示、点击、物料、用户等数据的收集、转换和存储。

图3为本公开实施例提供的一种基于混合编排的数据处理装置的示例性框图。如图3所示，基于混合编排的数据处理装置包括但不限于：获取单元31、编排单元32和解析单元33。

获取单元31，用于获取数据配置信息和数据处理逻辑；

编排单元32，用于基于数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，节点包括数据节点和计算节点，边用于描述该边连接的两个节点之间的依赖关系；

解析单元33，用于解析流程信息，以执行流程信息中的至少一个计算节点，完成数据处理。

编排单元32，用于基于数据配置信息配置数据节点的数据配置项；并基于数据处理逻辑配置计算节点的数据处理逻辑。

在一些实施例中，数据配置项包括以下一种或多种：

存储配置项、数据表字段配置项、服务地址配置项。

在一些实施例中，计算节点的数据处理逻辑包括：

流式任务、批量任务、定时任务或服务。

在一些实施例中，流程信息包括以下至少两种计算节点：

在一些实施例中，编排单元32在配置计算节点的数据处理逻辑后，还包括：

编排单元32声明计算节点的执行引擎；

编排单元32配置计算节点的执行前处理方法；

编排单元32配置计算节点的执行后处理方法。

在一些实施例中，编排单元32配置计算节点的执行前处理方法包括：

编排单元32配置计算节点的输入钩子函数，输入钩子函数中设置计算节点的执行触发条件。

在一些实施例中，编排单元32配置计算节点的执行后处理方法包括：

编排单元32配置计算节点的输出钩子函数，输出钩子函数用于通知计算节点的状态。

在一些实施例中，编排单元32还用于：

在一些实施例中，解析单元33解析流程信息，包括：

解析单元33查找满足执行触发条件的目标计算节点；

解析单元33确定目标计算节点上下游的数据节点；

解析单元33解析上下游的数据节点的数据配置信息；

解析单元33将上下游的数据节点的数据配置信息注册到元数据管理系统中。

在一些实施例中，解析单元33执行流程信息中的至少一个计算节点，完成数据处理包括：

解析单元33在注册完成后，将上下游的数据节点的数据配置信息提交给目标计算节点，并调用目标计算节点声明的执行引擎，以执行目标计算节点的数据处理逻辑，完成数据处理。

在一些实施例中，解析单元33还用于：

在一些实施例中，图3所示的数据处理装置中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如数据处理装置中的至少两个单元可以实现为一个单元；数据处理装置中各单元也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

以上各装置实施例的具体细节可参考各方法实施例，为避免重复，不再赘述。

图4是本公开实施例提供的一种包括至少一个计算装置和至少一个存储指令的存储装置的系统的示例性框图。在一些实施例中，该系统可用于大数据处理，至少一个计算装置和至少一个存储装置可以为分布式部署，使该系统为分布式数据处理集群。

如图4所示，系统包括：至少一个计算装置401、至少一个存储指令的存储装置402。可以理解，本实施例中的存储装置402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储装置402存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础任务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用任务。实现本公开实施例提供的基于混合编排的数据处理方法的程序可以包含在应用程序中。

在本公开实施例中，至少一个计算装置401通过调用至少一个存储装置402存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，至少一个计算装置401用于执行本公开实施例提供的基于混合编排的数据处理方法各实施例的步骤。

本公开实施例提供的基于混合编排的数据处理方法可以应用于计算装置401中，或者由计算装置401实现。计算装置401可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过计算装置401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的计算装置401可以是通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的基于混合编排的数据处理方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储装置402，计算装置401读取存储装置402中的信息，结合其硬件完成方法的步骤。

本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，当所述程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如基于混合编排的数据处理方法各实施例的步骤，为避免重复描述，在此不再赘述。其中，计算装置可以为图4所示的计算装置401。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于混合编排的数据处理方法，所述方法包括：

获取数据配置信息和数据处理逻辑；

基于所述数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，所述节点包括数据节点和计算节点，所述边用于描述该边连接的两个节点之间的依赖关系；

解析所述流程信息，以执行所述流程信息中的至少一个计算节点，完成数据处理。

2.根据权利要求1所述的方法，其中，所述流程信息包括至少一个数据节点、至少一个计算节点和至少一条边；所述数据节点包括多个数据配置项；

所述基于所述数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息包括：

基于所述数据配置信息配置所述数据节点的数据配置项；

基于所述数据处理逻辑配置所述计算节点的数据处理逻辑。

3.根据权利要求2所述的方法，其中，所述数据配置项包括以下一种或多种：存储配置项、数据表字段配置项、服务地址配置项。

4.根据权利要求2所述的方法，其中，所述计算节点的数据处理逻辑包括：流式任务、批量任务、定时任务或服务。

5.根据权利要求4所述的方法，其中，所述流程信息包括以下至少两种计算节点：

所述流式任务的计算节点、所述批量任务的计算节点、所述定时任务的计算节点和所述服务的计算节点。

6.根据权利要求2所述的方法，其中，在配置所述计算节点的数据处理逻辑后，所述方法还包括：

声明所述计算节点的执行引擎；

配置所述计算节点的执行前处理方法；

配置所述计算节点的执行后处理方法。

7.根据权利要求6所述的方法，其中，所述配置所述计算节点的执行前处理方法包括：

配置所述计算节点的输入钩子函数，所述输入钩子函数中设置所述计算节点的执行触发条件。

8.一种基于混合编排的数据处理装置，所述装置包括：

获取单元，用于获取数据配置信息和数据处理逻辑；

编排单元，用于基于所述数据配置信息和数据处理逻辑，采用节点和边的数据结构，混合编排流程信息；其中，所述节点包括数据节点和计算节点，所述边用于描述该边连接的两个节点之间的依赖关系；

解析单元，用于解析所述流程信息，以执行所述流程信息中的至少一个计算节点，完成数据处理。

9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7任一项所述基于混合编排的数据处理方法的步骤。

10.一种非暂态计算机可读存储介质，其中，所述非暂态计算机可读存储介质存储程序或指令，当所述程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如权利要求1至7任一项所述基于混合编排的数据处理方法的步骤。