CN112181779B

CN112181779B - 一种ai元数据的综合处理方法和系统

Info

Publication number: CN112181779B
Application number: CN202011069023.XA
Authority: CN
Inventors: 徐达; 杨卓恒; 王明亮
Original assignee: Beijing Yunge Technology Co ltd
Current assignee: Beijing Yunge Technology Co ltd
Filing date: 2020-09-28
Publication date: 2024-06-04
Anticipated expiration: 2040-09-28

Abstract

本发明公开了一种AI元数据的综合处理方法和系统，涉及机器学习领域。该方法包括：监听并收集预设任务运行过程的元数据，记录预设任务运行过程的元数据的运行状态，将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存预设任务的数据库中，使得AI平台中的各种计算任务和产出物得到了有效管理，实现了AI计算过程中元数据的自动化收集，持久化存储；并且支持各种大规模分布式集群和各种AI计算过程，实现了便于理解复杂计算的过程和计算性质，并且达到追踪和管理这些复杂计算过程的重要数据。

Description

一种AI元数据的综合处理方法和系统

技术领域

本发明涉及机器学习领域，尤其涉及一种AI元数据的综合处理方法和系统。

背景技术

在一个复杂的智能计算过程中包括：这些计算本身、其产生的数字智能资产和这些计算的环境，都可以用元数据Metadata来进行描述。例如一个计算任务的输入、输出、以及计算本身的相关参数。利用这些元数据，例如：中介数据、中继数据，为描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能，经过进一步的处理和分析，就可以实现理解复杂计算的过程和性质，并且达到追踪和管理这些重要的数据智能数字资产的产生，源流，使用等重要功能。

现有的一些初步技术方案是一些非系统化的、特定目的的，针对一个特定计算平台，例如Google的Kubeflow/TFX的不透明方法，不具有通用性和扩展性，现有技术中并没有系统化的解决该问题的技术方案。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种AI元数据的综合处理方法和系统。

本发明解决上述技术问题的技术方案如下：

一种AI元数据的综合处理方法，包括：S1，监听并收集预设任务运行过程的元数据，其中，所述元数据包括：所述预设任务在运行过程中的任一步骤的产出物、所述预设任务在运行过程中的任一步骤的子任务和所述预设任务的数据，所述元数据还包括：所述产出物与所述子任务的依赖关系；

S2，记录所述预设任务运行过程的元数据的运行状态；

S3，将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存所述预设任务的数据库中。

本发明的有益效果是：本方案通过对元数据的综合处理，使得AI平台中的各种计算任务和产出物得到了有效管理，实现了AI计算过程中元数据的自动化收集，持久化存储；并且支持各种大规模分布式集群和各种AI计算过程，实现了便于理解复杂计算的过程和计算性质，并且达到追踪和管理这些复杂计算过程的重要数据。通过本方案对用户的侵入性小，由于本方案中的元数据收集器处在第三方的视角通过侧面观察获取所有资源的状态和信息，能够自动化、智能化地发现这些计算任务和产出物，而收集过程仅要求用户在原有代码的基础上添加必要的辅助信息。

解决了现有技术方案中使用特定语言收集和解析元数据，但对用户提出了更高的要求，将用户限制在特定的平台和语言上，使得用户的负担较重，对用户代码的侵入性较大，学习成本和迁移成本较高的问题。

进一步地，所述S1具体包括：

根据已创建的不同类型的预设任务；

根据预设任务的类型、用户的使用的创建平台和通过解析所述任务获得的辅助信息来建立不同的元数据收集器；

通过已经建立的所述元数据收集器监听并收集预设任务运行过程的元数据。

采用上述进一步方案的有益效果是：本方案通过根据不同类型的预设任务、创建平台的类型和通过解析所述任务获得的辅助信息来建立不同的元数据收集器；通过元数据收集器的设计，使得本方案可以收集不同来源的元数据，也可以方便地根据用户需求创建对应的元数据收集器。

在云计算环境下，各种动态复杂的计算任务和多种多样的产出物可能来自不同的开发者、计算平台，本方案针对不同类型的AI计算/机器学习任务采用不同的元数据收集器，支持多用户、多系统、多集群，既实现了元数据收集的统一接口，也保留了灵活性和可定制性。

进一步地，所述S2具体包括：当所述预设任务为计算任务时，创建任务资源，通过所述任务资源记录所述计算任务的运行状态；

当所述预设任务为流水线任务时，创建流水线任务资源，通过所述流水线任务资源记录流水线的运行状态。

采用上述进一步方案的有益效果是：本方案在不同预设任务的情况下，通过不同的任务资源对预设任务进行处理，实现了本方案在不同类型的AI计算/机器学习任务采用不同的元数据收集器，支持多用户、多系统、多集群，既实现了元数据收集的统一接口，也保留了元数据收集的灵活性。

进一步地，所述S3还具体包括：

当所述预设任务为流水线任务时，当所述流水线任务运行完成，解析所述流水线任务的当前元数据的识别标志，根据所述识别标志判断当前元数据是否为已经创建实例，如果没有，则创建所述当前元数据的实例，并保存到所述流水线任务对应的数据库中。

采用上述进一步方案的有益效果是：本方案通过流水线任的处理，实现了AI计算过程中元数据的自动化收集，持久化存储，自动化分析，且通过流水线任务，可以处理在一个环境下、包括多个执行操作、多个中间产物的复杂任务。

进一步地，所述方法还包括：

响应前端平台的可视化请求，从所述数据库中获取所述预设任务的元数据；

根据所述元数据类型创建对应的可视化资源，通过所述可视化资源创建所述预设任务的元数据的可视化页面，将所述可视化页面的链接返回给前端平台；

前端平台对所述可视化页面进行显示。

采用上述进一步方案的有益效果是：本方案通过前端平台的可视化请求，根据需要可视化的元数据创建对应的可视化资源，通过前端平台对可视化数据进行显示，从而实现元数据可视化展示。

本发明解决上述技术问题的另一种技术方案如下：

一种AI元数据的综合处理系统，包括：元数据收集器，记录模块和实例化模块；

所述元数据收集器用于监听并收集预设任务运行过程的元数据，其中，所述元数据包括：所述预设任务在运行过程中的任一步骤的产出物、所述预设任务在运行过程中的任一步骤的子任务和所述预设任务的数据，所述元数据还包括：所述产出物与所述子任务的依赖关系；

所述记录模块用于记录所述预设任务运行过程的元数据的运行状态；

所述实例化模块用于将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存所述预设任务的数据库中。

进一步地，所述元数据收集器具体用于根据已创建的不同类型的预设任务；

进一步地，所述记录模块具体用于当所述预设任务为计算任务时，创建任务资源，通过所述任务资源记录所述计算任务的运行状态；

进一步地，所述实例化模块还用于当所述预设任务为流水线任务时，当所述流水线任务运行完成，解析所述流水线任务的当前元数据的识别标志，根据所述识别标志判断当前元数据是否为已经创建实例，如果没有，则创建所述当前元数据的实例，并保存到所述流水线任务对应的数据库中。

进一步地，所述系统还包括：可视化模块，用于响应前端平台的可视化请求，从所述数据库中获取所述预设任务的元数据；

前端平台对所述可视化页面进行显示。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明的实施例提供的一种AI元数据的综合处理方法的流程示意图；

图2为本发明的其他实施例提供的元数据产出物示意图；

图3为本发明的其他实施例提供的产物溯源示意图；

图4为本发明的其他实施例提供的计算任务的数据内容示意图；

图5为本发明的其他实施例提供的产出物与子任务的依赖关系的示意图；

图6为本发明的其他实施例提供的元数据处理的流程示意图；

图7为本发明的其他实施例提供的元数据收集器的工作原理示意图；

图8为本发明的其他实施例提供的可视化界面示意图；

图9为本发明的实施例提供的一种AI元数据的综合处理系统的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例提供的一种AI(Artificial Intelligence,人工智能)元数据的综合处理方法，该方法包括：S1，监听并收集预设任务运行过程的元数据，其中，元数据包括：预设任务在运行过程中的任一步骤的产出物、预设任务在运行过程中的任一步骤的子任务和预设任务的数据，元数据还包括：产出物与子任务的依赖关系；

需要说明的是，在某一些实例中，预设任务在运行过程中的任一步骤的产出物可以包括：产出物的各种属性，例如名称、描述和存储路径等，其中属性示意如图2所示；并对产物进行溯源，即产出物是由哪个执行步骤产生的，又输入到了哪个执行步骤中去，产出物类型可以包括：数据集、文档、源码、可视化、服务端点、模型、特征等，其中溯源示意如图3所示，在产物示例图中，执行和产物在实际应用的过程中，为了方便区分二者通常采用不同的颜色表示，每个方框简略展示了产物或执行的名称、属性等信息。该示例展示了tips-prediction这个产物的来龙去脉。产物tip-prediction是由产物data-transformation和产物schema经过执行model-training处理后得到，会被输入到4个不同的执行中，得到4个不同的输出产物。

预设任务的数据可以包括：计算任务的各种属性，例如名称、开始时间、结束时间、输入产物、输出产物等，计算任务的数据的类型可以包括：数据摄取、数据导出、数据处理、数据检验、模型训练、模型分析、模型检验、模型评估、模型存储、负载测试等，计算任务的数据示意如图4所示。

产出物与子任务的依赖关系可以包括：上下文的类型、是否有实验、流水线和交互式界面等。其中上下文的类型可以支持进一步扩展。产出物与子任务的依赖关系示意如图5所示，，执行和产物在实际应用的过程中，为了方便区分二者通常采用不同的颜色表示，它们的依赖关系构成一个有向图，清晰地展示了数据的流向。

元数据可以包括很多种类型，每一个元数据类型都有相应的类型属性。例如，产物类型数据集的属性可以有名称、作者、描述、文件路径、创建时间等，执行类型数据处理的属性可以有名称、开始时间、结束时间、命名空间等。

S2，记录预设任务运行过程的元数据的运行状态；

在某实施例中，S2可以具体包括：当预设任务为计算任务时，创建任务资源，通过任务资源记录计算任务的运行状态；其中，计算任务可以是独立运行，读取输入数据并产生输出数据。一个计算任务对应一个执行、多个输入产物、多个输出产物。例如，模型训练是一个计算任务，它读取数据集，执行计算，并产生机器学习模型。

当预设任务为流水线任务时，创建流水线任务资源，通过流水线任务资源记录流水线的运行状态。其中流水线任务可以是由一系列计算任务组成，共同完成一个大的目标。一个机器学习流水线对应一个环境、多个执行、多个中间产物。例如，用户想从原始数据开始，最终得到一个可以直接使用的模型，需要构造一个机器学习流水线，包含获取数据、处理数据、训练模型、超参数搜索、自动建模、评估模型、部署模型等等多个计算任务，产物在这些计算任务之间像流水线一样被传递，所以叫做机器学习流水线。

S3，将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存预设任务的数据库中。

在某实施例中，可以在Kubernetes计算集群中创建了三种资源(CustomResource)，用于记录元数据的处理状态，即跟踪记录用户创建的计算任务或者机器学习流水线的状态，其中计算集群是指一组计算机连接起来高度紧密地协作完成计算工作，与单个计算机相比计算速度和可靠性大大增加。元数据服务器和元数据收集器都运行在计算集群中，由集群管理系统，例如Kubernetes，进行管理；

三种资源可以包括：任务资源，用于记录一个计算任务和对应的产物、执行。

当用户创建一个计算任务时，我们创建一个对应的任务资源，记录计算任务是否运行完毕，相关的产物、执行是否已存储到数据库中。

流水线资源，用于记录一个机器学习流水线和对应的上下文依赖关系。

当用户创建一个机器学习流水线时，我们创建一个对应的流水线资源，记录机器学习流水线是否运行完毕，相关的产物、执行、环境是否已存储到数据库中。

可视化资源。用于记录产物可视化页面的相关参数，其中相关参数可以是产物的存储方式，让我们能够取得并展示这个产物。例如，如果产物在一个硬盘上，我们需要知道硬盘的名称和产物的路径。如果产物在一个云存储服务上，我们需要知道链接和账号密码。

元数据收集器基于待收集元数据的任务来创建各个资源，通过各个资源去记录，相当于记录器，用于保存元数据状态，而元数据收集器是用来执行这些惭怍。

在另一实施例中，元数据收集方式，还可以包括：Google的Kubeflow和TFX。Kubeflow和TFX要求用户用规定的领域特定语言(Python)以及库(Python library)来编写机器学习流水线，Kubeflow利用编译工具将领域特定语言(Python)预先翻译为云计算集群能够理解的语言进行部署，然后从集群中找到创建好的计算任务，根据规定的结构解析计算任务相关的元数据，并存储到数据库中，TFX要求用户在编写机器学习流水线时预先明确指定每个计算任务的相关属性，包括任务类型、输入数据、输出数据等，计算任务运行的同时TFX会将这些属性作为元数据存储到数据库。

本方案通过对元数据的综合处理，使得AI平台中的各种计算任务和产出物得到了有效管理，实现了AI计算过程中元数据的自动化收集，持久化存储；并且支持各种大规模分布式集群和各种AI计算过程，实现了便于理解复杂计算的过程和计算性质，并且达到追踪和管理这些复杂计算过程的重要数据。通过本方案对用户的侵入性小，由于本方案中的元数据收集器处在第三方的视角通过侧面观察获取所有资源的状态和信息，能够自动化、智能化地发现这些计算任务和产出物，而收集过程仅要求用户在原有代码的基础上添加必要的辅助信息。

优选地，在上述任意实施例中，S1具体包括：

根据已创建的不同类型的预设任务；

根据预设任务的类型、用户的使用的创建平台和通过解析任务获得的辅助信息来建立不同的元数据收集器；其中辅助信息可以表示为提前规定好的格式，用于展示每一项计算任务的输入数据和输出数据的名称、数据类型等，根据这些信息元数据收集器就可以完成自动化、智能化地完成后续收集、存储、展示元数据的所有工作。

通过已经建立的元数据收集器监听并收集预设任务运行过程的元数据。

本方案通过根据不同类型的预设任务、创建平台的类型和通过解析任务获得的辅助信息来建立不同的元数据收集器；通过元数据收集器的设计，使得本方案可以收集不同来源的元数据，也可以方便地根据用户需求创建对应的元数据收集器。

优选地，在上述任意实施例中，S2具体包括：当预设任务为计算任务时，创建任务资源，通过任务资源记录计算任务的运行状态；其中预设任务可以包括计算任务、流水线任务或者其他用户创建的任务。

在某实施例中，计算任务的元数据记录可以包括：当用户创建一个单独的AI/机器学习计算任务时，如图7所示，元数据收集器监听到计算任务的创建事件，并且使用集群或者外部功能记录该计算任务的运行状态。当计算任务运行完成时，元数据收集器监听到计算任务的结束事件，从计算任务的定义中解析计算任务的执行类型以及计算任务的输入输出数据对应的产物类型，在数据库中创建执行实例和产物实例，并在在数据库中进行记录，在集群中修改对应的任务资源，标记该计算任务已完成运行和元数据收集。

当预设任务为流水线任务时，创建流水线任务资源，通过流水线任务资源记录流水线的运行状态。

在某实施例中，流水线任务的元数据记录可以包括：当用户创建包含一系列计算任务的机器学习流水线时，如图7所示，元数据收集器监听到机器学习流水线的创建事件，在集群中创建流水线资源，记录该流水线的运行状态。当机器学习流水线运行完成时，元数据收集器监听到机器学习流水线的结束事件，从机器学习流水线的定义中解析机器学习流水线的上下文类型、每一个计算任务的执行类型、每一个计算任务的产物类型，在数据库中创建上下文实例、执行实例、产物实例、执行与产物的依赖关系，即产物是执行的输入还是输出。需要注意的是，在另一实施例中，一个计算任务的输出产物可能是另一个甚至多个计算任务的输入产物，所以两个计算任务的产物可能有重合部分，元数据收集器从机器学习流水线的定义中解析产物的唯一键值，识别当前产物是否为已经创建的产物，保证不会重复创建产物实例。

本方案在不同预设任务的情况下，通过不同的任务资源对预设任务进行处理，实现了本方案在不同类型的AI计算/机器学习任务采用不同的元数据收集器，支持多用户、多系统、多集群，既实现了元数据收集的统一接口，也保留了元数据收集的灵活性。

优选地，在上述任意实施例中，S3还具体包括：

当预设任务为流水线任务时，当流水线任务运行完成，解析流水线任务的当前元数据的识别标志，根据识别标志判断当前元数据是否为已经创建实例，如果没有，则创建当前元数据的实例，并保存到流水线任务对应的数据库中。

本方案通过流水线任的处理，实现了AI计算过程中元数据的自动化收集，持久化存储，自动化分析，且通过流水线任务，可以处理在一个环境下、包括多个执行操作、多个中间产物的复杂任务。

优选地，在上述任意实施例中，该方法还包括：

响应前端平台的可视化请求，从数据库中获取预设任务的元数据；

根据元数据类型创建对应的可视化资源，通过可视化资源创建预设任务的元数据的可视化页面，将可视化页面的链接返回给前端平台；

前端平台对可视化页面进行显示。

在某实施例中，可视化可以包括：一个元数据服务器负责响应前端网页的请求，如图6所示，它可以从关系型数据库中取得元数据，也可以在用户想要查看产物详情时，根据产物类型在集群中创建对应的可视化资源，以便产物可视化控制器创建可视化页面，并将页面链接返回给前端，其中，产物可视化控制器负责监听可视化资源的创建，并创建对应的可视化页面可视化界面如图8所示，元数据服务器与元数据收集器都是可以在计算集群中运行的程序/软件/代码，它们是并列的、同一级别的处理器。如图6所示，云计算集群还用于通过元数据收集器收集元数据，接收用户运行机器的学习任务，元数据收集器用于收集元数据并将元数据存储到数据库中。

本方案通过前端平台的可视化请求，根据需要可视化的元数据创建对应的可视化资源，通过前端平台对可视化数据进行显示，从而实现元数据可视化展示。

在某一实施例中，如图9所示，一种AI元数据的综合处理系统，该系统包括：元数据收集器11，记录模块12和实例化模块13；

元数据收集器11用于监听并收集预设任务运行过程的元数据，其中，元数据包括：预设任务在运行过程中的任一步骤的产出物、预设任务在运行过程中的任一步骤的子任务和预设任务的数据，元数据还包括：产出物与子任务的依赖关系；

记录模块12用于记录预设任务运行过程的元数据的运行状态；

实例化模块13用于将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存预设任务的数据库中。

优选地，在上述任意实施例中，元数据收集器11具体用于根据已创建的不同类型的预设任务；

根据预设任务的类型、用户的使用的创建平台和通过解析任务获得的辅助信息来建立不同的元数据收集器；

优选地，在上述任意实施例中，记录模块12具体用于当预设任务为计算任务时，创建任务资源，通过任务资源记录计算任务的运行状态；

优选地，在上述任意实施例中，实例化模块13还用于当预设任务为流水线任务时，当流水线任务运行完成，解析流水线任务的当前元数据的识别标志，根据识别标志判断当前元数据是否为已经创建实例，如果没有，则创建当前元数据的实例，并保存到流水线任务对应的数据库中。

优选地，在上述任意实施例中，系统还包括：可视化模块，用于响应前端平台的可视化请求，从数据库中获取预设任务的元数据；

前端平台对可视化页面进行显示。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是，上述各实施例是与在先方法实施例对应的产品实施例，对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种AI元数据的综合处理方法，其特征在于，包括：

S1，监听并收集预设任务运行过程的元数据，其中，所述元数据包括：所述预设任务在运行过程中的任一步骤的产出物、所述预设任务在运行过程中的任一步骤的子任务和所述预设任务的数据，所述元数据还包括：所述产出物与所述子任务的依赖关系；

S2，记录所述预设任务运行过程的元数据的运行状态；

S3，将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存所述预设任务的数据库中；

其中，所述S1具体包括：

根据已创建的不同类型的预设任务；

根据预设任务的类型、用户使用的创建平台和通过解析所述任务获得的辅助信息来建立不同的元数据收集器；

通过已经建立的所述元数据收集器监听并收集预设任务运行过程的元数据；

所述S2具体包括：当所述预设任务为计算任务时，创建任务资源，通过所述任务资源记录所述计算任务的运行状态；

当所述预设任务为流水线任务时，创建流水线任务资源，通过所述流水线任务资源记录流水线的运行状态；

所述S3还具体包括：

2.根据权利要求1所述的一种AI元数据的综合处理方法，其特征在于，所述方法还包括：

前端平台对所述可视化页面进行显示。

3.一种AI元数据的综合处理系统，其特征在于，包括：元数据收集器，记录模块和实例化模块；

所述实例化模块用于将采集到的包括运行状态的元数据进行实例化处理并存储到对应保存所述预设任务的数据库中；

其中，所述元数据收集器具体用于根据已创建的不同类型的预设任务；

所述记录模块具体用于当所述预设任务为计算任务时，创建任务资源，通过所述任务资源记录所述计算任务的运行状态；

所述实例化模块还用于当所述预设任务为流水线任务时，当所述流水线任务运行完成，解析所述流水线任务的当前元数据的识别标志，根据所述识别标志判断当前元数据是否为已经创建实例，如果没有，则创建所述当前元数据的实例，并保存到所述流水线任务对应的数据库中。

4.根据权利要求3所述的一种AI元数据的综合处理系统，其特征在于，所述系统还包括：可视化模块，用于响应前端平台的可视化请求，从所述数据库中获取所述预设任务的元数据；

前端平台对所述可视化页面进行显示。