CN109993316B

CN109993316B - 执行机器学习流程的方法及系统

Info

Publication number: CN109993316B
Application number: CN201910283460.2A
Authority: CN
Inventors: 栾淑君; 杨慧斌; 孙迪
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2023-08-29
Anticipated expiration: 2036-12-06
Also published as: CN106779088A; CN109993316A; CN106779088B

Abstract

提供了一种执行机器学习流程的方法及系统，所述方法包括：(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及(C)在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。相应地，能够花费较少资源和时间而有效地得到机器学习流程中各个阶段的数据属性信息，从而改善机器学习工具的可操作性。

Description

执行机器学习流程的方法及系统

本申请是申请日为2016年12月6日、申请号为201611113470.4、题为“执行机器学习流程的方法及系统”的专利申请的分案申请。

技术领域

本发明总体说来涉及人工智能领域，更具体地说，涉及一种执行机器学习流程的方法及系统。

背景技术

随着海量数据的出现，人工智能技术得到了迅速发展，其中，机器学习技术普遍被用于从海量的数据记录(例如，金融数据、互联网数据等)中挖掘出有益的价值，

然而，人工智能技术应用的一大难题在于缺少有效易用的机器学习工具，很多现有的机器学习平台都仅面向精通机器学习技术的使用者，并且，由于机器学习往往所针对的是海量复杂数据和复杂数据运算，因此，即便是精通机器学习技术的使用者也难以有效地操作目前的机器学习工具。实际上，要想培养出精通机器学习的技术专家，需要花费大量的时间和精力，这使得人工智能技术的应用存在较高的人才门槛。另一方面，机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等都有关系，例如，在确定特征提取方式的过程中，往往不仅需要掌握机器学习的技术知识，还需要对实际预测问题有深入的理解，而预测问题往往结合着不同行业的不同实践经验，导致很难仅依靠技术专家来达到满意的机器学习效果。可以看出，机器学习工具需要在操作性上有所改进，以帮助不同用户更好地执行机器学习流程。

作为示例，Azure Machine Learning(简称“AML”)是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务，该产品的目标是简化使用机器学习的过程，以便于开发人员、业务分析师和数据科学家进行广泛、便捷地应用。

在AML中，用户可通过DAG(有向无环图)来完成机器学习流程中各个机器学习任务(例如，数据导入、数据格式转换、数据变换、特征抽取、模型训练等)的配置，其中，在用户选择运行DAG中的特定顶点之后，该顶点所代表的机器学习任务将被执行，并且，作为执行结果而得到的数据的字段名称被显示在屏幕上。

具体说来，参照图1A，在AML中建立的机器学习流程可包括诸如成人调查收入表的导入(Adult Census Income Binary)、选择数据集中的列(Select Columns in Dataset)和清理丢失数据(Clean Missing Data)等机器学习任务，其中，在完成了对“选择数据集中的列”的配置之后，可开始配置下游机器学习任务“清理丢失数据”。

然而，如图1B中所示，由于之前的“选择数据集中的列”这一任务没有执行，所以无法按照字段名称来配置“清理丢失数据”，相应地，在屏幕上显示了提醒消息“将在执行实验之后启用基于名称的列选择(Name-based column selection will be enabled afterrunning the experiment)”。

在图1C中，可以看出，通过点击屏幕下方的“RUN”而实际执行了机器学习任务“选择数据集中的列”。相应地，在图1D中，下游机器学习任务“清理丢失数据”变得能够基于名称来进行相应的配置。

可以看出，在AML中，在配置机器学习流程的过程中，用户无法预先了解到任何关于经过各个机器学习任务处理后所得到的数据字段的信息，只有在相应机器学习任务被实际执行之后，才能知晓结果数据的字段名称。然而，由于机器学习过程常常涉及海量数据，执行机器学习任务将花费大量的时间和计算资源，这使得无法及时有效地获取或利用各阶段的数据属性信息。

发明内容

本发明的示例性实施例旨在克服现有技术中在执行机器学习流程时无法及时有效地获取数据属性信息的缺陷。

根据本发明的示例性实施例，提供一种执行机器学习流程的方法，包括：(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及(C)在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

可选地，所述方法还包括：(D)向用户展示在步骤(C)推断出的数据属性信息。

可选地，在所述方法中，在步骤(C)中，推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

可选地，所述方法还包括：(E)向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面并检测用户通过所述图形界面执行的输入操作；(F)根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；(G)基于在步骤(C)推断出的数据属性信息来检验所述下游机器学习任务的配置。

可选地，在所述方法中，在步骤(E)中，在图形界面中向用户展示在步骤(C)推断出的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

可选地，在所述方法中，响应于所述机器学习任务的配置结束来自动执行步骤(C)，或者，响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动执行步骤(C)，或者，响应于用户的推断指示来执行步骤(C)。

可选地，在所述方法中，机器学习任务被实现为有向无环图中的可配置顶点，其中，响应于所述机器学习任务的配置结束来自动执行步骤(C)，并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时自动执行步骤(D)。

可选地，所述方法还包括：(H)根据用户的执行指示来执行一个或多个配置的机器学习任务。

可选地，在所述方法中，在步骤(C)中，通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

根据本发明的另一示例性实施例，提供一种执行机器学习流程的系统，包括：显示装置，用于向用户展示用于配置机器学习任务的图形界面，其中，机器学习任务用于执行机器学习流程所包括的数据处理；检测装置，用于检测用户通过图形界面执行的输入操作；配置装置，用于根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及推断装置，用于在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

可选地，在所述系统中，显示装置还向用户展示由推断装置所推断出的数据属性信息。

可选地，在所述系统中，推断装置推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

可选地，在所述系统中，显示装置还向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面；检测装置还检测用户通过所述图形界面执行的输入操作；配置装置根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；并且，配置装置基于由推断装置所推断出的与所述机器学习任务有关的数据属性信息来检验所述下游机器学习任务的配置。

可选地，在所述系统中，显示装置在图形界面中向用户展示由推断装置所推断出的与所述机器学习任务有关的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

可选地，在所述系统中，推断装置响应于所述机器学习任务的配置结束来自动推断与所述机器学习任务有关的数据属性信息，或者，推断装置响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动推断与所述机器学习任务有关的数据属性信息，或者，推断装置响应于用户的推断指示来推断与所述机器学习任务有关的数据属性信息。

可选地，在所述系统中，机器学习任务被实现为有向无环图中的可配置顶点，其中，推断装置响应于所述机器学习任务的配置结束来自动推断与所述机器学习任务有关的数据属性信息，并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时，显示装置自动向用户展示由推断装置推断出的与所述机器学习任务有关的数据属性信息。

可选地，所述系统还包括：执行装置，用于根据用户的执行指示来执行一个或多个配置的机器学习任务。

可选地，在所述系统中，配置装置通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

根据本发明的另一示例性实施例，提供一种用于执行机器学习流程的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下步骤的计算机程序：(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及(C)在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

可选地，在所述计算机可读介质中，所述计算机程序还用于执行步骤(D)：向用户展示在步骤(C)推断出的数据属性信息。

可选地，在所述计算机可读介质中，在步骤(C)中，推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

可选地，在所述计算机可读介质中，所述计算机程序还用于执行以下步骤：(E)向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面并检测用户通过所述图形界面执行的输入操作；(F)根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；(G)基于在步骤(C)推断出的数据属性信息来检验所述下游机器学习任务的配置。

可选地，在所述计算机可读介质中，在步骤(E)中，在图形界面中向用户展示在步骤(C)推断出的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

可选地，在所述计算机可读介质中，响应于所述机器学习任务的配置结束来自动执行步骤(C)，或者，响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动执行步骤(C)，或者，响应于用户的推断指示来执行步骤(C)。

可选地，在所述计算机可读介质中，机器学习任务被实现为有向无环图中的可配置顶点，其中，响应于所述机器学习任务的配置结束来自动执行步骤(C)，并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时自动执行步骤(D)。

可选地，在所述计算机可读介质中，所述计算机程序还用于执行步骤(H)：根据用户的执行指示来执行一个或多个配置的机器学习任务。

可选地，在所述计算机可读介质中，在步骤(C)中，通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

根据本发明的另一示例性实施例，提供一种执行机器学习流程的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及(C)在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

可选地，在所述计算装置中，当所述计算机可执行指令集合被所述处理器执行时，还执行步骤(D)：向用户展示在步骤(C)推断出的数据属性信息。

可选地，在所述计算装置中，在步骤(C)中，推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

可选地，在所述计算装置中，当所述计算机可执行指令集合被所述处理器执行时，还执行以下步骤：(E)向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面并检测用户通过所述图形界面执行的输入操作；(F)根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；(G)基于在步骤(C)推断出的数据属性信息来检验所述下游机器学习任务的配置。

可选地，在所述计算装置中，在步骤(E)中，在图形界面中向用户展示在步骤(C)推断出的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

可选地，在所述计算装置中，响应于所述机器学习任务的配置结束来自动执行步骤(C)，或者，响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动执行步骤(C)，或者，响应于用户的推断指示来执行步骤(C)。

可选地，在所述计算装置中，机器学习任务被实现为有向无环图中的可配置顶点，其中，响应于所述机器学习任务的配置结束来自动执行步骤(C)，并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时自动执行步骤(D)。

可选地，在所述计算装置中，当所述计算机可执行指令集合被所述处理器执行时，还执行步骤(H)：根据用户的执行指示来执行一个或多个配置的机器学习任务。

可选地，在所述计算装置中，在步骤(C)中，通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

在根据本发明示例性实施例的执行机器学习流程的方法和系统中，可在不执行已经配置的机器学习任务的情况下，推断出与该机器学习任务有关的数据属性信息，使得能够花费较少资源和时间而有效地得到机器学习流程中各个阶段的数据属性信息，从而改善机器学习工具的可操作性。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1A到图1D示出现有技术的机器学习平台中执行机器学习流程的界面的示例；

图2示出根据本发明示例性实施例的执行机器学习流程的系统的框图；

图3示出根据本发明另一示例性实施例的执行机器学习流程的系统的框图；

图4示出根据本发明示例性实施例的执行机器学习流程的方法的流程图；

图5示出根据本发明另一示例性实施例的执行机器学习流程的方法的流程图；

图6示出根据本发明另一示例性实施例的执行机器学习流程的方法的流程图；以及

图7A到图7F示出根据本发明示例性实施例的机器学习平台中执行机器学习流程的界面的示例。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。

在本发明的示例性实施例中，通过以下方式来执行机器学习流程：在配置好机器学习流程中涉及的特定机器学习任务之后，推断与该特定机器学习任务有关的数据属性信息，使得可在不执行该特定机器学习任务的情况下，花费较少计算资源和时间而预先得到机器学习流程中经过各个处理环节后更新的数据属性信息，以便在后续利用这些数据属性信息，从而增强机器学习的易操作性。

这里，机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，这里，每条数据记录可被看做关于一个事件或对象的描述，对应于一个示例或样例。在数据记录中，包括反映事件或对象在某方面的表现或性质的各个事项，这些事项可称为“属性”。通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本发明对具体的机器学习算法并不进行特定限制。此外，还应注意，在训练和应用模型的过程中，还可结合统计算法等其他手段。

图2示出根据本发明示例性实施例的执行机器学习流程的系统的框图。具体说来，所述系统可以是基于C/S(客户端/服务器)架构、B/S(浏览器/服务器)架构或单机运行的机器学习平台，该机器学习平台可包括机器学习模型的训练、测试和/或应用等各种机器学习流程。上述流程所要处理的数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的信息，例如，身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者，这些数据也可涉及业务相关项目的信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意，本发明的示例性实施例中提到的数据属性信息可涉及任何对象或事务在某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。

这些数据可来源于期望执行机器学习流程的实体内部，例如，来源于期望获取机器学习结果的银行、企业、学校等；这些数据也可来源于上述实体以外，例如，来源于数据提供商、互联网(例如，社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地，上述内部数据和外部数据可组合使用，以形成携带更多信息的机器学习样本。

在根据本发明示例性实施例的系统中，可通过图形化的方式来配置机器学习流程(该机器学习流程由一个或多个机器学习任务所组成)，并且，可在不实际执行配置好的机器学习任务的情况下，有效地得到相关的数据属性信息。图2所示的系统可全部通过计算机程序以软件方式来实现，也可由专门的硬件装置来实现，还可通过软硬件结合的方式来实现。相应地，组成图2所示的系统的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块，也可以是依靠硬件结构来实现所述功能的通用或专用器件，还可以是运行有相应计算机程序的硬件装置等。

如图2所示，显示装置100用于向用户展示用于配置机器学习任务的图形界面，其中，机器学习任务用于执行机器学习流程所包括的数据处理。具体说来，机器学习流程可由一个或多个可执行的机器学习任务组成，这些机器学习任务可执行诸如数据拆分、特征提取、特征重要性分析、模型训练、模型预测、模型评估等数据处理。从执行顺序和/或数据流向上来看，各个机器学习任务之间的相对关系可表述为上游机器学习任务和下游机器学习任务，通常说来，下游机器学习任务位于上游机器学习任务之后，并且，上游机器学习任务的至少部分输出数据可作为下游机器学习任务的至少部分输入数据。此外，从实现方式上看，这些机器学习任务可以是用户能够通过选择操作来完成配置的可执行任务，也可以是用户能够利用SQL(结构化查询语言)或PySpark(Spark Python API)进行编写的可执行任务。

在显示装置100显示的图形界面中，可包括用于配置机器学习任务的各种元素，这样，通过检测用户在所述图形界面上执行的输入操作，即可相应地配置有关的机器学习任务。

检测装置200用于检测用户通过图形界面执行的输入操作。这里，用户可通过诸如鼠标、键盘、手势、触摸、语音、动作等各种方式来执行输入操作，相应地，检测装置200可通过相应的感测手段来检测到用户针对图形界面所执行的各种输入操作。

作为示例，显示装置100可以是具有触摸功能的显示屏，在这种情况下，检测装置200可集成在显示装置100中，相应地，用户可通过在显示的图形界面上执行触摸操作来完成机器学习任务的配置。

配置装置300用于根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务。具体说来，检测装置200可将检测到的用户输入操作传送给配置装置300，相应地，配置装置300可确定这些输入操作的含义，并根据确定结果来完成机器学习任务的配置，例如，机器学习任务的输入数据、执行参数、输出结果显示等。

推断装置400用于在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

具体说来，推断装置400不需要实际执行配置好的机器学习任务，即，不需要按照配置的执行参数，通过相应的执行指令来实际处理所配置的输入数据，而是仅预先推断出与配置好的机器学习任务有关的数据属性信息。这里，数据属性信息可以是关于相关数据属性的任何信息，例如，可以是属性字段的名称，或者，可以是属性字段的数据类型，或者，还可以同时包括字段名称和数据类型两者。

这里，推断装置400可在任何适当的时机或触发下开始进行推断操作。作为示例，为了提高操作的便利性，推断装置400可在适当的时机自动地执行推断操作，例如，推断装置400可响应于所述机器学习任务的配置结束来自动推断与所述机器学习任务有关的数据属性信息，或者，推断装置400可响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动推断与所述机器学习任务有关的数据属性信息。然而，应理解，本发明并非受限于此，作为可选方式，推断装置400可响应于用户的推断指示来推断与所述机器学习任务有关的数据属性信息。

例如，在当前机器学习任务的配置结束(例如，用户点击了确认当前机器学习任务的配置完成的按钮并相应地完成了机器学习任务的实际配置)时，推断装置400可自动执行推断操作；或者，当紧接在当前机器学习任务之后的下一机器学习任务的配置开始(例如，用户新建了下游机器学习任务)时，推断装置400可自动执行针对所述当前机器学习任务的推断操作。或者，当用户手动作出推断指示(例如，用户点击了专门设置的启动推断操作的按钮)时，推断装置400可相应地执行推断操作。

此外，根据本发明的示例性实施例，推断装置400可推断出与机器学习任务有关的各种数据属性信息，作为示例，这些数据属性信息可涉及机器学习任务的处理数据(例如，输入数据、输出数据或中间处理数据)，也就是说，推断装置400可将所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息推断为与所述机器学习任务有关的数据属性信息。此外，数据属性信息也可以涉及其他任何与机器学习任务有关的数据，也就是说，在机器学习任务被配置的情况下，能够由推断装置40根据机器学习任务的配置或响应于机器学习任务被配置而推断出的任何相关数据属性信息均可应用于本发明的示例性实施例。

根据本发明的示例性实施例，除了按照预先的设置来直接推断相应的数据属性信息之外，还可根据各种机器学习任务各自的特性或在整个机器学习流程中的位置，灵活地设置不同的推断机制。作为示例，推断装置40可根据机器学习任务的类型来相应地推断出有关的数据属性信息。也就是说，从整个机器学习流程来看，针对不同类型的机器学习任务，可按照不同的机制来推断相应的数据属性信息，以便从不同的角度增强系统的易操作性。

例如，推断装置400可根据所述机器学习任务的类型，选择性地将所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息推断为与所述机器学习任务有关的数据属性信息。

作为示例，对于某些机器学习任务而言，其输出的每条数据记录的各个属性字段中可能只有一部分将按照原有的格式来参与后续的机器学习处理，为此，下游机器学习任务会需要从作为上游机器学习任务的所述某些机器学习任务所输出的数据记录的所有字段中选取一部分。在这种情况下，推断装置400可根据当前机器学习任务的配置推断出其输出数据的全部数据属性信息(例如，各个字段名称和/或数据类型)，以便预先展示给用户，使得用户能够有效地从中选择一部分数据属性字段参与下游机器学习任务；或者，用户可在不参照任何展示的数据字段的情况下通过编写代码等方式来选择一部分数据属性字段，在这种情况下，推断出的属性信息还可用于检验下游机器学习任务的配置(即，选择数据属性字段的代码)是否符合规范。

然而，应理解：上述示例并非用于限制本发明示例性示例的范围，本领域技术人员可根据应用的场景来灵活地设置推断哪些数据的数据属性信息，例如，如果当前机器学习任务对输入数据的处理不仅涉及字段的筛选，还涉及格式的转换(例如，转换为key-value(键值对)格式)，在这种情况下，由于key-value格式可读性差，而用户在配置下游机器学习任务时会希望能够观察到筛选字段的原始格式，为此，推断装置400可根据当前机器学习任务的配置推断出其中间处理数据的数据属性信息，即，原始格式下的筛选字段的名称和/或数据类型。

同样地，根据需要，推断装置400还可根据当前机器学习任务的类型推断出其输入数据的数据属性信息，以用于后续的机器学习任务。

此外，在执行推断操作时，推断装置400可依据机器学习任务自身的配置、以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置、和/或所述上游机器学习任务与下游机器学习任务之间的关联性等来推断出相应数据的属性信息。

作为示例，推断装置400可采用原封不动的透传方式将与先前的机器学习任务(例如，上一机器学习任务)相应的数据属性信息直接作为当前机器学习任务的数据属性信息。

此外，推断装置400可通过解释机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。这里，推断装置400可采用单一的指令解释或抽样数据运行的方式来推断出数据属性信息，也可根据指令的复杂程度来动态地选择上述两种推断方式之中的适合方式。

根据本发明的示例性实施例，由推断装置400所推断出的数据属性信息旨在提高机器学习过程的可操作性。

例如，显示装置100可还向用户展示由推断装置400所推断出的数据属性信息，相应地，用户可通过展示的数据属性信息来了解机器学习流程的各阶段运行情况或者从展示的数据属性信息中选择下游机器学习任务的输入数据。

如上所述，本领域技术人员可按照适当的方式来设置推断操作所产生的内容以及执行推断操作的时机，并将推断出的内容进行展示。以按照有向无环图来配置机器学习流程的情况作为示例，其中，机器学习任务可被实现为有向无环图中的可配置顶点，相应地，推断装置400可响应于所述机器学习任务的配置结束来自动推断与所述机器学习任务有关的数据属性信息，并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时，显示装置100可自动向用户展示由推断装置400推断出的与所述机器学习任务有关的数据属性信息。

此外，作为另一示例，所推断出的数据属性信息还可用于检验下游机器学习任务的配置。具体说来，显示装置100可还向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面，相应地，检测装置200还检测用户通过上述图形界面执行的输入操作，并且，配置装置300根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；在这种情况下，配置装置300可基于由推断装置400之前所推断出的与上游机器学习任务有关的数据属性信息来检验所述下游机器学习任务的配置。在该示例中可以看出，由于机器学习流程是多个机器学习任务相互连接而成的，因此，需要依次配置各个机器学习任务，这里，配置各个机器学习任务的图形界面可以相同或不同，典型地，图形界面所包括的元素可大致相同，并且，部分元素可根据不同机器学习任务各自的特点而进行调整。在这种情况下，之前推断出的上游机器学习任务的数据属性信息可用于检验下游机器学习任务的配置，例如，可检验用户在配置下游机器学习任务时编写的代码中是否输入了正确的数据字段名称、是否使用了正确的数据类型等。在上述示例中，作为优选方式，显示装置100还可在图形界面中向用户展示由推断装置400之前所推断出的与上游机器学习任务有关的数据属性信息，使得用户可参考展示的数据属性信息来编写下游机器学习任务的配置项。也就是说，推断出的上游机器学习任务的数据属性信息既可用作用户配置下游机器学习任务时的参照内容，也可用作检验下游机器学习任务的配置的基础。

图3示出根据本发明另一示例性实施例的执行机器学习流程的系统的框图。在图3所示的系统中，除了上述显示装置100、检测装置200、配置装置300和推断装置400之外，还包括执行装置500。

具体说来，在图3所示的系统中，显示装置100、检测装置200、配置装置300和推断装置400可按照在图2所示的系统中的方式进行操作。此外，执行装置500可根据用户的执行指示来执行一个或多个配置的机器学习任务。

这里，执行装置500可用于执行整个机器学习流程，或其中的一个或多个机器学习任务。具体说来，当用户针对特定的一个或多个配置好的机器学习任务作出执行指示(例如，按下执行按钮)时，执行装置500可执行所述一个或多个配置好的机器学习任务；而当用户针对配置好的整个机器学习流程作出执行指示(例如，按下执行按钮)时，执行装置500可执行整个机器学习流程。

应理解，上述装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的单元或模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

以下参照图4来描述根据本发明示例性实施例的执行机器学习流程的方法的流程图。这里，作为示例，图4所示的方法可由图2所示的系统来执行，也可完全通过计算机程序以软件方式实现，还可通过特定配置的计算装置来执行图4所示的方法。为了描述方便，假设图4所示的方法由图2所示的系统来执行。

这里，机器学习过程可基于采集的数据来执行，其中，数据采集(或导入)的操作可在机器学习流程之外被预先执行，也可作为机器学习流程中的第一个机器学习任务而执行。

这里，作为示例，可通过手动、半自动或全自动的方式来采集数据，或对采集的原始数据进行处理，使得处理后的数据记录具有适当的格式或形式。作为示例，可批量地采集数据。这里，可通过输入装置(例如，工作站)接收用户手动输入的数据记录。此外，可通过全自动的方式从数据源系统地取出数据记录，例如，通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式，其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下，可在没有人工干预的情况下自动进行数据采集，但应注意，在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了例如定时器机制。在这种情况下，在接收到特定的用户输入的情况下，才产生提取数据的请求。每次获取数据时，优选地，可将捕获的数据存储在非易失性存储器中。作为示例，可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。

可从相同或不同的数据源来采集数据，例如，除了采集客户向银行申请开通信用卡时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)之外，作为示例，可还采集该客户在该银行的其他数据记录，例如，贷款记录、日常交易数据等，这些采集的数据记录可在后续被拼接为完整的数据记录。此外，还可采集来源于其他私有源或公共源的数据，例如，来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。

可选地，可借助硬件集群(诸如Hadoop集群、Spark集群等)对采集到的数据进行存储和/或处理，例如，存储、分类和其他离线操作。此外，也可对采集的数据进行在线的流处理。

作为示例，可将文本等非结构化数据转换为更易于使用的结构化数据以在后续进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、交易报告等。

这样，采集的各种数据可选择性地被配置为机器学习任务的输入数据。

参照图4，在步骤S100中，由显示装置100向用户展示用于配置机器学习任务的图形界面，并由检测装置200检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理。作为示例，这里的机器学习任务可包括数据拆分、特征提取、特征重要性分析、模型训练、模型预测、模型评估等数据处理。

根据本发明的示例性实施例，显示装置100可响应于用户的指示来展示用于配制机器学习任务的图形界面。作为示例，显示装置100可响应于用户期望建立机器学习流程的指示而展示用于配置各个机器学习任务的统一图形界面，在该界面中，可显示有用于配置机器学习任务的相关区域，例如，用于罗列所有可配置机器学习任务的区域、用于展示当前配置完毕的机器学习流程的区域、用于配置当前机器学习任务的区域等，这里，当用户选择配置特定机器学习任务时，界面上的某些元素会相应地改变，例如，涉及该特定机器学习任务的具体配置项的相关元素会在内容或显示形式上有所变化。这里，应理解，显示装置100展示图形界面的方式并不受限于上述示例，例如，显示装置100可响应于用户期望配置机器学习任务的指示而分别展示与各机器学习任务相应的图形界面。

作为示例，显示装置100向用户展示的图形界面可以是用于主要通过选择操作来完成机器学习任务配置的输入选择型界面，或者，所述图像界面也可以是能够直接输入代码或脚本的文本编辑界面。上述两种图形界面可以互相切换。

在步骤S100中，还可由检测装置200来检测用户在图形界面上执行的选择操作、确认操作和文本输入操作(例如，代码编写操作)等各种输入操作。这里，检测装置200可结合相应的传感器装置来检测用户针对图形界面所输入的各种形式的操作，例如，语音、姿势、动作、触摸、键入等。

这些输入操作旨在按照用户的意图来配置机器学习流程之中的相应机器学习任务，例如，配置机器学习任务的输入数据、对输入数据执行数据处理的参数、数据处理结果的输出形式等。

接下来，在步骤S300中，由配置装置300根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务。

具体说来，由检测装置200所检测到的用户输入操作可由配置装置300转换为相应的配置指令和/或配置参数，并且，配置装置300可根据这些配置指令和/或配置参数来实际配置机器学习任务。例如，在通过有向无环图(DAG)来配置整个机器学习流程的示例中，如果检测装置200检测到用户利用连接线将新的机器学习任务连接到之前配置完毕的机器学习任务之后(其中，连接线从所述之前配置完毕的机器学习任务指向所述新的机器学习任务)，则配置装置300可根据检测到的连接线的连接对象和箭头方向将所述新的机器学习任务作为所述之前配置完毕的机器学习任务的下游机器学习任务来进行配置。配置的具体内容(例如，执行参数等)可由配置装置300根据由检测装置200所检测到的用户的进一步操作来执行。

类似地，在各种设计好的交互机制下，针对由检测装置200所检测到的具体用户输入操作，配置装置300可相应地根据检测到的输入操作来完成机器学习任务的配置。例如，如果检测装置200所检测到的是用户针对各个机器学习任务输入的数据表名称(例如，用户输入各个机器学习任务的输入数据表和输出数据表的名称)，则配置装置300可相应地根据输入数据表名称和输出数据表名称来配置上游机器学习任务与下游机器学习任务之间的连接关系，也就是说，在某个机器学习任务的输出数据表名称与另一机器学习任务的输入数据表名称一致的情况下，前者被配置为后者的上游机器学习任务，相应地，后者被配置为前者的下游机器学习任务。

根据本发明的示例性实施例，在完成机器学习任务的配置之后，并非如现有技术中一般执行所配置的机器学习任务，而是在不实际执行机器学习任务的情况下，预判出与所述机器学习任务有关的数据属性信息，并且，作为可选方式，可进一步地沿着机器学习流程的数据流向而传递所预判出的数据属性信息。

具体说来，在步骤S400中，由推断装置400在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

作为示例，在DAG形式的机器学习流程中，当配置完了当前机器学习任务时，推断装置400可自动推断出与配置好的当前机器学习任务有关的数据属性信息，例如，推断装置400可获取按照当前机器学习任务的配置，可预计的执行结果数据(即，当前机器学习任务的预计输出数据)的各个属性字段的名称和/或数据类型。此后，当用户开始配置当前机器学习任务的下游机器学习任务(例如，用户将新的机器学习任务连接到当前机器学习任务之后)时，推断装置400可将推断出的数据属性信息传递到下游机器学习任务，这部分传递来的数据属性信息可与下游机器学习任务将要实际处理的输入数据合为一体，也可以将两者分开。

作为另一示例，在DAG形式的机器学习流程中，当配置完了当前机器学习任务时，推断装置400可并不推断数据属性信息，而是当用户开始配置当前机器学习任务的下游机器学习任务时(例如，当用户将新的机器学习任务连接到当前机器学习任务之后时，或者，当用户选取了作为下游机器学习任务的新的机器学习任务并开始配置所述新的机器学习任务时)，推断装置400可自动获取按照所述当前机器学习任务的配置，可预计的执行结果数据(即，当前机器学习任务的预计输出数据)的各个属性字段的名称和/或数据类型，并在当前机器学习任务与下游机器学习任务相互连接的情况下将推断出的数据属性信息传递到下游机器学习任务。

除了根据上下游机器学习任务的配置需要来自动推断数据属性信息之外，在本发明的示例性实施例中，还可根据用户的推断指示来执行推断操作，即，可额外设置用于启动推断操作的输入手段，使得推断装置400根据用户输入的推断指示来启动推断处理。

推断装置400可采用任何适当的方式来预先推断与机器学习任务有关的数据属性信息，使得推断出的数据属性信息可有助于用户针对机器学习流程进行后续的操作。

作为示例，推断装置400可基于机器学习任务的输入数据本身来得到相关的数据属性信息。例如，推断装置400可直接将上游机器学习任务的推断数据属性信息作为下游机器学习任务的推断数据属性信息而传递给下游机器学习任务，而不考虑上游机器学习任务的实际处理过程，即，在上下游机器学习任务之间进行数据属性信息的透传。

作为另一示例，推断装置400可结合机器学习任务的实际数据处理来推断出与机器学习任务的中间处理数据和/或输出数据有关的数据属性信息。例如，推断装置400可通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

具体说来，机器学习任务作为可执行实体，其配置信息用于得出该机器学习任务的执行指令，其中，所述执行指令明确指示了机器学习任务在执行时将针对何种输入数据执行何种数据处理并输出何种输出数据等。相应地，推断装置400通过对执行指令进行语义解释则可推断出机器学习任务的中间处理数据和/或输出数据的数据属性信息，例如，输出数据的字段名称和/或数据类型、和/或格式变换前的中间处理数据的字段名称和/或数据类型。

除了解释指令的方式之外，推断装置400还可通过对少量抽样数据实际执行配置好的执行指令来推断出机器学习任务的中间处理数据和/或输出数据的数据属性信息。这里，推断装置400可不执行任何指令解释的处理，而是从待处理的输入数据中抽取出少量的数据，并对抽取的数据执行实际处理。相应的处理结果可用于反映机器学习任务的中间处理数据和/或输出数据，这些数据的数据属性信息即可作为推断出的数据属性信息。

应注意，各种推断数据属性信息的方式还可结合使用，即，推断装置400可根据预先的设置或机器学习任务的类型来选择性地采取不同的推断方式。

如上所述，根据本发明的示例性实施例，可在不实际执行配置的机器学习任务的情况下，预先得到与所述机器学习相关的数据属性信息，这些数据属性信息可包括数据字段的名称和/或数据类型，从而可应用于后续的机器学习任务，例如，可用于帮助用户配置后续机器学习任务的输入数据，或者，可用于帮助验证后续机器学习任务的配置，或者，可用于帮助后续机器学习任务的输出数据的展示。应理解，上述应用情形仅作为示例，任何能够有效利用推断出的数据属性信息的方式均可适用于本发明的示例性实施例。

图5示出根据本发明另一示例性实施例的执行机器学习流程的方法的流程图。在图5所示的方法中，除了上述步骤S100、步骤S300和步骤S400之外，还包括步骤S450。其中，步骤S100、步骤S300和步骤S400可按照在图4所示的方法中的方式进行操作，而在步骤S450中，可由显示装置100向用户展示由推断装置400所推断出的数据属性信息。

作为示例，假设由推断装置400所推断出的数据属性信息是机器学习任务的预计的输出结果的数据属性信息，而所述输出结果可作为下游机器学习任务的输入数据的来源。在这种情况下，显示装置100可将所述数据属性信息显示在下游机器学习任务的输入候选区域，例如，可在用于配置下游机器学习任务的输入数据字段的下拉框中展示所述数据属性信息中的字段名称，这样，用户可通过从下拉框中选择相应的字段来配置下游机器学习任务的输入数据。

作为另一示例，假设所推断出的数据属性信息可有助于下游机器学习任务的数据处理结果的展示效果。具体说来，在诸如特征抽取等机器学习任务中，数据处理会涉及哈希(hash)变换等处理且数据处理的结果会具有诸如key-value等可读性差的格式。在这种情况下，可将数据记录的有关原始属性字段名称和/或数据类型作为推断出的数据属性信息从上游机器学习任务透传到下游机器学习任务，并且，这些数据属性信息还被展示给用户。相应地，当下游机器学习任务涉及数据处理结果的输出(例如，当需要将模型预估结果展示给用户时)，用户可从展示出的数据属性信息中选取随着模型预估结果一同输出的原始字段，以提高模型预估结果的可读性。

应注意，以上仅为了说明对推断出的数据属性信息进行展示以应用于后续机器学习任务的示例，而本发明的示例性实施例并不受限于此。推断出的数据属性信息除了被展示之外，还可用于对下游机器学习任务的配置进行校验。

图6示出根据本发明另一示例性实施例的执行机器学习流程的方法的流程图。在图6所示的方法中，除了上述步骤S100、步骤S300和步骤S400之外，还包括步骤S100’、步骤S300’和步骤S600。其中，步骤S100、步骤S300和步骤S400可按照在图4所示的方法中的方式进行操作。

在通过执行步骤S100、步骤S300和步骤S400而完成机器学习任务的配置及其数据属性信息的推断之后，用户可继续配置以该机器学习任务为上游机器学习任务的下游机器学习任务。这里，所述方法可通过步骤S100’和步骤S300’来完成下游机器学习任务的配置，具体说来，步骤S100’和步骤S300’与步骤S100和步骤S300类似，只是所针对的机器学习任务有所差别(即，步骤S100’和步骤S300’所针对的是下游机器学习任务)。相应地，在步骤S100’中，显示装置100向用户展示用于配置下游机器学习任务的图形界面，而检测装置200检测用户通过所述图形界面执行的输入操作；接下来，在步骤S300’中，配置装置300根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务。这里，在步骤S100’中显示的用户界面可大致上与在步骤S100中显示的用户界面相同而只是在涉及配置项的细节上有所区别，或者，在步骤S100’中显示的用户界面也可与在步骤S100中显示的用户界面完全不同。此外，作为可选方式，在步骤S300’中，显示装置100还可在图形界面中向用户展示在步骤S300推断出的上游机器学习任务的数据属性信息，使得用户可基于展示的数据属性信息来配置所述下游机器学习任务。

在完成了下游机器学习任务的配置之后，根据本发明的示例性实施例，在步骤S600中，由配置装置300基于由推断装置400所推断出的与上游机器学习任务有关的数据属性信息来检验所述下游机器学习任务的配置。具体说来，由于数据属性信息可涉及上游机器学习任务的相关数据属性字段名称和/或相应的数据类型，因此，配置装置300可检验出下游机器学习任务的相关配置(例如，输入数据字段、运算参数、运算类型等)是否符合由上游机器学习任务所提供的数据源。

可选地，当配置装置300基于上游机器学习任务的数据属性信息而确定下游机器学习任务的配置不符合上游机器学习任务提供的数据源时，显示装置100可将相应的警告消息显示在屏幕上，用于提醒用户下游机器学习任务的配置存在问题。作为示例，警告消息中可注明出错的配置项和/或出错详情。

应注意，根据本发明的示例性实施例，针对配置完毕的一个或多个机器学习任务，可根据用户的指示来执行所述机器学习任务。也就是说，在上述执行机器学习流程的方法中，还包括步骤：根据用户的执行指示来执行一个或多个配置的机器学习任务。这里，用户可通过预设的按键或其他手段来启动配置好的一个或多个机器学习任务，这些机器学习任务可构成整个机器学习流程或其中的一部分。

以下，将参照图7A到图7F来描述根据本发明示例性实施例的机器学习平台中执行机器学习流程的界面的示例。在所述示例中，按照DAG的形式来配置机器学习流程，然而，应理解：结合图7A到图7F所描述的技术细节仅仅是作为示例以便直观地解释本发明的示例性实施例，而非用于限制本发明示例性示例的范围。

参照图7A，其示出了用于配置机器学习任务的图形界面，该图形界面的中间区域是机器学习流程的DAG区域，左侧列出了可选的机器学习任务，右侧是用于配置特定机器学习任务的区域。在所述图形界面中，用户可通过诸如点击、拖拽、键入等操作来配置“数据拆分”，例如，配置拆分方式以及拆分比例等。如图7A所示，在“导入银行数据源(“bank”)”这一机器学习任务之后，用户可通过右侧区域来进行“数据拆分”这一机器学习任务的配置，在基于检测到的用户在右侧区域的输入操作而完成“数据拆分”的配置之后，可基于“数据拆分”的配置来推断出相应的数据属性信息。接下来，用户通过点击右侧的“SQL”来选择继续配置下一机器学习任务“SQL”。

参照图7B，用户可通过点击右侧区域中的“配置”图标对“SQL”进行具体的配置。相应地，在用户点击上述图标之后，可显示如图7C所示的界面。这里，应注意，在该示例中，只有在用户连接代表配置完毕的上游机器学习任务的可配置顶点与代表将要配置的下游机器学习任务的可配置顶点时，才会将所推断出的上游机器学习任务的数据属性信息传递给现有机器学习任务，而由于用户尚未在“数据拆分”与“SQL”这两个顶点之间进行连线，因此在图7C的界面中提醒用户“暂无输入源schema，请连接输入源”，这里，schema作为数据属性信息的具体示例。

为此，如图7D所示，用户可将“SQL”作为下游机器学习任务连接到上游的“数据拆分”，使得之前推断出的与“数据拆分”有关的数据属性信息能够传递到“SQL”。相应地，当用户点击“配置”图标时，可显示如图7E所示的界面，其中，列出了作为“数据拆分”任务的输出数据的全部字段名称，使得用户可参照这些数据属性信息来完成脚本的编写。

根据本发明的示例性实施例，还可基于“数据拆分”的相关数据属性信息(例如，字段名称)来检验用户对SQL的配置是否符合规范。参照图7F，当用户编写的脚本中出现了“数据拆分”作为数据源并未提供的字段名称(例如，age1)时，可向用户展示警告消息“fieldage 1 is not found，字段不存在，请修改”。

以上参照图2到图7F描述了根据本发明示例性实施例的执行机器学习流程的方法和系统以及相应的机器学习平台应用实例。应理解，上述执行机器学习流程的方法可通过记录在计算可读介质上的程序来实现，相应地，根据本发明的示例性实施例，可提供一种用于执行机器学习流程的计算机可读介质，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及(C)在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照图2到图7F进行了描述，这里为了避免重复将不再进行赘述。

相应地，上述执行机器学习流程的系统也可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中的各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图2和图3所示的各个装置以及未示出的相关装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

这里，本发明的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行上述执行机器学习流程的方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

上述关于执行机器学习流程的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

上述关于执行机器学习流程的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

具体说来，如上所述，根据本发明示例性实施例的执行机器学习流程的计算装置可包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；(B)根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及(C)在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型。

应注意，以上已经结合图2到图7F描述了根据本发明示例性实施例的执行机器学习流程的方法的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

以上已经描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种执行机器学习流程的方法，包括：

（A）向用户展示用于配置机器学习任务的图形界面并检测用户通过图形界面执行的输入操作，其中，机器学习任务用于执行机器学习流程所包括的数据处理；

（B）根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及

（C）在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型；

其中，推断出的数据属性信息用于：为用户配置以所述机器学习任务为上游机器学习任务的下游机器学习任务提供参照；和/或，检验所述下游机器学习任务的配置。

2.如权利要求1所述的方法，还包括：（D）向用户展示在步骤（C）推断出的数据属性信息。

3.如权利要求1所述的方法，其中，在步骤（C）中，推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

4.如权利要求1或3所述的方法，还包括：

（E）向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面并检测用户通过所述图形界面执行的输入操作；

（F）根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；

（G）基于在步骤（C）推断出的数据属性信息来检验所述下游机器学习任务的配置。

5.如权利要求4所述的方法，其中，在步骤（E）中，在图形界面中向用户展示在步骤（C）推断出的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

6.如权利要求1所述的方法，其中，响应于所述机器学习任务的配置结束来自动执行步骤（C），或者，响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动执行步骤（C），或者，响应于用户的推断指示来执行步骤（C）。

7.如权利要求2所述的方法，其中，机器学习任务被实现为有向无环图中的可配置顶点，其中，响应于所述机器学习任务的配置结束来自动执行步骤（C），并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时自动执行步骤（D）。

8.如权利要求1所述的方法，还包括：

（H）根据用户的执行指示来执行一个或多个配置的机器学习任务。

9.如权利要求3所述的方法，其中，在步骤（C）中，通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

10.一种执行机器学习流程的系统，包括：

显示装置，用于向用户展示用于配置机器学习任务的图形界面，其中，机器学习任务用于执行机器学习流程所包括的数据处理；

检测装置，用于检测用户通过图形界面执行的输入操作；

配置装置，用于根据检测到的用户通过所述图形界面执行的输入操作来配置所述机器学习任务；以及

推断装置，用于在不执行配置的所述机器学习任务的情况下，推断与所述机器学习任务有关的数据属性信息，其中，数据属性信息包括数据属性字段的名称和/或数据类型；

11.如权利要求10所述的系统，其中，显示装置还向用户展示由推断装置所推断出的数据属性信息。

12.如权利要求10所述的系统，其中，推断装置推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

13.如权利要求10或12所述的系统，其中，显示装置还向用户展示用于配置以所述机器学习任务为上游机器学习任务的下游机器学习任务的图形界面；检测装置还检测用户通过所述图形界面执行的输入操作；配置装置根据检测到的用户通过所述图形界面执行的输入操作来配置所述下游机器学习任务；并且，配置装置基于由推断装置所推断出的与所述机器学习任务有关的数据属性信息来检验所述下游机器学习任务的配置。

14.如权利要求13所述的系统，其中，显示装置在图形界面中向用户展示由推断装置所推断出的与所述机器学习任务有关的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

15.如权利要求10所述的系统，其中，推断装置响应于所述机器学习任务的配置结束来自动推断与所述机器学习任务有关的数据属性信息，或者，推断装置响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动推断与所述机器学习任务有关的数据属性信息，或者，推断装置响应于用户的推断指示来推断与所述机器学习任务有关的数据属性信息。

16.如权利要求11所述的系统，其中，机器学习任务被实现为有向无环图中的可配置顶点，其中，推断装置响应于所述机器学习任务的配置结束来自动推断与所述机器学习任务有关的数据属性信息，并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时，显示装置自动向用户展示由推断装置推断出的与所述机器学习任务有关的数据属性信息。

17.如权利要求10所述的系统，还包括：

执行装置，用于根据用户的执行指示来执行一个或多个配置的机器学习任务。

18.如权利要求12所述的系统，其中，配置装置通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

19.一种用于执行机器学习流程的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下步骤的计算机程序：

20.如权利要求19所述的计算机可读介质，其中，所述计算机程序还用于执行步骤（D）：向用户展示在步骤（C）推断出的数据属性信息。

21.如权利要求19所述的计算机可读介质，其中，在步骤（C）中，推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

22.如权利要求19或21所述的计算机可读介质，其中，所述计算机程序还用于执行以下步骤：

23.如权利要求22所述的计算机可读介质，其中，在步骤（E）中，在图形界面中向用户展示在步骤（C）推断出的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

24.如权利要求19所述的计算机可读介质，其中，响应于所述机器学习任务的配置结束来自动执行步骤（C），或者，响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动执行步骤（C），或者，响应于用户的推断指示来执行步骤（C）。

25.如权利要求20所述的计算机可读介质，其中，机器学习任务被实现为有向无环图中的可配置顶点，其中，响应于所述机器学习任务的配置结束来自动执行步骤（C），并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时自动执行步骤（D）。

26.如权利要求19所述的计算机可读介质，其中，所述计算机程序还用于执行步骤（H）：根据用户的执行指示来执行一个或多个配置的机器学习任务。

27.如权利要求21所述的计算机可读介质，其中，在步骤（C）中，通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。

28.一种执行机器学习流程的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：

29.如权利要求28所述的计算装置，其中，当所述计算机可执行指令集合被所述处理器执行时，还执行步骤（D）：向用户展示在步骤（C）推断出的数据属性信息。

30.如权利要求28所述的计算装置，其中，在步骤（C）中，推断出的数据属性信息是所述机器学习任务的输入数据、输出数据和/或中间处理数据的数据属性信息。

31.如权利要求28或30所述的计算装置，其中，当所述计算机可执行指令集合被所述处理器执行时，还执行以下步骤：

32.如权利要求31所述的计算装置，其中，在步骤（E）中，在图形界面中向用户展示在步骤（C）推断出的数据属性信息，使得用户基于展示的数据属性信息来配置所述下游机器学习任务。

33.如权利要求28所述的计算装置，其中，响应于所述机器学习任务的配置结束来自动执行步骤（C），或者，响应于以所述机器学习任务为上游机器学习任务的下游机器学习任务的配置开始来自动执行步骤（C），或者，响应于用户的推断指示来执行步骤（C）。

34.如权利要求29所述的计算装置，其中，机器学习任务被实现为有向无环图中的可配置顶点，其中，响应于所述机器学习任务的配置结束来自动执行步骤（C），并且，在用户连接代表配置的所述机器学习任务的可配置顶点与代表以所述机器学习任务为上游机器学习任务的下游机器学习任务的可配置顶点时自动执行步骤（D）。

35.如权利要求28所述的计算装置，其中，当所述计算机可执行指令集合被所述处理器执行时，还执行步骤（H）：根据用户的执行指示来执行一个或多个配置的机器学习任务。

36.如权利要求30所述的计算装置，其中，在步骤（C）中，通过解释所述机器学习任务的执行指令和/或通过针对从所述机器学习任务的输入数据之中抽取的抽样数据执行所述执行指令来推断所述机器学习任务的中间处理数据和/或输出数据的数据属性信息。