CN116194908A

CN116194908A - 使用元学习优化机器学习流水线的自动选择

Info

Publication number: CN116194908A
Application number: CN202180056360.1A
Authority: CN
Inventors: 王大阔; 淦创; G·布拉姆贝勒; L·阿米尼; H·C·萨姆洛维茨; K·凯特; 陈蓓; M·维图巴; A·艾弗菲米艾弗斯基; I·卡西斯; 李蕴瑶; A·C·I·马洛西; A·巴特扎吉; B·卡瓦斯; S·古拉伽达; L·普帕; T·佩达帕蒂; A·格雷
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-08-11
Filing date: 2021-08-09
Publication date: 2023-05-30
Also published as: DE112021004234T5; WO2022034475A1; GB2611737A; GB202301891D0; US20220051049A1; JP2023537082A

Abstract

计算机使用元学习机器学习模型来自动选择机器学习模型流水线。计算机接收基础事实数据和流水线偏好元数据。计算机确定适合于基础事实数据的一组流水线，并且每个流水线包括算法。流水线可包括数据预处理例程。计算机为流水线生成超参数集合。计算机将预处理例程应用于基础事实数据，以生成基础事实数据的一组预处理的集合，并对每个流水线的超参数集合性能进行排序，以针对每个流水线建立优选的超参数集合。计算机选择偏好的数据特征并将每个流水线以及相关联的优选的超参数集合用于对预处理的基础事实数据的偏好的数据特征进行评分。计算机对流水线性能进行排序，并根据排序选择候选流水线。

Description

使用元学习优化机器学习流水线的自动选择

背景技术

本发明总体上涉及信息可视化、人工智能、自动机器学习、数据科学的领域，并且更具体地涉及优化机器学习流水线的选择的预测系统。

机器学习系统识别所存储的数据中的模式以形成能够预测类似数据的评分结果的计算机化模型。自动机器学习(Automatic Machine Learning，“自动ML”)涉及流线化(streamlining)机器学习过程的各个方面。

自动ML例程使构建和操作AI模型中涉及的通常人员密集的以及其他高度熟练的端到端任务自动化。不同于容易应用于同类训练数据的典型机器学习应用，在数据格式和内容在很大程度上不同的情况下使用自动ML应用。为了适应这种不同的输入数据，自动ML系统解决机器学习过程的各个方面，包括数据准备、数据特征工程(data featureengineering)、算法的选择和超参数(hyperparameter)选择。

发明内容

根据一个实施例，一种使用元学习机器学习模型来自动选择机器学习模型流水线的计算机实现的方法包括：由计算机接收基础事实(ground truth)数据和流水线偏好元数据。计算机确定适合于基础事实数据的一组流水线。每个流水线包括算法，并且至少一个流水线包括相关联的数据预处理例程。计算机为每个流水线生成目标数量的超参数集合。计算机将预处理例程应用于基础事实数据以生成针对每个流水线的基础事实数据的预处理的集合。计算机对该组流水线的每个超参数集合的性能进行排序，以便为流水线中的每个流水线建立优选的超参数集合。计算机应用句子嵌入(sentence embedding)算法来选择用于评分的偏好的(favored)数据特征。计算机将每个流水线以及相关联的优选超参数集合用于对基础事实数据的适当预处理的集合的偏好的数据特征进行评分，并相应地对流水线性能进行排序。计算机至少部分地根据流水线性能排序来选择候选流水线。

根据本发明的其他方面，该方法还包括至少部分地基于由用户提供的流水线属性来对流水线性能进行排序。根据本发明的其他方面，该方法还包含将一组流水线组装成协作的集成(ensemble)。根据本发明的其他方面，该方法还包括突出显示流水线评分协议的出现。根据本发明的其他方面，该方法还包括将该集成呈现给用户以用于反馈，并且根据反馈选择性地从该集成移除该集成中的流水线。根据本发明的其他方面，该方法还包括至少部分地考虑数据处理时间而选择偏好的数据特征。根据本发明的其他方面，该方法还包括由计算机从用户接收关于数据特征的域知识(domain knowledge)并将该域知识作为特征工程的形式来应用。根据本发明的其他方面，该方法还包括至少部分地基于数据评分准确性来对流水线性能进行排序。根据本发明的其他方面，该方法还包括至少部分地根据为与超参数相关联的算法提供最佳性能的统计可能性来选择超参数集合。

根据另一实施例，一种使用元学习机器学习模型来自动选择机器学习模型流水线的系统，该系统包括：计算机系统，其包括具有程序指令的计算机可读存储介质，程序指令可由计算机执行以使得计算机：接收基础事实数据和流水线偏好元数据；确定适合于基础事实数据的多个流水线，其中多个流水线中的每个流水线包括算法，并且至少一个流水线包括相关联的数据预处理例程；为每个流水线生成目标数量的超参数集合；将预处理例程应用于基础事实数据以生成基础事实数据的多个预处理的集合；对每个流水线的每个超参数集合的超参数性能进行排序，以建立每个流水线的优选的超参数集合。应用句子嵌入算法来选择偏好的数据特征。将每个流水和优选的超参数集合用于对基础事实数据的多个预处理的集合中的适当预处理的集合的偏好的数据特征进行评分，并且相应地对流水线性能进行排序；至少部分地根据流水线性能排序来选择候选流水线。

根据本发明的其他方面，该系统还包括至少部分地基于由用户提供的流水线属性来对流水线性能进行排序。根据本发明的其他方面，该系统还包括将一组流水线组装成协作的集成。根据本发明的其他方面，该系统还包括突出显示流水线评分协议的出现。根据本发明的其他方面，该系统还包括将集成呈现给用户以供反馈，并且根据反馈选择性地从集成中移除该集成中的流水线。根据本发明的其他方面，该系统还包括至少部分地考虑数据处理时间而选择偏好的数据特征。根据本发明的其他方面，该系统还包括：由计算机从用户接收关于数据特征的域知识，并且将域知识作为特征工程的形式来应用。根据本发明的其他方面，该系统还包括至少部分地基于数据评分准确性来对流水线性能进行排序。根据本发明的其他方面，该系统还包括至少部分地根据为与超参数相关联的算法提供最佳性能的统计可能性来选择超参数集合。

根据另一实施例，一种计算机程序产品，使用元学习机器学习模型来自动选择机器学习模型流水线，优化电子群组会议中的多个参与者的输入组件，计算机程序产品包括计算机可读存储介质，计算机可读存储介质具有程序指令，程序指令可由计算机执行以使得计算机：使用计算机来接收基础事实数据和流水线偏好元数据；使用计算机确定适合于基础事实数据的多个流水线，其中该多个流水线中的每个流水线包括算法，并且至少一个流水线包括相关联的数据预处理例程；使用计算机为每个流水线生成目标数量的超参数集合；使用计算机将预处理例程应用于基础事实数据以生成基础事实数据的多个预处理的集合；使用计算机对每个流水线的每个超参数集合的超参数性能进行排序，以建立每个流水线的优选的超参数集合；使用计算机应用句子嵌入算法来选择偏好的数据特征；使用计算机应用每个流水线和优选的超参数集合来对基础事实数据的多个预处理的集合中的适当预处理的集合的偏好的数据特征进行评分，并且相应地对流水线性能进行排序；使用计算机至少部分地根据流水线性能排序选择候选流水线。

优选地，本发明提供一种计算机程序产品，进一步包括：使用计算机将多个流水线组合成协作的集成；使用计算机将协作的集成呈现给用户以供反馈；以及使用计算机根据反馈选择性地从集成移除流水线。

本公开认识到与依赖于处理能力来复制数据处理科学家的专业知识和洞察力相关联的缺点和问题。

附图说明

从以下将结合附图阅读的对本发明的示范性实施例的详细描述中，本发明的这些和其他目的、特征和优点将变得显而易见。附图的各种特征不是按比例的，因为图示是为了便于本领域技术人员结合具体实施方式理解本发明而清楚起见。附图如下：

图1是示出使用元学习来优化机器学习流水线的自动选择的计算机实现的预测系统的概况的示意性框图。

图2是示出使用图1中所示的系统实现的方法的流程图。

图3是示出根据图1中所示的系统的方面的用于将算法与示例性数据类型相关联的格式的表格。

图4是示出根据图1中所示的系统的方面的用于识别机器学习流水线的方面的格式的表。

图5是示出根据本公开的实施例的计算机系统的示意性框图，该计算机系统可全部或部分地结合在图1所示的一个或多个计算机或装置中，并且与图1所示的系统和方法协作。

图6描绘了根据本发明的实施例的云计算环境。

图7描述了根据本发明的实施例的抽象模型层。

具体实施方式

提供参考附图的以下描述以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。其包括各种具体细节以帮助理解，但这些细节将被视为仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本发明的范围和精神的情况下，可以对在此描述的实施例进行不同改变和修改。此外，为了清楚和简明，可省略对公知功能和结构的描述。在以下描述和权利要求中使用的术语和词语不限于书目含义，而是仅仅用于使得能够清楚和一致地理解本发明。因此，对本领域技术人员显而易见的是，提供本发明的示例性实施方式的以下描述仅用于说明的目的，而不是用于限制由所附权利要求及其等同物限定的本发明的目的。

应当理解，除非上下文另有明确规定，否则单数形式“a”、“an”和“the”包括复数指示物。因此，例如，除非上下文另外明确规定，提及“参与者”包括提及这些参与者中的一个或多个。

基础事实数据(Ground Truth Data，GTD)通过观察或测量客观地收集。在统计和机器学习中使用GTD来设置理想的预期结果，因此可以用于测量模型的准确度。

流水线偏好元数据(Pipeline Preference Metadata，PPM)描述机器学习流水线的属性。PPM可由用户提供，且可包括多种流水线选择标准，包含对待选择的流水线的数目、最大或最小选择运行时间、流水线稳定性、最大和最小模型训练时间、所要模型准确性阈值以及必须选择的强制流水线和特征的约束。PPM可包含本领域技术人员指定的其他选择标准。

机器学习中的超参数值用于控制和调谐机器学习模型的学习过程，它们不影响机器学习模型的性能。超参数值包括学习速率、神经网络中的神经元的数量、批(batch)大小和神经网络的拓扑。

现在总体上结合参考附图并且具体参见图1和图2，用于使用元学习来优化在系统100内可用的机器学习流水线的自动选择的方法200的概览，如由具有可选共享存储104和自动选择机器学习流水线的方面的服务器计算机102所执行的。服务器计算机102与GTD106源进行通信，该GTD106源用于训练和验证要由系统100选择的模型。根据本发明的方面，GTD 106是基于文本的，并且可以反映许多不同种类的信息。一些代表性数据类型包括超市销售业绩、在线供应商销售业绩、顾客评论和产品评级。根据本领域技术人员的判断，也可适应其他类型的信息和数据类型。服务器计算机102还与PPM 108的源进行通信。服务器计算机还与超参数元数据的源110通信，该超参数元数据的源提供关于将指派给服务器计算机102所选择的算法的超参数值(未示出)的信息。超参数元数据110可以指示哪些超参数值被本领域技术人员已知为可用于由服务器计算机102选择的每个算法接受。超参数元数据110还可以包括要为所选择的每个流水线生成和排名的目标数量的超参数集合。服务器计算机102还接收算法/数据类型匹配元数据112，其指示若干可用算法中的哪些算法适于建模不同类型的数据。服务器计算机102还接收算法适当的(algorithm-appropriate)预处理例程元数据114，其指示若干可用数据预处理例程中的哪些适用于处理原始数据以供与根据本发明的方法的各方面所选择的算法一起使用。

如以下将更全面描述的，服务器计算机102包括使用算法/数据类型匹配元数据112的流水线生成模块(Pipeline Generation Module，PGM)116，以及根据使用流水线偏好元数据108来生成多个流水线的算法适当的预处理例程元数据。PGM 116还可接受来自用户的输入来引导流水线生成。服务器计算机还包括数据预处理模块(Data PreprocessingModule，DPM)118，数据预处理模块118应用被识别为适合于由PGM生成的流水线中的算法的每个预处理例程。服务器计算机包括超参数生成模块(Hyperparameter GenerationModule，HGM)120，其生成用于与由PGM 116生成的流水线中的每个相关联的算法的目标超参数集合。服务器计算机102包括超参数优化模块(Hyperparameter Optimizing Module，HOM)122，HOM 122识别每个流水线中的算法的优选的超参数集合。服务器计算机102包括组装流水线比较模块(Assembled Pipeline Comparison Module，APCM)

124，其使用由HOM 122为每个算法识别的偏好的超参数集合来执行由PGM生成的每个流水线。服务器计算机102还包括使用特征工程来确定最显露的数据属性的数据处理优化模块(DPOM)126。服务器计算机102包括流水线验证用户界面(Pipeline ValidationUser Interface，PVUI)128，其允许用户检查流水线执行结果以校正、移除所选流水线和以其他方式给出关于流水线性能的输入以增加结果可解释性和用户置信度。服务器计算机102包括将多个流水线组合成协作束的集成组装模块(Ensemble Assembly Module，EAM)130。服务器计算机102还包括集成流水线应用模块(Ensemble Pipeline ApplicationModule)132，其将集成中的流水线应用于所提供的数据106，该数据106可指示多个流水线是否提供达成一致的结果。服务器计算机102可向用户显示器、记录设备或其他输出设备134发送数据分析结果以供用户接受和应用。

现在，具体参见图2，将进一步描述根据本发明的用于使用元学习来优化机器学习流水线的自动选择的计算机实现的方法。服务器计算机102接收被视为准确的GTD 106，并且根据本发明的各方面，该数据被用来训练服务器计算机所选择的流水线模型。GTD 106的一部分(例如，80％)被用作流水线训练数据，并且数据的剩余部分(例如，20％)被保留为用于确认根据本方法选择的流水线的保留数据(holdout data)。

在框204处，服务器计算机102接收PPM 108，其包括给予PGM 116的参数的偏好信息(例如，来自用户或由本领域普通技术人员选择的其他引导源)。PPM 108可包括指令服务器计算机102关于以多少流水线为目标以进行组装、期望测试、建模和训练运行时间范围、期望性能(例如，准确度、稳定性或由本领域普通技术人员选择的其他值)阈值、某些所需流水线安排、要包括的特征或停止或暂停流水线生成以允许流水线检查的指令的信息。

在框206处，服务器计算机102接收超参数元数据，该超参数元数据除了目标超参数设置量之外，还可包括适当的值(例如，对于包括在由服务器计算机102的PGM 116生成的流水线中的算法中的每一个算法)。超参数元数据110还可以包括关于当与相关联的流水线算法一起使用时哪些超参数最有可能产生期望的结果(例如，准确度、计算时间、一致性、和本领域技术人员已知的其他期望的属性)的信息。虽然超参数从一个算法到另一个算法变化很大，但是CNN算法的一个示例集合包括层数、神经元数量和学习速率。用于层编号的示例性值可以包括值2、3、4或8；示例性神经元值可以是418、1024；并且示例性学习速率值可以是0.5或0.05。可以根据本领域技术人员的判断提供其他值，选择这些值以匹配被选择用于流水线使用的算法的已知属性。

在框208处，服务器计算机102接收算法/数据类型匹配元数据112，其示例300在图3中示出，其中某些数据类型302被示为匹配合适的算法304。例如，如通用算法占位符所指示的，数据类型“超市销售业绩”被示意性地示出为与两个适当的算法相关。应注意，一些算法可适于与一个以上数据类型一起使用，而其他算法可仅适用于一种类型的数据。在块210处，服务器计算机102接收算法适当的预处理例程元数据114，其指示哪些预处理例程最适合于可根据本发明的各方面选择的不同算法。在框212中，PGM 116应用预处理例程元数据114连同算法/数据类型匹配元数据112，以组装满足PPM 108中阐述的特性(例如，目标数量的流水线、数据类型匹配算法、和适当的预处理例程)的一组流水线。在图4中示意性地示出了流水线元件的几个示例，其中编号的流水线402被示出为包括选择的算法404和相关联的预处理例程406。要注意的是，由于各种原因(例如，某些数据类型的固有格式特性)，一些算法404可能最佳地起作用，不需要预处理例程406，并且这由“空”值条目表示。虽然图4将卷积神经网络(CNN)、支持向量机(SVM)和回归量指示为算法选择，但是存在许多其他合适的选项，并且这些选项也可以根据本领域技术人员的判断而被包括。

如上所述，在框212处，服务器计算机102经由PGM 116作出满足PPM 108所指示的标准的一组流水线402。优选的是，流水线生成结合决策框214迭代地发生，服务器计算机102在生成每个流水线402之后迭代地决定是否需要更多的流水线(例如，已经满足流水线目标数量或者用户已经指示当前流水线集合被认为足够)。然而，应注意，整组所需要的流水线402也可作为一批产生(例如，通过并行处理)。

在框216，DPM 118在必要时通过应用为与流水线402相关联的每个算法404选择的预处理例程406来修改GTD 106。以此方式，算法适合的GTD 106的集合可用于流水线测试中的下游使用。

在框218处，服务器计算机102经由HGM 120生成与每个流水线402相关联的算法的唯一超参数集合。根据超参数元数据110选择超参数集合量和值。这些超参数集合代表用于本领域已知的算法测试的可替换的、可行的选项，并且被传递用于下游流水线优化。要注意的是，超参数元数据110还可以包括指示可用的超参数值中的哪些最可能实现性能匹配预选的性能标准的选择算法。当存在时，HGM 120可以使用这样的选择算法来选择在统计上可能产生超过相关性能阈值的流水线402的超参数值。

在框220处，服务器计算机102经由HOM 122，迭代地通过流水线402中的每个流水线以及由PGM 116生成的超参数集合来运行经预处理的GTD 106的训练部分。HOM 122迭代地评估每个流水线402的性能，从而比较每个相关联的超参数集的性能。HOM 122确定每个流水线402的偏好的超参数集合。

在框222处，服务器计算机102经由APCM 124执行具有由HOM 122识别的顶部超参数集合的每个组装的流水线，并对流水线进行排序(例如，根据测量的性能)。注意，性能度量可以改变，并且期望的度量和阈值可以多种方式提供(例如，作为PPM 108的一部分，由用户提供，或作为交互式流水线验证的一部分，以本领域技术人员所选择的一些其他方便的方式提供)。

在框224中，服务器计算机102经由DPOM 126确定在应用所选择的流水线402时跟踪哪些特征(包括句子长度、独有的单词的数量、动词的总数、名词和代词的总数、以及本领域技术人员所标识的其他属性)并生成评估特征的临时列表。DPOM 126迭代地运行流水线402，每个流水线具有偏好的超参数值，并且渐进地从正被跟踪的临时列表中去除一个评估特征，直到关于所选择的性能度量的性能经历有意义的阶跃变化。如本文所使用的，短语有意义的改变意味着性能的改变下降超过所选择的阈值，诸如下降10％或更多(例如，从98％准确度下降至88％准确度，尽管根据本领域技术人员的判断可以选择其他下降值)。DPOM126将重新引入最近从用于测量的流水线的临时特征列表中去除的属性，并且将该列表形式化为如所测试的给定流水线402的一组最区分的属性。DPOM渐进地识别每个流水线402的一组最有说服力的属性。利用DPOM 106，服务器计算机102通过减少所考虑的特征的数量来选择要考虑的数据特征组，其影响流水线性能和数据处理时间之间的平衡。注意，上文描述的属性选择可以用域特定知识或由用户或熟悉正被评估的数据类型的重要特性(例如，尝试处理某些种类的数据的对数值是低效的)的其他源提供的其他信息来增强。

服务器计算机102经由(PVUI)128向用户呈现应用由PGM 116生成的流水线402的结果以供反馈，具有由HOM 122识别的顶部超参数集合并且将最有说服力的属性组考虑给GTD 106的剩余保留部分，该剩余保留部分根据由DPOM 126识别的(如排序的)例程406来处理。结果被提供的流水线组402被称为候选流水线列表，并且PVUI 128允许用户评估和交互地选择和修改该列表上的流水线402。流水线性能细节被包括以提供高度的可解释性(例如，包括显示原始GTD以允许用户识别何时这样的数据可能被错误地标记以原谅明显不良的流水线性能；哪些数据属性被分级；哪些不同流水线被提供为结果和某些流水线达成一致的时间；突出关键条款以揭示给定模型中的潜在疏忽(oversight)；以及本领域技术人员选择以建立用户对所选流水线的信任的其他流水线方面。此程度的可解译性允许用户选择性地从候选流水线列表移除或选择某些流水线。PVUI 128可在产生目标数量的流水线402之前请求用户输入，从而允许用户指示满足给定的流水线列表，即使可产生额外流水线。服务器计算机102经由PVU 1226从候选列表(其可保持不变)中选择(可能利用用户输入)最终流水线组402并继续传递该最终流水线组以供进一步处理。在块228处，服务器计算机102经由集成组装模块130将流水线402的最终群组收集成将共同评估所提供的数据的协作的组。如果集成包括大于三的奇数个流水线402，则集成可用于一致地提供所测试的数据的所有结果的多数结果。在框230处，服务器计算机102将流水线402的集成或组应用于用户数据并生成结果。在框232处，服务器计算机102提供结果(例如，通过显示器、记录设备、或本领域技术人员所选择的某种其他安排)以供进一步存储或使用。

关于流程图和框图，本公开的附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

参考图5，系统或计算机环境1000包括以通用计算设备的形式示出的计算机示图1010。例如，方法100可以体现在程序1060中，该程序1060包括体现在计算机可读存储设备或计算机可读存储介质(例如，通常称为存储器1030，并且更具体地，计算机可读存储介质1050)上的程序指令。这种存储器和/或计算机可读存储介质包括非易失性存储器或非易失性存储器。例如，存储器1030可包括存储介质1034(诸如RAM(随机存取存储器)或ROM(只读存储器))以及高速缓存存储器1038。程序1060可由计算机系统1010的处理器1020执行(以执行程序步骤、代码或程序代码)。附加数据存储还可被具体化为包括数据1114的数据库1110。计算机系统1010和程序1060是计算机和程序的通用表示，该计算机和程序可以是用户本地的，或者作为远程服务(例如，作为基于云的服务)提供，并且可以在进一步的示例中通过使用通信网络1200可访问的网站(例如，与网络、互联网、或云服务交互)提供。应当理解，计算机系统1010在此还一般性地表示计算机设备或包括在设备中的计算机(诸如膝上型或台式计算机等)或单独或作为数据中心的一部分的一个或多个服务器。计算机系统可包括网络适配器/接口1026和输入/输出(I/O)接口1022。I/O接口1022允许与可连接到计算机系统的外部设备1074的数据的输入和输出。网络适配器/接口1026可以提供计算机系统与通常示出为通信网络1200的网络之间的通信。

计算机1010可在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。这些方法步骤和系统组件和技术可以体现在用于执行该方法和系统的每个步骤的任务的程序1060的模块中。在图中将模块一般地表示为程序模块1064。程序1060和程序模块1064可执行程序的特定步骤、例程、子例程、指令或代码。

本公开的方法可以在诸如移动设备的设备上本地运行，或者可以在例如服务器1100上运行服务，服务器1100可以是远程的并且可以使用通信网络1200访问。程序或可执行指令还可作为服务由提供者提供。计算机1010可以在分布式云计算环境中实践，其中任务由通过通信网络1200链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

计算机1010可以包括各种计算机可读介质。这样的介质可以是可由计算机1010访问的任何可用介质(例如，计算机系统或服务器)，并且可以包括易失性和非易失性介质，以及可移动和不可移动介质。计算机存储器1030可以包括易失性存储器形式的附加计算机可读介质，诸如随机存取存储器(RAM)1034和/或高速缓存存储器1038。计算机1010还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质，在一个示例中，包括便携式计算机可读存储介质1072。在一个实施例中，可以提供计算机可读存储介质1050用于从不可移动、非易失性磁介质中读取和向其写入。计算机可读存储介质1050例如可以体现为硬盘驱动器。可提供额外的存储器和数据存储，例如作为存储系统1110(例如，数据库)，用于存储数据1114并与处理单元1020通信。数据库可存储在服务器1100上或是服务器1100的一部分。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据媒体接口连接到总线1014。如以下将进一步描绘和描述的，存储器1030可以包括至少一个程序产品，该程序产品可以包括被配置为执行本发明的实施例的功能的一个或多个程序模块。

例如，本公开中所描述的方法可体现在一个或多个计算机程序中(统称为程序1060)，并且可存储在计算机可读存储介质1050中的存储器1030中。程序1060可以包括程序模块1064。程序模块1064通常可以执行如在此所描述的本发明的实施例的功能和/或方法。一个或多个程序1060存储在存储器1030中并且可由处理单元1020执行。举例来讲，存储器1030可以将操作系统1052、一个或多个应用程序1054、其他程序模块、和程序数据存储在计算机可读存储介质1050上。应当理解，存储在计算机可读存储介质1050上的程序1060和操作系统1052和应用程序1054可类似地由处理单元1020执行。还应当理解，应用1054和程序1060被一般地示出，并且可以包括本公开中所讨论的一个或多个应用和程序的全部或一部分，反之亦然，即，应用1054和程序1060可以是本公开中所讨论的一个或多个应用或程序的全部或一部分。还应理解，控制系统70(图5中示出)可包括计算机系统1010及其部件的全部或部分，和/或控制系统可与计算机系统1010及其部件的全部或部分通信，作为远程计算机系统，以实现本公开中描述的控制系统功能。还应理解的是，图1中所示的一个或多个通信装置110同样可包括计算机系统1010及其组件的全部或部分，和/或通信装置可与作为远程计算机系统的计算机系统1010及其组件的全部或部分通信，以实现本公开中所描述的计算机功能。

一个或多个程序可以被存储在一个或多个计算机可读存储介质中，使得在计算机可读存储介质中体现和/或编码程序。在一个示例中，所存储的程序可以包括用于由处理器或具有处理器的计算机系统执行以执行方法或使计算机系统执行一个或多个功能的程序指令。计算机1010还可以与诸如键盘、定点设备、显示器1080等的一个或多个外部设备1074通信；和/或使得计算机1010能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口1022发生。此外，计算机1010可以经由网络适配器/接口1026与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)的一个或多个网络1200通信。如图所示，网络适配器1026通过总线1014与计算机1010的其他部件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机1010结合使用。示例包括但不限于：微代码、设备驱动器1024、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据归档存储系统等。

应当理解，计算机或在计算机1010上运行的程序可以经由一个或多个通信网络(体现为通信网络1200)与体现为服务器1100的服务器通信。通信网络1200可包括传输介质和网络链路，其包括例如无线、有线或光纤以及路由器、防火墙、交换机和网关计算机。通信网络可包括连接，诸如有线、无线通信链路或光纤电缆。通信网络可表示使用各种协议彼此通信的网络和网关(诸如互联网)的全球集合，诸如轻量目录访问协议(LDAP)、传输控制协议/互联网协议(TCP/IP)、超文本传输协议(HTTP)、无线应用协议(WAP)等。网络还可以包括许多不同类型的网络，例如内联网、局域网(LAN)或广域网(WAN)。

在一个示例中，计算机可使用可使用互联网来访问Web(万维网)上的网站的网络。在一个实施例中，包括移动设备的计算机1010可以使用通信系统或网络1200，该通信系统或网络1200可以包括互联网、或例如蜂窝网络的公共交换电话网络(PSTN)。PSTN可以包括电话线、光纤电缆、传输链路、蜂窝网络和通信卫星。互联网可以促进多种搜索和文本收发技术，例如，使用蜂窝电话或膝上型计算机经由文本消息(SMS)、多媒体消息服务(MMS)(与SMS相关)、电子邮件或网络浏览器向搜索引擎发送查询。搜索引擎可以检索搜索结果，即，到对应于查询的网站、文档或其他可下载数据的链接，并且类似地，经由设备将搜索结果作为例如搜索结果的网页提供给用户。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

应当理解，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

共同体云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定共同体。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。混合云：云基础架构是两个或更多个云(私有、共同体或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图6，描述了说明性云计算环境2050。如图所示，云计算环境2050包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点2010，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话2054A、台式计算机2054B、膝上型计算机2054C和/或汽车计算机系统2054N。节点2010可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境2050提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图6中所示的计算装置2054A-N的类型仅旨在是说明性的，并且计算节点2010和云计算环境2050可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化装置通信。

现在参见图7，示出了由云计算环境2050(图6)提供的一组功能抽象层。应提前理解，图7中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层2060包括硬件和软件组件。硬件组件的示例包括：大型机2061；基于RISC(精简指令集计算机)架构的服务器2062；服务器2063；刀片服务器2064；存储设备2065；以及网络和联网组件2066。在一些实施例中，软件组件包括网络应用服务器软件2067和数据库软件2068。

虚拟化层2070提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器2071；虚拟存储2072；虚拟网络2073，包括虚拟专用网络；虚拟应用程序和操作系统2074；以及虚拟客户端2075。

在一个示例中，管理层2080可以提供以下描述的功能。资源供应2081提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价2082在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户2083为消费者和系统管理员提供对云计算环境的访问。服务水平管理2084提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行2085提供云计算资源的预安排和采购，根据该SLA预期该云计算资源的未来要求。

工作负载层2090提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航2091；软件开发和生命周期管理2092；虚拟教室教育交付2093；数据分析处理2094；事务处理2095；以及使用元学习来优化机器学习流水线2096的自动选择。

已经出于说明的目的呈现了本发明的各实施例的描述，但并不旨在是详尽的或者限于所公开的实施例。同样，本文描述的本公开的实施例的特征或功能的实例(无论是在特定实施例的描述中使用，还是作为实例列出)并非旨在限制本文描述的本公开的实施例，或者将本公开限制在本文描述的示例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种使用元学习机器学习模型自动选择机器学习模型流水线的计算机实现的方法，所述方法包括：

由所述计算机接收基础事实数据和流水线偏好元数据；

由所述计算机确定适合于所述基础事实数据的多个流水线，其中所述多个流水线中的每个流水线包括算法，并且所述流水线中的至少一个流水线包括相关联的数据预处理例程；

由所述计算机为所述多个流水线中的每个流水线生成目标数量的超参数集合；

由所述计算机将所述预处理例程应用于所述基础事实数据以生成所述基础事实数据的多个预处理的集合；

由所述计算机对所述流水线中的每个流水线的所述超参数集合中的每个超参数集合的超参数性能进行排序，以建立所述多个流水线中的每个流水线的优选的超参数集合；

由所述计算机采用句嵌入算法选择偏好的数据特征；

由所述计算机应用每个所述流水线以及所述优选的超参数集合来对所述基础事实数据的多个预处理的集合中的适当预处理的集合的偏好的数据特征进行评分，并根据其对流水线性能进行排序；以及

由所述计算机至少部分地根据流水线性能排序来选择候选流水线。

2.根据权利要求1所述的方法，其中，所述流水线性能的排序至少部分地基于由用户提供的流水线属性。

3.根据权利要求1所述的方法，还包括将多个流水线组装成协作的集成。

4.根据权利要求3所述的方法，其中，流水线评分协议的出现被突出显示。

5.根据权利要求3所述的方法，其中，所述集成被呈现给用户以供反馈，并且根据所述反馈所述集成中的流水线被选择性地从所述集成移除。

6.根据权利要求1所述的方法，其中，所述偏好的数据特征是至少部分地考虑数据处理时间来选择的。

7.根据权利要求1所述的方法，还包括由所述计算机从用户接收关于所述数据特征的域知识，并且将所述域知识作为特征工程的形式应用。

8.根据权利要求1所述的方法，其中，所述流水线性能的排序至少部分地基于数据评分准确度。

9.根据权利要求1所述的方法，其中，所述超参数集合是至少部分地根据为与所述超参数相关联的算法提供最佳性能的统计可能性来选择的。

10.一种使用元学习机器学习模型来自动选择机器学习模型流水线的系统，所述系统包括：

计算机系统，包括具有程序指令的计算机可读存储介质，所述程序指令可由计算机执行以使所述计算机：

接收基础事实数据和流水线偏好元数据；

确定适合于所述基础事实数据的多个流水线，其中所述多个流水线中的每个流水线包括算法，并且所述流水线中的至少一个流水线包括相关联的数据预处理例程；

为所述多个流水线中的每个流水线生成目标数量的超参数集合；

将所述预处理例程应用于所述基础事实数据以生成所述基础事实数据的多个预处理的集合；

对所述流水线中的每个流水线的所述超参数集合中的每个超参数集合的超参数性能进行排名，以建立所述多个流水线中的每个流水线的优选的超参数集合；

应用句嵌入算法来选择偏好的数据特征；

应用每个所述流水线以及所述优选的超参数集合来对所述基础事实数据的多个预处理的集合中的适当预处理的集合的偏好的数据特征进行评分，并且根据其对流水线性能进行排序；以及

至少部分地根据流水线性能排序选择候选流水线。

11.根据权利要求10所述的系统，其中，所述流水线性能的排序至少部分地基于由用户提供的流水线属性。

12.根据权利要求10所述的系统，还包括将多个流水线组装成协作的集成。

13.根据权利要求12所述的系统，其中，流水线评分协议的出现被突出显示。

14.根据权利要求12所述的系统，其中，所述集成被呈现给用户以供反馈，并且根据所述反馈所述集成中的流水线被选择性地从所述集成移除。

15.根据权利要求10所述的系统，其中，所述偏好的数据特征是至少部分地考虑数据处理时间来选择的。

16.根据权利要求10所述的系统，还包括由所述计算机从用户接收关于所述数据特征的域知识，并且将所述域知识作为特征工程的形式应用。

17.根据权利要求10所述的系统，其中，所述流水线性能的排序至少部分地基于数据评分准确度。

18.根据权利要求10所述的系统，其中，所述超参数集合是至少部分地根据为与所述超参数相关联的算法提供最佳性能的统计可能性来选择。

19.一种使用用于电子群组会议中的多个参与者的元学习机器学习模型来自动选择机器学习模型流水线的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有程序指令，所述程序指令可由计算机执行以致使所述计算机：

使用所述计算机接收基础事实数据和流水线偏好元数据；

使用所述计算机确定适合于所述基础事实数据的多个流水线，其中所述多个流水线中的每个流水线包括算法，并且所述流水线中的至少一个流水线包括相关联的数据预处理例程；

使用所述计算机为所述多个流水线中的每个流水线生成目标数量的超参数集合；

使用所述计算机将所述预处理例程应用于所述基础事实数据以生成所述基础事实数据的多个预处理的集合；

使用所述计算机对所述流水线中的每个流水线的所述超参数集合中的每个超参数集合的超参数性能进行排序，以建立所述多个流水线中的每个流水线的优选的超参数集合；

使用所述计算机应用句嵌入算法来选择偏好的数据特征；

使用所述计算机应用每个所述流水线以及所述优选的超参数集合来对所述基础事实数据的多个预处理的集合中的适当预处理的集合的偏好的数据特征进行评分，并且根据其对流水线性能进行排序；以及

使用所述计算机至少部分地根据所述流水线性能排名选择候选流水线。

20.根据权利要求19所述的计算机程序产品，还包括：

使用所述计算机将多个流水线组装成协作的集成；

使用所述计算机将所述协作的集成呈现给用户以供反馈；以及

使用所述计算机根据所述反馈选择性地从所述集成移除流水线。