CN116368504A

CN116368504A - 机器学习流水线的分布式资源感知训练

Info

Publication number: CN116368504A
Application number: CN202180069975.8A
Authority: CN
Inventors: S·萨瑟; G·布拉布勒; L·武; T·萨洛尼迪斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-13
Filing date: 2021-09-16
Publication date: 2023-06-30
Also published as: US20220114019A1; DE112021004663T5; GB2614475A; WO2022079517A1; GB202304310D0; AU2021359236A1; AU2021359236B2; US11829799B2; KR20230061423A; JP2023544904A; GB2614475B

Abstract

一种用于预测流水线训练要求的方法、结构和计算机系统。示例性实施例可以包括从一个或多个工作者节点接收一个或多个工作者节点特征，从要被训练的一个或多个流水线中提取一个或多个流水线特征，以及从用于训练一个或多个流水线的一个或多个数据集中提取一个或多个数据集特征。示例性实施例还可以包括基于使一个或多个工作者节点特征、一个或多个流水线特征和一个或多个数据集特征与一个或多个资源相关的一个或多个模型，预测一个或多个工作者节点中的每一个使用一个或多个数据集训练一个或多个流水线所需的一个或多个资源的量。最后，示例性实施例可以包括标识一个或多个工作者节点中需要最少量的一个或多个资源用于训练一个或多个流水线的工作者节点。

Description

机器学习流水线的分布式资源感知训练

背景技术

示例性实施例总体上涉及机器学习流水线，并且更具体地涉及自动化机器学习流水线的分布式资源感知训练。

自动化机器学习通常涉及训练若干流水线。这些流水线由流水线优化框架生成，流水线优化框架探索和布置各种变换器和估计器以找到最佳流水线。在分布式环境中训练这些流水线是挑战性的问题，因为不可能事先知道训练流水线将花费多少时间和资源。因此，流水线当前不能被智能地分配给工作者节点。

发明内容

示例性实施例公开了一种用于流水线训练的方法、结构和计算机系统。示例性实施例可以包括从一个或多个工作者节点接收一个或多个工作者节点特征，从一个或多个要被训练的流水线中提取一个或多个流水线特征，以及从用于训练一个或多个流水线的一个或多个数据集中提取一个或多个数据集特征。示例性实施例还可包括基于使一个或多个工作者节点特征、一个或多个流水线特征和一个或多个数据集特征与一个或多个资源相关的一个或多个模型，预测一个或多个工作者节点中的每一个使用一个或多个数据集训练一个或多个流水线所需的一个或多个资源的量。最后，示例性实施例可以包括标识一个或多个工作者节点中需要最少量的一个或多个资源用于训练一个或多个流水线的工作者节点。

附图说明

结合附图，将最好地理解以下具体实施方式，其通过示例给出并且不旨在将示例性实施例仅限制于此，其中：

图1描绘了根据示例性实施例的流水线训练系统100的示例性示意图。

图2描绘了根据示例性实施例的示出流水线训练系统100的联合优化器132的操作的示例性流程图200。

图3描绘了根据示例性实施例的示出流水线训练系统100的联合优化器132的操作的示例。

图4描绘了根据示例性实施例的描绘图1的流水线训练系统100的硬件组件的示例性框图。

图5描绘了根据示例性实施例的云计算环境。

图6描绘了根据示例性实施例的抽象模型层。

附图不一定是按比例的。附图仅仅是示意性表示，而不是旨在描绘示例性实施例的具体参数。附图旨在仅描述典型的示例性实施例。在附图中，相同的附图标记表示相同的元素。

具体实施方式

本文公开了所要求保护的结构和方法的具体实施例；然而，可以理解，所公开的实施例仅仅是对可以以各种形式实施的所要求保护的结构和方法的说明。示例性实施例仅是说明性的，然而，可以以许多不同的形式来实施，并且不应被解释为限于本文阐述的示例性实施例。相反，提供这些示例性实施例是为了使本公开透彻和完整，并且将向本领域技术人员充分传达示例性实施例所覆盖的范围。在描述中，可以省略公知的特征和技术的细节，以避免不必要地模糊所呈现的实施例。

说明书中对“一个实施例”、“一实施例”、“示例性实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可以不一定包括该特定特征、结构或特性。此外，这样的短语不一定是指相同的实施例。此外，当结合实施例描述特定特征、结构或特性时，认为结合其它实施例实现这样的特征、结构或特性是在本领域技术人员的知识范围内的，而不管是否明确描述。

为了不模糊示例性实施例的呈现，在以下具体实施方式中，本领域已知的一些处理步骤或操作可能已经被组合在一起以用于呈现和用于说明目的，并且在一些情况下可能没有被详细描述。在其它情况下，可能根本不描述本领域已知的一些处理步骤或操作。应当理解，下面的描述集中在根据各种示例性实施例的区别特征或要素上。

机器学习流水线是跟随有估计器的一系列操作(诸如数据预处理、离群值检测、特征工程等)。这样的流水线可以通过称为联合优化器的算法来管理，该联合优化器负责1)将各种流水线组装在一起；2)使用交叉验证来训练所组装的流水线中的每一个；3)分析结果；以及4)决定接下来要执行哪些流水线。联合优化器可以继续该过程，直到其找到最佳流水线。在由联合优化器执行的任务中，使用交叉验证来训练所组装的流水线中的每一个是计算负担最大的步骤，以及是本文要求保护的发明的焦点，本发明公开了机器学习流水线的资源感知训练的新颖方法。

存在用于训练流水线的方法，然而每种技术具有各自的缺点。例如，在当前

系统中(AutoAI是IBM公司的注册商标)，所有组装的流水线在单个工作者节点上执行。在另一示例中，背包/装箱技术使用流水线的长度来量化流水线。或者，贪婪装箱近似算法，例如，第一拟合装箱，将不同体积的物品包装到有限数量的箱或容器中，每个箱或容器以最小化所使用的箱的数量的方式具有固定的给定体积。另外存在循环(round robin)技术，其中流水线以特定重复次序分布。

然而，前述方法存在若干问题。首先，它们不估计特定流水线训练将花费多少时间，因为各种机器学习算法具有不同的复杂度。其次，诸如循环的技术没有考虑机器的繁忙程度以及它们是否能够处理特定流水线的训练。

本文要求保护的本发明通过使用数据驱动方法来克服前述方法的缺陷，该数据驱动方法查看过去的性能并构建流水线训练的预测模型。更具体地说，所要求保护的发明可以预测训练流水线的资源要求，并且连续地学习使用先前流水线执行的数据来改进预测。

图1描绘了根据示例性实施例的流水线训练系统100。根据示例性实施例，流水线训练系统100可包括一个或多个工作者节点120A-K和流水线训练服务器130，其全部可经由网络108互连。虽然示例性实施例的编程和数据可以经由网络108跨若干服务器远程地存储和访问，但是示例性实施例的编程和数据可以替代地或附加地本地存储在少至一个物理计算设备上或除了所描绘的那些之外的其他计算设备之中。

在示例性实施例中，网络108可以是能够在连接的设备之间传输数据的通信信道。在示例性实施例中，网络108可以是因特网，表示支持连接到因特网的设备之间的通信的网络和网关的世界范围的集合。此外，网络108可以利用各种类型的连接，诸如有线、无线、光纤等，其可以被实现为内联网、局域网(LAN)、广域网(WAN)或其组合。在另外的实施例中，网络108可以是蓝牙网络、Wi-Fi网络或其组合。网络108可以在包括2.4GHz和5GHz互联网、近场通信、Z-Wave、Zigbee等的频率中操作。在又一些实施例中，网络108可以是用于促进两方或更多方通话呼叫的电信网络，包括陆线网络、无线网络、封闭网络、卫星网络或其组合。通常，网络108可以表示将支持连接的设备之间的通信的连接和协议的任何组合。

在示例性实施例中，一个或多个工作者节点120A-K可以各自是企业服务器、膝上型计算机、笔记本、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、服务器、个人数字助理(PDA)、旋转电话、按键式电话、智能电话、移动电话、虚拟设备、瘦客户机、IoT设备或者能够向其它计算设备发送数据和从其它计算设备接收数据的任何其它电子设备或计算系统。所述一个或多个工作者节点120A-K中的每一个可被配置为训练一个或多个机器学习流水线。在示例性实施例中，假设一个或多个工作者节点120A-K中的每一个具有对同一数据集的访问，且可在一个或多个工作者节点120A-K中的单个工作者节点120上训练每个流水线。参考图4将一个或多个工作者节点120A-K更详细地描述为硬件实现方式，参考图5将其描述为云实现方式的一部分，和/或参考图6将其描述为利用功能抽象层进行处理。

在示例性实施例中，流水线训练服务器130包括联合优化器132、性能预测器134和负载平衡器136。流水线训练服务器130可以是企业服务器、膝上型计算机、笔记本、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、服务器、个人数字助理(PDA)、旋转电话、按键式电话、智能电话、移动电话、虚拟设备、瘦客户机、IoT设备或能够向其他计算设备发送数据和从其他计算设备接收数据的任何其他电子设备或计算系统。虽然流水线训练服务器130被示出为单个设备，但是在其他实施例中，流水线训练服务器130可以以模块化方式等由一起工作或独立工作的集群或多个计算设备组成。参考图4将流水线训练服务器130更详细地描述为硬件实现方式，参考图5将其描述为云实现方式的一部分，和/或参考图6将其描述为利用功能抽象层进行处理。

在实施例中，联合优化器132可以是能够将各种流水线组装在一起、使用交叉验证来训练每个组装的流水线、分析结果、以及决定接下来执行哪些流水线的软件和/或硬件程序。具体地，并且关于使用交叉验证来训练组装的流水线中的每一个，联合优化器132还可以能够接收一个或多个工作者节点心跳特征并且提取一个或多个流水线特征和一个或多个数据集特征。联合优化器132还可以能够通过产生一个或多个模型且基于所述模型选择一个或多个工作者节点来预测所需的流水线训练资源。最后，联合优化器132能够基于反馈回路来调整模型。参照图2-图6更详细地描述了联合优化器132。

性能预测器134可以是能够预测训练流水线所需的资源量(例如，所需时间)的软件和/或硬件程序。参照图2-图6更详细地描述了性能预测器134。

负载平衡器136可以是能够在一组资源上分配一组任务以使其总体处理更有效的软件和/或硬件程序。参照图2-图6更详细地描述了性能预测器134。

图2描绘了根据示例性实施例的示出流水线训练系统100的联合优化器132的操作的示例性流程图200。在以下详细描述中，假设一个或多个工作者节点120A-K中的每一个具有对数据集的访问且可训练任何流水线。虽然仅参考了一个数据集，但是本领域技术人员将理解，所要求保护的发明适用于任何数量的数据集。

性能预测器134可从一个或多个工作者节点120A-K接收心跳特征(步骤202)。在实施例中，心跳特征量化工作者节点120A-K中的每一个的繁忙度和功率，并且可以包括从工作者节点数据提取的特征，诸如CPU和其中的核的数量、GPU和其中的核的数量、CPU和GPU利用率、CPU和GPU存储器和交换使用、以及vmstat和iostat命令的输出。在示例实施例中，心跳特征可以由联合优化器132的负载平衡器136经由网络108以预定义的间隔接收。然而，如果联合优化器132未能从一个或多个工作者节点120A-K中的任何一个接收到心跳特征，则联合优化器132将一个或多个不响应的工作者节点120A-K标记为不响应的，并且省略对其的训练预测，直到再次接收到心跳特征。在实施例中，联合优化器132可基于本文收集的心跳特征以及下文描述的流水线特征和数据集特征来训练用于确定工作者节点120A-K中的哪一个能够以最少量的资源训练流水线的模型。

为了更好地示出联合优化器132的操作，现在参考由图3描绘的说明性示例，其中联合优化器132被配置成训练两条流水线：1)对随机森林(RF)的主成分分析(PCA)；以及2)四个工作者节点120A、120B、120C和120D中的任一者上的支持向量机(SVM)的离群值检测(OD)。联合优化器132接收相应的心跳特征H1、H2、H3和H4，其包括CPU和其中的核的数量、GPU和其中的核的数量、CPU和GPU利用率、CPU和GPU存储器和交换使用、以及vmstat和iostat命令的输出。

联合优化器132可以提取流水线特征(步骤204)。在实施例中，流水线特征可以包括估计器的类型、预处理器的类型、特征工程的类型及其参数设置，并且联合优化器132可以通过执行对要被训练的一个或多个流水线的稀疏编码来经由性能预测器134提取流水线特征。具体地，联合优化器132可以将使用的变换器和估计器的条目设置为1，而将未使用的变换器和估计器设置为0。联合优化器132还可以编码每个单独的流水线部件的参数以创建流水线的编码版本。如上文所描述，联合优化器132可利用流水线特征连同心跳特征以及数据集特征来构建能够预测工作者节点120A-K中的哪一个可使用最少量的资源训练流水线的一个或多个模型。

回到以上介绍并由图3描绘的说明性示例，联合优化器132从上述第一流水线和第二流水线提取估计器的类型、预处理器的类型、特征工程的类型及其参数设置的特征。

联合优化器132可以提取一个或多个数据集特征(步骤206)。在实施例中，数据集特征捕获数据集的各种高级维度，并且所提取的数据集特征可以包括数据点的数量、特征的数量、交叉验证折叠的数量、具有分类值的特征的数量、具有实值的特征的数量、缺失值的数量和稀疏值的数量。如上文所描述，联合优化器132可利用数据集特征连同心跳特征和流水线特征来构建能够预测工作者节点120A-K中的哪一个可使用最少量的资源训练流水线的一个或多个模型。

继续前面介绍的图3所示的示例，联合优化器132可从数据集中提取数据集特征，其包括来自数据集的数据点的数量、特征的数量、CV折叠的数量、具有分类值的特征的数量、具有实值的特征的数量、缺失值的数量和稀疏特征的数量。

联合优化器132可以预测所需的流水线训练资源(步骤208)。在实施例中，联合优化器132可经由性能预测器134预测一个或多个工作者节点120A-K中的每一个训练相应流水线所需的性能测量。这样的所需的性能测量可以包括时间、功率消耗、峰值存储器使用、峰值CPU利用等。在实施例中，联合优化器132可以使用机器学习或深度学习模型来预测所需的流水线训练资源。在这样的实施例中，联合优化器132可以接收流水线特征、数据集特征和心跳特征作为输入，从这些输入使用诸如随机森林、GBM、逻辑回归、深度神经网络和自动编码器之类的算法来训练模型。所述模型捕获上述特征中的每一个如何影响工作者节点120A-K中的每一个训练流水线所需的资源量。一旦训练了模型，联合优化器132就能够将训练后的模型应用于心跳特征、流水线特征和数据集特征的新集合，以便输出关于训练流水线的每个工作者节点的预测的性能测量。联合优化器132然后可以基于将预测的性能测量与实际性能测量进行比较来调整模型，如将在下面更详细描述的。

进一步描述图3所说明的先前介绍的示例，联合优化器132预测工作者节点120A-D可分别在A、B、C和D分钟内训练第一流水线，且分别在W、X、Y和Z分钟内训练第二流水线。联合优化器132还可以预测峰值CPU使用等。

联合优化器132可选择工作者节点(步骤210)。在实施例中，联合优化器132可基于所需的预测的流水线训练资源来选择一个或多个工作者节点120A-K中的至少一个工作者节点用于执行流水线。在实施例中，联合优化器132可基于ε-贪婪或多臂赌博机(Multi ArmBandit)问题方法来选择一个或多个工作者节点120A-K。在ε-贪婪或艾普西隆(epsilon)-贪婪方法中，联合优化器132选择具有概率(1-ε)的最佳预测的工作者节点120A-K和具有概率ε的随机工作者节点120A-K。例如，联合优化器132然后可以选择前三个预测的工作者(1-ε)，其中ε被设置在0.05和0.1之间，并且选择具有概率ε的三个随机工作者。在大多数情况下，联合优化器132将选择最佳预测的工作者节点120A-K，然而，存在联合优化器132选择随机工作者节点120A-K的小机会。在多臂赌博机方法中，联合优化器132可以通过首先选择三个随机工作者并且执行流水线n次迭代来训练模型，例如，n＝1000。一旦联合优化器132已经做出了足够的评估来识别最佳执行工作者节点120A-K，联合优化器132然后可以将所有流水线发送到最佳执行工作者节点120A-K。如果联合优化器132确定最佳执行工作者节点120A-K的性能因此而降低，则联合优化器132然后可以返回以随机地识别最佳执行工作者节点120A-K并且重复该过程。

参考先前介绍的示例，联合优化器132选择工作者节点120A来训练第一流水线，以及选择工作者节点120B来训练第二流水线。

联合优化器132可以基于反馈环路来调整模型(步骤212)。在实施例中，联合优化器132可通过确定在由一个或多个工作者节点120A-K训练一个或多个流水线之后的损失来调整模型。具体地，联合优化器132可接收预测的所需流水线训练资源和消耗的实际流水线训练资源，然后基于方程1输出损失：

损失＝(预测的资源-实际资源)²方程1

联合优化器132然后可以使用梯度下降来反向传播损失。

总结由图3描绘的上述示例，联合优化器132基于在工作者节点120A训练第一流水线且工作者节点120B训练第二流水线时识别损失来调整模型。

所要求保护的发明的关键特征包括通过损失的反向传播随着时间的推移而改进的性能、使用多臂赌博机方法生成各种训练数据、以及使用连续预测、收集训练数据、学习和更好预测的随机森林系统。

本领域技术人员将理解，前述发明可以在例如自动机器学习和人工智能、分布式流水线训练、快速和连续数据科学流水线联合优化以及机器学习训练流水线的负载平衡的领域内实现。所要求保护的系统可以在例如Kubernetes和Docker平台中实现，其中一个或多个工作者节点120A-K是Docker容器，并且心跳特征可以使用kubectl来获得。此外，机器学习/深度学习模型和ε-贪婪模型可以在集群中的初级或微服务上运行。此外，可以使用自动扫描器或使用ML/DL模型的输出手动创建容器来缩放系统，并且容器可以将每个流水线训练的输出写入到共享云或网络存储，使得模型可以从存储拾取数据并且梯度下降它们的损失。

图4描绘根据示例性实施例的在图1的流水线训练系统100内使用的设备的框图。应当理解，图4仅提供了一种实现方式的说明，而不暗示对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。

本文使用的设备可以包括一个或多个处理器02、一个或多个计算机可读RAM 04、一个或多个计算机可读ROM 06、一个或多个计算机可读存储介质08、设备驱动器12、读/写驱动器或接口14、网络适配器或接口16，所有这些都通过通信结构18互连。通信结构18可以用设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。

一个或多个操作系统10以及一个或多个应用程序11被存储在一个或多个计算机可读存储介质08上，用于由一个或多个处理器02经由一个或多个相应的RAM 04(通常包括高速缓冲存储器)来执行。在所示实施例中，每个计算机可读存储介质08可以是内部硬盘驱动器的磁盘存储设备、CD-ROM、DVD、记忆棒、磁带、磁盘、光盘、诸如RAM、ROM、EPROM、闪存的半导体存储设备或能够存储计算机程序和数字信息的任何其它计算机可读有形存储设备。

本文使用的设备还可以包括读/写驱动器或接口14，以从一个或多个便携式计算机可读存储介质26读取和向其写入。所述设备上的应用程序11可以存储在一个或多个便携式计算机可读存储介质26上，经由相应的读/写驱动器或接口14读取，并加载到相应的计算机可读存储介质08中。

本文使用的设备还可以包括网络适配器或接口16，诸如TCP/IP适配卡或无线通信适配器(诸如使用OFDMA技术的4G无线通信适配器)。所述计算设备上的应用程序11可以从外部计算机或外部存储设备经由网络(例如，因特网、局域网或其他广域网或无线网络)和网络适配器或接口16下载到计算设备。从网络适配器或接口16，程序可以被加载到计算机可读存储介质08上。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

本文使用的设备还可以包括显示屏20、键盘或小键盘22、以及计算机鼠标或触摸板24。设备驱动器12与用于成像的显示屏20对接，与键盘或小键盘22对接，与计算机鼠标或触摸板24对接，和/或与用于压力感测字母数字字符输入和用户选择的显示屏20对接。设备驱动器12、读/写驱动器或接口14和网络适配器或接口16可包括硬件和软件(存储在计算机可读存储介质08和/或ROM 06上)。

本文描述的程序是基于在特定的一个示例性实施例中实现它们的应用来识别的。然而，应当理解，本文的任何特定程序术语仅为了方便而使用，因此示例性实施例不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

基于前述内容，公开了一种计算机系统、方法和计算机程序产品。然而，在不偏离示例性实施例的范围的情况下，可以进行许多修改和替换。因此，示例性实施例已经通过示例而非限制的方式公开。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所陈述的教导的实现不限于云计算环境。相反，示例性实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源池化：供应商的计算资源被集中以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级(例如，国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明性。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、社区或公有)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

现在参考图5，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点40，所述本地计算设备例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点40可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图5中所示的计算设备54A-N的类型仅旨在说明，并且计算节点40和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图6，示出了由云计算环境50(图5)提供的一组功能抽象层。应当预先理解，图6中所示的组件、层和功能仅旨在说明，并且示例性实施例不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户机75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪，以及用于消耗这些资源的开帐单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)计划和实现85提供对云计算资源的预先安排和采购，其中根据SLA预期未来需求。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航91；软件开发和生命周期管理92；虚拟教室教育递送93；数据分析处理94；交易处理95；以及流水线训练处理96。

示例性实施例可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，诸如Smalltalk、C++等)和过程编程语言(诸如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以作为一个步骤来实现，同时、基本同时、以部分或全部时间重叠的方式执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种用于预测流水线训练要求的计算机实现的方法，所述方法包括：

从一个或多个工作者节点接收一个或多个工作者节点特征；

从一个或多个要被训练的流水线中提取一个或多个流水线特征；

从用于训练所述一个或多个流水线的一个或多个数据集中提取一个或多个数据集特征；

基于使所述一个或多个工作者节点特征、一个或多个流水线特征和一个或多个数据集特征与所述一个或多个资源相关的一个或多个模型，预测所述一个或多个工作者节点中的每一个使用所述一个或多个数据集训练所述一个或多个流水线所需的一个或多个资源的量；以及

标识所述一个或多个工作者节点中需要最少量的所述一个或多个资源用于训练所述一个或多个流水线的工作者节点。

2.根据权利要求1所述的方法，还包括：

确定所述工作者节点训练所述一个或多个流水线所需的实际资源量；以及

基于将预测的资源量与所述实际资源量进行比较来调整所述一个或多个模型。

3.根据权利要求1所述的方法，其中所述一个或多个工作者节点特征分别包括CPU和其中的核的数量、GPU和其中的核的数量、CPU利用率、GPU利用率、CPU存储器、GPU存储器、CPU和GPU交换使用、以及vmstat和iostat命令的输出。

4.根据权利要求1所述的方法，其中所述一个或多个流水线特征包括估计器的类型、预处理器的类型、特征工程的类型及其参数设置。

5.根据权利要求1所述的方法，其中，所述一个或多个数据集特征包括数据点的数量、特征的数量、交叉验证折叠的数量、具有分类值的特征的数量、具有实值的特征的数量、缺失值的数量和稀疏值的数量。

6.根据权利要求1所述的方法，其中，所述一个或多个模型是经由随机森林、GBM、逻辑回归、深度神经网络和自动编码器来训练的。

7.根据权利要求1所述的方法，其中，所述一个或多个资源包含训练时间、功率消耗、峰值CPU利用率和峰值存储器利用率。

8.一种用于预测流水线训练要求的计算机程序产品，所述计算机程序产品包括：

一个或多个非暂时性计算机可读存储介质和存储在所述一个或多个非暂时性计算机可读存储介质上的能够执行方法的程序指令，所述方法包括：

从一个或多个工作者节点接收一个或多个工作者节点特征；

9.根据权利要求8所述的计算机程序产品，还包括：

10.根据权利要求8所述的计算机程序产品，其中，所述一个或多个工作者节点特征分别包括CPU和其中的核的数量、GPU和其中的核的数量、CPU利用率、GPU利用率、CPU存储器、GPU存储器、CPU和GPU交换使用、以及vmstat和iostat命令的输出。

11.根据权利要求8所述的计算机程序产品，其中，所述一个或多个流水线特征包括估计器的类型、预处理器的类型、特征工程的类型及其参数设置。

12.根据权利要求8所述的计算机程序产品，其中，所述一个或多个数据集特征包括数据点的数量、特征的数量、交叉验证折叠的数量、具有分类值的特征的数量、具有实值的特征的数量、缺失值的数量和稀疏值的数量。

13.根据权利要求8所述的计算机程序产品，其中，所述一个或多个模型是经由随机森林、GBM、逻辑回归、深度神经网络和自动编码器来训练的。

14.根据权利要求8所述的计算机程序产品，其中，所述一个或多个资源包括训练时间、功率消耗、峰值CPU利用率和峰值存储器利用率。

15.一种用于预测流水线训练要求的计算机系统，所述系统包括：

一个或多个计算机处理器、一个或多个计算机可读存储介质、以及存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令用于由能够执行一种方法的所述一个或多个处理器中的至少一个处理器执行，所述方法包括：

从一个或多个工作者节点接收一个或多个工作者节点特征；

16.根据权利要求15所述的计算机系统，还包括：

17.根据权利要求15所述的计算机系统，其中，所述一个或多个工作者节点特征分别包括CPU和其中的核的数量、GPU和其中的核的数量、CPU利用率、GPU利用率、CPU存储器、GPU存储器、CPU和GPU交换使用、以及vmstat和iostat命令的输出。

18.根据权利要求15所述的计算机系统，其中，所述一个或多个流水线特征包括估计器的类型、预处理器的类型、特征工程的类型及其参数设置。

19.根据权利要求15所述的计算机系统，其中，所述一个或多个数据集特征包括数据点的数量、特征的数量、交叉验证折叠的数量、具有分类值的特征的数量、具有实值的特征的数量、缺失值的数量和稀疏值的数量。

20.根据权利要求15所述的计算机系统，其中，所述一个或多个模型是经由随机森林、GBM、逻辑回归、深度神经网络和自动编码器来训练的。