CN110704178B - 机器学习模型训练方法、平台、电子设备及可读存储介质 - Google Patents

机器学习模型训练方法、平台、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110704178B
CN110704178B CN201910834162.8A CN201910834162A CN110704178B CN 110704178 B CN110704178 B CN 110704178B CN 201910834162 A CN201910834162 A CN 201910834162A CN 110704178 B CN110704178 B CN 110704178B
Authority
CN
China
Prior art keywords
component
task
components
model
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910834162.8A
Other languages
English (en)
Other versions
CN110704178A (zh
Inventor
郭圣昱
杨一帆
张弓
屠川川
华嘉炜
晋欢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910834162.8A priority Critical patent/CN110704178B/zh
Publication of CN110704178A publication Critical patent/CN110704178A/zh
Application granted granted Critical
Publication of CN110704178B publication Critical patent/CN110704178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施例提供了一种机器学习模型训练方法、平台、电子设备及可读存储介质,所述方法包括:任务配置层创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;所述任务调度层响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;所述任务执行层响应于所述执行指令,执行所述待执行组件。本公开实施例可以加快机器学习模型的训练速度。

Description

机器学习模型训练方法、平台、电子设备及可读存储介质
技术领域
本公开的实施例涉及网络技术领域,尤其涉及一种机器学习模型训练方法、平台、电子设备及可读存储介质。
背景技术
随着互联网技术的迅速发展,使得业务数据的积累和使用更加方便,这也使得机器学习的应用更加广泛,例如,可以应用于搜索,推荐,广告,图像识别,机器翻译等领域。
为了使用户能够灵活配置机器学习模型的训练流程,可以将机器学习模型划分为多个组件,各组件可以实现不同的功能或者执行不同的任务,且每个组件独立执行。
然而,对组件功能的进一步细化,使得一个流程简单的机器学习模型也会包含大量的组件,在执行机器学习模型的训练流程的过程中,需要执行大量的组件,不仅耗费较多的时间资源而且需要占用更多的存储空间,导致模型训练的效率较低。
发明内容
本公开的实施例提供一种机器学习模型训练方法、平台、电子设备及可读存储介质,用以提高模型训练的效率。
根据本公开的实施例的第一方面,提供了一种机器学习模型训练方法,所述方法包括:
任务配置层创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
所述任务调度层响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
所述任务执行层响应于所述执行指令,执行所述待执行组件。
根据本公开的实施例的第二方面,提供了一种机器学习模型训练平台,所述平台包括:
任务配置层,用于创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
任务调度层,用于响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
任务执行层,用于响应于所述执行指令,执行所述待执行组件。
根据本公开的实施例的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述机器学习模型训练方法。
根据本公开的实施例的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述机器学习模型训练方法。
本公开的实施例提供了一种机器学习模型训练方法、平台、电子设备及可读存储介质,所述方法包括:
任务配置层创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
所述任务调度层响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
所述任务执行层响应于所述执行指令,执行所述待执行组件。
本公开实施例在任务调度层,通过解析待训练模型的拓扑结构,合并满足合并条件的组件,进而可以减少待执行组件的数量,使得任务执行层可以最大化并行运行待训练模型中的组件,不仅可以加快机器学习模型的训练速度,而且可以节省模型训练的时间资源和空间资源。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的一个实施例中的机器学习模型训练方法的步骤流程图;
图2示出了在本公开的一个实施例中的一种待训练模型的流程示意图;
图3示出了在本公开的一个实施例中的机器学习模型训练平台的结构图;
图4示出了本公开的一个实施例提供的电子设备的结构图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,其示出了本公开的一个实施例中的机器学习模型训练方法的步骤流程图,包括:
步骤101、任务配置层创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
步骤102、所述任务调度层响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
步骤103、所述任务执行层响应于所述执行指令,执行所述待执行组件。
本公开实施例提供的机器学习模型训练方法可应用于机器学习训练平台,在本公开实施例中,任务调度层对待训练模型中满足合并条件的组件进行合并,可以减少任务执行层所需执行的待执行组件的数量,进而可以加快机器学习模型的训练速度,节省模型训练的时间资源和空间资源。
具体地,本公开实施例的机器学习训练平台可以包括如下三个部分:任务配置层、任务调度层、以及任务执行层。其中,任务配置层用于配置机器学习模型,创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求。任务调度层用于响应于所述待训练模型对应的模型训练请求,对待训练模型的各组件中满足合并调节的组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令。任务执行层用于响应于所述执行指令,执行所述待执行组件。
在本公开的一种可选实施例中,所述待训练模型为用户通过拖拽方式在所述任务配置层预置界面的画布中添加组件的方式所生成;所述预置界面中包括:用于向画布中拖拽组件的组件容器、以及预置格式的画布。
在任务配置层,本公开实施例可以在前端展示预置界面,所述预置界面中包括:用于向画布中拖拽组件的组件容器、以及预置格式的画布。用户通过拖拽的方式,从组件容器中将所需的组件拖动至画布中,生成待训练模型的流程图。
此外,本公开实施例在生成待训练模型的流程图的过程中,对流程图的展示和存储进行分离。具体地,将所述流程图对应的拓扑结构、以及所述流程图对应的画布文件,保存在后端;前端仅用于对流程图进行展现。其中,前端指的是web(World Wide Web,万维网)前端,后端指的是服务端。
在任务配置层,本公开实施例允许用户通过拖拽式的交互,将组件拖动到前端预置界面的画布上,使得用户可以自由配置待训练模型的组件以及组件之间的连线,可选地,所述画布的格式可以为svg(Scalable Vector Graphics,可伸缩矢量图形)。
在本公开实施例中,所述组件可以包含名称,输入端口,输出端口和配置参数等属性,用户可以通过拖拽的方式将组件拖动到画布上,并且设置组件的属性。针对用户在画布中创建的每一个模型,本公开实施例在系统中保存该模型对应的config(模型配置),并且建立该模型配置对应的唯一configId(配置标识),用于标识该模型配置的所有配置信息。
在本公开实施例中,用户在画布上的所有操作都会触发保存操作,前端将整个svg图像的代码以及组件的拓扑结构发送到后端。其中,用户在画布上的操作包括但不限于:拖拽组件到画布上,连接两个组件的数据端口,修改组件名称,调整组件在画布上的位置。此外,用户还可以通过选中组件来查看组件的配置参数,这些参数可以在画布右侧的输入框中进行修改。每一个组件在被拖拽到画布上时,平台会为它分配一个唯一的nodeId(节点标识),svg代码中也会记录这个nodeId作为画布和组件之间的对应关系。当两个组件通过边相连时,平台会生成一个唯一的edgeId(边标识)记录边与节点之间的关系。根据用户拖动到画布上的组件,可以生成待训练模型流程图中的节点,根据用户在画布中组件之间的连线,可以生成节点之间的边。
后端通过有向图的形式记录模型配置的拓扑结构,同时把画布的svg代码完整地记录下来,可用于还原用户的画布。当用户再次打开已保存的画布时,前端可以通过configId从后端请求模型配置的拓扑结构和画布svg代码。然后通过svg代码在前端的预置解密中绘制出整个画布。当用户选中画布中的某一个组件时,前端可以通过该组件的nodeId,从后端获取到该组件的组件信息,反馈到右侧的组件参数中,以供用户查看或者修改。
在本公开实施例中,在任务配置层,前端通过svg代码和拓扑结构分离的手段,可以解决画布保存以及如何与组件建立一一对应关系的问题,并且通过svg画布可以实现拖拽式交互的组件配置方法,可以避免用户需要上传代码才能完成组件配置的问题,可以降低平台的使用门槛。
在本公开实施例中,任务调度层负责模型训练任务的调度。具体地,当用户在任务配置层配置生成待训练模型,并且触发该待训练模型的模型训练请求时,任务调度层可以接收到该模型训练请求对应的运行任务,该运行任务中携带该待训练模型的模型配置标识configId。任务调度层可以根据该configId从数据库中获取该待训练模型的拓扑结构以及该待训练模型每个组件的配置信息。
在本公开的一种可选实施例中,所述模型训练请求为用户通过触发所述任务配置层预置界面中的按钮所生成;或者,所述模型训练请求为在所述待训练模型的预置更新时间到达的情况下自动触发。
具体地,本公开实施例可以在任务配置层的预置界面中设置用于触发模型训练请求的按钮,在接收到用户针对该按钮的触发操作时,可以认为接收到用户针对待训练模型触发模型训练请求。
或者,所述待训练模型对应的模型训练请求可以通过所述待训练模型的预置更新时间所触发。具体地,如果用户对待训练模型设置了预置更新时间,并且在下一次的预置更新时间到来的时候,可以触发该待训练模型的模型训练请求,此时,任务调度层会接收到该模型训练请求对应的运行任务。
在实际应用中,对于分布式任务通常按照拓扑结构的顺序从上向下依次执行拓扑结构中的节点,这样,将需要启动多个串行的分布式任务,每个任务都需要进行集群数据的I/O(Input/Output,输入/输出)操作,造成了任务执行缓慢。为了解决上述问题,本公开实施例的任务调度层获取该待训练模型的拓扑结构之后,对该拓扑结构进行解析,通过最大化并发执行、合并相关组件减少中间结果存储等手段,提高训练效率。
具体地,任务调度层根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件。通过启动一个分布式任务来执行,这样可以借助Spark(计算引擎)的Transform-Action计算图架构来有效加快任务执行,同时可以节省集群资源。
在本公开的一种可选实施例中,可以通过如下步骤确定满足合并条件的组件:
步骤S11、根据所述任务类型和运行状态,判断所述待训练模型的各组件中是否存在第一组件,若存在,则将所述第一组件加入预置列表;其中,所述第一组件的任务类型为非单步类型、以及所述第一组件的所有前驱组件的运行状态均为已完成状态;
步骤S12、在所述预置列表中各组件的后继节点中,判断是否存在第二组件,若存在,则将所述第二组件加入所述预置列表,直至所述预置列表中各组件的后继节点中不存在第二组件;其中,所述第二组件的任务类型为非单步类型、以及所述第二组件不存在任务类型为单步类型且运行状态为未运行状态的前驱组件;
步骤S13、确定所述预置列表中的组件为满足合并条件的组件。
在本公开实施例中,可以根据组件的任务类型和运行状态将节点分为如下两种:单步任务和可合并任务。其中,单步任务不可进行合并,可合并任务可以进行合并。在待训练模型的流程图中,如果某个节点的任务类型为非单步类型、以及该节点的所有前驱节点的运行状态均为已完成状态,则本公开实施例将该节点对应的组件称为第一组件,第一组件满足合并条件。或者,如果某个节点的任务类型为非单步类型、以及该节点不存在任务类型为单步类型且运行状态为未运行状态的前驱节点,则本公开实施例将该节点对应的组件称为第二组件,第二组件满足合并条件。
本公开实施例在待训练模型中的各组件中,确定第一组件和第二组件,并且将第一组件和第二组件加入预置列表,预置列表中的组件均为满足合并条件的组件。
可选地,待训练模型的流程图可以看作是一个有向无环图,本公开实施例在待训练模型的各组件中确定满足合并条件的组件的过程,就是根据该有向无环图,以及该有向无环图中各节点对应组件的配置信息和运行状态,确定预置列表的过程。
在本公开的一种可选实施例中,可以通过如下步骤确定满足合并条件的组件:
步骤S21、根据待训练模型中各组件的运行状态,确定列表S,列表S中各节点的所有前驱节点的运行状态均为已完成;
步骤S22、对于节点列表S中的每个节点Si,执行如下步骤:
若Si的任务类型为可合并任务,则将Si加入临时列表X;若Si的任务类型为单步类型,则将Si加入列表T;
步骤S23、对于Si的所有后继节点Pi,执行如下步骤:
若Pi的任务类型为可合并任务,则判断Pi的所有前驱节点中是否存在未执行的单步任务,若存在,则跳过Pi;否则,将Pi加入列表X;若Pi的任务类型为单步类型,则跳过Pi;
步骤S24、对于列表X中的所有Pi,递归执行步骤S23直到没有节点加入列表X;
步骤S25、将列表X中的节点加入列表T,列表T中各节点对应的组件均满足合并条件。
参照图2,示出了本公开实施例的一种待训练模型的流程示意图。如图2所示,任务类型为单步任务的节点包括:“tensorflow-gpu-DNN模型”和“tensorflow-gpu-预测”。这两个节点对应的组件需要在TF集群单独执行。其余节点的任务类型均为可合并任务,可以在分布式集群执行。
首先,在图2中寻找所有前驱节点均执行完成的节点,由于图2中初始状态包括“读数据表-训练集”和“读数据表-测试集”这两个节点,这两个节点的任务为读数据表,且这两个节点没有前驱节点,因此,可以将这两个节点加入列表S。
然后,判断列表S中各节点的任务类型,由于这两个节点的任务类型均为可合并任务,因此可以将这两个节点加入列表X。
接下来,判断列表S中各节点的所有后继节点(如图2所示,可以包括:“数据探查”、“空值填充”、“通用转换模型”)的任务类型,由于列表S中各节点的所有后继节点的任务类型均为可合并任务,因此,可以将后继结点“数据探查”、“空值填充”、“通用转换模型”均加入列表X。对于新加入列表X的后继节点,判断其后继节点(如图2所示,可以包括:“归一化”和“通用转换模型”)的任务类型,根据判断结果可以将后继节点“归一化”和“通用转换模型”加入列表X。由于后继结点“模型上线”的前驱节点包含“tensorflow-gpu-DNN模型”这一未执行的单步任务节点,因此,跳过后继结点“模型上线”。以此类推,直到不存在可加入列表X的后继结点。
最后,将列表X中的节点加入列表T,列表T中各节点对应的组件均满足合并条件。
在本公开的一种可选实施例中,所述待执行组件具体可以包括:对满足合并条件的至少两个组件进行合并后得到的组件、以及未合并的组件;所述未合并的组件包括:任务类型为单步类型的组件;或者,任务类型为非单步类型、以及存在任务类型为单步类型且运行状态为未运行状态的前驱组件的组件。
在对满足合并条件的组件进行合并之后可以得到待执行组件,待执行组件可以包括合并后得到的组件、以及未合并的组件。
其中,未合并的组件指待训练模型中不满足合并条件的组件,例如任务类型为单步类型的组件;或者,任务类型为非单步类型、以及存在任务类型为单步类型且运行状态为未运行状态的前驱组件的组件。
合并后的组件可以被视为一个普通组件和其他未合并的组件一起被调度。平台会查看当前运行资源的使用情况,通过调度算法为每个待执行组件单独选择合适的运行资源,并将运行指令通过zookeeper(分布式应用程序协调服务)发送到对应的任务执行层服务器上。此后任务调度层等待组件运行完成,然后继续调度当前可以执行的组件。
本公开实施例在任务调度层,通过解析待训练模型的拓扑结构,最大化并行运行组件,调度层通过合并满足合并条件的组件,高效执行拓扑图中的训练任务,节省运行总时间。在运行前进行组件合并,可以大幅减少需要落地的数据量,以及序列化反序列化操作的执行时间,从而加快模型训练的速度,可以避免组件个数过多导致运行效率下降的问题。
在本公开的一种可选实施例中,任务调度层可以根据待执行组件对应的任务类型,采取不同的调度策略。其中,待执行组件对应的任务类型可以包括:单机任务或者分布式任务。对于单机任务,任务调度层可以采取单个组件的调度策略,具体地,可以从各个节点中选择所有前驱已经执行完成的节点,将这些节点构建成可以执行的任务单元,发送给任务执行层进行执行,这样就可以最大化的并发执行各组件,以提高模型训练的效率。对于分布式任务,Transform-Action计算图架构来有效加快任务执行,同时可以节省集群资源。
在本公开的一种可选实施例中,所述执行指令中携带有所述待执行组件的执行类型;所述任务执行层响应于所述执行指令,执行所述待执行组件,具体可以包括:
所述任务执行层将执行类型为单机类型的待执行组件分配至对应的单机服务器进行执行,以及将执行类型为分布式类型的待执行组件分配至对应的分布式服务器进行执行。
在本公开实施例中,任务调度层可以向任务执行层发送待执行组件对应的执行指令,任务执行层响应于执行指令,执行待执行组件。具体地,任务执行层可以根据用户配置的待执行组件对应的执行类型,选择合适的计算资源,如果待执行组件对应的执行类型为分布式类型,则将该待执行组件对应的任务提交至指定的分布式集群进行执行,如果待执行组件对应的执行类型为单机类型,则将该待执行组件对应的任务分配给平台的单机worker进行执行。其中,worker是Spark的工作节点,用于执行分配的任务。
在本公开的一种可选实施例中,所述任务执行层响应于所述执行指令,执行所述待执行组件,具体可以包括:
所述任务执行层根据所述待执行组件的执行类型和运行状态,在所述待执行组件中,确定第三组件,并发执行所述第三组件;其中,所述第三组件的执行类型为单机类型、且所述第三组件的所有前驱组件的运行状态均为已完成状态。
在具体应用中,对于执行类型为单机类型的组件,如果采用串行方式顺序执行,将会导致执行效率较低。本公开实施例可以根据待执行组件的执行类型和运行状态,在所述待执行组件中,确定第三组件,并发执行所述第三组件。第三组件的执行类型为单机类型、且所述第三组件的所有前驱组件的运行状态均为已完成状态,因此,第三组件之间互不影响,可以并发同时执行,以缩短任务执行层执行待执行组件的时间,进而可以提高机器学习模型的训练效率。
在本公开的一种可选实施例中,任务执行层对于不同计算逻辑的组件可以使用不同的选择策略,具体的,任务执行层可以收集各台单机worker的系统指标,对于非计算密集型任务(如数据拉取)可以采用随机调度策略,对计算密集型任务(如模型训练)将选择CPU负载最低的worker来执行。
任务执行层可以从zookeeper中接收执行指令。所述执行指令中包含待执行组件的组件信息、待执行组件所需的运行资源、以及输入数据和输出结果的存放位置。任务执行层在接收到执行指令之后,可以为该待执行组件分配对应的运行资源,并监控该待执行组件对应任务的执行过程。在该待执行组件对应的任务执行完成后,通过zookeeper通知任务调度层,以使任务调度层可以调度下一个待执行组件。
在本公开实施例的机器模型训练平台中,执行层可以包含多种类型的执行资源,所述执行资源具体可以包括:单独执行机资源和集群资源。其中,对于单独执行机资源,通过在执行机上部署本地worker,可以起到接收执行指令以及监控任务执行情况的功能。对于集群资源,通过在一台能够连接集群的跳板机上部署worker的手段,可以将平台和集群连接起来,这个跳板机可以负责接收执行指令,向集群申请运行资源并监控在集群上的任务的运行情况。
本公开实施例通过在不同运行资源上单独部署worker,可以实现对接底层多种执行环境,使得任务调度层可以通过组件配置,合理选择运行资源,进而可以降低执行组件任务的成本。
此外,在本公开实施例中,任务调度层和任务执行层是完全解耦的,并且任务调度层可以对接多个任务执行层,可以针对不同的模型组件,灵活的选择不同的执行资源,甚至可以在一个模型执行流程中调用不同的执行资源,达到加速模型训练的效果。
综上,本公开实施例通过任务配置层创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;通过任务调度层响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;以及通过任务执行层响应于所述执行指令,执行所述待执行组件。本公开实施例在任务调度层,通过解析待训练模型的拓扑结构,合并满足合并条件的组件,进而可以减少待执行组件的数量,使得任务执行层可以最大化并行运行待训练模型中的组件,不仅可以加快机器学习模型的训练速度,而且可以节省模型训练的时间资源和空间资源。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开实施例所必须的。
实施例二
参照图3,其示出了在本公开的一个实施例中的机器学习模型训练平台的结构图,具体如下。
任务配置层301,用于创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
任务调度层302,用于响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
任务执行层303,用于响应于所述执行指令,执行所述待执行组件。
可选地,所述任务调度层,包括:组件确定模块,用于根据所述待训练模型中各组件对应的任务类型和运行状态,在所述各组件中确定满足合并条件的组件;所述组件确定模块,包括:
第一判断子模块,用于根据所述任务类型和运行状态,判断所述待训练模型的各组件中是否存在第一组件,若存在,则将所述第一组件加入预置列表;其中,所述第一组件的任务类型为非单步类型、以及所述第一组件的所有前驱组件的运行状态均为已完成状态;
第二判断子模块,用于在所述预置列表中各组件的后继节点中,判断是否存在第二组件,若存在,则将所述第二组件加入所述预置列表,直至所述预置列表中各组件的后继节点中不存在第二组件;其中,所述第二组件的任务类型为非单步类型、以及所述第二组件不存在任务类型为单步类型且运行状态为未运行状态的前驱组件;
确定子模块,用于确定所述预置列表中的组件为满足合并条件的组件。
可选地,所述待执行组件包括:对满足合并条件的至少两个组件进行合并后得到的组件、以及未合并的组件;所述未合并的组件包括:任务类型为单步类型的组件;或者,任务类型为非单步类型、以及存在任务类型为单步类型且运行状态为未运行状态的前驱组件的组件。
可选地,所述任务执行层,具体用于根据所述待执行组件的执行类型和运行状态,在所述待执行组件中,确定第三组件,并发执行所述第三组件;其中,所述第三组件的执行类型为单机类型、且所述第三组件的所有前驱组件的运行状态均为已完成状态。
可选地,所述执行指令中携带有所述待执行组件的执行类型,所述任务执行层,具体用于将执行类型为单机类型的待执行组件分配至对应的单机服务器进行执行,以及将执行类型为分布式类型的待执行组件分配至对应的分布式服务器进行执行。
可选地,所述模型训练请求为用户通过触发所述任务配置层预置界面中的按钮所生成;或者,所述模型训练请求为在所述待训练模型的预置更新时间到达的情况下自动触发。
可选地,所述待训练模型为用户通过拖拽方式在所述任务配置层预置界面的画布中添加组件的方式所生成;所述预置界面中包括:用于向画布中拖拽组件的组件容器、以及预置格式的画布。
综上所述,本公开的实施例提供了一种机器学习模型训练平台,所述平台包括:任务配置层301,用于创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;任务调度层302,用于响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;任务执行层303,用于响应于所述执行指令,执行所述待执行组件。本公开实施例的机器学习模型训练平台能够加快机器学习模型的训练速度,以及节省模型训练的时间资源和空间资源。
本公开的实施例还提供了一种电子设备,参见图4,包括:处理器401、存储器402以及存储在所述存储器上并可在所述处理器上运行的计算机程序4021,所述处理器执行所述程序时实现前述实施例的机器学习模型训练方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的机器学习模型训练方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的实施例的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的排序设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种机器学习模型训练方法,其特征在于,所述方法包括:
任务配置层创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
所述任务调度层响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
所述任务执行层响应于所述执行指令,执行所述待执行组件;
通过如下步骤确定满足合并条件的组件:
根据所述任务类型和运行状态,判断所述待训练模型的各组件中是否存在第一组件,若存在,则将所述第一组件加入预置列表;其中,所述第一组件的任务类型为非单步类型、以及所述第一组件的所有前驱组件的运行状态均为已完成状态;
在所述预置列表中各组件的后继节点中,判断是否存在第二组件,若存在,则将所述第二组件加入所述预置列表,直至所述预置列表中各组件的后继节点中不存在第二组件;其中,所述第二组件的任务类型为非单步类型、以及所述第二组件不存在任务类型为单步类型且运行状态为未运行状态的前驱组件;
确定所述预置列表中的组件为满足合并条件的组件。
2.根据权利要求1所述的方法,其特征在于,所述待执行组件包括:对满足合并条件的至少两个组件进行合并后得到的组件、以及未合并的组件;所述未合并的组件包括:任务类型为单步类型的组件;或者,任务类型为非单步类型、以及存在任务类型为单步类型且运行状态为未运行状态的前驱组件的组件。
3.根据权利要求1所述的方法,其特征在于,所述任务执行层响应于所述执行指令,执行所述待执行组件,包括:
所述任务执行层根据所述待执行组件的执行类型和运行状态,在所述待执行组件中,确定第三组件,并发执行所述第三组件;其中,所述第三组件的执行类型为单机类型、且所述第三组件的所有前驱组件的运行状态均为已完成状态。
4.根据权利要求1所述的方法,其特征在于,所述执行指令中携带有所述待执行组件的执行类型;
所述任务执行层响应于所述执行指令,执行所述待执行组件,包括:
所述任务执行层将执行类型为单机类型的待执行组件分配至对应的单机服务器进行执行,以及将执行类型为分布式类型的待执行组件分配至对应的分布式服务器进行执行。
5.根据权利要求1所述的方法,其特征在于,所述模型训练请求为用户通过触发所述任务配置层预置界面中的按钮所生成;或者,所述模型训练请求为在所述待训练模型的预置更新时间到达的情况下自动触发。
6.根据权利要求1所述的方法,其特征在于,所述待训练模型为用户通过拖拽方式在所述任务配置层预置界面的画布中添加组件的方式所生成;所述预置界面中包括:用于向画布中拖拽组件的组件容器、以及预置格式的画布。
7.一种机器学习训练平台,其特征在于,所述平台包括:
任务配置层,用于创建待训练模型,以及向任务调度层发送所述待训练模型对应的模型训练请求;
任务调度层,用于响应于所述待训练模型对应的模型训练请求,根据所述待训练模型中各组件对应的任务类型和运行状态,对所述各组件中满足合并条件的至少两个组件进行合并,得到待执行组件,以及向任务执行层发送所述待执行组件对应的执行指令;
任务执行层,用于响应于所述执行指令,执行所述待执行组件;
所述任务调度层,还用于确定满足合并条件的组件,具体包括:
根据所述任务类型和运行状态,判断所述待训练模型的各组件中是否存在第一组件,若存在,则将所述第一组件加入预置列表;其中,所述第一组件的任务类型为非单步类型、以及所述第一组件的所有前驱组件的运行状态均为已完成状态;
在所述预置列表中各组件的后继节点中,判断是否存在第二组件,若存在,则将所述第二组件加入所述预置列表,直至所述预置列表中各组件的后继节点中不存在第二组件;其中,所述第二组件的任务类型为非单步类型、以及所述第二组件不存在任务类型为单步类型且运行状态为未运行状态的前驱组件;
确定所述预置列表中的组件为满足合并条件的组件。
8.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中一个或多个所述的机器学习模型训练方法。
9.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-6中一个或多个所述的机器学习模型训练方法。
CN201910834162.8A 2019-09-04 2019-09-04 机器学习模型训练方法、平台、电子设备及可读存储介质 Active CN110704178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910834162.8A CN110704178B (zh) 2019-09-04 2019-09-04 机器学习模型训练方法、平台、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910834162.8A CN110704178B (zh) 2019-09-04 2019-09-04 机器学习模型训练方法、平台、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110704178A CN110704178A (zh) 2020-01-17
CN110704178B true CN110704178B (zh) 2023-05-23

Family

ID=69193645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910834162.8A Active CN110704178B (zh) 2019-09-04 2019-09-04 机器学习模型训练方法、平台、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110704178B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310936B (zh) * 2020-04-15 2023-06-20 光际科技(上海)有限公司 机器学习训练的构建方法、平台、装置、设备及存储介质
CN111736819B (zh) * 2020-06-22 2021-05-28 上海富数科技有限公司 实现联邦学习流程控制处理的系统
CN111767059B (zh) * 2020-06-30 2023-03-31 北京百度网讯科技有限公司 深度学习模型的部署方法、装置、电子设备和存储介质
CN112965803A (zh) * 2021-03-22 2021-06-15 共达地创新技术(深圳)有限公司 Ai模型生成方法及电子设备
CN113656157B (zh) * 2021-08-10 2024-04-23 北京锐安科技有限公司 一种分布式任务调度方法、装置、存储介质及电子设备
CN114006827B (zh) * 2021-09-27 2023-01-24 清华大学 时间触发调度模型的训练、时间触发调度方法及装置
CN117422155A (zh) * 2023-12-19 2024-01-19 深圳市魔数智擎人工智能有限公司 一种基于数据自动筛选的自动迭代模型服务系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101126983A (zh) * 2007-10-11 2008-02-20 金蝶软件(中国)有限公司 一种结构化模型的合并方法及系统
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109690530A (zh) * 2018-11-29 2019-04-26 袁振南 模型训练方法及其节点、网络及存储装置
CN110168495A (zh) * 2016-01-27 2019-08-23 伯尼塞艾公司 可被复用、重新配置和重组为人工智能模型的经训练的人工智能对象

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101126983A (zh) * 2007-10-11 2008-02-20 金蝶软件(中国)有限公司 一种结构化模型的合并方法及系统
CN110168495A (zh) * 2016-01-27 2019-08-23 伯尼塞艾公司 可被复用、重新配置和重组为人工智能模型的经训练的人工智能对象
CN109690530A (zh) * 2018-11-29 2019-04-26 袁振南 模型训练方法及其节点、网络及存储装置
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110704178A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110704178B (zh) 机器学习模型训练方法、平台、电子设备及可读存储介质
Bittencourt et al. Scheduling in hybrid clouds
CN109491777A (zh) 任务执行方法、装置、设备及存储介质
Amato et al. Exploiting cloud and workflow patterns for the analysis of composite cloud services
Bessai et al. Bi-criteria workflow tasks allocation and scheduling in cloud computing environments
CN111682973B (zh) 一种边缘云的编排方法及系统
WO2013107012A1 (zh) 分布式计算任务处理系统和任务处理方法
CN110147986A (zh) 流节点跳转方法、装置、服务器及存储介质
Amziani et al. Formal modeling and evaluation of stateful service-based business process elasticity in the cloud
CN109408216A (zh) 任务生成方法、装置、设备及存储介质
CN110689262A (zh) 天基信息系统任务调度方法、装置和电子设备
CN115421735A (zh) 一种深度学习任务的异构部署方法、装置及电子设备
CN115309544A (zh) 一种集群资源规划方法、设备及装置
Bessai et al. Bi-criteria strategies for business processes scheduling in cloud environments with fairness metrics
US20160034307A1 (en) Modifying a flow of operations to be executed in a plurality of execution environments
Zhang et al. Trust-based service composition in multi-domain environments under time constraint
CN117331674A (zh) 任务调度执行方法、电子设备和计算机可读存储介质
Benini et al. Resource management policy handling multiple use-cases in mpsoc platforms using constraint programming
US9323509B2 (en) Method and system for automated process distribution
Herry et al. Choreographing configuration changes
CN113225269B (zh) 基于容器的工作流调度方法、装置、系统及存储介质
Dominiak et al. Selecting grid-agent-team to execute user-job--initial solution
Zhang et al. Workflow-oriented grid service composition and scheduling
CN113434268A (zh) 一种工作流分布式调度管理系统和方法
Li et al. Rpbg: Intelligent orchestration strategy of heterogeneous docker cluster based on graph theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant