CN112448982A - 一种多任务训练集群任务间共享网络资源的方法及系统 - Google Patents

一种多任务训练集群任务间共享网络资源的方法及系统 Download PDF

Info

Publication number
CN112448982A
CN112448982A CN201910822092.4A CN201910822092A CN112448982A CN 112448982 A CN112448982 A CN 112448982A CN 201910822092 A CN201910822092 A CN 201910822092A CN 112448982 A CN112448982 A CN 112448982A
Authority
CN
China
Prior art keywords
network
cluster
parameter
task
host terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910822092.4A
Other languages
English (en)
Inventor
孙军欢
胡水海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixing Technology Co Ltd
Original Assignee
Shenzhen Zhixing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixing Technology Co Ltd filed Critical Shenzhen Zhixing Technology Co Ltd
Priority to CN201910822092.4A priority Critical patent/CN112448982A/zh
Publication of CN112448982A publication Critical patent/CN112448982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种多任务训练集群任务间共享网络资源的方法及系统,通过将集群的网络资源视为一个可以在训练任务间共享的网络资源池,并通过主动地调度和参数交换网络拓扑植入,在训练过程中尽可能充分和均衡地利用运行在集群上的各训练任务之间的网络资源。在本发明中,正是通过积极主动且有效地共享各训练任务之间的网络资源,整体提高集群资源利用率,进而提升训练任务效率。

Description

一种多任务训练集群任务间共享网络资源的方法及系统
技术领域
本发明涉及多任务机器学习训练集群网络通信领域;具体地,涉及一种多任务训练集群任务间共享网络资源的方法及系统。
背景技术
深度学习(Deep Learning,简称DL)在人工智能驱动服务中获得了广泛的成功,并成为了许多相关领域基本产品的核心。由于深度神经网络(Deep Neural Network,简称DNN)训练的计算成本极高,若要实现及时的训练则需发掘分布式系统并行计算的优势。于是,业内领军IT企业如微软、Facebook和Google已经开始在成百上千的服务器组成的生产集群上运行分布式深度学习训练(Deep Learning training,简称DLT)任务。作为一种计算密集型任务,DLT需要集中精力进行有效的集群计算资源调度。与此同时,随着GPU计算速度越来越快,模型越来越大,集群的性能瓶颈正从计算转向通信。但生产环境下DLT的网络优化还处在起步阶段,现有的参数交互机制存在着极大缺陷。
特别需要指出的是,生产环境下的深度学习训练集群(DL clusters)充满了各种不确定性。特别是在较大规模集群上同步运行数个、数十个甚至成百上千个训练任务时,它们(特别是被调度到同一计算节点的不同任务)将不得已共享集群的网络。
但是,由于通信流量属于不同任务以及流量的动态变化,并在一些参数交换通信模型(特别是如PS通信模型这类树状拓扑结构通信模型)条件下,集群的网络资源使用情况并不均匀,集群中各个计算节点会因其在通信拓扑中扮演的角色不同而使其网络通信资源消耗情况不同:有些计算节点网络通信资源可能被大量占用,甚至造成拥塞;与此同时,另一些计算节点网络通信资源则也可能是被大量的空置,鲜被占用和使用。
发明内容
有鉴于此,本发明提供一种多任务训练集群任务间共享网络资源的方法及系统。
一方面,本发明实施例提供一种多任务训练集群任务间共享网络资源的方法。
上述的任务间共享网络资源的方法,包括:
获取集群网络状态,构建集群网络资源池:即对集群中那些作为计算节点的主机终端的未被占用的网络资源进行管理,以便共享给其他需要网络资源的任务;
对于任一的训练任务,在其被调度到集群后,作为需要网络资源池共享网络资源的目标训练任务,
通过主动地调度和拓扑植入,为目标训练任务共享网络资源池中的网络资源:
即选择网络资源池中的主机终端,作为为目标训练任务构建参数交换网络时的辅助节点;在目标训练任务参数交换网络拓扑中,前面述及的辅助节点将被用作为参数交换的根节点或中间汇聚节点。
另一方面,本发明实施例提供一种多任务训练集群任务间网络资源共享系统。
上述的任务间网络资源共享系统,包括:
网络资源管理单元和任务参数交换网络拓扑植入单元;其中,
网络资源管理单元,包括网络资源池;网络资源池即集群中那些作为计算节点的主机终端的未被占用的网络资源;
在训练任务被调度到集群时,作为需要网络资源池共享网络资源的目标训练任务,网络资源管理单元将主动地为其调度共享网络资源池中的网络资源:即选择网络资源池中的主机终端,作为为目标训练任务构建参数交换网络时的辅助节点;
任务参数交换网络拓扑植入单元,则是用于目标训练任务参数交换网络拓扑的构建和植入;在目标训练任务被调度到集群及获得共享的辅助节点后,结合目标训练任务调度时被分配的计算节点,并共享的辅助节点,根据网络资源占用情况,为其生成并植入目标训练任务的参数交换网络拓扑;在生成的目标训练任务参数交换网络拓扑中,前面述及的辅助节点将被用作为参数交换的根节点或中间汇聚节点。
上述的多任务训练集群任务间共享网络资源的方法及系统,通过将集群的网络资源视为一个可以在训练任务间共享的网络资源池,并通过主动地调度和参数交换网络拓扑植入,在训练过程中尽可能充分地和负载均衡地利用各训练任务之间的(即各训练任务运行在的集群各主机终端上的)网络资源。
在本发明中,正是通过积极主动且有效地共享各训练任务之间的网络资源,整体提高集群资源利用率,进而提升训练任务效率。
下面通过附图、具体实施例对本发明的技术方案做进一步的描述。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为本发明一些实施例提供的一种多任务训练集群任务间共享网络资源方法的流程示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下为本发明的一些优选实施例。其中,
上述优选实施例提供一种多任务训练集群任务间共享网络资源的方法。如图1所示,该方法包括:
获取集群网络状态,构建集群网络资源池:
即获取集群中那些作为计算节点的主机终端的网络资源(即带宽)占用情况,将未被占用的网络资源及其对应的主机终端作为可对训练任务共享的网络资源池管理起来,以便其他训练任务需要网络资源时分享;
当训练任务被调度到集群后,作为目标训练任务,
通过主动地调度和拓扑植入,为目标任务共享网络资源池中的网络资源:
选择资源池中的主机终端,提供网络资源,也即在为目标训练任务构建参数交换网络时作为辅助节点;具体的,以扮演辅助节点的主机终端作为该训练任务参数交换时通信模型拓扑网络的的根节点或中间汇聚节点,进而实现辅助节点网络资源的最大化利用。
在上述优选实施例提供一种多任务训练集群任务间共享网络资源的方法中,显然任务间的网络资源共享是不能被滥用的。例如,在将网络通信负载本就较高的计算节点(主机终端)作为其他任务的辅助节点,共享其网络通信资源;显然将影响本训练任务所在计算节点(主机终端)的通信,也将因为资源紧张,影响后续训练任务的调度。故,优选地,在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中,共享网络资源池的网络资源时:优先选择负载低的计算节点(主机终端),作为辅助节点共享给目标训练任务。例如,优先选择未占用网络资源的空闲计算节点(如执行单机任务的主机终端)、仅作为参数交换网络拓扑中叶节点的主机终端、通信流量优先级较低的计算节点(主机终端)、具有高带宽性能,容易形成带宽冗余的计算节点(主机终端)等;而负载过高的计算节点,显然不宜作为辅助节点,共享给目标训练任务,故还包括设定一个阈值,禁止共享负载过高的计算节点(主机终端)的共享。
在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中,在选择辅助节点时,优先选择在物理拓扑中与目标训练任务被分配计算节点(主机终端)相近的主机终端作为目标训练任务的辅助节点。
在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中,在参数交换时,根据各计算节点/辅助节点的网络占用情况,自适应地植入参数交换网络拓扑,基于参数分片,将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。其中,具体的,可以根据整数线性规划等方法求解最优的网络拓扑/网络拓扑组合。
在上述优选实施例中的一些提供的多任务训练集群任务间共享网络资源的方法中,还包括:
对于任一训练任务,在训练过程中,周期性地以上述任一实施例中的方法,获取集群当前网络状态,分享网络资源池的网络资源进行新的网络拓扑植入。例如,根据参数交换的完成阶段,在完成若干次参数交换后,定期根据当前网络状态,分享网络资源池的网络资源进行新的网络拓扑植入。
本发明的另一些优选实施例提供一种多任务训练集群任务间网络资源共享系统。该系统包括:
网络资源管理单元和任务参数交换网络拓扑植入单元;其中,
网络资源管理单元,包括网络资源池;网络资源池即集群中那些作为计算节点的主机终端的未被占用的网络资源;网络资源管理单元,获取集群网络状态,即获取集群各节点网络带宽占用情况,并将未被占用的网络资源及其对应的主机终端作为网络资源池管理;
在训练任务被调度到集群时,作为需要网络资源池共享网络资源的目标训练任务,网络资源管理单元将主动地为其调度共享网络资源池中的网络资源:即选择网络资源池中的主机终端,作为为目标训练任务构建参数交换网络时的辅助节点;
而任务参数交换网络拓扑植入单元,则是用于目标训练任务参数交换网络拓扑的构建和植入;在目标训练任务被调度到集群及获得共享的辅助节点后,结合目标训练任务调度时被分配的计算节点,并共享的辅助节点,根据网络资源占用情况,为其生成并植入目标训练任务的参数交换网络拓扑:即在这些扮演计算节点和辅助节点的主机终端间,根据它们的网络带宽占用情况,生成一套目标训练任务参数交换网络拓扑,并映射到这些主机终端的物理拓扑中;其中,前面述及的辅助节点,因为无待交换的参数,故只将被用作为参数交换的根节点或中间汇聚节点。
在上述优选实施例提供一种多任务训练集群任务间网络资源共享系统中,显然任务间的网络资源共享是不能被滥用的。例如,在将网络通信负载本就较高的计算节点(主机终端)作为其他任务的辅助节点,共享其网络通信资源;显然将影响本训练任务所在计算节点(主机终端)的通信,也将因为资源紧张,影响后续训练任务的调度。故,优选地,在上述优选实施例中的一些提供的多任务训练集群任务间网络资源共享系统中,共享网络资源池的网络资源时:优先选择负载低的计算节点(主机终端),作为辅助节点共享给目标训练任务。例如,优先选择未占用网络资源的空闲计算节点(如执行单机任务的主机终端)、仅作为参数交换网络拓扑中叶节点的主机终端、通信流量优先级较低的计算节点(主机终端)、具有高带宽性能,容易形成带宽冗余的计算节点(主机终端)等;而负载过高的计算节点,显然不宜作为辅助节点,共享给目标训练任务,故还包括设定一个阈值,禁止共享负载过高的计算节点(主机终端)的共享。
在上述优选实施例中的一些提供的一种多任务训练集群任务间网络资源共享系统中,在选择辅助节点时,优先选择在物理拓扑中与目标训练任务被分配计算节点(主机终端)相近的主机终端作为目标训练任务的辅助节点。
在上述优选实施例中的一些提供的一种多任务训练集群任务间网络资源共享系统中,在参数交换时,根据各计算节点/辅助节点的网络占用情况,自适应地植入参数交换网络拓扑,基于参数分片,将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。其中,具体的,可以根据整数线性规划等方法求解最优的网络拓扑/网络拓扑组合。
在上述优选实施例中的一些提供的一种多任务训练集群任务间网络资源共享系统中,还包括:
对于任一训练任务,在训练过程中,周期性地调用网络资源管理单元和任务参数交换网络拓扑植入单元,获取集群当前网络状态,分享网络资源池的网络资源进行新的网络拓扑植入。例如,根据参数交换的完成阶段,在完成若干次参数交换后,定期根据当前网络状态,分享网络资源池的网络资源进行新的网络拓扑植入。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。

Claims (10)

1.一种多任务训练集群任务间共享网络资源的方法,其特征在于,包括:
获取集群网络状态,构建集群网络资源池;所述网络资源池,用于管理集群中各主机终端未被占用的网络资源;
通过主动地调度和拓扑植入,为目标训练任务共享网络资源池中的网络资源:
选择网络资源池中的主机终端,作为为目标训练任务构建参数交换网络时的辅助节点;在目标训练任务参数交换网络拓扑中,前面述及的辅助节点将被用作为参数交换的根节点或中间汇聚节点。
2.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法,其特征在于,
优先选择负载低的主机终端,作为辅助节点共享给目标训练任务;
和/或,
设定一个阈值,禁止负载过高的主机终端的共享。
3.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法,其特征在于,
在选择辅助节点时,优先选择在物理拓扑中与目标训练任务分配的主机终端相近的主机终端作为目标训练任务的辅助节点。
4.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法,其特征在于,
在参数交换时,根据各计算节点/辅助节点的网络占用情况,自适应地植入参数交换网络拓扑,基于参数分片,将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。
5.根据权利要求1所述的多任务训练集群任务间共享网络资源的方法,其特征在于,
对于任一训练任务,在训练过程中,周期性地获取集群当前网络状态,分享网络资源池的网络资源进行新的网络拓扑植入。
6.一种多任务训练集群任务间网络资源共享系统,其特征在于,包括:
网络资源管理单元和任务参数交换网络拓扑植入单元;其中,
网络资源管理单元,包括网络资源池;网络资源池即集群中那些作为计算节点的主机终端的未被占用的网络资源;
网络资源管理单元主动地为其调度共享网络资源池中的网络资源:即选择网络资源池中的主机终端,作为为目标训练任务构建参数交换网络时的辅助节点;
任务参数交换网络拓扑植入单元,则是用于目标训练任务参数交换网络拓扑的构建和植入;在目标训练任务被调度到集群及获得共享的辅助节点后,结合目标训练任务调度时被分配的计算节点,并共享的辅助节点,根据网络资源占用情况,为其生成并植入目标训练任务的参数交换网络拓扑;在所述参数交换网络拓扑中,所述辅助节点只能作为根节点或中间汇聚节点。
7.根据权利要求6所述的多任务训练集群任务间网络资源共享系统,其特征在于,
优先选择负载低的主机终端,作为辅助节点共享给目标训练任务;
和/或,
设定一个阈值,禁止负载过高的主机终端的共享。
8.根据权利要求6所述的多任务训练集群任务间网络资源共享系统,其特征在于,
在选择辅助节点时,优先选择在物理拓扑中与目标训练任务分配的主机终端相近的主机终端作为目标训练任务的辅助节点。
9.根据权利要求6所述的多任务训练集群任务间网络资源共享系统,其特征在于,
在参数交换时,根据各计算节点/辅助节点的网络占用情况,自适应地植入参数交换网络拓扑,基于参数分片,将参数交换流量自适应带宽的、均衡地分布在参数交换网络中。
10.根据权利要求6所述的多任务训练集群任务间网络资源共享系统,其特征在于,
对于任一训练任务,在训练过程中,周期性地获取集群当前网络状态,分享网络资源池的网络资源进行新的网络拓扑植入。
CN201910822092.4A 2019-08-31 2019-08-31 一种多任务训练集群任务间共享网络资源的方法及系统 Pending CN112448982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910822092.4A CN112448982A (zh) 2019-08-31 2019-08-31 一种多任务训练集群任务间共享网络资源的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910822092.4A CN112448982A (zh) 2019-08-31 2019-08-31 一种多任务训练集群任务间共享网络资源的方法及系统

Publications (1)

Publication Number Publication Date
CN112448982A true CN112448982A (zh) 2021-03-05

Family

ID=74734975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910822092.4A Pending CN112448982A (zh) 2019-08-31 2019-08-31 一种多任务训练集群任务间共享网络资源的方法及系统

Country Status (1)

Country Link
CN (1) CN112448982A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11985076B1 (en) 2022-12-14 2024-05-14 Red Hat, Inc. Configuring cluster nodes for sharing network resources

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747059A (zh) * 2013-12-26 2014-04-23 华中科技大学 一种面向多租户的云计算服务器集群网络保障方法和系统
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
US20150200867A1 (en) * 2014-01-15 2015-07-16 Cisco Technology, Inc. Task scheduling using virtual clusters
CN105468456A (zh) * 2015-11-24 2016-04-06 无锡江南计算技术研究所 一种基于可变网络拓扑的并行作业资源调度方法
CN108683602A (zh) * 2018-07-13 2018-10-19 北京瀚海星云科技有限公司 一种数据中心网络负载均衡方法
CN110011984A (zh) * 2019-03-19 2019-07-12 西安微电子技术研究所 一种基于rest和rpc的分布式集群系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747059A (zh) * 2013-12-26 2014-04-23 华中科技大学 一种面向多租户的云计算服务器集群网络保障方法和系统
US20150200867A1 (en) * 2014-01-15 2015-07-16 Cisco Technology, Inc. Task scheduling using virtual clusters
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN105468456A (zh) * 2015-11-24 2016-04-06 无锡江南计算技术研究所 一种基于可变网络拓扑的并行作业资源调度方法
CN108683602A (zh) * 2018-07-13 2018-10-19 北京瀚海星云科技有限公司 一种数据中心网络负载均衡方法
CN110011984A (zh) * 2019-03-19 2019-07-12 西安微电子技术研究所 一种基于rest和rpc的分布式集群系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11985076B1 (en) 2022-12-14 2024-05-14 Red Hat, Inc. Configuring cluster nodes for sharing network resources

Similar Documents

Publication Publication Date Title
CN109491790B (zh) 基于容器的工业物联网边缘计算资源分配方法及系统
WO2020181896A1 (zh) 一种多智能体强化学习调度方法、系统及电子设备
Liu et al. A reinforcement learning-based resource allocation scheme for cloud robotics
Fan et al. An improved genetic algorithm for flexible job shop scheduling problem considering reconfigurable machine tools with limited auxiliary modules
US20170329643A1 (en) Distributed node intra-group task scheduling method and system
CN108632365A (zh) 服务资源调整方法、相关装置和设备
CN109936473B (zh) 基于深度学习预测的分布计算系统及其运行方法
CN113760553B (zh) 一种基于蒙特卡洛树搜索的混部集群任务调度方法
CN104572307A (zh) 一种对虚拟资源进行弹性调度的方法
CN113946431B (zh) 一种资源调度方法、系统、介质及计算设备
CN114281521A (zh) 优化深度学习异构资源通信效率方法、系统、设备及介质
Na et al. An evolutionary game approach on IoT service selection for balancing device energy consumption
CN116166381A (zh) 一种多云管理平台中基于iaco算法的资源调度
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN116340003A (zh) 基于深度强化学习的自适应边缘计算资源管理方法及系统
CN113014649B (zh) 一种基于深度学习的云物联负载均衡方法、装置及设备
Low Dynamic load-balancing for bsp time warp
CN112446484A (zh) 一种多任务训练集群智能网络系统及集群网络优化方法
CN112448982A (zh) 一种多任务训练集群任务间共享网络资源的方法及系统
Wassing et al. A machine learning approach for service function chain embedding in cloud datacenter networks
Wang et al. An ant colony system based virtual network embedding algorithm
Terekhov et al. Long-run stability in dynamic scheduling
Sang et al. RALaaS: Resource-aware learning-as-a-service in edge-cloud collaborative smart connected communities
CN114327925A (zh) 一种电力数据实时计算调度优化方法及系统
CN112448899A (zh) 一种基于流量调度的多任务训练集群网络优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination