CN110308987A - 一种更新容器云上分布式训练任务连接参数的方法 - Google Patents

一种更新容器云上分布式训练任务连接参数的方法 Download PDF

Info

Publication number
CN110308987A
CN110308987A CN201910413722.2A CN201910413722A CN110308987A CN 110308987 A CN110308987 A CN 110308987A CN 201910413722 A CN201910413722 A CN 201910413722A CN 110308987 A CN110308987 A CN 110308987A
Authority
CN
China
Prior art keywords
container
subtask
training mission
rdma
connecting quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910413722.2A
Other languages
English (en)
Other versions
CN110308987B (zh
Inventor
张春海
孙夏
冉玫美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hai Hai Xingyun Technology Co Ltd
Original Assignee
Beijing Hai Hai Xingyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hai Hai Xingyun Technology Co Ltd filed Critical Beijing Hai Hai Xingyun Technology Co Ltd
Priority to CN201910413722.2A priority Critical patent/CN110308987B/zh
Publication of CN110308987A publication Critical patent/CN110308987A/zh
Application granted granted Critical
Publication of CN110308987B publication Critical patent/CN110308987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种更新容器云上分布式训练任务连接参数的方法,通过在容器集群部署完成后和启动分布式训练任务前以各子任务对应容器/容器组主动上报RDMA连接参数,并以之更新替换环境配置参数中默认连接参数的方式,为实现容器集群上实现RDMA通信提供了前提条件。同时,由于是由各容器/容器组主动上报RDMA连接参数,该方法适用于更多样化和复杂网络环境下的连接参数更新。

Description

一种更新容器云上分布式训练任务连接参数的方法
技术领域
本发明涉及容器云、分布式机器学习领域;具体地,涉及一种更新容器云上分布式训练任务连接参数的方法。
背景技术
随着大数据和机器学习研究的不断深入,大数据时代的机器学习开始呈现出“大模型”和“大数据”的特点。其中的“大模型”,是指随着机器学习(特别是深度学习)的进展,许多问题越来越需要一个更大的模型才能有能力去尽量接近要解决问题的具体功能;“大数据”则是指训练数据集较小时,机器学习(特别是深度学习)的效果并不理想,因此通常需要尽量大的数据作为训练集,以提高机器学习的效果。这样就使得在大规模机器学习训练场景下,训练数据和模型参数大到单台机器无法处理。因此,分布式机器学习也随之出现。
分布式机器学习是指将训练任务拆解成若干个小的任务,分配到多个设备上进行训练。分布式机器学习不仅是将训练任务分布到多个处理器上,同时也将数据(包括训练数据以及中间结果)分布在不同设备的存储中。为了获得更大的计算能力、存储、吞吐量以及容错能力,人们越来越倾向于分布式机器学习训练。
然而,一个具备实用意义的用于分布式机器学习训练的裸机集群(即物理主机集群),其从构建部署到运行维护,都是极为专业且复杂甚至是繁琐的工作。为此,人们将容器云技术应用到分布式机器学习领域,简化其构建部署运维工作的难度。
容器云技术不仅能够实现容器集群的快速部署,同时它也是一种轻量化的解决方案,且能够有效整合和管理着裸机资源。这里以Kubernetes平台运行分布式机器学习训练任务为例,Kubernetes不仅为打包应用提供一致的方法,保证应用在不同设备上运行的一致性,为应用的运行环境提供资源隔离,同时其对硬件底层的复杂性和节点管理进行了抽象,并且支持GPU的调度,此外,其还可基于应用和集群本身的需要进行弹性扩展。
容器、容器编排工具的容器云平台,均是运行在操作系统上,故其默认的通信通常也是由容器云平台提供的连接访问服务实现的,虽然这是一种高可用的容器云网络解决方案,但其无法绕过操作系统。由于上述方案的通信过程需要操作系统和协议栈的介入,在“大数据”训练集的场景下,训练梯度网络传输过程中将不可避免占用大量的CPU资源,还会造成较大网络延时,严重制约训练效率。
RDMA,即远程直接数据存取技术;RDMA可以通过网络在两个节点的应用软件之间实现Buffer的直接传递。相比传统的网络传输,RDMA无需操作系统和协议栈的介入,避免了网络传输过程中大量的CPU资源占用,同时也减小了网络延时。在物理主机作为节点组成的集群进行分布式计算时,已经通过为每个物理节点挂载RDMA网卡(即支持RDMA协议的物理网卡)的方式实现了RDMA通信。
为了更高效地使用算力资源,在容器云平台部署分布式机器训练时,往往会先将待训练的任务分解为若干个子任务,并为每个子任务生成环境配置参数(以保障子任务间的依赖关系和控制子任务间的数据一致性),然后为每个子任务创建对应的容器/容器组(这里的容器/容器组是指容器集群在编排管理时最小单位;其中,这里的容器即在容器环境下运行独立应用的容器;而容器组,是指在容器环境下运行独立应用的“逻辑主机”,运行着一个或者多个紧密耦合的应用容器,如Kubernetes平台的Pod)、连接访问服务,继而运行分布式训练;在运行分布式训练过程中,即可利用环境配置参数的连接参数即连接访问服务名称获取相应的连接访问服务,进而在默认网络下实现训练数据通信。但是,这里的连接访问服务,仅适用于在默认网络下提供相关访问连接服务,其需要通过内核的iptables等才能实现容器/容器组间默认通信的方式,显然是无法支持到RDMA网络的。要而言之,以上述方式在容器云平台上部署分布式机器训练任务时,运行在各容器/容器组上的子任务需要通信时,即使在本、对端容器/容器组间存在RDMA网络的情况下,也无法发现和使用RDMA网络的。
针对这一问题,一种解决方案即是在分解训练任务为若干个子任务和分别为子任务生成环境配置参数和创建容器/容器组时,为训练用容器集群提供额外的RDMA网络,并在启动分布式训练前,将其子任务环境配置参数中的默认连接参数——访问连接服务名称(用于访问默认网络)更新为容器/容器组的RDMA连接参数,在更新后启动分布式训练及后续运行分布式训练过程中,子任务涉及的训练数据通信即可根据更新的RDMA连接参数实现RDMA通信。
发明内容
有鉴于此,本发明提供一种更新容器云上分布式训练任务连接参数的方法。
一方面,本发明实施例提供一种更新容器云上分布式训练任务连接参数的方法。
上述的更新连接参数的方法,包括:
在容器云平台部署分布式训练任务过程中:
在(分解训练任务、为子任务生成环境配置参数、及)为训练任务部署容器集群后和启动分布式训练任务前,
对于任一的子任务,解析其环境配置参数;
检测所述子任务对应的容器/容器组的RDMA网络连接情况,上报RDMA连接参数到容器/容器组的共享存储中;
同时,等待所述子任务通信涉及的其他容器/容器组上报其RDMA连接参数;
待上报完成,所述子任务对应的容器/容器组通过查询共同存储,获取所述子任务通信涉及的RDMA连接参数,以之更新替换其环境配置参数中的默认连接参数,以便在更新完成后启动执行分布式训练任务时所述子任务能够根据更新后的RDMA连接参数在RDMA网络中实现RDMA通信。
另一方面,本发明实施例提供一种在容器云上运行的分布式训练任务数据通信的方法。
结合第一方面,上述的通信方法,包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群时,为子任务(由整个训练任务分解获得的)创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;
在容器集群部署完成后和启动分布式训练任务前,以第一方面述及的方法更新子任务的环境配置参数中的连接参数;
在启动后运行分布式训练任务时,子任务涉及的通信数据,即通过更新后的连接参数(即第一方面述及的RDMA连接参数)使用RDMA网络,实现RDMA通信。
再一方面,本发明实施例提供一种在容器云平台部署分布式训练任务的方法。
结合第一、二方面,上述的部署方法包括:
将待训练任务分解为若干个子任务;
并为子任务生成环境配置参数;
为待训练任务部署容器集群,其中包括:
为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;
在容器集群部署完成后和启动分布式训练任务前,以第一方面述及的方法更新子任务环境配置参数中的连接参数;
更新完成后,即启动执行分布式训练任务;也即在各容器/容器组执行各子任务。无疑,分布式训练任务运行过程中,分布式训练任务的训练数据通信也即各子任务涉及的通信,也将以第二方面述及的方法实现了容器/容器组间的RDMA通信。
又一方面,本发明实施例提供一种分布式机器学习容器云平台系统。
结合第一、二、三方面,对应地,上述的分布式机器学习容器云平台系统,包括:分布式训练任务管理单元、任务调度单元和容器云平台;其中,
分布式训练任务管理单元,用于将待训练任务分解为若干个子任务;
任务调度单元,用于调度包括子任务在内的各类任务到容器云平台上;其中包括:
为所述各类任务生成环境配置参数和定义将被创建的、用来执行所述各类任务的容器/容器组等;
容器云平台,用于部署用于训练的容器集群和管理容器集群;其中包括:
根据任务调度单元的定义,为子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入;
以及在容器集群部署完成后和启动分布式训练任务前,以第一方面述及的方法更新子任务环境配置参数中的连接参数;
和在更新完成后,启动执行运行分布式训练任务。
上述实施例中提供的更新容器云上分布式训练任务连接参数的方法,通过在容器集群部署完成后和启动分布式训练任务前以各子任务对应容器/容器组主动上报RDMA连接参数,并以之更新替换环境配置参数中默认连接参数的方式,为实现容器集群上实现RDMA通信提供了前提条件。同时,由于是由各容器/容器组主动上报RDMA连接参数,该方法适用于更多样化和复杂网络环境下的连接参数更新。而基于此的容器云上分布式训练数据通信方法、容器云平台分布式训练任务部署方法、分布式机器学习容器云平台系统,通过实现容器/容器组间训练数据的RDMA通信,解决了“大模型”和“大数据”场景下容器云上分布式训练时训练数据通信瓶颈的问题,大大提升了容器云平台上的分布式训练效率。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为基于本发明一些优选实施例提供的一种基于更新容器云上分布式训练任务连接参数的方法在Kubernetes平台部署分布式tensorflow任务时更新子任务TF_CONFIG中连接参数的流程示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下为本发明的一些优选实施例。其中,
上述优选实施例提供一种更新容器云上分布式训练任务连接参数的方法。该方法包括:
在容器云平台部署分布式训练任务过程中:
为训练任务部署容器集群时,为每一个子任务(为了提高训练效率,在部署分布式训练任务时,会结合算力资源等实际情况,将整个的待训练任务分解成若干个(不少于2个)的子任务)创建对应的容器/容器组,提供连接访问服务、以及额外提供RDMA网络接入;
其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:
通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
如此,容器/容器组即通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在上述的容器集群部署完成后和启动分布式训练任务前,
对于任一的子任务,解析其环境配置参数;
检测所述子任务对应的容器/容器组的RDMA网络连接情况,上报RDMA连接参数到容器/容器组的共享存储中;
同时,等待所述子任务通信涉及的其他(用于训练的)容器/容器组上报其RDMA连接参数;
待上报完成,所述子任务对应的容器/容器组通过查询共同存储,获取所述子任务通信涉及的各个(容器/容器组的)RDMA连接参数,以之更新替换子任务环境配置参数中的默认连接参数,以便在更新完成后启动执行分布式训练任务时所述子任务能够根据更新后的RDMA连接参数在RDMA网络中实现RDMA通信,进而提高分布式训练的效率。
具体地,这些实施例中的一些提供的更新容器云上分布式训练任务连接参数方法中,
其中的RDMA连接参数,可以是该容器/容器组被分配获得的虚拟RDMA网络IP。
具体地,这些实施例中的一些提供的更新容器云上分布式训练任务连接参数方法中,
通过sriov-cni为上述的容器/容器组提供所述的第二网卡接口;对应地,通过sriov虚拟物理RDMA网卡,获得所述的用于挂载的虚拟RDMA网卡。
本发明的另一些优选实施例提供一种在容器云上运行的分布式训练任务数据通信的方法。该方法包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群时,为每一个子任务(同上,为提高训练效率,由整个训练任务分解获得的)创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:
通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
如此,容器/容器组即通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在容器集群部署完成后和启动分布式训练任务前,以上述任一优选实施例述及的更新容器云上分布式训练任务连接参数的方法更新子任务的环境配置参数中的连接参数;
在启动后运行分布式训练任务时,子任务涉及的通信数据,即通过更新后的连接参数使用RDMA网络,实现RDMA通信。
本发明的再一些优选实施例提供一种在容器云平台部署分布式训练任务的方法。该方法包括:
将整个的待训练任务分解成若干个(不少于2个)的子任务;
并分别为每个子任务生成环境配置参数以保障子任务间的依赖关系和训练子任务间的数据一致性;在上述的环境配置参数中,包括后续过程中在容器云平台部署的容器集群执行子任务时其对应的容器/容器组与其涉及的其他容器/容器组间通信时的连接参数,这里以访问连接服务名称作为默认连接参数;
部署训练用容器集群:
为每个子任务创建对应的容器/容器组,提供连接访问服务、以及额外提供RDMA网络接入;其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:
通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
如此,容器/容器组即通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在容器集群部署完成后和启动分布式训练任务前,以上述任一优选实施例述及的更新容器云上分布式训练任务连接参数的方法更新子任务的环境配置参数中的连接参数;
更新完成后,即启动执行分布式训练任务,也即在各容器/容器组执行各子任务。
下面以基于上述方法在Kubernetes平台部署分布式TensorFlow任务的过程为示例,进一步帮助理解上述优选实施例中的在容器云平台部署分布式训练任务的方法。其过程如下:
根据分布式训练的类型,结合计算资源/计算资源和模型,将预训练的整个任务分解为若干个(不少于2个)子任务,并分别为每个子任务生成TF_CONFIG(其中,TF_CONFIG中就包括子任务通信中所需访问的service的名称),以保障子任务间的依赖关系和训子任务间的数据一致性,以及生成其他相关参数,用以定义后续步骤中将要创建的任务的Pod(即Kubernetes平台的“容器组”,是平台对容器进行编排管理时的最小调度单位);比如,定义对应着子任务的Pod为训练Pod;
将上述的子任务调度的Kubernetes平台:根据生成TF_CONFIG等为上述每个子任务创建对应的训练Pod、以及service(支持默认网络通信);在创建Pod同时,为训练Pod提供多网络连接服务:
通过multus_cni调用相应的cni插件,为上述的每个训练Pod提供不少于两个的虚拟网卡接口;其中,通过调用flannel_cni插件,提供默认网络接口,挂载虚拟网卡,接入默认网络,用于平台管理任务的数据通信;
通过调用sriov_cni插件,提供RDMA网络接口,挂载RDMA虚拟网卡(基于sriov虚拟RDMA网卡获得这些虚拟RDMA网卡),接入RDMA网络,用于训练任务(即各子任务)的数据通信;
以上的Pod通过service、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在上述容器集群部署完成后和启动分布式TensorFlow任务前,对于任一的子任务,如图1所示,
A解析其TF_CONFIG;
B检测对应的Pod的sriov网卡IP;
C上报sriov网卡IP到该Pod与其他Pod的共享存储上;
D检测和查询共享存储获得子任务通信涉及的其他Pod的sriov网卡IP;对于其他Pod的sriov网卡IP未上报的,等待上报后继续查询;
E据上报的sriov网卡IP更新TF_CONFIG;
F更新完成后,即启动执行分布式TensorFlow任务,即在各训练Pod上执行其对应的子任务。
本发明的又一些优选实施例提供一种分布式机器学习容器云平台系统。该系统包括:分布式训练任务管理单元、任务调度单元和容器云平台;其中,
分布式训练任务管理单元,用于将整个的待训练任务分解为若干个(不少于2个的)子任务;
任务调度单元,用于调度包括子任务在内的各类任务到容器云平台上;其中包括:
为所述各类任务生成环境配置参数(特别是为每个子任务生成环境配置参数以保障子任务间的依赖关系和子任务间的数据一致性),
和定义将被创建的、用来执行所述各类任务的容器/容器组等;例如,定义子任务对应的容器/容器组为训练用容器/容器组,以使之能够在向容器云平台请求后,容器云在创建时,提供诸如多网络等适用于训练的自定义性能设置;
容器云平台,用于部署用于训练的容器集群和管理容器集群等;其中包括:
根据任务调度单元的定义,为子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入;其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
上述容器/容器组通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
还包括:以上述任一优选实施例述及的更新容器云上分布式训练任务连接参数的方法更新子任务的环境配置参数中的连接参数;
以及在更新完成后,启动执行运行分布式训练任务。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。

Claims (7)

1.一种更新容器云上分布式训练任务连接参数的方法,其特征在于,包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群后和启动分布式训练任务前,
对于任一的子任务,解析其环境配置参数;其中,所述的子任务是由待训练任务分解的;
检测所述子任务对应的容器/容器组的RDMA网络连接,上报RDMA连接参数到所述容器/容器组的共享存储中;
等待所述子任务涉及的其他RDMA连接参数上报;
待上报完成,所述子任务对应的容器/容器组通过查询共同存储,获取所述子任务通信涉及的RDMA连接参数,以之更新替换其环境配置参数中的默认连接参数。
2.根据权利要求1所述的更新连接参数的方法,其特征在于,
所述的RDMA连接参数,即所述容器/容器组分配获得的RDMA网络IP。
3.根据权利要求1所述的更新连接参数的方法,其特征在于,
所述的提供连接访问服务和RDMA网络接入:
通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;所述容器/容器组通过其接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;所述容器/容器组通过其接入RDMA网络。
4.根据权利要求3所述的更新连接参数的方法,其特征在于,
通过sriov-cni为所述容器/容器组提供所述的第二网络接口;
对应地,通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。
5.一种在容器云上运行的分布式训练任务数据通信的方法,其特征在于,包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群时,为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;所述的子任务是由待训练任务分解的;
在容器集群部署完成后和启动分布式训练任务前,以权利要求1-4任一所述的方法更新所述子任务的环境配置参数中的连接参数;,
在运行分布式训练任务时,所述子任务涉及的通信,即通过更新后的RDMA连接参数使用RDMA网络。
6.一种在容器云平台部署分布式训练任务的方法,其特征在于,包括:
将待训练任务分解为若干个子任务;
并为所述子任务生成环境配置参数;
为待训练任务部署容器集群,其中包括:
为所述子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;
在容器集群部署完成后和启动分布式训练任务前,以权利要求1-4任一所述的方法更新所述子任务的环境配置参数中的连接参数;
更新完成后,即启动执行分布式训练任务。
7.一种分布式机器学习容器云平台系统,其特征在于,包括:
分布式训练任务管理单元、任务调度单元和容器云平台;其中,
分布式训练任务管理单元,用于将待训练任务分解为若干个子任务;
任务调度单元,用于调度包括所述子任务在内的各类任务到容器云平台上;其中包括:
为所述各类任务生成环境配置参数和定义容器/容器组;
容器云平台,用于部署容器集群和管理容器集群;其中包括:
根据任务调度单元的定义,为所述子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入;
以及在容器集群部署完成后和启动分布式训练任务前,以权利要求1-4任一所述的方法更新所述子任务的环境配置参数中的连接参数;
和在更新完成后,启动执行运行分布式训练任务。
CN201910413722.2A 2019-05-17 2019-05-17 一种更新容器云上分布式训练任务连接参数的方法 Active CN110308987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910413722.2A CN110308987B (zh) 2019-05-17 2019-05-17 一种更新容器云上分布式训练任务连接参数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910413722.2A CN110308987B (zh) 2019-05-17 2019-05-17 一种更新容器云上分布式训练任务连接参数的方法

Publications (2)

Publication Number Publication Date
CN110308987A true CN110308987A (zh) 2019-10-08
CN110308987B CN110308987B (zh) 2023-08-01

Family

ID=68074752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910413722.2A Active CN110308987B (zh) 2019-05-17 2019-05-17 一种更新容器云上分布式训练任务连接参数的方法

Country Status (1)

Country Link
CN (1) CN110308987B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541738A (zh) * 2020-03-31 2020-08-14 北京华三通信技术有限公司 一种通信方法及装置
CN112130957A (zh) * 2020-09-11 2020-12-25 烽火通信科技股份有限公司 一种容器突破虚拟化隔离使用智能网卡的方法与系统
CN113849293A (zh) * 2021-11-30 2021-12-28 湖北芯擎科技有限公司 数据处理方法、装置、系统及计算机可读存储介质
TWI825531B (zh) * 2021-05-05 2023-12-11 宏碁股份有限公司 用於神經網路運算之用戶設備和無線通訊方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550576A (zh) * 2015-12-11 2016-05-04 华为技术服务有限公司 容器间通信的方法与装置
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云系统自动化部署方法
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550576A (zh) * 2015-12-11 2016-05-04 华为技术服务有限公司 容器间通信的方法与装置
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云系统自动化部署方法
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAEHYEOK KIM AND TIANLONG YU,CARNEGIE MELLON UNIVERSITY,ET AL: "FreeF1ow:Software-based Virtual RDMA Networking for Containerized Clouds", 《PROCEEDINGS OF THE 16TH USENIX SYMPOSIUM ON NETWORKED SYSTEMS DESIGN AND IMPLEMENTATION》 *
YIDUYANGYI: "Kubernetes与HPC:(1) RDMA网络", 《CSDN HTTPS://BLOG.CSDN.NET/YIDUYANGYI/ARTICLE/DETAILS/90183733?》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541738A (zh) * 2020-03-31 2020-08-14 北京华三通信技术有限公司 一种通信方法及装置
CN111541738B (zh) * 2020-03-31 2022-05-27 北京华三通信技术有限公司 一种通信方法及装置
CN112130957A (zh) * 2020-09-11 2020-12-25 烽火通信科技股份有限公司 一种容器突破虚拟化隔离使用智能网卡的方法与系统
CN112130957B (zh) * 2020-09-11 2023-04-18 烽火通信科技股份有限公司 一种容器突破虚拟化隔离使用智能网卡的方法与系统
TWI825531B (zh) * 2021-05-05 2023-12-11 宏碁股份有限公司 用於神經網路運算之用戶設備和無線通訊方法
CN113849293A (zh) * 2021-11-30 2021-12-28 湖北芯擎科技有限公司 数据处理方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN110308987B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN110308987A (zh) 一种更新容器云上分布式训练任务连接参数的方法
CN110297670A (zh) 一种提高容器云上分布式任务训练效率的方法及系统
CN110308986A (zh) 基于优化调度的容器云上分布式训练数据通信的方法
CN103064742B (zh) 一种hadoop集群的自动部署系统及方法
US7620953B1 (en) System and method for allocating resources of a core space among a plurality of core virtual machines
DE112011100392B4 (de) Ressourcenaffinität durch dynamisches hinzufügen oder entfernen von warteschlangenpaaren für netzadapter mit software zur empfangsseitigen skalierung (rss)
CN111404753B (zh) 一种扁平网络配置方法、计算机设备及存储介质
CN107580083A (zh) 一种容器ip地址分配的方法和系统
CN105808320A (zh) 基于Linux容器的设备虚拟化系统及方法
CN107370796B (zh) 一种基于Hyper TF的智能学习系统
CN110311948B (zh) 容器/容器组间的通信方法及基于此的容器云网络系统
CN104951360A (zh) 基于Docker的配置管理方式及装置
CN106301829A (zh) 一种网络业务扩容的方法和装置
CN109075986A (zh) 一种网络功能实例的管理方法及相关设备
CN110198364A (zh) 基于指定dns解析的容器云上分布式训练数据通信的方法
CN106293847B (zh) 一种虚拟化平台服务支撑的方法
US20210373928A1 (en) Method, system and apparatus for sharing of fpga board by multiple virtual machines
CN103747107A (zh) 一种兼容式云操作平台及其实现方法
CN108512782A (zh) 访问控制列表分组调整方法、网络设备和系统
CN109343974A (zh) 基于容器的虚拟桌面的进程间通信方法及装置
CN110532060A (zh) 一种混合网络环境数据采集方法及系统
EP4083795A1 (en) Method for deploying virtual machine, and related apparatus
CN110300192A (zh) 一种根据ip分配表更新分布式训练任务连接参数的方法
JP2024501005A (ja) コンテナクラスタのための管理方法および装置
CN107683593A (zh) 网络线卡(lc)与主机操作系统(os)集成

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518000 a2405, building 9, zone 2, Shenzhen Bay science and technology ecological park, 3609 Baishi Road, community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Zhixing Technology Co.,Ltd.

Address before: Room 408, Building 3, 4 Chegongzhuang Street, Xicheng District, Beijing 100044

Applicant before: BEIJING HANHAI CLUSTAR TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant