CN110198364A - 基于指定dns解析的容器云上分布式训练数据通信的方法 - Google Patents

基于指定dns解析的容器云上分布式训练数据通信的方法 Download PDF

Info

Publication number
CN110198364A
CN110198364A CN201910413781.XA CN201910413781A CN110198364A CN 110198364 A CN110198364 A CN 110198364A CN 201910413781 A CN201910413781 A CN 201910413781A CN 110198364 A CN110198364 A CN 110198364A
Authority
CN
China
Prior art keywords
container
network
rdma
group
rdma network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910413781.XA
Other languages
English (en)
Other versions
CN110198364B (zh
Inventor
张春海
孙夏
冉玫美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hai Hai Xingyun Technology Co Ltd
Original Assignee
Beijing Hai Hai Xingyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hai Hai Xingyun Technology Co Ltd filed Critical Beijing Hai Hai Xingyun Technology Co Ltd
Priority to CN201910413781.XA priority Critical patent/CN110198364B/zh
Publication of CN110198364A publication Critical patent/CN110198364A/zh
Application granted granted Critical
Publication of CN110198364B publication Critical patent/CN110198364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于指定DNS解析的容器云分布式训练数据通信的方法,通过为用于训练的容器集群提供额外的RDMA网络以及独立的DNS服务,并指定其为主DNS服务,屏蔽默认网络的DNS访问,进而实现了在容器云上运行分布式训练时容器/容器组间训练数据的RDMA通信,解决了“大模型”和“大数据”场景下容器云上分布式训练时训练数据通信瓶颈的问题,大大提升了容器云平台上分布式训练的效率。

Description

基于指定DNS解析的容器云上分布式训练数据通信的方法
技术领域
本发明涉及容器云、分布式机器学习领域;具体地,涉及一种基于指定DNS解析的容器云上分布式训练数据通信的方法。
背景技术
随着大数据和机器学习研究的不断深入,大数据时代的机器学习开始呈现出“大模型”和“大数据”的特点。其中的“大模型”,是指随着机器学习(特别是深度学习)的进展,许多问题越来越需要一个更大的模型才能有能力去尽量接近要解决问题的具体功能;“大数据”则是指训练数据集较小时,机器学习(特别是深度学习)的效果并不理想,因此通常需要尽量大的数据作为训练集,以提高机器学习的效果。这样就使得在大规模机器学习训练场景下,训练数据和模型参数大到单台机器无法处理。因此,分布式机器学习也随之出现。
分布式机器学习是指将训练任务拆解成若干个小的任务,分配到多个设备上进行训练。分布式机器学习不仅是将训练任务分布到多个处理器上,同时也将数据(包括训练数据以及中间结果)分布在不同设备的存储中。为了获得更大的计算能力、存储、吞吐量以及容错能力,人们越来越倾向于分布式机器学习训练。
然而,一个具备实用意义的用于分布式机器学习训练的裸机集群(即物理主机集群),其从构建部署到运行维护,都是极为专业且复杂甚至是繁琐的工作。为此,人们将容器云技术应用到分布式机器学习领域,简化其构建部署运维工作的难度。
容器云技术不仅能够实现容器集群的快速部署,同时它也是一种轻量化的解决方案,且能够有效整合和管理着裸机资源。这里以Kubernetes平台运行分布式机器学习训练任务为例,Kubernetes不仅为打包应用提供一致的方法,保证应用在不同设备上运行的一致性,为应用的运行环境提供资源隔离,同时其对硬件底层的复杂性和节点管理进行了抽象,并且支持GPU的调度,此外,其还可基于应用和集群本身的需要进行弹性扩展。
容器、容器编排工具的容器云平台,均是运行在操作系统上,故其默认的通信通常也是由容器云平台提供的连接访问服务实现的,虽然这是一种高可用的容器云网络解决方案,但其无法绕过操作系统。由于上述方案的通信过程需要操作系统和协议栈的介入,在“大数据”训练集的场景下,训练梯度网络传输过程中将不可避免占用大量的CPU资源,还会造成较大网络延时,严重制约训练效率。
RDMA,即远程直接数据存取技术;RDMA可以通过网络在两个节点的应用软件之间实现Buffer的直接传递。相比传统的网络传输,RDMA无需操作系统和协议栈的介入,避免了网络传输过程中大量的CPU资源占用,同时也减小了网络延时。在物理主机作为节点组成的集群进行分布式计算时,已经通过为每个物理节点挂载RDMA网卡(即支持RDMA协议的物理网卡)的方式实现了RDMA通信。
为了更高效地使用算力资源,在容器云平台部署分布式机器训练时,往往会先将待训练的任务分解为若干个子任务,并为每个子任务生成环境配置参数(以保障子任务间的依赖关系和控制子任务间的数据一致性),然后为每个子任务创建对应的容器/容器组(这里的容器/容器组是指容器集群在编排管理时最小单位;其中,这里的容器即在容器环境下运行独立应用的容器;而容器组,是指在容器环境下运行独立应用的“逻辑主机”,运行着一个或者多个紧密耦合的应用容器,如Kubernetes平台的Pod)、连接访问服务,继而运行分布式训练;在运行分布式训练过程中,即可利用环境配置参数的连接参数即连接访问服务名称获取相应的连接访问服务,进而在默认网络下实现训练数据通信。但是,这里的连接访问服务,仅适用于在默认网络下提供相关访问连接服务,其需要通过内核的iptables等才能实现容器/ 容器组间默认通信的方式,显然是无法支持到RDMA网络的。要而言之,以上述方式在容器云平台上部署分布式机器训练任务时,运行在各容器/容器组上的子任务需要通信时,即使在本、对端容器/容器组间存在RDMA网络的情况下,也无法发现和使用RDMA网络的。
发明内容
有鉴于此,本发明提供一种基于指定DNS解析的容器云上分布式训练数据通信的方法,以实现在容器云上运行分布式训练时容器/容器组间的RDMA通信。
一方面,本发明实施例提供一种基于指定DNS解析的容器云上分布式训练数据通信的方法。
上述的通信方法,包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群时,为子任务(由整个训练任务分解获得的)创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;
为容器集群中的RDMA网络提供DNS服务,以容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将这些域名与容器/容器组被分配获得的RDMA网络IP相互映射;
指定所述RDMA网络DNS为上述容器/容器组的主DNS;
在容器集群上运行分布式训练时,子任务的通信数据,即通过环境配置参数中的连接访问服务名称,直接访问RDMA网络DNS服务解析获得本、对端容器/容器组的RDMA网络IP,进行RDMA通信。
另一方面,本发明实施例提供一种在容器云平台部署分布式训练任务的方法。
结合第一方面,上述的部署方法,包括:
将待训练任务分解为若干个子任务;
并为子任务生成环境配置参数;
为待训练任务部署容器集群,其中包括:
为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;
为容器集群中的RDMA网络提供DNS服务,以容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将这些域名与容器/容器组被分配获得的RDMA网络IP相互映射;
指定所述RDMA网络DNS为上述容器/容器组的主DNS;
在容器集群部署完成后,即启动执行分布式训练任务;也即在各容器/容器组执行各子任务。
再一方面,本发明实施例提供一种分布式机器学习容器云平台系统。
结合第一、第二方面,对应地,上述的分布式机器学习容器云平台系统,包括:
分布式训练任务管理单元、任务调度单元和容器云平台;其中,
分布式训练任务管理单元,用于将待训练任务分解为若干个子任务;
任务调度单元,用于调度包括子任务在内的各类任务到容器云平台上;其中包括:
为所述各类任务生成环境配置参数和定义将被创建的、用来执行所述各类任务的容器 /容器组等;
容器云平台,用于部署用于训练的容器集群和管理容器集群;其中包括:
根据任务调度单元的定义,为子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入;
以及为容器集群中的RDMA网络提供DNS服务,以容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将这些域名与容器/容器组被分配获得的 RDMA网络IP相互映射;
指定所述RDMA网络DNS为上述容器/容器组的主DNS;
和在容器集群部署完成后,启动执行分布式训练任务。
上述实施例中提供的基于指定DNS解析的容器云分布式训练数据通信的方法,通过为用于训练的容器集群提供额外的RDMA网络以及独立的DNS服务,并指定其为主DNS服务,屏蔽默认网络的DNS访问,进而实现了在容器云上运行分布式训练时容器/容器组间训练数据的RDMA通信,解决了“大模型”和“大数据”场景下容器云上分布式训练时训练数据通信瓶颈的问题,大大提升了容器云平台上分布式训练的效率。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为本发明一些优选实施例提供的一种在容器云平台部署分布式训练任务的方法的流程示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下为本发明的一些优选实施例。其中,
上述优选实施例提供一种基于指定DNS解析的容器云分布式训练数据通信的方法。该方法包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群时,为每一个子任务(为了提高训练效率,在部署分布式训练任务时,会结合算力资源等实际情况,将整个的待训练任务分解成若干个(不少于2个) 的子任务)创建对应的容器/容器组,提供连接访问服务、以及额外提供RDMA网络接入;
其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:
通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
如此,容器/容器组即通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在部署上述容器集群时,搭建RDMA网络DNS服务器,为容器集群中的RDMA网络提供DNS服务,具体的:
以容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将这些域名与容器/容器组被分配获得的RDMA网络IP相互映射;
并指定所述RDMA网络DNS为上述容器/容器组的主DNS;
在容器集群部署完成和启动分布式训练后,分布式训练任务运行时,子任务涉及的通信数据,即通过环境配置参数中的连接访问服务名称,直接访问RDMA网络DNS服务解析获得本、对端容器/容器组的RDMA网络IP,使用RDMA网络,进行RDMA通信。
具体地,这些实施例中的一些提供的基于指定DNS解析的容器云分布式训练数据通信的方法中,通过sriov-cni为上述的容器/容器组提供所述的第二网卡接口;对应地,通过sriov 虚拟物理RDMA网卡,获得所述的用于挂载的虚拟RDMA网卡。
本发明的另一些优选实施例提供一种在容器云平台部署分布式训练任务的方法。如图 1所示,该方法包括:
将整个的待训练任务分解成若干个(不少于2个)的子任务;
并分别为每个子任务生成环境配置参数以保障子任务间的依赖关系和训练子任务间的数据一致性;在上述的环境配置参数中,包括后续过程中在容器云平台部署的容器集群执行子任务时其对应的容器/容器组与其涉及的其他容器/容器组间通信时的连接参数,这里以访问连接服务名称作为默认连接参数;
部署训练用容器集群:
为每个子任务创建对应的容器/容器组,提供连接访问服务、以及额外提供RDMA网络接入;其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:
通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
如此,容器/容器组即通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在部署上述容器集群时,搭建RDMA网络DNS服务器,为容器集群中的RDMA网络提供DNS服务,具体的:
以容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将这些域名与容器/容器组被分配获得的RDMA网络IP相互映射;
并指定所述RDMA网络DNS为上述容器/容器组的主DNS;
上述容器集群部署完成后,即启动执行分布式训练任务,也即在各容器/容器组执行各子任务。
具体地,这些实施例中的一些提供的在容器云平台部署分布式训练任务的方法中,通过sriov-cni为上述的容器/容器组提供所述的第二网卡接口;对应地,通过sriov虚拟物理 RDMA网卡,获得所述的用于挂载的虚拟RDMA网卡。
下面以基于上述方法在Kubernetes平台部署分布式TensorFlow任务的过程为示例,进一步帮助理解上述优选实施例中的在容器云平台部署分布式训练任务的方法。其过程如下:
根据分布式训练的类型,结合计算资源/计算资源和模型,将预训练的整个任务分解为若干个(不少于2个)子任务,并分别为每个子任务生成TF_CONFIG(其中,TF_CONFIG 中包括子任务在执行时通信过程中需要的连接参数,这里默认作为连接参数的是service名称),以保障子任务间的依赖关系和训子任务间的数据一致性,以及生成其他相关参数,用以定义后续步骤中将要创建的任务的Pod(即Kubernetes平台的“容器组”,是平台对容器进行编排管理时的最小调度单位);比如,定义对应着子任务的Pod为训练Pod;
在Kubernetes平台部署用于训练的容器集群:
根据TF_CONFIG等为上述每个子任务创建对应的训练Pod、service(支持默认网络接入访问)和额外的RDMA网络接入:
通过multus_cni调用相应的cni插件,为上述的每个训练Pod提供两个虚拟网卡接口:
其中,通过调用flannel_cni插件,提供默认网络接口,挂载虚拟网卡,接入默认网络;默认网络通常用于平台管理任务的数据通信;
通过调用sriov_cni插件,提供RDMA网络接口,挂载RDMA虚拟网卡(基于sriov 虚拟RDMA网卡获得这些虚拟RDMA网卡),接入RDMA网络;RDMA网络将用于训练任务(即各子任务)的数据通信,例如任务执行期间梯度聚合时梯度数据的通信;
以上的Pod通过service、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
在部署上述容器集群时,搭建RDMA网络DNS服务器,为容器集群中的RDMA网络提供DNS服务,具体的:
以Pod对应子任务的service名称为Pod的域名,将这些域名与各Pod被分配获得的RDMA网络IP相互映射;
并指定上述的RDMA网络DNS服务为各个Pod的主DNS;
上述容器集群部署完成后,即启动执行分布式TensorFlow任务,也即在各容器/容器组执行各子任务。
本发明的再一些优选实施例提供一种分布式机器学习容器云平台系统。该系统包括:分布式训练任务管理单元、任务调度单元和容器云平台;其中,
分布式训练任务管理单元,用于将整个的待训练任务分解为若干个(不少于2个的) 子任务;
任务调度单元,用于调度包括子任务在内的各类任务到容器云平台上;其中包括:
为所述各类任务生成环境配置参数(特别是为每个子任务生成环境配置参数以保障子任务间的依赖关系和子任务间的数据一致性),
和定义将被创建的、用来执行所述各类任务的容器/容器组等;例如,定义子任务对应的容器/容器组为训练用容器/容器组,以使之能够在向容器云平台请求后,容器云在创建时,提供诸如多网络等适用于训练的自定义性能设置;
容器云平台,用于部署用于训练的容器集群和管理容器集群等;其中包括:
根据任务调度单元的定义,为子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入;其中,以上的提供连接访问服务和RDMA网络接入,具体地,可以是:通过多网卡cni为前面述及的每个容器/容器组均提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;容器/容器组通过各自的虚拟网卡接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;容器/容器组通过各自的RDMA网卡接入RDMA网络;
上述容器/容器组通过连接访问服、RDMA网络接入和它们之间的默认网络、RDMA网络,构成用于训练的双网络容器集群;
以及为容器集群中的RDMA网络提供DNS服务,以容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将这些域名与容器/容器组被分配获得的 RDMA网络IP相互映射;
指定所述RDMA网络DNS为上述容器/容器组的主DNS;
和在容器集群部署完成后,启动执行分布式训练任务。
具体地,这些实施例中的分布式机器学习容器云平台系统中,通过sriov-cni为上述的容器/容器组提供所述的第二网卡接口;对应地,通过sriov虚拟物理RDMA网卡,获得所述的用于挂载的虚拟RDMA网卡。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。

Claims (9)

1.一种基于指定DNS解析的容器云上分布式训练数据通信的方法,其特征在于,包括:
在容器云平台部署分布式训练任务过程中:
在为训练任务部署容器集群时,为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;所述的子任务是由待训练任务分解的;
在部署时,为所述容器集群中的RDMA网络提供DNS服务,以所述容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将其与容器/容器组的RDMA网络IP相互映射;
指定RDMA网络DNS为所述容器/容器组的主DNS;
在所述容器集群上运行分布式训练时,所述子任务的通信数据,即通过环境配置参数中的连接访问服务名称,直接访问RDMA网络DNS服务解析获得本、对端容器/容器组的RDMA网络IP,进行RDMA通信。
2.根据权利要求1所述的基于指定DNS解析的容器云上分布式训练数据通信的方法,其特征在于,
所述的提供连接访问服务和RDMA网络接入:
通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;所述容器/容器组通过其接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;所述容器/容器组通过其接入RDMA网络。
3.根据权利要求2所述的基于指定DNS解析的容器云上分布式训练数据通信的方法,其特征在于,
通过sriov-cni为所述容器/容器组提供所述的第二网络接口;
对应地,通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。
4.一种在容器云平台部署分布式训练任务的方法,其特征在于,包括:
将待训练任务分解为若干个子任务;
并为所述子任务生成环境配置参数;
为待训练任务部署容器集群,其中包括:
为所述子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;
在部署时,为所述容器集群中的RDMA网络提供DNS服务,以所述容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将其与容器/容器组的RDMA网络IP相互映射;
指定RDMA网络DNS为所述容器/容器组的主DNS;
在所述容器集群部署完成后,即启动执行分布式训练任务。
5.根据权利要求4所述的在容器云平台部署分布式训练任务的方法,其特征在于,
所述的提供连接访问服务和RDMA网络接入:
通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;所述容器/容器组通过其接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;所述容器/容器组通过其接入RDMA网络。
6.根据权利要求5所述的在容器云平台部署分布式训练任务的方法,其特征在于,
通过sriov-cni为所述容器/容器组提供所述的第二网络接口;
对应地,通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。
7.一种分布式机器学习容器云平台系统,其特征在于,包括:
分布式训练任务管理单元、任务调度单元和容器云平台;其中,
分布式训练任务管理单元,用于将待训练任务分解为若干个子任务;
任务调度单元,用于调度包括所述子任务在内的各类任务到容器云平台上;其中包括:
为所述各类任务生成环境配置参数和定义容器/容器组;
容器云平台,用于部署容器集群和管理容器集群;其中包括:
根据任务调度单元的定义,为所述子任务创建与之对应的容器/容器组、提供连接访问服务和额外提供RDMA网络接入;
以及在部署时,为所述容器集群中的RDMA网络提供DNS服务,以所述容器/容器组对应子任务环境配置参数中的连接访问服务名称为容器/容器组的域名,将其与容器/容器组的RDMA网络IP相互映射;
指定RDMA网络DNS为所述容器/容器组的主DNS;
和在容器集群部署完成后,启动执行分布式训练任务。
8.根据权利要求7所述的分布式机器学习容器云平台系统,其特征在于,
所述的提供连接访问服务和RDMA网络接入:
通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口;其中,
第一网卡接口,用于挂载虚拟网卡;所述容器/容器组通过其接入默认网络;
第二网卡接口,用于挂载虚拟RDMA网卡;所述容器/容器组通过其接入RDMA网络。
9.根据权利要求8所述的分布式机器学习容器云平台系统,其特征在于,
通过sriov-cni为所述容器/容器组提供所述的第二网络接口;
对应地,通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。
CN201910413781.XA 2019-05-17 2019-05-17 基于指定dns解析的容器云上分布式训练数据通信的方法 Active CN110198364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910413781.XA CN110198364B (zh) 2019-05-17 2019-05-17 基于指定dns解析的容器云上分布式训练数据通信的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910413781.XA CN110198364B (zh) 2019-05-17 2019-05-17 基于指定dns解析的容器云上分布式训练数据通信的方法

Publications (2)

Publication Number Publication Date
CN110198364A true CN110198364A (zh) 2019-09-03
CN110198364B CN110198364B (zh) 2021-09-14

Family

ID=67751469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910413781.XA Active CN110198364B (zh) 2019-05-17 2019-05-17 基于指定dns解析的容器云上分布式训练数据通信的方法

Country Status (1)

Country Link
CN (1) CN110198364B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786984A (zh) * 2020-06-28 2020-10-16 杭州海康威视数字技术股份有限公司 Pod通信连接方法、装置及电子设备、存储介质
CN112202615A (zh) * 2020-09-30 2021-01-08 上海道客网络科技有限公司 一种多cni协同工作系统与方法
CN112398936A (zh) * 2020-11-06 2021-02-23 浪潮云信息技术股份公司 一种基于Kubernetes的多网卡容器实现方法及系统
CN118041866A (zh) * 2024-04-12 2024-05-14 清华大学 分布式任务动态服务发现方法、装置及任务训练系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180013583A1 (en) * 2015-01-28 2018-01-11 Umbra Technologies Ltd. System and method for a global virtual network
CN107925594A (zh) * 2015-06-11 2018-04-17 安博科技有限公司 用于网络挂毯多协议集成的系统和方法
US20190034824A1 (en) * 2017-07-27 2019-01-31 International Business Machines Corporation Supervised learning system training using chatbot interaction
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180013583A1 (en) * 2015-01-28 2018-01-11 Umbra Technologies Ltd. System and method for a global virtual network
CN107925594A (zh) * 2015-06-11 2018-04-17 安博科技有限公司 用于网络挂毯多协议集成的系统和方法
US20190034824A1 (en) * 2017-07-27 2019-01-31 International Business Machines Corporation Supervised learning system training using chatbot interaction
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAN_RONG_TECHNOLOGY: ""RDMA打造存储利器"", 《HTTPS://BLOG.CSDN.NET/YAN_RONG_TECHNOLOGY/ARTICLE/DETAILS/83379292》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786984A (zh) * 2020-06-28 2020-10-16 杭州海康威视数字技术股份有限公司 Pod通信连接方法、装置及电子设备、存储介质
CN111786984B (zh) * 2020-06-28 2022-03-25 杭州海康威视数字技术股份有限公司 Pod通信连接方法、装置及电子设备、存储介质
CN112202615A (zh) * 2020-09-30 2021-01-08 上海道客网络科技有限公司 一种多cni协同工作系统与方法
CN112398936A (zh) * 2020-11-06 2021-02-23 浪潮云信息技术股份公司 一种基于Kubernetes的多网卡容器实现方法及系统
CN118041866A (zh) * 2024-04-12 2024-05-14 清华大学 分布式任务动态服务发现方法、装置及任务训练系统
CN118041866B (zh) * 2024-04-12 2024-06-11 清华大学 分布式任务动态服务发现方法、装置及任务训练系统

Also Published As

Publication number Publication date
CN110198364B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110198364B (zh) 基于指定dns解析的容器云上分布式训练数据通信的方法
CN110297670B (zh) 一种提高容器云上分布式任务训练效率的方法及系统
CN110308986B (zh) 基于优化调度的容器云上分布式训练数据通信的方法
JP6751780B2 (ja) アクセラレーション・リソース処理方法及び装置
CN110308987B (zh) 一种更新容器云上分布式训练任务连接参数的方法
CN110311948B (zh) 容器/容器组间的通信方法及基于此的容器云网络系统
DE112017001762T5 (de) Technologien für den einsatz dynamischer underlay-netzwerke in cloud-computing-infrastrukturen
CN102404385A (zh) 面向高性能计算的虚拟集群部署系统和部署方法
US9774542B2 (en) Computer-implemented method and a system for providing a networking service, and a computer program product adapted to perform the method
US11301284B2 (en) Method for managing VNF instantiation and device
CN110572484A (zh) 一种基于容器的生产环境仿真方法
CN110300192B (zh) 一种根据ip分配表更新分布式训练任务连接参数的方法
CN114296953B (zh) 一种多云异构系统及任务处理方法
Tseng et al. An mec-based vnf placement and scheduling scheme for ar application topology
CN118012622A (zh) 一种基于异构多云的资源编排方法、装置和介质
WO2020249080A1 (zh) 一种虚拟网络功能vnf部署方法及装置
KR101936942B1 (ko) 분산형 컴퓨팅 가속화 플랫폼 장치 및 분산형 컴퓨팅 가속화 플랫폼 운영 방법
KR101973946B1 (ko) 분산형 컴퓨팅 가속화 플랫폼 장치
John et al. Making cloud easy: design considerations and first components of a distributed operating system for cloud
CN110727511A (zh) 应用程序的控制方法、网络侧设备和计算机可读存储介质
CN114924835A (zh) 超融合环境下提升虚机访问性能的方法及系统
CN112929461B (zh) 一种基于高速互连网络的mpi进程管理接口实现方法
CN114745377A (zh) 边缘云集群服务系统及实现方法
CN111143059B (zh) 改进的Kubernetes资源调度方法
Kissel Janus: Lightweight Container Orchestration for High-performance Data Sharing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 a2405, building 9, zone 2, Shenzhen Bay science and technology ecological park, 3609 Baishi Road, community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Zhixing Technology Co., Ltd

Address before: Room 408, Building 3, 4 Chegongzhuang Street, Xicheng District, Beijing 100044

Applicant before: BEIJING HANHAI CLUSTAR TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant