CN113132141B - 一种存储、业务网分离的分布式训练高效通信网络、方法 - Google Patents

一种存储、业务网分离的分布式训练高效通信网络、方法 Download PDF

Info

Publication number
CN113132141B
CN113132141B CN201911417149.9A CN201911417149A CN113132141B CN 113132141 B CN113132141 B CN 113132141B CN 201911417149 A CN201911417149 A CN 201911417149A CN 113132141 B CN113132141 B CN 113132141B
Authority
CN
China
Prior art keywords
storage
network
service network
nodes
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911417149.9A
Other languages
English (en)
Other versions
CN113132141A (zh
Inventor
胡水海
孙军欢
杨元昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixing Technology Co Ltd
Original Assignee
Shenzhen Zhixing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixing Technology Co Ltd filed Critical Shenzhen Zhixing Technology Co Ltd
Priority to CN201911417149.9A priority Critical patent/CN113132141B/zh
Publication of CN113132141A publication Critical patent/CN113132141A/zh
Application granted granted Critical
Publication of CN113132141B publication Critical patent/CN113132141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种存储、业务网分离的分布式训练高效通信网络系统、方法,通过存储/业务网络控制器与工作节点的操作系统耦接,以及将其与存储网络接口、业务网络接口耦接;并通过存储/业务网络控制器使存储网络和业务网络在物理网络的并行传输,且在逻辑上隔离地并行传输,以便通过进一步的网络通信管理来解决分布式训练中样本集缓存数据传输和训练参数传递等训练过程中数据传输间(在同一物理网络并行传输时)彼此干扰的问题,进而提高分布式训练效率。

Description

一种存储、业务网分离的分布式训练高效通信网络、方法
技术领域
本发明涉及人工智能模型训练以及云计算、数据中心网络技术领域,具体地,涉及一种存储、业务网分离的分布式训练高效通信网络、方法。
背景技术
得益于算法、数据和硬件计算能力三方面的发展,当前人工智能正处于第三个发展高潮期。算法方面,深度学习概念的提出以及相关算法的开发,大大提高了机器学习的能力,随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性(如语音识别和图像识别等)。数据方面,随着互联网的技术进步和普及,全球网络数据量急剧增加,海量数据为人工智能发展提供了良好的土壤。机器学习任务(简称训练)需要庞大的计算能力和大量数据。硬件算力方面,CPU和GPU芯片计算能力的提升,各种人工智能专用硬件的研发,以及各种开源人工智能训练平台的广泛应用(如TensorFlow和PyTorch等),极大地提升了机器处理人工智能任务的效率。
然而,与此同时,我们也注意到:人工智能的应用正在变得越来越复杂。这表现在:用来训练算法模型的数据量越来越大,需要的硬件算力越来越多,搭建人工智能训练平台的复杂度越来越高,需要同时支持的训练任务越来越多。
人工智能技术的发展,带来了新挑战。例如,人工智能算法在进行分布式模型训练需要进行参数聚合;其中,参数聚合指的是不同计算节点阶段性地同步最新的计算结果;聚合过程中不同计算节点之间需要进行大量的网络数据传输来交换训练参数;因此,网络数据传输能力对人工智能模型训练效率有很大的影响。而在如TensorFlow和PyTorch这些主流开源人工智能训练平台,为了提高分布式机器学习训练效率,通常会在处理一批样本集的一轮训练的过程中,同时从存储节点预先缓存下一批样本集以便在本轮训练结束后下一轮训练及时开始训练。如此,虽然下一轮样本集的缓存和本轮训练的业务同步执行(overlap)能够在理论上是能够避免轮次迭代间的等待进而提高训练效率的;但是,事实上是存储流与业务流共同占用同一物理网络带宽;二者的重叠,不免无序竞争、抢占网络带宽,因彼此干扰使得网络数据传输所需要的时间变得不可预测,进而使通信成为分布式训练的性能瓶颈。
发明内容
本发明旨在解决在分布式训练过程中的网络通信问题,通过提供一种应用于分布式训练的虚拟网络模型,解决分布式训练中存储节点、工作节点间存储流与业务流重叠引发的网络通信问题。具体而言,本发明将提供一种存储、业务网分离的分布式训练高效通信网络、方法。其中,
一方面,本发明实施例提供一种存储、业务网分离的分布式训练高效通信网络系统。
上述的存储、业务网分离的分布式训练高效通信网络系统,包括:
存储网络和业务网络;其中,
存储网络包括存储节点、工作节点和存储网虚拟交换机;
业务网络包括工作节点和业务网虚拟交换机;其中,
上述的工作节点,是指分布式训练过程中用于执行训练相关作业、模型参数更新相关作业的节点;前者训练相关作业,例如执行包括推理计算、梯度计算等,后者模型参数更新相关作业,例如执行包括梯度聚合等;在本发明提供的存储、业务网分离的分布式训练高效通信网络系统中,工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;
上述的存储节点、工作节点与存储网虚拟交换机通过它们之间的链路相连;
上述的工作节点还与业务网虚拟交换机通过它们之间的链路相连;
上述的存储、业务网分离的分布式训练高效通信网络系统,还包括:存储/业务网络控制器;
上述的存储/业务网络控制器,通常运行在工作节点的宿主机上,主要用于网络虚拟化和隔离;具体地,存储/业务网络控制器,分别与工作节点的操作系统、存储网络接口、业务网络接口耦接;且存储/业务网络控制器能够提供存储网络、业务网络在物理网络的并行传输、以及存储网络与业务网络的隔离。
另一方面,本发明实施例提供一种存储、业务网分离的分布式训练高效通信方法。
上述的存储、业务网分离的分布式训练高效通信方法,包括:
在工作节点的宿主机上,运行存储/业务网络控制器;
将存储/业务网络控制器与工作节点的操作系统耦接;
且将存储/业务网络控制器与存储网络接口、业务网络接口耦接;
上述的存储/业务网络控制器,使得存储网络、业务网络在物理网络的并行传输;且在逻辑上隔离地并行传输;
其中,存储网络包括存储节点、工作节点和存储网虚拟交换机;
业务网络包括工作节点和业务网虚拟交换机;
对应第一方面的存储、业务网分离的分布式训练高效通信网络系统,同样地,工作节点也为虚拟节点。
上述的存储、业务网分离的分布式训练高效通信网络系统、方法,通过存储/业务网络控制器与工作节点的操作系统耦接,以及将其与存储网络接口、业务网络接口耦接;并通过存储/业务网络控制器使存储网络和业务网络在物理网络的并行传输,且在逻辑上隔离地并行传输,以便通过进一步的网络通信管理来解决分布式训练中样本集缓存数据传输和训练参数传递等训练过程中数据传输间(在同一物理网络并行传输时)彼此干扰的问题,进而提高分布式训练效率。
下面通过附图、具体实施例对本发明的技术方案做进一步的描述。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为本发明一些实施例提供的存储、业务网分离的分布式训练高效通信网络系统的逻辑拓扑示意图;
图2为基于Ring Allreduce通信模型的分布式训练过程中参数传递的示意图;
图3为本发明一些实施例提供的基于Ring Allreduce通信模型的存储、业务网分离的分布式训练过程中参数交换示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下为本发明的一些优选实施例。其中,
上述优选实施例中的一些提供一种存储、业务网分离的分布式训练高效通信网络系统。该存储、业务网分离的分布式训练高效通信网络系统,如图1所示,包括:
存储网络和业务网络;其中,
存储网络包括存储节点、工作节点和存储网虚拟交换机;
业务网络包括工作节点和业务网虚拟交换机;其中,
上述的工作节点,是指分布式训练过程中用于执行训练相关作业、模型参数更新相关作业的节点;前者训练相关作业,例如执行包括推理计算、梯度计算等,后者模型参数更新相关作业,例如执行包括梯度聚合等;在本发明提供的存储、业务网分离的分布式训练高效通信网络系统中,工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机,例如虚拟机等;
上述的存储节点、工作节点与存储网虚拟交换机通过它们之间的链路相连;
上述的工作节点还与业务网虚拟交换机通过它们之间的链路相连;
由于上述的存储节点、工作节点事实上均接入了同一个物理网络,且存储业务的通信和分布式训练相关的业务通信均在同一物理网络。因此,上述发明实施例提供的存储、业务网分离的分布式训练高效通信网络系统还包括:存储/业务网络控制器;
上述的存储/业务网络控制器,通常运行在工作节点对应的宿主机上,主要用于网络虚拟化和隔离等;具体地,存储/业务网络控制器一方面与工作节点的操作系统,另一方面分别与存储网络接口、业务网络接口耦接;且存储/业务网络控制器能够提供存储网络、业务网络在物理网络的并行传输、以及存储网络与业务网络的隔离;
具体而言,存储/业务网络控制器,可以是包括存储网络接口控制器组和业务网络接口控制器组的组合;其中,各组内的虚拟网络接口控制器间通过虚拟链路等彼此耦接;通过上述两组虚拟网络接口控制器,分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与存储网络接口、业务网络接口耦接;存储/业务网络控制器能够提供存储网络和业务网络在同一物理网络并行传输;当存储网络和业务网络在同一物理网络并行时,通过存储网络接口控制器组和业务网络接口控制器组的接入控制,实现存储网络与业务网络的隔离。其中,使存储网络和业务网络在同一物理网络并行,则可以是使存储网络接口、业务网络接口与宿主机的同一块物理网卡耦接,实现并行传输。
进一步地,在上述优先实施例提供的一种存储、业务网分离的分布式训练高效通信网络系统中,对其中的业务网络工作节点间的通信提供带宽保证。其中的带宽保证,包括:通过限制目标网络(即被提供带宽保证的网络)以外的网络节点间通信的带宽占用,使之保障有足够的剩余带宽保障目标网络通信。一般来说,分布式训练过程中,存储流与业务流的重叠时,更多的是存储流对业务网络数据传输的干扰,进而使业务网络通信成为分布式训练效率提升的瓶颈。故,通常来说,是对业务网络的节点间通信进行带宽保证。当然也不排除业务网络节点间通信对存储网络通信的影响,因此,也可以对存储网络的节点间通信进行带宽保证,或对二者均进行带宽保证。
在上述优先实施例提供的存储、业务网分离的分布式训练高效通信网络系统中,既然使存储网络和业务网络在物理网络的隔离并行传输,那么,其中的虚拟交换机(即存储网虚拟交换机、业务网虚拟交换机)的功能,其跨宿主机的节点间的通信,一般是利用物理网络的物理交换机实现的;但是,若一台宿主机内部署多个工作节点时,上述节点间的通信仍以上述方式通信,不免增加物理交换机通信压力和宿主机开销。因此,进一步地,在上述的优选实施例中的一些提供的一种存储、业务网分离的分布式训练高效通信网络系统中,其中的存储网络、业务网络,分别包括各自的宿主机内虚拟交换机;宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧则对应地与存储网络接口、业务网络接口耦接,以实现同一宿主机内工作节点间的通信,以及存储网络、业务网络的接入和对外通信。
进一步地,在上述优先实施例的一些提供一种存储、业务网分离的分布式训练高效通信网络系统中,当业务网络中的无专门用于参数聚合的节点时,各工作节点间的参数聚合,可以基于多种不依赖与其他参数聚合节点的通信模型进行参数传递和聚合,例如基于Ring Allreduce通信模型等。
本发明的另一些优先实施例还提供一种存储、业务网分离的分布式训练高效通信方法,包括:
在工作节点的宿主机上,运行存储/业务网络控制器;
将存储/业务网络控制器与工作节点的操作系统耦接;
以及将存储/业务网络控制器与存储网络接口、业务网络接口耦接;
其中,存储网络包括存储节点、工作节点和存储网虚拟交换机;
业务网络包括工作节点和业务网虚拟交换机;
上述的工作节点,是指分布式训练过程中用于执行训练相关作业、模型参数更新相关作业的节点;前者训练相关作业,例如执行包括推理计算、梯度计算等,后者模型参数更新相关作业,例如执行包括梯度聚合等;在本发明提供的存储、业务网分离的分布式训练高效通信网络系统中,工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机,例如虚拟机等;
上述的存储/业务网络控制器,使得存储网络、业务网络在物理网络的并行传输;且在逻辑上隔离地并行传输;
具体而言,可以通过提供两组虚拟网络接口控制器(即存储网络接口控制器组和业务网络接口控制器组;其中,各组内的虚拟网络接口控制器间通过虚拟链路等彼此耦接),分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与存储网络接口、业务网络接口耦接;当存储网络和业务网络在同一物理网络并行时,通过存储网络接口控制器组和业务网络接口控制器组的接入控制,实现存储网络与业务网络的隔离。其中,使存储网络和业务网络在同一物理网络并行,则可以是使存储网络接口、业务网络接口与宿主机的同一块物理网卡耦接,实现并行传输。
进一步地,在上述优先实施例提供一种存储、业务网分离的分布式训练高效通信方法中,对其中的业务网络节点间的通信提供带宽保证。其中的带宽保证,包括:通过限制目标网络(即被提供带宽保证的网络)以外的网络节点间通信的带宽占用,使之保障有足够的剩余带宽保障目标网络通信。一般来说,分布式训练过程中,存储流与业务流的重叠时,更多的是存储流对业务网络数据传输的干扰,进而使业务网络通信成为分布式训练效率提升的瓶颈。故,通常来说,是对业务网络的节点间通信进行带宽保证。当然也不排除业务网络节点间通信对存储网络通信的影响,因此,也可以对存储网络的节点间通信进行带宽保证,或对二者均进行带宽保证。
在上述优先实施例提供的存储、业务网分离的分布式训练高效通信方法中,既然使存储网络和业务网络在物理网络的隔离并行传输,那么,其中的虚拟交换机(即存储网虚拟交换机、业务网虚拟交换机)的功能,其跨宿主机的节点间的通信,一般是利用物理网络的物理交换机实现的;但是,若一台宿主机内部署多个工作节点时,上述节点间的通信仍以上述方式通信,不免增加物理交换机通信压力和宿主机开销。因此,进一步地,在上述的优选实施例中的一些提供的一种存储、业务网分离的分布式训练高效通信方法中,其中的存储网络、业务网络分别通过各自的宿主机内虚拟交换机实现同宿主机内节点间的通信;其中,宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧则对应地与存储网络接口、业务网络接口耦接,以实现同一宿主机内工作节点间的通信,以及存储网络、业务网络的接入和对外通信。
进一步地,在上述优先实施例的一些提供一种存储、业务网分离的分布式训练高效通信通信方法中,当业务网络中的无专门用于参数聚合的节点时,各工作节点间的参数聚合,将不依赖其他节点,通过工作节点间基于相应的不依赖其他节点介入的算法实现参数聚合;也即可以通过基于多种不依赖与其他参数聚合节点的通信模型进行参数传递和聚合,例如基于Ring Allreduce通信模型等。
其中,Ring Allreduce,是分布式训练过程中参数传递、梯度聚合的一种通信方式。图2展示了基于Ring Allreduce通信模型的分布式训练过程中参数传递的示意图。而更具体地,一个基于Ring Allreduce通信模型的分布式训练过程中的参数交换,包括,Scatter-Reduce和Allgather;其中,分布式训练集群中的各个工作节点接收到训练数据以后进行模型训练计算,得到计算的结果,即模型参数,每个工作节点根据工作节点数量(假设数量为n)划分成n份参数子集;通过n-1次Scatter-Reduce迭代;在每次迭代中,工作节点沿一个方向向相邻一侧的工作节点发送相应的参数子集,并从相邻另一侧的工作节点接受相应的参数子集并累积;每个工作节点发送和接收的参数子集在每次迭代中都是不同的;经过n-1次数据传输操作,让分布在所有工作节点上的某份参数子集聚合在某个工作节点上;在scatter-reduce步骤完成之后,通过Allgather将这些聚合的参数子集,同步到各工作节点。
在一个经典的基于Ring Allreduce通信模型的分布式训练系统中,存储节点负责存储数据,并发送数据给工作节点,这是单向的;业务网络中的工作节点之间需要互相发送数据,这是双向的;在工作节点及其相关的网络设备等处,出现存储流和业务流的相互干扰,几乎不可避免的。以下将以基于上述优选实施例之一的实施过程,来说明本发明是如何解决上述问题的。
图3即基于该实施例的基于Ring Allreduce通信模型的存储、业务网分离的分布式训练过程中参数聚合示意图,其中,实线网络即表示业务网络的部分,虚线网络则表示存储网络的部分;
其过程如下:
1、确认工作节点的个数,假设为n;
2、在存储节点,根据工作节点的个数将训练数据划分为相应的n份,通过存储网络发送给工作节点;
3、每个工作节点接收到训练数据以后进行模型训练计算,得到计算的结果,即模型参数;
4、每个工作节点根据工作节点个数将模型参数划分成n份参数子集;
5、在业务网络,通过n-1次数据传输操作,让分布在所有工作节点上的某份参数子集聚合在某个工作节点上。在第i次操作过程中,第j个工作节点将自己的第(j-i+n)%n份参数子集发送至一侧工作节点,同时接受来自另一侧工作节点的第(j-i-1+n)%n个参数子集,并对本地的参数子集和接收的参数子集reduce操作。最终,第j个节点将聚合之前分布在所有工作节点的第(j+1)%n个参数子集;
6、业务网络通过n-1次数据传输操作,让所有工作节点拥有所有第5步聚合得到的参数子集。在第i次操作过程中,第j个工作节点将自己的第(j-i-1)%n份参数发送给右邻居节点,同时接收从左邻居节点传来的第(j-i-2)%n份参数,并替换本地原有的该份参数;
7、进行下一轮计算。
结合图3中的4个工作节点,进一步地,将工作节点和存储节点与存储网络的存储网虚拟交换机之间的带宽保证为b1,业务网络中工作节点之间与工作节点和业务网虚拟交换机之间的带宽保证为b2。在计算过程中,存储节点将当前这一轮的训练数据分成4份,分别发送给4个工作节点,发送的带宽保证为b1,工作节点接收的带宽保证也为b1。
4个工作节点进行训练后各自得到参数a1、a2、a3、a4。4个工作节点各自将自己计算得到的参数分成4份参数子集。首先业务网络通过3次数据传输操作,让分布在所有工作节点上的某份参数子集聚合在某个工作节点上。第一次数据传输中节点1将自己的第1份参数子集发给节点2,节点2将自己的第2份参数子集发至节点3,节点3将自己的第3份参数子集发至节点4,节点4将自己的第4份参数子集发至节点1参数子集。第二次数据传输中节点1将自己的第4份参数子集发给节点2,节点2将自己的第1份参数子集发给节点3,节点3将自己的第2份参数子集发给节点4,节点4将自己的第3份参数子集发至节点1。第三次数据传输中,节点1将自己的第3份参数子集传给节点2,节点2将子集的第4份参数子集传给节点3,节点3将自己的第1份参数子集传给节点4,节点4将自己的第2份参数子集传给节点1。每个工作节点在收到一份参数子集后,对收到的参数子集和自己本地有的参数子集做reduce操作。此时,4个工作节点类似上述过程再次进行n-1次数据传输操作。不同之处在于每个节点收到一份参数子集后将用它替换自己本地的那份参数子集。
此外,上述各实施例中存储网络中的存储节点,不仅可以是单一的存储装置,还可以是分布式存储系统。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。

Claims (10)

1.一种存储、业务网分离的分布式训练高效通信网络系统,其特征在于,包括:
存储网络和业务网络;
以及存储/业务网络控制器;其中,
存储网络包括存储节点、工作节点和存储网虚拟交换机;
业务网络包括工作节点和业务网虚拟交换机;其中
工作节点、存储节点与存储网虚拟交换机通过它们之间的链路相连;
工作节点还与业务网虚拟交换机通过它们之间的链路相连;
所述工作节点是指分布式训练过程中用于执行训练相关作业、模型参数更新相关作业的节点,且所述工作节点为虚拟节点;所述训练相关作业包括接收训练数据作业,所述模型参数更新相关作业包括模型参数的梯度聚合作业;
存储/业务网络控制器,运行在工作节点的宿主机上,分别与工作节点的操作系统、存储网络接口、业务网络接口耦接;且存储/业务网络控制器能够提供存储网络、业务网络在物理网络的并行传输、以及存储网络与业务网络的隔离。
2.根据权利要求1所述的存储、业务网分离的分布式训练高效通信网络系统,其特征在于,
对其中的存储网络和/或业务网络节点间通信分别提供带宽保证;
所述的带宽保证,即:
通过限制其他网络的带宽占用,以保障有足够的剩余带宽给被提供带宽保证的网络。
3.根据权利要求1所述的存储、业务网分离的分布式训练高效通信网络系统,其特征在于,
其中的存储/业务网络控制器,包括存储网络接口控制器组和业务网络接口控制器组;分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网
络接口控制器对应地与存储网络接口、业务网络接口耦接;
通过存储网络接口控制器组和业务网络接口控制器组的接入控制,隔离存储网络与业务网络。
4.根据权利要求1所述的存储、业务网分离的分布式训练高效通信网络系统,其特征在于,
其中的存储网络、业务网络,分别包括各自的宿主机内虚拟交换机;
所述的宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧对应地与存储网络接口、业务网络接口耦接。
5.根据权利要求1所述的存储、业务网分离的分布式训练高效通信网络系统,其特征在于,
各工作节点间基于不依赖其他节点介入的通信模型进行参数聚合。
6.一种存储、业务网分离的分布式训练高效通信方法,其特征在于,包括:
在工作节点的宿主机上,运行存储/业务网络控制器;
将存储/业务网络控制器与工作节点的操作系统耦接;
且将存储/业务网络控制器分别与存储网络接口、业务网络接口耦接;
存储/业务网络控制器,使存储网络、业务网络在物理网络的并行传输;且在逻辑上隔离地并行传输;
其中,存储网络包括存储节点、工作节点和存储网虚拟交换机;
业务网络包括工作节点和业务网虚拟交换机
所述工作节点是指分布式训练过程中用于执行训练相关作业、模型参数更新相关作业的节点,且所述工作节点为虚拟节点;所述训练相关作业包括接收训练数据作业,所述模型参数更新相关作业包括模型参数的梯度聚合作业。
7.根据权利要求6所述的存储、业务网分离的分布式训练高效通信方法,其特征在于,
对其中的存储网络和/或业务网络节点间通信分别提供带宽保证;
所述的带宽保证,即:
通过限制其他网络的带宽占用,以保障有足够的剩余带宽给被提供带宽保证的网络。
8.根据权利要求6所述的存储、业务网分离的分布式训练高效通信方法,其特征在于,
提供存储网络接口控制器组和业务网络接口控制器组;
分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与存储网络接口、业务网络接口耦接;
通过存储网络接口控制器组和业务网络接口控制器组的接入控制,隔离存储网络与业务网络。
9.根据权利要求6所述的存储、业务网分离的分布式训练高效通信方法,其特征在于,
其中的存储网络、业务网络,通过各自的宿主机内虚拟交换机实现同一宿主机内各工作节点间的通信;其中,
所述的宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧对应地与存储网络接口、业务网络接口耦接。
10.根据权利要求6所述的存储、业务网分离的分布式训练高效通信方法,其特征在于,
各工作节点间的参数聚合,不依赖其他节点介入,基于Ring Allreduce进行参数聚合。
CN201911417149.9A 2019-12-31 2019-12-31 一种存储、业务网分离的分布式训练高效通信网络、方法 Active CN113132141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911417149.9A CN113132141B (zh) 2019-12-31 2019-12-31 一种存储、业务网分离的分布式训练高效通信网络、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911417149.9A CN113132141B (zh) 2019-12-31 2019-12-31 一种存储、业务网分离的分布式训练高效通信网络、方法

Publications (2)

Publication Number Publication Date
CN113132141A CN113132141A (zh) 2021-07-16
CN113132141B true CN113132141B (zh) 2023-01-24

Family

ID=76769620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911417149.9A Active CN113132141B (zh) 2019-12-31 2019-12-31 一种存储、业务网分离的分布式训练高效通信网络、方法

Country Status (1)

Country Link
CN (1) CN113132141B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615014B2 (en) * 2010-03-03 2013-12-24 Iwebgate Technology Limited System and method for multiple concurrent virtual networks
CN104754008B (zh) * 2013-12-26 2019-03-08 伊姆西公司 网络存储节点、网络存储系统以及用于网络存储节点的装置和方法
US11288084B2 (en) * 2015-10-22 2022-03-29 Ribbon Communications Operating Company, Inc. Isolated physical networks for network function virtualization
CN106603550B (zh) * 2016-12-28 2019-08-13 中国银联股份有限公司 一种网络隔离方法及装置
US10592145B2 (en) * 2018-02-14 2020-03-17 Commvault Systems, Inc. Machine learning-based data object storage
CN108460457A (zh) * 2018-03-30 2018-08-28 苏州纳智天地智能科技有限公司 一种面向卷积神经网络的多机多卡混合并行异步训练方法
CN113988266A (zh) * 2021-11-01 2022-01-28 南京大学 基于Top-k的支持复杂网络状况的自适应分布式梯度压缩方法

Also Published As

Publication number Publication date
CN113132141A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111835565B (zh) 一种基于数字孪生的通信网络优化方法、装置和系统
CN112187547B (zh) 一种基于数字孪生的网络系统
EP2189903B1 (en) Barrier synchronization apparatus, barrier synchronization system, and barrier synchronization method
CN103812949B (zh) 一种面向实时云平台的任务调度与资源分配方法及系统
CN112422443B (zh) 一种拥塞算法的自适应控制方法、存储介质、设备及系统
EP3014446A1 (en) Asynchronous message passing for large graph clustering
CN110308984B (zh) 一种用于处理地理分布式数据的跨集群计算系统
CN105009521A (zh) 消息处理方法和网关
CN109379303A (zh) 基于提升万兆以太网性能的并行化处理框架系统和方法
CN108111335A (zh) 一种调度和链接虚拟网络功能的方法及系统
CN103414612A (zh) 一种基于opnet的通信网络实时仿真方法
WO2023207035A1 (zh) 一种数据同步方法、装置、设备及存储介质
CN104794095B (zh) 分布式计算处理方法及装置
CN108540405B (zh) 网络资源迁移方法及装置
CN105187487A (zh) 一种面向云存储的复制状态机模块化框架设计方法
CN113132141B (zh) 一种存储、业务网分离的分布式训练高效通信网络、方法
CN115913952B (zh) 基于cpu+dpu平台的多目标服务功能链的高效并行化和部署方法
Zhao et al. Enabling switch memory management for distributed training with in-network aggregation
CN100527693C (zh) 通信网络以及操作该通信网络以传送数据的方法
CN115879543A (zh) 一种模型训练方法、装置、设备、介质及系统
CN113132435B (zh) 一种存储、业务网分离的分布式训练网络系统及通信方法
CN113132145B (zh) 一种管理、训练网分离的分布式训练网络系统及通信方法
CN113132138B (zh) 一种基于虚拟网络的分布式训练网络系统及通信方法
CN115292044A (zh) 数据处理方法、装置、电子设备及存储介质
Wang et al. Blink: A fast NVLink-based collective communication library

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant