CN113132145B - 一种管理、训练网分离的分布式训练网络系统及通信方法 - Google Patents

一种管理、训练网分离的分布式训练网络系统及通信方法 Download PDF

Info

Publication number
CN113132145B
CN113132145B CN201911422399.1A CN201911422399A CN113132145B CN 113132145 B CN113132145 B CN 113132145B CN 201911422399 A CN201911422399 A CN 201911422399A CN 113132145 B CN113132145 B CN 113132145B
Authority
CN
China
Prior art keywords
training
network
management
virtual switch
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911422399.1A
Other languages
English (en)
Other versions
CN113132145A (zh
Inventor
胡水海
孙军欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixing Technology Co Ltd
Original Assignee
Shenzhen Zhixing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixing Technology Co Ltd filed Critical Shenzhen Zhixing Technology Co Ltd
Priority to CN201911422399.1A priority Critical patent/CN113132145B/zh
Publication of CN113132145A publication Critical patent/CN113132145A/zh
Application granted granted Critical
Publication of CN113132145B publication Critical patent/CN113132145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/70Virtual switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种管理、训练网分离的分布式训练通信网络系统、方法,通过管理/训练网络控制器与工作节点的操作系统耦接,以及将其与管理网络接口、训练网络接口耦接;并通过其使管理网络、训练网络在物理网络并行传输,且在逻辑上隔离地并行传输,以便通过进一步的网络通信管理来解决分布式训练中管理业务流量与训练数据传输在同一物理网络并行传输时被干扰,甚至是在训练数据传输高峰时完全占据带宽使管理业务通信暂时性中断,进而危及训练集群稳定的问题。

Description

一种管理、训练网分离的分布式训练网络系统及通信方法
技术领域
本发明涉及人工智能模型训练以及云计算、数据中心网络技术领域,具体地,涉及一种管理、训练网分离的分布式训练网络系统及通信方法。
背景技术
得益于算法、数据和硬件计算能力三方面的发展,当前人工智能正处于第三个发展高潮期。算法方面,深度学习概念的提出以及相关算法的开发,大大提高了机器学习的能力,随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性(如语音识别和图像识别等)。数据方面,随着互联网的技术进步和普及,全球网络数据量急剧增加,海量数据为人工智能发展提供了良好的土壤。机器学习任务(简称训练)需要庞大的计算能力和大量数据。硬件算力方面,CPU和GPU芯片计算能力的提升,各种人工智能专用硬件的研发,以及各种开源人工智能训练平台的广泛应用(如TensorFlow和PyTorch等),极大地提升了机器处理人工智能任务的效率。
然而,与此同时,我们也注意到:人工智能的应用正在变得越来越复杂。这表现在:用来训练算法模型的数据量越来越大,需要的硬件算力越来越多,搭建人工智能训练平台的复杂度越来越高,需要同时支持的训练任务越来越多。
人工智能技术的发展,带来了新挑战。例如,人工智能算法在进行分布式模型训练需要进行参数聚合;其中,参数聚合指的是不同计算节点阶段性地同步最新的计算结果;聚合过程中不同计算节点之间需要进行大量的网络数据传输来交换训练参数;因此,网络数据传输能力对人工智能模型训练效率有很大的影响。
然而,不同于单机训练,分布式训练集群自身的节点管理等诸业务也需要通过跨节点的通信来实现。显然,前面述及的管理流量,若与本就是训练过程中通信瓶颈的海量训练数据传输(例如传递的参数)并行通信,将会被严重干扰,甚至是在训练数据传输高峰时被完全占据带宽,而是管理流量无法传输进而管理业务暂时性中断,进而影响训练集群本身的稳定。虽然通过提供两套的物理网络分别用于对应业务的通信,可以避免上述的问题。但需要注意的是,提供额外的网络通信设备,显然将提高服务器集群的部署成本,更重要的是,两套并行物理网络,特别是集群中多数的节点(如工作节点、参数服务器节点等),均同时接入上述两个网络时,其网络配置的难度将被放大。
发明内容
本发明旨在解决在分布式训练过程中的网络通信问题,通过提供一种应用于分布式训练的虚拟网络模型,解决分布式训练中节点间(例如工作节点间以及工作节点与其他相关节点间)训练流量(通常通信数据量巨大)与业务流量并发、并行引发的网络通信问题。具体而言,本发明将提供一种管理、训练网分离的分布式训练网络系统及通信方法,仅通过一套物理网络即可实现管理网络、训练网络的分离并行传输。
一方面,本发明实施例提供一种管理、训练网分离的分布式训练网络系统。
上述的管理、训练网分离的分布式训练网络系统,包括:
管理网络和训练网络;其中,
管理网络包括工作节点和管理网虚拟交换机;
训练网络包括工作节点和训练网虚拟交换机;其中,
上述的工作节点,是指分布式训练过程中用于执行训练等相关作业的节点;在本发明提供一种管理、训练网分离的分布式训练网络系统中,工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;
上述的工作节点与管理网虚拟交换机通过它们之间的链路相连;
上述的工作节点还与训练网虚拟交换机通过它们之间的链路相连;
上述的管理、训练网分离的分布式训练网络系统,还包括:管理/训练网络控制器;
上述的管理/训练网络控制器,通常运行在工作节点的宿主机上,主要用于网络虚拟化和隔离;具体地,管理/训练网络控制器,分别与工作节点的操作系统、管理网络接口、训练网络接口耦接;且管理/训练网络控制器能够提供管理网络、训练网络在物理网络的并行传输、以及训练网络与管理网络的隔离。
另一方面,本发明实施例提供一种管理、训练网分离的分布式训练通信方法。
上述的管理、训练网分离的分布式训练通信方法,包括:
在工作节点的宿主机上,运行管理/训练网络控制器;
将管理/训练网络控制器与工作节点的操作系统耦接;
且将管理/训练网络控制器分别与管理网络接口、训练网络接口耦接;
上述的管理/训练网络控制器,使得管理网络、训练网络在物理网络并行传输;且在逻辑上隔离地并行传输;
其中,管理网络包括工作节点和管理网虚拟交换机;
训练网络包括工作节点和训练网虚拟交换机;
对应第一方面的管理、训练网分离的分布式训练网络系统,同样地,工作节点也为虚拟节点。
上述的管理、训练网分离的分布式训练高效通信网络系统、方法,通过管理/训练网络控制器与工作节点的操作系统耦接,以及将其与管理网络接口、训练网络接口耦接;并通过其使管理网络、训练网络在物理网络并行传输,且在逻辑上隔离地并行传输,以便通过进一步的网络通信管理来解决分布式训练中管理业务流量与训练数据传输在同一物理网络并行传输时被干扰,甚至是在训练数据传输高峰时完全占据带宽使管理业务通信暂时性中断,进而危及训练集群稳定的问题。
下面通过附图、具体实施例对本发明的技术方案做进一步的描述。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为现有技术中分布式训练集群的管理流量与训练流量在同一网络中传输的物理网络拓扑示意图;
图2为针对图1方案中的技术问题现有技术中提供的另一种管理网络与训练网络并行存在的双物理网络模型拓扑示意图;
图3为基于图2方案的另一种物理网络拓扑形式的示意图;
图4为本发明一些实施例提供的一种管理、训练网分离的分布式训练网络系统示意图;
图5为基于图4中方案的一种优化方案的示意图,即通过软件实现管理网虚拟交换机对训练网虚拟交换机的耦接实现对训练网虚拟交换机粒度的管理;
图6为本发明一实施例提供的基于PS通信模型的一种管理、训练网分离的分布式训练网络系统示意图。
图7为为本发明一实施例提供的另一种基于PS通信模型的管理、训练网分离的分布式训练网络系统示意图,即基于多个参数服务器节点的管理、训练网分离的分布式训练网络系统示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在分布式训练集群网络的现有技术中,一种较为简单的组网方案是将用于训练的服务器主机和用于集群管理的服务器主机一并接入同一物理网络;即如图1所示,各服务器主机与交换机通过它们之间的链路连接,构成一个仅有一个的逻辑网络,在作为分布式训练集群时,则通过确定其中的服务器主机/虚拟节点(例如在该物理服务器集群上虚拟出的虚拟机)作为管理节点,其他的服务器主机/虚拟节点作为工作节点等分布式训练所必需的计算节点。显然,上述方案将不可避免地使管理流量和训练流量重叠,在同一网络并行通信将被严重干扰,当训练数据传输高峰时完全占用带宽或占用大部分带宽时,管理流量将无法传输进而管理业务将暂时性中断,将从根本上影响训练集群本身的稳定。
虽然针对上述现有技术方案,图2、图3提供了一种管理网络与训练网络并行存在的双物理网络模型,通过以其中的服务器主机或在该物理服务器集群上虚拟出的虚拟节点分别作为工作节点等分布式训练所必需的计算节点等,但上述方案网络配置复杂,且额外的网络设备也将增加集群搭建成本。
针对上述问题,本发明提供一种管理、训练网分离的分布式训练网络系统及通信方法。
以下为本发明的一些优选实施例。其中,
上述优选实施例中的一些提供一种管理、训练网分离的分布式训练网络系统。该管理、训练网分离的分布式训练网络系统包括:
管理网络和训练网络;其中,
管理网络包括工作节点和管理网虚拟交换机;
训练网络包括工作节点和训练网虚拟交换机;其中,
上述的工作节点,是指分布式训练过程中用于执行训练等相关作业的节点;在本发明提供一种管理、训练网分离的分布式训练网络系统中,工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;
上述的工作节点与管理网虚拟交换机通过它们之间的链路相连;
上述的工作节点还与训练网虚拟交换机通过它们之间的链路相连;
上述的管理、训练网分离的分布式训练网络系统,还包括:管理/训练网络控制器;
上述的管理/训练网络控制器,通常运行在工作节点的宿主机上,主要用于网络虚拟化和隔离;具体地,管理/训练网络控制器,一方面与工作节点的操作系统,另一方面分别与管理网络接口、训练网络接口耦接;且管理/训练网络控制器能够提供管理网络、训练网络在物理网络的并行传输、以及训练网络与管理网络的隔离;
具体而言,管理/训练网络控制器可以通过两组虚拟网络接口控制器(即管理网络接口控制器组和训练网络接口控制器组;其中,各组内的虚拟网络接口控制器间通过虚拟链路等彼此耦接),分别将两组虚拟网络接口控制器的一侧的与工作节点的操作系统耦接;另一侧的则对应地与管理网络接口、训练网络接口耦接;管理/训练网络控制器能够使训练网络和管理网络在同一物理网络并行;当管理网络和训练网络在同一物理网络并行时,通过管理网络接口控制器组和训练网络接口控制器组的接入控制,实现管理网络和训练网络的隔离。其中,使管理网络和训练网络在同一物理网络并行,则可以是使管理网络接口、训练网络接口与宿主机的同一块物理网卡耦接,实现并行传输。
进一步,在上述优先实施例提供的一种管理、训练网分离的分布式训练网络系统中,如图4所示,对其中的管理网络节点间的通信提供带宽保证。其中的带宽保证,包括:通过限制训练网络节点间通信的带宽占用,使之保障有足够的剩余带宽保障管理网络通信。当然,也可以同时对管理网络和训练网络的节点间通信均分别进行带宽保证。另外,若其中的管理节点等非工作节点不与其他网络共用同一物理网络时,则也可不提供其带宽保证。
在上述优先实施例的一些提供的一种管理、训练网分离的分布式训练网络系统中,其中的管理网虚拟交换机和训练网虚拟交换机均是由同一个/组物理交换机实现的,故管理网络能够仅通过管理网虚拟交换机耦接物理交换机,获取其状态实现对交换机的管理。但是,仅通过物理交换机的状态去评估、管理训练网虚拟交换机,在集群资源管理粒度上未免粗糙。因此,进一步,在上述优先实施例提供的一种管理、训练网分离的分布式训练网络系统中,如图5所示,通过软件将其中的管理网虚拟交换机与训练网虚拟交换机耦接,进而实现管理网络中的管理服务器节点对集群节点的训练网虚拟交换机粒度的精细管理。
在上述优先实施例提供一种管理、训练网分离的分布式训练网络系统中,训练网络中的各节点间能够基于多种不同通信模型进行参数传递,例如基于Ring Allreduce通信模型等。另外,还可以通过接入其他节点参与参数传递。因此,进一步,在上述优先实施例提供的一种管理、训练网分离的分布式训练网络系统中,如图6和7所示,包括:一个或数个参数服务器节点;也即其中的管理网络、训练网络中,均相应地包括一个或数个参数服务器节点,以使其能够基于PS通信模型进行参数聚合。
在上述优先实施例提供一种管理、训练网分离的分布式训练网络系统中,既然使管理网络和训练网络在物理网络的隔离并行传输,那么,其中的虚拟交换机(即管理网虚拟交换机、训练网虚拟交换机)的功能,其跨宿主机的节点间的通信,一般是利用物理网络的物理交换机实现的;但是,若一台宿主机内部署多个工作节点时,上述节点间的通信仍以上述方式通信,不免增加物理交换机通信压力和宿主机开销。因此,进一步地,在上述的优选实施例中的一些提供的一种管理、训练网分离的分布式训练网络系统中,其中的管理网络、训练网络,分别包括各自的宿主机内虚拟交换机;宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧则对应地与管理网络接口、训练网络接口耦接,以实现同一宿主机内工作节点间的通信,以及管理网络、训练网络的接入和对外通信。
本发明的另一些实施例提供一种管理、训练网分离的分布式训练通信方法。该方法包括:
在工作节点的宿主机上,运行管理/训练网络控制器;
将管理/训练网络控制器与工作节点的操作系统耦接;
以及将管理/训练网络控制器分别与管理网络接口、训练网络接口耦接;
其中,管理网络包括工作节点和管理网虚拟交换机;
训练网络包括工作节点和训练网虚拟交换机;
而工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;
上述的管理/训练网络控制器,使得管理网络、训练网络在物理网络的并行传输;且在逻辑上隔离管理网络和训练网络;
具体而言,通过提供两组虚拟网络接口控制器(即管理网络接口控制器组和训练网络接口控制器组;其中,各组内的虚拟网络接口控制器间通过虚拟链路等彼此耦接),将分别两组虚拟网络接口控制器的一侧的与工作节点的操作系统耦接;另一侧的则对应地与管理网络接口、训练网络接口耦接;当管理网络和训练网络在同一物理网络并行时,通过管理网络接口控制器组和训练网络接口控制器组的接入控制,实现管理网络和训练网络的隔离。其中,使管理网络和训练网络在同一物理网络并行,则可以是使管理网络接口、训练网络接口与宿主机的同一块物理网卡耦接,实现并行传输。
进一步,在上述优先实施例提供的一种管理、训练网分离的分布式训练通信方法中,对其中的管理网络节点间的通信提供带宽保证。其中的带宽保证,包括:通过限制训练网络节点间通信的带宽占用,使之保障有足够的剩余带宽保障管理网络通信。当然,也可以同时对管理网络和训练网络的节点间通信均分别进行带宽保证。另外,若其中的管理节点等非工作节点不与其他网络共用同一物理网络时,则也可不提供其带宽保证。
在上述优先实施例的一些提供的一种管理、训练网分离的分布式训练通信方法中,其中的管理网虚拟交换机和训练网虚拟交换机均是由同一个/组物理交换机实现的,故管理网络能够仅通过管理网虚拟交换机耦接物理交换机,获取其状态实现对交换机的管理。但是,仅通过物理交换机的状态去评估、管理训练网虚拟交换机,在集群资源管理粒度上未免粗糙。因此,进一步,在上述优先实施例提供的一种管理、训练网分离的分布式训练通信方法中,通过软件将其中的管理网虚拟交换机与训练网虚拟交换机耦接,进而实现管理网络中的管理服务器节点对集群节点的训练网虚拟交换机粒度的精细管理。
在上述优先实施例提供一种管理、训练网分离的分布式训练通信方法中,训练网络中的各节点间能够基于多种不同通信模型进行参数传递,例如基于Ring Allreduce通信模型等。另外,还可以通过接入其他节点参与参数传递。因此,进一步,在上述优先实施例提供的一种管理、训练网分离的分布式训练通信方法中,接入一个或数个参数服务器节点参与参数传递,即在其中的管理网络、训练网络分别接入一个或数个参数服务器节点,以使其能够基于PS通信模型进行参数聚合。
在上述优先实施例提供一种管理、训练网分离的分布式训练通信方法中,既然使管理网络和训练网络在物理网络的隔离并行传输,那么,其中的虚拟交换机(即管理网虚拟交换机、训练网虚拟交换机)的功能,其跨宿主机的节点间的通信,一般是利用物理网络的物理交换机实现的;但是,若一台宿主机内部署多个工作节点时,上述节点间的通信仍以上述方式通信,不免增加物理交换机通信压力和宿主机开销。因此,进一步地,在上述的优选实施例中的一些提供的一种管理、训练网分离的分布式训练通信方法中,其中的管理网络、训练网络通过各自的宿主机内虚拟交换机实现同一宿主机内工作节点间的通信;宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧则对应地与管理网络接口、训练网络接口耦接,进而实现同一宿主机内工作节点间的通信,以及管理网络、训练网络的接入和对外通信。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。

Claims (8)

1.一种管理、训练网分离的分布式训练网络系统,其特征在于,包括:
管理网络和训练网络;
以及管理/训练网络控制器;其中,
管理网络包括工作节点和管理网虚拟交换机;
训练网络包括工作节点和训练网虚拟交换机;其中,
工作节点与管理网虚拟交换机通过它们之间的链路相连;
工作节点还与训练网虚拟交换机通过它们之间的链路相连;
管理/训练网络控制器,分别与工作节点的操作系统、管理网络接口、训练网络接口耦接;且管理/训练网络控制器能够提供管理网络、训练网络在物理网络的并行传输、以及训练网络与管理网络的隔离;
将其中的管理网虚拟交换机与训练网虚拟交换机耦接;管理服务器节点通过该耦接对训练网虚拟交换机进行管理。
2.根据权利要求1所述的管理、训练网分离的分布式训练网络系统,其特征在于,对其中的管理网络节点间通信提供带宽保证或对其中的管理网络和训练网络节点间的通信分别提供带宽保证:
即通过限制其他网络的带宽占用,以保障有足够的剩余带宽给被提供带宽保证的网络。
3.根据权利要求1所述的管理、训练网分离的分布式训练网络系统,其特征在于,
所述系统中包括:一个或数个参数服务器节点;
对应地,其中的管理网络、训练网络中,均相应地包括一个或数个参数服务器节点。
4.根据权利要求1所述的管理、训练网分离的分布式训练网络系统,其特征在于,
其中的管理网络、训练网络,分别包括各自的宿主机内虚拟交换机;宿主机内虚拟交换机一侧分别与宿主机内各工作节点的操作系统耦接,另一侧对应地与管理网络接口、训练网络接口耦接。
5.一种管理、训练网分离的分布式训练通信方法,其特征在于,包括:
在工作节点的宿主机上,运行管理/训练网络控制器;
将管理/训练网络控制器与工作节点的操作系统耦接;
且将管理/训练网络控制器分别与管理网络接口、训练网络接口耦接;
管理/训练网络控制器,使管理网络、训练网络在物理网络并行传输;且在逻辑上隔离地并行传输;
其中,管理网络包括工作节点和管理网虚拟交换机;
训练网络包括工作节点和训练网虚拟交换机;
将其中的管理网虚拟交换机与训练网虚拟交换机耦接;管理服务器节点通过该耦接对训练网虚拟交换机进行管理。
6.根据权利要求5所述的管理、训练网分离的分布式训练通信方法,其特征在于,对其中的管理网络节点间通信提供带宽保证或对其中的管理网络和训练网络节点间的通信分别提供带宽保证:
即通过限制其他网络的带宽占用,以保障有足够的剩余带宽给被提供带宽保证的网络。
7.根据权利要求5所述的管理、训练网分离的分布式训练通信方法,其特征在于,
接入一个或数个参数服务器节点用于参数传递;
对应地,在其中的管理网络、训练网络分别接入一个或数个参数服务器节点。
8.根据权利要求5所述的管理、训练网分离的分布式训练通信方法,其特征在于,其中的管理网络、训练网络通过各自的宿主机内虚拟交换机进行同一宿主机内工作节点间的通信;宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧对应地与管理网络接口、训练网络接口耦接。
CN201911422399.1A 2019-12-31 2019-12-31 一种管理、训练网分离的分布式训练网络系统及通信方法 Active CN113132145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911422399.1A CN113132145B (zh) 2019-12-31 2019-12-31 一种管理、训练网分离的分布式训练网络系统及通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911422399.1A CN113132145B (zh) 2019-12-31 2019-12-31 一种管理、训练网分离的分布式训练网络系统及通信方法

Publications (2)

Publication Number Publication Date
CN113132145A CN113132145A (zh) 2021-07-16
CN113132145B true CN113132145B (zh) 2023-04-11

Family

ID=76769661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911422399.1A Active CN113132145B (zh) 2019-12-31 2019-12-31 一种管理、训练网分离的分布式训练网络系统及通信方法

Country Status (1)

Country Link
CN (1) CN113132145B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011199749A (ja) * 2010-03-23 2011-10-06 Nec Corp 検疫ネットワークシステム、検疫管理サーバ、仮想端末へのリモートアクセス中継方法およびそのプログラム
CN102859926A (zh) * 2010-03-03 2013-01-02 伊韦伯盖特科技有限公司 多并行虚拟网络的系统和方法
CN103309720A (zh) * 2012-03-07 2013-09-18 上海聚耘信息科技有限公司 一种维护虚拟数据中心的虚拟机管理系统
CN106603550A (zh) * 2016-12-28 2017-04-26 中国银联股份有限公司 一种网络隔离方法及装置
CN110086647A (zh) * 2019-03-12 2019-08-02 国网辽宁省电力有限公司信息通信分公司 一种大数据信息中心网络架构方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102859926A (zh) * 2010-03-03 2013-01-02 伊韦伯盖特科技有限公司 多并行虚拟网络的系统和方法
JP2011199749A (ja) * 2010-03-23 2011-10-06 Nec Corp 検疫ネットワークシステム、検疫管理サーバ、仮想端末へのリモートアクセス中継方法およびそのプログラム
CN103309720A (zh) * 2012-03-07 2013-09-18 上海聚耘信息科技有限公司 一种维护虚拟数据中心的虚拟机管理系统
CN106603550A (zh) * 2016-12-28 2017-04-26 中国银联股份有限公司 一种网络隔离方法及装置
CN110086647A (zh) * 2019-03-12 2019-08-02 国网辽宁省电力有限公司信息通信分公司 一种大数据信息中心网络架构方法

Also Published As

Publication number Publication date
CN113132145A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
Dixit et al. Towards an elastic distributed SDN controller
US10229087B2 (en) Many-core processor system integrated with network router, and integration method and implementation method thereof
CN108845970A (zh) 一种自由切换gpu服务器拓扑的装置及方法
CN103346981A (zh) 虚拟交换方法、相关装置和计算机系统
CN104169878A (zh) 可升级的虚拟设备云
CN105009521A (zh) 消息处理方法和网关
US10218622B2 (en) Placing a network device into a maintenance mode in a virtualized computing environment
WO2019214128A1 (zh) 一种动态可重构的智能计算集群及其配置方法
CN110830574A (zh) 一种基于docker容器实现内网负载均衡的方法
CN110233750B (zh) 私有云管理系统及方法
CN104104736A (zh) 一种云服务器及其使用方法
US20220114132A1 (en) Data Switch Chip and Server
CN115174404A (zh) 一种基于sdn组网的多设备联邦学习系统
CN114465899A (zh) 复杂云计算环境下的网络加速方法、系统及装置
CN106776014A (zh) 异构计算中的并行加速方法及系统
CN113132145B (zh) 一种管理、训练网分离的分布式训练网络系统及通信方法
CN113132138B (zh) 一种基于虚拟网络的分布式训练网络系统及通信方法
CN112351089B (zh) 一种虚拟机与加速器间的数据传输方法、系统及装置
CN110086676A (zh) 一种分布式路由器的配置方法及相关设备
Ueno et al. VCSN: Virtual circuit-switching network for flexible and simple-to-operate communication in HPC FPGA cluster
CN113132141B (zh) 一种存储、业务网分离的分布式训练高效通信网络、方法
Yan et al. Accelerating distributed machine learning in disaggregated architectures with flexible optically interconnected computing resources
CN113132435B (zh) 一种存储、业务网分离的分布式训练网络系统及通信方法
CN106059804B (zh) 基于改进的opnet-hla的大规模网络仿真方法
CN106716935A (zh) 一种跨层业务配置的方法和控制器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant