CN113132138A - 一种基于虚拟网络的分布式训练网络系统及通信方法 - Google Patents
一种基于虚拟网络的分布式训练网络系统及通信方法 Download PDFInfo
- Publication number
- CN113132138A CN113132138A CN201911415826.3A CN201911415826A CN113132138A CN 113132138 A CN113132138 A CN 113132138A CN 201911415826 A CN201911415826 A CN 201911415826A CN 113132138 A CN113132138 A CN 113132138A
- Authority
- CN
- China
- Prior art keywords
- network
- service
- virtual
- service network
- controllers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/042—Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0272—Virtual private networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于虚拟网络的分布式训练网络系统及通信方法,通过将诸业务网络控制器分别与工作节点的操作系统、各个业务网络接口耦接,以及通过诸业务网络控制器提供网络虚拟化使各业务网络在物理网络的并行传输以及基于网络虚拟化的上述各业务网络的逻辑隔离;以使之能够通过网络管理配置等方式,解决在分布式训练过程中的各种不同类型业务流量并行、并发引发的相互干扰等数据中心网络通信问题。
Description
技术领域
本发明涉及人工智能模型训练以及云计算、数据中心网络技术领域,具体地,涉及一种基于虚拟网络的分布式训练网络系统及通信方法。
背景技术
得益于算法、数据和硬件计算能力三方面的发展,当前人工智能正处于第三个发展高潮期。算法方面,深度学习概念的提出以及相关算法的开发,大大提高了机器学习的能力,随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性(如语音识别和图像识别等)。数据方面,随着互联网的技术进步和普及,全球网络数据量急剧增加,海量数据为人工智能发展提供了良好的土壤。机器学习任务(简称训练)需要庞大的计算能力和大量数据。硬件算力方面,CPU和GPU芯片计算能力的提升,各种人工智能专用硬件的研发,以及各种开源人工智能训练平台的广泛应用(如TensorFlow和PyTorch等),极大地提升了机器处理人工智能任务的效率。
然而,与此同时,我们也注意到:人工智能的应用正在变得越来越复杂。这表现在:用来训练算法模型的数据量越来越大,需要的硬件算力越来越多,搭建人工智能训练平台的复杂度越来越高,需要同时支持的训练任务越来越多。
人工智能技术的发展,带来了新挑战。例如,人工智能算法在进行分布式模型训练需要进行参数聚合;其中,参数聚合指的是不同计算节点阶段性地同步最新的计算结果;聚合过程中不同计算节点之间需要进行大量的网络数据传输来交换训练参数;因此,网络数据传输能力对人工智能模型训练效率有很大的影响。
但是,不同于单机训练,分布式训练不仅是简单的用于训练的计算设备的翻倍,在训练过程中,无论是将样本集数据从存储节点分别导入到计算节点,还是训练过程中对其中模型参数一致性的要求而进行的计算节点间的参数同步传递等,都涉及到大量数据的传输。在分布式训练过程中,用于分布式训练的数据中心集群网络中同时存在着各种业务的流量,存在着诸多不确定性,加剧了数据中心网络复杂性。如果数据中心网络设计之初,没有合理的设计安排,任由这些不同类型的流量混在同一网络中传输,难免不相互干扰,特别是经常性占用全部或绝大部分带宽的业务流量不可避免的影响那些关键业务流量的传输不仅将大大影响AI模型的分布式训练效率,更会危及整个集群。
发明内容
本发明旨在解决在分布式训练过程中的各种不同类型业务流量并行、并发引发的数据中心网络通信问题,通过提供一种应用于分布式训练的虚拟网络模型,解决分布式训练中存在的上述问题。具体而言,本发明将提供一种基于虚拟网络的分布式训练网络系统及通信方法。
一方面,本发明实施例提供一种基于虚拟网络的分布式训练网络系统。
上述的基于虚拟网络的分布式训练网络系统,包括:
若干个用于分布式训练过程中不同业务通信的逻辑网络;其中,
上述的各业务网络,均分别包括工作节点和各自的业务网虚拟交换机;
上述的工作节点,是指分布式训练过程中用于执行训练等相关作业的节点;
在上述的基于虚拟网络的分布式训练网络系统中,上述的工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;
在上述的各业务逻辑网络中,
工作节点分别与其业务网虚拟交换机通过它们之间的链路相连;
上述的基于虚拟网络的分布式训练网络系统还包括:诸业务网络控制器;
上述的诸业务网络控制器,通常运行在工作节点的宿主机上,主要用于网络虚拟化和各业务网络隔离等;具体地,上述的诸业务网络控制器,分别与工作节点的操作系统、各业务网络接口耦接;诸业务网络控制器能够提供各业务网络在物理网络的并行传输、以及各业务网络的隔离。
另一方面,本发明实施例提供一种基于虚拟网络的分布式训练通信方法。
上述的基于虚拟网络的分布式训练通信方法,包括:
在工作节点的宿主机上,运行诸业务网络控制器
将诸业务网络控制器与工作节点的操作系统耦接;
同时,将诸业务网络控制器与多个在分布式训练过程中用于不同类型业务通信的逻辑网络(即业务网络)接口耦接;
上述的诸业务网络控制器,能够使上述的各业务网络在物理网络的并行传输;在逻辑上隔离地并行传输;
对应第一方面的基于虚拟网络的分布式训练网络系统,同样地,工作节点亦为虚拟节点。
上述的基于虚拟网络的分布式训练网络系统及通信方法,通过将诸业务网络控制器分别与工作节点的操作系统、各个业务网络接口耦接,以及通过诸业务网络控制器提供网络虚拟化使各业务网络在物理网络的并行传输以及基于网络虚拟化的上述各业务网络的逻辑隔离;以使之能够通过网络管理配置等方式,解决在分布式训练过程中的各种不同类型业务流量并行、并发引发的相互干扰等数据中心网络通信问题。
下面通过附图、具体实施例对本发明的技术方案做进一步的描述。
附图说明
为更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明中一部分实施例或现有技术描述中涉及的附图做简单介绍。
图1为现有技术中的一种分布式训练集群的物理网络拓扑示意图;
图2为本发明一些实施例提供的一种基于虚拟网络的分布式训练网络系统的拓扑示意图。
具体实施方式
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在分布式训练集群网络的现有技术中,一种较为简单的组网方案是将包括用于训练的服务器主机等一并接入同一物理网络;即如图1所示,各服务器主机与交换机通过它们之间的链路连接,构成一个仅有一个的逻辑网络,在作为分布式训练集群时,则通过确定其中的服务器主机/虚拟节点(例如在该物理服务器集群上虚拟出的虚拟机)作为工作节点等分布式训练所必需的计算节点等。上述方案将不可避免地使各种业务流量重叠,在同一网络并行通信它们将彼此干扰;特别是其中一些业务流量往往在通信高峰时完全占用带宽或占用大部分带宽,那些关键的、敏感的业务因其流量将无法传输将暂时性中断,甚至将影响训练集群本身的稳定。
针对现有技术存在的问题,本发明将提供一种基于虚拟网络的分布式训练网络系统及通信方法。
以下为本发明的一些优选实施例。其中,
上述优选实施例中的一些提供一种基于虚拟网络的分布式训练网络系统。该分布式训练网络系统包括:
若干个用于分布式训练过程中不同业务通信的逻辑网络;其中,
上述的各业务网络,均分别包括工作节点和各自的业务网虚拟交换机;
上述的工作节点,是指分布式训练过程中用于执行训练等相关作业的节点;
在上述的基于虚拟网络的分布式训练网络系统中,上述的工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;例如,虚拟机等;
在上述的各业务逻辑网络中,
工作节点分别与其业务网虚拟交换机通过它们之间的链路相连;
上述的基于虚拟网络的分布式训练网络系统,还包括:诸业务网络控制器;
上述的诸业务网络控制器,通常运行在工作节点的宿主机上,主要用于网络虚拟化和各业务网络隔离等;具体地,诸业务网络控制器,一方面与工作节点的操作系统,另一方面分别与各业务网络接口耦接;诸业务网络控制器能够提供各业务网络在物理网络的并行传输、以及各业务网络的隔离。
具体而言,诸业务网络控制器,可以通过若干组虚拟网络接口控制器,分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与各业务网络接口耦接;而两侧的虚拟网络接口控制器则通过它们之间的虚拟链路等耦接;诸业务网络控制器能够使各业务网络在同一物理网络并行;当各业务网络在同一物理网络并行时,通过上述各组虚拟网络接口控制器的接入控制,实现诸业务网络控制器对各业务网络的隔离。其中,使各业务网络在同一物理网络并行,则可以是使各业务网络的接口与宿主机的同一块物理网卡耦接,实现并行传输。
进一步地,在上述优先实施例提供的一种基于虚拟网络的分布式训练网络系统中,为其中的对网络带宽敏感的业务网络节点间的通信提供带宽保证。其中的带宽保证,包括:通过限制出目标业务网络外的其他业务网络的带宽占用,使之保障有足够的剩余带宽保障目标业务网络节点间的通信。当然,也可以同时对全部的网络的节点间通信均分别进行带宽保证。如此一来,通常需要结合可用总带宽综合分配保证带宽。另外,若其中的业务网络的一些节点不与其他业务网络共用同一物理网络时,则也可不提供其带宽保证。图2即上述实施例中的一个提供的一种基于虚拟网络的分布式训练网络系统的拓扑示意图。如图2所示,该基于虚拟网络的分布式训练网络系统,包括:
第一业务网络、第二业务网络、……、第N业务网络;其中,上述的各业务网络,均分别包括各工作节点和各自的业务网虚拟交换机;其中的工作节点即是指分布式训练过程中用于执行训练等相关作业的节点;其中,
上述的各业务网络均通过在工作节点的宿主机上的诸业务网络控制器提供在物理网络并行传输、以及逻辑隔离。
在上述优先实施例提供的基于虚拟网络的分布式训练网络系统中,既然使各业务网络在物理网络的隔离并行传输,那么,其中的虚拟交换机(即各业务网络虚拟交换机)的功能,其跨宿主机的节点间的通信,一般是利用物理网络的物理交换机实现的;但是,若一台宿主机内部署多个工作节点时,上述节点间的通信仍以上述方式通信,不免增加物理交换机通信压力和宿主机开销。因此,进一步地,在上述的优选实施例中的一些提供的一种基于虚拟网络的分布式训练网络系统中,其中的各业务网络,分别包括各自的宿主机内虚拟交换机;宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧则对应地与各业务网络接口耦接,以实现同一宿主机内工作节点间的通信,以及各业务网络的接入和对外通信。
在上述优先实施例提供的基于虚拟网络的分布式训练网络系统中,各工作节点间能够基于多种不同通信模型进行参数传递,例如基于Ring Allreduce通信模型等。另外,还可以通过接入其他节点参与参数传递。因此,进一步地,在上述优先实施例提供的一种基于虚拟网络的分布式训练网络系统中,在相关的业务网络中,如负责训练数据传输的业务网络、负责训练集群管理的业务网络等,还包括一个或多个参数服务器节点,以使其可选择基于PS通信模型进行参数聚合。
本发明的另一些实施例提供一种基于虚拟网络的分布式训练通信方法。该分布式训练通信方法,包括:
在工作节点的宿主机上,运行诸业务网络控制器;
将诸业务网络控制器与工作节点的操作系统耦接;
以及将诸业务网络控制器与各业务网络接口耦接;其中的各业务网络,即多个在分布式训练过程中用于不同类型业务通信的逻辑网络;
其中,上述的各业务网络,均分别包括工作节点和各自的业务网虚拟交换机;
上述的工作节点,是指分布式训练过程中用于执行训练等相关作业的节点;其为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;例如,虚拟机等;
上述的诸业务网络控制器,使各业务网络在物理网络的并行传输;在逻辑上隔离地并行传输;
具体而言,上述的各业务网络隔离,可以是:通过若干组彼此(通过它们之间虚拟链路等)耦接的虚拟网络接口控制器,分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与各业务网络接口耦接;当各业务网络在同一物理网络并行时,通过上述各组虚拟网络接口控制器的接入控制,实现对各业务网络的隔离。其中,使各业务网络在同一物理网络并行,则可以是使各业务网络的接口与宿主机的同一块物理网卡耦接,实现并行传输。
进一步地,在上述优先实施例提供的一种基于虚拟网络的分布式训练通信方法中,为其中的对网络带宽敏感的业务网络节点间的通信提供带宽保证。其中的带宽保证,包括:通过限制出目标业务网络外的其他业务网络的带宽占用,使之保障有足够的剩余带宽保障目标业务网络节点间的通信。当然,也可以同时对全部的网络的节点间通信均分别进行带宽保证。如此一来,通常需要结合可用总带宽综合分配保证带宽。另外,若其中的业务网络的一些节点不与其他业务网络共用同一物理网络时,则也可不提供其带宽保证。
在上述优先实施例提供的基于虚拟网络的分布式训练通信方法中,既然使各业务网络在物理网络的隔离并行传输,那么,其中的虚拟交换机(即各业务网络虚拟交换机)的功能,其跨宿主机的节点间的通信,一般是利用物理网络的物理交换机实现的;但是,若一台宿主机内部署多个工作节点时,上述节点间的通信仍以上述方式通信,不免增加物理交换机通信压力和宿主机开销。因此,进一步地,在上述的优选实施例中的一些提供的一种基于虚拟网络的分布式训练通信方法中,其中的各业务网络通过各自的宿主机内虚拟交换机,实现宿主机内工作节点间的通信;宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧则对应地与各业务网络接口耦接,以实现同一宿主机内工作节点间的通信,以及各业务网络的接入和对外通信。
在上述优先实施例提供的基于虚拟网络的分布式训练通信方法中,各工作节点间能够基于多种不同通信模型进行参数传递,例如基于Ring Allreduce通信模型等。另外,还可以通过接入其他节点参与参数传递。因此,进一步,在上述优先实施例提供的一种基于虚拟网络的分布式训练通信方法中,在相关的业务网络中,如负责训练数据传输的业务网络、负责训练集群管理的业务网络等,接入一个或多个参数服务器节点,以使其可选择基于PS通信模型进行参数聚合。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此。
Claims (10)
1.一种基于虚拟网络的分布式训练网络系统,其特征在于,包括:
若干个业务网络;
以及诸业务网络控制器;其中,
所述的各业务网络,均分别包括工作节点和各自的业务网虚拟交换机;
在所述的各业务网络中,
所述的工作节点分别与其业务网虚拟交换机通过它们之间的链路相连;
所述的诸业务网络控制器,分别与工作节点的操作系统、各业务网络接口耦接;
且所述的诸业务网络控制器提供各业务网络在物理网络的并行传输、以及各业务网络的隔离。
2.根据权利要求1所述的基于虚拟网络的分布式训练网络系统,其特征在于,
对其中的关键的和/或敏感的业务网络节点间通信提供带宽保证或对其中的全部业务网络分别提供带宽保证:
即通过限制其他网络的带宽占用,以保障有足够的剩余带宽给被提供带宽保证的网络。
3.根据权利要求1所述的基于虚拟网络的分布式训练网络系统,其特征在于,
其中的诸业务网络控制器,包括若干组虚拟网络接口控制器;
分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与各业务网络接口耦接;
通过其接入控制,实现各业务网络的隔离。
4.根据权利要求1所述的基于虚拟网络的分布式训练网络系统,其特征在于,
其中的各业务网络,分别包括各自的宿主机内虚拟交换机;
宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧对应地与各业务网络接口耦接。
5.根据权利要求1所述的基于虚拟网络的分布式训练网络系统,其特征在于,
在其中的一些业务网络中,分别包括一个或多个参数服务器节点。
6.一种基于虚拟网络的分布式训练通信方法,其特征在于,包括:
在工作节点的宿主机上,运行诸业务网络控制器;
将诸业务网络控制器与工作节点的操作系统耦接;
且将诸业务网络控制器分别与不同的业务网络接口耦接;
诸业务网络控制器,使各业务网络在物理网络的并行传输;以及在逻辑上隔离地并行传输;
其中,各业务网络,均分别包括工作节点和各自的业务网虚拟交换机。
7.根据权利要求6所述的基于虚拟网络的分布式训练通信方法,其特征在于,
对其中的关键的和/或敏感的业务网络节点间通信提供带宽保证或对其中的全部业务网络分别提供带宽保证:
即通过限制其他网络的带宽占用,以保障有足够的剩余带宽给被提供带宽保证的网络。
8.根据权利要求6所述的基于虚拟网络的分布式训练通信方法,其特征在于,
提供若干组虚拟网络接口控制器;
分别将它们的一侧的虚拟网络接口控制器与工作节点的操作系统耦接;另一侧的虚拟网络接口控制器对应地与各业务网络接口耦接;
通过其接入控制,实现各业务网络的隔离。
9.根据权利要求6所述的基于虚拟网络的分布式训练通信方法,其特征在于,
在各业务网络中,通过其各自的宿主机内虚拟交换机实现宿主机内工作节点间的通信:
将宿主机内虚拟交换机一侧与宿主机内各工作节点的操作系统耦接,另一侧对应地与各业务网络接口耦接,实现所述各工作节点间的通信。
10.根据权利要求6所述的基于虚拟网络的分布式训练通信方法,其特征在于,
在其中的一些业务网络汇总,接入一个或多个参数服务器节点,用于参数聚合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415826.3A CN113132138B (zh) | 2019-12-31 | 2019-12-31 | 一种基于虚拟网络的分布式训练网络系统及通信方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415826.3A CN113132138B (zh) | 2019-12-31 | 2019-12-31 | 一种基于虚拟网络的分布式训练网络系统及通信方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113132138A true CN113132138A (zh) | 2021-07-16 |
CN113132138B CN113132138B (zh) | 2023-02-28 |
Family
ID=76769056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911415826.3A Active CN113132138B (zh) | 2019-12-31 | 2019-12-31 | 一种基于虚拟网络的分布式训练网络系统及通信方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113132138B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102859926A (zh) * | 2010-03-03 | 2013-01-02 | 伊韦伯盖特科技有限公司 | 多并行虚拟网络的系统和方法 |
CN104601568A (zh) * | 2015-01-13 | 2015-05-06 | 深圳市深信服电子科技有限公司 | 虚拟化安全隔离方法和装置 |
US20160216993A1 (en) * | 2015-01-25 | 2016-07-28 | Objective Interface Systems, Inc. | Multi-session Zero Client Device and Network for Transporting Separated Flows to Device Sessions via Virtual Nodes |
CN105915407A (zh) * | 2016-04-13 | 2016-08-31 | 重庆邮电大学 | 一种基于sdn的流量发生器虚拟化实现系统及方法 |
CN106603550A (zh) * | 2016-12-28 | 2017-04-26 | 中国银联股份有限公司 | 一种网络隔离方法及装置 |
CN107547439A (zh) * | 2017-09-08 | 2018-01-05 | 中国银联股份有限公司 | 一种网络流量控制方法和计算节点 |
-
2019
- 2019-12-31 CN CN201911415826.3A patent/CN113132138B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102859926A (zh) * | 2010-03-03 | 2013-01-02 | 伊韦伯盖特科技有限公司 | 多并行虚拟网络的系统和方法 |
CN104601568A (zh) * | 2015-01-13 | 2015-05-06 | 深圳市深信服电子科技有限公司 | 虚拟化安全隔离方法和装置 |
US20160216993A1 (en) * | 2015-01-25 | 2016-07-28 | Objective Interface Systems, Inc. | Multi-session Zero Client Device and Network for Transporting Separated Flows to Device Sessions via Virtual Nodes |
CN105915407A (zh) * | 2016-04-13 | 2016-08-31 | 重庆邮电大学 | 一种基于sdn的流量发生器虚拟化实现系统及方法 |
CN106603550A (zh) * | 2016-12-28 | 2017-04-26 | 中国银联股份有限公司 | 一种网络隔离方法及装置 |
CN107547439A (zh) * | 2017-09-08 | 2018-01-05 | 中国银联股份有限公司 | 一种网络流量控制方法和计算节点 |
Non-Patent Citations (1)
Title |
---|
杨志刚等: "基于虚拟化的多GPU深度神经网络训练框架", 《计算机工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113132138B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2597556C2 (ru) | Структура компьютерного кластера для выполнения вычислительных задач и способ функционирования указанного кластера | |
US10229087B2 (en) | Many-core processor system integrated with network router, and integration method and implementation method thereof | |
CN103346981A (zh) | 虚拟交换方法、相关装置和计算机系统 | |
Huang et al. | DeePar: A hybrid device-edge-cloud execution framework for mobile deep learning applications | |
CN105009521A (zh) | 消息处理方法和网关 | |
JP2019511887A (ja) | 管理方法および装置 | |
US20220109733A1 (en) | Service mesh offload to network devices | |
WO2023207035A1 (zh) | 一种数据同步方法、装置、设备及存储介质 | |
US20220114132A1 (en) | Data Switch Chip and Server | |
CN117493237B (zh) | 计算设备、服务器、数据处理方法和存储介质 | |
CN104104736A (zh) | 一种云服务器及其使用方法 | |
CN113132138B (zh) | 一种基于虚拟网络的分布式训练网络系统及通信方法 | |
CN105281960A (zh) | 软件定义网络中流量项目的管理方法 | |
CN108351802B (zh) | 计算机数据处理系统和用于虚拟机通信的基于通信流量的优化的方法 | |
CN113132145B (zh) | 一种管理、训练网分离的分布式训练网络系统及通信方法 | |
CN115292044A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113132141B (zh) | 一种存储、业务网分离的分布式训练高效通信网络、方法 | |
CN106533720B (zh) | 网络服务请求的编译方法、编译装置和控制器 | |
Harkous et al. | Performance-aware orchestration of P4-based heterogeneous cloud environments | |
EP0955756A2 (en) | Using systems network architecture logical unit activation request unit as a dynamic configuration definition in a gateway | |
CN113132435B (zh) | 一种存储、业务网分离的分布式训练网络系统及通信方法 | |
CN115374038A (zh) | 一种兼容PCIe结构的设备间互联方法及相关设备 | |
CN113170001A (zh) | 适配在网关上执行的软件应用程序 | |
Lin et al. | Container application migration algorithm in Internet of Vehicles | |
Yao et al. | New dynamic switch migration technique based on deep Q-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |