CN112217652B - 一种基于中心通信模式的网络拓扑装置及方法 - Google Patents
一种基于中心通信模式的网络拓扑装置及方法 Download PDFInfo
- Publication number
- CN112217652B CN112217652B CN201910618925.5A CN201910618925A CN112217652B CN 112217652 B CN112217652 B CN 112217652B CN 201910618925 A CN201910618925 A CN 201910618925A CN 112217652 B CN112217652 B CN 112217652B
- Authority
- CN
- China
- Prior art keywords
- class
- nodes
- switch
- network topology
- switches
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000011144 upstream manufacturing Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种基于中心通信模式的网络拓扑装置及方法。该网络拓扑装置包括H个模块,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机;模块控制平面用于根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。本申请构建了一种基于电路交换的满足参数服务器架构通信需求的灵活集群拓扑结构,尽量满足第一类节点的大带宽需求。
Description
技术领域
本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种基于中心通信模式的网络拓扑装置及方法。
背景技术
随着大数据时代的到来,分布式机器学习应运而生。其中,数据并行是一种广泛使用的分布式机器学习方法,其基本思想是通过将数据集分为多个数据块,每个数据块使用不同的计算节点(worker)并行训练,worker间需要进行模型参数的同步,然后再开始下一次迭代,有些训练任务需要多达几十万次迭代才能达到理想收敛精度。
图形处理单元(graphics processing unit,GPU)、张量处理单元(tensorprocessing unit,TPU)等加速硬件的运用使得分布式机器学习训练过程中的单位时间内处理的样本量大幅增加,但无限地增加GPU数量、提升GPU的能力,并不能无限地加快训练速度,因为节点间的参数同步会花费大量的时间。此时,网络的通信能力已成为分布式机器学习性能的瓶颈。
目前已经有研究者从不同角度去加速分布式机器学习应用,如通信压缩、编码、资源分配、任务调度等,虽然这些方法可以提高性能,但性能的提升始终受限于底层的物理拓扑,因为物理拓扑的性能直接影响上层应用的性能,比如网络直径越大,节点间的传输距离越大,数据传输时延也越大,直接导致单次迭代时间变大,从而影响整个训练时间。而大部分的拓扑的设计都是以某些通用性能(如可扩展性、容错性、高吞吐等)为设计目标,忽略了上层应用的特殊需求。比如DCell拓扑主要是为了构建高可扩展的拓扑,FiConn旨在使用双网卡构建可扩展的拓扑,F2Tree是为了构建高容错性、能快速恢复的拓扑等,这些拓扑的设计没有考虑上层应用的特殊需求。
物理拓扑设计不合理会造成上层应用性能损失,结合分布式机器学习应用的通信需求构建拓扑是提升分布式机器学习应用性能的重要手段。如图1所示的参数服务器(parameter sever,PS)架构,具有容易部署、扩展性强及高容错性等特点,是使用最多的分布式机器学习参数同步框架,被广泛地应用于多种分布式机器学习平台,如Tensorflow、Caffe、MXNet、Angel等。在PS架构中,节点分为参数服务器(parameter server,PS)节点和计算节点,其中参数服务器保存全局最新的参数θ,接受来自worker的梯度值Δθ,并根据接收的梯度值更新学习模型的参数,将更新完的参数下发给workers。worker则负责输入本地的数据训练模型参数,将计算的梯度值上传给参数服务器,当需要进入下一轮迭代计算时,向参数服务器请求参数,获取参数后进入计算阶段。worker之间是没有通信的,worker只与参数服务器进行通信,参数服务器除了与worker通信之外,还需要和其他参数服务器进行通信(容错、备份等任务)。在PS架构中,参数服务器作为数据汇聚节点,要处理来自所有worker的数据,其带宽极易成为性能的瓶颈,而现有的大部分拓扑中所有的服务器节点都是相同的,不能满足PS架构的通信需求。
因此,本申请需要提供一种基于中心通信模式的网络拓扑,以满足参数服务器的通信带宽要求。
发明内容
本申请提供一种基于中心通信模式的网络拓扑装置及方法,以满足参数服务器的通信带宽要求。
第一方面,提供了一种基于中心通信模式的网络拓扑装置,网络拓扑装置包括H个模块,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机;模块控制平面用于根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。在该方面中,构建了一种基于电路交换的满足参数服务器架构通信需求的灵活集群拓扑结构,尽量满足第一类节点的大带宽需求。
在一个实现中,模块控制平面包括拓扑控制器和电路配置控制器;其中,拓扑控制器用于从M个第二类节点获得训练任务信息,并根据M个第二类节点的训练任务信息,计算第二交换机的电路配置方案,并发送给电路配置控制器;电路配置控制器用于接收第二交换机的电路配置方案,并根据第二交换机的电路配置方案对第二交换机的电路进行配置;拓扑控制器还用于当第二交换机的电路配置完成后,启动M个第二类节点的训练任务;以及P个第一类节点用于分别接收M个第二类节点发送的训练参数梯度值。在该实现中,模块控制平面可根据训练任务的要求,有效利用第二交换机线路的灵活切换,控制拓扑的灵活转换,从而使任务的完成时间最小化。
第二方面,提供了一种基于中心通信模式的网络拓扑方法,应用于网络拓扑装置,网络拓扑装置包括H个模块,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机;模块控制平面根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。在该方面中,构建了一种基于电路交换的满足参数服务器架构通信需求的灵活集群拓扑结构,尽量满足第一类节点的大带宽需求。
在一个实现中,模块控制平面根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制,包括:模块控制平面从M个第二类节点获得训练任务信息,并根据M个第二类节点的训练任务信息,计算第二交换机的电路配置方案;模块控制平面根据第二交换机的电路配置方案对第二交换机的电路进行配置;当第二交换机的电路配置完成后,模块控制平面启动M个第二类节点的训练任务;以及P个第一类节点分别接收M个第二类节点发送的训练参数梯度值。
结合第一方面或第二方面,在一个实现中,H个模块互联成H阶R-正则图。
结合第一方面或第二方面,在又一个实现中,每个模块中每个第一类节点与每个第二类节点之间的距离相等。在该实现中,H个模块中第二类节点到各个第一类节点的路径相同或相似,减少了不同第二类节点与第一类节点间通信的影响。
结合第一方面或第二方面,在又一个实现中,第一类节点和第二类节点的物理配置不同。在该实现中,根据第一类节点和第二类节点的功能的不同,对第一类节点和第二类节点的物理配置也不同,以满足各自的功能需求。
结合第一方面或第二方面,在又一个实现中,第二交换机包括W个上行端口和W个下行端口,第一交换机包括(Mu+1)个上行端口和Md个下行端口,其中,R≥3,/>表示向下取整,P≤Mu。
第三方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第二方面或第二方面的任一个实现的方法。
第四方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第二方面或第二方面的任一个实现的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为参数服务器架构示意图;
图2为本申请实施例提供的一种基于中心通信模式的网络拓扑装置中的其中一个模块的结构示意图;
图3为本申请实施例提供的一种基于中心通信模式的网络拓扑装置的结构示意图;
图4为本申请实施例提供的模块控制平面的结构示意图;
图5为本申请实施例提供的一种基于中心通信模式的网络拓扑方法的流程示意图;
图6为本申请实施例提供的又一种基于中心通信模式的网络拓扑方法的流程示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
首先对本申请可能涉及的几个概念进行描述:
(一)电路交换机、分组交换机
电路交换机是根据通信需求在输入和输出端口直接搭建一条通路,一般没有缓存,也不处理数据包,可实现拓扑的灵活变化。而分组交换机是存储、转发数据包,可以缓存数据包。
(二)二部图/二分图
二部图/二分图,是图论中的一种特殊模型。设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集,则称图G为一个二部图。完全二部图是指V=AUB,A中的任一顶点与B中每一个顶点均有且仅有唯一的一条边相连。
(三)正则图
正则图是指各顶点的度均相同的无向简单图。在图论中,正则图中每个顶点具有相同数量的邻点;即每个顶点具有相同的度或价态。具有k个度的顶点的正则图被称为k-正则图。K是指正则图中每个节点具有3个邻接点/3条边。
本申请实施例根据参数服务器架构中参数服务器需要大带宽、计算节点到参数服务器节点间路径的共享链路少等通信需求,提供了一种基于中心通信模式的网络拓扑装置及方法,满足了参数服务器的大带宽需求。且综合考虑了拓扑的可扩展性、容错性,采用模块化分层设计思想构建拓扑。该拓扑由两层组成,底层模块是基于电路交换构建的基本模块,上层则是把多个底层模块互联成正则图。
具体地,本申请实施例提供的网络拓扑装置包括H个模块,图2为本申请实施例提供的一种基于中心通信模式的网络拓扑装置中的其中一个模块的结构示意图,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机;模块控制平面用于根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。每个模块中的R个第一交换机均连接到一个第三交换机,H个模块分别通过各自的第三交换机互联成H阶R-正则图。
该第一交换机可以是机架顶部(top of rack,ToR)交换机。该第一交换机(Mu+1)个上行端口和Md个下行端口,其中,R≥3,/>表示向下取整,P≤Mu。ToR交换机是放置在机架顶部的交换机,用于连接本机架的服务器。
该第二交换机包括W个上行端口和W个下行端口,该第二交换机可以是光电交换机(optical circuit switch,OCS),电路交换机(electrical circuit switch,ECS)等。
该第三交换机可以是普通交换机。该普通交换机称为超级节点(supernode)交换机,主要用于模块间互连,连接第一交换机与第三交换机,以建立模块之间的数据通路。
M个第二类节点全部连接到第二交换机。
在每个模块内部,第一类节点与R个第一交换机互联成完全二部图。
随着加速硬件的普及,单位时间内能处理的样本数和参数迭代次数随之增加,同时由于模型越来越复杂,参数量越来越大,意味着参数服务器架构单位时间内参数服务器和计算节点间需要传输的数据量也越来越大,这对网络的吞吐量要求很高。并且,参数服务器架构存在严重的流量不均情况,参数服务器节点要同时处理多个计算节点的数据,而计算节点之间是不需要通信的。参数服务器架构的这种流量模式特点使得参数服务器端的通信能力很容易成为性能的瓶颈。作为数据汇聚节点,拓扑需要为参数服务器端提供大带宽以及时处理计算节点的数据。增加参数服务器的带宽,有助于加快参数同步过程。本实施例中,P个第一类节点均配置R个网卡,分别连接到R个第一交换机,第二类节点可以通过R个第一交换机与第一类节点通信,与其它树形结构相比,相当于第一类节点的带宽变成了R倍。
现有的大部分拓扑中把节点都看作是一样的,即都假设所有节点的计算能力、资源都是相同的,而且节点在拓扑中的连接方式都是一样的。本实施例中,区别第一类节点和第二类节点。第一类节点和第二类节点的物理配置不同。该第一类节点可以是参数服务器节点,该第二类节点可以是计算节点。该物理配置包括硬件资源需求。第一类节点和第二类节点的功能不同,因此其具有不同的硬件资源需求。计算节点需要较强的计算能力,而作为数据汇聚节点的参数服务器则需要足够的带宽以同时接收多个计算节点的数据。例如,第一类节点至少配置R个网卡,具有较大带宽。第二类节点配置高性能计算单元,如GPU,TPU,具有较强计算能力。
具体地,在图2中,该模块包括1个第二交换机,3个第一交换机,3个第一类节点,每个第一类节点包括3个网卡,12个第二类节点。这些物理设备构成的拓扑如图2所示。每个第一交换机的4个下行端口都连接到第二交换机,每个第一类节点的3个网络端口分别连接到3个第一交换机,12个第二类节点全部连接到第二交换机。
如图3所示的本申请实施例提供的一种基于中心通信模式的网络拓扑装置的结构示意图,该网络拓扑装置包括6个如图2所示的模块,每一个模块内的3个第一交换机均连接到一个普通交换机,6个模块通过普通交换机互联成6阶3-正则图。装置内的第一类节点间可以通信,每个模块内的第二类节点可以与第一类节点通信,而第二类节点之间互不通信。
在同步模式下,参数服务器架构中的每个参数服务器必须等待,直到获取所有计算节点的数据才能执行参数更新,再把新参数分发到每个计算节点。如果计算节点到参数服务器间的路径情况(如带宽、延时、长度等)差距很大,参数服务器就要等待最慢传输的节点,从而影响单次迭代时间。因此,拓扑需要提供计算节点到参数服务器节点间的相同或相似的路径,从而减小不同计算节点与参数服务器间通信的影响。本实施例中,H个模块互联成H阶R-正则图,每个模块内第二类节点到任一模块中的第一类节点之间的距离相等,路径相同或相似,因此,第一类节点可以同时接收到第二类节点传输的参数。如图3所示的网络拓扑装置中,模块内部第一类节点与第二类节点之间的距离相等且恒为2,路径情况相同有利于参数同步。模块之间互联成正则图,正则图中的每个节点和每条链路都是等价的,通过合理设置路由可实现负载均衡,不会出现像Dcell拓扑中的底层链路负载严重的情况。
参数服务器架构要求拓扑具有较强的容错性。一方面,参数服务器节点作为数据的汇聚节点,节点的备份和容错非常重要。当某个参数服务器出现故障时,需要快速重启一个备用参数服务器,才能保证训练任务不受太大的影响。这就要求拓扑能提供可用的参数服务器作为替代,并且需要保持原来分布式机器学习应用的性能。另一方面,在同步模式下,参数服务器要收到每个计算节点的数据才进行数据处理,如果计算节点到参数服务器之间的某条链路失效,这时需要使用其它可用的链路或路径代替,这就要求拓扑为计算节点和参数服务器间提供多条路径。本实施例中,H个模块中,每个第二类节点到任一模块中的第一类节点之间的距离相等,路径相同或相似,当其中一个第一类节点出现故障或某一条链路出现故障时,可以快速启用另一个第一类节点,各个模块中的第二类节点可以向新启用的第一类节点传输参数。因此,该拓扑具有较高的链路容错性和节点容错性。
传统拓扑结构中的节点之间接入ToR交换机即可,而本实施例中计算节点通过电路交换机连接到ToR交换机,可根据ToR交换机负载动态配置电路交换机,以连接到负载低的ToR交换机,实现负载均衡,同时也提高了链路容错性。
该网络拓扑装置还包括一控制平面,该控制平面用于控制拓扑的灵活变换,即根据分布式机器学习任务需求对第二交换机的线路进行合理配置,以最小化任务的完成时间。该控制平面包括模块控制平面(model control plane,MCP)和集中式网络控制器(central network controller,CNC)。该集中式网络控制器用于实现全局资源管理。集中式网络控制器可以使用软件自定义网络(software defined network,SDN)控制器实现。
每个模块包括一个上述模块控制平面,该模块控制平面用于根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。
具体地,如图4所示的本申请实施例提供的模块控制平面的结构示意图,该模块控制平面包括拓扑控制器(topology controller,TC)和电路配置控制器(circuitconfiguration controller,CCC);其中,
拓扑控制器用于从M个第二类节点获得训练任务信息,并根据M个第二类节点的训练任务信息,计算第二交换机的电路配置方案,并发送给电路配置控制器;
电路配置控制器用于接收第二交换机的电路配置方案,并根据第二交换机的电路配置方案对第二交换机的电路进行配置;
拓扑控制器还用于当第二交换机的电路配置完成后,启动M个第二类节点的训练任务;
P个第一类节点用于分别接收M个第二类节点发送的训练参数梯度值。
另外,可实现上述网络装置的细粒度扩展。由于拓扑扩展是通过增加新的模块,每次扩展至少需要增加2个模块,每个ToR交换机的n-1个端口用于连接参数服务器,R个参数服务器,n-1-R连接计算节点,一个模块一共R个ToR,连接的计算节点数量为R*(n-R-1)。一个模块连接的总的服务器数量为R*(n-R-1)+R,2个模块连接的总的服务器数量则为2*[R*(n-R-1)+R]。
以上描述了网络拓扑装置的物理拓扑,描述了节点和交换机之间的连接规则,按照本实施例的连接规则使用线缆连接节点和交换机即可实现本申请的方案。
根据本申请实施例提供的一种基于中心通信模式的网络拓扑装置,构建了一种基于电路交换的满足参数服务器架构通信需求的灵活集群拓扑结构,尽量满足第一类节点的大带宽需求;且该网络拓扑装置具有较高的容错性;模块内部第一类节点与第二类节点之间的距离相等,路径情况相同,有利于参数同步;模块之间互联成正则图,可以合理设置路由实现负载均衡。
图5为本申请实施例提供的一种基于中心通信模式的网络拓扑方法的流程示意图,应用于上述图2和图3所示的网络拓扑装置,该网络拓扑装置包括H个模块,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机。该方法包括以下步骤:
S101、模块控制平面根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。
有关步骤S101的实现可参考上述图2和图3所示的网络拓扑装置的相关描述,在此不再赘述。
根据本申请实施例提供的一种基于中心通信模式的网络拓扑方法,构建了一种基于电路交换的满足参数服务器架构通信需求的灵活集群拓扑结构,尽量满足第一类节点的大带宽需求。
图6为本申请实施例提供的又一种基于中心通信模式的网络拓扑方法的流程示意图,应用于上述图2和图3所示的网络拓扑装置,该网络拓扑装置包括H个模块,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机。模块控制平面根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。该模块控制平面包括拓扑控制器和电路配置控制器。该方法包括以下步骤:
S201、拓扑控制器从M个第二类节点获得训练任务信息,并根据M个第二类节点的训练任务信息,计算第二交换机的电路配置方案,并发送给电路配置控制器。
S202、电路配置控制器接收第二交换机的电路配置方案,并根据第二交换机的电路配置方案对第二交换机的电路进行配置。
S203、拓扑控制器还用于当第二交换机的电路配置完成后,启动M个第二类节点的训练任务。
S204、P个第一类节点用于分别接收M个第二类节点发送的训练参数梯度值。
有关步骤S201~S204的实现可参考上述图2和图3所示的网络拓扑装置的相关描述,在此不再赘述。
根据本申请实施例提供的一种基于中心通信模式的网络拓扑方法,构建了一种基于电路交换的满足参数服务器架构通信需求的灵活集群拓扑结构,尽量满足第一类节点的大带宽需求;且该网络拓扑装置具有较高的容错性;模块内部第一类节点与第二类节点之间的距离相等,路径情况相同,有利于参数同步;模块之间互联成正则图,可以合理设置路由实现负载均衡。
需要说明的是,本申请不仅适用于分布式机器学习中的参数服务器架构,同样适用于具有参数服务器架构类似的通信模式,此类通信模式中分为两类节点:第一类节点和第二类节点,其中第二类节点需要与第一类节点通信,第二类节点之间不通信。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
Claims (10)
1.一种基于中心通信模式的网络拓扑装置,其特征在于,网络拓扑装置包括H个模块,H个模块互联成H阶R-正则图,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机;
模块控制平面用于根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。
2.根据权利要求1的网络拓扑装置,其特征在于,模块控制平面包括拓扑控制器和电路配置控制器;其中,
拓扑控制器用于从M个第二类节点获得训练任务信息,并根据M个第二类节点的训练任务信息,计算第二交换机的电路配置方案,并发送给电路配置控制器;
电路配置控制器用于接收第二交换机的电路配置方案,并根据第二交换机的电路配置方案对第二交换机的电路进行配置;
拓扑控制器还用于当第二交换机的电路配置完成后,启动M个第二类节点的训练任务;
P个第一类节点用于分别接收M个第二类节点发送的训练参数梯度值。
3.根据权利要求1~2中任一项的网络拓扑装置,其特征在于,每个模块中每个第一类节点与每个第二类节点之间的距离相等。
4.根据权利要求1~2中任一项的网络拓扑装置,其特征在于,第一类节点和第二类节点的物理配置不同。
5.根据权利要求1~2中任一项的网络拓扑装置,其特征在于,第二交换机包括W个上行端口和W个下行端口,第一交换机包括(Mu+1)个上行端口和Md个下行端口,其中,R=,R≥3,/>表示向下取整,P≤Mu。
6.一种基于中心通信模式的网络拓扑方法,应用于网络拓扑装置,其特征在于,网络拓扑装置包括H个模块,H个模块互联成H阶R-正则图,每个模块包括P个第一类节点、R个第一交换机、1个第二交换机、M个第二类节点和模块控制平面,H、P、R、M均为正整数,其中,P个第一类节点中每个第一类节点包括R个网卡,每个第一类节点通过R个网卡与R个第一交换机分别连接;M个第二类节点通过第二交换机连接至R个第一交换机;
模块控制平面根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制。
7.根据权利要求6的网络拓扑方法,其特征在于,模块控制平面根据M个第二类节点的训练任务信息,对网络拓扑装置的拓扑结构进行控制,包括:
模块控制平面从M个第二类节点获得训练任务信息,并根据M个第二类节点的训练任务信息,计算第二交换机的电路配置方案;
模块控制平面根据第二交换机的电路配置方案对第二交换机的电路进行配置;
当第二交换机的电路配置完成后,模块控制平面启动M个第二类节点的训练任务;
P个第一类节点分别接收M个第二类节点发送的训练参数梯度值。
8.根据权利要求6~7中任一项的网络拓扑方法,其特征在于,每个模块中每个第一类节点与每个第二类节点之间的距离相等。
9.根据权利要求6~7中任一项的网络拓扑方法,其特征在于,第一类节点和第二类节点的物理配置不同。
10.根据权利要求6~7中任一项的网络拓扑方法,其特征在于,第二交换机包括W个上行端口和W个下行端口,第一交换机包括(Mu+1)个上行端口和Md个下行端口,其中,R=,R≥3,/>表示向下取整,P≤Mu。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910618925.5A CN112217652B (zh) | 2019-07-10 | 2019-07-10 | 一种基于中心通信模式的网络拓扑装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910618925.5A CN112217652B (zh) | 2019-07-10 | 2019-07-10 | 一种基于中心通信模式的网络拓扑装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112217652A CN112217652A (zh) | 2021-01-12 |
CN112217652B true CN112217652B (zh) | 2024-05-03 |
Family
ID=74048035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910618925.5A Active CN112217652B (zh) | 2019-07-10 | 2019-07-10 | 一种基于中心通信模式的网络拓扑装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112217652B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014663B (zh) * | 2021-03-12 | 2022-03-18 | 中南大学 | 支持跨节点计算任务抗毁接替的任务与资源匹配方法 |
CN115378818B (zh) * | 2022-10-26 | 2023-02-24 | 西南民族大学 | 一种适用于大规模分布式机器学习的新型拓扑设计方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102761471A (zh) * | 2011-04-29 | 2012-10-31 | 无锡江南计算技术研究所 | 无线计算互连网络及座标空间变换方法 |
CN103401786A (zh) * | 2013-07-12 | 2013-11-20 | 华为技术有限公司 | 网络拓扑建立、路径控制、报文传输方法及装置、系统 |
WO2016045275A1 (zh) * | 2014-09-28 | 2016-03-31 | 中兴通讯股份有限公司 | 一种软件定义网络实现方法、主控制器和计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10148519B2 (en) * | 2016-06-09 | 2018-12-04 | Honeywell International Inc. | Automation network topology determination for C and I systems |
-
2019
- 2019-07-10 CN CN201910618925.5A patent/CN112217652B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102761471A (zh) * | 2011-04-29 | 2012-10-31 | 无锡江南计算技术研究所 | 无线计算互连网络及座标空间变换方法 |
CN103401786A (zh) * | 2013-07-12 | 2013-11-20 | 华为技术有限公司 | 网络拓扑建立、路径控制、报文传输方法及装置、系统 |
WO2016045275A1 (zh) * | 2014-09-28 | 2016-03-31 | 中兴通讯股份有限公司 | 一种软件定义网络实现方法、主控制器和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112217652A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110495144B (zh) | 网络拓扑结构映射方法及装置、终端、存储介质 | |
CN108234169B (zh) | 一种分布式仿真网络结构实时动态优化方法 | |
US9883261B2 (en) | Data switching system, method for sending data traffic, and switching apparatus | |
US10250958B2 (en) | Optical network-on-chip, optical router, and signal transmission method | |
CN112217652B (zh) | 一种基于中心通信模式的网络拓扑装置及方法 | |
Beshley et al. | SDN/cloud solutions for intent-based networking | |
CN107465966B (zh) | 一种用于光网络的拓扑重构控制方法 | |
CN111865668B (zh) | 一种基于sdn和nfv的网络切片方法 | |
CN113645146B (zh) | 基于新流密度的软件定义网络控制器负载均衡方法及系统 | |
CN102202005A (zh) | 可重配置的光片上网络及配置方法 | |
Li et al. | GBC3: A versatile cube-based server-centric network for data centers | |
Liu et al. | PSNet: Reconfigurable network topology design for accelerating parameter server architecture based distributed machine learning | |
CN107454009B (zh) | 面向数据中心的离线场景低带宽开销流量调度方案 | |
US20080162732A1 (en) | Redundant Network Shared Switch | |
Muthanna et al. | SDN multi-controller networks with load balanced | |
CN113938434A (zh) | 大规模高性能RoCEv2网络构建方法和系统 | |
CN107592218B (zh) | 一种数据中心网络结构的构建方法 | |
CN116055426B (zh) | 用于多绑定模式下流量卸载转发的方法、设备及介质 | |
CN114363248A (zh) | 计算系统、加速器、交换平面及聚合通信方法 | |
JP6288633B2 (ja) | ネットワーク制御方法 | |
CN102845042A (zh) | 一种应用层多个活动物理接口的带宽聚集系统及方法 | |
CN104954439A (zh) | 一种云服务器及其节点互联方法、云服务器系统 | |
Castillo | A comprehensive DCell network topology model for a data center | |
US20170325009A1 (en) | Distributed Control For Large Photonic Switches | |
CN113630330B (zh) | 软件定义网络多控制器负载均衡方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |