CN115378818B - 一种适用于大规模分布式机器学习的新型拓扑设计方法 - Google Patents

一种适用于大规模分布式机器学习的新型拓扑设计方法 Download PDF

Info

Publication number
CN115378818B
CN115378818B CN202211317152.5A CN202211317152A CN115378818B CN 115378818 B CN115378818 B CN 115378818B CN 202211317152 A CN202211317152 A CN 202211317152A CN 115378818 B CN115378818 B CN 115378818B
Authority
CN
China
Prior art keywords
ports
switch
architecture
servers
reserved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211317152.5A
Other languages
English (en)
Other versions
CN115378818A (zh
Inventor
刘玲
陈曦
吴涛
周攀
陈飞
曾锐
虞红芳
孙罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Minzu University
Original Assignee
Southwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Minzu University filed Critical Southwest Minzu University
Priority to CN202211317152.5A priority Critical patent/CN115378818B/zh
Publication of CN115378818A publication Critical patent/CN115378818A/zh
Application granted granted Critical
Publication of CN115378818B publication Critical patent/CN115378818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/25Routing or path finding in a switch fabric
    • H04L49/253Routing or path finding in a switch fabric using establishment or release of connections between ports

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种适用于大规模分布式机器学习的新型拓扑设计方法,属于拓扑设计技术领域,该方法包括:步骤S1.分析Parameter Server架构、Tree AllReduce架构和Ring AllReduce架构的通信需求;步骤S2.获取通用拓扑需求;步骤S3.使用电路交换机或光电交换机和分组交换机,基于所述Parameter Server架构、Tree AllReduce架构和Ring AllReduce架构的通信需求,以及所述通用拓扑需求,构建由模块内和模块间组成的拓扑。本发明可以同时满足PS、Tree和Ring这三种广泛使用的分布式机器学习训练通信架构的通信需求。

Description

一种适用于大规模分布式机器学习的新型拓扑设计方法
技术领域
本发明涉及拓扑设计技术领域,尤其是涉及一种适用于大规模分布式机器学习的新型拓扑设计方法。
背景技术
近年来,机器学习(Machine Learning,ML)被广泛应用于各个领域,如医疗、计算机视觉和语音识别。随着模型和训练数据规模的不断增大,分布式机器学习(DistributedMachine Learning,DML)训练已经成为一种必然趋势,即多台机器协同并行地训练同一个模型。数据并行是一种常用的分布式训练方法,其中训练数据集被划分为多个切片,每个训练节点需要根据分配的数据切片进行模型训练。
大多ML都是以迭代的方式进行训练的,有时甚至需要迭代数百万次才能达到理想的收敛精度。每次迭代都要执行大量计算和通信。训练过程一般使用能保证模型收敛和重现的同步训练模式。在同步模式下的每一次迭代中,每个训练节点需要等待其他节点的模型更新,然后才能继续下一次迭代。参数服务器(Parameter Server,PS)和MPI AllReduce(如Tree AllReduce和Ring AllReduce)是两种广泛使用的同步模式通信架构。在PS架构中,有两种服务器,一种是负责基于本地数据集进行本地训练的计算节点(worker),另一种是负责模型同步的参数服务器节点。而在MPI AllReduce架构中,没有负责模型聚合的中心节点,不同的MPI AllReduce架构是以不同的规则同步模型参数。
为了支持计算密集型和通信密集型的DML任务,许多IT公司如微软和谷歌,利用GPU等加速硬件在数据中心建立了专门用于ML训练的集群。加速硬件的使用大大提高了DML的样本处理速度,每个计算节点在单位时间内可以处理更多的样本,这也意味着网络在单位时间内需要传输更多的数据。此时,网络的通信能力已成为DML训练的性能瓶颈。虽然已有很多从通信角度加快DML训练的方案,但它们忽略了网络拓扑对训练性能的影响。
不同的通信架构具有不同的同步规则和流量特点,对硬件和网络的需求也不同。实际上,现有的网络拓扑设计一般追求高吞吐、高可扩展性等通用目标,不针对某种特定应用,并不能很好地适应大规模DML训练。而网络拓扑与上层应用的不匹配会直接影响应用的性能。虽然已有文献设计了针对DML训练的专用拓扑,但通常局限于DML的某种通信架构。比如PSNet就是针对PS架构的专用拓扑,并没有考虑不同通信架构共存的情况。 PSNet是为使用PS架构进行训练的DML集群设计的新型网络拓扑,其主要思想是把服务器分为参数服务器和worker两类节点,并结合可重构的光电交换机或电路交换机实现了拓扑的灵活变换。虽然上述拓扑可以提升训练效率,但只适合使用PS架构的DML训练,不适合Tree架构、Ring架构等常用的MPI AllReduce通信架构。
不同的通信架构具有不同的流量模式,对网络的需求也不同,这对设计适用于多种通信架构的拓扑提出了新的挑战。因此,为了解决这一挑战,考虑到不同通信架构的不同通信需求,本发明提供了一种适用于大规模分布式机器学习的新型拓扑设计方法。
发明内容
本发明提供一种适用于大规模分布式机器学习的新型拓扑设计方法,可以同时满足PS、Tree和Ring这三种广泛使用的通信架构的通信需求。在本发明中,通过分析三种架构的流量模式和通信特点,总结出其对拓扑结构的需求,再设计满足通信需求的物理拓扑。
为实现上述目的,本发明采用了如下技术方案:
一种适用于大规模分布式机器学习的新型拓扑设计方法,包括:
步骤S1.分析Parameter Server架构、Tree AllReduce架构和Ring AllReduce架构的通信需求;
步骤S2.分析适用于分布式机器学习训练的通用拓扑需求;
步骤S3.使用电路交换机或光电交换机和分组交换机,基于所述ParameterServer架构、Tree AllReduce架构和Ring AllReduce架构的通信需求,以及所述通用拓扑需求,构建由模块内和模块间组成的拓扑。
在一些实施例中,所述模块内包括上层和下层,所述上层包括T个具有N*N端口的分组交换机和U个服务器,所述下层包括E个具有K*K个端口的电路交换机或光电交换机和D个服务器;所述模块内的连接步骤如下:
步骤A1.为下层的D个服务器分别配置E个网卡,分别连接到E个电路交换机或光电交换机;
步骤A2.为上层的U个服务器分别配置T个网卡,分别连接到T个分组交换机;
步骤A3.每个分组交换机使用E个端口分别连接到E个电路交换机或光电交换机。
在一些实施例中,所述模块间的连接步骤如下:
步骤B1.准备H个模块,编号为[1,H],若H为偶数,转至步骤B2,否则转至步骤B3;
步骤B2.随机选择H/2个模块,并为每个模块准备H/2个分组交换机预留端口和(H-2)/2个电路交换机预留端口或光电交换机预留端口,且为剩余的每个模块准备(H-2)/2个分组交换机预留端口和H/2个电路交换机预留端口或光电交换机预留端口;这些准备好的预留端口称为备用端口;令k=1,转至步骤B4;
步骤B3.为每个模块准备(H-1)/2个分组交换机预留端口和(H-1)/2个电路交换机预留端口或光电交换机预留端口;这些准备好的预留端口称为备用端口,令k=1,转至步骤B4;
步骤B4.如果k<H,转至步骤B5,否则转至步骤B6;
步骤B5.对于模块k,随机选择H-k个备用端口,分别连接到模块[k+1,H]的备用端口;注意,相连接的两个备用端口需要分别为分组交换机预留端口和电路交换机预留端口或光电交换机预留端口,不能同时为分组交换机预留端口和电路交换机预留端口或光电交换机预留端口;令k=k+1,转至步骤B4;
步骤B6.结束。
综上所述,本发明至少具有以下有益效果:
本发明每个服务器都配置多个网卡,具有较大带宽,可以满足PS架构中的参数服务器和Tree架构中的父节点等这些需要负责参数聚合的节点的大带宽要求。
本发明服务器间存在多条不相交路径。服务器与分组交换机和电路交换机或光电交换机间,分组交换机和电路交换机或光电交换机间都连接成完全二部图,可为服务器之间提供多条不相交路径,不会产生单点失效问题;当服务器、链路或交换机发生故障时,可以使用相同位置和性能的节点或链路进行替换,具有较高的容错能力,同时服务器间也容易构成环形,可以满足PS架构、Tree架构和Ring架构的通信需求,以及满足通用拓扑需求。
本发明服务器间路径跳数差异不大。在模块内部,服务器之间的路径跳数差不超过1跳,不同模块服务器间的路径跳数差不超过2跳。因此,不同服务器间路径的跳数差异很小,不会产生掉队者现象,有利于模型同步。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中所涉及的适用于大规模分布式机器学习的新型拓扑设计方法的示意图。
图2为本发明中所涉及的模块内的连接步骤的示意图。
图3为本发明中所涉及的模块间的连接步骤的示意图。
图4为本发明中所涉及的模块内连接示意图。
图5为本发明中所涉及的模块间连接示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明实施例。此外,本发明实施例可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
下面结合附图对本发明的实施例进行详细说明。
如图1所示,本实施例提供了一种适用于大规模分布式机器学习的新型拓扑设计方法,包括:
步骤S1.分析Parameter Server架构(以下简称PS架构)、Tree AllReduce架构(以下简称Tree架构)和Ring AllReduce架构(以下简称Ring架构)的通信需求;
步骤S2.分析适用于分布式机器学习训练的通用拓扑需求;
步骤S3.使用电路交换机(Electrical Circuit Switch, ECS)或光电交换机(Optical Circuit Switch, OCS)和分组交换机,基于所述Parameter Server架构、TreeAllReduce架构和Ring AllReduce架构的通信需求,以及所述通用拓扑需求,构建由模块内和模块间组成的拓扑。
在一些实施例中,所述模块内包括上层和下层,所述上层包括T个具有N*N端口的分组交换机和U个服务器,所述下层包括E个具有K*K个端口的电路交换机或光电交换机和D个服务器;如图2所示,所述模块内的连接步骤如下:
步骤A1.为下层的D个服务器分别配置E个网卡,分别连接到E个电路交换机或光电交换机;
步骤A2.为上层的U个服务器分别配置T个网卡,分别连接到T个分组交换机;
步骤A3.每个分组交换机使用E个端口分别连接到E个电路交换机或光电交换机。
在一些实施例中,如图3所示,所述模块间的连接步骤如下:
步骤B1.准备H个模块,编号为[1,H],若H为偶数,转至步骤B2,否则转至步骤B3;
步骤B2.随机选择H/2个模块,并为每个模块准备H/2个分组交换机预留端口和(H-2)/2个电路交换机预留端口或光电交换机预留端口,且为剩余的每个模块准备(H-2)/2个分组交换机预留端口和H/2个电路交换机预留端口或光电交换机预留端口;这些准备好的预留端口称为备用端口;令k=1,转至步骤B4;
步骤B3.为每个模块准备(H-1)/2个分组交换机预留端口和(H-1)/2个电路交换机预留端口或光电交换机预留端口;这些准备好的预留端口称为备用端口,令k=1,转至步骤B4;
步骤B4.如果k<H,转至步骤B5,否则转至步骤B6;
步骤B5.对于模块k,随机选择H-k个备用端口,分别连接到模块[k+1,H]的备用端口;注意,相连接的两个备用端口需要分别为分组交换机预留端口和电路交换机预留端口或光电交换机预留端口,不能同时为分组交换机预留端口和电路交换机预留端口或光电交换机预留端口;令k=k+1,转至步骤B4;
步骤B6.结束。
为了进一步说明清楚本发明的技术方案,本发明的发明构思如下:
本发明所要解决的问题是:如何连接交换机和服务器才能使拓扑满足三种通信架构的通信需求,且具有高可扩展性和高容错性特点。
本发明的目的是:提出一种基于电路交换的适用于多种通信架构的大规模DML训练的拓扑结构。该方案首先分析PS架构、Tree架构和Ring架构三种通信架构的流量模式和通信特点,总结出它们对拓扑的需求,并综合考虑分布式机器学习训练对拓扑的高可扩展性和高容错性需求,接着采用模块化思想设计能满足所有需求的拓扑结构。其中,模块内部是由电路交换机和分组交换机连接的网络,模块间则把所有模块连接成一个完全图。
一、PS架构的通信需求分析
在PS架构中,训练节点被分为两类:参数服务器和计算节点(worker),其中参数服务器负责模型参数的聚合,worker负责根据本地数据集训练模型。每一次迭代过程如下:首先,每个worker从参数服务器获取全局模型(Pull阶段);接着,每个worker根据分配的数据片进行局部训练(Compute阶段);接着,每个worker将计算好的模型更新(权重或梯度)推送到参数服务器(Push阶段)。最后,参数服务器在接收到所有worker的数据后更新全局模型(Model Update阶段)。然后开始下一次迭代。
通过分析PS架构的流量模式,本发明总结了以下三个构建适用于PS架构的拓扑需求:
1)参数服务器应该比worker拥有更多带宽(P1)
随着GPU的大规模使用,计算节点(worker)的样本处理能力得到了极大提高,这给网络带来了巨大的通信压力。在这种情况下,带宽对模型同步起着重要作用。另外,参数服务器作为数据聚合节点,极易成为通信瓶颈,与worker相比,对带宽的要求更高。在分析参数服务器链路带宽对训练性能影响的实验中,在worker带宽不变的情况下,可以看到单次迭代时间随着参数服务器带宽的增加而减少。因此,与worker相比,参数服务器需要更多的带宽,以加快模型同步过程。在本发明中,假设参数服务器接收参数更新的带宽至少比计算节点发送参数更新使用的带宽多2倍,则认为参数服务器具有更多带宽。
2)参数服务器到worker之间应该有多条不相交的路径(P2)
在同步模式下,每个参数服务器在执行模型更新之前,将等待所有worker的更新数据。如果多个worker共享到参数服务器的路径或链路,这些路径或链路很容易发生拥塞,成为数据传输的通信瓶颈,影响参数同步过程。反之,如果worker和参数服务器之间有多条不相交的路径,worker可以选择不同的路径以避免过多的共享链路,因此可缓解网络中的拥塞,有利于加快参数同步。因此,当所有节点都参与训练时,一些服务器作为参数服务器,其他所有服务器作为worker,要求拓扑可为每个worker到每个参数服务器提供多条不相交的路径。在本发明中,假设参数服务器到每个worker之间至少拥有3条不相交的路径,则认为参数服务器到worker间有多条不相交路径。
3)参数服务器到worker的路径跳数差异不大(P3)
与大部分worker相比,当某些worker需要花费更多时间向参数服务器传输更新数据时,就会出现掉队者(Straggler)现象。为了减少Straggler造成的等待时间,worker到参数服务器的路径最好是相似的,比如具有相似的路径带宽、延迟、跳数等,这样可以确保从worker到参数服务器传输数据(模型更新)所需的时间大致相同。在拓扑构建中,重点是节点(即服务器和交换机)如何连接,而不是指定网络中链路的带宽。默认情况下,各链路的带宽和延迟都是相同的。因此,在本发明中,路径的相似性主要强调路径的跳数,这在拓扑互联中也是非常直观的。同时,在本发明中,我们设置相似路径之间的跳数差异不超过3跳。
二、Tree架构的通信需求分析
在Tree架构中,所有的计算节点都参与训练,形成一个树结构来完成参数更新。具体来说,在每次迭代的模型聚合期间,每个非叶子节点等待从子节点接收数据,执行求和操作,然后将结果发送给父节点;在模型分发期间,当根节点完成模型更新时,新模型将沿着树结构原路分发给所有节点。
Tree架构的拓扑需求如下:
1)服务器应该很容易形成一个树状结构 (T1)
这个需求可以分为两部分:第一,网络中有大量适合作为父节点的服务器,其带宽比其他服务器大(T1.1)。在树结构中,除叶子以外的所有节点都是数据聚合节点,需要聚合子节点的模型更新数据。在PS通信架构中,参数服务器的数量通常比worker的数量少得多。因此,在Tree架构中,这些作为父节点的服务器也需要更多的带宽。Tree架构与PS架构的区别是:Tree架构需要更多的高带宽服务器。第二,子节点和父节点之间的路径最好不相交(T1.2)。在Tree架构中,每个父节点也是另一个节点的子节点。为避免带宽竞争,每个子节点到父节点的路径最好不重叠。
2)从所有子节点到其父节点的路径跳数差异不大(T2)
在Tree架构中,对于每个父节点,只有当收到所有子节点的参数更新之后才执行数据聚合操作。这就要求从子节点到父节点的路径没有太大的差异,并且具有相似的路径属性,这样可确保所有子节点的数据都在相近的时间到达,减少掉队者现象。和P3一样,由于要求路径相似,也只关注路径跳数,即要求子节点到父节点的路径跳数差异不大于3。
三、Ring架构的通信需求分析
在Ring结构中,没有负责聚合其他计算节点参数更新的中心节点,所有计算节点都是平等的,它们构成一个环形。每次迭代包含两个阶段,Scatter-Reduce和AllGather。在Scatter-Reduce阶段,每个计算节点发送长度为m∕n(即梯度的一部分)的数据到它的下一个固定计算节点,其中m是梯度的长度,n是环中计算节点的数量。同时,每个计算节点收到前一个固定计算节点发来的数据,并进行Reduce操作。在n−1步之后,每个计算节点都将拥有全局更新模型的一部分。在AllGather阶段,每个计算节点也向它的下一个固定计算节点发送数据(即全局更新模型的一部分),并从它的前一个固定计算节点接收数据。同样,每个计算节点在n−1步后都将获得更新后的全局模型。
根据Ring架构的通信特点,总结了以下两个拓扑需求:
1)服务器应该很容易形成一个环形结构(R1)
在Scatter-Reduce或AllGather阶段的每个步骤中,每个计算节点都要同时发送数据,这就要求环上的每条边最好是不交叉的,以避免竞争带宽。也就是说,当网络中一些服务器连接成一个环时,相邻服务器之间的路径不重叠,那么它们就很容易形成一个环形结构。
2)环内相邻节点之间的路径跳数差异不大(R2)
在Ring架构中,每个计算节点有两个相邻的节点,在每个步骤中都会同时向下一个节点发送数据,且接收来自上一个节点的数据。因此,最慢的传输会影响每一步的完成时间。在不考虑数据压缩的情况下,每个节点传输的数据量是相同的,为了减少传输速度慢的影响,就要求相邻节点之间路径的属性相似。与P3和T2相似,路径属性的相似性主要强调路径的跳数,并规定相邻节点之间的路径跳数不超过3。
四、通用拓扑需求
通过分析每个通信架构的通信特征和流量模式,我们已经得到了对应的拓扑需求。另外,结合大规模分布式机器学习训练特征,我们还从拓扑的角度考虑了以下两个常见需求:
1)高可扩展性(C1)。高可扩展性是指:在不暂停或停止训练任务的前提下向网络中添加新的服务器以扩展拓扑,目的是容纳更大规模的DML训练任务。这是非常重要的,因为在动态工作负载下,参数服务器或计算节点的数量可能会根据需要在训练过程中增加,这可以通过向任务中添加新服务器来实现。
2)高容错性(C2)。高容错性是指:当某个节点或链路发生故障时,通过使用其它节点或链路作为替代,并且保证训练任务的性能不会明显下降。在这种情况下,要求拓扑中可以找到另一个具有类似属性(例如位置、计算能力、带宽)的节点或链路来替换故障的节点或链路。
五、拓扑设计详细步骤
本发明使用可重构的电路交换机(如:电路交换机(Electrical Circuit Switch,ECS)或光电交换机(Optical Circuit Switch, OCS))构建拓扑。在使用ECS或OCS的拓扑中,可以通过调整ECS或OCS的线路动态改变线路间的连接,得到不同的拓扑结构,从而可根据上层应用需求改变物理拓扑,非常适用于多种通信架构共存的DML训练场景。
为了满足所有拓扑需求,本发明设计了一种新的模块化拓扑DMLNet,主要思想是结合分组交换机和线路交换机(以ECS为例),采用模块化分层设计思想构建拓扑。该拓扑由模块内和模块间两部分组成,下面分别介绍两部分的构建步骤:
1)模块内连接方法
模块内部可分为上下两层,下层包含E个具有K*K个端口的电路交换机ECS和D个服务器,上层包含T个具有N*N端口的分组交换机(即ToR交换机)和U个服务器。当E=3,D=5,U=4,T=2时的模块内连接示意图如图4所示。
模块内连接步骤如下:
步骤A1.为下层的D个服务器分别配置E个网卡,分别连接到E个ECS;
步骤A2.为上层的U个服务器分别配置T个网卡,分别连接到T个ToR交换机;
步骤A3.把ToR交换机和ECS连接成一个完全二部图,即每个ToR交换机使用E个端口分别连接到E个ECS。
此时,每个ECS和ToR交换机剩余端口(或称为预留端口)数量分别为2*K-D-T,2*N-U-E,这些端口均可用于模块间的互联。每个模块内部剩余的ECS和ToR端口数分别为:2EK-ED-ET、2TN-TU-ET。要求E(K-D)与T(N-U)相差不大,即E(K-D) ≈T(N-U),则每个模块剩余的ECS和ToR端口数量相差不大。
2)模块间连接方法
准备H个模块,编号为[1,H],通过连接处于不同模块的ToR交换机端口和ECS端口, 把H个模块连接成一个完全图,即每对不同的模块之间都有一条边相连,需要连接
Figure 294094DEST_PATH_IMAGE001
条边,当H=4时的模块间连接示意图如图5所示。
模块间连接步骤如下:
步骤B1.若H为偶数,转步骤2,否则转步骤3;
步骤B2.随机选择
Figure 680076DEST_PATH_IMAGE002
个模块,并为每个模块准备
Figure 194234DEST_PATH_IMAGE002
个ToR预留端口和
Figure 58285DEST_PATH_IMAGE003
个 ECS预留端口,且为剩余的每个模块准备
Figure 341499DEST_PATH_IMAGE003
个ToR预留端口和
Figure 895452DEST_PATH_IMAGE002
个ECS预留端口;这些 准备好的预留端口称为备用端口;令k=1,转步骤4;
步骤B3.为每个模块准备
Figure 631327DEST_PATH_IMAGE004
个ToR预留端口和
Figure 564648DEST_PATH_IMAGE004
个ECS预留端口;这些准 备好的预留端口称为备用端口,令k=1,转步骤4;
步骤B4.如果k<H,转步骤5,否则转步骤6;
步骤B5.对于模块k,随机选择H-k个备用端口,分别连接到模块[k+1,H]的备用端口;注意,相连接的两个备用端口需要分别为ToR端口和ECS端口,不能同时为ToR端口或ECS端口;k=k+1,转步骤4;
步骤B6.结束。
注意,不管H是偶数还是奇数,所有模块的ToR备用端口数量总和为
Figure 967948DEST_PATH_IMAGE001
, ECS备用端口数量总和也为
Figure 430153DEST_PATH_IMAGE001
,这样可以保证能构成
Figure 918903DEST_PATH_IMAGE001
条由ToR端口和 ECS端口为顶点的链路。因此,H个模块可以成功连接成一个完全图。
经过上述步骤构建的DMLNet具有以下特点:
1)节点间的数据传输使用一条路径,每个服务器都配置多个网卡,作为聚合节点的参数服务器或父节点有多个网卡接收来自不同节点的参数更新,具有较大带宽,可以满足PS架构中的参数服务器和Tree架构中的父节点的大带宽要求,即满足P1和T1.1。
2)服务器间存在多条不相交路径。服务器与ECS/ToR交换机间,ToR交换机与ECS间都连接成完全二部图,可为服务器之间提供多条不相交路径,不会产生单点失效问题;当服务器、链路或交换机发生故障时,可以使用相同位置和性能的节点或链路进行替换,具有较高的容错能力,同时服务器间也容易构成环形,因此满足P2、T1.2、R1和C2。
3)服务器间路径跳数差异不大。ECS从一个端口到另一个端口的数据传输时间低至2ns,这对上层应用可以看作是透明的,因此连接到ECS的分组交换机可看作不知道ECS的存在,并把它当作一条链路。因此,在模块内部,ECS的透明性使得服务器之间的路径始终为2跳,不同模块中服务器之间的路径最多为3跳。具休地,模块内服务器之间的路径为:服务器→ECS→服务器、服务器→ToR→ECS→服务器、服务器→ToR→服务器。不同模块中服务器之间的路径为:服务器→ECS→ToR→ECS→服务器、服务器→ECS→ToR→服务器、服务器→ToR→ECS→服务器、服务器→ToR→ECS→服务器、服务器→ToR→ECS→服务器、服务器→ToR→ECS→服务器。因此,任意服务器之间的距离不超过2跳,满足P3、T2、R2。此外,DMLNet通过连接备用端口进行扩展,不改变原有的节点或链路。因此,也满足C1。注意,当使用OCS替换ECS时,模块内的不同服务器间路径跳数变为:2跳或3跳,模块间的不同服务器间的路径跳数变为:3跳或4跳,同样的,当使用OCS时,任意服务器间的路径跳数同样不超过2跳,也满足P3、T2和R2。
综上,DMLNet能够满足常用的三种通信体系结构的拓扑需求,以及高可扩展性和高容错性两种通用的拓扑需求,非常适用大规模DML训练。
以上所述实施例是用以说明本发明,并非用以限制本发明,所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。
由以上详细说明,可使本领域普通技术人员明了本发明的确可达成前述目的,实已符合专利法的规定。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并未明确说明,但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此,应当强调并注意的是,本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的过程、机器、产品或物质的组合,或对其任何新的和有用的改进。因此,本申请的各个方面可以完全由硬件实施、可以完全由软件(包括固件、常驻软件、微代码等)实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外,本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,其中计算机可读程序代码包含在其中。
本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写,包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,尽管上述各种组件的实现可以体现在硬件设备中,但是它也可以实现为纯软件解决方案,例如,在现有服务器或移动设备上的安装。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请的实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。然而,本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反,发明的主体应具备比上述单一实施例更少的特征。

Claims (3)

1.一种适用于大规模分布式机器学习的新型拓扑设计方法,其特征在于,包括:
步骤S1.分析Parameter Server架构、Tree AllReduce架构和Ring AllReduce架构的通信需求;
其中,通过分析每个通信架构的通信特征和流量模式得到:
Parameter Server架构的通信需求包括如下:
参数服务器接收参数更新的带宽至少比计算节点发送参数更新使用的带宽多2倍;
参数服务器到每个计算节点之间至少拥有3条不相交的路径;
参数服务器到计算节点的路径跳数差异不超过3跳;
Tree AllReduce架构的通信需求包括如下:
作为父节点的服务器,其带宽比其他服务器大;
子节点和父节点之间的路径不相交;
所有子节点到其父节点的路径跳数差异不超过3跳;
Ring AllReduce架构的通信需求包括如下:
当网络中一些服务器连接成一个环时,相邻服务器之间的路径不重叠,以形成一个环形结构;
环内相邻节点之间的路径跳数差异不超过3跳;
步骤S2.分析适用于分布式机器学习训练的通用拓扑需求;
其中,结合大规模分布式机器学习训练特征,通用拓扑需求包括高可扩展性和高容错性;
步骤S3.使用电路交换机或光电交换机和分组交换机,基于所述Parameter Server架构、Tree AllReduce架构和Ring AllReduce架构的通信需求,以及所述通用拓扑需求,构建由模块内和模块间组成的拓扑。
2.根据权利要求1所述的适用于大规模分布式机器学习的新型拓扑设计方法,其特征在于:
所述模块内包括上层和下层,所述上层包括T个具有N*N端口的分组交换机和U个服务器,所述下层包括E个具有K*K个端口的电路交换机或光电交换机和D个服务器;
所述模块内的连接步骤如下:
步骤A1.为下层的D个服务器分别配置E个网卡,分别连接到E个电路交换机或光电交换机;
步骤A2.为上层的U个服务器分别配置T个网卡,分别连接到T个分组交换机;
步骤A3.每个分组交换机使用E个端口分别连接到E个电路交换机或光电交换机。
3.根据权利要求1所述的适用于大规模分布式机器学习的新型拓扑设计方法,其特征在于:
所述模块间的连接步骤如下:
步骤B1.准备H个模块,编号为[1,H],若H为偶数,转至步骤B2,否则转至步骤B3;
步骤B2.随机选择H/2个模块,并为每个模块准备H/2个分组交换机预留端口和(H-2)/2个电路交换机预留端口或光电交换机预留端口,且为剩余的每个模块准备(H-2)/2个分组交换机预留端口和H/2个电路交换机预留端口或光电交换机预留端口;这些准备好的预留端口称为备用端口;令k=1,转至步骤B4;
步骤B3.为每个模块准备(H-1)/2个分组交换机预留端口和(H-1)/2个电路交换机预留端口或光电交换机预留端口;这些准备好的预留端口称为备用端口,令k=1,转至步骤B4;
步骤B4.如果k<H,转至步骤B5,否则转至步骤B6;
步骤B5.对于模块k,随机选择H-k个备用端口,分别连接到模块[k+1,H]的备用端口;相连接的两个备用端口需要分别为分组交换机预留端口和电路交换机预留端口或光电交换机预留端口,不能同时为分组交换机预留端口和电路交换机预留端口或光电交换机预留端口;令k=k+1,转至步骤B4;
步骤B6.结束。
CN202211317152.5A 2022-10-26 2022-10-26 一种适用于大规模分布式机器学习的新型拓扑设计方法 Active CN115378818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211317152.5A CN115378818B (zh) 2022-10-26 2022-10-26 一种适用于大规模分布式机器学习的新型拓扑设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211317152.5A CN115378818B (zh) 2022-10-26 2022-10-26 一种适用于大规模分布式机器学习的新型拓扑设计方法

Publications (2)

Publication Number Publication Date
CN115378818A CN115378818A (zh) 2022-11-22
CN115378818B true CN115378818B (zh) 2023-02-24

Family

ID=84073669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211317152.5A Active CN115378818B (zh) 2022-10-26 2022-10-26 一种适用于大规模分布式机器学习的新型拓扑设计方法

Country Status (1)

Country Link
CN (1) CN115378818B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957186B1 (en) * 1999-05-27 2005-10-18 Accenture Llp System method and article of manufacture for building, managing, and supporting various components of a system
CN110990140A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种光电交换网络中分布式机器学习流的调度方法
CN111221646A (zh) * 2019-12-16 2020-06-02 清华大学 分布式机器学习的参数同步方法及装置
CN112217652A (zh) * 2019-07-10 2021-01-12 华为技术有限公司 一种基于中心通信模式的网络拓扑装置及方法
WO2021051713A1 (zh) * 2019-09-20 2021-03-25 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置
CN113297127A (zh) * 2020-02-21 2021-08-24 深圳致星科技有限公司 一种大规模分布式训练集群的参数更新方法、平台系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270201B2 (en) * 2017-12-29 2022-03-08 Intel Corporation Communication optimizations for distributed machine learning
US11706163B2 (en) * 2019-12-20 2023-07-18 The Board Of Trustees Of The University Of Illinois Accelerating distributed reinforcement learning with in-switch computing
CN112911671B (zh) * 2021-02-09 2022-04-15 珠海格力电器股份有限公司 一种拓扑组网架构的构建方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957186B1 (en) * 1999-05-27 2005-10-18 Accenture Llp System method and article of manufacture for building, managing, and supporting various components of a system
CN112217652A (zh) * 2019-07-10 2021-01-12 华为技术有限公司 一种基于中心通信模式的网络拓扑装置及方法
WO2021051713A1 (zh) * 2019-09-20 2021-03-25 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置
CN110990140A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种光电交换网络中分布式机器学习流的调度方法
CN111221646A (zh) * 2019-12-16 2020-06-02 清华大学 分布式机器学习的参数同步方法及装置
CN113297127A (zh) * 2020-02-21 2021-08-24 深圳致星科技有限公司 一种大规模分布式训练集群的参数更新方法、平台系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Accelerating model synchronization for distributed machine learning in an optical area network;Gang Sun,Hongfang Yu;《Journal of Optical Communications and Networking》;20220927;第12卷(第10期);全文 *
Communication Algorithm-Architecture Co-Design for Distributed Deep Learning;Jiayi Huang,Pritam Majumder;《 2021 ACM/IEEE 48th Annual International Symposium on Computer Architecture》;20210804;全文 *
面向数据中心网络的分布式机器学习系统架构设计与性能分析;周祺华;《中国优秀硕士学位论文数据库》;20220316;全文 *

Also Published As

Publication number Publication date
CN115378818A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
US11082350B2 (en) Network server systems, architectures, components and related methods
WO2022095319A1 (zh) 一种用于多比特量子反馈控制的量子测控系统
US9880972B2 (en) Computer subsystem and computer system with composite nodes in an interconnection structure
Mai et al. Optimizing network performance in distributed machine learning
JP4676463B2 (ja) 並列計算機システム
KR20140139032A (ko) 패킷플로우 상호연결 패브릭
US11853245B2 (en) Computing system framework and method for configuration thereof
Abd-El-Barr et al. Reliability analysis and fault tolerance for hypercube multi-computer networks
CN110991626B (zh) 一种多cpu类脑模拟系统
EP2641189A1 (en) Unified network architecture for scalable super-calculus systems
Qiu et al. ParaCon: A parallel control plane for scaling up path computation in SDN
CN111193971B (zh) 一种面向机器学习的分布式计算互连网络系统及通信方法
CN105471749A (zh) 阶数灵活的低直径大规模互连网络拓扑结构及路由方法
CN115378818B (zh) 一种适用于大规模分布式机器学习的新型拓扑设计方法
CN104954439B (zh) 一种云服务器及其节点互联方法、云服务器系统
Nguyen et al. On the feasibility of hybrid electrical/optical switch architecture for large-scale training of distributed deep learning
CN107018071B (zh) 一种基于“包-电路”交换技术的路由模式切换配置器
Zhang et al. Near-optimal topology-adaptive parameter synchronization in distributed DNN training
CN112217652B (zh) 一种基于中心通信模式的网络拓扑装置及方法
KR20220063759A (ko) 다중 비트 양자 피드백 제어를 위한 양자 측정 및 제어 시스템
Feng et al. Criso: An incremental scalable and cost-effective network architecture for data centers
CN110135067B (zh) 一种双时间步方法下的直升机流场重叠混合网格并行方法
Shahida et al. Fast Zerox algorithm for routing in optical Multistage interconnection networks
Liu et al. Topologies in distributed machine learning: Comprehensive survey, recommendations and future directions
CN112751789A (zh) 一种非对称sdn控制器集群的实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant