CN111193971B - 一种面向机器学习的分布式计算互连网络系统及通信方法 - Google Patents

一种面向机器学习的分布式计算互连网络系统及通信方法 Download PDF

Info

Publication number
CN111193971B
CN111193971B CN202010143801.9A CN202010143801A CN111193971B CN 111193971 B CN111193971 B CN 111193971B CN 202010143801 A CN202010143801 A CN 202010143801A CN 111193971 B CN111193971 B CN 111193971B
Authority
CN
China
Prior art keywords
hybrid switch
computing
switch
photoelectric hybrid
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010143801.9A
Other languages
English (en)
Other versions
CN111193971A (zh
Inventor
顾华玺
鹿云峰
余晓杉
王琨
任泽昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Publication of CN111193971A publication Critical patent/CN111193971A/zh
Application granted granted Critical
Publication of CN111193971B publication Critical patent/CN111193971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • H04Q2011/0007Construction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • H04Q2011/0052Interconnection of switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种面向机器学习的分布式计算互连网络系统及通信方法,旨在提高互连网络的通信效率,同时更好地平衡分布式计算互连网络中的流量负载,其中分布式计算互连网络的光交换子系统包括2N台光交换机,计算子系统包括N个计算单元,每个计算单元包括N个子计算单元,每个子计算单元包括1台光电混合交换机和N个计算节点;通信过程为:在同一计算单元内通信的计算节点对仅依靠光电混合交换机的转发即可完成通信任务,不在同一计算单元内通信的计算节点对则需要光电混合交换机和光交换机的协作完成通信任务。本发明不仅使系统具备良好的可扩展性,减少了网络直径,降低了系统的通信时延,而且提升了系统应对复杂网络环境的能力。

Description

一种面向机器学习的分布式计算互连网络系统及通信方法
技术领域
本发明属于通信技术领域,更进一步涉及互连网络通信技术领域中的一种面向机器学习的分布式计算互连网络系统及通信方法,本发明利用光交换机、光电混合交换机和计算节点组成的互连网络系统,实现分布式计算互连网络系统中各个计算节点之间的高效通信。
背景技术
随着计算技术的发展,许多新兴应用需要非常巨大的计算能力才能完成,尤其是以大数据和大模型为基础的机器学习应用。集中式计算完全依赖于一台大型的中心计算机的处理能力。与集中式计算相反,分布式计算中,多个通过网络互连的计算节点都具有较高的计算能力,它们之间相互传递数据,实现信息共享,共同协作完成一个处理任务。如果采用集中式计算,需要耗费相当长的时间来完成复杂的处理任务。分布式计算将该任务分解成许多小的部分,分配给多个计算节点进行处理。这样可以节约整体计算时间,大幅提高计算效率。
互连网络系统作为分布式计算中连接各个计算节点的重要组成部分,它的性能主要依赖于网络直径、可扩展性和可靠性等参数。另一方面,面对网络中复杂多变的流量环境,具备识别网络状态能力的通信方法可以根据网络中的流量变化做出及时的应对,避免网络拥塞导致的通信性能下降。在大规模分布式机器学习场景中,计算节点之间需要同步本地参数以更新训练模型,但是在网络规模扩大之后,参数同步的通信开销随之增大。具备较低网络直径和较小扩展复杂度的互连网络系统对于提升机器学习训练任务的执行效率有着重要的影响。同时,对于机器学习训练任务之间的差异性,具备一定自主调节能力的通信方法可以更好地平衡网络中的流量负载以应对复杂的网络环境。如何设计一个合理高效的分布式计算互连网络系统和通信方法对降低机器学习训练任务的执行时间至关重要。
现有的互连网络系统具有良好扩展性,互连网络的通信效率较高,但互连网络中流量负载的平衡能力较差,例如西安电子科技大学在其授权公告号为CN 106789750B,名称为“一种高性能计算互连网络系统及通信方法”的发明中,公开了一种高性能计算互连网络系统及通信方法,该发明的互连网络系统包括电分组交换机组成的一级单元、光电混合交换机组成的二级单元和二级单元通过组内光交换机组成的三级单元,三级单元通过组间光交换机互连成整个系统;通信方法是利用电分组交换机制和光电混合的交换机制实现系统的多级通信,其中电分组交换机与光电混合交换机之间通过电分组交换机制实现一级单元与二级单元之间的通信,光电混合交换机与组间光交换机利用光电混合的交换机制实现三级单元之间的通信。该发明在网络下层通过多级单元组成模块化的结构,降低网络的扩展复杂度;网络上层的树形结构通过提供一定的设备冗余增强了网络的容错率,进而提高了系统的可靠性。但是其存在的不足之处在于:1、互连网络系统的网络直径较大,增加了机器学习任务的执行时间;2、通信方法仅能完成数据分组在通信节点对之间的传输,不具备自主调节的能力。
发明内容
本发明的目的在于克服上述已有技术的不足,提出了一种面向机器学习的分布式计算互连网络系统及通信方法,旨在提高互连网络的通信效率,同时更好地平衡分布式计算互连网络中的流量负载。
为实现上述目的,本发明采取的技术方案为:
一种面向机器学习的分布式计算互连网络系统,包括光交换子系统和计算子系统。
所述光交换子系统包括编号为A0,A1,…,Ai,…,A2N-1的2N台光交换机,每台光交换机包括N个交换端口,其中N≥1,Ai表示第i台光交换机;
所述计算子系统包括N个计算单元,每个计算单元包括N个子计算单元,每个子计算单元包括1台光电混合交换机和N个计算节点,每个光电混合交换机包括2个上行端口、N个下行端口和N-1个交换端口,每个计算节点包括1个上行端口;每个子计算单元所包含的光电混合交换机的N个下行端口分别与N个计算节点的上行端口连接,每个计算单元所包含的每一个光电混合交换机的N-1个交换端口分别与同一计算单元内的其他N-1个光电混合交换机的1个交换端口连接;
所述计算子系统所包含的N2个光电混合交换机的编号为M(0,0),M(0,1),…,M(0,N-1);M(1,0),M(1,1),…,M(1,N-1);…;M(x,y);…;M(N-1,0),M(N-1,1),…,M(N-1,N-1);其中M(x,y)表示第x个计算单元中第y台光电混合交换机,0≤x≤N-1,0≤y≤N-1;
所述光交换子系统中光交换机Ai的每个交换端口与计算子系统中光电混合交换机M(x,y)的1个上行端口连接,其中i%N=y,%表示i对N取模。
上述一种面向机器学习的分布式计算互连网络系统中,所述计算节点,采用CPU或者GPU。
一种面向机器学习的分布式计算互连网络的通信方法,包括如下步骤:
(1)每个计算节点产生数据分组并发送:
每个计算节点Sr根据自身的地址和与Sr进行通信的每个计算节点Sd的地址产生数据分组,并将所有数据分组发送至与计算节点Sr相连的光电混合交换机Rs;
(2)每个光电混合交换机Rs对每个数据分组进行解析:
每个光电混合交换机Rs对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址;
(3)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个计算单元内:
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个计算单元内,若是,执行步骤(4),否则,执行步骤(7);
(4)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个子计算单元内:
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个子计算单元内,若是,将Sr产生的数据分组发送至与Sr进行通信的计算节点Sd;否则,执行步骤(5);
(5)每个光电混合交换机Rs向光电混合交换机Rd发送数据分组:
每个光电混合交换机Rs将Sr产生的数据分组发送至与计算节点Sd相连的目的光电混合交换机Rd;
(6)每个光电混合交换机Rd对每个数据分组进行解析,并发送数据分组:
每个光电混合交换机Rd对每个数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并向Sd发送Sr产生的数据分组;
(7)每个光电混合交换机Rs判断自身与和计算节点Sd相连的光电混合交换机Rd之间是否存在光交换机:
每个光电混合交换机Rs判断自身的编号M(x1,y1)与和计算节点Sd相连的光电混合交换机Rd的编号M(x2,y2)是否满足y1=y2,若是,执行步骤(8);否则,执行步骤(10);
(8)每个光电混合交换机Rs发送数据分组至光交换机Ro:
(8a)每个光电混合交换机Rs检查所有与自身相连的光交换机需要发送的数据分组数目,并选择需要发送数据分组数目最小的光交换机Ro;
(8b)每个光电混合交换机Rs根据自身和光电混合交换机Rd的设备编号计算通信波长W,并使用该通信波长将数据分组发送至相连的光交换机Ro,其中:
W=(x1+x2)%N
其中,x1为与计算节点Sr相连的光电混合交换机Rs所在计算单元的编号,x2为与计算节点Sd相连的光电混合交换机Rd所在计算单元的编号;
(9)每个光交换机Ro发送数据分组至光电混合交换机Rd:
每个光交换机Ro将Sr产生的数据分组发送至与计算节点Sd相连的光电混合交换机Rd,并执行步骤(6);
(10)每个光电混合交换机Rs发送数据分组至光电混合交换机Rm:
每个光电混合交换机Rs将Sr产生的数据分组发送至与光电混合交换机Rd在同一个计算单元内的光电混合交换机Rm,Rm的设备编号M(x3,y3)与光电混合交换机Rd编号M(x2,y2)满足y2=y3
(11)每个光电混合交换机Rm解析数据分组并计算通信波长,然后发送数据分组:
每个光电混合交换机Rm对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并检查所有与自身相连的光交换机需要发送的数据分组数目,选择需要发送数据分组数目最小的光交换机Ro,然后根据自身的设备编号和光电混合交换机Rd的设备编号计算通信波长W,最后使用W将数据分组发送至相连的光交换机Ro,执行步骤(9)。
本发明与现有技术相比,具有以下优点:
第一,由于本发明的互连网络系统中仅仅包括光交换机组成的光交换子系统和光电混合交换机及计算节点组成的计算子系统,计算子系统中的计算单元通过光交换机和光电混合交换机连接,计算单元内的子计算单元之间同样通过光电混合交换机连接,光电混合交换机同时连接两个系统使得网络结构扁平化,降低了互连网络的网络直径,从而减少了计算节点对之间的通信时间,与现有技术相比,有效提高了互连网络的通信效率,进而提升了机器学习训练任务的执行效率。
第二,由于本发明的通信方法中在计算单元之间进行通信时光电混合交换机会根据光交换机需要发送的数据分组数目选择需要发送数据分组数目最小的光交换机,能够对互连网络的状态进行识别,提高了互连网络中流量负载的平衡能力,与现有技术相比,有效地提升了应对复杂网络环境的能力。
附图说明
图1为本发明分布式计算互连网络系统具体实施例的结构示意图;
图2为本发明分布式计算互连网络系统中计算单元具体实施例的结构示意图;
图3为本发明分布式计算互连网络通信方法的实现流程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,一种面向机器学习的分布式计算互连网络系统,包括光交换子系统和计算子系统。
所述光交换子系统包括编号为A0,A1,…,Ai,…,A2N-1的2N台光交换机,其中N≥1,Ai表示第i台光交换机。为了便于观察和描述,本实施例N=4,则光交换子系统包含的光交换机的数量为8台,具体编号为A0,A1,…,A6,A7,每台光交换机包括N个交换端口,即每台光交换机包括4个交换端口。
所述计算子系统包括N个计算单元,则本实施例中计算子系统包含的计算单元数量为4个,计算单元的数目与每台光交换机的交换端口数量一致。
所述计算子系统所包含的N2个光电混合交换机的编号为M(0,0),M(0,1),…,M(0,N-1);M(1,0),M(1,1),…,M(1,N-1);…;M(x,y);…;M(N-1,0),M(N-1,1),…,M(N-1,N-1);其中M(x,y)表示第x个计算单元中第y台光电混合交换机,0≤x≤N-1,0≤y≤N-1。本实施例中计算单元0内4台光电混合交换机的编号分别为M(0,0),M(0,1),M(0,2),M(0,3);计算单元1内4台光电混合交换机的编号分别为M(1,0),M(1,1),M(1,2),M(1,3);计算单元2内4台光电混合交换机的编号分别为M(2,0),M(2,1),M(2,2),M(2,3);计算单元3内4台光电混合交换机的编号分别为M(3,0),M(3,1),M(3,2),M(3,3)。
所述光交换子系统中光交换机Ai的每个交换端口与计算子系统中光电混合交换机M(x,y)的1个上行端口连接,每个光电混合交换机包括2个上行端口,其中i%N=y,%表示i对N取模。本实施例中,由于0%4=0,光交换机A0的4个交换端口分别连接M(0,0)、M(1,0)、M(2,0)和M(3,0)的一个上行端口;由于1%4=1,光交换机A1的4个交换端口分别连接M(0,1)、M(1,1)、M(2,1)和M(3,1)的一个上行端口;由于2%4=2,光交换机A2的4个交换端口分别连接M(0,2)、M(1,2)、M(2,2)和M(3,2)的一个上行端口;由于3%4=3,光交换机A3的4个交换端口分别连接M(0,3)、M(1,3)、M(2,3)和M(3,3)的一个上行端口;由于4%4=0,光交换机A4的4个交换端口分别连接M(0,0)、M(1,0)、M(2,0)和M(3,0)的另一个上行端口;由于5%4=1,光交换机A5的4个交换端口分别连接M(0,1)、M(1,1)、M(2,1)和M(3,1)的另一个上行端口;由于6%4=2,光交换机A6的4个交换端口分别连接M(0,2)、M(1,2)、M(2,2)和M(3,2)的另一个上行端口;由于7%4=3,光交换机A7的4个交换端口分别连接M(0,3)、M(1,3)、M(2,3)和M(3,3)的另一个上行端口。
参照图2,一种面向机器学习的分布式计算互连网络系统中的计算单元,采用采用CPU或者GPU,由于GPU作为目前最常用来加速机器学习的设备,本实施例分布式计算互连网络系统中的计算单元采用GPU。
所述的每个计算单元包括N个子计算单元,即每个计算单元包含的子计算单元数量为4个,每个计算单元中子计算单元的数量与互连网络系统中计算单元的数量相同;每个子计算单元包括1台光电混合交换机和N个计算节点,即每个子计算单元中光电混合交换机和计算节点的数量分别为1台和4个,每个子计算单元中计算节点的数量与计算单元的数量相同。每个光电混合交换机包括2个上行端口、N个下行端口和N-1个交换端口,则每个光电混合交换机包含的上行端口、下行端口和交换端口的数量分别为2个、4个和3个;每个计算节点包括1个上行端口;每个子计算单元所包含的光电混合交换机的N个下行端口分别与N个计算节点的上行端口连接,即每个光电混合交换机的4个下行端口分别与4个计算节点的上行端口连接;每个计算单元所包含的每一个光电混合交换机的N-1个交换端口分别与同一计算单元内的其他N-1个光电混合交换机的1个交换端口连接,则每个计算单元中每个光电混合交换机的3个交换端口分别与同一计算单元内的其他3个光电混合交换机的1个交换端口连接。光电混合交换机同时连接光交换子系统和计算子系统使得网络结构扁平化,降低了互连网络的网络直径,从而减少了计算节点对之间的通信时间,有效提高了互连网络的通信效率,进而提升了机器学习训练任务的执行效率。
上述互连网络系统中共有N2个子计算单元、N2台光电混合交换机和N3个计算节点,本实施例中则有16个子计算单元、16台光电混合交换机和64个计算节点,光交换机、计算单元、子计算单元、光电混合交换机和计算节点的数量之间的对应关系使网络中计算节点的数量可以随着网络规模的扩展以三次方的数量级增加,有效提升了网络的扩展性。
参照图3,一种面向机器学习的分布式计算互连网络的通信方法,包括如下步骤:
步骤1)每个计算节点产生数据分组并发送。
每个计算节点Sr根据自身的地址和与Sr进行通信的每个计算节点Sd的地址产生数据分组,并将所有数据分组发送至与计算节点Sr相连的光电混合交换机Rs,其中每个计算节点Sr既可以作为通信的源节点也可以作为通信的目的节点;
步骤2)每个光电混合交换机Rs对每个数据分组进行解析。
每个光电混合交换机Rs对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址。
步骤3)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个计算单元内。
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个计算单元内,若是,执行步骤4,否则,执行步骤7。
步骤4)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个子计算单元内。
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个子计算单元内,若是,将Sr产生的数据分组发送至与Sr进行通信的计算节点Sd;否则,执行步骤5。
步骤5)每个光电混合交换机Rs向光电混合交换机Rd发送数据分组。
每个光电混合交换机Rs将Sr产生的数据分组发送至与计算节点Sd相连的目的光电混合交换机Rd。
步骤6)每个光电混合交换机Rd对每个数据分组进行解析,并发送数据分组。
每个光电混合交换机Rd对每个数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并向Sd发送Sr产生的数据分组。
步骤7)每个光电混合交换机Rs判断自身与和计算节点Sd相连的光电混合交换机Rd之间是否存在光交换机。
每个光电混合交换机Rs判断自身的编号M(x1,y1)与和计算节点Sd相连的光电混合交换机Rd的编号M(x2,y2)是否满足y1=y2,若是,执行步骤8;否则,执行步骤10。
步骤8)每个光电混合交换机Rs发送数据分组至光交换机Ro。
步骤8a)每个光电混合交换机Rs检查所有与自身相连的光交换机需要发送的数据分组数目,并选择需要发送数据分组数目最小的光交换机Ro。该步骤能够对互连网络的状态进行识别,提高了互连网络中流量负载的平衡能力,有效地提升了应对复杂网络环境的能力。
步骤8b)每个光电混合交换机Rs根据自身和光电混合交换机Rd的设备编号计算通信波长W,并使用该通信波长将数据分组发送至相连的光交换机Ro,其中:
W=(x1+x2)%4
其中,x1为与计算节点Sr相连的光电混合交换机Rs所在计算单元的编号,x2为与计算节点Sd相连的光电混合交换机Rd所在计算单元的编号。
步骤9)每个光交换机Ro发送数据分组至光电混合交换机Rd。
每个光交换机Ro将Sr产生的数据分组发送至与计算节点Sd相连的光电混合交换机Rd,并执行步骤6。
步骤10)每个光电混合交换机Rs发送数据分组至光电混合交换机Rm。
每个光电混合交换机Rs将Sr产生的数据分组发送至与光电混合交换机Rd在同一个计算单元内的光电混合交换机Rm,Rm的设备编号M(x3,y3)与光电混合交换机Rd编号M(x2,y2)满足y2=y3
步骤11)每个光电混合交换机Rm解析数据分组并计算通信波长,然后发送数据分组。
每个光电混合交换机Rm对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并检查所有与自身相连的光交换机需要发送的数据分组数目,选择需要发送数据分组数目最小的光交换机Ro,然后根据自身的设备编号和光电混合交换机Rd的设备编号计算通信波长W,最后使用W将数据分组发送至相连的光交换机Ro,执行步骤9。

Claims (3)

1.一种面向机器学习的分布式计算互连网络系统,包括光交换子系统和计算子系统,其特征在于:
所述光交换子系统包括编号为A0,A1,…,Ai,…,A2N-1的2N台光交换机,每台光交换机包括N个交换端口,其中N≥1,Ai表示第i台光交换机;
所述计算子系统包括N个计算单元,每个计算单元包括N个子计算单元,每个子计算单元包括1台光电混合交换机和N个计算节点,每个光电混合交换机包括2个上行端口、N个下行端口和N-1个交换端口,每个计算节点包括1个上行端口;每个子计算单元所包含的光电混合交换机的N个下行端口分别与该光电混合交换机所在子计算单元中的N个计算节点的上行端口连接,每个计算单元所包含的每一个光电混合交换机的N-1个交换端口分别与同一计算单元内的其他N-1个光电混合交换机的1个交换端口连接;
所述计算子系统所包含的N2个光电混合交换机的编号为M(0,0),M(0,1),…,M(0,N-1);M(1,0),M(1,1),…,M(1,N-1);…;M(x,y);…;M(N-1,0),M(N-1,1),…,M(N-1,N-1);其中M(x,y)表示第x个计算单元中第y台光电混合交换机,0≤x≤N-1,0≤y≤N-1;
所述光交换子系统中光交换机Ai的每个交换端口与计算子系统中光电混合交换机M(x,y)的1个上行端口连接,其中i%N=y,%表示i对N取模。
2.根据权利要求1所述的一种面向机器学习的分布式计算互连网络系统,其特征在于,所述计算节点,采用CPU或者GPU。
3.一种面向机器学习的分布式计算互连网络的通信方法,其特征在于,包括如下步骤:
(1)每个计算节点产生数据分组并发送:
每个计算节点Sr根据自身的地址和与Sr进行通信的每个计算节点Sd的地址产生数据分组,并将所有数据分组发送至与计算节点Sr相连的光电混合交换机Rs;
(2)每个光电混合交换机Rs对每个数据分组进行解析:
每个光电混合交换机Rs对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址;
(3)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个计算单元内:
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个计算单元内,若是,执行步骤(4),否则,执行步骤(7);
(4)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个子计算单元内:
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个子计算单元内,若是,将Sr产生的数据分组发送至与Sr进行通信的计算节点Sd;否则,执行步骤(5);
(5)每个光电混合交换机Rs向光电混合交换机Rd发送数据分组:
每个光电混合交换机Rs将Sr产生的数据分组发送至与计算节点Sd相连的目的光电混合交换机Rd;
(6)每个光电混合交换机Rd对每个数据分组进行解析,并发送数据分组:
每个光电混合交换机Rd对每个数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并向Sd发送Sr产生的数据分组;
(7)每个光电混合交换机Rs判断自身与和计算节点Sd相连的光电混合交换机Rd之间是否存在光交换机:
每个光电混合交换机Rs判断自身的编号M(x1,y1)与和计算节点Sd相连的光电混合交换机Rd的编号M(x2,y2)是否满足y1=y2,若是,执行步骤(8);否则,执行步骤(10);
(8)每个光电混合交换机Rs发送数据分组至光交换机Ro:
(8a)每个光电混合交换机Rs检查所有与自身相连的光交换机需要发送的数据分组数目,并选择需要发送数据分组数目最小的光交换机Ro;
(8b)每个光电混合交换机Rs根据自身和光电混合交换机Rd的设备编号计算通信波长W,并使用该通信波长将数据分组发送至相连的光交换机Ro,其中:
W=(x1+x2)%N
其中,x1为与计算节点Sr相连的光电混合交换机Rs所在计算单元的编号,x2为与计算节点Sd相连的光电混合交换机Rd所在计算单元的编号;
(9)每个光交换机Ro发送数据分组至光电混合交换机Rd:
每个光交换机Ro将Sr产生的数据分组发送至与计算节点Sd相连的光电混合交换机Rd,并执行步骤(6);
(10)每个光电混合交换机Rs发送数据分组至光电混合交换机Rm:
每个光电混合交换机Rs将Sr产生的数据分组发送至与光电混合交换机Rd在同一个计算单元内的光电混合交换机Rm,Rm的设备编号M(x3,y3)与光电混合交换机Rd编号M(x2,y2)满足y2=y3
(11)每个光电混合交换机Rm解析数据分组并计算通信波长,然后发送数据分组:
每个光电混合交换机Rm对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并检查所有与自身相连的光交换机需要发送的数据分组数目,选择需要发送数据分组数目最小的光交换机Ro,然后根据自身的设备编号和光电混合交换机Rd的设备编号计算通信波长W,最后使用W将数据分组发送至相连的光交换机Ro,执行步骤(9)。
CN202010143801.9A 2019-11-15 2020-03-04 一种面向机器学习的分布式计算互连网络系统及通信方法 Active CN111193971B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019111175888 2019-11-15
CN201911117588 2019-11-15

Publications (2)

Publication Number Publication Date
CN111193971A CN111193971A (zh) 2020-05-22
CN111193971B true CN111193971B (zh) 2020-12-08

Family

ID=70710937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010143801.9A Active CN111193971B (zh) 2019-11-15 2020-03-04 一种面向机器学习的分布式计算互连网络系统及通信方法

Country Status (1)

Country Link
CN (1) CN111193971B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088171A1 (en) * 2020-11-02 2022-05-05 Alibaba Group Holding Limited Neural processing unit synchronization systems and methods
US11706101B2 (en) * 2020-12-04 2023-07-18 A5G Networks, Inc. Distributed, self-adjusting and optimizing core network with machine learning
CN115714937A (zh) * 2022-11-03 2023-02-24 北京邮电大学 基于阵列波导光栅的全光交换分布式强化学习系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639116B2 (en) * 2010-12-17 2014-01-28 Ron Hui Digital subcarrier optical network utilizing digital subcarrier cross-connects with increased energy efficiency
CN102638411B (zh) * 2012-05-02 2014-08-20 西安电子科技大学 基于超立方簇的数据中心光互连网络系统及通信方法
CN103441942B (zh) * 2013-08-26 2016-04-20 重庆大学 基于软件定义的数据中心网络系统及数据通信方法
CN108476080B (zh) * 2015-11-05 2021-01-05 洛克利光子有限公司 多维光电子交换机
CN106851442B (zh) * 2017-01-19 2019-05-21 西安电子科技大学 一种超级计算机中的光互连网络系统及通信方法
CN106789750B (zh) * 2017-01-19 2019-07-16 西安电子科技大学 一种高性能计算互连网络系统及通信方法
CN107509125B (zh) * 2017-07-13 2020-06-09 西安空间无线电技术研究所 一种分布式光电混合交换结构

Also Published As

Publication number Publication date
CN111193971A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111193971B (zh) 一种面向机器学习的分布式计算互连网络系统及通信方法
US9674116B2 (en) Data distribution packet-flow interconnect fabric modular management optimized system
Agrawal et al. Simulation of network on chip for 3D router architecture
CN103179046A (zh) 基于openflow的数据中心流量控制方法及系统
CN105162721A (zh) 基于软件定义网络的全光互连数据中心网络系统及数据通信方法
CN102882811A (zh) 基于阵列波导光栅的数据中心光互连网络系统及通信方法
CN106506625A (zh) 四控服务器及四控服务器通信方法
Minkenberg et al. Performance benefits of optical circuit switches for large-scale dragonfly networks
CN104639437A (zh) 堆叠系统中广播报文的转发方法及装置
CN105530206B (zh) 一种具有双接入结构的Torus网络系统及其工作方法
CN106331018B (zh) 基于负载均衡的sdn网络主机发现方法及系统
CN102711125A (zh) 一种提高无线mesh网络传输能力的方法
CN106209294B (zh) 一种高扩展的数据中心全光互连网络系统及通信方法
CN104954439B (zh) 一种云服务器及其节点互联方法、云服务器系统
CN114116596A (zh) 面向片上神经网络的基于动态中继的无限路由方法和架构
CN107592218B (zh) 一种数据中心网络结构的构建方法
CN103326916A (zh) 智能变电站自动划分并优化vlan的系统及方法
CN103546397A (zh) 支持乱序的自路由Omega网络结构
CN105049351A (zh) 基于sdn的多链接透明互联算法
CN112506850A (zh) 一种片上及片间互连网络
CN104184642A (zh) 多级星型交换网络结构及优化方法
CN203851159U (zh) 一种智能汇聚千兆交换机
CN106789750B (zh) 一种高性能计算互连网络系统及通信方法
CN104580000A (zh) 一种基于流表技术的RapidIO交换方法
CN103491023A (zh) 用于三维torus光电混合网络的路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant