CN109067662B

CN109067662B - 一种基于作业部署信息的链路互连方法和系统

Info

Publication number: CN109067662B
Application number: CN201810700993.1A
Authority: CN
Inventors: 邵恩; 张鹏; 王展; 元国军; 谭光明; 孙凝晖; 安学军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-09-01
Anticipated expiration: 2038-06-29
Also published as: CN109067662A

Abstract

本发明涉及一种基于作业部署信息的链路互连方法和系统，包括：获取待运行的作业，为当前作业的分配多个计算节点，获取与计算节点相连的交换节点间的通信概率总和，以及交换节点间的路由路径经过除当前作业以外的其余作业的路由路径数量，根据通信概率总和、路由路径数量，得到多个交换节点间的加权距离；根据多个计算节点的计算资源是否连续，将交换节点间最大加权距离对应的交换节点进行互连。由此本发明解决由于作业部署问题所带来的远距离热点通信问题，对影响网络性能的通信热点准确进行识别，避免对作业与作业间无关交换节点的计算，能更快速地得到互连结果。

Description

一种基于作业部署信息的链路互连方法和系统

技术领域

本发明涉及并行计算机互连网络，特别涉及一种基于作业部署信息的通信热点识别与链路互连方法和系统。

背景技术

近年来高性能并行计算机的性能仍按照每四年提高10倍的速度增长，预计在2020～2022年会出现E级(Exascale)计算机，系统规模预计达到100,000节点以上。作为高性能计算机支柱技术之一的高性能互连网络，其设计是实现E级计算机性能和扩展性的关键。

类比于Internet的局部网和骨干网，当计算机系统达到一定规模时，在其互连网络之上架设高速“骨干网”成为必要，在数据中心领域，已经研究提出了增加快速通路(shortcutpath)来弥补全局通信性能，在直接网络中使用该技术也是未来趋势。光互连技术的发展为E级网络设计提供了新的思路。

表1：

快速通路介质	通路带宽	局域子网间连通度
			电辅助链路	中	静态点对点(固定)
无线网络	低	全连接(动态灵活)
			光辅助网络	高	全连接(动态灵活)

目前快速通路的研究可分为电链路、无线网络和光网络三类。从表1中可以看出，光网络可为任意子网间提供高带宽的快速通路，拥有最优的性能和灵活性。由于光还具有低误码率和低功耗的特点，光电混合网络(Electrical/optical Hybrid SwitchingNetwork)吸引了越来越多的研究。光电混合网络已经应用于各大数据中心并得到了部署，它针对数据中心距离传输近和硬件系统更新周期短的特点，简化了光器件设计(传统光器件面向骨干网40km以上传输距离设计)，大幅降低了基于波分复用(WDM)光互连系统的功耗和成本。

目前数据中心对热点流量判断和互连快速链路的方法中，常用的方法主要包括两种：1)针对特定业务特征和流量行为，如虚拟器迁移和数据热备份业务，在明确网络通信流量较多的节点情况下，在通信热点间铺设快速链路。2)在通信软件层次增加实时通信流量预警模块，在通信流量即将发生时产生通知信号报告给网络控制器，网络控制器根据其收集的流量预警信息安排快速链路的互连。流量的预警信息并不是通信流量，网络的设计者会在网络交换设备中设置通信流量缓冲的队列中设置监控通信流量的“传感器”。监控流量大小的“传感器”会针对通信流量在交换设备的缓冲情况(缓冲占用情况，如空，满信息)，发出具有实时性的“流量预警信息”。

但是现有技术中对快速链路的建立和架设过程，不具有快速，自动地对造成网络拥塞主要通信流量进行识别的能力。超算的作业与作业之间，彼此独立且具有通信无关性。目前针对运距离热点的互连方法，没有考虑作业部署信息，需要计算与作业无关的大量信息，十分耗时。无论网络中负载哪种流量，造成网络性能下降和抑制整体通信能力的源头是——在作业部署的网络范围内，需要远距离传输且通信量较大的点对点通信流量。一个超算系统会同时有多个用户使用。每个用户使用超算的方式是提交“作业”，用户会指定自己提交的作业要占用多少计算资源，各个作业被提交后，会进入任务调度器的任务队列。进入任务队列后，每个作业都会变成超算要处理的任务。

发明内容

为了解决上述技术问题，本发明目的在于提供一种基于作业部署信息面向链路互连可配置网络，需要远距离传输且通信量较大的通信流量的自动设别和网络链路控制方法。该系统包含作业相关的通信加权距离计算模块，通信热点分组间加权排序模块，基于“加权距离”的互连裁决模块。作业相关的通信加权距离计算模块会根据当前作业在网络中的资源部署位置，计算所相关的网络交换节点间路由跳步数，再结合作业在各个计算节点上所运行进程的通信概率特征，计算作业相关网络交换节点间的“加权距离”。通信热点分组间加权排序模块首先按照当前作业的资源部署位置，对资源不连续的节点划分节点分组，再根据分组间加权距离，对分组间“加权距离”进行排序，组成排序队列。基于“加权距离”的互连裁决模块会将具有最大“加权距离”的分组对进行等位互连并更新排序队列，当存在多项分组间加权等距情况时，将具有最多节点个数的分组所在的分组对进行等位互连。

具体地说，本发明公开了一种基于作业部署信息的链路互连方法，其中包括：

步骤1、计算系统获取待运行的作业，作为当前作业，根据该当前作业的资源部署信息，为该当前作业的分配多个计算节点，获取与该计算节点相连的交换节点间的通信概率总和，以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量，根据该通信概率总和、该路由路径数量，得到多个该交换节点间的加权距离；

步骤2、判断该多个计算节点的计算资源是否连续，若计算资源连续，则执行步骤3，否则执行步骤4；

步骤3、将交换节点间最大加权距离对应的交换节点进行互连；

步骤4、对该多个计算节点按照同一分组内计算资源连续的原则，进行分组，根据每一个交换节点在分组中的隶属情况，找到交换节点分别属于两个分组的节点对，通过对分组间节点对的加权距离进行排序，得到分组间排序队列，将该排序队列中最大加权距离对应的交换节点进行互连。

该基于作业部署信息的链路互连方法，其中通过下式得到该加权距离：

Dist(x,y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)

其中Dist(x,y)表示交换节点x和交换节点y之间的加权距离，P(x→y)表示当前作业连接在交换节点x上的计算节点向连接在交换节点y上的计算节点的通信概率，P(y→x)是前作业连接在交换节点y上的计算节点向连接在交换节点x上的计算节点的通信概率；Hop(x→y)是从交换节点x到交换节点y的路由路径经过除当前作业以外的其他作业占有的路由路径数，Hop(y→x)是从交换节点y到交换节点x的路由路径经过除当前作业以外的其他作业占有的路由路径数。

该基于作业部署信息的链路互连方法，其中通过下式得到Hop(x→y)：

为路由路径上，标号为i的作业所占有的ni个交换节点间出现两两单向通信流量的数量和分组间节点对的数量，m为计算系统执行的作业总量。

该基于作业部署信息的链路互连方法，其中该步骤4包括：若该排序队列中存在多个最大加权距离，则将具有最多交换节点个数的分组所在的节点对进行互连。

该基于作业部署信息的链路互连方法，其中该步骤1还包括，对该当前作业内调用通信函数，按照通信发送进程对通信接收进程的通信数量占该发送进程通信数据量的比例求得通信概率。

本发明还公开了一种基于作业部署信息的链路互连系统，其中包括：

加权距离计算模块，用于计算系统获取待运行的作业，作为当前作业，根据该当前作业的资源部署信息，为该当前作业的分配多个计算节点，获取与该计算节点相连的交换节点间的通信概率总和，以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量，根据该通信概率总和、该路由路径数量，得到多个该交换节点间的加权距离；

判断模块，用于判断该多个计算节点的计算资源是否连续，若计算资源连续，则调用第一互连模块，否则调用第二互连模块；

第一互连模块，用于将交换节点间最大加权距离对应的交换节点进行互连；

第二互连模块，用于对该多个计算节点按照同一分组内计算资源连续的原则，进行分组，根据每一个交换节点在分组中的隶属情况，找到交换节点分别属于两个分组的节点对，通过对分组间节点对的加权距离进行排序，得到分组间排序队列，将该排序队列中最大加权距离对应的交换节点进行互连。

该基于作业部署信息的链路互连系统，其中通过下式得到该加权距离：

Dist(x,y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)

该基于作业部署信息的链路互连系统，其中通过下式得到Hop(x→y)：

为路由路径上，标号为i的作业所占有的n_i个交换节点间出现两两单向通信流量的数量和分组间节点对的数量，m为计算系统执行的作业总量。

该基于作业部署信息的链路互连系统，其中该第二互连模块还包括：若该排序队列中存在多个最大加权距离，则将具有最多交换节点个数的分组所在的节点对进行互连。

该基于作业部署信息的链路互连系统，其中该加权距离计算模块还包括，对该当前作业内调用通信函数，按照通信发送进程对通信接收进程的通信数量占该发送进程通信数据量的比例求得通信概率。

通过研究发现，超算中所运行的作业普遍以占用节点数少的作业为主。而与这种作业所相关的交换节点间，会有大量通信；相对的与作业无关的交换节点间不会有通信。相对于目前没有考虑到作业部署信息的互连方法，我们的方法有如下优势：1)能更有效解决由于作业部署问题所带来的远距离热点通信问题，对影响网络性能的通信热点准确进行识别。2)避免对作业与作业间无关交换节点的计算，能更快速地得到互连结果。随着网络规模越大，我们方法的这两点优势会越明显。3)突破传统对“热+远”流量的判断指标，对每对交换节点间通信流量可能造成对网络拥塞的影响程度的计算方法具有创新。判断流量穿过同一作业(包括路径两端交换节点所在的作业)所占的交换节点数量越多，说明该路径两端发生通信时，加重网络拥塞的影响程度越高。结合我们科研实验的经验，更准确地将对网络影响更严重的流量优先分配光路进行流量疏导，提高网络整体通信能力(对比的互连方法如：一种新型光电混合交换数据中心网络架构,CN105282056A)。

附图说明

图1通信热点识别与链路调整控制系统结构图；

图2交换节点间的“加权距离”示意图；

图3计算通信加权距离的流程图；

图4通信热点分组间加权排序流程图；

图5通信热点裁决与链路调整流程图；

图6对远距离通信热点裁决与互连过程的实施例示意图；

图7当加权距离等距时热点裁决过程的实施例示意图；

图8为作业间路由路径示意图。

具体实施方式

本发明公开了一种基于作业部署信息的链路互连方法，其中包括：

Dist(x,y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

请参考图1，本发明包含三个模块：作业相关的通信加权距离计算模块、通信热点分组间加权排序模块、基于“加权距离”的互连裁决模块，其中作业相关指的是被作业所占用的计算节点(服务器)，通信加权距离专指被作业所占用的计算节点间的通信加权距离。

针对作业相关的通信加权距离计算模块，本发明提供一种计算集群中所运行的一个作业与其相关的交换节点间“加权距离”的方法，如图2所示，包括：

1)以作业为单位区分作用域：作业在某个服务器(计算节点)运行时，与该服务器相连的交换节点构成该作用域，计算的交换节点均是当前集群将要运行的某一个作业，按照其所被分配的计算节点位置相关的交换节点，相关的交换节点是指与计算节点直接相连的交换节点。区别于需要计算出所有交换节点间的距离的方法，本发明提供的方法仅需要进行“加权计算”，计算量更小。

2)计算加权距离：“加权距离”是表示两交换节点间的路由路径被其他作业“占有”的链路数和通信量大小的参数，该参数的计算方法如公式1所示。

Dist(x，y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x) (1)

如公式1所示，其中Dist(x,y)表示交换节点X和交换节点Y之间的加权距离。P(x→y)表示当前作业A连接在交换节点X上的服务器向连接在交换节点Y上的服务器的通信概率，P(y→x)同理是反向通信的概率；Hop(x→y)是从X到Y的路由路径经过被除A以外的其他作业占有的链路数，Hop(y→x)同理是反向路由的链路数。

3)流量对网络的影响指数“Hop”：按照通常理解，衡量节点间通信的“远”和“热”，应当是衡量流量对网络性能影响的主要因素。但是本发明发现“远+热”的流量并不一定会影响网络通信性能，当“远+热”的流量所行走的路由路径需要与自己或其他作业所产生的流量公用路径时，网络拥塞才更有可能出现。根据作业部署信息可以得到，哪些作业占有的服务器位于哪些交换节点上。当同属于同一作业的两交换节点间的链路，属于该作业“占有”链路。而交换节点间的路由路径经过正在运行的作业所占有的链路数越多，说明这两点间通信的流量越有可能与其他作业发生的流量在公用路径上发生拥塞。但通过本发明的科研实验发现，只有属于同一作业的交换节点间会发生通信，因此在计算流量对网络的影响程度时，需要对流量途径的交换节点，以各个作业为单位，统计属于同一作业的途径交换节点数量。

在计算“加权距离”的公式1中，区别于跳步数来衡量通信距离，Hop(x→y)是指根据当前网络路由算法，X与Y间的路由路径经过被其他作业所“占有”的链路数，Hop(y→x)同理是反向路由的链路数，如图8所示，空心圆代表交换节点，阴影圆代表中继交换节点，纵向的实线路由路径经过两条虚线路由路径，因此实线路由路径的Hop值为2，对于Hop(x→y)的具体计算方法如下：

根据作业调度结果，标记x到y的两交换节点间，路由路径所途径的交换节点所属的作业，按照作业号码标出。若该路径途径的交换节点属于m个作业，且途径对标号为i的作业有n_i个交换节点，则按照如下的公式2计算：

对

进行计算是为了找出当前路由路径上，标号为i的作业所占有的n_i个交换节点间，出现两两单向通信流量的数量。换句话说，当某条路径穿过同一作业(包括路径两端交换节点所在的作业)所占的交换节点数量越多，说明该路径两端发生通信时，加重网络拥塞的影响程度越高。因为只有属于同一作业的交换节点间才会发生通信，而如果某路径途径的交换节点虽然很多(距离远)，但均属于不同作业(即属于同一作业的中继交换节点数量都为“1”)则该流量对网络拥塞影响并不明显。

上述所提到的“通信概率”需要根据当前所针对多进程并行计算的作业，按照其进程间通信概率以及各进程在各个服务器部署位置计算求得。多进程并行计算作业，其进程间通信概率可以通过该作业历史统计数据获得。也可针对该作业程序内调用MPI通信函数，对进程间通信量进行统计，按照通信发送进程对某通信接收进程的通信数量占该发送进程通信数据量的比例求得。

本发明提出一种针对多进程并行作业的相关网络交换节点间的“加权距离”的计算流程，具体实施细节如图3所示，详细步骤如下：

步骤11：按照当前作业的资源部署，选定与作业相关交换节点对：X点和Y点。所选择的交换节点以换节点对(两个换节点)为单位进行选定，且所选的交换节点与当前作业所运行的服务器直接相连，如图2所示。

步骤12：根据路由和网络拓扑，根据公式2，分别计算“X点到Y点”和“Y点到X点”的“Hop(x→y)”和“Hop(y→x)”数值。同一网络拓扑结构中，选择不同的路由算法可能会导致不同路由路径。当路由算法属于“遗忘路由”(不随网络状态而改变路由路径选择)时，节点间路由的跳步数是固定的。当路由算法属于自适应路由算法时，节点间路由的跳步数不固定，需要遍历全部的路由路径可能，并求两点间路由跳步数的平均值。

步骤13：分别统计连接在X节点上的服务器，发往Y节点各个服务器，正向及其反向的通信概率总和，即如上文所述计算P(x→y)和P(y→x)。

步骤14：根据X与Y间“加权距离”计算公式1，计算两点间加权距离，求解出Dist(x,y)数值，具体内容如公式1描述。计算后，判断与当前作业相关的交换节点，是否还有未计算加权距离的“节点对”，如果还有则返回步骤11选择未计算的“节点对”进行加权距离的计算；若已经对所有“节点对”完成了遍历和计算，则结束该模块的计算流程。

所述通信热点分组间加权排序模块，特征有两个：1)对属于同一作业，但其所连接的服务器在物理连接关系上并不连续时，通过“分组”进行划分，并将节点间的“加权距离”按照步骤23转化为分组间的“加权距离”并实施排序。2)为了通过额外的链路互连，来解决由于任务部署导致物理资源部署不连续，进而导致的远距离热点通信问题，需要优先将分组间加权距离最大的服务器直接相连的交换节点进行互连，因为服务器没有多余的端口进行额外链路的连接，因此需要对各个“分组对”间的加权距离进行排序。其中“连续”的概念是针对某作业相关的交换节点的。若某作业相关的交换节点间发生通信时，所途径的交换节点均与此作业相关，则称这些交换节点间是“物理连续的”。换句话说，若某作业相关的交换节点间物理连接关系连续，则这些交换节点中选取任意两交换节点，他们之间的路由路径不会经过任何与当前作业不相关的交换节点。

对远距离通信热点裁决与互连过程的实施例如图6所示，本发明提出一种通信热点分组间加权排序的方法，具体实施步骤如图4所述，详细步骤如下：

步骤21：按照当前作业的资源(服务器)部署位置，对资源不连续的节点，划分节点分组。若某作业，与其所占用的服务器直接相连的各个交换节点，出现物理连接不连续的情况，则认为“计算资源不连续”。对该作业相关的这些交换节点，按照同一分组内计算资源连续的原则，进行分组。通过划分分组，区分哪些服务器所连接的交换节点出现了物理不连续的情况。

步骤22：计算各个分组间加权距离。从图3方法已知交换节点间，按照“节点对”为单位计算加权距离的方法。分组间加权距离需要计算分别属于不同分组的“节点对”间的加权距离，再对两分组的“节点对”加权距离求平均值后得到。如图6所示：比如某个作业所相关的交换节点的作用域包含3个分组。任意两节点间的加权距离可通过网络交换节点间的“加权距离”的计算流程得到。根据每个交换节点在分组中的隶属情况，可以找到节点分别属于不同分组的“节点对”。如图6中，节点1属于分组1(Group1),节点5属于分组2(Group2)。由此可知节点1与节点5分别隶属于分组1和分组2，即由节点1和节点5所组成的“节点对”即为节点分别属于不同分组的“节点对”。对两个分组中，满足上述条件的各个节点对的加权距离求平均值，即为分组间的加权距离平均值。

步骤23：以“分组对”为单位，对分组间“加权距离”进行排序，按照从高至低顺序，组成分组间“距离排序队列”。

步骤24：按照分组对的排序队列，选择一组分组对进行互连，具体选择方法和队列调整步骤见图5方法所示。完成后判断是否还有可进行互连的“分组对”，若还有则继续此步骤，并通过图5方法进行互连选择和队列调整。直至分组对的“距离排序队列”无可互连的分组对为止。具体过程的实施例如图6所示。

所述基于“加权距离”的互连裁决模块，其特征有两个：1)当分组对的“距离排序队列”中有多项出现分组间加权距离相同且最大时，为了尽量让包含交换节点数量多的分组得到互连，具有最多节点个数的分组所在的分组对将优先进行互连。这样做的好处是可以避免节点数量多的分组无互连机会，导致大量互连资源无法使用。当加权距离等距时热点裁决过程的实施例如图7所示。2)当所选分组对的两分组所包含的交换节点数量不相同时，会出现有一分组的部分交换节点未完成互连的情况，此时对这些交换节点新组成一个分组，并计算其到其他分组间的加权距离，按序插入分组对的“距离排序队列”。

本发明提出一种基于分组间加权距离的互连裁决方法，具体实施步骤如图5所述，详细步骤如下：

步骤31：首先在分组对的“距离排序队列”选取最大项，如果不存在多项共同最大的情况时，将具有最大“加权距离”的分组对进行等位互连，实施例如图6阶段一所示。等位互连是指，两分组内的交换节点按照其固有序号一一对应方式，进行互连，实施例如图6与图7的阶段三所示。

步骤32：若分组对的“距离排序队列”中的最大项，出现多项共同最大的情况，则将具有最多节点个数的分组所在的分组对进行等位互连，实施例如图7中阶段一所示。若多项共同最大且分组所包含的节点个数也相同，则随机选取分组对进行等位互连。

步骤33：若仍有有分组存在未互连完的节点，则对互连后剩余节点，组成新节点分组，根据到其他分组的加权距离，更新排序队列，实施例如图6和图7中的阶段一到阶段二的变化。

步骤34：以分组对为单位，对分组间排序进行调整，去除分组对的“距离排序队列”中，与已互连节点所相关的“分组对”队列项，实施例如图6和图7中的阶段二时分组对所发生的变化。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

Dist(x，y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)

Claims

1.一种基于作业部署信息的链路互连方法，其特征在于，包括：

步骤1、计算系统获取待运行的作业，作为当前作业，根据该当前作业的资源部署信息，为该当前作业分配多个计算节点，获取与该计算节点相连的交换节点间的通信概率总和，以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量，根据该通信概率总和、该路由路径数量，得到多个该交换节点间的加权距离；

2.如权利要求1所述的基于作业部署信息的链路互连方法，其特征在于，通过下式得到该加权距离：

Dist(x,y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)

3.如权利要求2所述的基于作业部署信息的链路互连方法，其特征在于，通过下式得到Hop(x→y)：

4.如权利要求1所述的基于作业部署信息的链路互连方法，其特征在于，该步骤4包括：若该排序队列中存在多个最大加权距离，则将具有最多交换节点个数的分组所在的节点对进行互连。

5.如权利要求1所述的基于作业部署信息的链路互连方法，其特征在于，该步骤1还包括，对该当前作业内调用通信函数，按照通信发送进程对通信接收进程的通信数量占该发送进程通信数据量的比例求得通信概率。

6.一种基于作业部署信息的链路互连系统，其特征在于，包括：

加权距离计算模块，用于计算系统获取待运行的作业，作为当前作业，根据该当前作业的资源部署信息，为该当前作业分配多个计算节点，获取与该计算节点相连的交换节点间的通信概率总和，以及交换节点间的路由路径经过除该当前作业以外的其余作业的路由路径数量，根据该通信概率总和、该路由路径数量，得到多个该交换节点间的加权距离；

7.如权利要求6所述的基于作业部署信息的链路互连系统，其特征在于，通过下式得到该加权距离：

Dist(x，y)＝P(x→y)×Hop(x→y)+P(y→x)×Hop(y→x)

8.如权利要求7所述的基于作业部署信息的链路互连系统，其特征在于，通过下式得到Hop(x→y)：

9.如权利要求6所述的基于作业部署信息的链路互连系统，其特征在于，该第二互连模块还包括：若该排序队列中存在多个最大加权距离，则将具有最多交换节点个数的分组所在的节点对进行互连。

10.如权利要求6所述的基于作业部署信息的链路互连系统，其特征在于，该加权距离计算模块还包括，对该当前作业内调用通信函数，按照通信发送进程对通信接收进程的通信数量占该发送进程通信数据量的比例求得通信概率。