CN104360936B

CN104360936B - 一种基于触发操作的Barrier操作性能分析方法

Info

Publication number: CN104360936B
Application number: CN201410553331.8A
Authority: CN
Inventors: 廖湘科; 谢旻; 卢宇彤; 所光; 曹宏嘉; 张百达
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2017-02-15
Anticipated expiration: 2034-10-17
Also published as: CN104360936A

Abstract

本发明公开了一种基于触发操作的Barrier操作性能分析方法，其实施步骤如下：1)根据执行Barrier操作的数据传输关系生成触发操作拓扑树；2)将Barrier操作采用指令流的方式描述为原语序列；3)分析触发操作的自动执行部件的数据通信开销；4)根据数据通信开销计算进程集合中每一个进程的Barrier操作对应原语序列的执行时间；5)选择执行时间最长的进程的执行时间作为分析得到的最小执行时间。本发明能够在不需要在并行计算机上运行Barrier算法的情况下估算出该Barrier算法的性能，具有Barrier算法设计和测试的复杂度低、Barrier算法运行测试机时少的优点。

Description

一种基于触发操作的Barrier操作性能分析方法

技术领域

本发明涉及并行计算机互连网络的Barrier操作设计领域，具体涉及一种基于触发操作的Barrier操作性能分析方法。

背景技术

近年来，随着高性能计算技术的发展，并行计算机的系统规模不断扩大。面向高性能并行计算机，厂商和科研机构开始研究更快并且功能更加强大的互连网络。一方面，网络的带宽逐渐增大、延迟逐渐降低；另一方面，操作系统和其上应用软件使用互连网络的软件开销占用网络通信的时间比例逐渐增大。

然而随着并行程序的并行度的扩张，聚合操作占用程序执行时间的比例逐渐增大，为提高并行程序的执行效率，需要迫切提高聚合操作的执行效率。消息传递编程接口标准3(Message Passing Interface 3，简称MPI-3)定义了多种聚合操作类型，例如：栅栏同步(Barrier)、广播(Bcast)和规约(Reduce)等。其中Barrier操作(栅栏同步操作)对延迟最为敏感。对于Barrier操作而言，栅栏同步的语义是一个进程集合的所有进程都进入栅栏同步操作后，该进程集合中的进程才可以退出栅栏同步操作。

为了更加高效的支持MPI-3所定义的聚合通信操作，目前已经有多种高性能计算机所使用的互连网络设计了专门部件来加速聚合通信操作。例如IBM公司的蓝色基因系列并行计算机、Cray公司的XT和XC系列并行计算机、国防科学技术大学研制的天河系列并行计算机。其中，天河系列并行计算机在其互联网络中嵌入了基于触发操作的自动执行机制。

基于触发操作的聚合通信自动执行机制由论文“Fast NIC-based Barrier overMyrinet/GM(2001)”和“Broadcast/multicast over Myrinet using NIC-assistedmultidestination messages(2000)”首先针对Myrinet互联网络而提出，其基本思想是在互联网络接口卡(Network Interface Card，简称NIC)中加入根据收到的网络报文而自动执行的功能。根据此功能，一个“父亲”节点可以把一个报文发给“儿子”节点，“儿子”节点的NIC收到该报文的同时会自动的把该报文发送给“孙子”节点。这样，“儿子”节点把报文发送给“孙子”节点的动作就不是由“儿子”节点的处理器主动发起执行，从而降低了集合操作的等待延迟，提高了集合操作的性能。

美国专利文献US8122228B2“BROADCASTING COLLECTIVE OPERATIONCONTRIBUTIONS THROUGHPUT A PARALLEL COMPUTER”针对IBM公司的蓝色基因系列并行计算机的互联网络，使用其“Collective Operation Network”(在NIC上集成的一种具有基于触发操作的聚合通信自动执行部件)，针对特殊的互联网络拓扑，优化数据传输型集合操作的方法。但是，该专利文献没有给出基于触发操作的聚合通信的性能分析方法，导致该专利的优化方法无法获取聚合通信操作的最小执行时间。

综上所述，当前的专利与文献中未见高性能并行计算机的互联网络中，基于触发操作的Barrier聚合通信的性能分析方法的相关报道，在高性能计算机互联网络设计、并行程序性能分析、高性能计算机系统性能评估领域中，迫切需要一种基于触发操作的Barrier聚合通信的性能分析方法。

发明内容

本发明要解决的技术问题是：针对现有技术的上述技术问题，提供一种能够在不需要在并行计算机上运行Barrier算法的情况下估算出该Barrier算法的性能，Barrier算法设计和测试的复杂度低、Barrier算法运行测试机时少，能够用于指导并行计算机通信网络拓扑设计、Barrier通信算法设计、并行程序性能优化以及高性能计算机系统性能评估等重要领域的基于触发操作的Barrier操作性能分析方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于触发操作的Barrier操作性能分析方法，其实施步骤如下：

1)根据执行Barrier操作的进程集合中所有进程的数据传输关系生成触发操作拓扑树，所述触发操作拓扑树中每一个节点为一个计算节点，且每一个计算节点均有一个全局唯一的数字编号，该数字编号表示所述计算节点对应进程的进程顺序号；

2)将Barrier操作以进程为单位采用指令流的方式描述为原语序列；

3)分析触发操作的自动执行部件的数据通信开销，所述数据通信开销包括发送开销、传输开销和接收开销；

4)根据所述数据通信开销计算所述进程集合中每一个进程的Barrier操作对应原语序列的执行时间；

5)选择执行时间最长的进程的执行时间作为分析得到的最小执行时间。

优选地，所述步骤2)中的原语序列包括Start、End、Recv from、Send to、Wait共五种原语；Start用于表示原语序列的开始；End用于表示原语序列的结束；Recv from带有参数node，用于表示从计算节点node收取一个数据报文，指令执行完时数据报文可能到达也可能没有到达；Send to带有参数node，用于表示向计算节点node发出一个数据报文，指令执行完时，数据报文只是发送到发送端的网络接口，不一定到达接收方；Wait用于表示等待上个原语区间的所有Recv from操作执行完成，Wait指令的原语区间包括从上次Wait操作或Start开始，到本次Wait指令结束。

优选地，所述步骤2)中将Barrier操作以进程为单位采用指令流的方式描述为原语序列时，根据所述触发操作拓扑树中的拓扑关系，将Barrier操作的收集阶段和通知阶段通过中间节点分步实现根节点和叶节点之间的报文发送和接收，且每一步中每个节点最多发送或接收一个报文；在收集阶段，每一个节点分别收集所有子节点的通知报文并发往父节点，并最终汇集到根节点；在通知阶段，根节点先把通知报文广播给自己的子节点，一个节点收到父节点的通知报文后再依次向所有子节点广播，最终将通知报文传达到所有叶节点。

本发明基于触发操作的Barrier操作性能分析方法具有下述优点：本发明针对基于触发操作的Barrier聚合通信的并行计算机，能够在不需要在并行计算机上运行Barrier算法的情况下估算出该Barrier操作的性能，减少了Barrier算法设计和测试的复杂度，减少了手工进行Barrier算法运行测试的机时。针对支持基于触发操作的Barrier聚合通信的并行计算机，在设计Barrier算法的时候只需要知道目标并行计算机的少许参数就可以得到Barrier算法在并行计算机的执行性能，该性能指标可以反馈给并行计算机系统的设计者优化网络的设计，能够用于指导并行计算机通信网络拓扑设计、Barrier通信算法设计、并行程序性能优化，以及高性能计算机系统性能评估等重要领域。

附图说明

图1为应用本发明实施例的高性能计算机系统结构示意图。

图2为应用本发明实施例的高性能计算机系统的计算节点结构示意图。

图3为本发明实施例的基本方法流程示意图。

图4为本发明实施例生成的触发操作拓扑树的结构示意图。

图5为现有技术基本的Barrier操作的收集阶段和通知阶段的工作原理示意图。

图6为本发明实施例中Barrier操作的收集阶段和通知阶段的工作原理示意图。

图7为现有技术基本的Barrier操作执行时间分解示意图。

图8为本发明实施例中Barrier操作执行时间分解示意图。

图9为本发明实施例中数据通信开销的原理示意图。

具体实施方式

如图1所示，本实施例应用在国防科大的TH-1A型高性能并行计算机系统来进行实验验证。该高性能并行计算机系统包括管理和登入节点、计算节点阵列、高性能互联通信网络和全局共享存储系统，其中计算节点阵列包括128个计算节点，管理和登入节点以及各个计算节点分别通过高性能互联通信网络和全局共享存储系统相连。

如图2所示，每个计算节点中主存通过系统总线和处理器中的存储控制器相连，处理器中的外设控制器和存储控制器相互连接，外设控制器通过PCI总线和网络接口单元相连，网络接口单元包括外设接口部件、点点通信部件、聚合通信部件和网络传输部件，且网络接口单元通过网络传输部件连接到高性能互联通信网络。本实施例中，每个计算节点的配置如下：两个Intel Xeon 5670六核CPU(处理器中包含核0～核5共6个处理内核)，每个核的频率为2.93GHz，两个CPU的双精度浮点计算理论峰值为140Gflops；高性能互联通信网络的双向物理带宽为160Gbps、双向MPI通信带宽为6.3GB/s。不同节点间的发生开销、传输开销、接收开销使用微测试用例测试获得。

如图3所示，本实施例基于触发操作的Barrier操作性能分析方法的实施步骤如下：

1)根据执行Barrier操作的进程集合中所有进程的数据传输关系生成触发操作拓扑树，触发操作拓扑树中每一个节点为一个计算节点，且每一个计算节点均有一个全局唯一的数字编号，该数字编号表示计算节点对应进程的进程顺序号。

触发操作拓扑树的节点分为根节点、中间节点和叶节点，根节点的就是拓扑树处于树根位置的节点，根节点的进程rank号通常为0，叶节点就是没有子节点的结点，中间节点是树中除了根节点和叶节点的所有节点，中间节点必须存在子节点。如图4所示，本实施例生成的触发操作拓扑树为Quardnomial(4-nomial)树，0号节点(进程顺序号为0)为根节点，4、8、12号节点为中间节点，其余节点则均为叶节点，任意两者之间的逻辑连接为通信链路。

2)将Barrier操作以进程为单位采用指令流的方式描述为原语序列。

本实施例中，步骤2)中的原语序列包括Start、End、Recv from、Send to、Wait共五种原语；Start用于表示原语序列的开始；End用于表示原语序列的结束；Recv from带有参数node，用于表示从计算节点node收取一个数据报文，指令执行完时数据报文可能到达也可能没有到达；Send to带有参数node，用于表示向计算节点node发出一个数据报文，指令执行完时，数据报文只是发送到发送端的网络接口，不一定到达接收方；Wait用于表示等待上个原语区间的所有Recv from操作执行完成，Wait指令的原语区间包括从上次Wait操作或Start开始，到本次Wait指令结束。本实施例把支持基于触发操作Barrier聚合通信的硬件功能划分为Start、End、Recv from、Send to、Wait共五种原语，Barrier操作的基本算法可以由这个五个硬件原语组合实现。从软硬件接口角度观察，这个五个硬件原语分别由五条指令实现，软件把这些原语对应的指令写入到内存或者网络接口卡的制定指令缓冲区，网络接口卡就可以自动执行这些指令。基于这个五个硬件原语，基于触发操作的Barrier操作就可以以进程为单位，采用指令流(原语序列)的方式描述。软件(CPU指令)把指令流写入到指令缓冲区，网络接口卡自动执行指令缓冲区里面的硬件原语，在此过程中，软件(CPU)不参与原语流的执行，可以执行与通信操作(即Barrier操作)无关的其它计算，进而降低了计算开销。

Barrier操作的语义是一个进程集合的所有进程都进入Barrier操作后，该进程集合中的进程才可以退出Barrier操作。在Barrier操作的实现过程中，Barrier操作可以分为两个阶段：收集阶段和通知阶段。如图5所示，基本的Barrier操作通过根进程(进程0)来分别接收所有子进程的通知报文。在收集阶段，一个根进程(进程0)收到所有进程(进程1、进程2、进程3)达到栅栏同步点的通知报文；在通知阶段，根进程(进程0)把退出栅栏操作的通知报文发送给参与栅栏操作的所有进程(进程1、进程2、进程3)，但是基本的Barrier操作在实现过程中，根节点容易成为性能的瓶颈。本实施例中，步骤2)中将Barrier操作以进程为单位采用指令流的方式描述为原语序列时，根据触发操作拓扑树中的拓扑关系，将Barrier操作的收集阶段和通知阶段通过中间节点分步实现根节点和叶节点之间的报文发送和接收，且每一步中每个节点最多发送或接收一个报文；在收集阶段，每一个节点分别收集所有子节点的通知报文并发往父节点，并最终汇集到根节点；在通知阶段，根节点先把通知报文广播给自己的子节点，一个节点收到父节点的通知报文后再依次向所有子节点广播，最终将通知报文传达到所有叶节点。如图6所示，在收集阶段，第一步为根进程(进程0)接收进程1的通知、进程2接收进程3的通知，第二步为根进程(进程0)接收进程2的通知，从而能够有效减少根节点的负载，防止根节点成为性能的瓶颈。

参见图5，基本Barrier操作的算法是进程0接收来自进程1、进程2、进程3的通知报文，收齐报文后，再发送报文通知进程1、进程2、进程3退出Barrier操作。进程0顺序执行Recv from 1、Recv from 2、Recv from 3三个操作，但是实际的数据到达顺序不一定是首先收到来自进程1的数据，因为不能假定进程的相对执行顺序和数据在网络中的传播顺序。但是后续的Wait操作必须在前面三个Recv from操作都收到相应的数据后才执行完成，Wait操作的阻塞语义保证了Barrier算法的正确性。进程0～进程3执行的原语序列如表1所示，且基本Barrier操作的执行时间分解如图7所示。

表1：基本Barrier操作下各进程执行的原语序列表。

参见表1和图7可知，基本Barrier操作的缺点是0号进程执行的指令过多，例如，每次Barrier操作，0号进程执行了9条硬件原语，而1、2、3号进程只执行5条硬件原语。0号进程的执行效率限制了整个Barrier操作的效率。

本实施例通过将Barrier操作的收集阶段和通知阶段通过中间节点分步转发下属子进程的通知报文到根节点，且每一步中每个参与栅栏同步的进程最多发送或接收一个报文，进程0～进程3执行的原语序列如表2所示，且本实施例改进Barrier操作的执行时间分解如图8所示。

表2：本实施例改进Barrier操作下各进程执行的原语序列表。

将表2与表1对比，将图8和图7对比可知，本实施例改进Barrier操作下，Barrier操作的最长指令流出现在进程2(需要执行8条硬件原语)，从而有效减轻了进程0的负载，因此本实施例改进Barrier操作后能够提高Barrier操作的效率和性能。

3)分析触发操作的自动执行部件的数据通信开销，数据通信开销包括发送开销、传输开销和接收开销。

参见图9，数据从一个计算节点(称为发送端)，通过高性能互联通信网络到达另外一个计算节点(称为接收端)时，开销主要由三部分组成，发送端进行发送命令解析数据打包产生的开销，称为发送开销；数据在高性能通信网络传输延迟，称为传输开销；数据到达接收端后，解包数据并把数据拷贝到接收缓冲区的开销，称为接收开销。这三种开销主要由高性能互联网络的特征决定：例如高性能网络的接口芯片的设计决定了发送开销和接收开销，网络拓扑和路由策略决定传输开销。因此，获得这三类开销可以通过系统分析和测量两种方式获得。系统分析的方法是根据网络设计文档，分析这些开销的估计值；测量的方式通过微测试用例的执行，统计获得三种开销的平均值。通常情况下，对于某一特定互联网络，发送或者接收的数据报文长度不同时，发送开销和接收开销也有少许不同，但是，对于Barrier操作，所有发送端发送的数据报文长度是固定的。参见表3，本实施例采用常量描述发送开销和接收开销，传输开销则与节点相关。

表3：数据通信开销表。

开销名称	符号表示	说明
			发送开销	α	常量
传输开销	β(i,j)	报文从节点i传输到节点j的延迟
			接收开销	γ	常量

本实施例中针对TH-1A型高性能并行计算机系统采用微测试用例测试了发送开销、传输开销、接收开销，最终得到三种开销的值如表4所示。

表4：基于微测试用例测试得到的开销数值表。

开销名称	值
		发送开销	0.4us
传输开销	0.3us
		接收开销	0.4us

实验发现，对于临近的节点集合，不同节点间的数据传输开销大概相同，因此表4采用定值0.3us表示不同节点间的数据传输开销。

4)根据数据通信开销计算进程集合中每一个进程的Barrier操作对应原语序列的执行时间。当网络拓扑和Barrier操作的算法确定后，基于三种开销，就可以计算出每个进程的Barrier操作原语序列的执行时间。假设所有进程都在相同的0时刻执行Start指令，该进程的指令序列的最后一条指令的完成时间即为该进程Barrier操作的执行时间。

以图7所示基本Barrier操作的时间分解图为例，对于基本Barrier操作，0号进程的每个指令的初始时间设为T_s，以T_s(0,Start)表示0号进程执行Start指令的时间，且假设T_s(0,Start)的时间为0，则有：

T_s(0,Start)＝0

T_s(0,Recv from 1)＝T_s(0,Start)+α

T_s(0,Recv from 2)＝T_s(0,Recv from 1)+α＝2α

T_s(0,Recv from 3)＝T_s(0,Recv from 2)+α＝3α

T_s(0,Wait)＝T_s(0,Recv from 3)+α＝4α

T_s(0,Send to 1)＝max{(T_s(0,Wait)+α),(T_s(1,Send to 0)+α+β(1,0)+γ),

(T_s(2,Send to 0)+α+β(2,0)+γ),(T_s(3,Send to 0)+α+β(3,0)+γ)}

T_s(0,Send to 2)＝T_s(0,Send to 1)+α

T_s(0,Send to 3)＝T_s(0,Send to 2)+α

T_s(0,End)＝T_s(0,Send to 3)+α

因此，0号进程的执行时间T_s(0)＝T_s(0,End)+α，同理，也可以计算出进程1的执行时间T(1)、进程2的执行时间T(2)、进程3的执行时间T(3)。同理，对于触发操作拓扑树也可以计算出各个进程的完成时间，再次不再赘述。

5)选择执行时间最长的进程的执行时间作为分析得到的最小执行时间，即T＝max{T(0),T(1),T(2),T(3)}，参见图8可知，本实施例中进程3的执行时间T(3)最长，因此分析得到的最小执行时间即为T(3)，本实施例中，T(3)的执行时间为9.5us。为了进一步提高数据的准确性，本实施例通过1024次重复实验，并最终得到T(3)为10.1us。

试用例在实际运行过程中，软件提交指令的开销，网络传输的噪音，操作系统干扰都可能加大Barrier操作的执行时间，本实施例的实验结果较好的拟合了基于触发操作的Barrier聚合通信的性能分析方法的分析值，验证了本实施例性能分析方法的正确性。针对支持基于触发操作的Barrier聚合通信的并行计算机，可以在设计Barrier算法的时候，只需要知道目标并行计算机的少许参数就可以得到Barrier算法在并行计算机的执行性能，该性能指标可以反馈给并行计算机系统的设计者优化网络的设计。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于触发操作的Barrier操作性能分析方法，其特征在于实施步骤如下：

1）根据执行Barrier操作的进程集合中所有进程的数据传输关系生成触发操作拓扑树，所述触发操作拓扑树中每一个节点为一个计算节点，且每一个计算节点均有一个全局唯一的数字编号，该数字编号表示所述计算节点对应进程的进程顺序号；

2）将Barrier操作以进程为单位采用指令流的方式描述为原语序列；

3）分析触发操作的自动执行部件的数据通信开销，所述数据通信开销包括发送开销、传输开销和接收开销；

4）根据所述数据通信开销计算所述进程集合中每一个进程的Barrier操作对应原语序列的执行时间；

5）选择执行时间最长的进程的执行时间作为分析得到的最小执行时间；

所述步骤2）中的原语序列包括Start、End、Recv from、Send to、Wait共五种原语；Start用于表示原语序列的开始；End用于表示原语序列的结束；Recv from带有参数node，用于表示从计算节点node收取一个数据报文，指令执行完时数据报文可能到达也可能没有到达；Send to带有参数node，用于表示向计算节点node发出一个数据报文，指令执行完时，数据报文只是发送到发送端的网络接口，不一定到达接收方；Wait用于表示等待上个原语区间的所有Recv from操作执行完成，Wait指令的原语区间包括从上次Wait操作或Start开始，到本次Wait指令结束。

2.根据权利要求1所述的基于触发操作的Barrier操作性能分析方法，其特征在于：所述步骤2）中将Barrier操作以进程为单位采用指令流的方式描述为原语序列时，根据所述触发操作拓扑树中的拓扑关系，将Barrier操作的收集阶段和通知阶段通过中间节点分步实现根节点和叶节点之间的报文发送和接收，且每一步中每个节点最多发送或接收一个报文；在收集阶段，每一个节点分别收集所有子节点的通知报文并发往父节点，并最终汇集到根节点；在通知阶段，根节点先把通知报文广播给自己的子节点，一个节点收到父节点的通知报文后再依次向所有子节点广播，最终将通知报文传达到所有叶节点。