CN112929461B

CN112929461B - 一种基于高速互连网络的mpi进程管理接口实现方法

Info

Publication number: CN112929461B
Application number: CN202110083139.7A
Authority: CN
Inventors: 卢凯; 张昆; 谢旻; 韩昊; 董勇; 王睿伯; 张伟; 迟万庆; 周恩强; 张文喆; 李佳鑫; 邬会军; 吴振伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2022-09-16
Anticipated expiration: 2041-01-21
Also published as: CN112929461A

Abstract

本发明公开了一种基于高速互连网络的MPI进程管理接口实现方法，包括并行程序获取全部进程通信地址的下述步骤：1)执行键值数据库初始化；2)通过静态通信规则生成所有MPI进程的通信地址信息；3)将所有通信地址信息保存至结点自身的键值数据库中；4)并行程序通过静态通信规则创建自身进程的通信端口；5)MPI进程通过键值数据库获取其他需要进程通信的MPI进程的通信地址信息。本发明能够使得应用程序启动过程中不需要经历全局数据交换阶段，减少了全局数据交换的网络开销时间，从而加快大规模并行应用程序的启动。

Description

一种基于高速互连网络的MPI进程管理接口实现方法

技术领域

本发明涉及计算机的高速互连网络，具体涉及一种基于高速互连网络的MPI进程管理接口实现方法。

背景技术

消息传递接口(Message Passing Interface，MPI)是一种采用信息传递方式的并行应用程序通信接口，包括协议和语义说明，是当前并行计算应用的工业标准。MPI支持点对点通信操作和全局通信操作。采用MPI接口编写的并行应用程序，一般可以称为MPI程序。

进程是MPI程序运行的基本单位。根据程序运行规模的不同，MPI程序可以分布在多个不同的计算结点上。MPI程序中的每个进程通过一个全局的Rank号来标识。

为了MPI程序的运行，需要不同的MPI进程进行信息交换。具体来讲，是每个进程需要获取和其通信的其他进程的通信地址信息。

进程之间通信地址信息的部署是在应用程序启动阶段通过进程管理接口定义的全局数据交换操作完成的。进程管理接口是一类信息管理接口，用来实现MPI进程与进程管理器之间的耦合。在高性能计算机系统中，启动一个MPI程序的过程如下：用户提交作业到系统中，系统为MPI程序分配相应的计算结点资源，而后在计算结点上实例化MPI程序进程，进程在系统中利用Rank号进行区分标记。系统为作业的每个MPI进程分配一个全局唯一的Rank号。在每个计算结点上初始化MPI进程时，进程获得系统动态分配的通信地址信息。进程管理接口在每个计算结点上维护了一个键值数据库，计算结点收集本地此作业的MPI 进程通信地址信息，每个MPI进程将自身的通信地址信息存放至键值数据库，利用进程管理接口定义的交换操作执行位于不同结点上的进程间的数据信息交换，并将全体数据信息保存至结点自身的键值数据库中。当MPI进程需要同其他进程进行通信时，可以通过对键值数据库的查询获取其他MPI进程的通信地址信息。

高速互连网络TH-Express是国防科技大学自主研制的高性能互连网络系统，在“天河二号”等高性能并行计算机系统中得到了应用，具有同期国际先进水平的网络通信性能。自主高速互连网络由主机接口芯片(Network Interface Chip，NIC)和互连交换芯片(Network R outer Chip，NRC)两种专用芯片组成。NRC采用高阶路由结构，可以构建光电混合的多种互连拓扑结构，而NIC则在主机内为各种系统和应用软件提供互连通信服务，并利用NRC 实现和全系统各个结点之间的数据传输。

UCX是一个社区协同的公共通信接口项目，其主要设计目标包括可移植性，面向未来互连和体系结构的支持能力，以及产品级质量的实现代码等。UCX采用层次式实现结构，既有面向各种高速互连网络的底层传输层接口定义，又有面向多种应用通信需求的高层协议接口定义。当前UCX已支持主流的高速互连网络，也支持当前流行的GPU计算加速器结构等，这些不同的互连网络和计算加速器支持模块都可以包含在一个UCX实现系统中，通过运行时对环境的检测，自动选择使用最优的数据传输模块。基于高速互连网络 TH-Express，实现了UCX通信接口。

随着高性能计算机不断发展，系统规模日益增加，系统内包含的结点数，处理器核数扩展到了新的水平。随着系统规模的增加，原有的通过进程通信接口数据进行通信地址信息交换的方式在可扩展性方面遇到较大的挑战。

在超大规模系统条件下，MPI程序的启动时间成为限制系统运行效率、降低系统易用性的一个重要因素。若用户作业所需的计算结点数目为n,启动阶段进程管理接口要处理的数据数据交换操作次数为n²，即每个计算结点都需要获取其他结点的地址信息。随着用户作业规模的增大，所需要的计算结点数与进程数达到了新的数量级，全局交换操作耗时过多，验证影响了系统的运行性能。图1为天河高性能计算机中MPI程序启动时间及其各步骤开销时间分布。可以看出，大规模MPI作业启动缓慢。4096个节点上每节点运行12个任务的作业都需要12分钟才能启动，这大大超过我们的预期。而未来高性能计算机系统的结点规模将超过数万个，甚至十万个以上，这对MPI程序的初始化过程产生了极大的挑战。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于高速互连网络的 MPI进程管理接口实现方法，本发明采用静态方式定义每个进程的通信地址信息，去除MPI 程序启动阶段中的全局数据交换获取通信地址阶段，在计算结点上利用逻辑计算获取所有进程的通信地址信息，从而加快MPI程序的启动。与传统数据交换相比，可以完全消除应用程序启动结点中的全局数据交换操作，大幅度降低应用程序启动阶段的时间消耗。且随着计算结点数目的增多，优化效果更为明显。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于高速互连网络的MPI进程管理接口实现方法，包括并行程序获取全部进程通信地址的下述步骤：

1)执行键值数据库初始化；

2)通过静态规则生成所有MPI进程的通信地址信息；

3)将所有通信地址信息保存至结点自身的键值数据库中；

4)MPI进程通过静态规则创建自身进程的通信端口；

5)MPI进程通过键值数据库获取其他需要进程通信的MPI进程的通信地址信息。

可选地，步骤2)包括：

2.1)创建关键数据结构nicid_host，所述关键数据结构nicid_host包括所需通信结点的结点名称hostname及其逻辑通信地址nicid；

2.2)通过预先设计专用于生成全部进程通信地址信息的静态规则函数 create_static_glex_address，为基于关键数据结构nicid_host创建出所有进程的通信地址信息。

可选地，步骤2.1)中逻辑通信地址nicid由IP地址转换得到，且转换函数表达式为：

NICID＝(b-b₁)×2¹⁶+(c-c₁)×2⁸+(d-d₁)

上式中，NICID表示逻辑通信地址nicid，a₁.b₁.c₁.d₁为该结点最小的一个高速互连网络的IPv4地址，a.b.c.d为该结点的一个高速互连网络的IPv4地址。

可选地，所述关键数据结构nicid_host中结点名称hostname的字段类型为字符型，长度为128。

可选地，所述关键数据结构nicid_host中逻辑通信地址nicid的字段类型为整数型。

可选地，步骤4)中并行程序通过静态规则生成自身进程的通信端口的数据结构包括：

地址头Header，用于判断UCX网络的版本信息；

全局唯一编号UUID，用于代表worker的ID信息，在通信过程中对进程进行标志，使得不同的进程拥有不同的UUID值；

模块选择标志Model，用于判断所选模块中是否存在设备以及是否分配设备资源，在同一UCX网络内，所有进程worker的模块选择标志Model的字段值相同；

设备路径数Dev num，用于统计选定模块中所持有的设备数目，在同一UCX网络内选定模块后所有进程worker的设备路径数Dev num字段值相同；

传输信息名称TI-Name，用于统计设备中的端口信息，在同一UCX网络内，所有进程worker的传输信息名称TI-Name字段值相同；

设备地址Dev Addr，用于记录UCX网络所选模块中设备的地址信息，在同一UCX网络内，选定模块后所有进程worker的设备地址Dev Addr字段值相同；

长度Length，用于记录进程通信地址信息的长度，在所有进程中该字段值相同；

通信地址信息Addr，用于记录进程的通信地址，由逻辑通信地址nicid与端口号EP-NUM 两部分组成，其中端口号EP-NUM由系统分配给进程worker，使得在各个进程worker中通信地址信息Addr的字段值各不相同。

可选地，所述全局唯一编号UUID取值为全局Rank号。

可选地，由系统分配给进程worker的端口号EP-NUM的计算函数表达式为：

EPNUM＝RANKID％VPMAX

上式中，EPNUM表示由系统分配给进程worker的端口号EP-NUM，RANKID为全局Rank号，VPMAX为一张高速网卡所支持的最大VP数量。

此外，本实施例还提供一种基于自主高速互连网络的MPI进程管理接口装置，相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述基于高速互连网络的MPI 进程管理接口实现方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于高速互连网络的MPI进程管理接口实现方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明基于高速互连网络的MPI进程管理接口实现方法包括并行程序获取全部进程通信地址的下述步骤：1)执行键值数据库初始化；2) 通过静态规则生成所有进程的通信地址信息；3)将所有通信地址信息保存至结点自身的键值数据库中；4)并行程序通过静态规则创建自身进程的通信端口；5)MPI进程通过键值数据库获取其他需要进程通信的MPI进程的通信地址信息。本发明能够使得应用程序启动过程中不需要经历全局数据交换阶段，减少了全局数据交换的网络开销时间，从而加快大规模并行应用程序的启动。

附图说明

图1为天河高性能计算机中MPI程序启动时间及其各步骤开销时间分布。

图2为本发明实施例中基于UCX通信接口的OpenMPI系统的结构示意图。

图3为现有技术并行程序获取全部进程通信地址信息的流程图。

图4为本发明实施例中并行程序获取全部进程通信地址信息的流程图。

图5为本发明实施例中进程worker的通信地址信息组成示意图。

具体实施方式

如图2所示，本实施例方法在基于UCX通信接口的OpenMPI中实现，参见图2 ，各个计算结点之间通过高速互连网络TH-Express相连，每一个计算结点中的应用程序通过MPI进程、UCX通讯接口、高速网卡访问高速互联网络。此外，毫无疑问，本实施例方法可以扩展应用到其他不同的MPI实现版本中。

为了实现目标，进程的静态通信地址信息需要满足以下要求：(1)对于每一个MPI进程，静态通信地址是唯一的；(2)在通信过程中，请求通信的MPI进程可以通过逻辑计算获得进程目标的通信地址信息，因而通信地址信息必须是可计算的。

目前，在MPI程序启动阶段中，每个加载作业的结点都会与其他结点进行一次通信地址的数据交换，在大规模结点的应用场景下，并行作业会有较高的启动耗时，整个过程如下图3所示，分别包括：键值数据库初始化；MPI程序进行通信地址信息的准备，创建自身进程的通信端口；MPI程序的每个进程将自身的通信地址信息提交到本结点的键值数据库中；MPI进程确保每个结点的运行作业的进程都将其通信地址信息保存到本结点的键值数据库中；MPI进程进行通信地址信息的全局数据交换，确保每个结点的键值数据库中都保存了全部进程的通信地址信息；MPI进程通过键值数据库来获取需要通信进程的通信地址信息。本实施例中基于高速互连网络的MPI进程管理接口实现方法在图3的基础上，针对图3所示并行程序获取全部进程通信地址的进行改进。

如图4所示，本实施例基于高速互连网络的MPI进程管理接口实现方法包括并行程序获取全部进程通信地址的下述步骤：

1)执行键值数据库初始化；

2)通过静态规则生成所有MPI进程的通信地址信息；

3)将所有通信地址信息保存至结点自身的键值数据库中；

4)MPI进程通过静态通信规则创建自身进程的通信端口；

本实施例中，步骤2)包括：

2.1)创建关键数据结构nicid_host，关键数据结构nicid_host包括所需通信结点的结点名称hostname及其逻辑通信地址nicid；

本实施例中，关键数据结构nicid_host中结点名称hostname的字段类型为字符型，长度为128。本实施例中，关键数据结构nicid_host中逻辑通信地址nicid的字段类型为整数型。

本实施例中，关键数据结构nicid_host代码(C语言实现)为：

即，所需通信结点的结点名称hostname为128个字符型字段，逻辑通信地址nicid为整数型字段。

为了应用静态通信地址，需要在初始化进程前，计算所有进程的通信地址信息，并将其存储在计算结点上进程管理接口的键值数据库中，供进程初始化时获取。由于EP-NUM部分可以通过进程全局Rank号转换获取，因而每个进程只需要从键值数据库中获取远端进程的NIC-ID(自主高速互连网络中一张高速网卡的唯一值)信息即可。在UCX网络内，逻辑通信地址nicid的值与计算结点的IP地址相关，为了得到更好的映射关系，我们将IP地址与逻辑通信地址nicid的映射关系转化为主机名称与NIC-ID的映射关系，通过自主高速互连网络规则计算得到逻辑通信地址nicid信息与主机名的对应关系。在计算系统内，维护了一份关于计算结点主机名与计算结点逻辑通信地址nicid的映射表。作为一种可选的实施方式，本实施例步骤2.1)中逻辑通信地址nicid由IP地址转换得到，且转换函数表达式为：

NICID＝(b-b₁)×2¹⁶+(c-c₁)×2⁸+(d-d₁)

根据计算结点的IP地址即可获得对应的逻辑通信地址nicid，而后将所有进程的逻辑通信地址nicid信息与主机名称的映射存储在计算结点的键值数据库中，结点MPI进程初始化时即可获取全部进程的逻辑通信地址nicid。

参见图5，步骤4)中并行程序通过静态规则生成自身进程的通信端口的数据结构包括：

地址头Header，用于判断UCX网络的版本信息；本实施例中占1个字节；

全局唯一编号UUID，用于代表worker的ID信息，在通信过程中对进程进行标志，使得不同的进程拥有不同的UUID值；本实施例中占8个字节；

模块选择标志Model，用于判断所选模块中是否存在设备以及是否分配设备资源，在同一UCX网络内，所有进程worker的模块选择标志Model的字段值相同；本实施例中占1个字节；

设备路径数Dev num，用于统计选定模块中所持有的设备数目，在同一UCX网络内选定模块后所有进程worker的设备路径数Dev num字段值相同；本实施例中占1个字节；

传输信息名称TI-Name(Transport Information Name)，用于统计设备中的端口信息，在同一UCX网络内，所有进程worker的传输信息名称TI-Name字段值相同；本实施例中占 2个字节；

设备地址Dev Addr，用于记录UCX网络所选模块中设备的地址信息，在同一UCX网络内，选定模块后所有进程worker的设备地址Dev Addr字段值相同；本实施例中占16个字节；

长度Length，用于记录进程通信地址信息的长度，在所有进程中该字段值相同；本实施例中占1个字节；

通信地址信息Addr，用于记录进程的通信地址，由逻辑通信地址nicid与端口号EP-NUM 两部分组成，其中端口号EP-NUM由系统分配给进程worker，使得在各个进程worker中通信地址信息Addr的字段值各不相同；本实施例中占4个字节。

首先对目前UCX网络的Glex模块内的进程通信地址的生成规则进行改写，主要是针对进程的worker中动态获取的UUID字段与EP-NUM端口号进行重新定义，考虑到该部分信息的全局唯一性，选择利用进程的全局Rank号作为进程UUID的内容。另外一部分是对于端口号EP-NUM的定义，传统的端口号EP-NUM的获取是利用一个随机数 GLEX_ANY_EP_NUM选择一个可用的端口号分配给端口号EP-NUM，在本实施例中对该值的生成规则进行改写。为了保证进程worker的唯一性以及可计算性，与生成全局唯一编号 UUID的规则类似，在本实施例中仍选用全局Rank号作为生成端口号EP-NUM的媒介。

本实施例中，全局唯一编号UUID取值为全局Rank号。

本实施例中，由系统分配给进程worker的端口号EP-NUM的计算函数表达式为：

EPNUM＝RANKID％VPMAX

上式中，EPNUM表示由系统分配给进程worker的端口号EP-NUM，RANKID为全局Rank号，VPMAX为一张高速网卡所支持的最大VP(虚端口)数量。

本实施例中，步骤5)MPI进程通过键值数据库获取其他需要进程通信的MPI进程的通信地址信息，包括：通过键值数据库获取需要通信进程的逻辑通信地址nicid，并通过OpenMPI 获取需要通信进程的全局Rank号并转化为端口号EP-NUM，再完成对通信地址信息的封装，将其组装为worker。至此静态地址分配过程完成，进程可利用静态地址进行通信。因而，应用程序启动过程中不需要经历全局数据交换阶段，减少了全局数据交换的网络开销时间，从而加快大规模并行应用程序的启动。

此外，本实施例还提供一种基于自主高速互连网络的MPI进程管理接口装置，相互连接的微处理器和存储器，所述微处理器被编程或配置以执行前述基于高速互连网络的MPI 进程管理接口实现方法的步骤。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于高速互连网络的MPI进程管理接口实现方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于高速互连网络的MPI进程管理接口实现方法，其特征在于，包括并行程序获取全部进程通信地址信息的下述步骤：

1)执行键值数据库初始化；

2)通过静态通信规则生成所有MPI进程的通信地址信息；

3)将所有通信地址信息保存至结点自身的键值数据库中；

4)MPI进程通过静态规则创建自身进程的通信端口，所述并行程序通过静态规则生成自身进程的通信端口的数据结构包括：

地址头Header，用于判断UCX网络的版本信息；

设备路径数Devnum，用于统计选定模块中所持有的设备数目，在同一UCX网络内选定模块后所有进程worker的设备路径数Devnum字段值相同；

设备地址DevAddr，用于记录UCX网络所选模块中设备的地址信息，在同一UCX网络内，选定模块后所有进程worker的设备地址DevAddr字段值相同；

通信地址信息Addr，用于记录进程的通信地址，由逻辑通信地址nicid与端口号EP-NUM两部分组成，其中端口号EP-NUM由系统分配给进程worker，使得在各个进程worker中通信地址信息Addr的字段值各不相同；

2.根据权利要求1所述的基于高速互连网络的MPI进程管理接口实现方法，其特征在于，步骤2)包括：

2.2)通过预先设计专用于生成全部MPI进程通信地址信息的静态规则函数create_static_glex_address，为基于关键数据结构nicid_host生成所有进程的通信地址信息。

3.根据权利要求2所述的基于高速互连网络的MPI进程管理接口实现方法，其特征在于，步骤2.1)中逻辑通信地址nicid由IP地址转换得到，且转换函数表达式为：

NICID＝(b-b₁)×2¹⁶+(c-c₁)×2⁸+(d-d₁)

4.根据权利要求3所述的基于高速互连网络的MPI进程管理接口实现方法，其特征在于，所述关键数据结构nicid_host中结点名称hostname的字段类型为字符型，长度为128。

5.根据权利要求4所述的基于高速互连网络的MPI进程管理接口实现方法，其特征在于，所述关键数据结构nicid_host中逻辑通信地址nicid的字段类型为整数型。

6.根据权利要求1所述的基于高速互连网络的MPI进程管理接口实现方法，其特征在于，所述全局唯一编号UUID取值为全局Rank号。

7.根据权利要求1所述的基于高速互连网络的MPI进程管理接口实现方法，其特征在于，由系统分配给进程worker的端口号EP-NUM的计算函数表达式为：

EPNUM＝RANKID％VPMAX

8.一种基于自主高速互连网络的MPI进程管理接口装置，相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～7中任意一项所述基于高速互连网络的MPI进程管理接口实现方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～7中任意一项所述基于高速互连网络的MPI进程管理接口实现方法的计算机程序。