CN112383443B

CN112383443B - 运行于rdma通信环境的并行应用通信性能预测方法

Info

Publication number: CN112383443B
Application number: CN202011000919.2A
Authority: CN
Inventors: 肖利民; 周易; 闫柏成; 韩萌; 朱乃威; 王泽红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-06-14
Anticipated expiration: 2040-09-22
Also published as: CN112383443A

Abstract

本发明提出运行于RDMA通信环境的并行应用通信性能预测方法，用于预测采用RDMA技术的并行应用的通信性能。该方法首先构建了RDMA技术下的点对点通信性能模型，保证通信性能模型对目标并行应用的适用性；随后分析需要进行通信开销预测的并行应用，利用通信时序代替真实通信过程，确定刻画该应用的通信所需的网络性能参数，并设计所需网络性能参数的测量过程进行测量，最终根据通信时序与网络性能参数计算出应用通信的理论开销，实现对并行应用通信的预测。该方法在较短的时间内较为准确预测并行应用通信性能，适用于使用RDMA技术通信的并行应用。

Description

运行于RDMA通信环境的并行应用通信性能预测方法

技术领域

本发明涉及通信性能预测技术，尤其涉及一种运行于RDMA通信环境的并行应用通信性能预测方法。RDMA(Remote Direct Memory Access)指远程直接内存访问。

背景技术

RDMA(Remote Direct Memory Access)技术全称远程直接内存访问，这种消息传递方式允许数据直接从一台计算机的内存传输到另一台计算机，无需双方操作系统的介入。这种方式消除了数据包在用户空间和内核空间复制移动和上下文切换的开销，构建了高吞吐、低延迟的网络通信，从而将CPU与内存带宽应用于提升系统的整体效率上。目前有3类网络架构支持RDMA技术，分别是InfiniBand，RoCE与iWARP。随着数据传输需求的不断增长，各类应用对于硬件处理能力有着更高的要求，RDMA的零拷贝、高带宽、低延迟等特性能够更好地满足现今各类复杂应用的通信需求。例如目前应用广泛的深度学习、语音识别、自然语言处理等机器学习任务已经大范围应用RDMA集群，提升工作效率。

RDMA能够有效提升需要进行大量通信的并行应用的运行效率。不过，并行应用可能存在很长的运行周期，从而在一定的运行环境中减少运行开销是提升工作效率中重要的步骤之一。随着并行应用规模的不断增大，通信所需时间在应用整体运行开销中占比不断提升，因此优化应用的通信性能也成为优化应用整体性能的重要环节之一。性能优化方案通常是一个迭代的过程，通过应用真实执行获取应用的运行效率会大大增加时间开销，在某些情况下不可接受。相比之下，应用通信性能预测提供了一种高效且低开销的评价手段，能够显著降低通信性能优化方法设计的成本，已逐渐成为应用通信性能优化方案评价的主要手段之一。

目前，在采用RDMA技术的网络环境中运行的并行应用仍缺少高效率高准确度的并行应用通信性能预测方法。网络通信性能的刻画与分析已有周期精准系统模拟、离散事件模型、点对点通信模型等方法，其中基于点对点通信模型的通信预测方法是兼顾了刻画效率与准确度的实用方法。其中，以LogGPS模型为基础的LogGOPSim模拟器结合了完整的MPI消息匹配语义和集体操作，给出高准确度的预测结果。对于RDMA技术形成的通信环境，由于通信方式的变化，现有的并行应用通信性能预测方法往往不能够直接应用于该网络环境中。

发明内容

针对上述方法中所存在的问题，本发明提供运行于RDMA通信环境的并行应用通信性能预测方法，用于预测采用RDMA技术的并行应用的通信性能。该方法首先构建了RDMA技术下的点对点通信性能模型，保证通信性能模型对目标并行应用的适用性；随后分析需要进行通信开销预测的并行应用，利用通信时序代替真实通信过程，确定刻画该应用的通信所需的网络性能参数，并设计所需网络性能参数的测量过程进行测量，最终根据通信时序与网络性能参数计算出应用通信的理论开销，实现对并行应用通信的预测。该方法在较短的时间内较为准确预测并行应用通信性能，适用于使用RDMA技术通信的并行应用。

本发明的技术解决方案如下：

运行于RDMA通信环境的并行应用通信性能预测方法，其特征在于，包括以下步骤：

步骤a，构建RDMA技术下的点对点通信性能模型，包括通过构建面向RDMA的LoghGOPS模型，将一次通信过程分解为若干部分，设发送的消息长度为i，CPU需要处理通信请求的时间为o，通信网卡需要处理通信请求的时间为h，通信网卡两次处理通信请求间最小间隔为g，网络通信延迟为L，单位长度消息通信需要花费的时间为G，则仅消耗在数据传输过程的时间为L+iG，且根据接收消息分别由通信网卡直接处理或需要通知CPU的区别，总时间开销为o+2h+L+iG或2o+2h+L+iG；

步骤b，获取应用的通信时序与节点分布情况，包括以并行应用本身为主体，首先获取应用的节点数量，随后采用文本分析法或库函数法，获取并记录每个节点上的全部通信相关操作，包括发送、接收、等待、同步等过程与消息长度信息，最后将各个节点上的通信时序整理为一个完整的通信时序；节点分布情况则直接按照应用本身设计，或根据运行环境的默认分布方式获取；

步骤c，基于步骤a中的通信性能模型与步骤b中的通信过程，设计模型参数测量步骤，包括对于确定的发送方与接收方，设计5次不同的测量过程，分别记录测得时间t₁～t₅；将测得时间与5次测量过程的时间开销表达式结合，构建方程组，可求得步骤a中各项参数在该通信过程中的值，从而刻画一次点对点通信过程；多次执行该测量步骤，并利用链路延迟测量方法与链路带宽测量方法，将刻画方式推广到通信的网络中，获取预测应用通信通信开销的全部参数；

步骤d，按照步骤b得到的时序，依次计算每次通信需要的时间，并结合各个通信步骤间的顺序关系，计算得出应用通信所需的理论开销。

所述步骤b的具体过程包括：

b1)获取应用运行所需的节点数量，随后根据实际情况与使用习惯选用文本分析法或库函数法获取每个节点的通信操作；

b2)选取文本分析法的场合，对于每一个节点，关注应用的全部通信函数，以及与之相关的赋值、条件、循环语句，分析每一条通信函数的执行信息，包括操作类型、发送方与接收方信息、通信数据量、执行次数与顺序等，并储存这些执行信息；

b3)选取库函数法的场合，对于应用中的全部通信函数，设计一个同名的函数取代原本执行通信功能的函数，功能为记录该次通信操作的各种信息，例如操作类型、发送方、接收方、通信数据量等。根据实际情况，该函数可以不执行原本的通信操作，或仍执行该次通信。随后将该库链接到并行应用中并执行，可得到与节点数目相同的通信操作记录；

b4)将多个节点的通信操作记录整合为一份完整的通信时序。该过程应当符合通信函数设计规范，包括但不仅限于以下几项：同一批全局同步函数应当在同一时间执行；一组对应的发送/接收函数是一次通信过程；同一节点上有明确顺序关系的过程，或阻塞式通信过程应当与实际通信产生的次序一致；非阻塞式通信过程的实际通信可以产生在函数调用之后的时序；按照以上规则遍历每一份通信记录，可得到一份包含应用运行过程中全部通信的通信时序。

所述步骤c的具体过程包括：

c1)基于链路延迟测量方法与链路带宽测量方法，分析步骤b中的全部通信过程，以此确定刻画该应用的通信所需的网络性能参数，并按照所需参数执行设计若干次步骤c2与c3的执行；

c2)进行若干次通信过程测量步骤获取刻画通信必须的参数，对于确定的通信发送方、接收方、消息发送模式，通过设定5次消息发送过程与计时节点，分别测量时间t₁～t₅。其中，取i分别为i₁、i₂(i₁≠i₂)测得t₁、t₂，取k分别为k₁、k₂(k₁≠k₂)测得t₄、t₅，k为通信网卡消息发送过程的重复次数；

c3)根据步骤a所述的通信性能模型，求得测量过程t₁～t₅的时间开销表达式如下：

根据该方程组可求得模型参数的表达式为：

其中，参数o、h、g基本只与发送方、接收方的CPU或通信网卡相关，而L、G与网络的整体环境相关；为了进一步提升性能预测准确性与效率，可继续执行c4所述步骤；

c4)在步骤c3的基础上，使用链路延迟测量方法与链路带宽测量方法，获取通信节点间的通信延迟，即表达式中的L；使用现有的链路可用带宽分析方法，获取节点间的通信有效带宽，即表达式中G的倒数，从而进一步提升性能预测的准确性与效率。

本文中使用的符号及其说明列示如下：

本发明的有益效果是：本发明的通信性能预测方法能够适用于RDMA技术下并行应用，能够较快较为准确地预测并行应用运行时通信产生的时间开销。在现有的通信性能预测方法中，用户可以在特定的网络环境下较为准确地预测单次通信的时间开销，或针对广泛的MPI编程接口环境预测应用整体的通信开销，而对于使用RDMA进行通信的并行应用通信开销往往不能进行准确而快速的预测。本发明首先根据RDMA技术的特点，构建了RDMA技术下的点对点通信性能模型，保证通信性能模型对目标并行应用的适用性；随后分析需要进行通信开销预测的并行应用，利用通信时序代替真实通信过程，并确定刻画该应用的通信所需的网络性能参数；之后设计所需网络性能参数的测量过程并测量，最终根据通信时序与网络性能参数计算出应用通信的理论开销，实现对并行应用通信的预测。该方法能够较快较准确地预测RDMA环境下并行应用的通信开销，适用于使用RDMA技术通信的并行应用。

附图说明

图1为本发明的RDMA技术下并行应用通信性能的预测方法的流程图。

图2为本发明的通信模型参数获取过程中，通信时间t_₁～t_₃测量示意图。

图3为本发明的通信模型参数获取过程中，通信时间t_₄～t_₅测量示意图。

图中所有字符标记的中文意思列示如下：CPU：中央处理器。NIC：网络接口控制器，网络适配器，网卡。t_₁：选取消息大小为i_₁的情况下，消息发送到对方网卡再返回的时间。t_₂：选取消息大小为i_₂的情况下，消息发送到对方网卡再返回的时间。t_₃：选取消息大小为i_₂的情况下，消息发送到对方CPU再返回的时间。t_₄：选取消息大小为i_₁的情况下，CPU请求网卡发送k_₁个消息发送到对方网卡，再返回的时间。t_₅：选取消息大小为i_₁的情况下，CPU请求网卡发送k_₂个消息发送到对方网卡，再返回的时间。

具体实施方式

以下结合附图(图1-图3)对本发明作进一步详细的说明。

本发明提供运行于RDMA通信环境的并行应用通信性能预测方法，用于预测采用RDMA技术的并行应用的通信性能。本方法首先构建RDMA技术下的点对点通信性能模型，然后抓取应用通信时序，并测量应用运行环境中的通信性能参数指标，最后利用通信模型计算各次通信的时间开销，结合应用通信时序得出应用通信的理论开销，实现对并行应用通信的预测。参考图1至图3所示，一种运行于RDMA通信环境的并行应用通信性能预测方法，包括以下步骤：

(a)构建RDMA技术下的点对点通信性能模型LoghGOPS；将一次通信过程分解为若干部分，设发送的消息长度为i，CPU需要处理通信请求的时间为o，通信网卡需要处理通信请求的时间为h，通信网卡两次处理通信请求间最小间隔为g，网络通信延迟为L，单位长度消息通信需要花费的时间为G，则仅消耗在数据传输过程的时间为L+iG，且按照通信完成时间为通信网卡收到或CPU收到分别考虑，总时间开销为o+2h+L+iG或2o+2h+L+iG；

(b)获取应用的通信时序与节点分布情况；采用文本分析法或库函数法，获取并记录每个节点上的全部通信相关操作，包括发送、接收、等待、同步等过程与消息长度信息，随后将各个节点上的通信时序整理为一个完整的通信时序；节点分布情况按照应用设计或根据运行环境的默认分布方式获取；

(c)测量与应用通信相关的网络性能参数；根据链路延迟测量方法与链路带宽测量方法的需求，设计若干次点对点通信性能测量过程，针对发送与接收节点，设计5次不同的测量过程，分别记录测得时间t₁～t₅；将测得时间与5次测量过程的时间开销表达式结合，构建一方程组，求得步骤(a)中所述各项参数在该通信过程中的值，这些参数能够刻画该点对点通信过程；利用链路延迟测量方法与链路带宽测量方法，获取刻画应用每一次通信的通信性能所需的参数；

(d)依次计算每次通信需要的时间，结合各个通信步骤间的顺序关系，计算得出应用通信所需的理论开销。

对于包含n个计算节点的应用RDMA技术的网络环境与运行于其中的n个进程的并行应用，结合附图2、3，介绍本发明的RDMA技术下并行应用通信性能的预测方法具体实施的过程，其通过以下几个步骤来实现：

(a)构建RDMA技术下的点对点通信性能模型，方法与前文所述一致；

(b)获取应用的通信时序与节点分布情况。

(b-1)获取应用运行所需的节点数量，选择使用文本分析法或库函数法获取每个节点的通信操作。

(b-2)若选取文本分析法，从节点编号0开始，关注该节点上的全部通信函数，以及与之相关的赋值、条件、循环语句，分析每一条通信函数的执行信息，包括操作类型、发送方与接收方信息、通信数据量、执行次数与顺序等，并储存这些执行信息至一节点编号相关文件。

(b-3)若选取库函数法，对于应用中的全部通信相关函数，设计一个同名的函数取代原本执行通信功能的函数，功能为记录该次通信操作的各种信息，包括操作类型、发送方、接收方、通信数据量等，并根据应用规模与应用复杂度判断该函数是否需要执行原本的通信操作。随后将该库链接到并行应用中执行，并得到与节点数目相同的通信操作记录。

(b-4)将多个节点的通信操作记录整合为一份完整的通信时序。对每一份通信操作记录同时进行遍历，按照以下通信函数设计规范对记录进行整合：同一批全局同步函数应当在同一时间执行；一组对应的发送/接收函数是一次通信过程；同一节点上有明确顺序关系的过程，或阻塞式通信过程应当与实际通信产生的次序一致；非阻塞式通信过程的实际通信可以产生在函数调用之后的时序。此外，如果目标通信编程接口有特殊的时序规则也需要遵守。按照以上规则遍历每一份通信记录，可得到一份包含应用运行过程中全部通信的通信时序。

(c)结合应用的通信过程，设计模型参数测量步骤。

(c-1)分析步骤(b)中的得到全部通信过程，确定刻画该应用的通信所需的网络性能参数，选取至少

个节点对，分别作为发送方与接收方，覆盖到并行应用所需的全部节点，并满足链路延迟测量方法与链路带宽测量方法的使用条件。

(c-2)对于确定的通信发送方、接收方、消息发送模式，如图2、图3所示，通过设定一定的消息发送过程与计时节点，分别测量时间t₁～t₅。其中，取i分别为i₁、i₂(i₁≠i₂)测得t₁、t₂，取k分别为k₁、k₂(k₁≠k₂)测得t₄、t₅，k为通信网卡消息发送过程的重复次数。

(c-3)根据步骤(a)所述的通信性能模型，求得测量过程t₁～t₅的时间开销表达式如下：

根据该方程组可求得模型参数的表达式为：

其中，计算所得参数o、h、g作为发送方、接收方的可用参数，L、G作为被测量路径的可用参数。重复该过程以获取全部计算节点的可用参数o、h、g与部分路径的可用参数L、G。

(c-4)使用链路延迟测量方法与链路带宽测量方法，获取通信节点间的通信延迟，即表达式中的L；使用现有的链路可用带宽分析方法，获取节点间的通信有效带宽，即表达式中G的倒数。直到获取全部路径的可用参数L、G。

(d)按照上述通信时序，依次计算每次通信需要的时间，并结合各个通信步骤间的顺序关系，计算得出应用通信所需的理论开销。

(d-1)按照步骤(a)中给出的模型与步骤(b)中获取的参数，分别计算每次通信的时间开销。

(d-2)按照通信时序，使用每次通信的时间开销计算得出应用的通信总时间开销预测值。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。在此指明，以上叙述有助于本领域技术人员理解本发明创造，但并非限制本发明创造的保护范围。任何没有脱离本发明创造实质内容的对以上叙述的等同替换、修饰改进和/或删繁从简而进行的实施，均落入本发明创造的保护范围。

Claims

1.运行于RDMA通信环境的并行应用通信性能预测方法，其特征在于，包括以下步骤：

步骤a，构建RDMA技术下的点对点通信性能模型，包括通过构建面向RDMA的LoghGOPS模型，将一次通信过程分解为若干部分，设发送的消息长度为i，CPU需要处理通信请求的时间为o，通信网卡需要处理通信请求的时间为h，通信网卡两次处理通信请求时间最小间隔为g，网络通信延迟为L，单位长度消息通信需要花费的时间为G，则仅消耗在数据传输过程的时间为L+iG，且根据接收消息分别由通信网卡直接处理或需要通知CPU的区别，总时间开销为o+2h+L+iG或2o+2h+L+iG；

步骤b，获取应用的通信时序与节点分布情况，包括以并行应用本身为主体，首先获取应用的节点数量，随后采用文本分析法或库函数法，获取并记录每个节点上的全部通信相关操作，包括发送、接收、等待、同步的过程与消息长度信息，最后将各个节点上的通信时序整理为一个完整的通信时序；节点分布情况则直接按照应用本身设计，或根据运行环境的默认分布方式获取；

步骤d，按照步骤b得到的时序，依次计算每次通信需要的时间，并结合各个通信步骤间的顺序关系，计算得出应用通信所需的理论开销；

所述步骤b的具体过程包括：

b2)选取文本分析法的场合，对于每一个节点，关注应用的全部通信函数，以及与之相关的赋值、条件、循环语句，分析每一条通信函数的执行信息，包括操作类型、发送方与接收方信息、通信数据量、执行次数与顺序的，并储存这些执行信息；

b3)选取库函数法的场合，对于应用中的全部通信函数，设计一个同名的函数取代原本执行通信功能的函数，功能为记录该次通信操作的各种信息，操作类型、发送方、接收方、通信数据量；根据实际情况，该函数可以不执行原本的通信操作，或仍执行该次通信；随后将该库链接到并行应用中并执行，可得到与节点数目相同的通信操作记录；

b4)将多个节点的通信操作记录整合为一份完整的通信时序；该过程应当符合通信函数设计规范，包括以下几项：同一批全局同步函数应当在同一时间执行；一组对应的发送/接收函数是一次通信过程；同一节点上有明确顺序关系的过程，或阻塞式通信过程应当与实际通信产生的次序一致；非阻塞式通信过程的实际通信可以产生在函数调用之后的时序；按照以上规则遍历每一份通信记录，可得到一份包含应用运行过程中全部通信的通信时序；

所述步骤c的具体过程包括：

c2)进行若干次通信过程测量步骤获取刻画通信必须的参数，对于确定的通信发送方、接收方、消息发送模式，通过设定5次消息发送过程与计时节点，分别测量时间t₁～t₅；其中，取i分别为i₁、i₂(i₁≠i₂)测得t₁、t₂，取k分别为k₁、k₂(k₁≠k₂)测得t₄、t₅，k为通信网卡消息发送过程的重复次数；t₃为选取消息大小为i₂的情况下消息发送到对方CPU再返回的时间；

根据该方程组可求得模型参数的表达式为：

其中，参数o、h、g只与发送方、接收方的CPU或通信网卡相关，而L、G与网络的整体环境相关；为了进一步提升性能预测准确性与效率，可继续执行c4所述步骤；

c4)在步骤c3的基础上，使用链路延迟测量方法与链路带宽测量方法，获取通信节点间的通信延迟，即表达式中的L；使用现有的链路可用带宽分析方法，获取节点间的通信有效带宽，即表达式中G的倒数，从而进一步提升性能预测的准确性与效率；

所述步骤d包括：d1)按照步骤a中给出的模型与步骤c中获取的参数，分别计算每次通信的时间开销；d2)按照通信时序，使用每次通信的时间开销计算得出应用的通信总时间开销预测值。