CN112434785B

CN112434785B - 一种面向超级计算机的分布式并行深度神经网络性能评测方法

Info

Publication number: CN112434785B
Application number: CN202011140338.9A
Authority: CN
Inventors: 张兴军; 魏嘉; 纪泽宇; 李靖波; 姬辰肇; 魏正; 岳莹莹; 高柏松
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-04-14
Anticipated expiration: 2040-10-22
Also published as: CN112434785A

Abstract

本发明公开了一种面向超级计算机的分布式并行深度神经网络性能评测方法，属于高性能计算与深度神经网络领域。本发明依次包括了分布式并行粒度设计、深度神经网络训练框架平台配置、分布式并行通信协议部署、深度神经网络优化、训练测试数据集切片、测试模式应用，为开发人员提供了一种通用的测试方法；分布式并行粒度的设计保障了单节点和多节点的全面测试；深度神经网络训练框架pytorch和底层分布式通信框架MPI的耦合确保了应用层部署和底层通信的可靠性；在不同处理器的单节点、不同处理器的多节点的测试，有助于实现对超级计算机计算资源的充分利用，提升程序计算性能，缩短神经网络训练花费时间，提升神经网络训练收敛速度。

Description

一种面向超级计算机的分布式并行深度神经网络性能评测方法

技术领域

本发明属于高性能计算与深度神经网络领域，尤其是一种面向超级计算机的分布式并行深度神经网络性能评测方法。

背景技术

天河三号原型机采用的处理器包括FT-2000+(FTP)和MT-2000+(MTP)，FTP包含64个armv8架构的FTC662处理器核，工作主频为2.2-2.4GHZ，片上集成了32MB的二级cache，可提供204.8GB/s访存带宽，典型工作能耗约为100W；而MTP处理器，它包含总共128个armv8核，被组织为4个超级节点，主频最高可达2.0GHZ，整个处理器的消耗为240W。原型机没有支持例如caffe、pytorch、tensorflow等针对于深度神经网络的开发框架也没有提供针对平台分布式并行深度神经网络的评测方法，故而无法直接开展相应的分布式并行深度神经网络的评测，继而无法完整评测和有效利用天河三号超级计算机强大的计算能力。

深度神经网络(Deep Neural Network，DNN)是现代人工智能(ArtificialIntelligence，AI)应用的基础。近年来，由于DNN在自然语言处理和图像识别中里程碑式的表现，在无人驾驶、癌症检测和复杂决策等领域中得到了广泛应用，尤其是在图像领域，相比于支持向量积为代表的传统算法，基于深度学习的Ale×Net模型将分类准确性提高了两倍，从而引起了图像识别社区以及学术界的兴趣。DNN的卓越性能来源于其对大量数据进行统计学习以获取输入空间的有效表示，从而能够从原始数据中提取高级特征。这与早期使用专家设计的特定功能或规则的机器学习方法完全不同。但是，DNN卓越的表现是以高计算复杂度为代价的。随着数据集规模的增大和模型复杂程度的提升，DNN在训练过程中对计算强度和存储空间的需求也成比例增长。利用计算引擎(尤其是GPU)已成为许多加速DNN训练的主要手段，但人们对其他的DNN训练加速技术也有着更深的兴趣。为了使训练得到的DNN更具有竞争力，本质上需要高性能计算集群。而对上述系统，需要对DNN训练和推理(评估)等不同方面进行优化，以适应相应平台特点从而提高整体并发性。

高性能计算机的快速发展为深度神经网络的并行化提供了平台基础，丰富的并行编程框架为其并行化架起了桥梁的作用，因此如何结合深度神经网络的算法特点以及高性能计算集群的架构特性，利用并行编程框架设计能充分发挥高性能平台计算能力的神经网络分布式计算方法显得十分迫切。为了实现优化设计以充分发挥超算平台的高性能，需要对具体的高性能计算集群进行对应的评测和调优，该评测方法的提出对分布式并行深度神经网络在超级计算机平台高效应用有一定的指导意义。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种面向超级计算机的分布式并行深度神经网络性能评测方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种面向超级计算机的分布式并行深度神经网络性能评测方法，包括以下步骤：

步骤1、搭建神经网络执行框架

根据超级计算机的体系架构，将分布式粒度划分为同种计算节点的多节点和单节点两种类型，同时将并行粒度设计为不低于节点数目；

将pytorch分布式深度神经网络训练框架部署到超级计算机上；

将MPI作为底层分布式通信协议；

步骤2、选择深度神经网络模型和训练数据集

步骤3、训练深度神经网络模型

根据分布式粒度的设计，进行不同处理器的单节点、多进程并行训练任务，及不同处理器的多节点、多进程分布式训练任务；

根据测试结果判断不同处理器的单节点以及不同处理器的多节点中分布式并行深度神经网络的最优进程数，调整深度神经网络的相关配置参数，重新进行测试，与之前的测试结果进行比对，直至得出一致性的结论，结束评测。

进一步的，步骤1中的所述超级计算机为天河三号原型机，处理器包括FTP和MTP。

进一步的，对于单MTP节点，设计进程数为1-20的测试实验；

对于单FTP节点，设计进程数为1-32的测试实验；

对于多MTP节点，设计节点数为2-128，进程数为2倍MTP节点数-128的测试实验；

对于多FTP节点，设计节点数为2-32，进程数为2倍FTP节点-128的测试实验。

进一步的，步骤2选择的深度神经网络模型为：

以改进的LeNet深度神经网络模型来进行图像分类工作；

所述改进的LeNet深度神经网络模型包含两个卷积层，两个池化层，三个激活层以及两个全连接层；

第一个卷积层，输入通道数为1，输出通道数为10，卷积核大小为5×5，步长为1，零填充；

第二个卷积层，输入通道数为10，输出通道数为20，其余同第一个卷积层一致；

两个池化层均使用最大池化方法；

三个激活函数均使用relu函数。

进一步的，对改进的LeNet深度神经网络模型使用drop_out优化方法进行优化。

进一步的，步骤2中选择的训练数据集为Mnist数据集。

进一步的，步骤3中采取数据并行的分布式训练策略，以all-reduce机制作为通信策略，并使用整体同步并行计算模型BSP，同时将训练集上的数据均匀分配到各进程之上。

进一步的，步骤3)中调整深度神经网络的相关配置参数包括：批大小和学习率。

与现有技术相比，本发明具有以下有益效果：

本发明面向超级计算机的分布式并行深度神经网络性能评测方法，依次包括了分布式并行粒度设计、深度神经网络训练框架平台配置、分布式并行通信协议部署、深度神经网络优化、训练测试数据集切片、测试模式应用，为开发人员提供了一种通用的评测方法；分布式并行粒度的设计保障了单节点和多节点的全面评测；深度神经网络训练框架pytorch和底层分布式通信框架MPI的耦合确保了应用层部署和底层通信的可靠性；在不同处理器的单节点、不同处理器的多节点的评测，有助于实现对超级计算机计算资源的充分利用，提升程序计算性能，缩短神经网络训练花费时间，提升神经网络训练收敛速度。

进一步的，使用独特设计的改进LENET模型实现对MNIST数据集的图像分类训练任务，结合了实际对图像分类的需求。

进一步的，超级计算机为天河三号，提供了在天河三号上开展分布式神经网络训练的最优策略，提供了天河三号上的FTP单节点、MTP单节点、FTP多节点和MTP多节点上测试。

附图说明

图1为本发明的流程图；

图2为实施例的单节点测试结果，其中，图2(a)为单MTP节点训练损失值随进程数增加的变化图，图2(b)为单MTP节点训练时间随进程数增加的变化图，图2(c)为单FTP节点训练损失值随进程数增加的变化图，图2(d)单FTP节点训练时间随进程数增加的变化图。

图3为实施例的多节点测试结果，其中，图3(a)为多MTP节点训练损失值随进程数增加的变化图，图3(b)为多FTP节点训练损失值随进程数增加的变化图，图3(c)为多MTP节点训练时间随进程数增加的变化图，图3(d)为多FTP节点训练时间随进程数增加的变化图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明提出的面向超级计算机的分布式并行深度神经网络性能评测方法，基于天河三号超算平台体系结构及其编程特性，结合分布式并行神经网络的程序特点，提出了一套系统可行的测试方案。

参见图1，图1为本发明的流程图，一种面向超级计算机的分布式并行深度神经网络性能评测方法，包括以下步骤：

步骤1、分布式并行粒度设计

利用超级计算机天河三号超算平台具有FTP和MTP两种计算节点的体系架构特点，针对FTP和MTP节点的相互独立性，由于节点是计算资源申请的最小单元，进程数可以由用户指定的天河三号作业提交特性，将分布式粒度划分为同种计算节点的多节点和单节点两种类型，同时将并行粒度设计为不低于节点数目；

步骤2、配置深度神经网络的训练框架平台

选择pytorch平台作为分布式并行深度神经网络训练平台，具体地，在天河三号上部署pytorch0.2.0版本，并使用torch.distribution库来实现分布式程序编写，充分利用天河三号计算核心强大的计算能力，提升程序计算性能；

步骤3、分布式并行通信协议部署

在pytorch分布式并行深度神经网络训练框架中选择MPI作为底层分布式通信协议，并根据天河三号对协议的支持情况选择MPICH作为通信协议的具体实现，保证其版本与pytorch依托的python环境版本一致；

步骤4、深度神经网络优化

对完成通信协议部署的pytorch分布式并行深度神经网络训练框架进行用于评测的深度神经网络的部署，使用改进的LENET深度神经网络模型来完成一个图片分类任务；并对改进的LENET深度神经网络模型使用了drop_out优化方法，通过pytorch提供的一种改进的All-reduce方式实现在整个用于实现深度神经网络的天河集群上的数据并行。

改进的LENET神经网络模型包含两个卷积层，两个池化层，三个激活层以及两个全连接层；第一个卷积层，输入通道数为1，输出通道数为10，卷积核大小为5×5，步长为1，零填充；第二个卷积层，输入通道数为10，输出通道数为20，其余同第一个卷积层一致。两个池化层均使用最大池化方法。三个激活函数均使用relu函数。

步骤5、训练测试数据集切片

指定用于训练的数据集，选定的训练数据集是Mnist数据集，Mnist数据集是机器学习领域中非常经典的一个数据集，由60000个训练样本和10000个测试样本组成，每个样本都是一张28*28像素的灰度手写数字图片。

步骤6测试模式应用

对完成步骤5的程序，基于天河三号原型机具有MT-2000+和FT-2000+两种不同的处理器节点，分别设计了MT-2000+和FT-2000+单节点、多进程并行训练任务，MT-2000+多节点多进程分布式训练任务和FT-2000+多节点多进程分布式训练任务以全面评估天河三号原型机上单节点的并行训练性能以及其在多节点分布式训练的扩展性。其中，针对单MTP节点，由于内存资源的限制，设计进程数为1到20的测试实验，针对单FTP节点，由于处理器核心数的限制，设计进程数为1到32的测试实验；针对多MTP和多FTP节点，由于计算资源和存储资源的双重限制，分别设计最少2MTP节点最多128MTP节点和最少2FTP节点和最多32FTP节点的测试实验。为保证数据的鲁棒性，本发明中所有实验结果均为五次测试后的算术平均值。

步骤7、调整神经网络参数

对完成步骤6的分布式并行深度神经网络训练程序，统计和分析得到的实验结果，并记录；同时，调整神经网络的批大小、学习速率等参数，重新进行上述训练，并再次统计和分析记录结果；

步骤8、对比测试结果

若未得出一致性的结论，则转到步骤；

若得出一致性的结论，则测试结束。

完成以上步骤后对程序进行性能分析和代码整理分析，比对多次调整神经网络参数之后的实验结果，经过综合对比分析，若能得出一致性的结论，则基于天河三号的分布式并行深度神经网络性能评测结束。

实施例

以天河三号原型机为例，进行本发明的基于超级计算机的分布式并行深度神经网络性能的评测，天河三号原型机具有MT-2000+和FT-2000+两种不同的处理器节点，本实施例分别设计了MT-2000+和FT-2000+单节点、多进程并行训练任务，MT-2000+多节点多进程分布式训练任务和FT-2000+多节点多进程分布式训练任务以全面评估天河三号原型机上单节点的并行训练性能以及其在多节点分布式训练的扩展性。为保证数据的鲁棒性，本实施例中所有实验结果均为五次测试后的算术平均值，评测结果如下：

一、单节点表现如下：

在单个MT2000+节点中，分别使用1-20个进程进行10个迭代轮次后训练的损失值如图2所示，在进程数为2时loss值最小为0.2219，在进程数为17时，loss值最大为0.2457。相应的总训练时间，在进程为2时总训练时间最短为4.6025分钟，随后整体训练时间基本呈现随进程数的增加而增加的趋势(在进程数为8时有下降)，在进程数为20时达到最大值37.0641分钟；与此同时，本实施例发现当进程数是2的幂时，训练结果优于相邻的进程数。

二、多节点表现如下：

如图3所示，在MT2000+多节点训练过程中，当使用的节点总数小于8时，当进程数为节点数两倍的情况下，可以在loss基本保持不变的情况下，达到最短训练时间；当节点数大于等于8时，选择和节点数一致的进程数，可以在最小化loss值得同时达到最短训练时间。在MTP选择两节点时，由于天河架构共享内存设计的原因，在进程数达到64时就会出现内存溢出问题。

在FT2000+多节点训练过程中，当使用的节点总数小于等于8时，与MTP类似，当进程数为节点数两倍的情况下，可以在loss基本保持不变的情况下，达到最短训练时间，但是这个时间随着节点数的增加将逐渐逼近进程数量等同于节点数量情况下的训练时间。

根据上述测试结果本实施例可以发现，在单节点的表现中，无论是FTP还是MTP，使用进程数量为2的幂次时结果会优于邻近的进程数选择(训练时间相差不多甚至更少的同时得到更低的训练损失函数值)，在十轮的迭代后，两种处理器均在进程数为2时达到了最优的训练结果，此时FTP的loss值比MTP下降了约4％，同时训练时间缩短了约13％。在后续的实验中，本实施例将这两种情况下的迭代轮次提升到了50，此时MTP的loss为0.1149，所花费的时间为22.8890分钟，FTP的loss为0.1122，所花费的时间为19.1809分钟。综上所述，FTP单节点在损失函数值和训练时间上都略优于MTP单节点。

在多节点的表现中，当MTP使用的节点数小于8，FTP使用的节点数小于16时，与单节点的结果一致，使用两倍于节点数的进程数可以在损失值与最优结果相差不超过0.002得情况下实现最短的训练时间，然而，随着节点数的增加，使用与节点数相同的进程数进行训练时间逐渐逼近使用两倍节点数进程数得训练时间，并在节点数达到16时，使用等同于节点数的进程数可以在损失函数值与最优结果相差不超过0.0005时，达到最短的训练时间；在MTP多节点训练中，当节点数大于等于8之后，使用等同于节点数的进程数进行训练可以同时达到最小的损失函数值和最短的训练时间。除此之外，本实施例还发现，在使用的进程数相同时，因为可以使用更多的处理器核，所以使用更多的节点，一定能够在损失值相差不超过0.001的基础上达到最短的训练时间。

针对在单节点和多节点不同进程数下训练性能差异可以通过对具体计算时间和通信时间的分析来阐释，在使用单节点训练时，使用两个进程比使用单个进程更能充分发挥节点的计算性能，但当进程数继续增大时，进程间通信的开销所带来的损失以及进程间访存冲突造成的额外开销超过了进程数增加带来的计算性能的增益，导致总体的训练时间增加和训练效果的下降；在迈创节点数小于8，飞腾节点数小于等于16时，原因与单节点中一致；当节点数继续增加时，即使是两倍的进程数都会造成通信开销的损失大于计算性能的提升，所以每个节点使用一个进程在这种情况下是最好的选择。

本实施例在移植的pytorch分布式框架之下使用改进的LeNet模型评估天河三号原型机的深度神经网络分布式训练性能，评估结果可用于评估迈向百亿亿级时的软件和硬件设计。为了全面的进行评估和说明评估结果，本实施例分别为FTP和MTP的单节点和集群设计了相应的实验，在未来，为软件开发人员和硬件架构师提供了多角度的性能优化方向。

此外，本实施例将FTP和MTP处理器的性能进行了比较，这表现出了不同处理器体系结构设计之间的优缺点。本实施例能够向HPC社区与天河三号的开发人员提供参考，裨益中国百亿级超级计算机计划，从而为追求百亿级超级计算机的发展开辟道路。在今后的工作中，本实施例结合天河三号原型机计算节点的特点和网络拓扑的特点，在pytorch等平台上对现有神经网络分布式训练框架结构进行进一步的调优，以更好地发挥天河三号原型机潜在的计算能力。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，包括以下步骤：

步骤1、搭建神经网络执行框架

将pytorch分布式深度神经网络训练框架部署到超级计算机上；

将MPI作为底层分布式通信协议；

步骤2、选择深度神经网络模型和训练数据集

步骤3、训练深度神经网络模型

根据测试结果判断不同处理器的单节点以及不同处理器的多节点中分布式并行深度神经网络的最优进程数，调整深度神经网络的相关配置参数，重新进行测试，与之前的测试结果进行比对，直至得出一致性的结论，结束评测；

步骤3中调整深度神经网络的相关配置参数包括：批大小和学习率。

2.根据权利要求1所述的面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，步骤1中的所述超级计算机为天河三号原型机，处理器包括FTP和MTP。

3.根据权利要求2所述的面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，对于单MTP节点，设计进程数为1-20的测试实验；

对于单FTP节点，设计进程数为1-32的测试实验；

4.根据权利要求1或2所述的面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，步骤2选择的深度神经网络模型为：

以改进的LeNet深度神经网络模型来进行图像分类工作；

两个池化层均使用最大池化方法；

三个激活函数均使用relu函数。

5.根据权利要求4所述的面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，对改进的LeNet深度神经网络模型使用drop_out优化方法进行优化。

6.根据权利要求4所述的面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，步骤2中选择的训练数据集为Mnist数据集。

7.根据权利要求1或2所述的面向超级计算机的分布式并行深度神经网络性能评测方法，其特征在于，步骤3中采取数据并行的分布式训练策略，以all-reduce机制作为通信策略，并使用整体同步并行计算模型BSP，同时将训练集上的数据均匀分配到各进程之上。