CN109657794B

CN109657794B - 一种基于指令队列的分布式深度神经网络性能建模方法

Info

Publication number: CN109657794B
Application number: CN201811592739.0A
Authority: CN
Inventors: 李陈圣; 秦晓卫; 裴梓茜; 李晓敏; 杨渡佳
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2022-09-06
Anticipated expiration: 2038-12-20
Also published as: CN109657794A

Abstract

本发明公开了一种基于指令队列的分布式深度神经网络性能建模方法，特征是根据硬件性能参数、神经网络结构、底层计算架构、数据传输协议、链路带宽特点、服务器GPU拓扑结构，对深度神经网络进行分层映射拆分、分段计算，然后利用指令队列对训练一次迭代耗时进行估计，同时输出各硬件间的数据交互情况。由于本发明基于指令队列的分布式深度神经网络性能建模方法同时考虑了软硬件特征，使用了指令级的队列模型进行耗时分析，从而实现了对深度神经网络训练的一次迭代耗时估计和对各硬件数据交互过程的分析，适用于不同的硬件环境(不同的服务器、不同种类的GPU、不同块数的GPU)和不同的神经网络。

Description

一种基于指令队列的分布式深度神经网络性能建模方法

技术领域

本发明属于基于特定计算模型的性能建模技术领域，具体涉及对在单块或多块图形处理器(GPU)上训练的深度神经网络性能的建模方法。

背景技术

中央处理器(Central Processing Unit，CPU)是一台计算机的运算核心和控制核心，图形处理器(Graphics Processing Unit,GPU)是一种图像运算工作的微处理器。相比CPU，GPU具有更多的计算单元，自GPU通用计算技术发展以来，GPU已广泛应用于大计算量的任务，尤其是在深度学习领域。

深度神经网络(Deep Neural Network，DNN)是指具有多个隐藏层的人工神经网络(Artificial Neutral Network，ANN)，其概念由多伦多大学的杰弗里·辛顿研究组于2006年提出。2012年会议NIPS(Advances in neural information processing systems)收录的文章“Imagenet classification with deep convolutional neural networks[C]”成功将深度神经网络引入计算机视觉领域，引发了深度学习的热潮。时至2018年，深度学习领域相关的研究已经有了数倍的增长，成功应用于计算机视觉、模式识别、自然语言处理等多个领域。在深度神经网络如此广泛应用的背景下，一种通用的高准确度的针对GPU上训练的深度神经网络性能建模方法是十分有意义的。目前针对GPU上训练的深度神经网络的性能建模方法主要通过实验收集底层数据来进行：例如，IEEE在2018年收录的文章“Performance modeling and evaluation of distributed deep learning frameworkson gpus[C]”中，针对三种不同的深度学习框架，构建了卷积神经网络一次迭代的时延模型，但是其模型构建依赖于实验结果，而且它也无法给出神经网络训练一次迭代的耗时估计；也有利用理论计算估计性能的做法：例如，会议ICLR(In Proceedings of theInternational Conference on Learning Representations)于2017年收录的文章“Paleo:A Performance Model for Deep Neural Networks[C]”针对不同的网络和分布式硬件环境构建了深度神经网络性能模型，将其映射到特定的软件、硬件和通信策略空间，用于探索深度学习系统的可扩展性，不过它的误差只能控制在30％以内。

发明内容

本发明的目的是提出一种基于指令队列的分布式深度神经网络性能建模方法，通过软硬件关键特征参数提取、单GPU性能建模、多GPU性能建模三大过程，实现对当前硬件环境和软件配置下该种结构的深度神经网络训练时一次迭代耗时的估计与各硬件数据交互的分析。

本发明基于指令队列的分布式深度神经网络性能建模方法，针对GPU上训练的深度神经网络一次迭代耗时建模，其特征在于：根据硬件性能参数、神经网络结构、底层计算架构(Compute Unified Device Architecture，CUDA)、数据传输协议、链路带宽特点、服务器GPU拓扑结构，对深度神经网络进行分层映射拆分、分段计算，然后利用指令队列对训练一次迭代耗时进行估计，同时输出各硬件间的数据交互情况；具体操作步骤为：

首先执行软硬件关键特征参数提取：在部署神经网络的GPU服务器上，使用linux系统指令查看硬件配置，提取硬件关键特征参数----包括硬件性能参数、链路带宽、服务器GPU拓扑结构；根据神经网络代码，提取软件关键特征参数----包括神经网络结构参数、数据传输协议；并将提取到的软硬件关键特征参数汇总成配置文件；

然后进行单GPU性能建模，将深度神经网络训练一次迭代耗时拆分为数据传输时间、前向传播时间、反向传播时间分别计算，其中前向传播时间和反向传播时间根据神经网络结构再进行分层拆分；再根据相应的CUDA核函数的计算原理得到执行一层的所有核函数，转化成指令；然后使用提出的队列模型将指令转化成耗时，最终得到一次迭代耗时的估计；

最后进行多GPU性能建模，基于单GPU性能建模的前向反向传播时间建模结果，结合GPU拓扑结构和吞吐量模型，根据传输模式构建传输模型，计算传输时间，最终得到一次迭代耗时的估计，同时输出硬件间的数据交互过程，包括开始和结束的时间、进行数据交互的硬件以及本次交互的数据量。

上述本发明基于指令队列的分布式深度神经网络性能建模方法的技术方案所带来的有益效果是：

1、本发明提出的基于指令队列的分布式深度神经网络性能建模方法，由于同时考虑了软硬件特征，能够准确估计深度神经网络训练的一次迭代耗时并输出各硬件数据交互过程。

2、由于本发明中提出了一种指令队列模型，从指令级别对一个CUDA核函数进行建模耗时分析，理论上适用于所有在GPU上执行的计算的耗时分析，具有极强的通用性，使本发明能够适用于对多种神经网络的建模分析。

3、本发明中引入了一种吞吐量模型，对数据交互过程中的吞吐量进行了更为精准的分析，加强了对数据交互过程的刻画。

4、本发明中引入了一种GPU拓扑模型，对服务器上的GPU连接拓扑进行建模分析，能够提升数据交互建模的效果，使本发明能够适用于对多块GPU的建模分析。

由于本发明基于指令队列的分布式深度神经网络性能建模方法同时考虑了软硬件特征，使用了指令级的队列模型进行耗时分析，从而实现了对深度神经网络训练的一次迭代耗时估计和对各硬件数据交互过程的分析，适用于不同的硬件环境(不同的服务器、不同种类的GPU、不同块数的GPU)和不同的神经网络。

附图说明

图1是本发明实施例1和实施例2中基于指令队列的分布式深度神经网络性能建模方法的工作流程示意图；

图2是本发明实施例1中针对参数服务器方法更新参数的分布式深度神经网络性能建模方法的工作流程示意图；

图3是本发明实施例2中针对集合通信方法更新参数的分布式深度神经网络性能建模方法的工作流程示意图；

图4是本发明实施例1和实施例2中计算密集型指令队列模型示意图；

图5是本发明实施例1和实施例2中存储密集型指令队列模型示意图；

图6是本发明实施例1和实施例2中吞吐量模型示意图；

图7是本发明实施例1中参数服务器模式传输模型示意图；

图8是本发明实施例2中集合通信模式传输模型示意图。

具体实施方式

下面结合附图和实施例对本发明基于指令队列的分布式深度神经网络性能建模方法作进一步具体详细的说明。

实施例1：

本实施例1介绍的针对使用参数服务器方法更新参数的分布式深度神经网络性能建模方法的工作流程，涉及到软硬件关键特征参数提取、单GPU性能建模和多GPU性能建模过程，最终实现对当前硬件环境和软件配置下该种深度神经网络训练时一次迭代耗时的估计，其中GPU性能建模包括指令队列模型、吞吐量模型、GPU拓扑模型、参数服务器/集合通信传输模型。

图1给出了基于指令队列的分布式深度神经网络性能建模方法工作流程示意图。如图1所示，具体的工作流程是：首先进行软硬件关键特征参数提取A，软硬件关键参数包含了计算相关参数A1(包括硬件性能参数、神经网络结构参数)和传输相关参数A2(包括数据传输协议、链路带宽、服务器GPU拓扑结构)，其中计算相关参数A1用于单GPU模式分层解析建模B，产生的单GPU建模结果B1和传输相关参数A2一起用于传输模型C，最后得到一次迭代耗时D；需要注意的是，根据神经网络更新参数的不同方法，基于指令队列的分布式深度神经网络性能建模方法可以分为两种不同的建模思路，一种为参数服务器模式传输模型，一种为集合通信模式传输模型，分别如图2和图3所示。

图2展示了本实施例针对使用参数服务器方法更新参数的分布式深度神经网络性能建模方法的工作流程示意图。具体的工作流程是：首先进行单GPU模式分层解析建模B，这里要用到计算相关参数A1，利用指令队列模型完成耗时估计，分层解析建模完成后，得到单GPU建模结果B1(包括分层执行时间、梯度数据量)；然后使用参数服务器传输模型C1进行多GPU性能建模，这里要用到单GPU建模结果B1、传输相关参数A2(包括数据传输协议、链路带宽、服务器GPU拓扑结构)以及吞吐量模型C3；多GPU性能建模完成，最后得到神经网络训练一次迭代耗时D。

所述单GPU模式分层解析建模B原理如下：

其中t_total为一次迭代总耗时，t_forward为前向传播总耗时，t_transfer为传输总耗时，

为前向一层的耗时，

为反向一层的耗时，

为前向一个核函数的耗时，

为反向一个核函数的耗时，data_size为传输数据量，throughput为传输吞吐量，分层解析建模将一次迭代总耗时分前向和反向分层拆分，一直细化到一个CUDA核函数的耗时，然后利用指令队列模型得到指令级的耗时估计。

所述指令队列模型用来估计CUDA核函数的GPU执行耗时，根据计算指令占比的不同分为计算密集型指令队列模型和存储密集型指令队列模型，分别如图4和图5所示。指令队列模型估计CUDA核函数耗时的具体原理为：根据一个具体CUDA核函数的计算原理和输入数据量，计算得到执行整个CUDA核函数所需的指令数，这里一共考虑四种指令，得到每种指令的数目后，根据计算指令的占比确定具体的指令队列模型，然后按照指令队列模型中指令的排列依赖关系，计算得到整个队列的执行周期数，最后将周期数转化为时间。

如图4所示为计算密集型指令队列模型，模型一共分为N个块迭代周期E1(N由块划分原理得到)，每个块迭代周期由四种指令的排列组成，四种指令分别为全局存储加载E2、共享存储加载E3、计算E4以及全局存储保存E5，每种指令具体数量由CUDA核函数计算原理、输入数据量以及N的大小决定。指令的分发需要一个周期，具体执行的周期更多，每种指令各不一样。在一个块(block)中，指令的执行顺序存在先后依赖关系，共享存储加载E3发生在所有全局存储加载E2分发完成之后(如从左第一根虚线所示)，计算指令发生在相应的共享存储加载完成之后，由于GPU大量计算单元的存在，计算指令在一个周期内可以分发多次，而全局存储保存E5则发生在所有计算指令执行完成(如从左第二根虚线所示)，等所有的全局存储保存E5分发完成，又可以开始下一个块的全局存储加载E2的分发了(如从左第三根和第四根虚线所示)。根据各指令如此的排列关系，可以得到所有指令执行完成所需的周期数，转化为时间，就是该CUDA核函数执行所需耗时。

如图5所示为存储密集型指令队列模型，块迭代周期F1中四种指令为全局存储加载F2、共享存储加载F3、计算F4以及全局存储保存F5，存储密集型指令队列模型与计算密集型指令队列模型的不同之处在于计算指令相比而言较少，一个计算指令需要多个共享存储加载F3执行完才开始执行，另外当共享存储加载F3分发完成就可以直接进行全局存储保存F5了，其余部分均与计算密集型指令队列模型一致。

所述吞吐量模型示意图由图6给出。吞吐量模型C3由大量传输实验得到，将每次传输的数据量和吞吐量记录下来，构成一个个散点，如图6所示；横轴数据量的对数值x与纵轴吞吐量y存在一个S型曲线的对应关系，如吞吐量模型示意图C4所示，对应的函数表达式为：

其中x为数据量(单位兆字节)的对数值，y为该次传输的吞吐量，e为自然常数，a、k、w为对应的常数系数，由大量散点的曲线拟合得到。

所述参数服务器传输模型C1原理如图7所示，由服务器GPU拓扑结构G8和计算传输耗时原理图G9两部分组成，其中服务器GPU拓扑结构G8包含了GPU和CPU，以图7为例，由CPUG1、GPU0 G2、GPU1 G3、GPU2 G4、GPU3 G5组成，计算传输耗时原理图G9由计算模块G6和传输模块G7组成。其中服务器GPU拓扑结构G8的作用是确定GPU到CPU链路的复用情况，从而确定GPU跟CPU之间数据传输的链路带宽；计算传输耗时原理图G9是按照使用参数服务器方法更新参数的神经网络训练时的前向反向传播原理得来，通过单GPU建模结果B1(计算模块G6耗时)和传输模块G7耗时得到最终的一次迭代耗时D，同时输出硬件间的数据交互过程(即传输模块)，包括开始和结束的时间、进行数据交互的硬件以及本次交互的数据量。

实施例2：

本实施例提供了针对使用集合通信方法更新参数的分布式深度神经网络性能建模方法的工作流程。本实施例与实施例1的不同之处在于使用的传输模型C不一样，如图3所示，本实施例使用了集合通信传输模型C2，其余部分皆与实施例1一致。

所述参数服务器传输模型C2原理如图8所示，由服务器GPU拓扑结构H8和计算传输耗时原理图H9两部分组成，其中服务器GPU拓扑结构H8包含了GPU和CPU，以图8为例，由CPUH1、GPU0 H2、GPU1 H3、GPU2 H4、GPU3 H5组成，计算传输耗时原理图H9由计算模块H6和参数更新核函数模块H7组成。其中服务器GPU拓扑结构H8的作用是确定GPU到CPU链路的复用情况，从而确定GPU之间利用集合通信进行数据传输时使用的通信环路的链路带宽；计算传输耗时原理图H9是按照使用集合通信方法更新参数的神经网络训练时的前向反向传播原理得来，通过单GPU建模结果B1(计算模块H6耗时)和参数更新核函数H7耗时得到最终的一次迭代耗时D，同时输出硬件间的数据交互过程(发生在参数更新核函数H7中)，包括开始和结束的时间、进行数据交互的硬件以及本次交互的数据量。

Claims

1.一种基于指令队列的分布式深度神经网络性能建模方法，针对GPU上训练的深度神经网络一次迭代耗时建模，其特征在于：根据硬件性能参数、神经网络结构、底层计算架构CUDA、数据传输协议、链路带宽特点、服务器GPU拓扑结构，对深度神经网络进行分层映射拆分、分段计算，然后利用指令队列对训练一次迭代耗时进行估计，同时输出各硬件间的数据交互情况；

具体操作步骤为：

然后进行单GPU性能建模，将深度神经网络训练一次迭代耗时拆分为数据传输时间、前向传播时间、反向传播时间分别计算，其中前向传播时间和反向传播时间根据神经网络结构再进行分层拆分；根据执行一层所需的CUDA核函数的计算原理和该层的输入数据量，推导得到执行CUDA核函数需要的所有底层指令----包括计算、全局存储加载、共享存储加载和全局存储保存四种指令；由计算指令占比确定所属的指令队列模型----计算密集型和存储密集型，从而计算出所有指令执行的周期数，将周期数转化为耗时，最终得到一次迭代耗时的估计；