CN108108813A

CN108108813A - 一种大类别深度学习gpu并行加速的方法

Info

Publication number: CN108108813A
Application number: CN201711251410.3A
Authority: CN
Inventors: 石宇; 徐卉; 程诚; 周祥东
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-06-01

Abstract

本发明提供一种大类别深度学习GPU并行加速的方法，包括：采用模型并行对深度神经网络结构中的softmax层的模型参数进行训练，每个GPU训练各自的模型分片，各GPU的softmax层之间通过交互模型参数的数据特征，完成深度学习；本发明采用混合式架构，即softmax层之前的所有层级，依然是采用数据并行方式，softmax层采用模型并行方式，突破了大类别深度学习并行运算的瓶颈，克服了在深度神经网络结构中的最后一层全链接层上，进行参数交互的通信成本和花费的通信时间过高的问题，能够在保持原有深度学习效果的同时，大幅度提升模型学习效率，减少GPU占用率。

Description

一种大类别深度学习GPU并行加速的方法

技术领域

本发明涉及计算机及其应用领域，尤其涉及一种大类别深度学习GPU并行加速的方法。

背景技术

目前，深度学习在几个主要领域都获得了突破性的进展：在语音识别领域，在图像识别领域，在自然语言处理领域。可以说到目前为止，深度学习是最接近人类大脑的智能学习方法。但是深度学习模型参数多，计算量大，训练数据的规模也更大，需要消耗很多计算资源。如果可以让训练加速，工作效率会明显提升，对于大规模的训练数据和模型来说，更可以将难以完成的任务变成可能。

随着GPU的大规模并行架构支持的不断推进，面向通用计算的GPU(General-Purposed GPU,GPGPU)已成为加速可并行应用程序的重要手段。得益于GPU众核(many-core)体系结构，程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍。利用GPU来训练深度神经网络，可以充分发挥其数以千计计算核心的高效并行计算能力，在使用海量训练数据的场景下，所耗费的时间大幅缩短，占用的服务器也更少。

目前大部分服务器都有8个或更多的GPU。原则上，使用更多的GPU可以大幅度地提升效率，但实现起来有一定困难，处理器之间需要交互大量的数据，并且花费更多的时间进行通信而非计算。传统的深度学习并行方法都是数据并行，将数据划分为几个分片，每个GPU处理其中一份，并且进行参数交互。但对于类别数很多的数据，在深度神经网络结构中的最后一层全链接层上，进行参数交互的通信成本太高，花费的通信时间远高过参数计算的时间，成为大类别深度学习并行运算的瓶颈，因此，需要一种新的技术手段，能够在保持原有深度学习效果的同时，大幅度提升模型学习效率，减少GPU占用率。

发明内容

鉴于以上所述现有技术的缺点，本发明提供一种大类别深度学习GPU并行加速的方法，以解决上述技术问题。

本发明提供的一种大类别深度学习GPU并行加速的方法，包括：

采用模型并行对深度神经网络结构中的softmax层的模型参数进行训练；

每个GPU训练各自的模型分片，获取模型参数的数据特征；

各GPU的softmax层之间通过交互模型参数的数据特征，完成深度学习。

进一步，采用混合架构对深度神经网络结构中的模型参数进行训练，所述混合结构包括采用模型并行对深度神经网络结构中的softmax层的模型参数进行训练，采用数据并行对深度神经网络结构中的其他层的模型参数进行训练。

进一步，所述模型并行包括将完整模型划分为若干模型分片，每个模型分片分别在不同的GPU上进行参数训练。

进一步，将深度神经网络结构中的softmax层划分为若干个模型分片，分别在不同的GPU上进行参数训练，每个GPU计算各自的模型分片，并获取对应模型分片的参数数据特征，所述模型分片的数量与GPU的数量一致。

进一步，所述数据并行包括，根据GPU数量对训练数据进行切分，通过不同的GPU对切分后的训练数据分别进行训练，获取训练数据特征组，各GPU之间通过训练数据特征数组进行交互，所述训练数据为传输图像数据。

进一步，每个GPU完成自己的模型分片计算后，将所有GPU上的模型分配组合为一个完整的模型。

进一步，通过all-gather算法，将数据传输至每块GPU上。

本发明的有益效果：本发明中的大类别深度学习GPU并行加速的方法，采用混合式架构，突破了大类别深度学习并行运算的瓶颈，克服了在深度神经网络结构中的最后一层全链接层上，进行参数交互的通信成本和花费的通信时间过高的问题，能够在保持原有深度学习效果的同时，大幅度提升模型学习效率，减少GPU占用率。

附图说明

图1是本发明实施例中的大类别深度学习GPU并行加速的方法流程示意图。

图2是本发明实施例中的大类别深度学习GPU并行加速的方法原理示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，本实施例中的大类别深度学习GPU并行加速的方法，包括：

每个GPU训练各自的模型分片，获取模型参数的数据特征；

传统深度学习采用的GPU数据并行，假设一个深度神经网络结构有7层，共有4个GPU，图像数据的batch_size为64，图像特征的维度为128，类别数为100万，最后一层softmax层需要处理的数据参数如下：每个GPU处理的数据参数量为64*128，模型参数量为128*100W，每个GPU针对不同的数据，在同一模型结构上进行训练，GPU间需要交互的参数量为4*128*100W。即，每个GPU利用部分数据，训练完整的模型，但由于GPU间数据有差别，所以最后需要将每个GPU上计算的模型参数汇总，由此可见，百万级的参数量已经严重影响模型的学习效率，在实际的工作过程中，深度学习模型参数多，计算量大，训练数据的规模也更大，需要消耗很多计算资源，对于类别数很多的数据，在深度神经网络结构中的最后一层全链接层上，花费的通信时间远高过参数计算的时间。

在本实施例中，采用混合架构对深度神经网络结构进行训练，对于网络结构中的其他层，需要交互的参数量不多，在GPU并行过程中，产生的通信成本不高，可以采用数据并行方法，本实施例在最后一层softmax层中采用模型并行的方式，由于模型参数的数量与数据类别数息息相关，针对大类别的深度学习，最后一层的参数交互就成为了算法性能的瓶颈。本实施例中的混合架构将最后一层softmax层由数据并行改为模型并行，可以大幅度提升算法性能，本实施例利用GPU的特性，将softmax层改为模型并行，即每块GPU在softmax层不再将模型参数共享给其他GPU，而是将参数特征通信给其他GPU，大大降低了通信成本，每块GPU不是拥有完全的模型参数，而是只有各自计算的这一部分参数，这部分参数称为一个模型分片。

模型并行包括将完整模型划分为若干分片，每个分片分别在不同的GPU上进行运行，在本实施例中，将深度神经网络结构中的softmax层划分为若干个模型分片，分别在不同的GPU上进行参数训练，每个GPU计算各自的模型分片，并获取对应模型分片的参数数据特征，模型分片的数量与GPU的数量一致，每个GPU完成自己的模型分片计算后，再将所有GPU上的模型分配组合为一个完整的模型。

如图2所示，本实施例在softmax层之前先将各GPU上的数据(即图像特征)通过all-gather的方式通信，达到每块GPU上都有全部的数据信息。接下来再通过模型并行的方式来训练softmax层。在本实施例中，以4核GPU为例，将最后一层改为模型并行，则将一个完整模型划分为4个模型分片，每个模型分片分别在4个GPU上进行计算，各个GPU不再需要进行模型参数的通信，而是通过将参数特征通信给其他GPU。本实施例通过采用GPU的all-gather算法，使每个GPU上都能获得所有的数据信息。这样，每个GPU都可以根据所有的数据信息来训练自己的模型分片，保证了模型的每个部分都是由所有的数据学习得到的，在本实施例中，A,B,C,D视为每个GPU上处理的数据部分(图片特征)，数据量即为上述的64*128，通过all-gather算法，将数据部分(即图片特征)传输至每块GPU上，以保证4个GPU上的数据完全一致。每个GPU只计算自己的模型分片，而传输的信息由模型参数变为特征参数，数据量上由4*128*100W变为4*64*128。最后再将4个GPU上的模型分片组合为一个完整的模型，极大幅度的降低了softmax层通信的数据量，本发明利用GPU的特征对深度学习的架构进行优化，尤其适用于大类别情况，通过将深度学习架构优化成混合模式，从而大大提高了实际应用中学习效率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种大类别深度学习GPU并行加速的方法，其特征在于，包括：

每个GPU训练各自的模型分片，获取模型参数的数据特征；

2.根据权利要求1所述的大类别深度学习GPU并行加速的方法，其特征在于，采用混合架构对深度神经网络结构中的模型参数进行训练，所述混合结构包括采用模型并行对深度神经网络结构中的softmax层的模型参数进行训练，采用数据并行对深度神经网络结构中的其他层的模型参数进行训练。

3.根据权利要求2所述的大类别深度学习GPU并行加速的方法，其特征在于，所述模型并行包括将完整模型划分为若干模型分片，每个模型分片分别在不同的GPU上进行参数训练。

4.根据权利要求3所述的大类别深度学习GPU并行加速的方法，其特征在于，将深度神经网络结构中的softmax层划分为若干个模型分片，分别在不同的GPU上进行参数训练，每个GPU计算各自的模型分片，并获取对应模型分片的参数数据特征，所述模型分片的数量与GPU的数量一致。

5.根据权利要求4所述的大类别深度学习GPU并行加速的方法，其特征在于，所述数据并行包括，根据GPU数量对训练数据进行切分，通过不同的GPU对切分后的训练数据分别进行训练，获取训练数据特征组，各GPU之间通过训练数据特征数组进行交互，所述训练数据为传输图像数据。

6.根据权利要求5所述的大类别深度学习GPU并行加速的方法，其特征在于，每个GPU完成自己的模型分片计算后，将所有GPU上的模型分配组合为一个完整的模型。

7.根据权利要求4所述的大类别深度学习GPU并行加速的方法，其特征在于，通过all-gather算法，将数据传输至每块GPU上。