CN111368988A

CN111368988A - 一种利用稀疏性的深度学习训练硬件加速器

Info

Publication number: CN111368988A
Application number: CN202010128655.2A
Authority: CN
Inventors: 杨建磊; 戴鹏程; 赵巍胜
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03
Anticipated expiration: 2040-02-28
Also published as: CN111368988B

Abstract

本发明公开了一种利用稀疏性的深度学习算法训练加速器及加速训练方法，将模型训练的计算过程分解为多个一维离散稀疏卷积操作及其结果的求和。本发明的加速器可以同时支持激活值稀疏性和梯度稀疏性，同时支持仅计算结果向量的指定分量；显著降低了训练过程的计算与访存开销；另外在该加速器的基础上引入梯度计算结果的剪枝，提高了梯度数据稀疏性，从而进一步提升计算性能和效率。

Description

一种利用稀疏性的深度学习训练硬件加速器

技术领域

本发明属于深度学习及硬件加速器技术领域，尤其涉及一种针对深度学习模型训练过程的加速器及加速训练方法。

背景技术

深度学习是人工智能领域的一类常见模型和算法，其主要通过反向传播算法训练一个深度神经网络模型，从而自动的从给定的大量数据上抽取相应的特征并完成分类等任务。深度学习算法被广泛应用于计算机视觉、自然语言处理、自动驾驶等多个领域。

然而，随着深度学习模型深度的不断加深和数据规模的不断加大，模型所需的计算量、存储量和功耗也越来越大。深度学习模型的使用包括两个步骤：训练，推断。其中，由于模型的训练比推理花费更多的计算量和空间，因此训练过程面临着更为严重的速度和功耗瓶颈。现有的深度学习模型训练通常是在大规模集群上，利用图形处理器进行计算，其实际的能量效率是较低的。

利用数据稀疏性加速模型运算是一种常用的加速方法。在深度学习模型的训练过程中，中间数据(激活值及梯度值)存在着一定的稀疏性，因此也可以被利用从而加速模型训练。但是训练过程中的稀疏性是不规则的，因此难以被现有的硬件利用。

发明内容

为了加速深度学习的训练过程，本发明提出一种硬件加速器结构及加速训练方法，通过利用训练过程中的中间数据稀疏性的方法来加速模型训练、降低运算功耗。本发明的具体技术方案如下：

一种利用稀疏性的深度学习训练硬件加速器，其特征在于，包括全局缓存，控制单元和运算单元阵列，其中，

所述全局缓存通过数据总线与片外存储进行数据交换，用于存储计算过程中的数据；

所述控制单元与片外的主机CPU相连，根据主机指令控制片上的数据流动并调度运算单元阵列；

所述运算单元阵列由多个运算单元组构成，每个运算单元组包含至少一个运算单元和一个后处理单元，所述运算单元用于执行训练过程中的一维稀疏离散卷积操作及向量点积操作，所述后处理单元用于执行训练过程中的逐点操作、数据格式转换、数据统计以及数据剪枝操作；

所述运算单元阵列从所述全局缓存中读取数据，通过数据广播将数据分发至运算单元，每个运算单元执行一个一维行卷积操作，每个运算单元组的至少一个运算单元的操作结果相加并输出到后处理单元进行非线性操作和数据格式变换后，输出结果存回所述全局缓存中，实现数据的复用。

基于前述的一种利用稀疏性的深度学习训练硬件加速器的加速训练方法，其特征在于，针对深度学习网络模型的训练过程，将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和，具体步骤如下：

S1：将前向传播过程中的卷积运算分解为多个稀疏行卷积及其结果的求和，所述稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作；前向传播过程中网络模型的输入数据和输出数据为激活值数据；

S2：反向传播过程中，网络模型输出误差对激活值数据的导数为激活值梯度数据；将反向传播过程中生成激活值梯度数据的卷积运算，或前向传播过程中卷积步长大于1的卷积运算，分解为多个掩码化稀疏行卷积及其结果的求和，所述掩码化稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作，并根据输入的掩码向量预测结果向量中值为零的分量并直接跳过这些分量的计算过程；所述掩码向量用于指示结果向量中应被跳过的分量，所述掩码向量的来源为步骤S1的输出或根据预先指定的稀疏模式设计好的掩码向量。

S3：反向传播过程中，网络模型输出误差对权重值数据的导数为权重值梯度数据；将反向传播过程中的权重值梯度数据计算的卷积运算分解为多个固定输出的稀疏行卷积及其结果的求和，所述固定输出的稀疏行卷积运算是在两个稀疏长向量间进行的一维离散卷积操作，并按要求只进行结果向量中部分分量数据的计算。

进一步地，根据前述的加速训练方法，其特征在于，针对全连接神经网络和递归神经网络，所述训练方法包括以下步骤：

Step1：将前向传播过程中的矩阵乘法运算，分解为多个向量点积及其结果的求和；

Step2：将反向传播过程中的激活值梯度数据生成的矩阵乘法运算，分解为多个向量点积及其结果的求和；

Step3：将反向传播过程中的权重值梯度数据计算的运算，分解为多个一维向量的数乘运算。

进一步地，所述训练方法还包括完成步骤S2后，在所述后处理单元中对激活值梯度值数据进行人工剪枝。

进一步地，步骤S1还包括对激活值数据通过压缩稀疏行格式进行压缩编码后，参与计算和存储。

进一步地，步骤S2还包括对激活值梯度数据通过压缩稀疏行格式进行压缩编码后，参与计算和存储。

进一步地，对于包含池化层的深度学习网络模型，所述加速训练方法还包括将池化层的输出激活值数据编码为池化格式，并以所述池化格式进行存储和传输，所述池化格式包含数据向量和指针向量，所述数据向量以行优先的顺序记录每个输出数据的值，所述指针向量中的每个分量记录所述数据向量中对应位置的值在池化操作窗口中的相对位置；所述池化操作窗口是指池化操作过程中每个输出数据所对应的输入数据窗口。

进一步地，所述深度学习网络模型包括卷积层、非线性层、GRU层、LSTM层、全连接层、池化层、BN层中的至少一种。

本发明的有益效果在于：

1.本发明的加速器及加速训练方法针对深度学习模型的训练过程，将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和。通过这种方式，加速器能够充分利用训练过程中的数据稀疏性，从而减少计算量，提高计算速度；

2.本发明的加速器及加速训练方法可以在计算过程中实时对中间数据进行剪枝，从而进一步提高数据稀疏性，提高了性能；可以在存储和计算过程中，使用压缩稀疏行格式对稀疏数据进行编码，减少了访存和数据传输开销，提高了能效；

3.本发明的加速器及加速训练方法可以将池化层的输出激活值数据编码为池化格式，减小该部分数据存储和传输开销；

4.本发明的加速器包含由多个PE和PPU单元组成的计算单元阵列，通过并行的进行计算和数据重用进一步提高速度和能效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明一个实施例的系统整体结构示意图；

图2是本发明一个实施例的稀疏行卷积操作示意图；

图3是本发明一个实施例的掩码化稀疏行卷积操作示意图；

图4是本发明一个实施例的固定输出的稀疏行卷积操作示意图；

图5是本发明一个实施例的池化格式示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1是本发明一个实施例的系统整体结构示意图。一种利用稀疏性的深度学习训练硬件加速器，其特征在于，包括全局缓存，控制单元和运算单元阵列，其中，全局缓存通过数据总线与片外存储进行数据交换，用于存储计算过程中的数据；控制单元与片外的主机CPU相连，根据主机指令控制片上的数据流动并调度运算单元阵列；运算单元阵列由多个运算单元组构成，每个运算单元组包含至少一个运算单元PE和一个后处理单元PPU，运算单元PE用于执行训练过程中的一维稀疏离散卷积操作及向量点积操作，后处理单元PPU用于执行训练过程中的逐点操作、数据格式转换、数据统计以及数据剪枝操作；

运算单元阵列从全局缓存中读取数据，通过数据广播将数据分发至运算单元，每个运算单元执行一个一维行卷积操作，每个运算单元组的至少一个运算单元的操作结果相加并输出到后处理单元进行非线性操作和数据格式变换后，输出结果存回全局缓存中，实现数据的复用。数据在整个存储、传输和计算过程中，是以稀疏编码的方式存在。经过多轮循环，可完成相应模型训练过程的所有计算。

基于本发明的一种利用稀疏性的深度学习训练硬件加速器的加速训练方法，针对深度学习网络模型的训练过程，将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和，图2-4为一维行卷积操作的具体形式及其来源，一维离散稀疏卷积操作步骤包括：

S1：将前向传播过程中的卷积运算分解为多个稀疏行卷积及其结果的求和，稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作；前向传播过程中网络模型的输入数据和输出数据为激活值数据；图2是本发明的稀疏行卷积操作示意图，图中I_n和O_n分别代表某卷积层的输入激活值和输出激活值，一个卷积层的前向传播过程可以被分解为多个稀疏行卷积操作，每个稀疏行卷积包含两个操作数，分别是激活值的一行(一个稀疏的长向量)和权值的一行(一个稠密的短向量)，卷积结果是输出激活值的一部分，将多个这样的稀疏行卷积结果相加或合并，即可得到整个卷积层运算的输出。

S2：反向传播过程中，网络模型输出误差对激活值数据的导数为激活值梯度数据；将反向传播过程中生成激活值梯度数据的卷积运算，或前向传播过程中卷积步长大于1的卷积运算，分解为多个掩码化稀疏行卷积及其结果的求和，掩码化稀疏行卷积运算是在一个稀疏长向量和一个稠密短向量间进行的一维离散卷积操作，并按预定的模式将结果向量中某些分量直接置零并跳过其计算过程；图3是本发明的掩码化稀疏行卷积操作示意图，图中dO_n-1、dI_n和dO_n分别代表上一层的输出激活值的梯度、本层输入激活值的梯度和本层输出激活值，图中最上面是一个卷积层的激活值梯度计算过程，其可以被分解为多个掩码化稀疏行卷积，掩码化稀疏行卷积也包含一个稀疏的长向量(来源于梯度值)和稠密的短向量(来源于权值)，不同于图2之处在于，掩码化稀疏行卷积根据一个输入掩码向量，跳过结果中某些分量的计算，从而节省了时间和功耗。

S3：反向传播过程中，网络模型输出误差对权重值数据的导数为权重值梯度数据；将反向传播过程中的权重值梯度数据计算的卷积运算分解为多个固定输出的稀疏行卷积及其结果的求和，固定输出的稀疏行卷积运算是在两个稀疏长向量间进行的一维离散卷积操作，并按要求只进行结果向量中部分分量数据的计算；图4是本发明的固定输出的稀疏行卷积操作示意图，图中I_n、dO_n和dW_n分别代表本层输入激活值、本层输出激活值的梯度以及本层参数的梯度，图中最上面是一个卷积层的权重梯度计算过程，其可以被分解为多个固定输出的稀疏行卷积，固定输出的稀疏行卷积包含两个稀疏的长向量(分别来源于激活值和梯度值)，其输出是一个稠密短向量。

针对全连接神经网络和递归神经网络，训练方法包括以下步骤：

Step1：将前向传播过程中的矩阵乘法运算，分解为多个向量点积及其结果的求和；此处将多个向量点积及其结果的求和视为步骤S3的一种情况进行计算；

Step2：将反向传播过程中的激活值梯度数据生成的矩阵乘法运算，分解为多个向量点积及其结果的求和；此处将多个向量点积及其结果的求和视为步骤S3的一种情况进行计算；

Step3：将反向传播过程中的权重值梯度数据计算的运算，分解为多个一维向量的数乘运算；此处将多个一维向量的数乘运算视为步骤S1的一种情况进行计算。

训练方法还包括完成步骤S2后，在所述后处理单元中对激活值梯度值数据进行人工剪枝，从而提高梯度数据的稀疏度。

步骤S1还包括对激活值数据通过压缩稀疏行格式进行压缩编码后，参与计算和存储，从而减小存储和传输开销。

步骤S2还包括对激活值梯度数据通过压缩稀疏行格式进行压缩编码后，参与计算和存储，从而减小存储和传输开销。

对于包含池化层的深度学习网络模型，加速训练方法还包括将池化层的输出激活值数据编码为池化格式，并以池化格式进行存储和传输，池化格式包含数据向量和指针向量，数据向量以行优先的顺序记录每个输出数据的值，指针向量中的每个分量记录数据向量中对应位置的值在池化操作窗口中的相对位置；池化操作窗口是指池化操作过程中每个输出数据所对应的输入数据窗口。图5所示为池化格式的一个示意图。池化层的输出激活值被存储在两个向量里，值向量以行优先的顺序存储输出激活值的每一个非零元素；对于值向量的每一个元素，指针向量对应的使用各2bit数据(共4bit)存储其在池化方格中的相对行位置和列位置。在前向传播过程中，该输出被存储。反向传播过程中，该数据格式可被PE识别为稀疏格式。

本发明的加速器及加速方法适用的深度学习网络模型包括卷积层、非线性层、GRU层、LSTM层、全连接层、池化层、BN层中的至少一种。

在本发明中，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用稀疏性的深度学习训练硬件加速器，其特征在于，包括全局缓存，控制单元和运算单元阵列，其中，

2.基于权利要求1所述的一种利用稀疏性的深度学习训练硬件加速器的加速训练方法，其特征在于，针对深度学习网络模型的训练过程，将其计算过程分解为多个一维离散稀疏卷积操作及其结果的求和，具体步骤如下：

3.根据权利要求2所述的加速训练方法，其特征在于，针对全连接神经网络和递归神经网络，所述训练方法包括以下步骤：

4.根据权利要求2所述的加速训练方法，其特征在于，所述训练方法还包括完成步骤S2后，在所述后处理单元中对激活值梯度值数据进行人工剪枝。

5.根据权利要求2所述的加速训练方法，其特征在于，步骤S1还包括对激活值数据通过压缩稀疏行格式进行压缩编码后，参与计算和存储。

6.根据权利要求2所述的加速训练方法，其特征在于，步骤S2还包括对激活值梯度数据通过压缩稀疏行格式进行压缩编码后，参与计算和存储。

7.根据权利要求2所述的加速训练方法，其特征在于，对于包含池化层的深度学习网络模型，所述加速训练方法还包括将池化层的输出激活值数据编码为池化格式，并以所述池化格式进行存储和传输，所述池化格式包含数据向量和指针向量，所述数据向量以行优先的顺序记录每个输出数据的值，所述指针向量中的每个分量记录所述数据向量中对应位置的值在池化操作窗口中的相对位置；所述池化操作窗口是指池化操作过程中每个输出数据所对应的输入数据窗口。

8.根据权利要求2-7任一项所述的加速训练方法，其特征在于，所述深度学习网络模型包括卷积层、非线性层、GRU层、LSTM层、全连接层、池化层、BN层中的至少一种。