CN115470882A

CN115470882A - 神经网络归一化训练方法及其架构单元

Info

Publication number: CN115470882A
Application number: CN202110652981.8A
Authority: CN
Inventors: 王中风; 鲁金铭
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-12-13

Abstract

本申请公开一种神经网络归一化训练方法及其架构单元，所述方法中前向传播过程包括：对输入特征向量求绝对值，根据绝对值及输入特征向量的大小获取平均值；将平均值加上常数后求倒数，得中间参数；将输入特征向量乘中间参数，得中间特征向量；用可训练参数对特征向量线性变换，得输出结果；反向传播过程包括：对误差特征向量累加得第一参数的梯度；将误差特征向量与中间特征向量乘积累加，得第二参数的梯度；将第二参数的梯度除以输入特征向量的大小得均值；根据中间参数、第二参数、误差特征向量、中间特征向量及均值，计算输出梯度。采用前述方案，避免对batch‑size与卷积层数据依赖，降低存储需求及处理延时，不涉及平方、开方等复杂运算，对硬件友好。

Description

神经网络归一化训练方法及其架构单元

技术领域

本申请涉及神经网络技术领域，尤其涉及一种神经网络归一化训练方法及其架构单元。

背景技术

随着人工智能(AI)的不断发展，它已经从早期的人工特征工程进化到现在可以从海量数据中学习，在机器视觉、语音识别以及自然语言处理等领域都取得了重大突破。其中，DNN(Deep Neural Network，深度神经网络)在人工智能领域受到越来越多的青睐。近年来，随着DNN在实际生产生活中得到越来越广泛的应用，尤其是在线学习、增量学习、联邦学习等技术的兴起，同时人们对数据隐私的保护也越来越重视，因此，在端侧设备上进行高能效的DNN训练逐渐成为一个迫切的需求。

在现代主流DNN模型中，BN层对保证模型收敛以及提高模型精度起着至关重要的作用。归一化层广泛应用于各种DNN模型中，通常情况下，其位于卷积层之后，用于将卷积层的输出激活值进行归一化处理。在DNN推理加速器的设计中，BN层可以和其相邻的卷积层进行融合计算。然而，在训练过程中，BN层是不可避免的部分。面向高效片上训练，BN层有着不可忽视的缺陷：1)BN层对模型训练的帮助，严重依赖于batch-size(批大小)的大小，当batch-size过小时，模型精度会严重受损，当batch-size过大时，又会带来过高的硬件的带宽和存储的需求；2)BN层是在一整个批次的输入特征图上进行归一化操作，因此只有前面的卷积层完成一整个批次的计算之后，才能开启BN层的计算，因此造成明显的访存开销和计算延时；3)BN层的计算涉及一些复杂的运算，如平方、开方、除法等，对硬件实现不友好；4)BN层的前反向计算差异较大，且计算流程复杂，会造成较大的硬件资源开销。

因此，目前亟需一种神经网络归一化训练方法，来解决上述问题。

发明内容

本申请提供了一种神经网络归一化训练方法及其架构单元，以解决现在技术中BN层存在的问题。

第一方面，本申请实施例提供一种神经网络归一化训练方法，包括前向传播过程和反向传播过程；

所述前向传播过程包括：

根据卷积层的输出特征，获取输入特征向量；

对所述输入特征向量求绝对值，根据得到的绝对值以及输入特征向量的大小，获取平均值；

将所述平均值加上常数之后，对其求倒数，获得中间参数；

将所述输入特征向量与中间参数相乘，获得中间特征向量；

利用可训练参数对所述特征向量进行线性变换，得到输出结果；其中，可训练参数包括第一参数和第二参数；

将所述中间参数和所述中间特征向量进行缓存；

所述反向传播过程包括：

根据卷积层的输出梯度，获取误差特征向量；

将所述前向传播过程缓存的中间参数和所述中间特征向量取出；

对所述误差特征向量进行累加，得到第一参数的梯度；

对所述误差特征向量与中间特征向量的乘积进行累加，得到第二参数的梯度；

将所述第二参数的梯度除以输入特征向量的大小，得到均值；

根据中间参数、第二参数、误差特征向量、中间特征向量以及均值，计算得到输出梯度。

结合第一方面，在一种实现方式中，所述输入特征向量采用方式获取：

x＝X_b,:,:,c∈R^N，其中，N＝H×W；

其中，x表示输入特征向量，X表示卷积层的输出特征，b表示batch-size维度，c表示通道维度，H表示卷积层的输出特征的高，W表示卷积层的输出特征的宽。

结合第一方面，在一种实现方式中，所述误差特征向量采用方式获取：

dy＝E_b,:,:,c∈R^N，其中，N＝H×W；

其中，dy表示误差特征向量，E表示卷积层的输出梯度。

结合第一方面，在一种实现方式中，所述输出梯度的计算方法如下：

其中，dx表示输出梯度，γ表示中间参数，λ表示第二参数，dy_i表示误差特征向量的第i个元素，

表示中间特征向量，mean表示均值。

第二方面，本申请实施例部分提供了一种神经网络归一化训练架构单元，包括：控制器、寄存器组、组织网络和基本运算单元；

所述控制器用于配置寄存器和组织网络；

所述寄存器用于寄存计算过程及结果；

所述组织网络，用于以任意计算需求的形式将基本运算单元和寄存器组织起来；

所述基本运算单元包括：绝对值、除法器、乘法器、乘加器和累加器；所述基本运算单元用于计算第一方方面任一项中前向传播过程和反向传播过程中涉及的运算。

结合第二方面，在一种实现方式中，

基本运算单元用于计算前向传播过程涉及的运算具体过程如下：

依次利用绝对值、累加器和除法器完成对所述输入特征向量求绝对值，根据得到的绝对值以及输入特征向量的大小，获取平均值；

依次利用累加器和除法器完成将所述平均值加上常数之后，对其求倒数，获得中间参数；

依次利用乘法器和乘加器完成将所述输入特征向量与中间参数相乘，获得中间特征向量以及利用可训练参数对所述特征向量进行线性变换，得到输出结果；

基本运算单元用于计算反向传播过程涉及的运算具体过程如下：

依次利用乘法器和累加器完成对所述误差特征向量与中间特征向量的乘积进行累加，得到第二参数的梯度；

利用乘法器、累加器和除法器并行运算，其中，所述乘法器用于完成中间参数和第二参数的乘法，累加器用于完成对所述误差特征向量进行累加，得到第一参数的梯度；除法器用于完成将所述第二参数的梯度除以输入特征向量的大小，得到均值；

利用乘加器和乘法器完成根据中间参数、第二参数、误差特征向量、中间特征向量以及均值，计算得到输出梯度。

本申请实施例公开了一种神经网络归一化训练方法及装置，其中，所述方法包括前向传播过程和反向传播过程；所述前向传播过程包括：根据卷积层的输出特征，获取输入特征向量；对所述输入特征向量求绝对值，根据得到的绝对值以及输入特征向量的大小，获取平均值；将所述平均值加上常数之后，对其求倒数，获得中间参数；将所述输入特征向量与中间参数相乘，获得中间特征向量；利用可训练参数对所述特征向量进行线性变换，得到输出结果；其中，可训练参数包括第一参数和第二参数；将所述中间参数和所述中间特征向量进行缓存；所述反向传播过程包括：根据卷积层的输出梯度，获取误差特征向量；将所述前向传播过程缓存的中间参数和所述中间特征向量取出；对所述误差特征向量进行累加，得到第一参数的梯度；对所述误差特征向量与中间特征向量的乘积进行累加，得到第二参数的梯度；将所述第二参数的梯度除以输入特征向量的大小，得到均值；根据中间参数、第二参数、误差特征向量、中间特征向量以及均值，计算得到输出梯度。采用前述的方案，其训练方法中不涉及batch-size，避免对于batch-size的依赖，可以任意batch-size训练，降低存储需求，且以通道为单位进行流水处理，避免与前面卷积层的数据依赖，从而降低处理延时，更近一步地，没有涉及平方、开方等复杂的运算，对硬件更加友好，减少硬件资源开销。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种神经网络归一化训练方法的流程示意图；

图2是本申请本申请实施例提供的一种神经网络归一化训练架构单元的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

由背景技术可知，对于深度神经网络，目前，主要采用BN层对其进行训练，其具体的训练过程可以参照现有技术，从BN的训练方法中，可以看出，BN层在DNN训练中硬件资源开销大、计算复杂度高、延时高、数据存储开销较大等诸多缺陷，因此，本申请实施例公开了一种基于L1范数的滤波器相应归一化层的训练方法，即提出一种新的神经网络归一化训练方法，(L1-FRN，Filter Response Normalization)，并设计了相应的训练硬件架构单元，来解决上述问题。

假设卷积层的输出是形状为[B，H，W，C]的张量，其中，B表示批大小，H表示高，W表示宽，C表示通道，L1-FRN对于每个通道分别进行归一化训练。

参照图1，本申请实施例公开的一种神经网络归一化训练方法，包括前向传播过程和反向传播过程。

所述前向传播过程包括：

S1，根据卷积层的输出特征，获取输入特征向量。

本步骤中，所述输入特征向量采用方式获取：

x＝X_b,:,:,c∈R^N，其中，N＝H×W；

其中，x表示输入特征向量，X表示卷积层的输出特征，b表示batch-size维度，c表示通道(channel)维度，H表示卷积层的输出特征的高，W表示卷积层的输出特征的宽，N表示输入特征向量的大小。

S2，对所述输入特征向量求绝对值，根据得到的绝对值以及输入特征向量的大小，获取平均值。

本步骤是对输入特征向量x求绝对值的平均值，即先求输入特征向量绝对值，然后根据输入特征向量的大小获取平均值。

具体的，本步骤可以采用如下公式表示：

其中，v表示平均值，N表示输入特征向量的大小，x_i表示输入特征向量的第i个元素。

S3，将所述平均值加上常数之后，对其求倒数，获得中间参数。

本步骤是将上一步骤得到的平均值v(防止出现除以0)先加上一个常数，然后对其求倒数，获得一个数值，称为中间参数。

具体的，本步骤可以采用如下公式表示：

其中，λ表示中间参数，ε表示一个常数，以防止出现分母为0况情况。

S4，将所述输入特征向量与中间参数相乘，获得中间特征向量。

本步骤是将输入特征向量x_i乘以上一步骤(步骤S3)获得的中间参数λ，获得一个新的向量，称为中间特征向量。

具体的，本步骤可以采用如下公式表示：

S5，利用可训练参数对所述特征向量进行线性变换，得到输出结果；其中，可训练参数包括第一参数和第二参数。

具体的，本步骤可以采用如下公式表示：

其中，γ和β为可训练参数。

S6，将所述中间参数和所述中间特征向量进行缓存。

本步骤是将上面得到的中间参数λ以及中间特征向量

进行存储，以便后续用于反向传播过程的计算。

所述反向传播过程包括：

S7，根据卷积层的输出梯度，获取误差特征向量。

本步骤中，所述误差特征向量采用方式获取：

dy＝E_b,:,:,c∈R^N，其中，N＝H×W；

其中，dy表示误差特征向量，也就是一个通道的梯度，E表示卷积层的输出梯度。

S8，将所述前向传播过程缓存的中间参数和所述中间特征向量取出。

本步骤中，将前向传播过程中存储的中间参数λ和中间特征向量

取出，以供后续计算使用。

S9，对所述误差特征向量进行累加，得到第一参数的梯度。

具体的，本步骤可以采用如下公式表示：

其中，dβ表示第一参数的梯度，β表示可训练的第一参数，dy_i表示误差特征向量的第i个元素。

S10，对所述误差特征向量与中间特征向量的乘积进行累加，得到第二参数的梯度。

具体的，本步骤可以采用如下公式表示：

其中，dγ表示第二参数的梯度，β表示可训练的第二参数。

S11，将所述第二参数的梯度除以输入特征向量的大小，得到均值。

具体的，本步骤可以采用如下公式表示：

其中，mean表示均值。

S12，根据中间参数、第二参数、误差特征向量、中间特征向量以及均值，计算得到输出梯度。

具体的，所述输出梯度的计算方法如下：

表示中间特征向量，mean表示均值。

由以上训练过程可见，本申请实施例中的训练方法不涉及batch-size，避免对于batch-size的依赖，可以任意batch-size训练，降低存储需求，同时也不影响模型精度，且以通道为单位进行流水处理，避免与前面卷积层的数据依赖，从而降低处理延时，更近一步地，上述过程没有涉及平方、开方等复杂的运算，对硬件更加友好，可有效的减少硬件资源开销。

本申请实施例还公开了相应的神经网络归一化训练架构单元，如图2所示，所述架构单元包括：控制器、寄存器组、组织网络和基本运算单元；图2中控制器连接寄存器组和组织网络，组织网络连接寄存器组和基本运算单元。

所述控制器用于配置寄存器和组织网络；

所述寄存器用于寄存计算过程及结果；

所述基本运算单元包括：绝对值、除法器、乘法器、乘加器和累加器；所述基本运算单元用于计算前述中前向传播过程和反向传播过程中涉及的运算。

进一步地，所述本运算单元用于计算前向传播过程涉及的运算，所有计算按照全流水的方式进行，其具体过程如下：

依次利用绝对值、累加器和除法器完成对所述输入特征向量求绝对值，根据得到的绝对值以及输入特征向量的大小，获取平均值。

该过程是利用绝对值、累加器和除法器完成

的运算。

依次利用累加器和除法器完成将所述平均值加上常数之后，对其求倒数，获得中间参数。

该过程是利用累加器和除法器完成

的运算。

依次利用乘法器和乘加器完成将所述输入特征向量与中间参数相乘，获得中间特征向量以及利用可训练参数对所述特征向量进行线性变换，得到输出结果。

该过程是利用乘法器和乘加器完成y_i＝(x_i×λ)×γ+β的运算。

依次利用乘法器和累加器完成对所述误差特征向量与中间特征向量的乘积进行累加，得到第二参数的梯度。

该过程是利用乘法器和累加器完成

的运算。

利用乘法器、累加器和除法器并行运算，其中，所述乘法器用于完成中间参数和第二参数的乘法，累加器用于完成对所述误差特征向量进行累加，得到第一参数的梯度；除法器用于完成将所述第二参数的梯度除以通道中的元素数量，得到均值。

该过程是一个并行计算的过程，即并行利用乘法器完成γλ＝γ×λ的运算、累加器

以及除法器完成

的运算。

该过程分为两个流程，首先是利用乘加器完成临时计算

然后利用乘法器完成

的运算。

需要注意的是，本申请实施例公开的硬件架构单元，并不限定上述组合，可以根据实际运算过程进行重构组合，也就是可以抽象提取基本运算，针对前反向计算设计可重构硬件单元，以时分复用的方式进行计算，使得硬件资源开销低。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于硬件架构单元实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。