CN113505832A

CN113505832A - 一种神经网络批分组响应的bgrn归一化方法

Info

Publication number: CN113505832A
Application number: CN202110780928.6A
Authority: CN
Inventors: 彭成东; 杨诺; 王勇; 陈仁明
Original assignee: Hefei Yundian Information Technology Co ltd
Current assignee: Hefei Yundian Information Technology Co ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-15
Anticipated expiration: 2041-07-09
Also published as: CN113505832B

Abstract

本发明涉及深度学习，具体涉及一种神经网络批分组响应的BGRN归一化方法，对mini‑batch批次、通道间和通道内三个维度构成的数据立方体进行归一化处理，使用可训练的神经网络模型参数对归一化数据进行线性变换；基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ，通过邻近参数τ控制通道区间范围；在邻近通道叠加响应增强处理和小样本多通道并行计算策略，对邻近通道叠加数据分布计算均值和方差；利用邻近通道叠加数据分布的均值和方差进行训练和推理，神经网络模型参数通过梯度下降法学习；本发明提供的技术方案能够有效克服现有技术所存在的神经网络收敛缓慢、对mini‑batch批次大小依赖程度较高的缺陷。

Description

一种神经网络批分组响应的BGRN归一化方法

技术领域

本发明涉及深度学习，具体涉及一种神经网络批分组响应的BGRN归一化方法。

背景技术

随着近年来计算机视觉和自然语言处理等技术的发展，神经网络需要处理的数据越来越趋于大型化和异构化。为了获得数据不同抽象层次的特征表示，网络层数达到几百层，导致网络训练花费的时间越来越长，训练过程中易陷入局部极小值，训练准确率有待提升，并且还会出现梯度消失和爆炸等问题。

在深层网络训练的过程中，中间协变量迁移(Internal covariate shift)指的是神经网络使用梯度下降法进行训练的过程中，网络中每一层输入向量服从的概率分布不断发生改变。这会使得梯度下降训练过程对连接边权值矩阵和偏置向量的初始值比较敏感，初始值一旦选择不好，梯度下降过程易陷入局部极小值，训练过程需降低学习率，收敛速度变慢。

自2015年提出批量归一化(Batchnormalization,BN)，把BN作为神经网络的一部分，基于BN层归一化思想和BN存在的问题，出现了一系列神经网络层归一化技术的改进，如层归一化(Layer Normalization,LN)、实例归一化(Instance Normalization,IN)、分组归一化(Group Normalization，GN)、自适配归一化(Switchable Normalization,SN)。

BN在训练阶段和推理阶段的计算过程不同，推理阶段所使用的均值和方差采用估算值，会影响神经网络预测效果。由于小批量mini-batch数据的分布可能与整体训练样本偏差很大，因此BN对于批次大小比较敏感，对于数据分布差异较大的训练集与测试集，推理效果会很差或不适用。此外，BN在归一化时是针对每个批次所有样本的，会造成样本独特细节的丢失。

相比BN而言，LN在训练阶段和推理阶段均使用单个样本计算所有通道的均值和方差，有效解决了推理阶段对mini-batch批次大小敏感的问题。但是，LN仅考虑单个样本的所有通道，会忽略不同通道间的差异和样本总体的数据分布，会降低模型的表达能力。

IN计算归一化时没有考虑批样本量和各通道之间的联系，更适合对单个像素有更高要求的训练风格迁移任务场景。

GN将特征图通道分成几个组，再对组内特征归一化处理。当GN分组数为1时，GN就等同于LN；当分组为总通道数时GN就等同于IN。GN解决了IN和LN通道间的差异问题，但忽略了样本总体的数据分布。

SN需要在IN的通道维度、LN的层维度、BN的mini-batch维度分别进行均值和方差的重复计算，增加了归一化计算复杂度和训练参数。SN使用BatchAverage方法解决BN推理阶段的均值、方差计算，SN训练后再从训练集中随机抽取若干个批量的样本，计算各SN层BN的均值、方差，作为SN推理阶段使用，这种随机抽样估计样本总体均值、方差的方法存在抽样误差。

发明内容

(一)解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了一种神经网络批分组响应的BGRN归一化方法，能够有效克服现有技术所存在的神经网络收敛缓慢、对mini-batch批次大小依赖程度较高的缺陷。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种神经网络批分组响应的BGRN归一化方法，包括以下步骤：

S1、对mini-batch批次、通道间和通道内三个维度构成的数据立方体进行归一化处理，使用可训练的神经网络模型参数对归一化数据进行线性变换；

S2、基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ，通过邻近参数τ控制通道区间范围；

S3、在邻近通道叠加响应增强处理和小样本多通道并行计算策略，对邻近通道叠加数据分布计算均值和方差；

S4、利用邻近通道叠加数据分布的均值和方差进行训练和推理，神经网络模型参数通过梯度下降法学习。

优选地，S2中基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ，通过邻近参数τ控制通道区间范围，包括：

邻近参数τ的取值与样本大小以及归一化层的输入数据维度相关，函数映射关系为f(·)；f(·)控制抽样的小样本数据分布区域能够维持稳定的大小，降低与整体训练样本数据分布的偏差，提高模型的表达能力。

优选地，S3中在邻近通道叠加响应增强处理和小样本多通道并行计算策略，对邻近通道叠加数据分布计算均值和方差，包括：

对mini-batch批次样本相同通道进行归一化处理，并对邻近通道叠加数据分布计算均值和方差，小批量样本的多通道并行计算减少对mini-batch批次大小的依赖。

优选地，S4中利用邻近通道叠加数据分布的均值和方差进行训练和推理，包括：

在训练阶段和推理阶段均从小批量mini-batch数据对某个隐藏层网络的输入数据进行归一化处理，训练阶段和推理阶段过程一致。

优选地，S4中神经网络模型参数通过梯度下降法学习，包括：

计算损失函数对神经网络模型参数的偏导数，通过链式法则逐一对每个神经网络模型参数求偏导数，在神经网络训练中使用反向传播算法计算梯度。

(三)有益效果

与现有技术相比，本发明所提供的一种神经网络批分组响应的BGRN归一化方法，具有以下有益效果：

1)借鉴生物学对区域神经元的活动创建竞争机制来抑制相邻神经元的原理，通过mini-batch批次、通道间和通道内三个维度构成的数据立方体进行归一化算法设计，使用可训练神经网络模型参数γ、β对归一化数据进行线性变换，提高模型的泛化能力和训练速度；

2、通过自适应的邻近参数τ控制通道区间范围大小，对邻近通道叠加数据分布计算均值和方差，基于网络层样本数和通道尺寸建立函数映射在BGRN层中计算邻近参数τ，减少人为对模型训练过程的干预，训练和推理均使用小批量mini-batch数据的均值和方差，且邻近参数τ可控，不依赖mini-batch批次、通道数量和图像尺寸的大小，BGRN均能进行较好的归一化，具有鲁棒性；

3、神经网络各隐藏层使用叠加的邻近通道区域计算的均值和方差，有助于提高模型的泛化能力，这种通道选择策略要优于IN的单通道、LN的全通道归一化，并且BGRN可以直接应用到各种类型神经网络的归一化层中，如FNN、CNN、RNN任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图；

图2为本发明中两种邻近参数τ取值方式下的损失曲线；

图3为本发明中CIFAR-10图像数据集的示意图；

图4为本发明VGG19网络中不同归一化方法的训练损失曲线；

图5为本发明Resnet50网络中不同归一化方法的训练损失曲线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种神经网络批分组响应的BGRN归一化方法，如图1所示，包括以下步骤：

对于样本数量为N的数据集D＝{x₁,x₂,...,x_N}，其中x为C维数据(x⁽¹⁾...x^(k)...x^(C))，BGRN对所有样本同一个k维数据进行归一化处理：

其中，ε是为了避免分母为0而引入的接近于0且很小的值。

使用可训练的神经网络模型参数γ_k和β_k对归一化值

进行线性变换，输出BGRN归一化结果

其中，计算第k维数据归一化所取的邻近τ个叠加区间的数量为T_k＝[min(C,k+τ)-max(1,k-τ)+1]，T_k个数据的均值为：

方差为：

数据集D可以是前馈神经网络输入层数据或隐藏层数据，也可以是卷积神经网络的特征图数据。

BGRN归一化运行在网络各层激活函数之前，通过引入两个可训练的神经网络模型参数γ_k和β_k对归一化值

进行缩放和平移变换操作，重构神经网络层各个节点的预激活值，增强模型的表征能力。当神经网络模型参数中λ＝σ，β＝μ时，则可将数据恢复到归一化前的原始数据x_(i,k)。

S2中基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ，通过邻近参数τ控制通道区间范围，包括：

其中，C为数据维度，C≥1；N为样本数量，N≥1，0≤log₂(N+1)≤1；feature_h、feature_w分别为CNN特征图的高、宽；img_h、ing_w分别为CNN原始输入图像的高、宽；Batch、feature_h、feature_w与邻近参数τ成负相关。

CNN中，随着网络深度加深，特征图尺寸feature_h、feature_w逐渐减小，此时邻近参数τ能够取得较大的值，以降低对特征图尺寸的依赖。在多数目标检测、分割等网络中，训练受显存限制，Batch会设置很小值，此时邻近参数τ能够取得较大的值，以降低数据归一化对mini-batch批次大小的依赖。

当特征图的宽、高足够大时，邻近参数τ可以取到最小值0，此时与BN归一化效果类似。邻近参数τ并非越大越好，邻近参数τ的值过大时，每次归一化计算的通道数过多，会导致通道间差异性减少，不利于网络学习。公式中邻近参数τ的值受通道数限制，极端情况下，邻近参数τ最多能取到

FNN中，由于不存在特征图尺寸，feature_h、feature_w视为0，函数映射关系为f(·)简化为：

此时，邻近参数τ与Batch成负相关，且变化范围在

下面针对邻近参数τ的取值给出以下有效性实验：

实验中，FNN网络定义为六层结构(5个隐藏层+输出层)，每个隐藏层包括一个线性层、归一化层和激活层，激活层使用ReLu激活函数。BGRN归一化层在线性层与激活层之间，5个隐藏层神经元个数分别为{512,256,128,64,32}，训练批次大小为128，学习率设为0.001、训练epoch值为512。

本实验采用手写数字公开数据集MNIST(Yann LeCun，纽约大学Courant研究所)。MNIST手写数字数据集包括70000张0～9的手写数字灰度图像，图像尺寸为28*28。其中，训练集60000张，测试集10000张，训练时将图像数据转换为长度为784的一维向量。

在其他网络参数相同的条件下，邻近参数τ按照以下两种方式分别取值：

方式①：每个BGRN归一化层邻近参数τ取同一个固定值，通过网格搜索算法，遍历邻近参数τ在[0,8]区间中使得FNN模型性能表现最佳的一个取值；

方式②：通过函数f(·)在每个BGRN归一化层中按照批次样本数和所在层通道计算邻近参数τ的取值。

两种邻近参数τ取值方式下的FNN网络对MNIST数据集图像分类的精确度统计结果见下表：

方式①中邻近参数τ取值不同，Top-1 Acc和Top-5 Acc存在波动，在τ＝7时的Top-1 Acc最高，但相对方式②的Top-1 Acc略低。τ＝7时的损失曲线见图2，损失值下降到0.2后，方式②仍保持较快速度。

实验结果表明，邻近参数τ取值采用方式②较为适宜，相比通过方式①网格搜索法统计出的最佳训练模型Top-1的准确率仍要高出0.02％，且方式②的损失下降更为平稳。

S3中在邻近通道叠加响应增强处理和小样本多通道并行计算策略，对邻近通道叠加数据分布计算均值和方差，包括：

各个通道数据集合：

均值组成的向量为μ＝(μ₁,...,μ_k,...,μ_C)，方差组成的向量为

S4中利用邻近通道叠加数据分布的均值和方差进行训练和推理，包括：

由于使用函数f(·)控制立方体区域，BGRN在训练阶段和推理阶段均从小批量mini-batch数据对某个隐藏层网络的输入数据进行归一化处理，训练阶段和推理阶段过程一致。

神经网络的验证和测试阶段会用到推理过程，当训练结束，得到神经网络模型参数，推理任务对某个输入用训练好的网络预测其输出。

S4中神经网络模型参数通过梯度下降法学习，包括：

以一个mini-batch数据集训练时前向传播网络总损失

使用SGD进行网络参数优化计算的过程为例，BGRN归一化过程中神经网络参数的梯度计算方法如下：

因此，BGRN归一化计算是可微的，SGD梯度在神经网络的反向传播可求解。

下面给出本申请中BGRN归一化方法与CNN模型的归一化实验。

本实验采用两种不同堆叠结构的CNN神经网络：

(a)由16个卷积层、3个全连接层和5个池化层堆叠的VGG19网络结构，默认在卷积层和全连接层后使用ReLU激活函数；

(b)选择Resnet50网络结构，先对输入做卷积操作，之后包含4个残差学习单元，最后全连接操作进行分类任务，总共使用50次卷积，默认激活函数使用ReLU。

本实验采用CIFAR-10图像数据集，CIFAR-10数据集包含60000张32*32的颜色图像，分为10类，每类6000张图像，有50000张训练图像和10000张测试图像。图3是CIFAR-10数据集中的10个类别以及每个类别中的10个随机图像。

在VGG19、Resnet50两种不同堆叠结构的CNN神经网络上使用GN、SN、BGRN替换默认归一化方式BN，使用CIFAR-10数据集进行图像分类任务训练。所有网络初始权重参数都用He-初始化，BatchSize大小设置为256，即每次迭代以256张图像为一组数据，共训练200个epoch，使用Adam(Adaptive Moment Estimation)优化器，同时保持其他网络参数不变，仅改变归一化方式，记录训练结果的精确度和损失曲线。

基于分类网络VGG19和ResNet50下的不同归一化方法对CIFAR-10数据集图像分类预测的精确度统计结果见下表：

BGRN在传统深度卷积神经网络VGG19中Top-1 Acc与BN、GN相当，BGRN在带有残差学习堆叠的Resnet50中Top-1 Acc与SN相当，在两种结构的卷积神经网络中，BGRN的Top-5Acc均最高。如图4、5所示，在VGG19和Resnet50的训练损失曲线中，BGRN的下降速度在SN与BN之间，训练5000次损失快速下降到0.1。

实验结果表明，VGG19+BN的Top-1 Acc和Resnet50+SN的Top-1Acc最高，VGG19+GN的Top-1 Acc最低，VGG19+BGRN的Top-1 Acc均在第二，且Top-5 Acc的排名最高。VGG19+BGRN的损失下降处于中间，Resnet50+BGRN的损失下降略低于Resnet50+BN而快于其它。因此，BGRN在不同结构的分类网络下，有较好的适应性。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种神经网络批分组响应的BGRN归一化方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的神经网络批分组响应的BGRN归一化方法，其特征在于：S2中基于网络层样本数和通道尺寸自适应选择不同通道叠加区间的邻近参数τ，通过邻近参数τ控制通道区间范围，包括：

3.根据权利要求2所述的神经网络批分组响应的BGRN归一化方法，其特征在于：S3中在邻近通道叠加响应增强处理和小样本多通道并行计算策略，对邻近通道叠加数据分布计算均值和方差，包括：

4.根据权利要求3所述的神经网络批分组响应的BGRN归一化方法，其特征在于：S4中利用邻近通道叠加数据分布的均值和方差进行训练和推理，包括：

5.根据权利要求4所述的神经网络批分组响应的BGRN归一化方法，其特征在于：S4中神经网络模型参数通过梯度下降法学习，包括：