CN115803752A

CN115803752A - 深度卷积神经网络中的归一化

Info

Publication number: CN115803752A
Application number: CN202080102004.4A
Authority: CN
Inventors: 周晓云; 孙嘉城; 叶南洋; 兰旭; 罗琪竣; 佩德罗·埃斯佩兰卡; 法比奥·玛利亚·卡路奇; 陈泽伟; 李震国
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-03-14
Also published as: WO2022051908A1; EP4193304A1; EP4193304A4; US20230237309A1

Abstract

本文描述了一种用于机器学习的设备(900)，所述设备(900)包括一个或多个处理器(901)，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作：针对所述批次的多个训练样本接收(1001)所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度；根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成(1002)多个组；为每个组形成(1003)归一化输出；提供(1004)所述归一化输出作为所述神经网络第二层的输入。这可以训练具有良好性能的深度卷积神经网络，所述深度卷积神经网络在不同批量大小时稳定运行并且可推广到多个视觉任务。这也可以加快所述训练并提高所述训练的性能。

Description

深度卷积神经网络中的归一化

技术领域

本发明涉及深度卷积神经网络中训练样本的处理，例如在图像分类等视觉任务中。

背景技术

深度卷积神经网络(Deep Convolutional Neural Network，DCNN)是一种广泛应用于图像分类、目标检测和语义分割等视觉任务的方法。DCNN通常包括卷积层、归一化层和激活层。归一化层对于提高性能和加快训练过程非常重要。

然而，DCNN的训练通常困难而又费时。先前训练方法的性能也是有限的。

Sergey Ioffe和Christian Szegedy在国际机器学习大会上所发表文章“批量归一化：通过减少内部协变量偏移来加速深度网络训练”(第448至456页，2015年)中描述的批量归一化(Batch Normalization，BN)使用与特征图的批量、高度和宽度维度一起计算的平均值和方差对特征图进行归一化处理，然后重新缩放和重新平移归一化的特征图以保持DCNN的表征能力。基于BN，人们提出了许多其它任务的归一化方法来计算不同维度上的平均值和方差统计数据。例如，Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey E Hinton在NIPS深度学习论文集锦中所发表文章“层归一化”(2016年)中描述的层归一化(LayerNormalization，LN)其被提议用于计算递归神经网络(Recurrent Neural Network，RNN)的通道、高度和宽度维度上的统计数据。Tim Salimans和Durk P Kingma在神经信息处理系统进展大会上所发表文章“权重归一化：用于加速深度神经网络训练的简单的重新参数化”(第901至909页，2016年)中描述的权重归一化(Weight Normalization，WN)被提议用于对监督图像识别、生成模型和深度强化学习的权重向量进行参数化。Mengye Ren、RenjieLiao、Raquel Urtasun、Fabian H Sinz和Richard S Zemel在国际学习表征会议上所发表文章“对均一化元素进行归一化：比较和扩展网络归一化方案”(2016年)中描述的分离归一化包括将BN和LN(作为特例)，其被提议用于图像分类、语言建模和超分辨率。DmitryUlyanov、Andrea Vedaldi和Victor Lempitsky在arXiv预印本arXiv:1607.08022(2016年)中所发表文章“实例归一化：快速风格化缺失的成分”中描述的实例归一化(InstanceNormalization，IN)被提议用于快速风格化，其中，统计数据根据高度和宽度维度计算。不同于从数据中计算统计数据，Devansh Arpit、Yingbo Zhou、Bhargava Kota和VenuGovindaraju在国际机器学习大会上所发表文章“归一化传播：用于消除深层网络中内部协变量偏移的参数化技术”(第1168至1176页，2016年)中描述的归一化传播独立于各层中的分布来估计数据。Yuxin Wu和Kaiming He在欧洲计算机视觉国际会议(EuropeanConference on Computer Vision，ECCV)论文集中所发表文章“组归一化”(第3至19页，2018年)中描述的组归一化将通道分成多个组并计算每个分组通道的统计数据、高度和宽度维度，以显示批量大小的稳定性。Boyi Li、Felix Wu、Kilian QWeinberger和SergeBelongie在神经信息处理系统进展大会上所发表文章“位置归一化”(第1620至1632页，2019年)中描述的位置归一化(Positional Normalization，PN)被提议用于计算生成式网络的通道维度上的统计数据。

BN、IN、LN、GN和PN共享相同的四个步骤：将中间特征图划分为多个特征组；计算每个特征组的平均值和方差；使用计算得出的每个特征组的平均值和方差对相应的特征组进行归一化处理；针对中间特征图的每个通道使用额外两个可训练参数，以恢复DCNN表征能力。BN、IN、LN、GN和PN的主要区别在于特征组的划分。

在这些归一化方法中，BN通常可以在批量较大时实现较好的性能。然而，在批量较小时，它的性能可能会下降。对于不同的批量大小，GN的稳定性更高，而在批量较大时，GN的性能略逊于BN。其它归一化方法(包括IN、LN和PN)在特定任务中性能良好，但与BN相比通常不能推广到多个视觉任务，且在批量较大时性能不佳。

需要开发一种克服这些问题的归一化方法。

发明内容

根据一方面，本发明提供了用于机器学习的设备，所述设备包括一个或多个处理器，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作：针对所述批次的多个训练样本接收所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度；根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成多个组；为每个组形成归一化输出；提供所述归一化输出作为所述神经网络第二层的输入。

这可能使得能够训练具有良好性能的DCNN，所述DCNN在不同批量大小时稳定运行并且可推广到多个视觉任务。这也可以加快并提高DCNN训练的性能。

所述第二维度表示一个或多个空间维度，例如图像的特征图的高度和宽度。这可以提供一种对空间扩展样本执行机器学习的有效方式。

所述为每个组形成归一化输出的步骤可以包括：计算所述组中所述输出的聚合统计参数。此类参数方便地用于辅助后续神经网络层的训练。

所述为每个组形成归一化输出的步骤可以包括：计算所述组中所述输出的平均值和方差。这些量中的一个或两个可能有助于训练后续神经网络层。

所述对所述输出进行分组的步骤可以包括：将每个输出仅分配给所述组中的单个组。通过这种方式，在后续神经网络层的训练中，每个输出可能不会被过度表征。

所述对所述输出进行分组的步骤可以包括：将与所述第一维度上的共同指标和所述第二维度上的共同指标相关的所有输出分配到同一组。因此，这些组可以包括通过具有共同指标而相关的输出。

所述对所述输出进行分组的步骤可以包括：将与公共批次相关的输出分配到不同的组。在统计数据计算中包含所述批量维度可以进一步提高归一化的性能和普适性。

所述对所述输出进行分组的步骤可以包括：根据与输出相关的所述第一维度上的所述指标，将输出分配到不同的组。这可能使得从所述组导出的聚合值能够提供有关具有该指标的输出的信息。

所述对所述输出进行分组的步骤可以包括：根据与输出相关的所述第二维度上的所述指标，将输出分配到不同的组。这可能使得从所述组导出的聚合值能够提供有关具有该指标的输出的信息。

所述归一化层可以用于执行以下操作：接收控制参数；将所述控制参数与预定阈值进行比较；根据所述参数，确定在所述分组步骤中如何根据所述第一维度和所述第二维度中与输出相关的所述指标，将输出分配到不同的组。选择用于计算所述统计数据的特征组的大小可以进一步提高对不同批量大小的归一化的稳定性。

所述设备可以用于根据所述批次中的训练样本数量来形成所述控制参数。例如，当所述批量大小较小时，可以使用较小的G；当所述批量大小较大时，可以使用较大的G。

所述输出可以是所述神经网络第一层形成的特征图。这可能使得所述设备能够用于计算机视觉和图像分类任务。

所述设备可以用于根据所述归一化输出来训练所述神经网络第二层。

根据第二方面，本发明提供了一种用于基于一批训练样本训练用于机器学习的设备的方法，所述设备包括神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述方法包括：针对所述批次的多个训练样本接收所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度；根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成多个组；为每个组形成归一化输出；提供所述归一化输出作为所述神经网络第二层的输入。

该方法可能使得能够训练具有良好性能的DCNN，所述DCNN在不同批量大小时稳定运行并且可推广到多个视觉任务。所述方法可以加快并提高DCNN训练的性能。

附图说明

现将参考附图通过示例的方式对本发明进行描述。

在附图中：

图1(a)-(f)示意性地示出了BN、IN、LN、GN、PN和本文描述的批组归一化(BatchGroup Normalisation，BGN)方法在统计数据计算所处维度方面的差异。每个子图显示一个特征图张量，其中，N为批量轴，C为通道轴，(H,W)为空间轴。以阴影显示的像素用于计算所述统计数据。图1(a)、1(b)、1(c)、1(d)和1(e)分别示出了BN、IN、LN、GN和PN方法的示例。图1(f)示出了BGN方法；

图2示出了本文描述的方法与现有方法的比较结果。图中示出了在ImageNet上训练ResNet-50的Top1准确度，其中，批量大小各有不同，且BN、IN、LN、GN、PN以及本文描述的BGN为所述归一化层；

图3示出了使用ResNet-50模型对ImageNet分类实现BGN的Top1验证准确度。超参数G设置为512到1；

图4示出了使用ResNet-50模型和不同批量大小(128到2)对ImageNet分类实现BN、IN、LN、GN、PN和BGN的Top1验证准确度；

图5(a)和图5(b)示出了由一系列单元组成的DARTS搜索空间架构的示例，其中，每个单元是一个有向无环图，节点表示特征图，边表示网络操作，例如卷积层或池化层。图5(a)示出了普通单元的示例，图5(b)示出了DARTS搜索空间中缩减单元的示例；

图6示出了在搜索和评估阶段在DARTS中对CIFAR-10使用BN、IN、LN、GN、PN和建议的BGN的验证准确度；

图7示出了使用BN、IN、LN、GN、PN和BGN作为WideResNet中的归一化层的对抗训练的稳健验证准确度和净验证准确度。在清洁数据集上评估净准确度，并在PGD攻击数据上评估稳健准确度；

图8示出了使用ResNet-12作为骨干网络对压印权重的miniImageNet执行5类、每类1张样本和每类5张样本小样本学习任务的平均准确度。根据BN、IN、LN、GN、PN和BGN，替换所述归一化层。报告了600个随机生成的测试集的平均准确度，置信区间为95％；

图9示出了用于机器学习的设备的示例，所述设备包括处理器，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层；

图10示出了用于基于一批训练样本训练用于机器学习的设备的方法，所述设备包括神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层。

具体实施方式

本文描述了一种用于训练深度卷积神经网络的归一化方法，一些实施方式中已示出所述方法，以实现比现有方法更好的性能、稳定性和普适性。

本文描述的方法可以由具有处理器的机器学习设备来实现，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层。

如下文将更详细地描述的，所述归一化层可以用于在所述设备在对一批训练样本进行训练时执行以下操作：针对所述批量的多个训练样本接收所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度。

优选地，所述输出是所述神经网络第一层形成的特征图，如下文中的示例所述。

在一示例中，所述第一维度是所述特征图中的所述通道C。所述第二维度表示所述特征图的一个或多个空间维度。例如，所述第二维度可以表示所述特征图的高度(H)和/或宽度(W)。

然后，根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成多个组，并为每个组形成归一化输出。有利的是，所述对所述输出进行分组的步骤还可以包括：将与公共批次相关的输出分配到不同的组。

在一示例中，考虑网络前几层的特征图输出F_N×C×H×W，其中N为所述特征图的批量大小。

首先，将所述通道、高度和宽度维度合并成一个新的维度，以得出F_N×M，其中M＝C×H×W。

优选地，所述为每个组形成归一化输出的步骤包括：计算该组中所述输出的聚合统计参数，例如所述平均值和方差。

在该示例中，所述平均值μ_g和方差

根据所述批量和新维度(C,H,W)计算如下：

其中，G是新维度划分的组数，是一个超参数，S＝M/G是每个划分的特征组内的实例数。

所述超参数G可以用于控制特征实例的数量或特征组的大小，以计算所述统计数据。

因此，所述归一化层还可以用于接收控制参数(即，超参数G)并将所述控制参数与预定阈值进行比较。根据该参数，所述归一化层可以确定在所述分组步骤中如何根据所述第一维度和所述第二维度中与输出相关的所述指标，将输出分配到不同的组。

所述设备可以用于根据所述批次中的训练样本数量来形成参数G。

确定DCNN的批量大小时，全批量大小可能导致梯度混乱，而批量大小较小可能导致梯度嘈杂。准确的归一化统计数据应该覆盖适量的特征实例。因此，本文描述的方法可以引入所述特征组和所述超参数G来控制特征实例的数量或特征组的大小，以计算所述统计数据。例如，当所述批量大小较小时，可以使用较小的G将所述整个新维度合并到统计数据计算中，而当批量大小较大时，可以使用较大的G将所述新维度拆分成小块，以计算所述统计数据。

然后，对于g∈[1,G]，对所述特征图进行如下归一化处理：

其中，∈是为了拆分稳定性而添加的一个小数字。在BN、IN、LN、GN和PN之后，将F_N×M拆分回F_N×C×H×W，以保持DCNN的表征能力。为每个功能通道添加额外的可训练参数：

在BN中，所述测试阶段使用的μ_c和

是其在所述训练阶段的移动平均值。本文描述的方法也可以使用该策略，这是因为归一化方法最好独立于批量大小。IN、LN、GN和PN通常使用直接从测试阶段计算得出的统计数据。

因此，所述归一化层根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成多个组。然后，为每个组形成归一化输出。然后，提供所述归一化输出作为所述神经网络第二层的输入。

所述输出可以采用不同方式进行分组所述对所述输出进行分组的步骤可以包括：将每个输出仅分配给所述组中的单个组。所述对所述输出进行分组的步骤可以包括：将与所述第一维度上的共同指标和所述第二维度上的共同指标相关的所有输出分配到同一组。

在另一示例中，所述对所述输出进行分组的步骤可以包括：根据与输出相关的所述第一维度上的所述指标，将输出分配到不同的组。此外，所述对所述输出进行分组的步骤可以包括：根据与输出相关的所述第二维度上的所述指标，将输出分配到不同的组。

在优选实施方式中，所述对所述输出进行分组的步骤包括：将与公共批次相关的输出分配到不同的组。因此，可以额外地在所述批量维度(N)上形成组。参考图1(f)中所示的表示，每个组可以如该图所示沿N轴一直延伸，或者在N轴和(C,H,W)轴上也可以有子组。换言之，在(C,H,W)维度被压缩至单个轴的优选实施方式中，该组显示为针对所有N(即，它一直穿过N轴)。然而，也可以沿N轴对所述样本进行分组(批量分组)。优选地，在这些组中，每个组中有多个样本。

图1(a)-(f)中示出了BN、IN、LN、GN、PN和本文描述的方法(以下称为批组归一化(Batch Group Normalisation，BGN))在统计数据计算所处维度方面的差异。图1(a)、1(b)、1(c)、1(d)、1(e)和1(f)分别示出了BN、IN、LN、GN和PN方法的示例。图1(f)示出了BGN方法的示例。每个子图显示一个特征图张量，其中，N为批量轴，C为通道轴，(H,W)为空间轴。以阴影显示的像素用于计算所述统计数据。

图2示出了在ImageNet上实施ResNet-50训练的Top1准确度，其中，批量大小各有不同，且BN、IN、LN、GN、PN和BGN为所述归一化层；在不添加可训练参数、不使用额外信息、不需要额外计算的情况下，BGN在不同的批量大小时实现了良好的性能和稳定性。

本文描述的方法的一种应用是图像分类。在下面描述的示例中，使用了ImageNet(参见Alex Krizhevsky、Ilya Sutskever和Geoffrey E Hinton在神经信息处理系统进展大会上发表的文章“深度卷积神经网络的Imagenet分类”，第1097至1105页，2012年)，其中包含1:28M训练图像和50000个验证图像。示例中使用的模型是ResNet-50(参见KaimingHe、Xiangyu Zhang、Shaoqing Ren和Jian Sun在IEEE国际计算机视觉与模式识别会议论文集中发表的文章“深度残差学习的图像识别”，第770至778页，2016年)，其中，大约有50个卷积层，之后是归一化和激活层，与残差学习堆叠在一起。ImageNet实验中使用了8个GPU。在8个GPU中求用于反向传播的所述梯度平均值，而在每个GPU中独立计算BN和BGN中使用的平均值和方差。将γ_c和β_c，分别初始化为1和0，而所有其它可训练参数的初始化方式与He等人提出的方式相同。训练了120个时期，在第30、60、90个时期学习率衰减10倍。根据PriyaGoyal、Piotr Dollár、Ross Girshick、Pieter Noordhuis、Lukasz Wesolowski、AapoKyrola、Andrew Tulloch、Yangqing Jia和Kaiming He在arXiv预印本arXiv:1706.02677(2017年)中发表的文章“准确的大型微型批处理SGD：1小时内训练ImageNet”，批量大小为128、64、32、16、8、4和2的实验的初始学习率分别为0.4、0.2、0.1、0.05、0.025、0.0125和0.00625。随机梯度下降(Stochastic Gradient Descent，SGD)用作优化器。10^–4的权重衰减应用于所有可训练参数。

为进行验证，从中心位置将每个图像裁剪成224x 224个块。以Top1准确度为评估标准。所有实验都在相同的编程实现情况下训练，但分别根据BN、IN、LN、GN、PN和BGN替换所述归一化层。

为探索所述超参数G，在用于ImageNet分类的ResNet-50中，分别使用组数为512、256、128、64、32、16、8、4、2和1的BGN作为所述归一化层。测试了实验中的最大批量大小(根据GPU内存)和最小批量大小(128和2)。图3示出了验证数据集的Top1准确度。

通常，所述结果表明，较大的G(例如512)更适合较大的批量(例如128)，而较小的G(例如1)更适合较小的批量(例如2)。这表明特征实例的数量影响归一化中的统计数据计算。适当地，当批量大小较大时，可以使用较大的G来拆分所述新维度，以保持适当数量的特征实例进行统计数据计算。适当地，当批量大小较小时，可以使用较小的G来组合所述新维度，以保持适当数量的特征实例进行统计数据计算。

图4示出了进一步的实验结果，其中，BN、IN、LN、GN、PN和BGN作为ResNet-50中的所述归一化层，批量大小分别为128、64、32、16、8、4和2。GN中的所述组数设置为32。对于128、64、32、16、8、4和2的批量大小，BGN中的所述组数分别设置为512、256、128、64、16、2和1。根据图3，为最大和最小批量大小选择G，而利用插值为其它批量大小选择G。图4示出了每种方法的Top1准确度。在这些示例中，BGN在所有不同的批量大小时均优于之前的方法。BN的性能在批量大小较小时迅速下降。IN通常在ImageNet分类中表现不佳。

以下示例演示了使用神经网络架构搜索(Neural Architecture Search，NAS)对CIFAR-10(加拿大高级研究院)数据集进行图像分类的方法的应用。这表明，除人工设计、规则的神经网络架构外，BGN也适用于自动设计、不太规则的神经网络架构。以下示例使用基于单元的架构，所述架构使用NAS(特别是DARTS)自动设计，如Hanxiao Liu、KarenSimonyan和Yiming Yang在国际学习表征会议上发表的文章“DARTS：可微分架构搜索”(2019年)所述。对于DARTS，所述搜索和训练均使用归一化方法。

如图5(a)和5(b)所示，搜索到的架构家族由一系列单元组成，其中，每个单元是一个有向无环图，节点表示特征图，边表示网络操作，例如卷积层或池化层。图5(a)示出了普通单元的示例，图5(b)示出了DARTS搜索空间中缩减单元的示例。每个单元具有两个输入节点501、四个内部节点502和一个输出节点503。多个单元以前馈方式连接，以创建深度神经网络。

在给定一组可能的操作的情况下，DARTS使用连续参数对架构搜索空间进行编码以形成单样本模型，并通过双层优化训练所述单样本模型来执行搜索，其中，通过训练数据和验证数据交替优化所述模型的权重和架构参数。

对于DARTS训练，采用与Liu等人使用的相同实验设置。在所述搜索和评估阶段，DARTS中的BN层替换为IN、LN、GN、PN和BGN的所述归一化层。在该实施方式中，所述方法在50个时期中搜索了8个单元，批量大小为64，初始通道数为16。SGD用于优化所述模型权重，初始学习率为0:025，动量为0:9，权重衰减为3x10^–4。Diederik P Kingma和Jimmy Ba在arXiv预印本arXiv:1412.6980(2014年)所发表文章“ADAM：一种随机优化方法”中所述的ADAM用于优化架构参数，初始学习率为3x10^–4，动量为(0:5；0:999)，权重衰减为10^–3。使用20个单元和36个初始通道的网络进行评估，以确保模型大小与其它基线模型相当。整个训练集用于训练600个时期的所述模型，批量大小为96，以确保收敛。对于GN，使用配置G＝32，而对于BGN，使用配置G＝256。其它超参数设置为与搜索阶段中的参数相同。使用DARTS在CIFAR-10上搜索到的最佳20单元架构是使用所述搜索阶段使用的相应归一化方法从头开始训练的。图6示出了每种方法的所述验证准确度。IN和LN无法收敛，而BGN优于GN、PN和BN。这些结果表明，在一些实施方式中，BGN可以推广到NAS，以进行搜索和评估。

众所周知，DCNN容易受到恶意扰动示例(称为对抗攻击)的攻击。已提议对抗训练来解决这一问题。在以下示例中，将BGN应用于对抗训练，并将其结果与BN、IN、LN、GN和PN进行比较。Sergey Zagoruyko和Nikos Komodakis在英国机器视觉会议(British MachineVision Conference，BMVC)论文集中发表、由Edwin R.Hancock、Richard C.Wilson和William A.P.Smith编辑的文章“宽残差网络”(第87.1至87.12页，BMVA Press，2016年9月)中描述的WideResNet用于对CIFAR-10数据集执行图像分类任务，其中，深度设置为10，宽度因子设置为2。针对四步投影梯度下降(Projected Gradient Descent，PGD)攻击对所述神经网络进行了训练和评估。对于所述PGD，步长设置为0.00784，最大扰动范数设置为0.0157。训练了200个时期直至收敛。由于对抗训练的特殊性，GN和BGN中，采用G＝128。这将图像分成块，通过打破不同图像块之间对抗攻击的相关性，将对抗攻击限制在有限范围内，从而提高了图像的稳健性。使用Adam优化器，学习率为0.01。图7示出了使用BN、IN、LN、GN、PN和BGN作为归一化层训练WideResNet的稳健验证准确度和净验证准确度。在判断对抗网络时，所述稳健准确度比净准确度更重要。PN遇到收敛问题，无法收敛。在该实施方式中，BGN优于其它方法。

所述BGN方法还可以作为小样本学习(Few Shot Learning，FSL)任务的一部分来实现。FSL旨在训练能够仅使用有限的训练样本识别之前未见过的新类别的模型。具有足够注释样本的训练数据集包括基本类别。所述测试数据集包含C个新类，每个类仅与包含支持集的少数K个标记样本(例如，5个或更少的样本)相关联，而其余未标记样本包括查询集并用于评估。这也可以称为C类、每类K张样本FSL分类问题。

在一示例中，使用了所述压印权重模型，如Hang Qi、Matthew Brown和David GLowe在IEEE国际计算机视觉与模式识别会议论文集中发表的文章“使用压印权重的少样本学习”(第5822至5830页，2018年)所述。训练时，在特征提取层上学习余弦分类器，每列分类器参数权重可视为相应类别的原型。测试时，通过对支持图像的特征表示求平均来定义新的类原型(分类器权重参数的新列)，并通过近邻策略对未标记的图像进行分类。在miniImageNet(参见Oriol Vinyals、Charles Blundell、Timothy Lillicrap、DaanWierstra等人在2016年NeurIPS会议上发表的文章“使用匹配网络实现小样本学习”)上对ResNet-12主干(参见Boris Oreshkin、Pau Rodríguez Lópe和Alexandre Lacoste在2018年NeurIPS会议上发表的文章“TADAM：用于改进小样本学习的任务相关的自适应度量”)测试了包括5类、每类1张样本和每类5张样本在内的设置。在该示例中，使用了SpyrosGidaris和Nikos Komodakis在2018年CVPR会议上所发表文章“不会遗忘的动态小样本视觉学习”中描述的训练方案。使用SGD对BGN模型进行了优化，Nesterov动量设置为0:9，权重衰减设置为0.0005，微型批量大小设置为256，且时期为60个。所有输入图像的大小都调整为84x 84。所述学习率初始化为0.1，且在第20、40和50个时期时分别更改为0.006、0.0012和0.00024。图8示出了将压印权重的归一化层替换为BN、IN、LN、GN、PN和所提议的BGN以在miniImageNet上进行训练以及执行5类、每类1张样本和每类5张样本任务的精确度平均值和方差。在这些实施方式中，BGN优于其它方法，这表明了BGN在可用标记数据非常有限的情况下的普适性。

图9示意性地示出了用于实现所述BGN方法的机器学习设备900。所述设备900可以在笔记本电脑、平板电脑、智能手机或电视等设备上实现。

所述设备900包括处理器901，所述处理器用于按照本文描述的方式处理所述数据集。例如，所述处理器901可以实现为在中央处理器(central processing unit，CPU)等可编程设备上运行的计算机程序。所述系统200包括存储器902，所述存储器用于与所述处理器901通信。处理器902可以是非易失性存储器。所述处理器901还可以包括缓存(图9中未示出)，所述缓存可用于临时存储来自存储器902的数据。所述系统可以包括多个处理器和多个存储器。所述存储器可以存储可由所述处理器执行的数据。所述处理器可以用于根据以非瞬时性形式存储在机器可读存储介质上的计算机程序运行。所述计算机程序可以存储用于使所述处理器按照本文描述的方式执行其方法的指令。

图10概括了用于基于一批训练样本训练用于机器学习的设备的方法1000，所述设备包括神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层。在步骤1001中，所述方法包括：针对所述批次的多个训练样本接收所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度。所述输出可以是所述神经网络第一层形成的特征图。在步骤1002中，所述方法包括：根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成多个组。在步骤1003中，所述方法包括：为每个组形成归一化输出。在步骤1004中，所述方法包括：提供所述归一化输出作为所述神经网络第二层的输入。所述方法还包括：根据所述归一化输出来训练所述神经网络第二层。

如上所述，所述方法以不同的方式将所述中间特征图划分为特征组。在优选实施方式中，每个中间特征图具有四个维度，包括批量、高度、宽度和通道维度。首先将所述高度、宽度和通道维度合并为一个维度，然后将所述新维度划分为多个特征组。所述超参数G用于控制将中间特征图分成多少组。然后针对所述整个微型批次计算每个特征组的统计数据(例如，平均值和方差)。

本文描述的归一化方法具有良好的性能，在不同批量大小时稳定运行并且可推广到多个视觉任务。该方法不使用额外的可训练参数、跨多层或迭代的信息或额外的计算。该方法可以计算批量和分组(通道、高度和宽度)维度的均值和方差统计数据，并且可以使用超参数G来控制划分的特征组的大小。在一些实施方式中，这种归一化方法可以加快并提高DCNN训练的性能。

有利的是，所述方法可以在所述统计数据计算中考虑所述批量维度(即，在所述平均值和方差计算中包含所述批量维度)，并且可以将用于统计数据计算的特征组大小控制在适当的大小(即，不太大也不太小)。在所述统计数据计算中包含所述批量维度可以进一步提高归一化的性能和普适性，而选择用于所述计算统计数据的特征组的大小可以进一步提高对不同批量大小的归一化的稳定性。

在本文所述的方法中，不使用额外的可训练参数或计算或多重迭代/多层信息。所述方法可以与使用额外可训练参数或计算或多重迭代/多层信息的其它技术联合使用，以进一步提高性能。因此，它的实现方式很直观，与许多方法无关并且可以与这些方法一起使用，以进一步提高性能。

在一些实施方式中，BGN的性能在小批量ImageNet分类上比BN高出近10％。在一些实施方式中，在图像分类、神经网络架构搜索、对抗学习、小样本学习和无监督域适应任务中，它的性能优于BN、IN、LN、GN和PN。

申请方在此单独公开本文描述的每一个体特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识，能够基于本说明书将此类特征或组合作为整体实现，而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题，并且不限于权利要求的范围。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims

1.一种用于机器学习的设备(900)，其特征在于，所述设备包括一个或多个处理器(901)，所述处理器用于实现神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述归一化层用于在所述设备在对一批训练样本进行训练时执行以下操作：

针对所述批次的多个训练样本接收(1001)所述神经网络第一层的多个输出，每个输出包括第一维度和第二维度上不同索引的多个数据值，所述第一维度表示通道维度；

根据与所述输出相关的所述第一维度和所述第二维度上的所述索引，将所述输出分成(1002)多个组；

为每个组形成(1003)归一化输出；

提供(1004)所述归一化输出作为所述神经网络第二层的输入。

2.根据权利要求1所述的设备(900)，其特征在于，所述第二维度表示一个或多个空间维度。

3.根据权利要求2所述的设备(900)，其特征在于，所述为每个组形成归一化输出的步骤包括：计算所述组中所述输出的聚合统计参数。

4.根据权利要求2或3所述的设备(900)，其特征在于，所述为每个组形成归一化输出的步骤包括：计算所述组中所述输出的平均值和方差。

5.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：将每个输出仅分配给所述组中的单个组。

6.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：将与所述第一维度上的共同指标和所述第二维度上的共同指标相关的所有输出分配到同一组。

7.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：将与公共批次相关的输出分配到不同的组。

8.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：根据与输出相关的所述第一维度上的所述指标，将输出分配到不同的组。

9.根据上述任一权利要求所述的设备(900)，其特征在于，所述对所述输出进行分组的步骤包括：根据与输出相关的所述第二维度上的所述指标，将输出分配到不同的组。

10.根据上述任一权利要求所述的设备(900)，其特征在于，所述归一化层用于：

接收控制参数；

将所述控制参数与预定阈值进行比较；

根据所述参数，确定在所述分组步骤中如何根据所述第一维度和所述第二维度中与输出相关的所述指标，将输出分配到不同的组。

11.根据权利要求10所述的设备(900)，其特征在于，所述设备用于根据所述批次中的训练样本数量来形成所述控制参数。

12.根据上述任一权利要求所述的设备(900)，其特征在于，所述输出是所述神经网络第一层形成的特征图。

13.根据上述任一权利要求所述的设备(900)，其特征在于，所述设备用于根据所述归一化输出来训练所述神经网络第二层。

14.一种用于基于一批训练样本训练用于机器学习的设备(900)的方法(1000)，其特征在于，所述设备包括神经网络第一层、神经网络第二层以及布置在所述神经网络第一层与所述神经网络第二层之间的归一化层，所述方法包括：

为每个组形成(1003)归一化输出；

提供(1004)所述归一化输出作为所述神经网络第二层的输入。