CN112801289A

CN112801289A - 基于注意力机制的自适应分组卷积神经网络结构设计方法

Info

Publication number: CN112801289A
Application number: CN202110163368.XA
Authority: CN
Inventors: 郭锴凌; 李昱澍; 林泽柠; 殷卓文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14

Abstract

本发明公开了基于注意力机制的自适应分组卷积神经网络结构设计方法，涉及人工智能运算领域，针对现有分组卷积技术中特征图通道在层间不能有效流通的问题提出本方案。在设计选择网络时，基于注意力机制设计用于自适应重排输出的特征图通道；所述选择网络包括通道选择矩阵，所述通道选择矩阵用于记录特征图在层间传递的流通信息。优点在于，通过基于注意力的选择网络，为每组从上一层传入的特征图自适应地生成相应的通道选择矩阵，使得这些特征图能够被动态分配到合适的下一层通道中，实现分组卷积中不同组间的信息交换。可以兼顾特征图的动态分配与内存开销的节约，实现轻量化结构的特征图通道动态分配，提高卷积神经网络性能。

Description

基于注意力机制的自适应分组卷积神经网络结构设计方法

技术领域

本发明涉及人工智能运算领域，尤其涉及基于注意力机制的自适应分组卷积神经网络结构设计方法。

背景技术

近年来，神经网络算法在图像识别领域大放异彩。为进一步提升图像识别的精确度，研究人员不断增加神经网络的深度或宽度。但更大的神经网络模型同时也对硬件计算资源提出了更高的要求，这给移动手机和嵌入式设备的部署工作带来了更大的难度，不利于神经网络算法的轻量级应用。

为解决神经网络的精确度与硬件设备要求的突出矛盾，研究人员给出了许多不同的解决方案，对神经网络进行压缩。经过压缩后的神经网络拥有更少的参数和计算量，可以显著减少存储和计算资源的开支，更好地部署在资源受限的轻量级设备上，使得神经网络的研究成果可以更大限度地融入实际产品应用，更好地便利人们的生活。

分组卷积Group Convolution是一种经典的轻量结构设计方法。分组卷积可以显著地减少卷积计算的计算量，它的主要思想是：将输入的特征图进行线性分组，同时对卷积核进行相同的分组划分。然后用每组的卷积核同它们对应组内的输入特征图卷积，得到了分组输出数据以后，再将输出拼接起来，使得输出特征大小与普通卷积结果相同。

然而对网络的压缩不可避免地会导致网络精确度会下降。分组卷积的一个重要弊端是组与组之间没有信息流通的渠道，导致网络的特征提取能力下降。为解决分组卷积中组间信息不能流通的问题，Shuffle-Net提出在每次分组卷积操作后对输出通道进行“洗牌”(Channel Shuffle)，即对分组卷积的输出特征图进行“重组”，这样可以保证神经网络下一层的分组卷积其输入来自不同的组，因此信息可以在不同组之间流转。但是，Shuffle-Net对通道的重组是预先固定的，没有考虑网络权重的初始化与输入。

注意力Attention机制近年来在人工智能的各种结构设计中得到越来越多的重视。注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。通过注意力机制，可以找到需要重点关注的目标区域，也就是注意力焦点。

虽然已有部分技术将分组卷积与注意力机制进行组合，但均为利用注意力机制对通道或者像素空间进行加权，以构造一种新的特征，其设计的网络结构是固定的。分组卷积信息具有不能流通所带来的性能下降问题，是一种纯静态的结构。目前业界需要找出一个分组后信息仍然具有良好流通性的解决方案。

发明内容

本发明目的在于提供基于注意力机制的自适应分组卷积神经网络结构设计方法，以解决上述现有技术存在的问题。

本发明所述基于注意力机制的自适应分组卷积神经网络结构设计方法，包括以下步骤：

S1、图像预处理的步骤；

S2、对卷积层分组的步骤；

S3、设计选择网络的步骤；

S4、设计损失函数的步骤；

S5、网络训练的步骤；

S6、网络测试的步骤；

设计选择网络时，基于注意力机制设计用于自适应重排输出的特征图通道；所述选择网络包括通道选择矩阵，所述通道选择矩阵用于记录特征图在层间传递的流通信息。

设计损失函数时，在损失函数中添加正则化项对所述通道选择矩阵进行正交约束。

将网络训练结束后得到的通道选择矩阵进行0-1量化。

选择网络对输入的特征图进行全局池化，提取通道信息来输出全精度矩阵，利用所述全精度矩阵按行进行softmax归一化操作，使得每行参数之和为1，得到归一化矩阵。

在损失函数中的正交约束，令所述归一化矩阵被约束为接近稀疏的0-1通道选择矩阵。

本发明所述基于注意力机制的自适应分组卷积神经网络结构设计方法，其优点在于，通过基于注意力的选择网络，为每组从上一层传入的特征图自适应地生成相应的通道选择矩阵，使得这些特征图能够被动态分配到合适的下一层通道中，实现分组卷积中不同组间的信息交换。可以兼顾特征图的动态分配与内存开销的节约，实现轻量化结构的特征图通道动态分配，提高卷积神经网络性能。

附图说明

图1是本发明所述设计方法的流程示意图。

图2是本发明所述通道选择矩阵的原理示意图。

图3是本发明所述选择网络中的张量传递示意图。

图4是本发明所述网络训练步骤的流程示意图。

图5是本发明所述网络训练步骤中通道重排的流程示意图。

图6是本发明所述网络测试步骤的流程示意图。

具体实施方式

如图1-6所示，本发明所述基于注意力机制的自适应分组卷积神经网络结构设计方法包括以下步骤：S1、图像预处理的步骤；S2、对卷积层分组的步骤；S3、设计选择网络的步骤；S4、设计损失函数的步骤；S5、网络训练的步骤；S6、网络测试的步骤。当卷积神经网络经过测试完成后，即可应用于图像的分组卷积程序中。

为方便描述，先对涉及到的符号进行约定。对于任一卷积层，卷积层输入特征图

卷积层参数

其中，c为输入通道数，和w为输入特征图尺寸，k为卷积核个数，d×d为卷积核大小。对于全连接层，参数

m为输出神经元个数。

S1、图像预处理的步骤：对原始数据进行零填充、随机裁剪、随机翻转以及归一化等预处理，得到预处理后的数据。

S2、对卷积层分组的步骤：对卷积神经网络的卷积层进行分组。

令

为当前卷积层的输入特征图，首先将X分为g组。则输入特征图为X＝{X₁,X₂,…X_c}，其中每张特征图

而每

张特征图X_i被划分为同一组。相应的，将输入和输出通道也分为g组，则g组特征图中的每一组只输入其对应的通道，再从对应的通道输出。具体地，当前卷积层N的权重张量为

分组即在W中取k组参数{W₁,W₂,…W_k},其中

分组之后只利用了原本权重张量的一部分。

S3、设计选择网络的步骤：设计选择网络时，基于注意力机制设计用于自适应重排输出的特征图通道；所述选择网络包括通道选择矩阵，所述通道选择矩阵用于记录特征图在层间传递的流通信息。将每一分组卷积层的输入作为基于注意力机制的选择网络的输入，输出经处理后成为通道选择矩阵S。在网络训练过程中，选择网络所起的作用如图4所示。

将卷积神经网络每一层的通道分组，并在每一层加入基于注意力机制的选择网络。选择网络的结构为全局池化层N₁-全连接层N₂-激活函数N₃-全连接层N₄-softmax层N₅。其中全局池化层用于提取每一个通道各自的全局信息，而之后的两层全连接层及中间的激活函数则是用于权重向量的信息组合与维度改变。两个全连接层先降低维度，再提升维度，构成了一个瓶颈结构，用于节省计算力。具体地，W_j为第N_j层的权重张量，则

r为降维系数。输入特征图X，经过全局池化层N₁后，变为

之后经过N₂、N₃，变为

其中X″＝N₃ReLU(N₂X)。选择网络输出的向量X″经过变形，得到初始的通道选择矩阵

流程如图3所示。

通道选择矩阵用于对神经网络中不同通道进行重新排序，使得经过分组卷积后的各组信息能够相互流通。通道选择矩阵为方阵，在抽象分析时假设方阵的数据均为0和1。方阵的每一行对应原始的通道排列，方阵的每一列对应排序后的通道。如果方阵中第i行第j列的元素为1且该行中其他的元素均为零，则说明输入信息的第i个通道经过排序被分配到第j个通道。以此类推，每一个输入的通道都有对应的输出通道。将经过分组卷积后的特征图与通道选择矩阵相乘，就能得到通道重新排序的结果。通道选择矩阵的参数通过上述选择网络训练得到，参数值根据输入特征图的内容进行自适应调整。理想情况下，每一个输入的通道与每一个输出的通道一一对应，即通道选择矩阵中每一行仅有1个元素为1，每一列仅有一个元素为1，即置换矩阵，结构如图2所示。

在训练网络的过程中，可以通过对输入X进行1×1卷积来实现特征图的通道重排。如图5所示的训练过程中，将选择矩阵的值软化为0到1之间的数，其第i行第j列的元素表示原输入第j个通道对新输入第i个通道的重要性。将通过选择网络的结构设计和网络训练的损失函数的设计，来使得输出的通道选择矩阵S趋向于真正起选择作用的0-1矩阵，从而通过通道选择得到重排后的输出

S4、设计损失函数的步骤：为使选择矩阵为置换矩阵，在训练过程中，具体任务的损失函数还需要增加正交正则化项||S_i·S^T-I||进行正交约束，其中s_i为第i层分组卷积的的通道选择矩阵，S_i ^T为通道选择矩阵的转置矩阵，I为尺寸与通道选择矩阵尺寸相同的单位矩阵。当选择矩阵为正交矩阵且所有元素大于等于0、每一行的和为1时，通道选择矩阵趋近于置换矩阵，条件由选择网络的softmax操作满足。

S5、网络训练的步骤：本发明设计了新的卷积神经网络结构和对应的损失函数，其训练方式可以采用任意现有的神经网络训练方式进行。

S6、网络测试的步骤：在测试应用阶段，首先对通道选择矩阵进行二值化，然后根据选择矩阵进行内存移位，如图6所示。其中，选择矩阵二值化不需要进行选择网络中的softmax计算，直接根据选择网络N4层的输出，选每一行的最大值置为1，该行的其余元素置为0。修改后的通道选择矩阵就是抽象分析时的0，1矩阵，输入的特征图与此矩阵相乘便可完成通道的重新排序，分组卷积后的各组信息得到流通。

现有技术中分组卷积方法能够有效地减少卷积神经网络的计算量，但是分组会导致各组之前的信息不能相互流通，影响网络效果。故本发明利用基于注意力的方法进行组间信息交换，提升分组卷积的准确率。而传统的Shuffle-Net等进行通道顺序变换，实现组间信息交换的方法具有随机性，不能针对每层输出特征图的信息来分配信息的流向。故本发明加入基于注意力的选择网络，选择网络接收特征图并输出通道分配矩阵，实现对于每组特征图通道的动态分配。

本发明最后产生的稀疏0-1通道选择矩阵，使得各通道在输入选择矩阵后仅仅交换位置，在硬件上不增加额外的运算开销，有利于保持高计算速度，不额外增加内存分配压力。能通过分组卷积加速常用的卷积神经网络，同时保持网络的高准确率，促进卷积神经网络算法在轻量级设备上的应用。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.基于注意力机制的自适应分组卷积神经网络结构设计方法，包括以下步骤：

S1、图像预处理的步骤；

S2、对卷积层分组的步骤；

S3、设计选择网络的步骤；

S4、设计损失函数的步骤；

S5、网络训练的步骤；

S6、网络测试的步骤；

其特征在于，设计选择网络时，基于注意力机制设计用于自适应重排输出的特征图通道；所述选择网络包括通道选择矩阵，所述通道选择矩阵用于记录特征图在层间传递的流通信息。

2.根据权利要求1所述基于注意力机制的自适应分组卷积神经网络结构设计方法，其特征在于，设计损失函数时，在损失函数中添加正则化项对所述通道选择矩阵进行正交约束。

3.根据权利要求2所述基于注意力机制的自适应分组卷积神经网络结构设计方法，其特征在于，将网络训练结束后得到的通道选择矩阵进行0-1量化。

4.根据权利要求3所述基于注意力机制的自适应分组卷积神经网络结构设计方法，其特征在于，选择网络对输入的特征图进行全局池化，提取通道信息来输出全精度矩阵，利用所述全精度矩阵按行进行softmax归一化操作，使得每行参数之和为1，得到归一化矩阵。

5.根据权利要求4所述基于注意力机制的自适应分组卷积神经网络结构设计方法，其特征在于，在损失函数中的正交约束，令所述归一化矩阵被约束为接近稀疏的0-1通道选择矩阵。