CN112801289A - 基于注意力机制的自适应分组卷积神经网络结构设计方法 - Google Patents

基于注意力机制的自适应分组卷积神经网络结构设计方法 Download PDF

Info

Publication number
CN112801289A
CN112801289A CN202110163368.XA CN202110163368A CN112801289A CN 112801289 A CN112801289 A CN 112801289A CN 202110163368 A CN202110163368 A CN 202110163368A CN 112801289 A CN112801289 A CN 112801289A
Authority
CN
China
Prior art keywords
network
matrix
channel
attention mechanism
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110163368.XA
Other languages
English (en)
Inventor
郭锴凌
李昱澍
林泽柠
殷卓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110163368.XA priority Critical patent/CN112801289A/zh
Publication of CN112801289A publication Critical patent/CN112801289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于注意力机制的自适应分组卷积神经网络结构设计方法,涉及人工智能运算领域,针对现有分组卷积技术中特征图通道在层间不能有效流通的问题提出本方案。在设计选择网络时,基于注意力机制设计用于自适应重排输出的特征图通道;所述选择网络包括通道选择矩阵,所述通道选择矩阵用于记录特征图在层间传递的流通信息。优点在于,通过基于注意力的选择网络,为每组从上一层传入的特征图自适应地生成相应的通道选择矩阵,使得这些特征图能够被动态分配到合适的下一层通道中,实现分组卷积中不同组间的信息交换。可以兼顾特征图的动态分配与内存开销的节约,实现轻量化结构的特征图通道动态分配,提高卷积神经网络性能。

Description

基于注意力机制的自适应分组卷积神经网络结构设计方法
技术领域
本发明涉及人工智能运算领域,尤其涉及基于注意力机制的自适应分组卷积神经网络结构设计方法。
背景技术
近年来,神经网络算法在图像识别领域大放异彩。为进一步提升图像识别的精确度,研究人员不断增加神经网络的深度或宽度。但更大的神经网络模型同时也对硬件计算资源提出了更高的要求,这给移动手机和嵌入式设备的部署工作带来了更大的难度,不利于神经网络算法的轻量级应用。
为解决神经网络的精确度与硬件设备要求的突出矛盾,研究人员给出了许多不同的解决方案,对神经网络进行压缩。经过压缩后的神经网络拥有更少的参数和计算量,可以显著减少存储和计算资源的开支,更好地部署在资源受限的轻量级设备上,使得神经网络的研究成果可以更大限度地融入实际产品应用,更好地便利人们的生活。
分组卷积Group Convolution是一种经典的轻量结构设计方法。分组卷积可以显著地减少卷积计算的计算量,它的主要思想是:将输入的特征图进行线性分组,同时对卷积核进行相同的分组划分。然后用每组的卷积核同它们对应组内的输入特征图卷积,得到了分组输出数据以后,再将输出拼接起来,使得输出特征大小与普通卷积结果相同。
然而对网络的压缩不可避免地会导致网络精确度会下降。分组卷积的一个重要弊端是组与组之间没有信息流通的渠道,导致网络的特征提取能力下降。为解决分组卷积中组间信息不能流通的问题,Shuffle-Net提出在每次分组卷积操作后对输出通道进行“洗牌”(Channel Shuffle),即对分组卷积的输出特征图进行“重组”,这样可以保证神经网络下一层的分组卷积其输入来自不同的组,因此信息可以在不同组之间流转。但是,Shuffle-Net对通道的重组是预先固定的,没有考虑网络权重的初始化与输入。
注意力Attention机制近年来在人工智能的各种结构设计中得到越来越多的重视。注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。通过注意力机制,可以找到需要重点关注的目标区域,也就是注意力焦点。
虽然已有部分技术将分组卷积与注意力机制进行组合,但均为利用注意力机制对通道或者像素空间进行加权,以构造一种新的特征,其设计的网络结构是固定的。分组卷积信息具有不能流通所带来的性能下降问题,是一种纯静态的结构。目前业界需要找出一个分组后信息仍然具有良好流通性的解决方案。
发明内容
本发明目的在于提供基于注意力机制的自适应分组卷积神经网络结构设计方法,以解决上述现有技术存在的问题。
本发明所述基于注意力机制的自适应分组卷积神经网络结构设计方法,包括以下步骤:
S1、图像预处理的步骤;
S2、对卷积层分组的步骤;
S3、设计选择网络的步骤;
S4、设计损失函数的步骤;
S5、网络训练的步骤;
S6、网络测试的步骤;
设计选择网络时,基于注意力机制设计用于自适应重排输出的特征图通道;所述选择网络包括通道选择矩阵,所述通道选择矩阵用于记录特征图在层间传递的流通信息。
设计损失函数时,在损失函数中添加正则化项对所述通道选择矩阵进行正交约束。
将网络训练结束后得到的通道选择矩阵进行0-1量化。
选择网络对输入的特征图进行全局池化,提取通道信息来输出全精度矩阵,利用所述全精度矩阵按行进行softmax归一化操作,使得每行参数之和为1,得到归一化矩阵。
在损失函数中的正交约束,令所述归一化矩阵被约束为接近稀疏的0-1通道选择矩阵。
本发明所述基于注意力机制的自适应分组卷积神经网络结构设计方法,其优点在于,通过基于注意力的选择网络,为每组从上一层传入的特征图自适应地生成相应的通道选择矩阵,使得这些特征图能够被动态分配到合适的下一层通道中,实现分组卷积中不同组间的信息交换。可以兼顾特征图的动态分配与内存开销的节约,实现轻量化结构的特征图通道动态分配,提高卷积神经网络性能。
附图说明
图1是本发明所述设计方法的流程示意图。
图2是本发明所述通道选择矩阵的原理示意图。
图3是本发明所述选择网络中的张量传递示意图。
图4是本发明所述网络训练步骤的流程示意图。
图5是本发明所述网络训练步骤中通道重排的流程示意图。
图6是本发明所述网络测试步骤的流程示意图。
具体实施方式
如图1-6所示,本发明所述基于注意力机制的自适应分组卷积神经网络结构设计方法包括以下步骤:S1、图像预处理的步骤;S2、对卷积层分组的步骤;S3、设计选择网络的步骤;S4、设计损失函数的步骤;S5、网络训练的步骤;S6、网络测试的步骤。当卷积神经网络经过测试完成后,即可应用于图像的分组卷积程序中。
为方便描述,先对涉及到的符号进行约定。对于任一卷积层,卷积层输入特征图
Figure BDA0002936434770000031
卷积层参数
Figure BDA0002936434770000032
其中,c为输入通道数,和w为输入特征图尺寸,k为卷积核个数,d×d为卷积核大小。对于全连接层,参数
Figure BDA0002936434770000033
m为输出神经元个数。
S1、图像预处理的步骤:对原始数据进行零填充、随机裁剪、随机翻转以及归一化等预处理,得到预处理后的数据。
S2、对卷积层分组的步骤:对卷积神经网络的卷积层进行分组。
Figure BDA0002936434770000034
为当前卷积层的输入特征图,首先将X分为g组。则输入特征图为X={X1,X2,…Xc},其中每张特征图
Figure BDA0002936434770000035
而每
Figure BDA0002936434770000036
张特征图Xi被划分为同一组。相应的,将输入和输出通道也分为g组,则g组特征图中的每一组只输入其对应的通道,再从对应的通道输出。具体地,当前卷积层N的权重张量为
Figure BDA0002936434770000037
分组即在W中取k组参数{W1,W2,…Wk},其中
Figure BDA0002936434770000038
分组之后只利用了原本权重张量的一部分。
S3、设计选择网络的步骤:设计选择网络时,基于注意力机制设计用于自适应重排输出的特征图通道;所述选择网络包括通道选择矩阵,所述通道选择矩阵用于记录特征图在层间传递的流通信息。将每一分组卷积层的输入作为基于注意力机制的选择网络的输入,输出经处理后成为通道选择矩阵S。在网络训练过程中,选择网络所起的作用如图4所示。
将卷积神经网络每一层的通道分组,并在每一层加入基于注意力机制的选择网络。选择网络的结构为全局池化层N1-全连接层N2-激活函数N3-全连接层N4-softmax层N5。其中全局池化层用于提取每一个通道各自的全局信息,而之后的两层全连接层及中间的激活函数则是用于权重向量的信息组合与维度改变。两个全连接层先降低维度,再提升维度,构成了一个瓶颈结构,用于节省计算力。具体地,Wj为第Nj层的权重张量,则
Figure BDA0002936434770000041
r为降维系数。输入特征图X,经过全局池化层N1后,变为
Figure BDA0002936434770000042
之后经过N2、N3,变为
Figure BDA0002936434770000043
其中X″=N3ReLU(N2X)。选择网络输出的向量X″经过变形,得到初始的通道选择矩阵
Figure BDA0002936434770000044
流程如图3所示。
通道选择矩阵用于对神经网络中不同通道进行重新排序,使得经过分组卷积后的各组信息能够相互流通。通道选择矩阵为方阵,在抽象分析时假设方阵的数据均为0和1。方阵的每一行对应原始的通道排列,方阵的每一列对应排序后的通道。如果方阵中第i行第j列的元素为1且该行中其他的元素均为零,则说明输入信息的第i个通道经过排序被分配到第j个通道。以此类推,每一个输入的通道都有对应的输出通道。将经过分组卷积后的特征图与通道选择矩阵相乘,就能得到通道重新排序的结果。通道选择矩阵的参数通过上述选择网络训练得到,参数值根据输入特征图的内容进行自适应调整。理想情况下,每一个输入的通道与每一个输出的通道一一对应,即通道选择矩阵中每一行仅有1个元素为1,每一列仅有一个元素为1,即置换矩阵,结构如图2所示。
在训练网络的过程中,可以通过对输入X进行1×1卷积来实现特征图的通道重排。如图5所示的训练过程中,将选择矩阵的值软化为0到1之间的数,其第i行第j列的元素表示原输入第j个通道对新输入第i个通道的重要性。将通过选择网络的结构设计和网络训练的损失函数的设计,来使得输出的通道选择矩阵S趋向于真正起选择作用的0-1矩阵,从而通过通道选择得到重排后的输出
Figure BDA0002936434770000045
S4、设计损失函数的步骤:为使选择矩阵为置换矩阵,在训练过程中,具体任务的损失函数还需要增加正交正则化项||Si·ST-I||进行正交约束,其中si为第i层分组卷积的的通道选择矩阵,Si T为通道选择矩阵的转置矩阵,I为尺寸与通道选择矩阵尺寸相同的单位矩阵。当选择矩阵为正交矩阵且所有元素大于等于0、每一行的和为1时,通道选择矩阵趋近于置换矩阵,条件由选择网络的softmax操作满足。
S5、网络训练的步骤:本发明设计了新的卷积神经网络结构和对应的损失函数,其训练方式可以采用任意现有的神经网络训练方式进行。
S6、网络测试的步骤:在测试应用阶段,首先对通道选择矩阵进行二值化,然后根据选择矩阵进行内存移位,如图6所示。其中,选择矩阵二值化不需要进行选择网络中的softmax计算,直接根据选择网络N4层的输出,选每一行的最大值置为1,该行的其余元素置为0。修改后的通道选择矩阵就是抽象分析时的0,1矩阵,输入的特征图与此矩阵相乘便可完成通道的重新排序,分组卷积后的各组信息得到流通。
现有技术中分组卷积方法能够有效地减少卷积神经网络的计算量,但是分组会导致各组之前的信息不能相互流通,影响网络效果。故本发明利用基于注意力的方法进行组间信息交换,提升分组卷积的准确率。而传统的Shuffle-Net等进行通道顺序变换,实现组间信息交换的方法具有随机性,不能针对每层输出特征图的信息来分配信息的流向。故本发明加入基于注意力的选择网络,选择网络接收特征图并输出通道分配矩阵,实现对于每组特征图通道的动态分配。
本发明最后产生的稀疏0-1通道选择矩阵,使得各通道在输入选择矩阵后仅仅交换位置,在硬件上不增加额外的运算开销,有利于保持高计算速度,不额外增加内存分配压力。能通过分组卷积加速常用的卷积神经网络,同时保持网络的高准确率,促进卷积神经网络算法在轻量级设备上的应用。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (5)

1.基于注意力机制的自适应分组卷积神经网络结构设计方法,包括以下步骤:
S1、图像预处理的步骤;
S2、对卷积层分组的步骤;
S3、设计选择网络的步骤;
S4、设计损失函数的步骤;
S5、网络训练的步骤;
S6、网络测试的步骤;
其特征在于,设计选择网络时,基于注意力机制设计用于自适应重排输出的特征图通道;所述选择网络包括通道选择矩阵,所述通道选择矩阵用于记录特征图在层间传递的流通信息。
2.根据权利要求1所述基于注意力机制的自适应分组卷积神经网络结构设计方法,其特征在于,设计损失函数时,在损失函数中添加正则化项对所述通道选择矩阵进行正交约束。
3.根据权利要求2所述基于注意力机制的自适应分组卷积神经网络结构设计方法,其特征在于,将网络训练结束后得到的通道选择矩阵进行0-1量化。
4.根据权利要求3所述基于注意力机制的自适应分组卷积神经网络结构设计方法,其特征在于,选择网络对输入的特征图进行全局池化,提取通道信息来输出全精度矩阵,利用所述全精度矩阵按行进行softmax归一化操作,使得每行参数之和为1,得到归一化矩阵。
5.根据权利要求4所述基于注意力机制的自适应分组卷积神经网络结构设计方法,其特征在于,在损失函数中的正交约束,令所述归一化矩阵被约束为接近稀疏的0-1通道选择矩阵。
CN202110163368.XA 2021-02-05 2021-02-05 基于注意力机制的自适应分组卷积神经网络结构设计方法 Pending CN112801289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163368.XA CN112801289A (zh) 2021-02-05 2021-02-05 基于注意力机制的自适应分组卷积神经网络结构设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163368.XA CN112801289A (zh) 2021-02-05 2021-02-05 基于注意力机制的自适应分组卷积神经网络结构设计方法

Publications (1)

Publication Number Publication Date
CN112801289A true CN112801289A (zh) 2021-05-14

Family

ID=75814455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163368.XA Pending CN112801289A (zh) 2021-02-05 2021-02-05 基于注意力机制的自适应分组卷积神经网络结构设计方法

Country Status (1)

Country Link
CN (1) CN112801289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640835A (zh) * 2022-12-22 2023-01-24 阿里巴巴(中国)有限公司 深度学习网络结构的生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950453A (zh) * 2020-08-12 2020-11-17 北京易道博识科技有限公司 一种基于选择性注意力机制的任意形状文本识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950453A (zh) * 2020-08-12 2020-11-17 北京易道博识科技有限公司 一种基于选择性注意力机制的任意形状文本识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANCHENG LYU等: "AutoShuffleNet: Learning Permutation Matrices via an Exact Lipschitz Continuous Penalty in Deep Convolutional Neural Networks", 《VIRTUAL EVENT》 *
MARK: "深度神经网络中的正交规范化", 《知乎 ZHUANLAN.ZHIHU.COM/P/98873800》 *
ZHANG QING-LONG等: "SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS", 《ARXIV:2102.00240V1》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640835A (zh) * 2022-12-22 2023-01-24 阿里巴巴(中国)有限公司 深度学习网络结构的生成方法及装置
CN115640835B (zh) * 2022-12-22 2023-03-31 阿里巴巴(中国)有限公司 深度学习网络结构的生成方法及装置

Similar Documents

Publication Publication Date Title
US20220012593A1 (en) Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization
CN110458279B (zh) 一种基于fpga的二值神经网络加速方法及系统
CN111445012B (zh) 一种基于fpga的分组卷积硬件加速器及其方法
CN109543830B (zh) 一种用于卷积神经网络加速器的拆分累加器
CN108764317B (zh) 一种基于多路特征加权的残差卷积神经网络图像分类方法
CN107145939A (zh) 一种神经网络优化方法及装置
US20180197084A1 (en) Convolutional neural network system having binary parameter and operation method thereof
CN110222818B (zh) 一种用于卷积神经网络数据存储的多bank行列交织读写方法
CN109886391B (zh) 一种基于空间正反对角卷积的神经网络压缩方法
CN113033794B (zh) 基于深度可分离卷积的轻量级神经网络硬件加速器
CN107633297A (zh) 一种基于并行快速fir滤波器算法的卷积神经网络硬件加速器
CN112668708B (zh) 一种提高数据利用率的卷积运算装置
CN109993293B (zh) 一种适用于堆叠式沙漏网络的深度学习加速器
CN111401294B (zh) 基于自适应特征融合的多任务人脸属性分类方法及系统
CN111931927B (zh) 一种在npu中减少计算资源占用的方法及装置
CN111832705A (zh) 一种卷积神经网络的压缩方法及其实现电路
WO2021147276A1 (zh) 数据处理方法、装置及芯片、电子设备、存储介质
KR20200043617A (ko) 고효율 연산 처리를 위한 인공 신경망 모듈 및 이의 스케쥴링 방법
CN110782001B (zh) 一种基于组卷积神经网络使用共享卷积核的改进方法
CN112801289A (zh) 基于注意力机制的自适应分组卷积神经网络结构设计方法
CN109740619B (zh) 用于目标识别的神经网络终端运行方法和装置
CN114519425A (zh) 一种规模可扩展的卷积神经网络加速系统
Sun et al. Sense: Model-hardware codesign for accelerating sparse CNNs on systolic arrays
CN114004351A (zh) 一种卷积神经网络硬件加速平台
US20230376733A1 (en) Convolutional neural network accelerator hardware

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514

RJ01 Rejection of invention patent application after publication