CN111667058A

CN111667058A - 卷积神经网络的多尺度特征通道的动态选择方法

Info

Publication number: CN111667058A
Application number: CN202010576724.6A
Authority: CN
Inventors: 申啸尘; 乔国坤; 周有喜
Original assignee: Xinjiang Aiwinn Information Technology Co Ltd
Current assignee: Xinjiang Aiwinn Information Technology Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-09-15

Abstract

本发明公开了一种卷积神经网络的多尺度特征通道的动态选择方法，包括以下步骤：采用concat结合多尺度卷积核所提取的特征图；通过SE机制对通道分配权重；采用1*1卷积核对分配权重后的输出通道数进行压缩。本发明能够在增加较少卷积神经网络运算模型运算量的基础上，明显提高模型的精度。

Description

卷积神经网络的多尺度特征通道的动态选择方法

技术领域

本发明涉及卷积神经网络技术领域，具体来说，涉及一种卷积神经网络的多尺度特征通道的动态选择方法。

背景技术

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。

对卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络；在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被应用于计算机视觉、自然语言处理等领域。

卷积神经网络仿造生物的视知觉(visual perception)机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程(feature engineering)要求。

GoogLeNet是2014年Christian Szegedy提出的一种全新的深度学习结构，在这之前的AlexNet、VGG等结构都是通过增大网络的深度(层数)来获得更好的训练效果，但层数的增加会带来很多负作用，比如overfit、梯度消失、梯度爆炸等。inception的提出则从另一种角度来提升训练结果：能更高效的利用计算资源，通过并行不同大小的卷积核，增强模型对不同尺度特征的拟合能力，从而在相同的计算量下能提取到更多的特征，从而提升训练结果。

SE-net通过添加通道注意力机制，通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道式的特征响应。

GoogleNet效果好，但并没有太多对运算量的限制，在并行卷积后使用concat对来自不同卷积尺度卷积核的特征图进行拼接，这意味着，如果每个卷积核具有n个输出通道，那么每次进行卷积后，输出的特征图数量就会变成m*n(m代表总共并行了多少个其它尺寸卷积核)，而输出特征图的增多，会大大增加运算负担。这样的结构，大大的增加了运算成本，并不适合在小模型上使用。

发明内容

本发明的目的在于提出一种卷积神经网络的多尺度特征通道的动态选择方法，以克服现有技术中存在的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种卷积神经网络的多尺度特征通道的动态选择方法，所述方法包括以下步骤：

采用concat结合多尺度卷积核所提取的特征图；

通过SE机制对通道分配权重；

采用1*1卷积核对分配权重后的输出通道数进行压缩。

一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如上所述的动态选择方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如上所述的动态选择方法。

本发明的有益效果：本发明能够在增加较少卷积神经网络运算模型运算量的基础上，明显提高模型的精度。

附图说明

图1是本发明所述动态选择方法的流程图；

图2是将本发明所述动态选择方法应用于mobilefacenet后得到的模型结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，根据本发明的实施例所述的一种卷积神经网络的多尺度特征通道的动态选择方法，所述方法包括以下步骤：

步骤1：采用concat结合多尺度卷积核所提取的特征图；

步骤2：通过SE机制对通道分配权重；

步骤3：采用1*1卷积核对分配权重后的输出通道数进行压缩。

其中，concat在该机制中起到的是特征图拼接的操作，在mxnet中使用mx.sym.Concat(conv_1,conv_2)可对不同卷积提取出的特征图进行拼接。如conv_1输出64个特征图，conv_2输出32个特征图，将特征图拼接到一起，得到96个特征图，便于后续的操作。

SE(通道注意力机制)本质上就是在一个分支上把特征图进行全局池化，获得与特征图数目一致对应数目的数值，将这些数值输入神经元再输出，从而能够学习到通道权重，再将这些权重乘以之前的特征图，从而达到给通道进行加权的效果。所以concat的作用是拼接从不同尺度卷积核中抽取的特征图，用SE给这些特征图分配权重，在分配权重后，实际上通道数还是一样的，但是每个通道已经和各自的权重相乘，因此后续用较少通道数的1*1卷积核对concat后并经过加权特征图进行特征图数量削减(输出通道数减少)，就能在减少通道数的同时更精准的保留有效的特征。因为经过学习的模型对不同特征图的加权是不同的，因此在1*1卷积压缩通道时，对不同输入图片后续减少哪些通道特征、保留哪些通道特征的比例都会有变化，因此称为动态选择机制。

这样的结合方式主要是为了减少计算量。如果我们直接用concat来拼接不同尺度卷积核提取出的特征图并进行接下来的运算，那么经过多次concat后通道数(特征图数)会变得非常大而让运算变得非常缓慢。但是如果用1*1直接对不同尺度的特征图进行压缩，那么不同尺度的特征图分配基本是按照之前的通道比例来进行。比如3*3和5*5卷积核分别提取出32和32个特征图，然后用32*1*1的卷积把他们压缩成32个，那么这32个特征图中包含来自3*3和5*5的特征图中的信息更接近1比1。但理论上我们并不知道哪个尺度的特征图更适用于我们期望得到的结果、包含了更多有效信息。因此先用SE对来自不同尺度卷积核的特征图进行加权，选择出更重要的通道，再把已经经过加权的通道(特征图)用1*1卷积核进行削减，这样就能更好的保留更重要的信息。

具体的，例如，输入的卷积层，有96个通道；在经过激活函数后，被流入两个分支，左边的分支是3*3卷积核，右边的分支是5*5卷积核，各有96个通道；经过concat层拼接后，变成192个通道，至此是googlenet的常规操作。接下来拼接一个SE结构，即通道注意力机制，为192个通道进行加权，具体的实现就是SE机制的实现。在加权后，我们能获得的是192个加权后的特征图。接下来，用96通道的1*1的卷积，重新把192个通道压缩回96通道。因为这时3*3和5*5卷积核concat包含的192个通道已经是加权后的，所以用96个通道的1*1卷积，就能够筛选出不同尺度卷积核下最重要的通道。

本发明所述动态选择方法可以被加入已存在的模型结构中，如mobilenet，mobilefacenet等，运算量会有少量增加，但会得到比较显著的精度提升。例如加入mobilefacenet后，该机制模型结构如图2所示。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种卷积神经网络的多尺度特征通道的动态选择方法，其特征在于，所述方法包括以下步骤：

采用concat结合多尺度卷积核所提取的特征图；

通过SE机制对通道分配权重；

采用1*1卷积核对分配权重后的输出通道数进行压缩。

2.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1所述的动态选择方法。

3.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1所述的动态选择方法。