CN109902693A

CN109902693A - 一种基于多注意力空间金字塔特征图像识别方法

Info

Publication number: CN109902693A
Application number: CN201910118538.5A
Authority: CN
Inventors: 段迅达; 王楷元; 其他发明人请求不公开姓名
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-02-16
Filing date: 2019-02-16
Publication date: 2019-06-18

Abstract

一种基于多注意力空间金字塔特征图像识别方法，属于网络模式识别技术领域，其特征是结合对浅层网络加深的方法，加强卷积神经网络的特征提取能力，通过注意力模块，融合多尺度的注意力特征来获得更加丰富的特征表示，在每个分支网络的最后，加入了空间金字塔池化操作进行多尺度的特征提取，使任意大小的特征图转换成固定大小的特征向量送入全连接层。本发明的网络可以输入任意大小的图像而不需要缩放或裁减，更好的保留了图像的特征信息，对于复杂环境下的图像精细化识别，低像素图像的分类识别方面，具有更好的鲁棒性和准确率。

Description

一种基于多注意力空间金字塔特征图像识别方法

技术领域

本发明属于网络模式识别技术领域，一种多注意力空间金字塔特征提取网络结构，结合对浅层网络加深的方法，加强卷积神经网络的特征提取能力，是一种改进的深度卷积网络结构。

背景技术

随着移动互联网以及模式识别技术的不断发展，信息的传递变得更加快速，而信息量的剧增使得交流媒介已经逐渐由文本转向图片或视频。相较于传统对图像处理的耗时耗力，深度学习凭借其强大的数据处理能力和较高的准确率，成为图像识别，人工智能等领域的研究热点。

其中卷积神经网络作为深度学习领域一种数据驱动方法，在图像分类等领域有着不错的效果，传统的卷积神经网络包括卷积层、pooling层、全连接层，这些都是现代CNN网络的基本组件。不同的卷积核能够提取到图像中的不同特征，卷积层对图像的每个像素的邻域加权求和得到该像素点的输出值，得到的输出值通过池化操作来降低卷积层输出的特征向量，同时降低模型的过拟合程度，最后全连接层连接所有的特征，将输出值送给分类器。

之后，Alex Krizhevsky发表了AlexNet网络结构，并在当年取得了ImageNet最好的成绩，也是在那年之后像VGG-Net，Resnet等网络已相继被提出，这些方法在图像识别方面都取得了不错的效果，随之深度学习的不断发展，对图像细粒度特征的识别要求，模型的鲁棒性和识别准确率等方面有了更高的要求，虽然现有的方法对图像分类问题有着不错的效果，但是对于像素较低的以及在复杂环境下的图像，现有的方法不能满足识别的精度要求，并且在图像的细粒度特征识别方面现有的方法也存在识别精度不高的问题。

发明内容

为了提升网络的性能，使其在复杂的环境下也拥有更好的鲁棒性和更高的识别精度，解决对于像素较低的图像以及在复杂环境下的图像识别的精度不高，且图像的细粒度特征提取难度较大的问题，提出了一种基于多注意力空间金字塔特征图像识别方法，加强卷积神经网络的特征提取能力，实现在复杂环境下的图像精细化识别。

一种基于多注意力空间金字塔特征图像识别方法，包括以下步骤，（1）首先经过如图1中，CNN卷积层进行初步的特征提取，所述CNN卷积层包括五个卷积和两个平均池化操作；然后输入到三个Inception模块进行进一步的特征提取。其中Inception3 ，Inception2模块对包括手提包、短发的图像细粒度特征提取效果较好，而inception1模块抓住包括纹理、边界的细节特征，主网络与分支网络共享CNN模型卷积层。

（2）如图1虚线所示，对于每个Inception的输出，通过1×1的卷积进行降维，然后进行BN（标准化）和Relud激活函数操作，降维后的8个通道每个通道提取图像不同的特征，而且每个通道有着不同的注意力（高亮）区域，对于不同的注意力区域，细粒度特征可以被单独的识别，多个注意通道的多样性丰富了特征表示，提高了识别的准确性，然后通过注意力模块融合多尺度的注意力特征来获得更加丰富的特征表示。

（3）在每个分支网络的最后，加入了空间金字塔池化操作进行多尺度的特征提取，并且空间金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量送入全连接层，使网络输入任意大小的图像而不需要缩放或裁减，更好的保留了图像的特征信息，最后融合各个分支网络的特征作为最后的特征表达送入全连接层。

本发明对浅层网络加深的方法，加强卷积神经网络的特征提取能力，实现在复杂环境下的图像精细化识别，得益于多注意力通道对高亮区域特征的提取能力，而且对于不同的注意力区域，细粒度特征可以被单独的识别，多个注意通道的多样性丰富了特征表示，提高了识别的准确性，模型中加入spp（空间金字塔池化）层后，对输入的图像大小不再有所限制，可以输入任意大小的图片，更多的保留了图像的信息，进一步提高了行人属性识别的准确率。相对于传统深度学习的方法，本发明可以提取到行人更高层的语义信息，受复杂环境以及光照，视角的影响较小，具有更好的鲁棒性和准确率。

附图说明

图1为本发明的网络结构图。

图2为inception1结构图。

图3为inception2结构图。

图4为inception3结构图，n等于7。

具体实施方式

图1所示，在图像输入层，因为模型加入空间金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，对输入图像的尺寸不再有要求，可以输入任意大小的图像，在特征提取阶段：

构建基于多注意力空间金字塔特征提取网络具体为：基于Inceptionv3网络提出了自己的特征提取网络，所述特征提取网络有一个主网络，三个分支网络，每个分支网络共享CNN模型卷积层，每个分支与主网络有相同的inception模块，在如图1中，CNN结构中包含五个卷积层，两个平均池化层，每次卷积后加入Relud激活函数和BN（标准化）操作，具体为：

卷积核大小为3×3，深度为32，步长为2，Padding方式为Valid

卷积核大小为3×3，深度为32，步长为1，Padding方式为Valid

卷积核大小为3×3，深度为64，步长为1，Padding方式为Valid

卷积核大小为3×3，步长为2的平均池化

卷积核大小为1×1，深度为80，步长为1，Padding方式为Valid

卷积核大小为3×3，深度为192，步长为1，Padding方式为Valid

卷积核大小为3×3，步长为2的平均池化

之后在主网络后紧随三个inception模块（即 inception1模块、inception2模块、inception3模块），在每个inception模块中，将一个较大的卷积拆成两个较小的卷积，例如把7×7的卷积拆成1×7和7×1的卷积，3×3的卷积拆成1×3和3×1的卷积，这样一方面节约了大量的参数，加速运算减轻了过拟合，同时增加了一层非线性扩展了模型的表达能力。

在每个分支网络加入注意力机制来强化对特征的提取，对于主网络中每个inception模块的输出，用1×1的卷积对其进行降维操作，使其维度降为L=8，之后进行ReLU和BN操作，公式如下：

L为注意力映射的通道数，W为宽度，H为高度，降维后的特征与三个分支网络相应的inception输出进行逐像素点相乘，公式如下：

=×，

为分支网络进行降维后的特征映射，L为通道数，得到的特征映射随后输入紧接着的inception模块进行特征提取，得益于多注意力通道对高亮区域特征的提取能力，而且对于不同的注意力区域，细粒度特征可以被单独的识别，多个注意通道的多样性丰富了特征表示，提高了识别的准确性。之后在主网络和分支网络中加入了三层spp（空间金字塔池化）操作，进行多尺度的特征提取，以及524个节点的全连接层，BN和Dropout层加在全连接层之后防止模型的过拟合，加快模型的收敛，随后将主网络和三个分支网络进行特征融合，融合后的特征输入到全连接层当中，最后loss函数将全连接层得到的结果通过sigmod函数进行概率计算，得到预测标记，与真实标签进行比较，计算损失，优化模型。

在模型训练的过程中，将每一层的输出进行反卷积，将该层的输入与反卷积输出结果进行比较，通过梯度下降法不断调整卷积核权值大小，学习速率设置为0.0001，学习速率每轮下降1/300，权重衰减为0.00004，使用sigmod交叉熵损失函数对模型训练300次。

Claims

1.一种基于多注意力空间金字塔特征图像识别方法，其特征是结合对浅层网络加深的方法，加强卷积神经网络的特征提取能力，通过注意力模块，融合多尺度的注意力特征来获得更加丰富的特征表示，在每个分支网络的最后，加入了空间金字塔池化操作进行多尺度的特征提取，使任意大小的特征图转换成固定大小的特征向量送入全连接层。

2.根据权利要求1所述一种基于多注意力空间金字塔特征图像识别方法，其特征是包括以下内容：

（1）主网络与分支网络共享CNN卷积层；先经过CNN卷积层对图像进行初步特征提取，然后将提取到的初步特征分别输入到Inception3模块、Inception2模块、Inception1模块，对输入到Inception3模块、Inception2模块的初步特征进行细粒度特征提取，对输入到Inception1模块的初步特征进行细节特征提取；所述细粒度特征包括手提包、短发图像，细节特征包括纹理、边界图像；

（2）对于每个Inception的输出，通过1×1的卷积进行降维，然后进行标准化操作和 Relud激活函数操作，降维后的8个通道每个通道提取图像不同的特征；

L为注意力映射的通道数，W为宽度，H为高度，为每个Inception的输出，为对降维后的特征映射，为对得到的特征进行标准化操作和Relud操作；

（3）降维后的特征与三个分支网络相应的inception输出进行逐像素点相乘，公式如下：

=×，

为分支网络进行降维后的特征映射，L为通道数，为得到的特征映射；

（4）在每个分支网络的最后，加入空间金字塔池化操作进行多尺度的特征提取，使任意大小的特征图转换成固定大小的特征向量送入全连接层，使网络输入任意大小的图像；

（5）融合各个分支网络的特征作为最后的特征表达，送入全连接层。