CN115546506A

CN115546506A - 基于双池化通道注意力和空洞卷积的图像识别方法及系统

Info

Publication number: CN115546506A
Application number: CN202211172502.3A
Authority: CN
Inventors: 高会议; 张翔; 万莉; 贺露
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-30

Abstract

本发明的一种基于双池化通道注意力和空洞卷积的图像识别方法及系统，其方法包括：获取待识别图像、图像进行相应预处理、图像输入到深度卷积神经网络浅层中提取细节特征(第一阶段)、空洞卷积扩展网络深层的有效感受野，双池化通道注意力联合整体和局部响应对特征进行重标定，本发明提取出更具有识别性的关键语义特征(第二阶段)、采用softmax函数对提取出的特征进行分类，采用对称交叉熵函数作为损失函数。本发明构建了一种双阶段的基于双池化通道注意力和空洞卷积的深度卷积神经网络，可以进一步提高深度卷积神经网络对于细粒度分类的分类精度，并且对称交叉熵函数可以增强模型的标签鲁棒性。

Description

基于双池化通道注意力和空洞卷积的图像识别方法及系统

技术领域

本发明涉及机器视觉技术领域，具体涉及一种基于双池化通道注意力和空洞卷积的图像识别方法及系统。

背景技术

近年来，基于深度卷积神经网络的机器视觉技术应用场景广泛，得到了许多研究者的关注。细粒度图像识别是传统图像识别的一个分支，细粒度图像分类的重点是对一个大类的不同子类进行识别。

目前细粒度图像识别仍然是一个具有挑战性的任务。由于细粒度图像类内特征差异小，类间特征差异大，并且还存在自然环境、拍摄视角、复杂背景等干扰，深度卷积神经网络无法提取出具有识别性的关键特征，因此在细粒度图像识别任务上的表现并不稳定。卷积神经网络通过堆叠的方式扩大感受野，但是可对梯度产生影响的感受野(有效感受野)并不大，这导致网络过度关注互相割裂的局部细节特征，缺乏对全局上下文的语义特征的理解能力，从而无法正确识别出细粒度图像之间的差异。

发明内容

本发明提出的一种基于双池化通道注意力和空洞卷积的图像识别方法，可至少解决上述技术问题之一。

为实现上述目的，本发明采用了以下技术方案：

一种基于双池化通道注意力和空洞卷积的图像识别方法，包括以下步骤，

步骤1、获取待识别图像，预处理后输入到深度卷积神经网络中；

步骤2、处理后的待测试图像输入网络浅层进行细节特征的提取；

步骤3、浅层特征输入到网络深层，通过空洞卷积和双池化通道注意力机制进行关键语义特征提取；

步骤4、特征输入到分类器进行分类，将分类分数的最大值作为图像的分类结果，采用对称交叉熵函数作为损失函数进行训练。

进一步的，步骤1中，预处理包括：调整到网络需要的尺寸大小、像素标准化、旋转。

进一步的，步骤2中特征提取网络采用卷积神经网络，是传统的直筒式的网络结构VGG、轻量级网络结构MobileNet、多路结构GoogLeNet、残差结构ResNet任意一种。

进一步的，步骤2中待测试图像输入网络浅层进行细节特征的提取，包括如下步骤：

步骤2.1构造浅层特征提取网络，具体为resnet50，resnet50由5个Stage组成，其中Stage 0是卷积加激活函数加池化叠加而成具体为卷积提取局部特征、激活函数增加模型非线性拟合能力、池化操作进一步聚合特征，后4个Stage都由Bottleneck组成，Bottleneck是一种残差结构，在卷积之间加上短接，以学习残差，4个Stage分别包括3、4、6、3个Bottleneck；

步骤2.2将浅层特征图保存；若深层特征提取网络与浅层特征提取网络不是同一个架构，则对浅层特征进行相应的处理。

进一步的，所述步骤3中，浅层特征输入到网络深层，通过空洞卷积和双池化通道注意力机制进行关键语义特征提取，具体步骤如下：

步骤3.1、将resnet50的后两个Stage中的标准卷积替换为空洞卷积，空洞率设置为1、2、3、1、2、3.....这种齿轮式的结构；

步骤3.2、构造双池化通道注意力模块，并将此模块嵌入到resnet50后两个Stage的每两个残差的中间；

步骤3.3、将空洞卷积和双池化通道注意力与resnet50的残差模块进行结合。

进一步的，其特征在于：

步骤3.2中的双池化通道注意力模块由两个部分组成：压缩和提取；在压缩操作中，通过联合全局最大池化GMP和全局平均池化GAP来丰富特征的输入；

在提取操作中，首先用两个全连接层学习不同通道之间的相互依存关系，同时减少参数数量；再使用sigmoid函数生成归一化权重，给特征进行重加权。

进一步的，其特征在于：步骤4特征输入到分类器进行分类，将分类分数的最大值作为图像的分类结果，采用对称交叉熵函数作为损失函数进行训练，具体包括：

步骤4.1，将步骤3中提取好的特征保存，输入到分类器中；采用将特征展平，输入到全连接层中，构造特征空间到类别空间的映射关系；再用softmax函数对每一个类别进行打分，分数最高的为分类的结果；

步骤4.2神经网络训练的误差需要反向传播，以不断更新参数，最终达到收敛效果；分类任务采用交叉熵损失函数(L_ce),L_ce的定义如下：

其中，q为真实的概率，p为模型预测的概率。

进一步的，还包括加入一个以模型预测为基点的损失部分L_rce和L_sl，L_rce和L_sl的定义如下：

l_sl＝αl_ce+βl_rce

q为真实的概率，p为模型预测的概率。

又一方面，本发明还公开一种基于双池化通道注意力和空洞卷积的图像识别系统，包括如下模块，

原始图像输入模块：通过相机拍摄、本地存储、服务器获取方式获得原始的输入图像；

图像预处理模块：对图像进行预处理；

模型转换及调用模块：对存储在服务器或本地的模型进行语言转换，使能够被不同的终端调用；

浅层特征提取模块：通过构建浅层的卷积神经网络，对图像的细节特征进行提取；

深层特征提取模块：包含空洞卷积和双池化通道注意力的卷积块，对图像的语义特征进行提取；

分类结果模块：将特征输入到分类器进行分类。

再一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

由上述技术方案可知，本发明涉及图像处理和图像识别领域，提出了一种基于双池化通道注意力和空洞卷积的深度卷积神经网络的双阶段图像识别方法和系统，方法包括：获取待识别图像、图像进行相应预处理、图像输入到深度卷积神经网络浅层中提取细节特征(第一阶段)、空洞卷积扩展网络深层的有效感受野，双池化通道注意力联合整体和局部响应对特征进行重标定，提取出更具有识别性的关键语义特征(第二阶段)、采用softmax函数对提取出的特征进行分类，采用对称交叉熵函数作为损失函数。本文构建了一种双阶段的基于双池化通道注意力和空洞卷积的深度卷积神经网络，可以进一步提高深度卷积神经网络对于细粒度分类的分类精度，并且对称交叉熵函数可以增强模型的标签鲁棒性

本发明提出了基于双池化通道注意力和空洞卷积的图像识别方法，可以提高卷积神经网络对于细粒度图像的识别能力，并采用对称交叉熵损失进行训练，提高了此方法的标签鲁棒性。

本发明的基于双池化通道注意力和空洞卷积的图像识别方法，是涉及基于双池化通道注意力和空洞卷积的图像识别方法和应用，可以提高卷积神经网络对于难以识别的细粒度图像的分类能力，并且计算量的增加可忽略不计，可以很好地用于轻量级神经网络，实现移动端或嵌入式的真实生活场景下的识别。

具体的说，与现有技术相比，本发明的创新点为：

本发明中通过剖析卷积结构及通道注意力结构本身固有的缺点，提出了一种双阶段的特征提取方法：浅层利用标准的卷积结构提取细节特征，在网络深层利用空洞卷积代替标准卷积扩大有效感受野，利用双池化的通道注意力构建全局和局部的相关性，从而筛选出关键性的语义特征，抑制无用的信息。基于具有更大范围感受野的、筛选过的关键特征进行分类，提高了细粒度图像分类的能力。

附图说明

图1是本发明的方法流程图；

图2是本发明实施例的残差模块示意图；

图3是本发明实施例的深层特征提取模块示意图；其中，c、h、w分别代表特征通道数、特征图高度、特征图宽度；

图4是本发明实施例的图像识别方法详细流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例的一种基于双池化通道注意力和空洞卷积的图像识别方法，包括以下步骤：

获取待识别图像，对图像进行必要的预处理；

将图像输入到卷积神经网络的浅层提取出浅层特征(颜色、纹理、轮廓等)；

将网络的深层的卷积块替换成空洞卷积块，以扩大网络的有效感受野，并嵌入双池化通道注意力模块对众多通道特征进行重新标定，筛选出具有识别力的关键特征；

特征输入到全连接层后，采用softmax函数进行分类，分数最大值的类为分类结果；

网络训练时采用对称交叉熵损失函数，增强了模型的标签鲁棒性。

以下具体说明：

在一个或多个实施方式公开的技术方案中，如图2-图4所示，基于双池化通道注意力和空洞卷积的图像识别方法，包括如下步骤：

其中，步骤1中，预处理包括：调整到网络需要的尺寸大小、像素标准化(标准化的数据更符合数据分布规律，训练的泛化效果更好)、旋转(适应不同拍摄角度的变化)。预处理包括但不仅限于这些方法，可以针对具体场景设置不同的预处理方式。

步骤2中待测试图像输入网络浅层进行细节特征的提取，包括如下步骤：

可选的，特征提取网络采用卷积神经网络，可以是传统的直筒式的网络结构(VGG)、轻量级网络结构(MobileNet)、多路结构(GoogLeNet)、残差结构(ResNet)等。

步骤2.1构造浅层特征提取网络。本实施例中，以resnet50进行说明，resnet50由5个Stage组成，其中Stage 0的结构比较简单，主要是卷积加激活函数加池化叠加而成(卷积提取局部特征、激活函数增加模型非线性拟合能力、池化操作进一步聚合特征)，后4个Stage都由Bottleneck组成，Bottleneck是一种残差结构，在卷积之间加上短接，以学习残差，残差模块示意图如附图2所示。4个Stage分别包括3、4、6、3个Bottleneck。本实施例截取resnet50的前三个Stage作为浅层特征提取网络。

步骤2.2将浅层特征图保存。可选的，若深层特征提取网络与浅层特征提取网络不是同一个架构，则还需要对浅层特征进行一些处理，比如尺寸调整等。

步骤3中，浅层特征输入到网络深层，通过空洞卷积和双池化通道注意力机制进行关键语义特征提取，如图3所示，具体实施方案如下：

步骤3.1将resnet50的后两个Stage中的标准卷积替换为空洞卷积，可选的，空洞率设置为1、2、3、1、2、3.....这种齿轮式的结构，目的是为了避免稀疏采样时某些像素无法被采样的弊端，充分利用图像信息。

空洞卷积被广泛应用于语义分割与目标检测等任务中。空洞卷积是通过在卷积核的元素之间增加一些空间来扩张卷积核，扩张率用来表示卷积核的扩张程度。空洞卷积可以大大增加卷积网络的有效感受野，并具有以下优点：1)不增加参数数量，2)不改变特征图大小，3)不降低图像分辨率。全局信息的获取对图像理解非常重要，特别是对细粒度的图像分类。因此，将空洞卷积应用在细粒度的图像分类任务中是有意义的。

但是，从输入开始的、远距离的空洞卷积会使采样信号稀疏，破坏局部相关性，丢失网络浅层学习到的细节信息，影响分类结果。因此，在本文中，我们只在网络深层的卷积层用空洞卷积取代普通卷积，以确保扩大网络的有效感受野，同时不破坏卷积神经网络中的局部响应特性。

步骤3.2构造双池化通道注意力模块，并将此模块嵌入到resnet50后两个Stage的每两个残差的中间；

神经网络特征通道可达数千个，每个通道代表了不同的特征，在细粒度图像识别中，由于图像差别较小，所以存在很多无用的特征，它们会影响网络的判断，所以需要通过通道注意力机制捕捉通道的重要程度。

本发明提出的双池化通道注意力模块主要由两个部分组成：压缩和提取。在压缩操作中，本发明通过联合全局最大池化(GMP)和全局平均池化(GAP)来丰富特征的输入。全局池化操作用于将二维信道的特征压缩为实数，GMP更关注重要的局部响应，GAP更关注全局响应，经过全连接层的映射后，全局和局部特征之间的相关性可以被自主学习。对于细粒度图像识别而言，网络学习的特征图差别细微，因此可以通过学习全局和局部信息的相互依赖，更有效地进行细粒度的语义理解。在提取操作中，首先用两个全连接层学习不同通道之间的相互依存关系，同时减少参数数量；再使用sigmoid函数生成归一化权重,给特征进行重加权。通过这种方式可以强化关键特征的作用，并且抑制无用的特征。

步骤3.3，本发明将空洞卷积和双池化通道注意力与resnet50的残差模块进行结合。扩张卷积可以为注意力机制提供有效的信息输入，双池化通道注意力可以对特征图进行有效的特征重加权，从而筛选出具有代表性的特征。在残差模块中嵌入空洞卷积和双池化通道注意力的模块示意图如附图2所示。

步骤4特征输入到分类器进行分类，将分类分数的最大值作为图像的分类结果，采用对称交叉熵函数作为损失函数进行训练。

步骤4.1，将步骤3中提取好的特征保存，输入到分类器中。本发明采用将特征展平，输入到全连接层中，构造特征空间到类别空间的映射关系；再用softmax函数对每一个类别进行打分，分数最高的为分类的结果。可选的，分类器也可以是别的形式，比如支持向量机、随机森林等分类方法。

步骤4.2神经网络训练的误差需要反向传播，以不断更新参数，最终达到收敛效果。分类任务通常采用交叉熵损失函数(L_ce),L_ce的定义如下：

其中，q为真实的概率，p为模型预测的概率。可以看出，目标类别的预测概率值越大，损失就越小。对于细粒度的图像识别而言，图片标注费时费力，通常是普通人工标注，不可避免会出现主观错误，导致标签出现噪声，对称交叉熵损失函数严格惩罚预测值和标签靠拢就无法调整这种噪声带了的巨大精确度下降。

本发明使用一种对称交叉熵函数(L_sl)来抵抗标签噪声。对称交叉熵函数的主要思想是认为不能过分相信标签，模型本身就具有正确判断样本类别的能力，在噪声标签的情况下可能比正确标签还准确，因此完全可以加入一个以模型预测为基点的损失部分L_rce和L_sl，L_rce和L_sl的定义如下：

l_sl＝αl_ce+βl_rce

具体地，q为真实的概率，p为模型预测的概率。在L_rce中，由于log0(非目标类)是一个无意义的值，需要对log0做一个截断，设置log0为一个较小的值log(0+min)。对称交叉熵损失函数以一种解耦的形式结合交叉熵函数和模型预测损失，既能够使损失函数快速收敛，又提升了模型的标签鲁棒性。

在本实施例中，针对卷积神经网络感受野的空间局限性，无法有效辨识细粒度图像的关键差异性特征，本发明提出了一种基于空洞卷积和改进的双池化通道注意相结合的方法。空洞卷积可以收集更大的有效感受野，双池化通道注意力模块能够学习全局和局部特征之间的相关性，进行更有效的特征筛选。本发明提出的方法可以更精准地定位图像关键特征，提高网络的细粒度分类能力。

同时，本实施例在应用时还提供基于双池化通道注意力和空洞卷积的图像识别系统，主要模块包括：

原始图像输入模块：被配置为获取待预测图像的方法。包括摄像头拍摄、本地存储调用、服务器获取等方式获得原始的输入图像；

图像预处理模块：被配置为对输入图像进行一定的预处理。通过适当步骤对图像进行预处理，这一步骤是可自定义的，可针对不同的任务选择不同的预处理方式；

模型转换及调用模块：被配置为用于神经网络模型的迁移和调用。对存储在服务器或本地的模型进行语言转换，能够被不同的终端调用，比如：可通过androidpytorchlite依赖对pytorch训练的模型和权重迁移到android应用上，实现模型在不同终端的应用；

浅层特征提取模块：被配置为通过构建浅层的卷积神经网络，对图像的细节特征进行提取，其具体实施过程上述方法原理一致；

深层特征提取模块：被配置为提取关键语义特征。包含空洞卷积和双池化通道注意力的卷积块，对图像的关键语义特征进行提取，其具体实施过程与上述方法原理一致；

分类结果模块：被配置为特征输入到分类器进行分类，其具体实施过程与上述方法原理一致。

如图4所示，总的来说，本发明实施例的基于双池化通道注意力和空洞卷积的图像识别方法通过获取待识别图像、对图像进行预处理；输入特征向量到深度卷积神经网络浅层提取细节特征(第一阶段)、利用空洞卷积扩展网络深层的有效感受野，双池化通道注意力联合整体和局部响应对特征进行重标定，输入到深度卷积神经网络深层提取出更具有识别性的关键语义特征；特征输入到全连接层后，采用softmax函数进行分类，分数最大值的类为分类结果；网络训练时采用对称交叉熵损失函数，增强了模型的标签鲁棒性。

同时，在进行特征提取之前还包括图像预处理的步骤，具体的，调整到网络需要的尺寸大小、像素标准化(标准化的数据更符合数据分布规律，训练的泛化效果更好)、旋转(适应不同拍摄角度的变化)、去阴影(光照分布不均)等操作；采用双阶段的方式对细粒度图像进行识别。网络浅层用常规的卷积神经网络结构，用于提取图像的细节特征，如颜色、纹理、轮廓等，网络深层改进之后，用于筛选出关键性的语义特征；采用空洞卷积代替网络中的标准卷积，以扩大网络的有效感受野，因为全局上下文信息对于图像的语义理解很重要；采用双池化通道注意力机制对特征进行重标定，全局最大池化和全局平均池化的结合丰富了特征输入，能够很好地构建全局信息和局部信息的依赖关系；空洞卷积和双池化通道注意力机制可以被嵌入到各种经典的网络结构中，比如残差模块、inception模块等，即插即用；采用对称交叉熵损失函数进行训练，模型预测损失部分能够很好地抵消因人工标注错误带来的分类精度下降。

又一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述任一方法的步骤。

再一方面，本发明还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一方法的步骤。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：步骤1中，预处理包括：调整到网络需要的尺寸大小、像素标准化、旋转。

3.根据权利要求1所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：步骤2中特征提取网络采用卷积神经网络，是传统的直筒式的网络结构VGG、轻量级网络结构MobileNet、多路结构GoogLeNet、残差结构ResNet任意一种。

4.根据权利要求1所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：步骤2中待测试图像输入网络浅层进行细节特征的提取，包括如下步骤：

5.根据权利要求4所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：所述步骤3中，浅层特征输入到网络深层，通过空洞卷积和双池化通道注意力机制进行关键语义特征提取，具体步骤如下：

6.根据权利要求5所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：

7.根据权利要求5所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：步骤4特征输入到分类器进行分类，将分类分数的最大值作为图像的分类结果，采用对称交叉熵函数作为损失函数进行训练，具体包括：

其中，q为真实的概率，p为模型预测的概率。

8.根据权利要求7所述的基于双池化通道注意力和空洞卷积的图像识别方法，其特征在于：还包括加入一个以模型预测为基点的损失部分L_rce和L_sl，L_rce和L_sl的定义如下：

q为真实的概率，p为模型预测的概率。

9.一种基于双池化通道注意力和空洞卷积的图像识别系统，其特征在于：包括如下模块，

图像预处理模块：对图像进行预处理；

分类结果模块：将特征输入到分类器进行分类。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。