CN112784869A

CN112784869A - 一种基于注意力感知与对抗学习的细粒度图像识别方法

Info

Publication number: CN112784869A
Application number: CN202011270684.9A
Authority: CN
Inventors: 冷彪; 付志斌
Original assignee: Beihang University
Current assignee: Beijing Guoxin Hongsi Technology Co.,Ltd.
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-05-11
Anticipated expiration: 2040-11-13
Also published as: CN112784869B

Abstract

本发明涉及一种基于注意力感知与对抗学习的细粒度图像识别方法，利用神经网络的注意力机制，只使用图像类别标签，定位出输入图像中目标物体的大概位置。同时为了针对细粒度图像任务中由于训练数据量较少，且类间方差小，类内方差大的而引起的显著过拟合现象，提出基于对抗学习的难样本挖掘算法，模型训练过程中神经网络自主选择网络难以判断的带掩码的难样本作为新的训练样本，一方面提升网络对难样本的识别鲁棒性，另一方面有助于网络关注其他具有判别意义的局部区域；在不增加额外参数的前提条件下，仅使用图像的类比标签，显著提升细粒度图像识别的准确度和对难样本的鲁棒性。

Description

一种基于注意力感知与对抗学习的细粒度图像识别方法

技术领域

本发明涉及一种基于注意力感知与对抗学习的细粒度图像识别方法，属于计算机视觉中的细粒度图像识别研究领域。

背景技术

细粒度图像识别任务是近年来随着深度神经网络的高速发展而兴起的计算机视觉、模式识别的研究领域之一，细粒度图像识别旨在解决同一大类别的更细致的子类别划分的问题。该任务相对于传统的图像识别问题主要难点在于细粒度图像任务中由于其本身的数据量较少且数据中同一类别的目标物体由于姿态、光照、背景等存在较大的类内方差，而不同类别的目标物体存在较小的类间方差，因此细粒度图像识别成了图像识别领域的新挑战。

随着深度卷积神经网络的发展，传统的图像识别任务使用深度卷积特征来表征物体的类别，然而在细粒度图像识别任务中，不同目标物体的差距大都存在于一些细微的局部区域，直接使用深度卷积特征来表征物体的类别有很大的局限性，深度神经网络无法有效定位到图像中具有判别意义的局部区域，导致分类效果不理想。由于该任务的困难性，科研人员首先对训练样本进行标注，包括对样本中目标物体的最大外接框的标注和目标物体中具有判别意义的局部区域的标注，例如鸟类的额头、嘴巴、尾部羽毛、脚等等。使用这些带标注的数据首先很好的去除了背景信息对分类的干扰，也手动定位了具有判别意义的局部区域，大大提升了细粒度图像识别的准确度。然而，在实际应用场景中，带人工标注最大外接框和局部区域的训练数据获取的成本高，导致了强监督的细粒度图像识别算法不具有一般性和普适性，严重制约了算法在实际场景中的实用。因此如何设计不需要人工标注的弱监督细粒度图像识别算法成了该领域的主要研究问题。

发明内容

本发明技术解决问题：针对细粒度图像识别任务中，目前强监督细粒度图像识别算法中需要最大外接框的额外标注信息的缺陷，以及弱监督细粒度图像识别算法中使用弱监督检测算法带来的巨大计算量的特点，提供一种基于注意力感知与对抗学习的细粒度图像识别方法，在不增加额外参数的前提条件下，仅使用图像的类比标签，显著提升细粒度图像识别的准确度和对难样本的鲁棒性。

本发明利用神经网络的注意力机制，只使用图像类别标签，定位出输入图像中目标物体的大概位置。同时为了针对细粒度图像任务中由于训练数据量较少，且类间方差小，类内方差大的而引起的显著过拟合现象，提出基于对抗学习的难样本挖掘算法，模型训练过程中神经网络自主选择网络难以判断的带掩码的难样本作为新的训练样本，一方面提升网络对难样本的识别鲁棒性，另一方面有助于网络关注其他具有判别意义的局部区域。

本发明技术解决方案：一种基于注意力感知与对抗学习的细粒度图像识别方法，包括有下列步骤：

训练阶段：

步骤一：数据预处理

每个轮次按批次读取训练数据集，对于每个输入样例，将图像缩放至固定尺度并实现数据增广，最后对输入进行归一化处理，得到预处理数据；

步骤二：网络构建

使用通用的图像识别网络为特征提取网络，修改通用图像识别网络的全连接层，输入结点数目保持不变，输出结点数修改为训练集中的类别数。使用ImageNet预训练权重初始化特征提取网络参数；

步骤三：特征提取

使用步骤一得到的预处理数据作为输入，步骤二构建的特征提取网络作为特征提取器，对于一张输入图像，由特征提取网络提取最后两层卷积层conv5b和conv5c的特征图，特征图的尺度为C×H×W，其中C为特征图的通道数，W为特征图的宽度，H为特征图的高度；

步骤四：基于注意力机制的物体定位

首先由特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中f_i表示第i通道的特征图，C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值

将该激活均值作为定位输入图像中目标物体位置的关键，其中A(x,y)表示特征图中坐标(x,y)处的激活值。通过逐像素地比较特征图的激活值和激活均值

对于特征图中大于激活均值的位置的卷积特征保留，掩码图中对应位置的值置为1，而特征图中小于激活均值的位置，掩码图中对应位置的值置为0，将通道响应大于均值的像素选择出来，如公式(3)

表示坐标(x,y)处的掩码值，从而得到相应的掩码图

掩码图中1的位置表述了目标物体出现的区域。为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息，使用最后两个卷积层conv5b和conv5c的掩码图

的交集得到输入图像更准确的掩码图M，如公式(4)。然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息，最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息，位置信息包括目标框的左上角坐标和右下角坐标；

步骤五：目标物体图像缩放与再训练

使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度，再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同，但是减少了背景信息的干扰，更具有表征意义；

步骤六：基于对抗学习的难样本挖掘算法

对于步骤四中卷积层conv5c的特征图，将特征图划分为若干个网格，分别将每个网格的响应值置为0，对应得到若干个具有遮挡特性的子样本，通过分类损失函数计算每个子样本的损失，损失越大表示神经网络对该样本的判断越不准确，即该样本对于当前网络参数为一个难以识别成功的样本，具有遮挡特性的且计算出的损失值最大的样本为挖掘出的难样本，将该难样本作为新的训练样本；

步骤七：多级损失函数计算与反向传播

除了使用分类损失对类别进行约束，还使用ArcFace损失进行特征空间的约束。计算原始输入图像的分类损失、目标物体图像的分类损失、难样本的ArcFace损失，计算三个损失之和，并进行反向传播更新网络参数；

测试阶段：

步骤一：数据预处理

每个轮次按批次读取训练数据集，对于每个输入样例，将图像缩放至固定尺度，然后对输入进行训练阶段相同的归一化处理，得到预处理数据；

步骤二：特征提取

步骤三：基于注意力机制的物体定位

首先由训练阶段构建的特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A。公式(1)中f_i表示第i通道的特征图，C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值

表示坐标(x,y)处的掩码值，从而得到相应的掩码图

步骤四：目标物体图像缩放与特征提取

使用步骤三中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度，再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同，但是减少了背景信息的干扰，更具有表征意义；

步骤五：细粒度图像分类

使用步骤四中得到的目标物体图像最后一个卷积层conv5c的特征图，通过全局平均池化得到二维的特征图，再将二维的特征图拉成一维的特征向量，通过全连接层和软最大SoftMax计算输入图像被判定为每一类的概率，概率最大项即为输入图像的类别。

本发明与现有技术相比的优点在于：

(1)本发明在不使用任何额外神经网络参数的前提下，完成了细粒度图像中目标物体的定位，利用通道聚合的方法计算得到神经网络的通道响应均值，本发明通过逐像素比较特征图与通道均值响应均值的策略选择出具有表征输入图像中物体特征的卷积描述符，从而定位出输入图像中目标物体的位置，很好地解决了细粒度图像识别任务中背景信息的干扰的难题。

(2)本发明利用对抗学习的方法，以分类损失越大、样本越难被网络识别正确为先验知识，利用掩码的策略遮挡物体的不同局部区域，对于生成的多个具有遮挡特性样本，让神经网络在训练过程中自主选择难样本作为新的训练样本，解决细粒度图像识别任务中由于数据量较少带来的严重过拟合问题。另一方面，加入了新的具有遮挡意义的难样本能够提升网络对遮挡的鲁棒性，迫使网络更多地关注次重要的局部区域，从而达到提升识别准确率的效果。

附图说明

图1为本发明的基于注意力感知与对抗学习的细粒度图像识别方法流程图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明的基于注意力机制和对抗学习的细粒度图像识别方法，具体实施步骤如下：

训练阶段：

步骤一：数据预处理

使用加州理工学院提供的细粒度图像识别领域公开数据集CUB-200-2011为训练数据集，该数据集中共包含200类不同的鸟类。按批次读取训练集，每批次读取16张图，对于每个输入样例，将图像缩放至448x448的尺寸，以0.5的概率做水平翻转达到数据增广的目的，最后对输入数据做归一化处理，归一化的均值和标准差分别为[0.485,0.456,0.406],[0.229,0.224,0.225]，得到预处理数据；

步骤二：网络构建

使用ResNet50构建特征提取网络，使用ImageNet预训练权重初始化特征提取网络，定义新的全连接层，全连接层的输入结点数为2048，输出结点数为CUB-200-2011数据集中的类别数200；

步骤三：特征提取

使用步骤一预处理后的数据作为输入，步骤二构建的特征提取网络作为特征提取器。对于一张输入图像，由特征提取网络提取最后两层卷积层conv5b和convt5c的特征图，其中C为特征图的通道数，W为特征图的宽度，H为特征图的高度；

步骤四：基于注意力机制的物体定位

对于特征图中大于激活均值的位置的卷积特征保留，掩码图中对应位置的值置为1，而特征图中小于激活均值的位置，掩码图中对应位置的值置为0，如公式(3)

表示坐标(x,y)处的掩码值，将通道响应大于均值的像素选择出来，从而得到相应的掩码图

步骤五：目标物体图像缩放与再训练

使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到448x448，再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同，但是减少了背景信息的干扰，更具有表征意义；

步骤六：基于对抗学习的难样本挖掘算法

对于步骤四中卷积层conv5c的特征图，将特征图划分为3x3的若干个网格，分别将每个网格的响应值置为0，对应得到9个具有遮挡特性的子样本，通过分类损失函数计算每个子样本的损失，损失越大表示神经网络对该样本的判断越不准确，即该样本对于当前网络参数为一个难以识别成功的样本，具有遮挡特性的且计算出的损失值最大的样本为挖掘出的难样本，将该难样本作为新的训练样本；

步骤七：多级损失函数计算与反向传播

测试阶段：

步骤一：数据预处理

使用CUB-200-2011为测试数据集，按批次读取训练集，每批次读取16张图，对于每个输入样例，将图像缩放至448x448的尺寸，最后对输入数据做归一化处理，归一化的均值和标准差分别为[0.485,0.456,0.406],[0.229,0.224,0.225]，得到预处理数据；

步骤二：特征提取

步骤三：基于注意力机制的物体定位

步骤四：目标物体图像缩放与特征提取

使用步骤三中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到448x448，再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图。该特征图与原始图像得到的特征图尺度相同，但是减少了背景信息的干扰，更具有表征意义；

步骤五：细粒度图像分类

本发明应用于只需要类别标签的细粒度图像识别任务，解决了强监督细粒度图像识别算法需要最大外接框标注信息或者局部区域标注信息而不具有普适性的缺陷，在不增加额外参数的前提下，利用注意力机制定位输入图像中目标物体的位置。另外利用了对抗学习的方法提升模型鲁棒性的同时使网络能过关注到多个具有判别意义的局部区域。最终构建参数量少、识别率高的细粒度图像识别系统。

总之，本发明克服现有针对细粒度图像识别技术的不足，提供一种基于注意力机制和对抗学习的细粒度图像识别算法，结合全局特征和局部特征来提升识别的准确率，通过引入难样本提升模型的鲁棒性，进而具备更好的分类和学习能力。

本发明未详细描述的部分属于本领域公知技术。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于注意力感知和对抗学习的细粒度图像识别方法，其特征在于，分为训练阶段和测试阶段；

所述训练阶段实现：

步骤一：数据预处理

步骤二：网络构建

使用通用的图像识别网络为特征提取网络，修改通用图像识别网络的全连接层，输入结点数目保持不变，输出结点数修改为训练集中的类别数，使用ImageNet预训练权重初始化特征提取网络参数；

步骤三：特征提取

步骤四：基于注意力机制的物体定位

首先由特征提取网络得到的特征图，根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A，公式(1)中f_i表示第i通道的特征图，通过公式(2)计算整个特征图的平均激活值

将该激活均值作为定位输入图像中目标物体位置的关键，其中A(x,y)表示特征图中坐标(x,y)处的激活值，通过逐像素地比较特征图的激活值和激活均值

表示坐标(x,y)处的掩码值，得到相应的掩码图

掩码图中1的位置表述了目标物体出现的区域；为了使最后的掩码图更加准确的表述输入图像中目标物体的位置信息，使用最后两个卷积层conv5b和conv5c的掩码图

的交集得到输入图像更准确的掩码图M，如公式(4)，然后根据掩码图中值为1的最大连通区域的最小外接框作为输入图像中定位到的目标物体在特征图层面的位置信息，最后将该最小外接框按尺度缩放得到原始输入图像中目标物体的位置信息，位置信息包括目标框的左上角坐标和右下角坐标；

步骤五：目标物体图像缩放与再训练

使用步骤四中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度，再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图；

步骤六：基于对抗学习的难样本挖掘算法

步骤七：多级损失函数计算与反向传播

除了使用分类损失对类别进行约束，还使用ArcFace损失进行特征空间的约束，计算原始输入图像的分类损失、目标物体图像的分类损失、难样本的损失，计算三个损失之和，并进行反向传播更新网络参数；

所述测试阶段实现如下：

步骤一：数据预处理

步骤二：特征提取

步骤三：基于注意力机制的物体定位

首先由特征提取网络得到的特征图根据公式(1)在通道维度计算神经网络的通道响应和,得到二维激活图A，公式(1)中f_i表示第i通道的特征图，C表示特征图的通道数。通过公式(2)计算整个特征图的平均激活值

表示坐标(x,y)处的掩码值，从而得到相应的掩码图

步骤四：目标物体图像缩放与特征提取

使用步骤三中获得的目标物体的位置信息将目标物体从原始图像中裁剪出来并缩放到固定尺度，再次使用特征提取网络提取目标物体图像最后一个卷积层conv5c的特征图；该特征图与原始图像得到的特征图尺度相同，但是减少了背景信息的干扰，更具有表征意义；

步骤五：细粒度图像分类

使用步骤四中得到目标物体图像最后一个卷积层conv5c的特征图，通过全局平均池化得到二维的特征图，再将二维的特征图拉成一维的特征向量，通过全连接层和软最大SoftMax计算输入图像被判定为每一类的概率，概率最大项即为输入图像的类别。