CN112733912B

CN112733912B - 基于多粒度对抗损失的细粒度图像识别方法

Info

Publication number: CN112733912B
Application number: CN202011634407.1A
Authority: CN
Inventors: 杜吉祥; 王莹莹; 张洪博; 翟传敏; 黄政
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-06-09
Anticipated expiration: 2040-12-31
Also published as: CN112733912A

Abstract

本发明涉及一种基于多粒度对抗损失的细粒度图像识别方法，包括以下步骤：使用区域混淆机制破坏图像全局信息，并进行图像增强，迫使网络更加关注图像区域信息；使用渐进式学习策略在深度神经网络的不同层提取特征，联合不同粒度的图像特征，对每一个特征和原图特征联合进行分类；获取多粒度对抗损失函数，来降低因破坏图像的全局结构而引起的噪声。本发明将数据的不同粒度区域混淆，实现了数据增强，迫使网络关注到不同粒度图像的局部信息，采用渐进式学习策略，对每个阶段的特征进行学习且连接最后S个阶段的特征从而实现多粒度信息互补，构建多粒度对抗损失降低因破坏图像的全局结构而引入的噪声，因此可以更准确和高效的识别子类图像。

Description

基于多粒度对抗损失的细粒度图像识别方法

技术领域

本发明涉及图像识别领域，具体涉及一种基于多粒度对抗损失的细粒度图像识别方法。细粒度图像识别技术现应用于新零售商品识别、植物的虫害识别、果蔬图像识别和智能交通等多个领域，快速准确的识别是以上应用的关键技术。

背景技术

在互联网的高速发展时代，图像具有直观生动的特点，用户更容易接受和认知，成为信息的主要载体。图像进行精细划分推送给不同需求人群，从而定向满足人民日益增长的物质文化需求和美好生活的需要。单标签的图像识别问题，可分为跨物种语义级别的图像识别、子类细粒度图像识别和实例级图像识别三大类别。前者的每个类别属于不同的大类或物种，具有较大的类间差异，较小的类内误差。后者识别是区分不同的个体进行分类，如人脸识别。细粒度图像识别，区分不同的子类别，即来源同一个物种或者类别的子类，具有类间差异小，类内差异大的特点。

细粒度图像识别旨在区分细微差异的子类对象的类别。数据集里不同类别之间的差异细微，其部位标注是通过专家在不同区域判别出差异信息。除了由姿势，光照、角度、遮挡、背景诸多不确定因素而导致的较大的类内变化之外，较小的类间变化也是细粒度视觉识别中的另一个挑战。例如鸟类翅膀显示出较小的类间差异，其中这些类别的差异仅是斑点数量和细微的外观差异。由于此类数据集中标记细粒度类的专业领域知识要求，因此通常缺少足够的标记数据。细粒度识别问题仅通过典型的分类网络卷积神经网络很难获得准确识别子类的结果。

发明内容

本发明所要解决的技术问题是一般卷积神经网络关注全局信息，对细微差异性区域难以提取获取的问题。

为了解决以上技术问题，本发明提出一种基于多粒度对抗损失的细粒度图像识别方法，包括以下步骤：

S1，使用区域混淆机制破坏图像全局信息，并进行图像增强，迫使网络更加关注图像区域信息；

S2，使用渐进式学习策略在深度神经网络的不同层提取特征，联合不同粒度的图像特征，对每一个特征和原图特征联合进行分类；

S3，获取多粒度对抗损失函数，来降低因破坏图像的全局结构而引起的噪声。

本发明针对获取细微判别性区域的问题，提出区域混淆机制将原图数据集进行数据增强，迫使图像更加关注其细节信息，解决了图像增强的问题。本发明提出多粒度对抗损失函数以应对破坏全局信息所产生的噪声。采用渐进式方法学习细粒度图像里具有判别性的局部区域，解决了空间相似图像(细粒度图像)难以区分的问题。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，步骤S1具体包括：

将图像均匀的划分为N*N个子区域，R_i,j(1≤i,j<N)表示某个子区域的位置，在定义的领域内移动子区域，使子区域的顺序混淆；

对于R_i,j子区域，每一行的元素位置移动前设置一个随机数q_i，获取到新的区域位置q_j,i＝i+r,(r～U(-k,k),1≤k<N)，q_j,i为第j行的第i个元素移动后的位置；每一列的元素位置移动前设置一个随机数q_j，获取到新的区域位置q_i,j＝j+r,(r～U(-k,k),1≤k<N)，q_i,j为第i列的第j个元素移动后的位置；因此，新的区域的位置表示如下：

σ(i，j)＝(σ_j ^row(i)，σ_i ^col(j)) (2)

条件(1)约束R_i,j在其领域内移动，以破坏原图Image全局结构，生成新图像Image_N来增强数据图像，以加强图像区域特征信息。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，步骤S2包括：

以深度卷积网络Resnet50作为基础网络，将深度卷积网络Resnet50分层，在浅层网络，图像学习其大致轮廓，然后通过向网络中添加层次来逐步提高分辨率，采用多粒度分割图像，迫使网络注意力转移到越来越小的尺度细节上；

将网络分为L个阶段的主干网络提取器，在不同的阶段提取特征，进而分类实现目标区域的识别，同时考虑最后S个阶段(L,L-1,……,L-S+1)，将最后的S个阶段特征联合为：

V^concat＝concat[V^L-S+1,……,V^L-1,V^L] (3)

学习每个阶段的特征和最后S个阶段的特征，将获取的特征联合起来实现分类网络。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，所述将深度卷积网络Resnet50分层，具体为将深度卷积网络Resnet50分层为5部分conv1，conv2_x，conv3_x，conv4_x，conv5_x。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，取L＝4，将网络分为4个阶段的主干网络提取器。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，S＝3。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，步骤S2包括以下4个阶段：

第一阶段获取Image_N，其中N＝2^(L-1)，和原图连接得到增强数据Image_Double_8，在网络中先输入区域图像Image_Double_8，经过conv1，conv2_x，conv3_x，输出特征F^Ll，将F^Ll输入到卷积块

卷积块/>

将特征F^Ll生成/>

模块并送入池化层，进入分类，分类模块/>

由Batchnorm和ELU组成，得到/>

预测概率矩阵；

第二阶段在网络先输入区域图像Image_Double_4，经过conv1，conv2_x，conv3_x，conv4_x，获取特征图，卷积、池化、分类得到预测概率矩阵；

第三阶段在网络先输入区域图像Image_Double_2，经过conv1，conv2_x，conv3_x，conv4_x，conv5_x，获取特征图，卷积、池化、分类得到预测概率矩阵；

第四阶段获取Image_Double，在神经网络经过conv1，conv2_x，conv3_x，获取F^l-2特征，F^l-2特征输入卷积块

得到V^l-2，F^l-2特征输入conv4_x得到F^l-1，F^l-1特征输入卷积块

得到V^l-1，F^l-1特征输入conv5_x得到F^l，F^l特征输入卷积块/>

得到V^l，将最后的3个阶段特征联合为

V^concat＝concat[V^l,V^l-1,V^l-2]，

卷积、池化、分类得到预测概率矩阵。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，步骤S3包括：

在每一个阶段真实标签y和预测概率y^Ll，采用交叉熵进行损失计算，获得多粒度对抗损失函数：

多粒度对抗损失函数防止Image_N过度破坏空间结构引起的噪声进入特征空间，对是否为破坏图像进行二分类，使判别器无法分辨出特征是来自原始图还是被破坏图(当无法分辨时，就意味着来自原始图和被破坏图的特征向量是非常接近的，也就意味着网络学习时排除了噪声的干扰)，通过对抗学习的方式，降低噪声带来的影响。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，本方法还包括步骤S4：

原始图像输入经过训练的模型中，获取V^concat实现y^concat进行预测，图像在网络输出的特征进行分类的准确度表示为：

C＝arg max(y^concat)。

作为本发明的基于多粒度对抗损失的细粒度图像识别方法的进一步改进，将图像在每一阶段网络输出的特征按权重拼接后实现多分类结果的准确度为

本发明与现有技术相比具有诸多优点和有益效果，具体体现在以下方面：

1.将数据的不同粒度区域混淆，实现了数据增强，迫使网络关注到不同粒度图像的局部信息；

2.采用渐进式学习策略，对每个阶段的特征进行学习且连接最后S个阶段的特征从而实现多粒度信息互补；

3.构建多粒度对抗损失降低因破坏图像的全局结构而引入的噪声。

因此本发明的方法可以更准确和高效的识别子类图像。本发明的基于多粒度对抗损失的细粒度图像识别方法在FGVC基准数据集CUB200-2011上获得了高效准确的性能，图像识别准确度89.109％，优于现有方法。

附图说明

图1为本发明的基于多粒度对抗损失的渐进式学习算法流程演示图。

图2为本发明的渐进式学习模式示意图。

图3为本发明的多粒度对抗损失的基础模块示意图。

具体实施方式

下面结合附图对本发明的实施方式进行详细介绍。

本发明提出一种基于多粒度对抗损失的细粒度图像识别方法，包括以下步骤：

目前，PMG(Progressive Multi-Granularity)方法与本发明较为相似：其首先采用拼图(Jigsaw)的方式进行图像增强。多粒度拼图的增强图像输入网络，渐进式训练策略在网络中逐步添加网络层，不同粒度的图像在逐层获取的特征补充利用。每个粒度图像获取的特征进行分类获取其结果。

本发明与PMG方法的主要区别：

1.图像增强的方式不同。PMG采用拼图模块的方式进行图像增强，本发明使用区域混淆机制，给定图像均匀的划分N*N子区域，混淆其顺序，达到破坏全局信息的目的。

2.图像破坏全局信息，导致图像增强也引入噪声，多粒度对抗损失降低噪声对细粒度图像识别的影响。

本发明使用细粒度图像进行识别子类别。本发明提出的方法沿袭经典的细粒度识别方法流程：图像预处理，特征提取，分类。具体分为4个步骤：区域混淆机制得到图像增强，使用渐进式训练策略在深度神经网络中特征提取，分类并获取损失函数(1.引导分类，2消除数据增强的噪声)。如图1所示，下面详细介绍每一个步骤。

步骤一，区域混淆机制的图像增强(如图1的Part 1部分所示)：

如果混淆了图像中局部区域的相对位置，神经网络将被迫从图像判别区域的细节中学习特征。故本发明先将图像均匀的划分为N*N个子区域，R_i,j(1≤i,j<N)表示某个子区域的位置，其次在定义的领域内进移动。

σ(i，j)＝(σ_j ^row(i)，σ_i ^col(j)) (2)

条件(1)约束在其领域内移动。本步骤破坏原图(Image)全局结构，生成新图像(Image_N,N表示切分的粒度)来增强数据图像(Image_N，每个图像N*N个子区域)，从而加强其部位特征信息。

步骤二，深度卷积网络使用渐进式训练策略(如图1中Part 2/3所示)：

经典的深度卷积网络Resnet50作为基础网络，将网络进行分层为渐进式训练做准备。首先在浅层网络，图像学习其大致轮廓；然后通过向网络中添加层次来逐步提高分辨率。采用多粒度分割图像，迫使网络注意力转移到越来越小的尺度细节上。

将网络分为L个阶段的主干网络提取器，在不同的阶段提取特征，进而分类实现目标区域的识别。同时考虑最后S个阶段(L,L-1,……,L-S+1)，将最后的S个阶段特征联合为：

V^concat＝concat[V^L-S+1,……,V^L-1,V^L] (3)

每个阶段和最后S个阶段将获取的特征，连接起来实现分类网络，具体步骤如下：

网络Resnet50分层为5部分conv1，conv2_x，conv3_x，conv4_x，conv5_x。将网络分为具有L个阶段(设置参数：L＝4)的主干网络提取器，在不同的阶段提取特征图实现目标区域的识别，也考虑最后S个阶段(L,L-1,……,L-S+1)，将最后的S个阶段联合为V^concat，获取的联合特征进行分类。

第一阶段获取Image_N(N＝2^(L-1))，和原图连接得到增强数据Image_Double_8。在网络中先输入区域图像Image_Double_8，经过conv1，conv2_x，conv3_x，输出特征F^Ll。将F^Ll输入到卷积块

该卷积块将特征F^Ll生成/>

模块。该模块送入池化层后，进入分类。分类模块/>

由Batchnorm和ELU组成，得到/>

预测概率矩阵。

第二阶段在网络先输入区域图像Image_Double_4，经过conv1，conv2_x，conv3_x，conv4_x，获取特征图。同理得到预测概率矩阵。

第三阶段在网络先输入区域图像Image_Double_2，经过conv1，conv2_x，conv3_x，conv4_x，conv5_x，获取特征图。同理得到预测概率矩阵。

第四阶段获取Image_Double。在神经网络经过conv1，conv2_x，conv3_x，获取F^l-2特征。F^l-2特征分别输入卷积块

得到V^l-2和输入conv4_x得到F^l-1。F^l-1特征分别输入卷积块/>

同理得到V^l-1和输入conv5_x得到F^l。F^l特征输入卷积块/>

同理得到V^l，如图2所示：

V^concat＝concat[V^l,V^l-1,V^l-2]

同理得到预测概率矩阵。

步骤三，损失函数(如图1中Part 4/5，)：

在每一个阶段真实标签y和预测概率y^Ll，采用交叉熵进行损失计算：

以防止Image_N过度破坏空间结构引起的噪声进入特征空间。对是否为破坏图像进行二分类，使判别器无法分辨出特征是来自原始图还是被破坏图(当无法分辨时，就意味着来自原始图和被破坏图的特征向量是非常接近的，也就意味着网络学习时排除了噪声的干扰)。从而通过对抗学习的方式，降低噪声带来的影响。

选取图1中的第一阶段为例，图像Image_Double_N中标签d是(0)否(1)被破坏，即Image标签为1，其图像的交叉熵损失为D(I)，Image_N标签为0，其图像的交叉熵损失为D(φ(I))，实现二分类D，如图3所示：

Loss＝Loss_CE+αLoss_noise (6)

在每个阶段分别对权重(α,β,γ)值进行讨论。

步骤四，验证：

原始图像输入经过训练的模型中，只需要获取V^concat实现y^concat进行预测，删除其他三个阶段，从而减少了计算预算。最终结果C可以表示为：

C＝arg max(y^concat) (7)

特定粒度的单个阶段(第四阶段)预测是唯一且互补，将所有输出以按权重组合在一起时，这会带来更好的性能：

本发明的实验结果如下：

表1：在Cub200-2011数据集的结果

α,β,γ分别是N＝8,4,2破坏图像的多粒度对抗损失的权重。Acc为图像在网络输出的特征进行分类的准确度；Com_acc为图像在每一阶段网络输出的特征和拼接后实现多分类结果的准确度。

由表1所示，当图像破坏程度越严重，多粒度对抗损失对消除噪声效果越明显；每一阶段的对抗损失降低噪声的影响程度；最后展示获取高效准确的识别结果。

表2细粒度图像分类实验结果

本发明在FGVC基准数据集CUB200-2011上获得了高效准确的性能，其中所提出的方法优于现有方法，提供具有竞争力的结果。

本发明与现有技术相比具有以下特点：

因此本发明的方法可以更准确和高效的识别子类图像。

Claims

1.一种基于多粒度对抗损失的细粒度图像识别方法，其特征在于，包括以下步骤：

S1，使用区域混淆机制破坏图像全局信息，并进行图像增强，迫使网络更加关注图像区域信息，具体包括：

将图像均匀地划分为N*N个子区域，R_i,j，其中，1≤i,j<N，表示某个子区域的位置，在定义的领域内移动子区域，使子区域的顺序混淆；

对于R_i,j子区域，每一行的元素位置移动前设置一个随机数q_i，获取到新的区域位置q_j,i＝i+r，其中，r～U(-k,k),l≤k<N，q_j,i为第j行的第i个元素移动后的位置；每一列的元素位置移动前设置一个随机数q_j，获取到新的区域位置q_i,j＝j+r，其中，r～U(-k,k),l≤k<N，q_i,j为第i列的第j个元素移动后的位置；新的区域的位置表示如下：