CN110533024B

CN110533024B - 基于多尺度roi特征的双二次池化细粒度图像分类方法

Info

Publication number: CN110533024B
Application number: CN201910619662.XA
Authority: CN
Inventors: 谭敏; 俞俊; 王贵军
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-11-23
Anticipated expiration: 2039-07-10
Also published as: CN110533024A

Abstract

本发明公开了基于多尺度ROI特征的双二次池化细粒度图像分类方法。本发明如下步骤：1.使用Resnet‑34网络提取图像的深度视觉特征，并基于该特征生成掩膜；将Mask与视觉特征图进行点乘，构建图像的ROI特征；2.选取Resnet‑34网络中低层、中层、高层三种不同尺度的ROI特征，并利用改进的残差采样结构对多尺度特征进行维度变换，实现多尺度特征融合，从而提取多尺度ROI特征；3.利用多层次双二次池化结构,同时建模同层和跨层特征间的交互，并基于池化后的特征向量构建Softmax分类器；4.针对如上步骤构建端到端的网络进行训练，并利用训练好的网络对任一测试图像进行细粒度分类，输出所属类别。本发明在CUB‑200‑2011、Stanford Cars、FGVC‑Aircraft三个数据集上取得了当前领先的准确率。

Description

基于多尺度ROI特征的双二次池化细粒度图像分类方法

技术领域

本发明涉及细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)领域，尤其涉及了一种基于端到端训练的深度神经网络的图像分类方法。该方法在不使用标注框、部位标注等额外信息的情况下，自动定位图片中目标主体位置，提取出具有判别性的多尺度特征，并利用特征融合提升细粒度图像分类的准确率。

背景技术

细粒度视觉分类是一项经典的计算机视觉任务，与传统分类任务不同，细粒度视觉分类目的在于区分同一个物种下不同的子类别，由于不同子类别间的差异细微，同一子类别下的图片又由于光线、背景遮挡等因素的干扰，使得细粒度视觉分类成为一项极具挑战的任务。在实际生活中，识别不同物种的子类别也有着巨大的应用需求。例如,在生态保护中,有效地识别出不同种类的生物，是进行生态研究的重要前提。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。

从大的发展趋势来看，细粒度视觉分类方法经历了从手工特征工程到多阶段方法再到端到端(End to End)学习的发展过程。由于细粒度分类任务存在较大的类内差异和细微的类间差异，导致传统的人工特征工程无法达到理想效果。随着近年来深度学习的发展，给细粒度分类任务带来了重大的机遇，大量深度神经网络模型的提出促使这一领域得到了快速的发展。

成功实现细粒度图像分类的关键在于两个方面：一方面是要定位目标关键区域，降低背景信息的影响；另一方面是提取出具有判别性的特征进行分类，区分出不同种类的细微差异。在目标区域的定位上，可以划分为基于强监督和基于无监督的目标定位。基于强监督信息的方法往往是使用标注框、部位标注这些额外标注信息来裁剪图片中的目标主体，而这些人工标注往往费时费力，难以获取，所以使得这一类方法在实际应用中并不高效。而基于无监督的方法通过分析卷积特征的特征响应值、使用注意力机制等方法自动关注图片中目标的位置，提取出感兴趣区域(Region of Interest,ROI)的特征，因此基于无监督的方法在实际中更加具有应用价值。在提取判别性特征方面，研究者们提出了许多有效的特征融合方式，其中基于双线性池化(Bilinear Pooling)的方法通过使用矩阵外积进行特征交互，以其显著的效果得到了广泛的应用和拓展。

这种基于定位-分类的方法借鉴了人类进行细粒度分类的过程，研究相对充分，是分类任务中主流的方法。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于多尺度ROI特征的双二次池化的细粒度图像分类方法。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、使用Resnet-34网络提取图像的深度视觉特征，并基于该特征生成掩膜(Mask)；将Mask与视觉特征图进行点乘，构建图像的ROI特征；

步骤(2)、选取Resnet-34网络中低层、中层、高层三种不同尺度的ROI特征，并利用改进的残差采样结构对多尺度特征进行维度变换，实现多尺度特征融合，从而提取多尺度ROI特征；

步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互，并基于池化后的特征向量构建Softmax分类器；

步骤(4)、针对如上步骤构建端到端的网络进行训练，并利用训练好的网络对任一测试图像进行细粒度分类，输出所属类别。

步骤(1)所述的ROI特征的提取，具体操作如下：

1-1.针对Resnet-34获得的图像深度视觉特征X∈R^h*w*c,将X在通道方向上加和得到特征图A_x＝∑_kX^:,:,k,其中A_x∈R^h*w；

1-2.将特征图A_x的均值设定为阈值α，A_x内大于等于α的区域视为目标主体区、其值设置为1；低于α的区域视为背景、其值设置为ξ，其中ξ为一个趋于0的小数，于是得到一个二值化的Mask图M_x，其生成过程如公式(1)所述：

θ为阈值权重，其取值被限定在[0.5，1]之间，并通过交叉验证实验来选取；

1-3.将Mask图M_x与图像深度视觉特征X的每个特征通道图做点乘；

1-4.选取Resnet中Conv5_3、Conv4_6和Conv3_4三层的卷积特征作为图片不同层次不同尺度特征表达，分别记为

分别对X、Y、Z三种特征，分别用步骤1-1到1-3生成对应的Mask图，利用如下公式(2)将三个Mask图融合成一个统一的Mask来提升其精度：

其中，M_x、M_y、M_y分别为在X、Y、Z上获得的Mask图，Maxpool(M_x,M_y)为最大池化下采样函数，将M_y下采样至M_x相同尺寸；

1-5.对融合的Mask图M进行双线性插值以适应Y、Z特征的尺寸，得到归一的Mask图

并利用点乘操作得到X、Y、Z对应的最终的ROI特征图如下：

其中，

代表最终提取出的ROI特征，函数BI(P,P′)代表将P′通过双线性插值放大到P的尺寸。

步骤(2)具体实现如下：

2-1.利用一个k×k的池化层和一个1×1的卷积层构建主线路；池化层用来改变特征图尺寸，卷积层用来改变特征的通道数量；

2-2.利用一个k×k的卷积层构建残差分支，用来弥补在主线路中池化层所丢失的特征信息；该分支中的卷积层与主线路中1×1卷积层具有相同的卷积核数量；

2-3.将主线路与残差分支加和得到最终的采样网络，并利用归一化层对其ROI特征进行归一化；

如上步骤2-1到2-3公式如下：

其中为Q′∈h_q×w_q×c_q特征原始维度，Q∈h_p×w_p×c_p为需要转变成的目标维度；Conv(Q′,k,s,b)代表的意思为使用b个大小为k×k的卷积核，步长设为s，在特征Q′上进行卷积操作；在

上应用残差采样结构后得到归一化的多尺度ROI特征

步骤(3)具体如下：

利用生成的归一化后的多尺度ROI特征

构建如公式(5)所示的双二次池化得到最终的分类特征向量：

其中

为映射矩阵；在步骤(2)中已经使用残差采样结构将特征处理到维度14×14×512，因此在经过HQP运算后，每对交互的特征进行池化后维度为512×512，将

两两交互得到的特征向量拼接起来得到512×512×3的特征作为图片的最终表征向量，然后利用全连接层进行基于Softmax的分类。

本发明具有的有益效果是：

基于先目标定位，再进行判别性特征提取用于分类的思想，提出了一种基于多尺度ROI特征的双二次池化细粒度图像分类方法(HQPMR)。该方法在不使用标注框、部位标注等额外信息的情况下定位目标主体，提取出多尺度ROI特征，然后通过HQP进行有效的特征融合，HQP结构如图3所示；最终使用得到的特征进行分类，在CUB-200-2011、StanfordCars、FGVC-Aircraft三个数据集上取得了当前领先的准确率。

附图说明

图1是本发明的残差采样结构示意图(右侧)和整体框架示意图。

图2是Mask生成及ROI特征提取示意图。

图3是HQP结构示意图。

具体实施细节

下面结合附图对本发明做进一步具体说明。

本发明基于先目标定位，再进行判别性特征提取用于分类的思想，提出了一种基于多尺度ROI特征的双二次池化(Hierarchical biQuadratic Pooling,HQP)细粒度图像分类方法(Hierarchical biQuadratic Pooling with Multi-scale ROI features,HQPMR)。该方法在不使用标注框、部位标注等额外信息的的情况下定位目标主体，提取出ROI特征，然后通过双二次池化进行有效的特征融合，最终使用得到的特征进行分类，其步骤如下：

步骤(1)、使用Resnet-34网络提取图像的深度视觉特征，并基于该特征生成掩膜(Mask)；将Mask与视觉特征图进行点乘，构建图像的ROI特征。

步骤(2)、选取Resnet-34网络中低层、中层、高层三种不同尺度的ROI特征，并利用改进的残差采样结构对多尺度特征进行维度变换，实现多尺度特征融合，从而提取多尺度ROI特征。

步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互，并基于池化后的特征向量构建Softmax分类器。

步骤(1)所述的生成Mask，构建图像的ROI特征，具体如下：

1-1.我们的目标是要降低背景信息对于分类的影响，对于一个卷积特征X∈R^h*w*c,我们将所有c个通道的特征进行可视化，发现大多数特征都能在图片中目标主体的位置有较强的响应值，但仍有部分特征图的高响应值在边缘背景区域，这便是影响最终分类准确率的原因之一。为了矫正特征信息，我们将卷积特征X在通道方向上加和得到：

A_x＝∑_kX^:,:,k,其中A_x∈R^h*w。

1-2.然后计算A_x的均值，将该均值设定为阈值α，A_x内大于等于α的位置判定为目标主体设置值为1，低于α的位置判定能够为背景设为ξ(ξ为一个趋于0的小数)，于是得到一个二值化的Mask，其生成过程如公式(1)所述：

1-3.将Mask与卷积特征X做点乘，能够保留住目标主体位置的特征，抑制背景区域的特征值。判定界限的阈值α，是作为区分背景与目标主体的重要依据，当α值过大时，会将过多的区域判定为背景，造成目标特征的损失，当α过小时，无法充分的去除背景信息，因此我们在选取阈值α时，在A_x的均值上再乘上一个权重θ，θ的值被限定在[0.5，1]之间，通过交叉验证实验来选取合适的θ值。

1-4.我们选取了Resnet中Conv5_3、Conv4_6和Conv3_4三层的卷积特征作为图片不同层次不同尺度的信息表达，对这三层特征我们分别称之为

对X、Y、Z三种卷积特征，分别用步骤1-1到1-3中步骤生成对应的Mask，将三个Mask进行结合生成一个新Mask，如公式(2)所述：

由于Conv5_3、Conv4_6和Conv3_4三层卷积特征的尺寸为14×14×512、28×28×256、56×56×128，因此M_x、M_y、M_z的大小分别为14×14、28×28、56×56，Maxpool(M_x,M_y)代表将M_y下采样至M_x相同尺寸，Maxpool(M_x,M_z)代表将M_z下采样至M_x相同尺寸。

1-5.M_x、M_y、M_y共同决定的新Mask使得背景与目标主体的区分更加精确,然后将新Mask与卷积特征X、Y、Z结合，新Mask的尺寸为14×14，可以直接与X点乘，对于卷积特征Y和Z，需要将新Mask通过双线性插值分别放大到28×28和56×56，然后再进行结合。具体如公式(3)所示：

其中，

步骤(2)所述的多尺度交互中，针对各尺度ROI特征的维度差异，利用残差采样结构(Residual Sampling Structure)，在改变特征维度的同时能够保留关键信息，具体如下：

在传统计算机视觉任务中，往往采用神经网络最后一层的卷积特征作为一张图片的特征表达，但是在卷积神经网络中，高层特征包含更多的语义信息，浅层特征包含更多的细节信息，相比于传统分类任务只采用最后一层卷积特征，多层次多尺度特征的融合能够带来更加具有判别性的信息。同时为了满足步骤(3)的操作需要，我们需要将特征处理为同一维度，因此我们设计了一种残差采样结构(Residual Sampling Structure)，在改变特征维度的同时能够保留更多关键的信息，甚至能够增加目标主体区域的特征值响应，其结构为：

2-1.利用一个k×k的池化层(Maxpool)和一个1×1的卷积层构建主线路。池化层用来改变特征图尺寸，卷积层用来改变特征的通道数量。

2-2.利用一个k×k的卷积层构建残差分支，用来弥补在主线路中池化层所丢失的特征信息。该分支中的卷积层与主线路中1×1卷积层具有相同的卷积核数量。

2-3.将主线与残差分支加和得到最终的采样网络，并利用归一化层(BatchNormalization,BN)对其ROI特征进行归一化。

如步骤2-1到2-3，公式如下：

其中Q′∈h_q×w_q×c_q为特征原始维度，Q∈h_p×w_p×c_p为需要转变成的目标维度。Conv(Q′,k,s,b)代表的意思为使用b个大小为k×k的卷积核，步长设为s，在特征Q′上进行卷积操作。在

上应用残差采样结构后得到归一化的特征

步骤(3)所述的利用多层次双二次池化结构,同时建模同层和跨层特征间的交互，具体如下：

我们提出了HQP结构,相比传统网络直接将卷积特征展开然后连接全连接层的做法，经过HQP处理的特征更加具有判别性。首先卷积特征两两之间做内积，使得不同层次的卷积特征进行交互，然后将每个卷积特征与自身的转置做矩阵外积，使得不同位置以及不同通道之间的特征得到关联。

利用如上生成的归一化后的多尺度ROI特征

构建如公式(5)所示的双二次池化(HQP)得到最终的分类特征向量：

其中

为映射矩阵(projection matrix)。由于步骤(3)中的特征我们已经使用残差采样结构处理到维度14×14×512，因此在经过HQP运算之后，每组输出的特征维度为512×512，X、Y、Z两两交互共产生三种组合，将三组得到的特征向量拼接起来得到512×512×3的特征作为当前图片的表征向量，然后再接一个全连接层进行分类，通过Softmax输出分类概率。

步骤(4)所述的训练模型和测试，具体如下：

我们使用CUB-200-2011、Stanford Cars、FGVC-Aircraft三个数据集验证我们的方法。由于每张图片的尺寸不一致，我们首先对图片大小进行了处理。根据不同数据集中目标主体占图片比例的不同，我们分别将CUB-200-2011、Stanford Cars、FGVC-Aircraft三个数据集中的图片大小调整为600×600、500×500、500×480，然后将每张图片裁剪为448×448大小作为我们的训练数据。为了使训练数据更加多样化，将裁剪出的图片以50％的概率水平翻转，然后对图片进行了归一化操作。

依据步骤(1)、(2)和(3)中构建得到的网络在训练集上训练模型，在测试集上验证准确率。

首先为特征提取模型Resnet加载在Imagenet数据集上的预训练参数，然后固定Resnet参数结构，只训练在Resnet之后新添加的层(步骤(2)(3)中的结构)，然后再微调整个网络，最终将训练好的网络在测试集上验证获得准确率，以一幅图像作为输入，输出所属类别。

整个网络训练使用随机梯度下降法(Stochastic Gradient Descent,SGD)进行优化，使用交叉熵损失作为损失函数(Cross Entropy Loss)。

如图1中框架示意图所示，首先将一张图片输入进网络，提取了经过Resnet后低层、中层、高层三种不同尺度的卷积特征。

然后经过ROI Feature Generation步骤，使用图2中的结构生成Mask，将Mask与原来的卷积特征结合，抑制背景区域的特征，保留住目标主体区域的特征，得到我们所需要的ROI特征。

然后经过Multi-scale Interaction步骤，对多尺度特征进行处理，我们将之前选取的Resnet中低层、中层、高层三种不同尺度的特征输入残差采样结构，将三种特征处理为同一维度，这种结构使得在改变特征维度的时候，不仅能够有效保留住原先的特征信息，甚至能够增强关键区域特征的响应。残差采样结构如图1右侧所示。

最后经过Biquadratic Pooling结构对特征进行融合,首先卷积特征两两之间做内积，使得不同层次的卷积特征进行交互，然后将每个卷积特征与自身的转置做矩阵外积，使得不同位置以及不同通道之间的特征得到关联。将得到的特征向量拼接起来，后面接一个全连接层进行分类，通过Softmax输出分类概率。

表1展示的为本发明在三个数据集上得到的最终准确率。

表1