CN110097067B

CN110097067B - 一种基于层进式特征变换的弱监督细粒度图像分类方法

Info

Publication number: CN110097067B
Application number: CN201811592745.6A
Authority: CN
Inventors: 姚西文; 杨柳青; 程塨; 韩军伟; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2022-07-26
Anticipated expiration: 2038-12-25
Also published as: CN110097067A

Abstract

本发明提供了一种基于层进式特征变换的弱监督细粒度图像分类方法，通过分析数据集，仅利用预训练卷积神经网络模型，对图像中的目标进行协同定位。同时，通过负相关性信息分析得到最具有判别能力的部件。利用图像、图像和目标、图像和部件分别训练对应的三种级别的卷积神经网络分类器：图像级别分类器、目标对象级别分类器以及目标部件级别分类器，联合三种级别分类器对细粒度图像进行分类。本发明将卷积特征进行特征变换，对细粒度图像中的目标和最具有判别能力的部件进行准确的定位，以一种新的思路来解决弱监督细粒度图像分类问题。

Description

一种基于层进式特征变换的弱监督细粒度图像分类方法

技术领域

本发明属于计算机视觉算法研究领域，涉及一种基于层进式特征变换的弱监督细粒度图像分类方法，具体涉及一种在弱监督学习范畴下，对卷积特征进行空间变换，层进式地完成细粒度图像分类任务的方法。

背景技术

细粒度图像分类问题是近年来计算机视觉领域非常热门的一项研究课题，其目标是对粗粒度大类别图像进行更加精细的子类划分，例如区分不同种类的鸟。相比较于传统图像分类任务，细粒度图像类间差异更加细微，只能借助微小的局部差异才能进行区分，同时光照、遮挡、姿态、背景干扰等又导致其类内差异巨大，这些因素都给细粒度图像分类带来极大困难。所以，细粒度图像分类是一项具有实际意义和挑战性的研究课题。

传统的细粒度图像分类算法为了得到更好的分类精度，严重依赖于目标框以及部件框等人工标注信息，而细粒度图像呈现出的数据海量性、种类多样性、背景复杂性等特点，使得人工标注的获取效率低下，制约了算法的实用性。弱监督的标注方式，即只需指明图像的类别信息，将大大降低人工标注的难度和工作量。目前，弱监督细粒度图像分类取得了优异性能表现，但仍面临关键性的难点问题：细粒度图像的复杂背景以及子类别间的细微差异和较大的类内差异，给精确检测并定位到目标及关键区域造成严重的干扰。亟需设计一种有效的学习方法对细粒度图像数据中目标的位置和最具有判别能力的部件进行更好的定位。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于层进式特征变换的弱监督细粒度图像分类方法，将卷积特征进行特征变换，层进式地完成细粒度图像分类任务。

技术方案

一种基于层进式特征变换的弱监督细粒度图像分类方法，其特征在于步骤如下：

步骤1：利用Selective Search方法提取每一幅训练图像的候选区域，然后筛选出候选区域,将筛选出的候选区域和训练图像合并作为训练数据集，在此训练数据集上训练卷积神经网络模型得到图像级别分类器；

利用Deep Descriptor Transform方法，对每一类训练图像特征进行特征变换，提取出每一类训练图像中最具有正关联性的区域，将其作为目标对象潜在区域，并和训练图像合并作为训练数据集，在此训练数据集上训练卷积神经网络模型得到目标对象级别分类器；

利用Deep Descriptor Transform方法，对相似类别训练图像的目标潜在区域特征进行特征变换，从相似类别训练图像的目标潜在区域中提取出最具有负关联性的区域，将其作为目标部件潜在区域，并和训练图像合并作为训练数据集，在此训练数据集上训练卷积神经网络模型得到目标部件级别分类器；

步骤2：以图像级别分类器、目标对象级别分类器和目标部件级别分类器分别对测试图像进行分类打分，按照下式：

final_score＝α*original_score+β*object_score+γ*part_score

对三种分类器的分类打分进行加权融合，得到测试图像的最终分类得分，根据此分类得分赋予测试图像相应类别标签，完成图像分类；

其中：original_score、object_score和part_score分别表示图像级别、目标对象级别和目标部件级别分类器对测试图像的打分，α、β和γ分别代表相应每个分类器的权重。

所述步骤1候选区域的筛选方法为：在训练图像集上微调在ImageNet数据集上预训练之后的卷积神经网络，将候选区域输入到该卷积神经网络中得到候选区域的分类得分，从每幅训练图像的分类得分大于特定阈值m的候选区域中，筛选出t个分类得分最高的候选区域。

所述步骤1相似类别的计算方法为：提取每一类别中每一幅训练图像的特征，将每一类别中所有训练图像的特征进行求平均，得到每一类别的特征均值，计算每一类别特征均值与其他类别特征均值之间的欧式距离，将距离某一类别特征均值最近的类别作为该类别的相似类别。

有益效果

本发明提出的一种基于层进式特征变换的弱监督细粒度图像分类方法，通过分析数据集，仅利用预训练卷积神经网络模型，对图像中的目标进行协同定位。同时，通过负相关性信息分析得到最具有判别能力的部件。利用图像、图像和目标、图像和部件分别训练对应的三种级别的卷积神经网络分类器：图像级别分类器、目标对象级别分类器以及目标部件级别分类器，联合三种级别分类器对细粒度图像进行分类。本发明将卷积特征进行特征变换，对细粒度图像中的目标和最具有判别能力的部件进行准确的定位，以一种新的思路来解决弱监督细粒度图像分类问题。

附图说明

图1是本发明方法的流程图。

图2是本发明采用的特征描述子变换示意图。

图3是本发明采用的图像级别特征描述子变换结果示意图。

图4是本发明采用的图像级别特征描述子变换结果示意图。

图5是本发明采用的对象级别特征描述子变换结果示意图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明的基本思想是：给定仅有图像级标签的细粒度图像数据集，本方法用训练数据集，与筛选出的候选区域合并作为训练数据集，在此训练数据集上训练图像级别的细粒度图像分类器。接着利用图像级别特征变换，对图像中的目标进行协同定位，寻找每一类图像最具有正关联性的区域，并将其作为目标对象潜在区域，和训练图像合并作为训练数据集，用于训练对象级别细粒度图像分类器。在找到目标潜在区域后，进一步利用对象级别特征变换，定位到目标最具有判别能力的部件区域，并用得到的部件区域和训练图像合并作为训练数据集，训练部件级别细粒度图像分类器。本方法将特征变换与深度卷积神经网络结合，以层进式的形式，逐步找到能够有效提高细粒度图像分类任务准确性的目标潜在区域以及最具有判别能力的部件区域，取得较高的细粒度图像分类准确率。

用于实施的计算机硬件环境是：因特尔Xeon E5-2683v3@2.00GHz 14-核CPU处理器，128GB内存，配备GeForce GTX TITAN Xp GPU。运行的软件环境是：Linux16.04 64位操作系统。我们用Matlab R2017a软件实现发明中提出的方法。实验中用于训练和测试的细粒度图像来源于CUB-200-2011数据集： http://www.vision.caltech.edu/visipedia/CUB-200-2011.html。训练集共包含200类鸟，如图2所示。

参照图1的方法流程图，本发明具体实施如下：

1、训练图像级别分类器：将筛选出的候选区域和训练图像合并作为训练数据集，在此训练数据集上训练卷积神经网络模型得到图像级别分类器。在Caffe平台上对图像级别分类器参数进行训练，本实例中设置各个参数的数值为：学习率base_lr＝1×10^-3，迭代次数max_iter＝60000，正则化系数momentum＝0.9，权值衰减系数 weight_decay＝0.0005，学习率衰减系数gamma＝0.1。所述的候选区域训练样本库的获取方法如下；

步骤a：利用利用J.R.R.Uijlings等人在2013年的工作Selective Search forObject Recognition中提出的Selective Search方法，提取训练集图像的候选区域。本实例中设置各个参数的数值为：ks＝[50,100,150,300]，最小框宽度minBoxWidth＝40，颜色空间 colorTypes＝[Hsv,Lab,RGI,H,Intensity]。

步骤b：利用在ImageNet预训练的分类网络，在训练数据集图像上进行微调，得到预训练细粒度图像分类网络。在Caffe平台上对预训练网络进行参数训练，本实例中设置各个参数的数值为：学习率base_lr＝1×10^-3，迭代次数max_iter＝10000，正则化系数momentum＝0.9，权值衰减系数weight_decay＝0.0005，学习率衰减系数 gamma＝0.1。

步骤c：利用步骤b所得到的预训练细粒度图像分类网络，对训练集图像上每个候选区域图像进行打分，从每幅训练图像的分类得分大于特定阈值m的候选区域中，筛选出t个分类得分最高的候选区域。本实例中设置的具体参数为：m＝0.95，t＝30。

2、训练对象级别分类器：利用Xiushen Wei等人在2017年的工作Deep descriptortransforming for image co-localization中提出的Deep Descriptor Transform方法，对每一类训练图像特征进行特征变换，提取出每一类训练图像中最具有正关联性的区域，将其作为目标对象潜在区域，并和训练图像合并作为训练数据集，在此训练数据集上训练卷积神经网络模型得到目标对象级别分类器。在Caffe平台上进行对象级别分类器参数训练，本实例中设置各个参数的数值为：学习率base_lr＝1×10^-3，迭代次数 max_iter＝10000，正则化系数momentum＝0.9，权值衰减系数weight_decay＝0.0005，学习率衰减系数gamma＝0.1。所述的寻找每一类图像最具有正关联性的区域的具体计算方法如下：

步骤a：将细粒度图像数据集中的某一类图像，送入在ImageNet上预训练的CNN 模型，得到最后一个Relu层对应的特征图，利用公式

计算特征向量的均值

其中x表示特征向量，(i,j)表示特征图上i行j列的位置，n表示图像索引， K＝h×w×N，h和w分别表示特征图的高和宽,N表示当前类别图像的数量。接着利用公式

求出相应的协方差矩阵Cov(x)，并求出协方差矩阵的特征值和特征向量。此时特征图上所有位置的特征向量均参与计算。

步骤b：选择上述协方差矩阵最大的特征值对应的特征向量ξ₁作为特征变换的映射方向，利用公式

计算特征图在位置(i,j)处的特征向量与其他位置特征向量之间的关联性值

生成特征图级别的关联性图，再通过最近邻插值到对应的原图尺寸，为每幅训练图像生成对应的图像级别的关联性图。接着对图像级别的关联性图进行二值化，阈值为0，得到二值化图像级别关联性图，该关联性图中的1代表当前位置与其他位置的特征描述子之间正相关，0代表当前位置与其他位置的特征描述子之间负相关。

步骤c：利用最大连通区域算法，求出上述步骤生成的二值化图像级别关联性图中的最大连通区域，并求出最小外接矩形，作为当前类图像最具有正关联性的区域。

3、训练部件级别分类器。对相似类别训练图像的目标潜在区域特征进行特征变换，从相似类别训练图像的目标潜在区域中提取出最具有负关联性的区域，将其作为目标部件潜在区域，并和训练图像合并作为训练数据集，在此训练数据集上训练卷积神经网络模型得到目标部件级别分类器。在Caffe平台上对部件级别分类器参数进行训练，本实例中设置各个参数的数值为：学习率base_lr＝1×10^-3，迭代次数 max_iter＝10000，正则化系数momentum＝0.9，权值衰减系数weight_decay＝0.0005，学习率衰减系数gamma＝0.1。所述的对象级别特征描述子变换的计算方法如下：

步骤a：将步骤2中生成的特征图级别的关联性图进行二值化，阈值为0，得到二值化特征图级别关联性图。计算该关联性图中所有正值位置处的特征向量的均值，用于描述当前类目标。对所有类别计算该均值后，对数据集的每个类别，用向量间的欧式距离作为评价准则，寻找特征向量均值距离最小的类别，作为与当前类别最相似的类别。

步骤b：对数据集中的每个类别，结合步骤a中找到的与之最相似的类别，利用两个类别图像的目标所在区域进行特征描述子变换。按公式

计算特征向量的均值

接着利用公式

求出相应的协方差矩阵Cov(x)，并求出协方差矩阵的特征值和特征向量。此时仅二值化特征图级别关联性图中的正相关区域参加计算。

步骤c：选择上述协方差矩阵最大的特征值对应的特征向量ξ₁作为特征变换的映射方向，利用公式

生成特征图级别的关联性图，再通过最近邻插值到对应的原图尺寸，为每幅训练图像生成对象级别的关联性图。将对象级别的关联性图二值化，阈值为0，得到二值化对象级别关联性图，该关联性图中的1代表两类图像中的前景目标相似的部分，0代表两类图像中的前景目标具有差异性的部分。

步骤d：利用图像处理中的开运算，对步骤c中得到的对象级别关联性图进行后处理，消除目标周围狭窄的背景轮廓。

步骤e：利用最大连通区域算法，求出经步骤d后处理的对象级别关联性图的最大连通区域，并求出最小外接矩形，作为当前类图像最具有判别能力的部件区域。

4、对测试图像进行分类。

步骤a：利用步骤1、2、3得到的图像级别分类器、对象级别分类器和部件级别分类器，从不同层次对测试集图像进行打分评价。

步骤b：利用公式final_score＝α*original_score+β*object_score+γ*part_score对三种分类器的打分进行加权融合，得到测试图像的最终得分，其中original_score、 object_score和part_score分别表示图像级别、对象级别和部件级别分类器对待测图像的打分，α、β和γ分别代表相应每个分类器的权重。本实例中设置各个参数的数值为：α＝0.3、β＝0.6、γ＝0.1。

步骤c：根据测试图像的最终得分，选择得分最高的类别作为模型预测的测试图像类别标签。

本发明最终在CUB-200-2011的测试数据集上达到82.98％的准确率，验证了该方法的可行性和有效性。

Claims

1.一种基于层进式特征变换的弱监督细粒度图像分类方法，其特征在于步骤如下：

final_score＝α*original_score+β*object_score+γ*part_score

2.根据权利要求1所述基于层进式特征变换的弱监督细粒度图像分类方法，其特征在于：所述步骤1候选区域的筛选方法为：在训练图像集上微调在ImageNet数据集上预训练之后的卷积神经网络，将候选区域输入到该卷积神经网络中得到候选区域的分类得分，从每幅训练图像的分类得分大于特定阈值m的候选区域中，筛选出t个分类得分最高的候选区域。

3.根据权利要求1所述基于层进式特征变换的弱监督细粒度图像分类方法，其特征在于：所述步骤1相似类别的计算方法为：提取每一类别中每一幅训练图像的特征，将每一类别中所有训练图像的特征进行求平均，得到每一类别的特征均值，计算每一类别特征均值与其他类别特征均值之间的欧式距离，将距离某一类别特征均值最近的类别作为该类别的相似类别。