CN110516700B

CN110516700B - 基于度量学习的细粒度图像分类方法

Info

Publication number: CN110516700B
Application number: CN201910648466.5A
Authority: CN
Inventors: 田小林; 张�杰; 王凤鸽; 张杨; 孟令研; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2022-12-06
Anticipated expiration: 2039-07-18
Also published as: CN110516700A

Abstract

本发明公开了一种基于度量学习的细粒度图像分类方法，实现的步骤是：(1)构建单阶段多盒检测网络SSD；(2)生成训练集；(3)构建两输入‑三输出网络；(4)训练两输入‑三输出网络；(5)对细粒度图像中的目标进行分类。本发明构建了两输入‑三输出网络，在生成训练集时对细粒度图像中的目标进行检测并按照矩形框的尺寸选取图像内容，克服了现有技术训练网络时需要借助物体标注框和部位标注点，对细粒度图像进行分类时需要提供图像标注框，分类过程繁琐的问题，使得本发明能够自动检测到细粒度图像中的目标，而且本发明可对任意细粒度图像进行分类，应用范围更加广泛。

Description

基于度量学习的细粒度图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域中的一种基于度量学习的细粒度图像分类方法。本发明采用基于度量学习的分类方法，可用于自然图像中的细粒度图像进行分类。

背景技术

细粒度图像分类问题是计算机视觉领域的一项极具挑战的研究课题，它相对于通用图像分类任务的难点在于其图像所属类别的粒度更加精细，类内之间的差异较大而类别间的差异细微，它的目标是对于粗粒度的大类进行更加细致的子类划分，因此细粒度图像分类的关键点在于寻找一些微小的局部差异区分出不同的类别，那么，如何有效地对前景图像进行检测，并从中发现重要的局部区域信息就成为了细粒度图像分类算法中要解决的关键问题。近些年来，随着深度学习的不断发展和进步，传统的度量学习有了新的形式，基于深度特征和度量学习的方法也越来越多的被使用，这给细粒度图像分类带来了新的机遇。

东南大学在其申请的专利文献“基于多模态表征的细粒度图像分类方法”(专利申请号：201810627958.1公开号：CN109002834A)中公开了一种基于多模态表征的细粒度图像分类方法。该方法的具体步骤是：首先，确定识别的领域以及该领域的图像数据集合和分类标签，构建知识库，得到分类标签的低维向量表达；其次，获得分类标签在文本空间上的向量表达；然后设计一个双层卷积神经网络处理待分类图像，利用物体的边界信息作为训练检测网络的监督目标，利用分类标签的低维向量和文本空间上的向量表达作为训练分类网络的监督目标；最后，采用常用的目标优化算法训练网络，得到最终分类结果。该方法存在的不足之处是，需要事先确定好检测领域并且搜索待检测领域的文本信息，不仅耗时费力，而且无法对于不在训练库中的图像进行分类。

Ning Zhang,Jeff Donahue以及Ross Girshick在其发表的论文“Part-based R-CNNs for Fine-grained Category Detection”(European Conference on ComputerVision,2014：834-849)中公开了一种基于部分R-CNN(Regions with CNN features)的细粒度图像分类方法。该方法实现的具体步骤是：首先，利用Selective Search(选择性搜索)等算法在细粒度图像中产生物体或物体部位的侯选框；其次，基于深度卷积网络对物体或者物体部位的侯选框训练出三个检测模型，并对三个检测模型加上位置几何约束，选择出最佳的侯选框；然后，提取局部语义上的特征，为细粒度图像识别进行姿态规范化；最后训练分类器，得到分类结果。该方法存在的不足之处是，在训练时需要借助物体标注框和部位标注点，而且为了取得满意的分类精度，在测试时还要求测试图像提供标注框，而标注信息的过程繁琐、获取代价太高，因此这种方法在实际应用中无法得到推广。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于度量学习的细粒度图像分类方法。本发明与现有其他细粒度图像分类方法相比，能够在生成训练集时对细粒度图像中的目标进行检测并按照矩形框的尺寸选取图像内容以提高检测准确率，并且利用两个训练样本的真实标签向量之间的差异度训练两输入-三输出网络以提高分类准确率。

实现本发明目的的思路是：先搭建一个23层的单阶段多盒检测网络SSD并设置每层参数，并利用该网络生成训练集，再搭建一个36层的两输入-三输出网络并设置每层参数，用训练集对两输入-三输出网络进行训练，得到训练好的两输入-三输出网络，最后将待检测的细粒度图片输入到训练好的两输入-三输出网络得到该细粒度图像中的目标的分类结果。

为实现上述目的，本发明包括以下步骤：

(1)构建单阶段多盒检测网络SSD：

(1a)搭建一个23层的单阶段多盒检测网络SSD；

(1b)设置单阶段多盒检测网络SSD的参数；

(2)生成训练集：

(2a)从图像数据集中随机选取至少8000张细粒度图像，每张细粒度图像中包含至少一个待检测目标；

(2b)将每张细粒度图像输入到单阶段多盒检测网络SSD中，输出该张细粒度图像的K个[x,y,w,h,p]特征向量和M个矩形框，K和M的取值相等，均为输出的细粒度图像中待检测目标的总数的6倍，x,y表示矩形框中心点的坐标位置，w表示矩形框的宽度，h表示矩形框的高度，p表示该矩形框中包含待检测目标的置信度值；

(2c)对每个矩形框进行非极大值抑制处理，得到一个矩形框集合；

(2d)按照矩形框集合中每个矩形框的尺寸选取细粒度图像内容，得到选取后的细粒度图像；

(2e)将选取后的每张细粒度图像水平翻转10度，将水平翻转后的每张细粒度图像缩小到原图的0.9倍，将缩小后的每张细粒度图像水平偏移10度，将水平偏移后的每张细粒度图像竖直偏移10度，将所有预处理后的细粒度图像组成训练集；

(3)构建两输入-三输出网络：

(3a)搭建一个36层的两输入-三输出网络，其结构依次为：输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→第1最大池化层→第5卷积层→第6卷积层→第2最大池化层→第7卷积层→第8卷积层→第3最大池化层→第9卷积层→第10卷积层→第11卷积层→第12卷积层→第13卷积层→第14卷积层→第15卷积层→第16卷积层→第17卷积层→第18卷积层→第19卷积层→第20卷积层→第21卷积层→第22卷积层→第23卷积层→第24卷积层→第25卷积层→第26卷积层→第27卷积层→第28卷积层→第29卷积层→第30卷积层→第31卷积层→第32卷积层→第33卷积层→第34卷积层→第4最大池化层→第35卷积层→第36卷积层→平均池化层→输出层；

(3b)设置两输入-三输出网络每层的参数：

将第1卷积层的卷积核大小设置为3*3*3，卷积步长设置为2；将第2至第7卷积层的卷积核大小均设置为3*3，卷积步长均设置为1，依次设置卷积核的个数为32、64、128、128、256、256；将第8至第34卷积层的卷积核大小均设置为3*3*728，卷积步长均设置为1；将第35卷积层卷积核大小设置为3*3*1024，卷积步长设置为1；将第36卷积层卷积核大小设置为1*1*1536，卷积步长设置为1；将4个最大池化层池化窗口大小均设置为2*2；将平均池化层池化窗口大小设置为1*1；

(4)训练两输入-三输出网络：

(4a)将训练集中的样本两两同时输入到两输入-三输出网络中，经过平均池化层，得到训练集中每个训练样本对应的预测标签向量；

(4b)利用交叉熵函数公式，两输入-三输出网络的输出层计算每个训练样本对应的预测标签向量与其真实标签向量之间的交叉熵；

(4c)利用二值阈值损失函数公式，两输入-三输出网络的输出层计算每次同时输入的两个训练样本的真实标签向量之间的差异度；

(4d)利用梯度下降法，更新两输入-三输出网络中卷积层的每一个节点的权值，直到满足终止条件，得到训练好的两输入-三输出网络；

(5)对细粒度图像中的目标进行分类：

将待检测的每张细粒度图像输入到两输入-三输出网络中，将该网络输出的细粒度图像中每个目标的预测标签向量，作为该张细粒度图像中每个目标的分类标签。

本发明与现有技术相比，具有以下优点：

第一，由于本发明采用在生成训练集时对细粒度图像中的目标进行检测并按照矩形框的尺寸选取图像内容的方法，使得网络可以自动检测到目标从而简化分类过程，克服了现有技术中在训练时需要借助物体标注框和部位标注点，在测试时需要测试图像提供标注框，分类过程繁琐的问题，使得本发明能够更加精确的检测到细粒度图像中的目标，提高了后续的特征提取和分类的准确度。

第二，由于本发明采用对训练集中的细粒度图像进行处理的方法，使得对被测试的细粒度图像没有要求，克服了现有技术中需要事先确定好检测领域并且搜索待检测领域的文本信息，而且无法对于不在训练库中的图像进行分类的问题，使得本发明可对任意细粒度图像进行分类，大大增大了应用范围。

第三，由于本发明构建了两输入-三输出网络，利用两个训练样本的真实标签向量之间的差异度来训练该网络，克服了现有技术中在训练时需要借助物体标注框和部位标注点导致的获取代价太高的问题，使得本发明在保证分类速度的同时，提高了细粒度图像分类的准确率。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明的具体步骤做进一步的描述。

步骤1，构建单阶段多盒检测网络SSD。

搭建一个23层的单阶段多盒检测网络SSD，其结构依次为：第1卷积层→第2卷积层→第1最大池化层→第3卷积层→第4卷积层→第2最大池化层→第5卷积层→第6卷积层→第7卷积层→第3最大池化层→第8卷积层→第9卷积层→第10卷积层→第4最大池化层→第11卷积层→第12卷积层→第13卷积层→第5最大池化层→第14卷积层→第15卷积层→第16卷积层→第17卷积层→第18卷积层→第19卷积层→第20卷积层→第21卷积层→第22卷积层→第23卷积层→平均池化层。

设置23层的单阶段多盒检测网络SSD的各层参数如下：将第1、2卷积层的卷积核大小设置为3*3*3，步长设置为1*1；将第3、4卷积层卷积核大小设置为3*3*128，步长设置为1*1；将第5、6、7卷积层卷积核大小设置为3*3*256，步长设置为1*1；将第8、9、10、11、12、13卷积层卷积核大小设置为3*3*512，步长设置为1*1；将第14卷积层卷积核大小设置为3*3*1024，步长设置为1*1；将第15卷积层卷积核大小设置为1*1*1024，步长设置为2*2；将第16卷积层卷积核大小设置为1*1*256，步长设置为1*1；将第17卷积层卷积核大小设置为3*3*512，步长设置为2*2；将第18卷积层卷积核大小设置为1*1*128，步长设置为1*1；将第19卷积层卷积核大小设置为3*3*256，步长设置为2*2；将第20卷积层卷积核大小设置为1*1*128，步长设置为1*1；将第21卷积层卷积核大小设置为3*3*256，步长设置为1*1；将第22卷积层卷积核大小设置为1*1*128，步长设置为1*1；将第23卷积层卷积核大小设置为3*3*256，步长设置为1*1；将四个最大池化层池化窗口大小均设置为2*2；将平均池化层池化窗口大小设置为1*1。

步骤2，生成训练集。

从图像数据集中随机选取至少8000张细粒度图像，每张细粒度图像中包含至少一个待检测目标。

将每张细粒度图像输入到单阶段多盒检测网络SSD中，输出该张细粒度图像的K个[x,y,w,h,p]特征向量和M个矩形框，K和M的取值相等，均为输出的细粒度图像中待检测目标的总数的6倍，x,y表示矩形框中心点的坐标位置，w表示矩形框的宽度，h表示矩形框的高度，p表示该矩形框中包含待检测目标的置信度值。

对每个矩形框进行非极大值抑制处理，得到一个矩形框集合。

所述非极大值抑制处理的步骤如下：

第1步，对所有矩形框的置信度值进行升序排序，从中选取置信度值最高的矩形框。

第2步，将置信度值最高的矩形框与其他每个矩形框分别进行比较，保留二者的面积重叠率小于阈值的矩形框，删除其余的矩形框，所述阈值为(0,0.5]之间任意选取的一个分数值，得到保留后的矩形框。

第3步，判断保留后的矩形框的个数是否等于1，若是，则执行第四步，否则，执行第一步。

第4步，将保留后的矩形框与第一步中选取出来的置信度值最高的矩形框组成矩形框集合。

按照矩形框集合中每个矩形框的尺寸选取细粒度图像内容，得到选取后的细粒度图像。

将选取后的每张细粒度图像水平翻转10度，将水平翻转后的每张细粒度图像缩小到原图的0.9倍，将缩小后的每张细粒度图像水平偏移10度，将水平偏移后的每张细粒度图像竖直偏移10度，将所有预处理后的细粒度图像组成训练集。

步骤3，构建两输入-三输出网络。

搭建一个36层的两输入-三输出网络，其结构依次为：输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→第1最大池化层→第5卷积层→第6卷积层→第2最大池化层→第7卷积层→第8卷积层→第3最大池化层→第9卷积层→第10卷积层→第11卷积层→第12卷积层→第13卷积层→第14卷积层→第15卷积层→第16卷积层→第17卷积层→第18卷积层→第19卷积层→第20卷积层→第21卷积层→第22卷积层→第23卷积层→第24卷积层→第25卷积层→第26卷积层→第27卷积层→第28卷积层→第29卷积层→第30卷积层→第31卷积层→第32卷积层→第33卷积层→第34卷积层→第4最大池化层→第35卷积层→第36卷积层→平均池化层→输出层。

设置两输入-三输出网络每层的参数。

将第1卷积层的卷积核大小设置为3*3*3，卷积步长设置为2；将第2至第7卷积层的卷积核大小均设置为3*3，卷积步长均设置为1，依次设置卷积核的个数为32、64、128、128、256、256；将第8至第34卷积层的卷积核大小均设置为3*3*728，卷积步长均设置为1；将第35卷积层卷积核大小设置为3*3*1024，卷积步长设置为1；将第36卷积层卷积核大小设置为1*1*1536，卷积步长设置为1；将4个最大池化层池化窗口大小均设置为2*2；将平均池化层池化窗口大小设置为1*1。

步骤4，训练两输入-三输出网络。

将训练集中的样本两两同时输入到两输入-三输出网络中，经过平均池化层，得到训练集中每个训练样本对应的预测标签向量。

利用交叉熵函数公式，两输入-三输出网络的输出层计算每个训练样本对应的预测标签向量与其真实标签向量之间的交叉熵。

所述交叉熵函数公式如下：

其中，L_i表示第i个预测标签向量与该向量的真实标签向量之间的交叉熵，y_i表示训练集中第s个训练样本的真实标签向量，log表示以10为底的对数操作，

表示训练集中第s个训练样本的预测标签向量，s的取值与i相等。

利用二值阈值损失函数公式，两输入-三输出网络的输出层计算每次同时输入的两个训练样本的真实标签向量之间的差异度。

所述二值阈值损失函数公式如下：

其中，L_u,v表示第u个训练样本和第v个训练样本的标签向量之间的差异度，Y表示第u个训练样本和第v个训练样本的类别属性，Y＝0表示第u个训练样本和第v个训练样本属于同一类别，Y＝1表示第u个训练样本和第v个训练样本不属于同一类别，E_w(x_u,x_v)表示第u个训练样本和第v个训练样本的特征向量的对应元素之间的空间距离，E_w(x_u,x_v)＝||H_w(x_u)-H_w(x_v)||，||·||表示1范数操作，H_w(x_u)表示第u个训练样本x_u的特征向量，H_w(x_v)表示第v个训练样本x_v的特征向量，max(·,·)表示取两者中的最大值操作，ε表示在(0,0.3]范围内随机选取的一个分数值。

利用梯度下降法，更新两输入-三输出网络中卷积层的每一个节点的权值，直到满足终止条件，得到训练好的两输入-三输出网络。

所述的梯度下降法的具体步骤如下：

第1步，用两输入-三输出网络输出的两个训练样本的真实标签向量之间的差异度，对两输入-三输出网络的卷积层中每一个节点的权值取偏导，得到两输入-三输出网络卷积层中每一个节点权值的梯度值；

第2步，按照下式，更新两输入-三输出网络的每个卷积层中每个节点的权值：

其中，

表示两输入-三输出网络的第b个卷积层中第n个节点更新后的权值，W_b,n表示两输入-三输出网络的第b个卷积层中第n个节点更新前的权值，α表示学习率，其取值为(0,1)范围内任意一个分数值，ΔW_b.n表示两输入-三输出网络中第b个卷积层第n个节点更新前的权值的梯度值。

所述终止条件是指同时满足以下两个条件的情形：

条件1，更新后的交叉熵值不断减小并趋于稳定；

条件2，任意两个训练样本的真实标签向量之间的差异度的值不断减小并趋于稳定。

步骤5，对细粒度图像中的目标进行分类。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为E5-2620CPU，主频为2.0GHz，内存64GB。

本发明的仿真实验的软件平台为：Windows7的64位操作系统和python3.5。

本发明仿真实验所使用的输入图像为鸟类图像数据集Caltech-UCSD Birds(CUB200-2011)，该图像数据由美国加利福尼亚理工学院收集，图像共包含200种鸟类，共计11788张图像，图像格式为jpg。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和三个现有技术(Part R-CNN分类方法、PS-CNN分类方法、PoseNorm CNN分类方法)分别对输入的鸟类图像Caltech-UCSD Birds(CUB200-2011)进行了仿真。

在仿真实验中，采用的三个现有技术是指：

现有技术Part R-CNN分类方法是指，Zhang N等人在“Part-based R-CNNs forFine-grained Category Detection，European Conference on Computer Vision，2014:834-849”中提出的细粒度图像分类方法，简称Part R-CNN分类方法。

现有技术PS-CNN分类方法是指，Huang S等人在“Part-Stacked CNN for Fine-Grained Visual Categorization，IEEE Conference on Computer Vision and PatternRecognition，2015:1173-1182”中提出的细粒度图像分类方法，简称PS-CNN分类方法。

现有技术PoseNorm CNN分类方法是指，Braun M等人在“Pose-RCNN:Joint objectdetection and pose estimation using 3D object proposals，Proceeding of the19th International Conference on Intelligent Transportation Systems(ITSC)，2016:1546-1551”中提出的细粒度图像分类方法，简称PoseNorm CNN分类方法。

利用评价指标(分类准确率)分别对四种方法的分类结果进行评价。利用下面公式，计算分类准确率，将所有计算结果绘制成表1：

表1中分别列出了本发明与现有技术Part R-CNN分类方法、PS-CNN分类方法、PoseNorm CNN分类方法的分类准确率对比情况。

由表1可见，本发明所提出的基于度量学习的细粒度图像分类方法，相比现有技术Part R-CNN分类方法、PS-CNN分类方法、PoseNormCNN分类方法，具有更高的细粒度图像分类准确率。

表1分类准确率对比表

方法	分类准确率
		Part R-CNN分类方法	73.9％
PS-CNN分类方法	76.6％
		PoseNorm CNN分类方法	75.7％
本发明分类方法	77.5％

Claims

1.一种基于度量学习的细粒度图像分类方法，其特征在于，在生成训练集时对细粒度图像中的目标进行检测并按照矩形框的尺寸选取图像内容，构建并训练两输入-三输出网络，该方法的具体步骤包括如下：

(1)构建单阶段多盒检测网络SSD：

(1a)搭建一个23层的单阶段多盒检测网络SSD；

(1b)设置23层的单阶段多盒检测网络SSD的各层参数；

(2)生成训练集：

(3)构建两输入-三输出网络：

(3b)设置两输入-三输出网络每层的参数：

(4)训练两输入-三输出网络：

(5)对细粒度图像中的目标进行分类：

2.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(1a)中所述23层的单阶段多盒检测网络SSD的结构依次为：第1卷积层→第2卷积层→第1最大池化层→第3卷积层→第4卷积层→第2最大池化层→第5卷积层→第6卷积层→第7卷积层→第3最大池化层→第8卷积层→第9卷积层→第10卷积层→第4最大池化层→第11卷积层→第12卷积层→第13卷积层→第5最大池化层→第14卷积层→第15卷积层→第16卷积层→第17卷积层→第18卷积层→第19卷积层→第20卷积层→第21卷积层→第22卷积层→第23卷积层→平均池化层。

3.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(1b)中所述设置23层的单阶段多盒检测网络SSD的各层参数如下：将第1、2卷积层的卷积核大小设置为3*3*3，步长设置为1*1；将第3、4卷积层卷积核大小设置为3*3*128，步长设置为1*1；将第5、6、7卷积层卷积核大小设置为3*3*256，步长设置为1*1；将第8、9、10、11、12、13卷积层卷积核大小设置为3*3*512，步长设置为1*1；将第14卷积层卷积核大小设置为3*3*1024，步长设置为1*1；将第15卷积层卷积核大小设置为1*1*1024，步长设置为2*2；将第16卷积层卷积核大小设置为1*1*256，步长设置为1*1；将第17卷积层卷积核大小设置为3*3*512，步长设置为2*2；将第18卷积层卷积核大小设置为1*1*128，步长设置为1*1；将第19卷积层卷积核大小设置为3*3*256，步长设置为2*2；将第20卷积层卷积核大小设置为1*1*128，步长设置为1*1；将第21卷积层卷积核大小设置为3*3*256，步长设置为1*1；将第22卷积层卷积核大小设置为1*1*128，步长设置为1*1；将第23卷积层卷积核大小设置为3*3*256，步长设置为1*1；将四个最大池化层池化窗口大小均设置为2*2；将平均池化层池化窗口大小设置为1*1。

4.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(2c)中所述非极大值抑制处理的步骤如下：

第一步，对所有矩形框的置信度值进行升序排序，从中选取置信度值最高的矩形框；

第二步，将置信度值最高的矩形框与其他每个矩形框分别进行比较，保留二者的面积重叠率小于阈值的矩形框，删除其余的矩形框，所述阈值为(0,0.5]之间任意选取的一个分数值，得到保留后的矩形框；

第三步，判断保留后的矩形框的个数是否等于1，若是，则执行第四步，否则，执行第一步；

第四步，将保留后的矩形框与第一步中选取出来的置信度值最高的矩形框组成矩形框集合。

5.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(3)中所述两输入-三输出网络是指，通过输入层同时输入两个训练样本，通过输出层同时输出两个预测标签向量分别与其真实标签向量之间的交叉熵，以及两个训练样本的真实标签向量之间的差异度。

6.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(4b)中所述交叉熵函数公式如下：

7.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(4c)中所述二值阈值损失函数公式如下：

8.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(4d)中所述的梯度下降法的具体步骤如下：

第一步，用两输入-三输出网络输出的两个训练样本的真实标签向量之间的差异度，对两输入-三输出网络的卷积层中每一个节点的权值取偏导，得到两输入-三输出网络卷积层中每一个节点权值的梯度值；

第二步，按照下式，更新两输入-三输出网络的每个卷积层中每个节点的权值：

其中，

表示两输入-三输出网络的第b个卷积层中第n个节点更新后的权值，W_b,n表示两输入-三输出网络的第b个卷积层中第n个节点更新前的权值，α表示学习率，其取值为(0,1)范围内任意一个分数值，ΔW_b,n表示两输入-三输出网络中第b个卷积层第n个节点更新前的权值的梯度值。

9.根据权利要求1所述的基于度量学习的细粒度图像分类方法，其特征在于，步骤(4d)中所述终止条件是指同时满足以下两个条件的情形：

条件1，更新后的交叉熵值不断减小并趋于稳定；