CN109063719B

CN109063719B - 一种联合结构相似性和类信息的图像分类方法

Info

Publication number: CN109063719B
Application number: CN201810365992.6A
Authority: CN
Inventors: 熊炜; 刘豪; 王娟; 曾春艳; 张凡; 冯川; 王鑫睿
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2022-02-01
Anticipated expiration: 2038-04-23
Also published as: CN109063719A

Abstract

本发明公开了一种联合结构相似性和类信息的图像分类方法，在利用深度网络的结构特点上，提供一种新型深度学习方法—联合结构相似性和类信息的图像识别算法。并将该深度学习算法应用在手写数字识别和自然图像识别中，提出联合结构相似性与类信息的图像识别方法。该方法能能高效地提取小图像高层次信息；其次，该方法引入了联合度量损失和图像类别信息建立损失函数，度量损失通过计算图像高层次语义向量之间的相似性，最小化类内距离和类间距离与某一常数(通常为1)之差，不仅加快了网络的训练收敛速度，同时保持或者提高测试集图像的分类准确率。本发明简单且易于实现，提升图像识别性能的同时，也提高了网络的训练效率。

Description

一种联合结构相似性和类信息的图像分类方法

技术领域

本发明涉及深度学习、机器学习技术领域，涉及一种图像分类方法，特别涉及一种联合结构相似性和类信息的图像分类方法。

背景技术

自2012年Alex等设计卷积神经网络在ImageNet大规模图像分类比赛中获得冠军以来，深度学习在图像分类方面就不断取得新的突破。卷积神经网络通过分层的方式提取图像从低级别到高级别的信息，对图像的表示能力超过视觉词袋模型(bag of visualwords,BoVW)和局部聚集描述子向量(vector of locally aggregated descriptor,VLAD)等基于手工特征表示的方法。然而，针对特定大小的图像或者特定的数据集，需要设计特定的卷积神经网络才能获得指定任务下的良好性能。在图像分类中，由于计算机存储和计算速度的限制，为了能将卷积神经网络应用于实际任务中，以较少的参数和计算量获得较好的分类性能是当前卷积神经网络设计方面的研究重点。

在当前主流的卷积神经网络中，模型的参数大多都需要花费较大的存储空间，同时需要配置较好的计算设备(GPU)才能用于实际任务中。Simonyan等利用3×3的卷积核，提出了深层的卷积神经网络，在不使用池化操作情况下，产生多个小的卷积核，有效限制了参数的数量，在图像分类上获得了当时最好的效果。但其评估的代价比浅层网络更大。Szegedy等在网络的每一个卷积层利用大小不同，数量不等的卷积核卷积图像，以捕捉多样性的图片结构，提出GoogLeNet，同时也使得计算量激增。He等基于残差的思想，提出残差卷积网络，能训练非常深层的网络，但通常需要几周的时间进行训练。Christiany等基于GoogLeNet和残差网络的思想提出性能较好的Inception-ResNet网络。Gao等提出密集连接的卷积神经网络，将卷积神经网络当前的卷积层与其前面所有卷积层都建立连接，使得当前的卷积层可以利用前面卷积层的信息，减少网络的参数量，同时提升网络的性能，但训练过程中显存和计算量上稍显不足。Wang等基于视觉注意力思想提出残差注意力网络，通过注意力机制提高卷积神经网络的性能。

这些卷积神经网络的训练都是利用训练集图像及其对应的类别标签，基于softmax分类器训练网络。然而，对比softmax分类器，基于度量学习的思想，Weinberger等实现了更准确的k最近邻的分类。Zhang等联合度量学习和图像类标签实现了更好的细粒度特征表示，获得了更准确的细粒度图像分类结果。

卷积神经网络一般是对输入图像通过多层的多个卷积核和有限次数的下采样步骤，最终实现对图像的表示。然而，并不是网络的层数越多，每层的特征图越多，卷积神经网络的表现能力越好。如果层数太多，容易出现梯度消失现象，每层的特征图太多，容易陷入过拟合。同时，层数太多，每层的特征图数量也多，会导致网络太大，消耗过多的计算机内存，减慢计算速度。

性能合适的卷积神经网络才能被广泛用于实际中，一般而言，内容较复杂，包含信息较多的图像，需要采用较深的卷积神经网络，同时网络每层也需要设置较多的特征图，才能学到图像中所有的信息。对于内容较简单，包含信息较少的图像而言，在大网络上非常容易过拟合，导致在测试集上效果不好。

有鉴于此，有必要提供一种联合结构相似性和类信息的图像识别方法，以解决上述问题。

发明内容

为了解决现有技术存在的问题，本发明提供了一种联合结构相似性和类信息的图像识别方法，并将该方法应用在手写数字识别mnist数据集和自然图像识别cifar-10数据集中。

本发明所采用的技术方案是：一种联合结构相似性和类信息的图像分类方法，其特征在于，包括以下步骤：

步骤1：获取N×N原始图像；

步骤2：对步骤1中获取额原始图像进行预处理；

步骤3：将预处理后的图像输入卷积神经网络中的第一个卷积层Conv1，激活函数为ReLU；

步骤4：将上一层的输出结果输入第二个卷积层Conv2，激活函数为ReLU，再进行dropout操作，将输出结果输入池化层；

步骤5：将上一层的输出结果输入第三个卷积层Conv3，激活函数为ReLU，再进行dropout操作；

步骤6：将上一层的输出结果输入第四个卷积层Conv4，激活函数为ReLU,再进行dropout操作，将输出结果输入池化层；

步骤7：将上一层的输出结果输入第五个卷积层Conv5，激活函数为ReLU，再进行dropout操作；

步骤8：将上一层输出结果输入第一个全连接层fc1，并进行dropout操作，然后进行L2型Normalization操作；

步骤9：将上一层输出结果输入到struct1，其中struct1中的损失函数为度量损失函数；

步骤10：将第8步的输出结果输入第二个全连接层fc2，即softmax层；

步骤11：将步骤2中经过预处理的图像传送到步骤9和步骤10中，联合度量损失和softmax损失训练网络，获得总的损失函数；

步骤12：经过softmax分类器得到图像属于各个类别的概率(例如，得到属于汽车的概率为0.6，飞机的概率属于0.4)；

步骤13：根据图像属于各个类别的概率，得出图像分类结果，最后输出图像分类结果。

与现有技术相比，本发明的有益效果是：本发明提出的联合结构相似性和类信息的卷积神经网络，该方法能高效地提取图像高层次信息；其次，该方法引入了联合度量损失和图像类别信息建立损失函数，度量损失通过计算图像高层次语义向量之间的相似性，最小化类内距离和类间距离与某一常数(通常为1)之差，不仅加快了网络的训练收敛速度，同时保持或者提高测试集图像的分类准确率。本发明简单且易于实现，提升小图像识别性能的同时，也提高了网络的训练效率。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的卷积神经网络结构。

具体实施方式

以下通过实施例形式对本发明的上述内容再作进一步的详细说明，但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明上述内容所实现的技术均属于本发明的范围。

请见图1，本发明提供的一种联合结构相似性和类信息的图像分类方法，以标准普通物体识别库cifar-10进行实例验证，包括以下步骤：

步骤1：获取32×32原始图像(此处为选取cifar-10数据集中图像大小的情况)；

步骤2：对步骤1中获取额原始图像进行预处理；

对原始图像进行左右翻转，同时每次从每幅图像中随机裁剪一副28×28大小的图像，并通过caffe内置的逻辑机构转为lmdb型数据格式进行训练。

步骤3：采用本发明提出的联合结构相似性与类信息的图像分类方法进行模型的训练，如图2所示。具体包括以下步骤：

步骤3.1：将步骤2中得到的lmdb型数据输入到第一个卷积层Conv1，该层网络节点数为32，特征图大小为26×26，卷积核大小为3×3，卷积核移动步长为1，边缘不补0，激活函数为ReLU。

步骤3.2：将步骤1中得到的lmdb型数据输入到第一个卷积层Conv1，该层网络节点数为32，特征图大小为26×26，卷积核大小为3×3，卷积核移动步长为1，边缘不补0，激活函数为ReLU。

步骤3.3：将步骤3.2得到大小为12×12的特征图输入到第三个卷积层Conv3，该层网络节点数为32,特征图大小为10×10，其余参数均与第一层卷积Conv1参数相同。

步骤3.4：将步骤3.3得到大小为10×10的特征图输入第四个卷积层Conv4，该层网络节点数为32，特征图大小为4×4，其余参数均与步骤3.2中一样。

步骤3.5：将步骤3.4得到大小为4×4的特征图输入第五个卷积层Conv5，该层网络节点数量为128，特征图大小为2×2，其余参数均与步骤3.3一致。保存Conv5和fc1之间待学习的参数矩阵G。

步骤3.6：将步骤3.5得到大小为2×2的特征图输入第一个全连接层fc1，该层网络节点数量为256，激活函数为ReLU，同时使用Dropout操作，dropout比率为0.5。接着对此层输出进行L2型Normalization归一化处理。

步骤3.7：将步骤3.6中输出结果输入到struct1，其中struct1中的损失函数为本发明所提出的度量损失函数L_metric：

式中p是一个批量的图像数量，α是监督信息；s_i,j∈{0,1}，如果y_i＝y_j，则s_i,j＝1，否则s_i,j＝0；度量学习的目的是通过优化(1)式学习参数G；d_Wi,j为x_i和x_j之间的平方距离，如下式所示：

d_Wi,j＝(x_i-x_j)^TW(x_i-x_j) (2)

式中W＝GG^T，且

其中G是Conv5和fc1之间待学习的参数矩阵。

本发明联合度量损失和softmax损失建立多损失函数监督训练网络。目的在于，通过不同的监督信息，使得所训练的网络能考虑多方面的信息，并且在训练过程中，多个监督信息相互协调，在多方面都得到优化，从而提升网络整体的泛化和表示能力。

假设训练集图像在fc1的输出为

且

每一幅图像对应的类别标签为

且y_i∈{1,…,C}。度量学习的目的就是学习马氏距离中的参数矩阵W。例如，在x_i和x_j之间的平方距离为：

d_Wi,j＝(x_i-x_j)^TW(x_i-x_j) (3)

式中W＝GG^T，且

其中G是Conv5和fc1之间待学习的参数矩阵。通过度量学习能优化fc1层向量的结构相似性，度量损失函数为：

式中p是一个批量的图像数量，s_i,j∈{0,1}，如果y_i＝y_j，则s_i,j＝1，否则s_i,j＝0。度量学习的目的是通过优化(4)式学习参数G。

步骤3.8：将步骤3.6中输出结果输入给第二个全连接层fc2，即softmax层进行分类，进行前向传播输出。

步骤3.9：训练数据被传送到步骤3.7和步骤3.8中，联合度量损失和softmax损失训练网络，总的损失函数为：

L＝βL_metric+(λ-β)L_softmax (5)

式中β为度量损失的权重，λ为softmax损失和度量损失的权重之和，L_softmax为传统的softmax损失函数，如下式所示：

i表示第i类样本，N表示步骤2中经过预处理的图像数量；f_yi表示fc2层的输出，f_j表示某个类别向量的j个元素。

按极小化误差的方法反向传播并且调整联合结构相似性与类信息的图像分类网络中的权值参数。直到权重更新稳定，建立出联合结构相似性和类信息的图像分类模型。

请见表1，本卷积神经网络的参数数量大约为21.7万。针对性设计的卷积神经网络在小图像上具有良好表现能力。

表1本发明设计的卷积神经网络的参数

步骤4：经过softmax分类器得到图像属于各个类别的概率(例如，得到属于汽车的概率为0.6，飞机的概率属于0.4)；

步骤5：根据图像属于各个类别的概率，得出图像分类结果，最后输出图像分类结果。

将测试数据按上述步骤输入，最终，得到准确的识别结果。

以上所述仅是本发明的优选实施方式，具体实施方式中牵涉到的数值参数仅仅用来对上述的具体实施方式进行详细说明，不能作为限制本发明保护范围的依据。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种联合结构相似性和类信息的图像分类方法，其特征在于，包括以下步骤：

步骤1：获取N×N原始图像；

步骤2：对步骤1中获取的原始图像进行预处理；

所述度量损失函数是联合度量损失和图像类别信息建立的损失函数，其度量损失函数为：

式中p是一个批量的图像数量，α是监督信息；s_i,j∈{0,1}，如果y_i＝y_j，则s_i,j＝1，否则s_i,j＝0；y_i、y_j分别表示图像x_i和x_j的类别标签；度量学习的目的是通过优化(1)式学习参数G；d_Wi,j为x_i和x_j之间的平方距离，如下式所示：

d_Wi,j＝(x_i-x_j)^TW(x_i-x_j) (2)

式中W＝GG^T，且

其中G是Conv5和fc1之间待学习的参数矩阵；

所述总的损失函数为：

L＝βL_metric+(λ-β)L_softmax (3)

式中β为度量损失的权重，λ为softmax损失和度量损失的权重之和；L_metric为度量损失函数，L_softmax为传统的softmax损失函数，如下式所示：

i表示第i类样本，N表示步骤2中经过预处理的图像数量；

表示fc2层的输出，f_j表示某个类别向量的j个元素；

步骤12：经过softmax分类器得到图像属于各个类别的概率；

2.根据权利要求1所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤2中，所述预处理是对原始图像进行左右翻转，同时每次从每幅图像中随机裁剪一副M×M大小的图像，M<N，并通过caffe内置的逻辑机构转为lmdb型数据格式进行训练。

3.根据权利要求1-2任意一项所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤3中，所述卷积神经网络的第一个卷积层Conv1，网络节点数为32，特征图大小为26×26，卷积核大小为3×3,卷积核移动步长为1，边缘不补0，激活函数为ReLU。

4.根据权利要求1-2任意一项所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤4中，所述卷积神经网络的第二个卷积层Conv2，网络节点数为64，特征图大小为12×12，卷积核大小为3×3，卷积核移动步长为1，边缘不补0，激活函数为ReLU，使用Dropout操作，dropout比率为0.5；此步骤最后插入最大池化操作，其中滑动窗口大小为2，移动步长为2。

5.根据权利要求1-2任意一项所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤5中，所述卷积神经网络的第三个卷积层Conv3的网络节点数为32，特征图大小为10×10，其余参数均与第一层卷积参数相同。

6.根据权利要求1-2任意一项所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤6中，所述卷积神经网络的第四个卷积层Conv4的网络节点数为32，特征图大小为4×4，其余参数均与步骤4中一样。

7.根据权利要求1-2任意一项所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤7中，所述卷积神经网络的所述第五个卷积层Conv5的网络节点数量为128，特征图大小为2×2，其余参数均与步骤3一致；保存Conv5和fc1之间待学习的参数矩阵G。

8.根据权利要求1-2任意一项所述的联合结构相似性和类信息的图像分类方法，其特征在于：步骤8中，所述卷积神经网络的第一个全连接层fc1的网络节点数量为256，激活函数为ReLU，同时使用Dropout操作，dropout比率为0.5；接着对此层输出进行L2型Normalization归一化处理。