CN112784929A

CN112784929A - 一种基于双元组扩充的小样本图像分类方法及装置

Info

Publication number: CN112784929A
Application number: CN202110273070.4A
Authority: CN
Inventors: 王隽程; 耿杰; 蒋雯; 邓鑫洋; 刘江浩
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-14
Filing date: 2021-03-14
Publication date: 2021-05-11
Anticipated expiration: 2041-03-14
Also published as: CN112784929B

Abstract

本发明公开了一种基于双元组扩充的小样本图像分类方法及装置。其中，该方法包括：使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组；确定提取特征与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到；确定距离最小的聚类中心所属的类别为待分类图像的类别。本发明解决了现有技术中由于样本数量过少，导致训练的模型过拟合、不够精确的技术问题。

Description

一种基于双元组扩充的小样本图像分类方法及装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种基于双元组扩充的小样本图像分类方法及装置。

背景技术

深度学习取得了巨大的成就，在各种计算机视觉挑战性问题上实现了类似于人类水平甚至超越人类水平的性能。卷积神经网络(Convolutional Neural Network，CNN)是常用的进行图像分类的深度学习方法之一。

然而，卷积神经网络之所以有较高的准确率，是因为其建立在大规模且质量较高的数据集之上的，需要大量携带标记的样本。但在实际应用中，或在一些特殊场景中(譬如医疗、遥感图像等领域)，我们无法获得大量的高质量样本集，勉强训练好的模型在测试数据上的泛化性能较差，甚至出现过拟合的现象。

针对现有技术中由于样本数量过少，导致训练的模型不够精确的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于双元组扩充的小样本图像分类方法及装置，以至少解决现有技术中由于样本数量过少，导致训练的模型过拟合、不够精确的技术问题。

根据本发明实施例的一个方面，提供了一种基于双元组扩充的小样本图像分类方法，包括：使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组；确定提取特征结果与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到；确定距离最小的聚类中心所属的类别为待分类图像的类别。

可选地，样本集通过对小样本图像集使用双元组扩充得到，包括：通过排列组合的方式处理小样本图像集，得到扩充后的双元组正样本集和双元组负样本集；根据双元组正样本集和双元组负样本集，得到样本集。

可选地，通过以下公式计算样本集的数量K：

其中，m表示小样本图像集包括的类别数量，n表示每个类别包括的图像数量。

可选地，样本集中每一个元素的最终标签通过以下步骤确定：通过样本集训练第二网络模型，得到训练好的第二网络模型，其中，第二网络模型为卷积神经网络；使用训练好的第二网络模型提取元素的两个特征向量，对特征向量做余弦相似度处理，并将处理后的结果与第一阈值比较，得到第一处理结果；根据元素的原始标签直接进行判断，得到第二处理结果；对第一处理结果和第二处理结果进行加权计算，得到最终标签。

可选地，第二网络模型的损失函数L表示如下：L＝L₀+L₂，

其中，L₀表示交叉熵，L₂表示第二正则项，y表示当前图像的标签，

表示第二网络模型对当前图像的预测值，α₂表示第二正则项的正则系数，ω₂表示第二网络模型的模型参数。

可选地，孪生网络通过使用带有最终标签的样本集中的训练集训练两个初始第一网络模型得到。

可选地，第一网络模型的损失函数F表示如下：F＝L(W,(Y,X₁,X₂))+L₁，

其中，

表示训练集中每个元素的两个特征X₁和X₂的欧式距离，P表示元素的特征维数，Y为元素的两个图像是否匹配的标签，Y＝1表示两个图像相似或者匹配，Y＝0则表示不匹配，d表示第二阈值，H表示训练集的元素数量，α₁表示第一正则项的正则系数，ω₁表示第一网络模型的模型参数。

根据本发明实施例的另一方面，还提供了一种基于双元组扩充的小样本图像分类装置，包括：特征提取模块，用于使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组；第一确定模块，用于确定提取特征结果与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到；第二确定模块，用于确定距离最小的聚类中心所属的类别为待分类图像的类别。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一种基于双元组扩充的小样本图像分类方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任意一种基于双元组扩充的小样本图像分类方法。

在本发明实施例中，基于双元组扩充的小样本图像分类方法包括：使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组；确定提取特征结果与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到；确定距离最小的聚类中心所属的类别为待分类图像的类别。上述实施例通过对小样本图像集使用双元组扩充的方式得到大规模的双元组样本集，基于这些样本集训练好的孪生网络，使用K均值聚类算法替代传统卷积神经网络的全连接层，实现了使用大规模且高质量的数据集来训练孪生网络的技术效果，达到了对图像进行精确分类的目的，进而解决了现有技术中由于样本数量过少，导致训练的模型过拟合、不够精确技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例1的一种可选的基于双元组扩充的小样本图像分类方法的流程示意图；

图2根据本发明实施例1的一种可选的确定样本集中每一个元素的最终标签的流程示意图；

图3根据本发明实施例2的一种可选的基于双元组扩充的小样本图像分类装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种基于双元组扩充的小样本图像分类方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种基于双元组扩充的小样本图像分类方法，如图1所示，该方法包括如下步骤：

步骤S102，使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组。

一种可选方案中，上述小样本图像集可以为少量高质量的图片集，即每个元素为单张图片；上述样本集可以为大量高质量的图片集，其中，样本集的每个元素为两张同类的图片或不同类的图片，即正样本双元组和负样本双元组。

需要说明的是，在小样本图像集中，诸如mini-ImageNet中，包含有100类，但总共只有60000张图片，每个类别只有600张图片可供训练，且mini-ImageNet相比较于其他小样本图像集图片更为复杂，图像背景更为多样化，在不使用目标检测算法(Region ofInterest，ROI)的情况下，一些常用的深度学习模型难以在此类小样本图像集上展现良好的准确率。

而造成这些深度学习模型准确率低下的主要原因不仅仅是因为小样本图像集图片复杂，更是因为小样本图像集数据规模有限，故我们提出了一种使用双元组构造正负样本以扩充样本的数量。

步骤S104，确定提取特征结果与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到。

通常，卷积神经网络的最后一层为全连接层，用于对提取的特征结果进行分类。然而，考虑到全连接层占用资源较多，且在含噪声的数据集中提取出的特征结果不能全部保留，于是本申请选择了K均值聚类算法。

步骤S106，确定距离最小的聚类中心所属的类别为待分类图像的类别。

在一个可选的实施例中，以双元组样本集中的训练集为样本，两个卷积神经网络经过120次迭代之后，成为训练好的孪生网络。由于两个卷积神经网络相同，故取其中任何一个作为待分类图像的分类模型，即第一网络模型。而K均值聚类模型可以得到样本集中每一类图像的聚类中心。当需要对待分类图像进行分类时，通过一个第一网络模型得到待分类图像的特征结果，然后根据特征结果与每一类聚类中心的距离对比，则可以判断出待分类图像类别。

本申请上述实施例中，通过对小样本图像集使用双元组扩充的方式得到大规模的双元组样本集，基于这些样本集训练好的孪生网络，使用K均值聚类算法替代传统卷积神经网络的全连接层，实现了使用大规模且高质量的数据集来训练孪生网络的技术效果，达到了对图像进行精确分类的目的，进而解决了现有技术中由于样本数量过少，导致训练的模型过拟合、不够精确技术问题。

可选地，步骤S102中的样本集通过对小样本图像集使用双元组扩充得到，具体可以包括以下步骤：

步骤S1022，通过排列组合的方式处理小样本图像集，得到扩充后的双元组正样本集和双元组负样本集。

步骤S1023，根据双元组正样本集和双元组负样本集，得到样本集。

进一步地，通过以下公式计算样本集的数量K：

例如，小样本图像集包括40个类别，每个类别只有10张样本，总共只有400张样本图片，但使用双元组扩充之后，样本集可以有82000对。其中，双元组正样本集包括4000(40*10²)对图片，双元组负样本集包括

对图片。

由此可见，原始的小样本图像集中的单个图片，通过排列和组合的方式扩充为双图像样本的双元组样本集。

可选地，图2示出了一种可选的确定样本集中每一个元素的最终标签的流程示意图。样本集中每一个元素的最终标签可以通过以下步骤确定：

步骤S1024，通过样本集训练第二网络模型，得到训练好的第二网络模型，其中，第二网络模型为卷积神经网络。

考虑到算力和速度，上述第二网络模型可以为ResNet18。

步骤S1025，使用训练好的第二网络模型提取元素的两个特征向量，对特征向量做余弦相似度处理，并将处理后的结果与第一阈值比较，得到第一处理结果。

一种可选方案中，上述第一阈值可以为第二网络模型的模型参数进行更新学习来的，取决于第二网络模型的精度。

本实施例中，对于扩充后的样本集，双元组正样本包括属于同一个类别的两张图片，双元组负样本包括不属于同一个类别的两张图片，考虑得到噪声的存在，本申请并没有简单地使用样本的原始标签作为正负样本的判断，而是使用标签和特征向量经过加权之后的结果来作为最终标签。

其中，sample lable表示样本最终标签，是正样本还是负样本，bool(lable1＝lable2)表示当前双元组中两个样本的原始标签相同还是不同，fcs表示经第二网络模型提取的两个样本特征向量的余弦相似度，ω为置信度矩阵。

需要说明的是，上式中的fcs需和第一阈值进行比较后，方可参与计算。

步骤S1026，根据元素的原始标签直接进行判断，得到第二处理结果。

步骤S1027，对第一处理结果和第二处理结果进行加权计算，得到最终标签。

在一个可选的实施例中，对于一对双元组的最终标签取决于两部分：第一部分是直接判断组成该双元组的两张图像的原始标签是否相同，如果相同则该双元组的标签为正样本对，反之则为负样本对；第二部分则是将组成该双元组的两张图像分别通过预训练的ResNet18，分别得到两张图像的特征向量，然后计算这两个特征向量的余弦相似度，将余弦相似度与一个阈值进行比较，当相似度大于该阈值，则认为双元组的判定结果为正样本对，反之则为负样本对。最后，将这两部分的判定结果加权输出，得到最终对该双元组的最终标签的判定结果。

可选地，第二网络模型的损失函数L表示如下：

L＝L₀+L₂，

需要说明的是，如果仅使用交叉熵L₀作为损失函数做预训练，该损失函数会使模型对于损失较小的样本更简要地拟合，但对于损失更大的样本反而会使网络使用更大的功夫去拟合。为了减少这种因为损失函数所带来的模型对噪声样本过拟合的影响，可以在使用大学习率的同时，给原来的损失函数加上L₂正则项。

上述步骤中，确定好双元组样本集的最终标签后，就可以使用双元组样本的两张图像训练两个级联的卷积神经网络，得到孪生网络。

需要说明的是，双元组样本按照6：2：2的比例划分为训练集、测试集和验证集。每一次迭代时，先使用训练集，依次将训练集中的一个双元组拿出，分别将两张图像输入进孪生网络中，每一张图像会得到一个对应的特征向量，然后使用对比损失函数计算目前网络性能下的网络输出结果和该双元组的标签真值的损失值，使用该损失值来更新网络参数。在120次迭代之后，网络已经具备成熟的特征提取能力。也就是说，对于一张新的图像来讲，网络可以得到正确的该图像的视觉特征，然后按照该图像的视觉特征，使用聚类的方法，可以判断得到该图像具体属于哪一类别。

验证过程则是在每一次迭代时，训练集完毕后，使用测试集，将所有测试集作为输出，计算测试集中每一张图像的预测类别，最后和测试集的标签真值进行比较，得到网络在测试集上的分类精度。通过测试集精度，可以确定网络的分类精度由坏到好的全过程。

可选地，第一网络模型的损失函数F表示如下：

F＝L(W,(Y,X₁,X₂))+L₁，

其中，

本申请实施例中，使用孪生网络来对一个双元组中的两个样本图像进行拟合，而孪生网络的损失函数使用对比损失L(W,(Y,X₁,X₂))加上L₁正则项。

首先，对于对比损失，在使用孪生网络过程中，如果输入的这对二元组是正样本，那么需要模型向使这对二元组更加相似的方向去收敛，反之，如果是负样本，则需要模型向使这对二元组的区别更加明显的方向去收敛。对比损失则是通过两个样本之间的欧氏距离来体现这对二元组的相似程度，再乘以二元组的标签，就规定了模型收敛的方向；其次，对于L₁正则项，尽管在开始学习二元组之前已经对噪声进行了两次筛选，但这两次筛选的方向都是集中在选出噪声样本并去更正它。为了真正增强模型的鲁棒性，训练过程中在损失函数中加入正则项，选择L₁正则项而非L₂是因为之后对孪生网络的结果进行整合的时候，需要用到聚类算法，用L₂正则项会产生更多的特征，从而增大资源的占用。

由此可见，本申请对所有损失函数都加了正则化，以防止过拟合。但对于不同的损失函数会根据其功能选择不同的正则化方式。

另外，对于噪声的筛选等，本申请实施例一共在三个不同的位置使用了三种不同的应对噪声的解决办法，第一次对噪声的处理是在“预热”模型的时候，使用L2正则化加大学习率，降低模型对噪声数据的拟合程度；第二次对噪声的处理是在生成二元组的标签的时候，使用原标签和特征向量联合预测二元组的最终标签，极大程度地降低了对二元组的错标注的概率；第三次对噪声的处理在最后对模型进行训练的时候，使用的损失函数加上了L1正则化，增强了模型的鲁棒性，也在一定程度上减少了参数量。

上述实施例中，基于双元组扩充的小样本图像分类方法包括：使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组；确定提取特征结果与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到；确定距离最小的聚类中心所属的类别为待分类图像的类别。上述实施例通过对小样本图像集使用双元组扩充的方式得到大规模的双元组样本集，基于这些样本集训练好的孪生网络，使用K均值聚类算法替代传统卷积神经网络的全连接层，实现了使用大规模且高质量的数据集来训练孪生网络的技术效果，达到了对图像进行精确分类的目的，进而解决了现有技术中由于样本数量过少，导致训练的模型过拟合、不够精确技术问题。容易注意到，本申请实施例还使用了特制的损失函数来解决噪声样本的问题，极大地模拟了一些实际深度学习应用场景，即小样本+错标注样本。

实施例2

根据本发明实施例，提供了一种基于双元组扩充的小样本图像分类装置，图3是根据本申请实施例的基于双元组扩充的小样本图像分类装置的结构示意图。如图3所示，该装置300包括：

特征提取模块302，用于使用第一网络模型对待分类图像进行特征提取，得到提取特征结果，其中，第一网络模型来自孪生网络的任何一个，孪生网络是利用样本集中的训练集进行训练后得到的两个级联的卷积神经网络，样本集通过对小样本图像集使用双元组扩充得到，样本集中的每个元素为一个双元组。

第一确定模块304，用于确定提取特征结果与K均值聚类模型的每一类聚类中心的距离，其中，聚类中心通过对样本集的特征进行处理得到。

第二确定模块306，用于确定距离最小的聚类中心所属的类别为待分类图像的类别。

可选地，上述装置还可以包括样本集生成模块，样本集生成模块具体包括：处理模块，用于通过排列组合的方式处理小样本图像集，得到扩充后的双元组正样本集和双元组负样本集；得到模块，用于根据双元组正样本集和双元组负样本集，得到样本集。

可选地，上述装置还可以包括数量计算模块，用于通过以下公式计算样本集的数量K：

可选地，上述装置还可以包括标签确定模块，标签确定模块包括：训练模块，用于通过样本集训练第二网络模型，得到训练好的第二网络模型，其中，第二网络模型为卷积神经网络；比较模块，用于使用训练好的第二网络模型提取元素的两个特征向量，对特征向量做余弦相似度处理，并将处理后的结果与第一阈值比较，得到第一处理结果；判断模块，用于根据元素的原始标签直接进行判断，得到第二处理结果；加权模块，用于对第一处理结果和第二处理结果进行加权计算，得到最终标签。

可选地，第二网络模型的损失函数L表示如下：L＝L₀+L₂，

其中，

需要说明的是，上述特征提取模块302、第一确定模块304和第二确定模块306对应于实施例1中的步骤S102至步骤S106，这三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行实施例1中任意一种基于双元组扩充的小样本图像分类方法。

实施例4

根据本发明实施例，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行实施例1中任意一种基于双元组扩充的小样本图像分类方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。