CN114898141A

CN114898141A - 一种基于对比损失的多视图半监督图像分类方法

Info

Publication number: CN114898141A
Application number: CN202210350338.4A
Authority: CN
Inventors: 王魏; 朱明璇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-08-12

Abstract

本发明公开了一种基于对比损失的多视图半监督图像分类方法，在无标签数据上利用自监督对比损失，能够充分利用数据的潜在特征，同时基于监督对比损失，利用类别监督信息，并借助多视图的一致性对不同视图信息进行融合，实现了不需要借助伪标签提升模型在多视图分类任务上的精度。此方法针对半监督场景下的多视图图像分类任务，能够利用少量的标注信息并借助多视图之间的一致性提升分类性能，适用于解决缺乏数据标签信息的多视图图像分类任务。

Description

一种基于对比损失的多视图半监督图像分类方法

技术领域

本发明涉及一种多视图半监督图像分类方法，该方法引入对比损失，能够充分利用无标签数据提取数据特征及少量数据标签信息，并借助多视图的一致性提升分类性能，属于计算机人工智能图像分类技术领域。

背景技术

现实生活中，同一个事物可以从多种不同的途径或者不同的角度对其进行描述，例如，可以通过人脸图像、人眼虹膜、指纹信息等来判别不同的人，等等，不同来源的信息构成了事物的多个视图。对于实际应用中常见的图像数据，需要建立庞大的图像数据库并进行人工标注，但人工标注所需的成本高昂且效率低下。大数据时代，收集大规模数据并不困难，但收集到的数据往往缺乏标签信息，而为这些数据提供标记十分困难且耗时耗力。因此，实际应用中，常常面对大量数据不具有类别标签、仅有少量数据具有类别标签的半监督场景，传统的半监督学习方法大多应用在单视图数据上。现有方法例如协同训练是通过给无标签数据提供伪标签来进行训练的。然而这种依赖于伪标签的学习方法很容易带来噪声标记并造成大量重复的训练。

发明内容

发明目的：针对半监督场景下的多视图图像分类问题，本发明提出了一种新颖的基于对比损失的多视图半监督图像分类算法，该算法在无标签数据上通过图像增强构造正负例，并运用自监督对比损失，充分利用数据的潜在特征，同时基于少量的类别监督信息，利用监督对比损失帮助提升网络提取数据特征的能力，并借助多视图的一致性对不同视图信息进行融合，实现了不需要借助伪标签提升模型在多视图分类任务上的性能。此方法针对半监督场景下的多视图图像分类任务，能够利用少量的标注信息并借助多视图之间的一致性提升分类性能，适用于解决缺乏数据标签信息的多视图图像分类任务。

技术方案：一种基于对比损失的多视图半监督图像分类方法，在实例级和类别级上应用对比损失以提高网络对图像的表示能力，并借助多视图的一致性提升网络对多视图图像的分类性能，包括如下内容：

首先需要用户准备好一个多视图图像训练库，训练库需包含图像的两个视图，每个视图均由多数的无标签样本和少量的带有类别标签的样本构成。

接着，对每个视图的训练数据里的每个图像样本都实施两种不同的图像增强技术，于是每个图像样本经过增强均可以获得两个不同的增强图像。将得到的增强图像输入到编码器网络中进行训练，可以提取出增强图像的特征表示。由于一个图像样本能够产生两个不同的增强图像，因此经过编码器网络后可以对应得到两个不同的特征表示。

图像增强技术有多种，例如旋转、剪裁、遮盖、颜色畸变(包含亮度、对比度、饱和度、色调等一种或几种属性调整操作的集合)、加噪声等等，通常可以组合使用多种增强技术。

将经过编码器网络得到的特征表示作为输入传进投影网络中，可以将高维的特征映射到低维的投影空间中，以获得该特征在投影空间中的低维嵌入。然后，在低维嵌入空间中计算两种对比损失，即实例层面和类别层面的对比损失，并构成整个网络模型的损失函数的重要组成部分。

如何计算这两种对比损失，具体来说，对于每个图像样本的两个增强图像经过上述操作所得到的两个低维嵌入可以互相作为彼此的正例，而它们中任何一个与其他图像样本所产生的低维嵌入均构成负例，于是可以计算每个样本的实例级对比损失。在实例级对比损失中，对每个样本来说，其负例有多对，而正例只有一对。此外，对于图像样本中带有类别标签的样本，还可以根据它们的类别标签来构造正负例，即类别标签相同的样本对为正例，类别标签不同的样本对为负例，于是可以对每个有标签的样本计算类别层级上的对比损失。这里，对每个有标签样本来说，其正例和负例均可以有多对。

然后，将有标签样本经过编码器网络得到的特征传入到分类器中，得到类别预测并计算与真实标签的交叉熵损失。同时，这里经过分类器得到的softmax层输出之间利用交叉熵损失计算相似度。此外，可以利用范数来计算两个视图的样本的低维嵌入之间的相似度。上述所有损失函数加权求和，计算梯度并通过反向传播迭代更新整个网络模型。

网络训练好后进行预测，用户将待预测的多视图图像作为输入依次经过编码器网络和分类器，即可得到待测对象的预测类别。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于对比损失的多视图半监督图像分类方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于对比损失的多视图半监督图像分类方法的计算机程序。

有益效果：与现有的技术相比，本发明在多视图数据上运用半监督学习方法则还需要考虑视图之间的相关性，通过两种对比损失不仅从无标签数据中提取出数据的潜在特征，并能够充分利用少量类别监督信息来辅助网络的训练，同时利用多视图的一致性融合不同视图的信息，并成功避免引入标记噪声，最终取得了良好的分类效果。此外，本发明针对半监督场景下的多视图图像分类任务，适用于解决缺乏数据标签信息的多视图图像分类任务。

附图说明

图1是本发明实施例的方法原理图；

图2是本发明实施例的方法流程图；

图3是本发明实施例中多视图图像样本经过网络处理的流程图；

图4是本发明实施例中在低维空间计算对比损失的流程图；

图5是本发明实施例中计算两个视图的一致性损失流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于对比损失的多视图半监督图像分类方法，包括如下内容：

首先用户需准备好一个包含两个视图的多视图图像库，图像库需包含图像的两个视图，并且每个视图的数据集里均由多数无标签图像样本和一小部分的带有类别标签的图像样本构成。接着，将每个输入图像样本进行两种不同的图像增强，并输入到编码器网络中得到两个特征表示。将这些特征表示映射到低维投影空间中，并在该低维空间上计算两种对比损失。此外，将这些特征表示直接输入分类器进行类别预测，并计算其输出与真实标签之间的分类损失。考虑到多视图的一致性，还需要计算两个视图得到的分类预测之间的相似度，以及两个视图的特征对应的低维空间中的嵌入之间的相似度，将它们加入到网络整体的损失函数中。将上述损失函数加权求和，并通过梯度下降反向传播迭代地更新编码器网络和分类器。网络训练好后进行预测时，用户只需将待预测的多视图图像输入到编码器网络中，再将特征传入到分类器中，分类器就会给用户返回该待测对象的预测类别。

如图2所示，基于对比损失的多视图半监督图像分类方法的流程为：

步骤100，建立一个多视图图像库作为训练数据集

所包含的样本总数为N。多视图图像库需包含两个视图的数据集，每个视图的训练集里均由多数无标签数据样本和少量的带有类别标签的数据样本构成，分别记作

其中

是样本

的真实类别标签的one-hot向量，当样本

所属类别为c∈{0,…,C-1}时

否则

待预测类别的多视图图像数据集记作

步骤101，从每个视图的训练集中每次抽取一个批次的样本输入到网络中提取特征，并投影到低维空间中，具体步骤为：

步骤1011，对来自第v(v∈V≡{1,2})个视图的训练数据集中一个批次(批次大小为b)的图像样本

实施两种不同的图像增强t和t^′得到两个增强图像

和

步骤1012，将增强后的图像

和

输入到编码器网络f_v(v∈{1,2})中进行训练，获得图像样本的不同增强的特征表示

和

步骤1013，特征表示

和

经过投影网络g_v(v∈{1,2})被映射到一个低维空间中，得到这些特征表示在低维空间里的归一化嵌入

和

步骤102，在低维嵌入空间中计算两种对比损失，其具体步骤为：

步骤1021，对每个视图的每个训练样本得到的低维嵌入上计算实例级对比损失。在大小为b的一个批次的训练数据中，对于任一个输入图像样本

的两个增强图像

和

它们经过编码器网络和投影网络后得到相应的低维嵌入

和

将其中一个增强图像的低维嵌入

作为锚点，则该图像样本的另一个增强图像的低维嵌入与之构成正例

批次里其他图像样本产生的低维嵌入与之构成负例

于是得到实例层面的对比损失：

其中，i∈I≡{1,…,b}，M＝{1,…,2b}，A(i)≡M\{i}，τ₁是温度参数。这里，在一个批次中，有一个正例，2b-2个负例。

步骤1022，在有标签图像样本得到的低维嵌入上再计算类别级对比损失。对于取自有标签数据集的输入图像样本

其中

是样本

的真实类别标签的one-hot向量，当样本

所属类别为c∈{0,…,C-1}时

否则

将具有相同类别标签的图像样本产生的低维嵌入

作为正例(正例可能有多个)，而负例就包括不同类别的图像样本的嵌入以及无标签样本的嵌入(负例也有多个)，于是，在类别层面上引入对比损失，也即监督对比损失函数：

其中，i∈I≡{1,…,b}，

|P(i)|表示集合P(i)的势，τ₂是温度参数。

步骤103，基于两个视图得到的输出，计算视图之间的一致性损失，其具体步骤为：

步骤1031，对于一个批次中来自第v(v∈V≡{1,2})个视图的输入图像样本

经过编码器网络和投影网络得到的嵌入

和

计算这两个视图的嵌入之间的一致性正则损失函数

其中，

通过l₂范数构建正则化项达到多视图的一致性准则。

步骤1032，对于一个批次中来自第v(v∈V≡{1,2})个视图的带有标签的图像样本

其中

是样本

的真实类别标签的one-hot向量，当样本

所属类别为c∈{0,…,C-1}时

否则

它的两种增强经过编码器网络后可获得特征表示

再将特征表示输入到分类器h_v(·)中可以得到softmax层输出

于是，可以用如下公式计算该图像样本的分

接下来，利用交叉熵损失对两个视图的softmax层输出计算一下相似度：

步骤104，对上述损失函数进行加权求和，通过梯度反向传播更新网络。具体地，将步骤1031中的一致性正则损失

步骤1032中的相似度损失

分类损失

以及步骤1021-1022中的两个对比损失

和

进行加权求和，得到

再经过反向传播对编码器网络及分类器进行迭代更新。其中，λ₁,λ₂,λ₃,λ₄,λ₅为权重参数。

步骤105，训练结束预测阶段，将待预测类别的多视图图像

分别输入到步骤101中的编码器网络f₁和f₂中，得到的特征表示再分别输入到步骤103中的分类器h₁和h₂中，可得两个分类预测

和

取平均得

即为该多视图图像的预测类别。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于对比损失的多视图半监督图像分方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于对比损失的多视图半监督图像分类方法，其特征在于，包括如下步骤：

步骤100，建立一个多视图图像库作为训练数据集，多视图图像库包含两个视图的数据集，每个视图的数据集里包括无类别标签的图像数据和有类别标签的图像数据，其中无类别标签的图像数据的数量大于有类别标签的图像数据的数量，用C表示数据集中样本的类别数目；

步骤101，从每个视图的数据集中每次抽取一个批次的图像数据作为样本输入到编码器网络中进行特征提取，并投影到低维空间中，得到两个低维嵌入；

步骤102，在低维嵌入空间中对每个视图的样本计算两种对比损失；

步骤103，基于两个视图得到的输出，计算视图之间的一致性损失；对于步骤101中得到的有类别标签样本的特征表示，经过分类器后与样本的真实标签计算分类损失，再对不同视图产生的分类输出以及特征表示的低维嵌入分别计算相似度和一致性正则损失；将损失函数与步骤102中的对比损失结合起来，通过反向传播完成对编码器网络及分类器的迭代更新；

步骤104，对损失函数进行加权求和，通过梯度反向传播更新网络；

步骤105，训练结束进行预测时，将待预测类别的多视图图像分别输入到步骤101中的编码器网络中，得到的特征表示输入到步骤103中的分类器中，对预测结果取平均即可获得该多视图图像的预测类别。

2.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法，其特征在于，所述步骤101中，对来自第v个视图的训练数据集中的每个图像样本实施两种不同的图像增强，将增强后的图像输入到编码器网络中进行训练，获得该图像样本的不同增强的特征表示，得到的特征经过投影网络映射到一个低维空间中，得到两个低维嵌入，v∈V≡{1,2}。

3.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法，其特征在于，所述步骤102中，在低维嵌入空间中对每个视图的图像样本计算两种对比损失；对于每个图像样本，将其增强样本的低维嵌入作为正例，而与其他图像的增强得到的低维嵌入构成负例，运用实例级的自监督对比损失进行优化；此外，对于其中有类别标签的图像样本，与之具有同类标签的图像样本的低维嵌入构成正例，不同类别标签的构成负例，在类别层面上运用监督对比损失进行优化。

4.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法，其特征在于，所述步骤101包括：

步骤1011，对来自第v(v∈V≡{1,2})个视图的训练数据集中一个批次的图像样本