CN114898141A - 一种基于对比损失的多视图半监督图像分类方法 - Google Patents
一种基于对比损失的多视图半监督图像分类方法 Download PDFInfo
- Publication number
- CN114898141A CN114898141A CN202210350338.4A CN202210350338A CN114898141A CN 114898141 A CN114898141 A CN 114898141A CN 202210350338 A CN202210350338 A CN 202210350338A CN 114898141 A CN114898141 A CN 114898141A
- Authority
- CN
- China
- Prior art keywords
- image
- view
- loss
- contrast
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 4
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于对比损失的多视图半监督图像分类方法,在无标签数据上利用自监督对比损失,能够充分利用数据的潜在特征,同时基于监督对比损失,利用类别监督信息,并借助多视图的一致性对不同视图信息进行融合,实现了不需要借助伪标签提升模型在多视图分类任务上的精度。此方法针对半监督场景下的多视图图像分类任务,能够利用少量的标注信息并借助多视图之间的一致性提升分类性能,适用于解决缺乏数据标签信息的多视图图像分类任务。
Description
技术领域
本发明涉及一种多视图半监督图像分类方法,该方法引入对比损失,能够充分利用无标签数据提取数据特征及少量数据标签信息,并借助多视图的一致性提升分类性能,属于计算机人工智能图像分类技术领域。
背景技术
现实生活中,同一个事物可以从多种不同的途径或者不同的角度对其进行描述,例如,可以通过人脸图像、人眼虹膜、指纹信息等来判别不同的人,等等,不同来源的信息构成了事物的多个视图。对于实际应用中常见的图像数据,需要建立庞大的图像数据库并进行人工标注,但人工标注所需的成本高昂且效率低下。大数据时代,收集大规模数据并不困难,但收集到的数据往往缺乏标签信息,而为这些数据提供标记十分困难且耗时耗力。因此,实际应用中,常常面对大量数据不具有类别标签、仅有少量数据具有类别标签的半监督场景,传统的半监督学习方法大多应用在单视图数据上。现有方法例如协同训练是通过给无标签数据提供伪标签来进行训练的。然而这种依赖于伪标签的学习方法很容易带来噪声标记并造成大量重复的训练。
发明内容
发明目的:针对半监督场景下的多视图图像分类问题,本发明提出了一种新颖的基于对比损失的多视图半监督图像分类算法,该算法在无标签数据上通过图像增强构造正负例,并运用自监督对比损失,充分利用数据的潜在特征,同时基于少量的类别监督信息,利用监督对比损失帮助提升网络提取数据特征的能力,并借助多视图的一致性对不同视图信息进行融合,实现了不需要借助伪标签提升模型在多视图分类任务上的性能。此方法针对半监督场景下的多视图图像分类任务,能够利用少量的标注信息并借助多视图之间的一致性提升分类性能,适用于解决缺乏数据标签信息的多视图图像分类任务。
技术方案:一种基于对比损失的多视图半监督图像分类方法,在实例级和类别级上应用对比损失以提高网络对图像的表示能力,并借助多视图的一致性提升网络对多视图图像的分类性能,包括如下内容:
首先需要用户准备好一个多视图图像训练库,训练库需包含图像的两个视图,每个视图均由多数的无标签样本和少量的带有类别标签的样本构成。
接着,对每个视图的训练数据里的每个图像样本都实施两种不同的图像增强技术,于是每个图像样本经过增强均可以获得两个不同的增强图像。将得到的增强图像输入到编码器网络中进行训练,可以提取出增强图像的特征表示。由于一个图像样本能够产生两个不同的增强图像,因此经过编码器网络后可以对应得到两个不同的特征表示。
图像增强技术有多种,例如旋转、剪裁、遮盖、颜色畸变(包含亮度、对比度、饱和度、色调等一种或几种属性调整操作的集合)、加噪声等等,通常可以组合使用多种增强技术。
将经过编码器网络得到的特征表示作为输入传进投影网络中,可以将高维的特征映射到低维的投影空间中,以获得该特征在投影空间中的低维嵌入。然后,在低维嵌入空间中计算两种对比损失,即实例层面和类别层面的对比损失,并构成整个网络模型的损失函数的重要组成部分。
如何计算这两种对比损失,具体来说,对于每个图像样本的两个增强图像经过上述操作所得到的两个低维嵌入可以互相作为彼此的正例,而它们中任何一个与其他图像样本所产生的低维嵌入均构成负例,于是可以计算每个样本的实例级对比损失。在实例级对比损失中,对每个样本来说,其负例有多对,而正例只有一对。此外,对于图像样本中带有类别标签的样本,还可以根据它们的类别标签来构造正负例,即类别标签相同的样本对为正例,类别标签不同的样本对为负例,于是可以对每个有标签的样本计算类别层级上的对比损失。这里,对每个有标签样本来说,其正例和负例均可以有多对。
然后,将有标签样本经过编码器网络得到的特征传入到分类器中,得到类别预测并计算与真实标签的交叉熵损失。同时,这里经过分类器得到的softmax层输出之间利用交叉熵损失计算相似度。此外,可以利用范数来计算两个视图的样本的低维嵌入之间的相似度。上述所有损失函数加权求和,计算梯度并通过反向传播迭代更新整个网络模型。
网络训练好后进行预测,用户将待预测的多视图图像作为输入依次经过编码器网络和分类器,即可得到待测对象的预测类别。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于对比损失的多视图半监督图像分类方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于对比损失的多视图半监督图像分类方法的计算机程序。
有益效果:与现有的技术相比,本发明在多视图数据上运用半监督学习方法则还需要考虑视图之间的相关性,通过两种对比损失不仅从无标签数据中提取出数据的潜在特征,并能够充分利用少量类别监督信息来辅助网络的训练,同时利用多视图的一致性融合不同视图的信息,并成功避免引入标记噪声,最终取得了良好的分类效果。此外,本发明针对半监督场景下的多视图图像分类任务,适用于解决缺乏数据标签信息的多视图图像分类任务。
附图说明
图1是本发明实施例的方法原理图;
图2是本发明实施例的方法流程图;
图3是本发明实施例中多视图图像样本经过网络处理的流程图;
图4是本发明实施例中在低维空间计算对比损失的流程图;
图5是本发明实施例中计算两个视图的一致性损失流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于对比损失的多视图半监督图像分类方法,包括如下内容:
首先用户需准备好一个包含两个视图的多视图图像库,图像库需包含图像的两个视图,并且每个视图的数据集里均由多数无标签图像样本和一小部分的带有类别标签的图像样本构成。接着,将每个输入图像样本进行两种不同的图像增强,并输入到编码器网络中得到两个特征表示。将这些特征表示映射到低维投影空间中,并在该低维空间上计算两种对比损失。此外,将这些特征表示直接输入分类器进行类别预测,并计算其输出与真实标签之间的分类损失。考虑到多视图的一致性,还需要计算两个视图得到的分类预测之间的相似度,以及两个视图的特征对应的低维空间中的嵌入之间的相似度,将它们加入到网络整体的损失函数中。将上述损失函数加权求和,并通过梯度下降反向传播迭代地更新编码器网络和分类器。网络训练好后进行预测时,用户只需将待预测的多视图图像输入到编码器网络中,再将特征传入到分类器中,分类器就会给用户返回该待测对象的预测类别。
如图2所示,基于对比损失的多视图半监督图像分类方法的流程为:
步骤100,建立一个多视图图像库作为训练数据集所包含的样本总数为N。多视图图像库需包含两个视图的数据集,每个视图的训练集里均由多数无标签数据样本和少量的带有类别标签的数据样本构成,分别记作 其中是样本的真实类别标签的one-hot向量,当样本所属类别为c∈{0,…,C-1}时否则待预测类别的多视图图像数据集记作
步骤101,从每个视图的训练集中每次抽取一个批次的样本输入到网络中提取特征,并投影到低维空间中,具体步骤为:
步骤102,在低维嵌入空间中计算两种对比损失,其具体步骤为:
步骤1021,对每个视图的每个训练样本得到的低维嵌入上计算实例级对比损失。在大小为b的一个批次的训练数据中,对于任一个输入图像样本的两个增强图像和它们经过编码器网络和投影网络后得到相应的低维嵌入和将其中一个增强图像的低维嵌入作为锚点,则该图像样本的另一个增强图像的低维嵌入与之构成正例批次里其他图像样本产生的低维嵌入与之构成负例 于是得到实例层面的对比损失:
其中,i∈I≡{1,…,b},M={1,…,2b},A(i)≡M\{i},τ1是温度参数。这里,在一个批次中,有一个正例,2b-2个负例。
步骤1022,在有标签图像样本得到的低维嵌入上再计算类别级对比损失。对于取自有标签数据集的输入图像样本其中是样本的真实类别标签的one-hot向量,当样本所属类别为c∈{0,…,C-1}时否则 将具有相同类别标签的图像样本产生的低维嵌入 作为正例(正例可能有多个),而负例就包括不同类别的图像样本的嵌入以及无标签样本的嵌入(负例也有多个),于是,在类别层面上引入对比损失,也即监督对比损失函数:
步骤103,基于两个视图得到的输出,计算视图之间的一致性损失,其具体步骤为:
步骤1032,对于一个批次中来自第v(v∈V≡{1,2})个视图的带有标签的图像样本其中是样本的真实类别标签的one-hot向量,当样本所属类别为c∈{0,…,C-1}时否则它的两种增强经过编码器网络后可获得特征表示再将特征表示输入到分类器hv(·)中可以得到softmax层输出
步骤104,对上述损失函数进行加权求和,通过梯度反向传播更新网络。具体地,将步骤1031中的一致性正则损失步骤1032中的相似度损失分类损失以及步骤1021-1022中的两个对比损失和进行加权求和,得到
再经过反向传播对编码器网络及分类器进行迭代更新。其中,λ1,λ2,λ3,λ4,λ5为权重参数。
步骤105,训练结束预测阶段,将待预测类别的多视图图像分别输入到步骤101中的编码器网络f1和f2中,得到的特征表示再分别输入到步骤103中的分类器h1和h2中,可得两个分类预测和取平均得即为该多视图图像的预测类别。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于对比损失的多视图半监督图像分方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (10)
1.一种基于对比损失的多视图半监督图像分类方法,其特征在于,包括如下步骤:
步骤100,建立一个多视图图像库作为训练数据集,多视图图像库包含两个视图的数据集,每个视图的数据集里包括无类别标签的图像数据和有类别标签的图像数据,其中无类别标签的图像数据的数量大于有类别标签的图像数据的数量,用C表示数据集中样本的类别数目;
步骤101,从每个视图的数据集中每次抽取一个批次的图像数据作为样本输入到编码器网络中进行特征提取,并投影到低维空间中,得到两个低维嵌入;
步骤102,在低维嵌入空间中对每个视图的样本计算两种对比损失;
步骤103,基于两个视图得到的输出,计算视图之间的一致性损失;对于步骤101中得到的有类别标签样本的特征表示,经过分类器后与样本的真实标签计算分类损失,再对不同视图产生的分类输出以及特征表示的低维嵌入分别计算相似度和一致性正则损失;将损失函数与步骤102中的对比损失结合起来,通过反向传播完成对编码器网络及分类器的迭代更新;
步骤104,对损失函数进行加权求和,通过梯度反向传播更新网络;
步骤105,训练结束进行预测时,将待预测类别的多视图图像分别输入到步骤101中的编码器网络中,得到的特征表示输入到步骤103中的分类器中,对预测结果取平均即可获得该多视图图像的预测类别。
2.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法,其特征在于,所述步骤101中,对来自第v个视图的训练数据集中的每个图像样本实施两种不同的图像增强,将增强后的图像输入到编码器网络中进行训练,获得该图像样本的不同增强的特征表示,得到的特征经过投影网络映射到一个低维空间中,得到两个低维嵌入,v∈V≡{1,2}。
3.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法,其特征在于,所述步骤102中,在低维嵌入空间中对每个视图的图像样本计算两种对比损失;对于每个图像样本,将其增强样本的低维嵌入作为正例,而与其他图像的增强得到的低维嵌入构成负例,运用实例级的自监督对比损失进行优化;此外,对于其中有类别标签的图像样本,与之具有同类标签的图像样本的低维嵌入构成正例,不同类别标签的构成负例,在类别层面上运用监督对比损失进行优化。
5.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法,其特征在于,所述步骤102包括:
步骤1021,在每个视图经过投影网络得到的低维嵌入上计算实例级对比损失;在大小为b的一个批次的训练数据中,对于任一个输入图像样本的两个增强图像和它们经过编码器网络和投影网络后得到相应的低维嵌入和将其中一个增强图像的低维嵌入作为锚点,则该图像样本的另一个增强图像的低维嵌入与之构成正例批次里其他图像样本产生的低维嵌入与之构成负例(j≠i;j,i∈{1,…,b}),于是得到实例层面的对比损失:
其中,i∈I≡{1,…,b},M={1,…,2b},A(i)≡M\{i},τ1是温度参数;在实例级对比损失函数中,一个批次里,有一个正例,2b-2个负例;
步骤1022,在有标签图像样本得到的低维嵌入上再计算类别级对比损失;对于取自有类别标签数据集的输入图像样本其中是样本的真实类别标签的one-hot向量,当样本所属类别为c∈{0,…,C-1}时否则 将具有相同类别标签的图像样本产生的低维嵌入 作为正例,而负例就包括不同类别的图像样本的嵌入以及无标签样本的嵌入,于是,在类别层面上引入对比损失,也即监督对比损失函数:
6.根据权利要求1所述的基于对比损失的多视图半监督图像分类方法,其特征在于,所述步骤103包括:
步骤1032,对于一个批次中来自第v(v∈V≡{1,2})个视图的带有标签的图像样本其中是样本的真实类别标签的one-hot向量,它的两种增强经过编码器网络后可获得特征表示再将特征表示输入到分类器hv(·)中可以得到softmax层输出
于是,用如下公式计算该图像样本的分类损失:
接下来,利用交叉熵损失对两个视图的softmax层输出计算一下相似度:
9.一种计算机设备,其特征在于,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8任意一项所述的基于对比损失的多视图半监督图像分类方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有执行如权利要求1-8任意一项所述的基于对比损失的多视图半监督图像分类方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210350338.4A CN114898141A (zh) | 2022-04-02 | 2022-04-02 | 一种基于对比损失的多视图半监督图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210350338.4A CN114898141A (zh) | 2022-04-02 | 2022-04-02 | 一种基于对比损失的多视图半监督图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898141A true CN114898141A (zh) | 2022-08-12 |
Family
ID=82715346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210350338.4A Pending CN114898141A (zh) | 2022-04-02 | 2022-04-02 | 一种基于对比损失的多视图半监督图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898141A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471717A (zh) * | 2022-09-20 | 2022-12-13 | 北京百度网讯科技有限公司 | 模型的半监督训练、分类方法装置、设备、介质及产品 |
CN115496955A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 图像分类模型训练方法、图像分类方法、设备和介质 |
CN117611867A (zh) * | 2023-10-12 | 2024-02-27 | 北京邮电大学 | 多视图分类方法及相关设备 |
-
2022
- 2022-04-02 CN CN202210350338.4A patent/CN114898141A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471717A (zh) * | 2022-09-20 | 2022-12-13 | 北京百度网讯科技有限公司 | 模型的半监督训练、分类方法装置、设备、介质及产品 |
CN115496955A (zh) * | 2022-11-18 | 2022-12-20 | 之江实验室 | 图像分类模型训练方法、图像分类方法、设备和介质 |
CN115496955B (zh) * | 2022-11-18 | 2023-03-24 | 之江实验室 | 图像分类模型训练方法、图像分类方法、设备和介质 |
CN117611867A (zh) * | 2023-10-12 | 2024-02-27 | 北京邮电大学 | 多视图分类方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9558268B2 (en) | Method for semantically labeling an image of a scene using recursive context propagation | |
CN114898141A (zh) | 一种基于对比损失的多视图半监督图像分类方法 | |
Santa Cruz et al. | Visual permutation learning | |
CN111582409B (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
Tan et al. | Photograph aesthetical evaluation and classification with deep convolutional neural networks | |
Wu et al. | Ordered subspace clustering with block-diagonal priors | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
Sahbi | Imageclef annotation with explicit context-aware kernel maps | |
Yang et al. | Local label descriptor for example based semantic image labeling | |
Wang et al. | CLARE: A joint approach to label classification and tag recommendation | |
Ji et al. | Colorformer: Image colorization via color memory assisted hybrid-attention transformer | |
CN112712127A (zh) | 一种结合图卷积神经网络的图像情感极性分类方法 | |
Xia et al. | Weakly supervised multimodal kernel for categorizing aerial photographs | |
Guo et al. | Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds | |
CN111126464A (zh) | 一种基于无监督域对抗领域适应的图像分类方法 | |
Moghaddam et al. | Jointly human semantic parsing and attribute recognition with feature pyramid structure in EfficientNets | |
CN114299342B (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 | |
CN113920127B (zh) | 一种训练数据集独立的单样本图像分割方法和系统 | |
Thepade et al. | Identification of aerial image land use using fused thepade sbtc and adaptive thresholding with machinelearning ensemble | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN112801153B (zh) | 一种嵌入lbp特征的图的半监督图像分类方法及系统 | |
Zhang et al. | Multiclass labeling of very high-resolution remote sensing imagery by enforcing nonlocal shared constraints in multilevel conditional random fields model | |
CN114398980A (zh) | 跨模态哈希模型的训练方法、编码方法、装置及电子设备 | |
Patil et al. | Video content classification using deep learning | |
CN114329065A (zh) | 视频标签预测模型的处理方法、视频标签预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |