CN116977730A - 一种基于迁移学习的无监督低质量图像分类方法 - Google Patents
一种基于迁移学习的无监督低质量图像分类方法 Download PDFInfo
- Publication number
- CN116977730A CN116977730A CN202310943737.6A CN202310943737A CN116977730A CN 116977730 A CN116977730 A CN 116977730A CN 202310943737 A CN202310943737 A CN 202310943737A CN 116977730 A CN116977730 A CN 116977730A
- Authority
- CN
- China
- Prior art keywords
- unsupervised
- low
- image classification
- classification model
- quality image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013526 transfer learning Methods 0.000 title claims abstract description 13
- 238000013145 classification model Methods 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 101150041570 TOP1 gene Proteins 0.000 description 8
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于迁移学习的无监督低质量图像分类方法。该方法包括:将清晰图像输入无监督清晰图像分类模型,提取清晰图像的伪标签,得到训练好的无监督清晰图像分类模型;构建无监督低质量图像分类模型,使用特征一致性损失来约束无监督低质量图像分类模型的训练,得到训练好的无监督低质量图像分类模型;将待识别的低质量图像输入到所述训练好的无监督低质量图像分类模型,输出所述待识别的低质量图像的类别标签。本发明方法解决了低质量图像模糊不清晰且无类别标签的问题,引入了对称交叉熵损失函数,降低噪声标签对图像分类性能的影响,用清晰图像生成的伪标签来指导低质量图像分类,提升了低质量图像的分类性能。
Description
技术领域
本发明涉及图像分类技术领域,尤其涉及一种基于迁移学习的无监督低质量图像分类方法。
背景技术
随着图像数据集的不断增大和深度学习技术的不断发展,从AlexNet到SENet,每一种新型的神经网络结构都为图像分类任务带来了新的突破,也为深度学习的发展开辟了新的方向,在ImageNet等数据集上的分类性能显著提高。但是这些都是有监督的图像分类方法,需要有类别标签。有监督学习在许多领域中取得了显著成功,然而,由于有监督学习对手动标记的依赖,人们开始探索更好的解决方案。无监督学习因其在表示学习方面的快速发展而受到研究人员的广泛关注,被认为是一种有效的替代方法。无监督学习因不需要利用人为标签,可以省去大量的无意义的重复人工操作,并可以使用更大规模的无标签数据集进行训练。大量的无监督的图像分类方法被提出,但是大部分方法都是针对清晰图像的。然而,在许多实际应用中,比如无人驾驶和视频监控,获取的图像往往包含雾霾、模糊、噪声等降质。由于图像质量的下降,给图像分类工作带来了很多困难,导致图像分类性能下降。此外,对低质量图像标注类别标签费时费力,难以实现,使得图像分类比较困难。因此,如何提出有效的无监督的低质量图像分类方法非常重要。
低质量图像分类存在以下难点:低质量图像往往比较模糊、包含噪声等,导致分类性能较低;对低质量图像标注类别标签费时费力,难以实现,使得分类比较困难。
目前,现有技术中的基于无监督的低质量图像分类方法的缺点包括:现有的有监督图像分类方法需要有类别标签,但是标注类别标签费时费力。此外,现有的图像分类方法大都是针对清晰图像的,这些方法应用到低质量图像上时,分类准确率大幅下降。
发明内容
本发明的实施例提供了一种基于迁移学习的无监督低质量图像分类方法,以实现对低质量图像进行有效分类。
为了实现上述目的,本发明采取了如下技术方案。
一种基于迁移学习的无监督低质量图像分类方法,包括:
构建无监督清晰图像分类模型,将清晰图像输入所述无监督清晰图像分类模型,提取所述清晰图像的伪标签,利用对称交叉熵损失训练所述无监督清晰图像分类模型,得到训练好的无监督清晰图像分类模型;
基于所述训练好的无监督清晰图像分类模型构建无监督低质量图像分类模型,在清晰图像的伪标签与低质量图像的预测概率之间使用对称交叉熵损失来优化训练所述无监督低质量图像分类模型,使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,得到训练好的无监督低质量图像分类模型;
将待识别的低质量图像输入到所述训练好的无监督低质量图像分类模型,所述训练好的无监督低质量图像分类模型输出所述待识别的低质量图像的类别标签。
优选地,所述的构建无监督清晰图像分类模型,将清晰图像输入所述无监督清晰图像分类模型,提取所述清晰图像的伪标签,包括:
基于主干网络构建无监督清晰图像分类模型,所述主干网络的特征向量维度为(1,2048),在所述主干网络的后面添加一个投影层和一个原型层,将清晰图像输入所述无监督清晰图像分类模型,将清晰图像提取的特征通过k-means进行聚类并为每幅清晰图像分配一个聚类中心作为伪标签,从投影层提取出来的特征向量经过k-means聚类算法优化损失函数(1),得到k个类别的聚类中心,其中k为聚类数量,Ci表示第i个簇中的数据点集合,|·|是欧几里得距离,x表示特征向量;
聚类结束后,为每幅清晰图像分配距离自己欧氏距离最近的一个聚类中心的标号作为该清晰图像的伪标签。
优选地,所述的利用对称交叉熵损失训练所述无监督清晰图像分类模型,得到训练好的无监督清晰图像分类模型,包括:
利用对称交叉熵损失训练所述无监督清晰图像分类模型,对称交叉熵损失的计算方法如公式(2)所示:
其中,p和q是两个概率分布,n是分布的类别数,参数α是一个介于0和1之间的权重系数,用于平衡正样本和负样本的影响;
通过所述对称交叉熵损失更新无监督清晰图像分类模型中的主干神经网络和投影层,得到预训练好的无监督清晰图像分类模型。
优选地,所述的基于所述训练好的无监督清晰图像分类模型构建无监督低质量图像分类模型,在清晰图像的伪标签与低质量图像的预测概率之间使用对称交叉熵损失来优化训练所述无监督低质量图像分类模型,使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,得到训练好的无监督低质量图像分类模型,包括:
将训练好的无监督清晰图像分类模型去除原型层,留下原来的ResNet50主干网络和投影层,作为无监督低质量图像分类模型;
将清晰图像的聚类原型的值赋值给低质量图像卷积神经网络的原型层,通过在清晰图像中聚类出来的伪标签与经过低质图像卷积神经网络原型层输出的分类概率得到对称交叉熵损失,利用对称交叉熵损失进行无监督低质量图像分类模型的训练,实现无监督的低质量图像分类;
使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,特征一致性损失即为从清晰图像网络分支提取的特征和从低质图像网络分支提取的特征做均方误差损失,如公式(3)所示,其中,y表示真实值向量,表示模型预测值向量,n表示样本的数量;
将对称交叉熵损失与均方误差损失相加,得到最终的损失函数,如公式(4)所示:
p表示真实值的概率分布,q表示预测值的概率分布,y表示真实值向量,表示模型预测值向量;
通过优化所述最终的损失函数,以更新无监督低质量图像分类模型,得到训练好的无监督低质量图像分类模型。
由上述本发明的实施例提供的技术方案可以看出,本发明方法基于清晰图像预训练模型提取的特征,生成伪标签;然后,为了提升模型的鲁棒性,使用对称交叉熵损失训练模型;接着,利用清晰图像预训练模型得到的伪标签来指导低质量图像的分类;最后,为了使清晰图像学习到的特征信息来指导低质量图像的特征,使用特征一致性损失来约束网络的训练。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于迁移学习的无监督低质量图像分类方法的实现原理图;
图2为本发明实施例提供的一种基于迁移学习的无监督低质量图像分类方法的处理流程图;
图3为本发明实施例提供的一种基于聚类的伪标签生成方法的实现原理图;
图4为本发明实施例提供的一种清晰图像与低质图像的样例图;
图5为本发明实施例提供的一种损失值随epoch的变化示意图;
图6为本发明实施例提供的一种top1分类准确率随聚类数量k的变化结果示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
针对低质量图像模糊且无类别标签的问题,本发明提出了一种基于迁移学习的无监督低质量图像分类方法。首先,该方法基于清晰图像预训练模型提取的特征,生成聚类原型(伪标签);然后,由于生成的伪标签包含噪声标签,噪声标签对分类性能影响较大,因此为了提升模型的鲁棒性,使用对称交叉熵损失训练模型;接着,利用清晰图像预训练模型得到的伪标签来指导低质量图像的分类,即通过基于清晰图像聚类得到的伪标签与低质量图像生成的预测概率之间使用对称交叉熵损失来优化网络;最后,为了使清晰图像学习到的特征信息来指导低质量图像的特征,使用特征一致性损失来约束网络的训练,图像分类性能进一步提升。实验结果验证了所提方法的有效性。
本发明实施例提供的一种基于迁移学习的无监督低质量图像分类方法的实现原理图如图1所示,具体处理流程如图2所示,包括如下的处理步骤:
步骤S10:构建无监督清晰图像分类模型,将清晰图像输入所述无监督清晰图像分类模型,提取所述清晰图像的伪标签,利用对称交叉熵损失(Symmetric Cross Entropy,SCE)来训练所述无监督清晰图像分类模型,得到训练好的无监督清晰图像分类模型。
步骤S20:基于所述训练好的无监督清晰图像分类模型构建无监督低质量图像分类模型,在清晰图像的伪标签与低质量图像的预测概率之间使用对称交叉熵损失来优化训练所述无监督低质量图像分类模型,使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,得到训练好的无监督低质量图像分类模型。
步骤S30:将待识别的低质量图像输入到上述训练好的无监督低质量图像分类模型,训练好的无监督低质量图像分类模型输出待识别的低质量图像的类别标签。
具体的,上述步骤S10包括:本发明实施例提供的一种基于聚类的伪标签生成方法的实现原理如图3所示。针对低质量图像无类别标签的问题,引入了一种基于聚类的伪标签生成方法,如图3所示。将清晰图像输入到主干网络比如ResNet50中,此时最后一层全连接层输出的特征向量维度为(1,2048),然后在后面添加一个投影层(Projection Head)和一个原型层(Prototypes),假设所需要的特征向量维度为feat_dim,那么投影层会将(1,2048)的一维向量降维到(1,feat_dim),使从投影层提取出来的特征向量维度减少,便于聚类计算。从投影层提取出来的特征向量经过k-means聚类算法优化损失函数(1),得到k个类别的聚类中心。其中k为聚类数量,Ci表示第i个簇中的数据点集合,|·|是欧几里得距离(也称L2距离),x表示特征向量。
聚类结束后,为每幅图像分配距离自己欧氏距离最近的一个聚类中心的标号作为该图像的伪标签。然后直接将k个聚类中心(也称为原型)的值直接复制到原型层的权重之中。
但是,由聚类得到的伪标签与真实标签之间存在着一定的差异,即获得的伪标签会存在噪声标签。为了解决交叉熵损失(Cross Entropy)在存在噪声标签的情况下欠拟合和过拟合的问题,用对称交叉熵损失(Symmetric Cross Entropy,SCE)来替代交叉熵损失对模型进行训练。SCE损失可以提高模型的鲁棒性,使得模型更加稳定和可靠,让模型对噪声标签具有较好的容错能力。SCE如公式(2)所示,其中,p和q是两个概率分布,n是分布的类别数。参数α是一个介于0和1之间的权重系数,用于平衡正样本和负样本的影响。
那么由原型层得到的特征向量经过原型层生成一个(1,k)的向量,再让其与和它对应的伪标签计算SCE损失。最后通过优化损失函数,更新主干神经网络和投影层,得到预训练好的无监督清晰图像分类模型。进而获得质量较高的伪标签,作为监督信息来训练无监督低质量图像分类模型。
具体的,上述步骤S20包括:本发明方法利用清晰图像生成的伪标签指导无监督低质量图像分类。将预训练好的无监督清晰图像分类模型去除原型层,留下原来的ResNet50主干网络和投影层,作为无监督低质量图像分类模型;将清晰图像提取的特征通过k-means进行聚类并为每幅图像分配一个聚类中心(即聚类原型)作为伪标签,同时将聚类原型的值直接赋值给低质量图像卷积神经网络的原型层,并通过在清晰图像中聚类出来的伪标签与经过低质图像卷积神经网络原型层输出的分类概率得到对称交叉熵损失(SCE Loss),来进行无监督低质量图像分类模型的训练,进而实现无监督的低质量图像分类。
其次,为了进一步提高低质量图像的分类性能,使用清晰图像学习到的特征信息来指导低质量图像的特征。为此,使用特征一致性损失来约束无监督低质量图像分类模型的训练,使得无监督低质量图像分类模型学习到更加有判别力的特征。特征一致性损失即为从清晰图像网络分支提取的特征和从低质图像网络分支提取的特征做均方误差(MeanSquared Error,MSE)损失,如公式(3)所示,其中,y表示真实值向量,表示模型预测值向量,n表示样本的数量。
最后,将SCE损失与MSE损失相加,得到最终的损失函数,如公式(4)所示。其中p表示真实值的概率分布,q表示预测值的概率分布,y表示真实值向量,表示模型预测值向量。通过优化此损失函数,以更新无监督低质量图像分类模型。
本实验环境配置如下:(1)硬件:CPU为Intel(R)Core(TM)i7-9750H,GPU为NVIDIAGeForce GTX 1660Ti。(2)操作系统:使用的是Linux的Ubuntu操作系统。(3)开发环境:使用Python 3.6编程语言,搭配PyTorch框架和PyCharm IDE进行开发。
实验数据集和评价指标:本实验基于CIFAR-10与CIFAR-100数据集合成低质量图像分类数据集,通过先添加高斯噪声(均值μ=0,标准差σ=10),再添加高斯模糊(模糊半径=5)来合成低质量图像,一些样例如图4所示,其中第一行为清晰图像,第二行为低质量图像。
本发明利用线性分类评估模型进行评估,该模型将冻结预训练模型的所有权重,只在卷积神经网络上添加一个线性分类层,然后只对该线性分类层进行微调。这样就可以通过top1分类准确率来评估模型的性能,top1分类准确率是指预测概率排名第一的类别的与实际结果相符的准确率,计算公式如公式(5)所示,其中R表示正确预测的样本数,N表示总共预测的样本数。
为了分析聚类数量参数对模型性能的影响,先在清晰图像数据集CIFAR-10上做了对聚类数量参数k的对比实验,分别对训练的轮次epoch∈{100,200,300,400}和聚类的数量k∈{10,30,100,300},进行了对比。图5为本发明实施例提供的一种k=100时损失值随epoch的变化示意图,由图5可知当epoch在400附近时,loss曲线下降的幅度逐渐趋于平缓,于是可选取epoch=400作为每个模型训练的总轮次以达到近似的最高性能。
当epoch=400时,在CIFAR-10数据集上的top1分类准确率随聚类数量k变化的曲线图如图6所示。由图6可以看出,让聚类数量k取10并没有让模型的性能达到最好,而如果适当地增大k的数量,反而有利于卷积神经网络学习到更好的特征表达,从而提高网络分类的准确率,k过大时,分类性能反而降低。
图6为本发明实施例提供的一种top1分类准确率随聚类数量k的变化结果示意图。在k=100,epoch=400时,分别使用交叉熵损失函数和对称交叉熵(SCE)损失函数时,清晰图像的top1分类准确率如表1所示,由该表可知,由于生成的伪标签存在较大的噪声,而使用SCE可以减少噪声带来的影响,从而使分类准确率提高。
表1在CIFAR-10数据集上,使用不同交叉熵损失函数时的top1分类准确率
由对聚类数量k和训练轮次epoch的讨论可知,当k=100、epoch=400时在清晰图像上的训练和评估可以近似得到清晰图像分类的最佳性能,于是在无监督低质量图像分类的网络框架中设置同样的参数。在数据集CIFAR-10和CIFAR-100上,分别与基准方法进行对比,并进行了消融实验,实验结果如表2所示。其中PL表示基于伪标签(Pseudo Label)的迁移学习,是指用清晰图像得到的伪标签来指导低质量图像进行分类;SCE表示用对称交叉熵损失(Symmetric Cross Entropy)代替交叉熵损失;FCL表示特征一致性损失(FeatureConsistency Loss),即为从清晰图像网络分支提取的特征和从低质量图像网络分支提取的特征做均方误差(Mean Squared Error,MSE)损失。
·DeepCluster-v2—原始的DeepCluster-v2,直接在低质量图像上分类;
·DeepCluster-v2(SCE)—把DeepCluster-v2中的交叉熵损失函数(CE)替换为对称交叉熵损失函数(SCE),在低质量图像上分类;
·Ours:PL—基于伪标签(Pseudo Label)的迁移学习,是指用清晰图像得到的伪标签来指导低质量图像进行分类;;
·Ours:PL-SCE—基于伪标签和对称交叉熵损失的无监督低质量图像分类;
·Ours:PL-FCL—基于伪标签和特征一致性损失的无监督低质量图像分类;
·Ours:PL-SCE-FCL—基于伪标签、对称交叉熵损失和特征一致性损失的无监督低质量图像分类。
表2在基于CIFAR-10和CIFAR-100合成的低质量图像上使用不同无监督分类方法的top1分类准确率
由表2可以看出,使用DeepCluster-v2在基于CIFAR-10合成的低质量图像上的分类准确率只有60.05,相较于清晰图像上的分类准确率75.39,可以得出在同样的参数情况下,低质量图像分类准确率比清晰图像分类准确率要低。而在用清晰图像来生成伪标签并指导低质量图像进行分类的情况下,即“Ours:PL”,分类准确率提高到65.83;再用对称交叉熵损失代替交叉熵损失后,即“Ours:PL-SCE”,分类准确率可以达到72.13;加上特征一致性损失,即“Ours:PL-SCE-FCL”,图像分类性能进一步提升。在CIFAR-100数据集上也有类似的结果。实验结果表明本发明所提方法的分类准确率高于基准方法,同时也证明了所提方法中每个部件的有效性。
本发明用的主干网络结构是ResNet50,此部分可以替换为其他网络结构,比如VGGNet、ResNet101、DenseNet等等;聚类算法用的是k-mean算法,可以替换为其他聚类算法。
综上所述,本发明实施例提出了一种基于迁移学习的无监督低质量图像分类方法,解决了低质量图像模糊不清晰且无类别标签的问题;本发明引入了对称交叉熵损失函数,可以提升模型的鲁棒性,降低噪声标签对图像分类性能的影响;本发明用清晰图像生成的伪标签来指导低质量图像分类,提升了低质量图像的分类性能;本发明引入特征一致性损失来约束低质量图像分类网络的训练,进一步提升了低质量图像的分类性能;本发明在低质量图像分类任务中取得了有竞争力的结果。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于迁移学习的无监督低质量图像分类方法,其特征在于,包括:
构建无监督清晰图像分类模型,将清晰图像输入所述无监督清晰图像分类模型,提取所述清晰图像的伪标签,利用对称交叉熵损失训练所述无监督清晰图像分类模型,得到训练好的无监督清晰图像分类模型;
基于所述训练好的无监督清晰图像分类模型构建无监督低质量图像分类模型,在清晰图像的伪标签与低质量图像的预测概率之间使用对称交叉熵损失来优化训练所述无监督低质量图像分类模型,使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,得到训练好的无监督低质量图像分类模型;
将待识别的低质量图像输入到所述训练好的无监督低质量图像分类模型,所述训练好的无监督低质量图像分类模型输出所述待识别的低质量图像的类别标签。
2.根据权利要求1所述的方法,其特征在于,所述的构建无监督清晰图像分类模型,将清晰图像输入所述无监督清晰图像分类模型,提取所述清晰图像的伪标签,包括:
基于主干网络构建无监督清晰图像分类模型,所述主干网络的特征向量维度为(1,2048),在所述主干网络的后面添加一个投影层和一个原型层,将清晰图像输入所述无监督清晰图像分类模型,将清晰图像提取的特征通过k-means进行聚类并为每幅清晰图像分配一个聚类中心作为伪标签,从投影层提取出来的特征向量经过k-means聚类算法优化损失函数(1),得到k个类别的聚类中心,其中k为聚类数量,Ci表示第i个簇中的数据点集合,|·|是欧几里得距离,x表示特征向量;
聚类结束后,为每幅清晰图像分配距离自己欧氏距离最近的一个聚类中心的标号作为该清晰图像的伪标签。
3.根据权利要求2所述的方法,其特征在于,所述的利用对称交叉熵损失训练所述无监督清晰图像分类模型,得到训练好的无监督清晰图像分类模型,包括:
利用对称交叉熵损失训练所述无监督清晰图像分类模型,对称交叉熵损失的计算方法如公式(2)所示:
其中,p和q是两个概率分布,n是分布的类别数,参数α是一个介于0和1之间的权重系数,用于平衡正样本和负样本的影响;
通过所述对称交叉熵损失更新无监督清晰图像分类模型中的主干神经网络和投影层,得到预训练好的无监督清晰图像分类模型。
4.根据权利要求2或者3所述的方法,其特征在于,所述的基于所述训练好的无监督清晰图像分类模型构建无监督低质量图像分类模型,在清晰图像的伪标签与低质量图像的预测概率之间使用对称交叉熵损失来优化训练所述无监督低质量图像分类模型,使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,得到训练好的无监督低质量图像分类模型,包括:
将训练好的无监督清晰图像分类模型去除原型层,留下原来的ResNet50主干网络和投影层,作为无监督低质量图像分类模型;
将清晰图像的聚类原型的值赋值给低质量图像卷积神经网络的原型层,通过在清晰图像中聚类出来的伪标签与经过低质图像卷积神经网络原型层输出的分类概率得到对称交叉熵损失,利用对称交叉熵损失进行无监督低质量图像分类模型的训练,实现无监督的低质量图像分类;
使用特征一致性损失来约束所述无监督低质量图像分类模型的训练,特征一致性损失即为从清晰图像网络分支提取的特征和从低质图像网络分支提取的特征做均方误差损失,如公式(3)所示,其中,y表示真实值向量,表示模型预测值向量,n表示样本的数量;
将对称交叉熵损失与均方误差损失相加,得到最终的损失函数,如公式(4)所示:
p表示真实值的概率分布,q表示预测值的概率分布,y表示真实值向量,表示模型预测值向量;
通过优化所述最终的损失函数,以更新无监督低质量图像分类模型,得到训练好的无监督低质量图像分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310943737.6A CN116977730A (zh) | 2023-07-28 | 2023-07-28 | 一种基于迁移学习的无监督低质量图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310943737.6A CN116977730A (zh) | 2023-07-28 | 2023-07-28 | 一种基于迁移学习的无监督低质量图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977730A true CN116977730A (zh) | 2023-10-31 |
Family
ID=88470852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310943737.6A Pending CN116977730A (zh) | 2023-07-28 | 2023-07-28 | 一种基于迁移学习的无监督低质量图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977730A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218452A (zh) * | 2023-11-02 | 2023-12-12 | 临沂市兰山区自然资源开发服务中心 | 一种土地图像自动分类管理系统 |
CN117523212A (zh) * | 2023-11-09 | 2024-02-06 | 广州航海学院 | 用于车辆款式图像数据的标签噪声识别方法、系统及设备 |
-
2023
- 2023-07-28 CN CN202310943737.6A patent/CN116977730A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218452A (zh) * | 2023-11-02 | 2023-12-12 | 临沂市兰山区自然资源开发服务中心 | 一种土地图像自动分类管理系统 |
CN117218452B (zh) * | 2023-11-02 | 2024-02-06 | 临沂市兰山区自然资源开发服务中心 | 一种土地图像自动分类管理系统 |
CN117523212A (zh) * | 2023-11-09 | 2024-02-06 | 广州航海学院 | 用于车辆款式图像数据的标签噪声识别方法、系统及设备 |
CN117523212B (zh) * | 2023-11-09 | 2024-04-26 | 广州航海学院 | 用于车辆款式图像数据的标签噪声识别方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689086B (zh) | 基于生成式对抗网络的半监督高分遥感图像场景分类方法 | |
CN110110080A (zh) | 文本分类模型训练方法、装置、计算机设备及存储介质 | |
CN116977730A (zh) | 一种基于迁移学习的无监督低质量图像分类方法 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
Kozlov et al. | Lightweight network architecture for real-time action recognition | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
Saadi et al. | Investigation of effectiveness of shuffled frog-leaping optimizer in training a convolution neural network | |
Ostyakov et al. | Label denoising with large ensembles of heterogeneous neural networks | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN110941734A (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN109522432B (zh) | 一种融合自适应相似度和贝叶斯框架的图像检索方法 | |
Wehenkel et al. | Diffusion priors in variational autoencoders | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
Kubo et al. | Compacting neural network classifiers via dropout training | |
Chen et al. | Sample balancing for deep learning-based visual recognition | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
CN114299326A (zh) | 一种基于转换网络与自监督的小样本分类方法 | |
CN116051924B (zh) | 一种图像对抗样本的分治防御方法 | |
Passalis et al. | Deep temporal logistic bag-of-features for forecasting high frequency limit order book time series | |
Li et al. | Platinum: Semi-supervised model agnostic meta-learning using submodular mutual information | |
Nguyen-Duc et al. | Particle-based Adversarial Local Distribution Regularization. | |
CN116451859A (zh) | 一种基于贝叶斯优化的生成对抗网络股票预测方法 | |
Wirayasa et al. | Comparison of Convolutional Neural Networks Model Using Different Optimizers for Image Classification | |
CN112733925A (zh) | 基于fpcc-gan的构建轻型图像分类网络的方法及系统 | |
Allawadi et al. | Multimedia data summarization using joint integer linear programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |