CN115908984A - 图像聚类模型的训练方法及装置 - Google Patents

图像聚类模型的训练方法及装置 Download PDF

Info

Publication number
CN115908984A
CN115908984A CN202211627126.2A CN202211627126A CN115908984A CN 115908984 A CN115908984 A CN 115908984A CN 202211627126 A CN202211627126 A CN 202211627126A CN 115908984 A CN115908984 A CN 115908984A
Authority
CN
China
Prior art keywords
image
clustering
sample
encoder
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211627126.2A
Other languages
English (en)
Other versions
CN115908984B (zh
Inventor
王超
陈�光
田丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking IT Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202211627126.2A priority Critical patent/CN115908984B/zh
Publication of CN115908984A publication Critical patent/CN115908984A/zh
Application granted granted Critical
Publication of CN115908984B publication Critical patent/CN115908984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种图像聚类模型的训练方法及装置,属于机器学习领域。该方法包括:在图像聚类模型的预训练阶段,将原始图像对应的噪声图像和干净图像分别输入至第一编码器和第二编码器,获得第一解码器输出的还原图像,构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数;在图像聚类模型的聚类训练阶段的聚类阶段,将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至预训练阶段训练结束后的图像聚类模型,确定高置信样本集;在聚类训练阶段的微调阶段,将高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至图像聚类模型,构建实例‑原型级对比损失函数,得到训练完成的图像聚类模型。

Description

图像聚类模型的训练方法及装置
技术领域
本申请属于机器学习领域,尤其涉及一种图像聚类模型的训练方法及装置。
背景技术
随着时代的发展和生产生活中对信息安全的需求日益提高,基于常见的生物特征如人脸、指静脉、掌静脉、虹膜等的识别技术逐渐成为研究热点,对这些常见的生物特征的识别则需要一种高效的聚类模型对其进行数据处理。
在处理图像聚类任务的问题上,传统的深度聚类算法是先通过无监督神经网络去学习从数据原始空间到低维空间的非线性映射,然后直接或间接的使用经典聚类算法将提取的特征划分为聚簇,这种做法在面临一些比较复杂的数据集时聚类效率差,鲁棒性低。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种图像聚类模型的训练方法及装置,提升了模型的图像聚类效率和鲁棒性。
第一方面,本申请提供了一种图像聚类模型的训练方法,该方法包括:在所述图像聚类模型的预训练阶段,将原始图像对应的噪声图像和干净图像分别输入至所述第一编码器和所述第二编码器,获得所述第一解码器输出的还原图像;
基于所述噪声图像、所述干净图像和所述还原图像,构建去噪重构误差损失函数和对比损失函数,更新所述图像聚类模型的模型参数;
在所述图像聚类模型的聚类训练阶段的聚类阶段,将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至所述预训练阶段训练结束后的所述图像聚类模型,获得所述图像聚类模型输出的第一图像特征和第二图像特征,并基于所述第一图像特征和所述第二图像特征,确定高置信样本集;
在所述聚类训练阶段的微调阶段,将所述高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至所述图像聚类模型,获得所述图像聚类模型输出的第三图像特征和第四图像特征;
基于所述第三图像特征和所述第四图像特征,构建实例-原型级对比损失函数,更新所述图像聚类模型的模型参数,得到训练完成的所述图像聚类模型。
根据本申请的图像聚类模型的训练方法,通过原始图像、噪声图像和干净图像构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数,进一步构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到具有高效率,高鲁棒性和高抗干扰性的图像聚类模型。
根据本申请的一个实施例,所述将原始图像对应的噪声图像和干净图像分别输入至所述第一编码器和所述第二编码器,获得所述第一解码器输出的还原图像,包括:
将所述噪声图像输入至所述第一编码器,获得所述第一编码器输出的第一嵌入特征;
将所述干净图像输入值所述第二编码器,获得所述第二编码器输出的第二嵌入特征;
将所述第一嵌入特征输入至所述第一解码器,获得所述第一解码器输出的所述还原图像;
所述基于所述噪声图像、所述干净图像和所述还原图像,构建去噪重构误差损失函数和对比损失函数,包括:
基于所述干净图像和所述还原图像,确定所述去噪重构误差损失函数;
基于所述第一嵌入特征和所述第二嵌入特征,确定所述对比损失函数。
根据本申请的一个实施例,应用公式
Figure SMS_1
确定所述去噪重构误差损失函数;
其中,
Figure SMS_2
为第i个所述干净图像,
Figure SMS_3
为第i个所述噪声图像经过所述第一编码器和所述第一解码器输出的所述还原图像,Lrec为所述去噪重构误差损失函数,N为所述预训练阶段中所述干净图像的总个数,
Figure SMS_4
为L2范数的平方;
应用公式
Figure SMS_5
确定所述对比损失函数;
其中,a上标和b上标分别为不同组合顺序的数据增强,
Figure SMS_6
为第i个所述干净图像对应的对比损失函数,
Figure SMS_7
为第i个所述噪声图像对应的对比损失函数;
Figure SMS_8
Figure SMS_9
其中,τI为温度参数,s(·)为余弦相似度,
Figure SMS_10
为经过所述第一编码器得到的所述第一嵌入特征,
Figure SMS_11
为经过所述第二编码器得到的所述第二嵌入特征。
根据本申请的一个实施例,所述第一编码器包括依次连接的卷积模块、三个带有残差结构的深度可分离卷积模块、两个不执行下采样操作的卷积模块以及残差卷积模块,所述第二编码器与所述第一编码器结构相同;
所述第一解码器包括依次连接的线性层、五个转置卷积子模块和卷积层。
根据本申请的一个实施例,所述基于所述第一图像特征和所述第二图像特征,确定高置信样本集,包括:
对所述第一图像特征进行聚类处理,确定所述图像数据集的第一聚类中心、第一样本伪标签及每个样本与所述第一聚类中心的第一距离;
对所述第二图像特征进行聚类处理,确定所述图像数据集的第二聚类中心、第二样本伪标签及每个样本与所述第二聚类中心的第二距离;
确定所述图像数据集的可信样本阈值;
基于所述第一距离、所述第二距离和所述可信样本阈值,从所述图像数据集中确定出所述高置信样本集。
根据本申请的一个实施例,应用公式
Figure SMS_12
确定所述可信样本阈值;
其中,λ为所述可信样本阈值,t为所述图像聚类模型的训练方法的当前迭代轮次,T为所述图像聚类模型的训练方法总迭代次数,Dt为所述图像聚类模型的训练方法在当前迭代轮次下的样本到聚类中心的距离,μ(·)为平均函数,σ(·)为方差函数。
根据本申请的一个实施例,所述基于所述第三图像特征和所述第四图像特征,构建实例-原型级对比损失函数,包括:
对所述第三图像特征和所述第四图像特征分别进行聚类处理,确定所述第三样本图像在所述第四样本图像中对应的样本伪标签和聚类中心,构建所述实例-原型级对比损失函数。
根据本申请的一个实施例,应用公式
Figure SMS_13
确定所述实例-原型级对比损失函数;
其中,
Figure SMS_14
为所述第三图像特征经过数据增强a和聚类后的实例-聚类级对比损失函数,
Figure SMS_15
为所述第四图像特征经过数据增强b和聚类后的实例-聚类级对比损失函数。
根据本申请的一个实施例,所述构建实例-原型级对比损失函数,更新所述图像聚类模型的模型参数,包括:
根据后向传播算法和随机梯度下降优化算法最小化所述实例-原型级对比损失函数,更新所述图像聚类模型的模型参数。
第二方面,本申请提供了一种图像聚类模型的训练装置,
图像聚类模型包括第一编码器、第二编码器和第一解码器,所述第一编码器与所述第一解码器相连,所述装置包括:
第一处理模块,用于在所述图像聚类模型的预训练阶段,将原始图像对应的噪声图像和干净图像分别输入至所述第一编码器和所述第二编码器,获得所述第一解码器输出的还原图像;
第二处理模块,用于基于所述噪声图像、所述干净图像和所述还原图像,构建去噪重构误差损失函数和对比损失函数,更新所述图像聚类模型的模型参数;
第三处理模块,用于在所述图像聚类模型的聚类训练阶段的聚类阶段,将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至所述预训练阶段训练结束后的所述图像聚类模型,获得所述图像聚类模型输出的第一图像特征和第二图像特征,并基于所述第一图像特征和所述第二图像特征,确定高置信样本集;
第四处理模块,用于在所述聚类训练阶段的微调阶段,将所述高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至所述图像聚类模型,获得所述图像聚类模型输出的第三图像特征和第四图像特征;
第五处理模块,用于基于所述第三图像特征和所述第四图像特征,构建实例-原型级对比损失函数,更新所述图像聚类模型的模型参数,得到训练完成的所述图像聚类模型。
根据本申请的图像聚类模型的训练装置,通过原始图像、噪声图像和干净图像构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数,进一步构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到具有高效率,高鲁棒性和高抗干扰性的图像聚类模型。
第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的图像聚类模型的训练方法。
第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的图像聚类模型的训练方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的图像聚类模型的训练方法。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的图像聚类模型的训练方法的流程示意图之一;
图2是本申请实施例提供的图像聚类模型的训练方法的流程示意图之二;
图3是本申请实施例提供的图像聚类模型的训练方法的流程示意图之三;
图4是本申请实施例提供的图像聚类模型的训练方法的流程示意图之四;
图5是本申请实施例提供的图像聚类模型的训练装置的结构示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像聚类模型的训练方法、图像聚类模型的训练装置、电子设备和可读存储介质进行详细地说明。
如图1所示,本申请实施例提供的图像聚类模型的训练方法。
本申请实施例的图像聚类模型的训练方法针对图像聚类模型进行训练,如图2所示,
图像聚类模型包括第一编码器、第二编码器和第一解码器,第一编码器与第一解码器相连。
本申请实施例提供的图像聚类模型的训练方法包括步骤110至步骤150。
步骤110、在图像聚类模型的预训练阶段,将原始图像对应的噪声图像和干净图像分别输入至第一编码器和第二编码器,获得第一解码器输出的还原图像。
在该步骤中,原始图像是从网络上采集的生物特征图像,干净图像是原始图像经过预处理后获得的ROI图像,噪声图像是在干净图像中混入高斯噪声的图像,如图2所示,还原图像是噪声图像经过第一编码器以及第一解码器处理后获得的重构图像。
例如,如图2所示,将噪声图像(图2所示为噪声样本)输入至第一编码器,第一编码器与第一解码器相连,通过编码解码操作,获得第一解码器重构输出的还原图像(图2所示为还原样本)。
其中,对原始图像的预处理包括提取出原始图像中ROI区域、去除身份和类别特征无关的背景信息以及对提取的ROI区域使用直方图均衡化来增强图像的对比度。
步骤120、基于噪声图像、干净图像和还原图像,构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数。
在该步骤中,基于噪声图像与还原图像进行对比获取去噪重构误差函数,基于干净图像和噪声图像获取到对比损失函数。其中,去噪重构误差函数描述了噪声图像输入模型进行预训练过程中,通过第一编码器和第一解码器后,与原来的噪声图像之间的误差,去噪重重构误差函数用于衡量网络输出去除输入携带的噪声的能力。
对于原始图像,特别是生物特征图像来说,由于实际采集时的种种不确定因素,例如图像的偏移、旋转、亮度的干扰等。可能会出现一些被噪声等扰乱信息污染的图像数据,随之会带来特征映射的较大偏差,从而影响特征表示的可分性以及聚类表现。
对于每一张受污染的噪声图像,预训练模块通过构建其对应的噪声图像与干净图像的均方误差损失函数,指导图像训练模型对噪声数据重构得到干净的图像数据,从而学习到更具鲁棒性的特征表达。
对比损失函数描述了干净图像和噪声图像经过第一编码器后,两者之间的对比损失。
基于去噪重构误差函数和对比损失函数,进行对图像聚类模型参数的更新,从而可以在不破坏已学习到的判别能力的同时,从数据本身挖掘监督信息来微调预训练过程的学习方向。
步骤130、在图像聚类模型的聚类训练阶段的聚类阶段,将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至预训练阶段训练结束后的图像聚类模型,获得图像聚类模型输出的第一图像特征和第二图像特征,并基于第一图像特征和第二图像特征,确定高置信样本集。
在该步骤中,第一图像特征是对应第一样本图像输入至模型中获取到的第一样本图像的伪标签、聚类中心和第一样本图像到聚类中心的距离,第二图像特征是对应第二样本图像输入至模型中获取到的第二样本图像的伪标签、聚类中心和第二样本图像到聚类中心的距离,高置信样本集是根据阈值λ筛选出的图像效果较好的图像样本集。
其中,基于第一图像特征和第二图像特征,自适应的筛选出阈值,并且将图像样本集与阈值进行比较,从而筛选出高置信样本集。
在该步骤中,图像数据集包括多个原始图像,数据增强是将图像数据集进行图像变换,例如:亮度变换、对比度变换、饱和度变换、仿射变换、平移变换、旋转变换、局部放大。
其中,在本申请中对以上各种变换进行顺序组合,尽可能地保留图像中生物特征信息地同时生成各种具有微小变换的图像,充分利用数据增强来提高样本的多样性。
其中,顺序组合的方式可以有多种,例如:可以对图像数据集首先进行亮度变换,然后进行对比度变换,最后进行旋转变换,得到数据增强后的图像数据集。
也可以对图像数据集首先进行平移变换,然后进行仿射变换,再然后进行饱和度变换,最后进行局部方法,得到数据增强后的图像数据集。
数据增强可以扩增训练数据,并且使得扩增的训练数据尽可能接近真实分布的数据,从而提高检测精度,提高模型的鲁棒性和泛化能力。
其中,数据增强的方式也应该依据实际图像样本集的情况而定,以图像样本集是指静脉数据为例,由于一般每根手指的图像数量不超过10张,图片数量和多样性不足;另外,在实际采集时需要给手指预留一定的活动空间,包括一定范围内的平移、旋转等,以及一些由于采集环境和设备不同所带来的图像质量的参差,例如一定程度的扭曲、对比度和亮度的不一以及图像质量的不同。
在这种情况下,就需要数据增强的顺序组合方式包括对比度变换、亮度变换、平移变换、旋转变换,从而可以通过数据增强解决在采集阶段出现的问题,使得数据增强后的图像数据集可以更好的满足图像聚类模型的训练要求。
另外,在每次对图像进行变换时,各个变换对应的变换参数都会从预先设定的范围内随机重新采样,从而保证两种视图中的变换不完全一样,各个变换的参数选择范围作为超参数预先设定。
步骤140、在聚类训练阶段的微调阶段,将高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至图像聚类模型,获得图像聚类模型输出的第三图像特征和第四图像特征。
在该步骤中,第三图像特征是对应第三样本图像输入至图像聚类模型中获取到的第三样本图像的伪标签、聚类中心和第三样本图像到聚类中心的距离,第四图像特征是对应第四样本图像输入至模型中获取到的第四样本图像的伪标签、聚类中心和第四样本图像到聚类中心的距离。
步骤150、基于第三图像特征和第四图像特征,构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到训练完成的图像聚类模型。
在该步骤中,基于第三图像特征和第四图像特征,交叉计算每个图像特征与其聚类中心间的对比损失,也即是跨视图的实例-原型级对比损失,从而构建实例-原型级对比损失函数。
相关技术中,经典的无监督聚类算法如K-Means、层次聚类、密度聚类、谱聚类等在直接处理诸如图像数据等高维数据时往往无法取得比较理想的效果。在处理聚类任务的问题上,传统的深度聚类算法在比较简单的图片数据集(如MNIST)上聚类表现还算可观,能够逼近有监督学习算法的精度,但在面临一些比较复杂的数据集时聚类性能较差。
本申请实施例中,通过有监督算法和无监督算法结合,其中,有监督设置样本集筛选阈值,基于图像聚类模型的预训练输出,从数据本身挖掘监督信息来微调预训练过程的学习方向,再基于阈值筛选出的高置信样本集,获取第三图像特征和第四图像特征,构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到训练完成的图像聚类模型。
根据本申请实施例提供的图像聚类模型的训练方法,通过原始图像、噪声图像和干净图像构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数,进一步构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到具有高效率,高鲁棒性和高抗干扰性的图像聚类模型。
在一些实施例中,将原始图像对应的噪声图像和干净图像分别输入至第一编码器和第二编码器,获得第一解码器输出的还原图像,包括:
将噪声图像输入至第一编码器,获得第一编码器输出的第一嵌入特征。
将干净图像输入至第二编码器,获得第二编码器输出的第二嵌入特征。
其中,第一嵌入特征和第二嵌入特征用于输入至嵌入空间中,从而获取到图像聚类模型中输出的第一图像特征和第二图像特征。
将第一嵌入特征输入至第一解码器,获得第一解码器输出的还原图像。
基于噪声图像、干净图像和还原图像,构建去噪重构误差损失函数和对比损失函数,包括:
基于干净图像和还原图像,确定去噪重构误差损失函数。
基于第一嵌入特征和第二嵌入特征,确定对比损失函数。
在该实施例中,如图2所示,编码器网络的输入包括经预处理后的原始ROI图像以及在其中混入了高斯噪声的图像,即干净图像和噪声图像。
将干净图像和噪声图像分别送入第二编码器
Figure SMS_16
和第一编码器
Figure SMS_17
进行特征提取,得到样本的特征再送入解码器gθ得到输出图像,也即原始图像。
例如,如图2所示,将干净图像(图2所示为干净样本)输入至第二编码器
Figure SMS_18
基于第一编码器
Figure SMS_19
输出的第一嵌入特征和第二编码器
Figure SMS_20
输出的第二嵌入特征,构建对比损失函数(图2所示Contrastive Loss)。
基于第一解码器输出的还原图像和干净图像,对比获取去噪重构误差函数(图2所示Reconstruct Loss)。
其中,噪声样本得到的输出图像与干净图像之间基于L2范数构建重构损失,从而期望模型学习从受污染的图像中还原原始图像的能力,进一步学习到具有判别性的特征表示。
在一些实施例中,应用公式
Figure SMS_21
确定去噪重构误差损失函数;
其中,
Figure SMS_22
为第i个干净图像,
Figure SMS_23
为第i个噪声图像经过第一编码器和第一解码器输出的还原图像,Lrec为去噪重构误差损失函数,N为预训练阶段中干净图像的总个数,
Figure SMS_24
为L2范数的平方;
在该实施例中,去噪重构误差损失函数任务目标其实并不与图像聚类任务的目标直接契合。
为了学习到对图像聚类模型更有帮助的嵌入特征,基于网络学习出的映射能够使得同类样本对之间的距离分布与非同类样本对间的距离分布之间的差距较大的原则,因此,在预训练过程中的损失函数还包括对比损失函数。
将干净图像及其噪声图像视为正样本对,其他样本视为负样本对,基于个体判别对比学习范式,为预训练阶段的学习目标提供补充,在不破坏基于去噪的生成模型习得的嵌入空间的基础上,保存原数据的几何结构,增强嵌入特征的可表达性。
将同一个样本的原始图像与噪声图像视为正样本对,将其他样本对视为负样本对,从而获取到对比损失函数。
应用公式
Figure SMS_25
确定对比损失函数;
其中,a上标和b上标分别为不同组合顺序的数据增强,
Figure SMS_26
为第i个干净图像对应的对比损失函数,
Figure SMS_27
为第i个噪声图像对应的对比损失函数;
Figure SMS_28
Figure SMS_29
其中,τI为温度参数,s(·)为余弦相似度,
Figure SMS_30
为经过第一编码器得到的第一嵌入特征,
Figure SMS_31
为经过第二编码器得到的第二嵌入特征。
通过对比损失函数,在去噪重构损失逐渐趋向于收敛时,可以在不破坏已经学习到的表征能力的同时,借助基于噪声增强的个体判别任务,进一步调整编码器的特征提取能力,提升模型提取的特征的判别性。
综上,应用公式
L=Lrec+Lins
确定图像聚类模型在预训练阶段的目标函数。
通过该目标函数,可以综合考虑在对噪声图像进行还原时的重构误差,以及图像样本在进行数据增强后造成的对比误差,基于目标函数,图像聚类模型可以学习从受污染的图像中还原原始图像的能力,进一步学习到具有判别性的特征表示。
同时可以在不破坏已经学习到的表征能力的同时,借助基于噪声增强的个体判别任务,进一步调整编码器的特征提取能力,提升模型提取的特征的判别性。
在一些实施例中,第一编码器包括依次连接的卷积模块、三个带有残差结构的深度可分离卷积模块、两个不执行下采样操作的卷积模块以及残差卷积模块,第二编码器与第一编码器结构相同。
如图4所示,第一编码器可以是
Figure SMS_32
第二编码器可以是
Figure SMS_33
第一解码器可以是gθ,其中,
Figure SMS_34
Figure SMS_35
两个编码器中的内部结构完全一致,并且第一编码器和第二编码器公用一个共享参数ω,使得干净图像经过第二编码器得到的第二嵌入特征,与噪声图像经过第一编码器得到的第一嵌入特征具有相似的结构,从而基于第一嵌入特征和第二嵌入特征进行构建对比损失函数。
如图2所示,编码器网络主要由深度可分离卷积模块连接而成,每个3*3深度可分离卷积层后都连接批归一化层和ReLU激活函数。
在该实施例中,批归一化层用于统一样本输入的统计分布性,从而使得后面的数据处理更加方便,可以避免一些不必要的数值问题。
其中,深度可分离卷积层相比于普通卷积层能够有效的减小模型的大小以及计算量。同时在网络中引入残差连接结构,使得在卷积神经网络深度加深的过程中不会出现梯度消失等问题,影响图像聚类模型的效率。
深度可分离卷积将常规的卷积操作分为两步实现:逐通道卷积和逐点卷积。
其中,逐通道卷积对输入图像特征的每个通道进行独立的卷积运算,暂时不整合不同通道在相同位置的图像特征;
逐点卷积则通过1*1大小的卷积核,整合不同特征通道的特征信息的同时,减少了部分计算量。
通过将常规的卷积操作分为两步实现,深度可分离卷积具有良好的表达能力,在自编码器网络以及瑕疵检测等任务中具有优异的效果。
编码器网络除了最后一层的特征映射层外,全面使用步长为2的深度可分离卷积层来替代池化层来达到下采样的目的,从而避免池化操作可能带来的图像细节信息的损失。
通过用步长为2的深度可分离卷积层来替代池化层,可以有效的保留图像特征数据中的纹理特征信息,从而当样本图像为生物特征图像时,可以最大程度的保留生物特征图像上的细节信息。
第一解码器包括依次连接的线性层、五个转置卷积子模块和卷积层。
其中,线性层用于将第一编码器输出的嵌入特征向量变换为缩小的特征图,再堆叠使用五个转置卷积子模块和卷积层进行反卷积操作实现对特征图的上采样,重构出与原始输入尺寸和通道数相同的图像。
在一些实施例中,基于第一图像特征和第二图像特征,确定高置信样本集,包括:
对第一图像特征进行聚类处理,确定图像数据集的第一聚类中心、第一样本伪标签及每个样本与第一聚类中心的第一距离;
对第二图像特征进行聚类处理,确定图像数据集的第二聚类中心、第二样本伪标签及每个样本与第二聚类中心的第二距离。
在该实施例中,完成编码器网络的预训练后,编码器网络的特征表达已经具有一定的判别性。
特征聚类初始化基于预训练习得的编码器网络,得到数据集中每个样本的嵌入特征,在此特征空间应用KMeans聚类算法,对图像特征进行聚类处理,获得每个样本的伪标签、聚类中心,以及每个样本到其对应的聚类中心的距离。
固定第一编码器和第二编码器的网络权重,将数据集中的样本图像经过两组数据增强ta和tb,得到两个不同的增强视图
Figure SMS_36
Figure SMS_37
分别输入到第一编码器和第二编码器中,得到第一嵌入特征和第二嵌入特征。
基于第一嵌入特征和第二嵌入特征,在该特征空间内应用KMeans聚类算法得到数据集的第一聚类中心、第一样本伪标签及每个样本与第一聚类中心的第一距离以及第二聚类中心、第二样本伪标签及每个样本与第二聚类中心的第二距离。
确定图像数据集的可信样本阈值。
可信样本阈值是一个临界值,用来区分不可信样本和高置信样本,从而筛选出高置信样本集。
基于当前视图下每个样本到其聚类中心的距离分布情况,随着训练迭代的次数动态的确定图像数据集的可信样本阈值。
基于第一距离、第二距离和可信样本阈值,从图像数据集中确定出高置信样本集。
其中,基于可信样本阈值,将第一距离和第二距离小于可信样本阈值的样本图像选出,并加入高置信样本集中,从而确定出高置信样本集。
在一些实施例中,应用公式
Figure SMS_38
确定可信样本阈值。
其中,λ为可信样本阈值,t为图像聚类模型的训练方法的当前迭代轮次,T为图像聚类模型的训练方法总迭代次数,Dt为图像聚类模型的训练方法在当前迭代轮次下的样本到聚类中心的距离,μ(·)为平均函数,σ(·)为方差函数。
在该实施例中,由于聚类结果中存在不可避免的误差和错分类,针对每个视图中的数据集嵌入特征以及对应的聚类结果,对于那些处在簇间边缘的样本,也就是与聚类中心的距离较大的样本,我们需要一个阈值来筛选出这部分样本,这个阈值也就是可信样本阈值。
基于上述公式,如图4所示,图像训练模型可以随着训练的进行,动态的调整可信样本阈值,从而可以自适应筛选出当前每个视图下的高置信样本集,并且可以将高置信样本集加入当前迭代中参与训练。
其中,样本的选择依据如下:
Figure SMS_39
其中,vi=1为当前样本图像xi被视作高置信样本,vi=0为当前样本图像不可靠,Li为当前样本图像到其聚类中心的距离。
在该实施例中,基于每个图像数据集中的高置信样本集以及聚类中心和伪标签,构建双向的个体-原型对比损失函数。
其中,个体-原型对比损失函数是基于个体与聚类中心来构建样本对,将第一样本图像和第一聚类中心视为正样本对,第一样本图像与第二聚类中心视为负样本对,构建对比损失函数。
在一些实施例中,基于第三图像特征和第四图像特征,构建实例-原型级对比损失函数,包括:
对第三图像特征和第四图像特征分别进行聚类处理,确定第三样本图像在第四样本图像中对应的样本伪标签和聚类中心,构建实例-原型级对比损失函数。
其中,由于第三样本图像和第四样本图像的数据增强操作完全独立,因此对应视图下高置信样本集的增强方式不完全一致,为了增强图像聚类模型的鲁棒性和抗变换能力。
本申请实施例采用了一种双向的对比学习策略,即将第三样本图像中的高置信样本
Figure SMS_40
对应的嵌入特征
Figure SMS_41
根据其样本索引i,找到在第四样本图像中对应的样本伪标签
Figure SMS_42
以及第四样本图像的聚类中心
Figure SMS_43
(假设该聚类中心被划分到第k个聚簇)。
然后计算嵌入特征
Figure SMS_44
到第四样本图像中其他聚类中心的距离,确定第三样本图像在第四样本图像中对应的样本伪标签和聚类中心。
基于第三样本图像在第四样本图像中对应的聚类中心、样本伪标签以及嵌入特征到第四样本图像中其他聚类中心的距离,从而确定损失函数。
在一些实施例中,应用公式
Figure SMS_45
确定实例-原型级对比损失函数;
其中,
Figure SMS_46
为第三图像特征经过数据增强a和聚类后的实例-聚类级对比损失函数,
Figure SMS_47
为第四图像特征经过数据增强b和聚类后的实例-聚类级对比损失函数。
Figure SMS_48
Figure SMS_49
其中,s(·)为余弦相似度,T为温度超参数,
Figure SMS_50
为经过数据增强a后得到的第i个第一嵌入特征,
Figure SMS_51
为经过数据增强b后得到的第i个第二嵌入特征,
Figure SMS_52
为在数据增强b对应的特征空间中,第k个聚簇对应的第二嵌入特征,
Figure SMS_53
为在数据增强b对应的特征空间中,第j个聚簇对应的第二嵌入特征,
Figure SMS_54
为在数据增强a对应的特征空间中,第j个聚簇对应的第一嵌入特征,
Figure SMS_55
为在数据增强a对应的特征空间中,第k个聚簇对应的第一嵌入特征。
该对比损失函数用于衡量正负样本对与嵌入特征的距离,如图3所示,在“推近”正样本对嵌入特征的相似度的同时,“推远”负样本对在嵌入空间的距离,从而使得通过图像聚类模型获得的聚类中心相对于样本图像更为准确。
在一些实施例中,构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,包括:
根据后向传播算法和随机梯度下降优化算法最小化实例-原型级对比损失函数,更新图像聚类模型的模型参数。
其中,后向传播算法用于调整编码器网络中各个节点之间的权重,使得编码器网络输出的样本标签与实际标签相一致。
随机梯度下降优化算法用于提高编码器网络迭代的效率,从而使得图像模型的训练更加高效,使编码器网络在进行迭代优化时可以更快的到达收敛条件或最大迭代次数。
在该实施例中,通过后向传播算法和随机梯度下降优化算法最小化实例-原型级对比损失函数,从而对本申请的图像聚类模型进行微调,使得训练后得到的模型即可以是应用于生产环境的最终模型。
设图像聚类模型的模型参数为θ,利用随机梯度下降优化算法优化网络参数直至达到预先设定的最大迭代次数或收敛条件。
应用公式
Figure SMS_56
确定图像聚类模型的模型参数。
其中,α为学习率,Lc为实例-原型级对比损失函数。
当图像聚类模型的模型参数达到收敛条件时或者优化迭代次数达到预先设定的最大迭代次数时,可以获取到优化完成后的图像聚类模型。
实际执行中,只需将需要聚类的样本图像数据输入到图像聚类模型的编码器网络中,即可得到该样本图像数据对应的嵌入特征,再在该嵌入特征的特征空间上应用KMeans均值算法,即可得到图像数据集最终聚类结果。
其中,图像聚类模型的训练方法可应用于终端,具体可由,终端中的硬件或软件执行。
该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
本申请实施例提供的图像聚类模型的训练方法,该图像聚类模型的训练方法的执行主体可以为电子设备或者电子设备中能够实现该图像聚类模型的训练方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的图像聚类模型的训练方法进行说明。
本申请实施例提供的图像聚类模型的训练方法,执行主体可以为图像聚类模型的训练装置。本申请实施例中以图像聚类模型的训练装置执行图像聚类模型的训练方法为例,说明本申请实施例提供的图像聚类模型的训练装置。
本申请实施例还提供一种图像聚类模型的训练装置。
其中,图像聚类模型包括第一编码器、第二编码器和第一解码器,第一编码器与第一解码器相连。
如图5所示,该图像聚类模型的训练装置包括:第一处理模块510、第二处理模块520、第三处理模块530、第四处理模块540和第五处理模块550。第一处理模块510,用于将原始图像对应的噪声图像和干净图像分别输入至第一编码器和第二编码器,获得第一解码器输出的还原图像;
第二处理模块520,用于基于噪声图像、干净图像和还原图像,构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数;
第三处理模块530,用于将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至预训练阶段训练结束后的图像聚类模型,获得图像聚类模型输出的第一图像特征和第二图像特征,并基于第一图像特征和第二图像特征,确定高置信样本集;
第四处理模块540,用于将高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至图像聚类模型,获得图像聚类模型输出的第三图像特征和第四图像特征;
第五处理模块550,用于基于第三图像特征和第四图像特征,构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到训练完成的图像聚类模型。
根据本申请的图像聚类模型的训练装置,通过原始图像、噪声图像和干净图像构建去噪重构误差损失函数和对比损失函数,更新图像聚类模型的模型参数,进一步构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,得到具有高效率,高鲁棒性和高抗干扰性的图像聚类模型。
在一些实施例中,第一处理模块510用于获取第一嵌入特征、第二嵌入特征和还原图像,其中,噪声图像与第一嵌入特征和还原图像对应,干净图像与第二嵌入特征对应。
第二处理模块520用于构建重构误差损失函数和对比损失函数。
在一些实施例中,应用公式
Figure SMS_57
确定去噪重构误差损失函数;
其中,
Figure SMS_58
为第i个干净图像,
Figure SMS_59
为第i个噪声图像经过第一编码器和第一解码器输出的还原图像,Lrec为去噪重构误差损失函数,N为预训练阶段中干净图像的总个数,
Figure SMS_60
为L2范数的平方;
应用公式
Figure SMS_61
确定对比损失函数;
其中,a上标和b上标分别为不同组合顺序的数据增强,
Figure SMS_62
为第i个干净图像对应的对比损失函数,
Figure SMS_63
为第i个噪声图像对应的对比损失函数;
Figure SMS_64
Figure SMS_65
其中,τI为温度参数,s(·)为余弦相似度,
Figure SMS_66
为经过第一编码器得到的第一嵌入特征,
Figure SMS_67
为经过第二编码器得到的第二嵌入特征。
在一些实施例中,第二处理模块520中第一编码器包括依次连接的卷积模块、三个带有残差结构的深度可分离卷积模块、两个不执行下采样操作的卷积模块以及残差卷积模块,第二编码器与第一编码器结构相同;
第一解码器包括依次连接的线性层、五个转置卷积子模块和卷积层。
在一些实施例中,第三处理模块530用于基于第一图像特征和第二图像特征,确定高置信样本集,包括:
用于对第一图像特征进行聚类处理,确定图像数据集的第一聚类中、第一样本伪标签及每个样本与第一聚类中心的第一距离;
用于对第二图像特征进行聚类处理,确定图像数据集的第二聚类中、第二样本伪标签及每个样本与第二聚类中心的第二距离;
确定图像数据集的可信样本阈值。
第三处理模块530还用于基于第一距离、第二距离和可信样本阈值,从图像数据集中确定出高置信样本。
在一些实施例中,应用公式
Figure SMS_68
确定可信样本阈值;
其中,λ为可信样本阈值,t为图像聚类模型的训练方法的当前迭代轮次,T为图像聚类模型的训练方法总迭代次数,Dt为图像聚类模型的训练方法在当前迭代轮次下的样本到聚类中心的距离,μ(·)为平均函数,σ(·)为方差函数。
在一些实施例中,第四处理模块540用于获取第三图像特征和第四图像特征,第五处理模块550用于基于第三图像特征和第四图像特征分别进行聚类处理,确定第三样本图像在第四样本图像中对应的样本伪标签和聚类中心,构建实例-原型级对比损失函数。
在一些实施例中,应用公式
Figure SMS_69
确定实例-原型级对比损失函数;
其中,
Figure SMS_70
为第三图像特征经过数据增强a和聚类后的实例-聚类级对比损失函数,
Figure SMS_71
为第四图像特征经过数据增强b和聚类后的实例-聚类级对比损失函数。
应用公式
Figure SMS_72
Figure SMS_73
其中,s(·)为余弦相似度,T为温度超参数,
Figure SMS_74
为经过数据增强a后得到的第i个第一嵌入特征,
Figure SMS_75
为经过数据增强b后得到的第i个第二嵌入特征,
Figure SMS_76
为在数据增强b对应的特征空间中,第k个聚簇对应的第二嵌入特征,
Figure SMS_77
为在数据增强b对应的特征空间中,第j个聚簇对应的第二嵌入特征,
Figure SMS_78
为在数据增强a对应的特征空间中,第j个聚簇对应的第一嵌入特征,
Figure SMS_79
为在数据增强a对应的特征空间中,第k个聚簇对应的第一嵌入特征。
在一些实施例中,第五处理模块550用于构建实例-原型级对比损失函数,更新图像聚类模型的模型参数,包括:根据后向传播算法和随机梯度下降优化算法最小化实例-原型级对比损失函数,更新图像聚类模型的模型参数。
本申请实施例中的图像聚类模型的训练装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的图像聚类模型的训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的图像聚类模型的训练装置能够实现图1至图4的方法实施例实现的各个过程,为避免重复,这里不再赘述。
在一些实施例中,如图6所示,本申请实施例还提供一种电子设备600,包括处理器601、存储器602及存储在存储器602上并可在处理器601上运行的计算机程序,该程序被处理器601执行时实现上述图像聚类模型的训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图像聚类模型的训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述图像聚类模型的训练方法。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (10)

1.一种图像聚类模型的训练方法,其特征在于,图像聚类模型包括第一编码器、第二编码器和第一解码器,所述第一编码器与所述第一解码器相连,所述方法包括:
在所述图像聚类模型的预训练阶段,将原始图像对应的噪声图像和干净图像分别输入至所述第一编码器和所述第二编码器,获得所述第一解码器输出的还原图像;
基于所述噪声图像、所述干净图像和所述还原图像,构建去噪重构误差损失函数和对比损失函数,更新所述图像聚类模型的模型参数;
在所述图像聚类模型的聚类训练阶段的聚类阶段,将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至所述预训练阶段训练结束后的所述图像聚类模型,获得所述图像聚类模型输出的第一图像特征和第二图像特征,并基于所述第一图像特征和所述第二图像特征,确定高置信样本集;
在所述聚类训练阶段的微调阶段,将所述高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至所述图像聚类模型,获得所述图像聚类模型输出的第三图像特征和第四图像特征;
基于所述第三图像特征和所述第四图像特征,构建实例-原型级对比损失函数,更新所述图像聚类模型的模型参数,得到训练完成的所述图像聚类模型。
2.根据权利要求1所述的图像聚类模型的训练方法,其特征在于,所述将原始图像对应的噪声图像和干净图像分别输入至所述第一编码器和所述第二编码器,获得所述第一解码器输出的还原图像,包括:
将所述噪声图像输入至所述第一编码器,获得所述第一编码器输出的第一嵌入特征;
将所述干净图像输入值所述第二编码器,获得所述第二编码器输出的第二嵌入特征;
将所述第一嵌入特征输入至所述第一解码器,获得所述第一解码器输出的所述还原图像;
所述基于所述噪声图像、所述干净图像和所述还原图像,构建去噪重构误差损失函数和对比损失函数,包括:
基于所述干净图像和所述还原图像,确定所述去噪重构误差损失函数;
基于所述第一嵌入特征和所述第二嵌入特征,确定所述对比损失函数。
3.根据权利要求2所述的图像聚类模型的训练方法,其特征在于,应用公式
Figure FDA0004003955080000021
确定所述去噪重构误差损失函数;
其中,
Figure FDA0004003955080000022
为第i个所述干净图像,
Figure FDA0004003955080000023
为第i个所述噪声图像经过所述第一编码器和所述第一解码器输出的所述还原图像,Lrec为所述去噪重构误差损失函数,N为所述预训练阶段中所述干净图像的总个数,
Figure FDA0004003955080000024
为L2范数的平方;
应用公式
Figure FDA0004003955080000025
确定所述对比损失函数;
其中,a上标和b上标分别为不同组合顺序的数据增强,
Figure FDA0004003955080000026
为第i个所述干净图像对应的对比损失函数,
Figure FDA0004003955080000027
为第i个所述噪声图像对应的对比损失函数;
Figure FDA0004003955080000028
Figure FDA0004003955080000029
其中,τI为温度参数,s(·)为余弦相似度,
Figure FDA00040039550800000210
为经过所述第一编码器得到的所述第一嵌入特征,
Figure FDA00040039550800000211
为经过所述第二编码器得到的所述第二嵌入特征。
4.根据权利要求1所述的图像聚类模型的训练方法,其特征在于,所述第一编码器包括依次连接的卷积模块、三个带有残差结构的深度可分离卷积模块、两个不执行下采样操作的卷积模块以及残差卷积模块,所述第二编码器与所述第一编码器结构相同;
所述第一解码器包括依次连接的线性层、五个转置卷积子模块和卷积层。
5.根据权利要求1-4任一项所述的图像聚类模型的训练方法,其特征在于,所述基于所述第一图像特征和所述第二图像特征,确定高置信样本集,包括:
对所述第一图像特征进行聚类处理,确定所述图像数据集的第一聚类中心、第一样本伪标签及每个样本与所述第一聚类中心的第一距离;
对所述第二图像特征进行聚类处理,确定所述图像数据集的第二聚类中心、第二样本伪标签及每个样本与所述第二聚类中心的第二距离;
确定所述图像数据集的可信样本阈值;
基于所述第一距离、所述第二距离和所述可信样本阈值,从所述图像数据集中确定出所述高置信样本集。
6.根据权利要求5所述的图像聚类模型的训练方法,其特征在于,应用公式
Figure FDA0004003955080000031
确定所述可信样本阈值;
其中,λ为所述可信样本阈值,t为所述图像聚类模型的训练方法的当前迭代轮次,T为所述图像聚类模型的训练方法总迭代次数,Dt为所述图像聚类模型的训练方法在当前迭代轮次下的样本到聚类中心的距离,μ(·)为平均函数,σ(·)为方差函数。
7.根据权利要求1-4任一项所述的图像聚类模型的训练方法,其特征在于,所述基于所述第三图像特征和所述第四图像特征,构建实例-原型级对比损失函数,包括:
对所述第三图像特征和所述第四图像特征分别进行聚类处理,确定所述第三样本图像在所述第四样本图像中对应的样本伪标签和聚类中心,构建所述实例-原型级对比损失函数。
8.根据权利要求7所述的图像聚类模型的训练方法,其特征在于,应用公式
Figure FDA0004003955080000032
确定所述实例-原型级对比损失函数;
其中,
Figure FDA0004003955080000033
为所述第三图像特征经过数据增强a和聚类后的实例-聚类级对比损失函数,
Figure FDA0004003955080000034
为所述第四图像特征经过数据增强b和聚类后的实例-聚类级对比损失函数。
9.根据权利要求1-4任一项所述的图像聚类模型的训练方法,其特征在于,所述构建实例-原型级对比损失函数,更新所述图像聚类模型的模型参数,包括:
根据后向传播算法和随机梯度下降优化算法最小化所述实例-原型级对比损失函数,更新所述图像聚类模型的模型参数。
10.一种图像聚类模型的训练装置,其特征在于,图像聚类模型包括第一编码器、第二编码器和第一解码器,所述第一编码器与所述第一解码器相连,所述装置包括:
第一处理模块,用于在所述图像聚类模型的预训练阶段,将原始图像对应的噪声图像和干净图像分别输入至所述第一编码器和所述第二编码器,获得所述第一解码器输出的还原图像;
第二处理模块,用于基于所述噪声图像、所述干净图像和所述还原图像,构建去噪重构误差损失函数和对比损失函数,更新所述图像聚类模型的模型参数;
第三处理模块,用于在所述图像聚类模型的聚类训练阶段的聚类阶段,将图像数据集进行数据增强得到的第一样本图像和第二样本图像分别输入至所述预训练阶段训练结束后的所述图像聚类模型,获得所述图像聚类模型输出的第一图像特征和第二图像特征,并基于所述第一图像特征和所述第二图像特征,确定高置信样本集;
第四处理模块,用于在所述聚类训练阶段的微调阶段,将所述高置信样本集进行数据增强得到的第三样本图像和第四样本图像分别输入至所述图像聚类模型,获得所述图像聚类模型输出的第三图像特征和第四图像特征;
第五处理模块,用于基于所述第三图像特征和所述第四图像特征,构建实例-原型级对比损失函数,更新所述图像聚类模型的模型参数,得到训练完成的所述图像聚类模型。
CN202211627126.2A 2022-12-16 2022-12-16 图像聚类模型的训练方法及装置 Active CN115908984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211627126.2A CN115908984B (zh) 2022-12-16 2022-12-16 图像聚类模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211627126.2A CN115908984B (zh) 2022-12-16 2022-12-16 图像聚类模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN115908984A true CN115908984A (zh) 2023-04-04
CN115908984B CN115908984B (zh) 2024-09-03

Family

ID=86480605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211627126.2A Active CN115908984B (zh) 2022-12-16 2022-12-16 图像聚类模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN115908984B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910556A (zh) * 2023-07-24 2023-10-20 润联智能科技股份有限公司 电厂设备异常检测方法、训练方法、装置、设备和介质
CN117196996A (zh) * 2023-10-17 2023-12-08 山东鸿业信息科技有限公司 一种数据资源的无接口交互管理方法及系统
CN117636100A (zh) * 2024-01-25 2024-03-01 北京航空航天大学杭州创新研究院 预训练任务模型调整处理方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210374553A1 (en) * 2020-06-02 2021-12-02 Salesforce.Com, Inc. Systems and methods for noise-robust contrastive learning
CN113887580A (zh) * 2021-09-15 2022-01-04 天津大学 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN113989582A (zh) * 2021-08-26 2022-01-28 中国科学院信息工程研究所 一种基于密集语义对比的自监督视觉模型预训练方法
CN114625879A (zh) * 2022-03-13 2022-06-14 北京工业大学 基于自适应变分编码器的短文本聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210374553A1 (en) * 2020-06-02 2021-12-02 Salesforce.Com, Inc. Systems and methods for noise-robust contrastive learning
CN113989582A (zh) * 2021-08-26 2022-01-28 中国科学院信息工程研究所 一种基于密集语义对比的自监督视觉模型预训练方法
CN113887580A (zh) * 2021-09-15 2022-01-04 天津大学 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN114625879A (zh) * 2022-03-13 2022-06-14 北京工业大学 基于自适应变分编码器的短文本聚类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910556A (zh) * 2023-07-24 2023-10-20 润联智能科技股份有限公司 电厂设备异常检测方法、训练方法、装置、设备和介质
CN117196996A (zh) * 2023-10-17 2023-12-08 山东鸿业信息科技有限公司 一种数据资源的无接口交互管理方法及系统
CN117196996B (zh) * 2023-10-17 2024-06-04 山东鸿业信息科技有限公司 一种数据资源的无接口交互管理方法及系统
CN117636100A (zh) * 2024-01-25 2024-03-01 北京航空航天大学杭州创新研究院 预训练任务模型调整处理方法、装置、电子设备和介质
CN117636100B (zh) * 2024-01-25 2024-04-30 北京航空航天大学杭州创新研究院 预训练任务模型调整处理方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN115908984B (zh) 2024-09-03

Similar Documents

Publication Publication Date Title
US11645835B2 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
Cao et al. DenseUNet: densely connected UNet for electron microscopy image segmentation
CN115908984B (zh) 图像聚类模型的训练方法及装置
Jadoon et al. Three‐class mammogram classification based on descriptive CNN features
Bashar et al. Exploring duplicated regions in natural images
Dambreville et al. A framework for image segmentation using shape models and kernel space shape priors
CN107133496B (zh) 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
Cai et al. Superpixel contracted neighborhood contrastive subspace clustering network for hyperspectral images
EP3799647A1 (en) Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network
CN110232318A (zh) 穴位识别方法、装置、电子设备及存储介质
CN110717519A (zh) 训练、特征提取、分类方法、设备及存储介质
CN112949454B (zh) 一种基于小样本学习的虹膜识别方法
Deshpande et al. Super resolution and recognition of long range captured multi‐frame iris images
Chen et al. Image splicing localization using residual image and residual-based fully convolutional network
Zhou et al. Adaptive weighted locality-constrained sparse coding for glaucoma diagnosis
Kumar et al. Local directional pattern (LDP) based fingerprint matching using SLFNN
CN114494280B (zh) 基于经验模态分解的前视声呐图像分割方法
Li et al. Comprehensive edge direction descriptor for fingerprint liveness detection
CN111126169A (zh) 基于正交化的图正则非负矩阵分解的人脸识别方法及系统
Zhou et al. Deep dynamic memory augmented attentional dictionary learning for image denoising
Bandyopadhyay et al. A hybrid fuzzy filtering-fuzzy thresholding technique for region of interest detection in noisy images
US20230281762A1 (en) Fingerphoto deblurring using deep learning gan architectures
Fan et al. Image denoising by low‐rank approximation with estimation of noise energy distribution in SVD domain
Yang et al. Mixed noise removal by residual learning of deep cnn
Li et al. Multi-level Fisher vector aggregated completed local fractional order derivative feature vector for face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong

Applicant after: Guangdian Yuntong Group Co.,Ltd.

Address before: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong

Applicant before: GRG BANKING EQUIPMENT Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20240620

Address after: Room 701, No. 11, Kelin Road, Science City, Huangpu District, Guangzhou City, Guangdong Province, 510663

Applicant after: GRG BANKING IT Co.,Ltd.

Country or region after: China

Address before: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong

Applicant before: Guangdian Yuntong Group Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant