CN117576518A - 图像蒸馏方法、装置、电子设备和计算机可读存储介质 - Google Patents
图像蒸馏方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN117576518A CN117576518A CN202410052250.3A CN202410052250A CN117576518A CN 117576518 A CN117576518 A CN 117576518A CN 202410052250 A CN202410052250 A CN 202410052250A CN 117576518 A CN117576518 A CN 117576518A
- Authority
- CN
- China
- Prior art keywords
- image
- noise
- distilled
- images
- denoising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004821 distillation Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000002131 composite material Substances 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000009792 diffusion process Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图像处理技术领域,提供了一种图像蒸馏方法、装置、电子设备和计算机可读存储介质,方法包括:获取噪声图像及多张待蒸馏图像;利用预先训练的多个噪声估计器对噪声图像进行反向去噪,并将多张待蒸馏图像作为去噪时添加的辅助信息,以将多张待蒸馏图像蒸馏成一张合成图像,噪声估计器用于估计噪声图像的噪声,噪声图像是对样本图像进行前向加噪后得到的,合成图像包括多张待蒸馏图像的图像信息。本发明能够在图像数据蒸馏时降低其对算力的要求,同时达到较好的蒸馏效果。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种图像蒸馏方法、装置、电子设备和计算机可读存储介质。
背景技术
数据蒸馏旨在将原始大规模数据集蒸馏为一个小规模合成数据集,并对于给定的算法,分别运用原始数据集和合成数据集作为训练集,期望可以达到相近的训练结果。数据集蒸馏可以缓解大数据的存储运输成本和模型训练过程中的时间成本。
现有数据蒸馏方案由于涉及较长的展开轨迹和二阶梯度计算,因而对于算力要求较高,对于数据量比较大的图像数据而言,算力的要求就更高了。
发明内容
本发明的目的在于提供了一种图像蒸馏方法、装置、电子设备和计算机可读存储介质,其能够在图像数据蒸馏时降低其对算力的要求。
本发明的实施例可以这样实现:
第一方面,本发明提供一种图像蒸馏方法,所述方法包括:
获取噪声图像及多张待蒸馏图像;
利用预先训练的多个噪声估计器对所述噪声图像进行反向去噪,并将所述多张待蒸馏图像作为去噪时添加的辅助信息,以将所述多张待蒸馏图像蒸馏成一张合成图像,所述噪声估计器用于估计所述噪声图像的噪声,所述噪声图像是对样本图像进行前向加噪后得到的,所述合成图像包括所述多张待蒸馏图像的图像信息。
在可选的实施方式中,所述利用预先训练的多个噪声估计器对所述噪声图像进行反向去噪,并将所述多张待蒸馏图像作为去噪时添加的辅助信息,以将所述多张待蒸馏图像蒸馏成一张合成图像的步骤包括:
利用第一预设编码器对所述噪声图像进行编码,得到第一初始向量;
将所述多个噪声估计器依次编号,并将第一个噪声估计器作为初始噪声估计器;
从所述待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对所述目标待蒸馏图像进行编码,得到第二初始向量,所述第二预设编码器的性能高于所述第一预设编码器;
将所述第一初始向量和所述第二初始向量输入至所述初始噪声估计器进行反向去噪,得到隐空间特征向量;
将所述隐空间特征向量作为所述第一初始向量,将所述初始噪声估计器的下一个噪声估计器作为初始噪声估计器,返回所述“从所述待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对所述目标待蒸馏图像进行编码,得到第二初始向量”的步骤,直至得到最后一个噪声估计器输出的隐空间特征向量;
利用预设解码器对最后一个噪声估计器输出的隐空间特征向量进行解码,得到所述合成图像。
在可选的实施方式中,所述从所述待蒸馏图像中选择目标待蒸馏图像的步骤包括:
从所述待蒸馏图像中随机选择一张作为所述目标待蒸馏图像。
在可选的实施方式中,所述待蒸馏图像与所述噪声估计器一一对应,所述从所述待蒸馏图像中选择目标待蒸馏图像的步骤包括:
将与所述初始噪声估计器对应的待蒸馏图像作为所述目标待蒸馏图像。
在可选的实施方式中,每一所述待蒸馏图像均对应各自的标签,在将所述待蒸馏图像作为模型训练样本时所述标签表征所述待蒸馏图像所属的类别或结果,所述方法还包括:
获取所述噪声估计器的数量;
统计每一标签的待蒸馏图像作为辅助信息的图像的张数;
根据所述噪声估计器的数量及每一所述张数确定将每一标签的待蒸馏图像作为辅助信息的概率分布,并将所述概率分布作为所述合成图像的标签,在将所述合成图像作为模型训练样本时所述合成图像的标签表征所述合成图像所属的类别或结果。
在可选的实施方式中,所述合成图像的标签表示为:,其中,/>为所述合成图像的标签,/>为所述噪声估计器的数量,/>为标签的待蒸馏图像作为辅助信息的图像的张数。
在可选的实施方式中,所述待蒸馏图像的标签与所述噪声估计器的数量相同、且所述待蒸馏图像与所述噪声估计器一一对应。
第二方面,本发明提供一种图像蒸馏装置,所述装置包括:
获取模块,用于获取噪声图像及多张待蒸馏图像;
蒸馏模块,用于利用预先训练的多个噪声估计器对所述噪声图像进行反向去噪,并将所述多张待蒸馏图像作为去噪时添加的辅助信息,以将所述多张待蒸馏图像蒸馏成一张合成图像,所述噪声估计器用于估计所述噪声图像的噪声,所述噪声图像是对样本图像进行前向加噪后得到的,所述合成图像包括所述多张待蒸馏图像的图像信息。
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现前述实施方式中任一项所述的图像蒸馏方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项所述的图像蒸馏方法。
本发明实施例利用预先训练的多个噪声估计器,在对噪声图像进行反向去噪时将多张待蒸馏图像作为添加的辅助信息,从而能够得到包括多张待蒸馏图像的图像信息的合成图像,本发明实施例在图像蒸馏过程中避免了蒸馏算法的二阶梯度计算和长程展开轨迹计算,从而降低其对算力的要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本实施例提供的图像蒸馏的典型处理流程示意图。
图2为本实施例提供的图像蒸馏的神经网络过程示意图。
图3为本实施例提供的扩散模型的训练示意图。
图4为本实施例提供的扩散模组的示意图。
图5为本实施例提供的图像蒸馏方法的流程示例图。
图6为本实施例提供合成图像的蒸馏过程的示意图。
图7为本发明实施例提供的图像蒸馏装置的方框示意图。
图8示出了本发明实施例提供的电子设备的方框示意图。
图标:10-电子设备;11-处理器;12-存储器;13-总线;100-图像蒸馏装置;110-获取模块;120-蒸馏模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
数据蒸馏旨在将原始大规模数据集蒸馏为一个小规模合成数据集,并对于给定的算法,分别运用原始数据集和合成数据集作为训练集,期望可以达到相近的训练结果。数据集蒸馏可以缓解大数据的存储运输成本和模型训练过程中的时间成本。请参照图1,图1为本实施例提供的图像蒸馏的典型处理流程示意图,图1中,包括了50K的真实图像的原始数据集经过数据集蒸馏后得到包括了10张合成图像的合成数据集,在某些情况下,合成数据集甚至可以将原始数据集蒸馏“压缩”到原数据集大小的1%以下,而使用合成数据集再训练的神经网络性能不会比在原始数据集上直接训练的性能有显著下降。
数据蒸馏的关键是,在第一步中使用合适的优化方法更新并获得合成数据集,根据优化目标不同,数据集蒸馏可以划分为基于元学习思想(Meta-Learning)的数据集蒸馏方法和基于数据匹配思想(Data Matching)的数据集蒸馏方法。基于元学习思想的数据集蒸馏方法目标是基于模型内循环表现,优化外循环得到的合成数据集;基于数据匹配思想的数据集蒸馏方法,将目标从关注模型表现,转移到一个代理目标(比如:模型参数、梯度等),进而通过分析模型在这个代理目标上的表现,评估合成数据集是否优良。
为了保证合成数据集的效果,通常将要蒸馏的大型真实数据集(即训练集)作为输入,并输出一个小的合成蒸馏数据集,该蒸馏数据集通过在单独的真实数据集(即验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估,看是否能否达到接近的效果。
请参照图2,图2为本实施例提供的图像蒸馏的神经网络过程示意图,图2中,为合成数据集、/>中/>表示第/>张合成图像,/>中/>表示第/>张合成图像/>的标签,/>为原始数据集,/>中/>表示第/>张原始图像,/>中/>表示第张原始图像/>的标签,/>为在合成数据集/>上训练得到的网络参数,/>为在合成数据集上训练得到的网络参数在原始数据集上测试得到的损失,/>为合成数据集中合成图像的数量,/>为原始数据集中原始图像的数量。利用合成数据集训练神经网络得到网络参数,用该网络参数在原始数据集的验证/测试集上进行验证,得到对应的损失,再根据对应的损失采用梯度下降方式反向调整在合成数据集上训练得到的网络参数。
无论是基于元学习思想(Meta-Learning)的数据集蒸馏方法和基于数据匹配思想(Data Matching)的数据集蒸馏方法,通常都会涉及二阶梯度计算和长程展开轨迹计算,而这两样处理对算力要求较高,有鉴于此,本实施例提供了一种图像蒸馏方法、装置、电子设备和计算机可读存储介质,其能够在图像数据蒸馏时降低其对算力的要求,下面将对其进行详细描述。
本实施例提供的图像蒸馏方法是基于扩散模型的思路,为了更清楚地说明本方法,本实施例首先对扩散模型的训练过程进行介绍,请参照图3,图3为本实施例提供的扩散模型的训练示意图,图3中扩散的训练过程包括前向扩散过程和反向扩散过程,以图像为例,在前向扩散过程中,/>经过编码器得到特征向量/>,而后在其上添加同维度的高斯随机噪声/>,噪声/>的高斯分布表示为:/>,意思是噪声/>服从期望为0、方差为单位矩阵/>的多元高斯分布,得到添加一次噪声后的特征向量/>,其中,/>。循环往复,直至/>次,得到添加/>次噪声后的特征向量/>。在反向扩散过程中,训练/>个/>模组,将/>经过/>个/>模组,逐步去掉噪声,得到特征向量/>,/>经过解码后得到图像。其中,每个/>接受两个向量输入,例如,/>输入/>和/>,其中,/>为添加/>次噪声后的特征向量,/>为图像/>输入编码器得到的特征向量,期望输出正向推理时第/>次添加的高斯噪声/>,那么根据/>即可得到,其中,/>为添加/>次噪声后的特征向量,循环往复,直至/>次,得到/>。
本实施例还提供了图3中第T个UNetT模组的示意图,请参照图4,图4为本实施例提供的扩散模组的示意图,图4中,图像经过编码器得到特征向量/>,将/>和/>输入/>,利用QKV运算最终得到/>,其中,QKV是注意力机制中通常的运算,Q为查询Query,K是关键字Key,V是值Value,计算注意力的过程,即使用一个Q(uery),计算其和每个K(ey)的相似度作为权重,对所有的V(alue)进行加权求和。
本实施例提供的图像蒸馏方法就是基于图3和图4所示的扩散模型的原理,将每一个训练后的扩散模组作为一个噪声估计器,由任意噪声图像开始,经过编码器,得到输入噪声向量。将输入噪声向量输入第一个噪声估计器,经过多个噪声估计器的依次去噪,在一个噪声估计器去噪过程中,将一张待蒸馏图像作为辅助信息添加噪声估计器,经过多个噪声估计器,最终得到多张待蒸馏图像蒸馏成的合成图像。请参照图5,图5为本实施例提供的图像蒸馏方法的流程示例图,该方法包括以下步骤:
步骤S101,获取噪声图像及多张待蒸馏图像。
在本实施例中,噪声图像可以是随机生成的,或者对预设图像进行加噪得到的。待蒸馏图像可以是用于训练模型的样本图像,模型可以是用于进行目标识别的识别模型,例如,人脸识别模型,车辆识别模型或者工服着装识别模型等。
步骤S102,利用预先训练的多个噪声估计器对噪声图像进行反向去噪,并将多张待蒸馏图像作为去噪时添加的辅助信息,以将多张待蒸馏图像蒸馏成一张合成图像,噪声估计器用于估计噪声图像的噪声,所述噪声图像是对样本图像进行前向加噪后得到的,合成图像包括多张待蒸馏图像的图像信息。
在本实施例中,一个噪声估计器就是图2中一个扩散模组,其训练过程如图2中的扩散模组的训练过程,前向加噪过程对应图2中的前向扩散过程,反向去噪对应图2中的反向扩散过程。噪声估计器是利用样本图像和图2的训练过程训练后得到的。蒸馏多张待蒸馏图像的过程是利用训练后的多个噪声估计器进行反向去噪的过程,即,训练噪声估计器涉及前向加噪和反向去噪的过程,而蒸馏的过程涉及反向去噪的过程,而不涉及前向加噪的过程。由于待蒸馏图像作为去噪时添加的辅助信息,因此,通过多个噪声估计器之后得到的合成图像包括了待蒸馏图像的图像信息,可以说其携带有待蒸馏图像的图像特征。
还需要说明的是,由于合成图像是人类难以理解的,即便是生成者自己也难以恢复出对应的原始图像,因此,蒸馏技术天生带有隐私保护和数据加密的特性,在图像敏感度较高的应用场景中,合成图像不但可以减少模型训练的图像数据的数据量,还有利于保护图像提供者的隐私,例如,终端上包括涉及用户隐私的图像,如果直接将该图像传送给模型训练的服务器,则会存在隐私泄露的风险,如果将其蒸馏成合成图像,即减少了终端和服务器之间数据传输量,又能很好地保护用户隐私。
本实施例提供的上述方法,利用预先训练的多个噪声估计器,在对噪声图像进行反向去噪时将多张待蒸馏图像作为添加的辅助信息,从而能够得到包括多张待蒸馏图像的图像信息的合成图像,避免了蒸馏算法的二阶梯度计算和长程展开轨迹计算,从而降低其对算力的要求。
在可选的实施方式中,一种将多张待蒸馏图像蒸馏成一张合成图像的实现方式为:
步骤一,利用第一预设编码器对噪声图像进行编码,得到第一初始向量;
步骤二,将多个噪声估计器依次编号,并将第一个噪声估计器作为初始噪声估计器;
步骤三,从待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对目标待蒸馏图像进行编码,得到第二初始向量,第二预设编码器的性能高于第一预设编码器;
步骤四,将第一初始向量和第二初始向量输入至初始噪声估计器进行反向去噪,得到隐空间特征向量;
步骤五,将隐空间特征向量作为第一初始向量,将初始噪声估计器的下一个噪声估计器作为初始噪声估计器,返回步骤三,直至得到最后一个噪声估计器输出的隐空间特征向量;
步骤六,利用预设解码器对最后一个噪声估计器输出的隐空间特征向量进行解码,得到合成图像。
在本实施例中,第一预设编码器可以是性能低的编码器,第二预设编码器可以是性能高的编码器,作为一种实现方式,训练后的第一预设编码器可以部署在性能较低的终端上,训练后的第二预设编码器可以部署在比终端性能高的服务器上,作为另一种实现方式,第一预设编码器和第二预设编码器也可以部署在同一个电子设备上,只不过分配给两者的性能资源不同,后者的资源高于前者。在联邦学习的应用场景中,终端上部署性能要求较低的第一预设编码器,既能充分利用多个终端的样本多样化的优势,又能降低对终端性能的要求。
需要说明的是,作为另一种实现方式,第一预设编码器和第二预设编码器也可以是性能接近的编码器。
为了更直观地说明图像蒸馏的过程,请参照图6,图6为本实施例提供合成图像的蒸馏过程的示意图,图6中,噪声图像经过第一预设编码器/>编码成向量/>,表示为:,待蒸馏图像/>经过第二预设编码器编码成向量/>,将/>和/>输入噪声估计器,输出隐空间特征向量/>,依次经过/>个噪声估计器,完成/>轮去噪,最终/>输出隐空间特征向量/>,将/>输入解码器,得到合成图像/>。
在可选的实施方式中,从待蒸馏图像中选择目标待蒸馏图像的实现方式至少有两种:
第一种:从待蒸馏图像中随机选择一张作为目标待蒸馏图像。
在该选择方式中,待蒸馏图像可以包括多个类别的图像,每一类别可以包括多个图像,若想要最终得到的合成图像包括待蒸馏图像的所有类别的图像特征,则需要随机选择的时候保证每一类别的图像在T轮去噪过程中均至少被选中一次。
第二种:也可以将待蒸馏图像与噪声估计器一一对应,每次选择与本轮噪声估计器对应的待蒸馏图像,实现方式为:
将与初始噪声估计器对应的待蒸馏图像作为目标待蒸馏图像。
在本实施例中,当待蒸馏图像用作模型训练的样本数据时,待蒸馏图像均对应各自的标签,标签表征待蒸馏图像所属的类别或结果,例如,对于一张人脸图像,其标签为戴帽子,对于一张车辆图像,其标签为红色等。由于合成图像也可以作为模型训练的样本数据,此时需要确定合成图像的标签,本实施提供一种确定合成图像的标签的实现方式:
获取噪声估计器的数量;
统计每一标签的待蒸馏图像作为辅助信息的图像的张数;
根据噪声估计器的数量及每一张数确定将每一标签的待蒸馏图像作为辅助信息的概率分布,并将概率分布作为合成图像的标签,在将合成图像作为模型训练样本时合成图像的标签表征合成图像所属的类别或结果。
在本实施例中,以车辆图像为例,标签共有:红色、白色、黑色三种类别,标签为红色的车辆图像作为辅助信息的图像的张数为5张,白色的为10张,黑色为8张。
本实施例还提供了一种合成图像标签的表示方式:,其中,/>为合成图像的标签,/>为噪声估计器的数量,/>为标签的待蒸馏图像作为辅助信息的图像的张数。
在本实施例中,为了达到最大的压缩比,可以将待蒸馏图像的标签与噪声估计器的数量相同、且待蒸馏图像与噪声估计器一一对应。例如,噪声估计器为个,则每次可以将T张待蒸馏图像压缩成一张合成图像,此时的蒸馏压缩比为/>。通常情况下/>可以设置为20,此时可以将数据压缩数据为原数据集大小的5%。
为了执行上述实施例及各个可能的实施方式中的相应步骤,下面分别给出一种图像蒸馏装置100的实现方式,应用于电子设备。请参照图7,图7为本发明实施例提供的图像蒸馏装置的方框示意图,需要说明的是,本实施例所提供的图像蒸馏装置100,其基本原理及产生的技术效果和对应的上述实施例相同,为简要描述,本实施例部分未提及指出。
图像蒸馏装置100包括获取模块110和蒸馏模块120。
获取模块110,用于获取噪声图像及多张待蒸馏图像;
蒸馏模块120,用于利用预先训练的多个噪声估计器对噪声图像进行反向去噪,并将多张待蒸馏图像作为去噪时添加的辅助信息,以将多张待蒸馏图像蒸馏成一张合成图像,噪声估计器用于估计噪声图像的噪声,噪声图像是对样本图像进行前向加噪后得到的,合成图像包括多张待蒸馏图像的图像信息。
在可选的实施方式中,蒸馏模块120具体用于:利用第一预设编码器对噪声图像进行编码,得到第一初始向量;将多个噪声估计器依次编号,并将第一个噪声估计器作为初始噪声估计器;从待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对目标待蒸馏图像进行编码,得到第二初始向量,第二预设编码器的性能高于第一预设编码器;将第一初始向量和第二初始向量输入至初始噪声估计器进行反向去噪,得到隐空间特征向量;将隐空间特征向量作为第一初始向量,将初始噪声估计器的下一个噪声估计器作为初始噪声估计器,返回“从待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对目标待蒸馏图像进行编码,得到第二初始向量”的步骤,直至得到最后一个噪声估计器输出的隐空间特征向量;利用预设解码器对最后一个噪声估计器输出的隐空间特征向量进行解码,得到合成图像。
在可选的实施方式中,蒸馏模块120在具体用于从待蒸馏图像中选择目标待蒸馏图像时,具体用于:从待蒸馏图像中随机选择一张作为目标待蒸馏图像。
在可选的实施方式中,蒸馏模块120在具体用于从待蒸馏图像中选择目标待蒸馏图像时,具体还用于:将与初始噪声估计器对应的待蒸馏图像作为目标待蒸馏图像。
在可选的实施方式中,每一待蒸馏图像均对应各自的标签,在将待蒸馏图像作为模型训练样本时标签表征待蒸馏图像所属的类别或结果,蒸馏模块120还用于:获取噪声估计器的数量;统计每一标签的待蒸馏图像作为辅助信息的图像的张数;根据噪声估计器的数量及每一张数确定将每一标签的待蒸馏图像作为辅助信息的概率分布,并将概率分布作为合成图像的标签,在将合成图像作为模型训练样本时合成图像的标签表征合成图像所属的类别或结果。
在可选的实施方式中,蒸馏模块120中合成图像的标签表示为:,其中,/>为合成图像的标签,/>为噪声估计器的数量,为标签/>的待蒸馏图像作为辅助信息的图像的张数。
在可选的实施方式中,蒸馏模块120,待蒸馏图像的标签与噪声估计器的数量相同、且待蒸馏图像与噪声估计器一一对应。
本发明实施例还提供了电子设备10的方框示意图,前述实施例中的实现上述实施例的图像蒸馏方法,或者实现上述实施例的图像蒸馏方法应用于该电子设备10,需要说明的是,请参照图8,图8示出了本发明实施例提供的电子设备10的方框示意图,电子设备10包括处理器11、存储器12和总线13,处理器11和存储器12通过总线13连接。
处理器11可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述实施例的图像蒸馏方法,或者上述实施例的图像蒸馏方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit, CPU)、网络处理器(Network Processor, NP)等;还可以是数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(ApplicationSpecific Integrated Circuit, ASIC)、现场可编程逻辑门阵列(Field ProgrammableLogic Gate Array, FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储实现上述实施例的图像蒸馏方法的程序,该程序可以是以软件或固件(firmware)的形式存储于存储器12中或固化在电子设备10的操作系统(OperatingSystem,OS)中的软件功能模块。处理器11在接收到执行指令后,执行程序以实现上述实施例揭示的图像蒸馏方法。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项的图像蒸馏方法。
综上所述,本发明实施例提供了一种图像蒸馏方法、装置、电子设备和计算机可读存储介质,所述方法包括:获取噪声图像及多张待蒸馏图像;利用预先训练的多个噪声估计器对噪声图像进行反向去噪,并将多张待蒸馏图像作为去噪时添加的辅助信息,以将多张待蒸馏图像蒸馏成一张合成图像,噪声估计器用于估计噪声图像的噪声,噪声图像是对样本图像进行前向加噪后得到的,合成图像包括多张待蒸馏图像的图像信息。与现有技术相比,本实施例能够在图像数据蒸馏时降低其对算力的要求,同时达到较好的蒸馏效果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图像蒸馏方法,其特征在于,所述方法包括:
获取噪声图像及多张待蒸馏图像;
利用预先训练的多个噪声估计器对所述噪声图像进行反向去噪,并将所述多张待蒸馏图像作为去噪时添加的辅助信息,以将所述多张待蒸馏图像蒸馏成一张合成图像,所述噪声估计器用于估计所述噪声图像的噪声,所述噪声图像是对样本图像进行前向加噪后得到的,所述合成图像包括所述多张待蒸馏图像的图像信息。
2.如权利要求1所述的图像蒸馏方法,其特征在于,所述利用预先训练的多个噪声估计器对所述噪声图像进行反向去噪,并将所述多张待蒸馏图像作为去噪时添加的辅助信息,以将所述多张待蒸馏图像蒸馏成一张合成图像的步骤包括:
利用第一预设编码器对所述噪声图像进行编码,得到第一初始向量;
将所述多个噪声估计器依次编号,并将第一个噪声估计器作为初始噪声估计器;
从所述待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对所述目标待蒸馏图像进行编码,得到第二初始向量,所述第二预设编码器的性能高于所述第一预设编码器;
将所述第一初始向量和所述第二初始向量输入至所述初始噪声估计器进行反向去噪,得到隐空间特征向量;
将所述隐空间特征向量作为所述第一初始向量,将所述初始噪声估计器的下一个噪声估计器作为初始噪声估计器,返回所述“从所述待蒸馏图像中选择目标待蒸馏图像,并利用第二预设编码器对所述目标待蒸馏图像进行编码,得到第二初始向量”的步骤,直至得到最后一个噪声估计器输出的隐空间特征向量;
利用预设解码器对最后一个噪声估计器输出的隐空间特征向量进行解码,得到所述合成图像。
3.如权利要求2所述的图像蒸馏方法,其特征在于,所述从所述待蒸馏图像中选择目标待蒸馏图像的步骤包括:
从所述待蒸馏图像中随机选择一张作为所述目标待蒸馏图像。
4.如权利要求2所述的图像蒸馏方法,其特征在于,所述待蒸馏图像与所述噪声估计器一一对应,所述从所述待蒸馏图像中选择目标待蒸馏图像的步骤包括:
将与所述初始噪声估计器对应的待蒸馏图像作为所述目标待蒸馏图像。
5.如权利要求1所述的图像蒸馏方法,其特征在于,每一所述待蒸馏图像均对应各自的标签,在将所述待蒸馏图像作为模型训练样本时所述标签表征所述待蒸馏图像所属的类别或结果,所述方法还包括:
获取所述噪声估计器的数量;
统计每一标签的待蒸馏图像作为辅助信息的图像的张数;
根据所述噪声估计器的数量及每一所述张数确定将每一标签的待蒸馏图像作为辅助信息的概率分布,并将所述概率分布作为所述合成图像的标签,在将所述合成图像作为模型训练样本时所述合成图像的标签表征所述合成图像所属的类别或结果。
6.如权利要求5所述的图像蒸馏方法,其特征在于,所述合成图像的标签表示为:,其中,/>为所述合成图像的标签,/>为所述噪声估计器的数量,/>为标签/>的待蒸馏图像作为辅助信息的图像的张数。
7.如权利要求5所述的图像蒸馏方法,其特征在于,所述待蒸馏图像的标签与所述噪声估计器的数量相同、且所述待蒸馏图像与所述噪声估计器一一对应。
8.一种图像蒸馏装置,其特征在于,所述装置包括:
获取模块,用于获取噪声图像及多张待蒸馏图像;
蒸馏模块,用于利用预先训练的多个噪声估计器对所述噪声图像进行反向去噪,并将所述多张待蒸馏图像作为去噪时添加的辅助信息,以将所述多张待蒸馏图像蒸馏成一张合成图像,所述噪声估计器用于估计所述噪声图像的噪声,所述噪声图像是对样本图像进行前向加噪后得到的,所述合成图像包括所述多张待蒸馏图像的图像信息。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现权利要求1-7中任一项所述的图像蒸馏方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的图像蒸馏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410052250.3A CN117576518B (zh) | 2024-01-15 | 2024-01-15 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410052250.3A CN117576518B (zh) | 2024-01-15 | 2024-01-15 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576518A true CN117576518A (zh) | 2024-02-20 |
CN117576518B CN117576518B (zh) | 2024-04-23 |
Family
ID=89864619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410052250.3A Active CN117576518B (zh) | 2024-01-15 | 2024-01-15 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576518B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652049A (zh) * | 2020-04-17 | 2020-09-11 | 北京三快在线科技有限公司 | 人脸图像处理模型训练方法、装置、电子设备及存储介质 |
CN113988154A (zh) * | 2021-09-27 | 2022-01-28 | 电子科技大学长三角研究院(衢州) | 一种基于不变信息蒸馏的无监督解耦图像生成方法 |
CN115409157A (zh) * | 2022-08-25 | 2022-11-29 | 浙江大学 | 一种基于学生反馈的无数据知识蒸馏方法 |
US20220383072A1 (en) * | 2021-05-28 | 2022-12-01 | Samsung Sds Co., Ltd. | Knowledge distillation method based on regression task and computing device for executing the method |
WO2023024406A1 (zh) * | 2021-08-27 | 2023-03-02 | 上海商汤智能科技有限公司 | 数据蒸馏的方法、装置、设备、存储介质、计算机程序及产品 |
CN115761414A (zh) * | 2022-12-01 | 2023-03-07 | 中国科学院计算技术研究所 | 一种鲁棒数据集蒸馏方法及系统 |
CN116228896A (zh) * | 2023-03-10 | 2023-06-06 | 北京百度网讯科技有限公司 | 图像脱敏方法、模型训练方法、装置、设备及存储介质 |
CN116503608A (zh) * | 2023-04-20 | 2023-07-28 | 平安科技(深圳)有限公司 | 基于人工智能的数据蒸馏方法及相关设备 |
CN116542321A (zh) * | 2023-07-06 | 2023-08-04 | 中科南京人工智能创新研究院 | 基于扩散模型的图像生成模型压缩和加速方法及系统 |
CN116664450A (zh) * | 2023-07-26 | 2023-08-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩散模型的图像增强方法、装置、设备及存储介质 |
CN116862885A (zh) * | 2023-07-14 | 2023-10-10 | 江苏济远医疗科技有限公司 | 超声图像病变检测的分割引导去噪知识蒸馏方法及装置 |
CN116958548A (zh) * | 2023-07-21 | 2023-10-27 | 中国矿业大学 | 基于类别统计驱动的伪标签自蒸馏语义分割方法 |
CN117274657A (zh) * | 2023-06-12 | 2023-12-22 | 广西大学 | 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 |
CN117291232A (zh) * | 2023-10-08 | 2023-12-26 | 四川启睿克科技有限公司 | 一种基于扩散模型的图像生成方法与装置 |
-
2024
- 2024-01-15 CN CN202410052250.3A patent/CN117576518B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652049A (zh) * | 2020-04-17 | 2020-09-11 | 北京三快在线科技有限公司 | 人脸图像处理模型训练方法、装置、电子设备及存储介质 |
US20220383072A1 (en) * | 2021-05-28 | 2022-12-01 | Samsung Sds Co., Ltd. | Knowledge distillation method based on regression task and computing device for executing the method |
WO2023024406A1 (zh) * | 2021-08-27 | 2023-03-02 | 上海商汤智能科技有限公司 | 数据蒸馏的方法、装置、设备、存储介质、计算机程序及产品 |
CN113988154A (zh) * | 2021-09-27 | 2022-01-28 | 电子科技大学长三角研究院(衢州) | 一种基于不变信息蒸馏的无监督解耦图像生成方法 |
CN115409157A (zh) * | 2022-08-25 | 2022-11-29 | 浙江大学 | 一种基于学生反馈的无数据知识蒸馏方法 |
CN115761414A (zh) * | 2022-12-01 | 2023-03-07 | 中国科学院计算技术研究所 | 一种鲁棒数据集蒸馏方法及系统 |
CN116228896A (zh) * | 2023-03-10 | 2023-06-06 | 北京百度网讯科技有限公司 | 图像脱敏方法、模型训练方法、装置、设备及存储介质 |
CN116503608A (zh) * | 2023-04-20 | 2023-07-28 | 平安科技(深圳)有限公司 | 基于人工智能的数据蒸馏方法及相关设备 |
CN117274657A (zh) * | 2023-06-12 | 2023-12-22 | 广西大学 | 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 |
CN116542321A (zh) * | 2023-07-06 | 2023-08-04 | 中科南京人工智能创新研究院 | 基于扩散模型的图像生成模型压缩和加速方法及系统 |
CN116862885A (zh) * | 2023-07-14 | 2023-10-10 | 江苏济远医疗科技有限公司 | 超声图像病变检测的分割引导去噪知识蒸馏方法及装置 |
CN116958548A (zh) * | 2023-07-21 | 2023-10-27 | 中国矿业大学 | 基于类别统计驱动的伪标签自蒸馏语义分割方法 |
CN116664450A (zh) * | 2023-07-26 | 2023-08-29 | 国网浙江省电力有限公司信息通信分公司 | 基于扩散模型的图像增强方法、装置、设备及存储介质 |
CN117291232A (zh) * | 2023-10-08 | 2023-12-26 | 四川启睿克科技有限公司 | 一种基于扩散模型的图像生成方法与装置 |
Non-Patent Citations (5)
Title |
---|
TIMOTHY NGUYEN等: "Dataset Distillation with InfinitelyWide Convolutional Networks", 《ARXIV:2107.13034V3》, 17 January 2022 (2022-01-17), pages 1 - 25 * |
TONGZHOUWANG等: "DATASET DISTILLATION", 《ARXIV:1811.10959V3》, 24 February 2020 (2020-02-24), pages 1 - 14 * |
庄晓淦: "面向人脸图像分类的数据集蒸馏算法研究", 《万方数据》, 2 October 2023 (2023-10-02), pages 1 - 79 * |
葛胤池等: "基于隐空间扩散模型的差分隐私数据合成方法研究", 《计算机科学》, 9 January 2024 (2024-01-09), pages 1 - 17 * |
黄贻望: "一种基于在线蒸馏的轻量化噪声标签学习方法", 《计算机研究与发展》, 8 January 2024 (2024-01-08), pages 1 - 14 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576518B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114663670A (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
Yu et al. | Band-specified virtual dimensionality for band selection: An orthogonal subspace projection approach | |
CN109977832B (zh) | 一种图像处理方法、装置及存储介质 | |
US20170091613A1 (en) | Computational device, computational method, and computer program product | |
CN111027576A (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN114463805B (zh) | 深度伪造检测方法、装置、存储介质及计算机设备 | |
CN112001931A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN115982736B (zh) | 用于计算机网络信息的数据加密方法及系统 | |
Guo et al. | Multiple deep features learning for object retrieval in surveillance videos | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
Khurshid et al. | A residual-dyad encoder discriminator network for remote sensing image matching | |
Wang | Remote sensing image semantic segmentation algorithm based on improved ENet network | |
CN114332993A (zh) | 人脸识别方法、装置、电子设备及计算机可读存储介质 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN117576518B (zh) | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 | |
CN116563597A (zh) | 图像识别模型训练方法、识别方法、设备、介质及产品 | |
CN116630768A (zh) | 目标检测方法和装置、电子设备及存储介质 | |
CN113762231B (zh) | 端对端的多行人姿态跟踪方法、装置及电子设备 | |
CN114359633A (zh) | 高光谱图像聚类方法、装置、电子设备及存储介质 | |
CN112380369B (zh) | 图像检索模型的训练方法、装置、设备和存储介质 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
Li et al. | No‐reference image quality assessment based on multiscale feature representation | |
CN113537491A (zh) | 神经网络训练方法、设备及计算机可读介质 | |
CN112016571A (zh) | 一种基于注意力机制的特征提取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |