CN116071275B - 基于在线知识蒸馏和预训练先验的人脸图像修复方法 - Google Patents
基于在线知识蒸馏和预训练先验的人脸图像修复方法 Download PDFInfo
- Publication number
- CN116071275B CN116071275B CN202310319275.0A CN202310319275A CN116071275B CN 116071275 B CN116071275 B CN 116071275B CN 202310319275 A CN202310319275 A CN 202310319275A CN 116071275 B CN116071275 B CN 116071275B
- Authority
- CN
- China
- Prior art keywords
- face image
- network
- representing
- convolution
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 28
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000013135 deep learning Methods 0.000 claims abstract description 5
- 230000008439 repair process Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 230000008447 perception Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004821 distillation Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 101100022323 Drosophila melanogaster Marf gene Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于在线知识蒸馏和预训练先验的人脸图像修复方法,涉及图像信号处理技术领域。基于在线知识蒸馏和预训练先验的人脸图像修复方法,包括如下步骤:S1、建立缺失人脸图像数据集;S2、构建网络架构;S3、设计人脸图像修复方案,并依据所设计的方案搭建人脸图像修复模型;S4、利用深度学习Pytorch框架训练模型;S5、向模型中输入缺失人脸图像数据集中的测试数据对,获得人脸图像修复结果;本发明利用提出的多级空洞卷积残差块、基于在线知识蒸馏的特征先验获取方法和基于预训练鉴别器的先验获取方法,将人脸图像修复性能提升到了新的高度。
Description
技术领域
本发明涉及图像信号处理技术领域,尤其涉及一种基于在线知识蒸馏和预训练先验的人脸图像修复方法。
背景技术
人脸图像修复旨在补全输入人脸图像中的缺失区域,生成令人满意的高质量修复结果,其可以应用于人脸去遮挡、表情预测等诸多实际问题中;人脸图像修复面临缺失区域和缺失面积不固定,缺失形状具有随机性等诸多挑战,当存在大面积缺失时,直接修复缺失人脸图像是十分困难的;近年来,人脸图像修复已从传统的数学模型转向基于神经网络的深度学习方法;
这些方法中多采用多阶段的修复思路,即将人脸图像修复解耦成两个子任务:首先修复人脸语义分割图,人脸关键点等信息,再利用这些信息帮助修复网络生成最终的修复结果;然而,这些信息只提供了语义上的指导,无法较好地利用全局的上下文信息,并且多阶段方法面临错误在不同阶段传递放大的问题;最近,在图像去雾任务中,有研究者提出利用离线知识蒸馏提取无雾图像的特征,对去雾网络的特征进行监督;但是,由于缺失人脸图像和无缺失人脸图像特征图间的差异太大,仅靠离线知识蒸馏无法克服两者间的差异,因此离线知识蒸馏并不适合人脸图像修复任务。
另一方面,有研究者通过移植人脸生成任务预训练生成对抗网络中的生成器到人脸超分等任务中,以获得预训练生成器中的先验信息;然而,移植生成器的难度很高,并且当存在大面积缺失时预训练生成器可能会不能正常地工作;相反,预训练生成对抗网络的鉴别器中同样有丰富的先验信息,并且能方便地部署在其他相关的任务中,因此探索预训练鉴别器中的先验信息同样具备研究价值。除此之外,提高修复网络的感受野能使其更好的感知缺失人脸图像的全局上下文信息,是一个提高修复性能的有效方式。
发明内容
本发明的目的在于生成高质量的人脸图像修复结果,并在此基础上提出一个基于在线知识蒸馏和预训练先验的人脸图像修复方法。
为了实现上述目的,本发明采用了如下技术方案:
基于在线知识蒸馏和预训练先验的人脸图像修复方法,具体包括以下步骤:
S1、建立缺失人脸图像数据集:给定无缺失人脸图像I gt ,随机挑选掩码M,通过掩码M去除无缺失人脸图像中的部分区域得到缺失人脸图像I in ,获得输入数据对(I in ,M),进而获得缺失人脸图像数据集;
S2、构建网络框架:设计一个由自动编码器构成的轻量的教师网络G t (重建网络),一个负责对人脸图像进行修复的学生网络G s (修复网络)以及一个多尺度鉴别器D,利用教师网络G t (重建网络)和学生网络G s (修复网络)共同构成知识蒸馏框架,利用学生网络G s (修复网络)和多尺度鉴别器D共同构成生成对抗网络框架;
S3、设计方案、搭建模型:基于特征先验和鉴别器先验,结合S1~S2中所述缺失人脸图像数据集和网络框架设计人脸图像修复方案,并依据所设计的方案搭建人脸图像修复模型,所述方案具体包括如下内容:
①缺失区域特征修复:将S1中所得的数据对(I in ,M)输入学生网络G(修复网络) s ,首先通过输入卷积层变成特征图,之后编码器每两层卷积层通过一个步长为2的3×3卷积层将特征图尺度缩小3次;随后,编码后的特征图通过中间模块处理,生成修复后的缺失人脸图像特征图,记作F in ;所述中间模块由10个多级空洞卷积残差块组成;
②多级空洞卷积残差块处理:将特征图x输入多级空洞卷积残差块,使其分离成四组新的特征图,将新的特征图重新拼接后输入一个额外的3×3卷积层,最后将其与输入特征图x相加形成残差结构;
③基于在线知识蒸馏的特征先验获取:将教师网络G t (重建网络)设计成一个输入为无缺失人脸图像的轻量的编解码网络,获得来自教师网络G t (重建网络)的特征图中的先验信息;
④多尺度输出:将学生网络G s (修复网络)中的特征图通过解码器输出多个尺度的修复结果;
⑤基于预训练鉴别器的先验获取:训练一个用于人脸图像生成的StyleGAN网络,获取StyleGAN的鉴别器作为特征提取器,利用特征提取器获取来自预训练生成对抗网络鉴别器中的先验信息;
⑥多尺度鉴别器处理:将多个尺度的无缺失人脸图像和学生网络G s (修复网络)输出的多个尺度的修复图像输入多尺度鉴别器D进行对抗;
⑦损失函数模块设计:将教师网络G t (重建网络)通过在线知识蒸馏损失和重建损失进行联合优化;将学生网络G s (修复网络)通过在线知识蒸馏损失、人脸感知损失、人脸风格损失、对抗损失以及输出的多个尺度图像和相应尺度无缺失人脸图像间的L1损失进行联合优化;将多尺度鉴别器D通过WGAN-GP中的鉴别器损失进行优化;
S4、训练模型:利用深度学习Pytorch框架训练模型,遍历S1中所构建的缺失人脸图像数据集直到学生网络损失函数收敛,然后减小学习率至0.00001,再继续遍历缺失人脸图像数据集若干次,得到最终的稳定模型;
S5、输出结果:将S1中获得的缺失人脸图像数据集中的数据对输入到稳定模型中,获得人脸图像修复结果。
优选地,所述方案②进一步包括以下内容:
假设输入多级空洞卷积残差块的第n组特征图为x n ,则多级空洞卷积的操作如下:
式中,ψ n 表示空洞率为n的3×3卷积层;y n 表示卷积层ψ n 的输出;
所述多级空洞卷积残差块中所有卷积层完成卷积后,均使用LeakyRelu激活函数和分组归一化函数进行进一步处理。
优选地,所述方案③具体包括以下内容:
3.2)、教师网络G t (重建网络)的编码器与学生网络G s (修复网络)的编码器结构保持一致,教师网络G t (重建网络)的解码器与学生网络G s (修复网络)的解码器结构对称,通过步长为2的3×3反卷积层进行上采样;
3.3)、计算重建人脸图像与无缺失人脸图像之间的重建损失,具体计算公式为:
3.4)、将学生网络G s (修复网络)的特征图记作F in ,F gt 通过在线知识蒸馏损失对F in 进行监督,使学生网络G s (修复网络)获取到特征先验,具体计算公式为:
3.5)、将同时回传给教师网络G t (重建网络)和学生网络G s (修复网络),使教师网络G t (重建网络)与学生网络G s (修复网络)相互学习,克服F gt 和F in 在数据分布上的差异,最终形成一个跨任务在线知识蒸馏框架;
优选地,所述方案④具体包括以下内容:
学生网络G s (修复网络)中的特征图通过学生网络G s (修复网络)的解码器输出多个尺度的修复结果,每一级尺度的解码器在收到来自上一级尺度的特征图后,首先通过1×1卷积和PixelShuffle将特征图的尺度放大,然后通过两个中间卷积层和一个输出卷积层输出当前尺度的修复结果,具体计算公式为:
优选地,所述方案⑤进一步包括以下内容:
计算无缺失人脸图像和修复图像在StyleGAN鉴别器中特征图间的人脸风格损失和人脸感知损失,进而获取鉴别器先验;所述人脸感知损失函数如下:
式中,N表示鉴别器中卷积块的个数;Φ j 表示StyleGAN鉴别器中的第j个卷积块;表示学生网络解码器第一个尺度的修复结果;/>表示第j个卷积块输出特征图的大小;C表示卷积块输出的特征图通道数目、H表示卷积块输出的特征图高度、W表示卷积块输出的特征图宽度;
所述人脸风格损失函数如下:
所述人脸风格损失函数和人脸感知损失函数使用相同卷积块输出特征图,其中Gram矩阵(GM)的运算方式如下:
式中,m,n表示输入特征图F在通道维度上的索引,p表示特征图F在空间维度上的索引。
与现有技术相比,本发明提供了基于在线知识蒸馏和预训练先验的人脸图像修复方法,具备以下有益效果:
(1)本发明基于特征先验和鉴别器先验提出了一种人脸图像修复方法;特征先验的获取通过利用跨任务的在线知识蒸馏获取教师网络特征中的先验信息;鉴别器先验的获取通过将预训练鉴别器作为特征提取器,利用人脸感知损失和人脸风格损失获取鉴别器的先验信息。
(2)本发明提出了一个多级空洞卷积残差块结构,能提高修复网络的感受野加强网络对缺失人脸图像全局上下文信息的感知,并且多级空洞卷积结构能自适应地利用不同数量和不同结合方式的感受野来对缺失区域进行修复。
(3)基于本发明所进行的实验表明,所提出的方法优于目前主流的人脸图像修复方法;经过本发明的研究探索,能够启发更多利用深度网络中先验信息的研究。
附图说明
图1为本发明提出的基于在线知识蒸馏和预训练先验的人脸图像修复方法的整体框架图;
图2为本发明实施例1中提出的教师网络结构图;
图3为本发明实施例1中提出的学生网络结构图;
图4为本发明实施例1中提出的多级空洞卷积残差块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
请参阅图1,本发明提出一种基于在线知识蒸馏和预训练先验的人脸图像修复方法,包括以下步骤:
S1、建立缺失人脸图像数据集:给定无缺失人脸图像I gt ,随机挑选掩码M,通过掩码M去除无缺失人脸图像中的部分区域得到缺失人脸图像I in ,获得输入数据对(I in ,M),进而获得缺失人脸图像数据集;
S2、构建网络框架:设计一个由自动编码器构成的轻量的教师网络G t (重建网络),一个负责对人脸图像进行修复的学生网络G s (修复网络)以及一个多尺度鉴别器D,利用教师网络G t (重建网络)和学生网络G s (修复网络)共同构成知识蒸馏框架,利用学生网络G s (修复网络)和多尺度鉴别器D共同构成生成对抗网络框架;
S3、设计方案、搭建模型:基于特征先验和鉴别器先验,结合S1~S2中所述缺失人脸图像数据集和网络框架设计人脸图像修复方案,并依据所设计的方案搭建人脸图像修复模型;
S4、训练模型:利用深度学习Pytorch框架训练模型,遍历S1中所构建的缺失人脸图像数据集直到学生网络损失函数收敛,然后减小学习率至0.00001,再继续遍历缺失人脸图像数据集若干次,得到最终的稳定模型;
S5、输出结果:将S1中获得的缺失人脸图像数据集中的数据对输入到稳定模型中,获得人脸图像修复结果。
针对上述方法,更进一步包括如下内容:
3.1 教师网络G t (重建网络)
教师网络G t (重建网络)的目标是学习一个自动编码器,使网络产生的中间特征图能表达输入无缺失人脸图像的重要结构等先验信息。如图2所示,为了学习到无缺失人脸图像的先验信息,将教师网络G t (重建网络)设计为一个无缺失人脸图像I gt 的编解码网络,其首先通过编码器将无缺失人脸图像映射成具有代表性的无缺失特征F gt ,再通过解码器恢复成重建人脸图像I re 。通常来说,更有代表性的特征会引导网络生成更好的重建结果,编码器由三个级联的卷积块构成,卷积层都使用的是 3×3 的卷积核,特征图尺度的缩小与放大通过步长为 2 的卷积和反卷积实现,解码器的结构与编码器对称,激活函数统一使用的LeakyRelu 函数。需要注意的是,教师网络G t (重建网络)只在训练阶段使用。
3.2 学生网络G s (修复网络)
学生网络G s (修复网络)学生网络负责完成人脸图像的修复任务,它的输入是缺失人脸图像I m 以及对应的掩码M,输出是不同尺度的修复图像。学生网络G s (修复网络)的结构如图3所示,是一个带有跳跃连接的 U 形网络,可以划分为编码器、中间模块以及解码器三部分。在输入缺失人脸图像和掩码被学生网络的输入卷积层变成特征图后,编码器中每经过两层卷积层会通过一个步长为 2 的卷积层将特征图的尺度降低 3 次,然后通过 10 个多级空洞卷积残差块组成的中间模块。多级空洞卷积残差块的结构如图4所示,在该模块中,输入的特征图x会首先在通道上分离成 4 组特征图,每组特征图都有相同的空间大小但是通道数为原来的四分之一。给第 n 组特征图取名为x n ,多级空洞卷积残差块的操作如下:
式中,ψ n 表示空洞率为n的3×3卷积层;y n 表示卷积层ψ n 的输出。
随后输出的特征图y 1、y 2、y 3以及y 4在通道拼接后会输入一个额外的 3×3 卷积层,最后与输入x相加。多级空段卷积残差块中所有的卷积层后面都使用了 LeakyRelu 激活函数和分组归一化函数。
本发明引入多级空洞卷积残差块主要有以下两点原因:一是当修复网络面临大面积缺失时,需要更大的感受野来感知全局的信息,而使用多级空洞卷积的网络能自适应地利用不同数量和不同结合方式感受野来提取特征。其次,使用多级的空洞卷积相较与普通的级联卷积层,多级空洞卷积在获得差不多的感受野时能有更小的计算复杂度。在依次通过 10 个多级空洞残差块后,网络获得了具有代表性的特征图F m ,由于修复结果只能通过对F m 解码获得,因此修复好特征F m 应该接近于教师网络中的获得的无缺失特征图F gt 。最后特征图F m 会通过解码器输出不同尺度的修复结果。在解码器中,每一级解码器在收到上一尺度的特征图后,会通过 1×1 卷积和 Pixel Shuffle将特征图尺度放大,然后通过两个中间卷积层和输出卷积层输出当前尺度的修复图像:
式中,和/>表示两个中间卷积层;/>表示输出卷积层;/>和/>表示来自上一尺度的特征图和来自跳跃连接的特征图(当i=3时,F i+1=F m );/>表示1×1卷积和PixelShuffle的联合操作,concat表示通道拼接。
在输入多尺度鉴别器前,对学生网络G s (修复网络)的输出图像的非缺失区域进行替换操作:
式中,M i 和I mi 表示不同尺度下的掩码和输入缺失人脸图像,小尺度的掩码和缺失人脸图像分别通过对大尺度图像和掩码进行最近邻插值生成。
3.3 基于在线知识蒸馏的特征先验获取
随着缺失区域的增大,人脸图像信息的缺失严重影响了人脸图像修复的进行。一个简单有效的策略就是先恢复一些人脸图像的信息,再将它们输入到后续人脸图像修复网络之中。不同于人脸关键点和人脸语义分割图这些只提供了语义指导而缺乏全局信息的方式,本发明提出获取来自一张无缺失人脸图像在深度神经网络(教师网络)中的包含全局信息的中间特征图,并利用知识蒸馏模型将这些先验信息“教给”学生网络。为了获得中间特征图Fgt,本发明训练了一个由自动编解码器构成的教师网络,教师网络的重建损失函数是一个一范数损失:
式中,I re 表示重建后的人脸图像。如果I re 能被很好地重建,F gt 就能很好地代表输入人脸图像的内容。因此,本发明利用F gt 来对学生网络产生的特征图F m 进行蒸馏。然而,如果进行离线蒸馏,本发明在实验中发现预训练好的教师网络产生的特征图F gt 和学生网络生成的特征图F m 间存在一个数据分布上的间隙。为了克服两者之间在分布上的间隙,本发明提出使用跨任务在线蒸馏让教师网络和学生网络互相收敛到同一个合适的点上。这一机制能使教师网络和学生网络相互学习,这样即便它们处理的任务不同并且网络结构也不同,也能有相同的中间特征图分布,跨任务在线知识蒸馏损失如下:
3.4 基于预训练鉴别器的先验获取
本发明提出利用 StyleGAN 中的鉴别器来代替 VGG 作为人脸特征的提取模块,并提出了相应的人脸感知损失和人脸风格损失。和 VGG 感知损失相似,人脸感知损失如下:
式中,N表示鉴别器中卷积块的个数;Φ j 表示StyleGAN鉴别器中的第j个卷积块;表示学生网络解码器第一个尺度的修复结果;/>表示第j个卷积块输出特征图的大小;C表示卷积块输出的特征图通道数目、H表示卷积块输出的特征图高度、W表示卷积块输出的特征图宽度。本发明共使用了 4 个卷积块/> 1,/> 2,/> 3以及/> 4,所以 N = 4,各个卷积块输出特征图的大小分别为128×128,64×64,32×32以及16×16。除了人脸感知损失,本发明提出的人脸风格损失如下:
在本发明中,计算人脸风格损失时使用的是和人脸感知损失相同的卷积块。
3.5 损失函数
在学生网络训练时,总共使用了 5 个不同的损失,分别为:跨任务在线知识蒸馏损失,人脸感知损失L fp ,人脸风格损失L fs ,多尺度重建损失/>和对抗损失L adv 。其中,多尺度重建损失/>和对抗损失L adv 如下:
式中,由于有三个不同的尺度,因此 k = 3。总的来说,学生网络的损失函数如下:
式中,λ re ,λ fs ,λ fp ,λ on 和λ adv 是各损失的权重。
教师网络的损失函数包括重建损失和跨任务在线知识蒸馏损失,损失函数如下:
式中β表示权重。在每次迭代中,会首先最小化教师网络的损失L t 来更新教师网络的参数,然后最小化鉴别器的损失函数L D 来更新多尺度鉴别器的参数,最后最小化学生网络的损失函数L s 来更新学生网络的参数。
实施例2:
基于实施例1但有所不同之处在于:
本发明选取7个同在 CelebAHQ 数据集上训练的先进对比方法,包括:CA,GC,PEN,LAFIN,PIC,DMFN以及DSI。在这些方法中,DMFN是 2020 年 ECCVW AIM 极端图像修复挑战的冠军,PIC和 DSI 都是可以生成多个修复结果的多样化方法,其他方法都是只能生成单一结果的唯一解方法。对于多样化方法 PIC 本章报告的是其 50 组结果的平均指标,而DSI 方法由于其生成一张修复结果的时间过长因此只报告了 1 组中心正方形掩码的结果。对于中心正方形掩码,本章测试了所有对比方法的指标,而对于随机形状掩码,由于PEN 并未在随机形状掩码上进行训练以及 CA 的效果不佳,因此两者的指标在对比中被略去。具体结果请参阅表1。
如表1所示,表中展示了在PSNR,SSIM,LPIPS以及FID 指标上的定量对比结果,其中PSNR 和SSIM 是相似度指标数值越大越好,LPIPS和FID 是感知和图像质量的评估指标数值越小越好,表中最优的结果用加粗标出,次优的结果用下划线标出。从表中可以看出,本章的方法在所有指标上实现了优越性。当掩码类型为中心正方形掩码时,本章方法在PSNR、SSIM以及LPIPS 指标上分别超出次优的DMFN 方法0.19dB/0.003/0.0015,在FID 指标上超出次优的DSI 方法0.09。相较于致力于生成多种逼真修复结果的DSI 方法,本方法在LPIPS 和FID 指标上超越证明了本章方法良好的生成能力,而相较于同样使用了VGG 感知损失的LAFIN ,本方法在4 个指标上分别超出了0.55dB/0.04/0.0036/1.09。这些结果证明了本发明提出的全局特征监督和鉴别器先验获取的有效性。当掩码类型为随机形状掩码时,本方法和所有对比方法间都有一个很大的间隔,相较于次优的LAFIN方法在四个指标上超出了0.66dB/0.007/0.007/1.54。这一方面是因为随着缺失率的不断增大,对网络修复能力的要求不断提高。另一方面是本章提出的全局特征监督不仅能针对人脸图像的局部区域进行优化,还能对头发、背景等图像的全局区域进行优化,而随机形状掩码很多时候遮挡了背景区域和头发区域,因此本发明所提出的方法会有更好的表现。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.基于在线知识蒸馏和预训练先验的人脸图像修复方法,其特征在于,具体包括以下步骤:
S1、建立缺失人脸图像数据集:给定无缺失人脸图像I gt ,随机挑选掩码M,通过掩码M去除无缺失人脸图像I gt 中的部分区域得到缺失人脸图像I in ,获得输入数据对(I in ,M),进而获得缺失人脸图像数据集;
S2、构建网络框架:设计一个由自动编码器构成的轻量的教师网络G t ,一个负责对人脸图像进行修复的学生网络G s 以及一个多尺度鉴别器D,利用教师网络G t 和学生网络G s 共同构成知识蒸馏框架,利用学生网络G s 和多尺度鉴别器D共同构成生成对抗网络框架;
S3、设计方案、搭建模型:基于特征先验和鉴别器先验,结合S1~S2中所述缺失人脸图像数据集和网络框架设计人脸图像修复方案,并依据所设计的方案搭建人脸图像修复模型,所述方案具体包括如下内容:
①缺失区域特征修复:将S1中所得的数据对(I in ,M)输入学生网络G s ,首先通过输入卷积层变成特征图,之后编码器每两层卷积层通过一个步长为2的3×3卷积层将特征图尺度缩小3次;随后,编码后的特征图通过中间模块处理,生成修复后的缺失人脸图像特征图,记作F in ;所述中间模块由10个多级空洞卷积残差块组成;
②多级空洞卷积残差块处理:将特征图x输入多级空洞卷积残差块,使其分离成四组新的特征图,将新的特征图重新拼接后输入一个额外的3×3卷积层,最后将其与输入特征图x相加形成残差结构;
③基于在线知识蒸馏的特征先验获取:将教师网络G t 设计成一个输入为无缺失人脸图像的轻量的编解码网络,获得来自教师网络的特征图中的先验信息;
所述方案③具体包括以下内容:
3.2)、教师网络G t 的编码器与学生网络G s 的编码器结构保持一致,教师网络G t 的解码器与学生网络G s 的解码器结构对称,通过步长为2的3×3反卷积层进行上采样;
3.3)、计算重建人脸图像与无缺失人脸图像之间的重建损失,具体计算公式为:
3.4)、将学生网络G s 的特征图记作F in ,F gt 通过在线知识蒸馏损失对F in 进行监督,使学生网络G s 获取到特征先验,具体计算公式为:
④多尺度输出:将学生网络G s 中的特征图通过解码器输出多个尺度的修复结果;
⑤基于预训练鉴别器的先验获取:训练一个用于人脸图像生成的StyleGAN网络,获取StyleGAN的鉴别器作为特征提取器,利用特征提取器获取来自预训练生成对抗网络鉴别器中的先验信息;
⑥多尺度鉴别器处理:将多个尺度的无缺失人脸图像和学生网络G s 输出的多个尺度的修复图像输入多尺度鉴别器D进行对抗;
⑦损失函数模块设计:将教师网络G t 通过在线知识蒸馏损失和重建损失进行联合优化;将学生网络G s 通过在线知识蒸馏损失、人脸感知损失、人脸风格损失、对抗损失以及输出的多个尺度图像和相应尺度无缺失人脸图像间的L1损失进行联合优化;将多尺度鉴别器D通过WGAN-GP中的鉴别器损失进行优化;
S4、训练模型:利用深度学习Pytorch框架训练模型,遍历S1中所构建的缺失人脸图像数据集直到学生网络损失函数收敛,然后减小学习率至0.00001,再继续遍历缺失人脸图像数据集若干次,得到最终的稳定模型;
S5、输出结果:将S1中获得的缺失人脸图像数据集中的数据对输入到稳定模型中,获得人脸图像修复结果。
4.根据权利要求1所述的基于在线知识蒸馏和预训练先验的人脸图像修复方法,其特征在于,所述方案⑤进一步包括以下内容:
计算无缺失人脸图像和修复图像在StyleGAN鉴别器中特征图间的人脸风格损失和人脸感知损失,进而获取鉴别器先验;所述人脸感知损失函数如下:
式中,N表示鉴别器中卷积块的个数;Φ j 表示StyleGAN鉴别器中的第j个卷积块;表示学生网络解码器第一个尺度的修复结果;/>表示第j个卷积块输出特征图的大小;C表示卷积块输出的特征图通道数目、H表示卷积块输出的特征图高度、W表示卷积块输出的特征图宽度;
所述人脸风格损失函数如下:
所述人脸风格损失函数和人脸感知损失函数使用相同卷积块输出特征图,其中Gram矩阵(GM)的运算方式如下:
式中,m,n表示输入特征图F在通道维度上的索引,p表示特征图F在空间维度上的索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310319275.0A CN116071275B (zh) | 2023-03-29 | 2023-03-29 | 基于在线知识蒸馏和预训练先验的人脸图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310319275.0A CN116071275B (zh) | 2023-03-29 | 2023-03-29 | 基于在线知识蒸馏和预训练先验的人脸图像修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116071275A CN116071275A (zh) | 2023-05-05 |
CN116071275B true CN116071275B (zh) | 2023-06-09 |
Family
ID=86171740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310319275.0A Active CN116071275B (zh) | 2023-03-29 | 2023-03-29 | 基于在线知识蒸馏和预训练先验的人脸图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071275B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177888A (zh) * | 2021-04-27 | 2021-07-27 | 北京有竹居网络技术有限公司 | 超分修复网络模型生成方法、图像超分修复方法及装置 |
CN113902630A (zh) * | 2021-09-01 | 2022-01-07 | 西安电子科技大学 | 基于多尺度纹理特征分支的生成对抗网络图像修复方法 |
CN113962893A (zh) * | 2021-10-27 | 2022-01-21 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
CN115331285A (zh) * | 2022-07-29 | 2022-11-11 | 南京邮电大学 | 一种基于多尺度特征知识蒸馏的动态表情识别方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111932445B (zh) * | 2020-07-27 | 2024-07-16 | 广州市百果园信息技术有限公司 | 对风格迁移网络的压缩方法及风格迁移方法、装置和系统 |
CN113240580B (zh) * | 2021-04-09 | 2022-12-27 | 暨南大学 | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 |
KR20230032717A (ko) * | 2021-08-31 | 2023-03-07 | 삼성전자주식회사 | 열화 영상 복원기, 열화 영상을 복원하는 방법 및 장치 |
CN114782265A (zh) * | 2022-04-15 | 2022-07-22 | 南京信息工程大学 | 基于对抗多尺度与残差多通道空间注意力的图像修复方法 |
CN115187706B (zh) * | 2022-06-28 | 2024-04-05 | 北京汉仪创新科技股份有限公司 | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 |
CN115204389B (zh) * | 2022-07-28 | 2024-06-14 | 上海人工智能创新中心 | 一种风格对抗生成网络的知识蒸馏方法 |
-
2023
- 2023-03-29 CN CN202310319275.0A patent/CN116071275B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177888A (zh) * | 2021-04-27 | 2021-07-27 | 北京有竹居网络技术有限公司 | 超分修复网络模型生成方法、图像超分修复方法及装置 |
CN113902630A (zh) * | 2021-09-01 | 2022-01-07 | 西安电子科技大学 | 基于多尺度纹理特征分支的生成对抗网络图像修复方法 |
CN113962893A (zh) * | 2021-10-27 | 2022-01-21 | 山西大学 | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 |
CN115331285A (zh) * | 2022-07-29 | 2022-11-11 | 南京邮电大学 | 一种基于多尺度特征知识蒸馏的动态表情识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116071275A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368662B (zh) | 一种人脸图像属性编辑方法、装置、存储介质及设备 | |
CN109829959B (zh) | 基于人脸解析的表情编辑方法及装置 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN111986075B (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN110009576B (zh) | 一种壁画图像修复模型建立及修复方法 | |
CN112686817B (zh) | 一种基于不确定性估计的图像补全方法 | |
CN112184582B (zh) | 一种基于注意力机制的图像补全方法及装置 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
CN109903236A (zh) | 基于vae-gan与相似块搜索的人脸图像修复方法及装置 | |
CN110188667B (zh) | 一种基于三方对抗生成网络的人脸摆正方法 | |
CN114943656B (zh) | 一种人脸图像修复方法及系统 | |
CN113111906B (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 | |
CN112801914A (zh) | 一种基于纹理结构感知的二段式图像修复方法 | |
CN118196231B (zh) | 一种基于概念分割的终身学习文生图方法 | |
CN116777764A (zh) | 一种基于扩散模型的光学遥感图像去云雾方法及系统 | |
CN116563110A (zh) | 基于Bicubic下采样图像空间对齐的盲图像超分辨率重建方法 | |
CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
CN117788629B (zh) | 一种具有风格个性化的图像生成方法、装置及存储介质 | |
CN116258632A (zh) | 一种基于文本辅助的文本图像超分辨率重建方法 | |
CN111414988A (zh) | 基于多尺度特征自适应融合网络的遥感影像超分辨率方法 | |
CN116071275B (zh) | 基于在线知识蒸馏和预训练先验的人脸图像修复方法 | |
CN117611428A (zh) | 一种时装人物图像风格变换方法 | |
CN116049469A (zh) | 基于参考图的多匹配搜索和超分辨率重建方法 | |
CN115375537A (zh) | 非线性感知多尺度的超分辨率图像生成系统及方法 | |
CN114529794A (zh) | 一种红外与可见光图像融合方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |