CN117391995B - 渐进式人脸图像复原方法、系统、设备及存储介质 - Google Patents
渐进式人脸图像复原方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117391995B CN117391995B CN202311352790.5A CN202311352790A CN117391995B CN 117391995 B CN117391995 B CN 117391995B CN 202311352790 A CN202311352790 A CN 202311352790A CN 117391995 B CN117391995 B CN 117391995B
- Authority
- CN
- China
- Prior art keywords
- residual block
- layer
- upsampling
- image
- gan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000000750 progressive effect Effects 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 111
- 238000004458 analytical method Methods 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000005070 sampling Methods 0.000 claims abstract description 39
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 176
- 230000006870 function Effects 0.000 claims description 57
- 230000007246 mechanism Effects 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 42
- 238000010606 normalization Methods 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 4
- 230000002829 reductive effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000001815 facial effect Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Image Processing (AREA)
Abstract
本发明公开了渐进式人脸图像复原方法、系统、设备及存储介质,将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,其中,解析图潜码预测网络生成解析图高维潜码,图像特征提取网络生成图像高维潜码和多尺度图像特征;随后,GAN先验生成模块将解析图高维潜码与图像高维潜码进行融合,利用融合结果指导GAN单元生成多尺度先验特征;最后,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
Description
技术领域
本发明涉及图像复原技术领域,特别是涉及渐进式人脸图像复原方法、系统、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
人脸图像复原旨在从低质量的输入人脸图像中恢复出高质量的人脸图像。人脸图像数据在采集和传输过程中可能会产生各种退化,比如拍摄时因移动产生模糊、存储图像时因有损压缩产生伪影、网络传输时产生噪声等。这些退化单个或多个作用于人脸图像,会损失掉部分图像信息,导致图像质量下降,进而对基于人脸图像数据的相关技术应用产生极大的不利影响。人脸图像复原技术是人脸图像退化的逆过程,通过利用退化过程的先验知识,恢复出已退化图像中损失的身份特征和细节信息。复原后的人脸图像具有更好的观赏性和更可信的身份特征。此外,针对图像识别、语义分割等高层视觉任务,复原图像可有效降低训练模型的计算量,提升模型的精度,更好地完成相关任务。因此,人脸图像复原技术的研究具有非常重要的意义,已成为计算机视觉和图像处理领域的重要研究问题。
传统的人脸复原工作仅依赖退化图像进行复原,如利用人脸图像的结构相似度、局部自相似性、图像各区域上下文之间的关系等,难以实现高质量的复原结果。由于人脸图像的特殊性,面部的五官结构和纹理细节能够为复原工作提供更多的参考信息,可以作为先验知识用于约束和引导人脸图像的复原。因此,最近的工作大多利用先验知识进行人脸图像复原。在基于先验的工作中,主要适用的先验知识包括几何先验、参考先验和生成先验。几何先验主要包括面部地标、面部解析图和面部成分热图,其蕴含丰富的面部几何信息,有助于重建面部结构。但是几何先验一般由退化图像获得,准确性受到限制,进而影响复原图像保真度的提高。参考先验主要来自高质量样本和面部字典,能够为图像复原提供有效的几何纹理信息,但是存在高质量样本难以获取、字典容量有限的问题,从而限制了复原图像逼真度和保真度的提高。生成先验主要来自预训练的GAN模型,该模型经过大量高清人脸图片的预先训练,蕴含丰富的面部纹理信息,能够很好地复原人脸的纹理细节。仅使用生成先验的人脸复原工作能够有效提高复原面部的真实感,但是在维持身份特征方面表现不好。
发明内容
为了解决现有技术的不足,本发明提供了渐进式人脸图像复原方法、系统、设备及存储介质;本发明在网络结构中融入多先验信息和多特征信息,通过构建多尺度的解码器渐进式实现人脸复原,可有效提升复原人脸的真实感和保真度。本发明利用退化人脸图像生成多尺度图像特征;利用解析图潜码预测网络在几何先验约束下生成高维潜码,并用于指导预训练GAN生成富含身份信息和纹理信息的多尺度先验特征;然后在多尺度解码器中提出移动交叉注意力机制,对多尺度的图像特征和先验特征进行充分融合,并逐层上采样连接渐进式实现人脸复原。多先验和多特征的充分利用,以及多尺度的架构设计,可在维持人脸身份特征的同时,有效提高面部细节的真实感,实现高质量的人脸复原。
一方面,提供了渐进式人脸图像复原方法,包括:
获取待复原的人脸图像;
将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;其中,训练后的人脸图像复原模型,包括:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块以及多尺度信息融合模块;
训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,其中,解析图潜码预测网络生成解析图高维潜码,图像特征提取网络生成图像高维潜码和多尺度图像特征;随后,GAN先验生成模块将解析图高维潜码与图像高维潜码进行融合,利用融合结果指导GAN单元生成多尺度先验特征;最后,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
另一方面,提供了渐进式人脸图像复原系统,包括:
获取模块,其被配置为:获取待复原的人脸图像;
复原模块,其被配置为:将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;其中,训练后的人脸图像复原模型,包括:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块以及多尺度信息融合模块;
训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,其中,解析图潜码预测网络生成解析图高维潜码,图像特征提取网络生成图像高维潜码和多尺度图像特征;随后,GAN先验生成模块将解析图高维潜码与图像高维潜码进行融合,利用融合结果指导GAN单元生成多尺度先验特征;最后,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
再一方面,还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
再一方面,还提供了一种存储介质,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
上述技术方案具有如下优点或有益效果:
(1)与现有的编码器-解码器人脸图像复原架构不同,本发明方法不是将预训练GAN作为解码器直接生成复原人脸,而是将预训练GAN作为编码器,并在网络架构中融入多先验信息和多特征信息,通过对预训练GAN的中间特征和图像的中间特征进行整合,构造多尺度的解码器渐进式地实现人脸复原。本发明方法能够很好地对未知原因的退化人脸图像进行复原,有效解决人脸图像在采集、传输、压缩等过程中产生的模糊、伪影、噪声等问题。
(2)本发明方法将几何先验、纹理先验和生成先验相结合,构成多先验信息,用于指导人脸图像复原,可有效提高复原图像的保真度和逼真度。不同于以往方法只将退化图像投射到潜在空间,本发明由高质量人脸图像和人脸解析图共同约束生成高维潜码,并作为预训练GAN的输入以指导其生成先验特征。本发明提出解析图潜码预测网络,用于提取人脸解析图高维潜码。该解析图高维潜码受几何先验约束生成,包含有效的面部几何先验信息。同时引入图像特征提取网络,该网络受高质量人脸图像约束,可从退化图像中提取出含有高质量几何和纹理先验信息的图像高维潜码。另外,预训练GAN中蕴含丰富的纹理信息。因此,将解析图高维潜码和图像高维潜码相结合,用于指导预训练GAN的先验特征的生成,能够使生成先验中同时富含高质量的几何信息和纹理信息,从而将几何先验、纹理先验和生成先验更好地结合,显著提升复原人脸的真实感和细节丰富度,并很好地维持其身份特征。
(3)本发明提出新的多尺度信息融合模块,对图像特征和先验特征进行多尺度整合。该模块将每一尺度融合后的特征从小尺度到大尺度逐层上采样连接,渐进式生成高质量的人脸复原图像。本发明在融合模块中提出新的移动交叉注意力机制,该机制可对来自多个信息源的多尺度特征进行有效整合。由于多尺度特征包含更加丰富的几何和纹理信息,而移动交叉注意力机制可以更好地结合这些多尺度图像特征和多尺度先验特征,从而有效提高了退化人脸的复原质量。
(4)本发明提出新的感知损失函数,该函数同时考虑了图像之间的感知误差和解析图之间的感知误差。解析图感知误差这一约束条件的引入,有利于维持退化人脸的身份特征,提高复原图像的保真度。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的模型框架图;
图2为实施例一的解析图潜码预测网络;
图3为实施例一的多尺度信息融合模块;
图4为实施例一的FF层;
图5(a)为实施例一的移动交叉注意力机制SCA;
图5(b)为实施例一的被划分为四个窗口示意图;
图5(c)为实施例一的4个窗口进行移动窗口操作后的示意图;
图5(d)为实施例一的将窗口中的特征图外部区域A、B和C分别移动到特征图中对应的区域A、B和C示意图;
图6为实施例一的解析图潜码预测网络内部结构图;
图7为实施例一的图像特征提取网络内部结构图;
图8为实施例一的GAN先验生成模块内部结构图;
图9为实施例一的多尺度信息融合模块内部结构图;
图10为实施例一的下采样残差块内部结构图;
图11为实施例一的上采样残差块内部结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
如图1所示,本实施例提供了渐进式人脸图像复原方法,包括:
S101:获取待复原的人脸图像;
S102:将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;其中,训练后的人脸图像复原模型,包括:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块以及多尺度信息融合模块;
训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,其中,解析图潜码预测网络生成解析图高维潜码,图像特征提取网络生成图像高维潜码和多尺度图像特征;随后,GAN先验生成模块将解析图高维潜码与图像高维潜码进行融合,利用融合结果指导GAN单元生成多尺度先验特征;最后,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
进一步地,训练后的人脸图像复原模型,训练过程包括:
构建训练集;所述训练集,包括:已知的退化人脸图像、退化人脸图像对应的真实人脸图像、真实人脸图像的人脸解析图;
将训练集,输入到人脸图像复原模型中,对模型进行训练,当模型的总损失函数值不再下降时,停止训练,得到训练后的人脸图像复原模型。
进一步地,模型的总损失函数,表达式为:
Ltotal=λL1LL1+λperLper+λadvLadv+λcompLcomp+λidLid
其中,λL1,λper,λcomp,λadv和λid为各损失函数的权重;
将各损失权重设置为:λL1=0.1,λper=1,λadv=0.1,λcomp=1,λid=10,Ltotal表示总损失函数;
设给定训练集为{Ii,Igt,Pgt},Ii是退化人脸图像,Igt,Pgt是对应的高质量人脸图像和人脸解析图,各损失函数约束项如下;
LL1=||Igt-Io||1 (1)
其中,Io表示复原后的人脸图像,LL1表示L1损失函数,L1损失函数用来计算复原后的人脸图像与真实人脸图像的像素级误差;
Lper=λper1{φ(Igt)-φ(Io)}+λper2{φ(Pgt)-φ(P)} (2)
其中,φ(·)表示用预训练的VGG-19网络进行提取特征,λper11表示图像感知损失的权重,λper2表示解析图感知损失的权重,P表示解析图潜码预测网络生成的人脸解析图,权重设置为λper1=1,λper2=1,Lper表示感知损失函数。
其中,D表示判别器,Ladv表示对抗损失函数,表示样本Io的期望,softplus表示激活函数,Io表示复原后的人脸图像。
其中,R代表面部区域集合{左眼、右眼、嘴部},IoR代表复原后的人脸图像的各面部区域,IgtR代表对应的高质量人脸图像的各面部区域,DR代表各面部区域的局部判别器,Gram(·)代表Gram矩阵,用于计算特征相关性,λlocal表示用于区分面部区域的判别器对抗损失的权重,λstyle表示特征风格损失的权重。权重设置为λlocal=1,λstyle=200,Lcomp表示面部组成损失函数,表示样本IoR的期望,φ(IoR)表示用预训练的VGG19网络对样本IoR进行特征提取,||.||1表示L1损失;
Lid=||η(Igt)-η(Io)||1 (5)
其中,η(·)表示利用预训练的人脸识别模型提取身份特征,Lid表示身份损失函数,Igt表示退化人脸图像对应的高质量人脸图像,Io表示复原后的人脸图像。
人脸识别模型采用Arcface模型,Arcface模型是基于加性角度间隔损失函数additive angular margin loss训练的。
应理解地,感知损失函数,同时考虑了图像之间的感知误差和解析图之间的感知误差。感知损失函数计算生成的复原图像Io与对应的真实高质量人脸图像Igt之间的多层感知误差,以及解析图潜码预测网络生成的解析图P与对应的真实解析图Pgt之间的感知误差。该函数用于约束高维潜码latent和多尺度图像特征F的生成。
对抗损失函数,用于生成具有更高真实感的人脸图像。本发明采用StyleGan2的对抗损失。
面部组成损失函数,用于生成更具逼真度的面部组件。本发明将面部分割成三个组件:左眼、右眼、嘴部。本发明对每个面部区域使用判别器,并利用Gram矩阵计算特征风格损失,用于生成更加真实自然的面部组件。
身份损失函数,用于维持退化图像原有的身份特征,使复原图像与退化图像在身份上尽可能保持一致性。本发明采用Arcface人脸识别模型获取身份特征并进行约束。
进一步地,如图6所示,解析图潜码预测网络,其网络结构包括:
依次连接的第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第六下采样残差块、第七下采样残差块、第一上采样残差块、第二上采样残差块、第三上采样残差块、第四上采样残差块、第五上采样残差块、第六上采样残差块和第七上采样残差块;
如图10所示,第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第六下采样残差块和第七下采样残差块内部结构是一样的,第一下采样残差块,包括依次连接的第一正则层和第一卷积模块;其中,第一正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第一卷积模块由下采样池化层和卷积层依次连接构成,下采样池化层的输入端与sigmoid激活函数的输出端连接。
如图11所示,第一上采样残差块、第二上采样残差块、第三上采样残差块、第四上采样残差块、第五上采样残差块、第六上采样残差块和第七上采样残差块内部结构是一样的,第一上采样残差块,包括依次连接的第二正则层和第二卷积模块;其中,第二正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第二卷积模块由上采样双线性插值层和卷积层依次连接构成,上采样双线性插值层的输入端与sigmoid激活函数的输出端连接。
进一步地,解析图潜码预测网络,其工作过程包括:
训练过程中,在已知人脸解析图的约束下,待复原的人脸图像依次经过七个下采样残差块生成解析图高维潜码。
其中,人脸解析图,由人脸图像经过语义分割网络BiSeNet生成,人脸解析图仅在训练中使用。
在训练过程中七个上采样残差块生成人脸解析图,与已知人脸解析图做损失约束,即,用公式(2)做约束。
应理解地,对于人脸复原,特别是盲人脸修复,保真度是衡量复原效果的一个重要指标。在人脸图像复原过程中,面部轮廓和五官位置等几何信息在维持身份特征中起到重要作用,能够有效提高复原图像的保真度。退化图像能够保留原人脸绝大部分的几何信息,而人脸解析图可以从人脸图像提取出相对完整的面部几何信息。基于此,本发明提出解析图潜码预测网络α,用于从退化图像Ii中提取出指导解析图生成的高维潜码latenta。对于大尺寸图像(例如分辨率大于等于512*512)的复原工作,直接将大尺寸解析图转换为用于预训练GAN输入的潜码会丧失大量几何信息,而高维潜码latenta受面部解析图约束生成,能够保留有效的几何信息且适合作为预训练GAN的潜码输入。解析图高维潜码latenta中蕴含的高质量的几何先验信息,能够在复原图像时有效保留退化图像的身份特征,提高复原图像的保真度。
如图2所示,解析图潜码预测网络由7个下采样残差块和7个上采样残差块连接构成,每个残差块由卷积层和正则层结构残差连接而成。在已知的人脸解析图Pgt约束下,退化图像Ii经过七个下采样块生成指导人脸解析图生成的高维潜码latenta。可见,解析图潜码latenta是由解析图潜码预测网络α将几何先验投射到潜在空间所生成的,将其作为预训练GAN的输入,其蕴含的高质量的几何信息,有助于实现几何先验和生成先验的有效结合,从而有利于保持原有输入图像的身份特征。
进一步地,如图7所示,图像特征提取网络,其网络结构包括:
依次连接的第八下采样残差块、第九下采样残差块、第十下采样残差块、第十一下采样残差块、第十二下采样残差块、第十三下采样残差块、第十四下采样残差块、第八上采样残差块、第九上采样残差块、第十上采样残差块、第十一上采样残差块、第十二上采样残差块、第十三上采样残差块和第十四上采样残差块;
其中,如图10所示,第八下采样残差块、第九下采样残差块、第十下采样残差块、第十一下采样残差块、第十二下采样残差块、第十三下采样残差块和第十四下采样残差块内部结构是一样的,第一下采样残差块,包括依次连接的第三正则层和第三卷积模块;其中,第三正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第三卷积模块由下采样池化单元和卷积单元依次连接构成,下采样池化层的输入端与sigmoid激活函数的输出端连接。
其中,如图11所示,第八上采样残差块、第九上采样残差块、第十上采样残差块、第十一上采样残差块、第十二上采样残差块、第十三上采样残差块和第十四上采样残差块内部结构是一样的,第八上采样残差块,包括依次连接的第四正则层和第四卷积模块;其中,第四正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第四卷积模块由上采样双线性插值单元和卷积单元依次连接构成,上采样双线性插值层的输入端与sigmoid激活函数的输出端连接。
进一步地,图像特征提取网络,其工作过程包括:
通过七个下采样残差块,从待复原的人脸图像中提取出图像高维潜码latentβ;
通过七个上采样残差块,从高维潜码latentβ中提取出多尺度图像特征F。
应理解地,在人脸图像因未知原因产生退化的过程中,虽然会遗失部分信息,但仍然保留了大部分几何信息和少部分纹理信息。充分利用退化图像的这些几何和纹理信息,可以有效提高复原图像的保真度和真实度。
本发明引入图像特征提取网络β,用于从退化图像Ii中提取指导高质量图像生成的高维潜码latentβ和多尺度图像特征F。将包含几何和纹理信息的图像高维潜码latentβ用于指导预训练GAN,可以生成更加准确的先验特征。多尺度图像特征F能够更好地保留退化图像的几何和纹理信息,有利于增强复原图像的保真度、真实度和细节的丰富程度。
如图1所示,图像特征提取网络与解析图潜码预测网络的结构相同,由7个下采样残差块和7个上采样残差块连接构成。退化图像Ii经过七个下采样块提取高维潜码latentβ,然后在高质量图像Igt约束下由上采样块逐层生成7个不同尺度的图像特征F。与解析图潜码预测网络α受解析图约束生成的高维潜码latentα只包含几何信息不同,图像特征提取网络受真实图像约束,生成的潜码latentβ和特征F能够保留原退化图像不同尺度的几何和纹理信息。退化人脸作为主要信息来源,在复原过程中起到决定性作用。本发明的多尺度特征提取能够充分利用退化人脸图像的几何和纹理信息,实现更好的人脸复原效果。
进一步地,如图8所示,GAN先验生成模块,包括:依次串联的第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元;
所述GAN先验生成模块还包括:融合单元,所述融合单元的输入端分别输入解析图高维潜码和图像高维潜码;融合单元对输入的两种高维潜码进行串联拼接,融合单元输出拼接后的高维潜码;
融合单元将输出的拼接后的高维潜码输入到第一多层感知机中,将第一多层感知机的输出值分别输入到第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元;
第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元各自输出对应尺度的先验特征。
进一步地,所述第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元内部结构是一样的,所述第一GAN单元,包括:
依次连接的卷积层C1、上采样层S1和卷积层C2;
所述卷积层C1的输入端用于输入常量;
所述第一GAN单元,还包括:第一仿射变换单元、第二仿射变换单元、第一权重调制单元、第二权重调制单元、第一权重解调单元和第二权重解调单元;
所述第一仿射变换单元的输入端和第二仿射变换单元的输入端均用于输入第一多层感知机的输出值;
所述第一仿射变换单元的输出端与第一权重调制单元的输入端连接;
所述第二仿射变换单元的输出端与第二权重调制单元的输入端连接;
所述第一权重调制单元与卷积层C1连接;
所述第一权重解调单元与卷积层C1连接;
所述第二权重调制单元与卷积层C2连接;
所述第二权重解调单元与卷积层C2连接;
所述卷积层C2的输出端作为第一GAN单元的输出端。
进一步地,所述第一仿射变换单元和第二仿射变换单元,采用全连接层来实现,均用于生成缩放因子,该缩放因子将输出给权重调制单元,用于对卷积层的卷积核进行调制;
所述第一权重调制单元用于对卷积层C1的卷积核进行权重调制,即,缩放卷积核权重;
所述第二权重解调单元用于对卷积层C2的卷积核进行权重调制,即,缩放卷积核权重;
所述第一权重解调单元用于对卷积层C1缩放后的卷积核权重进行归一化处理,消除因权重调制对卷积层C1输出特征图的统计数据的影响,将输出特征图恢复到单位标准偏差;
所述第二权重解调单元用于对卷积层C2缩放后的卷积核权重进行归一化处理,消除因权重调制对卷积层C2输出特征图的统计数据的影响,将输出特征图恢复到单位标准偏差;
应理解地,在人脸复原工作中,生成先验含有丰富的面部纹理信息,能够指导重建丰富逼真的面部细节,提高复原图像的真实度。预训练人脸生成模型StyleGan2蕴含丰富的纹理先验信息,能够生成高真实感人脸图像。因此,本发明将预训练StyleGan2嵌入GAN先验生成模块,用于丰富面部细节。将StyleGAN2的生成器g作为GAN先验生成模块。其中,将GAN先验生成模块的输入w作为生成器g的输入,噪声输入设置为空,将生成器g每一层的输出作为GAN先验生成模块的输出。
如图1所示,本发明首先将解析图高维潜码latentα和图像高维潜码latentβ进行融合,生成指导预训练GAN的高维潜码latent,记为latent=concat(latentα,lantentβ)。不同于以往将单一退化图片投射到潜在空间,本发明的高维潜码由高质量人脸图像和人脸解析图共同约束生成。高质量人脸图像含有丰富的纹理信息,使得指导预训练GAN生成的先验特征中包含丰富的纹理先验;而人脸解析图带有高质量的几何信息,可使得指导预训练GAN生成的先验特征中富含更多的身份特征。然后,本发明将高维潜码latent通过第一多层感知机MLP映射到一个更为解耦的空间以获取潜码w,记为w=mlp(latent)。最后,将潜码w作为GAN先验生成模块的输入,生成不同尺度的先验特征P,记为P=ψ(w)。潜码w蕴含丰富的几何先验信息和高质量的纹理先验信息,预训练StyleGan2中蕴含丰富的纹理先验信息,在潜码w指导下StyleGan2将几何信息和纹理信息相结合,能够使先验特征中同时富含几何信息和纹理信息,有效提高了先验特征的质量。预训练StyleGan2利用高质量人脸数据集FFHQ事先训练好Stylegan2,以使其作为GAN生成模块时能够生成高质量的先验特征。
进一步地,如图9所示,多尺度信息融合模块,其网络结构包括:
依次连接的第一特征融合层、第一上采样层、第二特征融合层、第二上采样层、第三特征融合层、第三上采样层、第四特征融合层、第四上采样层、第五特征融合层、第五上采样层、第六特征融合层、第六上采样层和第七特征融合层;
第一特征融合层的输入值是第八上采样残差块的输出值和第一GAN单元的输出值;
第二特征融合层的输入值是第一上采样层的输出值、第九上采样残差块的输出值和第二GAN单元的输出值;
第三特征融合层的输入值是第二上采样层的输出值、第十上采样残差块的输出值和第三GAN单元的输出值;
第四特征融合层的输入值是第三上采样层的输出值、第十一上采样残差块的输出值和第四GAN单元的输出值;
第五特征融合层的输入值是第四上采样层的输出值、第十二上采样残差块的输出值和第五GAN单元的输出值;
第六特征融合层的输入值是第五上采样层的输出值、第十三上采样残差块的输出值和第六GAN单元的输出值;
第七特征融合层的输入值是第六上采样层的输出值、第十四上采样残差块的输出值和第七GAN单元的输出值。
进一步地,如图4所示,所述第一特征融合层,包括:
第一移动交叉注意力机制模块,所述第一移动交叉注意力机制模块的输入端的输入值是第八上采样残差块的输出值和第一GAN单元的输出值;
所述第一移动交叉注意力机制模块的输出端与第一加法器的输入端连接,第一加法器的输出端与第一通道注意力模块的输入端连接,第一通道注意力模块的输出端是第一特征融合层的输出端。
进一步地,所述第二特征融合层、第三特征融合层、第四特征融合层、第五特征融合层、第六特征融合层、第七特征融合层的内部结构是一样的,所述第二特征融合层,包括:
第二移动交叉注意力机制模块,所述第二移动交叉注意力机制模块的输入端的输入值是第九上采样残差块的输出值和第二GAN单元的输出值;
所述第二移动交叉注意力机制模块的输出端与第二加法器的输入端连接,第二加法器的输出端与第二通道注意力模块的输入端连接,第二通道注意力模块的输出端是第二特征融合层的输出端;
所述第二加法器的输入端还与第一上采样层的输出端连接。
进一步地,如图5(a)~图5(d)所示,所述第一移动交叉注意力机制模块和第二移动交叉注意力机制模块的内部结构是一样的;所述第一移动交叉注意力机制模块,包括:
依次连接的第一归一化层、基于窗口的多头交叉注意力机制层W-MHCA、第三加法器、第二归一化层、第二多层感知机、第四加法器、第三归一化层、基于移动窗口的多头交叉注意力机制层SW-MHCA、第五加法器、第四归一化层、第三多层感知机和第六加法器;
其中,第一归一化层的输入端与第三加法器的输入端连接,第三加法器的输出端与第四加法器的输入端连接,第四加法器的输出端与第五加法器的输入端连接,第五加法器的输出端与第六加法器的输入端连接;
第六加法器的输出端是第一移动交叉注意力机制模块的输出端;
基于窗口的多头交叉注意力机制层W-MHCA的输入端和基于移动窗口的多头交叉注意力机制层SW-MHCA的输入端用于输入对应尺度的先验特征。
进一步地,多尺度信息融合模块,其工作过程包括:
将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
应理解地,一般而言,几何和纹理信息越多、越准确,在图像复原工作中越能够获得更好的效果。多尺度特征中包含不同类型的几何和纹理信息,有利于复原工作的进行。为充分利用这些信息,本发明提出了多尺度信息融合模块,用于对多尺度先验特征和多尺度图像特征进行信息整合,并利用不同尺度的融合信息渐进式生成复原人脸图像。如图3和图4所示,多尺度信息融合模块θ由多个FF(future fusion)层组成,每个FF层处理的特征尺度不同。将对应尺度的先验特征P与图像特征F输入FF层进行信息整合,然后传入下一个FF层进行不同尺度间的信息传递,直到在最后一层输出复原图像Io。
在特征信息融合方面,Transformer的多头自注意力(Multi-Head Self-Attention,MHSA)机制具有强大的表征能力,但是计算量巨大且只能对单一特征进行处理,不适用于本发明的多尺度多特征融合任务。RestoreFormer的多头交叉注意力机制(Multi-Head Cross-Attention,MHCA)能够对两种特征进行有效融合,但是依旧需要巨大的计算量且无法处理多尺度特征。因此,为更好地实现多尺度先验特征和多尺度图像特征的融合,本发明提出基于移动窗口的交叉注意力机制,简称移动交叉注意力机制(Swin Cross-Attention,SCA),并首次将移动交叉注意力机制应用于多尺度的多特征融合。
如图5(a)所示,移动交叉注意力机制SCA由两个连续的块组成:基于窗口的多头交叉注意力机制层W-MHCA和基于移动窗口的多头交叉注意力机制层SW-MHCA。其中,W-MHCA(Window Multi-Head Cross-Attention)为基于窗口的多头交叉注意力机制,SW-MHCA(Shifted Window Multi-Head Cross-Attention)为基于移动窗口的多头交叉注意力机制。
在第一个块中(图5(a)中左边虚线框),图像特征Fi经过横向规范化LayerNorm在通道方向做归一化处理,以此标准化输入分布;然后,通过基于窗口的多头交叉注意力机制W-MHCA,将先验特征Pi和归一化处理后的图像特征进行注意力计算,实现多特征的交叉,并将交叉后的特征与输入图像特征Fi进行残差连接;最后,再次经过LayerNorm层做归一化处理后,传入多层感知器MLP并进行残差连接,得到输出特征;其中,MLP引入非线性变换对输入特征进行映射和转换,能够更好地捕捉图像特征。W-MHCA通过将特征划分为多个窗口,在窗口内部进行交叉注意力计算,可以有效降低计算量并提高模型性能,进而对图像特征和先验特征进行高效的局部特征整合。
基于窗口的多头交叉注意力机制层W-MHCA,其工作过程包括:
首先对传入的先验特征Pi和归一化处理后的图像特征分别进行窗口划分操作p(·),将特征图划分为n个8×8像素窗口(图5(b)为划分为4个窗口的示意图),在窗口内部进行多头交叉注意力(MHCA)计算后,将多个窗口进行整合操作merge,得到输出Fi,merge1;
该过程记为:
Fi,merge1=merge(MHCA(p(LN(Fi),p(Pi))));
其中,LN(·)为归一化操作。
在第二个块(图5(a)中右边虚线框)中,SW-MHCA对特征进行移动窗口的操作,并在重新划分的窗口内部再次进行交叉注意力计算,从而实现不同窗口间的信息传递,有效地把握图像的全局特征。可见,移动交叉注意力机制可以很好地适用于对多信息来源的、多尺度的特征进行整合。
基于移动窗口的多头交叉注意力机制层SW-MHCA,其工作过程包括:
首先对传入的归一化处理后的图像特征和先验特征Pi分别进行移动窗口操作sp(·),具体操作为将窗口向右方和下方各移动四个像素,生成重新划分的n个窗口(图5(c)为4个窗口进行移动窗口操作后的示意图);由于移动后窗口覆盖特征图的外部区域,因此在含有n个8×8像素窗口的特征图中分别加入掩码mask后,再进行多头交叉注意力(MHCA)计算,最后将多个窗口进行整合操作merge,并进行反转操作reverse以将窗口中的特征图外部区域A、B和C分别移动到特征图中对应的区域A、B和C(如图5(d)所示),得到输出Fi,merge2;该过程记为:
Fi,merge2=reverse(merge(MHCA(sp(LN(Fi,fusion0)+mask,sp(Pi)+mask))))。
如图3和图4所示,多尺度信息融合模块在每个FF层将相同尺度的图像特征Fi和先验特征Pi做移动交叉注意力计算,生成融合特征Fi,fusion,记为Fi,fusion=SCA(Pi,Fi)。然后,为进行不同尺度特征之间信息的传递,对第i-1层的输出特征Fi-1,output进行上采样操作up(·)并与第i层的融合特征Fi,fusion进行连接(若Fi-1,output为空,则不进行此操作)。最后,经过通道注意力(channel-attention,CA)机制对通道自适应缩放,生成第i层的输出特征Fi,output,记为Fi,output=CA(concat(up(Fi-1,output),Fi,fusion))。输出特征Fi,output传入第i+1层FF并重复上述操作,直到最后一层FF生成复原图像Io。
本发明提出一种渐进式人脸复原方法,可以对未知原因的退化人脸图像进行修复,生成高质量的人脸图像。不同于将预训练生成对抗网络GAN(Generative adversarialnetwork)作为解码器的传统人脸复原架构,本发明将预训练GAN作为编码器,并在模型架构中融入多先验信息和多特征信息,设计多尺度解码器渐进式地实现人脸复原。模型由解析图潜码预测网络、图像特征提取网络、GAN先验生成模块和多尺度信息融合模块构成。解析图潜码预测网络和图像特征提取网络分别由人脸解析图和高质量人脸图像约束生成高维潜码,将其结合作为预训练GAN的输入,可实现几何先验、纹理先验和生成先验的充分结合,显著提升复原人脸的真实感并维持其身份特征。多尺度信息融合模块以及提出的移动交叉注意力机制,可对图像特征提取网络生成的多尺度图像特征和GAN先验生成模块生成的多尺度先验特征充分融合,从小尺度到大尺度逐渐复原人脸。多尺度特征中蕴含的纹理和几何信息,进一步提升了复原人脸的质量。
本发明提出的人脸图像复原网络模型如图1所示。模型包括四个部分:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块和多尺度信息融合模块。
解析图潜码预测网络用于获取指导解析图生成的高维潜码,高维潜码可以有效保留退化图像的几何特征,保证复原图像与退化图像之间身份特征的一致性;
图像特征提取网络用于获取指导高质量图像生成的高维潜码以及多尺度特征,多尺度特征包含丰富的几何信息和纹理信息,有利于提高复原图像的保真度和真实感;
GAN先验生成模块将训练好的包含丰富面部纹理信息的GAN模型嵌入网络结构,预训练模型在高维潜码的指导下可生成多尺度先验特征,这些特征用于人脸复原可有效提高面部细节纹理的重建效果;
多尺度信息融合模块利用移动交叉注意力机制将相同尺度的图像特征和先验特征进行充分融合,并对融合后的特征从小尺度到大尺度进行上采样连接,渐进生成复原人脸,可进一步提高复原图像的质量。
本发明方法的基本流程为:首先,给定一张未知原因的退化人脸图像,将图像分别传入解析图潜码预测网络和图像特征提取网络。其中,解析图潜码预测网络生成解析图高维潜码,图像特征提取网络生成图像高维潜码和多尺度特征;随后,GAN先验生成模块将解析图高维潜码和图像高维潜码进行融合,指导预训练GAN生成多尺度先验特征;最后,多尺度信息融合模块将对应尺度的图像特征和先验特征进行整合,并将每一尺度融合后的特征,从小尺度到大尺度逐层上采样连接,渐进生成最终的具有高保真度和高逼真度的人脸,实现高质量的人脸图像复原。
本发明模型的相关数学定义如下:解析图潜码预测网络记为α,图像特征提取网络记为β,GAN先验生成模块记为ψ,多尺度信息融合模块记为θ。给定一张未知原因的退化人脸图片使用解析图潜码预测网络α提取解析图高维潜码,记为latenta,使用退化图像特征提取网络β提取图像高维潜码,记为latentβ,以及多尺度图像特征,记为F。该过程表示为:latenta=α(Ii),latentβ,F=β(Ii)。解析图高维潜码latenta和图像高维潜码latentβ融合为高维潜码,记为latent,经过多层感知器MLP(Multilayer Perceptron)后,在GAN先验生成模块ψ中指导预训练GAN模型生成多尺度先验特征,记为P。该过程表示为:P=ψ(mlp(concat(latentα,latentβ)))。多尺度信息融合模块θ利用新提出的移动交叉注意力机制,对多尺度图像特征F和先验特征P进行融合,并对每一尺度融合后的特征逐级上采样连接,生成高质量人脸图片该过程表示为:Io=θ(F,P)。
多尺度图像特征富含丰富的几何和纹理特征,由解析图高维潜码指导预训练GAN生成的先验特征中包含丰富的身份细节特征,因此图像特征和先验特征的有效融合可以使复原图像获得更高的保真度和更好的逼真度。移动交叉注意力机制既具有Transformer多头自注意力机制的强大表征能力,又可以适用于多信息源多尺度特征的融合,从而使得多尺度图像特征和先验特征能够有效融合,达到高质量的复原效果。
本发明选取FFHQ(Flickr-Faces-High-Quality)数据集作为训练数据,FFHQ数据集包含70000张分辨率为1024*1024的高清人脸图像。本发明首先将FFHQ数据集中的图片调整为512*512的尺寸,作为真实人脸图片Igt,然后对真实人脸图片进行随机的模糊、下上采样、添加噪声、压缩操作,获得512*512的低质量图片,作为退化人脸图片Ii,最后使用语义分割网络BiSeNet生成每张真实人脸图片的解析图,作为真实解析图Pgtt。
本发明构建了一个合成数据集和两个真实数据集用于测试。本发明的测试数据集与训练数据集没有交集,以下进行简要介绍:
合成数据集。本发明随机从CelebA-HQ数据集中选取2000张图片构建CelebA-HQ-Test测试数据集,测试数据集中退化图片的生成方式与训练数据集中的图片相同。
真实数据集。本发明选用的真实数据集为LFW-Test数据集和WebPhoto-Test数据集。LFW-Test数据集来自真实人脸数据集LFW,共包含1711张图片。WebPhoto-Test数据集由网络上搜集的现实生活中真实的低质量人脸图片构成,共407张图片。本发明方法复原的人脸图像具有较高的逼真度和保真度,在维持人脸图像身份特征的同时,能够很好地恢复丰富的面部细节。本发明方法复原的人脸,其五官轮廓更加准确、面部细节更加丰富真实,复原图像的整体视觉效果更好。
实施例二
本实施例提供了渐进式人脸图像复原系统;
渐进式人脸图像复原系统,包括:
获取模块,其被配置为:获取待复原的人脸图像;
复原模块,其被配置为:将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;其中,训练后的人脸图像复原模型,包括:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块以及多尺度信息融合模块;
训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,其中,解析图潜码预测网络生成解析图高维潜码,图像特征提取网络生成图像高维潜码和多尺度图像特征;随后,GAN先验生成模块将解析图高维潜码与图像高维潜码进行融合,利用融合结果指导GAN单元生成多尺度先验特征;最后,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
此处需要说明的是,上述获取模块和复原模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.渐进式人脸图像复原方法,其特征是,包括:
获取待复原的人脸图像;
将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;其中,训练后的人脸图像复原模型,包括:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块以及多尺度信息融合模块;
解析图潜码预测网络,其网络结构包括:
依次连接的第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第六下采样残差块、第七下采样残差块、第一上采样残差块、第二上采样残差块、第三上采样残差块、第四上采样残差块、第五上采样残差块、第六上采样残差块和第七上采样残差块;
第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第六下采样残差块和第七下采样残差块内部结构是一样的,第一下采样残差块,包括依次连接的第一正则层和第一卷积模块;其中,第一正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第一卷积模块由下采样池化层和卷积层依次连接构成,下采样池化层的输入端与sigmoid激活函数的输出端连接;
第一上采样残差块、第二上采样残差块、第三上采样残差块、第四上采样残差块、第五上采样残差块、第六上采样残差块和第七上采样残差块内部结构是一样的,第一上采样残差块,包括依次连接的第二正则层和第二卷积模块;其中,第二正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第二卷积模块由上采样双线性插值层和卷积层依次连接构成,上采样双线性插值层的输入端与sigmoid激活函数的输出端连接;
解析图潜码预测网络,其工作过程包括:
训练过程中,在已知人脸解析图的约束下,待复原的人脸图像依次经过七个下采样残差块生成解析图高维潜码;
图像特征提取网络,其网络结构包括:
依次连接的第八下采样残差块、第九下采样残差块、第十下采样残差块、第十一下采样残差块、第十二下采样残差块、第十三下采样残差块、第十四下采样残差块、第八上采样残差块、第九上采样残差块、第十上采样残差块、第十一上采样残差块、第十二上采样残差块、第十三上采样残差块和第十四上采样残差块;
其中,第八下采样残差块、第九下采样残差块、第十下采样残差块、第十一下采样残差块、第十二下采样残差块、第十三下采样残差块和第十四下采样残差块内部结构是一样的,第一下采样残差块,包括依次连接的第三正则层和第三卷积模块;其中,第三正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第三卷积模块由下采样池化单元和卷积单元依次连接构成,下采样池化层的输入端与sigmoid激活函数的输出端连接;
其中,第八上采样残差块、第九上采样残差块、第十上采样残差块、第十一上采样残差块、第十二上采样残差块、第十三上采样残差块和第十四上采样残差块内部结构是一样的,第八上采样残差块,包括依次连接的第四正则层和第四卷积模块;其中,第四正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第四卷积模块由上采样双线性插值单元和卷积单元依次连接构成,上采样双线性插值层的输入端与sigmoid激活函数的输出端连接;
图像特征提取网络,其工作过程包括:
通过七个下采样残差块,从待复原的人脸图像中提取出图像高维潜码latentβ;
通过七个上采样残差块,从高维潜码latentβ中提取出多尺度图像特征F;
GAN先验生成模块,包括:
依次串联的第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元;
所述GAN先验生成模块还包括:
融合单元,所述融合单元的输入端分别输入解析图高维潜码和图像高维潜码;融合单元对输入的两种高维潜码进行串联拼接,融合单元输出拼接后的高维潜码;
融合单元将输出的拼接后的高维潜码输入到第一多层感知机中,将第一多层感知机的输出值分别输入到第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元;
第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元各自输出对应尺度的先验特征;
训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
2.如权利要求1所述的渐进式人脸图像复原方法,其特征是,训练后的人脸图像复原模型,训练过程包括:
构建训练集;所述训练集,包括:已知的退化人脸图像、退化人脸图像对应的真实人脸图像、真实人脸图像的人脸解析图;
将训练集,输入到人脸图像复原模型中,对模型进行训练,当模型的总损失函数值不再下降时,停止训练,得到训练后的人脸图像复原模型;
模型的总损失函数,表达式为:
Ltotal=λL1LL1+λperLper+λadvLadv+λcompLcomp+λidLid
其中,λL1,λper,λcomp,λadv和λid为各损失函数的权重;
将各损失权重设置为:λL1=0.1,λper=1,λadv=0.1,λcomp=1,λid=10,Ltotal表示总损失函数;
设给定训练集为{Ii,Igt,Pgt},Ii是退化人脸图像,Igt,Pgt是对应的高质量的真实人脸图像和人脸解析图,各损失函数约束项如下;
LL1=||Igt-Io||1 (1)
其中,Io表示复原后的人脸图像,LL1表示L1损失函数,L1损失函数用来计算复原后的人脸图像与真实人脸图像的像素级误差;
Lper=λper1{φ(Igt)-φ(Io)}+λper2{φ(Pgt)-φ(P)} (2)
其中,φ(·)表示用预训练的VGG-19网络进行提取特征,λper1表示图像感知损失的权重,λper2表示解析图感知损失的权重,P表示解析图潜码预测网络生成的人脸解析图,权重设置为λper1=1,λper2=1,Lper表示感知损失函数;
其中,D表示判别器,Ladv表示对抗损失函数,EIo表示样本Io的期望,softplus表示激活函数;
其中,R代表面部区域集合,IoR代表复原后的人脸图像的各面部区域,IgtR代表对应的高质量人脸图像的各面部区域,DR代表各面部区域的局部判别器,Gram(·)代表Gram矩阵,用于计算特征相关性,λlocal表示用于区分面部区域的判别器对抗损失的权重,λstyle表示特征风格损失的权重;权重设置为λlocal=1,λstyle=200,Lcomp表示面部组成损失函数,EIoR表示样本IoR的期望,φ(IoR)表示用预训练的VGG19网络对样本IoR进行特征提取,.1表示L1范式;
Lid=||η(Igt)-η(Io)||1 (5)
其中,η(·)表示利用预训练的人脸识别模型提取身份特征,Lid表示身份损失函数,Igt表示退化人脸图像对应的高质量人脸图像,Io表示复原后的人脸图像。
3.如权利要求1所述的渐进式人脸图像复原方法,其特征是,多尺度信息融合模块,其网络结构包括:
依次连接的第一特征融合层、第一上采样层、第二特征融合层、第二上采样层、第三特征融合层、第三上采样层、第四特征融合层、第四上采样层、第五特征融合层、第五上采样层、第六特征融合层、第六上采样层和第七特征融合层;
第一特征融合层的输入值是第八上采样残差块的输出值和第一GAN单元的输出值;
第二特征融合层的输入值是第一上采样层的输出值、第九上采样残差块的输出值和第二GAN单元的输出值;
第三特征融合层的输入值是第二上采样层的输出值、第十上采样残差块的输出值和第三GAN单元的输出值;
第四特征融合层的输入值是第三上采样层的输出值、第十一上采样残差块的输出值和第四GAN单元的输出值;
第五特征融合层的输入值是第四上采样层的输出值、第十二上采样残差块的输出值和第五GAN单元的输出值;
第六特征融合层的输入值是第五上采样层的输出值、第十三上采样残差块的输出值和第六GAN单元的输出值;
第七特征融合层的输入值是第六上采样层的输出值、第十四上采样残差块的输出值和第七GAN单元的输出值。
4.如权利要求3所述的渐进式人脸图像复原方法,其特征是,所述第一特征融合层,包括:
第一移动交叉注意力机制模块,所述第一移动交叉注意力机制模块的输入端的输入值是第八上采样残差块的输出值和第一GAN单元的输出值;
所述第一移动交叉注意力机制模块的输出端与第一加法器的输入端连接,第一加法器的输出端与第一通道注意力模块的输入端连接,第一通道注意力模块的输出端是第一特征融合层的输出端;
所述第二特征融合层、第三特征融合层、第四特征融合层、第五特征融合层、第六特征融合层、第七特征融合层的内部结构是一样的,所述第二特征融合层,包括:
第二移动交叉注意力机制模块,所述第二移动交叉注意力机制模块的输入端的输入值是第九上采样残差块的输出值和第二GAN单元的输出值;
所述第二移动交叉注意力机制模块的输出端与第二加法器的输入端连接,第二加法器的输出端与第二通道注意力模块的输入端连接,第二通道注意力模块的输出端是第二特征融合层的输出端;
所述第二加法器的输入端还与第一上采样层的输出端连接;
所述第一移动交叉注意力机制模块和第二移动交叉注意力机制模块的内部结构是一样的;所述第一移动交叉注意力机制模块,包括:
依次连接的第一归一化层、基于窗口的多头交叉注意力机制层W-MHCA、第三加法器、第二归一化层、第二多层感知机、第四加法器、第三归一化层、基于移动窗口的多头交叉注意力机制层SW-MHCA、第五加法器、第四归一化层、第三多层感知机和第六加法器;
其中,第一归一化层的输入端与第三加法器的输入端连接,第三加法器的输出端与第四加法器的输入端连接,第四加法器的输出端与第五加法器的输入端连接,第五加法器的输出端与第六加法器的输入端连接;
第六加法器的输出端是第一移动交叉注意力机制模块的输出端;
基于窗口的多头交叉注意力机制层W-MHCA的输入端和基于移动窗口的多头交叉注意力机制层SW-MHCA的输入端用于输入对应尺度的先验特征;
基于窗口的多头交叉注意力机制层W-MHCA,其工作过程包括:
首先对传入的先验特征Pi和归一化处理后的图像特征分别进行窗口划分操作p(·),将特征图划分为n个8×8像素窗口,在窗口内部进行多头交叉注意力MHCA计算后,将多个窗口进行整合操作merge,得到输出Fi,merge1;
该过程记为:Fi,merge1=merge(MHCA(p(LN(Fi),p(Pi))));LN(·)为归一化操作;
基于移动窗口的多头交叉注意力机制层SW-MHCA,其工作过程包括:
首先对传入的归一化处理后的图像特征和先验特征Pi分别进行移动窗口操作sp(·),具体操作为将窗口向右方和下方各移动四个像素,生成重新划分的n个窗口;由于移动后窗口覆盖特征图的外部区域,因此在含有n个8×8像素窗口的特征图中分别加入掩码mask后,再进行多头交叉注意力MHCA计算,最后将多个窗口进行整合操作merge,并进行反转操作reverse以将窗口中的特征图外部区域A、B和C分别移动到特征图中对应的区域A、B和C,得到输出Fi,merge2;该过程记为:
Fi,merge2=reverse(merge(MHCA(sp(LN(Fi,fusion0)+mask,sp(Pi)+mask))));
多尺度信息融合模块,其工作过程包括:
将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
5.渐进式人脸图像复原系统,其特征是,包括:
获取模块,其被配置为:获取待复原的人脸图像;
复原模块,其被配置为:将待复原的人脸图像,输入到训练后的人脸图像复原模型中,输出复原后的人脸图像;其中,训练后的人脸图像复原模型,包括:解析图潜码预测网络、图像特征提取网络、GAN先验生成模块以及多尺度信息融合模块;
解析图潜码预测网络,其网络结构包括:
依次连接的第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第六下采样残差块、第七下采样残差块、第一上采样残差块、第二上采样残差块、第三上采样残差块、第四上采样残差块、第五上采样残差块、第六上采样残差块和第七上采样残差块;
第一下采样残差块、第二下采样残差块、第三下采样残差块、第四下采样残差块、第五下采样残差块、第六下采样残差块和第七下采样残差块内部结构是一样的,第一下采样残差块,包括依次连接的第一正则层和第一卷积模块;其中,第一正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第一卷积模块由下采样池化层和卷积层依次连接构成,下采样池化层的输入端与sigmoid激活函数的输出端连接;
第一上采样残差块、第二上采样残差块、第三上采样残差块、第四上采样残差块、第五上采样残差块、第六上采样残差块和第七上采样残差块内部结构是一样的,第一上采样残差块,包括依次连接的第二正则层和第二卷积模块;其中,第二正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第二卷积模块由上采样双线性插值层和卷积层依次连接构成,上采样双线性插值层的输入端与sigmoid激活函数的输出端连接;
解析图潜码预测网络,其工作过程包括:
训练过程中,在已知人脸解析图的约束下,待复原的人脸图像依次经过七个下采样残差块生成解析图高维潜码;
图像特征提取网络,其网络结构包括:
依次连接的第八下采样残差块、第九下采样残差块、第十下采样残差块、第十一下采样残差块、第十二下采样残差块、第十三下采样残差块、第十四下采样残差块、第八上采样残差块、第九上采样残差块、第十上采样残差块、第十一上采样残差块、第十二上采样残差块、第十三上采样残差块和第十四上采样残差块;
其中,第八下采样残差块、第九下采样残差块、第十下采样残差块、第十一下采样残差块、第十二下采样残差块、第十三下采样残差块和第十四下采样残差块内部结构是一样的,第一下采样残差块,包括依次连接的第三正则层和第三卷积模块;其中,第三正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第三卷积模块由下采样池化单元和卷积单元依次连接构成,下采样池化层的输入端与sigmoid激活函数的输出端连接;
其中,第八上采样残差块、第九上采样残差块、第十上采样残差块、第十一上采样残差块、第十二上采样残差块、第十三上采样残差块和第十四上采样残差块内部结构是一样的,第八上采样残差块,包括依次连接的第四正则层和第四卷积模块;其中,第四正则层由GroupNorm分组归一化和sigmoid激活函数依次连接构成,第四卷积模块由上采样双线性插值单元和卷积单元依次连接构成,上采样双线性插值层的输入端与sigmoid激活函数的输出端连接;
图像特征提取网络,其工作过程包括:
通过七个下采样残差块,从待复原的人脸图像中提取出图像高维潜码latentβ;
通过七个上采样残差块,从高维潜码latentβ中提取出多尺度图像特征F;
GAN先验生成模块,包括:
依次串联的第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元;
所述GAN先验生成模块还包括:
融合单元,所述融合单元的输入端分别输入解析图高维潜码和图像高维潜码;融合单元对输入的两种高维潜码进行串联拼接,融合单元输出拼接后的高维潜码;
融合单元将输出的拼接后的高维潜码输入到第一多层感知机中,将第一多层感知机的输出值分别输入到第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元;
第一GAN单元、第二GAN单元、第三GAN单元、第四GAN单元、第五GAN单元、第六GAN单元和第七GAN单元各自输出对应尺度的先验特征;
训练后的人脸图像复原模型,用于将待复原的人脸图像分别输入到解析图潜码预测网络和图像特征提取网络,多尺度信息融合模块将对应尺度的图像特征和先验特征进行融合,并将每一尺度融合后的特征,按照尺度从小到大的顺序逐层上采样,渐进生成最终的人脸复原图像。
6.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-4任一项所述的方法。
7.一种存储介质,其特征是,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-4任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311352790.5A CN117391995B (zh) | 2023-10-18 | 2023-10-18 | 渐进式人脸图像复原方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311352790.5A CN117391995B (zh) | 2023-10-18 | 2023-10-18 | 渐进式人脸图像复原方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117391995A CN117391995A (zh) | 2024-01-12 |
CN117391995B true CN117391995B (zh) | 2024-08-06 |
Family
ID=89462476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311352790.5A Active CN117391995B (zh) | 2023-10-18 | 2023-10-18 | 渐进式人脸图像复原方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117391995B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118262198B (zh) * | 2024-05-28 | 2024-08-27 | 杭州海康威视数字技术股份有限公司 | 图像复原模型的训练方法、图像复原方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693558A (zh) * | 2022-03-31 | 2022-07-01 | 福州大学 | 基于渐进融合多尺度策略的图像去摩尔纹方法及系统 |
CN114943656A (zh) * | 2022-05-31 | 2022-08-26 | 山东财经大学 | 一种人脸图像修复方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220012848A1 (en) * | 2021-09-25 | 2022-01-13 | Intel Corporation | Methods and apparatus to perform dense prediction using transformer blocks |
WO2023092386A1 (zh) * | 2021-11-25 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 一种图像处理方法、终端设备及计算机可读存储介质 |
CN116664435A (zh) * | 2023-06-01 | 2023-08-29 | 宜宾电子科技大学研究院 | 一种基于多尺度人脸解析图融入的人脸复原方法 |
-
2023
- 2023-10-18 CN CN202311352790.5A patent/CN117391995B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693558A (zh) * | 2022-03-31 | 2022-07-01 | 福州大学 | 基于渐进融合多尺度策略的图像去摩尔纹方法及系统 |
CN114943656A (zh) * | 2022-05-31 | 2022-08-26 | 山东财经大学 | 一种人脸图像修复方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117391995A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lan et al. | MADNet: A fast and lightweight network for single-image super resolution | |
CN111369440B (zh) | 模型训练、图像超分辨处理方法、装置、终端及存储介质 | |
US10319076B2 (en) | Producing higher-quality samples of natural images | |
DE102019130889A1 (de) | Schätzung der tiefe eines mit einer monokularen rgb-kamera aufgenommenen videodatenstroms | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN113159143B (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
CN117391995B (zh) | 渐进式人脸图像复原方法、系统、设备及存储介质 | |
CN113762147B (zh) | 人脸表情迁移方法、装置、电子设备及存储介质 | |
US20220414838A1 (en) | Image dehazing method and system based on cyclegan | |
CN111626932A (zh) | 图像的超分辨率重建方法及装置 | |
CN112446835B (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN112669248A (zh) | 基于cnn与拉普拉斯金字塔的高光谱与全色图像融合方法 | |
CN115908753B (zh) | 一种全身人体网格表面重建方法及相关装置 | |
CN112132741A (zh) | 一种人脸照片图像和素描图像的转换方法及系统 | |
CN113744136A (zh) | 基于通道约束多特征融合的图像超分辨率重建方法和系统 | |
CN111626296B (zh) | 基于深度神经网络的医学图像分割系统及方法、终端 | |
CN116823850A (zh) | 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统 | |
CN115115736A (zh) | 图像去伪影方法、装置、设备及存储介质 | |
Peng et al. | Raune-Net: a residual and attention-driven underwater image enhancement method | |
DE102019112595A1 (de) | Geführte halluzination für fehlende bildinhalte unter verwendung eines neuronalen netzes | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN111583345B (zh) | 一种相机参数的获取方法、装置、设备及存储介质 | |
CN116912268A (zh) | 一种皮肤病变图像分割方法、装置、设备及存储介质 | |
DE102018127265A1 (de) | Multi-einzelbild-videointerpolation mit optischem fluss | |
Teng et al. | Blind face restoration via multi-prior collaboration and adaptive feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |