CN116258627A - 一种极端退化人脸图像超分辨率恢复系统和方法 - Google Patents

一种极端退化人脸图像超分辨率恢复系统和方法 Download PDF

Info

Publication number
CN116258627A
CN116258627A CN202211600037.9A CN202211600037A CN116258627A CN 116258627 A CN116258627 A CN 116258627A CN 202211600037 A CN202211600037 A CN 202211600037A CN 116258627 A CN116258627 A CN 116258627A
Authority
CN
China
Prior art keywords
face
image
face image
resolution
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211600037.9A
Other languages
English (en)
Inventor
朱小柯
胡继辉
陈小潘
厉丹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202211600037.9A priority Critical patent/CN116258627A/zh
Publication of CN116258627A publication Critical patent/CN116258627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种极端退化人脸图像超分辨率恢复系统和方法,包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块;面部先验提取模块用于获取低分辨率人脸图像特征图;浅层特征提取模块用于提取到低频信息;注意力引导的Transformer模块用于提取高频信息并融合高频信息和低频信息;图像重建模块生成超分辨率人脸图像。本发明能够基于面部先验和注意力引导,利用面部先验信息来提高人脸图像恢复质量。

Description

一种极端退化人脸图像超分辨率恢复系统和方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于面部先验和注意力引导的极端退化人脸图像超分辨率恢复系统和方法。
背景技术
人脸图像超分辨率恢复(FSR)是一种针对特定领域的图像超分辨率问题,是指从低分辨率(LR)人脸图像中恢复出高分辨率(HR)人脸图像的技术。由于人脸在人类身份验证中的重要性,使用FSR技术恢复高质量的人脸图像在过去几十年中引起了广泛关注。
现有的FSR包括最早的基于高斯图像金字塔的多级预测模型、马尔可夫随机场(MRF)模型、利用全局人脸统计模型、基于局部补丁的人脸超分辨率模型、混合人脸超分辨率等方法,以对LR人脸图像进行超分辨率恢复。但是在现实场景中,由于物理成像系统和成像条件的限制,采集到的人脸图像通常含有严重的噪声和较低的图像分辨率。这严重影响了上述从LR人脸图像中恢复HR图像质量的方法。
为了解决这些极端退化场景中的超分辨率恢复问题,出现了一种基于重新表达技术的图像同质化策略。即在LR空间和HR空间中提出了均匀投影作为对经典LR/HR投影的补偿,然后通过一个重新表达模块来弥合复杂和简单退化之间的差距,以减少严重噪声和模糊等因素的影响。为了进一步提高均质化的准确性,上述方法使用两个同质化投影分别重新表达输入的LR图像和初始推断的HR图像。
但上述现有技术中,极端退化场景下面部的先验信息通常被忽略。现有的工作表明,面部先验信息可以通过使用面部各部位的位置和额外的面部分析图、面部地标等来捕获全局面部结构。这些信息对模型的恢复能力和恢复效果非常有利。然而,在严重退化的情况下,要获得面部的先验信息是很困难的。特别是图像的退化会导致信息的丢失,这不仅增加了预训练过程中先验提取的难度,同时也限制了先验提取的准确性,并进一步降低了人脸超分辨率的性能。
本发明中,极端退化场景是指在自然条件下的人脸成像条件不足,物理条件下的人脸成像设备和成像系统的限制所拍摄的包含严重噪声且很模糊的图像。低分辨率(LR)是指颗粒感严重在视觉上失真,高分辨率(HR)是指图像中的像素密度高,能够提供更多的细节,在FSR领域属于现有的专业名词。
发明内容
本发明的目的是提供一种极端退化人脸图像超分辨率恢复系统和方法,能够基于面部先验和注意力引导,利用面部先验信息来提高人脸图像恢复质量。
本发明采用下述技术方案:
一种极端退化人脸图像超分辨率恢复系统,包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块;其中,
面部先验提取模块,用于根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到低分辨率人脸图像特征图,并输入至浅层特征提取模块;
浅层特征提取模块,用于对低分辨率人脸图像特征图,通过卷积层进行人脸特征初始信息提取,并将得到的人脸特征初始信息输入至注意力引导的Transformer模块;人脸特征初始信息包括由浅层特征提取模块提取到的低频信息;
注意力引导的Transformer模块,用于对输入的人脸特征初始信息进行高频信息提取,并将得到的高频信息和人脸特征初始信息中的低频信息进行残差连接,得到已融合高频信息和低频信息的人脸特征融合信息;并将人脸特征融合信息发送至图像重建模块;
图像重建模块,用于根据输入的人脸特征融合信息,生成超分辨率人脸图像。
所述的人脸图像局部特征包括人脸图像的皮肤、头发和面部其他部位特征三个特征。
所述的面部先验提取模块包括面部语义分割网络和时空池化层;面部语义分割网络用于根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层用于对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图。
所述的面部语义分割网络包括上下文分支网络和时空分支网络;上下文分支网络用于对上下文中的人脸图像语义信息进行编码;时空分支网络用于对人脸图像信息中的空间信息和细节信息进行编码;面部语义分割网络包含主损失函数lp和辅助损失函数li;面部语义分割网络的联合损失函数L(X;W)为:
Figure BDA0003997069510000031
其中,lp(X;W)为上下文分支网络和时空分支网络网络拼接后的损失函数,X表示拼接后的输出特征,W为更新参数,α为用于平衡主损失函数lp和辅助损失函数li的权重,K=2表示两个分支网络,Xi代表第i个分支网络的输出特征。
所述的注意力引导的Transformer模块,由多个PCAT块和第一卷积层组成,每个PCAT块均由两个分支组成,第一分支由多个STL层和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取;第一分支和第二分支的输出以残差方式连接;
设给定第i个PCAT块的输入特征Fi,0,通过N个STL层提取中间特征Fi,1,Fi,2,Fi,3,…Fi,N,PCAT块的输出由以下公式表示:
Figure BDA0003997069510000032
其中,
Figure BDA0003997069510000033
表示为第i个PCAT块中的第j个STL层。
所述的通道注意力模块包括平行的偏差池化层和平均池化层,偏差池化层和平均池化层的输出根据不同的权重连接后,依次进入激活函数不同的两个卷积网络,最后一个卷积网络的输出信息与初始输入信息再次进行残差连接后,输出最终的脸部通道注意力信息;
通道注意力模块的输出Mi表示为:
Figure BDA0003997069510000041
其中,
Figure BDA0003997069510000042
和/>
Figure BDA0003997069510000043
分别表示ReLU激活函数和Sigmoid激活函数,w1为权重,AvgPool(·)表示平均池化,Fpai表示来自像素注意模块的特征信息,Devpool(·)表示偏差池化;
所述的像素注意力模块,采用Kernel size为1且激活函数为ReLU的卷积层,像素注意力模块的输出Mj表示为:
Figure BDA0003997069510000044
其中,
Figure BDA0003997069510000045
表示ReLU激活函数,Conv(·)表示Kernel size为1且激活函数为ReLU的卷积层,w3为权重,Fi表示像素注意力模块的输入。
所述的图像重建模块表示为:
Frhq=Hrec(Fs+Fd);
其中,Frhq表示所得到的面部重建特征,Fs表示浅层特征提取模块输入的低频信息,Fd表示注意力引导的Transformer模块输入的高频信息特征。
利用权利要求1至7中任意一项极端退化人脸图像超分辨率恢复系统实现的恢复方法,包括以下步骤:
A:构建人脸图像数据集;
B:对所构建的人脸图像数据集中的人脸图像进行预处理;
C:构建面部组件注意力预测模型,随后利用预处理后的人脸图像对面部组件注意力预测模型进行训练,最终得到训练后的面部组件注意力预测模型;
D:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重,然后将原始低分辨率人脸图像输入至极端退化人脸图像超分辨率恢复系统中,面部先验提取模块中的面部语义分割网络,根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
E:将步骤D中得到的低分辨率人脸图像特征图送入浅层特征提取模块进行浅层特征提取;然后将包含低频信息的人脸特征初始信息输入至注意力引导的Transformer模块中;
F:注意力引导的Transformer模块对输入的人脸特征初始信息进行高频信息提取,最终获得高频信息;并将人脸特征初始信息中包含的低频信息直接与得到的高频信息通过残差连接进行结合,得到融合了高频信息和低频信息的人脸特征融合信息;
G:根据注意力引导的Transformer模块输入的人脸特征融合信息,通过图像重建模块生成最终的高分辨率人脸图像。
所述的步骤D包括以下具体步骤:
D1:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重;
D2:利用语义分割网络中的上下文分支网络,对输入的原始低分辨率人脸图像进行图像下采样处理,得到处理后的输入图像;随后将处理后的输入图像送入上下文分支网络中的ARM模块中,依次经ARM模块中的CBR层、全局平均池化层、Sigmoid激活函数、BN层和卷积层后输出三个初始特征图,三个初始特征图分别为对应的人脸图像的皮肤、头发和面部其他部位初始特征图;随后将输出的初始特征图进行上采样作为三张待叠加特征图A;
D3:将输入的原始低分辨率人脸图像,经时空分支网络中的CBR层处理后得到一张待叠加特征图B,然后将待叠加特征图B分别与每张待叠加特征图A以第一维度进行叠加,得到语义分割特征图T1、T2和T3,依次为人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;然后将语义分割特征图T1、T2和T3依次进行上采样处理和时空池化层处理,得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
D4:将输入的原始低分辨率人脸图像,与得到的三张初始灰度注意力图相乘,得到三张最终灰度注意力图;
D5:将输入的原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块。
所述的步骤G中,还将现实极端退化场景分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时:首先构建卷积网络并设置激活函数;然后对由人脸特征融合信息所得到的人脸图像进行双三次线性插值后再进行上采样,然后将经上采样后的人脸图像恢复到原始大小;最终将恢复原始大小后的人脸图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率人脸图像;
在针对不存在对应高清人脸图像极端退化场景时:首先构建卷积网络并设置激活函数和输出维度;然后利用构建的卷积网络对人脸图像进行多次面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像进行上采样,得到最终的高分辨率人脸图像。人脸特征融合信息发送至图像重建模块;
本发明通过设置面部先验提取模块,能够从严重退化图像中提取面部先验信息,利用面部先验信息来提高图像恢复质量。本发明通过选择人脸图像中皮肤、头发和面部其他部位的特征作为图像特征,通过面部语义分割网络和时空池化层获取对低分辨率人脸图像特征图,然后分别经浅层特征提取模块和注意力引导的Transformer模块获取人脸特征初始信息中的高频信息和低频信息进行融合,再利用得到的人脸特征融合信息利用图像重建模块生成高分辨率人脸图像。本发明能够基于面部先验和注意力引导,利用面部先验信息来提高人脸图像恢复质量。
附图说明
图1为本发明中极端退化人脸图像超分辨率恢复系统的原理示意图;
图2为本发明中极端退化人脸图像超分辨率恢复方法的流程示意图;
图3为本发明与现有方法在CAS-PEAL-R1数据集上的效果对比图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的极端退化人脸图像超分辨率恢复系统,包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块,其中:
面部先验提取模块,用于根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到低分辨率人脸图像特征图,并输入至浅层特征提取模块;
浅层特征提取模块,用于对低分辨率人脸图像特征图,通过卷积层进行人脸特征初始信息提取,并将得到的人脸特征初始信息输入至注意力引导的Transformer模块;人脸特征初始信息包括由浅层特征提取模块提取到的低频信息;
注意力引导的Transformer模块,用于对输入的人脸特征初始信息进行高频信息提取,并将得到的高频信息和人脸特征初始信息中的低频信息进行残差连接,得到已融合高频信息和低频信息的人脸特征融合信息;并将人脸特征融合信息发送至图像重建模块;
图像重建模块,用于根据输入的人脸特征融合信息,生成高分辨率人脸图像。
人脸图像中存在多种局部特征,如耳朵、颈部、皮肤、头发和面部其他部位等;在极端场景下由于耳朵在大多数图像中被头发遮挡或者图像中根本无显示;颈部对于人脸图像的恢复起不到作用;而皮肤、头发和面部其他部位这三个特征则更加容易从人脸图像中获取且能够很好的分辨,因此本发明中选取皮肤、头发和面部其他部位特征作为三个人脸图像局部特征,而忽略人脸图像中其他无用特征;其中,面部其他部位特征包括眼睛、鼻子、上下嘴唇和眉毛;
本发明中,所述的面部先验提取模块,首先根据输入的原始低分辨率人脸图像得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;然后由面部先验提取模块将原始低分辨率人脸图像与所得到的三张初始灰度注意力图相乘得到三张最终灰度注意力图,再将原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到低分辨率人脸图像特征图;
面部先验提取模块包括面部语义分割网络和时空池化层;面部语义分割网络用于根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层用于对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
本实施例中,面部语义分割网络包括上下文分支网络和时空分支网络;上下文分支网络旨在提供足够大的感受野,用于对上下文中的人脸图像语义信息进行编码;时空分支网络用于对人脸图像信息中的空间信息和细节信息进行编码,以防止空间信息的丢失;
面部语义分割网络包含主损失函数lp和辅助损失函数li;其中的主损失函数lp用于监督整个面部语义分割网络的输出,辅助损失函数li用于监督两个分支网络(即上下文分支网络和时空分支网络)的输出;主损失函数lp和辅助损失函数li均采用Softmax函数。
面部语义分割网络的联合损失函数L(X;W)为:
Figure BDA0003997069510000081
其中,lp(X;W)为上下文分支网络和时空分支网络网络拼接后的损失函数,X表示拼接后的输出特征,W为更新参数,α为用于平衡主损失函数lp和辅助损失函数li的权重,K=2表示两个分支网络,Xi代表第i个分支网络的输出特征;
本发明中,所述的浅层特征提取模块通过卷积层对低分辨率人脸图像特征图进行人脸特征初始信息提取,人脸特征初始信息包括由浅层特征提取模块提取到的低频信息,以及可能存在的由浅层特征提取模块无法提取的高频信息。浅层特征提取模块将人脸特征初始信息输入至注意力引导的Transformer模块,由后续的注意力引导的Transformer模块进行高频信息的提取,并实现高频信息和低频信息的融合。
本发明中,低频信息包括人脸图像特征中嘴、鼻和眼的概貌轮廓信息;高频信息包括皮肤肤色、纹理、亮度和人脸五官的边缘细节;
本实施例中,低分辨率人脸图像特征图Ilow的浅层特征Fs为:
Fs=Hs(Ilow); (2)
其中,Hs(·)表示浅层特征提取模块,由一个3×3的卷积层组成;
本发明中,所述的注意力引导的Transformer模块,用于从浅层特征提取模块输入的人脸特征初始信息中提取高频信息,在得到高频信息后,将浅层特征提取模块输入的低频信息与得到的高频信息通过残差连接进行结合,得到融合了高频信息和低频信息的人脸特征融合信息;
本发明中,注意力引导的Transformer模块,由多个PCAT(Pixel and ChannelAttention guided Transformer)块和第一卷积层组成。本实施例中,可采用6个PCAT块和一个第一卷积层。
本实施例中,每个PCAT块均由两个分支组成,第一分支由多个STL层(SwinTransformer)和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取,比如鼻梁与眼部的纹理细节,眉毛的粗细,眼睛的大小,嘴角的方向等;第一分支和第二分支的输出以残差方式连接;
本实施例中,设给定第i个PCAT块的输入特征Fi,0,通过N个STL层提取中间特征Fi,1,Fi,2,Fi,3,…Fi,N,PCAT块的输出可由以下公式表示:
Figure BDA0003997069510000091
其中,
Figure BDA0003997069510000092
表示为第i个PCAT块中的第j个STL层;
本发明中注意力引导的Transformer模块采用特殊设计的双分支结构,且在多个STL层后增设第二卷积层,具有如下优点:
1.一般的卷积神经网络感受野较小,对于单张人脸图像的恢复来说在特定的区域会导致区域模糊,边界存在重合。虽然现有的Transformer可以被视为空间变化卷积的一种特定实例,但存在平移等效性较差的缺陷,在本应用场景下极易造成人脸特征初始信息偏差,导致图像中出现重影等问题。因此本实施例中,在多个STL层后加入具有空间不变滤波器的第二卷积层,可以有效增强PCAT的平移等效性,杜绝上述问题的产生。
2.每个PCAT中两个分支的输出以残差方式连接,提供了从不同块到重建模块的基于身份的连接,允许聚合不同级别的特征。但由于STL层并非针对人脸超分辨率的应用场景而设计,因此在极端退化条件下无法有效恢复人脸图像的高频信息。因此,本发明采用像素注意力和通道注意力来克服这个问题。通道注意力通过给每个通道分配不同的权重,使得网络更加关注重要特征,能够显著提高脸部局部区域的特征恢复效果,使用像素注意力是因为在不同的通道,不同的位置具有不同的重要性,所以一个通道的不同位置需要不同的比例因子。通道注意力不能同时自适应的调整通道特征和具有不同比例因子的通道中不同位置的特征。这使得我们在恢复中对于脸部亮度,色彩等细节的恢复可以做到很平滑的延展。
本发明中,所采用的通道注意力模块包括平行的偏差池化层和平均池化层,偏差池化层和平均池化层的输出根据不同的权重连接后依次输入激活函数不同的两个卷积网络,最后一个卷积网络的输出信息与初始输入信息再次进行残差连接后,输出最终的脸部通道注意力信息;
本实施例中,使用偏差池化(Deviation pooling)替换掉现有的最大池化(Maxpooling),偏差池化与平均池化(average pooling)平行设计,用于人脸部细节特征的优化,同时还采用两个激活函数不同的卷积网络,使得脸部恢复的更加的清晰,纹理更加平滑细腻。
本实施例中,通道注意力模块的输出Mi可表示为:
Figure BDA0003997069510000101
其中,
Figure BDA0003997069510000102
和/>
Figure BDA0003997069510000103
分别表示ReLU激活函数和Sigmoid激活函数,w1为权重,AvgPool(·)表示平均池化,Fpai表示来自像素注意模块的特征信息,Devpool(·)表示偏差池化;
本发明中,所采用的像素注意力模块,采用Kernel size为1且激活函数为ReLU的卷积层,像素注意力模块的输出Mj可表示为:
Figure BDA0003997069510000111
其中,
Figure BDA0003997069510000112
表示ReLU激活函数,Conv(·)表示Kernel size为1且激活函数为ReLU的卷积层,w3为权重,Fi表示像素注意力模块的输入;
所述的图像重建模块,用于根据注意力引导的Transformer模块输入的人脸特征融合信息,生成具有更可靠、更清晰的面部细节的超分辨率人脸图像,使得色彩更加逼真,纹理更加细腻平滑,亮度更加自然。
图像重建模块可表示为:
Frhq=Hrec(Fs+Fd);(5)
其中,Frhq表示所得到的面部重建特征,Fs表示浅层特征提取模块输入的低频信息,Fd表示注意力引导的Transformer模块输入的高频信息特征。
本发明中,图像重建模块还可根据使用需求的不同,在现实极端退化场景下分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时,首先构建卷积核为3x3,步长为1的卷积网络,且设置激活函数为LeakyRelu;然后在对由人脸特征融合信息所得到的图像进行双三次线性插值后,再对图像进行4倍上采样,然后将经上采样后的图像恢复到原始大小;最终将恢复原始大小后的图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率的人脸图像;
在针对不存在对应高清人脸图像极端退化场景时,首先构建卷积核为3x3,步长为1的卷积网络,设置激活函数为LeakyRelu且输出维度为64;然后利用构建的卷积网络对图像进行面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像通过nearest方式进行4倍上采样,得到最终的高分辨率的人脸图像。
如图2所示,依据上述极端退化人脸图像超分辨率恢复系统所实现的恢复方法,包括以下步骤:
A:构建人脸图像数据集;
本发明中,初始的人脸图像数据库采用CelebAMask-HQ数据库,为现有的大规模人脸图像数据库。筛选CelebAMask-HQ数据库中包含所选择的人脸图像局部特征种类的人脸图像,并组成人脸图像数据集。本实施例中,人脸图像局部特征选取皮肤、头发和面部其他部位这三种特征
B:对所构建的人脸图像数据集中的人脸图像进行预处理;
本发明中,首先对人脸图像按照特征重采样至256×320尺寸大小,随后添加方差为0.015的高斯噪声;得到预处理后的人脸图像;
C:构建面部组件注意力预测模型,面部组件注意力预测模型采用CH神经网络,损失函数采用ohloss函数;随后利用预处理后的人脸图像对面部组件注意力预测模型进行训练,最终得到训练后的面部组件注意力预测模型;
本实施例中,CH神经网络可采用Resnet50神经网络。
本发明中,训练后的面部组件注意力预测模型,用于为极端退化人脸图像超分辨率恢复系统中的面部语义分割网络提供初始权重,以更为高效准确地进行人脸图像超分辨率恢复;
D:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重,然后将原始低分辨率人脸图像输入至极端退化人脸图像超分辨率恢复系统中,面部先验提取模块中的面部语义分割网络,根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
所述的步骤D中,上下文分支网络根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
本实施例中,上下文分支网络使用Resnet18作为base网络。
所述的步骤D包括以下具体步骤:
D1:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重;
D2:利用语义分割网络中的上下文分支网络,对输入的原始低分辨率人脸图像进行图像下采样处理,得到处理后的输入图像;图像下采样处理包括:首先对输入的原始低分辨率人脸图像进行4倍下采样,随后再进行两次下采样,以分别对应原始低分辨率人脸图像尺寸的8倍下采样和16倍下采样;最终得到的16倍下采样的处理后的输入图像的尺寸为16×20;随后将处理后的输入图像送入上下文分支网络中的ARM模块(AttentionRefinementModule)中,在ARM模块中依次经ARM模块中的CBR层(Conv+BN+Relu,卷积核大小为2x2)、全局平均池化层、Sigmoid激活函数、BN层和卷积层后输出三个初始特征图,三个初始特征图分别为对应的人脸图像的皮肤、头发和面部其他部位初始特征图;随后将输出的初始特征图进行2倍上采样作为三张待叠加特征图A;
D3:将输入的原始低分辨率人脸图像,分别经时空分支网络中的三个CBR层(Conv+BN+Relu,卷积核大小为2x2)处理后得到一张待叠加特征图B,然后将待叠加特征图B分别与每张待叠加特征图A以第一维度进行叠加,分别得到语义分割特征图T1、T2和T3,依次为人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;然后将语义分割特征图T1、T2和T3依次进行2倍上采样处理和时空池化层处理,得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
D4:将输入的原始低分辨率人脸图像,与得到的三张初始灰度注意力图相乘,得到三张最终灰度注意力图;
D5:将输入的原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
E:将步骤D中得到的低分辨率人脸图像特征图送入浅层特征提取模块进行浅层特征提取,保留低频信息;然后将包含低频信息的人脸特征初始信息输入至注意力引导的Transformer模块中;
F:注意力引导的Transformer模块对输入的人脸特征初始信息进行特征提取和特征结合;浅层特征提取模块输出的人脸特征初始信息,一路直接输入到注意力引导的Transformer模块中进行高频信息提取,最终获得高频信息;另一路人脸特征初始信息所包含的低频信息,直接与得到的高频信息通过残差连接进行结合,最终得到融合了高频信息和低频信息的人脸特征融合信息;
本实施例中,注意力引导的Transformer模块,由多个PCAT块和第一卷积层组成。每个PCAT块均由两个分支组成,第一分支由多个STL层和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取;第一分支和第二分支的输出以残差方式连接;
G:根据注意力引导的Transformer模块输入的人脸特征融合信息,通过图像重建模块生成最终的高分辨率人脸图像;
所述的步骤G中,还将现实极端退化场景分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时:首先构建卷积核为3x3、步长为1的卷积网络,且设置激活函数为LeakyRelu;然后对由人脸特征融合信息所得到的人脸图像进行双三次线性插值后再进行4倍上采样,然后将经上采样后的人脸图像恢复到原始大小;最终将恢复原始大小后的人脸图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率人脸图像;
在针对不存在对应高清人脸图像极端退化场景时:首先构建卷积核为3x3、步长为1的卷积网络,设置激活函数为LeakyRelu且输出维度为64;然后利用构建的卷积网络对人脸图像进行三次面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像通过nearest方式进行4倍上采样,得到最终的高分辨率人脸图像。
本发明与现有方法在CAS-PEAL-R1数据集上的效果对比图如图3所示。图3中,(a)为Bicubic恢复法;(b)为“Super-resolution through neighbor embedding”恢复法;(c)为“Accurate image super-resolution using very deep convolutional networks”恢复法;(d)为“Enhanced deep residual networks for single image super-resolution”恢复法;(e)为“Noise face image hallucination via data-driven local edgetransformation”恢复法;(f)为“Image super-resolution using deep convolutionalnetworks”恢复法;(g)为“Image super-resolution via sparse representation”恢复法;(h)“Noise robust face hallucination via locality-constrainedrepresentation”恢复法;(i)为“Robust face image super-resolution via jointlearning of subdivided contextual model”恢复法;(k)为“Multi-stage degradationhomogenization for super-resolution of face images with extreme degradations”恢复法;(l)为本发明所述方法;(m)为“Ground truth”恢复法。

Claims (10)

1.一种极端退化人脸图像超分辨率恢复系统,其特征在于:包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块;其中,
面部先验提取模块,用于根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到低分辨率人脸图像特征图,并输入至浅层特征提取模块;
浅层特征提取模块,用于对低分辨率人脸图像特征图,通过卷积层进行人脸特征初始信息提取,并将得到的人脸特征初始信息输入至注意力引导的Transformer模块;人脸特征初始信息包括由浅层特征提取模块提取到的低频信息;
注意力引导的Transformer模块,用于对输入的人脸特征初始信息进行高频信息提取,并将得到的高频信息和人脸特征初始信息中的低频信息进行残差连接,得到已融合高频信息和低频信息的人脸特征融合信息;并将人脸特征融合信息发送至图像重建模块;
图像重建模块,用于根据输入的人脸特征融合信息,生成超分辨率人脸图像。
2.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的人脸图像局部特征包括人脸图像的皮肤、头发和面部其他部位特征三个特征。
3.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的面部先验提取模块包括面部语义分割网络和时空池化层;面部语义分割网络用于根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层用于对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图。
4.根据权利要求3所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的面部语义分割网络包括上下文分支网络和时空分支网络;上下文分支网络用于对上下文中的人脸图像语义信息进行编码;时空分支网络用于对人脸图像信息中的空间信息和细节信息进行编码;面部语义分割网络包含主损失函数lp和辅助损失函数li;面部语义分割网络的联合损失函数L(X;W)为:
Figure FDA0003997069500000021
其中,lp(X;W)为上下文分支网络和时空分支网络网络拼接后的损失函数,X表示拼接后的输出特征,W为更新参数,α为用于平衡主损失函数lp和辅助损失函数li的权重,K=2表示两个分支网络,Xi代表第i个分支网络的输出特征。
5.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的注意力引导的Transformer模块,由多个PCAT块和第一卷积层组成,每个PCAT块均由两个分支组成,第一分支由多个STL层和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取;第一分支和第二分支的输出以残差方式连接;
设给定第i个PCAT块的输入特征Fi,0,通过N个STL层提取中间特征Fi,1,Fi,2,Fi,3,…Fi,N,PCAT块的输出由以下公式表示:
Figure FDA0003997069500000022
其中,
Figure FDA0003997069500000023
表示为第i个PCAT块中的第j个STL层。
6.根据权利要求5所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的通道注意力模块包括平行的偏差池化层和平均池化层,偏差池化层和平均池化层的输出根据不同的权重连接后,依次进入激活函数不同的两个卷积网络,最后一个卷积网络的输出信息与初始输入信息再次进行残差连接后,输出最终的脸部通道注意力信息;
通道注意力模块的输出Mi表示为:
Figure FDA0003997069500000024
其中,
Figure FDA0003997069500000031
和/>
Figure FDA0003997069500000032
分别表示ReLU激活函数和Sigmoid激活函数,w1为权重,AvgPool(·)表示平均池化,Fpai表示来自像素注意模块的特征信息,Devpool(·)表示偏差池化;
所述的像素注意力模块,采用Kernel size为1且激活函数为ReLU的卷积层,像素注意力模块的输出Mj表示为:
Figure FDA0003997069500000033
其中,
Figure FDA0003997069500000034
表示ReLU激活函数,Conv(·)表示Kernel size为1且激活函数为ReLU的卷积层,w3为权重,Fi表示像素注意力模块的输入。
7.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的图像重建模块表示为:
Frhq=Hrec(Fs+Fd);
其中,Frhq表示所得到的面部重建特征,Fs表示浅层特征提取模块输入的低频信息,Fd表示注意力引导的Transformer模块输入的高频信息特征。
8.利用权利要求1至7中任意一项极端退化人脸图像超分辨率恢复系统实现的恢复方法,其特征在于:包括以下步骤:
A:构建人脸图像数据集;
B:对所构建的人脸图像数据集中的人脸图像进行预处理;
C:构建面部组件注意力预测模型,随后利用预处理后的人脸图像对面部组件注意力预测模型进行训练,最终得到训练后的面部组件注意力预测模型;
D:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重,然后将原始低分辨率人脸图像输入至极端退化人脸图像超分辨率恢复系统中,面部先验提取模块中的面部语义分割网络,根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
E:将步骤D中得到的低分辨率人脸图像特征图送入浅层特征提取模块进行浅层特征提取;然后将包含低频信息的人脸特征初始信息输入至注意力引导的Transformer模块中;
F:注意力引导的Transformer模块对输入的人脸特征初始信息进行高频信息提取,最终获得高频信息;并将人脸特征初始信息中包含的低频信息直接与得到的高频信息通过残差连接进行结合,得到融合了高频信息和低频信息的人脸特征融合信息;
G:根据注意力引导的Transformer模块输入的人脸特征融合信息,通过图像重建模块生成最终的高分辨率人脸图像。
9.根据权利要求8所述的极端退化人脸图像超分辨率恢复方法,其特征在于:所述的步骤D包括以下具体步骤:
D1:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重;
D2:利用语义分割网络中的上下文分支网络,对输入的原始低分辨率人脸图像进行图像下采样处理,得到处理后的输入图像;随后将处理后的输入图像送入上下文分支网络中的ARM模块中,依次经ARM模块中的CBR层、全局平均池化层、Sigmoid激活函数、BN层和卷积层后输出三个初始特征图,三个初始特征图分别为对应的人脸图像的皮肤、头发和面部其他部位初始特征图;随后将输出的初始特征图进行上采样作为三张待叠加特征图A;
D3:将输入的原始低分辨率人脸图像,经时空分支网络中的CBR层处理后得到一张待叠加特征图B,然后将待叠加特征图B分别与每张待叠加特征图A以第一维度进行叠加,得到语义分割特征图T1、T2和T3,依次为人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;然后将语义分割特征图T1、T2和T3依次进行上采样处理和时空池化层处理,得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
D4:将输入的原始低分辨率人脸图像,与得到的三张初始灰度注意力图相乘,得到三张最终灰度注意力图;
D5:将输入的原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块。
10.根据权利要求8所述的极端退化人脸图像超分辨率恢复方法,其特征在于:所述的步骤G中,还将现实极端退化场景分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时:首先构建卷积网络并设置激活函数;然后对由人脸特征融合信息所得到的人脸图像进行双三次线性插值后再进行上采样,然后将经上采样后的人脸图像恢复到原始大小;最终将恢复原始大小后的人脸图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率人脸图像;
在针对不存在对应高清人脸图像极端退化场景时:首先构建卷积网络并设置激活函数和输出维度;然后利用构建的卷积网络对人脸图像进行多次面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像进行上采样,得到最终的高分辨率人脸图像。
CN202211600037.9A 2022-12-13 2022-12-13 一种极端退化人脸图像超分辨率恢复系统和方法 Pending CN116258627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211600037.9A CN116258627A (zh) 2022-12-13 2022-12-13 一种极端退化人脸图像超分辨率恢复系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211600037.9A CN116258627A (zh) 2022-12-13 2022-12-13 一种极端退化人脸图像超分辨率恢复系统和方法

Publications (1)

Publication Number Publication Date
CN116258627A true CN116258627A (zh) 2023-06-13

Family

ID=86685277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211600037.9A Pending CN116258627A (zh) 2022-12-13 2022-12-13 一种极端退化人脸图像超分辨率恢复系统和方法

Country Status (1)

Country Link
CN (1) CN116258627A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541791A (zh) * 2023-11-23 2024-02-09 北京师范大学 基于多域可变形卷积的眼部结构分割方法、系统及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541791A (zh) * 2023-11-23 2024-02-09 北京师范大学 基于多域可变形卷积的眼部结构分割方法、系统及设备
CN117541791B (zh) * 2023-11-23 2024-05-28 北京师范大学 基于多域可变形卷积的眼部结构分割方法、系统及设备

Similar Documents

Publication Publication Date Title
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111445410B (zh) 基于纹理图像的纹理增强方法、装置、设备和存储介质
CN109919830B (zh) 一种基于美学评价的带参考人眼图像修复方法
CN111179167B (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN109615582A (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN107977932A (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN111489287A (zh) 图像转换方法、装置、计算机设备和存储介质
Li et al. Single image snow removal via composition generative adversarial networks
CN111292265A (zh) 一种基于生成式对抗神经网络的图像修复方法
Chadha et al. iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks
Zhang et al. Accurate and efficient image super-resolution via global-local adjusting dense network
Lu et al. Rethinking prior-guided face super-resolution: A new paradigm with facial component prior
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
CN111275638A (zh) 基于多通道注意力选择生成对抗网络的人脸修复方法
CN109325915A (zh) 一种用于低分辨率监控视频的超分辨率重建方法
CN112288632A (zh) 基于精简esrgan的单图像超分辨率方法及系统
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN116258627A (zh) 一种极端退化人脸图像超分辨率恢复系统和方法
CN116664397A (zh) TransSR-Net结构化图像超分辨重建方法
Yang et al. A survey of super-resolution based on deep learning
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN114764754B (zh) 一种基于几何感知先验引导的遮挡人脸修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination