CN114549309A - 一种基于深度学习的人脸图像超分辨率计算方法 - Google Patents
一种基于深度学习的人脸图像超分辨率计算方法 Download PDFInfo
- Publication number
- CN114549309A CN114549309A CN202210112704.2A CN202210112704A CN114549309A CN 114549309 A CN114549309 A CN 114549309A CN 202210112704 A CN202210112704 A CN 202210112704A CN 114549309 A CN114549309 A CN 114549309A
- Authority
- CN
- China
- Prior art keywords
- resolution
- super
- image
- texture
- tfsr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图像识别技术领域,特别涉及一种基于深度学习的人脸图像超分辨率计算方法。步骤一:数据处理;使用基于参考图像的人脸超分辨率方法输入数据为低分辨率图像LR和高分辨率的参考图像Ref,输出目标是超分辨率图像SR;步骤二:纹理信息提取;步骤三:纹理信息转化;纹理信息转化包括相关系数矩阵计算模块、纹理信息查询模块以及纹理权重赋值模块;步骤四:基于参考图像的超分辨率处理;步骤五:损失函数与优化器;步骤六:评价方法;步骤七:验证TFSR的有效性;将TFSR和最佳的人脸超分辨率方法进行对比,以验证TFSR的有效性。
Description
技术领域
本发明涉及图像识别技术领域,特别涉及一种基于深度学习的人脸图像超分辨率计算方法。
背景技术
现有的基于深度学习的FSR算法中,将人脸先验知识(如人脸关键点、解析图、身份信息)融入人脸超分辨率是一种非常流行且实测有效的做法。现有的技术方案是DIC,该方法解决了以下两个问题:
1、LR人脸图像或者初步的SR重建结果质量优先,从中提取的相关信息准确性难以保证;
2、大部分方法只是使用特征图并接来利用人脸先验信息,这种做法并不能充分利用先验信息。
为解决来自低质量图像的人脸先验信息不准确的问题,DIC使用图1所示的反馈迭代网络迭代进行人脸超分辨率和人脸关键点检测,从而使得产生的超分辨率图片越来越接近真实图片。经过三次迭代后,网络达到超分辨率性能提升的极限。为充分利用人脸先验信息,DIC将人脸关键点手动融合到眼鼻口和脸颊对应的五组特征图。使用Soft最大值算法处理关键点信息,得到注意力图,以此调整特征图的权重后再融合到超分辨率网络中。
DIC使用的PSNR计算方法首先为对三通道彩色图片进行灰度变化,然后对灰度图像进行评估。这种方法本质是对RGB进行加权求和,没有考虑独立的RGB像素值,相比直接在RGB域计算会得到更高的数值但评估能力更低。
DIC从超分辨率结果种恢复得到人脸先验信息,但超分辨率结果与高分辨率目标在纹理细节上不完全一致,因此先验信息是不准确的。相应的,由不准确的先验信息推导得到的超分辨率结果的准确性也得不到保证。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的人脸图像超分辨率计算方法,以解决背景技术中提出的问题。
为了解决上述技术问题,本发明的技术方案为:一种基于深度学习的人脸图像超分辨率计算方法,包括以下步骤:
步骤一:数据处理;
使用基于参考图像的人脸超分辨率方法输入数据为低分辨率图像LR和高分辨率的参考图像Ref,输出目标是超分辨率图像SR;
使用双三次插值方法将LR上采样到与参考图像尺寸的低质量图像LR↑;
使用同样的插值算子对Ref先后进行8倍下采样退化和上采样插值操作,得到低质量参考图像Ref↓↑;
在LR↑、Ref↓↑、Ref的辅助下,使用超分辨率模型对LR进行处理,得到SR结果;
步骤二:纹理信息提取:
使用可学习的纹理提取器处理步骤一中的LR↑、Ref↓↑、Ref图像,得到用于提取参考纹理信息的特征图;
步骤三:纹理信息转化;
纹理信息转化包括相关系数矩阵计算模块、纹理信息查询模块以及纹理权重赋值模块;
其中,相关系数矩阵计算模块是通过计算查询向量和关键字向量之间的相关系数矩阵相似度来获取低分辨率图像和参考图像之间的位置相关信息;纹理信息提取器输出的Q和K尺寸均为[B,C,H,W]的特征图,在进行相似度估计之前,需要先通过unfold操作展开到小块,转化成尺寸为[B,Ckhkw,HW]的特征矩阵和其中kh和kw为unfold操作的卷积核尺寸,对于Q中的每一个小块qi,i∈[1,HLRWLR]和K中的每一个小块kj,j∈[1,HRefWRef],通过标准化的内积操作计算它们之间的相关ri,j,表达式为:
使用纹理信息查询模块根据来自相关矩阵的索引在参考特征图中获得转移纹理特征后,使用纹理权重赋值模块对转移纹理特征进一步处理,纹理权重赋值模块计算相关系数矩阵R在j维度上最大值si,组成软注意力图S,软注意力图S的功能是根据相关系数矩阵R中每个查询向量qi和最匹配的关键字向量之间的匹配程度调整各向量的权重,软注意力模块的计算公式为:
Fout=F+Conv[Concat(F,T)]e S
输出特征,Conv和Concat分别表示卷积层和特征图并接,e表示矩阵对应元素乘积,软注意力模块先将低分辨率特征F和转移纹理特征并接,再使用一层卷积层处理得到组合特征图,以同时利用转移纹理特征和低分辨率特征,软注意力模块调整组合特征图中各位置权重后将组合特征图加回低分辨率特征图;
步骤四:基于参考图像的超分辨率处理;
利用TFSR的多尺度网络结构进行基于参考图像的超分辨率处理;
步骤五:损失函数与优化器;
在步骤四中TFSR的损失函数表达式为:
其中ISR为网络模型输出的超分辨率图像的第i个像素点,IHR为目标高分辨率图像的第i个像素点,n为像素点总数,一范数直接最小化生成图像与目标图像之间的像素差异,是TFSR损失函数中的主要分量,基于结构相似性的损失函数通过最大化结构相似性来约束结构差异,表达式为:
Lsim=1-SSIM(ISR,IHR)
其中B为下采样过程,可为预训练的下采样网络或传统下采样函数,退化损失将生成图像和目标图像的分辨率降低到16×16,通过最小化退化结果之间的一范数差异来提高生成图像和目标图像之间的相似性;
TFSR使用Adam优化器更新网络参数,对主干网络和纹理信息提取器模块进行参数更新,同时使用衰减的学习率,定期将学习率衰减为当前的一半;
步骤六:评价方法;
使用结构相似性(SSIM)、身份相似性和峰值信噪比(PSNR)指标对恢复结果与高分辨率原图之间的相似程度进行客观评价;
PSNR表达式为:
其中x,y为图像,MAX为图像像素值上限,PSNR与均方误差(Mean Squared Error,MSE)高度相关,能够有效地描述两张图像之间的相似程度;
步骤七:验证TFSR的有效性;
将TFSR和最佳的人脸超分辨率方法进行对比,以验证TFSR的有效性。
其中,目标超分辨率图像的分辨率是128×128,参考图像的分辨率与目标图像相同。
其中,可学习的纹理提取器模块使用预训练的VGG19,在训练过程中以较小学习率进行参数更新;输出包括:
在第2层输出尺寸为128×128的64通道特征图;
在第7层输出尺寸为64×64的128通道特征图;
在第12层输出尺寸为32×32的256通道特征图;
在第21层输出尺寸为16×16的512通道特征图;
可学习的特征提取器的处理任务可以表示为:
Q=ψ(LR↑)
K=ψ(Ref↓↑)
V=ψ(Ref)
其中ψ为可学习的特征提取器,Q、K、V为TFSR中纹理信息转化器所需的多尺度输入信息。
其中,获取有助于超分辨率的纹理特征的具体方法为:
对于每个qi,只从V中最相关的位置获取特征,首先计算一个硬注意力图M,它的第i个分量mi为相关系数矩阵R在j维度上最大值的索引,然后根据硬注意力图M提供的索引,对进行索引选择以获取最匹配的高分辨率纹理特征
其中,TFSR需要将任意分辨率的人脸提升到标准分辨率128×128,TFSR在对低分辨率图像进行初步特征提取后使用尺寸确认模块(size asserter),尺寸确认模块将特征图尺寸标准化到16×16,经过后续三次×2上采样后将分辨率提升到128×128,TFSR在超分辨率处理过程中共涉及16×16、32×32、64×64、128×128四种尺寸的特征图,纹理信息迁移器输出的四种尺寸的迁移纹理特征在TFSR多尺度主干网络中对应尺寸特征图通道中得到应用。
其中,所述TFSR使用跨尺度的特征融合(cross scale feature merge,CSFM)模块实现跨尺度的特征信息融合。
其中,所述CSFM接收不同尺度(16,32,64,128)的特征图输入,经过跨尺度的特征信息融合处理后通过卷积映射得到对应尺度的特征图数据。
其中,所述CSFM中每个尺寸的特征图都通过上采样/下采样操作从其他尺度接收其他尺寸的特征信息,矩阵并接后由卷积层处理得到对应尺寸的输出特征图。
与现有技术相比,本发明的有益效果为:
本发明使用了一范数损失函数、结构相似性损失函数和基于退化的损失函数,按照控制变量法设计消融实验以验证各损失函数的有效性,损失函数的消融实验对比结果,其中算法命名方式为三种损失函数按位0/1编码,“1”对应使用该损失函数,TFSR使用了三种损失函数,编码名称为Loss-111。Loss-100使用一范数损失函数,是对比基准;Loss-010只使用结构相似性损失函数,获得的SSIM评价结果最高;Loss-110使用了一范数损失函数和结构相似性损失函数,能够在PSNR和SSIM之间寻求一种平衡;相比其他损失函数组合方式,本发明(Loss-111)使用了三种损失函数,获得了最高的PSNR和FVS评价结果与良好的SSIM评价结果。相比传统方法和其他基于深度学习的方法,本发明的算法恢复的细节信息与高分辨率原图更接近,在所有超分辨率重建结果中,本发明的恢复结果视觉效果最佳,例如眼睛、嘴巴和头发的纹理效果。
附图说明
图1为基于参考图像的人脸超分辨率方法数据处理流程图;
图2为本发明的可学习的纹理提取器处理LR↑、Ref↓↑、Ref图像的流程图;
图3为本发明的纹理信息转化器模块的结构示意图;
图4为本发明的多尺度网络结构进行基于参考图像的超分辨率处理流程图;
图5为本发明的面向像素恢复方法的实验结果对比图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明的基于参考图像的人脸超分辨率方法输入数据为低分辨率图像LR和高分辨率的参考图像Ref,输出目标是超分辨率图像SR。其中目标超分辨率图像的分辨率是128×128,参考图像的分辨率与目标图像相同。图1展示了基于参考图像的人脸超分辨率方法数据处理过程:
1.使用双三次插值方法将LR上采样到与参考图像等尺寸的低质量图像LR↑;
2.使用同样的插值算子对Ref先后进行8倍下采样退化和上采样插值操作,得到低质量参考图像Ref↓↑;
3.在LR↑、Ref↓↑、Ref的辅助下,使用超分辨率模型对LR进行处理,得到SR结果。
本发明使用如图2所示的可学习的纹理提取器处理LR↑、Ref↓↑、Ref图像,得到用于提取参考纹理信息的特征图。可学习的纹理提取器模块使用预训练的VGG19,在训练过程中以较小学习率进行参数更新,表1展示了VGG19网络模型中部分结构片段,可学习的纹理提取器使用VGG19预训练模型中部分结构提取纹理特征,输出包括:
·在第2层输出尺寸为128×128的64通道特征图;
·在第7层输出尺寸为64×64的128通道特征图;
·在第12层输出尺寸为32×32的256通道特征图;
·在第21层输出尺寸为16×16的512通道特征图。
可学习的特征提取器的处理任务可以表示为:
Q=ψ(LR↑)
K=ψ(Ref↓↑)
V=ψ(Ref)
其中ψ为可学习的特征提取器,Q、K、V为TFSR中纹理信息转化器所需的多尺度输入信息。
表1 VGG19网络结构片段
纹理信息转化器模块的结构如图3所示,该模块包括相关系数矩阵计算、纹理信息查询、纹理权重赋值三个部分,设计目标是在参考图像中提取超分辨率所需的纹理信息。
相关系数矩阵计算模块通过计算查询向量和关键字向量之间的相关系数矩阵相似度来获取低分辨率图像和参考图像之间的位置相关信息。纹理信息提取器输出的Q和K尺寸均为[B,C,H,W]的特征图。在进行相似度估计之前,需要先通过unfold操作展开到小块,转化成尺寸为[B,Ckhkw,HW]的特征矩阵和其中kh和kw为unfold操作的卷积核尺寸。对于Q中的每一个小块qi,i∈[1,HLRWLR]和K中的每一个小块kj,j∈[1,HRefWRef],本文通过标准化的内积操作计算它们之间的相关ri,j,表达式为:
纹理信息查询模块根据ri,j组成的相关系数矩阵R从高分辨率参考特征图V对应的特征矩阵中获取有助于超分辨率的纹理特征。具体做法为,对于每个qi,只从V中最相关的位置获取特征。首先计算一个硬注意力图M,它的第i个分量mi为相关系数矩阵R在j维度上最大值的索引。然后根据硬注意力图M提供的索引,对进行索引选择以获取最匹配的高分辨率纹理特征
使用纹理信息查询模块根据来自相关矩阵的索引在参考特征图中获得转移纹理特征后,本发明使用纹理权重赋值模块对转移纹理特征进一步处理。纹理权重赋值模块计算相关系数矩阵R在j维度上最大值si,组成软注意力图S。软注意力图S的功能是根据相关系数矩阵R中每个查询向量qi和最匹配的关键字向量之间的匹配程度调整各向量的权重。软注意力模块的计算公式为:
Fout=F+Conv[Concat(F,T)]e S
其中Fout表示合成的输出特征,Conv和Concat分别表示卷积层和特征图并接,e表示矩阵对应元素乘积。软注意力模块先将低分辨率特征F和转移纹理特征并接,再使用一层卷积层处理得到组合特征图,以同时利用转移纹理特征和低分辨率特征。软注意力模块调整组合特征图中各位置权重后将组合特征图加回低分辨率特征图,以提高纹理生成的准确性。
TFSR使用图4所示的多尺度网络结构进行基于参考图像的超分辨率处理,图中绿色矩形为二维卷积层,蓝色椭圆为残差连接块。人脸数据集构建系统等需求中,需要将任意分辨率的人脸提升到标准分辨率128×128。为提高模型的实用性,TFSR在对低分辨率图像进行初步特征提取后使用尺寸确认模块(size asserter)模块将特征图尺寸标准化到16×16,经过后续三次×2上采样后将分辨率提升到128×128。TFSR在超分辨率处理过程中共涉及16×16、32×32、64×64、128×128四种尺寸的特征图,纹理信息迁移器输出的四种尺寸的迁移纹理特征在TFSR多尺度主干网络中对应尺寸特征图通道中得到应用。
为获得更好的特征信息提取效果,TFSR使用跨尺度的特征融合(cross scalefeature merge,CSFM)模块实现跨尺度的特征信息融合。CSFM接收不同尺度(16,32,64,128)的特征图输入,经过跨尺度的特征信息融合处理后通过卷积映射得到对应尺度的特征图数据。CSFM中每个尺寸的特征图都通过上采样/下采样操作从其他尺度接收其他尺寸的特征信息,矩阵并接后由卷积层处理得到对应尺寸的输出特征图。
TFSR的损失函数表达式为:
其中ISR为网络模型输出的超分辨率图像的第i个像素点,IHR为目标高分辨率图像的第i个像素点,n为像素点总数。一范数直接最小化生成图像与目标图像之间的像素差异,是TFSR损失函数中的主要分量。基于结构相似性的损失函数通过最大化结构相似性来约束结构差异,表达式为:
Lssim=1-SSIM(ISR,IHR),
其中B为下采样过程,可为预训练的下采样网络或传统下采样函数,作用是重现低分辨率图像获取过程。退化损失将生成图像和目标图像的分辨率降低到16×16,通过最小化退化结果之间的一范数差异来提高生成图像和目标图像之间的相似性。
TFSR使用Adam优化器更新网络参数,对主干网络和纹理信息提取器模块进行参数更新。同时使用衰减的学习率,定期将学习率衰减为当前的一半。
使用结构相似性(SSIM)、身份相似性和峰值信噪比(PSNR)指标对恢复结果与高分辨率原图之间的相似程度进行客观评价。
PSNR表达式为
其中x,y为图像,MAX为图像像素值上限。PSNR与均方误差(Mean Squared Error,MSE)高度相关,能够有效地描述两张图像之间的相似程度。
PSNR和SSIM为常用的超分辨率评估方法,但他们和人眼感知并不完全一致。人脸超分辨率任务中,部分算法借助人脸识别准确率评估人脸超分辨率的性能。但这种方法需要额外的数据标注,且导致超分辨率评价结果受到人脸识别注释文件的影响,因此本发明提出使用人脸向量相似度(Facial Vector Similarity,FVS)评估人脸超分辨率算法在人脸识别方面的实用性。FVS计算方法为:借助预训练的ArcFace将超分辨率人脸图像和目标高分辨率人脸图像加工为人脸向量后计算二者之间的向量余弦值。FVS∈[-1,1],值越大代表恢复的人脸图像与高分辨率原图对应的识别特征越相似;即FVS值越大,超分辨率方法在人脸识别方面实用性越高。本发明在不同质量的LFW数据集上对比FVS与人脸识别正确率(FRA)的评价结果。其中不同质量的数据由不同训练阶段的LIIF模型对降采样的LFW数据集进行超分辨率质量恢复得到。
实验证明FVS和FRA均随数据质量变化,它们的数据分布呈正相关,皮尔逊相关系数(Pearson correlation coefficient,PCC)为0.988。因此,FVS和FRA对于超分辨率方法在人脸识别方面实用性的评估结果是一致的。FVS是一种可靠的评价方法,可以在普通人脸数据集上进行超分辨率方法在人脸识别方面的实用性评估。
将TFSR和当前最佳的人脸超分辨率方法进行对比,以验证TFSR的有效性。为确保公平,所有算法均在CelebA-HQ数据集上进行训练与测试,训练集容量24762,验证集容量9,测试集容量2736。退化机制为基于Bicubic的8倍下采样,各算法需要将人脸图像分辨率从16×16提升至128×128。
在实验中,TFSR算法随机选择CelebA-HQ训练集中的数据作为参考图像以降低模型对参考图像的依赖。TFSR的参数设置为λ1=1、λ2=0.01、λ3=0.1;超分辨率主干网络初始学习率10-4,纹理信息提取模块初始学习率10-5。实验环境为Python 3.8、Torch 1.8,GPU型号为GeForce RTX 3080。实验过程中,每训练100k次(100k iterations),各模型的学习率衰减为当前学习率的50%。
实验结果表明,分别使用Bicubic(双三次插值)方法和EDSR、RDN、LIIF、DIC、TFSR算法对低分辨率图像进行处理,得到的结果如图4所示,其中基于学习的方法以高分辨率原图为学习目标。Nearest为低分辨率图像拉伸结果,Bicubic算法为效果最佳的传统插值方法。EDSR、RDN为经典的自然图像超分辨率算法,LIIF为2021年CVPR中最新的自然图像超分辨率算法。DIC为目前最佳的人脸超分辨率算法,来自2020年CVPR。
表3展示了TFSR和其他方法的恢复结果,相比传统方法和其他基于深度学习的方法,TFSR算法恢复的细节信息与高分辨率原图更接近。在所有超分辨率重建结果中,TFSR的恢复结果视觉效果最佳,例如眼睛、嘴巴和头发的纹理效果。
表2使用PSNR、FVS和SSIM指标评估FSR恢复结果与目标图像之间的相似程度。其中Nearest为使用最近邻插值方法将低分辨率图像尺寸拉伸成128×128,对应图5中的低分辨率图像。PSNR、SSIM和FVS评价指标表明,TFSR算法恢复出的人脸图像与高分辨率原图在像素值和结构上最相近,且该方法在人脸识别方面的实用性最高。
表2 面向像素恢复方法的结果对比
本发明使用控制变量法进一步探究本章所提出的TFSR算法模型结构和目标函数的有效性。
首先通过消融实验研究网络结构中参考图像分支和多尺度主干网络的有效性。本分提供了以下两个网络模型:
·无参考网络的模型TFSR-T,删除TFSR中的纹理信息提取器和纹理信息转化器,使用与TFSR相同的多尺度主干网络。TFSR-T不使用参考图像,直接实现从低分辨率人脸到高分辨率人脸的处理。
·单尺度网络模型TFSR-S,保留TFSR中的纹理信息提取器和纹理信息转化器,使用单尺度(single-scale)主干网络在参考图像的帮助下实现低分辨率到高分辨率的处理。在将特征图上采样后,TFSR-S会丢弃小尺寸的特征图,因此没有CSFM结构。
表3 网络模型消融实验
表3展示了不同网络模型的定量比较,相比TFSR-T和TFSR-S,本发明所提出的TFSR得到的恢复结果更佳。实验证明,参考图像和多尺度主干网络都有助于提升TFSR恢复性能。
表4损失函数消融实验
TFSR使用了一范数损失函数结构相似性损失函数和基于退化的损失函数本发明按照控制变量法设计消融实验以验证各损失函数的有效性。表4展示了损失函数的消融实验对比结果,其中算法命名方式为三种损失函数按位0/1编码,“1”对应使用该损失函数,TFSR使用了三种损失函数,编码名称为Loss-111。表4中Loss-100使用一范数损失函数,是对比基准;Loss-010只使用结构相似性损失函数,获得的SSIM评价结果最高;Loss-110使用了一范数损失函数和结构相似性损失函数,能够在PSNR和SSIM之间寻求一种平衡;相比其他损失函数组合方式,TFSR(Loss-111)使用了三种损失函数,获得了最高的PSNR和FVS评价结果与良好的SSIM评价结果。该对比试验证明了结构相似性损失函数和基于退化的损失函数的有效性。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (8)
1.一种基于深度学习的人脸图像超分辨率计算方法,其特征在于,包括以下步骤:
步骤一:数据处理;
使用基于参考图像的人脸超分辨率方法输入数据为低分辨率图像LR和高分辨率的参考图像Ref,输出目标是超分辨率图像SR;
使用双三次插值方法将LR上采样到与参考图像尺寸的低质量图像LR↑;
使用同样的插值算子对Ref先后进行8倍下采样退化和上采样插值操作,得到低质量参考图像Ref↓↑;
在LR↑、Ref↓↑、Ref的辅助下,使用超分辨率模型对LR进行处理,得到SR结果;
步骤二:纹理信息提取;
使用可学习的纹理提取器处理步骤一中的LR↑、Ref↓↑、Ref图像,得到用于提取参考纹理信息的特征图;
步骤三:纹理信息转化;
纹理信息转化包括相关系数矩阵计算模块、纹理信息查询模块以及纹理权重赋值模块;
其中,相关系数矩阵计算模块是通过计算查询向量和关键字向量之间的相关系数矩阵相似度来获取低分辨率图像和参考图像之间的位置相关信息;纹理信息提取器输出的Q和K尺寸均为[B,C,H,W]的特征图,在进行相似度估计之前,需要先通过unfold操作展开到小块,转化成尺寸为[B,Ckhkw,HW]的特征矩阵和其中kh和kw为unfold操作的卷积核尺寸,对于Q中的每一个小块qi,i∈[1,HLRWLR]和K中的每一个小块kj,j∈[1,HRefWRef],通过标准化的内积操作计算它们之间的相关ri,j,表达式为:
使用纹理信息查询模块根据来自相关矩阵的索引在参考特征图中获得转移纹理特征后,使用纹理权重赋值模块对转移纹理特征进一步处理,纹理权重赋值模块计算相关系数矩阵R在j维度上最大值si,组成软注意力图S,软注意力图S的功能是根据相关系数矩阵R中每个查询向量qi和最匹配的关键字向量之间的匹配程度调整各向量的权重,软注意力模块的计算公式为:
Fout=F+Conv[Concat(F,T)]e S
输出特征,Conv和Concat分别表示卷积层和特征图并接,e表示矩阵对应元素乘积,软注意力模块先将低分辨率特征F和转移纹理特征并接,再使用一层卷积层处理得到组合特征图,以同时利用转移纹理特征和低分辨率特征,软注意力模块调整组合特征图中各位置权重后将组合特征图加回低分辨率特征图;
步骤四:基于参考图像的超分辨率处理;
利用TFSR的多尺度网络结构进行基于参考图像的超分辨率处理;
步骤五:损失函数与优化器;
在步骤四中TFSR的损失函数表达式为:
其中ISR为网络模型输出的超分辨率图像的第i个像素点,IHR为目标高分辨率图像的第i个像素点,n为像素点总数,一范数直接最小化生成图像与目标图像之间的像素差异,是TFSR损失函数中的主要分量,基于结构相似性的损失函数通过最大化结构相似性来约束结构差异,表达式为:
Lssim=1-SSIM(ISR,IHR),
其中B为下采样过程,可为预训练的下采样网络或传统下采样函数,退化损失将生成图像和目标图像的分辨率降低到16×16,通过最小化退化结果之间的一范数差异来提高生成图像和目标图像之间的相似性;
TFSR使用Adam优化器更新网络参数,对主干网络和纹理信息提取器模块进行参数更新,同时使用衰减的学习率,定期将学习率衰减为当前的一半;
步骤六:评价方法;
使用结构相似性(SSIM)、身份相似性和峰值信噪比(PSNR)指标对恢复结果与高分辨率原图之间的相似程度进行客观评价;
PSNR表达式为:
其中x,y为图像,MAX为图像像素值上限,PSNR与均方误差(Mean Squared Error,MSE)高度相关,能够有效地描述两张图像之间的相似程度;
步骤七:验证TFSR的有效性;
将TFSR和最佳的人脸超分辨率方法进行对比,以验证TFSR的有效性。
2.根据权利要求1所述的基于深度学习的人脸图像超分辨率计算方法,其特征在于:在所述步骤一中,目标超分辨率图像的分辨率是128×128,参考图像的分辨率与目标图像相同。
3.根据权利要求1所述的基于深度学习的人脸图像超分辨率计算方法,其特征在于:在所述步骤二中,可学习的纹理提取器模块使用预训练的VGG19,在训练过程中以较小学习率进行参数更新;输出包括:
在第2层输出尺寸为128×128的64通道特征图;
在第7层输出尺寸为64×64的128通道特征图;
在第12层输出尺寸为32×32的256通道特征图;
在第21层输出尺寸为16×16的512通道特征图;
可学习的特征提取器的处理任务可以表示为:
Q=ψ(LR↑)
K=ψ(Ref↓↑)
V=ψ(Ref)
其中ψ为可学习的特征提取器,Q、K、V为TFSR中纹理信息转化器所需的多尺度输入信息。
5.根据权利要求1所述的基于深度学习的人脸图像超分辨率计算方法,其特征在于,在所述步骤四中,TFSR需要将任意分辨率的人脸提升到标准分辨率128×128,TFSR在对低分辨率图像进行初步特征提取后使用尺寸确认模块(size asserter),尺寸确认模块将特征图尺寸标准化到16×16,经过后续三次×2上采样后将分辨率提升到128×128,TFSR在超分辨率处理过程中共涉及16×16、32×32、64×64、128×128四种尺寸的特征图,纹理信息迁移器输出的四种尺寸的迁移纹理特征在TFSR多尺度主干网络中对应尺寸特征图通道中得到应用。
6.根据权利要求5所述的基于深度学习的人脸图像超分辨率计算方法,其特征在于,所述TFSR使用跨尺度的特征融合(cross scale feature merge,CSFM)模块实现跨尺度的特征信息融合。
7.根据权利要求6所述的基于深度学习的人脸图像超分辨率计算方法,其特征在于,所述CSFM接收不同尺度(16,32,64,128)的特征图输入,经过跨尺度的特征信息融合处理后通过卷积映射得到对应尺度的特征图数据。
8.根据权利要求7所述的基于深度学习的人脸图像超分辨率计算方法,其特征在于,所述CSFM中每个尺寸的特征图都通过上采样/下采样操作从其他尺度接收其他尺寸的特征信息,矩阵并接后由卷积层处理得到对应尺寸的输出特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210112704.2A CN114549309A (zh) | 2022-01-29 | 2022-01-29 | 一种基于深度学习的人脸图像超分辨率计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210112704.2A CN114549309A (zh) | 2022-01-29 | 2022-01-29 | 一种基于深度学习的人脸图像超分辨率计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114549309A true CN114549309A (zh) | 2022-05-27 |
Family
ID=81674354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210112704.2A Pending CN114549309A (zh) | 2022-01-29 | 2022-01-29 | 一种基于深度学习的人脸图像超分辨率计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114549309A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082319A (zh) * | 2022-07-22 | 2022-09-20 | 平安银行股份有限公司 | 一种超分辨率图像的构建方法、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402137A (zh) * | 2020-03-20 | 2020-07-10 | 南京信息工程大学 | 一种基于感知损失引导的深度注意力编解码单图像超分辨率算法 |
CN113112401A (zh) * | 2021-03-18 | 2021-07-13 | 浙江工业大学 | 一种基于跨尺度纹理迁移的图像超分辨率方法 |
CN113674146A (zh) * | 2020-05-15 | 2021-11-19 | 微软技术许可有限责任公司 | 图像超分辨率 |
-
2022
- 2022-01-29 CN CN202210112704.2A patent/CN114549309A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402137A (zh) * | 2020-03-20 | 2020-07-10 | 南京信息工程大学 | 一种基于感知损失引导的深度注意力编解码单图像超分辨率算法 |
CN113674146A (zh) * | 2020-05-15 | 2021-11-19 | 微软技术许可有限责任公司 | 图像超分辨率 |
CN113112401A (zh) * | 2021-03-18 | 2021-07-13 | 浙江工业大学 | 一种基于跨尺度纹理迁移的图像超分辨率方法 |
Non-Patent Citations (3)
Title |
---|
FUZHI YANG ET AL: "Learning Texture Transformer Network for Image Super-Resolution", 《PROCEEDINGS OF IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
米恒 等: "基于改进生成式对抗网络的图像超分辨率重建", 《计算机应用与软件》 * |
黄俊鸿: "基于生成对抗网络的单幅图像超分辨率重建研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082319A (zh) * | 2022-07-22 | 2022-09-20 | 平安银行股份有限公司 | 一种超分辨率图像的构建方法、计算机设备及存储介质 |
CN115082319B (zh) * | 2022-07-22 | 2022-11-25 | 平安银行股份有限公司 | 一种超分辨率图像的构建方法、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105913413B (zh) | 一种基于在线流形学习的彩色图像质量客观评价方法 | |
CN113313657B (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
CN113673307A (zh) | 一种轻量型的视频动作识别方法 | |
CN107545277B (zh) | 模型训练、身份验证方法、装置、存储介质和计算机设备 | |
CN111210382B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
EP3799647A1 (en) | Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network | |
Ribeiro et al. | Exploring deep learning image super-resolution for iris recognition | |
CN111768354A (zh) | 基于多尺度人脸部位特征字典的人脸图像复原系统 | |
CN114549309A (zh) | 一种基于深度学习的人脸图像超分辨率计算方法 | |
CN111046893A (zh) | 图像相似性确定方法和装置、图像处理方法和装置 | |
CN116703747A (zh) | 一种基于扩散条件生成算法的虚拟试衣图像修复方法 | |
CN112686817B (zh) | 一种基于不确定性估计的图像补全方法 | |
Perronnin et al. | A probabilistic model of face mapping with local transformations and its application to person recognition | |
CN113160032A (zh) | 一种基于生成对抗网络的无监督多模态图像转换方法 | |
CN115358927B (zh) | 一种结合空间自适应和纹理转换的图像超分辨重建方法 | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN115035170B (zh) | 基于全局纹理与结构的图像修复方法 | |
CN114331821B (zh) | 一种图像转换方法及系统 | |
CN113822790B (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN114677312A (zh) | 基于深度学习的脸部视频合成方法 | |
CN114359603A (zh) | 一种多模态遥感图像领域自适应无监督匹配方法 | |
CN110427892B (zh) | 基于深浅层自相关融合的cnn人脸表情特征点定位方法 | |
JP7258375B2 (ja) | ユーザのバイオメトリック特性を有する画像中の物体を識別して、画像のうちバイオメトリック特性を含む部分を他の部分から分離することにより当該ユーザのidを検証するための方法 | |
CN112633229A (zh) | 一种基于spd流形的行人重识别系统 | |
CN111738242B (zh) | 一种基于自适应和色彩归一的人脸识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220527 |
|
WD01 | Invention patent application deemed withdrawn after publication |