CN117094886A - 一种超分辨率人脸图像重建方法、装置、设备及存储介质 - Google Patents

一种超分辨率人脸图像重建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117094886A
CN117094886A CN202310839804.XA CN202310839804A CN117094886A CN 117094886 A CN117094886 A CN 117094886A CN 202310839804 A CN202310839804 A CN 202310839804A CN 117094886 A CN117094886 A CN 117094886A
Authority
CN
China
Prior art keywords
image
super
resolution
network
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310839804.XA
Other languages
English (en)
Inventor
曾丹
黎泽林
唐博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern University of Science and Technology
Original Assignee
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern University of Science and Technology filed Critical Southern University of Science and Technology
Priority to CN202310839804.XA priority Critical patent/CN117094886A/zh
Publication of CN117094886A publication Critical patent/CN117094886A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明适用图像处理技术领域,提供了一种超分辨率人脸图像重建方法,该方法包括:根据人脸图像,通过级联式人脸超分辨率网络的SR分支中的第一子网络得到第一特征图和第一残差图,根据第一残差图,通过级联式人脸超分辨率网络中的形状信息分支得到第一热力图,根据第一特征图和第一热力图,通过SR分支中的第二子网络得到第二特征图和第二残差图,根据第二残差图,通过形状信息分支得到第二热力图,根据第二特征图和第二热力图,通过SR分支中的第三子网络得到第三残差图,将对人脸图像使用八倍的双三次插值得到的目标插值图像和第三残差图进行图像相加,得到目标重建图,从而提高了目标重建图的分辨率、真实度和清晰度,提高了重建效果。

Description

一种超分辨率人脸图像重建方法、装置、设备及存储介质
技术领域
本发明属于图像处理技术领域,尤其涉及一种超分辨率人脸图像重建方法、装置、设备及存储介质。
背景技术
人脸超分辨率(Face Super-Resolution,Face SR),也被称为人脸重建,是从低分辨率(Low Resolution,LR)人脸图像恢复出高分辨率(High Resolution,HR)人脸图像的过程,人脸超分辨率在许多应用中起着重要作用,如人脸识别、行人再识别和人脸图像编辑等。图像超分辨率本质上是一个不适定问题,这是因为对于观测到的低分辨率图像,存在着大量合理的高分辨率解,而高分辨率图像中的许多细节在输入的低分辨率图像中是不存在的,模型需要填补这些细节,特别是对于具有较大放大倍数(如8倍)的图像超分辨率,需要从1个低分辨率像素估计出64个超分辨率像素,这是具有挑战性的,因此,早期的方法直接将低分辨率图像映射到高分辨率图像往往会产生不真实和过度平滑的图像。
与一般图像超分辨率不同,由于人脸图像具有可以利用的人脸先验知识,有助于解决这个不适定问题。一种是形状先验(如人脸特征点、人脸语义分割图),其描述了人脸的全局结构(如脸部轮廓)和局部细节(如眼睛、鼻子和嘴巴的位置和形状),包括人脸检测模型Retinaface、多任务卷积神经网络(Multi-task convolutional neural network,MTCNN)和沙漏模型HourGlass在内的深度模型被设计用于为输入的人脸图像生成形状先验;另一种是身份先验,身份先验则提供图像中人物的语义信息(即,这个人是谁?),这对于增强超分辨率人脸中的真实人脸特征至关重要,这些语义信息可以通过人脸识别网络FaceNet和Arcface等深度模型提取出来。现有工作往往单一的利用某一种先验来进行人脸超分,而没有讨论同时利用两种人脸先验,这就导致只使用形状先验的方法对于人脸的轮廓、位姿、五官位置有较好的修复效果,但忽略了人脸与身份相关的信息修复,只使用身份先验的方法则正相反。因此,亟需一种的新的超分辨率人脸图像重建方法以解决上述问题。
发明内容
本发明的目的在于提供一种超分辨率人脸图像重建方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的超分辨率人脸图像重建方法,导致重建的超分辨率人脸图像不真实的问题。
一方面,本发明提供了一种基于级联式人脸超分辨率网络的超分辨率人脸图像重建方法,所述级联式人脸超分辨率网络包括超分辨率分支和形状信息分支,所述超分辨率分支由第一子网络、第二子网络以及第三子网络组成,所述方法包括下述步骤:
当接收到超分辨率人脸图像重建请求时,通过所述第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过所述形状信息分支对所述第一残差图进行人脸特征点提取,得到第一热力图;
根据所述第一特征图和所述第一热力图,通过所述第二子网络得到第二特征图和第二残差图,并通过所述形状信息分支对所述第二残差图进行人脸特征点提取,得到第二热力图;
根据所述第二特征图和所述第二热力图,通过所述第三子网络得到第三残差图,并对所述人脸图像进行八倍的双三次插值,得到目标插值图像;
将所述第三残差图和所述目标插值图像进行图像相加,得到所述人脸图像对应的目标重建图。
优选地,所述第一子网络包括第一编码器和第一解码器,所述通过所述第一子网络对待重建的人脸图像进行图像处理的步骤,包括:
通过所述第一编码器对所述人脸图像进行特征提取,得到第一编码特征图;
通过所述第一解码器对所述第一编码特征图进行上采样,得到所述第一特征图;
对所述第一特征图进行卷积操作,得到所述第一残差图。
优选地,所述第一编码器由12个残差模块组成,所述第一解码器由批归一化层、激活层以及反卷积层组成。
优选地,所述第二子网络包括第二编码器和第二解码器,所述通过所述第二子网络得到第二特征图和第二残差图的步骤,包括:
通过所述第二编码器对所述第一特征图进行特征提取,得到第二编码特征图;
将所述第二编码特征图与所述第一热力图进行通道堆叠,得到第一堆叠特征图;
通过所述第二解码器对所述第一堆叠特征图进行上采样,得到所述第二特征图;
对所述第二特征图进行卷积操作,得到所述第二残差图。
另一方面,本发明提供了一种用于上述超分辨率人脸图像重建方法的级联式人脸超分辨率网络的训练方法,所述级联式人脸超分辨率网络还包括身份信息分支,所述方法包括:
将训练样本集输入预先构建的所述级联式人脸超分辨率网络;
根据预先设计的所述超分辨率分支的第一损失函数、所述形状信息分支的第二损失函数以及所述身份信息分支的第三损失函数对所述级联式人脸超分辨率网络进行训练,并通过梯度反向传播更新所述级联式人脸超分辨率网络的网络参数,直到所述级联式人脸超分辨率网络在所述训练样本集上收敛。
优选地,所述通过梯度反向传播更新所述级联式人脸超分辨率网络的网络参数,直到所述级联式人脸超分辨率网络在所述训练样本集上收敛的步骤之后,所述方法还包括:
根据预设的对抗损失函数、分类损失函数以及预设的判别器模型,对所述级联式人脸超分辨率网络进行对抗学习训练。
另一方面,本发明提供了一种基于级联式人脸超分辨率网络的超分辨率人脸图像重建装置,所述级联式人脸超分辨率网络包括超分辨率分支和形状信息分支,所述超分辨率分支由第一子网络、第二子网络以及第三子网络组成,所述装置包括:
第一图像获得单元,用于当接收到超分辨率人脸图像重建请求时,通过所述第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过所述形状信息分支对所述第一残差图进行人脸特征点提取,得到第一热力图;
第二图像获得单元,用于根据所述第一特征图和所述第一热力图,通过所述第二子网络得到第二特征图和第二残差图,并通过所述形状信息分支对所述第二残差图进行人脸特征点提取,得到第二热力图;
第三图像获得单元,用于根据所述第二特征图和所述第二热力图,通过所述第三子网络得到第三残差图,并对所述人脸图像进行八倍的双三次插值,得到目标插值图像;以及
重建图获得单元,用于将所述第三残差图和所述目标插值图像进行图像相加,得到所述人脸图像对应的目标重建图。
另一方面,本发明提供了一种用于上述超分辨率人脸图像重建装置的级联式人脸超分辨率网络的训练装置,所述级联式人脸超分辨率网络还包括身份信息分支,所述装置包括:
样本输入单元,用于将训练样本集输入预先构建的所述级联式人脸超分辨率网络;以及
网络训练单元,用于根据预先设计的所述超分辨率分支的第一损失函数、所述形状信息分支的第二损失函数以及所述身份信息分支的第三损失函数对所述级联式人脸超分辨率网络进行训练,并通过梯度反向传播更新所述级联式人脸超分辨率网络的网络参数,直到所述级联式人脸超分辨率网络在所述训练样本集上收敛。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述一种超分辨率人脸图像重建方法或者一种级联式人脸超分辨率网络的训练方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述一种超分辨率人脸图像重建方法或者一种级联式人脸超分辨率网络的训练方法所述的步骤。
本发明根据人脸图像,通过级联式人脸超分辨率网络的超分辨率分支中的第一子网络得到第一特征图和第一残差图,根据第一残差图,通过级联式人脸超分辨率网络中的形状信息分支得到第一热力图,根据第一特征图和第一热力图,通过超分辨率分支中的第二子网络得到第二特征图和第二残差图,根据第二残差图,通过形状信息分支得到第二热力图,根据第二特征图和第二热力图,通过超分辨率分支中的第三子网络得到第三残差图,将对人脸图像使用八倍的双三次插值得到的目标插值图像和第三残差图进行图像相加,得到目标重建图,从而提高了目标重建图的分辨率、真实度和清晰度,提高了重建效果。
附图说明
图1是本发明实施例一提供的超分辨率人脸图像重建方法的实现流程图;
图2是本发明实施例一提供的超分辨率人脸图像重建方法中残差模块和上采样模块的结构示意图;
图3是本发明实施例一提供的超分辨率人脸图像重建方法中级联式人脸超分辨率网络在应用阶段的结构示意图;
图4(a)是本发明实施例二提供的级联式人脸超分辨率网络的训练方法的实现流程图;
图4(b)是本发明实施例二提供的级联式人脸超分辨率网络的训练方法中CSRNet在训练阶段的结构示意图;
图4(c)是本发明实施例二提供的级联式人脸超分辨率网络的训练方法中CSRNet与判别器构成的生成对抗模型的结构示意图;
图4(d)是本发明实施例二提供的级联式人脸超分辨率网络的训练方法的第一实验结果;
图4(e)是本发明实施例二提供的级联式人脸超分辨率网络的训练方法的第二实验结果;
图5是本发明实施例三提供的超分辨率人脸图像重建装置的结构示意图;
图6是本发明实施例四提供的级联式人脸超分辨率网络的训练装置的结构示意图;
图7是本发明实施例五提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的超分辨率人脸图像重建方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,当接收到超分辨率人脸图像重建请求时,通过第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过形状信息分支对第一残差图进行人脸特征点提取,得到第一热力图。
本发明实施例适用于计算设备,例如,个人计算机、服务器等。在本发明实施例中,待重建的人脸图像为低分辨率的人脸图像(简称,LR人脸),通过预先训练好的、包括超分辨率分支(SR分支)和形状信息分支的级联式人脸超分辨率网络(Cascade Super-ResolutionNet,CSRNet)接收待重建的、W×H×3(即宽度×高度×通道数)的LR人脸,通过SR分支中的第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过形状信息分支对第一残差图进行人脸特征点提取,得到第一热力图,其中,SR分支用于放大LR人脸的分辨率,其通过多个级联的卷积神经网络(即以串联结构连接的第一子网络、第二子网络以及第三子网络)逐步将输入的LR人脸转换为更高的分辨率,形状信息分支用于提取LR人脸的形状信息。
优选地,每个子网络都包括编码器和解码器,为了便于区分,将第一子网络的编码器和解码器命名为第一编码器和第一解码器,将第二子网络的编码器和解码器命名为第二编码器和第二解码器,将第三子网络的编码器和解码器命名为第三编码器和第三解码器,其中,第一编码器由12个残差模块组成,第二编码器和第三编码器分别由3个残差模块组成,每个残差模块由2个卷积层(Conv)、2个批归一化层(BatchNorm,BN)以及一个修正线性单元(Rectified Linear Unit,ReLU)激活层组成,并依照Conv-BN-ReLU-Conv-BN的顺序连接,且在每个残差模块的第一个卷Conv层和最后一个BN层之间添加了跳跃连接(skip-connection),每个解码器都是一个上采样模块,且每个解码器都是由一个BN、一个ReLU以及一个反卷积层(DeConv)组成,并依照BN-ReLU-DeConv的顺序连接,每个子网络中的编码器不改变人脸的分辨率,而每个解码器通过其DeConv层将人脸放大2倍,从而通过将SR分支设计为级联的网络架构,在应用上,使得CSRNet模型可以在只完成一次模型推理的情况下,同时提供图像2倍、4倍以及8倍超分辨率的结果,同时,从模型训练的角度来说,这种设计让模型在受到损失函数约束时,能够获得多级的约束,即将一个复杂的8倍超分辨率问题,拆分成3个2倍超分辨率问题,让模型逐个问题去解,这减少了问题的求解难度,帮助了模型的训练。
在本发明实施例中,在通过第一子网络对人脸图像进行图像处理时,优选地,通过下述步骤实现图像处理:
(1)通过第一编码器对人脸图像进行特征提取,得到第一编码特征图;
在本发明实施例中,第一编码器不会对图像尺寸做调整,只会将图像的通道数扩增到64,得到通道数扩增的W×H×64的第一编码特征图,作为示例地,输入第一编码器的人脸图像为24x24x3的RGB图像,则第一编码器的输出就是24x24x64的特征图,为了便于区分,将第一编码器的输出的特征图称为第一编码特征图。
(2)通过第一解码器对第一编码特征图进行上采样,得到第一特征图;
在本发明实施例中,通过第一解码器的反卷积层对第一编码特征图进行上采样,得到2W×2H×64的第一特征图,作为示例地,第一编码特征图的尺寸为24x24x64,则第一特征图的尺寸为48x48x64。
(3)对第一特征图进行卷积操作,得到第一残差图。
在本发明实施例中,使用一个卷积层对2W×2H×64的第一特征图进行卷积操作,以将第一特征图的图像通道数压缩到3,得到2W×2H×3的、包含了人脸的高频信息的残差图像,为了便于区分,将该残差图像称为第一残差图。
通过上述步骤(1)-(3)实现对人脸图像的图像处理,从而利于后续形状信息分支获取残差图像中的人脸形状信息。
在得到第一残差图之后,将该第一残差图与对人脸图像使用了2倍的双三次插值(Bicubic)得到的图像做相加,就获得了CSRNet在第一阶段的2倍的超分辨率结果(例如,24×24×3→48×48×3)。
在本发明实施例中,形状信息分支使用人脸对齐网络(Face Alignment Network,FAN)从超分辨率分支的输出中提取形状信息,在此,通过FAN对第一残差图进行人脸特征点提取,得到第一热力图,热力图提供了关于人脸的丰富结构信息,包括全局结构(如人脸轮廓)和局部细节(如眼睛、鼻子和嘴巴),这些信息组成了人脸的关键部分的位置、形状。
在另一个可行的实施例中,使用HourGlass网络作为人脸对齐网络来检测人脸图像中的人脸特征点,HourGlass网络由4个如图2所示的残差模块组成,并且特征图使用64个通道,并且在残差图像空间中对超分辨率分支预测的残差图像应用HourGlass网络,从而有效提高了人脸形状信息的准确性。
在步骤S102中,根据第一特征图和第一热力图,通过第二子网络得到第二特征图和第二残差图,并通过形状信息分支对第二残差图进行人脸特征点提取,得到第二热力图。
在本发明实施例中,将第一子网络输出的2W×2H×64的第一特征图和第一热力图输入第二子网络中,通过第二子网络得到4W×4H×64的第二特征图和4W×4H×3的第二残差图,并通过人脸对齐网络对第二残差图进行人脸特征点提取,得到第二热力图。
在通过第二子网络得到第二特征图和第二残差图时,优选地,先通过第二编码器对第一特征图进行特征提取,得到第二编码特征图,再将第二编码特征图与第一热力图进行通道堆叠(concatenate),得到第一堆叠特征图,之后,通过第二解码器对第一堆叠特征图进行上采样,得到第二特征图,最后对第二特征图进行卷积操作,得到第二残差图。
在得到第二残差图之后,将该第二残差图与对人脸图像使用了4倍的Bicubic插值得到的图像做相加,就获得了CSRNet在第二阶段的4倍的超分辨率结果(例如,24×24×3→96×96×3)。
在步骤S103中,根据第二特征图和第二热力图,通过第三子网络得到第三残差图,并对人脸图像进行八倍的双三次插值,得到目标插值图像。
在本发明实施例中,将第二子网络输出的4W×4H×64的第二特征图和第二热力图输入第三子网络中,通过第三子网络得到8W×8H×3的第三残差图,并对原始的W×H×3的人脸图像进行八倍的双三次插值,得到8W×8H×3的目标插值图像。
在通过第三子网络得到第三残差图时,具体地,先通过第三编码器对第二特征图进行特征提取,得到第三编码特征图,再将第三编码特征图与第二热力图进行通道堆叠,得到第二堆叠特征图,之后,通过第三解码器对第二堆叠特征图进行上采样,得到第三特征图,最后经过数个卷积层激活层(其连接结构为Conv-ReLU-Conv-ReLU-Conv)对第三特征图进行处理,得到8W×8H×3的第三残差图。
在步骤S104中,将第三残差图和目标插值图像进行图像相加,得到人脸图像对应的目标重建图。
在本发明实施例中,将8W×8H×3的第三残差图和8W×8H×3的目标插值图像进行图像相加,得到目标重建图,该目标重建图即为CSRNet在第三阶段对人脸图像进行超分辨率放大8倍的结果。
图3示出了CSRNet在应用阶段的结构图。
在本发明实施例中,根据人脸图像,通过级联式人脸超分辨率网络的超分辨率分支中的第一子网络得到第一特征图和第一残差图,根据第一残差图,通过级联式人脸超分辨率网络中的形状信息分支得到第一热力图,根据第一特征图和第一热力图,通过超分辨率分支中的第二子网络得到第二特征图和第二残差图,根据第二残差图,通过形状信息分支得到第二热力图,根据第二特征图和第二热力图,通过超分辨率分支中的第三子网络得到第三残差图,将对人脸图像使用八倍的双三次插值得到的目标插值图像和第三残差图进行图像相加,得到目标重建图,从而提高了目标重建图的分辨率、真实度和清晰度,提高了重建效果。
实施例二:
图4(a)示出了本发明实施例二提供的级联式人脸超分辨率网络的训练方法的实现流程,以将训练好的级联式人脸超分辨率网络用于实施例一的超分辨率人脸图像重建方法中,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S401中,将训练样本集输入预先构建的级联式人脸超分辨率网络。
在本发明实施例中,在对级联式人脸超分辨率网络的训练阶段,级联式人脸超分辨率网络除了包括超分辨率分支和形状信息分支,还包括身份信息分支,身份信息分支用于通过约束超分辨率人脸(SR)与目标高分辨率(HR)人脸具有相似的身份特征向量来保证修复图像信息与目标图像信息在身份上的一致性。将训练样本集T=(x,y1,y2,...,yS)输入预先构建的、包括超分辨率分支、形状信息分支以及身份信息分支的级联式人脸超分辨率网络中,其中,x为低分辨率人脸图像,ys为x在第s阶段的高分辨率目标人脸图像,S为阶段总数。
图4(b)示出了CSRNet在训练阶段的结构图。
在步骤S402中,根据预先设计的超分辨率分支的第一损失函数、形状信息分支的第二损失函数以及身份信息分支的第三损失函数对级联式人脸超分辨率网络进行训练,并通过梯度反向传播更新级联式人脸超分辨率网络的网络参数,直到级联式人脸超分辨率网络在训练样本集上收敛。
在本发明实施例中,级联式人脸超分辨率网络在训练上共需要三个损失函数进行训练,即超分辨率分支的第一损失函数、形状信息分支的第二损失函数以及身份信息分支的第三损失函数。
CSRNet接收到训练样本集T后,首先,根据T中的样本x,通过超分辨率分支获得第s阶段的残差图像(即通过第一子网络获得第1阶段的残差图像,通过第二子网络获得第2阶段的残差图像,通过第三子网络获得第3阶段的残差图像),对x进行2s倍的双三次插值,得到第s阶段x的插值图像/>将对应阶段的残差图像/>和插值图像/>进行图像相加,得到CSRNet在第s阶段预测的2s倍的超分辨率结果(即/>);
根据第一损失函数,将T中对应阶段高分辨率目标人脸图像ys与CSRNet预测的超分辨率结果进行比对计算均方误差,得到超分辨率损失;
对于第一阶段和第二阶段超分辨率分支输出的残差图像通过形状信息分支的人脸对齐模型ps从/>中提取人脸特征点热力图(即/>),根据第二损失函数将/>与对应阶段的高分辨率目标人脸图像的特征点热力图(即/>)进行比对计算均方误差,得到形状信息损失;
对于第三阶段CSRNet输出的8倍的超分辨率结果,将该8倍超分辨率结果输入身份信息分支,在身份信息分支中采用人脸匹配器模型φ(即Face Matcher Net)从8倍超分辨率结果中提取预测身份特征向量(即),并从对应阶段的高分辨率目标人脸图像中提取目标身份特征向量(即φ(ys)),根据第三损失函数/>将φ(ys)与/>进行比对计算均方误差,得到身份信息损失,其中,预测身份特征向量和目标身份特征向量都是512维的特征向量,人脸匹配器模型是预训练好并固定参数用于提取特征向量,身份信息分支只用在模型训练的第三阶段,其不会参与到图像的重建过程;
将超分辨率损失、形状信息损失以及身份信息损失进行相加,得到目标损失,根据目标损失,通过梯度反向传播更新级联式人脸超分辨率网络的网络参数,直到级联式人脸超分辨率网络在训练样本集上收敛。
在级联式人脸超分辨率网络在训练样本集上收敛之后,优选地,根据预设的对抗损失函数、分类损失函数以及预设的判别器模型,对级联式人脸超分辨率网络进行对抗学习训练。
在本发明实施例中,判别器模型使用了带辅助分类器的生成对抗性神经网络(Auxiliary Classifier Generative Adversarial Network,ACGAN)的判别器架构,在对抗学习训练中,CSRNet除了已有的第一损失函数、第二损失函数以及第三损失函数,还包含对抗损失函数LS=E[logP(S=HR|x)]+E[logP(S=SR|G(x))]和分类损失函数LC=E[logP(C=id|x)]+E[logP(C=id|G(x))],其中,P(S=HR|x)代表判别器模型认为输入图像x是真实高分辨率(HR)图像的概率,P(S=SR|G(x))代表判别器模型认为输入图像x是CSRNet 8倍超分辨率得出的图像(SR)的概率,P(C=id|x)代表了判别器模型认为输入图像x的身份与目标身份一致的概率。
在对抗学习训练时,判别器模型被训练来增大LS+LC,也即是通过增大LS+LC来鼓励判别器区分SR和HR,并且无论输入人脸的来源如何,预测正确的身份,而CSRNet则被训练来扩大LC-LS,即是通过扩大LC-LS来强制CSRNet生成的超分辨率人脸G(x)看起来逼真,并具有与输入低分辨率(LR)人脸x相似的身份分布,从而通过使用判别器模型区分CSRNet超分辨率得出的SR图像和HR图像,并鼓励CSRNet欺骗判别器,使得CSRNet可以生成更逼真的图像,提高了CSRNet修复图像的逼真度。
图4(c)示出了CSRNet与判别器构成的生成对抗模型的结构。
将经过对抗训练好的CSRNet改称为CSRGAN,在Helen,CelebA两个数据集上对CSRNet和CSRGAN的超分辨率性能进行了验证,并比对了11个超分辨率方法,包括:VDSR、SRGAN、NLSA、LapSRN、SuperFAN、DIC、DICGAN、RCNet、PCRCN、SICNN以及CSRIP,在图4(d)中报告了CSRNet、CSRGAN与其他超分辨率方法在8倍放大倍数下的峰值信噪比(Peak signal-to-noise ratio,PSNR)和结构相似性(Structural Similarity,SSIM)结果(24x24->192x192),结果表明,CSRNet在两个测试数据集上始终优于其它方法。
另外还对CSRNet进行了消融实验,并在图4(e)中报告了结果。基准方法(Baseline)表示仅使用超分辨率分支,“+”表示启用不同的分支进行超分,包括B+Shape(加形状信息分支)和B+Identity(加身份信息分支)。根据4(e)中的比较结果,可以得出以下观察结果,首先,使用形状先验或身份先验都比仅使用超分辨率分支具有更好的性能;其次,形状先验对于提高超分辨率人脸的质量和产生更高的PSNR和SSIM至关重要;第三,对于身份先验,它主要增强了语义信息,产生更高的SSIM,最重要的是,形状先验和身份先验是互补的,CSRNet通过联合利用它们来提供最佳性能。
在本发明实施例中,首先,CSRNet采用级联的网络架构,让模型在受到损失函数约束时,能够获得多级的约束,即将一个复杂的8倍超分辨率问题,拆分成3个2倍超分辨率问题,让模型逐个问题去解,从而减少了问题的求解难度,帮助了模型的训练,其次,对于一个不适定问题来说,加入有效的约束可以减少问题的求解难度,CSRNet的模型架构支持同时使用两种人脸先验信息(形状先验和身份先验)对模型学习进行约束,从而提升了模型超分辨率的性能,最后,CSRNet模型学习的是目标人脸图像ys与插值图像间的差,也即是让模型在学习时只学习修复残差图像/>这是因为残差图像包含了大部分人脸图像中的高频信息,这些信息是模型超分辨率主要需要修复的对象,从而进一步减少了模型学习难度,帮助模型收敛,并提高了模型的性能。
实施例三:
图5示出了本发明实施例三提供的超分辨率人脸图像重建装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
第一图像获得单元51,用于当接收到超分辨率人脸图像重建请求时,通过第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过形状信息分支对第一残差图进行人脸特征点提取,得到第一热力图;
第二图像获得单元52,用于根据第一特征图和第一热力图,通过第二子网络得到第二特征图和第二残差图,并通过形状信息分支对第二残差图进行人脸特征点提取,得到第二热力图;
第三图像获得单元53,用于根据第二特征图和第二热力图,通过第三子网络得到第三残差图,并对人脸图像进行八倍的双三次插值,得到目标插值图像;以及
重建图获得单元54,用于将第三残差图和目标插值图像进行图像相加,得到人脸图像对应的目标重建图。
优选地,第一图像获得单元51包括:
第一特征提取单元,用于通过第一编码器对人脸图像进行特征提取,得到第一编码特征图;
第一上采样单元,用于通过第一解码器对第一编码特征图进行上采样,得到第一特征图;以及
第一卷积操作单元,用于对第一特征图进行卷积操作,得到第一残差图。
第二图像获得单元52包括:
第二特征提取单元,用于通过第二编码器对第一特征图进行特征提取,得到第二编码特征图;
堆叠特征获得单元,用于将第二编码特征图与第一热力图进行通道堆叠,得到第一堆叠特征图;
第二上采样单元,用于通过第二解码器对第一堆叠特征图进行上采样,得到第二特征图;以及
第二卷积操作单元,用于对第二特征图进行卷积操作,得到第二残差图。
在本发明实施例中,超分辨率人脸图像重建装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。具体地,各单元的实施方式可参考前述实施例一的描述,在此不再赘述。
实施例四:
图6示出了本发明实施例四提供的级联式人脸超分辨率网络的训练装置的结构,以将训练好的级联式人脸超分辨率网络用于实施例三的超分辨率人脸图像重建装置中,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
样本输入单元61,用于将训练样本集输入预先构建的级联式人脸超分辨率网络;
网络训练单元62,用于根据预先设计的超分辨率分支的第一损失函数、形状信息分支的第二损失函数以及身份信息分支的第三损失函数对级联式人脸超分辨率网络进行训练,并通过梯度反向传播更新级联式人脸超分辨率网络的网络参数,直到级联式人脸超分辨率网络在训练样本集上收敛。
优选地,本发明实施例的级联式人脸超分辨率网络的训练装置还包括:
对抗训练单元,用于根据预设的对抗损失函数、分类损失函数以及预设的判别器模型,对级联式人脸超分辨率网络进行对抗学习训练。
在本发明实施例中,超分辨率人脸图像重建装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。具体地,各单元的实施方式可参考前述实施例二的描述,在此不再赘述。
实施例五:
图7示出了本发明实施例五提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备7包括处理器70、存储器71以及存储在存储器71中并可在处理器70上运行的计算机程序72。该处理器70执行计算机程序72时实现上述一种超分辨率人脸图像重建方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器70执行计算机程序72时实现上述各装置实施例中各单元的功能,例如图5所示单元51至54的功能。
在本发明实施例中,根据人脸图像,通过级联式人脸超分辨率网络的超分辨率分支中的第一子网络得到第一特征图和第一残差图,根据第一残差图,通过级联式人脸超分辨率网络中的形状信息分支得到第一热力图,根据第一特征图和第一热力图,通过超分辨率分支中的第二子网络得到第二特征图和第二残差图,根据第二残差图,通过形状信息分支得到第二热力图,根据第二特征图和第二热力图,通过超分辨率分支中的第三子网络得到第三残差图,将对人脸图像使用八倍的双三次插值得到的目标插值图像和第三残差图进行图像相加,得到目标重建图,从而提高了目标重建图的分辨率、真实度和清晰度,提高了重建效果。
本发明实施例的计算设备可以为个人计算机、服务器。该计算设备7中处理器70执行计算机程序72时实现一种超分辨率人脸图像重建方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例六:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述一种超分辨率人脸图像重建方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图5所示单元51至54的功能。
在本发明实施例中,根据人脸图像,通过级联式人脸超分辨率网络的超分辨率分支中的第一子网络得到第一特征图和第一残差图,根据第一残差图,通过级联式人脸超分辨率网络中的形状信息分支得到第一热力图,根据第一特征图和第一热力图,通过超分辨率分支中的第二子网络得到第二特征图和第二残差图,根据第二残差图,通过形状信息分支得到第二热力图,根据第二特征图和第二热力图,通过超分辨率分支中的第三子网络得到第三残差图,将对人脸图像使用八倍的双三次插值得到的目标插值图像和第三残差图进行图像相加,得到目标重建图,从而提高了目标重建图的分辨率、真实度和清晰度,提高了重建效果。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于级联式人脸超分辨率网络的超分辨率人脸图像重建方法,其特征在于,所述级联式人脸超分辨率网络包括超分辨率分支和形状信息分支,所述超分辨率分支由第一子网络、第二子网络以及第三子网络组成,所述方法包括下述步骤:
当接收到超分辨率人脸图像重建请求时,通过所述第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过所述形状信息分支对所述第一残差图进行人脸特征点提取,得到第一热力图;
根据所述第一特征图和所述第一热力图,通过所述第二子网络得到第二特征图和第二残差图,并通过所述形状信息分支对所述第二残差图进行人脸特征点提取,得到第二热力图;
根据所述第二特征图和所述第二热力图,通过所述第三子网络得到第三残差图,并对所述人脸图像进行八倍的双三次插值,得到目标插值图像;
将所述第三残差图和所述目标插值图像进行图像相加,得到所述人脸图像对应的目标重建图。
2.如权利要求1所述的方法,其特征在于,所述第一子网络包括第一编码器和第一解码器,所述通过所述第一子网络对待重建的人脸图像进行图像处理的步骤,包括:
通过所述第一编码器对所述人脸图像进行特征提取,得到第一编码特征图;
通过所述第一解码器对所述第一编码特征图进行上采样,得到所述第一特征图;
对所述第一特征图进行卷积操作,得到所述第一残差图。
3.如权利要求2所述的方法,其特征在于,所述第一编码器由12个残差模块组成,所述第一解码器由批归一化层、激活层以及反卷积层组成。
4.如权利要求1所述的方法,其特征在于,所述第二子网络包括第二编码器和第二解码器,所述通过所述第二子网络得到第二特征图和第二残差图的步骤,包括:
通过所述第二编码器对所述第一特征图进行特征提取,得到第二编码特征图;
将所述第二编码特征图与所述第一热力图进行通道堆叠,得到第一堆叠特征图;
通过所述第二解码器对所述第一堆叠特征图进行上采样,得到所述第二特征图;
对所述第二特征图进行卷积操作,得到所述第二残差图。
5.一种用于权利要求1-4的超分辨率人脸图像重建方法的级联式人脸超分辨率网络的训练方法,其特征在于,所述级联式人脸超分辨率网络还包括身份信息分支,所述方法包括下述步骤:
将训练样本集输入预先构建的所述级联式人脸超分辨率网络;
根据预先设计的所述超分辨率分支的第一损失函数、所述形状信息分支的第二损失函数以及所述身份信息分支的第三损失函数对所述级联式人脸超分辨率网络进行训练,并通过梯度反向传播更新所述级联式人脸超分辨率网络的网络参数,直到所述级联式人脸超分辨率网络在所述训练样本集上收敛。
6.如权利要求5所述的方法,其特征在于,所述通过梯度反向传播更新所述级联式人脸超分辨率网络的网络参数,直到所述级联式人脸超分辨率网络在所述训练样本集上收敛的步骤之后,所述方法还包括:
根据预设的对抗损失函数、分类损失函数以及预设的判别器模型,对所述级联式人脸超分辨率网络进行对抗学习训练。
7.一种基于级联式人脸超分辨率网络的超分辨率人脸图像重建装置,其特征在于,所述级联式人脸超分辨率网络包括超分辨率分支和形状信息分支,所述超分辨率分支由第一子网络、第二子网络以及第三子网络组成,所述装置包括:
第一图像获得单元,用于当接收到超分辨率人脸图像重建请求时,通过所述第一子网络对待重建的人脸图像进行图像处理,得到第一特征图和第一残差图,并通过所述形状信息分支对所述第一残差图进行人脸特征点提取,得到第一热力图;
第二图像获得单元,用于根据所述第一特征图和所述第一热力图,通过所述第二子网络得到第二特征图和第二残差图,并通过所述形状信息分支对所述第二残差图进行人脸特征点提取,得到第二热力图;
第三图像获得单元,用于根据所述第二特征图和所述第二热力图,通过所述第三子网络得到第三残差图,并对所述人脸图像进行八倍的双三次插值,得到目标插值图像;以及
重建图获得单元,用于将所述第三残差图和所述目标插值图像进行图像相加,得到所述人脸图像对应的目标重建图。
8.一种用于权利要求7的超分辨率人脸图像重建装置的级联式人脸超分辨率网络的训练装置,其特征在于,所述级联式人脸超分辨率网络还包括身份信息分支,所述装置包括:
样本输入单元,用于将训练样本集输入预先构建的所述级联式人脸超分辨率网络;以及
网络训练单元,用于根据预先设计的所述超分辨率分支的第一损失函数、所述形状信息分支的第二损失函数以及所述身份信息分支的第三损失函数对所述级联式人脸超分辨率网络进行训练,并通过梯度反向传播更新所述级联式人脸超分辨率网络的网络参数,直到所述级联式人脸超分辨率网络在所述训练样本集上收敛。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN202310839804.XA 2023-07-10 2023-07-10 一种超分辨率人脸图像重建方法、装置、设备及存储介质 Pending CN117094886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310839804.XA CN117094886A (zh) 2023-07-10 2023-07-10 一种超分辨率人脸图像重建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310839804.XA CN117094886A (zh) 2023-07-10 2023-07-10 一种超分辨率人脸图像重建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117094886A true CN117094886A (zh) 2023-11-21

Family

ID=88776224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310839804.XA Pending CN117094886A (zh) 2023-07-10 2023-07-10 一种超分辨率人脸图像重建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117094886A (zh)

Similar Documents

Publication Publication Date Title
Yang et al. DRFN: Deep recurrent fusion network for single-image super-resolution with large factors
Pan et al. Loss functions of generative adversarial networks (GANs): Opportunities and challenges
Jiang et al. Dual attention mobdensenet (damdnet) for robust 3d face alignment
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
CN102576453A (zh) 图像处理装置和方法、数据处理装置和方法、程序和记录介质
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution
CN110598601A (zh) 一种基于分布式热力图的人脸3d关键点检测方法及系统
CN114972746B (zh) 一种基于多分辨率重叠注意力机制的医学影像分割方法
Bao et al. SCTANet: A spatial attention-guided CNN-transformer aggregation network for deep face image super-resolution
CN110516643A (zh) 一种基于联合热力图的人脸3d关键点检测方法及系统
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN113379597A (zh) 人脸超分辨率重构方法
Tomar et al. Deep hyfeat based attention in attention model for face super-resolution
Moeini et al. 2D facial expression recognition via 3D reconstruction and feature fusion
Dai et al. CFGN: A lightweight context feature guided network for image super-resolution
CN114299218A (zh) 一种基于手绘素描寻找真实人脸的系统
CN114240811A (zh) 一种基于多张图像生成新图像的方法
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN116977822A (zh) 一种融合CNN与Transformer模型的图像识别网络
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
CN117094886A (zh) 一种超分辨率人脸图像重建方法、装置、设备及存储介质
CN114298979B (zh) 一种局灶性病变征象描述指导的肝核磁影像序列生成方法
Chen et al. Linear-ResNet GAN-based anime style transfer of face images
Zhang et al. Bilateral upsampling network for single image super-resolution with arbitrary scaling factors
CN114022521A (zh) 一种非刚性多模医学图像的配准方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination