CN113628107B

CN113628107B - 人脸图像超分辨率方法和系统

Info

Publication number: CN113628107B
Application number: CN202110749972.0A
Authority: CN
Inventors: 张娅; 姜文波; 赵贵华; 张小云; 董洋轶; 张毅军; 王延峰; 蔺飞; 袁旭稚
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-10-27
Anticipated expiration: 2041-07-02
Also published as: CN113628107A

Abstract

本发明公开了一种人脸超分辨率方法及系统，包括：对输入的人脸属性标签信息，使用全连接网络与激活层进行特征优化，获得属性语义特征；对输入的低分辨率图像信息，使用卷积神经网络提取视觉特征；对属性语义特征与视觉特征使用特征融合网络进行特征融合，并在训练时与教师特征通过属性法向量约束，从而保持融合特征与教师特征属性一致；使用图像恢复网络将融合特征映射为输出图像，由于图像恢复网络经过预训练，它生成的图像具有逼真的细节。通过本发明，生成的人脸高清图像具有属性保持与细节。

Description

人脸图像超分辨率方法和系统

技术领域

本发明涉及一种计算机视觉和图像处理领域的方法，特别涉及一种人脸图像超分辨率方法及系统。

背景技术

人脸超分辨率，旨在提高人脸图像的分辨率，将一个低分辨率人脸图像(LR)生成相应的高分辨率人脸图像(HR)。在过去的几年，基于深度神经网络的许多超分辨方法取得了巨大的成功。然而，超分辨是一个病态的问题，多个高分辨图像退化后可为同一低分辨率图像，即一个低分辨率图像对应着多个高分辨率图像。在训练时，网络也受到这一对多关系的影响，拟合的是一个低分辨率图像对应多个高分辨率图像的平均，这导致了输出图像是模糊的。考虑到了这一点，有些方法使用了预训练的生成模型，这些预训练的模型由于在高清图像数据集上训练，它们的网络参数具有生成高清图像的特性。但是以上方法都没有关注到人脸的属性信息，人脸属性信息具有十分重要的语义信息，输入这一信息能够帮助网络生成与真实图像的人脸属性信息接近的人脸超分辨图像。

经检索，中国发明专利公开号为CN111915487A，申请号为CN202010771552.8，该发明公开了一种基于分层多尺度残差融合网络的人脸超分辨率方法及装置，该方法包括：将高分辨率人脸图像下采样至目标低分辨率人脸图像，将目标低分辨率图像进行分块操作，分出相互重叠的图像块后，使用瓶颈注意力模块提取精细的脸部特征图；将提取的精细脸部特征图发送到多尺度残差模块，多尺度残差模块内使用不同卷积层提取特征信息，使用交叉的方式实现特征信息共享，多尺度残差模块外使用跳跃连接的方式实现多尺度特征信息融合，以更有效的提高SR性能；通过特征融合来更新目标低分辨率人脸图像的特征图以产生高分辨率结果。但是该专利图像超分辨率效果有待进一步提升，尤其在输入图像受损严重时。

发明内容

本发明针对上述现有技术中的缺陷，本发明提出了一种人脸图像超分辨率方法，利用预训练的图像恢复网络生成具有细节特征的高分辨率，利用输入的人脸属性信息增强网路对人脸属性的关注，从而能够生成属性准确的人脸高分辨率图像。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明提供一种人脸图像超分辨方法，其包括：

对输入的人脸属性标签信息，利用全连接网络与激活层进行特征优化，获得属性语义特征；

对输入图像利用卷积神经网络提取视觉特征；

使用特征融合网络，利用优化后的所述属性语义特征以及提取的所述视觉特征进行特征融合得到融合特征，并在训练时获取教师特征与使用属性法向量约束，保持所述融合特征的属性准确性；

使用图像恢复网络将所述融合特征映射为输出图像，优化生成图像的细节信息。

可选地，所述利用全连接网络与激活层进行特征优化，获得属性语义特征，包括：

输入人脸属性标签信息其中C_f为数据集中的输入属性类别数量，所述数据集为人脸图像与人脸属性标签对应的数据集；利用全连接网络与激活层进行特征优化后的语义特征为/>其中k为特征维度，N对应预训练的Stylegan模型的层数，为实数域。

可选地，所述对输入图像利用卷积神经网络提取视觉特征，包括：

输入低分辨率图像其中C为图像通道数，W为图像的宽，H为图像的高，利用卷积神经网络提取图像视觉特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。

可选地，所述使用特征融合网络，利用优化后的所述属性语义特征以及提取的所述视觉特征进行特征融合得到融合特征，其中，

输入语义特征与图像视觉特征/>通过特征融合获得融合特征/>其中k为特征维度，N对应预训练的Stylegan模型的层数。

可选地，所述在训练时获取教师特征与使用属性法向量约束，通过所述教师特征对特征融合网络进行监督，其中：

输入高清图像其中C为图像通道数，W为图像的宽，H为图像的高；提取图像视觉特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数；

提取图像视觉特征的输入图像为高清图像，得到的图像视觉特征作为教师特征，并相对低分辨率输入图像得到的图像视觉特征具有更准确的属性信息。

可选地，所述图像恢复网络为一个预训练的Stylegan模型，该模型将融合特征映射为输出图像，所述Stylegan模型经过预训练，它生成的图像具有逼真的细节，图像恢复网络的输出为整个网络的损失函数L为：

L＝L_rec+λ_WL_W+λ_vggL_vgg,

其中，L_rec与L_vgg为S14中的图像恢复网络的损失函数，L_W为S13中的特征融合网络的损失函数，λ_W和λ_vgg为平衡几个损失的权重，其中C为图像通道数，W为图像的宽，H为图像的高。

本发明还提供一种人脸图像超分辨率系统，包括：

属性标签提取优化模块，该模块对输入的人脸属性标签信息，利用全连接网络与激活层进行特征优化，获得属性语义特征；

图像信息提取模块，该模块对输入图像利用卷积神经网络提取视觉特征；

特征融合模块，该模块使用特征融合网络，利用所述属性标签提取优化模块优化后的属性语义特征以及所述图像信息提取模块提取的视觉特征进行特征融合得到融合特征，并在训练时获取教师特征与使用属性法向量约束，保持所述融合特征的属性准确性；

图像恢复模块，该模块使用图像恢复网络将所述特征融合模块得到的融合特征映射为输出图像，优化生成图像的细节信息。

相较于现有技术，本发明实施例具有以下至少一种优点：

(1)本发明提供的基于预训练生成模型的人脸图像超分辨方法及系统，通过预训练的图像恢复网络，生成具有细节的高分辨率图像，改善了现有技术生成高分辨率图像模糊的问题。

(2)本发明提供的基于预训练生成模型的人脸图像超分辨方法及系统，使用人脸属性语义信息作为输入。这一输入使网络能够准确地得到输入图像的属性语义信息，生成属性准确的高分辨率人脸图像。

(3)本发明提供的基于预训练生成模型的人脸图像超分辨方法及系统，获取教师特征与属性法向量，利用两者构建属性，损失促进了网络对输入人脸图像属性特征的学习。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明一实施例的基于预训练生成模型的人脸图像超分辨方法的流程图；

图2为本发明一实施例的基于预训练生成模型的人脸图像超分辨系统的框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。以下没有详细说明的部分可以采用现有技术实现。

如图1所示，为本发明一实施例的基于预训练生成模型的人脸图像超分辨方法的流程图。

请参考图1，本实施例的基于预训练生成模型的人脸图像超分辨方法包括：

S11：对输入的人脸属性标签信息，利用全连接网络与激活层进行特征优化，获得属性语义特征；

S12：对输入图像利用卷积神经网络提取视觉特征；

S13：使用特征融合网络，利用所述S11优化后的语义特征以及S12得到的视觉特征进行特征融合，并在训练时获取教师特征与使用属性法向量约束，保持融合特征的属性准确性；

S14：使用预训练的图像恢复网络将融合特征映射为输出图像，优化生成图像的细节信息。

本发明上述实施例，采用预训练的图像恢复网络，它生成的图像具有逼真的细节，生成的人脸高清图像具有属性保持与细节。

较佳实施例中，S11中，若干层全连接层和激活层提取输入属性标签的属性语义特征。输入属性标签向量为其中C_f为数据集中的输入属性类别数量。经过若干层全连接层和激活层提取优化的语义特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。

较佳实施例中，S12对输入图像利用卷积神经网络提取视觉特征。输入低清图像为其中C为图像通道数，W为图像的宽，H为图像的高。通过图像信息提取得到图像视觉特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。

较佳实施例中，S13的特征融合网络利用全连接网络与激活层进行特征融合。输入语义特征与图像视觉特征/>通过特征融合获得融合特征/>在训练时利用教师特征对特征融合网络进行监督。输入高清图像为/>其中C为图像通道数，W为图像的宽，H为图像的高。利用图像信息提取技术提取图像视觉特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。由于输入图像信息提取的图像为高清图像，其得到的图像视觉特征可作为教师特征，并相对低清输入图像得到的图像视觉特征具有更准确的属性信息。在训练时将融合特征与教师特征通过属性法向量约束，优化提取的融合特征。将教师特征根据其对应的属性标签，使用SVM支持向量机方法训练获得属性超平面，将超平面对应的法向量作为属性法向量/>训练时，约束融合特征与教师特征在属性法向量上距离尽量小。计算如下损失函数：

其中，W_Sr为特征融合网络所预测的融合特征，W_Hr为输入高清图像利用图像信息提取所预测的教师特征。通过最小化该损失函数学习对于人脸属性的预测，以便能够约束生成图像与目标图像相近。

较佳实施例中，S14的图像恢复网络使用一个预训练的Stylegan模型将融合特征映射为输出图像，由于Stylegan模型经过预训练，它生成的图像具有逼真的细节，图像恢复网络的输出为通过以下损失函数，将损失传递给S11-S13步骤，指导这三个步骤学习：

L_rec＝‖Sr-Hr‖₂,

通过最小化该损失函数学习对于输入低分辨率图像恢复为高分辨率图像。为了使生成的图像具有更逼真的细节，使用了一个在imagenet数据集上预训练的vgg网络，并使用其网络第五层的输出计算损失函数：

其中，Sr为图像恢复网络所预测的图像，Hr为输入低分辨率图像所对应的高分辨率图像。

整个网络(S11-S14)的损失函数如下：

L＝L_rec+λ_WL_W+λ_vggL_vgg,

其中，L_rec与L_vgg为S14中的图像恢复网络的损失函数，L_W为S13中的特征融合网络的损失函数，λ_W和λ_vgg为平衡几个损失的权重，在一实施例中可以取值：λ_W＝0.01,λ_vgg＝0.01。

本发明上述较佳实施例中，通过输入人脸属性信息，获取准确的人脸属性信息；通过获取教师特征与属性法向量，使网络更好地生成人脸属性；通过预训练的生成模型，帮助网络生成具有细节的高分辨率图像。

本发明上述实施例中，使用了一个预训练的图像恢复网络提供丰富的先验信息，能够在图像超分辨率任务中取得更好的效果，尤其在输入图像受损严重时。另外，本发明上述实施例中使用获取的教师特征指导S11,S12,S13训练，更容易训练。

如图2所示为本发明一实施例的基于预训练生成模型的人脸图像超分辨系统的框图。

请参考图2，本实施例的基于预训练生成模型的人脸图像超分辨系统用于实现上述实施例的基于预训练生成模型的人脸图像超分辨方法，其包括：属性信息提取优化模块、图像信息提取模块、特征融合模块、图像恢复模块。属性标签提取优化模块对输入的人脸属性标签信息，利用全连接网络与激活层进行特征优化，获得属性语义特征；图像信息提取模块对输入图像利用卷积神经网络提取视觉特征；特征融合模块使用特征融合网络，利用所述属性标签提取优化模块优化后的属性语义特征以及所述图像信息提取模块提取的视觉特征进行特征融合得到融合特征，并在训练时获取教师特征与使用属性法向量约束，保持所述融合特征的属性准确性；图像恢复模块使用图像恢复网络将所述特征融合模块得到的融合特征映射为输出图像，优化生成图像的细节信息。

可选地，属性信息提取优化模块对输入属性标签向量为其中C_f为数据集中的输入属性类别数量。使用全连接层与激活层训练，优化后的语义特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。

可选地，图像信息提取模块使用卷积神经网络提取视觉特征。输入低分辨率图像为其中C为图像通道数，W为图像的宽，H为图像的高。利用图像信息提取技术提取图像视觉特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。

可选地，特征融合模块的特征融合网络利用全连接网络与激活层进行特征融合。输入语义特征与图像视觉特征/>通过特征融合获得融合特征/>在训练时利用教师特征对特征融合网络进行监督。输入高清图像为/>其中C为图像通道数，W为图像的宽，H为图像的高。利用图像信息提取提取图像视觉特征/>其中k为特征维度，N对应了预训练的Stylegan模型的层数。由于输入图像信息提取的图像为高清图像，其得到的图像视觉特征可作为教师特征，并相对低清输入图像得到的图像视觉特征具有更准确的属性信息。在训练时将融合特征与教师特征通过属性法向量约束，优化提取的融合特征。将教师特征根据其对应的属性标签，使用SVM支持向量机方法训练获得属性超平面，将超平面对应的法向量作为属性法向量/>训练时，约束融合特征与教师特征在属性法向量上距离尽量小。计算如下损失函数：

其中，W_Sr为特征融合网络所预测的融合特征，W_Hr为输入高清图像利用图像信息提取所预测的教师特征。通过最小化该损失函数学习对于人脸属性的预测。

可选地，图像恢复模块利用一个预训练的Stylegan模型将融合特征映射为输出图像，由于Stylegan模型经过预训练，它生成的图像具有逼真的细节，图像恢复的输出为通过以下损失函数，将损失传递给属性信息提取优化模块、图像信息提取模块、特征融合模块，指导学习：

L_rec＝‖Sr-Hr‖₂,

通过最小化该损失函数学习对于输入低分辨率图像恢复为高清图像。为了使生成的图像具有更逼真的细节，使用了一个在imagenet数据集上预训练的vgg网络，并使用其网络第五层的输出计算损失函数：

上述各个模块所采用的技术可以参照人脸图像超分辨方法的说明，在此不再赘述。

综上，上述实施例提供的人脸图像超分辨方法及系统，输入人脸属性信息与低分辨率图像，利用教师特征进行监督，并使用预训练的生成网络，使人脸超分辨网络的性能得到提升。输入属性标签信息通过属性标签信息提取优化得到属性语义特征，输入低分辨率图像通过图像信息提取得到图像视觉特征，两者通过特征融合得到融合特征，最后经过图像恢复得到人脸属性准确的高分辨率图像。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种人脸图像超分辨率方法，其特征在于，包括：

对输入图像利用卷积神经网络提取视觉特征；

使用预训练的图像恢复网络将所述融合特征映射为输出图像，优化生成图像的细节信息；

所述在训练时获取教师特征与使用属性法向量约束，通过所述教师特征对特征融合网络进行监督，其中：

输入高清图像其中C为图像通道数，W为图像的宽，H为图像的高；提取图像视觉特征/>其中k为特征维度，N对应了预训练的图像恢复网络的网络层数的层数，/>为实数域；

提取图像视觉特征的输入图像为高清图像，得到的图像视觉特征作为教师特征，比相对低分辨率输入图像得到的图像视觉特征具有更准确的属性信息；

所述在训练时获取教师特征与使用属性法向量约束，优化提取的融合特征，其中：

将教师特征根据其对应的属性标签，使用SVM支持向量机方法训练获得属性超平面，将超平面对应的法向量作为属性法向量训练时，约束融合特征与教师特征在属性法向量上距离尽量小，计算如下损失函数L_W：

其中，W_Sr为特征融合网络所预测的融合特征，W_Hr为输入高清图像进行图像信息提取所预测的教师特征，通过最小化上述损失函数L_W学习对于人脸属性的预测；

所述图像恢复网络为一个预训练的Stylegan模型，该模型将融合特征映射为输出图像，所述Stylegan模型经过预训练，它生成的图像具有逼真的细节，图像恢复网络的输出为整个网络的损失函数L为：

L＝L_rec+λ_WL_W+λ_vggL_vgg,

其中，L_rec与L_vgg为S14中的图像恢复网络的损失函数，L_W为S13中的特征融合网络的损失函数，λ_W和λ_vgg为平衡几个损失的权重，其中C为图像通道数，W为图像的宽，H为图像的高；

所述图像恢复网络具有如下损失函数L_rec：

L_rec＝||Sr-Hr||₂,

其中，Sr为图像恢复网络所预测的图像，Hr为输入低清图像所对应的高清图像；通过最小化该损失函数L_rec学习对于输入低清图像恢复为高清图像；

所述图像恢复网络为了使生成的图像具有更逼真的细节，使用一个在imagenet数据集上预训练的vgg网络，并使用其网络第五层的输出计算损失函数L_vgg：

其中，Sr为图像恢复网络所预测的图像，Hr为输入低清图像所对应的高清图像；通过最小化该损失函数L_vgg学习对于输入低分辨率图像恢复为具有细节的高分辨率图像。

2.根据权利要求1所述的人脸图像超分辨率方法，其特征在于，所述利用全连接网络与激活层进行特征优化，获得属性语义特征，包括：

输入人脸属性标签信息其中C_f为数据集中的输入属性类别数量，所述数据集为人脸图像与人脸属性标签对应的数据集；利用全连接网络与激活层进行特征优化后的语义特征为/>其中k为特征维度，N对应预训练的图像恢复网络的网络层数，为实数域。

3.根据权利要求1所述的人脸图像超分辨率方法，其特征在于，所述对输入图像利用卷积神经网络提取视觉特征，包括：

输入低分辨率图像其中C为图像通道数，W为图像的宽，H为图像的高，利用卷积神经网络提取图像视觉特征/>其中k为特征维度，N对应预训练的图像恢复网络的网络层数。

4.根据权利要求1所述的人脸图像超分辨率方法，其特征在于，所述使用特征融合网络，利用优化后的所述属性语义特征以及提取的所述视觉特征进行特征融合得到融合特征，其中，

输入语义特征与图像视觉特征/>通过特征融合获得融合特征其中k为特征维度，N对应预训练的图像恢复网络的网络层数。

5.一种人脸图像超分辨率系统，其特征在于，包括：

图像恢复模块，该模块使用图像恢复网络将所述特征融合模块得到的融合特征映射为输出图像，优化生成图像的细节信息；

所述特征融合模块，在训练时获取教师特征与使用属性法向量约束，通过所述教师特征对特征融合网络进行监督，其中：

L＝L_rec+λ_WL_W+λ_vggL_vgg,

所述图像恢复网络具有如下损失函数L_rec：

L_rec＝‖Sr-Hr‖₂,