CN111860212B

CN111860212B - 人脸图像的超分方法、装置、设备及存储介质

Info

Publication number: CN111860212B
Application number: CN202010611280.5A
Authority: CN
Inventors: 贺沁雯; 李果; 熊宝玉; 樊鸿飞; 蔡媛
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-03-26
Anticipated expiration: 2040-06-29
Also published as: CN111860212A

Abstract

本公开的实施例公开了一种人脸图像的超分方法、装置、设备及存储介质。其中，方法包括：获取目标人脸图像；获取目标人脸图像的引导图像，其中，引导图像包括标注有目标人脸图像中的五官图像的位置的人脸解析图像，和/或与目标人脸图像中的五官图像所对应的五官模板图像；将目标人脸图像和引导图像输入至人脸超分模型中，得到与目标人脸图像对应的超分人脸图像，其中，超分人脸图像的分辨率大于目标人脸图像的分辨率。基于本方法，所得到的超分人脸图像失真度低。

Description

人脸图像的超分方法、装置、设备及存储介质

技术领域

本公开涉及图像处理技术领域，更具体地，涉及一种人脸图像的超分方法、一种人脸图像的超分装置、一种电子设备及一种计算机可读存储介质。

背景技术

目前，现有的基于深度学习的人脸图像的超分方法通常是通过构建卷积神经网络实现的。

具体的，获取以人脸为主体的高分辨率人脸图像，以及对该高分辨率人脸图像进行多次压缩等模糊处理，得到对应的低分辨率人脸图像。将匹配的高分辨率人脸图像的低分辨率人脸图像作为训练样本。然后将大量训练样本输入至卷积神经网络中，以由卷积神经网络学习低分辨率人脸图像和高分辨率人脸图像之间的映射关系，最终得到训练好的卷积神经网络。这样，将低分辨率人脸图像输入至训练好的卷积神经网络中，便可得到高分辨率人脸图像。

但是，现有的基于深度学习的人脸图像的超分的方法，所得到的高分辨率人脸图像存在很大程度的失真。

发明内容

本公开的一个目的是提供一种用于超分人脸图像的新技术方案。

根据本公开的第一方面，提供了一种人脸图像的超分方法，所述方法包括：

获取目标人脸图像；

获取所述目标人脸图像的引导图像，其中，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像，和/或与所述目标人脸图像中的五官图像所对应的五官模板图像；

将所述目标人脸图像和所述引导图像输入至人脸超分模型中，得到与所述目标人脸图像对应的超分人脸图像，其中，所述超分人脸图像的分辨率大于所述目标人脸图像的分辨率。

可选的，所述引导图像包括与所述目标人脸图像中的五官图像所对应的五官模板图像；所述获取所述目标人脸图像的引导图像，包括：

从所述目标人脸图像中提取五官图像；

将提取出的所述五官图像输入到与所述五官图像对应的五官分类模型中，得到所述五官图像中五官的类型；

从对应五官的模板图像库选取出与所述五官图像中五官的类型匹配的五官模板图像；所述五官模板图像的分辨率大于预设分辨率。

可选的，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像；所述获取所述目标人脸图像的引导图像，包括：

将所述目标人脸图像输入到基于深度学习神经网络的人脸解析模型中，得到所述人脸解析图像。

可选的，所述方法还包括获取所述人脸超分模型的步骤，包括：

获取第一训练样本集，所述第一训练样本集包括多组第一训练样本；一组所述第一训练样本包括超分人脸样本图像，以及对应的目标人脸样本图像和所述目标人脸样本图像的引导图像，其中，所述超分人脸样本图像的分辨率大于所述目标人脸样本图像的分辨率；

将所述目标人脸样本图像和所述目标人脸样本图像的引导图像作为图像超分网络的输入，将所述超分人脸样本图像作为监督，对图像超分网络进行训练，得到所述人脸超分模型。

可选的，所述图像超分网络基于SRResNet模型、EDSR模型、WDSR模型中的任一个实现，以及所述图像超分网络的损失函数基于平均绝对误差的损失函数与均方根误差的损失函数的组合得到。

可选的，所述从所述目标人脸图像中提取五官图像，包括：

将所述目标人脸图像输入到基于深度学习神经网络的人脸解析模型中，得到标注有目标人脸图像中五官的位置的人脸解析图像；

按照标注的位置，从所述人脸解析图像中提取所述五官图像。

可选的，所述方法还包括获取人脸解析模型的步骤，包括：

获取第二训练样本集，所述第二训练样本集包括多组第二训练样本，一组所述第二训练样本包括人脸样本图像以及对应的人脸样本解析图；

将所述人脸样本图像，作为图像分割模型的输入，将所述人脸样本解析图作为监督，对所述图像分割模型进行训练，得到所述人脸解析模型。

根据本公开的第二方面，提供一种人脸图像的超分装置，所述装置包括：

第一获取模块，用于获取目标人脸图像；

第二获取模块，用于获取所述目标人脸图像的引导图像，其中，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像，和/或与所述目标人脸图像中的五官图像所对应的五官模板图像；

确定模块，用于将所述目标人脸图像和所述引导图像输入至人脸超分模型中，得到与所述目标人脸图像对应的超分人脸图像，其中，所述超分人脸图像的分辨率大于所述目标人脸图像的分辨率。

可选的，所述引导图像包括与所述目标人脸图像中的五官图像所对应的五官模板图像；所述第二获取模块包括：

提取单元，用于从所述目标人脸图像中提取五官图像；

确定单元，用于将提取出的所述五官图像输入到与所述五官图像对应的五官分类模型中，得到所述五官图像中五官的类型；

选取单元，用于从对应五官的模板图像库选取出与所述五官图像中五官的类型匹配的五官模板图像；所述五官模板图像的分辨率大于预设分辨率。

可选的，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像；所述第二获取模块具体用于：

可选的，所述装置还包括第三获取模块，所述第三获取模块用于：

获取第一训练样本集，所述第一训练样本集包括多组第一训练样本；一组所述第一训练样本包括超分人脸样本图像、以及对应的目标人脸样本图像和所述目标人脸样本图像的引导图像，其中，其中，所述超分人脸样本图像的分辨率大于所述目标人脸样本图像的分辨率；

可选的，所述图像超分网络基于SRResNet模型、EDSR模型、WDSR模型中的任一个实现，以及所述图像超分网络的损失函数基于平均绝对误差的损失函数与均方根误差的损失函数的组合实现。

可选的，所述提取单元具体用于：

将所述目标人脸图像输入到基于深度学习神经网络的人脸解析模型中，得到标注有目标人脸图像中五官图像的位置的人脸解析图像；

根据本公开的第三方面，提供一种电子设备，所述电子设备包括如第二方面中任一项所述的装置；或者，

包括存储器和处理器，所述存储器用于存储计算机指令，所述处理器用于从所述存储器中调用所述计算机指令，以执行如第一方面中任一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据第一方面中任一项所述的方法。

本实施例中，通过获取目标人脸图像，以及目标人脸图像的引导图像，然后将目标人脸图像和引导图像输入至人脸超分模型中，得到与目标人脸图像对应的超分人脸图像。其中，超分人脸图像的分辨率大于目标人脸图像的分辨率。由于引导图像中包括标注有目标人脸图像中的五官图像的位置的人脸解析图像，和/或与目标人脸图像中的五官图像所对应的五官模板图像，因此，在引导图像中包括标注有目标人脸图像中的五官图像的位置的人脸解析图像的情况下，人脸超分模型可将引导图像中包括的人脸解析图像作为先验信息，对目标人脸图像中的五官图像的位置进行校正，这使得输出的超分人脸图像避免了畸变。同时，在引导图像中包括与目标人脸图像中的五官图像所对应的五官模板图像的情况下，人脸超分模型可将引导图像中的五官模板图像作为先验信息，对目标人脸图像中的五官图像的细节进行补充，这使得输出的超分人脸图像中的五官图像包含更多的细节信息。这也就是说，基于本实施例提供的人脸图像的超分方法，所得到的超分人脸图像失真度低。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且连同其说明一起用于解释本公开的原理。

图1是根据本公开实施例提供的一种实现人脸图像的超分方法的电子设备的硬件配置的框图；

图2是本公开实施例提供的一种人脸图像的超分方法的流程示意图；

图3是本公开实施例提供的一种人脸解析图像的示意图；

图4是本公开实施例提供的另一种人脸解析图像的示意图；

图5是本公开实施例提供的一种图像超分网络的结构的示意图；

图6是本公开实施例提供的另一种图像超分网络的结构的示意图；

图7是本公开实施例提供的又一种图像超分网络的结构的示意图；

图8是本公开实施例提供的另一种人脸图像的超分方法的流程示意图；

图9是本公开实施例提供的一种人脸图像的超分装置的结构示意图；

图10是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置实施例>

图1是根据本公开实施例提供的一种实现人脸图像的超分方法的电子设备的硬件配置的框图。

电子设备1000可以是手机、便携式电脑、平板电脑、掌上电脑等等电子设备。

电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800，等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

尽管在图1中对电子设备1000均示出了多个装置，但是，本公开可以仅涉及其中的部分装置，例如，电子设备1000只涉及存储器1200和处理器1100。

应用于本公开的实施例中，电子设备1000的存储器1200用于存储指令，该指令用于控制处理器1100执行本公开实施例提供的人脸图像的超分方法。

在上述描述中，技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<方法实施例>

本公开实施例提供一种人脸图像的超分方法，如图2所示，该方法包括如下S2100-S2300：

S2100、获取目标人脸图像。

在本实施例中，目标人脸图像为待超分的低分辨率的人脸图像。其中，超分指的是：由低分辨的图像重建出相应的高分辨率图像。基于此，本实施例中人脸图像的超分，指的是由低分辨率的人脸图像重建出相应的高分辨率人脸图像。可以理解的是，通过超分的方法，可以使得人脸图像更加清晰。

S2200、获取目标人脸图像的引导图像。

其中，引导图像包括标注有目标人脸图像中的五官图像的位置的人脸解析图像，和/或与目标人脸图像中的五官所对应的五官模板图像。

在本实施例中，五官模板图像的分辨率大于预设分辨率。即五官模板图像为一个高分辨的图像。基于此，本实施例中的与目标人脸图像中的五官所对应的五官模板图像，指的是高分辨率、与目标人脸图像中的五官的类型匹配的、包含有细节信息的五官图像。五官的类型指的是五官的形态。

在一个实施例中，目标人脸图像中的五官可以为：眼睛、嘴、鼻子、眉毛、耳朵。可以理解的是，人脸朝向不同，对应的目标人脸图像中所包含的五官的内容并不完全相同。

在一个例子中，引导图像可以包括：标注有目标人脸图像中的五官图像的位置的人脸解析图像、目标人脸中的左眼对应的左眼模板图像、目标人脸中的右眼对应的右眼模板图像、目标人脸中嘴对应的嘴模板图像、目标人脸中左耳对应的左耳模板图像、目标人脸中右耳对应的右耳模板图像、目标人脸中鼻子对应的鼻子模板图像、目标人脸中左眉毛对应的左眉毛模板图像、目标人脸中右眉毛对应的左眉毛模板图像。

其中，标注有目标人脸图像中的五官图像的位置的人脸解析图像可以由多个图像组成。示例性的，其可以包含：标注有目标人脸图像中的左眼图像的位置的图像、标注有目标人脸图像中的右眼图像的位置的图像、标注有目标人脸图像中的嘴图像的位置的图像、标注有目标人脸图像中的左耳图像的位置的图像、标注有目标人脸图像中的右耳图像的位置的图像、标注有目标人脸图像中的鼻子图像的位置的图像、标注有目标人脸图像中的左眉毛图像的位置的图像、标注有目标人脸图像中的右眉毛图像的位置的图像。基于此，在一个示例中，标注有目标人脸图像中的五官图像的位置的人脸解析图像可如图3所示。

或者，标注有目标人脸图像中的五官图像的位置的人脸解析图像为一个，该人脸解析图像中标注有目标人脸图像中的左眼图像、右眼图像、嘴图像、鼻子图像、左眉毛图像、右眉毛图像的位置。基于此，在一个示例中，标注有目标人脸图像中的五官图像的位置的人脸解析图像可如图4所示。

在一个示例中，对于上述的标注，标注的方式可以为突出显示。例如将需要标注的部分的像素值设置为第一预设值。对应的，将不需要标注的部分的像素值设置为第二预设值。例如，可通过二值化的方式进行标注。

在一个实施例中，在引导图像包括与目标人脸图像中的五官所对应的五官模板图像的情况下，上述S2200的具体实现可以为如下S2210-S2212：

S2210、从目标人脸图像中提取五官图像。

在一个实施例中，上述S2210的具体实现可以为如下的S2210-1和S2210-2：

S2210-1、将目标人脸图像输入到基于深度学习神经网络的人脸解析模型中，得到标注有目标人脸图像中五官图像的位置的人脸解析图像。

在本实施例中，人脸解析模型可对输入的目标人脸图像中五官的位置进行标注，以得到标注有目标人脸图像中五官的位置的人脸解析图像。

基于上述S2210-1，本实施例提供的人脸图像的超分方法还包括获取人脸解析模型的步骤，在一个实施例中，该步骤包括：

获取第二训练样本集，第二训练样本集包括多组第二训练样本，一组第二训练样本包括人脸样本图像以及对应的人脸样本解析图。将人脸样本图像，作为图像分割模型的输入，将人脸样本解析图作为监督，对图像分割模型进行训练，得到人脸解析模型。

在一个实施例中，第二训练样本集可直接使用传统的Helen数据集。当然，第二训练样本集也可以通过人工进行标注的方式得到。另外，图像分割模型可以为Deeplab V3图像分割模型，当然也可以为其他的图像分割模型。

在本申请实施例中，第二训练样本中包括的人脸样本图像为低分辨率的人脸样本图像。对应的，第二训练样本中的人脸样本解析图也为一个低分辨率的人脸样本图像。

可以理解的是，任何能够对目标人脸图像中的五官图像的位置进行标注的模型，都可以为作为本实施例中的人脸解析模型。

S2210-2、按照标注的位置，从人脸解析图像中提取五官图像。

在本实施例中，按照标注的位置，从人脸解析图像中将五官图像分割出来。以人脸图像中的五官包括左眼睛、右眼睛、嘴、鼻子、左眉毛、右眉毛为例，基于上述S2210-2，最终得到目标人脸图像中的左眼睛图像、右眼睛图像、嘴图像、鼻子图像、左眉毛图像以及右眉毛图像。

S2211、将提取出的五官图像输入至与五官图像对应的五官分类模型中，得到五官图像中五官的类型。

在本实施例中，基于上述S2211可知，本实施例中还包括获取五官分类模型的步骤。

在一个示例中，以一个五官图像为鼻子图像为例，获取五官分类模型的步骤可以为：获取大量的训练样本，每一个训练样本中包括鼻子图像，以及鼻子的类型(人工进行标注)；将训练样本均输入至分类模型中，训练得到鼻子的分类模型。其中，训练样本中的鼻子图像可以为低分辨的鼻子的图像，而鼻子的类型可以为用户基于低分辨率鼻子图像对应的高分辨率鼻子图像进行标注的。

在一个示例中，鼻子的类型可以为：平实状、鹰钩状、朝天状、厚实状等。

S2212、从对应五官的模板图像库中选取与五官图像中五官的类型匹配的五官模板图像。

在本实施例中，对应五官的模板图像库中，存储有对应五官的各种类型的五官模板图像。其中，五官模板图像的分辨率大于预设分辨率，即五官模板图像为一个高分辨率的图像。

以及，上述S2212中，可以根据模板图像库中的图像与人脸解析图像中的五官图像的相似度程度定是否匹配，例如可以为将相似程度最高，或者相似程度大于预设相似程度的五官模板图像确定为匹配的五官模板图像。在此基础上，基于上述S2212得到的匹配的五官模板图像存在为多个的情况。在该情况下，可将多个中的任一个匹配的五官模板图像作为上述S2212中的匹配的五官模板图像。或者，还可将得到的每一五官模板图像确定为候选五官模板图像。然后将每一候选五官模板图像替换到目标人脸图像中，并对替换后的目标人脸图像进行美学评价。将评价最高的目标人脸图像所对应的候选五官模板图像作为上述S2212中匹配的五官模板图像。

需要说明的是，不同五官的五官模板图像可进行相互组合，以对目标人脸进行替换。

以一个五官图像为鼻子图像为例，模板图像库中存储有各种类型的鼻子模板图像，例如，高分辨率的平实鼻、高分辨率的鹰钩鼻、高分辨率的朝天鼻、高分辨率的厚实鼻等。

在本实施例中，从对应五官的模板图像库中选取出与五官图像中五官的类型匹配的五官模板图像，作为引导图像。可以理解的是，该引导图像可以为目标人脸图像中的对应五官提供细节信息。

在另一个实施例中，在引导图像包括与目标人脸图像中的五官所对应的五官模板图像的情况下，上述S2200的具体实现还可以为：提取目标人脸图像中的五官图像，将五官图像与对应五官的模板图像库中每一种类型的五官模板图像进行比对(例如五官的长宽比例、角点位置以及弧度等信息进行比对)，将最相近的五官模板图像作为上述S2212中的匹配的五官模板图像。

在一个实施例中，在引导图像包括标注有目标人脸图像中的五官的位置的人脸解析图像的情况下，上述S2200的具体实现包括如下S2220：

S2220、将目标人脸图像输入到基于深度学习神经网络的人脸解析模型中，得到人脸解析图像。

基于上述S2220可知，本实施例提供的人脸图像的超分方法还包括获取人脸解析模型的步骤，该步骤如下述S2221和S2222：

S2221、获取第二训练样本集，第二训练样本集包括多组第二训练样本，一组第二训练样本包括人脸样本图像以及对应的人脸样本解析图。

S2222、将人脸样本图像，作为图像分割模型的输入，将人脸样本解析图作为监督，对图像分割模型进行训练，得到人脸解析模型。

可以理解的是，任何能够对目标人脸图像中的五官的位置进行标注的模型，都可以为作为本实施例中的人脸解析模型。

在本实施例中，可以理解的是，该引导图像所包括的人脸解析图可以为目标人脸图像中的五官提供位置信息。

S2300、将目标人脸图像和引导图像输入至人脸超分模型中，得到与目标人脸图像对应的超分人脸图像。

其中，超分人脸图像的分辨率大于目标人脸图像的分辨率。

在本实施例中，人脸超分模型为训练好的，可根据接收到的低分辨率的目标人脸图像和引导图像，输出高分辨率人脸图像的模型。

基于上述S2300，本实施例提供的人脸超分方法还包括获取人脸超分模型的步骤。在本公开实施例中，通过如下两种方式实现上述的人脸超分模型。具体的，第一种方式为：下述步骤包括S2310和S2311：

S2310、获取第一训练样本集，第一训练样本集包括多组第一训练样本；一组第一训练样本包括超分人脸样本图像，以及对应的目标人脸样本图像和目标人脸样本图像的引导图像。

其中，超分人脸样本图像的分辨率大于目标人脸样本图像的分辨率。

在本实施例中，目标人脸样本图像是通过对超分人脸样本图像进行下采样，或者下采样并添加噪声(例如高斯噪声)的方式的到。以及，目标人脸样本图像的引导图像的获取方式，与基于上述S2200中获取目标人脸图像的引导图像的方式相同，在此不再赘述。

S2311、将目标人脸样本图像和目标人脸样本图像的引导图像作为图像超分网络的输入，将超分人脸样本图像作为监督，对图像超分网络进行训练，得到人脸超分模型。

在本实施例中，在进行训练的过程中，重复将目标人脸样本图像和目标人脸样本图像的引导图像作为图像超分网络的输入，将超分人脸样本图像作为监督，对图像超分网络进行训练，直至重复预测次数。将重复预设次数后的图像超分网络作为人脸超分模型。

或者，在进行训练的过程中，重复将目标人脸样本图像和目标人脸样本图像的引导图像作为图像超分网络的输入，将超分人脸样本图像作为监督，对图像超分网络进行训练，直至图像超分网络的损失函数对应的损失值小于预设值。将损失函数对应的损失值小于预设值所对应的图像超分网络作为人脸超分模型。

在一个实施例中，图像超分网络基于SRResNet模型、EDSR模型、WDSR模型中的任一个实现。

在一个示例中，图像超分网络的结构可示例性的如图5、图6和图7所示。其中，图5为引导图像为人脸解析图像的情况下，图像超分网络的结构。图6为引导图像为人脸解析图像、与目标人脸图像中五官图像所对应的五官模板图像的情况下，图像超分网络的结构。图7为引导图像为与目标人脸图像中五官图像所对应的五官模板图像的情况下，图像超分网络的结构。

对于图5，图像超分网络中包括：第一卷积层(Conv1)、第一残差体(ResidualBlocks 1)、第二卷积层(Conv2)、第一像素上采样层(PixelShuffle 1)、第二像素上采样层(Pixel Shuffle 2)。可以理解的是，引导图像在输入至图像超分网络前需要进行特征提取(Extract features)。

对于图6，图像超分网络中包括：第三卷积层(Conv3)、第二残差体(ResidualBlocks 2)、第四卷积层(Conv4)、第三像素上采样层(PixelShuffle 3)、第四像素上采样层(Pixel Shuffle4)。可以理解的是，引导图像在输入至图像超分网络前需要进行特征提取(Extract features)。

对于图7，图像超分网络中包括：第五卷积层(Conv5)、第三残差体(ResidualBlocks3)、第六卷积层(Conv6)、第五像素上采样层(PixelShuffle 5)、第六像素上采样层(Pixel Shuffle 6)。可以理解的是，引导图像在输入至图像超分网络前需要进行特征提取(Extract features)。

另外，在一个实施例中，图像超分网络的损失函数为基于平均绝对误差的损失函数，即基于MAE(Mean Absolute Error)的损失函数。在此基础上,其中，f(x_i)为人脸超分模型输出的超分人脸图像中第i个像素的像素值，y_i为对应超分人脸样本图像中第i个像素的像素值。i为对应超分人脸样本图像中的第i个像素，m为高分辨率人脸样本图像中的像素总数。

在一个实施例中，图像超分网络的损失函数还可以为内容损失函数。即Contentloss。该内容损失函数是利用表征人脸超分模型输出的超分人脸图像的特征，与第一训练样本集中对应超分脸样本图像的特征的相似性来表示的。

在一个实施例中，图像超分网络的损失函数基于平均绝对误差的损失函数与均方根误差的损失函数的组合实现，以使得图像超分网络的损失函数可反映出超分人脸样本图像与由图像超分网络输出的超分人脸图像之间的差异，或者以使得图像超分网络的损失函数可反映出超分人脸样本图像的特征图，与由图像超分网络输出的超分人脸图像的特征图之间的差异。

其中，基于平均绝对误差的损失函数通常被称之为L1范数损失函数。基于均方根误差的损失函数通常被称之为L2范数损失函数。以及，图像超分网络的损失函数基于平均绝对误差的损失函数与均方根误差的损失函数的组合的具体形式可以为：以加权平均的方式组合平均绝对误差的损失函数与均方根误差的损失函数。

第二种方式为，通过生成式对抗网络(Generative Adversarial Networks，GAN)的方式实现上述的人脸超分模型。生成式对抗网络包括生成生成器和判别器。生成器用于生成接近真实图像的图像，即生成接近于对应于目标人脸图像的超分人脸图像。判别器用于对输入至判别器中的图像进行真实性判别，即用于对生成器生成的对应超分人脸图像进行真实性判别。训练生成式对抗网络的过程即为生成器和判别器进行对抗学习的过程，最终的目标是建立可生成与真实图像无法区分的图像的生成器。

生成式对抗网络的训练过程可以为：准备多组样本图像对，每组样本图像对分别包括一张目标人脸样本图像、对应的引导图像和超分人脸样本图像。目标人脸样本图像、对应的引导图像和超分人脸样本图像之间是配对关系。将目标人脸样本图像作为源域，引导图像作为先验信息，超分人脸样本作为目标域，对GAN网络进行训练。

在图像处理技术领域，与真实图像相反的，将机器生成图像和合成图像称之为“伪造图像”。本公开实施例中，目标人脸样本图像和超分人脸样本图像为真实图像，生成器根据目标人脸样本图像生成的超分人脸图像为伪造图像。如果用“1”代表真实图像，用“0”代表伪造图像，则超分人脸样本图像对应的标签为1，生成器生成的伪造超分人脸图像对应的标签为0。

生成器与判别器进行对抗学习：将目标人脸样本图像、对应的引导图像输入到生成器中，由生成器根据目标人脸样本图像、对应的引导图像生成伪造超分人脸图像，并确定生成器的损失。生成器的损失包括重建损失和生成损失。重建损失表征生成器生成的伪造超分人脸图像与目标域对应的超分人脸样本的差异程度。生成损失表征生成器生成的伪造超分人脸图像的逼真程度。

对应于判别器的判别，判别器将生成器生成的伪造超分人脸识别为真实图像的概率越高，则生成损失越低。判别器可以对输入至判别器中的图像进行真实性判别，即给输入的图像的真实程度进行打分。判别器相当于一个二分类网络，其损失函数可以为交叉熵损失函数或其他二分类网络的损失函数。随机向判别器输入超分人脸样本图像或生成器生成的伪造超分人脸图像以及对应的标签，使用标签作为监督对判别器进行训练。

观测生成器和判别器的损失，在生成器和判别器的损失均收敛的情况下，停止训练，将训练好的生成器摘出来作为人脸超分模型。

在上述基础上，本实施例提供的人脸图像的超分方法还包括如下步骤：

获取验证样本集；利用验证样本集验证上述人脸超分模型。

其中，验证样本集中包括目标人脸样本图像、对应的引导图像、以及对应的超分人脸样本图像。需要说明的是，验证样本集中每一目标人脸样本图像，不同于训练样本集中每一目标人脸样本图像。

在一个实施例中，验证样本集中的验证样本的数量，与训练样本集中的训练样本的数量之间的比值可设置为：2:17。

在本实施例中，通过将验证样本集中的目标人脸样本图像和目标人脸样本图像的引导图像作为人脸超分模型的输入，由人脸超分模型输出预测的超分人脸图像。利用预测出的超分人脸图像，与对应的超分人脸样本图像，可评估出人脸超分模型的优劣。进一步的，可根据评估结果确定是否调整人脸超分模型的网络参数和/或超参数。

在上述实施例的基础上，本实施例提供的人脸图像的超分方法还包括如下步骤：

获取测试样本集；利用测试样本集测试上述的人脸超分模型。

其中，测试样本集中包括目标人脸样本图像、对应的引导图像。需要说明的是，测试样本集中每一目标人脸样本图像，不同于训练样本集和验证样本集中每一目标人脸样本图像。

在一个实施例中，测试样本集中的测试样本的数量，与训练样本集中的训练样本的数量之间的比值可设置为：1:17。

在本实施例中，通过将测试样本集中的目标人脸样本图像和目标人脸样本图像的引导图像作为人脸超分模型的输入，由人脸超分模型输出预测的超分人脸图像。利用预测出的超分人脸图像，与对应的超分人脸样本图像，确定人脸超分模型的预测水平。

<例子>

基于上述内容，本实施例提供的一种人脸图像的超分方法还可如图8所示，包括如下步骤：

获取目标人脸图像。

利用标注有人脸图像中五官的位置的图像集，训练图像分割模型，得到人脸解析模型。

将目标人脸图像输入到基于深度学习神经网络的人脸解析模型中，得到标注有目标人脸图像中的五官图像的位置人脸解析图像。

按照标注的位置，从人脸解析图像中提取五官图像。

将提取出的五官图像输入到与五官图像对应的五官分类模型中，得到五官图像中五官的类型。

从对应五官的模板图像库选取出与五官图像中五官的类型匹配的五官模板图像；五官模板图像的分辨率大于预设高分辨。

将目标人脸图像、人脸解析图像和五官模板图像输入至人脸超分模型中，得到与目标人脸图像对应的超分人脸图像。

<装置实施例>

如图9所示，本实施例提供一种人脸图像的超分装置90。该装置90包括：第一获取模块91、第二获取模块92以及确定模块93。其中：

第一获取模块91，用于获取目标人脸图像；

第二获取模块92，用于获取所述目标人脸图像的引导图像，其中，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像，和/或与所述目标人脸图像中的五官图像所对应的五官模板图像；

确定模块93，用于将所述目标人脸图像和所述引导图像输入至人脸超分模型中，得到与所述目标人脸图像对应的超分人脸图像，其中，所述超分人脸图像的分辨率大于所述目标人脸图像的分辨率。

在一个实施例中，所述引导图像包括与所述目标人脸图像中的五官图像所对应的五官模板图像；第二获取模块92，包括：

提取单元，用于从所述目标人脸图像中提取五官图像；

在一个实施例中，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像；第二获取模块92，具体用于：

在一个实施例中，所述装置90还包括第三获取模块，第三获取模块用于：

在一个实施例中，所述图像超分网络基于SRResNet模型、EDSR模型、WDSR模型中的任一个实现，以及所述图像超分网络的损失函数基于平均绝对误差的损失函数与均方根误差的损失函数的组合实现。

在一个实施例中，所述提取单元具体用于：

在一个实施例中，所述装置90还包括第四获取模块，第四获取模块用于：

<设备实施例>

本实施例提供一种电子设备100，该电子设备100包括如上述装置实施例中任一项提供的人脸图像的超分装置90。

或者，如图10所示，包括存储器101和处理器102，所述存储器101用于存储计算机指令，所述处理器102用于从所述存储器101中调用所述计算机指令，以执行如上述方法实施例中任一项所述的方法。

在本实施例中，电子设备100可以是手机、便携式电脑、平板电脑、掌上电脑等等电子设备。

在一个实施例中，该电子设备100例如可以是图1中的电子设备1100。

<存储介质实施例>

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据上述方法实施例中任一项所述的方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。

Claims

1.一种人脸图像的超分方法，其特征在于，所述方法包括：

获取目标人脸图像；

将所述目标人脸图像和所述引导图像输入至人脸超分模型中，得到与所述目标人脸图像对应的超分人脸图像，其中，所述超分人脸图像的分辨率大于所述目标人脸图像的分辨率，

其中，所述引导图像包括与所述目标人脸图像中的五官图像所对应的五官模板图像；所述获取所述目标人脸图像的引导图像，包括：

从所述目标人脸图像中提取五官图像；

从对应五官的模板图像库选取出与所述五官图像中五官的类型匹配的五官模板图像；所述五官模板图像的分辨率大于预设分辨率，

其中，所述从所述目标人脸图像中提取五官图像，包括：

按照标注的位置，从所述人脸解析图像中提取所述五官图像，

其中，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像；所述获取所述目标人脸图像的引导图像，包括：

2.根据权利要求1所述的方法，所述方法还包括获取所述人脸超分模型的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述图像超分网络基于SRResNet模型、EDSR模型、WDSR模型中的任一个实现，以及所述图像超分网络的损失函数基于平均绝对误差的损失函数与均方根误差的损失函数的组合实现。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括获取人脸解析模型的步骤，包括：

5.一种人脸图像的超分装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标人脸图像；

确定模块，用于将所述目标人脸图像和所述引导图像输入至人脸超分模型中，得到与所述目标人脸图像对应的超分人脸图像，其中，所述超分人脸图像的分辨率大于所述目标人脸图像的分辨率，

其中，所述引导图像包括与所述目标人脸图像中的五官图像所对应的五官模板图像；所述第二获取模块包括：

提取单元，用于从所述目标人脸图像中提取五官图像；

选取单元，用于从对应五官的模板图像库选取出与所述五官图像中五官的类型匹配的五官模板图像；所述五官模板图像的分辨率大于预设分辨率，

其中，所述提取单元具体用于：

其中，所述引导图像包括标注有所述目标人脸图像中的五官图像的位置的人脸解析图像；所述第二获取模块具体用于：

6.一种电子设备，其特征在于，所述电子设备包括如权利要求5所述的装置；或者，

包括存储器和处理器，所述存储器用于存储计算机指令，所述处理器用于从所述存储器中调用所述计算机指令，以执行如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法。