CN113628109B

CN113628109B - 基于可学习字典的人脸五官超分辨率方法和系统、介质

Info

Publication number: CN113628109B
Application number: CN202110804781.XA
Authority: CN
Inventors: 姜文波; 赵贵华; 张小云; 郭柏松; 张娅; 蔺飞; 袁旭稚; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-11-28
Anticipated expiration: 2041-07-16
Also published as: CN113628109A

Abstract

本发明公开了一种基于可学习字典的人脸五官超分辨率方法和系统、介质，所述方法包括：根据高清五官图片所对应的低清五官图片构建可学习的字典，字典词条对应高清五官图片中的低频部分；根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典，字典词条对应高清五官图片中的高频部分；根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码；使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片。所述系统包括与所述各步骤相对应的模块。本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强，达到良好的超分辨效果。

Description

基于可学习字典的人脸五官超分辨率方法和系统、介质

技术领域

本发明涉及一种计算机视觉和图像处理领域的方法，具体地，涉及一种基于可学习字典的人脸五官超分辨率方法和系统、介质。

背景技术

超分辨率是计算机视觉最基本的任务之一，针对人脸的定向超分辨技术是其中的一个分支，由于人眼对于画面中的人脸部位注意力更多，因此针对人脸的定向超分辨技术显得尤为重要。在过去的几年，基于深度神经网络的许多方法已经取得了巨大的成功。然而这些方法大多基于自己设定的退化条件产生的仿真数据，在实际应用中的效果并不好，造成这一点的原因主要来自于真实世界中低清五官图片退化方式的多样性与复杂性，基于仿真数据训练的超分辨率模型在真实低清五官图片上的表现并不好。

经检索，中国发明专利公开号为CN104036482A，申请号：201410323594.X该发明公开一种基于字典渐近更新的人脸图像超分辨率方法：在训练阶段，采用去一法对低分辨率人脸图像训练集的每张低分辨率人脸图像进行超分辨率重构，得到一层低分辨率中间字典；以此低分辨率中间字典作为新的低分辨率人脸图像训练集输入，重构得到新一层的低分辨率中间字典；重复上述过程，最终得到多层低分辨率中间字典。在测试阶段，根据输入的低分辨率人脸图像，上一层低分辨率中间字典和高分辨率人脸图像训练集，对输入低分辨率人脸图像进行超分辨率重构，得到预估高分辨率人脸图像；重复上述过程，最终重构出高分辨率人脸图像。

该专利使用传统的方法构建词典病进行人脸生成，存在对人脸重建问题建模不准的问题，同时还可能导致生成的高分辨率图片不清晰。

发明内容

针对现有技术中的缺陷，本发明特别考虑了人脸超分辨模型在真实数据中不鲁棒的问题，提供一种基于可学习字典的人脸五官超分辨率方法和系统、介质。

根据本发明的第一目的，提供一种基于可学习字典的人脸五官超分辨率方法，包括：

根据高清五官图片所对应的低清五官图片，使用深度学习构建可学习的低频字典，所述低频字典的字典词条对应高清五官图片中的低频部分；

根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典，所述高频字典的字典词条对应高清五官图片中的高频部分；

使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码；

使用输入低清五官图片的低频字典编码和回归出的高频字典编码生成其对应的高清五官图片。

可选地，所述使用深度学习构建可学习的低频字典，其中低频字典学习如下：

数据集中的高清五官图片表示为X_hr,经过下采样得到的低清五官图片为X_lr；

所述低清五官图片为X_lr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图f_lr的每一个像素位置的特征向量，在低频字典I_lr中寻找与其欧氏距离最近的词条并进行替换得到f′_lr；

将f′_lr经过解码卷积网络最终恢复出低清五官图片Y_lr。

可选地，所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典，其中，高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建，具体高频字典学习如下：

低清五官图片X_lr经过人工添加噪声后作为编码卷积网络的输入，对于卷积网络输出的特征图f_lr的每一个像素位置的特征向量，在低频字典I_lr中寻找与其欧氏距离最近的词条并进行替换得到f′_lr；

同时将X_hr作为编码卷积网络的输入,对于输出的特征图f_hr的每一个像素位置的特征向量，在高频字典I_hr中寻找与其欧氏距离最近的词条并进行替换得到f′_hr；

将f′_hr与f′_lr结合输入解码卷积网络恢复出高清五官图片Y_hr。

可选地，所述使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码，包括：

对于数据集中的高清五官图片，通过低频字典与高频字典分别获取低频字典编码C_lr∈N^h×w与高频字典编码C_hr∈N^H×W，其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽；

使用深度学习网络根据低频字典编码C_lr自回归得到C_hr，训练过程中使用交叉熵作为网络更新的损失函数。

可选地，所述使用输入低清五官图片的低频字典编码和S13回归出的高频字典编码生成其对应的高清五官图片，包括：

根据低分辨率五官图片X_lr输入，经过低频字典得到对应的字典编码C_lr，并通过自回归得到其对应的高频字典编码C_hr后，使用高频字典对应的解码器生成高清五官图片。

根据本发明的第二目的，提供一种基于可学习字典的人脸五官超分辨率系统，包括：

低频可学习字典构建模块：该模块根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的低频字典，所述低频字典的字典词条对应高清五官图片中的低频部分；

高频可学习字典构建模块：该模块根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典，所述高频字典的字典词条对应高清五官图片中的高频部分；

高频字典编码自回归模块：该模块使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码，其中，低频字典编码由构建的低频可学习字典获得，高频字典编码由构建的高频可学习字典获得；

高清五官图片生成模块：该模块使用输入低清五官图片的低频字典编码和所述高频字典编码自回归模块回归出的高频字典编码生成其对应的高清五官图片。

根据本发明的第三目的，提供一种人脸五官超分辨率装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的人脸五官超分辨率方法。

根据本发明的第四目的，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述的人脸五官超分辨率方法。

与现有技术相比，本发明实施例具有如下至少一种有益效果：

1、本发明提供了一个可学习字典的人脸五官超分辨率方法，通过高低频分离和对于字典的离散编码，实现对于人脸五官的定向增强。

2、本发明利用自回归的方法生成高清五官图片，相较于其他生成类模型训练更加问题。

3、本发明利用高低频分离和离散编码，在真实低清五官图片上取得了更好的效果，模型更加鲁棒。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中人脸五官超分辨率方法流程图；

图2为本发明一实施例中人脸五官超分辨率系统原理图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

该专利未引入深度学习模型而是使用传统的方法构建词典病进行人脸生成，从而对人脸重建问题建模不准。同时未采用自回归方法，导致生成的高分辨率图片不清晰。

如图1所示，为本发明一实施例中基于可学习字典的人脸五官超分辨率方法实施例的流程图。

具体的，参照图1，本实施例中基于可学习字典的人脸五官超分辨率方法，具有包括以下步骤：

S11,低频可学习字典构建步骤：根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的字典，字典词条对应高清五官图片中的低频部分，利用低频词典词条可较好的恢复出低清五官图片；

S12,高频可学习字典构建步骤：根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典，字典词条基本对应高清五官图片中的高频部分，利用高频词典词条及高频词典词条可以较好的恢复出高清五官图片；

S13,高频字典编码自回归步骤：使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码，基于一个自回归神经网络，逐像素的回归高频字典编码；

S14,高清五官图片生成步骤：使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片，包括根据字典编码获取对应字典词条，以及使用深度学习将输入的高频和低频词条生成高清五官图片。

本发明上述实施例使用高低频分离的方法，针对图片中的高低频部分，分别构建离散词典，通过将数据离散化来增强对于输入的鲁棒性，同时高频词典直接由高清五官图片构建而成，保证了输出的清晰度，从而保证了在真实低清五官图片上的超分辨效果。

为了能增强对于输入的鲁棒性，在本发明部分优选实施例中，低频可学习字典构建步骤中，低频字典使用数据集中高清五官图片所对应的低清五官图片所构建，构建过程中使用人工添加随机噪声和模糊的方法提升低频字典对于输入的鲁棒性，所加噪声包括高斯噪声、高斯模糊、椒盐噪声、随机下采样、图片压缩等。具体的，在一具体实施例中，使用深度学习构建可学习的低频字典，其中低频字典学习如下：

S101,数据集中的高清五官图片表示为X_hr,经过下采样得到的低清五官图片为X_lr；

S102,低清五官图片为X_lr经过人工添加噪声后作为编码卷积网络的输入,对于编码卷积网络输出的特征图f_lr的每一个像素位置的特征向量，在低频字典I_lr中寻找与其欧氏距离最近的词条并进行替换得到f′_lr；

S103,将f′_lr经过解码卷积网络最终恢复出低清五官图片Y_lr。

通过本发明上述优选实施例的低频字典学习，能使字典直接学习，可以增强对于输入的鲁棒性。

在本发明部分优选实施例中，低频可学习字典构建步骤，其中：编码卷积网络由若干层卷积和最大池化操作构成，提取图片的视觉特征；低频词典由若干可学习的向量构成；解码卷积网络由若干卷积层和上采样操作构成。

为了能增强对于输入的鲁棒性，在本发明部分优选实施例中，高频可学习字典构建步骤，高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建。在一具体实施例中，为了实现高低频分离，高频字典学习如下：

S201，数据集中的高清五官图片表示为X_hr,经过下采样得到的低清五官图片为X_lr；

S202，低清五官图片为X_lr经过人工添加噪声后作为编码卷积网络的输入，对于卷积网络输出的特征图f_lr的每一个像素位置的特征向量，在低频字典I_lr中寻找与其欧氏距离最近的词条并进行替换得到f′_lr；

S203，将f′_hr与f′_lr结合输入神经网络恢复出高清五官图片Y_hr。

通过本发明上述优选实施例的高频字典学习，可以很好地的实现高低频分离，为人脸重建问题建模准确性提供条件。

在本发明部分实施例中，高频可学习字典构建步骤，其中：编码卷积网络由若干层卷积和最大池化操作构成，提取图片的视觉特征；高频词典由若干可学习的向量构成；解码卷积网络由若干卷积层和上采样操作构成，具有两个输入，分别为图片高频部分和低频部分的经过所对应字典量化编码后的特征。

在本发明部分实施例中，高频字典编码自回归步骤，其中，根据低分辨率五官图片X_lr输入，经过低频字典得到对应的字典编码C_lr，并通过自回归得到其对应的高频字典编码C_hr后，使用高频字典对应的解码器生成高清五官图片，采用自回归的方法，可以使生成高清五官图片更加清晰，具有更多的细节，克服传统方法中生成的高分辨率图片不清晰的问题。

本发明上述实施例中，高频字典编码自回归步骤基于一个自回归神经网络，逐像素的回归高频字典编码。其中，

S301，对于数据集中的高清五官图片，通过低频字典与高频字典分别获取低频字典编码C_lr∈N^h×w与高频字典编码C_hr∈N^H×W，其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽；

S302，使用深度学习网络根据低频字典编码C_lr自回归得到C_hr，训练过程中使用交叉熵作为网络更新的损失函数。

进一步的：上述高频字典编码自回归步骤中，根据低频编码向高频编码的回归由condition-pixelCNN实现，内部结构为卷积网络，卷积核为带有掩码的卷积核，使得当前像素无法获取该像素以及该像素后面的像素信息，从而使用该像素之前的信息完成对该像素分布的拟合。

本发明上述实施例利用高低频分离和离散编码，在真实低清五官图片上取得了更好的效果，模型更加鲁棒。通过高低频分离和对于字典的离散编码，实现对于人脸五官的定向增强。

在本发明部分实施例中，高清五官图片生成步骤，其中：根据低分辨率五官图片X_lr输入，经过低频字典得到对应的字典编码C_lr，并通过自回归得到其对应的高频字典编码C_hr后，使用高频字典对应的解码器生成高清五官图片。该实施例中，使用的模型即为高频词典所对应的解码器，使用输入低清五官图片经过低频字典的编码以及自回归网络生成的高频字典编码作为输入，生成高清五官图片。本实施例利用自回归的方法生成高清五官图片，相较于其他生成类模型训练更加问题。

对应于上述方法，本发明还提供一种基于可学习字典的人脸五官超分辨率系统的实施例，如图2所示，包括：

低频可学习字典模块：根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的字典，字典词条对应高清五官图片中的低频部分，利用低频词典词条可较好的恢复出低清五官图片；

高频可学习字典模块：根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典，字典词条基本对应高清五官图片中的高频部分，利用高频词典词条及高频词典词条可以较好的恢复出高清五官图片；

高频字典编码自回归模块：使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码，基于一个自回归神经网络，逐像素的回归高频字典编码；

高清五官图片生成模块：使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片，包括根据字典编码获取对应字典词条，以及使用深度学习将输入的高频和低频词条生成高清五官图片。

为了实现低频可学习字典模块，将数据集中的高清五官图片表示为X_hr,经过下采样得到的低清五官图片为X_lr,经过人工添加噪声后σ(X_lr)作为编码卷积网络的输入,对于输出的特征图f_lr的每一个像素位置的特征向量，在低频字典I_lr中寻找与其欧氏距离最近的词条并进行替换得到f′_lr,将f′_lr经过解码卷积网络最终恢复出低清五官图片Y_lr。

此过程中的优化目标包括对于神经网络的优化以及对于词典的优化，对于神经网络的优化需要使用重参数技巧，优化目标为X_lr与Y_lr之间的欧氏距离，即

L_recons1＝‖Y_lr-X_lr‖，

Y_lr＝δ(f_lr+[f′_lr-f_lr])

其中，δ表示神经网络，[*]表示梯度截断操作。同时需要根据数据集对低频词典进行更新，词典词条的更新采取聚类的方式，具体更新方式为在神经网络的前向传播中，对于任一词条有

类似的，可以构建人脸五官图片的高频字典，构建高频字典时，需要高清五官图片对应的低频字典编码作为额外输入，此方法训练出的字典会将更多表达能力放在图片的高频部分，从而基本实现高低频分离。

具体而言，将数据集中的高清五官图片表示为X_hr,经过下采样得到的低清五官图片为X_lr,经过人工添加噪声后将σ(X_lr)作为编码卷积网络的输入,对于输出的特征图f_lr的每一个像素位置的特征向量，在低频字典I_lr中寻找与其欧氏距离最近的词条并进行替换得到f′_lr,同时将X_hr作为解码卷积网络的输入,对于输出的特征图f_hr的每一个像素位置的特征向量，在高频字典I_hr中寻找与其欧氏距离最近的词条并进行替换得到f′_hr,将f′_hr与f′_lr结合输入神经网络恢复出高清五官图片Y_hr。

此过程中的优化目标包括对于神经网络的优化以及对于词典的优化，对于神经网络的优化需要使用重参数技巧，优化目标为X_hr与Y_hr之间的欧氏距离，即

L_recons2＝‖Y_hr-X_hr‖，

Y_hr＝δ(f_hr+[f′_hr-f_hr])

其中，δ表示神经网络，[*]表示梯度截断操作。同时需要根据数据集对高频词典进行更新，词典词条的更新采取聚类的方式，具体更新方式为在神经网络的前向传播中，对于任一词条有

使用condition-pixelCNN实现高频字典编码自回归，需要低频字典编码作为输入，回归方向为左上角到右下角，condition-pixelCNN使用特殊的卷积核，当前像素位置后的信息会被置0防止模型作弊，从而完成对分布的建模。对于该网络的损失函数使用交叉熵损失。

本实施例上述的高清五官图片生成模块不需要额外训练，直接使用高频词典所对应的解码器，该解码器使用输入低清五官图片经过低频字典的编码以及自回归网络生成的高频字典编码作为输入，生成高清五官图片。

在本发明另一实施例中，还提供一种人脸五官超分辨率装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述实施例的人脸五官超分辨率方法。

在本发明另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述实施例的人脸五官超分辨率方法。

综上，本发明利用一个可学习的低频字典离散编码图片的低频部分，利用一个可学习的高频字典离散编码图片的高频部分，利用自回归模型完成从低频字典编码到高频字典编码的生成，利用高清五官图片生成模块进行最终低清五官图片对应的高清五官图片的生成，从而提升了模型针对真实数据的鲁棒性。

本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强，达到良好的超分辨效果。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于可学习字典的人脸五官超分辨率方法，其特征在于，包括：

使用输入低清五官图片的低频字典编码和回归出的高频字典编码生成其对应的高清五官图片；

所述使用深度学习构建可学习的低频字典，其中低频字典学习如下：

将f′_lr经过解码卷积网络最终恢复出低清五官图片Y_lr；

所述低频字典学习，其优化目标包括对于神经网络的优化以及对于词典的优化，其中：

对于神经网络的优化使用重参数技巧，优化目标为X_lr与Y_lr之间的欧氏距离L_recons1，即

L_recons1＝||Y_lr-X_lr||，

Y_lr＝δ(f_lr+[f′_lr-f_lr])

其中，δ表示神经网络，[*]表示梯度截断操作；

同时对于词典的优化，需要根据数据集对低频词典进行更新，词典词条的更新采取聚类的方式，具体更新方式为在神经网络的前向传播中，对于任一词条有

上式最右侧求和符号是对满足条件的所有i,j求和；

其中，表示更新后的词条，ε表示一个比较小的常量，用于增加收敛的稳定性，N表示所有满足/>的(i,j)的数量，/>表示替换前特征图中在(i,j)位置的特征，/>表示替换后特征图中在(i,j)位置的特征；

所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典，其中，高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建，具体高频字典学习如下：

将f′_hr与f′_lr结合输入解码卷积网络恢复出高清五官图片Y_hr；

所述高频字典学习，其优化目标包括对于神经网络的优化以及对于词典的优化，其中：

对于神经网络的优化使用重参数技巧，优化目标为X_hr与Y_hr之间的欧氏距离L_recons2，即

L_recons2＝||Y_hr-X_hr||，

Y_hr＝δ(f_hr+[f′_hr-f_hr])

其中，δ表示神经网络，[*]表示梯度截断操作；

同时对于词典的优化，需要根据数据集对高频词典进行更新，词典词条的更新采取聚类的方式，具体更新方式为在神经网络的前向传播中，对于任一词条有

其中：表示更新后的词条，ε表示一个比较小的常量，用于增加收敛的稳定性，M表示所有满足/>的(i,j)的数量，/>表示替换前特征图中在(i,j)位置的特征，表示替换后特征图中在(i,j)位置的特征。

2.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法，其特征在于，所述使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码，包括：

对于数据集中的高清五官图片，通过低频字典与高频字典分别获取低频字典编码C_lr∈N^h×w与高频字典编码C_hr∈M^H×W，其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽；

3.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法，其特征在于，所述使用输入低清五官图片的低频字典编码和S13回归出的高频字典编码生成其对应的高清五官图片，包括：

4.一种基于可学习字典的人脸五官超分辨率系统，其特征在于：包括：

高清五官图片生成模块：该模块使用输入低清五官图片的低频字典编码和所述高频字典编码自回归模块回归出的高频字典编码生成其对应的高清五官图片；

所述低频可学习字典构建模块，使用深度学习构建可学习的低频字典，其中低频字典学习如下：

将f′_lr经过解码卷积网络最终恢复出低清五官图片Y_lr；

L_recons1＝||Y_lr-X_lr||，

Y_lr＝δ(f_lr+[f′_lr-f_lr])

其中，δ表示神经网络，[*]表示梯度截断操作；

上式最右侧求和符号是对满足条件的所有i,j求和；

其中，表示更新后的词条，ε表示一个比较小的常量，用于增加收敛的稳定性，N表示所有满足/>的(i,j)的数量，/>表示替换前特征图中在(i,j)位置的特征，表示替换后特征图中在(i,j)位置的特征；

L_recons2＝||Y_hr-X_hr||，

Y_hr＝δ(f_hr+[f′_hr-f_hr])

其中，δ表示神经网络，[*]表示梯度截断操作；

5.一种人脸五官超分辨率装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-3任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-3任一项所述的方法。