CN116091315A

CN116091315A - 一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法

Info

Publication number: CN116091315A
Application number: CN202310011155.4A
Authority: CN
Inventors: 廖频; 陈子扬; 臧露奇; 韩翔宇; 张震; 刘广传
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-09

Abstract

本发明提出了一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其主要包括：提出一种轻量高效的人脸超分辨率网络，网络主要包含残差聚合模块和三个上采样模块；采用渐进训练的方式使模型在一次迭代训练中分三阶段开展，训练收敛的模型可以对低分辨率人脸图像进行二倍、四倍和八倍的超分辨率图像重建；使用人脸语义分割网络获取人脸先验信息，提出在模型训练中加入人脸分割损失，协助网络生成更加逼真的人脸结构。本发明基于RFDN网络进行改进，适用于超低分辨率的人脸图像输入，并可以输出三种不同放大倍数的高分辨率重建图像，解决了传统模型的一些缺陷。

Description

一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法

技术领域

本发明涉及人脸图像重建技术领域，尤其涉及到一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法。

背景技术

图像超分辨率是指将低分辨率的图像或图像序列恢复成高分辨率图像。人脸图像超分辨率，又被称为人脸幻象重建，是属于图像超分研究领域的一个分支，其旨在通过将低分辨率人脸图像重建为高清人脸图像。当今，有如下几个工业应用需要用到大量高分辨率的人脸信息：第一，在人脸识别、人脸解析、人脸对齐等计算机视觉任务中常常需要从输入图像中获取丰富的语义信息。这些模型算法可以从高清的人脸中提取到更多的图像特征从而提高算法的精度；第二，在公安系统中，警察经常需要通过摄像头来获取犯罪嫌疑人的容貌信息，但是由于硬件设备以及拍摄环境等条件限制，从摄像头捕捉下来的图像常常是低分辨率的，从模糊图像中获取信息无疑是非常困难的，警方需要高清的人脸图像锁定嫌疑人身份。

图像插值法是一种简单而快速的人脸超分算法，该方法虽然已被广泛应用于生活中各个场景，但是其对极低分辨率(例如16×16像素)图像进行高倍数放大时的效果不佳。基于深度学习的人脸超分算法利用卷积神经网络的优质特性可以取得良好的超分效果。但是现有的基于深度学习的人脸超分算法存在以下几点问题：第一，许多模型为了提升算法性能会在网络结构中堆叠更多的卷积块或添加更多复杂的子结构，这样做势必会增加模型的计算复杂度。参数量庞大的模型会受限于计算资源而难以训练，同时也难以在一些轻量级的移动设备上部署应用；第二，一个人脸超分模型通常只能针对一个特定的倍数进行放大，面对多种放大倍数的需求时，只能耗费额外资源去训练新的模型；第三，当前许多人脸超分模型在训练时会使用到大量人工标注的人脸先验信息，标注数据给相关工作者带来了更多的工作量。

发明内容

针对现有技术存在的问题，本发明提出了一种轻量高效的人脸超分辨率重建方法，基于RFDN(Residual Feature Distillation Network)网络进行改进，引入人脸语义分割模型协助网络获取人脸先验信息，采用渐进训练的方式使模型在一次迭代训练中分三阶段开展，提出在模型训练中加入人脸分割损失以产生更加逼真的人脸。本发明涉及的人脸超分辨率重建方法适用于超低分辨率(例如16×16像素)的人脸图像输入，并可以输出三种不同放大倍数的高分辨率重建图像。

为了实现上述发明目的，本发明采用的技术方案是：一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，包括以下步骤：

S1：准备训练数据，具体包括低分辨率人脸图像I_LR16(16×16像素)，高分辨率人脸图像I_HR32(32×32像素)、I_HR64(64×64像素)、I_HR128(128×128像素)。

S2：提出轻量级人脸超分辨率网络LFSRNet，LFSRNet网络由残差聚合模块RAB(Residual Aggregation Block)和三个上采样块组成：

1)残差聚合模块RAB用于获取低分辨率图像的图像特征，RAB模块是由4个残差特征蒸馏块RFDB(Residual Feature Distillation Block)通过残差聚合的形式构成，这样的结构可以大大提升网络提取特征的能力。

其中，残差聚合的形式为：前后相连的RFDB进行残差学习，将第一个RFDB输出的特征F1、第二个RFDB输出的特征F2、第三个RFDB输出的特征F3，第四个RFDB输出的特征F4进行堆叠，将堆叠后的特征经过一个卷积进行特征融合并输出。

2)三个上采样块主要由卷积和亚像素卷积构成，每个上采样块可以进行两倍的图像放大，并输出重建图像。

其中，第一个上采样块依次由卷积、LeakyReLU、PixShuffle(2倍放大)、卷积组成；第二个上采样块依次由卷积、卷积、LeakyReLU、PixShuffle(2倍放大)、卷积组成；第三个上采样块依次由卷积、卷积、LeakyReLU、PixShuffle(2倍放大)、卷积组成。

S3：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB模块和第一个上采样块，前向推理得到两倍放大的超分辨率图像I_SR32。

S4：根据以下损失函数，对网络进行反向传播，完成第一阶段网络参数的更新和优化。

其中N表示模型训练中一个批次中的数据量。

S5：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB模块、第一个上采样块以及第二个上采样块，前向推理得到四倍放大的超分辨率图像I_SR64。

S6：根据以下损失函数，对网络进行反向传播，完成第二阶段网络参数的更新和优化。

其中N表示模型训练中一个批次中的数据量。

S7：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB模块、第一个上采样块、第二个上采样块以及第三个上采样块，前向推理得到八倍放大的超分辨率图像I_SR128。

S8：将S1中的I_HR128送入一个人脸语义分割网络中，得到高分辨率人脸语义分割预测图PSeg_HR128，将PSeg_HR128进行数据处理得到高分辨率人脸语义分割图Seg_HR128。

其中，该人脸语义分割网络是经过预训练的，并可以对人脸图像中的左眼、右眼、鼻子、嘴唇等多个部位进行人脸语义分割。

其中，人脸语义分割预测图PSeg_HR128的形状大小为(128×128×C)，C代表人脸语义分割网络可以分割的种类数，PSeg_HR128中每个像素值代表该位置上每个种类的预测置信度。

进一步地，将PSeg_HR128中每个像素里置信度最高的类作为最终分割结果，生成高分辨率人脸语义分割图Seg_HR128，Seg_HR128是像素大小为(128×128)的灰度图像。

S9：将S7中的I_SR128送入S8中的人脸语义分割网络中，得到超分辨率人脸语义分割预测图PSeg_SR128。

其中PSeg_SR128的形状大小为(128×128×C)，C代表人脸语义分割网络可以分割的种类数。

S10：根据以下损失函数，对网络进行反向传播，完成第三阶段网络参数的更新和优化。

其中N表示模型训练中一个批次中的数据量，C表示人脸语义分割网络可以分割的种类数，α和β分别表示两种损失的权重。

其中，该阶段使用人脸语义分割网络获取人脸先验信息，将Seg_HR128与PSeg_SR128的交叉熵损失纳入总损失函数来更新网络参数，协助网络生成更加逼真的人脸结构。

进一步地，人脸语义分割网络对输入图像的分辨率大小要求较高，在一次迭代训练中最后一阶段生成的超分辨率图像像素大小为(128×128)，具有较多的语义信息，可以满足人脸语义分割网络的输入需要。

S11：循环迭代S3至S10，将模型训练至收敛。

其中，使用ADAM梯度下降优化算法对模型进行训练，初始学习率为0.001，使用线性步长学习率调整策略调整学习率，训练若干Epochs至模型收敛。

进一步地，训练收敛的模型可以对低分辨率(16×16像素)人脸图像进行二倍、四倍和八倍的超分辨率图像重建。

本发明的有益效果是：

1、本发明中的网络模型具备轻量、高效的特点，一个模型可以实现三种不同倍数的人脸超分辨率重建。

2、本发明适用于极低分辨率(例如16×16像素)的人脸图像输入，并可以产生质量良好的重建图像。

3、本发明使用人脸语义分割网络模型获取人脸先验信息，提出一种人脸分割损失，帮助模型重建更加逼真的人脸面部结构。

附图说明

图1为本发明方法中SRB(Shallow Residual Block)模块的结构图；

图2为本发明方法中RFDB(Residual Feature Distillation Block)模块的结构图；

图3为本发明方法中RAB(Residual Aggregation Block)模块的结构图；

图4为本发明方法中轻量级人脸超分辨率网络LFSRNet的结构图；

图5为本实施例中人脸语义分割网络的分割效果图；

图6为本实施例中轻量人脸超分辨率网络LFSRNet与RFDN生成的8倍超分辨率人脸图像对比图；

图7为本实施例中加入人脸分割损失和不加入人脸分割损失生成的超分辨率人脸图像对比图。

具体实施方式

下面将结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要注意的是本发明的实施方式不限于此。

如图1至图7所示，本实施例所提供的一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，包括以下步骤：

S1：准备训练数据。img_align_celeba数据集包含有202559张对齐的人脸图像，首先对该数据集采用中心裁剪的方法将其中每张图像裁剪为(128×128×3)像素大小，作为I_HR128。

进一步地，按照8：1：1的比例将数据集随机划分为训练集、验证集和测试集，其中训练集有162559张图像，验证集有20000张图像，测试集有20000张图像。

进一步地，将训练集、验证集、测试集中的I_HR128采用双三次插值法下采样至(64×64×3)像素作为I_HR64，将I_HR64采用双三次插值法下采样至(32×32×3)像素作为I_HR32，将I_HR32采用双三次插值法下采样至(16×16×3)像素作为I_LR16。

其中，将训练集中图片随机进行水平翻转输入网络进行训练。

S2：提出轻量级人脸超分辨率网络LFSRNet,LFSRNet网络由残差聚合模块RAB(Residual Aggregation Block)和三个上采样块组成，如图4所示，本发明中LFSRNet网络是基于RFDN(Residual Feature Distillation Network)网络进行改进：

1)RFDN提出的浅层残差块SRB(Shallow Residual Block)如图1所示，该模块不需添加额外的参数量便可进行残差学习，SRB中卷积的卷积核为3×3，滤波器数量为64，步长为1。

2)RFDN提出的残差特征蒸馏模块RFDB(Residual Feature Distillation Block)由SRB搭建而成，本发明方法去除了原始RFDB中的注意力机制模块，如图2所示：

进一步地，首先将特征图并行输入一个卷积块(卷积核为1×1，滤波器数量为32，步长为1)和一个SRB，生成D1和R1；

进一步地，再将R1并行输入一个卷积块(卷积核为1×1，滤波器数量为32，步长为1)和一个SRB，生成D2和R2；

进一步地，再将R2并行输入一个卷积块(卷积核为1×1，滤波器数量为32，步长为1)和一个SRB，生成D3和R3；

进一步地，再将R3输入一个卷积块(卷积核为3×3，滤波器数量为32，步长为1),生成D4；

进一步地，堆叠D1、D2、D3、D4，将堆叠后的特征图经过一个卷积块(卷积核为1×1，滤波器数量为64，步长为1)输出。

3)本发明方法改进了RFDN的网络，提出了一个残差聚合模块RAB，RAB模块是由4个RFDB块通过残差聚合的形式构成，这样的结构可以大大提升网络提取特征的能力，如图3所示：前后相连的RFDB进行残差学习，将第一个RFDB输出的特征F1、第二个RFDB输出的特征F2、第三个RFDB输出的特征F3，第四个RFDB输出的特征F4进行堆叠，将堆叠后的特征图经过一个卷积块(卷积核为1×1，滤波器数量为64，步长为1)进行特征融合并输出。

4)三个上采样块主要由卷积和亚像素卷积构成，每个上采样块可以进行两倍的图像放大，并输出重建图像，如图4所示：

进一步地，第一个上采样块依次由卷积(卷积核为3×3，滤波器数量为256，步长为1)、LeakyReLU、PixShuffle(2倍放大)、卷积(卷积核为1×1，滤波器数量为3，步长为1)组成；

进一步地，第二个上采样块依次由卷积(卷积核为3×3，滤波器数量为32，步长为1)、卷积(卷积核为3×3，滤波器数量为128，步长为1)、LeakyReLU、PixShuffle(2倍放大)、卷积(卷积核为1×1，滤波器数量为3，步长为1)组成。

进一步地，第三个上采样块依次由卷积(卷积核为3×3，滤波器数量为16，步长为1)、卷积(卷积核为3×3，滤波器数量为64，步长为1)、LeakyReLU、PixShuffle(2倍放大)、卷积(卷积核为1×1，滤波器数量为3，步长为1)组成。

S3：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB和第一个上采样块，前向推理得到两倍放大的超分辨率图像I_SR32。

其中N表示模型训练中一个批次中的数据量，本实施例中N等于256。

S5：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB、第一个上采样块以及第二个上采样块，前向推理得到四倍放大的超分辨率图像I_SR64。

S7：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB、第一个上采样块、第二个上采样块以及第三个上采样块，前向推理得到八倍放大的超分辨率图像I_SR128。

其中，本实施例的人脸语义分割网络选用BiSeNet，BiSeNet可以对人脸图像中的左眼、右眼、嘴唇、背景等19个类别进行语义分割，分割效果如图5所示。

其中，人脸语义分割预测图PSeg_HR128的形状大小为(128×128×C)，C代表人脸语义分割网络可以分割的种类数，本实施例中C等于19，PSeg_HR128中每个像素值代表该位置上每个种类的预测置信度。

S9：将S7中的I_SR128送入S8中的BiSeNet网络中，得到超分辨率人脸语义分割预测图PSeg_SR128。其中PSeg_SR128的形状大小为(128×128×C)，C代表人脸语义分割网络可以分割的种类数，本实施例中C等于19。

S10：根据以下损失函数，对网络进行反向传播，完成最后一阶段的网络参数的更新和优化。

其中N表示模型训练中一个批次中的数据量，C表示人脸语义分割网络可以分割的种类数，α和β分别表示两种损失的权重。本实施例中N等于256，C等于19，α等于1，β等于1。

进一步地，该阶段使用人脸语义分割网络获取人脸先验信息，将Seg_HR128与PSeg_SR128的交叉熵损失作为人脸分割损失纳入总损失函数来更新网络参数，协助网络生成更加逼真的人脸结构。

进一步地，人脸语义分割网络对输入图像的分辨率大小较高，在最后一阶段生成的超分辨率图像像素大小为(128×128)，具有较多的语义信息,可以满足人脸语义分割网络的输入需要。

S11：循环迭代S3至S10，将模型训练至收敛。

其中，使用ADAM梯度下降优化算法作为模型训练的优化器，初始学习率为0.001，使用线性步长学习率调整策略调整学习率，每训练一个Epoch后学习率调整为上个周期的0.99，批量大小为256，将模型训练300Epochs。

进一步地，使用客观评价指标对比本发明方法和RFDN网络在S1中测试集的表现，将S1中测试集的I_LR16分别输入LFSRNet和RFDN进行4倍和8倍的超分辨率图像重建，使用峰值性噪比PSNR和结构相似度SSIM作为客观评价指标，表1为两种方法在4倍超分上的性能比较，表2为两种方法在8倍超分上的性能比较，两张表的结果表明本发明方法有更好的超分性能。

表1

	PSNR	SSIM
			RFDN	25.349	0.800
LFSRNet	27.614	0.870

表2

	PSNR	SSIM
			RFDN	23.794	0.676
LFSRNet	25.911	0.749

进一步地，使用人眼感官质量对比本发明方法和RFDN在S1中测试集的表现，将S1中测试集的I_LR16分别输入LFSRNet和RFDN进行8倍的超分辨率图像重建，图6展示了本发明方法与RFDN在测试集中所生成的8倍人脸超分辨率重建图像对比效果，可以看到本发明方法重建的图像更加高清。

进一步地，本发明方法验证了在模型训练中加入人脸分割损失带来的增益，使用S1中的测试集来测试加入人脸分割损失训练的模型效果，如图7所示：加入人脸分割损失后，模型对于人脸图像中眼睛、嘴唇、牙齿等面部结构的恢复效果更好。这证实了人脸分割损失能帮助网络重建更加逼真的人脸面部结构。

进一步地，本发明方法验证了采用渐进训练方法为模型带来的增益，使用S1中的测试集来测试使用渐进训练的模型的超分效果，采用峰值性噪比PSNR和结构相似度SSIM作为客观评价指标，表3为针对模型是否使用渐进训练方式在4倍超分上的性能比较，表4为针对模型是否使用渐进训练方式在8倍超分上的性能比较，两张表的结果表明本发明方法有良好的泛化能力，渐进训练能够提升超分性能。

表3

	PSNR	SSIM
			不使用渐进训练	27.598	0.870
使用渐进训练	27.614	0.870

表4

	PSNR	SSIM
			不使用渐进训练	25.833	0.749
使用渐进训练	25.911	0.749

上述实施例为本发明较为理想的实施方式，但是本发明方法不限于具体实施的范围，其他未背离本发明原理和实质下所做的改变、替代、组合等均应为等效的置换方式，应包含在本发明的保护范围之内。

Claims

1.一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其特征在于，包括以下步骤：

S1：准备训练数据，包括低分辨率人脸图像16×16像素I_LR16，高分辨率人脸图像32×32像素I_HR32、64×64像素I_HR64、128×128像素I_HR128；

S2：提出轻量级人脸超分辨率网络LFSRNet，LFSRNet网络由残差聚合模块RAB和三个上采样块组成，其中，三个上采样块主要由卷积和亚像素卷积构成，每个上采样块可以进行两倍的图像放大，并输出重建图像；

S3：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB模块和第一个上采样块，前向推理得到两倍放大的超分辨率图像I_SR32；

S4：根据以下损失函数，对网络进行反向传播，完成第一阶段网络参数的更新和优化；

其中N表示模型训练中一个批次中的数据量；

S5：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB模块、第一个上采样块以及第二个上采样块，前向推理得到四倍放大的超分辨率图像I_SR64；

S6：根据以下损失函数，对网络进行反向传播，完成第二阶段网络参数的更新和优化；

S7：将S1中的I_LR16送入S2中的LFSRNet网络，分别经过RAB模块、第一个上采样块、第二个上采样块以及第三个上采样块，前向推理得到八倍放大的超分辨率图像I_SR128；

S8：将S1中的I_HR128送入一个人脸语义分割网络中，得到高分辨率人脸语义分割预测图PSeg_HR128，将PSeg_HR128进行数据处理得到高分辨率人脸语义分割图Seg_HR128；

S9：将S7中的I_SR128送入S8中的人脸语义分割网络中，得到超分辨率人脸语义分割预测图PSeg_SR128；

S10：根据以下损失函数，对网络进行反向传播，完成第三阶段网络参数的更新和优化；

其中C表示人脸语义分割网络可以分割的种类数，α和β分别表示两种损失的权重；

S11：循环迭代S3至S10，将模型训练至收敛。

2.根据权利要求1所述的一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其特征在于，所述步骤S2中的人脸超分辨率网络LFSRNet是基于RFDN进行改进的，LFSRNet网络模型是一种轻量化模型，适用于超低分辨率的人脸图像输入，并可以输出三种不同放大倍数的高分辨率重建图像，包括残差聚合模块RAB和三个上采样块。

3.根据权利要求2所述的一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其特征在于，所述残差聚合模块RAB，由4个连续的残差特征蒸馏模块RFDB通过残差聚合的形式搭建而成：前后相连的RFDB进行残差学习，将4个RFDB的输出特征进行堆叠，最后将堆叠后的特征经过一个卷积进行特征融合并输出。

4.根据权利要求2所述的一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其特征在于，每个上采样块主要由卷积和亚像素卷积构成，每个上采样块可以进行两倍的图像放大，并输出重建图像，包括：

1)第一个上采样块依次由卷积、LeakyReLU、PixShuffle(2倍放大)、卷积组成；

2)第二个上采样块依次由卷积、卷积、LeakyReLU、PixShuffle(2倍放大)、卷积组成；

3)第三个上采样块依次由卷积、卷积、LeakyReLU、PixShuffle(2倍放大)、卷积组成。

5.根据权利要求1所述的一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其特征在于，所述步骤S3至S10为一种针对人脸超分辨率网络的渐进训练方法，这种训练方法使模型在一次迭代训练中分三阶段开展，包括：

1)所述步骤S3至S4为一次迭代训练中的第一个阶段，该阶段针对模型进行两倍超分辨率任务的训练；

2)所述步骤S5至S6为一次迭代训练中的第二个阶段，该阶段针对模型进行四倍超分辨率任务的训练；

3)所述步骤S7至S10为一次迭代训练中的第三个阶段，该阶段针对模型进行八倍超分辨率任务的训练。

6.根据权利要求1所述的一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法，其特征在于，所述步骤S8至S10使用人脸语义分割网络模型获取人脸的先验信息，提出一种人脸分割损失，在一次迭代训练中的第三个阶段将人脸分割损失纳入总损失函数来更新网络参数，协助网络生成更加逼真的人脸结构。