CN116402719A

CN116402719A - 一种基于潜在扩散模型的人盲脸图像恢复系统及其方法

Info

Publication number: CN116402719A
Application number: CN202310382257.7A
Authority: CN
Inventors: 曾雨欢; 霍智勇; 杨晓蕾; 文僖越
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-07

Abstract

本发明公开了一种基于潜在扩散模型的人盲脸图像恢复系统及其方法，属于图像恢复技术领域；该方法包括以下步骤：接收传输进来的低质量人脸图像；利用SRCNN网络获取边缘分布，并将构造的边缘分布输入到预训练的潜在扩散模型中；SRCNN网络作为扩散估计器用于图像特征提取；使用预训练的潜在扩散模型生成潜在人脸图像；使用VAE解码器将潜在人脸图像恢复。本发明通过SRCNN网络融合潜在扩散模型，将低质量图像到预训练扩散模型的中间状态进行过渡分布，降低了预训练复杂度并且提高了数据集的多样性；通过使用预训练的U‑net网络和调度算法作为生成模型，在潜在空间上完成逆扩散过程，简化了训练过程和减少了训练时长，从而生成较为准确的高质量人脸图像。

Description

一种基于潜在扩散模型的人盲脸图像恢复系统及其方法

技术领域

本发明属于图像恢复技术领域，具体涉及一种基于潜在扩散模型的人盲脸图像恢复系统及其方法。

背景技术

盲脸恢复旨在从遭受未知退化(如低分辨率、噪声、模糊、压缩伪影等)的低质量图像中恢复高质量人脸。在基于对盲脸的恢复中，传统的方法通常在人脸恢复中利用特定于面部的先验，且包含的先验信息有限。随着深度学习的发展与深入，应用深度学习来对图像进行恢复已成为常态。深度学习是一个复杂的机器学习算法，在图像识别方面取得的效果，远远超过先前相关技术。其能够通过对数据的深层特征进行学习，从而获得数据中更有效的隐藏特征，利用这些特征能够更加高效地对数据进行处理，使得更加复杂的模型训练成为可能。

人盲脸恢复的一种解决方案是通过将图像特征嵌入到GAN网络中，来生成指定的高质量人脸图像。该模型包含一个生成器和一个判别器，在整个训练过程中，通过二者不断博弈来学习并优化生成器的输出图像。另一种解决方案是利用扩散模型对图像不断加噪和去噪来训练解编码器修复盲脸图像。但这些方法采样过程复杂且训练成本昂贵，在数据集的多样性上也有所欠缺。

发明内容

本发明的目的在于提供一种基于潜在扩散模型的人盲脸图像恢复系统及其方法，以解决上述背景技术中提出的问题。

本发明目的是这样实现的：一种基于潜在扩散模型的人盲脸图像恢复系统及其方法，其特征在于：所述人盲脸图像恢复系统包括用于作为扩散估计器的SRCNN网络、以及用于生成潜在人脸图像的潜在扩散模型、以及用于恢复潜在人脸图像的VAE解码器；

所述SRCNN网络作为扩散估计器用于图像特征提取。

优选的，所述SRCNN网络包括图像特征提取层、非线性映射层和网络重建层；所述图像特征提取层提取图像的边缘分布，非线性映射层将构造好的边缘分布映射到预训练的潜在扩散模型中，网络重建层将映射后的特征恢复为高质量图像。

优选的，所述潜在扩散模型包括U-net网络，U-net网络包括由ResNet块组成的编码器、由ResNet块组成的解码器和交叉注意力层；

所述编码器通过下采样将潜在图像表示压缩为低维表示，解码器通过上采样将低维表示的潜在图像进行恢复；

所述交叉注意力层在编码器和解码器的ResNet块之间，通过交叉注意力层提取图像边缘分布与Latents之间的相关性。

优选的，所述SRCNN网络通过FFHQ训练集进行训练，FFHQ训练集利用典型退化模型合成低质量图像对SRCNN网络进行训练；

所述典型退化模型的表达式如下：

其中，y为低质量图像(LQ)，x为高质量图像(HQ)，k_l为核宽为l的高斯核，n_σ为标准差为σ的高斯噪声，↓s和↑s是带尺度s的双三次采样算子，[·]JPEGq表示质量因子q的JPEG压缩过程。

一种基于潜在扩散模型的人盲脸图像恢复系统的方法，其特征在于：该方法包括以下步骤：

步骤S1:接收传输进来的低质量人脸图像；

步骤S2:利用SRCNN网络获取边缘分布，并将构造的边缘分布输入到预训练的潜在扩散模型中；

步骤S3:使用预训练的潜在扩散模型生成潜在人脸图像；

步骤S4:使用VAE解码器将潜在人脸图像恢复。

优选的，所述步骤S2中利用SRCNN网络获取边缘分布，具体操作如下：

先将低质量人脸图像通过双边插值将其上采样到所需大小，采样过的图像通过图像特征提取层的卷积运算提取图像的边缘特征块，将每一个特征表示一个高维向量；

所述SRCNN网络作为扩散估计器f(·；W)，构造x_N～p(x_N|y₀)近似x₀的扩散版本x_N的边缘分布；

其中，x₀为低质量人脸图像对应的高质量人脸图像；x_N为x₀的扩散版本。

优选的，所述步骤S2中通过SRCNN网络的非线性映射层将构造的边缘分布输入到预训练的潜在扩散模型中。

优选的，所述步骤S3中使用预训练的潜在扩散模型生成潜在人脸图像，潜在扩散模型为潜在空间中的正扩散过程和逆扩散过程，使用正向扩散过程将高斯噪声逐步添加到采样图像中，使用逆扩散过程逐步对噪声图像降噪；具体操作如下：

步骤S3-1：通过数据集对U-net网络进行训练，循环更新U-net网络，并利用U-net网络预测噪声，获得先前噪声结果；

步骤S3-2：计算预测噪声与真实噪声之间的交叉熵损失，通过交叉熵损失来更新U-net网络中的参数；

步骤S3-3：U-net网络输出预测的噪声残差，预测的噪声残差指预测的噪声样本与真实噪声样本之间的差异；所述预测的噪声样本用Latents表示，预测的噪声残差用conditioned Latents表示；

步骤S3-4：采用调度算法对添加的噪声数进行确定，通过scheduler程序算法计算去噪的潜在图像表示；将conditioned Latents输入到scheduler程序中，scheduler算法根据先前的噪声表示和预测的噪声残差计算预测的去噪图像表示，将计算出的预测的去噪图像表示作为新的Latents，用于下一次循环。

与现有技术相比，本发明具有如下改进及优点：1、通过SRCNN网络融合潜在扩散模型，将低质量图像到预训练扩散模型的中间状态进行过渡分布，降低了预训练复杂度并且提高了数据集的多样性。

2、通过使用预训练的U-net网络和调度算法作为生成模型，在潜在空间上完成逆扩散过程，进一步降低了预训练复杂度，简化了训练过程和减少了训练时长，从而生成较为准确的高质量人脸图像。

附图说明

图1为本发明的流程示意图。

图2为SRCNN网络结构图。

具体实施方式

以下结合附图对本发明做进一步概述。

如图1所示，一种基于潜在扩散模型的人盲脸图像恢复系统，包括用于作为扩散估计器的SRCNN网络、以及用于生成潜在人脸图像的潜在扩散模型、以及用于恢复潜在人脸图像的VAE解码器；SRCNN网络作为扩散估计器用于图像特征提取，SRCNN网络包括图像特征提取层、非线性映射层和网络重建层，图像特征提取层提取图像的边缘分布，非线性映射层将构造好的边缘分布映射到预训练的潜在扩散模型中，网络重建层将映射后的特征恢复为高质量图像。图像特征提取层将输入的低质量人脸图像通过双边插值将其上采样到所需大小，然后将采样过的图像通过该层进行卷积运算提取图像的边缘特征块，将每一个特征表示一个高维向量，以此来提取图像的边缘分布。

进一步，潜在扩散模型包括U-net网络，U-net网络包括由ResNet块组成的编码器、由ResNet块组成的解码器和交叉注意力层；编码器通过下采样将潜在图像表示压缩为低维表示，解码器通过上采样将低维表示的潜在图像进行恢复；交叉注意力层在编码器和解码器的ResNet块之间，交叉注意力层提取图像边缘分布与Latents之间的相关性。

将输入图像的边缘分布通过交叉注意力层映射到U-net的层中，将图像在Latents中的表征合并起来，从而完成图像特征的嵌入和融合，使得下一个U-net的层可以在这一过程中利用到图像信息。

一种基于潜在扩散模型的人盲脸图像恢复方法，该方法包括以下步骤：

步骤S1:接收传输进来的低质量人脸图像；

先将低质量人脸图像通过双边插值将其上采样到所需大小，采样过的图像通过图像特征提取层的卷积运算提取图像的边缘特征块，将每一个特征表示一个高维向量；SRCNN网络作为扩散估计器f(·；W)，构造x_N～p(x_N|y₀)近似x₀的扩散版本x_N的边缘分布；

SRCNN网络通过FFHQ训练集进行训练，FFHQ训练集利用典型退化模型合成低质量图像对SRCNN网络进行训练；

典型退化模型的表达式如下：

x与高斯核k_l进行卷积处理，将卷积后的结果进行尺度为s的双三次下采样处理，处理后结果与高斯噪声结合后进行质量因子为q的JPEG压缩，压缩后结果进行尺度为s的双三次上采样处理，得到低质量图像y。x为FFHQ数据集中的数据，y为构造的训练数据集。

步骤S2中通过SRCNN网络的非线性映射层将构造的边缘分布输入到预训练的潜在扩散模型中。

使用传统的L2损失函数使生成图像和训练图像尽可能相似，L2损失函数可以表示为：

其中{x⁽ⁱ⁾,y⁽ⁱ⁾}为合成图像对，f(y⁽ⁱ⁾；w)为扩散估计量。

步骤S3:使用预训练的潜在扩散模型生成潜在人脸图像；

步骤S3中使用预训练的潜在扩散模型生成潜在人脸图像，潜在扩散模型为潜在空间中的正扩散过程和逆扩散过程，使用正向扩散过程将高斯噪声逐步添加到采样图像中，使用逆扩散过程逐步对噪声图像降噪；具体操作如下：

在FFHQ数据集中采样图像，并在采样后的图像中加入随机生成高斯噪声，并将含有噪声的图像为训练样本；在FFHQ数据集中采样一定数量的图像，每张图像生成10个训练样本；训练样本用来训练U-net网络。

步骤S3-2：计算预测噪声与真实噪声之间的交叉熵损失，更新U-net网络参数；利用扩散模型的前向扩散过程来训练U-net网络，训练好的U-net网络仅用于扩散模型的反向过程。

利用潜在扩散模型的逆扩散过程生成图像；将高斯噪声样本转化成潜在空间的潜在图像表示Latents，在循环中，将Latents和扩散估计器生成的边缘分布一同输入到训练好的U-net网络中，输出conditioned Latents。

预训练的U-net网络和调度算法作为生成模型，在潜在空间上完成扩散过程；

步骤S4:使用VAE解码器将潜在人脸图像恢复。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于潜在扩散模型的人盲脸图像恢复系统，其特征在于：所述人盲脸图像恢复系统包括用于作为扩散估计器的SRCNN网络、以及用于生成潜在人脸图像的潜在扩散模型、以及用于恢复潜在人脸图像的VAE解码器；

所述SRCNN网络作为扩散估计器用于图像特征提取。

2.根据权利要求1所述的一种基于潜在扩散模型的人盲脸图像恢复系统，其特征在于：所述SRCNN网络包括图像特征提取层、非线性映射层和网络重建层；所述图像特征提取层提取图像的边缘分布，非线性映射层将构造好的边缘分布映射到预训练的潜在扩散模型中，网络重建层将映射后的特征恢复为高质量图像。

3.根据权利要求1所述的一种基于潜在扩散模型的人盲脸图像恢复系统，其特征在于：所述潜在扩散模型包括U-net网络，U-net网络包括由ResNet块组成的编码器、由ResNet块组成的解码器和交叉注意力层；

4.根据权利要求1所述的一种基于潜在扩散模型的人盲脸图像恢复系统，其特征在于：所述SRCNN网络通过FFHQ训练集进行训练，FFHQ训练集利用典型退化模型合成低质量图像对SRCNN网络进行训练；

所述典型退化模型的表达式如下：

5.根据权利要求1-4任意一项所述的一种基于潜在扩散模型的人盲脸图像恢复系统的方法，其特征在于：该方法包括以下步骤：

步骤S1:接收传输进来的低质量人脸图像；

步骤S3:使用预训练的潜在扩散模型生成潜在人脸图像；

步骤S4:使用VAE解码器将潜在人脸图像恢复。

6.根据权利要求5所述的一种基于潜在扩散模型的人盲脸图像恢复方法，其特征在于：所述步骤S2中利用SRCNN网络获取边缘分布，具体操作如下：

7.根据权利要求5所述的一种基于潜在扩散模型的人盲脸图像恢复方法，其特征在于：所述步骤S2中通过SRCNN网络的非线性映射层将构造的边缘分布输入到预训练的潜在扩散模型中。

8.根据权利要求5所述的一种基于潜在扩散模型的人盲脸图像恢复方法，其特征在于：所述步骤S3中使用预训练的潜在扩散模型生成潜在人脸图像，潜在扩散模型为潜在空间中的正扩散过程和逆扩散过程，使用正向扩散过程将高斯噪声逐步添加到采样图像中，使用逆扩散过程逐步对噪声图像降噪；具体操作如下：