CN114757832A

CN114757832A - 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置

Info

Publication number: CN114757832A
Application number: CN202210663897.0A
Authority: CN
Inventors: 孙立剑; 曹卫强; 王军; 徐晓刚; 虞舒敏
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-07-15
Anticipated expiration: 2042-06-14
Also published as: CN114757832B

Abstract

本发明公开一种基于交叉卷积注意力对抗学习的人脸超分辨方法和装置，该方法将原始低分辨率图像输入人脸超分辨生成网络，经过卷积层、若干个全局残差通道注意力单元、粗上采样模块、两批局部残差通道注意力单元、精上采样模块，得到目标分辨率图像，再通过索贝尔算子获得边缘信息，通过低倍率降采样处理并反馈到主网络中进一步提高超分辨效果，利用小波变换将目标分辨率图像、真值图像和其他通过数据增强方式得到的图像进行分解，每个图像分解成一个低频信息、两个中频信息和一个高频信息，然后去掉低频信息，融合中频和高频信息，将其送到对抗网络进行判别，最后引入数据增强方法，以产生多个正负样本进行对抗网络与人脸超分辨网络的迭代优化。

Description

基于交叉卷积注意力对抗学习的人脸超分辨方法和装置

技术领域

本发明属于计算机视觉、图像处理领域，尤其涉及一种基于交叉卷积注意力对抗学习的人脸超分辨方法和装置。

背景技术

图像分辨率的大小直接关系到图像的质量，更高的高分辨率意味着包含更多的细节信息，蕴含更大的应用潜能。然而在实际情况下很多图像面临着低分辨率的问题，影响着后续的高层次视觉处理。图像超分辨技术就是一项提升图像分辨率的有效手段，随着深度学习技术的发展，基于深度学习的图像超分辨方法在多个测试任务上，取得了目前最优的性能和效果，图像超分辨率技术目前在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。除了提升图像的感知质量之外，超分辨技术还能协助其他高层次的视觉任务，例如目标检测识别等，例如在安防监控场景中，拍摄到的目标由于运动环境等原因会存在模糊，导致无法识别目标，通过超分辨技术可以重构出较为清晰的画面，提高目标人脸的分辨率，从而提升目标检测识别的准确度。

目前有很多关于图像超分辨的网络，在处理各种各样的场景、物体方面都有了比较明显的提升，但是针对低分辨率的人脸，超分效果不是很好，尽管生成对抗网络目前广泛应用于超分辨率任务中，其目的是丰富复原图像中的纹理细节，但是这些方法经常产生伪像和不自然的纹理，其边缘结构保真性方面不是很好，导致生成的人脸与目标人脸不同，影响了后续的人脸识别任务，而且目前超分辨算法的泛化性也存在问题。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于交叉卷积注意力对抗学习的人脸超分辨方法和装置，其具体技术方案如下：

一种基于交叉卷积注意力对抗学习的人脸超分辨方法，包括以下步骤：

步骤一，将原始低分辨率图像输入人脸超分辨生成网络，首先原始低分辨率图像经过该网络卷积层，得到特征图，然后将特征图依次输入到若干个全局残差通道注意力单元，对特征图进行全局的特征增强处理，得到全局增强特征；

步骤二，将步骤一中得到的全局增强特征与输入的原始低分辨率图像经过卷积操作得到的特征进行相加处理，后输入到粗上采样模块中进行粗上采样；

步骤三，将粗上采样后的特征输入至第一批局部残差通道注意力单元，与索贝尔算子处理并经过低倍率降采样模块下采样后得到的特征进行级联融合，再输入到第二批局部残差通道注意力单元，所得到的特征与粗上采样后的特征进行相加操作后输入到精上采样模块，获得目标高分辨图像；

步骤四，对获得的目标高分辨图像进行小波变换，获得低频、中频和高频特征，将中频和高频特征进行级联操作后输入到对抗网络进行判别学习，最后引入数据增强方法，进行对抗网络与人脸超分辨生成网络的迭代优化。

进一步地，所述卷积层为3×3×64×1卷积，3×3表示卷积核尺寸，64表示卷积核个数，最后一位表示卷积核的运动步幅；

所述的全局残差通道注意力单元包括依次连接的第一交叉卷积层、LReLU非线性变换层、第二交叉卷积层以及后续的4个支路，将经过第二交叉卷积层后获得的𝐶×𝐻×𝑊特征图输入到所述4个支路中，𝐶表示维度，𝐻表示高，𝑊表示宽，其中第一个支路首先通过一个1×1卷积层，经过矩阵变维和转置操作之后得到(𝐻𝑊) ×𝐶的特征，第二支路也通过一个1×1卷积层和矩阵变维操作，得到𝐶×(𝐻𝑊)的特征，然后将第一支路和第二支路的两个特征进行矩阵相乘操作，得到𝐶×𝐶的特征，𝐶×𝐶的特征与第三支路中通过1×1卷积操作后的特征进行矩阵相乘操作，得到𝐶×𝐻×𝑊的特征，𝐶×𝐻×𝑊的特征与第四支路中的𝐶×𝐻×𝑊特征图进行相加操作，得到了全局残差通道注意力单元的输出特征。

进一步地，所述交叉卷积层是两路并行非对称卷积层，包括一个1×3卷积层和一个3×1卷积层。

进一步地，所述粗上采样模块由最邻近层、第一LReLU非线性变换层、亚像素卷积层、第二LReLU非线性变换层组成，通过最邻近和亚像素卷积交互使用来放大特征图像。

进一步地，所述的精上采样模块由最邻近层、残差网络、LReLU非线性变换层、亚像素卷积层、LReLU非线性变换层和3×3卷积层组成；

所述局部残差通道注意力单元分为两路，一路依次经过全局平均池化层、第一个3×3卷积层、LReLU非线性激活层、第二个3×3的卷积层和sigmoid激活层，另一路经过第一个交叉卷积层、LReLU非线性激活层、第二个交叉卷积层和3×3的卷积层，两路的结果进行点乘得到的特征与该局部残差通道注意力单元的原始输入特征进行相加操作。

进一步地，所述目标高分辨图像通过索贝尔算子处理并下采样后的特征与第一批局部残差通道注意力单元输出的特征进行级联融合。

进一步地，所述数据增强方法用于对抗网络判别学习的样本，样本包括正样本和负样本，正样本是通过应用不同高斯核在高分辨率图像生成的锐化图像，负样本通过应用不同高斯核模糊函数在高分辨率图像生成的模糊图像。

进一步地，所述人脸超分辨生成网络使用的损失函数由三部分构成：基于LPIPS的内容感知损失、对抗损失

以及像素损失

，人脸超分辨生成网络使用PSNR峰值信噪比、SSIM结构相似性、LPIPS作为图片质量的评价指标，选择高分辨率的人脸数据集CelebA然后对图像进行裁剪操作，只截取人脸部分，将截取的照片利用matlab中的双三次下采样到128×128作为高分辨率图像，下采样到16×16作为对应的低分辨率图像，将高低分辨率的人脸图像对作为网络的训练集、验证集和测试集，使用Adam优化算法进行训练，使用余弦退火衰减函数进行学习率的更新，使用反向传播策略交替更新网络中的生成器和判别器，直至收敛并保存训练好的生成器网络模型。

一种基于交叉卷积注意力对抗学习的人脸超分辨装置，包括一个或多个处理器，用于实所述的基于交叉卷积注意力对抗学习的人脸超分辨方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的基于交叉卷积注意力对抗学习的人脸超分辨方法。

有益效果：

本发明针对泛化问题，提出了一个有效的任务特定的数据增强策略，以产生多个信息积极的正样本和负样本，结合判别器网络，针对图像的中高频成分进行判别，与主超分辨网络进行迭代优化，从而使其任务泛化；

针对高倍率图像超分辨中的质量和边缘结构恢复问题，通过利用交叉卷积进行探索以聚焦于边缘信息挖掘，从而具有精确且清晰的结构细节和更好的边缘保持优势；

同时引入全局残差通道注意力单元，有效捕获长范围的特征，从而保持整体的边缘结构信息，另外通过引入索贝尔算子处理生成的目标图像并反馈到主干网络中，进一步加强人脸边缘特征等高频纹理信息，有利于人脸结构的准确性，从而提升人脸识别等高层次视觉任务的准确度。

附图说明

图1是本发明的一种基于交叉卷积注意力对抗学习的人脸超分辨方法流程示意图；

图2是本发明的一种基于交叉卷积注意力对抗学习的人脸超分辨网络模型整体结构示意图；

图3a是本发明的网络模型中的交叉卷积层结构示意图；

图3b是本发明的网络模型中的局部残差通道注意力单元结构示意图；

图3c是本发明的网络模型中的全局残差通道注意力单元结构示意图；

图4是本发明的一种基于交叉卷积注意力对抗学习的人脸超分辨装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

本发明的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，对极低分辨率的人脸图像进行超分辨处理，得到目标分辨率图像，目标分辨率图像通过索贝尔算子获得边缘信息，通过低倍率降采样处理并反馈到主网络中进一步提高超分辨效果，利用小波变换将目标分辨率图像、真值图像和其他通过数据增强方法得到的图像进行分解，每个图像分解成一个低频信息、两个中频信息和一个高频信息，然后去掉低频信息，融合中频和高频信息，将其送到对抗网络进行判别，更有效地重建高频信息。通过引入交叉卷积的全局注意力和局部注意力学习模块，有利于更好地关注边缘轮廓等高频信息，另外引入一个任务特定的数据增强方法，以产生多个正负样本进行对抗网络与人脸超分辨生成网络进行迭代优化，从而使其任务泛化。

本发明实施例以8倍图像超分辨率为例进行说明，如图1和图2所示，一种基于交叉卷积注意力对抗学习的人脸超分辨方法，具体包括以下步骤：

步骤一，将原始低分辨率图像输入人脸超分辨生成网络，原始低分辨率图像经过网络的卷积层，得到特征图，然后将特征图依次输入到若干个全局残差通道注意力单元，对特征图进行全局的特征增强处理，得到全局增强特征；

所述卷积层为3×3×64×1卷积层，3×3表示卷积核尺寸，64表示卷积核个数，最后一位表示卷积核的运动步幅；

本实施例中，针对分辨率非常低的人脸图像，人脸图像分辨率不大于64×64，可以是 16×16、32×32，64×64，例如，输入图像分辨率为16×16的人脸图像，通过一个3×3×64×1卷积层得到特征图，然后将特征图依次输入到8个串联的全局残差通道注意力单元，对低分辨率的特征图进行全局的特征增强处理，得到全局增强特征，由于输入图像分辨率较低，全局残差通道注意力单元并不会带来明显的计算量增加。

如图3c所示，所述的全局残差通道注意力单元，包括依次连接的第一交叉卷积层、LReLU非线性变换层、第二交叉卷积层以及后续的4个支路，将经过第二交叉卷积层后获得的𝐶×𝐻×𝑊特征图输入到这4个支路中，𝐶表示维度，𝐻表示高，𝑊表示宽，其中第一个支路首先通过一个1×1卷积层，经过矩阵变维和转置操作之后得到(𝐻𝑊) ×𝐶的特征，第二支路也通过一个1×1卷积层和矩阵变维操作，得到𝐶×(𝐻𝑊)的特征，然后将第一支路和第二支路的这两个特征进行矩阵相乘操作，得到𝐶×𝐶的特征，𝐶×𝐶的特征与第三支路中通过1×1卷积层操作后的特征进行矩阵相乘操作，得到𝐶×𝐻×𝑊的特征，𝐶×𝐻×𝑊的特征与第四支路中的𝐶×𝐻×𝑊特征图进行相加操作，得到了全局残差通道注意力单元的输出特征。

所述的交叉卷积层是两路并行非对称卷积，如图3a所示，包括一个1×3卷积层和一个3×1卷积层，将特征通过两路并行的非对称卷积对水平与垂直梯度信息进行探索以聚焦于边缘信息挖掘，最终又相加汇合成一路。相比常规卷积，交叉卷积具有更少的参数量与计算复杂度、具有相同的感受野和更好的结构保持能力。

步骤二，将步骤一中得到的全局增强特征与输入的原始低分辨率图像经过卷积操作得到的特征进行相加处理，后输入到粗上采样模块中进行粗上采样。

所述粗上采样模块由最邻近层、第一LReLU非线性变换层、亚像素卷积层和第二LReLU非线性变换层组成，通过最邻近层和亚像素卷积层交互使用，分别放大2倍，并提升空间与通道间的信息交互。

步骤三，将粗上采样后的特征输入至第一批局部残差通道注意力单元，与索贝尔算子处理并经过低倍率降采样模块下采样后得到的特征进行级联融合，再输入到第二批局部残差通道注意力单元，所得到的特征与粗上采样后的特征进行相加操作后输入到精上采样模块，获得目标高分辨图像。其中，第一批局部残差通道注意力单元和第二批局部残差通道注意力单元均为M个。

所述的精上采样模块由最邻近层、残差网络、LReLU非线性变换层、亚像素卷积层、LReLU非线性变换层和一个3×3卷积层组成；

所述目标高分辨图像可以通过索贝尔算子处理并下采样后反馈到主干网络中，与经过第一批4个局部残差通道注意力单元的特征进行级联融合，加强边缘特征等高频纹理信息，有利于人脸结构的准确性。

本实施例中，将粗上采样后的特征再经过第一批4个局部残差通道注意力单元，与索贝尔算子处理并下采样后得到的特征进行级联融合，再输入到第二批4个局部残差通道注意力单元，所得到的特征与粗上采样后的特征进行相加操作，输入到一个精上采样模块，将图像再次放大2~4倍，获得目标高分辨图像。

所述步骤三中的局部残差通道注意力单元分为两路，如图3b所示，一路依次经过全局平均池化层、第一个3×3卷积层、LReLU非线性激活层、第二个3×3的卷积层和sigmoid激活层，另一路经过第一个交叉卷积层、LReLU非线性激活层、第二个交叉卷积层和3×3的卷积层，两路的结果进行点乘得到的特征与该局部残差通道注意力单元的原始输入特征进行相加操作。

步骤四，对获得的目标高分辨图像进行小波变换，获得低频、中频和高频特征，将中频和高频特征进行级联操作后输入到对抗网络进行判别学习，所述对抗网络源于增强型超分辨率生成对抗网络ESRGAN，更有效地重建高频特征的信息，提升了人脸的感知质量，最后引入数据增强方法，进行对抗网络与人脸超分辨生成网络的迭代优化。

具体的，为了增强人脸超分辨生成网络的泛化性能，除了唯一的真值高分辨率图像，使用数据增强的方法增加对抗网络学习的样本，包括正样本和负样本，其中正样本

是通过应用不同高斯核在高分辨率图像生成的锐化图像，Sharpen是一个随机的锐化函数，K表示生成的个数，使用信息丰富的正样本来为重建结果引入更多高频细节，这些生成的正样本可以看作是其中较为粗糙的一部分，符合一对多的图形超分辨问题。其中负样本

是通过应用不同高斯核模糊函数在高分辨率图像生成轻微模糊的图像，Blur是一个随机的模糊函数，因为它们接近真值，从而使重建的图像更接近高分辨率图像，这可以缩小求解空间，进一步提高人脸超分辨网络的性能。

所述对抗网络与人脸超分辨生成网络迭代优化的过程具体为：训练基于ESRGAN的对抗网络，损失函数为

，用于区分真实图像与生成图像的中高频特征，其中通过数据增强方法生成的模糊图像归类为负样本，锐化图像归类为正样本；

人脸超分辨生成网络的损失函数由三部分构成：基于LPIPS（学习感知图像块相似度，Learned Perceptual Image Patch Similarity，用于度量两张图像之间的差别）的内容感知损失、对抗损失

以及像素损失

，使用PSNR(峰值信噪比)、SSIM(结构相似性)，LPIPS作为图片质量的评价指标，选择高分辨率的人脸数据集CelebA然后对图像进行裁剪操作，只截取人脸部分，避免头发帽子衣服对人脸的影响，将截取的照片利用matlab中的双三次下采样得到128×128作为高分辨率图像，下采样到16×16作为对应的低分辨率图像，将高低分辨率的人脸图像对作为训练集、验证集和测试集，使用Adam优化算法进行训练，初始学习率设置为0.0005，使用余弦退火衰减函数进行学习率的更新，使用反向传播策略交替更新生成器网络和判别器网络，如已收敛，用训练好的生成器网络模型用作最终的推理，并保存训练好的生成器网络模型。另外选择100张低分辨率的图片作为测试集。另外，用同样的方法在Helen数据集上进行训练和测试，测试结果如表1所示：

表1. 本发明与其他方法在放大8倍时不同数据集下的性能比较(PSNR/SSIM/LPIPS)

表1中最后一行为本发明的结果，在Helen和CelebA都进行了测试，对比常用的超分辨方法，包括双三次上采样、ESRGAN、RCAN、RDN和FSRNet，进行了同样的数据集训练和测试，本发明得到的100张测试图片的平均PSNR和SSIM都取得了较高的结果，另外LPIPS最低，保持着最好的视觉感知质量，整体图片清晰度也最好。

与前述一种基于交叉卷积注意力对抗学习的人脸超分辨方法的实施例相对应，本发明还提供了一种基于交叉卷积注意力对抗学习的人脸超分辨装置的实施例。

参见图4，本发明实施例提供的一种基于交叉卷积注意力对抗学习的人脸超分辨装置，包括一个或多个处理器，用于实现上述实施例中的一种基于交叉卷积注意力对抗学习的人脸超分辨方法。

本发明一种基于交叉卷积注意力对抗学习的人脸超分辨装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种基于交叉卷积注意力对抗学习的人脸超分辨装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于交叉卷积注意力对抗学习的人脸超分辨方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述卷积层为3×3×64×1卷积，3×3表示卷积核尺寸，64表示卷积核个数，最后一位表示卷积核的运动步幅；

3.如权利要求2所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述交叉卷积层是两路并行非对称卷积层，包括一个1×3卷积层和一个3×1卷积层。

4.如权利要求1所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述粗上采样模块由最邻近层、第一LReLU非线性变换层、亚像素卷积层、第二LReLU非线性变换层组成，通过最邻近和亚像素卷积交互使用来放大特征图像。

5. 如权利要求1所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述的精上采样模块由最邻近层、残差网络、LReLU非线性变换层、亚像素卷积层、LReLU非线性变换层和3×3卷积层组成；

6.如权利要求5所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述目标高分辨图像通过索贝尔算子处理并下采样后的特征与第一批局部残差通道注意力单元输出的特征进行级联融合。

7.如权利要求1所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述数据增强方法用于增加对抗网络判别学习的样本，样本包括正样本和负样本，正样本是通过应用不同高斯核在高分辨率图像生成的锐化图像，负样本通过应用不同高斯核模糊函数在高分辨率图像生成的模糊图像。

8.如权利要求1所述的一种基于交叉卷积注意力对抗学习的人脸超分辨方法，其特征在于，所述人脸超分辨生成网络使用的损失函数由三部分构成：基于LPIPS的内容感知损失、对抗损失

以及像素损失

9.一种基于交叉卷积注意力对抗学习的人脸超分辨装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-8中任一项所述的基于交叉卷积注意力对抗学习的人脸超分辨方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的基于交叉卷积注意力对抗学习的人脸超分辨方法。