CN115880225A

CN115880225A - 一种基于多尺度注意力机制的动态光照人脸图像质量增强方法

Info

Publication number: CN115880225A
Application number: CN202211408124.4A
Authority: CN
Inventors: 李晓光; 景炜程; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-31

Abstract

一种基于多尺度注意力机制的动态光照人脸图像质量增强方法属于数字图像/视频信号处理领域。本发明设计了一种级联编解码网络结构，可分为多尺度小波特征提取模块和图像增强模块，受光照影响的人脸图像经过多尺度小波特征提取模块进行关键特征提取后输入到图像增强模块完成受动态光照影响的图像增强。在多尺度小波特征提取模块中采用了小波变换下采样获得不同尺度的特征信息图，通过模块内部的注意力单元提取融合所图像中的全局上下文信息，在图像增强模块中基于多尺度注意力思想，通过获取到不同尺度上的信息和双注意力机制来提升网络对动态变化光照的感知能力，完成增强过程。该技术在刑侦、军事侦察、多媒体视觉等领域具有广泛的应用前景。

Description

一种基于多尺度注意力机制的动态光照人脸图像质量增强方法

技术领域

本发明属于数字图像/视频信号处理领域，特别涉及一种基于多尺度注意力机制的动态光照人脸图像质量增强方法。

背景技术

随着计算机视觉和多媒体技术的发展，人们每天接收到海量的多媒体信息，包括图像和视频信息。同时随着智能拍摄设备与软件的发展与普及，人们获取图像视频信息的手段也呈现多样化趋势，例如通过智能手机，摄像机，遥感卫星，医学设备成像以及监控摄像头采集等等。在采集过程中往往受限于设备质量和环境因素的影响，图像质量受到不同程度的干扰，导致图像模糊，光照不均衡，对比度差，细节不清等问题。如在动态场景中的视频监控，人脸图像容易受到变化光照的影像，为后续的主观观看和自动分析算法带来挑战。

近些年来，深度学习技术的发展在图像质量增强领域取得了显著的进展。这为有效提高动态光照场景下人脸图像的质量提供了契机。在动态场景下，所采集到的人脸图像受到物体运动和光线变化等因素的影响，导致成像中光照变化复杂。因此，需要有效的动态光照人脸图像质量增强方法，以提高后续人脸识别任务的有效性。这在公共安全领域具有广泛的应用价值。

基于深度学习的卷积神经网络在低光照图像增强问题中得到了广泛的应用且取得了显著成果，但现有方法专注于研究静态光照不变场景下的图像恢复，缺少对实际场景中动态光照变化影响的关注。然而，动态变化光照在实际场景中普遍存在，尤其是户外运动场景。视觉科学表明，在灵长类视觉皮层中同一区域神经元的局部感受野大小是不同的，这就导致来自于多种复杂光照(非均匀，背光，逆光，过曝光等)的影响可能会降低人们的主观感受，并且会影像人脸识别模型的性能。

一般拍摄到的图像内容蕴含有高频信息和低频信息，高频信息中一般蕴含图像所包含的细节纹理信息，低频信息中主要包含光照信息。小波变换具有减少信息丢失的同时将图像信息分为高频和低频两部分的性能，引入小波变换可以帮助网络具有时频分析的性能；同时在网络中引入多尺度信息可以帮助网络获取全局上下文信息扩大网络的感受野更有利于动态变化光照的影响；此外，注意力机制基于人类视觉注意力特性，通过观察发现，注意力机制适用于解决多种动态光照并存问题，可以利用注意力机制来自适应的选择权重，提升特征表达能力和网络的恢复效果。

针对上述问题和观察发现，本发明旨在设计一种能适应多种光照变化人脸图像，并从中恢复出理想光照下的人脸图像增强网络。为此，本发明提出了一种基于多尺度注意力机制的动态光照人脸图像质量增强方法。本发明设计了一种级联网络结构，可分为多尺度小波特征提取模块和图像增强模块。受光照影响的人脸图像经过多尺度小波特征提取模块进行关键特征提取，然后输入到图像增强模块完成进一步的图像恢复增强，最终获得增强结果。多尺度小波特征提取模块和图像增强模块均采用一种编解码器结构，在特征提取模块中，采用小波变换代替一般深度编解码网络的下采样操作，通过小波变换下采样获得三个不同尺度的特征信息图。同时，通过双注意力单元和通道注意力单元分别处理并融合多尺度上下文信息。在图像增强模块中引入多尺度注意力思想，对不同尺度的特征信息进行处理，以提升网络对动态变化光照的感知能力，从而实现了自适应增强过程。该模型在兼具速度的同时具有动态光照调整能力。该技术在刑侦、军事侦察、多媒体视觉等领域具有广泛的应用前景。

发明内容

本发明的目的在于缓解现有研究中很少关注到的动态光照场景下采集图像质量降低的问题，主要改善受动态光照影响的人脸图像中存在的多种非均匀光照降质因素的影响，提升其主观效果和后续客观分析的性能，为此提供了一个基于多尺度注意力机制的动态光照下人脸图像质量增强方法，该方法可以使网络关注到多种不同变化光照下的情况，有效改善人脸图像的质量，其中多尺度小波特征提取模块和图像增强模块可以显著提高网络对动态光照的调整能力，有效从受多种不同光照影响下的图像中恢复出正常光照下的人脸图像，同时保留背景和人脸的纹理细节信息。

本发明是采用以下技术手段实现的：

一种基于多尺度注意力机制的动态光照影响下人脸图像质量增强方法。该方法采用多级编解码网络框架。首先，受动态光照影响的人脸图片输入第一级多尺度小波特征提取模块中提取融合多尺度特征信息，这些特征信息用来引导完成后续模块的增强过程；然后，前一级的特征信息输入到由多尺度残差注意力思想构成的图像增强模块中用来完成最终的图像增强过程；最后，根据动态光照特性，选用3种损失函数的组合来完成模型的训练优化过程。该方法的整体网络如附图1所示，主要分为两个模块：多尺度小波特征提取模块和图像增强模块，如附图2，3所示。

现有研究多集中于静态光照不变场景下的图像恢复，缺少对实际场景中动态光照变化影响的关注，而动态变化光照的情况在实际场景中普遍存在，尤其是会影响在野外拍摄到的人脸图像的辨识质量。本发明针对动态光照影响的问题，使用多尺度小波特征提取模块提取来自多种不同光照下的特征信息，采用多尺度注意力机制来使网络自适应的对不同特征分配不同的权重，帮助网络从动态光照影响中恢复出正常光照中蕴含的人脸和背景细节信息，同时通过实验提出了适合于动态变化光照人脸图像的模型学习的损失函数组合，由于目前缺乏大规模的多种光照影响下的人脸数据集，采用一种重照明方法构建受多种光照情况影响的人脸数据集，用于训练和验证。

本发明方法分为4部分，分别是：多尺度小波特征提取模块构建、图像增强模块构建、针对动态光照影响的损失函数选取和多种光照人脸数据集准备。

该方法具体包括以下步骤：

1)多尺度小波特征提取模块构建：

该模块主要作用是提取较大感受野和全局上下文信息，进而指导后级网络的完成图像恢复过程。该网络主要由编解码网络结构构成。

第一步，输入的图像通过3×3卷积层实现扩展图像通道数，由于输入网络的图像为RGB三通道，所以当网络需要获取图像中的更多信息时，需要对输入图像进行升维处理提升网络的特征信息提取性能；

第二步，通过级联的3次小波变换实现对图像的下采样过程，小波变换方法具有减少下采样过程中信息损失的作用，同时可以提取出图像的高频信息和低频信息，高频信息一般包含了图像的纹理细节信息而低频信息则包含了光照信息，这样可以使网络获得时频分析能力；

第三步，通过级联的3次小波变换生成3种不同尺度下的特征信息后，通过卷积层和PReLU激活函数将特征图调整到需要维度后输入进双注意力单元，双注意力单元可以有效提取不同尺度下的有用特征信息，同时抑制不太有用的特征向下传播；

第四步，每一级双注意力单元的输出特征与前一级经过小波逆变换后的特征图像信息拼接后，经过卷积层和激活函数降维后使用通道注意力单元融合后再输送给下一级，进行两次该过程后输出的特征图与第一步得到的特征图拼接后使用卷积层和激活函数与通道注意力单元进行该模块最后的特征提取融合获得图像增强特征信息。该步骤在多通道维度上进行特征提取，通道注意力单元可以帮助网络关注到不同通道上的有用特征信息。

双注意力单元(Dual Attention Unit，DAU)主要由空间注意力分支(SpatialAttention，SA)和通道注意力分支(Channelattention,CA)组成。空间注意(SA)分支旨在利用特征的空间相关性，通道注意力分支CA利用卷积特征映射的通道间关系。在双注意力单元中特征图先通过卷积激活卷积的操作后分别输入SA分支和CA分支，SA分支首先沿通道维度对特征单独应用全局平均池(GlobalAverage Pooling)和最大池(Max pooling)操作，两者拼接后经过卷积激活操作与对应通道相乘以形成空间注意力特征图，特征图最终经过卷积和sigmoid激活以获得空间注意特征图；CA分支首先通过全局平均池(GlobalAveragePooling)来编码全局上下文，从而生成通道特征图，特征图通过卷积层，然后通过sigmoid激活，生成的权值与对应通道相乘生成通道注意力特征图。最终，两个分支的特征图通过拼接卷积操作后与输入特征图相乘得到双注意力单元的特征映射。通道注意力单元(CAU)主要由双注意力单元(DAU)去掉空间注意力分支构成。

2)图像增强模块构建：

在获取到全局上下文信息之后，需要网络开始专注于图像的增强过程，与目前单一光照类型情况影响下的图像不同，需要关注多种不同光照情况下的场景，包括背光，过曝光，光照不均匀等情形，因此需要增强过程的网络不仅能关注到光的变化，还需要关注到被亮或暗所隐藏的部分，本发明采用MIRnet网络中提出的一种多尺度残差模块(Multi-ScaleResidual BlockMSRB)来完成图像增强模块(Image Enhancement Block IEB)构筑。

在图像恢复模块中采用两个多尺度残差模块(MSRB)作为其主干结构，这样的选择能够通过保持高分辨率表示生成空间精确输出，同时从低分辨率接收丰富的上下文信息，维持计算量和性能之间的折中。

多尺度残差模块(MSRB)由多个全卷积的并行流组成，它允许跨并行流进行信息交换，以便完成在低分辨率特征图的帮助下整合高分辨率特征图的功能，接收获取丰富的上下文信息。MSRB接收到的信息通过3次下采样的操作获得多尺度特征图，这样可以帮助网络获得由粗略到细致的空间上下文信息和语义信息，然后输入到双注意力单元后获得的不同尺度间的特征信息通过连续的上下采样进行信息交换，使用特征选择模块接收来自不同尺度的特征信息进行特征融合选择，从不同尺度下获取到的特征信息可以通过特征选择模块来整合来自不同尺度下的特征信息，最终生成全局信息的特征信息图映射，同时引入残差的操作使网络训练更加容易。

特征选择模块通过融合和选择两个操作对网络的感受野进行动态调整。融合操作通过拼接来自多个分辨率尺度的信息来生成全局特征图，特征图通过全局平均池化与卷积激活操作后，利用Softmax激活函数的性能与其他尺度上的特征信息相乘生成3种不同选择的映射再相加，自适应地重新校准输出特征图。

3)针对动态光照影响的损失函数选取

L₁损失函数和L₂损失函数是常用于图像质量增强领域中的两种像素级损失函数帮助网络恢复了颜色和亮度的丢失，它们分别具有各自的优势，其中L₁损失函数很好地保护了颜色和亮度，因为无论局部结构如何，错误的权重是相等的，L₂损失倾向于惩罚较大的错误，但对小错误有容忍度。对于动态光照影响下的人脸图像质量恢复问题中，人脸图像会受到过暗或过强且不同区域分布的光照影响，我们希望网络能够完整恢复人脸部分的图像内容而对其他区域要求较低，所以我们选择L₂损失作为主损失函数。

但在单独采用L₂损失的时候发现，虽然可以恢复受光照影响的人脸图像大部分信息，但对人脸中脸型，肤色，眼睛颜色等特征的保持结果不够好，同时容易出现伪影等现象，所以我们参考结构相似性(Structural SimilaritySSIM)损失可以进一步保留结构和纹理信息的特性，所以我们在总损失函数中添加了结构相似性损失。

虽然像素级损失为图像恢复提供了非常准确的指导，但是由于它容易忽略一些难以测量的特性，比如说当两个像素受到像素级距离的约束时，一个像素可以取误差半径内任何像素的值，导致一些细节特信息的忽略，同时也容易导致色差和伪影的发生。所以我们还额外增加了感知损失(Perceptual Loss)，感知损失可以察觉到特征级上的变化，对于动态变化光照影响下的人脸图像，它可以帮助网络模型关注到颜色和纹理细节的差异，监督模型学习更准确重建正常光照下人脸图像的过程。所以总损失函数如公式(1)：

L_Total＝L_L2oss+L_SSIM+L_Perceptual (1)

4)多种光照人脸数据集准备

为了解决我们所提出的动态光照变化的人脸图像问题且端到端网络训练需要大量成对数据集才能保证网络的有效性，然而现有数据集多为低光照或不同曝光程度下的自然图像，缺少对动态光照变化影响关注的数据集，且想要在室外场景下拍摄成对动态变化光照的人脸图像存在很大困难，所以采用生成的方法来解决这个问题。首先，采用公开的伪装和化妆人脸数据集，通过对齐和裁剪后筛选出其中部分人脸图像作为目标数据集。

采用重照明的方法对不同光照环境下的人脸图像生成，该方法可以根据光探针指定来生成多种不同光照环境下的人脸图像。本发明将目标数据集中人脸图像，通过该方法生成了大量成对的不同光照环境下的人脸数据，并划分成训练集、测试集和验证集，部分生成结果如附图8所示。

本发明技术中深度学习网络采用端到端的过程进行训练，网络的输入是通过随机裁剪图像数据送入网络后进行网络训练直到损失函数收敛。在测试过程中采用自建测试集得到增强结果。

本发明与现有技术相比，具有明显的优势和显著的效果：

本发明针对目前研究中缺少关注的动态光照影响的人脸图像质量问题提出了一种基于多尺度注意力机制的动态光照影响下人脸图像质量增强方法，该方法首先通过重照明方式生成了较大规模的涵盖多种光照下人脸图像的数据集，构建增强网络时采用小波变换生成具有不同空间分辨率的多尺度输入变化，在双注意力单元和通道注意力单元的特征提取和融合下，使网络在较早阶段获得充分的全局上下文信息和细节信息，这些信息通过由多尺度残差块构成的图像增强模块中可以动态自适应地恢复出不同光照场景影响下的人脸图像。通过与多种先进方法在生成动态光照人脸数据集训练之后进行客观和主观的比较之后，本发明方法能够处理多种不同的光照分布，保留更多人脸以及背景物体关键信息而不会产生色差，恢复出正常光照下的人脸图像显示出更好的增强效果，具有明显优势。

附图说明

图1、网络整体架构图；

图2、多尺度小波特征提取模块的网络架构；

图3、图像增强模块的网络架构；

图4、多尺度残差模块的网络架构；

图5、双注意力单元的网络架构；

图6、通道注意力单元的网络架构；

图7、特征选择模块的网络架构；

图8、生成的多种不同光照下人脸数据部分结果展示；

图9、不同方法的部分主观结果比较；(横向看依次是：输入图像、LIME、GLAD、DSLR、MBLLEN、MIRNet、Ours、GroundTruth；纵向依次看：为输入的不同测试图像)

具体实施方式

以下结合说明书附图，对本发明的实施实例加以说明：

本发明由以下三部分构成，首先是动态光照影响下人脸数据集准备，本发明中使用一种重新照明方法将不同光照类型嵌入正常光照人脸图像中以生成大规模成对数据集，解决缺少动态光照数据集的问题；其次是基于多尺度注意力机制的网络模型以及损失函数的构建；最后是数据加载与训练设置。下面分别介绍三部分具体过程：

(1)动态光照影响下人脸数据集准备

a)人脸数据集预处理

该方法所用到数据集的人脸数据都源于Wang等人在2016年提出的一种带有伪装和化妆的人脸数据集，因为带有化妆和伪装以及不同背景下的人脸图像与在实际环境中捕捉到的人脸图像更为相近，本发明通过RetinaFace人脸检测算法将人脸图像进行检测和对齐操作，得到的图像再统一裁剪将其划分成256×256像素大小的尺寸，筛选出了其中520幅人脸图像作为目标数据集。

b)多种动态光照人脸数据生成和数据集划分

多种动态光照人脸数据生成方法采用Jiang等人在2021年提出的重照明方法，我们将目标数据集中人脸图像数据输进该网络后生成具有不同光照人脸图像，部分结果如附图8所示。本发明采用的数据集总计生成了520组每组72种连续光照变化情况，共计的37440幅人脸图像。考虑到训练时间以及性能因素之间的权衡，从每组中选取了典型的10种光照情况共计5200幅，在这520组中随机挑选其中16组为测试集，剩余504组为训练集，训练集总计5040幅图像，测试集总计160幅图像。为了验证网络的泛化能力即就是在其他未经过训练的光照情况下的恢复表现，将测试集16组原有的全部72种连续光照变化的人脸图像片构成验证集，总计1152幅图像。

(2)基于多尺度注意力机制的网络模型以及损失函数的构建

在第二部分中，将介绍多尺度小波特征提取模块、图像增强模块以及整体网络的构建，同时阐述所用到损失函数的详细设置。

a)多尺度小波特征提取模块的网络构建

多尺度小波特征提取模块如图2所示，多尺度小波特征提取模块的主要实现方法是通过小波变换代替传统的下采样过程实现图像尺度和通道维度上的变换，变换后得到的每级不同尺度上的特征信息经过双注意力单元的特征提取后逐级进行小波逆变换完成上采样过程，并逐级使用通道注意力单元进行融合完成特征信息的提取。具体来说，输入到该模块的图像首先经过一层3×3卷积在不改变图像尺寸大小的前提下将图像原本的3通道扩展到64通道，卷积层设置卷积核为3，padding为1，bias为False；然后，得到的特征图通过连续的3次一阶二维离散小波变换下采样扩展到3种不同的尺度上，每次小波变换后都需要通过一层3×3卷积层和激活函数将变换后的特征分别调整到128、256、512的通道数和缩小2倍、4倍、8倍的尺度下分别作为第一级，第二级和第三级的输入，每一级的输出通道数和尺寸与输入保持一致，这样的操作可以在扩大网络感受野的同时控制特征通道数和尺度在所需的范围下，所用卷积层设置均为卷积核为3，padding为1，步长为1，bias为False，激活函数使用PRelu激活函数，小波变换是二维哈尔(Haar)小波变换，小波变换可以将图像分解为高频信息和低频信息，图像的频率是衡量灰度值变化剧烈程度的指标，是灰度值在平面空间上的梯度，高频是指图像相邻区域之间灰度值变化很大即就是梯度很大，低频是指图像相邻区域之间灰度值变化很小即就是梯度很小。小波变换操作有利于减少下采样过程中特征信息的丢失，使网络自适应地关注在需要关注的特征上让网络获得时频分析能力。其次，三个不同尺度上的特征信息分别通过双注意力单元提取有用特征信息后进行上采样过程，首先，第三级输出通过一阶二维离散小波逆变换进行上采样，经过1×1卷积层后得到的特征信息与第二级获取到的特征信息通过拼接操作后输入3×3卷积层和通道注意力单元中进行高效的特征融合提取后再次经过一阶二维离散小波逆变换进行上采样，其中1×1卷积层使用卷积核设置为1，padding为0，步长为1，bias为False，3×3卷积层使用卷积核设置为3，padding为1，步长为1，bias为False。最后，将第二级的输出与第一级的输出再次通过拼接操作输入3×3卷积层和通道注意力单元中进行高效的特征融合提取后的结果与通过第一层卷积得到的64维通道数特征图拼接后再次输入3×3卷积层和通道注意力单元的结构中，生成融合后的多尺度特征信息映射用来引导后续重建增强过程，3×3卷积层设置卷积核为3，步长为1，padding为1，bias为False。

双注意力单元如图5所示，双注意力单元作用是接受来自不同尺度上的特征信息，高效提取有用的特征信息，同时抑制没用的特征信息向下传播。整个模块基于一种残差的双分支结构搭建，首先，输入的特征信息通过进行1次3×3卷积1次激活函数1次3×3卷积的方式进行充分的跨通道交互，增加特征信息的非线性帮助网络更容易收敛，其中卷积层输入输出通道数数量一致均为前一级输出的64维，采用3×3卷积的卷积核大小为3，步长为1，padding为1，bias为False，激活函数采用PRelu激活函数。然后，特征信息分别通过空间注意力分支(SA)和通道注意力分支(CA)，两分支的输出通过拼接操作和1×1卷积进行特征融合后与双注意力单元输入特征相加构成残差连接，最终获得双注意力特征映射，1×1卷积层使用卷积核设置为1，padding为0，步长为1，bias为False。其中SA分支中，首先对输入特征分别应用全局平均池化(GlobalAverage Pooling)和最大池化(Max pooling)操作，两者拼接后经过1次5×5卷积和sigmoid激活操作与SA分支输入相乘以形成空间注意力特征图，5×5卷积设置卷积核为5，padding为1，步长为1，bias为False；CA分支首先通过自适应全局平均池化(AdaptiveGlobalAverage Pooling)来编码全局上下文信息从而生成通道特征图，CA分支输入特征图首先通过1次1×1卷积，1次Relu激活函数，1次1×1卷积，1次sigmoid激活，生成的权值与CA分支输入特征图相乘，生成通道注意力特征图，1×1卷积层使用卷积核设置为1，padding为0，步长为1，bias为False，第1次卷积对通道数特征降维输出通道数除以8，第2次卷积对特征升维输出通道数乘以8。最后，来自两个分支的注意力特征图通过拼接操作和1×1卷积融合后与输入特征图相加形成双注意力特征映射，1×1卷积用于将输出特征通道数降维成与输入时特征通道数一致，1×1卷积层使用卷积核设置为1，padding为0，步长为1，bias为False。通道注意力单元是由双注意力单元删除空间注意力分支SA后构成，基本参数设置保持一致，如图6所示。

b)图像增强模块的网络构建

图像增强模块如图3所示，图像增强模块的网络构建，该模块主要由两个多尺度残差模块(MSRB)级联构成，最后一级MSRB模块的输出经过1次核为3，padding为1，步长为1，bias为False的卷积与图像增强模块的输入相加构成残差连接。

多尺度残差模块如图4所示，在多尺度残差模块(MSRB)中，首先，输入的特征首先通过连续两次倍率分别为2和4的下采样操作(尺度缩小2倍，4倍，通道数提升2倍，4倍)获得三种尺度(输入尺度、缩小2倍尺度，缩小4倍尺度)上的特征信息，每个尺度下的特征信息通过双注意力单元进行特征提取后，其次，在中间阶段通过上采样(尺度增加2倍，4倍，通道数减少2倍，4倍)或下采样操作交换不同尺度上的特征信息，每级输入的来自三个尺度上的特征信息输入特征选择模块进行特征融合选择，然后，每级特征选择模块的输出通过双注意力单元后通过上采样操作输入特征选择模块，最后，模块的输出经过1次核为3，padding为1，步长为1，bias为False的卷积与该MSRB模块的输入特征图相加形成残差连接后输出。下采样过程采用抗锯齿下采样，对输入的图像首先使用box_filter进行平滑处理和3×3卷积降低图像尺度，3×3卷积设置核为3，padding为0，步长为1，bias为False，再使用1×1卷积完成特征通道数升维的下采样操作，1×1卷积设置核为1，padding为0，步长为1，bias为False；上采样过程使用双线性插值提升图像尺度和1×1卷积完成特征通道数降维的下采样，1×1卷积设置核为1，padding为0，步长为1，bias为False。

特征选择模块如图7所示，特征选择模块通过融合和选择两个操作对网络的感受野进行动态调整提取有用特征信息，该模块将来自三个不同尺度上的特征信息组合相加后，先后通过1次全局平均池化，1次核为1，padding为0，步长为1，bias为False的卷积层将输入特征通道数降维到输入通道数除以8的通道数上，再通过1次PRelu激活函数，1次核为1，padding为0，步长为1，bias为False的卷积层将特征通道数升维与输入通道数一致，1次Softmax层后得到经过选择融合后的特征，最后，这组特征分别与输入的对应尺度下的特征图相乘再相加后，完成多尺度特征选择融合操作。

c)整体网络构建

整体网络框架如图1所示，考虑到性能和计算效率之间的折中，本发明使用一个多尺度小波特征提取模块和两个图像增强模块级联构成，级联顺序依次是：多尺度小波特征提取模块、图像增强模块、图像增强模块。同时，为了减少梯度消失和过拟合问题的发生，本发明将输入与最后一级模块的输出相加构成全局残差连接使网络更加容易。

d)损失函数设置

在网络的训练过程中，总的损失函数如公式(1)所示：

L_Total＝L_L2oss+L_SSIM+L_Perceptual (1)

损失函数的定义对网络模型性能来说至关重要，本发明设计的生成网络的损失函数由三部分组成，分别是像素级损失(L_L2oss)、机构相似性损失(L_SSIM)和感知损失(L_Perceptual)，训练时权重均一致。

具体来看，L_L2oss用来计算增强网络结果与Ground-truth之间的均方损失，L_SSIM用来计算增强网络结果与Ground-truth之间的亮度对比度结构差异，而L_Perceptual是感知损失，用来计算增强网络结果与Ground-truth都经过预训练的VGG网络后得到特征图之间的均方损失，如公式(2)、(3)和(4)所示:

其中，W和H分别是指代输入图像的宽和高的尺寸，F_i指的是网络的增强结果，GT指的是与输入对应的Ground-truth，V_gg(·)对应经过预训练的VGG网络操作，本发明选择了预训练VGG网络的前30层输出结果来进行计算，μ_Fi和μ_GT分别代表增强结果与Ground-truth的平均值，

和/>

分别代表增强结果与Ground-truth的方差，/>

代表增强结果与Ground-truth的协方差，C₁＝(k₁L)²C₂＝(k₂L)²表示两个维持稳定变量，L是像素的动态范围为255，k₁＝0.01，k₂＝0.03。

(3)数据加载与训练测试设置

a)数据加载

将训练集中的成对图像随机剪切成128×128像素值的尺寸大小，并进行翻折、旋转等图像预处理方法进行数据的增强后输入网络进行训练。

b)模型训练

模型训练使用Pytorch1.4.0框架，在Windows系统，Nvidia TITAN XP GPU和Intel(R)Core(TM)i5-10600KF CPU的计算机平台上进行模型训练，训练批归一化尺寸设为4，设置初始学习率均设为10^-4，迭代次数设置＝200，从第150次迭代后开始每25次迭代学习率减半，使用的优化器为Adam优化器并设置β₁＝0.9，β₂＝0.999，eps＝10^-8，weight_decay＝10^-8。

c)模型测试

为了验证本发明的有效性，本发明中采用了主观视觉效果和客观数值指标来评价增强效果。使用相同的训练数据集训练本发明和其他现有相关方法(LIME、GLAD、DSLR、MBLLEN、MIRNet)，本发明方法与其他现有在方法的主观视觉效果对比如附图所示，客观结果采用两种常用的图像质量评价指标分别是峰值信噪比(Peak Signal to Noise RatioPSNR)、结构相似性(SSIM)。本发明中，网络可以接收任意尺寸的RGB彩色图像，数据集中可以不包含成对的清晰-低质图像对，但为了方便测量PSNR、SSIM指标，在测试中我们使用了测试集和验证集中成对的清晰-低质图像对，结果如表1所示。

我们的主观对比实验结果如图9所示，从主观结果可以看出本发明相对其他现有方法来说，本发明中所提方法能够处理很多不同的光照分布(包含参与和未参与训练的光照类型)，可以很好地从受多种动态光照问题影响中恢复出正常光照下的人脸图像，同时，保留更多人脸以及物体特征而不会产生色差，从客观指标来看，本发明与其他方法相比也显示出了很大优势，因此综合主客观两方面来看，本发明的结果均优于现有的方法。

表1不同方法在测试集和验证集的客观结果

/>

Claims

1.一种基于多尺度注意力机制的动态光照人脸图像质量增强方法，其特征在于包括以下步骤：

(1)动态光照影响下人脸数据集准备

a)人脸数据集预处理

通过RetinaFace人脸检测算法将人脸图像进行检测和对齐操作，得到的图像再统一裁剪将其划分成256×256像素大小的尺寸，作为目标数据集；

b)多种动态光照人脸数据生成和数据集划分

多种动态光照人脸数据生成方法采用重照明方法；

(2)基于多尺度注意力机制的网络模型以及损失函数的构建

在第二部分中，将介绍多尺度小波特征提取模块、图像增强模块以及整体网络的构建，同时阐述所用到损失函数的详细设置；

a)多尺度小波特征提取模块的网络构建

多尺度小波特征提取模块的主要实现方法是通过小波变换代替传统的下采样过程实现图像尺度和通道维度上的变换，；具体来说，输入到该模块的图像首先经过一层卷积层在不改变图像尺寸大小的前提下将图像原本的3通道扩展到64通道，卷积层设置卷积核为3，padding为1，bias为False；然后，得到的特征图通过连续的3次2D离散小波变换下采样扩展到3种不同的尺度上，需要注意的是在特征通道级进行的下采样操作而不是像素级，每次小波变换后都需要通过一层卷积层和激活函数将变换后的特征调整到合适的通道数和尺度下，所用卷积层设置卷积核为3，padding为1，步长为1，bias为False，所用PRelu激活函数，所用小波变换是2D哈尔小波变换，小波变换将图像分解为高频信息和低频信息；；其次，三个不同尺度上的特征信息分别通过双注意力单元提取有用特征信息后，第三级通过2D离散小波逆变换进行上采样得到的特征信息与第二级获取到的特征信息通过拼接操作输入卷积层加通道注意力单元中进行高效的特征融合提取；最后，将第二级的输出与第一级进行相同操作步骤后与刚开始的输入特征图再次输入卷积加通道注意力单元的结构中，生成多尺度特征信息映射用来引导后续重建增强过程，所用到的卷积层设置均为：卷积核为3，步长为1，padding为1，bias为False；

双注意力单元作用是接受来自不同尺度上的特征信息，；输入的特征信息通过进行1次卷积1次激活函数1次卷积层的方式进行充分的跨通道交互增加特征信息的非线性，其中卷积层输入输出通道数数量一致，采用卷积核大小为3，bias为False，激活函数采用PRelu激活函数；然后，经过上述步骤后的特征信息分别通过空间注意力分支和通道注意力分支，两分支的输出通过拼接操作和1×1卷积进行特征融合后与与输入特征相加构成残差连接，最终获得双注意力特征映射；其中空间注意力分支分支首先对特征分别应用全局平均池和最大池操作，两者拼接后经过1次5×5卷积和sigmoid激活操作与对应通道相乘以形成空间注意力特征图；通道注意力分支首先通过全局平均池来编码全局上下文信息从而生成通道特征图，特征图通过1次1×1卷积，1次Relu激活函数，1次1×1卷积，1次sigmoid激活，生成的权值与与对应通道相乘生成通道注意力特征图；最后，来自两个分支的注意力图通过拼接操作和1×1卷积融合后与输入特征图相加形成双注意力特征映射；；

b)图像增强模块的网络构建

图像增强模块有两个多尺度残差模块级联构成，第一级模块的输入与经过1次核为3，padding为1，步长为1，bias为False的卷积层与第二级模块输出相加构成残差连接；

在多尺度残差模块中，首先，输入的特征通过连续两次倍率分别为2和4的下采样操作获得三种尺度上的特征信息，每个尺度下的特征信息通过双注意力单元进行特征提取后，其次，在中间阶段通过上采样或下采样操作交换不同尺度上的特征信息，每级输入的来自三个尺度上的特征信息输入特征选择模块进行特征融合选择，然后，每级特征选择模块的输出通过双注意力单元后通过上采样操作输入特征选择模块，最后，模块的输出经过1次核为3，padding为1，步长为1，bias为False的卷积与初始输入特征图相加形成残差连接后输出；

特征选择模块通过融合和选择两个操作对网络的感受野进行动态调整，该模块将来自三个不同尺度上的特征信息相加后，先后通过1次全局平均池化，1次核为1，padding为0，步长为1，bias为False的卷积层，1次PRelu激活函数，3次核为1，padding为0，步长为1，bias为False的卷积层，1次Softmax层后得到经过选择融合后的特征，最后，这组特征分别与输入的不同尺度特征图相乘再相加后，完成多尺度特征选择融合操作；

c)整体网络构建

整体网络使用一个多尺度小波特征提取模块和两个图像增强模块级联构成，；级联顺序依次是：多尺度小波特征提取模块、图像增强模块、图像增强模块；将输入与最后一级模块的输出相加构成全局残差连接；；

d)损失函数设置

在网络的训练过程中，总的损失函数如公式(1)所示：

损失函数的定义对网络模型性能来说至关重要，设计的生成网络的损失函数由三部分组成，分别是像素级损失(L_L2oss)、机构相似性损失(L_SSIM)和感知损失(L_Peroeptual)，训练时权重均一致；

L_L2oss用来计算增强网络结果与Ground-truth之间的均方损失，L_SSIM用来计算增强网络结果与Ground-truth之间的亮度对比度结构差异，而L_Perceptual是感知损失，用来计算增强网络结果与Ground-truth都经过预训练的VGG网络后得到特征图之间的均方损失，如公式(2)、(3)和(4)所示:

其中，W和H分别是指代输入图像的宽和高的尺寸，F_i指的是网络的增强结果，GT指的是与输入对应的Ground-truth，V_gg(·)对应经过预训练的VGG网络操作，选择了预训练VGG网络的前30层输出结果来进行计算，

和μ_CT分别代表增强结果与Ground-truth的平均值，

和/>

分别代表增强结果与Ground-truth的方差，σ_F，GT代表增强结果与Ground-truth的协方差，C₁＝(k⊥L)²C₁＝(k₂L)²表示两个维持稳定变量，L是像素的动态范围为255，k₁＝0.01，k₂＝0.03；/>

(3)数据加载与训练测试设置

a)数据加载

将训练集中的成对图像随机剪切成128×128像素值的尺寸大小，并进行数据增强后输入网络进行训练；

b)模型训练

模型训练使用的优化器为Adam优化器。