CN115526779A

CN115526779A - 一种基于动态注意力机制的红外图像超分辨率重建方法

Info

Publication number: CN115526779A
Application number: CN202211234451.2A
Authority: CN
Inventors: 胡越黎; 张海坤; 燕明; 马斌
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-12-27

Abstract

本发明公开了一种基于动态注意力机制的红外图像超分辨率重建方法，涉及图像处理方法技术领域。所述方法包括如下步骤：构建一个基于动态注意力机制的轻量化深度神经网络模型；制作所述神经网络模型的训练数据集；使用所述训练数据集对所述神经网络模型进行训练：将成对的低分辨率红外图像和目标图像提供给所述网络模型，设置超参数开始训练网络，直至达到所设定的最大迭代次数，终止训练；保存模型：训练完成后，将评估过程中峰值信噪比最高指标所对应的一组网络权重保存为最终的网络模型参数用于后期测试。所述方法能够提高红外图像超分辨率性能且参数量较小，计算速度快。

Description

一种基于动态注意力机制的红外图像超分辨率重建方法

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种基于动态注意力机制的红外图像超分辨率重建方法。

背景技术

得益于微电子技术的飞速发展，基于可见光的光学相机(RGB相机)凭借其较快的成像速度和较佳的成像质量，迅速在诸如安防监控、无人机、军事和农业等领域得到了广泛应用。然而，由于成像原理的限制，在光线质量不佳(如夜间)和恶劣天气条件等场景下，导致基于可见光的RGB相机成像质量迅速下降。此时，红外相机由于穿透烟、雾等能力较强，在上述场景下可替代传统 RGB相机用于捕获图像。但是，一般民用红外相机的传感器空间分辨率较低，无法与动辄百万像素的RGB相机所媲美，导致其最终成像的红外图像分辨率不高。因而，采用新技术和新方法高效而又经济的提高红外图像的分辨率成为亟待解决的问题。相较于花费大量时间和资金投入研发高分辨率红外传感器，从算法这一技术路径提升红外图像分辨率成为当前主流发展方向。

单图像超分辨率旨在根据观测的单帧图像恢复其所对应的高分辨率版本。近十年来，随着计算机处理速度的提升及专用图形处理器(GPU)技术的快速发展，基于深度神经网络的单图像超分辨率技术得到了长足发展。凭借深度神经网络强大的非线性拟合能力，基于此技术的图像超分辨率算法性能明显优于基于插值及字典学习的传统算法。此外，随着神经处理单元NPU的问世，在诸如手机等边缘设备部署大规模深度神经网络模型业已成为现实。然而，当前基于深度神经网络的红外图像超分辨率模型参数量较多，限制了其进一步应用。综上所述，研发基于深度神经网络的轻量化红外图像超分辨率算法具有明确的现实意义和确切的社会经济效益。

发明内容

本发明所要解决的技术问题是如何提供一种能够提高红外图像超分辨率性能，参数量较小，计算速度快的基于动态注意力机制的红外图像超分辨率重建方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于动态注意力机制的红外图像超分辨率重建方法，其特征在于包括如下步骤：

构建一个基于动态注意力机制的轻量化深度神经网络模型；

制作所述神经网络模型的训练数据集；

使用所述训练数据集对所述神经网络模型进行训练：将成对的低分辨率红外图像和目标图像提供给所述网络模型，设置超参数开始训练网络，直至达到所设定的最大迭代次数，终止训练；

保存模型：训练完成后，将评估过程中峰值信噪比最高指标所对应的一组网络权重保存为最终的网络模型参数用于后期测试。

进一步的技术方案在于：所述轻量化深度神经网络模型包括浅层特征抽取模块、深层特征抽取模块和特征重构模块。

进一步的技术方案在于：所述浅层特征抽取模块SFE包括一个卷积核大小为3×3的卷积层；输入的低分辨率红外图像LR经过浅层特征抽取模块处理后，其边缘、纹理等浅层特征被抽取，上述过程可表述为：

I_LFE＝f_3×3(I_LR)

其中，I_LR表示输入的低分辨率红外图像，f_3×3(·)表示卷积核大小为3×3的卷积操作，I_LFE表示浅层特征抽取模块SFE的输出。

进一步的技术方案在于：所述深层特征抽取模块包括16个动态注意力残差块，浅层特征抽取后的特征图连续通过深层特征抽取模块抽取图像的深层次特征；

每个动态注意力残差块包括：动态注意力权值模块、注意力模块和非注意力模块；设计一个动态注意力权值模块用于产生两个动态权值，分别对注意力模块和非注意力模块加权，以高效地抑制不期望的注意力调整；同时，为了进一步减少参数量，在动态注意力权值模块中部分使用1-D卷积而非完全的全连接层；动态注意力权值模块中的操作可表述为：

其中，x^n-1表示第n个动态注意力模块的输入，

和

分别表示Softmax、全连接、1-D卷积和全局平均池化操作，ω^att和ω^n-att分别为每个动态注意力权值模块依据输入特征而动态产生的注意力模块和非注意力模块的权值；

注意力模块包括像素注意力模块和通道注意力模块，分别用于在像素和通道维度突出重要特征；所述通道注意力模块对输入特征经过全局平均池化和标准差池化后的特征向量分别乘以一个可学习的参数α和β，用于突出全局平均池化和标准差池化的不同作用；同时，还对两个池化结果进行融合以进一步增强特征；融合以上三个特征后，使用1-D卷积代替全连接层以进一步提取通道间特征，注意力模块中的操作可表述为：

其中，f_1×1(·)表示卷积核大小为1×1的卷积操作，f_CA(·)和f_PA(·)分别表示通道注意力和像素注意力模块操作，

为第n个注意力模块的输出；

所述非注意力模块包括一个卷积核大小为3×3的卷积层，非注意力模块中的操作可表示为：

其中，

为第n个非注意力模块的输出，注意力模块和非注意力模块中卷积核大小为1×1的卷积层为同一个卷积操作；

第n个动态注意力残差块中的操作可表示为：

所述深层特征抽取模块的操作可表述为：

其中，

表示第n个动态注意力模块内的操作，I_DFE表示整个深层特征抽取模块DFE的输出。

进一步的技术方案在于：特征重构模块包括最近邻插值层、三个卷积核大小为3×3的卷积层和一个像素注意力层，×2和×3尺度因子对应的特征重构模块的操作可表示为：

其中，f_Nearest(·)表示最近邻插值操作，

表示×2和×3尺度因子所对应特征重构模块的输出；

由于×4尺度因子超分辨率重建所需要恢复的细节等高频信息更多，因而对该尺度因子所对应的特征重构块设计包括：两个最近邻插值层、五个卷积核大小为3×3的卷积层、两个像素注意力层，×4尺度因子所对应的特征重构块的操作可表示为：

其中，

表示×4尺度因子所对应特征重构块的输出；

最终输出的红外图像超分辨率结果可表示为：

I_SR＝I_FR+f_Nearest(I_LR)。

进一步的技术方案在于：构造训练数据集时，将已有的高分辨率红外图像作为目标图像，利用双三次插值算法下采样分别得到×2、×3和×4尺度因子所对应的低分辨率红外图像作为所述网络模型的输入。

进一步的技术方案在于：训练网络时使用Adam优化器，初始学习率α＝5×10^-4，批大小为32；计算生成的I_SR和真实高分辨率图像I_HR之间的L₁损失，通过反向传播算法更新网络权重，重复以上步骤直至达到设定的迭代次数完成训练。

进一步的技术方案在于：训练完成后，将评估过程中峰值信噪比最高指标所对应的一组网络权重保存为最终的网络模型参数用于后期测试。

采用上述技术方案所产生的有益效果在于：1)本发明所述方法设计了一个动态注意力权值模块，该模块根据输入特征图的不同，动态的产生注意力模块和非注意力模块的加权值，以进一步增强特征表述。本发明所提的动态注意力权值模块可抑制不期望的注意力调整，提高最终红外图像超分辨率性能。同时，本发明所提出的动态注意力权值模块及非注意力模块均基于轻量化设计思想，参数量较小，便于部署在嵌入式设备和边缘设备。

2)本发明所设计的通道注意力模块对全局平均池化和标准差池化后的特征再次施加权重，克服了传统通道注意力模块设计忽略两种不同池化作用的缺陷。同时，与当前绝大多数网络使用的通道注意力模块不同，为了减少参数量，本发明对融合后的通道注意力特征使用1-D卷积而非全连接层。

3)本发明所设计的基于动态注意力机制轻量化深度神经网络的红外图像超分辨率重建方法在保持较小参数量的同时，其红外图像超分辨率重建效果显著由于双三次插值等对比算法，具备部署在边缘设备的条件及良好超分辨率重建性能。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明的一个较佳实施例所述方法的流程框图；

图2是本发明的一个较佳实施例所述方法的网络结构图；

图3是本发明的一个较佳实施例所述方法的动态注意力残差块结构图；

图4是本发明的一个较佳实施例所述方法的像素注意力模块结构图；

图5是本发明的一个较佳实施例所述方法的通道注意力模块结构图；

图6是本发明的一个较佳实施例所述方法的×2和×3尺度因子所对应的特征重构块结构图；

图7是本发明的一个较佳实施例所述方法的×4尺度因子所对应的特征重构块结构图；

图8是本发明的一个较佳实施例所述方法与双三次插值(Bicubic)、 FSRCNN和SR-LUT方法在640×480和384×288两个分辨率×2尺度因子下红外图像超分辨率重建效果定性对比图；

图9是本发明的一个较佳实施例所述方法与双三次插值(Bicubic)、 FSRCNN和SR-LUT方法在640×480和384×288两个分辨率×3尺度因子下红外图像超分辨率重建效果定性对比图；

图10是本发明的一个较佳实施例所述方法与双三次插值(Bicubic)、 FSRCNN和SR-LUT方法在640×480和384×288两个分辨率×4尺度因子下红外图像超分辨率重建效果定性对比图；

图11本发明与对比方法参数量-PSNR对比图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明实施例公开了一种基于动态注意力机制的红外图像超分辨率重建方法，包括如下步骤：

S1)构建深度神经网络模型：该模型主要包括浅层特征抽取(Shallow FeatureExtraction，SFE)模块、深层特征抽取(Deep Feature Extraction，DFE)模块和特征重构(Feature Reconstruction，FR)模块。原始输入的低分辨率红外图像经过最近邻插值后与特征重构模块的输出相加产生最终的高分辨率红外图像输出。为满足轻量化设计需求，所构建的浅层特征抽取模块SFE仅由一个卷积核大小为3×3的卷积层构成，该模块的结构图如图2所示。输入的低分辨率红外图像LR经过浅层特征抽取模块SFE后，其边缘、纹理和颜色等特征被抽取。上述过程可表述为：

I_LFE＝f_3×3(I_LR)

其中，I_LR表示输入的低分辨率红外图像，f_3×3(·)表示卷积核大小为3×3的卷积操作，I_LFE表示浅层特征抽取模块SFE的输出。浅层特征抽取后的特征图连续通过由16个动态注意力残差块组成的深层特征抽取DFE模块用于抽取图像诸如语义信息等深层次特征，该模块的整体结构图如图2所示。每个动态注意力残差模块包括以下三个部分：动态注意力权值模块、注意力模块和非注意力模块。由于注意力模块在网络所处的深度不同，其对最终超分辨率重建性能的贡献也不尽相同，当前绝大多数基于深度神经网络的红外图像超分辨率方法简单堆叠相同结构的注意力模块并不足以充分利用注意力模块特征重塑的优势。

因此，本发明设计了一个动态注意力权值模块用于产生两个动态权值分别对注意力模块和非注意力模块加权，以高效地抑制不期望的注意力调整，动态注意力权值模块的结构图如图3所示。同时，为了进一步减少参数量满足轻量化设计，本发明在动态注意力权值模块中部分使用1-D卷积而非完全的全连接层。动态注意力权值模块中的操作可表述为：

其中，x^n-1表示第n个动态注意力权值模块的输入，

和

分别表示Softmax、全连接、1-D卷积和全局平均池化操作，ω^att和ω^n-att分别为动态注意力权值模块依据输入特征而动态产生的注意力模块和非注意力模块的权值。为了充分提取特征图的深层次信息，本发明在动态注意力残差块内设计了两个分支模块；注意力模块和非注意力模块。其中，注意力模块由像素注意力模块和通道注意力模块依次连接组成，分别用于在像素和通道维度突出重要特征，其结构图分别如图4和图5所示。与一般的通道注意力模块不同，本发明所设计的通道注意力模块对输入特征经过全局平均池化和标准差池化后的特征向量分别乘以一个可学习的参数α和β，用于突出全局平均池化和标准差池化的不同作用。同时，本发明还对两个池化结果进行融合以进一步增强特征。融合以上三个特征后，为减少参数，本发明使用1-D卷积代替全连接层以进一步提取通道间特征。注意力模块中的操作可表述为：

为第n个注意力模块的输出。为减少参数量，本发明所设计的非注意力模块仅由一个卷积核大小为3×3的卷积层构成，其结构图如图3所示。非注意力模块中的操作可表示为：

其中，

为第n个非注意力模块的输出，注意力模块和非注意力模块中卷积核大小为1×1的卷积层为同一卷积操作。综上，第n个动态注意力模块中的操作可表示为：

综上所述，本发明所提出的深层特征抽取块DFE操作可表述为：

其中，

表示第n个动态注意力模块内的操作，I_DFE表示整个深层特征抽取模块DFE的输出。对于×2和×3尺度因子，特征重构模块FR由一个最近邻插值块，三个卷积核大小为3×3的卷积层和一个像素注意力层组成，其结构图如图6所示。×2和×3尺度因子对应的特征重构模块的操作可表示为：

其中，f_Nearest(·)表示最近邻插值操作，

表示×2和×3尺度因子所对应特征重构模块的输出。由于×4尺度因子超分辨率重建所需要恢复的细节等高频信息更多，重建难度更大，因而本发明对该尺度×4因子所对应的特征重构块的设计包括以下组件：两个最近邻插值层、五个卷积核大小为3×3的卷积层和两个像素注意力层，其结构图如图7所示。×4尺度因子所对应的特征重构块FR的操作可表示为：

其中，

表示×4尺度因子所对应特征重构块的输出。最终输出的红外图像超分辨率结果SR可表示为：

I_SR＝I_FR+f_Nearest(I_LR)

S2)制作训练数据集：对于已有的可公开获取的高分辨率红外图像数据集分别采用尺度因子为×2、×3和×4的双三次插值下采样算法得到对应的低分辨率红外图像构成训练集。

S3)训练深度神经网络：训练网络时使用Adam优化器，初始学习率α＝5×10^-4，批大小为32。计算生成的I_SR和真实高分辨率图像I_HR之间的L₁损失，通过反向传播算法更新网络权重，重复以上步骤直至达到设定的最大迭代次数完成训练。

S4)保存模型：训练完成后，将评估过程中峰值信噪比指标最高所对应的一组网络权重保存为最终的网络模型参数用于测试。

本发明将分辨率分别为640×480和384×288的高分辨率红外图像作为测试目标图像，其由双三次插值算法得到的×2、×3和×4尺度因子对应的低分辨率红外图像作为网络输入。本发明与双三次插值(Bicubic)、FSRCNN和SR-LUT方法在以上两个分辨率红外图像数据集上的定性对比分别如图8、图9和图10所示。由图8、图9和图10可以看出，本发明所提出的红外图像超分辨率重建算法在提升红外图像分辨率的同时，相较于对比方法可更好的重建边缘和纹理等细节且伪影较少，定性证明了本发明所提方法在红外图像超分辨率重建上的有效性。

本发明将分辨率分别为640×480和384×288的高分辨率红外图像作为测试目标图像，其由双三次插值算法得到的×2、×3和×4尺度因子对应的低分辨率红外图像作为网络输入。通过计算网络生成的高分辨率红外图像I_SR和目标图像之间的峰值信噪比(PeakSignal to Noise Ratio，PSNR)和结构相似性(Structural SIMilarity，SSIM)指数作为定量评价指标。本发明所提出的网络与Bicubic、FSRCNN和SR-LUT方法的定量对比结果如表1所示。640×480和384×288分辨率红外图像分别包含50张和20张测试图像，所有的实验结果均为多次测试取平均值。从表1可以看出，本发明所提红外图像超分辨率重建方法在PSNR和SSIM两个评价指标上均高于Bicubic、FSRCNN和SR-LUT对比方法，定量证明了本发明在红外图像超分辨率上的有效性。

表1本发明与对比方法红外图像超分辨率重建定量对比结果

本发明所提的网络在公开数据集上与FSRCNN、SRCNN、DRRN、VDSR、 MemNet、IMDN、SRMNDF、DRCN、A²N-M、A²N和MANDNet-L_F算法的参数-PSNR对比图11所示。由图11可知，本发明所提的网络在保持较少参数量的同时取得了较高的PSNR指标，较好的平衡了参数量和性能之间的关系。同时可以看出，本发明所提的红外图像超分辨率网络具有部署在嵌入式设备和边缘设备的潜力。