CN113902625A

CN113902625A - 一种基于深度学习的红外图像增强方法

Info

Publication number: CN113902625A
Application number: CN202110955946.3A
Authority: CN
Inventors: 刘勰; 王建博; 罗国庆; 李国胜; 刘桂华; 祝礼佳; 张华�; 张静; 陈春梅; 庞忠祥; 赵皓
Original assignee: Southwest University of Science and Technology; Shenzhen Launch Digital Technology Co Ltd
Current assignee: Southwest University of Science and Technology; Shenzhen Launch Digital Technology Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-01-07

Abstract

本发明公开了一种基于深度学习的红外图像增强方法，涉及红外图像技术领域，包括如下步骤：采集红外图像对并按比例划分为训练样本集与测试样本集，对训练样本集进行数据增强获得丰富的训练集；针对低质量红外图像对比度低、细节模糊等问题，通过引入残差结构、通道注意力机制以及空间注意力机制设计一种全卷积红外图像增强网络；利用训练样本集对该网络进行监督训练获得红外图像增强模型，该模型适用于不同分辨率的红外图像；最后将待测试的低质量红外图像输入该模型，获得增强后的红外图像。

Description

一种基于深度学习的红外图像增强方法

技术领域

本发明涉及红外图像技术领域，具体是一种基于深度学习的红外图像增强方法。

背景技术

基于RGB相机的计算机视觉技术已经得到广泛的应用，如图像分类、目标检测、图像分割等，但是基于RGB相机的计算机视觉技术容易受到照明、天气等环境影响。针对以上问题，红外热成像相机可以在复杂的背景或者缺乏光照的环境中获得目标的温度信息，故基于红外图像的计算机视觉技术也越来越受到重视。一般来说，商用的、低成本的红外热成像相机采集的红外图像存在边缘模糊、低信噪比等问题。因此，对红外图像进行增强获得高质量的红外图像十分有意义。

目前，红外图像增强相关研究仍然较少。传统的图像增强方法如直方图均衡化(histogram equalization，HE)，该算法增强目标的同时，背景噪声也会被放大，效果较差。其改进算法对比度受限直方图均衡(contrast limited adaptive histogramequalization,CLAHE)能够抑制背景噪声，但是边缘容易被模糊。受到可见光的研究进展启发，本发明将基于深度学习完成红外图像增强，以获得高质量红外图像。

发明内容

鉴于上述技术缺点，本发明提供了一种基于深度学习的红外图像增强方法，包括如下步骤：

S1，采集不同场景的红外图像对获得数据集，将数据集划分为训练样本集与测试样本集；

S2，将S1得到的训练样本集进行数据增强；

S3，通过引入残差结构、通道注意力机制以及空间注意力机制构建红外图像增强网络；

S4，将S2得到的训练样本集监督训练红外图像增强网络，获得红外图像增强模型；

S5，将红外测试图像输入至S4训练完成的红外图像增强模型，获得增强后的红外图像。

作为优选的，S1中的采集不同场景的红外图像对为：

固定红外热成像相机拍摄位置与角度，选择不同的场景分别采集红外图像对，所有的红外图像对形成数据集，并按照设定的比例将数据集划分为训练样本集与测试样本集。

作为优选的，S2中的数据增强包括如下过程：

步骤一，利用滑动窗口裁剪算法对原始图像对进行裁切，固定并减小红外图像尺寸，且使得图像长宽相等；

步骤二，采用图像翻转、图像亮度变换、图像尺度缩放等方式对切割后的图像进行数据增强。

作为优选的，S3中构建的红外图像增强网络包括如下：

图像特征提取部分是利用3个卷积层进行红外图像特征的提取，得到3个特征图；其中的卷积层后面均使用relu激活函数，relu激活函数的数学表达式如下：

接着利用通道注意力机制与空间注意力机制筛选第三个特征图；其中所涉及全连接层使用卷积核为1×1的卷积层代替，所涉及的激活函数使用sigmoid激活函数，其数学表达式如下：

接着利用残差结构融合特征图，使得特征图含有丰富的细节信息以及语义信息；

接着利用反卷积层实现图像上采样，使得特征图分辨率与输入图像一致；

最后利用两个卷积层进一步学习与重组图像特征，其中最后一个卷积后面使用tanh激活函数，tanh激活函数的数学表达式如下：

其中，卷积后面增加批量归一化层，基于归一化使得特征服从单位高斯分布，同时通过γ和β两个超参数进一步缩放和平移归一化后的特征。

作为优选的，S3中的残差结构的数学表达式为：

y＝f(x)+x

其中，x和y分别表示输入和输出，f(x)表示特征提取层；通过引入残差结构融合红外图像增强模型的第一层卷积层提取的特征和第三层卷积层提取的特征；

S3中的通道注意力机制是利用全局平均池化操作将第三个卷积层提取的特征图压缩成特征向量，特征向量维度为特征图的通道数量，计算每一通道特征的均值，其数学表达式为：

其中，H和W分别表示特征图的高和宽，f(i，j)表示坐标(i，j)的特征值；

S3中的空间注意力机制的步骤为：

S31，统计与计算特征所有通道同一空间坐标的最大值与均值，分别生成两通道特征图，将两张特征图进行通道拼接；

S32，利用一个卷积层和sigmoid函数学习每一个空间坐标的重要性权重；

S33，将重要性权重与输入特征相乘完成从空间区域上筛选特征。

作为优选的，S4中的训练过程的超参数设置如下：

(1)初始学习率lr为1e-3，通过如下公式等间隔调整学习率：

其中，x表示迭代周期，γ调整倍数设置为0.1，调整间隔s设置为30；即每30个迭代周期学习率下降10倍；

(2)优化算法选择Adam优化算法，其中beta1、beta2参数分别设置为0.9和0.999；

(3)批次大小batch_size设置为32，总的迭代周期EPOCH设置为100，设定训练样本总数为S，最大迭代次数N如下所示：

作为优选的，S4中的监督训练过程如下：

S41，输入设定尺寸的红外图像，经过归一化的处理之后，输入第一个卷积层获得分辨率为输入图像的1/2的特征图；

S42，接着再利用两个卷积模块进一步提取深层特征，并利用通道注意力机制对提取的深层特征从特征通道数上进行筛选，以及利用空间注意力机制对提取的深层特征从特征空间尺寸上进行筛选，从而保留特征中有效信息，并抑制特征中的背景噪声；

S43，利用残差结构融合浅层特征与深层特征，获得语义信息与细节信息丰富的特征图；

S44，将融合后的红外图像特征进行反卷积操作调整特征尺寸和输入图像一致，并增加两层特征层对融合后的红外图像特征进一步地学习与重组，输出增强后的红外图像；

S45，计算增强后的红外图像相对于参考红外图像的损失值，损失函数使用均方误差函数，该均方误差函数的数学表达式为：

其中，m表示批量大小，W和H表示图像长和宽，f_ij表示参考红外图像坐标点(i，j)的像素值，f′_ij表示预测的增强后的红外图像坐标点(i，j)的像素值；

S46，根据计算的损失值，反向计算梯度更新红外图像增强网络的参数；

S47，重复上述步骤，直至训练次数达到设定的最大迭次数N后停止训练；保存训练好的红外增强模型。

本发明的有益效果是：

1.基于深度学习设计的全卷积神经网络，使得输入图像尺寸不受限制，可以适用于不同分辨率的红外热成像相机；

2.仅8层的卷积神经网络，具有较少的参数，不仅节省了训练与推理时间，而且降低了对硬件平台的需求；

3.模型通过引入残差结构、通道注意力机制以及空间注意力机制，能够更好地拟合高质量 -低质量红外图像的映射关系，获得高质量红外图像。

附图说明

图1为；本发明提供的流程示意图；

图2为；本发明提供的红外增强网络结构图；

图3为；本发明提供的残差结构示意图；

图中，C:卷积层3×3；B：批量归一化层；R：relu激活函数；T：tanh激活函数；S：sigmoid 激活函数；F：concat通道拼接；D：反卷积3×3；GAP：全局平均池化；FC：全连接层。

具体实施方式

下面结合本发明的附图1-3，对本发明实施例中的技术方案进行清楚、完整地描述，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于深度学习的红外图像增强方法，包括如下步骤：

S1，采集不同场景的红外图像对获得数据集，将数据集划分为训练样本集与测试样本集。

在具体实施时，固定红外热成像相机拍摄位置与角度，选择不同的场景分别采集高质量的红外图像和低质量的红外图像(低质量的红外图像存在对比度低、细节模糊等缺点)形成红外图像对，所有的红外图像对形成数据集，并按照8:2比例将数据集划分为训练样本集与测试样本集。

S2，将S1得到的训练样本集进行数据增强。

步骤一，利用滑动窗口裁剪算法对原始图像对进行裁切，固定并减小红外图像尺寸，且使得图像长宽相等。

利用滑动窗口算法将训练样本集中的红外图像裁剪至窗口大小为256×256，步长设置为 40×40，使得红外图像尺寸固定为256×256。不仅可以减少后续模型的计算量进而减少模型训练阶段使用时间；并且可以丰富红外图像训练样本；

测试样本集中的红外图像保持原始尺寸不变，然后采用图像翻转、旋转等操作实现样本扩充，对裁剪后的训练样本集中的红外图像进行样本增强。

S3，通过引入残差结构、通道注意力机制以及空间注意力机制构建红外图像增强网络。

S3中构建的红外图像增强网络包括如下：

如图2所示，图像特征提取部分利用3个卷积层进行红外图像特征提取，得到3个特征图；第1个卷积层提取的浅层特征包含较多的细节，第3个卷积层提取的特征图包含较多的深层语义信息；其中所述的卷积层后面均使用relu激活函数，relu激活函数的数学表达式如下：

relu激活函数具有简单计算较快的作用。

接着利用通道注意力机制与空间注意力机制筛选第三个特征图，保留有效信息并抑制背景噪声；其中所涉及全连接层使用卷积核为1×1的卷积层代替，所涉及的激活函数使用 sigmoid激活函数，其数学表达式如下：

最后利用两个卷积层进一步学习与重组图像特征；其中最后一个卷积后面使用tanh激活函数，tanh激活函数的数学表达式如下：

其中，卷积后面增加批量归一化层，基于归一化使得特征服从单位高斯分布，可以减少特征尺度不统一造成的影响；同时通过γ和β两个超参数进一步缩放和平移归一化后的特征，，使其仍然保留原始特征表达能力。

该红外图像增强网络的第一个卷积对输入图像进行了2倍下采样，因此引入一个反卷积层进行图像尺寸恢复，同时利用两个卷积层进一步重组与学习。

如图3所示，S3中的残差结构的数学表达式为：

y＝f(x)+x

其中，x和y分别表示输入和输出，f(x)表示特征提取层；通过引入残差结构融合红外图像增强模型的第一层卷积层提取的特征和第三层卷积层提取的特征，避免了在映射过程中丢失图像细节；残差结构的融合操作需要输入维度和f(x)输出维度一致，否则残差结构的快捷通道将引入一个卷积对输入维度进行调整；红外图像增强模型中第二个和第三个卷积层没有改变特征维度，因此快捷通道边不需要引入额外的卷积；另外残差结构融合方式采用通道拼接，以较少的计算量增加特征维度。

特征维度包含特征空间尺寸与特征通道数，通道注意力机制和空间注意力机制分别从特征通道与特征空间进行有效信息筛选与无效信息的抑制。

S3中所述的通道注意力机制是利用全局平均池化操作将第三个卷积层提取的特征图压缩成特征向量，特征向量维度为特征图的通道数量，计算每一通道特征的均值，其数学表达式为：

其中，H和W分别表示特征图的高和宽，f(i，j)表示坐标(i，j)的特征值；然后利用两个全连接层、relu激活函数以及sigmoid激活函数学习每一层通道特征的重要性权重；最后将计算获得的重要性权重乘上对应的通道特征，从而过滤无效通道特征，保留有效通道特征。

S3中的空间注意力机制的步骤为：

S4，将S2得到的训练样本集监督训练红外图像增强网络，获得红外图像增强模型。

S4中的监督训练过程如下：

S41，输入设定尺寸的低质量红外图像，经过归一化的处理之后，输入第一个卷积层获得分辨率为输入图像的1/2的特征图；

S45，计算增强后的红外图像相对于(上述参考即真实高质量)真实高质量红外图像的损失值，损失函数使用均方误差函数，该均方误差函数的数学表达式为：

其中，m表示批量大小，W和H表示图像长和宽，f_ij表示真实的高质量红外图像坐标点 (i，j)的像素值，f′_ij表示预测的高质量红外图像坐标点(i，j)的像素值；

S4中的训练过程的超参数设置如下：

(1)初始学习率lr为1e-3，通过如下公式等间隔调整学习率：

训练过程中，选择合适的超参数会加快训练阶段，提高训练速度，以及提高模型性能。

S5，将低质量的红外测试图像输入至S4训练完成的红外图像增强模型，获得增强后的红外图像。

设计的模型图中卷积层与全连接层是有参数的，训练过程就是调整这些参数，以达到模型输出的图像接近真实的高质量图像。在训练过程中，通过计算预测的高质量图像和真实的高质量图像距离差(均方误差函数)可以观察到每一次迭代模型的好坏，损失越小，预测的越接近高质量图像。反向传播，利用损失误差链式求导求梯度，依次更新模型参数(模型参数指的是卷积层的卷积核参数)。一次迭代包括一次前向传播和一次反向传播。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。