CN114898105B

CN114898105B - 一种复杂场景下的红外目标检测方法

Info

Publication number: CN114898105B
Application number: CN202210207336.XA
Authority: CN
Inventors: 马小林; 蔡永培; 旷海兰; 刘新华
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2024-04-19
Anticipated expiration: 2042-03-04
Also published as: CN114898105A

Abstract

本发明提供了一种复杂场景下的红外目标检测方法，本发明通过改进的主干特征提取网络对输入红外图像进行特征提取，结合特征金字塔网络结构与路径聚集网络结构，实现不同尺度特征信息的融合，同时优化网络的损失函数，最后对不同尺度的特征图进行预测，并使用基于Distance‑IoU(DIoU)的非极大值抑制提升对密集遮挡物体的检测，可广泛应用于自动驾驶、夜间安防等领域。

Description

一种复杂场景下的红外目标检测方法

技术领域

本发明属于数字红外目标检测领域，具体涉及一种复杂场景下的红外目标检测方法。

背景技术

目标检测是一项重要的计算机视觉任务，包括识别(例如目标分类)和定位(例如位置回归)任务。目标检测需要将特定目标类的目标与图像中的背景进行区分，并对每个目标实例进行精确定位和正确的分类标签预测。目标检测能够为图像和视频的语义理解提供有价值的信息。近年来，随着深度学习技术的快速发展，为目标检测注入了新鲜血液，取得了显著的突破，也将其推向了一个前所未有的研究热点。相对于传统的目标检测方法，深度学习的算法具有更高的精度。

为了实现鲁棒的检测和识别，用于验证的提取特征必须不受光照、姿态和其他变化的影响。可见光图像分辨率高、细节丰富，但是相比红外图像很容易受光照变化的影响，很大程度上增加了目标识别的难度。红外目标检测利用红外探测器感知目标与背景之间的红外辐射差异成像后进行检测。在一些特殊天气如雨天、雾天包括夜间和缺乏光源的情况下，红外成像也可以正常工作，且抗干扰能力强、工作距离远、受天气影响小、能昼夜工作。红外目标检测不仅应用于军事领域，在工业、安防、交通等民用领域也有着广泛应用。

目前基于深度学习的目标检测算法研究已经取得了显著性的成果，但是当下国内外研究的大多数应用场景均是基于可见光条件，有关红外场景的研究很少，因此需要针对红外目标检测进行深入研究。

发明内容

针对现有红外目标检测技术研究较少，且在人群密集、复杂场景下检测效果不佳等问题，本发明提出了一种复杂场景下的红外目标检测方法。其目的在于，使用改进的主干网络进行特征提取，提高模型对重要特征的提取能力。优化网络的损失函数，使得训练聚焦在高质量的正样本上，提高模型在复杂场景下的检测能力，增强鲁棒性。采用多尺度融合实现不同大小目标的检测，增强模型在不同尺度目标下的检测精度。

为了实现上述目的，本发明所采用的技术方案为：一种复杂场景下的红外目标检测方法，该方法包括如下步骤：

(1)对输入红外图像进行Mosaic数据增强；

(2)对特征提取网络CSPDarknet53结构进行优化改进，在特征提取网络中加入注意力机制ECA模块；使用Focus结构对输入图像进行切片操作，再经过多次卷积处理，然后利用优化的CSPDarknet53特征提取网络进行特征信息的提取，得到不同尺度的特征图，并在特征提取网络后加入SPP模块，解决目标尺度变化带来的精度下降的问题；

(3)将(2)中最后所得的最小特征图通过特征金字塔网络结构与路径聚集网络结构，将高层的强语义特征信息与低层的强定位特征进行融合，结合两种网络结构最终得到同时具备强语义特征和强定位特征的不同尺度的检测层；

(4)优化损失函数，使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数，实现多尺度检测，得到不同的预测框；

(5)对(4)所得预测框进行非极大值抑制处理，通过基于DIoU的非极大值抑制对预测框进行筛选，消除置信度低的预测框，得到精确度更高的预测框；

(6)使用FLIR红外图像数据集对(2)-(5)中的整体网络结构进行训练，使用训练得到的整体网络结构进行检测，得到测试结果。

进一步的，步骤(1)的具体实现方式如下；

(1-1)对输入红外图像预处理，对图像进行自适应缩放，统一缩放为640×640的尺寸；

(1-2)对缩放后的图像进行数据增强，每4张图片通过随机缩放、裁剪、排布的方式进行拼接，丰富检测数据集，提升小目标的检测效果。

进一步的，步骤(2)的具体实现方式如下；

(2-1)对主干特征提取网络CSPDarknet53结构进行改进，在卷积层之间添加注意力机制ECA模块，将特征提取网络中的10层网络变为13层网络；

(2-2)使用Focus结构将步骤(1)所得图像进行切片操作把高分辨率的特征图拆分为多个低分辨率的特征图，在通道维度上进行拼接再经过一次卷积得到320×320的特征图，然后经过步长为2的3×3卷积核对得到的320×320特征图进行4次下采样，并使用优化后的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图；

(2-3)在特征提取网络后加入SPP模块，首先对改进的CSPDarknet53网络进行特征提取所得到的20×20特征图经过1×1的卷积核进行降维，然后经过四种不同大小的池化层得到全局特征和局部特征，具体地，经过1×1大小的池化层获取全局特征，经过5×5、9×9、13×13大小的池化层获取不同大小的特征图得到局部特征，经过不同的通道获取不同的特征信息，然后将局部特征与全局特征进行融合，再经过一次卷积得到新的20×20特征图，增强特征表达能力，扩大特征图的感受野，解决目标尺度变化带来的精度下降的问题。

进一步的，步骤(3)的具体实现方式如下；

将步骤(2-3)中所得20×20特征图通过特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合，将20×20特征图进行上采样得到40×40特征图，再与(2-2)中特征提取网络所得40×40特征图进行融合，将融合所得40×40特征图进行上采样得到80×80特征图，与(2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图，然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图，并与特征金字塔中经过融合所得到的40×40特征图进行融合，再将融合所得40×40特征图进行下采样得到的20×20特征图与(2-3)中经过SPP模块处理所得20×20特征图进行融合得到融合的20×20特征图；通过两种网络结构结合，最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层，实现不同大小目标类别和位置的预测。

进一步的，步骤(4)的具体实现方式如下；

损失函数Varifocal Loss的计算公式如下：

其中p是预测的分类得分，q为目标分数，γ为常数；Varifocal Loss非对称地处理正负样本，只对负样本进行p^γ的衰减，并对正样本使用q进行加权，使得训练可以聚焦在质量高的样本上，同时使用权重因子α对负样本进行加权，平衡总体的正负样本。

进一步的，步骤(5)的具体实现方式如下；

DIoU的计算公式为：

其中IoU为预测框P与Q的交并比，计算公式为：

d表示两个预测框中心点之间的距离，c表示同时包含两个预测框的最小框的对角线长度，对于得分最高的预测框M，将DIoU-NMS的公式定义为:

其中s_i是分类得分，ε是NMS的阈值，R_DIoU表示的是得分最高的预测框M与预测框Bi中心点之间距离的关系，用下面的公式表示：

通过同时考虑IoU和两个预测框的中心点之间的距离来删除冗余的预测框，将得分最高的预测框M和其他框Bi的DIoU值与NMS的阈值进行比较，如果较小则保持得分s_i，否则当DIoU值大于阈值时将s_i值设为0，即被过滤掉。

进一步的，采用随机梯度下降(SGD)优化器对整体网络结构参数进行迭代更新训练，利用训练得到的整体网络结构进行测试得到检测结果。

本发明的有益效果在于：通过改进的主干特征提取网络对输入红外图像进行特征提取，结合特征金字塔网络结构与路径聚集网络结构，实现不同尺度特征信息的融合，同时优化网络的损失函数，最后对不同尺度的特征图进行预测，并使用基于Distance-IoU(DIoU)的非极大值抑制提升对密集遮挡物体的检测，可广泛应用于自动驾驶、夜间安防等领域。该方法包括输入端、主干网络和检测层。在输入端对红外图像进行数据增强，提升对小目标的检测能力。使用融合注意力机制的主干网络从输入红外图像中提取信息特征，能够更有效地提取检测目标的特征信息。在检测层采用多尺度特征进行检测，在特征金字塔网络结构后加入一种自下而上的路径聚集网络结构，实现不同尺度特征信息的融合。同时优化检测网络的损失函数，使训练聚焦在高质量的正样本上。本发明主要包括三个方面：一是在主干特征提取网络CSPDarknet53中嵌入轻量化注意力模块ECA-Net，使检测网络能够更显著地提取红外图像的特征，提高网络的检测能力。二是对损失函数进行优化，使用正负样本不对称加权的Varifocal Loss作为损失函数。由于正样本太少，故只对负样本进行衰减，避免大量的简单负样本主导训练的loss，另一方面对正样本进行加权，使训练可以聚焦到质量高的样本上，从而进一步提升模型的鲁棒性。三是使用基于DIOU的非极大值抑制筛选多余的目标检测框，改善由于密集或遮挡物体带来的漏检、错检等问题。

附图说明

图1为本发明一种复杂场景下的红外目标检测方法的流程图；

图2为本发明一种复杂场景下的红外目标检测方法的网络结构示意图；(a)为本发明一种复杂场景下的红外目标检测方法的网络结构整体示意图；(b)为本发明一种复杂场景下的红外目标检测方法的网络中各模块详细结构图；

图3为本发明一种复杂场景下的红外目标检测方法所采用的ECA注意力机制流程图；

图4为本发明一种复杂场景下的红外目标检测方法所采用的特征金字塔网络与路径聚集网络结构示意图；

图5为本发明一种复杂场景下的红外目标检测方法所采用的DIoU示意图；

图6为本发明一种复杂场景下的红外目标检测方法的检测效果图示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种复杂场景下的红外目标检测方法，该方法主要包括：如图1所示，对输入红外图像进行数据增强、主干网络特征提取、多尺度特征融合、非极大值抑制处理及优化的损失函数等方面。整个方法包括如下步骤：

(1)对输入红外图像进行Mosaic数据增强，丰富检测数据集，同时增加数据中的小目标，增强网络的鲁棒性；

(2)对特征提取网络CSPDarknet53结构进行改进，在网络中加入注意力机制ECA模块，ECA模块仅包含少量参数，在不降低维度的情况下进行逐通道全局平均池化，通过考虑每个通道及其k个近邻来实现局部跨通道交互，使网络能够更加有效地提取目标的特征信息；使用Focus结构进行切片操作，再经过一次卷积得到320×320的特征图，然后经过步长为2的3×3卷积核对图片进行4次下采样，利用优化的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图；在特征提取网络后加入SPP模块，将局部特征与全局特征进行融合，增强特征表达能力，解决目标尺度变化带来的精度下降的问题；

(3)将(2)最后所得20×20特征图通过特征金字塔网络结构与路径聚集网络结构将高层的强语义特征信息与低层的强定位特征进行融合，特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合，将20×20特征图进行上采样得到40×40特征图，再与(2)中特征提取网络所得40×40特征图进行融合，将融合所得40×40特征图进行上采样得到80×80特征图，与(2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图，然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图，并与特征金字塔中经过融合所得到的40×40特征图进行融合，再将融合所得40×40特征图进行下采样得到的20×20特征图与(2)中最后所得20×20特征图进行融合得到融合的20×20特征图，通过路径聚集网络自底向上将低层的强定位特征传递上去，结合两种网络结构最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层；

(4)优化网络的损失函数，使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数，使用优化损失函数的预测网络进行多尺度检测，得到不同的预测框；

(5)对(4)所得预测框进行非极大值抑制处理，即保留局部类别置信度得分最高的预测框，抑制掉得分低的预测框。通过基于DIoU的非极大值抑制对预测框进行筛选，消除置信度低的预测框，得到精确度更高的预测框；

(6)使用FLIR红外图像数据集对上述整体的网络结构进行训练，使用训练得到的网络结构进行检测，得到测试结果。

优选地，步骤(1)包含以下步骤：

(1-1)对输入红外图像预处理，对图像进行自适应缩放，统一缩放为640×640的尺寸。

优选地，步骤(2)包含以下步骤：

(2-1)对主干特征提取网络CSPDarknet53结构进行改进，在卷积层之间添加注意力机制ECA模块，将特征提取网络中的10层网络变为13层网络，优化网络结构，改进后的网络能够更有效地提取检测目标的特征信息。

(2-2)使用Focus结构将步骤(1)所得图像进行切片操作把高分辨率的特征图拆分为多个低分辨率的特征图，在通道维度上进行拼接再经过一次卷积得到320×320的特征图，采用这种方式可以减少下采样带来的信息损失。然后经过步长为2的3×3卷积核对得到的320×320特征图进行4次下采样，使用优化后的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图。

优选地，步骤(3)包含以下步骤：

将步骤(2-3)最后所得20×20特征图通过特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合，将20×20特征图进行上采样得到40×40特征图，再与(2-2)中特征提取网络所得40×40特征图进行融合，将融合所得40×40特征图进行上采样得到80×80特征图，与(2-2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图，然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图，并与特征金字塔中经过融合所得到的40×40特征图进行融合，再将融合所得40×40特征图进行下采样得到的20×20特征图与(2-3)中经过SPP模块处理所得20×20特征图进行融合得到融合的20×20特征图。特征金字塔网络结构自顶向下将高层的特征信息通过上采样的方式进行传递融合，传达强语义特征；路径聚集网络结构自底向上传达强定位特征。通过两种网络结构结合，最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层，实现不同大小目标类别和位置的预测。

优选地，步骤(4)包含以下步骤：

优化网络的损失函数，使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数。Varifocal Loss的计算公式如下：

其中p是预测的分类得分，q为目标分数，γ为常数。Varifocal Loss非对称地处理正负样本，由于正样本太少，为充分利用正样本的监督信号，只对负样本进行p^γ的衰减，并对正样本使用q进行加权，使得训练可以聚焦在质量高的样本上。同时使用权重因子α对负样本进行加权，平衡总体的正负样本。使用优化损失函数的预测网络进行多尺度检测，提升网络的检测精度，得到不同尺度特征下的预测框。

优选地，步骤(5)包含以下步骤：

对步骤(4)所得预测框进行非极大值抑制处理，即保留局部类别置信度得分最高的预测框，抑制掉得分低的预测框。采用基于DIoU的非极大值抑制，DIoU-NMS将DIoU作为非极大值抑制的准则，DIoU同时考虑了两个预测框的重叠区域和中心距离。DIoU用下面的公式表示：

其中IoU为预测框P与Q的交并比。计算公式为：

d表示两个预测框中心点之间的距离，c表示同时包含两个预测框的最小框的对角线长度。对于得分最高的预测框M，将DIoU-NMS的公式定义为:

通过同时考虑IoU和两个预测框的中心点之间的距离来删除冗余的预测框。将得分最高的预测框M和其他框Bi的DIoU值与NMS的阈值进行比较，如果较小则保持得分s_i，否则当DIoU值大于阈值时将s_i值设为0，即被过滤掉。使用DIoU-NMS来筛选预测框，有效改善由于密集或遮挡物体带来的漏检、错检等问题，提升复杂场景下的检测能力，得到更加精确的预测框。

优选地，步骤(6)包含以下步骤：

使用FLIR红外图像数据集对改进后的网络进行训练，训练集和测试集的数量分别为8862和1366。采用随机梯度下降(SGD)优化器对网络参数进行迭代更新。利用训练得到的网络模型进行测试得到检测结果。

如图6所示，示例红外图像中存在大量的检测对象，包括人、自行车和车辆，经过检测红外图像中不同大小的目标都很好的被识别出来，对于密集遮挡的复杂场景下依然有较好的检测效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种复杂场景下的红外目标检测方法，其特征在于，包括如下步骤：

(1)对输入红外图像进行Mosaic数据增强；

(2-3)在特征提取网络后加入SPP模块，首先对改进的CSPDarknet53网络进行特征提取所得到的20×20特征图经过1×1的卷积核进行降维，然后经过四种不同大小的池化层得到全局特征和局部特征，具体地，经过1×1大小的池化层获取全局特征，经过5×5、9×9、13×13大小的池化层获取不同大小的特征图得到局部特征，经过不同的通道获取不同的特征信息，然后将局部特征与全局特征进行融合，再经过一次卷积得到新的20×20特征图，增强特征表达能力，扩大特征图的感受野，解决目标尺度变化带来的精度下降的问题；

将步骤(2-3)中所得20×20特征图通过特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合，将20×20特征图进行上采样得到40×40特征图，再与(2-2)中特征提取网络所得40×40特征图进行融合，将融合所得40×40特征图进行上采样得到80×80特征图，与(2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图，然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图，并与特征金字塔中经过融合所得到的40×40特征图进行融合，再将融合所得40×40特征图进行下采样得到的20×20特征图与(2-3)中经过SPP模块处理所得20×20特征图进行融合得到融合的20×20特征图；通过两种网络结构结合，最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层，实现不同大小目标类别和位置的预测

步骤(4)的具体实现方式如下；

损失函数Varifocal Loss的计算公式如下：

其中p是预测的分类得分，q为目标分数，γ为常数；Varifocal Loss非对称地处理正负样本，只对负样本进行p^γ的衰减，并对正样本使用q进行加权，使得训练可以聚焦在质量高的样本上，同时使用权重因子α对负样本进行加权，平衡总体的正负样本；

2.如权利要求1所述的一种复杂场景下的红外目标检测方法，其特征在于：步骤(1)的具体实现方式如下；

3.如权利要求1所述的一种复杂场景下的红外目标检测方法，其特征在于：步骤(5)的具体实现方式如下；

DIoU的计算公式为：

其中IoU为预测框P与Q的交并比，计算公式为：

4.如权利要求1所述的一种复杂场景下的红外目标检测方法，其特征在于：采用随机梯度下降SGD优化器对整体网络结构参数进行迭代更新训练，利用训练得到的整体网络结构进行测试得到检测结果。