CN113223044A

CN113223044A - 一种结合特征聚合和注意力机制的红外视频目标检测方法

Info

Publication number: CN113223044A
Application number: CN202110427526.8A
Authority: CN
Inventors: 许悦雷; 回天; 周忠臣; 张兆祥; 周清; 马林华
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-08-06

Abstract

本发明公开了一种结合特征聚合和注意力机制的红外视频目标检测方法，首先通过红外摄像机获取多目标红外视频，再对视频进行预处理，构建数据集；再采用YOLOv5模型、光流网络和注意力模块构建红外视频目标检测模型；然后采用数据集对红外视频目标检测模型进行训练，训练完成得到的最终的红外视频目标检测模型，实现对红外视频中目标的检测。本发明在视频散焦、运动模糊等状态下，目标检测准确率显著提高，提升了检测模型的鲁棒性。

Description

一种结合特征聚合和注意力机制的红外视频目标检测方法

技术领域

本发明属于模式识别技术领域，具体涉及一种红外视频目标检测方法。

背景技术

红外图像是承载夜间环境信息的重要数据载体，是获取夜间目标信息的重要手段，红外图像目标检测在夜视环境下的目标监视和跟踪识别等任务环节中发挥着关键作用，与此同时，对夜视目标进行实时、准确地自主检测识别也成为未来视频图像处理智能化发展的需求。常规的深度学习神经网络检测模型容易受到成像质量低、异构数据以及拍摄视角多变的影响，而针对红外图像的成像特点，各种目标物体的红外线辐射强度不同，目标成像对比度不同，且红外像源通常分辨率较低，数据本身缺少目标纹理细节特征，模型的检测精度会下降，夜间红外视频图像易出现视频散焦和运动模糊等问题，当连续的红外视频图像出现运动模糊、视频散焦等状况时，模型的检测精度会进一步降低，检测模型易出现漏检、误检等问题。综上所述，为了提高检测效率和精度、降低检测成本，需要一种自动化的红外视频目标检测的方法。

发明内容

为了克服现有技术的不足，本发明提供了一种结合特征聚合和注意力机制的红外视频目标检测方法，首先通过红外摄像机获取多目标红外视频，再对视频进行预处理，构建数据集；再采用YOLOv5模型、光流网络和注意力模块构建红外视频目标检测模型；然后采用数据集对红外视频目标检测模型进行训练，训练完成得到的最终的红外视频目标检测模型，实现对红外视频中目标的检测。本发明在视频散焦、运动模糊等状态下，目标检测准确率显著提高，提升了检测模型的鲁棒性。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：通过红外摄像机获取包含多目标的红外视频，并将其分解为连续的单帧图像；

步骤2：对单帧图像中的目标进行标注；

步骤3：对完成标注的单帧图像进行数据增强；完成数据增强的多幅连续的单帧图像构成数据集；

步骤4：构建红外视频目标检测模型；

步骤4-1：将YOLOv5模型和光流网络并行，将图像同时输入光流网络和YOLOv5模型的主干网络，分别输出光流场与特征图，再对光流场和特征图进行特征聚合操作得到运动状态估计；

步骤4-2：将运动状态估计输入注意力模块，输出对红外视频目标检测结果；

步骤5：采用步骤3得到的数据集对红外视频目标检测模型进行训练，训练完成得到的最终的红外视频目标检测模型；

步骤6：将红外视频输入最终的红外视频目标检测模型，实现对红外视频中目标的检测。

进一步地，所述步骤4-1中进行运动状态估计和特征聚合的具体步骤如下：

给定参考帧I_i和相邻帧I_j，I_i,I_j为连续单帧图像；

将I_i,I_j连续输入光流网络F，估计光流场M_i→j：

M_i→j＝F(I_i,I_j)

运动状态估计函数定义为:

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

其中，W(.)表示特征图中每个通道所有位置的特征对齐运算，f_j表示第j帧图像经过yolov5主干网络后提取出的特征图，f_j→i表示从第j帧特征图与光流场经过特征对齐后的运动状态估计；

将相邻帧的特征图拼接至参考帧的特征图，并将光流网络对参考帧的运动状态估计与参考帧的特征图进行特征对齐：

则参考帧的特征聚合结果

为：

其中，K表示特征聚合的相邻帧的范围，w_j→i表示f_j→i的权重，设置为

进一步地，所述注意力模块首先对大小为C×H×W的输入特征图进行全局平均池化，输出1×1×C大小的特征图，其中C为通道数，H、W为图像高和宽；再使用两层全连接神经网络进行处理，第一层全连接神经网络后接Relu激活函数，第二层全连接神经网络后接Sigmoid激活函数；

进一步地，所述YOLOv5模型具体描述如下：

对YOLOv5模型的主干神经网络进行了改进，改进的主干神经网络包含卷积模块和残差模块；

所述卷积模块由卷积层、批归一化层和Leaky_relu激活函数依次组成；所述残差模块包含多个残差单元、卷积层和连接模块；YOLOv5模型的主干神经网络的结构以卷积模块开始，卷积模块和残差模块交替，最终以卷积模块结束。

进一步地，所述红外视频中目标为人、汽车和飞机。

进一步地，所述对单帧图像中的目标进行标注的内容包括目标类别、目标矩形框的长宽、目标在单帧图像中的相对位置。

进一步地，所述对单帧图像进行数据增强包含改变对比度、改变亮度、平移和旋转操作。

进一步地，所述K＝8。

本发明的有益效果如下：

1)本发明引入了光流网络的运动估计与特征图进行特征聚合，在视频散焦、运动模糊等状态下，目标检测准确率显著提高，提升了检测模型的鲁棒性。

2)本发明引入了特征注意力模块，有效减轻了图像多变背景的干扰，降低了红外图像纹理特征缺失，相对于可见光图像对比度低、亮度低的干扰，提升检测模型的泛化性。

3)本发明将光流网络、特征注意力模块与检测算法有效结合，形成了端到端的红外目标检测模型，训练结束后的权重文件可在相同的框架下直接运行。

附图说明

图1为本发明方法模型结构示意图。

图2为本发明方法的注意力模块结构示意图。

图3为本发明方法特征聚合过程示意图。

图4为本发明实施例测试结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

各种目标物体的红外线辐射强度不同，目标成像对比度不同，且红外像源通常分辨率较低，夜间红外视频图像易出现视频散焦和运动模糊等问题，检测模型易出现漏检、误检等问题，因此，需要针对成像质量较低的帧融合与其相邻的多帧图像，使用特征聚合方法融合多帧特征，降低模型由于受到目标外观劣化而降低检测精度的影响；

此外，卷积神经网络在自动化提取特征的过程中会在模型的浅层部分学习到目标的纹理、颜色等特征，而模型的深层部分会学习到目标的轮廓以及更为抽象的语义信息。针对本发明所涉及的图像数据，红外图像不具有纹理信息，用于可将光图像目标检测的模型将难以适用于红外目标检测，因此，需要在检测模型中引入注意力模块，增强模型对于目标区域的聚焦能力，降低纹理特征缺失对于检测精度的影响。

YOLOv5模型通过网格空间限制，减少了对同一目标的重复检测，效率、速度上有所提升。综上所述，围绕红外视频目标检测，需要解决的问题如下：

(1)针对红外视频散焦和运动模糊的问题，如何有效地提高目标质量，保证模型的检测精度；

(2)针对红外目标纹理信息缺失、不清晰的问题，如何让深度神经网络在训练和检测时更加关注目标区域的信息，减弱纹理特征缺失造成的影响。

采取的方案如下：

(1)将光流网络的特征聚合模块与YOLOv5模型的主干网络并行结合起来，降低环境干扰、视频运动模糊对检测结果的影响，增强模型的稳定性；

(2)在YOLOv5模型的主干网络输出端中串行加入改进的注意力模块，增强对红外数据中多目标的特征聚焦能力，提高检测模型的鲁棒性；

(3)综合前述的两个模块，改进的YOLOv5模型构成一个完整的端到端的红外视频目标检测模型。

如图1所示，一种结合特征聚合和注意力机制的红外视频目标检测方法，包括以下步骤：

步骤1：通过红外摄像机获取获得人、汽车、飞机等包含多目标的红外视频，并将其分解为连续的单帧图像；

步骤2：对单帧图像中的目标进行标注，包括目标类别、目标矩形框的长宽、目标在单帧图像中的相对位置；

步骤3：对完成标注的单帧图像进行数据增强，包含改变对比度、亮度、平移、旋转等操作；完成数据增强的多幅连续的单帧图像构成数据集；

步骤4：构建红外视频目标检测模型；

步骤4-2：将运动状态估计结果输入注意力模块，输出对红外视频目标检测结果；

给定参考帧I_i和相邻帧I_j，I_i,I_j为连续单帧图像；

将I_i,I_j连续输入光流网络F，估计光流场M_i→j：

M_i→j＝F(I_i,I_j)

运动状态估计函数定义为:

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

经过了特征图拼接、特征对齐之后，参考帧从临近帧积累了多个特征图，这些特征图提供了检测对象的不同信息，接下来通过特征聚合将这些信息整合起来充分利用，则参考帧的特征聚合结果

为：

进一步地，如图2所示，所述注意力模块，类比人的视觉系统，自适应选择图像中感兴趣的区域。在训练过程中，注意力模块会结合损失函数得到适合该检测任务的每个特征图的权重。由于特征图的各个通道在传统的卷积池化操作过程中被视为是同等重要的，使得网络对重要通道的特征信息提取较少，并且掺杂了非重要通道的信息。添加注意力模块，使得网络关注通道的关系以及重要性。

首先对大小为C×H×W的输入特征图进行全局平均池化，输出1×1×C大小的特征图，其中C为通道数，H、W为图像高和宽；再使用两层全连接神经网络进行处理，第一层全连接神经网络后接Relu激活函数，第二层全连接神经网络后接Sigmoid激活函数；保证注意力模块能够在第一步结果的基础上自适应调整参数，学习到通道之间的非线性关系和重要程度。这两步使得注意力模块以较小的额外计算成本避免无用特征信息的干扰。

进一步地，所述YOLOv5模型具体描述如下：

所述卷积模块由卷积层、批归一化层和Leaky_relu激活函数依次组成，由于深层神经网络在训练时容易进入梯度饱和区，使得收敛速度慢，并且输入数据分布的变化使得上层网络不断调整，使得网络学习速率慢，批归一化层对数据进行规范化处理，尽可能保留原始数据的表达能力，并对特征进行白化操作保留相同的方差和均值。Leaky_relu在横坐标为负时有一个非零的斜率，保留了部分负值区间上的信息；所述残差模块包含多个残差单元、卷积层和连接模块，将特征图分成两部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行连接，此连接会以张量拼接的方式使得张量的维度扩充，减少了计算量，增强了深度网络的学习能力；YOLOv5模型的主干神经网络的结构以卷积模块开始，卷积模块和残差模块交替，最终以卷积模块结束。

具体实施例：

在对多目标检测时采用了区域建议网络的方法，对于多尺度、不同大小的目标特征，使用不同尺度的网格进行划分，越精细的网格对于小目标物体的检测就越具有优势，本实施例中网格大小比例为13:26:52。实施例中，由于检测目标在图像中的大小差距较大，远距离拍摄的飞机一般为40*30左右的像素，近距离拍摄的汽车一般为300*180像素左右，所以采用自适应锚窗，一个特征图上的点可以生成多种大小不同的框，这样框住目标的概率会大大增加。对于行人密集，多种目标出现在一张图像中的场景，采用了边界框回归的方法，从预测框和标记框的重叠面积、中心点间距、长宽比3个方面去优化损失函数

其中，v表示预测框和标记框长宽比的相似性，

α为权重函数，c代表同时包含标记框和预测框的最小框的面积，框的交并比

ρ(b,b^gt)表示预测框b和标记框b^gt的欧氏距离。

如图4所示为本发明实施例测试结果图，采用本发明方法分别对红外视频中的人、车和飞机进行检测，从图4能够看出，本发明方法取得了较好的效果。

Claims

1.一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，包括以下步骤：

步骤2：对单帧图像中的目标进行标注；

步骤4：构建红外视频目标检测模型；

2.根据权利要求1所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述步骤4-1中进行运动状态估计和特征聚合的具体步骤如下：

给定参考帧I_i和相邻帧I_j，I_i,I_j为连续单帧图像；

将I_i,I_j连续输入光流网络F，估计光流场M_i→j：

M_i→j＝F(I_i,I_j)

运动状态估计函数定义为:

f_j→i＝W(f_j,M_i→j)＝W(f_j,F(I_i,I_j))

则参考帧的特征聚合结果

为：

3.根据权利要求1所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述注意力模块首先对大小为C×H×W的输入特征图进行全局平均池化，输出1×1×C大小的特征图，其中C为通道数，H、W为图像高和宽；再使用两层全连接神经网络进行处理，第一层全连接神经网络后接Relu激活函数，第二层全连接神经网络后接Sigmoid激活函数。

4.根据权利要求1所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述YOLOv5模型具体描述如下：

5.根据权利要求1所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述红外视频中目标为人、汽车和飞机。

6.根据权利要求1所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述对单帧图像中的目标进行标注的内容包括目标类别、目标矩形框的长宽、目标在单帧图像中的相对位置。

7.根据权利要求1所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述对单帧图像进行数据增强包含改变对比度、改变亮度、平移和旋转操作。

8.根据权利要求2所述的一种结合特征聚合和注意力机制的红外视频目标检测方法，其特征在于，所述K＝8。