CN116188999A

CN116188999A - 一种基于可见光和红外图像数据融合的小目标检测方法

Info

Publication number: CN116188999A
Application number: CN202310460965.8A
Authority: CN
Inventors: 高天聪; 钱伟行; 吴卓超; 王瑞; 柏雨辰; 张群波; 马菀滢; 赵杰; 方铭宇; 贾睿妍
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-05-30
Anticipated expiration: 2043-04-26
Also published as: CN116188999B

Abstract

本发明公开了一种基于可见光和红外图像数据融合的小目标检测方法，包括：采集待检测目标在各种环境条件下的可见光图像、红外图像；搭建通道注意金字塔网络对输入两种图像进行特征提取，将预定义三维锚框投影到两种特征图上，搭建转置卷积优化上采样，设置用于检测小目标的检测层；搭建ELU激活函数的卷积层，使用a‑CIOU匹配ELU激活函数，同时在主干网络引入GSA注意力模块，通过设置Buff域分类器允许模型从多个数据集中学习其特征提取能力，提高在数据较少的数据集的检测性能。本发明利用各种环境条件下的可见光、红外图像来弥补维度信息的缺失，解决如何在混乱的环境中提高对小目标的检测精度的问题。

Description

一种基于可见光和红外图像数据融合的小目标检测方法

技术领域

本发明涉及机器学习、深度学习、图像识别、目标检测技术领域，特别涉及了一种基于可见光和红外图像数据融合的小目标检测方法。

背景技术

无人机被结合到各个领域中去创造高价值越来越受欢迎，尤其是低成本的无人机摄影技术。在事故救援现场，也有很多使用无人机进行搜救的案例，但是在大雨、大雪和夜晚这些导致能见度不高的情况下，搜救工作将很难进行展开。

人类拥有一种近乎完美地感知图像或视频中物体地内在能力，基于深度学习的目标检测模型通过CNN的特征提取能力来模仿这种能力，这意味着每个模型都关注每个视觉元素的形状和视觉特征，并结合线索来检测目标物体的位置和类别。检测小目标和遮挡目标仍然是当前最具有挑战性的，并且对于物体内部目标的检测目前研究较少，融合其他数据源信息的目标检测也较少。因此，如果一个模型能够在复杂背景下从多个域（可见光、红外、彩色图像、灰色图像等）中提取相似的视觉特征，那么它对物体的检测能力可以很好地应用到其他领域中。

发明内容

本发明所要解决的技术问题：针对背景技术的缺陷，本发明旨在提供一种基于两种图像数据融合的小目标检测方法，通过融合多种数据源的图像信息，以解决在晴天、雨天、雪天、夜晚等不同环境和天气条件下的物体遮挡、小物体目标检测困难的问题。

为了解决以上技术问题，本发明采用以下技术方案：

本发明提出一种基于可见光和红外图像数据融合的小目标检测方法，包括：

步骤1、数据采集及预处理：采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据，对其进行类别和锚框标注，然后将标注后的图像数据集划分为训练集、验证集和测试集，同时进行数据增强；具体包括子步骤：

步骤1.1、将双目摄像头、红外传感器集成到一起，确保可见光图像、红外图像对齐，在各种天气环境和天气条件下采集不同类别的目标图像，去除其中不清晰的图像；

步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集，对训练集和验证集进行三维锚框标注，测试集用于评估目标检测网络训练的效果；

步骤1.3、将数据集按照数据增强方法进行处理。

步骤2、图像特征提取：搭建通道注意力金字塔网络模型对输入的可见光、红外图像分别进行特征提取得到可见光图像、红外图像特征图，采用转置卷积优化上采样，同时设置用于检测小目标的检测层；

所搭建的通道注意力金字塔网络模型，主干网络采用有效通道注意金字塔结构对两种输入图像进行特征提取，使用全局最大池化代替全局平均池化，内核大小与SPPF层相同，再拼接卷积层，采用转置卷积代替最近临插值上采样，用来减少特征图中目标上采样过程中的信息损失，同时在模型中的头部结构中，将用来检测32×32以上像素点的检测层替换为用来检测4×4以上像素点的检测层。

步骤3、在训练集上通过聚类预先设置三维锚框，将其分别投影到可见光图像、红外图像特征图上，裁剪并池化到相同大小进行融合，搭建使用ELU激活函数的卷积层，同时使用

损失函数匹配ELU激活函数的关联，使用Wasserstein距离的修正损失假设边界框为高斯分布，然后在模型的主干网络中引入GSA注意力模块；具体包括：

步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框，并将其投影到整体模型的主干网络的两种输出特征图上，裁剪对应的部分并且通过池化操作调整为相同宽高的特征图；

步骤3.2、对于每个锚框，通过元素平均操作将两种特征图进行融合，然后将其输入全连接网络，最终输出锚框的回归参数以及为前景的分数；

步骤3.3、搭建使用ELU激活函数的卷积层；再使用

损失函数匹配关联ELU激活函数，以降低损失函数再训练过程中的收敛速度；使用Wasserstein距离的修正损失假设边界框为高斯分布；

步骤3.4、在主干网络中引入GSA注意力模块，使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图，其中两个平均池化特征图被加在一起，通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域；最大池化特征图重复相同的过程，最后将四个特征图全部加在一起生成2D空间图，添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。

步骤4、通过Buff域分类器在混淆主分类器的方向上计算数据损失，然后将梯度反向传播，提取视觉形状的特征，使模型从多个数据集中学习其特征提取能力，生成最终的预测框，输出检测结果。

Buff域分类器由一个平均池化层和四个全连接层组成，特征图被向下采样并平展到256维向量；前三个256维全连接层之后是ELU激活，最后一个全连接层给出4通道的域置信度输出；具体处理流程为：

首先，域分类器从输入图像中提取基本特征，推断输入图像的域，域分类器的输出在混淆主分类器的方向上计算域损失；

然后，将梯度反向传播，允许模型提取面向视觉形状的特征，生成最终的预测框，输出检测结果。

本发明采用以上技术方案，与现有技术相比具有以下技术效果：

本发明结合多种数据源如可见光、红外等，弥补了单一数据的局限性，可以达到优势互补的效果，同时在雨天、雪天、夜晚等不同的恶劣混乱环境和天气条件下，通过红外和可见光相结合的方式解决信息获取的问题；另外，可以通过将网络集成到多模态物体检测器中来解决物体遮挡的问题。

附图说明

图1是本发明的总体架构示意图。

图2是本发明的主干特征提取网络结构图。

图3是本发明的GSA注意力模块结构图。

图4是本发明的Buff域模块结构图。

实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

实施例1

如图1所示，本发明提出了一种基于可见光和红外图像数据融合的小目标检测方法。包括如下步骤：

步骤1：采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据图像，对其进行类别和锚框标注，然后将标注后的数据集图像划分为训练集、验证集和测试集，同时进行数据增强，最后生成数据集；

本步骤具体实施如下：

将双目摄像头、红外传感器集成到一起，确保两种图像对齐，在各种如晴天、多云、雨天、雪天、夜晚等各种环境和天气条件下采集较多的目标图像，去除其中不清晰的图像；将获得的数据集按2:1:1比例划分为训练集、验证集和测试集，对训练集和验证集进行三维锚框标注，测试集用于评估目标检测网络训练的效果。将数据集按照例如，进行高斯模糊，调整HSV对比度、cutout、Random Erasing、GridMask等数据增强方法来提升模型鲁棒性，降低模型对图像的敏感度，提高模型泛化能力，避免过拟合。

步骤2：搭建通道注意金字塔网络对输入的可见光、红外图像分别进行特征提取得到两种特征图，采用转置卷积优化上采样，同时把用以检测大目标的检测层替换为用于检测小目标的检测层；

本步骤具体实施如下：

主干网络采用有效通道注意金字塔结构，使用全局最大池化代替全局平均池化，设置内核大小为5、9、13，再拼接卷积层，同时采用转置卷积代替最近临近值上采样，用来减少特征图中目标上采样过程中的信息损失，同时在模型中的头部结构中把用以检测大目标的检测层替换为用于检测小目标的检测层，这样既可以提高对于小目标的检测精度，又不会增加模型计算量；主干特征提取网络结构如图2所示。

步骤3：在训练集上通过聚类预先设置三维锚框，投影到两种特征图上，裁剪并池化到相同大小进行融合，搭建使用ELU激活函数的卷积层，同时使用

损失函数匹配ELU激活函数的关联，使用Wasserstein距离的修正损失假设边界框为高斯分布，然后在模型的主干网络中引入GSA注意力模块；

本步骤具体实施如下：

在训练集上采用聚类算法为每个类别生成大量的预定义锚框，并将其投影到主干网络的两种输出特征图上，裁剪对应的部分并且通过池化操作调整为相同宽高的特征图；对于每个锚框，通过元素平均操作将两种特征图进行融合，然后将其输入全连接网络，最终输出锚框的回归参数以及为前景的分数；

搭建使用ELU激活函数的卷积层；再使用

损失函数匹配关联ELU激活函数，以降低损失函数再训练过程中的收敛速度；使用Wasserstein距离的修正损失假设边界框为高斯分布。在主干网络中引入GSA注意力模块，使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图，其中两个平均池化特征图被加在一起，通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域。最大池化特征图重复相同的过程，最后将四个特征图全部加在一起生成2D空间图，添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。

ELU激活函数是ReLU激活函数的变体，它包含了ReLU的优点，解决了ReLU的垂死问题，减少了训练时间，提高神经网络的测试集的性能，当x＜0时，微分函数使用指数函数连接，如果使用阶跃函数，则将损失函数定义为不均匀，从而导致局部最优，

一般指定为1。输出值几乎以零为中心，exp函数的计算方法与一般的ReLU不同：

为了解决SiLU激活函数只能在深度神经网络的隐藏层中，只能在基于强化学习的系统中使用等问题，本发明使用ELU作为激活函数，替换Conv层中的SiLU激活函数。

IOU是由预测框和真实框相互作用产生的，它是一个表示物体检测领域中预测的边界框和真实框的大小，取值在0到1之间。

具有一个幂次的IOU项和一个附加的幂次正则项，可以显著的超过现有的基于CIOU的损失，通过调节/>

使探测器更灵活地实现不同水平的bbox回归精度。并且，假设边界盒为2D高斯分布，修改损失以便更好地优化模型用以检测较小的物体。

对于边界框R={c_x，c_y，w，h}，其中c_x，c_y为包围框中心坐标，w，h为包围框的宽和高，假设包围框为二维高斯分布，其中中心像素值最大，从中心到边界值递减，盒子的内切椭圆可以表示为：

；

二维高斯分布的概率密度函数公式为：

其中z表示坐标位置，

、/>

分别表示高斯分布的平均向量和协方差矩阵：

当：

所示椭圆为高斯分布的密度轮廓，即表示边界框R可以通过二位高斯分布

表示。/>

使用二阶Wasserstein距离计算两个高斯分布之间的损失，

和

之间的Wasserstein距离定义为：

；

要使用Wasserstein距离作为损失度量，必须将其标准化。因此，将其归一化为指数形式，得到归一化Wasserstein损失（WL）为：

利用上述公式，推算出基于CIOU的损失函数

公式如下：

其中，w、h分别为包围框的宽和高，v代表的使两个盒子的纵横比的一致性，

、/>

分别表示预测框和真实框的中心点，/>

、/>

分别为真实框的宽和高，c为最小框的对角线长度，/>

为欧几里得距离，/>

是一个正权衡参数，用于调整不重叠情况和重叠情况之间的平衡，特别是在不重叠的情况下，重叠面积因子对回归损失的优先级更高。

在模型的骨干网络中引入GSA注意力模块，注意力模块如图3所示，使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图，其中两个平均池化特征图被加在一起，通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域。最大池化特征图重复相同的过程，最后将四个特征图全部加在一起生成2D空间图，添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。

完善特征图计算：

，

其中

为全局空间注意图，/>

为中间特征图。

其中

是中间特征图，/>

是全局特征图，/>

，/>

，

，/>

，/>

、/>

为归一化函数ReLU和Sigmoid运算使/>

，/>

为滤波器大小为1×1的卷积运算。

步骤4：通过设计的Buff域分类器，用以在混淆主分类器的方向上计算数据损失，然后将梯度反向传播，允许模型提取视觉形状的特征，使模型可以从多个数据集中学习其特征提取能力，从而提高在数据较少的数据集的检测性能，生成最终的预测框。Buff域模块结构如图4所示。

本步骤具体实施如下：

通过设计的Buff域分类器，用以在混淆主分类器的方向上计算域损失，然后将梯度反向传播，允许模型提取视觉形状的特征，从而允许模型从多个数据集中学习其特征提取能力，同时保持在数据较少的域的检测性能。

如图4所示，Buff域模块由一个平均池化层和四个全连接层组成。特征图被向下采样并平展到256维向量。前三个256维全连接层之后是ELU激活，最后一个全连接层给出4通道的域置信度输出。域分类器主要从输入图像中提取基本特征，域分类器的作用是推断输入图像的域。为了迫使基网络提取域不变特征，我们用域分类器的输出在混淆主分类器的方向上计算域损失。然后将梯度反向传播，允许模型提取面向视觉形状的特征，这些特征更具有域不变性。因此，域分类器允许模型从多个数据集中学习其特征提取能力，同时保持在数据较少的域的检测性能。

基于深度学习的目标检测模型通过CNN的特征提取能力来模仿人类近乎完美感知图像或视频中物体的内在能力，因此，每个模型都关注每个视觉元素的形状和视觉特征，并结合线索来检测目标物体的位置和类别。所以，如果一个模型能够从多个域(可见光、红外等)中提取相似的视觉特征，那么它对物体的检测能力可以很好地应用到其他物体具有相似视觉形状的域。基于这一概念，本发明提出了一个领域自适应框架来强制模型提取相似特征。本发明在目标检测模型的基础上，增加了一个Buff域分类器模块，通过将反向损失传播到特征提取器网络，迫使提取的特征具有域不变性。通过该方法，该框架可以使用来自不同分布的多个领域的数据集进行自适应训练，增强了模型的鲁棒性，允许深度学习模型在没有大规模数据集的情况下解决检测任务。

实施例2

本发明实施例还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是，处理器执行所述计算机程序的流程对应本发明实施例所提供的方法的具体步骤，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法，在此不再赘述。

实施例3

本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的方法的具体步骤。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法，在此不再赘述。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于可见光和红外图像数据融合的小目标检测方法，其特征在于，包括以下步骤：

步骤1、数据采集及预处理：采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据，对其进行类别和锚框标注，然后将标注后的图像数据集划分为训练集、验证集和测试集，同时进行数据增强；

2.根据权利要求1所述的小目标检测方法，其特征在于，步骤1包括：

步骤1.3、将数据集按照数据增强方法进行处理。

3.根据权利要求1所述的小目标检测方法，其特征在于，步骤2中，所搭建的通道注意力金字塔网络模型，主干网络采用有效通道注意金字塔结构对两种输入图像进行特征提取，使用全局最大池化代替全局平均池化，内核大小与SPPF层相同，再拼接卷积层，采用转置卷积代替最近临插值上采样，用来减少特征图中目标上采样过程中的信息损失，同时在模型中的头部结构中，将用来检测32×32以上像素点的检测层替换为用来检测4×4以上像素点的检测层。

4.根据权利要求3所述的小目标检测方法，其特征在于，内核大小设置为5、9、13。

5.根据权利要求1所述的小目标检测方法，其特征在于，步骤3具体包括：

步骤3.3、搭建使用ELU激活函数的卷积层；再使用