CN114973031A

CN114973031A - 一种无人机视角下的可见光-热红外图像目标检测方法

Info

Publication number: CN114973031A
Application number: CN202210577635.2A
Authority: CN
Inventors: 杨文�; 张妍; 贺钰洁; 余淮; 余磊
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-30
Anticipated expiration: 2042-05-25
Also published as: CN114973031B

Abstract

本发明公开了一种无人机视角下的可见光‑热红外图像目标检测方法，基于Faster R‑CNN构建了三分支的动态对称特征提取融合网络，并在正负样本分配中引入归一化Wasserstein距离。特征提取融合网络结合信息聚合与分配模块，能够更好地融合得到可见光红外模态之间的互补信息。应用归一化Wasserstein距离提高了网络对小目标的检测效果，并提出新的归一化方法使其可以得到更好地应用。另外针对可见光‑热红外数据提出了一种数据增强方法，使动态对称特征提取融合网络更充分地融合跨模态信息。针对视角变化和目标姿态变化，在骨干网络中引入可形变卷积。本发明可以应用于无人机视角下的可见光‑热红外目标检测，且可取得现阶段较为优异的检测效果。

Description

一种无人机视角下的可见光-热红外图像目标检测方法

技术领域

本发明属于图像处理技术领域，特别涉及无人机视角下的可见光热红外图像目标检测方法。

背景技术

可见光与热红外图像融合是图像融合领域的一个分支，在很多计算机视觉的领域都有应用，如融合检测、跟踪、行人重识别、SLAM等。在这些领域，往往有全天候的应用需求，而以往一般使用的可见光图像在夜晚成像质量差，因此热红外图像的应用有着重要意义。在目标检测任务中，使用可见光与热红外图像融合的方法，能够在各种光照条件下得到更准确的检测结果，具有时间上的灵活性。得益于无人机造价低、机动性强等优点，无人机摄像越来越多地被应用于人群控制、公共安全和智能搜救等领域。借助无人机在空间上的灵活性，进行无人机视角下的可见光热红外图像目标检测，能够实现时间上和空间上的高度灵活。

现有可见光与热红外图像融合目标检测方法一般仅面向车辆视角的目标检测，而对无人机视角下目标尺寸小、目标几何变换多的问题检测效果很差。在可见光与热红外图像融合检测中，现有方法存在模态互补信息融合不充分问题、可见光-热红外数据增强方法缺少问题。

发明内容

针对以上问题，本发明提出一种无人机视角下的可见光热红外图像目标检测方法，充分利用可见光与红外图像中的信息、极大改善无人机视角下小目标的检测效果，达到较高精度的无人机视角下的可见光与红外图像融合目标检测。

为了达到上述目的，本发明提供的技术方案是：一种无人机视角的可见光-热红外图像目标检测方法，包括以下步骤：

步骤1，将可见光-热红外图像对进行数据前处理；

步骤2，将前处理后的可见光-热红外图像对输入至特征提取与融合网络中获取多尺度共享融合特征；

所述特征提取与融合网络包括三个分支，可见光和红外分支，以及共享融合分支；其中可见光和红外分支网络结构相同，由一个卷积层和4个残差层构成，共享融合分支的网络由4个残差层构成，分别记为残差层1、残差层2、残差层3、残差层4，每个分支的4个残差层后面增加一个信息聚合与分配模块，用于利用互补信息加强三个分支的特征，加强后的可见光、热红外特征和共享融合特征输入到下一层进行进一步的学习，另外将4个加强后的共享融合特征输入至特征金字塔网络中，特征金字塔网络融合多尺度信息，输出多尺度的共享融合特征；

步骤3，利用候选区域生成网络在多尺度共享融合特征上生成感兴趣区域，即目标区域；

步骤4，利用感兴趣区域池化层提取出感兴趣区域的特征，将感兴趣区域特征输入至回归和分类预测网络中，得到目标的预测结果；

进一步的，步骤1中所述前处理是指随机区域替换的数据增强方法，以0.5的概率随机确定是否进行替换，若替换则随机取可见光-热红外图像对上一块固定大小的区域，并将可见光图像和热红外图像对应区域的图像进行裁剪和交换。

进一步的，所述的特征提取与融合网络的具体处理过程包括以下步骤；

步骤21，将可见光图像输入至可见光分支，热红外图像输入至热红外分支，并生成一个维度与可见光图像和热红外图像相同的0张量输入至共享融合分支；

步骤22，可见光图像和热红外图像分别通过一个卷积层和残差层1得到可见光特征图和热红外特征图，0张量通过残差层得到共享融合特征图；

步骤23，将可见光特征图、热红外特征图、共享融合特征图输入到信息聚合与分配模块，得到加强后的可见光、热红外特征，以及共享融合特征1；

步骤24，加强后的可见光、热红外特征分别通过残差层2，然后再输入到信息聚合与分配模块，得到再次加强后的可见光、热红外特征，以及另一尺度的共享融合特征2；

步骤25，重复步骤24两遍；

步骤26，将4个加强后的共享融合特征输入至特征金字塔网络中，特征金字塔网络融合多尺度信息，输出多尺度的共享融合特征。

进一步的，4个残差层分别由3、4、6、3个bottleneck结构堆叠组成，一个bottleneck 结构中包含三个卷积层。

进一步的，在残差层2、残差层3、残差层4引入可形变卷积，即将残差层中bottleneck 结构的第二个卷积层更改为可形变卷积层，在可形变卷积层中，先使特征图过一个常规的卷积层，输出偏移量感受野，其空间分辨率与原特征图相同，通道数为2N，代表了N个位置的二维偏移，再将这N个位置的偏移量加到原卷积核对应位置上，就得到了可形变卷积。

进一步的，信息聚合与分配模块的具体处理过程如下；

该模块基于双分支信息传递机制，两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达，包括信息聚合传输过程和信息分配传输过程，在信息聚合和分配传输过程中，都是首先对输入特征提取上下文信息，采用一个L层的金字塔池化层来提取上下文信息；设输入特征图在第l层，首先通过一个2^l-1×2^l-1的最大池化层，得到尺寸为

的特征图，然后通过最邻近插值上采样到h×w；用F^i，l表示第l层输出的上采样特征，上下文特征Iⁱ∈R^h×w×c提取过程可以表示为：

其中

表示特征通道级联的操作，Conv_1*1表示一个1×1的卷积层，h、w、c分别表示特征图的高、宽、通道数，下面用

和

分别表示残差层i输出的可见光、热红外和共享融合特征，其中下标r标识可见光，t标识热红外，s标识共享融合，上标i标识第i个残差层；

在信息聚合传输中，两个模态的特有信息被聚合在一起得到共享融合特征；从模态特有特征

中提取出上下文信息

后，计算模态特有上下文信息和模态共享融合特征上下文信息的差值，得到可见光分支向共享融合分支输入的特征

和红外分支向共享融合分支输入的特征

最后通过两个门函数自适应地将两个模态互补信息融合进模态共享融合特征

这个门函数融合过程可以被表达为：

门函数是使用卷积层和门权重

实现的；⊙表示元素级乘法；

信息分配传输过程在聚合之后，将增强的共享融合信息分配给模态特有分支中，以增强模态特有信息的表达；对于增强的共享融合特征

首先提取它的上下文信息

将其与模态特有特征的上下文信息作差得到共享融合特征分支流入模态特有分支的信息

与聚合过程相似，再通过两个门函数得到增强的模态特有特征

这个过程可以被表示为：

最终增强的三分支特征输入到下一层进行进一步的表征学习。

进一步的，候选区域生成网络的具体处理过程如下；

步骤31，候选区域生成网络使用一个滑动窗口在共享融合特征上生成锚框；

步骤32，对候选区域进行基于改进的归一化Wasserstein距离的正负样本分配，在正负样本分配中通过计算候选区域与标注框的交并比并设置门限来判定该候选区域是正样本还是负样本；

步骤33，对正负样本进行采样得到感兴趣区域；

所述改进的归一化Wasserstein距离可表达为

其中INWD(N_a，N_b)表示两个二维高斯分布建模的矩形框的改进后归一化Wasserstein距离，

表示两个二维高斯分布的Wasserstein距离。

与现有技术相比，本发明的优点和有益效果如下：

本发明公开了一种无人机视角的可见光-热红外目标检测方法，基于Faster R-CNN构建了三分支的动态对称特征提取融合网络，并在正负样本分配中引入改进的归一化Wasserstein 距离。特征提取融合网络结合信息聚合与分配模块，能够更好地融合得到可见光红外模态之间的互补信息。应用归一化Wasserstein距离提高了网络对小目标的检测效果，并提出新的归一化方法使其可以得到更好地应用。另外针对可见光-热红外数据提出了一种数据增强方法，使动态对称特征提取融合网络更充分地融合跨模态信息。针对视角变化和目标姿态变化，在骨干网络中引入可形变卷积。本发明可以应用于无人机视角下的可见光-热红外目标检测，且可取得现阶段较为优异的检测效果。

附图说明

图1为整体网络示意图。

图2为特征提取与融合网络示意图。

图3为信息聚合与分配模块示意图，其中(a)为信息聚合过程示意图；(b)为信息分配过程示意图。

图4为随机区域替换数据增强方法示意图。

具体实施方式

下面结合附图和实施例对本发明进行进一步说明。

本发明以无人机视角下的可见光-热红外图像人体检测任务为例，具体说明本发明的工作流程，按照本发明内容完整实施的实施例如下：

(1)用无人机采集具有行人目标的航拍图像作为数据集；

(2)如图1所示，构建无人机视角下的可见光-热红外图像人体检测网络，包括数据增强、特征提取与融合网络、候选区域生成网络、感兴趣区域池化层、回归预测网络和分类预测网络；

如图2所示，构建三分支的特征提取与融合网络，增加信息聚合与分配模块。可见光和红外分支网络结构相同，由一个卷积层和四个残差层构成；共享融合分支的网络由四个残差层构成。其中，残差层1、残差层2、残差层3和残差层4分别由3、4、6、3个bottleneck结构堆叠组成，一个bottleneck结构中包含三个卷积层。为表达方便，用

和

分别表示残差层i输出的可见光、热红外和共享融合特征。在四个残差层后分别插入一个信息聚合与分配模块，用于聚合模态独有分支的互补信息并利用互补信息加强原模态的信息，这个过程可以表示为：

其中，

分别表示加强后的可见光、热红外和共享融合特征，IADM表示信息聚合与分配模块，图2中的“融合特征图”即为加强后的共享融合特征。每通过一个信息聚合与分配模块后，加强的特征输入到下一层网络学习高级语意特征。最后将四个信息聚合与分配模块输出的加强后的共享融合特征输入至特征金字塔网络中，特征金字塔网络融合多尺度信息，输出多尺度的共享融合特征。

由于卷积单元和池化层等模块的核大小和对应特征图位置是固定的，传统的卷积神经网络对物体发生几何变换时的鲁棒性不够强。在无人机视角的图像中，由于视角变换、尺度变换、目标姿态改变等情况，目标常常会出现各种各样的几何变换。为了使得特征提取网络能够更好地学习到不同几何变换下目标的特征，在残差层2、残差层3、残差层4引入可形变卷积，即将残差层中bottleneck结构的第二个卷积层更改为可形变卷积层。在可形变卷积层中，先使特征图过一个常规的卷积层，输出偏移量感受野，其空间分辨率与原特征图相同，通道数为2N，代表了N个位置的二维偏移，再将这N个位置的偏移量加到原卷积核对应位置上，就得到了可形变卷积。

在三个分支之间，本发明加入了信息聚合与分配模块用于动态地融合可见光分支和热红外分支的特征，增强共享融合特征之后再用共享融合特征增强可见光特征和热红外特征。该模块能够充分利用可见光和热红外的互补性，学习到跨模态的特征表征。这个模块基于双分支信息传递机制，两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达。如图3所示，该模块主要分为两个过程：信息聚合传输过程和信息分配传输过程。在信息聚合和分配传输过程中，都首先对输入特征提取上下文信息。采用一个L层的金字塔池化层来提取上下文信息。设输入特征图在第l层，首先通过一个2^l-1×2^l-1的最大池化层，得到尺寸为

的特征图；然后通过最邻近插值上采样到h×w。用F^i，l表示第l层输出的上采样特征，上下文特征Iⁱ∈R^h×w×c提取过程可以表示为：

其中

表示特征通道级联的操作；Conv_1*1表示一个 1×1的卷积层。上下文特征提取的操作有两个优点，首先是提取出的特征有更大的感受野，特征包含更多的上下文信息。第二个是由于最大池化层的平移不变性，通过多次最大池化可以一定程度上减少RGB-T图像对的不对齐问题。在信息聚合传输中，两个模态的特有信息被聚合在一起得到共享融合特征。如图3(a)所示，从模态特有特征

中提取出上下文信息

后，计算模态特有上下文信息和模态共享融合特征上下文信息的差值，得到RGB分支向共享融合分支输入的特征

和红外分支向共享融合分支输入的特征

最后通过两个门函数自适应地将两个模态互补信息融合进模态共享特征

这个门函数融合过程可以被表达为：

门函数是使用卷积层和门权重

实现的；⊙表示元素级乘法。这样的算法使得互补信息能够更有效地融入模态共享特征中。信息分配传输过程在聚合之后，将增强的共享融合信息分配给模态特有分支中，以增强模态特有信息的表达。如图3(b)所示，对于增强的共享融合特征

首先提取它的上下文信息

将其与模态特有特征的上下文信息作差得到共享分支流入模态特有分支的信息

这个过程可以被表示为：

在图2所示网络后本发明增加了一个特征金字塔网络，特征金字塔网络通过融合多尺度信息，在不同尺度下对不同大小的目标进行预测，从而很好地提升了模型的性能。

在候选区域生成网络中本发明使用了基于改进的归一化Wasserstein距离的正负样本分配。在一般的基于锚框的目标检测算法中，用IoU作为度量标注框与锚框、预测框之间的位置关系。但是在小目标检测中，由于目标很小，预测框相对于标注框出现很小偏移都会导致IoU急剧下降甚至将为0。特别当两框没有重叠时，IoU始终为零，无法衡量两框之间的距离。候选区域生成网络的正负样本分配中，将与标注框IoU大于一个阈值的认为是正样本，否则为负样本。小目标IoU这种特性使得在训练阶段正样本很少，导致网络学习效果差。归一化Wasserstein距离将矩形框建模为二维高斯分布，用Wasserstein距离计算两个二维高斯分布之间的距离，将Wasserstein距离归一化后得到归一化Wasserstein距离(NWD)。NWD很好地克服了IoU的上述缺点。原始NWD的归一化过程可表达为：

其中NWD(N_a，N_b)表示两个二维高斯分布建模的矩形框的归一化Wasserstein距离，

表示两个二维高斯分布的Wasserstein距离，N_a，N_b表示两个二维高斯分布。C为一个常数，需要根据数据集设定。本发明将原始的NWD归一化方法改进为

其中INWD(N_a，N_b)表示本发明改进的NWD方法。本发明的改进方法不需要引入额外的超参数，并能使度量值合理分布。

(3)如图3所示，对输入可见光-热红外图像对进行数据前处理，即随机区域替换的数据增强方法，该方法首先以0.5的概率确定是否进行替换，若替换则随机取图像对上一块区域，将可见光与热红外图像上对应区域进行替换；

(4)将经过数据前处理的可见光-热红外图像输入特征提取与融合网络，具体地，将可见光图像输入网络的可见光分支，红外图像输入红外分支，另外生成一个维度尺寸均与可见光红外图像相同的0张量输入共享融合分支，特征提取与融合网络输出多尺度的共享融合特征；

(5)候选区域生成网络在多尺度的共享融合特征上生成多个候选区域，并通过正负样本分配和采样得到感兴趣区域，即人体目标区域；

(6)感兴趣区域池化层提取出感兴趣区域的特征；

(7)感兴趣区域特征输入至回归预测网络和分类预测网络得到预测结果，即矩形框表示的人体位置。

使用本发明中提出的算法进行训练后，在数据集上的性能与现有方法的对比如下：

表1数据集性能对比表

上表为本发明中提出的方法与现有的较为优异的方法在数据集上的实验结果。表中评价所使用的指标为平均准确度(AP)，下标表示使用的IoU阈值，上标表示不同尺寸的目标。“+”号表示检测器采用了一种基准融合结构。由表可知，本发明中提出的方法能在该数据集上取得较好的准确度，特别是极小目标的检测效果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种无人机视角的可见光-热红外图像目标检测方法，其特征在于，包括以下步骤：

步骤1，将可见光-热红外图像对进行数据前处理；

步骤4，利用感兴趣区域池化层提取出感兴趣区域的特征，将感兴趣区域特征输入至回归和分类预测网络中，得到目标的预测结果。

2.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法，其特征在于：步骤1中所述前处理是指随机区域替换的数据增强方法，以0.5的概率随机确定是否进行替换，若替换则随机取可见光-热红外图像对上一块固定大小的区域，并将可见光图像和热红外图像对应区域的图像进行裁剪和交换。

3.根据权利要求1所述的一种无人机视角的可见光-热红外图像人体目标方法，其特征在于：所述的特征提取与融合网络的具体处理过程包括以下步骤；

步骤25，重复步骤24两遍；

4.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法，其特征在于：4个残差层分别由3、4、6、3个bottleneck结构堆叠组成，一个bottleneck结构中包含三个卷积层。

5.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法，其特征在于：在残差层2、残差层3、残差层4引入可形变卷积，即将残差层中bottleneck结构的第二个卷积层更改为可形变卷积层，在可形变卷积层中，先使特征图过一个常规的卷积层，输出偏移量感受野，其空间分辨率与原特征图相同，通道数为2N，代表了N个位置的二维偏移，再将这N个位置的偏移量加到原卷积核对应位置上，就得到了可形变卷积。

6.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法，其特征在于：信息聚合与分配模块的具体处理过程如下；