CN116434019A

CN116434019A - 一种基于特征对齐的图像融合目标检测方法

Info

Publication number: CN116434019A
Application number: CN202211722638.7A
Authority: CN
Inventors: 邢佳璐
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-07-14

Abstract

本发明公开了一种基于特征对齐的图像融合目标检测方法，包括以下步骤：S1、模态特征偏移预测：网络首先通过特征网络提取两个模态的特征，随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移；S2、级联候选框生成：将偏移反馈给偏移模态后得到初步修正的偏移模态特征图，采取由粗到细的特征对齐策略，在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐，并直接使用两个模态的特征进行后续的检测，已有标注的模态，通常为热红外为参考模态，对另一个模态，即偏移模态的特征图进行处理使之在空间位置上靠近参考模态，来达到模态间特征对齐的效果，加快检测速度，同时可以快速回归检测框。

Description

一种基于特征对齐的图像融合目标检测方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于特征对齐的图像融合目标检测方法。

背景技术

RGB-T图像的配准过程较为复杂，在采集数据前首先需要对相机进行标定，需要用到特定的硬件及特殊的标定板，在数据采集的过程中，除了要准备不同的传感器，如可见光相机、热红外相机等，还需要一些特殊的部件，如用于空间对齐的分光镜以及用于时间对齐的同步计时器，近年来，许多学者提出了RGB-T目标检测数据集，使用特别设计的硬件、预处理手段等将不同模态的图像进行了像素级对齐，并提供了模态间共享的标注，目前大多数的先进RGB-T图像目标检测器都在这种模态间对齐的基础上构建，然而现实世界中，像素级对齐的数据仅仅占少数，更多的是存在偏移和未经配准的数据。这是由于复杂的配准流程、传感器的物理特性差异(视差、相机分辨率不一致、视场不匹配等)、对齐算法不完善、外部干扰和硬件老化等导致。

如此的跨模态差异会降低检测器的性能，一方面，不同模态的输入图像在相应的位置不匹配，待融合的特征也存在空间位置的偏移，融合时特征图上的特征含义不明确，给网络推理造成困难，导致产生不稳定的目标分类及定位。另一方面，两个模态共享标注会引入标注偏差，网络不能分辨标注信息到底属于哪一个模态，使得检测框的位置回归变得困难，为此提出一种基于特征对齐的图像融合目标检测方法。

发明内容

本发明的目的在于提供一种基于特征对齐的图像融合目标检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于特征对齐的图像融合目标检测方法，包括以下步骤：

S1、模态特征偏移预测：网络首先通过特征网络提取两个模态的特征，随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移；

S2、级联候选框生成：将偏移反馈给偏移模态后得到初步修正的偏移模态特征图，与初始的参考模态特征图进行级联后送入区域生成网络，得到一系列候选框；

S3、候选框二次回归：感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐，通过为每个候选框预测x、y、w、h四个维度的调整参数，对热红外模态的候选框进行二次回归；

S4、特征加权并级联：在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联，送入最后的检测头来得到分类置信度和目标的包围框坐标。

优选的，在特征加权过程中，通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权，使用一个光照感知子网络来对光照值进行预测，光照感知子网络由2个卷积层和3个全连接层组成，每个卷积层后接一个ReLU激活函数层以及一个2×2最大池化层来对特征进行激活和压缩，并在最后一层全连接层之后使用softmax激活函数。

优选的，在特征加权过程中，为了减小计算量，将可见光图像进行8倍下采样后再作为输入，网络会输出2个预测值，分别是图像为白天的概率Cd和图像为夜晚的概率Cn，由于该任务是一个较为简单的二分类任务，因此Cd、Cn会接近0或者1，若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果；

模态权重合理性调整，通过门函数对两个模态的权重进行重新调整：

其中Cd和Cn代表全连接层的软最大值输出，WR和WT分别代表可见光模态和热红外模态特征的权重，α是可学习的参数，初始值设为1，式中的偏置

为输出值创造了一个基准，最终的输出值在/>

左右进行取值，(Cd-Cn)代表取值变化的方向，当白天的概率Cd大于夜晚的概率Cn时，代表可见光所占权重应该更大，此时WR应该在/>

的基础上增加，反之减小，而α则决定了增减的幅度，这两个权重会运用在特征金字塔之后，与两个模态的多尺度特征进行相乘以达到特征重加权。

优选的，特征偏移预测模块中是对特征图进行初步的偏移预测，使两个模态的特征图大体上对齐，首先将两个模态的特征图进行通道级联，然后通过多头自注意力模块提取跨模态特征，使用反向残差前馈网络增强模型的表达能力并减小计算量，最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移，由于特征金字塔p2阶段的特征最细节，尺度也最大，因此选取p2阶段的特征图对偏移值进行预测，其后每个阶段的偏移值通过对p2阶段的偏移下采样获得。

优选的，多头自注意力模块，其视作是多个自注意力模块的级联，对于偏移模态的特征

及参考模态的特征；

将其进行通道级联以获取多模态特征

而后将特征图拉伸来获取特征序列/>

通过将输入序列IM投影到三个权重矩阵上，网络可以计算出一系列的查询Q(query)，键K(key)和值V(value)，/>

其中，

及/>

为权重矩阵，且DQ＝DK＝DV＝2HW。之后，自注意力层使用Q及K之间的缩放点乘来计算注意力权重，该权重与V相乘得到输出Z，/>

其中

是缩放因子，用于在点积的幅度变大时防止softmax函数收敛到具有极小梯度的区域，为了从不同的角度多样化地关注特征中的不同位置，网络采用多头自注意力机制来得到输出：

Z'＝MultiHead(Q,K,V)＝Concat(Z₁,…,Z_k)W^p

其中标h代表多头自注意力中头的个数，即使用了多少个自注意力，

代表着级联操作Concat(Z1,...,Zh)的投影矩阵。

优选的，反向残差前馈网络包含3个卷积层，每个卷积层之后使用批标准化对特征进行规范，且在前两个卷积层之后使用激活函数并进行残差连接：

优选的，偏移预测层是一个1×1卷积层和tanh激活函数，将输入特征图的通道映射为2，代表每个元素的x方向偏移和y方向偏移比例。

优选的，偏移修正，在原始特征图的基础上，对图像中每个元素的坐标X，Y加上预测的偏移值ΔX与ΔY得到新的坐标X′，Y′，将原先坐标对应的值映射到新的坐标得到初步对齐的特征图，

其中⊕代表逐元素相加。

优选的，预训练，使用FLIRADAS数据集的配准子集FLIR-aligned作为输入，为可见光图像随机添加一定范围内x，y方向的偏移，并将偏移值进行8倍下采样获取偏移的真实值，最终使用均方损失函数进行偏移预测的监督。

优选的，在感兴趣区域对齐模块中，在得到候选框后，为了应对模态间特征的空间偏移现象，首先将候选框进行扩展，以获取更多的上下文信息，之后对于每种模态，使用感兴趣区域池化将候选框区域对应的特征映射到具有H×W大小的特征图中，然后将两种模态的感兴趣区域上下文特征级联并送入候选框回归模块，候选框回归模块由一个卷积层和两个全连接层组成，最后的全连接层后使用tanh作为激活函数，网络为每个候选框预测cx,cy,cw,ch∈[-1,1]四个偏移因子，则对于每个候选框：

△y＝c_y·thr_y,y_n＝y+Δy

Δw＝c_w·thr_w,w_n＝w+Δw

△h＝c_h·thr_h,h_n＝h+Δh

其中x,y,w,h代表候选框的中心点坐标以及宽和高，thrx,thry,thrw,thrh代表候选框的最大偏移范围，实验中作为超参数，xr,yr,wr,hr代表修正后的候选框中心点坐标及宽和高。

与现有技术相比，本发明的有益效果是：

本发明中，采取由粗到细的特征对齐策略，在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐，并直接使用两个模态的特征进行后续的检测，已有标注的模态，通常为热红外为参考模态，对另一个模态，即偏移模态的特征图进行处理使之在空间位置上靠近参考模态，来达到模态间特征对齐的效果，加快检测速度，同时可以快速回归检测框。

附图说明

图1为本发明基于特征对齐的图像融合目标检测方法的流程示意图；

图2为本发明基于特征对齐的图像融合目标检测方法中特征偏移预测模块的流程示意图；

图3为本发明基于特征对齐的图像融合目标检测方法中多头自注意力模块示意图；

图4为本发明基于特征对齐的图像融合目标检测方法中感兴趣区域对齐模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图4，本发明提供一种技术方案：

一种基于特征对齐的图像融合目标检测方法，包括以下步骤：

具体的，在特征加权过程中，通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权，使用一个光照感知子网络来对光照值进行预测，光照感知子网络由2个卷积层和3个全连接层组成，每个卷积层后接一个ReLU激活函数层以及一个2×2最大池化层来对特征进行激活和压缩，并在最后一层全连接层之后使用softmax激活函数。

具体的，在特征加权过程中，为了减小计算量，将可见光图像进行8倍下采样后再作为输入，网络会输出2个预测值，分别是图像为白天的概率Cd和图像为夜晚的概率Cn，由于该任务是一个较为简单的二分类任务，因此Cd、Cn会接近0或者1，若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果；

为输出值创造了一个基准，最终的输出值在/>

具体的，特征偏移预测模块中是对特征图进行初步的偏移预测，使两个模态的特征图大体上对齐，首先将两个模态的特征图进行通道级联，然后通过多头自注意力模块提取跨模态特征，使用反向残差前馈网络增强模型的表达能力并减小计算量，最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移，由于特征金字塔p2阶段的特征最细节，尺度也最大，因此选取p2阶段的特征图对偏移值进行预测，其后每个阶段的偏移值通过对p2阶段的偏移下采样获得。

具体的，多头自注意力模块，其视作是多个自注意力模块的级联，对于偏移模态的特征

及参考模态的特征；

将其进行通道级联以获取多模态特征

而后将特征图拉伸来获取特征序列/>

其中，

及/>

为权重矩阵，且DQ＝DK＝DV＝2HW。之后，自注意力层使用Q及K之间的缩放点乘来计算注意力权重，该权重与V相乘得到输出Z，

其中

Z'＝MultiHead(Q,K,V)＝Concat(Z₁,…,Z_k)W^p

代表着级联操作Concat(Z1,...,Zh)的投影矩阵，基于上述设计，每个头都会关注输入的不同部分，可以表示比简单加权平均值更复杂的函数，多头自注意力模块会输出与原输入序列尺寸相同的输出。

具体的，反向残差前馈网络包含3个卷积层，每个卷积层之后使用批标准化对特征进行规范，且在前两个卷积层之后使用激活函数并进行残差连接：

与常见的残差模块不同的是，反向残差前馈网络对特征的维度处理为先升维再降维的纺锤形结构，而ResNet则是先降维再升维的沙漏型结构，相比ResNet，反向残差前馈网络的参数更少，更有效率，可以减小网络的计算量。

具体的，偏移预测层是一个1×1卷积层和tanh激活函数，将输入特征图的通道映射为2，代表每个元素的x方向偏移和y方向偏移比例，假设对于其中一个元素的偏移预测比例为px，py，则最终每个元素的偏移ΔX，ΔY为：

具体的，偏移修正，在原始特征图的基础上，对图像中每个元素的坐标X，Y加上预测的偏移值ΔX与ΔY得到新的坐标X′，Y′，将原先坐标对应的值映射到新的坐标得到初步对齐的特征图，

其中⊕代表逐元素相加。

具体的，预训练，使用FLIRADAS数据集的配准子集FLIR-aligned作为输入，为可见光图像随机添加一定范围内x，y方向的偏移，并将偏移值进行8倍下采样获取偏移的真实值，最终使用均方损失函数(Mean Square Error Loss，MSELoss)进行偏移预测的监督。

具体的，在感兴趣区域对齐模块中，在得到候选框后，为了应对模态间特征的空间偏移现象，首先将候选框进行扩展，以获取更多的上下文信息，之后对于每种模态，使用感兴趣区域池化将候选框区域对应的特征映射到具有H×W大小的特征图中，然后将两种模态的感兴趣区域上下文特征级联并送入候选框回归模块，候选框回归模块由一个卷积层和两个全连接层组成，最后的全连接层后使用tanh作为激活函数，网络为每个候选框预测cx,cy,cw,ch∈[-1,1]四个偏移因子，则对于每个候选框：

△y＝c_y·thr_y,y_n＝y+Δy

Δw＝c_w·thr_w,w_n＝w+Δw

△h＝c_h·thr_h,h_n＝h+Δh

其中x,y,w,h代表候选框的中心点坐标以及宽和高，thrx,thry,thrw,thrh代表候选框的最大偏移范围，实验中作为超参数，xr,yr,wr,hr代表修正后的候选框中心点坐标及宽和高；

为了加速网络的训练，指导模块对候选框偏移的预测，使用欧氏距离计算两个模态特征中响应最大的点之间的距离作为损失函数。

经过上述两个模块的处理，网络可以得到经过对齐处理的两个模态的特征图，为了让网络自适应地偏重更受信赖的模态，使用对应的权重对特征进行重新加权，并将重加权后的特征通道级联后送入之后的检测头进行最终的分类和回归。

根据上述技术方案对本方案工作步骤进行总结梳理：本发明中，采用双流网络架构，骨干网络使用ResNet与特征金字塔，采取由粗到细的特征对齐策略，在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐，并直接使用两个模态的特征进行后续的检测，已有标注的模态，通常为热红外为参考模态，对另一个模态，即偏移模态的特征图进行处理使之在空间位置上靠近参考模态，来达到模态间特征对齐的效果，加快检测速度，同时可以快速回归检测框。

本发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于特征对齐的图像融合目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：在特征加权过程中，通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权，使用一个光照感知子网络来对光照值进行预测，光照感知子网络由2个卷积层和3个全连接层组成，每个卷积层后接一个ReLU激活函数层以及一个2×2最大池化层来对特征进行激活和压缩，并在最后一层全连接层之后使用softmax激活函数。

3.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：在特征加权过程中，为了减小计算量，将可见光图像进行8倍下采样后再作为输入，网络会输出2个预测值，分别是图像为白天的概率Cd和图像为夜晚的概率Cn，由于该任务是一个较为简单的二分类任务，因此Cd、Cn会接近0或者1，若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果；

为输出值创造了一个基准，最终的输出值在/>

4.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：特征偏移预测模块中是对特征图进行初步的偏移预测，使两个模态的特征图大体上对齐，首先将两个模态的特征图进行通道级联，然后通过多头自注意力模块提取跨模态特征，使用反向残差前馈网络增强模型的表达能力并减小计算量，最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移。

5.根据权利要求4所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：多头自注意力模块，其视作是多个自注意力模块的级联，对于偏移模态的特征

及参考模态的特征；

将其进行通道级联以获取多模态特征

而后将特征图拉伸来获取特征序列/>

其中，

及/>

其中

Z′＝MultiHead(Q,K,V)＝Concat(Z₁,…,Z_k)W^p

代表着级联操作Concat(Z1,...,Zh)的投影矩阵。

6.根据权利要求5所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：反向残差前馈网络包含3个卷积层，每个卷积层之后使用批标准化对特征进行规范，且在前两个卷积层之后使用激活函数并进行残差连接：

7.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：偏移预测层是一个1×1卷积层和tanh激活函数，将输入特征图的通道映射为2，代表每个元素的x方向偏移和y方向偏移比例。

8.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：偏移修正，在原始特征图的基础上，对图像中每个元素的坐标X，Y加上预测的偏移值ΔX与ΔY得到新的坐标X′，Y′，将原先坐标对应的值映射到新的坐标得到初步对齐的特征图，

其中/>

代表逐元素相加。

9.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：预训练，使用FLIRADAS数据集的配准子集FLIR-aligned作为输入，为可见光图像随机添加一定范围内x，y方向的偏移，并将偏移值进行8倍下采样获取偏移的真实值，最终使用均方损失函数进行偏移预测的监督。

10.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法，其特征在于：在感兴趣区域对齐模块中，在得到候选框后，为了应对模态间特征的空间偏移现象，首先将候选框进行扩展，以获取更多的上下文信息，之后对于每种模态，使用感兴趣区域池化将候选框区域对应的特征映射到具有H×W大小的特征图中，然后将两种模态的感兴趣区域上下文特征级联并送入候选框回归模块，候选框回归模块由一个卷积层和两个全连接层组成，最后的全连接层后使用tanh作为激活函数，网络为每个候选框预测cx,cy,cw,ch∈[-1,1]四个偏移因子，则对于每个候选框：

△y＝c_y·thr_y,y_n＝y+Δy

Δw＝c_w·thr_w,w_n＝w+Δw

△h＝c_h·thr_h,h_n＝h+Δh