CN116740480A

CN116740480A - 多模态图像融合目标跟踪方法

Info

Publication number: CN116740480A
Application number: CN202310847340.7A
Authority: CN
Inventors: 李荅群; 余毅; 王成龙; 李铭扬
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-09-12

Abstract

本发明涉及目标跟踪技术领域，具体提供一种多模态图像融合目标跟踪方法，采用孪生卷积神经网络对多模态图像数据进行特征提取，通过部分卷积层的比例共享获取各模态的共有特征，并将网络的层级深度与卷积层的共享模式充分结合，在网络层级由浅至深的过程中配以逐渐变化的卷积层共享比例，提升网络性能和计算效率；为了提升融合策略的自适应能力，建立了基于注意力机制的多模态特征融合网络，能够自适应地对多模态特征的权重和可靠性进行准确评估，从而使融合特征更加可靠；利用非对称卷积层和特征张量计算中的广播加法将两个分支网络中的融合特征进行结合，并将最终特征进行回归与分类计算，从而得到最终的目标信息。

Description

多模态图像融合目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，具体提供一种多模态图像融合目标跟踪方法。

背景技术

在传统的多模态图像融合目标跟踪方法中，中端特征级融合方法多采用基于稀疏表示的方法和基于图的方法进行多模态图像数据的特征提取与融合。这些传统方法虽然能够在一些简单场景获得较好的跟踪效果，但在应对复杂场景中遮挡、光照变化、相似目标干扰和尺度变化等干扰因素时，跟踪性能会出现明显的下降趋势。

近些年，随着深度学习的发展，基于深度特征的特征级融合方法已经成功引入到视觉目标跟踪中，该种方法主要采用深度神经网络对多模态图像数据进行特征提取，所提取的深度特征较比人工设计的浅层特征更加有效、鲁棒性更好，更易于提升复杂场景下视觉目标跟踪的整体性能。Zhang等在一种平行结构中分别利用卷积神经网络对可见光图像和红外图像进行特征提取，然后将提取的特征直接进行拼接并传入到特定层级中完成分类与定位。Li和Wu等采用双流卷积神经网络分别对可见光图像和红外图像进行特征提取，并提出一种融合网络对特征进行自适应融合。虽然，上述两种方法能够从不同角度利用多模态深度特征进行融合并提升跟踪效果，但融合过程中没有对各模态数据的融合权重和可靠性进行分析与解决。Zhang和Ye等在已有方法的基础上引入孪生卷积神经网络来解决多模态图像数据融合的问题，通过在各分支中采用相同的基础网络来实现特征的独立提取，并在融合后进行互相关计算，从而实现目标的判别与定位。由于孪生卷积神经网络结构能够在少样本学习中发挥重要作用，并且可以采用离线的方式训练网络模型，因此该类方法在保证准确性与鲁棒性的同时还具有较高的实时性。然而，该种方法依旧对多模态数据采用独立的方式进行处理，没有充分考虑到数据间的共有特性，从而使提取的特征冗余性较高，一定程度上增加了计算负担。此外，在对各模态数据间的权重和可靠性进行计算时，融合策略的自适应能力不强，导致融合后的特征鲁棒性不高。为此，C.L.Li和C.Li等在孪生网络结构中采用部分卷积层共享的模式对多模态图像数据同时进行特征提取，有效获取了多模态图像数据中的共有特征。然而，引入的共享模式没有与网络的层级深度进行结合，从而导致网络在工作性能和计算效率方面表现较差，并且融合策略的自适应能力没有进一步提升。

综上，虽然在引入孪生卷积神经网络后，采用中端特征级融合的多模态图像融合目标跟踪方法在跟踪性能上得到了巨大提升，但是该种方法在复杂场景下的跟踪精度、鲁棒性和稳定性仍然需要改进。

发明内容

本发明为解决上述问题，提供了一种多模态图像融合目标跟踪方法，有效提升了在复杂场景下的跟踪精度、鲁棒性和稳定性。

本发明提供的多模态图像融合目标跟踪方法，包括以下步骤：

S1、利用孪生卷积神经网络对多模态图像数据进行特征提取，获得多模态特征；

S2、计算孪生卷积神经网络的两个分支网络中Block层级在不同模态特征间的相似性，并确定Block层级间的共享比例；

S3、将多模态特征输入多模态特征融合网络，对多模态特征进行特征融合，获得多模态融合特征；

S4、将多模态融合特征输入非对称卷积层进行计算，获得最终特征；

S5、将最终特征进行分类与回归，并作为孪生卷积神经网络的损失函数的数据输入，通过迭代优化损失函数，完成孪生卷积神经网络的训练；

S6、将待跟踪目标的多模态图像数据输入已完成训练的孪生卷积神经网络，获得待跟踪目标的定位信息。

优选的，孪生卷积神经网络包括两个结构相同的分支网络，即目标模板分支网络和搜索区域分支网络，分支网络均采用改进的ResNet-18网络，其拓扑结构为：

第一卷积层Conv1，卷积核的大小为7×7，卷积核的数量为64，步长为2，填充为1；

最大池化层Maxpool，池化窗口的大小为3×3，步长为2，填充为1；

Block1，卷积核为步长为2，填充为1；

Block2，卷积核为步长为2，填充为1；

Block3，卷积核为步长为2，填充为1；

Block4，卷积核为步长为2，填充为1。

优选的，分支网络中Block2、Block3、Block4层级在不同模态特征间的相似性的计算式如下：

其中，为改进的ResNet-18网络，b为二维偏置矩阵，/>和/>表示相同分支网络中同一层级深度下不同模态间的特征张量；

将层级间的互相关计算结果作为Block2、Block3、Block4中的共享比例。

优选的，多模态特征融合网络包含基于Transformer模型中的编码器-解码器结构搭建的语境增强模块和自适应特征融合模块，自适应特征融合模块采用与语境增强模块中相同的解码器。

优选的，编码器中包括多头自注意力机制和实例归一化计算，多头自注意力机制的定义如下：

MultiHead(Q,K,V)＝Concat(H₁,...,H_n)W^O(2)；

其中，Q，K，V分别为输入的矢量矩阵，W^O，W_n ^Q，W_n ^K，W_n ^V为参数矩阵，d_k为矩阵K的维度；

将多头自注意力机制的输出与输入进行实例归一化计算，计算式如下：

Y_encoder＝Ins.Norm(X+Multihead(Q,K,V))(5)；

其中，X为编码器的输入，Ins.Norm表示实例归一化计算，Y_encoder为编码器最终输出的特征张量。

优选的，解码器对输入的特征序列X_Q和X_KV进行空间位置编码，并以残差的形式使用多头交叉注意力机制对输入的特征序列进行融合，并对融合结果进行实例归一化计算，对该计算结果采用全连接前馈神经网络增强拟合能力，再通过下式计算解码器的最终输出的多模态融合特征：

其中，P_Q和P_KV分别对应为X_Q和X_KV的空间位置编码，MultiHead-Cross表示多头交叉注意力机制，表示解码器中经过多头交叉注意力机制和实例归一化处理后的特征张量，Y_decoder为解码器最终输出的特征张量，FFN表示全连接前馈神经网络。

优选的，采用非对称卷积层和特征张量计算中的广播加法对多模态特征融合网络处理后的两个分支网络的多模态融合特征进行结合，非对称卷积层对搜索区域分支网络中多模态融合特征的子窗口i的特征映射计算过程为：

其中，为目标模板分支网络中的多模态融合特征，/>为搜索区域分支网络中多模态融合特征/>的第i个子窗口，ω_z、ω_x分别为应用于/>和/>的非对称卷积层，n为搜索区域分支网络中多模态融合特征的子窗口个数，+_b为特征张量计算中的广播加法。

优选的，S6中，将待跟踪目标的多模态图像数据输入已完成训练的孪生卷积神经网络中进行特征提取，利用已完成训练的多模态特征融合网络进行不同模态间的多模态特征融合，利用已完成训练的非对称卷积层将不同分支网络的多模态融合特征进行特征结合，对结合后的最终特征进行分类与回归，即获得待跟踪目标的定位信息。

与现有技术相比，本发明能够取得如下有益效果：

本发明将网络的层级深度与卷积层的共享模式充分结合，在网络层级由浅至深的过程中配以逐渐变化的卷积层共享比例，有效提升了网络性能和计算效率；并设计了基于注意力机制的多模态特征融合网络，能够自适应地对多模态特征的权重和可靠性进行准确评估，从而使融合后的特征更加可靠、鲁棒性更好；对目标的跟踪结果精度更高。

附图说明

图1是根据本发明实施例提供的多模态图像融合目标跟踪方法的流程图；

图2是根据本发明实施例提供的多模态图像融合目标跟踪方法的跟踪过程示意图；

图3是根据本发明实施例提供的Block2～Block4层级深度下多模态特征间互相关计算示意图；

图4是根据本发明实施例提供的多模态融合网络中的编码器-解码器的原理示意图；

图5是根据本发明实施例提供的非对称卷积层与各分支多模态融合特征计算示意图。

具体实施方式

在下文中，将参考附图描述本发明的实施例。在下面的描述中，相同的模块使用相同的附图标记表示。在相同的附图标记的情况下，它们的名称和功能也相同。因此，将不重复其详细描述。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

图1示出了根据本发明实施例提供的多模态图像融合目标跟踪方法的流程。

图2示出了根据本发明实施例提供的多模态图像融合目标跟踪方法的跟踪过程。

如图1和图2所示，本发明实施例提供的多模态图像融合目标跟踪方法，主要包括网络训练和目标跟踪两个阶段，具体的：

网络训练阶段：

S1、利用孪生卷积神经网络的两个分支网络对多模态图像数据(模板分支图像和搜索区域分支网络图像)进行特征提取，获得多模态特征。孪生卷积神经网络包括两个结构相同的分支网络，即目标模板分支网络和搜索区域分支网络，两个分支网络共享同样的权重和网络结构，可以并行处理两个不同的输入，并分别输出这两个输入的特征表示。两个分支网络均采用自主改进的ResNet-18网络对不同模态的图像进行特征提取，改进的网络的拓扑结构为：

Block1，卷积核为步长为2，填充为1；

Block2，卷积核为步长为2，填充为1；

Block3，卷积核为步长为2，填充为1；

Block4，卷积核为步长为2，填充为1。

具体的网络结构如表1：

表1网络结构

改进的ResNet-18网络已经过预训练，主要是将Block3和Block4中的步长调整为1，使得Block2、Block3、Block4三个卷积块输出的卷积特征具有统一的尺寸。

图3示出了根据本发明实施例提供的Block2～Block4层级深度下多模态特征间互相关计算过程。

如图3所示，S2、多模态特征提取完毕后，利用公式(1)分别计算目标模板分支网络和搜索区域分支网络下Block2～Block4层级不同模态特征间的相似性，相似性的计算式如下：

其中，为改进的ResNet-18网络，b为二维偏置矩阵，/>和/>表示相同分支网络中同一层级深度下不同模态间的特征张量。

将层级间的互相关计算结果作为Block2、Block3、Block4中的共享比例，并进行相应的记录存储，待训练结束后通过对记录的相似性数据进行统计分析，确定最终Block2～Block4层级间的共享比例，在本实施例中，不同Block层级间互相关计算结果为0.25、0.5、0.75，则不同Block层级间卷积层的共享比例为25％、50％、75％，通过不同Block层级间卷积层的共享比例可有效提升多模态特征提取网络的性能和计算效率。

S3、为提高多模态融合特征的可靠性和鲁棒性，提出了基于注意力机制的多模态特征融合网络，能够自适应地对多模态特征的权重和可靠性进行准确评估，多模态特征融合网络包括语境增强模块和自适应特征融合模块，语境增强模块是基于Transformer模型中的编码器-解码器结构进行优化搭建的；自适应特征融合模块采用与语境增强模块中相同的解码器。

图4示出了根据本发明实施例提供的多模态融合网络中的编码器-解码器的原理。

如图4所示，将多模态特征输入多模态特征融合网络，对多模态特征进行特征融合，首先会进入语境增强模块中，模板分支和搜索区域分支网络下不同模态数据的特征会分别经过编码器。

编码器包括多头自注意力机制(Multi head)和实例归一化计算，多头自注意力机制会使网络模型考虑不同的注意力分布形式，并使网络模型从多个方面对数据信息进行关注，其定义如下：

MultiHead(Q,K,V)＝Concat(H₁,...,H_n)W^O(2)；

其中，Q，K，V分别为输入的矢量矩阵，W^O，W_n ^Q，W_n ^K，W_n ^V为参数矩阵，d_k为矩阵K的维度，H_n表示注意力头的数量，注意力头是指在自注意力机制中的并行操作单元，每个注意力头都会学习并关注不同的特征和上下文信息。

在经过多头自注意力机制处理后，将多头自注意力机制的输出与输入进行实例归一化计算，并将计算结果进行数据输出，实例归一化计算的计算式如下：

Y_encoder＝Ins.Norm(X+Multihead(Q,K,V))(5)；

同一分支不同模态间编码器的输出数据会交错分配到对应的解码器中，首先解码器会对输入的特征序列X_Q和X_KV进行空间位置编码，从而能够使解码器有效分辨出输入特征序列中的位置信息，解码器以残差的形式使用多头交叉注意力机制对输入的特征序列进行融合，并对融合结果进行实例归一化计算，对该计算结果采用全连接前馈神经网络来增强网络模型的拟合能力，最后通过式(6)和(7)计算解码器的最终输出的多模态融合特征：

图5示出了根据本发明实施例提供的非对称卷积层与各分支多模态融合特征计算过程。

如图5所示，S4、采用非对称卷积层和特征张量计算中的广播加法对多模态特征融合网络处理后的两个分支网络输出的多模态融合特征进行结合，从而替代传统的互相关计算，使得特征结合计算过程可以在端到端学习中受益。非对称卷积层在与各分支中的多模态融合特征进行计算时，非对称卷积核采用与目标模板分支网络中的融合特征相同的长宽尺寸，非对称卷积层对搜索区域分支网络中多模态融合特征的子窗口i的特征映射计算过程为：

S5、由式(8)计算获得最终特征后，将最终特征进行分类与回归，并将其作为孪生卷积神经网络的损失函数的数据输入，并且将训练数据集中的标签真值一起作为损失函数的数据输入，通过迭代的方式优化损失函数，调整网络参数，进而完成孪生卷积神经网络的训练。

目标跟踪阶段：

S6、将实时采集待跟踪目标的红外图像与可见光图像输入到已完成训练的孪生卷积神经网络中进行特征提取，层级间共享比例在训练过程后已经固化，利用已完成训练的多模态特征融合网络进行不同模态间的多模态特征融合，最后利用已完成训练的非对称卷积层将不同分支网络的多模态融合特征进行特征结合，对结合后的最终特征进行分类与回归，即获得待跟踪目标的定位信息。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制。本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种多模态图像融合目标跟踪方法，其特征在于，包括以下步骤：

2.如权利要求1所述的多模态图像融合目标跟踪方法，其特征在于，孪生卷积神经网络包括两个结构相同的分支网络，即目标模板分支网络和搜索区域分支网络，分支网络均采用改进的ResNet-18网络，其拓扑结构为：

Block1，卷积核为步长为2，填充为1；

Block2，卷积核为步长为2，填充为1；

Block3，卷积核为步长为2，填充为1；

Block4，卷积核为步长为2，填充为1。

3.如权利要求2所述的多模态图像融合目标跟踪方法，其特征在于，分支网络中Block2、Block3、Block4层级在不同模态特征间的相似性的计算式如下：

4.如权利要求1所述的多模态图像融合目标跟踪方法，其特征在于，多模态特征融合网络包括基于Transformer模型中的编码器-解码器结构搭建的语境增强模块和自适应特征融合模块，自适应特征融合模块采用与语境增强模块中相同的解码器。

5.如权利要求4所述的多模态图像融合目标跟踪方法，其特征在于，编码器中包括多头自注意力机制和实例归一化计算，多头自注意力机制的定义如下：

MultiHead(Q,K,V)＝Concat(H₁,...,H_n)W^O(2)；

Y_encoder＝Ins.Norm(X+Multihead(Q,K,V))(5)；

6.如权利要求5所述的多模态图像融合目标跟踪方法，其特征在于，解码器对输入的特征序列X_Q和X_KV进行空间位置编码，并以残差的形式使用多头交叉注意力机制对输入的特征序列进行融合，并对融合结果进行实例归一化计算，对该计算结果采用全连接前馈神经网络增强拟合能力，再通过下式计算解码器的最终输出的多模态融合特征：

7.如权利要求1或6所述的多模态图像融合目标跟踪方法，其特征在于，采用非对称卷积层和特征张量计算中的广播加法对多模态特征融合网络处理后的两个分支网络的多模态融合特征进行结合，非对称卷积层对搜索区域分支网络中多模态融合特征的子窗口i的特征映射计算过程为：

8.如权利要求7所述的多模态图像融合目标跟踪方法，其特征在于，S6中，将待跟踪目标的多模态图像数据输入已完成训练的孪生卷积神经网络中进行特征提取，利用已完成训练的多模态特征融合网络进行不同模态间的多模态特征融合，利用已完成训练的非对称卷积层将不同分支网络的多模态融合特征进行特征结合，对结合后的最终特征进行分类与回归，即获得待跟踪目标的定位信息。