CN117237415A

CN117237415A - 基于自适应特征聚合的多模态目标跟踪方法、装置及介质

Info

Publication number: CN117237415A
Application number: CN202311270912.6A
Authority: CN
Inventors: 吴鸿飞; 龙政方; 朱乾勇; 韩波; 邓凌天; 袁正权
Original assignee: Chongqing Seres New Energy Automobile Design Institute Co Ltd
Current assignee: Thalys Automobile Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-15

Abstract

本申请提供一种基于自适应特征聚合的多模态目标跟踪方法、装置及介质。该方法包括：将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；利用三元网络对多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互；通过模态自增强与跨模态互增强策略进行特征融合，形成统一的特征图；利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。本申请提升了模型性能和鲁棒性。

Description

基于自适应特征聚合的多模态目标跟踪方法、装置及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于自适应特征聚合的多模态目标跟踪方法、装置及介质。

背景技术

随着计算机视觉领域的发展，多模态的特征提取模型日益受到关注，尤其是在处理多种不同来源或类型的数据时。在此类模型中，特征提取通常由三元网络完成，以获取各模态的深度特征。这些特征，经过余弦嵌入损失的约束，使得特征更具差异性和多样性，进而有助于实现更加准确的模态识别。

为了进一步增强模态间的特征表示能力，研究者引入了注意力机制。这种机制旨在对模态特有特征进行自增强，同时利用跨模态通道的方式进行互补增强。这样，模型能够在各个模态之间进行互补信息的跨模态感知，并进一步增强特征的差异性。

然而，当前的模型仍存在一些不足之处。首先，模型中的交互和增强仅在最后的特征上进行，这导致模型主要依赖高级语义信息，并忽略了纹理细节等底层信息。由于基于深层特有特征的交互和增强无法有效地感知和利用底层信息，模型的性能受到限制。其次，跨模态交互和增强在进行时仅使用了特有特征，从而忽略了共有特征的重要性。最后，虽然直接通过通道级联的方式将交互后的特有特征与共有特征进行融合是一种简单高效的方法，但它没有考虑模态的可靠性和权重，可能会导致信息损失或引入不必要的噪声。因此，导致现有的模型性能降低，鲁棒性较差的问题。

发明内容

有鉴于此，本申请实施例提供了一种基于自适应特征聚合的多模态目标跟踪方法、装置及介质，以解决现有技术存在的模型性能降低，鲁棒性较差的问题。

本申请实施例的第一方面，提供了一种基于自适应特征聚合的多模态目标跟踪方法，包括：从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；利用三元网络对多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互，以便对特征张量的差异性和多样性进行增强；利用特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的特有特征在通道方向上与共有特征进行级联，形成统一的特征图；利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。

本申请实施例的第二方面，提供了一种基于自适应特征聚合的多模态目标跟踪装置，包括：获取模块，被配置为从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；提取模块，被配置为利用三元网络对多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；交互模块，被配置为基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互，以便对特征张量的差异性和多样性进行增强；增强模块，被配置为利用特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的特有特征在通道方向上与共有特征进行级联，形成统一的特征图；融合模块，被配置为利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；生成模块，被配置为根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。

本申请实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；利用三元网络对多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互，以便对特征张量的差异性和多样性进行增强；利用特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的特有特征在通道方向上与共有特征进行级联，形成统一的特征图；利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。本申请对特有特征和共有特征进行融合，针对模态可靠性和权重问题，通过通道注意力聚合的方式为两个模态分配互补权重，使特征级联和融合过程具有选择性，从而提升了模型性能和鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的基于自适应特征聚合的多模态目标跟踪方法的流程示意图；

图2是本申请实施例提供的基于自适应特征聚合的多模态目标跟踪装置的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在多模态的特征提取模型中，特征提取由三元网络完成，并且利用余弦嵌入损失的约束使特征差异化和多样化。在模态特有特征的基础上，利用注意力机制进行特征自增强、跨模态通道互补增强；通过通道互补的方式实现模态间互补信息的跨模态感知并增强特征差异性。

但是该模型中，交互和增强仅针对最后的特征；在特征提取过程中，三元网络的特有特征提取网络之间保持独立。一方面，深度特征以高级语义信息为主而缺乏纹理细节等底层信息，基于深层特有特征的交互和增强无法感知和利用底层信息。另一方面，跨模态交互和增强仅使用特有特征，在该过程中，共有特征被忽略；同时，采用直接通道级联的方法融合交互后的特有特征和共有特征较为简单高效，但是模态可靠性和权重没有被考虑。

鉴于现有技术中存在的问题，本申请首先设计了加权残差注意力模块(ResidualCrossAttention,RCA)与三元网络组合为多级残差注意力结构；其次，采用特征选择的思想设计了前后景融合模块(Background-ForegroundFusion,BFF)和选择性模态融合模块(SelectiveModalFusion,SMF)。具体地，本申请首先在跨模态交互和特征增强的基础上，设计了加权残差注意力模块(ResidualCross Attention,RCA)；将该模型与原有三元网络的各级特征提取结合，构成多级残差注意力结构。一方面，改进原有的跨模态交互和特征增强模型，采用加权残差连接；另一方面，在深度特征提取过程中进行多级交互，取代原有的最深层单级交互。

针对多模态特征融合问题，本申请利用特征选择的思想设计了前后景融合模块和选择性模态融合模块。在原有三元网络中，特有特征通常产生对目标的直接感知，而共有特征主要反映多模态图像间的一致性信息，如空间整体布局、环境杂波等；即特有特征主要描述前景信息而共有特征主要描述背景信息。在目标跟踪中，除了具有语义的前景，背景信息也对判别跟踪目标具有辅助作用。因此，本申请设计了前后景融合模块对特有特征和共有特征进行融合。针对模态可靠性和权重问题，通过通道注意力聚合的方式为两个模态分配互补权重，使特征级联和融合过程具有选择性。

图1是本申请实施例提供的基于自适应特征聚合的多模态目标跟踪方法的流程示意图。图1的基于自适应特征聚合的多模态目标跟踪方法可以由服务器执行。如图1所示，该基于自适应特征聚合的多模态目标跟踪方法具体可以包括：

S101，从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；

S102，利用三元网络对多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；

S103，基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互，以便对特征张量的差异性和多样性进行增强；

S104，利用特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的特有特征在通道方向上与共有特征进行级联，形成统一的特征图；

S105，利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；

S106，根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。

在一些实施例中，利用所述三元网络对所述多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量，包括：

输入多模态图像到三元网络的前卷积层，通过多次卷积操作，提取出低级的模态特异性特征；

对低级的模态特异性特征进行池化操作，利用降采样降低特征维度，并保留主要的模态信息；

通过多次卷积和池化层迭代操作，将低级特征映射到高级语义特征空间，利用归一化层对高级特征进行标准化处理，以使高级特征具有相同的尺度和分布；

根据高级特征和低级特征，计算多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；

其中，三元网络包括卷积层、池化层和归一化层，三元网络用于从不同模态的图像数据中提取低级特征和高级特征。

具体地，本申请采用了基于加权残差注意力的多级交互结构，在原设计的跨模态交互模块中，多个注意力交叉作用于深度特征，即对同一特征进行多次加权，从而完成特征自增强和互增强，如下式所示：

其中，q₁表示当前特征F的注意力向量；表示另一特征(模态)的互补注意力向量。该交互同时包含了模态自增强与跨模态互增强过程；公式中，第一项为残差项，即后续的注意力加权结果与原始特征图进行元素对应的加和，构成残差连接形式。第二项为自增强项，由F计算得到注意力向量q₁并对特征自身进行加权。第三项为互补增强项，使用另一模态的互补注意力向量/>对当前模态的特征进行加权。第四项为模态公共项，当前模态的注意力向量和另一模态的互补注意力向量相乘后对当前模态特征进行加权，用于表征两模态间的部分共有量，对部分通道同步进行增强或抑制。

进一步地，将上述式子经化简化处理即可获得以下式子：

在通道注意力中，上述q₁和q₂由sigmoid函数归一化至(0,1)。由于最终权重的数值范围为(1,4)，经过上述加权后，原有特征的数值范围被向上拉伸4倍；并且由于所有权重值都大于1，上述交互无法产生抑制作用，只能进行单方向增强。在对最深层特征进行交互和增强后，直接使用增强后特征计算互相关响应图，这对特征提取和响应图计算没有负面影响。但如果在特征提取过程中进行交互，即在卷积层之间插入上述交互模块，模型的训练稳定性受到较大的影响。随着特征数值范围的明显增大，模型的内部协变量偏移也相应增大。在训练中，模型中每一层的输入分布都随着前一层参数的改变而改变，内部协变量偏移可能将下一级输入中的大量维度移动到激活函数的饱和区，导致收敛速度减缓。该问题随着网络层数的加深而被放大，这使得模型在训练中的稳定性下降并存在发散的风险，难以训练。

进一步地，为了将跨模态交互扩展至多级结构，并增强其数值稳定性，本申请将其改进为如下式所示的加权残差连接：

其中，q₁表示当前特征F的注意力向量；表示另一特征(模态)的互补注意力向量；γ₁、γ₂为可学习的标量参数并在训练时初始化为0。为说明加权残差连接的作用，假定存在如下式的网络结构：

F_L＝(1+αω)^L·F₀

其中，L表示网络的总层数；为神经元参数且L层网络全部共享该神经元；F₀、F_L分别表示输入和输出。α为1时该模型退化为原始的残差连接，即每层网络的输出与输入直接求和。F₀对F_L的Jacobian矩阵J_io＝(1+αω)^L，当ω≈1且α＝1时，网络的输出信号对输入的任何微小扰动都非常敏感；而当时，输入值被直接映射，第一轮梯度回传不会更新参数，但会进行更新，在此之后可以正常更新且不会导致过大的梯度扰动。

进一步地，多模态交互和增强中包含两项：自增强和互增强，在加权残差连接中，两项分别设置独立的权重值。同时，自增强基于自注意力而互增强基于另一模态的互补注通道注意力，每个模态的自增强权重和互增强权重也互相独立。如上图所示，加权残差连接共包含四个残差权重，对应4个注意力项，如下式所示：

其中F_RS、F_TS分别是RGB、TIR模态的特有特征；γ₁₁、γ₁₂、γ₂₁、γ₂₂是4个残差权重且在训练时初始化为0。

将上述加权残差注意力模块(RCA)与三元网络结合，构成多级交互结构。三元网络采用5层卷积堆叠，除最后一层外，每层卷积后都有批标准化层和激活层。加权残差注意力模块被用于网络最后三层的特有特征，如下图所示，同级特征经过RCA模块交互后与原有特征加和，再送入更深一层的网络。虽然浅层特征具有更多的底层细节信息，但相对应的噪声也较强，特别是对于分辨率不高的红外图像而言；同时，浅层特征中语义信息尚不富集，而注意力机制需要一定的语义逻辑信息。因此加权残差注意力模块没有被应用到更浅层特征上。

在实际应用中，除上述多级注意力交互结构外，本申请还将三元网络中的ReLU激活函数替换为LeakyReLU。ReLU对负数部分直接置零，正数部分的导数恒为1，这能够避免梯度消失问题；同时该函数计算速度快。但是其负数部分梯度恒为零，可能导致过多神经元死亡，反向传播中无法进行参数更新。LeakyReLU中负值部分具有很小的梯度，对应部分神经网络参数仍然可以更新。

在提取特征的网络中，每层按照卷积、批标准化、激活函数的方式堆叠，每层特征由激活函数输出，激活函数的值域直接限制了特征的数值范围。同时，交互模块直接使用每层激活函数输出的特征。使用ReLU函数激活时，特征图中无负值，在聚合注意力向量的过程中负值对应的特征位置无法发挥作用，且对应的神经元无法通过交互模块进行前向传播，也就无法通过该路径进行梯度回传和参数更新。因此，将LeakyReLU作为三元网络中的激活函数，使负值能够通过激活函数，并直接作用到交互模块。

在一些实施例中，基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互，以便对特征张量的差异性和多样性进行增强，包括：

利用残差模块捕获每一模态特征张量中的短程和长程模式差异，并强化模态间的差异性特征；

基于注意力机制，计算各模态特征与其他模态特征之间的相似度，并基于相似度计算出注意力权重矩阵；

使用注意力权重矩阵对各模态特征进行加权，应用余弦嵌入损失，优化特征空间的分布；

利用自适应权重分配策略，为每一模态的特征分配不同的权重，以强化目标跟踪的模态特征；

其中，多级残差注意力交互机制包括一个或多个残差模块，多级残差注意力交互机制中应用自适应权重分配策略，以便在交互过程中为每一模态的特征赋予不同的权重。

具体地，首先输入的多模态数据经过预处理后进入多模态特征提取框架。在此框架中，本申请首先利用残差模块分别对各模态数据进行特征提取。这些残差模块能够有效地捕获每一模态特征张量中的短程和长程模式差异，并强化模态间的差异性特征。

进一步地，基于注意力机制，本申请计算各模态特征与其他模态特征之间的相似度。这种相似度的计算方法可以采用常见的内积方法或其他相似度计算方法。基于计算得到的相似度，本申请可以得到注意力权重矩阵。这个矩阵反映了每个模态特征在当前情境下对其他模态特征的重要性。

进一步地，利用上述得到的注意力权重矩阵，本申请可以对各模态特征进行加权。进一步地，应用余弦嵌入损失优化特征空间的分布，使得相同模态的特征在特征空间中更加靠近，而不同模态的特征更加分散。

进一步地，在特征交互的过程中，不同模态的重要性可能会发生变化。为了应对这种情况，本申请引入了一种自适应权重分配策略。这种策略能够根据模态特征的当前状态为其分配不同的权重，以确保目标跟踪的准确性。

在实际应用中，多级残差注意力交互机制包括一个或多个残差模块。这些模块能够在不同的层级上捕获特征的短程和长程差异，并进行适当的融合。在这个机制中，本申请还应用了前述的自适应权重分配策略，以确保在交互过程中为每一模态的特征赋予合适的权重。

通过上述实施例的步骤，本实施例中的多模态特征提取方法能够有效地融合各模态的特征，提高模态间的差异性和多样性，从而在多模态目标跟踪任务中获得更好的性能。

在一些实施例中，利用特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的特有特征在通道方向上与共有特征进行级联，形成统一的特征图，包括：

对每个模态的特有特征执行模态自增强操作，通过自我注意力机制，强化每个模态内部的关键信息并抑制噪声信息；

对于跨模态互增强，计算不同模态特征之间的相关性，基于相关性确定模态间的增强策略，以使每个模态从其他模态中获取补充信息；

根据计算得到的模态间相关性，动态地为每个模态分配增强权重，增强权重用于在网络训练过程中进行更新和优化；

将每个模态对应的增强后的特有特征与共有特征在通道方向上进行级联，构建统一的特征图。

具体地，首先为每个模态的特有特征执行模态自增强操作。具体来说，通过自我注意力机制，该操作可以有效地强化每个模态内部的关键信息，例如对象的主要部分或显著的纹理信息，并同时抑制可能存在的噪声或干扰信息。这样可以确保每个模态特征在后续的融合过程中保持其内部的完整性和鲜明性。

进一步地，为了确保每个模态特征能够从其他模态中获取有益的补充信息，本申请引入了跨模态互增强策略。具体地，通过计算不同模态特征之间的相关性，例如使用余弦相似度或其他相关性度量方法，本申请可以确定每个模态与其他模态之间的增强策略。

进一步地，基于计算得到的模态间相关性，本申请进一步设计了一个动态的增强权重分配策略。在网络训练过程中，这些权重可以根据每个模态与其他模态的关系动态地进行更新和优化。这种动态调整确保了在不同场景或数据分布下，每个模态能够获得最适合其特性的增强权重。

进一步地，将每个模态对应的增强后的特有特征与共有特征在通道方向上进行级联。这意味着，例如在一个卷积神经网络中，每个模态的特征图都会被堆叠在一起，形成一个更深或更宽的特征图。这种统一的特征图既包含了每个模态的特有信息，又包含了跨模态的共有信息，从而为后续的目标检测或分类任务提供了丰富的特征表示。

进一步地，为了确保该模型的鲁棒性和性能，本申请还可以在训练过程中引入其他损失函数，如分类损失、回归损失等，以进一步优化特征的质量和表示能力。

在一些实施例中，利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图，包括：

将模态特有特征和共有特征输入到自适应特征聚合模型中，使用元素对应加和操作对模态特有特征和共有特征进行合并，生成中间特征图；

对中间特征图应用全局平均值池化操作，压缩空间分辨率，以生成一维向量；

将一维向量通过全连接层进行通道间的交互，以加强特征表示，经过两个全连接层处理后，得到前景的权重向量和背景的权重向量；

对前景的权重向量和背景的权重向量进行归一化处理，得到前景的选择性权重和背景的选择性权重；

利用前景的选择性权重和背景的选择性权重对前景特征和背景特征进行加权，生成融合后的特征图。

具体地，本申请实施例还提出了基于特征选择的自适应特征聚合模型，多模态图像经三元网络完成特征提取，网络输出多模态的特有特征、共有特征，共四个特征张量。经过多级残差注意力交互和余弦嵌入损失的监督，特征具有较大的差异性和多样性。进一步的问题是如何利用上述特征组成统一的张量，以便完成互相关运算。特有特征张量经过模态自增强和跨模态互增强后直接与共有特征张量在通道方向上级联，形成一个特征图。通道级联可以理解为简单的特征聚合方法，直接将特征图合并为单个张量而相互之间没有任何影响；且多个特征图之间相互对等。

进一步地，在多模态目标跟踪中，目标可能在单个模态中保持其显著性，可能在模态间反复切换特征，又或者在两个模态中同时具有显著性。另外，受拍摄条件限制，某一模态下目标状态可能不可靠，直接使用该模态对应的特征可能对跟踪器产生负面影响。因此，多模态目标跟踪需要考虑模态的可靠性，对不同模态的特征进行选择性利用。

进一步地，在特征解耦中，特有特征代表对目标表观特征的直接感知，共有特征主要反映图像的空间整体布局、环境杂波等多模态一致性信息；即特有特征主要描述前景信息而共有特征主要描述背景信息。两者都有利于增强跟踪模态对目标的判别力，直接的通道级联无法充分利用两者的协同性。

进一步地，为融合同模态的前后景信息和跨模态特征融合，本申请还设计了基于特征选择的自适应特征聚合模型，在该模型中，gap代表全局平均值池化(Global AveragePooling)，fc代表全连接层，T表示可选的加和或者级联操作。该模型用于两个特征的选择性聚合，首先将两个特征进行元素相加得到单个特征图，然后利用全局平均值池化压缩特征图的空间分辨率，得到长度等于通道数的一维向量；向量首先通过一个全连接层形成通道交互，再分别经过两个全连接层得到两个向量输出。对输出向量在一维方向上的两两对应位置执行Softmax计算，然后将两个向量作为权重与相应的两个特征图做通道加权。加权之后的特征图经过元素加和或级联合并为单个特征。

进一步地，在自适应特征聚合模型中，最后的特征图合并可以采用两种操作：加和、级联。在特征融合阶段的前后景融合模块(BFF)和选择性模态融合模块(SMF)都采用上图所示的自适应特征聚合模型，区别在于合并操作不同；另外，不同模态的前后景融合模块相互独立。在进行前后景融合时(BFF)，两个特征图元素对应求和；在进行模态间特征融合时(SMF)，两个特征图进行级联。通过自适应特征聚合模型，前后景融合和选择性模态融合都具备了特征筛选机制，最后合并的操作不同主要基于如下原因：前后景来自于同一个模态的图像，在空间上严格对准，加和操作不会破坏两者的空间一致性；而不同模态的图像虽然经过配准但不可避免存在像素级的偏差，特征也会出现相应的空间偏移，直接求和会使两个模态的特征在空间上相互干扰，而级联在避免上述问题的同时能够尽可能保存特征信息。

在一些实施例中，自适应特征聚合模型中包含前后景融合模块，方法还包括：

利用前后景融合模块，对模态特有特征和共有特征进行初步融合，生成中间特征表示；

从中间特征表示中提取特有特征和共有特征，并为特有特征和共有特征分别分配一个可学习权重；

利用加权残差连接，将提取的特有特征与相应的可学习权重相乘，得到加权特有特征，将提取的共有特征与相应的可学习权重相乘，得到加权共有特征；

将加权特有特征与加权共有特征进行求和操作，生成加权融合特征，利用加权融合特征进行目标表征，其中，加权特有特征在目标表征中占主导地位，加权共有特征用于为背景信息提供辅助。

具体地，本申请还引入了前后景融合模块，以实现模态特有特征与共有特征的高效融合。首先，通过前后景融合模块，对模态特有特征和共有特征进行初步融合。这个融合过程可以使用多种融合策略，例如卷积操作、元素对应加和等，从而生成一个中间特征表示。

进一步地，从上一步得到的中间特征表示中，本申请进一步提取特有特征和共有特征。这可以通过特定的特征分解网络或特征提取策略来实现。同时，为每类特征分配一个可学习权重，权重可以通过反向传播在训练过程中进行更新和优化。

进一步地，在提取到的特有特征和共有特征上，分别应用之前分配的可学习权重。通过乘法操作，得到加权特有特征和加权共有特征。这种方法确保了特有特征与共有特征能够根据其重要性进行加权。将上述得到的加权特有特征与加权共有特征进行元素对应的加和操作，生成一个加权融合特征。这个特征在后续的目标表征中起到关键作用。

进一步地，利用得到的加权融合特征进行目标表征。在这个表征中，加权特有特征起到主导作用，为模型提供主要的特征信息；而加权共有特征则为背景信息提供辅助，增强模型的泛化能力。

通过上述实施例的步骤，前后景融合模块作为自适应特征聚合模型的核心部分，不仅实现了模态特有特征与共有特征的融合，还引入了加权残差连接。在融合特征时，特征合并操作是通过元素对应加和来实现的，这样可以保持原始特征的结构和信息。此外，聚合的特征与可学习权重相乘后与特有特征结合，构成了加权残差连接。这种结构设计确保了在融合特征的同时，特有特征在目标表征中仍能发挥主导作用，而共有特征则起到辅助的作用。

在一些实施例中，根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果，包括：

为每个模态计算在当前环境下的损失值，损失值用于表征模态在当前环境中的可靠性；

基于计算出的损失值，为每个模态分配一个可靠性权重，其中，损失值较低的模态获得较高的可靠性权重，损失值较高的模态获得较低的可靠性权重；

利用每个模态的可靠性权重，对统一的特征图和融合后的特征图进行加权融合，生成加权融合特征图；

利用加权融合特征图，执行目标检测和跟踪算法，以生成多模态目标跟踪结果。

具体地，为了有效地评估每个模态在当前环境下的表现和可靠性，首先需要为每个模态计算其损失值。此损失值可以是基于某种预先定义的损失函数，例如均方误差、交叉熵等，来衡量模态特征与真实目标之间的差异。低的损失值意味着该模态在当前环境中表现良好，而高的损失值则意味着该模态可能受到干扰或者不够准确。

进一步地，基于上一步计算出的损失值，本申请为每个模态分配一个可靠性权重。例如，损失值较低的模态将获得较高的可靠性权重，而损失值较高的模态将获得较低的可靠性权重。这确保了在后续的加权融合过程中，更加可靠和准确的模态特征会被赋予更大的权重。

进一步地，本申请使用上一步计算得到的每个模态的可靠性权重来对统一的特征图和融合后的特征图进行加权融合。这一步骤可以使用加权平均或其他融合策略来完成。生成的加权融合特征图综合了来自不同模态的信息，同时考虑了每个模态的可靠性。

进一步地，本申请利用得到的加权融合特征图执行目标检测和跟踪算法。这可以包括经典的目标检测算法如Faster R-CNN、YOLO等，或者其他先进的跟踪算法。得到的结果是一个多模态目标跟踪结果，它结合了来自所有模态的信息，并考虑了每个模态的相对可靠性。

通过上述实施例的步骤，本申请实施例描述了如何在多模态目标跟踪中，利用模态的可靠性权重来优化特征融合和目标跟踪过程。这种方法可以有效地提高跟踪的准确性和鲁棒性，特别是在某些模态受到干扰或不可靠时。

根据本申请实施例提供的技术方案，本申请实施例通过在原有三元网络中增加设计的加权残差注意力模块和自适应特征聚合，本方案显著提高了网络的感知细节。尤其是在多模态场景下，面对单个模态输入可能的不稳定性，本方案提供了有效的改进策略，确保了在变化或不稳定输入下的稳健性。针对于传统模型中模态特有特征间可能存在的跨模态感知缺失问题，本方案改进了基于注意力查询的模态自增强与互增强模型。引入了基于加权残差注意力的多级交互结构，允许更浅层的信息积极参与模态间的交互，从而更有效地捕获跨模态的相关性。本方案独特地解决了模态可靠性与特征融合的问题，设计了基于特征选择的自适应特征融合模型。该模型能自动为不同的特征产生基于通道的二进制权重，实现了对特征的智能筛选。进而，融合模型被应用于前后景的融合以及跨模态的融合，使得模态特有特征和共有特征得到高效整合。这确保了从多个模态获得的信息能被高效地融合成统一的特征表示，从而优化了多模态信息的利用。本方案的核心之一是将不同模态的特征整合为统一的特征量。这不仅提高了多模态信息的协同效应，也为后续的目标跟踪、检测等任务提供了更丰富、更稳定的特征基础。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图2是本申请实施例提供的基于自适应特征聚合的多模态目标跟踪装置的结构示意图。如图2所示，该基于自适应特征聚合的多模态目标跟踪装置包括：

获取模块201，被配置为从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；

提取模块202，被配置为利用三元网络对多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；

交互模块203，被配置为基于多级残差注意力交互机制和余弦嵌入损失监督，对特征张量进行交互，以便对特征张量的差异性和多样性进行增强；

增强模块204，被配置为利用特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的特有特征在通道方向上与共有特征进行级联，形成统一的特征图；

融合模块205，被配置为利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；

生成模块206，被配置为根据统一的特征图、融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。

在一些实施例中，图2的提取模块202输入多模态图像到三元网络的前卷积层，通过多次卷积操作，提取出低级的模态特异性特征；对低级的模态特异性特征进行池化操作，利用降采样降低特征维度，并保留主要的模态信息；通过多次卷积和池化层迭代操作，将低级特征映射到高级语义特征空间，利用归一化层对高级特征进行标准化处理，以使高级特征具有相同的尺度和分布；根据高级特征和低级特征，计算多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；其中，三元网络包括卷积层、池化层和归一化层，三元网络用于从不同模态的图像数据中提取低级特征和高级特征。

在一些实施例中，图2的交互模块203利用残差模块捕获每一模态特征张量中的短程和长程模式差异，并强化模态间的差异性特征；基于注意力机制，计算各模态特征与其他模态特征之间的相似度，并基于相似度计算出注意力权重矩阵；使用注意力权重矩阵对各模态特征进行加权，应用余弦嵌入损失，优化特征空间的分布；利用自适应权重分配策略，为每一模态的特征分配不同的权重，以强化目标跟踪的模态特征；其中，多级残差注意力交互机制包括一个或多个残差模块，多级残差注意力交互机制中应用自适应权重分配策略，以便在交互过程中为每一模态的特征赋予不同的权重。

在一些实施例中，图2的增强模块204对每个模态的特有特征执行模态自增强操作，通过自我注意力机制，强化每个模态内部的关键信息并抑制噪声信息；对于跨模态互增强，计算不同模态特征之间的相关性，基于相关性确定模态间的增强策略，以使每个模态从其他模态中获取补充信息；根据计算得到的模态间相关性，动态地为每个模态分配增强权重，增强权重用于在网络训练过程中进行更新和优化；将每个模态对应的增强后的特有特征与共有特征在通道方向上进行级联，构建统一的特征图。

在一些实施例中，图2的融合模块205将模态特有特征和共有特征输入到自适应特征聚合模型中，使用元素对应加和操作对模态特有特征和共有特征进行合并，生成中间特征图；对中间特征图应用全局平均值池化操作，压缩空间分辨率，以生成一维向量；将一维向量通过全连接层进行通道间的交互，以加强特征表示，经过两个全连接层处理后，得到前景的权重向量和背景的权重向量；对前景的权重向量和背景的权重向量进行归一化处理，得到前景的选择性权重和背景的选择性权重；利用前景的选择性权重和背景的选择性权重对前景特征和背景特征进行加权，生成融合后的特征图。

在一些实施例中，自适应特征聚合模型中包含前后景融合模块，图2的融合模块205利用前后景融合模块，对模态特有特征和共有特征进行初步融合，生成中间特征表示；从中间特征表示中提取特有特征和共有特征，并为特有特征和共有特征分别分配一个可学习权重；利用加权残差连接，将提取的特有特征与相应的可学习权重相乘，得到加权特有特征，将提取的共有特征与相应的可学习权重相乘，得到加权共有特征；将加权特有特征与加权共有特征进行求和操作，生成加权融合特征，利用加权融合特征进行目标表征，其中，加权特有特征在目标表征中占主导地位，加权共有特征用于为背景信息提供辅助。

在一些实施例中，图2的生成模块206为每个模态计算在当前环境下的损失值，损失值用于表征模态在当前环境中的可靠性；基于计算出的损失值，为每个模态分配一个可靠性权重，其中，损失值较低的模态获得较高的可靠性权重，损失值较高的模态获得较低的可靠性权重；利用每个模态的可靠性权重，对统一的特征图和融合后的特征图进行加权融合，生成加权融合特征图；利用加权融合特征图，执行目标检测和跟踪算法，以生成多模态目标跟踪结果。

应当理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图3是本申请实施例提供的电子设备3的结构示意图。如图3所示，该实施例的电子设备3包括：处理器301、存储器302以及存储在该存储器302中并且可以在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者，处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序303可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器302中，并由处理器301执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序303在电子设备3中的执行过程。

电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解，图3仅仅是电子设备3的示例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器301可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器302可以是电子设备3的内部存储单元，例如，电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备，例如，电子设备3上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于自适应特征聚合的多模态目标跟踪方法，其特征在于，包括：

从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；

利用所述三元网络对所述多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；

基于多级残差注意力交互机制和余弦嵌入损失监督，对所述特征张量进行交互，以便对所述特征张量的差异性和多样性进行增强；

利用所述特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的所述特有特征在通道方向上与所述共有特征进行级联，形成统一的特征图；

利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；

根据所述统一的特征图、所述融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。

2.根据权利要求1所述的方法，其特征在于，所述利用所述三元网络对所述多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量，包括：

输入所述多模态图像到所述三元网络的前卷积层，通过多次卷积操作，提取出低级的模态特异性特征；

对所述低级的模态特异性特征进行池化操作，利用降采样降低特征维度，并保留主要的模态信息；

根据所述高级特征和所述低级特征，计算多模态的共有特征以及每个模态的特有特征，并输出多个所述特征张量；

其中，所述三元网络包括卷积层、池化层和归一化层，所述三元网络用于从不同模态的图像数据中提取低级特征和高级特征。

3.根据权利要求1所述的方法，其特征在于，所述基于多级残差注意力交互机制和余弦嵌入损失监督，对所述特征张量进行交互，以便对所述特征张量的差异性和多样性进行增强，包括：

使用所述注意力权重矩阵对各模态特征进行加权，应用余弦嵌入损失，优化特征空间的分布；

其中，所述多级残差注意力交互机制包括一个或多个残差模块，所述多级残差注意力交互机制中应用自适应权重分配策略，以便在交互过程中为每一模态的特征赋予不同的权重。

4.根据权利要求1所述的方法，其特征在于，所述利用所述特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的所述特有特征在通道方向上与所述共有特征进行级联，形成统一的特征图，包括：

对每个模态的所述特有特征执行模态自增强操作，通过自我注意力机制，强化每个模态内部的关键信息并抑制噪声信息；

对于跨模态互增强，计算不同模态特征之间的相关性，基于所述相关性确定模态间的增强策略，以使每个模态从其他模态中获取补充信息；

根据计算得到的模态间相关性，动态地为每个模态分配增强权重，所述增强权重用于在网络训练过程中进行更新和优化；

5.根据权利要求1所述的方法，其特征在于，所述利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图，包括：

将模态特有特征和共有特征输入到所述自适应特征聚合模型中，使用元素对应加和操作对模态特有特征和共有特征进行合并，生成中间特征图；

对所述中间特征图应用全局平均值池化操作，压缩空间分辨率，以生成一维向量；

将所述一维向量通过全连接层进行通道间的交互，以加强特征表示，经过两个全连接层处理后，得到前景的权重向量和背景的权重向量；

对所述前景的权重向量和背景的权重向量进行归一化处理，得到前景的选择性权重和背景的选择性权重；

利用所述前景的选择性权重和背景的选择性权重对前景特征和背景特征进行加权，生成融合后的特征图。

6.根据权利要求5所述的方法，其特征在于，所述自适应特征聚合模型中包含前后景融合模块，所述方法还包括：

利用所述前后景融合模块，对模态特有特征和共有特征进行初步融合，生成中间特征表示；

从所述中间特征表示中提取特有特征和共有特征，并为所述特有特征和共有特征分别分配一个可学习权重；

将所述加权特有特征与所述加权共有特征进行求和操作，生成加权融合特征，利用所述加权融合特征进行目标表征，其中，所述加权特有特征在目标表征中占主导地位，所述加权共有特征用于为背景信息提供辅助。

7.根据权利要求1所述的方法，其特征在于，所述根据所述统一的特征图、所述融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果，包括：

为每个模态计算在当前环境下的损失值，所述损失值用于表征模态在当前环境中的可靠性；

利用每个模态的可靠性权重，对所述统一的特征图和融合后的特征图进行加权融合，生成加权融合特征图；

利用所述加权融合特征图，执行目标检测和跟踪算法，以生成所述多模态目标跟踪结果。

8.一种基于自适应特征聚合的多模态目标跟踪装置，其特征在于，包括：

获取模块，被配置为从多模态传感器中获取包含多模态信息的图像数据，将包含多模态信息的图像数据作为多模态图像输入到预定的三元网络中；

提取模块，被配置为利用所述三元网络对所述多模态图像进行特征提取，得到多模态的共有特征以及每个模态的特有特征，并输出多个特征张量；

交互模块，被配置为基于多级残差注意力交互机制和余弦嵌入损失监督，对所述特征张量进行交互，以便对所述特征张量的差异性和多样性进行增强；

增强模块，被配置为利用所述特征张量，通过模态自增强与跨模态互增强策略进行特征融合，以使每个模态的所述特有特征在通道方向上与所述共有特征进行级联，形成统一的特征图；

融合模块，被配置为利用预设的自适应特征聚合模型，对前景信息和背景信息进行选择性融合，得到融合后的特征图；

生成模块，被配置为根据所述统一的特征图、所述融合后的特征图以及每个模态的可靠性权重进行多模态目标跟踪，生成多模态目标跟踪结果。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。