CN116091551B

CN116091551B - 一种基于多模态融合的目标检索跟踪方法及系统

Info

Publication number: CN116091551B
Application number: CN202310237584.3A
Authority: CN
Inventors: 李芳芳; 夏伟代; 张健
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-20
Anticipated expiration: 2043-03-14
Also published as: CN116091551A

Abstract

本发明提供一种基于多模态融合的目标检索跟踪方法，包括：对文本数据和图像数据进行特征提取，获得文本特征和图像特征；根据文本特征和图像特征进行回归运算，获得目标预测坐标；当出现跟踪漂移后重新感知目标位置，具体是：先划定一个搜索区域，并以目标图像作为模板区域，获得模板特征和搜索特征；以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征，将相关性特征输入卷积神经网络得到相关性特征图；将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标。本发明还提供了使用该方法的目标检索跟踪系统。相较于传统跟踪算法大大提高了面对复杂跟踪环境的跟踪鲁棒性，提高了模型目标回归的精度。

Description

一种基于多模态融合的目标检索跟踪方法及系统

技术领域

本发明涉及目标跟踪技术领域，具体涉及一种基于多模态融合的目标检索跟踪方法及系统。

背景技术

目标跟踪是计算机视觉中的一项重要任务。综合性工业和国防设备需无人系统在复杂境况下能实现全天候高精确度应用。近年来，视觉目标跟踪技术在机器人研发、自主汽车行业、人机界面设备和视频监控设备等方面获得了广泛的运用。

通常，现有的方法大多使用边界框（BBox）初始化第一帧中的目标对象，并随着目标对象的移动调整BBox。虽然这些方法在实际应用展现了不错的跟踪精度，但是在应对一系列跟踪挑战时，会出现跟踪失败，算法鲁棒性不强的问题。

究其原因，主要是因为现有算法是仅利用前一帧图像的预测中心进行高斯采样，基于第一帧图像进行目标回归训练的算法，会因为跟踪过程中目标外观特征发生的较大形变出现跟踪漂移，极大的影响跟踪精度。同时，大部分方法都没有将目标文本信息给利用起来，仅仅比较候选区域图像特征与目标特制的相似度。

综上所述，急需一种基于多模态融合的目标检索跟踪方法及系统以解决现有技术中存在的问题。

发明内容

本发明目的在于提供一种基于多模态融合的目标检索跟踪方法，旨在解决现有跟踪算法由于跟踪漂移出现跟踪失败、算法鲁棒性不强的问题，具体技术方案如下：

一种基于多模态融合的目标检索跟踪方法，包括：

对文本数据和图像数据进行特征提取，获得文本特征和图像特征；

根据文本特征和图像特征进行回归运算，获得目标预测坐标；

当出现跟踪漂移后重新感知目标位置，具体是：先划定一个搜索区域，并以目标图像作为模板区域，获得模板特征和搜索特征；以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征，将相关性特征输入卷积神经网络得到相关性特征图；将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标。

以上技术方案中优选的，使用预训练语言文本编码网络对文本数据进行特征提取，获得文本特征；使用预训练图像提取骨干网络对图像数据进行特征提取，获得图像特征。

以上技术方案中优选的，使用预训练图像提取骨干网络对图像数据进行特征提取，具体是：

以视频

帧的目标预测坐标为中心，进行高斯分布采样/>

个候选框，对候选区域图像进行特征提取，得到视频第/>

帧的图像特征。

以上技术方案中优选的，根据文本特征和图像特征进行回归运算获得目标预测坐标，具体是：

对图像特征进行评分，获得每个候选区域的目标置信值；

将图像特征与文本特征进行内积运算得到相似度量，相似度量依次与每个候选区域的目标置信值进行乘积运算，得到最终目标置信值；

选取最终正置信值最高的

个候选区域，进行平均值运算作为目标预测坐标；其中/>

为大于等于2的自然数。

以上技术方案中优选的，将图像特征输入卷积神经网络或全连接神经层，获得每个候选区域的目标置信值。

以上技术方案中优选的，构建回归损失函数，利用回归损失函数训练对目标置信值的评估能力；

回归损失函数为：

，

其中，

是回归任务的标签，/>

为预测分类值。

以上技术方案中优选的，构建对象感知任务损失函数，通过对象感知任务损失函数训练对目标位置的感知能力；

对象感知任务损失函数为：

，

其中，

和/>

分别表示搜索区域的宽和高，/>

是对象感知任务的标签，

为目标中心预测图，/>

、/>

为重新感知的目标预测坐标。

以上技术方案中优选的，根据对象感知任务损失函数和回归损失函数计算跟踪方法的整体损失：

，

其中，

为回归损失在整体损失的权重。

以上技术方案中优选的，将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取，得到模板特征和搜索特征。

本发明还提供了一种基于多模态融合的目标检索跟踪系统，该系统采用上述的基于多模态融合的目标检索跟踪方法，该系统包括多模态特征提取模块、目标回归模块和对象感知模块，所述多模态特征提取模块用于特征提取，目标回归模块用于回归运算，所述对象感知模块用于跟踪漂移后重新感知目标位置。

应用本发明的技术方案，具有以下有益效果：

为了解决现有基于第一帧图像进行目标回归训练的算法，会因为跟踪过程中目标外观特征发生的较大形变出现跟踪漂移的问题。本发明在跟踪方法，融入了文本特征和图像特征，为模型提供了有效的目标信息，相较于传统跟踪算法大大提高了面对复杂跟踪环境的跟踪鲁棒性，提高了模型目标回归的精度。

由于实际跟踪环境多变（如遮挡、极端光照和能见度低等），现有跟踪算法在跟踪过程存在一定的限制，以前一帧的预测目标作为后续目标候选区域的采样中心，因此发生的跟踪漂移不仅会影响当前帧，同时导致算法在后续视频帧中丢失目标。为了解决该问题，本发明的跟踪方法，以目标图像特征为卷积核对搜索区域进行相关性滤波运算，结合图像相关特征图与文本信息，重新感知目标中心，以此来纠正跟踪漂移，使得算法具有高效的跟踪漂移纠正能力，提高了模型的鲁棒性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是文本特征提取流程示意图；

图2是图像特征提取流程示意图；

图3是回归运算流程示意图；

图4是对象感知流程示意图。

具体实施方式

为了便于理解本发明，下面将对本发明进行更全面的描述，并给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例1：

本实施例提供了一种基于多模态融合的目标检索跟踪方法，具体包括：对文本数据和图像数据进行特征提取，获得文本特征和图像特征；根据文本特征和图像特征进行回归运算，获得目标预测坐标；当出现跟踪漂移后重新感知目标位置。

为了让本实施例的方案更加清楚，下面对跟踪方法的每个过程进行详细说明。

具体的，本实施例中获得文本特征和图像特征的具体过程如下：

参见图1，使用预训练语言文本编码网络（Transformer）对文本数据进行特征提取，获得文本特征

，其中/>

表示文本特征的维度，/>

为第/>

维的特征，/>

。

文本特征获得的具体过程如下：

步骤1.1：根据原始的文本数据

，得到编号序列/>

、分段序列

与位置序列/>

，其中/>

、/>

和/>

分别表示序列中的向量；获得三种序列的方法为本领域的公知常识，本实施例中不再详细说明；

步骤1.2：获取文本嵌入向量

和文本特征/>

，其中/>

表示

中的第/>

维向量，具体如下：

，

，

其中，Embedding为嵌入层，Encoding为编码层。

参见图2，使用预训练图像提取骨干网络（VIT-B）对图像数据进行特征提取，获得图像特征，具体是：

以视频

帧的目标预测坐标为中心，对视频第/>

帧的图像进行高斯分布采样/>

个候选框，对候选区域图像（即候选框区域图像）进行特征提取，得到视频第/>

帧的图像特征

，/>

，其中/>

表示特征向量维度，/>

，/>

表示第/>

个候选区域的图像特征，/>

为大于等于1的自然数；该步骤的具体过程如下：

，

，

其中

为/>

帧的目标预测坐标中心，Gaussian是高斯采样，采样得到的第/>

帧的候选区域图像为/>

，/>

与/>

是预训练图像提取骨干网络中可学习的向量，通过预训练图像提取骨干网络得到视频第/>

帧的图像特征/>

，

。

参见图3，根据文本特征和图像特征进行回归运算获得目标预测坐标，详细过程如下：

步骤2.1：对图像特征进行评分，获得每个候选区域的目标置信值；

具体是将图像特征输入卷积神经网络或全连接神经层，获得每个候选区域的目标置信值；本实施例中选用全连接神经层，优选为三层全连接神经层，计算流程表示如下：

，

其中：

为全连接层运算，运算得到每个候选区域的目标置信值

，/>

，其中/>

为置信值维度；/>

，其中/>

、

为第/>

个候选区域的正置信值和负置信值，其中/>

为1至/>

中的任意值。

步骤2.2：将图像特征

，/>

与文本特征

进行内积运算得到相似度量，相似度量依次与每个候选区域的目标置信值进行乘积运算，得到最终目标置信值，计算流程表示如下：

，

，

其中：

为内积运算，运算得到每个候选区域图像特征与文本特征的相似度量

，/>

表示第/>

个候选区域与文本特征的相似度；/>

为乘积运算，最终目标置信值为/>

，/>

，/>

，其中，/>

为第/>

个候选区域的最终目标置信值，/>

、/>

分别为第/>

个候选区域的最终正置信值和最终负置信值，其中/>

为1至/>

中的任意值。

步骤2.3：选取最终正置信值最高的

个候选区域进行平均值运算作为目标预测坐标（即选取最终正置信值靠前的/>

个候选区域）；其中N为大于等于2的自然数。

具体的，在所有的候选区域中，利用argmax函数获得最终正置信值最高的候选区域，选出该候选区域后，在剩下的候选区域中继续利用argmax函数选取最终正置信值最高的候选区域；重复该过程，直至获得

个候选区域。

argmax函数表达式如下：

，

其中，

为/>

个候选区域中最终正置信值最高的候选区域。

参见图4，当出现跟踪漂移后重新感知目标位置，详细过程如下：

步骤3.1：先划定一个搜索区域，并以目标图像作为模板区域，获得模板特征

和搜索特征/>

；以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征/>

，将相关性特征输入卷积神经网络得到相关性特征图/>

，计算流程如下：

，

，

其中，

表示相关性滤波运算，/>

为卷积层/>

运算。

步骤3.2：将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标：

，

其中，

为最终的目标中心预测图，即重新感知的目标预测坐标。

本实施例中优选的，将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取，得到模板特征

和搜索特征/>

。

本实施例中的跟踪方法还包括构建回归损失函数和构建对象感知任务损失函数，利用回归损失函数训练对目标置信值的评估能力；通过对象感知任务损失函数训练对目标位置的感知能力；

回归损失函数为：

，

其中，

是回归任务的标签，/>

为预测分类值。

对象感知任务损失函数为：

，

其中，

和/>

分别表示搜索区域的宽和高，/>

是对象感知任务的标签，

为目标中心预测图，/>

、/>

为重新感知的目标预测坐标。

根据对象感知任务损失函数和回归损失函数可以计算跟踪方法的整体损失：

，

其中，

为回归损失在整体损失的权重；本实施例中/>

。

本实施例还提供了一种基于多模态融合的目标检索跟踪系统，该系统采用上述的基于多模态融合的目标检索跟踪方法，该系统包括多模态特征提取模块、目标回归模块和对象感知模块，所述多模态特征提取模块用于特征提取，即进行文本特征、图像特征、搜索特征和模板特征的提取；目标回归模块用于回归运算，即获得目标的目标预测坐标；所述对象感知模块用于跟踪漂移后重新感知目标位置，对象感知模块只有在发生跟踪漂移后才会被启用，实现重新纠正目标位置，提高长期跟踪精度。

其中，多模态特征提取模块包括预训练语言文本编码网络和预训练图像提取骨干网络，两个网络使用CLIP权重进行初始化；目标回归模块由全连接神经层与内积运算组成，也可以是由卷积神经网络与内积运算组成；所述跟踪系统未详细说明之处均为本领域的公知常识。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态融合的目标检索跟踪方法，其特征在于，包括：

当出现跟踪漂移后重新感知目标位置，具体是：先划定一个搜索区域，并以目标图像作为模板区域，获得模板特征和搜索特征；以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征，将相关性特征输入卷积神经网络得到相关性特征图；将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标；

其中，使用预训练图像提取骨干网络对图像数据进行特征提取，具体是：

以视频t-1帧的目标预测坐标为中心，进行高斯分布采样j个候选框，对候选区域图像进行特征提取，得到视频第t帧的图像特征；

其中，根据文本特征和图像特征进行回归运算获得目标预测坐标，具体是：

对图像特征进行评分，获得每个候选区域的目标置信值；

选取最终正置信值最高的N个候选区域，进行平均值运算作为目标预测坐标；其中N为大于等于2的自然数；

其中，将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取，得到模板特征和搜索特征。

2.根据权利要求1所述的基于多模态融合的目标检索跟踪方法，其特征在于，使用预训练语言文本编码网络对文本数据进行特征提取，获得文本特征。

3.根据权利要求1所述的基于多模态融合的目标检索跟踪方法，其特征在于，将图像特征输入卷积神经网络或全连接神经层，获得每个候选区域的目标置信值。

4.根据权利要求1所述的基于多模态融合的目标检索跟踪方法，其特征在于，构建回归损失函数，利用回归损失函数训练对目标置信值的评估能力；

回归损失函数为：

其中，d是回归任务的标签，

为预测分类值。

5.根据权利要求4所述的基于多模态融合的目标检索跟踪方法，其特征在于，构建对象感知任务损失函数，通过对象感知任务损失函数训练对目标位置的感知能力；

对象感知任务损失函数为：

其中，w和h分别表示搜索区域的宽和高，Y^box是对象感知任务的标签，

为目标中心预测图，x、y为重新感知的目标预测坐标。

6.根据权利要求5所述的基于多模态融合的目标检索跟踪方法，其特征在于，根据对象感知任务损失函数和回归损失函数计算跟踪方法的整体损失：

Loss＝λ×Loss_cls+(1-λ)×Loss_cen

其中，λ为回归损失在整体损失的权重。

7.一种基于多模态融合的目标检索跟踪系统，其特征在于，该系统采用如权利要求1-6任意一项所述的基于多模态融合的目标检索跟踪方法，该系统包括多模态特征提取模块、目标回归模块和对象感知模块，所述多模态特征提取模块用于特征提取，目标回归模块用于回归运算，所述对象感知模块用于跟踪漂移后重新感知目标位置。