CN112560620A

CN112560620A - 一种基于目标检测和特征融合的目标跟踪方法及系统

Info

Publication number: CN112560620A
Application number: CN202011421927.4A
Authority: CN
Inventors: 李爱民; 刘腾; 李稼川; 王建文; 刘笑含
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-26
Anticipated expiration: 2040-12-08
Also published as: CN112560620B

Abstract

本公开提出了一种基于目标检测和特征融合的目标跟踪方法及系统，包括如下步骤：获取样本图像及待识别的当前图像；将样本图像和待识别图像分别输入至改进后的FTCTrack跟踪器中，输出目标跟踪结果；所述改进后的FTCTrack跟踪器的主干网络中包括柔性注意力机制模块和时间线索模块。将柔性注意力机制应用在跟踪器模型中，使跟踪器模型关注输入图像的感兴趣区域，以此来解决如何区分类内实例的问题。其次，在跟踪器模型中增加时间线索模块，使用BiLSTM获取连续帧之间时间线索，有效的解决在跟踪中出现遮挡、变形、背景杂乱等问题，从而融合目标检测方法进行目标跟踪，提高目标跟踪的准确率与成功率。

Description

一种基于目标检测和特征融合的目标跟踪方法及系统

技术领域

本公开涉及目标跟踪相关技术领域，具体的说，是涉及一种基于目标检测和特征融合的目标跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

目标跟踪是根据第一帧中选择的一个区域作为目标，在接下来的视频帧中自动找到该目标，并输出该目标的位置信息的任务。近年来，随着计算机处理能力的提升和深度学习的高速发展，目标跟踪领域得到了迅速发展，目标跟踪依旧是计算机视觉研究中的热门领域。尽管如此，目标跟踪中一些不确定性因素，例如目标的形变、遮挡等问题，使得目标跟踪仍然面临着很大的挑战。

目标检测这几年发展快速，目标检测和目标跟踪有着密切的联系，致使很多研究者将目标检测的理念迁移到目标跟踪中来。到目前为止，很多目标检测技术被应用到目标跟踪领域，并在目标跟踪中体现出非常好的性能。例如目标检测中的区域推荐网络模块(PRN)，就被很多跟踪器借鉴。还有一些学者研究了当下目标检测器与目标跟踪器的区别，致力于将目标检测器转换为目标跟踪器的研究。目标检测任务和目标跟踪任务极为相似，他们均为以图片(或者视频帧)作为模型的输入，经过处理后，输出一堆代表目标物体位置的矩形框。它们之间最大的区别体现在对“目标物体”的定义和是否考虑图片(或者视频帧)之间的联系。发明人发现，为了更好的区分类内实例和更充分地利用视频帧之间的时间线索，有人提出了将现有的目标检测器改造成目标跟踪器一种通用的统一的架构和方法，用以克服了两者的不同，将目标检测器转变成优良的目标跟踪器，但是，跟踪效果受跟踪视频中目标遮挡、变形等不确定因素对跟踪结果准确度影响较大。

发明内容

本公开为了解决上述问题，为了弥补检测器无法区分类内实例和无法充分利用连续帧之间的时间线索这两个问题，以及减少目标遮挡、变形、背景杂乱等问题在跟踪中对跟踪结果的影响，提出了一种基于目标检测和特征融合的目标跟踪方法及系统，将柔性注意力机制应用在跟踪模型中，使跟踪模型关注输入图像的感兴趣区域，以此来解决如何区分类内实例的问题。其次，在跟踪模型中增加时间线索模块，使用BiLSTM获取连续帧之间时间线索，有效的解决在跟踪中出现遮挡、变形、背景杂乱等问题，从而融合目标检测方法进行目标跟踪，提高目标跟踪的准确率与成功率。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了一种基于目标检测和特征融合的目标跟踪方法，包括建立双层网络的FTCTrack跟踪器，上层网络用于输入样本图像，采用柔性注意力机制，获取目标特征，使得模型能够区分类内实例；下层网络用于输入当前要查询的图像，添加时间线索模块，获取连续帧之间时间线索，形成带有时间线索的上下文特征，将目标特征和上下文特征进行融合，实现目标的准确跟踪。

一个或多个实施例提供了一种基于目标检测和特征融合的目标跟踪系统，其特征是：包括视频信息采集装置以及处理器，所述处理器执行权利要求1-7任一项所述的一种基于目标检测和特征融合的目标跟踪方法。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

(1)本公开将柔性注意力机制应用在检测器模型中，使检测器模型关注输入图像的感兴趣区域，解决了采用目标检测进行目标跟踪如何区分类内实例的问题。

(2)本公开采用BiLSTM获取连续帧之间时间线索，有效的解决在跟踪中出现遮挡、变形、背景杂乱等问题。

(3)针对小样本问题，本公开中通过采用MAML算法对改进后的FTCTrack跟踪器进行训练，得在收集到新的目标外观后，可以获得更多样本来训练目标跟踪器。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的改进的FTCTrack的网络结构图；

图2是本公开实施例1的时间线索模块结构示意图；

图3是本公开实施例1的FTCTrack跟踪器的第一跟踪效果图；

图4是本公开实施例1的FTCTrack跟踪器的第二跟踪效果图；

图5是本公开实施例1的FTCTrack跟踪器的目标跟踪方法与其他目标跟踪方法跟踪准确率比较图；

图6是本公开实施例1的FTCTrack跟踪器的目标跟踪方法与其他目标跟踪方法跟踪精度比较图；

图7是本实施例1的FTCTrack跟踪器、去除柔性注意力机制模块的FTCTrack跟踪器与去除时间线索模块的FTCTrack跟踪器比较的效果图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

术语解释：

类内实例：是指某类实物中的单个个体。检测器是不能区分类内实例的，所谓的类内实例就是比如检测器检测狗，主要是狗就都能检测出来检测的是狗这个类；但作为单目标跟踪，跟踪器要跟踪的是具体到哪只狗，一类物体中的一个实例。

本公开中，提出了更具鲁棒性的FTCTrack跟踪模型。为了克服如何区分类内实例和更好的利用时间线索这两个问题，引入柔性注意力机制和时间序列模块，注意力机制可以将模型的感兴趣区域更好的转移到目标对象上来，用于解决区分类内实例的问题。对于更好的获取视频帧之间的时间序列的信息的问题，通过添加时间序列模块，使用双向长短时记忆网络(BiLSTM)在视频帧之间建立双向的上下文信息，进而得到包括双向的时间信息的序列特征。使得跟踪器可以很好的解决跟踪中出现遮挡、变形、背景杂乱等问题，使算法的准确率与成功率得到提升。下面以具体的实施例进行说明。

实施例1

在一个或多个实施方式中公开的技术方案中，如图1所示，一种基于目标检测和特征融合的目标跟踪方法，包括建立双层网络FTCTrack跟踪模型，上层网络用于输入样本图像，采用柔性注意力机制，获取目标特征，使得模型能够区分类内实例；下层网络用于输入当前要查询的图像，添加时间线索模块，获取连续帧之间时间线索，形成带有时间线索的上下文特征，将目标特征和上下文特征进行融合，实现目标的准确跟踪。

具体的，可以包括如下步骤：

步骤1、获取样本图像及待识别的当前图像；

步骤2、将样本图像和待识别图像分别输入至改进后的FTCTrack跟踪器中，输出目标跟踪结果；

所述改进后的FTCTrack跟踪器的主干网络中包括柔性注意力机制模块和时间线索模块，柔性注意力机制模块用于使网络获取目标的感兴趣区域，时间线索模块用于提取连续视频帧前后的时间线索。

本实施例使用柔性注意力机制使检测器网络能够获取目标的感兴趣区域并进行响应，解决了检测模型区分类内实例的问题；同时通过提取连续帧之间时间线索，有效的解决在跟踪中出现遮挡、变形、背景杂乱等问题。

本实施例中，样本图像(Sample image)是指包含目标物的基准图像，当前图像(Search image)是指搜索图像，指当前帧的图像，当前要判断目标位置的图像。

可选的，FTCTrack跟踪器的结构可以如图1所示，包括两个主干网络，其中一个主干网络中用于输入样本图像，另一个主干网络中用于输入待识别的当前图像，两个网络共享权重。

可选的，主干网络可以采用ResNet50网络，Resnet是残差网络(ResidualNetwork)的缩写。

可选的，其中一个主干网络中依次设置第一特征提取模块、柔性注意力机制模块、第一区域特征聚集模块和更新器；另一个主干网络中依次设置第二特征提取模块、第二区域特征聚集模块和时间线索模块；还包括加权模块，所述加权模块的输入端分别连接更新器和时间线索模块，用于对更新器和时间线索模块的输出特征进行加权，以聚焦在感兴趣的对象上。

具体的，第一特征提取模块和第二特征提取模块可以分别用于提取输入图像的conv_5特征。

柔性注意力机制模块可以用于采用柔性注意力机制使网络能够获取目标的感兴趣区域并进行响应，用于解决检测模型区分类内实例的问题。

第一区域特征聚集模块和第二区域特征聚集模块，可以分别采用RoI Align提取更深层次的特征。时间线索模块用于提取视频帧前后的时间线索；更新器用于将收集的新目标外观进行更新，从而避免模型出现过拟合的问题。

进一步的技术方案，还包括卷积网络RPN，卷积网络连接加权模块的输出端，用于将加权模块输出的特征通过采用卷积算法获得目标框的位置。

可选的，为提高目标跟踪结果的精确性，所述卷积网络后端设置目标框位置提取模块以及目标判断模块；可以采用Box Head来求目标框的位置，目标判断模块可以采用Class Head用来确定该目标框中是不是目标。

步骤2中，将样本图像和待识别图像分别输入至改进后的FTCTrack跟踪器中，输出目标跟踪结果的方法，包括如下步骤：

步骤21、针对样本图像提取输入图像的第五层网络的特征即为conv_5特征；

步骤22、根据获取的conv_5特征采用柔性注意力机制使网络获取目标的感兴趣区域；

步骤23、采用RoI Align提取更深层特征，获得正确打标记的RoI对齐的特征数据，获得对样本图像识别后的目标外观数据；

OI Align是指像素对齐，物体怎么移动，将检测结果对应移动；ground truth box指的是数据集中已经标注的要跟踪物体的准确锚框的位置信息。

获得正确打标记的RoI对齐的特征数据的方法，可以为：预先计算每个groundtruth box的特征图，从RPN网络确定的ROI中导出较小的特征图，并于ground truth box进行对齐，供分类和定位使用。

步骤24、针对待识别的当前图像提取输入图像的conv_5特征，并进一步采用RoIAlign提取更深层特征，通过时间线索模块提取视频帧前后的时间线索，将收集的新目标外观送到更新器中进行更新，获得针对当前图像的待测特征数据；

步骤25、将步骤24中待测特征数据与步骤23中的目标外观数据进行加权计算，识别待测当前图像中每帧图像中的目标位置即为目标识别结果。

进一步地，识别待测当前图像中每帧图像中的目标位置的方法，具体的如下：将加权后的特征输入到RPN网络中，将卷积的结果分别输入到Box Head和Class Head两个网络中，其中Box Head用来求目标框的位置，Class Head用来确定该目标框中是不是目标。

针对小样本(few-shot)问题，本实施例中通过采用MAML算法对改进后的FTCTrack跟踪器进行训练，得在收集到新的目标外观后，可以获得更多样本训练跟踪器，使FTCTrack实现更好的适应能力。

步骤22中，采用的柔性注意力是为了能够将目标检测器变成理想的目标跟踪器，解决目标跟踪器与类无关性和有效的区分类内实例这两个问题，因为柔性注意机制整个模型都是可微的，在训练的时候直接用标准的梯度下降即可。

采用柔性注意力机制提取特征图中目标的感兴趣区域的方法，可以如下：

步骤22-1、将输入特征图I_in变换成参数A；

步骤22-2、根据参数A定义二维仿射变换τ，根据二维仿射变换τ获得输入特征图I_in中被选择像素的位置，生成变换后的网格S；

步骤22-3、采用双线性插值采样根据S的位置在输入特征图I_in上采样，获得输入特征图I_in的目标的感兴趣区域。

令输入的I_in的尺寸为X_in×Y_in×C_in，输出I_out的尺寸为X_out×Y_out×C_out，其中X、Y、C分别表示特征图的高度、宽度和通道数。将其特征图变换成参数A，如公式1所示：

A＝φw_loc(I_in) (1)

其中φw_loc为定位函数，令网格G表示输出特征图I_in的所有像素的位置，也就是：

其中(x,y)表示像素的坐标。

那么，由参数A定义的变换τ会应用到网格G上面，生成变换后的网格S，S表示输入I_in中被选择像素的位置，被选中的像素会放到G对应的位置上作为输出。

最后，采样器根据S的位置在输入特征图I_in上采样，比如双线性插值采样，生成I_out。

其中，τ指仿射变换，包含平移、旋转、缩放、偏斜、裁剪等操作，能够满足大部分图像相关的任务，本实施例中，令τ为二维仿射变换，所以A可以表示为如下矩阵：

式S_i可以写成

由于S是经过变换计算出来的，不一定能精确对应到I_in中的像素，所以需要使用采样器，其中k可以是任意对

和

可导的采样器，本实施例中可以采用双线性插值：

将I_out和I_out坐标归一化。这样，对于一个输入特征图I_in，注意力机制生成了一个能够关注I_in中感兴趣区域的输出I_out。I_out送给后续模型进行处理。

本实施例中的时间线索模块，可以通过双向长短时记忆网络(BiLSTM)更好的捕获连续帧之间的双向依赖关系，可以在视频帧之间建立双向的上下文信息。

假设给定的视频片段为c，包含s帧图片，其中第t帧的图片经过卷积神经网络产生的特征向量表示为

所有帧的特征表示为

采用BiLSTM在视频帧之间建立双向上下文信息，其每一时步的隐藏层状态分为两个部分，结构如图2所示。

使用BiLSTM在视频帧之间建立双向的上下文信息，得到包括双向的时间信息的序列特征。

BiLSTM捕获当前时步的双向上下文信息，具体定义为：

其中，

和

分别表示LSTM的前向和反向处理过程，t表示当前时步，U_h(t-1)和D_h(t-1)代表BiLSTM的记忆，分别包含着当前时步之前和之后的帧中学到的信息。

F(t)＝{U_h(t),D_h(t)} (9)

其中F(t)表示在两个不同方向上计算的最终隐藏层状态，经过F(t)进行全局平均池化，得到包含双向时间信息的序列特征。

两个主干网络生成的特征图进行加权互相关的操作。其中，样本图像exemplarimage的特征图为Γ(I_out)∈R^m×n×c，待测图像searchimage的特征图为Γ(F)∈R^p ^×q×c，我们得到的特征图为ξ∈R^x×y，其中p≥m,q≥n,x＝p-m+1,y＝q-n+1。

因为等式(10)中每个位置的空间贡献度都是不同的，因此使用加权互相关函数来区分每个样本的重要性，如公式(11)所示。

ξ(I_out,F)＝(γ⊙Γ(I_out))*Γ(F)+b (12)

其中γ为完全注意力机制，然后将加权后的特征输入到RPN中，最后，将卷积的结果分别输入到Box Head和Class Head两个小的1*1的网络中。从而将目标检测器改造成一个高性能的目标跟踪器，实现对运动目标的实时跟踪。

为说明技术效果，针对上述方法进行了实验，实验结果如图3-5所示；其中图3中为识别人手中拿着的玩偶，图4中是对运动选手中的女队员进行识别，其中带三角形标记的框为本实施例的识别算法，图5是准确度比较曲线，图6是精度比较曲线，其中标注了三角形标记的为本实施例的方法对应的准确度和精度。可以看出相比于其他算法，本实施例的算法准确度更好，而且在具有遮挡物的情况下并不影响目标跟踪的精度，其他算法跟踪产生了漂移。

图7中所示，本实施例的跟踪器模型与不含有柔性注意力机制模块或者时间线索模块的跟踪结果对比，其中(-)代表没有该模块，跟踪锚框漂移严重。无法正常跟踪目标。

实施例2

基于实施例1，本实施例提供一种基于目标检测和特征融合的目标跟踪系统，包括视频信息采集装置以及处理器，所述处理器执行实施例1的一种基于目标检测和特征融合的目标跟踪方法。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于目标检测和特征融合的目标跟踪方法，其特征是：包括建立双层网络的FTCTrack跟踪器，上层网络用于输入样本图像，采用柔性注意力机制，获取目标特征，使得模型能够区分类内实例；下层网络用于输入当前要查询的图像，添加时间线索模块，获取连续帧之间时间线索，形成带有时间线索的上下文特征，将目标特征和上下文特征进行融合，实现目标的准确跟踪。

2.如权利要求1所述的一种基于目标检测和特征融合的目标跟踪方法，其特征是，包括如下步骤：

获取样本图像及待识别的当前图像；

将样本图像和待识别图像分别输入至改进后的FTCTrack跟踪器中，输出目标跟踪结果；

3.如权利要求1所述的一种基于目标检测和特征融合的目标跟踪方法，其特征是：FTCTrack跟踪器包括两个主干网络，其中一个主干网络中依次设置第一特征提取模块、柔性注意力机制模块、第一区域特征聚集模块和更新器；另一个主干网络中依次设置第二特征提取模块、第二区域特征聚集模块和时间线索模块；还包括加权模块，所述加权模块的输入端分别连接更新器和时间线索模块。

4.如权利要求3所述的一种基于目标检测和特征融合的目标跟踪方法，其特征是：主干网络采用ResNet50网络；

或者，第一特征提取模块和第二特征提取模块分别用于提取输入图像的conv_5特征；

或者，第一区域特征聚集模块和第二区域特征聚集模块，分别采用RoIAlign提取更深层次的特征。

5.如权利要求2所述的一种基于目标检测和特征融合的目标跟踪方法，其特征是：FTCTrack跟踪器还包括卷积网络，卷积网络连接加权模块的输出端，用于将加权模块输出的特征通过采用卷积算法获得目标框的位置；

进一步的，所述卷积网络后端设置目标框位置提取模块以及目标判断模块；

或者，目标框位置提取模块采用Box Head来求目标框的位置；或者，目标判断模块采用Class Head用来确定该目标框中目标准确性。

6.如权利要求2所述的一种基于目标检测和特征融合的目标跟踪方法，其特征是：将样本图像和待识别图像分别输入至改进后的FTCTrack跟踪器中，输出目标跟踪结果的方法，包括如下步骤：

针对样本图像提取输入图像的conv_5特征；

根据获取的conv_5特征采用柔性注意力机制使网络获取目标的感兴趣区域；

采用RoI Align提取更深层特征，获得正确打标记的RoI对齐的特征数据，获得对样本图像识别后的目标外观数据；

将针对待识别的当前图像提取输入图像的conv_5特征，并进一步采用RoI Align提取更深层特征，通过时间线索模块提取视频帧前后的时间线索，将收集的新目标外观送到更新器中进行更新，获得针对当前图像的待测特征数据；

将待测特征数据与目标外观数据进行加权计算，识别待测当前图像中每帧图像中的目标位置即为目标识别结果。

7.如权利要求2所述的一种基于目标检测和特征融合的目标跟踪方法，其特征是：通过采用MAML算法对改进后的FTCTrack跟踪器进行训练；

进一步地，时间线索模块通过双向长短时记忆网络捕获待当前图像连续帧之间的双向依赖关系，在视频帧之间建立双向的上下文信息。

8.一种基于目标检测和特征融合的目标跟踪系统，其特征是：包括视频信息采集装置以及处理器，所述处理器执行权利要求1-7任一项所述的一种基于目标检测和特征融合的目标跟踪方法。

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。