CN112215080B

CN112215080B - 一种利用时序信息的目标跟踪方法

Info

Publication number: CN112215080B
Application number: CN202010974350.3A
Authority: CN
Inventors: 王正宁; 曾浩; 赵德明; 彭大伟; 曾仪; 刘怡君
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-05-03
Anticipated expiration: 2040-09-16
Also published as: CN112215080A

Abstract

本发明公开了一种利用时序信息的目标跟踪方法，涉及图像处理和计算机视觉领域。该方法使用的方法关键步骤分为如下两个阶段，其中第一阶段输入第一帧与搜索帧，第二阶段输出目标在搜索框上的位置。本发明在特征提取阶段使用非对称卷积模块，选择三种不同形态的卷积核共同使用提升了模型对图像翻转和旋转的鲁棒性，提高网络的抗旋转鲁棒性。在候选框精修中，使用双径候选框分类回归网络，分类支路与回归支路分别处理候选框的分类结果与精修后的候选框，相比单纯依赖卷积网络或全连接网络的网络，进一步提高了结果精度。同时利用时序信息进行目标跟踪后处理，选择更加契合之前结果的跟踪框，减少错误跟踪目标的情况发生。

Description

一种利用时序信息的目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及一种利用时序信息的目标跟踪方法。

背景技术

视觉跟踪是计算机视觉中一项基础性但具有挑战性的任务。在过去的几十年里，这一领域取得了大的进展。视觉目标跟踪是在视频序列的每一帧中估计目标对象的状态的任务。最常见的情况下状态表示为一个包围目标的边界框。由于遮挡、尺度变化、背景杂波、快速运动、光照变化和外观变化等因素的影响，导致在处理复杂情况下的目标跟踪问题仍旧是具有挑战性的。

基于相关滤波的目标跟踪运算曾是目标跟踪的主流，特点是运算速度快。该类算法通过获得特定参数相关滤波器并在线更新来进行目标跟踪。发明专利“基于相关滤波的抗遮挡目标跟踪方法，公开号：CN109299735A”是一种典型的基于相关滤波的目标跟踪算法，为了提升该类算法在目标跟踪时的抗遮挡能力，其分别对目标的平移与目标的尺度进行估计，从而获得目标跟踪的结果。如果出现了丢失目标的情况，则采用在线分类器的检测结果来完成目标的重跟踪。而深度学习的崛起使得神经网络在目标跟踪方面的应用日益增多，深度神经网络强大的特征提取能力是其流行的重要原因。基于相关滤波的发明专利“基于分层卷积特征的长时间目标跟踪方法及系统，公开号：CN109087337A”不再使用手工设计的特征提取器，而采用深度卷积网络对每一帧的数据进行特征提取，使得提取出的特征和数据具有更强的关联性、匹配性。但随着数据量的激增，传统方法没有充分利用数据的问题开始显现，而深度学习则是一种非常依赖数据的方法，逐渐完全依赖深度神经网络的方法开始发展。目前主流的一种用于目标跟踪的神经网络结构便是孪生网络结构。孪生网络的根本思想是在获得跟踪目标在搜索区域不同位置的匹配程度，进而确定跟踪目标的状态。通过两个在结构与参数上完全一致的卷积神经网络来提取跟踪目标与搜索区域的特征，通过对这两个特征进行相关性运算，获得跟踪目标在搜索区域上的相关性特征。再通过对相关性特征的处理，确定被跟踪目标。孪生网络的“孪生”便体现在这两个完全一致的特征提取网络上。Distractor-aware si amese networks for visual object tracking[C]，ZhuZ,Wang Q,Li B,et al.，Proceedings of the European Conference on ComputerVision(ECCV).2018:101-117是一种典型的使用孪生网络的目标跟踪算法，在获得跟踪目标与搜索区域的特征后，通过对这两个特征进行处理与相关运算后得到被跟踪目标的位置与形态。该方法提出于孪生网络发展早期，其在特征的提取上还存在提取能力不足的问题，同时鲁棒性不佳，对目标位置的回归不够准确。Siamrpn++:Evolution of siamese visualtracking with very deep networks[C]，Li B,Wu W,Wang Q,et al.，Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2019:4282-4291是Distractor-aware siamese networks for visual object tracking[C]，Zhu Z,WangQ,Li B,et al.，Proceedings of the European Conference on Computer Vision(ECCV).2018:101-117的改进方法，通过使用更强的特征提取网络提取更深的特征，利用了不同深度的特征来提升网络的多尺度检测能力，级联使用区域候选网络来提升网络的鲁棒性与检测性能。但这种方法在后处理上存在缺陷，在有多个与跟踪目标相似对象存在的情况下，容易产生错误跟踪的情况，从而跟丢目标。

现阶段基于深度学习的目标跟踪算法还在继续发展，为了提升神经网络在目标跟踪上的鲁棒性与准确性，综合分析现阶段目标跟踪算法的缺陷与不足，在特征提取阶段加入非对称卷积模块来提升网络目标跟踪的鲁棒性。使用设计的双径候选框分类回归网络来提升对候选框分类与回归的精确度。利用时序信息进行目标跟踪后处理以获得更加准确的跟踪框，减少错误跟踪目标的情况发生。

发明内容

本发明是一种利用区域候选网络与候选框分类回归网络完成在全局视野内的跟踪目标搜索，并使用时序信息进行后处理来确定跟踪目标状态的两阶段方法。涉及卷积神经网络，目标跟踪后处理，候选框分类回归网络等一系列内容。

本发明属于图像处理和计算机视觉领域，用于视觉单目标跟踪。本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入第一帧与搜索帧，第二阶段输出目标在搜索框上的位置。

第一阶段：使用具有非对称卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征，将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络，获得跟踪目标的候选区域与分类。提取出搜索帧特征上属于不同候选区域的特征，这些候选区域特征与跟踪目标特征进行相关运算后送入双径候选框分类回归网络，将一系列候选框进行精修，获得结果框。

第二阶段：在连续帧的跟踪中，利用当前搜索帧的跟踪结果和之前搜索帧的跟踪结果，通过后处理选出当前搜索帧最终的跟踪目标边界框。

本发明在特征提取阶段使用非对称卷积模块，选择三种不同形态的卷积核共同使用提升了模型对图像翻转和旋转的鲁棒性，提高网络的抗旋转鲁棒性。在候选框精修中，使用双径候选框分类回归网络，分类支路与回归支路分别处理候选框的分类结果与精修后的候选框，相比单纯依赖卷积网络或全连接网络的网络，可以进一步提高结果精度。利用时序信息进行目标跟踪后处理，根据一定的标准，选择更加契合之前结果的跟踪框，减少错误跟踪目标的情况发生。

附图说明

图1为本发明的跟踪网络整体结构图

图2为本发明训练阶段非对称卷积操作的示意图

图3为本发明推理阶段非对称卷积操作的示意图

图4为本发明的区域候选网络示意图

图5为本发明的双径候选框分类回归网络示意图

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

第一阶段：使用具有非对称卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征，将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络，获得跟踪目标的候选区域与分类。提取出搜索帧特征上属于不同候选区域的特征，这些候选区域特征与跟踪目标特征进行相关运算后送入双径候选框分类回归网络，将一系列候选框进行精修，获得结果框。第一阶段网络的整体结构见图1。

本发明提出的一种利用时序信息的目标跟踪方法的具体步骤如下：

1)、使用两个结构相同、参数共享的深度残差网络f_t(·)与f_s(·)，分别提取标注有跟踪目标边界框的第一帧t的特征F_t＝f_t(t)和任意待找出跟踪目标的搜索帧s的特征F_s＝f_s(s)。其中，在f_t(·)与f_s(·)的第三、第四、第五个网络区块中加入了非对称卷积模块。

2)、采用非对称卷积模块进行非对称卷积是除传统的k×k卷积核进行的卷积操作外，加上1×k卷积核与k×1卷积核进行的卷积，将3种卷积结果进行融合，获得非对称卷积的结果。非对称卷积在训练阶段与推理阶段的融合存在不同。在训练阶段，如图2所示，先进行三种不同的卷积操作，再将卷积结果进行点对点相加，获得非对称卷积的结果(训练阶段：通过优化损失函数，不断学习更新网络参数的阶段)。

3)、在推理阶段，先将训练阶段获得的3种不同的卷积核进行融合，获得一个k×k卷积核，进行普通的k×k卷积，完成推理阶段的非对称卷积。卷积的融合方式如图3所示，将1×k卷积核与k×1卷积核以“十字交叉”的方式与k×k卷积核进行点对点相加(推理阶段：网络实际使用阶段，网络不再进行优化，通过输入得到输出)。

之所以在推理阶段先卷积核融合再进行卷积，是因为这样做的结果与训练阶段的先卷积再融合的结果相同，而且如此可以减少推理阶段的计算量，只需要进行一次卷积操作就可以获得融合后的结果。

4)、获得F_t后，根据t所标注的跟踪目标信息，使用感兴趣区域一致划分(ROIAlign)，将F_t中的跟踪目标特征F_tR提取出来。将F_tR与F_s进行卷积相关运算，获得相关性特征

将此相关性特征送入区域候选网络，获得一系列候选区域。

进行卷积相关的具体步骤表达如下：

其中f_s1(·)与f_t1(·)是两个分别用于对F_s与F_tR进行特征映射的卷积层，

代表卷积运算，f_out1(·)是一个用于调整f_s1(F_s)与f_t1(F_tR)通道的卷积层。

5)、本发明所使用的区域候选网络如图4所示，将

通过一系列卷积操作后获得一系列候选框的置信度与位置大小。设置k类候选框，通过尺度为[w,h,c₁]的

可以得到w×h×k个候选框的结果，网络输出[w,h,k]的置信度与[w,h,4k]的候选框状态信息。

在实际训练时，由于区域候选网络有两个输出，所以区域候选网络的损失

包括两个部分：候选框分类损失

与候选框回归损失

其中，λ用于损失平衡。

使用交叉熵损失，

使用SmoothL1 Loss。

6)、获得候选框后，按照每个候选框所对应区域，使用感兴趣区域一致划分(ROIAlign)将不同区域的F_s提取出来，获得一组候选框区域特征F_sR。将每一个F_sR与F_tR进行哈达玛(Hadamard)相关运算，获得的候选框相关性特征

进行哈达玛(Hadamard)相关运算的具体步骤表达如下：

其中f_s2(·)与f_t2(·)是两个分别用于对F_sR与F_tR进行特征映射的卷积层，⊙代表哈达玛(Hadamard)积，f_out2(·)是一个用于调整f_s2(F_s)与f_t2(F_tR)通道的卷积层。

7)、将

送入双径候选框分类回归网络，如图5所示，网络共分为两条支路，回归支路用于回归候选框结果，得到结果框。分类支路用于对候选框进行分类，得到结果框的置信度信息。在回归支路将

送入到卷积网络中，获得回归特征，通过平均池化将其变为1维向量后，再通过全连接层回归获得结果框。在分类支路将

拉直后送入到全连接网络获得分类特征，再通过全连接层获得分类结果框的分类结果，也就是其置信度。

在训练时，由于通过每个

都会得到一组结果框与置信度。所以双径候选框分类回归网络的损失

为：

其中λ′用于损失平衡。

使用交叉熵损失，

使用SmoothL1 Loss。

8)、网络输出当前帧的一系列跟踪结果框以及置信度，结合之前帧的检测结果，通过后处理选出当前搜索帧最终的跟踪目标边界框。一个视频中的被跟踪物体，其形态大小与位置不会产生突变。为了能利用到之前帧的定位信息同时不使得错误过度累积，本发明提出了一种新的后处理方式，使得目标可能的位置的置信度与前一帧的信息有关，通过将置信度与距离交并比(DIoU)相结合，来利用之前的结果信息。

利用前一帧最终结果框的信息，更新当前一系列结果框的置信度，更新方式用公式描述如下：

其中

代表当前第f帧第i个输出框的置信度，

代表

更新后的值。DIoU(·)用于计算当前第f帧第i个输出框

与上一帧最终确定的结果框

的DIoU值，DIoU值表示两个框的相似程度。α和γ用于平衡置信度与DIoU值，β与δ用于对置信度与DIoU这两个绝对值不超过1的值进行重新投影，进而减少错误累积。在本实施例中，α＝1，β＝2.25，γ＝1.2，δ＝1。

将当前第f帧的输出框的置信度都完成更新后，以更新后的置信度最高的框作为当前第f帧的跟踪目标结果框。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种利用时序信息的目标跟踪方法，其特征在于，该方法包括以下步骤：

1)使用两个结构相同、参数共享的深度残差网络f_t(·)与f_s(·)，分别提取标注有跟踪目标边界框的第一帧t的特征F_t＝f_t(t)和任意待找出跟踪目标的搜索帧s的特征F_s＝f_s(s)，其中，分别在f_t(·)与f_s(·)的第三、第四、第五个网络区块中加入非对称卷积模块；

2)采用非对称卷积模块进行非对称卷积是除传统的k×k卷积核进行的卷积操作外，加上1×k卷积核与k×1卷积核进行的卷积，将3种卷积结果进行融合，获得非对称卷积的结果；非对称卷积在训练阶段与推理阶段的融合存在不同，在训练阶段，先进行三种不同的卷积操作，再将卷积结果进行点对点相加，获得非对称卷积的结果，其中训练阶段指通过优化损失函数，不断学习更新网络参数的阶段；

3)在推理阶段，先将训练阶段获得的3种不同的卷积核进行融合，获得一个k×k卷积核，进行普通的k×k卷积，完成推理阶段的非对称卷积，具体为将1×k卷积核与k×1卷积核以“十字交叉”的方式与k×k卷积核进行点对点相加，其中推理阶段指网络实际使用阶段，网络不再进行优化，通过输入得到输出的阶段；

之所以在推理阶段先卷积核融合再进行卷积，是因为这样做的结果与训练阶段的先卷积再融合的结果相同，而且可以减少推理阶段的计算量，只需要进行一次卷积操作就可以获得融合后的结果；

4)获得F_t后，根据t所标注的跟踪目标信息，使用感兴趣区域一致划分ROIAlign，将F_t中的跟踪目标特征F_tR提取出来，将F_tR与F_s进行卷积相关运算，获得相关性特征

将此相关性特征送入区域候选网络，获得一系列候选区域；

进行卷积相关运算的具体步骤表达如下：

代表卷积运算，f_out1(·)是一个用于调整f_s1(F_s)与f_t1(F_tR)通道的卷积层；

5)区域候选网络将

通过一系列卷积操作后获得一系列候选框的置信度与位置大小，设置k类候选框，通过尺度为[w,h,c₁]的

得到w×h×k个候选框的结果，网络输出[w,h,k]的置信度与[w,h,4k]的候选框状态信息；

在实际训练区域候选网络时，由于区域候选网络有两个输出，所以所述区域候选网络的损失

包括两个部分：候选框分类损失

与候选框回归损失

其中，λ用于损失平衡，

使用交叉熵损失，

使用SmoothL1 Loss；

6)获得候选框后，按照每个候选框所对应区域，使用感兴趣区域一致划分ROI Align将不同区域的F_s提取出来，获得一组候选框区域特征F_sR，将每一个F_sR与F_tR进行哈达玛Hadamard相关运算，获得的候选框相关性特征

进行哈达玛Hadamard相关运算的具体步骤表达如下：

其中f_s2(·)与f_t2(·)是两个分别用于对F_sR与F_tR进行特征映射的卷积层，⊙代表哈达玛Hadamard积，f_out2(·)是一个用于调整f_s2(F_s)与f_t2(F_tR)通道的卷积层；

7)将

送入双径候选框分类回归网络，所述双径候选框分类回归网络共分为两条支路，回归支路用于回归候选框结果，得到结果框；分类支路用于对候选框进行分类，得到结果框的置信度信息；在回归支路将

送入到卷积网络中，获得回归特征，通过平均池化将其变为1维向量后，再通过全连接层回归获得结果框；在分类支路将

拉直后送入到全连接网络获得分类特征，再通过全连接层获得分类结果框的分类结果，也就是其置信度；

在训练双径候选框分类回归网络时，由于通过每个

都会得到一组结果框与置信度，所以双径候选框分类回归网络的损失

为：

其中λ′用于损失平衡，

使用交叉熵损失，

使用SmoothL1 Loss；

8)双径候选框分类回归网络输出当前帧的一系列跟踪结果框以及置信度，结合之前帧的检测结果，通过后处理选出当前搜索帧最终的跟踪目标边界框；由于一个视频中的被跟踪物体，其形态大小与位置不会产生突变，为了能利用到之前帧的定位信息同时不使得错误过度累积，采用后处理方式使得目标可能的位置的置信度与前一帧的信息有关，通过将置信度与距离交并比DIoU相结合，来利用之前的结果信息；

其中

代表当前第f帧第i个输出框的置信度，

代表

更新后的值，DIoU(·)用于计算当前第f帧第i个输出框

与上一帧最终确定的结果框

的DIoU值，DIoU值表示两个框的相似程度；α和γ用于平衡置信度与DIoU值，β与δ用于对置信度与DIoU这两个绝对值不超过1的值进行重新投影，进而减少错误累积；

2.根据权利要求1所述的利用时序信息的目标跟踪方法，其特征在于，所述α＝1，β＝2.25，γ＝1.2，δ＝1。