CN112215079B

CN112215079B - 一种全局多阶段目标跟踪方法

Info

Publication number: CN112215079B
Application number: CN202010972556.2A
Authority: CN
Inventors: 王正宁; 赵德明; 曾浩; 曾仪; 奚伟航; 刘怡君
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-03-15
Anticipated expiration: 2040-09-16
Also published as: CN112215079A

Abstract

本发明公开了一种全局多阶段目标跟踪方法，涉及图像处理和计算机视觉领域。该方法使用的方法关键步骤分为如下两个阶段，第一阶段输入为第一帧与搜索帧，第二阶段输出一系列带有置信度的跟踪目标边界框。本发明在目标跟踪网络的特征提取阶段使用可变形卷积结构，使得网络对目标的特征提取具有更强的形变鲁棒性。在区域候选网络使用导向锚框机制，让网络自行学习产生锚框，使得锚框与当前输入特征有更好的契合程度，同时在使用不同数据集进行训练时，模型对不同的数据集也有良好的拟合能力。使用正样本判别阈值递增的多阶段级联的候选框分类回归网络进行候选框的精修，使得候选框质量与不同阶段的判别阈值相匹配，进一步提升结果框的精确度。

Description

一种全局多阶段目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及一种全局多阶段目标跟踪方法。

背景技术

目标跟踪在监控、增强现实、机器人、视频编辑等领域有着广泛的应用。在过去的几十年里，这一领域有过许多进展。视觉目标跟踪是指在连续的视频帧序列中连续定位目标，该目标是在第一帧中被指定的任意目标。由于被跟踪的目标在视频帧序列中可能受光照、形变、遮挡等影响，因此在处理复杂情况下的目标跟踪问题仍旧是具有挑战性的。

目前，利用深度学习进行目标跟踪的算法有许多，其中主流的方向之一是利用孪生网络结构进行目标跟踪。Fully-convolutional siamese networks for objecttracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr.,InECCV Workshops,2016是首创基于孪生网络结构进行目标跟踪的算法，孪生网络的最根本特征如下：使用两个在结构与参数上完全一致的卷积神经网络对跟踪目标与搜索区域(寻找跟踪目标的区域)进行特征提取，并将提取出的跟踪目标特征与搜索区域特征进行相关运算，获得目标可能位置的特征。通过对目标可能位置的特征进行处理，获得最终的被跟踪目标位置与大小。虽然首创孪生网络结构，但该方法的特征提取能力弱，精度上性能低，且不能根据物体的形变改变边界框的比例。发明专利“一种基于孪生网络的目标跟踪方法，公开号：CN110807793A”使用卷积核形状固定的卷积神经网络进行目标的特征提取，且相对于Fully-convolutional siamese networ ks for object tracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.T orr.,In ECCV Workshops,2016使用了特征提取能力更强的网络设计。虽然固定形状的传统卷积核具有一定的鲁棒性，包括尺度不变性与旋转不变性，但对目标跟踪任务而言，目标在帧序列中可能存在大的形态变化，以及产生运动模糊与伪影，极端情况下固定形状的卷积核的鲁棒性将会不足。发明专利“基于卷积神经网络的红外弱小目标检测跟踪方法，公开号：CN110728697A”使用区域候选网络获得被跟踪目标的位置与包围框，相较于Fully-convoluti onal siamese networks forobject tracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,andP.H.Torr.,In ECCV Workshops,2016在精度上有更好的效果，但这样跟踪方法由于存在噪声干扰的问题，同时由于网络结构的限制，在训练时为了划分正负样本只能设定一组判断正负样本的交并比阈值，所以对不同准确度的候选框存在训练效果的差异，无法发挥最好的效果，其在精度上还有提升的空间。Siamese cascaded region proposal networks for real-time visual tracking[C]，Fan H,Ling H.，Proceedings of the IEEEConference on C omputer Vision and Pattern Recognition.2019:7952-7961通过加入了“锚框”机制，设定一系列大小位置固定的锚框，让这些锚框去拟合被跟踪物体的实际位置与大小，输出更为精确的被跟踪目标的位置与边界框。但该方法的锚框参数(大小、位置与数量等)并非是通过网络生成获得而是人为设定，设定这些参数会花费一定的时间资源，且无法很好地匹配训练数据中的目标分布与大小，而当使用新的数据就需要重新设计锚框参数。Siamese cascaded regio n proposal networks for real-time visual tracking[C]，Fan H,Ling H.，Proceedings of the I EEE Conference on Computer Vision andPattern Recognition.2019:7952-7961由于机制设计的问题，每次的跟踪目标的搜索区域仅在上一帧目标位置的周围而非全局，这样一旦当目标从视频帧中被遮挡或离开视频帧的视野，再重新出现在离最后一次被检测到的位置较远的区域时，将难以被检测到，即该方法的重跟踪能力较差。且当存在多个与被跟踪目标相似的对象时，由于会利用到上一帧的预测结果，会存在错误累积的情况，产生错误跟踪。

针对现有孪生网络跟踪算法所存在的鲁棒性不足、锚框匹配性差与目标包围框精度不足的问题，本文基于孪生网络的思想设计出该用于目标跟踪的神经网络，并使用可变形卷积，导向锚框，候选框分类回归网络级联来提高网络的鲁棒性与精确性。同时在机制上采用单帧全局跟踪，以此来提升重跟踪能力与避免错误累积。

发明内容

本发明是一种通过区域候选网络与相互级联的候选框分类回归网络完成在全局视野内进行目标跟踪的两阶段方法。涉及卷积神经网络，可变形卷积，导向锚框，候选框分类回归网络级联等一系列方法。

本发明属于图像处理和计算机视觉领域，用于视觉单目标跟踪。本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入为第一帧与搜索帧，第二阶段输出一系列带有置信度的跟踪目标边界框。

第一阶段：使用具有可变形卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征，将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络，获得跟踪目标的候选区域与分类。

第二阶段：提取出搜索帧特征上属于不同候选区域的特征，这些候选区域特征与跟踪目标特征进行相关运算，将结果送入级联的三阶段候选框分类回归网络。在第一个候选框分类回归网络中，跟踪目标特征分别与不同的候选区域特征进行相关运算后，送入卷积神经网络完成对候选框的分类与精细化，得到一组跟踪目标的结果框与分类。这时将第一阶段结果框作为候选框，提取出搜索帧特征上属于不同候选区域的特征，和跟踪目标特征进行相关运算，将结果送入第二个候选框分类回归网络，得到的结果同如上处理后送入第三个候选框分类回归网络。最后获得三组不同阶段候选框分类回归网络的输出结果，取这些结果框中置信度最高的作为最终的跟踪目标边界框。

本发明在目标跟踪网络的特征提取阶段使用可变形卷积结构，使得网络对目标的特征提取具有更强的形变鲁棒性。刚性目标的运动模糊以及非刚性目标在运动过程中会发生形变，都会导致跟踪的失败，针对这种问题，本发明在特征提取网络中加入了可变形卷积和可变形池化予以解决。

在区域候选网络使用导向锚框机制，让网络自行学习产生锚框，使得锚框与当前输入特征有更好的契合程度。同时网络由于可以自行学习产生锚框，所以在使用不同数据集进行训练时，让模型对不同的数据集也有良好的拟合能力。

使用正样本判别阈值递增的多阶段级联的候选框分类回归网络进行候选框的精修，使得候选框质量与不同阶段的判别阈值相匹配，进一步提升结果框的精确度。

附图说明

图1为本发明的网络整体结构图

图2为本发明的传统卷积与可变形卷积示意图

图3为本发明的可变形卷积模块示意图

图4为本发明的带有导向锚框的区域候选网络结构图

图5为本发明的候选框分类回归网络结构图

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入为第一帧与搜索帧，第二阶段输出一系列带有置信度的跟踪目标边界框。网络整体结构如图1所示：

本发明提出的一种全局多阶段目标跟踪方法，具体包括如下步骤：

1)使用两个结构相同、参数共享的深度残差网络f_t(·)与f_s(·)，分别提取标注有跟踪目标边界框的第一帧t的特征F_t＝f_t(t)和任意待找出跟踪目标的搜索帧s的特征F_s＝f_s(s)。其中，在f_t(·)与f_s(·)的第三、第四、第五个网络区块中加入了可变形卷积模块。

2)采用可变形卷积模块进行可变形卷积的步骤为：如图3所示，将要进行可变形卷积的长、宽、通道数为[w,h,c₁]的特征图x，通过一组卷积层得到尺寸为[w,h,2N]的偏移参数Δp_n，再通过偏移参数Δp_n对特征图x进行可变形卷积操作。接下来阐述可变形卷积具体原理与过程。

一般卷积核在张量上进行卷积时，一次只会与感受域

内的元素进行运算，如图2(a)所示，例如：

表示一个3×3卷积核感受域中9个权重的相对位置坐标。对特征图x与权重为w的卷积核进行一般卷积后的输出y在p_a位置上的值y(p_a)可以表示为：

其中p_a表示绝对位置坐标，p_n表示在感受域中的相对位置坐标，x(p_a+p_n)表示输入x在p_a+p_n位置上的值，w(p_n)表示卷积核在p_n位置上的值。

可变形卷积与一般卷积的区别在于，其卷积核感受域不再局限于

上固定的位置，而会存在一定的偏移，如图2(b)所示，则可变形卷积操作可以表示为：

其中Δp_n表示p_n的位置偏移，其中n＝1,...,N，N为一个卷积核中参数的个数，即

对3×3卷积核而言N＝9。不再固定的感受域让可变形卷积对跟踪物体的形变有更好的特征提取能力。

3)当Δp_n为小数而不是整数时，采用双线性插值来获得输入x在p＝p_a+p_n+Δp_n位置上的值，即：

其中q表示输入x上任意一个空间位置，而

G(q,p)＝g(q_x,p_x)·g(q_y,p_y) (5)

g(a,b)＝max(0,1-|a-b|) (6)

其中，p_x、p_y分别表示位置p的x坐标与y坐标值，q_x、q_y分别表示位置q的x坐标与y坐标值。

4)获得F_t后，根据t所标注的跟踪目标信息，使用感兴趣区域一致划分(ROIAlign)，将F_t的中的跟踪目标特征F_tR提取出来。将F_tR与F_s进行卷积相关运算，获得相关性特征

将此相关性特征送入区域候选网络，获得一系列候选区域。

进行卷积相关运算的具体步骤表达如下：

其中f_s1(·)与f_t1(·)是两个分别用于对F_s与F_tR进行特征映射的卷积层，

代表卷积运算，f_out1(·)是一个用于调整f_s1(F_s)与f_t1(F_tR)通道的卷积层。

5)本发明所使用的区域候选网络使用了导向锚框机制，如图4所示，使用导向锚框机制在相关性特征

的[w,h]上的每个空间位置上生成一个锚框，进而指导生成候选框。首先将输入特征F通过卷积操作，获得每个位置的锚框形状(长宽)和锚框置信度。将锚框形状送入大小为1×1卷积层获得偏移参数Δ′p_n，利用偏移参数Δ′p_n对输入特征F进行卷积操作，获得输入特征F′。再通过两个不同的卷积层，输出候选框的置信度与位置信息。

通过导向锚框获得锚框形状实际代表的是锚框的相对长宽dw与dh，其与绝对长宽的关系如下：

w＝σ·s·e^dw,h＝σ·s·e^dh (7)

其中σ是尺度系数，s代表F中1个单位长度对应原始输入图像的s个单位长度。

在实际训练时，由于区域候选网络有四个输出，所以区域候选网络的损失

包括四个部分：锚框分类损失

与锚框回归损失

候选框分类损失

与候选框回归损失

其中，λ₁与λ₂用于损失平衡。其中

使用Focal Loss，

使用Bounded IoULoss，

使用交叉熵损失，

使用SmoothL1 Loss。

6)获得候选框后，按照每个候选框所对应区域，使用感兴趣区域一致划分(ROIAlign)将不同区域的F_s提取出来，获得一组候选框区域特征F_sR。将每一个F_sR与F_tR进行哈达玛(Hadamard)相关运算，获得的候选框相关性特征

进行哈达玛(Hadamard)相关运算的具体步骤表达如下：

其中f_s2(·)与f_t2(·)是两个分别用于对F_sR与F_tR进行特征映射的卷积层，⊙代表哈达玛(H adamard)积，f_out2(·)是一个用于调整f_s2(F_sR)与f_t2(F_tR)通道的卷积层。

7)将

送入到第一阶段的候选框分类回归网络，如图1所示，对每一个候选框进行精修，得到一组结果框与对应置信度。本发明所使用的每个阶段候选框分类回归网络的结构相同，如图5所示，将

拉直后通过一系列全连接层，获得

对应候选框精修后的分类与回归结果。将所有的

都送入网络后，获得第一阶段候选框分类回归网络输出的结果框与置信度。

8)将第一阶段候选框分类回归网络的结果框作为候选框，按照步骤6)中的处理方法获得一组新的

将新的

送入到第二阶段的候选框分类回归网络，得到第二阶段候选框分类回归网络的结构框与置信度。最后将第二阶段结果作为候选框，按照步骤6)中的处理方法再获得一组新的

送入第三阶段网络，得到第三阶段候选框分类回归网络的结构框与置信度。

第一、二、三阶段的候选框分类回归网络在结构与超参数设计上保持相同，唯一的不同在于，训练时对正样本(认为结果框包围住了目标)的判断标准不同。当结果框与真值的交并比大于预先设定的阈值时，即将结果框判定为正样本进行训练。本发明中第一、二、三阶段的候选框分类回归网络预先设定的阈值分别为T_IoU1，T_IoU2，T_IoU3，且0<T_IoU1<T_IoU2<T_IoU3<1。三个阶段的正样本判别阈值逐渐升高，这是因为：初级阶段使用低阈值来精修低精确度(指与真值的交并比较低)的候选框，避免由于阈值过高导致许多候选框被判别为负样本，导致漏检。越到后期，候选框精确度提高，这时就可使用更高的判别阈值可以使候选框精确度进一步提升。

9)在训练时，由于通过每个

都会得到一组结果框与置信度。所以候选框分类回归网络的损失

为：

其中λ用于损失平衡。

使用交叉熵损失，

使用SmoothL1 Loss。

10)当第三阶段候选框分类回归网络输出结果后，从第三个阶段的输出中选取置信度最高的结果框作为第一帧t上目标在搜索帧s上的跟踪结果。

本发明具体使用预设的网络结构，在公开数据集GOT-10K的测试集上表现如下表1所示，其中“基线”表示不加入可变形卷积、导向锚框，并使用单阶段候选框分类回归网络的模型。AO代表所有帧上跟踪结果与真值之间的平均重叠率。SR_x指重叠率高于阈值x的成功跟踪帧的百分比。

表1-GOT10k测试集上的评估结果

该结果表明，本发明的各个评价指标及其组合对比基线在精确度指标上都有明显的提升，证明了发明的有效性。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种全局多阶段目标跟踪方法，其特征在于，该方法包括以下步骤：

1)使用两个结构相同、参数共享的深度残差网络f_t(·)与f_s(·)，分别提取标注有跟踪目标边界框的第一帧t的特征F_t＝f_t(t)和任意待找出跟踪目标的搜索帧s的特征F_s＝f_s(s)，其中，分别在f_t(·)与f_s(·)的第三、第四、第五个网络区块中加入可变形卷积模块；

2)利用可变形卷积模块进行可变形卷积的步骤为：将要进行可变形卷积的长、宽、通道数为[w,h,c₁]的特征图x，通过一组卷积层得到尺寸为[w,h,2N]的偏移参数Δp_n，再通过偏移参数Δp_n对所述特征图x进行可变形卷积操作，接下来阐述可变形卷积具体原理与过程：

一般卷积核在张量上进行卷积时，一次只会与感受域

内的元素进行运算，对于

表示一个3×3卷积核感受域中9个权重的相对位置坐标，对特征图x与权重为w的卷积核进行一般卷积后的输出y在p_a位置上的值y(p_a)可以表示为：

其中p_a表示绝对位置坐标，p_n表示在感受域中的相对位置坐标，x(p_a+p_n)表示输入特征图x在p_a+p_n位置上的值，w(p_n)表示卷积核在p_n位置上的值；

上固定的位置，而会存在一定的偏移，可变形卷积操作可以表示为：

对3×3卷积核而言N＝9，不再固定的感受域让可变形卷积对跟踪物体的形变有更好的特征提取能力；

3)当Δp_n为小数而不是整数时，采用双线性插值来获得输入特征图x在p＝p_a+p_n+Δp_n位置上的值，即：

其中q表示输入特征图x上任意一个空间位置，而

G(q,p)＝g(q_x,p_x)·g(q_y,p_y) (5)

g(a,b)＝max(0,1-|a-b|) (6)

其中，p_x、p_y分别表示位置p的x坐标值与y坐标值；q_x、q_y分别表示位置q的x坐标值与y坐标值；

4)获得F_t后，根据t所标注的跟踪目标信息，使用感兴趣区域一致划分ROI Align，将F_t的中的跟踪目标特征F_tR提取出来，将F_tR与F_s进行卷积相关运算，获得相关性特征

将此相关性特征

送入区域候选网络，获得一系列候选区域；

进行卷积相关运算的具体步骤表达如下：

代表卷积运算，f_out1(·)是一个用于调整f_s1(F_s)与f_t1(F_tR)通道的卷积层；

5)区域候选网络使用了导向锚框机制，使用导向锚框机制在相关性特征

的[w,h]上的每个空间位置上生成一个锚框，进而指导生成候选框；首先将输入特征F通过卷积操作，获得每个位置的锚框形状和锚框置信度，其中，锚框形状即锚框的长和宽；将锚框形状送入大小为1×1卷积层获得偏移参数Δ′p_n，利用偏移参数Δ′p_n对输入特征F进行卷积操作，获得输入特征F′；再通过两个不同的卷积层，输出候选框的置信度与位置信息；

w＝σ·s·e^dw,h＝σ·s·e^dh (7)

其中σ是尺度系数，s代表F中1个单位长度对应原始输入图像的s个单位长度；

在实际训练所述区域候选网络时，由于所述区域候选网络有四个输出，所以区域候选网络的损失

包括四个部分：锚框分类损失

与锚框回归损失

候选框分类损失

与候选框回归损失

其中，λ₁与λ₂用于损失平衡，

使用Focal Loss，

使用Bounded IoU Loss，

使用交叉熵损失，

使用SmoothL1 Loss；

6)获得候选框后，按照每个候选框所对应区域，使用感兴趣区域一致划分ROI Align将不同区域的F_s提取出来，获得一组候选框区域特征F_sR；将每一个F_sR与F_tR进行哈达玛Hadamard相关运算，获得的候选框相关性特征

进行哈达玛Hadamard相关运算的具体步骤表达如下：

其中f_s2(·)与f_t2(·)是两个分别用于对F_sR与F_tR进行特征映射的卷积层，⊙代表哈达玛Hadamard积，f_out2(·)是一个用于调整f_s2(F_sR)与f_t2(F_tR)通道的卷积层；

7)将

送入到第一阶段的候选框分类回归网络，对每一个候选框进行精修，得到一组结果框与对应置信度；将

拉直后通过一系列全连接层，获得

对应候选框精修后的分类与回归结果，将所有的

都送入网络后，获得第一阶段候选框分类回归网络输出的结果框与置信度；

将新的

送入到第二阶段的候选框分类回归网络，得到第二阶段候选框分类回归网络的结构框与置信度；最后将第二阶段结果作为候选框，按照步骤6)中的处理方法再获得一组新的

送入第三阶段网络，得到第三阶段候选框分类回归网络的结构框与置信度；

第一、二、三阶段的候选框分类回归网络在结构与超参数设计上保持相同，唯一的不同在于，训练时对正样本，即认为结果框包围住了目标的判断标准不同；当结果框与真值的交并比大于预先设定的阈值时，即将结果框判定为正样本进行训练；第一、二、三阶段的候选框分类回归网络预先设定的阈值分别为T_IoU1，T_IoU2，T_IoU3，且0<T_IoU1<T_IoU2<T_IoU3<1；三个阶段的正样本判别阈值逐渐升高，这是因为初级阶段使用低阈值来精修低精确度，即使用与真值的交并比较低的候选框，避免由于阈值过高导致许多候选框被判别为负样本，导致漏检；越到后期，候选框精确度提高，这时就可使用更高的判别阈值可以使候选框精确度进一步提升；

9)在训练候选框分类回归网络时，由于通过每个

都会得到一组结果框与置信度，所以候选框分类回归网络的损失

为：

其中λ用于损失平衡，

使用交叉熵损失，

使用SmoothL1 Loss；