CN111523463B

CN111523463B - 基于匹配-回归网络的目标跟踪方法及训练方法

Info

Publication number: CN111523463B
Application number: CN202010324781.5A
Authority: CN
Inventors: 陈瑞; 童莹; 葛垚; 曹雪虹
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2023-05-23
Anticipated expiration: 2040-04-22
Also published as: CN111523463A

Abstract

本发明公开了一种基于匹配‑回归网络的目标跟踪方法及训练方法，应用于图像处理技术领域，输入包括若干帧的目标待跟踪序列，对每一帧图像在目标搜索区域内进行目标跟踪；根据中心匹配网络输出目标中心位置，根据已确定的目标中心位置获取中心匹配网络最后一个卷积层输出的特征图，将所述特征图作为边界回归网络的输入；边界回归网络根据输入特征图，根据所述目标中心进行中心点发散，确定目标中心的边界位置，输出锚框的高度和宽度。本发明利用孪生网络确定目标中心位置，在边界回归网络中利用两层LSTM网络结合历史帧的时序特征信息，输出更精确的宽高比可变的锚框，提高视频序列中目标跟踪的准确性和鲁棒性。

Description

基于匹配-回归网络的目标跟踪方法及训练方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于匹配-回归网络的目标跟踪方法及训练方法。

背景技术

目标跟踪是计算机领域的一个重要问题，被广泛应用于自动驾驶，视频标注，姿态估计等任务中，极大地节省了计算资源。相比于其他的计算机问题，如人脸识别，目标检测，实例分割等，目标跟踪的难点在于跟踪目标的先验知识较少(仅有第一帧物体的外观图像特征)，无法通过一些离线的方法来有效的增强对任意物体的适应能力，是一项具有挑战性的任务。

卷积神经网络(Convolutional Neural Networks，CNN)应用于目标跟踪任务后，呈现出其强大的能力。CNN各层的卷积单元具有丰富的位置信息，使整体网络具有定位能力。基于CNN的孪生网络结构利用相似性学习将跟踪问题转化为模板匹配问题，取得了较好的跟踪效果。目前，基于孪生网络的跟踪算法存在的问题有：(1)跟踪目标的先验知识较少，仅有第一帧物体的外观图像特征；(2)基于孪生网络的跟踪算法中，将视频序列的第一帧作为模板，仅仅比较模板和当前检测帧的特定区域的特征，没有利用视频序列中帧与帧之间的时序信息；(3)获得目标的中心位置后，锚框的输出只是采用几个固定尺度来确定，对于目标形变适应能力较差。

发明内容

技术目的：针对现有技术中目标跟踪方法中目标跟踪的准确性较低且锚框大小输出较为固定的缺陷，本发明公开了一种基于匹配-回归网络的目标跟踪方法及训练方法，利用孪生网络确定目标中心位置，在边界回归网络中利用两层LSTM网络结合历史帧的信息，输出更精确的长宽比可变的锚框，提高视频序列中目标跟踪的准确性和鲁棒性。

技术方案：根据上述技术目的，本发明提供以下技术方案。

一种基于匹配-回归网络的目标跟踪方法，包括：

输入包括若干帧的目标待跟踪序列，对目标待跟踪序列中的每一帧图像计算目标搜索区域，在目标搜索区域内进行目标跟踪；

根据中心匹配网络确定目标中心位置：所述中心匹配网络为孪生网络，利用所述孪生网络对模板图像和搜索图像进行特征提取，所述搜索图像为限定目标搜索区域的目标待跟踪序列中所有帧图像；对模板图像和搜索图像的特征进行互相关模板匹配，输出特征响应图，所述特征响应图中最大响应点所对应的位置为目标中心位置；

根据已确定的目标中心位置获取中心匹配网络的最后一个卷积层输出的特征图，将所述特征图作为边界回归网络的输入；

根据边界回归网络确定包围目标的锚框大小：边界回归网络根据输入的特征图，利用所述目标中心进行目标中心点发散，确定目标中心的边界位置，输出锚框的高度和宽度。

优选地，所述目标搜索区域计算过程包括：

在目标待跟踪序列中，对第一帧图像进行初始化：包括对孪生网络的特征模板进行初始化和LSTM网络隐藏状态初始化；

利用单一尺度公式确定当前帧搜索区域：

其中，上一帧的搜索区域为(X、Y、W、H)，(X，Y)是上一帧中目标中心位置，W、H为上一帧中锚框的宽度和高度，W′、H′为当前帧中锚框的宽度和高度，C*C为当前帧的搜索区域大小；

通过中心匹配网络获取当前帧的目标中心位置，利用所述中心位置获取匹配过程中生成的部分特征，利用边界回归网络获取锚框的大小，利用所述目标中心位置和锚框大小确定当前帧中目标位置，所述当前帧中目标位置和锚框大小为下一帧的目标搜索区域。

优选地，所述特征响应图的计算公式为：

其中z为模板图像，x为搜索图像，

为孪生网络中相同的卷积网络，P为与特征响应图大小相同的惩罚窗，用于避免产生相邻帧之间物体位移过大的误判。

优选地，所述边界回归网络确定包围目标的锚框大小的具体步骤包括：

对所述中心匹配网络输出的特征图去除背景噪声，获取有效的特征图；

利用具有1024个节点的全连接层对所述有效特征图进行降维；

对所述降维后的特征图利用两层具有1024个节点的LSTM网络进行处理，对每一帧降维后的特征图进行时序特征提取，通过LSTM网络的内置单元将所述时序特征用于后面帧的计算过程中；

将所述通过LSTM网络和时序特征联合处理后的特征图展开为一维向量，将所述一维向量输入具有2个节点的全连接层，所述全连接层输出的两个值即为锚框的高度和宽度。

一种基于匹配-回归网络的训练方法，包括：

利用训练集中的数据对中心匹配网络和边界回归网络进行训练；利用ImageNetVID中的模板图片和包含搜索区域的图片构成的图片组来训练中心匹配网络，达到收敛即中心匹配网络损失函数收敛到阈值后，利用ImageNet VID中的连续的视频序列训练边界回归网络；

网络训练中，利用二元交叉熵计算中心匹配网络的损失函数，利用L₁范数计算边界回归网络的损失函数。

优选地，在利用训练集中的数据对中心匹配网络和边界回归网络进行训练前，需要对所述训练集中的数据进行预裁剪，预裁剪的具体方法为：根据视频序列上一帧的锚框大小(W、H)，利用单一尺度公式，计算搜索区域大小(C*C)，根据搜索区域大小(C*C)对视频序列当前帧进行预裁剪，用于提升训练网络的鲁棒性，提升训练效率。

优选地，所述中心匹配网络的损失函数为：

其中y_ij∈{0，1}，p_ij是y_ij＝1时的softmax概率，R、S为输入的特征响应图的坐标，y_ij表示R行S列的二维标签中第i行第j列的值是否属于跟踪目标的搜索区域范围，若是，则y_ij＝1，否则y_ij＝0；

边界回归网络的损失函数为：

其中，w_p、h_p分别为边界回归网络中输出的目标宽度和高度相对于输入搜索区域宽度和高度的比例，w、h分别为训练时输入的目标宽度和高度相对于输入搜索区域宽度和高度的比例。

有益效果：本发明利用孪生网络确定目标中心位置，在边界回归网络中利用两层LSTM网络结合历史帧的信息，输出更精确的长宽比可变的锚框，提高视频序列中目标跟踪的准确性和鲁棒性，本方法同时可以应用于多种场景，用于跟踪各种长宽比的物体。

附图说明

图1为本发明的目标跟踪方法总流程图；

图2为本发明的边界回归网络流程图；

图3为实施例中的目标跟踪方法总流程图；

图4为实施例的具体流程图。

具体实施方式

以下结合附图对本发明做进一步的说明和解释。

本发明提供了一种基于匹配-回归网络的目标跟踪方法及训练方法。其中目标跟踪方法流程图如附图1所示。将视频目标跟踪确定为一个网络问题：(1)确定目标中心位置；(2)确定包围目标的锚框大小。附图1中，由中心匹配网络负责输出目标的中心位置，同时为边界回归网络提供更有效的输入。边界回归网络负责由中心点发散，确定输入目标图像的边界位置，输出包围锚框的高度和宽度。待跟踪的目标就可以由两个分支网络的输出结合，进行定位和锚框确定。

(1)中心匹配网络

当前的卷积神经网络结构中，存在的步长、池化和填充等操作会影响深层特征与原图像的区域大小对应关系。将匹配候选区域问题简化为匹配最大相似点问题，更便于基于卷积神经网络结构去实现。本发明使用孪生网络作为中心匹配网络，用相同的卷积网络

对模板图像z和搜索图像x提取特征，然后对二者特征通过互相关的方式进行模板匹配，产生响应图f(z，x)。用公式描述为：

其中，P是与响应图大小相同的惩罚窗，避免产生相邻帧之间物体位移过大的误判。响应图中最大响应点所对应的位置即为目标的中心位置。对于卷积过程中损失的目标区域尺寸，孪生网络通过构造不同尺度的输入来确定当前目标的尺度变化，生成相应的包围矩形框。这种方式带来的缺点是需要对多个尺度均进行卷积计算，而且框的长款比例始终是固定的，不能适应物体发生的形变。通过边界预测网络的加入，不再需要多个尺度的输入，减少了计算量，同时可以生成长宽比可变的矩形框。

(2)边界回归网络

为了获得目标边界的信息，本发明采取一种直接的回归方法进行边界的预测，如附图2所示。从图中可以看出，本发明根据已确定的目标中心位置将中心匹配网络最后一个卷积层产生的特征图去除大部分背景噪声，得到一个更有效的特征图作为边界回归网络的输入。在边界回归网络中，输入特征图先经过一个具有1024个节点的全连接层进行降维操作，再经过两个各具有1024个节点的LSTM网络中与时序特征信息进行联合处理，即利用两层具有1024个节点的LSTM网络对每一帧进行时序特征提取，通过LSTM网络的内置单元将所述时序特征用于后面帧的计算过程中；最后输入具有2个节点的全连接层网络；将所述联合处理后的特征图按行展开为一维向量，输入具有2个节点的全连接层，此过程相当于矩阵乘法，输出的两个值为包围锚框的高度和宽度。

对于初始127×127大小的图像，提取出的特征模板的尺寸大小为6×6。为了提升对中心匹配网络的容错率，在中心预测出现偏差的情况下也能最大程度的包含目标，本发明在第五层卷积层Conv5的输出中取8×8大小的区域作为潜在目标特征。深度网络各层上的输出及待搜索区域在各层上的感受野的大小如表1所示。

表1

深度网络的层次	感受野大小
		输入图像	(8x+79，8x+79)
第一个卷积层输出	(4x+35，4x+35)
		第一个池化层输出	(2x+17，2x+17)
第二个卷积层输出	(2x+13，2x+13)
		第二个池化层输出	(x+6，x+6)
第三个卷积层输出	(x+4，x+4)
		第四个卷积层输出	(x+2，x+2)
第五个卷积层输出	(x，x)

从表1中可以看到，第五层卷积Conv5中8×8的区域对应于输入图片中143×143像素大小的区域。确定当前帧搜索区域，利用单一尺度公式(2)进行计算，进而得到对于输入的搜索区域的选择，单一尺度公式(2)如下：

其中，上一帧的搜索区域为(X、Y、W、H)，(X、Y)是上一帧中目标中心位置，W、H为上一帧中锚框的宽度和高度，W′、H′为当前帧中锚框的宽度和高度，C*C为当前帧的搜索区域大小，孪生网络将当前帧上，以(X，Y)为中心，C*C大小的区域缩放到255×255大小的搜索区域，在中心正确匹配的情况下，输入边界回归网络的143×143区域足以包含各种长宽比的待跟踪物体。

在跟踪过程中，整体网络由待追踪序列的第一帧图像进行初始化，包括孪生网络特征模板的初始化和LSTM网络中隐藏状态的初始化，网络只需要输入如公式(2)给出的单一尺度，通过匹配网络得到目标中心位置，根据目标中心位置选择匹配过程中生成的部分特征，利用回归网络进行处理，得到目标边界框的宽、高。网络将目标的中心位置和边界框大小结合，以确定当前帧中的目标位置，并确定下一帧的搜索区域。

一种基于匹配-回归网络的训练方法包括：

(1)损失函数

训练网络时，本发明采用二元交叉熵的作为中心匹配网络的损失函数：

其中y_ij∈{0，1}，p_ij是y_ij＝1时的softmax概率，R、S为输入的特征响应图的大小，对于17*17大小的2D输入特征响应图的坐标，1≤R≤17，1≤S≤17，y_ij表示R行S列的二维标签中第i行第j列的值是否属于跟踪目标的搜索区域范围，若是，则y_ij＝1；如果是其他的背景区域，则y_ij＝0。

边界回归网络的损失函数采用L1范数，避免离群点的影响：

其中，w_p、h_p分别为边界回归网络中输出的目标宽度和高度相对于输入搜索区域宽度和高度的比例，w、h分别为训练时输入的目标宽度和高度相对于输入搜索区域宽度和高度的比例。在本方案中，W和H等大写的字母表示锚框的宽度和高度，w和h等小写的字母表示宽度和高度与搜索区域宽度和高度的比例，在损失函数里用比例。w＝W/C，h＝H/C，其中C*C为当前帧的搜索区域大小。

(2)训练方法

本发明在ImageNet Video dataset上训练网络。在训练时，中心匹配网络输入的是由模板图片和含搜索区域的图片构成的图片组，边界回归网络的输入是一段连续的视频序列。

因为LSTM网络的加入，所以本发明的网络与一般的多任务网络的训练不同：中心匹配网络和边界回归网络的训练输入格式分别是图片组和图片序列，二者差异很大。对整体网络进行端到端训练时，中心匹配网络无法得到有效的收敛，导致边界回归网络接收不到正确的目标图片信息，影响网络的跟踪效果。

针对以上问题，本发明先用ImageNet VID中的图片组训练中心匹配网络，达到收敛即中心匹配网络损失函数收敛到阈值后，再从ImageNet VID中选择连续的视频序列训练边界回归网络。类似于孪生网络中生成训练数据的方式，本发明将训练的序列以目标为中心进行预裁剪，预裁剪过程中加上一些位置和尺度的随机偏移以提升网络的鲁棒性，预裁剪的具体方法为：根据视频序列上一帧的锚框大小W、H，利用单一尺度公式(2)，计算搜索区域大小C*C，根据搜索区域大小C*C对视频序列当前帧进行预裁剪。用裁减之后的序列进行训练，可以提升训练的效率。

在训练边界回归网络时，因为输入数据已经筛去了部分背景特征，所以不必像传统孪生网络中将序列长度由小到大慢慢改变，可以直接以一个比较大的序列长度，比如16、32进行训练，可以得到很快收敛。

实施例

本实施例中用PyTorch深度学习框架实现本方法中的网络，训练和测试所使用的机器配备了Intel i7-7800X CPU、32G memory和两块NVIDIA GTX1080 Ti GPUs。测评所使用的数据集是VOT2016和VOT2018，测评工具为VOT toolkit。方法流程如附图3和附图4所示。

VOT2016和VOT2018数据集均含有60个视频序列，序列中的每一帧都进行了属性的标注，可以判断图像光照是否发生了变化，摄像机是否移动，目标形状大小、移动方向是否改变，目标是否被其他物体遮挡，或者其他情况。本实施例主要使用VOT竞赛中的准确性、鲁棒性和EAO值进行跟踪算法的评估。准确性代表正确跟踪时，目标预测框和真实框的平均重叠区域比例；鲁棒性代表跟踪失败的次数，也就是跟丢的帧数，计算方式如下：

其中，Rpooled代表总的跟踪失败次数，F代表60个视频序列包含的总帧数，这样计算出来的鲁棒性指标可以看做每100帧的平均失败次数。

本实施例的跟踪方法记为SiamReg，与经典孪生网络方法SiamFC，及其他经典深度学习跟踪方法，如ASM、sKCF、FoT、BDF及Re3等，在VOT2016和VOT2018上进行了比较，在VOT2016中，本实施例使用了官方提供的其他速度较快的跟踪算法进行比较，结果如表2所示；在VOT2018上，本实施例对SiamReg做了进一步的研究，给出将LSTM网络在目标跟踪中发挥更大作用的线索。

表2

跟踪器	准确性	鲁棒性	EAO值	速度
					ASMS*	0.498	0.522	0.212	57.79
sKCF*	0.470	0.816	0.153	63.74
					FoT*	0.381	0.820	0.142	74.00
BDF*	0.367	0.792	0.136	96.69
					Re³	0.517	0.508	0.227	120.51
SiamFC	0.517	0.573	0.211	83.28
					SiamReg	0.494	0.443	0.236	104.58

注：标记*的跟踪算法表示测评数据由VOT官方提供

表2中Re3的测评结果是由作者提供的模型权重测试的，它的训练集不仅包括ImageNet VID，还包括作者生成的大量虚拟数据；SiamFC是本实施例搭建的具体网络，进行训练，测试，SiamReg是在训练后的SiamFC的基础上，增加回归网络进行训练。从表l和表2中可以看出，SiamReg在只利用ImageNet数据集训练的情况下，可以获得良好的准确率，在鲁棒性(0.443 in VOT2016，0.553 in VOT2018)和EAO(0.236 in VOT2016，0.206 inVOT2018)指标中表现最优。实验结果同样也证明，即使以相似性为目标训练，深度网络最后一个卷积层的输出特征也可以被LSTM网络利用，进行目标物体的边框回归，完成目标跟踪的任务。

此外，本实施例对SiamReg增加了前后帧特征融合和跳层链接这两种结构的实验，结果如表3所示。可见，SiamReg+特征融合或跳层链接在鲁棒性和准确性上各有千秋，其选择与否可依据应用场景确定。

表3

跟踪器	准确性	鲁棒性	EAO值
				SiamFC	0.485	0.576	0.201
Re³	0.476	0.632	0.170
				SiamReg	0.470	0.553	0.206
SiamReg+特征融合	0.450	0.618	0.192
				SiamReg+跳层链接	0.458	0.571	0.196

本方案提供了一种电子设备，包括存储器和处理器；存储器用于存储信息，处理器与存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述目标跟踪方法和网络训练方法之中的一种或者结合。

存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

本方案提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述目标跟踪方法和网络训练方法之中的一种或者结合。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于匹配-回归网络的目标跟踪方法，其特征在于，包括：

根据边界回归网络确定包围目标的锚框大小：边界回归网络根据输入的特征图，利用所述目标中心进行目标中心点发散，确定目标中心的边界位置，输出锚框的高度和宽度；所述边界回归网络确定包围目标的锚框大小的具体步骤包括：

利用具有1024个节点的全连接层对所述有效特征图进行降维；

2.根据权利要求1所述的一种基于匹配-回归网络的目标跟踪方法，其特征在于：所述目标搜索区域计算过程包括：

在目标待跟踪序列中，对第一帧图像进行初始化，包括对孪生网络的特征模板进行初始化和LSTM网络隐藏状态初始化；

利用单一尺度公式确定当前帧搜索区域：

3.根据权利要求1所述的一种基于匹配-回归网络的目标跟踪方法，其特征在于：所述特征响应图的计算公式为：

其中z为模板图像，x为搜索图像，

4.应用于权利要求1-3任一所述的一种基于匹配-回归网络的目标跟踪方法的训练方法，其特征在于，包括：

5.根据权利要求4所述的一种基于匹配-回归网络的目标跟踪方法的训练方法，其特征在于：在利用训练集中的数据对中心匹配网络和边界回归网络进行训练前，需要对所述训练集中的数据进行预裁剪，预裁剪的具体方法为：根据视频序列上一帧的锚框大小(W、H)，利用单一尺度公式，计算搜索区域大小(C*C)，根据搜索区域大小(C*C)对视频序列当前帧进行预裁剪。

6.根据权利要求4所述的一种基于匹配-回归网络的目标跟踪方法的训练方法，其特征在于：所述中心匹配网络的损失函数为：

其中y_ij∈{0，1}，p_ij是y_ij＝1时的softmax概率，y_ij表示R行S列的二维标签中第i行第j列的值是否属于跟踪目标的搜索区域范围，若是，则y_ij＝1，否则y_ij＝0；

边界回归网络的损失函数为：

其中，w_p、k_p分别为边界回归网络中输出的目标宽度和高度相对于输入搜索区域宽度和高度的比例，w、h分别为训练时输入的目标宽度和高度相对于输入搜索区域宽度和高度的比例。