CN109993774B

CN109993774B - 基于深度交叉相似匹配的在线视频目标跟踪方法

Info

Publication number: CN109993774B
Application number: CN201910247984.6A
Authority: CN
Inventors: 卢湖川; 王璐瑶
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-12-11
Anticipated expiration: 2039-03-29
Also published as: CN109993774A

Abstract

本发明属于视频目标跟踪技术领域，提供基于深度交叉相似匹配的在线视频目标跟踪方法，设计深度特征交叉相似模块、捕捉模板与样本的所有局部相似度信息，所得相似特征对位移、形变不再敏感；设计相似性注意力层，为不同空间位置的交叉相似结果分配权重系数，使跟踪算法对边缘背景干扰不作响应；设计含有参数正则化项的损失函数，对参数快速优化到最优值贡献突出。基于上述三点基本方案，以基于匹配的深度学习孪生网络为基础框架，对视频中任意目标进行精确鲁棒地跟踪。从跟踪效果上看，本发明的方法具备区分相似物体、重新识别遮挡后重现目标、应对旋转、形变的能力，可以用于自动驾驶前方场景、无人机自主飞行、交通或安全监控视频等视频应用中。

Description

基于深度交叉相似匹配的在线视频目标跟踪方法

技术领域

本发明属于视频目标跟踪技术领域，给定首帧指定的任意目标物体，能够在后续视频序列中框定出该目标的位置与尺度，涉及到数字图像处理、深度学习以及线性代数的相关理论。

背景技术

得益于人工智能技术的广泛应用和深度学习方法的日渐成熟，视频目标跟踪算法作为其中的核心基础技术，可以广泛应用于视频监控、无人机航拍、自动驾驶等领域，并已经具备了一定的研究基础。

视频目标跟踪方法目前有两种主流方向：相关滤波方法与深度学习方法。相关滤波方法基于循环采样策略，通过对样本滤波后响应值与模板标签的互相关程度建模，不断优化更新滤波器用于下一帧的预测。例如Henriques等人于2014年在IEEE TPAMI期刊中发表的“High-Speed Tracking with Kernelized Correlation Filters”提出了一种快速在线训练出适用于当前目标状态的滤波器的算法，利用了循环矩阵可以被离散傅立叶变换矩阵对角化的性质，求解过程在频域中快速计算，使得算法处理视频效率可以达到172帧/秒，远超过一般视频帧率(30或60帧/秒)。但是该方法存在两大明显缺点：第一是方向直方图特征难以对复杂多变的目标外观进行平移不变性、尺度不变性、旋转不变性的表达；第二是循环样本矩阵存在过多目标内部的重叠部分，对滤波器的学习产生了边缘效应，导致跟踪结果向目标边缘漂移。深度学习方法的本质是对大量多样性图像样本进行监督学习得到对物体的识别能力，再通过迁移学习的方式应用得到目标跟踪框架中，例如Danelljan等人提出的“Convolutional Features for Correlation Filter Based Visual Tracking”在目标函数中对滤波器利用负高斯函数约束抑制边缘效应，同时利用深度特征作为训练样本，克服了上述两点不足，显著地提升了跟踪的鲁棒性。然而复杂的深度特征降低了跟踪速度，因此把模板与样本之间的互相关性引入到端对端的深度学习框架中，同时学习特征表达并对目标状态进行预测是目标跟踪技术未来的主要思路。

同时，近年来也提出了多种关于目标跟踪的发明。武林伟等人于2018年公开了《一种基于核相关滤波的目标跟踪方法》(ZL20171147452.2)，利用核化技巧对相关滤波分类器的训练过程进行改善；唐爽硕等人于2017年公开的专利ZL201611201895.2《基于卷积神经网络的多尺度表达的目标跟踪方法》发明了多尺度深度特征与改进版多示例算法结合的训练方法并实现了稳定跟踪；而刘允刚等人则发明了专利《基于分层卷积特征的长时间目标跟踪方法及系统》，在深度特征与相关滤波方法结合的基础上引入随机蕨算法降低计算冗余同时具备人重检测功能。

基于上述研究/专利成果，我们可以发现已有的目标跟踪方法中存在的问题：首先，探索目标跟踪方法的最终目的是相关应用实现落地，现实监控场景中人员密集引发的频繁遮挡导致跟踪失败、同一场景中与相似外观的其他实例造成的干扰导致跟踪漂移，都是目标跟踪亟待攻克的挑战。其次在方法的创新方面，相对于上述相关滤波与深度特征分阶段结合的思路，我们需要发掘的是更加创新鲁棒的易移植、便于与其他任务共同构成智能系统的端对端深度学习跟踪方法；基于匹配的跟踪方法初露锋芒，现有的相似度学习方法过于简单难以克服上述实际应用中的难点，仍需探索、创新来对其进行改善。

发明内容

本发明要解决的技术问题是：第一，给定任意场景并指定其中任意目标，在不断变化的视频序列中即使出现目标外观改变(如非刚性目标形变、由正面转向背面等)，短暂遮挡后重现，背景噪声干扰严重以及与相似外观物体难以辨别的情况，本发明仍然保持鲁棒跟踪；第二，本发明方法具有可移植性，解决跟踪方法独立存在不易与其他相关视频理解任务(如行人搜索、目标检测)集成多任务技术方案的问题。

本发明的技术方案：

基于深度交叉相似匹配的在线视频目标跟踪方法，设计深度特征交叉相似模块、捕捉模板与样本的所有局部相似度信息，所得相似特征对位移、形变不再敏感；设计相似性注意力层，为不同空间位置的交叉相似结果分配权重系数，使跟踪算法对边缘背景干扰不作响应；设计含有参数正则化项的损失函数，对参数快速优化到最优值贡献突出。基于上述三点基本方案，以基于匹配的深度学习孪生网络为基础框架，对视频中任意目标进行精确鲁棒地跟踪。具体步骤如下：

(1)计算目标模板与候选样本的交叉相似性

(1.1)输入数据准备

在离线训练阶段，从开源的已标注视频数据集中选取多段序列，包含不同种类的目标，在视频序列中随机选取某一帧图像，按照目标矩形框截取图像，尺寸缩放到127×127，定义为目标区域

在目标中心位置，以目标框对角线s(s＞1)倍大小对图像进行截取，尺寸缩放到255×255，定义为搜索区域

随机抽取到来自同一段视频序列的T_in和C_in视为正样本对，不同视频序列的T_in和C_in则作为负样本对，在交叉熵损失函数的约束下，离线训练阶段使特征提取模块具备对同一目标的基本识别匹配能力；

在在线测试阶段，T_in始终选用第一帧中截取的目标区域，在跟踪过程中以叠加的方式对其进行小幅度更新；而搜索区域C_in则不断依照上一帧的跟踪预测位置进行截取；

(1.2)特征提取模块

特征提取模块是一个双路卷积神经网路，上下两路分支参数共享、结构一致，均由5层卷积层构成，上路输入为目标区域T_in，下路输入为搜索区域C_in，经过该特征提取模块后得到对应特征：目标模板

以及候选样本

在类别多样、数量庞大的训练数据以及离线监督训练基础上，所得深度特征对通用物体具备基本的识别能力。其中，

表示目标模板中的第i个特征向量，对应着输入Tin的一个局部子区域；

代表F_x中以第k个位置为中心的候选样本，

表示第k个候选样本中的第j个特征向量，当i＝j时称作目标模板和候选样本的对应位置，同理i≠j时称作目标模板和候选样本的非对应位置；

(1.3)计算交叉相似性

获取深度特征后F_z与F_x后，对其进行交叉相似度的计算，得到大小为m²×m²×s²的交叉相似矩阵：

该交叉相似矩阵的其中一个切片S(：，：，k)表示目标模板F_z和第k个候选样本的m²×m²个交叉相似结果，为了避免嵌套三层循环，通过把公式(1)等价地分解为两步；

第一步，不再对候选样本进行分解，直接与目标模板F_z进行矩阵乘法运算，覆盖所有两两交叉相似的计算过程：

M＝F_z(F_x)^T (2)

由于邻近的候选样本之间一定存在重叠面积，这一步省略了对公共区域的重复冗余计算，但是得到的中间结果M失去了候选样本的空间位置关系。

第二步，把中间结果M通过固定的位置映射矩阵，该位置映射矩阵的行、列索引对应交叉相似矩阵中的前两维S(i，j，：)，而位置映射矩阵中存放的元素则是对相应的M中相似结果的索引值，通过该位置映射矩阵的转换关系，顺利地将M转化为公式(1)中可区分不同样本空间位置的交叉相似矩阵S；

(2)设计注意力层为交叉相似性分配权重

在线测试阶段，候选样本不断变化，形变或位移导致目标位置相似性结果较低，颜色或光照突出的背景相似性结果较高，本发明依据空间位置关系的约束自适应地为正确但不显著的目标相似性分配高权重，为错误但峰值突出的噪声相似性分配低权重。该权重系数用类单位矩阵

来表示，也就是注意力层的参数，其参数值会在跟踪过程中随着候选样本的变化而进行更新调整。

(2.1)计算响应图

离线训练完成后，将特征提取模块中的所有参数固定，而注意力层参数重新初始化为

在所设计的正则化交叉熵损失函数的约束下，得到的W对角线元素值较高，降低边缘背景出现异常峰值，对角线周围元素值为保证匹配损失代价最低的最优值，即使目标发生局部形变或位移仍能够捕捉到相似性。

交叉相似层相当于从外观表示的角度对特征进行强化，而注意力层则从空间位置关系的角度为交叉相似性自适应地分配权重，最后把每一个样本与目标模板内部的m²×m²个交叉相似结果求和，放在响应图中样本中心所在位置，代表该样本的最终匹配得分，再从s²个匹配结果中选择值最大者，其所在位置即与目标模板匹配度最高的候选样本，按照匹配结果下采样的步长大小映射到原图，得到当前帧对目标位置的预测：

其中，W_ij表示目标模板第i个位置与候选样本第j个位置的相似性对应的权重值，r_k表示第k个候选样本(响应图中第k个位置)与目标模板的最终相似得分；

(2.2)尺度估计

得到目标中心位置后，还需要给出目标框的大小，在跟踪中称为尺度估计。为了加速离线训练进程，每次输入多对(可选取64，128或256)样本，加上RGB三通道图像形成4维张量，这种训练方式称作批量随机梯度下降优化方法；而测试阶段每一帧只有一对测试样本，在同一位置截取不同尺度大小的搜索区域再缩放到标准输入大小，叠放后送入特征提取模块同样可以形成4维输入，最终响应值最大者对应尺度用于预测输出；

(3)离线监督训练以及在线参数更新

(3.1)带有参数正则化项的交叉熵损失函数

损失函数对监督学习来说至关重要，本发明的损失函数

保证了在离线训练阶段特征提取模块的参数具有对前景的识别能力、对正负样本对的匹配能力，

保证了跟踪测试阶段注意力层参数快速收敛到最优值，发挥对候选样本样本局部相似性的补偿纠正作用：

其中，

是利用目标位置真值标签y[p]对网络所有参数进行约束，p表示坐标位置，P表示整个响应图的范围，y[p]∈{-1，+1}是中心高亮的二值矩阵，r[p]为公式(3)中s²个样本响应构成的与真值标签等大的响应图。而

是对参数的直接约束，以单位矩阵I作为W的优化目标，乘以系数λ成为最终损失

的正则化项，其中q表示参数中每个元素坐标位置，Q表示参数W的所有索引范围。超参数λ用于调整

与

的收敛步调，本发明根据多次实验将λ设置为0.9。使用随机梯度下降法对参数进行在线更新，学习率设置为0.001，迭代次数不超过30次。

(3.2)参数更新

目标跟踪任务中存在的外边形变、旋转、遮挡等随机出现的挑战，需要选取合适的时机对参数进行更新，本发明选择在响应图的最大置信值可靠的时候在线对注意力层参数W进行更新，引入独立的分类器对跟踪结果打分从而给出当前置信值的可靠性，与阈值0作比较，可靠性为正且达到预设的更新间隔(20帧)则利用当前结果为样本对参数迭代更新。

本发明的有益效果：本方法所设计的交叉相似层对跟踪问题中常用的互相关操作实现了纠正和补偿的作用，当目标产生局部形变时，最优的候选样本往往与模板不尽相同，因此应引入非对应位置的相似性信息而不是摒弃，提高了跟踪的鲁棒性；注意力层自适应地为样本内部不同空间位置分配权重，由于在线跟踪过程中只对注意力层进行参数更新，且参数量只有m²×m²，本发明在保证精确度的同时不会造成过大的计算负担；所引入的参数正则化项既可以使参数在优化过程中保持单位矩阵的形状防止模型退化到比只取对应位置相似性更糟糕的情况，并防止距离中心位置过远的相似性值太高而在响应图中出现多峰干扰。另外，本发明中所设计的交叉相似性、注意力模块都不仅限于所描述的框架，提取特征部分、模型更新部分都可以替换成更高效先进的算法，具有可移植性，这在实际应用中非常实用。本方法结合了离线训练和在线更新的共同优势，由于训练和测试阶段的模型完全一致不存在增加或弃用模块的情况，离线训练增强了模型的泛化能力，在线跟踪使模型可以应对不可预测的目标变化。从跟踪效果上看，本发明的方法具备区分相似物体、重新识别遮挡后重现目标、应对旋转、形变的能力，可以用于自动驾驶前方场景、无人机自主飞行、交通或安全监控视频等视频应用中。

附图说明

图1是系统框图。目标区域与搜索区域图像分别经过参数共享的卷积层、求交叉相似矩阵并与注意力层所得权重点乘，最终响应图的最大值对应目标位置。

图2是交叉相似简化运算及训练参数W为类对角阵的示意图，本发明的方法(第一行)所得到的响应图目标最大响应更加清晰明确。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

步骤1：收集约4000段视频数据，截取同一视频不同帧的模板和搜索区域作为正样本对，来自不同视频的作为负样本对，组成训练集，在损失函数(4)的约束下对发明的模型所有参数进行离线训练；

步骤2：在第一帧的给定初始目标位置截取目标模板和搜索区域图像，送入所设计的跟踪框架(附图1)进行前向传播，在卷积层结束后得到各自的深度特征；

步骤3：根据公式(2)计算两个特征的所有交叉相似性M，根据公式(1)的映射关系转化为交叉相似矩阵S输入到注意力层；

步骤4：把预训练得到的参数值作为初始化值复制到模型中，另外设置参数W中所有值均为1/m²；

步骤5：对于后续输入的每一帧图像，目标模板固定采用第一帧，在跟踪过程中将值得信任的样本以较小概率叠加到模板上作为更新；

步骤6：重复步骤2-4计算每一帧对应的相似矩阵S；

步骤7：根据公式(3)得到预测响应图，最大值对应位置即当前目标中心位置，输入多尺度输入，选取响应值最高者作为最终尺度；

步骤8：预测结果输入分类器中给出置信值，若置信值大于0并达到预设的更新周期则在当前预测位置截取新的搜索区域，重复步骤2-5，在损失函数约束下对参数进行更新(微调)；若置信值小于0则继续跟踪，失败次数达到预设阈值时选用分类器重新采样作为初始值。

Claims

1.一种基于深度交叉相似匹配的在线视频目标跟踪方法，其特征在于，步骤如下：

(1)计算目标模板与候选样本的交叉相似性

(1.1)输入数据准备

在离线训练阶段，从开源的已标注视频数据集中选取多段视频序列，包含不同种类的目标，在视频序列中随机选取某一帧图像，按照目标矩形框截取图像，尺寸缩放到127×127，定义为目标区域

在目标中心位置，以目标框对角线h倍大小对图像进行截取，h>1，尺寸缩放到255×255，定义为搜索区域

随机抽取到来自同一段视频序列的T_in和C_in视为正样本对，不同视频序列的T_in和C_in作为负样本对，大量随机正负样本对共同构成训练集，在交叉熵损失函数的约束下，离线训练阶段使特征提取模块具备对同一目标的基本识别匹配能力；

(1.2)特征提取模块

以及候选样本

在类别多样、数量庞大的训练数据以及离线监督训练基础上，所得深度特征对通用物体具备基本的识别能力；其中，

表示目标模板中的第i个特征向量，对应着输入T_in的一个局部子区域；

代表F_x中以第k个位置为中心的候选样本，

(1.3)计算交叉相似性

该交叉相似矩阵的其中一个切片S(:,:,k)表示目标模板F_z和第k个候选样本的m²×m²个交叉相似结果，为了避免嵌套三层循环，通过把公式(1)等价地分解为两步；

M＝F_z(F_x)^T (2)

由于邻近的候选样本之间一定存在重叠面积，这一步省略对公共区域的重复冗余计算，但是得到的中间结果M失去候选样本的空间位置关系；

第二步，把中间结果M通过固定的位置映射矩阵，该位置映射矩阵的行、列索引对应交叉相似矩阵中的前两维S(i,j,:)，而位置映射矩阵中存放的元素则是对相应的中间结果M中相似结果的索引值，通过该位置映射矩阵的转换关系，顺利地将中间结果M转化为公式(1)中可区分不同样本空间位置的交叉相似矩阵S；

(2)设计注意力层为交叉相似性分配权重

在线测试阶段，依据空间位置关系的约束，自适应地为正确但不显著的目标相似性分配高权重，为错误但峰值突出的噪声相似性分配低权重；该权重系数用类单位矩阵

来表示，也就是注意力层的参数，其参数值在跟踪过程中随着候选样本的变化而进行更新调整；

(2.1)计算响应图

在所设计的正则化交叉熵损失函数的约束下，得到的W对角线元素值较高，降低边缘背景出现异常峰值，对角线周围元素值为保证匹配损失代价最低的最优值，即使目标发生局部形变或位移仍能捕捉到相似性；

交叉相似层相当于从外观表示的角度对特征进行强化，而注意力层则从空间位置关系的角度为交叉相似性自适应地分配权重，最后把每一个候选样本与目标模板内部的m²×m²个交叉相似结果求和，放在响应图中候选样本中心所在位置，代表该候选样本的最终匹配得分，再从s²个匹配结果中选择值最大者，其所在位置即与目标模板匹配度最高的候选样本，按照特征提取模块下采样的步长大小映射到原图，得到当前帧对目标位置的预测：

其中，W_ij表示目标模板第i个位置与候选样本第j个位置的相似性对应的权重值，r_k表示第k个候选样本即响应图中第k个位置与目标模板的最终相似得分；

(2.2)尺度估计

得到目标中心位置后，还需要给出目标框的大小，在跟踪中称为尺度估计；为了加速离线训练进程，每次输入多对样本，加上RGB三通道图像形成4维张量，这种训练方式称作批量随机梯度下降优化方法；而在线测试阶段每一帧只有一对测试样本，在同一位置截取不同尺度大小的搜索区域再缩放到标准输入大小，叠放后送入特征提取模块同样形成4维输入，最终响应值最大者对应尺度用于预测输出；

(3)离线监督训练以及在线参数更新

(3.1)带有参数正则化项的交叉熵损失函数

本方法的损失函数