CN112270696B

CN112270696B - 一种基于融合元分类器的判别性目标跟踪方法

Info

Publication number: CN112270696B
Application number: CN202011221216.2A
Authority: CN
Inventors: 范保杰; 朱益
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-09-06
Anticipated expiration: 2040-11-05
Also published as: CN112270696A

Abstract

本发明公开了一种基于融合元分类器的判别性目标跟踪方法，包括：步骤S1、在初始帧中确定跟踪目标；步骤S2、初始化锚框以及特征提取网络、在线分类器网络和元分类器网络；步骤S3、确定当前帧中的搜索区域位置和大小，并且对其进行特征提取；步骤S4‑S6、计算第一分类得分矩阵

第二分类得分矩阵

和第三分类得分矩阵

步骤S7、融合上述三类得分矩阵，并且找出最大响应点，求出最终的目标尺度和位置的估计；步骤S8、设置短期记忆网络，确定下次训练的正样本，对元分类器与在线分类器进行参数更新。本发明通过加权三个分类器的结果作为最终的得分矩阵，得到预测的目标的位置信息，最后通过偏移量矩阵来得到目标的最终位置和大小信息。

Description

一种基于融合元分类器的判别性目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种基于融合元分类器的判别性目标跟踪方法。

背景技术

目标跟踪是计算机视觉中一个比较热门的研究领域，被广泛地应用于视频监控、自动驾驶、人机交互、机器人应用等方面。目标跟踪旨在通过给定目标在第一帧中位置和大小来预测目标在接下来帧中的位置和大小信息。近年来目标跟踪领域取得和一系列重要的研究成果，尽管如此，由于视频中存在的光照变化、抖动、尺度变化、遮挡等问题还是会严重影响算法的性能。因此对于目标跟踪算法的研究还是有待深入。

近年来，基于相关滤波的目标跟踪算法以其优秀的跟踪性能和良好的跟踪速度受到了研究人员广泛的关注。基于相关滤波的算法就是将滤波器求解问题转化为如何将输入特征转化为目标的高斯分布的问题，并在求解过程中利用快速傅里叶转换将计算从时域映射到了频域，从而提高了计算效率加快了跟踪的速度。而基于深度学习的目标跟踪算法在这几年也发展迅速。各种特征提取网络层出不穷，基于深度学习的目标跟踪算法凭借深度网络强大的特征表达能力，将模型精度推向了新的高度。

但是，目前的基于相关滤波的跟踪算法由于暴力估计目标尺度的方法影响算法的速度，而基于深度学习的算法由于采用离线训练的方式，未能充分利用视频的上下文信息，因而缺乏判别性，并且由于训练过程的计算量大，需要花费较大的时间成本。

发明内容

有鉴于此，本发明的目的在于提供一种基于融合元分类器的判别性目标跟踪方法，本发明能够充分利用视频中的上下文信息，提升跟踪器的鲁棒性和判别性，并且只需少量数据集，充分利用了现有的技术，加快了训练速度。

为实现上述的目的，本发明提供一种基于融合元分类器的判别性目标跟踪方法，包括如下步骤：

步骤S1、在视频的初始帧中确定跟踪目标的位置和大小；

步骤S2、初始化锚框以及特征提取网络、在线分类器网络和元分类器网络的网络参数，并且通过所述特征提取网络对初始帧中的目标区域做特征提取；

步骤S3、根据上一帧中的目标位置和大小确定当前帧中的搜索区域位置和大小，并且对其进行特征提取；

步骤S4、将步骤S3中得到的特征送入区域候选网络，计算第一分类得分矩阵

和偏移量矩阵

步骤S5、将步骤S3中得到的特征送入在线分类器网络，计算第二分类得分矩阵

步骤S6、将步骤S3中得到的特征送入元分类器网络，计算第三分类得分矩阵

步骤S7、融合第一分类得分矩阵

第二分类得分矩阵

和第三分类得分矩阵

并且找出最大响应点，然后再根据步骤S4中的偏移量矩阵

来得到最终的目标尺度和位置的估计；

步骤S8、设置短期记忆网络，每5帧添加分类得分最高的预测样本作为下次训练的正样本，并判断是否满足元分类器的更新条件和在线分类器的更新条件，若满足，则进行元分类器与在线分类器的参数更新。

进一步的，在所述步骤S1中，确定所述跟踪目标的位置和大小，具体为，通过手动标记目标位置和大小的方法来确定跟踪目标的信息。

进一步的，在所述步骤S2中，所述初始化锚框，具体为：

通过在搜索区域中，每隔8个像素点设置一个中心点的方式，设置一个25×25的点阵，并且对每个中心点设置3个尺度不一样的锚框；

所述初始化特征提取网络的网络参数，具体为：

加载训练好的SiamRPN++模型权重，并且以所述SiamRPN++模型作为基本的特征提取网络；

所述初始化在线分类器网络的网络参数，具体为：

所述初始化在线分类器网络的操作视为最小化输出结果和标签之间的距离，损失函数的表达式为：

公式(1)，

γ_j表示为通道间权重，

ξ表示一个常数数值，η_j表示为特征图上的峰值点，y_j表示为高斯标签，f(x_j；w)表示为网络输出值，w_k表示为正则项，λ_k为w_k的权重，x_j表示训练样本的特征图，w表示在线分类器的网络参数。

最后通过高斯-牛顿法优化方法最小化损失函数来初始化在线分类器参数。

进一步的，在所述步骤S2中，初始化元分类器网络的网络参数，具体为：

步骤S201、随机初始化滤波器参数θ₀和α；

步骤S202、随机选取训练集中的一个视频，在该视频中，随机选择带有目标位置信息并且10帧以内的图片对，该图片对记为x_i和x_j；

步骤S203、通过高斯函数设置目标的标签记为y_i；

步骤S204、将x_i送入特征提取网络，得到输出：

公式(2)中，x_i表示为步骤S202选择的图片对中的一张图片，

表示元分类器的网络参数。

表示预测的输出；

步骤S205、计算：

公式(3)中，

表示元分类器的网络参数，α表示为滤波器的参数，

表示预测的输出。y_i表示真实值，

表示一次梯度下降之后元分类器的网络参数，⊙表示为点乘符号，

为预测的目标的位置和真实值之间的差值的导数；

步骤S206、令θ₁＝θ₀ ^T，计算：

公式(4)中，x_j表示为步骤S202选择的图片对中的另一张图片，θ₁为θ₀的转置；

步骤S207、计算θ₀和α的梯度，并进行迭代优化，所述θ₀和α的梯度更新公式的表达式如下：

公式(5)和公式(6)中，

分别表示对θ₀和α求偏导数；

步骤S208、经过多次的迭代优化，将加载训练好的参数作为跟踪时的初始化参数。

进一步的，所述步骤S3，具体为：

通过比例因子将搜索区域固定为一个255×255的区域，其中计算公式如下：

s(w+ 2p)×s(h+ 2p) ＝A (7)

公式(7)中，s为比例因子，w为目标的长，h为目标的宽，p＝(w+h)/4，A固定为255×255；

再通过公式(7)联合目标在上一帧的位置得到搜索区域之后，使用ResNet50提取特征。

进一步的，所述步骤S4，具体为：

在步骤S3提取到特征网络之后，将该特征网络送入区域候选网络进行前向传播，输出第一分类得分矩阵

和偏移量矩阵

进一步的，所述步骤S5，具体为：

在步骤S3提取到特征图之后，将该特征图送入在线分类器网络中计算第二分类得分矩阵

所述在线分类器网络为两层分类器网络；其中第一层为降维层，第二层为分类器输出层。

进一步的，所述步骤S6，具体为：

在步骤S3提取到特征图之后，将该特征图的最后一层特征送入具有2层卷积网络的元分类器网络，然后输入第三分类得分矩阵

所述元学习分类器网络的第一层为特征压缩层，所述特征压缩层用于对输入的特征做压缩操作来提升算法速度，所述元学习分类器网络的第二层为计算分类得分网络。

进一步的，所述步骤S7，具体为：

通过对第一分类得分矩阵

第二分类得分矩阵

和第三分类得分矩阵

进行加权合并的方式，得到第四分类得分矩阵

所述第四分类得分矩阵

的表达式为：

公式(8)中，β+γ+η＝1。

进一步的，所述步骤S8，具体为：

每隔5帧，将分类得分最高的搜索区域中的图片存入队列中，若超过50张则丢弃队头的图片，使得整个队列保持为50张图片，并判断当前元学习分类器是否满足已经间隔5帧，若满足则调用梯度更新，梯度更新公式的表达式：

公式(9)中，

表示为更新完之后的卷积网络参数，

表示为更新前卷积网络的参数，α表示为滤波器的参数，⊙表示为点乘符号，

为预测的目标的位置和真实值之间的差值的导数；

判断在线分类器的分数是否低于阈值或者间隔10帧，若低于阀值或者满足间隔10帧，就通过高斯-牛顿法优化在线分类器目标函数。

本发明的有益效果是：

本发明通过使用训练好的SiamRPN++算法，通过在线训练在线分类器和离线训练元分类器，并加权三个分类器的结果作为最终的得分矩阵，得到预测的目标的位置信息，通过偏移量矩阵来得到目标的最终位置和大小信息。本发明充分利用视频的时序信息使跟踪算法的判别性有了明显的提升，并且少量数据集训练的方式可以在一定程度上减小计算资源的损耗。

附图说明

图1是本发明的流程框图。

图2是本发明的整体网络框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1和图2，本实施例提供一种基于融合元分类器的判别性目标跟踪方法，包括如下步骤：

步骤S1、在视频的初始帧中确定跟踪目标的位置和大小。

具体的说，在本实施例中，在步骤S1中，通过手动标记目标位置和大小的方法来确定跟踪目标的信息。

步骤S2、初始化锚框以及特征提取网络、在线分类器网络和元分类器网络的网络参数，并且通过所述特征提取网络对初始帧中的目标区域做特征提取。

具体的说，

初始化锚框的操作，具体为：

通过在搜索区域中，每隔8个像素点设置一个中心点的方式，设置一个25×25的点阵，并且对每个中心点设置3个尺度不一样的锚框。

初始化特征提取网络的网络参数，具体为：

加载训练好的SiamRPN++模型权重，并且以所述SiamRPN++模型作为基本的特征提取网络。

初始化在线分类器网络的网络参数，具体为：

公式(1)，

γ_j表示为通道间权重，

ξ表示一个常数数值，η_j表示为特征图上的峰值点，y_j表示为高斯标签，f(x_j；w)表示为网络输出值，w_k表示为正则项，λ_k为w_k的权重，x_j表示训练样本的特征图，w表示在线分类器的网络参数，最后通过高斯-牛顿法优化方法最小化损失函数来初始化在线分类器参数。

初始化元分类器网络的网络参数，具体为：

步骤S201、随机初始化滤波器参数θ₀和α；

步骤S203、通过高斯函数设置目标的标签记为y_i；

步骤S204、将x_i送入特征提取网络，得到输出：

公式(2)中，x_i表示为步骤S202选择的图片对中的一张图片，

表示元分类器的网络参数。

表示预测的输出。

步骤S205、计算：

公式(3)中，

表示元分类器的网络参数。α表示为滤波器的参数，

表示预测的输出，y_i表示真实值，

为预测的目标的位置和真实值之间的差值的导数；

步骤S206、令θ₁＝θ₀ ^T，计算：

公式(4)中，x_j表示为步骤S202选择的图片对中的另一张图片，θ₁为θ₀的转置。

公式(5)和公式(6)中，

分别表示对θ₀和α求偏导数。

步骤S3、根据上一帧中的目标位置和大小确定当前帧中的搜索区域位置和大小，并且对其进行特征提取。

具体为：

s(w+2p)×s(h+2p)＝A (7)

和偏移量矩阵

具体为：

和偏移量矩阵

具体为：

具体为：

步骤S7、融合第一分类得分矩阵

第二分类得分矩阵

和第三分类得分矩阵

并且找出最大响应点，然后再根据步骤S4中的偏移量矩阵

来得到最终的目标尺度和位置的估计。

具体为：

通过对第一分类得分矩阵

第二分类得分矩阵

和第三分类得分矩阵

进行加权合并的方式，得到第四分类得分矩阵

所述第四分类得分矩阵

的表达式为：

公式(8)中，β+γ+η＝1。

具体为：

公式(9)中，

表示为更新完之后的卷积网络参数，

为预测的目标的位置和真实值之间的差值的导数；判断在线分类器的分数是否低于阈值或者间隔10帧，若低于阀值或者满足间隔10帧，就通过高斯-牛顿法优化在线分类器目标函数。

本发明通过使用训练好的SiamRPN++算法，通过在线训练在线分类器和离线训练元分类器，并加权三个分类器的结果作为最终的得分矩阵，得到预测的目标的位置信息，通过偏移量矩阵来得到目标的最终位置和大小信息。实现了充分利用视频的时序信息使跟踪算法的判别性有了明显的提升。并且少量数据集训练的方式可以在一定程度上减小计算资源的损耗。

需要指出的是，以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化和替换，都应涵盖在本发明的保护范围内。因此，本发明的保护范围应以权利要求的保护范围为准。