CN113379788A

CN113379788A - 一种基于三元组网络的目标跟踪稳定性方法

Info

Publication number: CN113379788A
Application number: CN202110728935.1A
Authority: CN
Inventors: 赵凡; 张珍珍; 惠凯迪; 范彩霞; 陈亚军
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-10
Anticipated expiration: 2041-06-29
Also published as: CN113379788B

Abstract

本发明公开了一种基于三元组网络的目标跟踪稳定性方法，设计了一个三元组目标确认网络结构；定义了一个基于相似度度量的目标损失函数；在视频序列的前后两帧图像上框选目标区域，在目标扩大区域定义随机粒子模拟目标的空间位置，通过粒子和目标区域的交并比取值制作训练正负样本；用制作的三元组数据对三元组目标确认网络模型进行训练；采用KCF算法对目标进行跟踪；采用Faster R‑CNN检测器对目标进行检测；采用三元组目标确认网络模型对跟踪结果和检测结果进行目标确认。本发明在KCF算法跟踪的基础上结合检测结果来提升跟踪的稳定性，在OTB数据集上进行测试，实验结果证明本发明相对KCF算法具有更高的成功率和准确性。

Description

一种基于三元组网络的目标跟踪稳定性方法

技术领域

本发明属于可见光图像处理方法技术领域，具体涉及一种基于三元组网络的目标跟踪稳定性方法。

背景技术

目标跟踪已经在计算机视觉中得到了广泛的研究，这在机器人技术，智能监控和其他应用中具有重要意义。由于姿态，尺度，照度和运动，遮挡和复杂背景的变化，目标跟踪仍然存在许多挑战。

2015年，Henriques等提出了KCF(核相关滤波器)跟踪算法，在目标跟踪方面具有很好的效果，由于KCF算法缺乏有效的目标跟踪丢失判断机制，导致KCF算法跟踪不稳定，因此需要提出一种基于三元组网络的目标跟踪稳定性方法，克服了传统的KCF算法跟踪不稳定的问题。

发明内容

本发明的目的是提供一种基于三元组网络的目标跟踪稳定性方法，提升KCF算法的跟踪稳定性。

本发明采用的技术方案是，一种基于三元组网络的目标跟踪稳定性方法，具体按照以下步骤实施：

步骤1、设计三元组目标确认网络结构；

步骤2、定义三元组目标确认网络的目标损失函数；

步骤3、离线训练三元组目标确认网络，得到训练后的网络模型M_tri；

步骤4、读取视频V,V＝{img_k}，img_k为第k帧图像，1≤k≤K,K为视频V中的图像总帧数，采用基于三元组网络的目标跟踪稳定性方法对视频V进行目标跟踪，输出目标跟踪结果RS＝{R′_k}，R′_k表示img_k的目标跟踪框。

本发明的特点还在于：

步骤1具体过程为：

步骤1中三元组目标确认网络结构由输入模块、特征提取模块和相似性度量模块串联组成；

对三元组数据(x,x⁺,x^-)分别进行归一化处理，得到归一化后的三元组数据(x₁,x₁ ⁺,x₁ ^-)，三元组数据(x₁,x₁ ⁺,x₁ ^-)大小都为w×h×c，把(x₁,x₁ ⁺,x₁ ^-)送入网络的输入模块，其中w×h为图像的大小，c为图像的通道数；

特征提取模块包括三个权值共享的卷积网络，每个卷积网络包括5组卷积层和1个最大池化层，具体连接顺序为：[Conv1]-[MaxPool]-[Conv2-1-Conv2-2-Conv2-3]-[Conv3-1-Conv3-2-Conv3-3-Conv3-4]-[Conv4-1-Conv4-2-Conv4-3-Conv4-4-Conv4-5-Conv4-6]-[Conv5-1-Conv5-2-Conv5-3]，3个卷积网络在Conv5-3层的输出分别表示为y、y⁺和y^-；

相似性度量模块的输出维度为2，一维为x₁和x₁ ⁺的相似度，另一维为x₁和x₁ ^-的相似度；

步骤2具体过程为：

定义三元组目标确认网络的目标损失函数，如下公式(1)所示：

L((x，x⁺，x^-)；γ；S)＝max{0，γ-S(y，y⁺)+S(y，y^-)} (1)；

其中，S(y,y⁺)表示y和y⁺之间的余弦相似度，

S(y,y^-)表示y和y^-之间的余弦相似度，

γ为阈值参数，max()为求最大值函数。

步骤3具体过程为：

步骤3.1、制作训练样本集Mtrain和标签文件label；

步骤3.2、设置网络模型参数，将训练样本集Mtrain和标签文件label按批量送入三元组目标确认网络中进行训练，当目标函数L收敛或者达到设置的最大迭代次数时，结束网络训练，输出网络模型M_tri。

步骤4具体过程为：

步骤4.1、输入视频V，V＝{img_k}，其中img_k为第k帧图像，图像大小为width×height，其中width、height分别为img_k的宽度和高度，1≤k≤K，K为视频总帧数；

步骤4.2、在图像img_k中对目标进行手动框选，得到目标的矩形框R′_k,在img_k中提取矩形框R′_k对应的图像区域Obj_k，即为目标图像，Obj_k大小为Obj_w_k×Obj_h_k，其中Obj_w_k、Obj_h_k分别为Obj_k的宽和高；

步骤4.3、定义交并比阈值变量overlap，对R′_k进行尺度扩展得到扩展后的矩形框R_k，在img_k中提取R_k对应区域的HOG特征Fea^k，在Fea^k中通过循环移位构建训练样本x^k；

步骤4.4、把Fea^k作为输入，执行KCF算法中的训练模块，得到岭回归系数α^k；

步骤4.5、k＝k+1，读取img_k，执行KCF跟踪算法中的跟踪模块，得到跟踪候选目标Tra_k；

步骤4.6、采用Faster R-CNN通用目标检测器对第k帧图像img_k进行目标检测，得到检测的候选目标集合Dec_k，

表示img_k中检测的第n个目标，0≤n≤N，N为检测的目标总个数；

步骤4.7、计算Tra_k与Dec_k中各个元素在空间位置上的交并比,记为Iou_k，

求Iou_k中的最大值

如果

则输出

对应的检测目标，即最佳检测目标

否则，将Tra_k作为跟踪结果Obj_k，并在视频图像img_k中输出Obj_k对应的矩形框R′_k，转入步骤4.9；

步骤4.8、将Tra_k、

和Obj_k-1作为输入，送入三元组目标确认网络模型M_tri输出得到确认后的目标Obj_k，并在视频图像img_k中输出Obj_k对应的矩形框R′_k；

步骤4.9、如果k≥K，跟踪结束，否则转入步骤4.3。

本发明的有益效果如下：

针对KCF算法缺乏有效的目标跟踪丢失判断机制导致的目标跟踪不稳定问题，本发明提出了一种目标跟踪稳定性方法，基于三元组网络，利用目标模板和跟踪结果、检测结果之间的相似性度对跟踪目标进行确认，结合检测结果提升跟踪器的稳定性。

附图说明

图1是本发明一种基于三元组网络的目标跟踪稳定性方法实现过程流程图；

图2是本发明一种基于三元组网络的目标跟踪稳定性方法中三元组目标确认网络结构图；

图3是本发明一种基于三元组网络的目标跟踪稳定性方法流程图；

图4(a)～(c)是OTB数据集Human7视频序列上KCF算法与本发明一种基于三元组网络的目标跟踪稳定性方法跟踪结果对比图。

图5(a)～(c)是OTB数据集David3视频序列上KCF算法与本发明一种基于三元组网络的目标跟踪稳定性方法跟踪结果对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于三元组网络的目标跟踪稳定性方法，本发明的实现过程如图1所示，具体按照以下步骤实施：

步骤1，设计三元组目标确认网络结构；

三元组目标确认网络结构由输入模块、特征提取模块和相似性度量模块串联组成，网络结构如图2所示；

对三元组数据(x,x⁺,x^-)分别进行归一化处理，得到归一化后的三元组数据(x₁,x₁ ⁺,x₁ ^-)，其大小都为w×h×c，把(x₁,x₁ ⁺,x₁ ^-)送入网络的输入模块，其中w×h为图像的大小，c为通道值，在本发明实施例中w＝h＝512，c＝3；

特征提取模块由三个权值共享的卷积网络组成，每个卷积网络由5组卷积层和1个最大池化层组成，具体连接顺序为：[Conv1]-[MaxPool]-[Conv2-1-Conv2-2-Conv2-3]-[Conv3-1-Conv3-2-Conv3-3-Conv3-4]-[Conv4-1-Conv4-2-Conv4-3-Conv4-4-Conv4-5-Conv4-6]-[Conv5-1-Conv5-2-Conv5-3]，特征提取模块的输出为3个卷积网络在Conv5-3层的输出(y,y⁺,y^-)，特征提取模块中具体的层、卷积层参数设置和输出维度大小如表1所示：

表1

相似性度量模块的输出维度为2×1，表示x₁和x₁ ⁺，x₁ ^-的相似度；

步骤2，定义三元组目标确认网络的目标损失函数:L((x，x⁺，x^-)；γ；S)＝max{0，γ-S(y，y⁺)+S(y，y^-)}，其中S(y,y⁺)，

表示y和y⁺之间的余弦相似度，S(y,y^-)，

表示y和y^-之间的余弦相似度，γ为阈值参数，max()为求最大值函数；

步骤3，训练三元组目标确认网络模型M_tri；

步骤3.1、制作训练样本集Mtrain和标签文件label；

步骤3.1.1、在公开的目标跟踪OTB数据集上任意选取Nu个视频序列，作为训练视频数据集V_Nu＝{V_num}，1≤num≤Nu，其中V_num表示第num个训练视频，训练视频个数计数器变量num初始化为1；

步骤3.1.2、在第num个训练视频V_num上进行样本制作，其中V_num＝{img_k}，img_k为V_num中的第k帧图像，1≤k≤K，K为视频V_num中图像的总帧数；

步骤3.1.3、图像帧数变量计数器变量k初始化为1；

步骤3.1.4、定义一个三元组{x,x⁺,x^-}数据，其中x,x⁺,x^-分别表示锚点样本、正样本和负样本；

步骤3.1.5、在视频序列V_num中读取图像img_k，在img_k图像中手动选取目标tar_k作为三元组{x,x⁺,x^-}数据中的锚点样本x，x在img_k图像中的位置信息为

其中

表示tar_k的左上角点在img_k中的列和行坐标，

分别表示tar_k在img_k中的宽和高；

步骤3.1.6、在视频序列V_num中读取图像img_k+1，在img_k+1图像中手动选取tar_k对应目标tar_k+1的矩形框

求

的r倍扩大矩形框

其中

在img_k+1图像中提取

对应的图像区域

作为目标的感兴趣区域；

在

范围内随机定义N个粒子P_n,1≤n≤N，每个粒子为一个矩形框，即P_n＝(x_n,y_n,w_n,h_n)，求P_n和

之间的交并比Iou,如果Iou大于等于设定的交并比阈值overlap，则认为矩形框P_n在图像

上对应的图像区域

为三元组{x,x⁺,x^-}数据中的正样本x⁺，其标签为1，否则

为三元组{x,x⁺,x^-}数据中的负样本x^-，其标签为0；Iou的计算公式如下：

上式中，∩和∪分别表示交集和并集，以此循环完成一个视频序列的三元组制作，本发明中overlap的取值为0.5；

步骤3.1.7、所有

构成训练样本集Mtrain，所有

对应的标签构成标签文件label；

步骤3.1.8、k＝k+2，如果k＜K，转入步骤3.1.5；否则转入步骤3.1.9；

步骤3.1.9、num＝num+1，如果num＜Nu，转入步骤3.1.2；否则转入步骤3.2；

步骤3.2、设置网络模型参数，将训练样本集Mtrain按批量以及标签文件label中对应的标签值送入三元组目标确认网络中进行训练，当目标函数L收敛或者达到设置的最大迭代次数时，结束网络训练，输出网络模型M_tri；

步骤3.2.1、输入训练样本集Mtrain以及标签文件label；

步骤3.2.2、设置三元组目标确认网络模型训练参数，设置学习率变量Learning_rate、每批次数据大小变量Batch_size、训练迭代最大次数变量Max_iter，定义训练迭代次数变量为Step，Step初始化为1，具体设置如表2所示；

表2

参数	参数说明	取值
			Learning_rate	学习率	0.001
Max_iter	训练最大迭代次数	200
			Batch_size	每批次数据的大小	6
Step	训练迭代次数变量初始值	1

步骤3.2.3、在训练样本集Mtrain随机选取Batch_size个训练样本，把Batch_size个训练样本和对应的标签，送入三元组目标确认网络中，进行网络训练；

步骤3.2.4、如果目标函数L未收敛或者Step＜Max_iter，则Step＝Step+1，使用梯度下降法来反向修正训练模型中各网络层的权重系数，返回步骤3.2.3；否则，网络训练结束，保存三元组目标确认网络训练模型M_tri。

步骤4、采用基于三元组网络的目标跟踪稳定性方法完成目标跟踪的具体流程如图3所示；

步骤4.1、输入测试视频V,V＝{img_k}，其中img_k为第k帧图像，图像大小为width×height，其中width、height分别为img_k的宽度和高度，1≤k≤K，K为视频总帧数；

步骤4.2、在图像img_k中手动选取目标矩形框R′_k,在img_k中提取矩形框R′_k对应的图像区域Obj_k，Obj_k的大小为Obj_w_k×Obj_h_k，其中Obj_w_k、Obj_h_k分别为Obj_k的宽和高；

步骤4.3、对R′_k进行尺度扩展得到扩展后的矩形框R_k，在img_k中提取R_k对应区域的HOG特征Fea^k，在Fea^k中通过循环移位构建训练样本x^k；

步骤4.3.1、以R′_k的中心点为中心，以p×(R′_k.width,R′_k.height)为宽和高向外扩展R′_k，得到扩展后的矩形框R_k，p为尺寸扩展倍数。以img_k和R_k为输入，调用开源OpenCV库函数cvSetImageROI()，在img_k中提取R_k对应的图像区域

本发明中p的取值为2.5。

步骤4.3.2、将

划分为M×N个互不重叠的图像块{B_m×n|1≤m≤M,1≤n≤N}，其中B_m×n表示第m×n个图像块，以B_m×n为输入，调用KCF算法中getfeature()函数，得到B_m×n的r维HOG特征

所有图像块的HOG特征组成

的特征Fea^k，

步骤4.4、把训练样本x^k作为输入，执行KCF算法中的训练模块，得到岭回归系数α^k；

步骤4.4.1、按公式(2)计算块B_m×n与中心块B_M2×N2的汉明距离hann(m,n)，所有块与中心块的汉明距离组成汉明距离矩阵Mat_hann，用Mat_hann初始化高斯回归矩阵y^k；

hann(m,n)＝0.25×[1-cos((2×π×m)/(w_hann-1))]×[1-cos((2×π×n)/(h_hann-1))] (2)；

其中(w_hann,h_hann)表示汉明窗的宽和高，本发明中w_hann＝M，h_hann＝N；

步骤4.4.2、将训练样本集x^k、高斯回归矩阵y^k、学习率δ以及正则化系数λ作为输入，调用KCF算法中train()函数，得到当前帧中岭回归系数α^k，本发明中学习率δ＝0.012，正则化系数λ＝0.001；

步骤4.4.2.1、将训练样本集x^k作为输入，计算x^k与x^k之间的自相关矩阵；

其中，σ表示高斯滤波器宽度，DFT^-1表示离散傅里叶变换(DFT)的反变换，

表示x^k的傅里叶变换，

是

的复共轭，本发明中σ的取值为0.2。

步骤4.4.2.2、计算岭回归系数

完成训练；

步骤4.4.3、如果k≥2，按公式(5)更新岭回归系数

否则执行步骤4.9。

步骤4.5、k＝k+1，读取img_k，调用KCF跟踪算法中的跟踪模块，得到跟踪候选目标Tra_k；

步骤4.5.1、按照步骤4.3，对R′_k-1进行尺度扩展得到扩展后的矩形框R_area，在img_k中提取R_area对应区域的HOG特征Fea^k，

R_area和Fea^k分别为目标候选区域的矩形框和特征z^k；

步骤4.5.2、将x^k-1、z^k、α^k-1和δ作为输入，调用KCF算法中detect()函数，得到目标响应图res^k，在res^k中求最大值res^max，其对应的位置就是目标的中心点位置c^k，以c^k为中心以(R′_k-1.width,R′_k-1.height)为宽、高的矩形框R^k就是目标框，在img_k中提取R^k对应的图像区域即为跟踪的目标Tra_k。

步骤4.5.2.1、将x^k-1、z^k和δ作为输入，代入公式(3)计算x^k-1与z^k之间的互相关矩阵

步骤4.5.2.2、将α^k-1和

作为输入，代入公式(6)计算目标响应图res^k；

步骤4.5.2.3、求res^k中的最大值res^max，res^max＝max(res^k)，res^max对应的位置就是目标的中心点位置c^k，以c^k为中心以(R′_k-1.width,R′_k-1.height)为宽、高的矩形框R^k就是目标框，在img_k中提取R^k对应的图像区域即为跟踪的目标Tra_k。

步骤4.6、采用FasterR-CNN通用目标检测器对第k帧图像img_k进行目标检测，得到检测的候选目标集合Dec_k，

是第n个检测目标，0≤n≤N，N为检测的目标总个数；

步骤4.6.1、本发明采用2017年S.Ren等人在期刊IEEE Transactions on PatternAnalysis and Machine Intelligence上发表的《Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks》文章中的Faster R-CNN网络结构，选用在VOC-2007数据集上训练得到的Faster R-CNN目标检测器作为本发明的目标检测器；

步骤4.6.2、将img_k作为输入，送入Faster R-CNN目标检测器进行目标检测，得到检测的候选目标集合Dec_k，

是第n个检测目标，0≤n≤N；N为检测的目标总个数。

求Iou_k中的最大值

如果

则输出

对应的检测目标，即最佳检测目标

步骤4.7.1、计算Obj_k与Dec_k中各个元素在空间位置的交并比Iou_k，

是第n个检测目标与Obj_k的空间位置交并比，0≤n≤N。N为检测的目标总个数；

上式中，∩和∪分别表示交集和并集，

和

表示当前帧目标结果Obj_k对应的矩形框和第n个检测目标对应的矩形框；

步骤4.7.2、求Iou_k中的最大值

如果

则

对应的检测目标

为最佳检测目标；反之，将Tra_k作为最终跟踪结果Obj_k，在视频图像img_k中输出Obj_k对应的矩形框R′_k，转入步骤4.9。

步骤4.8、将Tra_k、

步骤4.9、如果k≥K，跟踪结束，否则转入步骤4.3。

本发明针对KCF缺乏有效的目标跟踪丢失判断机制从而导致的跟踪不稳定性问题，首先设计了一个三元组目标确认网络结构，定义了一个基于相似度度量的目标损失函数；其次在视频序列的前后两帧图像上手动框选目标区域，在目标扩大区域定义随机粒子模拟目标的空间位置，通过粒子和目标区域的交并比取值制作训练正样本和负样本；用制作的三元组样本集对三元组目标确认网络模型进行训练；采用KCF算法对目标进行跟踪，采用Faster R-CNN检测器对目标进行检测，采用三元组目标确认网络模型对跟踪结果和检测结果进行目标确认。本发明在KCF算法跟踪的基础上结合检测结果来提升跟踪的稳定性，在OTB数据集上进行了实验测试，实验结果证明了本发明相对KCF算法具有更高的成功率和准确性。

本发明在OTB数据集上进行测试，OTB数据集包含11种具有不同挑战因子的视频序列，这些挑战因素有：平面内旋转、平面外旋转、尺度变换、遮挡、形变、运动模糊、快速移动、超出视野、背景杂波、光照变化、低分辨率。

本发明采用的评价指标为准确率、成功率。

1)准确率；

准确率表示被跟踪目标的中心位置与人工标记的目标真值之间的中心位置误差小于所设定阈值的帧数占总帧数的比值，阈值数设为20个像素点，准确率值越大表示跟踪性能越好。中心位置误差(center location error，CLE)计算公式如下：

2)成功率；

成功率表示在总帧数中预测目标框与实际目标框的交并比大于某一阈值的帧数占比，该阈值在0到1之间变化，一般大于0.5表示跟踪成功。

在两个数据集上本发明选取了部分序列进行了测试，图4为OTB数据集视频序列Human7上KCF算法与本发明方法跟踪对比结果，其中图4(a)从左往右依次为Human7视频序列第22帧、第61帧和第121帧图像的原图，图4(b)从左往右依次为KCF算法对Human7视频序列第22帧、第61帧和第121帧图像的跟踪结果，图4(c)从左往右依次为本发明方法对Human7视频序列第22帧、第61帧和第121帧图像的跟踪结果，图5(a)从左往右依次为David3视频序列第21帧、第60帧和第172帧图像的原图，图5(b)从左往右依次为KCF算法对David3视频序列第21帧、第60帧和第172帧图像的跟踪结果，图5(c)从左往右依次为本发明方法对David3视频序列第21帧、第60帧和第172帧图像的跟踪结果，从图中可以看到KCF方法的跟踪框和目标位置有一定的误差，而本发明方法的跟踪框一直锁定在目标上，从而证明本发明方法相对KCF方法有一定的性能提升。

表3为KCF算法与本发明方法在OTB数据集上的平均成功率和平均准确率的客观评价结果。由表3可见，相对KCF算法，本发明方法在OTB数据集上的平均成功率和平均准确率分别提高了40.6％、21.3％，本发明方法具有更好的跟踪稳定性。

表3

Claims

1.一种基于三元组网络的目标跟踪稳定性方法，其特征在于，具体按照以下步骤实施：

步骤1、设计三元组目标确认网络结构；

步骤2、定义三元组目标确认网络的目标损失函数；

2.根据权利要求1所述一种基于三元组网络的目标跟踪稳定性方法，其特征在于，所述步骤1具体过程为：

特征提取模块包括三个权值共享的卷积网络，每个卷积网络包括5组卷积层和1个最大池化层，具体连接顺序为：[Conv1]—[MaxPool]—[Conv2-1-Conv2-2-Conv2-3]—[Conv3-1-Conv3-2-Conv3-3-Conv3-4]—[Conv4-1-Conv4-2-Conv4-3-Conv4-4-Conv4-5-Conv4-6]—[Conv5-1-Conv5-2-Conv5-3]，3个卷积网络在Conv5-3层的输出分别表示为y、y⁺和y^-；

相似性度量模块的输出维度为2，一维为x₁和x₁ ⁺的相似度，另一维为x₁和x₁ ^-的相似度。

3.根据权利要求1所述一种基于三元组网络的目标跟踪稳定性方法，其特征在于，所述步骤2具体过程为：

L((x,x⁺,x^-)；γ；S)＝max{0,γ-S(y,y⁺)+S(y,y^-)} (1)；

其中，S(y,y⁺)表示y和y⁺之间的余弦相似度，