CN107292915A

CN107292915A - 基于卷积神经网络的目标跟踪方法

Info

Publication number: CN107292915A
Application number: CN201710450320.0A
Authority: CN
Inventors: 李宁宁; 郭晓强; 周芸; 姜竹青; 门爱东
Original assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications
Current assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-10-24

Abstract

本发明涉及一种基于卷积神经网络的目标跟踪方法，其主要技术特点是：搭建适用于跟踪任务的卷积神经网络框架；在中心对比损失函数约束下对搭建好的卷积神经网络进行参数训练；将训练好的模型结构进行微调，进行在线跟踪。本发明设计合理，以卷积神经网络为结构基础，重点关注不同物体间的类内差异，能够较好地应对背景混杂以及相似目标干扰的情况，具有良好的鲁棒性和较高的精确度。

Description

基于卷积神经网络的目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，尤其是一种基于卷积神经网络的目标跟踪方法。

背景技术

视觉目标跟踪技术被广泛应用于计算机视觉中的多种重要任务中，如视频监控、视觉导航以及增强现实等。近几十年来，许多优秀的跟踪算法被提出，目标跟踪领域也有了相当大的进步，但由于干扰因素甚多，如目标姿态变化、目标被遮挡，目标移动速度太快、背景过于复杂以及相似目标的出现等，很少有跟踪算法可以处理所有的问题，目标跟踪方法仍有待进一步发展。

一个完整的目标跟踪系统可以分为五部分：运动模型、特征提取器、观察模型、模型更新器和综合后处理器等。其中，特征提取器将原始图像数据转换为另外一种表达以期获得更多的信息表示，实践表明合适的特征可以显著提高跟踪性能，因此，寻找一种更加有效的特征表示依然是众多学者研究的课题。

近年来，卷积神经网络在诸如图像分类，目标检测以及人脸识别等许多计算机视觉任务中取得了巨大的成功。与传统手工设计的特征表示不同，卷积神经网络从大量标注的图片数据中进行学习，学习到的特征具有丰富的高级语义信息，在区分物体类别上具有杰出的表现。然而，受限于目标跟踪的特殊性(跟踪时只能获取关于目标第一帧图片的标注信息)，卷积神经网络的强大功能受到了极大的限制。但是由于卷积神经网络提取的特征在数据集上具有很好的泛化能力，因此一个有效的解决方案是迁移学习大规模图像分类数据集(如ImageNet)预训练好的卷积神经网络模型。然而图像分类和目标跟踪之间存在差距，迁移后的卷积神经网络仍有待进一步训练完善。

对于卷积神经网络来说，层数越多，语义表达能力越强，对于图片的分类效果也就越好，但是迁移学习到目标跟踪任务当中以后，相似物体出现时，准确率就会降低。

发明内容

本发明的目地在于克服现有技术的不足，提出一种基于卷积神经网络的目标跟踪方法，解决迁移学习后相似物体干扰目标的问题。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于卷积神经网络的目标跟踪方法，包括以下步骤：

步骤1、搭建适用于跟踪任务的卷积神经网络框架；

步骤2、在中心对比损失函数约束下对搭建好的卷积神经网络进行参数训练；

步骤3、将训练好的模型结构进行微调，进行在线跟踪。

所述步骤1的具体实现方法包括以下步骤：

⑴对数据集ImageNet上训练好的卷积神经网络进行迁移学习，搭建五层神经网络，其中，第1-3层为卷积层，权重参数用CNN-M迁移初始化，第4-5层为全连接层，权重参数随机初始化；

⑵采用中心对比损失函数作为目标函数来对网络参数进行优化。

所述五层神经网络结构为：

第一层为Conv1层，该层参数为：滤波器为7*7*96，步长为2；

第二层为Conv2层，该层参数为：滤波器为5*5*256，步长为2；

第三层为Conv2层，该层参数为：滤波器为3*3*512，步长为1；

第四层为Full4层，该层参数为：512，随机失活；

第五层为Full5层，该层参数为：512，随机失活；

每一层的激活函数均采用Rectified Linear Unit函数。

所述中心对比损失函数为：

其中，f代表样本经过五层卷积神经网络后映射得到的特征向量描述子，下标a代表对应样本为锚点样本，p-代表对应样本为正样本，n代表对应样本为负样本,∈代表负样本应锚点样本之间应当保持的最小距离。

所述步骤2的实现方法包括以下步骤：

⑴采集正样本和负样本：根据训练集图片以及目标在图片中的位置和大小，以目标位置和大小为中心进行高斯采样，选择IOU大于正样本重叠率阈值的图片区域作为正样本；然后在整个图片上均匀采样，选择IOU小于负样本重叠率阈值的图片区域作为负样本；

⑵对于每f帧，选择一定数量的正样本和负样本组成样本包，将实际目标位置所在样本设置为锚点，并以此为中心，与每一个样本建立连接，与正样本组成正样本对，与负样本组成负样本对；

⑶前向计算网络的损失函数值，反向计算梯度，采用小批量随机梯度下降法不断迭代优化，直到达到最大迭代次数。

所述步骤3的实现方法包括以下步骤：

⑴对训练好的网络增加第六层作为二分类器，并采用softmax作为损失函数层，之后随机初始化第六层，作为初始的正得分和负得分；

⑵用待跟踪序列的当前帧进行网络参数的再训练，再训练时，以微调为主，达到迭代次数上限以后，固定网络参数不动，从下一帧图片开始持续处理接下来的图片，选择正得分最高的m个样本取平均值作为预测目标进行输出；

⑶每持续处理t帧图片以后，再次对网络参数进行再训练微调，然后重复步骤⑵，直至序列结束。

本发明的优点和积极效果是：

1、本发明利用卷积神经网络对图像信息的强大表示能力，将卷积神经网络作为特征提取器，为目标跟踪提供有力的特征，同时，为了突出物体间的类内差异，借鉴了广泛应用于人脸识别任务中的对比损失函数，并通过巧妙的设计将对比损失函数应用到单支网络中；充分考虑到目标的多种变化形态，跟踪过程中定期进行模型的重训练，达到校正目标模型的作用，可有效解决目标背景混杂或者被相似物体干扰导致不能准确跟踪的问题。

2、本发明设计合理，以卷积神经网络为结构基础，重点关注不同物体间的类内差异，能够较好地应对背景混杂以及相似目标干扰的情况，具有良好的鲁棒性和较高的精确度。

附图说明

图1是在训练过程中正负样本距离的变化；

图2a是采用不同算法在测试序列上的定量比较结果图(精确率曲线)；

图2b是采用不同算法在测试序列上的定量比较结果图(成功率曲线)。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种基于卷积神经网络的目标跟踪方法，包括以下步骤：

步骤1、搭建适用于跟踪任务的卷积神经网络框架。

本发明不同于图像分类，目标跟踪跟踪的是某一特定目标，为保持对同类物体差异的敏感性，本发明采用层数较少的卷积神经网络，以期提取更多低层判别式信息。具体方法如下：

(1)卷积神经网络在不同数据集之间具有良好的泛化能力，因此可以直接对数据集ImageNet上训练好的卷积神经网络进行迁移学习，本发明选择CNN-M进行低层特征的迁移学习，搭建五层的神经网络，网络结构如下表所示：

其中1-3层为卷积层，权重参数用CNN-M迁移初始化，4-5层为全连接层，权重参数随机初始化。激活函数均采用RELU(REctification Linear Unit)。

(2)考虑复杂背景以及相似目标干扰的场景，为凸显不同物体的差异性,拟采用对比损失函数作为目标函数来对网络参数进行优化。应用对比损失函数的典型网络结构为双胞胎(Siamese)网络,为了将双支网络变为流线型单支网络，本发明引入锚点样本，与普通样本组成样本对，完成了对比损失函数的单支网络实现，所设计损失函数如下：

其中f代表样本经过五层卷积神经网络后映射得到的特征向量描述子，下标a代表相应样本为锚点样本，p-代表相应样本为正样本，n代表相应样本为负样本,∈代表负样本与锚点样本之间应当保持的最小距离。

步骤2、搭建好网络结构以后，在设计的中心对比损失函数约束下对搭建好的卷积神经网络进行参数训练。

如图1所示，训练过程中，正样本间距离会缩近，负样本与正样本间间距会扩大，正负样本由混杂在一起逐渐变得开朗起来。用T-SNE技术对样本的特征描述子进行可视化。其中‘0’代表负样本，‘1’代表正样本，图中左侧是迭代前的状态，图中右侧是100次迭代后的状态，从图中可以看出：经过数次迭代以后，正负样本由混杂在一起变得明朗可分。

本步骤的具体实现方法为：

(1)采集正样本和负样本。根据训练集图片以及目标在图片中的位置和大小，以目标位置和大小为中心进行高斯采样，选择IOU(intersection over union overlap)大于正样本重叠率阈值的图片区域作为正样本；接着在整个图片上均匀采样，选择IOU小于负样本重叠率阈值的图片区域作为负样本。所有图片样本大小统一缩放为M*N：

(2)对于每f帧，选择一定数量的正样本和负样本组成样本包(minibatch)，将实际目标位置所在样本设置为锚点，并以此为中心，与每一个样本建立连接，与正样本组成正样本对，与负样本组成负样本对。

(3)前向计算网络的损失函数值，反向计算梯度，采用小批量随机梯度下降法不断迭代优化，直到达到最大迭代次数。

步骤3、跟踪时多采用判别式模型，将训练好的模型进行微调，增加softmax层进行在线跟踪。本步骤的具体实现方法为：

(1)对训练好的网络增加第六层作为二分类器，并采用softmax作为损失函数层，之后随机初始化第六层，作为初始的正得分和负得分。

(2)用待跟踪序列的当前帧进行网络参数的再训练，再训练时，微调为主，达到迭代次数上限以后，固定网络参数不动，从下一帧图片开始持续处理接下来的图片，选择正得分最高的m个样本取平均值作为预测目标进行输出。

(3)每持续处理t帧图片以后，再次对网络参数进行再训练微调，然后重复步骤(2)，直至序列结束。

下面按照本发明的方法进行实验，说明本发明的效果。

测试环境：CUDA7.5，MATLAB R2015b。

序列：一共包含80个训练序列，20个测试序列，测试序列分别为basketball,blurCar,bolt,bolt2,carDark,couple,girl2,human3,human5,human6,matrix,motorRolling,shaking,singer,singer2,skating2-1,skating2-2,soccer,tiger1,tiger2。

测试指标：实验使用了两种评价指标，分别为CLE和VOR，其中CLE是中心位置误差，表示跟踪到的目标和真实目标的中心位置的像素距离。由于CLE忽略了目标大小的影响，作为补充，考虑VOR准则，VOR定义为跟踪的目标区域与真实目标区域的交集与并集的比值。

测试结果如表1、图2a、图2b所示：

表1、10个跟踪算法在20个序列上的实验结果，CLE<20,VOR>0.5

算法	CLE	VOR	算法	CLE	VOR
						本发明	0.8547	0.7554	SRDCF-decon	0.7097	0.6612
MDNet-vot	0.8145	0.7645	SRDCF	0.6193	0.5661
						C-COT	0.7994	0.7207	KCF	0.4438	0.37
CNN-SVM	0.6937	0.5988	Struck	0.3617	0.2976
						HDT	0.7205	0.5532	TLD	0.3274	0.2947

表中的数字代表跟踪成功的视频帧的比例，通过上表及图2a、图2b可以看出，采用本发明进行目标跟踪相对于其他方法具有很强的竞争力。表中进行对比的算法都是在跟踪领域中取得优异成果或者具有一定代表性的算法。而本发明算法无论是在CLE标准还是VOR标准下，都取得了较佳的性能，平均跟踪成功的帧数达到了85.47％(CLE<20)和75.54％(VOR>0.5)。图2a、图2b给出了遍历CLE和VOR时跟踪结果的定量比较，比较结果显示本发明提出的算法在精确率曲线和成功率曲线上性能俱佳。且测试序列中涵盖各种类型的干扰因素，如遮挡、形变、背景混杂、快速移动等，说明本发明能够应对各种环境变化的情况，具有良好的鲁棒性和较强的可扩展性。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于卷积神经网络的目标跟踪方法，其特征在于包括以下步骤：

步骤1、搭建适用于跟踪任务的卷积神经网络框架；

步骤3、将训练好的模型结构进行微调，进行在线跟踪。

2.根据权利要求1所述的基于卷积神经网络的目标跟踪方法，其特征在于：所述步骤1的具体实现方法包括以下步骤：

3.根据权利要求3所述的基于卷积神经网络的目标跟踪方法，其特征在于：所述五层神经网络结构为：

第一层为Conv1层，该层参数为：滤波器为7*7*96，步长为2；

第二层为Conv2层，该层参数为：滤波器为5*5*256，步长为2；

第三层为Conv2层，该层参数为：滤波器为3*3*512，步长为1；

第四层为Full4层，该层参数为：512，随机失活；

第五层为Full5层，该层参数为：512，随机失活；

每一层的激活函数均采用Rectified Linear Unit函数。

4.根据权利要求2所述的基于卷积神经网络的目标跟踪方法，其特征在于：所述中心对比损失函数为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>-</mo> <msub> <mi>f</mi> <mi>a</mi> </msub> <mo>|</mo> <msup> <msub> <mo>|</mo> <mn>2</mn> </msub> <mn>2</mn> </msup> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <msup> <mo>&Element;</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>f</mi> <mi>a</mi> </msub> <mo>|</mo> <msup> <msub> <mo>|</mo> <mn>2</mn> </msub> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，f代表样本经过五层卷积神经网络后映射得到的特征向量描述子，下标a代表对应样本为锚点样本，p_-代表对应样本为正样本，n代表对应样本为负样本,∈代表负样本应锚点样本之间应当保持的最小距离。

5.根据权利要求1所述的基于卷积神经网络的目标跟踪方法，其特征在于：所述步骤2的实现方法包括以下步骤：

6.根据权利要求1所述的基于卷积神经网络的目标跟踪方法，其特征在于：所述步骤3的实现方法包括以下步骤：