CN110298404B

CN110298404B - 一种基于三重孪生哈希网络学习的目标跟踪方法

Info

Publication number: CN110298404B
Application number: CN201910591870.3A
Authority: CN
Inventors: 卢学民; 权伟; 周宁; 邹栋; 张卫华; 王晔; 郭少鹏; 刘跃平; 郑丹阳; 陈锦雄
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2020-12-29
Anticipated expiration: 2039-07-02
Also published as: CN110298404A

Abstract

本发明公开了一种基于三重孪生哈希网络学习的目标跟踪方法，涉及计算机视觉、目标跟踪及深度学习技术领域。该方法首先构建了一个三重孪生哈希网络，该网络由数据输入层、卷积特征提取层、哈希编码层三部分构成。在网络初始训练过程中，使用训练数据集和随机梯度下降反向传播算法对三重孪生哈希网络进行训练，训练完成后网络即可获得目标定位的初始能力。跟踪过程中则首先将输入图像通过三重孪生区域推荐网络得到相应的候选框，再将候选框输入三重孪生哈希网络进行正向处理，分别计算每个候选框与查询样本的相似度，选择最高相似度的候选框作为跟踪目标对象，从而实现目标跟踪。

Description

一种基于三重孪生哈希网络学习的目标跟踪方法

技术领域

本发明涉及计算机视觉、目标跟踪及深度学习技术领域。

背景技术

目标跟踪是计算机视觉领域中一项非常热门的研究课题，其研究内容是根据给定的一段视频片段自动识别出随后视频序列中要跟踪的目标对象，获取目标连续的位置、外观和运动等信息。目标跟踪广泛应用于军事与民用的智能监控、人机交互、交通监控等领域，具有很强的实用价值。尽管这个研究课题已经被研究了几十年，但它仍是一项具有挑战性的课题。在现实情况下，目标对象容易受到各种因素的干扰，例如光照变化、姿态变化、目标遮挡等，使得开发持续鲁棒的目标跟踪系统成为一项非常具有挑战性的问题。

过去几十年以来，目标跟踪的研究取得了长足的发展。从经典的均值漂移(MeanShift)、粒子滤波(Particle Filter)跟踪算法，到基于检测(Tracking-by-Detection)的跟踪算法及相关滤波(Correlation Filter)的跟踪算法，再到最近基于深度学习(DeepLearning)的跟踪算法。最近取得的研究进展主要是基于相关滤波的跟踪算法和基于深度学习的跟踪算法。相关滤波的跟踪算法于2012年提出，其主要原理是利用傅立叶变换快速实现学习和检测，学习检测过程快速、高效。Joao F.Henriques等提出了基于颜色梯度直方图(HOG)特征的核相关滤波方法，并提出了循环矩阵的求解，解决了密集采样问题，是目标跟踪最经典的相关滤波方法之一。但是相关滤波的方法也有一些缺陷，跟踪器使用的特征提取手段单一，表征能力不足，而且当目标快速移动、形状变化较大时，大量的具有背景干扰的负样本会对跟踪效果造成影响。最近的基于深度学习的目标跟踪算法主要分为三类：第一类是基于模板匹配的跟踪算法，最具代表性的是2016年Luca Bertinetto提出的全卷积孪生网络跟踪算法(Siamese-FC)；第二类是基于机器学习回归的算法，代表作是2016年David Held提出的基于回归网络的通用目标跟踪算法(GOTURN)；第三类是基于机器学习分类的算法，2015年Hyeonseob Nam提出的多域神经网络跟踪算法(MDNet)是其中一篇经典之作。但是深度学习方法也有一些不足之处，第一，深度学习对数据集的样本数量要求比较大，而在实际跟踪过程中存在数据量不够的问题；第二，训练过程中存在正负样本不平衡问题，特别地，正样本和困难负样本数据量较小很容易造成跟踪网络训练精度不高，从而导致跟踪精度的下降；第三，深度学习的全连接层结构决定了其训练过程含有非常大的参数量，给计算机带来极大的计算和存储开销。

发明内容

本发明的目的是提供一种基于三重孪生哈希网络学习的目标跟踪方法，它能有效地解决可有效解决传统深度学习直接利用全连接层计算而导致的占用内存空间大、参数计算量大的问题。

本发明的目的是通过以下技术方案来实现的：

步骤一、目标选取

从初始图像中选择并确定要跟踪的目标对象，目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定；

步骤二、训练数据集生成

数据集生成分为两个步骤，首先是数据集的选取，然后是数据集的制作；选取大型分类识别视频数据集ImageNet Video，数据集的所有图像均标记对应的目标对象位置坐标信息；然后通过已知标签制作训练数据集，每一组训练数据集有三组图像对，分别是正样本、查询样本和困难负样本，这三组样本图片对均来源于同一个目标序列，选取其中1000组图像序列；将图像序列中标注框内部分作为查询样本，并归一化为127×127像素，同时在每一张查询样本周围按相同大小随机选取样本，具体选取规则是与查询样本交并比(IOU)大于0.8作为正样本，小于0.6但大于0.3作为困难负样本，分别生成100张正样本和100张困难负样本，最终生成600000组训练数据集；

步骤三、三重孪生哈希网络构建与初始化

三重孪生哈希网络由数据输入层、卷积特征提取层、哈希编码层三部分构成，卷积特征提取层采用Alexnet网络结构，即5层卷积层和2层全连接层，并采用第7层全连接层的1024个神经元节点作为特征表达；哈希编码层则使这1024个神经元节点，其集合表示为u_n，经过sgn函数，得到哈希码集合b_n＝sgn(u_n)，各值为b_i∈{+1,-1}，该网络损失函数设置为三重似然损失函数，定义为

其中，M为训练数据集的组数，这里设定M＝600000，θ_ij表示哈希码b_i和b_j之间的内积，表示为

q,p,h分别表示查询样本，正样本，困难负样本，α为设定偏值，这里设定α＝10，λ是正则化参数项，用来平衡三重似然损失函数，设定λ＝80，能够加速训练过程，并防止反向传播过程中梯度消失，N为1024个神经元节点；

构建完三重孪生哈希网络后，则用生成的训练数据集开始进行网络训练，训练时反向传播采用经典的随机梯度下降法，最终网络将输出与查询样本最大相似度的目标对象，获得对目标对象定位的初始能力；

步骤四、图像输入

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已釆集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像，如果输入图像为空，则整个流程中止；

步骤五、候选区域的生成

三重孪生哈希网络训练完毕后，选取跟踪图像序列的第一帧标注框内的图像作为待跟踪目标对象，尺寸归一化127×127像素，然后依次输入后续帧，尺寸为255×255像素，将每一帧都经过三重孪生区域推荐网络，其包含卷积特征提取层、相关滤波结构两部分，其中卷积特征提取层直接采用三重孪生哈希网络层中的卷积特征提取结构，并权值共享，将得到两种卷积特征，尺寸大小分别是22×22像素×128通道和6×6像素×128通道；相关滤波结构则将提取的卷积特征进行互相关操作，其具体操作是将22×22像素×128通道卷积特征与6×6像素×128通道卷积，得到17×17像素的响应热图，然后在较高响应相对应的输入图像帧周围，按照与样本0.8、1、1.2倍的尺寸大小，分别得到132个目标候选框与132个困难负样本候选框；

步骤六、目标定位

将步骤五中生成的所有候选框经过训练好的三重孪生哈希网络中进行前向传播，最终输出每个候选框与查询样本的相似度值，选取最大相似度值的候选框作为目标跟踪结果，目标定位完成；

步骤七、网络在线更新

根据步骤六得到的目标跟踪位置，再根据步骤二中所述步骤在目标位置周围生成100张正样本和100张困难负样本并连同当前目标对象构成一组训练数据，进行一次网络训练，实现对网络的微调更新，然后跳转到步骤四。

在初始网络训练过程中，使用训练数据集和随机梯度下降法对三重孪生哈希网络进行训练，训练完成后网络即可获得对目标对象进行定位的初始能力，跟踪过程中，则首先将输入图像通过三重孪生区域推荐网络得到相应的候选框，再将候选框输入三重孪生哈希网络进行正向处理，分别计算每个候选框与查询样本的相似度，选择最高相似度的候选框作为跟踪目标对象，从而实现目标跟踪。此外，在每次目标跟踪完成后，根据当前所确定的目标位置及生成的数据集对网络进行微调和更新，使得网络具备一定的同步调整能力。

所述卷积特征提取结构特征的三维尺寸分别为6×6像素×128通道与22×22像素×128通道。

因此，鉴于三重孪生网络强大的表征能力和哈希编码快速分类能力，该网络由数据输入层、卷积特征提取层、哈希编码层三部分构成。在网络初始训练过程中，使用训练数据集和随机梯度下降反向传播算法对三重孪生哈希网络进行训练，训练完成后网络即可获得目标定位的初始能力。跟踪过程中则首先将输入图像通过三重孪生区域推荐网络得到相应的候选框，再将候选框输入三重孪生哈希网络进行正向处理，分别计算每个候选框与查询样本的相似度，选择最高相似度的候选框作为跟踪目标对象，从而实现目标跟踪。此外，本发明方法不仅可以用于单目标跟踪，还可以用于复杂场景下的多目标跟踪。在初始网络训练过程中，使用训练数据集和随机梯度下降法对三重孪生哈希网络进行训练，训练完成后网络即可获得对目标对象进行定位的初始能力，跟踪过程中，则首先将输入图像通过三重孪生区域推荐网络得到相应的候选框，再将候选框输入三重孪生哈希网络进行正向处理，分别计算每个候选框与查询样本的相似度，选择最高相似度的候选框作为跟踪目标对象，从而实现目标跟踪。此外，在每次目标跟踪完成后，根据当前所确定的目标位置及生成的数据集对网络进行微调和更新，使得网络具备一定的同步调整能力。

本发明的优点和积极效果：提出一种基于三重孪生神经网络的目标跟踪方法，该方法将目标跟踪问题转化为可更新的图像检索问题，使用训练数据集和随机梯度下降法离线训练了一个三重孪生神经网络模型，该网络由数据输入层、卷积特征提取层、哈希编码层三部分构成。卷积特征提取层采用Alexnet网络结构，即5层卷积层和2层全连接层，并采用第7层全连接层的1024个神经元节点作为特征表达，同时将1024个神经元进行哈希编码；哈希编码层则将第7层全连接层1024个神经元节点经过函数进行哈希编码。网络训练完成后，在跟踪过程中，首先将输入图像通过三重孪生区域推荐网络得到相应的候选框，再将候选框输入三重孪生哈希网络进行正向处理分别计算每个候选框与查询样本的相似度，选择最高相似度的候选框作为跟踪目标对象，从而实现目标跟踪。本发明利用大型视觉识别数据库Image Video作为训练数据集可有效解决样本量少的问题，输入训练数据集包括正样本、查询样本和困难负样本，不容易过拟合；由于采用了三重孪生神经网络，可有效解决正样本和困难负样本的挖掘，缩小正样本间的距离，增大困难负样本与正样本的距离，从而提高相似度计算的准确性，进而提升目标定位的精度；利用哈希编码实现图像表征的降维，有利于减少存储和计算开销，可有效解决深度学习直接利用全连接层计算而导致的占用内存空间大、参数计算量大的问题；同时采用三重孪生区域推荐网络避免了图像大量搜索，能够快速并有效的推荐候选框区域，从而实现更精准的目标跟踪。此外，本发明方法不仅可以用于单目标跟踪，通过对网络进行相应的改进(如输出端)，还可以扩展用于多目标的跟踪。

附图说明

图1为本发明三重孪生哈希网络结构图

图2为本发明三重孪生区域推荐网络结构图

图3为本发明的流程图

具体实施方式

本发明所述的方法可用于视觉目标跟踪的各种场合，包括军事和民用等领域，军事领域如无人飞行器、精确制导、空中预警等，民用领域如移动机器人、牵引变电所智能视频监控、智能交通系统等。

以牵引变电所智能视频监控为例：牵引变电所智能视频监控包含许多重要的自动分析任务，如入侵检测、行为分析，异常报警等，而这些工作的基础都要能够实现实时稳定的目标跟踪。可以采用本发明提出的跟踪方法实现，具体为，首先需要构建一个三重孪生哈希网络模型，该网络由数据输入层、卷积特征提取层、哈希编码层三部分构成，如图1所示，然后对监控视频训练进行人工标注，得到相应的训练数据集，然后采用该监控视频训练集与随机梯度下降法对该网络进行训练，然后在跟踪过程中，首先将输入图像通过三重孪生区域推荐网络得到相应的候选框，再将候选框输入三重孪生哈希网络进行正向处理分别计算每个候选框与查询样本的相似度，选择最高相似度的候选框作为跟踪目标对象，从而实现目标跟踪。此外，在每次目标跟踪完成后，根据当前所确定的目标位置及生成的数据集对网络进行微调和更新，使得网络具备一定的同步调整能力。由于采用了三重孪生神经网络，可有效解决正样本和困难负样本的挖掘，缩小正样本间的距离，增大困难负样本与正样本的距离，从而提高相似度计算的准确性，进而提升目标定位的精度；利用哈希编码实现图像表征的降维，有利于减少存储和计算开销，可有效解决深度学习直接利用全连接层计算而导致的占用内存空间大、参数计算量大的问题；同时采用三重孪生区域推荐网络避免了图像大量搜索，能够快速并有效的推荐候选框区域，从而实现更精准的目标跟踪。本发明能够处理复杂的跟踪场景，实现长时间实时准确的目标跟踪，解决跟踪过程中目标发生遮挡、漂移等问题。此外，本发明方法不仅可以用于单目标跟踪，还可以用于复杂场景下的多目标跟踪。

本发明方法可通过任何计算机程序设计语言(如C语言)编程实现，基于本方法的跟踪系统软件可在任何PC或者嵌入式系统中实现实时目标跟踪应用。

Claims

1.一种基于三重孪生哈希网络学习的目标跟踪方法，包括如下步骤：