CN109410242B

CN109410242B - 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质

Info

Publication number: CN109410242B
Application number: CN201811031639.0A
Authority: CN
Inventors: 黄双萍; 伍思航; 李豪杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2020-09-22
Anticipated expiration: 2038-09-05
Also published as: CN109410242A

Abstract

本发明公开了一种基于双流卷积神经网络的目标跟踪方法、系统、设备及介质，所述方法包括：构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息；构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息；加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息；根据融合的特征信息，构建全连接子网络，提取符合要求的图像块；对符合要求的图像块的边界框进行边界框回归，得到当前帧目标的预测位置和大小；在对目标跟踪前，对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练；在对目标跟踪过程中，对全连接子网络进行线上精调。本发明达到了很好的跟踪效果。

Description

基于双流卷积神经网络的目标跟踪方法、系统、设备及介质

技术领域

本发明涉及一种目标跟踪方法，尤其是一种基于双流卷积神经网络的目标跟踪方法、系统、计算机设备及存储介质，属于计算机视觉的目标跟踪领域。

背景技术

视觉目标(单目标)跟踪任务是计算机视觉领域一直以来研究的热点，有着广泛应用，尤其是近年来科技生产力的高速发展，视频监控、无人机飞行、自动驾驶等等领域亟待优秀的目标跟踪算法。

视觉目标跟踪任务描述的是在给定的视频序列场景下，只提供目标在第一帧中的位置，然后通过算法预测该目标接下来的位置和大小。尽管近年来涌现了一大批算法，但是依然没有较好的解决该任务，因其存在很大的挑战性，尤其是目标外观变形、尺度变化、物体遮挡、像素模糊、背景复杂等等。

现有的目标跟踪算法根据观测模型可以分为生成式模型和判别式模型，即生成式方法和判别式方法。生成式方法是试图通过找到可以代表跟踪目标的最佳位置，例如基于贝叶斯网络推断模型的增量PCA法、基于外观模型的编码表示、卡尔曼滤波等。近年来主流的算法为判别式方法，主要分为相关滤波方法和深度学习方法两大类。相关滤波法起源于数字信号处理领域，其核心在于用相关性表示两个信号之间的相似程度，这里通常用卷积作为相关运算。相关滤波法基本思想是寻找一个滤波模板，通过这个滤波模板作用于下一帧的图像中产生得到最大响应区域，则该区域可以表征目标所在位置，例如著名的科罗拉多州立大学David S.Bolme发明的MOSSE算法、科英布拉大学系统与机器人研究所发明的CSK等算法。近年来由于循环矩阵的引入，使得算法主要运用矩阵运算，使得相关滤波法效率有了很大的提升，特别是开山之作，科英布拉大学

F.Henriques等人发明的KCF算法，利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的Hadamad积，即元素的点乘，大大降低了运算量，跟踪速度惊人，平均每秒达到172帧。但是相关滤波方法的致命缺点是对目标位置和大小的精度把握不足，即与真实目标的区域重叠度较差。而基于深度学习的方法，因其可以通过使用神经网络很好的提取目标图像的特征，在近年来大放异彩，其优点是比相关滤波法预测目标的位置和大小精度高得多。其主要思想是通过机器学习的方法训练一个前景和背景的分类器，当前帧以目标区域为正样本，背景区域为负样本，然后用训练好的分类器在下一帧中找最优区域，比较著名的有英国萨里大学的一个捷克籍博士生Zdenek Kalal发明的TLD跟踪算法、韩国POSTECH团队发明的TCNN、CNN-SVM跟踪算法、美国斯坦福大学Held等人发明的GOTURN，等等方法。基于深度学习的方法缺点是因为目标跟踪任务的特殊性，只提供第一帧图片的标签数据，缺乏大量数据来训练神经网络，一般做法是在大规模分类图像数据集训练的模型迁移到目标跟踪来，也就是一种基于区域的目标检测方法，没有充分视频的时序性，没有把握跟踪目标帧间的运动信息。

发明内容

本发明的第一个目的是为了解决上述现有技术的缺陷，提供了一种基于双流卷积神经网络的目标跟踪方法，该方法引入了三维神经网络，首次将二维和三维卷积神经网络结合应用于目标跟踪任务，充分利用了视频的时序性，提取目标在视频帧间的运动变化信息，提高目标定位的精准性，达到了很好的跟踪效果。

本发明的第二个目的在于提供一种基于双流卷积神经网络的目标跟踪系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

基于双流卷积神经网络的目标跟踪方法，所述方法包括：

构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息；

构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息；

加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息；

根据融合的特征信息，构建全连接子网络，获取符合要求的图像块；

对符合要求的图像块的边界框进行边界框回归，得到当前帧目标的预测位置和大小；

在对目标跟踪前，对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练；

在对目标跟踪过程中，对全连接子网络进行线上精调。

进一步的，所述构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息，具体包括：

基于当前帧的前一帧中目标邻域，在当前帧进行高斯采样S个图像块，作为空间流二维卷积神经网络的输入；其中，所述空间流二维卷积神经网络包括三个卷积层和两个池化层；

改变三个卷积层对S个图像块四周补零的数量，输出图像特征。

进一步的，所述构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息，具体包括：

将N个图像一起作为时序流三维卷积神经网络的输入；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域，在当前帧截取出的图像，所述时序流三维卷积神经网络包括八个卷积层和五个池化层；

改变八个卷积层对N个图像四周补零的数量，输出图像特征。

进一步的，所述空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量形式均为(batch,channel,width,height)；其中，batch表示网络每次处理图像的批次，channel表示图像特征的通道数，width表示图像特征的宽，height表示图像特征的高，并且空间流二维卷积神经网络和时序流三维卷积神经网络输出的batch、width、height数值均相同；

所述加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息，具体包括：

设在空间流二维卷积神经网络输出的图像特征的通道数是channel₁，时序流三维卷积神经网络输出的特征通道数是channel₂，将空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量在特征通道方向上进行拼接，拼接后融合特征向量为(batch,channel₁+channel₂,width,height)。

进一步的，所述全连接子网络包括第一全连接层、第二全连接层和第三全连接层；

所述根据融合的特征信息，构建全连接子网络，获取符合要求的图像块，具体包括：

顺序级联第一全连接层和第二全连接层，在第二全连接层后并列展开b个全连接层分支，每个全连接层分支作为一个第三全连接层；

将融合的特征信息作为全连接子网络的输入，通过全连接子网络计算，输出一个二维向量(score₁,score₂)；其中，score₁表示输入空间流二维卷积神经网络相应图像块与目标的相似性得分，score₂表示输入空间流二维卷积神经网络相应图像块与背景的相似性得分；

在空间流二维卷积神经网络的图像块中，选取与目标的相似性得分最高的图像块，作为符合要求的图像块。

进一步的，所述在对目标跟踪前，对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练，具体包括：

构建训练数据集；其中，所述训练数据集为多个跟踪视频序列，每个跟踪视频序列的每一帧有跟踪目标真实边界框的标注；

将当前帧跟踪目标图像批量的T个正样本或F个负样本作为空间流二维卷积神经网络的输入，对空间流二维卷积神经网络进行线下训练；

将N个图像一起作为时序流三维卷积神经网络的输入，对时序流三维卷积神经网络进行线下训练；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域，在当前帧截取出的图像；

将空间流二维卷积神经网络和时序流三维卷积神经网络提取出的训练数据经过加性融合后，输入到全连接子网络，通过全连接子网络计算，得到正样本与目标的相似性得分以及负样本与背景的相似性得分；

根据正样本与目标的相似性得分以及负样本与背景的相似性得分，分别计算正样本的损失以及负样本的损失，得到正样本的损失和以及负样本的损失和，从而得到总误差；

将总误差反向传播到空间流二维卷积神经网络和时序流三维卷积神经网络，使用随机梯度下降法更新二维卷积神经网络和时序流三维卷积神经网络的权值，训练直至收敛。

进一步的，所述在对目标跟踪过程中，对全连接子网络进行线上精调，具体包括：

收集目标所在邻域的正样本和负样本；

利用收集到的正样本和负样本，定期输入全连接子网络，通过全连接子网络计算，得到正样本与目标的相似性得分以及负样本与背景的相似性得分；

将总误差反向传播到全连接子网络，使用随机梯度下降法精调全连接子网络的权值，直至收敛。

本发明的第二个目的可以通过采取如下技术方案达到：

基于双流卷积神经网络的目标跟踪系统，所述系统包括：

第一构建模块，用于构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息；

第二构建模块，用于构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息；

加性融合模块，用于加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息；

第三构建模块，用于根据融合的特征信息，构建全连接子网络，获取符合要求的图像块；

边界框回归模块，用于对符合要求的图像块的边界框进行边界框回归，得到当前帧目标的预测位置和大小；

线下训练模块，用于在对目标跟踪前，对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练；

线上精调模块，用于在对目标跟踪过程中，对全连接子网络进行线上精调。

本发明的第三个目的可以通过采取如下技术方案达到：

计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的目标跟踪方法。

本发明的第四个目的可以通过采取如下技术方案达到：

存储介质，存储有程序，所述程序被处理器执行时，实现上述的目标跟踪方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明首次引入三维神经网络提取跟踪目标在视频帧间的运动变化信息，充分利用了视频的时序性，减少目标被遮挡、背景噪声等影响，提高目标位置和大小与真实值的重叠率，使得跟踪效果更加精确，因此其具有独创性。

2、本发明可以利用海量的各种场景视频序列数据来训练网络，自适应地提取目标特征，具有良好的网络泛化能力，鲁棒性强的特点，具有普适性和通用性，有着广泛的应用场景。

3、本发明具有自我判断跟踪失败的重启机制，当跟踪目标被严重遮挡等情况造成的丢失时，基于精度和可连续性，将预测的历史数据重新进行训练双流网络，并扩大搜索区域，重新定位目标，解决跟踪过程中伪目标、物体遮挡等干扰造成的跟踪漂移问题，从而提高跟踪的精确度。

附图说明

图1为本发明实施例1的基于双流卷积神经网络的目标跟踪方法的流程图。

图2为本发明实施例1的空间流网络的结构图。

图3为本发明实施例1的时序流网络的结构图。

图4为本发明实施例1的全连接网络的结构图。

图5a～图5f为本发明实施例1的基于双流卷积神经网络的目标跟踪方法在ObjectTracking Benchmark(OTB100)数据集Soccer序列的部分跟踪测试结果图。

图6a～图6f为本发明实施例1的基于双流卷积神经网络的目标跟踪方法在ObjectTracking Benchmark(OTB100)数据集Human3序列的部分跟踪测试结果图。

图7为本发明实施例2的基于双流卷积神经网络的目标跟踪系统的结构框图。

图8为本发明实施例2的第一构建模块的结构框图。

图9为本发明实施例2的第二构建模块的结构框图。

图10为本发明实施例2的第三构建模块的结构框图。

图11为本发明实施例2的线下训练模块的结构框图。

图12为本发明实施例2的线上精调模块的结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

三维卷积神经网络是卷积神经网络的一种，起源于动作、肢体、手势检测等领域，区别于常用在图像分类、检测领域的二维卷积神经网络，其增加了一个时间维度，因有优秀的时序特征表达能力，后被引入到视频分类检索等领域。

不同于图像分类等任务，视觉目标追踪任务不单需要提取目标本身的特征，还需要提取目标在视频帧间的运动变化信息，即时序特征。本发明提供了一种基于双流卷积神经网络的目标跟踪方法，该方法首次将三维卷积神经网络运用到视觉目标跟踪领域，并且结合二维卷积神经网络，在目标区域重叠度上超越了相关滤波算法和绝大部分深度学习算法，达到了很好的跟踪效果，为该任务方向提供了一种新的解决思路，引领新的趋势。

如图1所示，本实施例的基于双流卷积神经网络的目标跟踪方法包括以下步骤：

S1、构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息。

本实施例将空间流二维卷积神经网络简记为空间流网络，步骤S1具体包括：

S101、确定空间流网络的输入：由于视频帧间目标运动具有平稳性，基于当前帧的前一帧中目标邻域，分别用系数为0.6、0.6、1.05的多维高斯分布宽、高、尺度三个维度的形式，在当前帧进行高斯采样S个候选框样本，作为当前帧目标可能的位置，然后将S个候选框样本分别调整到大小为W*H的图像块，作为空间流网络的输入；其中，W为图像块的宽度，H为图像块的高度，具体地，S＝256，W＝224像素点，H＝224像素点。

S102、确定空间流网络的结构：牛津大学视觉几何组(Visual Geometry Group)发明的VGG神经网络模型变体VGG-S是计算机视觉图像领域中被广泛运用的卷积神经网络模型之一，提供开源的模型结构和在ImageNet数据集上预训练好的参数，本实施例的空间流网络以VGG-S为原型，包括三个卷积层(conv1-3)和两个池化层(maxpooling1-2)，如图2所示，图中conv前缀表示卷积层，maxpooling前缀表示最大值池化，relu表示激活函数，LRN表示局部响应归一化层，Data表示输入网络的原始数据；空间流网络为得到大小width*height图像特征的输出，在原VGG-S网络模型基础上进行调整，具体地，改变三个卷积层对256个图像块四周补零(padding)的数量，但仍以原VGG-S网络模型在ImageNet预训练的参数为训练起点；其中，width为图像特征的宽，height为图像特征的高，具体地，width＝3，height＝3。

S2、构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息。

本实施例将时序流三维卷积神经网络简记为时序流网络，步骤S2具体包括：

S201、确定时序流网络的输入：将N个图像一起作为时序流三维卷积神经网络的输入；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大E倍的区域，在当前帧截取出的图像，具体地，N＝16，E＝2。

S202、确定时序流网络的结构：由Facebook Research研发的用于视频特征提取的三维卷积神经网络3D Convolutional Networks(简记为C3D)模型，是计算机视觉领域中被视频分析和理解任务广泛运用的卷积神经网络模型之一，提供开源的网络模型结构和在Sports-1M数据集上预训练好的参数；本实施例的时序流网络以C3D为原型，包括八个卷积层(conv1a、conv2a、conv3a、conv3b、conv4a、conv4b、conv5a、conv5b)和五个池化层(maxpooling1-5)，如图3所示，图中conv前缀表示卷积层，maxpooling前缀表示最大值池化，relu表示激活函数，Data表示输入网络的原始数据；时序流网络为得到大小为width*height图像特征的输出，在原C3D网络模型上基础上调整卷积层，具体地，改变八个卷积层对十六个图像四周补零(padding)的数量，但仍以原C3D网络模型在Sports-1M数据集预训练好的参数为训练起点；其中width为图像特征的宽，height为图像特征的高，具体地，width＝3，height＝3。

S3、加性融合空间流网络和时序流网络的特征信息。

空间流网络和时序流网络(双流网络)最后一个卷积层输出的特征向量形式均为(batch,channel,width,height)；其中，batch表示网络每次处理图像的批次，channel表示图像特征的通道数，width表示图像特征的宽，height表示图像特征的高，并且空间流网络和时序流网络输出的batch、width、height数值均相同，具体地，batch＝128，channel＝512，width＝3，height＝3，即特征向量为(128,512,3,3)。

步骤S3具体包括：设在空间流网络输出的图像特征的通道数是channel₁时序流网络输出的特征通道数是channel₂，将空间流网络和时序流网络最后一个卷积层输出的特征向量在特征通道方向上进行拼接，拼接后融合特征向量为(batch,channel₁+channel₂,width,height)，具体地，channel₁＝512，channel₂＝512，即融合特征向量为(128,1024,3,3)。

S4、根据融合的特征信息，构建全连接子网络，获取符合要求的图像块。

步骤S4具体包括：

S401、确定全连接子网络的结构：全连接子网络包括第一全连接层fc₁、第二全连接层fc₂和第三全连接层

顺序级联第一全连接层fc₁和第二全连接层fc₂，在第二全连接层后并列展开b个全连接层分支，每个全连接层分支作为一个第三全连接层，编号为

上标*取自然数1～b中的一个，如图4所示，图中relu表示激活函数，dropout表示随机丢弃神经元操作；b个全连接层分支与Object Tracking Benchmark(OTB)数据集中的b个跟踪视频序列一一对应，具体地，b＝100，即全连接层分支有100个，OTB数据集为OTB100数据集。

S402、计算图像块与目标、背景的相似性得分：将融合的特征信息作为全连接子网络的输入，具体地，将融合的特征向量作为全连接子网络的输入，通过全连接子网络计算，输出一个二维向量(score₁,score₂)；其中，score₁表示输入空间流网络相应图像块与目标的相似性得分，score₂表示输入空间流网络相应图像块与背景的相似性得分。

S403、选取得分最高的图像块：在空间流网络的图像块中，选取与目标的相似性得分最高的图像块，作为符合要求的图像块。

具体地，在步骤S101中高斯采样的256个图像块，每个图像块经过全连接子网络之后得到与目标相似性的得分，在256个图像块得分中选取最高得分的一个，将其作为符合要求的图像块。

S5、对符合要求的图像块的边界框进行边界框回归，得到当前帧目标的预测位置和大小。

具体地，符合要求的图像块，即与目标的相似性得分最高的图像块，对该图像块的边界框进行边界框回归后，作为当前帧目标的预测位置和大小，其中回归方法与著名的Facebook AI Research(FAIR)的Ross Girshick科学家提出的R-CNN目标检测网络的回归方法相同。

重复上述步骤，继续进行后续帧的跟踪，直到下一帧是最后一帧时结束跟踪任务。

S6、在对目标跟踪前，对空间流网络和时序流网络进行线下训练。

步骤S6具体包括：

S601、构建训练数据集；其中，所述训练数据集为多个跟踪视频序列，每个跟踪视频序列的每一帧有跟踪目标真实边界框的标注，训练数据集取材自世界著名顶级视觉目标跟踪竞赛Visual Object Tracking(VOT)的三个公开视频目标追踪数据集VOT2013、VOT2014、VOT2015。

S602、线下训练空间流网络：将当前帧跟踪目标图像批量的T个正样本或F个负样本作为空间流网络的输入，对空间流网络进行线下训练，具体地，T＝32，F＝96。

样本的产具体包括：在同一个跟踪视频序列中随机选取其中R帧，每一帧分别构造T个正样本和F个负样本，其中正样本要求与跟踪目标的重叠度(IOU)大于第一阈值threshold₁，负样本要求与跟踪目标的IOU小于第二阈值threshold₂，具体地，R＝8，第一阈值threshold₁＝0.7，第二阈值threshold₂＝0.3，IOU的计算公式是：

并且优先采用难负样本挖掘算法(OHEM)选取出的与背景相似性得分较大的负样本。

S603、线下训练时序流网络：采用步骤S201的方式，将N个图像一起作为时序流三维卷积神经网络的输入，对时序流网络进行线下训练；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域，在当前帧截取出的图像。

S604、将空间流二维卷积神经网络和时序流三维卷积神经网络提取出的训练数据经过加性融合后，输入到全连接子网络，通过全连接子网络计算，得到正样本与目标的相似性得分以及负样本与背景的相似性得分。

S605、根据正样本与目标的相似性得分以及负样本与背景的相似性得分，分别计算正样本的损失以及负样本的损失。

为了计算正样本的损失以及负样本的损失，定义损失函数，如下式：

其中，x_i是编号为i样本的得分，x_j是编号为j样本的得分,j取值遍历1～T或者1～F,i相应取1～T或者1～F的一个。

通过上式得到正样本的损失和以及负样本的损失和，对两者求和，得到总误差。

S606、将总误差反向传播到空间流二维卷积神经网络和时序流三维卷积神经网络，使用随机梯度下降法更新二维卷积神经网络和时序流三维卷积神经网络的权值，训练直至收敛。

S7、在对目标跟踪过程中，对全连接子网络进行线上精调。

步骤S7具体包括：

S701、收集目标所在邻域的正样本和负样本；

S702、利用收集到的正样本和负样本，采用步骤S604的方式，定期每50帧输入全连接子网络，通过全连接子网络计算，得到正样本与目标的相似性得分以及负样本与背景的相似性得分。

S703、根据正样本与目标的相似性得分以及负样本与背景的相似性得分，分别计算正样本的损失以及负样本的损失，得到正样本的损失和以及负样本的损失和，从而得到总误差，该步骤的计算同上述步骤S605。

S704、将总误差反向传播到全连接子网络，使用随机梯度下降法精调全连接子网络的权值，直至收敛。

图5a～图5f为基于双流卷积神经网络的目标跟踪方法在Object TrackingBenchmark(OTB100)数据集Soccer序列的部分跟踪测试结果图，该测试是以某个足球员的脸部为目标进行跟踪，图6a～图6f为基于双流卷积神经网络的目标跟踪方法在ObjectTracking Benchmark(OTB100)数据集Human3序列的部分跟踪测试结果图，该测试是以某个路人为目标进行跟踪，其中白色框为真实值，黑色框为预测值，左上角显示的数字是帧序号，可以看到目标定位的准确度高，达到了很好的跟踪效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

实施例2：

如图7所示，本实施例提供了一种基于双流卷积神经网络的目标跟踪系统，该系统包括第一构建模块701、第二构建模块702、加性融合模块703、第三构建模块704、边界框回归模块705、线下训练模块706和线上精调模块707，各个模块的具体功能如下：

所述第一构建模块701，用于构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息，该第一构建模块701如图8所示，具体包括：

第一输入单元7011，用于基于当前帧的前一帧中目标邻域，在当前帧进行高斯采样S个图像块，作为空间流二维卷积神经网络的输入；其中，所述空间流二维卷积神经网络包括三个卷积层和两个池化层。

第一输出单元7012，用于改变三个卷积层对S个图像块四周补零的数量，输出图像特征。

所述第二构建模块702，用于构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息，该第二构建模块702如图9所示，具体包括：

第二输入单元7021，用于将N个图像一起作为时序流三维卷积神经网络的输入；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域，在当前帧截取出的图像，所述时序流三维卷积神经网络包括八个卷积层和五个池化层。

第二输出单元7022，用于改变八个卷积层对N个图像四周补零的数量，输出图像特征。

所述加性融合模块703，用于加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息，具体包括：设在空间流二维卷积神经网络输出的图像特征的通道数是channel₁，时序流三维卷积神经网络输出的特征通道数是channel₂，将空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量在特征通道方向上进行拼接，拼接后融合特征向量为(batch,channel₁+channel₂,width,height)。

所述第三构建模块704，用于根据融合的特征信息，构建全连接子网络，获取符合要求的图像块，该第三构建模块704如图10所示，具体包括：

连接单元7041，用于顺序级联第一全连接层和第二全连接层，在第二全连接层后并列展开b个全连接层分支，每个全连接层分支作为一个第三全连接层。

第一计算单元7042，将融合的特征信息作为全连接子网络的输入，通过全连接子网络计算，输出一个二维向量(score₁,score₂)；其中，score₁表示输入空间流二维卷积神经网络相应图像块与目标的相似性得分，score₂表示输入空间流二维卷积神经网络相应图像块与背景的相似性得分。

获取单元7043，用于在空间流二维卷积神经网络的图像块中，选取与目标的相似性得分最高的图像块，作为符合要求的图像块。

所述边界框回归模块705，用于对符合要求的图像块的边界框进行边界框回归，得到当前帧目标的预测位置和大小；

所述线下训练模块706，用于在对目标跟踪前，对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练，该线下训练模块706如图11所示，具体包括：

第一线下训练单元7061，用于将当前帧跟踪目标图像批量的T个正样本或F个负样本作为空间流二维卷积神经网络的输入，对空间流二维卷积神经网络进行线下训练；

第二线下训练单元7062，用于将N个图像一起作为时序流三维卷积神经网络的输入，对时序流三维卷积神经网络进行线下训练；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域，在当前帧截取出的图像；

第二计算单元7063，用于将空间流二维卷积神经网络和时序流三维卷积神经网络提取出的训练数据经过加性融合后，输入到全连接子网络，得到正样本与目标的相似性得分以及负样本与背景的相似性得分；

第三计算单元7064，用于根据正样本与目标的相似性得分以及负样本与背景的相似性得分，分别计算正样本的损失以及负样本的损失，得到正样本的损失和以及负样本的损失和，从而得到总误差；

权值更新单元7065，用于将总误差反向传播到空间流二维卷积神经网络和时序流三维卷积神经网络，使用随机梯度下降法更新二维卷积神经网络和时序流三维卷积神经网络的权值，训练直至收敛。

所述线上精调模块707，用于在对目标跟踪过程中，对全连接子网络进行线上精调，该线上精调模块707如图12所示，具体包括。

样本收集单元7071，用于收集目标所在邻域的正样本和负样本。

第四计算单元7072，用于利用收集到的正样本和负样本，定期输入全连接子网络，得到正样本与目标的相似性得分以及负样本与背景的相似性得分。

第五计算单元7073，用于根据正样本与目标的相似性得分以及负样本与背景的相似性得分，分别计算正样本的损失以及负样本的损失，得到正样本的损失和以及负样本的损失和，从而得到总误差。

权值精调单元7074，用于将总误差反向传播到全连接子网络，使用随机梯度下降法精调全连接子网络的权值，直至收敛。

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

可以理解，上述实施例的系统中所使用的术语“第一”、“第二”等可用于描述各种模块，但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。举例来说，在不脱离本发明的范围的情况下，可以将第一构建模块称为第二构建模块，且类似地，可将第二构建模块称为第一构建模块，第一构建模块和第二构建模块两者都是构建模块，但其不是同一构建模块。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以是台式计算机，其包括通过系统总线连接的处理器、存储器、显示器和网络接口，该计算机设备的处理器用于提供计算和控制能力，该计算机设备的存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统、计算机程序和数据库，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器执行存储器存储的计算机程序时，实现上述实施例1的目标跟踪方法，如下：

在对目标跟踪过程中，对全连接子网络进行线上精调。

本实施例中所述的计算机设备还可以是笔记本计算机、服务器或其他具有计算功能的终端设备。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的目标跟踪方法，如下：

在对目标跟踪过程中，对全连接子网络进行线上精调。

本实施例中所述的存储介质可以是ROM、RAM、磁盘、光盘等介质。

综上所述，本发明引入了三维神经网络，首次将二维和三维卷积神经网络结合应用于目标跟踪任务，充分利用了视频的时序性，提取目标在视频帧间的运动变化信息，提高目标定位的精准性，达到了很好的跟踪效果。

以上所述，仅为本发明专利优选的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.基于双流卷积神经网络的目标跟踪方法，其特征在于：所述方法包括：

在对目标跟踪过程中，对全连接子网络进行线上精调；

所述在对目标跟踪前，对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练，具体包括：

2.根据权利要求1所述的目标跟踪方法，其特征在于：所述构建空间流二维卷积神经网络，提取当前帧中图像块的特征信息，具体包括：

3.根据权利要求1所述的目标跟踪方法，其特征在于：所述构建时序流三维卷积神经网络，提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息，具体包括：

改变八个卷积层对N个图像四周补零的数量，输出图像特征。

4.根据权利要求1所述的目标跟踪方法，其特征在于：所述空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量形式均为(batch,channel,width,height)；其中，batch表示网络每次处理图像的批次，channel表示图像特征的通道数，width表示图像特征的宽，height表示图像特征的高，并且空间流二维卷积神经网络和时序流三维卷积神经网络输出的batch、width、height数值均相同；

5.根据权利要求1所述的目标跟踪方法，其特征在于：所述全连接子网络包括第一全连接层、第二全连接层和第三全连接层；

6.根据权利要求1所述的目标跟踪方法，其特征在于：所述在对目标跟踪过程中，对全连接子网络进行线上精调，具体包括：

收集目标所在邻域的正样本和负样本；

7.基于双流卷积神经网络的目标跟踪系统，其特征在于：所述系统包括：

线上精调模块，用于在对目标跟踪过程中，对全连接子网络进行线上精调；

所述线下训练模块，具体包括：

第一线下训练单元，用于将当前帧跟踪目标图像批量的T个正样本或F个负样本作为空间流二维卷积神经网络的输入，对空间流二维卷积神经网络进行线下训练；

第二线下训练单元，用于将N个图像一起作为时序流三维卷积神经网络的输入，对时序流三维卷积神经网络进行线下训练；其中，N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小，剩下的一个图像是基于当前帧的前一帧中目标所在区域，取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域，在当前帧截取出的图像；

第二计算单元，用于将空间流二维卷积神经网络和时序流三维卷积神经网络提取出的训练数据经过加性融合后，输入到全连接子网络，得到正样本与目标的相似性得分以及负样本与背景的相似性得分；

第三计算单元，用于根据正样本与目标的相似性得分以及负样本与背景的相似性得分，分别计算正样本的损失以及负样本的损失，得到正样本的损失和以及负样本的损失和，从而得到总误差；

权值更新单元，用于将总误差反向传播到空间流二维卷积神经网络和时序流三维卷积神经网络，使用随机梯度下降法更新二维卷积神经网络和时序流三维卷积神经网络的权值，训练直至收敛。

8.计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现权利要求1-6任一项所述的目标跟踪方法。

9.存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-6任一项所述的目标跟踪方法。