CN106228575B

CN106228575B - 融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统

Info

Publication number: CN106228575B
Application number: CN201610579386.5A
Authority: CN
Inventors: 林露樾; 刘波; 肖燕珊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2019-05-10
Anticipated expiration: 2036-07-21
Also published as: CN106228575A

Abstract

本发明公开了一种融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统，包括：通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；接收用户输入的带有跟踪目标的视频流，通过初步模型对视频流中的跟踪目标进行跟踪，并利用微调技术对初步模型的参数进行微调，得到卷积神经网络的最终模型；接收用户输入的带有跟踪目标的监控视频流，通过替换后的TLD算法自动对监控视频流中的跟踪目标进行识别及跟踪，并通过贝叶斯滤波器更新目标模型集合和背景集合；可见，通过对卷积神经网络进行训练生成最终模型，能自动从监控视频流中识别跟踪目标，利用贝叶斯滤波器实现样本的更新，能实现对目标的长时间跟踪，增加用户操作体验。

Description

融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统

技术领域

本发明涉及跟踪技术领域，更具体地说，涉及一种融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统。

背景技术

现有的关于TLD(Tracking-Learning-Detection，目标跟踪算法)的研究，大部分都是基于人工手动标识待跟踪目标，而在实际生产生活实时跟踪系统中，我们会发现这样的操作方式并不实用。例如在交通、以及工厂自动化生产线中，目标出现在监控视频流中的时间是不确定的，若需要用户手工标记待跟踪目标，则每当程序初始化之后，用户需要手动标记待跟踪目标。此用户体验效果较差，因为在手动标记待跟踪目标这个过程中，待跟踪目标可能从监控视频流中消失，或者是发生位移，甚至因为位移而发生遮挡，等等上述可能情况会导致标记操作的难度较大，用户操作体验差。此外，还有特征的选择问题，经过实际测试，我们的跟踪结果很大程度取决于我们选用的特征。对于不同跟踪对象，若要取得很好的跟踪效果，应该使用不同的特征对待检测图像块进行描述，进而使得检测器的能较好地工作，其中涉及到特征选择的问题，所以，从技术实现上而言，这对于编程实现的难度比较大。

因此，如何标识待跟踪目标，增加用户操作体验是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统，以实现自动标识待跟踪目标，增加用户操作体验。

为实现上述目的，本发明实施例提供了如下技术方案：

一种融合卷积神经网络及贝叶斯滤波器的跟踪方法，包括：

通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；

接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型；将所述最终模型与TLD算法中的检测器融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器；

接收用户输入的带有所述跟踪目标的监控视频流，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪，并通过贝叶斯滤波器更新目标模型集合和背景集合。

其中，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪之后，还包括：

在显示屏上显示跟踪结果。

其中，所述通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型，包括：

利用CIFAR-10训练集，通过前向传播算法和反向传播算法对卷积神经网络进行预训练得到卷积神经网络的初步模型。

其中，接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的所述跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型，包括：

接收用户输入的带有跟踪目标的视频流；

通过初始矩形框表示所述跟踪目标，并利用所述初步模型对所述跟踪目标进行跟踪；

跟踪出所述视频流的每一帧图像中的所述跟踪目标的位置后，获取每一帧图像中的目标模型和背景，并更新至目标模型集合和背景集合；

根据更新后的目标模型集合和背景集合，利用梯度下降法对所述初步模型的参数进行微调，得到卷积神经网络的最终模型。

其中，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别，包括：

从所述监控视频流获取窗口网格；

通过前向传播算法计算每个窗口网格的输出值，并将最大的输出值所对应的窗口图像，作为所述跟踪目标。

其中，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行跟踪，包括：

计算所述跟踪目标的窗口图像的初始方差；

通过检测器判断获取的第一图像块的方差与所述初始方差的差值是否大于第一预定阈值；若否，则将所述第一图像块的卷积神经网络输出值赋值为零，将权重进行更新；若是，则将所述第一图像块输入卷积神经网络最终模型，输出第一数值，并在所述第一数值大于第二预定阈值时，将所述第一图像块的权重初始化为上一次同一位置图像块的第一权重，并将所述第一图像块、所述第一数值和所述第一权重，存入待确定集合；

通过跟踪器获取所述跟踪目标的目标框，并从所述目标框中选取网格点；利用光流法计算所述网格点在下一帧图像中的位置，根据所述网格点中每个点的移动位移和所有点的位移中值，确定每个点的位移残差；将位移残差大于预定移残差值的点作为成功点，根据所有成功点的相对运动估计出下一帧图像中目标框的大小，并根据所有成功的点的坐标的平均值，计算所述下一帧图像中目标框的中心位置，得到跟踪器输出结果，将所述跟踪器输出结果保存为对象，并将所述对象中的第二图像块输入卷积神经网络最终模型，输出第二数值，将所述第二图像块的权重初始化为上一次同一位置图像块的第二权重，并将所述第二图像块、所述第二数值和所述第二权重存入所述待确定集合；

通过整合器根据所述待确定集合，计算每个图像块的权重，并将权重大于预设权重阈值的第三图像块作为所述跟踪目标的所在位置。

其中，计算所述跟踪目标的窗口图像的初始方差之前，还包括：

初始化目标模型集合和背景集合，并获取所述监控视频流第一帧图像中的目标模型和背景，更新至初始化后的最终目标模型集合和最终背景集合；根据所述最终目标模型集合和最终背景集合，利用梯度下降法对所述卷积神经网络最终模型的参数进行微调，并将调整后的卷积神经网络最终模型与TLD算法中的检测器融合。

其中，将权重大于权重阈值的图像块作为所述跟踪目标的所在位置之后，还包括：

计算所述第三图像块的后验似然性；

若所述后验似然性小于第一后验似然性值，则单独运行所述检测器，并通过所述整合器确定所述跟踪目标的所在位置；

若所述后验似然性大于第二后验似然性值，则不更新目标模型集合和背景集合；

若所述后验似然性不小于所述第一后验似然性值，且不大于所述第二后验似然性值，则获取所述第三图像块的目标模型和背景，更新至所述最终目标模型集合和所述最终背景集合，并利用梯度下降法对卷积神经网络最终模型的参数进行微调。

其中，计算所述第三图像块的后验似然性之后，还包括：

根据所述后验似然性确定所述第三图像块的方差；若所述方差大于预定方差阈值，则将所述待确定集合中所有图像块的权重进行更新。

一种融合卷积神经网络及贝叶斯滤波器的跟踪系统，包括：

预训练模块，用于通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；

微调模块，接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的所述跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型；

分类模块，用于将所述最终模型与TLD算法中的检测器融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器；

跟踪模块，用于接收用户输入的带有所述跟踪目标的监控视频流，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪；

更新模块，用于通过贝叶斯滤波器更新目标模型集合和背景集合。

通过以上方案可知，本发明实施例提供的一种融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统，包括：通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型；将所述最终模型与TLD算法中的检测器融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器；接收用户输入的带有所述跟踪目标的监控视频流，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪，并通过贝叶斯滤波器更新目标模型集合和背景集合；

可见，在本实施例中，通过线下对卷积神经网络的预训练，并输入一段包含待跟踪目标的视频，在视频流的第一帧中标定待跟踪的目标后，通过线下训练程序对视频流中的跟踪目标进行识别，并在此过程中不断训练卷积神经网络模型CNN₁，这样便完成了对卷积神经网络的预训练，实现了对整个TLD算法的初始化，这样用户在线跟踪时，只需将实时的监控视频流输入到利用本方法实现的程序中，程序就会对视频流中跟踪待跟踪目标，并在显示屏上显示目标的位置，使用一个方框将其跟踪结果显示出来，并且利用贝叶斯滤波器实现样本的更新，能实现对目标的长时间跟踪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种融合卷积神经网络及贝叶斯滤波器的跟踪方法流程示意图；

图2为本发明实施例公开的融合卷积神经网络及贝叶斯滤波器的跟踪方法框图；

图3为本发明实施例公开的一种融合卷积神经网络及贝叶斯滤波器的跟踪系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统，以实现自动标识待跟踪目标，增加用户操作体验。

参见图1，本发明实施例提供的一种融合卷积神经网络及贝叶斯滤波器的跟踪方法，包括：

S101、通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；

具体的，本实施例中利用CIFAR-10训练集，通过前向传播算法和反向传播算法对卷积神经网络进行预训练得到卷积神经网络的初步模型CNN₁的预训练操作具体包括：

使用CIFAR-10训练集对卷积神经网络进行训练，在这个过程中，本实施例中使用的算法分为前向传播以及反向传播；在前向传播的阶段，我们使用前向传播操作。在预训练阶段反向传播阶段，利用CIFAR10数据集，对于其中的权值矩阵W使用梯度下降法等方法对网络进行预训练，从而实现对卷积神经网络的预训练，得到卷积神经网络的初步模型CNN₁。

具体的，本实施例中的前向传播算法的具体前向传播操作包括：

1、首先使用6×6的卷积模板对输入的图像进行卷积，其中K表示6×6的卷积模板，我们将卷积的结果保存在矩阵S中：

进而对卷积的结果S的每一个元素使用矫正线性函数对卷积的结果进行处理，矫正线性函数如下，其输入量为卷积得到后的矩阵S的每一个元素：

R₁(i,j)＝relu(S(i,j))＝max(0,S(i,j))；

2、使用最大池化的方法，对矫正后的结果进行池化，使用局部2×2区域进行池化，其中输入量x(i,j)表示输入R中某一个相邻的2×2区域，结果保存在矩阵P中：

P₁(i,j)＝ρ(x(i,j))＝max(0,x(i,j))

这样子的一个三层结构构成一个卷积神经网络的一个阶段(stage)，对于本实施例中所使用的卷积神经网络，使用一共有两个阶段的结构，进而对上文中的矩阵P进行新一轮的卷积，矫正，池化之后，得到了对应的第二阶段的输出P₂之后对其应用全连接层，对得到的P₂乘以权值矩阵W，并运用sigmoid函数作为激活函数，我们可以得到该图像的标签：

S102、接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型；将所述最终模型与TLD算法中的检测器融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器；

接收用户输入的带有跟踪目标的视频流；

具体的，得到初步模型CNN₁之后，用户输入一个关于待跟踪目标的视频文件，并在视频的第一帧中标定了待跟踪的物体，并且使用初始矩形框表示待跟踪目标，之后我们的程序开始对目标进行跟踪。在这个过程中我们使用参数微调操作，在对用户输入的关于待跟踪目标的视频文件的每一帧图像，跟踪出物体的位置，之后用获取目标模型操作更新目标模型集合以及背景集合，之后对新的集合采用梯度下降操作，进而实现在一帧视频中的参数微调。对整个视频文件中的每一帧图像实施上述操作，从而实现对卷积神经网络的微调，得到卷积神经网络的最终模型CNN₂。

具体的，本实施例中的获取目标模型操作具体包括：

在距离初始矩形框最近的扫描网格中，选择10个矩形框，对于每一个矩形框，通过仿射变换(±1％的偏移，±1％比例缩放，±10°的平面旋转)生成20个仿射的不同矩形框，并附加以方差为5的标准高斯噪声，这样就得到了200个正样本，并将其更新到目标模型S+的集合之中。之后对视频中的其他位置随机获取相同数目，相同规格的矩形框作为负样本，并更新到背景集合S-中。目标模型中的正样本表示该矩形框内图像块为目标模型的外观，负样本的矩形框内的图像块为背景。

具体的，本实施例中的梯度下降操作具体包括：

在这个过程中，输出量目标模型集合以及背景集合，并且在本实施例中定义目标模型集合中的样本的标签均为1即y＝1，而背景集合中的样本的标签均为0，即y＝0，并且定义卷积神经网络最终的输出量为我们定义损失函数：

在本实施例中微调的目的是最小化卷积神经网络的输出值与样本标签之间的平方误差，公式化上述优化问题：

我们使用带动量因子的随机梯度下降法，解决上述优化问题，在上述的两个集合中的某一个元素对于其中的第i层而言：

其中使用增广权值矩阵表示上述的权值矩阵以及参数，我们按照下式更新权值矩阵：

其中可以表示为：

表示为上一层的输出以及上一层误差的偏导之间的Hadamard乘积。对于激活函数为sigmoid函数的层而言，我们将其反向传播误差表示为：

联立上述式子，并实施上述操作，就可以实现一次对卷积神经网络的微调。

具体的，在本实施例中获得卷积神经网络的最终模型CNN₂之后，使用最终模型CNN₂代替原始TLD算法中检测器中级联分类器的随机数森林分类器以及最近邻分类器，进而实现与检测器的融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器。

S103、接收用户输入的带有所述跟踪目标的监控视频流，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪，并通过贝叶斯滤波器更新目标模型集合和背景集合。

在显示屏上显示跟踪结果。

从所述监控视频流获取窗口网格；

具体的，在本实施例中得到卷积神经网络的最终模型CNN₂后，通过对视频流中的待跟踪目标进行自动检测操作，得到跟踪目标，检测操作具体包括：使用获取扫描窗口网格操作，得到一系列窗口网格。并且对每个一个窗口，使用前向传播操作，识别出目标的位置，并将目标可能出现的位置，将网络输出最大值的窗口的图像块作为待跟踪目标，并将该窗口的边界以及位置在当前帧中画出边界框。

具体的，本实施例中获取扫描窗口网格操作具体包括：

对于视频流中的每一帧，使用扫描窗口对扫描窗口网格使用如下方法获取：设定以下参数，缩放比例的步长系数为1.2，水平步长系数为宽度的10％，垂直步长系数为高度的10％，并且规定最小的矩形框大小为20个像素，这样就得到了能够包含所有可能的大小和变换的初始矩形框。

S11、计算所述跟踪目标的窗口图像的初始方差；

具体的，在本实施例中获得视频流中的待跟踪目标的初始图像块之后，初始化正负样本集合S⁺和S^-为：

执行获取目标模型操作得到在视频流中第一帧的目标模型集合以及背景集合并进行如下操作：

并再一次微调卷积神经网络CNN₂的参数，使用梯度下降操作对卷积神经网络CNN₂进行微调，并进行一次卷积神经网络与检测器的融合操作，实现对改进后的TLD算法的初始化，并计算出待跟踪目标的初始图像块的方差。

S12、通过检测器判断获取的第一图像块的方差与所述初始方差的差值是否大于第一预定阈值；若否，则将所述第一图像块的卷积神经网络输出值赋值为零，将权重进行更新；若是，则将所述第一图像块输入卷积神经网络最终模型，输出第一数值，并在所述第一数值大于第二预定阈值时，将所述第一图像块的权重初始化为上一次同一位置图像块的第一权重，并将所述第一图像块、所述第一数值和所述第一权重，存入待确定集合；

具体的，在本实施例中，我们对每一个经过获取扫描窗口网格操作而获得的每一个网格，我们为其定义一个类，该类中至少包含了如下属性：

网格的位置信息：c＝[x_up,y_left,x_bottom,y_right]

网格内的图像块：patch

网格内的图像块输入到卷积神经网络CNN₂得到的对应的输出y

上一帧中，相同位置上的粒子的权重：w

对于每一个图像块类具体化后的对象——图像块p，就需要为其初始化上述的c以及patch，并且令y＝0，粒子权重w为上一帧中，相同位置上的粒子的权重。

具体的，对于一个图像块p，首先将其输入到方差滤波器，若图像块通过了方差滤波器，则将图像输入到卷积神经网络中，经过卷积神经网络运算之后，输出一个实数第一数值y，表示这个图像块属于目标区域的程度，此后将该第一数值y赋值给该图像块属性中的y。在此设定一个阈值y_th，若y＞y_th，则认为该图像块是可接受的，可能包含了目标，我们初始化其权重为上一次同一位置输出的第一权重w，第一数值y为当前卷积神经网络的输出值，并将该图像块以及其对应的y，c，w放入到当前帧的待确定集合中S_t，否则把权值做如下更新：

w:＝wε，其中ε为一个很小待确定的实数，并且y和c不做更新以应用于下一次操作。

对上述的每一个扫描窗口都进行同样的操作，则可以得到一系列可接受的图像块，我们将这一系列可接受的图像块放入到待确定集合S_t中。

具体的，本实施例中的方差滤波器具体实现流程如下：

如果图像块和目标图像块之间的方差小于50％，那么就拒绝这些图像块。对一个图像块p，方差计算公式为

var＝E(patch²)-E²(patch)

其中E(patch)为图像块的期望。如果计算的结果var大于阈值，则认为该图像块p可能包含了待跟踪目标，那么就将这个图像块送入到下一步操作中，否则拒绝这一图像块，并将该图像块对应的y赋值为0，并且权重更新为：

w:＝wε，其中ε为一个很小待确定的实数；

这一步骤就拒绝了超过50％的不包含目标的背景。同时，方差阈值的选择也会约束目标所能够发生的最大的形变，即如果目标发生的形变过大，图像块会有可能被拒绝。不过，阈值大小是可以自行设定的，可以根据实际问题和应用来调整大小。在我们的实验中，我们保持阈值是恒定不变的。

S13、通过跟踪器获取所述跟踪目标的目标框，并从所述目标框中选取网格点；利用光流法计算所述网格点在下一帧图像中的位置，根据所述网格点中每个点的移动位移和所有点的位移中值，确定每个点的位移残差；将位移残差大于预定移残差值的点作为成功点，根据所有成功点的相对运动估计出下一帧图像中目标框的大小，并根据所有成功的点的坐标的平均值，计算所述下一帧图像中目标框的中心位置，得到跟踪器输出结果，将所述跟踪器输出结果保存为对象，并将所述对象中的第二图像块输入卷积神经网络最终模型，输出第二数值，将所述第二图像块的权重初始化为上一次同一位置图像块的第二权重，并将所述第二图像块、所述第二数值和所述第二权重存入所述待确定集合；

具体的，本实施例中TLD算法中的跟踪器基于中值光流法(Median-Flow)。假设整个跟踪算法得到了视频流中目标的位置，并且输出了目标框。那么，我们可以在目标框中的图像块中平均取得一个10×10大小的网格点，利用光流法计算出此100个点在下一帧图像中的位置，在此过程中我们利用金字塔光流法(PLK)来估计他们的移动，即这10×10个点在下一帧图像中的位置，此后，在后向流光法再利用后向金字塔光流法(PLK)来估计他们在当前中的位置。在本实施例中采用两层金字塔光流，估计跟踪10×10大小图像块里的点。经过前后跟踪之后得到的点与上文中的初始化的点之间存在一个相对应的位置上的位移，我们用d_i表示其中某一个点的移动位移，d_m表示所有点位移中值，则某一个点的位移残差可定义为|d_i-d_m|。如果残差|d_i-d_m|大于10个像素，那么就认为该点跟踪失败。之后我们根据跟踪成功的点之间的相对运动估计出目标框的大小，根据所有成功的点的坐标的平均值，计算出目标框的中心位置，进而得到跟踪器的输出结果。

并将跟踪到的结果保存为图像块类的一个对象p，并对p中的patch运用卷积神经网络，得到该图像块对应的第二数值y，权重为上一次跟踪器输出图像块的第二权重w，并将该图像块p以及对应的y，位置信息放入到待确定集合中S_t。

S14、通过整合器根据所述待确定集合，计算每个图像块的权重，并将权重大于预设权重阈值的第三图像块作为所述跟踪目标的所在位置。

具体的，本实施例中的整合器是对跟踪器以及检测器的输出结果S_t进行综合，得到最终的跟踪目标框，在这个过程中，我们对集合中的任意一个元素p_i，我们能得到该元素对应的图像块p_i，该图像块为贝叶斯滤波中的状态模型p_i，以及对应的卷积神经网络y_i以及相对应的，我们计算其对应的先验似然性，并将其视为观测模型：

P(y_i|p_i)＝exp(y_i)，其中y_i表示对于当前的图像块p_i是目标所在的位置的预测，也就是观测模型。而其后验似然性可以表示为：

并且将该图像块的权值w_i做如上述式子的迭代，以进行下一帧的计算。对于得到的一系后验似然性，我们取出其中最大权重的图像块，作为对于当前帧整个算法的跟踪的输出。

其中，计算所述第三图像块的后验似然性之后，还包括：

具体的，在本实施例中对上述后验似然性求解其方差，若其方差大于某一阈值。则对S_t中的所有图像块的图像的权重做如下处理：

其中N表示S_t集合中元素的个数。

计算所述第三图像块的后验似然性；

具体的，对于上述后验似然性若其值小于某一设定的阈值T₁，则认为当前不存在待跟踪目标。表示目标从视频流消失。则让检测器单独运行，监测目标位置。

若若对于上述中的后验似然性若其值处于区间[T₁,T₂]，则输出目标位置，并认为目标发生了新的变化，则运行学习器。

若若对于上述中的后验似然性其值大于于某一设定的阈值T₂，则认为当前的输出结果有很高的置信度，当前输出结果和实际的位置具有很高的相似度，无需做模型更新。

具体的，若对于上述中的后验似然性若其值处于区间[T₁,T₂]则利用数据集合更新当前的卷积神经网络CNN2，具体操作如下：

设在此之前得到的正负样本集合S⁺和S^-，在当前帧中对于得到的算法输出，我们执行上述中的获取目标模型操作，得到对应的目标模型集合以及背景集合并进行如下操作：

利用上述的正负样本集合S⁺和S^-，执行利用上述中训练集，的再一次微调卷积神经网络CNN2的参数，之后我们执行梯度下降操作对网络进行微调。参见图2，为本实施例提供的融合卷积神经网络及贝叶斯滤波器的跟踪方法框图。

下面对本发明实施例提供的跟踪系统进行介绍，下文描述的跟踪系统与上文描述的跟踪方法可以相互参照。

参见图3，本发明实施例提供的一种融合卷积神经网络及贝叶斯滤波器的跟踪系统，包括：

预训练模块100，用于通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；

微调模块200，接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的所述跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型；

分类模块300，用于将所述最终模型与TLD算法中的检测器融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器；

跟踪模块400，用于接收用户输入的带有所述跟踪目标的监控视频流，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪；

更新模块500，用于通过贝叶斯滤波器更新目标模型集合和背景集合。

本发明实施例提供的一种融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统，包括：通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型；接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型；将所述最终模型与TLD算法中的检测器融合，将贝叶斯滤波器替换TLD算法中的学习器和整合器；接收用户输入的带有所述跟踪目标的监控视频流，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪，并通过贝叶斯滤波器更新目标模型集合和背景集合；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种融合卷积神经网络及贝叶斯滤波器的跟踪方法，其特征在于，包括：

2.根据权利要求1所述的跟踪方法，其特征在于，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别及跟踪之后，还包括：

在显示屏上显示跟踪结果。

3.根据权利要求2所述的跟踪方法，其特征在于，所述通过预定的训练集，对卷积神经网络进行预训练得到卷积神经网络的初步模型，包括：

4.根据权利要求3所述的跟踪方法，其特征在于，接收用户输入的带有跟踪目标的视频流，通过所述初步模型对所述视频流中的所述跟踪目标进行跟踪，并利用微调技术对所述初步模型的参数进行微调，得到卷积神经网络的最终模型，包括：

接收用户输入的带有跟踪目标的视频流；

5.根据权利要求4所述的跟踪方法，其特征在于，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行识别，包括：

从所述监控视频流获取每一帧的窗口网格；

通过前向传播算法计算每个窗口网格的输出值，并将最大的输出值所对应的窗口网格的窗口图像，作为所述跟踪目标。

6.根据权利要求5所述的跟踪方法，其特征在于，通过替换后的TLD算法自动对所述监控视频流中的所述跟踪目标进行跟踪，包括：

计算所述跟踪目标的窗口图像的初始方差；

通过检测器判断获取的第一图像块的方差与所述初始方差的差值是否大于第一预定阈值；若否，则将所述第一图像块的卷积神经网络输出值赋值为零，将权重进行更新；若是，则将所述第一图像块输入卷积神经网络最终模型，输出第一数值，并在所述第一数值大于第二预定阈值时，将所述第一图像块的权重初始化为上一帧同一位置图像块的第一权重，并将所述第一图像块、所述第一数值和所述第一权重，存入待确定集合；

通过跟踪器获取所述跟踪目标的目标框，并从所述目标框中选取网格点；利用光流法计算所述网格点在下一帧图像中的位置，根据所述网格点中每个点的移动位移和所有点的位移中值，确定每个点的位移残差；将位移残差大于预定移残差值的点作为成功点，根据所有成功点的相对运动估计出下一帧图像中目标框的大小，并根据所有成功的点的坐标的平均值，计算所述下一帧图像中目标框的中心位置，得到跟踪器输出结果，将所述跟踪器输出结果保存为对象，并将所述对象中的第二图像块输入卷积神经网络最终模型，输出第二数值，将所述第二图像块的权重初始化为上一帧同一位置图像块的第二权重，并将所述第二图像块、所述第二数值和所述第二权重存入所述待确定集合；

7.根据权利要求6所述的跟踪方法，其特征在于，计算所述跟踪目标的窗口图像的初始方差之前，还包括：

8.根据权利要求7所述的跟踪方法，其特征在于，将权重大于权重阈值的图像块作为所述跟踪目标的所在位置之后，还包括：

计算所述第三图像块的后验似然性；

9.根据权利要求8所述的跟踪方法，其特征在于，计算所述第三图像块的后验似然性之后，还包括：

10.一种融合卷积神经网络及贝叶斯滤波器的跟踪系统，其特征在于，包括：