CN111105436A

CN111105436A - 目标跟踪方法、计算机设备及存储介质

Info

Publication number: CN111105436A
Application number: CN201811254898.XA
Authority: CN
Inventors: 刘玉鹏; 吴旻烨
Original assignee: Yaoke Intelligent Technology Shanghai Co ltd
Current assignee: Yaoke Intelligent Technology Shanghai Co ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2020-05-05
Anticipated expiration: 2038-10-26
Also published as: CN111105436B

Abstract

本发明的目标跟踪方法、计算机设备及存储介质，采用包含多个相机的相机系统进行目标跟踪，通过获取由相机系统中多个相机分别采集的每个上一帧图像，并以每个上一帧图像中的目标物体所在图像部分作为参考图像；获取由相机系统中每个相机分别采集的每个当前帧图像，并在每个当前帧图像中分别获取与对应的参考图像初步相似的若干个备选图像部分以构成每个当前帧图像的备选图像部分集合；对每个备选图像部分集合中各备选图像部分进行目标特征提取得到对应每个当前帧图像的特征图集合；对降维后的每个特征图集合使用对应滤波器进行处理，以得到每个当前帧图像的相似度得分图，从中获得与对应的参考图像间相似度最高的图像部分为追踪结果，准确率高。

Description

目标跟踪方法、计算机设备及存储介质

技术领域

本发明涉及视觉识别技术领域，尤其涉及目标跟踪方法、计算机设备及存储介质。

背景技术

近些年来，视频监控一直是社会研究的热点，利用计算机视觉技术对监控视频信息进行处理、分析已经成为安防领域的一个重要发展方向。目标跟踪是指在一段连续的视频序列中，建立所要跟踪物体的位置关系，得到目标完整的运动轨迹。根据使用的相机个数，目标跟踪可以分为单相机跟踪和多相机跟踪。

单相机目标跟踪时，我们对当前帧中对于前一帧目标位置预测的区域周围进行搜索，然后找到与前一帧中目标最相似的区域作为该帧中目标所在位置。但是由于单相机的视野范围的局限性，跟踪目标易发生遮挡现象，那么就影响了该帧的跟踪结果，容易发生跟丢的情况。而且对于长时的跟踪监控，目标的运动轨迹一般会跨相机，这也时单相机目标跟踪无法解决的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供目标跟踪方法、计算机设备及存储介质，通过相机系统的多相机进行目标跟踪的识别，解决现有技术的问题。

为实现上述目标及其他相关目标，本发明提供一种目标跟踪方法，包括：获取由相机系统中多个相机分别采集的每个上一帧图像，并以每个所述上一帧图像中的目标物体所在图像部分作为参考图像；获取由相机系统中每个相机分别采集的每个当前帧图像，并在每个所述当前帧图像中分别获取与对应的所述参考图像初步相似的若干个备选图像部分以构成每个当前帧图像的备选图像部分集合；对每个备选图像部分集合中各备选图像部分进行目标特征提取得到对应每个当前帧图像的特征图集合；对每个特征图集合中的每个所述特征图进行降维；对降维后的每个特征图集合使用对应滤波器进行处理，以得到每个当前帧图像的相似度得分图，定位每个相似度得分图中得分最高点，并对该得分最高点所表示的每个当前帧图像中与对应的参考图像间相似度最高的图像部分加以获取，以作为当前帧图像中的目标物体所在图像部分。

于本发明的一实施例中，所述方法还包括：将所得到的当前帧图像中的目标物体所在图像部分作为新增样本，在预先建立的由每个相机的当前帧图像之前的所有帧图像中的目标物体所在图像部分作为样本所形成的每个相机的样本空间中，加入每个相机的新增样本以作更新；通过更新的样本空间作为训练集，用以在频域下训练所述滤波器，以满足优化原则：所述滤波器趋向于对目标物体所在图像部分能处理得到更高的得分，且对非目标物体所在图像部分能处理得到更低的得分。

于本发明的一实施例中，每个相机采集目标物体所获得的第一帧图像中通过标记来获得对应的目标物体所在图像部分。

于本发明的一实施例中，所述目标特征提取是通过多种特征提取模型执行的。

于本发明的一实施例中，所述多种特征提取模型包括：CNN模型及FHOG模型。

于本发明的一实施例中，所述CNN模型为VGG-M网络结构。

于本发明的一实施例中，在对每个特征图集合中的每个所述特征图降维之前，还包括预处理，所述预处理包括以下中的一种或多种方式组合：a)对特征图中每个特征进行平滑处理；b)对特征图进行插值处理以统一分辨率。

于本发明的一实施例中，所述降维采用PCA及SVD算法中的一种或两者结合。

于本发明的一实施例中，每个相似度得分图是将滤波器对一特征图集合进行卷积得到的。

于本发明的一实施例中，对滤波器的训练是通过最小化目标函数得到的，所述目标函数为同每个样本的相似度得分图和对应的正确标记数据间差异之和相关的损失函数、以及同滤波器相关的正则项之和。

于本发明的一实施例中，在每个目标物体的样本空间中，通过高斯混合模型来将每个样本按目标物体的不同姿态分类进行聚类，以得到紧致样本空间而用以训练所述滤波器。

为实现上述目标及其他相关目标，本发明提供一种计算机设备，包括：通信器，连接相机系统；存储器，存储计算机程序；处理器，连接所述通信器及存储器，用于运行所述计算机程序以实现所述的方法。

为实现上述目标及其他相关目标，本发明提供一种计算机存储介质，存储计算机程序，所述计算机程序运行时实现所述的方法。

如上所述，本发明采用多相机目标跟踪相对于单相机目标跟踪，能获取目标不同视野角度的信息。当目标在某一个角度下发生遮挡，导致该相机采集到很小部分跟踪目标甚至错误目标的图像，而其他的相机仍能拍摄到完整的跟踪目标时，多相机跟踪即可舍弃被遮挡相机所获取的目标图像，只利用其他角度的相机来获取目标信息，从而有效解决了单目标跟踪时目标被遮挡问题。另一方面，多相机目标跟踪可以实现长时的目标跟踪。在现实生活中，目标在较长时间内的运动范围会比较大，势必会超出单个相机所能拍摄到的视野范围，多相机可以通过多视角捕捉目标信息，实现更大运动范围的目标跟踪。

在具体的跟踪算法上，本发明的目标跟踪方法、计算机设备及存储介质，通过获取由相机系统中多个相机分别采集的每个上一帧图像，并以每个所述上一帧图像中的目标物体所在图像部分作为参考图像；获取由相机系统中每个相机分别采集的每个当前帧图像，并在每个所述当前帧图像中分别获取与对应的所述参考图像初步相似的若干个备选图像部分以构成每个当前帧图像的备选图像部分集合；对每个备选图像部分集合中各备选图像部分进行目标特征提取得到对应每个当前帧图像的特征图集合；对每个特征图集合中的每个所述特征图进行降维；对降维后的每个特征图集合使用对应滤波器进行处理，以得到每个当前帧图像的相似度得分图，定位每个相似度得分图中得分最高点，并对该得分最高点所表示的每个当前帧图像中与对应的参考图像间相似度最高的图像部分加以获取，以作为当前帧图像中的目标物体所在图像部分，跟踪准确率高。

附图说明

图1显示为本发明实施例中光场相机阵列的结构示意图。

图2显示为本发明实施例中的目标跟踪方法的流程示意图。

图3显示为本发明实施例中的VGG模型的结构示意图。

图4显示为本发明实施例中的目标跟踪方法的样本空间更新及滤波器训练的流程示意图。

图5显示为本发明实施例中的改进的样本空间的原理示意图。

图6显示为本发明实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的每个项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行每个种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明采用多相机的相机系统来执行目标跟踪方法，从而解决背景技术单相机的各种问题，一方面可以消除单相机的遮挡问题，另一方面可以通过多视角捕捉目标信息，实现更大运动范围的目标跟踪。

本发明可以应用在任意排布的多相机的相机系统上，一般来说要求系统中一个相机至少与另一个相机能看到相同的空间(视角有重叠)；自然，在一优选的实施例中，本发明可以应用在同样包含多个相机的光场相机阵列上。

如图1所示，展示本发明实施例中光场相机阵列100的结构示意图。

所述光场相机阵列100长度为L，包含共N个相机101。优选的，各相机101间可以等间距安放，间隔为M，(N+1)*M＝L，相机阵列100的具体参数由实际场景决定，特殊情况下也可不等距排放。

各个相机101可用于对相同的目标物体102进行追踪，得到目标物体102在多视角下的情形，从而避免在某个视角下由于例如被遮挡等因素而导致跟踪丢失。

如图2所示，展示本发明实施例中的目标跟踪方法的流程示意图。

所述方法包括：

步骤S201：获取由相机系统中多个相机分别采集的每个上一帧图像，并以每个所述上一帧图像中的目标物体所在图像部分作为参考图像。

设定相机系统设有N个相机，表示为C_i，i∈[1，N]，由N个相机组成的相机阵列获取的图像：I_i，i＝1,…,N；目标物体的追踪识别，就是在根据每个相机所采集的各帧图像都进行目标物体的识别从而实现追踪，而对目标物体的识别是通过其所在图像部分的特征来识别的，因此，可定义由当前图像帧之前的所有视频帧中的目标物体所在图像部分组成的训练样本集或称样本空间：D；而且，每个相机采集的上一帧图像中的目标物体所在图像部分可用于作为参考图像，以供与该相机采集的当前帧图像进行相似度比对来获取其中疑似为目标物体所在图像部分，而目标物体在第i个相机C_i的上一帧图像中的目标物体所在图像部分可以通过bounding-box包围盒的方式取出，通过四个向量表示：B_i(x_i,y_i,w_i,h_i)，即包围盒的中心坐标、宽和高。

可选的，对于追踪目标物体的视频中的第一帧图像，可以通过实测、人工标记方式得到目标物体所在图像部分，也就是正确打标记的数据成为正确数据(ground truth)，作为监督机器学习的依据。

步骤S202：获取由相机系统中每个相机分别采集的每个当前帧图像，并在每个所述当前帧图像中分别获取与对应的所述参考图像初步相似的若干个备选图像部分以构成每个当前帧图像的备选图像部分集合。

举例来讲，对于每个相机C_i获取的图像I_i，根据上一帧图像中的B_i获取与之相对应的图像patch：I′_i(area(I′_i)/area(B_i)＝scale)，即与B_i相似的备选图像部分集合。

步骤S203：对每个备选图像部分集合中各备选图像部分进行目标特征提取得到对应每个当前帧图像的特征图集合。

举例来讲，对I′_i进行特征提取，计算得到在相机C_i当前图像帧下的特征

这一计算关系表示为：

其中d＝1,…,D.D表示特征图的个数，F(*)代表特征提取操作。

由于之后我们还要表示频域上的特征，这里我们用

来表示空间域的特征，其中n∈{0,…,N_d-1}，N_d表示第d维的维度w*h。

于本发明的一实施例中，所述目标特征提取可以是通过多种特征提取模型执行的，例如CNN模型及FHOG模型等。

举例来说，所述CNN模型为VGG-M网络结构，例如图3所示的VGG-M网络结构(例如VGG_CNN_M_2048，当然，并不局限于CNN-M，还可以是CNN-F或CNN-S)，使用其第3层和第14层输出的特征，网络输入维度为224*224*3，第3层和第14层输出维度分别为96，512。

而利用FHOG模型进行特征提取，相比于标准HOG特征生成的特征通道数为36维来讲，FHOG特征通道数只有31维，参数量相对较少，且特征有效性较高。

FHOG进行特征提取的过程如下：

1)像素级特征图F_M

A、对于图像的每个像素计算其梯度值r(x,y)和梯度方向，对于彩色图像，每个像素点的梯度取对应颜色通道中所有梯度值的最大值及相应的梯度方向。

B、把每个像素的梯度方向离散到p(18和9)的值中的一个，使用对方向敏感B1(0-360度)和对方向不敏感B2(0-180度)。

C、计算每个像素的特征向量，设b的取值为{0,1,…,p-1}，则像素(x,y)处的特征向量为

2)对F_M空间聚合得到特征图F_C

A、将图像分为若干个cell，设为k，cell特征向量记为

B、将像素(x,y)映射到一个cell中，定义这个cell的特征为整个cell内所有像素特征的和(均值)；

3)对F_C进行归一化和截断

A、定义4个归一化因子N_δ,γ(i,j),δ,γ∈{-1,1}；

每个因子都包含四个cell的能量

B、表示向量v被α截断后形成的向量(把v中大于α的值都设置为α)，对于每个cell，将特征进行归一化个截断，然后串联起来就得到该cell的特征：

C、对于每个cell来说，这样的操作会获得4*9＝36维的一个特征。

4)特征降维

设V＝{u₁,…,u₉}∪{v₁,…,v₄}

对第3步得到的4*9(contrast insensitive)＝36维特征，与每一个u_k和v_k进行点积操作，得到13维的特征向量(对点积后的结果在列方向求和得到9维向量，在行方向求和得到4维向量)最终对于每一个cell得到9(contrast insensitive)+18(constrastsensitive)+4(normalization factor)＝31的特征向量。

而在本实施例中，每张通过目标特征提取得到的特征图是由VGG和FHOG分别得到的各个特征图的组合，即96+512+31＝639维的特征图。

需说明的是，上述仅是一种特征提取的方式，在其他实施例中，特征提取的数学模型的类型和数量均可以加以变化，而得到的特征图的维度也可以随之变化，并非以上述实施例为限。

优选的，在之后对特征图进行降维之前，还可包括：预处理，其包括以下中的一种或多种方式组合：a)对特征图中每个特征进行平滑处理；b)对特征图进行插值处理以统一分辨率。

例如先进行平滑处理，然后进行插值处理。

步骤S204：对特征图进行平滑处理。

所述平滑处理可以采用如余弦窗、汉宁窗等函数。

步骤S205：对平滑后的特征图进行插值处理以统一分辨率。

由于特征图的各个通道下空间分辨率不同，为了统一分辨率以便之后的计算，采用bicubic插值方法实现转换。

我们将t∈[0,T)表示特征图在连续域下的空间分辨率。对于每一个特征通道d，我们定义插值算子

其中b_d可以采用bicubic插值方式

特征图经过插值后，所有通道的空间分辨率由N_d统一转换为T

对应于频域，插值函数为：

其中

为DFT下的x^d的分辨率。

步骤S206：对每个特征图集合中的每个所述特征图进行降维。

于本发明的实施例中，进行降维的特征图可以是对从步骤S203中直接输出的；当然，进行降维的特征图也可以是经步骤S204、S205处理过的。

于本发明的一实施例中，所述降维的方式可以是PCA、SVD算法或两者的结合。

具体的，降维的过程可以是先初始化投影矩阵P，再通过投影矩阵对特征图进行降维。

所述初始化投影矩阵P的过程，包括：

A)对于步骤S203取得的特征图的每个特征，遍历每个通道，减去像素均值；

B)对去均值后的特征图，遍历每个特征，分别进行SVD分解，得到S、V、D(x_i＝VSD)，取V矩阵前K列，范围为[0,compressed_dim[d])，即对应特征图d的压缩维度。

最终得到投影矩阵P，维度为D×C；

特征降维的过程，包括：为了减少运算量，对原有的D个通道的特征转换为更小的维度C，那么对于特征图d，使用映射系数p_d,c构建，这里p_d,c是矩阵P的一个元素表示。

其中，P^T为降维矩阵即所述投影矩阵，"·"为矩阵乘积。

经降维后，对于原CNN模型特征96和512维特征图降为16维和64维，对于FHOG特征图从31维降为10维，则组合的特征图的维度为16+64+10＝90，相较于之前的639维有了巨幅下降，有效提高运算速度。

步骤S207：对降维后的每个特征图集合使用对应滤波器进行处理，以得到每个当前帧图像的相似度得分图，定位每个相似度得分图中得分最高点，并对该得分最高点所表示的每个当前帧图像中与对应的参考图像间相似度最高的图像部分加以获取，以作为当前帧图像中的目标物体所在图像部分。

举例来说，将滤波器f＝(f¹,f²,…,f^c)根据B_i对当前图像帧得到的特征图

进行卷积得到相似度得分图(score-map:S_i{x})，scoremap的每一个点对应着某一个样本的相似度得分。

其中，"*"为卷积符号，对应于频域，转换为：

计算反傅里叶变换s_i＝S_i{x}

找到score-map的最大值max_score即找到与目标最相似的样本B′_i，那么B′_i就作为当前帧I_i的目标位置，其所框选的即为当前帧图像中的目标物体所在图像部分，也就完成对当前帧图像中目标物体的追踪。

之后，在对下一帧图像进行目标物体追踪时，B′_i可以作为对该下一帧图像进行初步相似判断以获得备选图像部分集合的比对依据。

于本发明的一实施例中，需要对滤波器进行训练，以令其在判别目标物体所在图像部分时能更精准；故可选的，所述方法还包括：

步骤S401：将所得到的当前帧图像中的目标物体所在图像部分作为新增样本，在预先建立的由每个相机的当前帧图像之前的所有帧图像中的目标物体所在图像部分作为样本所形成的每个相机的样本空间中，加入每个相机的新增样本以作更新。

具体的，每一个相机C_i都有与之对应的max_score，设集合为Max＝{max_i}，得分越高表明该图像与目标相似度越高，那么对于训练样本数量有限制的训练样本集，从每一当前帧图像获得的各备选图像部分中只选择得分最高的样本(也就是B′_i对应)加入其中而作为更新，使得滤波器学习最具判别性的目标特征。

步骤S402：通过更新的样本空间作为训练集，用以在频域下训练所述滤波器，以满足优化原则：所述滤波器趋向于对目标物体所在图像部分能处理得到更高的得分，且对非目标物体所在图像部分能处理得到更低的得分。

举例来讲，训练的目标就是得到理想的滤波器f，理想的滤波器对于目标图像卷积后的结果应尽量大，而对于非目标图像卷积后的结果应尽量小，相当于训练一个判别器。

对滤波器的训练是通过例如最小化以下的目标函数得到的：

其中，加号前项为损失函数，加号之后项为正则项；

a_j为第j个样本的权重；

表示第i个相机第j个样本的正确数据(groundtruth)；

表示第i个相机第j个样本的score-map；

w为正则化因子：

w(m,n)＝μ+η(m/P)²+η(n/Q)²；

其中，此处的正则化因子来源于论文“Learning Spatially RegularizedCorrelation Filters for Visual Tracking”，μ和η参数，(m,n)指样本中处于m列n行的像素位置，P×Q表示目标大小。

该训练过程是在频域上进行的，频域下的目标函数为：

需说明的是，传统的基于DCF(DiscriminativeCorrelationFilter)的跟踪算法样本空间(即滤波器的训练样本集)更新策略为：对于每一次加入的训练样本x_i,乘上一个衰减系数α_i～(1-γ)^M-i，其中γ为学习率，M为样本空间的大小。

如果样本空间中样本数超过了最大限度M_max，则权重α_i最小的样本将会被新样本取代。该策略有一个问题是：对于添加的样本很有可能与样本空间的一个乃至多个样本相似性非常高，以至于多个样本几近一致(由于视频帧的连续性，相邻帧间变化非常小，导致train_gap越小，相似样本对数也就越多)，从而导致样本冗余性非常高(多个相似样本所携带的有用信息近似相同)，导致若想获得较多代表性的样本，那么只能增大样本空间的最大限度M_max，增大了系统存储损耗和计算量，降低系统运行速度，同时学习到的滤波器判别性较低。

在本发明的一实施例中，优选的，对于样本空间(即滤波器的训练样本集)使用概率生成模型，来得到紧致的样本表示，这样可以较大程度上减少样本冗余性同时提高样本多样性。

参考图5，采用类似聚类的思想，把目标物体的不同姿态的样本根据姿态形状聚类成各个component，同一个component内的样本代表相近的姿态形状。举例来说，采用高斯混合模型(GMM)算法来构建样本空间聚类：

其中，L表示高斯分量

的数目，π_l表示分量l的先验权重，μ_l∈χ为均值，协方差矩阵设为单位矩阵I，x表示特征。

而训练滤波器所使用的目标函数(空间域和频域)对应变化为：

其中Gaussian均值μ_l替代x_i，π_l替代α_i。

基于GMM的样本空间相较于传统DCF的样本空间集，优势在于：

1)样本数目从M降到L，通常L可以设置为M/8，且保证性能有所提升；

2)由于样本空间中样本数目大量减少，系统的存储耗损和计算量也随之降低，提升了系统的运行速度；

3)由图5可看出，虽然样本数减少了，但是样本的冗余性相较于传统样本空间低，样本的多样性要高，保证了学习到的滤波器有着较高的判别性。

4)为了方便起见，使用简单的在线算法更新GMM。首先初始化新分量m：π_m＝γ,μ_m＝x_j；如果分量数目超出了限值L，我们舍弃掉权重π_l小于阈值的分量，否则将最近的分量k和l融合为一个共同分量：

n：π_n＝π_k+π_l，

最近的分量是通过距离比较的大小所得，距离比较大小则通过计算||μ_k-μ_l||得到。将最近的分量k和l融合，其中“最近”的判定就是通过此处的距离比较得到的

如图6所示，展示本发明实施例中的计算机设备600的结构示意图，所述计算机设备600可以是上位机(如服务器、台式电脑、笔记本电脑等)、智能嵌入式设备(智能移动终端，如智能手机、平板电脑等)、或分布式处理设备(如数据分散地存储于多台独立的机器设备的集合)等，其至少包括一套处理系统，包括：

通信器601，连接所述相机系统，其可用于接收所述相机系统中各个相机采集的图像。

存储器602，存储计算机程序。具体的，所述存储器602可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如ROM、或磁盘存储器等。

处理器603，连接所述通信器601及存储器602，用于运行所述计算机程序以实现前述实施例中的目标跟踪方法。具体的，所述处理器603可以包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本领域普通技术人员可以理解：实现前述目标跟踪方法的各个实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成，该些计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述显示控制方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明采用多相机目标跟踪相对于单相机目标跟踪，能获取目标不同视野角度的信息。当目标在某一个角度下发生遮挡，导致该相机采集到很小部分跟踪目标甚至错误目标的图像，而其他的相机仍能拍摄到完整的跟踪目标时，多相机跟踪即可舍弃被遮挡相机所获取的目标图像，只利用其他角度的相机来获取目标信息，从而有效解决了单目标跟踪时目标被遮挡问题。另一方面，多相机目标跟踪可以实现长时的目标跟踪。在现实生活中，目标在较长时间内的运动范围会比较大，势必会超出单个相机所能拍摄到的视野范围，多相机可以通过多视角捕捉目标信息，实现更大运动范围的目标跟踪。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取由相机系统中多个相机分别采集的每个上一帧图像，并以每个所述上一帧图像中的目标物体所在图像部分作为参考图像；

获取由相机系统中每个相机分别采集的每个当前帧图像，并在每个所述当前帧图像中分别获取与对应的所述参考图像初步相似的若干个备选图像部分以构成每个当前帧图像的备选图像部分集合；

对每个备选图像部分集合中各备选图像部分进行目标特征提取得到对应每个当前帧图像的特征图集合；

对每个特征图集合中的每个所述特征图进行降维；

对降维后的每个特征图集合使用对应滤波器进行处理，以得到每个当前帧图像的相似度得分图，定位每个相似度得分图中得分最高点，并对该得分最高点所表示的每个当前帧图像中与对应的参考图像间相似度最高的图像部分加以获取，以作为当前帧图像中的目标物体所在图像部分。

2.根据权利要求1所述的方法，其特征在于，还包括：

将所得到的当前帧图像中的目标物体所在图像部分作为新增样本，在预先建立的由每个相机的当前帧图像之前的所有帧图像中的目标物体所在图像部分作为样本所形成的每个相机的样本空间中，加入每个相机的新增样本以作更新；

通过更新的样本空间作为训练集，用以在频域下训练所述滤波器，以满足优化原则：所述滤波器趋向于对目标物体所在图像部分能处理得到更高的得分，且对非目标物体所在图像部分能处理得到更低的得分。

3.根据权利要求1所述的方法，其特征在于，每个相机采集目标物体所获得的第一帧图像中通过标记来获得对应的目标物体所在图像部分。

4.根据权利要求1所述的方法，其特征在于，所述目标特征提取是通过多种特征提取模型执行的。

5.根据权利要求4所述的方法，其特征在于，所述多种特征提取模型包括：CNN模型及FHOG模型。

6.根据权利要求5所述的方法，其特征在于，所述CNN模型为VGG-M网络结构。

7.根据权利要求1所述的方法，其特征在于，在对每个特征图集合中的每个所述特征图降维之前，还包括预处理，所述预处理包括以下中的一种或多种方式组合：

a)对特征图中每个特征进行平滑处理；

b)对特征图进行插值处理以统一分辨率。

8.根据权利要求1所述的方法，其特征在于，所述降维采用PCA及SVD算法中的一种或两者结合。

9.根据权利要求1所述的方法，其特征在于，每个相似度得分图是将滤波器对一特征图集合进行卷积得到的。

10.根据权利要求1所述的方法，其特征在于，对滤波器的训练是通过最小化目标函数得到的，所述目标函数为同每个样本的相似度得分图和对应的正确标记数据间差异之和相关的损失函数、以及同滤波器相关的正则项之和。

11.根据权利要求1所述的方法，其特征在于，在每个目标物体的样本空间中，通过高斯混合模型来将每个样本按目标物体的不同姿态分类进行聚类，以得到紧致样本空间而用以训练所述滤波器。

12.一种计算机设备，其特征在于，包括：

通信器，连接相机系统；

存储器，存储计算机程序；

处理器，连接所述通信器及存储器，用于运行所述计算机程序以实现如权利要求1至11中任一项所述的方法。

13.一种计算机存储介质，其特征在于，存储计算机程序，所述计算机程序运行时实现如权利要求1至11中任一项所述的方法。