CN107564035A

CN107564035A - 基于重要区域识别和匹配的视频跟踪方法

Info

Publication number: CN107564035A
Application number: CN201710643069.XA
Authority: CN
Inventors: 梁云; 王美华; 胡月明; 陈湘骥; 刘汉兴
Original assignee: South China Agricultural University
Current assignee: Guangzhou Kapark Network Technology Co ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-01-09
Anticipated expiration: 2037-07-31
Also published as: CN107564035B

Abstract

本发明公开了一种基于重要区域识别和匹配的视频跟踪方法，包括下述步骤：首先，基于最小生成树理论识别初始目标的重要区域，得到目标重要区域并构建目标模板；然后，识别后续帧目标扩展区域的重要区域，并将该区域作为采样区域进行样本采集；接着，计算每个样本与目标模版的形状相似度值、颜色相似度值、皮尔逊相关系数值，并对三个值进行加权计算得到样本与目标模版的匹配度；最后，基于阈值比较方法更新目标模板以支持后续跟踪直至跟踪完成。本发明方法基于重要区域识别可以较好地描述动态变化的跟踪场景中的目标物体，结合目标的重要区域进行样本采集，提高了采样质量，增强了跟踪的准确率和稳定性。

Description

基于重要区域识别和匹配的视频跟踪方法

技术领域

本发明涉及计算机视觉领域，更具体地说，涉及一种基于重要区域识别和匹配的视频跟踪方法。

背景技术

视频跟踪通过跟踪运动物体可对目标进行实时监控、行为分析、运动估计,它是计算机视觉领域的一个研究热点,近年来已引起人们的广泛关注。该技术具有广阔的应用前景,在多个领域起着重要作用,如安全监控、人机交互、医疗诊断和车辆流量监控等等。尽管人们已经提出了大量的视频跟踪方法,但在物体外形变化较大或有严重遮挡的情况下,这些方法经常不能提供理想的跟踪结果,常无法追踪到目标物体。因此,提出一种有效的物体跟踪方法具有重要的应用价值和现实意义。

当前，虽然很多的目标跟踪算法已经被提出，但是要提出一个能处理复杂的、动态的场景的健壮算法仍然是一个具有挑战性的问题。因为光照发生变化、镜头发生移动、物体发生形变、目标物体发生部分或全部遮挡等等会导致场景的外观发生很大的变化。这些变化只能通过能够增量更新它们的表达的自适应方法进行处理。因此，能够不断学习的在线更新对跟踪物体表观的表达对于跟踪任务而言是很有必要的。基于重要区域识别方法在目标物体发生遮挡或发生形变情况下的跟踪有不错的效果。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于重要区域识别和匹配的视频跟踪方法，在搜索机制中结合重要区域识别，通过形状相似度、颜色相似度以及区域相似度加权评分来匹配目标模板，以确定目标区域，旨在增强搜索机制对确定目标区域的准确率和稳定性。

为了达到上述目的，本发明采用以下技术方案：

本发明一种基于重要区域识别和匹配的视频跟踪方法，包括以下步骤：

(1)根据初始帧和初始目标区域构建目标模板，得到最佳识别区域；

(2)基于重要区域识别算法构建采样区域并进行采样，得到可匹配的样本；

(3)基于颜色相似度、形状相似度以及区域相似度计算目标模板和样本的匹配度，找到最佳样本；

(4)基于阈值比较方法以最佳样本更新目标模板，找最佳样本，以匹配度最高的样本作为最佳样本；

(5)以最佳样本作为跟踪结果输出；

(6)重复步骤(2)到步骤(5)，直到所有帧处理完毕。

作为优选的技术方案，所述步骤(1)中，根据初始帧和初始目标区域构建目标模板具体为：

(1-1)以初始目标区域为中心，对上下左右四个方向分别扩展k个像素m次，得到总共4^m+1个扩展区域；

(1-2)识别扩展区域的重要区域并提取基于4邻域的最大连通区域；

(1-3)计算连通区域与初始目标区域的重合度，

重合度D＝α₁×D₁+α₂×D₂，

D₁＝|M_h-N_h|+|M_w-N_w|，

其中，α₁和α₂是权值且α₁+α₂＝1，D₁表示初始目标区域M与连通区域N的对应长宽差绝对值之和，D₂表示初始目标区域M中心坐标(P_mx,P_my)与连通区域N中心坐标(P_nx,P_ny)的欧式距离；

(1-4)以重合度最大的连通区域作为一部分，连通区域位置相对应的目标区域作为另一部分构建目标模板；重合度最大的连通区域所对应的扩展区域称为最佳识别区域。

作为优选的技术方案，所述步骤(2)中，基于重要区域识别算法构建采样区域并进行采样具体为：

(2-1)对步骤(1)中的最佳识别区域进一步扩展h像素并识别重要区域，以识别结果中重要区域的最小外接矩阵区域作为采样区域；

(2-2)平均划分采样区域为m个子区域，从m个子区域中总共随机选取n个坐标点作为样本中心坐标，目标模板的长宽作为样本长宽构建样本；

(2-3)过滤掉样本区域超越越过原图边界的样本，剩下的样本即为可匹配样本。

作为优选的技术方案，所述步骤(3)具体为：

(3-1)以颜色直方图H(i)＝n_i计算样本与目标模板的颜色相似度，i＝0,1,2…k-1，H(i)表示颜色直方图，i表示颜色分量的颜色等级，相当直方图横坐标上的取值，n_i是像素落在i所代表颜色区间的个数，k表示最大颜色等级，相当直方图横坐标的最大取值；通过夹角余弦距离计算样本与目标模板的颜色相似度A_i表示样本颜色直方图i颜色区间的像素个数，B_i表示目标模板颜色直方图i颜色区间的像素个数，n表示颜色区间个数；

(3-2)以重要区域计算样本与目标模板的形状相似度，通过重要区域重合度计算样本与目标模板的形状相似度S_∪表示二值化重要区域的交集面积，S_∩表示二值化重要区域的并集面积；

(3-3)以皮尔逊相关系数计算样本与目标模板的区域相似度，A_mn表示像素矩阵A在(m,n)上的取值，表示像素矩阵A的均值，B_mn表示像素矩阵B在(m,n)上的取值，表示像素矩阵B的均值；

(3-4)设定三个相似度的权值比重，计算得到样本和目标模板的匹配度D＝β₁×D_c+β₂×D_s+β₃×D_r，以匹配度最高的样本作为最佳样本。

作为优选的技术方案，所述步骤(4)具体为：

目标模板以更新度C＝γ₁×C_f+γ₂×C_d作为判断条件进行更新，其中，C_d表示最佳样本与目标模板的匹配度，C_f表示最佳样本与初始目标区域的颜色相似度，通过引入初始目标区域因素，使得目标模板的更新更加准确；假设C_i表示第i帧的更新度，t表示阈值；当C_i-1-C_i<t时以最佳样本更新目标模板，当C_i-1-C_i≥t时不更新目标模板。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明以形状相似度、颜色相似度、区域相似度等作为物体物体匹配度度量的线索，并给出各自的评分规则，结合线索对采样区域中所有检测窗口进行评分，根据评分确定最有可能覆盖目标的检测窗口，物体物体匹配度度量使检测窗口能很好地收敛于标物体，既尽可能使检测窗口覆盖目标物体，又使得检测窗口中背景内容尽量少。

2、本发明在搜索机制中结合重要区域识别，以重要区域作为采样区域进行样本采集，通过物体相似性度量匹配最佳样本，从而确定目标位置。搜索机制的优化可以提高跟踪过程中样本采集的质量，实现准确高效地搜索目标物体。

3、本发明能较为准确地描述目标的形状特征；通过构建目标模板时不断扩展初始目标区域并进行重要区域识别，以重合度最大的重要区域作为目标的形状特征较为准确，因为重合度大说明重要区域与初始目标区域较为相似，而初始目标区域就是目标的准确描述。

4、本发明采样质量高，以重要区域作为采样区域，有效避免在背景区域的采样，提高了采样质量。

5、本发明结合重要区域识别，通过形状相似度、颜色相似度以及区域相似度加权评分来匹配目标模板，以确定目标区域，增强了搜索机制对确定目标区域的准确率和稳定性。

附图说明

本发明与2016年的两个目标跟踪算法进行跟踪效果对比。两个算法分别是目标自响应相关滤波跟踪(以下简称TRA)和基于双线性结构向量机和显示特征图的目标跟踪(以下简称DLSSVM)。除了与TRA和DLSSVM进行对比之外，本发明还与Visual TrackerBenchmark中的九个经典算法进行对比。九个经典算法分别是CSK、CT、CXT、DFT、LOT、LSK、Struck、VTD、以及VTS。

图1为本发明的方法执行步骤示意图。

图2(a)为本发明、TRA以及DLSSVM对“girl2”在目标遮挡情况下的跟踪效果对比图。

图2(b)为本发明、TRA以及DLSSVM对“jogging”在目标遮挡情况下的跟踪效果对比图。

图3(a)为本发明、TRA以及DLSSVM对“panda”在目标变形情况下的跟踪效果对比图。

图3(b)为本发明、TRA以及DLSSVM对“dog”在目标变形情况下的跟踪效果对比图。

图4为本发明与VTS和Struck跟踪算法，以及VTD个CT算法对“basketball”在目标遮挡情况下的跟踪效果对比图。

图5为本发明与VTS和Struck跟踪算法，以及VTD个CT算法对“bird2”在目标遮挡情况下的跟踪效果对比图。

图6为本发明与CT、VTD、VTS、Struck对“skater2”在目标变形情况下的跟踪效果对比图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于重要区域识别和匹配的视频跟踪方法，包括下述步骤：

(1)目标模板构建阶段：首先，以初始目标区域为中心，对上下左右四个方向分别扩展5个像素6次，得到总共4⁷个扩展区域；然后，识别扩展区域的重要区域并提取基于4邻域的最大连通区域。接着，计算连通区域与初始目标区域的重合度，重合度D＝0.2×D₁+0.8×D₂，D₁＝|M_h-N_h|+|M_w-N_w|，D₁表示初始目标区域M与连通区域N的对应长宽差绝对值之和，D₂表示M中心坐标(P_mx,P_my)与连通区域N中心坐标(P_nx,P_ny)的欧式距离。最后，以重合度最大的连通区域和位置相对应的原图区域作为目标模板。另外，重合度最大的连通区域所对应的扩展区域称为最佳识别区域。

(2)样本采集阶段：首先，对步骤(1)中的最佳识别区域进一步扩展5和20像素并识别重要区域，以识别结果中重要区域的最小外接矩阵区域作为采样区域；然后，平均划分采样区域为100个子区域，对中间16个子区域每个区域随机采样10个坐标，得到160个样本中心坐标，对四周84个子区域每个区域随机采样5个样本，得到420个样本宗欣坐标，总共得到580个样本中心坐标。以目标模板长宽作为样本长宽和样本中心坐标构建样本；最后，过滤掉样本区域超越越过原图边界的样本，剩下的样本即为可匹配样本。

(3)样本匹配阶段：首先，以颜色直方图H(i)＝n_i(i＝0,1,2…k-1)表示颜色特征，H(i)表示颜色直方图，i表示颜色分量的颜色等级，相当直方图横坐标上的取值，n_i是像素落在i所代表颜色区间的个数，k表示最大颜色等级，相当直方图横坐标的最大取值。通过夹角余弦距离计算样本与目标模板的颜色相似度A_i表示样本颜色直方图i颜色区间的像素个数，B_i表示目标模板颜色直方图i颜色区间的像素个数，n表示颜色区间个数；然后，以重要区域表示形状特征。通过重要区域重合度计算样本与目标模板的形状相似度S_∪表示二值化重要区域的交集面积，S_∩表示二值化重要区域的并集面积；接着，以皮尔逊相关系数表示归一化相关系数，A_mn表示像素矩阵A在(m,n)上的取值，表示像素矩阵A的均值，B_mn表示像素矩阵B在(m,n)上的取值，表示像素矩阵B的均值；最后，设定三个相似度的权值比重，计算得到样本和目标模板的匹配度D＝0.4×D_c+0.2×D_s+0.4×D_r，以匹配度最高的样本作为最佳样本。

(4)目标模板更新阶段：目标模板以更新度C＝0.3×C_f+0.7×C_d作为判断条件进行更新，其中，C_d表示最佳样本与目标模板的匹配度，C_f表示最佳样本与初始目标区域的颜色相似度。通过引入初始目标区域因素，可以使得目标模板的更新更加准确。假设C_i表示第i帧的更新度，更新阈值t＝0.01。当D_i-1-D_i<0.01时以最佳样本更新目标模板，当D_i-1-D_i≥0.01时不更新目标模板。

图2(a)、图2(b)和图3(a)、图3(b)为本发明、TRA和DLSSVM的跟踪效果对比图。其中，图中左上角数字为视频帧的计数，深色实框为本发明跟踪结果，设色虚框为TRA跟踪结果，浅色虚框为DLSSVM跟踪结果。图4和图5是本发明与多个经典算法的跟踪效果对比图。其中各算法跟踪效果如图中标注所示。

如图2(a)所示，小女孩作为目标物体在第112帧的时候被白衣男子完全遮挡，在第127帧的时候重新出现。从实验结果看出，本发明在第127帧目标重新出现时准确跟踪到目标，TRA和DLSSVM都无法准确跟踪目标。同理，如图2(b)所示，白色衣服跑步者作为目标物体在第52帧的时候被柱子完全遮挡，在第61帧的时候重新出现。本发明和TRA在目标重新出现时准确跟踪目标，DLSSVM无法准确跟踪目标。因此，本发明针对目标完全遮挡的跟踪效果更好。首先，本发明的采样算法中对目标所处的扩展区域进行重要区域识别，并以识别到的重要区域作为采样区域进行采样。通过区域扩展、重要区域识别以及采样可以在目标重新出现时采集到包含目标的样本；然后，本发明的目标模板更新算法使得被遮挡前目标信息保留为目标模板；最后，本发明的匹配算法使得包含目标的样本与目标模板的匹配度最高，从而达到目标被遮挡后重新出现时准确跟踪的效果。

如图3(a)所示，熊猫作为目标物体在第296帧和第513帧时都发生较大的形变。从实验结果看出，本发明可以在目标发生较大形变的情况下准确跟踪目标，DLSSVM也能准确跟踪目标，但是TRA在第513帧的时候无法准确跟踪目标。同理，如图3(b)所示，花斑狗作为目标物体在第15帧和第82帧的时候都发生较大的形变，本发明、TRA和DLSSVM都可以准确跟踪目标。首先，本发明的采样算法基于重要区域识别，对于目标发生较大形变都可以采集到包含目标的样本；其次，本发明的目标模板更新算法基于阈值比较进行目标模板更新，对于目标形变情况可以动态更新目标模板，从而达到准确跟踪的效果。

如图4所示，目标物体在第17帧时目标被运动员遮挡，本发明可以跟踪到目标，Struck跟踪效果不佳；目标在第28帧时重新出现，本发明依旧可以跟踪到目标，VTS跟踪效果不佳。如图5所示，鹤作为目标物体在第16帧时被小鸡部分遮挡，本发明可以准确跟踪目标，CT跟踪丢失，VTD都出现了不同程度的偏差。目标在第19帧时重新出现，本发明依旧可以跟踪到目标，CT和VTD跟踪丢失。

如图6所示，溜冰者作为目标物体在第40帧时发生较大形变，本发明与四个经典算法都可以较为准确跟踪目标，但CT的跟踪区域变得较大；目标在第60帧时再次发生较大形变，本发明与VTD、VTS、Struck的跟踪效果较好，其它算法都出现了一定程度的偏差。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于重要区域识别和匹配的视频跟踪方法，其特征在于，包括以下步骤：

(1)基于最小生成树理论识别初始目标的重要区域，得到目标重要区域并构建目标模板；

(2)识别后续帧目标扩展区域的重要区域，并将该区域作为采样区域进行样本采集；

(3)计算每个样本与目标模版的形状相似度值、颜色相似度值、皮尔逊相关系数值，并对三个值进行加权计算得到样本与目标模版的匹配度；

(4)基于阈值比较方法更新目标模板以支持后续跟踪直至跟踪完成，并以匹配度最高的样本作为最佳样本；

(5)以最佳样本作为跟踪结果输出；

(6)重复步骤(2)到步骤(5)，直到所有帧处理完毕。

2.根据权利要求1所述基于重要区域识别和匹配的视频跟踪方法，其特征在于，所述步骤(1)具体为：

(1-1)以初始目标区域为中心，对上下左右四个方向分别扩展k个像素m次，得到总共4^m ⁺¹个扩展区域；

(1-3)计算连通区域与初始目标区域的重合度，

重合度D＝α₁×D₁+α₂×D₂，

D₁＝|M_h-N_h|+|M_w-N_w|，

3.根据权利要求1所述基于重要区域识别和匹配的视频跟踪方法，其特征在于，所述步骤(2)中，基于重要区域识别算法构建采样区域并进行采样具体为：

4.根据权利要求1所述基于重要区域识别和匹配的视频跟踪方法，其特征在于，所述步骤(3)具体为：

5.根据权利要求1所述基于重要区域识别和匹配的视频跟踪方法，其特征在于，所述步骤(4)具体为：