一种基于似物性和相关滤波的目标跟踪方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于似物性和相关滤波的目标跟踪方法法。
背景技术
目标跟踪作为计算机视觉领域的一个重要研究方向,目前已受到了广泛的关注。该技术在安全监控、无人驾驶和军事防御等领域具有宽广的应用前景。尽管目前已经存在着相当数量的目标跟踪方法,但这些方法往往在光照变化、物体形变、快速运动和严重遮挡情况下不稳定甚至失效。因此,提出一种有效的目标跟踪算法具有重要的应用价值和现实意义。
近年来,由于相关滤波的简单高效性,基于相关滤波的跟踪算法成为众多跟踪算法中最为常见的方法,是目前视觉目标跟踪的主流方法之一。相关滤波算法从训练样本中训练一个判别性模型,用此模型评估候选和目标之间的相似性。因为空间领域上的卷积操作可以转化为傅里叶域的元素的乘法,评估循环移动的候选是非常快速的。直观上,相关滤波的原理可以简单概括为在跟踪区域中对目标产生高响应,对背景产生低响应,其中最高响应对应的位置即为目标位置。目前,基于相关滤波的跟踪算法已经成为主流的跟踪算法之一。但是,对遮挡、形变等引起的目标尺寸的变化问题,基于相关滤波的跟踪方法仍缺乏有效的应对能力。
另一方面,目标检测领域中,采用似物性(Object Proposal)的检测模型表现出优于基于传统滑动窗口的方法。直观上,给定一幅图像,似物性算法的结果通常为很多可能包含图像中物体的矩形框,对矩形框中到底是什么物体并不关心。相对于传统检测方法,似物性不仅可以通过减少候选矩形框来加速计算过程,并且可以通过减少错误的正例来提高检测精度。但是目标跟踪问题中视频序列的图像和静态图像还是有较大差别的,首先分辨率就比静态图像差低很多,图像本身的质量加上似物性算法本身的问题,在跟踪中似物性方法还没有得到广泛应用。同时,相邻帧间的时序信息在目标跟踪问题中有重要作用,将单一帧做为静态图像进行似物性检测没有充分考虑这一点。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于似物性和相关滤波的目标跟踪方法。
为了解决上述技术问题,本发明公开了一种基于似物性和相关滤波的目标跟踪方法,包含如下步骤:
步骤1,输入视频,在视频的第一帧中,对标记目标区域扩展,以扩展后的图片块为目标样本,利用循环位移的方法构建训练样本,并进行边界效应处理,构建回归模型;
步骤2,获取视频的下一帧,以前一帧的目标位置为中心定义搜索区域,并计算当前帧搜索区域的前向光流;
步骤3,基于步骤2得到的前向光流和当前帧搜索区域的颜色通道,得到边缘图;
步骤4,基于步骤3得到的边缘图,产生运动目标的候选集合;
步骤5,基于步骤4得到的候选集合,利用超像素对候选框窗口进行调整,得到最终的运动目标的候选集合;
步骤6,在当前帧中的搜索区域中用步骤1得到的回归模型计算对应的响应值,并利用步骤1的回归模型计算步骤5中得到的运动目标候选的响应值;
步骤7,基于步骤6得到的响应值,选择响应值最大的候选矩形框并确定当前帧的目标状态;
步骤8,基于步骤7得到的当前帧的目标状态更新步骤1中的回归模型;
步骤9,判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。
步骤1包括:输入视频,获取视频第一帧,对以目标区域为中心,高和宽为目标区域λ倍(一般为1.2倍)的区域作为目标区域扩展,目标区域高和宽分别为w1和h1,扩展后的的图片块记为x,大小记为λw1×λh1,λw1、λh1分别表示图片块x的高和宽,用扩展的图片块x采用KCF(kernelized correlation filter,核相关滤波)中的训练方法得到回归模型(参考文献:High-Speed Tracking with Kernelized Correlation Filters,arxiv2014),引入核函数后(参考文献:《机器学习》,周志华著,清华大学出版社),回归模型的解表示为其中y为训练样本的标签(训练样本的标签都是通过人工标注得到),表示样本的预测标签,表示真实解,表示预测解,为训练样本通过核函数映射后乘积结果组成的矩阵的第一行。
步骤2包括:获取视频下一帧,以前一帧目标位置li-1为中心,前一帧目标区域高宽的λ倍作为当前的搜索区域z,前一帧目标区域高和宽分别为wi-1和hi-1,当前的搜索区域z大小为λwi-1×λhi-1,在前一帧中提取相同大小的图片区域,利用LDOF(large displaceoptical flow,大位移光流)大位移光流计算当前帧搜索区域的前向光流(参考文献:Largedisplacement optical flow.IEEE Transactions on Pattern Analysis and MachineIntelligence,2011)。
步骤3包括:将步骤2得到的前向光流即2维光流通道与当前帧搜索区域的R、G、B(即红绿蓝)三个颜色通道结合,得到5维的图片块,利用结构化随机森林的方法计算图片块的边缘,得到边缘图(参考文献:《机器学习》,周志华著,清华大学出版社)。
步骤4包括:在得到的边缘图上,采用基于边缘的似物性方法EdgeBox(参考文献:Edge Boxes:Locating Object Proposals from Edges,.ECCV 2014)产生运动目标的候选集合(参考文献:基于BING似物性检测的行人快速检测算法,计算机应用研究)。
步骤5包括:对候选集合,对每个候选的矩形窗口进行调整,将当前帧的搜索区域采用SLIC(simple linear iterative clustering,简单线性迭代聚类)简单线性迭代聚类算法进行超像素分割(参考文献:《机器学习》。周志华著,清华大学出版社),扩张或缩小候选矩形窗口的4个边使其更贴近超像素的边缘,由调整后的矩形框构成最终的运动目标的候选集合。
步骤6包括:
步骤6-1,利用步骤1得到的回归模型的解α和步骤2得到搜索区域z,调整z的大小为λw1×λh1,训练和检测所用的特征为HOG(histogram of oriented gradient,方向梯度直方图)特征、灰度特征和CN(color name,颜色名)特征的简单结合。利用KCF(kernelizedcorrelation filter,核相关滤波)核相关滤波中的检测算法计算搜索区域对应的响应值(参考文献:High-Speed Tracking with Kernelized Correlation Filters,arxiv2014),计算公式为 为KCF中检测算法,为搜索区域的响应值,即概率,响应值的最大值记为v,由最大值的位置得到目标的位置ld;
步骤6-2,对步骤5得到的候选集合中的每个矩形框,调整大小为λw1×λh1,其响应值由计算得到,针对于候选集合中每一个矩形框,f(p)为每一矩形框响应值的和,为KCF中检测算法,sum表示所有元素的和,其中的最大值记为fmax,其对应的位置记为lb,尺寸记为wb×hb,wb表示宽,hb表示高。
由于第一帧没有“前一帧”,扩展后的图片块记为x,所以用”xx”表示;步骤6-1中,搜索区域为z,前一帧为x,所以用‘xz’表示;
步骤6-2中,候选集合中每个矩形框用p表示,前一帧为‘x’,所以用’xp’表示。
步骤7包括:比较步骤6得到的两个最大响应值,若v>fmax,则当前帧的目标位置为ld,大小与前一帧保持不变,若v≤fmax则当前帧的目标位置为lb,大小为wb×hb。
步骤8包括:当前帧的目标的高和宽分别为wi和hi,在当前帧的目标位置li,提取大小为λwi×λhi的图片块xi,使用随机下降算法(随机梯度下降(Stochastic gradientdescent),https://en.wikipedia.org/wiki/Stochastic_gradient_descent)更新步骤1回归模型中α的值,并将图片块x更新为xi。
本发明针对计算机视觉领域中的目标跟踪方法,本发明具有如下特征:1)本发明在采用核相关滤波作为跟踪方法的基础,不仅保留了其高效的特性,还在一定程度上解决了不能适应目标尺度变化的问题;2)本发明用光流作为时间线索,结合作为空间线索的颜色信息得到运动物体的候选,相比于传统静态图片上似物性方法产生的候选,可以用少量的候选准确的捕捉到运动物体。
有益效果:本发明利用基于核相关滤波的跟踪方法,结合运动似物性窗口,通过似物性来解决传统核相关滤波对尺度变化敏感的问题,从而更好的适应目标的快速运动、尺度变化,实现鲁棒的跟踪。本发明实现了高效、准确的目标跟踪,因此具有较高的使用价值。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为本发明的方法执行步骤示意图。
图2为运动似物性窗口示意图。
图3a、图3b、图3c、图3d为本发明快速运动和尺度变化情况下跟踪效果示例图,图3a为视频图像的第15帧,图3b为视频图像的第35帧,图3c为视频图像的第55帧,图3d为视频图像的第75帧。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本发明公开了一种基于似物性和相关滤波的目标跟踪方法,包含如下步骤:
步骤1:输入视频,在视频的第一帧中,对标记目标区域扩展,以扩展后的图片块为目标样本利用循环位移的方法构建训练样本,并进行边界效应处理,构建回归模型;
步骤2:获取视频的下一帧,以前一帧的目标位置为中心定义搜索区域,并计算当前帧搜索区域的前向光流;
步骤3:基于步骤2得到的光流和当前帧搜索区域的颜色通道,利用边缘检测算法在光流和颜色通道结合的图片块上检测,得到运动物体的边缘图;
步骤4:基于步骤3得到的边缘图,利用边缘的似物性方法提取目标的候选并对每个候选打分;
步骤5:基于步骤4得到的候选,利用超像素对候选框窗口进行调整,得到最终的运动目标的候选集合;
步骤6:在当前帧中的搜索区域中用步骤1得到的回归模型计算对应的响应值,并利用步骤1的回归模型计算步骤5中得到的运动目标候选的响应值;
步骤7:基于步骤6得到的响应值,选择响应值最大的候选矩形框并确定当前帧的目标状态;
步骤8:基于步骤7得到的当前帧的目标状态更新步骤1中的回归模型;
步骤9:判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。
其中步骤1包括如下步骤:
输入视频,获取视频第一帧,对以目标为中心,高和宽为目标λ倍的区域作为目标区域扩展,大小记为λw1×λh1,用扩展的图片块x采用KCF中的训练方法得到回归模型,引入核函数后,模型的解可表示为其中y为训练样本的标签,为训练样本通过核函数映射后乘积结果组成的矩阵的第一行。
步骤2包括如下步骤:
获取视频下一帧,以前一帧目标位置li-1为中心,前一帧高宽的λ倍作为当前的搜索区域z,其大小为λwi-1×λhi-1,在前一帧中提取相同大小的图片区域,利用LDOF计算当前帧搜索区域的前向光流。
步骤3包括如下步骤:
将步骤2得到的2维光流通道与当前帧搜索区域的R、G、B三个颜色通道结合,得到5维的图片块,利用结构化随机森林的方法计算图片块的边缘,得到边缘图。
步骤4包括如下步骤:
在得到的边缘图上,采用基于边缘的似物性方法产生运动目标的候选集合。
步骤5包括如下步骤:
对候选集合,对每个候选的矩形窗口进行调整,将当前帧的搜索区域采用SLIC简单线性迭代聚类算法进行超像素分割,扩张或缩小候选矩形窗口的4个边使其更贴近超像素的边缘,由调整后的矩形框构成候选集合。如图2所示,运动似物性窗口就是一个矩形框。
步骤6包括如下步骤:
利用步骤1得到的回归模型的解α和步骤2得到搜索区域z,调整z的大小为λw1×λh1,利用KCF核相关滤波中的检测算法计算搜索区域对应的响应值,计算公式为最大值记为v,由最大值的位置可得目标的位置ld。对每个步骤5得到的候选,调整大小为λw1×λh1,其响应值由计算得到,sum表示所有元素的和。其中的最大值记为fmax,其对应的位置记为lb,尺寸记为wb×hb。
步骤7包括如下步骤:
比较步骤6得到的两个最大响应值,若v>fmax,则当前帧的目标位置为ld,大小与前一帧保持不变,若v≤fmax则当前帧的目标位置为lb,大小为wb×hb。
步骤8包括如下步骤:
在当前帧的目标位置li,提取大小为λwi×λhi的图片块xi,更新步骤1模型中α和目标外观x。
步骤9包括如下步骤:
判断当前帧是否为视频的最后一帧,若是则结束;否则转入步骤2。
图3a~图3d是跟踪具有快速运动挑战的视频“Skiing”时的跟踪效果示例,图3a、图3b、图3c、图3d分别表示视频图像的第15、35、55、75帧,可以看出目标发生快速的运动,位置变化明显,并存在目标的尺度变化,本发明依然能够正确跟踪到目标,该图表现出本发明的目标跟踪方法对目标快速运动和尺度变化的较强适应能力。
本发明提供了一种基于似物性和相关滤波的目标跟踪方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。