全局运动估计
技术领域
本发明涉及一种用于全局运动估计的方法和设备。
背景技术
通常,运动估计(特别是全局运动估计)是视频处理的常用技术。全局运动估计通常用作各种算法(例如,时间内插和摄像机稳定)的使能技术。全局运动估计有时用作块/像素精确运动估计的低成本备选方案。
全局运动估计中的基本问题是区分全局和非全局运动。全局运动估计假设可以用少许参数来概述图像中的所有运动。当全局运动估计的假设不成立时,全局运动估计将提供不可靠的结果,由于全局运动估计被设计为提供简单的结果,其不能解释(说明)其中具有一个或多个独立运动目标的全局运动的场景。
还没有得到满意解决的问题涉及:全局运动估计是否能够用于在有前景目标的情况下可靠地找到背景运动,全局运动估计是否能够用于估计前景目标的运动,以及如何知道运动何时是全局的。
发明内容
其中,本发明的目的是提供一种改进的全局运动估计。在独立权利要求中限定了本发明。在从属权利要求中限定了有益实施例。
在根据本发明的全局运动估计中,确定输入视频信号的帧的曲线图。每一个曲线图包括针对帧的第一方向上的每一个像素的、通过组合帧的第二方向上的像素而获得的值。使用第一位移来对曲线图进行更新以获得更新后的曲线图,并且对更新后的曲线图进行匹配以获得第二位移。优选地,第一或第二位移是零位移。这对于移除诸如小标题或其他屏幕上图形之类的、在帧之间保持静态的静态结构尤其有利。可以自动地将零位移应用在该方法的其中一个阶段,或者该方法可以在将零位移应用于曲线图之前测试零值位移的曲线图之间的差的最小值。一般地,通过对彼此间不同的帧的曲线图进行匹配来获得第一位移。可以通过将曲线图中的一个移动该位移以获得移动曲线图、并且从移动的曲线图中减去曲线图中的另一个来实现更新。如果第二方向是垂直方向,则该曲线图可以包括针对水平方向上的每一个像素的垂直方向组合的(例如,平均的)像素值。可以采用相同的方式,以不同的位移值,对更新后的曲线图对进行比较,以找到引起最小误差的位移。
本发明的一个方面提出了一种方法,其利用迭代方式使用简单的全局运动估计来可靠地估计有前景目标的情况下的背景运动,以及估计视频中的前景目标的运动,即,除了较大背景之外还能找到前景目标。
本发明的另一方面提出了一种方法,其对通过全局运动估计所找到的解的质量进行量化,从而可以判断解的全局程度,或附加的前景目标呈现的突出程度。
在本发明的实施例中,应用曲线图匹配。分别针对每一水平位置,确定垂直方向上平均的像素值(因此对所有视频线进行平均)。以这种方式,为每一帧创建水平曲线图。这样的水平曲线图可以用于通过比较一个帧和另一帧的曲线图来检测水平位移,例如,通过确定每一个可能位移的平均绝对差:在最小差处产生的位移表示(主)水平位移。以类似的方式,可以通过对线上的所用像素进行水平平均来获得垂直曲线图,垂直曲线图可以用于检测垂直位移或垂直运动分量。因此,为了获得水平运动分量和垂直运动分量,执行本发明两次。显然,可以使用类似求和的其他操作来代替平均。
根据本发明的方面,为了确定第二位移,通过减去优化位移的曲线图来计算残差,由此从数据中消除第一解。然后,可以通过使用与用于确定主位移的过程相同的匹配过程来匹配残差曲线图,来找到第二位移。
优选地,一旦已经确定第二位移,使用第二位移对原始曲线图进行更新,并且再次估计主位移。由于第二位移不会再对数据造成破坏,因而利用这种方式可以获得对主位移的更精确的估计。
在实施例中,首先消除零运动分量(类似小标题的静态结构),之后可以可靠地检测背景运动。静态结构是TV图像中的普遍问题,由于附加的计算成本似乎较为有限的,始终主张检查零位移的存在。然后第二阶段的全局运动检测用于匹配帧差的曲线图。
在视频信号中被操作的帧可以彼此直接相邻。例如,如果输入视频信号具有编号为1、2、3...的帧,则该方法可以对帧1和2、帧2和3等进行操作。然而,被操作的帧在输入视频信号内可能被较宽地隔开,例如每隔4帧或8帧。被操作的帧的时间间隔将基于诸如可用于执行方法的处理资源以及要估计的运动速度等因素。
本发明的功能可以利用软件、硬件或其组合实现。本发明可以通过包括若干不同元件的硬件以及通过适当编程的处理器来实现。因此,本发明的另一方面提供了包括由计算机或处理器执行的、用于实现该方法的指令(代码)在内的软件。该软件可以有形地体现在电子存储器设备、硬盘、光盘或其他机器可读存储介质上,或者可以将该软件经由网络连接下载至处理设备。
参照下文所描述的实施例,本发明的这些和其他方面将变得显而易见,并得以阐明。
附图说明
图1示出了彼此移动10个像素的两个帧的线平均像素值的曲线图;
图2示出了图1中的两个曲线图之间的匹配误差;
图3示出了真实场景中两个后续帧的曲线图;
图4示出了作为针对图3中的情况下的像素位移的函数的匹配误差;
图5示出了图3所示的曲线图的残差;
图6示出了作为图5中的残差曲线图的像素位移的函数的匹配误差;
图7示出了迭代匹配过程的框图;以及
图8示出了置信度量。
具体实施方式
图1示出了彼此位移10个像素的两个帧的线平均像素值的曲线图(线平均LA对像素索引PI)。用虚线表示第一帧,而用实线表示第二帧。除了水平位移为10个像素以外,曲线是一致的。
图2示出了图1的两个曲线图之间的匹配误差ME(平均绝对差),该匹配误差ME作为来自与第二帧相关的第一帧的水平像素位移PS的函数。对于正好为10个像素的像素位移(Δx),匹配误差为零。此外,匹配误差呈现清晰且尖锐的曲线图,并因此呈现匹配误差的清楚的全局最小值。
图3示出了在具有向右移动的背景BG、由小标题的高对比度边缘控制的静态前景FG的真实场景中的两个后续帧(以虚线表示帧FR n,以实线表示帧FR n+1)的曲线图(线平均LA对像素索引PI)。在这种情况下,可以看到曲线图中一致部分(表示没有水平运动),而其他部分不一致,但是看起来移动了大约10个像素。对于全局(水平)运动,这里至少存在两个解,而不仅仅是一个解。
图4示出了作为图3的情况下像素位移PS的函数的匹配误差ME。注意,该曲线示出了两个最小值:由+10像素处的背景运动产生的全局最小值(BG),和由0像素处的静态前景产生的局部最小值。因此,与图2相反,该曲线图没有定义单个尖锐且明确的最小值。
图5示出了图3所示曲线图的残差(微分线平均DIF-LA对像素索引PI)。已经通过减去连续帧的曲线图消除了像素位移Δx=0处的第一解。虚线示出两个帧的残差曲线图,即,帧FR n和FR n+1,而实线示出下一帧对(即,帧FR n+1和帧FR n+2)的残差曲线图。应当注意的是,与图3中的曲线图相反,残差曲线图在形状上非常类似,并且仅在水平位移方面不同。
图6示出了作为图5中的残差曲线图的像素位移PS的函数的匹配误差ME。与图4相比,已经从曲线图中减去了位移Δx=0处的解。残差匹配明确地示出了Δx大约为10个像素处的明确的最小值的第二解。再次看到图2中的“纯”全局运动的理想匹配误差。
图7示出了迭代匹配过程的流程图。连续帧FR1、FR2、FR3、FR4充当用于曲线图(Prof1/Prof2/Prof3/Prof4)的计算(Comp Prof)的初始输入。接着,在位移/匹配操作S/M中对曲线图进行比较,产生优化匹配和相应的位移Δx12、Δx23和Δx34。在从上往下的第三行上,在更新曲线图操作Upd Prof中对对曲线图进行更新:曲线图在移动了优化位移Δx12、Δx23和Δx34之后,彼此相减。最后,在第二位移/匹配操作S/M中对更新后的曲线图进行匹配,产生第二解和优化位移的第二集合Δx′12和Δx′23。理论上,可以重复该过程,直到找到所有的解为止。对于每一个附加的迭代,通过添加另一行更新曲线图(Upd Prof)操作和位移/匹配操作(S/M)来使方框图向下延伸。
可以应用置信度度量来对解(即,最小值)的质量进行量化,并且判定是否接收/放弃由提出的方法所产生的全局运动矢量。如果全局最小值是明确的(即,最小值是否是‘尖点’?)并且局部最小值不突出,则该度量表示置信度为高。为了说明置信度度量,图8示出了匹配误差(ME)对像素位移(PS)的图。首先,在偏移全局最小值的位置(定位在位移PS=10个像素)±d的像素位移处,检验响应的高度。如果明确地定义最小值,则这些±d点处的垂直距离Δy1、Δy2应该较大。其次,检验任意其他最小点(Δy3)的高度。这些其他局部最小点的高度应该较大。这三个值中的最小值可以重新映射至范围[0..1],产生置信度度量,0意味着“不可信”,1意味着“完全可信”。备选地,可以基于这些值中的一个或多个来执行一些其他操作。在本示例中,如果局部最小值太突出(即,Δy3太小),则置信度可能会较低。
置信度度量还可以用于选择位移值。如图4所示,在位移/匹配操作期间,针对可能的位移值的范围获得匹配误差的值。匹配误差对位移值的图可以具有多个可能的最小值。可以针对可能的最小值中的每一个来计算置信度度量,并且置信度度量可以用于选择“最佳”质量最小值以及与该最小值相对应的位移值。然后,当顺序地更新曲线图时使用该位移值。
本发明的优选实施例可以概述如下。通过移动对曲线图进行匹配,这以最小匹配误差产生第一解。然后利用第一解,通过在移动之后减去曲线图来对曲线图进行更新。通过移动来匹配更新后的曲线图,以便以最小匹配误差获得第二解。使用置信度度量来计算两个解的质量(‘最小值是否是明确的最小值?’)。该方案使得能够在经常出现的突出背景场景(#像素=大)(例如,当目标/行为者跟随摄影机运动,并因此在摄影机图像为静态的)中找到前景目标,还能够在所获得的视频上创建背景运动。
在特定的情况下,算法首先通过减去具有零位移的曲线图(即,消除静态结构)来对曲线图进行更新。然后,通过移动来对更新的曲线图进行匹配,以找到任意解。利用置信度度量来计算两个解的质量。该特定的情况是有意义的、容易的情况。静态结构是TV图像中的普遍问题,由于附加的计算成本似乎较为有限的,始终主张检查零位移的存在。尽管优选地首先应用零位移来移除静态结构,但是备选地,可以在更新曲线图的第二阶段使用零位移。
在图7的流程图中,该方法沿着向下的方向前进,以确定第一、第二、第三等位移值。在每一阶段,使用更新后的曲线图。在本发明的备选实施例中,一旦已经确定第二位移,则利用第二位移值来更新原始曲线图(即曲线图FR1、FR2、FR3)。也就是说,将原始曲线图中的一个移动第二位移值,然后从原始曲线图的另一个中减去该曲线图。这具有移除第二运动(第二位移值)的效果。然后,以变化的位移值比较由该操作产生的更新曲线图,以确定得到更新曲线图之间的差的最小值的位移值。该最小值应当表示由于全局运动而产生的主位移。由于更新曲线图中的数据不再受到第二运动的破坏,本实施具有可以更精确地确定主位移的优点。
应当注意的是,上面所提到的实施例例证而非限制了本发明,并且在不偏离所附权利要求的范围的前提下,本领域的技术人员将能够设计许多备选实施例。“帧”的概念包括“场”的概念。本说明书可以用于设计用在电视机或其他视频信号处理设备中的视频处理器,以获得增强的视频信号。这种增强的视频信号与输入视频信号相比,每秒可以具有更大数目的场,或者可以是隔行扫描输入视频信号的非隔行扫描版本,或者已经经过处理以消除由胶片至视频信号的转换而产生的伪像,或者可以补偿无意识的手持摄像机运动。在权利要求中,括号中的任何附图标记不应解释为限制了本发明。词“包括”和相似的词不排除任意权利要求中所列出的那些元件或步骤以外的元件或步骤的存在。元件之前的单词“一”或“一个”不排除多个这种元件的出现。本发明可以通过包括若干不同元件的硬件和/或通过适当编程的处理器来实现。在列举若干装置的设备权利要求中,可以通过同一项硬件来体现这些装置中的一些。事实在于,彼此不同的从属权利要求中陈述的特定措施并不表示使用这些措施的组合是不利的。