CN104205844B

CN104205844B - 降低复杂度的运动补偿的时间处理方法及系统

Info

Publication number: CN104205844B
Application number: CN201280047492.9A
Authority: CN
Inventors: A·多拉佩斯; A·莱昂塔瑞斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-09-29
Filing date: 2012-09-27
Publication date: 2017-09-26
Anticipated expiration: 2032-09-27
Also published as: CN104205844A; HK1200048A1; WO2013049412A2; WO2013049412A3; US20140247888A1; US9667964B2

Abstract

一种用于预分析目的的用于降低的复杂度的运动补偿的时间处理的方法和系统。通过减少用于分析而处理的图片的数目、减少用于分析的参考的数目、和/或在空间上二次采样输入图片来降低处理复杂度。

Description

降低复杂度的运动补偿的时间处理方法及系统

对相关申请的交叉引用

本申请要求2011年9月29日提交的美国临时专利申请No.61/541,028的优先权，其全部内容通过引用合并于此。

技术领域

本申请涉及视频数据处理的领域。更具体地，本申请描述利用以前过去或将来的图片作为参考来产生当前图片的运动补偿预测的处理。

背景技术

运动补偿时域分析（MCTA）是对包括压缩性能/效率的优化、滤波、和视频内容分析和分类的各种应用有用的工具。MCTA后的前提是表征视频信号的时间相关性的采用。通常，视频中的图片将与先前图片共享相似的内容。这对压缩和滤波具有深远的影响。压缩是有益的，因为当前图片中的块可以被预测为一些先前图片中的移位的、扭曲的、或加权的块。位移参数被称为运动矢量并被需要以创建当前块的运动补偿的预测。如果用于预测当前块的运动模型是足够高效的，则当前块与它的运动补偿的预测之间的差距将是低的，并且因此易于压缩。但是，滤波也可以是有益的。如果预测足够接近图片中的当前块，则可以推测预测块正是具有不同噪声特性的当前初始块。但是，当前块也被假定是原始源块的变形版本，同样具有不同的噪声特性集合。如果每个块中的噪声被认为具有零平均值并且不相关，则简单地平均当前块与来自于一些其它的参考图片中的它的预测块将产生具有一半的误差/噪声能量的新的块，其更接近于原始源块。这可以被扩展到来源于多个参考图片的任意数目的预测块的加权组合。

运动补偿时域分析也已经用在时间小波的背景之内以用于视频压缩。例如，参见Y.Andreopoulos、A.Munteanu、J.Barbarien、M.van der Schaar、J.Cornells、和P.Schelkens，“In-band motion compensated temporal filtering”，SignalProcessing：Image Communication，vol.19,pp.653-673，和D.S.Turaga、M.van derSchaar、Y.Andreopoulos、A.Munteanu、和P.Schelkens、“Unconstrained motioncompensated temporal filtering（UMCTF）for efficient and fle×ible interframewavelet video coding”，Signal Processing：Image Communication，Volume20，Issue1，pp.1-19。运动补偿的时间滤波已被应用在原始像素值（参见以上引用的“Unconstrainedmotion compensated temporal filtering（UMCTF）for efficient and fle×ibleinterframe wavelet video coding”）以及已被转换到频域的值（参见以上引用的“In-band motion compensated temporal filtering”。）。视频序列被分割成图片组，每个组被独立编码。在那些组之内，运动补偿的时域分析用于提供对图片的子集的运动补偿预测。然后运动补偿预测误差用于完善其余图片，其再次被利用运动补偿来预测。最终的运动补偿预测误差被编码。即使在视频编码器之内的MCTA不由本公开解决，但是呈现在本公开中的一些方法也可以在使用运动补偿的时间滤波的视频编码器上适用。

滤波是受益于运动补偿时域分析的使用的应用之一。基于运动补偿时间滤波的去噪声的早期算法在Dubois和S.Sabri，“Noise reduction in image sequences usingmotion-compensated temporal filtering”IEEE Transactions on Communications，Vol.COM-COM-32,no.7,pp.826-831中得到。本领域中首次贡献的综述出现于J.C.Brailean、R.P.Kleihorst、S.Efstratiadis、A.K.Katsaggelos、和R.L.Lagendijk的“Noise reduction filters for dynamic image sequences：A review”，Proceedings ofthe IEEE，vol.83，pp.1272-1292，95年9月。用于基于MCTA的预滤波的更接近的方法出现于J.Llach和J.M.Boyce的“H.264encoder with low comple×ity noise pre-filtering”，Proc.SPIE，Applications of Digital Image Processing××VI，vol.5203，p.478-489，8月03；A.Mclnnis 和S.Zhong的“Method and system for noise reduction with amotion compensated temporal filter”，美国专利申请公开No.20070014368；以及H.-Y.Cheong、A.M.Tourapis、J.Llach、和J.Boyce的“Advanced Spatio-Temporal Filteringfor Video De-Noising”，Proc.IEEE Int.Conf.on Image Processing，vol.2，pp.965-968。“H.264 encoder with low comple×ity noise pre-filtering”（以上引用的）描述了在H.264/A VC视频编码器之内的运动补偿模块的使用以执行时间滤波。由过去图片的多个运动补偿预测被生成并且被平均并与当前图片混合以执行时间滤波。也利用基于阈值的3×3像素平均滤波器在空间上对图片滤波。在“Advanced Spatio-Temporal Filteringfor Video De-Noising”（以上引用的）中提出更先进和一般的方法，其考虑过去和将来的图片。利用被适配到源信号的特性的加权平均值进行来源于不同图片的多个运动补偿预测的组合。此外，空间滤波采用小波滤波和维纳滤波的组合。下面更详细地描述运动补偿时域分析法模块，其遵循呈现在“Advanced Spatio-Temporal Filtering for Video De-Noising”（以上引用的）中的架构。

图1示出实施运动补偿时域分析的运动补偿时空滤波器的方框图。输入到图1所示的MCTA模块的是图像像素，并且可选地，在分析模块中初始化运动模型和空间滤波的运动和空间滤波参数。处理布置由下列主要组件构成：

1.空间滤波器（小波、维纳滤波器，其它）。

2.利用任意运动模型的运动估计和补偿。

3.时空去块化滤波器（可选的）。

4.纹理分析（例如经由空间频率分析）。

5.亮度和色度信息模块。

图1中的双预测运动估计（BME）模块110执行双预测的运动估计，而运动估计（ME）模块120执行单预测的运动估计。下标表示相对于当前图片的参考图片的时间距离。双预测运动补偿（BMC）模块130利用在相应的BME模块110导出的那些作为运动矢量来执行双预测运动补偿。类似地，运动补偿（MC）模块140利用来自于相应的ME模块120的运动矢量执行单预测的运动补偿。空间（SP）滤波器151、153、155、157执行包括高通和低通滤波一集去块化等的各种功能。缓冲器Buff1 161和Buff2 163包含先前和将来的空间上和时间上滤波的图片。权重w被调整以最小化预测误差。输入图片可以由三个可用的空间滤波器151、153、155中的一个在空间上滤波，其参数可根据已经由MEMC组件处理的图片的统计量来调谐。注意可以使用除了图1中具体描述的之外的时空滤波拓扑。例如，BME模块110可以对诸如-M、+N之类的不同时间距离的帧进行操作。

每个输入图片利用一些参考图片经历运动估计，以输出该图片的运动补偿的预测。输入图像被分割成可以具有任意大小（例如8×8像素）的像素块或区域。对于本公开，术语图片的块、区或区域可互换地使用。利用运动估计将当前图片中的块n与从参考图片n-k的一些部分生成的预测块进行匹配。ME组件确定指向预测块的运动参数。为了生成此预测块，MC模块140需要由ME模块120传递的运动参数。选择的运动参数最小化原始当前块与导出的预测块之间的一些代价。在许多可能的代价当中，可以使用的一个是原始块与预测块之间的平均绝对差（MAD）。可替换代价可以包含MAD加上表示运动场相似性的值的总和。运动场平滑性或相似性要求属于相邻块的运动参数相似或相关。运动场相似性降低编码运动参数需要的比特数目，并且可以减少在应用于产生当前图片的运动补偿预测时的块化假象。

一般，来自于图片n-k中的图片n的运动补偿（MC）预测创建从图片n-k中汲取的预测块。然后MC组件采取来自于参考图片n-k中的预测块并且将它们组合以形成最佳逼近图片n的运动补偿的图片。注意用在ME和MC模块120、140中的运动模型可以利用任何已知的全局和本地运动模型，诸如仿射和平移运动模型。

运动估计和补偿不被限制到仅仅如图1所示的先前图片。事实上，k可以采取正负值并且运动补偿使用多个参考图片，如图2所示。图2示出利用来源于过去和将来图片的块的加权线性组合对当前图片的预测。一个假设使用图片n-1作为参考，而另一个将使用图片n-N。也使用图片n+1至n+N。注意利用来自于将来的参考图片导致延迟，因为在完成图片n的运动估计之前高达N个将来图片将必须被缓冲。为了低迟延的应用，可以限制运动补偿以采用过去的图片作为参考。

图片n中的块的运动补偿预测也可以是来源于不同的参考图片的多于一个预测块的线性加权组合。在一个可能的布置中，图片n中的当前块可以被预测为从图片n-2导出的预测块和从图片n+1导出的预测块的线性加权组合。此特定预测结构也称为双向预测。在另一个可能的配置中，预测块可以是从图片n-1导出的预测块和从n-2导出的另一个预测块的线性加权组合。整体的预测（利用平移运动模型的加权预测）在下面等式1中表示为：

等式1

不考虑部分像素运动补偿预测，图片n中的块的像素p_n(i,j)可以被预测为图片n-m至图片n+m中的移位块的线性加权组合。注意m是正数。在其它可能的实现中，组合不需要是线性的。

注意如等式1所述的多个假设下的运动估计和补偿的特例是所谓的重叠块运动估计和补偿。在图18中描述重叠块运动补偿和估计的示例。在图18中，块的中心部分被利用单个运动矢量（MV）预测为单个预测块，但是，块边界是通过利用当前块MV产生的预测样本以及通过利用相邻块的MV产生的样本二者的完全加权线性平均。例如，顶部重叠区是当前MV和在当前块的顶部的块的MV二者的加权平均。在左上方的重叠区类似地是利用当前、左、左上方、和顶部块的四个MV预测的样本的加权平均。此类技术可以减少在块边缘处的块化假象，以及其它益处。

运动估计方案也可以采用分级策略。分级策略可以既通过避免局部极小值改善估计性能但是也可以甚至帮助估计速度。一般，这些方案执行某种空间二次采样，导致图像金字塔，其中在每个级别输入图像可以通过例如2的恒定比例被二次采样。首先在最高（最低分辩率级别）分层结构级别处执行运动估计。然后在此级别导出的MV被归一化到下一个较低级别（例如乘以2）并且被用作预测器或对下一个级别的约束。在下一个级别再次执行ME，利用等比例的MV作为预测器和约束。此处理重复直到在原始的最高分辨率处导出MV。利用先前级别作为预测器，可以限制用于下一个级别的搜索范围。

MEMC框架可以生成如图3和图4所示的多个MAD预测误差度量。图3示出利用MEMC框架和来自于过去的一个参考的MAD计算。图4示出利用MEMC框架和来自于将来的两个参考的MAD计算。在运动估计期间生成一组预测误差度量并且其对应于每个参考块或参考块的组合，其又可以来源于不同的图片。可以在已经对于当前图片中的所有块完成运动补偿之后计算第二个。运动补偿可以创建不需要的块化假象。可以通过对最终运动补偿图片应用去块化滤波器减小这些假象。此外，构成最终预测图片的块不一定来源于相同的帧（块可以是从若干参考帧中选择出来的）。例如，一个块可以是图片n-1和n-2中的块的加权组合，而另一个块可以从图片n+2中预测。因此，此最终预测图片与原始图片之间的MAD预测误差可以不与ME预测误差的总和相同。例如，对最终运动补偿预测参数应用去块化可以导致MAD预测误差与ME预测误差的总和之间的差异。

运动补偿时域分析模块可以用于改善压缩性能和滤波质量。模块可以改善图片和场景复杂度分类（预分析）。预分析可以显著地影响压缩性能和视觉质量。它可以用于分类场景和拍摄、检测场景改变和诸如衰落之类的逐渐场景转变。它也可用于预测场景复杂度，其然后可以用于优化比特率分配和在视频编码器处使用的运动补偿预测结构（例如是否、以及多少、以及何处放置双预测编码的图片）。

时域分析系统的复杂度可以是相当大的。考虑使用利用两个过去图片和两个将来图片的运动补偿预测每个输入图片的示例。最初，每个图片块可以从来自于四个可能的参考图片中的一个中的单个块预测。这将需要代价大地进行四次运动估计。但是，如等式1所示，预测块可以通过线性地组合来源于不同的（乃至相同的）参考图片的任意数目的预测块形成。对于多个假设，例如预测块作为与不同的MV并且甚至不同的参考图片对应的多个预测块的线性组合，必须联合估计多个运动矢量。这里注意，在用于单预测时最优的运动矢量可以不与在它是多个平均的参考中的一个时用于同一参考图片的最优运动矢量相同。可以这样做以简化估计但是结果将次优的。仅仅所有MV的联合估计将提供最优性能。但是，这在计算上通常是不可实行的。即使这被限制到双预测运动估计，这也将需要用于两个块0和1的运动估计的联合优化（其将基本上导致测试参考帧的所有成对组合）。为了实现这一点，已经建议应用迭代运动估计，其中预测块0被固定并且应用运动估计以得到最佳的预测块1。在下一步骤中，块1被固定，并且应用运动估计以得到新的并且更佳的块0。再一次，块0被固定并且应用运动估计以完善块1，等等。因此，即使时间滤波可以改善压缩性能和视觉质量，它也很复杂并且通常保留给诸如其中计算复杂度不是大的问题的DVD和广播编码之类的高端应用。

运动补偿的预分析的复杂度成本变得对功率和存储器受限的应用是禁止的。由于对于输入图片和它的可能参考图片的每个组合不得不执行大量运动估计计算，功率使用率受到损失。此外，存储器复杂度是高的，由于在运动估计和补偿处理期间不得不在存储器中维护大量过去和将来参考图片。存储器复杂度受到损失，因为运动补偿参考的大小可以是大于原始输入大小的数量级。例如，如果四分之一像素运动补偿用于预测块，则存储四分之一像素的准确图片参考需要的存储器将是4×4=16倍存储原始输入图片需要的存储器。

因此，期望降低运动补偿时间预分析的计算和存储器复杂度同时考虑实现高性能预分析、滤波、和运动参数生成的方法和系统。

附图说明

图1是运动补偿时空滤波器的方框图。

图2示出了利用来源于过去和将来的图片中的块的加权线性组合对当前图片的预测。

图3示出利用MEMC框架和来自于过去的一个参考的MAD计算。

图4示出利用MEMC框架和来自于将来的两个参考的MAD计算。

图5示出利用用作参考的两个过去图片和两个将来图片的运动补偿处理。

图6是运动补偿的时间预分析的方框图。

图7示出了用于预分析的缓冲的图片。

图8示出利用对奇数帧的四个运动分析和对偶数帧和1:2二次采样的1个运动分析的低复杂度的时间运动补偿预分析。

图9示出通过因子3对运动分析的时间二次采样（1:3二次采样）。

图10示出了通过采样所有图片的时间预分析。

图11示出利用对图片的自适应采样的时间预分析。

图12示出受平行化作用的预分析的可替换结构。

图13示出一般时间预分析二次采样结构。

图14示出分析的图片和以一半帧速率分析视频序列的参考图片的时间二次采样。

图15示出了对场景改变的检测的二元搜索。

图16示出以一半帧速率分析视频序列并且可以使用任何参考图片时分析的图片的时间二次采样。

图17是用于二次采样的时间预分析完善的二元搜索的方框图。

图18描述重叠块运动补偿和估计的示例。

图19示出用于分级预分析的方框图。

具体实施方式

在下面描述中，为了说明目的，阐述许多细节以便提供对本发明的各个实施例的彻底的理解。但是，本领域技术人员将清晰，在没有一些细节的情况下也可以实践本发明的实施例。在其它实例中，公知的结构和设备以方框图形式示出以便避免不必要地模糊本发明。

以下的公开描述用于利用运动预测/补偿对视频序列的降低复杂度的时间预分析的方法。可以在图6中得到此类系统的一般图。此类系统由下列主要组件构成：（a）空间向下采样模块610，（b）运动补偿预分析组件620，（c）预滤波器630，和（d）视频编码器640。预分析组件620接收输入帧601和由向下采样模块610生成的二次采样帧603。运动补偿时间分析器由于对运动估计的处理而具有高的计算和存储复杂度，其与用于运动补偿预测的可用参考图片的可能组合成比例。利用以下马上列出的各种方式可以降低复杂度：

（a）可以经由二次采样减少处理的图片的数目。此方法采用时间二次采样。

（b）也可以减少用于运动估计和补偿的参考的数目。

（c）可以利用一些向下采样空间滤波器或可选地某种比特深度二次采样/减少技术对输入图片在空间上进行二次采样。在以下的补充细节中描述用于复杂度降低的方法。

一般，本公开将参考两种类型的样本，从其它参考图片预测的采样的输入图片，和表示被用于采样的输入图片的运动补偿预测的参考图片的参考图片样本。

给定目标应用实际布置不同并且影响整个预处理系统的效率。给定这里讨论的方法预期用于的应用，这里讨论的方法可以被特征化。目标应用列举如下：

（a）图片和场景复杂度分类。

（b）比特率分配。这密切地取决于（a）。

（c）视频编码器预测结构确定。这也密切地取决于（a）。

（d）预滤波。

以下马上概括本发明的六个实施例。将在本公开后面部分中的进一步细节描述这些实施例。本领域技术人员将理解这六个实施例是示例实施例并且附加的实施例在本公开的范围之内。

在第一示范性实施例中，对于某些采样的输入图片减少参考图片样本，而所有输入图片被采样以处理。可以对所有或某些采样的输入图片减少参考图片样本的数目。减少的模式可以是任意的，但是优选地它用这样方法被组织以使得可以从产生的参数推断缺失的统计和参数。模式也可以是周期性的并且它也可以适应于底层视频序列的统计。例如，低运动视频序列可以需要低的采样率而高运动视频序列可以需要高的采样率。如以下的补充细节所述，根据此第一实施例的处理可以适应于内容。

上述采样率指代参考图片样本。此复杂度减小技术与所有以上列出的四个应用兼容。

在第二示范性实施例中，利用相同数目的参考图片处理所有图片，并且与第一实施例相反，采样的输入图片的数目小于输入图片的总数（时间向下采样）。这是输入图片的时间向下采样的情况。在预分析模块中仅仅处理子集。向下采样模式可以是任意的或可以是周期性的。最佳地，它适应于视频信号的底层统计。例如，具有许多活动的场景可以不得不非常频繁地被采样，而具有低运动的场景可以利用较低频率被采样。关于如何适应采样频率的决定可以通过处理包括运动补偿预测误差（诸如SAD或MSE值）和运动模型参数（运动矢量和加权预测/照度补偿参数）的过去的统计来导出。类似先前的实施例，根据此第二实施例的处理可以适应于内容。由一到二的因子对采样的输入图片进行二次采样可以将预分析系统的复杂度减小一半。此复杂度减小技术与应用（a）、（b）、和（c）兼容。时间滤波将是次优的。

在第三示范性实施例中，在第一示范性实施例和第二示范性实施例二者中描述的算法被合并以实现采样的输入图片和参考图片样本的二次采样。采样模式或者是随机的、或者是周期性的、或者任意的、或者适应于参考目标应用用于增加的性能的视频序列的底层统计。类似上面描述的实施例，根据此实施例的处理也可以适应于内容。潜在地，上面列出的所有应用与此示范性实施例兼容。

在可以与上面描述的上述实施例中的任何一个组合的第四示范性实施例中，输入图片此外被在空间域中二次采样（向下采样）。此实施例不直接与预滤波应用（d）兼容。但是，它可以帮助大大地降低复杂度（例如对于在每个空间维度中2的向下采样因子，以因子4降低复杂度），并且对于应用（a）、（b）、和（c）仍然保持足够良好的性能。类似上面描述的实施例，根据此实施例的处理也可以适应于内容。

在第五示范性实施例中，使用在采样的输入图片和参考图片样本向下采样的情况下（参见上面描述的第三示范性实施例）可以保证可靠的场景表征的算法。此实施例维持预测误差统计并且如果这些超过某些阈值则启动二元搜索，其目标是检测场景转变，诸如场景改变和衰落，其出现在没有被采样为采样的输入图片或者参考图片样本的图片中。

第五示范性实施例的内容适应可能如下。驱动自适应二次采样的信息可以来自于先前的预分析过程（下面在第六示范性实施例中描述的）或者通过处理过去的预分析统计而来。运动的模型可以被创建并且对于给定的过去行为试图预测在场景中的运动。如果过去图像具有高运动，则频繁地采样，如果不，则较不频繁地采样。也可以包括回退（如果执行较不频繁的采样，但是清楚运动是高的，则进一步的中间采样可以被获得以避免误差）。

在第六示范性实施例中，先前的实施例可以被修改以创建分级预分析系统，其中执行在某一时空分辨率处的第一分析，并且然后给出那个分析的结果，空间分辨率或者时间分辨率或者两个分辨率被增加并且进一步完善分析。此预分析可以提供在以上实施例中描述的处理然后适应于提供的信息的内容。执行在较低时间或者空间分辨率处的分析的优点是整个运动分析是较低复杂的，因为例如搜索更少的样本。但是，低分辩率搜索可能较不准确，因此本发明的实施例可以合并上面描述的分级分析系统，以改善运动估计的整体准确度同时允许估计的复杂度的降低。

根据本发明的实施例的系统包括:（a）时间预分析运动估计和补偿模块；（b）空间向下采样模块；（c）引入延迟并且使能利用将来参考图片用于运动补偿预测的缓冲存储器模块；以及（d）使它的编码参数、比特分配、和预测结构适应从预分析模块接收到的信息的可选的视频编码器。系统另外可以包括从预分析模块中接收运动参数和其它控制信息的预滤波器。

本发明的实施例通过使用时空二次采样降低运动补偿时间预分析和预滤波系统的复杂度。在图7中示出了用于一般预分析系统的图片缓冲。缓冲所有或者一些输入图片并且对于所谓的当前图片（具有最暗光影的一个）利用来自于过去和将来二者的参考图片作为预测参考图片执行运动补偿的时域分析。在如图10所示的传统的运动补偿时域分析中，利用MCTA采样并且处理所有输入图片。考虑例如图5的情况，其中来自于将来的两个运动补偿的参考和来自于过去的两个运动补偿的参考用于预测当前图片。让MV_u,v表示利用运动估计导出的从图片u预测图片v的运动参数。在时刻T=n处，利用运动参数MV_n-2,n从图片n-2预测图片n，并且也利用运动参数MV_n-1,n从图片n-1预测。也利用运动参数MV_n+2,n从图片n+2并且利用运动参数MV_n+i,n从图片n+1预测图片n。然后，继续前进到下一个图片，利用运动参数MV_n-1，n+1从图片n-1并且也利用运动参数MV_n,n+1从图片n预测图片n+1。再次，预测从将来图片发生：利用运动参数MV_n+2,n+1从图片n+2并且也利用运动参数MV_n+3,n+1从图片n+3预测预测图片n+1。对于所有采样的输入图片：n+2、n+3、等等，继续相同的处理。为了简化这里讨论的示例，假定每个预测（这里的四个）从单个图片导出。下面描述的实施例也可应用于其中每个预测由来源于不同参考图片的块组成的情况。

在第一示范性实施例中，参考图片样本数目随每个采样的输入图片而变。在处理输入图片方面不执行时间向下采样：所有输入图片被采样并且处理。在一个示例中，对于每个采样的输入图片假设最大数目的参考图片样本，对于特定采样的输入图片减少用于运动估计和补偿的参考图片的数目。在此方法的一个可能布置中，用于参考图片样本的采样模式是周期性的，周期为二，并且在图8中示出。运动估计和补偿保持对偶数编号的输入图片保持不变。但是，对于奇数图片，限制运动估计和补偿操作。从最远的将来图片到当前图片仅仅执行四个操作当中的一个操作。例如，对于时刻n+1，利用输出运动模型参数MV_n+3,n+1的参考图片n+3预测图片n+1。对于利用输出运动模型参数MV_n+5,n+3的参考图片n+5预测的图片n+3同样如此。如果运动预测是不可用的，则将运动预测限制到最远的图片的动机必须处理不能重构这些运动参数。但是，对于图片n+2的三个缺失的运动参数可以从先前采样的输入图片的运动参数推断。考虑例如图片n+3。缺失的运动参数是MV_n+1,n+3、MV_n+2,n+3、和MV_n+4,n+3。

在一个实施例中，可以如下估计缺失的参数：

（a）MV_n+1，n+3被估计为通过处理图片n+1可用的-MV_n+1,n+3或者为在处理图片n+2之后可用的（MV_n+1,n+2-MV_n+3,n+2）。负号表示平移运动参数的符号是相反的。在加权的预测参数情况下，权重被相乘（对于加号）或者相除（对于负号）。对于较高阶运动模型，一些类型的投影或者运动线程用于跟随从一个图片到其它的运动。

（b）MV_n+2,n+3被估计为通过处理图片n+2可用的-MV_n+3,n+2。

（c）最后，MV_n+4,n+3被估计为可以从处理图片n+2中获得的0.5×MV_n+4,n+2或者为在处理图片之后可用的（MV_n+4,n+2-MV_n+3i,n+2）。

类似方法可以使用于估计采样的输入图片n+1的运动参数。这些重构的参数然后可以用于图片和场景分类、滤波和视频编码优化，如同将使用原始的参数。在视频编码器操作者不确信它们的可靠性的情况中，一些功能可以被限制，即，在产生预测块的加权的线性组合期间，与用于更可靠的预测的那些相比较，用于平均不可靠的预测的权重可以被降低。

可以为所有或者某些采样的输入图片降低用于运动补偿预测的参考图片的数目。向下采样模式可以是任意的，但是优选地它用这样方法被组织以使得可以从如上所述产生的参数中推断缺失的统计和参数。在上面描述的示范性实施例中，向下采样率大约是1比2。一般，用可以从被完全地处理的图片的运动参数容易地估计缺失运动参数的方法（周期性的或者看起来任意的）禁止运动预测。这可以从单个方向（过去）或者两个方向（过去和将来）进行。二次采样模式也可以是周期性的并且它也可以适应于底层视频序列的统计。例如，低运动视频序列将需要低的采样率而高运动视频序列将需要高的采样率。上述采样率是指参考图片样本。参考图片的数目的减少可以被按上面描述的分级预分析系统的方式组织。

在第二示范性实施例中，参考图片样本的数目被保持相同，并且与第一示范性实施例相反，采样的输入图片的数目可以小于输入图片的总数。此外，用于运动补偿预测的参考图片仅仅从采样的输入图片中提取。此方法的特例将每第二视频序列每原始30帧的每个第二版本分析15帧。图14示出此情况。代替在图10中采样所有输入图片，采样模式可以如图13所示的一个一般。向下采样模式可以是任意的或者可以是周期性的。通过一到二的因子对采样的输入图片进行二次采样可以将预分析系统的复杂度减少一半。示范性采样模式包括图11和图12所示的模式。

图11所示的采样模式将输入图片的采样频率适应输入视频的统计。输入图片最初以一半输入速率被采样，然后以输入速率的三分之一，继之以一半输入速率采样，然后以输入速率的相等速率，等等。图11中的插入图示出对于图片n+28到图片n+37的一些细节：从那些10个图片当中，五个正在利用运动补偿时域分析被采样并处理。举例来说，描述图片n+31的分析。从已被采样的时间上最接近的两个过去图片：图片n+28和图片n+29，预测图片n+31。它也被从两个将来图片：n+33和n+37预测。

具有许多活动的场景可以不得不非常频繁地被采样，而具有低运动的场景可以利用较低频率被采样。关于如何适应采样频率的决定可以通过处理包括运动补偿的预测误差和运动模型参数（运动矢量）的过去的统计导出。适应采样频率的另一个方式是通过一些预先准备：每几个帧一次，当前帧，即帧n，利用帧n+N（N是正的）预测，其中N足够大。根据参考一些预先定义的或者固定的阈值的预测误差的值，然后可以适应用于区间[n+1，n+N-1]中的帧的采样频率。压缩采样的原理（参见例如，E.J.Candes，“Compressive Sampling”Proceedings of the International Congress of Mathematicians，Madrid，Spain，2006）可以用来最优地改变用于输入视频信号的采样频率，导致相当大的计算和存储复杂度增益。另外，第一快速预分析过程可以基于输入图片的空间上二次采样的版本执行并且此信息被处理以最优地适应用于完全分辨率原始采样的输入图片的采样模式。

在图9中示出了具有1比3的向下采样率的低复杂度的运动补偿时域分析模块的示例。在图8中的结构使用过去图片运动参数估计缺失的那些，在图9中的结构被设计为利用双向缺失运动参数估计。这引入三个图片的延迟，但是允许在运动参数准确度中对于较小损失的较大的复杂度减小。图9示出利用来自于过去和将来二者中所有可用的预测参考充分地处理图片n和n+3。对图片n+1和n+2不进行运动估计和补偿。但是，缺失的运动模型参数可以从用于预测图片n和n+3的运动参数估计。

对于图片n+1，缺失参数可以被估计如下：

（a）MV_n-1,n+1被估计为在处理图片n之后可用的（MV_n-1,n-MV_n+1,n）。

（b）MV_n,n+1被估计为在处理图片n之后可用的-MV_n+1,n。

（c）MV_n+2,n+1被估计为0.5×MV_n+2,n或者为在处理图片n之后

可用的（MV_n+2,n-MV_n+1,n）。

（d）MV_n+3,n+1被估计为在处理图片n之后可用的-MV_n+1,n+3。

对于图片n+3，缺失参数可以被估计如下：

（a）MV_n,n+2被估计为在处理图片n之后可用的-MV_n+2,n。

（b）MV_n+1,n+2被估计为在处理图片n+3之后可用的0.5×MV_n+1,n+3或者为在处理图片n之后可用的-0.5×MV_n+2,n。

（c）MV_n+3,n+2被估计为在处理图片n+3之后可用的MV_n+2,n+3。

（d）MV_n+4,n+2被估计为在处理图片n+3之后可用的（MV_n+4,n+3-MV_n+2,n+3）。

在第三示范性实施例中，如上对于第一示范性实施例和第二示范性实施例描述的算法被组合以实现采样的输入图片和参考图片样本的二次采样。采样模式或者是随机的、或者是周期性的、或者任意的、或者适应于视频序列的底层统计以便针对目标应用提高性能。二次采样可以用于输入图片，但是任何图片可以被用作预测参考，包括没有被采样的输入图片。图16示出了此类二次采样，其中任何图片可以被用作预测参考。此采样模式与在图14中示出的一个相比较的优点是改善的时间分析。虽然在图14中的结构仅仅分析偶数的或者奇数的图片，但是诸如在图16中的在参考图片方面不受约束的采样结构可以收集关于序列中所有图片的信息。例如，考虑以下情况，其中具有指数n+4×k（其中k是整数）的图片从最接近的偶数指数的图片预测，并且具有指数n+4×k+2（其中k是整数）的图片从最接近的奇数指数的图片预测。即使一半图片被采样和处理，参考图片也可以被设置为包括没有被采样的图片并且因此计算诸如MAD预测误差之类的关键统计。这些统计可以便于非常可靠的场景和以大约一半的计算复杂度的图片复杂度分类。与图14相比较唯一的缺点是存储器复杂度保持大约相同。

在可以与上面描述的示范性实施例中的任何一个组合的第四示范性实施例中，输入图片另外被在空间域中、并且可选地在比特深度域中二次采样（向下采样）。此方法可以帮助大大地降低复杂度（例如对于每个空间维度中2的向下采样因子，以因子4降低复杂度），并且对于如下应用仍然维持足够良好的性能，这些应用诸如（a）图片和场景复杂度分类；（b）比特率分配；以及（c）视频编码器预测结构确定；如上指示的。这可以对于部分或者整个图像序列进行。

参考图片的空间二次采样可以使用不引入混叠的技术，因为混叠可以反面地影响运动估计处理，考虑到它可以导致的“假象”和新的“频率”信息。因此最好是首先应用抗混叠滤波器以试图尽可能避免混叠的引入。当然仍然容许一些混叠。也可以期望不滤波太多，因此可以仍然保持诸如边缘（强滤波可以影响此类信息）之类的信号的最重要的特性。

滤波也可以是将信号从一种形式转换到另一种形式的类型。具体地，特别是对于硬件应用，可以采取N比特信号并且将它转换成M比特，M<N。M甚至可以等于1（即转换成为二元图像）。然后可以对此类边缘图像信息计算运动信息。可以被看作比特深度二次采样的此方法可以被容易地与空间和时间二次采样方法结合。通常推荐首先应用时间的、然后空间的（抗混叠滤波器的应用，继之以向下采样）、并且然后比特深度的减少。

运动估计显然应用在此较低分辩率中（并且如果使用的话，在较低比特深度中）。因为搜索较少样本，所以这降低了搜索的复杂度，但是当然也降低了准确度。这涉及分级搜索，其中在低于完全分辨率的级别处停止搜索。甚至在空间二次采样处的运动估计，并且可选地比特深度二次采样级别处的运动估计可以仍然受益于分级运动估计技术。

图12的采样模式服从并行化，因为不同的CPU或者GPU可以被分配给每组图片。一般，此采样模式包括M个连续的采样的图片的周期，继之以不被处理的N个连续图片。再一次，用于运动预测的参考图片仅仅从正被采样的图片中提取。在图12的插入图中示出了用于图片n+24的运动预测。图片n+24被从图片n+23和n+22（过去）、图片n+30和n+31（将来）预测。虽然此采样模式在并行化和复杂度降低方面是高效的，但是它可以在检测场景改变或者诸如衰落、交叉衰落、闪烁、照相机遥摄和变焦之类的其它重要的场景转变中具有问题。场景表征对压缩效率和随机访问目的是非常重要的并且是对时间预分析系统的最关键功能中的一个。不失一般性，下面描述场景改变检测的处理。场景改变检测可以利用或者空间或者时间处理进行：如果一个图片具有与另一个非常不同的亮度统计，则场景改变可以发生。相当于，如果在从参考图片预测当前图片时运动预测误差大于某一阈值，则场景改变可以发生。但是，在N是大的时，存在高的在场景改变已经发生很久以后才检测到场景改变的概率。这也对其它类型场景转变也是成立的。在图12中，场景改变可能已经在图片n+25处发生。但是，运动预测利用参考图片n+30发生，其将导致大的预测误差并且可以因此被误分类为场景改变。

在图15中描述的第五示范性实施例借助于快速的搜索算法（在这种情况下是二元搜索）解决上述问题（即，包括二次采样的任何采样模式可以丢失场景转变）。现在在补充细节中描述所述方法。假设N是没有被采样或者用作n和n+N+1的两个采样的图片之间的参考图片的图片数目。如果图片n和它的从图片n+N+1运动补偿的预测之间的预测误差（例如，MAD）超过阈值，则不得不执行更多的分析以检测诸如场景改变之类的潜在场景转变。如果图片n+N+1和它的从图片n运动补偿的预测之间的预测误差超过阈值，则这同样也是有效的。在那种情况下，处理的图片n或者n+N+1从图片n+N/2预测。如果预测误差仍然超过阈值，则它从图片n+N/4预测。否则，它从图片n+3×N/4预测。此迭代被重复直到搜索空间已被减小到一个图片并且不再能被二等分。迭代的数目大约log₂（N）。假设MAD_u,v表示在图片u用于预测图片v时的预测误差。在图17中提供用于场景改变检测和复杂度分类的二元搜索的信息图。

如在图15中描述的示例所示，此处理如下：

（a）利用运动补偿从图片n+8预测图片n，并且

得到预测误差大于阈值T₀。

（b）图片n然后从图片n+l+（（n+7）-（n+l））/2=n+4预测，并且

得到预测误差小于阈值T₁。

（c）图片n然后从图片n+4+（（n+7）-（n+4））/2=n+6预测，并且

得到预测误差大于阈值T₂。

（d）图片n然后从图片n+4+（（n+6）-（n+4））/2=n+5预测，并且

得到预测误差大于阈值T₃。

在二元搜索算法的三次迭代之后，图片n+5已被检测为场景改变。

如上述简要地讨论的，第六示范性实施例合并先前实施例的各方面以创建分级预分析系统，其中执行在某些时空分辨率处的第一分析，并且然后给定那个分析的结果，可以增加空间分辨率或者时间分辨率或者两个分辨率以进一步完善分析。图19示出用于分级预分析系统的方框图。第一预分析过程920确定用于执行第二预分析过程922的参数。第一过程920被设计为具有比最终过程更低的复杂度并且估计用于第二过程922的设置（哪种二次采样、多少参考，等等）以使得最大化此类预分析性能（运动矢量、分类、表征的质量，等等）。在一个示例中，即使它在低分辩率（时间的和空间的）处操作，第一过程920也确定用于特定片段的高运动。然后它指示第二或者后续过程922使用较高的时间分辨率。对于两个分析过程，可以在分析之前使用向下采样910、912或者可以对输入视频的二次采样版本执行分析。

第六实施例也可以合并附加或者后续的预分析过程。如果例如，第一或者较早的预分析模块确定它导出的统计不是足够可靠，则可以需要这些过程。可靠性可以被估计为预分析结果的一些统计分析、一些理智校验、或者与过去预分析统计的比较的函数。然后，可以执行具有增加的时间或者空间或者时空分辨率的附加过程。这可以不包括整个输入序列，而仅仅是其结果被认为是不可靠的子集。

如上所述的方法和系统可应用于使用任意类型运动模型、以及用于运动补偿预测的任意数目的参考图片的运动补偿的时间分析。预测误差可以或者是平均绝对差、或者均方误差、或者表示由于误预测引起的失真的一些其它度量。运动补偿的参考图片可以在图片之间变化并且可以具有与当前图片的任意位置和时间距离。它们不需要是连续的。也注意，如上所述的方法和系统适用部分像素运动补偿以及用于较高阶运动模型的情况，诸如仿射运动模型。

以上一般描述的实施例的描述对单个视图视频图像操作，即典型的二维视频图像。但是，这些操作可以被应用于多视图视频图像，诸如例如三维立体视频图像。在一些多视图应用中，实施例可以独立地对视图操作，其中运动估计从与视图中的一个相关联的帧集合导出。在其它多视图应用中，实施例可以对从多个视图集合导出的数据操作，其中从一个视图的运动估计可以被用于另一个视图的运动估计。在其它多视图应用中，实施例可以使用分析数据以确定运动估计是否应当仅仅基于单个视图还是多个视图。具体地，当输入视频包括三维立体帧兼容的信号时，如上所述的分析可以主要在一个视图中进行，但是对于一些帧，也可以对两个视图执行。

呈现示范性和优选实施例的上面详细描述以便根据法律的需要而例示和公开。它不意指是穷举的也不将本发明限制到精确形式或者描述的形式，而是仅仅使得本领域的其他技术人员理解本发明如何可以适合于特定使用或者实施方式。许多修改和变化的可能性对本领域的实践者是明显的。

对可以已经包括公差、特征维度、特定工作条件、工程条件等的示范性实施例的描述不预期是限制性的，并且其可以在实施方式之间变化或者随目前技术水平而改变，并且不应当从其中暗示局限性。具体地，应当理解公开不局限于特定组成物或者生物系统，其当然可以变化。本公开已经参考当前技术水平做出，而且预期进步并且将来的适应可以考虑那些进步，即根据那时的当前技术水平。预期本发明的范围由以下撰写的权利要求书和适用的等效物定义。也要理解，这里使用的术语仅仅用于描述特定实施例的目的，并且不是意指限制。除非明确说明，对单数的权利元素的参考不是预期意味着“唯一的一个”。用在本说明书和附加权利要求书中的单数形式“一个”、“一”、和“这”包括多个指示物，除非内容清楚地指示。术语“若干”包括两个或更多个指示物，除非内容清楚地指示。这里使用的所有技术和科学名词具有公开所属的领域的普通技术人员通常理解的同样的意思，除非另有限定。

此外，在本公开中的元件、组件、方法或处理步骤不预期专用于公共的，不管元件、组件或者步骤是否在权利要求书中明确地叙述。这里没有权利要求元素是依据35U.S.C.Sec.112第六段条款解释的，除非利用短语"用于...的装置"明确地叙述元素，并且这里没有方法或者处理步骤被依据那些条款解释，除非明确地利用短语“包括步骤以用于...”叙述。

在本公开中描述的方法和系统可以在硬件、软件、固件、或者其组合中执行。描述为块、模块、或组件的特征可以被一起（例如，在诸如集成逻辑装置之类的逻辑装置中）或者分开（例如，如分开连接的逻辑装置）执行。本公开的方法的软件部分可以包括计算机可读媒介，所述媒介包括在运行时至少部分地执行描述的方法的指令。计算机可读媒介可以包括例如，随机存取存储器（RAM）和/或只读存储器（ROM）。指零可以由处理器（例如，数字信号处理器（DSP）、特定用途集成电路（ASIC）、或者电算（FPGA））运行

已经描述了本公开的许多实施例。然而，应当理解，在不脱离本公开的精神和范围的情况下可以做出各种修改。因此，其它的实施例也在以下权利要求书的范围之内。

Claims

1.一种用于视频信号的运动分析的方法，包括步骤：

接收视频信号，其中所述视频信号包括在选择的时间处的以下图片中的至少一个：当前图片、一个或多个过去图片、以及一个或多个将来图片；

以选择的时间和空间分辨率对视频信号进行采样以生成一个或多个参考图片，其中所述一个或多个参考图片的时间分辨率小于输入图片的时间分辨率，和/或所述一个或多个参考图片的空间分辨率小于或等于输入图片的空间分辨率；

基于多个参考图片计算运动参数；

确定计算的运动参数是否具有期望的运动准确度；

如果计算的运动参数不具有期望的运动准确度，则重复采样视频信号以生成一个或多个参考图片、计算运动参数、并且确定计算的运动参数是否具有期望的运动准确度的步骤直到达到期望的运动准确度，其中重复的采样视频信号以生成一个或多个参考图片的步骤包括以增加的时间分辨率或者增加的空间和时间分辨率采样视频信号以生成一个或多个参考图片；

指定具有期望的运动准确度的计算的运动参数作为最终计算的运动参数；以及

基于最终计算的运动参数预测一个或多个选择的采样的输入图片，

其中运动分析包括所述一个或多个选择的采样的输入图片的预测。

2.根据权利要求1所述的方法，其中视频信号包括单视图视频图像。

3.根据权利要求1所述的方法，其中视频信号包括多视图视频图像。

4.根据权利要求1所述的方法，其中采样视频信号包括采样视频信号中的每个图片，并且参考图片的数目对于所述一个或多个选择的采样的输入图片中的每一个而变化。

5.根据权利要求1所述的方法，其中所述一个或多个参考图片对应于少于视频信号中的每个图片，并且参考图片的数目对于所述一个或多个选择的采样的输入图片中的每一个而变化。

6.根据权利要求4或5所述的方法，其中计算运动参数包括对于视频信号中的选择的图片约束运动参数。

7.根据权利要求1所述的方法，其中采样视频信号包括选择性地采样少于视频信号中的每个图片，由此所述一个或多个选择的采样的输入图片的每一个对应于视频信号中的一个或多个图片。

8.根据权利要求7所述的方法，其中选择性地采样包括选择视频信号中的图片以用于以下列模式中的至少一个进行采样：周期性模式；非周期性模式；或者周期性和非周期性模式的组合。

9.根据权利要求1所述的方法，其中采样视频信号包括采样视频信号中的每个图片或者选择性地采样少于视频信号中的每个图片，并且其中至少一个预测的采样的输入图片对应于多于一个当前图片，并且其中预测选择的采样的输入图片包括基于对于先前选择的采样的输入图片计算的运动参数来预测至少一个选择的采样的输入图片。

10.根据权利要求9所述的方法，其中采样视频信号包括采样视频信号中的每个图片，并且参考图片的数目对于每个选择的采样的输入图片而变化。

11.根据权利要求9所述的方法，其中所述一个或多个参考图片对应于少于视频信号中的每个图片，并且参考图片的数目对于每个选择的采样的输入图片而变化。

12.根据权利要求9所述的方法，其中选择性地采样包括选择视频信号中的图片以用于以下列模式中的至少一个进行采样：周期性模式；非周期性模式；或者周期性和非周期性模式的组合。

13.根据权利要求1所述的方法，其中采样包括在空间上二次采样一个或多个过去图片或者一个或多个将来图片或者一个或多个过去图片和一个或多个将来图片以产生一个或多个在空间上二次采样的参考图片，并且计算运动参数包括对于所述一个或多个在空间上二次采样的参考图片中的每一个计算运动参数。

14.根据权利要求13所述的方法，其中在空间上二次采样还包括于在空间上二次采样之前进行滤波。

15.根据权利要求14所述的方法，其中滤波包括抗混叠滤波或者比特深度二次采样或者它们的一些组合。

16.根据权利要求9所述的方法，还包括迭代地比较选择的预测的采样的输入图片与对应的当前图片并且基于迭代的比较确定视频信号中的场景转变发生。

17.根据权利要求16所述的方法，其中选择用于采样的时间和/或空间分辨率以增加确定场景转变发生的能力。

18.一种用于视频信号的运动分析的系统，其中所述视频信号包括输入视频帧的流并且该系统包括：

空间向下采样模块，其中所述空间向下采样模块接收视频信号；以及

预分析模块，其中预分析模块被配置为基于来自于以选择的空间和时间分辨率采样的输入视频帧中的多个参考图片计算运动参数，其中如果运动参数没有实现期望的运动准确度，则重复地以增加的时间分辨率或者增加的空间和时间分辨率采样输入视频帧以生成更高分辨率的参考帧、并且由所述更高分辨率的参考帧计算运动参数直到达到期望的运动准确度。

19.根据如权利要求18所述的系统，其中该系统包括预滤波器模块，其中该预滤波器模块被配置为接收运动参数和处理的视频帧并且生成滤波的视频帧。

20.根据权利要求19所述的系统，其中该系统包括视频编码器模块，其中该视频编码器被配置为接收滤波的视频帧和运动参数并且生成运动补偿的视频帧。

21.根据权利要求18所述的系统，其中所述视频信号包括单视图视频图像。

22.根据权利要求18所述的系统，其中所述视频信号包括多视图视频图像。

23.根据权利要求书18所述的系统，其中每个输入视频帧被采样并且参考图片的数目对于每个采样的视频帧而变化。

24.根据权利要求书18所述的系统，其中视频信号被选择性地采样，由此少于每个输入视频帧被采样。

25.根据权利要求18所述的系统，其中视频信号被选择性地采样，由此每个输入视频帧或者少于每个输入视频帧被采样，并且每个运动补偿的视频帧对应于多于一个输入视频帧。

26.根据权利要求18所述的系统，其中所述预分析模块还包括二次采样模块，其中至少一个输入视频帧被在空间上二次采样以产生一个或多个在空间上二次采样的参考图片，并且运动参数包括基于所述一个或多个在空间上二次采样的参考图片的运动参数。

27.根据权利要求26所述的系统，其中所述二次采样模块于在空间上二次采样至少一个视频帧之前对至少一个输入视频帧滤波，并且其中滤波包括抗混叠滤波或者比特深度二次采样或者它们的一些组合。

28.根据权利要求18所述的系统，其中运动补偿的视频帧被迭代地与对应的输入视频帧相比较以确定场景改变发生。