CN103563370B

CN103563370B - 用于图像运动预测的方法、装置及计算机程序产品

Info

Publication number: CN103563370B
Application number: CN201280025401.1A
Authority: CN
Inventors: 拉斯·皮特·恩勒森; 史泰纳·米德蒂斯科根; 斯蒂安·塞尔尼斯
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2011-05-27
Filing date: 2012-05-25
Publication date: 2018-10-09
Anticipated expiration: 2032-05-25
Also published as: EP2716043A1; CN103563370A; US9143799B2; WO2012166600A1; US20120300845A1

Abstract

视频处理系统、方法以及计算机程序存储设备协作来提供资源和性能高效的子像素运动搜索操作。使用实时按需计算，相对于图像序列中的另一幅图像提供一幅图像上的子像素位置的近似是可能的。然后，用于为编码过程设置运动矢量的子像素位置可以使用相对于传统技术减少的处理和存储器资源来确定。并且，通过随后对较早标识出的子像素位置执行全编码成本分析并保持对差异的跟踪，可以通过将前述差异应用于后续的图像帧来动态地提高插值精度。

Description

用于图像运动预测的方法、装置及计算机程序产品

技术领域

本公开涉及在包括视频系统、计算机程序产品和方法的领域内的进步，并特别地涉及在数字视频系统、软件使能的设备和方法中的视频压缩/解压缩。

背景技术

本文提供的“背景”描述是为了一般地呈现本公开的上下文的目的。在该背景部分描述的范围内，由本发明人提供的洞察以及在申请时不能被限定为现有技术的说明书的各方面，既不明示也不暗示地被认作现有技术。

运动图片的实时传输在诸如视频会议、“网络会议”、电视(TV)广播和视频电话之类的多种应用中被采用。

然而，表示运动图片牵涉到大量数字形式的信息，并通过以8位(1字节)表示图片(或图像帧)中的每个图片元素(像素)来描述。对未压缩的视频数据的汇集导致非常大的比特量，并因此，由于有限的带宽而需要大的带宽分配来在传统的通信网络上进行实时传输。

由于连续帧之间的图像中的重大冗余，数据压缩被自由地应用于实时视频传输应用中。然而，数据压缩可能损害图片质量，所以继续做出持续的努力以开发出允许通过带宽有限的资源来实时传输高质量视频的数据压缩技术。

在视频压缩系统中，一个目标是以尽量少的“容量”表示视频信息，其中容量通常是以比特被测量为常数值或比特/时间单位。通过最小化比特，需要被传输的比特量减少了，因此，需要来支持视频数据的实时传输的通信资源的量也减少了。

最常见的视频编码方法是在MPEG*(例如，MPEG 2和MPEG 3)和H.26*(例如，H.263和H.264)标准中描述的。根据这些标准，视频数据在传输前要经历四个主要的过程，即预测、变换、量化和熵编码。

预测过程显著地减少要被传输的视频序列中每帧所需的比特数。它利用序列中的部分与序列中其它部分的相似性。解码比特流的解码器具有辅助解码过程的边信息(sideinformation)。该边信息对编码器和解码器都是已知的，所以只有差异需要被传输。通常，这一差异需要比完整图像少得多的容量来对其进行表示。该预测的运动估计方面主要基于来自先前重建的图片的图片内容，其中内容的位置是由运动矢量定义的。尽管块的大小可能变化，但是预测过程通常是对方形块大小(例如，16×16像素)执行的。

在典型的视频序列中，当前块“M”的内容会类似于先前解码的图片中相应的块。如果自先前解码的图片起没有变化出现(即，新帧内的图像与前一帧内的图像相同)，则“M”的内容将等于该先前解码的图片中的相同位置的块。在其它情况中，图片中的对象可能在帧之间被移动，从而使得M的内容更类似于先前解码的图片中的不同位置的块。这样的运动由运动矢量(V)表示。作为示例，运动矢量(3；4)表示M的内容自先前解码的图片向左移动了3个像素并向上移动了4个像素。为提高精度，该矢量也可以包括需要在像素间插值的小数。

在H.262、H.263、MPEG 1、MPEG 2中，该同一概念被扩展从而使得运动矢量也可以取1/2像素值。那么，矢量分量5.5意味着运动是相对于5和6像素之间的中点的。更具体地，预测是通过在表示运动5的像素和表示运动6的像素之间取平均值而得到的。由于对2个像素进行操作，这一预测按照惯例是利用2-抽头滤波器执行的，以得到对该两个像素之间的像素的预测。由于滤波器操作能够由脉冲响应定义，因此对2个像素取平均值的操作能够以(1/2，1/2)的脉冲响应表达。类似地，对4个像素取平均值意味着(1/4，1/4，1/4，1/4)的脉冲响应。

取平均值的目的是以1/2像素的精度定义图片内容的运动，这与只对整数像素进行操作的编码器相比提供了改进的编码效率。

在MPEG 4和H.264/AVC中，编码方法在运动分辨率和对于每一插值的像素数方面都有所改进。这些方法使用1/4像素精度的运动补偿预测。甚至1/8精度也被定义了，但未被包括在任何配置简档内。

在图1中示出了整数和分数像素位置(为简单起见，仅在像素A和像素E之间示出了插值)。位置A、E、U、Y表示整数像素位置，且A”、E’、A’和E”表示A-E线上的另外的整数位置。c、k、m、o、w表示半像素位置。在这些位置的内插值是通过使用操作于整数像素值的、具有脉冲响应(1/32，-5/32，20/32，20/32，-5/32，1/32)的6-抽头滤波器得到的。作为示例，c是通过下面的表达式计算的，该表达式表示滤波器：

c＝1/32·A”-5/32·E'+20/32·A+20/32·E-5/32·A'+1/32·E”

该滤波器是按适用条件水平地或垂直地操作的。此外，为得到m的值，该滤波器不操作于整数值，而是操作于另一方向上已经被插值的值。其余的位置是通过对各整数和半相邻像素位置取平均得到的：

b＝(A+c)/2,d＝(c+E)/2,f＝(A+k)/2,g＝(c+k)/2,h＝(c+m)/2,i＝(c+o)/2,j＝(E+o)/2

l＝(k+m)/2,n＝(m+o)/2,p＝(U+k)/2,q＝(k+w)/2,r＝(m+w)/2,s＝(w+o)/2,t＝(Y+o)/2.

图2是涉及子像素插值的传统运动估计过程的流程图。该过程开始于步骤S1，其中多抽头滤波器被用于对两个像素执行半像素插值。经插值的半像素在步骤S2中被存储在缓冲存储器。随后过程前进到步骤S3，其中四分之一像素插值通过对各整像素位置和半像素位置取平均值被执行。随后，经插值的四分之一像素在步骤S4中被存储。然后在步骤S5中对是否所有的像素都已经被分析进行询问。如果对步骤S5中的询问的响应是肯定的，则过程前进到步骤S6，其中最佳像素或子像素被选择。在本上下文中“最佳像素或子像素”是产生最低成本的像素或子像素(以比特来测量)。如果对步骤S5中的询问的响应是否定的，该过程返回到步骤S1，其中候选块中的其它像素被分析，并执行步骤S1到S4。一旦最佳像素或部分像素在步骤S6中被选择为用于标识从一帧到下一帧的运动矢量的最佳像素或子像素，则过程前进到步骤S7，其中所计算并存储的经插值的半像素值和四分之一像素值被下一帧覆写(over written)。随后该过程结束。

发明内容

下面的段落已经通过一般介绍的方式被提供，并不打算限制所附权利要求的范围。所述实施例，以及进一步的优点，将通过参照下面的详细描述并结合附图被最好的理解。

本发明人认识到确定子像素插值平面的传统方法是基于多个存储器读/写周期和不用的假设计算的，假设计算增加处理器和存储器需求而没有在子像素平面运动矢量探测方面产生相应的改进。而且，半、四分之一或更精细的子像素插值平面是在包含于帧缓冲器中的数据的不同传递中产生的。随后，运动估计过程搜索这些平面以确定最佳运动矢量。然而，这种多步骤过程需要计算许多从不使用的插值位置，并因此对系统施加了不必要的时间延迟和处理器消耗需求。另外，对大量的插值像素的计算需要相应量的帧缓冲器容量来保存中间结果直到这些结果随后能够被挑选以找到最佳结果为止，从而对系统存储器容量施加了进一步的需求。

随着在当前和新兴的视频应用中视频帧的分辨率的增加，上面讨论的传统的运动搜索过程将导致更加膨胀的处理器使用和存储器使用需求。

鉴于识别出了传统方法的局限，本发明人给出动态地(“实时按需”(on the fly))计算插值子像素位置并判决结果是否足够的方法。如果真实的位置和近似的位置之间的偏差(deviation)低于预定的动态阈值，则子像素位置被认为是可接受的。

通过实时按需地计算插值像素位置，不必计算冗余的子像素位置，避免在存储器缓冲区的多次传递中对子像素位置的中间存/取，这继而带来较低的处理和存储器容量需求。

附图说明

对本公开及其许多伴随的优点的更完整的体会将容易地被获得，当结合附图考虑时，通过参照下面的详细的描述，其将变得更好理解，在附图中：

图1是用于在连续的图像间指定运动矢量的子像素布局的示例。

图2是根据传统实践的一过程的流程图，该过程对所有的子像素位置计算并存储子像素内插值来作为后面选择最佳子像素位置的前提，但是需要对存储器缓冲区的多次传递。

图3是根据本公开的包括运动估计功能的视频编码器的框图。

图4是包括使用根据本公开执行的运动估计操作来执行图像的图像重建的能力的视频解码器的框图。

图5是用于执行动态子像素估计计算的子像素布局。

图6是根据至少一个公开的实施例执行的实时按需运动矢量搜索过程的流程图。

图7是根据至少一个公开的实施例执行的另一可选的过程的流程图。

图8是可以容纳如本文所述的动态运动估计装置、计算机程序产品及过程的计算机实施的视频会议端点的框图。

具体实施例

关于下面的描述、所附权利要求和附图，本发明的这些以及其它特征、方面和优点将变得更好理解，其中：

图3是示出了涉及四个主要的编码过程的处理流程的框图。当前帧和一个或多个参考帧被输入预测处理器1。预测处理器1包括帧内预测处理路径3和包括实时按需运动估计处理的运动估计处理路径5，对它们的选择是由开关7控制的。帧内预测处理被选择用于在当前图像帧内发现相似之处，并因此被称为“帧内”预测。运动估计具有时间分量，并因此涉及连续帧之间的分析，被称为“帧间”(inter)预测。

在进行核心编码11之前，来自开关7的数据输出在组合器9与当前帧的像素相组合，核心编码11包括变换过程13(通常涉及速率失真控制)。随后经变换的数据在量化器15进行量化，并随后到熵编码器17。熵编码去除冗余而不丢失信息，并被称为无损编码过程。接着，编码后的数据在比特流中被发送之前通过分组化器19被布置在网络分组中。

图4是示出了根据一个实施例的解码器设备内的处理流程的框图。将来自编码器的输入比特流应用到去分组化器和解码器22，去分组化器和解码器22在将数据发送到逆量化器24之前将数据解分组。逆量化器24在提供在量化器15(图3)中执行的量化的逆转时做出最大的努力。逆量化器24的输出被施加到逆整数变换26，逆整数变换26对在视频编码器(图3)中执行的整数变换执行逆转。逆整数变换26使用与变换矩阵中相同的矢量来得出最初被施加到编码器中的变换矩阵的原始残留数据。随后使用运动补偿输入(矢量)对残留数据进行重建操作以产生输出视频流。

现在返回到图3中的编码器，本发明人认识到，与用于传统方法中的计算上更昂贵的多抽头FIR滤波器相比，容易计算的、双线性、实时按需(或动态)计算能够被用于在压缩中具有有限损耗的视频编码器的运动矢量搜索中。对于实际的实施，由于对存储器和处理器的使用都大幅降低，这大大简化了编码过程。与在选择最佳像素和子像素位置前针对多个像素和子像素位置来提前执行多抽头滤波器计算并将结果保存在存储器中的传统方法相对照，“实时按需”(On the fly)指的是在需要时执行计算。

使用标准多抽头FIR滤波器计算插值像素位置时的代价是可能需要很多昂贵的中间步骤来获得所需的结果。于是，益处被基础设施和处理负荷成本盖过了。作为替代方案，正如本文所公开的，可以通过使用基于处理器的双线性平均过程来做出对插值像素位置的近似，在该基于处理器的双线性平均过程中，计算变得快速且高效。一旦具有最小近似“成本”的运动矢量被确定，则随后实际的插值能够使用标准多抽头FIR滤波器针对最佳像素(或候选最佳像素的小子集)被执行。最小成本是近似的，因为对找到具有最小成本的位置的保证需要计算上昂贵的全搜索。因此，以低于所定义阈值的局部最小值来做出合理的近似。

然而，所增加的插值步骤的代价是最小的，因为这是在运动搜索中的大量的成本计算被执行之后进行的。正如将被讨论的，可以根据例如绝对差值之和(SAD)来测量成本。

这一方法的主要优点是在大多数情况下压缩效率的损耗是较小的，即，粗略双线性插值位置中的搜索给出了对最佳运动矢量的出乎意料地好的估计，并且降低存储器和处理器使用的优势变得势不可挡。

另一个特征是，由于双线性近似的使用，能够回收压缩效率的损失的一部分。运动搜索算法通常使用SAD作为对原始块与运动补偿块的相互性的度量。将被用于SAD中的措施是将重建错误或失真(D)与对块编码所需的比特(R)相组合。在一些H.264过程中，最佳编码模式的搜索是在下面的章节中指示的2个步骤中完成的。

假设一个块的未编码的像素为O(i,j)，并且重建的像素为O’(i,j)。对于帧间预测，针对每个位移矢量来计算下述第一成本函数：

其中

R_m是编码该矢量所需的比特数，λ₁是可依赖于重建质量被选择的乘数，并且总和表示失真。

以这种方式来计算失真D1，其被称作“SAD”或绝对差值之和。

使用近似插值通常会引入额外误差并导致依子像素位置而定的较高的SAD值，并会因此影响运动搜索结果。然而，保持对每个子像素位置的记录将允许对来自近似的SAD和使用精确滤波器获得的SAD之间的差异进行自适应跟踪。针对块的运动搜索算法每完成一次，就进行一次这样的计算，并因此其不是处理器或存储器密集型的处理。

自适应性可以通过应用无限脉冲响应(IIR)滤波器被获得。例如，针对每个子像素位置存储在记录中的值可以是当前差值的1/256加上前一个值的255/256，例如，使用0作为合适的初始值。自适应性使得该方法普适于任何近似和视频输入。随后记录中的值被用作对运动搜索算法的反馈。当算法使用近似滤波器来计算SAD时，会减去在对应的子像素位置的记录中找到的值。这将倾向于纠正由近似引入的某些子像素位置的偏倚(bias)，并使运动搜索算法更有可能会挑选如果它使用了精确滤波器就会挑选的矢量。

本实施例能够以，但不以任何方式限于，H264编码标准中的全、半、或四分之一像素插值位置来说明。该过程可被描述如下，并将随后参照图5更详细地讨论。

1.确定最佳全像素位置。应当注意，包含最佳像素或子像素的N×N个像素的块(例如，16×16个像素的块)可被预先确定作为传统运动搜索过程的一部分，以标识出与(一个或多个)在前图像中的图像特征相对应的一图像中的相应块。一旦N×N像素区域被隔离出，问题就变成了哪个特定的全像素或子像素位置提供最准确的运动矢量预测。

2.在N×N区域中的相邻像素之间确定最佳半像素位置。使用双线性平均来实时按需地做出该确定并判断针对特定子像素的平均值是否在用于标识出最佳匹配的预定精度阈值内。不执行对所有子像素位置的调查，因为这将需要计算上昂贵的蛮力全搜索。取而代之的是，通过使用可能是好的匹配的某些候选及周围值的搜索算法来执行搜索。有时，运动搜索没有找到在所需阈值以下的匹配，但搜索仍被终止以获得实践中可被使用的结果。所建立的阈值是根据预定质量而动态设置的。

3.在N×N区域中的相邻像素之间确定最佳四分之一像素位置。使用双线性平均来实时按需地做出该确定并判断针对特定子像素的平均值是否在用于标识出最佳匹配的预定精度阈值内。

4.计算并存储围绕着最佳像素或子像素位置的最佳N×N块。

5.计算最佳N×N块的SAD和MVCOST。

尽管当计算最佳半像素和四分之一像素(一般更精细)位置时传统方法使用精确的6抽头(一般，多抽头)滤波器，本方法使用简单双线性平均(上述步骤2和步骤3)的组合。

图6是描述被执行来使用实时按需使用的双线性平均确定最佳全、半、四分之一像素位置的过程步骤的流程图。该过程开始于步骤S50，在其中执行全像素搜索。如下面将根据被提供的特定的双线性等式讨论的，最佳像素值可作为运动搜索在其周围被执行的初始位置。SAD分析在全像素值上被执行，并且如果这些值中有任意值在可接受的范围内(即，在阈值以下)，由于这些全像素值被视为“足够好”，因此，由于特定的像素被认为足够接近因而全像素搜索停止。然而，如果SAD不在可接受的阈值以下，过程前进到步骤S51，在其中做出查询。通常，具有指定阈值的某些质量控制的表格的编解码器被提供。尽管可以采用广泛的阈值范围，然而阈值是基于与最大像素值相关的最高SAD值、被比较的像素数量和预定义的质量参数之间的数学关系的。例如，如果最大整数像素值是9，并且3个像素被比较，则最大的SAD将为3×9＝27，这一值27的百分比被乘以质量参数Q就得到该阈值，比如，Q×1％，Q×5％，或Q×10％。质量参数Q是可以是例如一或分数的系数。

如果对步骤S51中查询的响应是肯定的，过程前进到步骤S62，在其中在以选定的像素为中心的N×N块上进行全插值分析，并然后N×N块的值被存储。然而，如果对步骤S51中查询的响应是否定的，过程前进到步骤S52，在其中执行半像素实时按需搜索。作为该过程的一部分，半像素搜索的SAD值被与阈值进行比较，并且如果充分低于该阈值，那么该过程前进到步骤S62。另一方面，如果SAD值都在阈值以上，过程前进到步骤S53，其中不同的四分之一像素值在围绕着步骤S54、S56、S58和S60中的半像素位置(POS0、POS2、POS8、POS10)的四个不同区域中被搜索。随后搜索分别在步骤S55、S57、S59和S61中在位置0、2、8和10处被执行以确定哪个位置提供低于该阈值的SAD。该过程的输出随后前进到步骤S62，在其中做出实际的插值并存储完整的端到端块(full end by end block)。随后，如上所讨论的，过程前进到步骤S63，其中SAD和MV成本值被存储以随后用于自适应地改变阈值，从而，降低了因双线性估计导致的任何损失。随后，该过程结束。

参照图7，另一个可选的过程被执行，其中执行半像素插值的至少某个子集的附加步骤S500提前被进行，以补充使用双线性函数执行的半像素搜索。此外，虽然其余的步骤S50-S63与图6中是相同的，然而所添加的步骤在过程开始时被执行，其中半像素的子集的实际内插值提前被存储以增强在步骤S52中计算出的值。这一方法的优点是至少一些半像素值可以被用于帮助消除对其它半像素值和四分之一像素值执行的计算中的任何偏倚。

本发明不以任何方式限于这一特定的运动搜索。然而，作为一个示例性实施例，在半像素(hpel)搜索中，围绕着全像素(O)的最佳半像素(x)被确定。使用本方法，所有半像素位置能够使用简单双线性平均值(A+B+1)/2被快速地实时按需地计算。在四分之一(qpel)像素搜索中，围绕着半像素(x)的最佳四分之一像素(·)被确定。使用本方法，所有四分之一像素位置能够通过连续双线性平均值(A+B+1)/2和(A+B)/2的组合而被快速地实时按需地计算。

然后，在找到最佳运动矢量后，实际的宏块(或N×N块)和实际的SAD和MV成本都根据标准过程来计算。

在说明子像素位置的示例性双线性平均值之前，一些关于处理步骤的符号可能是有益的。大部分现代的微处理器有能力在单个时钟周期内计算两个像素的平均值。此外，许多SIMD(单指令多数据)体系结构能够在单个时钟周期内计算两个像素矢量的平均值。在实践中，对涉及整数的平均值进行取整(rounding)。取整可以是向上或向下的。符号>>表示移位操作，具有求平均值的功能。因此，为了上移，a+1被添加到A和B像素值，这使平均值向上偏倚。如果不包括+1，则移位过程将使平均值向下偏倚，正如下述两个式子所说明的。

Q＝(A+B+1)＞＞1 (向上)

Q＝(A+B)＞＞1 (向下)

在处理器的硬件中实施的指令通常是向上取整计算；然而，由于负数的二进制表示，向下取整计算能够被改写为相同的形式。符号～表示求逆。

Q＝(A+B+1)＞＞1 (向上)

Q＝～((～A+～B+1)＞＞1) (向下)

为了说明有效的平均指令能够如何实时按需地被用于运动搜索，图5是根据H264的16个四分之一像素位置的示例。全像素位置用“O”表示，半像素位置用“x”表示，四分之一像素位置用“·”表示。本示例不以任何方式限于该示例中的近似，因为能够采用许多不同的平均值组合。在图5中标记为0-15的像素和子像素位置是如下计算的，假设来自完整N×N块搜索的中心像素指示像素A为最近的运动矢量：

Q0＝A

Q1＝{A+[(A+B)/2]+1}/2＝{A+[(A+B)＞＞1]+1}＞＞1

Q2＝(A+B+1)＞＞1

Q3＝{B+[(A+B)/2]+1}/2＝{B+[(A+B)＞＞1]+1}＞＞1

Q4＝{A+[(A+C)/2]+1}/2＝{A+[(A+C)＞＞1]+1}＞＞1

Q5＝{(A+B)/2+(A+C)/2+1}/2＝{[(A+B)＞＞1]+[(A+C)＞＞1]+1}＞＞1

Q6＝{(A+C)/2+B+1}/2＝{[(A+C)＞＞1]+B+1}＞＞1

Q7＝{(A+B)/2+(B+D)/2+1}/2＝{[(A+B)＞＞1]+[(B+D)＞＞1]+1}＞＞1

Q8＝(A+C+1)＞＞1

Q9＝{(C+D)/2+A+1}/2＝{[(C+D)＞＞1]+A+1}＞＞1

Q10＝{[(A+D)＞＞1]+[(B+C)＞＞1]}＞＞1

Q11＝{(A+B)/2+D+1}/2＝{[(A+B)＞＞1]+D+1}＞＞1

Q12＝{C+[(A+C)/2]+1}/2＝{C+[(A+C)＞＞1]+1}＞＞1

Q13＝{(A+C)/2+(C+D)/2+1}/2＝{[(A+C)＞＞1]+[(C+D)＞＞1]+1}＞＞1

Q14＝{(B+D)/2+C+1}/2＝{[(B+D)＞＞1]+C+1}＞＞1

Q15＝{(C+D)/2+(B+D)/2+1}/2＝{[(C+D)＞＞1]+[(B+D)＞＞1]+1}＞＞1

尽管对于16个像素和子像素位置的双线性等式是针对左下象限给出的，然而对其它三个象限的相似过程也可以被执行。例如，如果像素A被视为N×N块内的最佳全像素，则下一步是相对于像素A确定半像素位置。对于右下象限，相对于A的半像素位置为2、10和8。随后相似的搜索可以在其它三个象限中相对于A针对半像素位置被执行。假设半像素位置10被判断为最佳的，下一步是考虑位于半像素位置10周围的四分之一像素位置。这些位置将是6、7、11、15、14、13、9和5。随后最佳四分之一像素位置将被确定，尽管10也能够从集合中被选择为最佳的。一旦最佳子像素位置被找到，运动向量就被建立以包括该子像素位置。

图8示出了本发明的实施例可以在其上被实施的计算机系统1201。计算机系统1201可以被编程来实施基于计算机的视频会议端点，该视频会议端点包括用于处理实时视频图像的视频编码器或解码器。计算机系统1201包括总线1202或其它用于传输信息的通信机制，以及与总线1202耦合用来处理信息的处理器1203。计算机系统1201也包括耦合到总线1202用于存储将被处理器1203执行的指令和信息的主存储器1204，比如随机存取存储器(RAM)或其它动态存储设备(例如，动态RAM(DRAM)、静态RAM(SRAM)以及同步DRAM(SDRAM))。另外，主存储器1204可以被用于在指令被处理器1203执行期间存储临时变量或其它中间信息。计算机系统1201还包括耦合到总线1202用于存储处理器1203的指令和静态信息的只读存储器(ROM)1205或其它静态存储设备(例如，可编程ROM(PROM)、可擦除PROM(EPROM)和电可擦除PROM(EEPROM))。

计算机系统1201也包括盘控制器1206，被耦合到总线1202来控制一个或多个存储设备存储信息和指令，诸如磁性硬盘1207和可移动介质驱动器1208(例如，软盘驱动器、只读光盘驱动器、读/写光盘驱动器、光盘唱机、磁带驱动器和可移动磁光驱动器)。存储设备可以使用适当的设备接口(例如，小型计算机系统接口(SCSI)、集成设备电子器件(IDE)、增强型IDE(E-IDE)、直接存储器存取(DMA)、或超DMA)被添加到计算机系统1201。

计算机系统1201也可以包括专用逻辑设备(例如，专用集成电路(ASIC))或可配置的逻辑设备(例如，简单可编程逻辑设备(SPLD)、复杂可编程逻辑设备(CPLD)以及现场可编程门阵列(FPGA)))。

计算机系统1201也可以包括被耦合到总线1202来控制诸如阴极射线管(CRT)之类的显示器1210将信息显示给计算机用户的显示控制器1209。计算机系统包括诸如键盘1211和点选设备1212之类的输入设备，用于与计算机用户交互和将信息提供给处理器1203。点选设备1212例如可以是鼠标、轨迹球或点选棒，用于将方向信息和命令选择传输到处理器1203以及用于控制光标在显示器1210上的移动。另外，打印机可以提供由计算机系统1201产生和/或存储的数据的打印列表。

响应于处理器1203执行包含于诸如主存储器1204之类的存储器中的一个或多个指令的一个或多个序列，计算机系统1201执行本发明的处理步骤的部分或全部。这样的指令可以从诸如硬盘1207或可移动介质驱动器1208之类的另一个计算机可读介质被读入主存储器1204。在多处理布置中一个或多个处理器也可以被采用来执行包含于主存储器1204中的指令序列。在另一个可选的实施例中，硬连线(hard-wired)电路可被用来代替软件指令或与软件指令相结合。因此，实施例不限于硬件电路和软件的任何具体的组合。

如上所述，计算机系统1201包括用于保存根据本发明的教导被编程的指令和用于包含本文描述的数据结构、表格、记录或其它数据的至少一个计算机可读介质或存储器。计算机可读介质的示例是光盘、硬盘、软盘、磁带、磁-光盘、PROM(EPROM、EEPROM、闪存EPROM)、DRAM、SRAM、SDRAM或任何其它磁性介质、光盘(例如，CD-ROM)或任何其它光学介质、穿孔卡片、纸带或其它具有孔状图案的物理介质、载波(下面描述的)或任何其它计算机能够读取的介质。

本发明包括存储在任何一种或组合的计算机可读介质上的、用于控制计算机系统1201、用于驱动实施本发明的一个或多个设备以及用于使计算机系统1201能够与人类用户(例如，印刷生产人员)交互的软件。这样的软件可以包括但不限于，设备驱动器、操作系统、开发工具以及应用软件。这样的计算机可读介质还包括用于执行在实施本发明中被执行的处理的全部或部分(如果处理是分布式的)的本发明的计算机程序产品。

本发明的计算机编码设备可以是任何可解释的或可执行的编码机制，包括但不限于，脚本、可解释的程序、动态链路库(DLL)、Java类以及完整的可执行的程序。此外，本发明的处理的一部分可以为了更好的性能、可靠性和/或成本而被分布。

本文所用的术语“计算机可读介质”指的是参与提供指令给处理器1203以执行的任何介质。计算机可读介质可以采用许多形式，包括但不限于，非易失性介质、易失性介质和传输介质。非易失性介质包括，例如，光盘、磁盘以及磁-光盘，比如，硬盘1207或可移动的介质驱动器1208。易失性介质包括动态存储器，比如，主存储器1204。传输介质包括同轴电缆、铜线和光纤，包括构成总线1202的线。传输介质也可以采取诸如那些在无线电波和红外数据通信期间产生的声波或光波的形式。

各种形式的计算机可读介质也可以被牵涉进将一个或多个指令的一个或多个序列运载到处理器1203以执行。例如，指令可以最初在远程计算机的磁盘被执行。远程计算机能够将用于实施本发明的全部或部分的指令远程载入动态存储器，并使用调制解调器通过电话线发送指令。计算机系统1201的本地调制解调器可以接收电话线上的数据并使用红外发射器将数据转换为红外信号。耦合到总线1202的红外探测器能够接收红外信号中承载的数据并将数据放置在总线1202上。总线1202将数据承载到主存储器1204，处理器1203从主存储器1204中取回并执行指令。由主存储器1204接收的指令，在被处理器1203执行之前或之后，可选地被存储在存储设备1207或1208上。

计算机系统1201也包括耦合到总线1202的通信接口1213。通信接口1213提供耦合到网络链路1214的双向数据通信，网络链路1214被连接到例如局域网(LAN)1215或诸如因特网(Internet)的另一个通信网络1216。例如，通信接口1213可以是连接到任何分组交换LAN的网络接口卡。如另一个示例，通信接口1213可以是非对称数字用户线(ADSL)卡、综合业务数字网(ISDN)卡或调制解调器，以提供数据通信连接到对应的类型的通信线路。无线链路也可以被实施。在任何这样的实施中，通信接口1213发送并接收承载着表示各种类型的信息的数字数据流的电信号、电磁信号或光信号。

通常网络链路1214通过一个或多个网络提供与其它数据设备的数据通信。例如，网络链路1214可以通过局部网络1215(例如，LAN)或通过由服务提供者操作的设备来提供到另一台计算机的连接，服务提供者通过通信网络1216提供通信服务。局部网络1214和通信网络1216使用，例如，承载着数字数据流的电信号、电磁信号或光信号，以及相关的物理层(例如，CAT 5电缆、同轴电缆、光纤等)。承载着去往和来自计算机系统1201的数字信号的、通过各种网络的信号以及在网络链路1214上和通过通信接口1213的信号可以在基带信号或基于载波的信号中被实施。基带信号将数字数据传达为描述数字数据比特流的未调制的电脉冲，其中术语“比特”被宽泛地解释为指的是符号，其中每个符号传达至少一个或多个信息比特。数字数据也可以被用于调制载波，比如利用在导电介质上传播或通过传播介质作为电磁波传输的幅移、相移和/或频移键控信号。因此，数字数据可以作为未调制的基带数据通过“有线”通信隧道被发送和/或通过调制载波在不同于基带的预设的频带内被发送。计算机系统1201能够通过网络1215和1216、网络链接1214以及通信接口1213发送和接收包括程序代码的数据。此外，网络链接1214可以通过LAN 1215提供与诸如个人数字助理(PDA)笔记本电脑或移动电话的移动设备1217的连接。

显然，鉴于以上教导，对本公开的多种修改和变化是可能的。因此，要理解的是，在所附的权利要求的范围内，本发明可以被实践为不同于本文所具体描述的。

Claims

1.一种视频编码器，包括：

接口，所述接口被配置来接收当前图像的像素块和对应的参考图像的像素块；以及

处理器，所述处理器被配置来执行以下操作：

执行第一像素搜索，所述第一像素搜索包括：将所述参考图像的像素块与所述当前图像的像素块的绝对差值之和SAD值与第一阈值相比较，当所述参考图像的像素块与所述当前图像的像素块的SAD值低于所述第一阈值时，执行全插值分析，以及当所述参考图像的像素块与所述当前图像的像素块的SAD值不低于所述第一阈值时，对所述参考图像的像素块执行多个实时按需双线性计算以生成多个近似插值子像素块；

执行不同于所述第一像素搜索的第二像素搜索，所述第二像素搜索包括：将所述多个近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较，当所述近似插值子像素块中任意近似插值子像素块与所述当前图像的像素块的SAD值低于所述第二阈值时，将该近似插值子像素块作为近似最低成本子像素块，并且使用有限脉冲响应滤波器来计算所述参考图像的像素块的实际插值子像素块，以及当所述近似插值子像素块与所述当前图像的像素块的SAD值都不低于所述第二阈值时，执行不同于所述第一像素搜索和第二像素搜索的第三像素搜索。

2.如权利要求1所述的视频编码器，其中，所述第二阈值是固定阈值，并且所述第一阈值是最大像素值和质量参数的函数。

3.如权利要求1所述的视频编码器，其中，所述成本是所述当前图像的像素块中的各像素或子像素与来自参考图像的像素块中的对应像素或子像素之间的绝对差值之和的函数。

4.如权利要求1所述的视频编码器，其中

所述处理器被配置来跟踪所述近似最低成本子像素块和使用所述有限脉冲响应滤波器确定的所述实际插值子像素块之间的成本差异。

5.如权利要求4所述的视频编码器，其中，所述处理器通过将所述差异应用于后面图像中的具有与所述近似最低成本子像素块中的子像素位置相对应的子像素位置的最低成本子像素，来减少对于所述后面图像的运动矢量搜索中的插值偏倚。

6.如权利要求1所述的视频编码器，其中，所述处理器被配置来使用双线性平均指令执行所述多个实时按需双线性计算。

7.一种视频编码方法，包括：

接收当前图像的像素块和对应的参考图像的像素块；

使用处理器执行第一像素搜索，所述第一像素搜索包括：将所述参考图像的像素块与所述当前图像的像素块的绝对差值之和SAD值与第一阈值相比较，当所述参考图像的像素块与所述当前图像的像素块的SAD值低于所述第一阈值时，执行全插值分析，以及当所述参考图像的像素块与所述当前图像的像素块的SAD值不低于所述第一阈值时，对所述参考图像的像素块执行多个实时按需双线性计算以生成多个近似插值子像素块；

使用处理器执行不同于所述第一像素搜索的第二像素搜索，所述第二像素搜索包括：将所述多个近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较，当所述近似插值子像素块中任意近似插值子像素块与所述当前图像的像素块的SAD值低于所述第二阈值时，将该近似插值子像素块作为近似最低成本子像素块，并且使用多抽头滤波器来计算所述参考图像的像素块的实际插值子像素块，以及当所述近似插值子像素块与所述当前图像的像素块的SAD值都不低于所述第二阈值时，执行不同于所述第一像素搜索和第二像素搜索的第三像素搜索。

8.如权利要求7所述的方法，其中，所述将所述近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较包括：将所述近似插值子像素块与所述当前图像的像素块的SAD值与固定的阈值相比较。

9.如权利要求7所述的方法，其中，所述成本是所述当前图像的像素块中的各像素或子像素与来自参考图像的像素块中的对应像素或子像素之间的绝对差值之和的函数。

10.如权利要求7所述的方法，还包括：

在所述处理器完成所述将所述近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较后，使用所述多抽头滤波器确定所述近似最低成本子像素块的实际成本。

11.如权利要求7所述的方法，还包括：

通过将所述近似最低成本子像素块和所述实际插值子像素块之间的成本差异应用于后面图像中的具有与所述近似最低成本子像素块中的子像素位置相对应的子像素位置的最低成本子像素，来减少对于所述后面图像的运动矢量搜索中的插值偏倚。

12.如权利要求7所述的方法，其中，所述对所述像素执行多个实时按需双线性计算包括使用双线性平均指令执行所述实时按需计算。

13.一种视频编码设备，包括：

用于接收当前图像的像素块和对应的参考图像的像素块的装置；

用于使用处理器执行第一像素搜索的装置，所述第一像素搜索包括：将所述参考图像的像素块与所述当前图像的像素块的绝对差值之和SAD值与第一阈值相比较，当所述参考图像的像素块与所述当前图像的像素块的SAD值低于所述第一阈值时，执行全插值分析，以及当所述参考图像的像素块与所述当前图像的像素块的SAD值不低于所述第一阈值时，对所述参考图像的像素块执行多个实时按需双线性计算以生成多个近似插值子像素块；

用于使用处理器执行不同于所述第一像素搜索的第二像素搜索的装置，所述第二像素搜索包括：将所述多个近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较，当所述近似插值子像素块中任意近似插值子像素块与所述当前图像的像素块的SAD值低于所述第二阈值时，将该近似插值子像素块作为近似最低成本子像素块，并且使用多抽头滤波器来计算所述参考图像的像素块的实际插值子像素块，以及当所述近似插值子像素块与所述当前图像的像素块的SAD值都不低于所述第二阈值时，执行不同于所述第一像素搜索和第二像素搜索的第三像素搜索。

14.如权利要求13所述的设备，其中，所述将所述近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较包括：将所述近似插值子像素块与所述当前图像的像素块的SAD值与固定的阈值相比较。

15.如权利要求13所述的设备，其中，所述成本是所述当前图像的像素块中的各像素或子像素与来自参考图像的像素块中的对应像素或子像素之间的绝对差值之和的函数。

16.如权利要求13所述的设备，还包括：

用于在所述处理器完成将所述近似插值子像素块中每个近似插值子像素块与所述当前图像的像素块的SAD值与第二阈值相比较后使用所述多抽头滤波器确定所述近似最低成本子像素块的实际成本的装置。

17.如权利要求13所述的设备，还包括：

用于确定所述近似最低成本子像素块和使用所述多抽头滤波器确定的所述实际插值子像素块之间的成本差异的装置。

18.如权利要求17所述的设备，还包括：

用于通过将所述差异应用于后面图像中的具有与所述近似最低成本子像素块中的子像素位置相对应的子像素位置的最低成本子像素来减少对于所述后面图像的运动矢量搜索中的插值偏倚的装置。

19.如权利要求13所述的设备，其中，所述对所述像素执行多个实时按需双线性计算包括使用双线性平均指令执行所述双线性计算。