CN101536528A

CN101536528A - 用于分解视频序列帧的方法

Info

Publication number: CN101536528A
Application number: CNA2007800408697A
Authority: CN
Inventors: D·穆克赫吉; S·刘
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2006-10-30
Filing date: 2007-10-26
Publication date: 2009-09-16
Anticipated expiration: 2027-10-26
Also published as: US20080101707A1; US7756348B2; CN101536528B; JP5108894B2; JP2010508706A; DE112007002493T5; WO2008054688A1

Abstract

在用于分解视频序列帧的块(122－126)的方法(300)中，确定是否块(122－126)的一个或两个尺寸等于预定的最小尺寸。响应于一个或两个尺寸等于预定的最小尺寸，发送用于块(122－126)的运动向量。响应于两个尺寸都超过预定的最小尺寸，确定用于块(122－126)的运动向量(132)、将块(122－126)划分为两个楔形(130a、130b)、将块(122－126)分割为四个N/2×N/2的子块(122－126)，并且这些步骤在四个N/2×N/2的子块(122－126)的每个上重复，直到一个或两个尺寸等于预定的最小尺寸。

Description

用于分解视频序列帧的方法

背景技术

典型地，由于相机或物体运动，视频序列中会发生时间上的变化。如果可以对该运动补偿，则用相对紧凑的运动信息改进视频图像预测序列也是可能的，这使得使视频压缩算法能够显著减少以可以接受的质量级别传输视频序列时所需要的数据量。

根据国际视频编码标准H.264，MPEG-4第10部分，或高级视频编码(AVC)，使用16×16像素的宏块单元来执行编码过程。此外，运动补偿典型地通过在四叉树(quad-tree)分解中将宏块划分为正方形或长方形的子块来执行。在该运动补偿技术中，每个N×N大小的叶级别块与不同的运动向量和编码模式关联。而且，残差使用合适的变换来编码，之后是量化和熵编码。

传统技术在对相机或物体运动的补偿上对以前的技术已有了改进。但是，由于传统的四叉树分解局限于正方形或长方形的宏块和子块，宏块的形状典型地与移动物体的形状轮廓不对应。由于宏块和子块的固定形状，在同一个宏块包括有不同运动的几个区域的情况下，编码效率大幅地降低。

附图说明

从下列说明参考附图，本发明的特征将对本领域技术人员来说变得明显，在附图中：

图1A是根据本发明的实施例的视频编码系统的简化功能框图；

图1B是根据本发明的实施例，编码器可以分解宏块的方式的功能框图；

图1C和1D示出了根据本发明的实施例的连续楔形和离散楔形的例子；

图2是图1中示出的根据本发明的实施例的视频编码系统的框图；

图3A和3B共同地示出了根据本发明的实施例的用于分解视频序列帧的方法的流程图；

图4示出了根据本发明的实施例的用于处理分解的视频序列帧的方法的流程图；

图5示出了根据本发明的实施例的用于对块编码的方法的流程图；

图6示出了根据本发明的另一个实施例的用于对块编码的方法的流程图。

具体实施方式

为了简单和示例的目的，本发明通过主要参考其示例性实施例来描述。在下面的描述中，阐述了大量的特定细节，以提供对本发明的全面了解。但是对于本领域普通技术人员将变得明显，本发明可以不限于这些特定细节来实现。在其它实例中，众所周知的方法和结构没有被详细描述，从而不会不必要地使本发明模糊。

这里公开的是用于改进视频编解码器的一个或多个度量例如残差、率失真效率(rate distortion efficiency)等的方法和系统。更具体地说，这里公开的方法和系统使用了下列技术：不仅将宏块划分为子块，还在合适的地方将块划分为小楔形。与块相比，可以在块中的任何充分合适和期望的位置形成的小楔形或楔形在表示图像中的边缘方面相对更有效，因为它们不限于垂直和水平线。此外，不同的运动补偿可以对在特定块中的不同楔形使用，以更准确地补偿块中的移动并由此改进残差和率失真效率等。

这里还公开的是用于显著减少与划分块相关的计算复杂度的方法和系统。换言之，文中揭示的方法和系统使能选择在哪里划分块的相对快速和计算上较为不复杂的方式，还仍然提供了显著最小化的残差和/或显著最小化的率失真效率。

首先参考图1A，示出了根据本发明的例子的视频编码系统102的简化功能框图100。尽管这里下面对包括特定特征的视频编码系统102做了特定的参考，应该理解，视频编码系统102可以包括附加的组件并且这里描述的一些组件可以被移除并且/或者修改，而不偏离视频编码系统102的范围。

如图1A所示，视频编码系统102包括编码器112、量化器114、熵编码器116。在操作中，视频编码系统102从视频源110接收视频内容。视频源110可以包括任何足够合适的源，例如，数据存储设备、网络、因特网、单独的计算机设备等。此外，视频内容可以包括模拟或数字视频。

如以下更详细地描述的，视频编码系统102通常在从视频源110接收到的视频内容上执行各种编码功能，由此输出编码的视频118。在一方面，视频编码系统102可以在视频内容上执行运动估计和补偿操作。一般来说，运动估计指的是用于从视频序列提取运动信息的一组技术。MPEG标准通过下列方式来表示运动信息：基于运动补偿的类型：向前预测、向后预测或平均，来提供每个宏块一个或两个运动向量。此外，运动估计可以包括为宏块找到最优或基本最优的运动向量的过程。

例如，编码器112可以从第一时间采样的当前帧中的宏块与第二时间采样的参考帧中的类似大小的宏块来估计视频内容中的运动。第二采样时间可以先于当前帧的采样时间。

在估计视频内容中的运动时，编码器112可以将视频内容分解为连续的帧，并且还可以将连续的帧分为不同大小的块和不同位置的楔形，如这里下面参考图1B更详细地描述的。例如，块和楔形的位置和大小可以基于帧中物体的边缘。此外，编码器112可以对不同大小的块和不同位置的楔形计算和编码运动向量和残(预测)差。编码器112可以计算运动向量，其确定当前宏块和之前匹配的宏块之间的关系。例如，运动向量将确定第一宏块和第二宏块之间像素位置的改变。此外，每个块和楔形可以和不同的运动向量和编码模式关联。

编码器112还可以确定在从之前编码的帧基于运动预测之后，或者在从当前帧的已经编码的部分帧内预测之后得到的残差。残差还可以使用合适的变换来编码，之后是量化和熵编码。对于已经被划分为楔形的块，组合楔形的基于块的变换可以被使用，或者用于各单个楔形的更合适的形状自适应变换可以被使用来编码残差。

一般来说，运动向量是在被加到匹配宏块的任何像素的坐标时提供当前宏块的坐标的值。因为运动估计过程基于宏块提供向量，所有进一步的计算在宏块基础上执行，否则的话将会在逐像素基础上执行的所有进一步的计算基于宏块执行。因此，这种运动估计方法比其他像素方式近似技术需要更低的计算能力。

通过对图1B的特定参考，示出了根据本发明的例子的编码器112可以分解宏块122的方式的功能框图120。应该理解，功能框图120的下列描述只是宏块可以分解宏块122的多种不同方式中的一种方式。此外，应该理解，宏块122分解的方式可以依赖于宏块122中包含的像素的各种特性，并将由此在逐个宏块122的基础上变化。

编码器112可以事先已将视频内容分解为多个帧。此外，编码器112可以事先已将该多个帧中的至少一个帧分解为多个宏块112。宏块112可以每个包括，例如，16×16像素，正如H.264，MPEG-4第10部分及AVC中标准的。

编码器112还可以将宏块122中的一些或所有进一步分解为一组8×8像素的子块124。编码器112还可以将8×8像素的子块124中的一些或所有进一步分解为4×4像素的子块126，正如在四叉树分解技术中所知的那样。一般来说，编码器112可以基于宏块122中包含的移动物体的轮廓形状来确定哪些宏块122的哪些部分被进一步分解。

传统地，宏块122分割被限于正方形和长方形，并且因此，块122-126的形状通常不会准确对应于移动物体的轮廓形状。这样，如果同一块122-126中存在具有不同运动向量的不同部分，编码效率被降低。

根据一个例子，并且如这里下面更详细地描述的，一个或更多个块122-126可以通过使用小楔形130a和130b被进一步地分解，小楔形130a和130b通过插入穿过块122-126的剖切线128形成，如图1B所示。更具体地说，编码器112可以使用有助于更准确地捕获图像中的几何结构的多尺度(multi-scale)小楔形130a、130b框架，由此相比传统技术提高编码效率。楔形130a、130b被认为是多尺度的，因为它们可以插入到任意大小的块122-126。

例如，通过沿着剖切线128将块122-126分为两个楔形130a、130b，编码器112可以将楔形插入到N×N的块122-126。剖切线128可以具有方向角度θ，并可以与块122-126的中心o距离r。具有剖切线128及楔形130a、130b的块122-126的描绘在图1C和1D中给出。图1C中示出的剖切线128是连续的，而图1D中示出的剖切线128是离散的。例如，图1C中示出的连续剖切线128示出了剖切线128的实际位置，而图1D中示出的剖切线128示出了基于位于剖切线128上的像素落在楔形130a、130b中的哪一侧来离散化的剖切线128的形式。通过确定剖切线128位于像素的哪一侧，剖切线128可以对沿着剖切线(图1C)的每个像素离散化。在剖切线128直接位于像素中心的情况下，剖切线128可以位于像素的任一侧，只要该选择符合解码器。

编码器112可以将剖切线128放置为使得它经过块122-126中的任意位置。通过对方向角度θ及距离r的空间以合适的间距采样，编码器112可以在N×N的块122-126中生成所有楔形划分130a、130b的集合，产生N_w个条目的字典。N_w个条目的字典可以取决于设计参数，例如方向角度θ和距离r的递增精度。

理想地，用于所有可能的块组合的所有可能的楔形130a、130b片段应该被预测，以确定最好的楔形130a、130b。但是，由于块122-126中的划分策略的数量可以非常大，根据本发明的一个例子，用于最佳划分策略的快速搜索方法可以被使用。更具体地说，例如，可以在任意尺度预先选择合适的块划分的较小子集，而不是在块122-126内部测试所有楔形划分的可能性。

根据一个例子，在N×N的块内部，边缘检测算法，例如Canny、Sobel等，可以被使用，之后是门限操作。这产生了相同大小的二维逻辑阵列作为块指示边缘。接着，具有正响应的像素被映射到欧几里得像素坐标产生(x，y)对，并且线性回归(基于最小二乘误差)被应用到这些点。结果是直线：y＝ax+b或x＝c(当回归不是函数时)的一般方程。该直线被转换到极坐标并与一楔形划分关联。令(x₀，y₀)是块的中心，N是块的大小，且θ₀是取决于ax₀+y₀+b的符号的偏移量，当ax₀+y₀+b为正时θ₀＝0°，否则θ₀＝180°。我们然后找到r和θ的起始点(种子)。

方程(1)：

r_{seed} = | \frac{{ax}_{0} + y_{0} + b}{\sqrt{a^{2} + 1}} |;

以及

方程(2)：

回归结果可以是x＝c的情形，以得到：

方程(3)：

r_{seed} = | \frac{N}{2} - c |;

以及

方程(4)：θ_seed＝θ₀，

其中θ₀是依赖于N/2-c的符号的偏移量，如果N/2+c>0则θ₀＝90°，否则θ₀＝270°。

从开始种子r_seed和θ_seed，通过在[r_seed-Δr，r_seed+Δr]和[θ_seed-Δθ，θ_seed+Δθ]范围内分别以增量δr和δθ细微地改变参数r和θ₀＝90°，一组楔形130a、130b可以被预先选择。

根据另一个例子，在特定的实例中，例如当在块122-126内存在多个移动边缘或纹理时，范式(canonical)四叉树划分也可以被执行。在任何方面，运动估计和划分搜索可以被限制到预先选择的楔形集合，这可以大幅降低搜索楔形130a、130b的计算需求。

根据本发明的另一个例子，通过执行第二种相对有效的搜索策略，搜索楔形130a、130b的计算需求可以被大幅降低。第二种相对有效的搜索策略包括确定是否用于任何块122-126的楔形130a、130b中的一个具有零运动向量。一对楔形130a、130b中的楔形130a、130b中的一个可能具有零运动向量，例如，在视频捕捉设备是不动的并且物体在静止背景前移动的情况中。在这些实例中，那些具有零运动向量的楔形130a、130b的预测误差相对小。

这样，通过确定对于足够大的楔形具有足够小的预测误差的楔形130a、130b，显著优化了的楔形130a、130b可以被确定。此外，用于剩下的楔形130a、130b的运动向量132可以通过掩模运动搜索来方便地计算，其中感兴趣的区域由二元掩模限定，该掩模仅包括块122-126中不被包括在楔形130a、130b中的部分中的那些像素。在一方面，该例子可以降低传输运动信息的码率，因为单个运动向量可以被派给一个楔形化的块。

根据另一个例子，在楔形130a、130b中的一个具有零运动向量并且预测残差与目标质量相比足够小，从而用于形状自适应变换的所有变换系数被量化为0的情况下，楔形130a、130b可以以与传统视频编码中的“SKIP”模式类似的方式来对待。

根据还有一个例子，楔形130a、130b中的一个的运动向量可以限制到来自当前块122-126的空间邻域的运动向量的一个相对小的集合。在该例子中，编码将如同上述的零运动向量情况中一样进行，其中为了最佳楔形测试所有可能的预测运动向量。

根据又一个例子，对具有零运动向量的楔形130a、130b，预测残差可以被量化为0，由此降低用于传送这些楔形130a、130b的运动向量的码率。

回来参考图1B，编码器112可以将N×N的块122-126中的任一个分为楔形130a、130b。编码器112还可以对每个楔形130a、130b独立执行运动估计，由此为每个包含楔形130a、130b的块122-126生成两个运动向量132。这样，与运动向量132关联的每个残差可以被单独编码，或者这里如下所述它们可以被组合并编码为单个残差。

现在转向图2，根据一个例子，示出了视频编码系统102的框图200。应该理解，对框图200的下列描述只是视频编码系统202可以被配置的多种不同方式中的一种方式。此外，应该理解，视频编码系统202可以包括附加的组件，并且这里描述的一些组件可以被移除和/或修改，而不偏离视频编码系统202的范围。

视频编码系统102可以包括一般计算环境并包括控制器204，控制器204被配置为控制视频编码系统102的各种操作。控制器204可以包括微处理器、微控制器、专用集成电路(ASIC)等。数据可以通过系统总线206传输到视频编码系统102的各个组件，该系统总线操作以耦接视频编码系统102的各个组件。系统总线206表示几种类型的总线结构中的任一种，包括，例如，存储器总线、存储器控制器、外围总线、加速图形端口、使用多种总线结构中的任一种的处理器总线等。

一个或更多个输入设备208可以被用来向视频编码系统102输入信息，例如，命令、指令、数据等。输入设备208可以包括，例如，主机、键盘、鼠标、扫描仪、硬盘驱动器、移动媒介、闪存驱动器等。还示出了一个或更多个视频源110，其可以包括输入设备208或单独的设备。输入设备208及/或视频源110可以被用来，例如，向视频编码系统102输入图像、图像帧、视频帧、或视频图像的表示(即，码格式的视频图像，为了简单的目的以下将被称为“视频图像”)。如图所示，输入设备208和视频源通过耦接到系统总线206的接口210连接到控制器204。但是，输入设备和视频源110可以，通过其它传统接口和总线结构来耦接，例如，并行端口、USB端口等。尽管没有示出，接口210还可以作为连接系统总线206和其它计算机系统的接口来操作。

控制器204可以通过系统总线206连接到存储器212。一般来说，存储器212可以被配置为提供软件、算法等的存储，这些软件、算法等提供视频编码系统102的功能性。例如，存储器212可以存储操作系统214、应用程序216、程序数据218等。在这方面，存储器212可以被实现为易失性和非易失性存储器的组合，例如DRAM、EEPROM、MROM、闪存等。此外，或可替换地，存储器212可以包括被配置为从移动媒介例如软盘、CD-ROM、DVD-ROM或其它光或磁媒介读取和向其写入的设备。

控制器204还可以通过系统总线206连接到编码器112、量化器114和熵编码器116。在一个例子中，编码器112、量化器114和熵编码器116可以包括由一个或更多个分离组件组成的硬件。此外，或可替换地，编码器112、量化器114和熵编码器116可以包括，例如，在存储器212中存储的软件。在任何方面，控制器204可以被配置为执行或调用编码器112、量化器114和熵编码器116来编码从视频源接收到视频内容，如这里更详细地描述的。尽管控制器204被示出和描述为构成与编码器112分离的组件，控制器204可以构成编码器112的一部分，其中编码器112包括这里描述的控制器204及其功能，而不偏离编码器112的范围。

如图2所示，编码器112包括帧分解器220、块分割器222、楔形划分器224、运动估计器226和误差计算器228。编码器122中包含的元件220-230可以包括软件模块、硬件组件及其组合。控制器204可以执行或调用元件220-230以分解视频序列帧并估计视频序列帧中包含的运动。

此外，控制器204可以执行或调用量化器114来量化视频序列帧的编码部分，以及熵编码器116来熵编码编码的视频序列帧。控制器204此外还可以通过一个或更多个适配器232来将编码视频118传输或以其它方式发送到视频编码系统102之外。在第一个例子中，编码的视频118可以通过网络例如内部网、外部网(互联网)等发送到另一个计算机设备。在第二个例子中，编码的视频118可以被输出到一个或更多个输出设备，例如，显示器、打印机、传真机等。

现在参考图3A，示出了根据一个例子，用于分解视频序列帧的方法300的流程图。对于本领域普通技术人员来说应该很明显，方法300表示了概括的示例，并且其它步骤可以被添加或者已有的步骤可以被移除、修改或重新排列，而不偏离方法300的范围。

对方法300的描述参考图2中示出的框图200，并由此参考其中引用的元件。但是应该理解，方法300不限于框图200中列出的元件。而是，应该理解，方法300可以通过具有不同于框图200列出的配置的系统来实现。

一般来说，方法300可以被执行以将运动估计模型例如四叉树分解扩展来包括不同情况下的楔形130a、130b，并由此改进视频编解码器的一个或更多个度量，例如，残差、率失真效率等。在一方面，一个或更多个度量可以被改进，因为楔形130a、130b提供了移动物体的相对更精确的边缘表示。

在方法300中，视频编码系统102可以接收视频序列帧301形式的视频内容或表示视频序列帧301的数据。在步骤302中，控制器204可以调用或执行编码器112，更具体地，帧分解器220，以将每个视频序列帧301分解为具有第一组尺寸N×N的宏块122。帧分解器220可以，例如，如图1B所示使用四叉树分解技术来分解视频序列帧301。

在步骤304中，控制器204可以调用或执行编码器112，更具体地，帧分解器220，以确定是否宏块122的第一组尺寸中的一个或两个等于预定的最小尺寸(N_s)。预定的最小尺寸(N_s)可以被定义为编码器112能够将宏块122分解到的最小的叶级别块大小，这典型地是4×4像素。

对于第一组尺寸中的一个或两个等于预定的最小尺寸的每一个宏块122，方法300可以结束，如步骤306所示。换句话说，由于那些宏块122已经达到它们的最小叶级别块大小，它们不能再被进一步分解为更小子块。但是，宏块122可以被进一步处理，如下参考方法400(图4)所示。

对于并非其第一组尺寸中的一个或两个等于预定的最小尺寸的每个宏块122，控制器204可以调用或执行编码器112，更具体地，运动估计器226，以确定这些宏块122的运动向量，控制器204可以将运动向量发送到解码器，如步骤308所指示。

此外，在步骤308中，控制器204可以调用或执行编码器112，更具体地，楔形划分器224，以将这种宏块122划分为两个楔形130a、130b。楔形划分器224可以从有限拼接(splice)的码本(codebook)找到最佳剖切线128，以将宏块122分为两个楔形130a、130b。在一个例子中，在确定如何将宏块122划分为楔形130a、130b时，楔形划分器224可以评估所有可能的楔形130a、130b组合以确定哪个组合产生显著优化的率失真效率。在其它例子中，楔形划分器224可以使用如上所述的对于最佳划分策略的一个或更多个快速搜索算法。

根据另一个例子，划分器224可以在划分宏块122时使用带(band)和楔形模型。当图像包含运动物体，可能存在两种情形。情形(1)：在当前帧中具有从前一(参考)帧暴露的背景的块122-126。情形(2)：在当前帧中不具有从前一(参考)帧暴露的背景的块。

在情形(1)中，例如，如果物体正从左向右移动，这对落在物体左边缘上的块可能是这种情形。在该情形下，划分器224可以使用带-楔形模型。在带和楔形模型下，两条平行线穿过块122-126。带一侧上的一个楔形130a具有相对小预测误差的运动向量132。带另一侧上的楔形130b具有不同的运动向量132，但也产生相对小的预测误差。楔形132a、132b之间的带具有相对高的预测误差，因为它对应于暴露的背景。对直线使用上面讨论的极坐标模型，可以通过固定角度并只改变离中心的距离来得到用于该带的平行线。

在情形(2)下，例如，如果物体正从左向右移动，这对落在物体右边缘上的块可能是这种情形。在该情形下，如上所讨论划分器224可以将块122-126划分为两个楔形130a、130b。

根据一个例子，可以假设背景是不动的。在该例子中，情形1和情形2中的楔形130a、130b中的一个可以具有零运动向量。这样，零运动向量可以被检查，且块122-126的残差可以与阈值比较。如果存在其中与期望的编码质量相比误差是零的足够大的楔形130a、130b，可以假设情形(1)和情形(2)成立。此外，可以为了最佳运动向量搜索块的剩余部分。一旦最佳运动向量已被找到，误差模式可以进一步被检查，以确定是否可以找出一平行线，超过该平行线误差很小。此外，情形(1)可以被执行并且仅非零运动向量楔形130a、130b的运动向量可以被发送且带可以被编码。但是，如果不能找出平行线，则情形(2)可以被执行且具有非零运动向量的楔形130a、130b可以被编码和发送。

根据另一个例子，如果通过零运动向量搜索的第一直线划分已知，则对于搜索的每个备选运动向量，通过注意在与剖切线128垂直的直线上的投影的符号，楔形划分器224可以确定该运动向量应该属于情形(1)还是情形(2)，并且如果是情形(1)，其中平行线应该落在该几何形状附近，只在该线附近搜索。该例子可以被执行以更好地降低搜索楔形130a、130b的复杂度。

此外，在步骤308中，控制器204可以调用或执行编码器112，更具体地，块分割器222，以将宏块122划分为四个具有第二组尺寸的子块124。换句话说，N×N的宏块122可以被分割以具有N/2×N/2的尺寸。此外，步骤304-308可以对子块124重复。

现在参考图3B和3C，其中共同示出了根据一个例子的用于分解视频序列帧的方法350的流程图。对于本领域普通技术人员来说应该很明显，方法350表示了概括的示例，并且其它步骤可以被添加或者已有的步骤可以被移除、修改或重新排列，而不偏离方法350的范围。

方法350包含上面关于图3A中的方法300所述的许多步骤。这样，关于图3B的步骤302-308，那些步骤在这里不再具体讨论。

无论如何，在步骤308中，控制器204可以调用或执行编码器112，更具体地，运动估计器226和误差计算器228，来为楔形130a、130b确定最佳预测。更具体地说，例如，运动估计器226可以基于参考帧、使用帧间预测来为每个楔形130a、130b确定运动向量。此外，或可替换地，运动估计器226可以使用帧内预测来还基于在邻近块中选择的像素确定运动向量。

误差计算器228可以为通过帧间预测预测的运动向量和通过帧内预测预测的运动向量计算残差，并可以确定哪个运动向量具有最低的残差。这样，在步骤308，根据一个例子，最佳楔形130a、130b可以包括产生最低残差的组合。根据另一个例子，最佳楔形130a、130b可以包括产生显著优化的率失真效率的楔形130a、130b的组合。

此外，在步骤308中，控制器204可以调用或执行编码器112，更具体地，运动估计器226和误差计算器228，来为子块124确定最佳预测。更具体地说，例如，运动估计器226可以使用帧间预测来基于参考帧为每个子块124确定运动向量。此外，或可替换地，运动估计器226可以使用帧内预测来还基于在邻近块中选择的像素确定运动向量。

误差计算器228可以为通过帧间预测预测的运动向量和通过帧内预测预测的运动向量计算残差，并可以确定哪个运动向量具有最低残差。根据另一个例子，误差计算器228可以基于哪一个向量与显著优化的率失真效率关联来进行该计算。

块分割器222和楔形划分器224可以使用帧间预测和帧内预测中的任一个或两者来预测楔形130a、130b和子块124。此外，编码器112可以执行不同的帧间预测和帧内预测来预测楔形130a、130b和子块124。例如，编码器112可以执行多个帧间预测和帧内预测，并可以为楔形130a、130b及子块124中的每个选择最佳的那个。楔形130a、130b及子块124中的每个的最佳预测可以包括，例如，引起最低残差或最佳率失真效率的预测。

这样，在步骤308中，第一组尺寸超过预定最小尺寸的宏块122被既划分为楔形130a、130b且分割为子块124。此外，每个宏块122的运动向量与该运动向量的残差或率失真效率一起被确定。在步骤310中，控制器204可以调用或执行编码器112来计算宏块122运动向量的率失真效率(RD_a)、楔形划分的宏块122的率失真效率(RD_b)及子块124的率失真效率(RD_c)。例如，率失真效率可以通过下列方程计算：

方程(5)：J(p)＝D(p)+λR(p)。

在方程(5)中，p表示总体宏块划分策略，而R(p)指在传输楔形130a、130b、运动向量及残差时得到的码率。换句话说，R(p)指每个要传输的宏块122的比特数。D(p)是对应于划分策略p的失真(例如，均方差(MSE)、绝对误差和(SAD)等)。此外，λ是拉格朗日乘数，其可以被定义为码率和失真之间的平衡因子。

对于压缩，编码器112通知解码器在分解视频帧时使用了哪个宏块划分策略。假设B(p)是编码p所用的比特数，且V(p)是编码与划分策略p关联的运动向量132，以及与划分策略p关联的残差补偿R_res(p)所用的比特数，R(p)可以被定义为：

方程(6)：R(p)＝V(p)+B(p)+R_res(p)。

一般来说，残差R_res(p)可以用基于传统变换的编码来压缩。此外，对于固定的量化矩阵，失真D不随划分策略p改变很多。因此，将D作为常数，得到下列开销：

方程(7)：J(p)＝R(p)。

在步骤312中，控制器204可以执行或调用编码器112来比较率失真效率(RD_a)、(RD_b)和(RD_c)，以显著优化率失真效率。如果确定率失真效率(RD_a)是最佳的，如步骤314所指示，控制器204可以编码并发送宏块122的运动向量，且方法350可以结束，如步骤306所示。但是，如果控制器204确定率失真效率(RD_b)是最佳的，如步骤316所指示，控制器204可以选择将宏块122划分为楔形130a、130b。此外，对于那些已经被划分为楔形130a、130b的宏块122，方法300可以结束，如步骤306所指示，并且那些宏块122可以如以下参考图4所讨论被进一步处理。

此外，如果确定率失真效率(RD_c)是最佳的，如步骤318所指示，控制器204可以选择将宏块122划分为子块124。此外，在步骤320中，控制器204可以再次调用或执行编码器112，以确定是否子块124的尺寸等于预定的最小尺寸(N_s)。对于其第二组尺寸中的一个或两个等于预定的最小尺寸的每个子块124，方法350可以结束，如步骤306所指示。

如图3C所示，对于并非其第二组尺寸中的一个或两个等于预定的最小尺寸的每个子块124，控制器204可以调用或执行编码器112，更具体地，运动估计器226，以确定用于N/2×N/2的子块124的运动向量，控制器204可以将该运动向量发送给解码器，如步骤322所指示。

此外，在步骤322中，控制器204可以调用或执行编码器112，更具体地，楔形划分器224，以将这种子块124划分为两个楔形130a、130b。此外，在步骤322中，控制器204可以调用或执行编码器112，更具体地，块分割器222，以将子块124划分为具有第三组尺寸的四个进一步的子块126。换句话说，N/2×N/2的子块124可以被划分以具有N/4×N/4的尺寸。

这样，在步骤322中，其第二组尺寸超过预定最小尺寸的子块124以上面关于步骤308所讨论的方式被既划分为楔形130a、130b，且分割为进一步的子块126。在步骤324中，控制器204可以调用或执行编码器112，以类似于上面关于步骤310所述的方式，来计算子块124的运动向量的率失真效率(RD_c)、楔形划分的子块124的率失真效率(RD_d)及进一步的子块126的率失真效率(RD_e)。

在步骤326中，控制器204可以执行或调用编码器112来比较率失真效率(RD_c)、(RD_d)和(RD_e)。如果确定率失真效率(RD_c)是最佳的，如步骤328所指示，控制器204可以编码并发送子块124的运动向量。但是，如果确定率失真效率(RD_d)是最佳的，如步骤330所指示，控制器204可以选择将子块124划分为楔形130a、130b。此外，对于那些已经划分为楔形130a、130b的子块124，方法350可以结束，如步骤306所指示。

此外，如果确定率失真效率(RD_e)是最佳的，如步骤332所指示，控制器204可以选择将子块124划分为进一步的子块126。此外，在步骤334中，控制器204可以再次调用或执行编码器112，以确定是否进一步的子块126的尺寸等于预定的最小尺寸(N_s)。对于其第二组尺寸中的一个或两个等于预定的最小尺寸的每个进一步的子块126，方法350可以结束，如步骤306所指示。

但是，对于并非其第二组尺寸中的一个或两个等于预定的最小尺寸的每个进一步的子块126，步骤322-334可以被重复。此外，步骤322-334可以被重复，直到所有块122-126已经达到最小叶级别块大小或已经被划分为楔形130a、130b。

通过在视频序列帧上执行方法350，该帧可以被分解为包括块122-126以及楔形130a、130b，具有显著优化该帧的率失真效率的配置。

此外，控制器204还可以处理多个分解的视频序列帧，使得分解的视频序列帧适于输出，如图4所示。

图4更具体地示出了根据一个例子的用于处理分解的视频序列帧的方法400的流程图。对于本领域普通技术人员来说应该很明显，方法400表示了概括的示例，并且其它步骤可以被添加或者已有的步骤可以被移除、修改或重新排列，而不偏离方法400的范围。

在步骤402中，控制器204可以调用或执行编码器112来编码运动向量132和残差，例如预测误差，这些是在步骤308和320中计算的。通过使用合适的变换，用于块122-126及楔形130a、130b的运动向量132可以被编码。通过方形块变换的计算，用于块122-126的残差可以被编码，产生系数。

但是，对于楔形130a、130b，残差可以在两个不同选项下被编码。在第一选项下，与单个块122-126的楔形130a、130b关联的残差可以被组合为方形块，并且单次块变换可以被计算。在第二选项下，可以为每个残差计算单独的形状自适应变换，例如形状自适应DCT。选择哪个选项来实施还可以基于率失真效率最优化方案。换句话说，控制器204可以实施产生最佳率失真效率的选项。

在块122-126的楔形130a、130b中的一个具有与期望的质量相比零预测误差的情况下，已经提出了多种已知的形状自适应变换，例如形状自适应DCT。在这些情况下，已知的形状自适应变换中的一种可以被用来为不具有零预测误差的楔形130a、130b编码残差。作为另一个例子，不具有零预测误差的楔形130a、130b的像素可以被填充算法填充，然后被作为规则块编码。合适的填充算法的一个例子是楔形130a、130b中不相关的像素用相关像素的平均值来填充。

在步骤404中，控制器204可以调用或执行量化器114通过任何足够合适的量化技术来量化编码的运动向量和编码的残差。此外，在步骤406中，控制器204可以调用或执行熵编码器116通过任何足够合适的编码技术来，例如，将码分配给量化的运动向量码和残差码，以使码长度与量化的运动向量码和残差码的概率匹配。

如步骤408所示，控制器204可以可选地将编码的视频帧118输出到一个或更多个输出设备。对于具有楔形130a、130b的块122-126，在其中一个楔形130a、130b具有零运动向量的实例中，控制器204可以发送一个比特，该比特表示哪个楔形130a、130b具有零运动向量而哪个楔形130a、130b具有非零运动向量，并且控制器204可以发送单个运动向量而不是两个运动向量。

现在参考图5，示出了根据一个例子的用于对块122-126编码的方法500的流程图。对于本领域普通技术人员来说应该很明显，方法500表示了概括的示例，并且其它步骤可以被添加或者已有的步骤可以被移除、修改或重新排列，而不偏离方法500的范围。

对方法500的描述参考了图2中示出的框图200，并由此参考了其中引用的元件。但是应该理解，方法500不限于框图200中列出的元件。而是，应该理解，方法500可以通过具有不同于框图200所列出的配置的系统来实现。

一般来说，类似于方法350，方法500可以被执行以将运动估计模型扩展来包括各种情况下的楔形130a、130b，并由此改进视频编解码器的率失真效率。

如图5所示，视频编码系统102可以接收N×N的块122-126。在步骤502中，控制器204可以调用或执行编码器112，更具体地，运动估计器226和误差计算器228，来为N×N的块122-126确定最佳预测。更具体地说，例如，运动估计器226可以使用帧间预测来基于参考帧确定用于N×N的块122-126的运动向量。此外，或可替换地，运动估计器226可以使用帧内预测来还基于邻近块中选择的像素确定运动向量。误差计算器228可以为由帧间预测预测的运动向量和帧内预测预测的运动向量计算残差，并可以确定哪个运动向量具有最低残差。这样，在步骤502中，根据一个例子，最佳预测可以包括产生最低残差的那个。根据另一个例子，最佳预测可以包括产生显著优化的率失真效率的那个。

在步骤504中，控制器204可以调用或执行编码器112来确定是否N×N的块122-126的尺寸中的一个或两个等于预定的最小尺寸(N_s)。如上所讨论，预定的最小尺寸可以被定义为编码器112能够分解块122-126到的最小叶级别块大小的尺寸，典型地为4×4像素。

在步骤506中，如果N×N的块122-126的第一组尺寸中的一个或两个等于预定的最小尺寸(N_s)，如方法400(图4)所指示，N×N的块的运动向量和残差可以被编码、量化和熵编码。

但是，如果没有一个尺寸等于预定的最小尺寸(N_s)，控制器204可以将在步骤502中确定的残差与第一阈值(T₁)比较，如步骤508所指示。第一阈值(T₁)可以一般地定义为为运动向量预测寻求的预定级别的质量，其可以基于，例如，训练数据，该数据指示哪些级别的残差是可以接受的。此外，第一阈值(T₁)可以对不同的块122-126大小变化。

如果残差低于第一阈值(T₁)，步骤506可以被执行。这样，如方法400(图4)所指示，N×N的块的运动向量和残差可以被编码、量化和熵编码。

但是，如果残差超过第一阈值(T₁)，控制器204可以调用或执行编码器112，更具体地，楔形划分器224，来将N×N的块122-126划分为两个楔形130a、130b，如步骤510所指示。如上关于步骤308(图3A)所述，楔形划分器224可以从有限拼接的码本找到最佳剖切线128，以将N×N的块122-126分为两个楔形130a、130b。在将N×N的块122-126划分为楔形130a、130b时，控制器204可以调用或执行编码器112，更具体地，运动估计器226和误差计算器228，来为楔形130a、130b确定最佳预测，如步骤512所指示。

更具体地，例如，运动估计器226可以使用帧间预测来基于参考帧为每个楔形130a、130b确定运动向量。此外，或可替换地，运动估计器226可以使用帧内预测来还基于邻近块中选择的像素确定运动向量。

误差计算器228可以为由帧间预测预测的运动向量和帧内预测预测的运动向量计算残差，并可以确定哪个运动向量具有最低残差。这样，在步骤512中，根据一个例子，最佳楔形130a、130b可以包括产生最低残差的楔形130a、130b的组合。根据另一个例子，最佳预测可以包括产生显著优化的率失真效率的楔形130a、130b的组合。

在步骤514中，控制器204可以将在步骤512中确定的残差与第二阈值(T₂)比较，第二阈值(T₂)可以不同于第一阈值(T₁)。第二阈值(T₂)可以一般地定义为为运动向量预测寻求的预定级别的质量，其可以基于，例如，训练数据，该数据指示哪些级别的残差是可以接受的。此外，第二阈值(T₂)可以对不同的块122-126大小变化。

如果残差低于第二阈值(T₂)，步骤506可以被执行，由此对楔形130a、130b的运动向量和残差进行编码，如方法400(图4)所指示

但是，如果残差超过第二阈值(T₂)，控制器204可以调用或执行编码器112，更具体地，块分割器222，来将N×N的块122分割为具有第二组尺寸的四个子块124，如步骤516所指示。换句话说，N×N的块122可以被分割为具有N/2×N/2的尺寸。

步骤502-516可以被重复，直到块122或其子块124、126都已经在步骤506中被编码。此外，方法500可以对任何剩余的块122-126重复。

现在转向图6，示出了根据另一个例子对块122-126编码的方法600的流程图。对于本领域普通技术人员来说应该很明显，方法600表示了概括的示例，并且其它步骤可以被添加或者已有的步骤可以被移除、修改或重新排列，而不偏离方法600的范围。

对方法600的描述参考了图2中示出的框图200，并由此参考了其中引用的元件。但是应该理解，方法600不限于框图200中列出的元件。而是，应该理解，方法600可以通过具有不同于框图200所列出的配置的系统来实现。

一般来说，类似于方法500，方法600可以被执行以将运动估计模型扩展来包括各种情况下的楔形130a、130b，并由此改进视频编解码器的率失真效率。

如图6所示，视频编码系统102可以接收N×N的块122-126。在步骤602中，控制器204可以调用或执行编码器112，更具体地，运动估计器226和误差计算器228，来为N×N的块122-126确定最佳预测，如上关于图5中的步骤502所讨论。

在步骤604中，控制器204可以调用或执行编码器112来确定是否N×N的块122-126的尺寸中的一个或两个等于预定的最小尺寸(N_s)，如上关于图5中的步骤504所讨论。此外，在步骤606中，如果N×N的块122-126的第一组尺寸中的一个或两个等于预定的最小尺寸(N_s)，则如方法400(图4)所指示，N×N的块的运动向量和残差可以被编码、量化和熵编码。

但是，如果没有一个尺寸等于预定的最小尺寸(N_s)，控制器204可以调用或执行编码器112，更具体地，楔形划分器224，来将N×N的块122-126划分为两个楔形130a、130b，如步骤608所指示。如上关于步骤308(图3A)和步骤510(图5)所述，楔形划分器224可以从有限拼接的码本找到最佳剖切线128，以将N×N的块122-126分为两个楔形130a、130b。在将N×N的块122-126划分为楔形130a、130b时，如步骤610所指示，控制器204可以调用或执行编码器112，更具体地，运动估计器226和误差计算器228，来为楔形130a、130b确定最佳预测且为运动向量确定残差，如上关于步骤512(图5)所讨论。

在步骤612中，控制器204可以调用或执行编码器112以确定在步骤602和在步骤610中找到的预测中哪个是总体最佳预测。即，控制器204可以确定哪个预测产生最低残差和最高率失真效率中的任一个或两者。在执行该比较时，控制器204可以将惩罚因子加到在楔形130a、130b上执行的预测所产生的残差上，因为已被划分为楔形130a、130b的块122-126在被编码时典型地需要更多比特数。惩罚因子可以，例如，基于训练以专门的方式被定义，训练可以通过测试各种惩罚因子及相关的残差来开展。

在步骤614中，控制器204可以将从在步骤612中确定的总体最佳预测产生的残差与第三阈值(T₃)比较，第三阈值(T₃)可不同于关于图5所讨论的第一阈值(T₁)和第二阈值(T₂)。第三阈值(T₃)可以一般地定义为为运动向量预测寻求的预定级别的质量，其可以基于，例如，训练数据，该数据指示哪个级别的残差是可以接受的。此外，第三阈值(T₃)可以对不同的块122-126大小变化。

如果残差低于第三阈值(T₃)，步骤606可以被执行，由此对楔形130a、130b的运动向量和残差进行编码，如方法400(图4)所指示

但是，如果残差超过第三阈值(T₃)，控制器204可以调用或执行编码器112，更具体地，块分割器222，来将N×N的块122分割为四个具有第二组尺寸的子块124，如步骤616所指示。换句话说，N×N的块122可以被分割为具有N/2×N/2的尺寸。

步骤602-616可以被重复，直到块122或其子块124、126都已经在步骤606中被编码。此外，方法600可以对任何剩余的块122-126重复。

在方法300、350、400、500和600中示出的操作中的一些或所有可以被包含在任何期望的计算机可访问媒介中作为实用程序、程序或子程序。此外，方法300、350、400、500和600可以被计算机程序嵌入，该程序可以以活动和非活动的各种形式存在。例如，它们可以作为软件程序存在，该软件程序由源代码、目标代码、可执行代码或其它形式中的程序指令组成。上述任一个可以嵌入计算机可读媒介，包括存储设备和信号，以压缩或非压缩形式。

示例性计算机可读存储设备包括传统计算机系统RAM、ROM、EPROM、EEPROM，以及磁或光盘或磁带。示例性计算机可读信号，无论是否使用载波调制，是作为其主机或运行计算机程序的计算机系统可以被配置为访问的信号，包括通过因特网或其它网络下载的信号。上述的具体例子包括在CD ROM上或通过因特网下载的程序发布。在某种意义上，因特网本身，作为抽象的实体，是计算机可读媒介。这对一般的计算机网络也是这样。因此应该理解，任何能够执行上述功能的电子设备可以执行以上列出的功能。

这里描述和示出的是本发明的优选实施例及其一些变体。这里使用的术语、描述和图仅通过示例的方式阐述，而不是为了限制。本领域技术人员将认识到，在本发明范围内可以有很多变体，其旨在由下列权利要求及其等价物来定义，在其中所有术语旨在其最广泛的合理的意义，除非另外指出。

Claims

1.一种用于分解视频序列帧的方法(300)，其中所述视频序列帧由多个块(122-126)表示，所述方法包括：

对于所述多个块(122-126)中的至少一个块，

(a)确定(304)是否该至少一个块的一个或两个尺寸等于预定的最小尺寸；

(b)响应于一个或两个尺寸等于预定的最小尺寸，发送(306)用于块(122-126)的运动向量(132)；

(c)响应于两个尺寸都超过预定的最小尺寸，

(i)确定(308)用于块(122-126)的运动向量(132)；

(ii)将块(122-126)划分(308)为两个楔形(130a，130b)，其中楔形(130a、130b)中的每一个与不同的运动向量(132)关联；

(iii)将块(122-126)分割(308)为四个N/2×N/2的子块(122-126)；以及

(iv)在四个N/2×N/2的子块中的每一个上重复步骤(a)-(c)，直到一个或两个尺寸等于预定的最小尺寸。

2.如权利要求1所述的方法(300)，其中，将块(122-126)划分(308)为楔形(130a、130b)还包括将块(122-126)到楔形(130a、130b)的划分限制到预先选择的楔形(130a、130b)的集合，其中预先选择的楔形(130a、130b)的集合包括块(122-126)的所有可能的楔形划分的子集，由此显著降低与搜索楔形(130a、130b)相关的计算需求。

3.如权利要求1和2中的任一个所述的方法(300)，其中，将块(122-126)划分(308)为楔形(130a、130b)还包括将块(122-126)划分(308)为两个楔形(130a、130b)，使得两个楔形(130a、130b)中的一个具有零运动向量(132)。

4.如权利要求3所述的方法(300)，其中，所述楔形(130a、130b)的运动向量(132)包含残差，所述方法还包括：

将包含零运动向量(132)的楔形(130a、130b)的残差量化(404)为零，由此降低传送楔形(130a、130b)的运动向量(132)的码率。

5.如权利要求1-4中的任一个所述的方法(300)，其中，将块(122-126)划分(308)为楔形(130a、130b)还包括将用于每个楔形(130a、130b)的运动向量(132)限制到来自块(122-126)的空间邻域的运动向量(132)的相对小的集合，由此降低与搜索楔形(130a、130b)相关的计算需求。

6.如权利要求1-5中的任一个所述的方法(300)，其中，将块(122-126)划分(308)为楔形(130a、130b)还包括将块(122-126)划分(308)为两个楔形(130a、130b)以及两个楔形(130a、130b)之间的可变厚度的平行带，其中，两个楔形(130a、130b)中的每个以及该平行带与不同的运动向量(132)关联。

7.如权利要求1-6中的任一个所述的方法(300)，其中，步骤(ii)中将块划分(308)为楔形针对楔形(130a、130b)中的每个生成残差，该方法还包括：

以下之一：

将残差组合(402)为正方形块，并通过使用单次块变换编码该正方形块；和

使用两次单独的形状自适应变换编码(102)残差。

8.一种用于编码视频序列帧的编码器(112)，其中，该视频序列帧由具有第一组尺寸的多个块(122-126)表示，所述编码器(112)包括：

楔形划分器(224)；

块分割器(222)；

运动估计器(226)；以及

误差计算器(228)，配置为计算运动向量(132)的第一度量，该第一度量与将至少一个块(122-126)划分为两个楔形(130a、130b)相关，以及计算运动向量(132)的第二度量，该第二度量与将至少一个块分割为子块(122-126)相关，并且

对于至少一个块(122-126)，其中控制器(204)被配置为(a)确定是否该至少一个块(122-126)的一个或两个尺寸等于预定的最小尺寸，(b)响应于一个或两个尺寸等于预定的最小尺寸，执行运动估计器(226)以估计用于该至少一个块的运动向量(132)，以及响应于两个尺寸都超过预定的最小尺寸，(c)执行运动估计器(226)以估计用于该至少一个块(122-126)的运动向量(132)，(d)执行楔形划分器(224)，以将该多个块(122-126)中的该至少一个块(122-126)划分为两个楔形(130a、130b)，(e)执行块分割器(222)，以将该至少一个块(122-126)分割为具有第二组尺寸的子块(122-126)，并对每个子块(122-126)执行(a)-(e)。

9.如权利要求8所述的编码器(112)，其中，控制器(204)还被配置为执行楔形划分器(224)，以将块(122-126)划分为两个楔形(130a、130b)，使得两个楔形(130a、130b)中的一个具有零运动向量(132)。

10.一种计算机可读存储媒介，在其上嵌入了一个或多个计算机程序，所述一个或多个计算机程序实现用于分解视频序列帧的方法(300)，其中，该视频序列帧由多个块(122-126)表示，所述一个或更多个计算机程序包括一组指令，用于：

确定(304)所述多个块(122-126)中的每个是否一个或两个尺寸等于预定的最小尺寸；

对于一个或两个尺寸等于预定的最小尺寸的那些块(122-126)，发送(306)用于块(122-126)的运动向量(132)；

对于两个尺寸都超过预定的最小尺寸的那些块(122-126)，

确定(308)用于块(122-126)的运动向量(132)；

将块(122-126)划分(308)为两个楔形(130a、130b)，其中，楔形(130a、130b)中的每个与不同的运动向量(132)关联；

将块(122-126)分割(308)为四个N/2×N/2的子块(122-126)；以及

在四个N/2×N/2的子块(122-126)中的每个上重复步骤(a)-(c)，直到一个或两个尺寸等于预定的最小尺寸。