CN101978697B

CN101978697B - 针对基于块的编码的编码模式选择

Info

Publication number: CN101978697B
Application number: CN2008801282510A
Authority: CN
Inventors: G·钟; A·奥尔特加; T·萨卡莫托
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2008-01-25
Filing date: 2008-01-25
Publication date: 2013-02-13
Anticipated expiration: 2028-01-25
Also published as: WO2009094036A1; EP2238764A1; CN101978697A; EP2238764A4; US20100295922A1

Abstract

在一种选择用于对由多个连续帧组成的数字视频流进行基于块的编码的编码模式的方法中，获得包含在多个连续帧中的具有不同尺寸的编码块中的像素的深度值；识别包含具有足够类似的深度值的像素的最大编码块尺寸；以及选择对最小具有所识别的最大编码块尺寸的编码块进行基于块的编码的编码模式。

Description

针对基于块的编码的编码模式选择

背景技术

数字视频流通常通过有线或无线连接作为单独图像的连续帧来加以传输。每一个连续图像或帧通常包括非常大量的数据，并且因此数字图像流通常需要相对较大量的带宽。照此，通常需要大量的时间来接收数字视频流，当试图接收和观看数字视频流时，这是令人厌烦的。

克服与传输和接收数字视频流相关联的问题的努力已经导致压缩数字视频流的许多技术。虽然其他压缩技术已经用来减小数字图像的大小，但是运动补偿已经演进成为也许最有用的用于将数字视频流减小到可管理的比例的技术。在运动补偿中，由于帧中的运动而导致的处于不同位置的与先前帧的部分相同或几乎相同的“当前”帧的部分在数字视频流的编码处理期间被识别。当包含基本冗余像素的块在先前帧中被找到时，代替传输识别当前帧中的像素的数据的是，传输下述代码，该代码告知解码器在哪里为那些块找到先前帧中的冗余或几乎冗余的像素。

因此，在运动补偿中，在数字图像内最佳匹配当前数字图像中的类似形状的样本(像素)块的图像样本(像素)预测块被识别。识别图像样本预测块是计算上高度密集的过程，并且其复杂性已经在最近的基于块的视频编码器中被进一步加重，所述视频编码器诸如ITU-T H.264/ISOMPEG-4基于AVC的编码器，因为使用具有不同像素大小的编码块来执行运动估计，诸如4×4，4×8，8×4，8×8，8×16，16×8和16×16。更特别的，这些类型的编码器使用大的编码模式集合，每个被优化用于编码块中的特定内容特征，并且因此选择被优化的编码模式是相对相对复杂的。

虽然最近的基于块的视频编码器已经变的非常编码高效，从而导致与先前标准相比对于相同的编码比特率而言更高的视觉质量，但是这些编码器的编码复杂性与先前编码器相比也已经显著地增加。对于需要实时编码的应用，诸如现场流传送或远程会议，编码复杂性的这种增加会产生实现方面的顾虑。

目标在于减小编码复杂性的常规技术试图使用像素域信息事先删除不可能的编码模式。虽然这些常规技术中的一些已经导致减小了的编码复杂性，但是它们这样做的代价是增加了视觉失真。

减小编码复杂性同时维持压缩效率和质量的改进方法因此将是有用的。

附图说明

根据参考附图所作的以下描述，本发明的特征对于本领域技术人员而言将变得显而易见，在附图中：

图1描绘了根据本发明实施例的、用于对数字视频流进行基于块的编码的系统的简化框图；

图2示出了根据本发明实施例的、选择用于对数字视频流进行基于块的编码的编码模式的方法的流程图；

图3描绘了根据本发明实施例的、被分成多个编码块的二维帧的图；

图4示出了根据本发明实施例的、基于多尺寸编码块的深度值来预删除多尺寸编码块的方法的流程图；

图5示出了根据本发明实施例的、描绘具有不同深度值的两个对象的投影平面的图；以及

图6示出了根据本发明实施例的、被配置成实施或执行图2和4中所示方法的计算设备的框图。

具体实施方式

为了简单和说明性的目的，通过主要参考其示例性实施例来描述本发明。在以下描述中，阐述了许多具体细节以便提供对本发明的全面理解。然而对于本领域普通技术人员将显而易见的是，本发明可以在没有这些具体细节的限制的情况下实现。在其他情况下，没有详细描述众所周知的方法和结构，以避免不必要地模糊本发明。

本文公开的是用于选择对数字视频流进行基于块的编码的编码模式的方法和系统。本文还公开了被配置成执行所公开方法的视频编码器。根据一个方面，数字视频流的帧被分成由像素形成的多尺寸的编码块，并且像素的深度值被用于快速且高效地识别包含足够类似的深度值的最大编码块。更特别的是，相同尺寸的编码块的深度值的类似性被评估以便确定相同的编码模式是否可以用在相同尺寸的编码块上，所述深度值可以被定义为虚拟照相机和帧中所呈现像素之间的距离。

一般而言，帧中具有类似深度的区域更有可能对应于均匀运动的区域。此外，深度值信息通常由图形渲染引擎在将3D场景渲染为2D帧的期间产生，并且因此可容易地为视频编码器获得。照此，如果可容易地获得的深度值信息表示空间区域中的均匀运动，则基本上可以避免考虑较小的块尺寸来进行运动估计，从而导致模式选择复杂性的减小以及小的编码性能损失。

本文公开的系统和方法因此可以被实施为压缩视频以进行存储或传输，以及用于随后重建原始视频的近似。更特别的，本文公开的系统和方法涉及编码视频信号以进行压缩和随后重建。在一个示例中，本文公开的系统和方法可以被实施为编码视频以用于改进的在线游戏观看。

通过实施本文公开的系统、方法和视频编码器，与基于块的编码相关联的复杂性可以显著降低，且视觉失真有可忽略的增加。

首先参考图1，其中示出了根据示例的、用于对数字视频流进行基于块的编码的系统100的简化框图。在一方面，本文公开的各种方法和系统可以在图1中所示的系统100中实施，如本文以下更详细讨论的那样。应该理解的是，系统100可以包括附加的部件，并且本文描述的多个部件中的某些部件可以被移除和/或修改，而不脱离系统100的范围。

如图1中所示，系统100包括视频编码器110和图形渲染单元120。图形渲染单元120还被描绘为包括具有颜色缓冲器124和Z缓冲器126的帧缓冲器122。一般地，视频编码器110被配置为执行如下过程：基于从图形渲染单元120获得的深度值信息140来快速且高效地选择用于对数字视频流130进行基于块的编码的优化编码模式。视频编码器110在对视频流130执行基于块的编码处理的过程中可应用优化编码模式。

图形渲染单元120从诸如游戏服务器或其他类型的计算机源之类的输入源接收包含三维(3D)模型130的视频流。图形渲染单元120还被配置为将3D模型130渲染或光栅化到二维(2D)平面上，以产生原始2D帧。根据一个示例，3D模型130的渲染在图形渲染单元120的帧缓冲器122中执行。

图形渲染单元120单独地将3D模型130中的虚拟对象绘制到帧缓冲器122上，在此过程期间，图形渲染单元120产生所绘制的虚拟对象的深度值。颜色缓冲器124包含像素粒度中的所绘制虚拟对象的RGB值，并且Z缓冲器126包括像素粒度中的所绘制虚拟对象的深度值。深度值一般对应于所绘制的虚拟对象的被渲染像素和虚拟相机之间的距离，所述虚拟相机通常用于在图形渲染处理期间确定对象遮挡。因此例如，所绘制虚拟对象(或像素)的深度值用于辨别哪些对象更接近于虚拟照相机，并且因此哪些对象(或像素)被遮挡以及哪些没有被遮挡。在一个方面，图形渲染单元120被配置为创建由视频编码器110编码的2D帧的深度图。

视频编码器110采用像素的深度值140来快速且高效地选择用于视频流130的基于块的编码的基本优化编码模式。更特别的，例如，视频编码器110被配置为通过评估宏块(16×16像素)子集中的像素的深度值140并且从要被编码的编码块的候选集合中快速消除不可能的块尺寸来快速且高效地选择编码模式。视频编码器110用来选择编码模式的各种方法在本文下面更详细地加以描述。

现在参考图2，其中示出了根据实施例的、选择用于对数字视频流进行基于块的编码的编码模式的方法200的流程图。对本领域普通技术人员而言应当显而易见的是，图2中描述的方法200表示一般说明，并且可以添加其他步骤或可以去除、修改或重新布置现有步骤，而不会偏离方法200的范围。

一般而言，视频编码器110可以包括硬件和软件中的至少一种，其被配置为实现作为对视频流130编码并且形成编码比特流150的操作的一部分的方法200。此外，视频编码器110可以实施方法200以通过快速且高效地识别编码块的基本优化编码模式来大大减小对视频流130进行基于块的编码的复杂性。照此，例如通过实施方法200，诸如在H.264标准下的实时的基于块的编码的复杂性可以被大大降低。

在步骤202，视频编码器110可以从图形渲染单元120接收经渲染的2D帧。如上所述，2D帧可能已经被图形渲染单元120渲染了。

在步骤204，视频编码器110将每个2D帧分成具有不同可用大小的编码块320，例如图3中所示。图3更特别地描绘了已经被分成多个编码块320的2D帧310的图300。如其中所示，视频编码器110可以将2D帧310分成具有例如16×16像素的第一尺寸的编码块320(也以另外的方式称为宏块)。图3中还描绘了其中一个编码块320的放大图，其示出了视频编码器110可以进一步的将编码块320分成更小的编码块A-D。

更特别的，图3示出了16×16像素编码块320可以被分成具有例如8×8像素的第二尺寸的编码块A-D。图3还示出了第二尺寸的编码块A-D可以被进一步分为具有例如4×4像素的第三尺寸的编码块A[0]-A[3]。照此，第二尺寸的编码块A-D近似是第一尺寸的编码块的尺寸的四分之一，并且第三尺寸的编码块A[0]-A[3]近似是第二尺寸的编码块A-D的尺寸的四分之一。虽然未示出，但第二尺寸的编码块B-D还可以被分为相应的第三尺寸的编码块B[0]-B[3]，C[0]-C[3]，以及D[0]-D[3]，类似于第二尺寸的编码块A。

在步骤206，视频编码器110例如从图形渲染单元120获得包含在编码块320中的像素的深度值140。如上所述，视频编码器110还可以接收被映射到2D帧的像素的深度值140。

在步骤208，视频编码器110识别每一个宏块320中(例如每个16×16像素编码块)中包含具有足够类似深度值150的像素的最大编码块尺寸。下面参考图4中描绘的方法400来更详细的讨论步骤208。

在步骤210，视频编码器110选择用于对编码块320进行基于块的编码的编码模式，所述编码块320最小具有被识别为包含具有足够类似的深度值的像素的最大编码块尺寸。更特别的，视频编码器110为至少具有所识别的最大编码块尺寸的编码块320选择实质优化的编码模式。视频编码器110然后可以根据所选择的编码模式对编码块320执行基于块的编码操作以输出编码比特流150。

现在转到图4，其中示出了根据实施例的、基于多个尺寸的编码块的深度值140预删除多个尺寸的编码块的方法400的流程图。对于本领域技术人员而言应当显而易见的是，图4中描述的方法400表示一般说明，并且可以添加其他步骤或可以去除、修改或重新布置现有步骤，而不会偏离该方法的范围。

一般而言，方法400是图2中识别包含具有足够类似的深度值140的像素的最大编码块的步骤206的更详细描述。更特别的，方法400包括用于快速且高效地预删除具有不同深度值的多尺寸编码块的步骤。换言之，每个宏块320中的具有不同深度值140的那些多尺寸编码块被从为其选择编码模式的编码块候选集合中去除。编码块候选集合可以被定义为包括对其识别基本优化编码模式的各种尺寸的那些编码块。编码模式例如包括跳过(Skip)、内部(Intra)以及之间(Inter)。

根据示例，视频编码器110采用图形渲染单元120的z缓冲器中可得到的像素的深度值140来识别基本优化的编码模式。在z缓冲器中，每个像素的深度值由有限的N比特表示来表示，其中N的范围通常是从16比特到32比特。因为这个有限的精度限制，以及真实深度值z的集合，z缓冲器通常使用N比特精度的量化深度值z_b：

方程(1)：

z_{b} = 2^{N} (a + \frac{b}{z})

其中

方程(2)：

a = \frac{zF}{zF - zN}

和

b = \frac{zF \cdot zN}{zN - zF}

在方程(2)中，zN和zF是近平面和远平面的z坐标，如图5中的图500中所示。如其中所示，近平面是投影平面，而远平面是从其可看到对象的最远视界(horizon)；zN和zF通常被选为避免由于将真实深度z舍入到量化深度z_b而导致的错误的对象遮挡。方程(1)基本表明深度值是非均匀量化的。也就是说，靠近虚拟照相机的对象比远离的对象具有更细的深度精度，这在大多数渲染情形中是希望的。归一化的量化深度值还可以被定义为：

方程(3)：

其中z₀∈[0，1].

经量化的深度值的缩放整数形式z_b或归一化形式z₀可以从常规的图形卡获得。此外，当z接近zF(或zN)时，z₀接近1(或0)，并且由于zF＞＞zN，

方程(4)：a≈1且b≈-zN，并且因此，

方程(5)：

z = \frac{zN}{(1 - z_{0})}

相应地，绝对值度量(z’-z)或者相对值度量(

或

)(其中d和d’表示对应于处于深度z和z’的第一块和第二块的一个像素距离的实际距离)可以用于识别具有第一深度z的第一块和具有第二深度z’的第二块之间的不连续性。

对第一尺寸块(图3中的宏块320)的每一个实施方法400，以识别具有足够类似的深度值的不同尺寸的块中的最大块。更特别地，例如，从最小尺寸块到最大尺寸块评估编码块，以便识别具有足够类似的深度值的最大尺寸块。通过这样做，具有足够类似的深度值的第一尺寸块320内的较小块可以从候选集合中去除，使得用于较大块的编码模式可以被识别。在一个方面，因此，识别编码块320所需的复杂性和时间与常规视频编码技术相比可以被大大降低。

如附图标记401处所示，视频编码器110被配置为基于从图形渲染单元120的z缓冲器126传送的像素深度值来实施方法400。

在步骤402，视频编码器110比较第二尺寸块A(例如具有8×8像素的块)中的四个第三尺寸块A[0]-A[3](例如具有4×4像素的块)的深度值。更特别地，视频编码器110通过将相似函数sim()应用到四个第三尺寸块A[0]-A[3]来执行该比较。相似函数sim()在下文将被更详细地加以描述。

如果第二尺寸块A中的四个第三尺寸块A[0]-A[3]的深度值足够类似，即如果深度值的偏差小于预定水平(＜τ₀)，则从编码块的候选集合中去除第二尺寸块A中的第三尺寸块A[0]-A[3](skip8sub：＝1)。照此，例如，如果第三尺寸块A[0]-A[3]被确定为足够类似，即sim(A[0]，A[1]，A[2]，A[3])＜τ₀，则可以使用相同的编码模式来对那些块进行编码，并且因此不需要确定每个第三尺寸块A[0]-A[3]的编码模式。

然而，如果第三尺寸块A[0]-A[3]的任何一个的深度值与另一个第三尺寸块A[0]-A[3]的偏差超过预定水平(＜τ₀)，则将第三尺寸块包含在候选集合中。换言之，这些第三尺寸块A[0]-A[3]可以被单独评估以确定将哪个编码模式用于第三尺寸块A[0]-A[3]。

类似于步骤402，在步骤404-408，将第三尺寸块B[0]-B[3]、C[0]-C[3]和D[0]-D[3]的深度值分别相互比较，以确定这些第三尺寸块是否应该被包含在候选集合中。

如果确定第三尺寸块A[0]-A[3]，B[0]-B[3]、C[0]-C[3]和D[0]-D[3]的集合中的每一个的深度值分别足够类似，则小于第二尺寸的所有块尺寸被从候选集合中去除(skip8sub：＝1)，如步骤410所示。在第三尺寸块A[0]-A[3]，B[0]-B[3]、C[0]-C[3]和D[0]-D[3]的多个集合的至少一个分别不足够类似的情况下，则将那些集合包含在候选集合中并且可以彼此独立地确定用于那些集合的编码模式。

此外，视频编码器110在两个并行轨道上比较具有从候选集合中去除的第三尺寸块A[0]-A[3]，B[0]-B[3]、C[0]-C[3]和D[0]-D[3]的那些第二尺寸块A-D的深度值。更特别地，视频编码器110通过将相似函数sim()应用到第二尺寸块A-D的相邻集合来执行比较。在该方面，在步骤412，视频编码器110将相似函数应用到两个水平相邻的第二尺寸块A和B，并且在步骤414，视频编码器110将相似函数应用到两个水平相邻的第二尺寸块C和D。

同样，在步骤422，视频编码器110将相似函数应用于两个垂直相邻的第二尺寸块A和C的深度值，并且在步骤424，视频编码器110将相似函数应用于两个垂直相邻的第二尺寸块B和D的深度值。

更特别地，视频编码器110确定两个水平相邻的第二尺寸块A和B的深度值是否足够类似，和/或其他两个水平相邻的第二尺寸块C和D的深度值是否足够类似，即块A和B之间以及块C和D之间的深度值的偏差是否小于预定水平(＜τ)。同样，视频编码器110确定两个垂直相邻的第二尺寸块A和C的深度值是否足够类似，和/或其他两个垂直相邻的第二尺寸块B和D的深度值是否足够类似，即块A和C之间以及块B和D之间的深度值的偏差是否小于预定水平(＜τ)。

如果视频编码器110确定两个水平相邻的第二尺寸块A和B的深度值足够类似，则视频编码器110从候选集合中去除这两个第二尺寸块A和B。同样，如果视频编码器110确定其他两个水平相邻的第二尺寸块C和D的深度值足够类似，则视频编码器110从候选集合中去除这两个第二尺寸块C和D。在这种情况下，在步骤416，具有第二尺寸的编码块320被从候选集合中去除(skip8×8：＝1)。此时，候选集合可以包括具有大于第二尺寸的尺寸的那些编码块，例如第一尺寸的块320和具有其长度或宽度超过第二尺寸块的长度或宽度的矩形形状的块。

此外，或可选地，如果视频编码器110确定两个垂直相邻的第二尺寸块A和C的深度值足够类似，则视频编码器110从候选集合中去除这两个第二尺寸块A和C。同样，如果视频编码器110确定其他两个垂直相邻的第二尺寸块B和D的深度值足够类似，则视频编码器110从候选集合中去除这两个第二尺寸块B和D。在这种情况下，在步骤426，具有第二尺寸的编码块320被从候选集合中去除(skip8×8：＝1)。

在步骤418，视频编码器110比较两个水平相邻块A和B(例如具有组合的8×16像素尺寸)的深度值与其他两个水平相邻块C和D(例如具有组合的8×16像素尺寸)的深度值，以确定深度值之间的差是否超过预定水平(τ₁)。再次，视频编码器110可以使用相似函数sim()来进行该确定。如果视频编码器110确定两个水平相邻的第二尺寸块A和B的深度值与其他两个水平相邻的第二尺寸块C和D的深度值足够类似，则在步骤420，视频编码器110从候选集合中去除第二尺寸块A-D(skip8×16：＝1)。

此外，或可选地，在步骤428，视频编码器110比较两个垂直相邻块A和C(例如具有组合的16×8像素尺寸)的深度值与其他两个垂直相邻块B和D(例如具有组合的16×8像素尺寸)的深度值，以确定深度值之间的差是否超过预定水平(τ₁)。再次，视频编码器110可以使用相似函数sim()来进行该确定。如果视频编码器110确定两个垂直相邻的第二尺寸块A和C的深度值与其他两个水平相邻的第二尺寸块B和D的深度值足够类似，则在步骤430，视频编码器110从候选集合中去除第二尺寸块A-D(skip16×8：＝1)。

根据示例，具有最大尺寸(例如16×16像素)的第一尺寸编码块320可以不从候选集合中去除，因为它们仅仅包含一个运动向量并且因此与相对较低的编码成本关联。此外，上述的预定水平(τ₀，τ，τ₁)可以被选择以满足编码复杂性的期望的减小并且因此可以通过实验来加以确定。

为了相对增加的复杂性，现在将讨论关于可以如何定义相似函数sim()的各种示例。在一个方面，所选择的相似函数sim()直接影响方法400的复杂性和性能。

在第一示例中，识别给定编码块320中的来自z缓冲器的归一化量化深度值z₀的最大值和最小值。基于上面的方程(3)，已知归一化量化深度值z₀在深度值z方面单调递减，从而使得z₀中的最大值对应于z中的最小值，并且z₀中的最小值对应于z中的最大值。编码块的类似性则可以通过使用z₀的最大值和最小值应用绝对值或相对值度量来加以定义。更特别地，给定两个编码块A和B，可以计算以下：

方程(6)：

z_{\min} (A) = \frac{zN}{1 - \max_{z_{o} &Element; A} (z_{o})},

方程(7)：

z_{\max} (A) = \frac{zN}{1 - \min_{z_{o} &Element; A} (z_{o})}

方程(8)：sim(A，B)＝z_max(A∪B)-z_min(A∪B)或

方程(9)：

\frac{z_{\max} (A \cup B) - z_{\min} (A \cup B)}{z_{\max} (A \cup B) + z_{\min} (A \cup B)}

给定四个块A、B、C和D，sim(A，B，C，D)可以类似地按如下方式加以定义：

方程(10)：sim(A，B)＝z_max(A∪…∪D)-z_min(A∪…∪D)或

方程(11)：

\frac{z_{\max} (A \cup . . . \cup D) - z_{\min} (A \cup . . . \cup D)}{z_{\max} (A \cup . . . \cup D) + z_{\min} (A \cup . . . \cup D)} .

在该示例中，在方法400中，预定水平(τ₀，τ，τ₁)可以彼此相等。此外，避免了从z缓冲器中的z₀到真实深度z的任何直接转换。例如，考虑方法400中的高达8×8块尺寸的计算，使用绝对值度量的每像素的计算成本(C1)是：

方程(12)：

C_{1} = (2 * \frac{63}{64}) * \cos t (comp) + (3 * \frac{1}{64}) * \cos t (add) + (2 * \frac{1}{64}) * \cos t (mult) \approx 2 * \cos t (add),

其中cost(comp)、cost(add)和cost(mult)分别表示比较、相加和相乘的估计成本。Cost(comp)可以认为是大约与cost(add)一样复杂。

在第二示例中，使用方程(5)将所有z₀值从z缓冲器转换到真实深度z值，并且计算z值的和。使用绝对值度量的相似函数sim()则是任两个块之间的和的最大差。更特别地，给定两个块A和B，sim(A，B)可以被定义为：

方程(13)：

sim (A, B) = Σ (A) - Σ (B), Σ (A) = \underset{z_{o} &Element; A}{Σ} \frac{zN}{(1 - z_{o})} .

类似地，给定四个块A、B、C和D，sim(A，B，C，D)是：

方程(14)：

sim(A，B，C，D)＝max{∑(A)，∑(B)，∑(C)，∑(D)}-min{∑(A)，∑(B)，∑(C)，∑(D)}

因为累积和的不同尺寸，在方法400中使用的预定水平(τ₀，τ，τ₁)可以按如下方式进行缩放：

方程(15)：τ₀＝τ/4，τ₁＝2τ

在该情况下每像素的计算成本(c2)是：

方程(16)：

C_{2} = \frac{5}{64} * \cos t (comp) + (1 + \frac{60 + 1}{64}) * \cos t (add) + 1 * \cos mult ((t))

\approx 2 * \cos t (add) + 1 * \cos t (mult) .

在第三示例中，使用方程(5)将所有z₀值从z缓冲器转换到真实深度z值。对于每个像素，通常用于检测图像中的边缘的索贝尔算子在深度域中被应用，例如以检测具有复杂纹理的异常对象。索贝尔算子涉及以下方程：

方程(17)：dx_i，j＝p_i-1，j+1+2p_i，j+1+p_i+1，j+1-p_i-1，j-1-2p_i，j-1+p_i+1，j-1，以及

方程(18)：dy_i，j＝p_i+1，j-1+2p_i+1，j+p_i+1，j+1-p_i-1，j-1-2p_i，j-p_i-1，j+1，和

方程(19)：

Amp ({\overset{&RightArrow;}{D}}_{i, j}) = | {dx}_{i, j} | + | {dy}_{i, j} |

在该示例中，相似函数sim()被定义为梯度

大于预设梯度阈值θ的像素的数目。

方程(20)：

\sin (A, B) = \underset{(i, j) &Element; A \cup B}{Σ} 1 (Amp ({\overset{&RightArrow;}{D}}_{i, j}) > θ)

其中如果条件c成立，则1(c)＝1，并且否则1(c)＝0。类似地，对于四个块A、B、C和D，sim(A，B，C，D)是：

方程(21)：

sim (A, B, C, D) = \underset{(i, j) &Element; A \cup B \cup C \cup D}{Σ} 1 (Amp ({\overset{&RightArrow;}{D}}_{i, j}^{'}) > θ)

在该示例中，在方法400中，预定水平(τ₀，τ，τ₁)可以彼此相等。此外，该示例的每像素的计算成本(C₃)可以被定义为：

方程(22)：

C_{3} (2 + 1) * \cos t (comp) + (1 + 10 + 1 + \frac{63}{64}) * \cos t (add) + (1 + 4) * \cos t (mult)

\approx 16 * \cos t (add) + 5 * \cos t (mult) .

返回参考图2，在步骤210，视频编码器110可以实施现有的基于像素的模式选择操作以选择编码模式，诸如例如在Yin，P.等人的“Fastmode decision and motion estimation for JVT/H.264”IEEE InternationalConference on Image Processing(新加坡)，2004年10月(以下称为Yin等的文件)中描述的编码模式选择操作，该文件的公开在此通过引用整体而引入。

更特别地，视频编码器110可以将所删除的编码块尺寸(来自步骤208)的率失真(RD)成本设置为无穷大。然后执行如Yin等人的文件中描述的编码模式选择。如上所述，方法400的预删除操作例如在删除较大的块A-D之前删除较小的编码块A[0]-A[3]。照此，连续地从较小块到较大块将RD成本设置为∞，并且因此在Yin等人的文件中描述的编码模式选择在原始RD表面本身不单调的情况下将不会错误地去除块尺寸。

在方法200和400中陈述的操作可以作为一个或多个实用程序、程序或子程序而被包含在任何希望的计算机可访问或可读介质中。此外，方法200和400可以由计算机程序实现，计算机程序可以以活动和非活动的各种形式存在。例如其可以作为(一个或多个)软件程序而存在，该软件程序包括源代码、目标代码、可执行代码或其他格式中的程序指令。上述任何一种可以以压缩或非压缩形式体现在计算机可读介质上，该计算机可读介质包括存储设备和信号。

示例性计算机可读存储设备包括常规计算机系统RAM，ROM，EPROM，EEPROM和磁盘或光盘或磁带或光带。示例性计算机可读信号(不管是否使用载波进行调制)是主控或运行计算机程序的计算机系统可以被配置为访问的信号，包括通过因特网或其他网络下载的信号。上述的具体示例包括程序在CD ROM上或经由因特网下载的分发。在某种意义上，作为抽象实体的因特网本身是计算机可读介质。这对一般的计算机网络也成立。因此要理解的是，任何能够执行上述功能的电子设备可以执行上面列举的那些功能。

图6示出了根据示例的计算设备600的框图，所述计算设备600被配置为实施或执行图2和4中描绘的方法200和400。在该方面，计算设备600可以用做用于执行上文中关于图1中描绘的视频编码器110所述的一个或多个功能的平台。

计算设备600包括处理器602，其可以实施或执行在方法200和400中描述的一些或所有步骤。来自处理器602的命令和数据通过通信总线604被传送。计算设备600还包括：主存储器606，诸如随机存取存储器(RAM)，其中处理器602的程序代码在运行时间期间可以被执行；以及次存储器608。次存储器608例如包括一个或多个硬盘驱动器610和/或可移动存储驱动器612，其表示软盘驱动器、磁带驱动器、紧致盘驱动器等，其中可以存储方法200和400的程序代码的副本。

可移动存储驱动器610以公知的方式从可移动存储单元614读取和/或向其写入。用户输入和输出设备可以包括键盘616、鼠标618和显示器620。显示器适配器622可以与通信总线604和显示器620对接，并且可以从处理器602接收显示数据，并且将显示数据转化为显示器620的显示命令。此外，(一个或多个)处理器602可以通过例如因特网、LAN等网络通过网络适配器624进行通信。

本领域普通技术人员显而易见的是，在计算设备600中可以添加或代替其他已知的电子部件。还应当显而易见的是，图6中描述的一个或多个部件可以是任选的(例如用户输入设备、次存储器等)。

本文中描述和示出的是本发明的优选实施例及其一些变形。本文使用的术语、描述和图仅作为说明而加以陈述，并且不打算作为限制。本领域技术人员将认识到，在本发明的范围内许多变形是可能的，本发明的范围旨在由以下权利要求及其等同物来加以限定，权利要求中所有术语意指其最广泛的合理意义，除非另有声明。

Claims

1.一种选择用于对数字视频流进行基于块的编码的编码模式的方法，所述数字视频流由多个连续帧组成，所述方法包括：

获得包含在多个连续帧中的具有不同尺寸的编码块中的像素的深度值，其中所述深度值为虚拟照相机和帧中所呈现像素之间的距离；

识别包含具有足够类似的深度值的多个像素的最大编码块尺寸；以及

选择用于对最小具有所识别的最大编码块尺寸的编码块进行基于块的编码的编码模式。

2.根据权利要求1的方法，还包括：

将帧划分成相应的多个编码块，其中在对数字视频流进行三维图形渲染期间生成像素的深度值，其中划分帧还包括：对于每个帧而言，将帧划分成多个尺寸的编码块，并且其中识别包含具有足够类似的深度值的多个像素的最大编码块还包括：

在选择编码模式的步骤之前，基于多个尺寸的编码块的深度值预删除所述多个尺寸的编码块中经选择的编码块。

3.根据权利要求2的方法，其中所述多个尺寸包括第一尺寸、第二尺寸和第三尺寸，其中第二尺寸是第一尺寸的四分之一、且第三尺寸是第二尺寸的四分之一，其中具有第二尺寸的块包含在具有第一尺寸的块内，且其中具有第三尺寸的块包含在具有第二尺寸的块内，且其中预删除编码模式还包括：

对于每个第一尺寸的块而言，

将具有第二尺寸的每个块内的具有第三尺寸的四个块的深度值进行比较；以及

响应于在四个第三尺寸的块中深度值是足够类似的，从待编码的编码块的候选集合中去除小于第二尺寸的块尺寸。

4.根据权利要求3的方法，还包括：

对于每个第一尺寸的块而言，

通过将第一集合的两个水平相邻块的深度值相互比较、以及将第二集合的两个水平相邻块的深度值相互比较，来比较具有第二尺寸的块的深度值；

确定第一集合中的块的深度值之间的差是否落在预定水平以下；

响应于该差落在预定水平以下，从候选集合中去除第一集合中的块；

确定第二集合中的块的深度值之间的差是否落在预定水平以下；以及

响应于该差落在预定水平以下，从候选集合中去除第二集合中的块。

5.根据权利要求4的方法，还包括：

对于每个第一尺寸的块而言，

通过将第三集合的两个垂直相邻块的深度值相互比较、以及将第四集合的两个垂直相邻块的深度值相互比较，来比较具有第二尺寸的块的深度值；

确定第三集合中的块的深度值之间的差是否落在预定水平以下；

响应于该差落在预定水平以下，从候选集合中去除第三集合中的块；

确定第四集合中的块的深度值之间的差是否落在预定水平以下；以及

响应于该差落在预定水平以下，从候选集合中去除第四集合中的块。

6.根据权利要求5的方法，还包括：

对于每个第一尺寸的块而言，

将两个水平相邻块的深度值与其他两个水平相邻块的深度值相比较；以及

响应于所述两个水平相邻块足够类似于其他两个水平相邻块，从编码块的候选集合中去除所述两个水平相邻块和所述其他两个水平相邻块中的每一个。

7.根据权利要求6的方法，还包括：

对于每个第一尺寸的块而言，

将两个垂直相邻块的深度值与其他两个垂直相邻块的深度值相比较；以及

响应于所述两个垂直相邻块足够类似于其他两个垂直相邻块，从编码块的候选集合中去除所述两个垂直相邻块和所述其他两个垂直相邻块中的每一个。

8.根据权利要求1的方法，其中，识别包含具有足够类似的深度值的多个像素的最大编码块尺寸还包括通过以下操作来识别最大编码块尺寸：确定编码块中深度值的类似性方面的偏差值，确定偏差值是否超过预定水平，以及从待编码的编码块的候选集合中去除具有超过预定水平的偏差值的编码块。

9.根据权利要求1的方法，其中识别包含具有足够类似的深度值的多个像素的最大编码块尺寸还包括：使用相似函数来识别编码块中的深度值是否足够类似。

10.根据权利要求9的方法，还包括：

识别编码块的归一化量化深度值的最大值和最小值；以及

使用编码块的归一化量化深度值的最大值和最小值来应用绝对值和相对值度量之一，从而定义相似函数。

11.根据权利要求9的方法，还包括：

将编码块的归一化量化深度值转化为真实深度值；

计算真实深度值的和；以及

使用绝对值度量来确定任何两个编码块之间在和方面的最大差，其中所述相似函数是和方面的最大差。

12.根据权利要求9的方法，还包括：

将编码块的归一化量化深度值转化为真实深度值；

在深度域中将索贝尔算子应用于编码块中的每个像素，以识别每个像素的梯度；以及

其中将相似函数定义为梯度大于预设梯度阈值的像素的数目。

13.根据权利要求1的方法，其中选择用于对编码块进行基于块的编码的编码模式还包括：

将所识别的最大编码块尺寸的率失真成本设置为无穷大；

对下述编码块执行编码模式选择操作，所述编码块最小具有所识别的最大编码块尺寸，且最小具有所识别的最大编码块尺寸的编码块的率失真成本为无穷大。

14.一种视频编码器，包括：

用于获得包含在多个连续帧中的具有不同尺寸的编码决中的像素的深度值的装置，其中所述深度值为虚拟照相机和帧中所呈现像素之间的距离；

用于识别包含具有足够类似的深度值的多个像素的最大编码块尺寸的装置；以及

用于选择用于对最小具有所识别的最大编码块尺寸的编码块进行基于块的编码的编码模式的装置。

15.根据权利要求14的视频编码器，其中所述用于识别包含具有足够类似的深度值的多个像素的最大编码块尺寸的装置根据分别确定尺寸的编码块的深度值的类似性方面的偏差值，从最小编码块尺寸到最大编码决尺寸顺序地预删除编码块，从而识别最大编码块尺寸。

16.根据权利要求14的视频编码器，其中所述用于识别包含具有足够类似的深度值的多个像素的最大编码块尺寸的装置使用相似函数来识别编码块中的深度值是否足够类似。

17.根据权利要求14的视频编码器，其中所述用于选择用于对最小具有所识别的最大编码块尺寸的编码块进行基于块的编码的编码模式的装置将所识别的最大编码块的率失真成本设置为无穷大，并且对下述编码块执行编码模式选择操作，所述编码块最小具有所识别的最大编码块尺寸，其中所识别的最大编码块尺寸的率失真成本被设置为无穷大，从而选择用于对最小具有所识别的最大编码决尺寸的编码块进行基于块的编码的编码模式。

18.根据权利要求14的视频编码器，还包括用于通过使用所选择的编码模式来对编码块进行编码的装置。