CN104822062B

CN104822062B - 用于视频编码中扩展空间可分级性的改进层间预测

Info

Publication number: CN104822062B
Application number: CN201510221659.4A
Authority: CN
Inventors: 王祥林; J·里奇
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2007-01-08
Filing date: 2008-01-05
Publication date: 2018-11-30
Anticipated expiration: 2028-01-05
Also published as: CA2674438C; US20080165855A1; EP2106666B1; RU2426267C2; EP2106666A4; EP2106666A1; CA2674438A1; CN104822062A; WO2008084423A1; US9049456B2; CN101617538A; TW200840369A; TWI568271B; RU2009130154A; AR064782A1

Abstract

一种用于为视频编码中扩展的空间分级性提供改进的层间预测，以及在扩展的空间分级性的情况下为运动矢量改进层间预测的改进的方法和系统。在各种实施方式中，针对宏块模式的预测，在确定两个块是否应当被合并时使用来自基本层的实际参考帧索引和运动矢量。另外，4×4块中的多个代表像素可以用来代表虚拟基本层宏块中的每个4×4块。用于虚拟基本层宏块中相关块的分区和运动矢量信息可以从所有那些4×4块的分区信息和运动矢量推导出。

Description

用于视频编码中扩展空间可分级性的改进层间预测

分案申请说明

本申请是于2008年1月5日提交的PCT国际申请PCT/IB2008/050022的名称为“用于视频编码中扩展空间可分级性的改进层间预测”的中国国家阶段申请(国家申请号：200880005411.2)的分案申请。

技术领域

本发明总体上涉及视频编码领域。更具体地，本发明涉及支持扩展空间可分级性的可分级视频编码。

背景技术

本部分意在为权利要求书中阐述的本发明提供背景或上下文。此处的描述可以包括可被探究的概念，但是这些概念并不必须是以前已经构思过或者探究过的那些。因此，除非在此指出，否则在本部分中所描述的并不是本申请中说明书和权利要求书的现有技术，也不因为包括在此部分中就承认是现有技术。

已经针对不同技术规定了不同标准。视频编码标准包括ITU-T H.261、ISO/IECMPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual和ITU-T H.264(也称为ISO/IEC MPEG-4高级视频编码(AVC)或简称为H.264/AVC)。另外，当前，正在为开发新的视频编码标准而进行着努力。正在开发的一个这种标准是可分级视频编码(SVC)标准，其将成为对H.264/AVC标准的可分级扩展。SVC的最新草案是H.264/高级视频编码(AVC)标准的附录F(现在是附录G)。具体地，附录F包括公知为扩展空间可分级性(ESS)的特征，其在没有保持基本层宏块(MB)与增强层宏块之间的边缘对齐的情况下，提供了对信号的编码和解码。当利用为1或2的比例进行空间分级并且宏块边缘在不同层之间对齐时，可以将其视为空间可分级性的特殊案例。

例如，当利用二元(dyadic)分辨率分级(即，幂为2的分级分辨率)时，可以保持宏块的边缘对齐。此现象在图1中示出，其中左侧的半分辨率帧(基本层帧1000)被上采样，以便给出右侧的帧的全分辨率版本(增强层帧1100)。考虑基本层帧1000中的宏块MB₀，经过上采样的此宏块的边界被示出为增强层帧1100中的外边界。在此情形下，需要注意的是，经过上采样的宏块精确地包含增强层处的四个全分辨率宏块，MB₁、MB₂、MB₃和MB₄。四个增强层宏块的MB₁、MB₂、MB₃和MB₄边缘精确地对应于宏块MB₀的上采样的边界。重要的是，所标识的基本层宏块是覆盖增强层宏块MB₁、MB₂、MB₃和MB₄中每一个的唯一基本层宏块。换言之，为了形成对MB₁、MB₂、MB₃和MB₄的预测，不需要其它的基本层宏块。

另一方面，在非二元可分级性的情形中，情况大有不同。这在图2中针对为1.5的分级因子示出。在此情形中，基本层帧1000中的基本层宏块MB₁₀和MB₂₀被从16×16上采样至较高分辨率增强层帧1100中的24×24。然而，考虑增强层宏块MB₃₀，可以清楚地看到此宏块由经过上采样的两个不同宏块MB₁₀和MB₂₀覆盖。这样，为了形成针对增强层宏块MB₃₀的预测，需要两个基本层宏块MB₁₀和MB₂₀。事实上，取决于所使用的分级因子，单个增强层宏块可以由多达四个基本层宏块覆盖。

在H.264/AVC标准的附录F的当前草案中，即使形成预测可能需要若干基本层宏块，但是，相对于相关联的基本层帧对增强层宏块进行编码也是可能的。由于编码效率与预测准确度紧密相关，所以期待的是：形成对增强层宏块的准确预测，以便改进编码效率。

根据H.264/AVC标准的附录F的当前草案，当前增强层宏块的很多方面可以从与其对应的基本层宏块预测出。例如，对来自基本层的帧内编码宏块(也称为帧内宏块或者帧内MB)进行完全地解码或重建，使得它们可以被上采样并直接用于预测相应增强层处的亮度像素值和色度像素值。另外，来自基本层的帧间编码宏块(也称为帧间宏块或帧间MB)并未完全重建。取而代之的是，仅对每个基本层帧间MB的预测残差进行解码，并且可以用于预测增强层预测残差，而不对基本层帧间MB进行运动补偿。这称为“残差预测”。此外，对于帧间MB，基本层运动矢量也被上采样，并用于预测增强层运动矢量。

除了上述以外，在H.264/AVC标准的附录F中，针对每个增强层宏块定义了名称为base_mode_flag的标志。当此标志等于1时，则应当从与增强层宏块对应的基本层MB完全预测(或导出)该增强层宏块的类型、模式和运动矢量。由于用于从基本层MB推导出增强层宏块的宏块类型、模式和运动矢量的相同方法对于编码器和解码器都是已知的，所以在这种情况下，不需要进一步将宏块类型和模式以及其运动矢量信息编码成比特流。如果base_mode_flag等于0，则不导出增强层的宏块类型和模式信息。

如上所述，在某些情况下，增强层宏块的宏块类型和模式信息可以从其基本层MB完全预测。根据H.264/AVC标准的附录F的当前草案，当增强层宏块并未与基本层宏块边缘对齐时，针对每个增强层宏块，基于覆盖了该增强层宏块的基本层宏块来推导出虚拟基本层宏块。虚拟基本层宏块的类型、模式和运动矢量都是基于基本层MB确定的。随后，该虚拟基本层宏块将被视为来自基本层的精确地覆盖此增强层宏块的唯一宏块。如果对于当前增强层宏块的base_mode_flag等于1，则其类型、模式和运动矢量被设置得与虚拟基本层宏块的那些相同。

在H.264/AVC标准的附录F的当前草案中定义的、用于确定虚拟基本层宏块的类型、模式和运动矢量的方法是自下至上的过程。首先，对于虚拟基本层宏块的每个4×4块，位于该块的第二行和第二列中的一个像素被用作该块的代表点，其在图3中示出。在图3中，宏块在300处表示。该宏块内的4×4块在310处表示，而每个4×4块中的代表像素在320处表示。当虚拟基本层宏块中的当前4×4块仅由来自基本层的一个4×4块覆盖时，使用虚拟基本层宏块的每个4×4块中的一个像素具有简单这一优势。但是，当其由来自基本层的多个4×4块覆盖时，这种方法可能不够准确。

图4(a)和图4(b)示出了虚拟基本层宏块300与相应基本层宏块之间的关系。在上采样之后，基本层中将精确地覆盖当前增强层宏块的区域在图4(b)中的410处表示。这也是对应于虚拟基本层宏块300的区域。虚拟基本层宏块300中的4×4块中的代表像素被标记为p_e。其在基本层中的对应像素是p_b。根据H.264/AVC标准的附录F的当前草案，基本层中p_b所位于的、在图4(b)中指示为420的4×4块的宏块分区信息被用作增强层处p_e所在的4×4块的分区信息。换言之，基本层中覆盖像素p_e的4×4块的分区信息用作p_e所位于的4×4块的分区信息。这样，虚拟基本层宏块300中的每个4×4块可以具有分区信息。与分区信息相关联的运动矢量还用作对增强层运动矢量的预测值。

在虚拟基本层宏块中的四个8×8块中的每一个内，在4×4块级别处激活块合并过程。如图5所示，如果块1、2、3和4都从来自基本层的相同单独分区推导出它们的分区，则8×8块的模式被设置为8×8。否则，如果块1和块2从来自基本层的相同分区推导出它们的分区，并且块3和块4也从来自基本层的另一相同分区推导出它们的分区，则8×8块的模式被确定为8×4。类似地，如果块1和块3具有相同分区，并且块2和块4具有来自基本层的相同分区，则8×8块的模式被确定为4×8。否则，8×8块的模式被确定为4×4。此过程在其他所有三个8×8块内单独重复。

如果所有四个8×8块都处于8×8模式，则如图6所示，也在8×8块级别处执行块合并过程。在图6中，块1、2、3和4都代表8×8块。如果块1、2、3和4都从来自基本层的相同单独分区推导出它们的分区，则虚拟基本层宏块的模式被确定为16×16。如果块1和块2具有相同分区，并且块3和块4也具有来自基本层的相同分区，则虚拟基本层宏块的模式被确定为16×8。如果块1和块3具有相同分区，并且块2和块4也具有相同分区，则虚拟基本层宏块的模式被设置为8×16。否则，虚拟基本层宏块的模式被设置为8×8。

根据H.264/AVC标准的附录F的当前草案，对宏块模式的预测仅仅基于来自基本层的分区信息。在此布置中，仅当块共享来自基本层的相同分区信息时，块才可以合并。然而，在扩展空间可分级性的情况下，来自基本层的不同分区具有相同的参考帧索引和运动矢量是相当常见的。例如，来自基本层的两个相邻宏块可以具有相同的参考帧索引和运动矢量。另外，在扩展空间可分级性的情况下，增强层宏块由来自基本层的多个宏块覆盖是非常常见的。因此，在确定是否应当合并两个块时仅使用分区信息经常不必要地创建出宏块内的小分区。这种小分区增大了运动补偿中采样插值过程期间的计算复杂度。

鉴于上述内容，期待的是：为扩展空间可分级性的情况提供用于宏块模式和运动矢量的改进的层间预测的系统。

发明内容

本发明的各种实施方式为上述扩展空间可分级性的情况提供用于对针对宏块模式的层间预测进行改进的系统和方法。各种实施方式还在扩展空间可分级性的情况下，提供了用于对针对运动矢量的层间预测进行改进的系统和方法。用于预测宏块模式的传统系统仅仅基于来自基本层的分区信息；仅当块共享来自基本层的相同分区信息时，它们才能合并。另一方面，在本发明的实施方式中，合并过程包括：依靠参考帧索引和运动矢量信息。当块共享来自基本层的相同参考帧索引和运动矢量信息时，这些块可以在适用时合并。因此，即使在两个块具有来自基本层的不同分区时，这两个块也可以合并在一起。此系统和方法可以避免不必要地创建小块分区，这样将减小运动补偿插值过程中的计算复杂度。

各种实施方式提供了用于对代表可分级比特流中视频帧的至少一部分的增强层块进行编码的方法、计算机程序产品和设备，由此，至少部分基于与多个参考层块相对应的多个参考帧索引值来推导出规定所述增强层块的分区的编码模式指示符，其中具有相同参考帧索引的参考层块被合并以推导出分区大小。利用所述编码模式指示符对所述增强层块进行编码。实施方式还提供了用于对代表可分级比特流中视频帧的至少一部分的增强层块进行解码的方法、计算机程序产品和设备，由此，至少部分基于与多个参考层块相对应的多个参考帧索引值来推导出规定增强层块的分区的编码模式指示符，其中具有相同参考帧索引的所述参考层块被合并以推导出分区大小。利用所述编码模式指示符对所述增强层块进行解码。

其他实施方式提供了用于对代表可分级比特流中视频帧的至少一部分的增强层块进行编码的方法、计算机程序产品和设备，由此，基于来自多个参考块的至少一个的分区和运动矢量信息，推导出用于所述增强层块的分区和运动矢量信息。利用所述分区和运动矢量信息对所述增强层块进行编码。又一些其他实施方式提供了用于对代表可分级比特流中视频帧的至少部分的增强层块进行解码的方法、计算机程序产品和设备，由此，基于来自多个参考块的至少一个的分区和运动矢量信息，推导出用于所述增强层块的分区和运动矢量信息。利用分区和运动矢量信息对增强层块进行解码。

在本发明的另一实施方式中，用于块合并的条件可以放宽。在此实施方式中，只要块共享相同的参考帧索引和类似的运动矢量，则相邻块便可以合并在一起。用于合并后的较大块的运动矢量是从将被合并(预合并)的块的运动矢量推导出的。

另外，虚拟基本层宏块中的每个4×4块传统上已基本上由位于块中第二行和第二列的单个像素表示，而用于当前块的分区信息已通过将代表像素映射到基本层并随后在基本层处定位4×4块而获得。相反，在本发明的各种实施方式中，在4×4块中的多个代表像素可以用于代表块。当对于虚拟基本层宏块中的当前块而言，基本层中有多个4×4块可用时，用于虚拟基本层宏块中的当前块的分区和运动矢量信息可以从所有那些4×4块的分区信息和运动矢量推导出。当在从基本层推导分区和运动矢量信息时使用4×4块中的多于一个代表像素时，可以在增强层处获得运动矢量的更准确预测。运动矢量的这种改进预测可以由此改进编码效率。

本发明的各种实施方式可以在使用任何常见编程语言(例如，C/C++或者汇编语言)的软件中直接实现。本发明的实施方式还可以以硬件实现并在消费设备中使用。

本发明的这些和其他优势和特征与其组织和操作的方式一起将从结合附图的下述具体实施方式中变得清楚，其中贯穿下述若干附图，相同的元素具有相同的标号。

附图说明

图1示出了二元分辨率分级中宏块边界的定位；

图2示出了非二元分辨率分级中宏块边界的定位；

图3是虚拟基本层宏块的表示，其中16个4×4块的每个中具有代表像素；

图4(a)是虚拟基本层宏块的表示，而图4(b)示出了图4(a)的虚拟基本层宏块与多个基本层宏块之间的关系；

图5示出了根据H.264/AVC标准的附录F、如何在虚拟基本层宏块中的4×4块级别处对块进行合并；

图6示出了根据H.264/AVC标准的附录F、如何在虚拟基本层宏块中的8×8块级别处对块进行合并；

图7是示出了当根据H.264/AVC标准的附录F使用单个代表像素时，由来自基本层的多个4×4块覆盖的4×4块的表征；

图8是示出了根据本发明一个实施方式的、在4×4块中使用多个代表像素的表征；

图9示出了用于与本发明的各种实施方式一起使用的通用多媒体通信系统；

图10是可以在本发明的实现中使用的通信设备的透视图；以及

图11是图10的通信设备的电话电路的示意性表征。

具体实施方式

本发明的各种实施方式为上述扩展空间可分级性的情况提供用于对针对宏块模式的层间预测进行改进的系统和方法。各种实施方式还在扩展空间可分级性的情况下，提供了用于对针对运动矢量的层间预测进行改进的系统和方法。用于预测宏块模式的传统系统仅仅基于来自基本层的分区信息；仅当块共享来自基本层的相同分区信息时，它们才能合并。另一方面，在本发明的实施方式中，合并过程包括：依靠参考帧索引和运动矢量信息。当块共享来自基本层的相同参考帧索引和运动矢量信息时，这些块可以在适用时合并。因此，即使在两个块具有来自基本层的不同分区时，这两个块也可以合并在一起。

在本发明的另一实施方式中，针对块合并的条件可以放宽。在此实施方式中，只要块共享相同的参考帧索引和类似的运动矢量，则相邻块便可以合并在一起。用于合并后的较大块的运动矢量是从将被合并(预合并)的块的运动矢量推导出的。

另外，虚拟基本层宏块中的每个4×4块传统上已基本上由位于块中第二行和第二列的单个像素表示，而用于当前块的分区信息已通过将代表像素映射到基本层并随后在基本层处定位4×4块而获得。相反，在本发明的各种实施方式中，在4×4块中的多个代表像素可以用于代表块。当对于虚拟基本层宏块中的当前块而言，基本层中有多个4×4块可用时，用于虚拟基本层宏块中的当前块的分区和运动矢量信息可以从所有那些4×4块的分区信息和运动矢量推导出。当在从基本层推导分区和运动矢量信息时使用4×4块中的多于一个代表像素时，在增强层处获得运动矢量的更准确预测是可能的。

根据本发明的各种实施方式，用于确定虚拟基本层宏块的类型、模式和运动矢量的方法仍然是自下而上的过程。然而，为了实现上述改进，实施了很多改变。

在块合并方面，如果两个块具有来自基本层的相同参考帧索引和类似的或相同的运动矢量，则它们可以合并。如图4(b)所示，可以出于示例目的进行假设：基本层MB₁和基本层MB₂都具有帧间16×16模式，并且另外，都具有相同的参考帧索引和运动矢量。根据图4(a)和图4(b)中所示的关系，虚拟基本层宏块中的4×4块M和P从基本层MB₁获得分区信息，而4×4块N和Q从基本层MB₂获得分区信息。根据本发明的一个实施方式，块M、N、P和Q可以合并，因为它们都具有来自基本层的相同参考帧索引和运动矢量信息。在合并后，用于8×8块的模式是8×8。然而，根据H.264/AVC标准的附录F中当前定义的方法，这种合并是不被允许的，因为它们来自不同的基本层宏块并由此属于不同的分区。在使用传统规则合并之后，用于8×8块的模式可以是4×8，即使这种子分区是没有必要的。此外，归因于这种不必要的子分区，进一步的块合并也是不会发生的。例如，如果假设在图4中，基本层宏块MB₃和MB₄与MB₁和MB₂一样，也具有帧间16×16模式，并且具有相同的参考帧索引和运动矢量，则根据本发明的实施方式，虚拟基本层宏块300中的块最终可以全部合并在一起，以及帧间16×16的模式将被指派给虚拟基本层。然而，根据当前在H.264/AVC标准的附录F中定义的方法，用于虚拟基本层宏块300的模式是8×8，某些8×8块具有进一步的子分区。

尽管使用不必要的小分区不会影响编码效率，但是其会影响计算复杂度。在运动补偿过程期间，通常会在分区或子分区的基础上进行采样插值。对较大分区的插值的复杂度通常比对与该较大分区具有相同总大小的许多较小分区的插值复杂度要低。这主要是因为，当对较大分区进行插值时，可以共享和利用更多的中间数据来降低计算复杂度。

在本发明的另一实施方式中，针对块合并的条件可以放宽到一定程度。只要相邻块共享相同的参考帧索引和类似的运动矢量，则它们便可以合并在一起。运动矢量的相似度可以通过预先确定的阈值T_mw来测量。假设两个运动矢量分别是(Δx₁，Δy₁)、(Δx₂，Δy₂)，则两个运动矢量之间的差值可以表示为：D((Δx₁，Δy₁)，(Δx₂，Δy₂))。在此实例中，D是某个失真测量。例如，该失真测量可以被定义为两个矢量之间的平方差的和。失真测量还可以定义为两个矢量之间绝对差的和。只要D((Δx₁，Δy₁)，(Δx₂，Δy₂))不大于阈值T_mw，则两个运动矢量就可以视为是相似的。

阈值T_mw可以被定义为数量，例如阈值T_mw＝0、1或2等。T_mw还可以定义为百分数，诸如，在(Δx₁，Δy₁)或(Δx₂，Δy₂)的1％内等。T_mw的某些其他形式的定义也是允许的。当T_mw等于0时，其要求(Δx₁，Δy₁)和(Δx₂，Δy₂)精确地相同，其是在前述本发明的实施方式中描述的条件。

用于合并后的较大块的运动矢量可以从合并之前的那些块的运动矢量推导出。推导方法可以基于不同标准。例如，推导出的运动矢量可以是合并前的那些块的运动矢量的平均或者加权平均。其还可以是那些运动矢量的中间值。

以下描述针对4×4块的分区信息和运动矢量的推导。如前所述，在扩展空间可分级性的情况下，增强层宏块(以及虚拟基本层MB)中的4×4块可以由多达四个基本层4×4块覆盖。如果单个像素在4×4块中用作针对该块的代表，则选择基本层4×4块中的一个，并且所选择的块的分区和运动矢量信息被用作对当前4×4块的预测。这种方法可能不够准确，这在图7中得到证实。在图7中，来自基本层的经过上采样的4×4块的边界在700处表示。可见，虚拟基本层宏块中的第一个4×4块710实际上由来自基本层的四个4×4块720、722、724和726覆盖。当使用代表像素(在图7中的730处指示)时，选择来自基本层的四个4×4块的一个(在图7中是720)，并且其分区和运动矢量信息被用作针对第一个4×4块710的预测，即使其他三个4×4块可能具有不同的分区和运动矢量信息。

在本发明的一个实施方式中，在从基本层为当前4×4块推导分区和运动矢量信息时，并没有将一个像素用作该4×4块的代表，而是将很多像素用作代表。例如，如图8所指示的，四个采样800、810、820和830可以用作4×4块840的代表像素。针对每个代表采样，可以定位相应的基本层4×4块，其中所述基本层4×4块是图8中的840、850、860和870。整体上，可以由来自基本层的多达4个4×4块。用于当前4×4块的分区和运动矢量信息随后可以从来自该基本层的四个4×4块的分区和运动矢量信息推导出。

为了从来自基本层的多个4×4块推导出分区和运动矢量信息，在一个实施方式中应用下述规则。第一，当来自基本层的4×4块具有不同的参考帧索引时，则应当选择具有较小参考帧索引值的块。第二，当来自基本层的不止一个4×4块具有最小的参考帧索引值时，应当计算这些4×4块的运动矢量的平均或加权平均，并用作针对当前4×4块中运动矢量的预测。第三，当使用上述加权平均操作时，用于来自基本层的每个运动矢量的加权系数可以基于许多因素确定。这些因素包括但不限于，当前4×4块中由运动矢量表示的区域的大小、其增量运动矢量(即，运动矢量及其相邻运动矢量之间的差分运动矢量)、运动矢量的分区大小、运动矢量的宏块类型和模式等。

图9示出了用于与本发明一起使用的通用多媒体通信系统。如图9所示，数据源100以模拟、未压缩数字格式或压缩数字格式或这些格式的任意组合提供源信号。编码器110将源信号编码成已编码媒体比特流。编码器110能够对多于一个的媒体类型(诸如，音频和视频)进行编码，或者可能需要多于一个的编码器110以对源信号的不同媒体类型进行编码。编码器110还可以得到合成产生的输入，诸如图形和文本，或者其能够产生合成媒体的已编码比特流。在下文中，仅考虑对一个媒体类型的一个已编码媒体比特流进行处理，以便简化描述。然而，应当注意的是，典型地实时广播服务包括若干流(典型地，至少一个音频、视频和文本字幕流)。还应当注意的是，系统可以包括很多编码器，但是在下文中，不失一般性地，仅考虑一个编码器110，以简化描述。

已编码媒体比特流传输至存储设备120。存储设备120可以包括任何类型的海量存储器，以存储已编码的媒体比特流。存储设备120中已编码媒体比特流的格式可以是基本自包含的(elementary self-contained)比特流格式，或者一个或多个已编码比特流可以封装至容器文件中。某些系统“直播”操作，即，省略存储设备，而直接将已编码媒体比特流从编码器110传输至发送器130。已编码媒体比特流随后传输至发送器130，根据需要，也称为服务器。在传输中使用的格式可以是基本自包含的比特流格式、分组流格式，或者一个或多个已编码媒体比特流可以封装至容器文件中。编码器110、存储设备120和发送器130可以位于相同物理设备中，或者它们可以包括在单独的设备中。编码器110和发送器130可以利用直播实时内容进行操作，在该情况下，已编码媒体比特流通常不会永久存储，而是在内容编码器110和/或发送器130中缓冲一小段时间，以平滑处理延迟、传输延迟和已编码媒体比特速率的变化。

发送器130使用通信协议栈来发送已编码媒体比特流。栈可以包括但不限于实时传输协议(RTP)、用户数据报协议(UDP)和因特网协议(IP)。当通信协议栈是面向分组的时候，发送器130将已编码媒体比特流封装至分组中。例如，当使用RTP时，发送器130根据RTP净荷格式将已编码媒体比特流封装至RTP分组中。通常，每个媒体类型具有专用RTP净荷格式。再次需要注意，系统可以包含多于一个的发送器130，但是为了简化，以下描述仅考虑一个发送器130。

发送器130可以或可以不通过通信网络连接至网关140。网关140可以执行不同类型的功能，诸如将根据一个通信协议栈的分组流转译成另一通信协议栈、合并以及分流数据流，以及根据下行链路和/或接收器的能力操纵数据流，诸如控制根据流行的下行链路网络条件控制转发的比特流的比特速率。网关140的示例包括多点会议控制单元(MCU)、电路交换和分组交换视频电话之间的网关、蜂窝一键通(PoC)服务器、手持数字视频广播(DVB-H)系统中的IP封装器，或者将本地广播传输转发到家庭无线网络的机顶盒。当使用RTP时，网关140被称为RTP混合器，并且作为RTP连接的端点。

系统包括一个或者多个接收器150，其通常能够接收、解调已传输的信号，以及将其解封装为已编码的媒体比特流。已编码的媒体比特流通常进一步由解码器160处理，其输出是一个或者多个未压缩的媒体流。应当注意，待解码的比特流可以从虚拟地位于任何类型网络中的远程设备接收。另外，比特流可以从本地硬件或软件接收。最后，重现器170可以例如通过扬声器或者显示器重现未压缩的媒体流。接收器150、解码器160和重现器170可以处于相同物理设备中，或者它们可以被包含在单独的设备中。

图10和图11示出了本发明可以在其中实现的一个代表性通信设备12。然而，应当理解，本发明不旨在限于一种特定类型的通信设备12或其他电子设备。图10和图11的通信设备12包括外壳30、液晶显示器形式的显示器32、小键盘34、麦克风36、耳机38、电池40、红外端口42、天线44、根据本发明一个实施方式的UICC形式的智能卡46、读卡器48、无线接口电路52、编解码器电路54、控制器56、存储器58和电池80。单独的电路和元件可以是本领域公知的所有类型，例如Nokia范围内的移动电话系列。

通信设备可以使用各种传输技术进行通信，包括但不限于，码分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/互联网协议(TCP/IP)、短消息传递服务(SMS)、多媒体消息传递服务(MMS)、电子邮件、即时消息传递服务(IMS)、蓝牙、IEEE 802.11等。通信设备可以使用各种媒体进行通信，各种媒体包括但不限于无线电、红外、激光、线缆连接等。

在方法步骤的通常背景下对本发明进行了描述，在一个实施方式中，这些方法步骤可以通过程序产品来实现，该计算机程序产品包括在网络环境中由计算机执行的计算机可执行指令，诸如程序代码。计算机可读介质可以包括可移除的或者不可移除的存储设备，包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、压缩盘(CD)、数字通用盘(DVD)等。通常，程序模块包括例程、程序、对象、组件、数据结构等，用于执行具体任务或者实现特定的抽象数据类型。计算机可执行指令、相关数据结构和程序模块代表了用于执行此处公开的方法的步骤的程序代码的示例。这种可执行指令或者相关联的数据结构的特定序列代表了用于实现在这种步骤中描述的功能的对应动作的示例。

本发明的软件和web实现能够利用具有基于规则的逻辑或者其他逻辑的标准编程技术来实现各种数据库搜索步骤、相关步骤、比较步骤和决策步骤。还应当注意的是，此处以及权利要求书中使用的词语“组件”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收手动输入的设备。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的，也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施方式是为了说明本发明的原理及其实际应用，使得本领域的技术人员能够在适合于所构思特定用途的各种实施方式和各种修改中利用本发明。在此描述的实施方式的特征可以合并在方法、设备、计算机程序产品和系统的所有可能实施方式中。

Claims

1.一种用于对代表可分级比特流中视频帧的至少一部分的增强层块进行编码的方法，包括：

至少部分基于与多个参考层块相对应的多个参考帧索引值，推导出规定所述增强层块的分区的编码模式指示符，所述参考层块表示基本层中的在上采样之后覆盖所述增强层块的区域，其中所述增强层块的多个代表像素用于定位所述参考层块，其中如果所述多个参考层块具有不同的参考帧索引，则选择来自具有最小参考帧索引的参考层块的运动矢量信息，以及具有相同参考帧索引并具有如下运动矢量信息的参考层块被合并，以推导出分区大小，该运动矢量信息具有小于预先确定的阈值的差值度量，其中所述差值度量由运动矢量分量的绝对差的和推导出；其中根据如下标准之一推导出针对所合并的参考层块的运动矢量：所推导出的运动矢量是合并之前的对应块的运动矢量的平均；所推导出的运动矢量是合并之前的对应块的运动矢量的加权平均；所推导出的运动矢量是合并之前的对应块的运动矢量的中间值；并且其中所述阈值的值等于1，其中从在合并前对应块的运动矢量推导出针对所合并的块的所述运动矢量，其中所推导的运动矢量是在合并前的对应块的运动矢量的平均或加权平均；以及

利用所述编码模式指示符，对所述增强层块进行编码。

2.根据权利要求1所述的方法，其中具有相同运动矢量信息的参考层块被合并，以推导出所述分区大小。

3.一种电子设备，包括：

处理器；和存储器单元，其可通信地连接至所述处理器，并且所述设备配置成：

至少部分基于与多个参考层块相对应的多个参考帧索引值，推导出规定增强层块的分区的编码模式指示符，所述参考层块表示基本层中的在上采样之后覆盖所述增强层块的区域，其中所述增强层块的多个代表像素用于定位所述参考层块，其中如果所述多个参考层块具有不同的参考帧索引，则选择来自具有最小参考帧索引的参考层块的运动矢量信息，以及具有相同参考帧索引并具有如下运动矢量信息的参考层块被合并，以推导出分区大小，该运动矢量信息具有小于预先确定的阈值的差值度量，其中所述差值度量由运动矢量分量的绝对差的和推导出；其中根据如下标准之一推导出针对所合并的参考层块的运动矢量：所推导出的运动矢量是合并之前的对应块的运动矢量的平均；所推导出的运动矢量是合并之前的对应块的运动矢量的加权平均；所推导出的运动矢量是合并之前的对应块的运动矢量的中间值；并且其中所述阈值的值等于1，其中从在合并前对应块的运动矢量推导出针对所合并的块的所述运动矢量，其中所推导的运动矢量是在合并前的对应块的运动矢量的平均或加权平均；以及

利用所述编码模式指示符，对所述增强层块进行编码。

4.根据权利要求3所述的设备，其中具有相同运动矢量信息的参考层块被合并，以推导出所述分区大小。

5.一种设备，包括：

用于至少部分基于与多个参考层块相对应的多个参考帧索引值，推导出规定增强层块的分区的编码模式指示符的装置，所述参考层块表示基本层中的在上采样之后覆盖所述增强层块的区域，其中所述增强层块的多个代表像素用于定位所述参考层块，其中如果所述多个参考层块具有不同的参考帧索引，则选择来自具有最小参考帧索引的参考层块的运动矢量信息，以及具有相同参考帧索引并具有如下运动矢量信息的参考层块被合并，以推导出分区大小，该所述运动矢量信息具有小于预先确定的阈值的差值度量，其中所述差值度量由运动矢量分量的绝对差的和推导出；其中根据如下标准之一推导出针对所合并的参考层块的运动矢量：所推导出的运动矢量是合并之前的对应块的运动矢量的平均；所推导出的运动矢量是合并之前的对应块的运动矢量的加权平均；所推导出的运动矢量是合并之前的对应块的运动矢量的中间值；并且其中所述阈值的值等于1，其中从在合并前对应块的运动矢量推导出针对所合并的块的所述运动矢量，其中所推导的运动矢量是在合并前的对应块的运动矢量的平均或加权平均；以及

用于利用所述编码模式指示符，对所述增强层块进行编码的装置。

6.一种用于对代表可分级比特流中视频帧的至少一部分的增强层块进行解码的方法，包括：

至少部分基于与多个参考层块相对应的多个参考帧索引值，推导出规定增强层块的分区的编码模式指示符，所述参考层块表示基本层中的在上采样之后覆盖所述增强层块的区域，其中所述增强层块的多个代表像素用于定位所述参考层块，其中如果所述多个参考层块具有不同的参考帧索引，则选择来自具有最小参考帧索引的参考层块的运动矢量信息，以及具有相同参考帧索引并具有如下运动矢量信息的参考层块被合并，以推导出分区大小，该所述运动矢量信息具有小于预先确定的阈值的差值度量，其中所述差值度量由运动矢量分量的绝对差的和推导出；其中根据如下标准之一推导出针对所合并的参考层块的运动矢量：所推导出的运动矢量是合并之前的对应块的运动矢量的平均；所推导出的运动矢量是合并之前的对应块的运动矢量的加权平均；所推导出的运动矢量是合并之前的对应块的运动矢量的中间值；并且其中所述阈值的值等于1，其中从在合并前对应块的运动矢量推导出针对所合并的块的所述运动矢量，其中所推导的运动矢量是在合并前的对应块的运动矢量的平均或加权平均；以及

利用所述编码模式指示符，对所述增强层块进行解码。

7.根据权利要求6所述的方法，其中具有相同运动矢量信息的参考层块被合并，以推导出所述分区大小。

8.一种电子设备，包括：

利用所述编码模式指示符，对所述增强层块进行解码。

9.根据权利要求8所述的设备，其中具有相同运动矢量信息的参考层块被合并，以推导出所述分区大小。

10.一种电子设备，包括：

用于利用所述编码模式指示符，对所述增强层块进行解码的装置。