CN101069429A

CN101069429A - 用于多层视频编码和解码的方法和设备

Info

Publication number: CN101069429A
Application number: CNA2005800416213A
Authority: CN
Inventors: 韩宇镇; 车尚昌; 河昊振
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-12-03
Filing date: 2005-11-18
Publication date: 2007-11-07
Anticipated expiration: 2025-11-18
Also published as: KR20060063532A; US20060120450A1; KR100679031B1; JP5270166B2; JP2008522537A; CN101069429B

Abstract

提供了视频压缩方法，并更具体地，提供了有效消除视频帧内的冗余度的预测方法、以及利用该预测方法的视频压缩方法和设备。提供了一种用于基于多层结构编码视频的方法，包括：利用当前帧内编码块的相邻帧内编码块的图像，对该当前帧内编码块执行帧内预测，以获得预测残差；利用与该当前帧内编码块对应的底层区域的图像，对该当前帧内编码块执行预测，以获得预测残差；选择所述两种预测残差之中的提供较高编码效率的预测残差；和对所选择的预测残差进行编码。

Description

用于多层视频编码和解码的方法和设备

技术领域

符合本发明的设备和方法涉及视频压缩方法，并更具体地，涉及用于有效消除视频帧内的冗余度的预测方法、以及利用该预测方法的视频压缩方法和设备。

背景技术

随着包括因特网的信息通信技术的发展，视频通信以及文本和语音通信已得到显著增长。传统文本通信不能满足用户的各种需求，并由此可提供例如文本、画面、和音乐的各种类型信息的多媒体服务已得到增长。然而，由于多媒体数据量通常很大，所以多媒体数据需要大容量存储介质和宽传输带宽。因此，为了传输包括文本、视频和音频的多媒体数据，压缩编码方法是必不可少的。

数据压缩的基本原理是去除数据冗余度。可通过去除其中在图像中重复同一颜色或对象的空间冗余度、其中在活动图像中的相邻帧之间存在微小变化或在音频中重复同一声音的时间冗余度、或考虑到人的视力及其对于高频变化的有限感知的精神视觉(mental visual)冗余度，而压缩数据。

越来越多的注意力正集中到比MPEG-4编码提供显著改进的压缩效率的H.264或先进视频编码(AVC)上。作为被设计为改进压缩效率的一种方案的H.264使用定向帧内预测，来去除帧内的空间相似性。

定向帧内预测涉及通过使用当前子块的上边和左边的像素沿预定方向复制像素而预测该当前子块的值，并仅对该当前子块和预测值之间的差值进行编码。

在H.264中，基于先前编码的块而生成当前块的预测块，并最终对当前块和预测块之间的差值进行编码。对于亮度(luma)分量，对于每一4×4或16×16宏块生成预测块。对于每一4×4luma块，存在9种预测模式。对于每一16×16块，4种预测模式是可用的。

与H.264兼容的视频编码器在可用预测模式之中选择使得当前块和预测块之间的差值最小化的每一块的预测模式。

对于4×4块的预测，H.264使用9种预测模式，包括8种定向预测模式0、1、和3-8，还包括利用图1所示8个相邻像素的平均值的DC预测模式2。

图2示出了用于解释这9种预测模式的为预测样本A到M贴标签(labeling)的示例。在该情况下，使用先前解码的样本A到M来形成预测块(包括a到p的区域)。如果样本E、F、G和H不可用，则样本D将被复制到他们的位置处，以实际上形成样本E、F、G和H。

现在将参考图3更全面地描述图1所示这9种预测模式。

对于模式0(垂直)和模式1(水平)，通过从上边的样本A、B、C和D以及从左边的样本I、J、K和L分别进行外插，而形成预测块的像素。对于模式2(DC)，由上边和左边样本A、B、C、D、I、J、K和L的平均值来预测预测块的所有像素。

对于模式3(对角左下)，通过从右上角到左下角沿45度角进行内插，而形成预测块的像素。对于模式4(对角右下)，通过从左上角到右下角沿45度角进行外插，而形成预测块的像素。对于模式5(垂直右)，通过从上缘向下缘稍微向右漂移沿大约26.6度角(宽度/高度＝1/2)进行外插，而形成预测块的像素。

在模式6(水平下)中，通过从左缘向右缘稍微向下漂移沿大约26.6度角进行外插，而形成预测块的像素。在模式7(垂直左)，通过从上缘向下缘稍微向左漂移沿大约26.6度角(宽度/高度＝1/2)进行外插，而形成预测块的像素。在模式8(水平上)中，通过从左缘向右缘稍微向上漂移沿大约26.6度角(宽度/高度＝2/1)进行外插，而形成预测块的像素。

在每一模式中，箭头指明导出预测像素的方向。可由参考样本A到M的加权平均值来形成预测块的样本。例如，可由以下等式(1)来预测样本d：

d＝round(B/4+C/2+D/4) ...(1)

其中round()是将值四舍五入为整数值的函数。

存在四种预测模式0、1、2和3，来预测宏块的16×16luma分量。在模式0和模式1中，通过从上边样本H和从左边样本V分别进行外插，而形成预测块的像素。在模式2中，由上边和左边样本H和V的平均值来计算预测块的像素。最后，在模式3中，利用拟合到上边和左边样本H和V的线性“plane”函数，而形成预测块的像素。模式3更适于具有平滑变化的亮度的区域。

和试图改进视频编码效率一起，正对于支持可伸缩性的视频编码方法进行积极研究，该可伸缩性就是根据各种网络环境调整所传输的视频数据的分辨率、帧速率、和信噪比(SNR)的能力。

用于可伸缩视频编码的运动图像专家组(MPEG)-21 PART-13标准正在进行当中。具体来说，多层视频编码方法被广泛认为是有前途的技术。例如，比特流可包括多层，即具有不同分辨率或帧速率的基本层(1/4公用中间格式(QCIF))、增强层1(公用中间格式(CIF))、和增强层2(2CIF)。

因为现有定向帧内预测不基于多层结构，所以对于每一层独立执行帧内预测中的定向搜索以及编码。由此，为了在多层环境下兼容采用基于H.264的定向帧内预测，仍然存在改进需要。

对于每一层独立使用帧内预测的效率很低，因为不能利用每一层中的帧内预测模式之间的相似性。例如，当在基本层中使用垂直帧内预测模式时，很可能将在当前层中使用沿垂直方向或相邻方向的帧内预测。然而，因为最近提出了具有多层结构、同时使用基于H.264定向帧内预测的框架，所以迫切需要开发利用每一层中帧内预测模式之间的相似性的有效编码技术。

多层视频编码使得能够使用这样的预测，即，使用来自与当前帧相同的时间位置处的下一层的纹理信息，下面称为“基本层(BL)预测”模式、以及帧内预测模式。BL预测模式主要展示适度的预测性能，而帧内预测模式不稳定地示出好或差的性能。由此，传统H.264标准提出了这样的方案，包括对于每一宏块选择帧内预测模式和BL预测模式之间的较好预测模式，并利用所选择的预测模式对宏块进行编码。

假设在帧内存在图像，并且该图像被分段为其中BL预测模式更合适的阴影区域和其中帧内预测模式更合适的非阴影区域。在图4中，虚线和实线分别指明4×4块之间的边界以及宏块之间的边界。

发明内容

技术问题

当应用传统H.264所提出的方案时，如图5所示，图像被分段为宏块10a和宏块10b，其中宏块10a被选择为利用BL预测模式进行编码，而宏块10b被选择为利用帧内预测模式进行编码。然而，该方案不适于图4所示在宏块中具有详细(detailed)边缘的图像，因为宏块包括其中帧内预测模式更合适的区域和其中BL预测模式更合适的区域。由此，对于每一宏块选择两种模式之一不能确保好编码性能。

技术方案

本发明提供了一种对于小于宏块的区域选择帧内预测模式和BL预测模式中的较好预测模式的方法。

本发明还提供了一种将BL预测模式合并到传统帧内预测模式中的修改的(modified)帧内预测模式。

本发明还提供了一种利用与上述时间预测相同的选择方案、对于每一运动块、选择用于计算时间残差的模式和BL预测模式中的较好预测模式的方法。

对于本领域技术人员来说，一旦浏览了以下描述，本发明的上述方面以及其他方面、特征和优点将变得清楚。

根据本发明的一个方面，提供了一种用于基于多层结构编码视频的方法，包括：利用当前帧内编码块的相邻帧内编码块的图像，对该当前帧内编码块执行帧内预测，以获得预测残差；利用与该当前帧内编码块对应的底层(lowerlayer)区域的图像，对该当前帧内编码块执行预测，以获得预测残差；选择所述两种预测残差之中的提供较高编码效率的预测残差；和对所选择的预测残差进行编码。

根据本发明的一个方面，提供了一种用于基于多层结构解码视频的方法，包括：对于每一帧内编码块提取修改的帧内预测模式和纹理数据；根据该纹理数据生成帧内编码块的残留图像；根据该修改的帧内预测模式，利用先前重构的相邻帧内编码块或先前重构的底层图像，而生成当前帧内编码块的预测块；和将该预测块与该残留图像相加，并重构当前帧内编码块的图像。

根据本发明的另一方面，提供了一种用于基于多层结构编码视频的方法，包括：利用与当前运动块对应的参考帧的区域的图像，对该当前运动块执行时间预测，以获得预测残差；利用与该当前运动块对应的底层区域的图像，对该当前运动块执行预测，以获得预测残差；选择所述两种预测残差之中的提供较高编码效率的那个预测残差；和对所选择的预测残差进行编码。

根据本发明的另一方面，提供了一种用于基于多层结构解码视频的方法，包括：提取用于每一运动块的选定模式、运动数据、和纹理数据；根据该纹理数据生成该运动块的残留图像；根据该选定模式，而选择与该运动块对应的先前重构的参考帧的区域的图像或者先前重构的底层图像；和将所选择的图像与该残留图像相加，并重构该运动块的图像。

根据本发明的另一方面，提供了一种多层视频编码器，包括：配置为利用当前帧内编码块的相邻帧内编码块的图像、对该当前帧内编码块执行帧内预测以获得预测残差的单元；配置为利用与该当前帧内编码块对应的底层区域的图像、对该当前帧内编码块执行预测以获得预测残差的单元；配置为选择所述两种预测残差之中的提供较高编码效率的预测残差的单元；和配置为对所选择的预测残差进行编码的单元。

根据本发明的另一方面，提供了一种多层视频解码器，包括：配置为对于每一帧内编码块提取修改的帧内预测模式和纹理数据的单元；配置为根据该纹理数据生成帧内编码块的残留图像的单元；配置为根据该修改的帧内预测模式、利用先前重构的相邻帧内编码块或先前重构的底层图像、而生成当前帧内编码块的预测块的单元；和配置将该预测块与该残留图像相加并重构当前帧内编码块的图像的单元。

附图说明

通过参考附图详细描述本发明的说明性的而非限制性的示范实施例，本发明的以上和其他特征和优点将变得更明显，其中：

图1示出了传统H.264帧内预测模式；

图2示出了用于解释图1所示帧内预测模式的为预测样本贴标签的示例；

图3是图1所示帧内预测模式的详细图；

图4示出了输入图像的示例；

图5示出了根据传统技术的对于每一宏块选择两个模式之一的结果；

图6示出了根据本发明示范实施例的对于每一宏块选择两个模式之一的结果；

图7是根据本发明示范实施例的修改的帧内预测模式的示意图；

图8是根据本发明示范实施例的视频编码器的方框图；

图9示出了在修改的帧内预测模式中用作参考的区域；

图10示出了通过选择用于每一帧内编码块的最佳预测模式而创建宏块的示例；

图11是根据本发明示范实施例的视频解码器的方框图；

图12示出了分级可变尺寸块匹配(HVSBM)的示例；

图13示出了通过选择用于每一运动块的模式而构造的宏块；

图14是根据本发明示范实施例的视频编码器的方框图；和

图15是根据本发明示范实施例的视频解码器的方框图。

具体实施方式

现在将参考其中示出了本发明的示范实施例的附图来更全面地描述本发明。通过参考以下对示范实施例和附图的详细描述，可更容易地理解本发明的优点和特征及其实现方法。然而，本发明可以以许多不同的形式实施，并不应被解释为限于这里阐明的实施例。相反，提供这些实施例，使得该公开更全面和完整并向本领域技术人员全面传达本发明的概念，并且本发明将仅由所附权利要求限定。说明书中的相同附图标记始终表示相同元件。

现在将参考其中示出了本发明的优选实施例的附图来更全面地描述本发明。

图6示出了根据本发明示范实施例的对于每一帧内编码块(例如4×4块)选择帧内预测模式和BL预测模式之间的较好预测模式的结果。参考图6，与图5所示传统H.264提出的方案不同，本发明的示范实施例可实现比宏块更小的区域的模式选择。用于该选择的区域可具有适于执行帧内预测模式的尺寸。

在传统帧内预测模式中，亮度分量利用4×4和16×16块尺寸模式，而色度分量利用8×8块尺寸模式。本发明的示范实施例可应用4×4和8×8模式，而不应用其中16×16块与宏块具有相同尺寸的16×16模式。其后，将假设4×4模式用于帧内预测，来描述本发明的示范实施例。

假设对于每一4×4块选择帧内预测模式和BL预测模式之一，可添加BL预测模式作为传统帧内预测模式的一种子模式。以这种方式，将BL预测模式合并到传统帧内预测模式中的帧内预测模式其后被称为根据本发明示范实施例的“修改的帧内预测模式”。

表1示出了修改的帧内预测模式的子模式。

表1

模式编号	名称
模式编号	名称	0	垂直(预测模式)
1	水平(预测模式)	0	垂直(预测模式)
1	水平(预测模式)	2	基本层(预测模式)
3	对角左下(预测模式)	2	基本层(预测模式)
3	对角左下(预测模式)	4	对角右下(预测模式)
5	垂直右(预测模式)	4	对角右下(预测模式)
5	垂直右(预测模式)	6	水平下(预测模式)
7	垂直左(预测模式)	6	水平下(预测模式)
7	垂直左(预测模式)	8	水平上(预测模式)

如表1所示，修改的帧内预测模式包括BL预测模式，代替传统帧内预测模式中的作为模式2的DC模式，因为可在非定向的DC模式中表示的帧内编码块可利用BL预测模式而充分好地预测。此外，包括BL预测模式的修改的预测模式可防止由于添加新模式而导致的开销。

图7中示意性图示了修改的帧内预测模式。所述修改的帧内预测模式包括8个定向模式和1个BL预测模式。在该情况下，由于BL预测模式可被认为具有(朝向基本层)的向下方向，所以，该修改的帧内预测模式一共包括9个定向模式。

作为选择，当不能通过BL预测模式预测DC模式时，可将BL预测模式添加到传统帧内预测模式上，作为下表2中所示模式“9”。下面描述的本发明的示范实施例假设修改后的帧内预测模式包括表1所示子模式。

表2

模式编号	名称
模式编号	名称	0	垂直(预测模式)
1	水平(预测模式)	0	垂直(预测模式)
1	水平(预测模式)	2	DC(预测模式)
3	对角左下(预测模式)	2	DC(预测模式)
3	对角左下(预测模式)	4	对角右下(预测模式)
5	垂直右(预测模式)	4	对角右下(预测模式)

6	水平下(预测模式)
6	水平下(预测模式)	7	垂直左(预测模式)
8	水平上(预测模式)	7	垂直左(预测模式)
8	水平上(预测模式)	9	基本层(预测模式)

图8是根据本发明第一示范实施例的视频编码器1000的方框图。参考图8，该视频编码器1000主要包括基本层编码器100和增强层编码器200。现在将描述增强层编码器200的配置。

块分割器(partitioner)210将输入帧分段为多个帧内编码块。尽管每一帧内编码块可具有小于宏块的尺寸，但是将假设每一帧内编码块具有4×4像素的尺寸，来描述本发明的示范实施例。所述多个帧内编码块然后被馈送到减法器205中。

预测块发生器220利用从逆空间变换器251接收的重构增强层块和由基本层编码器100提供的重构基本层图像，来对于修改的帧内预测模式的每一子模式，生成与当前块关联的预测块。当利用重构增强层块生成预测块时，使用图3所示计算处理。在该情况下，由于DC模式被替换为BL预测模式，所以可从帧内预测模式的子模式中排除DC模式。当利用重构基本层图像生成预测块时，该重构基本层图像可被直接用作预测块，或者可在用作预测块之前被上采样为增强层的分辨率。

参考示出了在修改的帧内预测模式中用作参考的区域的图9，预测块发生器220利用其先前重构的相邻增强层块33、34、35和36(特别是，关于与当前帧内编码块相邻的块的像素的信息)，而生成用于每一预测模式0、1、和3到8的当前帧内编码块的预测块32。对于预测模式2，(当基本层与增强层具有相同分辨率时，)将先前重构的基本层图像31直接用作预测块，(当基本层与增强层具有不同分辨率时，)在将先前重构的基本层图像31用作预测块之前，将其上采样为增强层的分辨率。当然，本领域技术人员容易理解的是，可在将重构的基本层图像用作预测块之前执行解块处理，以降低块伪像(artifact)。

减法器205从自块分割器210接收的当前帧内编码块中减去由预测块发生器220产生的预测块，由此去除当前帧内编码块中的冗余度。

然后，当预测块和当前帧内编码块之间的差值经过空间变换器231和量化器232时，其被有损耗地编码，并然后由熵编码单元233无损耗地编码。

空间变换器231对由减法器205去除了时间冗余度的帧执行空间变换，以创建变换系数。离散余弦变换(DCT)或小波变换技术可用于空间变换。当DCT用于空间变换时，创建DCT系数，而当使用小波变换时，产生小波系数。

量化器232对空间变换器231获得的变换系数执行量化，以创建量化系数。这里，量化是将用任意实数表示的变换系数表示为有限数目比特的方法。已知量化技术包括标量量化、矢量量化等。通过将变换系数除以映射到该系数的量化表的值并将该结果四舍五入为整数值，而执行简单的标量量化技术。

当小波变换用于空间变换时，主要使用嵌入量化。嵌入量化利用空间冗余度，并涉及将阈值降低一半，并对比该阈值大的变换系数进行编码。嵌入量化技术的示例包括嵌入零树小波(EZW)、分级树中的集合分割(SPIHT)、和嵌入零块编码(EZBC)。

熵编码单元233将量化器232生成的量化系数和模式选择器240选择的预测模式无损耗地编码为增强层比特流。可采用例如霍夫曼编码、算术编码、和可变长度编码的各种编码方案，用于无损耗编码。

模式选择器240对于修改的帧内预测模式的每一子模式比较熵编码单元所获得的结果，并选择提供最高编码效率的预测模式。这里，通过给定比特率的图像质量来测量编码效率。基于速率失真(RD)优化的成本函数主要用于估计图像质量。因为较低成本意味着更高编码效率，所以模式选择器240在修改的帧内预测模式的子模式中选择提供最小成本的预测模式。

通过等式(2)计算成本函数中的成本C：

C＝E+λB ...(2)

其中E和B分别表示原始信号和通过对编码比特进行解码所重构的信号之间的差值、以及执行每一预测模式所需的比特数，而λ是用于控制E和B的比率的拉格朗日系数。

尽管比特数B可被定义为纹理数据所需的比特数，但是更精确的是，将其定义为每一预测模式及其对应的纹理数据两者所需的比特数。这是因为熵编码的结果可能不与分配给每一预测模式的模式编号相同。特别是，由于传统H.264也仅对相邻帧内编码块的预测模式进行估计所保存的结果进行编码，而不对预测模式进行编码，所以编码结果可根据估计效率而变化。

模式选择器240选择用于每一帧内编码块的预测模式。换言之，模式选择器确定用于图10所示宏块10中的每一帧内编码块的最佳预测模式。这里，利用BL预测模式对阴影块进行编码，而利用传统定向帧内预测模式对非阴影块进行编码。

使用修改的帧内预测模式的帧内编码块的数目的整数倍可以与宏块尺寸的大小相同。然而，可对于通过任意分割帧而获得的区域执行修改的帧内预测模式。

接收由模式选择器240通过比较和选择所选择的预测模式的熵编码单元233输出与所选择的预测模式对应的比特流。

为了支持闭环编码以便降低由于编码器和解码器之间的失配引起的漂移误差，视频编码器1000包括逆量化器252和逆空间变换器251。

逆量化器252对量化器232所量化的系数执行逆量化。逆量化是量化器232已执行的量化的逆操作。

逆空间变换器251对逆量化的结果执行逆空间变换，以重构然后被发送到预测块发生器220的当前帧内编码块。

下采样器110将输入帧下采样为基本层的分辨率。下采样器可以是MPEG下采样器、小波下采样器、或其他。

基本层编码器110将下采样的基本层帧编码为基本层比特流，同时对编码结果进行解码。将与增强层中的当前帧内编码块对应的通过解码重构的基本层帧的区域的纹理信息传送到预测块发生器220。当然，当基本层与增强层具有不同分辨率时，应当在将纹理信息传送到预测块发生器220之前，由上采样器120对纹理信息执行上采样处理。可利用与下采样处理相同或不同的技术来执行上采样处理。

尽管基本层编码器100可以以与增强层编码器200相同的方式工作，但是基本层编码器100也可利用传统帧内预测、时间预测、和其他预测处理来编码和/或解码基本层帧。

图11是根据本发明第一示范实施例的视频解码器2000的方框图。视频解码器2000主要包括基本层解码器300和增强层解码器400。现在将描述增强层解码器400的配置。

熵解码单元411执行作为熵编码的逆操作的无损耗解码，以提取每一帧内编码块的修改的帧内预测模式和纹理数据，它们然后分别被馈送到预测块发生器420和逆量化器412。

逆量化器412对从熵解码单元411接收的纹理数据执行逆量化。逆量化是视频编码器(图8的1000)的量化器(图8的232)已执行的量化的逆操作。例如，可通过将纹理数据乘以其量化表(与视频编码器1000中使用的相同)的映射值而执行逆标量量化。

逆空间变换器413执行逆空间变换，以根据逆量化之后获得的系数而重构残留块。例如，当在视频编码器1000处将小波变换用于空间变换时，逆空间变换器413执行逆小波变换。当DCT用于空间变换时，逆空间变换器413执行逆DCT。

预测块发生器420利用从加法器215输出的当前帧内编码块的先前重构的相邻帧内编码块和基本层解码器300重构的与当前帧内编码块对应的基本层图像，根据熵解码单元411提供的预测模式，而生成预测块。例如，对于模式0、1、和3到8，利用相邻帧内编码块生成预测块。对于模式2，利用基本层图像生成预测块。

加法器215将预测块和逆空间变换器413重构的残留块相加，由此重构当前帧内编码块的图像。将加法器215的输出馈送到预测块发生器420和块合并器430，块合并器430然后合并所重构的残留块以重构帧。

其间，基本层解码器300从基本层比特流重构基本层帧。与增强层中的当前帧内编码块对应的通过解码重构的基本层帧的区域的纹理信息被提供到预测块发生器420。当然，当基本层与增强层具有不同分辨率时，在将纹理信息传送到预测块发生器420之前，必须由上采样器310对纹理信息执行上采样处理。

尽管基本层解码器300可以以与增强层解码器400相同的方式工作，但是基本层解码器300也可利用传统帧内预测、时间预测、和其他预测处理来编码和/或解码基本层帧。

上面已参考其中添加BL预测模式作为帧内预测模式的一种子模式的第一实施例，而描述了本发明。在另一示范实施例(第二实施例)中，可在时间预测处理中包括BL预测模式，这将在下面进行描述。参考图12，传统H.264使用分级可变尺寸块匹配(HVSBM)，来去除每一宏块中的时间冗余度。

将宏块10分割为四种模式的子块：16×16、8×16、16×8、和8×8模式。每一8×8子块还可被分离为4×8、8×4、或4×4模式(如果不分离，则使用8×8模式)。由此，对于每一宏块10，允许最大7种组合的子块。

提供最小成本的构成宏块10的子块组合被选择为最佳组合。当将宏块10分离为更小区域时，块匹配的精度增加，并且运动数据(运动矢量、子块模式等)量一起增加。由此，选择子块的最佳组合，以实现块匹配精度和运动数据量之间的最佳折衷。例如，不包含复杂改变的简单背景图像可使用大尺寸子块模式，而具有复杂和详细边缘的图像可使用小尺寸子块模式。

本发明第二示范实施例的特征在于，对于包括最佳子块组合的宏块10中的每一子块，确定是应用计算时间残差的模式还是应用BL预测模式。在图13中，I 11和BL 12分别表示要使用时间残差编码的子块和要使用BL预测模式编码的子块。

等式(2)中所示RD成本函数用于选择每一子块的最佳模式。当Ci和Cb分别表示当使用时间残差和当使用BL预测模式时需要的成本，Ei和Bi分别表示当使用时间残差时原始信号和重构信号之间的差值、以及对由时间预测生成的运动数据和由时间残差获得的纹理信息进行编码所需的比特数，而Eb和Bb分别表示当使用BL预测模式时原始信号和重构信号之间的差值、以及对表明BL预测模式的信息和利用该BL预测模式获得的纹理信息进行编码所需的比特数时，成本Ci和Cb由等式(2)定义：

C_i＝E_i+λB_i

C_b＝E_b+λB_b ...(2)

通过选择为每一子块提供C_i和C_b中的较小一个的方法，可获得图13所示重构的宏块。

尽管H.264标准使用HVSBM来执行时间预测(包括运动估计和运动补偿)，但是例如MPEG的其他标准可使用固定尺寸块匹配。该第二实施例集中于对于每一块选择BL预测模式或计算当前块和参考帧中的对应块之间的残差的模式，而不管宏块被分割为可变尺寸块还是固定尺寸块。下面将作为计算运动矢量的基本单位的可变尺寸块或固定尺寸块称为“运动块”。

图14是根据本发明第二示范实施例的视频编码器3000的方框图。参考图14，视频编码器3000主要包括基本层编码器100和增强层编码器500。现在将描述增强层编码器500的配置。

运动估计器290利用参考帧对当前帧执行运动估计，以获得运动矢量。可利用HVSBM或固定尺寸块匹配算法(BMA)对于每一宏块执行运动估计。在BMA中，将给定运动块中的像素与参考帧中的搜索区域中的像素作比较，并将具有最小误差的位移确定为运动矢量。运动估计器290将例如作为运动估计结果获得的运动矢量、运动块类型、和参考帧编号的运动数据发送到熵编码单元233。

运动补偿器280利用运动矢量对参考帧执行运动补偿，并生成运动补偿后的帧。运动补偿后的帧是包括与当前帧中的块对应的参考帧中的块的虚拟帧，并被传送到切换单元295。

切换单元295接收从运动补偿器280接收的运动补偿后的帧和由基本层编码器100提供的基本层帧，并以运动块为基础而将帧的纹理发送到减法器205。当然，当基本层与增强层具有不同分辨率时，在将基本层编码器100生成的基本层帧传送到切换单元195之前，必须对其执行上采样处理。

减法器205从输入帧中的预定运动块(当前运动块)中减去从切换单元295接收的纹理，以便去除当前运动块中的冗余度。也就是说，减法器205计算当前运动块和运动补偿后的帧中的其对应运动块之间的差值(下面称为“第一预测残差”)，并计算当前运动块和基本层帧中的其对应区域之间的差值(下面称为“第二预测残差”)。

第一和第二预测残差经过空间变换器231和量化器232时被有损耗地编码，并然后由熵编码单元233无损耗地编码。

模式选择器270选择熵编码单元233所编码的第一和第二预测残差中的提供较高编码效率的那个预测残差。例如，可将参考等式(2)描述的方法用于该选择。因为对于每一运动块计算第一和第二预测残差，所以模式选择器270对于所有运动块反复执行该选择。

接收该模式选择器270通过比较和选择所选择的结果(由索引0或1表示)的熵编码单元233输出与所选择的结果对应的比特流。

为了支持闭环编码以便降低由于编码器和解码器之间的失配引起的漂移误差，视频编码器3000包括逆量化器252、逆空间变换器251、和加法器251。加法器215将逆空间变换器251重构的残留帧叠加到运动补偿器280所输出的运动补偿后的帧上，以重构然后被发送到运动估计器290的参考帧。

因为下采样器110、上采样器120、和基本层编码器100与图8所示第一示范实施例中的对应部件执行相同的操作，所以将不给出它们的描述。

图15是根据本发明第二实施例的视频解码器4000的方框图。参考图15，视频解码器4000主要包括基本层解码器300和增强层解码器600。

熵解码单元411执行作为熵编码的逆操作的无损耗解码，从而提取用于每一运动块的选定模式、运动数据、和纹理数据。该选定模式意味着指明从时间残差(“第三预测残差”)和当前运动块与基本层帧中的对应区域之间的残差(“第四预测残差”)中选择的结果的索引(0或1)，所述第三预测残差和第四预测残差是由视频编码器3000对于每一运动块计算的。

熵解码单元411将该选定模式、运动数据、和纹理数据分别提供到切换单元450、运动补偿器440、和逆量化器412。逆量化器412对从熵解码单元411接收的纹理数据执行逆量化。逆量化是增强层编码器(图14的500)的该量化器(图14的232)已执行的量化的逆操作。

逆空间变换器413执行逆空间变换，以对于每一运动块根据逆量化之后获得的系数而重构残留图像。

运动补偿器440利用从熵解码单元411接收的运动数据对先前重构的视频帧执行运动补偿，并生成运动补偿后的帧，该帧中的与当前运动块对应的图像(第一图像)被提供到切换单元450。

基本层解码器300根据基本层比特流重构基本层帧，并将与当前运动块对应的基本层帧的图像(第二图像)发送到切换单元450。当然，当必要时，可在将第二图像传送到切换单元450之前，由上采样器310执行上采样处理。

切换单元450根据熵解码单元411提供的选定模式而选择第一和第二图像之一，并将所选择的图像提供到加法器215作为预测块。

加法器215将逆空间变换器413所重构的残留图像与切换单元450所选择的预测块相加，以重构当前运动块的图像。重复执行以上处理，以重构每一运动块的图像，由此重构一帧。

本发明允许非常适于输入视频的特性的多层视频编码。本发明还改善多层视频编解码器的性能。

在图8、11、14和15中，各种功能组件意味着，但是不限于，执行特定任务的软件或硬件组件，例如现场可编程门阵列(FPGA)或特定用途集成电路(ASIC)。这些组件可以有利地配置为驻留在可寻址存储介质上，并被配置为在一个或多个处理器上运行。这些组件和模块中提供的功能可合并为更少的组件和模块、或进一步分离为其他组件和模块。

产业上的可利用性

如上所述，根据本发明，可以以更适于输入视频特性的方式执行基于多层视频编码的编码视频的方法。另外，本发明提供了视频编解码器的改善性能。

在推断详细描述的过程中，本领域普通技术人员将理解，可对这些优选实施例进行许多修改和变形，而实质上不脱离本发明的原理。所以，所公开的本发明的示范实施例仅用于一般描述意义，而非为了限制的目的。

Claims

1.一种用于基于多层结构编码视频的方法，包括：

利用当前帧内编码块的相邻帧内编码块的图像，对该当前帧内编码块执行帧内预测，以获得预测残差；

利用与该当前帧内编码块对应的底层区域的图像，对该当前帧内编码块执行预测，以获得预测残差；

选择所述两种预测残差之中的提供较高编码效率的预测残差；和

对所选择的预测残差进行编码。

2.根据权利要求1的方法，其中根据8种定向帧内预测模式执行该帧内预测。

3.根据权利要求1的方法，其中该帧内编码块具有4×4像素的尺寸。

4.根据权利要求2的方法，其中利用9种帧内预测模式执行该帧内预测，所述9种帧内预测模式是8种定向帧内预测模式加上在利用底层图像执行预测时所使用的预测模式。

5.根据权利要求1的方法，其中该底层区域的图像是通过解码重构的、与当前帧内编码块对应的底层帧的区域的图像。

6.根据权利要求1的方法，其中该相邻帧内编码块的图像是通过对该相邻帧内编码块进行解码重构的图像。

7.根据权利要求1的方法，其中该编码效率是由基于速率失真的成本函数确定的。

8.根据权利要求1的方法，其中对所选择的预测残差进行编码的步骤包括：

对所选择的预测残差执行空间变换，以创建变换系数；

对该变换系数进行量化，以生成量化系数；和

对该量化系数进行无损耗地编码。

9.一种用于基于多层结构解码视频的方法，包括：

对于每一帧内编码块提取修改的帧内预测模式和纹理数据；

根据该纹理数据生成帧内编码块的残留图像；

根据该修改的帧内预测模式，利用先前重构的相邻帧内编码块或先前重构的底层图像，而生成当前帧内编码块的预测图像；和

将该预测图像与该残留图像相加，并重构当前帧内编码块的图像。

10.根据权利要求9的方法，其中所述根据该纹理数据生成残留图像的步骤包括：对纹理数据进行逆量化，并对逆量化的结果执行逆空间变换。

11.根据权利要求9的方法，其中所述修改的帧内预测模式包括8种定向帧内预测模式和用于根据对应底层区域执行预测的预测模式。

12.一种用于基于多层结构编码视频的方法，包括：

利用与当前运动块对应的参考帧的区域的图像，对该当前运动块执行时间预测，以获得第一预测残差；

利用与该当前运动块对应的底层区域的图像，对该当前运动块执行预测，以获得第二预测残差；

选择所述第一和第二预测残差之中的提供较高编码效率的那个预测残差；和

对所选择的预测残差进行编码。

13.根据权利要求12的方法，其中该运动块是通过分级可变尺寸块匹配(HVSBM)生成的。

14.根据权利要求12的方法，其中该运动块是通过固定尺寸块匹配生成的。

15.根据权利要求12的方法，其中该编码效率是由基于速率失真的成本函数确定的。

16.根据权利要求12的方法，其中该底层区域的图像是通过解码重构的、与当前帧内编码块对应的底层帧的区域的图像。

17.根据权利要求12的方法，其中该参考帧是通过在与当前运动块不同的时间位置对帧进行编码、并对所编码的帧进行解码所获得的帧。

18.一种用于基于多层结构解码视频的方法，包括：

提取用于每一运动块的选定模式、运动数据、和纹理数据；

根据该纹理数据生成该运动块的残留图像；

根据该选定模式，而在与该运动块对应的先前重构的参考帧的区域的图像和先前重构的底层图像之中选择一个图像；和

将所选择的图像与该残留图像相加，并重构该运动块的图像。

19.根据权利要求18的方法，其中所述根据该纹理数据生成残留图像的步骤包括：对纹理数据进行逆量化，并对逆量化的结果执行逆空间变换。

20.一种视频编码器，包括：

配置为利用当前帧内编码块的相邻帧内编码块的图像、对该当前帧内编码块执行帧内预测以获得预测残差的单元；

配置为利用与该当前帧内编码块对应的底层区域的图像、对该当前帧内编码块执行预测以获得预测残差的单元；

配置为选择所述两种预测残差之中的提供较高编码效率的预测残差的单元；和

配置为对所选择的预测残差进行编码的单元。

21.一种视频解码器，包括：

配置为对于每一帧内编码块提取修改的帧内预测模式和纹理数据的单元；

配置为根据该纹理数据生成帧内编码块的残留图像的单元；

配置为根据该修改的帧内预测模式、利用先前重构的相邻帧内编码块或先前重构的底层图像、而生成当前帧内编码块的预测图像的单元；和

配置将该预测图像与该残留图像相加并重构当前帧内编码块的图像的单元。

22.一种视频编码器，包括：

配置为利用与当前运动块对应的参考帧的区域的图像、对该当前运动块执行时间预测以获得第一预测残差的单元；

配置为利用与该当前运动块对应的底层区域的图像、对该当前运动块执行预测以获得第二预测残差的单元；

配置为选择所述第一和第二预测残差之中的提供较高编码效率的那个预测残差的单元；和

配置为对所选择的预测残差进行编码的单元。

23.一种视频解码器，包括：

配置为提取用于每一运动块的选定模式、运动数据、和纹理数据的单元；

配置为根据该纹理数据生成该运动块的残留图像的单元；

配置为根据该选定模式、而在与该运动块对应的先前重构的参考帧的区域的图像和先前重构的底层图像之中选择一个图像的单元；和

配置为将所选择的图像与该残留图像相加并重构该运动块的图像的单元。