CN1722836A

CN1722836A - 视频编码和解码方法以及视频编码器和解码器

Info

Publication number: CN1722836A
Application number: CN 200510080768
Authority: CN
Inventors: 车尚昌; 韩宇镇
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-07-07
Filing date: 2005-07-05
Publication date: 2006-01-18
Also published as: WO2006004331A1

Abstract

提供了视频编码和解码方法以及视频编码器和解码器。该视频编码方法包括：为输入视频帧中的每个块确定帧间预测编码模式和帧内预测编码模式之一作为编码模式；基于根据确定的编码模式而获得的预测块来为输入视频帧产生预测帧；和基于该预测帧对输入视频帧编码。当帧内预测编码模式被确定为编码模式时，为块产生包括该块的代表值的帧内基本块，并且该帧内基本块被内插以便为该块产生帧内预测块。

Description

视频编码和解码方法以及视频编码器和解码器

技术领域

根据本发明的设备和方法涉及一种视频编码算法，更具体地说，涉及能够支持帧内预测编码模式的可调节的(scalable)视频编码和解码。

背景技术

随着包括因特网的信息通信技术的发展，视频通信还有文本和语音通信已迅速增长。传统的文本通信不能满足各种用户需求，从而能够提供各种类型的诸如文本、图片、和音乐的信息的多媒体服务增长了。由于多媒体数据的量相对于其它类型的数据通常较大，所以多媒体数据需要大容量的存储介质和用于传输的较宽带宽。因此，需要用于发送包括文本、视频、和音频的多媒体数据的压缩编码方法。例如，具有640*480的分辨率的24位真彩色图像需要每帧640*480*24比特，即，大约7.37兆比特的数据的容量。当以每秒30帧的速度发送诸如这样的图像时，需要221兆比特/秒的带宽。当存储基于这样的图像的90分钟的影片时，需要大约1200吉比特(Gbit)的存储空间。因此，压缩编码方法对于发送包括文本、视频、和音频的多媒体数据是必需的。

在这样的压缩编码方法中，数据压缩的基本原理在于除去数据冗余。数据冗佘通常被定义为：(i)空间冗余，在空间冗余中，相同的颜色或对象在图像中被重复；(ii)时间冗余，在时间冗余中，在运动图像的相邻帧之间几乎没有改变或者相同的声音在音频中被重复；或者(iii)精神视觉冗余，其考虑对于高频迟钝的人类视力和感觉。可通过除去这样的数据冗余来压缩数据。数据压缩大体上根据源数据是否损失可被分类为有损/无损压缩，根据单个帧是否被独立地压缩可被分类为帧内/帧间压缩，根据压缩所需要的时间是否与恢复所需要的时间相同可被分类为对称/不对称压缩。此外，数据压缩当压缩/恢复时间延迟不超过50ms时被定义为实时压缩，当帧具有不同的分辨率时被定义为可调节的压缩。例如，对于文本或者医疗数据，通常使用无损压缩。对于多媒体数据，通常使用有损压缩。同时，通常使用帧内压缩来除去空间冗余，通常使用帧间压缩来除去时间冗余。

传输性能根据传输介质而不同。当前使用的传输介质具有各种传输速率。例如，超高速通信网络每秒可以发送几十兆比特的数据，但是移动通信网络具有每秒384千比特的传输速率。在相关技术诸如运动图像专家组(MPEG)-1、MPEG-2、H.263、和H.264的视频编码方法中，时间冗余基于运动估计和补偿通过运动补偿被除去，空间冗佘通过变换编码而被除去。这些方法具有令人满意的压缩率，但是由于它们在主算法中使用自反方法(reflexive approach)，所以它们不具有真正可调节的比特流的灵活性。因此，为了支持具有各种速度的传输介质或者为了以适合于传输环境的数据速率发送多媒体，具有可调节性的数据编码方法，诸如小波视频编码和子带视频编码，可以适合多媒体环境。可调节性指的是对单个压缩的比特流部分地解码的能力，即，执行各种类型的视频再现的能力。可调节性包括：指示视频分辨率的空间可调节性、指示视频质量等级的信噪比(SNR)可调节性、指示帧速率的时间可调节性、及其组合。

在用于基于小波的可调节视频编码的许多技术之中，由Ohm提出并由Choi和Wood改进的运动补偿时间滤波(MCTF)是用于除去时间冗余和用于具有灵活的时间可调节性的视频编码的基本技术。在MCTF中，编码对一组画面(GOP)执行。

图1是基于MCTF的可调节视频编码器的方框图，图2示出在传统的基于MCTF的视频编码中的时间滤波处理。

参照图1，可调节视频编码器包括：运动估计器110，用于估计输入视频帧之间的运动并确定运动矢量；运动补偿时间滤波器140，用于使用运动矢量来补偿帧间的运动并除去经受了运动补偿的帧间内的时间冗余；空间变换器150，用于除去帧内(intraframe)和在其中时间冗余已被除去的帧间之内的空间冗余，并产生变换系数；量化器160，用于量化变换系数以减少数据量；运动矢量编码器120，用于编码运动矢量以减少运动矢量所需要的比特；和比特流产生器130，用于使用量化的变换系数和编码的运动矢量来产生比特流。

运动估计器110对将在补偿当前帧的运动和除去当前帧之内的时间冗余中使用的运动矢量进行计算。运动矢量被定义为从参考帧中的最佳匹配块相对于当前帧中的块的位移。在分层可变大小块匹配(HVSBM)算法，即，各种已知的运动估计算法之一中，具有N*N分辨率的帧首先被下采样以形成具有诸如N/2*N/2和N/4*N/4分辨率的更低的分辨率的帧。然后，运动矢量以N/4*N/4分辨率被获得，并且具有N/2*N/2分辨率的运动矢量通过使用N/4*N/4分辨率运动矢量而被获得。类似地，具有N*N分辨率的运动矢量通过使用N/2*N/2分辨率运动矢量而被获得。在获得在每个分辨率的运动矢量之后，通过选择处理来确定最终块大小和最终运动矢量。

运动补偿时间滤波器140使用由运动估计器110获得的运动矢量来除去当前帧之内的时间冗余。为了实现此目的，运动补偿时间滤波器140使用参考帧和运动矢量来产生预测帧并将当前帧与预测帧相比较，从而产生残余(residual)帧。随后将参照图2更详细地描述时间滤波处理。

空间变换器150在空间上变换残余帧以获得变换系数。视频编码器使用小波变换除去残余帧之内的空间冗余。小波变换被用于产生在空间上可调节的比特流。

量化器160使用嵌入式量化算法来量化通过空间变换器150而获得的变换系数。目前已知的嵌入式量化算法是：嵌入式零树小波(EZW)、等级树中的集合划分(SPIHT)、嵌入式零块编码(EZBC)、和具有优化截断的嵌入式块编码(EBCOT)。在本示例性实施例中，可使用已知的嵌入式量化算法之中的任何一个。嵌入式量化被用于产生具有SNR可调节性的比特流。

运动矢量编码器120对由运动估计器110计算的运动矢量编码。

比特流产生器130产生包含量化的变换系数和编码的运动矢量的比特流。

现在将参照图2描述MCTF算法。

为了解释的方便，一组画面(GOP)的大小被假定为16。首先，在时间等级0，可调节视频编码器接收16帧并对于该16帧向前执行MCTF，从而获得8个低通帧和8个高通帧。然后，在时间等级1，对于8个低通帧向前执行MCTF，从而获得4个低通帧和4个高通帧。在时间等级2，对于在时间等级1中获得的4个低通帧向前执行MCTF，从而获得2个低通帧和2个高通帧。最后，在时间等级3，对于在时间等级2中获得的2个低通帧向前执行MCTF，从而获得1个低通帧和1个高通帧。

现在将描述对两个帧执行MCTF从而获得单个低通帧和单个高通帧的处理。视频编码器预测两帧之间的运动，通过补偿该运动而产生预测帧，将预测帧与一帧相比较从而产生高通帧，并且计算预测帧和另一帧的平均数从而产生低通帧。作为MCTF的结果，在最后的等级获得了包括15个高通子带和1个低通子带的总共16个子带H1、H3、H5、H7、H9、H11、H13、H15、LH2、LH6、LH10、LH14、LLH4、LLH12、LLLH8、和LLLL16。

由于在最后的等级获得的低通帧是原始帧的近似，所以可产生具有时间可调节性的比特流。即，当比特流以这样的使得仅仅将帧LLLL16发送到解码器的方式被截断时，解码器对帧LLLL16解码从而以是原始视频序列的帧速率的十六分之一的帧速率重建视频序列。当比特流以这样的使得将帧LLLL16和LLLH8发送到解码器的方式被截断时，解码器对帧LLLL16和帧LLLH8解码从而以是原始视频序列的帧速率的八分之一的帧速率重建视频序列。以类似的方式，解码器以四分之一帧速率、二分之一帧速率、和全帧速率从单个比特流中重建视频序列。

由于可调节视频编码允许解码器从单个比特流中产生各种分辨率、各种帧速率、或者各种质量的视频序列，所以该技术可被用于各种各样的应用。然而，目前已知的可调节视频编码方案提供比其它现存的诸如H.264的编码方案低很多的压缩效率。由于低压缩效率是严重妨碍可调节视频编码的广泛使用的重要因素，所以进行了各种尝试来改进可调节视频编码的压缩效率。多种方法之一是将帧内预测编码模式引入MCTF处理。

然而，当将帧内预测编码模式引入基于小波变换的可调节视频编码中的MCTF处理时，在帧内预测块(intra-predicted block)和帧间预测块(inter-predicted block)之间的边界上往往会发生错误。

因此，为了改进可调节视频编码的效率，需要加入为减少在帧内预测块和帧间预测块之间的边界上的错误而设计的帧内预测编码模式。

发明内容

本发明提供了能够支持帧内预测编码模式的可调节视频编码和解码方法以及一种可调节视频编码器和可调节视频解码器。

根据本发明的一方面，提供了一种视频编码方法，其包括：为输入视频帧中的每个块确定帧间预测编码模式和帧内预测编码模式之一作为编码模式；使用根据确定的编码模式而获得的预测块来为输入视频帧产生预测帧；和使用预测帧对输入视频帧编码。当帧内预测编码模式被确定为编码模式时，为块产生包括块的代表值的帧内基本块，并且该帧内基本块被内插以便为该块产生帧内预测块。

根据本发明的另一方面，提供了一种视频编码器，其包括：模式确定器，用于为输入视频帧中的每个块确定帧间预测编码模式和帧内预测编码模式之一作为编码模式，并根据该确定的模式来产生预测块；时间滤波器，用于使用预测块来为输入视频帧产生预测帧并使用该预测帧来除去视频帧内的时间冗余；空间变换器，用于除去在其中时间冗余已被除去的视频帧之内的空间冗余；量化器，用于对在其中空间冗佘已被除去的视频帧进行量化；和比特流产生器，用于产生包含量化的视频帧的比特流，其中，模式确定器产生包括为其确定了帧内预测编码模式的块的代表值的帧内基本块，然后通过对该帧内基本块内插来为该块产生帧内预测块。

根据本发明的另一方面，提供了一种视频解码方法，其包括：解释输入比特流并获得纹理(texture)信息、运动矢量信息、和帧内基本块信息；使用纹理信息、运动矢量信息、和帧内基本块信息来产生预测帧；和使用该预测帧来重建视频帧，其中，通过将包含在纹理信息中的残余块信息与通过对帧内基本块信息内插而获得的帧内预测块信息相加来获得预测帧中的帧内预测块。

根据本发明的另一方面，提供了一种视频解码器，其包括：比特流解释器，用于解释比特流并获得纹理信息、运动矢量信息、和帧内基本块信息；逆量化器，用于逆量化纹理信息；逆空间变换器，用于对逆量化的纹理信息执行逆空间变换并产生残余帧；和逆时间滤波器，用于使用残余帧、运动矢量信息、和帧内基本块信息来产生预测帧，并使用该预测帧来重建视频帧，其中，逆时间滤波器通过将包含在残余帧中的残余块信息与通过对帧内基本块信息内插而获得的帧内预测块信息相加来产生预测帧中的帧内预测块。

附图说明

通过参照附图对本发明的示例性实施例进行详细的描述，本发明的上述和其它方面将会变得更加清楚，其中：

图1是传统可调节视频编码器的方框图；

图2示出在传统的可调节视频编码中的时间滤波处理；

图3是根据本发明的示例性实施例的视频编码器的方框图；

图4是用于解释根据本发明的示例性实施例的产生帧内基本块的处理的示图；

图5是用于解释根据本发明的示例性实施例的产生帧内预测块的处理的示图；

图6是用于解释根据本发明的示例性实施例的对预测帧滤波的处理的示图；

图7示出根据本发明的示例性实施例的帧内预测编码模式的处理；

图8示出根据本发明的另一示例性实施例的帧内预测编码模式的处理；和

图9是根据本发明的示例性实施例的视频解码器的方框图。

具体实施方式

现在将参照附图对本发明进行更完全地描述，在附图中，显示了本发明的示例性实施例。通过参照下面示例性实施例的详细描述以及附图，本发明的优点和特点以及实现本发明的方法可更易于理解。然而，本发明可以以许多不同的形式被实施并且不应被解释为局限于在这里阐述的示例性实施例。更恰当地，提供这些示例性实施例以便本公开将彻底和完整并完全地将本发明的构思传达给本领域的技术人员，并且本发明将仅由所附权利要求限定。

根据本发明的示例性实施例的视频编码算法分别使用帧内预测和帧滤波技术来改进编码效率和图像质量。帧内预测可被用于可调节视频编码算法还有基于离散余弦变换(DCT)的视频编码算法。帧内预测和帧滤波可被独立地或者一起执行。在下文中，将参照示例性实施例描述本发明，在该实施例中，可调节视频编码一起使用帧内预测和帧滤波。因此，一些组件可以是可选的或者可以被其它执行不同功能的组件替代。

图3是根据本发明的示例性实施例的支持帧内预测编码模式的视频编码器的方框图。

参照图3，该视频编码器包括：模式确定器310、时间滤波器320、小波变换器330、量化器340、和比特流产生器350。

模式确定器310确定这样的模式，在该模式中，当前正被编码的帧(“当前帧”)中的每个块将被编码。为了实现该功能，模式确定器310包括：帧间预测单元312、帧内预测单元314、和确定单元316。帧间预测单元312使用一个或更多的参考帧来估计当前帧中的每个块和对应的参考块之间的运动，并获得运动矢量。接在该运动估计之后，帧间预测单元312计算该块和对应的参考块之间的差度量(difference metric)。尽管在本发明中平均绝对差值(MAD)被用作差度量，但是绝对差值和(SAD)或其它度量也可被使用。差度量被用于计算编码方案的代价(cost)。

帧内预测单元314使用当前帧之内的信息对当前帧中的每个块编码。帧内预测编码模式被用在本示例性实施例中，以参照当前帧中的每个块的帧内基本块来为当前帧中的每个块产生帧内预测块并计算该块和对应的帧内预测块之间的差度量。随后将更详细地描述产生帧内基本块和帧内预测块的处理。

确定单元316从帧间预测单元312和帧内预测单元314接收当前帧中的每个块的差度量，并为该块确定编码模式。例如，为了为每个块确定编码模式，确定单元316可以比较帧内预测编码模式和帧间预测模式的代价。对块进行帧间预测编码和帧内预测编码的代价C_inter和C_intra由方程(1)如下定义：

C_inter＝D_inter+λ(MV_bits+Mode_bits_inter)

C_intra＝D_intra+λ(INTRA_bits+Mode_bits_intra) …(1)

D_inter是对于帧间预测编码的块和对应的参考块之间的差度量，D_intra是对于帧内编码的块和对应的帧内预测块之间的差度量。MV_bits和INTRA_bits分别指的是分配给与块相关联的运动矢量和帧内基本块的比特数。Mode_bits_inter和Mode_bit_sintra分别指的是指示块被编码为帧间块和帧内块所需要的比特数。λ是拉格朗日系数，用于控制被分配给运动矢量和纹理(图像)的比特之间的平衡。

使用方程(1)，确定单元316可确定在其中当前帧中的每个块将被编码的模式。例如，当帧间预测编码的代价小于帧内预测编码的代价时，确定单元316确定：块将被帧间编码。相反地，当帧内预测编码的代价小于帧间预测编码的代价时，确定单元316确定：块将被帧内编码。

一旦为当前帧中的每个块确定了模式，则时间滤波器320为当前帧产生预测帧，将当前帧和预测帧相比较，并除去当前帧之内的时间冗余。时间滤波器320也可除去可在预测(帧间预测或帧内预测)期间产生的块假象(artifact)。在基于逐块而产生的预测帧中沿着块边界出现的块假象显著地降低图像的视觉质量。因此，除了为当前帧产生预测帧的预测帧产生单元322之外，时间滤波器320还包括除去预测帧中的块假象的预测帧滤波单元324。预测帧滤波单元324可对预测帧执行滤波以除去在帧内预测块和帧间预测块之间的边界上引入的块假象以及帧间预测块之间的边界上引入的块假象。因此，预测帧滤波单元324可被用于不支持帧内预测编码模式的视频编码算法。此外，当可调节视频编码包括更新帧的操作时，时间滤波器320还可包括更新单元326。因此，不包括更新操作的可调节视频编码或基于DCT的视频编码不需要更新单元326。

更具体地说，预测帧产生单元322使用对应于当前帧中的每个块的参考块或者帧内预测块来产生预测帧。

比较器(未显示)将当前帧与预测帧相比较从而产生残余帧。在产生残余帧之前，预测帧滤波单元324执行关于预测帧的滤波以减少可在残余帧中发生的块假象。即，比较器将当前帧与经受了滤波的预测帧相比较，从而产生残余帧。随后将更详细地描述对预测帧滤波的处理。传统上，对预测帧的滤波处理主要被用于闭环视频编码，诸如H.264视频编码方案。滤波处理不被用于开环可调节视频编码，该开环可调节视频编码允许编码的比特流被用于解码的预解码器截断。即，由于编码条件不同于解码条件，所以开环可调节视频编码不使用预测帧的滤波。然而，包括预测帧的滤波的可调节视频编码提供改进的视频质量。因此，本发明包括对预测帧滤波的操作。

更新单元326以基于MCTF的可调节视频编码算法来更新残余帧(H帧)和原始视频帧，并产生单个低通子带(L帧)和多个高通子带(H帧)。参照图2，从帧1、3、5、7、9、11、13、和15获得的残余帧以及帧2、4、6、8、10、12、14、和16被更新以产生时间等级1中的子带。时间等级1中的L帧经受通过模式确定器310的运动估计或者帧内预测，经过预测帧产生单元322和预测帧滤波单元324，并被输入到更新单元326。更新单元326使用来自时间等级1中的L帧的残余帧和时间等级1中的L帧来产生时间等级2中的子带(L帧和H帧)。以类似的方式，时间等级2中的L帧被用于产生时间等级3中的子带。时间等级3中的L帧被用于产生时间等级4中的单个H帧和单个L帧。尽管更新操作由5/3滤波器执行，但是可像传统上所做的一样使用Haar滤波器或者7/5滤波器。

小波变换器330对经受了通过时间滤波器320的时间滤波的帧执行小波变换。在目前已知的小波变换中，一帧被分解为四个区(象限)。实质上与完整的图像相同的四分之一大小的图像(L图像)出现在帧的一个象限中，并且从L图像重建完整的图像所需要的信息(H图像)出现在其它三个象限中。以相同的方式，L图像可被分解为四分之一大小的LL图像和重建该L图像所需要的信息。基于小波变换的图像压缩被应用于JPEG 2000压缩技术。帧的空间冗余可通过小波变换被除去。此外，在小波变换中，与DCT变换不同，原始图像数据以大小减小的形式被存储。因此，大小减小的图像使得能够实现空间上可调节的视频编码。尽管上面在示于图3中的示例性实施例中描述了小波变换被用作在支持帧内预测编码模式的可调节视频编码中的空间变换技术，但是当帧内预测编码模式被应用于现存的诸如MPEG-2、MPEG-4、和H.264的视频编码标准时，也可使用DCT。

量化器340使用嵌入式量化算法来量化小波变换的帧。嵌入式量化涉及量化、扫描、和熵(entropy)编码。将被包含在比特流中的纹理信息通过嵌入式量化而被产生。

也应被包含在比特流中以对用帧间预测模式编码的块进行解码的运动矢量可以使用无损压缩被编码。运动矢量编码器360使用变长编码或者算术编码来对从帧间预测单元312获得的运动矢量编码，并将编码的运动矢量发送到比特流产生器350。

为了对以帧内预测编码模式编码的块解码，比特流还包含帧内基本块。在被发送到比特流产生器350之前，帧内基本块没有被压缩或编码。另一方面，可对帧内基本块量化或使用变长编码或算术编码来编码。

图3的视频编码器使用量化的帧内基本块。更具体地说，当块以帧内预测编码模式被编码时，帧内预测单元3 14产生用于该块的帧内基本块和使用该帧内基本块的帧内预测块。

帧内预测单元314通过将该块与帧内预测块相比较而获得差度量，并将该差度量发送到确定单元316。当确定单元316确定出块以帧内预测编码模式被编码时，帧内预测块被提供给时间滤波器320。

在另一示例性实施例中，帧内预测单元314从围绕该块的邻近的子块中预测帧内基本块，并通过将预测的帧内基本块与原始帧内基本块相比较来产生残余帧内基本块。帧内量化单元370对残余帧内基本块量化以减少信息量，并将量化的残余帧内基本块发送回帧内预测单元314。量化可包括变换操作以减少残余帧内基本块中的信息量。帧内预测单元314将量化的残余帧内基本块与从邻近子块预测的帧内基本块相加，并产生新的帧内基本块。帧内预测单元314然后通过内插该新的帧内基本块来产生帧内预测块，并将该帧内预测块发送到时间滤波器320以被用于产生残余块。

在使用帧内预测块和帧间预测块产生预测帧之后，时间滤波器320将预测帧与原始视频帧相比较，从而产生残余帧。残余帧经过小波变换器330和量化器340并被组合进比特流中。比特流产生器350使用从量化器340接收的纹理信息、从运动矢量编码器360接收的运动矢量、和从帧内量化单元370接收的量化的帧内基本块来产生比特流。

图4是用于解释根据本发明的示例性实施例的产生帧内基本块的处理的示图。

参照图4，为了以帧内预测编码模式对块410编码，块410被分为多个子块。在本示例性实施例中，由于该块被分为用于帧内预测的16个子块，所以帧内基本块具有4*4像素的大小。块大小可根据时间和空间可调节性的组合而被确定。块大小可使用被定义为视图层(view layer)与编码层的比的调节因数而被确定。例如，当调节因数是1时，块大小是16*16像素。当调节因数是2时，块大小是32*32像素。

在块410被分为16个子块之后，为每个子块确定代表值。每个子块中的一个像素的值被确定为该子块的代表值。例如，子块的代表值可以是子块中的左上像素的值。另一方面，代表值可以是子块中的像素的平均值或中值。块410中的子块的代表值被集中在一起以产生具有4*4像素的大小的帧内基本块420。

图5是用于解释根据本发明的示例性实施例的使用帧内基本块420来产生帧内预测块的处理的示图。参照图5，使用帧内基本块中的像素的值来产生帧内预测块中的每个像素。例如，可使用帧内基本块420中的像素a 520、像素b 530、像素e 540、和像素f 550的值来计算像素t 510的值。在这种情况下，像素t 510的值可通过对帧内基本块中的邻近像素的值内插而被获得。像素t 510的值由方程(2)定义如下：

t = \frac{\frac{ay + bx}{x + y} v + \frac{ey + fx}{x + y} u}{u + v} . . . (2)

其中，t是像素t 510的值，a、b、e、和f分别是像素a 520、像素b 530、像素e 540、和像素f 550的值，x和y分别是像素t 510和像素a 520之间以及像素t 510和像素b 530之间的水平距离，u和v分别是像素t 510和像素a 520之间以及像素t 510和像素e 540之间的垂直距离。

一旦使用帧内基本块(图4的420)中的像素产生了帧内预测块，则块(图4的410)与帧内预测块之间的差度量被提供给确定单元(图3的316)。确定单元316使用该差度量来确定是否以帧内预测编码模式对块410编码。

在第一示例性实施例中，当确定单元确定出块410以帧内预测编码模式被编码时，帧内预测单元314将帧内预测块发送到时间滤波器320。

在第二示例性实施例中，为了减少帧内基本块中的信息量，帧内预测单元314使用来自围绕块410的邻近的子块的信息来预测帧内基本块，并通过将预测的帧内基本块与先前的帧内基本块相比较来产生残余帧内基本块。帧内量化单元370对该残余帧内基本块量化以减少信息量，并将量化的残余帧内基本块发送回帧内预测单元314。帧内预测单元314将量化的残余帧内基本块与预测的帧内基本块相加，从而产生新的帧内基本块。然后，帧内预测单元314使用该新的帧内基本块来产生帧内预测块，并将该帧内预测块发送到时间滤波器320。第二示例性实施例提供类似于第一示例性实施例的性能，但其因在预测帧滤波单元324中对预测帧进行滤波而优于第一示例性实施例。在低比特率的情况下，在帧间编码的块和帧内编码的块之间的边界上，第二示例性实施例还比第一示例性实施例遭受更少的假象。

现在将参照图4更详细地描述根据第二示例性实施例的预测帧内基本块和对用该预测的帧内基本块产生的残余帧内基本块进行量化的处理。如前所述，使用块410中的子块的代表值而产生的帧内基本块420被用于确定将对块410编码的模式。然而，在本示例性实施例中，使用来自邻近的子块的信息来产生帧内基本块。当块410中的子块的左上像素被确定为先前帧内基本块420中的像素时，块410的帧内基本块使用来自位于块410的上方的块(或子块)(“上侧块”)和来自位于块410的左方的块(或子块)(“左侧块”)的信息而被预测。可根据以下规则预测帧内基本块：

1、当上侧块和左侧块以帧间预测模式被编码时，来自这些块的信息具有所有可能的像素值的中值。例如，当像素值在0到255的范围内变化时，中值是128。

2、当上侧块和左侧块分别以帧内预测编码模式和帧间预测模式被编码时，来自上侧块的信息是与块410相邻的子块1、2、3、和4的代表值，而来自左侧块的信息是所有像素值的中值。

3、当左侧块和上侧块分别以帧内预测编码模式和帧间预测模式被编码时，来自左侧块的信息是与块410相邻的子块5、6、7、和8的代表值，而来自上侧块的信息是所有像素值的中值。

4、当上侧块和左侧块以帧内预测编码模式被编码时，来自上侧块的信息是与块410相邻的子块1、2、3、和4的代表值，而来自左侧块的信息是与块410相邻的子块5、6、7、和8的代表值。

使用以上标准，帧内基本块420中的像素值从方程(3)中被如下确定：

PredictedPixel = \frac{UpSidePixel * Dis_X + LeftSidePixel * Dis_Y}{Dis_X + Dis_Y} . . . (3)

这里，PredictedPixel是帧内基本块420中的预测像素值，UpSidePixel和LeftSidePixel分别是来自上侧块和左侧块的信息，DisX和DisY分别是离左侧块的具有像素值LefiSidePixel的像素的距离和离上侧块的具有像素值UpSidePixel的像素的距离。例如，当图4中的上侧块和左侧块分别以帧间预测模式和帧内预测编码模式被编码时，UpSidePixel是128并且LefiSidePixel是子块5、6、7、和8的代表值。如果子块5、6、7、和8的代表值分别是50、60、70、和80，则帧内基本块420中的像素a、b、c、和d的值分别是(128*1+50*1)/(1+1)、(128*2+50*1)/(2+1)、(128*3+50*1)/(3+1)、和(128*4+50*1)/(4+1)。类似地，像素e、f、g、和h的值分别是(128*1+60*2)/(1+2)、(128*2+60*2)/(2+2)、(128*3+60*2)/(3+2)、和(128*4+60*2)/(4+2)。像素i、j、k、和1的值分别是(128*1+70*3)/(1+3)、(128*2+70*3)/(2+3)、(128*3+70*3)/(3+3)、和(128*4+70*3)/(4+3)。最后四个像素m、n、o、和p的值分别是(128*1+80*4)/(1+4)、(128*2+80*4)/(2+4)、(128*3+80*4)/(3+4)、和(128*4+80*4)/(4+4)。

另一方面，当上侧块和左侧块以帧内预测编码模式被编码时，UpSidePixel是子块1、2、3、和4的代表值并且LefiSidePixel是子块5、6、7、和8的代表值。如果子块1、2、3、和4的代表值是10、20、30、和40并且子块5、6、7、和8的代表值是50、60、70、和80，则帧内基本块420中的像素a、b、c、和d的值分别是(10*1+50*1)/(1+1)、(20*2+50*1)/(2+1)、(30*3+50*1)/(3+1)、和(40*4+50*1)/(4+1)。类似地，像素e、f、g、和h的值分别是(10*1+60*2)/(1+2)、(20*2+60*2)/(2+2)、(30*3+60*2)/(3+2)、和(40*4+60*2)/(4+2)。像素i、j、k、和1的值分别是(10*1+70*3)/(1+3)、(20*2+70*3)/(2+3)、(30*3+70*3)/(3+3)、和(40*4+70*3)/(4+3)。最后四个像素m、n、o、和p的值分别是(10*1+80*4)/(1+4)、(20*2+80*4)/(2+4)、(30*3+80*4)/(3+4)、和(40*4+80*4)/(4+4)。

当上侧块和左侧块分别以帧内预测编码模式和帧间预测模式被编码时，或者当上侧块和左侧块以帧间预测模式被编码时，帧内基本块420中的像素值可以以类似的方式被预测。

在预测出帧内基本块420中的像素值之后，从原始帧内基本块中的像素值减去预测的帧内基本块420中的像素值，以确定残余帧内基本块中的像素值。残余帧内基本块中的确定的像素值可直接经受量化。然而，为了减少空间相关，在量化前，像素值要经受Hadamard变换。量化类似于H.264中的16*16量化，其通过适当的量化参数Qp而被执行。帧内预测单元314将量化的残余帧内基本块与使用来自邻近子块的信息而预测的帧内基本块相加，并产生新的帧内基本块。帧内预测单元314然后通过对该新的帧内基本块内插来产生帧内预测块，并将该帧内预测块发送到时间滤波器320。

尽管上面已描述了块被分为16个子块以产生帧内基本块，但是块可被分为少于或多于16的数量的子块。亮度(luma)块和色度(chroma)块可分别被分为不同数量的子块。例如，亮度和色度块可分别被分为16个和8个子块。

如上所述，当通过内插产生帧内预测块时，在帧内预测块之间的边界上几乎没有块假象发生。然而，由于帧内预测块和帧间预测块具有不同的特点，所以帧内预测块和帧间预测块之间可发生块假象。

图6是用于解释根据本发明的示例性实施例的对预测帧滤波的处理的示图。

可使用各种滤波技术来对帧内预测块和帧间预测块之间的像素的值进行滤波。例如，当使用非常简单的{1，2，1}滤波器时，使用方程(4)确定帧内预测块和帧间预测块之间的像素的值：

b′＝(a+b*2+c)/4

c′＝(b+c*2+d)/4 …(4)其中，b’和c’是滤波的像素值，a、b、c、和d是被滤波前的像素值。根据试验展示出：使用简单滤波器可显著减少块假象。

滤波还可在帧间预测块之间或者帧内预测块之间执行。

图7示出根据本发明的示例性实施例的帧内预测编码模式的处理。

为了解释的方便，假定块1 710和块3 730的编码模式已经被确定。首先为编码块2 720确定编码模式。根据以下处理对块2 720编码：

1、使用块2 720产生帧内基本块740。

2、通过对帧内基本块740内插来产生帧内预测块722。

3、通过将帧内预测块722与块2 720相比较来产生残余块724。

4、通过将对残余块724进行编码的代价与对由帧间预测编码产生的残余块(未显示)进行编码的代价相比较来确定块2 720的编码模式。

5、当帧内预测编码模式被确定为块2 720的编码模式时，产生预测的帧内基本块742，该预测的帧内基本块742通过使用邻近块710和730来预测帧内基本块740中的像素值而被获得。

6、通过将预测的帧内基本块742与帧内基本块740相比较来产生残余帧内基本块744。

7、量化残余帧内基本块744。在量化前，残余帧内基本块744可经受Hadamard变换以减少空间相关。

8、为了向解码器传输，对量化的残余帧内基本块746施加逆量化。逆量化的残余帧内基本块747几乎类似于被量化前的残余帧内基本块744。当量化前执行了Hadamard变换时，执行逆Hadamard变换。

9、通过将逆量化的残余帧内基本块747与使用邻近块710和730而创建的预测的帧内基本块742相加来产生新的帧内基本块748。新的帧内基本块748类似于原始帧内基本块740，但不完全相同。

10、通过对帧内基本块748内插来产生帧内预测块726。帧内预测块726也几乎类似于帧内预测块722。

11、通过将帧内预测块726与块2720相比较来产生残余块728。残余块728类似于残余块724。

12、对残余块728执行时间滤波、小波变换、和量化以产生将被包含进比特流中的纹理信息。

图8示出根据本发明的另一示例性实施例的帧内预测编码模式的处理。

为了解释的方便，假定块1 810和块3 830的编码模式已经被确定。首先为编码块2 820确定编码模式。根据以下处理对块2 820编码：

1、使用块2 820产生帧内基本块840。

2、通过对帧内基本块840内插来产生帧内预测块822。

3、通过将帧内预测块822与块2 820相比较来产生残余块824。

4、通过将对残余块824进行编码的代价与对由帧间预测编码创建的残余块(未显示)进行编码的代价相比较来确定块2 820的编码模式。

5、当帧内预测编码模式被确定为块2 820的编码模式时，对残余块824执行时间滤波、小波变换、和量化以产生将被包含进比特流中的纹理信息。

图9是根据本发明的示例性实施例的视频解码器的方框图。

为了解释的方便，假定视频解码器对由示于图7中的编码处理所创建的比特流解码。基本上，视频解码器对接收的比特流执行编码器的逆操作以重建视频帧。为了实现该目的，视频解码器包括比特流解释器910、逆量化器920、逆小波变换器930、和逆时间滤波器940。

比特流解释器910解释比特流以获得其后将被分别提供给逆量化器920、运动矢量解码器950、和逆帧内量化器960的纹理信息、编码的运动矢量、和量化的残余帧内基本块。量化的残余帧内基本块经受逆量化，然后被加到使用来自邻近块的信息而获得的预测的帧内基本块上，从而产生新的帧内基本块。

逆量化器920逆量化纹理信息并创建小波域中的变换系数。逆小波变换器930对该变换系数执行逆小波变换以基于逐个GOP获得单个低通子带和多个高通子带。

逆时间滤波器940使用高通和低通子带来重建视频帧。为此，逆时间滤波器940包括逆预测单元946，该逆预测单元946分别从运动矢量解码器950和逆帧内量化器960接收运动矢量和残余帧内基本块，并重建预测帧。

同时，当编码处理不包括更新操作时，先前重建的帧可被用作参考以重建预测帧。另一方面，当编码处理包括更新操作时，逆时间滤波器940还包括逆更新单元942。类似地，当编码处理包括预测帧的滤波时，逆时间滤波器940还包括逆预测帧滤波单元944，该逆预测帧滤波单元944对通过逆预测单元946而获得的预测帧进行滤波。

当解码器被设计以对由示于图8中的编码处理所创建的比特流解码时，帧内基本块从比特流而不是量化的残余帧内基本块被获得。因此，不必使用邻近块来产生预测的帧内基本块。

尽管图9显示了可调节视频解码器，但是本领域的技术人员应该理解，图9中显示的一些组件可被修改或替换以从由基于DCT编码产生的比特流中重建视频帧。因此，应该理解，上述示例性实施例仅仅在描述的意义上被提供，并且不应被解释为在本发明的范围上施加任何限制。

根据本发明，提供了新颖的帧内预测编码模式。该帧内预测编码模式减少了由视频编码引入的块假象，并改进了视频编码效率。还提供了对预测帧滤波的方法，该方法也可被有效地用于可调节视频编码以减少块假象的影响。

Claims

1、一种视频编码方法，包括：

将输入视频帧中的每个块的编码模式确定为帧间预测编码模式和帧内预测编码模式之一；

基于根据被确定的编码模式而获得的预测块来为输入视频帧产生预测帧；和

基于该预测帧对输入视频帧编码，

其中，如果帧内预测编码模式被确定为编码模式，则为块产生包括该块的代表值的帧内基本块，并且该帧内基本块被内插以便为该块产生帧内预测块。

2、如权利要求1所述的方法，其中，在确定编码模式中，编码模式通过将以帧间预测编码模式对块编码的代价与以帧内预测编码模式对块编码的代价相比较而被确定。

3、如权利要求2所述的方法，其中，以帧间预测编码模式对块编码的代价基于以下被计算：块与参考帧中对应于该块的参考块之间的差度量、为了对块与参考块之间的运动矢量编码而分配的比特数、和指示块是帧间编码的所需要的比特数，并且以帧内预测编码模式对块编码的代价基于以下被计算：块与对应于该块的帧内预测块之间的差度量、分配给对应于该块的帧内基本块的比特数、和指示块是帧内编码的所需要的比特数。

4、如权利要求3所述的方法，其中，如果块以帧内预测编码模式被编码，则用于计算代价的帧内预测块被包含在预测帧中。

5、如权利要求1所述的方法，其中，帧内基本块中的像素的值是块中的子块的代表值。

6、如权利要求5所述的方法，其中，每个子块的代表值是该子块中的一个像素的值。

7、如权利要求5所述的方法，其中，子块的数量是16。

8、如权利要求1所述的方法，其中，如果帧内预测编码模式被确定为块的编码模式，则用于产生对应于该块的帧内预测块的帧内基本块基于来自围绕该块的邻近子块的信息而被产生。

9、如权利要求8所述的方法，其中，帧内基本块通过以下步骤产生：通过将基于来自块的信息而产生的第一帧内基本块与基于来自邻近块的信息而产生的第二帧内基本块相比较来创建残余帧内基本块；量化该残余帧内基本块；逆量化该量化的残余帧内基本块；和将该逆量化的残余帧内基本块与第二帧内基本块相加。

10、如权利要求9所述的方法，其中，邻近块的信息是被包含在位于块的上方的上侧块和位于块的左方的左侧块中的子块的代表值。

11、如权利要求10所述的方法，其中，对其确定了帧间预测编码模式的块的信息是128。

12、如权利要求10所述的方法，其中，如果PredictedPixel是第二帧内基本块中的每个像素的值，UpSidePixel和LeftSidePixel分别是上侧块和左侧块的代表值，DisX和DisY分别是离左侧块的具有像素值LeftSidePixel的像素的距离和离上侧块的具有像素值UpSidePixel的像素的距离，则通过以下计算第二帧内基本块中的像素的值：

PredictedPixel = \frac{UpSidePixel * Dis_X + LeftSidePixel * Dis_Y}{Dis_X + Dis_Y} .

13、如权利要求1所述的方法，其中，输入视频帧基于可调节视频编码被编码。

14、一种视频编码器，包括：

模式确定器，用于将输入视频帧中的每个块的编码模式确定为帧间预测编码模式和帧内预测编码模式之一，并根据该确定的编码模式来产生预测块；

时间滤波器，用于基于预测块来为输入视频帧产生预测帧并基于该预测帧除去输入视频帧之内的时间冗余；

空间变换器，用于除去在其中时间冗余已被除去的输入视频帧之内的空间冗余；

量化器，用于对在其中空间冗余已被除去的输入视频帧进行量化；和

比特流产生器，用于产生包含已被量化的视频帧的比特流，

其中，模式确定器产生包括对其确定了帧内预测编码模式的块的代表值的帧内基本块，然后通过对该帧内基本块内插来为块产生帧内预测块。

15、如权利要求14所述的编码器，其中，模式确定器通过将以帧间预测编码模式对块编码的代价与以帧内预测编码模式对块编码的代价相比较来确定块的编码模式。

16、如权利要求15所述的编码器，其中，模式确定器基于以下计算以帧间预测编码模式对块编码的代价：块与参考帧中对应于该块的参考块之间的差度量、为了对块与参考块之间的运动矢量编码而分配的比特数、和指示块是帧间编码的所需要的比特数，并且基于以下计算以帧内预测编码模式对块编码的代价：块与对应于该块的帧内预测块之间的差度量、分配给对应于该块的帧内基本块的比特数、和指示块是帧内编码的所需要的比特数。

17、如权利要求15所述的编码器，其中，如果帧内预测编码模式被确定为块的编码模式，则模式确定器将用于计算代价的帧内预测块提供给时间滤波器。

18、如权利要求14所述的编码器，其中，模式确定器将块中的每个子块的代表值确定为帧内基本块中的每个像素的值。

19、如权利要求18所述的编码器，其中，每个子块的代表值是子块中的一个像素的值。

20、如权利要求14所述的编码器，其中，由模式确定器产生的帧内基本块的大小是4*4像素。

21、如权利要求14所述的编码器，其中，模式确定器基于来自围绕块的邻近块的信息来确定帧内基本块中的像素的值。

22、如权利要求21所述的编码器，其中，模式确定器确定通过以下步骤获得的值：通过将基于来自块的信息而产生的第一帧内基本块与基于来自邻近块的信息而产生的第二帧内基本块相比较来创建残余帧内基本块；量化该残余帧内基本块；逆量化该量化的残余帧内基本块；和将该逆量化的残余帧内基本块与第二帧内基本块相加作为帧内基本块中的每个像素的值。

23、如权利要求22所述的编码器，其中，被模式确定器使用的来自邻近块的信息是被包含在位于块的上方的上侧块和位于块的左方的左侧块中的子块的代表值。

24、如权利要求23所述的编码器，其中，对其确定了帧间预测编码模式的块的信息是128。

25、如权利要求23所述的编码器，其中，如果PredictedPixel是第二帧内基本块中的每个像素的值，UpSidePixel和LeftSidePixel分别是上侧块和左侧块的代表值，DisX和DisY分别是离左侧块的具有像素值LeftSidePixel的像素的距离和离上侧块的具有像素值UpSidePixel的像素的距离，则模式确定器通过以下计算第二帧内基本块中的像素的值：

PredictedPixel = \frac{UpSidePixel * Dis_X + LeftSidePixel * Dis_Y}{Dis_X + Dis_Y} .

26、如权利要求14所述的编码器，其中，时间滤波器和空间变换器基于可调节视频编码除去视频帧之内的冗余。

27、一种视频解码方法，包括：

解释输入比特流并获得纹理信息、运动矢量信息、和帧内基本块信息；

基于纹理信息、运动矢量信息、和帧内基本块信息来产生预测帧；和

基于该预测帧重建视频帧，

其中，通过将包含在纹理信息中的残余块信息与通过对帧内基本块信息内插而获得的帧内预测块信息相加来获得预测帧中的帧内预测块。

28、如权利要求27所述的方法，其中，帧内基本块信息具有4*4像素的大小。

29、如权利要求27所述的方法，其中，帧内基本块信息是将经受逆量化的被量化的残余帧内基本块，预测的帧内基本块基于来自在与帧内预测块相邻的块中先前重建的块的信息而被获得，帧内基本块通过将逆量化的残余帧内基本块与预测的帧内基本块相加而被获得，并且帧内预测块通过对帧内基本块内插而被获得。

30、如权利要求29所述的方法，其中，来自相邻块的信息是被包含在位于帧内预测块的上方和左方的块中的子块的代表值。

31、如权利要求30所述的方法，其中，位于帧内预测块的上方和左方的对其确定了帧间预测编码模式的块之一的信息是128。

32、如权利要求30所述的方法，其中，输入比特流基于可调节视频编码被编码。

33、一种视频解码器，包括：

比特流解释器，用于解释比特流并获得纹理信息、运动矢量信息、和帧内基本块信息；

逆量化器，用于逆量化纹理信息；

逆空间变换器，用于对逆量化的纹理信息执行逆空间变换并产生残余帧；和

逆时间滤波器，用于基于残余帧、运动矢量信息、和帧内基本块信息来产生预测帧，并基于该预测帧来重建视频帧，

其中，逆时间滤波器通过将包含在残余帧中的残余块信息与通过对帧内基本块信息内插而获得的帧内预测块信息相加来产生预测帧中的帧内预测块。

34、如权利要求33所述的视频解码器，其中，帧内基本块信息具有4*4像素的大小。

35、如权利要求33所述的视频解码器，其中，帧内基本块信息是其后将经受逆量化的被量化的残余帧内基本块，预测的帧内基本块基于来自在与帧内预测块相邻的块中先前重建的块的信息而被获得，帧内基本块通过将逆量化的残余帧内基本块与预测的帧内基本块相加而被获得，并且帧内预测块通过对帧内基本块内插而被获得。

36、如权利要求35所述的视频解码器，其中，来自相邻块的信息是被包含在位于帧内预测块的上方和左方的块中的子块的代表值。

37、如权利要求36所述的视频解码器，其中，位于帧内预测块的上方和左方的对其确定了帧间预测编码模式的块之一的信息是128。

38、如权利要求36所述的视频解码器，其中，输入比特流基于可调节视频编码被编码。

39、一种具有被记录在其上的计算机可读程序的记录介质，该程序执行视频编码方法，该方法包括：

基于该预测帧对输入视频帧编码，

其中，如果帧内预测编码模式被确定为编码模式，则为块产生包括该块的代表值的帧内基本块，并且该帧内基本块被内插以便为块产生帧内预测块。

40、一种具有被记录在其上的计算机可读程序的记录介质，该程序执行视频解码方法，该方法包括：

基于该预测帧重建视频帧，