CN101002476B

CN101002476B - 用于编码和解码的方法以及用于视频编码的编码和解码装置

Info

Publication number: CN101002476B
Application number: CN2005800265213A
Authority: CN
Inventors: P·阿蒙; A·胡特; B·蒂默曼
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-08-05
Filing date: 2005-07-27
Publication date: 2011-06-08
Anticipated expiration: 2025-07-27
Also published as: DE502005006339D1; ATE418843T1; KR101217050B1; KR20070046825A; DE102004038110B3; ES2317286T3; US8428140B2; EP1774790B1; EP1774790A1; WO2006015947A1; CN101002476A; US20080292002A1

Abstract

本发明涉及一种用于对图序进行视频编码的方法，其中如此对图序的图像以缩放方式进行编码，使得所产生的视频数据包含以下信息，所述信息以图像分辨率的多个不同的级来确保图像表示，所述图像分辨率通过每图像表示的像点数来定义，其中这样地基于块进行编码，使得为了描述图像图像之一的一部分的在图序中所包含的可能的运动而产生至少一个描述所述运动的块结构，所述块结构这样地被构造，使得以块为出发点将所述块结构划分成分块，其中部分分块具有对分块逐渐更细地进行划分的子块，暂时地为至少一个第一分辨率级产生第一块结构和为第二分辨率级产生第二块结构，其中第一分辨率级比第二分辨率级具有较低的像点数。此外，如此比较第二块结构和第一块结构，使得确定在块结构中的区别，以便基于结构区别的特性如此产生被修改的第二块结构，使得其结构表示第二块结构的分量，从而紧接着把被修改的第二块结构作为对图序编码的基础。此外，本发明涉及一种用于对图序解码的方法以及相应的编码器和解码器。

Description

用于编码和解码的方法以及用于视频编码的编码和解码装置

技术领域

本发明涉及用于视频编码的方法、用于解码的方法以及用于视频编码的编码器和解码装置。

背景技术

为存储或者传输通常对数字视频数据进行压缩，以便显著减少庞大的数据容量。在此，不仅通过消除在视频数据中所包含的信号冗余、而且通过去掉人的眼睛不可觉察的不重要的信号部分来进行压缩。这通常通过混合编码方法来实现，其中首先对待编码的图像在时间上进行预测，并且紧接着对残留的预测误差在频域内例如通过离散的余弦变换进行变换并且在那里进行量化并通过变长码进行编码。最后，传输运动信息和量化过的频谱系数。

对下一个待传输的图像信息的预测越好，在预测后残留的预测误差就越小，并且紧接着必须使用越低的数据速率用于对这些误差进行编码。于是在压缩视频数据时的基本任务在于，从先前已经传输的图像信息中获得对待编码的图像的尽可能精确的预测。

到目前为止通过以下方式产生对图像的预测，即将图像首先例如分成有规则的分段、典型地是尺寸为8×8或者16×16像点的正方形块，并且紧接着为所述图像块中的每一个通过运动补偿从已经在接收机中已知的图像信息确定预测。(当然也可以得出具有不同尺寸的块)。这种实施方式可以从图1中推断出。在此可以区分预测的两种基本情况：

-单向预测：所述运动补偿这里仅仅基于先前所传输的图像进行并且导致所谓的“P帧”。

-双向预测：图像的预测通过两个图像的重叠来进行，其中的一个图像在时间上在前而另一个在时间上跟随，并且这导致所谓的“B帧”。在此应当注意的是，两个参考图像已经被传输。

根据预测的这两种可能的情况，在运动补偿时间滤波(“MotionCompensated Temporal Filtering”，MTCF)情况下在MSRA[1]方法中得出5种方向模式，如在图2中可看出。

为了对非常大范围的可能的比特率确保良好的视频质量，采用基于MCTF的可缩放的视频编码。但是，如今公知的MCTF算法在此对于降低的比特率而言显示出难以接受的结果，这可能归因于：相比于涉及通过图序所定义的视频的运动信息(块结构和运动矢量)的信息，存在太少的纹理(块信息)。

因此，为了获得每个比特率情况下的纹理和运动数据之间的最佳的关系以及分辨率，需要运动信息的可缩放的形式。对此，由[1]已公知MSRA(微软亚洲研究院)的一种解决方案，所述解决方案是MCTF算法的当前状况。

在此，MSRA解决方案建议，逐层地表示运动，或者将运动分解成逐渐细化的结构。因此，该MSRA方法从而实现：在低比特率的情况下大体上改善图像的质量。

然而所述解决方案的缺点是，所述解决方案导致重构的图像中的一些偏移，所述偏移可以归因于运动信息和纹理之间的偏差。

发明内容

本发明所基于的基本任务是，说明一种用于编码和解码的方法、以及编码器和解码器，其确保改善的视频编码。

该任务以用于编码的方法为出发点通过其特征得到解决。

此外，该任务通过用于解码的方法、编码器以及解码器通过其特征来解决。

在根据本发明的用于对图序进行视频编码的方法中，如此对图序的图像以缩放方式进行编码，使得所产生的视频数据包含以下信息，所述信息以图像分辨率的多个不同的级来确保图像表示，所述图像分辨率通过每图像表示的像点数量来定义，其中如此以基于块的方式进行编码，使得为了描述图像之一的一部分的在图序中所包含的可能的运动而产生至少一个描述所述运动的块结构，该块结构这样地被构造，使得以块为出发点将该块结构划分成分块，其中部分分块具有对分块逐渐细分的子块，暂时地为至少一个第一分辨率级产生第一块结构和为第二分辨率级产生第二块结构，其中第一分辨率级比第二分辨率级具有较低的像点数。此外，这样地比较第二块结构和第一块结构，使得确定块结构中的区别，从而基于结构区别的特性如此产生被修改的第二块结构，使得其结构表示第二块结构的分量，从而紧接着用被修改的第二块结构作为对图序编码的基础。

通过这种实施方式，可以最小化纹理信息之间的区别并且此外可以以最小耗费对这些信息进行编码。此外对于选择了最粗略的运动矢量场的情况而言偏差消失，使得图像质量的改善在较低比特率以及较低分辨率的情况下也可以得到保障。

此外，优选地为确定区别而检测所添加的子块，其中为确定区别可替代地或者补充地检测子块的特性。

如果子块的块尺寸作为子块的特性被检测，那么获得在实际上非常良好的、用于所产生的块结构的细化程度的指示器。

如果为了确定区别只考虑第一块结构的与第二块结构的分块所对应的分块，那么还会继续使纹理信息的差别减小。

其中优选地仅仅将第二块结构的、其块尺寸达到可定义的阈值的子块采用到被修改的第二块结构中。由此实现：不必传输完整的块结构、即完整的运动矢量场，而是仅仅传输结构的最重要的部分。这一方面导致待传输的信息的减少并且此外尽管这种减少但仍导致偏差的消除和减小，被编码为赝像的图像被减少或者被消除。实际上，在此使用可定义的阈值具有特别大的优点，因为例如通过仿真或者试验尝试所确定的最佳值这里可以被调整，其中基于仿真或者试验的结果从所述最佳值中可以期待十分好的结果。

在此，优选地如此定义所述阈值，使得所述阈值说明第二块结构的子块的块尺寸与在第一块结构的被考虑用于进行比较的区域内所包含的块尺寸的比例，后面所提及的块尺寸被分配给区域的最小子块。

此外，在扩展方案中规定特征在于：所采用的子块可以是非二元的。

当第二分辨率级的被修改的第二块结构作为第三分辨率级的第一块结构被使用时，可以实现在被解码的图像表示方面对结果的进一步改善，其中第二分辨率级与第三分辨率级相比具有较低的像点数。为此，于是考虑每一个更高的分辨率级的可能的另外的块结构用以产生被修改的第二块结构，其中使用相应前一分辨率级的被修改的第二块结构用于根据本发明的比较。

如此进行编码，使得对不被采用到被修改的第二块结构中的子块分别进行标记，这对于解码而言也是有利的。

此外，优选地规定，通过使用特别被称为未细化(not-refind)的方向模式进行标记。

本发明所基于的任务也可以通过用于对被编码的图序进行解码的方法通过以下方式得到解决，即在考虑在图序中所包含的按照用于编码的本发明方法所产生的被修改的第二块结构的情况下产生对图序的缩放的表示。

根据本发明的编码器和相应的解码器也为解决所述任务作出贡献，所述编码器具有用于执行所述方法的装置，所述解码器具有用于对按照所述方法产生的被编码的图序进行解码的装置。

附图说明

本发明的其它细节以及优点将根据图1到5参考本发明的实施例得以说明。在此：

图1示出用于生成可缩放的运动信息的运动估计的模型，

图2示出对此必需的方向模式，

图3示出在此使用的子块尺寸，

图4示出根据本发明所产生的块结构的示意性表示，

图5示出按照根据本发明的方法编码的图像与按照现有技术编码的图像的比较。

具体实施方式

在图1中示意性地示出了根据现有技术已知的MSRA解决方案，为更好地理解本发明来阐述所述解决方案，因为在所描述的实施例中该解决方案至少部分地被投入使用。

根据MSRA，在每个暂时的层(layer)中执行所提及的多层运动估计。在这种情况下，所述运动估计在固定的空间分辨率的情况下利用不同的宏块尺寸来实现，以便所得出的运动矢量场与解码分辨率相适应。例如，如果最初的分辨率级是CIF编码格式并且解码分辨率级作为QCIF格式实现，那么在CIF格式的分辨率层面上或者CIF分辨率上执行所述运动估计，其中这采用块尺寸32×32作为基础和宏块尺寸8×8作为最小块尺寸来进行。与此相反，如果解码格式是CIF格式，那么宏块的尺寸被缩小到1/2，如从图1中可以推测出。

此外，如在图1中可以看出，在图1所示的处理的下面的支路中，为了对以QCIF格式存在的块进行解码而传输最初的运动矢量，而对于每个更高的层(例如用于对CIF块进行解码的每个层)只使用关于运动矢量的差别信息。在此，如果所述的块被划分为更小的分块，那么较低层的单个运动矢量可以用于对较高层的多个矢量的预测。

不同的模式在此指明运动补偿的方向，这正如前面所提到的和在图2中所示的那样，而从图3中可以看出，对块结构根据MSRA方法按照与在标准MPEG-4 AVC(先进视频编码)[2]中所使用的方法相同的方法进行编码。

为了选择应该被编码的块结构和运动补偿方向，根据MSRA方案规定，使用所谓的成本函数，所述成本函数已经针对该函数而被定义并且以概念“率失真优化(Rate Distortion Optimisation)”而公知。

在根据MSRA对运动的多层表示中，为相同的暂时层(帧速率)生成与不同的本地分辨率相匹配的不同的运动描述。在此，属于更高分辨率的运动估计作为充实的信息(增强层/信息)在对粗略(grob)的运动信息的检测的基础上被考虑。因为由粗略的运动矢量场所产生的残余误差块包含十分多的能量，所以只传输该在最细化的运动补偿之后所产生的残余误差块。如果首先选择粗略的运动信息，那么这导致在重构的残余误差图像中的非常强的赝像，其中这甚至在高比特率的情况下发生。

在图4中示出，根据本发明所产生的暂时的块结构在使用根据本发明的方法的情况下怎样产生最终应该被传输的块结构。

可以看出三种暂时的块结构MV_QCIF、MV_CIF和MV_4CIF。在此，这些块结构中的每一个根据本发明分别被分配给一个分辨率级，其中分辨率的格式被称为分辨率级，利用所述分辨率级可以表示按照本发明的方法编码的由图序构成的视频信号。

对于本实施例，在此涉及通用中间格式(CIF)、QCIF以及4CIF格式。

QCIF在此表示第一分辨率级、也就是说表示对根据本发明的方法所选择的分辨率级的最低分辨率级，使得第一块结构MV_QCIF根据本发明也被分配给该第一分辨率级，而CIF表示第二分辨率级，根据本发明为该第二分辨率级产生第二块结构MV_CIF。

在此，在运动估计算法范围内，例如在使用已经提到过的MCTF和/或MSRA方法的情况下产生块结构。

此外可以看出，暂时的块结构MV_QCIF、MV_CIF和MV_4CIF具有逐渐细化的子块结构，所述子块结构的特征在于，变得越来越细化的其它子块添加到以每一个暂时的块结构MV_QCIF、MV_CIF和MV_4CIF为出发点所定义的分块MB1_QCIF...MB4_QCIF中。

此外由图示可以看出，暂时的块结构MV_QCIF、MV_CIF和MV_4CIF具有相同的本地分辨率，于是尽管像点数从分辨率级到分辨率级地增加，但这保持恒定。

此外，在图4中可以看出待传输的或者最后例如为流应用所传输的块结构MV_QCIF、MV_CIF和MV_4CIF，所述块结构在使用根据本发明的方法的情况下从暂时的块结构MV_QCIF、MV_CIF和MV_4CIF中通过以下方式产生，即分别将属于高分辨率级的块结构与属于低一级的分辨率级的块结构比较并且作为结果产生属于所考虑的分辨率级的被修改的具有多个子块结构的块结构，只有属于相同分辨率级的暂时的块结构的分量包含所述子块结构，其中在此并不涉及真正的分量，所述真正的分量排除以下情况：即被修改的块结构的子块结构与相应的暂时的块结构的子块结构相同，而是因为更确切地甚至该特殊情况按照根据本发明的方法也可能发生，所以仅仅涉及例如从数学中已知的(简单的)分量。

接下来应该稍微详细地阐述根据本发明的算法。

根据本发明，从产生属于最低分辨率级的块结构开始。由于对于这种情况必然不能进行与前面的块结构的比较，所以在此根据本发明由所述第一块结构MV_QCIF可直接地得出被修改的块结构MV_QCIF。因此，可直接得出的被修改的块结构MV_QCIF具有与第一块结构MV_QCIF所具有的子块结构相同的子块结构。

根据本发明，在向高一级的分辨率级(在该情况下是CIF)的另一步骤中产生第二块结构MV_CIF。在此可以看出，其它的子块被添加到第二块结构MV_CIF中，所述其它的子块导致与第一块结构MV_QCIF所具有的相比更细化的子块结构。被添加的子块或者子块结构在该情况下在图中用点划线表示。

因此根据本发明，在下一步骤中执行比较，其中如下检验所添加的子块，即所述子块是否具有比第一块结构的相应分区的最小块尺寸小超过四倍的块尺寸。

如果这是切合的，那么将相应的子块结构采纳到被修改的第二块结构MV_CIF中，而在待检查的子块表示较低细化的情况下，放弃将子块结构采用到待传输的被修改的第二块结构中。

为能够更好地阐述这点，在图4中示例性地选出包含在第二块结构MV_CIF中的两个子块、也即第一子块SB1和第二子块SB2。第一子块SB1处于第二块结构MV_CIF的第一分块MB1_CIF中。相应地，根据本发明在与第二块结构MV_CIF的第一分块MB1_CIF相对应的、第一块结构MV_QCIF的第一分块MB1_QCIF中检查，哪一个是这里所出现的最小的子块尺寸。在本例子中，该最小的块尺寸通过第一最小子块MIN_SB1定义。如可以看出，第一子块的尺寸对应于第一最小子块的尺寸，使得在这种情况下甚至不存在细化。相应地，根据本发明不将基于第一子块的子块结构采用到待传输的第二块结构MV_CIF中，使得在根据图4的表示中，被修改的第二块结构MV_CIF在相应的位置上缺乏点划线表示的栅格。

在比较时，此外也考虑第二子块SB2用于比较。因为第二子块SB2包含在第二块结构MV_CIF的第四分块MB4_CIF中，所以相应地在第一块结构MV_QCIF的第四分块MB4_QCIF中寻找最小的子块尺寸。这通过第二最小子块MIN_SB2给出，所述第二最小子块在这种情况下精确地等分第一块结构MV_QCIF的第四分块MB4_QCIF。如可以看出，在这种情况下第二子块SB2的尺寸是第二最小子块MIN_SB2的尺寸的八分之一，使得与第一块结构MV_QCIF相比甚至得出八倍的细化。因此，根据本发明，把定义第二子块的子块结构也采用到被修改的第二块结构MV’_CIF中。对于第二块结构MV_CIF的在根据图4的表示中从被修改的第二块结构MV’_CIF的虚线表示的结构可以看出的所有块发生同样情况。正如从第二块结构MV_CIF和被修改的第二块结构MV’_CIF的比较表明，不是采用了第二块结构MV’_CIF的所有子块结构。现在为了可以正确地表示这种被编码的图序，在对应该被传输的块结构进行编码时，给未被采用到被修改的块结构的那些子块编码做标记。在此，根据本发明的方法也以相同的方式被应用于其它分辨率级。例如根据本实施例为格式4CIF也产生块结构MV_4CIF。根据本发明，该块结构现在又被用作第二块结构，而第一块结构由在前的第二块结构MV_CIF给出。在此，通过比较两个块结构所得到的被修改的第二块结构MV’_4CIF在图4的表示中又仅仅通过所添加的子块结构的一部分而被细化，所述的子块结构在该表示中用点标出。

可代替地或者补充地，为进行比较可以使用已经产生的被传输的、也就是被修改的第二块结构作为第一块结构，而不使用暂时的块结构。

在此，根据本发明，并不需要为所有在图序中被编码的分辨率级、而是例如只在所述分辨率的部分分辨率中、也就是说在使用QCIF、CIF或者4CIF的情况下只为CIF或者对于使用QCIF和CIF的情况下只为CIF产生根据本发明待传输的块结构。实际上，更确切地说足以将这应用于与所有已经存在的分辨率级相比中等的分辨率级，因为在中等的分辨率层面的情况下有最好的性能，原因在于在此可以避免对块结构和运动矢量的多次上和下采样。在此通过一个参数分别针对不同的本地分辨率级调整运动信息的数据速率，使得在每个分辨率级都产生运动信息和纹理信息的数据速率的最佳比例。

在此，本发明不局限于根据按照图4所阐述的实施例，而是包含所有在技术人员的能力范围内可行的实现，这是本发明的核心：

特别是根据MSRA所产生的在编码器侧所定义的或者存在的完整的运动矢量场(暂时的块结构MV_QCIF、MV_CIF和MV_4CIF)并不完全被传输，而更确切地说仅仅该运动矢量场的最重要的部分被传输。

在此，根据本发明的算法的基本优点是，在低比特率以及在低分辨率的情况下也改善图像质量。

这例如从图5的两个图像中可以看出。在此，在左侧所示的图像示出根据格式CIF被编码的图像，该图像在15Hz和128bps情况下用根据现有技术已知的完整的运动矢量场被编码，而在右侧示出用相同的格式和相同的比特率被编码的图像，但是该图像与前述的图像相比利用所产生的本发明细化方法被解码。

两个图像的比较在此说明，根据本发明被编码的图像具有少得多的(编码)赝像。于是该赝像由于本发明方法而被大大减少，因为归根到底从而限制了运动信息和纹理之间的偏差，其中根据本发明就只有第二运动矢量场的该部分被细化，该部分最强地或者十分强地不同于粗略的运动矢量场。

当然该方法方式必须被通知给对数据解码的解码器。为此，按照根据本发明的算法规定，引入新的方向模式，所述方向模式例如可以被标明“未细化的”。如果现在所述解码器对该方向模式解码，那么解码器知道可以使用与在前的运动估计层相对应的运动矢量和块结构，也即例如根据MSRA方法的运动矢量和块结构。在这种情况下不使用运动矢量的继续细化。

文献目录：

Jizheng Xu，Ruiqin Xiong，Bo Feng，Gary Sullivan，Ming-Chieh Lee，Feng Wu，Shipeng Li，″3D subband video codingusing Barbell lifting″，ISO/IEC JTC1/SC29/ WG11 MPEG68th meeting，M10569/s05，Munich，March 2004.

ITU-T and ISO/IEC JTC1，″Advanced Video Coding for Ge-neric Audiovisual Services，″ITU-T Recommendation H.264-ISO/IEC 14496-10 AVC，2003.

Claims

1.用于对图序进行视频编码的方法，其中对图序的图像以缩放的方式进行编码，使得所得出的视频数据包含以下信息，所述信息以图像分辨率的多个不同的级来确保图像表示，所述图像分辨率通过每图像表示的像点数量来定义，其中以基于块的方式进行编码，使得为了对所述图像之一的一部分的在图序中所包含的可能的运动进行描述而产生至少一个描述该运动的块结构，所述块结构被构造，使得所述块结构以块为出发点被划分成分块，其中部分分块具有对分块逐渐更细地进行划分的子块，具有以下步骤：

a)暂时地为至少一个第一分辨率级产生第一块结构和为第二分辨率级产生第二块结构，其中第一分辨率级与第二分辨率级相比具有较低的像点数，

b)比较第二块结构和第一块结构，使得确定在块结构中的区别，

c)基于结构区别的特性产生被修改的第二块结构，使得其结构是第二块结构的分量，

d)把被修改的第二块结构作为对图序编码的基础。

2.按照权利要求1的用于对图序进行视频编码的方法，其特征在于，检测被添加的子块，用于确定区别。

3.按照权利要求1的用于对图序进行视频编码的方法，其特征在于，检测子块特性，用于确定区别。

4.按照权利要求3的用于对图序进行视频编码的方法，其特征在于，子块的块尺寸作为子块特性被检测。

5.按照权利要求1的用于对图序进行视频编码的方法，其特征在于，只考虑第一块结构的与第二块结构的分块相对应的分块用于确定区别。

6.按照权利要求1的用于对图序进行视频编码的方法，其特征在于，基于阈值判定来产生被修改的第二块结构。

7.按照权利要求5的用于对图序进行视频编码的方法，其特征在于，只将第二块结构的、其块尺寸达到可定义的阈值的子块采用到被修改的第二块结构中。

8.按照权利要求7的用于对图序进行视频编码的方法，其特征在于，定义阈值，使得所述阈值说明第二块结构的子块的块尺寸与在第一块结构的为了比较而被考虑的区域内所包含的块尺寸之比，其中所述在第一块结构的为了比较而被考虑的区域内所包含的块尺寸被分配给该区域的最小子块。

9.按照权利要求1的用于对图序进行视频编码的方法，其特征在于，被采用的子块能够以非二元方式划分。

10.按照权利要求1的用于对图序进行视频编码的方法，其特征在于，第二分辨率级的被修改的第二块结构被用作第三分辨率级的第一块结构，其中第二分辨率级比第三分辨率级具有较低的像点数。

11.按照权利要求7的用于对图序进行视频编码的方法，其特征在于，进行编码，使得分别对不被采用到被修改的第二块结构中的子块进行标记。

12.按照权利要求9的用于对图序进行视频编码的方法，其特征在于，进行编码，使得分别对以非二元方式划分的子块进行标记。

13.按照权利要求12的用于对图序进行视频编码的方法，其特征在于，通过使用方向模式进行标记。

14.按照权利要求13的用于对图序进行视频编码的方法，其特征在于，所述方向模式被称作“未细化的”。

15.用于对被编码的图序解码的方法，其特征在于，在考虑按照根据权利要求1到14之一的用于对图序进行视频编码的方法所产生的、包含在图序中的被修改的第二块结构的情况下，产生对图序的缩放的表示。

16.用于对图序进行视频编码的装置，其中对图序的图像以缩放的方式进行编码，使得所得出的视频数据包含以下信息，所述信息以图像分辨率的多个不同的级来确保图像表示，所述图像分辨率通过每图像表示的像点数量来定义，其中以基于块的方式进行编码，使得为了对所述图像之一的一部分的在图序中所包含的可能的运动进行描述而产生至少一个描述该运动的块结构，所述块结构被构造，使得所述块结构以块为出发点被划分成分块，其中部分分块具有对分块逐渐更细地进行划分的子块，具有以下部分：

a)暂时地为至少一个第一分辨率级产生第一块结构和为第二分辨率级产生第二块结构的装置，其中第一分辨率级与第二分辨率级相比具有较低的像点数，

b)比较第二块结构和第一块结构使得确定在块结构中的区别的装置，

c)基于结构区别的特性产生被修改的第二块结构使得其结构是第二块结构的分量的装置，

d)把被修改的第二块结构作为对图序编码的基础的装置。