CN1706199A

CN1706199A - 视频编码方法

Info

Publication number: CN1706199A
Application number: CNA2003801015555A
Authority: CN
Inventors: M·德里尤西; F·戈罗里雷; D·斯努克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-10-16
Filing date: 2003-10-13
Publication date: 2005-12-07
Also published as: US20050259732A1; US7149250B2; EP1554888A1; JP2006503478A; WO2004036920A1; KR20050050673A; AU2003267755A1

Abstract

本发明涉及一种编码方法，该方法对I、P或者B类型的视频对象平面(VOP)进行处理且包括对所述VOP的动态分配。根据所述方法，对于每一个输入帧，在当前帧和先前帧之间执行一个初步的前向运动估计。然后使用当前和先前运动场来求取相干系数的值，其表示为与当前和先前运动场中的局部差的总和相关联。根据所述相干系数相对于实验确定的阈值的值，最后判定要被编码的帧的类型。

Description

视频编码方法

技术领域

本发明通常涉及基于对象的视频编码领域，且更具体地涉及根据一种处理来编码视频数据序列的方法，在所述处理中几类数据被识别，所述数据由所谓的多个视频对象平面(VOP)所组成，该VOP或者是内部编码的VOP(I-VOP)，其仅仅利用从它们自身得到的信息进行编码，或者是预测编码VOP(P-VOP)，其利用一个从过去的参考VOP得到的运动补偿预测进行编码，或者是双向预测的VOP(B-VOP)，其利用一个从过去和将来的参考VOP得到的运动补偿预测进行编码。

背景技术

MPEG-4视频标准提供了多种技术，其以较大范围的比特率在许多应用领域，例如数字电视、流动视频、移动多媒体、游戏等等之内观看、访问和操作对象(而不是如以前的MPEG标准去操作像素)。所述标准对视频对象(VO)进行操作，所述视频对象由时间和空间信息所限定，所述时间和空间信息以形状、运动和结构信息的形式表现，并分别在位流中被编码(这些VO是用户能够访问和操作的实体)。

MPEG-4方法依赖于一序列连续场景的基于内容的视觉数据显示，每一个场景是VO的复合体，VO带有它自身固有的特性：形状、运动和结构。除了VO的概念之外，MPEG-4标准介绍了其它的一些东西，如视频对象层(依赖于应用，每一个VO或者以一个可缩放，或者以不能缩放的形式被编码，其由视频对象层或者VOL表现)和视频对象平面(VOP)(＝在时间上的VO实例)。可以假定：一个输入视频序列的每一帧被分割成许多任意形状的图像区域(VO)，且属于同一个VO的VOP的形状、运动和结构信息被编码并且被传送到相应于特定的时间或空间分辨率的分离的VOL中(其允许随后去单独地解码每一个VOP且促成了所需要的对视频序列的灵活操作)。

下面是由这样一个编码结构处理过的帧的三种类型：I-VOP、P-VOP、和B-VOP。I-VOP是一个内部编码的VOP：该编码操作仅仅使用从其自身得到的信息(其是使用了最大数量的位的VOP)。P-VOP是预测编码的VOP，且该编码操作则是使用一个从过去的参考VOP中得到的运动补偿预测，该过去的参考VOP或者可以是一个I-VOP或者可以是另一个P-VOP(与一个I-VOP相反，仅编码当前运动补偿P-VOP与它的参考VOP之间的差：因此，一个P-VOP通常比一个I-VOP使用更少的位)。B-VOP是使用从过去和将来的参考VOP(I-VOP或者P-VOP)的运动补偿预测进行编码得到的VOP，分别基于所谓的向前的和向后的运动估计而被编码的VOP。一个B-VOP不能作参考VOP，且象P-VOP，仅有当前运动补偿B-VOP与它的参考VOP之间的差被编码。

不幸地，这时，使用所述B-VOP预测(也叫做内插或者双向模式)经常得不到压缩方面的效果。如果压缩有时能被改善大约20％，在一些情形下也会急剧地降低。

发明内容

于是本发明的一个目的是提出一种编码方法，其仅仅在B-VOP预测有效时才使用这样的B-VOP预测。

为此，本发明涉及一种在说明书的前序部分中限定的编码方法，所述编码方法包括对每一个VOP的编码步骤和一个在所述编码步骤之前在当前的VOP和先前的一个VOP之间执行的运动估计步骤，所述运动估计步骤本身包括一个关于要被编码的VOP的类型的判定处理且基于下面的子步骤：

-在一个序号为N的VOP(VOP N)和先前的一个VOP(VOP N-1)之间执行一个运动估计；

-以所述运动估计为基础，计算一个所谓的相干系数，提供对序列运动的量化；

-基于所述相干系数与一个预定阈值的比较结果，对当前的VOP的类型作出最终的判定，根据所述相干系数相对于所述阈值的值判定所述当前VOP是一个B-VOP或者不是一个B-VOP。

附图说明

本发明现在参照附图，以示例的方式进行描述，其中图1图示了根据本发明的编码方法的主要步骤。

具体实施方式

一个MPEG-4编码器包括几个功能块，在所述功能块中一个或者几个存储器用于以标准所需要的传输顺序输出VOP。例如，如果输入顺序是IBBPBBP...，那么输出或者传输顺序将会是IPBBPBB...(为了能够向后预测，编码器必须将自然顺序的图像重新排序为所述的传输顺序，以使B-VOP在它们所参考过去和将来的VOP之后被传输)。所述编码器还包括一个运动估计器，用于接收当前的VOP和先前的一个VOP(或者参考VOP)，并且判定对于当前VOP将执行哪种预测：对于I-VOP为没有预测，对于P-VOP为向前预测，对于B-VOP为双向预测。

如图1显示了在运动估计器中关于预测的判定过程的步骤，根据本发明，所述判定基于以下步骤的执行过程。首先，捕捉当前的VOP(序号：N)(步骤CAP-VN)。然后在VOP N和先前的VOP(序号：N-1)之间执行运动估计(M-EST)，且为了量化序列运动，计算一个命名为“相干系数”的系数(步骤CF-CPT)，且将所述相干系数与一个预定的阈值进行比较(步骤CF-TEST)。根据比较结果(Y＝低于，或者N＝不低于)，VOP N被允许(N-AL)或者不被允许(N-NAL)作为一个B-VOP。然后执行关于预测模式的最终判定(步骤V-DEC)，并且能够执行对当前VOP(＝I-VOP、或者P-VOP、或者B-VOP)的编码步骤(步骤COD)。

对于在比较测试中使用的相干系数可以提出几种表示法，而这并不限制本发明的范围。不过，一个优选的相干系数可以是例如下面所表述的：在同一个VOP中的宏块(以16×16像素模式或者8×8像素模式估计)的运动矢量与它的先前宏块的运动矢量之间的绝对差的总和与前一个VOP的类似总和的比率(在此被重新调用，即对于大小为k×k的宏块，SAD的表示式是：

SAD = Σ_{i = 0}^{K \times K} | A (i) - B (i) |

其中B(i)和A(i)分别表示所考虑的当前宏块和参考VOP中与在所述参考VOP中定义的搜索范围内的最大宏块相匹配的宏块)。

Claims

1.一个根据一种处理来编码一序列视频数据的方法，在所述处理中数据的几种类型被识别，所述数据由所谓的视频对象平面(VOP)组成，VOP或者是内部编码的VOP(I-VOP)，其仅仅利用从它们自身得到的信息进行编码，或者是预测编码VOP(P-VOP)，其利用一个从过去的参考VOP得到的运动补偿预测进行编码，或者是双向预测的VOP(B-VOP)，其利用一个从过去和将来的参考VOP得到的运动补偿预测进行编码，所述编码方法包括对每一个VOP进行编码的步骤，在所述编码步骤之前在当前VOP和先前的一个VOP之间执行一个运动估计步骤，所述运动估计步骤本身包括一个关于要被编码的VOP的类型的判定处理，并且基于以下子步骤：

-在一个序号为N的VOP(VOP N)和先前的一个VOP(VOP N-1)之间执行运动估计；

2.根据权利要求1所述的编码方法，其中所述相干系数被表述为由所述运动估计产生的同一个VOP中的宏块和它先前宏块的运动矢量之间的绝对差的总和(SAD)同先前的VOP的类似总和的比率。