CN1272288A

CN1272288A - 编码作为图象序列组织的信息流

Info

Publication number: CN1272288A
Application number: CN99800762A
Authority: CN
Inventors: R·B·M·克莱恩贡尼维克; W·H·A·布鲁尔斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1998-05-20
Filing date: 1999-05-10
Publication date: 2000-11-01
Also published as: KR100682288B1; KR20010022023A; JP2002516529A; EP0998811A2; WO1999060773A2; WO1999060773A3; US6385243B1

Abstract

组织为图象序列的音频和/或视频信息流通过一个至少部分基于软件的过程编码。该图象序列包括内图象、预测图象和双向预测图象。特别是,对于在所述双向预测图象中一个基本和预测定位的选择(77),只使用一个预测方向(76)。对于其余任何双向预测图象维持两个预测方向。

Description

编码作为图象序列组织的信息流

本发明涉及编码作为图象序列组织的信息流的方法和设备。

数字音频和视频的处理，例如为传输和存储，需要使用各种数据压缩技术。一个非限制例子是MPEG标准，它有用于音频以及视频的多种版本。另一标准是H.261。Ho-CHao Huang等人公开了用软件实现这种压缩：“实时的基于软件的新一代视频编码译码器：流行视频编码器II”，IEEE TR.Cons.EI.第42卷，第4期，963-973页。以混合的软件和硬件环境执行压缩和类似操作是适宜的。通过软件编码需要的操作数目很难预测。下面主要参考视频说明一个实施例。现在一般来说，压缩基于图象组(GOP)执行。下面始终使用术语“图象”。根据实际视频标准，术语“图象”可以指“帧(frame)”，也可以指“场(field)”。现在，可以以类似方式实现帧方式组织的音频或音频/视频混合信息流的压缩。这种处理必须以实时方式进行，这意味着如果处理器过载，则必须付出高的代价，损失全部或部分图象。

这种压缩曾根据所谓的内图象(Intra-pictures)，预测图象(Predictive-pictures)和双向预测图象提出。

本发明人认识到对这3类图象必需进行的不一致的处理努力。他们也看到可以在这些图象类别中使用的各种折衷措施改善处理能力，同时保持编码质量。

因此，除别的目的外，本发明的一个目的是系统地抑制常规处理的某些单元以减轻处理负载。因此，根据本发明的一个方面，其特征在于权利要求1的特征部分叙述的特征。本发明还涉及为实现本发明方法而设计的编码器。另外的有利方面在从属权利要求中叙述。

下面参考优选实施例的公开详细讨论本发明的这些和其它方面及优点。

图1表示一个发明装置的方框图；

图2A-C表示各种示例MPEG组织。

图1是按照本发明的一个装置的方框图，该装置特别用于视频。首先讨论一个简化版，其中忽略单元62、64、66、68、70、72、74、76、77、78、80。在输入20接收的视频以具有一定像素数目的图象组织。在DCT单元22中，每一图象被分成一系列视频块，每一块由8×8的像素矩阵组成。图象的中级划分为片段(slice)，它们由相邻两横行的块组成。每一块经过离散余弦变换，产生一个8×8的数字频率系数的矩阵。

在一个两维的DCT结果块中，每一系数相关于一个波频。左上部系数“0 0”与在两坐标方向中的零空间频率有关的平均值相关。其右，波形(waviness)是水平的。在第一位置以下，波形是垂直的。在斜方向上，波形面向关于坐标方向的相应方式。由逆离散余弦变换实现的后继的解码将无损失重新构造原来图象。

在图1中，加权单元24引入各系数的加权因子，考虑人感知较小细节或较高的空间频率较低的灵敏度。加权的目的是减少数据。系数“0 0”的加权因子是1，而其它系数从离开该系数的所有方向减小。这样产生的信息损失即使在合适的条件下，一般对用户来说也不可见。

为进一步减少数据，在量化器26中除系数“0 0”外用一个对所涉及的视频块一致的冗余因子Q除各系数。该因子对一系列视频块例如片段或对整个视频图象可以一致。随后相对于一个一致的阈值截取各个商：丢弃低于该阈值的系数。使用这种软件来编码的处理器负载加在图1中的单元26、28，而且可以映射到单一高性能微处理器，诸如INTEL Pentium。Q值和处理器负载彼此大约成反比。

最后，在编码器28中把结果系数串行化，并使之经受按照Huffmann或类似类型代码的可变长编码。结果位流在输出端32上输出。在计算单元34中，计算实际处理负载，并沿线30后连接到量化器26。后者可以调整Q值以保持每块或每幅图象的处理负载在一个允许的范围。

在上面，时钟周期数目依赖于图象内容。在各种图象之间以及在单一图象的片段或块之间可能发生差别。因此，应付最差情况条件的需要将使硬件设施过大。

本发明例如可应用于MPEG环境。现在，图2A-2C表示各种例示MPEG组织，其作为图象序列表示。MPEG有3类：I-、B-和P-图象。内图象包含重现所述图象的全部信息。预测图象包含的信息少于全部必需的信息，还需要另一已经处理的以下述方式重现的图象，即该已经处理的图象自身可以作为还要在后面处理的图象的前一图象。最后，双向预测图象包含的信息少于全部必需的信息，还需要一个或者多个已经处理的图象，以重现所述图象；然而这将不产生其自身可再次作为将要被处理的一个图象的前一图象。就其自身而言，这一过程的使用及其所需的数学认为是视频编码技术中普通公知的知识。因此，P-图象可以链接，但B-图象总是结束图象。其相关性由箭头指示。在压缩前进行预测。

现在，本发明人认识到B-图象是减少处理负载的一个适合的目标，其理由如下。首先，双向预测需要“前向”以及“后向”矢量，其使获取这些矢量需要的努力加倍。此外，必须处理这两组矢量以产生单一相关的图象供压缩，这更进一步增加需要的努力。其次，后向预测通常需要至少两个图象存储器，因为后继要被压缩的图象的参考图象必需在要被预测的图象的参考矢量可以被计算前可用、被编码和再次解码。

这些缺点对于只从一个前面的图象预测的B-图象不存在。这些“单边”(single-side)B-图象可以组成所有B-图象的一个可观的部分，诸如每两个中的一个，三分之二，或甚至所有B-图象。在后一情况，最能节省存储器。最好是，它们为每组图象有均匀分配，使得系统知道应该采取什么措施。然而，非均匀模式在本质上是适宜的。最晚在以一特定图象组开始时系统应该知道做什么，例如通过在引导的I-图象的头标中的一个代码。现在，这种B-图象的某些方面类似一个P-图象。然而，“简化”的B-图象的下述方面将其与P-图象区别开来：

-以较高(例如40％)Q因子值，编码B-图象可以改善编码效率。附加编码噪声几乎永远看不见，因为这样的编码噪声不加在后继的图象上，就像真得作为参照的I-和P-图象。这种编码噪声实际上需要以较高位长度表示后继图象，因为在参考图象中的质量较低。

-通过提高Q值确实可以降低处理负载。该负载依赖于图象的复杂性，还依赖于冗余因子Q：较高的冗余因子将减小处理器负载。

-在编码后，“单边”B-图象不需再次解码，因为它们不为任何前面或后面的图象用作参考图象。就其自身说，和P-图象相比，给出可观的负载减少量。“实时”硬件编码器允许极少的资源共享或干脆不允许资源共享：不管怎样编码侧的本地解码器已在芯片上提供，而通过共享也节省不下什么。然而，使用全部或者部分软件编码允许为各种不同目的使用资源。代替本地解码，该设施可用于其它目的。

-可以在任何后面的参考图象被接收到以前编码B-图象，允许使用较少图象缓冲器。此外，单一B-图象的编码只需存储单一解码的图象。

-以递归运动估计，为P-图象获得的矢量通过按比例缩放可以形成良好的备选矢量。另一种可能性是使用为一个特定B-图象获得的矢量作为为下一后继P-图象的备选矢量。

现在，通过后连接回路(retrocoupling 1oop)为一种MPEG方案扩展图1。首先，开关66为I-和P-图象闭合。它为B-图象打开。该回路包括一个逆量化器68，其为量化器26的逆。单元70作为DCT单元22的逆执行逆离散余弦变换。其结果供给加法器72并随之存储在存储器74中。运动估算器76执行运动估算以及运动补偿。运动估算器76连接到输入20和控制单元77。对于P-图象，相对于一个先行图象估算运动。对于B-图象，相对于先行以及后继图象估算运动。在“单边”B-图象的场合，只使用一个预测方向。在该情况下，控制单元77执行B-图象的一个基本的和预测定位的选择。根据从控制单元77到运动估算器76的控制信号，只使用一个预测方向为所述选择估算运动。在一个优选实施例中，预测方向应该和时序前进方向相同。在使用一个预测方向的场合，不需为其它预测方向进行运动估算，它导致已经提到的优点。在另一实施例中，所述B-图象的选择依赖于处理负载。在该种情况下，计算单元34应该连接到控制单元77。为任何剩余的B-图象，维持两个预测方向。在一个实际的实施例中，所有B-图象具有单边预测。在该情况下，可以获得最简单和成本高效的装置。来自运动估算器76的结果图象内容被送往减法器60，该减法器只用于操作B-和P-图象。开关62为I-图象闭合，有效短路减法器60。对于B-和P-图象，运动补偿的图象也通过开关64送往加法器72，以便加在从IDCT70接收到的图象上。

可变长编码器28在输出32输出编码的信息流供存储或传输。它另外输出进展信息给计算单元34并可以发送有关输出位速率32的信息给位速率控制块80。后者检查作为在一个可用时间段上平均的位速率是否不超过位于输出32下游的单元的处理和/或缓冲能力。其结果是一个控制信号，它可以随输出32向下游方向输出，也可以与来自计算单元34的控制信号一起后连接到逻辑组合单元78。如果位速率负载不超过，则计算单元34做决定。如果位速率过高，则单元78拒绝通过计算单元34的控制。

图2A表示一个示例图象组，它有1个I-图象，两个P-图象，和4个B-图象，所有B-图象具有双向预测。在一个GOP中的图象数目原则上任意。在图2B中，相当多部分的B-图象只有单边预测，使得选择打开图1中开关66。其它相当多部分可为1/3或2/3。小部分只产生小改善。较大的部分有P-图象彼此不可能相离太远的缺点，因为预测将更为困难。在图2C中，所有B-图象只有单边预测。

应该注意，上述实施例是说明而并非限制本发明，熟悉本技术领域的人能够设计多种另外的实施例而不离开所附权利要求的范围。在权利要求中，括号中的任何参考标号不解释为限制该权利要求。词“包括”不排除没有列在权利要求书的其它单元或步骤的存在。本发明可以以包括若干不同单元的硬件实现，也可以以合适的编程计算机实现。在列举几种设备的设备权利要求中，可以通过一个和同样的硬件实现几种这样的设备。

Claims

1.编码作为图象序列组织的信息流的方法，其特征在于，所述方法包括步骤：

压缩所述信息流以获得包括内图象、预测图象和双向预测图象的输出流；

对于双向预测图象的一个可观部分只使用一个预测方向(76)，而对其余的双向预测图象维持两个预测方向。

2.如权利要求1所述方法，另外包括一致地维持两预测方向(76，77)之一的步骤，其与时序前进方向相同。

3.如权利要求1所述方法，其中，所述可观部分的数量近似为所述信息流的所有双向预测图象的一半。

4.如权利要求1所述方法，其中，所述可观部分的数量为所有双向预测图象。

5.如权利要求1所述方法，其中，所述可观部分依赖于编码的处理负载(34)。

6.如权利要求1所述方法，另外包括对于所有双向预测图象相对于其它图象类型提高冗余因子Q(26)的步骤。

7.编码作为图象序列组织的信息流的设备，其特征在于，所述设备包括：

处理所述信息流以获得包括内图象、预测图象和双向预测图象的输出流的设备；

运动估算机构(76)，用于为所述选择的双向预测图象的一个可观部分只使用一个预测方向(76)，而对其余双向预测图象维持两个预测方向。

8.如权利要求7所述设备，其中一致地维持与时序前进方向相同的预测方向(76，77)。

9.如权利要求7所述设备，其中，所述可观部分的数量近似为所述信息流的所有双向预测图象的一半。

10.如权利要求7所述设备，其中，所述可观部分的数量为所有双向预测图象。