CN1703911A

CN1703911A - 降低已压缩多媒体的比特率

Info

Publication number: CN1703911A
Application number: CNA038024896A
Authority: CN
Inventors: G·C·兰格拉亚尔; J·A·皮南布格
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-01-22
Filing date: 2003-01-13
Publication date: 2005-11-30
Also published as: KR20040075951A; EP1472882A1; US20050041874A1; WO2003063498A1; JP2005516495A

Abstract

一种对已压缩多媒体数据的比特流进行后处理的方法，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，其中比特率通过随机丢弃一些变长码(VLC)得到降低。被丢弃的VLC与后续VLC合并以降低比特率。

Description

降低已压缩多媒体的比特率

发明领域

本发明涉及一种对媒体流形式的已压缩多媒体数据的信号进行后处理的方法。本发明还涉及相应的装置、计算机可读媒体、数字信息信号以及方法的使用。本文所用的术语“多媒体”可以是任意类型的媒体，诸如视频、声音等等，通常以数据分组流的形式分发。

背景

已有若干用于处理媒体比特流的独立块的压缩方法，诸如JPEG、MPEG、H.320等等。下文中将会简短地进一步描述MPEG、MPEG-2的变型以举例说明怎样实现压缩。关于MPEG-2标准的其它信息可以例如在MPEG-2规范ISO/IEC 13818-1，2，3中找到，此规范可从ISO/IEC Copyright Office Case postal 56，CH 1211，Geneva 20，Switzerland获得，但对于理解本发明并不是必需的。这里，“媒体比特流”通常是视频或声音媒体的比特流。

MPEG-2视频比特流具有分层结构。每一层包含一个或多个子层。例如，视频序列可分成多个图像组，即所谓的“GOP”，表示多组在显示顺序上连续的视频帧。在其子层中，帧可以分割为“条带”和“宏块”，还可以进一步分割成另一个块子层。

在MPEG处理中使用三种类型的帧：内部帧(I帧)，编码时不需要参考其它帧；预测帧(P帧)，编码时参考过去的I帧或P帧；以及双向内插帧(B帧)，编码时参考过去的帧和将来的帧。编码的GOP通常以I帧开始，提供用于视频流的随机访问的访问点。

MPEG-2规定I帧是“内部”编码的，因此整个图像被分成8×8的像素块，通常将这些块通过离散余弦变换(DCT)处理并量化成单独表示原始图像的压缩系数组。MPEG-2规范还考虑到P帧而不是通过DCT对所有块编码，采用所谓的“运动补偿”来利用在大多数视频数据中发现的时间冗余。运动补偿以如下方式工作：在GOP内部，通过应用预测以获得差异信号、即所谓的预测误差来降低各帧之间的时间冗余，然后使用DCT进一步压缩以消除空间相关性。此后，量化所得到的DCT系数。最后，运动矢量与DCT信息组合并使用变长编码(VLC)进行编码，借助于变长码(VLC)来表示视频数据。

通过使用运动补偿，MPEG-2显著地降低了所需的数据存储量以及相关的比特率，而并未明显降低图像质量。然而，经常需要额外地降低已压缩媒体流的比特率，例如用于数字记录和数字网络领域中的应用。

举例来说，有时数字记录器必须提供一些局部增加比特率的处理，例如，在视频编辑时创建两个视频片段之间的过渡。为了能够保持比特率恒定，这些记录器需要微调比特率控制机制，能够例如按照±10％调整已压缩媒体流的比特率。

EP-A2-0 599 257公开了视频信号记录装置以及用于记录或发送提供比特率降低的视频信号的方法。然而，这篇文件描述的视频信号记录装置和方法适用于复制差错频繁的装置，因而该文件描述了怎样降低这类缺陷的影响。

重要的是，所公开的装置和方法并未描述怎样通过适用于已压缩流的低复杂度的比特率控制方法来降低比特率。

发明概述

本发明的目的是提供一种为了获得降低的比特率而对已压缩多媒体流进行后处理的方法和装置，所述已压缩多媒体流已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩。这里，术语“像素”表示任意空间分辨率元素，包括但不限于图像中最小的可区分和可分辨的区域。

根据本发明的一个方面，所述目的是通过丢弃所选择的一组编码变换系数的方法来实现的。这里，“变换系数”是指在结构或构成上改变信息且未显著改变意义或值的系数。

根据本发明的优选实施方案，提供一种对已压缩多媒体数据的比特流进行后处理的方法，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述方法包括：

-提供表示比特流的信息信号，所述信号包含编码变换系数，

-通过丢弃所选择的一组编码变换系数来降低信号的比特率。

优点在于，该方法直接在已压缩媒体流上操作，并且不需要昂贵的漂移补偿技术来避免人为现象，通常是可视的人为现象。

最好是，丢弃所选择的一组编码变换系数包括以下步骤：

-提供表示具有随机符号(-1，+1)的变换系数的随机图案，

-分析并将比特流部分解码为游程对，

-选择程等于(-1，1)的候选游程对，其中游等于在某一系数之前的零的数目，程等于系数的值，

-确定对应的随机符号(-1，+1)，

-如果候选项的程与缓冲器的和等于零，则丢弃候选项，

-把来自所丢弃的候选项的额外的零合并到下一个游程对的游中，从而形成新的游程对，

-为新的游程对产生新的代码以获得新的信息信号。

在本发明的一些优选实施方案的第一方面，丢弃最低有效系数。

在本发明的一些优选实施方案的第二方面，丢弃达到3的组。

在本发明的一些实施方案的第三方面，所丢弃的组是由随目标质量而定的变换块中的索引来确定的。

在本发明的一些优选实施方案的第四方面，所丢弃的组是按照具有较低索引的方式来确定的。

根据本发明的优选实施方案，还提供一种计算机可读媒体，它配备了程序指令，用于使一个或多个处理器执行一种对已压缩多媒体数据的比特流进行后处理的方法，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述方法包括：

-提供表示比特流的信息信号，所述信号包含编码变换系数，

-通过丢弃所选择的一组编码变换系数来降低信号的比特率。

根据本发明的优选实施方案，还提供一种已压缩多媒体数据的数字信息信号，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述信号通过被提供简化的一组编码变换系数得到降低的比特率。这里，术语“信号”表示信息的传送者，通常是从一点到另一点传送信息的事件或者电量。

根据本发明的优选实施方案，还提供一种对已压缩多媒体数据的比特流进行后处理的装置，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述装置包括：

-缓冲器部件，包含表示具有随机符号(-1，+1)的变换系数的随机图案；

-解码/编码部件，用于对包含表示比特流的编码变换系数的输入/输出信息信号进行分析和解码/编码；

-至少一个视频块，包含变换系数；

-控制部件，用于控制视频块、缓冲器以及解码器/编码器，其中解码/编码部件分析并且将流部分解码为游程对，控制部件选择程等于(-1，1)的候选游程对，从缓冲器部件中确定对应的随机符号(-1，+1)，如果候选项的程与缓冲器部件的和等于零，则丢弃候选项，把来自所丢弃的候选项的额外的零合并到下一个游程对的游中，解码/编码部件为新的游程对产生新的代码，从而提供输出信息信号，它通过丢弃所选择的一组编码变换系数以获得降低的比特率。

这里，“缓冲器”可以是任何存储装置，用于补偿当从一个装置向另一个装置发送信息时信息流动或事件发生的速率的差异，它通常是存储器的高速存储区。

根据本发明的优选实施方案，还提供根据本发明的各种实施方案的方法在数字网络、如因特网中的使用。

本发明的一个主要方面是提供一种降低比特率多达10％而不会严重影响视觉质量的方法。本发明的这个以及其它方面是参照下文描述的实施方案来阐明的，从这些实施方案中显而易见。

附图简介

结合附图阅读下面对本发明的优选实施方案的描述，将会更清楚地理解本发明：

图1是示例先有技术的完全解码的8×8块的示意表示；

图2a是根据本发明的优选实施方案的装置的框图；

图2b是没有降低比特率的图2a中所示视频块的放大；

图2c是降低了比特率的图2a中所示视频块的放大。

优选实施方案的详细描述

在描述本发明的优选实施方案之前，为了更好地理解本发明，对MPEG-2基础进行简短的介绍。

与本发明有关的MPEG-2基础：

在MPEG-2中，预测帧和I帧中的预测误差中的空间冗余，通过亮度分量Y以及色度分量U和V表示，使用下面描述的操作来降低。

首先对色度分量U和V进行二次抽样。接着，在Y、U和V分量的8×8像素块上执行DCT处理，并且量化所得到的DCT系数。由于人眼对高频较不敏感，因此低频的能量可以被量化得更粗。

在MPEG最底层，即块层，空间8×8像素块由64个量化的DCT系数表示。在图1的说明中，表示出一个具有对应于量化的DCT系数的8×8个整数项的像素块10。通常许多项都是零，尤其是那些对应于如上所述量化得更粗的空间高频的项。图1中所示的8×8像素块仅仅是一个例子，说明先有技术块怎样能够配备DCT系数。

块10左上角的项包含一个索引为(0，0)的零频率系数，由于它表示8×8像素块10的平均值，所以称为“DC系数”。块中表示量化的DCT系数的其它项称为“AC系数”。

线条所表示的是所谓的“之字形扫描”。这种扫描从块10的左上角开始，沿着箭头所示的方向继续进行。为简单起见，没有表示出完整的扫描，仅仅表示了其中一部分以描述所谓的“游程”对的原理。

游程对

非零的AC系数可以被重新排序并且由游程对表示，其中“游”等于在某一系数之前的零的数目，“程”等于系数的值。第一步，这可以采用量化的AC-DCT系数的一维阵列的形式描述。例如，图1中，阵列可以表示为(DC，0，3，0，-1，2，0，1，0，0，0，0，0，...，0)。随后在第二步，系数以(游，程)的形式表示成游程对，并使用标记来标明块的结束(EOB)。使用图1中的系数，表示可以象这样：(DC)，(1，3)，(1，-1)，(0，2)，(1，1)，EOB。

最后，游程对经过熵编码并由VLC码字表示。用于单个DCT块的码字通过EOB标记标明终止。使用图1中的系数，表示将为：(DC)，(001001010)，(0111)，(01000)，(0110)，(10)。

本发明的优选实施方案：

现在详细描述本发明的优选实施方案。图2a表示根据本发明的优选实施方案对已压缩多媒体的比特流进行后处理的装置1。装置1包括随机缓冲器2，其中配备了表示DCT系数的随机图案。所示的随机缓冲器2的图案仅仅是一个例子，决不局限于这个特定图案。可以使用任何适当的图案，通常由随机发生器(未显示)产生。装置1还包括解码器/编码器3；在本例中，包括MPEG分析器，用于分析并解码在本例中是MPEG比特流的输入媒体流Q_in。图中还表示了从解码器/编码器3发出的输出比特流Q_out。还有包含8×8DCT系数的视频块4。块4可以进出解码器/编码器3。在图中通过视频块4和解码器/编码器3之间的双向箭头来说明。到达视频块4中DCT系数之前需要执行的所有方法步骤在此图中并未显示，但在下面将参照图2b详细描述。控制器8用来控制视频块4、缓冲器2和解码器/编码器3。

为了降低比特流，首先缓冲器2准备好DCT系数的随机图案。这个缓冲器2仅仅包含随机符号(-1，+1)。在图2a中，缓冲器2已有了准备好的图案。现在解码器/编码器3中的MPEG分析器分析并部分解码输入媒体流Q_in，通常是MPEG流。在图2a中，输入MPEG流的数据并未显示，但在图2b中显示了此流的已分析并解码的视频块4。从图2b中的视频块4显然可以看到，MPEG分析器将会找到表示以下游程对的VLC代码：(1，3)(1，-1)(0，2)(1，1)，...，(10)，其中游程对(10)是EOB。MPEG分析器选择所谓的“候选对”，即，在本例中以阴影表示的对(1，-1)和(1，1)。候选对是那些程等于-1或1的游程对。根据随机缓冲器2，其中所选的DCT系数以阴影表示，系数的程都应该增加以嵌入水印。游程对是：DC，(1，3)，(1，-1)，(0，2)，(1，1)，EOB。这样，第二个候选游程对(1，1)变为(1，2)。然而，第一个候选游程对(1，-1)变为(1，0)。由于VLC的程与随机缓冲器中符号的和等于零，因此这意味着这个游程对会消失。1个零的游以及变为零的系数通过后面描述的游合并方法被加到下一个游程对(0，2)中，后者则变为(2，2)。所得的序列(1，3)(2，2)(1，1)(EOB)的VLC通过解码器/编码器3重新产生并可作为输出流Q_out发送。

换句话说，合并可以被描述为：从丢弃的VLC得到的额外的零合并到下一个游程对的游中。最后，为这个新的游程对产生新的VLC代码。

在备选方法中，一组最低有效系数被丢弃，例如每8×8DCT块3个，其中比特率可以降低多达大约10％且不严重影响视频质量。

变换块中的索引也可以随目标质量而定，例如通过定义总的允许的改变和/或通过量化步长。丢弃的组也可以按照具有较低索引的方式来确定。

解码器/编码器和方法步骤最好部分或全部是纯软件解决方案。

下面一般描述本发明执行的处理操作。

根据本发明的优选实施方案提供的方法步骤如下：

-提供表示具有随机符号(-1，+1)的变换系数的随机图案，

-分析并将比特流部分解码为游程对，

-选择程等于(-1，1)的候选游程对，其中游等于在某一系数之前的零的数目，程等于该系数的值，

-确定对应的随机符号(-1，+1)，

-如果候选项的程与缓冲器的和等于零，则丢弃候选项，

-为新的游程对产生新的代码而得到新的信息信号。

除了上面参考图2a所描述的之外，这些步骤可以通过各种硬件配置实现。例如，步骤可以使用单独的专用组件实现，或者通过运行在通用硬件上的一个或多个特殊软件例程来实现，所述硬件可能针对图像解码/编码进行了优化。例如，一种实现可以是一个或多个处理器，用于解码图像并执行本发明的操作，例如实施为一个或多个用于存储图像数据和/或程序指令的RAM模块，或者一个或多个用于存储程序指令的ROM模块，一个或多个用于与其它系统通信的I/O接口装置，以及一条或多条用于连接这些单个组件的总线。有利的是，处理器包含一个或多个数字信号处理器，诸如TM-1000型DSP(飞利浦电子北美公司)或类似的器件。

在本发明的实施方案中，处理操作以软件实现，本发明还包括计算机可读媒质或媒体，其上提供了记录或者编码的程序指令，用于使一个或多个处理器执行处理操作。这类媒体可包括磁性媒体，诸如软盘、硬盘、磁带等，以及可在本领域中使用的其它媒体技术，诸如半导体存储器。

例如，可以提供纯软件解决方案来对例如DIVX影片进行后处理。例如，快速后处理方法能够精细调整DIVX文件的大小而使其能够装入一张CD，而不是再运行整个编码过程以调整它，因为它在后处理之前可能只超出几兆字节。

本发明的一个方面委托硬件完成消耗大量处理时间的任务而不显著增加硬件成本。这样，还可以采用极具成本竞争力的混合解决方案，该方案结合了硬件解决方案的性能以及软件解决方案的成本和简易性。

本发明在任何意义上都不局限于MPEG-2视频，而且可以以类似的方式覆盖其它MPEG版本，例如MPEG-4(例如DIVX影片)和音频标准。例如Do1by AC-3音频技术在此文档中并未作为例子进行描述，但却在本发明的范围之内。同样可以应用根据本发明的视频后处理和传统音频处理的组合，因此也在本发明的范围之内。由于用于MPEG-2视频信号的比特率通常是每秒5-9Mb，而压缩音频信号具有明显更低的比特率，例如每秒384Kb，这样的组合可以是优选的。

同样视频块的大小8×8也仅仅是涉及MPEG-2规范的一个例子，因此可以应用任何适当的大小，例如，如果使用其它压缩方法而不是MPEG-2。另一个块大小的例子可以是例如16×16。

多媒体流通常包含各种系统信息、视频信息和音频信息。在一个系统中，这通常要求：流分析级、视频处理级和音频处理级；然而，本文档中并未公开，因为这些级的功能是本领域技术人员非常了解的。组合和/或分割视频和音频流以及相应的定时信息处理存在的问题同样没有在本文中公开，因为它们是本领域技术人员非常了解的。例如ISO/IEC 13818标准描述了怎样能够实施解码器。

本文档未公开其它的后处理技术，诸如纠错、位欺骗，或者其它用于增加封装密度的方法，因为它们是本技术领域中众所周知的。然而，这不排除在不背离权利要求书定义的本发明范围的前提下这类技术和本发明一起实现。

因为丢弃了一些变换系数，游合并流的大小总是小于原始流的大小。比特率可能局部增加，但是通常比特率平均会降低8-10％。同样，为了保持开始-代码字节-对齐，填充比特可以在MPEG流中每个开始-代码之前添加。

本发明还可以在DVD技术、多媒体PC环境以及其它基于此种体系结构的家用娱乐产品中实现。在这类实现中，例如在PC中，本发明可以在处理器和/或其它硬件组件或者纯软件解决方案中实现。

根据本发明的方法还可以作为后处理方法用于调整数字网络中的数字媒体流、如MPEG-4媒体流，使其适应因特网所用的所谓实时协议(RTP)，其中还可包括同步层作为MPEG-4媒体层和RTP栈之间的接口。

应该指出，上面提到的实施方案说明而非限定本发明，本领域的技术人员能够在不背离所附权利要求书的范围的前提下设计许多替代实施方案。在权利要求书中，任何放置在括号内的参考符号都不应视为限制权利要求。术语“包括”并不排除权利要求书中列出的以外的其它元件或步骤的出现。本发明可以通过包含若干不同元件的硬件实现，也可以通过适当编程的计算机实现。在装置权利要求中列举了若干部件，这些部件中的若干可以通过同一项硬件来实施。在互不相同的独立权利要求中列举某些措施的事实并不表明不能有利地使用这些措施的组合。

Claims

1.一种对已压缩多媒体数据的比特流进行后处理的方法，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述方法包括：

-提供表示所述比特流的信息信号(Q)，所述信号(Q)包含编码变换系数，

-通过丢弃所选择的一组所述编码变换系数来降低所述信号(Q)的比特率。

2.如权利要求1所述的方法，其特征在于，丢弃所选择的一组所述编码变换系数包括以下步骤：

-提供表示具有随机符号(-1，+1)的变换系数的随机图案，

-分析并将所述比特流部分解码为游程对，

-选择程等于(-1，1)的候选游程对(候选项)，其中所述游等于在某一系数之前的零的数目，所述程等于所述系数的值。

-确定对应的随机符号(-1，+1)，

-如果候选项的程与缓冲器的和等于零，则丢弃所述候选项，

-为所述新的游程对产生新的代码而得到新的信息信号(Q)。

3.如权利要求2所述的方法，其特征在于，丢弃一组最低有效系数。

4.如权利要求3所述的方法，其特征在于，丢弃达到3的一组。

5.如权利要求2所述的方法，其特征在于，所述丢弃的组由随目标质量而定的变换块中的索引来确定。

6.如权利要求2所述的方法，其特征在于，所述丢弃的组按照具有较低索引的方式来确定。

7.如权利要求2所述的方法，其特征在于，所述丢弃的组由总的允许的改变来确定。

8.如权利要求2所述的方法，其特征在于，所述丢弃的组由量化步长来确定。

9.一种计算机可读媒体，配备了程序指令，用于使一个或多个处理器执行如权利要求1或2所述的方法。

10.一种已压缩多媒体数据的数字信息信号(Q)，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述信号(Q)通过被提供简化的一组所述编码变换系数得到降低的比特率。

11.一种对已压缩多媒体数据的比特流进行后处理的装置(1)，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述装置(1)包括：

-缓冲器部件(2)，包含表示具有随机符号(-1，+1)的变换系数的随机图案；

-解码/编码部件(3)，用于对包含表示所述比特流的编码变换系数的输入/输出信息信号(Q)进行分析和解码/编码；

-至少一个视频块(4)，包含变换系数；

-控制部件(8)，用于控制所述视频块(4)、所述缓冲器部件(2)以及所述解码/编码部件(3)，其中所述解码/编码部件(3)分析并将所述流部分解码为游程对，所述控制部件(8)选择程等于(-1，1)的候选游程对，从所述缓冲器部件(2)确定相应的随机符号(-1，+1)，如果候选项的程与所述缓冲器部件(2)的和等于零，则丢弃所述候选项，把来自所丢弃的候选项的额外的零合并到下一个游程对的游中，所述解码/编码部件(3)为所述新的游程对产生新的代码，从而提供输出信息信号(Q)，其中丢弃了所选择的一组所述编码变换系数以获得降低的比特率。

12.一种用于记录已压缩多媒体数据的数字图像信息信号(Q)的装置，所述已压缩多媒体数据已经通过包括对覆盖原始多媒体数据的非重叠像素块进行独立压缩的过程进行了压缩，所述装置包括根据权利要求11、用于对已压缩多媒体比特流进行后处理的装置(1)。

13.根据权利要求1的方法在诸如因特网的数字网络中的使用。