CN1164728A

CN1164728A - 压缩声频信号的处理

Info

Publication number: CN1164728A
Application number: CN97103396A
Authority: CN
Inventors: T·J·埃弗里特
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1996-03-29
Filing date: 1997-03-27
Publication date: 1997-11-12
Also published as: SG55293A1; JPH1084285A; GB9606680D0; US5864816A; EP0798869A3; TW361052B; KR970068670A; EP0798869A2

Abstract

描述了衰减MPEG或类似压缩系统中声频数据帧的技术，及不解压即将信号混合的方法。数据帧中每一项具有相关的标度系数索引，用来识别顺序安排并有间隔的标度系数数值表的各项。衰减技术涉及简单地对标度系数索引值进行加法运算，以检索不同的标度系数值。每一通道的各个子带数据组就其各自的标度系数进行比较，并在按比例缩放后将两个组的数据加在一起。最好相当于1dB衰减的标度系数表间距用来在测定出溢出时对相加结果进行快速的按比例缩放。

Description

压缩声频信号的处理

本发明涉及声频信号衰减和混合的方法，以及实现这样的方法的设备，尤其涉及，但又不仅仅涉及按MPEG(活动图象专家组)标准压缩和/或编码的声频数据流的混合。

正如ISO 11172-3(MPEG1)和ISO 13818-3(MPEG2)定义的，MPEG声频信号的压缩依赖于这样的一个事实，即对于人类某些频率比其他频率听得清楚。声频数据首先从时间域置换成频率域，并分成几个覆盖可闻频率范围的子带。对于每个子带的采样数据依据它被听得清楚的程度，根据MPEG标准中定义的音质模型而被赋予一定量的带宽，它不仅涉及给定瞬间存在的频率，而且涉及到目前为止一直存在的频率。然后，听不太清楚的频率以较低的比特率发送，从而得到压缩的效果。

在诸如MPEG，JPEG(联合照相专家组)和视频电话用的H.261标准等压缩技术上，公认的问题是，不首先经过费时的解码步骤，编码的数据就难以处理。在这方面现有的许多工作都集中在压缩视频数据的处理上，正如例如下列文献所描述的：”压缩影象处理算法”，作者：Brian C.Smith及Lawrence A.Rowe，IEEE Computer Graphics andApplications，Sept.1993，Vol.13(No.5)pp.34-42；“MC-DTC压缩视频的处理和合成”，作者：Shih-Fu Chang及David G.Messerschmitt，IEEEJoumel on Selected Area in Communications，Vol.13(No.1)Jan.1995，PP.1-11；以及加里福尼亚大学的Chang等人的国际专利申请WO94/21079。所描述的技术都围绕一些为特定的影象处理类型而研究出的比较复杂的算法，而且在其使用之前至少还需要部分地进行信号解码，例如，以便去除动画补偿。

有人提出，在这些算法中对其中的一些或许可以研究用于声频数据。但是，由于压缩视频和声频流(例如带声道的影片)的视频成分总的来说比较复杂，把这些算法应用于已部分解码但仍压缩的视频所需要的时间，足以允许将传统的”强力(brute force)”(亦即，完全解码再编码)技术用于伴音。

鉴于在纯声频应用的速度方面和多重声频信号应用(不是与视频分开，就是与视频结合)方面的潜在好处，本发明的一个目的是提供一种将信号处理技术应用于压缩数据流的方法和设备。

本发明的另一个目的是使压缩形式的声频数据流的混合变得容易。

按照本发明，提供了一种对压缩数字化声频信号施行衰减的方法，其中定义了L个标度系数的第一表，它包括一个具有L个数值的逐级变化的级数，其第二个和其后的每一个值都由前面的值用共同的函数推算出来，每一个标度系数都唯一地由各个标度系数索引值识别，而所述的信号采取顺序的数字数据帧的形式，而每一帧按共同的安排至少包括以下各段：

-子带数据值，代表该子带或一个或多个子带中的每一个的多个采样点的值，其中该子带或每一个子带代表各自的频率带宽；以及

-标度系数索引值，至少一个被赋值给该子带或所述一个或多个子带之中的每一个，并识别准备在信号解压中用于其上的各个数值标度系数；

其特征在于，所述标度系数索引值包括L个顺序整数值，而对于该子带或每一个子带，所述方法还包括下列步骤：在所述L个数值的序列的M级的情况下，识别出所要求的衰减；并把M加在赋给所述子带的该标度系数索引或每一个标度系数索引上，其中1≤M＜L，而L和M都是整数。

利用MPEG和类似的编码信号用的标度系数表中的项目规则地逐级变化(stepping)，衰减变成了简单的加法。在MPEG的情况下，标度系数表中各项的间距相当于1dB(分贝)，因而要衰减0.5(相当于3dB)只需把整数值3加在标度系数索引值上。

本发明还提供对上述类型的一个或多个压缩数字化声频信号进行混合的方法，该方法还包括对每个信号的各个子带进行的混合，而对于准备混合的该组或每一组子带，它包括下列步骤：识别出相关标度系数最大的子带；将相关标度系数较小的该子带或那些子带按比例缩放成与第一个子带处于同一标度范围；并将各组数据值加在一起。在该混合方法之前可以如前所述那样进行衰减，就是说，对至少一对所述的子带，在所述L个数值序列的M级的情况下，识别出所要求的衰减；以及把M加在赋给所述子带的该标度系数索引或每一个标度系数索引上，其中1≤M＜L，而L和M都是整数。

子带数据值的按比例缩放可以适当地利用由两个子带的标度系数索引值之差以及所考虑的数据值进行检索的二维检索表。在一帧内最好采用适当地包括个别地决定和应用每个子带用的M(标度系数表索引)的各个值的方法，定义多个代表各频率带宽的子带。

作为预防性的特征，若识别相关标度系数较大的子带的步骤表明该标度系数之间的差超过预定的阈值，则最好是对标度系数较小的子带不是进行按比例缩放，而是弃置，而将标度系数较大的子带输出；这等效于一个信号声音大得盖过其他信号。另外，将各组子带数据值相加之后，最好查查看结果是否超过预定个位的长度(溢出状态)，若是如此，则对于该结果的标度系数索引可以增大一个整数值，以便对结果进行按比例缩放。

参照附图阅读对本发明在按MPEG标准压缩的声频信号的方面仅作实例举出的最佳实施例的下列描述之后，本发明的其他特征和优点将会变得更加清楚。附图中：

图1示意地表示MPEG1标准的声频数据的一帧；

图2是示意的方框图，表示体现本发明的将两个声频数据流混合的过程；

图3和4表示结合图2过程使用的屏幕上的控制面板显示的方案；

图5举例说明可以结合本发明控制功能使用的屏幕显示形式。

如前所述，MPEG声频压缩依赖于这样的一个事实，即对于人类来说，某些频率听得比其他频率清楚，对于听得不那么清楚的频率以比较低比特率发送，以达到压缩的目的。MPEG允许使用多达32个子带来覆盖声频频率范围，每一个MPEG包含有关于每个子带的36个样值，每个子带的数据被赋予各自的带宽。

一个MPEG帧包括如图1所安排的数据，帧的每一段含有不同的整数个位。帧头H包括32位，按特定的安排来描述帧的比特率、采样频率、携带单声道还是立体声信息等等。帧头H还包括一位，用来标志是否加有循环冗余检查(CRC)；若是加有CRC，则紧跟在帧头段的后面是一个16位的CRC值(未示出)。

在帧头H(若有CRC，则在CRC)后面，是子带分配段SBA的数据，识别帧中存在那些子带，同时还指示每个子带样值分配几个位。SBA段是一个整数阵列(每个子带一个)，其中的每个整数都是对表示该子带的对数据值的表的索引。在MPEG标准中规定了几个这样的表，关于SBA段的长度和格式的选择取决于比特率和采样频率，例如，64k位流以44.1KHz(千赫)的频率采样。MPEG规定最多27个阵列项(亦即，在可能的32个子带中只有27个)，给各阵列项规定了不同的位数；例如，0-10项，4位；11-22项，3位；23-26项，2位。

请注意，若在SBA段是0项，这就是说，该子带在帧中不存在，在所有其他段中跳过这一帧的数据。

如前所述，子带数据包括每个子带36个样值。压缩过程依次将这些值组成3组，每组12个。对每个组进行分析，以求出其最大(绝对)值，采用6位整数的形式，然后用来从MPEG规定的标度系数表中为该组选择一个标度系数。然后在下一步处理之前将该值除以标度系数。

然后，检查为每个子带选出的3个标度系数，看看是否还能进一步压缩-例如用一对彼此在1或2dB之内的标度系数，两者都用较大的值。帧的帧段SFGD(标度系数分组数据)载有这后一种压缩的数据，采用2位值的阵列形式，用来识别是为一个特定的子带发送3个单独的标度系数，还是发送2个(第一或第二个用两次)，还是单一个标度系数用于所有的3个值。

帧的下一个段SF载有作为从前一段推导出来的标度系数索引数据，就是说6位整数，用来索引标度系数表。标度系数表包括一个63项的阵列，其中第一项是2.0000，以后每一项都是前一项的约0.7937-相当于每级1dB。最后一段SBD载有子带数据，是变长定点值，从SBA段数据得到特定的编码。

本发明的技术是以诸如MPEG流等流的标度系数编码为依据的，流的衰减和混合利用标度系数表的特征，也就是说，表项对前一项都是相当于1dB增幅固定比率的关系。

我们认识到，我们只要限于1dB粒度的衰减，我们通过对流中标度系数索引的简单加法，就能实现对MPEG流的衰减。例如，要将一帧衰减0.5(相当于3dB)，办法是把3加到帧中所有的标度系数索引上。最好包括一种检查，以确定是否溢出(超过标度系数表的索引值62)，并以该值进行求交运算(Capping)。如果下溢(试图用负值)，则该子带的分配值保持0，可以忽略。

现参照图2描述这种技术用于两个或多个流的混合的扩展，如上所述，每个流都采用各自的MPEG帧序列的形式。图2表示来自各自的源A和B的两个声频流的每一个的数据帧F。每一帧采取n个子带行的形式(正如上面解释的，一般n为27)，每行含有3组p，q，r，每组12个样值，每个子带的每一组用各自的一个标度系数索引值SF。

两个流从各自的源起，先以前述方式衰减(20处)一个由各自的控制信号LEVEL确定的量。衰减之后，准备混合的帧分别进行缓存(在22处)，在处理器30的控制下，数据再从缓冲区一组一组地，一个子带一个子带地提取出来，处理器30起使准备混合的两帧或多帧的对应组进行混合(一对准备混合的组用涂阴影的两帧指示)的作用。

首先处理两个流中都不存在(或者只在一个流中存在)子带数据的无足轻重的情况。如果对于当前子带，两个流都含有数据，则在32处一次处理一个组的子带数据，从比较头两个组的标度系数索引开始。如果这两个索引值的差超过某个预编程值，则索引较小(标度系数较大)的一组输出，另一组弃置，因为假定这个流的音量太大，会覆盖其他流。预编程值(例如，可能是24)是适当地以所用数据大小的最大分解力为依据的。如果差值小于这个值，则两组数据加在一起。

这种加法的做法是，首先选择标度系数索引较小的组作为基本组，然后(在34处)对其他组的12个子带样值进行按比例缩放，使它们与第一组处于同一刻度范围。这样做的方法最好是利用预先算好的用两个组的标度系数索引值之差以及正在考虑的数据值来索引的二维索引表36。对于第二组子带数据，将这些按比例缩放后的值(在38处)直接加在第一组的子带数据上。若出现(在40处确定)溢出，则将和值减2(只要将二进制数据移位42即可)，并对该组标度系数作相应调整(必须乘2，这只要从该标度系数索引减3即可)。一旦一组处理好了，即检查发生溢出的每一个值，随后对发生过溢出的所有值相应地移一位，以便对它们作适当的按比例缩放。

为了保证这一技术实现起来比较简单，作为流输入过程的一部分，对未作按比例缩放的子带数据进行归一化。这归一化(将子带数据值设置成共同的长度)最好用下面很快就会明白的剪短和0位填充的方法实现；但是，只要可能，最好避免归一化到小于输入数据的大小，因为这会使质量略为下降。归一化位长度的选择会影响索引表的大小：8位长度会使表的大小设为N^*256，式中N是相加之前的最大标度系数差(对于8位值，在24的范围内)。对于16位长度，索引表的大小猛增到N^*64K，对于存储容量较小的小型机器来说，这可能是个问题。由于N还要更大一些，问题就更复杂，因为位数多一些很重要，因此即使标度系数的差值较大，还能识别。

为了应付这样比较大的位长度，利用了这样一个事实，即按比例缩放0.5相当于标度系数差3。这样，对于16位的安排，除法通过将输入值移D/3位(式中D为标度系数差)，并利用其结果，连同D对3的模数来索引小得多的检索表。正如将会看到的，D对3的模数可能是0，1或2，若为0，则不必查找；因而，对于16位，该表的长度为2^*64K。

衰减和混合的方法可以整个地或部分地用软件，例如，运行在CPU 30上(图2)的软件实现，产生具有各种音频源关键特性的屏幕显示。图3至5给出这样的屏幕显示的例子，图3和4表示显示6声道音频混合器应用的方案。6个输入声道作为单独MPEG声频流存储起来，使用户能够利用显示在工作站的音量控制滑子101-106，用鼠标或类似的可由用户操作的装置移动光标来选择和拖拉移动这些滑子，实时地对这些声道进行混合。每个滑子101-106的当前设置确定了图2所示各衰减级20 LEVEL输入的值。

图4举例显示一种对图3音量控制具有附加特征的增强的混合器的屏幕显示控制面板。提供了一组可动的频率轨迹111-116，每个通道一个，代表对该通道整个频谱的频率滤波程度：高电平的水平线(像112，115和116)指示在整个频谱上没有滤波，而111处的轨迹表示较低频率有某种程度的衰减。这些轨迹还是用光标处理确定是否对一帧所有子带所有各组都施加恒定的衰减，或者是否对某些子带按它们覆盖的频带宽度而施加不同的衰减。

轨迹111-116的上面是另一组滑子121-126，它们控制把一个通道的输出经过延迟周期后混合入其输入而形成的混响回路的延迟时间长度。再一组轨迹131-136举例表示和控制作为混合回其输入的输出信号的频谱和滤波。

图5表示另一种用户图形界面，并举例表示几组同心园形成的花纹。每一组具有与之联系的存储的声频声道(MPEG声频)，它在用户将光标(未示出)放在该组中心(X所指)或者用其他某种方法指示该组来播放它。当光标移向其他组时，与该组相联系的声道开始变得可闻：在操作中，光标对于每一组中心的相对位置决定了施加在各声频上的相对衰减(或不衰减)，而同时如上所述，来自所有不同组的声频作适当的混合。这样的技术还可以应用于，例如，虚拟环境，其中虚拟世界的不同特征具有相关的声音，后者按用户(或其某种控制手段)相对于该特征的位置而可控制地播放或沉寂。

从以上可以看到，我们描述了一种对声频流进行衰减和混合的新技术，它尤其适宜于符合MPEG标准的音频流。以前，一直都是先解压再混合，因此限制了可能同时混合的声频流的数目，不是由于对CPU的要求，就是存储介质带宽的限制。使用采用CPU的分析工具，可以看到，与软件合成级相比，MPEG流的混合只需要很小的CPU能力。

通过阅读本说明书，对于本专业的技术人员来说，显然可以作出其他改变。这样的改变会涉及声频信号和数据处理装置和组件领域已知的其他特征，它们之中的一部分和它们本身可以用来代替本文已经描述的特征，或与这些特征同时使用。虽然在本说明书中已针对特征的特定组合列出各项权利要求，但是应该明白，本说明书公开的范围还包括这里明显公开的或暗含的任何一个新特征或新的特征组合，不论它是否像目前的任何一项权利要求中要求的一样涉及同一发明，也不论它是否像本发明一样减轻同一技术问题中的任何一个或其全部。申请人在此声明，在提出本申请或由此衍生的任何一个进一步的申请的过程中，对于这样的特征和/或这样的特征组合，可以列出新的权利要求。

Claims

1.一种对压缩数字化声频信号施行衰减的方法，其中定义了L个标度系数的第一表，它包括具有L个数值的逐级变化的级数，其第二个和其后的每一个值都由前面的值用共同的函数推算出来，每一个标度系数都唯一地由各个标度系数索引值识别，而所述的信号采取顺序的数字数据帧的形式，而每一帧按共同的安排至少包括以下各段：

-子带数据值，代表该子带或一个或多个子带中的每一个的多个采样点的值，其中该子带或每一个子带代表各自的频带宽度；以及

其特征在于，所述标度系数索引值包括L个顺序整数值，而对于该子带或每一个子带，所述方法还包括下列步骤：在所述L个数值的序列的M级的情况下，识别出要求的衰减；并把M加在赋给所述子带的该标度系数索引或每一个标度系数索引上，其中1≤M＜L，而L和M都是整数。

2.对一个或多个压缩数字化声频信号进行混合的方法，其中定义了L个标度系数的第一表，它包括具有L个数值的逐级变化的级数，其第二个和其后的每一个值都由前面的值用共同的函数推算出来，每一个标度系数都唯一地由各个标度系数索引值识别，而所述的信号采取顺序的数字数据帧的形式，而每一帧按共同的安排至少包括以下各段：

其特征在于，所述标度系数索引值包括L个顺序整数值，而所述方法还包括将每个信号的各个子带混合，并且对于准备混合的子带的该组或每一组，所述方法还包括下列步骤：

-识别相关标度系数最大的子带；

-对相关标度系数较小的该子带或每一个子带的数据值进行按比例缩放，使之与第一子带处于同一标度范围；

-将各组数据值加在一起。

3.权利要求2所要求的方法，其特征在于，它包括下列初始化步骤：

-在所述L个数值的序列的M级的情况下，识别出所述子带对中至少一个子带的所要求的衰减；以及

-把M加在赋给所述子带的该标度系数索引或每一个标度系数索引上，其中1≤M＜L，而L和M都是整数。

4.权利要求2所要求的方法，其特征在于，所述子带数据值的按比例缩放是利用由两个子带的标度系数索引值之差以及所考虑的数据值进行检索的二维检索表而进行的。

5.权利要求1或权利要求3所要求的方法，其特征在于，在一帧内最好定义多个代表各频带宽度的子带，并且，所述方法包括确定各个M值并把它们应用于每个子带。

6.权利要求2所要求的方法，其特征在于，若识别相关标度系数较大的子带的步骤表明该标度系数之间的差超过预定的阈值，则对于标度系数较小的子带最好不是进行按比例缩放，而是弃置，而将标度系数较大的子带输出。

7.权利要求2所要求的方法，其特征在于，将各组子带数据值相加之后，最好查查看结果的长度是否超过预定的位数目，若是超过，则将关于该结果的标度系数索引增大一个整数值，以便对结果进行按比例缩放。

8.以前的任何一项权利要求所要求的方法，其特征在于，所述L个标度系数值中的第二个及其后的每一个都是前一个值的固定的百分数。

9.以前的任何一项权利要求所要求的方法，其特征在于，所述标度系数表的各级的间隔相当于1dB衰减。

10.以前的任何一项权利要求所要求的方法，其特征在于，其中每一个输入信号都符合MPEG声频标准。