CN1666571A

CN1666571A - 音频处理

Info

Publication number: CN1666571A
Application number: CN038161729A
Authority: CN
Inventors: R·M·阿尔特斯; D·W·E·肖本; F·希克索伊坦
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-07-08
Filing date: 2003-06-18
Publication date: 2005-09-07
Also published as: EP1522210A1; JP2005532586A; WO2004006625A1; KR20050025583A; AU2003242903A1; US20060025993A1

Abstract

一种音频系统，包括后处理器(12)，用于对经解码的音频信号(14)的连续片段进行改变，以提供经后处理的音频信号(16)的连续片段。掩蔽阈值生成器(20)，针对经后处理的音频信号(16)的连续片段给出掩蔽阈值估测值()。噪声电平发生器(17)，针对经后处理的音频信号(16)的连续片段给出噪声电平的估测值()；失真生成器(17)，针对经后处理的音频信号(16)的连续片段确定噪声电平超过掩蔽阈值的程度(D)。调节器(18)，依照噪声电平超过掩蔽阈值的程度来控制后处理器。

Description

音频处理

技术领域

本发明涉及对音频信号进行处理。

背景技术

现在参照附图1，在传统的音频系统中，解码器10接收音频流AS，音频信号(未示出)被编码在该音频流AS中。解码器10产生与音频信号的连续片段相应的时域信号14。对于立体声编码的音频信号而言，解码器产生一对，例如，中/侧或差动立体声通道信号14。我们都知道，对这些通道信号应用后处理来提高信号的形态。所以，例如，后处理器12可以对通道信号14进行立体声展宽，来产生变化后的通道信号16。然后将通道信号16馈送给音频输出系统15，通过该音频输出系统，将这些信号为聆听者播放出来，或者按照另外的可选方案，对这些信号进行保存或发送出去。

在很多编码器中，包括例如MPEG编码器，音频信号是采用有损处理编码为位流的。我们已经发现，将用于这样的位流的解码器和后处理组件级联是存在着问题的。这是因为对有损编码的音频片段进行后处理能够造成不该出现的可听见的人为噪声，这种人为噪声是在对原始的音频片段进行编码的过程中产生的量化噪声造成的。

为了防止降低后处理之后的编码片段的音频质量，可以对编码器、解码器或后处理器进行调整。不过，这样可能会涉及现有系统的重大重新设计。

因为对上述问题的解决方案需要在对已经进行了编码的片段应用后处理的系统中进行实施，所以应当注意，产生位流的原始音频片段一般来说是不可利用的。

同时，在对信号进行任何的后处理变化之前，后处理之后的音频信号质量应当是已知的。虽然可以在针对客观音频质量测量的文献中找到一些技术，但是它们通常假设原始音频片段是可以利用的。

传统的方法，例如互相关，并不会指明量子噪声可听见与否。简单的实验已经表明，针对后处理过的中/侧编码和差动编码立体声片段的左右通道间的互相关是类似的，然而这两种模式的后处理片段的音频质量可能是完全不同的。

发明内容

按照本发明，给出了一种按照权利要求1的音频系统。

本发明给出了一种在无需使得原始音频片段可以得到利用的情况下检测后处理之后可听见的量化噪声并且通过调节后处理的程度来防止量化噪声变得可听见的系统和方法。

本发明给出了一种“盲目的”客观信号测量方法，即，只利用可获得的经解码的音频片段来进行质量测量。本发明以这样的方式对信号路径进行改变：这意谓着不需要对现有的组件进行改变来实现本发明。

附图说明

现在将参照附图借助实例对本发明的实施方式进行介绍，其中：

附图1表示现有技术的音频系统；

附图2表示按照本发明的第一实施方式的音频系统；

附图3(a)和(b)说明分别针对原始信号和经后处理的信号的量化噪声的可听见程度；和

附图4和5图解说明按照本发明的另一种可选实施方式的另外的音频系统。

具体实施方式

附图2表示一种按照本发明的第一实施方式的用于对经编码的音频片段进行后处理的音频系统。首先，在解码器10中对经编码的音频位流AS进行解码，并且然后由后处理器12对其进行后处理。优选实施方式是参照与不可思议声音(Incredible Sound)后处理器(在例如PCT申请第WO98/21915号和美国专利第5742687号中进行了介绍)结合在一起的MPEG-1层次I解码器加以介绍的，不过显然可以看出，总地来说，本发明可以应用于编码器和后处理器。这样，解码器10产生一对输出通道14，这一对输出通道14具有，例如，和/差或中/侧PCM(脉冲码调制)形式，并且后处理器12对信道14进行立体声展宽，以产生输出通道16。

检测器17针对音频流的每一帧或片段计算失真量D并且将这一测量结果馈送给调节器18，调节器18确定所允许的后处理的最大量。在不可思议声音的情况下，由后处理器12进行的立体声展宽的程度是由调节器18给出的参数α决定的。这样，如果需要的话，通过调节器18来降低供应给后处理单元12的α的值，可以使得后处理的量得到降低。

按照第一实施方式，后处理之后的量化噪声的可听度或失真度是在假设只有用于经编码的片段的位流可用的情况下检测到的。这种检测方法基于心理声学模型和在位分配处理期间编码器中使用的位分配方法。

心理声学模型基于这样的知识：由于内耳的特殊的生理习性，人类听觉系统仅能觉察到合成声谱的一小部分。只有那些位于给定声音的掩蔽阈值之上的声谱部分对其收听有贡献。这样，与给定声音发生在同一时刻但具有较低强度并且因此位于掩蔽阈值之下的任何声学行为都将无法听到，因为它被主要的声源屏蔽掉了。编码器的目的是在将量化噪声保持在掩蔽阈值之下的同时，尽可能地降低音频流的位速率。

在MPEG编码器中，音频信号的可察觉部分是通过将频谱分割成32个等间距的子频段来提取的。在每个子频段中，信号是以这样的方式进行量化的：量化噪声与掩蔽阈值匹配或恰好低于掩蔽阈值。

不过，在后处理之后，噪声电平可能会超过掩蔽阈值，造成了可听见的量化噪声。这样，优选实施方式的检测方法要确定噪声电平超出掩蔽阈值到了什么样的程度。

按照第一实施方式，做出下述假设：

●原始的音频信号片段不可利用，

●针对音频信号的编码片段的位流(AS)是可以利用的，

●所使用的后处理技术的类型是已知的，和

●经编码的片段与原始的片段在感觉上是相等的，即，听起来是一样的。

因为原始的音频片段是不可利用的，所以由量化造成的实际误差信号(噪声)(经编码的片段减去原始的片段)也是不可利用的。不过，可以从位流中提取出信息来确定，例如，在编码器中使用了何种编解码器、(多个)位速率和设置来产生位流。

虽然在优选实施方式中假设了原始的片段是不可利用的，但是在论证优选实施方式中采用的评估质量的过程中，原始片段是很有用的。所以，参照附图3(a)，以22标示原始音频片段的频谱。线24表示针对以传统的方式由频谱22求得的信号的掩蔽阈值。

MPEG-1层次I使用均匀对称的中点水平量化器。如果量化器的输入范围是[-1，+1]，那么步长大小Δ是在两个连续的量化等级之间的差并且是由下式给出的：

Δ = \frac{2}{M - 1}

其中M是所使用的量化等级的数量。

总的来说，如果输入信号处于量化器输入范围之内并且如果M足够大，那么对于非常大的信号类而言，会表现出，量化误差ε接近于具有下列方差的均匀分布：

σ_{s}^{2} = \frac{Δ^{2}}{12}

对于音频片段的每一帧并且对于每一个子频段，首先将12个子频段采样的组归一化到[-1，+1]中，得到了32个缩放系数scf_i，每个子频段i一个。每个子频段i的噪声电平的能量现在可以估算为：

σ_{s, i}^{2} = \frac{Δ^{2}}{12} sc f_{i}^{2}

等式1

这可以针对左右通道和所有的子频段进行计算。这样，片段22(如果是在比方说MPEG-1层次I编码器中进行编码的)的噪声电平是由线26表示的。可以看出，对于频率范围28、28’和28”，这些噪声电平超过了掩蔽阈值24，所以可以设想可能会发生一定的失真，甚至在原始编码的音频片段中也会发生一定的失真。

不过，在对这样的有损编码音频片段进行后处理时，经过后处理的量化噪声可能会进一步超过经后处理的片段的掩蔽阈值。从附图3(b)中的范围30可以看出，由线26’表示的噪声电平在很大的频率范围内超过了由线22’表示的后处理信号的掩蔽阈值24’，并且超出了很大的量。这样，附图3(b)表示介于接近[5，15]巴克(Bark)之间的可听见噪声电平的明显升高-与附图3(a)的编码片段相比，[5，15]巴克近似等于[500，5000]Hz。

如前面所提到的，将原始的片段假定为在检测处理中不可利用。因此，经过编码和后处理的片段的实际掩蔽阈值和量化噪声电平是不可利用的。不过，这两个量可以从编码片段的位流(AS)中估测出来。

现在来看看掩蔽阈值24’和噪声电平26’的估测。按照第一实施方式的一种变体，心理声学模建组件20为来自经后处理的通道16的每帧产生一个掩蔽阈值

的估测值。在不可思议声音后处理的情况下，大部分处理对差通道起作用，所以差通道中的能量的量决定了在对立体声编码的片段进行了后处理之后的可听见量化噪声的量。这样，由心理声学建模组件20对差通道的每个片段的PCM数据进行傅立叶变换，以便为由附图3(b)中的线22’所示类型的、经过后处理的片段提供频谱。然后以传统的方式由频谱22’计算出由线24’表示的掩蔽阈值的估测结果

并且将该估测结果提供给检测器17。

针对经过后处理的片段的噪声电平估测值是在检测器17中得出的，通过首先使用位流中给出的量化等级信息和等式1从编码位流(AS)中针对原始片段估测出噪声电平。然后，知道了要对解码信号进行的后处理的类型，检测器17能够对针对原始片段估测出的噪声电平进行相同的后处理，以提供针对经过后处理的片段的噪声电平估测值

检测器17然后通过在一帧接一帧的基础上针对量化噪声可听见的那些频率对估算出来的经后处理的信号中的超过掩蔽阈值24’的大量噪声电平26’进行累加，来给出经后处理信号中的失真量的测量值D，即，失真测量值D等于：

其中i是子频段号，而n是恶化指数。n越高，失真越严重。对于48kHz的采样频率，范围i＝[1，5]等价于[750，4500]Hz，该范围近似为后处理之后可听到的量化噪声的范围。然后，在失真测量值D的基础上，调节器18于是能够决定采取行动来应对可听见量化噪声。

经改进的失真测量值还可以，例如，检查噪声超过掩蔽阈值的持续时间。这些持续时间越长，量化噪声就越有可能变得可以听见。不过这要比上面的简单的失真测量值D要更加复杂。

可以看出，采用这个第一实施方式的变化方式，调节器18将会倾向于在采取纠正行动之前允许可听见的失真出现。在这样的情况下，系统需要具有期望的后处理等级，以致如果对于特定的帧或片段后处理等级得到了降低，那么此后它可以朝着目标值不断地得到提高，直到再次需要减小修正。

按照优选实施方式的第二变化方式，附图4，另一种心理声学模建组件20’从位流AS中提取信号能级数据。与第一变体中有关噪声的处理相同，知道了要对经解码的信号进行的后处理的类型，组件20’能够对原始的片段进行相同的处理，以给出由附图3(b)中的线22’所示的经后处理的信号的频谱估测。然后可以针对这个估测出来的信号计算出掩蔽阈值24’并且可以如前所述那样将其送给检测器17，以使得检测器17能够产生在后处理的当前等级的情况下会产生出的失真的估测值D。然后检测器17可以将这个失真测量结果D传递给调节器18，该调节器18能够减小要对做过失真估测的片段进行的后处理的等级。例如，对于不可思议声音后处理，对于高的D值，系数α得到了降低。

按照第一实施方式，假设编码片段的位流是可以利用的，并且后处理技术的类型是已知的。不过，按照本发明的第二实施方式，附图5，只有经解码的音频通道14是可以利用的，所以没有采用解码器10。在S.Moehrs、Jurgen Herre和Ralf Geiger所著的文章《利用“反解码器”分析解压缩的音频数据-关于操作算法(Analyzing decompressedaudio with the“Inverse Decoder”-towards an operative algorithm)》(第112届AES会议的会议论文5576，2002年5月10-13日，慕尼黑)和J.Herre和M.Schug所著的《解压缩音频的分析-反解码器(Analysis of decompressed audio-The inverse decoder)》(第109届AES会议的会议论文5256，2000年，洛山矶)中介绍了反解码器10’。这使得针对片段的量化等级能够从PCM域信号中检测出来。这样，按照第二实施方式，反解码器10’为解码器的变体17’给出这一信息。检测器17’首先为原始的片段估测噪声电平，然后如前所述那样对此进行处理，以给出经后处理片段中的噪声电平的估测结果。在附图5中，与附图1中相同，心理声学模建组件20从经过后处理的通道16中提取提取其数据，以产生提供给检测器17’的针对片段的掩蔽阈值。使用这个掩蔽阈值和噪声电平，解码器能够产生如前所述那样产生失真测量结果D。

从上面介绍的内容可以看出，按照优选实施方式，在对音频位流AS进行实时解码和后处理的同时，防止了不需要的人为噪声变成输出通道16中的可听见的噪声。

按照优选实施方式，借助调节器18，所施加的后处理量得到了减小或者甚至被完全禁止。这一般来说可应用于所有的将一定量的经处理信号加到一定量的原始信号上的后处理技术。

后处理调节的另一个例子不依赖于使用噪声电平或掩蔽阈值，而是将α确定为函数f((L_i-R_i)/d)，其中f()是某种对于从0到最大值之间变化的f()的自变量而言在0到1之间变化的单调函数，而d＝Δ*scf_i。意思是说，如果左右通道子频段信号之间的差很小，那么最好不要过多增强该信号。

按照优选实施方式，将通道14和16描述为立体声通道。不过，可以看出，本发明也可应用于多于两个通道并且本发明也并不局限于通道14和16的数量相同。

按照优选实施方式，调节器18通过单个参数α来控制后处理器12。将会看出，本发明可扩展到控制后处理器的很多参数。例如，在优选实施方式的情况下，α_i的向量可用于控制每个子频段i的后处理。

按照优选实施方式，假设检测器17、17’能够对由处理器12执行的后处理进行估测，如连接各个组件的线所示。本发明因此并不局限于借助比如不可思议声音之类的严格定义的处理来评估后处理的效果。例如，包括例如放大器、扬声器和耳机的从解码器输出通道14到人耳的完整路径可以模建为后处理器信号路径。在优选实施方式的情况下，这个模型可应用于计算出来的噪声电平和/或掩蔽阈值，以确定完整的后处理信号路径使得量化噪声可听见的程度。在噪声变成连续可听到的情况下，调节器能够控制后处理信号路径的某一特征来减小这一噪声，例如，通过轻微降低扬声器的输出音量或调节放大器的均衡度。

应当注意到，上面提到的实施方式是用于解释说明本发明，而非限制本发明，并且本领域的技术人员将能够设计出很多可供选择的实施方式，而不会超出所附的权利要求的范围。在权利要求书中，任何置于括号中的附图标记对权利要求的范围都不构成限制。词“包括”并不排除所列于权利要求中的元件或步骤之外的其它元件或步骤的存在。本发明可以借助包括数个性质不同的元件的硬件来实现，并且可以借助适当程控的计算机来实现。在列举出数个装置的产品权利要求中，这些装置中的若干个可以通过硬件同一部分来实现。在多个不同的从属权利要求中引用特定步骤的事实并不表示不能够使用这样步骤的组合。

Claims

1.一种音频系统，包括：

后处理器，用于对经解码的音频信号的连续片段进行改变，以提供经后处理的音频信号的连续片段；

失真检测器，用于确定在对所述音频信号的连续片段进行编码过程中引入的量化噪声由于所述后处理的作用变得可听见的程度；和

调节器，用于按照所述程度控制所述后处理器。

2.按照权利要求1所述的音频系统还包括：

掩蔽阈值生成器，用于针对所述经后处理的音频信号的连续片段给出掩蔽阈值的估测值；

噪声电平检测器，用于针对所述经后处理的音频信号的所述连续片段给出噪声电平的估测值；

并且其中所述失真检测器根据所述噪声电平超过针对所述经后处理的音频信号的连续片段的所述掩蔽阈值的程度来确定所述程度。

3.按照权利要求2所述的音频系统还包括一个解码器，该解码器被设置为用于读取音频流并且用于产生所述音频信号的连续片段。

4.按照权利要求3所述的音频系统，其中所述解码器产生立体声编码的音频信号的连续片段对，并且所述后处理器对所述音频信号的连续片段对进行立体声展宽。

5.按照权利要求2所述的音频系统，其中所述掩蔽阈值生成器包括心理声学模建组件，该组件设置为用于将所述经后处理的音频信号的连续片段变换到频域；并且用于从中得出所述掩蔽阈值。

6.按照权利要求2所述的音频系统，其中所述掩蔽阈值生成器包括心理声学模建组件，该组件设置为用于读取所述音频流并且用于产生音频信号的连续片段；用于对所述音频信号的连续片段进行与所述后处理器类似的后处理；用于将所述音频信号的连续的经后处理的片段变换到频域；并且用于从所述经后处理的信号中得出所述掩蔽阈值。

7.按照权利要求2所述的音频系统还包括一个反解码器，该反解码器设置为用于读取所述经解码的音频信号的连续片段并且用于从其中给出在解码出所述音频信号的音频流的编码过程中采用的量化等级的示值。

8.按照权利要求3所述的音频系统，其中所述噪声电平检测器设置为用于从所述音频流中得出在音频流的编码过程中采用的量化等级。

9.按照权利要求7或8所述的音频系统，其中所述噪声电平检测器设置为用于针对所述经解码的音频信号的连续片段由所述量化等级得出噪声电平在频域中的分布，并且用于对所述噪声电平的连续分布进行与所述后处理器类似的后处理，以便为所述经后处理的音频信号的所述连续片段提供噪声电平的连续估测值。

10.处理音频流的方法，包括如下步骤：

对经解码音频信号的连续片段进行后处理，以给出经后处理的音频信号的连续片段；

对在所述音频信号的连续片段的编码过程中引入的量化噪声由于所述后处理的作用而变得可听见的程度进行检测；和

依照所述程度调节所述后处理步骤。