CN1717718A

CN1717718A - 正弦波音频编码

Info

Publication number: CN1717718A
Application number: CNA2003801042444A
Authority: CN
Inventors: N·H·范施恩德; M·戈梅滋富恩特斯; S·L·J·D·E·范德帕; A·J·戈里特斯; V·科特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-11-27
Filing date: 2003-10-29
Publication date: 2006-01-04
Also published as: AU2003274524A1; KR20050086762A; US20060015328A1; WO2004049311A1; EP1570463A1; JP2006508385A

Abstract

公开了由多个连续段中的每一个的各组采样值表示的音频信号(x)的编码方法。采样信号值用于为多个连续段中的每一个段确定正弦波分量(CS)。从所述采样信号值中减去所述正弦波分量(CS)，以给出代表所述音频信号的第一剩余分量(x3)的一组值(s1，s2)。对所述第一剩余分量(x3)进行修整(18)，以除掉选定的音调分量，并且给出代表所述音频信号的第二剩余分量(x3′)的一组值(s1′，s2′)。通过确定逼近第二剩余分量(x3′)的噪声参数(CN)来模拟(14)第二噪声分量。和产生包含所述噪声参数(CN)和代表所述正弦波分量(CS)的编码的编码音频流(AS)。

Description

正弦波音频编码

技术领域

本发明涉及对音频信号进行编码。

背景技术

现在参照附图1，在PCT专利申请第WO01/69593号中介绍了一种参数编码方案，具体来说是一种正弦波编码器。在这种编码器中，将输入音频信号x(t)分割成多个(重叠的)段，一般来说具有20ms的长度。再将每个段分解为瞬变、正弦波和噪声分量。这个分解过程是相继完成的，即，首先根据是否应用了增益控制在瞬变编码器11中从输入信号x(t)中提取出瞬变，剩下第一剩余信号下x1/x2；使用正弦波编码器13对第一剩余信号进行编码；然后从第一剩余信号中提取出经过编码的正弦波，以剩下第二剩余信号x3；使用噪声编码器14顺次对这个第二剩余信号进行编码。

在正弦波分析器130中，使用多个由幅度、频率和相位参数代表的正弦波模拟每个段的第一剩余信号x2。一旦估算了每个段的正弦波，则开始跟踪算法。这个算法在段到段的基础上将正弦波连接起来，以获得所谓的轨迹。跟踪算法这样得到了正弦波编码C_s，该正弦波编码包括正弦波轨迹，该正弦波轨迹在特定的时刻开始，在多个时间段上持续一定量的时间展开，然后终止。

在噪声编码器中可以采用多种编码方法来模拟第二剩余信号x3。为了明晰的音频质量，噪声编码器可以是滤波器组形式的波形编码器。按照另外一种可选方案，为了实现良好的质量和低的位速率，噪声编码器可以采用合成噪声模型来产生，例如，自回归移动平均(ARMA)或线性预测编码(LPC)滤波器参数。

还可以得出输入音频信号的其它分量，比如调和线丛。本说明书仅涉及正弦波和噪声分量，但是扩展到调和线丛不会以任何方式影响本发明。

从音频信号段中提取正弦波可以会引发问题。在这些段中，正弦波的幅度和频率可能会变化并且这称为非平稳态。而且，在正弦波的估算过程中可能会发生错误。结果，使用经过编码的正弦波实现的频谱抑制不总是合乎要求或理想的。这造成了似正弦波分量的存在，尤其是在第二剩余信号中的经过编码的正弦波的位置上或附近。

此外，在低位速率下，只有足够编码少量正弦波的比特位，正弦波分量将依旧存在于第二剩余信号中。

噪声编码器一般来说模拟剩余信号x3的时域和频域包络相当粗糙，即，它们具有有限的频谱分辨率，并且在噪声编码器模拟正弦波分量的时候，可能会出现人为干扰。即使屏蔽了保留在剩余信号中的音调分量，由于噪声模型的有限频谱分辨率，也可能出现听得见的人为干扰。这种情形尤其可能在低频下发生，此时听觉系统具有良好的频谱分辨率而噪声编码器的频谱分辨率通常较差。而且，与平稳态不同，音调信号、噪声分量的能量会总是随着时间波动。这些波动可能使得预先进行了屏蔽的音调分量能够听见。能量波动在频谱分辨率应当很好(即，低频)的区域中最大。这样，除了试图模拟剩余信号x3中的似正弦波分量这一既有事实之外，噪声编码器需要用于噪声编码CN的额外数据位，将这些分量模拟为噪声可能造成听得见的人为干扰，尤其是在低频下更是如此。

本发明致力于缓解这一问题。

发明内容

按照本发明，提供了一种按照权利要求1的方法。

本发明包括处于噪声编码器之前的再分析级。按照一种实施方式，通过，例如，匹配追踪结合确定何时终止提取音调分量的基于能量的终止标准，从剩余信号中除掉音调分量。

按照另一种实施方式，在编码正弦波及其周围的频率上对剩余信号进行额外的抑制。周围频率的数量可以是固定的或者取决于频率。也可以使用心理声学频率分割(例如，Bark/Erb频带)。抑制量可以例如取决于正弦波的数量或者正弦波的能量。结果，噪声编码器不再需要模拟这些正弦波区域。

附图说明

附图1表示包括音频编码器的现有音频记录器；

附图2表示按照本发明的音频编码器的实施方式；

附图3表示包括可与本发明的编码器一同工作的解码器的音频播放器的实施方式；

附图4说明由本发明的实施方式的再分析器所执行的处理；和

附图5表示包括按照本发明的音频编码器和音频播放器的系统。

具体实施方式

现在将参照附图对本发明的优选实施方式加以介绍，其中为相似的组成部分标注了相似的附图标记，并且除非另有说明，相似的组成部分具有相似的功能。按照本发明的优选实施方式，附图2，编码器1’是PCT专利申请第WO01/69593号中介绍的那种类型的正弦波编码器。这一现有编码器的操作及其相应的解码器已经得到了很好的介绍，并且本文仅给出与本发明相关的部分的说明。

在现有技术和本发明中，音频编码器1’以某种采样频率对输入音频信号进行采样，得到音频信号的数字表示x(t)。然后编码器1’将经采样的输入信号分成三个分量：瞬变信号分量、不变的确定分量和不变的随机分量。音频编码器1’包括瞬变编码器11、正弦波编码器13和噪声编码器14。

瞬变编码器11包括瞬变检测器(TD)110、瞬变分析器(TA)111和瞬变合成器(TS)112。首先，信号x(t)进入瞬变检测器110。这一检测器110估算是否有瞬变信号分量及其位置。这一信息被馈送给瞬变分析器111。如果瞬变信号分量的位置得到了确定，则瞬变分析器111尝试提取瞬变信号分量(的主要部分)。它将形状函数与最好在估算的开始位置上开始的信号段进行匹配，并且通过采用例如一定量(少量)的正弦波分量，确定形状函数之下的内容。这一信息被包含在瞬变编码CT中，在PCT专利申请第WO01/69593中给出了有关产生瞬变编码CT的更加详尽的信息。

将瞬变编码CT提供给瞬变合成器112。在减法器16中，从输入信号x(t)中减掉经合成的瞬变信号分量，得到了信号x2。

将信号x2提供给正弦波编码器13，在这里，在正弦波分析器(SA)130中对该信号进行分析，该正弦波分析器(SA)确定(确定的)正弦波分量。因此可以看出，虽然希望存在瞬变分析器，但是并非必须有，本发明可以在没有这样一个分析器的情况下实现。按照另外一种可选方案，如上所述，本发明可以采用例如调和线丛分析器来实现。在任何一种情况下，正弦波编码的最终结果都是正弦波代码CS，在PCT专利申请第WO00/79519号中给出了说明传统地产生示范性正弦波代码CS的更加详细的例子。

不过，简要地说，这样的正弦波编码器将输入信号x2编码为从一个帧段到下一个帧段连接起来的正弦波分量的轨迹。通过正弦波合成器(SS)131由使用正弦波编码器产生的正弦波代码CS来重构正弦波信号分量。在减法器17中将这一信号从输入给正弦波编码器13的x2中减掉，得到了剩余信号x3。

按照本发明，设置了再分析器18，该再分析器18在噪声编码器14对剩余信号x3进行编码之前修整剩余信号x3。在本发明的各个实施方式中，再分析器18从剩余信号x3中选择性地除掉或抑制在音调分量的位置上或附近的频谱区域，并且将经过修整的剩余信号x3’提供给噪声编码器14。

现在参照附图4，如上所述，在这些实施方式中，提供给再分析器18的剩余信号x3包括在连续时间帧t(n-1)，t(n)，t(n+1)内重叠的段s1，s2，...。一般来说正弦波是以10ms的速率更新的，并且每个段s1，s2，...的长度两倍于更新速率，即，20ms。按照每种实施方式，再分析器18提供要使用汉宁窗函数(Hanning window function)进行再分析的重叠时间窗t(n-1)，t(n)，t(n+1)，以将来自重叠段s1，s2，...的信号合成为表示时间窗的单独一个信号，步骤42。对经过窗口操作的信号进行FFT(快速傅立叶变换)，得到时间窗信号的复频谱表示，步骤44。对于44.1kHz的采样率和20ms的帧长度，FFT的长度一般为2048。

按照第一实施方式，在再分析器18中，由FFT产生的频谱的修整，步骤46，包括应用传统的匹配追踪算法来迭代地从频谱中除掉峰值。按照第一实施方式，该算法迭代地除掉造成最大能量降低的那些峰值。总地来说，这意味着，匹配追踪算法首先提取与音调分量相应的峰值，然后倾向于提取噪声峰值，因为平均来说，音调峰值的提取要比噪声峰值的提取能量降低大。这样，提取操作应当在提取了所有的音调分量之后和提取噪声分量之前终止。另一方面，如果没有除掉所有的音调分量，当在解码器中进行合成时，信号可能噪声过高，因为噪声编码器14对音调分量进行了模拟。另一方面，如果除掉的太多并此因此除掉了噪声分量，合成信号可能听起来会有金属感，因为将结果得到的剩余信号x3’的频谱的不适当区域中的间隙提供给了噪声编码器14。

按照第一实施方式的一种实现方式，终止标准表明了何时停止提取分量。这个标准基于提取峰值之前和之后的剩余信号的能量。这样，当除掉了峰值之后的能量降低小于一定的百分比时，表明已经提取出了所有的音调峰值，并且经过修整的剩余信号x3’将不会有音调分量。

由于能量的降低取决于分析窗的长度，因此能量标准反比于该窗口长度。例如，对于48kHz下1024个采样点的窗口长度(＝21ms)，所述标准的有效值是在能量降低5％时，而对于48kHz下512个采样点的窗口长度(＝10.5ms)而言，为10％。

按照第一实施例的另一种实现方式，提取固定数量的峰值，即，匹配追踪进行固定数量的迭代循环。

作为第一实施例的迭代匹配追踪方法的另外一种可选方案，按照第二实施方式，修整步骤46在单个步骤中从步骤44所产生的频谱中挑选并除掉一定量(固定的或可变的(例如频谱中所有的峰值))的最高能量峰值。这个技术的优点在于：比匹配追踪快(在单次迭代中实现)，不过，这一技术不能挑选出被可以由匹配追踪检测到的更强的峰值所屏蔽的峰值。

在上述的迭代地或在单个步骤中除掉固定量地峰值的情况下，通过实验发现，提取5个或少于5个峰值结果较好，在提取超过5个峰值的时候，减少了的噪声信号结果得到噪音少而听起来金属感强的信号。

在上述所有的实现方式中，再分析器18在匹配追踪完成时进行剩余频谱的逆FFT，以获得时域信号，步骤48。通过对连续的经过修整的时域信号进行重叠相加，产生了经过修整的剩余信号x3’，并且将这一信号送到噪声模块14。可以看出，在时域中，经过修整的剩余信号x3’的段s1’，s2’，...对应于段s1，s2，...，这样，作为再分析的结果，没有出现同步缺失。

可以看出，此时剩余信号x3不是重叠信号，而是连续时间信号，于是窗口操作步骤不再需要。同样，如果噪声编码器14要求连续时间信号而不是重叠信号，重叠相加步骤50则不再需要。虽然如此，还可以看出，在不需要对传统的正弦波编码器13或噪声编码器14进行任何改变的情况下，就可以实现本发明的第一实施方式。而且，在上述两种实现方式中，在修整信号x3来产生信号x3’时，没必要考虑心理声学因素。

按照本发明的第三和第四实施方式，在不需要对正弦波编码器13的内部操作进行改变的同时，将各个段s1，s2，...的正弦波编码C_s提供给了再分析器18，如附图2和4的虚线52所示。同样，需要对连续段的正弦波编码进行合成来为各个时间窗t(n-1)，t(n)，t(n+1)提供单独一组值。按照第三实施方式，对于针对给定时间窗估算的每个正弦波，如由各个正弦波分量的频率参数所代表的，修整步骤46确定在步骤44中得出的频谱内的相应频率组(frequency bin)。然后将该频率组乘以系数(例如0.001)，即，加以严重衰减。而且对相邻频率组进行抑制(例如乘以系数0.01)，这样得到了经过修整的复频谱。和以前一样，对这一经过修整的频谱进行逆FFT，步骤48，并且和从前一样地继续进行处理。

按照本发明的第四实施方式，将各个段s1，s2，...的原始信号提供给再分析器18，如附图2和4的虚线56所示。在修整步骤46中，依照心理声学模型(例如，Bark，Erb)将步骤44中得出的复频谱的频率组合成为非等距频带。对于每个基于心理声学的频带，对这个频带中由正弦波编码C_s得出的正弦波(线52)的能量与该频带中的原始输入信号(线56)的能量进行比较。也可以使用估算结果来代替频带中的实际正弦波信号和原始信号的能量。原始信号能量的可行估算是正弦波分量的能量加上剩余信号的能量。如果正弦波分量与剩余信号不相关，这一估算结果仅等于剩余信号的实际能量。正弦波能量的可行估算是原始信号能量减去剩余信号能量。同样，如果在该频带中原始信号和剩余信号不相关，这一估算结果仅等于正弦波分量的能量。如果差异很小(例如，2dB)，则基于这样的假设：在这一特定频率区域内原始信号由正弦波描述得足够好，将步骤44中得出的频谱的频带中的频率组设置为零。如果正弦波分量的能量高于原始信号的能量，则也可以将频带设置为零。例如在使用不同的窗口时，可能会发生这种情况。和之前一样，可以对这一经过修整的频谱进行逆FFT，步骤48，并且通过将经过修整的时域信号x3’送给噪声编码器14而象之前一样地继续进行处理。

不过，通过将频带设置为零，可以非常有效地对噪声参数进行编码，得到相当可观的编码增益。这样，如果将步骤46中产生的经过修整的频谱直接送给一个经过调整的噪声编码器，该噪声编码器可能能够应用例如行程编码，以利用为零的一定数量的连续频带。在现有技术水平下，噪声编码器没有采用行程编码，因为在不经过修整的情况下，很少会有剩余频谱的部分为零的情况出现。不过，通过应用频谱空白化，行程编码会得到相当可观的位速率降低。当然要对解码器进行相应的改变，以考虑噪声信息的编码过程中的任何变化。

按照本发明的第五实施方式，不是将正弦波编码C_s提供给分析器18，而是将正弦波编码器13调整为向再分析器18提供由正弦波分析器130检测到但在编码处理期间放弃掉的正弦波分量的参数，如附图2和4中的线54所示。象频率和幅度值一样，这些参数也包含表明了放弃正弦波的原因的信息。虽然不是各种类型的穷举列表，这些原因可以包括：

.正弦波过短，以致无法用于跟踪(S)；

.正弦波受到更强正弦波的屏蔽(M)；

.为了减小位速率而放弃了正弦波(B)。

在类型M和B的情况下，可以看出，与类型S的情况下相比，这些分量更有可能是音调分量。因此按照第五实施方式，修整步骤46包括，在提供经过修整的频谱以在步骤48和50中进行和前面一样的处理之前，除掉一定量(固定或可变的)的与M和B类型频率相对应的最高能量峰值。

虽然是独立地对上述实施方式进行介绍的，但是可以看出，可以在修整步骤46中对这些技术中的一项或多项加以组合。例如，在实施第一实施方式的步骤来除掉其它峰值之前，可以进行第五实施方式的步骤来除掉有限数量的M或B类分量。

还可以看出，虽然是针对在频域内对剩余信号x3进行修整这一方面对各个实施方式加以介绍的，但是再分析器18同样可以在时域内工作。

在任何情况下，由再分析器18产生的经过修整的信号x3’现在可以更加妥帖地假设为仅包括噪声，并且优选实施方式的噪声分析器14产生代表这一噪声的噪声编码CN，如例如PCT专利申请PCT/EP00/04599号中所介绍的那样。

最终，在多路复用器15中，构造了一个包括编码CT，CS和CN的音频流AS。该音频流AS被提供给例如数据总线、天线系统、存储介质等等。

附图3表示适用于对从数据总线、天线系统、存储介质等获得的例如由附图2的编码器1’产生的音频流AS’进行解码的音频播放器3。除非另有说明，音频播放器3是PCT专利申请WO01/69593号中所介绍的那种音频播放器。简要地讲，在这样的播放器中，在去多路复用器30中对音频流AS’进行去多路复用，以获得编码CT、CS和CN。这些编码被分别提供给瞬变合成器31、正弦波合成器32和噪声合成器33。在瞬变合成器31中由瞬变编码CT计算瞬变信号分量。在瞬变编码表示形状函数的情况下，根据所接收到的参数计算该形状。此外，根据正弦波分量的频率和幅度计算形状内容。如果瞬变编码CT代表步长，则不计算瞬变。总瞬变信号yT是所有瞬变信号的和。

正弦波编码CS用于产生信号yS，描述为给定段上的正弦波的总和。同时，在对信号的正弦波分量进行合成的同时，将噪声编码CN送到噪声合成器NS 33，它主要是滤波器，具有逼近噪声频谱的频率响应。NS 33通过使用噪声编码CN对白噪声信号进行滤波来产生重构的噪声yN。

在附图3的播放器中，由相应于上面介绍的再分析器18的第一到第五实施方式的再分析器39实施CS描述的正弦波的位置上或附近的频率区域的附加抑制。因此该再分析器除掉了可能存在于噪声信号yN中的不想要的分量，以产生经修整的噪声信号yN’。这些不想要的分量是例如在编码器(1或1’)中模拟为噪声的部分音调分量。通过在解码器中使用这一方法，可以降低嘈杂程度并且可以获得较好的声音质量。而且，解码器不怎么依赖于噪声编码的性能，并且如果出于某些原因没有在噪声编码器中将所有的音调分量从剩余信号x3/x3’中除掉，该解码器也不会出什么问题。

总信号y(t)包括瞬变信号的总和yT和任何幅度解压系数(g)与正弦波信号之和的乘积yS及噪声信号yN’。音频播放器包括两个加法器36和37，用于对各个信号求和。总信号被提供给输出单元35，该输出单元35为，例如，扬声器。

附图5表示按照本发明的音频系统，包括附图2中所示的音频编码器1’和附图3中所示的音频播放器3。这样的系统提供播放和记录功能。音频流AS通过信道2(可以是无线连接、数据总线20或存储介质)从音频编码器提供到音频播放器。在信道2是存储介质的情况下，存储介质可以固定在该系统中，或者也可以是可移动盘、记忆棒等。信道2可以是该音频系统的一部分，但是通常会处于音频系统之外。

Claims

1.一种对音频信号进行编码的方法，该方法包括步骤：

为多个连续段中的每一个段提供各自的采样信号值的组；

对采样信号值进行分析，以为多个连续段中的每一个段确定零个或多个正弦波分量；

从所述采样信号值中减去所述正弦波分量，以给出代表所述音频信号的第一剩余分量的一组值；

对所述音频信号的所述第一剩余分量进行修整，以从所述第一剩余分量中除掉选定的音调分量，并且给出代表所述音频信号的第二剩余分量的一组值；

通过确定逼近第二剩余分量的噪声参数来模拟第二噪声分量；和

产生包含所述噪声参数和代表所述正弦波分量的编码的编码音频流。

2.按照权利要求1所述的方法，其中所述修整步骤包括：

为所述代表所述音频信号的所述第一剩余分量的所述一组值的连续段给出频谱表示；

衰减每个频谱表示内的选定频率；和

为已经衰减了所述选定频率的所述频谱表示的连续段给出时域表示。

3.按照权利要求2所述的方法，其中所述衰减步骤包括：

迭代地从所述频谱表示中除掉最大能量的峰值。

4.按照权利要求3所述的方法，其中当所除掉的峰值的能量小于从中除掉峰值的频谱表示的总能量的给定百分比时终止所述迭代。

5.按照权利要求4所述的方法，其中所述能量等级反比于所述连续段的长度。

6.按照权利要求3所述的方法，其中所述迭代在固定次数的迭代之后终止。

7.按照权利要求2所述的方法，其中所述衰减步骤包括：

从所述频谱表示中除掉固定数量的最大能量的峰值。

8.按照权利要求2所述的方法，其中所述衰减步骤包括：

为各个代表与频谱表示之连续段相对应的连续段的正弦分量确定频率值；和

衰减各个正弦波分量的所述频率值的区域内的所述频谱表示的频率值。

9.按照权利要求2所述的方法，其中所述衰减步骤包括：

为各个代表与频谱表示之连续段相对应的连续段的正弦分量确定第一能量值；

为与频谱表示之连续段相对应的所述连续段内的采样信号值确定第二能量值；和

按照心理声学模型将所述频谱表示分成频带；

将其第一和第二能量值相同的频带的值置零。

10.按照权利要求9所述的方法，其中所述编码音频流是采用行程编码表示已经被置零的频带序列来产生的。

11.按照权利要求2所述的方法，其中所述分析步骤包括：产生包括连接在一起的正弦波分量的轨迹的正弦波编码；和使用所述正弦波编码合成所述正弦波分量，并且其中，所述减去步骤包括：从所述采样信号值中减去所述合成信号值，以给出所述代表所述音频信号的第一剩余分量的一组值。

12.按照权利要求11所述的方法，其中所述衰减步骤包括：

为在产生所述正弦波编码时未使用的所述音频信号的正弦波分量确定频率值；

判断所述正弦波分量是否因下述原因没有使用：所述分量过短、所述分量受其它分量屏蔽和预算原因；和

对于所述分量是由于受屏蔽或由于预算原因而未使用的，衰减未使用的正弦波分量的区域内的所述频谱表示的频率值。

13.按照权利要求1所述的方法，其中所述采样信号值代表从中除掉了瞬变分量的音频信号。

14.对音频流进行解码的方法，该方法包括步骤：

读取包括代表音频信号的噪声分量的编码的编码音频流；

采用所述编码合成所述音频信号的所述噪声分量，以产生合成信号；和

对所述合成信号进行修整，以从所述信号中除掉选定的音调分量。

15.音频编码器，设置成用于处理音频信号的多个连续段的各组采样信号值，所述编码器包括：

分析器，用于对采样信号值进行分析，以为多个连续段中的每一个段确定零个或多个正弦波分量；

减法器，用于从所述采样信号值中减去所述正弦波分量，以给出代表所述音频信号的第一剩余分量的一组值；

修整器，用于从所述第一剩余分量中除掉选定的音调分量，并且给出代表所述音频信号的第二剩余分量的一组值；

噪声编码器，用于通过确定逼近第二剩余分量的噪声参数来模拟该音频信号的第二噪声分量；和

位流生成器，用于产生包含所述噪声参数和代表所述正弦波分量的编码的编码音频流。

16.音频播放器，包括：

用于读取包括代表音频信号的噪声分量的编码的编码音频流的装置；

合成器，设置成用于采用所述编码来合成所述音频信号的所述噪声分量，以产生合成信号；和

修整器，设置成用于从所述合成信号中除掉选定的音调分量。

17.音频系统，包括权利要求15所述的音频编码器和权利要求16所述的音频播放器。