CN1934618A

CN1934618A - 恢复声音信号的谐频的方法

Info

Publication number: CN1934618A
Application number: CNA2005800085761A
Authority: CN
Inventors: 让－伯纳德·劳尔特; 马蒂厄·拉格兰奇
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2004-01-20
Filing date: 2005-01-04
Publication date: 2007-03-21
Also published as: US20080243493A1; WO2005081228A1; FR2865310A1; KR20060131844A; JP2007519043A; EP1714273A1

Abstract

本发明涉及一种用于恢复其频率O和相位？_已知的峰P_i与峰P_i+N之间的声音信号的谐频的方法(1)。本发明方法(1)包括下列步骤：估计(2)该谐频的缺失峰P_i+1到P_{i+N－1}中的每一个的频率O；对于之前估计的所有频率O，从峰P_i的相位到峰P_i+N的相位，逐个峰地计算(3)所执行的相位？；计算(4)在同一峰P_i+N处的所执行的相位？与已知相位之间的相位误差err？；以及按照相位误差err？，将每个所执行的相位？校正(5)一个值。

Description

恢复声音信号的谐频的方法

技术领域

本发明涉及通信领域，具体涉及声音信号的数字处理和声音信号的谐波表示的领域。

背景技术

在数字音频信号的谐波建模(harmonic modeling)中，声音信号用一组振荡器表示，振荡器的参数(频率、幅度、相位)随着时间缓慢变化。谐波分析包括用于确定这些参数值的短期时间/频率分析，之后提取峰(peak)，然后跟踪谐频(partial)。

要建模的信号被分成l个采样的帧(典型地l＝1024)。短期时间/频率分析模块(典型地执行傅立叶变换)计算每帧的信号的短期频谱。用于提取峰的模块仅保留先验的最有关的峰，例如，一个准则是仅保留能量最高的峰。第三和最后模块尝试将峰在时间上彼此连接起来，即，从一帧到另一帧，以形成谐频。在其生存期内，每个谐频对应于一个振荡器。

这种类型的分析和表示尤其可以用在降比特率编码、参数编码(处理信号的三个方面：瞬变、正弦曲线、噪声)、声音源的分离和索引(indexing)、以及声音文件的恢复期间。

目前公认的是，当利用Robert J.McAulay和Thomas F.Quatieri在论文″Speech Analysis/Synthesis Based on a Sinusoidal Representation″，IEEETransactions on Acoustics，Speech and Signal Processing，pp.744-754，1986，或者Laurent Girin，Sylvain Marchand，Joseph di Martino，Axel Rbel和GeoffroyPeeters在论文″Comparing the order of a Polynomial Phase Model for theSynthesis of Quasi-Harmonic Audio Signals″，WASPAA，New Paltz，NY，USA，October 2003中提出的相位内插技术来合成谐频时，获得最好的质量。这些技术用于通过使用三阶或五阶多项式计算所有的中间相位，来合成从峰(A_i，f_i，_i)到峰(A_i+1，f_i+1，_i+1)的谐频，其中频率由求导推出。仅当已知起始和结束频率以及相位时，才使用三阶内插。当还已知相位的二阶变分(second ordervariation)时，使用五阶内插(这些等效于频率的一阶变分，原因在于按照定义，频率是相位的导数)。

峰P_i(A_i，f_i，_i)与P_i+1(A_i+1，f_i+1，_i+1)之间谐频的合成包括计算帧 i与i+1之间的谐频的值p(n)：

p_i(n)＝p(li+n)＝A_i(n)cos(_i(n))，n＝0，...，l-1 (1)

为此，现有技术中已知使用下面两种内插法之一来计算所有的中间相位。

对于根据McAulay的三阶内插，根据下面的表达式计算相位，其中Te是采样周期：

_i(n)＝_i+2πf_inTe+α(nTe)²+β(nTe)³ (2)

通过求解(f_i，_i，f_i+1，_i+1)中的等式系统来计算两个未知数α和β。频率通过微分导出：

2πf_i(n)＝2πf_i+2αnTe+3β(nTe)² (3)

对于根据Girin等人的五阶内插，在峰P_i和P_i+1处频率的一阶变分δf_i和δf_i+1假定是已知的。然后根据下面的表达式计算相位：

通过求解(f_i，f_i+1，_i，_i+1，δf_i，δf_i+1)中的等式系统来计算三个未知数β，δ，γ。频率通过微分导出：

2πf_i(n)＝2πf_i+δf_inTe+3β(nTe)²+4γ(nTe)³+5δ(nTe)⁴ (5)

由于各种原因，可能会出现在分析结束和/或在合成开始时信号中的特定谐频缺失、损坏或不连续的情况。例如，如果发生分组丢失，则在因特网声音程序广播应用中的解码器的输入处可能缺失特定谐频，如果要分析的信号受到不需要的信号(噪声、滴答(click)、其他信号等)的干扰，则它们可能损坏，或者如果它们的能量太低以至于不能被连续地正确检测，则它们可能是不连续的。为了创建尽可能接近原始信号的合成信号，于是有必要恢复缺失峰。这使得创建其每一个都以幅度、频率和相位来表征的峰成为必要。

上述现有技术的内插技术用于合成对应于缺失峰的部分以及恢复谐频。

然而，这些现有技术的内插技术适于在短期，即，在小于10毫秒(ms)的周期上使用。对于较长的周期，重新合成的信号常常与原始信号有很大不同，并且可能出现令人不快的赝音(artifact)。这些技术确保已有峰与恢复的峰之间的相位连续性，但是不能控制由等式(3)和(5)引起的感应频率。该效果与内插距离成正比增加。

发明内容

本发明的一个目的是提出一种对该问题的替代解决方案，尤其是在缺失部分对应于长的周期(大于10ms)的情况下恢复被识别为谐频的丢失部分的丢失部分，而现有技术对此情况效果相对较差。

因此，本发明要解决的技术问题是提出一种在谐波分析期间恢复声音信号的谐频的丢失部分的方法，在谐波分析中，声音信号被分成时间帧，对时间帧应用时间/频率分析，其提供由采样频率帧表示的连续短期频谱，该分析还在于提取频率帧中的频谱峰并将它们在时间上连接在一起以形成谐频，该方法是现有技术解决方案的替代。

根据本发明，所述技术问题的一个解决方案在于，所述恢复其频率ω和相位已知的峰P_i与峰P_i+N之间的谐频的方法特征在于它包括步骤：

·估计该谐频的缺失峰P_i+1到P_i+N-1中的每一个的频率

·对于之前估计的所有频率从峰P_i的相位到峰P_i+N的相位，逐个峰地计算相位

·计算在同一峰P_i+N处的计算出的相位

与已知相位之间的相位误差err；

·将每个计算出的相位校正一个值，该值是相位误差err的函数。

本发明的方法与现有技术方法的不同之处在于，它提供对丢失峰的频率的更精细控制和随后对应相位的计算，以确保与已有峰的相位的连续性。因此，与上述现有技术方法相对比，本发明的方法没有赝音地重新合成对应于丢失谐频部分的信号。

本发明的方法还具有这样的优点，即，重构信号，该信号与现有技术方法获得的信号相比，在重构误差方面与原始信号更接近。

最后，本发明的方法具有使用低复杂度算法的优点。

本发明还在于一种合成声音信号的合成器，用于实现恢复峰P_i与峰P_i+N之间的谐频的方法，例如是适于使用本发明方法的音频解码器或参数编码器。

本发明还在于一种可直接加载到上述合成器或合成器组的内部存储器中的计算机程序产品，该产品包括软件代码部分，用于当在合成器或合成器组上执行程序时，执行根据本发明的方法的步骤。

本发明还在于一种可在上述合成器或合成器组中使用的介质，其上存储有可直接加载到合成器或合成器组的内部存储器中的计算机程序产品，该产品包括软件代码部分，用于当在合成器或合成器组上执行程序时，执行根据本发明的方法的步骤。

附图说明

在下面参照附图给出的描述期间，本发明的其他特征和优点将变得清楚，其中描述是通过非限制性的示例方式提供的。

图1是本发明的一个示例的流程图。

图2是使用本发明方法的一个示例的图。

具体实施方式

本发明的方法1以下面参照图1流程图描述的方式进行。该方法在于恢复其频率ω和相位已知的峰P_i和峰P_i+N之间的谐频。

在第一步骤2中，该方法例如通过现有技术中已知的线性预测法或内插法，估计缺失峰P_i+1到P_i+N-1的每一个的频率

和幅度A。

考虑包括一连串相连的峰P_i(A_i，ω_i，_i)的谐频，P_i(A_i，ω_i，_i)在时间iT处是已知的，并且由下列表征：

A_i，在时间iT处峰的幅度；

ω_i，在时间iT处峰的频率；和

_i，在时间iT处峰的相位模2π。

利用例如ω_i与ω_i+N之间的线性内插，或者例如论文″Enhanced PartialTracking using linear Prediction″，Mathieu Lagrange，Sylvain Marchand，MartinRaspaud and Jean-Bernard Rault，Proceedings of the Digital Audio Effects(DAFx)Conference，pp 141-146，Queen Mary College，University of London，UK，September 2003中所描述的线性过去或未来预测(past or future prediction)，或者利用加权的过去或未来合并，来估计峰P_i与P_i+N之间的缺失峰的频率。

通过例如A_i与A_i+N之间的线性内插，线性过去或未来预测或者加权的过去或未来合并，来估计缺失峰的幅度A。

在第二步骤3中，该方法从峰P_i的相位到峰P_i+N的相位，逐个峰地计算相位对之前估计的每个频率ω执行该计算。

令_i和ω_i为起始相位和频率，并且

为要重构的范围内的估计频率。为了扩展峰P_i与峰P_i+N之间的谐频，根据下面表达式计算相位：

为了避免产生将会影响重新合成的质量的不连续，有必要得到在时间i+N处等于_i+N的重构相位在上述表达式(6)中的数据要么是近似的要么是预测的情况下，统计上是不可能得到该相等的。因此，该方法的后继步骤将在时间i+N处计算的相位误差err分到所有之前重构的缺失峰P_i+1到P_i+N-1之间。

在第三步骤4中，该方法计算在同一峰P_i+N处的计算出的相位与已知相位_i+N之间的相位误差err。该计算可以使用下面的等式系统：

如果则

如果

则

否则

在第四步骤5中，该方法将每个计算出的相位校正一个值，该值是相位误差err的函数。典型地根据下面表达式，将在时间i+N处计算出的相位误差均匀分到计算出的相位之间：

该分布不必是均匀的，并且可以服从例如非线性法则。

图2使用的例子在于在声音信号的谐波分析时，例如在参数编码期间，利用本发明的方法1恢复谐频。声音信号s(n)用一组振荡器表示，振荡器的参数(频率、幅度)随着时间缓慢变化。按常规的方式，谐波分析包括用于确定这些参数的值的短期时间/频率分析6，之后提取峰7，然后跟踪谐频8。在通过本发明的方法1恢复谐频之前，检测谐频中的间隙9。然后将通过执行方法1重构的峰作为由谐波分析产生的峰对待，并且可以通过例如现有技术的(三阶或五阶)相位内插法之一，进行与从这些重构的峰恢复的谐频对应的信号的加性合成10。

Claims

1.一种在谐波分析期间恢复声音信号的谐频的方法(1)，在谐波分析中，声音信号被分成时间帧，对时间帧应用时间/频率分析，其提供由采样频率帧表示的连续短期频谱，该分析还在于提取频率帧中的频谱峰并将它们在时间上连接在一起以形成谐频，所述恢复其频率和相位已知的峰P_i与峰P_i+N之间的谐频的方法特征在于，它包括步骤：

·估计(2)该谐频的缺失峰P_i+1到P_i+N-1中的每一个的频率

·对于之前估计的所有频率

从峰P_i的相位到峰P_i+N的相位，逐个峰地计算(3)相位

·计算(4)在同一峰P_i+N处的计算出的相位与已知相位之间的相位误差err；

·将每个计算出的相位

校正(5)一个值，该值是相位误差err的函数。

2.如权利要求1所述的用于恢复声音信号的谐频的方法(1)，其中，相位是根据下面的公式计算出的，其中_i和

{\hat{ω}}_{i} = ω_{i}

是峰P_i的相位和频率，并且_i+N和

{\hat{ω}}_{i + N} = ω_{i + N}

是峰P_i+N的相位和频率：

3.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1)，其中，通过已知峰P_i与P_i+N的频率之间的线性内插，来估计缺失峰P_i+1到P_i+N-1的频率

4.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1)，其中，通过线性过去预测来估计缺失峰P_i+1到P_i+N-1的频率

5.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1)，其中，通过线性未来预测来估计缺失峰P_i+1到P_i+N-1的频率

6.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1)，其中，通过线性过去预测和线性未来预测的加权组合，来估计缺失峰P_i+1到P_i+N-1的频率

7.如前面任一权利要求所述的用于恢复声音信号的谐频的方法(1)，还包括步骤：通过已知峰P_i与P_i+N的幅度A之间的线性内插，估计谐频的缺失峰P_i+1到P_i+N-1中的每一个的幅度。

8.如权利要求1到6中任一个所述的用于恢复声音信号的谐频的方法(1)，还包括步骤：通过线性过去预测来估计谐频的缺失峰P_i+1到P_i+N-1中的每一个的幅度。

9.如权利要求1到6中任一个所述的用于恢复声音信号的谐频的方法(1)，还包括步骤：通过线性未来预测来估计谐频的缺失峰P_i+1到P_i+N-1中的每一个的幅度。

10.如权利要求1到6中任一个所述的用于恢复声音信号的谐频的方法(1)，还包括步骤：通过线性过去预测和线性未来预测，来估计谐频的缺失峰P_i+1到P_i+N-1中的每一个的幅度。

11.如前面任一权利要求所述的用于恢复声音信号的谐频的方法(1)，其中，相位校正在于将在时间i+N处的计算出的相位误差err均匀分布到谐频的所有缺失峰P_i+1到P_i+N-1之间。

12.如权利要求11所述的用于恢复声音信号的谐频的方法(1)，其中，相位校正是由等式确定的：

13.如权利要求12所述的用于恢复声音信号的谐频的方法(1)，其中，相位校正是使用等式系统确定的：

如果则

如果则

否则

14.一种用于实现如前面任一权利要求所述的方法的声音信号合成器，特征在于，它包括：

·用于估计该谐频的缺失峰P_i+1到P_i+N-1中的每一个的频率的装置；

·用于对于之前估计的所有频率

从峰P_i的相位到峰P_i+N的相位逐个峰地计算相位

的装置；

·用于计算在同一峰P_i+N处的计算出的相

与已知相位之间的相位误差err的装置；

·用于将每个计算出的相位

校正一个其是相位误差err的函数的值的装置。

15.一种可直接加载到如权利要求14所述的合成器或合成器组的内部存储器中的计算机程序产品，该产品包括软件代码部分，用于当在合成器或合成器组上执行程序时，执行如权利要求1到13中任一个所述的方法(1)的步骤。

16.一种可在如权利要求14所述的合成器或合成器组中使用的介质，其上存储有可直接加载到合成器或合成器组的内部存储器中的计算机程序产品，该产品包括软件代码部分，用于当在合成器或合成器组上执行程序时，执行如权利要求1到13中任一个所述的方法(1)的步骤。