CN1729510A

CN1729510A - 音频编码中的正弦波选择

Info

Publication number: CN1729510A
Application number: CNA2003801068321A
Authority: CN
Inventors: A·J·格里特斯; A·C·登布林克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-12-19
Filing date: 2003-11-19
Publication date: 2006-02-01
Also published as: JP2006510937A; EP1576584A1; KR20050085761A; AU2003276636A1; US20060212501A1; WO2004057576A1

Abstract

一种通过由多个正弦波表示(12)至少部分音频信号来编码(1)音频信号(x(t))的方法，该方法包括下列步骤：对所述音频信号的第一片段执行分析；根据所述分析选择候选正弦波；为至少一个候选正弦波确定被限定为以下程度的相位一致性，在这一程度上所述候选正弦波某时刻的相位可以从该候选正弦波其它时刻所确定的相位来预测；以及当所述候选正弦波的相位一致性高于预定阈值时便将其选择为被选正弦波。根据本发明的正弦波选择对于给定的音频质量将导致更小数目的正弦波被编码，这对于给定音频质量在比特率方面是有利的。

Description

音频编码中的正弦波选择

技术领域

本发明涉及音频信号的编码，其中与再现该音频信号相关的正弦波被选择出来，并且其参数被编码。

背景技术

在正弦音频编码器中，至少部分音频信号由多个通常用其频率、振幅和(可选地)相位描述的正弦波表示。在编码过程中，将音频信号分割为时间片段，这些片段被分析以得到它们的频率成分。通常，在音频编码器中使用的片段长度在5和60ms的范围内。为每个片段选择多个其参数随后被编码的正弦波。为了最小化给定音频质量的比特率，仅仅需要选择和编码相关的正弦波，即仅仅是以一个能接受的感知质量再现已编码音频信号所需要的那些正弦波。

R.McAulay和T.Quartieri，“Speech analysis/synthesis based onsinusoidal representation.”，IEEE Transactions on Acoustics，Speechand Signal Processing，1986，43：744-754，公开了一种被称为峰值拾取的用于选择正弦波的方法。该峰值拾取法包括选择那些在幅度谱中具有峰值的频率。选择正弦波的另一种方法是被称为寻求匹配的迭代过程，这公开于R.Heusdens和S.van de Par，“Rate-distortion optimalsinusoidal modeling of audio and speech using psychoacousticalmatching pursuits”，Proc.IEEE Int.Conf.Acoust.Speech and signalProc.，Orlando(USA)，2002。每次迭代，幅度谱中具有最高峰值的频率被选择并且随后被从信号中减掉。剩余信号在下次重复中使用。通常当选择了固定数目的正弦波时该过程停止。

峰值拾取法中出现的一个问题是：由于选择了所有的峰值，事先无法知道估计多少个正弦波。特别是当幅度谱为噪声时，过多的正弦波被选择。与峰值拾取相对，寻求匹配法中选择的正弦波数目是固定的。因此，为了保证所有相关正弦波都被选择，应当把这个固定数目设的较高。又一次，过多的正弦波将被选择。过多正弦波的选择导致高比特率，因为所有这些正弦波都必须被编码。另一个缺点是处理时间方面的额外花费。例如，感知建模是在许多音频编码器中使用的过程，其用于仅仅编码能被人耳听到那部分音频信号。这一建模可能是一个花费高昂的过程，结果导致大量需要分析的正弦波都是不希望得到的。

发明内容

本发明的主题是提供一种音频编码，其对于给定音频质量在比特率方面是有利的。对于这一目标，本发明提供了如在独立权利要求中所定义的编码方法、音频编码器以及音频系统。从属权利要求中详细说明了有利的实施方式。

本发明的第一方面提供一种正弦波编码方法，其包括如下步骤：对音频信号的第一片段执行分析；根据所述分析选择候选正弦波；为至少一个候选正弦波确定被限定为以下程度的相位一致性，在该程度上所述候选正弦波某时刻的相位能够从该候选正弦波其它时刻所确定的相位预测出来；并且当所述候选正弦波的相位一致性高于预定阈值时将其选为被选正弦波。所述用于选择候选正弦波的分析通常为频率分析。这样的频率分析例如运用于传统正弦波选择技术，如峰值拾取或寻求匹配。所述候选正弦波某时刻的相位能够从该候选正弦波其它时刻确定的相位预测，因为其频率和预测时间与确定时间之间的时间差是已知的。本发明基于以下的理解：当在解码器中合成正弦波以便再现解码信号时，正弦波的相位将连贯。通过选择那些相位连贯的正弦波做出了更好的选择。只有被选的正弦波被编码。结果，基于相位一致性的选择过程将导致对于给定的音频质量更小数目的正弦波被编码，这对于给定音频质量在比特率方面是有利的。

本发明的一个实施例中，所述候选正弦波相位一致性通过下列步骤确定：将所述音频信号的第二片段分割为至少第一和第二部分；至少在第一和第二部分中确定所述候选正弦波的实际相位；使用第一部分中的实际相位作为预测第二部分中实际相位的输入；并且根据第二部分中实际相位与预测相位之间的预测误差来确定所述候选正弦波的相位一致性。通常，第二片段将等同于在候选正弦波的选择中使用的第一片段，但并非一定如此。这个实施例的一个优点是候选正弦波的实际相位能够容易地通过执行一种诸如FFT过程的频率分析而被确定，对于该频率分析需要音频信号的一部分作为输入。

在本发明的另一个实施例中，对被选正弦波应用进一步的选择过程。该进一步的选择过程包括如下步骤：针对至少一个被选正弦波定义一个在所述被选正弦波频率附近的局部频段；组合所述局部频段内的频率分量的振幅，从中排除了所述局部频段内的至少一个被选正弦波；并且依赖于振幅的组合进一步将所述被选正弦波选为进一步的被选正弦波。对于应用在被选正弦波上的进一步选择过程，对音频信号的第三片段执行一种分析。通常，第三片段将等同于在被选正弦波选择中使用的第二片段，但并非一定如此。通过组合所述局部频段内的频率分量的振幅(从中排除了所述局部频段内的至少一个被选正弦波)，获得所述被选正弦波的局部频段内的背景频率分量的一种量度。通过使用这个量度，做出更好的选择。同样，进一步选择基于正弦波的振幅，不依赖于其相位。因此，与前一个选择过程所选择的正弦波数目相比，该进一步选择可导致进一步被选的正弦波的数目的进一步减少。仅仅进一步被选的正弦波将被编码。结果，进一步选择过程导致对给定音频质量需要编码的正弦波更少，这对于给定音频质量在比特率方面是优越的。由于基于相位一致性的选择过程同基于振幅的进一步选择过程之间是独立的，还可以并行执行这两个选择过程。由此两个选择过程从候选正弦波中做出选择，随后组合两个结果。

在本发明的又一个实施例中，依赖所述被选正弦波的频率来定义处于所述被选正弦波频率附近的所述局部频段的带宽。由于对所述被选正弦波频率的依赖，可以调整进一步选择过程使其适用于不同频率。在本发明的再一个实施例中，对所述被选正弦波频率的依赖基于人类对音频的感知。这样一种依赖的一个例子是由巴克(Bark)带宽定义的。一个巴克是一个感知频率单元，这在本领域内是已知的。其它例子为Mel标度和ERB标度，它们也是在本领域内已知的。考虑人类对音频的感知，进一步选择一个被选正弦波作为进一步的被选正弦波是更好的决定。

根据本发明的另一方面，当所述被选正弦波的振幅关于所述振幅组合而言重要时便进一步将其选择为进一步的被选正弦波，这一重要性是通过对于在所述被选正弦波的振幅与所述被选正弦波的局部频段内(从中排除了所述局部频段内的至少一个被选正弦波)的频率分量的加权平均振幅之间的差异设定一个阀值来计算的。通过设定所述差异阈值，获得了一种用于确定被选正弦波峰值的合适的方法。

根据本发明的再一个方面，所述被选正弦波的振幅的重要性是通过对于在所述被选正弦波的振幅与所述被选正弦波局部频段内(从中排除了所述局部频段内的至少一个被选正弦波)的频率分量的加权平均振幅之间的差异比率设定一个阈值、并且通过对于所述局部频段内(从中排除了所述局部频段内的至少一个被选正弦波)频率分量的振幅的加权偏差设定一个阈值来计算。对所述偏差，例如可以使用标准差定义。通过对于所述比率设定阈值，获得了用于确定被选正弦波峰值的另一种合适的方法。

参照下文中描述的实施例，说明本发明的前述方面以及其它方面。

附图说明

在附图中：

图1示出根据本发明的音频编码器的实施例；

图2示出一个将音频片段分割成更小部分以便确定候选正弦波的相位一致性的例子；

图3示出的框图表示根据本发明应用于被选正弦波的进一步选择过程；

图4示出根据本发明的音频系统的一个实施例。

附图中仅仅示出理解本发明所必需的那些单元。

具体实施方式

图1示出根据本发明的音频编码器1的实施例，其包括用于获得输入音频信号x(t)的输入单元10。音频编码器1将输入信号分离为三个分量：瞬态信号分量、正弦信号分量以及噪声信号分量。音频编码器1包括瞬态编码器11、正弦编码器12以及噪声分析器13。

瞬态编码器11包括瞬态检测器(TD)110、瞬态分析器(TA)111以及瞬态合成器(TS)112。首先，信号x(t)进入瞬态检测器110、瞬态分析器111以及减法器15。瞬态检测器110估计其中是否存在瞬态信号分量并且估计其位置。这一信息被提供给瞬态分析器111。这一信息还可以用在正弦分析器(SA)120或噪声分析器(NA)13中以获得有利的信号引发的分段。瞬态分析器111设法提取出瞬态信号分量(的主要部分)。这例如通过将一个形状函数同一个信号片段相匹配并且确定低于该波形函数的成分来完成，该形状函数例如是一定(小)数目的正弦波。这一信息包含在瞬态编码C_T中。该瞬态编码C_T被提供给瞬态合成器112和多路复用器14。在减法器15中将合成后的瞬态信号分量从输入信号x(t)中减掉，产生的信号x₁被提供给正弦分析器120和另一个减法器16。正弦分析器120确定正弦信号分量。这一信息包含在提供给正弦合成器(SS)121和多路复用器14的正弦编码C_S中。从该正弦编码C_S中，正弦信号分量由正弦合成器121重构。在减法器16中将这一信号从输入信号x₁中减掉。剩余信号x₂中无(大的)瞬态信号分量和(主要的)正弦信号分量，由此假定其主要由噪声组成。因此，将信号x₂提供给噪声分析器13，在那里对其频谱和时间包络进行分析。这一信息包含在噪声编码C_N中。在多路复用器14中，建立包括编码C_T、C_S和C_N的音频流AS。该音频流AS被提供给例如数据总线、天线系统、存储介质等。

下面将讨论根据本发明一个实施例的正弦分析器120中的正弦波选择。也可能在瞬态分析器111中使用正弦波选择过程，但这在实际中很少使用，因为其中只分析较小数目的正弦波。

在执行正弦波的实际选择之前，首先选择多个候选正弦波。在音频信号的第一片段上执行一种分析，从这个分析选出候选正弦波。该选择可以通过诸如峰值拾取或在第一片段上使用频率分析的寻求匹配一类的传统技术来执行。结果为多个候选正弦波，它们的频率储存在F＝(f₁，f₂，…，f_L)中，L为候选正弦波数目并且频率f_i以赫兹(Hz)定义。将在至少一个候选正弦波上应用一种更具体的正弦波选择过程，该选择过程基于候选正弦波的相位一致性。候选正弦波的相位一致性被限定为以下的程度，在该程度上所述候选正弦波某时刻的相位能够从该候选正弦波其它时刻所确定的相位来预测。接下来，当所述候选正弦波的相位一致性高于预定阈值时将其选为被选正弦波。

在本发明的一个实施例中，候选正弦波的相位一致性是通过首先将音频信号的第二片段分割成更小的部分来确定的。该第二片段通常等同于在选择候选正弦波时使用的第一片段，但也可使用不同的第二片段。必须有两个或两个以上的更小的部分以确定候选正弦波的相位一致性。这些更小的部分可以相互覆盖，但并非一定如此。第二片段x_s可以例如被分割为如图2所示的三个相互覆盖的更小部分。如果N为第二片段x_s的采样数目并且N为偶数，则将更小部分定义如下：

x_{s_{1}} [k] = x_{s} [k]

x_{s_{2}} [k] = x_{s} [k + M / 2] - - - (1)

x_{s_{3}} [k] = x_{s} [k + M]

其中M＝N/2且1≤k≤M。更小部分x_s1、x_s2和x_s3各具有长度M。这三个更小部分的每一个上，确定具有F中的频率f_i的候选正弦波的实际相位。为了这个目的，可以给这些更小部分加上适于频率分析的窗，此后可执行如FFT过程的频率分析。在图2中由₁、₂和₃示出了用于相位确定的位置的例子。接下来，可以预测相位，本例中从更小部分1到2，从2到3并且从1到3。实际相位与预测相位之间的差导致针对候选正弦波的下列预测误差：

E_1，2＝(₁-(₂-T/2·2π·f_i))mod(2π)

E_2，3＝(₃-(₂+T/2·2π·f_i))mod(2π) (2)

E_1，3＝(₃-(₁+T·2π·f_i))mod(2π)

其中预测误差是取余意义(mod(2π))，相位(₁、₂和₃以弧度给出，T以秒给出并且定义为T＝M/F_s，其中F_s为采样频率(例如44.1kHz)。使用基于这些预测误差E的某种准则，可将候选正弦波选为被选正弦波。一种可能的准则也许为检验是否至少下列条件之一成立：

|E_1，2|＜c

|E_2，3|＜c (3)

|E_1，3|＜2·c

其中c通常依赖于第二片段x_s的采样数目N以及更小部分x_s1、x_s2和x_s3的采样数目M。一个定义c的例子为：

c = \frac{2 \cdot π}{3 \cdot N} \cdot \frac{M}{2} - - - (4)

在本发明的另一个实施例中，执行被选正弦波的进一步选择。图3示出的框图表示应用到被选正弦波上的进一步选择过程。这些被选正弦波的频率存储在F_q＝(f₁，f₂，…，f_R)中，R为被选正弦波的数目且频率f_i以赫兹(Hz)定义。可以给第三片段加上适于频率分析的窗，这产生加窗片段x_w。第三片段通常将等同于在前述正弦波选择中使用的第二片段，但也可以使用不同的第三片段。首先，执行预处理步骤(PP)。(I)中，针对来自F_q的每个f_i，被选正弦波被合成并且从加窗片段x_w中减掉。(II)中，将结果片段x_ws补零到长度p并且通过例如FFT过程来分析其频率分量。结果幅度谱由|X_S|表示。其次，(III)中，将片段x_w补零到长度P并且在不减掉频率时分析其频率分量，结果产生幅度谱|X|。在预处理步骤之后，针对至少一个具有来自被(IV)初始化的F_q的频率f_i的被选正弦波启动选择过程。(V)中，在所述频率f_i附近确定局部频段。为了定义局部频段，可以使用不同的定义。在本例中选择使用巴克带宽，例如通过临界带宽定义：

b(f_i)＝25+75·(1+1.4·10^-6·f_i ²)^0.69 (5)

从以赫兹(Hz)定义的临界带宽b(f_i)出发，边界频率f_a和f_b由下式求出：

\begin{matrix} f_{a} = \max (f_{i} - \frac{b (f_{i})}{2}, 0) \\ f_{b} = \min (f_{i} + \frac{b (f_{i})}{2}, \frac{F_{s}}{2}) \end{matrix} - - - (6)

频谱用从0到(p-1)变化的下标i_spect检索，下标i_spect与频率f_spect的关系如下：

\frac{i_{spect}}{P} \cdot F_{s} = f_{spect} - - - (7)

因此，频谱中对应于边界频率f_a和f_b的下标i_a和i_b由下式求出：

\begin{matrix} i_{a} = round (\frac{f_{a} \cdot P}{F_{s}}) \\ i_{b} = round (\frac{f_{b} \cdot P}{F_{s}}) \end{matrix} - - - (8)

其中round(r)表示将r四舍五入为最近的整数。既然定义了局部频段，(VI)中就通过下式从|X_s|计算被选正弦波频带的平均振幅 m_i：

{\overset{&OverBar;}{m}}_{i} = \frac{Σ_{k = i_{a}}^{i_{b}} (A_{s} (k) \cdot W_{1} (k))}{Σ_{k = i_{a}}^{i_{b}} (W_{1} (k))} - - - (9)

其中A_s(k)是幅度谱|X_s|中下标k处的频率分量的振幅，并且W₁(k)为依赖下标k的权重系数。对所有k，权重系数可以是不变得。但是，例如为了降低边界效应，当下标k接近边界频率下标之一i_a或i_b时权重系数也可以例如减小。依赖其局部频段内的其它振幅将被选正弦波进一步选为进一步的被选正弦波。因此，一种用于将被选正弦波进一步选为进一步的被选正弦波的方法是使用一种准则，该准则基于(9)中计算得到的被选正弦波频段的加权平均振幅 m_i和被选正弦波的振幅A_i＝A(i_fi)，其中幅度谱中的下标i_fi可由下式求出：

i_{f_{i}} = round (\frac{f_{i} \cdot P}{F_{s}}) - - - (10)

在本发明的再一个实施例中，进一步选择过程中使用的准则还包括被选正弦波的局部频段的标准差σ_i，它在(VI)中由下式计算：

σ_{i} = \sqrt{\frac{Σ_{k = i_{a}}^{i_{b}} ({(A_{s} (k) - {\overset{&OverBar;}{m}}_{i})}^{2} \cdot W_{2} (k))}{Σ_{k = i_{a}}^{i_{b}} (W_{2} (k))}} - - - (11)

其中W₂(k)是依赖下标k的另一个权重系数。对所有k，该权重系数可以是不变的。但是，例如为了降低边界效应，当下标k接近边界频率下标之一i_a或i_b时该权重系数还可以例如降低。W₂(k)可以被选择与(9)中使用的W₁(k)相等，但并非一定如此。从被选正弦波的振幅A_i、平均振幅 m_i以及被选正弦波的频段的标准差σ_i可以按下式定义一个用于估量被选正弦波峰值的比率r_i：

r_{i} = \frac{| A_{i} - {\overset{&OverBar;}{m}}_{i} |}{σ_{i}} - - - (12)

在选择准则(VIII)中，这个比率r_i与阈值T_i相比较。阈值T_i可以例如为固定阈值或依赖某些参数的阈值，所依赖的某些参数可为被选正弦波的频率f_i、频谱中频率的下标i_fi和/或用于频率分析的采样数目P。定义阈值T_i的一个例子为：

T_{i} = (2 \cdot i_{f_{i}}) / (P / 2) \cdot 5 + 1 - - - (13)

如果比率r_i高于阈值T_i，将频率f_i的被选正弦波保持为编码状态(S)。否则将拒绝(NS)该被选正弦波。

图4示出根据本发明的音频系统的一个实施例，该系统包括如图1中所示的音频编码器1。这样一个系统提供录音和/或传输功能。通过诸如音频播放器、麦克风或音频输入连接器等的音频信号获取设备41来获取音频信号x(t)。音频信号x(t)作为如图1所示的音频编码器1的输入。将输出音频流AS从音频编码器1提供到将音频流AS格式化使其适合于通信信道43的格式化单元42，通信信道43可为无线连接、数据总线或存储介质。如果通信信道43为存储介质，则该存储介质可以为固定在系统中的或者也可以为可移动硬盘、记忆棒等。通信信道43可以是音频系统的一部分，但经常其处于音频系统外部。

应注意前述实施例是说明而不是限制本发明，并且本领域的技术人员在不背离附加权利要求的范围的前提下将能够设计出许多替换实施例。在权利要求中，括号间的任何参考标记都不应解释为限制权利要求。措词“包括”不排除出现列于权利要求中的元件或步骤之外的其它元件或步骤。可以通过包括若干特定元件的硬件并且通过适当编程的计算机来实现本发明。在一个设备权利要求中列举了若干装置，这些装置中的几个可以被实现为同一硬件项。在相互不同的从属权利要求中陈述某些措施的这一仅有事实并不表示这些措施的结合不能获得益处。

总之，本发明提供一种通过由多个正弦波表示至少部分所述音频信号来编码音频信号的方法，该方法包括下列步骤：对所述音频信号的第一片段执行一种分析；根据所述分析选择候选正弦波；为至少一个候选正弦波确定被限定为以下程度的相位一致性，在这种程度上所述候选正弦波某时刻的相位可以从该候选正弦波其它时刻所确定的相位来预测；并且当所述候选正弦波的相位一致性高于预定的阀值时便将其选为被选正弦波。根据本发明的正弦波选择对于给定的音频质量将导致更小数目的正弦波被编码，这对于给定的音频质量在比特率方面是优越的。

Claims

1.一种方法，其通过由多个正弦波表示至少部分的音频信号来编码所述音频信号，该方法包括下列步骤：

-对所述音频信号的第一片段执行分析；

-基于所述分析选择候选正弦波；

-为至少一个候选正弦波确定被限定为以下程度的相位一致性，在这一程度上所述候选正弦波某时刻的相位可以从该候选正弦波其它时刻所确定的相位来预测；以及

-当所述候选正弦波的相位一致性高于预定阈值时便将其选择为被选正弦波。

2.根据权利要求1的方法，其中，所述候选正弦波的相位一致性的确定包括下列步骤：

-将所述候选正弦波的第二片段分割为至少第一和第二部分；

-至少在第一和第二部分中确定所述候选正弦波的实际相位；

-将第一部分中的实际相位用作预测第二部分中实际相位的输入；以及

-基于第二部分中实际相位与预测相位之间的预测误差确定所述候选正弦波的相位一致性。

3.根据权利要求1的方法，其中，该方法还包括从被选正弦波的进一步选择，其包括下列步骤：

-针对至少一个被选正弦波定义一个在所述被选正弦波的频率附近的局部频段；

-组合所述局部频段内的频率分量的振幅，从中排除了所述局部频段内的至少一个被选正弦波；以及

-依赖于振幅组合将所述被选正弦波进一步选择为进一步的被选正弦波。

4.根据权利要求3的方法，其中，依赖于所述被选正弦波的频率来定义在所述被选正弦波频率附近的所述局部频段的带宽。

5.根据权利要求4的方法，其中，对所述被选正弦波频率的依赖性基于人类对音频的感知。

6.根据权利要求3的方法，其中，当所述被选正弦波的振幅关于所述振幅组合重要时将其进一步选为进一步的被选正弦波，这一重要性是通过对于在所述被选正弦波振幅与所述被选正弦波的局部频段内的频率分量的加权平均振幅之间的差异设定一个阈值来计算的，从中排除了所述局部频段内的至少一个被选正弦波。

7.根据权利要求3的方法，其中，当所述被选正弦波的振幅关于所述振幅组合重要时将其进一步选择为进一步的被选正弦波，这一重要性通过设定下述比率的阈值来计算：

-在所述被选正弦波振幅与所述被选正弦波的局部频段内的频率分量的加权平均振幅之间的差异，从中排除了所述局部频段内的至少一个被选正弦波；以及

-所述局部频段内频率分量的振幅的加权偏差，从中排除了所述局部频段内的至少一个被选正弦波。

8.一种音频编码器，用于通过由多个正弦波表示至少部分的音频信号来编码所述音频信号，该音频编码器包括：

-用于对所述音频信号的第一片段执行分析的装置；

-用于基于所述分析选择候选正弦波的装置；

-用于为至少一个候选正弦波确定被限定为以下程度的相位一致性的装置，在这一程度上所述候选正弦波某时刻的相位可从所述候选正弦波其它时刻所确定的相位来预测；以及

-用于当所述候选正弦波的相位一致性高于预定阈值时便将其选为被选正弦波的装置。

9.根据权利要求8的音频编码器，其中该音频编码器还被设计用于执行从被选正弦波的进一步选择，对于该进一步选择所述音频编码器还包括：

-用于针对至少一个被选正弦波定义处于所述被选正弦波的频率附近的局部频段的装置；

-用于组合所述局部频段内的频率分量的振幅的装置，从中排除了所述局部频段内的至少一个被选正弦波；以及

-用于依赖于前述振幅组合将所述被选正弦波进一步选择为进一步的被选正弦波的装置。

10.音频系统，包括用于获取音频信号的装置、如权利要求8或9所述的用于编码所述音频信号以获取已编码音频信号的音频编码器，以及用于将前述已编码音频信号格式化为适于存储和/或传输的格式的格式化单元。