CN1216366C

CN1216366C - 基于正弦模型的音频信号编码

Info

Publication number: CN1216366C
Application number: CN018059643A
Authority: CN
Inventors: R·霍伊斯登斯; R·瓦芬; W·B·克莱恩
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Pendragon Wireless LLC
Priority date: 2000-11-03
Filing date: 2001-10-31
Publication date: 2005-08-24
Anticipated expiration: 2021-10-31
Also published as: US7120587B2; ATE354850T1; DE60126811T2; EP1338001A1; DE60126811D1; CN1408110A; EP1338001B1; WO2002037476A1; KR20020070373A; JP2004513392A; US20030009332A1

Abstract

本发明有关一种信号编码装置和方法。使用了一种用于正弦建模的综合分析算法。按时间划分一个要被建模的输入信号，生成多个帧。从词典中选出函数以生成包含在每个帧中的输入信号部分的近似。该选择是基于一个声学心理学范数执行的。在本方法的一个实例中，该函数词典由复指数组成，并且，它们被迭代地选出以构成包含在每个帧中的输入信号部分。在每次迭代之后，都根据在下一步骤中要建模的剩余信号的屏蔽阈值的改变，修改声学心理学范数。

Description

基于正弦模型的音频信号编码

技术领域

本发明有关一个装置和一种方法，用于信号编码，特别是，但不仅仅是，有关一种用于编码音频信号的装置和方法。

背景技术

正弦建模是一种已知的信号编码方法。一个要被编码的输入信号被划分为一些帧，对每个帧应用正弦建模技术。每个帧的正弦建模都包括寻找一组以幅值、频率、相位和阻尼系数为参数的正弦信号，表示包含在该帧中的输入信号部分。

正弦建模可以涉及挑选输入信号中的频谱峰值。或者，可以使用综合分析技术。一般，综合分析技术包括迭代地识别并消除输入帧中包含的最大能量的正弦信号。如果能识别出足够的正弦分量，执行综合分析的算法能生成输入信号的准确复现。

以上描述的综合分析的一个局限性是，具有最大能量的正弦分量可能并非感性上最有意义的。在执行正弦建模的目的是减小复现一个输入信号所需的信息量的情况下，按频谱分量的能量对输入信号建模可能比按频谱分量的感性意义对输入信号建模效率低。一种已知的将人类听觉系统的心理声学考虑在内的技术是加权匹配追踪。总的来说，匹配追踪是通过对从冗余词典中选出的元素进行有限扩充来近似一个输入信号的。利用加权匹配追踪方法，按照一个感性加权改变字典元素的比例。

为了更好地解释加权匹配追踪方法，以下描述一个通用的匹配追踪算法。该通用匹配追踪算法从一个Hilbert空间H中单位范数元素的一个完全词典中选择函数。若该词典包含元素g_r并由D＝(g_r)_r∈Γ给出，则H是该词典元素的闭环线性跨度。x∈H域内的一个输入信号被投射到词典元素g_r，并且，从输入信号x中减去与输入信号x最匹配的元素，形成一个剩余信号。将前一步的剩余信号作为新的输入信号，重复这一过程。将第m-1次迭代后的冗余记为R^m-1x，并将与R^m-1x最匹配的词典元素记为g_rm，第m次迭代的冗余按下式分解：

R^m-1x＝<R^m-1x，g_rm>g_rm+R^mx (1)

其中g_rm∈D

| < R^{m - 1} x, g_{rm} > | = \sup_{r &Element; Γ} | < R^{m - 1} x, g_{r} > | - - - (2)

R^mx和g_rm的正交表明：

‖R^m-1x‖²＝|<R^m-1x，g_rm>|²+‖R^mx‖²

在按人类听觉改变词典元素g_r的比例时，该算法成为加权匹配追踪算法。

由于对词典元素加权会引入偏差，因此，当要被建模的信号包含词典元素之一时，加权匹配追踪算法可能没有选出正确的词典元素。并且，加权匹配追踪算法可能很难鉴别旁瓣峰值(在对输入信号开窗以将其划分为一些帧时引入)和被建模信号的实际分量。

发明内容

本发明推荐实例的一个目的是提供一种方法，例如，基于综合分析的正弦建模，以便在近似包含在一个有限长度帧中的信号部分时，能改善词典元素的选择。为此，本发明提供了一种信号编码方法，一种编码装置和一种发射装置。

本发明的一个第一方面提供了：

(a)接收一个输入信号；

(b)按时间划分该输入信号，生成多个帧，每个帧都包含该输入信号的一部分；

(c)从一个函数词典中挑选函数以近似每个帧中的信号；

其中，第(c)步的挑选过程是以一个范数为基础执行的，该范数的基础是一个组合，例如，表示为一个频率的函数的加权函数，和一个定义一组帧中每个帧的窗函数和要建模的输入信号部分的乘积，窗函数和要建模的输入信号部分的乘积可表示为一个频率的函数。该范数可定义为：

| | Rx | | = \sqrt{&Integral; \overset{&OverBar;}{a} (f) {| (\overset{&OverBar;}{wRx}) (f) |}^{2} df} - - - (3)

其中Rx代表一个要建模的输入信号部分， a(f)代表被表示为一个频率函数的加权函数的傅利叶变换，( wRx)(f)代表一个窗函数w(定义一组帧中的每一个帧)和Rx(表示为一个频率的函数)的乘积的傅利叶变换。该范数最好结合人类听觉的心理声学知识以协助步骤(c)的选择过程。

人类听觉的心理声学知识最好通过函数 a(f)引入该范数中。 a(f)最好是基于人类音频系统的屏蔽阈值。 a(f)最好是该屏蔽阈值的倒数。

第(c)步的挑选过程最好是在多个子步骤中执行，在每个子步骤中从一个函数词典中识别一个单独的函数。

从该帧中的输入信号中减去在第一个子步骤中识别出的函数，生成一个剩余信号，并且，在随后的每一个子步骤中，都识别出一个函数并将其从剩余信号中减去生成下一个剩余信号。

在每个子步骤中识别出的函数被相加，生成每个帧中信号的近似。

该范数最好适应于第(c)步的挑选过程的每个子步骤。

在第(c)步的挑选过程的每个子步骤中，最好根据一个当前的剩余信号推导一个新的范数。 a(f)最好随着每个子步骤中剩余信号的改变而更新，以便将该剩余信号的屏蔽特性考虑在内。最好根据屏蔽阈值的已知模型例如在MPEG层3标准中定义的模型，通过计算更新 a(f)。在另一个实例中，函数 a(f)保持恒定，以消除在每次迭代时重新估算剩余信号的屏蔽特性所带来的计算量。函数 a(f)可根据输入信号的屏蔽阈值保持恒定，以确保收敛。输入信号的屏蔽阈值最好也是按照一个已知模型计算的，例如MPEG层3标准中定义的模型。

函数 a(f)最好是基于人类听觉系统的屏蔽阈值的，并且是被编码帧中一个输入信号部分的屏蔽阈值的逆，并且，是利用该屏蔽阈值的一个已知模型计算的。

该范数最好按内积推导：

< x, y > = {&Integral;}_{0}^{1} \overset{&OverBar;}{a} (f) (\overset{&OverBar;}{wx}) (f) (\overset{&OverBar;}{wy}) * (f) df - - - (4)

将第m次迭代的冗余记为R^mx，并将前一次迭代的加权函数记为a_m-1，从函数词典中识别的函数使‖R^mx‖_am-1最小，这里‖·‖_am-1代表利用 a_m-1计算的范数。

该音频编码方法的收敛性是由下面定理的有效性确保的，即，对于所有的m＞0，存在一个λ＞0，使

{| | R^{m} x | |}_{{\overset{&OverBar;}{a}}_{m}} \leq 2^{- λm} {| | x | |}_{{\overset{&OverBar;}{a}}_{0}},

这里，x代表要被建模的输入信号的起始部分。

该音频编码方法的收敛性是由每个子步骤中每个帧内屏蔽阈值的增加或不变性确保的，因此，在整个频率范围f∈[0，1)内， a_m(f)≤ a_m-1(f)。

窗函数可以是一个Hanning窗。窗函数可以是一个Hamming窗。窗函数还可以是一个矩形窗。窗函数可以是任何合适的窗。

本发明包括按本方法工作的一个编码装置。

附图描述

为了更好地理解本发明，并且为了描述怎样将本发明付诸实现，下面通过举例的方式并借助于附图描述本发明的推荐实例，其中：

图1示出了一个按本发明技术工作的编码装置的实例，

图2示出了按本发明一个实例的一个发射装置。

具体实施例详述

在以下每一种实例中，都描述了一个语音编码过程中的一个具体步骤，称为从一个函数词典中挑选函数，生成每个帧中信号的近似的步骤。该挑选步骤是所描述音频编码方法中关键的第三步骤(c)，该方法还包括初始步骤：(a)接收一个输入信号；(b)按时间划分该输入信号，生成多个帧，每个帧都包含该输入信号的一部分。

上面提到的步骤(a)和步骤(b)对于许多信号编码方法来说都是通用的，因此本技术专业人员很容易理解，此处不必过多解释。

在以下描述的每一个实例中，选择步骤(c)包括：从一个函数词典中选择函数，生成每个帧中信号的近似，该选择步骤是在一个范数的基础上执行的，该范数被定义为

| | Rx | | = \sqrt{&Integral; \overset{&OverBar;}{a} (f) {| (\overset{&OverBar;}{wRx}) (f) |}^{2} df} - - - (3),

其中，Rx代表要被建模的输入信号的一部分， a(f)代表一个加权函数的傅利叶变换，该加权函数被表示为一个频率的函数，( wRx)(f)代表w和Rx乘积的傅利叶变换，w是一个定义一组帧中每个帧的窗函数，Rx表示为一个频率的函数。

现在描述本发明的第一个实例。在该实例中，词典函数包含复指数，因此D＝(g_r)_r∈Γ，这里，对于r∈[0，1)，

g_{r} = \frac{1}{\sqrt{N}} e^{i 2 πrn}, n = 0, . . ., N - 1

为了找出在第m次迭代时的最匹配词典元素，要计算R^m-1x和每个词典元素的内积。在这一实例中，内积<R^m-1x，g_r>的计算值由下式给出

< R^{m - 1} x, g_{r} > = \frac{1}{\sqrt{N}} {&Integral;}_{0}^{1} {\overset{&OverBar;}{a}}_{m - 1} (f) (\overset{&OverBar;}{w R^{m - 1} x}) (f) {\overset{&OverBar;}{w}}^{*} (f - r) df - - - (5)

函数 a(f)中结合有将人类听觉的声学心理学知识，是因为该函数包含人类听觉系统的屏蔽阈值的逆，该值是根据前一次迭代的剩余信号，利用一个已知模型建模的。在前一次迭代中，屏蔽阈值是根据输入信号建模的。

随后，根据已知的前面已介绍过的公式(2)和按公式(1)计算的冗余值，计算最匹配的词典元素。

构造词典(例如本发明这一实例中介绍的)的使用能明显降低计算内积<R^m-1x，g_r>的计算复杂性。在如本发明这一实例中所介绍的复指数词典的情况下，可利用傅利叶变换计算公式(5)：

< R^{m - 1} x, g_{r} > = \frac{1}{\sqrt{N}} {&Integral;}_{0}^{1} {\overset{&OverBar;}{a}}_{m - 1} (f) (\overset{&OverBar;}{wRx}) (f) {\overset{&OverBar;}{w}}^{*} (f - r) df

= \frac{1}{\sqrt{N}} \underset{n &Element; Z}{Σ} ({&Integral;}_{0}^{1} {\overset{&OverBar;}{a}}_{m - 1} (f) (\overset{&OverBar;}{w R^{m - 1} x}) (f) e^{i 2 πfn} df) w^{*} (n) e^{- i 2 πrn} - - - (6)

因此，要为所有的r计算<R^m-1x，g_r>，就要计算wR^m-1x的傅利叶变换，结果乘 a。随后，计算该乘积的逆傅利叶变换，结果乘w^*，然后进行傅利叶变换。以这种方式，可以利用三次傅利叶变换操作计算公式(6)的结果。

一旦选定了这一迭代过程中的最匹配元素，就从剩余信号中减去该元素，减法操作的结果被作为下次迭代要建模的信号。以这种方式，可建立一个近似值，该值包含每次迭代过程中识别的词典元素的和。

取每个复指数函数之和的复共扼值，可生成一个实数值的正弦波信号。以这种方式，可建立一个实输入信号。该技术要求在每一步迭代中都找出一对词典元素(g_r ^*，g^r)。为了重构该实正弦波信号，还必须找出内积<g_r ^*，g^r>。这些内积并没有傅利叶变换方面的有效实现，但由于

< g_{r}^{*}, g^{r} > \approx 0

的r值总是0或1/2，因此，可以避免计算r值的多数范围的内积。由于这个原因，计算最匹配组<g_r ^*，g^r>的复杂度与找出最匹配指数函数g_r的复杂度是相同的。

第二个实例是基于上述第一个实例的，但与第一个实例不同的是，此处N非常大。在这种情况下， w(f)趋向一个Dirac delta函数并且公式

< R^{m - 1} x, g_{r} > = \frac{1}{\sqrt{N}} {&Integral;}_{0}^{1} {\overset{&OverBar;}{a}}_{m - 1} (f) (\overset{&OverBar;}{{wR}^{m - 1} x}) (f) {\overset{&OverBar;}{w}}^{*} (f - r) df - - - (5)

简化为

< R^{m - 1} x g_{m} > = \frac{1}{\sqrt{N}} {\overset{&OverBar;}{a}}_{m - 1} (r) (\overset{&OverBar;}{R^{m - 1} x}) (r) - - - (7)

匹配追踪算法挑选g_r∈D，因此

| < R^{m - 1} x, g_{rm} > | = \frac{1}{\sqrt{N}} \sup_{r &Element; Γ} | {\overset{&OverBar;}{a}}_{m - 1} (r) (\overset{&OverBar;}{R^{m - 1} x}) (r) | - - - (8)

在这一实例中，每次迭代获得的结果都使剩余信号的对数波谱和对数屏蔽阈值之间的绝对差值最大。

如果 a_m-1是第m次迭代中屏蔽阈值的倒数，则该过程挑选的复指数位于剩余信号波谱与屏蔽阈值的绝对差值最大的地方。在每次迭代中识别期望的词典元素都要求按照公式(2)计算内积，对于第一和第二实例来说，在存在大量词典元素时，这一过程在计算上就变得很密集。

本发明的第三个实例在接收和划分一个输入信号的步骤上与第一和第二实例相同。同样，从函数词典中识别出的一个函数被用于生成要在下一次迭代中建模的一个剩余信号，不过，在第三个实例中，函数 a(f)并不适应于每次迭代中剩余信号的屏蔽特性，而是不随迭代次数改变的。对于任何普通内积来说，公式(1)可被简化为

<R^mx，g_r>＝<R^m-1x，g_r>-<R^m-1x，g_rm><g_rm，g_r> (9)

因此，若 a(f)不随迭代次数改变，利用由内积公式(4)推导出来的本发明的范数定义，每次迭代所需的额外的计算只是估算内积<g_rm，g_r>。这些内积的值(称为每个词典元素与所有词典元素的内积)可预先计算并存储在存储器中。若在所有的频率上，函数 a(f)都保持为一，则该方法简化为已知的匹配追踪算法。不过， a(f)可采用任何通用形式。一个特别有利的方案是使 a(f)等于整个输入信号的屏蔽阈值的倒数。该方案按以上不等式收敛并且易于计算。

现在参照图1，此处概略示出了一个按本发明技术工作的编码装置的实例。

在图1中，示出了一个信号编码器10，在其输入端接收一个音频信号A_in并在输出代码C之前，按照此处所描述的任何一种方法对其进行处理。编码器10利用一种匹配追踪算法估算正弦参数，其中，通过在一个信号空间上定义一个适应于心理声学的范数，来将人类听觉系统(举例来说)的心理声学属性考虑在内。

以上所描述的实例提供了信号编码方法，这些方法特别适用于语音或其它音频信号。按本发明实例的这些方法结合了人类听觉系统的心理声学知识(函数 a(f)是人类听觉系统屏蔽阈值的逆)，并且，与其它已知方法相比，在被编码信号是有限周期信号时，不会明显增加计算复杂度。

图2示出了按本发明一个实例的发射装置1，该发射装置包含一个图1所示的编码装置10。该发射装置1还包括一个源11，用于获得输入信号A_in，该输入信号是，例如一个音频信号。源11可以是，例如一个麦克风，或一个接收单元/天线。输入信号A_in被提供给编码装置10，编码装置10对其进行编码以获得编码信号C。代码C被提供给输出单元12，输出单元12发射该代码C。输出单元12可以是一个多路复用器，调制器等。所发射的是一个基于代码C的输出信号[C]。输出信号[C]可以被发射给一个远方接收机，但也可以被发射给一个本地接收机或被发射到一个存储介质上。

尽管已描述了与音频编码有关的本发明的实例，但本技术专业人员可以理解，本发明方法可完全或部分用于其它信号编码应用中。

应指出，以上提到的实例例证本发明而非限制本发明，并且，本技术专业人员可以设计一些替换实例，这并不脱离附加权利要求的范围。在权利要求中，括号内的任何参考符号都不限定权利要求，“包含”一次并不排除出现权利要求所列出的元件和步骤之外的元件和步骤的可能性。本发明可通过包含若干分立元件的硬件实现，并可通过适当编程的计算机实现。在一个列举了若干元件的设备权利要求中，这些元件中的若干个都可由同一个硬件实现。一些方法是在互相不同的相关权利要求中描述的，这并不意味着这些方法不能组合使用。

Claims

1.一种通过提供正弦模型编码音频信号的方法，该方法包含以下步骤：

(a)接收一个输入信号；

(c)从一个函数词典中选择函数，生成每个帧中信号的一个表示；

其中步骤(c)是通过以下组合实现的：

(d)表示为频率的函数的一个加权函数；和

(e)定义多个帧中每个帧的窗函数和要被建模的输入信号部分的乘积，窗函数和要被建模的输入信号部分的乘积被表示为一个频率的函数。

2.按权利要求1的一种信号编码方法，其中所述组合定义为：

| | Rx | | = \sqrt{&Integral; \overset{&OverBar;}{a} (f) {| (\overset{&OverBar;}{wRx}) (f) |}^{2} df}

其中，

-Rx代表一个要建模的输入信号部分，

- a(f)代表被表示为一个频率函数的加权函数，

-( wRx)(f)代表定义多个帧中的每一个帧的窗函数w和Rx的乘积的变换。

3.按权利要求1的一种信号编码方法，其中加权函数中结合了人类听觉的声学心理学知识，以帮助步骤(c)的选择过程。

4.按权利要求2的一种信号编码方法，其中，加权函数的调整考虑了通过函数 a(f)包括进组合中的人类听觉的声学心理学。

5.按权利要求4的一种信号编码方法，其中，函数 a(f)基于人类听觉系统的屏蔽阈值，并且是该屏蔽阈值的逆。

6.按权利要求5的一种信号编码方法，其中，函数 a(f)是利用屏蔽阈值的一个模型计算的。

7.按权利要求2的一种信号编码方法，其中步骤(c)的选择是在多个子步骤中进行的，在每个子步骤中从一个函数词典中识别一个单个的函数。

8.按权利要求7的一种信号编码方法，其中，当处理一个给定帧时，从该帧中的输入信号中减去在第一子步骤中识别出的函数，生成一个剩余信号，并且在随后的每个子步骤中，识别出一个函数并从该剩余信号中减去该函数，生成另一个剩余信号，在每个子步骤中识别出的函数之和形成每个帧中信号的表示。

9.按权利要求7的信号编码方法，其中所述组合在选择步骤(c)的每个子步骤进行调整。

10.按权利要求9的信号编码方法，其中，在选择步骤(c)的每个子步骤中，根据一个当前剩余信号推导一个新的组合， a(f)也要更新，以将该剩余信号的屏蔽特性考虑在内。

11.按权利要求2的信号编码方法，其中，加权函数不随迭代次数改变。

12.按权利要求11的信号编码方法，其中，函数 a(f)是基于人类听觉系统的屏蔽阈值的，是被编码的一个帧中输入信号部分的屏蔽阈值的逆，并且是利用该屏蔽阈值的一个已知模型计算的。

13.按权利要求1的方信号编码方法，其中所述组合是根据以下内积推导的：

&lang; x, y &rang; = {&Integral;}_{0}^{1} \overset{&OverBar;}{a} (f) (\overset{&OverBar;}{wx}) (f) {(\overset{&OverBar;}{wy})}^{*} (f) df - - - (4)

14.按权利要求13的音频编码方法，其中，第m次迭代的剩余信号是R^mx，前一次迭代的加权函数是 a_m-1，其中从函数词典中识别的函数使‖R^mx‖ a_m-1最小，这里‖·‖ a_m-1代表利用 a_m-1计算出的范数。

15.按权利要求14的信号编码方法，其中，该音频编码方法的收敛性是由以下确保的，即：对于所有的m＞0，存在一个值λ＞0，使

{| | R^{m} x | |}_{{\overset{&OverBar;}{a}}_{m}} \leq 2^{- λm} {| | x | |}_{{\overset{&OverBar;}{a}}_{0}},

这里，x代表要被建模的输入信号的起始部分。

16.按权利要求13的音频编码方法，其中，该音频编码方法的收敛性是这样确保的，在每个子步骤中增加或改变每个帧的屏蔽阈值，因此，在整个频率范围f∈[0，1)内， a_m(f)≤ a_m-1(f)。

17.按权利要求1的信号编码方法，其中，窗函数是下列函数中的任一个：一个Hamming窗，一个Hanning窗或一个矩形窗。