CN102027535A

CN102027535A - 信号处理

Info

Publication number: CN102027535A
Application number: CN200880129124.2A
Authority: CN
Inventors: P·奥雅拉
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2008-04-11
Filing date: 2008-04-11
Publication date: 2011-04-20
Also published as: WO2009125046A1

Abstract

本发明披露了一种用于处理音频信号的方法和设备。两个或更多音频信号被输入并分析以形成一组参数。所述两个或更多音频信号中的至少两个被合并以形成组合音频信号。在该方法中，基于组合音频信号的信号电平与输入音频信号中的至少一个的信号电平之差，确定组合音频信号的信号电平和校正因子。校正因子可以用来降低组合音频信号的信号电平与输入音频信号的信号电平之差。本发明还公开了一种用于合成来自组合音频信号的音频信号的方法。该参数可被用于合成过程中。本发明还公开了一种计算机程序，包括当该程序在处理器上运行时适合于执行音频信号的处理的程序代码装置。

Description

信号处理

技术领域

本发明涉及多声道音频源的表示以及双耳(binaural)音频编码声道。本发明涉及一种用于形成组合音频信号的方法和设备，以及一种根据从该组合音频信号重建两个或更多音频信号的方法和设备。

背景技术

空间音频场景包括音频源和围绕收听者的环境。图1示出了一个示例情形，其中不同的声源101、102围绕着收听者103或仿真人头部记录设备104a、104b。另外，还存在由房间效果引起的环境背景噪声，即由于音频源所处的空间的特性而引起的音频源的混响。图像由于来自音频源的声音的到达方向以及混响的缘故而被觉察到。人能够使用来自左耳和右耳的信号来捕获三维图像。从而，使用接近耳鼓膜的麦克风来记录音频图像足以捕获空间音频图像。

对使用两声道的空间音频图像的有效传输和表示可能需要针对音频内容的特定编码算法。空间信息可能需要被有效地传送到接收机和在其中对捕获场景进行渲染的表示设备。

发明内容

本发明的示例实施例提供了一种方法，其中，来自多个源的信号被下混频成较少数量的信号，并且还形成与环境相关的信息。下混频信号能够被上混频以形成多个信号，上混频形成的多个信号看起来像原始信号的至少一部分并且考虑到了环境。

本发明的示例实施例的想法是一种考虑到一个或多个环境分量的双耳音频编码算法。该算法可选地包括执行时间-频率变换和/或双耳音频信号的分析。该算法估计声道之间的电平和时间差。这种估计可以使用可选的时间-频率系数。该算法还估计针对下混频信号的声道间电平校正增益以便合并环境信号的贡献。声道间电平和时间差以及关于一个或多个子带的环境电平校正线索信息能够被发射和/或存储。下混频信号能够由编码器来进行编码，该编码器可以是语音/音频编码器。在接收端中可以通过如下步骤来执行两声道信号重建：例如，使用电平校正信息来合成环境信号分量、用解码器来对下混频信号进行解码、对下混频信号进行时间-频率转换和分析、使用一个或多个子带中接收的声道间电平和时间差来合成多声道信号，以及通过使用环境电平校正线索(cue)将一个或多个子带中的双耳信号解相关来合成环境分量声道。

根据本发明的第一方面提供了一种方法，该方法包括：

-输入两个或更多音频信号；

-分析该音频信号以形成一组参数；

-组合所述两个或更多音频信号中的至少两个以形成组合音频信号；

该方法的特征在于，该分析包括：

-确定组合音频信号的信号电平；

-基于组合音频信号的信号电平与输入音频信号中的至少一个的信号电平之差来确定校正因子，以降低组合音频信号的信号电平与输入音频信号的信号电平之差。

根据本发明的第二方面提供了一种方法，该方法包括：

-输入组合音频信号和一个或多个参数，该参数与已经从中形成组合音频信号的音频信号相关；

-基于该组合音频信号和所述一个或多个参数，合成两个或更多音频信号；以及

-使用该参数组来修改合成的音频信号以重建该音频信号的环境。

该方法的特征在于，所述一个或多个参数包括校正因子，并且该方法包括在所述合成两个或更多音频信号时使用该校正因子。

根据本发明的第三方面提供了一种设备，该设备包括：

-输入端，用于输入两个或更多音频信号；

-分析器，用于分析该音频信号以形成一组参数；

-组合器，用于组合所述两个或更多音频信号中的至少两个以形成组合音频信号；

该设备的特征在于，该分析器包括：

-电平确定器，用于确定该组合音频信号的信号电平；

-增益确定器，用于基于组合音频信号的信号电平与输入音频信号中的至少一个的信号电平之差来确定校正因子，以降低组合音频信号的信号电平与输入音频信号的信号电平之差。

根据本发明的第四方面提供了一种设备，该设备包括：

-输入端，用于输入组合音频信号以及一个或多个参数，该参数与已经从中形成组合音频信号的音频信号相关；

-合成器，用于基于该组合音频信号和所述一个或多个参数，合成两个或更多音频信号。

该设备的特征在于，所述一个或多个参数包括校正因子，并且该设备包括通过在所述合成两个或更多音频信号时使用该校正因子的校正器。

根据本发明的第五方面提供了一种计算机程序，该计算机程序包括程序代码装置，当程序在处理器上运行时该程序代码装置适合于执行下列步骤：

-输入两个或更多音频信号；

-分析该音频信号以形成一组参数；

该计算机程序的特征在于，该计算机程序包括程序代码装置，该程序代码装置适合于：

-确定组合音频信号的信号电平；

根据本发明的第六方面提供了一种计算机程序，该计算机程序包括程序代码装置，当程序在处理器上运行时该程序代码装置适合于执行下列步骤：

-输入组合音频信号以及一个或多个参数，该参数与已经从中形成组合音频信号的音频信号相关；

-基于该组合音频信号和所述一个或多个参数，合成两个或更多音频信号；

该计算机程序的特征在于，所述一个或多个参数包括校正因子，并且该计算机程序包括程序代码装置，该程序代码装置适合于在所述合成两个或更多音频信号时使用该校正因子。

开发的概念能够例如应用于远程监控和音频/视频会议服务。本发明的一些示例涉及语音和音频编码、媒体自适应、实时多媒体在分组交换网络(例如，IP话音)上的传输，等等。

附图说明

本发明的一些示例实施例将在下面参考附图被更详细地描述，其中

图1描绘了使用两个麦克风的空间音频图像捕获的示例，

图2描绘了双耳和多声道音频分析功能的示例，

图3描绘了针对不同子带和时刻来确定声道间电平差、声道间时间差和声道对之间的声道间相干性的示例，

图4描绘了双耳合成的示例，

图5描绘了多声道音频编码和解码算法的示例，

图6描绘了根据本发明的编码器的示例实施例的简化框图，

图7描绘了根据本发明的解码器的示例实施例的简化框图，

图8a描绘了根据本发明的编码方法的示例实施例的简化流程图，

图8b描绘了根据本发明的分析阶段的示例实施例的简化流程图，

图9描绘了根据本发明的解码方法的示例实施例的简化流程图，

图10描绘了本发明能够在其中应用的装置的示例，以及

图11描绘了本发明能够在其中应用的系统的示例。

具体实施方式

一种用于空间音频编码的方法是双耳线索编码(BCC)参数化，其中，例如通过使用傅里叶变换或正交镜像滤波器组(QMF)分解，由两个或更多声道组成的输入信号首先在时间-频率域中被变换。在变换中，声道的音频信号的时间部分被变换到频域中，其中，信号的频域表示包括多个子带。从而，对于特定的时刻k，音频信号有多个子带表示。

图2给出了空间音频编码的基本思想。音频场景201在变换域203中被分析202，并且相应的参数化被发射到接收机。场景参数还能够在对多声道声音进行下混频204时被用于例如移除声道之间的时间差。然后，下混频信号205能够被转发，以例如用于单声道/立体声的音频编码器。

BCC分析

BCC分析由每个变换域时间-频率(时间-子带)隙内估计的声道间电平差(ILD)和声道间时间差(ITD)参数组成。另外，每个或一部分声道对之间的声道间相干性(IC)可以被确定。这些参数也可以被称为BCC线索或声道间线索。图3公开了针对多声道音频内容的声道间电平差和声道间时间差估计的示例。在每个声道对之间确定声道间电平差和声道间时间差参数声道。声道间相干性一般各个地针对每个声道进行确定。在由两声道组成的双耳音频信号的情况下，BCC线索在被分解的左和右声道之间确定。

对于每个子带ΔL_n的声道间电平差(ILD)一般在对数域中估计如下：

Δ L_{n} = 10 \log_{10} (\frac{{s_{n}^{L}}^{T} s_{n}^{L}}{{s_{n}^{R}}^{T} s_{n}^{R}}) - - - (1)

其中，

和

分别是子带n中的时域左声道信号和右声道信号。

针对每个子带n来如下确定声道间时间差(ITD)，即左声道和右通路之间的延迟：

τ_n＝arg max_d{Φ_n(d，k)} (2)

其中，Φ_n(d，k)是归一化的相关性

Φ_{n} (d, k) = \frac{s_{n}^{L} {(k - d_{1})}^{T} s_{n}^{R} (k - d_{2})}{\sqrt{(s_{n}^{L} {(k - d_{1})}^{T} s_{n}^{L} (k - d_{1})) (s_{n}^{R} {(k - d_{2})}^{T} s_{n}^{R} (k - d_{2}))}} - - - (3)

其中

d₁＝max{0，-d}

d₂＝max{0，d} (4)

归一化的相关性实际上是声道间相干性(IC)参数。它一般被用于捕获环境分量，环境分量用等式(1)和(2)中的相位和振幅参数表示的“干型”(dry)声音分量进行解相关。干型声音分量是来自不同音频源的纯声音信号，其没有例如由于房间效果而造成的声源混响而引起的信号。

BCC系数也能够在变换域中确定，比如在离散傅里叶变换(DFT)域中确定。通过使用窗口化短时傅里叶变换(STFT)，上述的子带信号被转换成分组的变换系数。

和

分别是对于给定分析帧的子带n的左和右双耳信号的频谱系数矢量。变换域声道间电平差参数ILD能够根据等式1来确定

Δ L_{n} = 10 \log_{10} (\frac{{s_{n}^{L}}^{*} s_{n}^{L}}{{s_{n}^{R}}^{*} s_{n}^{R}}), - - - (5)

其中，^*指复共轭。

声道间时间差(ITD)更容易处理为声道间相位差(ICPD)：

声道间相干性计算相当类似于等式(3)中的时域计算。

Φ_{n} = \frac{{S_{n}^{L}}^{*} S_{n}^{R}}{\sqrt{({S_{n}^{L}}^{*} S_{n}^{L}) ({S_{n}^{R}}^{*} S_{n}^{R})}} - - - (7)

当使用估计相关性的时域声道间时间差估计被改为离散傅里叶变换域谱系数的声道间相位差估计时，离散傅里叶变换域中的BCC确定所需要的计算少了很多。

统一域变换(UDT)被认为是双耳线索编码的特殊情况。针对双耳(两声道)音频的UDT由描述声源位置的旋转矩阵组成。二维的旋转矩阵，即具有两个输入声道，是

R = [\begin{matrix} \cos σ & \sin σ \\ - \sin σ & \cos σ \end{matrix}] - - - (8)

其中，旋转矩阵的分量是

\cos σ = \frac{| S_{n}^{L} |}{\sqrt{{S_{n}^{L}}^{2} + {S_{n}^{R}}^{2}}},

和 (9)

\sin σ = \frac{| S_{n}^{R} |}{\sqrt{{S_{n}^{L}}^{2} + {S_{n}^{R}}^{2}}} - - - (10)

基本上，在二维矩阵的情况下，分量可以被理解为立体声信号的振幅展幅(panning)。当考虑信号相位时，UDT域信号可以被计算为

[\begin{matrix} \cos σ & \sin σ \\ - \sin σ & \cos σ \end{matrix}] [\begin{matrix} e^{- j φ_{n}^{L}} & 0 \\ 0 & e^{- j φ_{n}^{R}} \end{matrix}] [\begin{matrix} S_{n}^{L} \\ S_{n}^{R} \end{matrix}] = [\begin{matrix} M_{n} \\ 0 \end{matrix}] - - - (11)

其中，复值和

分别是左输入信号和右输入信号的相位。基本上是从中移除了该相位的旋转下混频信号。

参阅旋转矩阵，应当指出

\tan σ = \frac{| S_{n}^{L} |}{| S_{n}^{R} |}, - - - (12)

其实际上与等式(5)中的ILD值相关。而且，相位值能够作为相位差(即ICPD)来传送。从而，统一域变换与BCC参数化密切相关。

电平和时间/相位差线索表示干型环绕声分量。它们基本上对空间中的声源位置建模。基本上，ILD和ITD/ICPD线索表示环绕声展幅系数。另一方面，假设相干性线索覆盖相干和解相关声音之间的关系。例如由于房间效果所致的晚期声源混响的电平，和输入声道之间分配的环境声音，可以对空间音频感觉做出重要的贡献。因此，声道间线索的正确估计和合成是双耳编码中的重要问题。

双耳和多声道音频的主分量分析(PCA)尝试分离相关的方向源和环境信号。可以假设环绕声包括利用在不同方向中展开的源信号构造的方向源，和加性环境。从而，环绕声的协方差矩阵的本征值取决于展幅增益、方向源和环境信号的方差以及环境的相关性。这意味着确定的本征矢量被用来将输入的双耳信号投影成主分量。最高的本征值对应方向分量，而剩余项被认为是环境。

环境在统一域变换域中也是可见的。实际上，当根据等式(11)完成旋转和相位移除时，输出实际上是

[\begin{matrix} \cos σ & \sin σ \\ - \sin σ & \cos σ \end{matrix}] [\begin{matrix} e^{- j φ_{n}^{L}} & 0 \\ 0 & e^{- j φ_{n}^{R}} \end{matrix}] [\begin{matrix} S_{n}^{L} \\ S_{n}^{R} \end{matrix}] = [\begin{matrix} M_{n} \\ A_{n} \end{matrix}] - - - (13)

其中，A_n是环境信号。相位消除以及旋转可能不是绝对正确的，并且在具有给定参数的下混频信号内可能没有完全消除环境。

编码器的输出是声道间电平差(ILD)，即表示立体声平移系数的旋转矩阵，声道间相位差(ICPD)，即声道间时间差(ITD)，声道间相关性(IC)和下混频音频信号。

可以看出参数化没有表示环境信号电平。

下混频

例如能够通过对变换域中的信号求平均来创建下混频信号。在两声道情况(左和右声道)中，这可以表示为

S_{n} = \frac{1}{2} (S_{n}^{L} + S_{n}^{R}) - - - (14)

还有其他方法来创建下混频信号，比如上面提到的主分量分析和统一域变换。另外，左声道和右声道能够以这样的方式加权，即例如当其他声道接近于零时保留信号能量。然而，当双耳合成是基于左输入声道和右输入声道与下混频信号的电平差时，应该预先确定下混频的方法。否则，从单个ILD参数向针对左和右声道的声道增益的转换可能是不可能的。

BCC合成

双耳合成也能够在时间-频率域中实施。图4给出了在时间-频率域中执行双耳合成401的基本结构。由N个抽样s₀，K，s_N-1组成的下混频的单声道语音/音频帧用离散傅里叶变换(DFT)或用另一种时间-频率变换方法被转换成N个频谱抽样S₀，K，S_N-1。

声道间电平差和声道间时间差系数现在被应用来创建双耳音频。当根据等式(14)来创建下混频信号时，声道间电平差被确定为左和右声道的电平差，声道针对每个子带合成左和右声道信号如下：

S_{n}^{L} = \frac{1}{2} \frac{Δ L_{n}}{Δ L_{n} + 1} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}} - - - (15)

S_{n}^{R} = \frac{1}{2} \frac{1}{Δ L_{n} + 1} S_{n} e^{j \frac{2 πn τ_{n}}{2 N}}, - - - (16)

其中，S_n是根据等式(14)的下混频信号的频谱系数矢量，

和

分别是左和右双耳信号的频谱系数。

应当指出，使用频率相关电平和延迟参数的BCC合成创建干型环绕声分量。环境仍然丢失并且可以使用相干性参数来合成。

相干性线索的合成方法包括例如对信号进行解相关以创建晚期混响信号。实施包括用已滤波的随机相位来对每个输出声道进行滤波并将结果添加到输出信号中。当具有延迟的不同滤波器被应用到每个声道时，解相关的信号被创建。

图5给出一般的具有使用BCC线索的灵活的声道配置的多声道编码。输出音频声道/对象504的数量无需与输入声道对象501的数量一致。例如，混频器502/渲染器503的输出计划用于从立体声到N声道输出的任何扩音器输出配置。该输出也能够被渲染成用于耳机收听的格式。

在下面，将参考图6的框图和图8的流程图来描述根据本发明的示例实施例的编码器1。尽管在以下说明中给出的信号涉及音频信号，然而本发明不限于处理音频信号。编码器1包括第一接口1.1，用于输入来自多个音频声道2.1-2.m的多个音频信号(图8中的框801)。尽管在图6中描绘了五个音频声道，然而音频声道的数量显然也可以是两个、三个、四个或五个以上。一个音频声道的信号可以包括来自一个音频源或来自超过一个音频源的音频信号。音频源可以是麦克风、无线电、TV、MP3播放器、DVD播放器、CDROM播放器、合成器、个人电脑、通信设备、乐器等等。换言之，与本发明一起使用的音频源不限于某种音频源。还应当注意，音频源不必彼此类似，而可能是不同音频源的不同结合。

来自音频源2.1-2.m的信号在模数转换器3.1-3.m中被转换成数字抽样(框802)。在这个示例实施例中，对于每个音频源都有一个模数转换器，但是也可以通过使用比对每个音频源一个模数转换器更少的模数转换器来执行模拟数字转换。通过使用一个模数转换器3.1来执行所有音频源的模拟数字转换是可能的。

由模数转换器3.1-3.m形成的抽样必要时被存储到存储器4。存储器4包括用于每个音频源的抽样的多个存储器分段4.1-4.m。这些存储器分段4.1-4.m可以实现在相同的存储设备或不同的存储设备中。例如，存储器或其一部分也可以是处理器6的存储器。

在这个示例实施例中，对音频抽样执行时间-频率变换以便在时间-频率域中表示音频信号(框803)。例如，时间-频率变换例如可以由诸如正交镜像滤波器组之类的匹配滤波器通过离散傅里叶变换等等来执行。对于每个音频源来说，可能有分离的时间-频率变换器，或者一个时间-频率变换器5就足以对不同音频声道的信号做出时间-频率变换。时间-频率变换通过使用多个抽样来执行，即每次使用一组抽样来执行。这类抽样组也可以被称为帧。在示例实施例中，一个抽样帧表示时域中的音频信号的20ms部分，但是也可以使用其他长度，例如10ms。在时间-频率变换之后，音频信号被划分成多个子带。在每个时刻k处，这些子带n上的变换信号可以由多个变换系数来表示。

分析块7执行对于音频信号子带的声道间分析(框804)。在这个示例实施例中，声道从若干音频声道当中选择一个参考声道(框804.1)。不失一般性地，可以选择第一音频声道2.1作为参考声道。从而，相对于该参考声道，针对其他声道执行该分析。例如，通过例如使用下列等式，分析块5为第二音频声道2.2的信号的时刻k和每个子带n估计相对于参考声道2.1的声道间电平差(ILD)(框804.2)：

Δ L_{n} = 10 lo g_{10} (\frac{{s_{n}^{r}}^{T} s_{n}^{r}}{{s_{n}^{x}}^{T} s_{n}^{x}}) - - - (17)

其中，和

分别是参考声道的时域信号以及将要在子带n中处理的声道。必要时，获得的声道间电平差参数值被存储到存储器4中。声道还以相应的方式针对其他音频声道的子带计算声道间电平差参数。

例如，通过例如使用下列等式，分析块7为第二音频声道2.2的信号的时刻k和每个子带n估计相对于参考声道2.1的声道间时间差(ITD)(框804.3)：

τ_{n} (d, k) = \arg ma x_{d} {\frac{s_{n}^{r} {(k - d_{1})}^{T} s_{n}^{x} (k - d_{2})}{\sqrt{(s_{n}^{r} {(k - d_{1})}^{T} s_{n}^{r} (k - d_{1})) (s_{n}^{x} {(k - d_{2})}^{T} s_{n}^{x} (k - d_{2}))}}} - - - (18)

其中

d₁＝max{0，-d}

d₂＝max{0，d}

等式(18)是从等式(2)、(3)和(4)中导出的。必要时，获得的声道间时间差参数的值被存储到存储器4中。还以相应的方式声道针对其他音频声道的子带计算声道间时间差参数。

基于等式(18)中的括弧中的因子，可以确定用于第二音频声道的子带的声道间相干性(IC)参数，其相当于等式(3)。

Φ_{n} (d, k) = \frac{s_{n}^{r} {(k - d_{1})}^{T} s_{n}^{x} (k - d_{2})}{\sqrt{(s_{n}^{r} {(k - d_{1})}^{T} s_{n}^{r} (k - d_{1})) (s_{n}^{x} {(k - d_{2})}^{T} s_{n}^{x} (k - d_{2}))}} - - - (19)

也可以在变换域中计算声道间电平差参数和声道间时间差参数。从而，等式(5)、(6)和(7)可以用来执行变换域中的计算。

组合块8将来自不同音频声道的两个或更多的信号组合成一个或多个组合声道(框806)。这种操作也可以被称为下混频。下混频比率的一些非限制性的示例有：从两个音频声道到一个组合声道，从五个音频声道到两个组合声道，从五个音频声道到一个组合声道，从七个音频声道到两个组合声道，以及从七个音频声道到一个组合声道。然而，其他下混频比率也可以与本发明结合执行。通常，以P＜M的方法，下混频将声道从第一数量M降低成第二数量P。

组合块8在时域中或变换域中执行下混频。例如，可以通过对不同声道2.1-2.m的信号求平均或对其求和来执行下混频。在组合之前，将被组合的声道之间的相位差可以例如通过使用由声道间时间/相位差参数提供的信息而被移除。

在组合声道的数量大于1的情况中，下混频表(未示出)可以用来定义应该怎样组合不同音频声道的信号。例如，如果五个声道应该被下混频成两个声道，则它可以通过对第二声道、第三声道以及第一声道的一半的信号求平均到第一组合声道，并且对第四声道、第五声道以及第一声道的一半求平均到第二组合声道来执行。表1示出了用于将5.1环绕内容下混频到两声道中的下混频定标因子的示例。例如，5.1环绕内容包括左前声道、右前声道、中央声道、左环绕声道、右环绕声道以及低频效果(LFE)声道。

环绕声定标因子(左) 定标因子(右)

道

左前 1.0 0.0

右前 0.0 1.0

中央

左环绕

0.0

右环绕 0.0

LFE

表1.单声道下混频的定标因子

两声道(和多声道)编码中的PCA和UDT方法指出包括晚期混响的环境信号没有用设计用于干型声音的电平和相位差参数来描述。

等式(13)中可见的环境信号自然地影响等式(14)中的下混频。当输入信号的信号功率与相位移除的下混频信号功率进行比较时，可以注意到在某些情况下超过一个的个体声道的信号功率高于下混频信号的功率。例如，所有个体声道的功率高于下混频信号的功率：

原因在于这样的事实，即实际上存在干型信号的下混频中不可见的附加环境分量。相位移除的输入信号仍然可以让环境分量互相抵消。从而，对于两声道(两耳)状况来说，等式(14)中的下混频可以被修改如下：

\frac{1}{2} (S_{n}^{r} + S_{n}^{x}) = S_{n} + A_{n} - - - (21 a)

例如，针对声道下混频到一个声道的N声道可以执行类似方法如下：

\frac{1}{N} (S_{n}^{1} + S_{n}^{2} + Λ + S_{n}^{N}) = S_{n} + A_{n} - - - (21 b)

例如，等式(7)中确定的相干性信息给出了一些关于环境存在的指示，但是没有提供表示等式(21a)和(21b)中的附加环境的手段。

该环境信号可以在等式(21a)和(21b)中使用原始输入信号从下混频信号中减去，但是对于双耳编码来说仅仅需要环境的频谱电平。因此，为了对环境信号进行参数化，只有该电平信息(框804.5)就足够了。

首先，根据本发明的示例实施例，下混频信号的电平在相位差移除之后被校正以保持信号功率。在下混频中合并精确的环境信号不太可能。然而，也可以通过考虑丢失的环境来校正下混频信号电平。

\frac{1}{2} ({| S_{n}^{r} |}^{2} + {| S_{n}^{x} |}^{2}) = {| S_{n} + A_{n} |}^{2} = {| S_{n} |}^{2} + g_{n} {| S_{n} |}^{2} = (1 + g_{n}) {| S_{n} |}^{2} - - - (22)

通过使用电平校正因子(1+g_n)，编码器中的下混频的输出信号电平基本上可以保持与输入信号电平相同的水平。因此，校正增益通过计算下混频信号与相位移除的输入信号电平之差而被确定(框804.6)。例如，这可以通过校正计算块9来执行。校正计算块9向乘法器10输出一个或多个校正因子(框805)，乘法器10将组合块8输出的信号乘以一个或多个校正因子并且产生校正的输出信号(框807)。在此应当指出，如果来自组合块8的输出信号超过一个，则可以将该校正因子应用到所有的输出信号。相同的校正因子不能用于所有的输出信号是可能的，其中，校正计算块8计算用于每个输出声道的校正因子，即每个输出声道可以具有一个下混频信号特定的校正因子。

由于该参数的特性，校正增益(1+g_n)表示每个子带n中的附加环境电平。从而，也应该在环境信号合成中使用该参数。由于环境电平在下混频信号中的校正，所以在解码器中不再需要类似的校正，但是在合成声音的解相关中可能还需要关于环境电平的信息。校正因子值在解码器中被映射到环境电平。例如，当校正因子超过预定阈值时，环境电平信息的值被改变。因此，解码器将增加合成信号的环境电平。也可以存在用于控制环境电平的一个以上阈值。

模数转换器3.1-3.m可以被实现为若干分离的部件，或者在诸如数字信号处理器(DSP)之类的处理器6内部实现。变换块5、分析块7、组合块8、校正计算块9和乘法器10也可以由硬件元件实现，或者实现为处理器6的计算机代码，或者实现为硬件元件和计算机代码的结合。其他元件也可以在硬件中实现或者实现为计算机代码。

计算机代码可以被存储到诸如代码存储器18之类的储存设备中或者存储到别的数据载体，代码存储器18可以是存储器4的一部分或者与存储器4分离。代码存储器18或其部分也可以是处理器6的存储器。计算机代码可以在装置的制造阶段或者分开地存储，其中，计算机代码可以例如通过从网络、从像存储卡之类的数据载体、CDROM或DVD下载而传递给该装置。

分析和下混频操作也可以实现为模块，该模块可以是硬件元件、可编程序逻辑阵列、专用集成电路、处理器或别的半导体芯片或芯片组。该模块还可以包括编码器1的其他功能块的一些。

编码器1因而可以向解码器发射校正增益，或者简单地给出校正增益的电平的指示。如早先所解释的，双耳合成无需应用校正增益以放大解码的下混频信号或合成双耳输出，因为在编码器中已经完成了校正。然而，编码器1的替换实施没有将校正增益应用到下混频信号，而是将参数作为线索部分进行传输并且在解码器21中根据等式(22)执行电平校正。

如果修正的功率信号处于变换域中，则逆变换块11执行下混频信号的逆变换(框808)，以用于编码音频信号(框809)的语音/音频编码器12。然而，在某些实施例中，一个或多个校正功率信号可以被提供给在变换域中实施校正功率信号的编码的语音/音频编码器12。从而，在编码器1中可以不需要逆变换。

编码器也可以包括线索编码器13，线索编码器13用于在音频和线索信息进行传输之前编码线索信息，以及可能地用于编码一个或多个校正因子的信息(框810)。

来自语音/音频编码器12的编码输出信号、线索和可能的关于一个或多个校正增益的信息可以被复用器14合并成单个比特流(框811)，或者它们可以作为单独的比特流输出。必要时，声道编码器15可以对一个或多个比特流进行编码(框812)，以便经由通信声道17由发射机16向接收机20该比特流传输(框813)。

在编码之后传输音频信号、线索以及与环境相关的信息并不总是必需的，而是也可以将音频信号、线索以及与环境相关的信息存储到储存设备，比如存储卡、存储器芯片、DVD磁盘、CDROM等等，所述信息稍后可以从这些存储设备中被提供给解码器21以用于重建音频信号和环境。

接下来，将参考图7的框图和图9的流程图来描述在根据本发明的示例实施例的解码器21中执行的操作。比特流由接收机20接收(图9中的块901)，并且必要时，声道解码器22执行声道解码(框902)以重建比特流，所述比特流携带一个或多个组合的信号、线索和关于一个或多个校正增益的可能信息。

组合的信号、线索以及关于一个或多个校正因子的信息在它们被复用成单个比特流的情况下可以通过去复用器23与重建的比特流分离(框903)。在这个示例实施例中，在可选的声道解码器22的输出端处的重建比特流包括编码形式中的音频信号。从而，比特流通过音频解码器24解码以获得时域中的校正音频信号，即由逆变换块11构造的音频信号的副本(框904)。

来自音频解码器24的输出信号被提供给上混频块25以形成两个或更多音频信号(框905)。在编码在与用于空间参数估计和合成的变换类似的变换域中实施的情况下，解码器不需要在空间合成之前，即在上混频操作之前逆变换到时域。在一个示例实施例中，上混频块25形成与组合块8中组合一样多的输出信号(声道)，即重建M个声道。在另一个示例实施例中，上混频块25形成比组合块8中组合的更少的输出信号。在又一个示例实施例中，上混频块25形成比输入信号(即组合的输入信号)的原始数量P更多的输出信号。这意指超过M个的声道被重建。例如，如果五个声道被组合成一个声道，则上混频块25可以形成两个、三个、四个、五个乃至五个以上的输出信号。作为一个通用的规则，上混频块从P个组合的声道形成Q个声道，P＜Q且P＜M。

解码器21还可以包括线索解码器27，用以解码选择性编码的线索信息和/或关于一个或多个校正因子的信息(框906)。

解码器21包括校正块26，其考虑了接收的线索以及可能地考虑了一个或多个校正因子以合成音频信号与环境(块907)。校正块26例如可以包括为晚期混响建模的随机系数的FIR滤波器或用于每个重建声道的简单梳状滤波器。校正块26还包括输入26.1，接收的参数可以被输入到该输入端以用于音频信号的合成。

解码器21还能够包括处理器29和存储器28以用于存储数据和/或计算机代码。

当解相关输出信号时，解码器21中的环境合成利用校正增益或者关于校正增益电平的信息(一个或多个校正因子)。例如，为晚期混响建模的随机系数的FIR滤波器，或者用于每个输出声道的简单的梳状滤波器，能够用环境电平信息进行控制。例如，在两声道的情况下，合成的第一(例如，左)和第二(例如，右)声道信号可以写为：

S_{n}^{L} = a_{1} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}} + b_{1} S_{1, n} - - - (23)

S_{n}^{R} = a_{2} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}} + b_{2} S_{2, n} . - - - (24)

第一定标因子a₁，a₂对应声道间电平差，第二定标因子b₁，b₂对应环境电平信息。低的环境电平信息意味着低的定标因子。在一个示例实施例中，可以在声道间电平差和环境电平之间做出平衡，以使得输出信号的总电平不增加并且左声道和右声道之间的电平差基本上保持与相应输入信号中相同。示例性两声道情况的DFT域信号S_1，n和S_2，n是子带n中的解相关环境信号：

S_i，n＝H_i，nS_n， i＝1，2 (25)

其中，H_i，n是解相关滤波器。

例如，一个用于合成声道i的通用多声道等式可以从等式(23)和(24)中导出如下：

S_{n}^{i} = a_{i} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}} + b_{i} S_{i, n} - - - (26)

其中，i是合成声道的数量。

合成的音频信号可以被提供给扩音器30.1-30.q，例如以用于收听(框908)。也可以将合成的音频信号存储到储存设备，比如解码器的数据存储器28.1、存储卡、存储器芯片、DVD磁盘、CDROM等等。

解码器21的一些元件也可以实现在硬件中或者实现为计算机代码，并且计算机代码可以被存储到储存设备或其它种类的数据载体中，该储存设备比如是可以是存储器28的一部分或者与存储器28分离的代码存储器28.2。代码存储器28.2或其一部分也可以是解码器21的处理器29的存储器。计算机代码可以在装置制造阶段存储或分开地存储，其中，计算机代码可以例如通过从网络、像存储卡的数据载体、CDROM或DVD下载而被传递给该装置。

例如，本发明可以应用在ITU-T(国际电信联盟-电信标准化部分)EV-VBR(嵌入可变比特率编码)立体声扩展和3GPP EPS(演进分组交换)语音/音频编码中。本发明还可以在其他系统和环境中实现。

在图10中描绘了本发明可以在其中应用的设备110的示例。该设备例如可以是音频录制设备、无线通信设备、诸如便携式计算机之类的计算设备等等。设备110包括可以在其中实现本发明的至少一部分操作的处理器6，存储器4，用于输入来自多个音频源2.1-2.m的音频信号的一组输入端1.1，用于将模拟声频信号转换成数字音频信号的一个或多个模数转换器，用于编码组合音频信号的音频编码器12以及用于发射来自设备110的信息的发射机16。

在图11中描绘了本发明可以在其中应用的设备111的示例。例如，设备111可以是诸如MP3播放器之类的音频播放设备、CDROM播放器、DVD播放器等等。设备111也可以是无线通信设备、诸如便携式计算机之类的计算装置、等等。设备111包括可以在其中实现本发明的至少一部分操作的处理器29，存储器28，用于接收组合音频信号以及与来自别的设备111的组合音频信号相关的参数的接收机20，用于解码该组合音频信号的音频解码器24，用于合成多个音频信号的合成器26，以及用于向扩音器30.1-30.q输出合成音频信号的多个输出端。

根据本发明的示例实施例的设备包括：用于输出两个或更多音频信号的装置；用于合成该音频信号以形成一组参数的装置；用于组合所述两个或更多音频信号的至少两个以形成组合音频信号的装置；用于确定组合音频信号的信号电平的装置；以及用于基于组合音频信号的信号电平和输入音频信号中的至少一个的信号电平之差来确定校正因子，以降低组合音频信号的信号电平和输入音频信号的信号电平之差的装置。

根据本发明的另一个示例实施例的设备包括：用于输入组合音频信号以及与从中已经形成该组合音频信号的音频信号相关的一个或多个参数的装置；用于基于该组合音频信号和所述一个或多个参数合成两个或更多音频信号的装置；所述一个或多个参数包括校正因子；并且该设备还包括用于在所述合成两个或更多音频信号时使用该校正因子的装置。

权利要求中罗列的权项的组合可以用任意数量的不同方法来改变并且仍然在本发明各种实施例的范围之内。

Claims

1.一种方法，包括：

-输入两个或更多音频信号；

-分析所述音频信号以形成一组参数；

其特征在于所述分析包括

-确定所述组合音频信号的信号电平；

-基于所述组合音频信号的信号电平与所述输入音频信号中的至少一个的信号电平之差来确定校正因子，以降低所述组合音频信号的信号电平与所述输入音频信号的信号电平之差。

2.根据权利要求1所述的方法，其特征在于

-在所述两个或更多输入声道当中选择参考声道；以及

-在确定所述校正因子时使用选择的参考声道。

3.根据权利要求2所述的方法，其特征在于将所述音频信号的频带划分成子带。

4.根据权利要求3所述的方法，其特征在于如下计算用于子带的所述校正因子：

\frac{1}{2} ({| S_{n}^{r} |}^{2} + {| S_{n}^{x} |}^{2}) = {| S_{n} + A_{n} |}^{2} = {| S_{n} |}^{2} + g_{n} {| S_{n} |}^{2} = (1 + g_{n}) {| S_{n} |}^{2},

其中，S_n是所述组合信号的信号电平，

是所述参考信号的信号电平，

是将被分析的所述信号的信号电平，

A_n是环境信号，以及

g_n是所述校正因子。

5.根据权利要求1到4之一所述的方法，其特征在于利用所述校正因子来修改所述组合音频信号。

6.根据权利要求5所述的方法，其特征在于形成一个或多个组合信号，并且每个组合信号由所述相同的校正因子来修改。

7.根据权利要求5所述的方法，其特征在于形成两个或更多组合信号，对于每个组合信号，形成下混频信号特定的校正因子，并且每个组合信号由所述下混频信号特定的校正因子来修改。

8.根据权利要求6或7所述的方法，其特征在于所述组合信号通过将所述组合信号乘以所述校正因子来修改。

9.根据权利要求1到8之一所述的方法，其特征在于向接收机发射所述组合音频信号和所述校正因子。

10.根据权利要求1到9之一所述的方法，其特征在于：

-将所述音频信号从时域转换到变换域；

-在所述变换域中形成所述组合音频信号；

-在所述变换域中确定所述校正因子；以及

-将所述组合音频信号转换到所述时域。

11.一种方法，包括：

-输入组合音频信号以及一个或多个参数，所述参数与已经从中形成所述组合音频信号的所述音频信号相关；

-基于所述组合音频信号和所述一个或多个参数，合成两个或更多音频信号；

其特征在于，所述一个或多个参数包括校正因子，并且所述方法包括在所述合成两个或更多音频信号时使用所述校正因子。

12.根据权利要求11所述的方法，其特征在于

-合成每个音频信号；以及

-通过使用所述校正因子来校正每个合成的音频信号。

13.根据权利要求11或12所述的方法，其特征在于所述一个或多个参数包括环境电平信息；以及通过使用所述环境电平信息对所述两个或更多音频信号进行解相关来合成环境分量。

14.根据权利要求13所述的方法，其特征在于

-通过使用滤波器来执行所述相关，以及

-通过所述环境电平信息来控制所述滤波器。

15.根据权利要求10到14之一所述的方法，其特征在于所述音频信号的频带被划分成子带，所述方法包括：

-接收用于每个子带的校正因子，以及

-使用所述子带的所述相关因子来合成所述音频信号的每个子带。

16.根据权利要求15所述的方法，其特征在于通过使用下面的等式来执行针对每个子带的输出声道的合成

S_{n}^{i} = a_{i} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}} + b_{i} S_{i, n}

其中，n是子带，

a_i是对应于所述声道间电平差的第一定标因子，

b_i是对应于所述环境电平的第二定标因子，

N是合成的声道的总数，

τ_n是声道间时间差，以及

i是合成声道的数量。

17.一种设备，包括：

-输入端，用于输入两个或更多音频信号；

-分析器，用于分析所述音频信号以形成一组参数；

其特征在于所述分析器包括

-电平确定器，用于确定所述组合音频信号的信号电平；

-增益确定器，用于基于所述组合音频信号的信号电平与所述输入音频信号中的至少一个的信号电平之差来确定校正因子，以降低所述组合音频信号的信号电平与所述输入音频信号的信号电平之差。

18.根据权利要求17所述的设备，其特征在于所述设备包括选择器，用于在所述两个或更多输入声道当中选择参考声道；以及所述增益确定器被配置成在确定所述校正因子时使用选择的参考声道。

19.根据权利要求18所述的设备，其特征在于所述设备包括划分器，用于将所述音频信号的频带划分成子带。

20.根据权利要求19所述的设备，其特征在于所述增益确定器被配置成计算用于子带的所述校正因子，如下：

\frac{1}{2} ({| S_{n}^{r} |}^{2} + {| S_{n}^{x} |}^{2}) = {| S_{n} + A_{n} |}^{2} = {| S_{n} |}^{2} + g_{n} {| S_{n} |}^{2} = (1 + g_{n}) {| S_{n} |}^{2},

其中，S_n是所述组合信号的信号电平，

是所述参考信号的信号电平，

是将被分析的所述信号的信号电平，

A_n是环境信号，以及

g_n是所述校正因子。

21.根据权利要求17到20之一所述的设备，其特征在于所述设备包括乘法器，用于利用所述校正因子来修改所述组合音频信号。

22.根据权利要求21所述的设备，其特征在于所述组合器被配置成形成一个或多个组合信号，并且所述乘法器被配置成通过相同的校正因子来修改每个组合信号。

23.根据权利要求21所述的设备，其特征在于所述组合器被配置用于形成两个或更多组合信号，并且为每个组合信号，形成下混频信号特定的校正因子，并且所述乘法器配置用于通过所述下混频信号特定的校正因子来修改每个组合信号。

24.根据权利要求21、22或23之一所述的设备，其特征在于所述组合器被配置成通过将所述组合信号乘以所述校正因子来修改所述组合信号。

25.根据权利要求17到24之一所述的设备，其特征在于所述设备包括发射机，用于向接收机发射所述组合音频信号和所述校正因子。

26.根据权利要求17到25之一所述的设备，其特征在于所述设备包括转换器，用于将所述音频信号从时域转换到变换域；所述组合器被配置用于在所述变换域中形成所述组合音频信号；所述增益确定器被配置用于在所述变换域中确定所述校正因子；并且所述设备还包括逆转换器，用于将所述组合音频信号转换到所述时域。

27.一种设备，包括：

-输入端，用于输入组合音频信号以及一个或多个参数，所述参数与已经从中形成所述组合音频信号的音频信号相关；

-合成器，用于基于所述组合音频信号和所述一个或多个参数，合成两个或更多音频信号。

其特征在于，所述一个或多个参数包括校正因子，并且所述设备包括通过在所述合成两个或更多音频信号时使用所述校正因子的校正器。

28.根据权利要求27所述的设备，其特征在于所述合成器被配置用于合成每个音频信号；并且所述校正器被配置用于通过使用所述校正因子来校正每个合成的音频信号。

29.根据权利要求27或28所述的设备，其特征在于所述一个或多个参数包括环境电平信息；并且所述合成器包括用于使用所述环境电平信息对所述两个或更多音频信号进行解相关的解相关器。

30.根据权利要求29所述的设备，其特征在于所述相关器包括滤波器，以及用于通过所述环境电平信息来控制所述滤波器的控制输入端。

31.根据权利要求27-30之一所述的设备，其特征在于所述音频信号的频带被划分成子带，并且所述输入端被配置成接收用于每个子带的校正因子，并且所述合成器被配置用于使用所述子带的所述相关因子来合成所述音频信号的每个子带。

32.根据权利要求31所述的设备，其特征在于所述合成器被配置成通过使用下列等式来合成用于每个子带的输出声道，

S_{n}^{i} = a_{i} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}} + b_{i} S_{i, n}

其中，n是子带，

a_i是对应于所述声道间电平差的第一定标因子，

b_i是对应于所述环境电平的第二定标因子，

N是合成的声道的总数，

τ_n是声道间时间差，以及

i是合成声道的数量。

33.一种计算机程序，包括程序代码装置，当程序在处理器上运行时所述程序代码装置适合于执行下列步骤：

-输入两个或更多音频信号；

-分析所述音频信号以形成一组参数；

其特征在于所述计算机程序包括程序代码装置，所述程序代码装置适合于

-确定所述组合音频信号的信号电平；

34.根据权利要求33所述的计算机程序，包括当所述程序在处理器上运行时适合于执行所述步骤1到9中的任意一个的程序代码装置。

35.一种计算机程序，包括程序代码装置，当程序在处理器上运行时所述程序代码装置适合于执行下列步骤：

-输入组合音频信号以及一个或多个参数，所述参数与从中已经形成所述组合音频信号的所述音频信号相关；

其特征在于所述一个或多个参数包括校正因子，并且所述计算机程序包括适合于在所述合成两个或更多音频信号时使用所述校正因子的程序代码装置。

36.根据权利要求35所述的计算机程序，包括当所述程序在处理器上运行时适合于执行所述步骤10到16中的任意一个的程序代码装置。