CN101889308B

CN101889308B - 用于从两声道音频信号进行环境提取的基于相关的方法

Info

Publication number: CN101889308B
Application number: CN2008801194312A
Authority: CN
Inventors: 朱哈·O·梅里玛; 迈克尔·M·古德温; 吉恩-马克·乔特
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2007-10-04
Filing date: 2008-10-02
Publication date: 2012-07-18
Anticipated expiration: 2028-10-02
Also published as: US8107631B2; WO2009046225A3; WO2009046225A2; GB2467667A; GB201006664D0; GB2467667B; US20090092258A1; CN101889308A

Abstract

一种环境提取的方法包括分析输入信号以确定输入信号中的时间依赖和频率依赖的环境量，其中环境量是基于信号模型以及从输入信号计算出的相关量来确定的，并且其中环境是利用乘法的时频屏蔽来提取的。另一种环境提取的方法包括补偿对短期互相关系数的估计中的偏置。此外，公开了具有用于实现以上方法的各种模块的系统。

Description

用于从两声道音频信号进行环境提取的基于相关的方法

相关申请

本申请要求2007年10月4日递交的美国临时申请No.60/977,600的权益，该美国临时申请的整个说明书通过引用而被全部结合于此。

本申请要求2008年8月21日递交的美国非临时申请No.12/196,239的权益，该美国非临时申请的整个说明书通过引用而被全部结合于此。

技术领域

本发明涉及音频处理技术。更具体地，本发明涉及用于从音频信号提取环境的系统和方法。

背景技术

各种技术可用于从两声道立体声信号提取环境分量(ambiencecomponent)。立体声信号可被分解成基本分量(primary component)和环境分量。这些方法的一个常见应用是收听增强系统(listening enhancementsystem)，其中环境信号分量被修改和/或被空间地重新分布于多声道扬声器之上，同时基本信号分量不被修改或者被不同地处理。在这些系统中，环境分量通常被定向至环绕扬声器。此环境重新分布帮助增加了收听体验中的沉浸感，而没有损害立体声的音场(sound stage)。

一些现有的频域环境提取方法导出作为时间和频率的函数的、描述输入信号中的环境量(amount of ambience)的乘法屏蔽(multiplicativemask)。这些方案使用用于从输入信号的相关量来确定这些环境提取屏蔽(ambience extraction mask)的专门函数，导致了次优的提取性能。当主要的(非环境的)源被移动(pan)到每个声道时，一个特定的误差来源(source of error)便出现；现有方法容许这些情况下主要源的显著泄漏。现有方法中的另一误差来源产生自对互相关系数的幅度的短期估计。短期估计对于基于屏蔽的方法的操作而言是必要的，但是用于短期估计的现有方法导致了对环境量的低估。

所希望的是用于环境提取的改进方法。

发明内容

本发明提供了用于利用环境提取屏蔽从多声道输入信号提取环境分量的系统和方法。对环境提取屏蔽的求解基于从输入信号计算的信号相关量，并且取决于关于信号模型中的环境分量的各种假设。本发明在各种实施例中实现了时频分析合成框架中的环境提取。环境是基于所导出的乘法屏蔽来提取的，所导出的乘法屏蔽反映了每个频带内的输入信号的当前所估计组成。一般地，操作是在感兴趣的每个频带中独立地执行的。就输入信号的互相关和自相关而言来表达结果。利用时频表示来执行分析合成，因为这样的表示促进了基本分量和环境分量的分辨率。在每个时间和频率处，估计每个输入声道的环境分量。

根据本发明的一个方面，一种从多声道输入信号进行环境提取的方法包括将输入信号转换成时频表示。对于输入声道信号的时频表示的自相关和互相关被确定。基于所确定的自相关和互相关的环境提取屏蔽被乘法地应用于输入声道信号的时频表示以导出环境分量。屏蔽基于与输入信号的各个声道中的环境水平有关的假设关系。

根据本发明的另一个方面，一种环境提取的方法包括分析输入信号以确定输入信号中的环境量。分析输入信号包括估计短期互相关系数。该方法还包括补偿短期互相关系数的估计中的偏置。

根据本发明的另一个方面，提供了一种用于从多声道输入信号提取环境分量的系统。该系统包括时间到频率变换模块、相关计算模块、环境屏蔽导出模块、环境屏蔽乘法模块和频率到时间变换模块。时间到频率变换模块被配置为将多声道输入信号转换成对于多声道输入信号的各个声道的时频表示。相关计算模块被配置为确定信号相关，信号相关包括时频表示中对于每个时间和频率的互相关和自相关。环境屏蔽导出模块被配置为根据所确定的信号相关以及与多声道输入信号的各个声道中的环境水平有关的假设关系来导出环境提取屏蔽。环境屏蔽乘法模块被配置为将环境提取屏蔽与时频表示相乘，以生成多声道输入信号的各个声道的环境分量的时频表示。频率到时间变换模块被配置为将环境分量的时频表示转换成各个时间表示。

下面参考附图来描述本发明的这些和其他的特征和优点。

附图说明

图1A和图1B示出了作为相关系数φ_LR和输入信号之间的水平差异的函数的环境屏蔽的环境比和性状(behavior)。

图1C是示出根据本发明的一个实施例的提取环境的方法的流程图。

图2示出对于遗忘因子λ的一个范围的所估计互相关系数的实部、虚部和幅度的概率分布函数。

图3示出对于λ的一个范围、作为真实|φ_LR|的函数的平均估计的相关系数幅度|φ_LR|。

图4是示出根据本发明的一个实施例的环境提取的方法的流程图。

图5示出根据本发明的各种实施例的、用于从多声道输入信号提取环境分量的系统。

具体实施方式

现在将详细参考本发明的优选实施例。优选实施例的示例在附图中被示出。虽然本发明将结合这些优选实施例来描述，但是将会被理解的是，不希望将本发明限制到这样的优选实施例。相反，希望覆盖可被包括在所附权利要求限定的本发明的精神和范围内的替换、修改和等同物。在下面的描述中，陈述了许多具体细节以提供对本发明的彻底理解。可在没有一些或全部的这些具体细节的情况下实践本发明。在其他实例中，公知的机制没有被详细地描述，以便不会不必要地模糊本发明。

这里应当注意，贯穿各种绘图，类似的标号指称类似的部分。这里所示出和描述的各种绘图被用来示出本发明的各种特征。在特定特征在一个绘图中而非在另一绘图中被示出的范围内，除去另有指示的情况或者结构固有地禁止特征的结合的情况，要理解的是，这些特征可适于被包括在其他图中所表示的实施例中，仿佛它们在这些图中被充分地示出。除非另有注明，否则绘图未必是按比例的。绘图上所提供的任何尺寸对于本发明的范围而言不希望是限制性的，而希望是仅仅例示性的。

1.介绍

本发明的实施例提供了用在空间音频增强算法中的环境提取的改进的系统和方法，空间音频增强算法例如2到N的环绕上混合(upmix)、改进的头戴式耳机再现、以及扬声器上的沉浸虚拟化。本发明实施例包括基于信号模型以及从输入信号计算出的相关量的、用于每个输入信号中的时间依赖和频率依赖的环境量的分析解法。算法在频域中操作。分析解法提供了相对于现有技术的显著质量改进。本发明实施例还包括用于补偿对环境量的低估的方法，其中对环境量的低估是由短期互相关估计的幅度中的偏置引起的。

为了进一步阐述，本发明实施例提供了在给出输入信号的自相关和互相关的情况下针对环境提取屏蔽的分析解法。这些解法基于与输入声道内的相对环境水平有关的某些假设以及信号模型。关于相对水平的两个不同假设被描述。根据一些实施例，技术被提供以补偿小时间常数对短期互相关估计的平均幅度的影响。时间常数的补偿预期对于利用短期互相关计算的任何技术都是有用的，上述技术包括商业可得的环境提取方法以及当前的空间音频编码标准。

在目前最先进的立体声上混合中，在基本(直接)声音与环境之间进行区别是常见的。基本声音由可定位的声音事件所组成，并且上混合的通常目标是保持相对的位置并且增强基本源的空间图像稳定性。另一方面，环境由混响(reverberation)或其他空间分布的声源所组成。立体声扬声器系统被限制在它呈现周围环境的能力中，但是可通过提取环境并且(部分地)将环境分布于多声道扬声器系统的环绕声道来克服此限制。

当提取环境时，可使用单声道方法，其中利用基于输入信号的自相关和互相关的标量环境提取屏蔽，来从左输入信号提取左环境声道并从右输入声道提取右环境声道。然而，为了使所选择的时间和频率分辨率内的所估计环境信号的幅度与真实环境信号的幅度相对应，提取屏蔽应当与各个声道中的环境的比例相对应。为了解出环境分量的时间依赖和频率依赖的水平，进行关于输入信号的、具体地关于输入信号中的环境水平的某些假设是有帮助的。

在本发明的不同实施例中，对于环境水平做了不同的假设。在第一实施例中，在输入信号的各个声道(例如左和右声道)内假设了相等的比。在第二实施例中，假设了输入信号的各个声道(例如左和右声道)中的相等环境水平。一般地，两声道输入信号的声道被称为“左”和“右”声道。这些方法提供了从输入内容提取环境的进一步改进，其中主要的(非环境的)源被移动到任何特定的声道。

此外，根据本发明的各种实施例，利用应用到所估计互相关系数的幅度上的补偿因子，来改进对互相关系数的短时估计。这样，更有效的环境提取屏蔽可被导出并且被应用于输入信号，以用于提取环境。

2.一般的考虑

2.1.环境提取框架

在时频(time-frequency)分析合成(analysis-synthesis)框架中实现这里所描述的环境提取技术。对于多个非固定的基本源的任意混合，此方法实现了对同时的源(假如它们在频率上基本不重叠)的鲁棒且独立的处理、以及从混合中对环境分量的鲁棒提取。还可基于人类听觉系统如何处理空间线索(spatial cue)的心理声学(psychoacoustical)证据而启示出时频处理框架(参见J.Blauert，Spatial Hearing：The Psychophysics of HumanSound Localization.Cambridge，MA，USA：The MIT Press，revised ed.，1997，其内容通过引用而被全部结合于此)。

对于下面第3节中描述的方法，环境提取处理是以导出乘法屏蔽为基础的，其中乘法屏蔽反映了每个频带内的输入信号的当前所估计组成。屏蔽然后在频域中应用于输入信号，因而有效地实现了时变的过滤。

2.2.记法和定义

一般地，针对具有由所选择的时间分辨率确定的任意有限持续时间的解析(复数的)时域信号，来导出此详细描述中的表达式。复数表示法(complex formulation)使得能够将方程直接应用于从输入信号的短时傅里叶变换(short-time Fourier transform)(STFT)产生的个体变换指标(transform index)(频带)。此外，方程不加修改地适用于实信号，并且可容易地应用于其他的时频信号表示，例如通过任意滤波器组(filterbank)导出的子带信号。此外，假设运算是在感兴趣的每个频带中独立地执行的。(子带)时域信号一般表示为列向量，并且在信号标志之上被标以箭头符号(例如

)。然而，为了更加清楚地展示，时间依赖性和/或频率依赖性在一些情况下被显式地(explicitly)写成记号(notate)，并且向量符号被省略。至于信号模型，组成信号的真实分量被标以正常符号(例如

)，并且对这些分量的估计被标以相应的斜体符号(例如

)。

按照两个输入信号的相关来表达此详细描述中所导出的很多结果。信号

和

的自相关和互相关出于本说明书的目的而被定义为

(1), r_{LL} = {\overset{&RightArrow;}{X}}_{L}^{H} {\overset{&RightArrow;}{X}}_{L} = Σ_{i = 1}^{N} x_{L}^{*} [n] x_{L} [n] = {| | {\overset{&RightArrow;}{X}}_{L} | |}^{2}

(2), r_{RR} = {\overset{&RightArrow;}{X}}_{R}^{H} {\overset{&RightArrow;}{X}}_{R} = Σ_{i = 1}^{N} x_{R}^{*} [n] x_{R} [n] = {| | {\overset{&RightArrow;}{X}}_{R} | |}^{2}

(3), r_{LR} = {\overset{&RightArrow;}{X}}_{L}^{H} {\overset{&RightArrow;}{X}}_{R} = Σ_{i = 1}^{N} x_{L}^{*} [n] x_{R} [n] = r_{RL}^{*}

并且互相关系数被定义为

(4), φ_{LR} = \frac{r_{LR}}{\sqrt{r_{LL} r_{RR}}} = \frac{{\overset{&RightArrow;}{X}}_{L}^{H} {\overset{&RightArrow;}{X}}_{R}}{| | {\overset{&RightArrow;}{X}}_{L} | | | | {\overset{&RightArrow;}{X}}_{R} | |}

其中^T标示转置，^H标示Hermitian转置，^*标示复共轭，并且||.||标示向量的幅度。注意，信号向量的幅度等同于相应自相关的平方根。

2.3.信号模型

出于此详细描述的目的，处于单个频带的并且在感兴趣的时间段内的任何输入信号

被假设为由单个基本分量和环境所组成：

(5), {\overset{&RightArrow;}{X}}_{L} = {\overset{&RightArrow;}{P}}_{L} + {\overset{&RightArrow;}{A}}_{L}

{\overset{&RightArrow;}{X}}_{R} = {\overset{&RightArrow;}{P}}_{R} + {\overset{&RightArrow;}{A}}_{R}

其中

和

是基本分量，并且

和

是环境分量。在可能存在多个基本声音的情况中，此假设不完全有效，但是它已证明是在时频环境提取框架内的合理近似。

为了估计基本的和环境的信号分量，关于它们的性质可做一些进一步的假设。在此详细描述中稍后讨论的情况下，假设两个环境信号互相不相关，并且与基本声音不相关。此外，可假设基本信号的互相关系数具有一个基本信号的幅度，这意思是除了可能的水平和相位的差异以外、基本信号是相同的。允许水平和相位的差异有效地实现了基本声音的范畴内的幅度以及/或者延迟移动的(delay-panned)和矩阵编码的分量(为了在矩阵编码/解码的上下文中对环境提取进行进一步的讨论，参见J.-M.Jot，A.Krishnaswamy，J.Laroche，J.Merimaa，and M.M.Goodwin，“Spatial AudioScene Coding in a universal two-channel 3-D stereo format，”in AES 123^rdConvention，(New York，NY，USA)，October 2007，其内容通过引用而被全部结合于此)。利用以上的假设，

(6), {| | {\overset{&RightArrow;}{X}}_{L} | |}^{2} = {| | {\overset{&RightArrow;}{P}}_{L} | |}^{2} {+ | | {\overset{&RightArrow;}{A}}_{L} | |}^{2}

{| | {\overset{&RightArrow;}{X}}_{R} | |}^{2} = {| | {\overset{&RightArrow;}{P}}_{R} | |}^{2} {+ | | {\overset{&RightArrow;}{A}}_{R} | |}^{2}

(7), r_{LR} = {\overset{&RightArrow;}{P}}_{L}^{H} {\overset{&RightArrow;}{P}}_{R}

(8), | r_{LR} | = | | {\overset{&RightArrow;}{P}}_{L} | | | | {\overset{&RightArrow;}{P}}_{R} | |

其中|.|标示复数的幅度。

3.环境提取屏蔽

基于第2.3节中定义的信号模型，可导出适用于第2.1节的框架的几个环境提取方法。此节专注于单声道的方法，其中利用基于输入信号的自相关和互相关的标量环境提取屏蔽，来从左输入信号提取左环境声道并从右输入声道提取右环境声道。处理可形式地描述为

(9)A_L(t，f)＝α_L(t，f)X_L(t，f)

A_R(t，f)＝α_R(t，f)X_R(t，f)

其中α_L(t，f)和α_R(t，f)是环境提取屏蔽，t是时间，并且f是频率。

出于此节的目的，α_L(t，f)和α_R(t，f)限于实的正值。为了使所选择的时间和频率分辨率内的所估计环境信号的幅度与真实环境信号的幅度相对应，提取屏蔽应当与各个声道中的环境的比例相对应。也就是说，根据

(10), α_{L} = \frac{| | {\overset{&RightArrow;}{A}}_{L} | |}{| | {\overset{&RightArrow;}{X}}_{L} | |}

α_{R} = \frac{| | {\overset{&RightArrow;}{A}}_{R} | |}{| | {\overset{&RightArrow;}{X}}_{R} | |}

的屏蔽被寻找，其中环境信号的真实水平需要被估计。

方程(6)和(8)给出了在已知输入信号的自相关和互相关与四个未知信号分量的水平之间的三个关系，四个未知信号分量是：左基本声音和环境以及右基本声音和环境。为了有效地解出环境分量的时间依赖和频率依赖的水平，可进行关于输入信号的额外假设。在下面的第3.1和3.2小节中调查了两个可替代的假设。

3.1.相等的环境比

在一些工作中(例如，参见C.Avendano and J.-M.Jot，“A frequency-domain approach to multichannel upmix，”L.Audio Eng.So.，vol.52，pp.740-749，July/August 2004，其内容被通过引用而全部结合于此并且在这里被称为“C.Avendano and J.-M.Jot，July/August 2004”)，共同的屏蔽被用来从左和右信号提取环境。该屏蔽可被表示为对二进制屏蔽方法的软判决(soft-decision)替换。在二进制情况下，在每个时间和频率处，进行关于信号是由基本分量还是由环境组成的判决；如果信号被认为是环境的则环境提取屏蔽被选为1，并且如果信号被认为是基本的则环境提取屏蔽被选为0。因为这样的硬判决(hard decision)方法导致了不希望的假象(artifact)，所以软判决函数被引入以从相关系数来确定共同屏蔽：

(11)α_com＝Γ(1-|φ_LR|)

其中Γ(.)是基于环境提取处理的所希望的特性而选择的非线性函数；自变量1-|φ_LR|显示了软判决环境屏蔽的一般所希望的趋势；所希望的趋势是当相关系数接近一(指示基本分量)时屏蔽应当接近零，并且当相关系数接近零(指示环境)时屏蔽应当接近一，以使得与屏蔽相乘选择了环境分量并且抑制了基本分量。函数Γ(.)提供了基于主观评估来调整趋势的能力(参见C.Avendano and J.-M.Jot，July/August 2004)。

对主观调整判决函数的一个替换是设置α_L＝α_R，并且解答方程(6)、(8)和(10)的系统以得到用于正确估计环境分量能量的理想的共同屏蔽。此方法产生

(12), α_{com} = \sqrt{1 - | φ_{LR} |}

注意，这表明了平方根是方程(11)中的Γ(.)函数的可行选项。

α_L＝α_R的选择暗示了如下假设

(13), \frac{| | {\overset{&RightArrow;}{A}}_{L} | |}{| | {\overset{&RightArrow;}{X}}_{L} | |} = \frac{| | {\overset{&RightArrow;}{A}}_{R} | |}{| | {\overset{&RightArrow;}{X}}_{R} | |} = α_{com}

在存在着声道之间的相当大的水平差异的情况下，此假设已证明在收听评估中是有问题的。在仅仅在一个声道中有信号的极端情况下，互相关系数未被定义，并且α_com不能被计算。此外，“寂静的”声道中的任何不相关的背景噪声理论上导致α_com＝1，并且活动的声道因此将被估计为是完全环境的，这没有为环境提取的目的服务。在C.Avendano and J.-M.Jot，July/August 2004中，通过采用额外的约束以使得如果输入信号的水平差异在所设置的阈值之上则输入信号被视为完全基本的，来解决这些问题。类似的方法可结合在本发明中。实现对于具有相当大的水平差异的输入信号的正确处理的另一方式是修改与环境信号分量的相对水平有关的假设，这将在下面进行。

3.2.相等的环境水平

如C.Avendano and J.-M.Jot，July/August 2004中所讨论的，环境通常在典型立体声记录中的左右输入声道中具有相等的水平。对环境提取的一个逻辑假设因此是

(14), | | {\overset{&RightArrow;}{A}}_{L} | | = | | {\overset{&RightArrow;}{A}}_{R} | | = I_{A}

其中记号I_A被引入以标示环境水平。利用此假设，环境屏蔽可如下被导出。从方程(6)、(8)和(14)，可导出下面的方程：

(15), {| r_{LR} |}^{2} = I_{A}^{4} - I_{A}^{2} (r_{LL} + r_{RR}) + r_{LL}^{2} r_{RR}^{2}

为了从以上的二次方程中解答

需要

即总的环境能量小于或等于总的信号能量。这将解的数目限制为一个，产生了

(16), I_{A}^{2} = \frac{1}{2} (r_{LL} + r_{RR} - \sqrt{{(r_{LL} - r_{RR})}^{2} + 4 {| r_{LR} |}^{2}})

左和右提取屏蔽因此简单地是

(17), α_{L} = \frac{I_{A}}{| | {\overset{&RightArrow;}{X}}_{L} | |}

α_{R} = \frac{I_{A}}{| | {\overset{&RightArrow;}{X}}_{R} | |}

或者，就自相关而言，

(18), α_{L} = \frac{I_{A}}{\sqrt{r_{LL}}}

α_{R} = \frac{I_{A}}{\sqrt{r_{RR}}}

此外，总的估计的环境能量与总的信号能量的比可表达为

(19), E_{A} = \frac{{| | {\overset{&RightArrow;}{A}}_{L} | |}^{2} + {| | {\overset{&RightArrow;}{A}}_{R} | |}^{2}}{{| | {\overset{&RightArrow;}{X}}_{L} | |}^{2} + {| | {\overset{&RightArrow;}{X}}_{R} | |}^{2}}

E_{A} = 1 - \frac{\sqrt{{(r_{LL} - r_{RR})}^{2} + 4 {| r_{LR} |}^{2}}}{r_{LL} + r_{RR}}

图1A和图1B示出了作为相关系数φ_LR和输入信号之间的水平差异的函数的环境屏蔽的环境比和性状。具体地，图1A示出作为互相关系数φ_LR和输入信号的水平差异的函数的E_A——总环境能量的分数(fraction)，而图1B示出作为φ_LR和输入信号的水平差异的函数的中的环境能量的分数。

对于完全相关的输入信号，根据信号模型，不管输入信号的水平为何，环境比都为0。对于相等水平的输入信号(r_LL＝r_RR或者等同地

)，环境比是互相关系数的线性函数，并且在此情况下方程(18)中的环境屏蔽等于方程(12)中表示的共同屏蔽。然而，对于具有相关系数0的信号而言，仅针对相等水平的输入信号的情况，环境比才为1；对于增加的水平差异而言，由于输入声道中的环境总是具有相等水平的假设，算法将更强的信号解释为是愈加基本的。

为了提供对环境提取处理的一般概述，图1C描绘了示出根据本发明的一个实施例的提取环境的方法的流程图。该方法以操作102中对立体声输入信号的接收开始。接下来，在操作104中，利用任何已知的方法，例如短时傅里叶变换，来将输入信号转换为频域或子带表示。接下来，在操作106中，针对每个频带并且在感兴趣的时间段内计算输入信号的自相关和互相关。

接下来，在操作108中，计算环境提取屏蔽。这些是基于输入信号的互相关和自相关来计算的，并且这些还基于与输入信号的各个左右声道中的环境水平有关的假设。在一个实施例中，假设了声道中相等的环境水平。在另一实施例中，假设了相等的环境比。

在操作110中，环境提取屏蔽应用于输入信号的时频表示，以生成时频的环境分量信号。在操作112中，从时频的环境分量生成时域的输出信号。在操作114中，通过对相关领域的技术人员而言已知的任何合适的方法，来将输出信号转换到时域。最后，在操作116中，输出信号被提供给呈现或再现系统。

4.相关计算

根据本发明的一些实施例，提供了方法以用于补偿短期互相关的估计中的偏置。递归相关计算中所使用的时间常数对输入信号的互相关的平均估计幅度具有相当大的影响。在相关计算中使用小时间常数导致了对环境量的低估。然而，希望使用相对小的时间常数来改进从动态信号的环境提取。对小时间常数的影响的补偿保持了对动态信号的性能，同时纠正了低估。

在实际的实时实现方式中，自相关和互相关可利用递归公式被近似为

(34), r_{LL} (t) = λ r_{LL} (t - 1) + (1 - λ) X_{L}^{*} (t) X_{L} (t)

r_{RR} (t) = λ r_{RR} (t - 1) + (1 - λ) X_{R}^{*} (t) X_{R} (t)

r_{LR} (t) = λ r_{LR} (t - 1) + (1 - λ) X_{L}^{*} (t) X_{R} (t)

其中λ∈[0，1]是遗忘因子(参见J.Allen，D.Berkeley，and J.Blauert，“Multi-microphone signal-processing technique to remove room reverberation fromspeech signals，”J.Acoust.Soc.Am.，vol.62，pp.912-915，October 1977，以及C.Avendano and J.-M.Jot，“Ambience extraction and synthesis from stereosignals for multi-channel audio up-mix，”in Proc.IEEE Int.Conf.on Acoust.，Speech，Signal Processing，(Orlando，FL，USA)，May 2002，它们的内容通过引用而被全部结合于此)。

处理的时间常数是由遗忘因子确定的，并且可表达为

(35), τ = \frac{1}{f_{c} \ln (1 - λ)}

其中f_c是计算中所用的采样率。注意，计算中所用的采样率未必等于输入信号的采样率。具体地，在STFT实现方式中，其中f_s是原始时域信号的采样率，并且h是分析中所用的跳距(hop size)。

对于接近1的λ的值，相关估计趋近过去信号的真实相关；然而注意，(34)中的计算对于λ＝1是定义错误的。对于较小的λ，递归近似对应于计算用指数衰减时间窗口加权过的信号的相关。短时间常数对于正确地处理瞬态信号是必要的；然而，对于平稳信号，对计算时间段的限制导致了估计误差。在下面，评价递归估计方法的这些误差。然而注意，所识别的问题不特定针对递归估计，而是与计算短时估计有关。对于可替代的互相关估计方法，因此也发生类似的误差(例如，参见R.M.Aarts，R.Irwan，and A.J.E.M.Janssen，“Efficient tracking of the cross-correlationcoefficient，”IEEE Trans.Speech Audio Proc.，vol.10，pp.391-402，September2002，其内容通过引用而被全部结合于此)。

对于平稳的输入信号，相关估计的分布取决于遗忘因子，以使得λ越大，估计与真实值的偏差越小。这针对图2所示的模拟结果中的互相关系数φ_LR而被示出。互相关系数是针对具有真实互相关0.5的、两个240,000样本的相等水平的高斯信号来计算出的。利用长度1024的50％重叠Hann开窗(Hann-windowed)时间帧，而在STFT域中执行计算；所描绘的数据是在分析已到达稳定状态之后对所有产生的时频拼块(tile)的聚集。

图2中的顶板(top panel)示出对于遗忘因子λ的一个范围的所估计互相关系数的实部、虚部和幅度的概率分布函数(PDF)。底板(bottompanel)还示出了相应的估计值的平均数(实线)以及25％和75％四分位数(虚线)。通过在所有的时频面元(bin)上形成所分析的量的直方图，来估计PDF。

对于实部和虚部，不管λ为何，平均值是近似正确的。然而，平均起来，互相关系数φ_LR的幅度对于小的λ而言被相当地高估了。这是由于如下的事实：互相关系数的幅度是幅度的函数，而不是所估计的实部和虚部的带符号的值的函数。

接下来，图3还示出了对于λ的一个范围、作为真实|φ_LR|的函数的平均估计相关系数幅度|φ_LR|。对于小的λ，平均数的范围被相当地压缩了。在环境提取的语境中，这暗示了输入信号中的环境量将被低估。下面进一步讨论了改进相关估计的补偿方法。

最后，应当注意，对于所计算的自相关(信号能量)，也发生估计误差。这些误差相比于对互相关系数的幅度的估计中所看到的误差通常是小的。然而，不相关的信号将产生波动的短时水平差异估计，这些估计对环境提取可能有影响。具体地，由于自相关中的估计误差，假设纯的环境具有左右声道中的相等水平的任何方法将会把这样的纯的环境描述为部分基本的。

对于较小的遗忘因子，由于对输入信号之间平均互相关的高估，提取正确的环境量的能力恶化了。然而，如利用互相关准则所测量的，单声道方法的性能对于较小的遗忘因子而言改进了。如第2.1节中所提到的，这些方法本质上实现了输入信号的时间依赖的过滤。它们的分开信号内的环境声音和基本声音的能力因此取决于能够找到如下的时频区域：在其中，这些分量中的一个比其他的占优势。虽然使用小的遗忘因子增加了相关估计处理中的误差，但是它是必要的，以便可靠地找到这样的时频区域。

因为使用相对小的时间常数对于单声道环境提取方法而言显得是有利的，所以调查互相关系数的平均幅度的高估是否可被补偿以便进一步改进提取结果是令人感兴趣的。图3建议所估计互相关系数的平均的范围被压缩至粗略地[1-λ，1]。因此，作为很粗糙的近似，对互相关系数的短时估计可通过如下形式的补偿而被改进

(44), | {\hat{φ}}_{LR} | = \max {0,1 - \frac{1 - | φ_{LR} |}{λ}}

此补偿在[1-λ，1]到[0，1]的范围中线性地扩展了相关系数。max{}算子(operator)的函数是要给原始地在1-λ之下到0的最初的幅度估计设立阈值，以便防止经补偿的幅度到达负值。

对于单声道的方法，补偿增加了所提取的环境能量的分数，以使得它变得很接近于小的环境量的正确值。此外，改进了相等比的方法提取相关基本分量的能力。然而，相等水平的方法的相应的基本相关较少得到改进。这可通过相等水平的方法对自相关中的估计误差的敏感性来解释。

虽然当左右声道中的环境的真实比例相同时两个单声道方法理论上是相同的，但是相等水平的方法由于在不相关环境信号之间发生的随机瞬时水平差异而低估了环境量。如早些时候所提及的，使用相对短的时间常数是必要的，以便正确地处理动态信号。具体地，能够正确地分类基本瞬态是在分离具有主观基本和环境的性质的信号分量时的重要因素。

为了进一步阐述，图4描绘了示出根据本发明的一个实施例的环境提取的方法的流程图。该方法以操作402中对立体声输入信号的接收开始。接下来，在操作404中，输入信号被分析以确定立体声输入信号中的环境量。可利用任何环境估计方法，例如这里所讨论的单声道方法，来分析输入信号。根据各种实施例，对输入信号的分析包括对短期互相关系数的估计。分析还可包括利用任何已知的方法，例如短时傅里叶变换，来使输入信号被转换为频域或子带的表示。一般地，针对每个频带并且在感兴趣的时间段内执行输入信号的自相关和互相关。

在操作406中，可利用补偿因子来补偿从对短期互相关系数的估计而产生的任何偏置(例如方程(44))。接下来，在操作408中，导出环境提取屏蔽。这些是基于输入信号的经补偿的短期互相关系数(在一些实施例中被可选地补偿)、互相关以及自相关来导出的，并且这些还基于与输入信号的各个声道中的环境水平有关的假设。在一个实施例中，假设了声道中相等的环境水平。在另一实施例中，假设了相等的环境比。

在操作410中，环境提取屏蔽应用于输入信号的时频表示，以生成时频的环境分量信号。在操作412中，从时频的环境分量生成时域的输出信号。在操作414中，通过对相关领域的技术人员而言已知的任何合适的方法，来将输出信号转换到时域。最后，在操作416中，输出信号被提供给呈现或再现系统。

图5示出了根据本发明的各种实施例的、用于从多声道输入信号502提取环境分量的系统500。系统500包括时间到频率变换模块504、相关计算模块506、环境屏蔽导出模块508、环境屏蔽乘法模块510和频率到时间变换模块512。本领域的技术人员将会认识到，系统500可被配置为包括一些或全部的这些模块以及与其他系统、例如再现系统514集成，以产生用于音频回放的音频系统。应当注意，系统500的各种部分可被实现在计算机软件和/或硬件中。例如，模块504、506、508、510、512可被实现为程序子例程，这些程序子例程被计算机系统的处理器编程进存储器和执行。此外，模块504、506、508、510、512可被实现为分开的模块或组合的模块。

参考图5，多声道输入信号502被示为到时间到频率变换模块504的声道输入。一般地，多声道输入信号502包括多个声道。然而，为了促进对本发明的理解，多声道输入信号502在图5中被示为具有右声道和左声道的立体声信号。每个声道可被分解成基本分量和环境分量。时间到频率变换模块504被配置为将多声道输入信号502转换成对多声道输入信号的任何数目的声道的时频表示。因此，左右声道被转换成时频表示并被从模块504输出。

来自模块504的输出变为到相关计算模块506的输入。相关计算模块506被配置为确定来自模块504的输出的信号相关。例如，信号相关可包括时频表示中每个时间和频率的互相关和自相关。相关计算模块506还可被配置为通过使用本发明的技术选择来估计短期互相关系数和/或补偿对短期互相关系数的估计中的偏置。如图5所示，对左和右声道的自相关和互相关被输入进环境屏蔽导出模块508。可选地，互相关线路被配置为与对短期互相关系数的经补偿估计相对应。

环境屏蔽导出模块508被配置为根据所确定的信号相关、经补偿的短期互相关系数(可选的)、和/或所假设的关于多声道输入信号的各个声道中的环境水平的关系来导出环境提取屏蔽。根据一个实施例，所假设的关系是输入信号的各个声道中存在相等的环境比。根据优选实施例，所假设的关系是多声道输入信号的各个声道中存在相等的环境水平。

可导出任何数目的环境提取屏蔽。所导出的环境提取屏蔽可以是用于应用到多个声道的共同屏蔽或独立屏蔽。根据一个实施例，共同屏蔽被导出，用于应用到左右声道两者。在优选实施例中，独立屏蔽被导出，用于分别应用到左右声道。一旦环境提取屏蔽被导出，它就被输出至环境屏蔽乘法模块510。图5示出从模块508输出的用于左右声道的两个环境提取屏蔽。

环境屏蔽乘法模块510被配置为将环境提取屏蔽与时频表示相乘，以生成多声道输入信号的各个声道的环境分量的时频表示。这样，模块510接收来自模块504的时频表示输入以及来自模块508的环境提取屏蔽输入，并且输出右和左声道的环境分量的相应时频表示。

环境分量的相应时频表示然后被输入进频率到时间变换模块512，频率到时间变换模块512被配置为将环境分量转换成各个时间表示。频率到时间变换模块512执行时间到频率变换模块504的逆操作。在环境分量被转换之后，它们的各个时间表示被输出进再现系统514。参考图5，再现系统514还接收多声道输入信号502作为输入。

再现系统514可包括用于再现来自系统500的经处理音频的任何数目的组件。本领域的技术人员将会认识到，这些组件可包括混合器、转换器、放大器、扬声器等。例如，混合器可用来从多声道输入信号502(多声道输入信号502包括右和左声道的基本分量和环境分量)减去环境分量，以便从多声道输入信号502提取基本分量。为了进一步增强收听体验，在一些实施例中，在回放之前在再现系统514中加强(boost)环境分量。根据本发明的各种实施例，基本分量和环境分量然后被分开地分布以用于回放。例如，在多声道扬声器系统中，一些环境被发送至环绕声道；在头戴式耳机系统中，环境可与基本分量不同地被虚拟化。以此方式，可增强收听体验中的沉浸感。

5.结论

描述了几个基于相关的环境提取方法。基于所采用的信号模型以及关于环境水平的不同假设来解析地导出了两个新的单声道环境提取屏蔽，所述不同假设是：左右输入信号内的相等比和相等水平。描述了相等水平假设对于相等比方法是优选的。

还描述了递归相关计算中所使用的时间常数对输入信号的互相关的平均估计幅度具有相当大的影响。根据一些方法，使用小时间常数导致了对环境量的低估。然而，相对小的时间常数对于单声道屏蔽方法的成功操作而言是有利的。还描述了小时间常数改进了从动态输入信号的环境提取。呈现了对时间常数的影响的简单补偿，以改进环境提取结果。

虽然出于清楚理解的目的已多少详细地描述了上述发明，但是将会清楚的是在所附权利要求的范围内可实践某些改变和修改。因此，本实施例要被视作例示性的而非限制性的，并且本发明将不限于这里所给出的细节，而是可在所附权利要求的范围和等同物内被修改。

Claims

1.一种从多声道输入信号进行环境提取的方法，所述方法包括：

将所述多声道输入信号转换成时频表示；

确定信号相关，所述信号相关包括所述时频表示中对于每个时间和频率的互相关和自相关；

根据所确定的信号相关以及与所述多声道输入信号的各个声道中的环境水平有关的假设关系来导出环境提取屏蔽；

将所述环境提取屏蔽应用于所述时频表示以生成环境的相应时频表示；以及

将所述环境的相应时频表示转换成时间表示。

2.根据权利要求1所述的方法，其中所述假设关系是所述多声道输入信号的各个声道中存在相等的环境水平。

3.根据权利要求2所述的方法，其中环境水平是就所述多声道输入信号的各个声道中的能量水平而言来被测量的。

4.根据权利要求1所述的方法，其中所述假设关系是所述多声道输入信号的各个声道中存在相等的环境比。

5.根据权利要求4所述的方法，其中相等的环境比是就各个相应声道的、环境能量相比于输入信号能量而言来被测量的。

6.根据权利要求1所述的方法，其中将所述多声道输入信号转换成所述时频表示产生了与所述多声道输入信号的每个声道相对应的独立时频表示。

7.根据权利要求6所述的方法，其中将所述环境提取屏蔽应用于所述时频表示包括：

将所述环境提取屏蔽和相应的时频表示相乘，相乘产生了环境的相应时频表示。

8.根据权利要求6所述的方法，其中导出所述环境提取屏蔽产生了共同的环境提取屏蔽，所述共同的环境提取屏蔽用于应用到所述多声道输入信号的各个声道的时频表示。

9.根据权利要求6所述的方法，其中导出所述环境提取屏蔽产生了不同的环境提取屏蔽，所述不同的环境提取屏蔽用于应用到所述多声道输入信号的各个声道的时频表示。

10.一种环境提取的方法，包括：

分析输入信号以确定所述输入信号中的环境量，其中分析所述输入信号包括估计短期互相关系数；以及

补偿对所述短期互相关系数的估计中的偏置，

其中分析所述输入信号包括：

将所述输入信号转换成时频表示；

确定信号相关，所述信号相关包括所述时频表示中对于每个时间和频率的互相关和自相关；以及

将环境提取屏蔽应用于所述时频表示，其中所述屏蔽基于所确定的信号相关、经补偿的短期互相关系数，并且基于与所述输入信号的各个声道中的环境水平有关的假设关系。

11.根据权利要求10所述的方法，其中所述假设关系是所述输入信号的各个声道中存在相等的环境水平。

12.根据权利要求10所述的方法，其中所述假设关系是所述输入信号的各个声道中存在相等的环境比。

13.根据权利要求10所述的方法，其中所述环境提取屏蔽包括共同的环境提取屏蔽，所述共同的环境提取屏蔽用于应用到所述输入信号的各个声道的时频表示。

14.根据权利要求10所述的方法，其中所述环境提取屏蔽包括不同的环境提取屏蔽，所述不同的环境提取屏蔽用于应用到所述输入信号的各个声道的时频表示。

15.一种用于从多声道输入信号提取环境分量的系统，所述系统包括：

时间到频率变换模块，所述时间到频率变换模块可操作用于将所述多声道输入信号转换成对于所述多声道输入信号的各个声道的时频表示；

相关计算模块，所述相关计算模块可操作用于确定信号相关，所述信号相关包括所述时频表示中对于每个时间和频率的互相关和自相关；

环境屏蔽导出模块，所述环境屏蔽导出模块可操作用于根据所确定的信号相关以及与所述多声道输入信号的各个声道中的环境水平有关的假设关系来导出环境提取屏蔽；

环境屏蔽乘法模块，所述环境屏蔽乘法模块可操作用于将所述环境提取屏蔽与所述时频表示相乘，以生成所述多声道输入信号的各个声道的环境分量的时频表示；以及

频率到时间变换模块，所述频率到时间变换模块可操作用于将所述环境分量的时频表示转换成各个时间表示。

16.根据权利要求15所述的系统，其中所述相关计算模块还可操作用于估计短期互相关系数以及用于补偿对所述短期互相关系数的估计中的偏置。

17.根据权利要求15所述的系统，其中所述假设关系是所述多声道输入信号的各个声道中存在相等的环境水平。

18.根据权利要求15所述的系统，其中所导出的环境提取屏蔽产生了不同的环境提取屏蔽，所述不同的环境提取屏蔽用于应用到所述多声道输入信号的各个声道的时频表示。