CN101816192A

CN101816192A - 用于头戴耳机再现的方法、头戴耳机再现系统、计算机程序产品

Info

Publication number: CN101816192A
Application number: CN200880109968A
Authority: CN
Inventors: D·J·布里巴尔特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2007-10-03
Filing date: 2008-10-01
Publication date: 2010-08-25
Anticipated expiration: 2028-10-01
Also published as: US9191763B2; KR101540911B1; EP2206364B1; US20100215199A1; KR20100081999A; JP5769967B2; TW200926873A; EP2206364A1; CN101816192B; WO2009044347A1; JP2010541449A

Abstract

提出了一种用于至少两个输入声道信号的头戴耳机再现的方法。所述方法包括针对来自所述至少两个输入声道信号的每个输入声道信号对的以下步骤。首先，确定共同分量、对应于所述共同分量的估计的期望位置、和对应于所述输入声道信号对中的两个输入声道信号的两个剩余分量。所述确定是基于所述输入声道信号的所述对。每个所述剩余分量是通过减去共同分量的贡献而从它的对应的输入声道信号得出的。所述贡献是与所述共同分量的估计的期望位置有关的。第二，合成主虚拟源以及两个另外的虚拟源，该主虚拟源包括在估计的期望位置处的所述共同分量，该另外的虚拟源每个包括在相应的预定位置处的所述剩余分量中相应的一个。

Description

用于头戴耳机再现的方法、头戴耳机再现系统、计算机程序产品

发明领域

本发明涉及一种用于至少两个输入声道信号的头戴耳机再现的方法。本发明还涉及一种用于再现至少两个输入声道信号的头戴耳机再现系统、以及一种执行用于头戴耳机再现的方法的计算机程序产品。

发明背景

最流行的扩音器(loudspeaker)再现系统是使用在预定位置处的两个扩音器，基于双声道立体声的。如果用户位于最佳听音位置(sweet spot)处，则被称为振幅移动(amplitude panning)的技术把幻像声源安置在两个扩音器之间。然而，可行的幻像源的区域是相当有限的。基本上，幻像源只能被安置在两个扩音器之间的线上。两个扩音器之间的角度具有约60度的上限，正如在S.P.Lipshitz，“Stereo microphone techniques；are the purists wrong？”，J.Audio Eng.Soc.，34：716-744，1986中指出的。因此，最终得到的正面声像(frontal image)在宽度方面是受限的。而且，为了让振幅移动正确地工作，收听者的位置是非常受限制的。最佳听音位置通常是相当小的，特别是在左右方向上。只要收听者移动到最佳听音位置之外，移动技术就失败，并且感觉音频源是在最接近的扩音器的位置处，参见H.A.M.Clark，G.F.Dutton，和P.B.Vanderlyn，“The‘Stereosonic’recording and reproduction system：A two-channelsystems for domestic taperecords”，J.Audio Engineering Society，6：102-117，1958。而且，以上的再现系统限制收听者的取向。如果由于头或身体旋转，两个扬声器没有被对称地安置在中切面(midsaggitalplane)的两侧，则幻像源的被感知位置是错误的或变得不明确，参见G.Theile和G.Plenge，“Localization of lateral phantom sources”，J.Audio Engineering Society，25：196-200，1977。已知的扩音器再现系统的再一个缺点在于，引入了由振幅移动引起的谱着色。由于到两只耳朵的不同的路径长度差异和最终得到的梳状滤波器效果，与在期望位置处的真实声源相比较，幻像源可能受到明显的谱修改的困扰，正如在V.Pulkki和V.Karjalainen，M.和Valimaki的“Coloration，andEnhancement of Amplitude-Panned Virtual Sources”，in Proc.16^th AESConference，1999中讨论的。振幅移动的另一个缺点在于以下的事实，即：由幻像声源产生的声源定位线索仅仅是对应于在期望位置处的声源的定位线索的粗略近似，特别是在中频和高频范围内。

与扩音器回放相比较，通过头戴耳机而再现的立体声音频内容在头部内被感知。缺乏从某个声源到耳朵的声学路径的影响会使得空间声像到声音的转换不自然。使用固定的一组虚拟扬声器来克服声学路径的缺乏的头戴耳机音频再现，会遭受到如在以上讨论的扩音器回放系统中的、由一组固定的扩音器固有地引入的缺点。缺点之一是：定位线索是在期望位置处的声源的实际定位线索的粗略近似，这导致降级的空间声像。另一个缺点是，振幅移动仅仅在左右方向上起作用，而在任何其它方向上不起作用。

发明概要

本发明的目的是提供一种用于头戴耳机再现的增强的方法，该方法减小了与固定的虚拟扬声器组有关的缺点。

这个目的是通过用于至少两个输入声道信号的头戴耳机再现的方法而达到的，所述方法包括针对来自所述至少两个输入声道信号的每个输入声道信号对的以下步骤。首先，确定共同分量、对应于所述共同分量的估计的期望位置和对应于所述输入声道信号对中的两个输入声道信号的两个剩余分量。所述确定是基于所述输入声道信号的所述对。每个所述剩余分量是通过减去共同分量的贡献而从它的对应的输入声道信号得出的。所述贡献是与所述共同分量的估计的期望位置有关的。其次，合成主虚拟源以及两个另外的虚拟源，该主虚拟源包括在估计的期望位置处的所述共同分量，而所述另外的虚拟源每个包括在相应的预定位置处的所述剩余分量中的相应一个。

这意味着，对于例如五个输入声道信号，针对所有可能的对组合来执行共同分量和两个剩余分量的所述合成。对于所述五个输入声道信号，这导致十个可能的输入声道信号对。然后，通过叠加来自于由所述五个输入声道信号形成的所有输入声道信号对的共同分量和剩余分量的所有贡献，从而得到对应于所述五个输入声道信号的最终得到的总的声音场景。

通过使用本发明所提出的方法，由在固定位置处——例如在按照标准立体声扩音器装置的+/-30度方位角处——的两个虚拟扩音器创建的幻像源，被在期望位置处的虚拟源替代。所提出的用于头戴耳机再现的方法的优点在于，即使引入头部旋转或即使利用正面/环绕移动(front/surround panning)，也改进了空间意象。更具体地，所提出的方法提供了沉浸式体验(immersive experience)，其中把收听者虚拟地安置在听觉场景“中”。而且，众所周知，对于引人注目的(compelling)3D音频体验，头部跟踪是必须具备的。通过所提出的解决方案，头部旋转不会使虚拟扬声器改变位置，因此空间成像保持为正确的。

在一个实施例中，共同分量对于所述输入声道信号对的所述贡献，被按照对于被感知为左面输入声道信号的估计的期望位置的余弦和对于被感知为右面输入声道的估计的期望位置的正弦来表示。基于此，属于一对且在所述对中被感知为左面和右面输入声道的输入声道信号被分解为：

L[k]＝cos(υ)S[k]+D_L[k]

R[k]＝sin(υ)S[k]-D_R[k]

其中L[k]和R[k]分别是所述对中被感知为左面和被感知为右面的输入声道信号，S[k]是对于被感知为左面和被感知为右面的输入声道信号的共同分量，D_L[k]是对应于被感知为左面的输入声道信号的剩余分量，D_R[k]是对应于被感知为右面的输入声道信号的剩余分量，以及υ是对应于共同分量的估计的期望位置。

为了简明起见，贯穿本说明书的其余部分，术语“被感知为左面”和“被感知为右面”用“左”和“右”来替代。应当指出的是，在本上下文中，“左”和“右”是指来自于所述至少两个输入声道信号的、属于一对的两个输入声道信号，并且在任何情况下均不限制要由头戴耳机再现方法再现的输入声道信号的数目。

以上的分解提供了共同分量，它是幻像源的估计，正如在经典扩音器系统中通过振幅移动技术而得到的。余弦和正弦因子提供了借助于单个角度来描述共同分量对于左和右输入声道信号的两个信号的贡献的手段。所述角度与共同源的被感知位置密切相关。振幅移动在大多数情形下是基于所谓的3dB规则，这是指无论左面和右面输入声道中的共同信号的比率如何，共同分量的总功率应当保持不变。这个属性通过使用余弦和正弦项而被自动地保证，因为同一个角度的正弦和余弦的平方和总是得1。

在另一个实施例中，共同分量和对应的剩余分量依赖于为其确定所述共同分量的输入声道信号之间的相关性。当估计共同分量时，在估计过程中的非常重要的变量是左声道和右声道之间的相关性。相关性直接与共同分量的强度(从而是功率)相联系。如果相关性低，则共同分量的功率也低。如果相关性高，则共同分量的功率相对于剩余分量而言是高的。换句话说，相关性是在左和右输入声道信号对中的共同分量的贡献的指示器(indicator)。如果必须估计共同分量和剩余分量，则有利的是知道在输入声道信号中是共同分量还是剩余分量占支配地位。

在另一个实施例中，共同分量和对应的剩余分量依赖于对应的输入声道信号的功率参数。选择功率作为用于估计过程的测度会允许更精确和可靠地估计共同分量和剩余分量。如果输入声道信号之一——例如左输入声道信号——的功率是零，则这自动意味着，对于该信号来说剩余分量和共同分量是零。这也意味着，共同分量仅仅在另一个输入声道信号中存在，因此右输入声道信号确实具有相当大的功率。而且，对于在功率上是相等的左剩余分量和右剩余分量(例如，如果它们是相同的信号但具有相反的正负号)，左输入声道信号的功率等于零意味着，左剩余分量和右剩余分量的功率都是零。这意味着，右输入声道信号实际上是共同分量。

在另一个实施例中，对应于共同分量的估计的期望位置依赖于为其确定所述共同分量的输入声道信号之间的相关性。如果相关性高，则共同分量的贡献也高。这也意味着，在左和右输入声道信号的功率与共同分量的位置之间有紧密的关系。另一方面，如果相关性低，则这意味着，共同分量相对较弱(即，低的功率)。这也意味着，左和右输入声道信号的功率主要是由剩余分量的功率、而不是由共同分量的功率来确定的。因此，为了估计共同分量的位置，知道共同分量是否占支配地位是有利的，而这是由相关性来反映的。

在另一个实施例中，对应于共同分量的估计的期望位置依赖于对应的输入声道信号的功率参数。对于为零的剩余分量，左和右输入声道信号的相对功率直接与对应于共同分量的主虚拟源的角度相联系。因此，主虚拟源的位置具有对于左和右输入声道信号中的(相对)功率的强依赖性。另一方面，如果与剩余分量相比，共同分量是非常小的，则左和右输入声道信号的功率是由剩余信号占支配地位的，在那种情形下，从左和右输入声道信号估计共同分量的期望位置不是非常直截了当的。

在另一个实施例中，对于一对输入声道信号，所述功率参数包括：左声道功率P_l、右声道功率P_r和互功率P_x。

在另一个实施例中，对应于共同分量的估计的期望位置υ被得出为：

&upsi; = \arctan (\frac{\sqrt{P_{l}} \cos (α + β)}{\sqrt{P_{r}} \cos (- α + β)})

其中

α = \frac{1}{2} \arccos (\frac{P_{x}}{\sqrt{P_{l} P_{r}}})

β = \tan (\arctan (α) \frac{\sqrt{P_{r}} - \sqrt{P_{l}}}{\sqrt{P_{r}} + \sqrt{P_{l}}}) .

可以看出，这个推导相应于使得对应于共同分量的估计的信号的功率最大化。关于共同分量的估计过程和共同分量的功率最大化(这也意味着剩余分量的功率的最小化)的更多信息在Breebaart，J.，Faller，C.“Spatial audio processing：MPEG Surroundand other applications”，Wiley，2007中给出。使得对应于共同分量的估计的信号的功率最大化是令人期望的，因为对于该对应的信号而言，精确的定位信息是可得到的。在极端的情况下，当共同分量是零时，剩余分量等于原始的输入信号，因而处理将没有效果。所以，使得共同分量的功率最大化和使得剩余分量的功率最小化以便得到所描述的过程的最大效果是有益的。

在另一个实施例中，估计的期望位置代表在对应于两个虚拟扬声器位置的两个预定位置之间的空间位置，由此范围υ＝0...90度映射到用于被感知的位置角度的范围r＝-30...30度。如在先前的实施例中指出的估计的期望位置υ在0和90度之间变化，由此对应于0和90度的位置分别等于左和右扬声器位置。为了由头戴耳机再现系统进行逼真的声音再现，希望把以上的估计的期望位置的范围映射到对应于被实际上使用于产生音频内容的范围的范围中。然而，被使用于产生音频内容的精确的扬声器位置并不是可得到的。大多数音频内容被产生来用于在如由ITU标准(ITU-R Recommend.BS.775-1)规定的扩音器装置上回放，即让扬声器处在+30和-30度角。所以，虚拟源的原始位置的最佳估计是被感知的地方，然而假设音频是在遵从ITU标准的扩音器系统上再现。以上的映射服务于这个目的，即，将估计的期望位置带入遵从ITU的范围。

在另一个实施例中，对应于估计的期望位置υ的被感知位置角度r按照下式得出：

r = (- &upsi; + \frac{π}{4}) \frac{2}{3} .

这种映射的优点在于，它是从间隔[0...90]度到[-30...30]度的简单的线性映射。如果给定优选的I TU扩音器装置的话，则所述到[-30...30]度的范围的映射给出了虚拟源的预期位置的最佳估计。

在另一个实施例中，功率参数是从被转换到频域的输入声道信号得出的。在许多情形下，音频内容包括多个同时的声源。所述多个资源对应于不同的频率。所以，对于更好的声音成像，以更对准目标的方式来操控声源是有利的，而这仅仅在频域才是可能的。为了甚至更精确地再现音频内容的空间属性，从而改进总的空间声音再现质量，把所提出的方法应用到更小的频带是令人想要的。这工作得很好，因为在许多情形下在某个频带中单个声源占支配地位。如果一个源在一个频带中占支配地位，则共同分量和它的位置的估值只是非常类似于占支配地位的信号，而丢弃其它信号(所述其它信号在剩余分量中结束(end up))。在其它频带中，其它的具有它们自己的对应位置的源占支配地位。因此，通过在各个频带中进行处理——这在频域中是可能的——可以达到对于声源的再现的更多控制。

在另一个实施例中，使用基于傅里叶的变换来把输入声道信号转换到频域。这种类型的变换是众所周知的，它提供用来创建一个或多个频带的低复杂性方法。

在另一个实施例中，使用滤波器组来把输入声道信号转换到频域。适当的滤波器组方法在Breebaart，J.，Faller，C.“Spatial audioprocessing：MPEG Surround and other applications”，Wiley，2007中被描述。这些方法提供了到子带频域的转换。

在另一个实施例中，功率参数是从时域中表示的输入声道信号得出的。如果在音频内容中存在的源的数目低，则当施加基于傅里叶的变换或滤波器组时，计算工作量较高。所以，与在频域上得出功率参数相比较，在时域上得出功率参数则节省了计算工作量。

在另一个实施例中，对应于估计的期望位置的被感知位置r被修改，以便产生以下中的一项：声舞台(sound stage)的变窄、变宽或旋转。变宽是特别令人感兴趣的，因为它克服了由于扩音器的-30...+30度位置所造成的扩音器装置的60度的限制。因此，它有助于创建围绕收听者的沉浸式(immersive)声舞台，而不是向收听者提供受限于60度孔径角的窄的声舞台。而且，声舞台的旋转是令人感兴趣的，因为它允许头戴耳机再现系统的用户听到处在固定的(稳定的和恒定的)位置处的声源，而与用户的头部旋转无关。

在另一个实施例中，对应于估计的期望位置r的被感知位置r被修改，以便产生被如下表示的修改的被感知位置r’：

r’＝r+h，

由此h是对应于声舞台的旋转的偏移量。

源位置的角度表示帮助非常容易地整合头部运动，特别是收听者的头部的取向，这是通过对对应于源位置的角度施加偏移以使得声源具有独立于头部取向的、稳定的和恒定的位置而实现的。由于这样的偏移，得到了以下的好处：更多的头外声源的定位、改进的声源定位精度、前/后混淆的减小、以及更加沉浸式的和自然的收听体验。

在另一个实施例中，对应于估计的期望位置的被感知位置被修改，以便产生被如下表示的修改的被感知位置：

r’＝cr，

由此c是对应于声舞台的变宽或变窄的缩放因子。使用缩放是展宽声舞台的非常简单而又有效的方式。

在另一个实施例中，响应于用户偏好来修改对应于估计的期望位置的被感知位置。可以出现：一个用户可能想要有源被安置在收听者周围的完全沉浸式的体验(例如，用户是音乐家乐队的成员)，而其它用户可能想要感知仅仅来自正面的声舞台(例如，坐在听众中并隔开一段距离收听)。

在另一个实施例中，响应于头部跟踪器数据来修改对应于估计的期望位置的被感知位置。

在另一个实施例中，输入声道信号被分解成时间/频率分块(tile)。使用频带是有利的，因为以更对准目标的方式来操控多个声源会导致更好的声音成像。时间分段的另外的优点是：声源的支配地位通常是依赖于时间的，例如，某些源可以静默达某一时间。除了频带以外还使用时间分段会给出对于在输入声道信号中存在的个体源的甚至更多的控制。

在另一个实施例中，使用与头部相关的转移函数(HRTF)来执行虚拟源的合成。使用HRTF的合成是一种用来把源定位在虚拟空间中的众所周知的方法。HRTF的参数方法甚至可以进一步简化该过程。用于HRTF处理的这样的参数方法在Br eebaart，J.，Faller，C.“Spatial audioprocessing：MPEG Surround and other applications”，Wiley，2007中被描述。

在另一个实施例中，为每个频带独立地执行虚拟源的合成。使用频带是有利的，因为以更对准目标的方式来操控多个声源会导致更好的声音成像。在频带中进行处理的另一个优点是基于以下的观察：在许多情形下(例如，当使用基于傅里叶的变换时)，在频带中存在的音频样本的数目小于在输入声道信号中的音频样本的总数目。因为每个频带与其它频带无关地被处理，总的需要的处理功率较低。

本发明还提供了系统权利要求、以及使得可编程设备能够执行按照本发明的方法的计算机程序产品。

附图简述

从附图所示的实施例中，本发明的这些和其它方面将很明显，并将参照这些实施例来阐述本发明的这些和其它方面，其中：

图1示意性地显示至少两个输入声道信号的头戴耳机再现，由此对应于共同分量的主虚拟源被合成在估计的期望位置处，而对应于剩余分量的另外的虚拟源被合成在预定的位置处；

图2示意性地显示头戴耳机再现系统的例子，其包括：处理装置，用于得出带有对应的估计的期望位置的共同分量，和剩余分量；以及合成装置，用于合成在估计的期望位置处的对应于共同分量的主虚拟源、和在预定位置处的对应于剩余分量的另外的虚拟源；

图3显示头戴耳机再现系统的例子，该系统还包括修改装置，用于修改对应于估计的期望位置的被感知位置，所述修改装置可操作地耦合到所述处理装置和所述合成装置；

图4显示头戴耳机再现系统的例子，对于该系统来说，输入声道信号在被馈送到处理装置之前被变换到频域中、以及合成装置的输出借助于反向操作被转换到时域。

在所有的图上，相同的参考数字指示相似的或对应的特征。在附图上指示的某些特征典型地以软件来实施，这样，它们代表软件实体，诸如软件模块或对象。

实施例详细说明

图1示意性地显示至少两个输入声道信号101的头戴耳机再现，由此对应于共同分量的主虚拟源120被合成在估计的期望位置处，而对应于剩余分量的另外的虚拟源131、132被合成在预定的位置处。用户200佩戴头戴耳机，该头戴耳机再现包括主虚拟源120和另外的虚拟源131、132的声音场景。

所提出的、用于至少两个输入声道信号101的头戴耳机再现的方法包括针对来自所述至少两个输入声道信号的每个输入声道信号对的以下步骤。首先，确定在所述输入声道信号对中的共同分量、对应于所述共同分量的估计的期望位置和对应于两个输入声道信号的两个剩余分量。所述确定是基于所述输入声道信号的所述对。每个所述剩余分量是通过减去共同分量的贡献而从它的对应的输入声道信号得出的。所述贡献是与共同分量的估计的期望位置有关的。其次，合成主虚拟源120以及两个另外的虚拟源131和132，该主虚拟源包括在估计的期望位置处的所述共同分量，该另外的虚拟源每个包括在相应的预定位置处的所述剩余分量中相应的一个。

虽然在图1上只显示两个输入声道信号，但应当清楚，可以再现更多的输入声道信号，例如五个输入声道信号。这意味着，对于所述五个输入声道信号，针对所有的可能的对组合，执行共同分量和两个剩余分量的所述合成。对于所述五个输入声道信号，这导致十个可能的输入声道信号对。然后，通过叠加来自于由所述五个输入声道信号形成的所有输入声道信号对的共同和剩余分量的所有贡献，从而得到对应于所述五个输入声道信号的最终得到的总的声音场景。

应当指出，实线104和105是虚拟线，它们表明剩余分量131和132被合成在预定位置处。实线102也同样如此，它表明共同分量被合成在估计的期望位置处。

通过使用本发明所提出的方法，由在固定位置处——例如在按照标准立体声扩音器装置的+/-30度方位角处——的两个虚拟扩音器创建的幻像源，被用在期望位置处的虚拟源120替代。所提出的用于头戴耳机再现的方法的优点在于，即使合并了头部旋转或即使利用正面/环绕移动，也改进了空间意象。更具体地，所提出的方法提供了沉浸式体验，其中把收听者虚拟地安置在听众席场景“中”。而且，众所周知，对于引人注目的3D音频体验，头部跟踪是必须具备的。通过所提出的解决方案，头部旋转不会使虚拟扬声器改变位置，因此空间成像保持为正确的。

在一个实施例中，共同分量对于所述输入声道信号对的贡献，被按照对于被感知为左面的输入声道信号的估计的期望位置的余弦和对于被感知为右面的输入声道的估计的期望位置的正弦来表示。基于此，属于一对且在所述对中被感知为左和右输入声道的输入声道信号101被分解为：

L[k]＝cos(υ)S[k]+D_L[k]

R[k]＝sin(υ)S[k]-D_R[k]

其中L[k]和R[k]分别是左和右输入声道信号101，S[k]是对于左和右输入声道信号的共同分量，D_L[k]是对应于左输入声道信号的剩余分量，D_R[k]是对应于右输入声道信号的剩余分量，υ是对应于共同分量的估计的期望位置，以及cos(υ)和sin(υ)是对属于所述对的输入声道信号的贡献。

以上的分解提供了共同分量，它是幻像源的估计，正如在经典扩音器系统中通过振幅移动技术而得到。余弦和正弦因子提供了借助于单个角度来描述共同分量对于左和右输入声道信号的贡献的手段。所述角度与共同源的被感知位置密切相关。振幅移动在大多数情形下是基于所谓的3dB规则，这是指无论左和右输入声道中的共同信号的比率是多少，共同分量的总功率应当保持不变。这个属性通过使用余弦和正弦项而被自动地保证，因为同一个角度的正弦和余弦的平方和总是得1。

虽然剩余分量D_L[k]和D_R[k]因为它们可以具有不同的值而被不同地标记，但也可以选择成所述剩余分量具有相同的值。这简化了计算，并确实改进了与这些剩余分量相关联的周围环境。

对于来自所述至少两个输入声道信号的每个输入声道信号对，确定带有对应的估计的期望位置的共同分量、以及剩余分量。然后通过叠加针对所述输入声道信号对得出的个体共同分量和剩余分量的所有贡献，从而得到对应于所述至少两个输入声道信号的总的声音场景。

在一个实施例中，共同分量和对应的剩余分量依赖于为其确定所述共同分量的输入声道信号101之间的相关性。当估计共同分量时，在估计过程中的非常重要的变量是左声道和右声道之间的相关性。相关性直接与共同分量的强度(从而是功率)相联系。如果相关性低，则共同分量的功率也低。如果相关性高，则共同分量的功率相对于剩余分量而言是高的。换句话说，相关性是对于在左和右输入声道信号对中的共同分量的贡献的指示器。如果必须估计共同分量和剩余分量，则知道在输入声道信号中是共同分量还是剩余分量占支配地位是有利的。

在一个实施例中，共同分量和对应的剩余分量依赖于对应的输入声道信号的功率参数。选择功率作为用于估计过程的测度会允许更精确和可靠地估计共同分量和剩余分量。如果输入声道信号之一——例如左输入声道信号——的功率是零，则这自动意味着，对于那个信号来说剩余和共同分量是零。这也意味着，共同分量仅仅在另一个输入声道信号中存在，因此右输入声道信号确实具有相当大的功率。而且，对于在功率上相等的左剩余分量和右剩余分量(例如，如果它们是相同的信号但具有相反的正负号)，左输入声道信号的功率等于零则意味着，左剩余分量和右剩余分量的功率都是零。这意味着，右输入声道信号实际上是共同分量。

在一个实施例中，对应于共同分量的估计的期望位置依赖于为其确定所述共同分量的输入声道信号之间的相关性。如果相关性高，则共同分量的贡献也高。这也意味着，在左和右输入声道信号的功率与共同分量的位置之间有紧密的关系。另一方面，如果相关性低，则这意味着，共同分量是相对较弱的(即，低功率)。这也意味着，左和右输入声道信号的功率主要是由剩余分量的功率、而不是由共同分量的功率来确定的。因此，为了估计共同分量的位置，知道共同分量是否占支配地位是有利的，而这是由相关性来反映的。

在一个实施例中，对应于共同分量的估计的期望位置依赖于对应的输入声道信号的功率参数。对于为零的剩余分量，左和右输入声道信号的相对功率直接与对应于共同分量的主虚拟源的角度相联系。因此，主虚拟源的位置具有对于左和右输入声道信号中的(相对)功率的强依赖性。另一方面，如果与剩余分量相比较，共同分量非常小，则左和右输入声道信号的功率是由剩余信号占支配地位的，在那种情形下，从左和右输入声道信号估计共同分量的期望位置不是非常直截了当的。

在一个实施例中，对于一对输入声道信号，所述功率参数包括：左声道功率P_l、右声道功率P_r和互功率P_x。

在一个实施例中，对应于共同分量的估计的期望位置υ被得出为：

&upsi; = \arctan (\frac{\sqrt{P_{l}} \cos (α + β)}{\sqrt{P_{r}} \cos (- α + β)})

其中

α = \frac{1}{2} \arccos (\frac{P_{x}}{\sqrt{P_{l} P_{r}}})

β = \tan (\arctan (α) \frac{\sqrt{P_{r}} - \sqrt{P_{l}}}{\sqrt{P_{r}} + \sqrt{P_{l}}}) .

按照定义，归一化的互相关性(cross-correlation)ρ被给出为：

ρ = \frac{P_{x}}{\sqrt{P_{l} P_{r}}},

因此，角度α并从而是估计的期望位置υ依赖于互相关性ρ。

可以看出，这个推导相应于使得对应于共同分量的估计的信号的功率最大化。关于共同分量的估计过程和共同分量的功率的最大化(这也意味着剩余分量的功率的最小化)的更多信息在Breebaart，J.，Faller，C.“Spatial audio processing：MPEG Surroundand other applications”，Wiley，2007中给出。使得对应于共同分量的估计的信号的功率最大化是令人期望的，因为对于该对应的信号而言，精确的定位信息是可得到的。在极端的情况下，当共同分量是零时，剩余分量等于原始的输入信号，因而处理将没有效果。所以，使得共同分量的功率最大化和使得剩余分量的功率最小化以便得到所描述的过程的最大效果是有益的。因此，对于在本发明中所使用的共同分量，精确的位置也是可得到的。

在一个实施例中，估计的期望位置代表在对应于两个虚拟扬声器位置的两个预定位置之间的空间位置，由此范围υ＝0...90度映射到用于被感知的位置角度的范围r＝-30...30度。如在先前的实施例中指出的，估计的期望位置υ在0和90度之间变化，由此对应于0和90度的位置分别等于左和右扬声器位置。为了由头戴耳机再现系统进行逼真的声音再现，希望把以上的估计的期望位置的范围映射到对应于被实际上使用于产生音频内容的范围的范围中。然而，被使用于产生音频内容的精确的扬声器位置并不是可得到的。大多数音频内容被产生来用于在如由ITU标准(ITU-R Recommend.BS.775-1)规定的扩音器装置上回放，即让扬声器处在+30和-30度角。所以，虚拟源的原始位置的最佳估计是被感知的地方，然而假设音频是在遵从ITU标准的扩音器系统上再现。以上的映射服务于这个目的，即，将估计的期望位置带入到遵从I TU的范围中。

在一个实施例中，对应于估计的期望位置的被感知位置角度按照下式得出：

r = (- &upsi; + \frac{π}{4}) \frac{2}{3} .

这种映射的优点在于，它是从间隔[0...90]度到[-30...30]度的简单的线性映射。如果给定优选的ITU扩音器装置的话，则所述到[-30...30]度范围的映射给出了虚拟源的预期位置的最佳估计。

在一个实施例中，功率参数是从被转换到频域的输入声道信号得出的。

立体声输入信号包括分别对应于左和右声道的两个输入声道信号l[n]和r[n]，n是在时域中的样本号。为了解释功率参数是如何从被转换到频域的输入声道信号得出的，使用了左和右输入声道信号到时间/频率分块(tile)的分解。所述分解不是强制性的，但它对于解释来说是方便的。所述分解是通过使用加窗和例如基于傅里叶的变换而实现的。基于傅里叶的变换的例子例如是FFT。作为基于傅里叶的变换的替换例，可以使用滤波器组。长度为N的窗函数w[n]被叠合在输入声道信号上，以便得到一个帧m：

l_m[n]＝w[n]l[n+mN/2]

r_m[n]＝w[n]r[n+mN/2]

随后，使用FFT把成帧的左和右输入声道信号转换到频域：

L_{m} [k] = Σ l_{m} [n] \exp (\frac{- 2 πjnk}{N})

R_{m} [k] = Σ r_{m} [n] \exp (\frac{- 2 πjnk}{N}) .

最终得到的FFT仓(bin)(具有索引k)被分组到参数频带b。典型地，形成20到40个参数频带，其中对于低参数频带，FFT索引k的数量小于对于高参数频带的FFT索引的数量(即，频率分辨率随参数频带索引b而降低)。

随后，每个参数频带b中的功率P_l[b]、P_r[b]和P_x[b]被计算为：

P_{l} [b] = Σ_{k = k_{b} (b)}^{k = k_{b} (b + 1) - 1} L_{m} [k] {L_{m}}^{*} [k],

P_{r} [b] = Σ_{k = k_{b} (b)}^{k = k_{b} (b + 1) - 1} R_{m} [k] {R_{m}}^{*} [k],

P_{x} [b] = Re {Σ_{k = k_{b} (b)}^{k = k_{b} (b + 1) - 1} L_{m} [k] {R_{m}}^{*} [k]} .

虽然功率参数是对于每个频带分开地得出的，但这不是限制。只使用一个频带(包括整个频率范围)意味着，实际上没有使用频带的分解。而且，按照帕塞瓦尔(Parseval)定理，在那种情形下由时域或频域表示产生的功率和互功率估计是完全相同的。再者，把窗长度固定到无穷大意味着，实际上没有使用时间分解或分段。

在许多情形下，音频内容包括多个同时的声源。所述多个资源对应于不同的频率。所以，以更对准目标的方式来操控声源对于更好地声音成像是有利的，而该方式仅仅在频域才是可能的。为了甚至更精确地再现音频内容的空间属性，从而改进总的空间声音再现质量，把所提出的方法应用到更小的频带是令人想要的。这工作得很好，因为在许多情形下在某个频带中单个声源占支配地位。如果一个源在一个频带中占支配地位，则共同分量和它的位置的估计只是非常类似于占支配地位的信号，而丢弃其它信号(所述其它信号在剩余分量中结束)。在其它频带中，其它的具有它们自己的对应位置的源占支配地位。因此，通过在各个频带中进行处理——这在频域中是可能的——可以达到对于声源的再现的更多控制。

在一个实施例中，使用基于傅里叶的变换来把输入声道信号转换到频域。这种类型的变换是众所周知的，它提供用来创建一个或多个频带的低复杂性方法。

在一个实施例中，使用滤波器组来把输入声道信号变换到频域。适当的滤波器组方法在Breebaart，J.，Faller，C.“Spatial audioprocessing：MPEG Surround and other applications”，Wiley，2007中被描述。这些方法提供了到子带频域的转换。

在一个实施例中，功率参数是从时域中表示的输入声道信号得出的。对于输入信号的某个分段(n＝0...N)的功率P_l、P_r和P_x于是被表示为：

P_{l} = Σ_{n = 0)}^{N} L_{m} [n] {L_{m}}^{*} [n],

P_{r} = Σ_{n = 0}^{N} R_{m} [n] {R_{m}}^{*} [n],

P_{x} = Re {Σ_{n = 0}^{N} L_{m} [n] {R_{m}}^{*} [n]} .

在时域中执行功率计算的优点在于，如果在音频内容中存在的源的数目低，则与基于傅里叶的变换或滤波器组相比较，计算工作量相对较低。在时域上得出功率参数因而节省了计算工作量。

在一个实施例中，对应于估计的期望位置的被感知位置r被修改，以便导致以下中的一项：声舞台的变窄、变宽或旋转。变宽是特别令人感兴趣的，因为它克服了由于扩音器的-30...+30度位置所造成的扩音器装置的60度的限制。因此，它有助于创建围绕收听者的沉浸式声舞台，而不是向收听者提供受限于60度孔径角的窄的声舞台。而且，声舞台的旋转是令人感兴趣的，因为它允许头戴耳机再现系统的用户听到处在固定的(稳定的和恒定的)位置处的声源，而与用户的头部旋转无关。

在一个实施例中，对应于估计的期望位置的被感知位置r被修改，以便导致被如下表示的修改的被感知位置：

r’＝r+h，

由此h是对应于声舞台的旋转的偏移。源位置的角度表示帮助非常容易地整合头部运动，特别是收听者的头部的取向，这是通过在对应于源位置的角度上施加偏移以使得声源具有独立于头部取向的、稳定的和恒定的位置而实现的。由于这样的偏移，得到以下的好处：更多的头外声源定位、改进的声源定位精度、前/后混淆的减小、更加沉浸式的和自然的收听体验。

在一个实施例中，对应于估计的期望位置的被感知位置被修改，以便导致被如下表示的修改的被感知位置r’：

r’＝cr，

在一个实施例中，响应于用户偏好来修改对应于估计的期望位置的被感知位置。可以出现：一个用户可能想要有源被安置在收听者周围的完全沉浸式的体验(例如，用户是音乐家乐队的成员)，而其它用户可能想要感知仅仅来自正面的声舞台(例如，坐在听众中并隔开一段距离收听)。

在一个实施例中，响应于头部跟踪器数据来修改对应于估计的期望位置的被感知位置。

在一个实施例中，输入声道信号被分解成时间/频率分块。使用频带是有利的，因为以更对准目标的方式来操控多个声源会导致更好的声音成像。时间分段的另外的优点是：声源的支配地位通常是依赖于时间的，例如，某些源可以静默达某一时间，然后再活动。除了频带以外还使用时间分段给出了对输入声道信号中存在的个体源的甚至更多的控制。

在一个实施例中，使用与头部相关的转移函数或HRTF来执行虚拟源的合成(F.L.Wightman和D.J.Kistler，Headphone simulation offree-field listening.I.Stimulus synthesis.J.Acoust.Soc.Am.，85：858-867，1989)。空间合成步骤包括生成共同分量S[k]以作为在期望的声源位置r’[b]处的虚拟声源(假设在频域中计算)。给定r’[b]的频率依赖性，这是对于每个频带独立地执行的。因此，对于频带b，输出信号L’[k]、R’[k]由下式给出：

L′[k]＝H_L[k，r′[b]]S[k]+H_L[k，-γ]D_L[k]

R′[k]＝H_R[k，r′[b]]S[k]+H_R[k，+γ]D_R[k]

其中H_L[k，ξ]是在空间位置ξ处的、对于左耳的HRTF的FFT索引k，以及索引L和R分别指引(address)左耳和右耳。角度γ代表周围环境的期望的空间位置，它例如可以是+和-90度，并且它也可以依赖于头部跟踪信息。优选地，HRTF以参数形式来表示，即，被表示为在每个频带b内的对于每个耳朵的恒定的复值：

H_L[k∈[k_b，ξ]＝p_l[b，ξ]exp(-jφ[b，ξ]/2)

H_R[k∈[k_b，ξ]＝p_r[b，ξ]exp(+jφ[b，ξ]/2)

其中p_l[b]是在参数频带b中的、左耳HRTF的平均量值，p_r[b]是在参数频带b中的、右耳HRTF的平均量值，以及φ[b]是在频带b中的p_l[b]与p_r[b]之间的平均相位差。在参数域中的HRTF处理的详细说明可以从Breebaart，J.，Faller，C.“Spatial audio processing：MPEG Surroundand other applications”，Wiley，2007获知。

虽然以上的合成步骤是针对于在频域中的信号来说明的，但所述合成也可以通过头部有关的脉冲响应的卷积而在时域中进行。最后，频域输出信号L’[k]、R’[k]通过使用例如逆FFT或逆滤波器组而被转换到时域，并且通过重叠相加而被处理，以导致双耳输出信号。取决于分析窗w[n]，可能需要对应的合成窗。

在一个实施例中，对于每个频带独立地执行虚拟源的合成。使用频带是有利的，因为以更对准目标的方式来操控多个声源会导致更好的声音成像。在频带中进行处理的另一个优点是基于以下的观察：在许多情形下(例如，当使用基于傅里叶的变换时)，在频带中存在的音频样本的数目小于在输入声道信号中的音频样本的总数目。因为每个频带与其它频带无关地被处理，总的需要的处理功率较低。

图2示意性地显示头戴耳机再现系统500的例子，其包括：处理装置310，用于得出带有对应的估计的期望位置的共同分量，和剩余分量；以及合成装置400，用于合成在估计的期望位置处的对应于共同分量的主虚拟源、和在预定位置处的对应于剩余分量的另外的虚拟源。

处理装置310从所述至少两个输入声道信号101得出对于输入声道信号对的共同分量、和对应于所述共同分量的估计的期望位置。所述共同分量是所述至少两个输入声道信号101的所述对的共同部分。所述处理装置310还得出对于在所述对中的每个输入声道信号的剩余分量，由此每个所述剩余分量是通过减去共同分量的贡献而从它的对应的输入声道信号得出的。所述贡献是与估计的期望位置有关的。所得出的由301表明的共同分量和剩余分量、以及由302表明的估计的期望位置被传送到合成装置400。

合成装置400对于来自所述至少两个输入声道信号的每个输入声道信号对合成主虚拟源以及两个另外的虚拟源，所述主虚拟源包括在估计的期望位置处的所述共同分量，所述另外的虚拟源每个包括在相应的预定位置处的所述剩余分量中相应的一个。所述合成装置包括与头部相关的转移函数(＝HRTF)数据库420，它根据估计的期望位置302，借助对应于所估计的期望位置的HRTF和对于预定位置的HRTF来提供适当的输入到处理单元410，该处理单元410应用HRTF以便从由处理装置310得到的共同分量和剩余分量301产生双耳输出。

图3显示头戴耳机再现系统的例子，该系统还包括修改装置430，用于修改对应于估计的期望位置的被感知位置，所述修改装置可操作地耦合到所述处理装置310和所述合成装置400。所述装置430接收对应于共同分量的估计的期望位置，以及关于期望的修改的输入。所述期望的修改例如涉及到收听者的位置或他的头部位置。替换地，所述修改涉及到期望的声舞台修改。所述修改的效果是声音场景的旋转或变宽(或变窄)。

在一个实施例中，该修改装置可操作地耦合到头部跟踪器，以便得到头部跟踪器数据，按照该数据来执行对应于估计的期望位置的被感知位置的修改。这使得修改装置430能够接收关于头部运动的准确数据，并从而精确地适配于所述运动。

图4显示头戴耳机再现系统的例子，对于该系统来说，输入声道信号在被馈送到处理装置310之前被变换到频域中、以及合成装置400的输出借助于反向操作被转换到时域。这样做的结果是对于每个频带独立地执行虚拟源的合成。图3所描绘的再现系统现在被扩展以单元320和单元440，单元320在处理装置310的前面，单元440在处理单元400的后面。所述单元320执行输入声道信号到频域的转换。所述转换是通过使用例如滤波器组或FFT而实行的。也可以使用其它的时间/频率变换。单元440执行针对于由单元310所执行的操作的反向操作。

应当指出的是，以上提出的实施例是举例说明本发明而不是限制本发明，而本领域技术人员将能够设计出许多替换实施例而不背离所附权利要求的范围。

在伴随的权利要求中，置于括号之间的任何参考符号不应当被解释为限制权利要求。单词“包括”不排除与权利要求中列出的那些单元或步骤不同的单元或步骤的存在。在单元前面的单词“一”或“一个”(“a”或“an”)不排除多个这样的单元的存在。本发明可以借助于包括几个不同单元的硬件，以及借助于适当地编程的计算机而被实施。

Claims

1.一种用于至少两个输入声道信号的头戴耳机再现的方法，所述方法包括为来自所述至少两个输入声道信号的每个输入声道信号对：

-确定共同分量、对应于所述共同分量的估计的期望位置、和对应于所述输入声道信号对中的两个输入声道信号的两个剩余分量，所述确定是基于所述输入声道信号的所述对，由此每个所述剩余分量是通过减去共同分量的贡献而从它的对应的输入声道信号得出的，所述贡献是与所述共同分量的估计的期望位置有关的；以及

-合成主虚拟源，其包括在估计的期望位置处的所述共同分量，和

-合成两个另外的虚拟源，每个包括在相应的预定位置处的所述剩余分量中相应的一个。

2.如在权利要求1中要求的方法，其中共同分量对于所述对的输入声道信号的所述贡献，被按照对于被感知为左面的输入声道信号的估计的期望位置的余弦和对于被感知为右面的输入声道的估计的期望位置的正弦来表示。

3.如在权利要求1或2中要求的方法，其中共同分量和对应的剩余分量依赖于为其确定所述共同分量的输入声道信号之间的相关性。

4.如在权利要求1或2中要求的方法，其中共同分量和对应的剩余分量依赖于对应的输入声道信号的功率参数。

5.如在权利要求1或2中要求的方法，其中对应于共同分量的估计的期望位置依赖于为其确定所述共同分量的输入声道信号之间的相关性。

6.如在权利要求1到5中要求的方法，其中对应于共同分量的估计的期望位置依赖于对应的输入声道信号的功率参数。

7.如在权利要求4或6中要求的方法，其中，对于输入声道信号对，所述功率参数包括：左声道功率P_l、右声道功率P_r和互功率P_x。

8.如在权利要求7中要求的方法，其中对应于共同分量的估计的期望位置υ被得出为：

&upsi; = \arctan (\frac{\sqrt{P_{1}} \cos (α + β)}{\sqrt{P_{r}} \cos (- α + β)})

其中

α = \frac{1}{2} \arccos (\frac{P_{x}}{\sqrt{P_{l} P_{r}}}),

β = \tan (\arctan (α) \frac{\sqrt{P_{r}} - \sqrt{P_{l}}}{\sqrt{P_{r}} + \sqrt{P_{l}}}) .

9.如在权利要求8中要求的方法，其中估计的期望位置代表在对应于两个虚拟扬声器位置的两个预定位置之间的空间位置，由此范围υ＝0...90映射到用于被感知的位置角度的范围r＝-30...30度。

10.如在权利要求9中要求的方法，其中对应于估计的期望位置的被感知的位置角度按照下式得出：

r = (- &upsi; + \frac{π}{4}) \frac{2}{3} .

11.如在权利要求7中要求的方法，其中功率参数是从被转换到频域的输入声道信号得出的。

12.如在权利要求11中要求的方法，其中使用基于傅里叶的变换来把输入声道信号转换到频域。

13.如在权利要求7中要求的方法，其中使用滤波器组来把输入声道信号转换到频域。

14.如在权利要求7中要求的方法，其中功率参数是从时域中表示的输入声道信号得出的。

15.如在权利要求1中要求的方法，其中对应于估计的期望位置的被感知位置r被修改，以便导致以下的一项：声舞台的变窄、变宽或旋转。

16.如在权利要求15中要求的方法，其中对应于估计的期望位置的被感知位置r被修改，以便导致修改的被感知位置被表示为：

r’＝r+h，

由此h是对应于声舞台的旋转的偏移。

17.如在权利要求15中要求的方法，其中对应于估计的期望位置的被感知位置被修改，以便导致修改的被感知位置r’被表示为：

r’＝cr，

由此c是对应于声舞台的变宽或变窄的缩放因子。

18.如在权利要求15到17中要求的方法，其中响应于用户偏好来修改对应于估计的期望位置的被感知位置。

19.如在权利要求15到17中要求的方法，其中响应于头部跟踪器数据来修改对应于估计的期望位置的被感知位置。

20.如在权利要求1中要求的方法，其中输入声道信号被分解成时间/频率分块。

21.如在权利要求1中要求的方法，其中使用与头部相关的转移函数来执行虚拟源的合成。

22.如在权利要求21中要求的方法，其中对于每个频带独立地执行虚拟源的合成。

23.一种用于再现至少两个输入声道信号的头戴耳机再现系统，所述头戴耳机再现系统包括：

-处理装置，用于为来自所述至少两个输入声道信号的每个输入声道信号对确定共同分量、对应于所述共同分量的估计的期望位置、和对应于所述输入声道信号对中的两个输入声道信号的两个剩余分量，所述确定是基于所述输入声道信号的所述对，由此每个所述剩余分量是通过减去共同分量的贡献而从它的对应的输入声道信号得出的，所述贡献是与所述共同分量的估计的期望位置有关的；以及

-合成装置，用于合成主虚拟源以及两个另外的虚拟源，该主虚拟源包括在估计的期望位置处的所述共同分量，而所述另外的虚拟源每个包括在相应的预定位置处的所述剩余分量中相应的一个。

24.如在权利要求23中要求的头戴耳机再现系统，其中所述头戴耳机再现系统还包括修改装置，用于修改对应于估计的期望位置的被感知位置，所述修改装置可操作地耦合到所述处理装置和所述合成装置。

25.如在权利要求24中要求的头戴耳机再现系统，其中所述修改装置可操作地耦合到头部跟踪器，以便得到头部跟踪器数据，按照所述头部跟踪器数据来执行对应于估计的期望位置的被感知位置的修改。

26.如在权利要求23中要求的头戴耳机再现系统，其中输入声道信号在被馈送到处理装置之前被变换到频域中，以及合成装置的输出通过反向操作被转换到时域。

27.一种用于执行权利要求1-22的任一项的方法的计算机程序产品。