CN102124513B

CN102124513B - 用于确定转换的空间音频信号的装置

Info

Publication number: CN102124513B
Application number: CN200980131776.4A
Authority: CN
Inventors: 乔瓦尼·德尔加多; 法比安·库切; 马库斯·卡林格; 维利·普尔基; 米可-维利·莱迪南; 理查德·舒尔茨-阿姆林
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-08-13
Filing date: 2009-08-12
Publication date: 2014-04-09
Anticipated expiration: 2029-08-12
Also published as: RU2499301C2; AU2009281367A1; KR20110052702A; EP2154677B1; PL2154677T3; RU2011106584A; BRPI0912451A2; EP2154677A1; ES2425814T3; HK1141621A1; PL2311026T3; US8611550B2; EP2311026A1; CN102124513A; KR20130089277A; CA2733904A1; BRPI0912451B1; KR101476496B1; EP2311026B1; US20110222694A1

Abstract

用于从输入空间音频信号确定转换的空间音频信号的装置(100)，该转换的空间音频信号具有全方向音频分量(W’)和至少一个方向音频分量，该输入空间音频信号具有输入音频表示(W)和输入到达方向(φ)。该装置(100)包括估计器(110)，估计器(110)用于基于输入音频表示(W)和输入到达方向(φ)估计包括波测量和波到达方向测量的波表示(W)。该装置(100)还包括处理器(120)，处理器(120)用于处理波场测量和波到达方向测量以获得全方向音频分量(W)和至少一个方向音频分量(X；Y；Z)。

Description

用于确定转换的空间音频信号的装置

技术领域

本发明为音频处理领域，特别涉及空间音频处理和不同空间音频格式的转换。

背景技术

DirAC(Directional Audio Coding，方向音频编码)是空间音频的再现(reproduction)和处理的方法。传统的系统在录音的二维和三维高品质再现、电话会议应用、方向麦克风以及立体声-环绕上混中应用DirAC，参照V.Pulkki和C.Faller，Directional audiocoding：Filterbank and STFT-based design，第120次AES Convention，2006年5月20-23日，2006年5月法国巴黎；V.Pulkki和C.Faller，Directional audio coding in spatial soundreproduction and stereo upmixing，第28次AES International Conference，2006年6月瑞典皮特奥；V.Pulkki，Spatial sound reproduction with directional audio coding，Journal ofthe Audio Engineering Society，55(6)：503-516，2007年6月；Jukka Ahonen，V.Pulkki andTapio Lokki，Teleconference application and B-format microphone array for directionalaudio coding，第30次AES International Conference。

其他采用DirAC的现有应用，例如是，通用编码格式和噪声消除。在DirAC中，依据时间在频带中分析声音的一些方向特性。分析数据与声音数据一起被发送并由于不同的目的被进行合成。上述的分析通常采用B格式信号完成，尽管理论上DirAC并不限于这种格式。B格式，参照Michael Gerzon，Surround sound psychoacoustics，inWireless World，volume 80，第483-486页，1974年12月，它是在关于Ambisonics(高保真度立体声响复制)的工作中开发出来的，Ambisonics是在70年代由英国研究人员开发出来的用于将音乐大厅的环绕声音带入居室的系统。B格式包含四个信号，即w(t)，x(t)，y(t)，和z(t)。第一个信号对应通过全方向麦克风(omnidirectional microphone)测量的声压，而后三个信号是布置成朝向Cartesian(笛卡尔)坐标系的三个轴的具有8字型拾音图案(figure-of-eight pickup pattern)的麦克风的声压读取。信号x(t)，y(t)和z(t)分别与朝向x，y和z方向的粒子速度矢量(particle velocity vector)的分量成比例。

DirAC流包含具有方向元数据的1-4个声道。在电话会议中和在一些其他情形中，该流仅包含具有元数据的单声道，称为单声道DirAC流。这是描述空间音频的非常简洁的方式，由于仅有单声道需要与边信息一起传送，例如这在谈话者之间给出了良好的空间隔离。但是，在这样的情况下，一些声音类型，例如混响的声音场景或者周围的声音场景可能仅可以以有限的品质再现。为了在这些情形下获得更好的品质，需要传送另外的音频声道。

在V.Pulkki的2004年9月的专利WO 2004/077884A1，名称为A method for reproducingnatural or modified spatial impression in multichannel listening中描述了从B格式向DirAC的转换。方向音频编码是一种空间音频分析和再现的有效方案。DirAC基于与空间音频的感知相关的特征采用声场的参数表示，即在子频带中声场的DOA(DOA＝direction ofarrival，到达方向)和扩散度。实际上，DirAC假设：如果准确地再现声音的扩散度，则在正确地感知双耳间干涉(Interaural Cohenrence，IC)的同时，当声场的DOA被正确地再现时正确地感知双耳间的时间差(Interaural Time Differences，ITD)和双耳间的声级差(Interaural Level Differences，ILD)。这些参数，即DOA和扩散度，代表了伴随单声道信号的边信息，这被称为单声道DirAC流。

图7示出了DirAC编码器，该DirAC编码器从适合的麦克风信号计算单声道音频声道和边信息，即扩散度Ψ(k，n)和到达方向e_DOA(k，n)。图7示出了DirAC编码器200，DirAC编码器200适于从合适的麦克风信号计算单声道音频声道和边信息。换言之，图7示出了用于从合适的麦克风信号确定扩散度和到达方向的DirAC编码器200。图7示出了DirAC编码器200，DirAC编码器200包括P/U估计单元210，其中P(k，n)表示声压信号，U(k，n)表示粒子速度矢量。P/U估计单元接收作为输入信息的麦克风信号，基于该输入信息进行P/U估计。能量分析阶段220实现单声道DirAC流的到达方向和扩散度参数的估计。

可以从麦克风信号的频率-时间表示获得DirAC参数，例如单声道音频表示W(k，n)、扩散度参数Ψ(k，n)和到达方向(DOA)e_DOA(k，n)。因此，该参数依赖于时间和频率。在再现侧，这个信息允许精确的空间渲染。为了在希望的聆听位置重新产生立体声音，需要设置多重扬声器。但是，它的几何形状可以是任意的。实际上，扬声器声道可以被确定为DirAC参数的函数。

尽管DirAC和参数化多声道音频编码(诸如MPEG Surround)之间共享类似的处理结构，但它们之间具有实质的不同，参考Lars Villemocs，Juergen Herre，Jeroen Breebaart，Gerard Hotho，Sascha Disch，Heiko Purnhagen，和Kristofer Kjrling，MPEG surround：Theforthcoming ISO standard for spatial audio coding，第28次AES International Conference，2006年6月瑞典皮特奥。当MPEG环绕基于不同扬声器声道的时间/频率分析时，DirAC将一致的麦克风的声道作为输入，其有效地描绘了在一个点上的声场。因而，DirAC还代表了用于空间音频的有效记录技术。

另外的系统是SAOC(SAOC＝Spatial Audio Object Coding，空间音频对象编码)，参考Jonas Engdegard，Barbara Resch，Cornelia Falch，Oliver Hellmuth，Johannes Hilpert，Andreas Hoelzer，Leonid Terentiev，Jeroen Breebaart，Jeroen Koppens，Erik Schuijers，以及Werner Oomen，Spatial audio object(SAOC)the upcoming MPEG standard on parametricobject based audio coding，第12次AES Convention，2008年5月17-20日荷兰阿姆斯特丹，目前符合标准ISO/MPEG。它基于MPEG环绕的渲染引擎创建，将不同的声源作为对象对待。这种音频编码提供了非常高的比特率效率，并给出了在再现侧的前所未有的交互自由度。这种方案保证了在旧有系统中新的引人注目的特性和功能，以及其他一些新颖的应用。

发明内容

本发明的目的是提供用于空间处理的改进概念。

本发明的目的通过根据权利要求1的用于确定转换的空间音频信号的装置和根据权利要求15的对应方法来实现。

本发明基于如下的发现：在例如将被编码为单声道DirAC流的空间音频信号转换为B格式信号时，可以得到改进的空间处理。在实施例中，转换的B格式信号可以在被添加到一些其他音频信号中以及被编码回DirAC流之前被处理或渲染。实施例可以具有不同的应用，例如，混合不同类型的DirAC和B格式流，基于DirAC的(DirACbased)等等。实施例可以引入WO 2004/077884A1的反向操作，即从单声道DirAC流向B格式的转换。

本发明基于如下的发现：如果音频信号被转换为方向分量，则可以得到改进的处理。换言之，本发明发现：当空间音频信号的格式与由例如B格式方向麦克风记录的方向分量对应时，可以得到改进的空间处理。此外，本发明发现：可以共同地并更高效率地处理来自不同源的方向或全方向分量。换言之，如果多个音频源的信号可以以它们全方向和方向分量的格式存在，因为这样可以共同地处理，那么特别是当处理来自多个音频源的空间音频信号时，可以执行更有效率的处理。因此，在实施例中，可以通过处理多个音频源的合并的分量更有效地利用音效生成器或者音频处理器。

在实施例中，空间音频信号可以被表示为代表DirAC流技术的单声道DirAC流，其中媒体数据在传输中伴随仅一个音频声道。这种格式可以被转换为例如B格式流，该B格式流具有多个方向分量。实施例可以通过将空间音频信号转换为方向分量来实现改进的空间处理。

实施例可以提供单声道DirAC解码上的优点，其中仅一个音频声道用于创建全部扬声器信号，可以基于在创建扬声器信号之前确定的方向音频分量实现附加的空间处理。实施例可以提供减少混响创建中问题的优点。

在实施例中，例如，DirAC流可以采用立体声音频信号代替单声道音频信号，其中立体声声道是L(L＝左立体声声道)和R(R＝右立体声声道)被传送以在DirAC解码中使用。实施例，例如，可以对于混响实现更佳的品质，并提供与立体声扬声器系统的直接的兼容性。

实施例可以提供能够实现虚拟麦克风DirAC解码的优点。虚拟麦克风DirAC解码的细节可以参考V.Pulkki，Spatial sound reproduction with directional audio coding，Journal ofthe Audio Engineering Society，55(6)：503-516，June 2007。这些实施例获得了用于扬声器的音频信号，其将虚拟麦克风置于朝向扬声器的位置并具有点状声源，点状声源的位置由DirAC参数确定。实施例可以提供通过转换来实现音频信号便利的线性合并的优点。

附图说明

将通过所附附图详细地描述本发明的实施例，其中

图1a示出了用于确定转换的空间音频信号的装置；

图1b示出了对于平面波在高斯平面内粒子速度矢量的分量和声压；

图2示出了用于将单声道DirAC流转换为B格式信号的另一实施例；

图3示出了用于合并多个转换的空间音频信号的实施例；

图4a-4d示出了用于将应用不同的音效的多个基于DirAC的空间音频信号进行合并的实施例；

图5描绘了音效生成器的实施例；

图6示出了在方向分量上应用多个音效的音效生成器的实施例；和

图7示出了现有DirAC编码器的状态。

具体实施方式

图1a示出了用于从输入空间音频信号确定转换的空间音频信号的装置100，该转换的空间音频信号具有全方向的分量和至少一个方向分量(X；Y；Z)，该输入空间音频信号具有输入音频表示(W)和输入到达方向(φ)。

该装置100包括用于基于输入音频表示(W)和输入到达方向(φ)估计波表示的估计器110，波表示包括波场测量和波到达方向测量。此外，该装置100包括处理器120，用于处理波场测量和波到达方向测量，以获得全方向分量和至少一个方向分量。估计器110可以适于估计作为平面波表示的波表示。

在实施例中，处理器可以适于提供作为全方向音频分量(W’)的输入音频表示(W)。换言之，全方向音频分量W’可以等于输入音频表示W。因此，根据图1a中的虚线，输入音频表示可以绕过估计器110，或处理器120，或者绕过估计器110和处理器120。在其他实施例中，全方向音频分量W’可以基于与输入音频表示W一起由处理器120处理的波的强度和波到达方向。在实施例中，多个方向音频分量(X；Y；Z)可以被处理，例如对应不同空间方向的第一(X)方向音频分量、第二(Y)方向音频分量和/或第三(Z)方向音频分量。在实施例中，例如，可以根据Cartesian(笛卡尔)坐标系的不同方向获得三个不同的方向音频分量(X；Y；Z)。

估计器110可以适于根据波场幅度和波场相位估计波场测量。换言之，在实施例中，波场测量可以被估计为复值的量。在一些实施例中，波场幅度可以对应于声压大小，波场相位可以对应于声压相位。

在实施例中，波到达方向测量可以与例如可以由矢量、一个或多个角等来表达的任意的方向量相对应，且它可以通过从例如强度矢量、粒子速度矢量等表示音频分量的任意方向测量来获得。波场测量可以对应于描述音频分量的任意物理量，其可以是实值的或复值的，该波场测量可以对应于声压信号、粒子速度振幅或大小、音量等。此外，可以在时域和/或频域内考虑这些测量。

实施例可以基于针对每个输入流的平面波表示的估计，这可以通过图1a中的估计器110来实施。换言之，可以利用平面波表示将波场测量模型化。通常，存在平面波或者一般波的几个等同的详尽(即，完全)描述。下面将介绍一种数学描述，用于计算用于不同分量的扩散度参数和到达方向或者方向测量。尽管只有很少描述直接与物理量(如声压、粒子速度等)相关，但可能存在无数的不同方式描述波表示，其中的一种随后将作为例子进行表述，但是这并不意味着将本发明的实施例限制为任何方式。任意的合并也可以对应波场测量和波到达方向测量。

为了进一步详细阐述不同的可能的描述，考虑两个实数a和b。当

[\begin{matrix} c \\ d \end{matrix}] = Ω [\begin{matrix} a \\ b \end{matrix}]

时，其中Ω是已知的2x2矩阵，a和b中包含的信息可以通过发送c和d进行传送。该例子仅考虑了线性合并，通常任意的合并，即也可以是非线性合并，都是可能的。

以下以小写字母a，b，c表示标量，以黑体小写字母

表示列向量。分别地，上标( )^T代表矩阵转置，而

和(·)^*代表复共轭。复相矢量(complex phasor)的符号与时间的符号相区别。例如，声压p(t)是实数，从声压可以获得一个可能的波场测量，声压可以通过相矢量P表达，相矢量P是复数，由相矢量P可以通过公式

p(t)＝Re{Pe^jωt}

获得其他可能的波场测量，其中Re{·}代表实数部分，且ω＝2πf是角频率。另外，用于物理量的大写字母表示下文中的相矢量。对于以下的介绍性示例符号，为了避免混淆，请注意所有的具有下标“PW”的量都指平面波。

对于理想的单一波长的平面波，粒子速度矢量U_PW可以被标记为

U_{PW} = \frac{P_{PW}}{ρ_{0} c} e_{d} = [\begin{matrix} U_{x} \\ U_{y} \\ U_{z} \end{matrix}],

其中，单位矢量e_d指向波的传播方向，例如对应一个方向测量。以下可被证明：

I_{a} = \frac{1}{2 ρ_{0} c} {| P_{PW} |}^{2} e_{d}

E = \frac{1}{2 ρ_{0} c^{2}} {| P_{PW} |}^{2}, - - - (a)

Ψ＝0

其中，I_a代表活动声强(active intensity)，ρ₀代表大气密度，c代表声速，E代表声场能量，Ψ代表扩散度。

应注意，由于e_d所有分量都是实数，U_PW的分量都与P_PW同相位。图1b示出了示例的高斯平面中的U_PW和P_PW。如同刚刚提及的，U_PW的全部分量与P_PW共享相同的相位，即θ。换言之，它们的大小被限定为：

\frac{| P_{PW} |}{c} = \sqrt{{| U_{x} |}^{2} + {| U_{y} |}^{2} + {| U_{z} |}^{2}} = | | U_{PW} | | .

本发明的实施例可以提供一种方法将单声道DirAC流转换为B格式信号。单声道DirAC流可以由例如通过全方向麦克风捕获的声压信号和边信息来表示。边信息可以包括声音扩散度和声音的到达方向的依赖时间-频率的测量。

在实施例中，输入空间音频信号可以进一步包括扩散度参数Ψ，且估计器110可以适于进一步基于该扩散度参数Ψ估计波场测量。

输入到达方向和波到达方向测量可以指的是与输入空间音频信号的记录位置相对应的参考点，即，换言之，所有的方向可以指的是相同的参考点。参考点可以是为了记录声场而放置麦克风的位置或者放置多方向麦克风的位置。

在实施例中，转换的空间音频信号可以包括第一(X)方向分量、第二(Y)方向分量和第三(Z)方向分量。处理器120适于进一步处理波场测量和波到达方向测量，以获得第一(X)方向分量和/或第二(Y)方向分量和/或第三(Z)方向分量和/或全方向音频分量。

以下将介绍符号表示和数据模型。

令p(t)和u(t)＝[u_x(t)，u_y(t)，u_z(t)]^T分别为用于空间中特定点的声压和粒子速度矢量，其中[·]^T代表转置矩阵。p(t)可以对应音频表示，且u(t)＝[u_x(t)，u_y(t)，u_z(t)]^T可以对应方向分量。这些信号可以通过合适的滤波器组或者STFT(STFT＝Short Time FourierTransform，短时傅里叶变换)变换至时间-频率域，例如参照V.Pulkki和C.Faller，Directional audio coding：Filterbank and STFT-based design，第120次AES Convention，May 20-23，2006，May 2006法国巴黎。

令P(k，n)和U(k，n)＝[U_x(k，n)，U_y(k，n)，U_z(k，n)]^T代表变换的信号，其中k和n分别是用于频率(或频带)和时间的系数。活动声强矢量I_a(k，n)可以被定义为：

I_{a} (k, n) = \frac{1}{2} Re {P (k, n) \cdot U^{*} (k, n)}, - - - (1)

其中(·)^*代表复共轭，且Re{·}提取实数部分。活动声强矢量可以表达表征声场能量的净流量，参考F.J.Fahy，Sound Intensity，Essex：Elsevier Science Publishers Ltd.，1989。

令c代表所考虑的介质中的声速，且E为由F.J.Fahy定义的声场能量：

E (k, n) = \frac{ρ_{0}}{4} {| | U (k, n) | |}^{2} + \frac{1}{4 ρ_{0} c^{2}} {| P (k, n) |}^{2}, - - - (2)

其中，‖·‖计算2阶范数。下文中，将详细描述单声道DirAC流的内容。

单声道DirAC流可以包含单声道信号p(t)或者音频表示，和包含边信息，例如到达方向测量。该边信息可以包括依赖时间-频率的到达方向和依赖时间-频率的扩散度测量。前者可以表示为e_DOA(k，n)，其为指向声音到达的方向的单位矢量，即其可为模型化的到达方向。后者(即扩散度)，可以被表示为：

Ψ(k，n)。

在实施例中，估计器110和/或处理器120可适于根据单位矢量e_DOA(k，n)估计/处理输入的DOA和/或波DOA测量。可以如下获得到达方向：

e_DOA(k，n)＝-e_I(k，n)，

其中，单位矢量e_I(k，n)指示活动声强指向的方向，即分别为：

I_a(k，n)＝‖I_a(k，n)‖·e_I(k，n)，

e_I(k，n)＝I_a(k，n)/‖I_a(k，n)‖， (3)

在实施例中，可选择地，DOA或DOA测量可以根据在球面坐标系中的方位角和仰角来表达。例如，假设

和

分别是方位角和仰角，则

= [e_{DOA, x} (k, n), e_{DOA, y} (k, n), e_{DOA, z} (k, n)], - - - (4)

其中，e_DOA，x(k，n)是输入到达方向的单位矢量e_DOA(k，n)沿着笛卡尔坐标系x轴的分量，e_DOA，y(k，n)是e_DOA(k，n)沿着y轴的分量，e_DOA，z(k，n)是e_DOA(k，n)沿着z轴的分量。

在实施例中，估计器110可适于进一步基于扩散度参数Ψ估计波场测量，可选的，也可以以依赖时间-频率方式的表达为Ψ(k，n))。估计器110可适于利用如下公式基于扩散度系数进行估计：

Ψ (k, n) = 1 - \frac{| | {< I_{a} (k, n) >}_{t} | |}{c {< E (k, n) >}_{t}}, - - - (5)

其中，<·>_t表示时间平均。

在实践中存在不同的策略以获得P(k，n)和U(k，n)。一种可能是利用B格式麦克风，该B格式麦克风传送4个信号，即w(t)，x(t)，y(t)和z(t)。第一个信号w(t)，可以对应于全方向麦克风的声压读取。后三个信号可以对应于指向笛卡尔坐标系三个轴的具有8字型拾音图案的麦克风的声压读取。这些信号还与粒子速度成比例。因此，在一些实施例中，

P(k，n)＝W(k，n)

U (k, n) = - \frac{1}{\sqrt{2} ρ_{0} c} {[X (k, n), Y (k, n), Z (k, n)]}^{T}, - - - (6)

其中，W(k，n)，X(k，n)，Y(k，n)和Z(k，n)是变换后的B格式信号，对应于全方向分量W(k，n)和三个方向分量X(k，n)，Y(k，n)，Z(k，n)。注意(6)中的因子

来自于B格式信号定义中使用的规约，参考Michael Gerzon，Surround sound psychoacoustics，in Wireless World，volume 80，pages 483-486，December 1974。

可选择地，可以通过全方向麦克风阵列(参见J.Merimaa，Applications of a 3-Dmicrophone array，in 112^th AES Convention，Paper 5501，Munich，May 2002)对P(k，n)和U(k，n)进行估计。以上描述的处理步骤也在图7中示出。

图7示出了DirAC编码器200，DirAC编码器200适于从适合的麦克风信号计算单声道音频声道和边信息。换言之，图7示出了用于从适合的麦克风信号确定扩散度Ψ(k，n)和到达方向e_DOA(k，n)的DirAC编码器200。图7示出了DirAC编码器200，DirAC编码器200包括P/U估计单元210。P/U估计单元接收作为输入信息的麦克风信号，基于该输入信息进行P/U估计。由于全部信息都可用，因此将根据以上的公式直接进行P/U估计。能量分析阶段220实现合并的流的到达方向和扩散度参数的估计。

在实施例中，估计器110可适于根据输入音频表示P(k，n)的分式β(k，n)确定波场测量或波幅。图2示出了一个实施例的处理步骤，以从单声道DirAC流计算B格式信号。全部的量都依赖于时间和频率系数(k，n)，为了简便在以下部分中将其部分地省略。

换言之，图2示出了另一实施例。根据公式(6)，W(k，n)等于声压P(k，n)。因此，从单声道DirAC流合成B格式的问题减少为粒子速度矢量U(k，n)的估计，因为它的分量与X(k，n)，Y(k，n)和Z(k，n)成比例。

实施例可以基于以下的假设进行估计，该假设为：声场包含与扩散度场相加的平面波。因此，声压和粒子速度可以表达为

P(k，n)＝P_PW(k，n)+P_diff(k，n) (7)

U(k，n)＝U_PW(k，n)+U_diff(k，n)。 (8)

其中，下标“PW”和“diff”分别代表平面波和扩散度场。

DirAC参数仅承载关于活动声强的信息。因此，采用

对粒子速度矢量U(k，n)进行估计，

是仅对于平面波的粒子速度的估计。其可以被定义为：

其中，实数β(k，n)是适合的权重因子，实数β(k，n)通常是依赖频率的，实数β(k，n)也可以表现为扩散度Ψ(k，n)的反比例。实际上，对于低的扩散度，即Ψ(k，n)接近于0，可以假设声场由单一的平面波组成，从而

暗含β(k，n)＝1。

换言之，估计器110可适于对低扩散度参数Ψ以高波幅估计波场测量，并适于对高扩散度参数Ψ以低波幅估计波场测量。在实施例中，扩散度参数Ψ＝[0..1]。扩散度参数可以指示方向分量中的能量和全方向分量中的能量之间的关系。在实施例中，扩散度参数Ψ可以为对方向分量的空间宽度的测量。

考虑上述的公式和公式(6)，全方向和/或第一方向分量和/或第二方向分量和/或第三方向分量可以表达为：

W(k，n)＝P(k，n)

X (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, x} (k, n)

Y (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, y} (k, n), - - - (11)

Z (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, z} (k, n)

其中，e_DOA，x(k，n)是输入到达方向的单位矢量e_DOA(k，n)沿着笛卡尔坐标系x轴的分量，e_DOA，y(k，n)是e_DOA(k，n)沿着y轴的分量，e_DOA，z(k，n)是e_DOA(k，n)沿着z轴的分量。在图2所示的实施例中，由估计器110估计的波到达方向测量对应于e_DOA，x(k，n)，e_DOA，y(k，n)和e_DOA，z(k，n)，且波场测量对应于β(k，n)P(k，n)。作为由处理器120的输出的第一方向分量可以对应X(k，n)，Y(k，n)或Z(k，n)中的任意一个，相应地，第二方向分量对应X(k，n)，Y(k，n)或Z(k，n)中的另外一个。

下文中，两个实际的实施例将描述如何确定因子β(k，n)。

第一实施例目的在于首先估计平面波的声压，即P_PW(k，n)，然后从平面波的声压获得粒子速度矢量。

设定大气密度ρ₀等于1，且为了简便去掉函数脚标(k，n)，可以写作

Ψ = 1 - \frac{{< {| P_{PW} |}^{2} >}_{t}}{{< {| P_{PW} |}^{2} >}_{t} + 2 c^{2} {< E_{diff} >}_{t}} . - - - (12)

给定扩散度场的统计特性，则通过以下公式引入近似：

<|P_PW|²>_t+2c²<E_diff>_t≈<|P|²>_t， (13)

其中，E_diff是扩散度场的能量。因此可通过以下公式得到估计量：

为了计算瞬时估计值，即用于每个时间频率窗口的估计值，可以消掉预期的运算符，得到：

通过采用平面波假设，可以直接得到对于粒子速度的估计：

由此，随后得到：

β (k, n) = \sqrt{1 - Ψ (k, n)} . - - - (17)

换言之，估计器110可适于根据如下公式基于扩散度参数Ψ(k，n)估计分式β(k，n)：

β (k, n) = \sqrt{1 - Ψ (k, n)} .

以及根据如下公式估计波场测量：

β(k，n)P(k，n)，

其中，处理器120可适于通过下式获得第一方向分量X(k，n)和/或第二方向分量Y(k，n)和/或第三方向分量Z(k，n)的振幅和/或全方向音频分量W(k，n)：

W(k，n)＝P(k，n)

X (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, x} (k, n)

Y (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, y} (k, n),

Z (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, z} (k, n)

其中，波到达方向测量由单位矢量[e_DOA，x(k，n)，e_DOA，y(k，n)，e_DOA，z(k，n)]^T表示，x，y和z表示笛卡尔坐标系的方向。

实施例中的替代方案可以通过直接从扩散度Ψ(k，n)的表达式获得因子β(k，n)。如已经提及的，粒子速度U(k，n)可以建模为

U (k, n) = β (k, n) \cdot \frac{P (k, n)}{ρ_{0} c} \cdot e_{I} (k, n) . - - - (18)

可将公式(18)代入(5)得到：

Ψ (k, n) = 1 - \frac{\frac{1}{ρ_{0} c} | | {< | β (k, n) \cdot P (k, n) |^{2} \cdot e_{I} (k, n) >}_{t} | |}{c {< \frac{1}{2 ρ_{0} c^{2}} {| P (k, n) |}^{2} \cdot (β^{2} (k, n) + 1) >}_{t}} . - - - (19)

为了得到瞬时值，预期运算符可被消掉，求解β(k，n)得到：

β (k, n) = \frac{1 - \sqrt{1 - {(1 - Ψ (k, n))}^{2}}}{1 - Ψ (k, n)} . - - - (20)

换言之，在实施例中估计器110可以适于根据以下公式基于Ψ(k，n)估计分式β(k，n)：

β (k, n) = \frac{1 - \sqrt{1 - {(1 - Ψ (k, n))}^{2}}}{1 - Ψ (k, n)}

在实施例中，输入空间音频信号可以对应于单声道DirAC信号。可以扩展实施例以处理其他流。在该流或者输入空间音频信号不承载全方向声道的例子中，实施例可以将可用的声道合并以近似全方向拾音图案。例如，在立体声DirAC流作为输入空间音频信号的情况下，可以通过对声道L和R求和从而对图2中的声压信号P进行近似。

在下文中，将示出Ψ＝1的实施例。图2示出了如果对于两个实施例扩散度等于1，则声音仅仅被发送到β等于0的声道W，从而信号X，Y和Z，即方向分量，也等于零。如果Ψ＝1在时间上恒定，可将单声道音频声道接到声道W，而不需要额外的计算。其物理解释是，由于粒子速度矢量具有零大小，因此展现给听众的音频信号为纯无功场(pure reactive field)。

考虑仅在偶极信号的一个或任意子集内、而不在W信号内呈现音频信号时的情形，当Ψ＝1时另一种情形发生。在DirAC扩散度分析中，由于声强矢量具有恒定的零长度，如在公式(1)中声压P为零，因此该场景被分析具有公式5的Ψ＝1。其物理解释也是：由于在粒子速度矢量非零时，此时声强信号恒定为零，因此将音频信号无功地呈现给听众。

由于B格式固有地是扬声器设置独立的表示，因此实施例可以采用B格式作为由不同音频设备播放的公共语言，这意味着通过中间转换为B格式的实施例可能实现从一种向另一种的转换。例如，实施例可以将来自不同录音环境的DirAC流与B格式的不同合成声音环境相结合。通过实施例也可实现单声道DirAC流向B格式流的结合。

实施例可以实现任意环绕格式的多声道音频信号与单声道DirAC流的结合。此外，实施例可以实现单声道DirAC流与任意B格式流的结合。而且，实施例还可以实现单声道DirAC流与B格式流的结合。

这些实施例能够在例如创建混响或引入音效时提供优点，随后将详细描述。在音乐制作中，可以采用混音器作为效果设备，其能够可感知地将处理的音频置于虚拟空间。在虚拟现实中，当在封闭的空间内(例如居室或音乐厅内)内聆听虚拟源时可需要混响的合成。

当用于混响的信号可用时，实施例可以通过将原声(dry sound)和混音施加至不同的DirAC流以进行这样的聆听。关于如何在DirAC上下文中处理混响信号，实施例可以采用不同的方案，实施例可以产生在环绕听众的最大化地扩散的混响声音。

图3示出了用于确定合并的转换的空间音频信号的装置300的实施例，该合并的转换的空间音频信号具有至少第一合并分量和第二合并分量，其中合并的转换的空间音频信号从具有第一和第二输入音频表示，和第一和第二到达方向的第一输入空间音频信号和第二输入空间音频信号进行确定。

装置300包括根据如上所述用于确定转换的空间音频信号用于提供第一转换信号的装置101的第一实施例，该第一转换信号具有来自第一装置101的第一全方向分量和至少一个方向分量。此外，装置300包括根据如上所述用于确定转换的空间音频信号用于提供第二转换信号的装置102的另一实施例，该第二转换信号具有来自第二装置102的第二全方向分量和至少一个方向分量。

通常，实施例并不限于仅包括两个装置100，通常装置300中可以包括多个如上所述的装置，例如装置300可以适于合并多个DirAC信号。

根据图3，装置300还包括音效生成器301，音效生成器301用于对来自第一装置101的第一全方向或第一方向音频分量进行渲染以获得第一渲染分量。

此外，装置300包括第一合并器311，用于将第一渲染分量与第一和第二全方向分量合并，或者用于将第一渲染分量和来自第一装置101和第二装置102的方向分量合并，以获得第一合并分量。该装置300还包括第二合并器312，第二合并器312用于将来自第一或第二装置101/102的第一和第二全方向分量或者方向分量合并，以获得第二合并分量。

换言之，音效生成器301可以渲染第一全方向分量，由此第一合并器311进而可以将渲染的第一全方向分量、第一全方向分量和第二全方向分量合并以获得第一合并分量。然后，第一合并分量可以例如对应于合并的全方向分量。在该实施例中，第二合并器312可以将来自第一装置101的方向分量和来自第二装置的方向分量合并以获得例如与第一合并方向分量相对应的第二合并分量。

在其他实施例中，音效生成器301可以渲染方向分量。在这些实施例中，合并器311可以将来自第一装置101的方向分量、来自第二装置102的方向分量和第一渲染分量合并，以获得第一合并分量，在该情形下，第一合并分量对应合并的方向分量。在该实施例中，第二合并器312可以将来自第一装置101、第二装置102的第一和第二全方向分量合并，以获得第二合并分量，即合并的全方向分量。

换言之，图3示出了装置300的实施例，装置300适于从第一输入空间音频信号和第二输入空间音频信号来确定合并的转换的空间音频信号，该合并的转换的空间音频信号具有至少第一合并分量和第二合并分量，该第一输入空间音频信号具有第一输入音频表示和第一到达方向，该第二输入空间音频信号具有第二输入音频表示和第二到达方向。

装置300包括第一装置101，第一装置101包括适于从输入空间音频信号确定转换的空间音频信号的装置100，转换的空间音频信号具有全方向音频分量W’和至少一个方向音频分量X；Y；Z，输入空间音频信号具有输入音频表示和输入到达方向。装置100包括用于根据输入音频表示和输入到达方向来估计波表示的估计器100，波表示包括波场测量和波到达方向测量。

此外，装置100包括处理器120，适于处理波场测量和波到达方向测量，以获得全方向分量(W’)和至少一个方向分量(X；Y；Z)。第一装置101适于基于第一输入空间音频信号提供第一转换信号，第一转换信号具有来自第一装置101的第一全方向分量和至少一个方向分量。

而且，装置300包括第二装置102，第二装置102包括适于根据第二输入空间音频信号提供第二转换信号的另一装置100，第二转换信号具有来自第二装置102的第二全方向分量和至少一个方向分量。此外，装置300包括音效生成器301，适于渲染第一全方向分量以获得第一渲染分量或者用于渲染来自第一装置101的方向分量以获得第一渲染分量。

此外，装置300包括第一合并器311，第一合并器311适于将第一渲染分量、第一全方向分量和第二全方向分量合并，或将第一渲染分量、来自第一装置101的方向分量和来自第二装置102的方向分量合并，以获得第一合并分量。装置300包括第二合并器312，第二合并器312适于将来自第一装置101的方向分量和来自第二装置102的方向分量合并，或者将第一全方向分量和第二全方向分量合并，以获得第二合并分量。

换言之，图3示出了装置300的实施例，装置300适于从第一输入空间音频信号和第二输入空间音频信号确定合并的转换的空间音频信号，该合并的转换的空间音频信号至少具有第一合并分量和第二合并分量，第一输入空间音频信号具有第一输入音频表示和第一到达方向，第二输入空间音频信号具有第二输入音频表示和第二到达方向。装置300包括第一装置101，第一装置101适于从第一输入空间音频信号确定第一转换信号，第一转换信号具有第一全方向分量和至少一个第一方向分量(X；Y；Z)。第一装置101可以包括以上所述装置100的实施例。

第一装置101包括估计器，该估计器适于基于第一输入音频表示和第一输入到达方向估计第一波表示，该第一波表示包括第一波场测量和第一波到达方向测量。估计器可以对应以上所述估计器110的实施例。

第一装置101还包括处理器，该处理器适于处理第一波场测量和第一波到达方向测量以获得第一全方向分量和至少一个第一方向分量。该处理器可以对应以上所述处理器120的实施例。

第一装置101还可以适于提供具有第一全方向分量和至少一个第一方向分量的第一转换信号。

此外，装置300包括第二装置102，第二装置102适于基于第二输入空间音频信号提供第二转换信号，第二转换信号具有第二全方向分量和至少一个第二方向分量。第二装置可以包括以上所述装置100的实施例。

第二装置102还包括另一估计器，该另一估计器用于基于第二输入音频表示和第二输入到达方向估计第二波表示，第二波表示包括第二波场测量和第二波到达方向测量。该另一估计器可以对应以上所述估计器110的实施例。

第二装置102还包括另一处理器，该另一处理器用于处理第二波场测量和第二波到达方向测量以获得第二全方向分量和至少一个第二方向分量。该另一处理器可以对应以上所述处理器120的实施例。

此外，第二装置101适于提供具有第二全方向分量和至少一个第二方向分量的第二转换信号。

另外，装置300包括音效生成器301，音效生成器301适于渲染第一全方向分量以获得第一渲染分量，或者用于渲染第一方向分量以获得第一渲染分量。装置300包括第一合并器311，第一合并器311适于将第一渲染分量、第一全方向分量和第二全方向分量合并，或者适于将第一渲染分量、第一方向分量和第二方向分量合并，以获得第一合并分量。

此外，装置300包括第二合并器312，第二合并器312适于将第一方向分量和第二方向分量合并，或者适于将第一全方向分量和第二全方向分量合并，以获得第二合并分量。

在实施例中，可以执行用于从第一输入空间音频信号和第二输入空间音频信号确定合并的转换的空间音频信号的方法，该合并的转换的空间音频信号至少具有第一合并分量和第二合并分量，第一输入空间音频信号具有第一输入音频表示和第一到达方向，第二输入空间音频信号具有第二输入音频表示和第二到达方向。

该方法可包括通过采用如下子步骤从第一输入空间音频信号确定第一转换的空间音频信号的步骤，第一转换的空间音频信号具有第一全方向分量(W’)和至少一个第一方向分量(X；Y；Z)，该子步骤为：基于第一输入音频表示和第一输入到达方向估计第一波表示，第一波表示包括第一波场测量和第一波到达方向测量；以及处理第一波场测量和第一波到达方向测量以获得第一全方向分量(W’)和至少一个第一方向分量(X；Y；Z)。

该方法还可以包括提供具有第一全方向分量和至少一个第一方向分量的第一转换信号的步骤。

另外，该方法还包括采用如下子步骤从第二输入空间音频信号确定第二转换空间信号，第二转换的空间音频信号具有第二全方向分量(W’)和至少一个第二方向分量(X；Y；Z)，该子步骤为：根据第二输入音频表示和第二输入到达方向估计第二波表示，第二波表示包括第二波场测量和第二波到达方向测量；以及处理第二波场测量和第二波到达方向测量以获得第二全方向分量(W’)和至少一个第二方向分量(X；Y；Z)。

此外，该方法可以包括提供具有第二全方向分量和至少一个第二方向分量的第二转换信号。

该方法还可以进一步包括渲染第一全方向分量以获得第一渲染分量或者渲染第一方向分量以获得第一渲染分量；以及将第一渲染分量、第一全方向分量和第二全方向分量合并，或者将第一渲染分量、第一方向分量和第二方向分量合并，以获得第一合并分量。

此外，该方法可以包括将第一方向分量和第二方向分量合并，或者将第一全方向分量和第二全方向分量合并，以获得第二合并分量。

根据上述的实施例，每个装置可以产生多个方向分量，例如X、Y和Z分量。在实施例中可以使用多个音效生成器，在图3中用虚线框302、303和304表示多个音效生成器。这些可选的音效生成器可以基于全方向和/或方向输入信号生成相应的渲染分量。在一个实施例中，音效生成器可以在全方向分量的基础上渲染方向分量。此外，装置300可以包括多个合并器，即合并器311、312、313和314以便将全方向合并分量和对例如这三个空间维度的多个合并方向分量合并。

装置300结构的一个优点在于，需要最多四个音效生成器用于通常地渲染不限定数量的音频源。

如图3中虚线的合并器331、332、333和334所示，音效生成器可以适于渲染来自装置101和102的方向分量或全方向分量的合并结果。在一个实施例中，音效生成器301可以适于渲染第一装置101和第二装置102的全方向分量的合并结果，或者用于渲染第一装置101和第二装置102的方向分量的合并结果，以获得第一渲染分量。如图3中虚线路径指示的，可以向不同的音效生成器提供多个分量的合并结果。

在一个实施例中，可将在由第一装置101和第二装置102表现的图3中全部音频源的全部全方向分量都进行合并以生成多个渲染分量。在图3所示的四个路径的每个中，每个音效生成器都可以生成将要被添加到来自这些音频源的对应的方向或全方向分量的渲染分量。

此外，如图3所示，可以使用多个延时和缩放(scaling)阶段321和322。换言之，每个装置101或102在其输出路径上都具有一个延时和缩放阶段321或322，以便延时一个或多个它的输出分量。在一些实施例中，延时和缩放阶段可以仅延时和缩放相应的全方向分量。通常，延时和缩放阶段可以用于全方向和方向分量。

在实施例中，装置300可以包括多个表现音频源的装置100和相应的多个音效生成器，其中音效生成器的数量少于对应于音频源的装置的数量。如已经提过的，在一个实施例中，最多有四个音效生成器，而有基本上不限制音频源的数量。在实施例中，音效生成器可以对应混响器。

图4a更详细地示出了装置300的另一实施例。图4a示出了两个装置101和102，每个装置输出全方向音频分量W和三个方向分量X，Y，Z。根据图4a所示的实施例，将每个装置101和102的全方向分量提供给两个延时和缩放阶段321和322，两个延时和缩放阶段321和322输出三个经过延时和缩放的分量，然后通过合并器331、332、333和334将这三个经过延时和缩放的分量相加。每个合并信号随后分别被四个音效生成器301、302、303和304中的一个所独立地渲染，音效生成器由图4a中的混响器实现。如图4a所示，每个音效生成器输出一个分量，该分量对应于一个全方向分量和全部三个方向分量。然后，使用合并器311、312、313和314将各自的渲染分量和装置101和102输出的原始分量合并，其中在图4a中通常有多个装置100。

换言之，在合并器311中，可将所有装置的合并的全方向输出信号的渲染版本与原始或未被渲染的全方向输出分量合并。相对于方向分量，其他合并器可以进行类似的合并。在图4a所示的实施例中，基于经过延时和缩放的全方向分量创建渲染的方向分量。

通常，实施例可以将音效(例如混响)有效地应用至一个或多个DirAC流。例如，至少两个DirAC流被输入到装置300的实施例，如图4a所示。在实施例中，这些流可以是真实的DirAC流或者合成流，例如采取单声道信号并加入边信息作为方向和扩散度。根据上述讨论，装置101、102可以对每个流生成至多四个信号，即W、X、Y和Z。通常，装置101或102的实施例可以提供少于三个方向分量，例如仅仅X、或X和Y、或它们的任意合并。

在一些实施例中，可将全方向分量W提供给音效生成器，比如混响器，以便创建渲染分量。在一些实施例中，对于每个输入DirAC流，可将信号复制到图4a所示的四个分支，四个分支可被独立地延时，即对每个装置101或102进行四次独立地延时，例如通过延时τ_W，τ_X，τ_Y，τ_Z，并对每个装置101或102进行四次独立地缩放，例如缩放因子γ_W，γ_X，γ_Y，γ_Z，在被提供给音效生成器之前将这些版本合并。

根据图3和4a，不同流的分支，即装置101和102的输出，可被合并以获得四个合并信号。然后，可通过音效生成器(例如传统的单声道混响器)可对合并信号进行独立地渲染。接着将得到的渲染信号与从不同装置101和102初始地输出的W、X、Y和Z信号相加。

在实施例中，可以得到通常的B格式信号，其后，例如B格式信号可被B格式解码器(如例如以Ambisonics执行)播放。在其他实施例中，B格式信号可以以图7所示的DirAC编码器进行编码，从而随后可将得到的DirAC流发送、进行进一步处理或者以传统单声道DirAC解码器进行解码。解码的步骤可以对应于计算用于回放的扬声器信号。

图4b示出了装置300的另一实施例。图4b示出了两个装置101和102，装置101和102具有对应的四个输出分量。在图4b所示的实施例中，在通过合并器331进行合并之前，首先仅采用全方向分量W在延时和缩放阶段321和322中被独立地延时和缩放。然后，将合并信号提供到音效生成器301，音效生成器301可再次由图4b所示的混响器实现。然后，通过合并器311将混响器301的渲染输出与来自装置101和102的原始全方向分量进行合并。其他的合并器312、313和314被用于合并来自装置101和102的方向分量X、Y和Z以便获得对应的合并方向分量。

在与图4a描绘的实施例的关系中，图4b中的实施例对应于将用于分支X、Y和Z的缩放因子设置为0。在该实施例中，仅仅使用一个音效生成器或混响器301。在一个实施例中，音效生成器301可适于仅混响第一全方向分量以得到第一渲染分量，即仅W可被混响。

通常，由于装置101、102以及可能的对应N个声源的N个装置、以及可能的N个延时和缩放阶段321可以模拟声源的距离(可选的)，因此更短的延时可以对应于更接近听众的虚拟声源的感觉。通常，延时和缩放阶段321可用于渲染分别由转换信号、转换的空间音频信号表现的不同声源之间的空间关系。然后，可通过对应的音效生成器301或者混响器创建环绕环境的空间效果。换言之，在一些实施例中，延时和缩放阶段321可以用于引入与其他声源相关的源特定延时和缩放。然后，经过适当相关的(即经过延时和缩放的)转换信号的合并可通过音效生成器301适于空间环境。

延时和缩放阶段321也可以被看作是一种混响器。在实施例中，由延时和缩放阶段321引入的延时可以比由音效生成器301引入的延时更短。在一些实施例中，例如由时钟生成器提供的公共时间基础可用于延时和缩放阶段321和音效生成器301。接着，可以通过采样周期的数量表达上述延时，且由延时和缩放阶段321引入的延时可对应于比音效生成器301引入的延时更少的采样周期的数量。

当单声道DirAC解码用于N个随后被共同混响的声源的情况时，可采用在图3、4a和4b中描述的实施例。由于混响器的输出可被假设为该输出完全是扩散度，即该输出最好被认为是全方向信号W。可将该信号可与其他的合成的B格式信号(诸如，源于N个音频源自身的B格式信号)合并，由此表现向听众的直接路径。当得到的B格式信号被进一步DirAC编码和解码时，通过实施例可以实现混音。

图4c示出了装置300的另一实施例。在图4c所示的实施例中，基于装置101和102输出的全方向信号，生成方向混响渲染分量。因此，基于全方向输出，延时和缩放阶段321和322独立地生成延时和缩放分量，这些延时和缩放分量通过合并器331、332和333进行合并。对每个合并信号，应用不同的混响器301、302和303，这些混响器通常对应不同的音效生成器。根据以上所述，通过合并器311、312、313和314将对应的全方向分量、方向分量和渲染分量合并，以提供合并的全方向分量和合并的方向分量。

换言之，将用于每个流的W信号或者全方向信号反馈至三个音效生成器(例如混响器)，如图所示。通常，取决于是否将生成二维或三维声音信号，也可以仅有两个分支。一旦得到B格式信号，则可以通过虚拟麦克风DirAC解码器对该流进行解码。后者详细参见V.Pulkki，Spatial Sound Reproduction With Directional Audio Coding，Journal ofthe Audio Engineering Society，55(6)：503-516。

通过该解码器，可以根据下式得到作为W，X，Y和Z信号的线性合并的扬声器信号D_p(k，n)：

D_{p} (k, n) = G (k, n) [W (k, n) \sqrt{2} + X (k, n) \cos (α_{p}) \cos (β_{p}),

+ Y (k, n) \sin (α_{p}) \cos (β_{p}) + Z (k, n) \sin (β_{p})]

其中，α_p和β_p是第P个扬声器的方位角和仰角。项G(k，n)是依赖于到达方向和扬声器配置的平移增益(panning gain)。

换言之，图4c所示的实施例可以提供用于扬声器的音频信号，该扬声器对应于可以通过将虚拟麦克风朝向扬声器的位置放置并具有点状声源而获得的音频信号，点状声源的位置由DirAC参数确定。虚拟麦克风可以具有如心脏形、如双极形或者如任意第一级方向图案所限定的拾取图案。

混音可被例如有效地用作B格式中X和Y之和。这样的实施例可以应用到具有任意扬声器数目的水平扬声器布局，而不需要更多的混响器。

如之前讨论的，单声道DirAC解码具有混响品质的限制，而在本发明实施例中可以通过虚拟麦克风DirAC解码改进混响品质，虚拟麦克风DirAC解码也是利用了B格式流中的双极信号。

实施例中可以进行恰当的B格式信号创建，以对用于虚拟麦克风DirAC解码的音频信号进行混响。实施例中使用了简单有效的概念以将不同的音频信道接到不同的双极信号，例如接到X和Y信道。实施例可通过通过两个混响器实现这个目的，两个混响器分别从相同的输入信道产生不一致的单声道音频信道，如图4c所示将这两个混响器的输出作为用于方向分量的B格式的双极音频信道X和Y。由于信号不被应用到W，因此它们将被分析以完全作为在随后的DirAC编码中的扩散度。此外，由于双极信道包含不同的混音，因此在虚拟麦克风DirAC解码中可以获得提高的混响品质。实施例可以伴随生成比单声道DirAC解码更“宽广”和更“包络”的混响感觉。因此，实施例可以在水平扬声器布局中使用最多两个混响器，在上述基于DirAC的混响中对3D扬声器布局使用最多三个混响器。

实施例并不限于信号的混响，还可以应用其他的音效，例如目的在于声音的完全发散感觉的音效。类似于上述实施例，实施例中可将混响的B格式信号与其他的合成B格式信号相加，诸如源于N音频源自身的信号，从而表现出达到听众的直接路径。

图4d示出了又一实施例。图4d示出了与图4a类似的实施例，但是没有延时或缩放阶段321或322，即分支中的各个信号仅被混响，在一些实施例中仅全方向分量W被混响。图4d描绘的实施例也可以被看做与图4a所示的这样的实施例相类似，图4a所示的这样的实施例具有在混响器之前被设置为0和1的延时和缩放或者增益，但是，在该实施例中，混响器301、302、303和304并不被假设为是任意的和独立的。在图4d描述的实施例中，四个音效生成器被假设为具有特定结构而互相依赖。

每个音效生成器或者混响器都可以被实现作为抽头延迟线(tapped delay line)，如同将借助图5所详细描述的。延时和增益或者缩放可以以这样的方式合适的选择：即每个抽头建模一个远距离回声，远距离回声的方向、延时和功率可以按需设置。

在这个实施例中，可以通过权重因子对第i个回声进行特征化，例如参考DirAC声音ρ_i、延时τ_i和到达方向θ_i和φ_i，到达方向θ_i和φ_i分别对应于仰角和方位角。

可将混响的参数设置如下：

τ_W＝τ_X＝τ_Y＝τ_Z＝τ_i

γ_W＝ρ_i，对于W混响器，

γ_X＝ρ_i·cos(φ_i)·cos(θ_i)，对于X混响器，

γ_Y＝ρ_i·sin(φ_i)·cos(θ_i)，对于Y混响器，

γ_Z＝ρ_i·sin(θ_i)，对于Z混响器。

在一些实施例中，可以从随机处理中提取每个回声的物理参数或者从居室空间脉冲响应中获得每个回声的物理参数。后者例如可以采用射线追踪工具测量或模拟。

通常，实施例可以随着音效生成器的数目不依赖于声源的数量而提供优点。

图5描述了使用单声道音效的概念方案作为用于音效生成器中的例子。例如，可以根据该方案实现混响器。图5示出了混响器500的实施例。图5示出了理论上的FIR(FIR＝Finite Impulse Response，有限脉冲响应)滤波器结构。其他实施例也可使用IIR(IIR＝Infinite Impulse Response，无限脉冲响应)滤波器。由标记为511到51K的K延时阶段对输入信号进行延时。接着，在求和阶段530中被相加之前，通过放大器521到52K以放大因子γ₁到γ_K对K延时样本(copy)(对于该样本，延时被以信号的τ₁到τ_K代表)进行放大。

图6示出了另一实施例，该实施例具有在DirAC的上下文中图5的处理链的扩展。处理块的输出可以是B格式信号。图6示出了多个求和阶段560、562和564被应用以得到三个输出信号W，X和Y的实施例。为了建立不同的合并，在将延时的信号样本在三个不同的求和阶段560，562和564中相加之前，可对延时的信号样本进行不同地缩放。这由附加的放大器531到53K和541到54K执行。换言之，图6所示的实施例600对基于单声道DirAC流的B格式信号的不同分量进行混响。使用通过不同滤波系数ρ₁到ρ_K和η₁到η_K而建立的三个不同的FIR滤波器生成三个不同的信号混响样本。

以下的实施例可以应用到混响器或如图5的可被建模的音效。输入信号通过简单的抽头延迟线，在抽头延迟线处输入信号的多个样本被相加在一起。K分支的第i个被分别以τ_i和γ_i进行延时和衰减。

因子γ和τ可以依赖于需要的音效而得到。在混响器的情形下，这些因子模仿了将要被模拟的居室的脉冲响应。无论如何，没有说明它们的确定，因而假设它们是给定的。

图6描绘了一个实施例。图5的方案被扩展从而获得另外的两个层。在实施例中，对每个分支，可分配由随机处理得到的到达角θ。例如，θ可以是在范围[-π，π]内的均匀分布的实现。将第i个分支与因子η_i和ρ_i相乘，η_i和ρ_i可被定义为：

η_i＝sin(θ_i) (21)

ρ_i＝cos(θ_i)。 (22)

随着在实施例中，第i个回声可被感觉为来自θ_i。向3D的扩展是前向的。在这种情形下，需要再增加一层，并需要考虑仰角。一旦生成了B格式信号，即W，X，Y，以及可能的Z，将该B格式信号与其他B格式信号合并。然后，可以将其直接发送到虚拟麦克风DirAC解码器，或者在DirAC编码后可将单声道DirAC流发送到单声道DirAC解码器。

实施例可以包括用于从输入空间音频信号确定转换的空间音频信号的方法，该转换的空间音频信号具有第一方向音频分量和第二方向音频分量，输入空间音频信号具有输入音频表示和输入到达方向。该方法包括基于输入音频表示和输入到达方向估计包括波场测量和波到达方向测量的波表示的步骤。此外，该方法包括处理波场测量和波到达方向测量以获得第一方向分量和第二方向分量的步骤。

在实施例中，用于确定转换的空间音频信号的方法可以包括获得将被转换为B格式的单声道DirAC流的步骤。可选地，当可行时，可以从P获得W。如果不可行，可以执行近似W做为可用音频信号的线性合并的步骤。随后，可以执行计算作为依赖于频率时间的权重因子的因子β的步骤，该因子β与扩散度成反比，例如可根据下式计算：

β (k, n) = \sqrt{1 - Ψ (k, n)}

或者

β (k, n) = \frac{1 - \sqrt{1 - {(1 - Ψ (k, n))}^{2}}}{1 - Ψ (k, n)} .

该方法还包括由P，β和e_DOA计算信号X，Y和Z的步骤。

对于Ψ＝1的情形，从P获得W的步骤可以被分别替换为以下步骤：当X，Y，和Z为零时由P获得W，从P获得至少一个双极信号X，Y或Z；W为零。本发明的实施例可以在B格式域内进行信号处理，可以产生在生成扬声器信号前进行高级信号处理的优点。

依赖于本发明方法的一些实施需要，本发明的方法可以以硬件或软件实施。可以使用存储了数字可读控制信号的数字存储介质，特别是闪存存储器、磁盘、DVD或CD来进行实施，其与可编程计算机系统协作从而可以执行本发明的方法。通常，本发明为计算机程序代码，程序代码存储在机器可读载体上，当计算机程序在计算机或处理器上运行时程序代码可被操作从而用于执行本发明的方法。换言之，本发明的方法由此是一种具有程序代码的计算机程序，用于当计算机程序运行在计算机上时执行至少一种本发明的方法。

Claims

1.一种适于由第一输入空间音频信号和第二输入空间音频信号确定合并的转换的空间音频信号的装置（300），所述合并的转换的空间音频信号具有至少第一合并分量和第二合并分量，所述第一输入空间音频信号具有第一输入音频表示和第一输入到达方向，所述第二输入空间音频信号具有第二输入音频表示和第二输入到达方向，所述装置（300）包括：

第一装置（101），适于从所述第一输入空间音频信号确定第一转换信号，所述第一转换信号具有第一全方向分量和至少一个第一方向分量（X;Y;Z），所述第一装置（101）包括

估计器，所述估计器适于基于所述第一输入音频表示和所述第一输入到达方向估计第一波表示，所述第一波表示包括第一波场测量和第一波到达方向测量；和

处理器，所述处理器适于处理所述第一波场测量和第一波到达方向测量以获得所述第一全方向分量和所述至少一个第一方向分量；

其中，所述第一装置（101）适于提供具有所述第一全方向分量和所述至少一个第一方向分量的第一转换信号；

第二装置（102），所述第二装置（102）适于基于所述第二输入空间音频信号提供第二转换信号，所述第二转换信号具有第二全方向分量和至少一个第二方向分量，所述第二装置（102）包括

另一估计器，所述另一估计器适于基于所述第二输入音频表示和所述第二输入到达方向估计第二波表示，所述第二波表示包括第二波场测量和第二波到达方向测量；和

另一处理器，所述另一处理器适于处理所述第二波场测量和第二波到达方向测量以获得所述第二全方向分量和所述至少一个第二方向分量；

其中，所述第二装置（101）适于提供具有所述第二全方向分量和所述至少一个第二方向分量的所述第二转换信号；

音效生成器（301），所述音效生成器（301）适于渲染所述第一全方向分量以获得第一渲染分量，或者渲染所述第一方向分量以获得所述第一渲染分量；

第一合并器（311），所述第一合并器（311）适于将所述第一渲染分量、所述第一全方向分量和所述第二全方向分量合并，或者将所述第一渲染分量、所述第一装置方向分量和所述第二方向分量合并，以获得第一合并分量；以及

第二合并器（312），所述第二合并器（312）适于将所述第一方向分量和所述第二方向分量合并，或者将所述第一全方向分量和所述第二全方向分量合并，以获得所述第二合并分量。

2.如权利要求1所述的装置（300），其中所述估计器或所述另一估计器适于按照波场振幅和波场相位来估计所述第一波场测量或第二波场测量。

3.如权利要求1或2所述的装置（300），其中所述第一输入空间音频信号或第二输入空间音频信号还包括扩散度参数Ψ，且其中所述估计器或所述另一估计器适于进一步根据所述扩散度参数Ψ估计所述波场测量。

4.如权利要求1所述的装置（300），其中所述第一输入到达方向或第二输入到达方向指的是参考点，且其中所述估计器或所述另一估计器适于参考所述参考点来估计所述第一波到达方向测量或第二波到达方向测量，所述参考点对应于输入空间音频信号的记录位置。

5.如权利要求1所述的装置（300），其中所述第一转换信号或第二转换信号包括第一（X）方向分量、第二（Y）方向分量和第三（Z）方向分量，且其中所述处理器或所述另一处理器适于进一步处理所述第一波场测量或第二波场测量以及所述第一波到达方向测量或第二波到达方向测量以获得用于所述第一转换信号或第二转换信号的所述第一（X）方向分量、第二（Y）方向分量和第三（Z）方向分量。

6.如权利要求2所述的装置（300），其中所述估计器或所述另一估计器适于基于所述第一输入音频表示或第二输入音频表示P(k,n)的分式β(k,n)确定所述第一波场测量或第二波场测量，其中k表示时间指数，n表示频率指数。

7.如权利要求6所述的装置（300），其中所述处理器或所述另一处理器适于通过以下公式获得用于所述第一转换信号或第二转换信号的所述第一方向分量X(k,n)和/或所述第二方向分量Y(k,n)和/或第三方向分量Z(k,n)和/或所述第一全方向音频分量或第二全方向音频分量W(k,n)的复测度：

W(k,n)=P(k,n)

X (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, x} (k, n)

Y (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, y} {(k, n)}^{,}

Z (k, n) = \sqrt{2} β (k, n) \cdot P (k, n) \cdot e_{DOA, z} (k, n)

其中，e_DOA,x(k,n)是所述第一输入到达方向或第二输入到达方向的单位矢量e_DOA(k,n)沿着笛卡尔坐标系x轴的分量，e_DOA,y(k,n)是e_DOA(k,n)沿着y轴的分量，e_DOA,z(k,n)是e_DOA(k,n)沿着z轴的分量。

8.如权利要求6或7所述的装置（300），其中所述估计器或所述另一估计器适于根据以下公式基于扩散度参数Ψ(k,n)估计分式β(k,n)：

β (k, n) = \sqrt{1 - Ψ (k, n)} .

9.如权利要求6所述的装置（300），其中所述估计器或所述另一估计器适于根据以下公式基于扩散度参数Ψ(k,n)估计分式β(k,n)：

β (k, n) = \frac{1 - \sqrt{1 - {(1 - Ψ (k, n))}^{2}}}{1 - Ψ (k, n)} .

10.如权利要求1所述的装置（300），其中所述第一输入空间音频信号或第二输入空间音频信号对应于DirAC编码音频信号，且其中所述处理器或所述另一处理器适于按照B格式信号获得所述第一全方向分量或第二全方向分量（W’）和所述至少一个第一方向分量或至少一个第二方向分量（X;Y;Z）。

11.如权利要求1所述的装置（300），其中所述音效生成器（301）适于渲染所述第一全方向分量和所述第二全方向分量的合并结果，或者渲染所述第一方向分量和所述第二方向分量的合并结果，以获得所述第一渲染分量。

12.如权利要求1所述的装置（300），还包括：

第一延时和缩放阶段（321），所述第一延时和缩放阶段（321）用于延时和/或缩放所述第一全方向分量和/或所述第一方向分量，和/或

第二延时和缩放阶段（322），所述第二延时和缩放阶段（322）用于延时和/或缩放所述第二全方向分量和/或所述第二方向分量。

13.如权利要求1所述的装置（300），包括多个用于转换多个输入空间音频信号的装置（100），所述装置（300）还包括多个音效生成器，其中所述音效生成器的数量小于装置（100）的数量。

14.如权利要求1所述的装置（300），其中所述音效生成器（301）适于混响所述第一全方向分量或者所述第一方向分量，以获得所述第一渲染分量。

15.一种用于从第一输入空间音频信号和第二输入空间音频信号确定合并的转换的空间音频信号的方法，所述合并的转换的空间音频信号具有至少第一合并分量和第二合并分量，所述第一输入空间音频信号具有第一输入音频表示和第一输入到达方向，所述第二输入空间音频信号具有第二输入音频表示和第二输入到达方向，所述方法包括以下步骤：

通过以下子步骤从所述第一输入空间音频信号确定第一转换信号，所述第一转换信号具有第一全方向分量（W’）和至少一个第一方向分量（X;Y;Z），所述子步骤包括：

基于所述第一输入音频表示和所述第一输入到达方向估计第一波表示，所述第一波表示包括第一波场测量和第一波到达方向测量；和

处理所述第一波场测量和所述第一波到达方向测量以获得所述第一全方向分量（W’）和所述至少一个第一方向分量（X;Y;Z）；

提供具有所述第一全方向分量和所述至少一个第一方向分量的所述第一转换信号；

通过以下子步骤从所述第二输入空间音频信号确定第二转换信号，所述第二转换信号具有第二全方向分量（W’）和至少一个第二方向分量（X;Y;Z），所述子步骤包括：

基于所述第二输入音频表示和所述第二输入到达方向估计第二波表示，所述第二波表示包括第二波场测量和第二波到达方向测量；以及

处理所述第二波场测量和所述第二波到达方向测量以获得所述第二全方向分量（W’）和所述至少一个第二方向分量（X;Y;Z）；

提供具有所述第二全方向分量和所述至少一个第二方向分量的所述第二转换信号；

渲染所述第一全方向分量以获得第一渲染分量或者渲染所述第一方向分量以获得所述第一渲染分量；

将所述第一渲染分量、所述第一全方向分量和所述第二全方向分量合并，或者将所述第一渲染分量、所述第一方向分量和所述第二方向分量合并，以获得所述第一合并分量；以及

将所述第一方向分量和所述第二方向分量合并，或者将所述第一全方向分量和所述第二全方向分量合并，以获得所述第二合并分量。