CN104185869A

CN104185869A - 用于合并基于几何的空间音频编码流的设备和方法

Info

Publication number: CN104185869A
Application number: CN201280067983.XA
Authority: CN
Inventors: 吉奥范尼·德加尔多; 奥利弗·蒂尔加特; 于尔根·赫勒; 法比安·屈希; 埃马努埃尔·哈贝特斯; 亚历山德拉·克勒琼; 阿希姆·孔茨
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2011-12-02
Filing date: 2012-11-30
Publication date: 2014-12-03
Anticipated expiration: 2032-11-30
Also published as: CA2857614C; WO2013079663A3; EP2600343A1; CA2857614A1; CN104185869B; RU2014126818A; AU2012343819C1; EP2786374A2; SG11201402777QA; HK1202181A1; TWI555412B; US20130142341A1; CN104185869B9; JP6086923B2; BR112014013336B1; AR089053A1; AU2012343819A1; AU2018200613A1; KR20140097555A; RU2609102C2

Abstract

本发明提供了一种用于产生合并的音频数据流的设备。该设备包括解复用器(180)，该解复用器用于获得多个单层音频数据流，其中解复用器(180)适合于接收一个或更多个输入音频数据流，其中每个输入音频数据流包括一层或更多层，其中该解复用器(180)适合于将具有一层或更多层的每个输入音频数据流解复用成具有正好一层的两个或更多个经解复用的音频数据流，使得两个或更多个的经解复用的音频数据流合在一起包括一层或更多层的输入音频数据流。此外，该设备包括合并模块(190)，该合并模块用于基于多个单层音频数据流来产生具有一层或更多层的合并的音频数据流。输入数据音频流的、所述经解复用的音频数据流的、单层数据流的、以及合并的音频数据流的每个层包括压力信号的压力值、位置值以及散射值作为音频数据。

Description

用于合并基于几何的空间音频编码流的设备和方法

技术领域

本发明涉及音频处理，更具体地，涉及一种用于产生合并的音频数据流的设备和方法。

背景技术

音频处理，特别是空间音频编码，变得越来越重要。传统的空间录音目的在于捕捉声场，使得在再现侧聆听者将声像(sound image)视作在录音地点的声像。从现有技术水平得知实现空间声音录制和再现技术的不同方法，这些方法可基于声道式表示、对象式表示或参数式表示。

声道式表示(channel-based representation)表示利用N个离散音频信号的声音场景，N个离散音频信号意味着要由以一种已知设置(例如5.1环绕声效设置)布置的N个扬声器回放。空间声音录制的方法通常采用分隔开的全向麦克风(例如，在AB立体声中)或者一致定向麦克风(例如，在强度立体声中)。或者，例如在高保真度立体声响复制(Ambisonics)中，可采用更复杂的麦克风，例如B-格式麦克风，参见：

[1]“Michael A.Gerzon.Ambisonics in multichannel broadcastingand video.J.Audio Eng.Soc,33(11):859–871,1985.”。

已知设置的期望扬声器信号直接源于录制的麦克风信号，并且然后离散地进行传输或储存。通过将音频编码应用于离散信号来获得更有效的表示，该音频编码在某些情况下为了增加效率而对不同声道的信息联合地编码，例如在5.1的MPEG环绕声(MPEG-Surround)中，参见：

[21]“J.Herre,K.J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.Linzmeier,K.S.Chong:“MPEG Surround–The ISO/MPEG Standard for Efficientand Compatible Multichannel Audio Coding”,122nd AES Convention,Vienna,Austria,2007,Preprint 7084.”。

这些技术的主要缺点是：一旦已经计算了扬声器信号，声音场景就不能修改。

对象式表示(object-based representation)例如用在空间音频对象编码(SAOC，Spatial Audio Object Coding)中，参见

[25]“Jeroen Breebaart,JonasCornelia Falch,OliverHellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,WernerOomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatialaudio object coding(saoc)-the upcoming mpeg standard on parametricobject based audio coding.In Audio Engineering Society Convention 124,52008.”。

对象式表示表示具有N个离散音频对象的声音场景。这种表示因为能够通过改变例如每个对象的位置和响度(loudness)来操控声音场景所以在再现侧提供了高灵活性。虽然从例如多轨录音可容易地得到这种表示，但却很难从利用一些麦克风录音的复合声音场景获得这种表示(例如，参见[21])。事实上，讲话者(或其它声音发射对象)必须首先进行定位并且然后从混合中被提取出来，这可能导致假象(artifacts)。

参数式表现(parametric representation)常常采用空间麦克风来确定一个或更多个音频缩混(downmix)信号和描述空间声音的空间侧信息。一个示例是定向音频编码(DirAC，Directional Audio Coding)，如在以下文献中所讨论的：

[29]“Ville Pulkki.Spatial sound reproduction with directional audiocoding.J.Audio Eng.Soc,55(6):503–516,June 2007.”。

术语“空间麦克风”指用于获得能够找回声音到达方向(direction ofarrival of sound)的空间声音的任何设备(例如，定向麦克风的组合、麦克风阵列等)。

术语“非空间麦克风”指不适合用于找回声音到达方向的任何设备，例如单个全向或定向麦克风。

另一示例在下面的文献中提出：

[4]“C.Faller.Microphone front-ends for spatial audio coders.In Proc.of the AES 125th International Convention,San Francisco,Oct.2008.”。

在DirAC中，空间线索信息包括在时-频域(time-frequency domain)中计算的声音的到达方向(DOA，direction of arrival)和声场的散射。对声音再现而言，可基于参数描述得到音频回放信号。因为可采用任意的扬声器设置，因为该表示特别灵活和紧凑，因为其包括缩混单声道音频信号和侧信息，以及因为其允许对于声音场景的简单修改，例如，声学缩放(acoustic zooming)、定向滤波、场景合并等，所以这些技术在再现侧提供了很大的灵活性。

然而，这些技术仍然受限制之处在于，录制的空间声像总是与所使用的空间麦克风相关联。因此，声学视点(acoustic viewpoint)无法变更且声音场景内的聆听位置不能改变。

一种虚拟麦克风方法在以下文献中提出：

[20]“Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets.Generating virtual microphone signals using geometricalinformation gathered by distributed arrays.In Third Joint Workshop onHands-free Speech Communication and Microphone Arrays(HSCMA’11),Edinburgh,United Kingdom,May 2011.”。

其允许计算出实际上随意地(即，任意位置和方向)置放在环境中的任意的空间麦克风的输出信号。虚拟麦克风(VM，virtual microphone)方法所特有的灵活性允许在后处理步骤中实际上随意地捕捉声音场景，但不能得到能够用于有效地传输和/或储存和/或修改声音场景的任何声场表示。此外，假设每个时-频点(time-frequency bin)只有一个源是有效的，因此，如果在同一时-频点中两个或更多个源是有效的，则其无法正确描述声音场景。再者，如果在接收机侧应用虚拟麦克风(VM)，则所有麦克风信号需要通过声道送出，这使表示效率低下，而如果在发射机侧应用VM，则不能进一步操控声音场景，并且该模型会丧失灵活性并变成受限于某个扬声器设置。此外，其并不基于参数信息考虑声音场景的操控。

在以下文献中：

[24]“Emmanuel Gallo and Nicolas Tsingos.Extracting andre-rendering structured auditory scenes from field recordings.In AES30th International Conference on Intelligent Audio Environments,2007”，

声源位置估计基于利用配置的麦克风测量的成对的到达时间差。再者，接收机取决于录制，且需要所有麦克风信号用于合成(例如，扬声器信号的产生)。

在以下文献中给出的方法中：

[28]“Svein Berge.Device and method for converting spatial audiosignal.US patent application,Appl.No.10/547,151”，

类似于DirAC，使用到达方向作为参数，从而将表示限制于声音场景的特定视点。此外，因为在通讯系统的同一侧需要应用分析和合成两者，所以该方法并未提出传输/储存声音场景表示的可能性。

另一个例子可以是视频会议应用，其中在不同环境中正进行录制的各方需要在唯一的声音场景中回放。多点控制单元(MCU，MultipointControl Unit)必须确保回放唯一的声音场景。

在以下文献中：

[22]“G.Del Galdo,F.Kuech,M.Kallinger,and R.Schultz-Amling.Efficient merging of multiple audio streams for spatial soundreproduction in directional audio coding.In International Conference onAcoustics,Speech,and Signal Processing(ICASSP 2009),2009.”

和在以下文献中：

[23]“US 20110216908:Apparatus for Merging Spatial AudioStreams”，

提出了结合声音场景的两个或更多个参数式表示的想法。

然而，如果能提供根据两个或更多个声音场景表示以有效的方式来构建唯一的声音场景，足够灵活修改该声音场景的一些构思，则将会是非常有利的。

发明内容

本发明的目的是提供用于产生合并的音频数据流例如GAC流的改进的构思。本发明的目的是通过根据权利要求1的设备，通过根据权利要求17的方法以及通过根据权利要求18的计算机程序来解决。

根据一个实施例，提供了一种用于产生合并的音频数据流的设备。该设备包括解复用器，该解复用器用于获得多个单层音频数据流，其中该解复用器适合于接收一个或更多个输入音频数据流，其中每个输入音频数据流包括一层或更多层，其中该解复用器适合于将具有一层或更多层的每个输入音频数据流解复用成具有正好一层的两个或更多个的经解复用的音频数据流，使得一个或更多个经解复用的音频数据流合在一起包括输入音频数据流的一层或更多层，以提供两个或更多个的单层音频数据流。此外，该设备包括合并模块，该合并模块用于基于多个单层音频数据流例如基于多个经解复用的单层音频数据流来产生具有一层或更多层的合并的音频数据流。输入数据音频流的、经解复用的音频数据流的、单层数据流的、以及合并的音频数据流的每个层包括压力信号的压力值、位置值以及散射值作为音频数据。

在另一个实施例中，该设备可包括用于获得多个单层音频数据流的解复用器，其中解复用器适合于接收两个或更多个输入音频数据流，其中每个输入音频数据流包括一层或更多层，其中解复用器适合于将具有两个或更多个层的每个输入音频数据流解复用成具有正好一层的两个或更多个的经解复用的音频数据流，使得两个或更多个经解复用的音频数据流合在一起包括输入音频数据流的两个或更多个层，以获得两个或更多个单层音频数据流。此外，该设备可包括合并模块，该合并模块用于基于多个单层音频数据流来产生具有一层或更多层的合并的音频数据流。

在一个实施例中，该设备可适合于将具有正好一层的一个或更多个所接收的输入音频数据流直接提供至合并模块中，而无需将它们提供至解复用器中。

输入数据音频流的、经解复用的音频数据流的、单层数据流的、以及合并的音频数据流的每个层包括压力信号的压力值、位置值以及散射值作为音频数据，针对多个时-频点的一个时-频点来定义该音频数据。

根据本实施例，借助于合并两个或更多个音频数据流例如GAC流并且通过输出单个音频数据流例如单个GAC流来将两个或更多个录制的声音场景合并成一个。

合并声音场景可用在例如视频会议应用中，其中在不同环境中正进行录制的各方需要在唯一的声音场景中回放。因此合并可能发生在多点控制单元(MCU，Multipoint Control Unit)中，以减少网络流量，或发生在最终用户处以减少合成的计算成本，例如扬声器信号的计算。

在一个实施例中，合并模块可包括成本函数模块，该成本函数模块用于将成本值分配给每个单层音频数据流，以及其中，合并模块可适合于基于分配给单层音频数据流的成本值来产生合并的音频数据流。

根据另一个实施例，成本函数模块可适合于根据单层音频数据流的压力值或散射值中的至少一个来将成本值分配给每个单层音频数据流。

在另一个实施例中，成本函数模块可适合于通过应用下述公式来将成本值分配给单层音频数据流的群的每个音频数据流：

f_i(Ψ_i，P_i)＝(1-Ψ_i)·|P_i|²

其中，例如对于每个时-频点，P_i是压力值，而ψ_i是单层音频数据流的群的第i个音频数据流的层的散射值。

根据另一个实施例，合并模块还可包括压力合并单元，其中，压力合并单元可适合于确定包括多个单层音频数据流的一个或更多个单层音频数据流的第一群并且适合于确定包括不同的多个单层音频数据流的一个或更多个单层音频数据流的第二群，其中第一群的每个单层音频数据流的成本值可大于第二群的每个单层音频数据流的成本值，或者其中，第一群的每个单层音频数据流的成本值可小于第二群的每个单层音频数据流的成本值，其中，压力合并单元可适合于产生合并的音频数据流的一层或更多层的一个或更多个压力值，使得第一群的每个单层音频数据流的每个压力值可以是合并的音频数据流的其中一层的压力值，并且使得第二群的单层音频数据流的压力值的组合可以是合并的音频数据流的层中的其中一层的压力值。

在另一个实施例中，合并模块还可包括散射合并单元，其中，散射合并单元可适合于确定包括多个单层音频数据流的一个或更多个单层音频数据流的第三群并且适合于确定包括不同的多个单层音频数据流的一个或更多个单层音频数据流的第四群。第三群的每个单层音频数据流的成本值可大于第四群的每个单层音频数据流的成本值，或者其中，第三群的每个单层音频数据流的成本值可小于第四群的每个单层音频数据流的成本值，其中散射合并单元可适合于产生合并音频数据流的一层或更多层的一个或更多个散射值，使得第三群的每个单层音频数据流的每个散射值可以是合并的音频数据流的层中的其中一层的散射值，并且使得第四群的单层音频数据流的散射值的组合可以是合并的音频数据流的层中的其中一层的散射值。

根据另一个实施例，合并模块还可包括位置混合单元(1403)，其中位置混合单元(1403)可适合于确定包括多个单层音频数据流的一个或更多个单层音频数据流的第五群，其中第五群的每个单层音频数据流的成本值可大于未包括在多个单层音频数据流的第五群中的任何单层音频数据流的成本值，或者其中第五群的每个单层音频数据流的成本值小于未包括在多个单层音频数据流的第五群中的任何单层音频数据流的成本值。位置混合单元(1403)可适合于产生合并的音频数据流的一层或更多层的一个或更多个位置值，使得第五群的每个单层音频数据流的每个位置值可以是合并的音频数据流的层中的其中一层的位置值。

在另一个实施例中，合并模块还可包括声音场景适配模块，该声音场景适配模块用于操控多个单层音频数据流的一个或更多个单层音频数据流的位置值。

根据另一个实施例，声音场景适配模块可适合于通过对位置值应用旋转、平移或非线性变换来操控多个单层音频数据流的一个或更多个单层音频数据流的位置值。

在另一个实施例中，解复用器可包括多个解复用单元，其中，每个解复用单元可配置成对一个或更多个输入音频数据流进行解复用。

根据另一个实施例，还设备还可包括人工声源产生器，该人工声源产生器用于产生包括正好一层的人工数据流，其中，人工源产生器可适合于接收在时域中表示的压力信息，并且适合于接收位置信息，其中，人工源产生器可适合于复制压力信息以针对多个时-频点产生位置信息，且其中人工源产生器还可适合于基于压力信息来计算散射信息。

在另一个实施例中，人工源产生器可适合于将在时域中表示的压力信息变换至时-频域。

根据另一个实施例，人工源产生器可适合于将混响(reverberation)增加至压力信息。

另一个实施例允许将人工声源插入声音场景中。人工声源的插入在虚拟现实和视频游戏类应用中特别有用，其中复合声音场景可以由合成来源所滋生(populated)。在电讯会议场景中，在将通过单声道通信(例如，经由移动电话的拨号)的各方结合过程中，插入是有用的。

附图说明

下面将描述本发明的优选实施例，其中：

图1例示了根据一个实施例的用于产生合并的音频数据流的设备。

图2a例示了根据一个实施例的基于包括涉及一个或更多个声源的音频数据的音频数据流来产生至少一个音频输出信号的设备。

图2b例示了根据一个实施例的用于产生包括涉及一个或更多个声源的声源数据的音频数据流的设备。

图3a-3c例示了根据不同实施例的音频数据流。

图4例示了根据另一个实施例的用于产生包括涉及一个或更多个声源的声源数据的音频数据流的设备。

图5例示了包括两个声源和两个规格一致的线形麦克风阵列的声音场景。

图6a例示了根据一个实施例的基于音频数据流产生至少一个音频输出信号的设备600。

图6b例示了根据一个实施例的用于产生包括涉及一个或更多个声源的声源数据的音频数据流的设备660。

图7描绘了根据一个实施例的修改模块。

图8描绘了根据另一个实施例的修改模块。

图9例示了根据一个实施例的发射机/分析单元和接收机/合成单元。

图10a描绘了根据一个实施例的合成模块。

图10b描绘了根据一个实施例的第一合成级单元。

图10c描绘了根据一个实施例的第二合成级单元。

图11描绘了根据另一个实施例的合成模块。

图12例示了根据一个实施例的用于产生虚拟麦克风的音频输出信号的设备。

图13例示了根据一个实施例的用于产生虚拟麦克风的音频输出信号的设备和方法的输入和输出。

图14例示了根据一个实施例的用于产生虚拟麦克风的音频输出信号的设备的基本结构，该基本结构包括声音事件位置估计器和信息计算模块。

图15示出了一个示例性场景，其中将真实空间麦克风均描绘成3个麦克风的规格一致的线形阵列。

图16描绘了3D中的用于估计在3D空间中的到达方向的两个空间麦克风。

图17例示了一个几何形状，其中，当前时-频点(k,n)的等向性点状声源定位在位置p_IPLS(k,n)。

图18描绘了根据一个实施例的信息计算模块。

图19描绘了根据另一个实施例的信息计算模块。

图20示出了两个真实空间麦克风、定位的声音事件及虚拟空间麦克风的位置。

图21例示了根据一个实施例的如何获得相对于虚拟麦克风的到达方向。

图22描绘了根据一个实施例的从虚拟麦克风的视点获得声音的DOA的可能方式。

图23例示了根据一个实施例的包括散射计算单元的信息计算块。

图24描绘了根据一个实施例的散射计算单元。

图25例示了一个场景，其中，声音事件位置估计是不可能的。

图26例示了根据一个实施例的用于产生虚拟麦克风数据流的设备。

图27例示了根据另一个实施例的基于音频数据流产生至少一个音频输出信号的设备。

图28描绘了根据另一个实施例的用于产生合并的音频数据流的设备的输入和输出。

图29例示了根据另一个实施例的用于产生合并的音频数据流的设备。

图30描绘了根据一个实施例的合并模块。

图31a-31c描绘了可能的声音现场场景。

图32a-32b例示了根据实施例的人工源产生器。

图33a-33c例示了一些场景，其中，两个麦克风阵列接收直达声音，墙壁所反射的声音以及散射声音。

具体实施方式

在提供本发明的实施例的详细描述之前，将描述用于产生虚拟麦克风的音频输出信号的设备，以提供本发明的构思相关的背景信息。

图12例示了用于产生用以模拟在环境中位于可配置的虚拟位置posVmic处的麦克风的录制的音频输出信号的设备。该设备包括声音事件位置估计器110和信息计算模块120。声音事件位置估计器110接收来自第一真实空间麦克风的第一方向信息di1和来自第二真实空间麦克风的第二方向信息di2。声音事件位置估计器110适合于估计表示声源在环境中的位置的声源位置ssp，声源发射声波，其中声音事件位置估计器110适合于基于第一方向信息di1与第二方向信息di2来估计声源位置ssp，其中第一方向信息di1是由设置在环境中的第一真实麦克风位置pos1mic处的第一真实空间麦克风所提供，而第二方向信息di2是由设置在环境中的第二真实麦克风位置处的第二真实空间麦克风所提供。信息计算模块120适合于基于由第一真实空间麦克风所录制的第一录制音频输入信号is1，基于第一真实麦克风位置pos1mic以及基于虚拟麦克风的虚拟位置posVmic来产生音频输出信号。信息计算模块120包括传播补偿器，该传播补偿器适合于通过修改第一录制音频输入信号is1来产生第一修改的音频信号，以获得音频输出信号，所述修改第一录制音频输入信号is1是通过补偿在第一真实空间麦克风处的声源所发出的声波的抵达与在虚拟麦克风处的声波的抵达之间的第一延迟或振幅衰减来进行，所述补偿是通过调整第一录制音频输入信号is1的振幅值、大小值或相位值来进行。

图13例示了根据一个实施例的设备和方法的输入和输出。将来自两个或更多个真实空间麦克风111、112、…、11N的信息提供至该设备/通过该方法进行处理。该信息包括真实空间麦克风所拾取的音频信号和来自真实空间麦克风的方向信息，例如，到达方向(DOA)估计。可在时-频域中表示音频信号和例如到达方向估计的方向信息。如果例如期望2D几何重建并且为了信号的表示而选择传统STFT(短时傅立叶变换，shorttime Fourier transformation)域，则DOA可能根据k和n，即，频率和时间指数(index)表示成方位角(azimuth angle)。

在多个实施例中，可基于共同坐标系统中的真实空间麦克风和虚拟空间麦克风的位置和方向来进行空间中的声音事件定位和对虚拟麦克风的位置的描述。该信息能够通过图13中的输入121…12N和输入104表示。输入104可附加地指明虚拟空间麦克风的特征，例如，如将在下面所讨论的，其位置和拾取模式。如果虚拟空间麦克风包括多个虚拟传感器，则可以考虑它们的位置和相应的不同拾取模式。

该设备或相应的方法的输出在需要时可以是一个或更多个声音信号105，这些声音信号105可以已由如104所指明的来限定并放置的空间麦克风所拾取。此外，该设备(或者说方法)可提供相应的空间侧信息106作为输出，该相应的空间侧信息106可通过采用虚拟空间麦克风来估计。

图14例示了根据一个实施例的设备，该设备包括两个主要处理单元，声音事件位置估计器201和信息计算模块202。声音事件位置估计器201可基于输入111…11N中所包括的DOA并且基于真实空间麦克风的位置和方向的知识来进行几何的重建，这里已计算了DOA。声音事件位置估计器205的输出包括声源的位置估计(在2D中或在3D中)，其中针对每个时间和频率点产生声音事件。第二处理块202是信息计算模块。根据图14的实施例，第二处理块202计算虚拟麦克风信号和空间侧信息。因此，第二处理块202还称为虚拟麦克风信号和侧信息计算块202。虚拟麦克风信号和侧信息计算块202使用声音事件的位置205来处理111…11N中所包括的音频信号以输出虚拟麦克风音频信号105。如果需要的话，块202还可计算与虚拟空间麦克风对应的空间侧信息106。以下的实施例例示了块201和202会如何操作的可能性。

下面，更详细地描述根据一个实施例的声音事件位置估计器的位置估计。

根据问题的维数(2D或3D)和空间麦克风的数目，可能有几个位置估计的解决方案。

如果在2D中存在两个空间麦克风，则(最简单的可能情况)简单的三角测量是可能的。图15示出了一个示例性场景，其中真实空间麦克风均描绘成3个麦克风的规格一致的线形阵列(ULA，Uniform LinearArray)。针对时-频点(k,n)来计算表示成方位角al(k,n)和a2(k,n)的DOA。这是通过将适当的DOA估计器例如ESPRIT(参见下列文献[13])或(根(root))MUSIC(参见下列文献[14])应用于变换至时-频域的压力信号来实现。

[13]“R.Roy,A.Paulraj,and T.Kailath,"Direction-of-arrivalestimation by subspace rotation methods–ESPRIT,"in IEEEInternational Conference on Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,April 1986,”；

[14]“R.Schmidt,“Multiple emitter location and signal parameterestimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3,pp.276-280,1986”。

在图15中，例示了两个真实空间麦克风，这里指，两个真实空间麦克风阵列410、420。两个估计的DOA al(k,n)和a2(k,n)通过两条线表示，第一线430表示DOA al(k,n)，而第二线440表示DOA a2(k,n)。已知每个阵列的位置和方向，通过简单的几何的考虑，三角测量是可能的。

当两条线430、440正好平行时，三角测量失败。然而，在实际应用中，这种情况不大可能。然而，并非所有三角测量结果都会对应于在所考虑的空间中的声音事件的物理位置或可行位置。例如，声音事件的估计位置可能是太远或甚至在假设的空间之外，表示DOA可能并不对应于能够用所使用的模型物理地解释的任何声音事件。这种结果可能是传感器噪音或太强大的房间混响所导致。因此，根据一个实施例，对这种不希望的结果进行标记，使得信息计算模块202能够对它们进行适当地处理。

图16描绘了一个场景，其中在3D空间中估计声音事件的位置。采用了合适的空间麦克风，例如，平面或3D麦克风阵列。在图16中，例示了第一空间麦克风510(例如，第一3D麦克风阵列)和第二空间麦克风520(例如，第一3D麦克风阵列)。3D空间中的DOA可例如表示成方位角和仰角(elevation)。可采用单位向量530、540以表示DOA。根据DOA来投射两条线550、560。在3D中，即使有很可靠的估计，根据DOA所投射的两条线550、560仍可能不相交。然而，仍然可例如通过选择连接两条线的最小段的中点来进行三角测量。

类似于2D的情况，三角测量可能失败或可能对于方向的某些组合产生不可行的结果，那么也可将这样的情况进行标记，例如标记到图14的信息计算模块202。

如果存在两个或更多个空间麦克风，则可以有几个解决方案。例如，可以针对所有的真实空间麦克风对(如果N＝3，则1与2，1与3，以及2与3)来执行上面所解释的三角测量。然后可对得到的位置取平均(沿着x和y，且如果考虑3D的话，沿着z)。

可选地，可使用更复杂的构思。例如，可能应用概率的方法，如在下面的文献中所描述的：

[15]“J.Michael Steele,"Optimal Triangulation of Random Samplesin the Plane",The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.”。

根据一个实施例，可在例如经由短时傅立叶变换(STFT)获得的时-频域中分析声场，其中k和n分别表示频率指数k和时间指数n。针对特定的k和n，在任意位置p_v的复合压力P_v(k,n)是模仿成窄带等向性点状源(narrow-band isotropic point-like source)所发射的例如通过采用下述公式的单个球面波：

P_v(k，n)＝P_IPLS(k，n)·γ(k，p_IPLS(k，n)，p_v)， (1)

其中，P_IPLS(k,n)是IPLS在其位置p_IPLS(k,n)所发射的信号。复合因子γ(k,p_IPLS,p_v)表示从p_IPLS(k,n)至p_v的传播，例如，其引入适当的相位和大小修改。在此，可假设，在每个时-频点中，只有一个IPLS是有效的。然而，位于不同位置的多个窄带IPLS在单个时间瞬间也可以是有效的。

每个IPLS不是模仿直达声音就是模仿不同的房间反射。其位置p_IPLS(k,n)理论上可分别对应于位于房间内的实际声源，或位于外部的镜像声源。因此，位置p_IPLS(k,n)也可表示声音事件的位置。

请注意术语“真实声源”表示在录制环境中物理上存在的实际声源，例如讲话者或乐器。相反，对于“声源”或“声音事件”或“IPLS”，我们指有效声源，它们在某些时间瞬间或在某些时-频点是有效的，其中声源例如可表示真实声源或镜像源。

图33a-33b例示了对声源进行定位的麦克风阵列。被定位的声源根据它们的性质可具有不同的物理解释。当麦克风阵列接收直达声音时，它们可能够定位真实声源(例如，讲话者)的位置。当麦克风阵列接收反射时，它们可定位镜像源的位置。镜像源也是声源。

图33a例示了一个场景，其中，两个麦克风阵列151和152接收来自实际声源153(物理上存在的声源)的直达声音。

图33b例示了一个场景，其中两个麦克风阵列161、162接收反射的声音，其中声音已被墙壁反射。由于反射，麦克风阵列161、162将声音似乎来自的位置定位在镜像源165的位置，此位置不同于扬声器163的位置。

图33a的实际声源153和镜像源165两者都是声源。

图33c例示了一个场景，其中，两个麦克风阵列171、172接收散射声音并且不能对声源进行定位。

虽然这种单波模型只对假定源信号满足W-分离正交(WDO，W-disjoint orthogonality)条件(即，时-频重迭足够小)的轻度混响环境是正确的。但这对于语音信号而言通常是正确的，例如，参见：

[12]“S.Rickard and Z.Yilmaz,"On the approximate W-disjointorthogonality of speech,"in Acoustics,Speech and Signal Processing,2002.ICASSP 2002.IEEE International Conference on,April 2002,vol.1.”。

然而，此模型也提供对其它环境的良好估计，并因此也适合于那些环境。

以下，解释了根据实施例的位置p_IPLS(k,n)的估计。基于在至少两个不同观察点测得的声音的到达方向(DOA)经由三角测量来估计在某个时-频点中有效的IPLS的位置p_IPLS(k,n)，从而，估计了时-频点中的声音事件。

图17例示了一种几何形状，其中，当前时-频隙(time-frequency slot)(k,n)的IPLS位于未知位置p_IPLS(k,n)。为了确定需要的DOA信息，采用具有已知的几何形状、位置及方向的两个真实空间麦克风，这里是两个麦克风阵列，它们分别放置在位置610和620。向量p₁和p₂分别指向位置610、620。阵列方向是由单位向量c₁和c₂来定义。使用例如如DirAC分析(参见[2]、[3])所提供的DOA估计算法针对每个(k,n)在位置610和620确定声音的DOA。由此，可提供相对于麦克风阵列的视点的第一视点单位向量和第二视点单位向量(两者都未在图17中示出)作为DirAC分析的输出。例如，当在2D中操作时，第一视点单位向量变成：

这里，如图17所描绘的，表示在第一麦克风阵列处估计的DOA的方位角。相对于在原点的全局坐标系统，相应的DOA单位向量e₁(k,n)和e₂(k,n)可通过应用下述公式来计算：

\begin{matrix} e_{1} (k, n) = R_{1} \cdot e_{1}^{POV} (k, n), \\ e_{2} (k, n) = R_{2} \cdot e_{2}^{POV} (k, n), \end{matrix} - - - (3)

其中，R是坐标变换矩阵，例如，

R_{1} = [\begin{matrix} c_{1, x} & - c_{1, y} \\ c_{1, y} & c_{1, x} \end{matrix}], - - - (4)

当在2D中操作并且c₁＝[c_1，x，c_1，y]^T时。为了执行三角测量，方向向量d₁(k,n)和d₂(k,n)可计算为：

\begin{matrix} d_{1} (k, n) = d_{1} (k, n) e_{1} (k, n), \\ d_{2} (k, n) = d_{2} (k, n) e_{2} (k, n), \end{matrix} - - - (5)

其中，d₁(k,n)＝||d₁k,n)||和d₂k,n)＝||d₂k,n)||是在IPLS与两个麦克风阵列之间的未知距离。下述方程式

p₁+d₁(k，n)＝p₂+d₂(k，n) (6)

可能解出d₁(k,n)。最后，通过下述方程式给出IPLS的位置p_IPLS(k,n)：

p_IPLS(k，n)＝d₁(k，n)e₁(k，n)+p₁. (7)

在另一个实施例中，方程式(6)可能解出d₂(k,n)，并且采用d₂(k,n)类似地计算p_IPLS(k,n)。

除非e₁(k,n)和e₂(k,n)平行，否则，当在2D中操作时，方程式(6)总会提供解。然而，当使用超过两个的麦克风阵列时或当在3D中操作时，在方向向量d不相交时不能获得解。根据一个实施例，在这种情况下，计算最靠近所有方向向量d的点，并且结果可用作IPLS的位置。

在实施例中，所有观察点p₁、p₂、…应定位成使得IPLS所发射的声音落入相同的时间块n中。当任意两个观察点之间的距离Δ小于下述方程式时，可简单地满足该要求。

Δ_{\max} = c \frac{n_{FFT} (1 - R)}{f_{s}}, - - - (8)

其中，n_FFT是STFT窗口长度，0≤R<1指明在连续时间帧之间的重迭，以及fs是取样频率。例如，对于在48 kHz、具有50％重迭(R＝0.5)的1024点STFT而言，满足以上要求的在阵列之间的最大间距是Δ＝3.65 m。

下面更详细描述根据实施例的信息计算模块202，例如，虚拟麦克风信号和侧信息计算模块。

图18例示了根据实施例的信息计算模块202的示意性概述。信息计算单元包括传播补偿器500、组合器510以及频谱加权单元520。信息计算模块202接收声音事件位置估计器所估计的声源位置估计ssp，一个或更多个真实空间麦克风所记录的一个或更多个音频输入信号is、一个或更多个真实空间麦克风的位置posRealMic以及虚拟麦克风的虚拟位置posVmic。信息计算模块202输出表示虚拟麦克风的音频信号的音频输出信号os。

图19例示了根据另一个实施例的信息计算模块。图19的信息计算模块包括传播补偿器500、组合器510以及频谱加权单元520。传播补偿器500包括传播参数计算模块501和传播补偿模块504。组合器510包括组合因子计算模块502和组合模块505。频谱加权单元520包括频谱权重计算单元503、频谱加权应用模块506以及空间侧信息计算模块507。

为了计算虚拟麦克风的音频信号，几何信息，例如，真实空间麦克风的位置和方向121…12N，虚拟空间麦克风的位置、方向及特征104，以及声音事件的位置估计205输入进信息计算模块202，具体地，输入进传播补偿器500的传播参数计算模块501，输入进组合器510的组合因子计算模块502以及输入进频谱加权单元520的频谱权重计算单元503。传播参数计算模块501、组合因子计算模块502以及频谱权重计算单元503计算用于在传播补偿模块504、组合模块505以及频谱加权应用模块506中修改音频信号111…11N的参数。

在信息计算模块202中，可首先修改音频信号111…11N以补偿声音事件位置与真实空间麦克风之间的不同传播长度所给出的影响。然后，可组合这些信号以例如改善信噪比(SNR，signal-to-noise ratio)。最后，则可将得到的信号进行频谱加权以将虚拟麦克风的方向拾取模式与任何距离相关增益函数考虑在内。下面更详细地讨论这三个步骤。

现在更详细地解释传播补偿。在图20的上部中，例示了两个真实空间麦克风(第一麦克风阵列910和第二麦克风阵列920)，针对时-频点(k,n)定位的声音事件930的位置，以及虚拟空间麦克风940的位置。

图20的下部描绘了时间轴。假设声音事件在时间t0发射，然后传播至真实和虚拟空间麦克风。到达的时间延迟和振幅随着距离而改变，使得传播长度更远，振幅更弱且到达的时间延迟更长。

在两个真实阵列处的信号只有在它们之间的相对延迟Dt12小的情况下才是可比较的。否则，两个信号中的一个必须在时间上再对准以补偿相对延迟Dt12，且尽可能地按比例缩放以补偿不同的衰减。

对在到达虚拟麦克风与到达真实麦克风阵列(到达其中一个真实空间麦克风)之间的延迟进行补偿改变了与声音事件的定位无关的延迟，使得补偿对大部分应用而言是多余的。

回到图19，传播参数计算模块501适合于针对每个真实空间麦克风并针对每个声音事件计算要校正的延迟。如果需要的话，还计算考虑用来补偿不同的振幅衰减的增益因子。

传播补偿模块504配置成使用该信息来相应地修改音频信号。如果(相比于滤波器组(filter bank)的时窗)要将这些信号平移少量的时间，则简单的相位旋转就足够了。如果延迟更大，则需要更复杂的实现方式。

传播补偿模块504的输出是在原始时-频域中表示的经修改的音频信号。

下面将参考图17描述根据一个实施例的对虚拟麦克风的传播补偿的具体估计，图17特别例示了第一真实空间麦克风的位置610与第二真实空间麦克风的位置620。

在现在描述的实施例中，假设可获得至少一个第一录制的音频输入信号，例如，至少一个真实空间麦克风(例如，麦克风阵列)的压力信号(例如，第一真实空间麦克风的压力信号)。我们将考虑的麦克风称为参考麦克风，将其位置称为参考位置p_ref并将其压力信号称为参考压力信号P_ref(k,n)。然而，传播补偿不仅可针对多个或所有的真实空间麦克风的一个压力信号来进行，而且可针对该多个或所有的真实空间麦克风的多个压力信号来进行。

在IPLS所发出的压力信号P_IPLS(k,n)和位于p_ref的参考麦克风的参考压力信号P_ref(k,n)之间的关系可以通过公式(9)表示：

P_ref(k，n)＝P_IPLS(k，n)·γ(k，p_IPLS，p_ref)， (9)

一般而言，复合因子γ(k,p_a,p_b)表示球面波从其在p_a的原点至p_b的传播所引入的相位旋转和振幅衰减。然而，实际测试指出，只考虑γ中的振幅衰减与还考虑到相位旋转相比会引起具有显著更少的假象(artifacts)的虚拟麦克风信号的貌似真实的感觉。

在空间中某个点可测量的声音能量强烈地取决于与声源相距(在图6中与声源的位置p_IPLS相距)的距离r。在许多情况中，这种相关性可使用熟知的物理原理例如在点源的远场中声压的1/r衰减来足够准确地模仿。当参考麦克风例如第一真实麦克风与声源相距的距离已知时，且当虚拟麦克风与声源相距的距离也已知时，则可以根据参考麦克风例如第一真实空间麦克风的信号和能量来估计在虚拟麦克风的位置处的声音能量。这意味着可通过对参考压力信号施加适当增益来获得虚拟麦克风的输出信号。

假设第一真实空间麦克风是参考麦克风，则p_ref＝p₁。在图17中，虚拟麦克风位于p_v。因为详细知道图17中的几何形状，所以可以容易地确定参考麦克风(在图17中：第一真实空间麦克风)与IPLS之间的距离d₁(k,n)＝||d₁(k,n)||，和虚拟麦克风与IPLS之间的距离s(k,n)＝||s(k,n)||，即

s(k，n)＝||s(k，n)||＝||p₁+d₁(k，n)-p_v||. (10)

在虚拟麦克风的位置处的声压P_v(k,n)是通过结合公式(1)和(9)来计算，得到

P_{v} (k, n) = \frac{γ (k, p_{IPLS}, p_{v})}{γ (k, p_{IPLS}, p_{ref})} P_{ref} (k, n) . - - - (11)

如上所述，在某些实施例中，因子γ可能只考虑到由于传播的振幅衰减。例如假设声压以1/r减少，则

P_{v} (k, n) = \frac{d_{1} (k, n)}{s (k, n)} P_{ref} (k, n) . - - - (12)

当公式(1)中的模型有效时，例如，当只有直达声音存在时，则公式(12)可以准确地重建大小信息。然而，在纯散射声场的情况下，例如，当并不满足模型假设时，当将虚拟麦克风从传感器阵列的位置移开时本方法对信号产生隐去混响(implicit dereverberation)。事实上，如上所述，在散射声场中，我们期望大部分的IPLS靠近两个传感器阵列定位。因此，当将虚拟麦克风从这些位置移开时，我们很可能增加图17中的距离s＝||s||。因此，当根据公式(11)应用加权时减少了参考压力的大小。相应地，当将虚拟麦克风移近真实声源时，对应于直达声音的时-频点将被放大，使得感觉整体音频信号散射较少。通过调整公式(12)中的规则，可以随意地控制直达声音放大和散射声音抑制。

通过对第一真实空间麦克风的所录制音频输入信号(例如，压力信号)执行传播补偿，获得了第一经修改的音频信号。

在实施例中，通过对第二真实空间麦克风的所录制第二音频输入信号(第二压力信号)执行传播补偿可获得第二经修改的音频信号。

在其它实施例中，通过对其他真实空间麦克风的所录制其他音频输入信号(其他压力信号)执行传播补偿可获得其他音频信号。

现在，更详细地解释根据一个实施例的在图19中的块502和块505中的组合。假设已修改了来自多个不同真实空间麦克风的两个或更多个音频信号以补偿不同传播路径，从而获得两个或更多个经修改的音频信号。一旦已修改了来自不同的真实空间麦克风的音频信号以补偿不同传播路径，它们就可能相组合以改善音频质量。通过这样做，例如，可以增加SNR或可以减少混响。

组合的可能方案包括：

-加权平均，例如，考虑到SNR，或与虚拟麦克风的距离，或真实空间麦克风所估计的散射。可采用传统方案，例如，最大比值组合(MRC，Maximum Ratio Combining)或等增益组合(EQC，Equal GainCombining)，或者

-用于获得组合信号的某些或所有经修改的音频信号的线性组合。在性组合中可加权线经修改的音频信号以获得组合信号，或者

-选择，例如，只使用一个信号，例如根据SNR或距离或散射。

如果适合的话，模块502的任务是计算用于在模块505中执行的组合的参数。

现在，更详细地描述根据实施例的频谱加权。对此，参考图19的块503和块506。在这个最后步骤，从输入音频信号的传播补偿或组合得到的音频信号根据如输入104所指明的虚拟空间麦克风的空间特征和/或根据(在205中给出的)经重建的几何形状而在时-频域中进行加权。

如图21所示，对每个时-频点而言，几何的重建允许我们容易地获得与虚拟麦克风相关的DOA。此外，也可容易地计算出虚拟麦克风与声音事件的位置之间的距离。

然后，考虑到期望的虚拟麦克风的类型，计算出时-频点的权重。

在定向麦克风的情况下，可根据预定拾取模式来计算频谱权重。例如，根据实施例，心形(cardioid)麦克风可具有函数g(θ)所定义的拾取模式，

g(θ)＝0.5+0.5cos(θ)，

在此，θ(theta)是在虚拟空间麦克风的面向方向与从虚拟麦克风的视点来看的声音的DOA之间的角度。

另一种可能性是艺术的(artistic)(非物理的)的衰减函数。在某些应用上，可能期望以比自由场传播特有的因子更大的因子来抑制远离虚拟麦克风的声音事件。为了这个目的，某些实施例引入取决于虚拟麦克风与声音事件之间的距离的附加的加权函数。在一个实施例中，应该仅拾取在与虚拟麦克风相距特定距离(例如，以米为单位)以内的声音事件。

关于虚拟麦克风方向性，可以针对虚拟麦克风应用任意方向性模式。在这样做时，例如可以将源与复合声音场景分离。

因为可以在虚拟麦克风的位置p_v计算声音的DOA，即

其中，c_v是描述虚拟麦克风的方向的单位向量，所以可实现虚拟麦克风的任意方向性。例如，假设P_v(k,n)表示组合信号或传播补偿的经修改的音频信号，则下面的公式：

计算具有心形方向性的虚拟麦克风的输出。能够以此方式潜在地产生的方向模式取决于位置估计的精度。

在一些实施例中，除了真实空间麦克风以外，还可将一个或更多个真实非空间麦克风(例如，全向麦克风或者诸如心形定向麦克风的定向麦克风)放置在声音场景中，以进一步改善图8中的虚拟麦克风音频信号105的声音质量。这些麦克风并非用来搜集任何几何信息，而只是提供一个更清晰的音频信号。可将这些麦克风放置成比空间麦克风更接近声源。在这种情况下，根据一个实施例，代替真实空间麦克风的音频信号，仅真实非空间麦克风的音频信号和它们的位置被提供至图19的传播补偿模块504以供处理。然后，对与一个或更多个非空间麦克风的位置相对的非空间麦克风的一个或更多个录制的音频信号进行传播补偿。由此，使用附加非空间麦克风来实现实施例。

在另一个实施例中，实现了虚拟麦克风的空间侧信息的计算。为了计算麦克风的空间侧信息106，图19的信息计算模块202包括空间侧信息计算模块507，空间侧信息计算模块适合于接收声源的位置205和虚拟麦克风的位置、方向及特征104作为输入。在某些实施例中，根据需要进行计算的侧信息106，也可考虑将虚拟麦克风的音频信号105作为输入至空间侧信息计算模块507的输入。

空间侧信息计算模块507的输出是虚拟麦克风的空间侧信息106。从虚拟麦克风的视点来看，这种侧信息可以例如是针对每个时-频点(k,n)的声音的DOA或散射。另一种可能的侧信息可以例如是可能已在虚拟麦克风的位置处被测量的有效声音强度向量Ia(k,n)。现在将描述可以如何推导出这些参数。

根据一个实施例，实现了虚拟空间麦克风的DOA估计。信息计算模块120适合于基于虚拟麦克风的位置向量并且基于如图22所例示的声音事件的位置向量来估计在虚拟麦克风处的到达方向作为空间侧信息。

图22描绘了一种从虚拟麦克风的视点推导出声音的DOA的可能方式。可以针对每个时-频点(k,n)用位置向量r(k,n)(声音事件的位置向量)来描述图19中的块205所提供的、声音事件的位置。类似地，可以用位置向量s(k,n)(虚拟麦克风的位置向量)来描述在图19中作为输入104提供的、虚拟麦克风的位置。虚拟麦克风的面向方向可通过向量v(k,n)来描述。关于虚拟麦克风的DOA通过a(k,n)给出。DOA表示在v与声音传播路径h(k,n)之间的角度。h(k,n)可以通过采用下述公式来计算：

h(k,n)＝s(k,n)–r(k,n)。

现在可例如经由h(k,n)和v(k,n)的点积(dot product)的定义针对每个(k,n)计算期望DOA a(k,n)，即

a(k,n)＝arcos(h(k,n)·v(k,n)/(||h(k,n)||||v(k,n)||)。

在另一个实施例中，信息计算模块120可适合于基于虚拟麦克风的位置向量并且基于如图22所例示的声音事件的位置向量来估计在虚拟麦克风处的有效声音强度作为空间侧信息。

根据上面定义的DOA a(k,n)，我们可推导出在虚拟麦克风的位置处的有效声音强度Ia(k,n)。对于这一点，假设图19中的虚拟麦克风音频信号105对应于全向麦克风的输出，例如，我们假设虚拟麦克风为全向麦克风。此外，假设图22中的面向方向v平行于坐标系统的x轴线。因为期望的有效声音强度向量Ia(k,n)描述了经过虚拟麦克风的位置的能量净流量，所以我们可例如根据下述公式计算出Ia(k,n)：

Ia(k,n)＝-(1/2 rho)|P_v(k,n)|²*[cos a(k,n),sin a(k,n)]^T,在此[]^T表示转置向量，rho是空气密度，而P_v(k,n)是由虚拟空间麦克风所测量的声压，例如，图19中的块506的输出105。

如果应计算在一般坐标系统(general coordinate system)中表示、但仍然在虚拟麦克风的位置处的有效强度向量，则可应用下述公式：

Ia(k,n)＝(1/2 rho)|P_v(k,n)|²h(k,n)/||h(k,n)||。

声音的散射表示如何在给定时-频隙中散射此声场is(例如，参见[2])。散射通过数值ψ来表示，其中，0≤ψ≤1。为1的散射表示声场的总声场能量被完全散射。例如在空间声音的再现中该信息是重要的。传统上，计算放置了麦克风阵列的空间中的特定点处的散射。

根据一个实施例，可计算散射，作为针对能够随意放置在声音场景中的任意位置处的虚拟麦克风(VM)产生的侧信息的附加参数。由此，还计算在虚拟麦克风的虚拟位置处的音频信号以外的散射的设备可以看作是虚拟DirAC前端，因为它可针对声音场景中的任意点产生DirAC流动，即，音频信号、到达方向以及散射。可将DirAC流进行进一步处理、储存、传输并且在任意多个扬声器装备上回放。在这种情况下，聆听者体验此声音场景，犹如他或她处于虚拟麦克风所指明的位置且正面向虚拟麦克风的方向所确定的方向。

图23例示了根据一个实施例的包括用于计算在虚拟麦克风处的散射的散射计算单元801的信息计算块。信息计算块202适合于接收输入111至11N，该输入111至11N除了包括图14的输入还包括在真实空间麦克风处的散射。使ψ^(SM1)至ψ^(SMN)表示这些数值。将这些附加的输入提供至信息计算模块202。散射计算单元801的输出103是在虚拟麦克风的位置处所计算的散射参数。

实施例的散射计算单元801在更详细地描绘的图24中例示。根据一个实施例，估计出在N个空间麦克风中的每个空间麦克风处的直达声音和散射声音的能量。然后，通过使用与IPLS的位置有关的信息和与空间麦克风和虚拟麦克风的位置相关的信息，获得了在虚拟麦克风的位置处的这些能量的N个估计。最后，估计可进行组合以改善估计精度，且可容易地计算出在虚拟麦克风处的散射参数。

使至和至表示能量分析单元810所计算的N个空间麦克风的直达声音和散射声音的能量的估计。如果P_i是复合压力信号且ψ_i是第i个空间麦克风的散射，则可例如根据下述公式计算出能量：

E_{dir}^{(SMi)} = (1 - Ψ_{i}) \cdot {| P_{i} |}^{2}

E_{diff}^{(SMi)} = Ψ_{i} \cdot {| P_{i} |}^{2}

在所有位置中，散射声音的能量应该是相等的，因此，在虚拟麦克风处的散射声音能量的估计可以仅通过例如根据下述公式例如在散射组合单元820中对至进行平均来计算：

E_{diff}^{(VM)} = \frac{1}{N} Σ_{i = 1}^{N} E_{diff}^{(SMi)}

可以通过考虑估计器的变化，例如通过考虑SNR，来实现估计至的更有效的组合。

直达声音的能量取决于由于传播而相距源的距离。因此，至可能被修正以将此纳入考虑。这可能例如通过一直达声音传播调整单元830而实现。例如，如果假设直达声场的能量随距离平方的衰减是1，则可根据下述公式计算在第i个空间麦克风的虚拟麦克风处的直达声音的估计：

E_{dir, i}^{(VM)} = {(\frac{dis \tan ce SMi - IPLS}{dis \tan ce VM - IPLS})}^{2} E_{dir}^{(SMi)}

类似于散射组合单元820，在不同的空间麦克风处所获得的直达声音能量的估计可以例如通过直达声音组合单元840来组合。结果是例如，在虚拟麦克风处的直达声音能量的估计。在虚拟麦克风处的散射ψ^(VM)可例如根据下述公式例如通过散射子计算器850来计算：

Ψ^{(VM)} = \frac{E_{diff}^{(VM)}}{W_{diff}^{(VM)} + E_{dir}^{(VM)}}

如上所述，在某些情况下，例如，在错误的到达方向估计的情况下，通过声音事件位置估计器执行的声音事件位置估计会失败。图25例示了这样的场景。在这些情况下，无论在不同空间麦克风处所估计的并且作为输入111至11N接收的散射参数如何，虚拟麦克风103的散射可设置成1(即，完全散射)，这是因为有可能没有空间相干再现(spatially coherentreproduction)。

此外，可考虑在N个空间麦克风处的DOA估计的可靠性。这可以例如根据DOA估计器或SNR的变化来表示。可通过散射子计算器850将这种信息考虑在内，使得可以在DOA估计不可靠的情况下人为地增加VM散射103。事实上，结果，位置估计205也将是不可靠的。

图2a例示了根据一个实施例的基于包括涉及一个或更多个声源的音频数据的音频数据流来产生至少一个音频输出信号的设备150。

设备150包括接收机160，该接收机用于接收包括音频数据的音频数据流。音频数据包括一个或更多个声源中的每个声源的一个或更多个压力值。此外，音频数据包括声源中的每个声源的、指示声源中的一个声源的位置的一个或更多个位置值。此外，该设备包括合成模块170，该合成模块用于基于音频数据流的音频数据的一个或更多个压力值的至少一个压力值并且基于音频数据流的音频数据的一个或更多个位置值的至少一个位置值来产生至少一个音频输出信号。针对多个时-频点中的时-频点来定义音频数据。对于声源中的每个声源，在音频数据中包括至少一个压力值，其中该至少一个压力值可以是涉及发射的声波(例如，源自声源)的压力值。压力值可以是音频信号的值，例如，用于产生虚拟麦克风的音频输出信号的设备所产生的音频输出信号的压力值，其中虚拟麦克风放置在声源的位置处。

因此，图2a例示了可用来接收或处理所述音频数据流的设备150，即，设备150可用在接收机/合成侧。音频数据流包括音频数据，该音频数据包括多个声源中的每个声源的一个或更多个压力值和一个或更多个位置值，即，与所录制的音频场景的一个或更多个声源的特定声源相关的压力值和位置值中的每一个。这意味着位置值指示声源而非录制麦克风的位置。关于压力值，这意味着音频数据流包括声源中的每个声源的一个或更多个压力值，即，压力值指示与声源相关而不是与真实空间麦克风的录制相关的音频信号。

根据一个实施例，接收机160可适合于接收包括音频数据的音频数据流，其中音频数据还包括声源中的每个声源的一个或更多个散射值。合成模块170可适合于基于一个或更多个散射值中的至少一个散射值来产生至少一个音频输出信号。

图2b例示了根据一个实施例的用于产生包括涉及一个或更多个声源的声源数据的音频数据流的设备200。用于产生音频数据流的设备200包括确定器(determiner)210，所述确定器基于至少一个空间麦克风所录制的至少一个音频输入信号并且基于至少两个空间麦克风所提供的音频侧信息来确定声源数据。此外，该设备200包括用于产生音频数据流使得音频数据流包括声源数据的数据流产生器220。声源数据包括声源中的每个声源的一个或更多个压力值。此外，声源数据还包括表示每个声源的声源位置的一个或更多个位置值。此外，针对多个时-频点中的时-频点来定义声源数据。

然后，可传输设备200所产生的音频数据流。因此，设备200可用在分析/发射机侧。音频数据流包括音频数据，音频数据包括多个声源中的每个声源的一个或更多个压力值和一个或更多个位置值，即，与所录制的音频场景的一个或更多个声源中的特定声源相关的压力值和位置值中的每一个。这意味着，关于位置值，位置值表示声源而非录制麦克风的位置。

在另一个实施例中，确定器210可适合于通过至少一个空间麦克风基于散射信息来确定声源数据。数据流产生器220可适合于产生音频数据流，使得音频数据流包括声源数据。声源数据还包括声源中的每个声源的一个或更多个散射值。

图3a例示了根据一个实施例的音频数据流。该音频数据流包括涉及在一个时-频点中是有效的两个声源的音频数据。具体地，图3a例示了针对时-频点(k,n)传输的音频数据，其中k表示频率指数，而n表示时间指数。音频数据包括第一声源的压力值P1、位置值Q1以及散射值ψ1。位置值Q1包括表示第一声源的位置的三个坐标值X1、Y1及Z1。此外，音频数据包括第二声源的压力值P2、位置值Q2以及散射值ψ2。位置值Q2包括表示第二声源的位置的三个坐标值X2、Y2及Z2。

图3b例示了根据另一个实施例的音频流。而且，音频数据包括第一声源的压力值P1、位置值Q1以及散射值ψ1。位置值Q1包括表示第一声源的位置的三个坐标值X1、Y1及Z1。此外，音频数据包括第二声源的压力值P2、位置值Q2以及散射值ψ2。位置值Q2包括表示第二声源的位置的三个坐标值X2、Y2及Z2。

图3c提供了音频数据流的另一例示。因为音频数据流提供基于几何的空间音频编码(GAC，geometry-based spatial audio coding)信息，所以该音频数据流也称为“基于几何的空间音频编码流”或“GAC流”。音频数据流包括涉及一个或更多个声源例如一个或更多个等向性点状源(IPLS，isotropic point-like source)的信息。如上面已解释的，GAC流可包括下列信号，其中k和n表示所考虑的时-频点的频率指数与时间指数：

·P(k,n)：在声源处例如在IPLS处的复合压力。该信号可能包括直达声音(源自IPLS本身的声音)和散射声音。

·Q(k,n)：声源的位置，例如IPLS的位置(例如，3D中的迪卡儿坐标)：该位置可例如包括迪卡儿坐标X(k,n)、Y(k,n)、Z(k,n)。

·在IPLS处的散射：ψ(k,n)。该参数涉及在P(k,n)中所包括的直达声音与散射声音的能量比。如果P(k,n)＝P_dir(k,n)+P_diff(k,n)，则表示散射的一种可能是ψ(k,n)＝|P_diff(k,n)|²/|P(k,n)|²。如果|P(k,n)|²是已知的，则其它等效表示是可想到的，例如，直达与散射比率(DDR，Direct to Diffuse Ratio) Γ＝|P_dir(k,n)|²/|P_diff(k,n)|²。

如已经陈述的，k和n分别表示频率指数和时间指数。如果需要的话并且如果分析允许的话，可在给定时-频隙中表示多于一个的IPLS。这种情况在图3c中描绘成M个层，使得第i层(即，第i个IPLS)的压力信号用P_i(k,n)来表示。为了方便起见，IPLS的位置可表示成向量Q_i(k,n)＝[X_i(k,n),Y_i(k,n),Z_i(k,n)]^T。不同于现有技术水平，针对一个或更多个声源例如针对IPLS来表示GAC流中的所有参数，从而实现了与录制位置无关。在图3c、图3a及图3b中，认为图中的所有量都在时-频域中；为了简化，省略了(k,n)记号，例如，P_i意思是P_i(k,n)，例如，P_i＝P_i(k,n)。

下面，更详细地解释根据实施例的用于产生音频数据流的设备。与图2b的设备一样，图4的设备包括确定器210和可类似于确定器210的数据流产生器220。当确定器分析音频输入数据以确定数据流产生器产生音频数据流所基于的声源数据时，确定器与数据流产生器可合称为“分析模块”(参见图4中的分析模块410)。

分析模块410根据N个空间麦克风的录制来计算GAC流。根据期望的层数M(例如，声源的数目，此信息应该包括在特定时-频点的音频数据流中)、空间麦克风的类型和数目N，分析的不同方法是可想到的。下面给出一些例子。

作为第一个示例，考虑每个时-频隙一个声源例如一个IPLS的参数估计。在M＝1的情况下，通过针对用于产生虚拟麦克风的音频输出信号的设备的在上面所解释的构思，其中虚拟空间麦克风可放置在声源的位置处，例如，在IPLS的位置处，能够容易地获得GAC流。这允许计算在IPLS的位置处的压力信号和相应的位置估计以及可能的散射。这三个参数一起归于一个GAC流，且在进行传输或储存之前通过图8中的模块102进行进一步操控。

例如，确定器可通过采用针对设备(用于产生虚拟麦克风的音频输出信号)的声音事件位置估计而提出的构思来确定声源的位置。再者，确定器可包括用于产生音频输出信号的设备，且可使用所确定的声源的位置作为虚拟麦克风的位置，以计算在声源的位置处的压力值(例如，要产生的音频输出信号的值)和散射。

具体地，例如在图4中的确定器210配置成确定压力信号、相应的位置估计以及相应的散射，而数据流产生器220配置成基于所计算的压力信号、位置估计以及散射来产生音频数据流。

作为另一个示例，考虑每个时-频隙2个声源例如2个IPLS的参数估计。如果分析模块410是要估计每个时-频点的两个声源，则可使用基于现有技术水平的估计器的下述构思。

图5例示了包括两个声源和两个规格一致的线形麦克风阵列的声音场景。请参考ESPRIT，参见：

[26]“R.Roy and T.Kailath.ESPRIT-estimation of signal parametersvia rotational invariance techniques.Acoustics,Speech and SignalProcessing,IEEE Transactions on,37(7):984–995,July 1989.”。

可以在每个阵列处分别采用ESPRIT([26])，以获得在每个阵列处针对每个时-频点的两个DOA估计。由于配对不明确，这导致源的位置的两种可能解。如从图5可看出，两个可能解通过(1,2)与(1’,2’)给出。为了解决这种不明确，可应用下列的解决方案。通过使用在所估计的源位置的方向上取向的波束形成器并且应用适当因子以补偿传播(例如，乘以波所经历的衰减的倒数)来估计在每个源处所发射的信号。可针对每一个可能解在每个阵列处对每个源来执行。然后可将每对源(i,j)的估计误差定义为：

E_i,j＝|P_i,1–P_i,2|+|P_j,1–P_j,2|， (1)

其中，(i,j)∈{(1,2),(1’,2’)}(参见图5)且P_i,l代表阵列r从声源i所看到的补偿信号能量。真实声源对的误差是最小的。一旦解决了配对问题并且计算了正确的DOA估计，这些与相应的压力信号和散射估计一起归于一个GAC流。可使用已针对一个声源的参数估计描述的相同方法来获得压力信号和散射估计。

图6a例示了根据一个实施例的基于音频数据流来产生至少一个音频输出信号的设备600。设备600包括接收机610和合成模块620。接收机610包括修改模块630，该修改模块通过修改与至少一个声源相关的音频数据的至少一个压力值、音频数据的至少一个位置值或音频数据的至少一个散射值来修改接收到的音频数据流的音频数据。

图6b例示了根据一个实施例的用于产生包括涉及一个或更多个声源的声源数据的音频数据流的设备660。用于产生音频数据流的设备包括确定器670、数据流产生器680，并且此外包括修改模块690，该修改模块通过修改音与至少一个声源相关的频数据的至少一个压力值、音频数据的至少一个位置值或的音频数据的至少一个散射值来修改数据流产生器所产生的音频数据流。

图6b的修改模块660用在发射机/分析侧，而图6a的修改模块610用在接收机/合成侧。

修改模块610、660所进行的对音频数据流的修改也可视为对声音场景的修改。因此，修改模块610、660也可称为声音场景操控模块。

GAC流所提供的声场表示(representation)允许对音频数据流的不同种类的修改，即，结果是声音场景的操控。在此上下文中，某些例子是：

1.扩大声音场景中的任意空间区域/体积(例如，点状声源的扩大以便对聆听者而言声源显得更大)；

2.将声音场景中所选的空间区域/体积的变换成任何其它任意空间区域/体积(经变换的空间/体积可例如包含需要移动至新地点的源)；

3.基于位置的滤波，其中，将所选的声音场景区域增强或局部地/完全地抑制。

下面，假设音频数据流(例如，GAC流)的一层包括针对特定时-频点的其中一个声源的所有音频数据。

图7描绘了根据一个实施例的修改模块。图7的修改单元包括解复用器401、操控处理器420以及复用器405。

解复用器401配置成使M层GAC流的不同层分离并形成M个单层GAC流。此外，操控处理器420包括单元402、单元403及单元404，这些单元分别应用在每个GAC流上。再者，复用器405配置成从经操控的单层GAC流形成得到的M层GAC流。

基于来自GAC流的位置数据和关于真实源(例如，讲话者)的位置的知识，能量可以与每个时-频点的某个真实源相关联。然后对压力值P进行相应地加权，以修改各个真实源(例如，讲话者)的响度。这需要先验信息或对真实声源(例如，讲话者)的位置的估计。

在某些实施例中，如果关于真实源的位置的知识是可得到的，则基于来自GAC流的位置数据，可以针对每个时-频点将能量与某个真实源相关联。

可在图6a的用于产生至少一个音频输出信号的设备600的修改模块630(即，在接收机/合成侧)和/或在图6b的用于产生音频数据流的设备660的修改模块690(即，在发射机/分析侧)发生对音频数据流例如GAC流的操控。

例如，音频数据流(即，GAC流)可在传输之前或在传输之后合成之前进行修改。

不像图6a的在接收机/合成侧的修改模块630，图6b的在发射机/分析侧的修改模块690可利用来自输入111至11N(录制的信号)和121至12N(空间麦克风的相对位置和方向)的附加信息，这是因为可在发射机侧得到该信息。通过使用该信息，可实现在图8中描绘的根据可选实施例的修改单元。

图9通过例示系统的示意性概况描绘了一个实施例，其中，在发射机/分析侧产生GAC流，在此，可选择地，可在发射机/分析侧通过修改模块102来修改GAC流，在此，可选地，可通过修改模块103在接收机/合成侧来修改GAC流，并且其中GAC流用于产生多个音频输出信号191…19L。

在发射机/分析侧，根据输入111至11N(即，利用N≥2个空间麦克风录制的信号)，并且根据输入121至12N(即，空间麦克风的相对位置和方向)在单元101中计算声场表示(例如，GAC流)。

单元101的输出是前述声场表示，该声场表示在下面表示成基于几何的空间音频编码(GAC)流。类似于在下述参考文献中的方案：

并且如针对用于产生在可配置的虚拟位置处的虚拟麦克风的音频输出信号的设备所描述的，利用声源例如等向性点状声源(IPLS)来模仿复合声音场景，声源在时-频表示中例如在短时傅立叶变换(STFT)所提供的一个时-频表示中在特定时隙是有效的。

可在可选的修改模块102(该修改模块也可称为操控单元)中将GAC流进行进一步处理。修改模块102允许有许多应用。然后可传输或储存GAC流。GAC流的参数性质是高效的。在合成/接收机侧，可采用另一个可选的修改模块(操控单元)103。得到的GAC流进入产生扬声器信号的合成单元104。假设表示与录制无关，则在再现侧的最终用户可以潜在地操控声音场景并自由地决定在声音场景内的聆听位置和方向。

在图9中的修改模块102和/或103处通过在传输之前在修改模块102中或者在传输之后在合成之前103相应地修改GAC流来进行音频数据流例如GAC流的修改/操控。不像在接收机/合成侧的修改模块103，在发射机/分析侧的修改模块102可利用来自输入111至11N(空间麦克风所提供的音频数据)和121至12N(空间麦克风的相对位置和方向)的附加信息，这是因为在发射机侧可得到该信息。图8例示了采用该信息的修改模块的可选实施例。

下面参考图7和图8描述操控GAC流的不同构思的示例。具有相同附图标记的单元具有相同功能。

体积扩大

假设场景中的特定能量位于体积V之内。体积V可表示环境的预定区域。Θ表示时-频点(k,n)的集合，对于该时-频点的集合，相应的声源例如IPLS位于体积V之内。

如果期望将体积V扩大成另一个体积V’，则这可通过每当(k,n)∈Θ(在确定单元403中进行评估)就将随机项添加至GAC流中的位置数据并且通过代入Q(k,n)＝[X(k,n),Y(k,n),Z(k,n)]^T(为了简化，减少指数层(index layer))使得图7和图8中的单元404的输出431至43M变成

Q(k,n)＝[X(k,n)+Φ_x(k,n)；Y(k,n)+Φ_y(k,n)Z(k,n)+Φ_z(k,n)]^T (2)

来实现，在此Φ_x、Φ_y与Φ_z是随机变量，其范围取决于新体积V’相对于原始体积V的几何形状。例如可采用这种构思以使在更大范围察觉声源。在该示例中，原始体积V无限小，即，对于所有(k,n)∈Θ，声源例如IPLS应位于相同点Q(k,n)＝[X(k,n),Y(k,n),Z(k,n)]^T。这种机制可能看作是一种位置参数Q(k,n)的振动(dithering)的形式。

根据一个实施例，每个声源的每一个位置值包括至少两个坐标值，且当坐标值指示声源定位在环境的预定区域内的位置处时，修改模块适合于通过将至少一个随机数添加至坐标值来修改坐标值。

体积变换

除了体积扩大以外，可修改来自GAC流的位置数据以在声场内重新安排空间区域/体积。也是在这种情况下，要操控的数据包括局部能量的空间坐标。

V还表示应重新安排的体积，而Θ表示所有时-频点(k,n)的集合，对于该时-频点的集合，能量是位于体积V之内。另外，体积V可表示环境的预定区域。

可能通过修改GAC流来实现体积重新安排，使得对所有时-频点(k,n)∈Θ而言，在单元404的输出431至43M用f(Q(k,n))代替Q(k,n)，其中，f是空间坐标(X,Y,Z)的函数，描述要执行的体积操控。函数f可表示简单的线性变换，例如旋转、平移或任何其它复合非线性的映射。该技术可用于例如通过确保Θ对应于时-频点的集合(其中声源已位于体积V之内)在声音场景之内将声源从一个位置移动至另一个位置。该技术允许对整个声音场景的各种其它复合操控，例如场景镜像变换、场景旋转、场景扩大和/或压缩等。例如，通过将合适的线性映射应用在体积V上，可实现体积扩大，即，体积缩小的互补效果。这可例如通过将对于(k,n)∈Θ的Q(k,n)映射至f(Q(k,n))∈V’来完成，其中并且V’包括显著小于V的体积。

根据一个实施例，当坐标值指示声源位于在环境的预定区域内的位置时，修改模块适合于通过将确定性函数应用在坐标值上来修改坐标值。

基于位置的滤波

基于几何形状的滤波(或基于位置的滤波)思想提供了增加或从声音场景完全地/局部地移除空间区域/体积的方法。然而，在这种情况下，相比于体积扩大和变换技术，只有来自GAC流的压力数据是通过应用适当的标量权重(scalar weights)来修改。

在基于几何形状的滤波中，在发射机侧102与接收机侧修改模块103之间可进行区别之处在于前者可使用输入111至11N和121至12N以帮助计算合适的滤波器权重，如图8所描绘的。假设目标是要抑制/增强源自所选的空间区域/体积V的能量，则基于几何形状的滤波可应用如下：对所有(k,n)∈Θ而言，将GAC流中的复合压力P(k,n)修改成在402的输出处的ηP(k,n)，其中η是例如通过单元402计算的实际加权因子。在某些实施例中，模块402还可适合于根据散射计算加权因子。

基于几何形状的滤波的构思可用在多个应用中，例如信号增强和源分离。某些应用与所需要的先验信息包括：

·去混响。通过获知房间几何形状，可使用空间滤波器来抑制可能由多路径传播引起的位于房间边缘外部的能量。本申请可对例如会议室和汽车中的免手持通讯有意义。请注意，为了抑制后期混响，在高散射的情况下关闭滤波器就够了，而为了抑制早期反射，与位置相关的滤波器是更有效的。在这种情况下，如已经提及的，需要预先知道房间的几何形状。

·背景噪音抑制。也可使用类似的构思来抑制背景噪音。如果已知可设置源的潜在区域(例如，会议室中的参会者的椅子或汽车中的座位)，则位于这些区域外部的能量与背景噪音相关联，且因此受到空间滤波器抑制。此应用需要源的近似位置的、基于GAC流中的可用数据的先验信息或估计。

·点状干扰(interferer)的抑制。如果干扰而非散射清楚地位于空间中，则可应用基于位置的滤波，以使位于干扰的位置处的能量衰减。这需要干扰的位置的先验信息或估计。

·回音控制。在这种情况下，要抑制的干扰是扬声器信号。为了这个目的，与点状干扰的情况类似，抑制正好位于扬声器位置或在扬声器位置附近的能量。这需要扬声器位置的先验信息或估计。

·增强的声音检测。在传统语音活动检测系统中(例如，在汽车中)，与基于几何形状的滤波发明相关联的信号增强技术可作为预处理步骤来实施。可使用去混响或噪音抑制作为附加项(add-ons)以改善系统性能。

·监控。只保留来自特定区域的能量并抑制其余区域的能量是在监控应用中的通用技术。这需要感兴趣的区域的几何形状和位置的先验信息。

·源分离。在具有多个同时有效的源的环境中，可将基于几何形状的空间滤波应用于源分离。放置中心处于源的位置处的适当设计的空间滤波器，引起其它同时有效的源的抑制/衰减。这种创新可用作例如SAOC中的前端。需要源位置的先验信息或估计。

·与位置相关的自动增益控制(AGC，Automatic Gain Control)。可使用与位置相关的权重，例如以均衡在电讯会议应用中的不同讲话者的响度。

下面，描述根据实施例的合成模块。根据一个实施例，合成模块可适合于基于音频数据流的音频数据的至少一个压力值并且基于音频数据流的音频数据的至少一个位置值来产生至少一个音频输出信号。至少一个压力值可能是压力信号例如音频信号的压力值。

在GAC合成背后的操作原理是出于对在下列文献中给出的空间声音的感知的假设：

[27]“WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki.Method for reproducing natural or modified spatial impression inmultichannel listening,2006.”。

更具体地，正确地感知声音场景的空间声像所需的空间线索可通过正确地再现每个时-频点的非散射声音的一个到达方向来获得。因此，将图10a中描绘的合成分为两级。

第一级考虑聆听者在声音场景内的位置和方向，并且针对每个时-频点确定M个IPLS中的哪一个IPLS是主要的。因此，可计算出其压力信号P_dir和到达方向θ。在第二压力信号P_diff中收集剩下的源和散射声音。

第二级与[27]中所描述的DirAC合成的后一半相同。非散射声音是利用产生点状源的筛选机构(panning mechanism)来再现，而散射声音根据已去相关的所有扬声器来再现。

图10a描绘了根据例示GAC流的合成的实施例的合成模块。

第一级合成单元501计算需要不同地回放的压力信号P_dir和P_dif。事实上，当P_dir包括必须在空间中清楚地回放的声音时，P_diff包括散射声音。第一级合成单元501的第三输出是从期望的聆听位置的视点来看的到达方向(DOA)θ505，即，到达方向信息。请注意，到达方向(DOA)可在2D空间的情况下表示成方位角，或在3D中通过方位角和仰角对表示。等价地，可使用指向DOA的单位法向量。DOA指明信号P_dir应来自哪个方向(相对于期望的聆听位置)。第一级合成单元501将GAC流作为输入(即，声场的参数式表示)，并基于输入141所指明的聆听者位置和方向来计算前述信号。事实上，最终用户可自由地确定在GAC流所描述的声音场景内的聆听位置和方向。

第二级合成单元502基于扬声器设置131的知识计算L个扬声器信号511至51L。请回想单元502与[27]中描述的DirAC合成的后一半相同。

图10b描绘了根据一个实施例的第一合成级单元。提供至块的输入是M个层所构成的GAC流。在第一步骤中，单元601将M个层解复用成每个一层的M个平行GAC流。

第i个GAC流包括压力信号P_i、散射ψ_i以及位置向量Q_i＝[X_i,Y_i,Z_i]^T。压力信号P_i包括一个或更多个压力值。位置向量是位置值。现在基于这些数值来产生至少一个音频输出信号。

通过应用从散射ψ_i得到的适当因子从P_i获得直达声音的压力信号P_dir,i和散射声音的压力信号P_diff,i。压力信号包括进入传播补偿块602的直达声音，传播补偿块602计算从声源位置(例如IPLS位置)至聆听者的位置的与信号传播对应的延迟。除此以外，该块还计算用于补偿不同的大小衰减所需的增益因子。在其它实施例中，只补偿不同的大小衰减，而不补偿延迟。

通过表示的补偿压力信号输入块603，该块603输出最强输入的指数i_max

i_{\max} =arg \max_{i} {| {\tilde{P}}_{dir, i} |}^{2} - - - (3)

该机制背后的主要思想是，在所研究的时-频点中有效的M个IPLS中，只有(相对于聆听者位置)最强的IPLS将会清楚地回放(即，作为直达声音)。块604和块605从它们的输入中选择i_max所限定的一个输入。块607计算第i_max个IPLS相对于聆听者的位置和方向(输入141)的到达方向。块604的输出对应于块501的输出，即，将作为直达声音由块502回放的声音信号P_dir。散射声音，即，输出504 P_diff，包括在M个支路中的所有散射声音与第i_max个直达声音以外(即)的所有直达声音信号的总和。

图10c例示了第二合成级单元502。如已经提及的，这一级与[27]中所提出的合成模块的后一半相同。非散射声音P_dir 503通过例如筛选作为点状源来再现，在块701中基于到达方向(505)来计算该非散射声音P_dir的增益。另一方面，散射声音，P_diff，穿过L个分开的去相关器(711至71L)。对L个扬声器信号中的每个扬声器信号而言，在穿过反滤波器组(703)之前增加直达和散射声音路径。

图11例示了根据一个可选实施例的合成模块。认为图中的所有量都在时-频域中；为了简化，省略(k,n)标记，例如P_i＝P_i(k,n)。为了在特别是复合声音场景(例如，多个同时有效的源)的情况下改善再现的音频质量，例如可如图11所示的实现合成模块(例如合成模块104)。图11中的合成对M个层中的每一层分开地进行全合成，而不是选择要清楚地再现的最主要的IPLS。来自第i层的L个扬声器信号是块502的输出，且是通过191i至19Li表示。在第一合成级单元501的输出处的第h个扬声器信号19h是19h₁至19h_M的总和。请注意不同于图10b的是，块607中的DOA估计步骤需要针对M个层中的每一层来执行。

图26例示了根据一个实施例的用于产生虚拟麦克风数据流的设备950。用于产生虚拟麦克风数据流的设备950包括设备960和设备970，设备960用于根据上述实施例中的一个实施例例如根据图12产生虚拟麦克风的音频输出信号，而设备970用于根据上述实施例中的一个例如根据图2b产生音频数据流，其中用于产生音频数据流的设备970所产生的音频数据流是虚拟麦克风数据流。

例如在图26中用于产生虚拟麦克风的音频输出信号的设备960包括与图12中一样的声音事件位置估计器和信息计算模块。声音事件位置估计器适合于估计表示环境中的声源的位置的声源位置，其中声音事件位置估计器适合于基于在环境中的第一真实麦克风位置处的第一真实空间麦克风所提供的第一方向信息并且基于在环境中的第二真实麦克风位置处的第二真实空间麦克风所提供的第二方向信息来估计声源位置。信息计算模块适合于基于录制的音频输入信号，基于第一真实麦克风位置以及基于计算的麦克风位置来产生音频输出信号。

布置用于产生虚拟麦克风的音频输出信号的设备960来将音频输出信号提供至用于产生音频数据流的设备970。用于产生音频数据流的设备970包括确定器，例如，关于图2b描述的确定器210。用于产生音频数据流的设备970的确定器基于用于产生虚拟麦克风的音频输出信号的设备960所提供的音频输出信号来确定声源数据。

图27例示了根据上述实施例中的一个实施例(例如，权利要求1的设备)的用于基于音频数据流产生至少一个音频输出信号的设备980，该设备980配置成基于如用于产生虚拟麦克风数据流的设备950(例如图26中的设备950)所提供的音频数据流的虚拟麦克风数据流来产生音频输出信号。

用于产生虚拟麦克风数据流的设备980将所产生的虚拟麦克风信号提供至用于基于音频数据流产生至少一个音频输出信号的设备980中。应注意，虚拟麦克风数据流是音频数据流。用于基于音频数据流产生至少一个音频输出信号的设备980基于如例如关于图2a的设备所描述的音频数据流一样的虚拟麦克风数据流来产生音频输出信号。

在一个实施例中，该设备包括用于获得多个单层音频数据流的解复用器180，其中解复用器180适合于接收一个或更多个输入音频数据流，其中每个输入音频数据流包括一层或更多层，其中解复用器180适合于将具有一层或更多层的每个输入音频数据流解复用成具有正好一层的两个或更多个经解复用的音频数据流，使得一个或更多个经解复用的音频数据流合在一起包括一层或更多层的输入音频数据流，以获得两个或更多个单层音频数据流。

在另一个实施例中，该设备包括用于获得多个单层音频数据流的解复用器180，其中解复用器180适合于接收两个或更多个的输入音频数据流，其中每个输入音频数据流包括一层或更多层，其中解复用器180适合于将具有两个或更多个层的输入音频数据流中的每个输入音频数据流解复用成具有正好一层的两个或更多个经解复用的音频数据流，使得两个或更多个经解复用的音频数据流合在一起包括两层或更多个层的输入音频数据流，以获得两个或更多个单层音频数据流。

此外，此设备包括合并模块190，该合并模块190用于基于多个单层音频数据流产生具有一层或更多层的合并的音频数据流。输入数据音频流的、经解复用的音频数据流的、单层数据流的以及、合并的音频数据流的每个层包括压力信号的压力值、位置值以及散射值作为音频数据，该音频数据针对多个时-频点中的一个时-频点来定义。

在一个实施例中，该设备可适合于将具有正好一层的一个或更多个接收的输入音频数据流直接提供至合并模块中，而无须将它们提供至解复用器中，参见虚线195。

在某些实施例中，解复用器180适合于修改经解复用的音频数据流的压力值，以均衡经解复用的音频数据流所表示的不同的声音场景的音量(例如响度)。例如，如果两个音频数据流源自于两个不同的录制环境，并且第一个特征为低音量(例如，由于远离麦克风的源，或仅仅由于具有较差的灵敏度或具有低增益的前置放大器的麦克风)，则可能通过将第一音频数据流的压力值乘以标量来增加第一音频数据流的音量。类似地，可能以一种类似方式来降低第二音频数据流的音量。

图28描绘了根据另一个实施例的用于产生合并的音频数据流的设备的输入和输出。数量为M的音频数据流(例如M个GAC流)以及可选的、要添加的人工声源的压力信号p(t)和位置q(t)输入进图28的设备中。在另一个实施例中，两个或更多个人工声源(合成声源)输入进设备中。在输出处，返回音频输出流，例如表示经修改的声音场景的GAC流。

类似地，可以从单声道声源直接产生音频输出流(例如，GAC流)(即，无需合并)。

输入至设备的第一种输入1111、1112、....、111M是音频数据流，例如M个GAC流，其中，第i个流包括L_i层，i∈{1，２...，M}。第i个音频数据流的每个层包括复合压力信号P_i的一个或更多个压力值，源的位置Q_i＝[X_i,Y_i,Z_i]^T，以及在时-频域中的散射ψ_i。如果使用二维表示，则源的位置可定义为Q_i＝[X_i,Y_i]^T。应注意到，所有量取决于时间和频率指数(k,n)。然而，在这些公式中，对时间和频率的相关性并未明确提及，以使公式更易读并且更简单。

输入1120是与要插入声音场景的人工声源的压力与位置有关的在时域中表示的可选信息。图28的设备的输出1140是音频数据流，例如，具有L_O层的GAC流。

图29例示了根据另一个实施例的用于产生合并的音频数据流的设备。在图29中，图1的解复用器包括多个解复用单元。图29的设备包括多个解复用单元(DEMUX)1201、人工源产生器(实现人工源的音频流(例如GAC流)产生)1202以及合并模块1203。

关于其中一个解复用单元1201，解复用单元针对包括L_i个层的第i个GAC流111i输出L_i个分离的单层GAC流。人工源产生器1202产生人工声源的单层GAC流。

执行合并的合并模块1203接收N个单层GAC流，其中N是：

N= Σ_{i = 1}^{M} L_{i} + 1 . - - - (1)

图30描绘了根据一个实施例的合并模块1203。N个单层音频数据流(例如N个单层GAC流)1211至121N进行合并，结果是具有与声音场景的组合对应的L_O个层的音频数据流(例如一个GAC流1140)，其中L_O≤N。

合并特别基于以下构思：对每个时-频点而言，存在N个有效IPLS，每个IPLS通过N个GAC流中的一个来描述。考虑到例如能量和散射，标识出L_O个最突出的源。最前的L_O–1个源简单地重新分配给合并的音频数据流例如输出GAC流的最前的L_O–1个层，而将所有其余源加至最后一层，即，第L_O层。

图30的设备包括成本函数模块1401。成本函数模块1401分析N个压力信号和N个散射参数。成本函数模块1401配置成针对每个时-频点来确定最突出的声源。例如，第i个流的成本函数f_i，其中i∈[1，N]，例如可定义为：

f_i(Ψ_i，P_i)＝(1-Ψ_i)·|P_i|² (2)

使得高能量并且低散射的声源(例如IPLS)引起成本函数的高值。成本函数f_i计算成本值。

成本函数模块1401的输出是尺寸L_O×1的向量r，该向量包括具有最高f_i的IPLS的指数。此外，从最突出的IPLS到最小的IPLS对指数进行排序。将该信息传送至位置混合单元1403、压力合并单元1404以及散射合并单元1405，在这些单元，针对每个时-频点相应地计算得到的GAC流的参数。下面详细描述如何计算这些参数的实施例。

图30的设备还包括声音场景适配模块1402。声音场景适配模块1402允许对合并步骤的附加控制，声音场景适配模块1402在实际合并之前对GAC位置信息进行操控。以该方式，可实现几种合并方案，例如使分离场景中的事件的完全重迭的合并，并列放置声音场景的合并，对重迭量的某些限制的合并等。

图31a、图31b以及图31c描绘了可能的声音现场场景。图31a示出了两个声音场景，每个场景有一个讲话者。向量表示局部坐标系统。在合并之后，无需声音场景适配模块1402所执行的任何修改，将实现在图31a的底部所描绘的声音场景。这可能并不是所期望的。通过操纵一个或更多个声音场景的坐标系统，可随意构成合并的声音场景。在图31b中，例如，引入旋转，使得在合并的声音场景中使讲话者分开。还可能对位置Q₁至Q_N应用平移(如图31c所示)或非线性变换。

位置混合单元1403、压力合并单元1404以及散射合并单元1405适合于接收N个参数流作为输入，并且适合于计算得到的L_O个GAC流的参数。

能够按下列方式来获得每个参数：

a.位置混合单元1403适合于确定输出GAC流的得到的位置。在输出流Q_i’中的第i个源的位置对应于成本函数模块1401所提供的向量r所表示的第i个最突出的非散射输入源的位置。

Q_{i}^{'} = Q_{r_{i}}, for i = 1,2, . . ., L_{O} - - - (3)

其中，r_i表示r的第i个元素。

通过确定向量r所表示的第L_O个最突出的非散射输入源，位置混合单元1403确定包括一个或更多个单层音频数据流的群，其中，群的每一个单层音频数据流的成本值可大于未包括在群中的任何单层音频数据流的成本值。位置混合单元1403适合于选择/产生一层或更多层的合并的音频数据流的一个或更多个位置值，使得群的每一个单层音频数据流的每个位置值是合并的音频数据流的其中一层的位置值。

b.通过压力合并单元1404来计算每个流的得到的压力。最后的(第L_O个)GAC流以外的所有GAC流的压力信号等于根据输入向量r的相应压力信号。给定第L_O个GAC流的压力为N-L_O+1个其余压力信号中的每一个的压力的线性组合，例如，

\begin{matrix} P_{i}^{'} = P_{r_{i}}, for i = 1,2, . . ., L_{0} - 1 \\ P_{L_{0}}^{'} = P_{r_{L_{0}}} + \underset{i &NotElement; r}{Σ} P_{i} . \end{matrix} - - - (4)

通过确定如向量r所表示的第L_O-1个最突出的非散射输入源，压力合并单元适合于确定第一群并且适合于确定第二群(向量r中的剩余输入源)，第一群包括多个单层音频数据流的一个或更多个单层音频数据流，第二群包括多个单层音频数据流的一个或更多个不同的单层音频数据流，其中第一群的每个单层音频数据流的成本值大于第二群的每个单层音频数据流的成本值。压力合并单元适合于产生一层或更多层的合并的音频数据流的一个或更多个压力值，使得第一群的每个单层音频数据流的每个压力值是合并音频数据流的其中一层的压力值，并使得第二群的单层音频数据流的压力值的组合是合并的音频数据流的其中一层的压力值。

c.通过散射合并单元1405来计算得到的GAC流的散射。类似于其它参数，将散射从输入流复制到最后的第L_O个GAC流之外的所有GAC流

对于i＝1，2，...，L_O-1.

因为能分配仅一个位置所以例如可考虑压力信号包括来自将不能清楚地呈现的多个IPLS的直达声音来计算第L_O个散射参数。因此，对应于直达声音的中的能量的量只是

(1 - Ψ_{r_{L_{O}}}) \cdot {| P_{r_{L_{O}}} |}^{2}

因此，可通过下述方程式获得散射

Ψ_{L_{O}}^{'} = \frac{{| P_{L_{O}}^{'} |}^{2} - (1 - Ψ_{r_{L_{O}}}) \cdot {| P_{r_{L_{O}}} |}^{2}}{{| P_{L_{O}}^{'} |}^{2}} - - - (5)

通过确定如向量r所指示的第L_O-1个最突出的非散射输入源，散射合并单元适合于确定第一群和确定第二群(向量r中的剩余输入源)，第一群包括多个单层音频数据流的一个或更多个单层音频数据流，第二群包括多个单层音频数据流的一个或更多个不同的单层音频数据流，其中第一群的每个单层音频数据流的成本值大于第二群的每个单层音频数据流的成本值。散射合并单元适合于产生一层或更多层的合并的音频数据流的一个或更多个压力值，使得第一群的每个单层音频数据流的每个散射值是合并的音频数据流的其中一层的散射值，并且使得第二群的单层音频数据流的散射值的组合是合并的音频数据流的其中一层的散射值。

最后，在块1406中将得到的L_O个单层GAC流复用，以形成L_O层的最后的GAC流(输出1140)。

以下，参考图32a和图32b更详细描述根据实施例的人工源产生器。

人工源产生器是可选模块，并使用应插入声音场景的在人工声源的时域中表示的位置和压力信号作为输入1120。接着，人工源产生器返回人工源的GAC流作为输出121N。

将实时源的位置的信息提供至第一处理块1301。如果声源是不移动的，则块1301简单地将位置复制至输出21N中的所有时-频点Q(k,n)。对于移动源而言，将q(t)中的信息复制至对应于适当的时间块n的所有频率点k。然后，块1301的输出作为GAC流直接传送至块1203。添加的源1120的压力信号p(t)可：

a.直接转换成GAC流的压力信号P(k,n)(参见图32a)；

b.首先混响，然后转换成GAC流的压力信号P(k,n)(参见图32b)。

根据图32a中例示的实施例a)，使用块1302中的分析滤波器组将信号变换进频域，然后将该信号作为对应于插入的源的GAC流的参数传送。如果压力信号p(t)不是尝试(dry)的，则该信号可通过检测噪音和/或环境的可选块1303。然后将关于噪音和环境的信息传送至计算散射估计的块1304。为了这些目的，块1303可实施现有技术水平的算法，例如在以下文献中描述的算法：

[30]“C.Uhle and C.Paul:A supervised learning approach toambience extraction from mono recordings for blind upmixing in Proc.ofthe 11th Int.Conference on Digital Audio Effects(DAFx-08),Espoo,Finland,September 1-4,2008.”。

然后，将关于噪音和环境的信息传送至计算散射估计的块1304。这对于避免在合成时清楚地再现在p(t)中所包括的环境和噪音是特别有用的。因此，刚才所描述的机构确保了为信号的直达部分分配低散射值，而信号的嘈杂和环境部分是与高散射相关联。代替块1303和1304的信号路径方式，可将输入121N中的散射参数简单地设置为固定值。

在某些相反情况中，涵盖了图32b中所例示的实施例b)。假设p(t)是尝试信号(try signal)，则可期望增加混响以使p(t)声音更自然，即，使合成声源听起来犹如其是在房间中录制。这是通过块1305来实现。混响的信号和原始的信号两者经历通过分析滤波器组1302进行的变换，然后传送至能量比分析块1306。块1306例如通过计算直达与混响比率(DRR，Direct to Reverberation Ratio)来计算关于在某个时-频点中存在多少混响和多少直达声音的信息。该信息然后传送至计算散射的块1304。

对高DRR而言，散射参数设置成低值，而当混响突出(例如，在后期混响的尾部中)时，散射设置成高值。

以下，描述某些特殊情况。

1.如果M个单层GAC流需要合并成L_O＝1 GAC流，则可采用简化实施例。得到的GAC流特征将是：

–压力：压力将是所有M个压力信号的总和

–位置：位置将是最强声源例如最强IPLS的位置

–散射：散射将根据公式(5)来计算。

2.如果在输出处的层数等于在输入处的总层数，即，L_O＝N，则输出流可视为串联输入流。

虽然已在设备的语境中描述某些方面，但显然这些方面也表示相应方法的描述，其中块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的语境中描述的某些方面也表示相应装置的相应单元或项或特征的描述。

发明的分解信号可储存在数字储存介质上，或可在传输介质例如无线传输媒介或有线传输媒介例如因特网上传输。

根据特定的实施需要，本发明的实施例可在硬件或软件中实施。可使用具有储存在其上的电可读的控制信号的数字储存介质例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实施，数字储存介质与可编程计算机系统合作(或能够与可编程计算机系统合作)，以执行各种方法。

根据本发明的某些实施例包括具有电可读控制信号的非暂时性数据载体，该载体能够与可编程计算机系统合作，以执行本文中所描述的方法中的其中一种方法。

一般而言，本发明的实施例可实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码运行以执行其中一种方法。程序代码例如可储存在机器可读的载体上。

其它实施例包括储存在机器可读的载体上、用于执行在本文中所描述的其中一种方法的计算机程序。

换言的，本发明方法的实施例因此是一种具有程序代码的计算机程序，用于当该计算机程序在计算机上运行时，执行在本文中所描述的其中一种方法。

因此，本发明方法的另一个实施例是数据载体(或数字储存介质或计算机可读介质)，该数据载体包括记录于其上的用于执行在本文中所描述的其中一种方法的计算机程序。

因此，本发明方法的又一个实施例是表示用于执行本文所描述的其中一种方法的计算机程序的数据流或信号的序列。数据流或信号的序列可例如配置成经由数据通讯连接(例如经由因特网)来传输。

另一个实施例包括配置成适合于执行本文所描述的其中一种方法的处理装置，例如计算机或可编程逻辑组件。

又一个实施例包括上面安装有用于执行本文所描述的其中一种方法的计算机程序的计算机。

在某些实施例中，可使用可编程逻辑组件，例如现场可编程门阵列，以执行本文所描述的方法的某些或所有功能。在某些实施例中，现场可编程门阵列可微处理器合作，以执行本文所描述的其中一种方法。通常，这些方法最好是通过任何硬设备来执行。

上述实施例仅例示了本发明的原理。应理解的是，本文所描述的布置和细节的修改和变化对本领域的其他技术人员将是明显的。因此，本发明意在仅受限于在前的专利权利要求的范围，而不受限于借助于本文的实施例的描述和解释而给出的具体细节。

文献：

[1]Michael A.Gerzon.Ambisonics in multichannel broadcasting andvideo.J.Audio Eng.Soc,33(11):859–871,1985.

[2]V.Pulkki,"Directional audio coding in spatial sound reproductionand stereo upmixing,"in Proceedings of the AES 28th InternationalConference,pp.251-258,Sweden,June 30-July 2,2006.

[3]V.Pulkki,"Spatial sound reproduction with directional audiocoding,"J.Audio Eng.Soc.,vol.55,no.6,pp.503-516,June 2007.

[4]C.Faller:“Microphone Front-Ends for Spatial Audio Coders”,inProceedings of the AES 125th International Convention,San Francisco,Oct.2008.

[5]M.Kallinger,H.Ochsenfeld,G.Del Galdo,F.Küch,D.Mahne,R.Schultz-Amling.and O.Thiergart,"A spatial filtering approach fordirectional audio coding,"in Audio Engineering Society Convention 126,Munich,Germany,May 2009.

[6]R.Schultz-Amling,F.Küch,O.Thiergart,and M.Kallinger,"Acoustical zooming based on a parametric sound field representation,"in Audio Engineering Society Convention 128,London UK,May 2010.

[7]J.Herre,C.Falch,D.Mahne,G.Del Galdo,M.Kallinger,and O.Thiergart,"Interactive teleconferencing combining spatial audio objectcoding and DirAC technology,"in Audio Engineering Society Convention128,London UK,May 2010.

[8]E.G.Williams,Fourier Acoustics:Sound Radiation and NearfieldAcoustical Holography,Academic Press,1999.

[9]A.Kuntz and R.Rabenstein,"Limitations in the extrapolation ofwave fields from circular measurements,"in 15th European SignalProcessing Conference(EUSIPCO 2007),2007.

[10]A.Walther and C.Faller,"Linear simulation of spacedmicrophone arrays using b-format recordings,"in Audio EngiineeringSociety Convention 128,London UK,May 2010.

[11]US61/287,596:An Apparatus and a Method for Converting a FirstParametric Spatial Audio Signal into a Second Parametric Spatial AudioSignal.

[12]S.Rickard and Z.Yilmaz,"On the approximate W-disjointorthogonality of speech,"in Acoustics,Speech and Signal Processing,2002.ICASSP 2002.IEEE International Conference on,April 2002,vol.1.

[13]R.Roy,A.Paulraj,and T.Kailath,"Direction-of-arrivalestimation by subspace rotation methods–ESPRIT,"in IEEEInternational Conference on Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,April 1986.

[14]R.Schmidt,“Multiple emitter location and signal parameterestimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3,pp.276-280,1986.

[15]J.Michael Steele,"Optimal Triangulation of Random Samples inthe Plane",The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.

[16]F.J.Fahy,Sound Intensity,Essex:Elsevier Science Publishers Ltd.,1989.

[17]R.Schultz-Amling,F.Küch,M.Kallinger,G.Del Galdo,T.Ahonenand V.Pulkki,"Planar microphone array processing for the analysis andreproduction of spatial audio using directional audio coding,"in AudioEngineering Society Convention 124,Amsterdam,The Netherlands,May2008.

[18]M.Kallinger,F.Küch,R.Schultz-Amling,G.Del Galdo,T.Ahonenand V.Pulkki,"Enhanced direction estimation using microphone arraysfor directional audio coding；”in Hands-Free Speech Communication andMicrophone Arrays,2008.HSCMA 2008,May 2008,pp.45-48.

[19]R.K.Furness,“Ambisonics-An overview,”in AES 8thInternational Conference,April 1990,pp.181-189.

[20]Giovanni Del Galdo,Oliver Thiergart,TobiasWeller,and E.A.P.Habets.Generating virtual microphone signals using geometricalinformation gathered by distributed arrays.In Third Joint Workshop onHands-free Speech Communication and Microphone Arrays(HSCMA’11),Edinburgh,United Kingdom,May 2011.

[21]Jürgen Herre,Cornelia Falch,Dirk Mahne,Giovanni Del Galdo,Markus Kallinger,and Oliver Thiergart.Interactive teleconferencingcombining spatial audio object coding and DirAC technology.In AudioEngineering Society Convention 128,52010.

[22]G.Del Galdo,F.Kuech,M.Kallinger,and R.Schultz-Amling.Efficient merging of multiple audio streams for spatial soundreproduction in directional audio coding.In International Conference onAcoustics,Speech,and Signal Processing(ICASSP 2009),2009.

[23]US 20110216908:Apparatus for Merging Spatial Audio Streams.

[24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-renderingstructured auditory scenes from field recordings.In AES 30thInternational Conference on Intelligent Audio Environments,2007.

[25]Jeroen Breebaart,JonasCornelia Falch,OliverHellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroesn Koppens,WernerOomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatialaudio object coding(saoc)-the upcoming mpeg standard on parametricobject based audio coding.In Audio Engineering Society Convention 124,52008.

[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters viarotational invariance techniques.Acoustics,Speech and Signal Processing,IEEE Transactions on,37(7):984–995,July 1989.

[27]Tapio Lokki,Juha Merimaa,and Ville Pulkki.Method forreproducing natural or modified spatial impression in multichannellistening,2006.

[28]Svein Merge.Device and method for converting spatial audio signal.US patent application,Appl.No.10/547,151.

[29]Ville Pulkki.Spatial sound reproduction with directional audiocoding.J.Audio Eng.Soc,55(6):503–516,June 2007.

[30]C.Uhle and C.Paul:A supervised learning approach to ambienceextraction from mono recordings for blind upmixing in Proc.of the 11thInt.Conference on Digital Audio Effects(DAFx-08),Espoo,Finland,September 1-4,2008.

Claims

1.一种用于产生合并的音频数据流的设备，包括：

解复用器(180)，所述解复用器用于获得多个单层音频数据流，其中所述解复用器(180)适合于接收一个或更多个输入音频数据流，其中每个所述输入音频数据流包括一层或更多层，其中所述解复用器(180)适合于将具有一层或更多层的每个所述输入音频数据流解复用成具有正好一层的两个或更多个经解复用的音频数据流，使得所述两个或更多个经解复用的音频数据流合在一起包括所述输入音频数据流的一层或更多层，以获得两个或更多个所述单层音频数据流；以及

合并模块(190)，所述合并模块用于基于多个所述单层音频数据流来产生具有一层或更多层的所述合并的音频数据流，

其中，所述输入数据音频流的、所述经解复用的音频数据流的、所述单层数据流的、以及所述合并的音频数据流的每个层包括压力信号的压力值、位置值以及散射值作为音频数据。

2.根据权利要求1所述的设备，其中，所述解复用器(180)适合于接收两个或更多个所述输入音频数据流，并且其中所述解复用器(180)适合于将具有两个或更多个层的每个所述输入音频数据流解复用成具有正好一层的两个或更多个经解复用的音频数据流，使得所述两个或更多个经解复用的音频数据流合在一起包括所述输入音频数据流的两个或更多个层，以获得所述两个或更多个所述单层音频数据流。

3.根据权利要求1或2所述的设备，其中，针对多个时-频点中的一个时-频点来限定所述音频数据。

4.根据权利要求1至3中的一项所述的设备，

其中，所述合并模块(190)包括成本函数模块(1401)，所述成本函数模块用于将成本值分配给每个所述单层音频数据流，以及

其中，所述合并模块(190)适合于基于分配给所述单层音频数据流的成本值来产生所述合并的音频数据流。

5.根据权利要求4所述的设备，其中，所述成本函数模块(1401)适合于根据所述单层音频数据流的压力值或散射值中的至少一个来将所述成本值分配给每个所述单层音频数据流。

6.根据权利要求5所述的设备，其中，所述成本函数模块(1401)适合于通过应用下述公式来将所述成本值分配给单层音频数据流的群的每个音频数据流：

f_i(Ψ_i，P_i)＝(1-Ψ_i)·|P_i|²

其中，P_i是压力值，而ψ_i是单层音频数据流的群的第i个音频数据流的层的散射值。

7.根据权利要求4至6中的一项所述的设备，

其中，所述合并模块(190)还包括压力合并单元(1404)，

其中，所述压力合并单元(1404)适合于确定包括多个所述单层音频数据流的一个或更多个单层音频数据流的第一群并且适合于确定包括不同的多个所述单层音频数据流的一个或更多个单层音频数据流的第二群，

其中，所述第一群的每个所述单层音频数据流的成本值大于所述第二群的每个所述单层音频数据流的成本值，或者其中，所述第一群的每个所述单层音频数据流的成本值小于所述第二群的每个所述单层音频数据流的成本值，

其中，所述压力合并单元(1404)适合于产生所述合并的音频数据流的一层或更多层的一个或更多个压力值，使得所述第一群的每个所述单层音频数据流的每个压力值是所述合并的音频数据流的层中的其中一层的压力值，并且使得所述第二群的所述单层音频数据流的压力值的组合是所述合并的音频数据流的层中的其中一层的压力值。

8.根据权利要求4至7中的一项所述的设备，

其中，所述合并模块(190)还包括散射合并单元(1405)，

其中，所述散射合并单元(1405)适合于确定包括多个所述单层音频数据流的一个或更多个单层音频数据流的第三群并且适合于确定包括不同的多个所述单层音频数据流的一个或更多个单层音频数据流的第四群，

其中，所述第三群的每个所述单层音频数据流的成本值大于所述第四群的每个所述单层音频数据流的成本值，或者其中，所述第三群的每个所述单层音频数据流的成本值小于所述第四群的每个所述单层音频数据流的成本值，

其中，所述散射合并单元(1405)适合于产生所述合并的音频数据流的一层或更多层的一个或更多个散射值，使得所述第三群的每个所述单层音频数据流的每个散射值是所述合并的音频数据流的层中的其中一层的散射值，并且使得所述第四群的所述单层音频数据流的散射值的组合是所述合并的音频数据流的层中的其中一层的散射值。

9.根据权利要求3至8任意一项所述的设备，

其中，所述合并模块(190)还包括位置混合单元，

其中，所述位置混合单元(1403)适合于确定包括多个所述单层音频数据流的一个或更多个单层音频数据流的第五群，

其中，所述第五群的每个所述单层音频数据流的成本值大于未包括在所述多个所述单层音频数据流的第五群中的任何单层音频数据流的成本值，或者其中，所述第五群的每个所述单层音频数据流的成本值小于未包括在所述多个单层音频数据流的第五群中的任何单层音频数据流的成本值，

其中，所述位置值单元适合于产生所述合并的音频数据流的一层或更多层的一个或更多个位置值，使得所述第五群的每个所述单层音频数据流的每个位置值是所述合并的音频数据流的层中的其中一层的位置值。

10.根据权利要求3至9中的一项所述的设备，其中，所述合并模块(190)还包括声音场景适配模块(1402)，所述声音场景适配模块用于操控多个单层音频数据流的一个或更多个单层音频数据流的位置值。

11.根据权利要求10项所述的设备，其中，所述声音场景适配模块(1402)适合于通过对所述位置值应用旋转、平移或非线性变换来操控多个单层音频数据流的一个或更多个单层音频数据流的位置值。

12.根据上述权利要求中任意一项所述的设备，其中，所述解复用器(180)适合于通过将所述经解复用的音频数据流的其中一个的压力值中的其中一个的大小乘以标量值，来修改所述大小。

13.根据上述权利要求中任意一项所述的设备，其中，所述解复用器(180)包括多个解复用单元(1201)，其中，每个所述解复用单元(1201)配置成对一个或更多个输入音频数据流进行解复用。

14.根据上述权利要求中任意一项所述的设备，

其中，所述设备还包括人工源产生器(1202)，所述人工源产生器用于产生包括正好一层的人工数据流，

其中，所述人工源产生器(1202)适合于接收在时域中表示的压力信息，并且适合于接收位置信息，

其中，所述人工源产生器(1202)适合于复制所述压力信息以针对多个时-频点产生位置信息，以及

其中，所述人工源产生器(1202)还适合于基于所述压力信息来计算散射信息。

15.根据权利要求14所述的设备，其中，所述人工源产生器(1202)适合于将在时域中表示的所述压力信息变换至时-频域。

16.根据权利要求14所述的设备，其中，所述人工源产生器(1202)适合于将混响增加至所述压力信息。

17.一种用于产生合并的音频数据流的方法，包括：

获得多个单层音频数据流，其中解复用器适合于接收一个或更多个输入音频数据流，其中每个输入音频数据流包括一层或更多层，其中所述解复用器适合于将具有一层或更多层的每个所述输入音频数据流解复用成具有正好一层的两个或更多个的经解复用的音频数据流，使得所述两个或更多个经解复用的音频数据流合在一起包括所述输入音频数据流的一层或更多层，以获得两个或更多个所述单层音频数据流；以及

基于多个所述单层音频数据流来产生具有一层或更多层的所述合并的音频数据流，

其中，所述输入数据音频流的、所述经解复用的音频数据流的、所述单层数据流的、以及所述合并的音频数据流的每个层包括压力信号的压力值、位置值以及散射值作为音频数据，针对多个时-频点中的一个时-频点来限定所述音频数据。

18.一种计算机程序，所述计算机程序在计算机或信号处理器上执行时实施权利要求17所述的方法。