CN104094613B

CN104094613B - 用于依据空间功率密度定位麦克风的装置和方法

Info

Publication number: CN104094613B
Application number: CN201280067394.1A
Authority: CN
Inventors: 乔瓦尼·戴尔·加尔多; 奥利弗·蒂尔加特; 费边·库赫; 伊曼纽尔·哈伯特; 亚历山德拉·克拉琼
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2011-12-02
Filing date: 2012-11-29
Publication date: 2017-06-09
Anticipated expiration: 2032-11-29
Also published as: AR089052A1; AU2012343907A1; RU2014126819A; US20130142342A1; CA2857611C; MX338524B; PL2786593T3; MX2014006499A; ES2573802T3; MY167624A; BR112014013335A2; IN2014KN01144A; EP2786593B1; EP2600637A1; CA2857611A1; CN104094613A; KR20140099536A; JP2015502716A; TW201330648A; AU2012343907B2

Abstract

提供一种定位麦克风的装置。此装置包含空间功率分布确定器(10)和空间信息估计器(20)。空间功率分布确定器(10)适合于依据声源信息(表示位于环境中的一个或多个声源的一个或多个功率值和一个或多个位置值)来确定空间功率密度(表示环境中的多个场地的功率值)。空间信息估计器(20)适合于依据空间功率密度来估计声学空间信息。

Description

用于依据空间功率密度定位麦克风的装置和方法

技术领域

本发明是有关于音频信号处理，且特别是有关于一种自动定位麦克风的装置和方法。

背景技术

音频信号处理变得越来越重要。特别是，空闻声音录制被应用于多种应用中。空间声音录制着眼于利用多重麦克风的帮助来撷取声场，以便在重现侧使聆听者察觉到如在录音场地(location)一样的声音影像。

空间声音录制的标准方法通常涉及到隔阔的全向麦克风(例如实AB立体音响)，一致指向性麦克风(例如，在强度立体音响中),或例如在高保真立体声响复制(Ambisonics)中的更多先进麦克风(例如B-J格式麦克风)，例如，请参考文献:

[1]Michael A.Gerzon.多声道广播和视频中的高保真立体声响复制(Ambisonicsin multichannel broadcasting and video)。J.音频工程学会，33(11):859-871,1985年。

一种空间麦克风(譬如指向性麦克风、麦克风阵列等)能够录制空间声。专业术语“空间麦克风”表示定向地选择性获得空间声的任何装置(例如指向性麦克风、麦克风阵列等)。

对声音重现而言，现有的非参数方法直接从录制的麦克风信号推导出期望的音频回放信号。这些方法的一项主要缺点是录制的空间影像总是相对于在所使用的空间麦克风。

在多数应用中，将空间麦克风置放在期望位置(举例而言，其可以是靠近一个或多个声源的位置)中是不可能或不可行的。在此情况下，将多重空间麦克风置放在更进一步远离有源声源且仍然能够依期望撷取声音场景将是更有利的。

某些应用采用两个以上的真实空间麦克风。应注意到专业术语“真实空间麦克风”表示实体上存在的期望的麦克风型式或麦克风组合(例如指向性麦克风，如使用于共同立体声麦克风中的一对指向性麦克风，但亦是麦克风阵列)。

对每个真实空间麦克风而言，到达方向(DOA)可在时频域中被估计。通过使用自真实空间麦克风所搜集的信息、与它们的相对位置的知识一起，其可以计算出实际上被置于环境中的任意位置(随意)的空间麦克风的输出信号。在下文中，这种空间麦克风被称为“虚拟空间麦克风”。

在这种应用中，需要手动输入一个或多个虚拟麦克风的位置和取向。然而，如果一个或多个虚拟麦克风的最佳位置和/或取向将被自动确定的话，则那是可赞赏的。

如果装置和方法将是可用的以确定何处放置虚拟麦克风、何处放置物理麦克风或确定最佳聆听位置，则这将是有利的。此外，如何将麦克风置放在最佳取向中将是有利的。专业术语“定位麦克风”和“定位信息”涉及如何确定麦克风或聆听者的适当位置以及如何确定麦克风或聆听者的适当取向。

发明内容

本发明的目的用以提供关于麦克风定位的改善构思。本发明的目的通过依据权利要求1所述的装置，通过依据权利要求10所述的方法以及通过依据权利要求11所述的计算机程序来实现。

提供一种用于确定最佳麦克风或聆听位置的装置。此装置包括空间功率密度确定器和空间信息估计器。空间功率密度确定器适合于依据声源信息(表示位于环境中的一个或多个声源的一个或多个功率值和一个或多个位置值)来确定空间功率密度(表示环境的多个场地的功率值)。空间信息估计器适合于依据空间功率密度来估计声学空间信息(acoustic spatial information)。

以下，专业术语“虚拟麦克风”一般将表示任何型式的麦克风。更特别是，专业术语“虚拟麦克风”涉及用以确定定位信息的虚拟空间或非空间麦克风两者，以及涉及用以确定定位信息的实体上存在的空间或非空间麦克风。

空间信息估计器适合于依据由空间功率密度确定器所确定的空间功率密度来确定环境中的最佳虚拟麦克风位置或最佳虚拟麦克风取向。空间功率密度依据声源的功率值和对应的位置信息而由空间功率密度确定器所确定。

提供一种确定用以描述声音场景的一个或多个麦克风(譬如一个或多个虚拟麦克风)的最佳位置和/或取向的自动方式。

在某些实施例中，空间功率密度确定器可以适合于利用由有效度量标准(signficance metric)所提供的可选信息，有效度量标准譬如表示关于ESS位置的估计的可靠度的度量。

例如，在某些实施例中，声音的扩散Psi可被用作有效度量标准。那么在计算空间功率密度的同时项(1-Psi)可简单地乘以源(source)功率值，以使在空间功率密度的确定上扩散声音的贡献将少于直达声音。

所提出的构思的一项重要优点在于它们可独立于房间条件被应用，且并不需要任何关于讲话者和/或物理声源的数目或位置的先验信息(priori infonnation)。藉此，此系统是自立更生的，且可以适合于通过只使用声音分析的任何种类的情景。依据现有技术，先验信息必须是可得到的，用以确定一个或多个麦克风的最佳位置和/或取向。这要么限制此应用、要么必须利用预估方式进行，如此将限制其精确度。通过采用上述的实施例，这是不必要的。虚拟麦克风(或多个虚拟麦克风)的位置通过进行半盲场景分析(semi-blindscene analysis)、然后依据目标应用的需求改变它而被计算出。

不像用以估计虚拟麦克风的最佳位置和/或取向的其他方法，提议的方法并不需要考虑几何场景的任何信息。例如，不需要关于有效声源的数目(例如，学术研讨会中的参与者的数目)的先验信息，也不需要关于有效声源的相对位置(例如，学术研讨会房间中的参与者的配置)的任何信息。有关声音的信息只从有效声源的特性推导出，其被称为描述声音场景的“有效声源”(ESS)。ESS仿效空间声音场景，其乃因为一个或多个ESS在某个时间瞬间或在某个时频点(time-frequency bin)中是有效的。以下，专业术语“物理源”用于描述来自声音场景的真实来源(例如讲话者)，而专业术语有效声源(ESS)(亦被称为“声源”)用于描述在单一时间或时频点中是有效的声音事件。每个ESS以位置和以功率为其特征。这种信息允许建构空间功率密度(例如空间功率密度)，其允许确定虚拟麦克风的最佳位置或取向。

ESS的参数可譬如通过采用针对用以产生在可配置的虚拟位置的虚拟麦克风的音频输出信号的装置而描述于下的概念来被获得。声音事件位置估计针对用以产生虚拟麦克风的音频输出信号的装置而被描述于下，更特别是参考图15-17被描述。那里所描述的概念可被采用以确定有效声源的位置。传播补偿针对用以产生虚拟麦克风的音频输出信号的装置而描述于下，更特别是参考图17-20被描述。那里所描述的概念可被采用以确定有效声源的功率。

依据一实施例，空间信息估计器可包括声音场景中心估计器，用以估计环境中的声音场景的中心的位置。空间信息估计器可还包括麦克风位置计算器，用以依据声音场景的中心的位置计算出麦克风的位置以作为声学空间信息。

在另一实施例中，麦克风位置计算器可以适合于计算麦克风的位置，其中麦克风为虚拟麦克风。

此外，依据另一实施例，声音场景中心估计器可以适合于计算空间功率密度的重心，用以估计声音场景的中心。

在更进一步的实施例中，声音场景中心估计器可以配置成用以依据空间功率密度来确定功率延迟分布，并依据环境中的多个场地的每一个场地的功率延迟分布来确定均方根延迟。声音场景中心估计器可以配置成用以将多个场地中的一个场地的位置确定为声音场景的中心，其具有多个场地的均方根延迟中的最小均方根延迟。

在另一实施例中，声音场景中心估计器可以适合于实施圆积分，用以估计声音场景的中心，其中，当环境为二维环境时，声音场景中心估计器可以适合于通过应用譬如下述公式而以圆对空间功率密度卷积来实施圆积分

g(x,y)＝Г(x,y)*C(_r,o)(x,y)

其中Г(x,y)为空间功率密度，且其中C(_r,o)(x,y)表示圆，用以确定环境的多个场地的每一个场地的圆积分值。

或者，当环境为三维环境时，声音场景中心估计器可以适合于通过应用例如下述公式而通过以球体对空间功率密度卷积来实施圆积分

g(x,y,z)＝Г(x,y,z)*C(_r,o)(x,y,z)

其中，Г(x,y,z)为空间功率密度，且其中C(_r,o)(x,y,z)表示球体，用以确定环境的多个场地的每一个场地的圆积分值。

此外，依据一实施例，声音场景中心估计器可以适合于确定环境的多个场地的每一个场地的圆积分值的最大值，用以估计声音场景的中心。

在更进一步的实施例中，麦克风位置计算器可以适合于确定经由环境中的声音场景的中心的多条线中的宽度最宽的线。经由声音场景的中心的多条线的每一条线可具有能量宽度，其中宽度最宽的线可以是经由声音场景的中心的多条线中的具有最大能量宽度的线。

依据一实施例，多条线的被考虑的线的能量宽度可以表示在被考虑的线上的段的最大长度，以使得限制此段的此段的第一点以及限制此段的此段的不同的第二点两者都具有由空间功率密度所表示的功率值(可以大于或等于预定功率值)。麦克风位置计算器可以适合于确定麦克风的位置，以使得穿过声音场景的中心与麦克风的位置的第二线可以垂直于宽度最宽的线。

在一实施例中，麦克风位置计算器可以配置成用以将奇异值分解应用至具有多个列的矩阵。此矩阵的这些列表示在环境中的场地相对于声音场景的中心的位置。此外，此矩阵的这些列只表示由空间功率密度所表示的多个功率值大于预定阈值的这些场地的位置，或此矩阵的这些列只表示由空间功率密度所表示的多个功率值大于或等于预定阈值的这些场地的位置。

依据另一实施例，空间信息估计器可包括取向确定器，用以依据空间功率密度来确定麦克风的取向。取向确定器可以适合于确定麦克风的取向，以使得麦克风朝向声音场景的中心而取向。取向确定器可以配置成用以通过应用下述公式来确定多个方向的每一个方向的积分值

其中r_max定义了距离麦克风的最大距离，且其中取向确定器被配置成用以依据确定的积分值来确定麦克风的取向。

在另一实施例中，空间功率密度确定器可以适合于针对时频点(k,n)确定环境的多个场地的空间功率密度，其中当环境为二维环境时，通过应用下述公式

或者，当环境为三维环境时，通过应用下述公式

其中k表示频率指数和n表示时间指数，其中x、y、z表示多个场地之一的坐标，其中power_i(k,n)表示位于时频点(k,n)的第i个声源的功率值，其中x_ESSi、y_ESSi、z_ESSi表示第i个声源的坐标，其中γ_i为标量值，其可以表示每个有效声源的位置估计是如何可靠的指示因子，且其中g为相关于x、y、z、x_ESSi、y_ESSi、z_ESSi、k、n和γ_i的函数。

附图说明

以下参考附图描述本发明的实施例，其中：

图1说明依据一实施例的一种定位麦克风的装置。

图2描述依据另一实施例的一种定位麦克风的装置。

图3说明依据一实施例的定位麦克风的装置的输入和输出。

图4a-4c说明一种定位麦克风的装置的多个应用情景。

图5描述依据一实施例的空间功率密度确定器21。

图6a说明用于建构函数g的delta函数。

图6b描述用于建构函数g的密度函数。

图7说明依据一实施例的空间信息估计器。

图8说明依据更进一步的实施例的空间信息估计器。

图9说明依据描述更多细节的另一实施例的麦克风位置/取向计算器44。

图10a-10c描述依据一实施例的依据投影的能量宽度的优化。

图11说明依据另一实施例的空间信息估计器，其中空间信息估计器还包括取向确定器。

图12说明依据一实施例的一种用于产生音频输出信号的装置。

图13说明依据一实施例的用于产生音频输出信号的装置和方法的输入和输出。

图14说明依据一实施例的用于产生音频输出信号的装置的基本构造，其包括声音事件位置估计器和信息计算模块。

图15说明示范情景，在其中真实空间麦克风被描绘为均一线性阵列(UniformLinear Arrays)，每个有3个麦克风。

图16描述在3D中的两个空间麦克风，用于估计在3D空间中的到达方向。

图17说明在此当前时频点(k,n)的各向同性点状声源位于位置P_IPLS(k,n)的几何形状。

图18描述依据一实施例的信息计算模块。

图19描述依据另一实施例的信息计算模块。

图20说明两个真实空间麦克风，定位的声音事件和虚拟空间麦克风的位置。

图21说明依据一实施例的如何获得相对于虚拟麦克风的到达方向。

图22描述从依据一实施例的一种用来推导出来自虚拟麦克风的观察点的声音的DOA的可能方式。

图23说明依据一实施例的包括扩散计算单元的信息计算块。

图24描述依据一实施例的扩散计算单元。

图25说明一情景，在此声音事件位置估计是不可能的。

图26说明两个真实空间麦克风、定位的声音事件和虚拟麦克风的位置。

图27a-27c说明多个情景，在此两个麦克风阵列接收直达声音，被墙壁反射的声音和扩散声音。

具体实施方式

图1说明依据一实施例的一种定位麦克风的装置。此装置包括空间功率密度确定器10和空间信息估计器20。空间功率密度确定器10适合于确定空间功率密度spd，空间功率密度spd依据声源信息ssi指示在环境中的多个位置的功率值，其中声源信息ssi指示位于环境中的一个或多个有效声源(EES)的一个或多个功率值和一个或多个位置值。空间信息估计器20适合于依据空间功率密度估计声学空间信息aspi。

图2说明依据另一实施例的定位麦克风的装置。此装置包括空间功率密度确定器21，用于确定空间功率密度(SPD)(亦称为空间功率分布)，空间功率密度(SPD)依据有效声源信息指示环境的多个位置的功率值的，其中有效声源信息指示部署在环境中的一个或多个有效声源的一个或多个核心值和位置值。此装置还包括空间信息估计器22，用于依据空间功率密度估计虚拟麦克风(VM)的位置和/或取向。

图3说明依据一实施例的定位麦克风的装置的输入和输出。至此装置的输入91、92、…9N包括功率(例如，声场压力平方的绝对值)和位置(例如，2D或3D迪卡儿(Cartesian)坐标)。有效声源(ESS)在描述声音场景(声场)。

有效声源可以例如等于如关于装置的以下所述的瞬间点状声源(IPLS)，用于产生在可配置的虚拟位置的虚拟麦克风的音频输出信号。

在输出，返回一个或多个虚拟麦克风位置和场地。以下，专业术语“物理源”用于描述来自声音场景的实际来源，例如是讲话者，而专业术语有效声源(ESS)，(亦称为“声源”)，用于描述声音事件，该声音事件在单一时间或时频点(time-frequency bin)是有效的，如亦用于IPLS，其针对用于在可配置的虚拟位置产生虚拟麦克风的音频输出信号的装置而描述于下。

此外，应注意到，专业术语“声源”涵盖物理源与有效声源两者。

依据图2的实施例的装置的输入91、92、…、9N包括有关N个有效声源的位置和对应功率的信息，N个有效声源被定位在时间实例或时频点之内的，如下所述的针对用于在可配置的虚拟位置产生虚拟麦克风的音频输出信号的装置，其揭露于下列文献：

[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,以及E.A.P.Habets。通过使用由配置的阵列所搜集的几何信息产生虚拟麦克风信号(Generating virtual microphone signals using geometrical information gatheredby distributed arrays)。在有关免持语音通信和麦克风阵列(HSCMA’11)的第三次联合研讨会中，英国爱丁堡，2011年5月。

举例而言，此种信息可被包括在装置的信息计算模块的图14的输出106中，此装置用于在可配置的虚拟位置产生虚拟麦克风的音频输出信号，可配置的虚拟位置是当应用短时傅立叶变换(STFT)时，关于1、2、…、N个不同频率点(frequency bin)被考虑于以下。

关于定位麦克风的装置，不同的操作模式可在某个时间间隔期间变成有效，每个表示用于为一个或多个虚拟麦克风定位和定取向的各种情景。可将定位麦克风的装置使用于多个应用情景：

在第一应用情景中，N个全向虚拟麦克风可以置于声音场景之内(参见图4a)。因此，在本应用情景中，若干虚拟麦克风覆盖整个声音场景。

在第二应用情景中，单一虚拟麦克风定位于声音场景的声学中心。举例而言，将全向虚拟麦克风、心型指向虚拟麦克风或虚拟空间麦克风(例如B-格式麦克风)安置成使所有参与者被最佳俘获(图4b)。

在第三应用情景中，将空间麦克风置于声音场景的“外部”。举例而言，虚拟立体声麦克风被安置成以获得宽阔空间影像，如图4c所示。

在第四应用情景，将虚拟麦克风安置在固定位置(预定的位置)的同时，估计虚拟麦克风的最佳取向，譬如虚拟麦克风的位置和方向性可以被预定义，而只有取向是自动地被计算的。

应注意到，所有上述应用可以包括时间适应性。例如，当讲话者在房间中移动时，虚拟点麦克风的位置/取向跟随此讲话者。

在图2和3中，可选信息由有效度量标准(significant metric)13提供，有效度量标准13譬如表示用于估计ESS位置的可靠度的度量。举例而言，这种度量标准可从到达估计器的方向的方差(当如所解释的使用两个以上的麦克风阵列时)推导出，如于以下针对在可配置的虚拟位置产生虚拟麦克风的音频输出信号的装置所解释的；或从参照下列文献计算的扩散参数推导出：

[29]Ville Pulkki，利用定向音频编码的空间声重现(Spatial soundreproduction with directional audio coding)。J.音频工程学会，55(6):503–516,2007年6月。

度量标准可针对所有输入91、…、9N(譬如，可以使用关于所有输入的度量标准的恒定值)来表示，或可针对每个输入91、…、9N不同地被定义。图2的装置的输出15、16可以包括一个或多个虚拟麦克风的位置和/或取向。依据应用，可以产生用于多个虚拟麦克风的输出(位置和取向)，每个输出对应于特定虚拟麦克风。

图5说明依据一实施例的空间功率密度确定器21。空间功率密度确定器包括空间功率密度主处理单元31和空间功率密度后处理单元32。空间功率密度确定器21适合于确定(更正确地说是计算)一种以Г(x,y,z,k,n)表示于以下的修正空间功率密度(SPD)，Г(x,y,z,k,n)表示针对每个时频点(k,n)位于空间中的某个点(例如(x,_y,z))的功率。SPD通过对在有效声源91、…、9N的位置的功率值(被输入至空间功率密度确定器21中)进行积分而产生。

关于时频点(k,n)SPD的计算可以依据下面的公式来完成

其中，(x,y,z)表示系统的坐标，而x_ESSi、y_ESSi、z_ESSi为有效声源i的坐标。有效度量标准103γ_i表示一种关于每个有效声源的位置估计是多么可靠的指示因子。默认情况下，有效度量标准可以等于1。在此，应注意到功率i(power_i)和坐标x_ESSi、y_ESSi和z_ESSi对应于图3的输入9i。此外，应注意到，为表示法的简化之便，(k,n)延伸将不会被写入于下。然而，下述公式仍然取决于特别考虑的时频点(k,n)。

由空间功率密度主处理单元31(例如在图5中)产生的SPD可以更进一步的被空间功率密度后处理单元32(SPD和时间积分模块的后处理)处理，并且例如，通过采用自回归滤波器而在时间上积分。为了更强健以抵抗声音场景离群值(亦即，由不正确的位置估计所导致的)，任何种类的后处理滤波器都可以被应用于SPD上。这一种后处理滤波器可以譬如是低通滤波器或形态(侵蚀、膨胀)滤波器。

当计算一个或多个虚拟麦克风的位置和/或取向时，可以采用一种可选参数，其取决于SPD。此种参数可以指例如，置放虚拟麦克风(VM)的房间的禁止区域和/或优选区域，或者可以指SPD，选择满足某些预定的规则的特定SPD范围。

如在公式(1)可了解到，g为在空间中的有效度量标准γ(更正确地说是γ_i)的函数，其在默认情况下具有等于1的值。否则，γ可以用于考虑不同贡献。举例而言，如果σ²是位置估计的方差，则例如γ可以设定为

或者，可以采用在麦克风阵列计算的平均扩散Ψ，导致γ＝1–Ψ。

藉此，可以选择γ，以使其针对较不可靠的估计而减小和针对较可靠的估计而增大。

对于建构函数g存在多个可能性。实际上特别有用的两个例子是：

g(γ，x，y，z)＝γ·δ(x)·δ(y)·δ(z) (2)

在第一函数中，δ(x)、δ(y)和δ(z)表示delta函数(参见说明delta函数的图6a)。在第二函数中，s＝[x y z]^T，μ＝[μ_x μ_y μ_z]^T是平均向量，而Σ_γ是高斯分布函数g(参见说明分布函数的图6b)的协方差矩阵(covariance matrix)。协方差矩阵使用下述公式计算：

∑γ＝E[(s-μ)(s-μ)^T]，(4)

其取决于针对情景γ的选择，其中希望譬如对于1D情况：

σ²＝E[（x-μ_x)²]. (5)

在公式(3)中可了解到，函数g可以通过在由输入91…9N给定的有效声源位置周围的分布函数描述，其中例如有效度量标准为高斯分布的方差的逆。如果声源位置的估计具有高可靠度，则相应的分布将会是相当狭小，而较不可靠的估计将对应于高方差，且将因此是宽广分布，参见譬如说明一种1D例子的图6b。

图7说明依据一实施例的空间信息估计器22。空间信息估计器包括声音场景中心估计器41，用于估计环境中的声音场景的中心的位置。再者，空间信息估计器包括麦克风位置计算器42，用于基于声音场景的中心的位置计算麦克风的位置作为声学空间信息。

图8说明依据更进一步的实施例的空间信息估计器22。空间信息估计器包括虚拟麦克风位置计算器44，其适合于计算虚拟麦克风的位置，且更进一步适合于确定虚拟麦克风的取向。虚拟麦克风位置计算器44因此亦被称为麦克风位置/取向计算器44。

图8的空间信息估计器22使用以前产生的SPD23作为输入。其依据目标应用返回一个或多个虚拟麦克风的位置15和取向16作为输出。第一处理块(声音场景中心估计器41)提供声音场景中心的估计。块41的输出43，例如声音场景中心的位置，接着作为输入被提供至第二处理块(虚拟麦克风位置/取向计算器44)。虚拟麦克风位置/取向计算器44依据目标应用执行一个或多个虚拟麦克风的最终位置15和取向16的实际估计。

声音场景中心估计器41提供声音场景中心的估计。声音场景中心估计器41的输出接着作为输入被提供至麦克风位置/取向计算器44。麦克风位置/取向计算器44依据具有目标应用的特色的操作模式执行一个或多个虚拟麦克风的最终位置15和/或取向16的实际估计。

现在将更详细地描述声音场景中心估计器的实施例。为了获得声音场景的中心，存在有数个可能的概念。

依据第一实施例的第一概念，声音场景的中心通过计算SPDГ(x,y,z)的重心而获得。Г(x,y,z)的值可以是s，被解释成为空间中的点(x,y,z)的现有质量。

依据第二实施例的第二概念，应该可发现具有通道的最小时间分散的空间中的位置。这是通过考虑到均方根(RMS)延迟扩展而达成的。首先，关于空间中的每个点p＝(x0,y0)，依据SPDГ(x,y,z)计算功率延迟分布(PDP)A_p(τ)，例如使用

在此

从A_p(τ)，接着使用下述的方程式计算RMS延迟：

在此表示A_p(τ)的平均延迟。平均延迟τ_RMS，p最小的位置将表示声音场景的中心。

依据第三实施例的第三概念，其可以被采用作为声音场景中心估计的替代方案，提出一种“圆积分(circle-integration)”。举例而言，在2D状况下，SPDГ(x,y)依据下述公式而以圆C(r,o)卷积：

g(x，y)＝Γ(x，y)*C_(r，o)(x，y)，

其中r是圆的半径，而o定义圆的中心。半径r可以是常数或可随着点(x,y)处的功率值来变化。举例而言，点(x,y)处的高功率可以对应于大半径，而低功率可以对应于小半径。对功率的额外依赖关系亦是可能的。一个这种例子将会是在使用二元高斯函数以建构函数g(x,y)之前，利用二元高斯函数来卷积该圆。依据这一种实施例，二元高斯函数的协方差矩阵变成依赖于位置(x,y)的功率，亦即，高功率对应于低方差，而低功率对应于高方差。

一旦计算出g(x,y)，声音场景的中心就可以依据下述公式来确定：

在更进一步的实施例中，此种概念通过采用具有球体的Г(x,y,z)的3D卷积而延伸至3D，依此类推。

图9说明依据描述更多细节的另一实施例的麦克风位置/取向计算器44。声音场景的中心43作为输入与SPD23一起被提供至麦克风位置/取向计算器44。在麦克风位置/取向计算器44中，关于声音场景的中心43的信息，可依据目标应用所需要的操作而被复制至输出，并被直接地用作虚拟麦克风的位置(其譬如在图4b的应用情景可适用时，其涉及其中使一个虚拟麦克风安置于声音场景的声学中心的情景)。可替选地，关于声音场景的中心43的信息可被用作麦克风位置/取向计算器44的内部的修改参数。

可以应用不同概念来计算麦克风位置，例如：

依据投影的能量宽度的优化，

依据主分量分析的优化。

出于说明性目的，假设可以依据图4c的应用情景(涉及在侧场景的外部的一个空间麦克风的情景)来计算麦克风的位置。然而，这些描述同等适合于任何其他应用情景。

以前列举的依据实施例的用于估计虚拟麦克风的位置的概念，现在将更详细描述于下。

依据投影的能量宽度的优化定义一组M条等间距隔开的线，其通过声音场景的中心。关于在例如2D情景中的每条线，SPDГ(x,y)垂直地投影在它们之上并被求和。

图10a至10c说明依据投影的能量宽度的优化。在图10a中，投影的功率函数Pproj针对每一条线被计算。然后计算函数的相对应的宽度，参见图10b。举例而言，宽度可以被定义为-3dB宽，其对应于使距离段的最左边点和最右边点对应于预定功率水平(譬如高于-3dB的功率水平)的距离。然后，识别出具有最广宽度的线，且将虚拟麦克风置于与其正交的方向。可以设定虚拟麦克风的取向以使其指向声音场景的中心，如在下一节所解释的。利用此种方法，可获得两个可能的虚拟麦克风(VM)位置，因为可将VM安置于正或负正交方向上。

可以譬如依据几何考虑以及虚拟麦克风的开口角度计算出VM所安置的距离。此乃以图10c说明。VM安置的距离随着目标应用所特定的操作模式而变化。这意味着建构三角形，以使图10c的宽度i(width i)表示三角形的一个边，而重心COG为此边的中点。通过采在COG处的正交线并定义其为VM开口角度α的平分线，找到三角形的第三顶点。然后，平分线的长度给出VM位置与声音场景的中心之间的距离。

依据另一实施例，基于投影的能量所描述的优化概念可以延伸至3D。在此情况下，M²个等间距隔开的平面(在方位角和俯仰方向)被定义以取代M条线。然后，宽度对应于圆的直径，其包括投影的能量的最大部分。最终位置是通过将VM置放在最大圆直径的正交平面表面而获得。依据一实施例，从声音场景的中心至VM位置的距离可以再次被计算，类似于2D情况，其使用几何考虑以及由操作模式而特别指定的开口角度。

依据另一实施例，采用依据主分量分析的优化。依据一种像主分量分析的处理的优化，直接使用从SPD可得到的信息。首先，将SPDГ(x,y,z)量化，且将阈值-选择性滤波器应用于量化的数据集上。藉此，舍弃具有小于某个阈值的能级的所有点。之后，剩下的点h_i＝[h_x,i,h_y,i,h_z,i]^T是以平均值为中心(亦即，以平均值为中心的点表示减去声音场景中心的坐标的第i个有效来源的坐标)，且然后以数据矩阵H重组如下：

在此N定义在取阈值之后的点的数目。然后，奇异值分解(SVD)被应用至H，以使其被因式分解成下述乘积：

H＝U·∑·V^T.

U的第一列表示主分量，其具有数据集的最高变异性(variabilit_y)。U的第二列正交于第一列并表示我们要置放VM的方向。宽度隐式地由矩阵Σ中的第一奇异值给出。知道宽度以及方向后，我们可计算VM的位置和取向，如上面参考图10a至10c所描述的依据投影的能量宽度的优化方法。

在另一实施例中，将这些方法应用至2D问题，其是明确的，因为仅需要从方程式和计算中忽略/移除z轴分量。

关于其他应用，例如图4a的应用情景(多个虚拟麦克风覆盖整个声音场景)，可以采用一种不同概念，例如迭代优化方案。在第一步骤，识别出具有SPD的最大值的位置。藉此，总共N个虚拟麦克风的第一VM的位置被指定。在此之后，从SPD中移除围绕此位置(亦即，至多达某个距离)的所有能量。重复先前步骤，直到找到N个虚拟麦克风的所有位置为止。在未定义N的状况下，则进行迭代，直到SPD的最大值小于某个阈值为止。

图11说明另一实施例，其中空间信息估计器22还包括取向确定器45。取向确定器45适合于依据空间功率密度23确定麦克风的(适当的)取向16。

以下，将描述取向估计。依据投影的能量宽度以及主分量分析的优化方法隐式地计算虚拟麦克风15的取向16，因为虚拟麦克风被假设为朝向声音场景的中心取向。

然而，关于某些其他应用情景，可以譬如在应用情景中适合于明确地计算取向，其中估计虚拟麦克风的最佳取向，其中虚拟麦克风位于固定位置。在此情况下，取向应确定为以使虚拟麦克风拾起声音场景中的大部分的能量。

依据一实施例，为了确定虚拟麦克风的取向，首先取样可能的方向且对这些方向的每个方向在能量上进行积分。获得的下述函数：

在此r_max被定义为离开VM的最大距离，并控制VM的拾音模式。然后，VM最终取向φ被计算为：

在此为基于VM的输入特征的加权函数。例如，可以是定义来自方向的能量是如何被缩放的函数，假设某个观察方向φ和VM的特定拾音模式的话。

以下将描述用于产生音频输出信号以仿真虚拟麦克风在环境中的可配置的虚拟位置的录音的装置。依据上述实施例的其中一个的定位麦克风的装置可以被采用以为产生音频输出信号的装置确定虚拟位置。

图12说明用于产生音频输出信号以仿真虚拟麦克风在环境中的可配置的虚拟位置posVmic的录音的装置。此装置包括声音事件位置估计器110和信息计算模块120。声音事件位置估计器110接收来自第一真实空间麦克风的第一方向信息di1和来自第二真实空间麦克风的第二方向信息di2。声音事件位置估计器110适合于估计声源位置ssp，其指示声源在环境中的位置，声源放射声波，其中声音事件位置估计器110适合于依据第一方向信息di1和依据第二方向信息di2来估计声源位置ssp，其中第一方向信息di1是由位于环境中的第一真实麦克风位置pos1mic的第一真实空间麦克风提供，而第二方向信息di2是由位于环境中的第二真实麦克风位置的第二真实空间麦克风提供。依据第一真实麦克风位置pos1mic和依据虚拟麦克风的虚拟位置posVmic，信息计算模块120适合于依据第一录制的音频输入信号is1(由第一真实空间麦克风录音)来产生音频输出信号。信息计算模块120包括传播补偿器，其适合于通过修正第一录音的音频输入信号is1来产生第一修正音频信号从而获得音频输出信号，其中修正第一录音的音频输入信号is1所采取的是通过调整第一录音的音频输入信号is1的振幅值(amplitude value)、量级值(magnitude value)或相位值来补偿在第一真实空间麦克风之处由声源发射的声波的到达与在虚拟麦克风之处的声波的到达之间的第一延迟或振幅衰减。

图13说明依据一实施例的装置和方法的输入和输出。来自两个或多个真实空间麦克风111、112、…、11N的信息输入至装置/被方法处理。此种信息包括被真实空间麦克风拾音的音频信号与来自真实空间麦克风的方向信息，例如到达方向(DOA)估计。音频信号与方向信息(例如到达方向估计)可以以时频域表示。举例而言，如果期望2D几何重建并选择传统STFT(短时傅立叶变换)域以供信号的表达用，则DOA可以依据k和n(亦即频率和时间指数)被表示为方位角。

在实施例中，空间中声音事件定位以及描述虚拟麦克风的位置可以依据在共同坐标系统中的实际和虚拟空间麦克风的位置和取向来实施。此种信息可以以图13中的输入121...12N和输入104表示。输入104可以另外指定虚拟空间麦克风的特征，例如，其位置和拾音模式，如以下所将探讨的。如果虚拟空间麦克风包括多重虚拟传感器，则可以考虑它们的位置和相对应的不同的拾音模式。

当期望时，装置或对应的方法的输出可以是一个或多个声音信号105，其可以已被空间麦克风拾音，而空间麦克风是如由104而特别指定地被定义且安置。此外，装置(更正确地说是方法)可以提供对应的空间侧信息106(可以通过采用虚拟空间麦克风来估计)作为输出。

图14说明依据一实施例的装置，其包括两个主处理单元、声音事件位置估计器201和信息计算模块202。声音事件位置估计器201可以基于包括在输入111...11N的DOA和基于真实空间麦克风的位置和取向的知识(DOA已被计算出)来实现几何重建。声音事件位置估计器205的输出包括声源的位置估计(2D或3D)，在此声音事件针对每个时间和频率点产生。第二处理块202为信息计算模块。依据图14的本实施例，第二处理块202计算虚拟麦克风信号和空间侧信息。其因此亦以虚拟麦克风信号和侧信息计算块202表示。虚拟麦克风信号和侧信息计算块202使用声音事件的位置205来处理包括在真实空间麦克风111…11N的音频信号，以输出虚拟麦克风音频信号105。如果需要的话，块202亦可以计算对应于虚拟空间麦克风的空间侧信息106。以下实施例描述块201和202可以如何操作的可能性。

以下，将更详细地描述依据一实施例的声音事件位置估计器的位置估计。

依据问题的维数(2D或3D)和空间麦克风的数目，对于位置估计可以有数个解决方法。

如果在2D(最简单的可以状况)中存在有两个空间麦克风，则可以采用简单的三角测量。图15说明示范情景，其中真实空间麦克风被描绘为均一线性阵列(ULA)，每个有3个麦克风。被表示为方位角a1(k,n)和a2(k,n)的DOA，针对时频点(k,n)被计算。这是通过采用适当的DOA估计器(例如ESPRIT或(root)MUSIC)至转换成为时频域的压力信号来实现，其中，DOA估计器为ESPRIT或(root)MUSIC分别揭露于下列文献

[13]R.Roy,A.Paulraj以及T.Kailath，"通过子空间旋转法的到达方向估计–ESPRIT"，在1986年4月的美国加利福尼亚州史丹佛大学的语音与信号处理(ICASSP)的IEEE国际学术研讨会中(IEEE音响国际会议，语音和信号处理(ICASSP)，史丹福，美国加州，1986年4月)；和

[14]R.Schmidt，"多重发射器场地和信号参数估计(Multiple emitter locationand signal parameter estimation)"，关于天线与传播的IEEE学报，第34卷，第3号，第276-280页，1986年。

在图15中，说明两个真实空间麦克风(在此是两个真实空间麦克风阵列410、420。两个估计的DOA a1(k,n)和a2(k,n)以两条线表示，第一线430表示DOA al(k,n)，而第二线440表示DOA a2(k,n)。经由知道每个阵列的位置和取向的简单几何计算，三角测量是可能的。

当两条线(第一线430、第二线440)正好平行时，三角测量会失败。然而，在实际应用中，这是非常不可能的。然而，并非所有三角测量结果都会对应于考虑空间中的声音事件的物理或可行位置。举例而言，声音事件的估计位置可以是太远离假设空间或甚至在假设空间外部，藉以表示DOA可能并未对应于可利用所使用的模型而被实体上解释的任何声音事件。这种结果可以由传感器噪音或太强烈的房间混响所导致。因此，依据一实施例，这种不希望得到的结果被标记，以使信息计算模块202可适当地处理它们。

图16描述一种情景，在此声音事件的位置在3D空间中被估计。采用了适当的空间麦克风，譬如，平面或3D麦克风阵列。在图16中，说明了第一空间麦克风510(譬如第一3D麦克风阵列)以及第二空间麦克风520(譬如第一3D麦克风阵列)。3D空间中的DOA可以譬如被表示成方位角和仰角。可以采用单位向量530、540以表示DOA。两条线550、560依据DOA被投影。在3D中，即使利用很可靠的估计，依据DOA所投影的两条线550、560可能不会相交。然而，三角测量仍然可譬如通过选择连接两条线的最小段的中点来实现。

类似于2D情况，三角测量可以失败或可以产生关于方向的某些组合的不能实行的结果，其接着亦可被标记至例如图14的信息计算模块202。

如果存在两个以上的空间麦克风，则数个解决方法是可能的。举例而言，上面所描述的三角测量可以针对所有真实空间麦克风对(如果N＝3，1与2，1与3，以及2与3)而实施。所产生的位置然后可被平均(沿着x和y，以及z，如果考虑3D的话)。

或者，可以使用更多复合概念。举例而言，可以应用机率方法，揭露于下列文献：

[15]J.Michael Steele，"平面上的随机样品的最佳三角测量(OptimalTriangulation of Random Samples in the Plane)"，概率的史册，第10卷，第3号(1982年8月)，第548-553页。

依据一实施例，声场可以在时频域中被分析，举例而言，经由短时傅立叶变换(STFT)而获得，在其中k和n分别表示频率指针k和时间指针n。对某个k和n而言，位于任意位置p_v的复合压力P_v(k,n)被塑造成由窄带各向同性点状源(narrow-band isotropic point-like source)所放射的单一球面波，例如通过采用下述公式：

P_v(k，n)＝P_IPLS(k，n)·γ(k，p_IPLS(k，n)，p_v)， (1)

在此，P_IPLS(k,n)为在其位置P_IPLS(k,n)而由IPLS所发出的信号。复合因子γ(k,P_IPLS,p_v)表示从P_IPLS(k,n)至p_v的传播，例如，其导入适当的相位和大小修正。在此，可以应用下述假设，在每个时频点中，只有一个IPLS是有效的。然而，位于不同位置的多重窄带IPLS在单一时间情况亦可以是有效的。

每个IPLS不是仿效直达声音就是仿效不同的房间反射。其位置P_IPLS(k,n)理想上可以分别对应于位于房间内部的真实声源，或位于外部的镜像声源。因此，位置P_IPLS(k,n)亦可以表示声音事件的位置。

请注意专业术语“真实声源”表示真实存在于录音环境中的真实声源，例如讲话者或乐器。相反，关于“声源”或“声音事件”或“IPLS”，我们指有效的声源，其在某些时间瞬间或在某些时频点是有效的，其中声源譬如可表示真实声源或镜像源。

图27a-27b说明定位声源的麦克风阵列。定位的声源依据它们的本质可具有不同的物理演绎。当麦克风阵列接收直达声音时，它们可能能够定位真实声源(例如讲话者)的位置。当麦克风阵列接收反射时，它们可以定位镜像源的位置。镜像源亦是声源。

图27a说明一种情景，在此两个麦克风阵列151和152接收来自真实声源153(真实存在的声源)的直达声音。

图27b说明一种情景，在此两个麦克风阵列161、162接收反射声音，其中声音已被墙壁反射。因为反射，麦克风阵列161、162定位此位置，在此声音似乎来自位于镜像源165的位置(其不同在讲话者163的位置)。

图27a的真实声源153与镜像源165两者都是声源。

图27c说明一种情景，在此两个麦克风阵列171、172接收扩散声音，且并不能够定位声源。

虽然这种单波模型只有对轻度混响环境而言是正确的，但鉴于源信号满足W-分离正交(WDO)条件，亦即，时频重迭足够小。这对于语音信号而言通常是真实的，请参照下列文献：

[12]S.Rickard和Z.Yilmaz，"针对言语的接近W-分离正交(On the approximateW-disjoint orthogonality of speech)"，在语音和信号处理，2002.ICASSP2002.2002年4月的IEEE国际学术研讨会，第1卷。

然而，此模型亦提供良好估计给其他环境，且因此亦适合于那些环境。

以下，描述依据一实施例的位置P_IPLS(k,n)的估计。在某个时频点中的有效IPLS的位置P_IPLS(k,n)、从而时频点中的声音事件的估计基于在至少两个不同的观察点所测得的声音的到达方向(DOA)而经由三角测量被估计。

图17说明一种几何形状，在此当前时频槽(time-frequency slot)(k,n)的IPLS位于未知位置P_IPLS(k,n)中。为了确定需要的DOA信息，采用具有已知的几何形状、位置和取向的两个真实空间麦克风(在此是两个麦克风阵列)，其分别被设置于位置610和620。向量p₁和p₂分别指向位置610、620。阵列取向由单位向量c₁和c₂所界定。声音的DOA通过使用DOA估计算法(例如如由DirAC分析(参见文献[2]、[3])所提供)而在每个(k,n)的位置610和620中被确定。由此，相关于麦克风阵列的观察点的第一观察点单位向量和第二观察点单位向量(两者未说明在图17中)，可以被提供作为DirAC分析的输出。举例而言，当在2D中操作时，第一观察点单位向量变成：

在此，表示在第一麦克风阵列所估计的DOA的方位角，如图17所示。相关于原点的全局坐标系统的相对应的DOA单位向量e₁(k,n)和e₂(k,n)可以通过应用下述公式而被计算出：

在此，R为坐标变换矩阵，例如，

当在2D中操作且c₁＝[c_1，x，c_1，y]^T时。为了执行三角测量，方向向量d₁(k,n)和d₂(k,n)可以被计算成：

d₁(k，n)＝d₁(k，n)e₁(k，n)，

d₂(k，n)＝d₂(k，n)e₂(k，n)， (5)

在此，d₁(k,n)＝||d₁(k,n)||和d₂(k,n)＝||d₂(k,n)||是IPLS与两个麦克风阵列之间的未知距离。下述方程式

p₁+d₁(k，n)＝p₂+d₂(k，n) (6)

可以解出d₁(k,n)。最后，IPLS的位置P_IPLS(k,n)由下述方程式得到

p_IPLS(k，n)＝d₁(k，n)e₁(k，n)十p₁.(7)

在另一实施例中，方程式(6)可以解出d₂(k,n)，而P_IPLS(k,n)采用d₂(k,n)而类似地被计算出。

当在2D中操作时，方程式(6)总是提供解，除非e₁(k,n)和e₂(k,n)是平行的。然而，当使用两个以上的麦克风阵列时或当在3D中操作时，无法在方向向量d不相交时获得解。依据一实施例，在此情况下，最靠近所有方向向量d的点被计算出，且结果可被用作IPLS的位置。

在一实施例中，所有观察点p₁、p₂、…应被设置，以使由IPLS所发出的声音落入相同的时间区块n中。当任意两个观察点之间的距离Δ小于下述式子的值时，这种要求可以简单地被满足

在此，n_FFT为STFT窗口长度，0≤R<1指明在连续时帧(time frames)之间的重迭，而fs为取样频率。举例而言，对于在48kHz下具有50％重迭(R＝0.5)的1024点STFT而言，阵列之间满足上述要求的最大间距为Δ＝3.65m。

以下将更详细描述依据一实施例的信息计算模块202(例如虚拟麦克风信号和侧信息计算模块)。

图18说明依据一实施例的一种信息计算模块202的图表概观。信息计算单元包括传播补偿器500、组合器510以及频谱加权单元520。信息计算模块202接收由声音事件位置估计器所估计的声源位置估计ssp，一个或多个音频输入信号由一个或多个真实空间麦克风、一个或多个真实空间麦克风的位置posRealMic以及虚拟麦克风的虚拟位置posVmic所记录。其输出表示虚拟麦克风的音频信号的音频输出信号os。

图19说明依据另一实施例的一种信息计算模块。图19的信息计算模块包括传播补偿器500、组合器510以及频谱加权单元520。传播补偿器500包括传播参数计算模块501和传播补偿模块504。组合器510包括组合因子计算模块502和组合模块505。频谱加权单元520包括频谱权重计算单元503、频谱加权应用模块506以及空间侧信息计算模块507。

为了计算虚拟麦克风的音频信号，几何信息(例如真实空间麦克风的位置和取向121...12N，虚拟空间麦克风的位置、取向和特征104，以及声音事件的位置估计205)输入到信息计算模块202，更特别是，输入到传播补偿器500的传播参数计算模块501，输入到组合器510的组合因子计算模块502以及输入到频谱加权单元520的频谱权重计算单元503。传播参数计算模块501、组合因子计算模块502与频谱权重计算单元503计算用在传播补偿模块504、组合模块505与频谱加权应用模块506中的音频信号111...11N的修正中的参数。

在信息计算模块202中，音频信号111...11N可以首先被修正以补偿由声音事件位置与真实空间麦克风之间的不同传播长度导致的影响。然后，可组合这些信号以例如改善信噪比(SNR)。最后，所产生的信号接着可被频谱加权以将虚拟麦克风的方向拾音模式与任何距离相关增益函数(distance dependent gain function)纳入考虑。这三个步骤更详细讨论于下。

现在更详细描述传播补偿。在图20之上部中，说明两个真实空间麦克风(第一麦克风阵列910和第二麦克风阵列920)，关于时频点(k,n)的定位声音事件930的位置，以及虚拟空间麦克风940的位置。

图20的下部描述时间轴。假设声音事件在时间t0被发出，然后传输至真实和虚拟空间麦克风。抵达的时间延迟与振幅随着距离改变，使得传播长度越远，振幅越弱且抵达的时间延迟越长。

位于两个真实阵列的信号是可比较的，只要它们之间的相对延迟Dt12小。否则，两个信号的其中一个必须被时间上再对齐以补偿相对延迟Dt12，且可以地按比例缩放以补偿不同的衰减。

补偿抵达虚拟麦克风与抵达真实麦克风阵列(抵达真实空间麦克风之一)之间的延迟，独立于声音事件的定位而改变了延迟，使得其大部分应用而言是多余的。

回到图19，传播参数计算模块501适合于计算出针对每个真实空间麦克风和每个声音事件而待被校正的延迟。如果需要的话，其亦计算出待被考虑补偿不同的振幅衰减的增益因子。

传播补偿模块504被配置成用于使用此种信息来相应地修改音频信号。如果这些信号要平移小量的时间(相较于滤波器组(filter bank)的时窗)，则简单的相位旋转就足够了。如果延迟是较大的，则需要更多复合的实施例。

传播补偿模块504的输出为表示在原始时频域中的修正音频信号。

以下，将参考图17描述依据一实施例的关于虚拟麦克风的传播补偿的特定估计，图17特别说明第一真实空间麦克风的位置610与第二真实空间麦克风的位置620。

在现在描述的本实施例中，假设至少第一录音音频输入信号，例如真实空间麦克风(例如麦克风阵列)的至少一个的压力信号(譬如第一真实空间麦克风的压力信号)是可得到的。我们将考虑的麦克风称为参考麦克风，将其位置称为参考位置p_ref并将其压力信号称为参考压力信号P_ref(k,n)。然而，传播补偿不仅可以只涉及一个压力信号，而且涉及多个或所有真实空间麦克风的压力信号被处理。

在由IPLS所发出的压力信号P_IPLS(k,n)和位于p_ref的参考麦克风的参考压力信号P_ref(k,n)之间的关系，可以下述公式(9)表示：

P_ref(k，n)＝P_IPLS(k，n)·γ(k，p_IPLS，p_ref)， (9)

一般而言，复合因子γ(k,p_a,p_b)表示由球面波从其原点p_a至pb的传播所产生的相位旋转和振幅衰减。然而，实际测试指出相较于亦考虑到相位旋转只考虑到γ中的振幅衰减会导致具有显著较少假象(artifacts)的虚拟麦克风信号的似真实的印象。

可以在空间中的某个点被测量的声音能量强烈地依赖于距声源的距离(在图6中距声源的位置P_IPLS的距离r)。在多数情况中，这种相关性可通过使用熟知的物理原理(譬如，在点源的远场中的声音压力的1/r衰减)而以足够精度建模。当已知参考麦克风(譬如第一真实麦克风)与声源的距离时，且当亦已知虚拟麦克风与声源的距离时，则位于虚拟麦克风的位置的声音能量可以从参考麦克风(例如第一真实空间麦克风)的信号和能量被估计出。这表示虚拟麦克风的输出信号可通过施加适当增益至参考压力信号而被获得。

假设第一真实空间麦克风为参考麦克风，则p_ref＝p₁。在图17中，虚拟麦克风位于p_v中。因为详细知道图17中的几何形状，所以可以容易确定参考麦克风(图17中：第一真实空间麦克风)与IPLS之间的距离d₁(k,n)＝||d₁(k,n)||，以及虚拟麦克风与IPLS之间的距离s(k,n)＝||s(k,n)||，亦即

s(k，n)＝||s(k，n)||＝||p₁+d₁(k，n)-p_v||. (10)

位于虚拟麦克风之处的声音压力P_v(k,n)通过结合公式(1)和(9)而计算出，藉以导致

如上所述，在某些实施例中，因子γ可以只考虑到因传播的振幅衰减。例如假设声音压力以1/r减少，则

当公式(1)中的模型维持时，例如，当只有直达声音出现时，则公式(12)可以准确重建量级信息。然而，在纯扩散声场的情况下，例如，当并未满足模型假设时，提出的方法在将虚拟麦克风从传感器阵列的位置移走时产生信号的隐式去混响(dereverberation)。事实上，如上所述，在扩散声场中，我们期望大部分的IPLS被定位靠近两个传感器阵列。因此，当将虚拟麦克风从这些位置移走时，我们很可能增大图17中的距离s＝||s||。因此，参考压力的量级在依据公式(11)应用加权时被减小。同样地，当使虚拟麦克风移动接近真实声源时，对应于直达声音的时频点将被放大，以使整体音频信号将被察觉较少扩散。通过调整公式(12)中的规则，可以随意地控制直达声音放大和扩散声音抑制。

通过针对第一真实空间麦克风的录制的音频输入信号(例如压力信号)执行传播补偿，获得了第一修正音频信号。

在实施例中，第二修正音频信号可以通过针对第二真实空间麦克风的录制的第二音频输入信号(第二压力信号)执行传播补偿而获得。

在其他实施例中，另外的音频信号可以通过针对另外的真实空间麦克风的录制的另外的音频输入信号(更远的压力信号)执行传播补偿而获得。

现在，更详细描述依据一实施例的结合图19中的块502和505。假设来自多个不同真实空间麦克风的两个以上的音频信号已被修正以补偿不同传播路径，用以获得两个以上的修正音频信号。一旦来自不同的真实空间麦克风的音频信号已被修正以补偿不同传播路径，它们就可以被结合以改善音频质量。藉此，举例而言，可以增加SNR或可以减少混响。

对于此组合的可能的解决方法包括：

-加权平均，例如，考虑SNR、或至虚拟麦克风的距离、或由真实空间麦克风所估计的扩散。可以采用传统的解决方法，譬如，最大比率合成(MRC)或等增益合成(EQC)，或者

-某些或所有的修正音频信号的线性组合以获得组合信号。修正音频信号可以在线性组合中被加权以获得组合信号，或者

-选择，例如，只使用一个信号，举例而言，依赖于SNR或距离或扩散。

如果适合的话，模块502的任务用以计算供合成用的参数，其在模块505中被实现。

现在，更详细描述依据实施例的频谱加权。对于这点，参考图19的块503和506。在这个最后步骤，由此组合或输入音频信号的传播补偿所产生的音频信号依据虚拟空间麦克风的空间特征(如由输入104特别指定)和/或依据重建的几何形状(在块205中所提供)而在时频域中被加权。

对每个时频点而言，几何上的重建允许我们容易地获得相对于虚拟麦克风的DOA，如图21所示。再者，亦可轻易计算出在虚拟麦克风与声音事件的位置之间的距离。

接着考虑期望的虚拟麦克风的型式，计算出关于时频点的权重。

在指向性麦克风的情况下，频谱权重可以依据预定拾音模式而被计算。举例而言，依据一实施例，心型麦克风可具有由下述函数g(theta)所定义的拾音模式，

g(theta)＝0.5+0.5cos(theta)，

在此，theta为虚拟空间麦克风的注视方向与从虚拟麦克风的观察点来看的声音的DOA之间的角度。

另一种可能性为艺术效果(非物理)的衰减函数。在某些应用上，可以期望以一个大于一个特性自由场传播的因子来抑制声音事件远离虚拟麦克风。为了这个目的，某些实施例导入额外加权函数，其取决于虚拟麦克风与声音事件之间的距离。在一实施例中，应该只有在距离虚拟麦克风的某段距离(例如以米计)之内的声音事件被拾音。

相关于虚拟麦克风指向性，可以为虚拟麦克风应用任意的指向性模式。这样做，可以例如将源与复合声音场景分离。

因为声音的DOA可以按虚拟麦克风的位置p_v被计算出，亦即

在此，c_v为描述虚拟麦克风的取向的单位向量，可实现供虚拟麦克风用的任意的指向性。举例而言，假设P_v(k,n)表示组合信号或传播补偿修正音频信号，则此公式：

计算出虚拟麦克风的输出具有心形指向性。能够潜在地依此方式被产生的方向模式取决于位置估计的精度。

在多个实施例中，一个或多个真实、非空间麦克风(譬如，全向麦克风或例如心型(cardioid)的指向性麦克风)还被设置于除了真实空间麦克风以外的声音场景，用以更进一步改善图8中的虚拟麦克风音频信号105的声音质量。这些麦克风并非用以搜集任何几何信息，而是只提供更清晰的音频信号。这些麦克风可以被置于比空间麦克风更接近声源。在此情况下，依据一实施例，真实、非空间麦克风的音频信号(而不是真实空间麦克风的音频信号)与它们的位置被简单输入至图19的传播补偿模块504以供处理。接着相关于一个或多个非空间麦克风的位置而为非空间麦克风的一个或多个录制的音频信号进行传播补偿。藉此，通过使用额外非空间麦克风来实现实施例。

在更进一步的实施例中，实现了虚拟麦克风的空间侧信息的计算。为了计算麦克风的空间侧信息106，图19的信息计算模块202包括空间侧信息计算模块507，其适合于接收声源的位置205与虚拟麦克风的位置、取向和特征104作为输入。在某些实施例中，依据需要被计算的空间侧信息106，虚拟麦克风音频信号105亦可作为对空间侧信息计算模块507的输入而被纳入考虑。

空间侧信息计算模块507的输出为虚拟麦克风的侧信息106。这种侧信息可以例如是从虚拟麦克风的观察点起的针对每个时频点(k,n)的声音的DOA或扩散。另一种可能的侧信息可以例如是有效声音强度向量Ia(k,n)，其将已在虚拟麦克风的位置中被测量。现在将描述可以如何推导出这些参数。

依据一实施例，实现了关于虚拟空间麦克风的DOA估计。基于虚拟麦克风的位置向量以及基于如图22所说明的声音事件的位置向量，信息计算模块120适合于估计虚拟麦克风的到达方向以作为空间侧信息。

图22描述一种推导出来自虚拟麦克风的观察单的的声音的DOA的可能方式。由图19中的块205所提供的声音事件的位置可以利用位置向量r(k,n)(声音事件的位置向量)来作关于每个时频点(k,n)的描述。同样地，提供作为图19中的输入104的虚拟麦克风的位置可以利用位置向量s(k,n)(虚拟麦克风的位置向量)来作描述。虚拟麦克风的注视方向可通过向量v(k,n)作描述。相对于虚拟麦克风的DOA由a(k,n)给出。其表示v与声音传播路径h(k,n)之间的角度。h(k,n)可以通过采用下述公式而计算出：

h(k,n)＝s(k,n)–r(k,n)。

现在可例如经由h(k,n)和v(k,n)之点积(dot product)的定义计算关于每个(k,n)的期望DOA a(k,n)，亦即

a(k,n)＝arcos(h(k,n)·v(k,n)/(||h(k,n)||||v(k,n)||)。

在另一实施例中，基于虚拟麦克风的位置向量以及基于如由图22所说明的声音事件的位置向量，信息计算模块120可以适合于估计位于虚拟麦克风的有效声音强度以作为空间侧信息。

从如上所定义的DOA a(k,n)，我们可推导出位于虚拟麦克风的位置的有效声音强度Ia(k,n)。对于这点，假设图19中的虚拟麦克风音频信号105对应于全向麦克风的输出，例如，我们假设虚拟麦克风为全向麦克风。此外，假设图22中的注视方向v平行在坐标系统的x轴。因为期望的有效声音强度向量Ia(k,n)描述了经由虚拟麦克风的位置的净能量流，所以我们可例如依据下述公式计算出Ia(k,n)：

Ia(k,n)＝-(1/2rho)|P_v(k,n)|²*[cos a(k,n),sin a(k,n)]^T,

在此[]^T表示变位向量(transposed vector)，rho为空气密度，而P_v(k,n)为由虚拟空间麦克风所测量的声音压力，例如，图19中的块506的输出105。

如果有效强度向量应该被表示在一般的坐标系统中计算但仍然位于虚拟麦克风的位置，则可应用下述公式：

Ia(k,n)＝(1/2rho)|P_v(k,n)|²h(k,n)/||h(k,n)||。

声音的扩散表示如何在既定时频槽中扩散此声场(参见，譬如文献[2])。扩散以值ψ表示，其中0≤ψ≤1。1的扩散表示声场的总声场能量是完全地扩散。这种信息例如在空间声音的重现上是重要的。传统上，扩散在置放有麦克风阵列的空间中的特定点被计算出。

依据一实施例，扩散可以作为额外参数被计算成为虚拟麦克风(VM)所产生的侧信息，虚拟麦克风可以被随意置于声音场景中的任意位置。藉此，一种除了计算位于虚拟麦克风的虚拟位置的音频信号还计算扩散的装置可以被看作是虚拟DirAC前端，其乃因为为声音场景中的任意点产生DirAC流(亦即音频信号、到达方向以及扩散)是可能的。DirAC流可以更进一步被处理、储存、传输以及在任意的多扬声器装备上回放。在此情况下，聆听者体验此声音场景，犹如他或她身在由虚拟麦克风而特别指定的位置且正看向朝由其取向所确定的方向。

图23说明依据一实施例的一种包括用以计算位于虚拟麦克风的扩散的扩散计算单元801的信息计算块。信息计算块202适合于接收输入111至11N，除了图14的输入以外，其亦包括位于真实空间麦克风的扩散。使ψ^(SM1)至ψ^(SMN)表示这些值。这些额外输入输入至信息计算模块202。扩散计算单元801的输出103为在虚拟麦克风的位置所计算的扩散参数。

一实施例的扩散计算单元801在图24中被说明，藉以提供更详细描述。依据一实施例，估计出位于N个空间麦克风的每一个的直达和扩散声音的能量。然后，通过使用关于IPLS的位置的信息，以及关于空间以及虚拟麦克风的位置的信息，获得了位于虚拟麦克风的位置的这些能量的N个估计。最后，可结合估计以改善估计精度，且可轻易计算出位于虚拟麦克风的扩散参数。

使至以及至表示关于由能量分析单元810所计算的N个空间麦克风的直达和扩散声音的能量的估计。如果P_i为复合压力信号且ψ_i为关于第i个空间麦克风的扩散，则可譬如依据下述公式计算出能量：

扩散声音的能量在所有位置中应该是相等的，因此，位于虚拟麦克风的扩散声音能量的估计可以只通过例如在扩散组合单元820中平均至而被计算出，譬如依据下述公式：

估计至的一种更有效的组合可以通过考虑估计器的方差(例如通过考虑SNR)而被实现。

直达声音的能量取决于由于传播到达源的距离。因此，至可以被修正以将此纳入考虑。这可以例如通过直达声音传播调整单元830来实现。举例而言，如果假设直达声场的能量衰减在距离平方是1，则可以依据下述公式计算出关于位于第i个空间麦克风的虚拟麦克风的直达声音的估计：

类似于扩散组合单元820，在不同的空间麦克风之处所获得的直达声音能量的估计可以例如通过直达声音组合单元840而组合。结果为例如，关于位于虚拟麦克风的直达声音能量的估计。位于虚拟麦克风ψ(VM)的扩散可以例如依据下述公式而譬如通过扩散子计算器850而被计算出：

如上所述，在某些情况下，通过声音事件位置估计器而被实现的声音事件位置估计会失败，例如，在到达方向估计错误的情况下。图25说明这种情景。在这些情况下，不管在不同空间麦克风所估计以及如被接收为输入111至11N的扩散参数为何，关于虚拟麦克风103的扩散可以被设定到1(亦即，完全扩散)，其乃因为没有空间相干重现(spatiallycoherent reproduction)是可能的。

此外，可以考虑位于N个空间麦克风的DOA估计的可靠度。这可以例如根据DOA估计器的方差数或SNR被表示。这种信息可以通过扩散子计算器850被纳入考虑，以使得VM扩散103可以在DOA估计是不可靠的情况下被人为地增大。事实上，结果是位置估计205亦将是不可靠的。

图26说明依据一实施例的用以产生虚拟输出信号的装置991。用以产生虚拟输出信号的装置991包括依据上述实施例之一的用于定位麦克风的装置992(其包括麦克风位置计算器993)。再者，用以产生虚拟输出信号的装置包括依据上述实施例之一的用以产生音频输出信号的装置994。由用以产生音频输出信号的装置994所产生的输出信号为虚拟输出信号vos。用以定位麦克风的装置991的麦克风位置计算器992被配置成用以计算麦克风的位置以作为计算出的麦克风位置cmp。用以产生音频输出信号的装置994被配置成用以仿真位于计算出的麦克风位置(由用于定位麦克风的装置992所计算出)的虚拟麦克风的录音。藉此，用于定位麦克风的装置992计算关于用以产生音频输出信号的装置994的虚拟麦克风的虚拟位置。

虽然已在装置之上下文中描述某些实施方面，但显然这些方面亦表示相对应的方法的描述，在此的块或设备对应于方法步骤或方法步骤的特征。依此类推，在方法步骤的上下文中所描述的实施方面亦表示对应块或项目的描述或对应装置的特征。

所发明的分解信号可储存在数字储存媒体上，或可在传输媒介上传输，例如无线传输媒介或有线传输媒介，例如因特网。

依据某些实施需求，本发明的实施例可在硬件或软件中实施。实施例可通过使用数字储存媒体(譬如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)而执行，数字储存媒体具有储存在其上的电子可读取的控制信号，其与可编程计算机系统合作(或能够合作)，以执行各种方法。

依据本发明的某些实施例包括非暂时性数据载体，其具有能够与可编程计算机系统合作的电子可读取的控制信号，以执行在此所描述的其中一种方法。

一般而言，本发明的实施例可被实施作为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码对于执行其中一种方法是有效的。程序代码可譬如被储存在机器可读取的载体上。

其他实施例包括储存在机器可读取的载体上的计算机程序，用以执行在此所描述的其中一种方法。

换言之，本发明方法的一实施例因此为一种具有程序代码的计算机程序，用于在计算机程序在计算机上运行时，执行在此所描述的其中一种方法。

因此，本发明方法的更进一步的实施例为数据载体(或数字储存媒体或计算机可读取的媒体)，其包括记录在其上的计算机程序，用于以执行在此所描述的其中一种方法。

因此，本发明方法的更进一步的实施例为表示计算机程序的数据流或一序列的信号，用以执行在此所描述的其中一种方法。数据流或此序列的信号可譬如具体形成以经由数据通信连接(譬如经由因特网)来传输。

更进一步的实施例包括处理机构(譬如计算机或可编程逻辑器件)，其具体形成或适合于执行在此所描述的其中一种方法。

更进一步的实施例包括上面装设有计算机程序的计算机，用于执行在此所描述的其中一种方法。

在某些实施例中，可以使用可程序化逻辑器件(譬如现场可编程门阵列)以执行在此所描述的方法的某些或所有功能。在某些实施例中，现场可编程门阵列可协同微处理器，以便执行在此所描述的其中一种方法。一般而言，这些方法最好是通过任何硬装置而执行。

上述实施例仅为了本发明的原理而描述。理解到，其他本领域技术人员将明白在此所描述的配置与细节的修改和修正。因此，意图只受限于即将到来的专利权利要求的范畴，而不受限于经由实施例的记述和描述在此所提出的特定细节。

参考文献：

[1]Michael A.Gerzon。多声道广播和视频中的高保真立体声响复制(Ambisonicsin multichannel broadcasting and video)。J.音频工程学会,33(11):859–871,1985年。

[2]V.Pulkki，"空间声重现和立体声升混中的音频编码定向音频编码(Directional audio coding in spatial sound reproduction and stereoupmixing)"，AES第28届国际会议论文集，第251-258页，瑞典2006年6月30日-7月2日。

[3]V.Pulkki，"利用定向音频编码的空间声重现(Spatial sound reproductionwith directional audio coding)"，J.音频工程学会，第55卷，第6号，第503-516页，2007年6月。

[4]C.Faller。"关于空间音频编码器的麦克风前端(Microphone front-ends forspatial audio coders)"。AES第125届国际公约的程序,旧金山，2008年10月。

[5]M.Kallinger,H.Ochsenfeld,G.Del Galdo,F.Küch,D.Mahne,R.Schultz-Amling.和O.Thiergart，"一种用以定向音频编码的空间滤波方法(A spatial filteringapproach for directional audio coding)"，音频工程协会大会126，德国慕尼黑，2009年5月。

[6]R.Schultz-Amling,F.Küch,O.Thiergart,和M.Kallinger，"基于参数声场表现的声学缩放(Acoustical zooming based on a parametric sound fieldrepresentation)"，音频工程协会大会128,英国伦敦,2010年5月。

[7]J.Herre,C.Falch,D.Mahne,G.Del Galdo,M.Kallinger,和O.Thiergart，"结合空间音频对象编码和DirAC技术的互动在线讨论(Interactive teleconferencingcombining spatial audio object coding and DirAC technology)"，音频工程协会大会128，英国伦敦，2010年5月。

[8]E.G.Williams，傅立叶音响：声音辐射和近场声音全息术(FourierAcoustics:Sound Radiation and Nearfield Acoustical Holography)，科学出版社，1999年。

[9]A.Kuntz和R.Rabenstein，"从圆形测量的外推波场的限制(Limitations inthe extrapolation of wave fields from circular measurements)"，第15届欧洲信号处理会议(EUSIPCO2007)，2007年。

[10]A.Walther和C.Faller，"通过使用b-格式录制的隔开的麦克风阵列的线性仿真(Linear simulation of spaced microphone arrays using b-format recordings)"，音频工程协会大会128，英国伦敦，2010年5月。

[11]US61/287,596："一种用以将第一参数空间音频信号转换成第二参数空间音频信号的装置和方法(An Apparatus and a Method for Converting a FirstParametric Spatial Audio Signal into a Second Parametric Spatial AudioSignal)"。

[12]S.Rickard和Z.Yilmaz，"针对言语的接近W-分离正交(On the approximateW-disjoint orthogonality of speech)"，语音和信号处理，2002.ICASSP2002.2002年4月的IEEE国际学术研讨会，第1卷。

[13]R.Roy,A.Paulraj以及T.Kailath，"通过子空间旋转法的到达方向估计–ESPRIT"，在1986年4月的美国加利福尼亚州史丹佛大学的语音与信号处理(ICASSP)的IEEE国际学术研讨会中(IEEE音响国际会议，语音和信号处理(ICASSP)，史丹福，美国加州，1986年4月)。

[16]F.J.Fahy，声音强度(Sound Intensity)，埃塞克斯：Elsevier科学出版有限公司,1989年。

[17]R.Schultz-Amling,F.Küch,M.Kallinger,G.Del Galdo,T.Ahonen和V.Pulkki，"通过使用定向音频编码的空间音频的分析和重现的平面麦克风阵列处理(Planar microphone array processing for the analysis and reproduction ofspatial audio using directional audio coding)"，在音频工程协会大会124，荷兰阿姆斯特丹，2008年5月。

[18]M.Kallinger,F.Küch,R.Schultz-Amling,G.Del Galdo,T.Ahonen和V.Pulkki，"使用麦克风阵列提高方向估计以供定向音频编码用(Enhanced directionestimation using microphone arrays for directional audio coding)"；在免持语音通信和麦克风阵列，2008.HSCMA2008,May2008年5月，第45-48页。

[19]R.K.Furness，"高保真立体声响复制-概要(Ambisonics-An overview)"，在AES第8届国际学术研讨会，1990年4月，第81-189页。

[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,以及E.A.P.Habets。"通过使用由配置的阵列所搜集的几何信息产生虚拟麦克风信号(Generating virtual microphone signals using geometrical information gatheredby distributed arrays)"，免持语音通信和麦克风阵列的第三次联合研讨会(HSCMA’11)英国爱丁堡，2011年5月。

[21]Ville Pulkki。利用定向音频编码的空间声重现(Spatial soundreproduction with directional audio coding)。J.音频工程学会，55(6):503–516,2007年6月。

Claims

1.一种定位麦克风的装置，包括：

空间功率密度确定器(10；21)，用以依据声源信息来确定表示环境中的多个场地的功率值的空间功率密度，所述声源信息指位于所述环境中的一个或多个声源的一个或多个功率值和一个或多个位置值，

空间信息估计器(20；22)，用以依据所述空间功率密度来估计麦克风的位置，

其中，所述空间信息估计器(20；22)包括声音场景中心估计器(41)，所述声音场景中心估计器(41)用以估计所述环境中的声音场景的中心的位置，

其中，所述空间信息估计器(20；22)还包括麦克风位置计算器(42；44)，所述麦克风位置计算器(42；44)用以依据所述声音场景的所述中心的所述位置确定所述麦克风的位置，

其中，所述空间信息估计器(20；22)包括取向确定器(45)，所述取向确定器(45)用以确定所述麦克风的取向，

其中，所述取向确定器(45)适合于依据所述空间功率密度确定所述麦克风的所述取向，

其中，当所述环境为二维环境时，所述空间功率密度确定器(10；21)适合于通过应用下面的公式来确定所述空间功率密度

Γ (x, y, k, n) = Σ_{i = 1}^{N} {power}_{i} (k, n) \cdot g (γ_{i}, x - x_{E S S i}, y - y_{E S S i}, k, n),

用以针对时频点(k,n)计算出所述环境中的所述多个场地的功率值Γ(x,y,k,n)，其中g是相关于γ_i、且相关于x-x_ESSi、且相关于y-y_ESSi、且相关于k、且相关于n的函数，其中k表示频率指数以及n表示时间指数，其中N表示所述声源的数量，其中x、y表示所述多个场地之一的坐标，其中power_i(k,n)表示位于时频点(k,n)的第i个有效声源的所述功率值，其中x_ESSi、y_ESSi表示所述第i个声源的坐标，其中γ_i为标量值以及其中g为相关于x、y、x_ESSi、y_ESSi、k、n以及γ_i的函数，或者

其中，当所述环境为三维环境时，所述空间功率密度确定器(10；21)适合于通过应用下面的公式来确定所述空间功率密度

Γ (x, y, z, k, n) = Σ_{i = 1}^{N} {power}_{i} (k, n) \cdot g (γ_{i}, x - x_{E S S i}, y - y_{E S S i}, z - z_{E S S i}, k, n),

用以针对时频点(k,n)计算出所述环境中的所述多个场地的所述功率值Γ(x,y,z,k,n)，其中k表示频率指数以及n表示时间指数，其中N表示所述声源的数量，其中x、y、z表示所述多个场地之一的坐标，其中power_i(k,n)表示位于时频点(k,n)的第i个声源的所述功率值，其中x_ESSi、y_ESSi、z_ESSi表示所述第i个声源的坐标，其中γ_i为标量值，以及其中g为相关于x、y、z、x_ESSi、y_ESSi、z_ESSi、k、n和γ_i的函数。

2.如权利要求1所述的装置，其中，所述取向确定器(45)适合于确定所述麦克风的所述取向，以使得所述麦克风朝向所述声音场景的所述中心而取向。

3.如权利要求1所述的装置，其中，所述麦克风位置计算器(42；44)适合于计算所述麦克风的所述位置，其中所述麦克风为虚拟空间麦克风。

4.如权利要求1所述的装置，其中，所述声音场景中心估计器(41)适合于计算所述空间功率密度的重心，用以估计所述声音场景的所述中心。

5.如权利要求1所述的装置，

其中，所述声音场景中心估计器(41)被配置成：用以依据所述空间功率密度来确定功率延迟分布，并且用以依据关于所述环境中的多个场地中的每一个场地的所述功率延迟分布来确定均方根延迟，以及

其中，所述声音场景中心估计器(41)被配置成：用以将所述多个场地中的场地确定为所述声音场景的所述中心，所述多个场地中的该场地具有所述多个场地的所述均方根延迟中的最小均方根延迟。

6.如权利要求1所述的装置，

其中，所述麦克风位置计算器(42；44)适合于确定经由所述环境中的所述声音场景的所述中心的多条线中的宽度最宽的线，

其中，经由所述声音场景的所述中心的所述多条线中的每一条线与能量宽度相关联，以及其中，所述宽度最宽的线被定义为经由所述声音场景的所述中心的所述多条线中的具有最大能量宽度的线，

其中，所述麦克风位置计算器(42；44)适合于：确定所述麦克风的位置，以使得穿过所述声音场景的所述中心与所述麦克风的所述位置的第二线垂直于所述宽度最宽的线。

7.如权利要求6所述的装置，其中，所述多条线中的被考虑的线的能量宽度指在所述被考虑的线上的段的最大宽度，以使得限制所述段的所述段的第一点、以及以使得限制所述段的所述段的不同的第二点两者都具有由所述空间功率密度所表示的功率值，所述空间功率密度所表示的该功率值大于或等于预定功率值。

8.如权利要求1所述的装置，其中，所述麦克风位置计算器(42；44)被配置成用以将奇异值分解应用至具有多列的矩阵，

其中，所述矩阵的所述列表示所述环境中的场地相对于所述声音场景的所述中心的位置，以及

其中，所述矩阵的所述列只表示由所述空间功率密度所表示的功率值大于预定阈值的所述场地的位置，或所述矩阵的所述列只表示由所述空间功率密度所表示的功率值大于或等于预定阈值的所述场地的位置。

9.一种用以产生音频输出信号的装置(991)，包括：

如权利要求1所述的定位麦克风的装置(992)，其中所述定位麦克风的装置的所述麦克风位置计算器(993)被配置成用以计算麦克风的位置以作为计算出的麦克风位置，以及

用以产生所述音频输出信号的装置(994)，用以仿真位于所述计算出的麦克风位置的虚拟麦克风的录音，其中用以产生所述音频输出信号的所述装置包括：

声音事件位置估计器(110)，用以估计声源位置，所述声源位置指声源在所述环境中的位置，所述声源发出声波，其中所述声音事件位置估计器(110)适合于依据第一方向信息以及依据第二方向信息来估计所述声源位置，所述第一方向信息由位于环境中的第一真实麦克风位置的第一真实空间麦克风所提供，所述第二方向信息由位于所述环境中的第二真实麦克风位置的第二真实空间麦克风所提供；以及

信息计算模块(120)，用以依据由所述第一真实空间麦克风所录制的第一录制的音频输入信号、依据所述第一真实麦克风位置以及依据所述计算出的麦克风位置来产生所述音频输出信号。

10.一种定位麦克风的方法，包括：

依据声源信息来确定表示环境中的多个场地的功率值的空间功率密度，其中所述声源信息指位于所述环境中的一个或多个声源的一个或多个功率值和一个或多个位置值，以及

依据所述空间功率密度来估计麦克风的位置，以及

确定所述麦克风的取向，

其中，依据所述空间功率密度来估计麦克风的位置通过估计所述环境中的声音场景的中心的位置、以及通过依据所述声音场景的所述中心的所述位置确定所述麦克风的位置来进行，

其中，所述空间信息估计器(20；22)包括取向确定器(45)，所述取向确定器(45)用以确定所述麦克风的取向，其中所述取向确定器(45)适合于依据所述空间功率密度确定所述麦克风的所述取向，

Γ (x, y, z, k, n) = Σ_{i = 1}^{N} {power}_{i} (k, n) \cdot g (γ_{i}, x - x_{E S S i}, y - y_{E S S i}, k, n),

Γ (x, y, z, k, n) = Σ_{i = 1}^{N} {power}_{i} (k, n) \cdot g (γ_{i}, x - x_{E S S i}, y - y_{E S S i}, z - z_{E S S i}, k, n),