CN102918588A

CN102918588A - 基于声输入信号提供空间参数的空间音频处理器和方法

Info

Publication number: CN102918588A
Application number: CN2011800267426A
Authority: CN
Inventors: 奥利弗·蒂尔加特; 法比安·库奇; 理查德·舒尔茨-阿姆林; 马库斯·卡琳格尔; 乔瓦尼·德尔加尔多; 阿希姆·昆茨; 迪尔克·玛赫内; 维莱·普尔基; 米科-维莱·雷蒂嫩
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-03-29
Filing date: 2011-03-16
Publication date: 2013-02-06
Anticipated expiration: 2031-03-16
Also published as: EP2375410A1; WO2011120800A1; KR20130007634A; EP2543037B1; RU2596592C2; ES2452557T3; US9626974B2; US10327088B2; CA2794946C; US20170134876A1; BR112012025013B1; CN102918588B; AU2011234772A1; EP2543037B8; KR101442377B1; ES2656815T3; EP2543037A1; AU2011234772B2; HK1180824A1; JP2013524267A

Abstract

本发明公开了一种用于基于声输入信号来提供空间参数的空间音频处理器，包括信号特性确定器和可控参数估计器。信号特性确定器被配置为确定声输入信号的信号特性。用于根据可变空间参数计算规则来计算针对声输入信号的空间参数的可控参数估计器被配置为根据所确定的信号特性来修改可变空间参数计算规则。

Description

基于声输入信号提供空间参数的空间音频处理器和方法

技术领域

本发明的实施方式创建了一种用于基于声输入信号来提供空间参数的空间音频处理器。本发明的其他实施方式创建了一种用于基于声输入信号来提供空间参数的方法。本发明的实施方式可涉及例如基于麦克风录音的空间声音的声学分析、参数化描述和再现的领域。

背景技术

空间声音记录目的在于利用多个麦克风捕获声场，使得在再现一侧，当声像存在于记录位置处时，听众能感知声像。用于空间声音记录的标准方法使用简单立体声麦克风或更复杂的定向麦克风组合，例如，诸如用在立体混响中的B格式麦克风。通常，这些方法被称为同步麦克风技术。

可替代地，可应用基于声场的参数再现的方法，该方法被称为参数空间音频处理器。近来，已提出针对空间音频的分析、参数化描述和再现的几种技术。各系统关于参数化描述的类型、所需输入信号的类型、与具体扬声器设置的相关性和无关性等具有独特优势和缺陷。

用于空间声音的有效参数化描述的一个实例由定向音频编码（DirAC）给出（V.Pulkki:Spatial Sound Reproduction with Directional AudioCoding,Journal of the AES,Vol.55,No.6,2007）。DirAC表示用于空间声音的声学分析和参数化描述（DirAC分析）以及用于其再现（DirAC合成）的方法。DirAC分析采用多个麦克风信号作为输入。以一个或几个下混音频信号和包括声音方向和扩散度的参数侧信息的形式为多个频率子带提供空间声音的描述。扩散度参数描述了所记录的声场如何扩散。此外，扩散度可被用作对方向估计的可靠性测量。另一应用由空间音频信号的方向相关处理构成（M.Kallinger et al.:A Spatial Filtering Approach forDirectional Audio Coding,126th AES Convention,Munich,May 2009）。基于参数化表示，可利用任意扬声器设置来再现空间音频。此外，DirAC分析可被视为参数化编码系统的声学前端，该参数化编码系统的声学前端能够编码、传输和再现多信道空间音频，例如MPEG环绕。

空间声场分析的另一方法由所谓的空间音频麦克风（SAM）来表示（C.Faller:Microphone Front-Ends for Spatial Audio Coders,in Proceedingsof the AES 125th International Convention,San Francisco,Oct.2008）。SAM采用同步定向麦克风的信号作为输入。与DirAC类似，SAM连同扩散声音分量的估计一起来确定用于声场的参数化描述的声音DOA（DOA-波达方向）。

用于空间音频的记录和分析的参数化技术（诸如DirAC和SAM）依赖于对具体声场参数的估计。因此，这些方法的性能强烈取决于空间隐含参数（诸如声音的波达方向或声场扩散度）的估计性能。

一般地，当估计空间隐含参数时，可对声输入信号（例如，对稳定性或者对音调）作出特定假设，以采用用于音频处理的最佳（即，最有效或最准确）算法。传统上，为此可定义单个时间不变信号模型。然而，通常出现的问题是不同音频信号可能表现出极为瞬时的变化，使得描述音频输入的通用的时间不变模型经常不充分。尤其是当考虑用于处理音频的单个时间不变信号模型时，可能发生模型失配，这降低了所应用的算法的性能。

本发明的实施方式的目的在于提供用于具有由声输入信号的瞬时变化或瞬时非稳定引起的较低模型失配的声输入信号的空间参数。

发明内容

该目的由根据权利要求1所述的空间音频处理器、根据权利要求14所述的用于基于声输入信号来提供空间参数的方法以及根据权利要求15所述的计算机程序来解决。

本发明的实施方式创建了一种用于基于声输入信号来提供空间参数的空间音频处理器。空间音频处理器包括信号特性确定器和可控参数估计器。信号特性确定器被配置为确定声输入信号的信号特性。可控参数估计器被配置为根据可变空间参数计算规则来计算针对声输入信号的空间参数。参数估计器还被配置为根据所确定的信号特性来修改可变空间参数计算规则。

本发明的实施方式的思想在于当基于声输入信号的信号特性来修改用于计算空间参数的计算规则时，可创建用于基于声输入信号来提供空间参数的空间音频处理器，该空间音频处理器减小了由声输入信号的瞬时变化引起的模型失配。已发现当确定声输入信号的信号特性时，可减小模型失配，并基于所确定的信号特性来计算用于声输入信号的空间参数。

换言之，通过例如在预处理步骤中（在信号特性确定器中）确定声输入信号的特性（信号特性）并随后识别最适合当前情况（当前信号特性）的信号模型（例如，空间参数计算规则或空间参数计算规则的参数），本发明的实施方式可处理由声输入信号的瞬时变化引起的模型失配问题。该信息可被馈送至参数估计器，该参数估计器随后可选择最佳参数估计策略（针对声输入信号的瞬时变化）来计算空间参数。因此，本发明的实施方式的优势在于可实现具有显著减小的模型失配的参数化场描述（空间参数）。

声输入信号例如可以是利用一个或多个麦克风（例如，利用麦克风阵列或者利用B格式麦克风）测量的信号。不同麦克风可具有不同方向性。声输入信号例如可以是例如在时域或频域中（例如，在STFT域中，STFT=短时傅里叶变换）或者换言之，以时间表示或频率表示的声压“P”或特定速度“U”。声输入信号例如可包括在三个不同（例如，正交）方向上的分量（例如，x分量、y分量和z分量）以及全方位分量（例如，w分量）。此外，声输入信号可仅包括三个方向的分量且不包括全方位分量。此外，声输入信号可仅包括全方位分量。此外，声输入信号可包括两个定向分量（例如，x分量和y分量、x分量和z分量、或者y分量和z分量）和全方位分量，或者不包括全方位分量。此外，声输入信号可仅包括一个定向分量（例如，x分量、y分量或z分量）和全方位分量，或者不包括全方位分量。

由信号特性确定器根据声输入信号（例如，根据麦克风信号）确定的信号特性例如可以是：与时间、频率、空间有关的稳定间隔；双向通话或多个声源的存在性；音调或瞬变的存在性；声输入信号的信噪比；或者类似掌声信号的存在性。

类似掌声信号在本文中被定义为包括例如具有不同方向的快速瞬变时间序列的信号。

由信号特性确定器采集的信息可被用于例如在定向音频编码（DirAC）或空间音频麦克风（SAM）中控制可控参数估计器，例如用于选择最适合当前情况（声输入信号的当前信号特性）的估计器策略或估计器设置（或者换言之，用于修改可变空间参数计算规则）。

本发明的实施方式可以类似方式应用于两个系统（空间音频麦克风（SAM）和定向音频编码（DirAC））或者任何其他参数化系统。在下文中，重点将集中于定向音频编码分析。

根据本发明的一些实施方式，可控参数估计器可被配置为计算空间参数，作为包括关于时隙和频率子带的扩散度参数和/或关于时隙和频率子带的波达方向参数的定向音频编码参数，或者作为空间音频麦克风参数。

在下文中，定向音频编码和空间音频麦克风被视为对诸如例如波达方向和声音扩散度的空间参数操作的系统声学前端。应当注意，也可将本发明的概念直接应用于其他声学前端。定向音频编码和空间音频麦克风均提供从声输入信号获取的具体（空间）参数来描述空间声音。传统上，当利用声学前端（诸如定向音频编码和空间音频麦克风）来处理空间音频时，针对声输入信号的单一通用模型被定义为使得可获得最佳（或接近最佳）的参数估计器。只要满足通过模型考虑的基本假设，估计器就按需求执行。如前文提及，如果不是该情况，则出现模型失配，这通常导致严重估计误差。该模型失配代表经常性问题，因为声输入信号通常高度随时间变化。

附图说明

将参照附图来描述根据本发明的实施方式，其中：

图1示出了根据本发明实施方式的空间音频处理器的示意性框图；

图2示出了作为参考实例的定向音频编码器的示意性框图；

图3示出了根据本发明又一实施方式的空间音频处理器的示意性框图；

图4示出了根据本发明又一实施方式的空间音频处理器的示意性框图；

图5示出了根据本发明又一实施方式的空间音频处理器的示意性框图；

图6示出了根据本发明又一实施方式的空间音频处理器的示意性框图；

图7a示出了可用于根据本发明实施方式的空间音频处理器的参数估计器的示意性框图；

图7b示出了可用于根据本发明实施方式的空间音频处理器的参数估计器的示意性框图；

图8示出了根据本发明又一实施方式的空间音频处理器的示意性框图；

图9示出了根据本发明又一实施方式的空间音频处理器的示意性框图；

图10示出了根据本发明又一实施方式的方法的流程图。

具体实施方式

在利用附图更详细地说明本发明的实施方式之前，应当指出，相同或功能等同的元件提供有相同附图标记，且将省略对这些元件的重复描述。因此，对提供有相同附图标记的元件的描述可相互交换。

根据图1的空间音频处理器

在下文中，将参照图1来描述空间音频处理器100，图1示出了该空间音频处理器的示意性框图。用于基于声输入信号104（或者基于多个声输入信号104）来提供空间参数102或空间参数估计102的空间音频处理器100包括可控参数估计器106和信号特性确定器108。信号特性确定器108被配置为确定声输入信号104的信号特性110。可控参数估计器106被配置为根据可变空间参数计算规则来计算针对声输入信号104的空间参数102。可控参数估计器106还被配置为根据所确定的信号特性110来修改可变空间参数计算规则。

换言之，根据声输入信号或声输入信号104的特性来控制可控参数估计器106。

如上所述，声输入信号104可包括定向分量和/或全方位分量。如已经提及，合适的信号特性110例如可以是与声输入信号104的时间、频率、空间有关的稳定间隔、声输入信号104中的双向通话或多个声源的存在性、声输入信号104内的音调或瞬变的存在性、声输入信号104的掌声存在性或信噪比。合适信号特性的列举仅是信号特性确定器108可确定的信号特性的一个实例。根据本发明的其他实施方式，信号特性确定器108也可确定声输入信号104的其他（未提及的）信号特性，且可控参数估计器106可基于声输入信号104的这些其他信号特性来修改可变空间参数计算规则。

可控参数估计器106可被配置为计算空间参数102，作为包括关于时隙n和频率子带k的扩散度参数Ψ(k,n)和/或关于时隙n和频率子带k的波达方向参数的定向音频编码参数，或者作为例如关于时隙n和频率子带k的空间音频麦克风参数。

可控参数估计器106还可被配置为使用除DirAC或SAM之外的另一概念来计算空间参数102。DirAC参数和SAM参数的计算应仅被理解为实例。例如，可控参数估计器可被配置为计算空间参数102，使得该空间参数包括声音方向、声音扩散度或声音方向的统计测量。

声输入信号104例如可被设置在时域或（短时）频域中，例如在STFT域中。

例如，设置在时域中的声输入信号104可包括多个声学音频流x₁(t)至x_N(t)，其各自包括时间上的多个声输入样本。各声输入流例如可由不同麦克风提供，且可与不同看方向相对应。例如，第一声输入流x₁(t)可与第一方向（例如，与x方向）相对应；第二声输入流x₂(t)可与第二方向相对应，该第二方向可与第一方向正交（例如，y方向）；第三声输入流x₃(t)可与第三方向相对应，该第三方向可与第一方向和第二方向正交（例如，z方向）；以及第四声输入流x₄(t)可以是全方位分量。这些不同声输入流可由例如在正交方向上的不同麦克风记录，且可使用模数转换器来数字化。

根据本发明的其他实施方式，声输入信号104可包括例如在时频域（诸如STFT域）中以频率表示的声输入流。例如，可以B格式提供声输入信号104，该B格式包括特定速度矢量（particle velocity vector）U(k,n)和声压矢量P(k,n)，其中，k表示频率子带，以及n表示时隙。特定速度矢量U(k,n)是声输入信号104的定向分量，其中，声压P(k,n)表示声输入信号104的全方位分量。

如前述所提及，可控参数估计器106可被配置为提供空间参数102，作为定向音频编码参数或者作为空间音频麦克风参数。在下文中，将作为参考实例来给出常规定向音频编码器。该常规定向音频编码器的示意性框图在图2中示出。

根据图2的常规定向音频编码器

图2示出了定向音频编码器200的示意性框图。该定向音频编码器200包括B格式估计器202。B格式估计器202包括滤波器组。定向音频编码器200还包括定向音频编码参数估计器204。定向音频编码参数估计器204包括能量分析器206，其用于执行能量分析。此外，定向音频编码参数估计器204包括方向估计器208和扩散度估计器210。

定向音频编码（DirAC）（V.Pulkki:Spatial Sound Reproduction withDirectional Audio Coding,Journal of the AES,Vol.55,No.6,2007）表示用于空间声音的分析和再现的有效的感知驱动方法。DirAC分析以下混音频信号和附加侧信息（例如，声音的波达方向（DOA）和声场扩散度）的形式来提供声场的参数化描述。DirAC考虑与人听觉有关的特征。例如，假设双耳时间差（ITD）和双耳声强差（ILD）可由声音DOA描述。相应地，假设双耳相干性（IC）可由声场的扩散度表示。根据DirAC分析的输出，声音再现系统可利用任意一组扬声器来生成用于再现具有原始空间感的声音的特征。应当注意，扩散度也可被视为对所估计的DOA的可靠性测量。扩散度越高，DOA的可靠性越低，且反之亦然。该信息可被许多基于DirAC的工具（诸如源定位（O.Thiergart et al.:Localization of SoundSources in Reverberant Environments Based on Directional Audio CodingParameters,127th AES Convention,NY，October 2009））使用。本发明的实施方式聚焦于DirAC的分析部分而非声音再现。

在DirAC分析中，基于由B格式估计器202提供的B格式信号，经由由声场的能量分析器206执行的能量分析来估计参数。B格式信号由与声压P(k,n)相对应的全方位信号以及与笛卡尔坐标系的x方向、y方向和z方向对齐的一个、两个或三个偶极信号来构成。偶极信号对应于特定速度矢量U(k，n)的元素（element）。DirAC分析在图2中示出。时域中的麦克风信号（即，x₁(t)、x₂(t)、…、x_N(t)）被提供给B格式估计器202。这些时域麦克风信号在下文中可被称为“时域声输入信号”。B格式估计器202包括短时傅里叶变换（STFT）或另一滤波器组（FB），其计算在短时频域中的B格式信号，即声压P(k,n)和特定速度矢量U(k,n)，其中，k和n分别表示频率索引（频率子带）和时间块索引（时隙）。信号P(k，n)和U(k,n)在下文中可被称为“短时频域声输入信号”。B格式信号可从利用麦克风阵列的测量中获得（如在R.Schultz-Amling et al.:Planar MicrophoneArray Processing for the Analysis and Reproduction of Spatial Audio usingDirectional Audio Coding,124th AES Convention,Amsterdam,TheNetherlands,May 2008中所述），或者直接通过使用例如B格式麦克风来获得。在能量分析中，可使用方程（1）针对不同频带来单独估计有效声音强度矢量I_a(k,n)，

I_a(k,n)=Re{P(k,n)U*(k,n)}，（1）

式中，Re(·)产生实部，以及U*(k,n)表示特定速度矢量U(k,n)的复共轭。

在下文中，有效声音强度矢量也将被称为强度参数。

使用方程1中的STFT域表示，声音

的DOA可在方向估计器208中针对每个k和n被确定为有效声音强度矢量I_a(k,n)的相反方向。在扩散度估计器210中，根据方程（2），可基于有效强度的波动来计算声场

的扩散度，

\tilde{Ψ} (k, n) = 1 - \frac{| E (I_{a} (k, n)) |}{E (| I_{a} (k, n) |)}, - - - (2)

式中，|(.)|表示矢量范数，以及E(·)给出期望。在实际应用中，期望E(·)可通过沿一个或多个具体维度（例如，沿时间、频率或空间）的有限平均化来近似。

已发现方程2中的期望E(·)可通过沿具体维度平均化来近似。为此，可沿时间（时间平均化）、频率（频谱平均化）或空间（空间平均化）来执行平均化。空间平均化是指例如利用放置在不同点处的多个麦克风阵列来估计方程2中的有效声音强度矢量I_a(k,n)。例如，我们可在房间内四个不同点处放置四个不同（麦克风）阵列。因此，我们随后针对每个时频点(k,n)均具有四个强度矢量I_a(k,n)，这四个强度矢量I_a(k,n)可被平均化（以与例如频谱平均化相同的方式）以获得对期望算子E(·)的近似。

例如，当使用在几个n上的时间平均化时，我们获得由方程（3）给出的对扩散度参数的估计Ψ(k,n)，

Ψ (k, n) = 1 - \frac{| {< I_{a} (k, n) >}_{n} |}{{< | I_{a} (k, n) | >}_{n}} . - - - (3)

存在用于实现如（3）中所需的时间平均化的通用方法。一种方法是在特定数目N个时刻n上的块平均化（间隔平均化），由方程（4）给出，

{< y (k, n) >}_{n} = \frac{1}{N} Σ_{m = 0}^{N - 1} y (k, n - m), - - - (4)

式中，y(k,n)是要平均化的数量，例如，I_a(k,n)或|I_a(k,n)|。用于计算时间平均的第二方法（由于其效率而通常用在DirAC中）是应用无限脉冲响应（IIR）滤波器。例如，当使用具有滤波器系数α∈[0,1]的一阶低通滤波器时，特定信号y(k,n)沿n的时间平均化可利用方程（5）来获得，

{< y (k, n) >}_{n} = \overset{&OverBar;}{y} (k, n) = α \cdot y (k, n) + (1 - α) \cdot \overset{&OverBar;}{y} (k, n - 1), - - - (5)

式中，表示实际平均化结果，以及

是过去平均化结果，即针对时刻(n-1)的平均化结果。对于较小α实现了较长时间平均化，而较长α产生更多瞬时结果，其中，过去结果计数更少。针对用于DirAC的α的典型值为α=0.1。

已发现除使用时间平均化之外，方程2中的期望算子也可通过沿几个或全部频率子带k的频谱平均化来近似。该方法仅适用于需要在随后处理中（例如，当仅存在单个声源时）针对不同频率子带的非独立扩散度估计的情况。因此，通常计算扩散度的最合适方法实际可能是利用时间平均化。

一般地，当通过平均化处理使期望算子近似为方程2中的期望算子时，我们假设与数量有关的所考虑信号的稳定性要被平均化。平均化越长，即考虑更多样本，结果通常越准确。

在下文中，空间音频麦克风（SAM）分析也将被简要说明。

空间音频麦克风（SAM）分析

与DirAC类似，SAM分析（C.Faller:Microphone Front-Ends for SpatialAudio Coders,in Proceedings of the AES 125th International Convention,SanFrancisco,Oct.2008）提供了空间声音的参数化描述。声场表示基于下混音频信号和参数侧信息，即声音DOA以及直接和扩散声音分量的声强估计。到SAM分析的输入是利用多个同步定向麦克风（例如，放置在同一点处的两个心形传感器）测量的信号。SAM分析的基础是输入信号的功率谱密度（PSD）和交叉谱密度（CSD）。

例如，令x₁(k,n)和x₂(k,n)为由两个同步定向麦克风测量的时间-频率域信号。两个输入信号的PSD可利用方程（5a）来确定，

PSD₁(k,n)=E{X₁(k,n)X*₁(k,n)}

PSD₂(k,n)=E{X₂(k,n)X*₂(k,n)}。（5a）

两个输入之间的CSD由以下相关性给出：

CSD(k,n)=E{X₁(k,n)X*₂(k,n)}。（5b）

SAM假设所测量的输入信号x₁(k,n)和x₂(k,n)表示直接声音和扩散声音的叠加，而直接声音和扩散声音不相关。基于该假设（其在C.Faller:Microphone Front-Ends for Spatial Audio Coders,in Proceedings of the AES125th International Convention,San Francisco,Oct.2008中示出），可以针对各传感器根据方程5a和5b得出所测量的直接声音和所测量的扩散声音的PSD。根据直接声音PSD之间的比，随后可以利用麦克风定向响应的先验知识来确定声音的DOA

已发现在实际应用中，方程5a和5b中的期望E{·}可通过时间和/或频谱平均化操作来近似。这与前一节中描述的DirAC中的扩散度计算类似。类似地，可使用例如方程4或5来进行平均化。为给出一个实例，可根据方程（5c）基于递归时间平均化来执行CSD估计，

CDS(k，n)≈α·X₁(k，n)X*₂(k，n)+(1-α)·CDS(k，n-1)。（5c）

如前一节所讨论，当通过平均化处理使期望算子近似为方程5a和5b中的期望算子时，可能必须假设与要平均化的数量有关的所考虑信号的稳定性。

在下文中，将说明根据稳定间隔来执行时间可变参数估计的本发明的实施方式。

根据图3的空间音频处理器

图3示出了根据本发明实施方式的空间音频处理器300。空间音频处理器300的功能可与根据图1的空间音频处理器100的功能相似。空间音频处理器300可包括图3所示的附加特征。空间音频处理器300包括可控参数估计器306，该可控参数估计器306的功能可与根据图1的可控参数估计器106的功能相似，且可包括下文中描述的附加特征。空间音频处理器300还包括信号特性确定器308，该信号特性确定器308的功能可与根据图1的信号特性确定器108的功能相似，且可包括下文中描述的附加特征。

信号特性确定器308可被配置为例如使用稳定间隔确定器310来确定声输入信号104的稳定间隔，该稳定间隔构成了所确定的信号特性110。参数估计器306可被配置为根据所确定的信号特性110（即，所确定的稳定间隔）来修改可变参数计算规则。参数估计器306可被配置为修改可变参数计算规则，使得用于计算空间参数102的平均化时段或平均化长度针对相对较长的稳定间隔相对较长（较高），且针对相对较短的稳定间隔相对较短（较低）。例如，平均化长度可等于稳定间隔。

换言之，空间音频处理器300创建了用于通过考虑声输入信号104或声输入信号的变化的稳定间隔来改善定向音频编码中的扩散度估计的概念。

例如，声输入信号104的稳定间隔可定义声输入信号104的声源未出现（或仅非常轻微地出现）移动的时间段。一般地，声输入信号104的稳定性可定义声输入信号104的特定信号特性随时间保持恒定的时间段。例如，信号特性可以是信号能量、空间扩散度、音调、信噪比和/或其他。通过考虑用于计算空间参数102的声输入信号104的稳定间隔，用于计算空间参数102的平均化长度可被修改为使得可提高表示声输入信号104的空间参数102的精度。例如，针对较长稳定间隔（这意味着声输入信号104的声源在较长间隔内未移动），可应用比针对较短稳定间隔的更长的时间（或时段）平均化。因此，根据声输入信号104的稳定间隔，可（总是）由可控参数估计器306来执行至少接近最佳（或者在一些情况下，恰好为最佳）的空间参数估计。

可控参数估计器306例如可被配置为提供例如关于频率子带k和时隙或时间块n的STFT域中的扩散度参数Ψ(k,n)。可控参数估计器306可包括扩散度估计器312，其用于例如基于STFT域中的声输入信号104的强度参数I_a(k,n)的时间平均化来计算扩散度参数Ψ(k,n)。此外，可控参数估计器306可包括能量分析器314，其用于执行声输入信号104的能量分析以确定强度参数I_a(k,n)。强度参数I_a(k,n)也可被指定为有效声音强度矢量，且可由能量分析器314根据方程1来计算。

因此，声输入信号104也可例如以B格式在STFT域中提供，B格式包括关于频率子带k和时隙n的声压P(k，n)和特定速度矢量U(k，n)。

扩散度估计器312可基于例如相同频率子带k的声输入信号104的强度参数I_a(k,n)的时间平均化来计算扩散度参数Ψ(k,n)。扩散度估计器312可根据方程3来计算扩散度参数Ψ(k,n)，其中，可由扩散度估计器312根据所确定的稳定间隔来改变强度参数的数目以及由此改变平均化长度。

作为一个数值实例，若由稳定间隔确定器310确定了相对很长的稳定间隔，则扩散度估计器312可对强度参数I_a(k,n-10)至I_a(k,n-1)执行强度参数I_a(k,n)的时间平均化。针对由稳定间隔确定器310确定的相对很短的稳定间隔，扩散度估计器312可对强度参数I_a(k,n-4)至I_a(k,n-1)执行强度参数I_a(k，n)的时间平均化。

可以看出，由扩散度估计器312实施的时间平均化的平均化长度与用于时间平均化的强度参数I_a(k，n)的数目相对应。

换言之，通过考虑声输入信号或声输入信号104的时间不变的稳定间隔（也被称为连贯时间）来改善定向音频编码扩散度估计。如前所述，实际用于估计扩散度参数Ψ(k，n)的常用方法是使用方程3，该方程3包括有效强度矢量I_a(k，n)的时间平均化。已发现最佳平均化长度取决于声输入信号或声输入信号104的时间稳定性。已发现当平均化长度被选择为等于稳定间隔时，可获得最准确结果。

传统上，如采用常规定向音频编码器200所示，定义用于声输入信号的通用时间不变模型，随后根据通用时间不变模型来定义最佳参数估计策略，在该情况下，这意味着最佳的时间平均化长度。对于扩散度估计，通常假设声输入信号具有特定时间间隔（例如20ms）内的时间稳定性。换言之，所考虑的稳定间隔被设定为对于几个输入信号为典型的恒定值。根据假设的稳定间隔，随后得出最佳时间平均化策略，例如，当使用如方程5所示的IIR平均化时的α的最佳值，或者当使用如方程4所示的块平均化时的最佳N。

然而，已发现不同声输入信号通常被不同稳定间隔表征。因此，假设用于声输入信号的时间不变模型的传统方法不能成立。换言之，当输入信号表现出与由估计器假设的稳定间隔不同的稳定间隔时，我们可能遇到模型失配，这可能导致不良参数估计。

因此，所提出的新方法（例如，在空间音频处理器300中实现）根据实际信号特性来自适应参数估计策略（可变空间参数计算规则），如图3所示，对于扩散度估计：在预处理步骤中（由信号特性确定器308）确定声输入信号104（即，B格式信号）的稳定间隔。根据该信息（根据所确定的稳定间隔），选择最佳（或者在一些情况下接近最佳）时间平均化长度、针对α或N的最佳（或者在一些情况下接近最佳）值，且随后利用扩散度估计器312来执行（空间）参数计算。

应当提及，除DirAC中的信号自适应扩散度估计之外，可以以非常类似的方式来改善SAM中的方向估计。事实上，在方程5a和5b中计算声输入信号的PSD和CSD也需要通过时间平均化处理（例如，通过使用方程4或5）来近似期望算子。如上所述，当平均化长度对应于声输入信号的稳定间隔时，可获得最准确结果。这意味着可通过首先确定声输入信号的稳定间隔并随后从该信息中选择最佳平均化长度来改善SAM分析。如下文所述，可确定声输入信号的稳定间隔和相应的最佳平均化滤波。

在下文中，将给出确定声输入信号104的稳定间隔的示例性方法。根据该信息，随后选择方程3所示的用于扩散度计算的最佳时间平均化长度。

稳定间隔确定

在下文中，描述了用于确定声输入信号（例如，声输入信号104）的稳定间隔以及最佳IIR滤波器系数α（例如用于方程5）的可行方法，最佳IIR滤波器系数α产生了相应的时间平均化。下文所述的稳定间隔确定可由信号特性确定器308的稳定间隔确定器310来执行。所提出的方法允许使用方程3来根据声输入信号104的稳定间隔准确估计扩散度（参数）Ψ(k,n)。作为B格式信号的一部分的频域声压P(k,n)可被视为声输入信号104。换言之，声输入信号104可包括与声压P(k，n)相对应的至少一个分量。

若信号能量在短时间间隔内急剧变化，则声输入信号通常表现出短稳定间隔，且反之亦然。稳定间隔很短的典型实例是瞬变、讲话起始和“结束”（即当扬声器停止讲话时）。后者情况通过在短时间内急剧降低信号能量（负增益）来表征，而在两种前者情况下，能量急剧增加（正增益）。

目的在于找到最佳滤波器系数α的所需算法必须针对高度非稳定信号提供接近α=1（对应于短时间平均化）的值，以及在稳定情况下提供接近α=α’的值。符号α’表示与用于平均化稳定信号的滤波器系数无关的合适信号。以数学形式表示，充分算法由方程（7）给出，

α^{+} (k, n) = \frac{α^{'} \cdot W (k, n)}{α^{'} \cdot W (k, n) + (1 - α^{'}) \cdot \overset{&OverBar;}{W} (k, n)}, - - - (7)

其中，α⁺(k，n)是针对各时频段的最佳滤波器系数，W(k，n)＝|P(k，n)|²是P(k,n)的瞬时信号能量的绝对值，以及

是W(k,n)的时间平均值。针对稳定信号，瞬时能量W(k,n)等于时间平均值其根据需要产生α⁺＝α′。在高度非稳定信号情况下，由于正能量增益，方程7的分母变为接近α′·W(k，n)，因为W(k,n)相比

很大。因此，根据需要获得α⁺≈1。在非稳定情况下，由于负能量增益，获得不期望的结果α⁺≈0，因为

相比W(k,n)变得很大。因此，引入了针对最佳滤波器系数α的替代性候选参数，即，

α^{-} (k, n) = \frac{α^{'} \cdot \overset{&OverBar;}{W} (k, n)}{(1 - α^{'}) \cdot W (k, n) + α^{'} \cdot \overset{&OverBar;}{W} (k, n)}, - - - (8)

其与方程7相似，但在非稳定情况下表现出相反行为。这意味着在非稳定情况下，由于正能量增益而获得α^-≈0，而针对负能量增益则获得α^-≈1。因此，取方程7和方程8的最大值，即，

α＝max(α⁺，α^-)，（9）

产生了所需的用于递归平均化系数α的最佳值，从而产生与声输入信号的稳定间隔相对应的时间平均化。

换言之，信号特性确定器308被配置为基于声输入信号104的至少一个（全方位）分量（例如，声压P(k,n)）的当前（瞬时）信号能量与声输入信号104的至少一个（全方位）分量的信号能量的给定（之前）时间段上的时间平均值之间的比来确定加权参数α。给定时间段例如可对应于针对不同（之前）时隙的给定数目的信号能量系数。

在SAM分析情况下，能量信号W(k，n)可由两个麦克风信号X₁(k,n)和X₂(k，n)的能量组成，例如，W(k，n)＝|X₁(k，n)|²+|X₂(k，n)|²。根据方程5c，可适当使用上述方程9的标准来选择方程5a或方程5b中用于相关性的递归估计的系数α。

从上文可以看出，可控参数估计器306可被配置为使用低通滤波器（例如，所提到的无限脉冲响应（IIR）滤波器或有限脉冲响应（FIR）滤波器）来实施声输入信号104的强度参数I_a(k,n)的时间平均化。此外，可控参数估计器306可被配置为基于加权参数α来调整声音频信号104的当前强度参数与声输入信号104的之前强度参数之间的加权。在方程5所示的一阶IIR滤波器的特殊情况下，可调整当前强度参数与一个之前强度参数之间的加权。加权因子α越高，时间平均化长度越短，且因此，与之前强度参数的权重相比，当前强度参数的权重更高。换言之，时间平均化长度基于加权因子α。

例如，可控参数估计器306可被配置为使得与之前强度参数的权重相比，当前强度参数的权重针对相对较短的稳定间隔相对较高，以及使得与之前强度参数的权重相比，当前强度参数的权重针对相对较长的稳定间隔相对较低。因此，时间平均化长度针对相对较短的稳定间隔相对较短，且针对相对较长的稳定间隔相对较长。

根据本发明的其他实施方式，根据本发明一种实施方式的空间音频处理器的可控参数估计器可被配置为根据所确定的信号特性从用于计算空间参数的多个空间参数计算规则中选择一个空间参数计算规则。例如，多个空间参数计算规则在计算参数中可能不同，或者甚至可能彼此完全不同。如方程4和5所示，可使用如方程4所示的块平均化或者如方程5所示的低通滤波器来计算时间平均化。第一空间参数计算规则例如可对应于根据方程4的块平均化，以及第二参数计算规则例如可对应于使用根据方程5的低通滤波器的平均化。可控参数估计器可基于所确定的信号特性从多个计算规则中选择提供最精确空间参数估计的计算规则。

根据本发明的其他实施方式，可控参数估计器可被配置为使得出自多个空间参数计算规则的第一空间参数计算规则不同于出自多个空间参数计算规则的第二空间参数计算规则。第一空间参数计算规则和第二空间参数计算规则可选自由以下组成的组：频率子带中多个时隙上的时间平均化（例如，如方程3所示）、时隙中多个频率子带上的频率平均化、时间和频率平均化、空间平均化和未平均化。

在下文中，将使用图4和图5所示的本发明的两个示例性实施方式来描述由可控参数估计器从多个空间参数计算规则中选择一个空间参数计算规则的这一概念。

使用根据图4的空间编码器根据双向通话的时变波达方向和扩散度估计

图4示出了根据本发明实施方式的空间音频处理器400的示意性框图。空间音频处理器400的功能可与根据图1的空间音频处理器100的功能相似。空间音频处理器400可包括下文中描述的附加特征。空间音频处理器400包括可控参数估计器406，可控参数估计器406的功能可与根据图1的可控参数估计器106的功能相似，且可包括下文中描述的附加特征。空间音频处理器400还包括信号特性确定器408，信号特性确定器408的功能可与根据图1的信号特性确定器108的功能相似，且可包括下文中描述的附加特征。

可控参数估计器406被配置为根据所确定的信号特性110（由信号特性确定器408确定）从用于计算空间参数102的多个空间参数计算规则中选择一个空间参数计算规则。在图4所示的示例性实施方式中，信号特性确定器被配置为确定是否声输入信号104包括来自不同声源的分量，或者仅包括来自一个声源的分量。基于该确定，若声输入信号104仅包括来自一个声源的分量，则可控参数估计器406可选择第一空间参数计算规则410来计算空间参数102，以及若声输入信号104包括来自多于一个声源的分量，则可控参数估计器406可选择第二空间参数计算规则412来计算空间参数102。第一空间参数计算规则410例如可包括多个频率子带上的频谱平均化或频率平均化，以及第二空间参数计算规则412可不包括频谱平均化或频率平均化。

可通过信号特性确定器408的双向通话检测器414来执行对声输入信号104是否包括来自多于一个声源的分量的确定。例如，参数估计器406可被配置为提供STFT域中关于频率子带k和时块n的声输入信号104的扩散度参数Ψ(k,n)。

换言之，空间音频处理器400示出了用于通过考虑双向通话情况来改善定向音频编码中扩散度估计的概念。

或者换言之，信号特性确定器408被配置为确定声输入信号104是否同时包括来自不同声源的分量。可控参数估计器406被配置为根据信号特性确定的结果从用于计算空间参数102（例如，用于计算扩散度参数Ψ(k,n)）的多个空间参数计算规则中选择一个空间参数计算规则（例如，第一空间参数计算规则410或第二空间参数计算规则412）。当声输入信号104包括最多一个声源的分量时，选择第一空间参数计算规则410，以及当声输入信号104同时包括多于一个声源的分量时，选择出自多个空间参数计算规则的第二空间参数计算规则412。第一空间参数计算规则410包括声输入信号104在多个频率子带上（例如，强度参数I_a(k,n)）的频率平均化。第二空间参数计算规则412不包括频率平均化。

在图4所示实例中，根据双向通话情况，通过调整相应估计器来改善定向音频编码分析中对扩散度参数Ψ(k,n)和/或（波达）方向参数

的估计。已发现方程2中的扩散度计算实际可通过在频率子带k上平均化有效强度矢量I_a(k,n)或者通过结合时间和频谱平均化来实现。然而，若针对不同频率子带需要独立的扩散度估计，则频谱平均化不适合，因为这是在所谓的双向通话情况中的例子，其中，多个声源（例如，谈话者）同时处于活动状态。因此，由于声输入信号的通用模型总是假设双向通话情况，所以未采用传统（如在图2所示的定向音频编码器中）频率平均化。已发现在单向通话情况的例子中，该模型假设不是最佳的，因为已发现在单向通话情况下，频谱平均化可改善参数估计的准确度。

如图4所示，所提出的新方法通过选择针对声输入信号104或针对声输入信号的基本模型来选择最佳参数估计策略（最佳空间参数计算规则）。换言之，图4示出了用于根据双向通话情况来改善扩散度估计的本发明实施方式的应用：首先，采用双向通话检测器414，该双向通话检测器414根据声输入信号104或声输入信号来确定在当前情况下是否存在双向通话。若不存在，则为参数估计器决定（或者换言之，可控参数估计器406选择空间参数计算规则），该参数估计器通过使用有效强度矢量Ia(k,n)的频谱（频率）和时间平均化利用近似方程2来计算扩散度（参数）Ψ(k,n)，即

Ψ (k, n) = Ψ (n) = 1 - \frac{| {< {< I_{a} (k, n) >}_{n} >}_{k} |}{{< {< | I_{a} (k, n) | >}_{n} >}_{k}} . - - - (10)

否则，若存在双向通话，则选择仅使用时间平均化的估计器（或者换言之，可控参数估计器406选择空间参数计算规则），如方程3。类似想法可应用于方向估计：在单向通话情况的例子中，但仅在该情况下，方向估计

可通过在几个或全部频率子带k上的频谱平均化结果来改善，即

根据本发明的一些实施方式，也可设想对频谱的一部分而不必对整个带宽实施（频谱）平均化。

对于执行时间和频谱平均化，可控参数估计器406例如可使用能量分析（例如，通过利用可控参数估计器406的能量分析器416）来确定例如在STFT域中关于各子带k和各时隙n的有效强度矢量I_a(k,n)。

换言之，参数估计器406可被配置为根据所确定的信号特性，基于包括在第一空间参数计算规则410中的所确定的声输入信号104的有效强度矢量I_a(k,n)的频谱和时间平均化，或者仅基于所确定的有效强度矢量I_a(k,n)的时间平均化来确定声输入信号104的关于当前频率子带k和当前时隙n的当前扩散度参数Ψ(k,n)。

在下文中，将描述本发明的另一示例性实施方式，该实施方式也基于根据声输入信号的音调来选择用于使用图5所示空间音频处理器500来改善声输入信号的空间参数计算的适当空间参数计算规则的概念。

使用根据图5的空间音频处理器的音调相关参数估计

图5示出了根据本发明实施方式的空间音频处理器500的示意性框图。空间音频处理器500的功能可与根据图1的空间音频处理器100的功能相似。空间音频处理器500还可包括下文中描述的附加特征。空间音频处理器500包括可控参数估计器506和信号特性确定器508。可控参数估计器506的功能可与根据图1的可控参数估计器106的功能相似，可控参数估计器506可包括下文中描述的附加特征。信号特性确定器508的功能可与根据图1的信号特性确定器108的功能相似。信号特性确定器508可包括下文中描述的附加特征。

空间音频处理器500不同于空间音频处理器400的事实在于，基于所确定的声输入信号104的音调来修改空间参数102的计算。信号特性确定器508可确定声输入信号104的音调，且可控参数估计器506可基于所确定的声输入信号104的音调从用于计算空间参数102的多个空间参数计算规则中选择一个空间参数计算规则。

换言之，空间音频处理器500示出了用于通过考虑声输入信号104或声输入信号的音调来改善定向音频编码参数的估计的概念。

信号特性确定器508可使用音调估计（例如，使用信号特性确定器508的音调估计器510）来确定声输入信号的音调。因此，信号特性确定器508可提供声输入信号104的音调或与声输入信号104的音调相对应的信息作为所确定的声输入信号104的信号特性110。

可控参数估计器506可被配置为根据信号特性确定（音调估计）的结果从用于计算空间参数102的多个空间参数计算规则中选择一个空间参数计算规则，使得当声输入信号104的音调低于给定音调阈值水平时，选择出自多个空间参数计算规则的第一空间参数计算规则，以及使得当声输入信号104的音调高于给定音调阈值水平时，选择出自多个空间参数计算规则的第二空间参数计算规则。与根据图4的可控参数估计器406类似，第一空间参数计算规则可包括频率平均化，以及第二空间参数计算规则可不包括频率平均化。

一般地，声信号的音调提供了信号是否具有宽带频谱的信息。高音调表示信号频谱仅包括一些具有高能量的频率。相反，低音调表示宽带信号，即相似能量存在于大频率范围内的信号。

关于声输入信号的音调（声输入信号104的音调）的信息可被用于改善例如定向音频编码参数估计。参照图5所示的示意性框图，根据声输入信号104或声输入信号，首先使用音调检测器或音调估计器510来确定输入的音调（例如，如S.Molla and B.Torresani:Determining LocalTransientness of Audio Signals,IEEE Signal Processing Letters,Vol.11,No.7,July 2007中所述）。关于音调的信息（所确定的信号特性110）控制对（空间参数102的）定向音频编码参数的估计。可控参数估计器506的输出是与利用根据图2的定向音频编码器示出的传统方法相比具有提高的准确度的空间参数102。

可如下从对输入信号音调的了解来获得扩散度Ψ(k,n)的估计：扩散度Ψ(k,n)的计算需要如方程3所示的平均化处理。该平均化传统上仅随时间n执行。尤其在扩散声场中，仅当平均化足够长时，扩散度的准确估计才可能。然而，由于声输入信号的短稳定间隔，长时间平均化通常不可能。为改善扩散度估计，我们可将时间平均化与频带k上的频谱平均化相结合，即，

Ψ (k, n) = 1 - \frac{| {< {< I_{a} (k, n) >}_{n} >}_{k} |}{{< {< | I_{a} (k, n) | >}_{n} >}_{k}} . - - - (12)

然而，该方法可能需要扩散度对于不同频带相似的宽带信号。在音调信号情况（其中，仅少数频率具有显著能量）下，声场的真实扩散度可沿频带k急剧变化。这意味着当音调检测器（信号特性确定器508的音调估计器510）指示声信号104的高音调时，则避免了频谱平均化。

换言之，可控参数估计器506被配置为在所确定的声信号104的音调相对很小时，基于声输入信号104的强度参数I_a(k,n)的时间和频谱平均化来导出例如STFT域中关于频率子带k和时隙n的空间参数102（例如，扩散度参数Ψ(k,n)），以及在所确定的声输入信号104的音调相对很高时，仅基于声输入信号104的强度参数I_a(k,n)的时间平均化而无频谱平均化来提供空间参数102（例如，扩散度参数Ψ(k,n)）。同样想法可应用于（波达）方向参数

的估计，以改善（所确定的空间参数102的）信噪比结果。换言之，可控参数估计器506可被配置为在所确定的声输入信号104的音调相对很小时，基于频谱平均化来确定波达方向参数

以及在音调相对很高时，导出波达方向参数

而无需执行频谱平均化。

下文中将使用本发明的另一实施方式更详细地描述通过频谱平均化波达方向参数

来改善信噪比的这一想法。频谱平均化可应用于声输入信号104或声输入信号、应用于有效声音强度、或者直接应用于（波达）方向参数

对于本领域技术人员而言，显然空间音频处理器500也可以类似方式应用于空间音频麦克风分析，而其差异在于，现在假如不存在双向通话或者在低音调情况下，通过考虑频谱平均化来近似方程5a和方程5b中的期望算子。

下文中将说明本发明的两种其他实施方式，该实施方式执行信噪比相关方向估计来改善空间参数的计算。

使用根据图6的空间音频处理器的信噪比相关方向估计

图6示出了空间音频处理器600的示意性框图。空间音频处理器600被配置为执行上述信噪比相关方向估计。

空间音频处理器600的功能可与根据图1的空间音频处理器100的功能相似。空间音频处理器600可包括下文中描述的附加特征。空间音频处理器600包括可控参数估计器606和信号特性确定器608。可控参数估计器606的功能可与根据图1的可控参数估计器106的功能相似，且可控参数估计器606可包括下文中描述的附加特征。信号特性确定器608的功能可与根据图1的信号特性确定器108的功能相似，且信号特性确定器608可包括下文中描述的附加特征。

信号特性确定器608可被配置为确定声输入信号104的信噪比（SNR），作为声输入信号104的信号特性110。可控参数估计器606可被配置为基于所确定的声输入信号104的信噪比来提供用于计算声输入信号104的空间参数102的可变空间计算规则。

可控参数估计器606例如可执行用于确定空间参数102的时间平均化，且可根据所确定的声输入信号104的信噪比来改变时间平均化的平均化长度（或者用于时间平均化的元素数目）。例如，参数估计器606可被配置为改变时间平均化的平均化长度，使得平均化长度针对相对很低的声输入信号104的信噪比相对很高，以及使得平均化长度针对相对很高的声输入信号104的信噪比相对很低。

参数估计器606可被配置为基于所提及的时间平均化来提供波达方向参数作为空间参数102。如上所述，波达方向参数可在可控参数估计器606中（例如，在参数估计器606的方向估计器610中）针对各频率子带k和时隙n被确定为有效声音强度矢量I_a(k,n)的相反方向。参数估计器606因此可包括能量分析器612，以对声输入信号104执行能量分析来确定针对各频率子带k和各时隙n的有效声音强度矢量I_a(k,n)。例如，方向估计器610可对为多个时隙n上的频率子带k所确定的有效强度矢量I_a(k,n)执行时间平均化。换言之，方向估计器610可针对一个频率子带k和多个（之前）时隙执行强度参数I_a(k，n)的时间平均化，以计算关于频率子带k和时隙n的波达方向参数

根据本发明的其他实施方式，方向估计器610也可（例如，取代强度参数I_a(k,n)的时间平均化）对为频率子带k和多个（之前）时隙所确定的多个波达方向参数

执行时间平均化。时间平均化的平均化长度因此与用于执行时间平均化的强度参数的数目或波达方向参数的数目相对应。换言之，参数估计器606可被配置为将时间平均化应用于针对多个时隙和频率子带k的强度参数I_a(k,n)的子集或者针对多个时隙和频率子带k的波达方向参数的子集。用于时间平均化的强度参数子集中的强度参数的数目或波达方向参数子集中的波达方向参数的数目对应于时间平均化的平均化长度。可控参数估计器606被配置为调整用于计算时间平均化的子集中的强度参数的数目或波达方向参数的数目，使得强度参数子集中的强度参数的数目或波达方向参数子集中的波达方向参数的数目针对相对很高的声输入信号104的信噪比相对很低，以及使得强度参数的数目或波达方向参数的数目针对相对很低的声输入信号104的信噪比相对很高。

换言之，本发明的实施方式提供了定向音频编码方向估计，该定向音频编码方向估计基于声输入信号或声输入信号104的信噪比。

一般地，根据基于图2的定向音频编码器200定义的所估计声音方向

（或波达方向参数

）的准确度受噪声影响，噪声总是存在于声输入信号内。

噪声对估计准确度的影响取决于SNR，即取决于到达（麦克风）阵列的声音的信号能量与噪声能量之间的比。小SNR显著降低了方向

的估计准确度。噪声信号通常由测量设备（例如，麦克风和麦克风放大器）引入，并导致

误差。已发现尽管方向具有低估计或过估计的同等概率，但

的期望仍正确。

已发现例如通过重复几次测量获得波达方向参数

的几次独立估计，噪声影响可被降低，且因此，通过在几个测量实例上平均化波达方向参数

可增大方向估计的准确度。有效地，平均化处理增大了估计器的信噪比。麦克风处（或者一般在声音记录装置处）信噪比越小，或者估计器中所需的目标信噪比越高，平均化处理中可能需要的测量实例的数目就越高。

图6所示的空间编码器600根据声输入信号104的信噪比来执行该平均化处理。或者换言之，空间音频处理器600示出了用于通过考虑声输入处或者声输入信号104的SNR来改善定向音频编码中方向估计的概念。

在利用方向估计器610估计方向

之前，利用信号特性确定器608的信噪比估计器614来确定声输入信号104或声输入信号的信噪比。例如，可在STFT域中针对各时间块n和频带k来估计信噪比。关于声输入信号104的实际信噪比的信息作为所确定的信号特性110从信噪比估计器614被提供给方向估计器610，方向估计器610包括用于提高信噪比的特定定向音频编码信号的频率和时间相关时间平均化。此外，所需的目标信噪比可被传送至方向估计器610。例如，可由用户来外部定义所需的目标信噪比。方向估计器610可调整时间平均化的平均化长度，使得在可控参数估计器606的输出处获得的声输入信号104的信噪比（平均化之后）与所需信噪比相匹配。或者换言之，执行平均化（在方向估计器610中），直至获得所需的目标信噪比。

方向估计器610可连续比较所获得的声输入信号104的信噪比与目标信噪比，且可执行平均化，直至获得所需的目标信噪比。使用这一概念，连续监测所获得的声输入信号104的信噪比，且当所获得的声输入信号104的信噪比与目标信噪比相匹配时平均化结束，因此，无需预先计算平均化长度。

此外，方向估计器610可基于在可控参数估计器606的输入处的声输入信号104的信噪比来确定用于声输入信号104的信噪比的平均化的平均化长度，使得在可控参数估计器606的输出处获得的声输入信号104的信噪比与目标信噪比相匹配。因此，使用这一概念，未连续监测所获得的声输入信号104的信噪比。

由用于上述方向估计器610的两个概念产生的结果是相同的：在空间参数102的估计期间，尽管（在可控参数估计器606的输入处）声输入信号104的当前信噪比很差，但我们可将空间参数102的精度实现为就像声输入信号104具有目标信噪比一样。

声输入信号104的信噪比相比目标信噪比越小，时间平均化越长。例如，方向估计器610的输出为估计

即具有增大的准确度的波达方向参数

如上所述，存在平均化定向音频编码信号的不同可能性：由方程1提供的平均化针对一个频率子带k和多个时隙的有效声音强度矢量Ia(k,n)，或者直接平均化之前已定义为有效声音强度矢量Ia(k,n)沿时间的相反方向的估计方向

（波达方向参数

）。

空间音频处理器600也可以类似方式应用于空间音频麦克风方向分析。可通过平均化几个测量实例的结果来增大方向估计的准确度。这意味着与图6中的DirAC相似，通过首先确定声输入信号104的SNR来改善SAM估计器。关于实际SNR和所需目标SNR的信息被传送至SAM的方向估计器，该方向估计器包括用于提高SNR的特定SAM信号的频率和时间相关时间平均化。执行平均化，直至获得所需目标SNR。事实上，可平均化两个SAM信号，即估计方向

或在方程5a和方程5b中定义的PSD和CSD。后者平均化简单意味着，通过长度取决于实际和所需（目标）SNR的平均化处理来近似期望算子。尽管根据图7b针对DirAC说明估计方向

的平均化，但针对SAM同样成立。

根据本发明的又一实施方式（其随后将利用图8说明），代替利用这两种方法来明确平均化物理量，可以切换所使用的滤波器组，因为该滤波器组可包括输入信号的固有平均化。下文中，将使用图7a和图7b更详细说明所提及的用于平均化定向音频编码信号的两个方法。图8中示出了利用空间音频处理器来切换滤波器组的替代方法。

根据图7a的定向音频编码中有效声音强度矢量的平均化

图7a以示意性框图示出了图6中信噪比相关方向估计器610的第一可行实现。图7a所示的实现基于通过方向估计器610a的声学声音强度或声音强度参数I_a(k,n)的时间平均化。方向估计器610a的功能可与根据图6的方向估计器610的功能相似，其中，方向估计器610a可包括下文中描述的附加特征。

方向估计器610a被配置为执行平均化和方向估计。方向估计器610a连接至根据图6的能量分析器612，具有能量分析器612的方向估计器610可构成可控参数估计器606a，可控参数估计器606a的功能与图6所示的可控参数估计器606的功能相似。可控参数估计器606a首先使用如上所说明的方程1从声输入信号104或声输入信号确定使用能量分析器612的能量分析中的有效声音强度矢量706（I_a(k,n)）。在执行平均化的方向估计器610a的平均化块702中，该矢量（声音强度矢量706）沿时间n独立针对所有（或者至少一部分）频带或频率子带k来平均化，这根据以下方程产生平均化声强度矢量708（I_avg(k,n)）：

I_avg(k，n)＝＜I_a(k，n)＞_n。（13）

为执行平均化，方向估计器610a考虑过去强度估计。到平均化块702的一个输入是声输入104或声输入信号104的实际信噪比710，该实际信噪比利用图6所示的信噪比估计器614来确定。声输入信号104的实际信噪比710构成了所确定的声输入信号104的信号特性110。在短时频域中针对各频率子带k和各时隙n来确定信噪比。到平均化块702的第二输入是应当在可控参数估计器606a的输出处获得的所需信噪比或目标信噪比712，即目标信噪比。目标信噪比712是例如由用户给定的外部输入。平均化块702平均化强度矢量706（I_a(k,n)），直至获得目标信噪比712。基于平均化（声）强度矢量708（I_avg(k,n)），最终声音方向

可使用执行方向估计的方向估计器610a的方向估计块704来计算，如上所述。波达方向参数构成了由可控参数估计器606a确定的空间参数102。方向估计器610a可将针对各频率子带k和时隙n的波达方向参数确定为相应频率子带k和相应时隙n的平均化声音强度矢量708（I_avg(k,n)）的相反方向。

根据所需目标信噪比712，可控参数估计器610a可改变对于声音强度参数706（I_a(k,n)）平均化的平均化长度，使得可控参数估计器606a输出处的信噪比与目标信噪比712相匹配（或相等）。通常，可控参数估计器610a可针对声输入信号104的实际信噪比710与目标信噪比712之间的相对很高的差来选择相对很长的平均化长度。针对声输入信号104的实际信噪比710与目标信噪比712之间的相对很低的差，可控参数估计器610a将选择相对很短的平均化长度。

或者换言之，方向估计器606a基于平均化声强度参数的声强度。

根据图7b直接平均化定向音频编码方向参数

图7b示出了可控参数估计器606b的示意性框图，可控参数估计器606b的功能可与图6所示的可控参数估计器606的功能相似。可控参数估计器606b包括能量分析器612以及被配置为执行方向估计和平均化的方向估计器610b。方向估计器610b与方向估计器610a的不同之处在于，方向估计器610b首先执行方向估计以确定针对各频率子带k和各时隙n的波达方向参数718

并随后对所确定的波达方向参数718执行平均化以确定针对各频率子带k和各时隙n的平均化波达方向参数

平均化波达方向参数

构成了由可控参数估计器606b确定的空间参数102。

换言之，图7b示出了图6所示的信噪比相关方向估计器610的另一可行实现。图7b所示实现基于估计方向（波达方向参数718）的时间平均化，估计方向可利用常规音频编码方法例如针对各频率子带k和各时隙n来获得，并作为有效声音强度矢量706（I_a(k,n)）的相反方向。

根据声输入或声输入信号104，使用能量分析器612来执行能量分析，并随后例如利用上文说明的常规定向音频编码方法，在执行方向估计的方向估计器610b的方向估计块714中确定声音方向（波达方向参数718

）。随后在方向估计器610b的平均化块716中，对该方向（对波达方向参数718）实施时间平均化。如上所述，沿时间并针对所有（或者至少一部分）频带或频率子带k执行平均化，该平均化产生平均化方向

针对各频率子带k和各时隙n的平均化方向

构成了由可控参数估计器606b确定的空间参数102。

如上所述，到平均化块716的输入是声输入或声输入信号104的实际信噪比710以及应在可控参数估计器606b输出处获得的目标信噪比712。例如在STFT域中，针对各频率子带k和各时隙n来确定实际信噪比710。在足够数量的时间块（或时隙）上执行平均化716，直至获得目标信噪比712。最终结果是具有增大的准确度的时间平均化方向

总之，信号特性确定器608被配置为提供声输入信号104的信噪比710，作为针对声输入信号104的频率子带k和时隙n的多个信噪比参数。可控参数估计器606a、606b被配置为接收目标信噪比712，作为针对频率子带k和时隙n的多个目标信噪比参数。可控参数估计器606a、606b还被配置为根据声输入信号的当前信噪比参数导出时间平均化的平均化长度，使得当前（平均化）波达方向参数

的当前信噪比参数与当前目标信噪比参数相匹配。

可控参数估计器606a、606b被配置为导出针对声输入信号104的各频率子带k和各时隙n的强度参数I_a(k,n)。此外，可控参数估计器606a、606b被配置为基于由可控参数估计器606a、606b确定的声音频信号的强度参数Ia(k,n)导出针对声输入信号104的各频率子带k和各时隙n的波达方向参数

可控参数估计器606a、606b还被配置为基于所导出的声输入信号104的强度参数的至少一个子集的时间平均化或者基于所导出的波达方向参数的至少一个子集的时间平均化来导出针对当前频率子带和当前时隙的当前波达方向参数

可控参数估计器606a、606b被配置为例如在STFT域中导出针对各频率子带k和各时隙n的强度参数I_a(k,n)，此外，可控参数估计器606a、606b被配置为例如在STFT域中导出针对各频率子带k和各时隙n的波达方向参数

可控参数估计器606a被配置为选择强度参数子集来执行时间平均化，使得与强度参数子集中的所有强度参数相关的频率子信道等于与当前波达方向参数相关的当前频率子带。可控参数估计器606b被配置为选择波达方向参数子集来执行时间平均化716，使得与波达方向参数子集中的所有波达方向参数相关的频率子信道等于与当前波达方向参数相关的当前频率子信道。

此外，可控参数估计器606a被配置为选择强度参数子集，使得与强度参数子集中的强度参数相关的时隙时间上相邻。可控参数估计器606b被配置为选择波达方向参数子集，使得与波达方向参数子集中的波达方向参数相关的时隙时间上相邻。强度参数子集中的强度参数数目或波达方向参数子集中的波达方向参数数目对应于时间平均化的平均化长度。可控参数估计器606a被配置为根据声输入信号104的当前信噪比与当前目标信噪比之间的差来导出用于执行时间平均化的强度参数子集中的强度参数数目。可控参数估计器606b被配置为基于声输入信号104的当前信噪比与当前目标信噪比之间的差来导出用于执行时间平均化的波达方向参数子集中的波达方向参数数目。

或者换言之，方向估计器606b基于平均化利用常规定向音频编码方法获得的方向718

下文中，将描述空间音频处理器的另一实现，该实现也执行信噪比相关参数估计。

在使用根据图8的音频编码器的定向音频编码中使用具有适当频时分辨率的滤波器组

图8示出了空间音频处理器800，其包括可控参数估计器806和信号特性确定器808。定向音频编码器800的功能可与定向音频编码器100的功能相似。定向音频编码器800可包括下文中描述的附加特征。可控参数估计器806的功能可与可控参数估计器106的功能相似，以及信号特性确定器808的功能可与信号特性确定器108的功能相似。可控参数估计器806和信号特性确定器808可包括下文中描述的附加特征。

信号特性确定器808与信号特性确定器608的不同之处在于，信号特性确定器808确定声输入信号104的信噪比810，该信噪比810在时域中而非STFT域中也被称为输入信噪比。声输入信号104的信噪比810构成了由信号特性确定器808确定的信号特性。可控参数估计器806与图6所示的可控参数估计器606的不同之处在于，可控参数估计器806包括B格式估计器812，该B格式估计器812包括滤波器组814和B格式计算块816，B格式计算块816被配置为将时域中的声输入信号104变换为例如STFT域中的B格式表示。

此外，B格式估计器812被配置为基于由信号特性确定器808确定的信号特性，或者换言之，根据时域中声输入信号104的信噪比810来改变声输入信号104的B格式确定。

B格式估计器812的输出是声输入信号104的B格式表示818。B格式表示818包括全方位分量（例如，上述声压矢量P(k，n)）和定向分量（例如，上述针对各频率子带k和各时隙n的声音速度矢量U(k，n)）。

可控参数估计器806的方向估计器820导出针对各频率子带k和各时隙n的声输入信号104的波达方向参数波达方向参数

构成了由可控参数估计器806确定的空间参数102。方向估计器820可通过确定针对各频率子带k和各时隙n的有效强度参数I_a(k,n)以及通过基于有效强度参数I_a(k,n)导出波达方向参数

来执行方向估计。

B格式估计器812的滤波器组814被配置为接收声输入信号104的实际信噪比810，以及接收目标信噪比822。可控参数估计器806被配置为根据声输入信号104的实际信噪比810与目标信噪比822之间的差来改变滤波器组814的块长度。滤波器组814的输出是声输入信号104的频率表示（例如，在STFT域中），基于该频率表示，B格式计算块816计算声输入信号104的B格式表示818。换言之，根据所确定的声输入信号104的实际信噪比810以及根据目标信噪比822，可由滤波器组814执行声输入信号104从时域向频率表示的转换。简言之，可由B格式计算块816根据所确定的实际信噪比810和目标信噪比822来执行B格式计算。

换言之，信号特性确定器808被配置为确定时域中声输入信号104的信噪比810。可控参数估计器806包括滤波器组814，以将声输入信号104从时域转换为频率表示。可控参数估计器806被配置为根据所确定的声输入信号104的信噪比810来改变滤波器组814的块长度。可控参数估计器806被配置为接收目标信噪比812并改变滤波器组814的块长度，使得频域中声输入信号104的信噪比与目标信噪比824相匹配，或者换言之，使得声输入信号104的频率表示824的信噪比与目标信噪比822相匹配。

图8所示可控参数估计器806也可被理解为图6所示信噪比相关方向估计器610的另一实现。图8所示实现基于选择滤波器组814的适当频时分辨率。如上所述，定向音频编码在STFT域中操作。因此，例如利用麦克风测量的时域中的声输入信号或声输入信号104使用例如短时傅里叶变换或任何其他滤波器组来变换。B格式估计器812随后提供声输入信号104的短时频率表示818，或者换言之，提供如分别由声压P(k，n)和特定速度矢量U(k,n)表示的B格式信号。对时域声输入信号（对时域中的声输入信号104）施加滤波器组814来固有地平均化所变换的信号（声输入信号104的短时频率表示824），而平均化长度对应于滤波器组814的变换长度（或块长度）。结合空间音频处理器800描述的平均化方法利用了输入信号的该固有时间平均化。

使用滤波器组814，可利用麦克风测量的声输入或声输入信号104被变换为短时频域。变换长度或滤波器长度或者块长度由声输入信号104或声输入信号的实际输入信噪比810以及应通过平均化处理获得的所需目标信噪比822来控制。换言之，期望在滤波器组814中执行平均化，使得声输入信号104的时频表示824的信噪比与目标信噪比822相匹配或相等。从时域中的声输入信号104或声输入信号来确定信噪比。在高输入信噪比810的情况下，选择较短变换长度，且反之亦然，针对低输入信噪比810，选择较长变换长度。如前节所述，声输入信号104的输入信噪比810由信号特性确定器808的信噪比估计器来提供，而例如可由用户外部控制目标信噪比822。滤波器组814的输出以及随后由B格式计算块816执行的B格式计算例如是在STFT域中的声输入信号818，即P(k，n)和/或U(k，n)。这些信号（STFT域中的声输入信号818）例如利用方向估计器820中的常规定向音频编码处理来进一步处理，以获得针对各频率子带k和各时隙n的方向

或者换言之，空间音频处理器800或方向估计器基于选择针对声输入信号104或针对声输入信号的适当滤波器组。

简言之，信号特性确定器808被配置为确定时域中声输入信号104的信噪比810。可控参数估计器806包括滤波器组814，该滤波器组814被配置为将声输入信号104从时域转换为频率表示。可控参数估计器806被配置为根据所确定的声输入信号104的信噪比810来改变滤波器组814的块长度。此外，可控参数估计器806被配置为接收目标信噪比822并改变滤波器组814的块长度，使得频率表示中的声输入信号824的信噪比与目标信噪比822相匹配。

由信号特性确定器608、808执行的信噪比估计是众所周知问题。下文中，将描述信噪比估计器的可行实施。

SNR估计器的可行实施

下文中，将描述图600中的输入信噪比估计器614的可行实施。下文中描述的信噪比估计器可被用于图7a和图7b所示的可控参数估计器606a和可控参数估计器606b。信噪比估计器估计例如STFT域中声输入信号104的信噪比。可以类似方式实现时域实施（例如，在信号特性确定器808中实施）。

SNR估计器可估计例如STFT域中针对各时间块n和频带k或者针对时域信号的声输入信号的SNR。通过计算针对所考虑时频段的信号功率来估计SNR。令x(k，n)为声输入信号。可利用方程（15）来确定信号功率S(k,n)，

S(k，n)＝|x(k，n)|²。（15）

为获得SNR，计算信号功率与噪声功率N(k)之间的比值，即，

SNR＝S(k，n)/N(k)。

由于S(k,n)已包括噪声，所以在低SNR情况下，更准确的SNR估计器由方程（16）给出

SNR＝(S(k，n)-N(k))/N(k)。（16）

噪声功率信号N(k)被假设为沿时间n恒定。它可针对每个k从声输入确定。事实上，在不存在声音的情况下，即在无声期间，噪声功率信号N(k)等于声输入信号的平均功率。以数学方式表示，

N(k)＝<|x(k，n)|²>_n，无声期间测量x(k,n)。（17）

换言之，根据本发明的一些实施方式，信号特性确定器被配置为在声输入信号104的无声阶段期间测量噪声信号，并计算噪声信号的功率N(k)。信号特性确定器还可被配置为在声输入信号104的非无声阶段期间测量有效信号，并计算有效信号的功率S(k，n)。信号特性确定器还可被配置为基于所计算的噪声信号功率N(k)和所计算的有效信号功率S(k,n)来确定声输入信号104的信噪比。

该方案也可被应用于信号特性确定器808，而差异在于，信号特性确定器808确定时域中有效信号的功率S(t)，并确定时域中噪声信号的功率N(t)，以获得时域中声输入信号104的实际信噪比。

换言之，信号特性确定器608、808被配置为在声输入信号104的无声阶段期间测量噪声信号，并计算噪声信号的功率N(k)。信号特性确定器608、808被配置为在声输入信号104的非无声阶段期间测量有效信号，并计算有效信号的功率S(k，n)。此外，信号特性确定器608、808被配置为基于所计算的噪声信号功率N(k)和所计算的有效信号功率S(k)来确定声输入信号104的信噪比。

下文中，将描述执行掌声相关参数估计的本发明的另一实施方式。

使用根据图9的空间音频处理器的掌声相关参数估计

图9示出了根据本发明实施方式的空间音频处理器900的示意性框图。空间音频处理器900的功能可与空间音频处理器100的功能相似，且空间音频处理器900可包括下文中描述的附加特征。空间音频处理器900包括可控参数估计器906和信号特性确定器908。可控参数估计器906的功能可与可控参数估计器106的功能相似，且可控参数估计器906可包括下文中描述的附加特征。信号特性确定器908的功能可与信号特性确定器108的功能相似，且信号特性确定器908可包括下文中描述的附加特征。

信号特性确定器908被配置为确定声输入信号104是否包括瞬变分量，该瞬变分量对应于例如使用掌声检测器910的类似掌声信号。

类似掌声信号本文中被定义为包括例如具有不同方向的快速瞬变时间序列的信号。

可控参数估计器906包括滤波器组912，该滤波器组912被配置为基于转换计算规则将声输入信号104从时域转换为频率表示（例如，STFT域）。可控参数估计器906被配置为根据由信号特性确定器908执行的信号特性确定的结果从多个转换计算规则中选择用于将声输入信号104从时域转换为频率表示的转换计算规则。信号特性确定的结果构成了信号特性确定器908所确定的信号特性110。可控参数估计器906从多个转换计算规则中选择转换计算规则，使得当声输入信号包括与掌声相对应的分量时，从多个转换计算规则中选择用于将声输入信号104从时域转换为频率表示的第一转换计算规则，以及使得当声输入信号104不包括与掌声相对应的分量时，从多个转换计算规则中选择用于将声输入信号104从时域转换为频率表示的第二转换计算规则。

或者换言之，可控参数估计器906被配置为根据掌声检测来选择用于将声输入信号104从时域转换为频率表示的适当转换计算规则。

简言之，空间音频处理器900被示出为根据声输入信号或声输入信号104的特性来确定声场的参数化描述的本发明的示例性实施方式。在麦克风捕捉到掌声或者声输入信号104包括与类似掌声信号相对应的分量的情况下，使用特殊处理以增大参数估计的准确度。

掌声通常由声音波达方向在非常短的时间段内的快速变化来表征。此外，捕捉的声音信号主要包括瞬变。已发现对于准确声音分析，采用可解决波达方向的快速时间变化并可保留信号分量的瞬变特性的系统是有利的。

可通过使用具有高时间分辨率的滤波器组（例如，具有短变换或短块长度的STFT）来变换时域声输入信号来实现这些目标。当使用该滤波器组时，系统的频谱分辨率将降低。这对掌声信号没问题，因为由于声音的瞬变特性，声音DOA沿频率不会改变太多。然而，已发现小频谱分辨率针对其他信号（诸如双向通话情况下的讲话）有问题，其中，特定频谱分辨率需要能够区分各个谈话者。已发现准确参数估计可能需要根据声输入信号或声输入信号104的特性的滤波器组（或者滤波器组的相应变换或块长度）的信号相关切换。

图9所示空间编码器900表示执行滤波器组912的信号相关切换或者选择滤波器组912的转换计算规则的可行实现。在利用滤波器组912将声输入信号或声输入信号104变换为频率表示（例如，STFT域）之前，输入信号或输入信号104被传送给信号特性确定器908的掌声检测器910。声输入信号104在时域中被传送给掌声检测器910。信号特性确定器908的掌声检测器910基于所确定的信号特性110来控制滤波器组912（在该情况下，控制声输入信号104是否包括与类似掌声信号相对应的分量）。若在声输入信号或在声输入信号104中检测到掌声，则可控参数估计器900切换滤波器组，或者换言之，在滤波器组912中选择适用于掌声分析的转换计算规则。在不存在掌声的情况下，使用例如可从定性音频编码器200知晓的常规滤波器组，或者换言之，常规转换计算规则。在将声输入信号104变换为STFT域（或者另一频率表示）之后，可执行常规定向音频编码处理（使用可控参数估计器906的B格式计算块914和参数估计块916）。换言之，可使用根据图2所示的定向音频编码器200所述的B格式计算块914和参数估计块916来执行定向音频编码参数的确定，该定向音频编码参数构成了由空间音频处理器900确定的空间参数102。例如，结果是定向音频编码参数，即方向

和扩散度Ψ(k,n)。

或者换言之，空间音频处理器900提供以下概念：在掌声信号或类似掌声信号的情况下，通过切换滤波器组来改善定向音频编码参数的估计。

简言之，可控参数估计器906被配置为使得第一转换计算规则对应于比第二转换计算规则更高的频率表示的声输入信号的时间分辨率，以及使得第二转换计算规则对应于比第一转换计算规则更高的频率表示的声输入信号的频谱分辨率。

信号特性确定器908的掌声检测器910例如可基于例如由用户生成的元数据来确定声输入信号104是否包括类似掌声信号。

图9所示空间音频处理器900也可以类似方式应用于SAM分析，而差异在于，现在SAM的滤波器组由信号特性确定器908的掌声检测器910来控制。

在本发明的又一实施方式中，可控参数估计器可根据所确定的信号特性使用不同参数估计策略来确定空间参数，使得针对各参数估计策略，可控参数估计器确定声输入信号的空间参数集合。可控参数估计器还可被配置为根据所确定的信号特性从所确定的空间参数集合中选择一个空间参数集合，作为声输入信号的空间参数，且因此作为估计处理的结果。例如，第一可变空间参数计算规则可包括：针对各参数估计策略确定声输入信号的空间参数，并选择利用第一参数估计策略确定的空间参数集合。第二可变空间参数计算规则可包括：针对各参数估计策略确定声输入信号的空间参数，并选择利用第二参数估计策略确定的空间参数集合。

图10示出了根据本发明实施方式的方法1000的流程图。

用于基于声输入信号来提供空间参数的方法1000包括确定声输入信号的信号特性的步骤1010。

方法1000还包括根据所确定的信号特性来修改可变空间参数计算规则的步骤1020。

方法1000还包括根据可变空间参数计算规则来计算声输入信号的空间参数的步骤1030。

本发明的实施方式涉及基于声输入信号（即，麦克风信号）的特性来控制空间声音表示系统中的参数估计策略的方法。

下文中，将总结本发明实施方式的一些方面。

本发明的至少一些实施方式被配置为接收声学多信道音频信号，即麦克风信号。根据声输入信号，本发明的实施方式可确定特定信号特性。基于信号特性，本发明的实施方式可选择最合适信号模型。随后，信号模型可控制参数估计策略。基于所控制或所选定的参数估计策略，本发明的实施方式可估计针对给定声输入信号的最合适空间参数。

参数化声场描述的估计依赖于对声输入信号的特定假设。然而，该输入可能表现出显著的时间变化，且因此，通用时间不变模型往往不足。在参数化编码中，通过先验识别信号特性并随后以时变方式选择最佳编码策略来解决该问题。本发明的实施方式并非先验而是连续地例如模块化确定例如针对频率子带和时隙或者针对频率子带子集和/或时隙子集的声输入信号的信号特性。本发明的实施方式可将该策略应用于针对参数化空间音频处理和/或空间音频编码（诸如定向音频编码（DirAC）或空间音频麦克风（SAM））的声学前端。

本发明的实施方式的想法是基于麦克风信号或其他声输入信号在参数化空间音频编码中针对参数估计使用时变信号相关数据处理策略。

本发明实施方式的描述主要集中于定向音频编码中的参数估计，然而，所提出的概念也可适用于其他参数化方法，诸如空间音频麦克风。

本发明的实施方式提供了基于声输入信号的针对空间声音的信号自适应参数估计。

已描述了本发明的不同实施方式。本发明的一些实施方式根据输入信号的稳定间隔来执行参数估计。本发明的其他实施方式根据双向通话情况来执行参数估计。本发明的其他实施方式根据输入信号的信噪比来执行参数估计。本发明的其他实施方式根据输入信噪比基于声音强度矢量的平均化来执行参数估计。本发明的其他实施方式根据输入信噪比基于所估计的方向参数的平均化来执行参数估计。本发明的其他实施方式根据输入信噪比通过选择适当滤波器组或适当转换计算规则来执行参数估计。本发明的其他实施方式根据声输入信号的音调来执行参数估计。本发明的其他实施方式根据类似掌声信号来执行参数估计。

空间音频处理器一般可以是处理空间音频并生成或处理参数化信息的装置。

替代实施

尽管已在装置背景下描述了一些方面，但显然这些方面也表示相应方法的描述，其中，块或器件对应于方法步骤或方法步骤的特征。类似地，在方法步骤背景下描述的方面也表示相应装置的相应块或项目或者特征的描述。方法步骤中的一些或者全部可由（或者使用）硬件装置（例如，微处理器、可编程计算机或电子电路）来执行。在一些实施方式中，最重要方法步骤中的一个或多个步骤可由这一装置来执行。

根据特定实施要求，本发明的实施方式可以硬件或软件来实施。可使用具有存储其上的电可读控制信号的数字存储介质（例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存）来执行实施，电可读控制信号与可编程计算机系统协作（或者能够协作），从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包括具有电可读控制信号的数据载体，电可读控制信号能够与可编程计算机系统协作，从而执行本文所述方法之一。

一般地，本发明的实施方式可被实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可操作地用于执行方法之一。程序代码例如可被存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上用于执行本文所述方法之一的计算机程序。

换言之，本发明方法的实施方式因此是具有计算机代码的计算机程序，当计算机程序在计算机上运行时，该程序代码用于执行本文所述方法之一。

因此，本发明方法的又一实施方式因此是数据载体（或数字存储介质，或者计算机可读介质），该数据载体包括记录其上的用于执行本文所述方法之一的计算机程序。

因此，本发明的又一实施方式是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为经由数据通信连接（例如，经由互联网）来传输。

又一实施方式包括处理装置，例如，计算机或可编程逻辑器件，该处理装置被配置为或自适应地执行本文所述方法之一。

又一实施方式包括计算机，其具有安装其上的用于执行本文所述方法之一的计算机程序。

在一些实施方式中，可编程逻辑器件（例如，现场可编程门阵列）可被用于执行本文所述方法的一些功能或全部功能。在一些实施方式中，现场可编程门阵列可与微处理器协作，以执行本文所述方法之一。一般地，该方法优选由任何硬件装置来执行。

上述实施方式仅是对本发明的原理进行说明。应当理解，本文所述的配置和细节的修改和变形对于本领域技术人员而言将是显而易见的。因此，本发明的意图仅由所附专利权利要求来限定，而不通过以本文实施方式的描述和说明的方式呈现的具体细节来限定。

Claims

1.一种用于基于声输入信号（104）来提供空间参数（102、

Ψ(k，n)）的空间音频处理器，所述空间音频处理器包括：

信号特性确定器（108、308、408、508、608、808、908），其被配置为确定所述声输入信号（104）的信号特性（110、710、810）；以及

可控参数估计器（106、306、406、506、606、606a、606b、806、906），其用于根据可变空间参数计算规则来计算针对所述声输入信号（104）的所述空间参数（102、

Ψ(k,n)）；

其中，所述可控参数估计器（106、306、406、506、606、606a、606b、806、906）被配置为根据所确定的信号特性（110、710、810）来修改所述可变空间参数计算规则。

2.根据权利要求1所述的空间音频处理器，

其中，所述空间参数（102）包括声音方向和/或声音扩散度和/或声音方向的统计测量。

3.根据权利要求1或2所述的空间音频处理器，

其中，所述可控参数估计器（106、306、406、506、606、606a、606b、806、906）被配置为计算所述空间参数（102、Ψ(k,n)），作为包括针对时隙（n）和针对频率子带（k）的扩散度参数（Ψ(k,n)）和/或针对时隙（n）和针对频率子带（k）的波达方向参数的定向音频编码参数，或者作为空间音频麦克风参数。

4.根据权利要求1至3中任一项所述的空间音频处理器，

其中，所述信号特性确定器（308）被配置为确定所述声输入信号（104）的稳定间隔；以及

其中，所述可控参数估计器（306）被配置为根据所确定的稳定间隔来修改所述可变空间参数计算规则，使得用于计算所述空间参数（102、Ψ(k,n)、）的平均时段针对相对较长的稳定间隔相对较长，且针对相对较短的稳定间隔相对较短。

5.根据权利要求4所述的空间音频处理器，

其中，所述可控参数估计器（306）被配置为基于所述声输入信号（104）的信号参数（I_a(k,n)）的至少一个时间平均化，针对时隙（n）和频率子带（k）从所述声输入信号（104）计算所述空间参数（102、Ψ(k，n)）；以及

其中，所述可控参数估计器（306）被配置为根据所确定的稳定间隔来改变所述声输入信号（104）的所述信号参数（I_a(k,n)）的时间平均化的平均化时段。

6.根据权利要求5所述的空间音频处理器，

其中，所述可控参数估计器（306）被配置为使用低通滤波器来实施所述声输入信号（104）的所述信号参数（I_a(k,n)）的时间平均化；

其中，所述可控参数估计器（306）被配置为基于加权参数（α）来调整所述声输入信号（104）的当前信号参数与所述声输入信号（104）的之前信号参数之间的加权，使得所述平均化时段基于所述加权参数（α），使得所述当前信号参数的权重相比所述之前信号参数的权重针对相对较短的稳定间隔相对较高，以及使得所述当前信号参数的权重相比所述之前信号参数的权重针对相对较长的稳定间隔相对较低。

7.根据权利要求1至6中任一项所述的空间音频处理器，

其中，所述可控参数估计器（406、506、906）被配置为根据所确定的信号特性（110）从用于计算所述空间参数（102、Ψ(k,n)、

）的多个空间参数计算规则（410、412）中选择一个空间参数计算规则（410、412）。

8.根据权利要求7所述的空间音频处理器，

其中，所述可控参数估计器（406、506）被配置为使得所述多个空间参数计算规则（410、412）中的第一空间参数计算规则（410）不同于所述多个空间参数计算规则（410、412）中的第二空间参数计算规则（412），以及其中，所述第一空间参数计算规则（410）和所述第二空间参数规则（412）选自由以下组成的组：频率子带中多个时隙上的时间平均化、时隙中多个频率子带上的频率平均化、时间平均化和频率平均化以及未平均化。

9.根据权利要求1至8中任一项所述的空间音频处理器，

其中，所述信号特性确定器（408）被配置为确定所述声输入信号（104）是否同时包括来自不同声源的分量，或者其中，所述信号特性确定器（508）被配置为确定所述声输入信号（104）的音调；

其中，所述可控参数估计器（406、506）被配置为根据信号特性确定的结果从用于计算所述空间参数（102、Ψ(k,n)、

）的多个空间参数计算规则（410、412）中选择一个空间参数计算规则（410、412），使得当所述声输入信号（104）包括最多一个声源的分量时，或者当所述声输入信号（104）的音调低于给定音调阈值水平时，选择所述多个空间参数计算规则（410、412）中的第一空间参数计算规则（410），以及使得当所述声输入信号（104）同时包括多于一个声源的分量时，或者当所述声输入信号（104）的音调高于给定音调阈值水平时，选择所述多个空间参数计算规则（410、412）中的第二空间参数计算规则（412）；

其中，所述第一空间参数计算规则（410）包括第一数目的频率子带（k）上的频率平均化，以及所述第二空间参数计算规则（412）包括第二数目的频率子带（k）上的频率平均化或者不包括频率平均化；以及

其中，所述第一数目大于所述第二数目。

10.根据权利要求1至9中任一项所述的空间音频处理器，

其中，所述信号特性确定器（608）被配置为确定所述声输入信号（104）的信噪比（110、710）；

其中，所述可控参数估计器（606、606a、606b）被配置为实施频率子带（k）中多个时隙上的时间平均化、时隙（n）中多个频率子带（k）上的频率平均化、空间平均化或者它们的组合；以及

其中，所述可控参数估计器（606、606a、606b）被配置为根据所确定的信噪比（110、710）来改变所述时间平均化、所述频率平均化、所述空间平均化或者它们的组合的平均化时段，使得所述平均化时段针对所述声输入信号的相对较低的信噪比（110、710）相对较长，以及使得所述平均化时段针对所述声输入信号（104）的相对较高的信噪比（110、710）相对较短。

11.根据权利要求10所述的空间音频处理器，

其中，所述可控参数估计器（606a、606b）被配置为对多个时隙和频率子带（k）上的强度参数（I_a(k,n)）的子集或者对多个时隙和频率子带（k）上的波达方向参数的子集实施所述时间平均化；以及

其中，强度参数（I_a(k,n)）子集中的强度参数（I_a(k,n)）的数目或波达方向参数

）子集中的波达方向参数

）的数目对应于所述时间平均化的平均化时段，使得强度参数（I_a(k,n)）子集中的强度参数（I_a(k,n)）的数目或波达方向参数子集中的波达方向参数的数目针对所述声输入信号（104）的相对较高的信噪比（110、710）相对较低，以及使得强度参数（Ia(k,n)）子集中的强度参数（Ia(k,n)）的数目或波达方向参数

子集中的波达方向参数

的数目针对所述声输入信号（104）的相对较低的信噪比（110、710）相对较高。

12.根据权利要求10至11中任一项所述的空间音频处理器，

其中，所述信号特性确定器（608）被配置为提供所述声输入信号（104）的信噪比（110、710）作为所述声输入信号（104）的多个信噪比参数，所述声输入信号（104）的每个信噪比参数与频率子带和时隙相关联，其中，所述可控参数估计器（606a、606b）被配置为接收目标信噪比（712）作为多个目标信噪比参数，每个目标信噪比参数与频率子带和时隙相关联；以及

其中，所述可控参数估计器（606a、606b）被配置为根据所述声输入信号的当前信噪比参数来改变所述时间平均化的平均化时段，使得当前信噪比参数（102）试图匹配当前目标信噪比参数。

13.根据权利要求1至12中任一项所述的空间音频处理器，

其中，所述信号特性确定器（908）被配置为确定所述声输入信号（104）是否包括与类似掌声信号相对应的瞬变分量；

其中，所述可控参数估计器（906）包括滤波器组（912），所述滤波器组（912）被配置为基于转换计算规则将所述声输入信号（104）从时域转换为频率表示；以及

其中，所述可控参数估计器（906）被配置为根据信号特性确定的结果从多个转换计算规则中选择用于将所述声输入信号（104）从时域转换为频率表示的转换计算规则，使得当所述声输入信号包括与类似掌声信号相对应的分量时，选择所述多个转换计算规则中的第一转换计算规则，以将所述声输入信号（104）从时域转换为频率表示，以及使得当所述声输入信号不包括与类似掌声信号相对应的分量时，选择所述多个转换计算规则中的第二转换计算规则，以将所述声输入信号（104）从时域转换为频率表示。

14.一种用于基于声输入信号来提供空间参数的方法，所述方法包括：

确定（1010）所述声输入信号的信号特性；

根据所确定的信号特性来修改（1020）可变空间参数计算规则；以及

根据所述可变空间参数计算规则来计算（1030）所述声输入信号的空间参数。

15.一种具有程序代码的计算机程序，所述程序代码在计算机上运行时，用于执行根据权利要求14所述的方法。