CN102523551B

CN102523551B - 用于确定空间输出多声道音频信号的装置

Info

Publication number: CN102523551B
Application number: CN201110376871.XA
Authority: CN
Inventors: 萨沙·迪施; 维利·普尔基; 米可-维利·莱迪南; 库姆尔·厄库特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-08-13
Filing date: 2009-08-11
Publication date: 2014-11-26
Anticipated expiration: 2029-08-11
Also published as: ES2545220T3; CN102165797B; EP2418877A1; CN102348158A; PL2311274T3; KR20110050451A; BRPI0912466A2; US20120057710A1; MY157894A; EP2154911A1; AU2009281356B2; HK1154145A1; US8879742B2; HK1168708A1; RU2011106583A; EP2421284A1; BR122012003329A2; CA2734098C; ES2553382T3; EP2311274A1

Abstract

一种用于基于输入音频信号和输入参数确定空间输出多声道音频信号的装置(100)。装置(100)包括分解器(110)，分解器(110)用于基于输入参数分解输入音频信号以获得彼此不同的第一分解信号和第二分解信号。此外，装置(100)包括渲染器(110)，渲染器(110)用于渲染第一分解信号以获得具有第一语义属性的第一渲染信号，并用于渲染第二分解信号以获得具有与第一语义属性不同的第二语义属性的第二渲染信号。装置(100)包括处理器(130)，处理器(130)用于处理第一渲染信号和第二渲染信号以获得空间输出多声道音频信号。

Description

用于确定空间输出多声道音频信号的装置

本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2011年2月11日、申请号为200980131419.8、发明名称为“用于确定空间输出多声道音频信号的装置”的分案申请。

技术领域

本发明属于音频处理领域，特别地，涉及空间音频属性的处理。

背景技术

音频处理和/或编码已经在很多方面进步。对于空间音频应用，产生越来越多的需求。在很多应用中，利用音频信号处理来解相关或渲染信号。这种应用可实现，例如，单声至立体声的升混、单声/立体声至多声道的升混、人工混响、立体声扩展或用户交互式混频/渲染。

对于某些类的信号，例如噪声状信号，例如掌声状信号，传统的方法和系统或者忍受不合要求的感知性能，或者如果采用面向对象的方法，由于需模化或处理的听觉事件的数目较大，忍受高计算复杂性。不确定的音频资料的其他例子通常为环境声音资料，例如，由一群鸟、海岸、奔驰的马群、行进的士兵等发出的噪声。

传统的思想采用例如参数立体声或MPEG-环绕编码(MPEG＝动态影像压缩标准)。图6示出了单声至立体声的升混器中的解相关器的典型应用。图6示出了提供至解相关器610的单声输入信号，解相关器610在其输出端提供解相关的输入信号。原始输入信号和解相关信号一起提供至升混矩阵620。根据升混控制参数630，渲染立体声输出信号。信号解相关器610产生解相关信号D，解相关信号D随干单声信号M提供至矩阵化阶段620。在混合矩阵620中，根据混合矩阵H形成立体声声道L(L＝左立体声声道)和R(R＝右立体声声道)。矩阵H中的系数可为固定的、信号相关的或通过用户控制的。

可选地，矩阵可通过边信息控制，边信息随降混一起传输，包含说明如何升混降混的信号以形成所需求的多声道输出的参数描述。这个空间边信息通常由在升混处理之前的信号编码器产生。

这典型地在参数空间音频编码中完成，例如，在参数立体声中，参见J.Breebaart，S.vande Par，A.Kohlrausch，E.Schuijers，“High-Quality Parametric Spatial Audio Coding at LowBitrates”in AES 116^th Convention，Berlin，Preprint 6072，May 2004，和在MPEG环绕中，参见J.Herre，K.J.Breebaart，et.al.，“MPEG Surround-the ISO/MPEG Standard forEfficient and Compatible Multi-Channel Audio Coding”in Proceedings of the 122^nd AESConvention，Vienna，Austria，May 2007。图7中示出参数立体声解码器的典型结构。在这个例子中，解相关处理在变换域中进行，通过分析滤波器组710表示，分析滤波器组710将输入单声信号变换至变换域，例如，就许多频带而言的频域。

在频域中，解相关器720产生相应的解相关信号，所述解相关信号将在升混矩阵730中升混。升混矩阵730考虑升混参数，所述升混参数由参数修改框740提供，参数修改框740被提供有空间输入参数并连接至参数控制阶段750。在图7示出的例子中，空间参数可通过用户修改或通过附加工具，例如用于双耳渲染/呈现的后处理，修改。在这种情况下，升混参数可与来自双耳滤波器的输入参数合并以形成用于升混矩阵730的输入参数。可通过参数修改块740执行参数的测定。然后，将升混矩阵730的输出提供至合成滤波器组760，合成滤波器组760确定立体声输出信号。

如上所述，混合矩阵H的输出L/R可由单声输入信号M和解相关信号D例如根据下式计算得到：

[\begin{matrix} L \\ R \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} M \\ D \end{matrix}] .

在混合矩阵中，提供至输出端的解相关声音的数目可根据传输参数，例如ICC(ICC＝声道间相关性)和/或混合的或用户定义的设置，控制。

另一种传统的方法是通过时间排列方法来建立。例如，在Gerard Hotho，Steven van dePar，Jeroen Breebaart，“Multichannel Coding of Applause Signals，”in EURASIP Journal onAdvances in Signal Processing，Vol.1，Art.10，2008中可找到关于掌声状信号的解相关的专用建议。这里，将单声道的音频信号分割成重叠的时间段，所述重叠的时间段伪随机地在“超级”块中时间排列，从而形成解相关输出声道。对于n个输出声道，排列为相互独立的。

另一种方法是原始和延迟副本的交替声道交换，以便获得解相关信号，参见德国专利申请102007018032.4-55。

在一些传统概念上的面向对象的系统中，例如，在Wagner，Andreas；Walther，Andreas；Melchoir，Frank；Strauβ，Michael；“Generation of Highly Immersive Atmospheres for Wave FieldSynthesis Reproduction”at 116^th International EAS Convention，Berlin，2004中，描述了如何从很多对象中，例如单个的掌声中，通过应用波场合成产生沉浸式场景。

还有另一种方法是所谓的“定向音频编码”(DirAC＝定向音频编码)，定向音频编码为用于空间声音表示的方法，适于不同的声音再现系统，参见Pulkki，Ville，“Spatial SoundReproduction with Directional Audio Coding”in J.Audio Eng.Soc.，Vol.55，No.6，2007。在分析部分，根据时间和频率，在单一的位置估计声音的到达的扩散和方向。在合成部分，首先将扩音器信号分成非扩散部分和扩散部分，然后采用不同的策略对非扩散部分和扩散部分进行再现。

传统的方法具有很多缺点。例如，具有诸如掌声的内容的音频信号的导向式升混或非导向式升混可能要求强的解相关。因此，一方面，需要强的解相关来恢复如在音乐厅中的临场感觉。另一方面，合适的解相关滤波器如全通滤波器通过引入时间涂抹效应如前回声和后回声以及滤波器铃声降低了瞬态事件的质量的再现。而且，单个鼓掌事件的空间平移必须在相当精细的时间网格中完成，而环境声音的解相关应为时间上的拟稳态的。

根据J.Breebaart，S.van de Par，A.Kohlrausch，E.Schuijers，“High-Quality ParametricSpatial Audio Coding at Low Bitrates”in AES 116^th Convention，Berlin，Preprint 6072，May2004 and J.Herre，K.J.Breebaart，et.al.，“MPEG Surround-the ISO/MPEG Standardfor Efficient and Compatible Multi-Channel Audio Coding”in Proceedings of the 122^nd AESConvention，Vienna，Austria，May 2007的现有系统的说明包括时间分辨率对比环境稳定性和瞬态质量降低对比环境声音解相关。

例如，利用时间排列方法的系统将由于输出音频信号中的某个重复质量而展示输出声音的可感知退化。这是因为这样的事实，输入信号的同一段在每个输出声道中不变地出现，尽管在不同的时间点上。此外，为了避免增大的掌声密度，在升混中必须丢弃一些原始声道，因此，在产生的升混中可能丢失一些重要的听觉事件。

在面向对象的系统中，典型地，这样的声音事件空间化为一大群的点状来源，这导致计算上的复杂实施。

发明内容

本发明的目的旨在提供一种用于空间音频处理的改进思想。

上述目的通过根据权利要求1所述的装置和根据权利要求3所述的方法实现。

本发明的一个发现是：音频信号能够分解成若干分量，例如根据解相关或振幅平移(amplitude-panning)方法的空间渲染能够适于所述若个分量。换言之，本发明基于这样的发现：例如，在具有多个音频来源的场景中，前景来源和背景来源可区别开且被不同地渲染或解相关。通常，音频对象的不同空间深度和/或广度能够被区别。

本发明的一个关键点是将信号(例如来自于鼓掌观众、鸟群、海岸、奔驰的马群、行进的士兵等的声音)分解成前景部分和背景部分，由此所述前景部分包括来自于例如邻近来源的单个听觉事件，且背景部分包括感知上融合的远距离事件的环境声音。在最终的混合之前，分别处理这两个信号部分，以便例如合成相关性、渲染场景等。

实施例不限于仅仅区别信号的前景部分和背景部分，它们可区别多个不同的音频部分，所述多个不同的音频部分可均被不同地渲染或解相关。

通常，可通过实施例将音频信号分解成n个不同的语义部分，所述n个不同的语义部分单独处理。可通过实施例在时域和/或频域内实现不同的语义分量的分解/单独处理。

实施例可以适度的计算成本提供渲染信号的优秀感知质量。于是，实施例提供了新颖的解相关/渲染方法，所述解相关/渲染方法能够以适度的成本提供高感知质量，尤其是对于掌声状关键音频资料或其他类似的环境声音资料，例如，由鸟群、海岸、奔驰的马群、行进的士兵等发出的噪声。

附图说明

下面将结合附图详细描述本发明的实施例，其中：

图1a示出用于确定空间音频多声道音频信号的装置的一个实施例；

图1b示出另一个实施例的块图；

图2示出说明分解信号的多样性的实施例；

图3示出具有前景和背景语义分解的实施例；

图4示出用于获得背景信号分量的瞬时分离方法的例子；

图5示出具有空间大范围的声音来源的合成；

图6示出单声至立体声的升混器中的时域解相关器的现有应用的一个状态；

图7示出单声至立体声的升混器方案中的频域解相关器的现有应用的另一个状态。

具体实施方式

图1示出用于基于输入音频信号确定空间输出多声道音频信号的装置100的实施例。在一些实施例中，该装置还可适于将空间输出多声道音频信号建立在输入参数的基础上。输入参数可本地产生或随输入音频信号一起提供，例如，作为边信息。

在图1描述的实施例中，装置100包括分解器110，分解器110用于分解输入音频信号以获得具有第一语义属性的第一分解信号和具有第二语义属性的第二分解信号，第二语义属性与第一语义属性不同。

装置100还包括渲染器120，渲染器120用于采用第一渲染特性渲染第一分解信号以获得具有第一语义属性的第一渲染信号，并用于采用第二渲染特性渲染第二分解信号以获得具有第二语义属性的第二渲染信号。

语义属性可与空间属性相对应，近或者远，集中的或广泛的，和/或动态属性，例如无论信号是音调的、稳定的或瞬态的，和/或显性属性，例如无论信号是前景或背景，它们的测量分别进行。

而且，在本实施例中，装置100包括处理器130，处理器130用于处理第一渲染信号和第二渲染信号以获得空间输出多声道音频信号。

换言之，在一些实施例中，分解器110适于基于输入参数分解输入音频信号。输入音频信号的分解适于输入音频信号的不同部分的语义属性，例如空间属性。而且，通过渲染器120根据第一渲染特性和第二渲染特性执行的渲染也可适于空间属性，这允许例如在第一分解信号对应于背景音频信号、第二分解信号对应于前景音频信号的场景中可分别相反地应用不同的渲染或解相关器。下文中术语“前景”应理解为是指在音频环境中占主导地位的音频对象，这样潜在收听者应关注前景音频对象。前景音频对象或来源可与背景音频对象或来源区别或不同。背景音频对象由于比前景音频对象或来源的优势小，因此不被潜在收听者关注。在一些实施例中，前景音频对象可为点状音频来源，其中背景音频对象或来源可对应于空间更宽的对象或来源，但不限于此。

换言之，在一些实施例中，第一渲染特性可基于或匹配于第一语义属性，第二渲染特性可基于或匹配于第二语义属性。在一个实施例中，第一语义属性和第一渲染特性对应于前景音频来源或对象，且渲染器120可适于将振幅平移应用至第一分解信号。然后，渲染器120还可适于提供第一分解信号的两个振幅平移版本作为第一渲染信号。在这个实施例中，第二语义属性和第二渲染特性分别对应于背景音频来源或对象、多个背景音频来源或对象，且渲染器120可适于将解相关应用至第二分解信号并提供第二分解信号及其解相关版本作为第二渲染信号。

在一些实施例中，渲染器120还可适于渲染第一分解信号，以便第一渲染特性不具有延迟引入特性。换言之，可不存在第一分解信号的解相关。在另一实施例中，第一渲染特性可具有带有第一延迟量的第一延迟引入特性，第二渲染特性可具有第二延迟量，第二延迟量比第一延迟量大。换言之，在这个实施例中，第一分解信号和第二分解信号可为解相关的，但是，解相关的水平可与引入到分解信号的各个解相关版本的延迟的量成比例。因此，用于第二分解信号的解相关可比用于第一分解信号的解相关强。

在一些实施例中，第一分解信号和第二分解信号可重叠和/或可为时间同步的。换言之，信号处理可分块执行，其中输入音频信号采样的一个块可通过分解器110再分割成许多块的分解信号。在一些实施例中，许多块的分解信号可在时域内至少部分地重叠，即，它们可表示重叠的时域采样。换言之，分解的信号可对应于输入音频信号的重叠(即表示至少部分同步的音频信号)的部分。在一些实施例中，第一分解信号和第二分解信号可表示原始输入信号的滤波版本或变换版本。例如，它们可表示从组合空间信号提取的信号部分，所述组合空间信号与例如邻近的声音来源或更远的声音来源相对应。在其他实施例中，它们可对应于瞬态信号分量和稳态信号分量等。

在一些实施例中，渲染器120可再分割成第一渲染器和第二渲染器，其中第一渲染器可适于渲染第一分解信号，第二渲染器可适于渲染第二分解信号。在一些实施例中，渲染器120可以实施为软件，例如，存储在内存中以在处理器或数字信号处理器上运行的程序，它适于依次地渲染分解信号。

渲染器120可适于解相关第一分解信号以获得第一解相关信号和/或用于解相关第二分解信号以获得第二解相关信号。换言之，渲染器120可适于解相关全部分解信号，但是采用不同的解相关或渲染特性。在一些实施例中，替代解相关或除了解相关以外，渲染器120可适于将振幅平移应用至第一分解信号或第二分解信号的任一个。

渲染器120可适于渲染每个都具有与空间输出多声道音频信号中的声道一样多的分量的第一渲染信号和第二渲染信号，处理器130可适于组合第一渲染信号和第二渲染信号的分量以获得空间输出多声道音频信号。在其他实施例中，渲染器120可适于渲染每个都具有比空间输出多声道音频信号少的分量的第一渲染信号和第二渲染信号，且其中处理器130可适于升混第一渲染信号和第二渲染信号的分量以获得空间输出多声道音频信号。

图1b示出装置100的另一个实施例，包括结合图1a介绍的类似组件。但是，图1b示出具有更多细节的实施例。图1b示出了接收输入音频信号且可选择地接收输入参数的分解器110。从图1b可见，分解器适于将第一分解信号和第二分解信号提供至渲染器120，这通过虚线指示。在图1b示出的实施例中，假设第一分解信号与作为第一语义属性的点状音频源相对应，渲染器120适于将作为第一渲染特性的振幅平移应用至第一分解信号。在一些实施例中，第一分解信号和第二分解信号为可互换的，即，在其他实施例中，可将振幅平移应用至第二分解信号。

在图1b描述的实施例中，在第一分解信号的信号路径中，渲染器120示出两个可变比例的放大器121和122，放大器121和122适于不同地放大第一分解信号的两个副本。在一些实施例中，采用的不同放大因子可由输入参数确定，在其他实施例中，它们可由输入音频信号确定，可预先设置或可本地产生，也可能参考用户输入。两个可变比例放大器121和122的输出提供至处理器130，下面将提供处理器130的详细描述。

如由图1b可见，分解器110提供第二分解信号给渲染器120，渲染器120在第二分解信号的处理路径中执行不同的渲染。在其他实施例中，第一分解信号可也在目前描述的路径中处理，或者第一分解信号可替代第二分解信号在目前描述的路径中处理。在一些实施例中，第一分解信号和第二分解信号可互换。

在图1b描述的实施例中，在第二分解信号的处理路径中，存在解相关器123，在解相关器123的后面为作为第二渲染特性的旋转器或参数立体声或升混模块124。解相关器123可适于解相关第二分解信号X[k]，并用于提供第二分解信号的解相关版本Q[k]至参数立体声或升混模块124。在图1b中，单声信号X[k]提供至解相关器单元“D”123以及升混模块124。解相关器单元123可产生输入信号的解相关版本Q[k]，其具有相同的频率特性和相同的长期能量。升混模块124可基于空间参数计算升混矩阵，并合成输出声道Y₁[k]和Y₂[k]。升混模块124可根据如下公式解释，

[\begin{matrix} Y_{1} [k] \\ Y_{2} [k] \end{matrix}] = [\begin{matrix} c_{l} & 0 \\ 0 & c_{r} \end{matrix}] [\begin{matrix} \cos (α + β) & \sin (α + β) \\ \cos (- α + β) & \sin (- α + β) \end{matrix}] [\begin{matrix} X [k] \\ Q [k] \end{matrix}]

其中，参数c_l，c_r，α和β为常量，或者为由输入信号X[k]自适应地估计出的时变值和频变值，或者为以例如ILD(ILD＝声道间声级差)参数和ICC(ICC＝声道间相关性)参数的形式与输入信号X[k]一起传输的边信息。信号X[k]为接收到的单声信号，信号Q[k]为解相关的信号，是信号X[k]的解相关版本。输出信号通过Y₁[k]和Y₂[k]表示。

解相关器123可实施为IIR滤波器(IIR＝无限脉冲响应)、任意的FIR滤波器(FIR＝有限脉冲响应)或采用用于简单延迟所述信号的单个带的特定FIR滤波器。

参数c_l，c_r，α和β可以不同的方式确定。在一些实施例中，它们可简单地通过输入参数确定，所述输入参数可随输入音频信号一起提供，例如与作为边信息的降混数据一起提供。在其他实施例中，它们可本地产生或者从输入音频信号的属性中得到。

在图1b示出的实施例中，渲染器120适于根据升混模型124的两个输出信号Y₁[k]和Y₂[k]，将第二渲染信号提供至处理器130。

根据第一分解信号的处理路径，可从两个可变比例放大器121和122的输出得到的第一分解信号的两个振幅平移版本也提供至处理器130。在其他实施例中，可变比例放大器121和122可存在于处理器130中，其中仅第一分解信号和平移因子可由渲染器120提供。

如由图1b可见，处理器130能够适于处理或组合第一渲染信号和第二渲染信号，在这个实施例中，简单地通过组合输出信号以便提供对应于图1a的空间输出多声道音频信号的具有左声道L和右声道R的立体声信号。

在图1b的实施例中，在两个信号路径中，确定用于立体声信号的左声道和右声道。在第一分解信号的路径中，通过两个可变比例放大器121和122执行振幅平移，因此，两个组件导致两个放大比例不同的同相音频信号。这与作为语义属性或渲染特性的点状音频来源的效果相对应。

在第二分解信号的信号处理路径中，对应于通过升混模块124确定的左声道和右声道将输出信号Y₁[k]和Y₂[k]提供至处理器130。参数c_l，c_r，α和β确定相应的音频来源的空间宽度。换言之，参数c_l，c_r，α和β可以这样的方式或在这样的范围中选择，即对于L声道和R声道，最大相关性和最小相关性之间的任何相关性能够在作为第二渲染特性的第二信号处理路径中获得。而且，对于不同的频带，这可以独立地执行。换言之，参数c_l，c_r，α和β可以这样的方式或在这样的范围中选择，即L声道和R声道为同相的且模化点状音频来源作为语义属性。

参数c_l，c_r，α和β也可以这样的方式或在这样的范围中选择，即第二信号处理路径中的L声道和R声道被解相关，并模化作为语义属性的相当空间分布的音频来源，例如，模化背景或空间更宽的声音来源。

图2示出更普遍的另一个实施例。图2示出语义分解块210，语义分解块210与分解器110相对应。语义分解210的输出为渲染阶段220的输入，渲染阶段220与渲染器120相对应。渲染阶段220由许多单个的渲染器221到22n组成，即，语义分解阶段210适于将单声/立体声输入信号分解成具有n个语义属性的n个分解信号。分解能够基于分解控制参数执行，所述分解控制参数可与单声/立体声输入信号一起提供，为预先设置的，本地产生的，或由用户输入的等。

换言之，分解器110可适于基于可选的输入参数语义地分解输入音频信号和/或适于从输入音频信号确定输入参数。

然后，解相关或渲染阶段220的输出提供至升混块230，升混块230根据解相关或渲染信号且可选地根据升混控制参数确定多声道输出。

通常，实施例可将声音资料分离成n个不同的语义分量并使用相匹配的解相关器单独地解相关各个分量，相匹配的解相关器在图2中也标记为D¹到Dⁿ。换言之，在一些实施例中，渲染特性可与分解信号的语义属性相匹配。解相关器或渲染器中的每一个可适于相应分解的信号分量的语义属性。随后，已处理的分量能够被混合以获得输出多声道信号。不同的分量能够例如对应前景和背景模化对象。

换言之，渲染器110可适于组合第一分解信号和第一解相关信号以获得作为第一渲染信号的立体声或多声道升混信号和/或适于组合第二分解信号和第二解相关信号以获得作为第二渲染信号的立体声升混信号。

而且，渲染器120可适于根据背景音频特性渲染第一分解信号和/或根据前景音频特性渲染第二分解信号，反之亦然。

由于例如掌声状信号可视为由单个、不同的邻近拍手和从非常密集的远距离拍手产生的噪声状环境声音组成，因此通过区别孤立的前景拍手事件作为一个分量，噪声状背景作为另一个分量可获得这样的信号的适当分解。换言之，在一个实施例中，n＝2。在这样的实施例中，例如，渲染器120可适于通过第一分解信号的振幅平移渲染第一分解信号。换言之，在一些实施例中，通过将每个信号事件振幅平移至其估计的原始位置可在D¹中实现前景鼓掌分量的相关或渲染。

在一些实施例中，渲染器120可适于例如通过全通滤波第一分解信号或第二分解信号渲染第一分解信号和/或第二分解信号，以获得第一解相关信号或第二解相关信号。

换言之，在一些实施例中，可通过采用m个互相独立的全通滤波器D² _1...m来解相关或渲染背景。在一些实施例中，仅似稳定的背景可通过全通滤波器处理，这样可避免现有解相关技术中的时间涂抹效应。由于振幅平移可应用至前景对象的事件，因此可近似地恢复原始前景掌声密度，这与现有技术中的系统不同，例如J.Breebaart，S.van de Par，A.Kohlrausch，E.Schuijers，“High-Quality Parametric Spatial Audio Coding at Low Bitrates”inAES 116^th Convention，Berlin，Preprint 6072，May 2004 and J.Herre，K.J.Breebaart，et.al.，“MPEG Surround-the ISO/MPEG Standard for Efficient and Compatible Multi-ChannelAudio Coding”in Proceedings of the 122^nd AES Convention，Vienna，Austria，May 2007中描述的现有技术中的系统。

换言之，在一些实施例中，分解器110可适于基于输入参数语义地分解输入音频信号，其中输入参数可与输入音频信号一起提供，例如作为边信息。在这样的实施例中，分解器110可适于从输入音频信号确定输入参数。在其他实施例中，分解器110可适于独立于输入音频信号确定输入参数作为控制参数，输入参数可本地产生、预先设置、或者也可由用户输入。

在一些实施例中，渲染器120可适于通过应用宽带振幅平移获得第一渲染信号或第二渲染信号的空间分布。换言之，根据上面的图1b的描述，来源的平移位置能够在时间上改变，以便产生具有特定空间分布的音频来源，而不是产生点状来源。在一些实施例中，渲染器120可适于应用本地产生的低通噪声用于振幅平移，即，用于例如图1b中的可变比例放大器121和122的振幅平移的比例因子与本地产生的噪声值相对应，即为具有特定带宽的时间可变量。

实施例可适于在导向式或非导向式模式中操作。例如，在导向式场景中，例如参考图2中的虚线，解相关能够通过仅将在粗糙时间网格上受控的标准技术解相关滤波器应用到例如背景或环境声音部分上实现，且采用更精细网格上的宽带振幅平移经由时间变量空间定位通过所述前景部分中的各个单独的事件的重新分配获得相关性。换言之，在一些实施例中，渲染器120可适于在不同的时间网格上例如基于不同的时间比例操作用于不同分解信号的解相关器，这可根据针对各个解相关器的不同采样比率或不同延迟而定。在一个实施例中，执行前景和背景分离，前景部分可采用振幅平移，其中与用于和背景部分相关的解相关器的操作相比，用于前景部分的振幅在更精细的时间网格上改变。

此外，应强调的是，对于例如掌声状信号(即，具有似稳定随机质量的信号)的解相关，每个单独的前景掌声的确切空间位置可不像大量掌声事件的整体分布的恢复那样重要。实施例可利用这个事实并可在非导向式模式中操作。在这种模式中，可通过低通噪声控制上述的振幅平移因子。图3示出了实施场景的单声至立体声系统。图3示出与分解器110相对应的用于将单声输入信号分解成前景分解信号部分和背景分解信号部分的语义分解块310。

如由图3可见，通过全通D¹ 320渲染信号的背景分解部分。然后，解相关信号和未渲染背景分解部分一起提供至与处理器130相对应的升混330。前景分解信号部分提供至与渲染器120相对应的振幅平移D²阶段340。本地产生的低通噪声350也提供至振幅平移阶段340，然后振幅平移阶段340可将前景分解信号以振幅平移的配置形式提供至升混330。振幅平移D²阶段340可通过提供比例因子k用于一组立体声音频声道中的两个之间的振幅选择确定其输出。比例因子k可基于低通噪声。

如由图3可见，在振幅平移340和升混330之间仅存在一个箭头。这一个箭头也可表示振幅平移信号，即，在立体声升混的情况下，已有的左声道和右声道。如由图3可见，与处理器130相对应的升混330适于处理或结合背景分解信号和前景分解信号以得到立体声输出。

另一些实施例可采用本地的处理以便得到背景分解信号和前景分解信号或用于分解的输入参数。分解器110可适于基于瞬态分离方法确定第一分解信号和/或第二分解信号。换言之，分解器110可适于基于分离方法确定第一分解信号或第二分解信号，基于确定的第一分解信号和输入音频信号之间的差异确定其他的分解信号。在其他实施例中，可基于瞬态分离方法确定第一分解信号或第二分解信号，基于第一分解信号或第二分解信号与输入音频信号之间的差异确定其他分解信号。

分解器110和/或渲染器120和/或处理器130可包括DirAC单声合成阶段和/或DirAC合成阶段和/或DirAC合并阶段。在一些实施例中，分解器110可适于分解输入音频信号，渲染器120可适于渲染第一分解信号和/或第二分解信号，和/或处理器130可适于根据不同的频带处理第一渲染信号和/或第二渲染信号。

实施例可采用下面的近似用于掌声状信号。当前景分量可通过瞬态检测或分离方法(参见Pulkki，Ville；“Spatial Sound Reproduction with Directional Audio Coding”in J.Audio Eng.Soc.，Vol.55，No.6，2007)获得时，背景分量可通过残留信号给出。图4描述了一个例子，其中采用适当的方法来获得例如掌声状信号x(n)的背景分量x’(n)从而实施图3中的语义分解3 10，即分解器120的实施例。图4示出了输入DFT410(DFT＝离散傅里叶变换)的时间离散输入信号x(n)。DFT块410的输出提供至用于平滑频谱的块420和谱白化块430，谱白化块430用于根据DFT410的输出和平滑谱阶段430的输出进行谱白化。

然后，谱白化阶段430的输出提供至谱峰挑选阶段440，谱峰挑选阶段440分离频谱并提供两个输出，即噪声和瞬态残留信号以及音调信号。噪声和瞬态残留信号提供至LPC滤波器450(LPC＝线性预测编码)，其中残留噪声信号和音调信号一起作为谱峰挑选阶段440的输出提供至混合阶段460。然后，混合阶段460的输出提供至谱成形阶段470，谱成形阶段470根据由平滑谱阶段420提供的平滑谱成形谱。然后，谱成形阶段470的输出提供至合成滤波器480，即反相离散傅里叶变换，以便获得表示背景分量的x’(n)。然后，可得到前景分量为输入信号和输出信号之间的差异，即x(n)-x’(n)。

本发明的实施例可在虚拟现实应用中操作，例如，3D游戏。在这样的应用中，当基于传统的思想时，具有大的空间广度的声音来源的合成可能比较复杂。这样的来源例如可为海岸、鸟群、奔驰的马群、行进的士兵或者鼓掌的观众。典型地，这样的声音事件被空间化为一大群的点状来源，这导致计算上复杂的实施，参见Wagner，Andreas；Walther，Andreas；Melchoir，Frank；Strauβ，Michael；“Generation of Highly Immersive Atmospheres for Wave FieldSynthesis Reproduction”at 116^th International EAS Convention，Berlin，2004。

实施例可以完成似真地执行声音来源的广度的合成的方法，但是，同时具有较低的结构和计算复杂度。实施例可基于DirAC(DirAC＝定向音频编码)，参见Pulkki，Ville；“SpatialSound Reproduction with Directional Audio Coding”in J.Audio Eng.Soc.，Vol.55，No.6，2007。换言之，在一些实施例中，分解器110和/或渲染器120和/或处理器130可适于处理DirAC信号。换言之，分解器110可包括DirAC单声合成阶段，渲染器120可包括DirAC合成阶段，和/或处理器130可包括DirAC合并阶段。

实施例可基于DirAC处理，例如采用仅两个合成结构，例如，一个用于前景声音来源，一个用于背景声音来源。前景声音来源可应用于具有受控的定向数据的单一DirAC流，导致邻近的点状来源的感知。背景声音也可采用具有不同地受控的定向数据的单一定向流进行重现，这导致空间传播的声音对象的感知。然后，两个DirAC流被合并和解码例如用于任意的扬声器设置或耳机。

图5示出具有空间大范围的声音来源的合成。图5示出上单声合成块610，上单声合成块610产生导致邻近的点状声音来源如观众中的最近鼓掌者的感知的单声DirAC流。下单声合成块620用于产生导致空间传播的声音的感知的单声DirAC流，例如，产生如来自观众的掌声的背景声音。然后，在DirAC合并阶段630中合并两个DirAC单声合成块610和620的输出。图5示出了在此实施例中仅采用两个DirAC合成块610，620。它们中的一个用于产生前景中的声音事件，如最近的或邻近的鸟群或鼓掌观众中的最近的或邻近的人，另一个用于产生背景声音，连续的鸟群声音等。

使用DirAC单声合成块610以这样的方式将前景声音变换至单声DirAC流，即方位数据随频率保持恒定，但是在时间上随机地改变或者由外部的处理控制。扩散参数ψ设置为0，即表示点状来源。输入块610的音频输入假设为时间上非重叠的声音，如不同的鸟叫或拍手声，其产生邻近的声音来源的感知，如鸟或者拍手的人。通过判断θ和θ_{范围-前景}控制前景声音事件的空间范围，这意味着将在θ±θ_{范围-前景}的方向上感知到各个声音事件，但是，单个事件可感知为点状的。换言之，在点的可能位置限制在θ±θ_{范围-前景}的范围时，产生点状声音来源。

背景块620采用这样的信号作为输入音频流，所述这样的信号包括不在前景音频流中的所有其他声音事件，且旨在包括大量的时间上重叠的声音事件，例如几百只鸟或者大量的远距离鼓掌者。然后，附属的方位值在给定的限制方位值θ±θ_{范围-前景}内设置为在时间和频率上均为随机的。然后，对背景声音的空间范围进行合成且具有较低的计算复杂度。扩散度ψ也可被控制。如果扩散度ψ增加，那么DirAC解码器将声音施加到所有方向，这将在声音来源完全地环绕听众时使用。如果声音来源不环绕，那么实施例中的扩散度可保持为很低，或接近于零，或为零。

本发明的实施例可提供这样的优点，即以适度的计算成本实现渲染声音的优良感知质量。实施例可使得空间声音渲染的模块化实施方式可行，如图5中所示。

根据本发明方法的特定实施要求，本发明方法可在硬件中或者在软件中实施。所述实施可采用数字储存媒介、具体地具有储存在其上的可电读取的控制信号的闪速存储器、盘、DVD或CD执行，所述可电读取的控制信号与可编程计算机系统协作从而执行本发明的方法。通常，本发明因此为具有储存在机器可读的载体上的程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可操作用于执行本发明的方法。换言之，本发明的方法因此为具有程序代码的计算机程序，所述程序代码用于在计算机上运行所述计算机程序时执行本发明方法中的至少一个。

Claims

1.一种用于基于输入音频信号确定空间输出多声道音频信号的装置(100)，包括：

语义分解器(110)，配置为用于分解所述输入音频信号以获得具有第一语义属性的第一分解信号和具有第二语义属性的第二分解信号，所述第二语义属性与所述第一语义属性不同，所述第一分解信号为前景信号部分，所述第二分解信号为背景信号部分；

渲染器(120)，用于采用第一渲染特性渲染所述第一分解信号以获得具有所述第一语义属性的第一渲染信号，并用于采用第二渲染特性渲染所述第二分解信号以获得具有所述第二语义属性的第二渲染信号，其中所述第一渲染特性和所述第二渲染特性彼此不同，

其中所述渲染器(120)包括用于渲染所述前景信号部分的第一定向音频编码单声合成模块(610)和用于渲染所述背景信号部分的第二定向音频编码单声合成模块(620)，所述第一定向音频编码单声合成模块(610)配置为用于产生导致邻近的点状来源的感知的第一单声定向音频编码流，所述第二定向音频编码单声合成模块(620)配置为用于产生导致空间传播的声音的感知的第二单声定向音频编码流；以及

处理器(130)，用于处理所述第一渲染信号和所述第二渲染信号以获得所述空间输出多声道音频信号，其中所述处理器(130)包括用于合并所述第一单声定向音频编码流和所述第二单声定向音频编码流的定向音频编码合并模块(630)。

2.如权利要求1所述的装置(100)，其中所述第一定向音频编码单声合成模块(610)被配置使得方位数据随频率保持恒定，并且在时间上在受控的方位范围内随机地改变或者由外部的处理控制，并且扩散参数设置为0，以及

其中所述第二定向音频编码单声合成模块(620)被配置使得方位数据在时间上以及频率上在给定的限制方位值内随机地设置。

3.一种用于基于输入音频信号确定空间输出多声道音频信号的方法，包括以下步骤：

语义地分解所述输入音频信号以获得具有第一语义属性的第一分解信号和具有第二语义属性的第二分解信号，所述第二语义属性与所述第一语义属性不同，所述第一分解信号为前景信号部分，所述第二分解信号为背景信号部分；

通过在第一定向音频编码单声合成阶段(610)中处理所述第一分解信号而采用第一渲染特性渲染所述第一分解信号以获得具有所述第一语义属性的第一渲染信号，所述第一定向音频编码单声合成阶段(610)配置为用于产生导致邻近的点状来源的感知的第一单声定向音频编码流；

通过在第二定向音频编码单声合成阶段(620)中处理所述第二分解信号而采用第二渲染特性渲染所述第二分解信号以获得具有所述第二语义属性的第二渲染信号，所述第二定向音频编码单声合成阶段(620)配置为用于产生导致空间传播的声音的感知的第二单声定向音频编码流；以及

通过采用用于合并所述第一单声定向音频编码流和所述第二单声定向音频编码流的定向音频编码合并阶段(630)而处理所述第一渲染信号和所述第二渲染信号以获得所述空间输出多声道音频信号。

4.如权利要求3所述的方法，其中，在所述第一定向音频编码单声合成阶段(610)中，方位数据随频率保持恒定，并且在时间上在受控的方位范围内随机地改变或者由外部的处理控制，并且扩散参数设置为0，以及

其中，在所述第二定向音频编码单声合成阶段(620)中，方位数据在时间上以及频率上在给定的限制方位值内随机地设置。