CN104904240B

CN104904240B - 用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法

Info

Publication number: CN104904240B
Application number: CN201380066136.6A
Authority: CN
Inventors: 法比安·屈希; 吉奥范尼·德加尔多; 阿希姆·孔茨; 维尔·普尔基; 阿尔雄蒂斯·波利蒂斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Technische Universitaet Ilmenau
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Technische Universitaet Ilmenau
Priority date: 2012-11-15
Filing date: 2013-11-12
Publication date: 2017-06-23
Anticipated expiration: 2033-11-12
Also published as: MX341006B; CA2891087C; CA2891087A1; US10313815B2; WO2014076058A1; CN104904240A; JP5995300B2; EP2904818B1; MX2015006128A; RU2015122630A; KR20150104091A; US20150249899A1; KR101715541B1; RU2633134C2; TWI512720B; EP2733965A1; ES2609054T3; EP2904818A1; BR112015011107A2; TW201426738A

Abstract

一种用于根据从在记录空间中进行记录而获得的输入空间音频信号(105)生成多个参数化音频流(125)(θ_i,Ψ_i,W_i)的装置(100)包括分段器(110)和生成器(120)。分段器(110)被配置用于从输入空间音频信号(105)提供至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)，其中至少两个分段音频信号(115)(W_i,X_i,Y_i,Z_i)与记录空间的对应分段(Segi)相关联。生成器(120)被配置用于针对至少两个分段音频信号(115)(W_i,X_i,Y_i,Z_i)中的每一个，生成参数化音频流，以获得多个参数化音频流(125)(θ_i,Ψ_i,W_i)。

Description

用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法

技术领域

本发明总体上涉及参数化空间音频处理，更具体地，涉及用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法。本发明的进一步的实施例涉及基于扇区(sector)的参数化空间音频处理。

背景技术

在多声道收听中，收听者由多个扬声器围绕。存在有多种已知方法以捕获这样的设置的音频。首先考虑扬声器系统和用这些扬声器系统能产生的空间感受。在没有特殊技术的情况下，常见的双声道立体声设备只能在连接扬声器的线路上产生听觉事件。无法产生从其它方向发出的声音。逻辑上，通过使用环绕收听者的更多个扬声器，可以涵盖更多个方向并且可以产生更自然的空间感受。最为众所周知的多声道扬声器系统和布局为5.1标准(“ITU-R 775-1”)，其包括相对于收听位置在0°、30°和110°的方位角处的五个扬声器。也已知具有位于不同方向的不同数量的扬声器的其它系统。

在本领域中，针对前述扬声器系统已经设计出数种不同的记录方法，以便再现如同在记录环境中会感知的收听情况下的空间感受。针对选择的多声道扬声器系统记录空间声音的理想方式是使用数量与所存在的扬声器相同的麦克风。在这样的情况下，麦克风的指向性图案(directivity pattern)也应该对应于扬声器布局，以使得只用一个、两个、或三个麦克风记录来自任何单一方向的声音。使用的扬声器越多，因而需要的指向性图案就越窄。然而，这样的窄指向性麦克风相当昂贵，并且通常具有非平坦的频率响应，这不是期望的。此外，使用具有太宽指向性图案的数个麦克风作为多声道再现的输入，结果导致多彩而模糊的听觉感知，原因在于从单一方向发出的声音经常是用比所需的扬声器更多的扬声器来再现。因此，当前的麦克风最适合双声道记录和再现，而没有环绕空间感受的目标。

空间声音记录的另一种已知方法是记录分散在宽广空间区域的大量麦克风。例如，当记录在舞台上的一支管弦乐团时，单一乐器可由所谓的点麦克风拾取，其位置接近声源。前声音舞台的空间分布例如可由传统的立体声麦克风捕获。对应于后期混响的声场分量可由位于距舞台相对远的距离的数个麦克风捕获。然后，音响师可以通过使用可用的全部麦克风声道的组合来混合期望的多声道输出。然而，该记录技术暗示极大型记录设置以及记录声道的手工混音，这实际上通常是不可行的。

用于基于定向音频编码(DirAC)记录和再现空间音频的传统系统(如在以下中所述：T.Lokki、J.Merimaa、V.Pulkki：Method for Reproducing Natural or ModifiedSpatial Impression in Multichannel Listening(用于在多声道收听中再现自然或修正空间感受的方法)，美国专利第7,787,638B2号，2010年8月31日，以及V.Pulkki：SpatialSound Reproduction with Directional Audio Coding(利用定向音频编码的空间声音再现)，J.Audio Eng.Soc.,Vol.55,No.6,pp.503-516,2007)依赖于简单通用的声场模型。因此，它们有一些系统性缺点，这限制了实际上可达到的声音质量和体验。

已知的解决方案的常见问题为这些解决方案相当复杂且通常与空间声音质量的劣化相关联。

因此，本发明的目的是提出参数化空间音频处理的改进构想，其允许使用相对简单且紧凑的麦克风配置来达成更高质量、更逼真的声音记录和再现。

发明内容

该目的通过根据本公开实施例的装置和根据本公开实施例的方法来实现。

根据本发明的一个实施例，一种用于根据从在记录空间中进行记录而获得的输入空间音频信号来生成多个参数化音频流的装置包括分段器(segmentor)和生成器。该分段器被配置用于从输入空间音频信号提供至少两个输入分段音频信号。这里，该至少两个输入分段音频信号与记录空间的对应分段相关联。该生成器被配置用于针对至少两个输入分段音频信号中的每一个生成参数化音频流以获得多个参数化音频流。

为本发明的基础的基本构想为在从输入空间音频信号提供至少两个输入分段音频信号的情况下、以及在针对至少两个输入分段音频信号中的每一个生成参数化音频流以获得多个参数化音频流的情况下，能够实现改进的参数化空间音频处理，其中至少两个输入分段音频信号与该记录空间的对应分段相关联。这允许使用相对简单且紧凑的麦克风配置来实现更高质量、更逼真的空间声音记录和再现。

根据另一实施例，该分段器被配置成针对记录空间的每个分段而使用指向性图案。此处，该指向性图案指示至少两个输入分段音频信号的指向性。通过使用指向性图案，可以获得所观察的声场的更佳模型匹配，特别是在复杂声音场景中。

根据另一实施例，该生成器被配置用于获得多个参数化音频流，其中，多个参数化音频流均包括至少两个输入分段音频信号的分量和对应的参数化空间信息。例如，每个参数化音频流的参数化空间信息包括到达方向(DOA)参数和/或扩散性参数。通过提供DOA参数和/或扩散性参数，可以在参数化信号表示域中描述观察的声场。

根据又一实施例，一种用于根据从记录在录空间中的输入空间音频信号得到的多个参数化音频流来生成多个扬声器信号的装置包括呈现器和组合器。该呈现器被配置用于从多个参数化音频流提供多个输入分段扬声器信号。此处，输入分段扬声器信号与记录空间的对应分段相关联。该组合器被配置用于组合输入分段扬声器信号以获得多个扬声器信号。

本发明的另外的实施例提供了用于生成多个参数化音频流的方法以及用于生成多个扬声器信号的方法。

附图说明

以下，将参照附图说明本发明的实施例，在附图中：

图1示出用于用分段器和生成器从记录在记录空间中的输入空间音频信号生成多个参数化音频流的装置的实施例的框图；

图2示出基于混合或矩阵化运算的、根据图1的装置的该实施例的分段器的示意图；

图3示出使用指向性图案的、根据图1的装置的该实施例的分段器的示意图；

图4示出基于参数化空间分析的、根据图1的装置的该实施例的生成器的示意图；

图5示出用于用呈现器和组合器从多个参数化音频流生成多个扬声器信号的装置的实施例的框图；

图6示出记录空间的示例分段的示意图，每个分段表示在二维(2D)平面内或在三维(3D)空间内的方向子集；

图7示出针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图；

图8示出使用二阶B格式输入信号的、针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图；

图9示出包括在参数化信号表示域中的信号修正的、针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图；

图10示出由根据图1的装置的该实施例的分段器提供的输入分段音频信号的示例极性图案(polar pattern)的示意图；

图11示出用于执行声场记录的示例麦克风配置的示意图；以及

图12示出用于获得更高阶麦克风信号的全向麦克风的示例圆形阵列的示意图。

具体实施方式

在利用附图更详细地讨论本发明之前，须指出的是，在附图中，相同元件、具有相同功能或相同效果的元件以相同的附图标记提供，使得在不同实施例中示例说明的这些元件及其功能的描述在不同实施例中可相互交换或可彼此适用。

图1示出用于使用分段器110和生成器120根据从在记录空间中进行记录而获得的输入空间音频信号105来生成多个参数化音频流125(θ_i,Ψ_i,W_i)的装置100的实施例的框图。例如，该输入空间音频信号105包括全向信号W和多个不同的定向信号X、Y、Z、U、V(或X、Y、U、V)。如图1所示，该装置100包括分段器110和生成器120。例如，该分段器110被配置用于从输入空间音频信号105的全向信号W和多个不同定向信号X、Y、Z、U、V提供至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)，其中该至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)与记录空间的对应分段Seg_i相关联。此外，生成器120可被配置用于针对至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)中的每一个生成参数化音频流以获得多个参数化音频流125(θ_i,Ψ_i,W_i)。

通过用于生成多个参数化音频流125的装置100，可以避免空间声音质量的劣化并避免相对复杂的麦克风配置。因此，根据图1的装置100的实施例允许使用相对简单且紧凑的麦克风配置获得更高质量、更逼真的空间声音记录。

在实施例中，记录空间的分段Seg_i均表示二维(2D)平面内或三维(3D)空间内的方向子集。

在实施例中，记录空间的分段Seg_i均以关联的定向度量为特征。

根据实施例，该装置100被配置用于执行声场记录以获得输入空间音频信号105。例如，分段器110被配置用于将关注的全角度范围划分成记录空间的分段Seg_i。此外，记录空间的分段Seg_i均可覆盖相比于关注的全角度范围缩小的角度范围。

图2示出基于混合(或矩阵化)运算的、根据图1的装置100的该实施例的分段器110的示意图。如在图2中示例性地示出，分段器110被配置成使用混合或矩阵化运算来根据全向信号W和多个不同定向信号X、Y、Z、U、V生成至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)，该混合或矩阵化运算取决于记录空间的分段Seg_i。通过图2中示例性示出的分段器110，可以使用预定义的混合或矩阵化运算来将构成输入空间音频信号105的全向信号W和多个不同的定向信号X、Y、Z、U、V映射为至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)。该预定义的混合或矩阵化运算取决于记录空间的分段Seg_i，并且实质上可以用于从输入空间音频信号105分出来至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)。与用于声场的简单全局模型相反，基于混合或矩阵化运算的由分段器110分出来至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)实质上使得能够实现上述优点。

图3示出使用(期望的或预定的)指向性图案305(即)的、根据图1的装置100的实施例的分段器110的示意图。如图3中示例性示出，分段器110被配置用于针对记录空间的每个分段Segi而使用指向性图案305(即)。此外，指向性图案305(即)可指示至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)的指向性。

在实施例中，指向性图案305(即)由下式给出

其中，a和b表示可以修改以获得期望的指向性图案的乘数，以及其中，表示方位角，而Θ_i指示记录空间的第i个分段的优选方向。例如，a处于0至1的范围内以及b在-1至1的范围内。

乘数a、b的一个有用选项可以为a＝0.5以及b＝0.5，从而得到如下指向性图案：

通过图3示例性示出的分段器110，可以获得分别具有预定的指向性图案305(即)的与记录空间的对应分段Seg_i相关联的至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)。此处须指出，针对记录空间的每个分段Seg_i，使用指向性图案305(即)使得能够提高用设备100获得的空间声音质量。

图4示出基于参数化空间分析的、根据图1的装置100的实施例的生成器120的示意图。如图4中示例性示出，生成器120被配置用于获得多个参数化音频流125(θ_i,Ψ_i,W_i)。此外，多个参数化音频流125(θ_i,Ψ_i,W_i)均可包括至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)的分量W_i和对应的参数化空间信息θ_i、Ψ_i。

在实施例中，生成器120可被配置用于针对至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)中每一个执行参数化空间分析以获得对应的参数化空间信息θ_i、Ψ_i。

在实施例中，每个参数化音频流125(θ_i,Ψ_i,W_i)的参数化空间信息θ_i、Ψ_i包括到达方向(DOA)参数θ_i和/或扩散性参数Ψ_i。

在实施例中，由图4中示例性地示出的生成器120提供的到达方向(DOA)参数θ_i和/或扩散性参数Ψ_i可构成用于参数化空间音频信号处理的DirAC参数。例如，生成器120被配置用于使用至少两个输入分段音频信号115的时频表示来生成DirAC参数(例如，DOA参数θ_i和扩散性参数Ψ_i)。

图5示出用于用呈现器510和组合器520根据多个参数化音频流125(θ_i,Ψ_i,W_i)生成多个扬声器信号525(L₁,L₂,…)的装置500的实施例的框图。在图5的实施例中，多个参数化音频流125(θ_i,Ψ_i,W_i)可从记录在记录空间中的输入空间音频信号(例如，图1的实施例中示例性示出的输入空间音频信号105)得到。如图5所示，该装置500包括呈现器510和组合器520。例如，呈现器510被配置用于从多个参数化音频流125(θ_i,Ψ_i,W_i)提供多个输入分段扬声器信号515，其中输入分段扬声器信号515与记录空间的对应分段(Seg_i)相关联。此外，组合器520可被配置用于组合输入分段扬声器信号515以获得多个扬声器信号525(L₁,L₂,…)。

通过提供图5的装置500，可以根据多个参数化音频流125(θ_i,Ψ_i,W_i)生成多个扬声器信号525(L₁,L₂,…)，其中参数化音频流125(θ_i,Ψ_i,W_i)可从图1的装置100发送。此外，图5的装置500允许使用从相对简单且紧凑的麦克风配置得到的参数化音频流来实现更高质量、更逼真的空间声音再现。

在实施例中，呈现器510被配置用于接收多个参数化音频流125(θ_i,Ψ_i,W_i)。例如，多个参数化音频流125(θ_i,Ψ_i,W_i)均包括分段音频分量W_i和对应的参数化空间信息θ_i、Ψ_i。此外，呈现器510可被配置用于使用对应的参数化空间信息505(θ_i、Ψ_i)来呈现每个分段音频分量W_i以获得多个输入分段扬声器信号515。

图6示出记录空间的示例分段Seg_i(i＝1、2、3、4)610、620、630、640的示意图600。在图6的示意图600中，记录空间的示例分段610、620、630、640均表示在二维(2D)平面内的方向子集。此外，记录空间的分段Seg_i均表示三维(3D)空间内的方向子集。例如，表示三维(3D)空间内的方向子集的分段Seg_i可以与图6中示例性示出的分段610、620、630、640相似。根据图6的示意图600，示例性地示出图1的装置100的四个示例分段610、620、630、640。然而，也可以使用不同数量的分段Seg_i(i＝1、2、…、n，其中i为整数索引，以及n表示分段数量)。示例分段610、620、630、640均可以以极坐标系(例如，参见图6)表示。对于三维(3D)空间，分段Segi可类似地以球坐标系表示。

在实施例中，图1中示例性地示出的分段器110可被配置成使用分段Seg_i(例如，图6的示例分段610、620、630、640)来提供至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)。通过使用分段(或扇区)，可以实现声场的基于分段(或基于扇区)的参数模型。这使得能够用相对紧凑的麦克风配置来实现较高质量的空间音频记录和再现。

图7示出针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图700。在图7的示意图700中，示例性地示出了用于生成多个参数化音频流125(θ_i,Ψ_i,W_i)的装置100的实施例以及用于生成多个扬声器信号525(L₁,L₂,…)的装置500的实施例。如图7的示意图700中所示，分段器110可被配置用于接收输入空间音频信号105(例如，麦克风信号)。此外，分段器110可被配置用于提供至少两个输入分段音频信号115(例如，第一分段的分段麦克风信号715-1和第二分段的分段麦克风信号715-2)。生成器120可包括第一参数化空间分析块720-1和第二参数化空间分析块720-2。此外，生成器120可被配置用于针对至少两个输入分段音频信号115中的每一个生成参数化音频流。在装置100的该实施例的输出，将获得多个参数化音频流125。例如，第一参数化空间分析块720-1将输出第一分段的第一参数化音频流725-1，而第二参数化空间分析块720-2将输出第二分段的第二参数化音频流725-2。此外，由第一参数化空间分析块720-1提供的第一参数化音频流725-1可包括第一分段的参数化空间信息(例如，θ₁、Ψ₁)以及第一分段的一个或多个分段音频信号(例如W₁)，而由第二参数化空间分析块720-2提供的第二参数化音频流725-2可包括第二分段的参数化空间信息(例如θ₂、Ψ₂)以及第二分段的一个或多个分段音频信号(例如W₂)。该装置100的实施例可被配置用于发送多个参数化音频流125。也如图7的示意图700所示，装置500的实施例可被配置用于从装置100的实施例接收多个参数化音频流125。呈现器510可包括第一呈现单元730-1和第二呈现单元730-2。此外，呈现器510可被配置用于从所接收的多个参数化音频流125提供多个输入分段扬声器信号515。例如，第一呈现单元730-1可被配置用于从第一分段的第一参数化音频流725-1提供第一分段的输入分段扬声器信号735-1，而第二呈现单元730-2可被配置用于从第二分段的第二参数化音频流725-2提供第二分段的输入分段扬声器信号735-2。此外，组合器520可被配置用于组合输入分段扬声器信号515以获得多个扬声器信号525(L₁,L₂,…)。

图7的实施例实质上表示使用声场的基于分段(或基于扇区)的参数模型的较高质量的空间音频记录和再现，其允许用相对紧凑的麦克风配置记录同样复杂的空间音频场景。

图8示出使用二阶B格式输入信号105的、针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图800。图8中示意性地示出的示例扬声器信号计算基本上对应于图7中示意性地示出的示例扬声器信号计算。在图8的示意图中，示例性地描绘用于生成多个参数化音频流125的装置100的实施例和用于生成多个扬声器信号525的装置500的实施例。如图8所示，装置100的实施例可被配置用于接收输入空间音频信号105(例如，B格式麦克风声道(诸如[W、X、Y、U、V]))。此处，应注意，图8中的信号U、V为二阶B格式分量。示例性地由“矩阵化”标示的分段器110可被配置用于使用混合或矩阵化运算来根据全向信号和多个不同的定向信号生成至少两个输入分段音频信号115，该混合或矩阵化运算取决于记录空间的分段Seg_i。例如，至少两个输入分段音频信号115可包括第一分段的分段麦克风信号715-1(例如[W₁、X₁、Y₁])和第二分段的分段麦克风信号715-2(例如[W₂、X₂、Y₂])。此外，生成器120可包括第一指向性和扩散性分析块720-1以及第二指向性和扩散性分析块720-2。在图8中示例性地示出的第一指向性和扩散性分析块720-1以及第二指向性和扩散性分析块720-2基本上对应于在图7中示例性地示出的第一参数化空间分析块720-1以及第二参数化空间分析块720-2。生成器120可被配置用于针对至少两个输入分段音频信号115中的每一个生成参数化音频流以获得多个参数化音频流125。例如，生成器120可被配置用于使用第一指向性和扩散性分析块720-1对第一分段的分段麦克风信号715-1执行空间分析，以及用于从第一分段的分段麦克风信号715-1中提取第一分量(例如分段音频信号W₁)以获得第一分段的第一参数化音频流725-1。此外，生成器120可被配置用于使用第二指向性和扩散性分析块720-2对第二分段的分段麦克风信号715-2执行空间分析以及用于从第二分段的分段麦克风信号715-2中提取第二分量(例如分段音频分量W₂)，以获得第二分段的第二参数化音频流725-2。例如，第一分段的第一参数化音频流725-1可包括第一分段的参数化空间信息，其包括第一到达方向(DOA)参数θ₁和第一扩散性参数Ψ₁以及第一提取分量W₁，而第二分段的第二参数化音频流725-2可包括第二分段的参数化空间信息，其包括第二到达方向(DOA)参数θ₂和第二扩散性参数Ψ₂以及第二提取分量W₂。装置100的实施例可被配置用于发送多个参数化音频流125。

也如图8的示意图800所示，用于生成多个扬声器信号525的装置500的实施例可被配置用于接收从装置100的实施例发送的多个参数化音频流125。在图8的示意图800中，呈现器510包括第一呈现单元730-1和第二呈现单元730-2。例如，第一呈现单元730-1包括第一乘法器802和第二乘法器804。第一呈现单元730-1的第一乘法器802可被配置用于向第一分段的第一参数化音频流725-1的分段音频信号W₁应用第一加权因子803(例如，)，以通过第一呈现单元730-1获得直接声音子流810，而第一呈现单元730-1的第二乘法器804可被配置用于向第一分段的第一参数化音频流725-1的分段音频信号W₁应用第二加权因子805(例如)，以通过第一呈现单元730-1获得扩散子流812。此外，第二呈现单元730-2可包括第一乘法器806和第二乘法器808。例如，第二呈现单元730-2的第一乘法器806可被配置用于向第二分段的第二参数化音频流725-2的分段音频信号W₂应用第一加权因子807(例如)，以通过第二呈现单元730-2获得直接声音流814，而第二呈现单元730-2的第二乘法器808可被配置用于向第二分段的第二参数化音频流725-2的分段式音频信号W₂应用第二加权因子809(例如)，以通过第二呈现单元730-2获得扩散子流816。在实施例中，第一呈现单元730-1和第二呈现单元730-2的第一和第二加权因子803、805、807、809是从对应的扩散性参数Ψ₁导出。根据实施例，第一呈现单元730-1可包括增益因子乘法器811、解相关处理块813和组合单元832，而第二呈现单元730-2可包括增益因子乘法器815、解相关处理块817和组合单元834。例如，第一呈现单元730-1的增益因子乘法器811可被配置用于向由第一呈现单元730-1的第一乘法器802输出的直接声音子流810应用从块822进行的矢量基幅度平移(VBAP)运算所获得的增益因子。此外，第一呈现单元730-1的解相关处理块813可被配置用于向第一呈现单元730-1的第二乘法器804的输出的扩散子流812应用解相关/增益运算。此外，第一呈现单元730-1的组合单元832可被配置用于组合从增益因子乘法器811获得的信号和解相关处理块813获得的信号以获得第一分段的分段扬声器信号735-1。例如，第二呈现单元730-2的增益因子乘法器815可被配置用于向由第二呈现单元730-2的第一乘法器806输出的直接声音子流814应用从由块824进行的矢量基幅度平移(VBAP)运算所获得的增益因子。此外，第二呈现单元730-2的解相关处理块817可被配置用于向第二呈现单元730-2的第二乘法器808的输出的扩散子流816应用解相关/增益运算。此外，第二呈现单元730-2的组合单元834可被配置用于组合从增益因子乘法器815获得的信号和解相关处理块817获得的信号以获得第二分段的分段扬声器信号735-2。

在实施例中，由第一呈现单元730-1和第二呈现单元730-2的块822、824进行的矢量基幅度平移(VBAP)运算取决于对应的到达方向(DOA)参数θ_i。如在图8中示例性地示出，组合器520可被配置用于组合输入分段扬声器信号515以获得多个扬声器信号525(例如，L₁,L₂,…)。如在图8中示例性地示出，组合器520可包括第一求和单元842和第二求和单元844。例如，第一求和单元842被配置成对第一分段的分段扬声器信号735-1中的第一个分段扬声器信号与第二分段的分段扬声器信号735-2中的第一个分段式扬声器信号进行求和以获得第一扬声器信号843。此外，第二求和单元844可被配置成对第一分段的分段扬声器信号735-1中的第二个分段扬声器信号与第二分段的分段扬声器信号735-2中的第二个分段扬声器信号进行求和以获得第二扬声器信号845。第一扬声器信号843和第二扬声器信号845可构成多个扬声器信号525。参考图8的实施例，应该注意，针对每个分段，潜在地，可以生成针对回放的全部扬声器的扬声器信号。

图9示出针对在参数化信号表示域中包括信号修正的对记录空间的两个分段或扇区的示例扬声器信号计算的示意图900。图9的示意图900中的示例扬声器信号计算基本上对应于图7的示意图700中的示例扬声器信号计算。然而，在图9的示意图900中的示例扬声器信号计算包括附加信号修正。

在图9的示意图900中，装置100包括分段器110和生成器120以获得多个参数化音频流125(θ_i,Ψ_i,W_i)。此外，装置500包括呈现器510和组合器520以获得多个扬声器信号525。

例如，装置100可进一步包括用于修正在参数化信号表示域中的多个参数化音频流125(θ_i,Ψ_i,W_i)的修正器910。此外，修正器910可被配置成使用对应的修正控制参数905来修正参数化音频流125(θ_i,Ψ_i,W_i)中的至少一个。以此方式，可获得第一分段的第一修正参数化音频流916和第二分段的第二修正参数化音频流918。第一修正参数化音频流916和第二修正参数化音频流918可构成多个修正参数化音频流915。在实施例中，该装置100可被配置用于发送多个修正参数化音频流915。此外，该装置500可被配置用于接收从装置100发送的多个修正参数化音频流915。

通过提供根据图9的示例扬声器信号计算，可以实现更灵活的空间音频记录和再现方案。更具体地，当在参数域中应用修正时，可以获得更高质量的输出信号。通过在生成多个参数化音频表示(流)之前对输入信号进行分段，获得了更高的空间选择性，其使得能够更好地允许有差别地处理所捕获的声场的不同分量。

图10示出根据图1的用于生成多个参数化音频流125(θ_i,Ψ_i,W_i)的装置100的实施例的分段器110提供的输入分段音频信号115(W_i,X_i,Y_i,Z_i)的示例极性图案的示意图1000。在图10的示意图1000中，在二维(2D)平面的相应极坐标系中可视化示例输入分段音频信号115。类似地，可以在三维(3D)空间的相应球坐标系中可视化示例输入分段音频信号115。图10的示意图1000示例性地描绘第一输入分段音频信号(例如，全向信号W_i)的第一定向响应1010、第二输入分段音频信号(例如，第一定向信号X_i)的第二定向响应1020和第三输入分段音频信号(例如，第二定向信号Y_i)的第三定向响应1030。此外，在图10的示意图1000中示例性地示出与第二定向响应1020相比具有相反符号的第四定向响应1022和与第三定向响应1030相比具有相反符号的第五定向响应1032。因而，不同的定向响应1010、1020、1030、1022、1032(极性图案)可由分段器110用于输入分段音频信号115。这里须指出的是，输入分段音频信号115可以取决于时间和频率，即，W_i＝W_i(m,k)，X_i＝X_i(m,k)以及Y_i＝Y_i(m,k)，其中(m,k)为指示在空间音频信号表示中的时间-频率平铺(tile)的索引。

在该上下文中，应注意，图10示例性地示出单一输入信号集合的极坐标图(polardiagram)，即针对单一扇区i的信号115(例如，[W_i、X_i、Y_i])。此外，极坐标图曲线的正部分和负部分一起分别表示信号的极坐标图(例如，部分1020和1022一起示出信号X_i的极坐标图，而部分1030和1032一起示出信号Y_i的极坐标图)。

图11示出用于执行声场记录的示例麦克风配置1110的示意图1100。在图11的示意图1100中，麦克风配置1110可包括定向麦克风1112、1114、1116的多个线性阵列。图11的示意图1100示例性地示出可以如何将二维(2D)观察空间划分成记录空间的不同分段或扇区1101、1102、1103(例如，Seg_i，i＝1、2、3)。此处，图11的分段1101、1102、1103可对应于在图6中示例性地示出的分段Seg_i。类似地，示例麦克风配置1110也可以用在三维(3D)观察空间中，其中该三维(3D)观察空间可以被划分成用于给定的麦克风配置的分段或扇区。在实施例中，在图11的示意图1100中的示例麦克风配置1110可以用于为根据图1的装置100的实施例提供输入空间音频信号105。例如，麦克风配置1110的定向麦克风1112、1114、1116的多个线性阵列可被配置成针对输入空间音频信号105提供不同的定向信号。通过使用图11的示例麦克风配置1110，可以使用声场的基于分段(或基于扇区)的参数模型来优化空间音频记录质量。

在先前的实施例中，装置100和装置500可被配置成在时频域内操作。

总之，本发明的实施例涉及高质量空间音频记录和再现领域。使用声场的基于分段或基于扇区的参数模型允许也用相对紧凑的麦克风配置记录复杂的空间音频场景。与由当前状态的本领域方法假设的声场的简单全局模型相反，可针对多个分段确定参数信息，在这些分段中划分整个观察空间。因此，基于参数信息连同所记录的音频声道，可以执行针对几乎任意的扬声器配置的呈现。

根据实施例，针对平面二维(2D)声场记录，关注的整个方位角度范围可以被划分成覆盖缩小的方位角度范围的多个扇区或分段。类似地，在3D的情况下，可以将完整立体角度范围(方位角和仰角)划分成覆盖较小角度范围的扇区或分段。不同的扇区或分段也可部分地重叠。

根据实施例，各个扇区或分段以关联的定向度量为特征，该定向度量可用于指定或参考对应的扇区或分段。该定向度量例如可以为指向(或来自)扇区或分段的中心的矢量，或者在2D的情况下为方位角，或者在3D的情况下为方位角与仰角的集合。分段或扇区可以被称为2D平面内的方向子集或3D空间内的方向子集这两者。为了简化呈现，先前的实施例是针对2D情况而示例性地描述的；然而，延伸至3D配置是直接的。

参照图6，定向度量可被定义为矢量，针对分段Seg₃，该矢量从原点(即，具有坐标(0,0)的中心)指向右(即，朝向极坐标图中的坐标(1,0))，或者如果在图6中，从(或参考)x轴(水平轴)对角度进行计数，则为0度的方位角。

参考图1的实施例，装置100可被配置成接收多个麦克风信号作为输入(输入空间音频信号105)。这些麦克风信号例如可以从实际记录得到，或者可以通过在虚拟环境中进行仿真记录而人工地生成。从这些麦克风信号，可以确定对应的分段麦克风信号(输入分段音频信号115)，其与对应的分段(Seg_i)相关联。分段麦克风信号以特定特性为特征。与关联的角扇区外部的敏感度相比，分段麦克风信号的定向拾取图案可示出在该扇区内显著增加的敏感度。参照图6说明360°全方位角度范围的分段和关联的分段麦克风信号的拾取图案的示例。在图6的实施例中，与扇区相关联的麦克风的指向性展现心形图案，其根据由对应扇区涵盖的角度范围而旋转。例如，指向0°的与扇区3(Seg₃)相关联的麦克风的指向性也指向0°。此处，应注意的是，在图6的极图中，最大敏感度的方向为所描绘的曲线的半径包括最大值的方向。因而，Seg₃对于来自右侧的声音分量具有最高敏感度。换言之，分段Seg₃在方位角0°具有其优选方向(假设角度从x轴算起)。

根据实施例，针对每个扇区，可以连同基于扇区的扩散性参数(Ψ_i)一起确定DOA参数(θ_i)。在简单实现中，扩散性参数(Ψ_i)对于全部扇区而言可以是相同的。原则上，可以(例如，由生成器120)应用任何优选的DOA估计算法。例如，可以将DOA参数(θ_i)解释为反映大部分声能在所考虑的扇区内行进的相反方向。因此，基于扇区的扩散性与在所考虑的扇区内的扩散声能与总声能之比有关。应注意，针对每个频带，可时变地且单独地执行参数估计(诸如用生成器120执行)。

根据实施例，针对每个扇区，可以构成定向音频流(参数化音频流)，该定向音频流包括分段麦克风信号(W_i)以及基于扇区的DOA和扩散性参数(θ_i,Ψ_i)，其主要地描述在由该扇区表示的角度范围内的声场的空间音频属性。例如，可以使用参数化定向信息(θ_i、Ψ_i)以及分段麦克风信号125(例如，W_i)中的一个或多个来确定用于回放的扬声器信号525。由此，可以针对每个分段确定分段扬声器信号515的集合，然后诸如可以由组合器520组合(例如，求和或混合)分段扬声器信号515的集合以建立用于回放的最终扬声器信号525。例如可以通过应用示例矢量基幅度平移而将在扇区内的直接声音分量呈现为点状源(如在以下中所述：V.Pulkki：Virtual sound source positioning using Vector Base AmplitudePanning(使用矢量基幅度平移的虚拟声源定位)，J.Audio Eng.Soc.,Vol.45,pp.456-466,1997)，而可以同时从数个扬声器回放扩散声音。

图7的框图示出了如以上针对两个扇区的情况而描述的扬声器信号525的计算。在图7中，粗箭头表示音频信号，而细箭头表示参数化信号或控制信号。在图7中，示意性地示出由分段器110生成分段麦克风信号115、针对每个扇区(例如，由生成器120)应用参数化空间信号分析(块720-1、720-1)、由呈现器510生成分段扬声器信号515以及由组合器520组合分段扬声器信号515。

在实施例中，分段器110可被配置用于根据麦克风输入信号105的集合生成分段麦克风信号115。此外，生成器120可被配置用于针对每个扇区而应用参数化空间信号分析，以使得将获得针对每个扇区的参数化音频流725-1、725-2。例如，参数化音频流725-1、725-2中每一个可包括至少一个分段音频信号(例如，分别为W₁、W₂)以及关联的参数信息(例如，分别为DOA参数θ₁、θ₂和扩散性参数Ψ₁、Ψ₂)。呈现器510可被配置用于基于针对特定扇区生成的参数化音频流725-1、725-2，针对每个扇区执行分段扬声器信号515的生成。组合器520可被配置用于执行分段扬声器信号515的组合以获得最终扬声器信号525。

图8中的框图示出了针对被示为二阶B格式麦克风信号应用的示例的两个扇区的示例情况的扬声器信号525的计算。如在图8的实施例中所示，可如前所述那样通过混合或矩阵化运算(例如，通过块110)根据一组输入麦克风信号105生成两个(组)分段麦克风信号715-1(例如，[W₁、X₁、Y₁])和715-2(例如，[W₂、X₂、Y₂])。针对两个分段麦克风信号中的每一个，可以执行(例如由块720-1、720-2进行的)定向音频分析，从而针对第一扇区和第二扇区分别得到定向音频流725-1(例如θ₁、Ψ₁、W₁)以及725-2(例如，θ₂、Ψ₂、W₂)。

在图8中，可以如下分别地针对每个扇区生成分段扬声器信号515。可以通过用从扩散性参数Ψ_i导出的乘数803、805、807、809进行加权来将分段音频分量W_i划分成两个互补子流810、812、814、816。一个子流可主要载有直接声音分量，而另一子流可主要载有扩散声音分量。可以使用由DOA参数θ_i确定的平移增益811、815来呈现直接声音子流810、814，而可以使用解相关处理块813、817来不相关地呈现扩散子流812、816。

作为示例最终步骤，可以(例如由块520)组合分段扬声器信号515以获得用于扬声器再现的最终输出信号525。

参考图9的实施例，应该提及的是，在确定用于回放的实际扬声器信号525之前，也可(例如，由修正器910)修正(参数化音频流125内的)估计参数。例如，可对DOA参数θ_i进行重新映射以实现对声音场景的操纵。在其它情况下，如果包括在某些扇区中的来自某个或全部方向的声音不是期望的，则在计算扬声器信号525之前，可使这些扇区的音频信号(例如W_i)衰减。类似地，如果主要地或仅仅呈现直接声音，则可以使扩散声音分量衰减。针对分段成两个分段的示例，在图9中示例性地示出包括参数化音频流125的修正910的该处理。

以下将描述在利用先前的实施例执行的示例2D情况中的基于扇区的参数估计的实施例。假设用于捕获的麦克风信号可以被转换成所谓的二阶B格式信号。二阶B格式信号可以由对应麦克风的指向性图案的形状描述：

其中，表示方位角。对应的B格式信号(例如，图8的输入105)由W(m,k)、X(m,k)、Y(m,k)、U(m,k)和V(m,k)表示，其中m和k分别表示时间和频率索引。现在假设与第i个扇区相关联的分段麦克风信号具有指向性图案然后，可以(例如由块110)确定附加麦克风信号115，W_i(m，k)、X_i(m，k)、Y_i(m，k)具有可通过下式表示的指向性图案：

在图10中示出了在示例心形图案的情况下所描述的麦克风信号的指向性图案的若干示例。第i个扇区的优选方向取决于方位角Θ_i。在图10中，虚线指示与以实线描绘的定向响应1020、1030相比具有相反符号的定向响应1022、1032(极性图案)。

注意，针对Θ_i＝0的示例情况，信号W_i(m，k)、X_i(m，k)、Y_i(m，k)可以根据下式通过混合输入分量W、X、Y、U、V来从二阶B格式信号确定：

W_i(m，k)＝0.5W(m，k)+0.5X(m，k) (10)

X_i(m；k)＝0.25W(m，k)+0.5X(m，k)+0，25U(mk) (11)

Y_i(m，k)＝0.5Y(m，k)+0.25V(m，k) (12)

例如在图2的块110中执行该混合运算。注意，的不同选择导致不同混合法则以从二阶B格式信号获得分量W_i、X_i、Y_i。

根据分段音频信号115(即，W_i(m，k)、X_i(m，k)、Y_i(m，k))，接着可以通过计算基于扇区的活性强度矢量来(例如，由块120)确定与第i个扇区相关联的DOA参数θ_i：

其中，Re{A}表示复数A的实数部分，以及＊表示复共轭。此外，ρ₀是空气密度以及c为声速。例如以单位矢量e_i(m，k)表示的期望DOA估计值θi(m，k)可以通过下式来获得：

可以进一步确定基于扇区的声场能量相关量：

然后，第i个扇区的期望扩散性参数Ψ_i(m,k)可以通过下式来确定：

其中，g表示适当的缩放因子，E{}为期望算子，以及||||表示矢量范数。可以表明，在纯扩散声场的情况下，如果仅存在平面波且其具有小于或等于1的正值，则扩散性参数Ψ_i(m,k)为零。一般而言，可以针对扩散性定义替选的映射函数，该扩散性展现相似行为，即仅针对直接声音而赋予0，而针对完全扩散声场而趋近于1。

参照图11的实施例，参数估计的替选实现可以用于不同麦克风配置。如图11中示例性地示出，可以使用定向麦克风的多个性线阵列1112、1114、1116。图11也示出针对给定的麦克风配置、可以如何将2D观察空间划分成扇区1101、1102、1103的示例。分段麦克风信号115可以通过应用于线性麦克风阵列1112、1114、1116中的每一个的波束形成技术(诸如过滤以及和波束形成)来确定。也可省略波束形成，即定向麦克风的指向性图案可用作获得针对每个扇区(Seg_i)展示期望空间选择性的分段音频信号115。在每个扇区内的DOA参数θ_i可以使用常用估计技术来估计，诸如“ESPRIT”算法(如在以下中所述：R.Roy和T.Kailath：ESPRIT-estimation of signal parameters via rotional invariance techniques(通过旋转不变性技术对信号参数的ESPRI估计)，IEEE Transactions on Acoustics,Speechand Signal Processing，vol.37,no.7,pp.984995，1989年7月)。针对每个扇区的扩散性参数Ψ_i例如可以通过评估DOA估计值的时间变化来确定(如在以下中所述：J.Ahonen、V.Pulkki：Diffuseness estimation using temporal variation of intensity ectors(使用强度矢量的时间变化的扩散性估计)，IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics，2009年。WAS-PAA’09,pp.285-288，2009年10月18-21日)。替选地，可以采用不同麦克风和直接与扩散声音比之间的相干性的已知关系(如在以下中所述：O.Thiergart、G.Del Galdo、E.A.P.Habets：Signal-to-reverberant ratioestimation based on the complex spatial coherence between omnidirectionalmicrophones(基于全向麦克风之间的复杂空间相关性的信号与混响比估计)，IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP)，2012，pp.309-312，2012年3月25至30日)。

图12示出了用于获得更高阶麦克风信号(例如，输入空间音频信号105)的全向麦克风1210的示例圆形阵列的示意图1200。在图12的示意图1200中，全向麦克风1210的圆形阵列例如包括沿着极坐标图中的圆圈(虚线)布置的5个等距麦克风。在实施例中，全向麦克风1210的圆形阵列可以用于获得更高阶(HO)麦克风信号，如以下将描述的那样。为了根据(由全向麦克风1210提供的)全向麦克风信号来计算示例二阶麦克风信号U和V，应该使用至少5个独立麦克风信号。这例如可以使用均匀圆形阵列(UCA)来简洁地实现，如图12中示例性地示出的圆形阵列。在某个时间和频率从麦克风信号得到的矢量例如可以用离散傅里叶变换(DFT)来变换。然后，可以通过DFT系数的线性组合来获得麦克风信号W、X、Y、U和V(即输入空间音频信号105)。注意，DFT系数表示根据麦克风信号的矢量计算出的傅里叶级数的系数。

设Υ_m表示由指向性图案限定的广义的m阶麦克风信号：

其中，表示方位角，使得

然后，可以证明

其中

其中，j为虚数单位，k为波数，r和为限定极坐标系的半径和方位角，Jm(·)为第一种m阶贝赛尔函数，以及为在极坐标上测量出的压力信号的傅里叶级数的系数。

应注意，在计算(较高阶)B格式信号的阵列设计和实现上必须审慎避免由于贝赛尔函数的数值属性导致的过度噪声放大。

可以发现与所述的信号变换相关的数学背景和推导，例如A.Kuntz，Wave fieldanalysis using virtual circular microphone arrays(使用虚拟圆形麦克风阵列的波场分析)，Dr.Hut，2009，ISBN：978-3-86853-006-3。

本发明的其他实施例涉及一种用于根据从在记录空间中进行记录而获得的输入空间音频信号105生成多个参数化音频流125(θ_i,Ψ_i,W_i)的方法。例如，该输入空间音频信号105包括全向信号W和多个不同的定向信号X、Y、Z、U、V。该方法包括从输入空间音频信号105(例如，全向信号W和多个不同定向信号X、Y、Z、U、V)提供至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)，其中至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)与记录空间的对应分段Seg_i相关联。此外，该方法包括针对至少两个输入分段音频信号115(W_i,X_i,Y_i,Z_i)中的每一个生成参数化音频流以获得多个参数化音频流125(θ_i,Ψ_i,W_i)。

本发明的其他实施例涉及一种用于根据从记录在记录空间中的输入空间音频信号105得到的多个参数化音频流125(θ_i,Ψ_i,W_i)生成多个扬声器信号525(L₁,L₂,…)的方法。该方法包括从多个参数化音频流125(θ_i,Ψ_i,W_i)提供多个输入分段扬声器信号515，其中输入分段扬声器信号515与记录空间的对应分段Seg_i相关联。此外，该方法包括组合输入分段扬声器信号515以获得多个扬声器信号525(L₁,L₂,…)。

虽然已在框图的上下文中描述本发明，但本发明也可以通过计算机实现的方法来实现，在附图中，块表示实际或逻辑硬件部件。在后一种情况下，块表示对应的方法步骤，其中，这些步骤代表由对应的逻辑或物理硬件块执行的功能。

对于说明本发明的原理，所描述的实施例仅仅是说明性的。应了解，对于本领域的技术人员而言，本文中描述的布置和细节的修改和变型将是显而易见的。因此，意图仅受所附的申请权利要求的范围所限定而不受通过实施例的描述和说明所呈现的特定细节所限定。

虽然已在装置的上下文中描述了若干方面，但明显的是，这些方面也表示对应方法的描述，其中块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。部分或全部方法步骤可通过(或使用)硬件装置(例如，微处理器、可编程计算机或电子电路)执行。在一些实施例中，最重要的方法步骤中的某一步骤或更多步骤可由这样的装置执行。

参数化音频流125(θ_i,Ψ_i,W_i)可以存储在数字存储介质上或者可以在传输介质(诸如无线传输介质或有线传输介质(诸如互联网))上传输。

根据某些实现要求，本发明的实施例可以以硬件或以软件实现。该实现可以使用其上存储有可电子读取的控制信号的数字存储介质来执行，例如软盘、DVD、蓝光盘、CD、ROM、EPROM、EEPROM或闪存，这些数字存储介质与可编程计算机系统协作(或者能够协作)以使得执行相应的方法。因此，数字存储介质可以是计算机可读取的。

根据本发明的一些实施例包括具有可电子读取的控制信号的数据载体，其能够与可编程计算机系统协作以使得执行本文中描述的方法之一。

一般而言，本发明的实施例可以被实现为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，程序代码可操作用于执行这些方法之一。程序代码例如可存储在机器可读取载体上。

其它实施例包括存储在机器可读载体上的、用于执行本文中描述的方法之一的计算机程序。

换言之，本发明的实施例因而是一种具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本文中描述的方法之一。

因此，本发明方法的又一实施例为一种数据载体(或数字存储介质或计算机可读介质)，该数据载体包括记录在其上的用于执行本文中描述的方法之一的计算机程序。该数据载体、数字存储介质或记录介质典型通常为有形的和/或非暂态的。

因此，本发明方法的又一实施例为表示用以执行本文中描述的方法之一的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置成经由数据通信连接(例如经由互联网)传送。

又一实施例包括被配置成或被适配成执行本文中描述的方法之一的处理装置，例如计算机或可编程逻辑设备。

又一实施例包括一种其上安装有用于执行本文中描述的方法之一的计算机程序的计算机。

本发明方法的又一实施例包括一种装置或系统，其被配置成(例如电子地或光学地)传送用于执行本文中描述的方法之一的计算机程序。接收器可以为例如计算机、移动装置、存储器装置等。该装置或系统例如可包括用于将计算机程序传送至接收器的文件服务器。

在一些实施例中，一种可编程逻辑装置(例如可现场编程门阵列)可用于执行本文中描述的方法的功能的部分或全部。在一些实施例中，可现场编程门阵列可与微处理器一起进行操作以便执行本文中描述的方法之一。一般，这些方法优选地由任意硬件装置执行。

本发明的实施例提供了使用简单且紧凑的麦克风配置的高质量、逼真的空间声音记录和再现。

本发明的实施例基于定向音频编码(DirAC)(如在以下中所述：T.Lokki、J.Merimaa、V.Pulkki：Method for Reproducing Natural or Modified SpatialImpression in Multichannel Listening(在多声道收听中再现自然或修正空间感受的方法)，美国专利第7,787,638 B2号，2010年8月31日；以及V.Pulkki：Spatial SoundReproduction with Directional Audio Coding(利用定向音频编码的空间声音再现)，J.Audio Eng.Soc.,Vol.55,No.6,pp.503-516,2007)，其可以与不同麦克风系统以及与任意扬声器设备一起使用。DirAC的益处在于，使用多声道扬声器系统来尽可能精准地再现现有声学环境的空间感受。在所选择的环境内，可以用全向麦克风(W)以及用一组麦克风测量响应(连续声音或脉冲响应)，该组麦克风使得能够测量声音的到达方向(DOA)和声音的扩散性。可能的方法是应用与对应的笛卡尔坐标轴对齐的三个8字形麦克风(X,Y,Z)。达成该目的的方式是使用“声场”麦克风，其直接得到所有期望响应。令人关注的是，全向麦克风的信号表示声压，而偶极信号与粒子速度矢量的对应元素成比例。

根据这些信号，可以在具有与人类听觉系统的分辨率相对应的分辨率的适当的时间/频率光栅中测量DirAC参数，即声音的DOA和所观察的声场的扩散性。然后，可以基于DirAC参数而根据全向麦克风信号确定实际扬声器信号(如在以下中所述：V.Pulkki：Spatial Sound Reproduction with Directional Audio Coding(利用定向音频编码的空间声音再现)，J.Audio Eng.Soc.,Vol.55,No.6,pp.503-516,2007)。可以使用平移技术来仅由数量少的扬声器(例如，一个或两个)回放直接声音分量，而可以同时从全部扬声器回放扩散声音分量。

基于DirAC的本发明的实施例表示一种利用紧凑麦克风配置的空间声音记录的简单办法。具体地，本发明避免了现有技术中限制实际上可实现的声音质量和经验的一些系统性缺点。

与传统的DirAC相反，本发明的实施例提供了一种较高质量的参数化空间音频处理。传统的DirAC依赖于声场的简单全局模型，从而针对整个观察空间只采用一个DOA和一个扩散性参数。其基于对于每个时间/频率平铺、声场可以仅由一个单一直接声音分量(诸如平面波)和一个全局扩散性参数表示的假设。然而，结果实际上经常与声场有关的该简化假设并不适用。在复杂的真实世界声学尤其如此，例如在其中诸如说话者或乐器的多个声源同时活动。另一方面，本发明的实施例不会导致所观察的声场的模型不匹配，并且使得对应的参数估计值更准确。也能防止模型不匹配产生，尤其在收听扬声器输出时，直接声音分量扩散地呈现并且无法感知方向的情况下。在实施例中，解相关器可以用于产生从所有扬声器回放的不相关扩散声音(如在以下中描述：V.Pulkki：Spatial Sound Reproductionwith Dirctional Audio Coding(利用定向音频编码的空间声音再现)，J.AudioEng.Soc.,Vol.55,No.6,pp.503-516,2007)。与解相关器经常引入不期望的附加室内效应的现有技术相反，本发明可以更准确地再现具有某个空间程度的声源(与使用DirAC的简单声场模型的情况相反，其不能精准地捕获这样的声源)。

本发明的实施例提供了假设的信号模型中的更高自由度，从而允许复杂声音场景中的更佳模型匹配。

此外，在使用指向性麦克风来产生扇区(或任何其它时不变的线性(例如，物理)装置)的情况下，能够获得提高的麦克风的固有指向性。因此，不太需要应用时变增益以避免不明确的方向、串扰和染色。这导致音频信号路径中的较少非线性处理，从而导致较高质量。

一般，更多直接声音分量可以被呈现为直接声源(点源/平面波源)。结果，出现较少解相关性假象，可感知更多可(正确地)定位的事件，并且可实现更确切的空间再现。

本发明的实施例提供了在参数域内提高的操控性能，例如定向滤波(如在以下中所述：M.Kallinger、H.Ochsenfeld、G.Del Galdo、F.Kuech、D.Mahne、R.Schultz-Amling和O.Thiergart：A Spatial Filtering Approach for Directional Audio Coding(定向音频编码的空间滤波方法，第126届AES会议，文件7653，德国墨尼黑2009年)，原因在于总信号能量的较大部分归因于具有与其相关联的正确DOA的直接声音事件，并且可获得较大信息量。更多(参数)信息的提供例如允许分离多个直接声音分量或者也分离来自从不同方向撞击的早期反射的直接声音分量。

具体地，实施例提供了下列特征。在2D情况下，可以将全方位角范围分成覆盖缩小的方位角范围的扇区。在3D的情况下，可以将全立体角范围分成覆盖缩小的立体角范围的扇区。每个扇区可以与优选的角范围相关联。针对每个扇区，可以根据所接收到的麦克风信号确定分段麦克风信号，所接收到的麦克风信息主要包括从分配给特定扇区的/特定扇区覆盖的方向到达的声音。这些麦克风信号也可通过仿真虚拟记录来人工确定。针对每个扇区，可以执行参数化声场分析以确定定向参数，诸如DOA和扩散性。针对每个扇区，参数化空间信息(DOA和扩散性)主要描述与该特定扇区相关联的声场的角度范围的空间性质。在回放的情况下，针对每个扇区，扬声器信号可基于指向性参数和分段麦克风信号来确定。然后，通过组合所有扇区的输出来获得总输出。在操纵的情况下，在计算回放的麦克风信号之前，也可修改估计参数及/或分段音频信号以实现该声音场景的操纵。

Claims

1.一种用于根据从在记录空间中进行记录而获得的输入空间音频信号(105)生成多个参数化音频流(125)(θ_i,Ψ_i,W_i)的装置(100)，所述装置(100)包括：

分段器(110)，用于从所述输入空间音频信号(105)提供至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)，其中所述分段器(110)被配置成根据所述记录空间的对应分段Seg_i生成所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)，其中所述记录空间的所述分段Seg_i均表示在二维平面内或在三维空间内的方向子集，并且其中所述分段Seg_i彼此不同；以及

生成器(120)，用于针对所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)中的每一个，生成参数化音频流，以获得所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)，使得所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)均包括所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)的分量W_i和对应的参数化空间信息(θ_i,Ψ_i)，其中所述参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个的所述参数化空间信息(θ_i,Ψ_i)包括到达方向参数θ_i和/或扩散性参数Ψ_i。

2.根据权利要求1所述的装置(100)，

其中，所述记录空间的所述分段Seg_i均以关联的定向度量为特征。

3.根据权利要求1所述的装置(100)，

其中，所述装置(100)被配置用于执行声场记录以获得所述输入空间音频信号(105)；

其中，所述分段器(105)被配置成将关注的全角度范围划分成所述记录空间的所述分段Seg_i；

其中，所述记录空间的所述分段Seg_i均覆盖相比于所述关注的全角度范围缩小的角度范围。

4.根据权利要求1所述的装置(100)，

其中，所述输入空间音频信号(105)包括全向信号W和多个不同的定向信号X,Y,Z,U,V。

5.根据权利要求4所述的装置(100)，

其中，所述分段器(110)被配置成使用混合运算来根据所述全向信号W和所述多个不同的定向信号X,Y,Z,U,V生成所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)，所述混合运算取决于所述记录空间的所述分段Seg_i。

6.根据权利要求1所述的装置(100)，

其中，所述分段器(110)被配置成针对所述记录空间的所述分段Seg_i中的每一个而使用指向性图案(305)

其中，所述指向性图案(305)指示所述至少两个分段音频信号(115)(W_i,X_i,Y_i,Z_i)的指向性。

7.根据权利要求6所述的装置(100)，

其中，所述指向性图案(305)通过下式来给出：

其中，a和b表示经修正以获得期望的指向性图案(305)的乘数；

其中，表示方位角，以及Θ_i指示所述记录空间的第i个分段的优选方向。

8.根据权利要求1所述的装置(100)，

其中，所述生成器(120)被配置用于针对所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)中的每一个，执行参数化空间分析，以获得所述对应的参数化空间信息(θ_i,Ψ_i)。

9.根据权利要求1所述的装置(100)，还包括：

修正器(910)，用于修正参数化信号表示域中的所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)；

其中，所述修正器(910)被配置成使用对应的修正控制参数(905)来修正所述参数化音频流(125)(θ_i,Ψ_i,W_i)中的至少一个。

10.一种用于根据多个参数化音频流(125)(θ_i,Ψ_i,W_i)来生成多个扬声器信号(525)(L₁,L₂，…)的装置(500)；其中，所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个包括分段音频分量W_i和对应的参数化空间信息(θ_i,Ψ_i)；其中，所述参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个的参数化空间信息(θ_i,Ψ_i)包括到达方向参数θ_i和/或扩散性参数Ψ_i；其中所述所述装置(500)包括：

呈现器(510)，用于从所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)提供多个输入分段扬声器信号(515)，使得所述输入分段扬声器信号(515)取决于记录空间的对应分段Seg_i，其中所述记录空间的所述分段Seg_i均表示在二维平面内或在三维空间内的方向子集，并且其中所述分段Seg_i彼此不同；其中所述呈现器(510)被配置用于使用对应的参数化空间信息(505)(θ_i,Ψ_i)来呈现所述分段音频分量W_i中的每一个，以获得所述多个输入分段扬声器信号(515)；以及

组合器(520)，用于组合所述输入分段扬声器信号(515)以获得所述多个扬声器信号(525)(L₁,L₂，…)。

11.一种用于根据从在记录空间中进行记录而获得的输入空间音频信号(105)生成多个参数化音频流(125)(θ_i,Ψ_i,W_i)的方法，其中，所述方法包括：

根据所述输入空间音频信号(105)生成至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)，其中生成所述至少两个输入分段音频信号(115)(Wi,X_i,Y_i,Z_i)根据所述记录空间的对应分段Seg_i来进行，其中所述记录空间的所述分段Seg_i均表示在二维平面内或在三维空间内的方向子集，并且其中所述分段Seg_i彼此不同；

针对所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)中的每一个，生成参数化音频流，以获得所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)，使得所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个包括所述至少两个输入分段音频信号(115)(W_i,X_i,Y_i,Z_i)的分量W_i和对应的参数化空间信息(θ_i,Ψ_i)；其中，所述参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个的参数化空间信息(θ_i,Ψ_i)包括到达方向参数θ_i和/或扩散性参数Ψ_i。

12.一种用于根据多个参数化音频流(125)(θ_i,Ψ_i,W_i)生成多个扬声器信号(525)(L₁,L₂，…)的方法；其中所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个包括分段音频分量W_i和对应的参数化空间信息(θ_i,Ψ_i)；其中，所述参数化音频流(125)(θ_i,Ψ_i,W_i)中的每一个的参数化空间信息(θ_i,Ψ_i)包括到达方向参数θ_i和/或扩散性参数Ψ_i；其中，所述方法包括：

从所述多个参数化音频流(125)(θ_i,Ψ_i,W_i)提供多个输入分段扬声器信号(515)，使得所述输入分段扬声器信号(515)取决于记录空间的对应分段Seg_i，其中所述记录空间的所述分段Seg_i均表示在二维平面内或在三维空间内的方向子集，并且其中所述分段Seg_i彼此不同；其中提供所述多个分段扬声器信号(515)通过使用对应的参数化空间信息(505)(θ_i,Ψ_i)呈现所述分段音频分量W_i中的每一个以获得所述多个输入分段扬声器信号(515)来进行；以及

组合所述输入分段扬声器信号(515)以获得所述多个扬声器信号(525)(L₁,L₂，…)。