CN111108555B

CN111108555B - 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法

Info

Publication number: CN111108555B
Application number: CN201880060085.9A
Authority: CN
Inventors: 于尔根·赫勒; 伊曼纽尔·哈毕兹; 阿克塞尔·普林格; 奥利弗·蒂尔加特; 法比安·库赤
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-07-14
Filing date: 2018-07-13
Publication date: 2023-12-15
Anticipated expiration: 2038-07-13
Also published as: EP3652737A1; AR112556A1; KR20220044393A; TWI684978B; AU2021218089A1; CA3069772C; JP2020527887A; CN111108555A; BR112020000779A2; SG11202000287RA; KR102568365B1; WO2019012135A1; TW201919043A; US20200154229A1; AU2018298878A1; JP7122793B2; RU2736274C1; KR102448736B1; US11477594B2; KR20200041307A

Abstract

一种用于生成经增强的声场描述的装置，包括：声场生成器(100)，用于生成至少一个声场描述，至少一个声场描述指示关于至少一个参考位置的声场；以及元数据生成器(110)，用于生成与声场的空间信息相关的元数据，其中，至少一个声场描述和元数据构成经增强的声场描述。元数据可以为全频带或子频带(即，时间频率区间)中的将距离信息与方向相关联的深度图。

Description

使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法

本发明涉及音频处理，并且特别是，涉及关于诸如麦克风或虚拟麦克风位置的参考位置限定的声场的音频处理。

高保真度立体声响复制(Ambisonics)信号包括声场的截断球谐波分解。高保真度立体声响复制有不同的风格。存在“传统的”高保真度立体声响复制[31]，其现在被称为“一阶高保真度立体声响复制(FOA、First-Order Ambisonics)”并且包括四个信号(即，一个全向信号和多达三个8字形定向信号)。最近的高保真度立体声响复制变体被称为“更高阶的高保真度立体声响复制(HOA、Higher-Order Ambisonics)”，并且以携带更多信号为代价而提供经增强的空间分辨率和更大的聆听者最佳位置区域。通常，完全定义的N阶HOA表示由(N+1)²个信号组成。

与高保真度立体声响复制理念相关，已经设想到定向音频编码(DirAC、Directional Audio Coding)表示，以以更紧凑的参数样式表示FOA或HOA声音场景。更具体地，空间声音场景由一个(或多个)发送的音频声道表示，其表示声学场景的降混以及在每个时间-频率(TF)区间中的方向和扩散性的相关联辅助信息。关于DirAC的更多信息可以在[32,33]中找到。

DirAC[32]可以和不同麦克风系统及任意扬声器设置一起被使用。DirAC系统的目的是使用多声道/3D扬声器系统尽可能精确地再现现有声学环境的空间印象。在所选择的环境中，响应(连续声音或脉冲响应)由全向麦克风(W)和能够测量声音的到达方向和声音的扩散性的一组麦克风测量。一种常见的方法是应用与对应笛卡尔坐标轴对齐的三个8字形麦克风(X，Y，Z)[34]。一种实现此的方式是使用直接产生所有期望响应的声场麦克风。W、X、Y和Z信号也可以从一组离散的全向麦克风计算出来。

在DirAC中，根据人类听觉系统的频率选择性，声音信号首先将被划分到频率信道。依据每个频率信道处的时间测量声音方向和扩散性。在传输时，一个或多个音频声道以及分析的方向和扩散数据一起被发送。在合成时，施加到扬声器的音频可以是例如全向声道W，或者针对每个扬声器的声音可以被计算为W、X、Y和Z的加权和，其形成具有针对每个扬声器的特定定向特性的信号。每个音频声道被划分成频率信道，然后依据分析的扩散性被可选择地划分为扩散串流和非扩散串流。利用一种技术，扩散串流被再现，该技术产生声音场景的扩散感知，例如，在双耳线索编码(Binaural Cue Coding)中使用的去相关(decorrelation)技术[35-37]。利用一种技术(例如，VBAP[38])，非扩散声音被再现，该技术目的是根据方向数据产生类似点的虚拟源。

在具有有限自由度的六个自由度(6DoF)中，三种导航技术在[39]中被提出。给定单个高保真度立体声响复制信号，单个高保真度立体声响复制信号使用以下方法计算：1)在虚拟扬声器数组内仿真HOA回放和聆听者移动，2)沿着平面波计算和平移，以及3)重新扩展关于聆听者的声场。

此外，参考(例如)于2009年11月11-13日在日本宫城县Zao举行的InternationalWorkshop on the Principles and Applications of Spatial Hearing中由V.Pulkki等人著作的出版物“Directional Audio Coding-Perception-Based ReproductionofSpatial Sound”中描述的DirAC技术。该参考文献描述了定向音频编码作为参考位置相关的声场处理的示例，特别是作为用于空间音频处理的感知激励技术。

声音场景的再现通常聚焦在扬声器设置上，因为这是在私人场所(例如起居室和专业环境即电影院)的典型再现。此处，场景与再现几何的关系是静态的，因为它伴随着强迫聆听者在正面方向上观看的二维图像。随后，声音和视觉对象的空间关系被限定并固定在产生时间。

在虚拟现实(VR)中，通过允许用户在场景中自由移动而明确地实现沉浸。因此，有必要追踪用户的移动并将视觉和听觉再现调整到该用户的位置。通常，用户佩戴头戴式显示器(HMD)和耳机。对于利用耳机的沉浸式体验，音频必须被双耳化。双耳化是对人类头部、耳朵和上部躯干如何依据源的方向和距离改变源的声音进行的模拟。这通过针对它们的相对方向的信号与头部相关转移函数(HRTF)的卷积来实现[1,2]。双耳化也使声音看起来是来自场景而不是来自头部内[3]。已经成功达到的常见情况是360°视频再现[4,5]。此处，用户戴着HMD或是手持平板计算机或手机。通过移动她/他的头部或设备，用户可以在任何方向环顾四周。这是三个自由度(3DoF)场景，因为用户有三个移动度(俯仰、偏转、翻滚)。在视觉上，这通过将视频投影在用户周围的球体上来实现。音频通常用靠近视频相机的空间麦克风(例如，一阶高保真度立体声响复制(FOA))记录[6]。在高保真度立体声响复制领域，用户的头部旋转以直接的方式进行调整[7]。然后例如音频被渲染到放置在用户周围的虚拟扬声器。这些虚拟扬声器信号然后被双耳化。

现代VR应用允许六个自由度(6DoF)。除了头部旋转之外，用户可以四处移动，从而导致在三个空间维度上平移她/他的位置。6DoF再现受到步行区域的整体尺寸的限制。在许多情况下，该区域相当小，例如传统的起居室。6DoF在VR游戏中经常遇到。这里，整个场景是利用计算机生成的图像(CGI)合成的。音频通常使用基于对象的渲染而被生成，其中基于追踪数据利用距离相依增益和与用户的相对方向来渲染每个音频对象。可以通过人工混响(artificial reverberation)和衍射来增强真实性[8,9,10]。

关于所记录的内容，对于令人信服的视听6DoF再现，存在一些明显的挑战。在空间平移领域中空间声音操纵的早期示例是“声学变焦”技术[11,12]。此处，聆听者位置被虚拟地移动到所记录的视觉场景中，类似于放大图像。用户选择一个方向或图像部分，然后可以从平移点收听。这需要所有到达方向(DoA)相对于原始的非缩放再现而改变。

用于已经使用空间分布记录位置的所记录的内容的6DoF再现的方法已经被提出。对于视频，相机数组可以被采用以生成光场渲染(light-field rendering)[13]。对于音频，类似的设置采用分布式麦克风数组或高保真度立体声响复制麦克风。已经表明，从这种记录可以生成放置在任意位置处的“虚拟麦克风”的信号[14]。

为了以技术上方便的方式实现这种空间声音修改，可以采用参数声音处理或编码技术(参见[15]的概述)。定向音频编码(DirAC)[16]是一种受欢迎的方法，用于将记录转换为表示，该表示由音频频谱和关于声音方向和扩散性的参数辅助信息组成。它用于声学变焦[11]和虚拟麦克风[14]应用。

这里提出的方法能够从单个FOA麦克风的记录实现6DoF再现。来自单个空间位置的记录已被用于3DoF再现或声学变焦。但是，就发明人所知，到目前为止还没有提出用于从这种数据进行交互式、完全6DoF再现的方法。通过在记录中集成关于声源的距离的信息，可以实现6DoF再现。该距离信息被合并到DirAC的参数表示中，使得聆听者的所改变的角度被正确映射。对于利用听力测试的评估，隐藏参考和锚定的多激励(MUSHRA)范例[17]适用于VR。通过使用CGI和合成生成的声音，可以创建基于对象的参考用于比较。虚拟FOA记录发生在用户的追踪位置，渲染6DoF调整的信号。除了所提出的方法，无需距离信息和平移的再现被呈现为听力测试中的条件。

没有任何高保真度立体声响复制声场表示(无论是常规FOA或HOA高保真度立体声响复制还是DirAC风格的参数声场表示)提供足够的信息，以允许6DoF应用所需的聆听者位置的平移，因为在声音场景中的对象距离和绝对对象位置都不是以这些格式确定的。应该注意的是，聆听者位置的移位可以转化为声音场景在相反方向上的等效移位。

在6DoF中移动时的典型问题在图1b中示出。让我们假设使用高保真度立体声响复制在位置A处描述声音场景。在这种情况下，来自源A和源B的声音从相同方向到达，即它们具有相同的到达方向(DOA)。如果移动到位置B处，源A和源B的DOA是不同的。使用声场的标准高保真度立体声响复制描述，即没有附加信息，在给定在位置A处的高保真度立体声响复制信号时，不可能计算在位置B处的高保真度立体声响复制信号。

本发明的目的是一方面提供经增强的声场描述或另一方面提供经修改的声场描述的生成，从而允许改进的、或灵活的、或有效的处理。

该目的通过以下描述的用于生成经增强的声场描述的装置、用于生成经修改的声场描述的装置、生成经增强的声场描述的方法，生成经修改的声场描述的方法，计算机程序或经增强的声场描述来实现。

本发明基于以下发现：与参考位置相关的典型声场描述需要附加信息，以便这些声场描述可以被处理，使得可以计算与原始参考位置无关但是与另一参考位置相关的经修改的声场描述。至此，与该声场的空间信息相关的元数据(metadata)被生成，并且该元数据与该声场描述一起对应于经增强的声场描述，经增强的声场描述可以例如被发送或存储。为了从声场描述和元数据生成经修改的声场描述，具体地，元数据与声场描述的空间信息相关，使用该空间信息、声场描述以及指示从参考位置到不同参考位置的平移的平移信息，计算经修改的声场描述。因此，由声场描述和与声场描述下的该声场的空间信息相关的元数据所组成的经增强的声场描述被处理，以获得经修改的声场描述，该经修改的声场描述与由附加平移信息限定的不同参考位置相关，附加平移信息例如可以在解码器侧被提供或使用。

然而，本发明不仅涉及编码器/解码器场景，也可以被应用于应用中，其中基本上在一个且同一个位置发生经增强的声场描述的生成和经修改的声场描述的生成。例如，经修改的声场描述可以是经修改的声场本身的描述，或者实际上是声道信号、双耳信号中的经修改的声场的描述，或者再次是参考位置相关的声场的描述，然而该参考位置相关的声场现在与新或不同参考位置而不是原始参考位置相关。例如，这样的应用将处于虚拟现实场景中，其中存在声场描述以及元数据以及其中聆听者从给定声场的参考位置移出并移动到不同参考位置，并且其中，然后，在虚拟区域中四处移动的聆听者的声场被计算以对应于然而现在在用户移动到的不同参考位置处的声场。

在较佳实施例中，声场描述生成器生成声场的DirAC描述，具有针对不同时间-频率区间的一个或多个降混信号和各个方向数据以及可选的扩散数据。在此上下文中，元数据生成器被配置为针对不同时间-频率区间生成附加的各自距离或深度信息作为元数据。特别地，以及在较佳实施例中，与空间信息相关的元数据将是将某个距离与某个位置信息(如到达方向信息)相关联的深度图。

在实施例中，到达方向由仅仰角或仅方位角或两个角度给定，以及深度图然后将某个距离信息(如大约以米为单位的距离或相对距离或量化的绝对或相对距离或任何其他距离信息，从任何其他距离信息，最终可得出关于与声场相关的参考位置的距离)与每个位置信息或到达方向信息(DoA信息)相关联。

随后，概述其他较佳实施方式。

高保真度立体声响复制已成为虚拟、增强和混合现实应用环境中用于3D音频的最常用的格式之一。已经开发各种各样的音频获取和产生工具，它们以高保真度立体声响复制格式生成输出信号。为了在交互式虚拟现实(VR)应用中呈现高保真度立体声响复制编码内容，高保真度立体声响复制格式被转换为双耳信号或声道用于再现。在上述应用中，聆听者通常能够以交互方式改变在所呈现场景中的他/她的朝向至如此程度以使得他/她能够在实现三个自由度(3DoF，即，俯仰、偏转角及翻滚)的声音场景中旋转他/她的头部并且仍然可以体验到合适的音质。这通过根据头部朝向在渲染之前旋转声音场景来实现，这可以以低计算复杂度实现并且是高保真度立体声响复制表示的优点。然而，在诸如VR的新兴应用中，期望允许用户在声音场景中自由移动而不仅仅是朝向的改变(所谓的“六个自由度”或6DoF)。结果，需要信号处理以改变声音场景的角度(即，以沿着x轴、y轴或z轴在声音场景内虚拟地移动)。然而，高保真度立体声响复制的一个主要缺点是格式从声音场景中的单个角度描述了声场。具体来说，它不包含关于声音场景中的声源的实际位置的信息，其将允许移位声音场景(“平移”)，正如它是6DoF所需的。本发明的描述提供了高保真度立体声响复制的几个扩展，以克服该问题并且还促进平移，并因此实现真正的6DoF。

一阶高保真度立体声响复制(FOA)记录可以通过耳机处理和再现。它们可以被旋转以考虑聆听者头部朝向。然而，虚拟现实(VR)系统允许聆听者以六个自由度(6DoF)移动，即三个旋转自由度加三个过渡自由度。此处，声源的视倾角(apparent angle)和距离取决于聆听者位置。一种促进6DoF的技术被描述。特别地，FOA记录使用参数模型来描述，该参数模型基于聆听者位置和关于到源的距离的信息而被修改。该方法通过听力测试、比较其中聆听者可以自由移动的合成声音场景的不同双耳渲染来进行评估。

在进一步较佳的实施例中，经增强的声场描述通过输出界面输出，输出界面用于生成用于传输或存储的输出信号，其中，对于时间帧，输出信号包括在从声场和该时间帧的空间信息所得出的一个或多个音频信号。特别地，声场生成器在进一步的实施例中适于从声场得出方向数据，该方向数据指的是针对时间段或频率区间的声音的到达方向，并且元数据生成器被配置为得出空间信息，作为将距离信息与方向数据相关联的数据项。

特别地，在这样的实施例中，输出界面被配置为生成输出信号，使得时间帧的数据项被链接到不同频率区间的方向数据。

在另一实施例中，声场生成器还被配置为针对声场的时间帧的多个频率区间生成扩散信息，其中，元数据生成器被配置为，当扩散值低于预定或自适应阈值时，仅针对频率区间生成与预定值不同的或者与无穷大不同的距离信息，或者不管怎样针对频率区间生成距离值。因此，对于具有高扩散性的时间/频率区间，根本不生成任何距离值，或者生成由解码器以某种方式解释的预定距离值。因此，确保对于具有高扩散性的时间/频率区间，任何距离相关的渲染不被执行，因为高扩散性指示对于这样的时间/频率区间，声音不是来自某个局部的源而来自任何方向，并且因此，无论是在原始参考位置还是在不同或新参考位置处感知声场，声音都是相同的。

关于声场计算器，较佳实施例包括：用于向经修改的声场提供平移信息或指示预期聆听者的旋转的旋转信息的平移界面，用于将元数据提供给声场计算器的元数据提供器和用于将声场描述提供给声场计算器的声场供应器，以及附加的用于输出包括经修改的声场描述和经修改的元数据的经修改的声场的输出界面，该经修改的元数据是使用平移信息从元数据得出的，或该输出界面输出多个扬声器声道，每个扬声器声道与预定义扬声器位置相关，或者该输出界面输出经修改的声场的双耳表示。

在实施例中，声场描述包括多个声场分量。多个声场分量包括全向分量和至少一个定向分量。这样的声场描述例如是具有全向分量和三个定向分量X、Y、Z的一阶高保真度立体声响复制声场描述，或者这样的声场是更高阶的高保真度立体声响复制描述，其包括全向分量、关于X、Y和Z方向的三个定向分量、以及另外的与X、Y、Z方向之外的其他方向相关的定向分量。

在实施例中，该装置包括分析器，用于分析声场分量，以针对不同的时间或频率区间得出到达方向信息。该装置还具有平移变换器，用于使用DoA信息和元数据为每个频率或时间区间计算经修改的DoA信息，其中元数据与针对时间或频率区间将距离和DOA信息相关联的深度图相关。

此外，声场计算器具有距离补偿器，用于使用距离补偿信息计算经修改的声场，该距离补偿信息取决于从频率或时间区间的深度图提供的距离并且取决于与时间或频率区间相关联的新距离，新距离与经修改的DoA信息相关。

在实施例中，声场计算器计算从参考位置指向通过声场的分析所获得的声源的第一向量。此外，声场计算器计算从不同参考位置指向声源的第二向量，并且此计算使用第一向量和平移信息来完成，其中平移信息限定从参考位置到不同参考位置的平移向量。并且然后，使用该第二向量计算从不同参考位置到声源的距离。

此外，声场计算器被配置为除了平移信息之外还接收旋转信息，该旋转信息指示聆听者头部在由俯仰、偏转和翻滚所给出的三个旋转方向中的一个上的旋转。声场计算器然后被配置为执行旋转变换，以使用旋转信息旋转声场的经修改的到达方向数据，其中，从通过声场描述的声音分析所获得的到达方向数据和平移信息，得出经修改的到达方向数据。

在实施例中，声场计算器被配置为通过声音分析从声场描述以及与参考位置相关的源信号的方向确定源信号。

然后，计算与不同参考位置相关的声源的新方向，并且此计算使用元数据来完成，并且然后计算与不同参考位置相关的声源的距离信息，以及然后，使用声源的距离信息和新方向来合成经修改的声场。

在实施例中，通过朝由关于重放设置的新方向信息所给出的方向移动声源信号来执行声场合成，并且在执行该移动操作之前或执行该移动操作之后，使用距离信息完成声源信号的按比例缩放。

在另一实施例中，声源信号的扩散部分被添加到声源信号的直达部分，在被添加该扩散部分之前，通过距离信息来修改该直达部分。

特别地，较佳地，以频谱表示执行声源合成，其中针对每个频率区间计算新方向信息，其中针对每个频率区间计算距离信息，并且其中使用针对频率区间的音频信号的对每个频率区间的直达合成是使用针对频率区间的音频信号来执行的，从新方向信息得出的针对频率区间的移动增益和从针对频率区间的距离信息所得出的针对频率区间的缩放因子被执行。

此外，使用从来自频率区间的音频信号所得出的扩散音频信号以及使用由针对频率区间的信号分析所得出的扩散参数来执行扩散合成，并且然后，直达信号和扩散信号被组合以获得针对时间或频率区间的合成音频信号，并且然后，使用针对其他时间/频率区间的音频信号，执行频率-时间转换，以获得时域合成音频信号作为经修改的声场。

因此，通常，声场计算器被配置为针对每个声源，合成与不同参考位置相关的声场，例如，通过针对每个源使用源信号的新方向来处理源信号，以获得与该不同/新参考位置相关的源信号的声场描述。此外，使用方向信息，在处理源信号之前或处理源信号之后，该源信号被修改。并且，最后，将针对源的声场描述相加在一起以获得与该不同参考位置相关的经修改的声场。

在另一实施例中，替代DirAC分析或任何其他声源分析，声场计算器执行源分离算法。源分离算法最终例如在时域或在频域中产生声源信号。然后，通过从原始声场中减去声源信号计算扩散信号，从而原始声场被分解成扩散信号和若干声源信号，其中每个声源信号具有与其相关联的某个方向。

本发明的较佳实施例随后参照附图描述，其中：

图1a是用于生成经增强的声场描述的装置的较佳实施例；

图1b是解释本发明下的示例性问题的图示说明；

图2是用于生成经增强的声场描述的装置的较佳实施方式；

图3a示出包括音频数据和音频数据的辅助信息的经增强的声场描述；

图3b示出经增强的声场的进一步图示说明，该经增强的声场包括音频数据和与空间信息(如深度图)相关的元数据；

图3c示出用于将元数据与声场描述相关联的其他格式；

图3d示出用于将元数据与声场描述相关联的另一格式；

图4a示出用于生成经修改的声场描述的装置的实施方式；

图4b示出用于生成经修改的声场描述的装置的另一实施方式；

图4c示出用于生成经修改的声场描述的装置的另一实施例；

图4d示出用于从音频信号(如单声道信号)和到达方向数据生成声场描述的示例设备；

图5示出空间音频的六DoF再现；

图6示出六DoF再现的较佳实施例，包括用于生成经增强的声场描述的装置和用于生成经修改的声场描述的装置；

图7示出虚拟现实场景表示；

图8示出虚拟现实中的MUSHRA面板；

图9示出为箱形图的MUSHRA等级；

图10示出用于参考渲染和DirAC的信号路径；

图11a示出用于生成经修改的声场描述的装置的较佳实施方式；

图11b示出用于计算关于新/不同参考位置的声源的新DoA和新距离的较佳实施方式；

图12示出用于生成经修改的声场描述的装置的另一较佳实施方式；

图13a示出现有技术的DirAC分析实施方式；以及

图13b示出现有技术的DirAC合成实施方式。

为了针对上述高保真度立体声响复制/DirAC表示实现6DoF应用，需要以提供用于平移处理的缺失信息的方式扩展这些表示。应注意的是，该扩展可以例如1)将对象的距离或位置添加到现有场景表示，和/或2)添加能促进分离各个对象的处理的信息。

此外，实施例的目的是保留/重新使用现有(非参数或参数)高保真度立体声响复制系统的结构，以在如下意义上提供与这些表示/系统的向后兼容性：

·扩展表示可被转换为现有的非扩展表示(例如，用于渲染)；以及

·在使用扩展表示工作时，允许重新使用现有的软件和硬件实施方式。

在下文中，将描述几种方法，即一种有限(但非常简单)的方法和三种不同的扩展高保真度立体声响复制格式，以实现6DoF。

如在现有技术部分中所描述的，传统DirAC携带参数辅助信息，其表征每个TF(Time Frequency)区间的方向和扩散性。现有DirAC格式的扩展附加地为每个或几个但不是所有TF区间提供深度信息。与方向信息类似，与深度信息的相关性取决于实际的扩散性。高扩散性意味着方向和深度都不相关(并且事实上可以省略非常高的扩散值)。

应该注意的是，深度扩展的DirAC不提供完整的6DoF解决方案，因为它只能携带每个TF区间的一个对象的方向和深度信息。

应当注意，可以从音频信号或从视频信号(例如，在立体(3D)成像/视频或光场技术中常用的深度图)估计深度信息，或者当声场由利用局部声源的声音合成所生成时，可以手动或自动地添加深度信息。

图1a示出用于生成经增强的声场描述的装置，该装置包括声场(描述)生成器100，用于生成至少一个声场描述，至少一个声场描述指示关于至少一个参考位置的声场。此外，该装置包括元数据生成器110，用于生成与声场的空间信息相关的元数据。该元数据接收声场，或者替代地或另外地，接收关于声源的分离信息，作为输入。

声场描述生成器100和元数据生成器110两者的输出构成经增强的声场描述。在一个实施例中，声场描述生成器100和元数据生成器110两者的输出可以在组合器120或输出界面120内被组合，以获得经增强的声场描述，经增强的声场描述包括由元数据生成器110生成的声场的空间元数据或空间信息。

图1b示出本发明所解决的情况。例如，位置A是至少一个参考位置，并且声场由源A和源B生成，并且位于该位置A处的例如某个实际或虚拟麦克风检测来自源A和源B的声音。声音是来自发射声音源的声音的迭加。这表示由声场描述生成器所生成的声场描述。

另外，通过某种实施方式，元数据生成器将得出关于源A的空间信息和关于源B的另一空间信息，诸如这些源到参考位置(诸如位置A)的距离。

自然地，参考位置另外也可以是位置B。然后，实际或虚拟麦克风将被放置在位置B处，并且声场描述将是，例如，由一阶高保真度立体声响复制分量、或更高阶的高保真度立体声响复制分量、或任何其他声音分量所表示的声场，任何其他声音分量具有潜力以描述关于至少一个参考位置(即位置B)的声场。

然后，元数据生成器可以生成声源A到位置B的距离或者源B到位置B的距离作为关于声源的信息。当然，关于声源的替代信息可以是关于参考位置的绝对或相对位置。参考位置可以是一般坐标系统的原点，或者可以位于与一般坐标系统的原点有限定关系的位置处。

其他元数据可以是一个声源的绝对位置和关于第一声源的另一声源的相对位置等等。

图2示出声场描述生成器的较佳实施方式。声场描述生成器例如可以包括真实或虚拟麦克风200，麦克风从输入声场生成作为全向分量w、以及三个方向分量x、y、z的声场分量，诸如图2中所示的一阶高保真度立体声响复制表示。

基于此声场描述，例如，声场分析器210可以另外包括降混器，该降混器将生成由单声道或立体声降混以及附加参数组成的参数声场描述，该附加参数诸如，例如，每个时间帧或频率区间，或者通常是时间/频率区间的到达方向DoA参数，以及另外地，相同或更少数量的时间/频率区间的扩散信息。

此外，例如元数据生成器110将被实现为深度图生成器，其生成深度图，该深度图将每个到达方向或DoA信息与以绝对或相对项的某个距离相关联。此外，在较佳实施例中，元数据生成器110也被时间/频率区间的扩散参数所控制。在实施方式中，元数据生成器110将被实现为，针对具有高于某个预定或自适应阈值的扩散值的时间/频率区间，不生成任何距离信息。这是因为以下事实：当某个时间或频率区间显示出高扩散性时，则可以得出这样的结论：在这个时间或频率区间中，不存在任何局部声源，但只存在来自所有方向的扩散声音。因此，对于这样的频率区间的时间，元数据生成器将在深度图内生成如图2中的“N.A”所指示的，根本不是数值，或者可选地，元数据生成器将引入具有预定值(如高、无限或任何其他值的代码)的距离值，预定值将被解码器确认为指示时间/频率区间的非局部声源的值。

然后，在组合器120内组合深度图、和由声场分析器210所生成对应于单声道/立体声降混表示的声场描述、以及与参考位置相关的空间参数，以生成经增强的声场描述。

图3a示出包括经增强的声场描述的比特流或通用数据流的示例。该数据流将包括时间帧i、i+1等，如附图标记302、304、306所示，以及对应时间帧的相关辅助信息，如块310、312所示。在实施例中，辅助信息将包括如在314所示的每时间/频率区间的到达方向信息，并且可选地，如由项316所示，每时间/频率区间的扩散值，并且另外，对于帧i的深度图320。示例性深度图还在图3a中以项322和324指示。例如，项322示出不同的DoA信息，在方位方向上于0°和350°之间延伸，具有10°的示例性增量。另外，项324示出与某个DoA值相关联的对应距离值。对于每个仰角增量，将生成这样的深度图，最终使得深度图将方位角和仰角的每个组合(即，每个DoA信息)与某个距离值相关联。

理所当然地，用于生成和发送深度图的其他可能更有效的方式可以被执行，其中通常，针对具有低于某个阈值的扩散值的某个时间帧中的频率区间所发生的每个DoA值，距离会存在。

图3b示出另一种实施方式，其中图2中的声场分析器210实际上不生成降混，而是针对某个时间段生成B格式、A格式的完整表示或任何其他诸如高阶表示。然后，深度图320a和另一深度图320b将与图3b中的326处指示的音频信号表示相关联。例如，当与B格式或更高阶表示所关联的时间段包括几个各个时间段时，并且当在这些时间段内发生源的位置的改变时，则将针对第一时间段i的深度图320a和针对时间段i+1的在项320b处指示的另一深度图与音频信号表示326相关联。如所概述的，图3b中的音频信号表示与图3a中的表示不同，因为图3a仅具有降混或w分量的表示，并且另外地还具有不同时间帧中的表示，而图3b有具有全定向分量表示的另一音频信号表示，其具有三个或更多个定向分量且不分成各个时间帧，但是与为其给定项326的时间段相比，与较小时间增量的深度图相关联。尽管在图3b中作为顺序格式示出，但应注意，可以使用并行格式、或并行和串行之间的混合、或某个其他格式(例如MP4容器格式)。

图3c和3d示出用于将元数据与以B格式或高阶表示的形式的声场描述相关联的其他格式。索引i、i+1代表时间，索引(1)、(2)、(Ni)代表方向。

图4a示出用于从声场描述以及与该声场描述的空间信息相关的元数据生成经修改的声场描述的装置的较佳实施方式。特别地，该装置包括声场计算器420，其使用元数据、声场描述、以及平移信息生成经修改的声场，该平移信息指示从参考位置到不同参考位置的平移。

例如，当关于图1b中的位置A给定声场时，则不同参考位置可以是位置B，以及平移信息例如将是指示位置A至位置B的平移的向量。声场计算器420然后将计算经修改的声场，就像它将被位于位置B的聆听者所感知，并且为了此计算，声场计算器具有与位置A相关的声场描述和平移信息，并且另外地具有关于源A和源B的空间位置的元数据。

在一个实施例中，声场计算器420连接到输入界面400，用于接收经增强的声场描述，例如，关于图1a或图2所讨论的，然后输入界面400一方面分离声场描述，即由图1a的块100或图2的块210所生成的。此外，输入界面400将元数据从经增强的声场描述分离，即图3a的项310、312或图3b的320a、320b。

此外，平移界面410从聆听者获得平移信息和/或附加或分离的旋转信息。平移界面410的实施方式可以是头部追踪单元，其不仅追踪在虚拟现实环境中的头部的旋转，而且还追踪头部从一个位置(即图1b中的位置A)到另一个位置(即图1b中的位置B)的平移。

图4b示出与图1a类似的另一实施方式，但与编码器/解码器场景无关，但与一般场景相关，其中由元数据提供器402指示的元数据供应、由声场提供器404指示的声场供应在没有分离经编码或增强的声场描述的某个输入界面的情况下完成，但例如，在虚拟现实应用中存在的实际场景中全部完成。然而，本发明不限于虚拟现实应用，而是还可以在任何其他应用中实施，其中，与参考位置相关的声场的空间音频处理是有用的，以将与第一参考位置相关的声场变换至与不同的第二参考位置相关的另一声场。

声场计算器420然后生成经修改的声场描述、或者可选地生成(虚拟)扬声器表示、或者生成诸如双声道表示的双耳表示用于耳机再现。因此，声场计算器420可以生成经修改的声场描述作为经修改的声场，经修改的声场描述基本上与原始声场描述相同，但是现在关于新参考位置。在替代实施例中，可以为诸如5.1方案的预定扬声器设置或具有更多扬声器的扬声器设置(并且特别地，具有扬声器的三维布置而不是仅二维布置，即扬声器布置具有关于用户位置而被升高的扬声器)生成虚拟或实际扬声器表示。对虚拟现实应用特别有用的其他应用是用于双耳再现的应用，即用于可应用于虚拟现实用户头部的耳机。

图4c示出在DirAC分析/合成的情境下的本发明的较佳实施方案。至此，真实麦克风实际撷取的、或者最初由虚拟麦克风生成的、或者先前合成并且现在用在虚拟现实应用或任何其他应用中的声场描述被输入到时间-频率转换器421。

然后，DirAC分析器422被配置为针对每个时间/频率区间生成到达方向数据项和扩散数据项。

使用诸如由深度图给出的空间声场信息，例如，块423执行平移变换，并且可选地，执行音量缩放信息，新到达方向值被计算。较佳地，也执行旋转变换424，以及当然，一方面与平移信息有关的追踪信息、另一方面旋转信息，在块423到424中被使用，以生成新到达方向数据，作为至DirAC合成器块425的输入。然后，另外，在块423中还生成缩放信息，该缩放信息取决于声源与由追踪信息指示的新参考位置之间的新距离，并且该缩放信息在DDirAC合成器425内被用于最终针对每一时间/频率区间执行DirAC合成。然后，在块426中，较佳地，相对于某个预定的虚拟扬声器设置执行频率/时间转换，然后，在块427中，执行双耳耳机表示的双耳渲染。

在另一实施例中，DirAC合成器直接在TF域中提供双耳信号。

取决于DirAC分析器的实现，以及当然，取决于DirAC合成器425的实现，在块421输入处或在块421的输出处的原始声场可以被转发到DirAC合成器425，或者，由DirAC分析器422生成的降混信号被转发到DirAC合成器。

示例性地，随后描述的图6示出一种情况，其中DirAC合成器仅对诸如全向或压力分量的降混分量操作，而在关于图13b示出的另一替代实施例中，DirAC合成器对整个声场数据(即在图13b中的实施例中的具有有全向分量w和三个定向分量x、y、z的场描述的全分量表示)操作。

图4d示出用于执行与DirAC合成器不同的合成的另一实施方式。例如，当声场分析器为每个源信号生成分离的单声道信号S和原始到达方向时，以及当依据平移信息计算新到达方向时，则例如图4d的高保真度立体声响复制信号生成器430将被用于生成声源信号(即单声道信号S)的但是针对新到达方向(DoA)数据的声场描述，新到达方向(DoA)数据由水平角θ或仰角θ和方位角组成的。然后，由图4b的声场计算器420执行的过程将针对具有新到达方向的每个声源生成例如一阶高保真度立体声响复制声场表示，并且然后，可以使用缩放因子来为每个声源执行进一步修改，该缩放因子取决于声场到新参考位置的距离，并且然后，来自各个源的所有声场可以相互迭加以最终获得再一次例如以与某个新参考位置相关的高保真度立体声响复制表示的经修改的声场。

当解释由DirAC分析器422处理的每个时间/频率区间表示某个(带宽受限的)声源时，则高保真度立体声响复制信号生成器430可以被使用取代DirAC合成器425，以针对每个时间/频率区间，使用作为图4d的“单声道信号S”的该时间/频率区间的降混信号或压力信号或全向分量，生成完整的高保真度立体声响复制表示。然后，针对W、X、Y、Z分量中的每一个，频率-时间转换器426中的各个频率-时间转换将产生声场描述，该声场描述不同于图4c中所示的声场描述。

以下概述了进一步的实施例。目标是在考虑原始记录位置处的信号以及有关声源距记录位置的距离的信息的情况下，获得在聆听者位置处的虚拟双耳信号。物理源被假设为是通过其朝向记录位置的角度而可分离的。

场景是从麦克风的视点(PoV)记录的，其位置被用作参考坐标系的原点。场景需要从聆听者的PoV再现，该聆听者在6DoF中被追踪，参见图5。这里显示单个声源用于图示说明，关系适用于每个时间-频率区间。

图5示出空间音频的6DoF再现。声源通过麦克风被记录，该声源在相对于麦克风位置和朝向(黑线和弧线)的距离d_r处具有DoAr_r。它需要相对于具有DoAr_l和距离d₁(虚线)的移动聆听者而被再现。这需要考虑聆听者平移l和旋转o(点线)。

在坐标的声源是从单位向量r_r＝d_r/‖d_r‖表示的到达方向(DoA)记录的。可以从记录的分析来估计该DoA。它来自距离d_r＝‖d_r‖。假设该信息可被自动地估计，例如，使用飞行时间相机，以获得深度图m(r)形式的距离信息，深度图m(r)映射每个方向r距记录位置最近声源的距离(以米为单位)。

聆听者在6DoF中被追踪。在给定的时间，他相对于麦克风位于位置并且相对于麦克风的坐标系统具有旋转/>记录位置被选为坐标系统的原点以简化符号。

因此，需要以导致音量改变的不同距离d₁、以及作为平移和随后旋转的结果的不同DoA r₁再现声音。

如以下部分所解释，一种用于基于参数表示通过专用变换从聆听者角度获得虚拟信号的方法被概述。

所提出的方法基于用于参数空间声音编码的基本DirAC方法，参见[16]。假设在分析频谱的每个时间-频率实例中存在一个主要直达源，并且这些可以被独立地处理。使用短时傅立叶变换(STFT)将记录变换为时间-频率表示。时间帧索引用n表示，以及频率索引用k表示。然后，分析变换后的记录，以针对复数频谱P(k,n)的每个时间-频率区间估计方向r_r(k,n)和扩散性ψ(k,n)。在合成中，信号被划分成直达部分和扩散部分。此处，通过依据扬声器位置而移动直达部分并添加扩散部分，来计算扬声器信号。

参见图6，在6DoF中根据聆听者角度变换FOA信号的方法可以被分为五个步骤。

图6示出6DoF再现的方法。B格式的记录的FOA信号被DirAC编码器处理，该编码器针对复数频谱的每个时间-频率区间计算方向和扩散值。然后，通过聆听者的追踪位置并根据距离图中所给出的距离信息，变换方向向量。然后，根据头部旋转，旋转所得方向向量。最后，在DirAC解码器中，合成针对8+4个虚拟扬声器声道的信号。然后，它们被双耳化。

在实施例中，在DirAC编码器422中分析输入信号，来自距离图m(r)的距离信息被添加，然后，聆听者追踪平移和旋转被应用在新型变换423和424中。DirAC解码器425合成针对8+4个虚拟扬声器的信号，其转而被双耳化427以用于耳机回放。应注意的是，由于在平移之后的声音场景的旋转是独立操作，所以它可选地可被应用在双耳渲染器中。针对6DoF所变换的唯一参数是方向向量。通过模型定义，扩散部分被假设为等向性和同构型的，因此保持不变。

DirAC编码器的输入是以B格式表示的FOA声音信号。其由四个信道组成，即全向声压和三个一阶空间梯度，它们在某个假设下与粒子速度成比例。参见[18]，该信号以参数方式被编码。参数从作为经变换的全向信号的复数声压P(k,n)以及对应于经变换的梯度信号的复数粒子速度向量U(k,n)＝[U_X(k,n),U_Y(k,n),U_Z(k,n)]^T得出。

DirAC表示由在每个时间-频率区间处的声波的信号P(k,n)、扩散性ψ(k,n)和方向r(k,n)组成。为了得到后者，首先，有效声音强度向量I_a(k,n)被计算作为压力向量与速度向量的共轭复数(由(·)*表示)的乘积的实部(由Re(·)表示)[18]：

从该向量的变异系数，估计扩散性[18]。

其中E表示沿时间帧的期望算子，实现为移动平均。

由于预计使用基于方向的距离图来操纵声音，因此方向估计的方差(variance)应该较低。由于帧通常很短，情况并非总是如此。因此，在可选的实施例中，移动平均被应用以获得平滑的方向估计然后计算信号的直达部分的DoA作为在相反方向的单位长度向量：

由于针对每个时间-频率区间将方向编码为单位长度的三维向量，因此可以直接对距离信息进行积分。方向向量与其对应图项目相乘，使得向量长度表示对应声源的距离d_r(k,n)：

d_r(k,n)＝r_r(k,n)d_r(k,n)

＝r_r(k,n)m(r_r(k,n)) (4)

其中d_r(k,n)是从麦克风的记录位置指向在时间n和频率区间k有效的声源的向量。

聆听者位置通过当前处理帧的追踪系统给出为l(n)。参考图10，利用源位置的向量表示，可以减去追踪位置向量l(n)以生成具有长度d₁(k,n)＝‖d₁(k,n)‖的新平移方向向量d₁(k,n)。从聆听者的PoV到声源的距离被得出，并且DoA在单个步骤中被调整：

d₁(k,n)＝d_r(k,n)-l(n) (5)

真实再现的重要方面是距离衰减。衰减假设是声源和聆听者之间距离的函数[19]。方向向量的长度用于编码衰减或放大，以用于再现。到记录位置的距离根据距离图以d_r(k,n)编码，并且待再现的距离以d₁(k,n)编码。如果将向量归一化为单位长度，然后乘以旧及新距离的比率，则看出所需长度通过将d₁(k,n)除以原始向量的长度而被给出：

聆听者朝向的更改将被应用于以下步骤。相对于作为原点的记录位置，通过追踪所给出的朝向可以被写为由俯仰、偏转和翻滚组成的向量o(n)＝[o_X(n),o_Z(n),o_Y(n)]^T。根据聆听者朝向旋转源方向，这是使用2D旋转矩阵实现的：

d_p(k,n)＝R_Y(o_Y(n))R_Z(o_Z(n))R_X(o_X(n))d_v(k,n) (7)

聆听者的所得DoA然后由被归一化为单位长度的向量所给出：

/>

经变换的方向向量、扩散性和复数频谱被用于合成针对均匀分布的8+4虚拟扬声器设置的信号。八个虚拟扬声器以45°方位角步阶位于聆听者平面(仰角0°)上，以及四个以90°十字队形位于45°的仰角上。对于每个扬声器声道1≤i≤I(其中I＝12是扬声器的数量)，合成被分成直达和扩散部分[16]：

Y_i(k,n)＝Y_i,S(k,n)+Y_i,D(k,n) (9)

对于直达部分，边缘衰落幅度平移(EFAP)在给定虚拟扬声器几何结构的情况下被应用于从正确方向再现声音[20]。给定DoA向量r_p(k,n)，这为每个虚拟扬声器声道i提供移动增益G_i(r)。每个DoA的距离相依增益是从方向向量d_p(k,n)的所得长度得出的。声道i的直达合成变为：

其中指数γ是一个调整因子，其通常设置为约1[19]。应注意的是，当γ＝0时，距离相依增益被关闭。

压力P(k,n)用于生成I去相关的信号这些去相关的信号作为扩散分量被添加到各个扬声器声道。这遵循标准方法[16]：

每个声道的扩散和直达部分被加在一起，并且通过逆STFT将信号变换回时域。取决于扬声器位置，这些声道时域信号针对左耳和右耳而与HRTF进行卷积运算，以产生双耳信号。

为了评估，在虚拟起居室中的单个场景被再现。不同的渲染状况被用于再现三个同时有效的声源。在测试对象的帮助下，新颖的MUSHRA-VR技术被用来获得质量。

在实验中的虚拟环境是室内房间，其具有在距记录位置的不同距离处的三个声源。参见图7，在大约50厘米处有一个人类发声者、在1米处有一个收音机和在2米处有一个敞开的窗户。图7示出VR场景，其中声音来自该人类、该收音机和该敞开的窗口，每个源标记有圆圈。用户可以在朝向窗口的人类周围的虚线矩形标记的区域中行走。

视觉渲染使用Unity和HTC VIVE完成。音频处理借助于虚拟录音室技术(VST)、插件和Max/MSP实现。经由开放声音控制(OSC)消息，追踪数据和状况被交换。行走区约2x 2米。

虽然建立了静态音频再现的评估标准，但这些标准通常不能直接应用于VR。特别是对于6DoF，需要开放用于评估音频质量的新颖方法，因为与仅音频评估中相比，体验更复杂，并且所呈现的内容取决于每个聆听者的唯一运动路径。正在积极研究新颖方法，诸如VR中的寻路[21]或沉浸式体验的生理反应[22]，但传统的经过良好测试的方法也可适于支持现今完成的开发工作的VR环境。

MUSHRA是一种广泛采用的音频质量评估方法，适用于从语音质量评估到多声道空间音频设置的各种用例[17]。它允许将参考与同一音频内容的多个渲染进行并排比较，并通过使用隐藏参考和锚定测试项提供绝对质量等级。在此测试中，MUSHRA方法被采用于VR设置中，并且因此一些偏离推荐的实施方式是有必要的。具体来说，这里实现的版本不允许音频内容的循环，以及锚定项是3DoF渲染。

在每次运行中，不同状况被随机分配给测试状况。每个参与者被要求评估每个状况的音频质量，并给出0到100分的分数。他们知道其中一个状况实际上与参考相同，因此评分为100分。最糟糕的“锚定”状况是被评分为20(差)或更低；所有其他状况应被评分为在两者之间。

VR中的MUSHRA面板如图8所示。图8中用于对四个状况进行评级的滑块可以是彩色的，在它们下面是数值和各自用于选择状况的按钮。面板被设计为使得可以在任何时间完成被测系统的评级，同时在虚拟环境中具有不显眼的接口。通过按下手持控制器上的按钮，以适于自然观看的距离在用户视野(FoV)中的视平线处实例化半透明接口。存在激光指示器，其复制按钮的鼠标悬停状态(不活动、活动、按下、突出显示)以辅助交互。按下手持控制器上的相同按钮移除面板但保持所有当前等级和状况选择回放。所有等级都实时记录到文件中，该文件包括状况随机化的图例。

实验共实现了四种不同状况。

REF：基于对象的渲染。这是参考状况。B格式是针对聆听者的当前位置被匆忙地生成的，接着经由虚拟扬声器被渲染。

C1：3DoF再现。聆听者位置被忽略，即l(n)＝0，但仍然应用他的头部旋转o(n)。增益被设置为离聆听者2米距离的源的增益。该状况用作锚定。

C2：所提出方法用于在没有距离信息情况下的6DoF再现。聆听者位置被用于改变方向向量。所有源都位于步行区域之外的球体上。球体的半径固定为2米，即并且应用距离相依增益(γ＝1)。

C3：所提出方法用于在具有距离信息情况下的6DoF再现。聆听者位置l(n)被用于改变方向向量。距离信息m(r)被用于计算聆听者位置(5)处的正确DoA，并且应用距离相依增益(6)(γ＝1)。

对所有状况都使用相同的信号处理流水线。这样做是为了确保比较仅关注空间再现，并且结果不受着色或其他影响的影响。该管线如图10所示。图10示出用于参考渲染和DirAC的信号路径。在参考情况(REF)下，追踪数据用于改变基于对象的B格式合成的定位和旋转(左上)。在其他状况C1-C3中，追踪数据被应用于DirAC域(右)。

从三个单声道源信号计算两个B格式信号。在线地计算直达(干(dry))信号。预先离线地计算混响(湿(wet))信号。它们被DirAC加在一起并处理，渲染至虚拟扬声器，接着被双耳化。不同之处在于追踪数据的应用。在参考情况下，在B格式信号的合成之前应用它，使得它实际地被记录在聆听者位置处。在其他情况下，它被应用于DirAC域。

基于对象的渲染被用作为参考场景。实际上，聆听者在她/他的头上配备B格式麦克风，并在他/她的头部位置和旋转处产生记录。这是直接实现的：相对于追踪的聆听者位置放置对象。利用距离衰减从每个源生成FOA信号。针对在距离d_i处、具有方位角θ和仰角ψ的方向的源信号s_i(t)，合成直达B格式信号s_i，是：

/>

其中c是以米/每秒(m/s)为单位的声音速度。此后，追踪的旋转被应用于FOA域[7]。

人工混响以时间不变的方式被添加到源信号中，以增强渲染的室内声音场景的真实感。来自鞋盒形房间的边界的早期反射以准确的延迟、方向和衰减被添加。使用空间反馈延迟网络(FDN)生成后期混响，空间反馈延迟网络将多声道输出分布到虚拟扬声器设置[23]。频率相依混响时间T₆₀在90到150ms之间，平均值为110ms。随后应用具有低通特性的音调校正滤波器。

然后，通过将每个虚拟扬声器信号与其DoA的B格式模式(pattern)相乘，如(12)中所示，将混响信号从8+4虚拟扬声器设置转换至B格式。混响B格式信号被添加到直达信号。

在DirAC域中处理求和的B格式。使用由于其高时间分辨率和低时间混迭而被选择的具有128个频带的正交镜像滤波器(QMF)组来完成编码。利用42ms的移动平均平滑而估计方向和扩散。解码生成8+4个虚拟扬声器信号。然后将这些8+4个信号与HRTF进行卷积运算以用于双耳回放。

共有19名受试者评价场景。他们年龄在23-41岁之间，其中三人是女性，所有人都没有听力障碍。大多数参与者所需的评分时间不到十分钟。在非常不熟悉评估虚拟现实音频的情况下，受试者花费更长时间，其中声音和视觉并不总是一致的。

图6将所得的分数显示为箱形图，即MUSHRA等级(N＝19)作为箱形图。虚线表示中位数分数，方框表示第一至第三的四分位数，晶须处于+/-1.5的四分位数范围(IQR)。

可以看出，所有受试者都正确地将参考标识为最佳，尽管其中4个将其评定为低于100。虽然在录音位置处听起来相同，但与其他状况的差异对所有参与者是清楚的。在具有距离信息的DirAC域中的所提出的6DoF再现(C3)获得了第二高的总分。在没有距离信息情况下的再现(C2)或甚至没有位置追踪的再现(C1)，被几乎每个参与者都给予较低分数。可以看出，参与者不同意分配给锚定(C1)状况的值。虽然13位对其评分低于30，但其他6位不太确定并选择了上至70的值。

根据单向重复测量变异数分析(ANOVA)，状况的显著主要影响被发现(p<0.001,F＝43.75)。作为事后分析，执行具有95％整体置信水平(family-wise confidence level)的平均值的杜凯(Tukey)多重比较。所有状况对被发现为显著不同，最强烈(p<0.001)，仅C2-C3不那么清楚(p<0.04)。

即使发现状况是显著不同的，响应的变异数也相对较大。其中一个原因可能是被测受试者对VR的不同经验水平。可取的是进行熟悉的预测试或以经验对受试者进行分组。然而，在VR和听力测试中采用一系列的新手至专家同时仍然产生显著效果表明，结果涵盖这些因素。

一些参与者难以注意到3DoF状况为锚点。这可能反映出在VR音频中的经验不足。然而，它可以简化过程并利用一致性有助于提供附加的非空间锚定，诸如声源的单声道混合。

关于所提出的再现方法，看到它允许在6DoF中再现在空间中的单个点记录的FOA内容。虽然大多数测试参与者将理想的B格式信号参考评定为更高，但所提出的方法在其他状况下的再现获得了最高平均分数。即使当记录中的声源位于距麦克风的不同距离处时，所提出的方法也能运作。在这种情况下，距离必须被记录为待再现的元数据。结果表明，距离再现增强了体验的真实感。如果步行区域允许用户在所有声源周围走动，则效果可能更强烈。

提出一种新的六自由度(6DoF)音频再现方法。音频在单个位置处被记录为一阶高保真度立体声响复制(FOA)，并且声源的距离数据被获取作为辅助信息。使用该信息，关于在参数定向音频编码(DirAC)域中的聆听者的实时追踪来再现音频。

主观测试表明，所提出的方法与基于对象的渲染排名接近。这意味着当距离信息被考虑时，所提出的再现方法可以成功地提供超过三个自由度的虚拟回放。

图11a示出声场计算器420的另一较佳实施方式。

基于声场描述，在1100中确定全频带到达方向或每频带到达方向。这些到达方向信息表示声场的到达方向数据。基于到达方向数据，在块1110中执行平移变换。至此，使用被包括作为声源描述的元数据的深度图1120。基于深度图1120，块1110生成声场的新到达方向数据，在此实施方式中，其仅取决于从参考位置到不同参考位置的平移。至此，块1110接收例如通过在虚拟现实实现的情境中的追踪而生成的平移信息。

较佳地或替代地，也使用旋转数据。至此，块1130使用旋转信息执行旋转变换。当平移和旋转两者被执行时，则较佳地，在计算已经包括来自平移的信息以及深度图1120的声场的新DoA之后，执行旋转变换。

然后，在块1140中，新声场描述被生成。至此，可以使用原始声场描述，或者，可选地，可以使用通过源分离算法从声场描述分离的源信号，或者可以使用任何其他应用。基本上，新声场描述可以是例如由高保真度立体声响复制生成器430获得的或由DirAC合成器425生成的定向声场描述，或者可以是在随后的双耳渲染中从虚拟扬声器表示所生成的双耳表示。

较佳地，如图11a所示，每个到达方向的距离也被用于生成新声场描述，以使某个声源的音量或响度适应新位置，即新或不同参考位置。

尽管图11a示出在平移变换之后执行旋转变换的情况，但是应注意，该顺序可以是不同的。特别地，旋转变换可以被应用于通过块1100所生成的声场的DoA，并且然后，应用由于主体从参考位置到不同参考位置的平移引起的附加平移变换。

然而，将注意到，声场的DoA需被使用以从深度图1120中发现对应距离信息，而不是旋转的DoA。因此，一旦已经通过块1100确定声场的DoA，就使用深度图1120获取距离信息，该距离信息然后通过在块1140中生成新声场描述而被使用，用来计算某个源关于某个参考位置的改变的距离以及因此的改变的响度。基本上，可以说在距离变大的情况下，则特定声源信号被衰减，而当距离变短时，则声源信号被放大。自然地，取决于距离的某个声源的衰减或放大与该距离变化成比例地进行，但是，在其他实施例中，可以以相当粗略的增量将较不复杂的操作应用于声源信号的这种放大或衰减。与任何距离变化完全被忽略的情况相比，即使是这种较不复杂的实现也能提供更好的结果。

图11b示出声场计算器420的较佳实施方式。在块1102中，对于每个源的源分离和到达方向或一般方向信息的计算被执行。然后，在块1104中，到达方向向量被乘以距离信息向量，即，从原始参考位置到声源的向量，即例如，从图5的项520到项510的向量。然后，在块1106中，平移信息，即，从图5的项520到项500的向量被考虑，以便计算新平移方向向量，该新平移方向向量是从聆听者位置500到声源位置510的向量。然后，在块1108中计算由dv所指示的具有正确长度的新到达方向向量。该向量指向与dr相同的方向，但具有不同长度，因为向量的长度反映了声源510被记录在具有某个声量的原始声场中的事实，以及因此，dv的长度或多或少指示响度变化。这是通过将向量d_l除以记录距离dr来获得的，即从麦克风520到声源510的向量dr的长度。

当如图5所示，再现距离大于记录距离时，则dv的长度将低于单位长度(unity)。这将导致，用于在新聆听者位置处的再现的声源510的衰减。然而，当再现距离d_l小于记录距离时，则通过块1108计算的dv的长度将大于1，并且对应缩放因子将导致声源的放大。

图12示出声场计算器的另一较佳实施方式。

在块1200中，例如，对于每频带或全频带，确定来自声场的各个源。当每帧和频带的确定被执行时，则这可以通过DirAC分析来完成。如果全频带或子频带确定被执行，则可以通过任何类型的全频带或子频带源分离算法来完成。

在块1210中，例如通过头部追踪，确定聆听者的平移和/或旋转。

在块1220中，通过使用元数据并且例如在DirAC分析的实现中通过使用深度图，确定每个源的旧距离。因此，每个频带被认为是某个源(假设扩散性低于某个阈值)，并且然后，确定具有低扩散值的每个时间/频率区间的某个距离。

然后，在块1230中，每个源的新距离例如通过每频带的向量计算被获得，例如，在图11b的上下文中所讨论的。

此外，如块1240中所示，例如，通过在DirAC分析中获得的DoA计算或例如通过源分离算法中的到达方向或方向信息分析，确定每个源的旧方向。

然后，在块1250中，例如通过执行每频带或全频带的向量计算，确定每个源的新方向。

然后，在块1260中，为平移和旋转的聆听者生成新声场。例如，这可以通过在DirAC合成中按比例缩放每个声道的直达部分来完成。取决于具体实施方式，除了或替代在块1260中执行距离修改，可在块1270a、1270b或1270c中完成距离修改。

例如，当确定声场仅具有单个源时，则距离修改可以已经在块1270a中被执行。

可选地，当通过块1200计算各个源信号时，则在实际新声场在块1260中被生成之前，在块1270b中，可以针对各个源，执行距离修改。

另外，例如，当块1260中的声场生成不渲染扬声器设置信号或双耳信号，而是另一声场描述时，例如，使用高保真度立体声响复制编码器或计算器430，则距离修改也可以在块1260中生成之后执行，这意指在块1270c中执行。依据该实施方式，距离修改也可以被分配给多个修改器，以便最终某个声源处于某个响度，该某个响度由原始距离与新距离之间的差异所指示，该原始距离为声源和参考位置之间的距离、该新距离为声源和不同参考位置之间的距离。

图13a示出最初公开(例如)在2009年IWPASH的早先引用的参考文献“DirectionalAudio Coding”中的DirAC分析器。

DirAC分析器包括一组带通滤波器1310、能量分析器1320、强度分析器1330、时间平均块1340和扩散性计算器1350以及方向计算器1360。

在DirAC中，分析和合成两者都在频域中执行。有几种方法用于将声音划分到频带，每种方法都在不同的属性内。最常用的频率变换包括短时傅立叶变换(STFT)和正交镜像滤波器组(QMF)。除了这些之外，还可以完全自由地设计具有任意滤波器的滤波器组，该滤波器组可针对任何特定目的进行优化。定向分析的目标是在每个频带处估计声音的到达方向，以及估计声音是否同时从一个或多个方向到达。原则上，这可以用许多技术来执行，然而，声场的能量分析已经被发现是合适的，这在图13a中示出。当从单个位置捕获一维、二维或三维的压力信号和速度信号时，能量分析可以被执行。在一阶B格式信号中，全向信号被称为W信号，其已经被2的平方根缩小。声压可以被估计为在STFT域中表示的

X、Y和Z声道具有沿笛卡尔轴定向的偶极子的定向模式，其一起形成向量U＝[X,Y,Z]。向量估计声场速度向量，并且也在STFT域中被表示。声场的能量E被计算。可以利用定向麦克风的重合定位或者利用紧密间隔的全向麦克风组，获得B格式信号的捕获。在一些应用中，麦克风信号可以在计算域中形成，即模拟。

声音的方向被定义为强度向量I的相反方向。在发送的元数据中，该方向被表示为对应角度方位角和仰角值。还使用强度向量和能量的期望算子来计算声场的扩散性。该公式的结果是在0和1之间的实数值，其特征在于声音能量是从单个方向到达(扩散性是零)还是从所有方向到达(扩散性是1)。在全3D或较小维度的速度信息可用的情况下，该过程是适当的。

图13b示出DirAC合成，再一次，其具有一组带通滤波器1370、虚拟麦克风块1400、直达/扩散合成器块1450、以及某个扬声器设置或虚拟预期扬声器设置1460。另外，使用扩散性-增益变换器1380、基于向量的幅度平移(VBAP)增益表块1390、麦克风补偿块1420、扬声器增益平均块1430和用于其他声道的分配器1440。

在利用扬声器的这种DirAC合成中，图13b中所示的高质量版本的DirAC合成接收所有B格式信号，为此针对扬声器设置1460的每个扬声器方向，计算虚拟麦克风信号。所使用的定向模式通常是偶极子。然后，依据元数据，虚拟麦克风信号以非线性方式被修改。DirAC的低比特率版本未在图13b中显示，然而，在这种情况下，如图6所示，仅一个音频声道被发送。处理的不同之处在于所有虚拟麦克风信号都将被所接收音频的单个声道所取代。虚拟麦克风信号被分成两个串流：扩散串流和非扩散串流，它们被分开处理。

通过使用基于向量的幅度平移(VBAP)，非扩散声音将被再现为点源。在移动中，在与扬声器特定的增益因子相乘之后，单声道声音信号将被应用于扬声器的子集。使用扬声器设置的信息和指定移动方向，计算增益因子。在低比特率版本中，输入信号被简单地朝元数据所隐含的方向平移。在高质量版本中，每个虚拟麦克风信号与对应增益因子相乘，这会产生与移动相同的效果，然而它不太容易出现任何非线性伪声。

在许多情况下，定向元数据经受突然的时间变化的影响。为了避免伪声，利用VBAP计算的扬声器的增益因子通过利用频率相依时间常数的时间积分而被平滑，该时间常数等于每个频带处的约50个循环周期。这有效地消除了伪声，然而，在大多数情况下，方向的变化不会被感知为比未进行平均的情况更慢。

扩散声音的合成的目的是创造围绕聆听者的声音的感知。在低比特率版本中，通过去相关输入信号并将其从每个扬声器再现，扩散串流被再现。在高质量版本中，扩散串流的虚拟麦克风信号在某种程度上已经不连贯，并且它们需要仅稍微去相关。与低比特率版本相比，这种方法为环绕声混响和环境声音提供了更好的空间质量。

对于利用耳机的DirAC合成，针对非扩散串流采用围绕聆听者的某个数量的虚拟扬声器以及针对扩散串流采用某个数量的扬声器规划DirAC。虚拟扬声器被实现为输入信号与测量的头部相关转移函数(HRTF)的卷积。

尽管已经在装置的上下文中描述了一些方面，但是显然这些方面也表示相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示相应装置的相应块或项目或特征的描述。

本发明的经增强的声场描述可以存储在数字存储介质或非暂时性存储介质上，或者可以在诸如无线传输介质、或诸如因特网的有线传输介质的传输介质上传输。

根据某些实施要求，本发明的实施例可以用硬件或软件实现。该实施可以使用其上存储有电子可读取控制信号的数字存储介质来执行，例如软性磁盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH内存，电子可读取控制信号与(或者能够与)可编程计算机系统协作，以便执行相应的方法。

根据本发明的一些实施例包括具有电子可读取控制信号的非暂时性数据载体，电子可读取控制信号能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可被实现为具有程序代码的计算机程序产品，该程序代码可操作用于在计算机程序产品在计算器上运行时执行这些方法之一。该程序代码可以例如存储在机器可读载体上。

其他实施例包括用于执行存储在机器可读载体上的本文所述方法之一的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，当该计算机程序在计算器上运行时，该程序代码用于执行本文所述的方法之一。

因此，本发明方法的另一实施例是数据载体(或数字存储介质、或计算机可读介质)，数据载体包括记录在其上的用于执行本文所述方法之一的计算机程序。

因此，本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据串流或信号序列。数据串流或信号序列可以例如被配置为经由数据通信连接传输，例如经由因特网传输。

另一实施例包括处理装置，例如计算机或可编程逻辑设备，其被配置为或适于执行本文所述的方法之一。

另一实施例包括计算机，其上安装有用于执行本文所述方法之一的计算机程序。

在一些实施例中，可编辑逻辑设备(例如现场可编辑门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中，现场可编辑门阵列可以与微处理器协作，以便执行本文描述的方法之一。通常，方法较佳地由任何硬件装置执行。

上述实施例仅代表本发明的原理的说明。应理解，本文所述的布置和细节的任何修改和变化对于本领域其他技术人员是明显的。因此，意欲仅由随附专利权利要求的范围而非由通过示例和本文的实施例的解释所表示地详细细节限制。

参考文献

[1]Liitola,T.,Head phone sound externalization,Ph.D.thesis,HelsinkiUniversity of Technology.Department of Electrical and CommunicationsEngineering Laboratory of Acoustics and Audio Signal Processing.,2006年.

[2]Blauert,J.,Spatial Hearing-Revised Edition:The Psychophysics ofHuman Sound Localization,The MIT Press,1996年,ISBN0262024136.

[3]Zhang,W.,Samarasinghe,P.N.,Chen,H.,and Abhayapala,T.D.,“Surroundby Sound:A Review of Spatial Audio Recording and Reproduction,”AppliedSciences,7(5),页532,2017年.

[4]Bates,E.and Boland,F.,“Spatial Music,Virtual Reality,and360Media,”in Audio Eng.Soc.Int.Conf.on Audio for Virtual and AugmentedReality,Los Angeles,CA,U.S.A.,2016年.

[5]Anderson,R.,Gallup,D.,Barron,J.T.,Kontkanen,J.,Snavely,N.,Esteban,C.H.,Agarwal,S.,and Seitz,S.M.,“Jump:Virtual Reality Video,”ACM Transactionson Graphics,35(6),页198,2016年.

[6]Merimaa,J.,Analysis,Synthesis,and Perception of Spatial Sound:Binaural Localization Modeling and Multichannel Loudspeaker Reproduction,Ph.D.thesis,Helsinki University of Technology,2006年.

[7]Kronlachner,M.and Zotter,F.,“Spatial Transformations for theEnhancement of Ambisonics Recordings,”in 2^nd International Conference onSpatial Audio,埃朗根,德国,2014年.

[8]Tsingos,N.,Gallo,E.,and Drettakis,G.,“Perceptual Audio Renderingof Complex Virtual Environments,”ACM Transactions on Graphics,23(3),页249-258,2004年.

[9]Taylor,M.,Chandak,A.,Mo,Q.,Lauterbach,C.,Schissler,C.,and Manocha,D.,“Guided multi-view ray tracing for fast auralization,”IEEETrans.Visualization&Comp.Graphics,18,页1797-1810,2012年.

[10]Rungta,A.,Schissler,C.,Rewkowski,N.,Mehra,R.,and Manocha,D.,“Diffraction Kernels for Interactive Sound Propagationin DynamicEnvironments,”IEEE Trans.Visualization&Comp.Graphics,24(4),页1613-1622,2018年.

[11]Thiergart,O.,Kowalczyk,K.,and Habets,E.A.P.,“An Acoustical Zoombased on Informed Spatial Filtering,”in Int.Workshop on Acoustic SignalEnhancement,页109-113,2014年.

[12]Khaddour,H.,Schimmel,J.,and Rund,F.,“A Novel Combined System ofDirection Estimation and Sound Zooming of Multiple Speakers,”Radioengineering,24(2),2015年.

[13]Ziegler,M.,Keinert,J.,Holzer,N.,Wolf,T.,Jaschke,T.,op het Veld,R.,Zakeri,F.S.,and Foessel,S.,“Immersive Virtual Reality for Live-ActionVideo using Camera Arrays,”in IBC,阿姆斯特丹,荷兰,2017年.

[14]Thiergart,O.,Galdo,G.D.,Taseska,M.,and Habets,E.A.P.,“Geometry-Based Spatial Sound Acquisition using Distributed Microphone Arrays,”IEEETrans.Audio,Speech,Language Process.,21(12),页2583-2594,2013年.

[15]Kowalczyk,K.,Thiergart,O.,Taseska,M.,Del Galdo,G.,Pulkki,V.,andHabets,E.A.P.,“Parametric Spatial Sound Processing:A Flexible and EfficientSolution to Sound Scene Acquisition,Modification,and Reproduction,”IEEESignal Process.Mag.,32(2),页31-42,2015年.

[16]Pulkki,V.,“Spatial Sound Reproduction with Directional AudioCoding,”J.Audio Eng.Soc.,55(6),页503-516,2007年.

[17]International Telecommunication Union,“ITU-RBS.1534-3,Method forthe subjective assessment of intermediate quality level of audio systems,”2015年.

[18]Thiergart,O.,Del Galdo,G.,Kuech,F.,and Prus,M.,“Three-DimensionalSound Field Analysis with Directional Audio Coding Based on Signal AdaptiveParameter Estimators,”in Audio Eng.Soc.Conv.Spatial Audio:Sense the Sound ofSpace,2010年.

[19]Kuttruff,H.,Room Acoustics,Taylor&Francis,第4版,2000年.

[20]Borβ,C.,“A polygon-based panning method for 3D loudspeakersetups,”in Audio Eng.Soc.Conv.,页343-352,洛杉矶,加州,美国,2014年.

[21]Rummukainen,O.,Schlecht,S.,Plinge,A.,and Habets,E.A.P.,“Evaluating Binaural Reproduction Systems from Behavioral Patterns in aVirtual Reality-A Case Study with Impaired Binaural Cues and TrackingLatency,”in Audio Eng.Soc.Conv.143,纽约,纽约州,美国,2017年.

[22]Engelke,U.,Darcy,D.P.,Mulliken,G.H.,Bosse,S.,Martini,M.G.,Arndt,S.,Antons,J.-N.,Chan,K.Y.,Ramzan,N.,andK.,“Psychophysiology-BasedQoE Assessment:A Survey,”IEEE Selected Topics in Signal Processing,11(1),页6-21,2017年.[23]Schlecht,S.J.and Habets,E.A.P.,“Sign-Agnostic Matrix Design forSpatial Artificial Reverberation with Feedback Delay Networks,”in Proc.AudioEng.Soc.Conf.,页1-10-accepted,东京,日本,2018年.

[31]M.A.Gerzon,"Periphony:With-height sound reproduction,”J.Acoust.Soc.Am.,卷21,110.1,页2-10,1973年.

[32]V.Pulkki,"Directional audio coding in spatial sound reproductionand stereo upmixing,"in Proc.of the 28th AES International Conference,2006年.

[33]--,"Spatial sound reproduction with directional audio coding,"Journal Audio Eng.Soc，，卷55,no.6,页503-516,2007年6月.

[34]C.G.and G.M.,"Coincident microphone simulation covering threedimensional space and yielding various directional outputs,"美国专利4 042779,1977年.

[35]C.Faller and F.Baumgarte,"Binaural cue coding-part ii:Schemes andapplications,"IEEE Trans.Speech Audio Process”卷11,编号6,2003年11月.

[36]C.Faller,"Parametric multichannel audio coding:Synthesis ofcoherence cues,"IEEE Trans.Speech Audio Process.,卷14,编号1,2006年1月.

[37]H.P.J.E.E.Schuijers,J.Breebaart,"Low complexity parametric stereocoding,"in Proc.of the 116th A ES Convention,柏林,德国,2004年.

[38]V.Pulkki,"Virtual sound source positioning using vector baseamplitude panning,"J.Acoust.Soc.A m”卷45,编号6,页456-466,1997年6月.

[39]J.G.Tylka and E.Y.Choueiri,"Comparison of techniques for binauralnavigation of higher-order ambisonics sound fields,"in Proc.of the AESInternational Conference on Audio for Virtual and Augmented Reality,纽约,2016年9月.

Claims

1.一种用于生成经增强的声场描述的装置，包括：

声场生成器(100)，用于生成至少一个声场描述，所述至少一个声场描述指示关于至少一个参考位置的声场；以及

元数据生成器(110)，用于生成与所述声场的空间信息相关的元数据；

其中，所述至少一个声场描述和所述元数据构成所述经增强的声场描述，

其中所述声场生成器(100)被配置为生成具有不同时间-频率区间的一个或多个降混信号和各自方向数据以及可选的扩散数据的声场的DirAC描述，作为所述至少一个声场描述，以及其中所述元数据生成器(110)被配置为生成不同时间-频率区间的附加的各自深度信息作为与所述空间信息相关的所述元数据，以及

其中所述元数据生成器(110)被配置为从所述声场生成器(100)所使用的音频信号或从与所述音频信号相关联的视频信号或从立体或三维成像/视频或光场技术中所使用的深度图或从计算机图形场景的几何信息估计所述附加的各自深度信息，或者

其中所述元数据生成器(110)被配置为生成包括对于不同方向数据(322)的对应距离信息(324)的深度图(320)作为所述附加的各自深度信息，所述不同方向数据(322)指示不同方向。

2.如权利要求1所述的装置，还包括：

输出界面(120)，用于生成输出信号用于传输或存储，所述输出信号包括对于时间帧(302,304,306)的从所述声场以及时间帧(302,304,306)的不同时间-频率区间的附加的各自深度信息得出的一个或多个音频信号。

3.如权利要求1所述的装置，

其中所述不同时间-频率区间的附加的各自深度信息为包括多个到达方向数据项(322)作为所述不同方向数据和多个关联距离(324)的深度图(320)，使得所述多个到达方向数据项中的每个到达方向数据项具有关联距离(324)。

4.如权利要求1所述的装置，

其中所述声场生成器(100)被配置为针对所述声场的时间帧的不同时间-频率区间生成扩散值(316)，以及

其中所述元数据生成器(110)被配置为仅当时间-频率区间的扩散值(316)低于扩散阈值时针对所述不同时间-频率区间中的时间-频率区间生成所述附加的各自深度信息，或其中所述元数据生成器(110)被配置为仅当所述不同时间-频率区间中的时间-频率区间的扩散值(316)低于阈值扩散值时生成与预定值不同的所述附加的各自深度信息。

5.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置，包括：

声场计算器(420)，用于使用所述空间信息、所述声场描述以及指示从参考位置(520)到不同参考位置(500)的平移的平移信息，计算所述经修改的声场描述，

其中所述空间信息包括深度信息，以及其中所述声场描述包括具有不同时间-频率区间的方向数据和可选的扩散数据的DirAC描述，

其中所述声场计算器(420)被配置为，

使用方向数据、深度信息以及所述平移信息，计算不同时间-频率区间的经修改的方向数据，以及

使用所述经修改的方向数据，将所述DirAC描述渲染至包括多个音频声道的声音描述；或者使用不同时间-频率区间的所述经修改的方向数据而不是不同时间-频率区间的所述方向数据、以及可选的与所述DirAC描述中所包括的相同的扩散数据，传输或存储所述DirAC描述。

6.如权利要求5所述的装置，其中所述声场计算器(420)被配置为，针对不同时间-频率区间中的时间-频率区间，确定维持所述方向数据，或基于时间频率区间的扩散数据计算经修改的方向数据，其中仅针对指示低于预定义或自适应扩散等级的扩散性的扩散数据计算经修改的方向数据。

7.如权利要求5所述的装置，还包括：

平移界面(410)，用于提供所述平移信息或旋转信息，所述旋转信息指示针对所述经修改的声场描述的预期聆听者的旋转；

元数据提供器(402,400)，用于将所述元数据提供给所述声场计算器(420)；

声场提供器(404,400)，用于将所述声场描述提供给所述声场计算器(420)；以及

输出界面(428)，用于输出所述经修改的声场描述和经修改的元数据，所述经修改的元数据是使用所述平移信息从所述元数据得出的；或者用于输出多个扬声器声道，每个扬声器声道与预定义扬声器位置相关；或者用于输出所述经修改的声场描述的双耳表示。

8.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置，包括：

其中所述声场描述包括多个声场分量，所述多个声场分量包括全向分量和至少一个定向分量；

其中所述声场计算器(420)包括：

声场分析器(422)，用于分析所述声场分量，以针对不同频率区间得出到达方向信息；

平移变换器(423)，用于使用到达方向信息和元数据，计算每个频率区间的经修改的到达方向信息，所述元数据包括针对频率区间将距离信息(324)与到达方向信息(322)相关联的深度图(320)；以及

距离补偿器，用于使用距离补偿信息计算所述经修改的声场描述，所述距离补偿信息取决于所述频率区间的所述深度图(320)提供的距离以及取决于与频率区间相关联的新距离，所述新距离与所述经修改的到达方向信息相关。

9.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置，包括：

其中所述声场计算器(420)被配置为，

计算(1104)从所述参考位置(520)指向通过所述声场描述的分析(1102)所获得的声源(510)的位置的第一向量；

使用所述第一向量和所述平移信息计算(1106)从所述不同参考位置(500)指向所述声源(510)的位置的第二向量，所述平移信息限定从所述参考位置(520)到所述不同参考位置(500)的平移向量；以及

使用所述不同参考位置(500)、所述声源(510)的位置以及所述第二向量，或者使用从所述不同参考位置(500)到所述声源(510)的位置的距离以及所述第二向量，计算(1106)距离修改值。

10.如权利要求9所述的装置，

其中通过将到达方向单位向量乘以所述元数据中包括的距离而计算所述第一向量；或者

其中通过从所述第一向量中减去所述平移向量而计算所述第二向量；或者

其中通过将所述第二向量除以所述第一向量的范数而计算所述距离修改值。

11.如权利要求9所述的装置，

其中所述声场计算器(420)被配置为除了所述平移信息之外还接收旋转信息；以及

其中所述声场计算器(420)被配置为使用所述旋转信息执行旋转变换(424)以旋转所述声场描述的到达方向数据，其中所述到达方向数据是从通过所述声场描述的声场分析所获得的到达方向数据并使用所述平移信息得出的。

12.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置，包括：

其中所述声场计算器(420)被配置为：

通过声场分析，从所述声场描述和源的方向确定(1200,1240)源；

针对每个源，使用所述元数据确定(1220)所述源距所述参考位置(520)的距离；

使用所述源的方向和所述平移信息确定(1250)与所述不同参考位置(500)相关的所述源的新方向；

确定(1230)与所述不同参考位置(500)相关的所述源的新距离信息；以及

使用所述源的新方向、所述新距离信息、以及所述声场描述或与从所述声场描述所得出的所述源对应的源信号，生成(1260)所述经修改的声场描述。

13.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置，包括：

声场计算器(420)，用于使用所述空间信息、所述声场描述以及指示从参考位置(520)到不同参考位置(500)的平移的平移信息，计算所述经修改的声场描述，其中所述空间信息包括不同时间-频率区间的深度信息，所述不同时间-频率区间包括时间帧的不同频率区间，

其中所述声场计算器(420)被配置为：

通过声音分析，从所述声场描述和与所述参考位置(520)相关的源信号的方向确定(1200)源信号，其中所述声音分析包括对所述声场描述的时间-频率转换(421)以获得所述时间帧的不同频率区间的源信号，以及计算(422)所述时间帧的不同频率区间的到达方向数据项作为所述源信号的方向；

使用相应频率区间的深度信息，计算(1230，423，424)与所述不同参考位置(500)相关的所述时间帧的不同频率区间中的每个频率区间的新方向；

计算(1230)与所述不同参考位置(500)相关的所述时间帧的不同频率区间中的每个频率区间的距离信息；以及

使用所述时间帧的不同频率区间中的每个频率区间的距离信息、所述时间帧的不同频率区间中的每个频率区间的源信号和所述时间帧的不同频率区间中的每个频率区间的新方向，获得(1260)所述时间帧的合成的经修改的声场描述。

14.如权利要求13所述的装置，其中所述声场计算器(420)被配置为：

通过朝由与重放设置相关的所述新方向所给出的方向移动所述源信号中的源信号，获得所述合成的经修改的声场描述，以及

在执行移动之前或者在执行移动之后使用所述距离信息按比例缩放所述源信号中的源信号。

15.如权利要求13所述的装置，

其中所述声场计算器(420)被配置为将扩散信号添加到所述源信号中的源信号的直达部分，所述源信号的直达部分在被添加到所述扩散信号之前通过所述距离信息而被修改。

16.如权利要求13所述的装置，其中所述声场计算器(420)被配置为：

在获得(1260)所述帧的对应频率区间的合成的经修改的声场描述中，使用所述对应频率区间的声源信号、从所述对应频率区间的所述新方向所得出的所述对应频率区间的移动增益、以及从所述对应频率区间的距离信息所得出的所述对应频率区间的缩放向量，执行所述时间帧的不同频率区间中的每个频率区间的直达合成。

17.如权利要求16所述的装置，其中所述声场计算器(420)被配置为：

使用从所述对应频率区间的音频信号所得出的扩散音频信号以及使用通过所述对应频率区间的声音分析所得出的扩散参数，执行扩散合成，并且组合直达音频信号和所述扩散音频信号以获得所述对应频率区间的合成音频信号；以及

使用时间帧的所述不同频率区间的合成音频信号，执行频率-时间转换(426)，以获得时域合成音频信号作为所述经修改的声场描述。

18.如权利要求13所述的装置，其中所述声场计算器(420)被配置为针对每个声源合成与所述不同参考位置(500)相关的声场，所述合成包括：

针对每个声源，使用源信号的新方向处理(430)所述源信号，以获得与所述不同参考位置(500)相关的所述源信号的声场描述；

使用所述距离信息，在处理所述源信号之前修改所述源信号或修改所述源信号的声场描述；以及

添加所述源的所述声场描述或经修改的声场描述，以获得与所述不同参考位置(500)相关的经修改的声场描述。

19.如权利要求13所述的装置，

其中所述声音分析被配置为除了源信号之外还获得扩散信号，以及

其中所述声场计算器(420)被配置为将所述扩散信号添加至使用所述新方向和所述距离信息计算的直达部分。

20.如权利要求19所述的装置，

其中所述声音分析被配置为通过源分离算法确定所述源信号，并从所述声场描述中减去所述源信号的至少一些以获得所述扩散信号。

21.一种生成经增强的声场描述的方法，包括：

生成至少一个声场描述，所述至少一个声场描述指示关于至少一个参考位置的声场；以及

生成与所述声场的空间信息相关的元数据；

其中，生成至少一个声场描述包括生成具有不同时间-频率区间的一个或多个降混信号和各自方向数据以及可选的扩散数据的声场的DirAC描述，作为所述至少一个声场描述，以及

其中生成元数据包括生成不同时间-频率区间的附加的各自深度信息作为与所述空间信息相关的所述元数据，

其中生成元数据包括从生成声场的步骤所使用的音频信号或从与所述音频信号相关联的视频信号或从立体或三维成像/视频或光场技术中所使用的深度图或从计算机图形场景的几何信息估计所述附加的各自深度信息，或者

其中生成元数据包括生成包括对于不同方向数据(322)的对应距离信息(324)的深度图(320)作为所述附加的各自深度信息，所述不同方向数据(322)指示不同方向。

22.一种从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的方法，所述方法包括：

使用所述空间信息、所述声场描述和指示从参考位置(520)到不同参考位置(500)的平移的平移信息，计算经修改的声场描述，

其中所述空间信息包括深度信息，以及其中所述声场描述包括具有不同时间-频率区间的方向数据和可选的扩散数据的DirAC描述，其中计算所述经修改的声场描述包括使用方向数据、深度信息以及所述平移信息，计算不同时间-频率区间的经修改的方向数据，以及使用所述经修改的方向数据，将所述DirAC描述渲染至包括多个音频声道的声音描述；或者使用不同时间-频率区间的所述经修改的方向数据而不是不同时间-频率区间的所述方向数据、以及可选的与所述DirAC描述中所包括的相同的扩散数据，传输或存储所述DirAC描述，或者

其中所述声场描述包括多个声场分量，所述多个声场分量包括全向分量和至少一个定向分量；其中计算所述经修改的声场描述包括：分析所述声场分量，以针对不同频率区间得出到达方向信息；使用到达方向信息和元数据，计算每个频率区间的经修改的到达方向信息，所述元数据包括针对频率区间将距离信息(324)与到达方向信息(322)相关联的深度图(320)；以及使用距离补偿信息计算所述经修改的声场描述，所述距离补偿信息取决于所述频率区间的所述深度图(320)提供的距离以及取决于与频率区间相关联的新距离，所述新距离与所述经修改的到达方向信息相关，

或者

其中计算所述经修改的声场描述包括：计算(1104)从所述参考位置(520)指向通过所述声场描述的分析(1102)所获得的声源(510)的位置的第一向量；使用所述第一向量和所述平移信息计算(1106)从所述不同参考位置(500)指向所述声源(510)的位置的第二向量，所述平移信息限定从所述参考位置(520)到所述不同参考位置(500)的平移向量；以及使用所述不同参考位置(500)、所述声源(510)的位置以及所述第二向量，或者使用从所述不同参考位置(500)到所述声源(510)的位置的距离以及所述第二向量，计算(1106)距离修改值，

或者

其中所述空间信息包括不同时间-频率区间的深度信息，所述不同时间-频率区间包括时间帧的不同频率区间，其中计算所述经修改的声场描述包括：通过声场分析，从所述声场描述和源的方向确定(1200,1240)源，其中所述声场分析包括对所述声场描述的时间-频率转换(421)以获得所述时间帧的不同频率区间的源信号，以及计算(422)所述时间帧的不同频率区间的到达方向数据项作为所述源信号的方向；使用相应频率区间的深度信息，计算(1230，423，424)与所述不同参考位置(500)相关的所述时间帧的不同频率区间中的每个频率区间的新方向；计算(1230)与所述不同参考位置(500)相关的所述时间帧的不同频率区间中的每个频率区间的距离信息；以及使用所述时间帧的不同频率区间中的每个频率区间的距离信息、所述时间帧的不同频率区间中的每个频率区间的源信号和所述时间帧的不同频率区间中的每个频率区间的新方向，获得(1260)所述时间帧的合成的经修改的声场描述，

或者，

其中计算所述经修改的声场描述包括：通过声场分析，从所述声场描述和与所述参考位置(520)有关的源信号的方向确定(1200)源信号；使用所述平移信息计算(1230)与所述不同参考位置(500)有关的源信号的新方向；计算(1230)与与所述不同参考位置(500)相关的源信号相关联的声源的距离信息；以及使用所述距离信息、所述源信号和所述新方向合成(1260)所述经修改的声场描述。

23.一种存储介质，具有存储其上的计算机程序，用于当在计算机或处理器上运行时，执行如权利要求21或22所述的方法。