CN111183479A

CN111183479A - 使用多层描述生成经增强的声场描述或经修改的声场描述的概念

Info

Publication number: CN111183479A
Application number: CN201880060027.6A
Authority: CN
Inventors: 于尔根·赫勒; 伊曼纽尔·哈毕兹
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-07-14
Filing date: 2018-07-13
Publication date: 2020-05-19
Anticipated expiration: 2038-07-13
Also published as: AU2018298876A1; TW201909170A; AR112504A1; BR112020000759A2; JP6983484B2; RU2740703C1; KR102652670B1; SG11202000285QA; EP3652736A1; CA3069403C; KR102540642B1; JP2020527745A; US20210289310A1; ZA202000023B; TWI692753B; KR20220044973A; WO2019012133A1; KR20200041860A; CA3069403A1; US11153704B2

Abstract

一种用于生成经增强的声场描述的装置，包括：声场生成器(100)，用于生成至少两个声场层描述，声场层描述指示关于至少一个参考位置的声场；以及元数据生成器(110)，用于生成与声场的空间信息相关的元数据，其中声场描述和元数据构成经增强的声场描述。元数据可以是每层的几何信息，诸如到参考位置的代表距离。

Description

使用多层描述生成经增强的声场描述或经修改的声场描述的概念

本发明涉及音频处理，并且特别是，涉及关于诸如麦克风或虚拟麦克风位置的参考位置限定的声场的音频处理。

高保真度立体声响复制(Ambisonics)信号包括声场的截断球谐波分解。高保真度立体声响复制有不同的风格。存在“传统的”高保真度立体声响复制[31]，其现在被称为“一阶高保真度立体声响复制(FOA、First-Order Ambisonics)”并且包括四个信号(即，一个全向信号和多达三个8字形定向信号)。最近的高保真度立体声响复制变体被称为“更高阶的高保真度立体声响复制(HOA、Higher-Order Ambisonics)”，并且以携带更多信号为代价而提供经增强的空间分辨率和更大的聆听者最佳位置区域。通常，完全定义的N阶HOA表示由(N+1)²个信号组成。

与高保真度立体声响复制理念相关，已经设想到定向音频编码(DirAC、Directional Audio Coding)表示，以以更紧凑的参数样式表示FOA或HOA声音场景。更具体地，空间声音场景由一个(或多个)发送的音频声道表示，其表示声学场景的降混以及在每个时间-频率(TF) 区间中的方向和扩散性的相关联辅助信息。关于DirAC的更多信息可以在[32,33]中找到。

DirAC[32]可以和不同麦克风系统及任意扬声器设置一起被使用。DirAC系统的目的是使用多声道/3D扬声器系统尽可能精确地再现现有声学环境的空间印象。在所选择的环境中，响应(连续声音或脉冲响应)由全向麦克风(W)和能够测量声音的到达方向和声音的扩散性的一组麦克风测量。一种常见的方法是应用与对应笛卡尔坐标轴对齐的三个8字形麦克风 (X，Y，Z)[34]。一种实现此的方式是使用直接产生所有期望响应的声场麦克风。W、X、 Y和Z信号也可以从一组离散的全向麦克风计算出来。

在DirAC中，声音信号首先将被划分到频率信道。依据每个频率信道处的时间测量声音方向和扩散性。在传输时，一个或多个音频声道以及分析的方向和扩散数据一起被发送。在合成时，施加到扬声器的音频可以是例如全向声道W，或者针对每个扬声器的声音可以被计算为W、X、Y和Z的加权和，其形成具有针对每个扬声器的特定定向特性的信号。每个音频声道被划分成频率信道，然后依据分析的扩散性被可选择地划分为扩散串流和非扩散串流。利用一种技术，扩散串流被再现，该技术产生声音场景的扩散感知，例如，在双耳线索编码(Binaural Cue Coding)中使用的去相关(decorrelation)技术[35-37]。利用一种技术(例如，VBAP[38])，非扩散声音被再现，该技术目的是根据方向数据产生类似点的虚拟源。

在具有有限自由度的六个自由度(6DoF)中，三种导航技术在[39]中被提出。给定单个高保真度立体声响复制信号，单个高保真度立体声响复制信号使用以下方法计算：1)在虚拟扬声器数组内仿真HOA回放和聆听者移动，2)沿着平面波计算和平移，以及3)重新扩展关于聆听者的声场。

此外，参考(例如)于2009年11月11-13日在日本宫城县Zao举行的InternationalWorkshop on the Principles and Applications of Spatial Hearing中由V.Pulkki等人著作的出版物“Directional Audio Coding-Perception-Based Reproduction ofSpatial Sound”中描述的DirAC技术。该参考文献描述了定向音频编码作为参考位置相关的声场处理的示例，特别是作为用于空间音频处理的感知激励技术。在电话会议、定向滤波、和虚拟听觉环境中，它具有在空间声音的捕获、编码和重新合成中的应用。

声音场景的再现通常聚焦在扬声器设置上，因为这是在私人场所(例如起居室和专业环境即电影院)的典型再现。此处，场景与再现几何的关系是静态的，因为它伴随着强迫聆听者在正面方向上观看的二维图像。随后，声音和视觉对象的空间关系被限定并固定在产生时间。

在虚拟现实(VR)中，通过允许用户在场景中自由移动而明确地实现沉浸。因此，有必要追踪用户的移动并将视觉和听觉再现调整到该用户的位置。通常，用户佩戴头戴式显示器 (HMD)和耳机。对于利用耳机的沉浸式体验，音频必须被双耳化。双耳化是对人类头部、耳朵和上部躯干如何依据源的方向和距离改变源的声音进行的模拟。这通过针对它们的相对方向的信号与头部相关转移函数(HRTF)的卷积来实现[1,2]。双耳化也使声音看起来是来自场景而不是来自头部内[3]。已经成功达到的常见情况是360°视频再现[4,5]。此处，用户戴着 HMD或是手持平板计算机或手机。通过移动她/他的头部或设备，用户可以在任何方向环顾四周。这是三个自由度(3DoF)场景，因为用户有三个移动度(俯仰、偏转、翻滚)。在视觉上，这通过将视频投影在用户周围的球体上来实现。音频通常用靠近视频相机的空间麦克风(例如，一阶高保真度立体声响复制(FOA))记录[6]。在高保真度立体声响复制领域，用户的头部旋转以直接的方式进行调整[7]。然后例如音频被渲染到放置在用户周围的虚拟扬声器。这些虚拟扬声器信号然后被双耳化。

现代VR应用允许六个自由度(6DoF)。除了头部旋转之外，用户可以四处移动，从而导致在三个空间维度上平移她/他的位置。6DoF再现受到步行区域的整体尺寸的限制。在许多情况下，该区域相当小，例如传统的起居室。6DoF在VR游戏中经常遇到。这里，整个场景是利用计算机生成的图像(CGI)合成的。音频通常使用基于对象的渲染而被生成，其中基于追踪数据利用距离相依增益和与用户的相对方向来渲染每个音频对象。可以通过人工混响(artificial reverberation)和衍射来增强真实性[8,9,10]。

关于所记录的内容，对于令人信服的视听6DoF再现，存在一些明显的挑战。在空间平移领域中空间声音操纵的早期示例是“声学变焦”技术[11,12]。此处，聆听者位置被虚拟地移动到所记录的视觉场景中，类似于放大图像。用户选择一个方向或图像部分，然后可以从平移点收听。这需要所有到达方向(DoA)相对于原始的非缩放再现而改变。

用于已经使用空间分布记录位置的所记录的内容的6DoF再现的方法已经被提出。对于视频，相机数组可以被采用以生成光场渲染(light-field rendering)[13]。对于音频，类似的设置采用分布式麦克风数组或高保真度立体声响复制麦克风。已经表明，从这种记录可以生成放置在任意位置处的“虚拟麦克风”的信号[14]。

为了以技术上方便的方式实现这种空间声音修改，可以采用参数声音处理或编码技术 (参见[15]的概述)。定向音频编码(DirAC)[16]是一种受欢迎的方法，用于将记录转换为表示，该表示由音频频谱和关于声音方向和扩散性的参数辅助信息组成。它用于声学变焦[11] 和虚拟麦克风[14]应用。

这里提出的方法能够从单个FOA麦克风的记录实现6DoF再现。来自单个空间位置的记录已被用于3DoF再现或声学变焦。但是，就发明人所知，到目前为止还没有提出用于从这种数据进行交互式、完全6DoF再现的方法。通过在记录中集成关于声源的距离的信息，可以实现6DoF再现。该距离信息被合并到DirAC的参数表示中，使得聆听者的所改变的角度被正确映射。

没有任何高保真度立体声响复制声场表示(无论是常规FOA或HOA高保真度立体声响复制还是DirAC风格的参数声场表示)提供足够的信息，以允许6DoF应用所需的聆听者位置的平移，因为在声音场景中的对象距离和绝对对象位置都不是以这些格式确定的。应该注意的是，聆听者位置的移位可以转化为声音场景在相反方向上的等效移位。

在6DoF中移动时的典型问题在图1b中示出。让我们假设使用高保真度立体声响复制在位置A处描述声音场景。在这种情况下，来自源A和源B的声音从相同方向到达，即它们具有相同的到达方向(DOA)。如果移动到位置B处，源A和源B的DOA是不同的。使用声场的标准高保真度立体声响复制描述，即没有附加信息，在给定在位置A处的高保真度立体声响复制信号时，不可能计算在位置B处的高保真度立体声响复制信号。

本发明的目的是一方面提供经增强的声场描述或另一方面提供经修改的声场描述的生成，从而允许改进的、或灵活的、或有效的处理。

该目的通过权利要求1的用于生成经增强的声场描述的装置、权利要求10的用于生成经修改的声场描述的装置、权利要求27的生成经增强的声场描述的方法，权利要求28的生成经修改的声场描述的方法，权利要求29的计算机程序或权利要求30的经增强的声场描述来实现。

本发明基于以下发现：与参考位置相关的典型声场描述需要附加信息，以便这些声场描述可以被处理，使得可以计算与原始参考位置无关但是与另一参考位置相关的经修改的声场描述。至此，与该声场的空间信息相关的元数据(metadata)被生成，并且该元数据与该声场描述一起对应于经增强的声场描述，经增强的声场描述可以例如被发送或存储。为了从声场描述和元数据生成经修改的声场描述，具体地，元数据与声场描述的空间信息相关，使用该空间信息、声场描述以及指示从参考位置到不同参考位置的平移的平移信息，计算经修改的声场描述。因此，由声场描述和与声场描述下的该声场的空间信息相关的元数据所组成的经增强的声场描述被处理，以获得经修改的声场描述，该经修改的声场描述与由附加平移信息限定的不同参考位置相关，附加平移信息例如可以在解码器侧被提供或使用。

然而，本发明不仅涉及编码器/解码器场景，也可以被应用于应用中，其中基本上在一个且同一个位置发生经增强的声场描述的生成和经修改的声场描述的生成。例如，经修改的声场描述可以是经修改的声场本身的描述，或者实际上是声道信号、双耳信号中的经修改的声场的描述，或者再次是参考位置相关的声场的描述，然而该参考位置相关的声场现在与新或不同参考位置而不是原始参考位置相关。例如，这样的应用将处于虚拟现实场景中，其中存在声场描述以及元数据以及其中聆听者从给定声场的参考位置移出并移动到不同参考位置，并且其中，然后，在虚拟区域中四处移动的聆听者的声场被计算以对应于然而现在在用户移动到的不同参考位置处的声场。

在实施例中，声场描述生成器可以针对多个至少两层中的每层生成声场的DirAC描述，具有针对不同时间-频率区间的一个或多个降混信号和各个方向数据以及可选的扩散数据。在此上下文中，元数据生成器被配置为针对每层生成附加的距离或深度信息作为元数据，该元数据对于该层中包括的所有源以及对于与该层相关的所有频率区间是相同的。较佳实施例将具有与层相关的距离或距离范围。可选地，可为每层提供深度图。特别地，以及在另一实施例中，与空间信息相关的元数据将是将某个距离与某个位置信息(如到达方向信息)相关联的深度图。

在实施例中，到达方向由仅仰角或仅方位角或两个角度给定，以及深度图然后将相同距离信息(如大约以米为单位的距离或相对距离或量化的绝对或相对距离或任何其他距离信息，从任何其他距离信息，最终可得出关于与声场相关的不同或新参考位置的距离)与层中的每个源相关联。

随后，概述其他较佳实施方式。

高保真度立体声响复制已成为虚拟、增强和混合现实应用环境中用于3D音频的最常用的格式之一。已经开发各种各样的音频获取和产生工具，它们以高保真度立体声响复制格式生成输出信号。为了在交互式虚拟现实(VR)应用中呈现高保真度立体声响复制编码内容，高保真度立体声响复制格式被转换为双耳信号或声道用于再现。在上述应用中，聆听者通常能够以交互方式改变在所呈现场景中的他/她的朝向至如此程度以使得他/她能够在实现三个自由度(3DoF，即，俯仰、偏转角及翻滚)的声音场景中旋转他/她的头部并且仍然可以体验到合适的音质。这通过根据头部朝向在渲染之前旋转声音场景来实现，这可以以低计算复杂度实现并且是高保真度立体声响复制表示的优点。然而，在诸如VR的新兴应用中，期望允许用户在声音场景中自由移动而不仅仅是朝向的改变(所谓的“六个自由度”或6DoF)。结果，需要信号处理以改变声音场景的角度(即，以沿着x轴、y轴或z轴在声音场景内虚拟地移动)。然而，高保真度立体声响复制的一个主要缺点是格式从声音场景中的单个角度描述了声场。具体来说，它不包含关于声音场景中的声源的实际位置的信息，其将允许移位声音场景(“平移”)，正如它是6DoF所需的。本发明的描述提供了高保真度立体声响复制的几个扩展，以克服该问题并且还促进平移，并因此实现真正的6DoF。

一阶高保真度立体声响复制(FOA)记录可以通过耳机处理和再现。它们可以被旋转以考虑聆听者头部朝向。然而，虚拟现实(VR)系统允许聆听者以六个自由度(6DoF)移动，即三个旋转自由度加三个过渡自由度。此处，声源的视倾角(apparent angle)和距离取决于聆听者位置。一种促进6DoF的技术被描述。特别地，FOA记录使用参数模型来描述，该参数模型基于聆听者位置和关于到源的距离的信息而被修改。该方法通过听力测试、比较其中聆听者可以自由移动的合成声音场景的不同双耳渲染来进行评估。

在进一步较佳的实施例中，经增强的声场描述通过输出界面输出，输出界面用于生成用于传输或存储的输出信号，其中，对于时间帧，输出信号包括在从声场和该时间帧的空间信息所得出的一个或多个音频信号。特别地，声场生成器在进一步的实施例中适于从声场得出方向数据，该方向数据指的是针对时间段或频率区间的声音的到达方向，并且元数据生成器被配置为得出空间信息，作为将距离信息与方向数据相关联的数据项。

特别地，在这样的实施例中，输出界面被配置为生成输出信号，使得时间帧的数据项被链接到不同频率区间的方向数据。

在另一实施例中，声场生成器还被配置为针对声场的时间帧的多个频率区间生成扩散信息，其中，元数据生成器被配置为，当扩散值低于预定或自适应阈值时，仅针对频率区间生成与预定值不同的或者与无穷大不同的距离信息，或者不管怎样针对频率区间生成距离值。因此，对于具有高扩散性的时间/频率区间，根本不生成任何距离值，或者生成由解码器以某种方式解释的预定距离值。因此，确保对于具有高扩散性的时间/频率区间，任何距离相关的渲染不被执行，因为高扩散性指示对于这样的时间/频率区间，声音不是来自某个局部的源而来自任何方向，并且因此，无论是在原始参考位置还是在不同或新参考位置处感知声场，声音都是相同的。

关于声场计算器，较佳实施例包括：用于向经修改的声场提供平移信息或指示预期聆听者的旋转的旋转信息的平移界面，用于将元数据提供给声场计算器的元数据提供器和用于将声场描述提供给声场计算器的声场供应器，以及附加的用于输出包括经修改的声场描述和经修改的元数据的经修改的声场的输出界面，该经修改的元数据是使用平移信息从元数据得出的，或该输出界面输出多个扬声器声道，每个扬声器声道与预定义扬声器位置相关，或者该输出界面输出经修改的声场的双耳表示。

在实施例中，声场描述包括多个声场分量。多个声场分量包括全向分量和至少一个定向分量。这样的声场描述例如是具有全向分量和三个定向分量X、Y、Z的一阶高保真度立体声响复制声场描述，或者这样的声场是更高阶的高保真度立体声响复制描述，其包括全向分量、关于X、Y和Z方向的三个定向分量、以及另外的与X、Y、Z方向之外的其他方向相关的定向分量。

在实施例中，该装置包括分析器，用于分析声场分量，以针对不同的时间或频率区间得出到达方向信息。该装置还具有平移变换器，用于使用DoA信息和元数据为每个频率或时间区间计算经修改的DoA信息，其中元数据与针对时间帧的所有频率区间将距离和层描述 (即，层的所有源)相关联的深度图相关。因此，对于每层来说，非常简单的“深度图”就足够了。如图4c所示，层的深度图仅需要该层的至少距离或距离范围。

此外，声场计算器具有距离补偿器，用于使用距离补偿信息计算经修改的声场，该距离补偿信息取决于从元数据提供的距离并且取决于与时间或频率区间相关联的新距离，其中，元数据对于来自层的源的每个频率或时间区间是相同的，新距离与经修改的DoA信息相关。

在实施例中，声场计算器计算从参考位置指向通过声场的分析所获得的声源的第一向量。此外，声场计算器计算从不同参考位置指向声源的第二向量，并且此计算使用第一向量和平移信息来完成，其中平移信息限定从参考位置到不同参考位置的平移向量。并且然后，使用该第二向量计算从不同参考位置到声源的距离。

此外，声场计算器被配置为除了平移信息之外还接收旋转信息，该旋转信息指示聆听者头部在由俯仰、偏转和翻滚所给出的三个旋转方向中的一个上的旋转。声场计算器然后被配置为执行旋转变换，以使用旋转信息旋转声场的经修改的到达方向数据，其中，从通过声场描述的声音分析所获得的到达方向数据和平移信息，得出经修改的到达方向数据。

在实施例中，声场计算器被配置为通过声音分析从声场描述以及与参考位置相关的源信号的方向确定源信号。

然后，计算与不同参考位置相关的声源的新方向，并且此计算使用元数据来完成，并且然后计算与不同参考位置相关的声源的距离信息，以及然后，使用声源的距离信息和新方向来合成经修改的声场。

在实施例中，通过朝由关于再现设置的新方向信息所给出的方向移动声源信号来执行声场合成，并且在执行该移动操作之前或执行该移动操作之后，使用距离信息完成声源信号的按比例缩放。如果距离改变，源信号可能需要与新层相关联。然后，如果生成声场描述，使用不同于1的缩放因子。从转码器的意义来说，如果生成新的多层描述，则仅从一个层到另一个层的改变足够说明距离改变。“移动”可以如图4i中概述的那样被完成，用于以与特定位置相关的场的形式生成新声场描述。然而，为了生成扬声器信号，可以执行使用从新DoA 得出的移动增益的移动。

在另一实施例中，通过朝由新方向信息给出的方向旋转层中的FOA或HOA声源信号、声源信号的缩放、以及最终使用距离信息将声源信号与层相关联，执行声场合成，该新方向信息与再现设置相关。这可以取代所讨论的“移动”。

在另一实施例中，声源信号的扩散部分被添加到声源信号的直达部分，在被添加该扩散部分之前，通过距离信息来修改该直达部分。

在另一实施例中，声源信号的扩散部分被添加到专用层。基于与再现设置相关的新方向信息旋转与该专用层相关联的信号。

特别地，较佳地，以频谱表示执行声源合成，其中针对每个频率区间计算新方向信息，其中针对每个频率区间计算距离信息，并且其中使用针对频率区间的音频信号的对每个频率区间的直达合成是使用针对频率区间的音频信号来执行的，从新方向信息得出的针对频率区间的移动增益和从针对频率区间的距离信息所得出的针对频率区间的缩放因子被执行。

此外，使用从来自频率区间的音频信号所得出的扩散音频信号以及使用由针对频率区间的信号分析所得出的扩散参数来执行扩散合成，并且然后，直达信号和扩散信号被组合以获得针对时间或频率区间的合成音频信号，并且然后，使用针对其他时间/频率区间的音频信号，执行频率-时间转换，以获得时域合成音频信号作为经修改的声场。

因此，通常，声场计算器被配置为针对每个声源，合成与不同参考位置相关的声场，例如，通过针对每个源使用源信号的新方向来处理源信号，以获得与该不同/新参考位置相关的源信号的声场描述。此外，使用方向信息，在处理源信号之前或处理源信号之后，该源信号被修改。并且，最后，将针对源的声场描述相加在一起以获得与该不同参考位置相关的经修改的声场。

在另一实施例中，替代DirAC分析或任何其他声源分析，声场计算器执行源分离算法。源分离算法最终例如在时域或在频域中产生声源信号。然后，通过从原始声场中减去声源信号计算扩散信号，从而原始声场被分解成扩散信号和若干声源信号，其中每个声源信号具有与其相关联的某个方向。

根据较佳实施例，声场生成器生成关于参考位置的第一声场描述，其中，第一声场描述包括仅来自位于围绕参考位置的第一声场描述中的声源的声音数据，并且声场生成器另外生成关于参考位置的第二声场描述，其中，第二声场描述具有仅来自位于围绕参考位置的第二体积中的第二源的声音数据，第二体积不同于第一体积。每个体积包括一个且较佳地多于一个声源，但是元数据被配置为提供第一体积和/或第二体积的空间描述，其然后适用于体积内的所有声源。例如，当空间描述是某个层到参考位置的代表距离时，则该距离以相同的方式用于层内的所有源，以便与对应到达方向估计一起确定该层内的源的位置。然而，以径向方式，仅关于参考位置确定在层中的位置，而在相同层中的每个源的距离对应于空间描述，或者在特定实施例中，代表距离与该体积/层相关联。因此，可获得非常有效和紧凑的元数据表示，其通常包括用于层内的任意数量的源的单个值，并且此外，对于声音信号的所有子频带是相同的。例如，当层声场的声音分析被使用时，则距离信息对于每个子频带将是相同的。

应注意的是，每个体积由层表示，并且较佳地由分离的层表示，使得体积不重叠。

因此，本发明涉及多层声场描述，其一方面具有非常紧凑的辅助信息，但是关于单个声场描述具有更多的负荷，因为针对每层，提供了完整的声场描述。例如，当单个层由B格式信号表示时，则对于每个层，需要四个声音分量，即全向分量和三个定向分量。因此，当声场由三个层表示时，则总共有十二个声音分量，即当每层由一阶高保真度立体声响复制信号或B格式信号表示时，每层需要四个声音分量。自然地，不同声场描述可被用于不同层，诸如，与具有较少数量分量的声场描述用于具有较少数量的源的层相比较，较高阶声场描述用于具有较多数量的源的层。

然而，另一方面，仅需要单个几何信息作为每个声场层的元数据。

在较佳实施例中，体积是围绕参考位置的球体或球形壳体，通常，最低层是围绕参考位置的球体，而较高层是围绕由球体表示的第一层所延伸的球形壳体。

然而，由声场表示的体积不一定必须是球体。可选地，体积可以是立方体、平行六面体元件或任何其他的形式，通常是三维几何形式。然而，本发明也可以应用于二维情况，使得体积由面积表示并且通常在第三维度有极微小延伸。因此，术语“体积”不仅指一个真正的三维体积，而且还指二维情况，其中在二维情况下的体积是在第三方向上具有极微小延伸的平面。因此，二维情况下的“体积”将是针对第一层的围绕参考点的圆圈、和围绕第一“体积”的圆环，其具有比第一层的代表半径更大的代表半径。

此外，用于生成经增强的声场描述的装置不仅可以被配置为一种编码器，其从原始声场生成两个或更多个分层声场描述并且将这些声场描述与第一体积和/或第二体积的空间描述相关联。在其他实施例中，用于生成经增强的声场描述的装置还可以被实现为转码器，其接收具有元数据的层描述并生成具有新元数据的新分层描述。例如，当每个层的元数据由到参考点的代表距离所表示时，且当转码后的经增强的声场描述有具有到不同(新)参考点的相同代表距离的层时，则由转码器生成的经增强的声场的元数据将与原始元数据相同，但是转码器将为每个层生成经修改的声场描述，其中通过将声源从一个层移动到另一层，当然，通过衰减或放大声源的声源信号，考虑各个源的新方向，并且其中另外，考虑声源到参考位置的新距离。特别地，当声源从较低层移动到较高层时，衰减将被提供给声源信号，或者，可选地，当声源从较高层移动到较低层时，即更靠近新参考位置，放大将被提供给声源信号。

可以通过任何源分离技术分析每个层的每个声场描述，例如，任何源分离技术可以是任何全频带源分离技术，不仅从层描述生成源信号，而且还另外地确定该源的到达方向。可选地，也可以通过执行频率选择的源分离的DirAC分析器来分析其声场描述，使得对于每个时间/频率区间，源音频信号以及通常扩散值一起被计算。

然而，当涉及计算某个源到新参考位置的距离时，从每个层的元数据获得的距离信息对于从某个层描述所确定的每个源是相同的。因此，在宽带分析情况下，其中，例如，已经从层描述确定具有不同到达方向的两个或更多个源，对于每个源，距离信息是相同的。

可选地，当通过DirAC分析器分析层的声场描述时，则每个时间/频率区间的距离信息将再次相同，即，将等于对应层的参考距离。

在将本发明应用为解码器的情况下，即其中，当声场计算器计算例如全定向分量表示(例如，高保真度立体声响复制表示)的形式的经修改的声场时，仅需要元数据，以依据到参考位置的旧/新距离缩放对应声音信号。然后，可以为每个层的每个声源计算某个高保真度立体声响复制表示，并且使用从旧到达方向信息、和从旧参考位置到新参考位置的平移信息所确定的新到达方向，计算该高保真度立体声响复制表示，并且然后，每个源信号将被缩放，以便考虑从较早参考位置到新参考位置的源的距离，并且在对应缩放之后，源的各个高保真度立体声响复制表示可以互相迭加，以拥有声场的完整高保真度立体声响复制表示。因此，这样的“解码器”将被配置为将分层表示变换为关于新参考位置的单个声场描述，其然后可以被进一步处理，例如转换成扬声器信号等。

可选地，声场计算器可以被配置为，针对来自每个各个层的预期真实或虚拟扬声器设置，执行扬声器表示，例如，层的声场描述的DirAC合成，并且然后，来自不同层的各个扬声器信号可以被加在一起，以最终形成扬声器表示，然后可以通过预定扬声器设置来渲染该扬声器表示，或者甚至可以通过双耳渲染器将该扬声器表示转换成双耳表示。

因此，本发明可被用于生成关于某个参考位置的具有元数据的分层声场描述，或者用于再次使用分层表示而生成转码后的经增强的声场，但是现在具有与新参考位置相关的层，或者本发明可被应用于将分层表示加元数据解码成某个声场描述，其不具有与新参考位置相关的元数据。

本发明的较佳实施例随后参照附图描述，其中：

图1a是用于生成经增强的声场描述的装置的较佳实施例；

图1b是解释本发明下的示例性问题的图示说明；

图2是用于生成经增强的声场描述的装置的较佳实施方式；

图3a示出包括音频数据和音频数据的辅助信息的经增强的声场描述；

图3b示出经增强的声场的进一步图示说明，该经增强的声场包括音频数据和与每个层描述的空间信息(如几何信息)相关的元数据；

图4a示出用于生成经修改的声场描述的装置的实施方式；

图4b示出用于生成经修改的声场描述的装置的另一实施方式；

图4c示出多层场景；

图4d示出解码器或转码器选项1的实施例；

图4e示出单个对象的渲染器；

图4f示出解码器或转码器选项2的实施例；

图4g示出解码器/渲染器的部分；

图4h示出转码器的部分；

图4i示出用于从如单声道信号的音频信号和到达方向数据生成声场描述的示例性设备；

图5示出空间音频的六DoF再现；

图6示出六DoF再现的较佳实施例，包括用于生成经增强的声场描述的装置和用于为每层生成经修改的声场描述的装置；

图7示出用于计算关于新/不同参考位置的声源的新DoA和新距离的较佳实施方式；

图8示出缩放因子确定和应用的实施例；

图9示出六DoF再现的另一较佳实施例，包括用于生成经增强的声场描述的装置和用于在每层的DirAC情境下为每层生成经修改的声场描述的装置；

图10示出用于生成经修改的声场描述的装置的较佳实施方式；

图11示出用于生成经修改的声场描述的装置的另一较佳实施方式；

图12a示出现有技术的DirAC分析实施方式；以及

图12b示出现有技术的DirAC合成实施方式。

为了针对上述高保真度立体声响复制/DirAC表示实现6DoF应用，需要以提供用于平移处理的缺失信息的方式扩展这些表示。应注意的是，该扩展可以例如1)将对象的距离或位置添加到现有场景表示，和/或2)添加能促进分离各个对象的处理的信息。

此外，实施例的目的是保留/重新使用现有(非参数或参数)高保真度立体声响复制系统的结构，以在如下意义上提供与这些表示/系统的向后兼容性：

·扩展表示可被转换为现有的非扩展表示(例如，用于渲染)；以及

·在使用扩展表示工作时，允许重新使用现有的软件和硬件实施方式。

在下文中，将描述几种方法，即一种有限(但非常简单)的方法和三种不同的扩展高保真度立体声响复制格式，以实现6DoF。

代替常规的高保真度立体声响复制表示，多个高保真度立体声响复制信号(即，多个信号的集合)被定义。每个高保真度立体声响复制信号对应于声音场景的特定距离范围。距离范围可包括一致分区(例如，0-1米、1-2米、2-3米......)或非一致分区(例如，0-1米、1-3米、大于3米)。非重叠距离范围可以静态地被定义或动态响应于声音场景的实际属性而被定义，并且以多层高保真度立体声响复制格式来定义。可选地，重叠距离范围以及开窗函数可以被定义。可以针对扩散/环境声音单独地配置其中一个层，其不需要精确的距离描述，而是分布在整个声音场景中。

多层高保真度立体声响复制表示的概念适用于传统和参数(DirAC风格)的高保真度立体声响复制。图4c中示出具有三个层的示例。

下文描述如何使用所提出的多层高保真度立体声响复制以实现平移。

选项I(图4d)：通过应用源分离技术生成每个高保真度立体声响复制表示层中的对象。还可以生成环境/扩散/残余高保真度立体声响复制信号。使用一维/二维源局部化来获得 DOA，并且距离由层的元数据给出。注意的是，在许多情况下，DOA也可以从源分离滤波器中提取，并且存在用于执行联合源分离和DOA估计的方法。

如图4e所示，然后每个单声道对象被渲染到一个或多个层。首先，基于平移信息(例如，表示为向量)和层距离(例如，该层的平均或代表距离)，计算平移后的DOA和距离，分别表示为DOA’和Distance’。其次，基于DOA’为对象生成高保真度立体声响复制信号。第三，基于Distance’和从中提取对象的层距离，对象被渲染到适当层。在为所有对象生成修改的高保真度立体声响复制信号之后，通过将所有对象的层i的修改的高保真度立体声响复制输出加在一起，来计算第i个修改的高保真度立体声响复制层(i∈{1,…,L})。第i层的环境/扩散/残余高保真度立体声响复制信号被直接添加到第i个修改的高保真度立体声响复制输出。

另外，可以应用所谓的距离补偿滤波器来补偿距离的变化。基于Distance’和层距离，滤波器可被直接应用于对象。

选项II(图4f)：通过应用源分离技术，使用所有L层以生成对象。也可以生成单个环境/扩散/残余高保真度立体声响复制信号。

然后将每个单声道对象被渲染到一个或多个层，如图4e所示。首先，基于平移信息(例如，表示为向量)和层距离(例如，该层的平均或代表距离)，计算平移后的DOA和距离，分别表示为DOA’和Distance’。其次，基于DOA’为对象生成高保真度立体声响复制信号。第三，基于Distance’和从中提取对象的层距离，对象被渲染到适当层。另外，可以对每个对象应用所谓的距离补偿滤波器来补偿距离的变化。在为所有对象生成修改的高保真度立体声响复制信号之后，通过将所有对象的层i的修改的高保真度立体声响复制输出加在一起，来计算第i个修改的高保真度立体声响复制层(i∈{1,…,L})。第i层的环境/扩散/残余高保真度立体声响复制信号被直接添加到第i个修改的高保真度立体声响复制输出。

生成多层高保真度立体声响复制信号对于计算机生成和产生内容来说非常直接。经由麦克风数组或空间麦克风(例如，B格式麦克风)将自然记录转换为多层高保真度立体声响复制信号并不那么直接。

可以通过投影、求和或降混将层转换为传统的高保真度立体声响复制信号。图4g示出简单且计算高效的转换。

通过对多层高保真度立体声响复制信号中的每个应用层无关旋转、或者通过对传统的高保真度立体声响复制信号应用单个旋转，可以实现方向的变化。层无关旋转可以在平移之前或之后执行。

图1a示出用于生成经增强的声场描述的装置，该装置包括声场(描述)生成器100，用于生成至少一个声场描述，至少一个声场描述指示关于至少一个参考位置的声场。此外，该装置包括元数据生成器110，用于生成与声场的空间信息相关的元数据。该元数据接收声场，或者替代地或另外地，接收关于声源的分离信息，作为输入。

声场描述生成器100和元数据生成器110两者的输出构成经增强的声场描述。在一个实施例中，声场描述生成器100和元数据生成器110两者的输出可以在组合器120或输出界面 120内被组合，以获得经增强的声场描述，经增强的声场描述包括由元数据生成器110生成的声场的空间元数据或空间信息。

图1b示出本发明所解决的情况。例如，位置A是至少一个参考位置，并且声场由源A和源B生成，并且位于该位置A处的例如某个实际或虚拟麦克风检测来自源A和源B的声音。声音是来自发射声音源的声音的迭加。这表示由声场描述生成器所生成的声场描述。

另外，通过某种实施方式，元数据生成器将得出关于源A的空间信息和关于源B的另一空间信息，诸如这些源到参考位置(诸如位置A)的距离。

自然地，参考位置另外也可以是位置B。然后，实际或虚拟麦克风将被放置在位置B处，并且声场描述将是，例如，由一阶高保真度立体声响复制分量、或更高阶的高保真度立体声响复制分量、或任何其他声音分量所表示的声场，任何其他声音分量具有潜力以描述关于至少一个参考位置(即位置B)的声场。

然后，元数据生成器可以生成声源A到位置B的距离或者源B到位置B的距离作为关于声源的信息。当然，关于声源的替代信息可以是关于参考位置的绝对或相对位置。参考位置可以是一般坐标系统的原点，或者可以位于与一般坐标系统的原点有限定关系的位置处。

其他元数据可以是一个声源的绝对位置和关于第一声源的另一声源的相对位置等等。

图2示出用于生成经增强的声场描述的装置，其中声场生成器包括用于第一声场的声场生成器250、用于第二声场的声场生成器260、以及用于一个或多个声场的任意数量的声场生成器，该一个或多个声场例如是第三、第四等声场。另外，元数据被配置为计算并向组合器120转发关于第一声场和第二声场的信息。所有的该信息被组合器120使用，以便生成经增强的声场描述。因此，组合器120还被配置为输出界面，以生成经增强的声场描述。

图3a示出作为数据流的经增强的声场描述，其包括第一声场描述330、第二声场描述 340以及与其相关联的元数据350，该元数据350包括关于第一声场描述和第二声场描述的信息。例如，第一声场描述可以是B格式描述、或更高阶描述、或任何其他描述，该任何其他描述允许确定以全频带表示或频率选择表示的声源的定向分布。因此，例如第一声场描述 330和第二声场描述340也可以是针对各个层的参数声场描述，其具有例如针对不同时间/频率区间的降混信号和到达方向数据。

然而，该第一和第二声场描述的几何信息350分别对于包括在第一声场描述330中的所有源或者对于在第二声场描述340中的源是相同的。因此，当示例性地在第一声场描述330 中存在三个源和关于第一声场描述存在几何信息时，该几何信息对于第一声场描述中的三个源是相同的。类似地，例如当在第二声场描述中存在五个源时，则被包括在元数据350中的关于第二声场的几何信息对于第二声场描述中的所有源是相同的。

图3b示出图3a的元数据350的示例性构造。在一个实施例中，参考点351可以被包括在元数据中。然而，在参考点信息351也可以被省略的情况下，这不一定是必要的。

对于第一声场，给出第一几何信息，其可以例如是第一层的中间半径或代表半径，其可以例如是稍后将描述的图4c的示例性实施例的0.5米的值。

第二声场由第二几何信息353描述，第二几何信息例如对应于第二层的中间半径，诸如图4c实施例中的两米，因为第二层从一米延伸到三米。

第三声场将由第三几何信息354描述，并且代表距离例如是第三层的“中间半径”，诸如四米左右。自然地，每个声场描述较佳地包括不止一个源，但是情况也可以是某个层的声场描述仅包括单个源。

例如，当图4c被认为示出较佳的多层高保真度立体声响复制方法时，第一层从0或最小距离(例如，0.5m)延伸至1m。第二层从1m延伸到3m，并且第三层包括具有距第一参考点高于3m的距离的所有声源，第一参考点是图4c所示的三个圆的中心。

此外，图4c示出包括在层1中的两个声源1、2，包括在层2中的两个声源3、4，包括在层3中的声源5和6。

如概述的，图3a示出包括经增强的声场描述的比特流或通用数据流的示例。数据流可以包括时间帧i、i+1等、以及对应时间帧的相关辅助信息。

图4b示出另一实施方式，其中图2中的声场分析器210实际上不生成降混，而是针对某个时间段生成B格式、或A格式或任何其他诸如高阶表示的完整表示。

图4c还示出新聆听者位置。当在新聆听者位置周围绘制相同层时，变得清楚的是，由于平移到新聆听者位置，声源1从层1移到层3，以及因此需被(强烈地)衰减。

此外，声源2从层1移动到层2，以及因此也应被(弱)衰减。

此外，声源3从较早的层2移动到新层3，以及因此也需被(弱)衰减。

另外，声源4保留在第二层中，以及因此不需要任何衰减。此外，声源5也保留在相同层中，以及因此不需要缩放。最后，声源6从较早的第三层移动到新的第一层，以及因此需被(强烈地)放大。

因此，通常，当声源由于从参考点到不同(新)参考点的平移而移动时，则确定某个缩放因子。当声源的“移动”从较高层到较低层时，则缩放是衰减，以及当“移动”从较低层到较高层时，缩放是衰减。此外，当“移动”从一层到下一层时，则缩放因子将是弱缩放因子，例如弱衰减或弱放大，以及当移动不是从一层到下一层而是从一层到不是与该一层相邻的另一层时，即从第一层到第三层，或反之亦然，则缩放因子将使得更强的衰减或放大被执行。

例如，当源从第三层移动到第二层时，并且当考虑图3b的示例性值时，则缩放因子将是2.0的放大因子，即4m除以2m。然而，当声源从第二层移动到第三层时，则缩放因子将为0.5，即2m除以4m。

可选地，当声源从第一层移动到第三层时，并且假设图3b的示例性图，则缩放因子将是通过将0.5m除以5m而获得的0.1到5。

可选地，当声源从第三声场移动到第一声场时，诸如图4c实施例中的声源6，则缩放因子将是通过将4m除以0.5m而获得的8.0。

自然地，尽管已经关于图4c中示出的二维“体积”情况描述了这些示例，当图4c中的圆被考虑为表示层1的球体和层2或层3的球壳时，相同的考虑也适于真实的三维体积情况。

图4d一般地示出用于生成经修改的声场描述的装置的声场计算器的实施方式，或可选地，用于在转码器表示的情境下生成经增强的声场描述的装置的声场计算器的实施方式。第一层表示示例性地示出为高保真度立体声响复制层1、第二声场描述示出为高保真度立体声响复制层2、以及可选的附加声场描述示出在高保真度立体声响复制层L处，其被引入到不同的源分离和DoA估计块422、422a、422b中。此外，使用渲染器450，其被配置用于将通过块422、422a、422b中的过程找到的对象渲染到对应“新”层。此外，分析块422、422a、422b 不仅被配置为提取对象信号和对象信号的到达方向，而且还被配置为从每个层声场描述生成环境/扩散/残留信号。例如，该信号可以通过从各个表示中减去通过源分离过程得出的所有各个源信号的总和而获得。可选地，当源分离422、422a、422b被配置为例如DirAC分析时，则扩散/环境/残留信号将以参数方式由扩散参数表示。

此外，图4d示出加法器601、602、603，用于向某个层的修改的高保真度立体声响复制表示添加层的对应扩散信号。

这针对层1、层2、层L中的每一个完成，并且图4d中的输出再次表示转码后的经增强的声场描述，因为对于通过块601、602、603输出的不同修改的表示，某些元数据将与指示层1、层2和层L的代表距离相关联。

对于图4d中的情况，图4e示出针对单个对象或源的渲染器。例如对象是通过用于第一层的块422或用于第二层的块422a或用于第L层的422b，被输入到用于计算高保真度立体声响复制信号的块430中而获得的，并且块430可以例如是被如图4i所示地配置。为了计算高保真度立体声响复制信号，新DoA'，即源的到达方向值，通过旧DoA、以及从原始参考位置到新聆听者位置的平移信息而由块423、423a、423b生成。

因此，关于新DoA'的对象的新高保真度立体声响复制信号被计算并输出为object’。因此，例如，图4i的块430的输出将是object’信号。此外，块423、423a、423b将如前面关于图4c所讨论的那样计算/确定新距离，并且因此将例如如前面关于图4c所讨论的和图4b中的示例计算缩放因子，并且然后，对层块810的渲染可以被配置为利用从旧距离(层距离) 和新距离得出的某个缩放因子来缩放从块430获得的object’信号，以及然后，属于围绕图4c 的新聆听者位置的某个层1、2或L的所有信号，可以相应地加在一起以再次具有分层表示。因此，关于图4c实施例，现在在层1中的唯一源将是原始源6，而原始源5、3、1将在缩放之后关于它们的高保真度立体声响复制表示被加在一起，当L＝3时，如针对每个源单独地确定以获得层3信号，并且类似地，源2、4的源信号将不代表层2信号，如图4c中的表格所示，源4不需要缩放，但是源2需要缩放操作。

因此，图4e示出针对每个层如何确定对象、并且在加法器601、602、603添加环境/扩散/残留信号之后，每个层的完整修改的高保真度立体声响复制表示被获得，以及然后其可以输出作为经增强/修改的声场描述以及相关联元数据，如图4h所示。

然而，另外地，每个层的高保真度立体声响复制表示可以简单地通过图4g中所示的加法器600而被加在一起，以便将多层高保真度立体声响复制表示转换为传统的高保真度立体声响复制表示，然后该传统的高保真度立体声响复制表示可以被传统地渲染至实际或扬声器表示、至双耳表示。

图4f中所示的另一选项II与图4e的不同之处在于，从所有各个层仅生成单个环境/扩散/残留信号，并且该单个环境/扩散/残留信号仅被加法器604添加到最高层。例如，如图4d 所示的，针对每个层，可以分别地对每个层的每个声场描述执行源分离和DoA估计422c。然而，源分离和DoA估计算法也可被实现以将所有各个层描述加在一起，以及然后获得单个层描述，以及然后对该单个高保真度立体声响复制表示执行源分离和DoA估计。然而，较佳地，对每层单独地进行，并且为了生成单个扩散信号，由图4d的实施例所获得的各个扩散信号可以在块422c内被加在一起。

因此，选项II可能对较低层导致完全干的高保真度立体声响复制表示、并且仅对最高层导致“湿”表示，单个扩散信号仅被添加到最高层。自然地，该过程是有用的，因为扩散信号无论如何都不是通过距离过程缩放的，而是以与最初所确定的相同方式而被使用，而不管声场描述是否与原始参考位置或者例如对应于图4c的聆听者位置的新参考位置有关。

图6示出每个层的源分离算法，其可以例如被配置为DirAC分析。然后，由块422输出的图6中所示的扩散信号将不在那里，但是该扩散信号将由扩散参数表示，即，将参数化地表示。对应地，对于DirAC过程，对象信号将是每个时间/频率区间的压力信号。然而，在一般情况下，对象信号也可以是全频带信号。

第一层由上分支表示，第二层由图6的中间的分支表示，以及第三层由图6的底部的分支表示。

在一般的源分离过程的情况下，对应合成器425将为每个层产生高保真度立体声响复制信号，例如，如图4d或4f所示。然后，所有这些高保真度立体声响复制信号可以如关于图 4g一般讨论的那样被组合，并且然后，信号可以由渲染器427渲染，例如，在双耳情况下，当信号被发送到耳机，该耳机应用在图6中的500处示出的虚拟现实的环境中的聆听者的头部。

图6还另外指出了以下事实：源分离、平移、高保真度立体声响复制信号的生成或旋转的过程可以以许多不同的顺序应用。

而在图6中，上层示出源分离在旋转变换之前以及在平移变换/体积缩放之前被执行，图6中的中间分支表明源分离533a在平移423a和由块425a执行的高保真度立体声响复制信号的生成之前被执行，但是，在该步骤之后，旋转变换在块422a中被应用。

同样，图6中的下分支示出旋转变换424b甚至可以在源分离422b之前被应用，但是也可以在源分离之后被应用，当然，因为，聆听者的头部的移动对于层的所有源以及甚至对于所有层的所有源都是相同的。此外，平移变换423b还可以在高保真度立体声响复制信号的生成之前以及甚至在旋转变换之前被执行，而不是在源分离之前被执行，因为任一平移都需要每个源的到达方向。

在高保真度立体声响复制信号到组合器600的输入处的情况下，并且当组合器600的输出另外是传统的高保真度立体声响复制信号时，例如，如关于图4g所讨论的，则旋转变换甚至可以在块600之后被应用，并且然后，渲染器427需要经由虚拟扬声器表示直接渲染到双耳表示中、或直接渲染到扬声器表示或双耳表示中。然而，完全平移变换和完全旋转的声场描述不再是分层的，而是由于组合器600中的组合，层“特征”被放弃。

在此上下文下，从图6和图4e也清楚的是，在不仅仅信号进行转码的情况下，但是在生成单个声场描述的情况下，在图4c中的表格的上下文中讨论的“渲染到层810”在关于图 4c所示的方式中不是必需的。由于仅生成单个声场，因此源是否从一个层移动到另一个层是无关紧要的。相反，只有缩放因子是所需的，但是这些缩放因子可以直接从层的代表距离得出、或者这些缩放因子可以由层信息350给出的旧距离和通过使用该旧距离、源的DoA、以及例如关于图7所讨论的平移信息所获得的新距离得出。因此，源是否从一个层改变或“移动”到另一层仅对转码器表示的问题，但在图4g或图6的情况下不是问题。

图4a示出用于从声场描述以及与该声场描述的空间信息相关的元数据生成经修改的声场描述的装置的较佳实施方式。特别地，该装置包括声场计算器420，其使用元数据、声场描述、以及平移信息生成经修改的声场，该平移信息指示从参考位置到不同参考位置的平移。

举例而言，当关于图1b中的位置A给出声场时，则不同参考位置可以是位置B，并且平移信息例如将是指示位置A到位置B的平移的向量。然后，声场计算器420将计算经修改的声场，就好像它将被位于位置B处的聆听者所感知，并且针对该计算，声场计算器具有与位置A有关的声场描述和平移信息，并且另外地具有关于源A和源B的空间位置的元数据。

在一个实施例中，声场计算器420连接到输入界面400，用于接收经增强的声场描述，例如，关于图1a或图2所讨论的，然后输入界面400一方面分离声场描述，即由图1a的块100或图2的块210所生成的。此外，输入界面400将元数据从经增强的声场描述分离，即图3a的项350或图3b的可选的351和352至354。

此外，平移界面410从聆听者获得平移信息和/或附加或分离的旋转信息。平移界面410 的实施方式可以是头部追踪单元，其不仅追踪在虚拟现实环境中的头部的旋转，而且还追踪头部从一个位置(即图1b中的位置A)到另一个位置(即图1b中的位置B)的平移。

图4b示出与图1a类似的另一实施方式，但与编码器/解码器场景无关，但与一般场景相关，其中由元数据提供器402指示的元数据供应、由声场提供器404指示的声场供应在没有分离经编码或增强的声场描述的某个输入界面的情况下完成，但例如，在虚拟现实应用中存在的实际场景中全部完成。然而，本发明不限于虚拟现实应用，而是还可以在任何其他应用中实施，其中，与参考位置相关的声场的空间音频处理是有用的，以将与第一参考位置相关的声场变换至与不同的第二参考位置相关的另一声场。

声场计算器420然后生成经修改的声场描述、或者可选地生成(虚拟)扬声器表示、或者生成诸如双声道表示的双耳表示用于耳机再现。因此，声场计算器420可以生成经修改的声场描述作为经修改的声场，经修改的声场描述基本上与原始声场描述相同，但是现在关于新参考位置。在替代实施例中，可以为诸如5.1方案的预定扬声器设置或具有更多扬声器的扬声器设置(并且特别地，具有扬声器的三维布置而不是仅二维布置，即扬声器布置具有关于用户位置而被升高的扬声器)生成虚拟或实际扬声器表示。对虚拟现实应用特别有用的其他应用是用于双耳再现的应用，即用于可应用于虚拟现实用户头部的耳机。

示例性地，随后描述的图6或图9示出一种情况，其中DirAC合成器仅对诸如全向或压力分量的降混分量操作，而在关于图12b示出的另一替代实施例中，DirAC合成器对整个声场数据(即在图12b中的实施例中的具有有全向分量w和三个定向分量x、y、z的场描述的全分量表示)操作。

图4i示出用于执行与DirAC合成器不同的合成的另一实施方式。例如，当声场分析器为每个源信号生成分离的单声道信号S和原始到达方向时，以及当依据平移信息计算新到达方向时，则例如图4i的高保真度立体声响复制信号生成器430将被用于生成声源信号(即单声道信号S)的但是针对新到达方向(DoA)数据的声场描述，新到达方向(DoA)数据由水平角θ或仰角θ和方位角

组成的。然后，由图4b的声场计算器420执行的过程将针对具有新到达方向的每个声源生成例如一阶高保真度立体声响复制声场表示，并且然后，可以使用缩放因子来为每个声源执行进一步修改，该缩放因子取决于声场到新参考位置的距离，并且然后，来自各个源的所有声场可以相互迭加以最终获得再一次例如以与某个新参考位置相关的高保真度立体声响复制表示的经修改的声场。

当解释由图6或图9的DirAC分析器422、422a、422b处理的每个时间/频率区间表示某个(带宽受限的)声源时，则高保真度立体声响复制信号生成器430可以被使用取代DirAC合成器425、425a、425b，以针对每个时间/频率区间，使用作为图4i的“单声道信号S”的该时间/频率区间的降混信号或压力信号或全向分量，生成完整的高保真度立体声响复制表示。然后，针对W、X、Y、Z分量中的每一个，频率-时间转换器中的各个频率-时间转换将产生声场描述，该声场描述不同于图4c中所示的声场描述。

以下概述了进一步的实施例。目标是在考虑原始记录位置处的信号和关于声源距记录位置的距离的信息的情况下，获取在聆听者位置处的虚拟双耳信号。物理源被假设为通过它们的朝记录位置的角度是可分离的。

场景是从麦克风的视点(PoV)记录的，其位置被用作参考坐标系的原点。场景需要从聆听者的PoV再现，该聆听者在6DoF中被追踪，参见图5。这里显示单个声源用于图示说明，关系适用于每个时间-频率区间。

图5示出空间音频的6DoF再现。声源通过麦克风被记录，该声源在相对于麦克风位置和朝向(黑线和弧线)的距离d_r处具有DoAr_r。它需要相对于具有DoAr_l和距离d₁(虚线) 的移动聆听者而被再现。这需要考虑聆听者平移l和旋转o(点线)。

在坐标

的声源是从单位向量r_r＝d_r/‖d_r‖表示的到达方向(DoA)记录的。可以从记录的分析来估计该DoA。它来自距离d_r＝‖d_r‖。假设该信息包括在每个层的元数据中作为层距离，或者通常作为图3b的项352、353、354，并且可被表示为深度图m(l,r)形式的距离信息，深度图m(l,r)将具有从记录位置的任何方向r的层的每个源映射到层距参考点的距离(例如以米为单位给出)。

聆听者在6DoF中被追踪。在给定的时间，他相对于麦克风位于位置

并且相对于麦克风的坐标系统具有旋转

记录位置被选为坐标系统的原点以简化符号。

因此，需要以导致音量改变的不同距离d₁、以及作为平移和随后旋转的结果的不同DoA r₁再现声音。

如以下部分所解释，一种用于基于参数表示通过专用变换从聆听者角度获得虚拟信号的方法被概述。

所提出的方法基于用于参数空间声音编码的基本DirAC方法，参见[16]。假设在分析频谱的每个时间-频率实例中存在一个主要直达源，并且这些可以被独立地处理。使用短时傅立叶变换(STFT)将记录变换为时间-频率表示。时间帧索引用n表示，以及频率索引用k表示。然后，分析变换后的记录，以针对复数频谱P(k,n)的每个时间-频率区间估计方向r_r(k,n) 和扩散性ψ(k,n)。在合成中，信号被划分成直达部分和扩散部分。此处，通过依据扬声器位置而移动直达部分并添加扩散部分，来计算扬声器信号。

参见图6，在6DoF中根据聆听者角度变换FOA信号的方法可以被分为五个步骤。

图6示出6DoF再现的方法。B格式的记录的FOA信号被DirAC编码器处理，该编码器针对复数频谱的每个时间-频率区间计算方向和扩散值。然后，通过聆听者的追踪位置并根据每个层的距离图中所给出的距离信息，变换方向向量。然后，根据头部旋转，旋转所得方向向量。最后，在DirAC解码器中，合成针对8+4个虚拟扬声器声道的信号。然后，它们被双耳化。

在实施例中，在DirAC编码器422中分析输入信号，来自距离图m(l)的距离信息被添加，该距离图m(l)为每个层给出距离，然后，聆听者的追踪平移和旋转被应用在新型变换423 和424中。DirAC解码器425合成针对8+4个虚拟扬声器的信号，其转而被双耳化427以用于耳机回放。应注意的是，由于在平移之后的声音场景的旋转是独立操作，所以它可选地可被应用在双耳渲染器中。针对6DoF所变换的唯一参数是方向向量。通过模型定义，扩散部分被假设为等向性和同构型的，因此保持不变。

DirAC编码器的输入是以B格式表示的FOA声音信号。其由四个信道组成，即全向声压和三个一阶空间梯度，它们在某个假设下与粒子速度成比例。参见[18]，该信号以参数方式被编码。参数从作为经变换的全向信号的复数声压P(k,n)以及对应于经变换的梯度信号的复数粒子速度向量U(k,n)＝[U_X(k,n),U_Y(k,n),U_Z(k,n)]^T得出。

DirAC表示由在每个时间-频率区间处的声波的信号P(k,n)、扩散性ψ(k,n)和方向r(k,n) 组成。为了得到后者，首先，有效声音强度向量I_a(k,n)被计算作为压力向量与速度向量的共轭复数(由(·)*表示)的乘积的实部(由Re(·)表示)[18]：

从该向量的变异系数，估计扩散性[18]。

其中E表示沿时间帧的期望算子，实现为移动平均。

由于预计使用基于方向的距离图来操纵声音，该距离图具有层的每个源到参考位置的距离，因此方向估计的方差(variance)应该较低。由于帧通常很短，情况并非总是如此。因此，移动平均被应用以获得平滑的方向估计

然后计算信号的直达部分的DoA作为在相反方向的单位长度向量：

由于针对每个时间-频率区间将方向编码为单位长度的三维向量，因此可以直接对距离信息进行积分。方向向量与其对应图项目相乘，使得向量长度表示对应声源的距离d_r(k,n)：

d_r(k,n)＝r_r(k,n)d_r(k,n)

＝r_r(k,n)m(l,rr(k,n)) (4)

其中d_r(k,n)是从麦克风的记录位置指向在时间n和频率区间k有效的声源的向量。

聆听者位置通过当前处理帧的追踪系统给出为l(n)。参考图7，利用源位置的向量表示，可以减去追踪位置向量l(n)以生成具有长度d₁(k,n)＝‖d₁(k,n)‖的新平移方向向量d₁(k,n)。从聆听者的PoV到声源的距离被得出，并且DoA在单个步骤中被调整：

d₁(k,n)＝d_r(k,n)-l(n) (5)

真实再现的重要方面是距离衰减。衰减假设是声源和聆听者之间距离的函数[19]。

方向向量的长度用于编码衰减或放大，以用于再现。到记录位置的距离根据距离图以 d_r(k,n)编码，并且待再现的距离以d₁(k,n)编码。如果将向量归一化为单位长度，然后乘以旧及新距离的比率，则看出所需长度通过将d₁(k,n)除以原始向量的长度而被给出：

聆听者朝向的更改将被应用于以下步骤。相对于作为原点的记录位置，通过追踪所给出的朝向可以被写为由俯仰、偏转和翻滚组成的向量o(n)＝[o_X(n),o_Z(n),o_Y(n)]^T。

根据聆听者朝向旋转源方向，这是使用2D旋转矩阵实现的：

d_p(k,n)＝R_Y(o_Y(n))R_Z(o_Z(n))R_X(o_X(n))d_v(k,n) (7)

聆听者的所得DoA然后由被归一化为单位长度的向量所给出：

经变换的方向向量、扩散性和复数频谱被用于合成针对均匀分布的8+4虚拟扬声器设置的信号。八个虚拟扬声器以45°方位角步阶位于聆听者平面(仰角0°)上，以及四个以90°十字队形位于45°的仰角上。对于每个扬声器声道1≤i≤I(其中I＝12 是扬声器的数量)，合成被分成直达和扩散部分[16]：

Y_i(k,n)＝Y_i,S(k,n)+Y_i,D(k,n) (9)

对于直达部分，边缘衰落幅度平移(EFAP)在给定虚拟扬声器几何结构的情况下被应用于从正确方向再现声音[20]。给定DoA向量r_p(k,n)，这为每个虚拟扬声器声道i提供移动增益 G_i(r)。每个DoA的距离相依增益是从方向向量d_p(k,n)的所得长度得出的。声道i的直达合成变为：

其中指数γ是一个调整因子，其通常设置为约1[19]。应注意的是，当γ＝0时，距离相依增益被关闭。

压力P(k,n)用于生成I去相关的信号

这些去相关的信号作为扩散分量被添加到各个扬声器声道。这遵循标准方法[16]：

每个声道的扩散和直达部分被加在一起，并且通过逆STFT将信号变换回时域。

取决于扬声器位置，这些声道时域信号针对左耳和右耳而与HRTF进行卷积运算，以产生双耳信号。

图8示出转码器实施方式的较佳实施方式，转码器实施方式例如在没有代表距离的情况下操作，但是缩放因子的一般确定不是从层的距离得出的，而是仅从源是否从一层移动到另一层得出的，该另一层与较早层相邻或不相邻。因此，块800被配置为确定源是否保留在相同层中。如果确定相同层是结果，例如对于源4和源5，则块802 将确定不需要针对新到达方向的对象信号的特定缩放，并且“缩放因子”指示没有缩放会被设置为1，或者可选地，可以简单地以任何方式标记或通知，对于这样的源，不执行任何缩放。

然而，当确定源移动到较低层时，则块804将确定大于1的缩放因子。可以通过使用两个层(即，源层和目标层)的代表距离来完成该确定。然而，某个缩放因子也可以被使用，例如，当发生从一层到相邻层的移动时该缩放因子在1和2之间，并且当源移动两层时，缩放因子例如等于4等等。

图8另外示出在块806处的情况，其中源移动到更高层，例如，源1、2、3。然后，该源的缩放因子将被确定为小于1。再次，该缩放因子可以如前所述从代表距离中确定，但也可以可选地通过使用固定缩放因子而获得，该固定缩放因子取决于由于从原始参考位置到新参考位置或聆听者位置的平移已经移动了多少层。例如，当发生仅移动一个层时，则中等缩放因子可以被使用，例如介于0.5和1之间，并且当发生移动两个或更多个层时，则介于0.1和0.5之间的更高缩放因子可以被使用。

然后，在高保真度立体声响复制生成之前，对象信号处理器/缩放808将对对象信号应用缩放，或者对象信号处理器/缩放808将对高保真度立体声响复制表示的所有分量应用缩放，以最终在每个源的单声道表示或在高保真度立体声响复制表示中获得经处理的对象信号。

图9示出另一实施例，其类似于图6，但是其中例如图4d的各个块422、422a、 422b被实现为DirAC编码器/解码器实施方式。然后，结果可以是各个扬声器声道信号或高保真度立体声响复制信号或任何其他信号表示，例如，用于转码器。然而，当输出是声道信号或甚至是双耳信号时，则那些对应信号可以在组合器600中被加在一起，以表示单个声场描述，然后可以通过任何进一步的过程在块427中被渲染。

图10示出声场计算器420的另一较佳实施方式。图10中所示出的过程分别对每个层执行。唯一的区别在于，对于每个层，不同层信息350被使用，并且该层信息对于该层中的每个源是相同的。距离确定器1120从元数据读取层信息，距离确定器1120 生成距离值。如果元数据已经包括以米为单位的距离，则块1120简单地从数据流中提取数据或者将该信息转发到块1140。因此，相同层中的每个源的每个DoA的相同距离信息被块1140生成并使用。

基于声场描述，在1100中确定全频带到达方向或每频带到达方向。这些到达方向信息表示声场的到达方向数据。基于到达方向数据，在块1110中执行平移变换。至此，块1120针对层获取声场描述的元数据。基于数据，块1110生成声场的新到达方向数据，在此实施方式中，其仅取决于从参考位置到不同参考位置的平移。至此，块1110 接收例如通过在虚拟现实实现的情境中的追踪而生成的平移信息。

较佳地或替代地，也使用旋转数据。至此，块1130使用旋转信息执行旋转变换。当平移和旋转两者被执行时，则较佳地，在计算已经包括来自平移的信息以及来自块 1120的层距离的声场的新DoA之后，执行旋转变换。

然后，在块1140中，新声场描述被生成。至此，可以使用原始声场描述，或者，可选地，可以使用通过源分离算法从声场描述分离的源信号，或者可以使用任何其他应用。基本上，新声场描述可以是例如由高保真度立体声响复制生成器430获得的或由DirAC合成器425生成的定向声场描述，或者可以是在随后的双耳渲染中从虚拟扬声器表示所生成的双耳表示。

较佳地，如图10所示，每个到达方向的距离也被用于生成新声场描述，以使某个声源的音量或响度适应新位置，即新或不同参考位置。

尽管图10示出在平移变换之后执行旋转变换的情况，但是应注意，该顺序可以是不同的。特别地，旋转变换可以被应用于通过块1100所生成的声场的DoA，并且然后，应用由于主体从参考位置到不同参考位置的平移引起的附加平移变换。

一旦已经通过块1100确定声场的DoA，就使用块1120从元数据中获取距离信息，该距离信息然后通过在块1140中生成新声场描述而被使用，用来计算某个源关于某个参考位置的改变的距离以及因此的改变的响度。基本上，可以说在距离变大的情况下，则特定声源信号被衰减，而当距离变短时，则声源信号被放大。自然地，取决于距离的某个声源的衰减或放大与该距离变化成比例地进行，但是，在其他实施例中，可以以相当粗略的增量将较不复杂的操作应用于声源信号的这种放大或衰减。与任何距离变化完全被忽略的情况相比，即使是这种较不复杂的实现也能提供更好的结果。

图7示出声场计算器420的较佳实施方式。在块1102中，对于每个源的源分离和到达方向或一般方向信息的计算被执行。然后，在块1104中，到达方向向量被乘以距离信息向量，即，从原始参考位置到声源的向量，即例如，从图5的项520到项510 的向量。然后，在块1106中，平移信息，即，从图5的项520到项500的向量被考虑，以便计算新平移方向向量，该新平移方向向量是从聆听者位置500到声源位置510 的向量。然后，在块1108中计算由dv所指示的具有正确长度的新到达方向向量。该向量指向与dr相同的方向，但具有不同长度，因为向量的长度反映了声源510被记录在具有某个声量的原始声场中的事实，以及因此，dv的长度或多或少指示响度变化。这是通过将向量d_l除以记录距离dr来获得的，即从麦克风520到声源510的向量dr 的长度。

当如图5所示，再现距离大于记录距离时，则dv的长度将低于单位长度(unity)。这将导致，用于在新聆听者位置处的再现的声源510的衰减。然而，当再现距离d_l小于记录距离时，则通过块1108计算的dv的长度将大于1，并且对应缩放因子将导致声源的放大。

图11示出声场计算器的另一较佳实施例。

在块1200中，例如，对于每频带或全频带，确定来自声场的各个源。当每帧和频带的确定被执行时，则这可以通过DirAC分析来完成。如果全频带或子频带确定被执行，则可以通过任何类型的全频带或子频带源分离算法来完成。

在块1210中，例如通过头部追踪，确定聆听者的平移和/或旋转。

在块1220中，通过使用元数据并且例如通过使用层的元数据(诸如代表距离)，确定每个源的旧距离。因此，每个频带被认为是某个源(假设扩散性低于某个阈值)，并且然后，确定具有低扩散值的每个时间/频率区间的某个距离。

然后，在块1230中，每个源的新距离例如通过每频带的向量计算被获得，例如，在图7的上下文中或使用图8的依赖层方向的变化的过程所讨论的。

此外，如块1240中所示，例如，通过在DirAC分析中获得的DoA计算或例如通过源分离算法中的到达方向或方向信息分析，确定每个源的旧方向。

然后，在块1250中，例如通过执行每频带或全频带的向量计算，确定每个源的新方向。

然后，在块1260中，为平移和旋转的聆听者生成新声场。例如，这可以通过在DirAC合成中按比例缩放每个声道的直达部分来完成。取决于具体实施方式，除了或替代在块1260中执行距离修改，可在块1270a、1270b或1270c中完成距离修改。

例如，当确定声场仅具有单个源时，则距离修改可以已经在块1270a中被执行。

可选地，当通过块1200计算各个源信号时，则在实际新声场在块1260中被生成之前，在块1270b中，可以针对各个源，执行距离修改。

另外，例如，当块1260中的声场生成不渲染扬声器设置信号或双耳信号，而是另一声场描述时，例如，使用高保真度立体声响复制编码器或计算器430，则距离修改也可以在块1260中生成之后执行，这意指在块1270c中执行。依据该实施方式，距离修改也可以被分配给多个修改器，以便最终某个声源处于某个响度，该某个响度由原始距离与新距离之间的差异所指示，该原始距离为声源和参考位置之间的距离、该新距离为声源和不同参考位置之间的距离。

图12a示出最初公开(例如)在2009年IWPASH的早先引用的参考文献“DirectionalAudio Coding”中的DirAC分析器。

DirAC分析器包括一组带通滤波器1310、能量分析器1320、强度分析器1330、时间平均块1340和扩散性计算器1350以及方向计算器1360。

在DirAC中，分析和合成两者都在频域中执行。有几种方法用于将声音划分到频带，每种方法都在不同的属性内。最常用的频率变换包括短时傅立叶变换(STFT)和正交镜像滤波器组(QMF)。除了这些之外，还可以完全自由地设计具有任意滤波器的滤波器组，该滤波器组可针对任何特定目的进行优化。不管所选的时间-频率变换，设计目标是模拟人类空间听力的分辨率。定向分析的目标是在每个频带处估计声音的到达方向，以及估计声音是否同时从一个或多个方向到达。原则上，这可以用许多技术来执行，然而，声场的能量分析已经被发现是合适的，这在图12a中示出。当从单个位置捕获一维、二维或三维的压力信号和速度信号时，能量分析可以被执行。在一阶 B格式信号中，全向信号被称为W信号，其已经被2的平方根缩小。声压可以被估计为在STFT域中表示的

X、Y和Z声道具有沿笛卡尔轴定向的偶极子的定向模式，其一起形成向量 U＝[X,Y,Z]。向量估计声场速度向量，并且也在STFT域中被表示。声场的能量E被计算。可以利用定向麦克风的重合定位或者利用紧密间隔的全向麦克风组，获得B格式信号的捕获。在一些应用中，麦克风信号可以在计算域中形成，即模拟。

声音的方向被定义为强度向量I的相反方向。在发送的元数据中，该方向被表示为对应角度方位角和仰角值。还使用强度向量和能量的期望算子来计算声场的扩散性。该公式的结果是在0和1之间的实数值，其特征在于声音能量是从单个方向到达(扩散性是零)还是从所有方向到达(扩散性是1)。在全3D或较小维度的速度信息可用的情况下，该过程是适当的。

图12b示出DirAC合成，再一次，其具有一组带通滤波器1370、虚拟麦克风块 1400、直达/扩散合成器块1450、以及某个扬声器设置或虚拟预期扬声器设置1460。另外，使用扩散性-增益变换器1380、基于向量的幅度平移(VBAP)增益表块1390、麦克风补偿块1420、扬声器增益平均块1430和用于其他声道的分配器1440。

在利用扬声器的这种DirAC合成中，图12b中所示的高质量版本的DirAC合成接收所有B格式信号，为此针对扬声器设置1460的每个扬声器方向，计算虚拟麦克风信号。所使用的定向模式通常是偶极子。然后，依据元数据，虚拟麦克风信号以非线性方式被修改。DirAC的低比特率版本未在图12b中显示，然而，在这种情况下，如图6所示，仅一个音频声道被发送。处理的不同之处在于所有虚拟麦克风信号都将被所接收音频的单个声道所取代。虚拟麦克风信号被分成两个串流：扩散串流和非扩散串流，它们被分开处理。

通过使用基于向量的幅度平移(VBAP)，非扩散声音将被再现为点源。在移动中，在与扬声器特定的增益因子相乘之后，单声道声音信号将被应用于扬声器的子集。使用扬声器设置的信息和指定移动方向，计算增益因子。在低比特率版本中，输入信号被简单地朝元数据所隐含的方向平移。在高质量版本中，每个虚拟麦克风信号与对应增益因子相乘，这会产生与移动相同的效果，然而它不太容易出现任何非线性伪声。

在许多情况下，定向元数据经受突然的时间变化的影响。为了避免伪声，利用VBAP计算的扬声器的增益因子通过利用频率相依时间常数的时间积分而被平滑，该时间常数等于每个频带处的约50个循环周期。这有效地消除了伪声，然而，在大多数情况下，方向的变化不会被感知为比未进行平均的情况更慢。

扩散声音的合成的目的是创造围绕聆听者的声音的感知。在低比特率版本中，通过去相关输入信号并将其从每个扬声器再现，扩散串流被再现。在高质量版本中，扩散串流的虚拟麦克风信号在某种程度上已经不连贯，并且它们需要仅稍微去相关。与低比特率版本相比，这种方法为环绕声混响和环境声音提供了更好的空间质量。

对于利用耳机的DirAC合成，针对非扩散串流采用围绕聆听者的某个数量的虚拟扬声器以及针对扩散串流采用某个数量的扬声器规划DirAC。虚拟扬声器被实现为输入信号与测量的头部相关转移函数(HRTF)的卷积。

尽管已经在装置的上下文中描述了一些方面，但是显然这些方面也表示相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示相应装置的相应块或项目或特征的描述。

本发明的经增强的声场描述可以存储在数字存储介质或非暂时性存储介质上，或者可以在诸如无线传输介质、或诸如因特网的有线传输介质的传输介质上传输。

根据某些实施要求，本发明的实施例可以用硬件或软件实现。该实施可以使用其上存储有电子可读取控制信号的数字存储介质来执行，例如软性磁盘、DVD、CD、ROM、 PROM、EPROM、EEPROM或FLASH内存，电子可读取控制信号与(或者能够与) 可编程计算机系统协作，以便执行相应的方法。

根据本发明的一些实施例包括具有电子可读取控制信号的非暂时性数据载体，电子可读取控制信号能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可被实现为具有程序代码的计算机程序产品，该程序代码可操作用于在计算机程序产品在计算器上运行时执行这些方法之一。该程序代码可以例如存储在机器可读载体上。

其他实施例包括用于执行存储在机器可读载体上的本文所述方法之一的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，当该计算机程序在计算器上运行时，该程序代码用于执行本文所述的方法之一。

因此，本发明方法的另一实施例是数据载体(或数字存储介质、或计算机可读介质)，数据载体包括记录在其上的用于执行本文所述方法之一的计算机程序。

因此，本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据串流或信号序列。数据串流或信号序列可以例如被配置为经由数据通信连接传输，例如经由因特网传输。

另一实施例包括处理装置，例如计算机或可编程逻辑设备，其被配置为或适于执行本文所述的方法之一。

另一实施例包括计算机，其上安装有用于执行本文所述方法之一的计算机程序。

在一些实施例中，可编辑逻辑设备(例如现场可编辑门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中，现场可编辑门阵列可以与微处理器协作，以便执行本文描述的方法之一。通常，方法较佳地由任何硬件装置执行。

上述实施例仅代表本发明的原理的说明。应理解，本文所述的布置和细节的任何修改和变化对于本领域其他技术人员是明显的。因此，意欲仅由随附专利权利要求的范围而非由通过示例和本文的实施例的解释所表示地详细细节限制。

参考文献

[1]Liitola,T.,Head phone sound externalization,Ph.D.thesis,HelsinkiUniversity of Technology.Department of Electrical and CommunicationsEngineering Laboratory of Acoustics and Audio Signal Processing.,2006年.

[2]Blauert,J.,Spatial Hearing-Revised Edition:The Psychophysics ofHuman Sound Localization,The MIT Press,1996年,ISBN0262024136.

[3]Zhang,W.,Samarasinghe,P.N.,Chen,H.,and Abhayapala,T.D.,“Surroundby Sound:A Re-view of Spatial Audio Recording and Reproduction,”AppliedSciences,7(5),页532, 2017年.

[4]Bates,E.and Boland,F.,“Spatial Music,Virtual Reality,and360Media,”in Audio Eng. Soc.Int.Conf.on Audio for Virtual and AugmentedReality,Los Angeles,CA,U.S.A.,2016 年.

[5]Anderson,R.,Gallup,D.,Barron,J.T.,Kontkanen,J.,Snavely,N.,Esteban,C.H.,Agarwal, S.,and Seitz,S.M.,“Jump:Virtual Reality Video,”ACM Transactionson Graphics,35(6),

页198,2016年.

[6]Merimaa,J.,Analysis,Synthesis,and Perception of Spatial Sound:Binaural Localization Modeling and Multichannel Loudspeaker Reproduction,Ph.D.thesis,Helsinki University of Technology,2006年.

[7]Kronlachner,M.and Zotter,F.,“Spatial Trans-formations for theEnhancement of Ambisonics Recordings,”in 2^nd International Conference onSpatial Audio,埃朗根,德国, 2014年.

[8]Tsingos,N.,Gallo,E.,and Drettakis,G.,“Perceptual Audio Renderingof Complex Virtual Environments,”ACM Transactions on Graphics,23(3),页249–258,2004年.

[9]Taylor,M.,Chandak,A.,Mo,Q.,Lauterbach,C.,Schissler,C.,and Manocha,D.,“Guided multi-view ray tracing for fast auralization,”IEEETrans.Visualization&Comp.Graphics, 18,页1797–1810,2012年.

[10]Rungta,A.,Schissler,C.,Rewkowski,N.,Mehra,R.,and Manocha,D.,“Diffraction Kernels for Interactive Sound Propagationin DynamicEnvironments,”IEEE Trans. Visualization&Comp.Graphics,24(4),页1613–1622,2018年.

[11]Thiergart,O.,Kowalczyk,K.,and Habets,E.A.P.,“An Acoustical Zoombased on Informed Spatial Filtering,”in Int.Workshop on Acoustic SignalEnhancement,页109–113, 2014年.

[12]Khaddour,H.,Schimmel,J.,and Rund,F.,“ANovel Combined System ofDirection Estimation and Sound Zooming of Multiple Speakers,”Radioengineering,24(2),2015年.

[13]Ziegler,M.,Keinert,J.,Holzer,N.,Wolf,T.,Jaschke,T.,op het Veld,R.,Zakeri,F.S., and Foessel,S.,“Immersive Virtual Reality for Live-ActionVideo using Camera Arrays,”in IBC,阿姆斯特丹,荷兰,2017年.

[14]Thiergart,O.,Galdo,G.D.,Taseska,M.,and Habets,E.A.P.,“Geometry-Based Spatial Sound Acquisition using Distributed Microphone Arrays,”IEEETrans.Audio,Speech, Language Process.,21(12),页2583–2594,2013年.

[15]Kowalczyk,K.,Thiergart,O.,Taseska,M.,Del Galdo,G.,Pulkki,V.,andHabets,E.A.P., “Parametric Spatial Sound Processing:AFlexible and EfficientSolution to Sound Scene Acquisition,Modification,and Reproduction,”IEEESignal Process.Mag.,32(2),页31–42, 2015年.

[16]Pulkki,V.,“Spatial Sound Reproduction with Directional AudioCoding,”J.Audio Eng. Soc.,55(6),页503–516,2007年.

[17]International Telecommunication Union,“ITU-RBS.1534-3,Method forthe subjective assessment of intermediate quality level of audio systems,”2015年.

[18]Thiergart,O.,Del Galdo,G.,Kuech,F.,and Prus,M.,“Three-DimensionalSound Field Analysis with Directional Audio Coding Based on Signal AdaptiveParameter Estimators,”in Audio Eng.Soc.Conv.Spatial Audio:Sense the Sound ofSpace,2010年.

[19]Kuttruff,H.,Room Acoustics,Taylor&Francis,第4版,2000年.

[20]Borβ,C.,“A polygon-based panning method for 3D loudspeakersetups,”in Audio Eng. Soc.Conv.,页343–352,洛杉矶,加州,美国,2014年.

[21]Rummukainen,O.,Schlecht,S.,Plinge,A.,and Habets,E.A.P.,“Evaluating Binaural Reproduction Systems from Behavioral Patterns in aVirtual Reality–ACase Study with Impaired Binaural Cues and TrackingLatency,”in Audio Eng.Soc.Conv.143,纽约,纽约州,美国,2017年.

[22]Engelke,U.,Darcy,D.P.,Mulliken,G.H.,Bosse,S.,Martini,M.G.,Arndt,S.,Antons, J.-N.,Chan,K.Y.,Ramzan,N.,and

K.,“Psychophysiology-BasedQoE Assessment:ASurvey,”IEEE Selected Topics in Signal Processing,11(1),页6–21,2017年.

[23]Schlecht,S.J.and Habets,E.A.P.,“Sign-Agnostic Matrix Design forSpatial Artificial Reverberation with Feedback Delay Networks,”in Proc.AudioEng.Soc.Conf.,页1–10– accepted,东京,日本,2018年.

[31]M.A.Gerzon,"Periphony:With-height sound reproduction,″J.Acoust.Soc.Am.,卷 21,110.1,页2-10,1973年.

[32]V.Pulkki,"Directional audio coding in spatial sound reproductionand stereo upmixing," in Proc.of the 28th AES International Conference,2006年.

[33]--,"Spatial sound reproduction with directional audio coding,"Journal Audio Eng.Soc，，卷55,no.6,页503-516,2007年6月.

[34]C.G.and G.M.,"Coincident microphone simulation covering threedimensional space and yielding various directional outputs,"美国专利4 042779,1977年.

[35]C.Faller and F.Baumgarte,"Binaural cue coding-part ii:Schemes andapplications,"IEEE Trans.Speech Audio Process，，卷11,编号6,2003年11月.

[36]C.Faller,"Parametric multichannel audio coding:Synthesis ofcoherence cues," IEEE Trans.Speech Audio Process.,卷14,编号1,2006年1月.

[37]H.P.J.E.E.Schuijers,J.Breebaart,"Low complexity parametric stereocoding,"in Proc.of the 116th A ES Convention,柏林,德国,2004年.

[38]V.Pulkki,"Virtual sound source positioning using vector baseamplitude panning,"J.Acoust.Soc.A m，，卷45,编号6,页456-466,1997年6月.

[39]J.G.Tylka and E.Y.Choueiri,"Comparison of techniques for binauralnavigation of higher-order ambisonics sound fields,"in Proc.of the AESInternational Conference on Audio for Virtual and Augmented Reality,纽约,2016年9月.

Claims

1.一种用于生成经增强的声场描述的装置，包括：

声场生成器(100,250,260)，用于生成至少一个声场描述，所述至少一个声场描述指示关于至少一个参考位置的声场；以及

元数据生成器(110)，用于生成与所述声场的空间信息相关的元数据；

其中，所述至少一个声场描述和所述元数据构成所述经增强的声场描述。

2.如权利要求1所述的装置，

其中所述声场生成器(100,250,260)被配置为生成关于参考位置的第一声场描述，其中所述第一声场描述包括仅来自位于围绕所述参考位置的第一体积中的声源的声音数据；

其中所述声场生成器(100,250,260)被配置为生成关于所述参考位置的第二声场描述，其中所述第二声场描述包括仅来自位于围绕所述参考位置的第二体积中的第二声源的声音数据，所述第二体积与所述第一体积不同；以及

其中所述元数据生成器(110)被配置为提供所述第一体积和/或所述第二体积的空间描述。

3.如权利要求2所述的装置，

其中所述第一体积为围绕所述参考位置的球体，以及其中所述第二体积为围绕所述参考位置的球壳，所述球壳具有大于所述球体的直径的直径；或

其中所述第一体积为第一球壳，以及所述第二体积为第二球壳，其中所述第一球壳的直径小于所述第二球壳的直径；

其中所述元数据生成器(110)被配置为提供所述球体和所述球壳的空间描述或提供所述第一球壳和所述第二球壳的空间描述。

4.如权利要求2或3所述的装置，

其中所述第一声场描述和所述第二声场描述为高保真度立体声响复制或DirAC描述。

5.如权利要求2至4中一项所述的装置，

其中所述声场生成器(100,250,260)被配置为静态地或依据所述声场描述确定所述第一和第二不同的体积。

6.如权利要求2至5中一项所述的装置，

其中所述元数据生成器(110)被配置为针对每个声场描述确定距离范围，所述距离范围针对每个体积为一致的或不一致的，其中当所述距离范围针对每个体积为不一致的时，更远离所述参考位置扩展的体积的距离范围大于更靠近所述参考位置的距离范围。

7.如前述权利要求中一项所述的装置，

其中所述声场生成器(100)被配置为，针对多个层中的每层，生成具有不同时间-频率区间的一个或多个降混信号和各自方向数据以及可选的扩散数据的声场的DirAC描述；以及

其中所述元数据生成器(110)被配置为，针对每层，生成单个距离信息项。

8.如前述权利要求中一项所述的装置，还包括：

输出界面(120)，用于生成输出信号用于传输或存储，所述输出信号包括对于时间帧的从所述声场以及时间帧的空间信息得出的一个或多个音频信号。

9.如前述权利要求中一项所述的装置，

其中所述装置被配置为，生成经增强的声场描述，以使得所述经增强的声场描述包括第一声场描述(330)、第二声场描述(340)以及作为所述元数据的关于所述第一声场描述和所述第二声场描述的空间信息(350)。

10.如前述权利要求所述的装置，

其中所述元数据生成器(110)被配置为，生成所述第一声场描述的第一几何信息(352)、所述第二声场描述的第二几何信息(353)作为所述元数据。

11.如权利要求10所述的装置，

其中所述第一几何信息(352)为从第一体积到所述参考位置的第一代表距离；

其中所述第二几何信息(353)为第二体积到参考点的第二代表距离，其中所述参考点为所述参考位置或从所述参考位置指向所述参考点的向量。

12.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置，包括：

声场计算器(420)，用于使用所述空间信息、所述声场描述以及指示参考位置到不同参考位置的平移的平移信息，计算所述经修改的声场。

13.如权利要求12所述的装置，

其中所述声场计算器(420)被配置为：

接收第一层声场描述和第二层声场描述作为所述声场描述；

对所述第一层声场描述和所述第二层声场描述执行源分离，以提取所述第一层声场描述和所述第二层声场描述的源以及提取源的到达方向DoA数据；

针对每个提取源，使用所述DoA数据和所述平移信息，计算关于所述不同位置的经修改的DoA数据；以及

处理所述提取源和所述经修改的DoA数据，以获得所述经修改的声场描述。

14.如权利要求12或13所述的装置，

其中所述声场计算器(420)被配置为：

对每个层声场描述各个执行所述源分离并针对每层提取环境/扩散/残余信号；或

对所有层一起执行所述源分离并针对至少两层提取单个环境/扩散/残余信号。

15.如权利要求12至14中一项所述的装置，

其中所述声场计算器(420)被配置为：

针对每个提取源，使用所述经修改的DoA数据生成声场描述；

针对特定层，基于对应提取源和所述不同参考位置之间的距离选择声源的声场描述并将每个所选源的声场描述添加在所述层中以获得经修改的层声场描述，或将每个源的声场描述添加在所述声音场景中以获得经修改的总体声场描述。

16.如权利要求15所述的装置，

其中所述声场计算器(420)被配置为在计算经修改的层声场描述时添加每层的环境/扩散/残余信号，或计算待被添加至总体声场描述的单个环境/扩散/残余信号。

17.如权利要求12至16中一项所述的装置，

其中所述声场计算器(420)被配置为，针对每个源计算经修改的距离，以及使用提取源的经修改的距离计算经修改的层声场描述。

18.如权利要求12至17中一项所述的装置，

其中所述声场计算器(420)被配置为，针对每个层声场描述的每个对应分量，添加层声场描述以获得总体声场描述。

19.如权利要求12至18所述的装置，

其中所述声场计算器(420)被配置为，对所述经修改的声场描述应用旋转，所述经修改的声场描述为与所述不同参考位置相关的层声场描述或总体声场描述。

20.如权利要求12至19中一项所述的装置，

其中所述声场计算器(420)被配置为，针对每层：

针对作为所述声场描述的DirAC描述，使用方向数据、深度信息以及所述平移信息，计算不同时间-频率区间的经修改的方向数据，以及

使用所述经修改的方向数据，将所述DirAC描述渲染至包括多个音频声道的声音描述；或者使用时间-频率区间的所述经修改的方向数据而不是所述方向数据、以及可选的与所述DirAC描述中所包括的相同的扩散数据，传输或存储所述DirAC描述。

21.如权利要求12至20中一项所述的装置，其中所述声场计算器(420)被配置为，针对每层，针对时间-频率区间，确定维持所述方向数据，或基于时间频率区间的扩散数据计算经修改的方向数据，其中仅针对指示低于预定义或自适应扩散等级的扩散性的扩散数据计算所述经修改的方向数据。

22.如权利要求12至21中一项所述的装置，还包括：

平移界面(410)，用于提供所述平移信息或旋转信息，所述旋转信息指示针对所述经修改的声场的预期聆听者的旋转；

元数据提供器(402,400)，用于将所述元数据提供给所述声场计算器(420)；

声场提供器(404,400)，用于将所述声场描述提供给所述声场计算器(420)；以及

输出界面(421)，用于输出包括所述经修改的声场描述和经修改的元数据的所述经修改的声场，所述经修改的元数据是使用所述平移信息从所述元数据得出的；或者用于输出多个扬声器声道，每个扬声器声道与预定义扬声器位置相关；或者用于输出所述经修改的声场的双耳表示。

23.如权利要求12至22中一项所述的装置，

其中所述声场描述，针对每层，包括多个声场分量，所述多个声场分量包括全向分量和至少一个定向分量；

其中所述声场计算器，针对每层，包括：

声场分析器(422)，用于分析所述声场分量，以针对不同频率区间得出到达方向信息；

平移变换器(423)，用于使用方向信息和元数据，计算每个频率区间的经修改的到达方向信息，所述元数据包括将距离信息与层相关联的深度图；以及

距离补偿器，用于使用距离补偿信息计算所述经修改的声场，所述距离补偿信息取决于所述层的所述深度图提供的距离以及与频率区间相关联的新距离，所述新距离与所述经修改的到达方向信息相关。

24.如权利要求12至23中一项所述的装置，其中所述声场计算器(420)被配置为，针对每层，

计算(1104)从所述参考位置指向通过所述声场的分析(1102)所获得的声源(510)的第一向量；

使用所述第一向量和所述平移信息计算(1106)从所述不同参考位置(500)指向所述声源(510)的第二向量，所述平移信息限定从所述参考位置(522)到所述不同参考位置(500)的平移向量；以及

使用所述不同参考位置(500)、所述声源(510)的位置以及所述第二向量，或者使用从所述不同参考位置(500)到所述声源(510)的位置的距离以及所述第二向量，计算(1106)距离修改值。

25.如权利要求13至24中一项所述的装置，

其中通过将到达方向单位向量乘以所述元数据中包括的距离而计算第一向量；或者

其中通过从所述第一向量中减去所述平移向量而计算第二向量；或者

其中通过将所述第二向量除以所述第一向量的范数而计算所述距离修改值。

26.如权利要求13至25中一项所述的装置，

其中所述声场计算器(420)被配置为除了所述平移信息之外还接收旋转信息；以及

其中所述声场计算器(420)被配置为使用所述旋转信息执行旋转变换(424)以旋转声场的到达方向数据，其中所述到达方向数据是从通过所述声场描述的声场分析所获得的到达方向数据并使用所述平移信息得出的。

27.如权利要求13至26中一项所述的装置，其中所述声场计算器(420)被配置为，针对每层：

通过声场分析，从所述声场描述和源的方向确定(1200,1240)源；

针对每个源，使用所述元数据确定(1220)所述源距所述参考位置的距离；

使用所述源的方向和所述平移信息确定(1250)与所述不同参考位置相关的所述源的新方向；

确定(1230)与所述不同参考位置相关的所述源的新距离信息；以及

使用所述源的新方向、所述新距离信息、以及所述声场描述或与从所述声场描述所得出的所述源对应的源信号，生成(1260)所述经修改的声场。

28.如权利要求13至27中一项所述的装置，其中所述声场计算器被配置为，针对每层：

通过声音分析，从所述声场描述和与所述参考位置相关的源信号的方向确定(1200)源信号；

使用所述平移信息，计算(1230)与所述不同参考位置相关的所述源信号的新方向；

计算(1230)与所述不同参考位置相关的所述声源的距离信息；以及

使用所述距离信息、所述源信号和所述新方向，合成(1260)所述经修改的声场。

29.如权利要求28所述的装置，其中所述声场计算器(420)被配置为：

通过朝由与重放设置相关的所述新方向所给出的方向移动声源信号，合成所述经修改的声场，以及

在执行移动之前或者在执行移动之后使用所述距离信息按比例缩放所述声源信号。

30.如权利要求28或29所述的装置，

其中所述声场计算器(420)被配置为，针对每层或仅对于单个层，将扩散信号添加到所述声源信号的直达部分，所述直达部分在被添加所述扩散信号之前通过所述距离信息而被修改。

31.如权利要求28至30中一项所述的装置，其中所述声场计算器(420)被配置为，针对每层：

执行所述声场描述的时间-频率转换，并针对时间帧的多个频率区间，计算(422)到达方向；

针对每个频率区间，计算(423,424)所述新方向；

针对每个频率区间，计算所述距离信息；以及

使用频率区间的音频信号、从所述频率区间的所述新方向所得出的所述频率区间的移动增益、以及从对应层的距离信息所得出的所述频率区间的缩放值，执行每个频率区间的直达合成。

32.如权利要求31所述的装置，其中所述声场计算器(420)被配置为，针对每层：

使用从所述频率区间的所述音频信号所得出的扩散音频信号以及使用通过所述频率区间的声音分析所得出的扩散参数，执行扩散合成，并且组合所述直达部分和所述扩散部分以获得所述频率区间的合成音频信号；以及

使用时间帧的所述频率区间的所述音频信号，执行频率-时间转换，以获得时域合成音频信号作为所述经修改的声场。

33.如权利要求28至32中一项所述的装置，其中所述声场计算器(420)被配置为针对每个声源合成与所述不同参考位置相关的声场，所述合成包括：

针对每个源，使用源信号的新方向处理(430)所述源信号，以获得与所述不同参考位置相关的所述源信号的声场描述；

使用所述方向信息，在处理所述源信号之前修改所述源信号或修改所述声场描述；以及

添加所述源的所述声场描述，以获得与所述不同参考位置相关的经修改的声场。

34.如权利要求28至33中一项所述的装置，

其中所述声音分析(1200)被配置为通过源分离算法确定所述源信号，并从所述声场描述中减去所述源信号的至少一些以获得所述扩散信号。

35.如权利要求12至34中一项所述的装置，

其中所述声场计算器(420)被配置为，针对每个层声场描述，从所述元数据接收所述层声场描述的代表距离；

其中所述声场计算器被配置为，针对使用确定从层声场描述确定的源，确定缩放值，其中所述源关于通过所述平移信息确定的新参考位置保留在相同层中；

其中如果所述源关于所述不同参考位置在较低层中，所述缩放值被确定为大于一；或

其中如果所述源关于所述不同参考位置在较高层中，所述缩放值被确定为小于一。

36.如权利要求12至35中一项所述的装置，

其中所述声场计算器被配置为，

分析每个层声场描述以获得在所述层声场描述中包括的每个源的到达方向信息；

使用所述到达方向信息和所述层声场描述的元数据，确定所述层声场描述的源到新参考位置的距离；以及

使用所述层声场描述的源到所述新参考位置的距离以及已从其中提取到源的声场描述的元数据，确定缩放因子。

37.如权利要求36所述的装置，

其中所述声场计算器被配置为，

使用所述源的位置和所述平移信息，确定从所述新参考位置到所述源的位置的距离；以及

比较到所述新参考位置的距离和围绕所述不同参考位置的层的代表距离，使得所述源根据所述比较被渲染到围绕所述不同参考位置的层。

38.如权利要求12至37中一项所述的装置，

其中所述声场计算器(420)被配置为，针对源，使用到达方向信息和几何信息，形成从所述参考位置到所述源的第一向量，其中相同的几何信息被用于层声场描述中的每个源；

其中所述声场计算器(420)被配置为，针对所述层声场描述中的每个源，从所述第一向量和所述平移信息形成第二向量，以及

其中所述声场计算器被配置为，通过将所述第二向量的长度除以所述第一向量的长度，计算每个源的缩放值。

39.一种生成经增强的声场描述的方法，包括：

生成至少一个声场描述，所述至少一个声场描述指示关于至少一个参考位置的声场；以及

生成与所述声场的空间信息相关的元数据；

40.一种从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的方法，所述方法包括：

使用所述空间信息、所述声场描述和指示从参考位置到不同参考位置的平移的平移信息，计算经修改的声场。

41.一种计算器程序，当在计算器或处理器上运行时，所述计算器程序用于执行如权利要求39或40所述的方法。

42.一种经增强的声场描述，包括：

至少一个声场描述及元数据，所述至少一个声场描述指示关于至少一个参考位置的声场，所述元数据与所述声场的空间信息相关。

43.如权利要求42所述的经增强的声场描述，

其中所述至少一个声场描述包括关于所述参考位置的第一声场描述和关于所述参考位置的第二声场描述，其中所述第一声场表述包括仅来自位于围绕所述参考位置的第一体积中的声源的声音数据，其中所述第二声场表述包括仅来自位于围绕所述参考位置的第二体积中的第二声源的声音数据，所述第二体积与所述第一体积不同；以及

其中所述元数据包括所述第一体积和/或所述第二体积的空间描述。