CN114450977A

CN114450977A - 用于在空间变换域中处理声场表示的装置、方法或计算机程序

Info

Publication number: CN114450977A
Application number: CN202080068309.8A
Authority: CN
Inventors: 奥利弗·蒂尔加特; 亚历山大·尼德莱特纳; 伊曼纽尔·哈毕兹; 莫里茨·威尔德; 阿克塞尔·普林格; 阿希姆·昆茨; 亚历山德拉·博塞翁; 德克·马内; 法比安·库奇
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2019-07-29
Filing date: 2020-07-27
Publication date: 2022-05-06
Also published as: CA3149297A1; KR20220038478A; MX2022001147A; US20220150657A1; JP7378575B2; US20240163628A1; EP4005246A1; WO2021018830A1; US12022276B2; BR112022001584A2; JP2022546926A; WO2021018378A1

Abstract

一种用于处理与用于声场表示的定义参考点或定义收听方位相关的声场表示的装置，包括：声场处理器，用于使用目标收听位置与定义参考点或者目标收听方位与定义收听方位的偏差来处理声场表示以获得经处理的声场描述，其中经处理的声场描述在被呈现时提供目标收听位置处的声场表示不同于定义参考点或者目标收听方位不同于定义收听方位的印象，或者用于使用空间滤波器处理声场表示以获得经处理的声场描述，其中经处理的声场描述在被呈现时提供经空间滤波的声场描述的印象，其中声场处理器(1000)被配置为处理声场表示，使得与具有与其相关联的前向变换规则(1021)和后向变换规则(1051)的空间变换域相关地将偏差或空间滤波器(1030)应用于声场表示。

Description

用于在空间变换域中处理声场表示的装置、方法或计算机程序

技术领域

本发明涉及空间声音记录和再现领域。

背景技术

通常，空间录音旨在使用多个麦克风捕获声场，以便在再现端，听者感知到声像，就像它在录音位置一样。在设想的情况下，空间声音是在记录侧的单个物理位置(称为参考位置)中捕获的，而在再现侧，可以从相对于原始参考位置的任意不同角度呈现空间声音。不同的角度包括不同的收听位置(称为虚拟收听位置)和收听方位(称为虚拟收听方位)。

从相对于原始录音位置的任意不同角度呈现空间声音可以实现不同的应用。例如，在6自由度(6DoF)呈现中，再现侧的听者可以在虚拟空间中自由移动(通常佩戴头戴式显示器和耳机)，从不同的角度感知音视频场景。在3自由度(3DoF)应用中，例如在特定位置录制360°视频和空间声音，可以在再现侧旋转视频图像并且可以调整视频的投影(例如，从立体投影[WolframProj1]到Gnomonic投影[WolframProj2]，称为“小行星”投影)。显然，在3DoF或6DoF应用中更改视频角度时，应相应调整再现的空间音频角度以实现一致的音频/视频制作。

存在不同的最先进的方法，可以从不同的角度进行空间声音记录和再现。一种方法是在所有可能的收听位置物理记录空间声音，并在再现侧，使用最接近于虚拟收听位置的空间声音再现的记录。然而，这种记录方法非常具有侵入性，并且需要非常高的测量工作量。为了减少所需物理测量位置的数量，同时仍然从任意角度实现空间声音再现，可以使用非线性参数空间声音记录和再现技术。示例是[VirtualMic]中提出的基于方向性音频编码(DirAC)的虚拟麦克风处理。在这里，空间声音是用仅位于少数(3-4)个物理位置的麦克风阵列记录的。之后，可以在每个麦克风阵列位置估计声场参数，诸如声音的到达方向和扩散度，然后可以使用此信息在任意空间位置合成空间声音。虽然这种方法提供了高度的灵活性并显著减少了测量位置的数量，但它仍然需要多个测量位置。此外，参数信号处理和假定参数信号模型的违反可能会引入可能令人不快的处理伪影，尤其是在高质量声音再现应用中。

发明内容

本发明的目的是提供一种处理与声场表示的定义参考点或定义收听方位相关的声场表示的改进概念。

此目的通过权利要求1的用于处理声场表示的装置、权利要求31的用于处理声场表示的方法或权利要求32的计算机程序来实现。

在用于处理声场表示的装置或方法中，使用目标收听位置相对于定义参考点的偏差或者目标收听方位相对于定义收听方位的偏差来进行声场处理，以获得经处理的声场描述，其中经处理的声场描述在被呈现时提供目标收听位置处的声场表示不同于定义参考点的印象。替代地或附加地，以这样的方式执行声场处理，使得经处理的声场描述在被呈现时提供目标收听方位的声场表示不同于定义收听方位的印象。替代地或附加地，使用空间滤波器进行声场处理，其中获得经处理的声场描述，其中经处理的声场描述在被呈现时提供经空间滤波的声场描述的印象。特别是，声场处理是与空间变换域相关地执行的。特别地，声场表示包括音频信号域中的多个音频信号，其中这些音频信号可以是扬声器信号、麦克风信号、高保真度立体声响复制(Ambisonics)信号或其他多音频信号表示，诸如音频对象信号或音频对象编码信号。声场处理器被配置为处理声场表示，使得在具有与其相关联的前向变换规则和后向变换规则的空间变换域中应用定义参考点或定义收听方位与目标收听位置或目标收听方位之间的偏差。此外，声场处理器被配置为在音频信号域中再次生成经处理的声场描述，其中音频信号域再次为时域或时/频域，并且视情况而定经处理的声场描述可以包括高保真度立体声响复制信号、扬声器信号、双耳信号和/或音频对象信号或经编码的音频对象信号。

根据实施方式，由声场处理器执行的处理可以包括变换至空间变换域的前向变换以及空间变换域中的信号，即，虚拟位置处的虚拟扬声器的虚拟音频信号被实际计算，并且取决于应用，在变换域中使用空间滤波器对其进行空间滤波，或者在没有任何可选空间滤波的情况下，使用后向变换规则将其变换回音频信号域。因此，在此实施方式中，虚拟扬声器信号在前向变换处理的输出处被实际计算，并且表示经处理的声场表示的音频信号被实际计算为使用后向变换规则的后向空间变换的输出。

然而，在另一实施方式中，虚拟扬声器信号并未被实际计算。而是，仅计算和组合前向变换规则、可选空间滤波器和后向变换规则以获得变换定义，并且将此变换定义优选地以矩阵的形式应用于输入声场表示以获得经处理的声场表示，即音频信号域中的单个音频信号。因此，这种使用前向变换规则、可选空间滤波器和后向变换规则的处理产生了如同与实际计算虚拟扬声器信号一样的经处理的声场表示。然而，在这样的变换定义的使用中，并不必实际计算虚拟扬声器信号，而只需计算单个变换/滤波规则的组合，诸如通过组合单个规则生成的矩阵，并将其应用于音频信号域中的音频信号。

此外，另一个实施例涉及存储器的使用，该存储器具有针对不同目标收听位置和/或目标方位的预先计算的变换定义，例如针对位置和方位的离散网格。取决于实际目标位置或目标方位，最佳匹配的预先计算和存储的变换定义必须在存储器中被识别出、从存储器中被检索出并被应用于音频信号域中的音频信号。

这种预先计算的规则的使用或变换定义的使用——无论是完整变换定义还是仅部分变换定义——都是有用的，因为前向空间变换规则、空间滤波和后向空间变换规则都是线性操作，并且可以相互组合并应用于“单次”操作，而无需显式计算虚拟扬声器信号。

取决于实施方式，一方面可以应用通过组合前向变换规则和空间滤波获得的或通过组合空间滤波和后向变换规则获得的部分变换定义，从而仅前向变换或后向变换是使用虚拟扬声器信号显式计算的。这样，空间滤波既可以与前向变换规则组合，也可以与后向变换规则组合，因此可以视情况节省处理操作。

实施例的优点在于获得了与虚拟扬声器域相关的声音场景修正，用于从不同角度进行一致的空间声音再现。

优选实施例描述了一种实用方式，其中在单个参考位置中记录或表示空间声音，同时仍然允许在再现侧随意改变音频角度。音频角度中的改变可以是例如旋转或平移，但也影响包括空间滤波在内的声学缩放。可以使用例如麦克风阵列来记录录制侧的空间声音，其中阵列位置表示参考位置(它被称为单个录制位置，即使麦克风阵列可能由位于稍微不同位置的多个麦克风组成，而麦克风阵列的扩展与录音侧的尺寸相比可以忽略不计)。录音位置的空间声音也可以用(高阶)高保真度立体声响复制信号来表示。此外，实施例可以概括为使用扬声器信号作为输入，而扬声器设置的最佳位置表示单个参考位置。为了改变记录的空间音频相对于参考位置的角度，将记录的空间声音转换为虚拟扬声器域。通过改变虚拟扬声器的位置并取决于相对于参考位置的虚拟收听位置和方位对虚拟扬声器信号进行滤波，可以根据需要调整空间声音的角度。与最先进的参数信号处理[VirtualMic]相比，所提出的方法是完全线性的，避免了非线性处理伪影。[AmbiTrans]中的作者描述了一种相关方法，其中在虚拟扬声器域中修正空间声音场景，例如，以实现旋转、扭曲和方向性响度修正。然而，这种方法没有揭示如何修正空间声音场景以在相对于参考位置的任意虚拟收听位置实现一致的音频呈现。此外，[AmbiTrans]中的方法仅描述了针对高保真度立体声响复制输入的处理，而实施例涉及高保真度立体声响复制输入、麦克风输入和扬声器输入。

进一步的实施方式涉及执行音频角度的空间变换以及可选地执行对应的空间滤波以便模拟诸如球形视频的对应视频图像的不同空间变换的处理。在实施例中，处理的输入和输出是一阶高保真度立体声响复制(FOA)或更高阶高保真度立体声响复制(HOA)信号。如前所述，整个处理可以实现为单个矩阵乘法。

附图说明

本发明的优选实施例随后参照附图进行讨论，其中：

图1示出了声场处理器的概略框图；

图2示出了不同阶和模的球谐函数的可视化；

图3示出了用于获得虚拟扬声器信号的示例波束形成器；

图4示出了用于对虚拟扬声器信号进行滤波的示例空间窗口；

图5示出了在所考虑的坐标系中参考位置和收听位置的示例；

图6示出了用于一致的音频或视频呈现的360°视频图像的标准投影和相应的音频收听位置；

图7a示出了用于一致的音频/视频呈现的360°视频图像的修正投影和对应的经修正的音频收听位置；

图7b示出了标准投影情况下的视频投影图；

图7c示出了小行星投影情况下的视频投影示意图；

图8示出了用于处理实施例中的声场表示的装置的实施例；

图9a示出了声场处理器的实施方式；

图9b示出了位置修正和后向变换定义计算的实现方式；

图10a示出了使用完整变换定义的实现；

图10b示出了使用部分变换定义的声场处理器的实现；

图10c示出了使用进一步的部分变换定义的声场处理器的另一实施方式；

图10d示出了使用虚拟扬声器信号的显式计算的声场处理器的实现；

图11a示出了使用具有预先计算的变换定义或规则的存储器的实施例；

图11b示出了使用处理器和变换定义计算器的实施例；

图12a示出了用于高保真度立体声响复制输入的空间变换的实施例；

图12b示出了扬声器声道的空间变换的实施方式；

图12c示出了麦克风信号的空间变换的实施方式；

图12d示出了用于音频对象信号输入的空间变换的实施方式；

图13a示出了(逆)空间变换以获得高保真度立体声响复制输出的实施方式；

图13b示出了用于获得扬声器输出信号的(逆)空间变换的实施方式；

图13c示出了用于获得双耳输出的(逆)空间变换的实施方式；

图13d示出了在图13c的替代方案中用于获得双耳信号的(逆)空间变换的实施方式；

图14示出了用于通过虚拟扬声器信号的显式计算来处理声场表示的方法或装置的流程图；以及

图15示出了用于处理声场表示而不显式计算虚拟扬声器信号的方法或装置的实施例的流程图。

具体实施方式

图8示出了用于处理与声场表示的定义参考点或定义收听方位相关的声场表示的装置。声场表示经由输入接口900获得，并且在输入接口900的输出处，与定义参考点或定义收听方位相关的声场表示1001是可用的。此外，此声场表示被输入到与空间变换域相关地操作的声场处理器1000中。换言之，声场处理器1000被配置为处理声场表示，使得在与前向变换规则1021和后向变换规则1051相关联的空间变换域中应用偏差或空间滤波器1030。

特别地，声场处理器被配置用于使用目标收听位置相对于定义参考点的偏差或者使用目标收听方位相对于定义收听方位的偏差来处理声场表示。偏差由检测器1100获得。可替代地或附加地，检测器1100被实施为检测目标收听位置或目标收听方位而无需实际计算偏差。目标收听位置和/或目标收听方位，或者可替代地，定义参考点和目标收听位置之间的偏差或定义收听方位和目标收听方位之间的偏差被转发到声场处理器1000。声场处理器使用偏差处理声场表示，从而获得经处理的声场描述，其中经处理的声场描述在被呈现时提供目标收听位置处的声场表示不同于定义参考点或目标收听方位不同于定义收听方位的印象。替代地或附加地，声场处理器被配置用于使用空间滤波器处理声场表示，从而获得经处理的声场描述，其中经处理的声场描述在被呈现时提供经空间滤波的声场描述的印象，即经过空间滤波器滤波的声场描述。

因此，无论是否执行空间滤波，声场处理器1000被配置为处理声场表示，使得在具有与其相关联的前向变换规则1021以及后向变换规则1051的空间变换域中应用偏差或空间滤波器1030。前向和后向变换规则是使用虚拟位置处的一组虚拟扬声器导出的，但不必显式计算虚拟扬声器的信号。

优选地，声场表示包括大于或等于二或三的多个声场分量。此外，优选地，检测器1100被提供为用于处理的装置的显式特征。然而，在另一个实施例中，声场处理器1000具有用于目标收听位置或目标收听方位或相应偏差的输入。此外，声场处理器1000输出经处理的声场描述1201，该经处理的声场描述1201可以被转发到输出接口1200，然后输出用于经处理的声场描述1201的传输或存储。一种传输例如是实际的经由(真实)扬声器或经由与双耳输出相关的耳机呈现经处理的声场描述。可替代地，例如，在高保真度立体声响复制输出的情况下，由输出接口1200输出的经处理的声场描述1201可以被转发/输入到高保真度立体声响复制声音处理器中。

图9a示出了声场处理器1000的优选实施方式。特别地，声场表示包括音频信号域中的多个音频信号。因此，到声场处理器1001的输入包括多个音频信号，并且优选地，至少两个或三个不同的音频信号，诸如高保真度立体声响复制信号、扬声器声道、音频对象数据或麦克风信号。音频信号域优选地是时域或时/频域。

此外，声场处理器1000被配置为处理声场表示，使得在空间变换域中应用偏差或空间滤波器，该空间变换域具有与其相关联的前向变换规则1021，如由前向变换块1020获得的，并且具有相关联的由后向变换块1050获得的后向变换规则1051。此外，声场处理器1000被配置为在音频信号域中生成经处理的声场描述。因此，优选地，块1050的输出，即线1201上的信号与进入前向变换块1020的输入1001在同一域中。

取决于是否执行虚拟扬声器信号的显式计算，前向变换块1020实际执行前向变换，而后向变换块1050实际变换后向变换。在另一实施方式中，在没有显式计算虚拟扬声器信号的情况下仅执行变换域相关处理的情况下，前向变换块1020输出前向变换规则1021，并且后向变换块1050为声场处理目的输出后向变换规则1051。此外，关于空间滤波器实现，空间滤波器或者被应用为空间滤波器块1030，或者空间滤波器通过应用空间滤波器规则1031来反映。两种实现，即显式虚拟扬声器信号的显式计算或不显式计算彼此等价，因为声场处理的输出，即信号1201，在被呈现时提供了目标收听位置处的声场表示不同于定义参考点或目标收听方位不同于定义收听方位的印象。为此，空间滤波器1030和后向变换块1050优选地接收目标位置或/和目标方位。

图9b示出了位置修正操作的优选实施方式。为此，提供了虚拟扬声器位置确定器1040a。块1040a接收虚拟扬声器位置处的虚拟扬声器数量的限定作为输入，这些虚拟扬声器位置通常均等地分布在定义参考点周围的球体上。优选地，假设有250个虚拟扬声器。通常，50个或更多的虚拟扬声器和/或500个或更少的虚拟扬声器足以提供有用的高质量声场处理操作。

取决于给定的虚拟扬声器并且取决于参考位置和/或参考方位，块1040a生成与参考位置或/和参考方位相关的用于每个虚拟扬声器的方位角/仰角。此信息优选地被输入到前向变换块1020中，使得在输入到块1040a中限定的虚拟扬声器的虚拟扬声器信号可以被显式地(或隐式地)计算。

取决于实施方式，可以给出不同于方位角/仰角的虚拟扬声器的其他限定，诸如笛卡尔坐标或笛卡尔方向信息，诸如一方面指向与方位相应的原始的或预定义的参考位置的扬声器的方位相对应的方位的向量或者相对于后向变换，指向目标方位的向量。

块1040b接收目标位置或目标方位，或者替代地或附加地接收定义参考点或定义收听方位与目标收听位置或目标收听方位之间的位置/方位的偏差作为输入。然后，块1040b根据由块1040a生成的数据和输入块1040b的数据计算与目标位置或/和目标方位相关的每个虚拟扬声器的方位角/仰角，并将该信息输入到后向变换定义1050中。因此，块1050可以实际应用具有经修正的虚拟扬声器位置/方位的后向变换规则，或者可以输出如图9a所示的后向变换规则1051，用于没有显式使用和处理虚拟扬声器信号的实施方式。

图10a示出了与使用完整变换定义有关的实施方式，诸如由前向变换规则1021、空间滤波器1031和后向变换规则1051组成的变换矩阵，以便从声场表示1001计算经处理的声场表示1201。

在图10b所示的另一实施方式中，通过组合前向变换规则1021和空间滤波器1031来获得诸如部分变换矩阵的部分变换定义。因此，在部分变换定义1072的输出处，获得的经空间滤波的虚拟扬声器信号随后由后向变换1050处理以获得经处理的声场表示1201。

在图10c所示的另一实施方式中，声场表示被输入到前向变换1020中以获得在输入到空间滤波器中的实际虚拟扬声器信号。通过空间滤波器1031和后向变换规则1051的组合计算另一个(部分)变换定义1073。因此，在块1201的输出处，经处理的声场表示，例如，获得诸如时域或时/频域的音频信号域中的多个音频信号。

图10d示出了在空间域中利用显式信号的完全分离的实施方式。在此实施方式中，对声场表示应用前向变换，并且在块1020的输出处，获得一组例如250虚拟扬声器信号。应用空间滤波器1030，并且在块1030的输出处，获得一组经空间滤波的例如250虚拟扬声器信号。该组经空间滤波的虚拟扬声器信号经受空间后向变换1050，以在输出处获得经处理的声场表示1201。

取决于实施方式，执行或不执行使用空间滤波器1031的空间滤波。在使用空间滤波器的情况下，并且在不执行任何位置/方位修正的情况下，前向变换1020和后向变换1050依赖于相同的虚拟扬声器位置。然而，不管虚拟扬声器信号是否被显式地计算，都已经在空间变换域中应用了空间滤波器1031。

此外，在不执行任何空间滤波的情况下，执行将收听位置或收听方位修正为目标收听位置和目标方位，因此，一方面在反向/后向变换中虚拟扬声器位置/方位将不同，另一方面是前向变换。

图11a示出了在如1080指示的存储器的上下文中的声场处理器的实施方式，该存储器具有用于位置和/或方位的离散网格的预先计算的多个变换定义(全部或部分)或者前向、后向或滤波规则。

检测器1100被配置为检测目标位置和/或目标方位，并将此信息转发给处理器1081，用于在存储器1080内寻找最接近的变换定义或前向/后向/滤波规则。为此，处理器1081具有位置和方位的离散网格知识，存储相应的变换定义或预先计算的前向/后向/滤波规则。一旦处理器1081识别出与目标位置或/和目标方位尽可能接近的匹配的最近的网格点，此信息就被转发到存储器检索器1082，该存储器检索器1082被配置为检索相应的全部或部分变换定义或用于检测到的目标位置和/或方位的前向/后向/滤波规则。在其他实施例中，从数学的角度来看，没有必要使用最近的网格点。相反，确定网格点不是最近的网格点，而是确定与目标位置或方位相关的网格点可能是有用的。示例可能是，从数学的角度来看，网格点不是最接近的，而是第二或第三接近或第四接近的网格点比最接近的更好。原因是优化具有多于一个的尺寸，并且允许方位角的偏差更大但与仰角的偏差更小可能会更好。此信息被输入到相应的(矩阵)处理器1090，该处理器接收声场表示作为输入并输出经处理的声场表示1201。预先计算的变换定义可以是具有N行和M列的尺寸的变换矩阵，其中N和M为大于2的整数，声场表示有M个音频信号，经处理的声场表示1201有N个音频信号。在数学转置公式中，情况可以反之亦然，即预先计算的变换定义可以是具有M行和N列的尺寸的变换矩阵，或者声场表示具有N个音频信号，并且经处理的声场表示1201具有M个音频信号。

图11a示出了矩阵处理器1090的另一实施方式。在此实施方式中，矩阵处理器由矩阵计算器1092馈送，该矩阵计算器1092接收参考位置/方位和目标位置/方位作为输入，或者尽管未在图中示出，有相应的偏差。基于此偏差，计算器1092计算如关于图10c所讨论的任何部分或完整变换定义，并将此规则转发给矩阵处理器1090。在完整变换定义1071的情况下，矩阵处理器1090执行例如，对于通过分析滤波器组获得的每个时间/频率瓦片，使用组合矩阵1071的单个矩阵运算。在部分变换定义1072或1073的情况下，处理器1090执行实际的前向或后向变换，并且，附加地，矩阵运算以获得图10b的情况的经滤波的虚拟扬声器信号或从虚拟扬声器信号的集合中获得音频信号域中的经处理的声音滤波器表示1201。

在以下部分中，将描述实施例并解释如何将不同的空间声音表示变换为虚拟扬声器域，然后对其进行修正以在任意虚拟收听位置(包括任意收听方位)实现一致的空间声音再现，即相对于原始参考位置限定。

图1示出了所提出的新方法的概述框图。一些实施例将仅使用整体图中所示的构建块的子集，并根据应用场景丢弃某些处理块。

实施例的输入是时域或时频域中的多个(两个或更多个)音频输入信号。时域输入信号可选地可以使用分析滤波器组(1010)变换成时频域。输入信号可以是例如扬声器信号、麦克风信号、音频对象信号或高保真度立体声响复制分量。音频输入信号表示与定义参考位置和方位相关的空间声场。参考位置和方位可以是例如面对0°方位角和仰角(对于扬声器输入信号)、麦克风阵列位置和方位(对于麦克风输入信号)或坐标系的中心(对于高保真度立体声响复制输入信号)的最佳位置(sweet spot)。

使用第一或前向空间变换(1020)将输入信号变换到虚拟扬声器域中。第一空间变换(1020)可以是例如波束成形(当使用麦克风输入信号时)、扬声器信号上混(当使用扬声器输入信号时)或平面波分解(当使用高保真度立体声响复制输入信号时)。对于音频对象输入信号，第一空间变换可以是音频对象呈现器(例如，VBAP[Vbap]呈现器)。基于一组虚拟扬声器位置计算第一空间变换(1020)。通常，虚拟扬声器位置可以限定为均匀分布在球体上并以参考位置为中心。

可选地，可以使用空间滤波(1030)对虚拟扬声器信号进行滤波。空间滤波(1030)用于根据期望的收听位置或方位对虚拟扬声器域中的声场表示进行滤波。例如，这可以用于在收听位置越来越接近于声源时增加响度。对于特定的空间区域也是如此，例如可以定位这样的声音对象。

虚拟扬声器位置在位置修正块(1040)中根据期望的收听位置和方位进行修正。基于经修正的虚拟扬声器位置，使用第二或后向空间变换(1050)将(经滤波的)虚拟扬声器信号从虚拟扬声器域变换回来以获得两个或更多个期望的输出音频信号。第二空间变换(1050)可以是例如球谐分解(当应该在高保真度立体声响复制域中获得输出信号时)、麦克风信号(当应该在麦克风信号域中获得输出信号时)或扬声器信号(当应在扬声器域中获得输出信号时)。第二空间变换(1050)独立于第一空间变换(1020)。时频域中的输出信号可选地可以使用合成滤波器组(1060)变换到时域中。

由于虚拟收听位置的位置修正(1040)，当在第二空间变换(1050)中使用时，输出信号表示具有期望观看方向的期望收听位置处的空间声音，该期望观看方向可能不同于参考位置和方位。

在一些应用中，实施例与视频应用一起用于一致的音频/视频再现，例如，当从不同的用户限定的角度呈现360°相机的视频时。在这种情况下，参考位置和方位通常对应于360°视频相机的初始位置和方位。用于计算块(1040)中经修正的虚拟扬声器位置的期望收听位置和方位随后对应于360°视频内的用户限定的观看位置和方位。通过这样做，在块(1050)中计算的输出信号从360°视频内用户限定的位置和方位的角度表示空间声音。显然，相同的原则可能适用于不完全覆盖整个(360°)视场的应用，但仅适用于部分视场，例如，允许用户限定的观看位置和方位的应用(例如，180°视场观看应用)。

在实施例中，声场表示与三维视频或球面视频相关联，并且定义参考点是三维视频或球面视频的中心。检测器110被配置为检测指示实际视点与中心不同的用户输入，实际视点与目标收听位置相同，并且检测器被配置为从用户输入导出所述检测到的偏差，或者检测器110被配置为检测指示实际观看方位与指向中心的定义收听方位不同的用户输入，该实际观看方位与目标收听方位相同，并且检测器被配置为从用户输入导出所述检测到的偏差。球面视频可以是360度视频，但也可以使用其他(部分)球面视频，例如覆盖180度或更多的球面视频。

在进一步的实施例中，声场处理器被配置为处理声场表示，使得经处理的声场表示表示标准或小行星投影或至少一个声音对象的标准或小行星投影之间的迁移，其中至少一个声音对象包括在关于三维视频或球面视频的显示区域的声场描述，显示区域由用户输入和限定的观看方向限定。诸如，当图7b中的h的大小在零和从中心点延伸到点S的全长之间时的迁移。

可以应用实施例来实现模拟视觉缩放的声学缩放。在视觉缩放中，当放大特定区域时，感兴趣区域(在图像中心)在视觉上看起来更近，而图像侧的不想要的视频对象向外移动并最终从图像中消失。声学上，一致的音频呈现意味着当放大时，缩放方向中的音频源变得更响，而侧面的音频源向外移动并最终变得无声。显然，这样的效果对应于将虚拟收听位置移动到更接近于位于缩放方向上的虚拟扬声器(详见实施例3)。此外，空间滤波(1030)中的空间窗口可以限定为当对应的虚拟扬声器在根据缩放的视频图像的感兴趣区域之外时，使得虚拟扬声器的信号被衰减(详见实施例2)。

在许多应用中，在块(1020)中使用的输入信号和在块(1050)中计算的输出信号在具有相同数量的信号的相同空间域中表示。这意味着，例如，如果将特定高保真度立体声响复制阶的高保真度立体声响复制分量用作输入信号，则输出信号对应于相同阶的高保真度立体声响复制分量。然而，与输入信号相比，在块(1050)中计算的输出信号可以在不同的空间域中表示并且与输入信号相比具有不同数量的信号是可能的。例如，可以使用特定阶次的高保真度立体声响复制分量作为输入信号，同时计算扬声器域中具有特定声道数的输出信号。

下面对图1中处理块的具体实施例进行说明。对于分析滤波器组(1010)和合成滤波器组(1060)，可以分别使用最先进的滤波器组或时频变换，诸如短时傅里叶变换(STFT)。通常，可以使用STFT，具有1024个样本的变换长度和512个样本的跳跃大小，采样频率为48000Hz。通常，处理是针对每个时间和频率单独执行的。不失一般性，以下说明时频域处理。然而，该处理也可以在时域中以等效的方式进行。

实施例1a：用于高保真度立体声响复制输入的第一空间变换(1020)(图12a)

在此实施例中，第一空间变换(1020)的输入是时频域中的L阶高保真度立体声响复制信号。高保真度立体声响复制信号表示多声道信号，其中每个声道(称为高保真度立体声响复制分量或系数)相当于所谓的空间基函数的系数。存在不同类型的空间基函数，例如球谐函数[FourierAcoust]或柱谐波[FourierAcoust]。柱谐波可用于描述2D空间中的声场(例如用于2D声音再现)，而球谐函数可用于描述2D和3D空间中的声场(例如用于2D和3D声音再现)。不失一般性，下面考虑具有球谐函数的后一种情况。在这种情况下，高保真度立体声响复制信号由(L+1)²个单独的信号(分量)组成，并由以下向量表示

a(k,n)＝[A_0,0(k,n),A_1,-1(k,n),…,A_l,m(k,n),…,A_L,L(k,n)]^T

其中k和n分别为频率索引和时间索引，0≤l≤L为电平(阶)，-l≤m≤l为高保真度立体声响复制系数(分量)的模A_l,m(k,n)。可以测量一阶高保真度立体声响复制信号(L＝1)，例如使用声场(SoundField)麦克风。可以例如使用EigenMike测量高阶高保真度立体声响复制信号。记录位置分别表示坐标系的中心和参考位置。

为了将高保真度立体声响复制信号a(k,n)转换为虚拟扬声器域，优选可以在a(k,n)上应用最先进的平面波分解(PWD)1022，即逆球谐分解，可以如[FourierAcoust]一样计算

项

是在方位角

和仰角

处评估的l阶和模m的球谐函数[FourierAcoust]。角度

表示第j个虚拟扬声器的位置。信号

可以解释为第j个虚拟扬声器的信号。

球谐函数的示例如图2所示，它示出了不同级(阶)l和模m的球谐函数。阶l有时称为级，而模m也可称为度数。如图2所示，零阶(零级)l＝0的球谐函数表示全向声压，而一阶(第一级)l＝1的球谐函数表示沿笛卡尔坐标系的尺寸的偶极子分量。

优选将虚拟扬声器的方位

限定为均匀分布在球体上。然而，根据应用，可以选择不同的方位。虚拟扬声器位置的总数用J表示。需要注意的是，J越大，空间处理的精度越高，但计算复杂度越高。在实践中，给出合理数量的虚拟扬声器，例如由J＝250给出。

J个虚拟扬声器信号被收集在由下式定义的向量中

它表示虚拟扬声器域中的音频输入信号。

显然，此实施例中的J个虚拟扬声器信号s(k,n)可以通过将单个矩阵乘法应用于音频输入信号来计算，即

其中J×L矩阵

包含不同级(阶)、模和虚拟扬声器位置的球面谐波，即，

实施例1b：用于扬声器输入的第一空间变换(1020)(图12b)

在此实施例中，第一空间变换(1020)的输入是M个扬声器信号。扬声器对应设置可以是任意的，例如，常见的5.1、7.1、11.1或22.2扬声器设置。扬声器设置的最佳位置表示参考位置。第m个扬声器位置(m≤M)由方位角

和仰角

表示。

在此实施例中，可以将M个输入扬声器信号转换为J个虚拟扬声器信号，其中虚拟扬声器位于角度

处。如果扬声器的数量M小于虚拟扬声器的数量J，这表示扬声器上混(up-mix)问题。如果扬声器的数量M超过虚拟扬声器的数量J，则表示下混(down-mix)问题1023。通常，可以实现扬声器格式转换，例如通过使用最先进的静态(与信号无关)扬声器格式转换算法，诸如[FormatConv]中解释的虚拟或被动上混。在这种方法中，虚拟扬声器信号被计算为

其中向量

a(k,n)＝[A₁(k,n),A₂(k,n),…,A_M(k,n)]^T

包含时频域中的M个输入扬声器信号，k和n分别是频率索引和时间索引。而且，

是J个虚拟扬声器信号。矩阵C是静态格式转换矩阵，可以通过使用例如VBAP平移(panning)方案[Vbap]来计算，如[FormatConv]中所述。格式转换矩阵取决于输入扬声器的M个位置和虚拟扬声器的J个位置。

优选地，虚拟扬声器的角度

均匀分布在球面上。在实践中，虚拟扬声器J的数量可以任意选择，而数量越大，空间处理的精度越高，但计算复杂度越高。在实践中，给出了合理数量的虚拟扬声器，例如由J＝250给出。

实施例1c：用于麦克风输入的第一空间变换(1020)(图12c)

在此实施例中，第一空间变换(1020)的输入是具有M个麦克风的麦克风阵列的信号。麦克风可以具有不同的指向性，诸如全向、心形或偶极特性。麦克风可以布置成不同的配置，诸如重合麦克风阵列(当使用方位麦克风时)、线性麦克风阵列、圆形麦克风阵列、非均匀平面阵列或球形麦克风阵列。在许多应用中，优选平面或球形麦克风阵列。实际中的典型麦克风阵列例如由具有M＝8个阵列半径为3cm的全向麦克风的圆形麦克风阵列给出。

M个麦克风位于位置d_1…M。阵列中心表示参考位置。给定时频域的M个麦克风信号

a(k,n)＝[A₁(k,n),A₂(k,n),…,A_M(k,n)]^T

其中k和n分别是频率索引和时间索引，A_1…M(k,n)是位于d_1…M处的M个麦克风的信号。

为了计算虚拟扬声器信号，优选将波束形成1024应用于输入信号a(k,n)并将波束形成器转向虚拟扬声器的位置。通常，波束形成被计算为

其中，b_j(k,n)是计算第j个虚拟扬声器信号的波束形成器权重，记为

一般来说，波束形成器的权重可以是时间和频率相关的。如在前面的实施例中，角度

表示第j个虚拟扬声器的位置。优选地，方位

均匀分布在球体上。虚拟扬声器位置的总数由J表示。在实践中，此数字可以任意选择，而更高的数字会以更高的计算复杂度为代价导致更高的空间处理精度。在实践中，给出了合理数量的虚拟扬声器，例如由J＝250给出。

图3示出了波束成形的示例。这里，

是麦克风阵列(由白色圆圈表示)所在的坐标系的中心。此位置表示参考位置。虚拟扬声器位置由黑点表示。第j个波束形成器的波束由灰色区域表示。波束形成器指向第j个扬声器(在这种情况下，j＝2)以创建第j个虚拟扬声器信号。

获得权重b_j(k,n)的波束成形方法是计算所谓的匹配的波束成形器，其权重b_j(k)由下式给出

向量

包含阵列麦克风之间针对所考虑的频带k和第j个虚拟扬声器位置的所需方位

的相对传递函数(RTF)。例如，RTF

可以使用校准测量来测量，或者可以使用诸如平面波模型[FourierAcoust]之类的声场模型进行模拟。

除了使用匹配的波束形成器外，还可以应用其他波束形成技术，诸如MVDR、LCMV、多声道维纳滤波器。

J个虚拟扬声器信号被收集在由下式定义的向量中

其表示虚拟扬声器域中的音频输入信号。

其中J×M矩阵C(k)包含J个虚拟扬声器的波束形成器权重，即

实施例1d：用于音频对象信号输入的第一空间变换(1020)(图12d)

在此实施例中，第一空间变换(1020)的输入是M个音频对象信号以及它们伴随的位置元数据。与实施例1b类似，例如可以使用VBAP平移方案[Vbap]来计算J个虚拟扬声器信号。VBAP平移方案1025根据音频对象输入信号的M个位置和虚拟扬声器的J个位置来呈现J个虚拟扬声器信号。显然，可以使用除VBAP平移方案之外的其他呈现方案来代替。音频对象的位置元数据可以指示静态对象位置或随时间变化的对象位置。

实施例2：空间滤波(1030)

通过将s(k,n)中的虚拟扬声器信号与空间窗口

相乘来应用空间滤波(1030)，即，

其中

表示经滤波的虚拟扬声器信号。可以应用空间滤波(1030)例如以朝向期望收听位置的观看方向或当期望收听位置的位置接近声源或虚拟扬声器位置时强调空间声音。这意味着空间窗口

通常对应于非负实值增益值，这些增益值通常基于期望的收听位置(由向量p表示)和期望的收听方位或观看方向计算得出(由向量l表示)。

例如，空间窗口

可以计算为指向所需观看方向的公共一阶空间窗口，根据所需收听位置和虚拟扬声器位置，进一步被衰减或增强，即

这里，

是对应于第j个虚拟扬声器位置的方向向量并且l＝[cosφcosθ,sinφcosθ,sinθ]^T是对应于所需收听方位的方向向量，其中φ是方位角，θ是所需收听方位的仰角。此外，α是决定空间窗口形状的一阶参数。例如，获得α＝0.5的心形空间窗口。图4示出了具有心形形状和观看方向φ＝45°的相应示例空间窗口。对于α＝1，将不应用空间窗口，只有距离权重G_j(p)有效。距离权重G_j(p)根据期望收听位置和第j个虚拟扬声器之间的距离来强调空间声音。例如，权重G_j(p)可以计算为

G_j(p)＝(||n_j-||)^-β

其中p＝[x,y,z]是笛卡尔坐标中所需的收听位置。图5示出了所考虑的坐标系的绘图，其中

是参考位置，

是期望的收听位置，其中p是对应的收听位置向量。虚拟扬声器位于实心圆上，黑点表示示例虚拟扬声器。上述等式中圆括号内的项是所需收听位置与第j个虚拟扬声器位置之间的距离。因数β是距离衰减系数。例如，对于β＝0.5，可以将对应于第j个虚拟扬声器的功率与所需收听位置和虚拟扬声器位置之间的距离成反比放大。这模拟了在接近由虚拟扬声器表示的声源或空间区域时增加响度的效果。

一般来说，空间窗口

可以被任意定义。在诸如声学缩放等应用中，空间窗口可以定义为以缩放方向为中心的矩形窗口，在放大时变得更窄，在缩小时变得更宽。窗口宽度可以定义为与缩放的视频图像一致，使得当相应的音频对象从缩放的视频图像中消失时，窗口衰减侧面的声源。

显然，此实施例中的经滤波的虚拟扬声器信号可以通过单元素向量乘法从虚拟扬声器信号中计算出来，即，

其中

是元素乘积(Schur乘积)以及

是给定所需收听位置和方位的J个虚拟扬声器的窗口权重。J个经滤波的虚拟麦克风信号被收集在以下向量中

实施例3：位置修正(1040)

位置修正(1040)的目的是从具有期望的收听方位的期望的收听位置的视点(POV)计算虚拟扬声器位置。

图6中示出了示例，该示例示出了空间场景的俯视图。不失一般性，假设参考位置对应坐标系的中心，用

表示。此外，参考方位方位正前方，即零度方位角和零度仰角(

和

)。

周围的实心圆圈表示虚拟扬声器所在的球体。例如，该图示出了第j个虚拟扬声器的可能位置向量n_j。

在图7中，期望的收听位置由

表示。参考位置

和期望的收听位置

之间的向量由p给出(参见实施例2a)。可以看出，从期望的收听位置的POV开始的第j个虚拟扬声器的位置可以由向量表示

n′_j＝n_j-p

如果所期望的收听旋转与参考旋转不同，则可以在计算经修正的虚拟扬声器位置时应用附加的旋转矩阵，即

n′_j＝(n_j-p)R

例如，如果所期望的收听方位(相对于参考方位)对应于方位角φ，则旋转矩阵可以计算为[RotMat]

然后在第二空间变换(1050)中使用经修正的虚拟扬声器位置n′_j。经修正的虚拟扬声器位置也可以用经修正的方位角

和经修正的仰角

来表示，即，

作为示例，此实施例中描述的位置修正可以用于在使用球面视频图像的不同投影时实现一致的音频/视频再现。例如，用户可以经由视频播放器的用户接口来选择球形视频的不同投影或观看位置。在这样的应用中，图6表示球面视频的标准投影的俯视图。在这种情况下，圆圈表示球形视频的像素位置，水平线表示二维视频显示(投影面)。投影视频图像(显示图像)是通过从投影点投影球形视频来找到的，这导致示例图像像素的虚线箭头。这里，投影点对应于球体

的中心。当使用标准投影时，可以通过将所期望的(虚拟)收听位置放置在

中，即在图6所描绘的圆的中心处来创建相应的一致空间音频图像。此外，如上所述，虚拟扬声器位于球体的表面上，即沿着所描绘的圆圈。这对应于标准空间声音再现，其中所期望的收听位置位于虚拟扬声器的最佳位置。

图7a表示考虑所谓的小行星投影时的俯视图，它表示呈现360°视频的常见投影。在这种情况下，投影球面视频的投影点位于球体背面的位置

而不是原点。可以看出，这导致投影表面上的像素位置发生偏移。使用小行星投影时，通过将收听位置放置在球体背面的位置

处创建正确(一致)的音频图像，而虚拟扬声器位置保留在球体表面上。这意味着经修正的虚拟扬声器位置是相对于收听位置

计算的，如上所述。通过改变图7a中向量p的长度，可以实现不同投影(视频和音频)之间的平滑过渡。

作为另一个示例，此实施例中的位置修正也可以用于创建模仿视觉缩放的声学缩放效果。为了模拟视觉缩放，可以将虚拟扬声器位置移向缩放方向。在这种情况下，缩放方向的虚拟扬声器会越来越近，而侧面的虚拟扬声器(相对于缩放方向)会向外移动，类似于视频对象在缩放的视频图像中移动。

随后，参考图7b和图7c。通常，例如应用空间变换以将空间音频图像与对应的诸如360°视频图像的不同投影对齐。图7b示出了球面视频的标准投影的附视图。圆圈表示球形视频，水平线表示视频显示或投影表面。球面图像相对于视频显示的旋转是投影方位(未描绘)，对于球面视频可以任意设置。显示图像是通过从投影点S投影球形视频来找到的，如实线箭头所示。这里，投影点S对应于球体的中心。当使用标准投影时，可以通过将(虚拟)收听参考位置放置在S中来创建相应的空间音频图像，即在图7b中描绘的圆圈的中心。此外，虚拟扬声器位于球体的表面上，即沿着所描绘的圆圈。这对应于标准空间声音再现，其中收听参考位置位于最佳位置，例如在图7b的球体中心。

图7c示出了小行星投影的俯视图。在这种情况下，投影球面视频的投影点S位于球体的背面而不是原点。使用小行星投影时，通过将收听参考位置放置在球体背面的位置S来创建正确的音频图像，而虚拟扬声器位置保留在球体表面上。这意味着经修正的虚拟扬声器位置是相对于收听参考位置S计算的，这取决于投影。不同投影之间的平滑迁移可以通过改变图7c中的高度h来实现，即通过沿着垂直实线移动投影点(或分别为收听参考位置)S。因此，与图7c中的圆心不同的收听位置S是目标收听位置，并且与图7c中的朝向显示器的观看方向不同的观看方向是目标收听方位。为了创建空间变换的音频数据，例如针对经修正的虚拟扬声器位置而不是原始虚拟扬声器位置计算球面谐波。通过移动收听参考位置S来找到经修正的虚拟扬声器位置，例如，如图7c所示，或者根据视频投影。

实施例4a：用于高保真度立体声响复制输出的第二空间变换(1050)(图13a)

此实施例描述了第二空间变换(1050)的实施方式，以计算高保真度立体声响复制域中的音频输出信号。

为了计算期望的输出信号，可以使用球谐分解(SHD)1052来变换(经滤波的)虚拟扬声器信号

其根据以下公式计算为所有J个虚拟扬声器信号的加权和[FourierAcoust]

这里，

是级(阶)l和模m的共轭复球谐函数。在经修正的虚拟扬声器位置

而不是原始虚拟扬声器位置处评估球面谐波。这确保了从具有期望收听方位的期望收听位置的角度创建音频输出信号。显然，可以将输出信号A′_l,m(k,n)计算到任意用户限定的级(阶)L′。

此实施例中的输出信号也可以作为来计算从(滤波)虚拟扬声器信号的单个矩阵乘法，即

其中

包含在经修正的虚拟扬声器位置处评估的球面谐波，以及

a′(k,n)＝[A′_0,0(k,n),A′_1,-1(k,n),…,A′_l,m(k,n),…,A′_L′,L′(k,n)]^T

包含直到所期望的高保真度立体声响复制级(阶)L′的输出信号。

实施例4b：用于扬声器输出的第二空间变换(1050)(图13b)

此实施例描述了用于计算扬声器域中的音频输出信号的第二空间变换(1050)的实施方式。在这种情况下，优选通过考虑经修正的虚拟扬声器位置

将虚拟扬声器的J个(经滤波的)信号

转换为所期望的输出扬声器设置的扬声器信号。通常，可以任意定义所需的输出扬声器设置。常用的输出扬声器设置例如2.0(立体声)、5.1、7.1、11.1或22.2。在下文中，输出扬声器的数量用L表示，输出扬声器的位置由角度

给出。

为了将(经滤波的)虚拟扬声器信号转换1053成期望的扬声器格式，优选使用与实施例1b中相同的方法，即应用静态扬声器转换矩阵。在这种情况下，所期望的输出扬声器信号利用下式计算

其中s′(k,n)包含(经滤波的)虚拟扬声器信号，a′(k,n)包含L个输出扬声器信号，C是格式转换矩阵。使用输出扬声器设置的角度

以及经修正的虚拟扬声器位置

计算格式转换矩阵。这确保了从具有期望收听方位的期望收听位置的角度创建音频输出信号。转换矩阵C可以通过使用例如VBAP平移方案[Vbap]来计算，如[FormatConv]中所述。

实施例4c：用于双耳输出的第二空间变换(1050)(图13c或图13d)

第二空间变换(1050)可以在双耳域中创建输出信号以用于双耳声音再现。一种方法是将J个(经滤波的)虚拟扬声器信号

与对应的头部相关传递函数(HRTF)相乘1054并对得到的信号求和，即

这里，A′_left(k,n)和A′_right(k,n)分别是左右耳的双耳输出信号，并且

和

是第j个虚拟扬声器的对应HRTF。注意，使用了经修正的虚拟扬声器方向

的HRTF。这确保了从具有期望收听方位的期望收听位置的角度创建双耳输出信号。

创建双耳输出信号的替代方式是执行将虚拟扬声器信号变换到如实施例4b中描述的扬声器域(诸如中间扬声器格式)的第一或前向变换1055。之后，可以通过为左耳和右耳应用1056HRTFT，对来自中间扬声器格式的扬声器输出信号进行双耳化，其中HRTFT对应于输出扬声器设置的位置。

双耳输出信号也可以通过对(经滤波的)虚拟扬声器信号应用矩阵乘法来计算，即

其中

分别包含左耳和右耳的J个经修正的虚拟扬声器位置的HRTF，以及向量

a′(k,n)＝[A′_left(k,n),A′_right(k,n)]^T

包含两个双耳音频信号。

实施例5：使用矩阵乘法的实施例

从前面的实施例可以清楚地看出，可以通过应用单个矩阵乘法从输入信号a(k,n)计算输出信号a′(k,n)，即

其中变换矩阵

可以计算为

这里，

是可以如实施例1(a-d)中所述计算的第一空间变换的矩阵，w(p,l)是实施例2中描述的可选的空间滤波器，diag{·}表示将向量变换为以该向量为主对角线的对角矩阵的算子，并且

是用于取决于期望收听位置和方位的第二空间变换的矩阵，其可以如实施例4(a-c)中描述的那样计算。在实施例中，可以针对期望的收听位置和方位(例如，对于位置和方位的离散网格)预先计算矩阵

以节省计算复杂度。在音频对象输入的位置随时间变化的情况下，可以只预先计算

的上述计算的时不变(time-invariant)部分，以节省计算量复杂。

随后，示出由声场处理器1000执行的声场处理的优选实施方式。在步骤901或1010中，在时域或时频域中接收两个或更多个音频输入信号，其中，在时频域中接收信号的情况下，已经使用分析滤波器组以便获得时频表示。

在步骤1020中，第一空间变换被执行以获得一组虚拟扬声器信号。在步骤1030中，通过对虚拟扬声器信号应用空间滤波器来执行可选的空间滤波。在不应用图14中的步骤1030的情况下，不执行任何空间滤波，并且按照例如在1040b中指示执行虚拟扬声器的位置的修正，取决于收听位置和方位，即，取决于目标收听位置和/或目标方位。在步骤1050，根据经修正的虚拟扬声器位置执行第二空间变换以获得音频输出信号。在步骤1060，执行合成滤波器组的可选应用以获得时域中的输出信号。

因此，图14示出了虚拟扬声器信号的显式计算、虚拟扬声器信号的可选显式滤波以及虚拟扬声器信号或经滤波的虚拟扬声器信号的可选处理，用于计算经处理的声场表示的音频输出信号。

图15示出了另一个实施例，其中在假设一组虚拟扬声器位置的情况下，根据期望的音频输入信号格式来计算诸如第一空间变换矩阵的第一空间变换规则，如1021所示。在步骤1031中，考虑了空间滤波器的可选应用，这取决于期望收听位置和/或方位，并且例如通过逐元素乘法将空间滤波器应用于第一空间变换矩阵，而无需对虚拟扬声器信号进行任何显式计算和处理。在步骤1040b中，取决于收听位置和/或方位，即，取决于目标位置和/或方位，来修正虚拟扬声器的位置。在步骤1051中，根据经修正的虚拟扬声器位置和期望的音频输出信号格式计算第二空间变换矩阵，或者一般地，第二或后向空间变换规则。在步骤1090中，块1031、1021和1051中的计算矩阵可以相互组合，然后以单个矩阵的形式与音频输入信号相乘。可替代地，可以将单个矩阵单独应用于对应的数据，或者可以将至少两个矩阵彼此组合以获得组合变换定义，如针对参考图10a至图10d所示的单个四种情况所讨论的。

尽管已经在装置的上下文中描述了一些方面，但显然这些方面也表示相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。

根据某些实施要求，本发明的实施例可以以硬件或软件来实施。可以使用数字存储介质来执行该实施，例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，其上存储有电子可读控制信号，它们与可编程计算机系统协同工作(或能够合作)，从而执行相应的方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作，从而执行本文描述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，该程序代码可操作用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括用于执行本文描述的方法之一的计算机程序，其存储在机器可读载体或非暂时性存储介质上。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于当计算机程序在计算机上运行时执行本文描述的方法之一。

因此，本发明方法的进一步实施例是一种数据载体(或数字存储介质，或计算机可读介质)，其上记录有用于执行本文所述方法之一的计算机程序。

因此，本发明方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接，例如经由因特网被传送。

进一步实施例包括处理装置，例如计算机或可编程逻辑器件，其被配置为或适于执行本文描述的方法之一。

进一步实施例包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。

在一些实施例中，可编程逻辑器件(例如现场可编程门阵列)可用于执行本文描述的方法的一些或所有功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文描述的方法之一。通常，这些方法优选地由任何硬件装置来执行。

上述实施例仅用于说明本发明的原理。应当理解，本文描述的布置和细节的修正和变化对于本领域的其他技术人员来说将是显而易见的。因此，意图仅受所附专利权利要求的范围的限制，而不是受本文实施例的描述和解释所呈现的具体细节的限制。

参考文献

[AmbiTrans] Kronlachner and Zotter,“Spatial transformations for theenhancement of Ambisonics recordings”,ICSA 2014

[FormatConv] M.M.Goodwin and J.-M.Jot,“Multichannel surround formatconversion and generalized upmix”,AES 30^th International Conference,2007

[FourierAcoust] E.G.Williams,"Fourier Acoustics:Sound Radiation andNearfield Acoustical Holography,"Academic Press,1999.

[WolframProj1] http://mathworld.wolfram.com/StereographicProjection.html

[WolframProj2] http://mathworld.wolfram.com/GnomonicProjection.html

[RotMat] http://mathworld.wolfram.com/RotationMatrix.html

[Vbap] V.Pulkki,“Virtual Sound Source Positioning Using Vector BaseAmplitude Panning”,J.Audio Eng.Soc,Vol.45(6),1997

[VirtualMic] O.Thiergart,G.Del Galdo,M.Taseska,E.A.P.Habets,“Geometry-based Spatial Sound Acquisition Using Distributed MicrophoneArrays”,Audio,Speech,and Language Processing,IEEE Transactions on,Vol.21(12),2013。

Claims

1.一种用于处理声场表示(1001)的装置，所述声场表示(1001)与用于所述声场表示的定义参考点或定义收听方位相关，所述装置包括：

声场处理器(1000)，用于使用目标收听位置相对于所述定义参考点的偏差或者目标收听方位相对于所述定义收听方位的偏差来处理所述声场表示，以获得经处理的声场描述，其中所述经处理的声场描述在被呈现时提供所述目标收听位置处的所述声场表示不同于所述定义参考点或者所述目标收听方位不同于所述定义收听方位的印象，或者用于使用空间滤波器(1030)处理所述声场表示，以获得所述经处理的声场描述，其中所述经处理的声场描述在被呈现时提供经空间滤波的声场描述的印象，

其中，所述声场处理器(1000)被配置为处理所述声场表示，使得与空间变换域相关地将所述偏差或所述空间滤波器(1030)应用于所述声场表示，所述空间变换域具有与其相关联的前向变换规则(1021)和后向变换规则(1051)。

2.根据权利要求1所述的装置，进一步包括检测器(1100)，用于检测所述目标收听位置相对于所述定义参考点的偏差，或者用于检测所述目标收听方位相对于所述定义收听方位的偏差，或者用于检测所述目标收听位置并且确定所述目标收听位置相对于所述定义参考点的偏差，或者用于检测所述目标收听方位并且确定所述目标收听方位相对于所述定义收听方位的偏差。

3.根据权利要求1或2所述的装置，

其中所述声场表示(1001)包括在不同于所述空间变换域的音频信号域中的多个音频信号，

其中所述声场处理器(1000)被配置为在不同于所述空间变换域的所述音频信号域中生成所述经处理的声场描述(1201)。

4.根据前述权利要求中的一项所述的装置，其中，所述声场处理器(1000)被配置为如下处理所述声场表示

使用所述前向变换规则进行空间变换，所述前向变换规则(1021)与一组虚拟扬声器位置处的一组虚拟扬声器相关，

在变换域内使用所述空间滤波器(1030)，以及

使用所述后向变换规则(1051)进行使用所述一组虚拟扬声器位置的空间变换，或者

其中所述声场处理器(1000)被配置为如下处理所述声场表示

使用所述前向变换规则(1021)进行空间变换，所述前向变换规则(1021)与一组虚拟扬声器位置处的一组虚拟扬声器相关，以及

使用所述后向变换规则(1051)进行使用通过使用所述偏差从所述一组虚拟扬声器位置导出的一组经修正的虚拟扬声器位置的空间变换，或者

其中所述声场处理器(1000)被配置为如下处理所述声场表示

使用所述前向变换规则(1021)进行空间变换，所述前向变换规则(1021)与一组虚拟扬声器位置处的一组虚拟扬声器相关，

在变换域内使用所述空间滤波器(1030)；以及

使用所述后向变换规则(1051)进行使用通过使用所述偏差从所述一组虚拟扬声器位置导出的一组经修正的虚拟扬声器位置的空间变换。

5.根据权利要求1至4中的一项所述的装置，

其中所述声场处理器(1000)被配置为针对目标收听位置或目标收听方位的网格的每个网格点，存储(1080)预先计算的变换定义(1071、1072、1073)或变换规则(1021、1051)，其中所述预先计算的变换定义表示所述前向变换规则(1021)、所述空间滤波器(1031)和所述后向变换规则(1051)中的至少两个，以及

其中所述声场处理器(1000)被配置为选择(1081、1082)用于与所述目标收听位置或所述目标收听方位相关的网格点的所述变换定义或变换规则，并应用(1090)所选择的变换定义或变换规则。

6.根据权利要求5所述的装置，其中，所述预先计算的变换定义是具有N行和M列的尺寸的变换矩阵，其中N和M是大于2的整数，以及

其中所述声场表示具有M个音频信号，并且其中所述经处理的声场表示(1201)具有N个音频信号，或反之亦然。

7.根据权利要求1至4中的一项所述的装置，

其中所述声场处理器(1000)被配置为将变换定义(1071)应用(1090)到所述声场表示(1001)，

其中所述声场处理器(1000)被配置为使用与所述定义参考点或所述定义收听方位相关的虚拟扬声器的虚拟位置来计算所述前向变换规则(1021)，以及使用与所述目标收听位置或所述目标收听方位相关的所述虚拟扬声器的经修正的虚拟位置来计算所述后向变换规则(1051)，以及

组合(1092)所述前向变换规则(1021)和所述后向变换规则(1051)，以获得所述变换定义(1071)。

8.根据权利要求1至4中的一项所述的装置，

其中所述声场处理器(1000)被配置为使用与所述定义参考点或所述定义收听方位相关的虚拟扬声器的虚拟位置计算所述前向变换规则(1021)，并使用相同或经修正的虚拟位置计算所述空间滤波器(1031)和计算所述后向变换规则(1051)，并且组合(1092)所述前向变换规则(1021)、所述空间滤波器(1031)和所述后向变换规则(1051)，以获得所述变换定义(1071)。

9.根据权利要求1至4中的一项所述的装置，

其中，所述声场处理器(1000)被配置为使用所述前向变换规则(1021)将所述声场表示从音频信号域前向变换(1020)到空间域，以获得用于在与所述定义参考点或所述定义收听方位相关的预定义的虚拟扬声器位置处的虚拟扬声器的虚拟扬声器信号，以及

基于与所述目标收听位置或所述目标收听方位相关的经修正的虚拟扬声器位置，使用所述后向变换规则(1051)将所述虚拟扬声器信号后向变换(1050)到所述音频信号域，或者

将所述空间滤波器(1030)应用于所述虚拟扬声器信号以获得经滤波的虚拟扬声器信号，并且基于与所述目标收听位置或所述目标收听方位相关的经修正的虚拟扬声器位置或者与所述定义参考位置或收听方位相关的所述虚拟扬声器位置，使用所述后向变换规则对所述经滤波的虚拟扬声器信号进行后向变换(1050)。

10.根据权利要求1至4中的一项所述的装置，

其中，所述声场处理器(1000)被配置为

计算所述前向变换规则(1021)和所述空间滤波器(1031)，并且组合所述前向变换规则(1021)和所述空间滤波器(1031)，以获得部分变换定义(1072)，

将所述部分变换定义(1072)应用(1090)于所述声场表示，以获得经滤波的虚拟扬声器信号，以及

基于与所述目标收听位置或所述目标收听方位相关的经修正的虚拟扬声器位置或者基于与所述定义参考点或所述定义收听方位相关的虚拟扬声器位置，使用所述后向变换规则对所述经滤波的虚拟扬声器信号进行后向变换(1050)，或者

其中，所述声场处理器(1000)被配置为

基于与所述目标收听位置或所述目标方位相关的所述经修正的虚拟扬声器位置或者与所述定义参考点或收听方位相关的虚拟扬声器位置，计算所述空间滤波器(1031)和所述后向变换规则(1051)，

组合(1092)所述空间滤波器(1031)和所述后向变换规则(1051)，以获得部分变换定义(1073)，

将所述声场表示从音频信号域前向变换(1020)到空间域，以获得用于在预定义的虚拟扬声器位置处的虚拟扬声器的虚拟扬声器信号，以及

将所述部分变换定义(1073)应用(1090)于所述虚拟扬声器信号。

11.根据前述权利要求中的一项所述的装置，

其中，所述前向变换规则(1021)、所述空间滤波器(1031)、所述后向变换规则(1051)、变换定义或部分变换定义或预先计算的变换定义中的至少一个包括矩阵，或者其中所述音频信号域是时域或时频域。

12.根据前述权利要求中的一项所述的装置，

其中所述声场表示包括多个高保真度立体声响复制信号，并且其中所述声场处理器(1000)被配置为使用平面波分解以及与所述定义收听位置或所述定义收听方位相关的虚拟扬声器的虚拟位置来计算(1022)所述前向变换规则，或者

其中所述声场表示包括用于具有最佳位置的定义扬声器设置的多个扬声器声道，其中所述最佳位置表示所述定义参考位置，并且其中所述声场处理器(1000)被配置为使用上混或下混为具有与所述最佳位置相关的虚拟位置处的虚拟扬声器的虚拟扬声器设置的所述扬声器声道的上混规则或下混规则，计算所述前向变换规则(1023)，或者

其中所述声场表示包括与作为所述定义参考位置的阵列中心相关的多个真实或虚拟麦克风信号，并且其中所述声场处理器(1000)被配置为作为波束形成权重来计算所述前向变换规则(1024)，所述波束形成权重表示对所述多个麦克风信号进行的针对所述虚拟扬声器中的虚拟扬声器的每个虚拟位置的波束形成操作，或者

其中所述声场表示包括音频对象表示，所述音频对象表示包括具有关联位置信息的多个音频对象，并且其中所述声场处理器(1000)被配置为使用用于所述音频对象的位置信息，计算表示平移操作的所述前向变换规则(1025)，所述平移操作用于将所述音频对象平移到与所述定义参考位置相关的所述虚拟扬声器位置处的所述虚拟扬声器。

13.根据前述权利要求中的一项所述的装置，

其中所述声场处理器被配置为作为取决于在所述前向变换规则(1021)中使用的所述虚拟扬声器的所述虚拟位置并且额外取决于所述定义参考位置、所述定义收听方位、所述目标收听位置和所述目标收听方位中的至少一个的一组窗口系数，来计算所述空间滤波器(1030)。

14.根据前述权利要求中的一项所述的装置，

其中，所述声场处理器(1000)被配置为作为一组非负实值增益值来计算所述空间滤波器(1030)，使得朝向由所述目标收听方位指示的观看方向来强调空间声音，或者其中所述声场处理器(1000)被配置为作为空间窗口来计算所述空间滤波器(1030)。

15.根据前述权利要求中的一项所述的装置，其中，所述声场处理器被配置为如下计算所述空间滤波器

作为指向目标观看方向的公共一阶空间窗口，或者作为根据所述目标收听位置和对应的虚拟扬声器位置之间的距离被衰减或放大的公共一阶空间窗口，或者

作为在放大操作的情况下变窄或在缩小操作的情况下变宽的矩形空间窗口，或者

作为衰减当对应的音频对象从经缩放的视频图像中消失时的一侧的声源的窗口。

16.根据前述权利要求中的一项所述的装置，

其中所述声场处理器被配置为使用经修正的虚拟扬声器位置来计算所述后向变换规则(1051)，其中所述声场处理器(1000)被配置为通过使用以下以获得经更新的位置向量，来计算(1040b)用于每个虚拟扬声器的所述经修正的虚拟扬声器位置

从所述定义参考点到所述虚拟位置的原始位置向量，

从所述目标收听位置或所述目标收听方位导出的偏差向量，和/或

指示目标旋转不同于预定义旋转的旋转矩阵，

其中，所述经更新的位置向量用于关联虚拟扬声器的所述后向变换规则(1050)。

17.根据前述权利要求中的一项所述的装置，

其中，所述经处理的声场描述包括多个高保真度立体声响复制信号，并且其中所述声场处理器被配置为使用谐波分解来计算所述后向变换规则(1052)，所述谐波分解表示在所述经修正的扬声器位置处评估的或与所述目标方位相关的所有虚拟扬声器信号的加权和，或者

其中所述经处理的声场描述包括用于定义的输出扬声器设置的多个扬声器声道，其中所述声场处理器(1000)被配置为通过使用所述定义的输出扬声器设置中的虚拟扬声器的位置，使用从经修正的虚拟扬声器位置导出的或与目标方位相关的扬声器格式转换矩阵来计算所述后向变换规则(1053)，或者

其中所述经处理的声场描述包括双耳输出，其中所述声场处理器(1000)被配置为使用与经修正的虚拟扬声器位置相关联的头部相关传递函数，或者使用与定义的中间输出扬声器设置相关的扬声器格式转换规则(1055)和与定义的输出扬声器设置相关的头部相关传递函数(1056)，来计算双耳输出信号。

18.根据权利要求1至4中的一项所述的装置，

其中，所述装置包括存储器(1080)，所述存储器(1080)存储有与不同预定义偏差相关联的多组预先计算系数，以及

其中，所述声场处理器(1000)被配置为

在所述不同预定义偏差中搜索最接近于所检测到的偏差的预定义偏差，

从所述存储器中检索与最接近的预定义偏差相关联的一组预先计算系数，以及

将所检索到的一组预先计算系数转发到所述声场处理器。

19.根据权利要求2至18中的一项所述的装置，

其中，所述声场表示与三维视频或球面视频相关联，并且所述定义参考点是所述三维视频或所述球面视频的中心，

其中所述检测器(110)被配置为检测指示实际视点与所述中心不同的用户输入，所述实际视点与所述目标收听位置相同，并且其中所述检测器被配置为从所述用户输入导出所检测到的偏差，或者其中所述检测器(110)被配置为检测指示实际观看方位与指向所述中心的定义收听方位不同的用户输入，所述实际观看方位与所述目标收听方位相同，并且其中所述检测器被配置为从所述用户输入导出所检测到的偏差。

20.根据前述权利要求中的一项所述的装置，

其中，所述声场表示与三维视频或球面视频相关联，并且所述定义参考点是所述三维视频或球面视频的中心，

其中，所述声场处理器被配置为处理所述声场表示，使得经处理的声场表示表示包括在所述声场描述中的至少一个声音对象相对于用于所述三维视频或所述球面视频的显示区域的标准或小行星投影或者所述标准或小行星投影之间的迁移，所述显示区域由所述用户输入和定义观看方向来限定。

21.根据前述权利要求中的一项所述的装置，

其中所述声场处理器(1000)被配置为

将所述声场描述转换为与第一组虚拟扬声器位置相关联的虚拟扬声器相关表示，其中所述第一组虚拟扬声器位置与所述定义参考点相关联，

将所述第一组虚拟扬声器位置变换为一组经修正的虚拟扬声器位置，其中所述一组经修正的虚拟扬声器位置与所述目标收听位置相关联，以及

将所述虚拟扬声器相关表示转换为与所述一组经修正的虚拟扬声器位置相关联的经处理的声场描述，

其中，所述声场处理器(1000)被配置为使用所检测到的偏差来计算所述一组经修正的虚拟扬声器位置。

22.根据权利要求4至21中的一项所述的装置，

其中，所述一组虚拟扬声器位置与所述定义收听方位相关联，并且其中所述一组经修正的虚拟扬声器位置与所述目标收听方位相关联，以及

其中，所述目标收听方位是根据所检测到的偏差和所述定义收听方位计算的。

23.根据权利要求4至22中的一项所述的装置，

其中所述一组虚拟扬声器位置与所述定义收听位置和所述定义收听方位相关联，

其中，所述定义收听位置对应于关联视频的第一投影点和投影方位，其产生所述关联视频在表示投影表面的显示区域上的第一投影，以及

其中，所述一组经修正的虚拟扬声器位置关联于所述关联视频的第二投影点和第二投影方位，其产生所述关联视频在对应于所述投影表面的所述显示区域上的第二投影。

24.根据前述权利要求中的一项所述的装置，其中，所述声场处理器包括：

时间频谱转换器(1010)，用于将所述声场表示转换为时频域表示。

25.根据前述权利要求中的一项所述的装置，

其中，所述声场处理器(1000)被配置为使用所述偏差和所述空间滤波器(1030)来处理所述声场表示。

26.根据前述权利要求中的一项所述的装置，

其中所述声场表示是具有输入阶的高保真度立体声响复制信号，

其中所述经处理的声场描述是具有输出阶的高保真度立体声响复制信号，

并且其中所述声场处理器(1000)被配置为计算所述经处理的声场描述，使得所述输出阶等于所述输入阶。

27.根据前述权利要求中的一项所述的装置，

其中所述声场处理器(1000)被配置为获得与所述偏差相关联的处理矩阵，并且将所述处理矩阵应用于所述声场表示，

其中所述声场表示具有至少两个声场分量，并且其中所述处理矩阵是NxN矩阵，其中N等于二或大于二。

28.根据权利要求2至27中的一项所述的装置，

其中所述检测器(1100)被配置为作为具有方向和长度的向量来检测所述偏差，以及

其中所述向量表示从所述定义参考点到所述目标收听位置的线性迁移。

29.根据前述权利要求中的一项所述的装置，

其中，所述声场处理器(1000)被配置为处理所述声场表示，使得当所述目标收听位置比所述定义参考点更接近于所述声音对象或所述空间区域时，由所述经处理的声场描述表示的声音对象或空间区域的响度大于由所述声场表示所表示的所述声音对象或所述空间区域的响度。

30.根据前述权利要求中的一项所述的装置，其中，所述声场处理器(1000)被配置为针对每个虚拟扬声器，确定相对于所述定义参考点的单独方向；

通过评估所确定方向上的球谐函数，使用所述声场表示执行逆球谐分解；

确定从所述虚拟扬声器位置到所述目标收听位置的经修正方向；以及

使用在经修正的虚拟扬声器位置处评估的所述球谐函数执行球谐分解。

31.一种处理声场表示的方法，所述声场表示与用于所述声场表示的定义参考点或定义收听方位相关，所述方法包括：

检测目标收听位置相对于所述定义参考点的偏差或者目标收听方位相对于所述定义收听方位的偏差；以及

使用所述偏差处理(1000)所述声场表示，以获得经处理的声场描述，其中所述经处理的声场描述在被呈现时提供所述目标收听位置处的所述声场表示不同于所述定义参考点或者所述目标收听方位不同于所述定义收听方位的印象，或者使用空间滤波器(1030)处理所述声场表示，以获得经处理的声场描述，其中所述经处理的声场描述在被呈现时提供经空间滤波的声场描述的印象，

其中，与空间变换域相关地将所述偏差或所述空间滤波器(1030)应用于所述声场表示，所述空间变换域具有与其相关联的前向变换规则(1021)和后向变换规则(1051)。

32.一种计算机程序，用于当在计算机或处理器上运行时执行根据权利要求31所述的用于处理声场表示的方法。