CN102804808A

CN102804808A - 空间音频中的位置消歧

Info

Publication number: CN102804808A
Application number: CN2009801602621A
Authority: CN
Inventors: P·奥雅拉; J·维罗莱南
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2012-11-28
Anticipated expiration: 2029-06-30
Also published as: RU2012102700A; US9351070B2; WO2011000409A1; CN102804808B; RU2529591C2; US20120101610A1; EP2449795B1; EP2449795A1

Abstract

一种方法，其包括：获得取决于捕获的音频通道之间的时变相位差的相位信息；获得与捕获的音频通道的时变空间采样相关的采样信息；以及处理该相位信息和采样信息，以确定用于对捕获的音频通道的空间呈现进行控制的音频控制信息。

Description

空间音频中的位置消歧

技术领域

本发明的实施方式涉及空间音频中的位置消歧。具体而言，涉及支持空间音频中位置消歧的装置、方法和计算机程序。

背景技术

人有两只耳朵。从音频源到左耳的音频路径通常不同于从音频源到右耳的音频路径。对人而言的一种重要音频线索是通往左耳的路径与通往右耳的路径之间的时间差(相位差)。然而，仅单独以相位差作为线索会产生位置含混，这是因为对于特定相位差而言，声源的位点通常是以穿过双耳的线为中心的圆圈而非一个点。

人的头部和身体会衍射声波。该效应在上/下方向上比在左/右方向上更具有是各向异性。在通往左耳的路径与通往右耳的路径之间的振幅差(声级差)可以提供使人能够在上或下方向定位音频源的线索，但这对于在前/后方向定位来源可能是不够的。

存在如何使用多扬声器配置来呈现空间音频(环绕声)的问题。情况可能是，麦克风配置引起声源位置中的含混，这例如可能导致当声源应被呈现在听者的前面时却被呈现在听者的后面，或者导致当声源应被呈现在听者的后面时却被呈现在听者的前面。

发明内容

根据本发明的各种但并不一定是全部的实施方式，提供一种方法，该方法包括：获得取决于捕获的音频通道之间的时变相位差的相位信息；获得与捕获的音频通道的时变空间采样相关的采样信息；以及处理该相位信息和采样信息，以确定用于对捕获的音频通道的空间呈现进行控制的音频控制信息。

根据本发明的各种但并不一定是全部的实施方式，提供一种计算机程序，当其被加载到处理器中时使得该处理器能够：处理取决于捕获的音频通道之间的时变相位差的相位信息以及与捕获的音频通道的时变空间采样相关的采样信息，以确定用于对捕获的音频通道的空间呈现进行控制的音频控制信息。

根据本发明的各种但并不一定是全部的实施方式，提供一种装置，该装置包括：电路，该电路被配置用于处理：取决于捕获的音频通道之间的时变相位差的相位信息；以及与捕获的音频通道的时变空间采样相关的采样信息，以确定用于对捕获的音频通道的空间呈现进行控制的音频控制信息。

根据本发明的各种但并不一定是全部的实施方式，提供一种方法，该方法包括：使用时变空间采样来捕获音频通道；执行对捕获的音频通道的参数化音频编码，以产生参考音频信号和音频参数；向远程目的地发送参考音频信号和音频参数；以及向远程目的地发送与捕获的音频通道的时变空间采样相关的采样信息。

根据本发明的各种但并不一定是全部的实施方式，提供一种方法，该方法包括：接收参数化音频；接收控制信息；使用多个扬声器对捕获的音频通道进行空间呈现，其中控制信息用于控制多个扬声器的相对增益以便对所呈现声源的方位进行消歧。

附图说明

为了更好地理解本发明实施方式的各种示例，现在将要仅通过举例的方式对附图作出参考，其中：

图1示意性地图示了用于多通道音频捕获和多通道空间音频呈现的系统；

图2A、图2B和图2C图示了线性麦克风阵列的取向如何随时间而改变；

图3A图示了记录针对前向定位音频源的消歧控制信息的示例的表格；

图3B图示了记录针对后向定位音频源的消歧控制信息的示例的表格；

图4示意性地图示了扬声器配置的示例；

图5示意性地图示了产生用于对捕获的音频通道的空间呈现进行控制的消歧控制信息的过程；

图6示意性地图示了从编码器装置接收输入信号的解码器装置；

图7示意性地图示了用于产生消歧控制信息的详细过程；

图8示意性地图示了一种实现，其中消歧控制信息的产生发生在解码器处；

图9示意性地图示了一种实现，其中消歧控制信息的产生发生在编码器处；

图10示意性地图示了适合用作编码器装置或解码器装置的一部分的装置；以及

图11示意性地图示了用于计算机程序的传送机制。

具体实施方式

图1示意性地图示了用于多通道音频捕获和多通道空间音频呈现的系统2。系统2提供对多通道音频的参数化编码。系统2还支持对音频源的方位的消歧。

系统2在该示例中被示意性地图示为包括多个块，这些块包括：空间采样块4，用于多通道音频捕获；参数化块6，用于将多通道音频参数化地编码成参数化音频7；消歧块8，用于产生消歧控制信息9；以及空间呈现块10，其对参数化音频7进行解码，并且使用消歧控制信息9来提供改善的空间音频呈现。

空间采样块4支持使用N个在空间上分离的麦克风进行N-通道音频捕获。每个音频通道关联于一个麦克风。

空间采样块4支持对N个捕获的音频通道的时变空间采样。亦即，与N个通道关联的N个麦克风位置随时间而改变。这可以通过选择性地启用一组麦克风的子集或者通过移动麦克风阵列来实现。

例如，时变空间音频采样可以使用在其中麦克风具有固定相对位置的固定的N个麦克风阵列来执行。麦克风阵列继而被放置在固定位置，但其被移动经过不同的取向。

此类麦克风阵列可以包括在平面内但并不沿相同直线布置的麦克风的平面阵列。备选地，麦克风阵列可以包括沿相同直线布置的麦克风的线性阵列。

在立体声或双声道立体声实现中，麦克风阵列12可以包括如图2A、图2B、图2C中所示的一对麦克风14A、14B。麦克风14A、14B可以具有固定的间距d。

图2A、图2B和图2C图示了线性阵列12的取向可以如何随时间而改变。该取向例如可以如图2A至图2C中所示那样周期性地摆动。

麦克风阵列12的取向改变可以使用运动传感器来加以检测。作为示例，当用户佩戴双耳麦克风(靠近听者的两只耳朵的麦克风)时，使用头部跟踪器来监视听者的头部相对于环境的取向。因而可以使用外部的且分离的装置来测量阵列取向。

线性阵列12位于纸面之中，并且其取向在纸面内改变角度θ。在图2A中所示的t1时刻，角度θ为负，并且麦克风14A在麦克风14B之前。继而在图2B中所示的t2时刻，角度θ为零，并且麦克风14A与麦克风14B平齐。在图2C中所示的t3时刻，角度θ为正，并且麦克风14B在麦克风14A之前。继而在图2B中所示的t4时刻，角度θ为零，并且麦克风14A与麦克风14B平齐。随后在图2A中所示的t5时刻，角度θ为负，并且麦克风14A在麦克风14B之前。

图2A至图2C图示了音频源16的一个可能的位置。该位置仅用于示例说明目的。

从音频源16到麦克风14A的音频路径15具有关联时延T_A(t)。从音频源16到麦克风14B的音频路径17具有关联时延T_B(t)。

音频源16位于线性阵列12的“前方”。在从音频源16到麦克风14A的音频路径15与从音频源16到麦克风14B的音频路径17之间的相位差

可以表示为T_A(t)-T_B(t)。当麦克风14A在麦克风14B之前时(图2A)，相位差为负。当麦克风14B在麦克风14A之前时(图2C)，相位差为正。因而当音频源16位于线性阵列12的“前方”时，相位差具有与取向角θ相同的指向。当相位差

为负时，取向角θ也为负。当相位差

为正时，取向角θ也为正。这种关系由图3A中所示的表1所证明。相位差

中的改变与取向角θ中的改变相关。

当音频源16相反地位于线性阵列12的“后方”时，在麦克风14A在麦克风14B之前时(图2A)，相位差为正。当麦克风14B在麦克风14A之前时(图2C)，相位差为负。因而当音频源16位于线性阵列12的“后方”时，相位差

具有与取向角θ相反的指向。当相位差

为负时，取向角θ为正。当相位差

为正时，取向角θ为负。这种关系由图3B中所示的表2所证明。相位差中的改变与取向角θ中的改变反向相关。

具有关联相位差

的声源将会具有含混的位置。其可能位于阵列12的前方或者阵列12的后方。由移动中的阵列12所提供的时变空间采样支持对声源位置的消歧。例如，如果时变相位差

与时变取向角θ相关，则声源16位于阵列12的前方；而如果时变相位差

与取向角θ反向相关，则声源16位于阵列12的后方。

因此有可能处理相位信息和采样信息，以便产生用于对捕获的音频通道的空间呈现进行控制的消歧控制信息9。这发生在图1中的消歧块8中。

图5示意性地图示了这种过程30。过程或方法30始于块32，在其中获得取决于捕获的音频通道之间的时变相位差的相位信息。在参考图2A至图2C描述的示例中，相位信息可以表示为时变相位差

(例如，T_A(t)-T_B(t))。

在块34中，获得与捕获的音频通道的时变空间采样相关的采样信息5。在参考图2A至图2C描述的示例中，采样信息5可以表示为时变取向角θ(t)。

继而在块36中，对相位信息和采样信息5进行处理，以便确定用于对捕获的音频通道的空间呈现进行控制的音频控制信息9。音频控制信息9支持对音频源的方位/位置的消歧。

图7示意性地图示了过程60，其为适合在块36中使用的许多过程中的一个过程的示例。在过程60中，块62接收相位信息61作为第一输入，以及接收采样信息63作为第二输入。

块62对相位信息61与采样信息63的同步特征进行比较，并继而在块64中对比较结果进行积分以便产生音频控制信息9。音频控制信息9支持对音频源的方位/位置的消歧。

在参考图2A至图2C描述的示例中，相位信息61可以表示为时变相位差

而采样信息63可以表示为时变取向角θ(t)。第一输入可以表示为

第二输入可以表示为{θ(t₁)、θ(t₂)、θ(t₃)、θ(t₄)、θ(t₅)、…}。

在参考图2A至图2C描述的示例中，在特征之间的比较是在相位差

的指向与取向角θ(t_n)的指向之间的比较。

比较块62例如可以确定相位差

的指向与取向角θ(t_n)的指向是相同还是相反。这可以通过在相位差

和取向角θ(t_n)的指向中做出同步地发生在它们的中程处的改变，以及通过如图3A和图3B中的表1和表2的第4列中所示那样将相位差与取向角θ(t_n)相乘在一起而实现。乘法运算的结果继而在块64中被积分，以便产生音频控制信息。如果相位差

和取向角θ(t_n)的指向相同，则积分结果是极大正值。如果相位差

和取向角θ(t_n)的指向相反，则积分结果是极大负值。因此，可以提供积分结果的指向作为对音频源的方位/位置进行消歧的音频控制信息9。如果指向为正，则音频源位于麦克风阵列12的前方(图3A，表1)。如果指向为负，则音频源位于麦克风阵列12的后方(图3B，表2)。

在一种备选实现中，比较块62例如可以确定相位差

的“运动矢量”与取向角θ(t_n)的运动矢量是相同还是相反。这例如可以通过针对n的每个值对

与θ(t_n)-θ(t_n-1)进行比较来实现。这可以通过将与θ(t_n)-θ(t_n-1)相乘来实现。乘法运算的结果继而在块64中被积分，以便产生音频控制信息。

在通过参考图2A至图2C中所示的示例进行解释的另一实现中，可从时变相位差

导出相位信息。时变相位差

可以例如使用查找表，使用转换成音频源16的方位Ω(t)来表示。由于时变方位Ω(t)和时变取向角θ(t)的单位相同，因此可在Ω(t)与θ(t)之间或者在Ω(t_m)-Ω(t_m-1)与θ(t_m)-θ(t_m-1)之间进行直接比较。

在一些实现中，音频控制信息9可以基于对不同频带的相位信息和采样信息的单独处理36。可以同时针对不同频带获得捕获的音频通道之间的时变相位差。

可以使用变换器，例如使用离散时间帧上的滤波器组分解，将输入音频信号3(两个或更多个输入音频通道)从时域变换到频域。可以对滤波器组进行临界采样。临界采样意味着数据量(每秒样本数)在所变换的域中保持不变。出于该目的，可以使用用于音频编码的变换器。

输入音频信号的诸通道被单独地变换到频域，即，在针对输入帧时隙的频率子带中。输入音频通道被分割成时域中的时隙和频域中的子带。

分割在时域中可以是均匀的，以便形成均匀时隙——例如相等持续时间的时隙。分割在频域中可以是均匀的，以便形成均匀子带——例如相等频率范围的子带；或者分割在频域中可以是非均匀的，以便形成非均匀子带结构——例如不同频率范围的子带。在一些实现中，低频处的子带窄于高频处的子带。

音频控制信息9可以通过对采样信息63和子带的相位信息61进行处理62而针对每个子带生成。这样会支持对同时发生的声源的消歧。如果声源是移动的，则其还可以提供一些鲁棒性。在相位信息检测过程中以类似于音频编码器的方式来对齐频带将会是有益的，从而在一些实现中，相位检测可以合并在音频场景分析块中。

返回参考图1，空间呈现块10使用由消歧块8所产生的控制信息9来控制多个扬声器22所进行的空间呈现，以及对空间呈现的音频中声源位置进行消歧。

参考图4，其示意性地图示了一种可能的、但并不一定典型的扬声器配置24的示例。扬声器22布置在听者20的位置周围以便创建空间音频。空间音频在至少四面上(例如，前、后、左、右)环绕听者20，从而创建出所呈现的音频空间26。

扬声器配置24具有M个扬声器。M可以大于麦克风阵列12中所存在的麦克风的数目N。备选地，M可以小于(或等于)N。一个或多个扬声器22₁、22₂被放置在听者20的前方，并且一个或多个扬声器22₃、22₄被放置在听者20的后方。一个或多个扬声器22₁、22₄被放置在听者20的右边，并且一个或多个扬声器22₂、22₃被放置在听者的右边。尽管在图4中图示了四个规则布置的扬声器22₁、22₂、22₃、22₄，但是应当明白，扬声器的不同位置布置是可能的，并且可以使用不同数目的扬声器。由空间采样块4所执行的时变空间采样在等同于音频空间26的空间上进行采样。亦即，跨越所采样的音频空间的两个或三个正交矢量也跨越所呈现的音频空间26。

控制信息9解决了所呈现音频空间26内音频源的位置/方位。

如果控制信息9例如指示出音频源的位置已被消歧为处于听者20的前方，则可以增大施加到针对该音频源的前向扬声器22₁、22₂的增益，以及减小施加到针对该音频源的后向扬声器22₃、22₄的增益。偏向于前向扬声器的有差别的增益定位了音频空间中听者前方的音频源。

如果控制信息9例如指示出音频源的位置已被消歧为处于听者的后方，则可以增大施加到针对该音频源的后向扬声器的增益，以及减小施加到针对该音频源的前向扬声器的增益。偏向于后向扬声器的有差别的增益定位了音频空间中听者后方的音频源。

在一些情况中，可能有必要对由捕获的音频通道的时变空间采样所造成的所呈现音频26空间的时变旋转作出补偿。可以使用时变函数来提供这种空间补偿，从而使由多个扬声器22所限定的所呈现音频空间26相对于听者20保持静止。时变函数可以是时变空间采样的逆传递函数。

时变函数使用所获得的采样信息来执行对音频空间的补偿时变旋转。这可以通过修改音频参数或者通过对所呈现的音频进行滤波而实现。例如，可以使用提供具有/不具有声级补偿的相位补偿的、经修改的头部相关传递函数(HRTF)。

在一些情况中，可能不需要针对音频空间的旋转的补偿。例如，当麦克风阵列12以非常小的位移迅速摆动时。作为另一示例，可能能够将音频捕获速率布置成针对消歧用途比针对音频编码用途更大。因此，参考图2A至图2C，用于编码的音频捕获可以仅在阵列如图2B中所示那样放置时发生，而用于消歧的音频捕获可以在阵列如图2A-图2C中的每一个中所示那样放置时以及随着其在图2A-图2C之间移动而发生。

在一些但并非所有实现中，空间呈现块10可以向空间采样块4提供反馈信号11以便控制空间采样。举例而言，反馈信号11可以例如通过改变麦克风阵列的移动方向来调整时变空间采样。这样可以通过控制麦克风阵列12的运动使其在与扬声器22的位置所限定的呈现音频空间26对应的空间范围内变动而提高消歧性能。

如果需要针对存储或通信而减小音频通道所占据的带宽，则可以存在参数化块6。参数化块6参数式地对N个音频通道3进行编码以便产生参数化音频7。空间呈现块10继而接收参数化音频并对参数化音频进行解码以便产生空间音频。

举例而言，可以使用不同类型的参数化音频编码，诸如定向音频编码(DirAC)或者双耳线索编码(BCC)。

图6示意性地图示了编码器装置42，其向远程解码器装置40提供参数化音频信号47、45。

在本示例中，所图示的多通道音频编码器装置42是根据利用多通道音频信号分析定义的参数模型进行编码的参数化编码器。

在本示例中，参数模型是支持有损压缩和带宽减小的感知模型。

在本示例中，编码器装置42使用诸如双耳线索编码(BCC)参数化之类的参数化编码技术来执行空间音频编码。一般而言，诸如BCC的参数化音频编码模型将原始音频表示为包括从原始信号的通道形成的数目减少的音频通道的缩混信号，例如表示为单声道或者表示为双通道(立体声)加和信号，伴随着描述空间图像的参数的比特流。包括不止一个通道的缩混信号可被认为是若干个单独的缩混信号。

变换器44例如使用离散时间帧上的滤波器组分解，将输入音频信号3(两个或更多个输入音频通道)从时域变换到频域。可以对滤波器组进行临界采样。临界采样意味着数据量(每秒样本数)在所变换的域中保持不变。

滤波器组例如可以实现为重叠变换，其在作为子带分解的一部分而进行对块(即，帧)的加窗时支持从一个帧到另一帧的平滑瞬变。备选地，可将分解实现为例如使用多相格式的FIR滤波器的连续滤波操作，以便支持在计算上高效的操作。

输入音频信号的诸通道被单独变换到频域，即，在针对输入帧时隙的频率子带中。输入音频通道被分割成时域中的时隙和频域中的子带。

从感知以及心理声学角度看，接近于ERB(等效矩形带宽)尺度的子带结构是优选的。然而，任何种类的子带划分均可应用。

来自变换器44的输出被提供给音频场景分析器48，该音频场景分析器48产生场景参数45。音频场景在变换域中被分析，并且对应的参数化45被提取及处理，用于传输或存储以供随后消耗。

音频场景分析器48使用通道间预测模型来形成通道间参数45。通道间参数例如可以包括通道间声级差(ILD)和通道间相位差(ICPD)。通道间相位差(ICPD)可以表示为通道间时间差(ITD)。此外，可以确定针对选定通道对之间的输入帧的频率子带的通道间相干性(ICC)。通道间参数可在变换域时间-频率槽隙内(即，输入帧的频率子带中)估算。通常情况下，针对输入信号的每个时间-频率槽隙或者时间-频率槽隙的子集确定ILD、ICPD/ITD和ICC。时间-频率槽隙的子集例如可以表示在感知上最为重要的频率分量、输入帧的子集的频隙(的子集)或者特别感兴趣的时间-频率槽隙的任何子集。通道间参数的感知重要性在不同的时间-频率槽隙之间可以是不同的。此外，通道间参数的感知重要性对于具有不同特性的输入信号可以是不同的。作为示例，对于一些输入信号而言，ITD参数可以是具有特殊重要性的空间图像参数。

ILD参数和ITD参数可以在输入音频通道与参考通道之间确定，通常在每个输入音频通道与参考输入音频通道之间确定。ICC通常个别地针对与参考通道进行比较的每个通道而确定。

在下文中，使用具有两个输入通道L、R以及单一缩混信号的示例来说明BCC方法的一些细节。然而，可将表示广义化，以便涵盖不止两个输入音频通道以及/或者使用不止一个缩混信号的配置。

通常将针对每个子带ΔL_n的通道间声级差(ILD)估算为：

Δ L_{n} = 10 \log_{10} (\frac{{s_{n}^{L}}^{T} s_{n}^{L}}{{s_{n}^{R}}^{T} s_{n}^{R}}) - - - (1)

其中和

分别是子带n中的时域左通道信号和右通道信号。

通道间时间差(ITD)，即，两个输入音频通道之间的延迟，可以按如下确定：

τ_n＝arg max_d{Φ_n(k，d)} (2)

其中Φ_n(d，k)为归一化相关性

Φ_{n} (d, k) = \frac{s_{n}^{L} {(k - d_{1})}^{T} s_{n}^{R} (k - d_{2})}{\sqrt{(s_{n}^{L} {(k - d_{1})}^{T} s_{n}^{L} (k - d_{1})) (s_{n}^{R} {k - d_{2}}^{T} s_{n}^{R} (k - d_{2}))}} - - - (3)

其中

d₁＝max{0，-d}

(4)

d₂＝max{0，d}

等式(3)的归一化相关性实际上是通道间相干性(IC)参数。其可以用于捕获与由等式(1)和(2)中的相位及幅度参数所表示的声音分量解相关的环境分量。

备选地，可以在离散傅里叶变换(DFT)域中确定BCC系数。使用例如加窗的短时傅里叶变换(STFT)，将上述子带信号转换成变换系数的群。

和

分别是两个输入音频通道L、R针对给定分析帧的子带n的频谱系数。变换域ILD可以如等式(1)中那样确定

Δ L_{n} = 10 \log_{10} (\frac{S_{n}^{L} * S_{n}^{L}}{S_{n}^{R} * S_{n}^{R}}), - - - (5)

其中^*表示复共轭。

然而，将时间差(ITD)作为通道间相位差(ICPD)进行处理可能更加方便

可以使用与等式(3)中的时域计算中所使用的计算法颇为相似的计算法，在频域中计算通道间相干性：

Φ_{n} = \frac{S_{n}^{L} * S_{n}^{R}}{\sqrt{(S_{n}^{L} * S_{n}^{L}) (S_{n}^{R} * S_{n}^{R})}} - - - (7)

当使用对DFT域频谱系数的ICPD相位估算而不是使用相关性估算的时域ITD估算时，在DFT域中基于等式(5)-等式(7)的备选BCC确定可能需要显著减少的计算。

声级和时间/相位差线索表示纯粹的环绕声分量，即，它们可被视为是对空间中的声源位置的建模。基本上，ILD和ITD线索表示环绕声平移系数。

另一方面，相干性线索取决于相干声音与解相关声音之间的关系。例如由于房间效应所造成的声源的后期混响的声级，以及分布在输入通道之间的环境声音，其可能对所感知的空间音频感觉具有显著贡献。

缩混器46创建缩混信号47，作为输入信号的通道的组合。

通常将缩混信号创建为变换域中输入信号的通道的线性组合。例如在双通道情况中，可以简单地通过对左通道和右通道中的信号取平均而创建缩混：

S_{n} = \frac{1}{2} (S_{n}^{L} + S_{n}^{R})

还有其他用以创建缩混信号的方式。在一个示例中，可以以保持信号能量的方式在将左输入通道和右输入通道组合起来之前对其进行加权。这可能例如在通道之一上的信号能量显著低于另一通道上的信号能量或者通道之一上的能量接近于零时有用。

可以使用可选的逆变换器，以便在时域中产生缩混音频信号47。

备选地，可以不存在逆变换器。输出的缩混音频信号47随后在频域中进行编码。

多通道编码器或者双耳编码器的输出通常包括一个或多个编码的缩混音频信号47以及场景参数45。这种编码可以通过针对信号47和信号45的单独编码块(未示出)来提供。任何单声道(或立体声)音频编码器均适合于缩混音频信号47，而针对通道间参数45则需要专用BCC参数化编码器。通道间参数例如可以包括通道间声级差(ILD)以及通道间相位差(ICPD)(例如，通道间时间差(ITD))中的一个或多个。

通道间时间差(ITD)可被用作图5的块32中的相位信息。

解码器装置52通常通过通信通道74与编码器装置42分离，其包括合成块54和参数处理块56。信号合成，例如BCC合成，可以基于参数处理块56所提供的参数而发生在合成块54中。

包含N个样本s₀、…、s_N-1的缩混信号47的帧例如通过DFT变换被转换成N个频谱样本S₀、…、S_N-1。

通道间参数45，例如上述ILD和/或ITD，从参数处理块56输出，并且被应用在合成块54中用以创建多个(N个)输出音频通道53中的空间音频信号，在本示例中为双耳音频。

当根据上述等式创建针对双通道信号的缩混并且将ILD ΔL_n确定为左通道与右通道的声级差时，可如下所示针对子带n来合成左输出音频通道信号和右输出音频通道信号：

S_{n}^{L} = \frac{1}{2} \frac{Δ L_{n}}{Δ L_{n} + 1} S_{n} e^{- j \frac{2 πn τ_{n}}{2 N}}

S_{n}^{R} = \frac{1}{2} \frac{1}{Δ L_{n} + 1} S_{n} e^{j \frac{2 πn τ_{n}}{2 N}},

其中S_n是重建的缩混信号的频谱系数矢量，

和

分别是左双耳信号和右双耳信号的频谱系数。

应当注意，使用频率相关声级和延迟参数的合成会重新创建表示音频源的声音分量。周围环境可能仍然缺失，而这例如可以通过使用通道间相干性参数ICC来合成。

用于基于相干性线索来合成环境分量的方法包括对信号的解相关，以便创建后期混响信号。实现可以包括使用随机相位滤波器对输出音频通道进行滤波，以及将结果添加到输出之中。当向输出音频通道施加不同的滤波器延迟时，创建出一组解相关的信号。

合成块54的多通道输出可由混合器58混合到多个(K个)输出音频通道57中。

这允许对不同空间混合格式的呈现。例如，混合器58可以响应于音频控制信息9而改变输出音频通道57的混合以及性质和数目。从以下与图8和图9相关的段落中可以理解音频控制信息9的来源。举例而言，在实践中，这意味着可以通过控制针对声源的扬声器增益而将该声源强制表示为例如来自听者的前方。如果使用头戴式耳机，则可以使用基于HRTF的空间化。

图8示意性地图示了一种实现，在其中由编码装置70实现空间采样块和参数化块，并且由解码装置72实现消歧块8和空间呈现块10。编码装置70跨通信通道74向解码器装置72发送参数化音频7。编码装置70跨通信通道74向解码器装置72发送与捕获的音频通道的时变空间采样相关的采样信息5。

图9示意性地图示了一种实现，在其中由编码装置70实现空间采样块4、参数化块6以及消歧块8，并且由解码装置72实现空间呈现块10。编码装置70跨通信通道74向解码器装置72发送编码音频7。编码装置70生成音频控制信息9，并且跨通信通道74将其发送到解码器装置72。解码装置72接收参数化音频7和音频控制信息9。编码装置70还可以发送采样信息5，用以支持由解码器装置72进行的空间补偿。

通道间表示可以通过DirAC参数化而非双耳线索编码(BCC)参数化来完成。在Dir AC参数化中，例如使用通道间时间差和声级差来针对多通道音频的每个时间-频率分量确定声源的到达方向。继而可以应用平移规则来提取期望的定向信息。DirAC参数化的一个优势在于，对子带的到达方向的消歧可在编码器中解决。在这种情况下，无需跨通信通道74向解码器传送附加的边信息(音频控制信息9)。

在DirAC格式中，方向矢量(方位θ和俯仰(以及散布ψ))关联于每个频率子带。DirAC格式的生成可从使用两个麦克风记录的信号生成，或者从使用如上所述的位置消歧的BBC编码的参数生成，以便在DirAC编码之前明确地定位音频源。

图10示意性地图示了适合用作编码器装置或解码器装置的一部分的装置80。

处理器82被配置用于从存储器84读取或者向存储器84写入。处理器82还可以包括输出接口和输入接口，数据和/或命令经由输出接口由处理器82输出，数据和/或命令经由输入接口输入到处理器82。

存储器84存储计算机程序86，该计算机程序86包括计算机程序指令，该计算机程序指令在被加载到处理器82中时控制装置的操作。计算机程序指令86提供使装置80能够执行图1、图5、图6-图9中所示方法的逻辑和例程。处理器82通过对存储器84进行读取而能够加载和执行计算机程序86。

参考图11，计算机程序可以经由任何适当的传送机制88到达装置80。传送机制88例如可以是计算机可读存储介质、计算机程序产品、存储器器件、诸如CD-ROM或DVD之类的存储介质、有形地实施计算机程序86的制品。传送机制可以是被配置用于可靠地传输计算机程序86的信号。装置80可将计算机程序86作为计算机数据信号进行传播或传输。

尽管存储器84被示为单一组件，但其亦可实现为一个或多个独立组件，其中的一些或其全部可以是集成的/可移动的，并且/或者可以提供永久性/半永久性/动态/缓存存储。

对“计算机可读存储介质”、“计算机程序产品”、“有形实施的计算机程序”等或者对“控制器”、“计算机”、“处理器”等的引用应当被理解为不仅包括具有诸如单/多处理器架构以及串行(冯·诺依曼)/并行架构之类不同架构的计算机，而且还包括诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理器件以及其他器件之类的专用电路。对计算机程序、指令、代码等的引用应当被理解为包括用于可编程处理器的软件或者固件，举例而言，诸如硬件器件的可编程内容，用于处理器的指令或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

装置80可以提供在模块中。在此所使用的“模块”指的是不包括将由最终制造商或用户添加的某些部分/组件的单元或装置。

图5中所示的块可以表示方法中的步骤以及/或者计算机程序86中的代码段。对块的特定顺序的图示并不一定意味着存在对于块的所需或优选顺序，并且块的顺序和布置可以更改。此外，有可能省略一些步骤。

尽管已在先前段落中参考各种示例描述了本发明的各实施方式，但是应当明白，可以对给定的示例做出修改而不偏离本发明所要求保护的范围。

尽管上文所述的一些示例涉及从前到后摆动从而对前方与后方之间的含混予以消除的线性麦克风阵列，但是在其他实施方式中，空间采样可以发生在不同的二维平面中。例如，可以使用自上而下摆动的线性麦克风阵列来消除上方与下方之间的含混。在其他实施方式中，空间采样例如可以通过旋转麦克风的阵列或者选择性地启用3D阵列中的麦克风而在三维中发生。

前文中所描述的特征能够以与所明确描述的组合不同的组合加以使用。

尽管已参考特定特征对功能进行了描述，但这些功能可由所描述的或未描述的其他特征来执行。

尽管已参考特定实施方式对特征进行了描述，但这些特征亦可存在于经描述或未描述的其他实施方式之中。

尽管在前文的说明书中力图关注于本发明据信特别重要的那些特征，但是应当理解，申请人要求关于上文所提及和/或附图中所示的任何可获专利的特征或者特征组合的保护。

Claims

1.一种方法，包括：

获得相位信息，该相位信息取决于捕获的音频通道之间的时变相位差；

获得采样信息，该采样信息与所述捕获的音频通道的时变空间采样相关；以及

处理所述相位信息和所述采样信息，以确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息。

2.根据权利要求1所述的方法，其中所述处理将所述相位信息的特征与所述采样信息的相应特征进行比较。

3.根据权利要求2所述的方法，其中所述特征取决于所述相位差的改变的指向以及所述空间采样的改变的指向。

4.根据任一前述权利要求所述的方法，其中所述处理：

基于所述相位信息而确定第一运动矢量；

针对所述空间采样而确定第二运动矢量；以及

将所述第一运动矢量与所述第二运动矢量进行比较。

5.根据任一前述权利要求所述的方法，其中所述处理：

从所述相位信息确定到达方向；

针对所述到达方向而确定第一运动矢量；

针对所述空间采样而确定第二运动矢量；以及

将所述第一运动矢量与所述第二运动矢量进行比较。

6.根据任一前述权利要求所述的方法，其中所述相位信息是参数化音频编码参数。

7.根据任一前述权利要求所述的方法，还包括：

确定多个频率子带中每一个的相位信息，以及处理所述多个频率子带中每一个的所述相位信息和所述采样信息，以确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息。

8.根据任一前述权利要求所述的方法，还包括通过在不同时间在不同麦克风位置处进行音频采样而执行所述捕获的音频通道的时变空间采样，其中每个音频通道具有关联的麦克风。

9.根据权利要求8所述的方法，其中通过使用在固定位置处的固定麦克风阵列移动经过不同取向来执行时变空间音频采样。

10.根据权利要求9所述的方法，其中所述固定麦克风阵列包括具有固定间距的一对麦克风。

11.根据权利要求8至10中任一项所述的方法，还包括将所述音频控制信息发送到远程目的地，以用于所述捕获的音频通道的空间呈现。

12.根据权利要求8至11中任一项所述的方法，还包括执行参数化音频编码以便产生参考音频信号和音频参数，以及将所述参考音频信号和所述音频参数发送到远程目的地，以用于所述捕获的音频通道的空间呈现。

13.根据任一前述权利要求所述的方法，还包括使用所述控制信息来对空间呈现的音频中声源的方位进行消歧。

14.根据权利要求8至11中任一项所述的方法，还包括对所述捕获的音频通道的所述时变空间采样进行补偿。

15.根据任一前述权利要求所述的方法，还包括动态地调整所述捕获的音频通道的所述时变空间采样。

16.根据任一前述权利要求所述的方法，还包括调整所述捕获的音频通道的所述时变空间采样，从而使得麦克风在与用于呈现的扬声器的位置所限定的空间对应的空间范围内变动。

17.一种计算机程序，其在被加载到处理器中时，使所述处理器：

对取决于捕获的音频通道之间的时变相位差的相位信息和与所述捕获的音频通道的时变空间采样相关的采样信息进行处理，以确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息。

18.根据权利要求17所述的计算机程序，其在被加载到处理器中时，使所述处理器将所述相位信息的特征与所述采样信息的特征进行比较。

19.根据权利要求18所述的计算机程序，其中所述特征取决于所述相位差的改变的指向以及所述空间采样的改变的指向。

20.根据权利要求17至19中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：

基于所述相位信息而确定第一运动矢量；

针对所述空间采样而确定第二运动矢量；以及

将所述第一运动矢量与所述第二运动矢量进行比较。

21.根据权利要求17至20中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：

从所述相位信息确定到达方向；

针对所述到达方向而确定第一运动矢量；

针对所述空间采样而确定第二运动矢量；以及

将所述第一运动矢量与所述第二运动矢量进行比较。

22.根据权利要求17至21中任一项所述的计算机程序，其中所述相位信息是参数化音频编码参数。

23.根据权利要求17至22中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：

对多个频率子带中每一个的相位信息和所述采样信息进行处理，以确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息。

24.根据权利要求17至23中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：通过在不同时间在不同麦克风位置处进行音频采样而执行所述捕获的音频通道的时变空间采样，其中每个音频通道具有关联的麦克风。

25.根据权利要求17至24中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：通过控制固定位置处的固定麦克风阵列移动经过不同的取向而执行时变空间采样。

26.根据权利要求24或25中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：控制所述音频控制信息向远程目的地的发送，以用于所述捕获的音频通道的空间呈现。

27.根据权利要求17至26中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器执行参数化音频编码以便产生参考音频信号和音频参数，以及控制所述参考音频信号和所述音频参数向远程目的地的发送，以用于所述捕获的音频通道的空间呈现。

28.根据权利要求24或25中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器使用所述控制信息对空间呈现的音频中声源的方位进行消歧。

29.根据权利要求17至28中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：对所述捕获的音频通道的所述时变空间采样进行补偿。

30.根据权利要求17至29中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：动态地调整所述捕获的音频通道的所述时变空间采样。

31.根据权利要求17至30中任一项所述的计算机程序，当其被加载到处理器中时，使所述处理器：调整所述捕获的音频通道的所述时变空间采样，从而使得麦克风在与用于呈现的扬声器的位置所限定的空间对应的空间范围内变动。

32.一种装置，包括：

电路，其被配置用于处理：

取决于捕获的音频通道之间的时变相位差的相位信息；以及

与所述捕获的音频通道的时变空间采样相关的采样信息，

以便确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息。

33.根据权利要求32所述的装置，其中所述电路被配置用于将所述相位信息的特征与所述采样信息的相应特征进行比较。

34.根据权利要求33所述的装置，其中所述特征取决于所述相位差的改变的指向以及所述空间采样的改变的指向。

35.根据权利要求32至34中任一项所述的装置，其中所述电路被配置用于：

基于所述相位信息而确定第一运动矢量；

针对所述空间采样而确定第二运动矢量；以及

将所述第一运动矢量与所述第二运动矢量进行比较。

36.根据权利要求32至35中任一项所述的装置，其中所述电路被配置用于：

从所述相位信息确定到达方向；

针对所述到达方向而确定第一运动矢量；

针对所述空间采样而确定第二运动矢量；以及

将所述第一运动矢量与所述第二运动矢量进行比较。

37.根据权利要求32至36中任一项所述的装置，其中所述相位信息是参数化音频编码参数。

38.根据权利要求32至35中任一项所述的装置，其中所述电路被配置用于：确定多个频率子带中每一个的相位信息，以及处理所述多个频率子带中每一个的所述相位信息和所述采样信息，以确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息。

39.根据权利要求32至35中任一项所述的装置，其中所述电路被配置用于：通过在不同时间在不同麦克风位置处进行音频采样而执行对所述捕获的音频通道的时变空间采样，其中每个音频通道具有关联的麦克风。

40.根据权利要求39所述的装置，其中所述装置被配置用于控制固定位置处的固定麦克风阵列移动经过不同的取向，以执行时变空间音频采样。

41.根据权利要求40所述的装置，其中所述固定麦克风阵列包括具有固定间距的一对麦克风。

42.根据权利要求32至41中任一项所述的装置，其中所述装置被配置用于：将所述音频控制信息发送到远程目的地，以用于所述捕获的音频通道的空间呈现。

43.根据权利要求32至42中任一项所述的装置，其中所述装置被配置用于执行参数化音频编码以便产生参考音频信号和音频参数，以及将所述参考音频信号和所述音频参数发送到远程目的地，以用于所述捕获的音频通道的空间呈现。

44.根据权利要求32至43中任一项所述的装置，其中所述装置被配置用于使用所述控制信息对空间呈现的音频中声源的方位进行消歧。

45.根据权利要求32至44中任一项所述的装置，其中所述装置被配置用于对所述捕获的音频通道的所述时变空间采样进行补偿。

46.根据权利要求32至45中任一项所述的装置，其中所述电路被配置用于动态地调整所述捕获的音频通道的所述时变空间采样。

47.根据权利要求32至46中任一项所述的装置，其中所述电路被配置用于调整所述捕获的音频通道的所述时变空间采样，从而使得麦克风在与用于呈现的扬声器的位置所限定的空间对应的空间范围内变动。

48.一种装置，包括：

用于获得取决于捕获的音频通道之间的时变相位差的相位信息的装置；

用于获得与所述捕获的音频通道的时变空间采样相关的采样信息的装置；以及

用于处理所述相位信息和所述采样信息以便确定用于对所述捕获的音频通道的空间呈现进行控制的音频控制信息的装置。

49.一种方法，包括：

使用时变空间采样来捕获音频通道；

执行对捕获的音频通道的参数化音频编码，以产生参考音频信号和音频参数；

将所述参考音频信号和所述音频参数发送到远程目的地；以及

向所述远程目的地发送与所述捕获的音频通道的所述时变空间采样相关的采样信息。

50.根据权利要求49所述的方法，使用时变空间采样来捕获音频通道包括：在不同时间在不同麦克风位置处进行音频采样，其中每个音频通道具有关联的麦克风。

51.根据权利要求50所述的方法，其中通过使用在固定位置处的固定麦克风阵列移动经过不同的取向来执行时变空间音频采样。

52.根据权利要求51所述的方法，其中所述固定麦克风阵列包括具有固定间距的一对麦克风。

53.一种装置，包括：

用于使用时变空间采样来捕获音频通道的装置；

用于执行对捕获的音频通道的参数化音频编码以便产生参考音频信号和音频参数的装置；

用于将所述参考音频信号和所述音频参数发送到远程目的地的装置；以及

用于向所述远程目的地发送与所述捕获的音频通道的所述时变空间采样相关的采样信息的装置。

54.一种方法，包括：

接收参数化音频；

接收控制信息；

使用多个扬声器对捕获的音频通道进行空间呈现，其中所述控制信息用于控制所述多个扬声器的相对增益以便对所呈现的声源的方位进行消歧。

55.一种装置，包括：

用于接收参数化音频的装置；

用于接收控制信息的装置；

用于使用多个扬声器对捕获的音频通道进行空间呈现的装置，其中所述控制信息用于控制所述多个扬声器的相对增益以便对所呈现的声源的方位进行消歧。