CN112513980A

CN112513980A - 空间音频参数信令

Info

Publication number: CN112513980A
Application number: CN201980050085.5A
Authority: CN
Inventors: M-V·莱蒂南; L·拉克索南; J·维尔卡莫; T·皮赫拉亚库亚
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-05-31
Filing date: 2019-05-29
Publication date: 2021-03-16
Also published as: GB2574239A; EP3803857A4; WO2019229298A1; JP2021525392A; JP7142109B2; US20220272475A1; US11412336B2; GB201808930D0; US20210219084A1; EP3803857A1; US11832078B2

Abstract

一种装置，包括用于执行以下操作的部件：对于两个或更多个扬声器通道音频信号(102)，确定用于提供空间音频再现的至少一个空间音频参数(108，310)；在两个或更多个扬声器通道音频信号(102)之间确定至少一个音频信号关系参数(112)，该至少一个音频信号关系参数(112)与至少一个相干性参数(112)相关联，由此使得至少一个相干性参数(112)提供针对至少两个频带提供两个或更多个扬声器通道音频信号(102)之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数(108，310)和至少一个音频信号关系参数(112)来再现两个或更多个扬声器通道音频信号(102)；以及发送至少一个空间音频参数(108，310)，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息(112)。

Description

空间音频参数信令

技术领域

本申请涉及用于空间音频参数信令的装置和方法，但并不排他地涉及用于空间相干性以及定向和球扇形参数的信令。

背景技术

参数空间音频处理是音频信号处理的一个领域，其中使用一组参数来描述声音的空间方面。例如，在从麦克风阵列进行参数化空间音频捕获时，从麦克风阵列信号估计一组参数是一种典型且有效的选择，该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知，这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可以相应地在空间声音的合成中使用，以用于双耳式耳机、扬声器、或诸如全景环绕声(Ambisonics)之类的其他格式。

因此，频带中的方向和直接总能量比(direction and direct-to-total energyratio)是对空间音频捕获特别有效的参数化。

包括频带中的方向参数和频带中的能量比参数(指示声音的定向性)的参数集也可以被用作用于音频编解码器的空间元数据。例如，这些参数可以从麦克风阵列捕获的音频信号以及其他输入格式来估计，并且例如可以从麦克风阵列信号生成立体声信号以与空间元数据一起传送。立体声信号例如可以用EVS(在双-单声道配置中)或AAC编码器来进行编码。对应的解码器可以将音频信号解码成PCM信号，并(使用空间元数据)处理频带中的声音以获得空间输出，例如，双耳输出。

前述的解决方案尤其适用于编码来自麦克风阵列(例如，在移动电话、VR相机、独立麦克风阵列中)的被捕获空间声音。可期望这种编码器能够对元数据参数进行编码以更准确地传送输入音频信号的相关方面。

发明内容

根据第一方面，提供了一种装置，包括用于执行以下操作的部件：对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

用于发送的部件还用于发送至少一个音频信号关系参数，用于使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息的部件可以用于发送以下中的至少一个：至少一个相干性参数的至少一个定向；至少一个相干性参数的至少一个宽度；以及至少一个相干性参数的至少一个范围。

至少一个确定值可以包括以下中的至少一个：至少一个定向码；至少一个宽度码；以及至少一个范围码。

用于对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数的部件可以用于针对两个或更多个扬声器通道音频信号，确定至少一个方向参数和/或至少一个能量比。

所述部件还可以用于从两个或更多个扬声器通道音频信号确定传输音频信号，其中，该两个或更多个扬声器通道音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或传输音频信号来再现的。

用于在两个或更多个扬声器通道音频信号之间确定至少一个相干性参数的部件可以用于确定扩展相干性参数，其中，该扩展相干性参数可以是基于在空间上与所识别的扬声器通道音频信号相邻的两个或更多个扬声器通道音频信号之间的通道间相干性信息来确定的，所识别的扬声器通道音频信号是基于至少一个空间音频参数来识别的。

用于确定扩展相干性参数的部件还可以用于：确定立体度参数，该立体度参数与指示两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的两个扬声器通道音频信号来相干地再现相关联，所识别的扬声器通道音频信号是在空间上最接近至少一个方向参数的扬声器通道音频信号；确定相干平移参数，该相干平移参数与指示两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的至少两个或更多个扬声器通道音频信号来相干地再现相关联；以及基于立体度参数和相干平移参数，生成扩展相干性参数。

用于基于立体度参数和相干平移参数来生成扩展相干性参数的部件还可以用于：确定主方向分析，以识别最接近至少一个方向参数的扬声器；从所识别的扬声器的方向进行搜索，并且每个搜索的区域包括按一系列角度步长从0度到180度的角度；估计所定义的主扬声器通道与搜索区域内的任一扬声器通道之间的平均相干性值；基于平均相干性值，确定基本恒定的相干区域；将扩展范围设置为最大相干区域的两倍；以及基于扩展范围，定义相干平移参数。

用于基于最大相干区域来定义相干平移参数的部件可以用于：确定最接近所述至少一个方向参数的扬声器；确定最接近至少一个方向参数的扬声器；确定该扬声器与在最大相干区域内的所有扬声器之间的归一化相干性c_a,i；忽略能量低于阈值能量的扬声器；从剩余的扬声器中选择最小相干性；基于在剩余扬声器之间的能量分布，确定能量分布参数；将能量分布参数与最大相干区域相乘，以确定相干平移参数。

用于确定立体度参数的部件还可以用于：确定主方向分析，以识别最接近至少一个方向参数的扬声器；从所识别的扬声器的方向进行搜索，并且每个搜索的环由按一系列角度步长从0度到180度的角度定义；估计位于搜索环附近的所有扬声器的平均相干性值和平均能量值；基于平均相干性值和平均能量值，确定最大相干环角度；将扩展范围设置为最大相干环角度的两倍；以及基于扩展范围，定义立体度参数。

用于基于扩展范围来定义立体度参数的部件可以用于：识别在最大相干环上具有最大能量的扬声器；确定所识别的扬声器与在最大相干环上的其他扬声器之间的归一化相干性；确定被相应的能量加权的归一化相干性的平均值；确定最大相干环上的能量与最大相干环内的能量的能量比率；以及将能量比率与归一化相干性的平均值相乘，以形成立体度参数。

根据第二方面，提供了一种用于空间音频信号处理的方法，包括：对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息可以包括发送以下中的至少一个：至少一个相干性参数的至少一个定向；至少一个相干性参数的至少一个宽度；以及至少一个相干性参数的至少一个范围。

对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数可以包括：针对两个或更多个扬声器通道音频信号，确定至少一个方向参数和/或至少一个能量比。

该方法可以包括：从两个或更多个扬声器通道音频信号确定传输音频信号，其中，该两个或更多个扬声器通道音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或传输音频信号来再现的。

在两个或更多个扬声器通道音频信号之间确定至少一个相干性参数可以包括：确定扩展相干性参数，其中，该扩展相干性参数可以是基于在空间上与所识别的扬声器通道音频信号相邻的两个或更多个扬声器通道音频信号之间的通道间相干性信息来确定的，所识别的扬声器通道音频信号是基于至少一个空间音频参数来识别的。

确定扩展相干性参数可以包括：确定立体度参数，该立体度参数与指示两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的两个扬声器通道音频信号来相干地再现相关联，所识别的扬声器通道音频信号是在空间上最接近至少一个方向参数的扬声器通道音频信号；确定相干平移参数，该相干平移参数与指示两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的至少两个或更多个扬声器通道音频信号来相干地再现相关联；以及基于立体度参数和相干平移参数，生成扩展相干性参数。

基于立体度参数和相干平移参数来生成扩展相干性参数可以包括：确定主方向分析，以识别最接近至少一个方向参数的扬声器；从所识别的扬声器的方向进行搜索，并且每个搜索的区域包括按一系列角度步长从0度到180度的角度；估计所定义的主扬声器通道与搜索区域内的任一扬声器通道之间的平均相干性值；基于平均相干性值，确定基本恒定的相干区域；将扩展范围设置为最大相干区域的两倍；以及基于扩展范围，定义相干平移参数。

基于最大相干区域来定义相干平移参数可以包括：确定最接近至少一个方向参数的扬声器；确定该扬声器与在最大相干区域内的所有扬声器之间的归一化相干性c_a,i；忽略能量低于阈值能量的扬声器；从剩余的扬声器中选择最小相干性；基于在剩余扬声器之间的能量分布，确定能量分布参数；将能量分布参数与最大相干区域相乘，以确定相干平移参数。

确定立体度参数可以包括：确定主方向分析，以识别最接近至少一个方向参数的扬声器；从所识别的扬声器的方向进行搜索，并且每个搜索的环由按一系列角度步长从0度到180度的角度定义；估计位于搜索环附近的所有扬声器的平均相干性值和平均能量值；基于平均相干性值和平均能量值，确定最大相干环角度；将扩展范围设置为最大相干环角度的两倍；以及基于扩展范围，定义立体度参数。

基于扩展范围来定义立体度参数可以包括：识别在最大相干环上具有最大能量的扬声器；确定所识别的扬声器与在最大相干环上的其他扬声器之间的归一化相干性；确定被相应的能量加权的归一化相干性的平均值；确定最大相干环上的能量与最大相干环内的能量的能量比率；以及将能量比率与归一化相干性的平均值相乘，以形成立体度参数。

根据第三方面，提供了一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得该装置至少：对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

被使得使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息的该装置可以进一步使得该装置发送以下中的至少一个：至少一个相干性参数的至少一个定向；至少一个相干性参数的至少一个宽度；以及至少一个相干性参数的至少一个范围。

被使得对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数的该装置可以被使得针对两个或更多个扬声器通道音频信号，确定至少一个方向参数和/或至少一个能量比。

该装置可以被使得从两个或更多个扬声器通道音频信号确定传输音频信号，其中，该两个或更多个扬声器通道音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或传输音频信号来再现的。

被使得在两个或更多个扬声器通道音频信号之间确定至少一个相干性参数的该装置可以被使得确定扩展相干性参数，其中，该扩展相干性参数可以是基于在空间上与所识别的扬声器通道音频信号相邻的两个或更多个扬声器通道音频信号之间的通道间相干性信息来确定的，所识别的扬声器通道音频信号是基于至少一个空间音频参数来识别的。

被使得确定扩展相干性参数的该装置可以被使得：确定立体度参数，该立体度参数与指示两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的两个扬声器通道音频信号来相干地再现相关联，所识别的扬声器通道音频信号是在空间上最接近至少一个方向参数的扬声器通道音频信号；确定相干平移参数，该相干平移参数与指示两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的至少两个或更多个扬声器通道音频信号来相干地再现相关联；以及基于立体度参数和相干平移参数，生成扩展相干性参数。

被使得基于立体度参数和相干平移参数来生成扩展相干性参数的该装置可以被使得：确定主方向分析，以识别最接近至少一个方向参数的扬声器；从所识别的扬声器的方向进行搜索，并且每个搜索的区域包括按一系列角度步长从0度到180度的角度；估计所定义的主扬声器通道与搜索区域内的任一扬声器通道之间的平均相干性值；基于平均相干性值，确定基本恒定的相干区域；将扩展范围设置为最大相干区域的两倍；以及基于扩展范围，定义相干平移参数。

被使得基于最大相干区域来定义相干平移参数的该装置可以被使得：确定最接近至少一个方向参数的扬声器；确定该扬声器与在最大相干区域内的所有扬声器之间的归一化相干性c_a,i；忽略能量低于阈值能量的扬声器；从剩余的扬声器中选择最小相干性；基于在剩余扬声器之间的能量分布，确定能量分布参数；将能量分布参数与最大相干区域相乘，以确定相干平移参数。

被使得确定立体度参数的该装置可以被使得：确定主方向分析，以识别最接近至少一个方向参数的扬声器；从所识别的扬声器的方向进行搜索，并且每个搜索的环由按一系列角度步长从0度到180度的角度定义；估计位于搜索环附近的所有扬声器的平均相干性值和平均能量值；基于平均相干性值和平均能量值，确定最大相干环角度；将扩展范围设置为最大相干环角度的两倍；以及基于扩展范围，定义立体度参数。

被使得基于扩展范围来定义立体度参数的该装置可以被使得：识别在最大相干环上具有最大能量的扬声器；确定所识别的扬声器与在最大相干环上的其他扬声器之间的归一化相干性；确定被相应的能量加权的归一化相干性的平均值；确定最大相干环上的能量与最大相干环内的能量的能量比率；以及将能量比率与归一化相干性的平均值相乘，以形成立体度参数。

根据第四方面，提供了一种包括指令的计算机程序(或包括程序指令的计算机可读介质)，该指令用于使得装置至少执行以下操作：对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

根据第五方面，提供了一种非暂时性计算机可读介质，包括程序指令，该程序指令用于使得装置至少执行以下操作：对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

根据第六方面，提供了一种装置，包括：空间音频参数确定电路，被配置为对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；音频信号关系参数确定电路，被配置为在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送电路，用于发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

根据第七方面，提供了一种包括程序指令的计算机可读介质，该程序指令用于使得装置至少执行以下操作：对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，该至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得至少一个相干性参数针对至少两个频带提供两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于至少一个空间音频参数和至少一个音频信号关系参数来再现两个或更多个扬声器通道音频信号；以及发送至少一个空间音频参数，并使用至少一个确定值来发送与至少一个通道间相干性信息相关联的至少一个信息。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所描述的方法的程序指令。

一种在介质上存储的计算机程序产品，可以使装置执行如本文所描述的方法。

一种电子设备，可以包括如本文所描述的装置。

一种芯片组，可以包括如本文所描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出适合于实现一些实施例的装置的系统；

图2示出根据一些实施例的如图1中所示的系统的操作的流程图；

图3示意性地示出根据一些实施例的如图1中所示的分析处理器；

图4a至图4f示出根据一些实施例的如图2中所示的分析处理器的操作的流程图；

图5a和图5b示出适合于一些实施例的应用的示例性虚拟扬声器节点布置；

图6a和图6b示出扬声器节点阵列中的示例性相干性；

图7a和图7b示出示例性虚拟扬声器阵列；

图8a和图8b示出根据一些实施例的示例性扩展相干定向编码量化示例；

图9a和图9b示出根据一些实施例的示出扩展相干定向的编码的示例性量化表；

图10示出用于相干性参数的确定的示例性增加的环/区域；

图11示意性地示出根据一些实施例的如图1中所示的合成处理器；

图12示出根据一些实施例的如图11中所示的合成处理器的示例性操作的流程图；

图13示出根据一些实施例的目标协方差矩阵的生成的示例性操作的流程图；

图14示意性地示出适合于实现本文所描述的装置的示例性设备。

具体实施方式

下面更详细地描述用于提供用于空间分析导出的元数据参数的有效编码的合适装置和可能机制。

如前面所讨论的，频带中的空间元数据参数，诸如方向和直接总能量比(或扩散比(diffuseness-ratio)、绝对能量、或指示在给定时频间隔处的声音的定向性/非定向性的任何合适表达)参数特别适合于表达自然(换句话说，所捕获的声场)和合成(换句话说，所生成的声场，诸如多通道扬声器混合)两者的声场的感知特性。

合适的空间参数的示例是相干性参数。如下文将进一步详细讨论的概念是在很大的比特率范围上提供有效的参数传输。

如下文在示例中详述的概念涉及使用与声场相关的参数化(频带中的方向和比率)的音频编码和解码，其中，提供了用于提高用前述参数化编码的(所产生和所记录的)扬声器环绕混音的再现质量的方案。

此外，通过分析频带中的扬声器信号的通道间相干性信息，实施例讨论了扬声器环绕混音的改进感知质量，其中通道间相干性信息包括通道间相干区域或通道/扬声器组的定向和宽度(范围)信息。

另外，下文中的示例示出了与空间参数(即，方向和能量比)一起被传送的空间相干性参数，其中，定向和宽度/范围使用“定向码(orientation code)”以及在一些实施例中使用“定向码”和“圆扇形码(circular sector code)”有效地被提供以进行编码。在一些实施例中，这些码可以按照每个方向参数都消耗4个比特。

如下文所讨论的示例还基于方向参数和包括定向码和圆扇形码的空间相干性参数来描述声音的再现，以使得空间相干性参数根据定向码和圆扇形码来影响再现音频信号的互相关。

输出信号的互相关可以是指再现扬声器信号、或再现双耳信号、或再现Ambisonic信号的互相关。

在以下一些示例中，“扩展相干性(spread coherence)”参数的信令采用区域定向和范围的格式。在此示例性格式中，扩展定向码具有0-180度旋转，并且在此示例性格式中，圆扇形码针对扩展范围具有0-360度中心角度。在一些实施例中，可以可替代地使用球扇形码(spherical sector code)。

如此，通过示例性实现方式进一步详细讨论的概念涉及使用空间音频或声场相关的参数化(例如，其他空间元数据参数可以包括方向、能量比、直总比(direct-to-totalratio)、方向稳定性、或其他合适的参数)的音频编码和解码。该概念还公开了包括旨在提高用前述参数化编码的扬声器环绕混音的再现质量的方法和装置的实施例。

概念性实施例通过分析频带中扬声器信号的通道间相干性、传送空间相干性参数和方向参数、以及基于方向参数和空间相干性参数来再现声音，以使得空间相干性对再现音频信号的互相关产生影响来改进扬声器环绕混音的质量。

在本文中，术语“相干/相干性(coherence)或互相关(cross-correlation)”不必被严格地解释为信号之间的一个特定相似度值，诸如归一化的平方值，而是通常反映播放音频信号之间的相似度值并且可以是复数值(具有相位)、绝对值、归一化值、或平方值。相干性参数可以更一般地被表达为以任何方式指示音频信号的相似度的音频信号关系参数。

输出信号的相干性可以是指再现扬声器信号、或再现双耳信号、或再现Ambisonic信号的相干性。

因此，所讨论的概念性实现可以提供两个相关参数，诸如：

在某个方向上跨越区域的空间相干性，这与声能的定向部分相关；

环绕空间相干性，这与声能的环境/非定向部分相关。

此外，如下面进一步详细讨论的，比率参数可以基于所确定的空间相干性或音频信号关系参数来修改以用于进一步的音频质量改进。

在下面详述的示例性实施例中描述了典型的场景，其中，扬声器环绕混音是水平环绕设置。在其他实施例中，空间相干性或音频信号关系参数还可以从“3D”扬声器配置中估计。换句话说，在一些实施例中，空间相干性或音频信号关系参数可以与位于所定义的平面“之上”或“之下”的方向(例如，相对于所定义的“水平”平面高或低的扬声器)相关联。

扬声器混音中任何通道之间都可以存在任何程度的相干性。理论上，为了准确地在感知上对此进行描述，应当在空间元数据中发送由频带中的扬声器信号的协方差矩阵传达的所有信息。这种协方差矩阵的大小是N x N，其中，N是扬声器通道的数量。对于5通道系统，这意味着对于每个时频分析间隔发送10个复互相关值，对于7通道系统是21个复互相关值等。显然，对于合适的低比特率编解码器，这会产生太多的元数据。因此，在以下实施例中描述了其中空间元数据仅描述在感知上必不可少的方面以便保持低比特率的示例。

为了完整性，在除了本发明的实施例以外的范围内，优化扬声器混音的通道间关系的传输的实用空间音频编码器不会发送扬声器混音的整个协方差矩阵，而是提供一组上混合参数以在解码器侧恢复具有与原始环绕信号基本相似的协方差矩阵的环绕声信号。诸如此类的方案已经被采用。然而，这种方法专用于仅对现有的扬声器混音进行编码和解码。本发明的上下文是使用方向和比率元数据的空间音频编码，这是独立于扬声器设置的参数化，尤其适合于所捕获的空间音频(因此，需要本发明的方法以在扬声器环绕输入的情况下提高质量)。

因此，这些示例侧重于使用如下文所讨论的感知确定的独立于扬声器设置的参数化方法来解决5.1和7.1(及其他格式)通道扬声器混音的再现质量。

在实际的5.1和7.1通道扬声器混音中，存在三种与方向-比率参数化有关的空间相干性的典型情况：

1)声音是使用两个扬声器相干地再现的，以创建“轻快的”感知(例如，使用左前和右前而不是中央)；

2)声音是使用三个(或更多个)扬声器相干地再现的，以创建“接近的”感知(例如，使用左前、右前和中央而不是仅中央)；以及

3)声音是从所有(或几乎所有)扬声器相干地再现的，以创建“头部中”或“上方”感知。

示出了如何在每个时频间隔内仅使用2个参数(除了已存在的方向和直总比参数之外)来估计和描述这三种情况。提出使用该参数集，可以获得与通过用整个协方差矩阵所包含的信息来再现空间声音所获得的相似的用于再现输出的空间质量。

还示出了如何通过使用文献中已知的现有合成技术，基于所提出的参数来合成空间声音。

关于图1，示出了用于实现本申请的实施例的示例性装置和系统。系统100被示出具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多通道扬声器信号直到元数据和传送音频信号的编码的部分，“合成”部分131是从编码元数据和传送音频信号的解码到(例如，以多通道扬声器形式)呈现合成信号的部分。

系统100和“分析”部分121的输入是多通道扬声器信号102。在下面的示例中描述了5.1通道扬声器信号输入，然而，在其他实施例中可以实现任何合适的输入扬声器(或合成多通道)格式。

多通道扬声器信号被传递到传输信号生成器103，并且被传递到分析处理器105。

传输信号生成器103被配置为接收输入信号102，并生成合适的传输音频信号104。传输音频信号也可以被称为关联音频信号，并且是基于空间音频信号的(隐含地或显式地包含声场的方向信息并被输入到系统中)。例如，在一些实施例中，传输信号生成器103被配置为将输入音频信号下混合或以其他方式选择或组合到确定数量的通道，并将它们输出为传输信号104。传输信号生成器103可以被配置为生成任何合适数量的传输音频信号(或通道)，例如在一些实施例中，传输信号生成器被配置为生成两个传输音频信号。在一些实施例中，传输信号生成器103还被配置为对音频信号进行编码。例如，在一些实施例中，音频信号可以使用高级音频编码(AAC)或增强语音服务(EVS)压缩编码来进行编码。在一些实施例中，传输信号生成器103可以被配置为均衡化音频信号、应用自动噪声控制、动态处理、或任何其他合适的处理。在一些实施例中，传输信号生成器103还可以将分析处理器105的输出作为输入，以促进传输信号104的生成。

在一些实施例中，传输信号生成器103是可选的，并且多通道扬声器信号未经处理地被传递。

在一些实施例中，分析处理器105也被配置为接收多通道扬声器信号，并分析这些信号以产生与多通道扬声器信号相关联并因此与传输信号104相关联的元数据106。例如，分析处理器105可以是计算机(运行存储在存储器和至少一个处理器上的合适软件)，或者可替代地可以是例如利用FPGA或ASIC的特定设备。如本文进一步详细示出的，对于每个时频分析间隔，元数据可以包括方向参数108、能量比参数110、环绕相干性参数112、以及扩展相干性参数114。在一些实施例中，方向参数和能量比参数可以被认为是空间音频参数。换句话说，空间音频参数包括旨在表征由多通道扬声器信号(或者一般地，两个或更多个播放音频信号)所创建的声场的参数。

在一些实施例中，所生成的参数可以在频带与频带之间不同。因此，例如，在频带X中，所有的参数被生成和发送，而在频带Y中，不同数量的参数被生成和发送，此外，在频带Z中，没有参数被生成或发送。这种情况的实际示例可以是对于诸如最高频带之类的一些频带，出于感知方面原因而不需要一些参数。

另外，分析处理器105或合适的编码器可以被配置为对元数据进行编码。例如，如在下文中进一步详细描述的。

传输信号104和元数据106可以被发送或存储，这在图1中由虚线107示出。在传输信号104和元数据106被发送或存储之前，它们可以被编码以便降低比特率，并且被复用到一个流中。可以使用任何合适的方案来实现编码和复用，并且在实施例中描述了元数据的编码。

在解码器侧，可以对所接收或获取的数据(流)进行解复用，并对编码流进行解码以获得传输信号和元数据。传输信号和元数据的这种接收或获取也在图1中关于虚线107的右侧示出。

系统100“合成”部分131示出了合成处理器109，其被配置为接收传输信号104和元数据106，并基于传输信号104和元数据106来重新创建多通道扬声器信号110(或在一些实施例中，诸如双耳或Ambisonics信号之类的任何合适的输出格式，这取决于使用实例)。在一些实施例中，合成处理器109可以是计算机(运行存储在存储器和至少一个处理器上的合适的软件)，或者可替代地可以是例如利用FPGA或ASIC的特定设备。

关于图2，示出了图1中所示的概述的示例性流程图。

首先，如在图2中由步骤201所示，系统(分析部分)被配置为接收多通道(扬声器)音频信号。

然后，如在图2中由步骤203所示，系统(分析部分)被配置为生成传输音频信号。

此外，如在图2中由步骤205所示，系统(分析部分)被配置为分析扬声器信号以生成元数据：方向；能量比；环绕相干性；扩展相干性。

然后，如在图2中由步骤207所示，系统被配置为对传输信号和具有相干性参数的元数据进行编码以用于存储/发送。

在这之后，如在图2中由步骤209所示，系统可以存储/发送编码的传输信号和具有相干性参数的元数据。

系统可以获取/接收编码的传输信号和具有相干性参数的元数据，如在图2中由步骤211所示。

然后，如在图2中由步骤213所示，系统被配置为从编码的传输信号和具有相干性参数的元数据中提取传输信号和具有相干性参数的元数据。

如在图2中由步骤215所示，系统(合成部分)被配置为基于所提取的传输信号和具有相干性参数的元数据来合成输出多通道音频信号(如先前所讨论的，其可以是诸如双耳、多通道或Ambisonics信号之类的任何合适的输出格式，这取决于使用实例)。

关于图3，进一步详细描述了根据一些实施例的示例性分析处理器105(如图1中所示)。在一些实施例中，分析处理器105包括时频域变换器301。

在一些实施例中，时频域变换器301被配置为接收多通道扬声器信号102，并应用诸如短时间傅立叶变换(STFT)之类的合适的时频域变换，以便将输入时域信号转换成合适的时频信号302。这些时频信号可以被传递到方向分析器303和相干性分析器305。

因此，例如，时频信号302可以在时频域表示中被表示为：

s_i(b,n)

其中，b是频率区间(frequency bin)索引，n是帧索引，i是扬声器通道索引。在另一个表达中，n可以被认为是具有比原始时域信号的采样率低的采样率的时间索引。这些频率区间可以被分组成多个子带，这些子带将一个或多个区间分组成频带索引k＝0,…,K-1。每个子带k具有最低区间b_k,low和最高区间b_k,high，并且该子带包含从b_k,low到b_k,high的所有区间。子带的宽度可以近似于任何合适的分布。例如，等效矩形带宽(ERB)尺度或Bark尺度。

在一些实施例中，分析处理器105包括方向分析器303。方向分析器303可以被配置为接收时频信号302，并基于这些信号来估计方向参数108。方向参数可以基于任何基于音频的“方向”确定来进行确定。

例如，在一些实施例中，方向分析器203被配置为用两个或更多个扬声器信号输入来估计方向。

因此，方向分析器303可以被配置为针对每个频带和时间帧提供被表示为θ(k,n)的方位角。如果方向参数是3D参数，则示例性方向参数可以是方位角θ(k,n)、仰角

方向参数108还可以被传递给相干性分析器305。

参考图2，通过在步骤205中分析扬声器信号以生成元数据(以及在步骤207中被编码以用于存储或发送)而获得的方向参数例如可以按照方位角和仰角或球形网格索引来表达。

在一些实施例中，除了方向参数之外，方向分析器303还被配置为确定与所确定的方向参数相关联的其他合适的参数。例如，在一些实施例中，方向分析器被使得确定能量比参数110。能量比可以被认为是音频信号的能量的确定，其中该音频信号可以被认为是从一方向到达的。例如，直接总能量比r(k,n)可以使用方向估计的稳定性度量、或者使用任何相关性度量、或者任何其他用于获得能量比参数的合适的方法来估计。在其他实施例中，方向分析器被使得确定和输出方向估计的稳定性度量、相关性度量、或其他与方向相关联的参数。

所估计的方向108参数可以被输出(并且将在合成处理器中被使用)。所估计的能量比参数110可以被传递到相干性分析器305。在一些实施例中，可以在参数组合器(未示出)中接收这些参数，其中，所估计的方向和能量比参数与如下文所述由相干性分析器305生成的相干性参数组合在一起。

在一些实施例中，分析处理器105包括相干性分析器305。相干性分析器305被配置为从方向分析器303接收参数(诸如方位角(θ(k,n))108、以及直接总能量比(r(k,n))110)。相干性分析器305可以进一步被配置为从时频域变换器301接收时频信号(s_i(b,n))302。所有这些是在时频域中；b是频率区间索引，k是频带索引(每个带潜在地包括若干区间b)，n是时间索引，i是扬声器通道。

虽然在此这些方向和比率针对每个时间索引n来进行表达，但在一些实施例中，这些参数可以在若干时间索引上进行组合。如已表达的，同样适用于频率轴，若干频率区间b的方向可以由包括若干频率区间b的频带k中的一个方向参数来表达。这同样适用于本文中所有所讨论的空间参数。

相干性分析器305被配置为产生多个相干性参数。在下面的公开内容中存在两个参数：环绕相干性(γ(k,n))和扩展相干性(ζ(k,n))，它们都在时频域中进行分析。另外，在一些实施例中，相干性分析器205被配置为修改相关联的参数(例如，所估计的能量比(r(k,n)))。

在一些实施例中，扩展相干性编码器307被配置为接收扩展相干性参数，并对其进行编码。在一些实施例中，扩展相干性编码器307的功能被并入相干性分析器305中，并且编码的扩展相干性参数114直接从相干性分析器中输出。在一些实施例中，扩展相干性参数的编码和信令是通过“扩展相干性”区域定向和范围参数对的信令来实现的。此外，在一些实施例中，“扩展相干性”区域定向和范围参数对通过以下项来信令的：

扩展定向码，具有0-180度旋转；以及

圆扇形码，针对扩展范围具有0-360度中心角度。

在一些实施例中，仅使用针对扩展范围具有0-360度中心角度的圆扇形码。

在一些实施例中，可以可替代地使用球扇形码。相干性的示例性编码旨在在编解码器输入处不产生任何损耗或者仅产生最小损耗，并且在音频编码器处在给定当前比特率约束的情况下允许高效传输。例如，在具有通信能力的场景中，网络拥塞可能会在单个传输严重影响音频编码比特率，从而导致帧到帧的波动。

相干性分析器305(以及扩展相干性编码器307)的输出并且特别是扩展相干性输出可以被传递到扩展相干性编码器，该扩展相干性编码器被配置为对输出扩展相干性进行编码，并生成合适的编码扩展相干性参数114。

因此，在一些实施例中，相干性分析器305可以被配置为针对包括一个或多个时间索引n和频率区间b的给定分析间隔，计算协方差矩阵C。矩阵大小为N x N，元素被表示为c_ij，其中，i和j是扬声器通道索引。

接下来，相干性分析器305可以被配置为确定最接近所估计的方向(在此示例中为方位角θ)的扬声器通道i_c。

i_c＝arg(min(|θ-α_i|))

其中，α_i是扬声器i的角度。

在一些实施例中，例如在3D扬声器设置的情况下，当确定最接近的扬声器i_c时还考虑仰角。这可以采用任何合适的方式来实现，例如，分别考虑每个定向或者一次计算所有组合(并从所述信息中提取定向)。

此外，在这种实施例中，相干性分析器305被配置为确定在扬声器i_c的左侧i_l和右侧i_r最接近的扬声器。

扬声器i与j之间的归一化相干性被表示为：

使用该等式，相干性分析器305可以被配置为计算i_l与i_r之间的归一化相干性c′_lr。换句话说，计算：

此外，相干性分析器305可以被配置为使用协方差矩阵的对角线元素来确定扬声器通道i的能量。

E_i＝c_ii

并确定扬声器i_l和i_r与扬声器i_l、i_r和i_c之间的能量比为：

然后，相干性分析器305可以使用这些所确定的变量生成“立体度(stereoness)”参数。

μ＝c′_lrξ_lr/lrc

此“立体度”参数具有0到1之间的值。值1意味着扬声器i_l和i_r中存在相干声音，并且该声音主导该扇区的能量。其原因可以是例如扬声器混音器使用了幅度平移技术以用于创建声音的“轻快的”感知。值0意味着尚未应用任何此类技术，并且例如，声音可以简单地被定位到最接近的扬声器。

此外，相干性分析器可以被配置为检测或至少识别其中使用三个(或更多个)扬声器相干地再现声音以创建“接近的”感知的情形(例如，使用左前、右前和中央而不是仅使用中央)。这可以是因为混音工程师在对多通道扬声器混音进行环绕混音时产生了这种情形。

在这种实施例中，相干性分析器使用先前识别的相同的扬声器i_l、i_r和i_c以使用先前讨论的归一化相干性确定来确定归一化相干性值c′_cl和c′_cr。换句话说，以下值被计算：

然后，相干性分析器305可以使用下式来确定描述这些扬声器之间的相干性的归一化相干性值c′_clr：

c′_clr＝min(c′_cl,c′_cr)

另外，相干性分析器可以被配置为确定描述能量如何在通道i_l、i_r和i_c之间均匀地分布的参数：

使用这些变量，相干性分析器可以确定新的相干平移参数κ为：

κ＝c′_clrξ_clr

此相干平移参数κ具有0到1之间的值。值1意味着在所有的扬声器i_l、i_r和i_c中存在相干声音，并且该声音的能量在这些扬声器之间均匀地分布。其原因可以是例如因为扬声器混音是使用用于创建更近的声源的感知的录音混音技术而生成的。值0意味着尚未应用任何此类技术，例如，声音可以简单地被定位到最接近的扬声器。

确定度量i_l和i_r中(但不在i_c中)的相干声音量的立体度参数μ和度量所有的i_l、i_r和i_c中的相干声音量的相干平移参数κ的相干性分析器被配置为使用这些参数以确定将要作为元数据输出的相干性参数。

因此，相干性分析器被配置为组合立体度参数μ和相干平移参数κ以形成值从0到1的扩展相干性ζ参数。扩展相干性ζ值0表示点源，换句话说，应当用尽可能少的扬声器(例如，仅使用扬声器i_c)来再现声音。随着扩展相干性ζ的值增加，更多能量扩展到扬声器i_c周围的扬声器；直到值为0.5，能量在扬声器i_l、i_r和i_c之间均匀地散布。当扩展相干性ζ的值超过0.5时，扬声器i_c中的能量降低；直到值为1，在扬声器i_c中没有能量，并且所有能量都在扬声器i_l和i_r处。

在一些实施例中，使用上述参数μ和κ，相干性分析器被配置为使用下列表达式来确定扩展相干性参数ζ：

上面的表达式仅仅是示例，并且应当注意，相干性分析器可以采用任何其他方式来估计扩展相干性参数ζ，只要它符合上述的参数定义即可。

除了被配置为检测先前的情形之外，相干性分析器还可以被配置为检测或至少识别其中从所有(或几乎所有)扬声器相干地再现声音以创建“头部中”或“上方”的感知的情形。

在一些实施例中，相干性分析器可以被配置为对所确定的具有最大值的能量E_i和扬声器通道i_e进行分类。

然后，相干性分析器可以被配置为确定此通道与M个其他最响通道之间的归一化相干性c′_ij。然后，可以监视此通道与M个其他最响通道之间的这些归一化相干性c′_ij值。在一些实施例中，M可以是N-1，这将意味着监视最响通道与所有其他扬声器通道之间的相干性。然而，在一些实施例中，M可以是更小的数量，例如，N-2。使用这些归一化相干性值，相干性分析器可以被配置为使用下列表达式来确定环绕相干性参数γ：

其中，

是最响通道与M个次最响通道之间的归一化相干性。

环绕相干性参数γ具有从0到1的值。值1意味着在所有(或几乎所有)的扬声器通道之间存在相干性。值为0意味着在所有(或者甚至几乎所有)的扬声器通道之间没有相干性。

上述表达式仅仅是对环绕相干性参数γ的估计的一个示例，并且可以使用任何其他方式，只要它符合上述的参数定义即可。

如上面所讨论的，相干性分析器可以用于估计环绕相干性和扩展相干性参数。然而，在一些实施例中，为了提高音频质量，在已经确定在扬声器信号内出现了情形1(声音是使用用于创建“轻快的”感知的两个扬声器且使用左前和右前而不是中央扬声器来相干地)和/或情形2(声音是使用用于创建“接近的”感知的三个(或更多个)扬声器来相干地)的情况下，相干性分析器可以修改比率参数r。因此，在一些实施例中，扩展相干性参数和环绕相干性参数还可以被用于修改比率参数r。

如上面所指示的，能量比r被确定为在方向(可以是方位角θ和/或仰角

)上的点源的能量与其余能量的比率。如果在环绕混音中声源被生成为点源(例如，声音仅在一个扬声器中)，则方向分析正确地产生了能量比1，并且合成阶段会将该声音再现为点源。然而，如果已经应用了多个扬声器中的相干声音的音频混合方法(诸如前述情形1和2)，则方向分析将产生更低的能量比(因为声音不再是点源)。结果，合成阶段会将该声音的一部分再现为环境，这可例如导致在生成扬声器混音时与录音混音工程师的目标相反的遥远声源的感知。

因此，在一些实施例中，如果检测到已经使用了将声音相干地分布到多个扬声器的音频混合技术，则相干性分析器可以被配置为修改能量比。

因此，在一些实施例中，相干性分析器被配置为确定扬声器il和ir的能量与所有扬声器的能量之间的比率：

使用此比率、以及在上面确定的c′_lr和γ，相干性分析器生成替代的能量比r_s：

r_s＝c′_lrξ_lr/all-γ

在一些实施例中，相干性分析器可以类似地被配置为确定扬声器i_l、i_r和i_c的能量与所有扬声器的能量之间的比率：

使用此比率、以及在上面计算的c′_clr和γ，相干性分析器又形成了另一个替代的能量比r_c：

r_c＝c′_clrξ_clr/all-γ

使用这些能量比，相干性分析器可以将原始能量比r修改为：

r′＝max(r,r_s,r_c)

此修改后的能量比r′可以用于代替原始能量比r。结果，例如，在情形1中(声音是使用用于创建“轻快的”感知的两个扬声器且使用左前和右前而不是中央扬声器来相干地)，比率r′将接近1(并且扩展相干性ζ也接近1)。如随后在合成阶段中所讨论的，声音将从扬声器i_l和i_r相干地再现而无需任何去相关。因此，再现声音的感知将匹配原始混音。

关于图4a、4b、4c和4d，示出了总结在上面所描述的操作的流程图。

因此，例如，图4a示出了如图3中所示的分析处理器105的操作的示例性概述。

如在图4a中由步骤401所示，第一操作是接收时域多通道(扬声器)音频信号。

接下来，如在图4a中由步骤403所示，应用时域到频域变换(例如，STFT)以生成合适的时频域信号以用于分析。

然后，在图4a中由步骤405示出了应用方向分析以确定方向和相关联的参数(例如，能量比参数)。

然后，在图4a中由步骤407示出了应用相干性分析以确定相干性参数，诸如环绕参数和/或扩展相干性参数。

在一些实施例中，在此步骤中还可以基于所确定的相干性参数来修改能量比。

在图4a中由步骤409示出了对扩展相干性参数进行编码以及输出(例如，在比特流或其他合适的数据结构内)所确定的参数的最终操作。

关于图4b是用于生成扩展相干性参数的示例性方法。

如在图4b中由步骤431所示，第一操作是计算协方差矩阵。

如在图4b中由步骤433所示，接下来的操作是确定最接近所估计的方向的通道和相邻通道(即，i_c，i_l，i_r)。

如在图4b中由步骤435所示，接下来的操作是对协方差矩阵进行归一化。

然后，如在图4b中由步骤437所示，该方法可以包括：使用协方差矩阵的对角线元素来确定通道的能量。

然后，如在图4b中由步骤439所示，该方法可以包括：确定左通道与右通道之间的归一化相干性值。

如在图4b中由步骤441所示，该方法可以包括：生成通道i_l和i_r的能量与通道i_l、i_r和i_c的能量之间的比率。

然后，如在图4b中由步骤443所示，可以确定立体度参数。

此外，与步骤439到443并行地，该方法可以包括：如在图4b中由步骤438所示，确定通道之间的归一化相干性值；如在图4b中由步骤440所示，确定能量分布参数；以及如在图4b中由步骤442所示，确定相干平移参数。

最后，如在图4b中由步骤445所示，该操作可以从立体度参数和相干平移参数确定扩展相干性参数。

此外，图4c示出了用于生成环绕相干性参数的示例性方法。

前三个操作与图4b所示的前四个操作中的三个相同，其中，第一操作是计算协方差矩阵，如在图4c中由步骤451所示。

如在图4c中由步骤453所示，接下来的操作是对协方差矩阵进行归一化。

然后，如在图4c中由步骤455所示，该方法可以包括：使用协方差矩阵的对角线元素来确定通道的能量。

然后，如在图4c中由步骤457所示，该方法可以包括：对能量E_i进行分类。

然后，如在图4c中由步骤459所示，该方法可以包括：选择具有最大值的通道。

然后，如在图4c中由步骤461所示，该方法可以包括：监视所选择的通道与M个其他最大能量通道之间的归一化相干性。

然后，如在图4c中由步骤463所示，从归一化协方差矩阵值确定环绕相干性参数。

关于图4d，示出了用于修改能量比的示例性方法。

如在图4d中由步骤471所示，第一操作是确定扬声器i_l和i_r的能量与所有扬声器的能量之间的比率。

然后，在图4d中由步骤473示出了由相干性分析器基于此比率以及如在上面所确定的c′_lr和γ来确定第一替代比率r_s。

如在图4d中由步骤475所示，接下来的操作是确定扬声器i_l、i_r和i_c的能量与所有扬声器的能量之间的比率。

然后，在图4d中由步骤477示出了由相干性分析器基于此比率以及如在上面所确定的c′_clr和γ来确定第二替代比率r_c。

然后，如在图4d中由步骤739所示，可以基于原始能量比、第一替代能量比和第二替代能量比来确定修改的能量比，并被用于替换当前的能量比。

详细描述了以上公式以估计用于环绕扬声器输入的相干性参数。类似的处理可以通过在每个时间参数估计间隔在所确定的位置处将音频对象处理为音频通道来对音频对象输入进行执行。

此外，还可以针对麦克风阵列信号或Ambisonic输入信号估计相干性参数，诸如扩展和环绕相干性参数。例如，方法和装置可以利用文献中已知的方法来从一些麦克风阵列获得一阶Ambisonic(FOA)信号。FOA信号包括全向信号和三个正交对齐的8字形(figure-of-eight)信号，这些信号在一个方向上具有正增益，并且在另一个方向上具有负增益。在用于这种输入的相干性参数估计的一个示例中，方法和装置可以监视FOA信号的全向和三个定向信号的相对能量。这是因为如果声音从环绕方向相干地再现并且FOA信号被捕获，则全向(0阶FOA)信号包括这些相干信号的总和。相反，三个8字形(一阶FOA)信号具有与方向有关的正增益和负增益，并且因此，相干信号将在这些一阶FOA信号处彼此部分或完全地抵消。因此，可以估计环绕相干性参数，以使得在0阶FOA信号的能量相对于1阶FOA信号的组合能量变得更高时提供更高的值。

关于图4e，示出了确定扩展相干性参数的另一示例。在此示例中，通过使用所有输入通道而不是仅使用相邻通道，进一步概括上述扩展相干性估计方法。

在一些实施例中，这可以通过实现一种搜索连续的相干区域(并概述使用多个扬声器来再现相干信号的情形)的方法来实现。

在此方法中，可以用参数角度(φphi，从0°开始)和步长(Δdelta，例如值为5°)来定义搜索模式。

该方法可以执行初始主方向分析(或从方向分析器303接收)以确定一个或多个方向，如在图4e中由步骤901所示。

然后，该方法可以基于输入通道的方向将输入声道放置在单位球体上(或创建单位球体)，如在图4e中由步骤903所示。

然后，该方法被进一步示出为在单位球体上创建一圆，其主方向为中心点，(φ)为中心点向量与指向圆的边缘的向量之间的夹角(或以其他方式创建参数化圆)，如在图4e中由步骤905所示。

可以通过合适的方式来提供主方向，诸如在上述方法中所建议的用于方向分析的方法。然后，可以将主通道选择为最接近所估计的主方向的扬声器节点或通道。在图4e中由步骤907示出主通道的定义。

接下来的操作是设置初始相干角度，例如φ_CA＝0，如在图4e中由步骤908所示。

然后开始相干区域搜索。此搜索使用具有搜索区φ的主通道，如在图4e由步骤909所示。

接下来的操作是使用步长Δ来增加角度φ，如在图4e中由步骤911所示。如果φ超过180度，则将其设置为180度。

例如，这在图10中被示出，其中，针对单位球体1100示出了主方向1101和第一角度φ1103，其在球体的表面上定义了第一搜索环1113。如图10中所示，可以在进一步的迭代中通过步长Δ来增加角度φ。如图10中所示，可以将该角度增加到第二角度1105、第三角度1107以及第四角度1119，从而产生第二环1115、第三环1117以及第四环1119。

利用由方向和角度所定义的此搜索区，将检查在搜索环内是否有任何输入通道(在定义容限内)，如在图4e中由步骤913所示。

如果没有任何输入通道，则该方法返回到步骤911，并且通过将角度φ进一步递增步长Δ来增加搜索环。

对于搜索环内任一所确定的输入通道，计算所检测到的通道与主通道之间的归一化相干能量，并计算它们的平均值，如在图4e中由步骤915所示。

然后，进行检查以确定平均相干性是否高于确定容限(例如，高于0.5)。该检查在图4e中由步骤917示出。

如果该检查确定平均相干性高于确定容限，则相干角度φ_CA被增加到当前角度，换句话说，φ_CA＝φ。

换句话说，新确定的通道被添加到该区域中。这在图4e中由步骤919示出。

然后，进一步检查以确定搜索角度φ是否为180度，如在图4e中由步骤921所示。

如果搜索角度小于180度，则操作返回到步骤911，并且通过将角度φ进一步递增步长Δ来增加搜索环。

如果相干能量不匹配(或者如果角度为180度)，则将φ_CA*2设置为扩展范围，如在图4e中由步骤923所示。

在将φ_CA*2设置为扩展范围之后的后续操作是估计相干平移参数，如在图4e中由步骤925所示。

为了估计相干平移参数，首先确定最接近被分析方向的扬声器a。接下来，确定该通道a与区域内所有通道i(其中，i≠a)之间的归一化相干性c_a,i。接下来，忽略能量低于阈值能量(例如，E_τ＝0.01E_c)的通道，并从剩余的通道中选择最小相干性。

c_area＝min(c_a,i),i∈区域,i≠a,i≠被忽略的通道

接下来，确定ξ_area，其指示能量在这些通道之间分布得有多均匀：

ξ_area＝min(ξ_i),i∈区域,i≠c,i≠被忽略的通道

使用这些变量，可以形成相干平移参数：

κ＝c_areaξ_area

如在图4e中由步骤925所示。

关于图4f，示出了另一实施例。

此另一实施例概括了对相干边缘的搜索，并且是通过对相干环的搜索而示出的。

该方法可以执行初始主方向分析(或从方向分析器303接收)以确定一个或多个方向，如在图4f中由步骤1001所示。

然后，该方法可以基于输入通道的方向将输入通道放置在单位球体上(或创建单位球体)，如在图4f中由步骤1003所示。

然后，该方法被进一步示出为在单位球体上创建一圆，其主方向为中心点，(φ)为中心点向量与指向圆的边缘的向量之间的夹角(或以其他方式创建参数化圆)，如在图4f中由步骤1005所示。

然后开始相干区域搜索。此搜索使用具有角度φ＝0的主通道，如在图4f中由步骤1007所示。在此方法中，可以用参数角度(φ，从0°开始)和步长(Δdelta，例如值为5°)来定义搜索模式。

此外，所找到的相干能量CE值被设置为0，并且定义相干角度φ_CE＝0，如在图4f中由步骤1009所示。

接下来的操作是使用步长Δ来增加搜索角度φ，如在图4f中由步骤1011所示。如果φ超过180度，则将其设置为180度。

利用此方向和角度，将检查在搜索环附近是否有任何输入通道(在确定容限内，例如10度)，如在图4f中由步骤1013所示。

如果在环附近没有任何输入通道，则该方法返回到步骤1011，并且通过将角度φ进一步递增步长Δ来增加搜索环。

如果在搜索环上至少存在两个输入通道(在容限内)，则确定在环上的所有通道之间的相干性，并确定环的平均相干性。

还确定在环上的所有通道的平均能量。

然后，将所确定的平均相干性与平均能量相乘，以生成环的相干能量CE，如在图4f中由步骤1015所示。

然后，进行检查以确定平均能量是否足够大，如在图10f中由步骤1017所示。

如果平均能量不大于最小值，则下一步骤为1011，环的大小被增加，并且再次搜索在环附近的输入通道。

如果环的平均能量大于最小值(例如，0.1)，则进一步检查以比较所确定的环的相干能量CE与先前的环的相干能量。在图4f中由步骤1019示出了CE检查。

如果检查确定环的相干能量大于先前的环的相干能量，则将该环用作相干环。换句话说，将所找到的CE设置为该环的所确定的CE值，并且设置φ_CE＝φ，如在图4f中由步骤1021所示。

如果环的相干能量小于先前的环的相干能量，则操作返回到步骤1011，并且通过将角度φ进一步递增步长Δ来增加搜索环。

如果相干能量更大，则进一步检查以确定搜索角度φ是否为180度，如在图4f中由步骤1023所示。

如果搜索角度小于180度，则操作返回到步骤1011，并且通过将角度φ进一步递增步长Δ来增加搜索环。

如果搜索角度为180度，则将扩展范围设置为φ_CE*2，如在图4f中由步骤1025所示。

在将扩展范围设置为φ_CE*2之后的后续操作是估计立体度参数，如在图4f中由步骤1027所示。可以通过以下操作来确定立体度参数：首先，找到在环上具有最大能量E_m的通道m。然后，计算此通道与在环上的其他通道i之间的归一化相干性c_m,i。接下来，计算被相应的能量加权的这些相干性的平均值：

然后，计算环上与环内的能量比：

使用这些变量，可以形成一个立体度参数：

μ＝c_ringξ_ring

在已确定相干平移和立体声参数之后，可以如上所述地对它们进行组合，以形成组合的扩展相干性参数。

由于上述示例还生成了扩展范围参数，因此在一些实施例中可以将它们进行组合。在一些实施例中，此组合可以是选择这两个结果中的较大的扩展范围。

上述算法示出了使用圆的一般搜索模式的示例。然而，该方法不限于此，而是可以使用各种形状和形式来代替圆。此外，使用3D搜索并不是强制性的，我们可以仅使用2D模式来进行搜索，并且包括此2D模式的旋转。

然后，这些(修改后的)能量比110、环绕相干性112和扩展相干性114参数可以被输出。此外，如所讨论的，扩展相干性参数可以被传递到元数据组合器或以任何合适的方式进行处理，例如，编码和/或与下混合信号复用，以及进行存储和/或发送(并被传递给系统的合成部分)。合成方法可以是修改的最小二乘优化信号混合技术，以处理信号的协方差矩阵，同时尝试保持音频质量。该方法使用输入信号的协方差矩阵度量以及目标协方差矩阵(如下面所讨论的)，并提供混合矩阵以执行这种处理。当在输入端没有足够量的独立信号能量时，该方法还提供用于最佳地使用去相关声音的手段。

在进一步讨论相干性参数的生成和编码之前，将先讨论示例性扬声器节点布置。关于图5a和5b，分别示出了示例性沉浸式音频呈现布置的第一视图和平面视图。图5a和5b中所示的阵列示出了可以表示(虚拟)扬声器的30个扬声器节点。在此示例中，阵列被布置有三个环，每个环包括10个扬声器节点。

第一环513是在收听位置501周围在耳朵水平线(ear level)处的水平环，其具有前方中央扬声器533(在“直接”位于收听位置501的前方的参考方位角上)、后方中央扬声器543(在参考方位角的相对侧上并且“直接”位于收听位置501的后方)、以及所标记的另一个扬声器523。

该阵列还可以包括第一升高或更高的环511，该环是在收听位置501周围在耳朵水平线上方的水平环，其具有前方中央扬声器531(在“直接”位于收听位置501的前方的参考方位角上)、后方中央扬声器541(在参考方位角的相对侧上并且“直接”位于收听位置501的后方)、以及所标记的另一个扬声器521。

该阵列还被示出为包括降低或更低的环515，该环是在收听位置501周围在耳朵水平线下方的水平环，其具有中央扬声器535(在“直接”位于收听位置501的前方的参考方位角上)、后方中央扬声器545(在参考方位角的相对侧上并且“直接”位于收听位置501的后方)、以及所标记的另一个扬声器525。

在一些实施例中，(虚拟)扬声器节点阵列可以可替代地完全环绕收听位置(即，例如，在等距阵列配置中在用户周围可以存在虚拟扬声器)，从而为用户提供3DoF旋转的完全自由度而不会由于所选择的观看/收听方向而造成分辨率损失。

扬声器节点之间的间距可根据“观看”方向而变化很大，并且方位角分布可以不是等距的，如图5a和5b中所示。例如，诸如5.1或7.1之类的传统水平扬声器配置在用户前面比在其他方向上提供了更高的空间分辨率。此外，在一些实施例中，扬声器分布可以被配置为提供更高的环而不提供更低的环，或者提供一个以上的更高或更低的环。

因此，虽然关于此示例性扬声器节点分布描述了以下示例，但是下文中所描述的实施例可以被应用于任何合适的扬声器节点分布。

关于图6a和6b，示出了其中仅考虑最接近的相邻方向(或扬声器节点)以用于相干性评估并且相干性参数的信令/传输创建大量数据的示例。因此，例如，对于单个扬声器节点601应考虑至少四个定向，分别被示为垂直定向613、水平定向617、第一对角定向611、以及第二对角定向615。因此，当发送单个主相干性分量时，信令仍然需要对所选择或所选取的定向进行信令。

一旦我们知道相干再现范围，就可以估计相干再现定向参数。此参数被用于在没有假定圆再现时支持再现。用于找到定向参数的方法是始终使用主方向扬声器和最接近的扬声器以正和负的范围角度(即，±范围/2)在旋转平面中针对每个定向角度来估计扩展相干性参数(并形成“立体度”和“相干平移”参数)。获得最大扩展相干性参数的定向是所选择的定向角度。如果多个角度使用相同的“左”和“右”扬声器，则使用这些角度的平均值。这进一步假定以某些步长(例如，10°)从-90°到90°对定向角度进行搜索。

此外，如图7a和7b中所示，大型阵列中的定向可能显得不明确，这取决于“中心”或定向、定向角、以及阵列配置。因此，例如，图7a示出了第一定向，其示出没有任何扬声器节点不明确，因为定向701穿过扬声器节点711、713、715、717和719。然而，图7b示出了定向721，其中该定向穿过一些扬声器节点731、737和743，但对于扬声器节点对733和735以及739和741是不明确的。这在感知上可能不相关，并且可能不影响编码和信令。

在下文所描述的实施例中，除了相干性参数值(“扩展相干性”)之外，还定义了相干性的定向和圆扇区。在一些实施例中，可以可替代地或附加地使用球扇区。在一些实施例中，该定义还可以包括定向信息(以及其他描述符，例如，平坦度)。

应当注意，在其中考虑“扩展相干性”方向的复杂形状的一些实施例中，输出可能需要非常大量的元数据，这些元数据产生的数据速率可能特别不适用于没有对应的感知优点的低比特率编解码器。因此，在一些实施例中，在感知上重要的各方面被定义并在空间元数据中被编码。

因此，如前面所讨论的，可以使得扩展相干性编码器对扩展相干区域的定向和范围进行编码：

-扩展定向码，具有0-180度旋转；以及

-圆扇形码，针对扩展范围具有0-360度中心角度。

注意，如果圆扇区非常小，则扩展相干性参数对再现的感知效果的影响是有限的。在值很小时，源保持更类似点状的。另一方面，在扇区值很小时，定向角的小变化通常在感知上也是无关紧要的。

关于图8a和8b，示出了具有以下形式的示例性定向编码：

其中，b是信令比特，Q_step是量化步长大小。对于4比特描述，其为：

因此，如图8a中所示的是针对以下量化的示例性量化点：1比特量化801(在–pi/2或0处)、2比特量化803(在–2pi/4、-pi/4、0、或+pi/4处)、3比特量化805(-4pi/8、-3pi/8、-2pi/8、-pi/8、0、+pi/8、2pi/8、3pi/8)、4比特量化807(从-8pi/16到7pi/16，步长为pi/16)、以及5比特量化809(从-15pi/32到14pi/32，步长为pi/32)。

此外，图8b示出了与第一比特b₀相关联的方向以及第二比特b₁为1时的效果，其中第一比特b₀定义了方向是–pi/2(其中b₀＝0)还是0(其中b₀＝1)。例如，当b₀b₁＝01时是–pi/4，以及当b₀b₁＝11时是pi/4。

此外，图9a示出了总结示例性4比特嵌入式码的表格(其中，添加了-90度的基本偏移以与图8a和8b相对应)。

在一些实施例中，可以嵌入定向码，在这种情况下，可以通过丢弃编码器中的比特来降低定向准确度。在嵌入式码中，基线描述提供了大致的定向(例如，90度或45度的准确度)，而额外的比特层定义了更准确的定向。

图9b示出了指示具有2比特基线和两个1比特嵌入式字段(其示例性值分别为15和7.5度)的嵌入式示例性码的另一个表。执行归一化以将所有值置于-90到89.99度之间，因为任何180度的定向偏移都对应于定向数据没有偏移。

可以通过标量量化值的实现来对(圆)扇形范围进行编码。在一些实施例中，量化可以对应于虚拟扬声器阵列，该虚拟扬声器阵列将要被用作预期渲染扬声器节点阵列，或者在一些实施例中，它可以是“任意的”量化器。

在一些实施例中，输入通道配置被信令到解码器。在这种情况下，(圆)扇形范围(以及定向码)可以直接利用此信息来维持与输入相对应的量化。

关于图11，进一步详细示出了示例性合成处理器109。示例性合成处理器109可以被配置为使用诸如在以下文献中详细描述的修改方法：US20140233762A1“空间音频处理中的最佳混合矩阵及去相关器的使用(Optimal mixing matrices and usage ofdecorrelators in spatial audio processing)”，Vilkamo，

Kuntz，Küch。

可以选择所引用的方法，其原因是它尤其适用于这种其中需要合成或处理通道间信号相干性的情况。

合成处理器109可以接收传输信号104和元数据106。

合成处理器109可以包括时频域变换器301，其被配置为接收传输信号104，并应用诸如短时间傅立叶变换(STFT)之类的合适的时频域变换，以便将输入时域信号转换成合适的时频信号。这些时频信号可以被传递到混合矩阵处理器1209和协方差矩阵估计器1203。

然后，可以用混合矩阵处理器(以及可能地还有去相关处理器)1209在频带中对时频信号进行自适应处理，并将采用时频输出信号1212的形式的结果变换回时域以提供采用空间化音频信号1214的形式的处理后输出。详细记载了混合矩阵处理方法，例如，在以下文献中：Vilkamo，

和Kuntz的“用于空间音频的时频处理的优化协方差域框架(Optimized covariance domain framework for time–frequency processing ofspatial audio)”，音频工程学会期刊61.6(2013):403-411。

为了应用混合矩阵处理，需要频带中的混合矩阵1210。在一些实施例中，混合矩阵1210可以在混合矩阵确定器1207中制定。混合矩阵确定器1207被配置为接收频带中的输入协方差矩阵1206和频带中的目标协方差矩阵1208。

频带中的协方差矩阵1206只在协方差矩阵估计器1203中确定，并且根据来自时频域变换器1201的频带中的下混合信号来度量。

在一些实施例中，目标协方差矩阵在目标协方差矩阵确定器1205中制定。

在一些实施例中，目标协方差矩阵确定器1205被配置为确定目标协方差矩阵以用于到环绕扬声器设置的再现。在下面的表达式中，为了简便起见(在不需要时)时间和频率索引n和k被移除。

首先，目标协方差矩阵确定器1205可以被配置为基于来自协方差矩阵估计器1203的输入协方差矩阵来估计目标协方差矩阵的总能量E 1204。在一些实施例中，可以从输入协方差矩阵的对角线元素的总和来确定总能量E。

然后，目标协方差矩阵确定器1205可以被配置为在相互不相干部分、定向部分C_D和环境或非定向部分C_A中确定目标协方差矩阵C_T。

因此，目标协方差矩阵由目标协方差矩阵确定器1205确定为C_T＝C_D+C_A。

环境部分C_A表示空间环绕的声能，其先前只是不相干的，但是由于本发明它可以是不相干的或相干的，或者部分相干的。

因此，目标协方差矩阵确定器1205可以被配置为确定环境能量为(1-r)E，其中，r是来自输入元数据的直接总能量比参数。然后，可以通过下式来确定环境协方差矩阵：

其中，I是单位矩阵，U是1矩阵，M是输出通道的数量。换句话说，当γ为0时，则环境协方差矩阵C_A是对角线，而当γ为1时，则环境协方差矩阵使得确定所有通道对是相干的。

接下来，目标协方差矩阵确定器1205可以被配置为确定直接部分协方差矩阵C_D。

因此，目标协方差矩阵确定器1205可以被配置为确定直接部分能量为rE。

然后，目标协方差矩阵确定器1205被配置为基于元数据来确定用于扬声器信号的增益向量。首先，目标协方差矩阵确定器1205被配置为例如使用向量基本幅度平移(VBAP)来确定用于扬声器设置的幅度平移增益的向量和空间元数据的方向信息。这些增益可以用列向量v_VBAP来表示，该列向量对于水平设置最多只有两个在幅度平移中用于活动的两个扬声器的非零值。在一些实施例中，目标协方差矩阵确定器1205可以被配置为将VBAP协方差矩阵确定为：

目标协方差矩阵确定器1205可以被配置为确定通道三元组i_l、i_r、i_c，其中，i_c是最接近所估计的方向的扬声器，而左右扬声器i_l、i_r被确定如下。首先，确定扩展范围，将其确定为从编码器/分析侧输入的参数，或者在这些参数不可用的情况下将其确定为常数，例如，60度。通过将方向参数的方位角向左和右调整扩展范围参数的一半，可以制定两个新的方向。左和右扬声器i_l、i_r是最接近这些新方向的扬声器，条件是i_l≠i_l≠i_c。

在一些实施例中，当定向角度被提供时，左和右扬声器i_l和i_r被选择为旋转平面而不是其中平面旋转由定向参数定义的水平面中最接近的扬声器。

此外，目标协方差矩阵确定器1205可以被配置为确定平移列向量v_LRC不然为零，但在索引i_l、i_r、i_c处值为

用于该向量的协方差矩阵为：

当扩展相干性参数ζ小于0.5时，即，当声音在“直接点源”与“三个扬声器相干声音”之间时，目标协方差矩阵确定器1205可以被配置为将直接部分协方差矩阵确定为：

C_D＝rE((1-2ζ)C_VBAP+2ζC_LRC)

当扩展相干性参数ζ在0.5到1之间时，即，当声音在“三个扬声器相干声音”与“两个扩展扬声器相干声音”之间时，目标协方差矩阵确定器1205可以确定扩展分布向量为：

然后，目标协方差矩阵确定器1205可以被配置为确定平移向量v_DISTR，其中，第i_c个元素是v_DISTR,3的第一个元素，第i_l和第i_r个元素是v_DISTR,3的第二和第三个元素。然后，目标协方差矩阵确定器1205可以将直接部分协方差矩阵计算为：

然后，目标协方差矩阵确定器1205可以获得目标协方差矩阵C_T＝C_D+C_A以处理声音。如上所述，环境部分协方差矩阵因此解释了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵解释了定向能量、方向参数、以及扩展相干性参数ζ。

目标协方差矩阵确定器1205可以被配置为通过被配置为合成环绕声的听觉间特性而不是通道间特性来确定用于双耳输出的目标协方差矩阵1208。

因此，目标协方差矩阵确定器1205可以被配置为确定用于双耳声音的环境协方差矩阵C_A。环境或非定向能量的量为(1-r)E，其中，E是先前所确定的总能量。环境部分协方差矩阵可以被确定为：

其中，

c(k,n)＝γ(k,n)+(1-γ(k,n))c_bin(k)

并且其中，c_bin(k)是针对第k个频率索引的频率的双耳漫射场相干性(binauraldiffuse field coherence)。换句话说，当γ(k,n)为1时，则环境协方差矩阵C_A使得确定左耳与右耳之间的完全相干性。当γ(k,n)为0时，则C_A使得确定对于人类收听者在漫射场中是自然的左耳与右耳之间的相干性(大致地：在高频处为“零”，在低频处为“高”)。

然后，目标协方差矩阵确定器1205可以被配置为确定直接部分协方差矩阵C_D。定向能量的量为rE。如将在下面所详述的，可以使用如与扬声器再现中类似的方法来合成扩展相干性参数ζ。

首先，目标协方差矩阵确定器1205可以被配置为确定2x1的HRTF向量

其中，θ(k,n)是所估计的方位角，

是所估计的仰角。目标协方差矩阵确定器1205可以确定平移HRTF向量，其等效于在三个方向上相干地再现声音：

其中，θ_Δ参数定义“扩展”声能相对于方位角维度的宽度。如果它是作为参数输入而提供的，则它例如可以是30度，或者是扩展范围参数的一半。

当扩展相干性参数ζ小于0.5时，即，当声音在“直接点源”与“三个扬声器相干声音”之间时，目标协方差矩阵确定器1205可以被配置为将直接部分HRTF协方差矩阵确定为：

当扩展相干性参数ζ在0.5到1之间时，即，当声音在“三个扬声器相干声音”与“两个扩展扬声器相干声音”之间时，目标协方差矩阵确定器1205可以通过重新使用幅度分布向量v_DISTR,3(与扬声器渲染中相同)来确定扩展分布。进而，组合的头部相关传递函数(HRTF)向量可以被确定为：

以上公式产生三个HRTF的加权和，其权重为v_DISTR,3。进而，直接部分HRTF协方差矩阵为：

然后，目标协方差矩阵确定器1205被配置为获得目标协方差C_T＝C_D+C_A以处理声音。如上所述，环境部分协方差矩阵因此解释了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵解释了定向能量、方向参数、以及扩展相干性参数ζ。

目标协方差矩阵确定器1205可以被配置为通过被配置为合成Ambisonic信号的通道间特性而不是扬声器环绕声的通道间特性来确定用于Ambisonic输出的目标协方差矩阵1208。下面以一阶Ambisonic(FOA)输出作为示例，然而，将相同的原理扩展到高阶Ambisonic输出也很简单。

因此，目标协方差矩阵确定器1205可以被配置为确定用于Ambisonic声音的环境协方差矩阵C_A。环境或非定向能量的量为(1-r)E，其中，E是先前所确定的总能量。环境部分协方差矩阵可以被确定为：

换句话说，当γ(k,n)为1时，则环境协方差矩阵C_A使得仅0阶分量接收信号。这种Ambisonic信号的意义是在空间上相干地再现声音。当γ(k,n)为0时，则C_A对应于漫射场中的Ambisonic协方差矩阵。上述0阶和1阶元素的归一化是根据已知的SN3D归一化方案的。

然后，目标协方差矩阵确定器1205可以被配置为确定直接部分协方差矩阵C_D。定向能量的量为rE。如下面所详述的，可以使用如与扬声器再现中类似的方法来合成扩展相干性参数ζ。

首先，目标协方差矩阵确定器1205可以被配置为确定4×1的Ambisonic平移向量

其中，θ(k,n)是所估计的方位角参数，

是所估计的仰角参数。Ambisonic平移向量

包含与方向

相对应的Ambisonic增益。对于使用已知的ACN通道排序方案的FOA输出，Ambisonic平移向量为：

目标协方差矩阵确定器1205可以确定平移Ambisonic向量，其等效于在三个方向上相干地再现声音：

当扩展相干性参数ζ小于0.5时，即，当声音在“直接点源”与“三个扬声器相干声音”之间时，目标协方差矩阵确定器1205可以被配置为将直接部分环绕立体声协方差矩阵确定为：

当扩展相干性参数ζ在0.5到1之间时，即，当声音在“三个扬声器相干声音”与“两个扩展扬声器相干声音”之间时，目标协方差矩阵确定器1205可以通过重新使用幅度分布向量v_DISTR,3(与扬声器渲染中相同)来确定扩展分布。进而，组合的Ambisonic平移向量可以被确定为：

以上公式产生三个Ambisonic平移向量的加权和，其权重为v_DISTR,3。进而，直接部分Ambisonic协方差矩阵为：

然后，目标协方差矩阵确定器1205被配置为获得目标协方差矩阵C_T＝C_D+C_A以处理声音。如上所述，环境部分协方差矩阵因此解释了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵解释了定向能量、方向参数、以及扩展相干性参数ζ。

换句话说，相同的一般原理适用于构建双耳或Ambisonic或扬声器目标协方差矩阵。主要区别是在直接部分的渲染中使用HRTF数据或Ambisonic平移数据而不是扬声器幅度平移数据，并且在环境部分的渲染中使用双耳相干性(或者特定Ambisonic环境协方差矩阵处理)而不是通道间(“零”)相干性。应当理解，处理器可能够运行实现上述目的的软件，并且因此能够渲染这些输出类型中的每一个。

在以上公式中，基于来自所估计的输入协方差矩阵的总能量估计E，对目标协方差矩阵的直接部分和环境部分的能量进行加权。可选地，可以省略这种加权，即，直接部分能量被确定为r，并且环境部分能量被确定为(1-r)。在这种情况下，所估计的输入协方差矩阵替代地利用总能量估计进行归一化，即，乘以1/E。基于这种所确定的目标协方差矩阵和归一化的输入协方差矩阵所得到的混合矩阵可以与先前所提供的公式完全或实际上相同，因为是这些矩阵的相对能量而不是它们的绝对能量产生影响。

在以上公式中，根据方向参数来确定将要在方向的左右两侧的相同平面上再现的扩展相干声音。在另一个实施例中，使用扬声器环和方向周围区域参数来再现相干声音。在该实施例中，例如在扬声器再现的情况下，使用所确定的扬声器的环(在由与中央扬声器l_c相距的角度α限定的容限内)来再现对应于ζ＝1的扩展相干声音。在另一个示例中，使用所确定的扬声器的虚拟表面(在与中央扬声器l_c相距的角度α内)来再现对应于ζ＝0.5的扩展相干声音。如果角度α被提供为参数输入，则角度α可以被确定为扩展范围参数的一半，或者是常数，例如，30度。

关于图12，示出了合成操作的概述。

因此，如在图12中由步骤1601所示，该方法可以接收时域传输信号。

然后，如在图12中由步骤1603所示，可以对这些传输信号进行时频域变换。

然后，如在图12中由步骤1605所示，可以从输入(传输音频)信号估计协方差矩阵。

此外，如在图12中由步骤1602所示，可以接收具有方向参数、能量比参数和相干性参数的空间元数据。

如在图12中由步骤1607所示，可以从所估计的协方差矩阵、方向参数、能量比参数和相干性参数确定目标协方差矩阵。

然后，如在图12中由步骤1609所示，可以基于所估计的协方差矩阵以及目标协方差矩阵来确定最佳混合矩阵。

然后，如在图12中由步骤1611所示，可以对时间-频率下混合信号应用混合矩阵。

然后，如在图12中由步骤1613所示，对时间-频率下混合信号应用混合矩阵的结果可以被进行时频域逆变换以生成空间化音频信号。

关于图13，示出了根据一些实施例的用于生成目标协方差矩阵的示例性方法。

首先，如在图13中由步骤1621所示，基于输入协方差矩阵来估计目标协方差矩阵的总能量E。

然后，如在图13中由步骤1623所示，该方法可以包括：确定环境能量为(1-r)E，其中，r是来自输入元数据的直接总能量比参数。

此外，如在图13中由步骤1625所示，该方法可以包括：估计环境协方差矩阵。

此外，如在图13中由步骤1624所示，该方法可以包括：确定直接部分能量为rE，其中，r是来自输入元数据的直接总能量比参数。

然后，如在图13中由步骤1626所示，该方法可以包括：确定用于扬声器设置的幅度平移增益向量和空间元数据的方向信息。

接下来，如在图13中由步骤1628所示，该方法可以包括：确定通道三元组(它们是最接近所估计的方向的扬声器)以及最接近的左扬声器和右扬声器。

然后，如在图13中由步骤1630所示，该方法可以包括：估计直接协方差矩阵。

最后，如在图13中由步骤1631所示，该方法可以包括：组合环境协方差矩阵部分和直接协方差矩阵部分以生成目标协方差矩阵。

以上公式讨论了目标协方差矩阵的构造。US20140233762A1和相关的期刊出版物中的方法提供更多细节，更相关地，“原型矩阵”的确定和使用。原型矩阵关于制定哪个最小二乘优化混合方案来确定用于渲染的“参考信号”。如果在编解码器中提供立体声下混合作为音频信号，则用于扬声器渲染的原型矩阵可使得确定用于左侧扬声器的信号相对于所提供的立体声轨道的左通道是最佳的，并且类似地对于右侧(中央通道可相对于左和右音频通道的和进行优化)。对于双耳输出，原型矩阵可使得确定用于左耳输出信号的参考信号是左立体声通道，并且类似地对于右耳。原型矩阵的确定对于对现有文献已进行研究的本领域技术人员是简单的。关于现有文献，本发明构想的新颖之处在于在合成阶段，还使用空间相干性元数据来构造目标协方差矩阵。

虽然在整个文档中没有重复，但应当理解，空间音频处理通常且在该上下文中是在频带中发生的。那些频带例如可以是时频变换的频率区间，或者是组合若干频率区间的频带。该组合可使得近似于人类听力的特性，诸如Bark频率分辨率。换句话说，在一些情况下，我们可以在组合若干频率区间b和/或时间索引n的时频区域中测量和处理音频。为了简便起见，这些方面均未通过以上所有公式来表达。在组合多个时频样本的情况下，通常针对该时频区域来估计诸如一个方向的一个参数集，然后根据诸如该一个方向参数的该参数集来合成该区域内的所有时频样本。

在参数分析中使用与所应用的滤波器组的频率分辨率不同的频率分辨率是空间音频处理系统中的典型方法。

因此，所提出的方法可检测或识别其中以下通用多通道混合技术已被应用于扬声器信号：

2)声音是使用三个(或更多个)扬声器相干地再现的，以创建“接近的”感知(例如，使用左前、右前和中央而不是仅中央)；

3)声音是从所有(或几乎所有)扬声器相干地再现的，以创建“头部中”或“上方”的感知。在一些实施例中，可通过使用多个(时频域)参数将这种检测或识别信息从编码器传递到解码器。其中的两个参数是扩展相干性参数和环绕相干性参数。另外，可修改能量比参数以改进已确定如上所述的这种情形的音频质量。

在合成阶段中，现有技术方法(没有使用所提出的新颖参数)存在以下问题，分别是这些情形：

1)声音大部分被再现为环境：中央扬声器发出干(dry)声，并且所有扬声器发出去相关的声音。这导致环境类感知，而原始信号的感知是“轻快的”。

2)声音部分地被再现为环境：中央扬声器发出干声，并且所有扬声器中发出去相关的声音。声源被感知到距离很远，而它与原始信号很近。

3)声音被再现为环境：几乎所有声音都被再现为从所有扬声器去相关的。空间感知几乎与原始信号的相反。

然而，在实现本文所描述的实施例的合成阶段中，合成可分别重现这些情况而不会出现问题(使用所提出的新颖参数)：

1)声音使用两个扬声器相干地再现，如同原始信号一样。

2)声音使用三个扬声器相干地再现，如同原始信号一样。

3)声音使用所有扬声器相干地再现，如同原始信号一样。

在一些实施例中，为了适应上述分析实施例，合成还可以使用完整的一组输出通道。在这种实施例中，替代于仅使用三个通道，在扩展范围内的所有通道被用于再现相干信号，并将构思扩展到多个扬声器的情况。类似地，在一些实施例中，围绕扩展范围的边缘的最接近扬声器被选择作为实际的边缘。然而，如上述合成方法中所定义的，圆区域被创建以用作两个清晰的扬声器，作为边缘。在一些实施例中，由于扬声器节点或扬声器可能并非在所有方向上都精确地位于此圆上，因此定义了容限区(例如，10度)，该容限区也允许包括稍微超出扩展范围之外的扬声器，从而产生更可能的最佳圆形边缘。

关于图14，示出了可用作分析或合成设备的示例性电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行诸如本文所描述的方法的各种程序代码。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括，用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可包括用于存储数据(例如，根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要，处理器1407就可经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可被耦合到处理器1407。在一些实施例中，处理器1407可控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1405可使得用户能够例如经由键盘将命令输入到设备1400。在一些实施例中，用户接口1405可使得用户能够从设备1400获得信息。例如，用户接口1405可包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中，用户接口1405可包括触摸屏或触摸界面，其能够使得信息被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这种实施例中，收发机可被耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机装置可被配置为经由有线或有线耦合与其他电子设备或装置通信。

收发机可通过任何合适的已知通信协议与其他装置通信。例如，在一些实施例中，收发机或收发机部件可使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。

收发机输入/输出端口1409可被配置为接收扬声器信号，并且在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外，设备可生成合适的下混合信号和参数输出以发送到合成设备。

在一些实施例中，装置1400可被作为合成设备的至少一部分。这样，输入/输出端口1409可被配置为接收下混合信号，并且在一些实施例中接收如本文所描述的在捕获设备或处理设备处确定的参数，以及通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可被耦合到任何合适的音频输出，例如被耦合到多通道扬声器系统和/或耳机或类似物。

如在本申请中所使用的，术语“电路”可以是指以下中的一个或多个或全部：

(a)仅硬件电路实现，(诸如仅模拟和/或数字电路的实现)；

(b)硬件电路和软件的组合，诸如(如果适用)：

(i)模拟和/或数字硬件电路与软件/固件的组合；以及

(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器之类的装置执行各种功能)；以及

(c)硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件(例如，固件)来操作，但操作不需要软件时可以不存在软件。

“电路”的这一定义适用于在本申请中的该术语的全部使用，包括在任何权利要求中的使用。作为另一个示例，如在本申请中使用的，术语“电路”还覆盖仅硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其伴随的软件和/或固件的实现。术语“电路”还覆盖(例如且如果适用于具体要求的元件)用于移动设备的基带集成电路或处理器集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路

或服务器中的类似集成电路、蜂窝网络设备、或其他计算或网络设备的基带集成电路或处理器集成电路。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件实现，而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件实现，但是本发明不限于此。虽然本发明的各个方面可被示出并描述为框图、流程图或使用一些其他图示表示来示出或描述，但是应当充分理解，本文所描述的这些框、装置、系统、技术或方法可以作为非限制性的示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其一些组合来实现。

本发明的实施例可由计算机软件、或由硬件、或由软件和硬件的组合来实现，计算机软件是移动设备的数据处理器可执行的，诸如在处理器实体中。此外，在此方面，应当注意附图中的逻辑流程的任何框都可表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可存储在物理介质上，诸如存储器芯片、或在处理器内实现的存储器块、诸如硬盘或软盘的磁介质、以及诸如DVD及其数据变体、CD的光学介质。

存储器可以是适合于本地技术环境的任何类型，并且可使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例可包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、以及基于多核处理器架构的处理器中的一个或多个。

本发明的实施例可在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司所提供的那些程序，可以使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了对半导体电路的设计，就可以将采用标准化电子格式(例如，Opus、GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求进行阅读时，鉴于前面的描述，各种修改和调整对于相关领域技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims

1.一种装置，包括用于执行以下操作的部件：

对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；

在所述两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，所述至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得所述至少一个相干性参数针对至少两个频带提供所述两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于所述至少一个空间音频参数和所述至少一个音频信号关系参数来再现所述两个或更多个扬声器通道音频信号；以及

发送所述至少一个空间音频参数，并使用至少一个确定值来发送与所述至少一个通道间相干性信息相关联的至少一个信息。

2.根据权利要求1所述的装置，其中，用于发送的部件还用于发送所述至少一个音频信号关系参数，用于使用所述至少一个确定值来发送与所述至少一个通道间相干性信息相关联的所述至少一个信息的部件用于发送以下中的至少一个：

所述至少一个相干性参数的至少一个定向；

所述至少一个相干性参数的至少一个宽度；以及

所述至少一个相干性参数的至少一个范围。

3.根据权利要求2所述的装置，其中，所述至少一个确定值包括以下中的至少一个：

至少一个定向码；

至少一个宽度码；以及

至少一个范围码。

4.根据权利要求1至3中任一项所述的装置，其中，用于确定所述至少一个空间音频参数的部件用于针对所述两个或更多个扬声器通道音频信号，确定至少一个方向参数和/或至少一个能量比。

5.根据权利要求1至4中任一项所述的装置，其中，所述部件还用于从所述两个或更多个扬声器通道音频信号确定传输音频信号，其中，所述两个或更多个扬声器通道音频信号是基于所述至少一个空间音频参数、所述至少一个相干性参数、和/或所述传输音频信号来再现的。

6.根据权利要求1至4中任一项所述的装置，其中，用于确定所述至少一个相干性参数的部件用于确定扩展相干性参数，其中，所述扩展相干性参数是基于在空间上与所识别的扬声器通道音频信号相邻的两个或更多个扬声器通道音频信号之间的通道间相干性信息来确定的，所识别的扬声器通道音频信号是基于所述至少一个空间音频参数来识别的。

7.根据在从属于权利要求4时的权利要求6所述的装置，其中，用于确定所述扩展相干性参数的部件还用于：

确定立体度参数，所述立体度参数与指示所述两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的两个扬声器通道音频信号来相干地再现相关联，所识别的扬声器通道音频信号是在空间上最接近所述至少一个方向参数的扬声器通道音频信号；

确定相干平移参数，所述相干平移参数与指示所述两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的至少两个或更多个扬声器通道音频信号来相干地再现相关联；以及

基于所述立体度参数和所述相干平移参数，生成所述扩展相干性参数。

8.根据权利要求7所述的装置，其中，用于基于所述立体度参数和所述相干平移参数来生成所述扩展相干性参数的部件还用于：

确定主方向分析，以识别最接近所述至少一个方向参数的扬声器；

从所识别的扬声器的方向进行搜索，并且每个搜索的区域包括按一系列角度步长从0度到180度的角度；

估计所定义的主扬声器通道与所述搜索区域内的任一扬声器通道之间的平均相干性值；

基于所述平均相干性值，确定基本恒定的相干区域；

将扩展范围设置为最大相干区域的两倍；以及

基于所述扩展范围，定义所述相干平移参数。

9.根据权利要求8所述的装置，其中，用于基于所述最大相干区域来定义所述相干平移参数的部件用于：

确定最接近所述至少一个方向参数的扬声器；

确定所述扬声器与在所述最大相干区域内的所有扬声器之间的归一化相干性；

忽略能量低于阈值能量的扬声器；

从剩余的扬声器中选择最小相干性；

基于在所述剩余扬声器之间的能量分布，确定能量分布参数；

将所述能量分布参数与所述最大相干区域相乘，以确定所述相干平移参数。

10.根据权利要求6或7所述的装置，其中，用于确定所述立体度参数的部件还用于：

从所识别的扬声器的方向进行搜索，并且每个搜索的环由按一系列角度步长从0度到180度的角度定义；

估计位于所述搜索环附近的所有扬声器的平均相干性值和平均能量值；

基于所述平均相干性值和所述平均能量值，确定最大相干环角度；

将扩展范围设置为所述最大相干环角度的两倍；以及

基于所述扩展范围，定义所述立体度参数。

11.根据权利要求10所述的装置，其中，用于基于所述扩展范围来定义所述立体度参数的部件用于：

识别在所述最大相干环上具有最大能量的扬声器；

确定所识别的扬声器与在所述最大相干环上的其他扬声器之间的归一化相干性；

确定被相应的能量加权的归一化相干性的平均值；

确定所述最大相干环上的能量与所述最大相干环内的能量的能量比率；以及

将所述能量比率与归一化相干性的平均值相乘，以形成所述立体度参数。

12.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：

13.一种装置，包括：

空间音频参数确定电路，被配置为对于两个或更多个扬声器通道音频信号，确定用于提供空间音频再现的至少一个空间音频参数；

音频信号关系参数确定电路，用于在所述两个或更多个扬声器通道音频信号之间确定至少一个音频信号关系参数，所述至少一个音频信号关系参数与至少一个相干性参数相关联，由此使得所述至少一个相干性参数针对至少两个频带提供所述两个或更多个扬声器通道音频信号之间的至少一个通道间相干性信息，以便基于所述至少一个空间音频参数和所述至少一个音频信号关系参数来再现所述两个或更多个扬声器通道音频信号；以及

发送电路，被配置为发送所述至少一个空间音频参数，并使用至少一个确定值来发送与所述至少一个通道间相干性信息相关联的至少一个信息。

14.一种方法，包括：

15.根据权利要求14所述的方法，其中，发送与所述至少一个通道间相干性信息相关联的所述至少一个信息是用于发送以下中的至少一个：

所述至少一个相干性参数的至少一个定向；

所述至少一个相干性参数的至少一个宽度；以及

所述至少一个相干性参数的至少一个范围。

16.根据权利要求14或15所述的方法，其中，确定所述至少一个空间音频参数是用于针对所述两个或更多个扬声器通道音频信号，确定至少一个方向参数和/或至少一个能量比。

17.根据权利要求14至16中任一项所述的方法，还包括：从所述两个或更多个扬声器通道音频信号确定传输音频信号，其中，所述两个或更多个扬声器通道音频信号是基于所述至少一个空间音频参数、所述至少一个相干性参数、和/或所述传输音频信号来再现的。

18.根据权利要求14至16中任一项所述的方法，其中，在所述两个或更多个扬声器通道音频信号之间确定至少一个相干性参数包括：确定扩展相干性参数，其中，所述扩展相干性参数是基于在空间上与所识别的扬声器通道音频信号相邻的两个或更多个扬声器通道音频信号之间的通道间相干性信息来确定的，所识别的扬声器通道音频信号是基于所述至少一个空间音频参数来识别的。

19.根据权利要求18所述的方法，其中，确定所述扩展相干性参数包括：

确定立体度参数，所述立体度参数指示所述两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的两个扬声器通道音频信号来相干地再现，所识别的扬声器通道音频信号是在空间上最接近所述至少一个方向参数的扬声器通道音频信号；

确定相干平移参数，所述相干平移参数指示所述两个或更多个扬声器通道音频信号被使用在空间上与所识别的扬声器通道音频信号相邻的至少两个或更多个扬声器通道音频信号来相干地再现；

基于所述立体度参数和所述相干平移参数，生成所述扩展相干性参数；以及

20.根据权利要求19所述的方法，其中，生成所述扩展相干性参数还包括：

基于所述平均相干性值，确定基本恒定的相干区域；

将扩展范围设置为最大相干区域的两倍；以及

基于所述扩展范围，定义所述相干平移参数。