CN117560615A

CN117560615A - 目标空间音频参数和相关联的空间音频播放的确定

Info

Publication number: CN117560615A
Application number: CN202311504779.6A
Authority: CN
Inventors: M-V·莱蒂南; J·维卡莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2017-11-06
Filing date: 2018-10-30
Publication date: 2024-02-13
Also published as: GB201718341D0; CN111316354B; EP3707708A1; CN111316354A; US20240007814A1; US12114146B2; US20210377685A1; US11785408B2; EP3707708A4; WO2019086757A1

Abstract

一种用于空间音频信号处理的方法，包括：对于两个或更多个播放音频信号(102，202)，确定用于提供空间音频再现的至少一个空间音频参数(108，110)；在两个或更多个播放音频信号(102，202)之间确定至少一个音频信号关系参数(110，112，114)，至少一个音频信号关系参数(110，112，114)与两个或更多个播放音频信号(102，202)之间的并且用于至少两个频带的通道间信号关系信息的确定相关联，以使得两个或更多个播放音频信号(102，202)被配置为基于至少一个空间音频参数(108，110)和至少一个音频信号关系参数(110，112，114)来再现。

Description

目标空间音频参数和相关联的空间音频播放的确定

本申请是发明名称为“目标空间音频参数和相关联的空间音频播放的确定”的中国发明专利申请(申请号为201880071655.4，申请日为2018年10月30日)的分案申请。

技术领域

本申请涉及用于频带中声场相关参数估计的装置和方法，但并不排它地涉及用于对音频编码器和解码器的时频域声场相关参数估计的装置和方法。

背景技术

参数空间音频处理是音频信号处理的一个领域，其中，使用一组参数来描述声音的空间方面。例如，在从麦克风阵列进行参数化空间音频捕获时，从麦克风阵列信号估计一组参数是一种典型且有效的选择，该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知，这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可相应地在空间声音的合成中使用，以用于双耳式耳机、扬声器、或诸如环绕立体声(Ambisonics)的其它格式。

因此，频带中的方向和直接总能量比率是对空间音频捕获特别有效的参数化。

包括频带中的方向参数和频带中的能量比率参数(指示声音的定向性)的参数集也可被用作用于音频编解码器的空间元数据。例如，这些参数可从麦克风阵列捕获的音频信号来估计，并且例如可从麦克风阵列信号生成立体声信号以与空间元数据一起传达。立体声信号例如可用EVS或AAC编码器来编码。解码器可将音频信号解码成PCM信号，并(使用空间元数据)处理频带中的声音以获得空间输出，例如，双耳输出。

前述的解决方案尤其适用于编码来自麦克风阵列(例如，在移动电话、VR相机、独立麦克风阵列中)的被捕获空间声音。然而，可期望这种编码器除了麦克风阵列捕获的信号之外还具有其它输入类型，例如，扬声器信号、音频对象信号、或环绕立体声信号。

分析一阶环绕立体声(FOA)输入用于空间元数据提取已经在与定向音频编码(DirAC)和谐波平面波展开(Harpex)有关的科学文献中进行了详尽的记录。这是因为存在直接提供FOA信号(更准确地：其变体，B格式信号)的麦克风阵列，并且因此分析这种输入已经成为该领域的研究重点。

编码器的另一个输入也是多通道扬声器输入，诸如5.1或7.1通道环绕声输入。

然而，可以容易地证明如上所述的元数据表示不能传达诸如在许多系统中常规使用的5.1或7.1混音的多通道输入的所有相关方面。这些方面与录音工程师用于生成艺术环绕声扬声器混音的方法有关。具体地，录音工程师可使用声音在两个或更多个方向上的相干再现，这是不能通过利用频带中的方向和比率元数据的声场相关参数化很好地解释的场景。

因此，需要更有效的元数据参数以更准确地传达多通道输入的相关方面。

发明内容

根据第一方面，提供一种用于空间音频信号处理的方法，其包括：对于两个或更多个播放音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个播放音频信号之间确定至少一个音频信号关系参数，至少一个音频信号关系参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定相关联，以使得两个或更多个播放音频信号被配置为基于至少一个空间音频参数和至少一个音频信号关系参数来再现。

在两个或更多个播放音频信号之间确定至少一个音频信号关系参数可包括：确定至少一个相干性参数，至少一个相干性参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定相关联。

对于两个或更多个播放音频信号，确定用于提供空间音频再现的至少一个空间音频参数可包括：对于两个或更多个播放音频信号，确定至少一个方向参数和至少一个能量比率。

该方法还可包括：从两个或更多个播放音频信号确定下混合信号，其中，两个或更多个播放音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或下混合信号来再现的。

在两个或更多个播放音频信号之间确定至少一个相干性参数可包括：确定扩展相干性参数，其中，扩展相干性参数可以是基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息来确定的，所识别的播放音频信号是基于至少一个空间音频参数来识别的。

确定扩展相干性参数可包括：确定立体度参数，立体度参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的两个播放音频信号来相干地再现相关联，所识别的播放音频信号是在空间上最接近至少一个方向参数的播放音频信号；确定相干平移参数，相干平移参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的至少两个或更多个播放音频信号来相干地再现相关联；以及基于立体度参数和相干平移参数，生成扩展相干性参数。

基于立体度参数和相干平移参数，生成扩展相干性参数可包括：当立体度参数和相干平移参数中的任意一个大于0.5并且相干平移参数大于立体度参数时，将扩展相干性参数设置为以下中的最大值：0.5，以及0.5加上立体度参数与相干平移参数之差；或者否则，将扩展相干性参数设置为立体度参数和相干平移参数中的最大值。

确定立体度参数可包括：计算与两个或更多个播放音频信号相关联的协方差矩阵；确定在空间上最接近至少一个方向参数的播放音频信号和与最接近至少一个方向参数的播放音频信号相关联的在空间上相邻的播放音频信号对；基于协方差矩阵，确定最接近至少一个方向参数的通道和相邻的播放音频信号对的能量；确定相邻的播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率；对协方差矩阵进行归一化；以及基于播放音频信号对之间的归一化相干性乘以播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率，生成立体度参数。

确定相干平移参数可包括：确定在空间上最接近至少一个方向的播放音频信号与播放音频信号对中的每一个播放音频信号之间的归一化相干性值；选择归一化相干性值中的最小值，最小值描述播放音频信号之间的相干性；确定用于描述能量如何均匀分布的能量分布参数；以及基于归一化相干性值中的最小值与能量分布参数的乘积，生成相干平移参数。

确定至少一个相干性参数可包括：确定环绕相干性参数，其中，环绕相干性参数是基于两个或更多个播放音频信号之间的通道间相干性来确定的。

确定环绕相干性参数可包括：计算与两个或更多个播放音频信号相关联的协方差矩阵；监视具有最大能量的播放音频信号，最大能量是基于协方差矩阵和其它播放音频信号的子集来确定的，其中，子集是在1与小于具有次最大能量的播放音频信号的总数的数量之间的确定数量；以及基于选择在具有最大能量的播放音频信号与次最大能量播放音频信号中的每一个之间确定的归一化相干性中的最小值，生成环绕参数。

该方法还可包括：基于至少一个相干性参数，修改至少一个能量比率。

基于至少一个相干性参数，修改至少一个能量比率可包括：基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息，确定第一替代能量比率，其中所识别的播放音频信号是基于至少一个空间音频参数来识别的；基于在所识别的播放音频信号与在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息，确定第二替代能量比率；以及基于至少一个能量比率、第一替代能量比率和第二替代能量比率中的最大值，选择至少一个能量比率、第一替代能量比率和第二替代能量比率中的一个作为修改的能量比率。

该方法还可包括：对下混合信号、至少一个方向参数、至少一个能量比率和至少一个相干性参数进行编码。

根据第二方面，提供一种用于合成空间音频的方法，其包括：接收至少一个音频信号，至少一个音频信号是基于两个或更多个播放音频信号；接收至少一个音频信号关系参数，至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定；接收用于提供空间音频再现的至少一个空间音频参数；以及基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数，再现两个或更多个播放音频信号。

接收至少一个音频信号关系参数，至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定可包括：接收至少一个相干性参数，至少一个相干性参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定。

至少一个空间音频参数可包括至少一个方向参数和至少一个能量比率，其中，基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数，再现两个或更多个播放音频信号还可包括：从至少一个空间音频参数、至少一个相干性参数和基于至少一个音频信号的估计协方差矩阵确定目标协方差矩阵；基于目标协方差矩阵和基于至少一个音频信号的估计协方差矩阵，生成混合矩阵；以及对至少一个音频信号应用混合矩阵以生成用于再现两个或更多个播放音频信号的至少两个输出空间音频信号。

从至少一个空间音频参数、至少一个音频信号关系参数和估计协方差矩阵确定目标协方差矩阵可包括：基于估计协方差矩阵，确定总能量参数；基于总能量参数和至少一个能量比率，确定直接能量和环境能量；基于所确定的环境能量和至少一个相关性参数中的一个相关性参数，估计环境协方差矩阵；基于输出通道配置和/或至少一个方向参数，估计以下中的至少一个：幅度平移增益向量；环绕立体声平移向量或至少一个头部相关传递函数；基于以下项，估计直接协方差矩阵：幅度平移增益向量、环绕立体声平移向量或至少一个头部相关传递函数；所确定的直接部分能量；以及至少一个相干性参数中的另一个相干性参数；以及通过组合环境协方差矩阵和直接协方差矩阵来生成目标协方差矩阵。

根据第三方面，提供一种用于空间音频信号处理的装置，该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为利用至少一个处理器使得该装置至少：对于两个或更多个播放音频信号，确定用于提供空间音频再现的至少一个空间音频参数；在两个或更多个播放音频信号之间确定至少一个音频信号关系参数，至少一个音频信号关系参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定相关联，以使得两个或更多个播放音频信号被配置为基于至少一个空间音频参数和至少一个音频信号关系参数来再现。

被使得在两个或更多个播放音频信号之间确定至少一个音频信号关系参数的该装置可进一步被使得：确定至少一个相干性参数，至少一个相干性参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定相关联。

被使得对于两个或更多个播放音频信号，确定用于提供空间音频再现的至少一个空间音频参数的该装置可进一步被使得：对于两个或更多个播放音频信号，确定至少一个方向参数和至少一个能量比率。

该装置可进一步被使得：从两个或更多个播放音频信号确定下混合信号，其中，两个或更多个播放音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或下混合信号来再现的。

可进一步被使得在两个或更多个播放音频信号之间确定至少一个相干性参数的该装置可进一步被配置为：确定扩展相干性参数，其中，扩展相干性参数可以是基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息来确定的，所识别的播放音频信号是基于至少一个空间音频参数来识别的。

被使得确定扩展相干性参数的该装置可进一步被使得：确定立体度参数，立体度参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的两个播放音频信号来相干地再现相关联，所识别的播放音频信号是在空间上最接近至少一个方向参数的播放音频信号；确定相干平移参数，相干平移参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的至少两个或更多个播放音频信号来相干地再现相关联；以及基于立体度参数和相干平移参数，生成扩展相干性参数。

被使得基于立体度参数和相干平移参数，生成扩展相干性参数的该装置可进一步被使得：当立体度参数和相干平移参数中的任意一个大于0.5并且相干平移参数大于立体度参数时，将扩展相干性参数设置为以下中的最大值：0.5，以及0.5加上立体度参数与相干平移参数之差；或者否则，将扩展相干性参数设置为立体度参数和相干平移参数中的最大值。

被使得确定立体度参数的该装置可进一步被使得：计算与两个或更多个播放音频信号相关联的协方差矩阵；确定在空间上最接近至少一个方向参数的播放音频信号和与最接近至少一个方向参数的播放音频信号相关联的在空间上相邻的播放音频信号对；基于协方差矩阵，确定最接近至少一个方向参数的通道和相邻的播放音频信号对的能量；确定相邻的播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率；对协方差矩阵进行归一化；以及基于播放音频信号对之间的归一化相干性乘以播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率，生成立体度参数。

被使得确定相干平移参数的该装置可进一步被使得：确定在空间上最接近至少一个方向的播放音频信号与播放音频信号对中的每一个播放音频信号之间的归一化相干性值；选择归一化相干性值中的最小值，最小值描述播放音频信号之间的相干性；确定用于描述能量如何均匀分布的能量分布参数；以及基于归一化相干性值中的最小值与能量分布参数的乘积，生成相干平移参数。

被使得确定至少一个相干性参数的该装置可进一步被使得：确定环绕相干性参数，其中，环绕相干性参数是基于两个或更多个播放音频信号之间的通道间相干性来确定的。

被使得确定环绕相干性参数的该装置可进一步被使得：计算与两个或更多个播放音频信号相关联的协方差矩阵；监视具有最大能量的播放音频信号，最大能量是基于协方差矩阵和其它播放音频信号的子集来确定的，其中，子集是在1与小于具有次最大能量的播放音频信号的总数的数量之间的确定数量；以及基于选择在具有最大能量的播放音频信号与次最大能量播放音频信号中的每一个之间确定的归一化相干性中的最小值，生成环绕参数。

该装置可进一步被使得：基于至少一个相干性参数，修改至少一个能量比率。

被使得基于至少一个相干性参数，修改至少一个能量比率的该装置可进一步被使得：基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息，确定第一替代能量比率，其中所识别的播放音频信号是基于至少一个空间音频参数来识别的；基于在所识别的播放音频信号与在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息，确定第二替代能量比率；以及基于至少一个能量比率、第一替代能量比率和第二替代能量比率中的最大值，选择至少一个能量比率、第一替代能量比率和第二替代能量比率中的一个作为修改的能量比率。

该装置可进一步被使得：对下混合信号、至少一个方向参数、至少一个能量比率和至少一个相干性参数进行编码。

根据第四方面，提供一种用于合成空间音频的装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为利用至少一个处理器使得该装置至少：接收至少一个音频信号，至少一个音频信号是基于两个或更多个播放音频信号；接收至少一个音频信号关系参数，至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定；接收用于提供空间音频再现的至少一个空间音频参数；以及基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数，再现两个或更多个播放音频信号。

至少一个音频信号关系参数，至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定可包括：至少一个相干性参数，至少一个相干性参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定。

至少一个空间音频参数可包括至少一个方向参数和至少一个能量比率，其中，基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数，被使得基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数，再现两个或更多个播放音频信号的该装置可进一步被使得：从至少一个空间音频参数、至少一个相干性参数和基于至少一个音频信号的估计协方差矩阵确定目标协方差矩阵；基于目标协方差矩阵和基于至少一个音频信号的估计协方差矩阵，生成混合矩阵；以及对至少一个音频信号应用混合矩阵以生成用于再现两个或更多个播放音频信号的至少两个输出空间音频信号。

被使得从至少一个空间音频参数、至少一个音频信号关系参数和估计协方差矩阵确定目标协方差矩阵的该装置可被使得：基于估计协方差矩阵，确定总能量参数；基于总能量参数和至少一个能量比率，确定直接能量和环境能量；基于所确定的环境能量和至少一个相关性参数中的一个相关性参数，估计环境协方差矩阵；基于输出通道配置和/或至少一个方向参数，估计以下中的至少一个：幅度平移增益向量；环绕立体声平移向量或至少一个头部相关传递函数；基于以下项，估计直接协方差矩阵：幅度平移增益向量、环绕立体声平移向量或至少一个头部相关传递函数；所确定的直接部分能量；以及至少一个相干性参数中的另一个相干性参数；以及通过组合环境协方差矩阵和直接协方差矩阵来生成目标协方差矩阵。

一种装置，包括用于执行如上所述的方法的动作的装置。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种在介质上存储的计算机程序产品，可使得装置执行如本文所述的方法。

一种电子设备，可包括如本文所述的装置。

一种芯片组，可包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本发明，现在将通过示例的方式参考附图，其中：

图1示意性地示出适合于实现一些实施例的装置的系统；

图2示意性地示出根据一些实施例的如图1所示的分析处理器；

图3示意性地示出根据一些实施例的如图1所示的合成处理器；

图4示出根据一些实施例的如图1所示的系统的操作的流程图；

图5示出根据一些实施例的如图2所示的分析处理器的操作的流程图；

图6a更详细地示出生成扩展相干性参数的示例性操作的流程图；

图6b更详细地示出生成环绕相干性参数的示例性操作的流程图；

图6c更详细地示出修改能量比率参数的示例性操作的流程图；

图7a示出根据一些实施例的如图3所示的合成处理器的示例性操作的流程图；

图7b示出根据一些实施例的目标协方差矩阵的生成的示例性操作的流程图；

图8至图10示出根据已知处理技术和一些实施例的音频信号处理的示例图；

图11示意性地示出适合于实现图2和图3所示的装置的示例性设备。

具体实施方式

下面更详细地描述用于提供用于多通道输入格式音频信号的有效空间分析导出的元数据参数的合适装置和可能机制。在下面的讨论中，将关于多通道扬声器实现来讨论多通道系统，并且因此中央通道被讨论为“中央扬声器”。然而，应当理解，在一些实施例中，通道位置或方向是虚拟位置或方向，并且是经由除了扬声器以外的手段渲染给用户的虚拟位置或方向。此外，多通道扬声器信号可被概括为两个或更多个播放音频信号。这样，播放音频信号可包括除了扬声器信号以外的源，例如，麦克风音频输入信号。

如前面所讨论的，频带中的空间元数据参数，诸如方向和直接总能量比率(或扩散比率、绝对能量、或指示在给定时频间隔处的声音的定向性/非定向性的任何合适表达)参数特别适合于表达自然声场的感知特性。诸如5.1扬声器混音的合成声音场景通常利用音频效果和幅度平移方法，其提供不同于自然声场中发生的声音的空间声音。特别地，5.1或7.1混音可被配置以使它包含从多个方向播放的相干声音。例如，通常在正面直接感知的5.1混音的一些声音不是由中央(通道)扬声器产生的，而是例如从左前和右前(通道)扬声器，并且还可能从中央(通道)扬声器相干地产生的。诸如方向和能量比率的空间元数据参数没有准确地表达这种空间相干特征。

从多个方向相干且同时地再现声音产生与单个扬声器所产生的感知不同的感知。例如，如果声音是使用左前和右前扬声器相干地再现的，则与如果声音是仅使用中央扬声器再现的相比，可以感知到声音更加“轻快”。相应地，如果声音是从左前、右前和中央扬声器相干地再现的，则声音可被描述为是接近的或加压的。因此，空间相干声音再现用于艺术目的，诸如增加某些声音(例如，主唱声音)的存在。有时来自多个扬声器的相干再现也被用于强调低频内容。

问题在于所描述的空间元数据没有表达音频信号的这种空间相干性。因此，如果空间元数据是如所提出的实现中所描述的，则这种编解码器不能传达空间相干性。如果空间相干声音从一个方向被重现为点源，则它被感知为是狭窄且较少出现的。此外，如果空间相干声音被重现为环境(ambience)，则它被感知是柔和、遥远的(有时由于必要的去相关而具有伪影)。

上述方案或它们的均衡都不是用于再现空间相干声音的在感知上良好的解决方案。

下面更详细地讨论的概念是提供如下的方法和装置：通过添加对“合成的”多通道音频输入(例如，关于5.1和7.1多通道输入)声音的特定分析方法来编码和解码空间相干性，以及在元数据流中提供所添加的相关(至少一个相干性)参数，其可与包括方向和能量比率的空间元数据一起提供。

这样，通过示例性实现方式更详细地讨论的概念涉及使用空间音频或声场相关参数化(频带中的方向和比率)的音频编码和解码。此外，该概念公开了提供以改进用前述参数化进行编码的扬声器环绕混音的再现质量的方案。概念实施例通过分析至少两个播放音频信号并确定至少一个相干性参数来改进扬声器环绕混音的质量。例如，概念实施例通过分析频带中扬声器信号的通道间相干性、传达空间相干性参数和定向参数、以及基于定向参数和空间相干性参数来再现声音以使得空间相干性对再现的音频信号的互相关产生影响，改进了扬声器环绕混音的质量。此处的术语“相干性”并不是严格地被解释为信号之间的一个特定相似度值，诸如归一化的平方值，而是通常反映播放音频信号之间的相似度值并且可以是复数值(具有相位)、绝对值、归一化值、或平方值。相干性参数可更一般地被表达为以任何方式指示音频信号的相似度的音频信号关系参数。

输出信号的互相关可以是指再现的扬声器信号的、或再现的双耳信号的、或再现的环绕立体声信号的互相关。

因此，所讨论的概念实现可针对两个相关问题提供两个相关解决方案：

在某个方向上跨越区域的空间相干性，这与声能的定向部分相关；

环绕空间相干性，这与声能的环境/非定向部分相关。

此外，如下面更详细地讨论的，比率参数可基于所确定的空间相干性或音频信号关系参数来修改以用于进一步的音频质量改进。

在下面详述的示例性实施例中描述了典型的场景，其中，扬声器环绕混音是水平环绕设置。在其它实施例中，空间相干性或音频信号关系参数还可从“3D”扬声器配置中估计。换句话说，在一些实施例中，空间相干性或音频信号关系参数可与位于所定义的平面“之上”或“之下”的方向(例如，相对于所定义的“水平”平面高或低的扬声器)相关联。

扬声器混音中任何通道之间都可存在任何程度的相干性。理论上，为了准确地在感知上对此进行描述，应当在空间元数据中发送由频带中的扬声器信号的协方差矩阵传达的所有信息。这种协方差矩阵的大小是N x N，其中，N是扬声器通道的数量。对于5通道系统，这意味着对于每个时频分析间隔发送10个复互相关值，对于7通道系统是21个复互相关值等。显然，对于合适的低比特率编解码器，这会产生太多的元数据。因此，在以下实施例中描述了其中空间元数据仅描述在感知上必不可少的方面以便保持低比特率的示例。

为了完整性，在除了本发明的实施例的范围以外的范围内，优化扬声器混音的通道间关系的传输的实用空间音频编码器不会发送扬声器混音的整个协方差矩阵，而是提供一组上混合参数以在解码器侧恢复具有与原始环绕信号基本相似的协方差矩阵的环绕声信号。诸如此类的解决方案已经在MPEG Surround和MPEG-H部分3:3D音频标准中采用。然而，这种方法专用于仅对现有的扬声器混音进行编码和解码。本发明的上下文是使用方向和比率元数据的空间音频编码，这是扬声器设置独立的参数化，尤其适合于所捕获的空间音频(因此，需要本发明的方法以在扬声器环绕输入的情况下提高质量)。

因此，这些示例聚焦于使用如下文所讨论的感知确定的扬声器设置独立参数化方法来解决5.1和7.1(及其它格式)通道扬声器混音的再现质量。

在实际的5.1和7.1通道扬声器混音中，存在三种与方向-比率参数化有关的空间相干性的典型情况：

1)声音是使用两个扬声器相干地再现的，以创建“轻快的”感知(例如，使用左前和右前而不是中央)；

2)声音是使用三个(或更多个)扬声器相干地再现的，以创建“接近的”感知(例如，使用左前、右前和中央而不是仅中央)；以及

3)声音是从所有(或几乎所有)扬声器相干地再现的，以创建“头部中”或“上方”的感知。

示出如何在每个时频间隔内仅使用2个参数(除了已存在的方向和直接总比率参数之外)来估计和描述这三种情况。提出使用该参数集，可获得与通过用整个协方差矩阵所包含的信息再现空间声音所获得的相似的用于再现的输出的空间质量。

还示出如何通过使用文献中已知的现有合成技术，基于所提出的参数来合成空间声音。

关于图1，示出了用于实现本申请的实施例的示例性装置和系统。系统100被示出具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多通道扬声器信号直到元数据和下混合信号的编码的部分，“合成”部分131是从编码元数据和下混合信号的解码到(例如，以多通道扬声器形式)重新生成的信号的呈现的部分。

系统100和“分析”部分121的输入是多通道扬声器信号102。在下面的示例中描述了5.1通道扬声器信号输入，然而，在其它实施例中可实现任何合适的输入扬声器(或合成多通道)格式。

多通道扬声器信号被传递到下混合器103和分析处理器105。

在一些实施例中，下混合器103被配置为接收多通道扬声器信号、将信号下混合为确定数量的通道、并输出下混合信号104。例如，下混合器103可被配置为生成多通道扬声器信号的2个音频通道下混合。所确定的通道数量可以是任何合适的通道数量。在一些实施例中，下混合器103是可选的，并且多通道扬声器信号以与下混合信号在该示例中相同的方式未经处理地被传递到编码器。

在一些实施例中，分析处理器105也被配置为接收多通道扬声器信号，并分析该信号以产生与多通道扬声器信号相关联并且因此与下混合信号104相关联的元数据106。分析处理器105例如可以是计算机(运行在存储器和至少一个处理器上存储的合适的软件)，或者可替代地是使用例如FPGA或ASIC的特定设备。如在本文中更详细地示出的，对于每个时频分析间隔，元数据可包括方向参数108、能量比率参数110、环绕相干性参数112、以及扩展相干性参数114。在一些实施例中，方向参数和能量比率参数可被认为是空间音频参数。换句话说，空间音频参数包括旨在表征由多通道扬声器信号(或一般地，两个或更多个播放音频信号)创建的声场的参数。

在一些实施例中，所生成的参数可在频带之间不同。因此，例如，在频带X中，所有的参数被生成和发送，而在频带Y中，仅其中一个参数被生成和发送，此外，在频带Z中，没有参数被生成或发送。这种情况的实际示例可能是对于诸如最高频带的一些频带，出于感知方面原因而不需要一些参数。可以发送或存储下混合信号104和元数据106，这在图1中由虚线107示出。在下混合信号104和元数据106被发送或存储之前，它们通常被编码以便降低比特率，并且被复用到一个流。可使用任何合适的方案来实现编码和复用。

在解码器侧，可以对所接收或获取的数据(流)进行解复用，并对编码流进行解码以获得下混合信号和元数据。下混合信号和元数据的这种接收或获取也在图1中关于虚线107的右侧示出。

系统100“合成”部分131示出了合成处理器109，其被配置为接收下混合104和元数据106，并基于下混合信号104和元数据106，重新创建多通道扬声器信号110(或在一些实施例中，是诸如双耳或环绕立体声信号的任何合适的输出格式，这取决于使用情况)。在一些实施例中，合成处理器109可以是计算机(运行在存储器和至少一个处理器上存储的合适的软件)、或者可替代地是使用例如FPGA或ASIC的特定设备。

关于图4，示出了图1所示的概况的示例性流程图。

首先，如在图4中由步骤401所示，系统(分析部分)被配置为接收多通道(扬声器)音频信号。

然后，如在图4中由步骤403所示，系统(分析部分)被配置为生成扬声器信号的下混合。

此外，如在图4中由步骤405所示，系统(分析部分)被配置为分析扬声器信号以生成元数据：方向；能量比率；环绕相干性；扩展相干性。

然后，如在图4中由步骤407所示，系统被配置为对下混合信号和具有相干性参数的元数据进行编码以用于存储/发送。

在这之后，如在图4中由步骤409所示，系统可存储/发送编码的下混合和具有相干性参数的元数据。

如在图4中由步骤411所示，系统可获取/接收编码的下混合和具有相干性参数的元数据。

然后，如在图4中由步骤413所示，系统被配置为从编码的下混合和具有相干性参数的元数据中进行提取。

如在图4中由步骤415所示，系统(合成部分)被配置为基于所提取的多通道音频信号的下混合和具有相干性参数的元数据，合成输出多通道音频信号。

关于图2更详细地描述了根据一些实施例的示例性分析处理器105(如图1中所示)。在一些实施例中，分析处理器105包括时频域变换器201。

在一些实施例中，时频域变换器201被配置为接收多通道扬声器信号102，并应用诸如短时间傅立叶变换(STFT)的合适的时频域变换，以便将输入时域信号转换成合适的时频信号。这些时频信号可被传递到方向分析器203和相干性分析器205。

因此，例如，时频信号202可在时频域表示中被表示为：

s_i(b,n)

其中，b是频率区间索引，n是帧索引，i是扬声器通道索引。在另一个表达中，n可被认为是具有比原始时域信号的采样率更低的采样率的时间索引。这些频率区间可被分组成多个子带，这些子带将一个或多个区间分组为频带索引k＝0,…,K-1。每个子带k具有最低区间b_k,low和最高区间b_k,high，并且该子带包含从b_k,low到b_k,high的所有区间。子带的宽度可近似于任何合适的分布。例如，等效矩形带宽(ERB)尺度或Bark尺度。

在一些实施例中，分析处理器105包括方向分析器203。方向分析器203可被配置为接收时频信号202，并基于这些信号估计方向参数108。方向参数可基于任何基于音频的“方向”确定来确定。

例如，在一些实施例中，方向分析器203被配置为用两个或更多个扬声器信号输入估计方向。这表示用于估计“方向”的最简单配置，更复杂的处理可以用甚至更多个扬声器信号来执行。

因此，方向分析器203可被配置为针对每个频带和时间帧提供被标示为θ(k,n)的方位角。如果方向参数是3D参数，则示例性方向参数可以是方位角θ(k,n)、高程角方向参数108也可被传递给相干性分析器205。

在一些实施例中，除了方向参数之外，方向分析器203被配置为确定能量比率参数110。能量比率可被认为是对可被认为是从方向到达的音频信号的能量的确定。直接总能量比率r(k,n)可例如使用定向估计的稳定性度量、或者使用任何相关性度量、或者任何其它用于获得比率参数的合适的方法来估计。

所估计的方向108参数可被输出(并且将在合成处理器中使用)。所估计的能量比率参数110可被传递到相干性分析器205。在一些实施例中，参数可在参数组合器(未示出)中接收，其中，所估计的方向和能量比率参数与由下文所描述的相干性分析器205生成的相干性参数相组合。

在一些实施例中，分析处理器105包括相干性分析器205。相干性分析器205被配置为从方向分析器203接收参数(诸如方位角(θ(k,n))108，以及直接总能量比率(r(k,n))110)。相干性分析器205可进一步被配置为从时频域变换器201接收时频信号(s_i(b,n))202。所有这些是在时频域中；b是频率区间索引，k是频带索引(每个带可能包括若干区间b)，n是时间索引，i是扬声器通道。

虽然在此方向和比率针对每个时间索引n进行表达，但在一些实施例中，参数可在若干时间索引上进行组合。如已表达的，同样适用于频率轴，若干频率区间b的方向可由包括若干频率区间b的带k中的一个方向参数来表达。这同样适用于本文中所有所讨论的空间参数。

相干性分析器205被配置为产生多个相干性参数。在下面的公开内容中存在两个参数：环绕相干性(γ(k,n))和扩展相干性(ζ(k,n))，它们都在时频域中分析。另外，在一些实施例中，相干性分析器205被配置为修改所估计的能量比率(r(k,n))。

接下来讨论与方向比率参数化有关的前述空间相干性问题中的每一个，并且示出了在每种情况下如何形成前述的新参数。所有处理都在时频域中执行，因此，为了简洁起见，在必要时时频索引k和n被丢弃。如前所述，在一些情况下，空间元数据可以用不同于时频信号的频率分辨率的另一个频率分辨率来表达。

让我们首先考虑先前讨论的情况，其中，声音是使用两个间隔开的扬声器(例如，左前和右前)而不是单个扬声器来相干地再现的。相干性分析器可被配置为检测在环绕混音中已经应用这种方法。

因此，在一些实施例中，相干性分析器205可被配置为针对包括一个或多个时间索引n和频率区间b的给定分析间隔，计算协方差矩阵C。矩阵大小为N x N，元素被标示为c_ij，其中，i和j是扬声器通道索引。

接下来，相干性分析器205可被配置为确定最接近所估计的方向(在该示例中为方位角θ)的扬声器通道i_c。

i_c＝arg(min(|θ-α_i|))

其中，α_i是扬声器i的角度。

此外，在这种实施例中，相干性分析器205被配置为确定在扬声器ic的左侧i_l和右侧i_r上最接近的扬声器。

扬声器i与j之间的归一化相干性被标示为：

使用该等式，相干性分析器205可被配置为计算i_l与i_r之间的归一化相干性c′_lr。换句话说，计算：

此外，相干性分析器205可被配置为使用协方差矩阵的对角线元素来确定扬声器通道i的能量。

E_i＝c_ii

并确定扬声器i_l和i_r与扬声器i_l、i_r和i_c的能量比率为：

然后，相干性分析器205可使用这些所确定的变量生成“立体声”参数。

μ＝c′_lrξ_lr/lrc

该“立体声”参数具有0到1之间的值。值1意味着扬声器i_l和i_r中存在相干声音，并且该声音主导该区域的能量。其原因可以是例如扬声器混音器使用了幅度平移技术以用于创建声音的“轻快的”感知。值0意味着尚未应用任何此类技术，并且例如，声音可简单地被定位到最接近的扬声器。

此外，相干性分析器可被配置为检测或至少识别其中使用三个(或更多个)扬声器相干地再现声音以创建“接近的”感知的情形(例如，使用左前、右前和中央而不是仅使用中央)。这可以是因为混音工程师在对多通道扬声器混音进行环绕混音时产生了这种情形。

在这种实施例中，相干性分析器使用先前识别的相同的扬声器i_l、i_r和i_c以使用先前讨论的归一化相干性确定来确定归一化相干性值c′_cl和c′_cr。

换句话说，以下的值被计算：

然后，相干性分析器205可使用下式来确定描述这些扬声器之间的相干性的归一化相干性值c′_clr：

c′_clr＝min(c′_cl,c′_cr)

另外，相干性分析器可被配置为确定描述能量如何在通道i_l、i_r和i_c之间均匀地分布的参数：

使用这些变量，相干性分析器可确定新的相干平移参数κ为：

κ＝c′_clrξ_clr

该相干平移参数κ具有介于0到1之间的值。值1意味着在所有的扬声器i_l、i_r和i_c中存在相干声音，并且该声音的能量在这些扬声器之间均匀地分布。其原因可以是例如因为扬声器混音是使用用于创建更近的声源的感知的录音混音技术而生成的。值0意味着尚未应用任何此类技术，例如，声音可简单地被定位到最接近的扬声器。

确定度量i_l和i_r中(但不在i_c中)的相干声音量的立体度参数μ和度量所有的i_l、i_r和i_c中的相干声音量的相干平移参数κ的相干性分析器被配置为使用这些参数确定将要作为元数据输出的相干性参数。

因此，相干性分析器被配置为组合立体度参数μ和相干平移参数κ以形成值从0到1的扩展相干性ζ参数。扩展相干性ζ值0表示点源，换句话说，应当用尽可能少的扬声器(例如，仅使用扬声器i_c)来再现声音。随着扩展相干性ζ的值增加，更多能量扩展到扬声器i_c周围的扬声器；直到值为0.5，能量在扬声器i_l、i_r和i_c之间均匀地散布。当扩展相干性ζ的值超过0.5时，扬声器i_c中的能量降低；直到值为1，在扬声器i_c中没有能量，并且所有能量都在扬声器i_l和i_r处。

在一些实施例中，使用上述参数μ和κ，相干性分析器被配置为使用下列表达式来确定扩展相干性参数ζ：

上面的表达式仅仅是示例，并且应当注意，相干性分析器可采用任何其它方式来估计扩展相干性参数ζ，只要它符合上述的参数定义即可。

除了被配置为检测先前的情形之外，相干性分析器还可被配置为检测或至少识别其中从所有(或几乎所有)扬声器相干地再现声音以创建“头部中”或“上方”的感知的情形。

在一些实施例中，相干性分析器可被配置为对所确定的具有最大值的能量E_i和扬声器通道i_e进行分类。

然后，相干性分析器可被配置为确定该通道与M个其它最响通道之间的归一化相干性c′_ij。然后，可以监视该通道与M个其它最响通道之间的这些归一化相干性c′_ij值。在一些实施例中，M可以是N-1，这将意味着监视最响通道与所有其它扬声器通道之间的相干性。然而，在一些实施例中，M可以是更小的数量，例如，N-2。使用这些归一化相干性值，相干性分析器可被配置为使用下列表达式来确定环绕相干性参数γ：

其中，是最响通道与M个次最响通道之间的归一化相干性。

环绕相干性参数γ的值从0到1。值1意味着在所有(或几乎所有)的扬声器通道之间存在相干性。值为0意味着在所有(或者甚至几乎所有)的扬声器通道之间没有相干性。

上述表达式仅仅是对环绕相干性参数γ的估计的一个示例，并且可以使用任何其它方式，只要它符合上述的参数定义即可。

如上面所讨论的，相干性分析器可用于估计环绕相干性和扩展相干性参数。然而，在一些实施例中，为了改进音频质量，在已经确定在扬声器信号内出现了情形1(声音是使用用于创建“轻快的”感知的两个扬声器且使用左前和右前而不是中央扬声器来相干地)和/或情形2(声音是使用用于创建“接近的”感知的三个(或更多个)扬声器来相干地)的情况下，相干性分析器可修改比率参数r。因此，在一些实施例中，扩展相干性参数和环绕相干性参数也可用于修改比率参数r。

如上面所指示的，能量比率r被确定为在方向(可以是方位角θ和/或高程角)上的点源的能量与其余能量的比率。如果在环绕混音中声源被生成为点源(例如，声音仅在一个扬声器中)，则方向分析正确地产生了能量比率1，并且合成阶段会将该声音再现为点源。然而，如果已经应用了多个扬声器中的相干声音的音频混合方法(诸如前述情况1和2)，则方向分析将产生更低的能量比率(因为声音不再是点源)。结果，合成阶段会将该声音的一部分再现为环境，这可例如导致在生成扬声器混音时与录音混音工程师的目标相反的遥远声源的感知。

因此，在一些实施例中，如果检测到已经使用了将声音相干地分布到多个扬声器的音频混合技术，则相干性分析器可被配置为修改能量比率。

因此，在一些实施例中，相干性分析器被配置为确定扬声器i_l和i_r的能量与所有扬声器的能量之间的比率：

使用该比率，以及在上面确定的c′_lr和γ，相干性分析器生成替代的能量比率r_s：

r_s＝c′_lrξ_lr/all-γ

在一些实施例中，相干性分析器可类似地被配置为确定扬声器i_l、i_r和i_c的能量与所有扬声器的能量之间的比率：

使用该比率，以及上面计算出的c′_clr和γ，相干性分析器又形成了另一个替代的能量比率r_c：

r_c＝c′_clrξ_clr/all-γ

使用这些能量比率，相干性分析器可将原始能量比率r修改为：

r′＝max(r,r_s,r_c)

该修改的能量比率r′可用于代替原始能量比率r。结果，例如，在情形1中(声音是使用用于创建“轻快的”感知的两个扬声器且使用左前和右前而不是中央扬声器来相干地)，比率r′将接近1(并且扩展相干性ζ也接近1)。如随后在合成阶段中所讨论的，声音将从扬声器i_l和i_r相干地再现而无需任何去相关。因此，再现声音的感知将匹配原始混音。

然后，可输出这些(修改的)能量比率110、环绕相干性112和扩展相干性114参数。如所讨论的，这些参数可被传递到元数据组合器或以任何合适的方式进行处理，例如编码和/或与下混合信号复用并进行存储和/或发送(并被传递到系统的合成部分)。

关于图5、图6a、图6b和图6c，示出了总结上面所描述的操作的流程图。

因此，例如，图5示出了分析处理器105的操作的示例性概况。

如在图5中由步骤501所示，第一操作是接收时域多通道(扬声器)音频信号。

接下来，如在图5中由步骤503所示，应用时域到频域变换(例如，STFT)以生成合适的时频域信号以用于分析。

然后，在图5中由步骤505示出了应用方向分析以确定方向和能量比率参数。

然后，如在图5中由步骤507示出了应用相干性分析以确定相干性参数，诸如环绕参数和/或扩展相干性参数。在一些实施例中，在该步骤中还可基于所确定的相干性参数来修改能量比率。

在图5中由步骤509示出了输出所确定的参数的最终操作。

关于图6a是用于生成扩展相干性参数的示例性方法。

如在图6a中由步骤701所示，第一操作是计算协方差矩阵。

如在图6a中由步骤703所示，接下来的操作是确定最接近所估计的方向的通道和相邻通道(即，i_c，i_l，i_r)。

如在图6a中由步骤705所示，接下来的操作是对协方差矩阵进行归一化。

然后，如在图6a中由步骤707所示，该方法可包括：使用协方差矩阵的对角线元素来确定通道的能量。

然后，如在图6a中由步骤709所示，该方法可包括：确定左通道与右通道之间的归一化相干性值。

如在图6a中由步骤711所示，该方法可包括：生成通道i_l和i_r的能量与通道i_l、i_r和i_c的能量之间的比率。

然后，如在图6a中由步骤713所示，可确定立体度参数。

此外，与步骤707至713并行地，该方法可包括：如在图6a中由步骤708所示，确定通道之间的归一化相干性值；如在图6a中由步骤710所示，确定能量分布参数；以及如在图6a中由步骤712所示，确定相干平移参数。

最后，如在图6a中由步骤713所示，该操作可以从立体度参数和相干平移参数确定扩展相干性参数。

此外，图6b示出了用于生成环绕相干性参数的示例性方法。

前三个操作与图6a所示的前四个操作中的三个相同，其中，第一操作是计算协方差矩阵，如在图6b中由步骤701所示。

如在图6b中由步骤705所示，接下来的操作是对协方差矩阵进行归一化。

然后，如在图6b中由步骤707所示，该方法可包括：使用协方差矩阵的对角线元素来确定通道的能量。

然后，如在图6b中由步骤721所示，该方法可包括：对能量E_i进行分类。

然后，如在图6b中由步骤723所示，该方法可包括：选择具有最大值的通道。

然后，如在图6b中由步骤725所示，该方法可包括：监视所选择的通道与M个其它最大能量通道之间的归一化相干性。

然后，如在图6b中由步骤727所示，从归一化协方差矩阵值确定环绕相干性参数。

关于图6c，示出了用于修改能量比率的示例性方法。

如在图6c中由步骤731所示，第一操作是确定扬声器i_l和i_r的能量与所有扬声器的能量之间的比率。

然后，在图6c中由步骤733示出了由相干性分析器基于该比率以及如上面所确定的c′_lr和γ来确定第一替代比率r_s。

如在图6c中由步骤735所示，接下来的操作是确定扬声器i_l、i_r和i_c的能量与所有扬声器的能量之间的比率。

然后，在图6c中由步骤737示出了由相干性分析器基于该比率以及如上面所确定的c′_clr和γ来确定第二替代比率r_c。

然后，如在图6c中由步骤739所示，可基于原始能量比率、第一替代能量比率和第二替代能量比率来确定修改的能量比率，并将该能量比率用于替换当前的能量比率。

详细描述了以上公式以估计用于环绕扬声器输入的相干性参数。类似的处理可通过在每个时间参数估计间隔在所确定的位置处将音频对象处理为音频通道来对音频对象输入执行。

此外，也可针对麦克风阵列信号或环绕立体声输入信号估计相干性参数，诸如扩展和环绕相干性参数。例如，方法和装置可借助文献中已知的方法来从一些麦克风阵列获得一阶环绕立体声(FOA)信号。FOA信号包括全向信号和三个正交对齐的8字形(figure-of-eight)信号，这些信号在一个方向上具有正增益，并且在另一个方向上具有负增益。在用于这种输入的相干性参数估计的一个示例中，方法和装置可监视FOA信号的全向和三个定向信号的相对能量。这是因为如果声音从环绕方向相干地再现并且FOA信号被捕获，则全向(0阶FOA)信号包括这些相干信号的总和。相反，三个8字形(一阶FOA)信号具有与方向有关的正增益和负增益，并且因此，相干信号将在这些一阶FOA信号处彼此部分或完全地抵消。因此，可以估计环绕相干性参数，以使得在0阶FOA信号的能量相对于1阶FOA信号的组合能量变得更高时提供更高的值。

关于图3，更详细地示出了示例性合成处理器109。示例性合成处理器109可被配置为使用诸如在以下文献中详细描述的修改方法：US20140233762A1“空间音频处理中的最佳混合矩阵及去相关器的使用(Optimal mixing matrices and usage of decorrelatorsin spatial audio processing)”，Vilkamo，Kuntz，Küch。

可以选择所引用的方法，其原因是它尤其适用于这种其中需要合成或处理通道间信号相干性的情况。

合成方法可以是修改的最小二乘优化信号混合技术，以处理信号的协方差矩阵，同时尝试保持音频质量。该方法使用输入信号的协方差矩阵度量以及目标协方差矩阵(如下面所讨论的)，并提供混合矩阵以执行这种处理。当在输入端没有足够量的独立信号能量时，该方法还提供用于最佳地使用去相关声音的手段。

合成处理器109可接收下混合信号104和元数据106。

合成处理器109可包括时频域变换器301，其被配置为接收下混合信号104，并应用诸如短时间傅立叶变换(STFT)的合适的时频域变换，以便将输入时域信号转换成合适的时频信号。这些时频信号可被传递到混合矩阵处理器309和协方差矩阵估计器303。

然后，可以用混合矩阵处理器(以及可能地还有去相关处理器)309在频带中对时频信号进行自适应处理，并将以时频输出信号312的形式的结果变换回时域以提供以空间化音频信号314的形式的处理后输出。详细记载了混合矩阵处理方法，例如，在Vilkamo，和Kuntz的“用于空间音频的时频处理的优化协方差域框架(Optimizedcovariance domain framework for time-frequency processing of spatial audio)”，音频工程学会期刊61.6(2013):403-411中。

为了应用混合矩阵处理，需要频带中的混合矩阵310。在一些实施例中，混合矩阵310可在混合矩阵确定器307中制定。混合矩阵确定器307被配置为接收频带中的输入协方差矩阵306和频带中的目标协方差矩阵308。

频带中的协方差矩阵306只在协方差矩阵估计器303中确定，并且根据来自时频域变换器301的频带中的下混合信号来度量。

在一些实施例中，目标协方差矩阵在目标协方差矩阵确定器305中制定。

在一些实施例中，目标协方差矩阵确定器305被配置为确定目标协方差矩阵以用于到环绕扬声器设置的再现。在下面的表达式中，为了简便起见(在不需要时)时间和频率索引n和k被移除。

首先，目标协方差矩阵确定器305可被配置为基于来自协方差矩阵估计器303的输入协方差矩阵来估计目标协方差矩阵的总能量E 304。在一些实施例中，可从输入协方差矩阵的对角线元素的总和来确定总能量E。

然后，目标协方差矩阵确定器305可被配置为在相互不相干部分、定向部分C_D和环境或非定向部分C_A中确定目标协方差矩阵C_T。

因此，目标协方差矩阵由目标协方差矩阵确定器305确定为C_T＝C_D+C_A。

环境部分C_A表示空间环绕的声能，其先前只是不相干的，但是由于本发明它可以是不相干的或相干的，或者部分相干的。

因此，目标协方差矩阵确定器305可被配置为确定环境能量为(1-r)E，其中，r是来自输入元数据的直接总能量比率参数。然后，可通过下式来确定环境协方差矩阵：

其中，I是单位矩阵，U是1矩阵，M是输出通道的数量。换句话说，当γ为0时，则环境协方差矩阵C_A是对角线，而当γ为1时，则环境协方差矩阵使得确定所有通道对是相干的。

接下来，目标协方差矩阵确定器305可被配置为确定直接部分协方差矩阵C_D。

因此，目标协方差矩阵确定器305可被配置为确定直接部分能量为rE。

然后，目标协方差矩阵确定器305被配置为基于元数据来确定用于扬声器信号的增益向量。首先，目标协方差矩阵确定器305被配置为例如使用向量基本幅度平移(VBAP)来确定用于扬声器设置的幅度平移增益向量和空间元数据的方向信息。这些增益可以用列向量v_VBAP来标示，该列向量对于水平设置最多只有两个在幅度平移中用于活动的两个扬声器的非零值。在一些实施例中，目标协方差矩阵确定器305可被配置为将VBAP协方差矩阵确定为：

以与分析部分类似的方式，目标协方差矩阵确定器305可被配置为确定三通道i_l、i_r、i_c(它们是最接近所估计的方向的扬声器)，以及最接近的左、右扬声器。

此外，目标协方差矩阵确定器305可被配置为确定平移列向量v_LRC为零，但在索引i_l、i_r、i_c处值为用于该向量的协方差矩阵为：

当扩展相干性参数ζ小于0.5时，即，当声音在“直接点源”与“三个扬声器相干声音”之间时，目标协方差矩阵确定器305可被配置为将直接部分协方差矩阵确定为：

C_D＝rE((1-2ζ)C_VBAP+2ζC_LRC)

当扩展相干性参数ζ在0.5到1之间时，即，当声音在“三个扬声器相干声音”与“两个扩展扬声器相干声音”之间时，目标协方差矩阵确定器305可确定扩展分布向量为：

然后，目标协方差矩阵确定器305可被配置为确定平移向量v_DISTR，其中，第i_c个元素是v_DISTR,3的第一个元素，第i_l和第i_r个元素是v_DISTR,3的第二和第三个元素。然后，目标协方差矩阵确定器305可将直接部分协方差矩阵计算为：

然后，目标协方差矩阵确定器305可获得目标协方差矩阵C_T＝C_D+C_A以处理声音。如上所述，环境部分协方差矩阵因此解释了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵解释了定向能量、方向参数、以及扩展相干性参数ζ。

目标协方差矩阵确定器305可被配置为通过被配置为合成环绕声的听觉间特性而不是通道间特性来确定用于双耳输出的目标协方差矩阵308。

因此，目标协方差矩阵确定器305可被配置为确定双耳声音的环境协方差矩阵C_A。环境或非定向能量的量为(1-r)E，其中，E是先前所确定的总能量。环境部分协方差矩阵可被确定为：

其中，

c(k,n)＝γ(k,n)+(1-γ(k,n))c_bin(k)

并且其中，c_bin(k)是第k个频率索引的频率的双耳漫射场相干性。换句话说，当γ(k,n)为1时，则环境协方差矩阵C_A使得确定左耳与右耳之间的完全相干性。当γ(k,n)为0时，则C_A使得确定对于人类收听者在漫射场中是自然的左耳与右耳之间的相干性(大致地：在高频处为“零”，在低频处为高)。

然后，目标协方差矩阵确定器305可被配置为确定直接部分协方差矩阵C_D。定向能量的量为rE。如下面所详述的，可以使用与扬声器再现中类似的方法来合成扩展相干性参数ζ。

首先，目标协方差矩阵确定器305可被配置为确定2x1的HRTF向量V_HRTF(k,θ(k,n))，其中，θ(k,n)是所估计的方向参数。目标协方差矩阵确定器305可确定平移HRTF向量，其等效于在三个方向上相干地再现声音：

其中，θ_Δ参数定义“扩展”声能相对于方位角维度的宽度。例如，它可以是30度。

当扩展相干性参数ζ小于0.5时，即，当声音在“直接点源”与“三个扬声器相干声音”之间时，目标协方差矩阵确定器305可被配置为将直接部分HRTF协方差矩阵确定为：

当扩展相干性参数ζ在0.5到1之间时，即，当声音在“三个扬声器相干声音”与“两个扩展扬声器相干声音”之间时，目标协方差矩阵确定器305可通过重新使用幅度分布向量v_DISTR,3(与扬声器渲染中相同)来确定扩展分布。进而，组合的头部相关传递函数(HRTF)向量可被确定为：v_{DISTR_HRTF}(k,θ(k,n))

＝[v_HRTF(k,θ(k,n))v_HRTF(k,θ(k,n)+θ_Δ)v_HRTF(k,θ(k,n)

-θ_Δ)]V_DISTR,3

上面的公式产生三个HRTF的加权和，其权重为v_DISTR,3。进而，直接部分HRTF协方差矩阵为：

然后，目标协方差矩阵确定器305被配置为获得目标协方差C_T＝C_D+C_A以处理声音。如上所述，环境部分协方差矩阵因此解释了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵解释了定向能量、方向参数、以及扩展相干性参数ζ。

目标协方差矩阵确定器305可被配置为通过被配置为合成环绕立体声信号的通道间特性而不是扬声器环绕声的通道间特性来确定用于环绕立体声输出的目标协方差矩阵308。下面以一阶环绕立体声(FOA)输出作为示例，然而，将相同的原理扩展到高阶环绕立体声输出也很简单。

因此，目标协方差矩阵确定器305可被配置为确定用于环绕立体声声音的环境协方差矩阵C_A。环境或非定向能量的量为(1-r)E，其中，E是先前所确定的总能量。环境部分协方差矩阵可被确定为：

换句话说，当γ(k,n)为1时，则环境协方差矩阵C_A使得仅0阶分量接收信号。这种环绕立体声信号的意义是在空间上相干地再现声音。当γ(k,n)为0时，则C_A对应于漫射场中的环绕立体声协方差矩阵。上面的0阶和1阶元素的归一化是根据已知的SN3D归一化方案的。

首先，目标协方差矩阵确定器305可被配置为确定4×1的环绕立体声平移向量v_Amb(θ(k,n))，其中，θ(k,n)是所估计的方向参数。环绕立体声平移向量v_Amb(θ(k,n))包含与方向θ(k,n)对应的环绕立体声增益。对于在水平面上具有方向参数的FOA输出(使用已知的ACN通道排序方案)：

目标协方差矩阵确定器305可确定平移环绕立体声向量，其等效于在三个方向上相干地再现声音：

当扩展相干性参数ζ小于0.5时，即，当声音在“直接点源”与“三个扬声器相干声音”之间时，目标协方差矩阵确定器305可被配置为将直接部分环绕立体声协方差矩阵确定为：

当扩展相干性参数ζ在0.5到1之间时，即，当声音在“三个扬声器相干声音”与“两个扩展扬声器相干声音”之间时，目标协方差矩阵确定器305可通过重新使用幅度分布向量v_DISTR,3(与扬声器渲染中相同)来确定扩展分布。进而，组合的环绕立体声平移向量可被确定为：

v_{DISTR_Amb}(θ(k,n))＝[v_Amb(θ(k,n))v_Amb(θ(k,n)+

θ_Δ)v_Amb(θ(k,n)-θ_Δ)]v_DISTR,3

上面的公式产生三个环绕立体声平移向量的加权和，其权重为V_DISTR,3。进而，直接部分环绕立体声协方差矩阵为：

然后，目标协方差矩阵确定器305被配置为获得目标协方差矩阵C_T＝C_D+C_A以处理声音。如上所述，环境部分协方差矩阵因此解释了环绕相干性参数γ所包含的环境能量和空间相干性，而直接协方差矩阵解释了定向能量、方向参数、以及扩展相干性参数ζ。

换句话说，相同的一般原理适用于构建双耳或环绕立体声或扬声器目标协方差矩阵。主要区别是在直接部分的渲染中使用HRTF数据或环绕立体声平移数据而不是扬声器幅度平移数据，并且在环境部分的渲染中使用双耳相干性(或者特定环绕立体声环境协方差矩阵处理)而不是通道间(“零”)相干性。应当理解，处理器可能够运行实现上述目的的软件，并且因此能够渲染这些输出类型中的每一个。

在以上公式中，基于来自所估计的输入协方差矩阵的总能量估计E，对目标协方差矩阵的直接部分和环境部分的能量进行加权。可选地，可省略这种加权，即，直接部分能量被确定为r，并且环境部分能量被确定为(1-r)。在这种情况下，所估计的输入协方差矩阵替代地利用总能量估计进行归一化，即，乘以1/E。基于这种所确定的目标协方差矩阵和归一化的输入协方差矩阵所得到的混合矩阵可与先前所提供的公式完全或实际上相同，因为是这些矩阵的相对能量而不是它们的绝对能量产生影响。

关于图7a，示出了合成操作的概况。

因此，如在图7a中由步骤601所示，该方法可接收时域下混合信号。

然后，如在图7a中由步骤603所示，可对这些下混合信号进行时频域变换。

然后，如在图7a中由步骤605所示，可从输入(下混合)信号估计协方差矩阵。

此外，如在图7a中由步骤602所示，可接收具有方向参数、能量比率参数和相干性参数的空间元数据。

如在图7a中由步骤607所示，可从所估计的协方差矩阵、方向参数、能量比率参数和相干性参数确定目标协方差矩阵。

然后，如在图7a中由步骤609所示，可基于所估计的协方差矩阵以及目标协方差矩阵来确定最佳混合矩阵。

然后，如在图7a中由步骤611所示，可对时间-频率下混合信号应用混合矩阵。

然后，如在图7a中由步骤613所示，对时间-频率下混合信号应用混合矩阵的结果可被进行时频域逆变换以生成空间化音频信号。

关于图7b，示出了根据一些实施例的用于生成目标协方差矩阵的示例性方法。

首先，如在图7b中由步骤621所示，基于输入协方差矩阵来估计目标协方差矩阵的总能量E。

然后，如在图7b中由步骤623所示，该方法可包括：确定环境能量为(1-r)E，其中，r是来自输入元数据的直接总能量比率参数。

此外，如在图7b中由步骤625所示，该方法可包括：估计环境协方差矩阵。

此外，如在图7b中由步骤624所示，该方法可包括：确定直接部分能量为rE，其中，r是来自输入元数据的直接总能量比率参数。

然后，如在图7b中由步骤626所示，该方法可包括：确定用于扬声器设置的幅度平移增益向量和空间元数据的方向信息。

接下来，如在图7b中由步骤628所示，该方法可包括：确定通道三元组(它们是最接近所估计的方向的扬声器)以及最接近的左扬声器和右扬声器。

然后，如在图7b中由步骤630所示，该方法可包括：估计直接协方差矩阵。

最后，如在图7b中由步骤631所示，该方法可包括：组合环境协方差矩阵部分和直接协方差矩阵部分以生成目标协方差矩阵。

以上公式讨论了目标协方差矩阵的构造。US20140233762A1和相关的期刊出版物中的方法提供更多细节，更相关地，“原型矩阵”的确定和使用。原型矩阵关于制定哪个最小二乘优化混合方案来确定用于渲染的“参考信号”。如果在编解码器中提供立体声下混合作为音频信号，则用于扬声器渲染的原型矩阵可使得确定用于左侧扬声器的信号相对于所提供的立体声轨道的左通道是最佳的，并且类似地对于右侧(中央通道可相对于左和右音频通道的和进行优化)。对于双耳输出，原型矩阵可使得确定用于左耳输出信号的参考信号是左立体声通道，并且类似地对于右耳。原型矩阵的确定对于对现有文献已进行研究的本领域技术人员是简单的。关于现有文献，本发明构想的新颖之处在于在合成阶段，还使用空间相干性元数据来构造目标协方差矩阵。

虽然在整个文档中没有重复，但应当理解，空间音频处理通常且在该上下文中是在频带中发生的。那些频带例如可以是时频变换的频率区间，或者是组合若干频率区间的频带。该组合可使得近似于人类听力的特性，诸如Bark频率分辨率。换句话说，在一些情况下，我们可以在组合若干频率区间b和/或时间索引n的时频区域中测量和处理音频。为了简便起见，这些方面均未通过以上所有公式来表达。在组合多个时频样本的情况下，通常针对该时频区域来估计诸如一个方向的一个参数集，然后根据诸如该一个方向参数的该参数集来合成该区域内的所有时频样本。

在参数分析中使用与所应用的滤波器组的频率分辨率不同的频率分辨率是空间音频处理系统中的典型方法。

因此，所提出的方法可检测或识别其中以下通用多通道混合技术已被应用于扬声器信号：

2)声音是使用三个(或更多个)扬声器相干地再现的，以创建“接近的”感知(例如，使用左前、右前和中央而不是仅中央)；

3)声音是从所有(或几乎所有)扬声器相干地再现的，以创建“头部中”或“上方”的感知。在一些实施例中，可通过使用多个(时频域)参数将这种检测或识别信息从编码器传递到解码器。其中的两个参数是扩展相干性参数和环绕相干性参数。另外，可修改能量比率参数以改进已确定如上所述的这种情形的音频质量。

在合成阶段中，现有技术方法(没有使用所提出的新颖参数)存在以下问题，分别是这些情形：

1)声音大部分被再现为环境：中央扬声器发出干(dry)声，并且所有扬声器发出去相关的声音。这导致环境类感知，而原始信号的感知是“轻快的”。

2)声音部分地被再现为环境：中央扬声器发出干声，并且所有扬声器中发出去相关的声音。声源被感知到距离很远，而它与原始信号很近。

3)声音被再现为环境：几乎所有声音都被再现为从所有扬声器去相关的。空间感知几乎与原始信号的相反。

然而，在实现本文所描述的实施例的合成阶段中，合成可分别重现这些情况而不会出现问题(使用所提出的新颖参数)：

1)声音使用两个扬声器相干地再现，如同原始信号。

2)声音使用三个扬声器相干地再现，如同原始信号。

3)声音使用所有扬声器相干地再现，如同原始信号。

关于图8至图10，示出了用现有技术和所提出的方法来处理示例的5.1音频文件的波形。图8至图10分别对应于前述情形1、2和3。从这些附图中可以清楚地看到，现有技术方法修改波形，并将能量泄漏到错误的通道，而所提出方法的输出准确地遵循原始信号。

关于图11，示出了可用作分析或合成设备的示例性电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行诸如本文所描述的方法的各种程序代码。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储装置。在一些实施例中，存储器1411包括，用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可包括用于存储数据(例如，根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要，处理器1407就可经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可被耦合到处理器1407。在一些实施例中，处理器1407可控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1405可使得用户能够例如经由键盘将命令输入到设备1400。在一些实施例中，用户接口1405可使得用户能够从设备1400获得信息。例如，用户接口1405可包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中，用户接口1405可包括触摸屏或触摸界面，其能够使得信息被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这种实施例中，收发机可被耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其它装置或电子设备进行通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机装置可被配置为经由有线或有线耦合与其它电子设备或装置通信。

收发机可通过任何合适的已知通信协议与其它装置通信。例如，在一些实施例中，收发机或收发机装置可使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。

收发机输入/输出端口1409可被配置为接收扬声器信号，并且在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外，设备可生成合适的下混合信号和参数输出以发送到合成设备。

在一些实施例中，装置1400可被作为合成设备的至少一部分。这样，输入/输出端口1409可被配置为接收下混合信号，并且在一些实施例中接收如本文所描述的在捕获设备或处理设备处确定的参数，以及通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可被耦合到任何合适的音频输出，例如被耦合到多通道扬声器系统和/或耳机或类似物。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件实现，而其它方面可以采用可由控制器、微处理器或其它计算设备执行的固件或软件实现，但是本发明不限于此。虽然本发明的各个方面可被示出并描述为框图、流程图或使用一些其它图示表示来示出或描述，但是应当充分理解，本文所描述的这些框、装置、系统、技术或方法可以作为非限制性的示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合来实现。

本发明的实施例可由计算机软件、或由硬件、或由软件和硬件的组合来实现，计算机软件是移动设备的数据处理器可执行的，诸如在处理器实体中。此外，在此方面，应当注意附图中的逻辑流程的任何框都可表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可存储在物理介质上，诸如存储器芯片、或在处理器内实现的存储器块、诸如硬盘或软盘的磁介质、以及诸如DVD及其数据变体、CD的光学介质。

存储器可以是适合于本地技术环境的任何类型，并且可使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例可包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、以及基于多核处理器架构的处理器中的一个或多个。

本发明的实施例可在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序，使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了对半导体电路的设计，就可以将采用标准化电子格式(例如，Opus、GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求进行阅读时，鉴于前面的描述，各种修改和调整对于相关领域技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims

1.一种用于空间音频信号处理的装置，所述装置包括用于执行以下操作的部件：

对于具有通道位置或方向两个或更多个播放音频信号(102)，确定(203)用于提供空间音频再现的至少一个空间音频参数(108，110)，其中，所述两个或更多个播放音频信号被配置为再现声音场景；

至少部分地基于所述两个或更多个播放音频信号，确定至少一个下混合信号，其中，与所述至少一个下混合信号相关联的通道数量比与所述两个或更多个播放音频信号相关联的通道数量更少；

针对至少两个频带，基于所述两个或更多个播放音频信号(102)，在所述两个或更多个播放音频信号(102)之间确定(205)至少一个音频信号关系参数(112，114)，其中，所述声音场景被配置为基于所述至少一个传输信号和所述至少一个音频信号关系参数来再现；以及

提供所述至少一个空间音频参数、所述至少一个下混合信号和所述至少一个音频信号关系参数以用于编码。

2.根据权利要求1所述的装置，其中，所述至少一个音频信号关系参数包括至少一个相干性参数。

3.根据权利要求2所述的装置，其中，所述至少一个相干性参数与所述两个或更多个播放音频信号(102)之间的并且用于所述至少两个频带的通道间相干性信息的确定相关联。

4.根据权利要求3所述的装置，其中，用于对于所述两个或更多个播放音频信号(102)，确定用于提供所述空间音频再现的所述至少一个空间音频参数的部件用于：对于所述两个或更多个播放音频信号，确定至少一个方向参数(108)和至少一个能量比率(110)。

5.根据权利要求3所述的装置，其中，用于在所述两个或更多个播放音频信号之间确定(205)至少一个相干性参数的部件用于：确定扩展相干性参数(114)，其中，所述扩展相干性参数(114)是基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息来确定的，所识别的播放音频信号是基于所述至少一个空间音频参数来识别的。

6.根据权利要求4所述的装置，其中，用于在所述两个或更多个播放音频信号之间确定(205)至少一个相干性参数，其中，所述至少一个相干性参数是扩展相干性参数(114)的部件用于：

确定立体度参数(713)，所述立体度参数与指示所述两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的两个播放音频信号来相干地再现相关联，所识别的播放音频信号是在空间上最接近所述至少一个方向参数的播放音频信号；

确定相干平移参数(712)，所述相干平移参数与指示所述两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的至少两个或更多个播放音频信号来相干地再现相关联；以及

基于所述立体度参数和所述相干平移参数，生成(715)所述扩展相干性参数。

7.根据权利要求6所述的装置，其中，用于基于所述立体度参数和所述相干平移参数，生成(715)所述扩展相干性参数的部件用于：

当所述立体度参数和所述相干平移参数中的任意一个大于0.5并且所述相干平移参数大于所述立体度参数时，将所述扩展相干性参数设置为以下中的最大值：0.5，以及0.5加上所述立体度参数与所述相干平移参数之差；或者

否则，将所述扩展相干性参数设置为所述立体度参数和所述相干平移参数中的最大值。

8.根据权利要求6所述的装置，其中，用于确定所述立体度参数的部件用于：

计算与所述两个或更多个播放音频信号相关联的协方差矩阵；

确定在空间上最接近所述至少一个方向参数的播放音频信号和与最接近所述至少一个方向参数的所述播放音频信号相关联的在空间上相邻的播放音频信号对；

基于所述协方差矩阵，确定最接近所述至少一个方向参数的通道和所述在空间上相邻的播放音频信号对的能量；

确定所述相邻的播放音频信号对的能量与在空间上最接近所述至少一个方向的所述播放音频信号和所述在空间上相邻的播放音频信号对的组合的能量之间的比率；

对所述协方差矩阵进行归一化；以及

基于所述在空间上相邻的播放音频信号对之间的归一化相干性乘以所述在空间上相邻的播放音频信号对的能量与在空间上最接近所述至少一个方向的所述播放音频信号和所述在空间上相邻的播放音频信号对的组合的能量之间的比率，生成所述立体度参数。

9.根据权利要求8所述的装置，其中，用于确定所述相干平移参数的部件用于：

确定在空间上最接近所述至少一个方向的所述播放音频信号与所述在空间上相邻的播放音频信号对中的每一个播放音频信号之间的归一化相干性值；

选择所述归一化相干性值中的最小值，所述最小值描述所述播放音频信号之间的相干性；

确定用于描述能量如何均匀分布的能量分布参数；以及

基于所述归一化相干性值中的所述最小值与所述能量分布参数的乘积，生成所述相干平移参数。

10.根据权利要求3所述的装置，其中，用于基于所述至少一个相干性参数，修改至少一个能量比率的部件进一步用于：

基于在空间上与所识别的播放音频信号相邻的所述两个或更多个播放音频信号之间的通道间相干性信息，确定第一替代能量比率，其中所识别的播放音频信号是基于所述至少一个空间音频参数来识别的；

基于在所识别的播放音频信号与在空间上与所识别的播放音频信号相邻的所述两个或更多个播放音频信号之间的通道间相干性信息，确定第二替代能量比率；以及

基于所述至少一个能量比率、所述第一替代能量比率和所述第二替代能量比率中的最大值，选择所述至少一个能量比率、所述第一替代能量比率和所述第二替代能量比率中的一个作为修改的能量比率。

11.一种用于合成空间音频的装置，所述装置包括用于执行以下操作的部件：

接收至少一个下混合信号，所述至少一个下混合信号是基于两个或更多个播放音频信号，其中，所述两个或更多个播放音频信号被配置为再现声音场景，其中，与所述至少一个下混合信号相关联的通道数量比与所述两个或更多个播放音频信号相关联的通道数量更少；

接收用于至少两个频带的至少一个音频信号关系参数，所述至少一个音频信号关系参数是基于所述两个或更多个播放音频信号；

接收用于提供空间音频再现的至少一个空间音频参数；以及

基于所述至少一个下混合信号、所述至少一个空间音频参数和所述至少一个音频信号关系参数，再现所述声音场景。

12.根据权利要求11所述的装置，其中，所述至少一个音频信号关系参数包括至少一个相干性参数。

13.一种用于空间音频信号处理的方法，所述方法包括：

14.根据权利要求13所述的方法，其中，所述至少一个音频信号关系参数包括至少一个相干性参数。

15.根据权利要求14所述的方法，其中，所述至少一个相干性参数与所述两个或更多个播放音频信号(102)之间的并且用于所述至少两个频带的通道间相干性信息的确定相关联。

16.根据权利要求15所述的方法，其中，对于所述两个或更多个播放音频信号(102)，确定用于提供所述空间音频再现的所述至少一个空间音频参数包括：对于所述两个或更多个播放音频信号，确定至少一个方向参数(108)和至少一个能量比率(110)。

17.根据权利要求15所述的方法，其中，在所述两个或更多个播放音频信号之间确定(205)至少一个相干性参数包括：确定扩展相干性参数(114)，其中，所述扩展相干性参数(114)是基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息来确定的，所识别的播放音频信号是基于所述至少一个空间音频参数来识别的。

18.根据权利要求16所述的方法，其中，在所述两个或更多个播放音频信号之间确定(205)至少一个相干性参数，其中，所述至少一个相干性参数是扩展相干性参数(114)包括：

19.根据权利要求18所述的方法，其中，基于所述立体度参数和所述相干平移参数，生成(715)所述扩展相干性参数包括：

20.根据权利要求18所述的方法，其中，确定所述立体度参数包括：

对所述协方差矩阵进行归一化；以及

21.根据权利要求20所述的方法，其中，确定所述相干平移参数包括：

确定用于描述能量如何均匀分布的能量分布参数；以及

22.根据权利要求15所述的方法，其中，基于所述至少一个相干性参数，修改至少一个能量比率进一步包括：

23.一种用于合成空间音频的方法，所述方法包括：

接收用于提供空间音频再现的至少一个空间音频参数；以及

24.根据权利要求23所述的方法，其中，所述至少一个音频信号关系参数包括至少一个相干性参数。