CN114586381A

CN114586381A - 空间音频表示和渲染

Info

Publication number: CN114586381A
Application number: CN202080070850.2A
Authority: CN
Inventors: J·维卡莫; M-V·莱蒂南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-10-11
Filing date: 2020-09-29
Publication date: 2022-06-03
Also published as: GB201914712D0; JP2022552474A; US20240089692A1; EP4042723A4; WO2021069793A1; EP4042723A1; GB2593419A

Abstract

一种装置，包括被配置为执行以下操作的部件：接收空间音频信号，该空间音频信号包括至少一个音频信号(122)和与该至少一个音频信号相关联的空间元数据(124)；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应，其中，该部件(351)被配置为当要对该空间音频信号应用房间效应时：基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号(316)；基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号(318)，以使其具有与第一部分双耳音频信号(316)的响应不同的响应；以及组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号(320)。

Description

空间音频表示和渲染

技术领域

本申请涉及用于空间音频表示和渲染的装置和方法，但不是仅限于用于音频解码器的音频表示。

背景技术

沉浸式音频编解码器正被实现，以支持范围从低比特率操作到透明性的大量操作点。这种编解码器的示例是沉浸式语音和音频服务(IVAS)编解码器，其被设计为适合于在诸如3GPP 4G/5G网络之类的通信网络上使用，包括在诸如例如用于虚拟现实(VR)的沉浸式语音和音频之类的沉浸式服务中使用。该音频编解码器被预期处理语音、音乐和通用音频的编码、解码和渲染。此外还被预期支持基于通道的音频和基于场景的音频输入，包括关于声场和声源的空间信息。编解码器还被预期以低延迟进行操作，以启用会话服务并在各种传输条件下支持高差错鲁棒性。

输入信号可以以多种支持格式之一(以及以一些允许的格式组合)来被呈现给IVAS编码器。例如，可以使用增强型语音服务(EVS)编码器对单通道音频信号(无元数据)进行编码。其他输入格式可以利用新的IVAS编码工具。针对IVAS提出的一种输入格式是元数据辅助空间音频(MASA)格式，其中编码器可以利用例如单通道和立体声编码工具以及元数据编码工具的组合来用于格式的有效传输。MASA是适用于空间音频处理的参数化空间音频格式。参数化空间音频处理是使用一组参数来描述声音(或声音场景)的空间方面的音频信号处理领域。例如，在来自麦克风阵列的参数化空间音频捕获中，从麦克风阵列信号中估计一组参数(例如，声音在频带中的方向，所捕获的声音在频带中的定向部分和非定向部分的相对能量，例如被表示为频带中的直接对总能量比(direct-to-total energy ratio)或环境对总能量比(ambient-to-total energy ratio))是典型且有效的选择。已知这些参数很好描述了所捕获的声音在麦克风阵列的位置处的感知空间特性。因此，这些参数可被用在空间声音的合成中，用于双耳式耳机、用于扬声器、或其他格式(诸如全景环绕声(Ambisonics)。

例如，可以存在两个通道(立体声)的音频信号和空间元数据。此外，空间元数据可以定义如下参数：方向索引，描述声音按时频参数间隔的到达方向；电平/相位差；直接对总能量比，描述针对方向索引的能量比；扩散度(diffuseness)；相干性(coherence)，诸如扩展相干性(spread coherence)，描述针对方向索引的能量扩展；扩散对总能量比(diffuse-to-total energy ratio)，描述非定向声音在周围方向上的能量比；环绕相干性，描述非定向声音在周围方向上的相干性；剩余对总能量比(remainder-to-total energy ratio)，描述剩余部分(诸如麦克风噪声)声能的能量比，以满足能量比之和为1的要求；距离，以对数刻度描述以米为单位的源自方向索引的声音的距离；与多通道扬声器信号有关的协方差矩阵，或与这些协方差矩阵有关的任何数据；引导特定解码器的其他参数，例如，中心预测系数和一对二解码系数(例如，在MPEG环绕声中使用)。这些参数中的任何一个都可以在频带中被确定。

收听日常环境中的自然音频场景不仅仅关于在特定方向上的声音。即使没有背景环境，到达耳朵的大部分声能通常并不是来自直接声音，而是来自声学环境的间接声音(即，反射和混响)。基于房间效应(包括离散反射和混响)，收听者在听觉上感知声源距离和房间特性(小、大、潮湿、混响)等特征，并且房间添加了音频内容的感知感觉。换句话说，声学环境是空间声音的基本和感知相关的特征。

收听者将在正常房间(例如与无回声房间相反)中收听音乐，并且音乐(例如，立体声或5.1内容)通常以预期在具有正常混响的房间中收听的方式产生，这创造出声音的包围感和空间感。已知由于缺乏房间效应，在无回声房间中收听普通音乐是不愉快的。因此，应当(并且基本上总是)在具有混响的普通房间中收听普通音乐。

发明内容

根据第一方面，提供一种装置，其包括被配置为执行以下操作的部件：接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应，其中，该部件被配置为当要对该空间音频信号应用房间效应时：基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

空间元数据可以包括至少一个方向参数，并且被配置为基于至少一个音频信号和空间元数据来生成第一部分双耳音频信号的该部件可以被配置为：基于至少一个音频信号和至少一个方向参数，生成第一部分双耳音频信号。

空间元数据可以包括至少一个比率参数，并且被配置为基于至少一个音频信号来生成第二部分双耳音频信号的该部件可以进一步被配置为：基于至少一个音频信号和至少一个比率参数，生成第二部分双耳音频信号。

至少一个方向参数可以是与频带相关联的方向。

被配置为基于至少一个音频信号和空间元数据来生成第一部分双耳音频信号的该部件可以被配置为：分析至少一个音频信号以确定与至少一个音频信号相关联的至少一个随机特性；以及进一步基于与至少一个音频信号相关联的至少一个随机特性，生成第一部分双耳音频信号。

至少一个音频信号可以包括至少两个音频信号，并且被配置为分析至少一个音频信号以确定与至少一个音频信号相关联的至少一个随机特性的该部件可以被配置为：估计至少两个音频信号之间的协方差，并且其中，被配置为进一步基于与至少一个音频信号相关联的至少一个随机特性来生成第一部分双耳音频信号的该部件可以被配置为：基于所估计的至少两个音频信号之间的协方差，生成混合系数；以及基于该混合系数，混合至少两个音频信号以生成第一部分双耳音频信号。

被配置为基于所估计的至少两个音频信号之间的协方差来生成混合系数的该部件可以进一步被配置为：基于目标协方差，生成混合系数。

该部件可以进一步被配置为：基于所估计的协方差，生成总能量估计；基于方向参数，确定头部相关传递函数数据；以及基于该头部相关传递函数数据、空间元数据以及总能量估计，确定目标协方差。

被配置为基于至少一个音频信号来生成第二部分双耳音频信号的该部件可以被配置为：对至少一个音频信号应用混响器。

被配置为获得房间效应控制指示的该部件可以被配置为执行以下中的至少一个：接收房间效应控制指示，作为由空间音频信号的编码器设置的标志；接收房间效应控制指示，作为用户输入；基于获得指示空间音频信号类型的指示符，确定房间效应控制指示；以及基于分析空间音频信号以确定空间音频信号类型，确定房间效应控制指示。

至少一个音频信号可以是由编码器生成的至少一个传输音频信号。

第二部分双耳信号可以具有比第一部分双耳音频信号的时间响应长的时间响应。

根据第二方面，提供一种方法，其包括：接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应；其中，该方法包括：当要对该空间音频信号应用房间效应时：基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

空间元数据可以包括至少一个方向参数，并且基于至少一个音频信号和空间元数据来生成第一部分双耳音频信号可以包括：基于至少一个音频信号和至少一个方向参数，生成第一部分双耳音频信号。

空间元数据可以包括至少一个比率参数，并且基于至少一个音频信号来生成第二部分双耳音频信号可以进一步包括：基于至少一个音频信号和至少一个比率参数，生成第二部分双耳音频信号。

至少一个方向参数可以是与频带相关联的方向。

基于至少一个音频信号和空间元数据来生成第一部分双耳音频信号可包括：分析至少一个音频信号以确定与至少一个音频信号相关联的至少一个随机特性；以及进一步基于与至少一个音频信号相关联的至少一个随机特性，生成第一部分双耳音频信号。

至少一个音频信号可以包括至少两个音频信号，并且分析至少一个音频信号以确定与至少一个音频信号相关联的至少一个随机特性可以包括：估计至少两个音频信号之间的协方差，并且其中，进一步基于与至少一个音频信号相关联的至少一个随机特性来生成第一部分双耳音频信号可以包括：基于所估计的至少两个音频信号之间的协方差，生成混合系数；以及基于该混合系数，混合至少两个音频信号以生成第一部分双耳音频信号。

基于所估计的至少两个音频信号之间的协方差来生成混合系数可以包括：基于目标协方差，生成混合系数。

该方法可以进一步包括：基于所估计的协方差，生成总能量估计；基于方向参数，确定头部相关传递函数数据；以及基于该头部相关传递函数数据、空间元数据以及总能量估计，确定目标协方差。

基于至少一个音频信号来生成第二部分双耳音频信号可以包括：对至少一个音频信号应用混响器。

获得房间效应控制指示可以包括以下中的至少一个：接收房间效应控制指示，作为由空间音频信号的编码器设置的标志；接收房间效应控制指示，作为用户输入；基于获得指示空间音频信号类型的指示符，确定房间效应控制指示；以及基于分析空间音频信号以确定空间音频信号类型，确定房间效应控制指示。

根据第三方面，提供一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应，其中，该部件被配置为当要对该空间音频信号应用房间效应时：基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

空间元数据可以包括至少一个方向参数，并且被使得基于至少一个音频信号和空间元数据来生成第一部分双耳音频信号的该装置可以被使得：基于至少一个音频信号和至少一个方向参数，生成第一部分双耳音频信号。

空间元数据可以包括至少一个比率参数，并且被使得基于至少一个音频信号来生成第二部分双耳音频信号的该装置可以进一步被使得：基于至少一个音频信号和至少一个比率参数，生成第二部分双耳音频信号。

至少一个方向参数可以是与频带相关联的方向。

被使得基于至少一个音频信号和空间元数据来生成第一部分双耳音频信号的该装置可以被使得：分析至少一个音频信号以确定与至少一个音频信号相关联的至少一个随机特性；以及进一步基于与至少一个音频信号相关联的至少一个随机特性，生成第一部分双耳音频信号。

至少一个音频信号可以包括至少两个音频信号，并且被使得分析至少一个音频信号以确定与至少一个音频信号相关联的至少一个随机特性的该装置可以被使得：估计至少两个音频信号之间的协方差，并且其中，被使得进一步基于与至少一个音频信号相关联的至少一个随机特性来生成第一部分双耳音频信号的该装置可以被使得：基于所估计的至少两个音频信号之间的协方差，生成混合系数；以及基于该混合系数，混合至少两个音频信号以生成第一部分双耳音频信号。

被使得基于所估计的至少两个音频信号之间的协方差来生成混合系数的该装置可以进一步被使得：基于目标协方差，生成混合系数。

该装置可以进一步被使得：基于所估计的协方差，生成总能量估计；基于方向参数，确定头部相关传递函数数据；以及基于该头部相关传递函数数据、空间元数据以及总能量估计，确定目标协方差。

被使得基于至少一个音频信号来生成第二部分双耳音频信号的该装置可以被使得：对至少一个音频信号应用混响器。

被使得获得房间效应控制指示的该装置可以被使得执行以下中的至少一个：接收房间效应控制指示，作为由空间音频信号的编码器设置的标志；接收房间效应控制指示，作为用户输入；基于获得指示空间音频信号类型的指示符，确定房间效应控制指示；以及基于分析空间音频信号以确定空间音频信号类型，确定房间效应控制指示。

根据第四方面，提供一种装置，其包括：接收电路，被配置为接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得电路，被配置为获得房间效应控制指示；以及确定电路，被配置为基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应，其中，该装置包括：生成电路，被配置为当要对该空间音频信号应用房间效应时，基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；生成电路，被配置为当要对该空间音频信号应用所添加的房间效应时，基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及组合电路，被配置为组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

根据第五方面，提供一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，这些指令/程序指令用于使装置至少执行以下操作：接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应；其中，该方法包括：当要对该空间音频信号应用房间效应时：基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

根据第六方面，提供一种包括程序指令的非暂时性计算机可读介质，这些程序指令用于使装置至少执行以下操作：接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应；当要对该空间音频信号应用房间效应时，基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；当要对该空间音频信号应用房间效应时，基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及当要对该空间音频信号应用房间效应时，组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

根据第七方面，提供一种装置，其包括：用于接收空间音频信号的部件，其中，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；用于获得房间效应控制指示的部件；用于基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应的部件；用于当要对该空间音频信号应用房间效应时，基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号的部件；用于当要对该空间音频信号应用房间效应时，基于该至少一个音频信号，生成第二部分双耳音频信号的部件，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及用于当要对该空间音频信号应用房间效应时，组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号的部件。

根据第八方面，提供一种包括程序指令的计算机可读介质，这些程序指令用于使装置至少执行以下操作：接收空间音频信号，该空间音频信号包括至少一个音频信号和与该至少一个音频信号相关联的空间元数据；获得房间效应控制指示；以及基于该房间效应控制指示，确定是否要对该至少一个音频信号应用房间效应；当要对该空间音频信号应用房间效应时，基于该至少一个音频信号和空间元数据，生成第一部分双耳音频信号；当要对该空间音频信号应用房间效应时，基于该至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用房间效应来生成至少第二部分双耳音频信号，以使其具有与第一部分双耳音频信号的响应不同的响应；以及当要对该空间音频信号应用房间效应时，组合第一部分双耳音频信号和第二部分双耳音频信号，以生成经组合的双耳音频信号。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出适于实现一些实施例的装置的系统；

图2示出根据一些实施例的示例装置的操作的流程图；

图3示意性地示出根据一些实施例的如图1中所示的合成处理器；

图4示出根据一些实施例的如图3中所示的示例装置的操作的流程图；

图5示出适于实现前面附图中所示装置的示例设备。

具体实施方式

下面更详细地描述用于控制房间效应并将其添加到经渲染的空间元数据辅助音频信号的合适装置和可能机制。

虽然以下示例侧重于MASA编码和解码，但应注意，所提出的方法适用于任何使用传输音频信号和空间元数据的系统。空间元数据例如可以包括以下参数中的一些(以任何组合类型)：方向；电平/相位差；直接对总能量比；扩散度；相干性(诸如扩展相干性和环绕相干性)；以及距离。通常，参数在时频域中给出。因此，当在下文中使用术语IVAS和/或MASA时，应理解，它们可以用任何其他合适的编解码器和/或元数据格式和/或系统来替换。

在以下示例中，IVAS流可以被解码并渲染成各种输出格式，包括双耳、多通道、以及Ambisonic(FOA/HOA)输出。另外，可以存在用于外部渲染的接口，其中，输出格式可以例如对应于输入格式。

由于空间(例如，MASA)元数据以输出格式不可知的方式描述期望的空间音频感知，因此任何具有空间元数据的流都可以被灵活地渲染为任何前述的输出格式。然而，由于MASA流可以源自各种输入，因此解码器接收的传输音频信号可具有不同的特性。因此，解码器被配置为考虑这些方面，以便能够产生最佳的音频质量。

用于渲染参数化音频信号的方法包括采用MPEG环绕声，以立体声下混合和包含重新合成5.1声音的信息的空间元数据的形式来传送5.1声音。本质上，空间元数据由生成用于将立体声导向5.1声音并用于去相关应用的解码矩阵的系数组成。在MPEG环绕声双耳解码器中，这些参数用于选择并混合合适的HRTF以生成有效的立体声到双耳(2x2)混合过程，而无需生成中间的5.1扬声器声音。

此外，可以用定向音频编码(DirAC)来实现渲染参数化音频信号，该定向音频编码在其第一形式中基于B格式麦克风信号(由四种不同的波束图组成)来估计空间元数据。在渲染阶段，麦克风信号根据扩散度参数(环境对总能量比参数)而在频带中被划分成直接信号和环境信号。与双耳再现有关，在一种配置中，再现被实现以使得直接部分被幅度平移到虚拟环绕扬声器设置，环境与虚拟扬声器设置的全部或子集去相关，进而用与头部相关传递函数(HRTF)来处理虚拟3D扬声器信号以生成双耳输出。

另外，渲染参数化音频信号可以包括参数化空间音频合成框架，其避免任何中间信号生成(例如，直接部分和环境部分)并允许最小二乘优化的混合解决方案以直接从可用音频信号生成目标空间声音。该方法有效地利用了在音频信号方面的独立信号，并因此减少了对使用去相关过程的需要，已知这些去相关过程会降低再现声音的感知质量。该方法不是特定的参数化渲染器，而是可以由参数化渲染器应用的方法，并且可以在例如多通道和双耳渲染中(例如，在DirAC的上下文中)使用。这种方法例如在J Vilkamo，T

A Kuntz的“用于空间音频的时频处理的优化协方差域框架(Optimized covariancedomain framework for time–frequency processing of spatial audio)”(音频工程学会期刊，第61卷，第6期(2013):第403-411页)中进行了更详细的描述。

如以下实施例中讨论的构思涉及向经渲染的空间音频信号添加房间效应。收听日常环境中的自然音频场景不仅仅关于在特定方向上的声音。即使没有背景环境，到达耳朵的大部分声能并不是来自直接声音，而是通常来自声学环境的间接声音(即，反射和混响)。基于房间效应(包括离散反射和混响)，人们在听觉上感知声源距离和房间特性(小、大、潮湿、混响)等特征，并且房间添加了音频内容的感知感觉。换句话说，声学环境是空间声音的感知相关的特征。

由于收听者通常在正常房间(例如与无回声房间相反)中收听音乐，因此音乐(例如，立体声或5.1内容)通常以预期在具有正常混响的房间中收听的方式产生，这创造出声音的包围感和空间感。已知由于缺乏房间效应，在无回声房间中收听普通音乐是不愉快的。因此，应当(并且基本上总是)在具有混响的普通房间中收听普通音乐。

例如使用基于头部相关传递函数(HRTF)的渲染的多通道内容(例如，5.1)的双耳空间声音渲染对应于在无回声房间中收听。因此，由于缺乏房间效应，它被认为是不自然和不愉快的。用于添加房间效应的基于双耳房间脉冲响应(BRIR)的技术通常用于多通道内容(例如，5.1)的双耳渲染。

然而，也存在其中不期望添加房间效应的信号类型。例如，用移动设备捕获的空间声音的双耳渲染。移动设备捕获的音频的目的通常是将收听者“传送”到空间声音被捕获处的位置，并像收听者就在那里一样如实地渲染声音场景。所捕获的音频包含录音空间的自然混响，因此不添加额外混响的基于HRTF的双耳渲染方法是优选的。在渲染中添加房间效应会导致不自然的收听体验，因为经渲染的音频将会包含捕获空间的房间效应和渲染的房间效应两者。

因此，在双耳渲染中存在需要添加房间效应的情况，也存在不需要添加房间效应的情况。

如在下文中更详细讨论的构思是提供装置和方法，例如，在一些实施例中，可以对空间音频流进行操作的双耳渲染器和/或用于双耳渲染的方法，其中该空间音频流可以包含传输音频信号(来自各种源并具有任意特性)和通常至少包含频带中的方向(方向可具有任意值)的空间元数据。此外，在一些实施例中，双耳渲染器和/或用于双耳渲染的方法被配置为(基于是否要渲染它的指示来)渲染具有和没有所添加的房间效应的双耳信号。

因此，实施例涉及对包含传输音频信号和空间元数据(至少由频带中的方向组成)的空间音频流进行双耳渲染。在这种实施例中，提出了一种方法，该方法可以基于空间音频流(其可以来自诸如移动设备和5.1之类的各种源)来渲染具有和没有房间效应的双耳音频输出。此外，在一些实施例中，此渲染器被配置为通过以下操作来执行渲染：基于空间元数据、用于早期部分(early part)渲染的双耳渲染数据、以及传输音频信号的随机分析来渲染“早期部分”双耳信号，以及在指示表明如此时渲染这些信号即基于用于所添加的房间渲染的双耳渲染数据来渲染“被添加房间效应”双耳信号(将与“早期部分”信号组合)。

在一些实施例中，可存在获得参数化音频流的渲染器和/或解码器，其中该参数化音频流由一个或多个传输音频信号和空间元数据组成。例如可以通过从存储设备中取回或者通过经由网络接收它来获得空间音频流。

空间元数据可以至少包含频带中的方向。这些方向可以指向任何方向(而不是某些预定义方向，诸如扬声器设置方向)。因此，必须将渲染方法配置为支持向任意方向进行渲染。其他参数可以包括指示在频带中声音的定向性或环境性程度的比率参数。进一步的参数可以包括定向声音是否应被再现为点状或宽广的、或者任何其他参数。

在一些实施例中，传输音频信号例如可以是以下类型之一(执行任何潜在的预处理)：间隔的麦克风信号；重合的麦克风信号；环绕扬声器信号的下混合；音频对象的下混合；任意阶的Ambisonic信号、或任意阶的Ambisonic信号的子集；上述任何一种或任何其他类型的混合。

在一些实施例中，渲染器进一步被配置为接收关于是否渲染所添加的房间响应的指示。可以以各种方式获得该指示。例如，它可以从用户获得，或者它可以与空间音频流一起被接收。它还可以基于空间音频流而被确定。例如，如果5.1声音的下混合被检测为传输信号，则该指示可以被设置为“添加房间效应”。另一方面，如果麦克风信号被检测为传输信号，则该指示可以被设置为“无房间效应”。

在一些实施例中，“早期部分”和“房间效应”双耳信号是被分开渲染的。早期部分双耳信号可以在频带中被渲染，并因此在一些实施例中传输信号被变换到时频域。

在一些实施例中，早期部分渲染器被配置为通过估计频带中的传输信号随机特性(协方差矩阵)来执行渲染。该协方差矩阵包含传输通道的能量、相关性以及相互相位的信息。由于有许多传输音频信号类型，因此该信息进而被用于配置渲染以适配各种信号特性。例如，即使在其中空间元数据相似的情况下，“间隔”、“重合”、“下混合”的类型也可具有非常不同的随机特性。

此外，在一些实施例中，使用空间元数据在频带中确定目标协方差矩阵。例如，如果声音从特定角度到达，则它需要在左耳和右耳(在每个频率)具有一定的频谱以及具有一定的相位依赖关系。这些是使用用于早期部分渲染的双耳渲染数据(例如，使用在该特定角度的HRTF对)来确定的。类似地，比率参数会影响双耳输出通道应相关的程度，诸如此类。因此，构建了目标协方差矩阵，其反映与所接收的空间元数据对应的所有这些双耳特性。

进而，当传输信号协方差矩阵和目标协方差矩阵已知时，可以制定混合解决方案。该混合解决方案(在频带中)使得当被应用于传输音频信号时，根据所确定的目标协方差矩阵而产生具有协方差矩阵的输出信号。所得到的信号被转换回时域，并且结果是经渲染的早期部分双耳信号。

由于测量信号随机特性和相应地配置处理的过程，因此可以针对各种传输信号类型来对处理进行优化。这种处理不会添加房间效应。

在一些实施例中，当指示被设置为渲染房间效应时，房间效应被渲染。可以通过将传输音频信号与用于所添加的房间渲染的双耳渲染数据(其例如可以包含所测量BRIR的晚期部分(late part))进行卷积来执行对房间效应的渲染。例如，可以从一对BRIR中衰减/去除早期/定向部分并仅使用晚期(双耳)响应作为卷积混响。可以使用基于FFT的卷积技术来有效地实现卷积。

此外，在一些实施例中，早期部分双耳信号和所添加的房间效应双耳信号被组合(例如，通过将它们相加)，从而产生采用合适输出形式的双耳信号，其可以在耳机上被再现。

在一些实施例中并且在组合之前，进一步的“对齐”延迟可以被引入信号路径之一，其中，已知另一路径具有更长的延迟。

因此，作为将来自各种源的参数化空间音频信号渲染到双耳输出的结果，如本文中进一步详细讨论的实施例可以(基于合适的指示来)产生具有(或没有)所添加的房间效应的双耳信号，此外还可以针对传输音频信号的变化的、非预定义的特性来优化双耳信号输出。这些实施例可以被配置为将音频信号渲染到任何方向。

关于图1，根据一些实施例示出了用于实现音频捕获和渲染的示例装置和系统。

系统199被示出具有编码器/分析器101部分和解码器/合成器105部分。

在一些实施例中，编码器/分析器101部分包括音频信号输入，其被配置为接收输入音频信号110。这些输入音频信号可以来自任何合适的源，例如：安装在移动电话上的两个或更多个麦克风；其他麦克风阵列，例如，B格式麦克风或Egenmike；Ambisonics信号，例如，一阶Ambisonics(FOA)、高阶Ambisonics(HOA)；扬声器环绕混音和/或对象。输入音频信号110可以被提供给分析处理器111和传输信号生成器113。

编码器/分析器101部分可以包括分析处理器111。分析处理器111被配置为对输入音频信号执行空间分析以产生合适的元数据112。因此，分析处理器111的目的是估计频带中的空间元数据。对于所有前述的输入类型，存在已知的方法来生成合适的空间元数据，例如，频带中的方向和直接对总能量比(或类似的参数，诸如扩散度，即，环境对总能量比)。这些方法在本文中被详述，然而，一些示例可以包括针对输入信号执行合适的时频变换，进而在输入是移动电话麦克风阵列时在频带中估计使麦克风间相关性最大化的麦克风对之间的延迟值，以及制定与该延迟对应的方向值(如GB专利申请号1619573.7和PCT专利申请号PCT/FI2017/050778中所述)，并基于相关值来制定比率参数。

元数据可以具有各种形式，并且可以包含空间元数据和其他元数据。典型的用于空间元数据的参数化是每个频带中的一个方向参数θ(k,n)以及每个频带中的相关联的直接对总能量比r(k,n)，其中，k是频带索引，n是时间帧索引。确定或估计方向和比率取决于从中获得音频信号的设备或实现。例如，可以使用在GB专利申请号1619573.7和PCT专利申请号PCT/FI2017/050778中描述的方法，使用空间音频捕获(SPAC)来获得或估计元数据。换句话说，在该特定上下文中，空间音频参数包括旨在描绘声场的特征的参数。在一些实施例中，所生成的参数可以在不同的频带上不同。因此，例如，在频带X中，生成并发送所有的参数，而在频带Y中，仅生成和发送一个参数，此外在频带Z中，没有生成或发送参数。这样的一个实际示例可以是对于一些频带(诸如最高频带)，由于感知的原因，不需要某些参数。

当输入是FOA信号或B格式麦克风时，分析处理器111可以被配置为确定诸如强度向量之类的参数(方向参数是基于其而获得的)，并将强度向量长度与总声场能量估计相比较以确定比率参数。这种方法在文献中被称为定向音频编码(DirAC)。

当输入是HOA信号时，分析处理器111可以取信号的FOA子集并使用上述方法，或者将HOA信号划分成多个部分(sector)，在每个部分中使用上述方法。这种基于部分的方法在文献中被称为高阶DirAC(HO-DirAC)。在这种情况下，存在每频带多于一个的同时的方向参数。

当输入是扬声器环绕混音和/或对象时，分析处理器111可以被配置为将该信号转换成FOA信号(经由使用球面谐波编码增益)并如上所述地分析方向和比率参数。

由此，分析处理器111的输出是在频带中确定的空间元数据。该空间元数据可涉及频带中的方向和比率，但也可具有先前列出的任何元数据类型。该空间元数据可以随时间和频率而变化。

在一些实施例中，空间分析器和空间分析可以在系统199外部实现。例如，在一些实施例中，与音频信号相关联的空间元数据可以作为单独的比特流被提供给编码器。在一些实施例中，空间元数据可以被提供为一组空间(方向)索引值。

编码器/分析器101部分可以包括传输信号生成器113。传输信号生成器113被配置为接收输入信号，并生成合适的传输音频信号114。该传输音频信号可以是立体声或单声道音频信号。传输音频信号114的生成可以使用如下所总结的已知方法来实现。

当输入是移动电话麦克风阵列音频信号时，传输信号生成器113可以被配置为选择左右麦克风对，并对该信号对应用合适的处理，诸如自动增益控制、麦克风噪声去除、风噪声去除、以及均衡。

当输入是FOA/HOA信号或B格式麦克风时，传输信号生成器113可以被配置为制定朝向左右方向的定向波束信号，诸如两个相对的心形信号。

当输入是扬声器环绕混音和/或对象时，传输信号生成器113可以被配置为生成下混合信号(其将左侧通道组合到左下混合通道并将右侧通道组合到右下混合通道)，并以合适的增益将中央通道添加到这两个传输通道。

在一些实施例中，传输信号生成器113被配置为绕过输入。例如，在某些情况下，分析和合成发生在同一设备处在单个处理步骤中，而无需中间编码。传输通道的数量也可以是任何合适的数量(而不是在示例中讨论的一个或两个通道)。

在一些实施例中，编码器/分析器部分101可以包括编码器/复用器115。编码器/复用器115可以被配置为接收传输音频信号114和元数据112。编码器/复用器115还可以被配置为生成编码或压缩形式的元数据信息和传输音频信号。在一些实施例中，编码器/复用器115可以进一步交织、复用到单个数据流116，或者在传输或存储之前将元数据嵌入到编码音频信号内。可以使用任何合适的方案来实现复用。

例如，编码器/复用器115可以被实现为IVAS编码器或任何其他合适的编码器。因此，编码器/复用器115被配置为对音频信号和元数据进行编码，并形成比特流116(例如，IVAS比特流)。

进而，如虚线所示，比特流116可以被发送/存储103。在一些实施例中，没有编码器/复用器115(并因此没有下文讨论的解码器/解复用器121)。

此外，系统199可以包括解码器/合成器部分105。解码器/合成器部分105被配置为接收、获取或以其他方式获得比特流116，并从该比特流生成要被呈现给收听者/收听者播放装置的合适的音频信号。

解码器/合成器部分105可以包括解码器/解复用器121，解码器/解复用器121被配置为接收比特流，并对经编码的流进行解复用，进而对音频信号进行解码以获得传输信号124和元数据122。

此外，在一些实施例中，如上所讨论的，可不存在任何解复用器/解码器121(例如，在没有相关联的编码器/复用器115的情况下，因为编码器/分析器部分101和解码器/合成器105两者位于同一设备内)。解码器/合成器部分105可以包括合成处理器123。合成处理器123被配置为获得传输音频信号124、空间元数据122以及所添加的房间效应控制信号或指示符，并产生可以在耳机上再现的双耳输出信号128。

该系统的操作相对于图2中所示的流程图进行了总结。例如，如图2中步骤201所示，接收输入音频信号。

进而，如图2中步骤203所示，该流程图示出了分析(空间)输入音频信号以生成空间元数据。

进而，如图2中步骤204所示，从输入音频信号生成传输音频信号。

进而，如图2中步骤205所示，所生成的传输音频信号和元数据可以被复用。这在图2中被示为可选的虚线框。

此外，如图2中步骤207所示，经编码的信号可以被解复用和解码，以生成传输音频信号和空间元数据。这也被示为可选的虚线框。

进而，如图2中步骤209所示，可以基于传输音频信号、空间元数据以及所添加的房间效应控制信号或指示符来合成双耳音频信号。

进而，如图2中步骤211所示，可以将经合成的双耳音频信号输出到合适的输出设备(例如，一组耳机)。

关于图3，更详细地示出了合成处理器123。

在一些实施例中，合成处理器123包括时频变换器301。时频变换器301被配置为接收(时域)传输音频信号122，该时频变换器将它们转换到时频域。合适的变换例如包括短时傅里叶变换(STFT)和复合调制正交镜像滤波器组(QMF)。所得到的信号可以被标示为x_i(b,n)，其中，i是通道索引，b是时频变换的频率仓索引，n是时间索引。时频信号例如在此以向量形式被表示为(例如，对于两个通道，该向量形式是)：

进而，可以在时频域内并在频带上实现以下处理操作。频带可以是所应用的时频变换器(滤波器组)的一个或多个频率仓(单独的频率分量)。在一些实施例中，频带可以近似于感知相关的分辨率(诸如Bark频带)，其在低频比在高频在频谱上更具选择性。可替代地，在一些实现中，频带可以对应于频率仓。频带通常是那些(或近似那些)空间元数据已由分析处理器确定的频带。每个频带k可以依据最低频率仓b_low(k)和最高频率仓b_high(k)来定义。

在一些实施例中，时频传输信号302可以被提供给协方差矩阵估计器307和混合器311。

在一些实施例中，合成处理器123包括协方差矩阵估计器307。其被配置为接收时频域传输信号302，并估计这些时频传输信号的协方差矩阵及它们的总能量估计(在频带中)。例如，在一些实施例中，协方差矩阵可以被估计为：

其中，上标H标示共轭转置。该协方差矩阵的估计可以涉及在时间上进行平均，诸如在若干时间索引n上的FIR平均或IIR平均。所估计的协方差矩阵310可以被输出到混合规则确定器309。

协方差矩阵估计器307还可以被配置为生成总能量估计E(k,n)即C_x(k,n)的对角线值之和，并将该总能量估计提供给目标协方差矩阵确定器305。

在一些实施例中，合成处理器123包括HRTF确定器303。HRTF确定器303可以包括合适密集的一组HRTF或者HRTF插值器。该HRTF确定器被配置为针对角度θ(k,n)和频带k，确定2x1复合值的头部相关传递函数(HRTF)h(θ(k,n),k)。在一些实施例中，HRTF确定器303被配置为接收空间元数据124，并从角度θ(k,n)(其是在空间元数据方面的方向参数)确定输出HRTF。

例如，它可以确定在频带k的中频处的HRTF。在其中涉及收听者头部定向跟踪的情况下，可以在获得HRTF之前修改方向参数θ(k,n)以说明当前的头部定向。在一些实施例中，HRTF确定器303的HRTF数据集可以针对合成处理器123而被预先制定并固定，并且可以有多个HRTF数据集来从中选择。

在一些实施例中，HRTF确定器303的HRTF数据集还具有针对每个频带k的扩散场协方差矩阵，其例如可以通过采用均匀分布的一组方向θ_d(其中，d＝1..D)并通过将该扩散场协方差矩阵估计为

来制定。

HRTF数据可以通过使用任何合适的方法来渲染和插值。例如，在一些实施例中，一组HRTF被分解成作为频率函数的耳间时间差和左右耳的能量。进而，当需要在给定角度的HRTF时，会在该HRTF组找到最接近的现有数据点，并且在给定角度的延迟和能量被插值。进而，这些能量和延迟可以被转换为要使用的复乘数。

在一些实施例中，HRTF被插值，以将HRTF数据集转换成频带中的一组球面谐波双耳解码矩阵。进而，可以通过以下操作来确定针对任何角度的HRTF：制定针对该角度的球面谐波函数权重向量，并将其与该矩阵相乘。结果同样是2x1 HRTF向量。

在一些实施例中，HRTF的插值可以通过将它们视为虚拟扬声器来实现，并且例如经由幅度平移来获得经插值的HRTF。

HRTF按照定义是指在无回声空间中从某个方向到耳朵的响应。然而，完全可以使用另一个数据集来代替HRTF数据集，该另一个数据集(除了HRTF部分之外)还包括双耳房间脉冲响应的早期部分。这种数据集还包括频谱以及例如由于一层(first floor)或墙壁反射而导致的其他特征。

HRTF数据304(其由h(θ(k,n),k)和C_D(k)组成)可以由HRTF确定器303输出，并被传递给目标协方差矩阵确定器305。

在一些实施例中，合成处理器123包括目标协方差矩阵确定器305。目标协方差矩阵确定器305被配置为接收空间元数据124，其在该示例中可以包括至少一个方向参数θ(k,n)和至少一个直接对总能量比参数r(k,n)、HRTF数据304以及总能量估计E(k,n)308。进而，协方差矩阵确定器305被配置为基于空间元数据124、HRTF数据304以及总能量估计308来确定目标协方差矩阵306。例如，目标协方差矩阵确定器305可以通过下式来制定目标协方差矩阵。

C_y(k,n)＝E(k,n)r(k,n)h(θ(k,n),k)h^H(θ(k,n),k)+E(k,n)(1-r(k,n))C_D(k)

进而，目标协方差矩阵C_y(k,n)306可以被提供给混合规则确定器309。

在一些实施例中，合成处理器123包括混合规则确定器309。混合规则确定器309被配置为接收目标协方差矩阵306和所估计的协方差矩阵310。混合规则确定器309被配置为基于目标协方差矩阵C_y(k,n)306和所测量的协方差矩阵C_x(k,n)310来生成混合矩阵M(k,n)312。

在一些实施例中，混合矩阵是基于在J Vilkamo，T

A Kuntz的“用于空间音频的时频处理的优化协方差域框架(Optimized covariance domain frameworkfor time–frequency processing of spatial audio)”(音频工程学会期刊，第61卷，第6期(2013):第403-411页)中描述的方法而生成的。

在一些实施例中，混合规则确定器309被配置为确定引导混合矩阵的生成的原型矩阵

综上所述，可以提供混合矩阵M(k,n)，当被应用于具有协方差矩阵C_x(k,n)的信号时，它以最小二乘优化的方式产生具有协方差矩阵C_y(k,n)的信号。矩阵Q引导这种混合中的信号内容，并且在此示例中，矩阵就是单位矩阵，因为经处理的左右信号应尽可能地类似于原始的左右信号。换句话说，设计是在获得用于经处理的输出的C_y(k,n)的同时最小地更改信号。针对每个频带k制定混合矩阵M(k,n)并将其提供给混合器311。

在此示例中，混合矩阵是基于输入是双通道传输音频信号来定义的。然而，这些方法可以适于针对任何数量的传输音频通道的实施例。

在一些实施例中，合成处理器123包括混合器311。混合器311接收时频音频信号302和混合矩阵312。混合器311被配置为处理每个频率仓b中的时频音频信号(输入信号)以生成两个经处理的(第一或早期部分)时频信号314。这例如可以基于下面的表达式来形成：

其中，频带k是仓b所在的频带。

上述过程假定输入信号x(b,n)在它们之间具有合适的不相干性，以渲染具有期望的目标协方差矩阵特性的输出信号y(b,n)。在某些情况下，例如，当只有单个通道传输信号或者信号以其他方式高度相关时，输入信号不具有合适的通道间不相干性。因此，在一些实施例中，实现去相关操作以基于x(b,n)来生成去相关信号，并将这些去相关信号混合到特定的残差信号中，该残差信号被添加到上式中的信号y(b,n)中。获得这种残差信号的过程是已知的，并且例如已在上述参考文章中进行了描述。

经处理的双耳(早期部分)时频信号y(b,n)314被提供给逆T/F变换器313。

在一些实施例中，合成处理器123包括逆T/F变换器313，T/F变换器313被配置为接收双耳(早期部分)时频信号y(b,n)314并应用逆时频变换，该逆时频变换与由T/F变换器301所应用的时频变换相对应。逆T/F变换器313的输出是对应于双耳处理的早期/干(dry)部分(即，不包含晚期混响)的双耳(早期部分)信号316。

因此，上述过程说明了双耳处理的(第一)早期/干部分，而以下过程说明了双耳处理的(第二)晚期/湿(wet)部分。

在一些实施例中，合成处理器123包括混响器351，其被配置为接收传输音频信号122，并对传输音频信号122应用时域混响操作以基于所添加的房间效应控制(指示符)126来生成晚期混响双耳房间效应信号318。然而，在一些实施例中，该混响器包括时频域混响器，其在被实现时将会被配置为接收时频传输信号(例如，诸如由T/F变换器301所产生的)，并且其输出将会在逆T/F变换器313之前与混合器311的输出混合或组合(或者被组合到混合器内的双耳T/F早期部分信号314)。

混响器351被配置为还接收所添加的房间效应控制信号或信息126，其包括是否应输出房间效应(即双耳混响)的指示。如果不应输出任何房间效应，则混响器351被配置为不提供任何输出。如果应输出房间效应，则该混响器可以被配置为如下文中进一步详细描述地添加房间效应。

确定或获得所添加的房间效应控制126可以是基于任何合适的方法。例如，在一些实施例中，可以从用户获得所添加的房间效应控制126。在一些进一步的实施例中，可以与空间音频流一起接收所添加的房间效应控制126(例如，由编码器在空间元数据中设置的标志)。可以基于空间音频流来确定所添加的房间效应控制126。例如，可以基于空间音频信号的类型来确定所添加的房间效应控制126(例如，比特流包含空间音频信号源自5.1环绕混音的指示，进而解码器知道要渲染房间效应)。在一些实施例中，可以基于对空间音频信号的分析来确定所添加的房间效应控制。例如，监视音频信号和元数据以确定空间音频信号是源自5.1通道信号还是期望所添加的房间效应的某些其他类型，而不是例如源自诸如捕获空间音频的移动电话之类的空间音频捕获系统，其中，不期望所添加的房间效应，因为在这种情况下必需的环境和/或混响已经存在于空间音频信号中。

例如，如果5.1声音的下混合被检测为传输信号，则指示可以被设置为“添加房间效应”。另一方面，如果麦克风信号被检测为传输信号，则指示可以被设置为“无房间效应”。在一些实施例中，所添加的房间效应控制还可以具有控制混响的其他信息，例如，作为频率函数的混响时间和总体水平。

混响器351可以实现任何合适的混响方法来产生混响。例如，在一些实施例中，混响器351被配置为执行与预定义混响响应的卷积。可以使用快速傅里叶变换(FFT)卷积或部分FFT卷积来有效地应用卷积，例如，如在Gardner,William G.的“无输入/输出延迟的有效卷积(Efficient convolution without input/output delay)”(音频工程学会第97届会议，音频工程学会，1994年)中所描述的。

混响响应例如可以通过合适的窗口化而从双耳房间脉冲响应(BRIR)中获得，其中，BRIR的第一或早期部分(对应于HRTF/干渲染)被完全衰减，仅留下第二或晚期部分。这种响应可以被应用于有效的卷积操作以生成双耳房间效应信号。

在一些实施例中，将传输音频信号相加到单个通道以用一对混响响应进行处理。由于在典型的一组BRIR中存在来自若干方向的响应，因此混响响应可以根据该组中的响应之一进行窗口化，诸如中央前方BRIR。混响响应也可以是基于来自多个方向的BRIR的经组合(例如，平均)响应。

在一些实施例中，传输音频信号是用不同的混响响应对来处理的，并且结果被相加在一起以获得双通道输出。在这种情况下，针对左侧传输信号的混响响应可以例如根据90度左侧BRIR而被窗口化，并相应地应用于右侧。在这些实施例中，混响响应也可以是基于来自多个方向的BRIR的经组合(例如，平均)响应)。

在一些实施例中，混响器包括反馈延迟网络(FDN)，其是时域混响器或稀疏频域混响器，诸如在Vilkamo,J.、Neugebauer,B.和Plogsties,J.的“稀疏频域混响器(Sparsefrequency-domain reverberator)”(音频工程学会期刊，第59卷，第12期，第936-943页)中所描述的。在这种实施例中，可以通过允许配置频带中的混响时间(T60，即，声音衰减60dB所用的时间)和能量的任何混响器结构来在感知上近似已有的晚期混响响应。混响算法的这些混响参数可以被设置为匹配正在被近似的已有响应的对应特性。如果目的不是模仿已有的晚期部分响应，那么也可以手动地配置混响器参数。

应生成针对双耳输出的晚期混响，以使得其与作为频率函数的扩散场相关性相匹配，这是已针对各种已知方法而被说明的特征。可以从扩散场协方差矩阵C_D(k)获得针对频带的扩散场相关性。

进而，双耳房间效应信号318(经混响处理的时域信号)可以被提供给组合器315。

组合器315被配置为接收早期(来自逆T/F变换器313的双耳早期部分信号316)和晚期(来自混响器351的双耳房间效应信号318)信号，并将它们组合或相加在一起(分别用于左和右通道)。因此，该组合将对应于双耳处理的早期/干部分的双耳时域信号与双耳房间效应信号相组合，以产生所得到的空间化双耳时域信号，其在需要/被请求时具有所添加的房间效应。该信号可以在耳机上被再现。

关于图4，示出了示出合成处理器的操作的流程图。

如图4中步骤401所示，该流程图示出了接收诸如传输音频信号、空间元数据以及所添加的房间效应控制指示符的操作。

此外，如图4中步骤402所示，确定HRTF数据。

如图4中步骤403所示，基于传输音频信号和所添加的房间效应控制，生成房间效应双耳音频信号。

如图4中步骤405所示，生成时频域传输音频信号。

如图4中步骤407所示，基于T/F传输音频信号来估计协方差矩阵，并基于该协方差矩阵来估计总能量。

如图4中步骤409所示，基于HRTF数据、空间元数据、能量估计，确定目标协方差矩阵。

如图4中步骤411所示，在已确定目标协方差矩阵和所估计的协方差矩阵后，基于所估计的协方差矩阵和目标协方差矩阵来确定混合规则。

进而，如图4中步骤413所示，可以基于该混合规则来混合时频传输信号。

进而，如图4中步骤415所示，这些经混合的音频信号被转换回时域，或者生成时域等效音频信号。

如图4中步骤417所示，房间效应双耳音频信号(如果需要)和早期混合的音频信号进而可以被组合(或相加)。

进而，如图4中步骤419所示，可以输出经组合的双耳音频信号。

在一些实施例中，可以利用空间元数据来控制晚期混响处理。在双耳再现的上下文中，双耳混响的关键目的是使能声音外部化/距离感知。因此，在某些情况下，将混响渲染到直接声音而不是环境部分可以很有用。因此，可以应用直接对总能量比参数(或等效的参数)来控制被馈送到混响器的信号。这可以通过在应用混响器之前将频带中的传输信号乘以√(r(k,n))并使用频域双耳混响算法来实现。此外，可以实现基于空间元数据而对被提供给混响器的信号量的任何种类的控制。

关于图5，示出了可以被用作如上所述的系统的任何装置部件的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1700是移动设备、用户设备、平板计算机、计算机、音频播放装置等。该设备例如可以被配置为如图1中所示地实现编码器/分析器部分101或解码器/合成器部分105，或者将其实现为或如上所描述的任何功能块。

在一些实施例中，设备1700包括至少一个处理器或中央处理单元1707。处理器1707可以被配置为执行各种程序代码，诸如本文所述的方法。

在一些实施例中，设备1700包括存储器1711。在一些实施例中，至少一个处理器1707被耦接到存储器1711。存储器1711可以是任何合适的存储部件。在一些实施例中，存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1711还可以包括用于存储数据(例如根据本文所述的实施例已被处理或将要被处理的数据)的存储数据部分。只要需要，被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器-处理器耦接而被处理器1707取得。

在一些实施例中，设备1700包括用户接口1705。在一些实施例中，用户接口1705可以被耦接到处理器1707。在一些实施例中，处理器1707可以控制用户接口1705的操作并从用户接口1705接收输入。在一些实施例中，用户接口1705可以使得用户能够例如经由小键盘向设备1700输入命令。在一些实施例中，用户接口1705可以使得用户能够从设备1700获得信息。例如，用户接口1705可以包括被配置为向用户显示来自设备1700的信息的显示器。在一些实施例中，用户接口1705可以包括触摸屏或触摸接口，其既能够使信息被输入到设备1700中，又能够向设备1700的用户显示信息。在一些实施例中，用户接口1705可以是用于通信的用户接口。

在一些实施例中，设备1700包括输入/输出端口1709。在一些实施例中，输入/输出端口1709包括收发机。在这种实施例中，收发机可以被耦接到处理器1707，并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦接来与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议来与其他装置通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。

收发机输入/输出端口1709可以被配置为接收信号。

在一些实施例中，设备1700可以被用作合成设备的至少一部分。输入/输出端口1709可以被耦接到头戴式耳机(其可以是头部跟踪或非跟踪的头戴式耳机)等。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件来实现，而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示，但是众所周知地，本文所描述的这些框、装置、系统、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现，或者由硬件、或者由软件和硬件的组合来执行。此外，就此而言，应当注意，如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上，诸如硬盘或软盘之类的磁性介质上、以及诸如DVD及其数据变体CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何适当的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。

可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序，使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。

前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而，当结合附图和所附权利要求书阅读时，鉴于以上描述，各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

Claims

1.一种装置，包括被配置为执行以下操作的部件：

接收空间音频信号，所述空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的空间元数据；

获得房间效应控制指示；以及

基于所述房间效应控制指示，确定是否要对所述至少一个音频信号应用房间效应，其中，所述部件被配置为当要对所述空间音频信号应用所述房间效应时：

基于所述至少一个音频信号和空间元数据，生成第一部分双耳音频信号；

基于所述至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用所述房间效应来生成至少所述第二部分双耳音频信号，以使其具有与所述第一部分双耳音频信号的响应不同的响应；以及

组合所述第一部分双耳音频信号和所述第二部分双耳音频信号，以生成经组合的双耳音频信号。

2.根据权利要求1所述的装置，其中，所述空间元数据包括至少一个方向参数，并且被配置为基于所述至少一个音频信号和空间元数据来生成第一部分双耳音频信号的所述部件被配置为：基于所述至少一个音频信号和所述至少一个方向参数，生成所述第一部分双耳音频信号。

3.根据权利要求1所述的装置，其中，所述空间元数据包括至少一个比率参数，并且被配置为基于所述至少一个音频信号来生成第二部分双耳音频信号的所述部件进一步被配置为：基于所述至少一个音频信号和所述至少一个比率参数，生成所述第二部分双耳音频信号。

4.根据权利要求2所述的装置，其中，所述至少一个方向参数是与频带相关联的方向。

5.根据权利要求1至4中任一项所述的装置，其中，被配置为基于所述至少一个音频信号和空间元数据来生成所述第一部分双耳音频信号的所述部件被配置为：

分析所述至少一个音频信号以确定与所述至少一个音频信号相关联的至少一个随机特性；以及

进一步基于与所述至少一个音频信号相关联的所述至少一个随机特性，生成所述第一部分双耳音频信号。

6.根据权利要求5所述的装置，其中，所述至少一个音频信号包括至少两个音频信号，并且被配置为分析所述至少一个音频信号以确定与所述至少一个音频信号相关联的至少一个随机特性的所述部件被配置为：估计所述至少两个音频信号之间的协方差，并且其中，被配置为进一步基于与所述至少一个音频信号相关联的所述至少一个随机特性来生成所述第一部分双耳音频信号的所述部件被配置为：

基于所估计的所述至少两个音频信号之间的协方差，生成混合系数；以及

基于所述混合系数，混合所述至少两个音频信号以生成所述第一部分双耳音频信号。

7.根据权利要求6所述的装置，其中，被配置为基于所估计的所述至少两个音频信号之间的协方差来生成混合系数的所述部件进一步被配置为：基于目标协方差，生成所述混合系数。

8.根据从属于权利要求2或从属于权利要求2的任何权利要求的权利要求7所述的装置，其中，所述部件进一步被配置为：

基于所估计的协方差，生成总能量估计；

基于所述方向参数，确定头部相关传递函数数据；以及

基于所述头部相关传递函数数据、所述空间元数据以及所述总能量估计，确定所述目标协方差。

9.根据权利要求1至8中任一项所述的装置，其中，被配置为基于所述至少一个音频信号来生成第二部分双耳音频信号的所述部件被配置为：对所述至少一个音频信号应用混响器。

10.根据权利要求1至9中任一项所述的装置，其中，被配置为获得房间效应控制指示的所述部件被配置为执行以下中的至少一个：

接收所述房间效应控制指示，作为由所述空间音频信号的编码器设置的标志；

接收所述房间效应控制指示，作为用户输入；

基于获得指示空间音频信号类型的指示符，确定所述房间效应控制指示；以及

基于分析所述空间音频信号以确定空间音频信号类型，确定所述房间效应控制指示。

11.根据权利要求1至10中任一项所述的装置，其中，所述至少一个音频信号是由编码器生成的至少一个传输音频信号。

12.根据权利要求1至11中任一项所述的装置，其中，所述第二部分双耳信号具有比所述第一部分双耳音频信号的时间响应长的时间响应。

13.一种方法，包括：

获得房间效应控制指示；以及

基于所述房间效应控制指示，确定是否要对所述至少一个音频信号应用房间效应；

当要对所述空间音频信号应用所述房间效应时，基于所述至少一个音频信号和空间元数据，生成第一部分双耳音频信号；

当要对所述空间音频信号应用所述房间效应时，基于所述至少一个音频信号，生成第二部分双耳音频信号，其中，至少部分地用所述房间效应来生成至少所述第二部分双耳音频信号，以使其具有与所述第一部分双耳音频信号的响应不同的响应；以及

14.根据权利要求13所述的方法，其中，所述空间元数据包括至少一个方向参数，并且基于所述至少一个音频信号和空间元数据来生成第一部分双耳音频信号包括：基于所述至少一个音频信号和所述至少一个方向参数，生成所述第一部分双耳音频信号。

15.根据权利要求13所述的方法，其中，所述空间元数据包括至少一个比率参数，并且基于所述至少一个音频信号来生成第二部分双耳音频信号进一步包括：基于所述至少一个音频信号和所述至少一个比率参数，生成所述第二部分双耳音频信号。

16.根据权利要求14所述的方法，其中，所述至少一个方向参数是与频带相关联的方向。

17.根据权利要求13至16中任一项所述的方法，其中，基于所述至少一个音频信号和空间元数据来生成所述第一部分双耳音频信号包括：

18.根据权利要求17所述的方法，其中，所述至少一个音频信号包括至少两个音频信号，并且分析所述至少一个音频信号以确定与所述至少一个音频信号相关联的至少一个随机特性包括：估计所述至少两个音频信号之间的协方差，并且其中，进一步基于与所述至少一个音频信号相关联的所述至少一个随机特性来生成所述第一部分双耳音频信号包括：

19.根据权利要求18所述的方法，其中，基于所估计的所述至少两个音频信号之间的协方差来生成混合系数进一步包括：基于目标协方差，生成所述混合系数。

20.根据从属于权利要求14或从属于权利要求14的任何权利要求的权利要求19所述的方法，进一步包括：

基于所估计的协方差，生成总能量估计；

基于所述方向参数，确定头部相关传递函数数据；以及

21.根据权利要求13至20中任一项所述的方法，其中，基于所述至少一个音频信号来生成第二部分双耳音频信号包括：对所述至少一个音频信号应用混响器。

22.根据权利要求13至21中任一项所述的方法，其中，获得房间效应控制指示包括以下中的至少一个：

接收所述房间效应控制指示，作为用户输入；

23.根据权利要求13至22中任一项所述的方法，其中，所述至少一个音频信号是由编码器生成的至少一个传输音频信号。

24.根据权利要求13至23中任一项所述的方法，其中，所述第二部分双耳信号具有比所述第一部分双耳音频信号的时间响应长的时间响应。

25.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

获得房间效应控制指示；以及