CN117917731A

CN117917731A - 生成参数化空间音频表示

Info

Publication number: CN117917731A
Application number: CN202311364503.2A
Authority: CN
Inventors: M-V·莱蒂南; J·T·维尔卡莫; J·K·维罗莱宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2022-10-21
Filing date: 2023-10-20
Publication date: 2024-04-23
Also published as: EP4358081A2; GB202215632D0

Abstract

一种用于生成空间音频流的方法，该方法包括：获得来自至少两个麦克风的至少两个音频信号；从该至少两个音频信号提取第一音频信号，该第一音频信号至少部分地包括用户的语音；从该至少两个音频信号提取第二音频信号，其中该用户的语音在该第二音频信号内基本不存在；以及对该第一音频信号和该第二音频信号进行编码以生成该空间音频流，使得能够将该用户的语音渲染到可控方向和/或距离。

Description

生成参数化空间音频表示

技术领域

本申请涉及用于生成参数化空间音频表示的装置和方法，但是不是排他地用于从音频编码器的双声道记录生成参数化空间音频表示。

背景技术

捕获空间音频的方法有很多。一种选项是使用例如作为移动设备的一部分的麦克风阵列捕获空间音频。使用麦克风信号，可以执行声音场景的空间分析以确定频带中的空间元数据。此外，可以使用麦克风信号来确定传输音频信号。空间元数据和传输音频信号可以被组合以形成空间音频流。

元数据辅助空间音频(MASA)是空间音频流的一个示例。它是即将来临的沉浸式语音和音频服务(IVAS)编解码器将支持的输入格式之一。它使用音频信号以及对应的空间元数据(包含例如频带中的方向和直接能量与总能量比(direct-to-total energy ratios))和描述性元数据(包含与例如原始捕获和(传输)音频信号相关的附加信息)。MASA流可以例如通过用例如移动设备的麦克风捕获空间音频来获得，其中空间元数据集是基于麦克风信号来估计的。MASA流还可以从其他来源获得，例如特定的空间音频麦克风(例如高保真度立体声响复制(Ambisonics))、工作室混音(mix)(例如5.1混音)或借助适当格式转换的其他内容。还可以在编解码器内使用MASA工具，通过将多通道信号转换为MASA流并对该流进行编码来对该多通道通道信号进行编码。

发明内容

根据第一方面，提供了一种用于生成空间音频流的方法，所述方法包括：获得来自至少两个麦克风的至少两个音频信号；从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，以使得能够将所述用户的语音渲染(render)到可控方向和/或距离。

所述空间音频流还可以使得能够可控渲染所捕获的环境(ambience)音频内容。

从所述至少两个音频信号提取所述第一音频信号还可以包括：将机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号。

将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号可以进一步包括：基于所述至少两个音频信号生成第一语音掩模；以及基于将所述第一语音掩模应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号，将所述至少两个音频信号分离成经掩模处理的语音音频信号和经掩模处理的剩余音频信号。

从所述至少两个音频信号提取所述第一音频信号还可以包括对所述至少两个音频信号进行波束成形以生成语音音频信号。

对所述至少两个音频信号进行波束成形以生成所述语音音频信号可以包括：基于所述经掩模处理的语音音频信号来确定用于所述波束成形的导向向量；基于所述经掩模处理的剩余音频信号确定剩余协方差矩阵；以及应用基于所述导向向量和所述剩余协方差矩阵所配置的波束成形器来生成波束音频信号。

将所述机器学习模型应用所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号还可以包括：基于所述波束音频信号生成第二语音掩模；以及基于所述第二语音掩模对所述波束音频信号应用增益处理以生成所述语音音频信号。

将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个信号以生成所述第一音频信号还可以进一步包括：均衡所述第一音频信号。

将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号可以包括：基于经训练的网络生成至少一个语音掩模。

从所述至少两个音频信号提取所述第二音频信号可以包括：从所述语音音频信号生成定位语音音频信号；以及从所述至少两个音频信号中减去所述定位语音音频信号以生成所述至少一个剩余音频信号。

从所述语音音频信号生成所述定位语音音频信号可以包括基于所述导向向量从所述语音音频信号生成所述定位语音音频信号。

从所述至少两个音频信号提取包括所述用户的语音的所述第一音频信号可以包括：基于所述至少两个音频信号生成所述第一音频信号；生成音频对象表示，所述音频对象表示包括所述第一音频信号。

从所述至少两个音频信号提取所述第一音频信号还可以包括：分析所述至少两个音频信号以确定相对于与所述用户的所述语音相关联的麦克风的方向和/或位置，其中所述音频对象表示还可以包括相对于所述麦克风的所述方向和/或位置。

生成所述第二音频信号还可以包括：生成双声道音频信号。

对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流可以包括：对所述第一音频信号和所述第二音频信号进行混音以生成至少一个传输音频信号；确定与所述用户的所述语音的期望方向或位置相关联的至少一个方向或位置空间参数；对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码以生成所述空间音频流。

所述方法还可以包括获得能量比参数，并且其中对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码可以包括进一步对所述能量比参数进行编码。

所述第一音频信号可以是单通道音频信号。

所述至少两个麦克风可以位于所述用户的耳朵上或附近。

所述至少两个麦克风可以是接近的麦克风。

所述至少两个麦克风可以位于包括作为第一音频源的所述用户和另一音频源的音频场景中，并且所述方法还可以包括：从所述至少两个音频信号提取至少一个其它第一音频信号，所述至少一个其它第一音频信号至少部分地包括所述另一音频源；以及从所述至少两个音频信号提取至少一个其它第二音频信号，其中所述另一音频源在所述至少一个其它第二音频信号内基本不存在，或者所述另一音频源在所述第二音频信号内。

所述第一音频源可以是讲话者并且所述另一音频源可以是另一讲话者。

根据第二方面，提供了一种用于生成空间音频流的装置，所述装置包括设备，所述设备被配置为：获得来自至少两个麦克风的至少两个音频信号；从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，以使得能够将所述用户的语音渲染到可控方向和/或距离。

所述空间音频流还使得能够可控渲染所捕获的环境音频内容。

被配置为从所述至少两个音频信号提取所述第一音频信号的设备还可以被配置为将机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号。

被配置为将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号的设备还可以被配置为：基于所述至少两个音频信号生成第一语音掩模；以及基于将所述第一语音掩模应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号，将所述至少两个音频信号分离成经掩模处理的语音音频信号和经掩模处理的剩余音频信号。

被配置为从所述至少两个音频信号提取所述第一音频信号的设备还可以被配置为对所述至少两个音频信号进行波束成形以生成语音音频信号。

被配置为对所述至少两个音频信号进行波束成形以生成所述语音音频信号的设备可以被配置为：基于所述经掩模处理的语音音频信号来确定用于所述波束成形的导向向量；基于所述经掩模处理的剩余音频信号确定剩余协方差矩阵；以及应用基于所述导向向量和所述剩余协方差矩阵所配置的波束成形器来生成波束音频信号。

被配置为将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号的设备还可以被配置为：基于所述波束音频信号生成第二语音掩模；以及基于所述第二语音掩模对所述波束音频信号应用增益处理以生成所述语音音频信号。

被配置为将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个信号以生成所述第一音频信号的设备还可以被配置为均衡所述第一音频信号。

被配置为将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号的设备还可以被配置为基于经训练的网络生成至少一个语音掩模。

被配置为从所述至少两个音频信号提取所述第二音频信号的设备可以被配置为：从所述语音音频信号生成定位语音音频信号；以及从所述至少两个音频信号中减去所述定位语音音频信号以生成所述至少一个剩余音频信号。

被配置为从所述语音音频信号生成所述定位语音音频信号的设备还可以被配置为基于所述导向向量从所述语音音频信号生成所述定位语音音频信号。

被配置为从所述至少两个音频信号提取包括所述用户的语音的所述第一音频信号的设备可以被配置为：基于所述至少两个音频信号生成所述第一音频信号；以及生成音频对象表示，所述音频对象表示包括所述第一音频信号。

被配置为从所述至少两个音频信号提取所述第一音频信号的设备还可以被配置为分析所述至少两个音频信号以确定相对于与所述用户的所述语音相关联的麦克风的方向和/或位置，其中所述音频对象表示还可以包括相对于所述麦克风的所述方向和/或位置。

被配置为生成所述第二音频信号的设备还可以被配置为：生成双声道音频信号。

被配置为对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流的设备可以被配置为：对所述第一音频信号和所述第二音频信号进行混音以生成至少一个传输音频信号；确定与所述用户的所述语音的期望方向或位置相关联的至少一个方向或位置空间参数；以及对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码以生成所述空间音频流。

所述设备还可以被配置为获得能量比参数，并且其中被配置为对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码的所述设备可以进一步被配置为：对所述能量比参数进行编码。

所述第一音频信号可以是单通道音频信号。

所述至少两个麦克风可以位于所述用户的耳朵上或附近。

所述至少两个麦克风可以是接近的麦克风。

所述至少两个麦克风可以位于包括作为第一音频源的所述用户和另一音频源的音频场景中，并且所述设备还可以被配置为：从所述至少两个音频信号提取至少一个其它第一音频信号，所述至少一个其它第一音频信号至少部分地包括所述另一音频源；以及从所述至少两个音频信号提取至少一个其它第二音频信号，其中所述另一音频源在所述至少一个其它第二音频信号内基本上不存在，或者所述另一音频源在所述第二音频信号内。

根据第三方面，提供了一种用于生成空间音频流的装置，所述装置包括至少一个处理器和存储指令的至少一个存储器，所述指令当由所述至少一个处理器执行时使系统至少执行：获得来自至少两个麦克风的至少两个音频信号；从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，以使得能够将所述用户的语音渲染到可控方向和/或距离。

被使得执行从所述至少两个音频信号提取所述第一音频信号的所述系统还可以被使得执行：将机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号。

被使得执行将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号的所述系统还可以被使得执行：基于所述至少两个音频信号生成第一语音掩模；以及基于将所述第一语音掩模应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号，将所述至少两个音频信号分离为经掩模处理的语音音频信号和经掩模处理的剩余音频信号。

被使得执行从所述至少两个音频信号提取所述第一音频信号的所述系统还可以被使得执行对所述至少两个音频信号进行波束成形以生成语音音频信号。

被使得执行对所述至少两个音频信号进行波束成形以生成所述语音音频信号的所述系统还可以被使得执行：基于所述经掩模处理的语音音频信号来确定用于所述波束成形的导向向量；基于所述经掩模处理的剩余音频信号确定剩余协方差矩阵；以及应用基于所述导向向量和所述剩余协方差矩阵所配置的波束成形器来生成波束音频信号。

被使得执行将所述机器学习模型应用所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号的所述系统还可以被使得执行：基于所述波束音频信号生成第二语音掩模；以及基于所述第二语音掩模对所述波束音频信号应用增益处理以生成所述语音音频信号。

被使得执行将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个信号以生成所述第一音频信号的所述系统还可以被使得执行均衡所述第一音频信号。

被使得执行将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号的所述系统可以被使得执行基于经训练的网络生成至少一个语音掩模。

被使得执行从所述至少两个音频信号提取所述第二音频信号的所述系统可以被使得执行：从所述语音音频信号生成定位语音音频信号；以及从所述至少两个音频信号中减去所述定位语音音频信号以生成所述至少一个剩余音频信号。

被使得执行从所述语音音频信号生成所述定位语音音频信号的所述系统可以被使得执行基于所述导向向量从所述语音音频信号生成所述定位语音音频信号。

被使得执行从所述至少两个音频信号提取包括所述用户的语音的所述第一音频信号的所述系统可以被使得执行：基于所述至少两个音频信号生成所述第一音频信号；生成音频对象表示，所述音频对象表示包括所述第一音频信号。

被使得执行从所述至少两个音频信号提取所述第一音频信号的所述系统还可以被使得执行分析所述至少两个音频信号以确定相对于与所述用户的所述语音相关联的麦克风的方向和/或位置，其中所述音频对象表示还可以包括相对于所述麦克风的所述方向和/或位置。

被使得执行生成所述第二音频信号的所述系统还可以被使得执行生成双声道音频信号。

被使得执行对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流的所述系统还可以被使得执行：对所述第一音频信号和所述第二音频信号进行混音以生成至少一个传输音频信号；确定与所述用户的所述语音的期望方向或位置相关联的至少一个方向或位置空间参数；对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码以生成所述空间音频流。

可以进一步使所述系统执行获得能量比参数，并且其中被使得执行对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码的所述系统可以进一步被使得执行对所述能量比参数进行编码。

所述第一音频信号可以是单通道音频信号。

所述至少两个麦克风可以位于所述用户的耳朵上或附近。

所述至少两个麦克风可以是接近的麦克风。

所述至少两个麦克风可以位于包括作为第一音频源的所述用户和另一音频源的音频场景中，并且可以进一步使得所述系统执行：从所述至少两个音频信号提取至少一个其它第一音频信号，所述至少一个其它第一音频信号至少部分地包括所述另一音频源；以及从所述至少两个音频信号提取至少一个其它第二音频信号，其中所述另一音频源在所述至少一个其它第二音频信号内基本不存在，或者所述另一音频源在所述第二音频信号内。

根据第四方面，提供了一种用于生成空间音频流的装置，所述装置包括：获得电路，其被配置为获得来自至少两个麦克风的至少两个音频信号；提取电路，其被配置为从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；提取电路，其被配置为从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及编码电路，其被配置为对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，使得能够将所述用户的语音渲染到可控方向和/或距离。

根据第五方面，提供了一种包括指令的计算机程序[或包括指令的计算机可读介质]，所述指令用于使装置生成空间音频流，所述装置被使得执行至少以下：获得来自至少两个麦克风的至少两个音频信号；从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，使得能够将所述用户的语音渲染到可控方向和/或距离。

根据第六方面，提供了一种包括程序指令的非暂时性计算机可读介质，所述程序指令用于使用于生成空间音频流的装置执行至少以下：获得来自至少两个麦克风的至少两个音频信号；从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，使得能够将所述用户的语音渲染到可控方向和/或距离。

根据第七方面，提供了一种用于生成空间音频流的装置，所述装置包括：用于获得来自至少两个麦克风的至少两个音频信号的设备；用于从所述至少两个音频信号提取第一音频信号的设备，所述第一音频信号至少部分地包括用户的语音；用于从所述至少两个音频信号提取第二音频信号的设备，其中所述用户的语音在所述第二音频信号内基本不存在；以及用于对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流使得能够将所述用户的语音渲染到可控方向和/或距离的设备。

一种装置，包括用于执行如上所述的方法的动作的设备。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种存储在介质上的计算机程序产品，可以使装置执行本文所描述的方法。

一种电子设备可以包括如本文所描述的装置。

一种芯片组可以包括如本文所描述的装置。

本申请的实施例旨在解决与现有技术相关的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出了适合于实现一些实施例的示例装置系统；

图2示意性地示出了适合于实现一些实施例的示例捕获装置；

图3示出了根据一些实施例的图2所示的示例捕获装置的操作的流程图；

图4示意性地示出了根据一些实施例的如图2所示的捕获装置中所示的语音提取器；

图5示出了根据一些实施例的图4所示的示例语音提取器的操作的流程图；

图6示意性地示出了适合于实现一些实施例的示例回放装置；

图7示出了根据一些实施例的图6所示的示例回放装置的操作的流程图；

图8示意性地示出了适合于实现一些实施例的另一示例捕获装置；

图9示出了根据一些实施例的图8所示的另一示例捕获装置的操作的流程图；

图10示意性地示出了适合于实现一些实施例的另一示例回放装置；

图11示出了根据一些实施例的图10所示的另一示例回放装置的操作的流程图；

图12示出了示例处理输出；以及

图13示出了示例网络结构。

具体实施方式

下面进一步详细描述用于从捕获的或以其他方式获得的双声道音频信号生成音频流的合适的装置和可能的机制。

如上所述，元数据辅助空间音频(MASA)是适合作为IVAS的输入格式的参数化空间音频格式和表示的示例。

它可以被认为是包括“N个通道+空间元数据”的音频表示。它是一种基于场景的音频格式，特别适合诸如智能电话的实用设备的空间音频捕获。这个想法是根据随时间和频率变化的声音方向和例如能量比来描述声音场景。未由方向定义(描述)的声音能量被描述为扩散(diffuse)(来自所有方向)。

如上所述，与音频信号相关联的空间元数据可以包括每时频块(tile)的多个参数(例如多个方向以及与每个方向(或方向值)相关联的直接能量与总能量比、扩展相干性、距离等)。空间元数据还可以包括其他参数或者可以与被认为是非方向性的(例如环绕相干性、扩散能量与总能量比、剩余能量与总能量比)但是当与方向参数组合时能够用于定义音频场景的特性的其他参数相关联。例如，能够产生良好质量输出的合理设计选择，是在其中确定对于每个时频部分包括一个或多个方向(并且与每个方向直接能量与总能量比、扩散相干性、距离值等相关联)的空间元数据。

如上所述，参数化空间元数据表示可以使用多个并发空间方向。对于MASA，建议的最大并发方向数为两个。对于每个并发方向，可能有相关的参数，例如：方向索引；直接能量与总能量比；扩展(spread)相干性；以及距离。在一些实施例中，定义了其他参数，例如扩散能量与总能量比；环绕相干性；以及剩余能量与总能量比。

参数化空间元数据值可用于每个时频块(MASA格式定义每帧中有24个频带和4个时间子帧)。IVAS中的帧大小为20ms。此外，当前MASA支持每个时频块有1个或2个方向。

示例元数据参数可以是：

格式描述符，其定义IVAS的MASA格式；

通道音频格式，其定义存储在两个字节中的组合的以下字段；

方向数，其定义由空间元数据描述的方向数(每个方向与如下所述的方向相关空间元数据集相关联)；

通道数，其定义该格式中传输通道的数量；

源格式，其描述了从其创建MASA的原始格式。

取决于方向数的MASA格式空间元数据参数的示例可以是：

方向索引，其定义在时频参数间隔处的声音的到达方向(通常这是精度约为1度的球形表示)；

直接能量与总能量比，其定义方向索引(即时频子帧)的能量比；以及

扩展相干性，其定义方向索引(即时频子帧)的能量扩展。

与方向数量无关的MASA格式空间元数据参数的示例可以是：

扩散能量与总能量比，其定义非定向声音在周围方向上的能量比；

环绕声相干性，其定义非定向声音在周围方向上的相干性；

剩余能量与总能量比，其定义剩余(例如麦克风噪声)声音能量的能量比，以满足能量比之和为1的要求。

此外，示例空间元数据频带可以是

MASA流可被渲染为各种输出，例如多通道扬声器信号(例如5.1)或双声道信号。

用于生成空间音频信号的其他选项是使用例如接近的麦克风来捕获音频对象以捕获单声道音频信号并将该音频信号与相对于定义的参考的方向相关联或伴随。这允许在处理的各个阶段控制音频源的方向：捕获、混音和再现。

生成空间音频信号的又一个选项是使用立体声麦克风(stereo microphone)捕获音频信号。立体声麦克风有很多种。捕获的立体声音频信号可以直接使用头戴式耳机(headphones)再现，提供一定级别(level)的空间方面(spatial aspect)，具体取决于麦克风的放置及其特性(例如方向性)。

使用立体声麦克风捕获音频信号的一个选项是使用耳塞(或一般头戴式耳机)来捕获立体声双声道音频信号，因为它们现在通常用于录制和回放(playback)音频。在某些情况下，耳塞仅用于形成单声道音频信号，但在某些情况下也可以捕获立体声音频信号。由于耳塞位于人的耳朵中，因此产生的信号是双声道音频信号，提供空间音频播放。

在这样的实施方式中，使用双声道麦克风(例如，安装在耳道位置处的耳机(earphone)上的立体声麦克风)能够实现有效的空间音频捕获。用户A的双声道捕获的声音可以传输到戴着头戴式耳机的远程用户B，提供空间音频的沉浸式感知，就好像用户B正在用户A的位置聆听一样。空间音频包含附近的声源(例如，讲话者)、房间混响(reverberation)、环境和其他声音，所有这些都位于其相对于用户A的适当空间位置。

然而，当用户A讲话时，捕获的音频信号在回放给用户B时会产生语音由用户B感知就好像用户A的语音源自用户B的头部内部一样的效果。这是不自然的，使得这样的传统双声道捕获不适合沉浸式电话会议(teleconferencing)。此外，如果电话会议中有多人用双声道麦克风捕获其声音，它们都会被认为源自同一位置(即头部内部)，从而导致多人同时讲话时语音清晰度(intelligibility)较低。

因此，双声道捕获的声音的直接传输和再现不适合沉浸式电话会议。然而，由于包含麦克风的耳塞式耳机和类似的头戴式耳机变得越来越普遍，因此需要使用带麦克风的头戴式耳机进行沉浸式电话会议。仅使用耳塞式耳机就能够捕获和再现空间音频对于电话会议使用中的用户来说很方便，因为它不需要任何额外的设备。

尽管有一些技术可以将用户的语音提取为单声道信号，并例如使用头部相关传输功能(HRTF)将单声道信号传输并双声道化(binauralize)到任何方向，但这些技术丢弃了双声道声音中存在的所有其他空间方面，例如空间中的自然混响和/或环境声音。结果，当听者体验到所捕获的空间音频时所产生的沉浸效果将会降低，因为将仅渲染捕获设备用户的语音，而在捕获空间中没有任何自然混响，并且没有任何环境声音或环境中的其他声音。

在某些情况下，例如当用户想要传输“身临其境的感觉”时，渲染混响、环境声音和环境中的其他声音很重要。这种事件体验是捕获设备的用户通常所追求的目标。在其他一些情况下，仅需要适度级别的环境和混响，特别是当语音清晰度是通信的最重要方面时。因此，除了能够再现捕获空间的自然混响和环境声音之外，捕获的音频信号还应能够以可控的方式再现，以满足不同通信场景的需求。

本文实施例所讨论的概念是被配置为生成编码空间音频流的装置和方法，该编码空间音频流使得能够利用双声道麦克风(例如附接至头戴式耳机的麦克风)进行各种比特率的沉浸式电话会议，其中用户的语音能够被适当地空间化(到期望的方向)，并且其中剩余的(环境)声音(即，用户的语音以外的声音)被适当地保留和再现(以期望的级别)。

在一些实施例中，装置和方法被配置为根据使用用户耳朵处或附近(例如附接在头戴式耳机中)的麦克风捕获的音频来生成空间音频流。在这些实施例中，提供了一种处理器，其被配置为从捕获的麦克风信号提取用户的语音分量，并且还从捕获的麦克风信号提取剩余信号(即，不包含用户的语音)。

本文进一步详细描述的实施例实现了允许将用户的语音传输并渲染到可控方向(和距离)的空间音频流的生成，以及捕获的环境音频内容的可控(由用户或由系统自动)渲染以使得能够例如使用带麦克风的头戴式耳机(例如耳塞式耳机)进行空间电话会议等。

在这样的实施例中，空间音频流的生成将语音信号提取为单耳信号，并从该单耳信号生成音频对象(可选地具有默认方向)，提取剩余信号作为双声道信号(即，原始捕获的双声道特征被保留)，并对音频对象和双声道信号进行编码以形成空间音频流。

此外，在一些实施例中，从使用在用户耳朵处或附近(附接在例如头戴式耳机中)的麦克风捕获的音频生成参数化空间音频流(传输音频信号和空间元数据)。在这些实施例中，提供了一种处理器，其可以从捕获的麦克风信号提取用户的语音，并且还从捕获的麦克风信号提取剩余信号(即，不包含用户的语音的音频分量)。然后，这些语音和剩余分量可用于生成参数化空间音频流(其可以有效地被编码并渲染到包括头部跟踪双声道音频在内的各种输出)，其中用户的语音可以定位到可控方向并且可以以可控的(由用户或由系统自动)方式添加捕获的环境音频内容，以使得能够例如使用带有麦克风的头戴式耳机(例如，耳塞式耳机)进行空间电话会议。

在一些实施例中，该装置被配置为分别对语音和环境进行编码(例如通过分别地对音频对象和双声道环境进行编码)。在这样的实施例中，使得能够进行语音和可控环境音频内容的可控方向(如果不是必须实现或采用)并且在远程解码器处被控制。然而，在一些实施例中，语音和环境的控制在编码器设备处实现。在这样的实施例中，在实现控制(修改)之后，受控或修改的语音和环境可能以进行混音形式(MASA)被传送到远程。在这样的实施例中，可以不实现在远程设备处控制方向和环境。

这些实施例被配置为通过如下方式来实现这一点：提取语音信号作为单声道信号并提取剩余信号作为立体声信号、使用提取的信号和至少一个控制(例如，期望方向)确定参数化空间元数据、对音频信号进行混音以产生传输音频信号、并且基于空间元数据和传输音频信号确定空间音频流。

在本文的描述中，术语“音频信号”可以指具有一个通道的音频信号或具有多通道的音频信号。当涉及指定信号具有一个或多个通道时，被明确说明。此外，术语“音频信号”可以表示信号是任何形式，例如编码或非编码形式，例如定义信号波形的值或频谱值的序列。

关于图1示出了用于实现一些实施例的示例装置。在图1所示的示例中，示出了经由有线或无线连接113与移动电话101的用户佩戴的头戴式耳机119耦合的移动电话101。在下文中，示例设备或装置是如图1所示的移动电话。然而，示例装置或设备还可以是任何其他合适的设备，例如平板电脑、膝上型计算机、计算机或任何电话会议设备。该装置或设备还可以是头戴式耳机本身，使得例示的移动电话101的操作由该头戴式耳机执行。

在该示例中，移动电话101包括处理器103。处理器103可以被配置为执行各种程序代码，例如本文描述的方法。处理器103被配置为使用有线或无线头戴式耳机连接113与头戴式耳机119通信。在一些实施例中，有线或无线头戴式耳机连接113是蓝牙5.3或蓝牙LE音频连接。连接113从处理器103提供要用头戴式耳机再现给用户的两通道音频信号115。连接113还从头戴式耳机119向处理器103提供两通道音频信号117，其中两个音频信号源自用户左耳和右耳附近的头戴式耳机处的麦克风。头戴式耳机的每个听筒(earpiece)处可以有一个或多个麦克风，从这些麦克风导出两个音频信号。

头戴式耳机119可以是如图1所示的耳罩式(over-ear)头戴式耳机，或者任何其他合适的类型，例如入耳式(in-ear)或骨传导(bone-conducting)头戴式耳机，或者任何其他类型的头戴式耳机。在一些实施例中，头戴式耳机119具有向处理器103提供头部取向(orientation)信息的头部取向传感器。在一些实施例中，头部取向传感器与头戴式耳机119分离并且数据被单独地提供给处理器103。在另外的实施例中，头部取向通过其他方式来跟踪，例如使用设备101相机和基于机器学习的面部取向分析。在一些实施例中，不跟踪头部取向。

在一些实施例中，处理器103与存储器105耦合，存储器105具有提供根据以下实施例的处理指令的程序代码107。程序代码107具有用于将头戴式耳机119处的麦克风捕获的双声道音频信号117处理成适合于有效编码和远程装置处的沉浸式解码的经处理的形式的指令。这些经处理的的音频信号从处理器103提供到收发器111到远程解码装置，和/或在一些情况下，存储到存储设备109以供以后使用。

收发器可以通过任何合适的已知通信协议与另外的装置通信。例如，在一些实施例中，收发器可以使用基于以下技术的合适的无线电接入架构：高级长期演进(高级LTE，LTE-A)或新无线电(NR)(或可以称为5G)、通用移动电信系统(UMTS)无线电接入网(UTRAN或E-UTRAN)、长期演进(LTE，与E-UTRA相同)、2G网络(传统网络技术)、无线局域网(WLAN或Wi-Fi)、全球微波互操作性接入(WiMAX)、个人通信服务(PCS)、/>宽带码分多址(WCDMA)、使用超宽带(UWB)技术的系统、传感器网络、移动自组织网络(MANET)、蜂窝物联网(IoT)RAN和互联网协议多媒体子系统(IMS)、任何其他合适的选项和/或其任何组合。

程序代码107还可以包括经训练的机器学习网络。机器学习网络在推理时本质上是多个定义的处理步骤，因此与和传统程序代码相关的处理指令基本上没有什么不同。不同之处在于，传统程序代码的指令在编程时被更明确地定义。另一方面，机器学习网络是通过组合一组预定义的处理块(例如，卷积、数据归一化、其他运算器)来定义的，其中网络的权重在网络定义时是未知的。然后通过向网络提供大量的输入和参考数据来优化网络的权重，然后网络权重收敛，从而网络学习解决给定的任务。然而，在运行时(在图1的装置101处)，网络是固定的，并且因此在它们简单地包括一组处理指令的意义上对应于任何其他程序代码。

经处理的的音频比特流的远程接收器(或回放设备)可以是与图1所示的装置和头戴式耳机系统相似或完全相同的系统。在回放设备中，来自收发器的编码音频信号被提供给处理器被解码并渲染为双声道空间声音，以被转发(通过有线或无线头戴式耳机连接)到头戴式耳机，再现给听者(用户)。

另外，对于回放设备，可能涉及头部跟踪。在这种情况下，回放设备处理器接收来自收听者(用户)的头部取向信息，并且基于头部取向信息来改变处理，如以下实施例中所例示的。

在一些实施例中，该设备包括用户接口(未示出)，其在一些实施例中可以耦合到处理器。在一些实施例中，处理器可以控制用户接口的操作并从用户接口接收输入。在一些实施例中，用户接口可以使得用户能够例如经由键盘(keypad)向设备输入命令。在一些实施例中，用户接口可以使得用户能够从设备获得信息。例如，用户接口可以包括被配置为向用户显示来自设备的信息的显示器。在一些实施例中，用户接口可以包括触摸屏或触摸接口，其能够使得信息能够被输入到设备并且进一步向设备的用户显示信息。在一些实施例中，用户接口可以是用于通信的用户接口。

关于图2示出了关于捕获方面的处理器103的示意图，其中基于从头戴式耳机119捕获的双声道音频信号生成编码比特流。图6还示出了关于对应的远程解码器/回放装置的处理器的示意图。应当理解，在一些实施例中，当从远程设备接收回另一编码空间音频流时，单个装置可以执行根据图2以及图6的处理。

在如图2所示的一些实施例中，处理器被配置为接收从如图1所示的头戴式耳机119处的麦克风获得的双声道音频信号200作为输入。

此外，在一些实施例中，处理器103还包括时频变换器201，其被配置为接收双声道音频信号200并对它们进行变换以生成时频双声道音频信号202。在一些实施例中，时频变换器201由短时傅立叶变换(STFT)实现，其被配置为获得麦克风音频信号的1024个样本的帧，将该帧与之前的1024个样本连接(concatenate)，将2*1024长度Hann窗口的平方根(square-root)应用于连接的帧，并对结果应用快速傅立叶变换(FFT)。在其他实施例中，可以采用其他时频变换(例如复调制正交镜像滤波器组)或其低时延变体。时频双声道音频信号202可被标示为S(b,n,i)，其中b是频率仓(bin)索引，n是时间索引并且i是通道索引。时频双声道音频信号202还可被标示为列向量形式

一些实施例中的处理器还包括语音提取器203。语音提取器203被配置为接收时频双声道音频信号202并生成语音单声道时频音频信号206和剩余双声道时频音频信号208。在以下示例中，语音提取器203被配置为使用经训练的网络204(其可以存储在设备的存储器中)来从时频双声道音频信号202提取语音单声道时频音频信号206和时频剩余双声道音频信号208，其是基本上去除或衰减了语音音频信号的双声道音频信号。然而，在一些实施例中，可以应用其他语音检测和提取方法。

在以下示例中，时频语音单声道音频信号206中的术语语音指的是佩戴带具有麦克风的头戴式耳机的人的语音，而附近的其他讲话者被认为是时频剩余双声道音频信号208的一部分。在其他实施例中，在时频语音单声道音频信号206内捕获至少一个另外的讲话者(用户附近)。时频语音单声道音频信号206和时频剩余双声道音频信号208被提供给逆时频变换器205、207。

在一些实施例中，处理器包括逆时频变换器205，其被配置为接收时频语音单声道音频信号206并应用与在时频变换器201处应用的变换相对应的逆变换以生成语音单声道音频信号210。

另外，处理器可以包括另一逆时频变换器207，其被配置为接收时频剩余双声道音频信号208并应用与在时频变换器201处应用的变换相对应的逆变换以生成剩余双声道音频信号212。

由于逆时频变换器应用与在时频变换器201处应用的变换相对应的逆变换，因此实现方式也可以对应，例如逆变换器可以是逆STFT，其中变换器是STFT。然后可以将语音单声道音频信号210和剩余双声道音频信号212提供给编码器209。

在一些实施例中，处理器还包括编码器209。编码器209被配置为接收并编码所接收的语音单声道音频信号210和剩余双声道音频信号212，以生成可以输出的编码音频信号216。

在一些实施例中，编码器209还被配置为获得可被嵌入到编码音频信号216中的语音位置214输入。

可以采用任何合适的编码器作为该编码器。例如，IVAS编码器可被用于实现编码器209的功能。语音单声道音频信号210连同可选语音位置214可以被编码为音频对象，并且剩余双声道音频信号212可以被编码为立体声信号。在该示例情况下，编码音频信号216是IVAS比特流。

在一些实施例中，语音单声道音频信号210和剩余双声道信号212的两个通道可以使用增强语音服务(EVS)的各个实例来编码(即，存在要编码的三个通道)，并且得到的比特流可以嵌入在一起以形成编码音频信号216。语音位置214还可以嵌入在该流中，或者可以将其省略并且不编码或发送(在这种情况下，可以在解码器/回放设备中确定语音位置)。

然后编码音频信号216可以从编码器209输出并且使用收发器111提供给远程解码器。

关于图3，根据一些实施例示出了示出图2所示的处理器的操作的示例流程图。

该处理器可以接收来自麦克风的双声道音频信号，如301所示。

双声道音频信号可以被变换为时频双声道音频信号，如303所示。

该方法然后可以包括获得经训练的网络信息(用于提取语音分量)，如305所示。

然后可以提取语音分量并生成时频语音单声道音频信号和时频剩余双声道音频信号，如307所示。

然后，可以对时频语音单声道音频信号和时频剩余双声道音频信号进行逆时频变换，如309和311所示。

此外，可选地，获得语音位置和/或方向，如312所示。

然后可以对时域语音单声道音频信号和双声道音频信号(以及语音位置/方向)进行编码，如313中所示。

最后输出编码音频信号，如315所示。

关于图4，示出了根据一些实施例的图2中所示的语音提取器203的示例实现。

如前所述，语音提取器203被配置为执行从时频双声道音频信号202提取佩戴头戴式耳机的人的语音。该语音还可以被均衡以说明(account for)语音来自佩戴头戴式耳机的人，并且如与传统录音相比，语音频谱受到损害。语音提取器还可以被配置为提供剩余信号，其中(佩戴头戴式耳机的人的)语音已被基本上去除。

在下面的示例中，波束成形用于提取语音，但更简单的技术也适用于提取语音信号。所提出的实施方式旨在提供这样的好处：语音信号(和剩余信号)之间的通道间关系可以是任何东西，并且该方法仍然可以提取语音和剩余输出。例如，假设主讲话者双声道捕获的语音声音由于头戴式耳机对称性而在两个通道上相位匹配的系统，在当用户将(头顶式(overhead))头戴式耳机的一侧移离耳朵或取下一只耳塞式耳机(例如，让讲话者直接听到其音频场景中发生的事情)时，性能会降低。

在一些实施例中，语音提取器203包括第一语音掩模估计器401。第一语音掩模估计器401被配置为接收时频双声道音频信号202以及第一经训练的网络400输入。在一些实施例中，第一经训练的网络400和稍后描述的第二经训练的网络402是相同的经训练的网络并且稍后将进一步详细描述，然而，在一些实施例中，这些网络可以是不同的或不同地训练的。第一语音掩模估计器401被配置为首先估计网络输入数据I(n,k)，其是对数频率标度中以分贝为单位的归一化频谱图。首先，能量被估计为

其中b_low(k)和b_high(k)是频带k的最低和最高频率仓的索引。频带可以例如遵循ERB或Bark(巴克)标度，或任何其他合适的标度，例如如本示例中所提供的对数标度的96个频带。

然后，第一语音掩模估计器401被配置为：为每个频带独立地，例如通过保持在最后64个时间索引(即，对于范围n-63,…,n)上的值E_dB(n,k)并选择其中最大的一个来获得最大值E_{dB_max}(n,k)。还获得了下限E′_dB(n,k)，其可以由下式表示：

E′_dB(n,k)＝max(E_dB(n,k),E_{dB_max}(n,k)-60)

然后，平均值(mean)由下式表示

E′_{dB_mean}(n,k)＝(1-α)E′_dB(n,k)+αE′_{dB_mean}(n-1,k)

其中α是IIR平均因子，例如0.99，并且E′_{dB_mean}(0,k)＝0。

方差(variance)还可以由下式表示：

E′_{dB_var}(n,k)

＝(1-α)[E′_dB(n,k)-E′_dBmFan(n,k)]²+αE′_{dB_var}(n-1,k)

其中且E′_{dB_var}(0,k)＝0。

标准差(standard deviation)可以确定为

那么网络输入数据就是

使用第一经训练的网络400来处理网络输入数据。稍后描述在离线阶段经训练的网络的细节。

第一经训练的网络基于I(n,k)生成输出O₁(n,k)，其是提供给语音和剩余分离器403的第一语音掩模(语音掩模(1))。

在一些实施例中，掩模被修改，使得语音掩模强调佩戴麦克风的讲话者的语音并且弱化任何其他讲话者。这可以通过如下方式来实现：在O₁(n,k)较大的时频实例处监控时频双声道信号S(b,n,i)并且然后当S(b,n,i)的交差相关分析(cross-correlationanalysis)指示通道之间的相干分量明显远离中心(即明显不同相(in phase))时将O₁(n,k)减小到零或接近零。在一些实施例中，也可以在网络估计第二语音掩模O2(n,k)的稍后阶段采用类似的处理。在一些实施例中，网络可以被训练来例如通过利用这些不同讲话者之间的频谱差异区分佩戴头戴式耳机的主要讲话者并将其他讲话者视为“非语音”。

在一些实施例中，示例第一经训练的网络的输入是I(n,k)的所有频谱值和20个最新时间索引。换句话说，第一语音掩模估计器401被配置为存储该数据以使其可用于通过网络进行处理。

在一些实施例中，语音提取器203还包括语音和剩余分离器403，其被配置为接收第一语音掩模O₁(n,k)404和时频双声道音频信号S(b,n,i)202并通过下式生成时频经掩模处理的语音音频信号406

S_speechM(b,n,i)＝S(b,n,i)O₁(n,k)

其中频带k是仓b所在的频带。语音和剩余分离器403还被配置为通过下式生成时频经掩模处理的剩余音频信号408：

S_remainderM(b,n,i)＝S(b,n,i)(1-O₁(n,k))

其中频带k是仓b所在的频带。

在一些实施例中，语音提取器203包括语音导向向量估计器405，其被配置为接收时频经掩模处理的语音音频信号406并且基于其估计导向向量412。首先，语音协方差矩阵由下式表示

其中γ_s是时间平滑系数(具有例如0.8的值)，C_s(b,0)可以是零矩阵，并且s_speechM(b,n)是在其行中具有信号S_speechM(b,n,i)的通道的列向量。然后，语音导向向量估计器405可以被配置为对C_s(b,n)应用特征分解(eigendecomposition)，并获得与最大特征值(eigenvalue)对应的特征向量(eigenvector)u(b,n)。然后，特征向量相对于其第一通道被如下归一化：

其中u(b,n,1)是u(b,n)的第一行条目。向量v(b,n)是语音信号的估计导向向量并且在其行处包含导向向量值V(b,n,i)。然后可以输出导向向量412。在本公开中，向量形式v(b,n)以及条目形式V(b,n,i)两者都用于标示导向向量。

在一些实施例中，语音提取器203包括剩余协方差矩阵估计器407，其被配置为接收时频经掩模处理的剩余音频信号408并基于其如下估计剩余协方差矩阵410：

其中γ_r是时间平滑系数(具有例如0.8的值)，C_r(b,0)可以是零矩阵并且s_remainderM(b,n)是在其行处具有信号S_remainderM(b,n,i)的通道的列向量。然后可以输出剩余协方差矩阵C_r(b,n)410。

在一些实施例中，语音提取器203包括波束成形器409，其被配置为接收时频双声道音频信号202、导向向量412和剩余协方差矩阵410并对时频双声道音频信号202执行波束成形。波束成形器409在一些实施例中被配置为应用例如已知的MVDR公式来获得波束成形权重

在一些实施例中，矩阵逆可以是正则化的矩阵，例如通过使用对角加载。然后，波束成形器409被配置为通过下式将波束成形权重应用于时频信号：

S_beam(b,n)＝w^H(b,n)s(b,n)

其中s(b,n)是在其行处具有信号S(b,n,i)的通道的列向量。波束成形器409被配置为输出时频波束音频信号S_beam(b,n)414。

在一些实施例中，语音提取器203包括被配置为接收时频波束音频信号S_beam(b,n)414和第二经训练的网络402(经训练的网络(2))的第二语音掩模估计器411。如前所述，第二经训练的网络402和第一经训练的网络400可以是相同的经训练的网络。第二语音掩模估计器411的操作可以与第一语音掩模估计器401的操作相同，除了输入信号不同并且其仅具有一个通道之外。第二语音掩模估计器411然后被配置为输出第二语音掩模O₂(n,k)416作为其输出。

在一些实施例中，语音提取器203包括增益处理器413，其被配置为接收时频波束音频信号S_beam(b,n)414和第二语音掩模O₂(n,k)416。增益处理器413被配置为以与块语音和剩余分离器403在生成时频经掩模处理的语音音频信号406时用第一语音掩模404处理时频双声道音频信号202相同的方式，用该掩模处理时频束音频信号414。因此，该处理可以描述为

S_{speecQ_mono}(b,n)＝S_beam(b,n)O₂(n,k).

其中频带k是仓b所在的频带。S_{speecQ_mono}(b,n)是未均衡的时频语音单声道音频信号418，然后将其输出。

在一些实施例中，语音提取器203包括语音定位器417，其被配置为获得未均衡的时频语音单声道音频信号S_{speech_mono}(b,n)418和导向向量V(b,n,i)412并且如下生成时频定位语音音频信号420

S_{speech_pos}(b,n,i)＝S_{speech_mono}(b,n)V(b,n,i)

然后可以将时频定位语音音频信号420提供给减法器419。

在一些实施例中，语音提取器203包括减法器419，其被配置为接收时频定位语音信号S_{speePh_pos}(b,n,i)420和时频双声道音频信号S(b,n,i)202，并如下生成时频剩余双声道音频信号S_remainder(b,n,i)208(其以向量形式被标示为s_remainder(b,n))

S_remainder(b,n,i)＝S(b,n,i)-S_{speePh_pos}(b,n,i)

因此，减法器419的输出是时频剩余双声道音频信号s_remainder(b,n)208。

在一些实施例中，语音提取器203包括均衡器415，其被配置为接收未均衡的时频语音单声道音频信号S_{speech_mono}(b,n)418并且对其应用预定均衡增益

S_speech(b,n)＝g_main(b)S_{speech_mono}(b,n)

其中g_main(b)是主要讲话者(佩戴带有双声道麦克风的头戴式耳机的用户)均衡增益。增益g_main(b)可以通过如下方式来确定：用双声道麦克风录制语音并用讲话者前面具有平坦频率特性的外部参考麦克风录制相同的语音，然后找到适合第一个到第二个的频谱的均衡增益g_main(b)。然后从均衡器输出时频语音单声道音频信号S_speech(b,n)206。

关于图5，示出了根据一些实施例的图4中所示的示例语音提取器的操作的流程图。

如501所示，获得或接收时频双声道音频信号和经训练的网络。

然后估计时频双声道音频信号的(第一)语音掩模，如503所示。

然后基于将第一语音掩模应用于时频双声道音频信号来分离语音和剩余分量，如505所示。

然后估计语音导向向量，如507所示。

此外，估计剩余协方差矩阵，如509所示。

如511所示，该方法然后能够基于导向向量和剩余协方差矩阵对时频双声道音频信号进行波束成形。

然后估计时频波束成形音频信号的(第二)语音掩模，如513所示。

然后，基于第二语音掩模对时频波束成形的音频信号进行增益处理，以产生(未均衡的)时频语音单声道音频信号，如515所示。

然后对(未均衡的)时频语音单声道音频信号进行均衡以生成时频语音单声道音频信号，如517所示。

还基于导向向量定位(未均衡的)时频语音单声道音频信号，如519所示。

从时频双声道音频信号中减去这些时频定位语音音频信号，以生成时频剩余双声道音频信号，如521所示。

参考图6示出了图1中所示的处理器作为接收器/回放装置或设备进行操作的示意图。

在一些实施例中，接收器包括解码器，其被配置为接收或获得编码音频信号600(如图2所示，其可以是发送给远程指定参考216的编码音频信号)并且还被配置为对编码音频信号600进行解码以生成语音单声道音频信号602和剩余双声道音频信号606。在一些实施例中，解码器601还可选地被配置为生成语音位置元数据604。

在一些实施例中，接收器还可以包括时频变换器603、605，其被配置为接收语音单声道音频信号602和剩余双声道音频信号606并且生成时频语音单声道音频信号608和时频剩余双声道音频信号610。

此外，接收器可以包括空间处理器607。空间处理器607被配置为接收时频语音单声道音频信号608和时频剩余双声道音频信号610。此外，并且可选地，在一些实施例中，空间处理器607被配置为接收语音位置元数据604、环境控制612和头部取向数据614。

当接收到的语音位置元数据不可用或未被使用时，空间处理器被配置为将语音源设置在与收听者相关的定义方向或位置。该预定或默认方向或位置可以是例如正面方向、屏幕方向、讲话者图像所在的屏幕部分的方向。该方向还可以以任何其他合适的方式来定义或设置，例如由(听者)用户手动定义或设置。因此，声音方向DOA(n)可从语音位置元数据604或以其他方式获得。

此外，当头部取向数据614可用时，其可用于旋转DOA(n)值以考虑头部移动。例如，当DOA(n)指向前方(0度)时，当用户向左旋转头部90度时，则DOA(n)变为-90度。除了偏航(yaw)之外，旋转还可以包括俯仰(pitch)轴和横滚(roll)轴，以及6DOF意义上的移动，例如当用户相对于计算机屏幕向侧面移动时，方向就会对应地被更新。

在下面的表示中，S_speecQ(b,n)是时频语音单声道音频信号608。注意，由于编码和解码，语音信号可能不同于编码之前的语音信号。然而，信号基本上相同，因此为了清楚起见使用相同的符号表示(notation)。时频剩余双声道音频信号610还被标示为s_remainder(b,n)。类似地，由于编码和解码，时频剩余双声道音频信号可能不同于编码之前的时频剩余双声道音频信号。然而，如上所述，两个音频剩余音频信号基本上相同，因此为了清楚起见，使用相同的符号表示。可以如下生成时频双声道经处理的音频信号616：

s_binaural(b,n)＝g_sh(b,DOA(n))S_speecQ(b,n)+g_rs_remainder(b,n)

其中g_s和g_r是可用于控制语音和剩余声音的级别的增益，例如，根据语音声音的期望距离，或者在优化语音的清晰度的方面。h(b,DOA(n))是指仓b和DOA(n)的头部相关传输函数(HRTF)。它是一个具有两行的列向量，在其行处具有左右复数HRTF增益。然后可以将时频双声道经处理的音频信号616提供给逆时频变换器609。

在一些实施例中，接收器包括逆时频变换器，其被配置为输出提供给头戴式耳机以回放给用户的双声道经处理信号618。

在一些实施例中，空间处理器607被配置为基于环境控制612来控制语音和剩余部分的级别，例如增益g_s和g_r。该环境控制612信息可以从用户获得，或者它例如可以从回放设备自动获得。在其他实施例中，可以使用存储在空间处理器中的默认值。

此外，关于图7，示出了根据一些实施例的图6所示的示例装置的操作的流程图。

因此，如701所示，获得编码音频信号(从编码器或者如上所述的远程设备)并且可选地还获得其他输入，例如环境控制和头部取向。

然后，如703所示，对获得的编码音频信号进行解码以生成语音单声道和剩余双声道音频信号(以及可选的语音位置/方向元数据)。

然后，如705所示，对语音单声道音频信号和剩余双声道音频信号进行时频变换，以生成时频语音单声道音频信号和时频剩余双声道音频信号。

然后如707所示，对时频音频信号、时频语音单声道音频信号和时频剩余双声道音频信号进行空间处理，以生成时频双声道经处理的音频信号。

然后对时频域双声道经处理的音频信号进行逆时频变换，以生成双声道经处理的音频信号，如709所示。

然后将双声道经处理的音频信号输出到头戴式耳机，如711所示。

关于图8，示出了作为捕获/编码器装置或设备操作的处理器，其在操作模式下操作，其中生成的编码音频信号是MASA流(或任何其他合适的参数化空间音频流)，其中语音音频信号是与剩余双声道信号一起提供。

处理器被配置为接收从头戴式耳机119处的麦克风获得的双声道音频信号200作为输入，如图1所示。

此外，在一些实施例中，处理器103还包括时频变换器201，其被配置为接收双声道音频信号200并对它们进行变换以生成时频双声道音频信号202。时频变换器与关于图2所示的示例描述的时频变换器相同。

此外，在一些实施例中，处理器还包括语音提取器203。语音提取器203被配置为接收时频双声道音频信号202以及经训练的网络204，并且以与关于图2所讨论的相同的方式从其生成时频语音单声道音频信号206和时频剩余双声道音频信号208。

在一些实施例中，处理器包括传输信号和空间元数据确定器805，其被配置为从语音提取器203接收时频语音单声道音频信号S_speech(b,n)206和时频剩余双声道音频信号s_remainder(b,n)208。在一些实施例中，确定器805还被配置为接收语音位置/方向DOA(n)信息822。语音位置/方向信息822可以从用户获得，或者可以例如从捕获设备自动获得。

确定器可以首先应用增益来通过下式控制语音和剩余信号的级别：

S′_speech(b，n)＝g_sS_speech(b,n)

s′_remainder(b,n)＝g_rs_remainder(b,n)

其中增益可以例如根据声音要渲染的距离来设置。例如，当距离被增加时，g_s可能变小。在一些配置中，相对于语音声音简单地降低剩余部分的级别以提高清晰度。

在一些实施例中，确定器805还被配置为还获得环境控制800的可选输入。环境控制800可以包括用于控制语音和剩余部分的级别的信息，例如，增益g_s和g_r。该信息可以从用户处获得，或者可以例如从捕获设备自动获得。在其他实施例中，可以使用存储在确定器805中的默认值。

时频传输音频信号804可以如下生成：

s_transport(b，n)＝p(DOA(n))S′_speePh(b，n)+s′_remainder(b,n)

其中p(DOA(n))是具有根据DOA(n)的平移增益(panning gains)的列向量。例如，平移函数可以是

其中DOA_y(n)是指向DOA(n)的单位向量的y轴分量。时频传输音频信号804可以被提供给逆时频变换器807。

确定器805还被配置为生成空间元数据802作为输出。在一些实施例中，空间元数据802是MASA空间元数据，从而将所有频带k的方向值设置为DOA(n)，即

DOA(k,n)＝DOA(n).

此外，直接能量与总能量比由下式确定：

其中b_low(k)和b_high(k)是频带k的底部和顶部频率仓。该比值的上限可以为1，因为在上面的公式中，根据信号相位关系，该比率有可能稍微超过1。

在一些实施例中，MASA元数据的其他参数可被设置为零(例如，相干性)，或任何合适的值(例如，扩散度可被确定为1-ratio(k,n))。

空间元数据802被提供给编码器809块。

在一些实施例中，处理器包括逆时频变换器807，其被配置为接收时频传输音频信号804并应用与在时频变换器201处应用的变换相对应的逆变换以生成传输音频信号806。

在一些实施例中，处理器还包括编码器809。编码器809被配置为接收传输音频信号806和空间元数据802并对其进行编码以生成编码音频信号808并且可以将其输出。因此，编码器应用合适的编码，例如在传输音频信号806和空间元数据802是MASA流的形式的情况下，IVAS编码器可以用于对它们进行编码。可以采用任何合适的编码器作为编码器。

然后编码音频信号808可以从编码器809输出并且使用收发器111提供给远程解码器。

关于图9，根据一些实施例示出了示出图8所示的处理器的操作的示例流程图。

处理器可以接收来自麦克风的双声道音频信号，如301所示。

另外可选地，然后还获得环境控制，如308所示。

进一步地，还可以获得语音位置，如908所示。

然后确定时频传输音频信号和空间元数据，如909所示。

然后可以对时频传输音频信号进行逆时频变换，如911所示。

然后可以对时域传输音频信号和元数据进行编码，如913所示。

最后输出编码音频信号，如915所示。

关于图10，示出了图1所示的处理器作为接收器/回放装置或设备操作并被配置为接收图8提供的编码信号的示意图。

在一些实施例中，接收器包括解码器，其被配置为接收或获得编码音频信号1060，并且还被配置为对编码音频信号1060进行解码(编码音频信号是从编码器接收的，并且其在图8中也被称为附图标记808)。解码器1001被配置为与图6中描述的解码器不同地操作。不是生成单独的语音和双声道信号，而是生成解码的传输音频信号1002，其包括语音和其他双声道声音两者。

此外，空间元数据1000被解码为具有频带中的空间信息作为比特流的一部分并且被提供给空间处理器1005。例如，在使用IVAS编码器在捕获侧对MASA流进行编码的情况下，解码器1001可以作为IVAS解码器来实现。

此外，在一些实施例中，接收器还可以包括时频变换器1003，其被配置为接收传输音频信号1002并生成时频传输音频信号1004。

此外，接收器可以包括空间处理器1005。空间处理器1005被配置为接收时频传输音频信号1004和空间元数据1000(以及可选地头部取向数据1006)。在一些实施例中，时频传输音频信号1004和空间元数据1000被同步，其中TF变换器1003产生音频路径相对于元数据路径的时延。在一些实施例中，这可以通过采用对空间元数据的时延来实现，该时延与在时频传输音频信号1104到达空间处理器1006时由时频变换器1003音频引起的时延相同。

以类似的方式，空间元数据802可以在输入到图8所示的编码器809之前被延迟，以便使空间元数据与传输音频信号806同步，其中逆时频变换器807引起传输音频信号806相对于空间元数据802的时延。

空间处理器1005可以基于任何合适的方式来实现。空间处理器1005本身可以实现在以下中详述的方法：Vilkamo,J.,T.,&Kuntz,A.(2013).Optimizedcovariance domain framework for time-frequency processing of spatial audio(用于空间音频的时频处理的优化协方差域框架).Journal of the Audio EngineeringSociety(音频工程学会杂志),61(6),403-411,Vilkamo,J.,&Pulkki,V.(2013).Minimization of decorrelator artifacts in directional audio coding bycovariance domain rendering(通过协方差域渲染来最小化定向音频编码中的解相关器伪影).Journal of the Audio Engineering Society(音频工程学会杂志),61(9),637-646,以及PCT申请WO2019086757，其中操作步骤为：确定频带内时频传输音频信号的输入协方差矩阵；确定频带内的总能量值，即输入协方差矩阵的迹(trace)；基于空间元数据和总能量值确定频带内的目标协方差矩阵；基于频带内的输入和目标协方差矩阵确定混音矩阵；将混音矩阵应用于时频传输音频信号。参考文献NC104083提供了新颖的空间音频参数扩展相干性和环绕相干性，其在这些实施例实施方式中可以均被假设为零。

因此，概括来说，在一些实施例中，处理器被配置成根据协方差矩阵来确定输出声音的空间属性(例如，双声道声音在不同频率下具有一定的能量、互相关性和相位差)，然后确定最小二乘优化解决方案以实现声音的此类属性。如果传输音频信号中独立的显著信号分量太少，则可以通过类似的基于协方差矩阵的混音操作将去相关声音混音到适当的程度。

在一些实施例中，空间处理器被配置为使用头部取向数据来基于头部取向数据来旋转空间元数据的方向值。例如，如果空间元数据指示前方的方向，但是用户将头部向右旋转30度，则空间元数据方向将被更新为向左30度。此外，在一些实施例中，可以基于头部取向数据来处理传输音频信号。例如，如果用户面向后方，则左传输音频信号和右传输音频信号可以被处理以相互替换(彼此切换)。

然后可以将双声道经处理的时频音频信号1008提供给逆时频变换器1007。

在一些实施例中，接收器包括逆时频变换器1007，其被配置为输出提供给头戴式耳机以回放给用户的双声道处理信号1010。

应当注意，在一些实施例中，解码器包括本文描述的所有特征。例如，IVAS解码器可以将编码的IVAS流(其可以源自MASA流)解码并渲染为双声道输出。

此外，关于图11，示出了根据一些实施例的图10中所示的示例装置的操作的流程图。

因此，如701所示，获得编码音频信号(来自编码器)和可选的头部取向。

然后如1103所示，对获得的编码音频信号进行解码，生成传输音频信号。

然后传输音频信号被时频变换，如1105所示。

如1107所示，然后基于空间元数据(以及可选的头部取向)对时频传输音频信号进行空间处理。

然后对时频双声道经处理的音频信号进行逆时频变换，生成双声道经处理的音频信号，如1009所示。

然后将双声道经处理的音频信号输出到头戴式耳机，如1011所示。

在一些实施例中，捕获装置产生增强的双声道信号或MASA流作为输出。设备的用户可能有意与其他人或设备共享他们当前所在空间的对话。为了与远程方进行平衡的对话，用户自己的声音(距麦克风距离较近)应相对于其他人的声音(距麦克风较远)被衰减。在一些实施例中，这可以通过使用可用于控制语音和剩余部分的级别的增益g_s和g_r来实现。增益可以被设置为使得用户的语音的响度(loudness)与其他人的语音的响度匹配。或者，用户可以开启“环境(ambient)”模式，其中用户自己的语音相对于环境声音被衰减，并且在其他情况下，用户可以开启“自己的语音(own speech)”模式，其中环境被衰减并且用户自己的语音被集中。

这可以在一些实施例中实现并应用于解码设备中。在一些实施例中，双声道信号可以在捕获侧被渲染(没有编码/解码操作)，并且双声道信号可以被发送(在编码之后)。在一些实施例中，这种处理可以应用于实现分别如图4和图5所示的捕获/回放装置的实施例。

关于图12，示出了示例处理效果。在上面的行1201和1207中，示出了系统的输入，其是左耳和右耳双声道音频信号。这些可以例如是真实的录音，但在该图中，它们是模拟的双声道信号。请注意，2kHz附近的轻微衰减是由于模拟方法造成的。在捕获的信号中，有两个来源，即佩戴双声道麦克风的用户的语音，以及来自36个均匀水平方向的不相干的环境噪声。此外，在第一行中可以看出，两个通道(左侧1201列和右侧1207列)中的语音声音相同地响亮。因此，它被认为是在头部内部，这是不期望的。请注意，在这个最上面的示例行中，头部跟踪和语音双声道重新定位不可用。

在中间行1203和1209中，示出了根据使用图2和图6所示的示例装置的一些实施例的处理的输出。例如，如果听者将头部向另一方向旋转这个角度，则语音将被提取并重新定位到90度。在此示例中，环境并未被衰减。从该图中可以看出，左通道1203中的语音明显比右通道1209中的更响亮，因为它已使用HRTF被提取并渲染到左侧。

在下面的行1205和1211中，示出了根据一些实施例的处理的另一输出。同样，在此示例中，语音被定位到90度，但在此示例中，环境被衰减了6dB。从图中可以看出，本例中的环境的级别较低。

在一些实施例中，接收器装置不是最终用户设备，而是语音会议服务器。语音会议服务器从参与同一语音会议会话的多个人(或设备)接收音频信号，接收器负责对这些音频信号进行混音以输出发送回参与者的信号。每个参与者都可以接收独特的音频信号的混音。在传统的空间音频会议中，传入的单声道语音信号被视为音频对象(每个对象在特定听者周围可能具有独特(distinct)的位置)，它们被空间处理并混音为发送给参与者的空间音频输出信号。空间混音器中的混音控制器确定每个音频对象的方向。这些方向可以根据音频对象的数量自动确定，或者参与者本身可以经由接收机装置和会议服务器之间的合适的控制通道交互式地定义每个音频对象的方向。

在一些参与者使用双声道头戴式耳机进行通信的情况下，可以在会议服务器中的空间混音中采用本文提出的方法。

当在会议服务器处接收到根据上述实施例的输入音频信号(语音对象和双声道剩余信号)时，在将该输入音频与其他传入音频信号进行空间混音之前，混音控制器可以确定语音和剩余信号的增益以及语音信号的方向。例如，控制器可以相对于语音信号衰减剩余信号以突出语音。替代地，如果双声道头戴式耳机用户已向会议服务器发送为其他参与者共享环境音频信号的请求，则混音控制器可以相对于语音信号本身放大剩余信号。如前所述，由于空间混音操作通常是每个参与者的独特操作，因此接收参与者本身可以控制语音和剩余信号的增益。同时，参与者B可能想要强调参与者A(其正在使用诸如本文描述的实施例中所示的回放装置)的语音清晰度，而用户C可能想要体验来自参与者A的环境。

可选的语音位置元数据可与输入音频信号一起使用。会议混音控制器在确定音频对象属性时可以使用也可以不使用它。

在根据上述实施例的操作的情况下，在一些实施例中，空间混音器可以将来自所有参与者的语音和剩余信号(连同语音方向)(在可能执行上述(单独)调整之后)发送给用户。这允许获得所有源的头部跟踪渲染。在一些其他实施例中，剩余信号可以在传输之前被混音在一起，因为它们不需要头部跟踪(因为它们主要包含环境声音)，以便减少正在传输的通道的数量。

此外，在一些实施例中，空间混音器可以渲染已经在混音器中(至少对于一些用户而言)的双声道信号(如以上示例中所呈现的)。在这种情况下，只需传输两个音频信号。这可能例如在某些用户的设备不支持头部跟踪渲染和/或如果网络条件仅允许传输少量音频信号的情况下有用。类似地，可以对任何格式执行渲染(例如5.1多通道信号)。

在一些替代实施例中，空间混音器可以接收双声道音频信号，并且然后它可以根据先前的实施例执行处理。在空间混音器如实施例中呈现的那样操作并创建MASA流的情况下，它可以根据来自每个用户的双声道信号创建单独的MASA流，并且然后它可以将MASA流混音成单个MASA流(例如，使用英国公布的申请GB2574238中提出的方法)。这样，只需将两个音频信号传输给用户，而服务器仍然可以执行所有所需的控制(例如，控制讲话者的方向以及控制语音和环境之间的平衡)。

在一些另外的实施例中，可以采用本文描述的实施例的组合。捕获设备可以如所呈现的那样操作，其中语音音频对象和剩余双声道信号被发送给空间混音器(即，“编码音频信号”)。然后，空间混音器可以使用传输信号和空间元数据确定器来创建参数化空间音频流(例如，MASA流)。这可以针对来自每个用户的信号单独地执行，并且所得到的MASA流可以如上面所呈现的那样被组合。然后，只需将单个(单独)MASA流(编码后)发送给每个用户。

在一些实施例中，当在捕获设备中创建MASA流时，空间混音器本身不能容易地控制空间属性。在这种情况下，会议服务器可以指示捕获装置根据期望的设置来处理双声道信号。在一些实施例中，还可以将例如对象方向从捕获设备传输给空间混音器，在这种情况下，仍然可以在空间混音器中执行一些空间修改(例如，控制空间元数据中的方向)。

在一些实施例中，空间混音器还可以从双声道信号之外的其他输入接收和/或创建MASA流。此外，这些MASA流可以与来自双声道信号的MASA流混音在一起(使用例如与上面讨论的相同的方法NC105740)。

因此，在一些实施例中，可以有以下选项用于将空间音频从用户传输给空间混音器：

-确定捕获设备中的“编码音频信号”(包含音频对象和双声道信号)并将其传输给空间混音器。

-确定捕获设备中的“编码音频信号”(包含传输音频信号和空间元数据)并将其传输给空间混音器。

-将捕获的“双声道音频信号”传输给空间混音器，然后空间混音器确定音频对象和双声道信号。

-将捕获的“双声道音频信号”传输给空间混音器，然后空间混音器确定传输音频信号和空间元数据。

-确定捕获设备中的“编码音频信号”(包含音频对象和双声道信号)并将其传输给空间混音器。然后，空间混音器确定传输音频信号和空间元数据。

然后，空间混音器可以混音并处理来自各个源的内容以获得期望格式的期望混音。

此外，在一些实施例中，空间混音器可以被配置为以任何合适的形式将(单独的)混音传输给用户。例如，这可能是以下之一

-包含一个或多个音频对象和一个或多个双声道信号的空间音频流(来自不同源的双声道信号可能已混音在一起)。

-包含传输音频信号和空间元数据的参数化空间音频流。

-渲染音频信号，例如双声道音频信号或5.1多通道信号。

关于提供本文所采用的经训练的网络信息的训练，我们注意到，当使用术语“通道”时，它指的是多通道信号的音频通道。然而，在机器学习文献中，“通道”是一个经常使用的术语，指的是流经网络的数据的特定轴，例如，具有32个滤波器的卷积层产生32个“通道”。为了区分含义，“通道”用于音频，而“特征”用于讨论机器学习模型中数据的特定维度。

如前所述，装置101在其存储器中具有经训练的网络，其指的是已经基于大的输入数据示例集进行训练以预测对应的输出数据示例集的机器学习模型(或网络)。下面解释示例输入数据、输出数据、网络架构和训练过程。正如机器学习领域的典型情况一样，没有必须使用来实现某个目标的单一类型的网络结构，而是有很多方法可以改变网络结构(例如，不同的网络类型、不同数量的滤波器、不同的层数等)。

在下面的示例中，定义了一个结构，该结构共享在以下中概述的一些原则：Choi,Hyeong-Seok,等人."Real-Time Denoising and Dereverberation with Tiny RecurrentU-Net(利用微型循环U-Net进行实时降噪和去混响)."ICASSP 2021-2021IEEEInternational Conference on Acoustics,Speech and Signal Processing(IEEE声学、语音和信号处理国际会议)(ICASSP).IEEE,2021。此示例结构旨在简化计算。可以实现更复杂的结构以实现预测任务的更高准确度。

图13示出了在以下示例实施例中使用的示例网络结构。其被配置为接收网络输入数据1300作为输入，其形式为(num_T x num_F x num_C)，其中num_T是时间索引的数量并且num_F是频带的数量并且num_C是输入特征的数量。对于频率轴，我们可以设置num_F＝96，对于输入特征num_C＝1，因为只有一个输入特征，即频谱图。对于时间轴，可以使用num_T＝64。注意，这个时间轴是网络训练输入样本的大小，而不是网络的时间维度。

因此，训练中的网络输入数据1300的形状为(64×96×1)。网络输入数据被标示为I(n,k)，其中n是时间索引，k是网络输入的频带索引，并且在此符号表示中省略了特征的单位维度。

网络输入(训练中)的第一特征可以通过首先获得频带中的分贝为单位的能量值E_dB(n,k)来获得，如前所述

其中b_low(k)和b_high(k)是频带k的最低和最高频率仓的索引。这里的S(b,n,i)指的是经过STFT处理后的训练输入音频数据。

然后，对于每个k独立地制定限制器值E_{dB_max}(k)，它是整个数据范围n＝1,…,64上E_dB(n,k)的最大值，并且数据如下被进行下限限制：

E′_dB(n,k)＝max(E_dB(n,k),E_{dB_max}(k)-60)

然后，将数据归一化并设置为网络输入数据

其中，E′_{dB_mean}(k)是平均值，E′_{dB_std}(k)是完整数据范围n＝1,…,64上的E′_dB(n,k)的标准差，对于每个频带独立。

下面描述图13的网络结构。网络中处理网络输入1300I(n,k)的第一层是输入卷积层1301，其可以包括20个大小为1x20的滤波器，没有零填充。在机器学习术语中，这意味着填充被设置为“有效(valid)”。这意味着卷积将数据的20个时间索引映射到20个特征索引。换句话说，训练时该层的输出是(45x96x20)。结果数据被提供给频率编码器1 1303。由于该操作，时间轴从64减少到45，因此在训练时，网络接收64个时间索引数据，但仅提供45个输出的估计。这对应于推理阶段的情况，其中网络被提供20个时间索引数据，并且仅提供数据的一个时间索引，即当前时间帧增益。

每个频率编码器1303、1305、1307、1309包括以下层的序列：1)批量归一化，2)修正线性单元(ReLU)和3)卷积。滤波器的形状为(1x3)，步幅(stride)为(1,2)，并且因此它们仅在频率维度上(即，不在时间维度上)操作。换句话说，具有大小(1x3)的滤波器意味着仅在频率维度上进行卷积，而步幅为(1,2)意味着仅在频率维度上进行因子为2的下采样，而时间维度则不进行下采样。频率编码器对以下数量的输出特征进行操作：频率编码器1 1303：32；频率编码器2 1305：64；频率编码器3 1307：64；频率编码器4 1309:128。每个频率编码器(除了最后一个之外)将其输出提供给下一个编码器，而且还提供给对应级别的频率解码器1313、1315、1317、1319。最后一个频率编码器4 1309块提供其输出到完全连接的1320块。在该阶段，数据的形式为(45x6x128)，因此频率维度已逐渐减少到6。

全连接块1320将(45×6×128)的最后两个维度重新整形(reshape)为形状(45×768)，并且将1)批量归一化、2)ReLu和3)密集(即，全连接)操作应用于数据。将所得数据从(45x768)重新整形回形状(45x6x128)，并提供给频率解码器4 1319。

类似于频率编码器1303、1305、1307、1309，频率解码器1313、1315、1317、1319仅在频率轴上操作。除了仅从全连接1320块获得输入的频率解码器4 1319之外，其他频率解码器1317、1315、1313获得两个输入，第一个是对应索引频率编码器的输出，第二个是以前的频率解码器的输出。这些频率解码器将两个输入数据集连接在特征轴上进行处理。例如，当频率解码器3 1317从频率编码器3 1307接收到形式为(45x12x64)的数据以及从频率解码器4 1319接收到形式为(45x12x128)的数据时，连接的数据的形式为(45x12x192)。这些频率解码器包括以下层：1)批量归一化，2)修正线性单元(ReLU)和3)转置卷积。滤波器的形状为(1x3)，步幅为(1,2)。频率解码器对以下数量的输出特征进行操作：频率解码器1 1313：32；频率解码器2 1315：64；频率解码器3 1317:64；频率解码器4 1319:128。频率解码器11313的输出则具有形状(45×96×32)。

频率解码器1 1313最终将其输出提供给输出卷积层1321，其应用具有一个滤波器的1x1卷积以将形状(45x96x32)数据转换为(45x96x1)的最终形式。结果由Sigmoid块1323处理，将sigmoid函数应用于数据，并且结果是神经网络的输出。sigmoid函数可能已被修改为范围从小负值到小量超过1的值，以避免训练中的数值不稳定。

换句话说，在训练阶段，网络从(64x96x1)大小的数据预测大小为(45x96x1)的输出数据。输入是频谱信息，输出包括用于数据中每个时间和频率的增益，没有频谱图的前19个时间索引。在推理中，输入数据时间维度不是64而是20，提供输出形状(1x96x1)，即96个值。

训练是使用两个音频文件数据集执行的：干净的语音和各种噪声。在训练中，这些数据集被随机混音(随机选择语音和噪声项，并在时间上随机裁剪)，每个数据集具有随机增益(因此具有随机的“语音噪声比”)。通过将这样产生的语音和噪声信号相加来产生混音(mixture)。这种方法可以提供干净的语音参考。网络频谱输入是基于混音制定的，并且网络预测输出，该输出用作每个频带的增益来处理混音音频信号。通过训练，网络随后学会预测有意义的此类输出或增益值。

更具体地说，上述信号(混音和语音)是采样率为48kHz的PCM信号，利用正弦窗口使用短时傅里叶变换(STFT)将其转换为时频域，跳数为1024样本和FFT大小为2048个样本。结果是具有1025个独特频率仓和64个时间步长的时频信号。然后，如上所述，频率仓数据被转换为神经网络输入数据。此外，当使用具有96个值的预测增益(即网络输出)处理1025-仓混音信号时，每个第k:th增益用于处理从b_low(k)到b_QigQ(k)范围内的频率仓以获得非语音信号被抑制的输出。

为了指导网络训练，需要定义一个损失函数，该函数提供一个值来定义网络预测所需结果的程度。对于损失函数，在基础真实语音信号(即干净的语音参考)和增益处理后的混音之间制定差异信号。损失函数表示差分信号的能量相对于混音物的能量(以分贝为单位)。训练时采用学习率为0.001、批量大小为120的Adam优化器。

由于训练，网络权重收敛，然后被提供给图1的装置的存储器以供使用。

还可以使用特定架构训练一个机器学习模型，然后使用编译、修剪、量化或蒸馏等过程从中派生出另一个机器学习模型。术语“机器学习模型”还涵盖了所有这些用例及其输出。机器学习模型可以使用任何合适的装置来执行，例如CPU、GPU、ASIC、FPGA、内存中计算、模拟或数字或光学装置。还可以在组合任意数量的特征(例如数字-光学或模拟-数字混合)的装置中执行机器学习模型。在一些示例中，这些系统中的权重和所需的计算可以被编程以对应于机器学习模型。在一些示例中，该装置可以被设计和制造以便执行由机器学习模型定义的任务，使得该装置被配置为在制造该装置时执行该任务，而无需该装置本身是可编程的。

一般而言，本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合来实现。例如，一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。虽然本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是很好理解的是，本文描述的这些块、装置、系统、技术或方法可以在作为非限制性示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中实现。

本发明的实施例可以通过可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件实现，或通过硬件、或通过软件和硬件的组合实现。此外，在这方面，应当注意，如图中的逻辑流程的任何块可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如存储器芯片的物理介质或在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术(例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器)来实现。数据处理器可以是适合于本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个，作为非限制性示例。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，例如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序，使用完善的设计规则以及预先存储的设计模块库自动路由导体并在半导体芯片上定位元件。一旦完成半导体电路的设计，就可以将标准化电子格式(例如Opus、GDSII等)的所得设计传输到半导体制造设施或“工厂”以进行制造。

如在本申请中使用的，术语“电路”可以指以下的一个或多个或全部：

(a)纯硬件电路实施方式(例如仅在模拟和/或数字电路中的实施方式)和

(b)硬件电路和软件的组合，例如(如适用)：

(i)模拟和/或数字硬件电路与软件/固件的组合，以及

(ii)共同工作以使诸如移动电话或服务器之类的设备执行各种功能的具有软件的硬件处理器(包括数字信号处理器)、软件和存储器的任何部分，以及

需要软件(例如固件)用于操作的硬件电路和/或处理器(例如微处理器或微处理器的一部分)，但该软件在不需要它用于操作时可能不存在。

电路的这种定义适用于该术语在本申请中(包括在任何权利要求中)的所有使用。作为另一示例，如在本申请中使用的，术语电路还仅覆盖硬件电路或处理器(或多个处理器)或硬件电路或处理器的部分及其(或它们的)随附软件和/或固件的实施方式。术语电路还覆盖例如以及在适用于特定权利要求元素的情况下的用于移动设备的基带集成电路或处理器集成电路，或服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

如本文所使用的，术语“非暂时性”是对介质本身(即，有形的，而不是信号)的限制，而不是对数据存储持久性(例如，RAM相对于ROM)的限制。

如本文所使用的，“以下至少之一：<两个或更多个元素的列表>”和“<两个或更多个元素的列表>中的至少一个”以及类似措辞，其中两个或更多个元素的列表通过“和”或“或”连接，意指要素中的至少任意一个，或者要素中的至少任意两个或更多个，或者至少所有要素。

前面的描述已经通过示例性和非限制性示例的方式提供了本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求书阅读时，鉴于前面的描述，各种修改和适应对于相关领域的技术人员来说是明显的。然而，本发明的教导的所有此类和类似的修改仍将落入所附权利要求所限定的本发明的范围内。

Claims

1.一种用于生成空间音频流的方法，所述方法包括：

获得来自至少两个麦克风的至少两个音频信号；

从所述至少两个音频信号提取第一音频信号，所述第一音频信号至少部分地包括用户的语音；

从所述至少两个音频信号提取第二音频信号，其中，所述用户的语音在所述第二音频信号内基本不存在；以及

对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，以使得能够将所述用户的语音渲染到可控方向和/或距离。

2.根据权利要求1所述的方法，其中，所述空间音频流还使得能够可控渲染所捕获的环境音频内容。

3.根据权利要求1所述的方法，其中，从所述至少两个音频信号提取所述第一音频信号还包括：将机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号。

4.根据权利要求3所述的方法，其中，将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号还包括：

基于所述至少两个音频信号生成第一语音掩模；以及

基于将所述第一语音掩模应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号，将所述至少两个音频信号分离成经掩模处理的语音音频信号和经掩模处理的剩余音频信号。

5.根据权利要求3所述的方法，其中，从所述至少两个音频信号提取所述第一音频信号还包括：对所述至少两个音频信号进行波束成形以生成语音音频信号。

6.根据权利要求5所述的方法，其中，对所述至少两个音频信号进行波束成形以生成所述语音音频信号包括：

基于经掩模处理的语音音频信号，确定用于所述波束成形的导向向量；

基于经掩模处理的剩余音频信号，确定剩余协方差矩阵；以及

应用基于所述导向向量和所述剩余协方差矩阵所配置的波束成形器来生成波束音频信号。

7.根据权利要求6所述的方法，其中，将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个音频信号以生成所述第一音频信号还包括：

基于所述波束音频信号生成第二语音掩模；以及

基于所述第二语音掩模，对所述波束音频信号应用增益处理以生成所述语音音频信号。

8.根据权利要求3所述的方法，其中，将所述机器学习模型应用于所述至少两个音频信号或基于所述至少两个音频信号的至少一个信号以生成所述第一音频信号还包括：均衡所述第一音频信号。

9.根据权利要求3所述的方法，其中，从所述至少两个音频信号提取所述第二音频信号包括：

从所述语音音频信号生成定位语音音频信号；以及

从所述至少两个音频信号中减去所述定位语音音频信号以生成所述至少一个剩余音频信号。

10.根据权利要求1所述的方法，其中，从所述至少两个音频信号提取包括所述用户的语音的所述第一音频信号包括：

基于所述至少两个音频信号生成所述第一音频信号；以及

生成音频对象表示，所述音频对象表示包括所述第一音频信号。

11.根据权利要求10所述的方法，其中，从所述至少两个音频信号提取所述第一音频信号还包括：分析所述至少两个音频信号以确定相对于与所述用户的所述语音相关联的麦克风的方向和/或位置，其中，所述音频对象表示还包括相对于所述麦克风的所述方向和/或位置。

12.根据权利要求10所述的方法，其中，生成所述第二音频信号还包括：生成双声道音频信号。

13.根据权利要求1所述的方法，其中，对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流包括：

对所述第一音频信号和所述第二音频信号进行混音以生成至少一个传输音频信号；

确定与所述用户的所述语音的期望方向或位置相关联的至少一个方向或位置空间参数；以及

对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码以生成所述空间音频流。

14.根据权利要求13所述的方法，还包括：获得能量比参数，并且其中，对所述至少一个传输音频信号和所述至少一个方向或位置空间参数进行编码包括：进一步对所述能量比参数进行编码。

15.根据权利要求1所述的方法，其中，所述第一音频信号是单通道音频信号。

16.根据权利要求1所述的方法，其中，所述至少两个麦克风位于所述用户的耳朵上或附近。

17.根据权利要求1所述的方法，其中，所述至少两个麦克风位于包括作为第一音频源的所述用户和另一音频源的音频场景中，并且所述方法还包括：

从所述至少两个音频信号提取至少一个其它第一音频信号，所述至少一个其它第一音频信号至少部分地包括所述另一音频源；以及

从所述至少两个音频信号提取至少一个其它第二音频信号，其中，所述另一音频源在所述至少一个其它第二音频信号内基本不存在，或者

所述另一音频源在所述第二音频信号内。

18.根据权利要求17所述的方法，其中，所述第一音频源是讲话者，并且所述另一音频源是另一讲话者。

19.一种用于生成空间音频流的装置，所述装置包括至少一个处理器和存储指令的至少一个存储器，所述指令在由所述至少一个处理器执行时使系统至少：

获得来自至少两个麦克风的至少两个音频信号；

对所述第一音频信号和所述第二音频信号进行编码以生成所述空间音频流，使得能够将所述用户的语音渲染到可控方向和/或距离。

20.一种包括程序指令的非暂时性计算机可读介质，所述程序指令用于使得用于生成空间音频流的装置至少：

获得来自至少两个麦克风的至少两个音频信号；

从所述至少两个音频信号提取第二音频信号，其中所述用户的语音在所述第二音频信号内基本不存在；以及