CN116508332A

CN116508332A - 空间音频参数编码和相关解码

Info

Publication number: CN116508332A
Application number: CN202180076939.4A
Authority: CN
Inventors: A·瓦西拉切
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-09-16
Filing date: 2021-08-18
Publication date: 2023-07-28
Also published as: MX2023003100A; GB202014572D0; EP4214705A1; WO2022058645A1; US20230410823A1; CA3192976A1

Abstract

一种装置，包括部件，该部件被配置为：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值(301)，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩编码(305)，被配置为对所获取的方向参数值进行压扩编码的部件还被配置为：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

Description

空间音频参数编码和相关解码

技术领域

本申请涉及用于声场相关参数编码的装置和方法，但是非排他性地涉及用于音频编码器和解码器的时频域方向相关参数编码的装置和方法。

背景技术

参数空间音频处理是音频信号处理领域，其中声音的空间方面使用一组参数来描述。例如，在从麦克风阵列的参数空间音频捕获中，从麦克风阵列信号来估计一组方向性元数据参数是典型并且有效的选择，诸如频带中声音的方向、以及频带中捕获声音的定向部分与非定向部分之间的比率。众所周知，这些参数很好地描述了麦克风阵列的位置处捕获的声音的感知空间特性。这些参数可以相应地用于空间声音的合成，以二进制方式用于耳机、以用于扬声器、或用于其他格式，诸如高保真度立体声响复制(Ambisonics)。

因此，诸如频带中的方向以及方向与总能量比(direct-to-total energyratios)等方向性元数据是对于空间音频捕获特别有效的参数化。

由每个频带的一个或多个方向值和与每个方向值相关联的能量比参数组成的方向性元数据参数集也可以用作音频编解码器的空间元数据(其还可以包括其他参数，诸如扩展一致性、方向数目、距离等)。方向性元数据参数集还可以包括其他参数，或者可以与被认为是非方向性的其他参数(诸如环绕相干性、扩散与总能量比(diffuse-to-totalenergy ratio)、剩余与总能量比(remainder-to-total energy ratio))相关联。例如，这些参数可以根据麦克风阵列捕获音频信号来估计，并且例如立体声信号可以根据要与空间元数据一起传送的麦克风阵列信号来生成。

由于一些编解码器预期以从非常低的比特率到相对较高的比特率的各种比特率进行操作，因此需要各种策略来压缩空间元数据以优化每个操作点的编解码器性能。编码参数(元数据)的原始比特率相对较高，因此特别是在较低比特率下，预期只有元数据的最重要部分可以从编码器传送到解码器。

解码器可以将音频信号解码为PCM信号，并且处理频带中的声音(使用空间元数据)，以获取空间输出，例如双耳输出。

上述解决方案特别适合于对来自麦克风阵列(例如，在移动电话、摄像机、VR相机、独立麦克风阵列中)的捕获空间声音进行编码。然而，对于这样的编码器，可以期望除了麦克风阵列捕获信号之外还具有其他输入类型，例如扬声器信号、音频对象信号或Ambisonics信号。

发明内容

根据第一方面，提供了一种装置，该装置包括部件，部件被配置为：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩(compand)编码，被配置为对所获取的方向参数值进行压扩编码的部件还被配置为：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

该部件还可以被配置为基于压扩函数的逆，对量化的压扩方位角元素进行去压扩。

被配置为基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数的部件还可以被配置为：基于量化的仰角元素和多通道音频信号格式来确定压扩函数。

被配置为对所获取的方向参数值进行压扩编码的部件还可以被配置为：针对每个量化的仰角元素和量化的压扩方位角元素生成码字。

被配置为对所获取的方向参数值进行压扩编码的部件还可以被配置为：针对每个量化的仰角元素和去压扩的量化的压扩方位角元素生成码字。

该部件还可以被配置为确定用于压扩编码的量化误差和平均仰角编码，其中被配置为确定平均仰角编码的部件可以被配置为：堆用于帧内的子带的平均仰角元素进行量化；以及基于具有可变边界的量化栅格对方位角元素进行量化，并且其中该部件被配置为：基于量化误差来选择压扩编码输出或平均仰角编码输出。

该部件还可以被配置为基于所分配数目的比特来确定量化栅格，所分配数目的比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，能量比值的值与所获取的方向参数值相关联，其中被配置为量化仰角元素的部件被配置为：基于量化栅格对仰角元素进行量化，并且被配置为对压扩方位角元素进行量化的部件被配置为：基于量化栅格对压扩方位角进行量化。

根据第二方面，提供了一种装置，该装置包括部件，部件被配置为：获取至少一个编码比特流，至少一个编码比特流包括编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；对编码的仰角元素进行解码；基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数；基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素。

被配置为基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数的部件还可以被配置为：基于编码的仰角元素和多通道音频信号格式来确定去压扩函数。

被配置为对编码的仰角元素进行解码的部件还可以被配置为：对用于每个量化的仰角元素的码字进行解码。

该部件还可以被配置为：基于所分配数目的比特来确定量化栅格，所分配数目的比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，能量比值的值与所获取的方向参数值相关联，其中被配置为对用于每个量化的仰角元素的码字进行解码的部件可以被配置为：基于量化栅格对仰角元素进行解码。

根据第三方面，提供了一种方法，该方法包括：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩编码，其中对所获取的方向参数值进行压扩编码包括：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

该方法还可以包括基于压扩函数的逆，对量化的压扩方位角元素进行去压扩。

基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数还可以包括：基于量化的仰角元素和多通道音频信号格式来确定压扩函数。

对所获取的方向参数值进行压扩编码还可以包括：针对每个量化的仰角元素和量化的压扩方位角元素生成码字。

对所获取的方向参数值进行压扩编码还可以包括：针对每个量化的仰角元素和去压扩的量化的压扩方位角元素生成码字。

该方法还可以包括确定压扩编码的量化误差和平均仰角编码，其中平均仰角编码可以包括：堆用于帧内的子带的平均仰角元素进行量化；以及基于具有可变边界的量化栅格对方位角元素进行量化，并且该方法还可以包括基于量化误差来选择压扩编码输出或平均仰角编码输出。

该方法还可以包括：基于所分配数目的比特来确定量化栅格，所分配数目的比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，能量比值的值与所获取的方向参数值相关联，其中对仰角元素进行量化可以包括基于量化栅格对仰角元素进行量化，并且对压扩方位角元素进行量化可以包括基于量化栅格对压扩方位角进行量化。

根据第四方面，提供了一种方法，该方法包括：获取至少一个编码比特流，至少一个编码比特流包括编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；对编码的仰角元素进行解码；基于编码的仰角元素和/或编码的多通道音频信号格式来确定去压扩函数；以及基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素。

基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数还可以包括：基于编码的仰角元素和多通道音频信号格式来确定去压扩函数。

对编码的仰角元素进行解码还可以包括：对用于每个量化的仰角元素的码字进行解码。

该方法还可以包括：基于所分配数目的比特来确定量化栅格，所分配数目的比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，能量比值的值与所获取的方向参数值相关联，其中被配置为对用于每个量化的仰角元素的码字进行解码的部件被配置为：基于量化栅格对仰角元素进行解码。

根据第五方面，提供了一种装置，该装置包括至少一个处理器以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得该装置至少：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩编码，被引起对所获取的方向参数值进行压扩编码的装置还被引起：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

该装置还可以被使得基于压扩函数的逆，对量化的压扩方位角元素进行去压扩。

被使得基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数的装置还可以被使得：基于量化的仰角元素和多通道音频信号格式来确定压扩函数。

被使得对所获取的方向参数值进行压扩编码的装置还可以被使得：针对每个量化的仰角元素和量化的压扩方位角元素生成码字。

被使得对所获取的方向参数值进行压扩编码的装置还可以被使得：针对每个量化的仰角元素和去压扩的量化的压扩方位角元素生成码字。

该装置还可以被使得确定压扩编码的量化误差和平均仰角编码，其中被引起确定平均仰角编码的装置还可以被引起：堆用于帧内的子带的平均仰角元素进行量化；以及基于具有可变边界的量化栅格对方位角元素进行量化，并且其中该装置还可以被使得基于量化误差来选择压扩编码输出或平均仰角编码输出。

该装置还可以被使得：基于所分配数目的比特来确定量化栅格，所分配数目的比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，能量比值的值与所获取的方向参数值相关联，其中被使得对仰角元素进行量化的装置可以被使得基于量化栅格对仰角元素进行量化，并且被使得对压扩方位角元素进行量化的装置可以被使得基于量化栅格对压扩方位角进行量化。

根据第六方面，提供了一种装置，该装置包括至少一个处理器以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使得该装置至少：获取至少一个编码比特流，至少一个编码比特流包括：编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；对编码的仰角元素进行解码；基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数；基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素。

被使得基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数的装置还可以被使得：基于编码的仰角元素和多通道音频信号格式来确定去压扩函数。

被使得对编码的仰角元素进行解码的装置还可以被使得：对用于每个量化的仰角元素的码字进行解码。

该装置还可以被使得：基于所分配数目的比特来确定量化栅格，所分配数目的比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，能量比值的值与所获取的方向参数值相关联，其中被使得对用于每个量化的仰角元素的码字进行解码的装置可以被使得：基于量化栅格对仰角元素进行解码。

根据第七方面，提供了一种装置，该装置包括：用于获取多通道音频信号的部件；用于获取与多通道音频信号的至少两个时频部分相关联的方向参数值的部件，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及用于对所获取的方向参数值进行压扩编码的部件，其中用于对所获取的方向参数值进行压扩编码的部件包括：用于对仰角元素进行量化的部件；用于基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数的部件；用于基于应用于方位角元素的压扩函数来生成压扩方位角元素的部件；以及用于对压扩方位角元素进行量化的部件。

根据第八方面，提供了一种装置，该装置包括：用于获取至少一个编码比特流的部件，至少一个编码比特流包括编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；用于对编码的仰角元素进行解码的部件；用于基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数的部件；以及用于基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素的部件。

根据第九方面，提供了一种包括指令的计算机程序[或一种包括程序指令的计算机可读介质]，该指令用于使得装置执行至少以下操作：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩编码，其中对所获取的方向参数值进行压扩编码包括：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

根据第十方面，提供了一种包括指令的计算机程序[或一种包括程序指令的计算机可读介质]，该指令用于使得装置执行至少以下操作：获取至少一个编码比特流，至少一个编码比特流包括编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；对编码的仰角元素进行解码；基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数；以及基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素。

根据第十一方面，提供了一种包括程序指令的非暂态计算机可读介质，该程序指令用于使得装置执行至少以下操作：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩编码，其中对所获取的方向参数值进行压扩编码包括：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

根据第十二方面，提供了一种包括程序指令的非暂态计算机可读介质，该程序指令用于使得装置执行至少以下操作：获取至少一个编码比特流，至少一个编码比特流包括：编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；对编码的仰角元素进行解码；基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数；以及基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素。

根据第十三方面，提供了一种装置，该装置包括：获取电路系统，被配置为获取多通道音频信号；获取电路系统，被配置为获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及编码电路系统，被配置为对所获取的方向参数值进行压扩编码，其中被配置为对所获取的方向参数值进行压扩编码的编码电路系统被设置为：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

根据第十四方面，提供了一种装置，该装置包括：获取电路系统，获取至少一个编码比特流，至少一个编码比特流包括编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；解码电路系统，被配置为对编码的仰角元素进行解码；基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数；生成电路系统，被配置为基于应用于压扩编码的方位角元素的去压扩函数来生成去压扩方位角元素。

根据第十五方面，提供了一种包括程序指令的计算机可读介质，该程序指令用于使得装置执行至少以下操作：获取多通道音频信号；获取与多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及对所获取的方向参数值进行压扩编码，其中对所获取的方向参数值进行压扩编码包括：对仰角元素进行量化；基于量化的仰角元素和/或多通道音频信号格式来确定压扩函数；基于应用于方位角元素的压扩函数来生成压扩方位角元素；以及对压扩方位角元素进行量化。

根据第十六方面，提供了一种包括程序指令的计算机可读介质，该程序指令用于使得装置执行至少以下操作：获取至少一个编码比特流，至少一个编码比特流包括编码的多通道音频信号和压扩编码的方向参数值，压扩编码的方向参数值与编码的多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；对编码的仰角元素进行解码；基于编码的仰角元素和/或多通道音频信号格式来确定去压扩函数；以及基于应用于压扩编码的方位角元素的去压扩函数，生成去压扩方位角元素。

一种装置包括用于执行如上所述的方法的动作的部件。

一种装置被配置为执行如上所述的方法的动作。

一种计算机程序包括用于引起计算机执行如上所述的方法的程序指令。

一种存储在介质上的计算机程序产品可以引起装置执行如本文中描述的方法。

一种电子设备可以包括如本文中描述的装置。

一种芯片组可以包括如本文中描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，在附图中：

图1示意性地示出了适合于实现一些实施例的装置的系统；

图2示意性地示出了根据一些实施例的编码器；

图3示出了根据一些实施例的如图2所示的编码器的操作的流程图；

图4示意性地示出了根据一些实施例的如图2所示的方向编码器；

图5示出了根据一些实施例的如图4所示的方向编码器的操作的流程图；

图6和图7示出了适合于在如图4所示的方向编码器中实现的压扩器函数。

图8示意性地示出了根据一些实施例的如图2所示的解码器；

图9示出了根据一些实施例的如图8所示的解码器的操作的流程图；以及

图10示意性地示出了适合于实现所示装置的示例设备。

具体实施方式

以下进一步详细描述用于提供组合和编码空间分析导出的元数据参数的合适装置和可能机制。在以下讨论中，针对多通道麦克风实现来讨论多通道系统。然而，如上所述，输入格式可以是任何合适的输入格式，诸如多通道扬声器、Ambisonics(FOA/HOA)等。应当理解，在一些实施例中，通道位置基于麦克风的位置，或者是虚拟位置或方向。

此外，在以下示例中，示例系统的输出是多通道扬声器布置。在其他实施例中，输出可以经由扬声器以外的其他部件被渲染给用户。多通道扬声器信号也可以被概括为两个或更多个回放音频信号。

如上所述，与音频信号相关联的方向性元数据可以针对每个时频图块(tile)包括多个参数(诸如多个方向和与每个方向相关联的方向与总比率、距离等)。方向性元数据还可以包括其他参数，或者可以与被认为是非定向的其他参数相关联(诸如环绕相干性、扩散与总能量比、剩余与总能量比)，但是当与定向参数相结合时，能够用于定义音频场景的特性。例如，能够产生高质量输出的合理设计选择是其中方向性元数据针对每个时频子帧包括两个方向(和与每个方向相关联的方向与总比率、距离值等)的设计选择。然而，如上所述，带宽和/或存储限制可能要求编解码器不针对每个频带和时间子帧发送方向性元数据参数值。

当前的提议包括在GB专利申请1811071.8号中公开的那些，其考虑了元数据的有损压缩，并且对于PCT/FI2019/050675，当对于给定子带可用的比特数非常低时，已经讨论了矢量量化方法。即使只有最多9比特的码本，矢量量化方法也增加了编解码器的表ROM，其中大约4kB的存储器用于2、3、4、……和9比特的4维码本。

如本文中的实施例中讨论的概念是提供具有低ROM印记(imprint)的低复杂度编解码器，该编解码器考虑多通道方向性元数据的特性。

尽管诸如UK专利申请GB2000465.1号的编解码器已经考虑了元数据的有损压缩。所提出的灵活方位码本是均匀分布的，这表示，对于3比特，只能表示前、后、横向和中间位置。然而，有用的是考虑多通道格式的通道位置的表示。此外，本文中讨论的实施例与非均匀标量码本实现相比提高了性能，因为不需要为每个可能数目的比特存储码本(换言之，实施例需要的码本存储更少)。

在以下实施例中，编解码器采用统一量化器结构，但可以选择性地实现(例如，基于通道输入格式)可调节的参数化压扩函数。

关于图1，示出了用于实现本申请的实施例的示例装置和系统。系统100被示出为具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多通道信号直到对方向性元数据和传送信号的编码的部分，而“合成”部分131是从对编码的方向性元数据和传送信号的解码到重新生成的信号的呈现(例如，以多通道扬声器形式)的部分。

在以下描述中，“分析”部分121被描述为一系列部分，然而在一些实施例中，该部分可以被实现为相同功能装置或部分内的功能。换言之，在一些实施例中，“分析”部分121是包括如下所述的传送信号发生器或分析处理器中的至少一项的编码器。

系统100和“分析”部分121的输入是多通道信号102。“分析”部分121可以包括传送信号发生器103、分析处理器105和编码器107。在以下示例中，描述麦克风通道信号输入，然而，在其他实施例中，可以实现任何合适的输入(或合成多通道)格式。在这样的实施例中，与音频信号相关联的方向性元数据可以作为单独的比特流被提供给编码器。多通道信号被传递到传送信号发生器103和分析处理器105。

在一些实施例中，传送信号发生器103被配置为接收多通道信号，并且生成用于编码的合适的音频信号格式。传送信号发生器103可以例如生成立体声或单通道音频信号。由传送信号发生器生成的传送音频信号可以是任何已知格式。例如，当输入是其中音频信号输入是移动电话麦克风阵列音频信号的输入时，传送信号发生器103可以被配置为选择左右麦克风对，并且对音频信号对应用任何合适的处理，诸如自动增益控制、麦克风噪声去除、风噪声去除和均衡。在一些实施例中，当输入是一阶Ambisonic/高阶Ambisomic(FOA/HOA)信号时，传送信号发生器可以被配置为制定(formulate)朝向左方向和右方向的定向波束信号，诸如两个相对的心形信号。此外，在一些实施例中，当输入是扬声器环绕混音和/或对象时，传送信号发生器103可以被配置为生成下混频信号，该下混频信号将左侧通道组合到左下混频通道，将右侧通道组合到右下混频通道，并且以合适的增益将中心通道添加到这两个传输通道。

在一些实施例中，传送信号发生器被旁路(或者换言之，是可选的)。例如，在分析和合成在单个处理步骤中在同一设备处发生的一些情况下，在没有中间处理的情况下，没有传送信号生成，并且输入音频信号未经处理地被传递。所生成的传送通道的数目可以是任何合适的数目，而不是例如一个或两个通道。

传送信号发生器103的输出可以被传递到编码器107。

在一些实施例中，分析处理器105还被配置为接收多通道信号并且分析该信号，以产生与多通道信号相关联并且因此与传输信号104相关联的方向性元数据106。

分析处理器105可以被配置为生成方向性元数据参数，对于每个时频分析间隔，该方向性元数据参数可以包括至少一个方向参数108和至少一个能量比参数110(并且在一些实施例中，还可以包括其他参数，其非穷举列表包括方向的数目、环绕相干性、扩散与总能量比、剩余与总能量比、扩展相干性参数和距离参数)。方向参数可以以任何合适的方式表示，例如，表示为球面坐标，该球面坐标表示为方位角和仰角θ(k，n)。

在一些实施例中，方向性元数据参数的数目可以随时频图块而不同。因此，例如，在频带X中，获取(生成)并且发送所有方向性元数据参数，而在频带Y中，获取并且发送方向性元数据参数中的仅一个，此外，在频带Z中，没有获取或发送任何参数。这方面的一个实际示例可以是，对于与最高频带相对应的一些时频图块，一些方向性元数据参数由于感知原因是不需要的。方向性元数据106可以被传递到编码器107。

在一些实施例中，分析处理器105被配置为对输入信号应用时频变换。然后，例如，在时频图块中，当输入是移动电话麦克风阵列时，分析处理器可以被配置为估计麦克风对之间的延迟值，该延迟值最大化麦克风间相关性。然后，基于这些延迟值，分析处理器可以被配置为制定方向性元数据的对应方向值。此外，分析处理器可以被配置为基于相关性值来制定方向与总比率参数。

在一些实施例中，例如，在输入是FOA信号的情况下，分析处理器105可以被配置为确定强度矢量。分析处理器然后可以被配置为基于强度矢量来确定方向性元数据的方向参数值。然后，可以确定扩散与总比率，由此，可以确定方向性元数据的方向与总比率参数值。这种分析方法在文献中被称为方向性音频编码(DirAC)。

在一些示例中，例如，在输入是HOA信号的情况下，分析处理器105可以被配置为将HOA信号划分为多个扇区，在每个扇区中使用上述方法。这种基于扇区的方法在文献中被称为高阶DirAC(HO DirAC)。在这些示例中，与多个扇区相对应的每个时频图块存在多于一个同时的方向参数值。

此外，在输入是(多个)扬声器环绕混音和/或基于音频对象的信号的一些实施例中，分析处理器可以被配置为将信号转换为(多个)FOA/HOA信号格式，并且如上所述获取方向以及方向与总比率参数值。

编码器107可以包括音频编码器核心109，音频编码器核心109被配置为接收传送音频信号104，并且生成这些音频信号的合适编码。在一些实施例中，编码器107可以是计算机(运行存储在存储器和至少一个处理器上的合适软件)，或者备选地是利用例如FPGA或ASIC的特定设备。音频编码可以使用任何合适的方案来实现。

编码器107还可以包括方向性元数据编码器/量化器111，方向性元数据编码器/量化器111被配置为接收方向性元数据，并且输出信息的编码或已压缩形式。在一些实施例中，编码器107可以在传输或存储之前进一步对方向性元数据进行交织、将方向性元数据多路复用到单个数据流、或者将方向性元数据嵌入编码的下混频信号中，如图1中的虚线所示。多路复用可以使用任何合适的方案来实现。

在一些实施例中，传输信号发生器103和/或分析处理器105可以位于与编码器107分离的设备上(或者以其他方式与编码器107分离)。例如，在这样的实施例中，与音频信号相关联的方向性元数据(和相关联的非方向性元数据)参数可以作为单独的比特流被提供给编码器。

在一些实施例中，传送信号发生器103和/或分析处理器105可以是编码器107的一部分，即，位于编码器内部并且在同一设备上。

在以下描述中，“合成”部分131被描述为一系列部分，然而在一些实施例中，该部分可以被实现为相同功能装置或部分内的功能。

在解码器侧，所接收的或取出的数据(流)可以由解码器/解复用器133接收。解码器/解复用器133可以对编码的流进行解复用，并且将音频编码流传递到传送信号解码器135，传送信号解码器135被配置为解码音频信号以获取传送音频信号。类似地，解码器/解复用器133可以包括元数据解码器137，元数据解码器137被配置为接收编码的方向性元数据(例如，表示方向参数值的方向索引)，并且生成方向性元数据。

在一些实施例中，解码器/解复用器133可以是计算机(运行存储在存储器和至少一个处理器上的合适软件)，或者备选地是利用例如FPGA或ASIC的特定设备。

已解码的元数据和传送音频信号可以被传递到合成处理器139。

系统100的“合成”部分131还示出了合成处理器139，该合成处理器139被配置为接收传送音频信号和方向性元数据，并且基于传送信号和方向性元数据以任何合适的格式(这些可以是多通道扬声器格式，或者在一些实施例中，根据使用情况，可以是任何合适的输出格式，诸如双耳或双声信号)以多通道信号110的形式重新创建合成的空间音频。

合成处理器139因此基于任何合适的已知方法创建输出音频信号，例如，多通道扬声器信号或双耳信号。这一点在此不再详细解释。然而，作为简化示例，可以根据以下方法中的任何一种对扬声器输出执行渲染。例如，传送音频信号可以基于方向与总能量比以及扩散与总能量比被划分为方向流和环境流。然后，方向流可以使用幅度平移基于(多个)方向参数来渲染。环境流可以进一步使用去相关来渲染。然后，可以组合方向流和环境流。

输出信号可以使用多通道扬声器设置或可以是头戴式的耳机来再现。

应当注意，图1中的处理块可以位于相同或不同处理实体中。例如，在一些实施例中，来自移动设备的麦克风信号使用空间音频捕获系统(包括分析处理器和传送信号发生器)来处理，并且所得到的空间元数据和传送音频信号(例如，以MASA流的形式)被转发到编码器(例如，IVAS编码器)，该编码器包含上述编码器。在其他实施例中，输入信号(例如，5.1通道音频信号)被直接转发到编码器(例如，IVAS编码器)，该编码器包含上述分析处理器、传送信号发生器和编码器。

在一些实施例中，可以有两个(或更多个)输入音频信号，其中第一音频信号由图1所示的装置处理(以产生数据作为编码器的输入)，并且第二音频信号被直接转发到编码器(例如，IVAS编码器)，该编码器包含上述分析处理器、传送信号发生器和编码器。然后，音频输入信号可以在编码器中被独立地编码，或者可以例如根据所谓的MASA混频在参数域中被组合。

在一些实施例中，可以存在包括单独的解码器和合成处理器实体或装置的合成部分，或者合成部分可以包括单独实体，该单独实体包括解码器和合成处理器两者。在一些实施例中，解码器块可以并行处理多于一个输入数据流。在应用中，术语合成处理器可以被解释为内部或外部渲染器。

因此，总的来说，首先，系统(分析部分)被配置为接收多通道音频信号。然后，该系统(分析部分)被配置为生成合适的传送音频信号(例如，通过选择音频信号通道中的一些)。然后，该系统被配置为对传送音频信号进行编码以用于存储/传输。在此之后，该系统可以存储/传输编码的传送音频信号和元数据。该系统可以取出/接收编码的传送音频信号和元数据。然后，该系统被配置为从编码的传送音频信号和元数据参数中提取传送音频信号和元数据，例如对编码的传送音频信号和元数据参数进行解复用和解码。

该系统(合成部分)被配置为基于所提取的传送音频信号和元数据来合成输出的多通道音频信号。

关于图2，进一步详细描述根据一些实施例的示例分析处理器105和元数据编码器/量化器111(如图1所示)。

在一些实施例中，分析处理器105包括时频域变换器201。

在一些实施例中，时频域变换器201被配置为接收多通道信号102，并且应用诸如短时傅立叶变换(STFT)等合适的时域到频域变换，以便将输入的时域信号转换为合适的时频信号。这些时频信号可以被传递到空间分析器203和信号分析器205。

因此，例如，时频信号202可以在时频域表示中表示为

s_i(b，n)，

其中b是频率区间(bin)索引，n是时频块(帧)索引，i是通道索引。在另一表达式中，n可以被认为是具有比原始时域信号的采样率低的采样率的时间索引。这些频率区间可以被分组为子带，这些子带将区间中的一个或多个区间分组为频带索引的子带k＝0、……、K-1。每个子带k具有最低区间b_k，low和最高区间b_k，high，并且子带包含从b_k，low到b_k，high的所有区间。子带的宽度可以近似于任何合适的分布。例如等效矩形带宽(ERB)标度或Bark标度。

在一些实施例中，分析处理器105包括空间分析器203。空间分析器203可以被配置为接收时频信号202，并且基于这些信号估计方向参数108。方向参数可以基于任何基于音频的“方向”确定来确定。

例如，在一些实施例中，空间分析器203被配置为利用两个或更多个信号输入来估计方向。这表示用于估计“方向”的最简单配置，可以对更多的信号执行更复杂的处理。

因此，空间分析器203可以被配置为针对音频信号的帧内的每个频带和时频块提供至少一个方位角和仰角，表示为方位角和仰角θ(k，n)。方向参数108也可以被传递到方向索引生成器205。

空间分析器203还可以被配置为确定能量比参数110。能量比可以被认为是音频信号的能量的确定，该音频信号可以被认为从一个方向到达的。方向与总能量比r(k，n)可以例如使用方向估计的稳定性度量、或者使用任何相关度量、或者用于获取比率参数的任何其他合适的方法来估计。能量比可以被传递到能量比编码器207。

空间分析器203还可以被配置为确定一定数目的相干参数112，这些相干参数可以包括在时频域中分析的环绕相干性(γ(k，n))和扩展相干性(ζ(k，n))。

因此，总的来说，分析处理器被配置为接收时域多通道或其他格式，诸如麦克风或双通道音频信号。

在此之后，分析处理器可以应用时域到频域变换(例如，STFT)来生成用于分析的合适的时频域信号，然后应用方向分析以确定方向和能量比参数。

分析处理器然后可以被配置为输出所确定的参数。

尽管这里针对每个时间索引n来表示方向、能量比和相干参数，但是在一些实施例中，这些参数可以在若干时间索引之上组合。这同样适用于频率轴，正如已经表达的那样，若干频率区间b的方向可以由以若干频率区间b组成的频带k中的一个方向参数来表达。这同样适用于本文中讨论的所有空间参数。

在一些实施例中，方向数据可以使用16比特来表示，使得每个方位参数近似地用9比特来表示，并且仰角用7比特来表示。在这样的实施例中，能量比参数可以用8比特来表示。对于每个帧，可以有N个子带(其中N可以在1到24之间并且可以固定在5)和M个时频(TF)块(其中M的值可以是M＝4)。因此，在该示例中，需要(16+8)xMxN比特来存储每个帧的未压缩方向和能量比元数据。

同样如图2所示，根据一些实施例，示出了示例元数据编码器/量化器111。

元数据编码器/量化器111可以包括方向编码器205。方向编码器205被配置为接收方向参数(诸如方位角和仰角θ(k，n)108(以及在一些实施例中，接收预期的比特分配)，并且由此生成合适的编码输出。在一些实施例中，编码基于量化操作，其中量化或码本位置是其中球体的布置形成在“表面”球体上以环布置的球面网格，该环由查找表定义，该查找表由所确定的量化分辨率定义。换言之，球面网格使用利用较小的球体覆盖球体的想法，并且将较小球体的中心视为定义几乎等距方向网格的点。因此，较小的球体限定围绕中心点的圆锥体或立体角，其可以根据任何合适的索引算法进行索引。尽管本文中描述球面量化，但是可以使用任何合适的线性量化栅格。

然后，可以通过确定对应方向参数仰角值是否足够相似以采用嵌入式灵活边界码本来进一步组合量化值。

编码的方向参数206然后可以被传递到组合器211。

元数据编码器/量化器111可以包括能量比编码器207。能量比编码器207被配置为接收能量比，并且确定用于压缩子带和时频块的能量比的合适的编码。例如，在一些实施例中，能量比编码器207被配置为使用3比特来编码每个能量比参数值。

此外，在一些实施例中，代替传输或存储所有TF块的所有能量比值，每子带仅传输或存储一个加权平均值。该平均值可以通过考虑每个时间块的总能量来确定，从而有利于具有更多能量的子带的值。

在这样的实施例中，量化的能量比值208对于给定子带的所有TF块是相同的。

在一些实施例中，能量比编码器207还被配置为将量化(编码)的能量比值208传递到组合器211。

元数据编码器/量化器111可以包括组合器211。组合器被配置为接收编码(或量化/压缩)的方向参数和能量比参数，并且将它们组合以生成合适的输出(例如，可以与传送信号组合或与传送信号分开传输或存储的元数据比特流)。

关于图3，示出了根据一些实施例的如图2所示的方向编码器/量化器的示例操作。

初始操作是获取元数据(诸如方位角值、仰角值、能量比等)，如图3的步骤301所示。

然后，可以对方向值(仰角、方位角)进行压缩或编码(例如，通过应用球面量化或任何合适的压缩)，如图3的步骤303所示。

对能量比值进行压缩或编码(例如，通过每子带生成加权平均值，并且然后将其量化为3比特值)，如图3的步骤305所示。

然后，组合编码的方向性值和能量比(以及在一些实施例中，诸如相干值等其他参数)以生成编码元数据，如图3的步骤307所示。在一些实施例中，编码的方向性值(和能量比)直接在编码的传送音频信号数据流内被多路复用。

方向编码器205关于图4进一步详细地示出。

在一些实施例中，方向编码器可以包括量化确定器/比特分配器401。量化确定器/比特分配器401可以被配置为接收每个子带的编码/量化的能量比208。此外，量化确定器/比特分配器401可以被配置为接收用于方向编码值400的分配比特，该方向编码值400定义已经分配了多少比特用于对时频区间的方向参数进行编码。例如，在音频元数据由每个子带的方位角、仰角和能量比数据组成的情况下，方向性数据可以用16比特表示，使得方位角近似地用9比特表示，并且仰角近似地用7比特表示。能量比可以由8比特来表示。对于每个帧，存在N个子带和M＝4个时频(TF)块，使得需要(16+8)xMxN比特来存储每个帧的未压缩元数据。根据编解码器功能模式，子带的数目可以是1到24之间的任何数目。对于较低的比特率，子带的数目被固定到较低值，例如N＝5，在其他情况下，它可以因帧而异，并且取决于相似时频图块的数目。

在一些实施例中，能量比的编码可以使用3比特来编码每个能量比值。此外，代替发送所有TF块的所有能量比值，每子带仅发送一个加权平均值。该平均值是通过考虑每个时间块的总能量来计算的，从而有利于具有更多能量的子带的值。

此外，在一些实施例中，量化确定器/比特分配器401可以被配置为获取输入格式指示符402。输入格式指示符402可以基于任何合适的方法来获取。例如，在一些实施例中，输入格式指示符由装置基于对输入音频信号的分析来确定。在一些另外的实施例中，输入格式指示符是通过接收与输入音频信号相关联的合适的指示符(例如，作为与输入音频信号相关联的元数据)来获取的。

量化确定器/比特分配器401然后可以根据这些值确定编码控制信息，诸如分配用于编码每个子带的比特数目以及当前子带的所有TF图块(时间块)的方位角和仰角的量化分辨率，并且进一步控制量化/编码操作。量化分辨率可以例如通过允许由能量比的值和所分配的比特给出的预定数目的比特来设置。

该控制可以使得在低比特率(其可以是在分配每时间频率时间的比特数目之后，该方向的每个方位角元素的可用比特预算为2-5比特)下并且已经获取输入是多通道格式数据的指示符，代替直接使用与可用比特数目相对应的方位角均匀量化器，而是对方位角值的压扩版本进行均匀量化，然后将其压扩回。

在一些实施例中，量化确定器/比特分配器401被配置为确定用于对TF图块之上的子带进行编码的比特数目是否小于确定的阈值。例如，在有少于11比特用于对4个TF图块之上的子带的仰角元素进行编码的情况下，量化确定器/比特分配器401可以被配置为控制编码/量化操作，以检查平均仰角/灵活方位角量化是否优于仰角/方位角压扩量化。

在一些实施例中，编码器205包括距离确定器421。距离确定器421可以由量化确定器/比特分配器401控制，使得当为当前子带的每个TF图块而分配的最大比特数目小于或等于阈值时，距离d1和d2被确定。其中角距离被计算为

其中θ_av为平均仰角。d1距离是在使用压扩器编码时的量化失真的估计，d2距离是在使用平均仰角/灵活方位角编码时的量化失真的估计。

在一些实施例中，该估计是基于每个码本中的未量化角度和实际值来进行的，而不计算量化值。

在一些实施例中，考虑仰角的方差，因为如果其方差大于确定的值，则子带的多于一个仰角值被编码。这在PCT/FI2019/050675中进一步详述。

距离确定器421被配置为确定距离d2是否小于距离d1。

在一些实施例中，编码器205包括平均仰角/灵活方位角编码器420。当分配给当前子带的每个TF块的最大比特数目大于所允许的比特数目时，平均仰角/灵活方位角编码器420可以由量化确定器/比特分配器401确定来控制，以在分配给当前分带的比特数内对每个TF块的仰角和方位角值进行编码。

此外，当距离d2小于距离d1时，平均仰角/灵活方位角编码器420可以由距离确定器421控制，以在分配给当前子带的比特数目内对每个TF图块的仰角和方位角值进行编码。换言之，当在使用编码时的量化失真的估计小于在使用压扩方法时的量化失真的估计时进行编码。

平均仰角编码器/灵活方位编码器420包括平均仰角量化器413。平均仰角量化器413被配置为确定TF图块之上的子带的平均仰角值，然后对该平均仰角值进行编码(并且使用)。然后基于所确定的量化栅格/配置对平均仰角值进行量化。例如，在一些实施例中，平均仰角量化器413被配置为用1或2比特(1比特用于值0度，2比特用于+/-36度)对平均仰角值进行编码。

此外，平均仰角编码器/灵活边界编码器420包括灵活方位角量化器，该灵活方位角量化器被配置为针对所考虑的TF图块中的每个图块的方位角值采用灵活边界嵌入式码本。在一些实施例中，方位编码边界是(以度为单位)0、+30、-30、+110、-110、+135、-135。所有方位角值都在这些值内被量化。然后，估计多比特(其可以包括熵编码，例如Golomb-Rice编码缩减)，并且在使用太多比特的情况下，边界方向逐渐向前移动，而具有较小的损伤(较小的失真)。

在一些实施例中，编码器205包括压扩编码器410。压扩编码器410包括仰角量化器403，该仰角量化器403被配置为量化子带的TF图块中的每个仰角元素。

因此，在一些实施例中，仰角量化器415被配置为基于仰角元素值和量化栅格或其他量化配置，来确定量化的仰角元素值(或量化信息)。

量化的仰角信息可以被传递到压扩器405，并且在一些实施例中被传递到逆压扩器409。

编码器205还可以包括压扩器405。压扩器405可以被配置为接收方向性参数108的方位角元素，并且还被配置为从量化确定器/比特分配器401接收量化的仰角值和控制。

压扩器405然后可以被配置为基于量化的仰角值来选择压扩函数。在一些实施例中，压扩函数还可以基于输入通道格式来确定，该输入通道格式可以作为控制或指示符来从量化确定器/比特分配器401来提供。因此，例如可以存在与确定的5.1通道输入格式相关联的一个或多个压扩函数，以及与确定的7.1通道输入格式相关联的一个或多个压扩函数。

然后，压扩函数可以应用于方向性参数的方位角元素，以生成可以传递到方位角量化器407的压扩方位角元素。

关于图6和图7，示出了示例压扩函数。关于图6，示出了第一压扩函数，例如，当仰角为零时，可以选择该第一压扩函数。可以使用函数605将输入方位角(X轴)601值映射到压扩方位角(Y轴)603值。此外，图6示出了一系列原始码字(量化值示出为圆圈)607和压扩码字609(量化值示出为星号)。由此产生的码字使得在正面和侧面的分辨率得以提高，其中直接信号更有可能源自多通道设置。在图6中，对应有5个值，并且它们对应于3比特量化器，因为另外三个码字用于负方位角值。尽管本文中所示的示例是3比特码字示例，但是相同的压扩函数可以用于4个或5个或更多比特。

当量化仰角大于给定阈值时，前方方向较少存在，并且压扩函数根据图7中的函数发生变化。关于图7，示出了第二压扩函数，例如，当仰角不为零时，可以选择该第二压扩函数。可以使用函数705将输入方位角(X轴)701值映射到压扩方位角(Y轴)703值。此外，图7示出了一系列原始码字(量化值示出为圆圈)707和压缩码字709(量化值示出为星号)。根据图7中定义的压扩函数，很少有点被量化为零或+/-180。这些点的百分比可以通过压扩函数的前/后激活值来调节，即，压扩函数定义中的第一和最后y值(分别为20和160)。

然后，压扩器405的输出被传递到方位角量化器407，在那里应用量化(诸如图6和图7中的码字所示)。

压扩编码器410还可以包括方位角量化器407，方位角量化器407被配置为接收压扩器405的输出，并且量化方位角值。然后，这些值被传递到逆压扩器409。在一些实施例中，逆压扩器409在解码器133内实现，因此，这些值作为量化的方位角元素从压扩器编码器410被输出。

压扩器编码器410在一些情况下还可以包括逆压扩器409。逆压扩器409可以被配置为接收方向参数的量化的压扩方位角元素，并且还被配置为从量化确定器/比特分配器401接收量化的压扩的仰角值和控制。

然后，逆压扩器409可以被配置为基于量化的仰角值来选择逆压扩函数。在一些实施例中，逆压扩函数还可以基于输入通道格式来确定，该输入通道格式可以作为来自量化确定器/比特分配器401的控制或指示符被提供。然后，逆压扩函数可以被应用于方向性参数的量化的压扩方位角元素，以生成量化的方位角元素。

逆压扩函数将是在压扩器405中应用的压扩函数的逆。在一些实施例中，压扩器、量化器和逆压扩器是相同的功能元件。

在一些实施例中，量化确定器/比特分配器401在确定存在多于阈值比特分配(例如，11比特)时，采用压扩编码器来对TF图块的子带进行编码。

关于图5，示出了如图4所示的方向编码器205的操作流程图。

初始操作是获取方向性元数据(诸如方位角值、仰角值等)、编码的能量比值和比特分配，如图5的步骤501所示。

然后，基于能量比值来初始确定量化分辨率，如图5的步骤503所示。

编码检查(其中根据阈值检查可用比特的数目)，如图5中的步骤505所示。

在可用比特的数目大于阈值的情况下，实现如下所述的步骤512、514、516和518中所示的压扩方位角量化操作。

在可用比特的数目小于阈值的情况下，进行距离(误差或相似性)检查，以在与方向参数相比时，确定基于如下所述的步骤512、514、516和518中所示的压扩方位角量化操作的量化与如步骤511、513中所示的平均仰角/灵活方位角量化操作之间的损失。

如果如图5中步骤509的检查操作所示的仰角/压扩方位角量化操作的误差距离较大，则可以基于平均仰角/灵活方位角量化操作来对方向参数/值进行编码，如步骤511、513所示。

因此，基于根据量化能量比值而确定的量化对平均仰角进行量化，如图5的步骤511所示。

然后，基于如上所述的灵活编码操作对方位角元素进行量化，如图5的步骤513所示。

如果如图5中步骤509的检查操作所示的仰角/压扩方位角量化操作的误差距离不大，则可以基于压扩方位量化操作来对方向参数/值进行编码，如图5的步骤512、514、516和518所示。

对仰角参数进行量化，如图5的步骤512所示。

在一些实施例中，压扩函数是基于量化的仰角(和输入函数)确定的，并且被应用于方位角值，如图5的步骤514所示。

然后，对压扩的方位角值进行量化(基于根据量化的能量比而确定的量化栅格)，如图5的步骤516所示。

然后，在一些实施例中，可以对量化的压扩的方位角值进行逆压扩，如图5的步骤518所示。如上所述的这种操作可以在解码器内实现，并且因此相对于编码器可以是可选的。例如，关于方向的编码，逆压扩操作可以是可选的(因为方向值的逆压扩可以在解码器内实现)。

然而，在方位角(或方向值)的量化值被用于编码其他参数(例如，相干值的编码)的一些实施例中，可以执行逆压扩操作，以便逆压扩值可以被用于对其他参数进行编码。

换言之，在一些实施例中，逆压扩操作可以被实现以辅助其他参数的编码，但不被应用于方向(或具体地，压扩的方位角值)，因为逆压扩操作可以在解码器处被应用。

然后，输出“量化的”方位角和仰角值，如图5的步骤519所示。

然后，可以输出编码的方向值，如图5的步骤521所示。

因此，对于对应方向性参数，每子带或每组TF图块具有低比特分配的系统，检查仰角值。如果它们不够相似，则针对每个TF图块单独量化所考虑的子带中的方向性信息。此外，在输入格式被确定为多通道的情况下，可以执行以下步骤：

1.量化的仰角仅限于正值(包括零)

2.如果量化的仰角为零，则

a.使用压扩函数F1对方位角进行压扩(例如，如图6所示)

b.使用方位角的可用比特均匀地(uniformly)量化压扩值

c.(可选)对量化的方位角进行逆压扩

d.标识与仰角/量化的方位角相关联的球面指数值

否则

a.使用压扩函数F2对方位角进行压扩(例如，如图7所示)

b.使用方位角的可用比特均匀地量化压扩值

c.(可选)对量化的方位角进行逆压扩

d.标识与仰角/量化的方位角相关联的球面指数值

3.结束

可以提到，验证步骤2被应用于通道输入格式不同于5.1或7.1通道输入格式的情况，或者更一般地，它不是作为单个平面的输入格式(因为这些输入格式总是返回零仰角)。

此外，在一些实施例中，在诸如基于5.1和基于7.1的输入格式之间可能存在函数差异，因为这些格式的优选方位角值不同。

可以使用线性段方便地描述压扩函数，从而实现低复杂度和减少ROM印记，因为相同的函数可以用于压扩和去压扩(逆压扩)。例如，可以实现压扩/逆压扩操作，诸如下面的C代码示例中所示：

/>

所提出的实施例可以提高低比特率下的方向量化分辨率，并且这对于来自“前方”的声音来说是特别可听的。在这样的实施例中，不需要为不同数目的比特存储非均匀码本，只需要10个压扩函数值。

关于图8，进一步详细地示出解码器133。

解码器133在一些实施例中包括解复用器801，该解复用器801被配置为接收编码的音频信号(编码的传送信号)、编码的能量比和编码的方向性参数(诸如编码的方位角和编码的仰角值)，并且将数据流解复用为单独的编码的音频信号、编码的功率比和编码的方向性参数。

在一些实施例中，解码器还包括音频信号解码器135，该音频信号解码器135被配置为接收编码的音频信号，并且对这些音频信号进行解码，以生成可以传递到合成处理器139的解码的音频信号810。

此外，在一些实施例中，解码器133包括能量比解码器803，该能量比解码器803被配置为接收编码的能量比，并且对这些能量比进行解码，以生成可以传递到合成处理器139的能量比804。

另外，解码器133包括方向解码器805。方向解码器805被配置为接收平均仰角值和灵活量化的方位角值，并且基于已知的灵活量化方法重新生成仰角值和方位角值(当方向值基于已知的平均仰角/灵活方位角量化方法被编码时)。

此外，方向解码器将接收与均匀量化器相对应的方位角索引，从均匀量化器获取该值，然后对其进行逆压扩以获取真实码字。此外，在一些实施例中，方向解码器805在一些实现中还可以包括逆压扩器409。逆压扩器409可以被配置为接收方向参数的量化的压扩方位角元素，并且还可以被配置为接收量化的压扩的仰角值。

逆压扩器409然后可以被配置为基于量化的仰角值来选择逆压扩函数。在一些实施例中，逆压扩函数还可以基于通道格式来确定，该通道格式可以作为控制或指示符来从量化确定器/比特分配器来提供。然后，逆压扩函数可以被应用于方向性参数的量化的压扩方位角元素，以生成量化的方位角元素。

逆压扩函数将是在压扩器405中应用的压扩函数的逆。

在一些实施例中，当与仰角分开编码时，方位角索引将分开获取，并且当联合编码时(例如，当量化栅格是已知的球面索引时)，将联合获取，然后提取方位角索引并且对其进行解码。

关于图9，示出了如图8所示的解码器/合成处理器示例操作的流程图。

因此，对编码信号进行解复用，如图9的步骤901所示。

音频信号的解码如图9的步骤902所示。

能量比空间参数的解码如图9的步骤903所示。

基于解码的能量比对方向进行解码，如图9的步骤905所示(其中当编码器中使用压扩操作时，应用逆压扩操作)。

然后，可以基于空间参数(方向和能量比)和音频信号来渲染音频信号，如图9的步骤907所示。

在一些实施例中，当存在关于音频源方向的先验信息时，也可以使用压扩。此外，在一些实施例中，压扩操作或被选择以实现压扩操作的压扩函数可以取决于使用情况或应用。

关于图10，示出了可以用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板电脑、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码，诸如本文中描述的方法。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括程序代码部分，用于存储可在处理器1407上实现的程序代码。此外，在一些实施例中，存储器1411还可以包括用于存储数据的存储数据部分，例如，根据本文中描述的实施例已经处理或将要处理的数据。存储在程序代码部分内的所实现的程序代码和存储在存储数据部分内的数据可以由处理器1407在需要时经由存储器处理器耦合来取出。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可以耦合到处理器1407。在一些实施例中，处理器1407可以控制用户接口1405的操作，并且从用户接口1406接收输入。在一些实施例中，用户接口1405可以使得用户能够例如经由小键盘向设备1400输入命令。在一些实施例中，用户接口1405可以使得用户能够从设备1400获取信息。例如，用户接口1405可以包括被配置为向用户显示来自设备1400的信息的显示器。在一些实施例中，用户接口1405可以包括触摸屏或触摸接口，该触摸屏或触摸接口能够使得信息能够被输入到设备1400并且进一步向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是用于与如本文中描述的位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发器。在这样的实施例中，收发器可以耦合到处理器1407，并且被配置为实现与其他装置或电子设备的通信，例如经由无线通信网络。在一些实施例中，收发器或任何合适的收发器或传输器和/或接收器部件可以被配置为经由导线或有线耦合与其他电子设备或装置通信。

收发器可以通过任何合适的已知通信协议与其他装置通信。例如，在一些实施例中，收发器可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(例如，IEEE 802.X)、合适的短距离射频通信协议(诸如蓝牙)或红外数据通信路径(IRDA)。

收发器输入/输出端口1409可以被配置为接收信号，并且在一些实施例中，使用执行合适代码的处理器1407来确定本文中描述的参数。

通常，各种实施例可以用硬件或专用电路系统、软件、逻辑或其任何组合来实现。本公开的一些方面可以以硬件来实现，而其他方面可以以固件或软件来实现，固件或软件可以由控制器、微处理器或其他计算设备执行，尽管本公开不限于此。虽然本公开的各个方面可以被示出和描述为框图、流程图或使用一些其他图示，但应清楚地理解，作为非限制性示例，本文中描述的这些块、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合来实现。

本申请中使用的术语“电路系统”可以是指以下中的一项或多项或全部：

(a)仅硬件电路实现(诸如仅在模拟和/或数字电路系统中的实现)以及

(b)硬件电路和软件的组合，诸如(如适用)：

(i)(多个)模拟和/或数字硬件电路与软件/固件的组合，以及

(ii)具有软件的(多个)硬件处理器的任何部分(包括(多个)数字信号处理器、软件和(多个)存储器)，它们一起工作以使得装置(诸如移动电话或服务器)执行各种功能，以及

(c)(多个)硬件电路和/或(多个)处理器，诸如(多个)微处理器或(多个)微处理器的一部分，其需要软件(如固件)进行操作，但当不需要软件进行操作时，软件可以不存在。

电路系统的这个定义适用于这个术语在本申请中的所有使用，包括在任何权利要求中。作为另外的示例，如本申请中使用的，术语电路系统还涵盖仅硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其伴随软件和/或固件的实现。

例如，如果适用于特定权利要求元素，则术语电路系统还涵盖用于移动设备的基带集成电路或处理器集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

本公开的实施例可以通过可由移动设备的数据处理器执行的计算机软件来实现，诸如在处理器实体中实现，或者通过硬件来实现，或者通过软件和硬件的组合来实现。计算机软件或程序(也称为程序产品，包括软件例程、小应用和/或宏)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括一个或多个计算机可执行组件，当程序运行时，该计算机可执行组件被配置为执行实施例。一个或多个计算机可执行组件可以是至少一个软件代码或其部分。

此外，在这点上，应当注意，如图中所示的逻辑流的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤以及逻辑电路、块和功能的组合。软件可以存储在物理介质上，诸如存储器芯片或在处理器内实现的存储器块、诸如硬盘或软盘等磁介质、以及诸如DVD及其数据变体CD等光学介质。物理介质是非暂态介质。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、FPGA、门级电路和基于多核处理器架构的处理器中的一种或多种。

本公开的实施例可以在诸如集成电路模块等各种组件中实践。总的来说，集成电路的设计是一个高度自动化的过程。复杂而强大的软件工具可用于将逻辑级设计转换为准备好在半导体衬底上蚀刻和形成的半导体电路设计。

本公开的各种实施例所寻求的保护范围由独立权利要求规定。本说明书中描述的不属于独立权利要求范围的实施例和特征(如果有的话)将被解释为有助于理解本公开的各种实施例的示例。

前述描述已经通过非限制性示例的方式提供了对本公开的示例性实施例的完整并且有信息的描述。然而，当结合附图和所附权利要求阅读时，鉴于前述描述，各种修改和改编对于相关领域技术人员来说可以变得很清楚。然而，本公开的教导的所有这样的和类似的修改仍将落入所附权利要求中限定的本发明的范围内。实际上，还存在另外的实施例，其包括先前讨论的一个或多个实施例与任何其他实施例的组合。

Claims

1.一种装置，包括部件，所述部件被配置为：

获取多通道音频信号；

获取与所述多通道音频信号的至少两个时频部分相关联的方向参数值，与至少两个时频部分相关联的所述方向参数值包括与至少两个时频部分相关联的仰角元素和方位角元素；以及

对所获取的所述方向参数值进行压扩编码，被配置为对所获取的所述方向参数值进行压扩编码的所述部件还被配置为：

对所述仰角元素进行量化；

基于量化的所述仰角元素和/或多通道音频信号格式来确定压扩函数；

基于应用于所述方位角元素的所述压扩函数来生成压扩方位角元素；以及

对所述压扩方位角元素进行量化。

2.根据权利要求1所述的装置，其中所述部件还被配置为：基于所述压扩函数的逆，对量化的所述压扩方位角元素进行去压扩。

3.根据权利要求1或2中任一项所述的装置，其中被配置为基于量化的所述仰角元素和/或多通道音频信号格式来确定压扩函数的所述部件被配置为：基于量化的所述仰角元素和所述多通道音频信号格式来确定压扩函数。

4.根据权利要求1至3中任一项所述的装置，其中被配置为对所获取的所述方向参数值进行压扩编码的所述部件还被配置为：针对每个量化的仰角元素和量化的压扩方位角元素生成码字。

5.根据权利要求2所述的装置，其中被配置为对所获取的所述方向参数值进行压扩编码的所述部件还被配置为：针对每个量化的仰角元素和去压扩的量化的压扩方位角元素生成码字。

6.根据权利要求3或从属于权利要求3的任何权利要求中任一项所述的装置，其中所述部件还被配置为：确定用于所述压扩编码的量化误差以及平均仰角编码，其中被配置为确定平均仰角编码的所述部件被配置为：

对用于帧内的子带的平均仰角元素进行量化；以及

基于具有可变边界的量化栅格对所述方位角元素进行量化，并且其中所述部件被配置为：基于所述量化误差来选择压扩编码输出或平均仰角编码输出。

7.根据权利要求1至6中任一项所述的装置，其中所述部件还被配置为：基于所分配数目的比特来确定量化栅格，所分配数目的所述比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，所述能量比值与所获取的所述方向参数值相关联，其中被配置为对所述仰角元素进行量化的所述部件被配置为：基于所述量化栅格对所述仰角元素进行量化，并且被配置为对所述压扩方位角元素进行量化的所述部件被配置为：基于所述量化栅格对所述压扩方位角进行量化。

8.一种装置，包括部件，所述部件被配置为：

获取至少一个编码比特流，所述至少一个编码比特流包括：编码的多通道音频信号和压扩编码的方向参数值，压扩编码的所述方向参数值与编码的所述多通道音频信号的至少两个时频部分相关联，并且与至少两个时频部分相关联的编码的所述方向参数值包括与至少两个时频部分相关联的编码的仰角元素和压扩编码的方位角元素；

对编码的所述仰角元素进行解码；

基于量化的所述仰角元素和/或多通道格式来确定去压扩函数；

基于应用于压扩编码的所述方位角元素的所述去压扩函数，生成去压扩方位角元素。

9.根据权利要求8所述的装置，其中被配置为基于编码的所述仰角元素和/或多通道音频信号格式来确定去压扩函数的所述部件还被配置为：基于编码的所述仰角元素和所述多通道音频信号格式来确定去压扩函数。

10.根据权利要求8或9中任一项所述的装置，其中被配置为对编码的所述仰角元素进行解码的所述部件还被配置为：对用于每个量化的仰角元素的码字进行解码。

11.根据权利要求8至10中任一项所述的装置，其中所述部件还被配置为：基于所分配数目的比特来确定量化栅格，所分配数目的所述比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，所述能量比值与所获取的所述方向参数值相关联，其中被配置为对用于每个量化的仰角元素的码字进行解码的所述部件被配置为：基于所述量化栅格对所述仰角元素进行解码。

12.一种方法，包括：

获取多通道音频信号；

对所获取的所述方向参数值进行压扩编码，其中对所获取的所述方向参数值进行压扩编码包括：

对所述仰角元素进行量化；

对所述压扩方位角元素进行量化。

13.根据权利要求12所述的方法，还包括：基于所述压扩函数的逆，对量化的所述压扩方位角元素进行去压扩。

14.根据权利要求12或13中任一项所述的方法，其中基于量化的所述仰角元素和/或多通道音频信号格式来确定压扩函数还包括：基于量化的所述仰角元素和所述多通道音频信号格式来确定压扩函数。

15.根据权利要求12至14中任一项所述的方法，其中对所获取的所述方向参数值进行压扩编码还包括：针对每个量化的仰角元素和量化的压扩方位角元素生成码字。

16.根据权利要求13所述的方法，其中对所获取的所述方向参数值进行压扩编码还包括：针对每个量化的仰角元素和去压扩的量化的压扩方位角元素生成码字。

17.根据权利要求14或从属于权利要求14的任何权利要求中任一项所述的方法，还包括：确定用于所述压扩编码的量化误差以及平均仰角编码，其中所述平均仰角编码包括：

对用于帧内的子带的平均仰角元素进行量化；以及

基于具有可变边界的量化栅格对所述方位角元素进行量化，并且所述方法还包括：基于所述量化误差来选择压扩编码输出或平均仰角编码输出。

18.根据权利要求12至17中任一项所述的方法，还包括：基于所分配数目的比特来确定量化栅格，所分配数目的所述比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，所述能量比值与所获取的所述方向参数值相关联，其中对所述仰角元素进行量化包括：基于所述量化栅格对所述仰角元素进行量化，并且对所述压扩方位角元素进行量化包括：基于所述量化栅格对所述压扩方位角进行量化。

19.一种方法，包括：

对编码的所述仰角元素进行解码；

基于编码的所述仰角元素和/或编码的多通道音频信号格式来确定去压扩函数；以及

20.根据权利要求19所述的方法，其中基于编码的所述仰角元素和/或编码的多通道音频信号格式来确定去压扩函数包括：基于编码的所述仰角元素和编码的所述多通道音频信号格式来确定去压扩函数。

21.根据权利要求19或20中任一项所述的方法，其中对编码的所述仰角元素进行解码还包括：对用于每个量化的仰角元素的码字进行解码。

22.根据权利要求19至21中任一项所述的方法，还包括：基于所分配数目的比特来确定量化栅格，所分配数目的所述比特用于基于能量比值的值来对包括子带和时间块的帧内的每个子带进行编码，所述能量比值与所获取的所述方向参数值相关联，其中对用于每个量化的仰角元素的码字进行解码包括：基于所述量化栅格对所述仰角元素进行解码。