CN107945810B

CN107945810B - 用于编码和解码hoa或多声道数据的方法和装置

Info

Publication number: CN107945810B
Application number: CN201610892254.8A
Authority: CN
Inventors: 向裴
Original assignee: Hangzhou Mimo Technology Co ltd
Current assignee: Hangzhou Mimo Technology Co ltd
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2021-12-14
Anticipated expiration: 2036-10-13
Also published as: WO2018068676A1; CN107945810A

Abstract

提供一种用于编码和解码HOA或多声道数据的方法和装置。原始高阶高保真度立体声像复制(HOA)信号需要由高码率流来表现。为了降低带宽，本发明公开了一种用于编码/解码和压缩/解压缩HOA的方法和装置，用于从频谱角度以及基于物理声音特性，将HOA编码和压缩为低码率流，或者从低码率流解码和解压缩。该方法和装置也适用于一般多声道数据压缩。编码信号大小上的降低压制了频谱或空间变换的额外工作负载。

Description

用于编码和解码HOA或多声道数据的方法和装置

技术领域

本发明涉及音频编解码，更具体涉及用于编码和解码HOA或多声道数据的方法和装置。

背景技术

高阶高保真度立体声像复制信号(High Order Ambisonics)，其基础理论在数学上已经被证明，与球面谐波信号(Spherical Harmonics)以及波场合成(WFS,WavefieldSynthesis)是对声音信号相通的表示方法以下均用HOA来表示)。HOA信号需要由高码率流来表现。

为了降低带宽，希望有一种方法和装置来针对HOA信号进行编码/解码，以及压缩/解压缩。

更一般地，希望该方法和装置也能适用于多声道数据。

发明内容

本发明的目标在于，提供一种用于编码/解码和压缩/解压缩高阶HOA信号的方法和装置，用于从频谱角度以及基于物理声音特性，将HOA信号编码和压缩为低码率流，或者从低码率流解码和解压缩。

此外，希望该方法和装置也适用于一般多声道数据压缩。编码信号大小上的降低压制了频谱或空间变换的额外工作负载。

缝隙信号(Niche Signal)通常指的是高阶HOA信号，具有较窄的方向性模式。气氛信号意味着具有较少方向性信息的信号。

在本发明中引入了缝隙信号探测器，用来检查缝隙信号的存在。

在本发明中，基于奇异值分解(SVD，Singular Value Decomposition)、主成分分析(PCA，Principal Component Analysis)或其他替换方案来进行缝隙信号的频谱编码/解码。

此外，基于物理声音特性，诸如频率分布、掩蔽和人耳敏感度来进行气氛信号的频谱编码/解码。

在本发明的装置中使用了频谱信号压缩器/解压缩器。

此外，在编解码中利用了动态滤波和填充(补零)或去滤波。

在解码端使用了频谱双耳/扬声器渲染。

此外，提供了通过SVD进行多声道数据编码和解码的方法和装置。

根据本发明的第一方面，提供一种针对HOA信号的编码方法，包括：

将HOA信号进行域变换；

使用缝隙信号探测器来检测缝隙频谱中的缝隙信号，使用自适应频率范围选择器来选择气氛频谱中的气氛信号；

分别针对缝隙信号和气氛信号进行加权；

分别针对缝隙信号和气氛信号进行空间变换；

针对加权、空间变换后的缝隙信号进行SVD；

针对加权、空间变换后的气氛信号进行动态滤波；

针对上述处理后的缝隙信号进行编码；

针对上述处理后的气氛信号进行编码；

将编码处理后的缝隙信号与气氛信号进行压缩。

根据本发明的第二方面，提供一种针对HOA信号的解码方法，包括：

将压缩编码信号进行解压缩；

针对解压缩后的缝隙编码信号进行解码；

针对解压缩后的气氛编码信号进行解码；

针对解码后的缝隙信号通过奇异值进行恢复；

针对解码后的气氛信号进行动态补零；

分别针对上述处理后的缝隙信号和气氛信号进行逆空间变换；

分别针对逆空间变换后的缝隙信号和气氛信号进行去加权；

从去加权后的缝隙信号中恢复缝隙频谱，从去加权后的气氛信号中恢复气氛频谱；

针对恢复的缝隙频谱和气氛频谱进行逆域变换以恢复HOA信号。

根据本发明的第三方面，提供一种针对HOA信号的编码装置，包括：

域变换部分，用于将HOA信号进行域变换；

缝隙信号探测器，用于检测缝隙频谱中的缝隙信号；

自适应频率范围选择器，用于选择气氛频谱中的气氛信号；

加权部分，用于分别针对缝隙信号和气氛信号进行加权；

空间变换部分，用于分别针对缝隙信号和气氛信号进行空间变换；

SVD部分，用于针对加权、空间变换后的缝隙信号进行SVD；

动态滤波器，用于针对加权、空间变换后的气氛信号进行动态滤波；

缝隙编码器，用于针对上述处理后的缝隙信号进行编码；

气氛编码器，用于针对上述处理后的气氛信号进行编码；

压缩器，用于将编码处理后的缝隙信号与气氛信号进行压缩。

根据本发明的第四方面，提供一种针对HOA信号的解码装置，包括：

解压缩器，用于将压缩编码信号进行解压缩；

缝隙解码器，用于针对解压缩后的缝隙编码信号进行解码；

气氛解码器，用于针对解压缩后的气氛编码信号进行解码；

奇异值恢复部分，用于针对解码后的缝隙信号通过奇异值进行恢复；

动态补零部分，用于针对解码后的气氛信号进行动态补零；

逆空间变换部分，用于分别针对上述处理后的缝隙信号和气氛信号进行逆空间变换；

去加权部分，用于分别针对逆空间变换后的缝隙信号和气氛信号进行去加权；

频谱恢复部分，用于从去加权后的缝隙信号中恢复缝隙频谱，从去加权后的气氛信号中恢复气氛频谱；

逆域变换部分，用于针对恢复的缝隙频谱和气氛频谱进行逆域变换以恢复HOA信号。

根据本发明的第五方面，提供一种针对多声道信号的编码方法，包括：

将多声道信号进行域变换；

针对域变换后的信号进行加权；

针对加权后的信号进行空间变换；

针对空间变换后的信号进行SVD；

针对SVD后的信号进行压缩。

根据本发明的第六方面，提供一种针对多声道信号的解码方法，包括：

将压缩编码信号进行解压缩；

针对解压缩后的信号通过奇异值进行恢复；

针对上述处理后的信号进行逆空间变换；

针对逆空间变换后的信号进行去加权；

针对去加权后的信号进行逆域变换以恢复多声道信号。

根据本发明的第七方面，提供一种针对多声道信号的编码装置，包括：

域变换部分，用于将多声道信号进行域变换；

加权部分，用于针对域变换后的信号进行加权；

空间变换部分，用于针对加权后的信号进行空间变换；

SVD部分，用于针对空间变换后的信号进行SVD；

压缩器，用于针对SVD后的信号进行压缩。

根据本发明的第八方面，提供一种针对多声道信号的解码装置，包括：

解压缩器，用于将压缩编码信号进行解压缩；

奇异值恢复部分，用于针对解压缩后的信号通过奇异值进行恢复；

逆空间变换部分，用于针对上述处理后的信号进行逆空间变换；

去加权部分，用于针对逆空间变换后的信号进行去加权；

逆域变换部分，用于针对去加权后的信号进行逆域变换以恢复多声道信号。

附图说明

下面参考附图结合实施例说明本发明。在附图中：

图1图示说明根据本发明第一实施例的HOA编码和解码的功能框图。

图2图示说明根据本发明第二实施例的HOA编码和双耳频谱解码的功能框图。

图3图示说明通过SVD进行一般多声道数据编码和解码的功能框图。

具体实施方式

下面将结合附图来详细解释本发明的具体实施例。

图1图示说明根据本发明第一实施例的HOA编码和解码的功能框图。下面将逐一地介绍各个模块的工作情况。

时频变换(域变换)

可以利用DFT(离散傅里叶变换)、DCT(离散余弦变换)、MDCT(修正离散余弦变换)或其他时频变换方法来将信号从时域变换到频域以便进一步分析，诸如编码和压缩。反之，在解码器上施用逆变换。

缝隙信号探测器

在变换为频域之后，针对HOA进行SVD或如PCA的替代方案。假设原始HOA信号为X，SVD(X)＝U*S*V。S代表排序奇异值，而U和V指的是左/右奇异向量。如果奇异值遵从预先定义的标准，诸如1-9定律或其他标准，可以找到缝隙信号。否则，缝隙信号探测器返回否定值。1-9定律意味着排序奇异值的10％占总能量的90％以上。

缝隙频谱信号编码器和解码器

对于缝隙频谱信号，如上所述，在缝隙信号探测器中进行SVD或诸如PCA的替代方案。SVD或其他替代方案可以帮助得到HOA的精炼版本，这帮助最终获取数据压缩。如前所述，SVD(X)＝U*S*V。X是原始HOA信号。S代表奇异值，而U和V指的是左/右奇异向量。

假定缝隙信号探测器返回遵从1-9定律的真值，仅剩余大约2个(HOA或缝隙信号可认为具有21个通道，则21的10％约为2)奇异向量。也就是说，这2个奇异向量贡献了超过90％的能量。可替换地，1-9定律也可以由其他法则或定律来替代，例如最大的3个奇异值的能量贡献必须超过总能量的99％，即前三个奇异值能量之和与所有奇异值能量之和的比率大于99％。在此情况下，U和V中的仅3个向量加上S中相应的3个奇异值馈送到压缩器和元信息中。这些向量被称为精炼的向量：U’、S’和V’。

基于诸如帧大小和声道数量的元信息，解码器对精炼的向量进行补零。补零向量通过X’＝U’*S’*V’来恢复原始信号。

气氛频谱信号编码器和解码器

对于频谱气氛信号，通常高频信号在总能量中占据非常小的部分。动态截止频率选择器检查高频能量分布。可以使用各种规则来动态地确定截止频率。例如，能量分布小于1％的频谱格(bin)可以被忽略。如果高频格贡献超过定义的规则，截止频率选择器返回无效值。在此情况下，不会有低通滤波器起作用。截止频率被馈送到元信息中，同时将相应系数馈送到压缩器中。

解码器基于元信息来动态地对滤波后的气氛频谱信号进行补零，以恢复原始信号。

编码和解码机制的目的在于通过各种实现来降低信号规模。除了基于截止频率进行动态滤波/恢复之外，也可以对编码器/解码器施加诸如频谱抽样/插值的其他替代方案。

HOA加权和去加权(可选)

球谐函数由相关联的勒让德函数(Legendre Function)表示，其范数在谐波之间存在差异。这导致不同阶次的球谐函数之间的不连续。例如，方位角＝0、仰角＝0的1kHz信号在二阶和三阶具有不同的幅度。为了降低或去除不连续，向不同HOA阶次施加权重因子。可替换地，幅度归一化可以起到加权的作用。每个声道将其信号归一化为预先定义的范围，而将归一化因子记录在元信息中。加权有利于下一阶段的空间变换。

解码器端的去加权部分进行逆变换以恢复原始HOA信号。

该部件是可选的。

空间变换(可选)

在对HOA加权之后，可以可选地沿空间进行诸如DFT的空间变化以进一步压缩数据。空间DFT意味着对相同时间或频率的信号进行DFT。在4阶HOA、25声道的情况下，每个声道具有1024点数据。空间DFT沿着声道轴进行，输入数据为25点。总计发生1024*25点DFT。如果不同声道的信号相同或类似，低到中的空间频率格就好到足以恢复信号。诸如DCT、MDCT或其他变换的替换方案可以用来取代DFT。

在解码器端进行逆空间变换以重构HOA信号。

图2中大部分内容与图1相同，除了频谱双耳信号渲染部分。

频谱扬声器/双耳渲染

频谱信号馈送到编码器/解码器和压缩器/解压缩器中。为了节省MIPS(每秒百万条指令数，Million Instructions Per Second)，不需要进行从频谱到时域的逆变换。在频谱上进行扬声器或双耳渲染。最后，在解码器端，仅N声道逆变换是必需的。N代表输出设备的数量。例如，对于双耳渲染，N为2。

通过SVD进行多声道数据编码和解码

上文已经描述了在缝隙频谱信号编码器处施加SVD用于数据压缩。实际上，SVD对所有多声道数据压缩都起作用，而不管底层物理模型。例如，SVD可以被用来编码/解码32声道的3D音频。

诸如PCA的替代方案可以取代SVD。具体请参见图3。

通过加权空间变换进行的多声道数据编码和解码

在特定多声道场景中，存在很强的声道间相关。通过加权空间变换，信号可以从低到中的空间频率格恢复。加权滤波器或幅度归一化可以帮助通过低到中的频谱来表现信号。可选地，在空间变换之前的诸如时频变换的域变换可以进一步改善压缩比。DCT、MDCT、DFT和其他替代方案可以起到与空间变换相同的作用。

解码器进行逆变换以重构原始信号。

示例使用情况场景

1、在现在的声道计数高(即声道数多)的3D音频设置中，为了在回放端具有更准确的渲染质量，原始内容被混合以使得单个对象+元数据被传送并在随后在回放场合被渲染。常规上，这样的对象是分别进行编码的。尽管通常在内容的对象之间不存在很大相关，可以探索它们的空间冗余。可以使用本发明的方法来对所有离散对象一起进行编码(例如，有时共计128个)，因此数据率可以变低，因为对象预设计数高(即对象数多)的场景的空间冗余将被利用和压缩。

2、对于具有虚拟现实(VR)音频的一些产品，通常与3D声场通常是一阶高保真度立体声像复制(FOA)一起产生音乐背景音轨(正常立体声)，使得尽管声场可以旋转，背景音乐将呆在用户头部作为正常立体声音轨。这种平稳、传统、非高保真音轨可以与HOA信号一起被编码，作为附加声道。尽管物理上这些音轨并非声场的一部分，可以探索声道间冗余，由此分析并与HOA信号一起在SVD意义上进行编码。一个示例将是FOA+立体声音乐，总计6声道，其中将像之前一样提取主要成分。

上面已经描述了本发明的各种实施例和实施情形。但是，本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用，而这些应用都在本发明的范围之内。

Claims

1.一种用于编码HOA信号的方法，包括：

将HOA信号进行域变换；

针对域变换后的HOA信号中的缝隙信号和气氛信号分别进行不同的编码，其中，所述缝隙信号指的是高阶HOA信号，具有较窄的方向性模式，所述气氛信号指的是具有较少方向性信息的信号；以及

将编码处理后的缝隙信号与气氛信号进行压缩以便存储或传输。

2.根据权利要求1所述的方法，进一步包括：

使用缝隙信号探测器来检测缝隙频谱中的缝隙信号，使用自适应频率范围选择器来选择气氛频谱中的气氛信号。

3.根据权利要求1所述的方法，其中，针对域变换后的HOA信号中的缝隙信号和气氛信号分别进行不同的编码进一步包括：

针对缝隙信号提取精炼向量以进行相应的编码；

针对气氛信号进行动态滤波以进行相应的编码。

4.根据权利要求3所述的方法，其中，针对缝隙信号提取精炼向量包括针对缝隙信号进行奇异值分解或主成分分析。

5.根据权利要求1所述的方法，其中，在针对域变换后的HOA信号中的缝隙信号和气氛信号分别进行不同的编码之前，所述方法进一步包括：

分别针对缝隙信号和气氛信号进行加权；

分别针对加权后的缝隙信号和气氛信号进行空间变换。

6.一种用于解码HOA信号的方法，包括：

将压缩编码信号进行解压缩；

针对解压缩后的缝隙编码信号和气氛编码信号分别进行不同的解码以得到解码后的缝隙信号和解码后的气氛信号，其中，所述缝隙信号指的是高阶HOA信号，具有较窄的方向性模式，所述气氛信号指的是具有较少方向性信息的信号；以及

对解码后的频谱信号进行逆域变换以恢复HOA信号。

7.根据权利要求6所述的方法，进一步包括：

从解码后的缝隙信号中恢复缝隙频谱，从解码后的气氛信号中恢复气氛频谱。

8.根据权利要求6所述的方法，其中，针对解压缩后的缝隙编码信号和气氛编码信号分别进行不同的解码进一步包括：

针对解码后的缝隙信号通过提取的精炼向量进行恢复；

针对解码后的气氛信号进行动态补零以进行恢复。

9.根据权利要求8所述的方法，其中，针对解码后的缝隙信号通过提取的精炼向量进行恢复包括针对解码后的缝隙信号进行奇异值分解或主成分分析的逆运算以恢复编码前的原始缝隙信号。

10.根据权利要求6所述的方法，其中，在对解码后的频谱信号进行逆域变换以恢复HOA信号之前，本方法进一步包括：

分别针对解码后的缝隙信号和气氛信号进行逆空间变换；

分别针对逆空间变换后的缝隙信号和气氛信号进行去加权。

11.根据权利要求6所述的方法，其中，对解码后的频谱信号进行逆域变换以恢复HOA信号包括：

在频谱上进行N声道输出渲染；

对渲染后的N声道输出进行逆域变换。

12.根据权利要求11所述的方法，其中，N＝2，在频谱上进行双耳输出渲染；对渲染后的双耳输出进行逆域变换以得到双耳信号。

13.一种用于编码HOA信号的装置，包括：

域变换单元，用于将HOA信号进行域变换；

缝隙编码器和气氛编码器，用于针对域变换后的HOA信号中的缝隙信号和气氛信号分别进行不同的编码，其中，所述缝隙信号指的是高阶HOA信号，具有较窄的方向性模式，所述气氛信号指的是具有较少方向性信息的信号；以及

压缩器，用于将编码处理后的缝隙信号与气氛信号进行压缩以便存储或传输。

14.根据权利要求13所述的装置，进一步包括：

缝隙信号探测器，用于检测缝隙频谱中的缝隙信号；以及

自适应频率范围选择器，用于选择气氛频谱中的气氛信号。

15.根据权利要求13所述的装置，其中，所述的缝隙编码器和气氛编码器进一步包括：

精炼单元，用于针对缝隙信号提取精炼向量以进行相应的编码；

动态滤波器，用于针对气氛信号进行动态滤波以进行相应的编码。

16.根据权利要求15所述的装置，其中，所述精炼单元包括用于针对缝隙信号进行奇异值分解的SVD单元或用于针对缝隙信号进行主成分分析的PCA单元。

17.根据权利要求13所述的装置，进一步包括：

加权单元，用于在缝隙编码器和气氛编码器进行编码之前分别针对缝隙信号和气氛信号进行加权；

空间变换单元，用于在缝隙编码器和气氛编码器进行编码之前分别针对加权后的缝隙信号和气氛信号进行空间变换。

18.一种用于解码HOA信号的装置，包括：

解压缩器，用于将压缩编码信号进行解压缩；

缝隙解码器和气氛解码器，用于针对解压缩后的缝隙编码信号和气氛编码信号分别进行不同的解码以得到解码后的缝隙信号和解码后的气氛信号，其中，所述缝隙信号指的是高阶HOA信号，具有较窄的方向性模式，所述气氛信号指的是具有较少方向性信息的信号；以及

逆域变换单元，用于对解码后的频谱信号进行逆域变换以恢复HOA信号。

19.根据权利要求18所述的装置，进一步包括：

恢复单元，用于从解码后的缝隙信号中恢复缝隙频谱，从解码后的气氛信号中恢复气氛频谱。

20.根据权利要求18所述的装置，其中，所述缝隙解码器和气氛解码器进一步包括：

精炼恢复单元，用于针对解码后的缝隙信号通过提取的精炼向量进行恢复；

动态补零单元，用于针对解码后的气氛信号进行动态补零以进行恢复。

21.根据权利要求20所述的装置，其中，所述的精炼恢复单元包括用于针对解码后的缝隙信号进行奇异值分解的逆运算以恢复编码前的原始缝隙信号的SVD恢复单元或用于进行主成分分析的逆运算以恢复编码前的原始缝隙信号的PCA恢复单元。

22.根据权利要求18所述的装置，进一步包括：

逆空间变换单元，用于在逆域变换单元进行逆域变换之前分别针对解码后的缝隙信号和气氛信号进行逆空间变换；

去加权单元，用于在逆域变换单元进行逆域变换之前分别针对逆空间变换后的缝隙信号和气氛信号进行去加权。

23.根据权利要求18所述的装置，其中，所述的逆域变换单元包括：

输出渲染单元，用于在频谱上进行N声道输出渲染；

输出逆域变换单元，用于对渲染后的N声道输出进行逆域变换。

24.根据权利要求23所述的装置，其中，N＝2，所述输出渲染单元用于在频谱上进行双耳输出渲染；所述输出逆域变换单元对渲染后的双耳输出进行逆域变换以得到双耳信号。

25.一种计算机可读介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行如权利要求1所述的用于编码HOA信号的方法。

26.一种计算机可读介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行如权利要求6所述的用于解码HOA信号的方法。