CN110544484B

CN110544484B - 高阶Ambisonic音频编解码方法及装置

Info

Publication number: CN110544484B
Application number: CN201910898634.6A
Authority: CN
Inventors: 马士超
Original assignee: Zhongke Chaoying Beijing Media Technology Co ltd
Current assignee: Zhongke Wanying Beijing Technology Co ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2021-12-21
Anticipated expiration: 2039-09-23
Also published as: CN110544484A

Abstract

本发明提供一种高阶Ambisonic音频编解码方法及装置，编码包括：基于主成分分析法确定高阶Ambisonic音频的主成分矩阵，基于已训练的长短时记忆网络LSTM预测器对高阶Ambisonic音频进行预测，根据高阶Ambisonic音频、主成分矩阵和预测结果确定音频残差后对高阶Ambisonic音频进行编码；解码包括：将主成分矩阵投影至高维空间获得高维空间矩阵，基于LSTM预测器对主成分矩阵进行预测，根据高维空间矩阵、预测结果和音频残差获得解码后的高阶Ambisonic音频。该方案能减少存储高阶Ambisonic音频所需的参数，扩展其使用范围，使其适用于流媒体播放等实时性要求较高的场合。

Description

高阶Ambisonic音频编解码方法及装置

技术领域

本发明涉及高阶Ambisonic音频的编解码技术领域，特别涉及一种高阶Ambisonic音频编解码方法及装置。

背景技术

高阶音频技术(Higher Order Ambisonics，HOA)是一阶立体音频技术(FirstOrder Ambisonics，FOA)的扩展，该技术通过重建空间中声场分布来拟合最佳听音位置附近的声场。高阶Ambisonic音频技术主要基于以下两个原理：(1)声场可以被视为多个平面波函数的叠加；(2)可以用无限级数来表示平面波函数。

随着HOA阶数的升高，存储高阶Ambisonic音频所需要的信道数也随之增加，这意味着存储HOA音频需要大量参数，该特性限制了高阶Ambisonic音频的应用场景，尤其不适用于流媒体播放等实时性要求较高的场合。

发明内容

本发明实施例提供了一种高阶Ambisonic音频编解码方法及装置，解决了现有技术中高阶Ambisonic音频不适用于流媒体播放等实时性要求较高的场合的技术问题。

本发明实施例提供了一种高阶Ambisonic音频编码方法，该方法包括：

基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵；

根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵，训练长短期记忆网络LSTM预测器，获得LSTM预测器参数；

基于已训练的LSTM预测器，对高阶Ambisonic音频进行预测，获得预测结果；

根据高阶Ambisonic音频、主成分矩阵和预测结果，确定音频残差；

按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码，获得已编码的高阶Ambisonic音频。

本发明实施例提供了一种高阶Ambisonic音频编码装置，该装置包括：

主成分矩阵确定模块，用于基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵；

训练模块，用于根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵，训练长短期记忆网络LSTM预测器，获得LSTM预测器参数；

预测模块，用于基于已训练的LSTM预测器，对高阶Ambisonic音频进行预测，获得预测结果；

音频残差确定模块，用于根据高阶Ambisonic音频、主成分矩阵和预测结果，确定音频残差；

编码模块，用于按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码，获得已编码的高阶Ambisonic音频。

本发明实施例提供了一种高阶Ambisonic音频解码方法，该方法包括：

获得已编码的高阶Ambisonic音频，其中，已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差；

将高阶Ambisonic音频的主成分矩阵投影至高维空间，获得高维空间矩阵，其中，高维空间为N维空间，N为高阶Ambisonic音频的信道数目；

根据LSTM预测器参数构造LSTM预测器，基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测，获得预测结果；

根据高维空间矩阵、预测结果和音频残差，获得解码后的高阶Ambisonic音频。

本发明实施例还提供了一种高阶Ambisonic音频解码装置，该装置包括：

已编码的高阶Ambisonic音频获得模块，用于获得已编码的高阶Ambisonic音频，其中，已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差；

投影模块，用于将高阶Ambisonic音频的主成分矩阵投影至高维空间，获得高维空间矩阵，其中，高维空间为N维空间，N为高阶Ambisonic音频的信道数目；

预测模块，用于根据LSTM预测器参数构造LSTM预测器，基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测，获得预测结果；

解码模块，用于根据高维空间矩阵、预测结果和音频残差，获得解码后的高阶Ambisonic音频。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

在本发明实施例中，基于主成分分析法PCA确定高阶Ambisonic音频HOA的主成分矩阵，基于长短时记忆网络LSTM预测器对HOA进行预测获得预测结果，根据高阶Ambisonic音频、主成分矩阵和预测结果确定音频残差，按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码，这样已编码的高阶Ambisonic音频的参数较少，有利于解决HOA音频参数量巨大、难以用于网络传播等缺点，有利于扩展HOA音频的应用范围，如流媒体传输等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种高阶Ambisonic音频编码方法流程图；

图2是LSTM网络的结构图；

图3是本发明实施例提供的一种高阶Ambisonic音频解码方法流程图；

图4是本发明实施例的高阶Ambisonic音频编码装置的结构框图；

图5是本发明实施例的高阶Ambisonic音频解码装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于现有技术中存在的存储HOA音频需要大量参数，该特性限制了高阶Ambisonic音频的应用场景，尤其不适用于流媒体播放等实时性要求较高的场合的问题，设计合理的编解码方法对HOA音频进行压缩有利于扩展高分辨率HOA音频之应用范围，也有利于高分辨率HOA音频发挥其潜在的经济价值。

音频压缩技术属于数据压缩的一种，这种技术可以减少音频文件的大小，并降低音频流传输的带宽需求。音频压缩方法通常可以被分为无损压缩和有损压缩两类。无损音频压缩是一个可逆的过程，此类方法利用音频中的冗余信息对数据进行压缩。无损压缩方法减小了音频的文件大小，但压缩后的文件保留所有原始音频信息，播放效果与原始音频文件完全一致。常见的无损压缩技术有行程长度编码、熵编码、字典编码等。

有损音频压缩方法通常对原始文件的某些不重要信息做近似处理，以得到更小的压缩文件，压缩后文件大小约为原本的百分之五至百分之二十。有损压缩是一个不可逆的压缩过程。有损压缩方法将心理学、人类听觉系统等因素纳入音频压缩的考量之中。这类压缩方法在理论上损失了原始文件中的部分信息，但这类信息的损失不一定能被人耳清晰分辨。有损音频压缩常采用改进的离散余弦变换、分形压缩、小波压缩、向量量化、线性预测编码等技术对音频文件进行压缩，并利用人类的听觉掩蔽以及听觉阈特性，舍弃不重要的声音信息。

基于此，在本发明实施例中，提供了一种高阶Ambisonic音频编码方法，如图1所示，该方法包括：

步骤101：基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵；

步骤102：根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵，训练长短期记忆网络LSTM预测器，获得LSTM预测器参数；

步骤103：基于已训练的LSTM预测器，对高阶Ambisonic音频进行预测，获得预测结果；

步骤104：根据高阶Ambisonic音频、主成分矩阵和预测结果，确定音频残差；

步骤105：按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码，获得已编码的高阶Ambisonic音频。

在本发明实施例中，主成分分析(Principal components analysis，PCA)是一种通过统计分析简化数据集的方法，该方法通过正交变换将原始变量投影为一系列线性不相关的变量，这些不相关的变量被称为主成分。主成分分析可以被看作一个线性方程，该方程通过线性系数来指示投影方向。主成分分析常被用于减少数据维数，同时保持数据中对方差贡献最大的特征。主成分分析的这种特性是通过保留低阶成分、忽略高阶成分做到的。低阶成分能保留数据的重要方面，但由于主成分分析依赖所给数据，故数据准确性对分析的效果影响很大。

步骤101具体包括：

假设给定的离散时间高阶Ambisonic音频HOA包括C个信道，共包含F帧，则该高阶Ambisonic音频HOA表示为矩阵X＝[x₁,x₂,…,x_F]，该矩阵中的每一列x_i都是一个C维向量，其中i是时间序列索引，且i∈[1,F]；

假设E是转置矩阵X^T(X的转置矩阵)所有元素的平均值，则Y^T＝X^T-E表示将X^T以平均值E为中心移动至原点后的矩阵；

利用奇异值分解将Y分解为Y＝Λ∑V^T，其中Λ表示YY^T的特征向量，是一个正交矩阵，V表示Y^TY的特征向量，∑是C行F列的非负矩形对角矩阵，构造Z^T＝Y^TΛ＝V∑^TΛ^TΛ＝V∑^T，Z^T的第一列为第一主成分，Z^T的第二列为第二主成分，依此类推；

由Λ的正交性，Z^TΛ^T＝Y^T＝X^T-E成立；

将X^T降低到L维，取Z^T的前L个主成分，记作Z_L＝Λ_L ^TY＝∑_LV^T，其中∑_L＝I_L×C∑，且I_L×C为L行C列的单位矩阵。

在本发明实施例中，近年来，以人工神经网络为代表的人工智能技术发展迅速。长短时记忆网络(Long Short-Term Memory，LSTM)是一种时间递归神经网络(RNN)。该网络由于其独特的设计结构，适合对时序数据进行分析与预测。

LSTM网络的结构如图2所示，该网络具有两个传输状态：元胞状态(Cell State)与隐藏状态(Hidden State)，分别记作c^t与h^t，t是状态编号。随着t的不断增加，c^t＝z^f⊙c^t-1+zⁱ⊙z往往变化缓慢，而h^t在不同节点下改变迅速，这种特性使得LSTM网络适于处理和预测时间序列中不同延迟长度的信息。

LSTM网络内部主要有三个阶段：

(1)忘记阶段，该阶段通过计算忘记门控z^f＝σ(W^f[x^t,h^t-1]+b^f)，并将忘记门控z^f与上一个元胞状态c^t-1相乘，以对c^t-1进行选择性忘记，其中W^f是忘记门的权重，b^f是忘记门的偏移量，σ是Sigmoid函数；

(2)选择记忆阶段，计算输入门控zⁱ＝σ(Wⁱ[x^t,h^t-1]+bⁱ))，并利用双曲正切函数z＝tanh(W[x^t,h^t-1]+b)对[x^t,h^t-1]进行操作，最终将zⁱ与z相乘，以对当前输入x^t进行选择性记忆，其中Wⁱ是输入门的权重，bⁱ是输入门的偏移量，W是对[x^t,h^t-1]进行操作的权重值，b是对[x^t,h^t-1]进行操作的偏移量，σ是Sigmoid函数，tanh是双曲正切函数；

(3)输出阶段，该阶段首先计算输出门控z^o＝σ(W^o[x^t,h^t-1]+b^o)，并将zⁱ⊙z与z^f⊙c^t-1相加作为当前的元胞状态c^t，并计算隐藏状态h^t＝z^o⊙tanh(c^t)，以及最终的输出状态y^t＝σ(W′h^t)，W′是对h^t进行操作的权重。

步骤102具体包括：

将主成分矩阵投影至高维空间，获得高维空间矩阵，其中，高维空间为N维空间，N为高阶Ambisonic音频的信道数目；

将高阶Ambisonic音频与高维空间矩阵的差值、主成分矩阵作为LSTM预测器的训练数据，对LSTM预测器进行训练，获得LSTM预测器参数。

具体的，在计算得到矩阵X＝[x₁,x₂,…,x_F]的主成分Z_L ^T后，我们将Z_L ^T投影回高维空间，记作X′＝Λ_LZ_L+E，并将X-X′与降维矩阵Z_L作为LSTM预测器的训练数据。

使用梯度下降方法对LSTM预测器进行训练，梯度下降方法基于以下的观察：如果函数LSTM(Z_L)可微且有定义，那么函数LSTM(Z_L)在x₀点沿着梯度相反的方向▽LSTM(Z_L)下降最快。

在本发明实施例中，步骤103至步骤105具体包括：

在训练得到LSTM预测器后，使用LSTM预测器对HOA进行初步预测，并将预测结果记为X″＝LSTM(Z_L)，然后根据HOA、PCA投影获得的高维空间矩阵与LSTM预测的结果计算音频残差R＝X-X′-X″，存储音频残差R。

本发明还提出一种高阶Ambisonic音频解码方法，如图3所示，该方法包括：

步骤301：获得已编码的高阶Ambisonic音频，其中，已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差；

步骤302：将高阶Ambisonic音频的主成分矩阵投影至高维空间，获得高维空间矩阵，其中，高维空间为N维空间，N为高阶Ambisonic音频的信道数目；

步骤303：根据LSTM预测器参数构造LSTM预测器，基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测，获得预测结果；

步骤304：根据高维空间矩阵、预测结果和音频残差，获得解码后的高阶Ambisonic音频。

具体的，已编码的HOA音频信号由矩阵的均值E、PCA分析结果Z_L、投影矩阵Λ_L、LSTM预测器参数、音频残差R等几部分组成。在音频解码时，首先将PCA分析结果Z_L投影回高维空间，得到X′＝Λ_LZ_L+E。此后，根据LSTM预测器参数构造LSTM神经网络，并将PCA分析结果Z_L输入已构建的LSTM网络，用以计算预测结果X″＝LSTM(Z_L)。在计算得到X′、X″之后，将X′、X″与R相加，得到解码后的HOA信号。

基于同一发明构思，本发明实施例中还提供了一种高阶Ambisonic音频编码装置，如下面的实施例所述。由于高阶Ambisonic音频编码装置解决问题的原理与高阶Ambisonic音频编码方法相似，因此高阶Ambisonic音频编码装置的实施可以参见高阶Ambisonic音频编码方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是本发明实施例的高阶Ambisonic音频编码装置的结构框图，如图4所示，包括：

主成分矩阵确定模块401，用于基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵；

训练模块402，用于根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵，训练长短期记忆网络LSTM预测器，获得LSTM预测器参数；

预测模块403，用于基于已训练的LSTM预测器，对高阶Ambisonic音频进行预测，获得预测结果；

音频残差确定模块404，用于根据高阶Ambisonic音频、主成分矩阵和预测结果，确定音频残差；

编码模块405，用于按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码，获得已编码的高阶Ambisonic音频。

在本发明实施例中，所述主成分矩阵确定模块401具体用于：

假设E是转置矩阵X^T所有元素的平均值，则Y^T＝X^T-E表示将X^T以平均值E为中心移动至原点后的矩阵；

由Λ的正交性，Z^TΛ^T＝Y^T＝X^T-E成立；

将X^T降低到L维，取Z^T的前L个主成分，记作Z_L＝Λ_L ^TY＝∑_L V^T，其中∑_L＝I_L×C∑，且I_L×C为L行C列的单位矩阵。

在本发明实施例中，所述训练模块402具体用于：

在本发明实施例中，所述音频残差确定模块404具体用于：

将高阶Ambisonic音频减去高维空间矩阵再减去预测结果，得到音频残差。

基于同一发明构思，本发明实施例中还提供了一种高阶Ambisonic音频解码装置，如下面的实施例所述。由于高阶Ambisonic音频解码装置解决问题的原理与高阶Ambisonic音频解码方法相似，因此高阶Ambisonic音频解码装置的实施可以参见高阶Ambisonic音频解码方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是本发明实施例的高阶Ambisonic音频解码装置的结构框图，如图5所示，包括：

已编码的高阶Ambisonic音频获得模块501，用于获得已编码的高阶Ambisonic音频，其中，已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差；

投影模块502，用于将高阶Ambisonic音频的主成分矩阵投影至高维空间，获得高维空间矩阵，其中，高维空间为N维空间，N为高阶Ambisonic音频的信道数目；

预测模块503，用于根据LSTM预测器参数构造LSTM预测器，基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测，获得预测结果；

解码模块504，用于根据高维空间矩阵、预测结果和音频残差，获得解码后的高阶Ambisonic音频。

在本发明实施例中，所述解码模块504具体用于：

将高维空间矩阵加上预测结果再加上音频残差，获得解码后的高阶Ambisonic音频。

综上所述，本发明提出的高阶Ambisonic音频编解码方法及装置具有如下优点：

(1)该方法基于主成分分析法PCA确定高阶Ambisonic音频HOA的主成分矩阵，基于长短时记忆网络LSTM预测器对HOA进行预测获得预测结果，根据高阶Ambisonic音频、主成分矩阵和预测结果确定音频残差，按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码，这样已编码的高阶Ambisonic音频的参数较少，有利于解决高分辨率HOA音频参数量巨大、难以用于网络传播等缺点，有利于扩展高分辨率HOA音频的应用范围，如流媒体传输等领域；

(2)将多元统计、机器学习等技术应用于音频编解码领域，促进了人工智能技术在音频编解码领域的应用。

本领域内的技术人员应知悉，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的装置。

这些计算机程序也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中的一个或多个流程，和/或方框图中的一个或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员而言，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高阶Ambisonic音频编码方法，其特征在于，包括：

基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵；

2.如权利要求1所述的高阶Ambisonic音频编码方法，其特征在于，基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵，包括：

由Λ的正交性，Z^TΛ^T＝Y^T＝X^T-E成立；

3.如权利要求1所述的高阶Ambisonic音频编码方法，其特征在于，根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵，按照如下方式训练长短期记忆网络LSTM预测器，获得LSTM预测器参数：

4.如权利要求3所述的高阶Ambisonic音频编码方法，其特征在于，根据高阶Ambisonic音频、主成分矩阵和预测结果，确定音频残差，包括：

5.一种高阶Ambisonic音频解码方法，其特征在于，包括：

6.如权利要求5所述的高阶Ambisonic音频解码方法，其特征在于，根据高维空间矩阵、预测结果和音频残差，获得解码后的高阶Ambisonic音频，包括：

7.一种高阶Ambisonic音频编码装置，其特征在于，包括：

8.如权利要求7所述的高阶Ambisonic音频编码装置，其特征在于，所述主成分矩阵确定模块具体用于：

由Λ的正交性，Z^TΛ^T＝Y^T＝X^T-E成立；

9.如权利要求7所述的高阶Ambisonic音频编码装置，其特征在于，所述训练模块具体用于：

10.如权利要求9所述的高阶Ambisonic音频编码装置，其特征在于，所述音频残差确定模块具体用于：

11.一种高阶Ambisonic音频解码装置，其特征在于，包括：

12.如权利要求11所述的高阶Ambisonic音频解码装置，其特征在于，所述解码模块具体用于：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。