CN110544484B - 高阶Ambisonic音频编解码方法及装置 - Google Patents
高阶Ambisonic音频编解码方法及装置 Download PDFInfo
- Publication number
- CN110544484B CN110544484B CN201910898634.6A CN201910898634A CN110544484B CN 110544484 B CN110544484 B CN 110544484B CN 201910898634 A CN201910898634 A CN 201910898634A CN 110544484 B CN110544484 B CN 110544484B
- Authority
- CN
- China
- Prior art keywords
- order ambisonic
- audio
- matrix
- ambisonic audio
- principal component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 128
- 230000015654 memory Effects 0.000 claims abstract description 19
- 238000000513 principal component analysis Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 abstract 1
- 238000007906 compression Methods 0.000 description 16
- 230000006835 compression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000005428 wave function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/13—Residual excited linear prediction [RELP]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种高阶Ambisonic音频编解码方法及装置,编码包括:基于主成分分析法确定高阶Ambisonic音频的主成分矩阵,基于已训练的长短时记忆网络LSTM预测器对高阶Ambisonic音频进行预测,根据高阶Ambisonic音频、主成分矩阵和预测结果确定音频残差后对高阶Ambisonic音频进行编码;解码包括:将主成分矩阵投影至高维空间获得高维空间矩阵,基于LSTM预测器对主成分矩阵进行预测,根据高维空间矩阵、预测结果和音频残差获得解码后的高阶Ambisonic音频。该方案能减少存储高阶Ambisonic音频所需的参数,扩展其使用范围,使其适用于流媒体播放等实时性要求较高的场合。
Description
技术领域
本发明涉及高阶Ambisonic音频的编解码技术领域,特别涉及一种高阶Ambisonic音频编解码方法及装置。
背景技术
高阶音频技术(Higher Order Ambisonics,HOA)是一阶立体音频技术(FirstOrder Ambisonics,FOA)的扩展,该技术通过重建空间中声场分布来拟合最佳听音位置附近的声场。高阶Ambisonic音频技术主要基于以下两个原理:(1)声场可以被视为多个平面波函数的叠加;(2)可以用无限级数来表示平面波函数。
随着HOA阶数的升高,存储高阶Ambisonic音频所需要的信道数也随之增加,这意味着存储HOA音频需要大量参数,该特性限制了高阶Ambisonic音频的应用场景,尤其不适用于流媒体播放等实时性要求较高的场合。
发明内容
本发明实施例提供了一种高阶Ambisonic音频编解码方法及装置,解决了现有技术中高阶Ambisonic音频不适用于流媒体播放等实时性要求较高的场合的技术问题。
本发明实施例提供了一种高阶Ambisonic音频编码方法,该方法包括:
基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵;
根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,训练长短期记忆网络LSTM预测器,获得LSTM预测器参数;
基于已训练的LSTM预测器,对高阶Ambisonic音频进行预测,获得预测结果;
根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差;
按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,获得已编码的高阶Ambisonic音频。
本发明实施例提供了一种高阶Ambisonic音频编码装置,该装置包括:
主成分矩阵确定模块,用于基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵;
训练模块,用于根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,训练长短期记忆网络LSTM预测器,获得LSTM预测器参数;
预测模块,用于基于已训练的LSTM预测器,对高阶Ambisonic音频进行预测,获得预测结果;
音频残差确定模块,用于根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差;
编码模块,用于按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,获得已编码的高阶Ambisonic音频。
本发明实施例提供了一种高阶Ambisonic音频解码方法,该方法包括:
获得已编码的高阶Ambisonic音频,其中,已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差;
将高阶Ambisonic音频的主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
根据LSTM预测器参数构造LSTM预测器,基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测,获得预测结果;
根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频。
本发明实施例还提供了一种高阶Ambisonic音频解码装置,该装置包括:
已编码的高阶Ambisonic音频获得模块,用于获得已编码的高阶Ambisonic音频,其中,已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差;
投影模块,用于将高阶Ambisonic音频的主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
预测模块,用于根据LSTM预测器参数构造LSTM预测器,基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测,获得预测结果;
解码模块,用于根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
在本发明实施例中,基于主成分分析法PCA确定高阶Ambisonic音频HOA的主成分矩阵,基于长短时记忆网络LSTM预测器对HOA进行预测获得预测结果,根据高阶Ambisonic音频、主成分矩阵和预测结果确定音频残差,按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,这样已编码的高阶Ambisonic音频的参数较少,有利于解决HOA音频参数量巨大、难以用于网络传播等缺点,有利于扩展HOA音频的应用范围,如流媒体传输等领域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种高阶Ambisonic音频编码方法流程图;
图2是LSTM网络的结构图;
图3是本发明实施例提供的一种高阶Ambisonic音频解码方法流程图;
图4是本发明实施例的高阶Ambisonic音频编码装置的结构框图;
图5是本发明实施例的高阶Ambisonic音频解码装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于现有技术中存在的存储HOA音频需要大量参数,该特性限制了高阶Ambisonic音频的应用场景,尤其不适用于流媒体播放等实时性要求较高的场合的问题,设计合理的编解码方法对HOA音频进行压缩有利于扩展高分辨率HOA音频之应用范围,也有利于高分辨率HOA音频发挥其潜在的经济价值。
音频压缩技术属于数据压缩的一种,这种技术可以减少音频文件的大小,并降低音频流传输的带宽需求。音频压缩方法通常可以被分为无损压缩和有损压缩两类。无损音频压缩是一个可逆的过程,此类方法利用音频中的冗余信息对数据进行压缩。无损压缩方法减小了音频的文件大小,但压缩后的文件保留所有原始音频信息,播放效果与原始音频文件完全一致。常见的无损压缩技术有行程长度编码、熵编码、字典编码等。
有损音频压缩方法通常对原始文件的某些不重要信息做近似处理,以得到更小的压缩文件,压缩后文件大小约为原本的百分之五至百分之二十。有损压缩是一个不可逆的压缩过程。有损压缩方法将心理学、人类听觉系统等因素纳入音频压缩的考量之中。这类压缩方法在理论上损失了原始文件中的部分信息,但这类信息的损失不一定能被人耳清晰分辨。有损音频压缩常采用改进的离散余弦变换、分形压缩、小波压缩、向量量化、线性预测编码等技术对音频文件进行压缩,并利用人类的听觉掩蔽以及听觉阈特性,舍弃不重要的声音信息。
基于此,在本发明实施例中,提供了一种高阶Ambisonic音频编码方法,如图1所示,该方法包括:
步骤101:基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵;
步骤102:根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,训练长短期记忆网络LSTM预测器,获得LSTM预测器参数;
步骤103:基于已训练的LSTM预测器,对高阶Ambisonic音频进行预测,获得预测结果;
步骤104:根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差;
步骤105:按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,获得已编码的高阶Ambisonic音频。
在本发明实施例中,主成分分析(Principal components analysis,PCA)是一种通过统计分析简化数据集的方法,该方法通过正交变换将原始变量投影为一系列线性不相关的变量,这些不相关的变量被称为主成分。主成分分析可以被看作一个线性方程,该方程通过线性系数来指示投影方向。主成分分析常被用于减少数据维数,同时保持数据中对方差贡献最大的特征。主成分分析的这种特性是通过保留低阶成分、忽略高阶成分做到的。低阶成分能保留数据的重要方面,但由于主成分分析依赖所给数据,故数据准确性对分析的效果影响很大。
步骤101具体包括:
假设给定的离散时间高阶Ambisonic音频HOA包括C个信道,共包含F帧,则该高阶Ambisonic音频HOA表示为矩阵X=[x1,x2,…,xF],该矩阵中的每一列xi都是一个C维向量,其中i是时间序列索引,且i∈[1,F];
假设E是转置矩阵XT(X的转置矩阵)所有元素的平均值,则YT=XT-E表示将XT以平均值E为中心移动至原点后的矩阵;
利用奇异值分解将Y分解为Y=Λ∑VT,其中Λ表示YYT的特征向量,是一个正交矩阵,V表示YTY的特征向量,∑是C行F列的非负矩形对角矩阵,构造ZT=YTΛ=V∑TΛTΛ=V∑T,ZT的第一列为第一主成分,ZT的第二列为第二主成分,依此类推;
由Λ的正交性,ZTΛT=YT=XT-E成立;
将XT降低到L维,取ZT的前L个主成分,记作ZL=ΛL TY=∑LVT,其中∑L=IL×C∑,且IL×C为L行C列的单位矩阵。
在本发明实施例中,近年来,以人工神经网络为代表的人工智能技术发展迅速。长短时记忆网络(Long Short-Term Memory,LSTM)是一种时间递归神经网络(RNN)。该网络由于其独特的设计结构,适合对时序数据进行分析与预测。
LSTM网络的结构如图2所示,该网络具有两个传输状态:元胞状态(Cell State)与隐藏状态(Hidden State),分别记作ct与ht,t是状态编号。随着t的不断增加,ct=zf⊙ct-1+zi⊙z往往变化缓慢,而ht在不同节点下改变迅速,这种特性使得LSTM网络适于处理和预测时间序列中不同延迟长度的信息。
LSTM网络内部主要有三个阶段:
(1)忘记阶段,该阶段通过计算忘记门控zf=σ(Wf[xt,ht-1]+bf),并将忘记门控zf与上一个元胞状态ct-1相乘,以对ct-1进行选择性忘记,其中Wf是忘记门的权重,bf是忘记门的偏移量,σ是Sigmoid函数;
(2)选择记忆阶段,计算输入门控zi=σ(Wi[xt,ht-1]+bi)),并利用双曲正切函数z=tanh(W[xt,ht-1]+b)对[xt,ht-1]进行操作,最终将zi与z相乘,以对当前输入xt进行选择性记忆,其中Wi是输入门的权重,bi是输入门的偏移量,W是对[xt,ht-1]进行操作的权重值,b是对[xt,ht-1]进行操作的偏移量,σ是Sigmoid函数,tanh是双曲正切函数;
(3)输出阶段,该阶段首先计算输出门控zo=σ(Wo[xt,ht-1]+bo),并将zi⊙z与zf⊙ct-1相加作为当前的元胞状态ct,并计算隐藏状态ht=zo⊙tanh(ct),以及最终的输出状态yt=σ(W′ht),W′是对ht进行操作的权重。
步骤102具体包括:
将主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
将高阶Ambisonic音频与高维空间矩阵的差值、主成分矩阵作为LSTM预测器的训练数据,对LSTM预测器进行训练,获得LSTM预测器参数。
具体的,在计算得到矩阵X=[x1,x2,…,xF]的主成分ZL T后,我们将ZL T投影回高维空间,记作X′=ΛLZL+E,并将X-X′与降维矩阵ZL作为LSTM预测器的训练数据。
使用梯度下降方法对LSTM预测器进行训练,梯度下降方法基于以下的观察:如果函数LSTM(ZL)可微且有定义,那么函数LSTM(ZL)在x0点沿着梯度相反的方向▽LSTM(ZL)下降最快。
在本发明实施例中,步骤103至步骤105具体包括:
在训练得到LSTM预测器后,使用LSTM预测器对HOA进行初步预测,并将预测结果记为X″=LSTM(ZL),然后根据HOA、PCA投影获得的高维空间矩阵与LSTM预测的结果计算音频残差R=X-X′-X″,存储音频残差R。
本发明还提出一种高阶Ambisonic音频解码方法,如图3所示,该方法包括:
步骤301:获得已编码的高阶Ambisonic音频,其中,已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差;
步骤302:将高阶Ambisonic音频的主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
步骤303:根据LSTM预测器参数构造LSTM预测器,基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测,获得预测结果;
步骤304:根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频。
具体的,已编码的HOA音频信号由矩阵的均值E、PCA分析结果ZL、投影矩阵ΛL、LSTM预测器参数、音频残差R等几部分组成。在音频解码时,首先将PCA分析结果ZL投影回高维空间,得到X′=ΛLZL+E。此后,根据LSTM预测器参数构造LSTM神经网络,并将PCA分析结果ZL输入已构建的LSTM网络,用以计算预测结果X″=LSTM(ZL)。在计算得到X′、X″之后,将X′、X″与R相加,得到解码后的HOA信号。
基于同一发明构思,本发明实施例中还提供了一种高阶Ambisonic音频编码装置,如下面的实施例所述。由于高阶Ambisonic音频编码装置解决问题的原理与高阶Ambisonic音频编码方法相似,因此高阶Ambisonic音频编码装置的实施可以参见高阶Ambisonic音频编码方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本发明实施例的高阶Ambisonic音频编码装置的结构框图,如图4所示,包括:
主成分矩阵确定模块401,用于基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵;
训练模块402,用于根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,训练长短期记忆网络LSTM预测器,获得LSTM预测器参数;
预测模块403,用于基于已训练的LSTM预测器,对高阶Ambisonic音频进行预测,获得预测结果;
音频残差确定模块404,用于根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差;
编码模块405,用于按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,获得已编码的高阶Ambisonic音频。
在本发明实施例中,所述主成分矩阵确定模块401具体用于:
假设给定的离散时间高阶Ambisonic音频HOA包括C个信道,共包含F帧,则该高阶Ambisonic音频HOA表示为矩阵X=[x1,x2,…,xF],该矩阵中的每一列xi都是一个C维向量,其中i是时间序列索引,且i∈[1,F];
假设E是转置矩阵XT所有元素的平均值,则YT=XT-E表示将XT以平均值E为中心移动至原点后的矩阵;
利用奇异值分解将Y分解为Y=Λ∑VT,其中Λ表示YYT的特征向量,是一个正交矩阵,V表示YTY的特征向量,∑是C行F列的非负矩形对角矩阵,构造ZT=YTΛ=V∑TΛTΛ=V∑T,ZT的第一列为第一主成分,ZT的第二列为第二主成分,依此类推;
由Λ的正交性,ZTΛT=YT=XT-E成立;
将XT降低到L维,取ZT的前L个主成分,记作ZL=ΛL TY=∑L VT,其中∑L=IL×C∑,且IL×C为L行C列的单位矩阵。
在本发明实施例中,所述训练模块402具体用于:
将主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
将高阶Ambisonic音频与高维空间矩阵的差值、主成分矩阵作为LSTM预测器的训练数据,对LSTM预测器进行训练,获得LSTM预测器参数。
在本发明实施例中,所述音频残差确定模块404具体用于:
将高阶Ambisonic音频减去高维空间矩阵再减去预测结果,得到音频残差。
基于同一发明构思,本发明实施例中还提供了一种高阶Ambisonic音频解码装置,如下面的实施例所述。由于高阶Ambisonic音频解码装置解决问题的原理与高阶Ambisonic音频解码方法相似,因此高阶Ambisonic音频解码装置的实施可以参见高阶Ambisonic音频解码方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是本发明实施例的高阶Ambisonic音频解码装置的结构框图,如图5所示,包括:
已编码的高阶Ambisonic音频获得模块501,用于获得已编码的高阶Ambisonic音频,其中,已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差;
投影模块502,用于将高阶Ambisonic音频的主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
预测模块503,用于根据LSTM预测器参数构造LSTM预测器,基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测,获得预测结果;
解码模块504,用于根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频。
在本发明实施例中,所述解码模块504具体用于:
将高维空间矩阵加上预测结果再加上音频残差,获得解码后的高阶Ambisonic音频。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
综上所述,本发明提出的高阶Ambisonic音频编解码方法及装置具有如下优点:
(1)该方法基于主成分分析法PCA确定高阶Ambisonic音频HOA的主成分矩阵,基于长短时记忆网络LSTM预测器对HOA进行预测获得预测结果,根据高阶Ambisonic音频、主成分矩阵和预测结果确定音频残差,按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,这样已编码的高阶Ambisonic音频的参数较少,有利于解决高分辨率HOA音频参数量巨大、难以用于网络传播等缺点,有利于扩展高分辨率HOA音频的应用范围,如流媒体传输等领域;
(2)将多元统计、机器学习等技术应用于音频编解码领域,促进了人工智能技术在音频编解码领域的应用。
本领域内的技术人员应知悉,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的装置。
这些计算机程序也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中的一个或多个流程,和/或方框图中的一个或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员而言,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种高阶Ambisonic音频编码方法,其特征在于,包括:
基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵;
根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,训练长短期记忆网络LSTM预测器,获得LSTM预测器参数;
基于已训练的LSTM预测器,对高阶Ambisonic音频进行预测,获得预测结果;
根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差;
按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,获得已编码的高阶Ambisonic音频。
2.如权利要求1所述的高阶Ambisonic音频编码方法,其特征在于,基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵,包括:
假设给定的离散时间高阶Ambisonic音频HOA包括C个信道,共包含F帧,则该高阶Ambisonic音频HOA表示为矩阵X=[x1,x2,…,xF],该矩阵中的每一列xi都是一个C维向量,其中i是时间序列索引,且i∈[1,F];
假设E是转置矩阵XT所有元素的平均值,则YT=XT-E表示将XT以平均值E为中心移动至原点后的矩阵;
利用奇异值分解将Y分解为Y=Λ∑VT,其中Λ表示YYT的特征向量,是一个正交矩阵,V表示YTY的特征向量,∑是C行F列的非负矩形对角矩阵,构造ZT=YTΛ=V∑TΛTΛ=V∑T,ZT的第一列为第一主成分,ZT的第二列为第二主成分,依此类推;
由Λ的正交性,ZTΛT=YT=XT-E成立;
将XT降低到L维,取ZT的前L个主成分,记作ZL=ΛL TY=∑LVT,其中∑L=IL×C∑,且IL×C为L行C列的单位矩阵。
3.如权利要求1所述的高阶Ambisonic音频编码方法,其特征在于,根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,按照如下方式训练长短期记忆网络LSTM预测器,获得LSTM预测器参数:
将主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
将高阶Ambisonic音频与高维空间矩阵的差值、主成分矩阵作为LSTM预测器的训练数据,对LSTM预测器进行训练,获得LSTM预测器参数。
4.如权利要求3所述的高阶Ambisonic音频编码方法,其特征在于,根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差,包括:
将高阶Ambisonic音频减去高维空间矩阵再减去预测结果,得到音频残差。
5.一种高阶Ambisonic音频解码方法,其特征在于,包括:
获得已编码的高阶Ambisonic音频,其中,已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差;
将高阶Ambisonic音频的主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
根据LSTM预测器参数构造LSTM预测器,基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测,获得预测结果;
根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频。
6.如权利要求5所述的高阶Ambisonic音频解码方法,其特征在于,根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频,包括:
将高维空间矩阵加上预测结果再加上音频残差,获得解码后的高阶Ambisonic音频。
7.一种高阶Ambisonic音频编码装置,其特征在于,包括:
主成分矩阵确定模块,用于基于主成分分析法PCA确定高阶Ambisonic音频的主成分矩阵;
训练模块,用于根据高阶Ambisonic音频和高阶Ambisonic音频的主成分矩阵,训练长短期记忆网络LSTM预测器,获得LSTM预测器参数;
预测模块,用于基于已训练的LSTM预测器,对高阶Ambisonic音频进行预测,获得预测结果;
音频残差确定模块,用于根据高阶Ambisonic音频、主成分矩阵和预测结果,确定音频残差;
编码模块,用于按照主成分矩阵、LSTM预测器参数和音频残差对所述高阶Ambisonic音频进行编码,获得已编码的高阶Ambisonic音频。
8.如权利要求7所述的高阶Ambisonic音频编码装置,其特征在于,所述主成分矩阵确定模块具体用于:
假设给定的离散时间高阶Ambisonic音频HOA包括C个信道,共包含F帧,则该高阶Ambisonic音频HOA表示为矩阵X=[x1,x2,…,xF],该矩阵中的每一列xi都是一个C维向量,其中i是时间序列索引,且i∈[1,F];
假设E是转置矩阵XT所有元素的平均值,则YT=XT-E表示将XT以平均值E为中心移动至原点后的矩阵;
利用奇异值分解将Y分解为Y=Λ∑VT,其中Λ表示YYT的特征向量,是一个正交矩阵,V表示YTY的特征向量,∑是C行F列的非负矩形对角矩阵,构造ZT=YTΛ=V∑TΛTΛ=V∑T,ZT的第一列为第一主成分,ZT的第二列为第二主成分,依此类推;
由Λ的正交性,ZTΛT=YT=XT-E成立;
将XT降低到L维,取ZT的前L个主成分,记作ZL=ΛL TY=∑LVT,其中∑L=IL×C∑,且IL×C为L行C列的单位矩阵。
9.如权利要求7所述的高阶Ambisonic音频编码装置,其特征在于,所述训练模块具体用于:
将主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
将高阶Ambisonic音频与高维空间矩阵的差值、主成分矩阵作为LSTM预测器的训练数据,对LSTM预测器进行训练,获得LSTM预测器参数。
10.如权利要求9所述的高阶Ambisonic音频编码装置,其特征在于,所述音频残差确定模块具体用于:
将高阶Ambisonic音频减去高维空间矩阵再减去预测结果,得到音频残差。
11.一种高阶Ambisonic音频解码装置,其特征在于,包括:
已编码的高阶Ambisonic音频获得模块,用于获得已编码的高阶Ambisonic音频,其中,已编码的高阶Ambisonic音频中包括主成分矩阵、LSTM预测器参数和音频残差;
投影模块,用于将高阶Ambisonic音频的主成分矩阵投影至高维空间,获得高维空间矩阵,其中,高维空间为N维空间,N为高阶Ambisonic音频的信道数目;
预测模块,用于根据LSTM预测器参数构造LSTM预测器,基于LSTM预测器对高阶Ambisonic音频的主成分矩阵进行预测,获得预测结果;
解码模块,用于根据高维空间矩阵、预测结果和音频残差,获得解码后的高阶Ambisonic音频。
12.如权利要求11所述的高阶Ambisonic音频解码装置,其特征在于,所述解码模块具体用于:
将高维空间矩阵加上预测结果再加上音频残差,获得解码后的高阶Ambisonic音频。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910898634.6A CN110544484B (zh) | 2019-09-23 | 2019-09-23 | 高阶Ambisonic音频编解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910898634.6A CN110544484B (zh) | 2019-09-23 | 2019-09-23 | 高阶Ambisonic音频编解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110544484A CN110544484A (zh) | 2019-12-06 |
CN110544484B true CN110544484B (zh) | 2021-12-21 |
Family
ID=68714218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910898634.6A Active CN110544484B (zh) | 2019-09-23 | 2019-09-23 | 高阶Ambisonic音频编解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110544484B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11636866B2 (en) | 2020-03-24 | 2023-04-25 | Qualcomm Incorporated | Transform ambisonic coefficients using an adaptive network |
CN111640440B (zh) * | 2020-04-30 | 2022-12-30 | 华为技术有限公司 | 一种音频流解码方法、装置、存储介质及设备 |
CN112530445A (zh) * | 2020-11-23 | 2021-03-19 | 雷欧尼斯(北京)信息技术有限公司 | 高阶Ambisonic音频的编解码方法及芯片 |
CN114582357A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 一种音频编解码方法和装置 |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
CN115881139A (zh) * | 2021-09-29 | 2023-03-31 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
WO2016057926A1 (en) * | 2014-10-10 | 2016-04-14 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
CN106463121A (zh) * | 2014-05-16 | 2017-02-22 | 高通股份有限公司 | 较高阶立体混响信号压缩 |
CN106797525A (zh) * | 2014-08-13 | 2017-05-31 | 三星电子株式会社 | 用于生成和回放音频信号的方法和设备 |
-
2019
- 2019-09-23 CN CN201910898634.6A patent/CN110544484B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
CN106463121A (zh) * | 2014-05-16 | 2017-02-22 | 高通股份有限公司 | 较高阶立体混响信号压缩 |
CN106797525A (zh) * | 2014-08-13 | 2017-05-31 | 三星电子株式会社 | 用于生成和回放音频信号的方法和设备 |
WO2016057926A1 (en) * | 2014-10-10 | 2016-04-14 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
Non-Patent Citations (2)
Title |
---|
First-Order Ambisonic Coding with PCA Matrixing and Quaternion-Based Interpolation;Pierre Mahé,等;《Proceedings of the 22nd International Conference on Digital Audio Effects》;20190906;第DAFX-1-8页 * |
基于双耳时间差的客观指标对基于双耳时间差的客观指标对Ambisonic回放系统回放系统的性能分析;朱天一,等;《南京大学学报(自然科学)》;20171130;第53卷(第6期);第1153-1160页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110544484A (zh) | 2019-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110544484B (zh) | 高阶Ambisonic音频编解码方法及装置 | |
Nagaraj et al. | Competent ultra data compression by enhanced features excerption using deep learning techniques | |
CN113747163B (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
KR20200089635A (ko) | 다수의 상이한 비트레이트로 영상 압축을 하기 위한 시스템들 및 방법들 | |
Gu et al. | Compression of human motion capture data using motion pattern indexing | |
WO2023077707A1 (zh) | 视频编码方法、模型训练方法、设备和存储介质 | |
US20230154053A1 (en) | System and method for scene graph lossless compression by context-based graph convolution | |
CN117354523A (zh) | 一种频域特征感知学习的图像编码、解码、压缩方法 | |
Harell et al. | Rate-distortion in image coding for machines | |
CN115361559A (zh) | 图像编码方法、图像解码方法、装置以及存储介质 | |
Kinsner | Compression and its metrics for multimedia | |
CN114861907A (zh) | 数据计算方法、装置、存储介质和设备 | |
KR20210003514A (ko) | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 | |
Giraldo et al. | Rate-distortion auto-encoders | |
CN112631434A (zh) | 一种基于深度学习的振动触觉编解码方法 | |
Zhao et al. | On entropy-constrained vector quantization using Gaussian mixture models | |
CN115632660B (zh) | 一种数据压缩方法、装置、设备及介质 | |
Xu et al. | Low complexity rate-adaptive deep joint source channel coding for wireless image transmission using tensor-train decomposition | |
CN115361555A (zh) | 图像编码方法、图像编码方法、装置以及计算机存储介质 | |
CN111565314A (zh) | 图像压缩方法、编解码网络训练方法、装置及电子设备 | |
CN114095728B (zh) | 一种端到端的视频压缩方法、装置和计算机可读存储介质 | |
CN117915107B (zh) | 图像压缩系统、图像压缩方法、存储介质与芯片 | |
CN117750021B (zh) | 一种视频压缩方法、装置、计算机设备及存储介质 | |
CN113282552B (zh) | 流量统计日志的相似性向量化方法及系统 | |
US20240340425A1 (en) | Gaussian Mixture Model Entropy Coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230328 Address after: 102300 712, floor 7, building 3, yard 19, Jinsha West Street, Mentougou District, Beijing Patentee after: Zhongke WANYING (Beijing) Technology Co.,Ltd. Address before: Room 712, floor 7, building 3, yard 19, Jinsha West Street, Mentougou District, Beijing 102300 Patentee before: ZHONGKE CHAOYING (BEIJING) MEDIA TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |