CN112365896A - 一种基于栈式稀疏自编码器的面向对象编码方法 - Google Patents

一种基于栈式稀疏自编码器的面向对象编码方法 Download PDF

Info

Publication number
CN112365896A
CN112365896A CN202011102043.2A CN202011102043A CN112365896A CN 112365896 A CN112365896 A CN 112365896A CN 202011102043 A CN202011102043 A CN 202011102043A CN 112365896 A CN112365896 A CN 112365896A
Authority
CN
China
Prior art keywords
side information
code stream
encoder
audio object
sparse self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011102043.2A
Other languages
English (en)
Other versions
CN112365896B (zh
Inventor
胡瑞敏
吴玉林
王晓晨
胡晨昊
李罡
陈玮
柯善发
张灵鲲
刘文可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011102043.2A priority Critical patent/CN112365896B/zh
Publication of CN112365896A publication Critical patent/CN112365896A/zh
Application granted granted Critical
Publication of CN112365896B publication Critical patent/CN112365896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数字音频信号处理技术,具体涉及一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,能在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。

Description

一种基于栈式稀疏自编码器的面向对象编码方法
技术领域
本发明属于数字音频信号处理技术领域,尤其涉及一种基于栈式稀疏自编码器的面向对象编码方法。
背景技术
三维(3D)音频表示具有3个自由度(例如方位角,仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。随着3D音频和视频的发展,对交互式和个性化收听体验的需求迅速增长。常规的基于通道的音频编码技术受到通道数量的限制,并且不能满足用户的个性化重建需求,尤其是在沉浸式场景中,例如数字互动剧院和虚拟现实游戏。基于对象的编码方法作为沉浸式音频的重要表示,结合个性化的渲染系统,可以在各种回放配置中实现生动的内容创建和最佳再现。而且基于对象的编码框架已成功用于商业案例。
国际上许多学者和科研机构都已开展音频对象编码的研究工作,并提出了多种音频对象编码方法。其中最具有代表性的两种方法是德国知名研究机构 Fraunhofer提出的空间音频对象编码技术(Spatial Audio Object Coding,SAOC) [文献1]-[文献3]以及由武汉大学提出的基于最佳参数频率分辨率的音频对象编码方法(Audio object codingbased on optimal parameter frequency resolution, SVD-based SAOC)[文献4]。
空间音频对象编码(SAOC)起源于空间音频编码(Spatial Audio Coding, SAC)[文献5]。SAOC的核心思想是对多个音频对象进行下混,并仅传输每个对象提取的边信息以压缩信号,因此可以实现以低比特率编码多个音频对象。与单独传输所有对象相比,SAOC框架的比特率要低得多。但是,当音频对象的数量增加且代码比特率受到限制时,SAOC重建的音频对象将带来频谱混叠。
SVD-based SAOC方法针对SAOC所存在的问题进行了进一步研究。该方法不仅根据信号失真确定最佳子带数量,而且使用奇异值分解(singular value decomposition,SVD)来减小细分的子带下传输参数的维数,并且可以减少混叠。然而重构的音频对象的质量会受到SVD算法的限制,在较低码率时重建的音频对象质量不佳。
发明内容
针对背景技术存在的问题,本发明提供一种基于栈式稀疏自编码器的面向对象编码方法,
为解决上述技术问题,本发明采用如下技术方案:一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据;
其中,对音频对象边信息进行降维表达具体步骤如下:
步骤11、对输入的J个独立音频信号S1,S2,…,SJ通过改进离散余弦变换 MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,…,OJ
步骤12、对步骤11得到的频谱O1,O2,…,OJ每帧数据进行精细的子带划分;
步骤13、对步骤12中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤14、对步骤12中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,…,GJ
步骤15、将步骤13得到的边信息矩阵G1,G2,…,GJ传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
步骤16、步骤13和步骤15得到的码流合成输出码流,传输到解码端;
其中,从音频对象边信息的低维结构中重构原始高维的边信息数据,具体步骤如下:
步骤21、分解接收到的码流,得到下混信号码流和边信息码流;
步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号;
步骤23、步骤21得到的边信息码流经过去量化操作得到边信息;
步骤24、将步骤23得到的边信息输入栈式稀疏自编码器的解码器模块中,得到重建后的音频对象边信息
Figure BDA0002725699700000021
步骤25、根据步骤22得到的下混信号和步骤24得到的对象边信息,得到重建的音频对象频谱
Figure BDA0002725699700000031
步骤26、根据步骤25得到的音频对象频谱
Figure BDA0002725699700000035
进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号
Figure BDA0002725699700000032
在上述的基于栈式稀疏自编码器的面向对象编码方法中,步骤11中通过 2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象信号的频谱。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,步骤12中根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,步骤13中将所有对象的频谱信息进行矩阵相加,得到下混信号数据,并作为传输码流进行传输;
下混信号的计算如下式所示:
Figure BDA0002725699700000033
其中sign()为符号函数,用于获取变量的符号。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤14中,所述参数OLD的计算方式如下,
Figure BDA0002725699700000034
其中Pj(i,b)和Pmax(i,b)分别表示对象j在子带(i,b)的能量与子带(i,b)中能量最大的对象能量,I是总帧数,J是对象的个数,B是子带数量。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤15中,利用栈式稀疏自编码器对边信息进行降维表达,根据查表法对边信息值进行量化,将对应的量化索引形成码流输出。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤16中,采用AAC编码器将步骤13输出的下混信号进行编码,得到下混信号码流。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤21中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤24中,将步骤23得到的边信息输入到栈式稀疏自编码的解码部分,从低维的边信息结构中重建出高维边信息数据。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤25中,重建的音频对象频谱具体实现方法如下:
Figure BDA0002725699700000041
其中
Figure BDA0002725699700000042
是重建的音频对象j的(频域),
Figure BDA0002725699700000043
是经过编解码的下混信号,
Figure BDA0002725699700000044
是去量化的边信息;m是频点的序号,Ab-1和Ab-1代表子带b的开始频点和结束频点。
本发明的有益效果:与现有的音频对象编码相比优势在于:利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。然后,我们可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,本发明可以在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。
附图说明
图1为本发明一个实施例的编码流程图;
图2为本发明一个实施例的解码流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
本实施例在现有音频对象编码方法的基础上开展研究,提出了一种基于栈式稀疏自编码的面向对象编码方法。首先利用栈式稀疏自编码器中的编码模块对边信息进行降维表达,然后利用稀疏自编码器中的解码模块从边信息的低维结构中重构原始高维的边信息数据,从而实现边信息的高效压缩,达到降低码率的目的。
如图1所示,本实施例提出一种基于栈式稀疏自编码器的面向对象的编码方法,包括以下步骤:
输入为多个音频对象的时域信号S1,S2,...,SJ,如贝斯、人声、钢琴等不同种类的音频对象信号,其采样频率是44.1kHz,位深度是16位,音频格式是wav 格式。
步骤A1:对输入的J个独立音频信号S1,S2,...,SJ通过改进离散余弦变换 MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,...,OJ
对时域的音频对象信号进行分帧加窗,每帧长度是1024,采用50%重叠的hanning窗,通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象的频谱矩阵,矩阵的行数(列数)等于帧数,列数(行数)等于频点数。
步骤A2:对步骤A1得到的频谱O1,O2,...,OJ对每帧数据进行精细的子带划分;
由于ERB将每帧信号划分为28个子带,所以在ERB子带的基础上,每个子带均匀细分为4个子带。
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
将所有对象的频谱信息进行矩阵相加,得到下混信号数据,下混信号的计算如下式所示:
Figure BDA0002725699700000051
其中sign()为符号函数,用于获取变量的符号。
下混信号采用AAC 128k编码器进行编码,得到下混信号码流;
步骤A4:对步骤A2中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,...,GJ
所述参数OLD的计算方式如下,
Figure BDA0002725699700000061
其中Pj(i,b)和Pmax(i,b)分别表示对象j在子带(i,b)的能量与子带(i,b)中能量最大的对象能量,I是总帧数,J是对象的个数,B是子带数量。
步骤A5:对A3得到的边信息矩阵G1,G2,...,GJ,传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
利用栈式稀疏自编码器对边信息进行降维表达,从而减少边原始信息的数据量。然后根据查表法对边信息值进行量化,最后把对应的量化索引形成码流输出。
步骤A6:步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
合成输出码流指将最终下混信号的码流与边信息码流进行整合。最终下混信号码流指经AAC编码后的输出码流,边信息码流指栈式稀疏自编码器输出的量化索引码流。
如图2所示,本实施例提出一种基于栈式稀疏自编码器的面向对象解码方法,具体包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
步骤B2:步骤B1得到的下混信号码流经过AAC解码得到下混信号;
利用AAC解码下混信号码流,得到编码前的下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
对边信息码流去量化操作后可得到编码前的边信息;
步骤B4:将步骤B3得到的边信息输入栈式稀疏自编码器的解码器模块中,得到重建后的音频对象边信息
Figure BDA0002725699700000062
将解码后的边信息输入到栈式稀疏自编码的解码部分,从低维的边信息结构中重建出高维边信息数据。
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱
Figure BDA0002725699700000071
重建的音频对象频谱具体实现方法如下式所示:
Figure BDA0002725699700000072
其中
Figure BDA0002725699700000074
是重建的音频对象j的(频域),
Figure BDA0002725699700000075
是经过编解码的下混信号,
Figure BDA0002725699700000076
是去量化的边信息。m是频点的序号,Ab-1和Ab-1代表子带b的开始频点和结束频点。
步骤B6:根据B5得到的音频对象频谱
Figure BDA0002725699700000077
进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号
Figure BDA0002725699700000073
由于重建的音频对象信号是频域信号,因此需要利用逆改进离散余弦变换 IMDCT进行频域-时域变换,最终得到重建的音频对象的时域信号,方便对单个对象的渲染和个性化控制。
与现有音频对象编码方法相比,本实施例具有的优势及特点是:
本实施例利用栈式稀疏自编码器实现对音频对象边信息的高效压缩,,在同等码率下全面提升音频对象信号的编码质量,提高编码效率。满足用户对音频对象个性化控制的需求。
本说明书未详细阐述的部分均属于现有技术。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
文献1:Herre,J.,Purnhagen,H.,Koppens,J.,Hellmuth,O.,Engdegrd,J.,Hilper,J.:Valero ML(2012)MPEG Spatial audio object coding-the ISO/MPEGstandard for efficient coding of interactive audio scenes.J Audio Eng Soc 60(9),pp.655-673(2012).
文献2:Herre,J.,Hilpert,J.,Kuntz,A.,Plogsties,J.:Mpeg-h 3D audio{thenew standard for coding of immersive spatial audio.IEEE J.Sel.Top.SignalProcess.9(5),pp.770-779(2015).
文献3:Herre,J.,Disch,S.:(2007)New concepts in parametric coding ofspatial audio:from SAC to SAOC.IEEE International Conference on Multimediaand Expo(ICME).IEEE,pp. 1894{1897(2007).
文献4:Wu,T.,Hu,R.,Wang,X.,Ke,S.:Audio object coding based on optimalparameter frequency resolution.Multimedia Tools and Appl.78(15),pp.20723{20738(2019).
文献5:Herre,J.,Faller,C.,Disch,S.,Ertel,C.,Hilpert,J.,Hoelzer,A.,Linzmeier,K., Spenger,C.,Kroon,P.:Spatial Audio Coding:Next-GenerationEfficient and Compatible Coding of Multichannel Audio.In:Audio EngineeringSociety Convention 117(2004).。

Claims (10)

1.一种基于栈式稀疏自编码器的面向对象编码方法,其特征是,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达;利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据;
其中,对音频对象边信息进行降维表达具体步骤如下:
步骤11、对输入的J个独立音频信号S1,S2,…,SJ通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,…,OJ
步骤12、对步骤11得到的频谱O1,O2,…,OJ每帧数据进行精细的子带划分;
步骤13、对步骤12中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤14、对步骤12中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,…,GJ
步骤15、将步骤13得到的边信息矩阵G1,G2,…,GJ传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
步骤16、步骤13和步骤15得到的码流合成输出码流,传输到解码端;
其中,从音频对象边信息的低维结构中重构原始高维的边信息数据,具体步骤如下:
步骤21、分解接收到的码流,得到下混信号码流和边信息码流;
步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号;
步骤23、步骤21得到的边信息码流经过去量化操作得到边信息;
步骤24、将步骤23得到的边信息输入栈式稀疏自编码器的解码器模块中,得到重建后的音频对象边信息
Figure FDA0002725699690000011
步骤25、根据步骤22得到的下混信号和步骤24得到的对象边信息,得到重建的音频对象频谱
Figure FDA0002725699690000012
步骤26、根据步骤25得到的音频对象频谱
Figure FDA0002725699690000013
进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号
Figure FDA0002725699690000021
2.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤11中通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象信号的频谱。
3.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤12中根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量。
4.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤13中将所有对象的频谱信息进行矩阵相加,得到下混信号数据,并作为传输码流进行传输;
下混信号的计算如下式所示:
Figure FDA0002725699690000022
其中sign()为符号函数,用于获取变量的符号。
5.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤14中,所述参数OLD的计算方式如下,
Figure FDA0002725699690000023
其中Pj(i,b)和Pmax(i,b)分别表示对象j在子带(i,b)的能量与子带(i,b)中能量最大的对象能量,I是总帧数,J是对象的个数,B是子带数量。
6.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤15中,利用栈式稀疏自编码器对边信息进行降维表达,根据查表法对边信息值进行量化,将对应的量化索引形成码流输出。
7.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤16中,采用AAC编码器将步骤13输出的下混信号进行编码,得到下混信号码流。
8.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤21中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
9.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤24中,将步骤23得到的边信息输入到栈式稀疏自编码的解码部分,从低维的边信息结构中重建出高维边信息数据。
10.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤25中,重建的音频对象频谱具体实现方法如下:
Figure FDA0002725699690000031
其中
Figure FDA0002725699690000032
是重建的音频对象j的(频域),
Figure FDA0002725699690000033
是经过编解码的下混信号,
Figure FDA0002725699690000034
是去量化的边信息;m是频点的序号,Ab-1和Ab-1代表子带b的开始频点和结束频点。
CN202011102043.2A 2020-10-15 2020-10-15 一种基于栈式稀疏自编码器的面向对象编码方法 Active CN112365896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011102043.2A CN112365896B (zh) 2020-10-15 2020-10-15 一种基于栈式稀疏自编码器的面向对象编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011102043.2A CN112365896B (zh) 2020-10-15 2020-10-15 一种基于栈式稀疏自编码器的面向对象编码方法

Publications (2)

Publication Number Publication Date
CN112365896A true CN112365896A (zh) 2021-02-12
CN112365896B CN112365896B (zh) 2022-06-14

Family

ID=74507664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011102043.2A Active CN112365896B (zh) 2020-10-15 2020-10-15 一种基于栈式稀疏自编码器的面向对象编码方法

Country Status (1)

Country Link
CN (1) CN112365896B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096672A (zh) * 2021-03-24 2021-07-09 武汉大学 一种应用于低码率下的多音频对象编解码方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN110739000A (zh) * 2019-10-14 2020-01-31 武汉大学 一种适应于个性化交互系统的音频对象编码方法
US20200186809A1 (en) * 2018-12-05 2020-06-11 Google Llc Hybrid Motion-Compensated Neural Network with Side-Information Based Video Coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
US20200186809A1 (en) * 2018-12-05 2020-06-11 Google Llc Hybrid Motion-Compensated Neural Network with Side-Information Based Video Coding
CN110739000A (zh) * 2019-10-14 2020-01-31 武汉大学 一种适应于个性化交互系统的音频对象编码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张少磊等: "基于向量总变差约束局部光谱解混的高光谱图像超分辨", 《光学精密工程》, no. 12, 15 December 2019 (2019-12-15) *
陈瑞等: "基于PCA稀疏描述的分布式视频编码", 《南京邮电大学学报(自然科学版)》, no. 04, 9 July 2013 (2013-07-09) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096672A (zh) * 2021-03-24 2021-07-09 武汉大学 一种应用于低码率下的多音频对象编解码方法
CN113096672B (zh) * 2021-03-24 2022-06-14 武汉大学 一种应用于低码率下的多音频对象编解码方法

Also Published As

Publication number Publication date
CN112365896B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
EP1869668B1 (en) Adaptive residual audio coding
Neuendorf et al. MPEG unified speech and audio coding-the ISO/MPEG standard for high-efficiency audio coding of all content types
US8249883B2 (en) Channel extension coding for multi-channel source
US8964994B2 (en) Encoding of multichannel digital audio signals
US7573912B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
KR100947013B1 (ko) 멀티채널 오디오 신호의 시간적 및 공간적 정형
JP2022160597A (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
CN107610710B (zh) 一种面向多音频对象的音频编码及解码方法
CN110739000B (zh) 一种适应于个性化交互系统的音频对象编码方法
CN104838442A (zh) 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法
CN110660401B (zh) 一种基于高低频域分辨率切换的音频对象编解码方法
CN112365896B (zh) 一种基于栈式稀疏自编码器的面向对象编码方法
CN113314132B (zh) 交互式音频系统中的音频对象编码方法、解码方法及装置
Wu et al. Audio object coding based on optimal parameter frequency resolution
CN108417219B (zh) 一种适应于流媒体的音频对象编解码方法
Wu et al. High quality audio object coding framework based on non-negative matrix factorization
CN113096672B (zh) 一种应用于低码率下的多音频对象编解码方法
AU2014339065B2 (en) Decorrelator structure for parametric reconstruction of audio signals
CN113314131B (zh) 一种基于两级滤波的多步音频对象编解码方法
Hu et al. Multi-step coding structure of spatial audio object coding
KR101176703B1 (ko) 음원 위치 단서 기반의 멀티 채널 오디오 복호화 장치 및 방법
Elfitri et al. Investigation on objective performance of closed-loop spatial audio coding
CN113314130B (zh) 一种基于频谱搬移的音频对象编解码方法
CN116486822A (zh) 沉浸式音频系统中的自适应音频对象编解码方法及装置
Deriche et al. A novel scalable audio coder based on warped linear prediction and the wavelet transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant