CN112365896A - 一种基于栈式稀疏自编码器的面向对象编码方法 - Google Patents
一种基于栈式稀疏自编码器的面向对象编码方法 Download PDFInfo
- Publication number
- CN112365896A CN112365896A CN202011102043.2A CN202011102043A CN112365896A CN 112365896 A CN112365896 A CN 112365896A CN 202011102043 A CN202011102043 A CN 202011102043A CN 112365896 A CN112365896 A CN 112365896A
- Authority
- CN
- China
- Prior art keywords
- side information
- code stream
- encoder
- audio object
- sparse self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数字音频信号处理技术,具体涉及一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,然后利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据。该方法利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,能在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。
Description
技术领域
本发明属于数字音频信号处理技术领域,尤其涉及一种基于栈式稀疏自编码器的面向对象编码方法。
背景技术
三维(3D)音频表示具有3个自由度(例如方位角,仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。随着3D音频和视频的发展,对交互式和个性化收听体验的需求迅速增长。常规的基于通道的音频编码技术受到通道数量的限制,并且不能满足用户的个性化重建需求,尤其是在沉浸式场景中,例如数字互动剧院和虚拟现实游戏。基于对象的编码方法作为沉浸式音频的重要表示,结合个性化的渲染系统,可以在各种回放配置中实现生动的内容创建和最佳再现。而且基于对象的编码框架已成功用于商业案例。
国际上许多学者和科研机构都已开展音频对象编码的研究工作,并提出了多种音频对象编码方法。其中最具有代表性的两种方法是德国知名研究机构 Fraunhofer提出的空间音频对象编码技术(Spatial Audio Object Coding,SAOC) [文献1]-[文献3]以及由武汉大学提出的基于最佳参数频率分辨率的音频对象编码方法(Audio object codingbased on optimal parameter frequency resolution, SVD-based SAOC)[文献4]。
空间音频对象编码(SAOC)起源于空间音频编码(Spatial Audio Coding, SAC)[文献5]。SAOC的核心思想是对多个音频对象进行下混,并仅传输每个对象提取的边信息以压缩信号,因此可以实现以低比特率编码多个音频对象。与单独传输所有对象相比,SAOC框架的比特率要低得多。但是,当音频对象的数量增加且代码比特率受到限制时,SAOC重建的音频对象将带来频谱混叠。
SVD-based SAOC方法针对SAOC所存在的问题进行了进一步研究。该方法不仅根据信号失真确定最佳子带数量,而且使用奇异值分解(singular value decomposition,SVD)来减小细分的子带下传输参数的维数,并且可以减少混叠。然而重构的音频对象的质量会受到SVD算法的限制,在较低码率时重建的音频对象质量不佳。
发明内容
针对背景技术存在的问题,本发明提供一种基于栈式稀疏自编码器的面向对象编码方法,
为解决上述技术问题,本发明采用如下技术方案:一种基于栈式稀疏自编码器的面向对象编码方法,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达,利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据;
其中,对音频对象边信息进行降维表达具体步骤如下:
步骤11、对输入的J个独立音频信号S1,S2,…,SJ通过改进离散余弦变换 MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,…,OJ;
步骤12、对步骤11得到的频谱O1,O2,…,OJ每帧数据进行精细的子带划分;
步骤13、对步骤12中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤14、对步骤12中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,…,GJ;
步骤15、将步骤13得到的边信息矩阵G1,G2,…,GJ传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
步骤16、步骤13和步骤15得到的码流合成输出码流,传输到解码端;
其中,从音频对象边信息的低维结构中重构原始高维的边信息数据,具体步骤如下:
步骤21、分解接收到的码流,得到下混信号码流和边信息码流;
步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号;
步骤23、步骤21得到的边信息码流经过去量化操作得到边信息;
在上述的基于栈式稀疏自编码器的面向对象编码方法中,步骤11中通过 2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象信号的频谱。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,步骤12中根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,步骤13中将所有对象的频谱信息进行矩阵相加,得到下混信号数据,并作为传输码流进行传输;
下混信号的计算如下式所示:
其中sign()为符号函数,用于获取变量的符号。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤14中,所述参数OLD的计算方式如下,
其中Pj(i,b)和Pmax(i,b)分别表示对象j在子带(i,b)的能量与子带(i,b)中能量最大的对象能量,I是总帧数,J是对象的个数,B是子带数量。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤15中,利用栈式稀疏自编码器对边信息进行降维表达,根据查表法对边信息值进行量化,将对应的量化索引形成码流输出。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤16中,采用AAC编码器将步骤13输出的下混信号进行编码,得到下混信号码流。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤21中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤24中,将步骤23得到的边信息输入到栈式稀疏自编码的解码部分,从低维的边信息结构中重建出高维边信息数据。
在上述的基于栈式稀疏自编码器的面向对象编码方法中,在步骤25中,重建的音频对象频谱具体实现方法如下:
本发明的有益效果:与现有的音频对象编码相比优势在于:利用栈式稀疏自动编码器(Stacked Sparse Autoencoder,SSAE)中的级联模块,每个模块都从其前一个模块中提取了边信息的有效特征。然后,我们可以减少边信息参数的维数以节省比特率,并很好地重建音频对象。因此,本发明可以在相同的比特率下获得最佳的音频对象信号音质,以满足用户对音频对象个性化控制的需求。同时全面提升了音频对象信号的编码质量,提高编码效率。
附图说明
图1为本发明一个实施例的编码流程图;
图2为本发明一个实施例的解码流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
本实施例在现有音频对象编码方法的基础上开展研究,提出了一种基于栈式稀疏自编码的面向对象编码方法。首先利用栈式稀疏自编码器中的编码模块对边信息进行降维表达,然后利用稀疏自编码器中的解码模块从边信息的低维结构中重构原始高维的边信息数据,从而实现边信息的高效压缩,达到降低码率的目的。
如图1所示,本实施例提出一种基于栈式稀疏自编码器的面向对象的编码方法,包括以下步骤:
输入为多个音频对象的时域信号S1,S2,...,SJ,如贝斯、人声、钢琴等不同种类的音频对象信号,其采样频率是44.1kHz,位深度是16位,音频格式是wav 格式。
步骤A1:对输入的J个独立音频信号S1,S2,...,SJ通过改进离散余弦变换 MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,...,OJ;
对时域的音频对象信号进行分帧加窗,每帧长度是1024,采用50%重叠的hanning窗,通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象的频谱矩阵,矩阵的行数(列数)等于帧数,列数(行数)等于频点数。
步骤A2:对步骤A1得到的频谱O1,O2,...,OJ对每帧数据进行精细的子带划分;
由于ERB将每帧信号划分为28个子带,所以在ERB子带的基础上,每个子带均匀细分为4个子带。
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
将所有对象的频谱信息进行矩阵相加,得到下混信号数据,下混信号的计算如下式所示:
其中sign()为符号函数,用于获取变量的符号。
下混信号采用AAC 128k编码器进行编码,得到下混信号码流;
步骤A4:对步骤A2中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,...,GJ;
所述参数OLD的计算方式如下,
其中Pj(i,b)和Pmax(i,b)分别表示对象j在子带(i,b)的能量与子带(i,b)中能量最大的对象能量,I是总帧数,J是对象的个数,B是子带数量。
步骤A5:对A3得到的边信息矩阵G1,G2,...,GJ,传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
利用栈式稀疏自编码器对边信息进行降维表达,从而减少边原始信息的数据量。然后根据查表法对边信息值进行量化,最后把对应的量化索引形成码流输出。
步骤A6:步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
合成输出码流指将最终下混信号的码流与边信息码流进行整合。最终下混信号码流指经AAC编码后的输出码流,边信息码流指栈式稀疏自编码器输出的量化索引码流。
如图2所示,本实施例提出一种基于栈式稀疏自编码器的面向对象解码方法,具体包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
步骤B2:步骤B1得到的下混信号码流经过AAC解码得到下混信号;
利用AAC解码下混信号码流,得到编码前的下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
对边信息码流去量化操作后可得到编码前的边信息;
将解码后的边信息输入到栈式稀疏自编码的解码部分,从低维的边信息结构中重建出高维边信息数据。
重建的音频对象频谱具体实现方法如下式所示:
由于重建的音频对象信号是频域信号,因此需要利用逆改进离散余弦变换 IMDCT进行频域-时域变换,最终得到重建的音频对象的时域信号,方便对单个对象的渲染和个性化控制。
与现有音频对象编码方法相比,本实施例具有的优势及特点是:
本实施例利用栈式稀疏自编码器实现对音频对象边信息的高效压缩,,在同等码率下全面提升音频对象信号的编码质量,提高编码效率。满足用户对音频对象个性化控制的需求。
本说明书未详细阐述的部分均属于现有技术。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
文献1:Herre,J.,Purnhagen,H.,Koppens,J.,Hellmuth,O.,Engdegrd,J.,Hilper,J.:Valero ML(2012)MPEG Spatial audio object coding-the ISO/MPEGstandard for efficient coding of interactive audio scenes.J Audio Eng Soc 60(9),pp.655-673(2012).
文献2:Herre,J.,Hilpert,J.,Kuntz,A.,Plogsties,J.:Mpeg-h 3D audio{thenew standard for coding of immersive spatial audio.IEEE J.Sel.Top.SignalProcess.9(5),pp.770-779(2015).
文献3:Herre,J.,Disch,S.:(2007)New concepts in parametric coding ofspatial audio:from SAC to SAOC.IEEE International Conference on Multimediaand Expo(ICME).IEEE,pp. 1894{1897(2007).
文献4:Wu,T.,Hu,R.,Wang,X.,Ke,S.:Audio object coding based on optimalparameter frequency resolution.Multimedia Tools and Appl.78(15),pp.20723{20738(2019).
文献5:Herre,J.,Faller,C.,Disch,S.,Ertel,C.,Hilpert,J.,Hoelzer,A.,Linzmeier,K., Spenger,C.,Kroon,P.:Spatial Audio Coding:Next-GenerationEfficient and Compatible Coding of Multichannel Audio.In:Audio EngineeringSociety Convention 117(2004).。
Claims (10)
1.一种基于栈式稀疏自编码器的面向对象编码方法,其特征是,包括利用栈式稀疏自编码器的编码模块对音频对象边信息进行降维表达;利用稀疏自编码器中的解码模块从音频对象边信息的低维结构中重构原始高维的边信息数据;
其中,对音频对象边信息进行降维表达具体步骤如下:
步骤11、对输入的J个独立音频信号S1,S2,…,SJ通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,…,OJ;
步骤12、对步骤11得到的频谱O1,O2,…,OJ每帧数据进行精细的子带划分;
步骤13、对步骤12中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤14、对步骤12中的子带,计算每个对象的边信息OLD,得到边信息矩阵G1,G2,…,GJ;
步骤15、将步骤13得到的边信息矩阵G1,G2,…,GJ传入栈式稀疏自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
步骤16、步骤13和步骤15得到的码流合成输出码流,传输到解码端;
其中,从音频对象边信息的低维结构中重构原始高维的边信息数据,具体步骤如下:
步骤21、分解接收到的码流,得到下混信号码流和边信息码流;
步骤22、步骤21得到的下混信号码流经过AAC解码得到下混信号;
步骤23、步骤21得到的边信息码流经过去量化操作得到边信息;
2.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤11中通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象信号的频谱。
3.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,步骤12中根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量。
6.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤15中,利用栈式稀疏自编码器对边信息进行降维表达,根据查表法对边信息值进行量化,将对应的量化索引形成码流输出。
7.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤16中,采用AAC编码器将步骤13输出的下混信号进行编码,得到下混信号码流。
8.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤21中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
9.如权利要求1所述的基于栈式稀疏自编码器的面向对象编码方法,其特征是,在步骤24中,将步骤23得到的边信息输入到栈式稀疏自编码的解码部分,从低维的边信息结构中重建出高维边信息数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102043.2A CN112365896B (zh) | 2020-10-15 | 2020-10-15 | 一种基于栈式稀疏自编码器的面向对象编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102043.2A CN112365896B (zh) | 2020-10-15 | 2020-10-15 | 一种基于栈式稀疏自编码器的面向对象编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365896A true CN112365896A (zh) | 2021-02-12 |
CN112365896B CN112365896B (zh) | 2022-06-14 |
Family
ID=74507664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011102043.2A Active CN112365896B (zh) | 2020-10-15 | 2020-10-15 | 一种基于栈式稀疏自编码器的面向对象编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365896B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096672A (zh) * | 2021-03-24 | 2021-07-09 | 武汉大学 | 一种应用于低码率下的多音频对象编解码方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094009A1 (en) * | 2005-10-26 | 2007-04-26 | Ryu Sang-Uk | Encoder-assisted frame loss concealment techniques for audio coding |
CN107610710A (zh) * | 2017-09-29 | 2018-01-19 | 武汉大学 | 一种面向多音频对象的音频编码及解码方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN110739000A (zh) * | 2019-10-14 | 2020-01-31 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
US20200186809A1 (en) * | 2018-12-05 | 2020-06-11 | Google Llc | Hybrid Motion-Compensated Neural Network with Side-Information Based Video Coding |
-
2020
- 2020-10-15 CN CN202011102043.2A patent/CN112365896B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094009A1 (en) * | 2005-10-26 | 2007-04-26 | Ryu Sang-Uk | Encoder-assisted frame loss concealment techniques for audio coding |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN107610710A (zh) * | 2017-09-29 | 2018-01-19 | 武汉大学 | 一种面向多音频对象的音频编码及解码方法 |
US20200186809A1 (en) * | 2018-12-05 | 2020-06-11 | Google Llc | Hybrid Motion-Compensated Neural Network with Side-Information Based Video Coding |
CN110739000A (zh) * | 2019-10-14 | 2020-01-31 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
Non-Patent Citations (2)
Title |
---|
张少磊等: "基于向量总变差约束局部光谱解混的高光谱图像超分辨", 《光学精密工程》, no. 12, 15 December 2019 (2019-12-15) * |
陈瑞等: "基于PCA稀疏描述的分布式视频编码", 《南京邮电大学学报(自然科学版)》, no. 04, 9 July 2013 (2013-07-09) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096672A (zh) * | 2021-03-24 | 2021-07-09 | 武汉大学 | 一种应用于低码率下的多音频对象编解码方法 |
CN113096672B (zh) * | 2021-03-24 | 2022-06-14 | 武汉大学 | 一种应用于低码率下的多音频对象编解码方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112365896B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1869668B1 (en) | Adaptive residual audio coding | |
Neuendorf et al. | MPEG unified speech and audio coding-the ISO/MPEG standard for high-efficiency audio coding of all content types | |
US8249883B2 (en) | Channel extension coding for multi-channel source | |
US8964994B2 (en) | Encoding of multichannel digital audio signals | |
US7573912B2 (en) | Near-transparent or transparent multi-channel encoder/decoder scheme | |
KR100947013B1 (ko) | 멀티채널 오디오 신호의 시간적 및 공간적 정형 | |
JP2022160597A (ja) | マルチチャネル符号化におけるステレオ充填装置及び方法 | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
CN110739000B (zh) | 一种适应于个性化交互系统的音频对象编码方法 | |
CN104838442A (zh) | 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法 | |
CN110660401B (zh) | 一种基于高低频域分辨率切换的音频对象编解码方法 | |
CN112365896B (zh) | 一种基于栈式稀疏自编码器的面向对象编码方法 | |
CN113314132B (zh) | 交互式音频系统中的音频对象编码方法、解码方法及装置 | |
Wu et al. | Audio object coding based on optimal parameter frequency resolution | |
CN108417219B (zh) | 一种适应于流媒体的音频对象编解码方法 | |
Wu et al. | High quality audio object coding framework based on non-negative matrix factorization | |
CN113096672B (zh) | 一种应用于低码率下的多音频对象编解码方法 | |
AU2014339065B2 (en) | Decorrelator structure for parametric reconstruction of audio signals | |
CN113314131B (zh) | 一种基于两级滤波的多步音频对象编解码方法 | |
Hu et al. | Multi-step coding structure of spatial audio object coding | |
KR101176703B1 (ko) | 음원 위치 단서 기반의 멀티 채널 오디오 복호화 장치 및 방법 | |
Elfitri et al. | Investigation on objective performance of closed-loop spatial audio coding | |
CN113314130B (zh) | 一种基于频谱搬移的音频对象编解码方法 | |
CN116486822A (zh) | 沉浸式音频系统中的自适应音频对象编解码方法及装置 | |
Deriche et al. | A novel scalable audio coder based on warped linear prediction and the wavelet transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |