CN103400582A - 面向多声道三维音频的编解码方法与系统 - Google Patents

面向多声道三维音频的编解码方法与系统 Download PDF

Info

Publication number
CN103400582A
CN103400582A CN2013103512420A CN201310351242A CN103400582A CN 103400582 A CN103400582 A CN 103400582A CN 2013103512420 A CN2013103512420 A CN 2013103512420A CN 201310351242 A CN201310351242 A CN 201310351242A CN 103400582 A CN103400582 A CN 103400582A
Authority
CN
China
Prior art keywords
sound channel
channel unit
module
sub belt
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103512420A
Other languages
English (en)
Other versions
CN103400582B (zh
Inventor
胡瑞敏
董石
王樱
王晓晨
涂卫平
杨玉红
高戈
吕亚平
杨姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201310351242.0A priority Critical patent/CN103400582B/zh
Publication of CN103400582A publication Critical patent/CN103400582A/zh
Application granted granted Critical
Publication of CN103400582B publication Critical patent/CN103400582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种面向多声道三维音频的编解码方法与系统,包括时频变换模块、子带划分模块、子带能量计算模块、变换模块,子带能量还原模块、子带合成模块和频时变换模块。编码端,将输入声道的时域信号变换为频域信号,并将各声道的频域信号信号划分为子带,计算各子带能量;将相邻三个声道对应的子带能量组合成声道单元,分析声道单元中各子带能量并根据分析结果选择变换矩阵;在解码端,通过变换矩阵索引,还原声道单元,并获得各声道的频域信号,通过频时变换得到各声道的域信号,从而最大无失真地完成了原始声道信号的还原。本发明可实现声道间冗余信息的去除,且具有低复杂度和高效率的特点,适用于三维音频直播通信传输的要求。

Description

面向多声道三维音频的编解码方法与系统
技术领域
本发明属于面向多声道音频的编解码领域,尤其涉及一种面向多声道三维音频的编解码方法与系统。
背景技术
随着三维影视市场的巨大成功,三维音频技术受到了广泛关注并得到了迅速发展。三维音频系统因其能为观众提供更好的声音定位和临场感,越来越多地被引入与音频相关的应用当中取代传统环绕声系统。波场合成(Wave FieldSynthesis,WFS)、Ambisonics(全息声)和幅度矢量合成(Vector Based AmplitudePanning,VBAP)是目前发展最为完备的三种多声道三维音频理论。
未来三维音频技术将逐渐走向成熟并取代现有的立体声和环绕声技术。当前三维音频系统的一个主要特点就是其庞大的声道数目。针对三维音频数据量激增的问题,近期在三维音频压缩方面已经展开了一些非常有价值的工作。2007年,Goodwin等提出了一种基于主成分分析的参数编码多声道压缩框架,该框架可应用于增强特殊的音频场景信号并提高空间音频编码的鲁棒性。2008年,Cheng提出了一种空间压缩环绕声编码(S3AC)方法,用于Ambisonics信号的参数编码。2009年,Hellerud使用声道间预测编码的方法去除Ambisonics声道间的冗余信息,这种方法具有较低的算法延时,但是计算复杂度较高。2010年,Pinto利用时空域变换将WFS信号分解成平面波和瞬态波,通过舍弃瞬态波,并利用感知编码对平面波信号进行压缩,来获得编码增益。由于其时空变换的精度取决于空间分辨率,也即WFS声道数目,所以编码效率会随着单位空间内声道数的增加而提高。2011年,Cheng又进一步提出了一种空间定位量化格点(SpatialLocalization Quantization Point,SLQP)的参数编码方法,并使用三维方位线索来压缩VBAP信号。由于提取了空间线索并通过下混技术减少了声道数目,SLQP取得了较高的压缩效率。上述模型和参数编码方法可以提供较高的压缩比,但实际应用中音频编码器要兼顾算法复杂度和编码效率两个方面,而且参数编码也只能在低码率下提高编码音质。
发明内容
本发明的目的是提供了一种兼具低复杂度和高效率的面向多声道三维音频的编解码方法与系统。
为达到上述目的,本发明提供了如下技术方案:
一、一种面向多声道三维音频的编码方法,包括步骤:
步骤1-1,将N声道的时域信号变换为频域信号;
步骤1-2,将各声道的频域信号均划分为M个子带;
步骤1-3,获取各子带能量,并依次将相邻的三个声道对应的子带能量组合成第一类声道单元,若剩余相邻声道不足三个,则将剩余相邻声道对应的子带能量组合成第二类声道单元,各声道单元之间无共用声道,所述的声道单元包括第一类声道单元和第二类声道单元;
步骤1-4,采用3D-M/S编码系统对各第一类声道单元分别进行编码,采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行编码,量化编码结果并生成各声道单元对应的变换矩阵索引。
上述步骤1-4中所述的采用3D-M/S编码系统对各第一类声道单元分别进行编码,进一步包括子步骤:
1-4a获取第一类声道单元
Figure BDA00003661645100021
与3D-M/S编码系统的变换矩阵M4的和矢量V4的内积<V0,V4>,判断内积<V0,V4>与给定的能量阈值Thrv的大小,若内积<V0,V4>不小于给定的能量阈值Thrv,则采用变换矩阵M4对第一类声道单元V0进行编码;否则,执行步骤1-4b;
1-4b根据第一类声道单元
Figure BDA00003661645100022
中各子带能量的相近情况构建声道单元V0i,选择对应的3D-M/S编码系统的变换矩阵Mi的和矢量Vi,并获取声道单元V0i与和矢量Vi的内积<V0i,Vi>,判断内积<V0i,Vi>与给定的能量阈值Thrv的大小,若内积<V0i,Vi>不小于给定的能量阈值Thrv,则采用变换矩阵Mi对第一类声道单元V0进行编码;否则,执行步骤1-4c;其中,当第一类声道单元
Figure BDA00003661645100023
中子带能量
Figure BDA00003661645100024
与子带能量
Figure BDA00003661645100025
为最相近的子带能量时,则i=1,
Figure BDA00003661645100031
当第一类声道单元
Figure BDA00003661645100032
中子带能量与子带能量
Figure BDA00003661645100034
为最相近的子带能量时,则i=2,当第一类声道单元
Figure BDA00003661645100036
中子带能量
Figure BDA00003661645100037
与子带能量
Figure BDA00003661645100038
为最相近的子带能量时,则i=3, V 03 = ( C &CenterDot; 1 , C &CenterDot; 2 , 0 ) ;
1-4c采用3D-M/S编码系统的变换矩阵M0对第一类声道单元V0进行编码;
所述的变换矩阵M0,、M1、M2、M3、M4如下:
M 0 = 1 0 0 0 1 0 0 0 1 , M 1 = 1 0 0 0 2 2 2 2 0 2 2 - 2 2 , M 2 = 2 2 0 2 2 0 1 0 2 2 0 - 2 2 , M 3 = 2 2 2 2 0 2 2 - 2 2 0 0 0 1 , M 4 = 3 3 3 3 3 3 2 2 - 2 2 0 6 6 6 6 - 6 3 .
二、一种与上述编码方法对应的面向多声道三维音频的解码方法,包括步骤:
步骤2-1,根据步骤1-4获得的量化后的声道单元及其对应的变换矩阵索引,基于变换矩阵索引获取对应的变换逆矩阵,采用变换逆矩阵还原对应的量化后的声道单元,所述的声道单元包括第一类声道单元和第二类声道单元;
步骤2-2,拆分还原后的各声道单元获得N声道对应的频域信号;
步骤2-3,将N声道的频域信号转换为时域信号。
三、一种面向多声道三维音频的编码系统,包括:
时频变换模块,用来将N声道的时域信号变换为频域信号;
子带划分模块,用来将各声道的频域信号均划分为M个子带;
子带能量计算模块,用来获取各子带能量,并依次将相邻的三个声道对应的子带能量组合成第一类声道单元,若剩余相邻声道不足三个,则将剩余相邻声道对应的子带能量组合成第二类声道单元,各声道单元之间无共用声道;
变换模块,进一步包括第一类声道单元变换模块、第二类声道单元变换模块、量化模块和变换矩阵索引生成模块,其中:
第一类声道单元变换模块,用来采用3D-M/S编码系统对各第一类声道单元分别进行变换;
第二类声道单元变换模块,用来采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行变换;
量化模块用来量化编码结果;
变换矩阵索引生成模块用来生成各声道单元对应的变换矩阵索引。
上述第一类声道单元变换模块包括变换模式选择子模块和变换子模块,变换模式选择子模块进一步包括第一变换模式选择子模块、第二变换模式选择子模块和第三变换模式选择子模块,其中:
第一变换模式选择子模块,用来获取第一类声道单元
Figure BDA000036616451000410
与3D-M/S编码系统的变换矩阵M4的和矢量V4的内积<V0,V4>,判断内积<V0,V4>与给定的能量阈值Thrv的大小,若内积<V0,V4>不小于给定的能量阈值Thrv,则选择变换矩阵M4为第一类声道单元V0的变换矩阵;否则,运行第二编码模式选择模块;
第二变换模式选择模块,用来根据第一类声道单元
Figure BDA00003661645100041
中各子带能量的相近情况构建声道单元V0i,选择对应的3D-M/S编码系统的变换矩阵Mi的和矢量Vi,并获取声道单元V0i与和矢量Vi的内积<V0i,Vi>,判断内积<V0i,Vi>与给定的能量阈值Thrv的大小,若内积<V0i,Vi>不小于给定的能量阈值Thrv,则选择变换矩阵Mi为第一类声道单元V0的变换矩阵;否则,运行第三变换模式选择模块;其中,当第一类声道单元
Figure BDA00003661645100042
中子带能量
Figure BDA00003661645100043
与子带能量
Figure BDA00003661645100044
为最相近的子带能量时,则i=1,
Figure BDA00003661645100045
当第一类声道单元
Figure BDA00003661645100046
中子带能量
Figure BDA00003661645100047
与子带能量
Figure BDA00003661645100048
为最相近的子带能量时,则i=2,
Figure BDA00003661645100049
当第一类声道单元
Figure BDA00003661645100051
中子带能量
Figure BDA00003661645100052
与子带能量
Figure BDA00003661645100053
为最相近的子带能量时,则i=3, V 03 = ( C &CenterDot; 1 , C &CenterDot; 2 , 0 ) ;
第三变换模式选择模块,选择3D-M/S编码系统的变换矩阵M0为该第一类声道单元V0的变换矩阵;
变换子模块,用来根据选择的变换矩阵对该第一类声道单元进行变换。
四、一种与上述面向多声道三维音频的编码系统对应的解码系统,包括:
子带能量还原模块,用来根变换模块输出的变换矩阵索引获取变换矩阵对应的变换逆矩阵,采用变换逆矩阵还原对应的声道单元,所述的声道单元包括第一类声道单元和第二类声道单元;
子带合成模块,用来拆分各声道单元获得N声道对应的频域信号;
频时变换模块,用来将N声道的频域信号转换为时域信号。
与现有技术相比,本发明具有如下优点:
使3D-M/S(三声道的和差编码)编码系统能压缩任意声道配置,可实现声道间冗余信息的去除,且具有低复杂度和高效率的特点,适用于三维音频直播通信传输的要求。
附图说明
图1为本发明系统实施例的系统结构框图;
图2为本发明方法实施例的流程图。
具体实施方式
下面以具体实施例结合附图对本发明技术方案作进一步说明:
见图1,本发明的面向多声道三维音频的编解码系统包括时频变换模块1、子带划分模块2、子带能量计算模块3、变换模块4、子带能量还原模块5、子带合成模块6和频时变换模块7。
时频变换模块1,用于将输入的N声道的时域信号变换为频域信号,并将频域信号接入到子带划分模块2。
子带划分模块2,用于将时频变换模块1输出的各声道的频域信号均划分为M个子带,并标定各子带的预设位置,划分后的子带接入到子带能量计算模块3。
子带能量计算模块3,用于计算子带划分模块2输出的各声道中各子带的能量,并依次将相邻三个声道对应的子带能量组合成第一类声道单元,若剩余相邻声道不足三个,则将剩余相邻声道对应的子带能量组合成第二类声道单元,各声道单元之间无共用声道,将组合得到的第一类声道单元和第二类声道单元输入变换模块4。
变换模块4,进一步包括第一类声道单元变换模块、第二类声道单元变换模块、量化模块和变换矩阵索引生成模块,其中,第一类声道单元变换模块,用来采用3D-M/S编码系统对各第一类声道单元分别进行变换;第二类声道单元变换模块,用来采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行变换;量化模块用来量化变换结果;变换矩阵索引生成模块用来生成各声道单元对应的变换矩阵索引。
第一类声道单元变换模块又包括变换模式选择子模块和变换子模块,变换模式选择子模块用来根据第一类声道单元的子带能量选择变换矩阵,变换子模块用来根据选择的变换矩阵对第一类声道单元进行变换。
子带能量还原模块5,用于根据变换模块4中输出的量化后的声道单元及其对应的变换矩阵索引,选择各声道单元对应的变换逆矩阵,并还原各声道单元,还原后的各声道单元输入子带合成模块6。
子带合成模块6,用于将子带能量还原模块5输出的各声道单元进行拆分获得N声道对应的频域信号,将还原出的N声道频域信号输入频时变换模块7。
频时变换模块7,用于将子带合成模块6输出的N声道对应的频域信号转换为时域信号,以实现原始声道信号的最大无失真还原。
见图2,本发明提供的面向多声道三维音频的编解码方法,可采用计算机软件技术手段自动进行流程,具体包括以下步骤:
步骤1:采用短时傅里叶变换,将N个声道的时域信号c1(n)、c2(n)、…、ci(n)、…、cN(n)变换为对应的频域信号C1(k)、C2(k)、…、Ci(k)、…、CN(k)。
步骤2:将各声道的频域信号均划分为M个子带,并设置各子带的结束位置为b(1)、b(2)、…、b(i)、…b(M),而b(0)=1。
步骤3:计算各子带能量,并构建以子带能量为元素的声道单元。
计算C1(k)划分的子带能量为C11、C12、…、C1i、…、C1M,其中,
C 1 i = &Sigma; k = b ( i - 1 ) b = ( i ) C 1 2 ( k ) - - - ( 1 )
继续计算C2(k)划分的子带能量C21、C22、…、C2i、…、C1M。采用相同的方法,依次计算C3(k)…、Ci(k)、…、CN(k)划分的子带能量。
将相邻三个声道对应的子带能量组合得到一个第一类声道单元,例如,(C11,C21,C31)、(C41,C51,C61)、(C12,C22,C32),且各声道单元之间无共用声道。若声道数量不是3的倍数,则将剩下的不足3个的声道对应的子带能量组合得到第二类声道单元。
步骤4:依次分析各声道单元中各子带能量,并根据分析结果采用不同的变换矩阵对各声道单元进行编码。
若声道数量为3的倍数,则获得的所有声带单元均为以子带能量为元素的三阶行矩阵,即,第一类声道单元。将第一类声道单元(例如,(C11,C21,C31))与编码系统的变换矩阵的和矢量进行内积运算,并根据内积运算结果选择合适的变换矩阵进行编码。
对于3D-M/S编码系统,其变换矩阵包括M0,、M1、M2、M3、M4,其中,
M 0 = 1 0 0 0 1 0 0 0 1 , M 1 = 1 0 0 0 2 2 2 2 0 2 2 - 2 2 , M 2 = 2 2 0 2 2 0 1 0 2 2 0 - 2 2 , M 3 = 2 2 2 2 0 2 2 - 2 2 0 0 0 1 , M 4 = 3 3 3 3 3 3 2 2 - 2 2 0 6 6 6 6 - 6 3 .
对于某一个第一类声道单元V0,计算<V0,V4>,其中,V4为变换矩阵M4的和矢量,判断<V0,V4>值和预设能量矢量距离阈值Thrv的大小。根据判断结果选择该声道单元最适合的变换矩阵。
对于3D-M/S编码系统,变换条件如下:
mode = M 4 , if < V 0 , V 4 > &GreaterEqual; Thr v M i , elseif < V 0 i , V i > &GreaterEqual; Thr v and < V 0 i , V i > &GreaterEqual; < V oj , V j > &ForAll; j &NotEqual; i M 0 , else - - - ( 2 )
其中:
i,j∈{1,2,3};
Figure BDA00003661645100082
为第一类声道单元,分别表示三个相邻声道对应的子带能量;
V 01 = ( 0 , C &CenterDot; 2 , C &CenterDot; 3 ) , V 02 = ( C &CenterDot; 1 , 0 , C &CenterDot; 3 ) , V 03 = ( C &CenterDot; 1 , C &CenterDot; 2 , 0 ) ;
Figure BDA00003661645100085
为变换矩阵M1的和矢量;
Figure BDA00003661645100086
为变换矩阵M2的和矢量;
Figure BDA00003661645100087
为变换矩阵M3的和矢量;
V 4 = ( 3 / 3 , 3 / 3 , 3 / 3 ) , 为变换矩阵M4的和矢量。
基于公式(2)找寻对各第一类声道单元最适合的变换矩阵,具体过程如下:
首先,计算第一类声道单元V0与变换矩阵M4的和矢量V4的内积<V0,V4>,若<V0,V4>不小于给定的能量阈值Thrv,则变换矩阵M4为该第一类声道单元最适合的变换矩阵,采用变换矩阵M4对第一类声道单元V0进行变换;若内积<V0,V4>小于给定的能量阈值Thrv,表明第一类声道单元中仅有两个子带能量相近,则计算V0i和Vi的内积<V0i,Vi>,i=1,2,3,比较<V0i,Vi>和给定的能量阈值Thrv的大小,若<V0i,Vi>不小于给定的能量阈值Thrv,则变换矩阵Mi为该第一类声道单元最适合的变换矩阵,采用变换矩阵Mi对声道单元V0进行变换;若<V0i,Vi>小于给定的能量阈值Thrv,则选择M0作为该第一类声道单位最适合的变换矩阵,采用变换矩阵M0对声道单元V0进行变换。
例如,对于第一类声道单元(C11,C21,C31)),若C11、C21、C31中最相近的子带能量为C11和C21,则计算矢量V03与V3的内积<V03,V3>,其中,V03=(C11,C21,0),
Figure BDA00003661645100091
若C11、C21、C31中最相近的子带能量为C21和C31,则计算矢量V01与V1的内积<V01,V1>,其中,V01=(0,C21,C31),若C11、C21、C31中最相近的子带能量为C11与C31,则计算矢量V02与V2的内积<V02,V2>,其中,V02=(C11,0,C31),
Figure BDA00003661645100093
经变换矩阵变换后的第一类声道单元为(CM,CS,CT),其中,CM表示和声道,CS表示第二个差声道,CT表示第三个差声道。对所有第一类声道单元进行变换后,对变换后的各第一类声道单元进行量化,得到量化后的声道单元
Figure BDA00003661645100094
当第一类声道单元的三个声道仅有两个声道能量相近时,选择M1,M2,M3的和矢量中与第一类声道单元矢量距离最近的和矢量对应的变换矩阵,采用选择的变换矩阵对声道单元进行编码,可得到一个能量较小的差声道;当声道单元的三个声道中所有声道间均满足编码变换条件,表明三个声道能量差异很小,此时,采用变换矩阵M4对声道单元进步编码,即得到两个能量较小的差声道。
若声道数量不为3的倍数,对声道为3的第一类声道单元采用上述方法进行编码并量化;对声道数不为3的第二类声道单元,采用传统的M/S编码模式或独立声道编码模式进行编码并量化。
步骤5:在解码端,根据变换矩阵索引选择对应的变换逆矩阵,采用变换逆矩阵还原声道单位。
步骤6:拆分还原后的各声道单位,获得N个声道对应的频域信号
步骤7:将N个声道对应的频域信号
Figure BDA00003661645100097
Figure BDA00003661645100101
转换成对应的时域信号
Figure BDA00003661645100102
最终最大无失真地完成原始各声道信号的还原。
具体实施时,可采用软件模块化技术实现相应系统,见图1。包括时频变换模块1、子带划分模块2、子带能量计算模块3、变换模块4、子带能量还原模块5、子带合成模块6和频时变换模块7。其中,原始各声道的时域信号标记为8,原始各声道的频域信号标记为9,各声道划分后的子带标记为10,组合后的声道单元标记为11,变换后的声道单元标记为12,还原出的原始各声道单元标记为13,还原的原始各声道频域信号标记为14,还原的原始各声道时域信号标记为15。

Claims (6)

1.一种面向多声道三维音频的编码方法,其特征在于,依次包括步骤:
步骤1-1,将N声道的时域信号变换为频域信号;
步骤1-2,将各声道的频域信号均划分为M个子带;
步骤1-3,获取各子带能量,并依次将相邻的三个声道对应的子带能量组合成第一类声道单元,若剩余相邻声道不足三个,则将剩余相邻声道对应的子带能量组合成第二类声道单元,各声道单元之间无共用声道,所述的声道单元包括第一类声道单元和第二类声道单元;
步骤1-4,采用3D-M/S编码系统对各第一类声道单元分别进行编码,采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行编码,量化编码结果并生成各声道单元对应的变换矩阵索引。
2.如权利要求1所述的面向多声道三维音频的编码方法,其特征在于:
步骤1-4中所述的采用3D-M/S编码系统对各第一类声道单元分别进行编码,进一步包括子步骤:
1-4a获取第一类声道单元
Figure FDA000036616450000110
与3D-M/S编码系统的变换矩阵M4的和矢量V4的内积<V0,V4>,判断内积<V0,V4>与给定的能量阈值Thrv的大小,若内积<V0,V4>不小于给定的能量阈值Thrv,则采用变换矩阵M4对第一类声道单元V0进行编码;否则,执行步骤1-4b;
1-4b根据第一类声道单元
Figure FDA00003661645000011
中各子带能量的相近情况构建声道单元V0i,选择对应的3D-M/S编码系统的变换矩阵Mi的和矢量Vi,并获取声道单元V0i与和矢量Vi的内积<V0i,Vi>,判断内积<V0i,Vi>与给定的能量阈值Thrv的大小,若内积<V0i,Vi>不小于给定的能量阈值Thrv,则采用变换矩阵Mi对第一类声道单元V0进行编码;否则,执行步骤1-4c;其中,当第一类声道单元
Figure FDA00003661645000012
中子带能量
Figure FDA00003661645000013
与子带能量
Figure FDA00003661645000014
为最相近的子带能量时,则i=1,
Figure FDA00003661645000015
当第一类声道单元中子带能量与子带能量
Figure FDA00003661645000018
为最相近的子带能量时,则i=2,当第一类声道单元
Figure FDA00003661645000021
中子带能量与子带能量
Figure FDA00003661645000023
为最相近的子带能量时,则i=3, V 03 = ( C &CenterDot; 1 , C &CenterDot; 2 , 0 ) ;
1-4c采用3D-M/S编码系统的变换矩阵M0对第一类声道单元V0进行编码;
所述的变换矩阵M0,、M1、M2、M3、M4如下:
M 0 = 1 0 0 0 1 0 0 0 1 , M 1 = 1 0 0 0 2 2 2 2 0 2 2 - 2 2 , M 2 = 2 2 0 2 2 0 1 0 2 2 0 - 2 2 , M 3 = 2 2 2 2 0 2 2 - 2 2 0 0 0 1 , M 4 = 3 3 3 3 3 3 2 2 - 2 2 0 6 6 6 6 - 6 3 .
3.一种面向多声道三维音频的解码方法,其特征在于,依次包括步骤:
步骤2-1,根据权利要求1步骤1-4获得的量化后的声道单元及其对应的变换矩阵索引,基于变换矩阵索引获取对应的变换逆矩阵,采用变换逆矩阵还原对应的量化后的声道单元,所述的声道单元包括第一类声道单元和第二类声道单元;
步骤2-2,拆分还原后的各声道单元获得N声道对应的频域信号;
步骤2-3,将N声道的频域信号转换为时域信号。
4.一种面向多声道三维音频的编码系统,其特征在于,包括:
时频变换模块,用来将N声道的时域信号变换为频域信号;
子带划分模块,用来将各声道的频域信号均划分为M个子带;
子带能量计算模块,用来获取各子带能量,并依次将相邻的三个声道对应的子带能量组合成第一类声道单元,若剩余相邻声道不足三个,则将剩余相邻声道对应的子带能量组合成第二类声道单元,各声道单元之间无共用声道;
变换模块,进一步包括第一类声道单元变换模块、第二类声道单元变换模块、量化模块和变换矩阵索引生成模块,其中:
第一类声道单元变换模块,用来采用3D-M/S编码系统对各第一类声道单元分别进行变换;
第二类声道单元变换模块,用来采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行变换;
量化模块用来量化编码结果;
变换矩阵索引生成模块用来生成各声道单元对应的变换矩阵索引。
5.如权利要求3所述的面向多声道三维音频的编码系统,其特征在于:
所述的第一类声道单元变换模块包括变换模式选择子模块和变换子模块,变换模式选择子模块进一步包括第一变换模式选择子模块、第二变换模式选择子模块和第三变换模式选择子模块,其中:
第一变换模式选择子模块,用来获取第一类声道单元
Figure FDA00003661645000031
与3D-M/S编码系统的变换矩阵M4的和矢量V4的内积<V0,V4>,判断内积<V0,V4>与给定的能量阈值Thrv的大小,若内积<V0,V4>不小于给定的能量阈值Thrv,则选择变换矩阵M4为第一类声道单元V0的变换矩阵;否则,运行第二编码模式选择模块;
第二变换模式选择模块,用来根据第一类声道单元
Figure FDA00003661645000032
中各子带能量的相近情况构建声道单元V0i,选择对应的3D-M/S编码系统的变换矩阵Mi的和矢量Vi,并获取声道单元V0i与和矢量Vi的内积<V0i,Vi>,判断内积<V0i,Vi>与给定的能量阈值Thrv的大小,若内积<V0i,Vi>不小于给定的能量阈值Thrv,则选择变换矩阵Mi为第一类声道单元V0的变换矩阵;否则,运行第三变换模式选择模块;其中,当第一类声道单元
Figure FDA00003661645000033
中子带能量
Figure FDA00003661645000034
与子带能量
Figure FDA00003661645000035
为最相近的子带能量时,则i=1,
Figure FDA00003661645000036
当第一类声道单元
Figure FDA00003661645000037
中子带能量
Figure FDA00003661645000038
与子带能量
Figure FDA00003661645000039
为最相近的子带能量时,则i=2,
Figure FDA000036616450000310
当第一类声道单元
Figure FDA000036616450000311
中子带能量
Figure FDA000036616450000312
与子带能量
Figure FDA000036616450000313
为最相近的子带能量时,则i=3, V 03 = ( C &CenterDot; 1 , C &CenterDot; 2 , 0 ) ;
第三变换模式选择模块,选择3D-M/S编码系统的变换矩阵M0为该第一类声道单元V0的变换矩阵;
变换子模块,用来根据选择的变换矩阵对该第一类声道单元进行变换。
6.一种面向多声道三维音频的解码系统,其特征在于,包括:
子带能量还原模块,用来根据权利要求4中所述的变换模块输出的变换矩阵索引获取变换矩阵对应的变换逆矩阵,采用变换逆矩阵还原对应的声道单元,所述的声道单元包括第一类声道单元和第二类声道单元;
子带合成模块,用来拆分各声道单元获得N声道对应的频域信号;
频时变换模块,用来将N声道的频域信号转换为时域信号。
CN201310351242.0A 2013-08-13 2013-08-13 面向多声道三维音频的编解码方法与系统 Active CN103400582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310351242.0A CN103400582B (zh) 2013-08-13 2013-08-13 面向多声道三维音频的编解码方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310351242.0A CN103400582B (zh) 2013-08-13 2013-08-13 面向多声道三维音频的编解码方法与系统

Publications (2)

Publication Number Publication Date
CN103400582A true CN103400582A (zh) 2013-11-20
CN103400582B CN103400582B (zh) 2015-09-16

Family

ID=49564189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310351242.0A Active CN103400582B (zh) 2013-08-13 2013-08-13 面向多声道三维音频的编解码方法与系统

Country Status (1)

Country Link
CN (1) CN103400582B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394498A (zh) * 2014-09-28 2015-03-04 北京塞宾科技有限公司 一种三通道全息声场回放方法及声场采集装置
CN105206278A (zh) * 2014-06-23 2015-12-30 张军 一种基于流水线的三维音频编码加速方法
CN106023999A (zh) * 2016-07-11 2016-10-12 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080205676A1 (en) * 2006-05-17 2008-08-28 Creative Technology Ltd Phase-Amplitude Matrixed Surround Decoder
EP2124486A1 (de) * 2008-05-13 2009-11-25 Clemens Par Winkelabhängig operierende Vorrichtung oder Methodik zur Gewinnung eines pseudostereophonen Audiosignals
WO2012105885A1 (en) * 2011-02-02 2012-08-09 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
CN102682779A (zh) * 2012-06-06 2012-09-19 武汉大学 面向3d音频的双声道编解码方法和编解码器
WO2013108200A1 (en) * 2012-01-19 2013-07-25 Koninklijke Philips N.V. Spatial audio rendering and encoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080205676A1 (en) * 2006-05-17 2008-08-28 Creative Technology Ltd Phase-Amplitude Matrixed Surround Decoder
EP2124486A1 (de) * 2008-05-13 2009-11-25 Clemens Par Winkelabhängig operierende Vorrichtung oder Methodik zur Gewinnung eines pseudostereophonen Audiosignals
WO2012105885A1 (en) * 2011-02-02 2012-08-09 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
WO2013108200A1 (en) * 2012-01-19 2013-07-25 Koninklijke Philips N.V. Spatial audio rendering and encoding
CN102682779A (zh) * 2012-06-06 2012-09-19 武汉大学 面向3d音频的双声道编解码方法和编解码器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FINN JACOBSEN,ET AL.: "Near field acoustic holography with particle velocity transducersa", 《2005 ACOUSTICAL SOCIETY OF AMERICA》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206278A (zh) * 2014-06-23 2015-12-30 张军 一种基于流水线的三维音频编码加速方法
CN104394498A (zh) * 2014-09-28 2015-03-04 北京塞宾科技有限公司 一种三通道全息声场回放方法及声场采集装置
CN104394498B (zh) * 2014-09-28 2017-01-18 北京塞宾科技有限公司 一种三通道全息声场回放方法及声场采集装置
CN106023999A (zh) * 2016-07-11 2016-10-12 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
CN106023999B (zh) * 2016-07-11 2019-06-11 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统

Also Published As

Publication number Publication date
CN103400582B (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
US11081117B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel Ambisonics audio data
CN103137132B (zh) 用于编码多对象音频信号的设备
CN101371447B (zh) 使用扩展带频率编码的复变换信道编码
CN102270452B (zh) 近透明或透明的多声道编码器/解码器方案
US9514759B2 (en) Method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
CN102577384A (zh) 用相位信息和残差信息进行编码/解码的设备和方法
CN101160619A (zh) 适应性残余音频编码
MXPA06011361A (es) Codificador de canales multiples.
CN101010985A (zh) 立体声信号生成装置及立体声信号生成方法
US20080284623A1 (en) Lossless audio coding/decoding apparatus and method
US20160180855A1 (en) Apparatus and method for encoding and decoding multi-channel audio signal
CN106373583A (zh) 基于理想软阈值掩模irm的多音频对象编、解码方法
WO2016001355A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
US8976970B2 (en) Apparatus and method for bandwidth extension for multi-channel audio
KR102433192B1 (ko) 압축된 hoa 표현을 디코딩하기 위한 방법 및 장치와 압축된 hoa 표현을 인코딩하기 위한 방법 및 장치
CN103400582B (zh) 面向多声道三维音频的编解码方法与系统
CN102682779B (zh) 面向3d音频的双声道编解码方法和编解码器
CN101604983B (zh) 编解码装置、系统及其方法
KR102363275B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
US20190035412A1 (en) Block-based audio encoding/decoding device and method therefor
RU2802803C2 (ru) Способы и устройства для кодирования и/или декодирования аудиосигналов погружения
CN103733256A (zh) 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端
MX2008009186A (en) Complex-transform channel coding with extended-band frequency coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant