CN103400582A

CN103400582A - 面向多声道三维音频的编解码方法与系统

Info

Publication number: CN103400582A
Application number: CN2013103512420A
Authority: CN
Inventors: 胡瑞敏; 董石; 王樱; 王晓晨; 涂卫平; 杨玉红; 高戈; 吕亚平; 杨姗姗
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-08-13
Filing date: 2013-08-13
Publication date: 2013-11-20
Anticipated expiration: 2033-08-13
Also published as: CN103400582B

Abstract

本发明公开了一种面向多声道三维音频的编解码方法与系统，包括时频变换模块、子带划分模块、子带能量计算模块、变换模块，子带能量还原模块、子带合成模块和频时变换模块。编码端，将输入声道的时域信号变换为频域信号，并将各声道的频域信号信号划分为子带，计算各子带能量；将相邻三个声道对应的子带能量组合成声道单元，分析声道单元中各子带能量并根据分析结果选择变换矩阵；在解码端，通过变换矩阵索引，还原声道单元，并获得各声道的频域信号，通过频时变换得到各声道的域信号，从而最大无失真地完成了原始声道信号的还原。本发明可实现声道间冗余信息的去除，且具有低复杂度和高效率的特点，适用于三维音频直播通信传输的要求。

Description

面向多声道三维音频的编解码方法与系统

技术领域

本发明属于面向多声道音频的编解码领域，尤其涉及一种面向多声道三维音频的编解码方法与系统。

背景技术

随着三维影视市场的巨大成功，三维音频技术受到了广泛关注并得到了迅速发展。三维音频系统因其能为观众提供更好的声音定位和临场感，越来越多地被引入与音频相关的应用当中取代传统环绕声系统。波场合成(Wave FieldSynthesis，WFS)、Ambisonics（全息声）和幅度矢量合成(Vector Based AmplitudePanning，VBAP)是目前发展最为完备的三种多声道三维音频理论。

未来三维音频技术将逐渐走向成熟并取代现有的立体声和环绕声技术。当前三维音频系统的一个主要特点就是其庞大的声道数目。针对三维音频数据量激增的问题，近期在三维音频压缩方面已经展开了一些非常有价值的工作。2007年，Goodwin等提出了一种基于主成分分析的参数编码多声道压缩框架，该框架可应用于增强特殊的音频场景信号并提高空间音频编码的鲁棒性。2008年，Cheng提出了一种空间压缩环绕声编码(S³AC)方法，用于Ambisonics信号的参数编码。2009年，Hellerud使用声道间预测编码的方法去除Ambisonics声道间的冗余信息，这种方法具有较低的算法延时，但是计算复杂度较高。2010年，Pinto利用时空域变换将WFS信号分解成平面波和瞬态波，通过舍弃瞬态波，并利用感知编码对平面波信号进行压缩，来获得编码增益。由于其时空变换的精度取决于空间分辨率，也即WFS声道数目，所以编码效率会随着单位空间内声道数的增加而提高。2011年，Cheng又进一步提出了一种空间定位量化格点(SpatialLocalization Quantization Point,SLQP)的参数编码方法，并使用三维方位线索来压缩VBAP信号。由于提取了空间线索并通过下混技术减少了声道数目，SLQP取得了较高的压缩效率。上述模型和参数编码方法可以提供较高的压缩比，但实际应用中音频编码器要兼顾算法复杂度和编码效率两个方面，而且参数编码也只能在低码率下提高编码音质。

发明内容

本发明的目的是提供了一种兼具低复杂度和高效率的面向多声道三维音频的编解码方法与系统。

为达到上述目的，本发明提供了如下技术方案：

一、一种面向多声道三维音频的编码方法，包括步骤：

步骤1-1，将N声道的时域信号变换为频域信号；

步骤1-2，将各声道的频域信号均划分为M个子带；

步骤1-3，获取各子带能量，并依次将相邻的三个声道对应的子带能量组合成第一类声道单元，若剩余相邻声道不足三个，则将剩余相邻声道对应的子带能量组合成第二类声道单元，各声道单元之间无共用声道，所述的声道单元包括第一类声道单元和第二类声道单元；

步骤1-4，采用3D-M/S编码系统对各第一类声道单元分别进行编码，采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行编码，量化编码结果并生成各声道单元对应的变换矩阵索引。

上述步骤1-4中所述的采用3D-M/S编码系统对各第一类声道单元分别进行编码，进一步包括子步骤：

1-4a获取第一类声道单元

与3D-M/S编码系统的变换矩阵M₄的和矢量V₄的内积<V₀,V₄>，判断内积<V₀,V₄>与给定的能量阈值Thr_v的大小，若内积<V₀,V₄>不小于给定的能量阈值Thr_v，则采用变换矩阵M₄对第一类声道单元V₀进行编码；否则，执行步骤1-4b；

1-4b根据第一类声道单元

中各子带能量的相近情况构建声道单元V_0i，选择对应的3D-M/S编码系统的变换矩阵M_i的和矢量V_i，并获取声道单元V_0i与和矢量V_i的内积<V_0i,V_i>，判断内积<V_0i,V_i>与给定的能量阈值Thr_v的大小，若内积<V_0i,V_i>不小于给定的能量阈值Thr_v，则采用变换矩阵M_i对第一类声道单元V₀进行编码；否则，执行步骤1-4c；其中，当第一类声道单元

中子带能量

与子带能量

为最相近的子带能量时，则i=1，

当第一类声道单元

中子带能量与子带能量

为最相近的子带能量时，则i=2，当第一类声道单元

中子带能量

与子带能量

为最相近的子带能量时，则i=3，

V_{03} = ({\overset{\cdot}{C}}_{1}, {\overset{\cdot}{C}}_{2}, 0);

1-4c采用3D-M/S编码系统的变换矩阵M₀对第一类声道单元V₀进行编码；

所述的变换矩阵M₀,、M₁、M₂、M₃、M₄如下：

M_{0} = [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}],

M_{1} = [\begin{matrix} 1 & 0 & 0 \\ 0 & \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ 0 & \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} \end{matrix}],

M_{2} = [\begin{matrix} \frac{\sqrt{2}}{2} & 0 & \frac{\sqrt{2}}{2} \\ 0 & 1 & 0 \\ \frac{\sqrt{2}}{2} & 0 & - \frac{\sqrt{2}}{2} \end{matrix}],

M_{3} = [\begin{matrix} \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} & 0 \\ \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} & 0 \\ 0 & 0 & 1 \end{matrix}],

M_{4} = [\begin{matrix} \frac{\sqrt{3}}{3} & \frac{\sqrt{3}}{3} & \frac{\sqrt{3}}{3} \\ \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} & 0 \\ \frac{\sqrt{6}}{6} & \frac{\sqrt{6}}{6} & - \frac{\sqrt{6}}{3} \end{matrix}] .

二、一种与上述编码方法对应的面向多声道三维音频的解码方法，包括步骤：

步骤2-1，根据步骤1-4获得的量化后的声道单元及其对应的变换矩阵索引，基于变换矩阵索引获取对应的变换逆矩阵，采用变换逆矩阵还原对应的量化后的声道单元，所述的声道单元包括第一类声道单元和第二类声道单元；

步骤2-2，拆分还原后的各声道单元获得N声道对应的频域信号；

步骤2-3，将N声道的频域信号转换为时域信号。

三、一种面向多声道三维音频的编码系统，包括：

时频变换模块，用来将N声道的时域信号变换为频域信号；

子带划分模块，用来将各声道的频域信号均划分为M个子带；

子带能量计算模块，用来获取各子带能量，并依次将相邻的三个声道对应的子带能量组合成第一类声道单元，若剩余相邻声道不足三个，则将剩余相邻声道对应的子带能量组合成第二类声道单元，各声道单元之间无共用声道；

变换模块，进一步包括第一类声道单元变换模块、第二类声道单元变换模块、量化模块和变换矩阵索引生成模块，其中：

第一类声道单元变换模块，用来采用3D-M/S编码系统对各第一类声道单元分别进行变换；

第二类声道单元变换模块，用来采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行变换；

量化模块用来量化编码结果；

变换矩阵索引生成模块用来生成各声道单元对应的变换矩阵索引。

上述第一类声道单元变换模块包括变换模式选择子模块和变换子模块，变换模式选择子模块进一步包括第一变换模式选择子模块、第二变换模式选择子模块和第三变换模式选择子模块，其中：

第一变换模式选择子模块，用来获取第一类声道单元

与3D-M/S编码系统的变换矩阵M₄的和矢量V₄的内积<V₀,V₄>，判断内积<V₀,V₄>与给定的能量阈值Thr_v的大小，若内积<V₀,V₄>不小于给定的能量阈值Thr_v，则选择变换矩阵M₄为第一类声道单元V₀的变换矩阵；否则，运行第二编码模式选择模块；

第二变换模式选择模块，用来根据第一类声道单元

中各子带能量的相近情况构建声道单元V_0i，选择对应的3D-M/S编码系统的变换矩阵M_i的和矢量V_i，并获取声道单元V_0i与和矢量V_i的内积<V_0i,V_i>，判断内积<V_0i,V_i>与给定的能量阈值Thr_v的大小，若内积<V_0i,V_i>不小于给定的能量阈值Thr_v，则选择变换矩阵M_i为第一类声道单元V₀的变换矩阵；否则，运行第三变换模式选择模块；其中，当第一类声道单元

中子带能量

与子带能量

为最相近的子带能量时，则i=1，

当第一类声道单元

中子带能量

与子带能量

为最相近的子带能量时，则i=2，

当第一类声道单元

中子带能量

与子带能量

为最相近的子带能量时，则i=3，

V_{03} = ({\overset{\cdot}{C}}_{1}, {\overset{\cdot}{C}}_{2}, 0);

第三变换模式选择模块，选择3D-M/S编码系统的变换矩阵M₀为该第一类声道单元V₀的变换矩阵；

变换子模块，用来根据选择的变换矩阵对该第一类声道单元进行变换。

四、一种与上述面向多声道三维音频的编码系统对应的解码系统，包括：

子带能量还原模块，用来根变换模块输出的变换矩阵索引获取变换矩阵对应的变换逆矩阵，采用变换逆矩阵还原对应的声道单元，所述的声道单元包括第一类声道单元和第二类声道单元；

子带合成模块，用来拆分各声道单元获得N声道对应的频域信号；

频时变换模块，用来将N声道的频域信号转换为时域信号。

与现有技术相比，本发明具有如下优点：

使3D-M/S（三声道的和差编码）编码系统能压缩任意声道配置，可实现声道间冗余信息的去除，且具有低复杂度和高效率的特点，适用于三维音频直播通信传输的要求。

附图说明

图1为本发明系统实施例的系统结构框图；

图2为本发明方法实施例的流程图。

具体实施方式

下面以具体实施例结合附图对本发明技术方案作进一步说明：

见图1，本发明的面向多声道三维音频的编解码系统包括时频变换模块1、子带划分模块2、子带能量计算模块3、变换模块4、子带能量还原模块5、子带合成模块6和频时变换模块7。

时频变换模块1，用于将输入的N声道的时域信号变换为频域信号，并将频域信号接入到子带划分模块2。

子带划分模块2，用于将时频变换模块1输出的各声道的频域信号均划分为M个子带，并标定各子带的预设位置，划分后的子带接入到子带能量计算模块3。

子带能量计算模块3，用于计算子带划分模块2输出的各声道中各子带的能量，并依次将相邻三个声道对应的子带能量组合成第一类声道单元，若剩余相邻声道不足三个，则将剩余相邻声道对应的子带能量组合成第二类声道单元，各声道单元之间无共用声道，将组合得到的第一类声道单元和第二类声道单元输入变换模块4。

变换模块4，进一步包括第一类声道单元变换模块、第二类声道单元变换模块、量化模块和变换矩阵索引生成模块，其中，第一类声道单元变换模块，用来采用3D-M/S编码系统对各第一类声道单元分别进行变换；第二类声道单元变换模块，用来采用传统M/S编码模式或独立声道编码模式对各第二类声道单元分别进行变换；量化模块用来量化变换结果；变换矩阵索引生成模块用来生成各声道单元对应的变换矩阵索引。

第一类声道单元变换模块又包括变换模式选择子模块和变换子模块，变换模式选择子模块用来根据第一类声道单元的子带能量选择变换矩阵，变换子模块用来根据选择的变换矩阵对第一类声道单元进行变换。

子带能量还原模块5，用于根据变换模块4中输出的量化后的声道单元及其对应的变换矩阵索引，选择各声道单元对应的变换逆矩阵，并还原各声道单元，还原后的各声道单元输入子带合成模块6。

子带合成模块6，用于将子带能量还原模块5输出的各声道单元进行拆分获得N声道对应的频域信号，将还原出的N声道频域信号输入频时变换模块7。

频时变换模块7，用于将子带合成模块6输出的N声道对应的频域信号转换为时域信号，以实现原始声道信号的最大无失真还原。

见图2，本发明提供的面向多声道三维音频的编解码方法，可采用计算机软件技术手段自动进行流程，具体包括以下步骤：

步骤1：采用短时傅里叶变换，将N个声道的时域信号c₁(n)、c₂(n)、…、c_i(n)、…、c_N(n)变换为对应的频域信号C₁(k)、C₂(k)、…、C_i(k)、…、C_N(k)。

步骤2：将各声道的频域信号均划分为M个子带，并设置各子带的结束位置为b(1)、b(2)、…、b(i)、…b(M)，而b(0)＝1。

步骤3：计算各子带能量，并构建以子带能量为元素的声道单元。

计算C₁(k)划分的子带能量为C₁₁、C₁₂、…、C_1i、…、C_1M，其中，

C_{1 i} = Σ_{k = b (i - 1)}^{b = (i)} C_{1}^{2} (k) - - - (1)

继续计算C₂(k)划分的子带能量C₂₁、C₂₂、…、C_2i、…、C_1M。采用相同的方法，依次计算C₃(k)…、C_i(k)、…、C_N(k)划分的子带能量。

将相邻三个声道对应的子带能量组合得到一个第一类声道单元，例如，(C₁₁,C₂₁,C₃₁)、(C₄₁,C₅₁,C₆₁)、(C₁₂,C₂₂,C₃₂)，且各声道单元之间无共用声道。若声道数量不是3的倍数，则将剩下的不足3个的声道对应的子带能量组合得到第二类声道单元。

步骤4：依次分析各声道单元中各子带能量，并根据分析结果采用不同的变换矩阵对各声道单元进行编码。

若声道数量为3的倍数，则获得的所有声带单元均为以子带能量为元素的三阶行矩阵，即，第一类声道单元。将第一类声道单元（例如，(C₁₁,C₂₁,C₃₁)）与编码系统的变换矩阵的和矢量进行内积运算，并根据内积运算结果选择合适的变换矩阵进行编码。

对于3D-M/S编码系统，其变换矩阵包括M₀,、M₁、M₂、M₃、M₄，其中，

M_{0} = [\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}],

M_{1} = [\begin{matrix} 1 & 0 & 0 \\ 0 & \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ 0 & \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} \end{matrix}],

M_{2} = [\begin{matrix} \frac{\sqrt{2}}{2} & 0 & \frac{\sqrt{2}}{2} \\ 0 & 1 & 0 \\ \frac{\sqrt{2}}{2} & 0 & - \frac{\sqrt{2}}{2} \end{matrix}],

M_{3} = [\begin{matrix} \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} & 0 \\ \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} & 0 \\ 0 & 0 & 1 \end{matrix}],

M_{4} = [\begin{matrix} \frac{\sqrt{3}}{3} & \frac{\sqrt{3}}{3} & \frac{\sqrt{3}}{3} \\ \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} & 0 \\ \frac{\sqrt{6}}{6} & \frac{\sqrt{6}}{6} & - \frac{\sqrt{6}}{3} \end{matrix}] .

对于某一个第一类声道单元V₀，计算<V₀,V₄>，其中，V₄为变换矩阵M₄的和矢量，判断<V₀,V₄>值和预设能量矢量距离阈值Thr_v的大小。根据判断结果选择该声道单元最适合的变换矩阵。

对于3D-M/S编码系统，变换条件如下：

mode = \{\begin{matrix} M_{4}, if < V_{0}, V_{4} > &GreaterEqual; {Thr}_{v} \\ M_{i}, elseif < V_{0 i}, V_{i} > &GreaterEqual; {Thr}_{v} \\ and < V_{0 i}, V_{i} > &GreaterEqual; < V_{oj}, V_{j} > &ForAll; j &NotEqual; i \\ M_{0}, else \end{matrix} - - - (2)

其中：

i,j∈{1,2,3}；

为第一类声道单元，分别表示三个相邻声道对应的子带能量；

V_{01} = (0, {\overset{\cdot}{C}}_{2}, {\overset{\cdot}{C}}_{3}), V_{02} = ({\overset{\cdot}{C}}_{1}, 0, {\overset{\cdot}{C}}_{3}) {, V}_{03} = ({\overset{\cdot}{C}}_{1}, {\overset{\cdot}{C}}_{2}, 0);

为变换矩阵M₁的和矢量；

为变换矩阵M₂的和矢量；

为变换矩阵M₃的和矢量；

V_{4} = (\sqrt{3} / 3, \sqrt{3} / 3, \sqrt{3} / 3),

为变换矩阵M₄的和矢量。

基于公式（2）找寻对各第一类声道单元最适合的变换矩阵，具体过程如下：

首先，计算第一类声道单元V₀与变换矩阵M₄的和矢量V₄的内积<V₀,V₄>，若<V₀,V₄>不小于给定的能量阈值Thr_v，则变换矩阵M₄为该第一类声道单元最适合的变换矩阵，采用变换矩阵M₄对第一类声道单元V₀进行变换；若内积<V₀,V₄>小于给定的能量阈值Thr_v，表明第一类声道单元中仅有两个子带能量相近，则计算V_0i和V_i的内积<V_0i,V_i>，i=1，2，3，比较<V_0i,V_i>和给定的能量阈值Thr_v的大小，若<V_0i,V_i>不小于给定的能量阈值Thr_v，则变换矩阵M_i为该第一类声道单元最适合的变换矩阵，采用变换矩阵M_i对声道单元V₀进行变换；若<V_0i,V_i>小于给定的能量阈值Thr_v，则选择M₀作为该第一类声道单位最适合的变换矩阵，采用变换矩阵M₀对声道单元V₀进行变换。

例如，对于第一类声道单元(C₁₁,C₂₁,C₃₁))，若C₁₁、C₂₁、C₃₁中最相近的子带能量为C₁₁和C₂₁，则计算矢量V₀₃与V₃的内积＜V₀₃,V₃＞，其中，V₀₃＝(C₁₁,C₂₁,0)，

若C₁₁、C₂₁、C₃₁中最相近的子带能量为C₂₁和C₃₁，则计算矢量V₀₁与V₁的内积＜V₀₁,V₁＞，其中，V₀₁＝(0,C₂₁,C₃₁)，若C₁₁、C₂₁、C₃₁中最相近的子带能量为C₁₁与C₃₁，则计算矢量V₀₂与V₂的内积＜V₀₂,V₂＞，其中，V₀₂＝(C₁₁,0,C₃₁)，

经变换矩阵变换后的第一类声道单元为(C_M,C_S,C_T)，其中，C_M表示和声道，C_S表示第二个差声道，C_T表示第三个差声道。对所有第一类声道单元进行变换后，对变换后的各第一类声道单元进行量化，得到量化后的声道单元

当第一类声道单元的三个声道仅有两个声道能量相近时，选择M₁，M₂，M₃的和矢量中与第一类声道单元矢量距离最近的和矢量对应的变换矩阵，采用选择的变换矩阵对声道单元进行编码，可得到一个能量较小的差声道；当声道单元的三个声道中所有声道间均满足编码变换条件，表明三个声道能量差异很小，此时，采用变换矩阵M₄对声道单元进步编码，即得到两个能量较小的差声道。

若声道数量不为3的倍数，对声道为3的第一类声道单元采用上述方法进行编码并量化；对声道数不为3的第二类声道单元，采用传统的M/S编码模式或独立声道编码模式进行编码并量化。

步骤5：在解码端，根据变换矩阵索引选择对应的变换逆矩阵，采用变换逆矩阵还原声道单位。

步骤6：拆分还原后的各声道单位，获得N个声道对应的频域信号

步骤7：将N个声道对应的频域信号

转换成对应的时域信号

最终最大无失真地完成原始各声道信号的还原。

具体实施时，可采用软件模块化技术实现相应系统，见图1。包括时频变换模块1、子带划分模块2、子带能量计算模块3、变换模块4、子带能量还原模块5、子带合成模块6和频时变换模块7。其中，原始各声道的时域信号标记为8，原始各声道的频域信号标记为9，各声道划分后的子带标记为10，组合后的声道单元标记为11，变换后的声道单元标记为12，还原出的原始各声道单元标记为13，还原的原始各声道频域信号标记为14，还原的原始各声道时域信号标记为15。