CN105405445A

CN105405445A - 一种基于声道间传递函数的参数立体声编码、解码方法

Info

Publication number: CN105405445A
Application number: CN201510915572.7A
Authority: CN
Inventors: 曲天书; 吴玺宏; 黄庆博
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-03-16
Anticipated expiration: 2035-12-10
Also published as: CN105405445B

Abstract

本发明公开了一种基于声道间传递函数的参数立体声编码、解码方法。本发明编码方法为：1)编码端利用左右声道信号生成下混信号；2)将输入的下混信号和一单声道信号分别分帧后，提取每一帧的声道间传递函数系数；然后将提取的传递函数系数拼成一二维矩阵；其中，所述单声道信号为左声道信号或右声道信号；3)对该二维矩阵依次进行二维压缩、游程编码、熵编码，将该二维矩阵中的系数压缩生成边信息，然后与下混信号形成比特流。本发明保留了信号的低高频空间信息，同时实现了帧内和帧间的压缩。

Description

一种基于声道间传递函数的参数立体声编码、解码方法

技术领域

本发明属于多声道音频压缩领域，涉及一种参数立体声编码、解码方法。

背景技术

数字音频编解码技术采用计算机技术对音频信号处理，便于进行记录和传输，具有广泛的用途。随着三维电影，三维游戏以及家庭影院的普及，面向多声道的音频编解码技术成为目前研究的热点。

音频文件之所以可以压缩，是因为存在冗余，传统压缩算法主要考虑消除声道内冗余，在不考虑声道间冗余时，由于多声道音频文件的码率与声道数是线性关系，声道数的增加会导致码率成倍增加。从1993年MP3开始，人们逐渐发现声道间也是存在冗余并且开始尝试消除声道间冗余，逐步解决了在保持较高主观听感的条件下实现超低码率的问题。现有的消除声道间冗余的方法主要有如下三种：一，联合立体声是MPEG-1、MEPG-2/4AAC等音频编解码国际标准中的重要组成部分，包括和差变换编码与强度立体声两种立体声编解码技术。和差变换编码也被称为MS编码，是Middle-Side编码的简称，该方法利用声道间相关性，将信号能量集中在和声道上，以此去除声道间冗余。强度立体声是通过将原始信号空间的坐标轴进行旋转，得到主轴的强度信号和与之正交的残差信号。二，双耳线索编码是2002年C.Faller提出的编解码技术，是一种基于空间听觉理论的参数编码技术。立体声或者多声道输入信号下混成单声道信号，同时根据空间听觉特性，对各个声道在变换域进行分析，提取三种空间参数：声道间强度差(Inter-channelIntensityDifference，IID)、声道间时间差(Inter-channelTimeDifference，ITD)及声道间相关性(Inter-ChannelCoherence，ICC)。下混信号可以使用传统的音频编码器来进行编码，参数经过量化编码后作为辅助部分嵌入到比特流中。在解码端，解码后的下混信号利用相应的空间参数来重构立体声或多声道音频信号。三，参数立体声基本思路是在编码端输出一个单声道信号和若干空间参数，在解码端利用单声道信号和空间参数重构双声道立体声信号，是目前消除声道间冗余最常用的方法之一。已经被MPEG-4He-AAC+采取，作为其PS模块。

空间立体声参数编解码技术常用的空间参数包括通道间强度差、通道间相关系数及通道间时间差作为空间参数边信息。此方法有两个缺点，一是对高频信号进行高度压缩，导致高频细节信号缺失；二是只考虑了帧内压缩，忽视了信号的时域相关性。

发明内容

本发明提出了一种基于声道间传递函数的参数立体声编码、解码方法。编码端估计声道间传递函数，把估计的传递函数系数向量按帧组成二维矩阵，对此二维矩阵进行压缩、量化后，作为空间参数，与合成的下混单通道信号一起形成码流。解码端利用传递函数系数和下混的单通道信号恢复双声道信号。

本发明的技术方案为：

一种基于声道间传递函数的参数立体声编码方法，其步骤为：

1)编码端利用左右声道信号生成下混信号；

2)将输入的下混信号和一单声道信号分别分帧后，提取每一帧的声道间传递函数系数；然后将提取的传递函数系数拼成一二维矩阵；其中，所述单声道信号为左声道信号或右声道信号；

3)对该二维矩阵依次进行二维压缩、游程编码、熵编码，将该二维矩阵中的系数压缩生成边信息，然后与下混信号形成比特流。

进一步的，所述右声道信号为右声道时域信号、左声道信号为左声道时域信号，所述下混信号为下混时域信号。

进一步的，利用公式Rframe_k＝Mframe_k*A_k计算声道间传递函数系数系数；其中，Mframe_k为第k帧单声道时域信号，Rframe_k为第k帧下混时域信号，A_k为p维的第k帧声道间传递函数系数向量，p表示预测阶数。

进一步的，对每一帧的声道间传递函数系数向量顺次拼接，得到所述二维矩阵。

进一步的，所述二维压缩方法为二维DCT变化方法，即对该二维矩阵进行二维DCT变化，得到一量化压缩后的声道间传递函数系数矩阵DCTFM。

进一步的，所述游程编码方法为：

61)首先预设一置零阈值thres，将声道间传递函数系数矩阵DCTFM中绝对值小于thres的值量化为0；

62)根据要求码率按照均匀量化的方式对步骤61)处理后的声道间传递函数系数矩阵DCTFM中每一个值进行量化；

63)按照zigzag方式进行扫描，将二维矩阵转换为一维向量，然后对该一维向量进行游程编码。

一种基于声道间传递函数的参数立体声解码方法，其步骤为：

1)解码端从比特流中分别提取下混信号和边信息；

2)对边信息进行熵解码，将边信息解码为编码端码书中的量化值；

3)对步骤2)解码得到的量化值进行游程解码与相应的二维解压缩，得到声道间传递函数系数；

4)对提取的下混信号和单声道信号进行分帧，然后一帧声道间传递函数系数和一帧单声道下混信号恢复出左右声道各一帧信号。

与现有技术相比，本发明的积极效果为：

其一，提取声道间传递函数作为空间立体声参数，保留了信号的低高频空间信息；其二，把通道传递函数按帧顺序组合，构成二维矩阵，再用二维DCT算法对其进行两个维度的压缩，利用了空间参数在时间上的冗余性，同时实现了帧内和帧间的压缩。

附图说明

图1为编码框架图；

图2为游程编码示意图；

图3为解码框架图；

图4为语音类文件测试结果图；

图5为瞬态类音乐测试结果图；

图6为稳态类音乐测试结果图。

具体实施方式

下面结合附图对本发明进行进一步详细描述。

编码过程：

在编码端，利用左右声道信号生成下混信号，将输入的右声道信号(或左声道信号)和下混分别分帧后，提取每一帧的声道间传递函数，将每一帧传递函数系数向量拼成二维矩阵。利用二维压缩(比如二维DCT变换、主成份分析、稀疏编码等)、游程编码、熵编码将二维矩阵中的系数进行压缩生成边信息，同时与下混信号形成比特流。

1、加和下混模块

该模块输入为双声道时域信号，输出为一个下混时域信号M

时域信号输出：

M＝g_lL+g_rR

其中g_l、g_r为左右声道权重系数。

2、分帧模块

选取2048个点一帧，对下混信号和右声道信号进行分帧。

3、声道间传递函数估计模块

该模块包括声道间传递函数提取和传递函数系数拼接2个子模块，输入为右声道或左声道时域信号和下混时域信号，输出为一个由传递函数系数拼成的矩阵。

声道间传递函数提取模块

该模块输入为右声道时域信号和下混时域信号分帧后的第k帧信号Mframe_k和Rframe_k，输出为一个p维的列向量A_k，即声道间传递函数的系数。

Rframe_k＝Mframe_k*A_k

写成矩阵形式，

其中k表示帧号，l表示帧长，l＝2048，p表示预测阶数，p＝256。

由于l＞p，该方程是一个超定方程，可以用最小二乘法求出在最小均方误差准则下的近似解。

传递函数系数拼接模块

该模块输入为所有帧的预测系数列向量A_k，输出为由这些向量拼成的系数矩阵。

CTFM＝(A₁A₂…A_n)。

4、声道间传递函数矩阵压缩与量化

该模块输入为声道间传递函数系数矩阵CTFM，输出量化压缩后的声道间传递函数系数矩阵DCTFM。包括二维DCT变换和游程编码2个子模块。

二维DCT变换

输入矩阵为CTFM，对其进行二维DCT变换得到DCTFM

X_{u, v} = Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} x_{i, j} c o s [\frac{π}{2 N} (2 i + 1) u] c o s [\frac{π}{2 N} (2 j + 1) v]

x_i,j表示CTFM中第i行第j列的点，X_u,v表示DCTFM中第u行第v列的点。

游程编码模块

预设一个置零阈值thres，将绝对值小于thres的DCTFM中所有值量化为0。根据要求码率按照均匀量化的方式生成量化表，对于DCTFM中的每一个值进行量化。量化完成后按照zigzag方式进行扫描，将二维矩阵转换为一维向量TFV。然后对该向量TFV进行游程编码ZTFV。

5、熵编码

输入为游程编码的结果，输出为边信息、量化后每个码字的出现频率并不相等，可采用Huffman不定长编码这一熵编码方式对码字进行编码，降低总码率。

6、码流形成

输入为边信息和下混信号，二者一同形成比特流。

解码过程：

解码端是由下混信号结合相应的空间参数来合成环境声(SyntheticAmbience)，最终重构双声道立体声信号的过程。整体过程是编码的逆过程。

1、码流分解

从比特流中分别提取下混信号和边信息。

2、熵解码模块

将边信息解码为编码端码书中的量化值，得到1维向量re_ZTFV。

3、声道间传递函数矩阵解压缩与反量化模块

A游程解码与反量化

该模块输入为一维度向量re_ZTFV，输出为一维向量re_TFV，该模块主要实现游程编码的解码过程。并把向量中每一个值按照量化表进行反量化得到对应数值。

B反zigzag扫描

从一维向量re_TFV恢复为二维矩阵re_DCTFM

C二维DCT反变换

该模块输入为re_DCTFM输出为re_CTFM

4、分帧模块

输入为步骤1的下混信号，选取2048个点一帧，将下混信号分帧。

5、左右声道声音重建模块

根据一帧声道间传递函数系数(即re_CTFM中的一列向量A_k)和一帧单声道下混信号恢复左右声道各一帧信号。

(\begin{matrix} l_{k, 1} \\ l_{k, 2} \\ l_{k, 3} \\ . \\ . \\ . \\ l_{k, l} \end{matrix}) = 2 * (\begin{matrix} m_{k, 1} \\ m_{k, 2} \\ m_{k, 3} \\ . \\ . \\ . \\ m_{k, l} \end{matrix}) - (\begin{matrix} r_{k, 1} \\ r_{k, 2} \\ r_{k, 3} \\ . \\ . \\ . \\ r_{k, l} \end{matrix})

本发明方法评测实验

在参数立体声与单声道音频编解码器结合构成的完整立体声音频编解码系统中，双声道输入信号首先向下混合成单声道信号。生成的单声道信号使用传统的单声道音频编码器编码并解码得到时域信号，该时域信号与右声道时域信号使用传统的单声道音频编码器编码并解码得到的时域信号一起输入参数立体声编码。生成的空间信息与单通道时域信号经过传统单声道编码器的编码结果一起形成码流。空间参数经过量化编码后生成边信息与单声道信号复合成比特流。在解码器端，首先将比特流解复用成单声道信号流和空间参数码流。单声道信号经过传统解码器解码后，利用相应的空间参数，通过环境声合成方法重构立体声信号并输出。

主观评价测试：

实验设置：测听人员为8名听力正常的大学生，使用SennheiserHD650耳机在听音室内回放，测试文件选取9个测试序列，分为语音、瞬态音乐、稳态音乐3类，每一类包括3个文件，参照ITU-RecommendationBS.1534，采用MUltipleStimuliwithHiddenReferenceandAnchor(MUSHRA)测试方法对重构信号的音质作主观评分。评测结果如图4-6所示。

稳态类音乐测试结果，图4-6分别表示语音类、瞬态音乐类、稳态音乐类信号的MUSHRA得分平均值与95％置信度的置信区间。实验结果数据经过统计分析以验证本发明方法与HE-AAC方法在主观性能测试中是否具有显著性差异。

图4表示语音类信号测试结果。结果表明：本发明方法优于HE-AAC方法，但不显著(p＝0.631)。

图5表示瞬态类音乐信号测试结果。结果表明：HE-AAC方法优于本发明方法，但不显著(p＝0.052)。

图6表示瞬态类音乐信号测试结果。结果表明：新方法稍好于原MPEG方法，并且是显著的(p＝0.01)。

Claims

1.一种基于声道间传递函数的参数立体声编码方法，其步骤为：

1)编码端利用左右声道信号生成下混信号；

2.如权利要求1所述的方法，其特征在于，所述右声道信号为右声道时域信号、左声道信号为左声道时域信号，所述下混信号为下混时域信号。

3.如权利要求2所述的方法，其特征在于，利用公式Rframe_k＝Mframe_k*A_k计算声道间传递函数系数系数；其中，Mframe_k为第k帧单声道时域信号，Rframe_k为第k帧下混时域信号，A_k为p维的第k帧声道间传递函数系数向量，p表示预测阶数。

4.如权利要求3所述的方法，其特征在于，对每一帧的声道间传递函数系数向量顺次拼接，得到所述二维矩阵。

5.如权利要求2或3或4所述的方法，其特征在于，所述二维压缩方法为二维DCT变化方法，即对该二维矩阵进行二维DCT变化，得到一量化压缩后的声道间传递函数系数矩阵DCTFM。

6.如权利要求5所述的方法，其特征在于，所述游程编码方法为：

7.一种基于声道间传递函数的参数立体声解码方法，其步骤为：

1)解码端从比特流中分别提取下混信号和边信息；