CN103761969A

CN103761969A - 基于高斯混合模型的感知域音频编码方法及系统

Info

Publication number: CN103761969A
Application number: CN201410057260.2A
Authority: CN
Inventors: 高戈; 陈怡�; 吕亚平; 张康; 杨玉红
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2014-02-20
Filing date: 2014-02-20
Publication date: 2014-04-30
Anticipated expiration: 2034-02-20
Also published as: CN103761969B

Abstract

本发明公开了一种基于高斯混合模型的感知域音频编码方法和系统，包括步骤：步骤1，采用听觉滤波器对输入音频信号进行滤波，获得子带信号；步骤2，提取子带信号的希尔伯特包络，对希尔伯特包络进行平滑滤波，获得子带信号谱包络；步骤3，采用心理声学模型获得子带信号谱包络的绝对掩蔽阈值，根据绝对掩蔽阈值对子带信号谱包络进听觉行阈值判别；步骤4，采用多路复用掩蔽模型替换子带信号谱包络；步骤5，采用采用高斯-牛顿算法对子带信号谱包络进行高斯混合模型参数拟合；步骤6，量化和编码拟合后的高斯混合模型参数。本发明可应用于高质量的中低码率语音编码，能大大降低编码码率。

Description

基于高斯混合模型的感知域音频编码方法及系统

技术领域

本发明涉及感知域音频编码领域，尤其涉及一种基于高斯混合模型的感知域音频编码方法及系统。

背景技术

随着计算机技术、网络技术和通信技术的飞速发展，人类社会已经进入了数字化时代。一些重要信号，如语音、音乐、影视的数字化版本，数据量巨大，传输和存储成本较高。而且，随着新技术和新应用的不断出现，还有可能出现数码率更高的信源。这些数据的传输和存储便是一个很大的难题，而编码技术正是针对这一问题而提出的解决办法。在这些应用中，音频编码技术作为其中的关键技术之一起到了极大的推动作用。人类听觉系统存在局限性，不能感知所接收到的声音中的所有信号成分。传统的感知域音频编码方法将音频信号变换到感知域后，会产生大量的冗余脉冲信号，编码效率不高。

发明内容

本发明的目的是提供一种基于高斯混合模型的感知域音频编码方法及系统，使得编码后的音频信号码率更低。

为达到上述目的，本发明提出了一种基于高斯混合模型的感知域音频编码方法，包括步骤：

步骤1，采用听觉滤波器对输入音频信号进行滤波，获得子带信号；

步骤2，提取子带信号的希尔伯特包络，对希尔伯特包络进行平滑滤波，获得子带信号谱包络；

步骤3，采用心理声学模型获得子带信号谱包络的绝对掩蔽阈值，根据绝对掩蔽阈值对子带信号谱包络进行听觉阈值判别，去除小于绝对掩蔽阈值的子带信号谱包络，保留不小于掩蔽阈值的子带信号谱包络，以便有效减少子带信号脉冲数量；

步骤4，采用多路复用掩蔽模型替换步骤3所得子带信号谱包络，使用多路复用掩蔽模型的目的主要有两个：一方面为了进一步减少子带信号脉冲数量从而有利于编码的实施，另一方面为了更好重构音频信号；

步骤5，采用高斯混合模型参数分别表示各子带信号谱包络，基于步骤4所得子带信号谱包络构建高斯混合模型，并采用高斯-牛顿算法拟合高斯混合模型参数；

步骤6，对步骤5所得高斯混合模型参数进行量化和编码。

步骤4进一步包括子步骤：

4.1针对当前原始子带信号样本，找出子带信号谱包络的最大值，计算最大值所在的子带信号谱包络产生的掩蔽效应图形，所述的当前原始子带信号样本初始值为步骤3所得子带信号谱包络；

4.2将当前原始子带信号样本与掩蔽效应图形中对应的样本点值进行比较，并根据比较结果获得替换后的子带信号谱包络：

若当前原始子带信号样本点值大于掩蔽效应图形中相应样本点值，则保留该当前原始子带信号样本点；若当前原始子带信号样本点值不大于掩蔽效应图形中相应样本点值，则将该当前原始子带信号样本点值替换为掩蔽效应图形中相应样本点值；所述的样本点值指样本点处谱包络的幅度值；

4.3以替换后的子带信号谱包络为当前原始子带信号样本，然后执行步骤4.1～4.2，直至当前原始子带信号样本中所有样本点值均被掩蔽效应图形中相应样本点值替换过、或均进行过至少两次样本点值比较，即完成子带信号谱包络替换。

步骤5进一步包括子步骤：

5.1定义拟合算式

其中，F(i)为子带信号在样本点i处谱包络的幅度值；f(i)为高斯混合模型中样本点i处的概率密度，根据高斯混合模型参数可获得样本点的概率密度；L为子带信号的样本点总数量；X表示待找寻的极值点；

5.2根据当前高斯混合模型参数获得当前高斯混合模型样本点的概率密度，从而计算高斯混合模型参数的搜索方向S_k＝P_k-1-▽f(P_k-1)((Hf(P_k-1))^-1)'，其中，当前高斯混合模型样本点P_k-1为高斯混合模型中第k个样本点值，其初始值为子带信号谱包络中第一个样本点值；

为黑森矩阵；当前高斯混合模型参数初始值根据经验积累确定；

5.3针对各高斯混合模型参数，根据搜索方向S_k在区间[0,L]上对Φ(γ)＝f(P_k-1+γS_k)进行单变量极小化，得到Φ(γ)的极小值对应的样本点h_min，从而获得高斯混合模型参数的变化值；

5.4构造下一个极小值点P_k＝P_k-1+h_minS_k，并根据高斯混合模型参数变化值更新高斯混合模型参数，以P_k为当前高斯混合模型样本点，以更新的高斯混合模型参数为当前高斯混合模型参数，重复步骤5.2～5.3；

5.5每次搜索到Φ(γ)的极小值时，判断f(P_k)与f(P_k+1)之差是否等于预设值，如果是，结束拟合，以当前高斯混合模型参数为最终结果；否则，重复步骤5.4；预设值根据实际需求合理设置。

步骤6中，采用均匀量化方式对高斯混合模型参数中的均值和方差进行量化，采用非均匀量化方式对高斯混合模型参数中的权值进行量化。

本发明还提供了一种基于高斯混合模型的感知域音频编码系统，包括：

听觉滤波器组模块，用来采用听觉滤波器对输入音频信号进行滤波，获得子带信号；

包络平滑模块，用来提取子带信号的希尔伯特包络，对希尔伯特包络进行平滑滤波，获得子带信号谱包络；

听觉阈值判别模块，用来采用心理声学模型获得子带信号谱包络的绝对掩蔽阈值，根据绝对掩蔽阈值对子带信号谱包络进行听觉阈值判别，去除小于绝对掩蔽阈值的子带信号谱包络，保留不小于绝对掩蔽阈值的子带信号谱包络；

掩蔽模型替换模块，用来采用多路复用掩蔽模型替换子带信号谱包络；

高斯混合模型拟合模块，用来采用高斯混合模型参数分别表示各子带信号谱包络，基于子带信号谱包络构建高斯混合模型，并采用高斯-牛顿算法拟合高斯混合模型参数；

量化编码模块，用来对高斯混合模型参数进行量化和编码。

上述听觉滤波器组模块为gammatone滤波器组模块。

上述量化编码模块进一步包括均匀量化模块、非均匀量化模块和差分编码模块，均匀量化模块用来对高斯混合模型参数中的均值和方差进行量化，非均匀量化模块用来对高斯混合模型参数中的权值进行量化。

和现有技术相比，本发明具有如下特点和有益效果：

（1）利用高斯混合模型（GMM）对经听觉滤波器的音频信号子带谱包络进行拟合，并使用高斯混合模型参数表示各子带信号谱包络。由于采用高斯混合模型，可使用较少参数表示较长一段谱包络，因此，可用于实现高质量的中低码率语音编码。

（2）将高斯混合模型和多路复用掩蔽模型应用于感知域音频编码中，大大降低编码码率。

附图说明

图1是本发明方法的一种具体实施流程图；

图2是本发明方法中谱包络替换的一种具体实施流程图；

图3是牛顿-高斯算法的流程图。

具体实施方式

下面将结合附图和具体实施方式对本发明技术方案作进一步说明。

见图1，本发明提供的基于高斯混合模型的感知域音频编码方法，可以采用计算机软件技术手段自动进行流程，具体包括以下步骤：

步骤1，采用听觉滤波器对输入音频信号进行滤波，获得子带信号。

输入音频信号采样率为16kHz，分为65个子带通道，第一个子带滤波器的中心频率是26.03Hz，第65个子带滤波器的中心频率是7743Hz，各子带滤波器均为一个FIR滤波器。本具体实施中，采用gammatone滤波器对输入音频信号进行滤波，并获得65个子带信号。

步骤2，提取子带信号的希尔伯特包络，并对希尔伯特包络进行平滑滤波，获得子带信号谱包络。

本具体实施中，提取出65个子带信号的希尔伯特包络，然后对希尔伯特包络进行平滑滤波，得到了一系列正实值的谱包络Eve。平滑滤波使用零相移数字滤波器，其方程可以写作：

Y＝filt(B,A,x) （1）

式（1）中，x表示输入的子带信号希尔伯特包络；Y表示输出的子带信号谱包络；A和B均为滤波器参数。

通过参数A和B描述的零相移数字滤波器对数据向量x滤波得到Y，滤波器的z域方程描述如下：

Y (z) = H (z) X (z) = \frac{B (z)}{A (z)} X (z) - - - (2)

式（2）中，滤波器参数A(z)取1；B(z)是根据系统需要设计，可直接调用matlab中函数；滤波器阶数为512，则length（B(z)）=512。

步骤3，采用心理声学模型获得子带信号谱包络的绝对掩蔽阈值，并基于绝对掩蔽阈值对子带信号谱包络进行阈值判别，去除小于绝对掩蔽阈值的子带信号谱包络，保留不小于掩蔽阈值的子带信号谱包络。

本步骤目的是为了减少信号中的脉冲数量，心理声学模型属于现有技术，在此不予赘述。

步骤4，采用基于多路复用的掩蔽模型对步骤3所得子带信号的谱包络进行替换，具体流程可参见图2。

本步骤的具体实施方式如下：

找出65个子带信号谱包络Eve的最大值，获得该最大的子带信号谱包络产生的掩蔽效应图形p，将原始子带信号样本与掩蔽效应图形p中对应的样本点进行比较，如果原始子带信号样本点值更大，则保留该原始子带信号样本点，并将该样本点标记为1；如果原始子带信号样本点值较小或与掩蔽效应图形p中相应样本点值相等，则将该原始子带信号样本点值替换为掩蔽效应图形p中相应样本点值，并将该样本点标记为0。

上述原始子带信号样本指步骤3中经阈值判别后的子带信号谱包络，样本点值指样本点处谱包络的幅度值。

对替换后的子带信号谱包络重复以上步骤，直至原始语音样本中所有样本点均被标记为0、或均进行过一次以上的比较步骤，即得替换完毕的子带信号谱包络。

步骤5，采用高斯-牛顿算法对步骤4获得的子带信号谱包络进行高斯混合模型（GMM）拟合。

将拟合表述成下面算式：

式（3）中，F(i)为待拟合子带信号在样本点i处谱包络的幅度值；f(i)为GMM中样本点i处的概率密度，将高斯混合模型参数代入GMM表达式即可得到样本点对应的概率密度；L表示子带信号的样本点总数量；X表示待找寻的极值点。

本步骤将GMM拟合问题转变了求取▽f(X)的极小值问题，见图3，具体步骤如下：

（1）根据当前高斯混合模型参数获得当前高斯混合模型样本点的概率密度，从而计算高斯混合模型参数的搜索方向S_k。

搜索方向S_k为：

S_k＝P_k-1-▽f(P_k-1)((Hf(P_k-1))^-1)' （4）

式（4）中，为黑森矩阵，x_i和x_j分别表示待拟合子带信号的第i个样本点和第j个样本点；当前高斯混合模型样本点P_k-1表示高斯混合模型中第k-1个样本点值，初始值为样本点P0，P0表示子带信号谱包络中第一个样本点。

高斯混合模型参数包括均值、方差以及权值，当前高斯混合模型参数初始值根据经验积累确定。

（2）根据搜索方向S_k，在区间[0,L]上对Φ(γ)＝f(P_k-1+γS_k)进行单变量极小化，得到Φ(γ)的极小值对应的样本点h_min。

L是子带信号的样本点总数量，P_k-1是f(X)的极值点，h_min是f(P_k-1+γS_k)取得极小值对应的样本点，即高斯混合模型参数的变化值；S_k是搜索方向，f(P_k-1+γS_k)表示f(X)沿X＝P_k-1+γS_k取得的极值。

（3）构造下一个极小值点P_k＝P_k-1+h_minS_k，并根据高斯混合模型参数变化值获得新的高斯混合模型参数，以P_k为当前高斯混合模型样本点，以新的高斯混合模型参数为当前高斯混合模型参数，重复步骤（1）～（2）。每次获得Φ(γ)的极小值时，进行终止条件判别，即判断f(P_k)与f(P_k+1)之差是否小于预设值，如果小于预设值，表示函数的更新已经对拟合模型几乎没有影响，结束更新过程，即可得到最终的拟合模型中的各未知参数值，所获得的各未知参数值包括高斯混合模型的均值、方差以及权值。

步骤6，量化和编码拟合后的参数。

本具体实施例采用均匀量化和非均匀量化两种方式量化拟合后的参数。

在对均值进行量化时，由于均值数据是在1-6000上随机分布的数据，使用13位的二进制数据表示均值数据。在对方差进行量化时，由于方差的取值集中在100-200之间，因此，使用8位二进制数据量化方差。对权值量化时，通过拟合实验，每一组混合高斯模型的权值都在0-0.02之间，且大部分权值集中在0-0.005之间，因此，量化权值时，先将权值扩大10⁵倍，将权值放大至0-2000之间，而后采用A律十三折线的非均匀量化方式，由于权值都为正，可以省略掉符号位，即使用7位数据来表征1-2048的数据。

综上，高斯混合模型能够使用一个29位的二进制数字表示，任意一个子带的每6000个谱包络样本使用8个高斯混合模型表示，同时由于相邻子带之间的谱包络差别不大，因此，可以采用差分编码方式减少编码码率，每5个子带为一组，量化每一组中的第一个和最后一个子带，中间三个子带根据头尾两个子带的参数进行差分计算。同时为了保证还原的谱包络信号的连续性，在量化时多取400个样本点。最终使用的比特数为29bits*8*65=15080bits。因此在对16KHz的音频信号进行编码时，编码速率为6023*160000/6000=40.213Kb/s。

本发明提供了一种基于高斯混合模型的感知域音频编码系统，包括听觉滤波器组模块（1）、包络平滑模块（2）、听觉阈值判别模块（3）、掩蔽模型替换模块（4）、高斯混合模型拟合模块（5）及量化编码模块（6）。

听觉滤波器组模块（1），用于模拟人耳基底膜运动，将输入音频信号分解成一系列的听觉子带信号，并将子带信号输出给包络平滑模块（2）。

包络平滑模块（2），用于包络检测和平滑滤波，一方面提取出子带信号中的希尔伯特包络，另一方面使子带信号的希尔伯特包络通过一个只有子带带宽一半的低通滤波器进行平滑，得到一系列正实值的谱包络，并输出给听觉阈值判别模块（3）。

听觉阈值判别模块（3），用于将包络平滑模块（2）输出的子带信号谱包络进行绝对听觉阈值判别，以减少各子带信号中脉冲数量，将听觉阈值判别后的子带信号输出给掩蔽模型替换模块（4）。

掩蔽模型替换模块（4），将听觉阈值判别模块（3）输出的子带信号通过多路复用掩蔽模型，多路复用掩蔽模型有两个作用，一是进一步减少子带信号中脉冲数量，二是对子带信号进行替换，使得能够运用数学模型对子带信号谱包络进行拟合，以进一步降低编码码率，替换后的各子带信号谱包络输出给高斯混合模型拟合模块（5）。

高斯混合模型拟合模块（5），用高斯混合模型参数表示各子带通道谱包络，根据高斯-牛顿算法拟合计算高斯混合模型参数，将拟合获得的高斯混合模型参数输出给量化编码模块（6）。

量化编码模块（6），用于对高斯混合模型参数进行量化和编码，在对均值和方差进行量化时，采用均匀量化的方式；对权值进行量化时，采用A律十三折线的非均匀量化，量化完成后采用差分编码方式进行编码以减少编码码率。

Claims

1.基于高斯混合模型的感知域音频编码方法，其特征在于，包括步骤：

步骤3，采用心理声学模型获得子带信号谱包络的绝对掩蔽阈值，根据绝对掩蔽阈值对子带信号谱包络进行听觉阈值判别，去除小于绝对掩蔽阈值的子带信号谱包络，保留不小于掩蔽阈值的子带信号谱包络；

步骤4，采用多路复用掩蔽模型替换步骤3所得子带信号谱包络；

步骤6，对步骤5所得高斯混合模型参数进行量化和编码。

2.如权利要求1所述的基于高斯混合模型的感知域音频编码方法，其特征在于：

步骤4进一步包括子步骤：

4.1针对当前原始子带信号样本，找出子带信号谱包络的最大值，计算最大值所在的子带信号谱包络产生的掩蔽效应图形；

若当前原始子带信号样本点值大于掩蔽效应图形中相应样本点值，则保留该原始子带信号样本点；若当前原始子带信号样本点值不大于掩蔽效应图形中相应样本点值，则将该当前原始子带信号样本点值替换为掩蔽效应图形中相应样本点值；所述的样本点值指样本点处谱包络的幅度值；

3.如权利要求1所述的基于高斯混合模型的感知域音频编码方法，其特征在于：

步骤5进一步包括子步骤：

5.1定义拟合算式

5.2根据当前高斯混合模型参数获得当前高斯混合模型样本点的概率密度，从而计算高斯混合模型参数的搜索方向S_k＝P_k-1-▽f(P_k-1)((Hf(P_k-1))^-1)'，其中，当前高斯混合模型样本点P_k-1为高斯混合模型中第k个样本点值，其初始值为子带信号谱包络中第一个样本点值；为黑森矩阵；当前高斯混合模型参数初始值根据经验积累确定；

5.5每次搜索到Φ(γ)的极小值时，判断f(P_k)与f(P_k+1)之差是否等于预设值，如果是，结束拟合，以当前高斯混合模型参数为最终结果；否则，重复步骤5.4。

4.如权利要求1所述的基于高斯混合模型的感知域音频编码方法，其特征在于：

5.基于高斯混合模型的感知域音频编码系统，其特征在于，包括：

听觉阈值判别模块，用来采用心理声学模型获得子带信号谱包络的绝对掩蔽阈值，根据绝对掩蔽阈值对子带信号谱包络进行听觉阈值判别，删除小于绝对掩蔽阈值的子带信号谱包络，保留不小于绝对掩蔽阈值的子带信号谱包络；

量化编码模块，用来对高斯混合模型参数进行量化和编码。

6.如权利要求5所述的基于高斯混合模型的感知域音频编码系统，其特征在于：

所述的听觉滤波器组模块为gammatone滤波器组模块。

7.如权利要求5所述的基于高斯混合模型的感知域音频编码系统，其特征在于：

所述的量化编码模块进一步包括均匀量化模块、非均匀量化模块和差分编码模块，均匀量化模块用来对高斯混合模型参数中的均值和方差进行量化，非均匀量化模块用来对高斯混合模型参数中的权值进行量化。