CN102693724A

CN102693724A - 一种基于神经网络的高斯混合模型的噪声分类方法

Info

Publication number: CN102693724A
Application number: CN2011100690342A
Authority: CN
Inventors: 张燕; 姜志鹏; 姚健东; 唐加能; 陈存宝; 黄艳; 蔡群; 李国华
Original assignee: 张燕
Priority date: 2011-03-22
Filing date: 2011-03-22
Publication date: 2012-09-26

Abstract

本发明公开了一种基于神经网络的高斯混合模型的噪声分类方法，利用本方法可以使得噪声分类识别率有所提高。本发明训练时，将提取出的特征向量经过延迟后作为自联想神经网络(AANN)的输入，利用AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM)，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新AANN网络的权系数。本发明充分利用了AANN利GMM各自的优点，使得整个噪声分类系统识别率大大提高。

Description

一种基于神经网络的高斯混合模型的噪声分类方法

技术领域

本发明涉及一种说话人识别方法，特别涉及一种基于神经网络的高斯混合模型的噪声分类方法。

背景技术

降低各类城市环境噪声是现代化城市环境保护的重要指标之一，直接影响到城市形象。城市环境噪音监测系统是城市必不可少的公用设施。噪音监测系统的应用，可提高环境保护的硬件水平，增强城市环境保护的可靠性和可控性。根据在城市不同点的不间断监测，能实时发现违反噪音分贝的现象，提高环境保护的工作效率。

在噪声分类的方法上，基于高斯混合模型(GMM)方法越来越受到重视，由于它具有识别率高，训练简单，训练数据量要求不大等优点，已经成为目前主流的噪声分类方法。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力，只要有足够多的项，足够多的训练数据，GMM就能够逼近任何分布模型。但是，实际使用GMM时存在几个问题。首先，GMM没有利用语音的时间信息，训练和识别的结果与特征向量的输入顺序无关；其次，在GMM训练时，我们总是假设特征向量互相是独立的，这明显不合理；另外，由于我们在选择GMM模型时，混合项数目的选取也没有好的指导原则，要取得好的结果就要求高斯混合项足够多。

神经网络在噪声分类方面也占有重要的位置，多层感知器、射线基网络和自联想神经网络等已经成功应用于噪声分类，它充分利用了特征向量序列的时序信息，对特征向量进行学习和变换，使变换后的特征向量以某种方式(通常为极小最小二乘法)逼近目标向量。但是目前GMM和自联想神经网络(AANN)只是单独用于噪声分类，还没有出现结合二者各自的优点，从而更好地提高噪声分类效果的方法出现。

发明内容

本发明的目的就在于解决现有技术的缺陷，提出了一种基于神经网络的高斯混合模型的噪声分类方法。本发明的技术方案是：

一种基于神经网络的高斯混合模型的噪声分类方法，其包括以下步骤：

(1)预处理与特征提取；

首先，使用了基于能量和过零率的方法进行静音检测，并对噪声信号进行预加重，分帧，并进行线性预测(LPC)分析，然后从得到的LPC系数中求出倒谱系数作为噪声分类的特征向量。

(2)训练；

训练时，将提取出的特征向量经过延迟后作为AANN的输入，AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给GMM，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新AANN网络的权系数。具体训练过程如下：

(2-1)确定GMM模型和AANN结构：

一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的，可以用如下形式表示：

p (x_{t} | λ) = Σ_{i = 1}^{M} p_{i} b_{i} (x_{t})

上式中x_t为D维特征向量，这里D＝13；b_i(x_t)是成员密度函数，其为均值矢量为u_i，协方差矩阵为∑_i的高斯函数；

b_{i} (x_{t}) \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x_{t} - u_{i})}^{T} Σ_{i}^{- 1} (x_{t} - u_{i})}

p_i是混合权值混合权值满足条件：

完整的GMM模型参数如下：

λ＝{(p_i，u_i，∑_i)，i＝1，2，...，M}

AANN网络已成功应用于多种应用，如数据压缩，非线性主成分分析，数值逼近等等。

(2-2)设定收敛条件和最大迭代次数；具体而言，收敛条件为相邻两次GMM系数与AANN权系数的欧式距离小于0.0001，最大迭代次数通常不大于100。

(2-3)随机确定初始迭代的AANN和GMM模型参数；AANN的初始系数设定为由计算机产生的伪随机数，GMM的初始混合系数可以取为1/M，M为GMM的混合项数，GMM初始均值和方差由AANN的残差向量经过LBG(Linde，Buzo，Gray)方法产生M个聚合类，分别计算这M个聚合类的均值和方差获得。

(2-4)把特征向量x(n)输入AANN网络，将通过AANN之前的特征向量x(n)与AANN的输出特征向量o(n)相减，得到所有的残差向量；

(2-5)采用EM方法修正GMM模型的参数；

设残差向量为r_t，首先计算类别后验概率：

p (i | r_{t}, λ) = \frac{p_{i} b_{i} (r_{t})}{Σ_{k = 1}^{M} p_{k} b_{k} (r_{t})}

然后更新混合权值均值矢量

和协方差矩阵

{\overset{&OverBar;}{p}}_{i} = \frac{1}{N} Σ_{i = 1}^{N} p (i | r_{t}, λ)

{\overset{&OverBar;}{u}}_{i} = \frac{Σ_{t = 1}^{N} p (i | r_{t}, λ) x_{t}}{Σ_{t = 1}^{N} p (i | r_{t}, λ)}

{\overset{&OverBar;}{Σ}}_{i}^{2} = \frac{Σ_{t = 1}^{N} p (i | r_{t}, λ) x_{t}^{2}}{Σ_{t = 1}^{N} p (i | r_{t}, λ)} - {\overset{&OverBar;}{u}}_{i}^{2}

(2-6)利用修正后的GMM模型各个高斯分布的权系数，均值向量和方差，把残差带入，得到一个似然概率，利用带惯性的向后反演方法修正AANN参数；

AANN网络参数通过使下式中的函数极大化得到：

ω^{*} = \underset{ω}{\arg \max} Π_{t = 1}^{N} p ((x_{t} - o_{t}) | λ)

其中o_t为神经网络输出，x_t为输入的特征矢量。

对上式取对数后再取负，得到：

ω^{*} = \underset{ω}{\arg \min} (- Σ_{t = 1}^{N} \ln p ((x_{t} - o_{t}) | λ))

BP方法神经网络参数迭代过程一般如下(这里采用了单样本迭带法)：

ω_{ij}^{k} (m + 1) = ω_{ij}^{k} (m) - α \frac{&PartialD; F (x)}{{&PartialD; ω}_{ij}^{k}} |_{ω_{ij}^{k} = ω_{ij}^{k} (m)}

这里α为迭代步长，F(x)＝-ln p((x-o)|λ)，为方便，省去了下标t。

(2-7)判断是否满足步骤(2-2)中设定的收敛条件或者是否达到最大迭代次数，如果是，则停止训练，否则，跳至步骤(2-4)。

(3)噪声识别

识别时，特征向量序列X经过延迟后输入AANN。然后将X与AANN的输出序列O相减所得到的残差序列R提供给GMM模型，对于T个残差矢量的序列R＝R₁，R₂，...，R₇，它的GMM概率可以写为：

P (R | λ) = Π_{t = 1}^{T} p (R_{i} | λ)

在对数域表示为：

L (R | λ) = \log P (R | λ) = Σ_{t = 1}^{T} \log p (R_{i} | λ)

识别时运用贝叶斯定理，在N个未知噪声的模型中，似然概率最大的模型对应的话者即为目标噪声：

i^{*} = \underset{l \leq i \leq N}{\arg \max} L (R | λ_{i})

在所述的一种基于神经网络的高斯混合模型的噪声分类方法中，所述的带惯性的BP方法的计算过程如下：

{Δω}_{ij}^{k} (m + 1) = {γΔω}_{ij}^{k} (m) - (1 - γ) α \frac{&PartialD; F (x)}{{&PartialD; ω}_{ij}^{k}} |_{ω_{ij}^{k} = ω_{ij}^{k} (m)}

其中，

m为迭代次数，该值可根据实际情况选取，k为神经网络的层序号，γ为惯性系数。令：

y_{i}^{k} = \underset{j}{Σ} ω_{ij}^{k} O_{j}^{k - l}

O_{i}^{k} = f (y_{i}^{k})

为k层i个神经元输入样本x时的输出，为k层i个神经元输入样本x时的输入，

为激活函数。

在所述的一种基于神经网络的高斯混合模型的噪声分类方法中，所述的

的计算过程如下：

\frac{&PartialD; F (x)}{{&PartialD; ω}_{ij}^{k}} = \frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} \frac{&PartialD; y_{i}^{k}}{{&PartialD; ω}_{ij}^{k}}

\frac{&PartialD; y_{i}^{k}}{{&PartialD; ω}_{ij}^{k}} = o_{j}^{k - 1}

由于输出层和隐含层的

计算方法不同，所以分别计算。

先求输出层

\frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} :

\frac{&PartialD; F (x)}{{&PartialD; y}_{i}^{k}} = - \frac{1}{p ((x - o) | λ)} \frac{&PartialD; p ((x - o) | λ)}{{&PartialD; o}_{i}^{k}} \frac{&PartialD; o_{i}^{k}}{y_{i}^{k}}

= - \frac{f^{'} (y_{i}^{k})}{p ((x - o) | λ)} Σ_{n = 1}^{M} p_{n} c_{n} (\frac{a_{n} (x - o - u_{n})}{σ_{n, i}^{2}} (x_{i} - o_{i} - u_{n, i}))

其中：

a_{n} (x - o - u_{n}) = \exp (- \frac{1}{2} {(x - o - u_{n})}^{T} Σ_{n}^{- 1} (x - o - u_{n}))

c_{n} = \frac{1}{{(2 π)}^{D / 2} {| Σ_{n} |}^{1 / 2}}

再求隐含层

\frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} :

\frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} = \underset{j}{Σ} \frac{&PartialD; F (x) {&PartialD; y}_{j}^{k + 1}}{{&PartialD; y}_{j}^{k + 1} {&PartialD; y}_{i}^{k}}

= \underset{j}{Σ} \frac{&PartialD; F (x)}{{&PartialD; y}_{j}^{k + l}} \frac{&PartialD; (\underset{n}{Σ} ω_{jn}^{k + l} O_{n}^{k})}{{&PartialD; y}_{i}^{k}}

= f^{'} (y_{i}^{k}) \underset{j}{Σ} \frac{&PartialD; F (x)}{&PartialD; y_{i}^{k + 1}} ω_{ij}^{k + l}

由于向后反演，所以在计算

时

已知，代入(16)即可求出

在所述的一种基于神经网络的高斯混合模型的噪声分类方法中，我们进行了长度20ms，窗移10ms的分帧，然后进行汉明加窗，再进行1024点的FFT，利用20个三角滤波器对FFT功率谱进行滤波，对20个频段能量进行余弦变换，去掉直流分量后，取前面13阶变换系数形成13维的MEL倒谱参数，对13维的MEL倒谱参数进行差分运算形成13维ΔMEL倒谱参数共26个参数作为噪声类型识别的特征参数。

本发明的优点和效果在于：

充分利用了AANN和GMM各自的优点，这样使AANN能够学习特征向量的时间信息，把特征向量集映射到能增人似然概率的子空间，并能降低特征向量独立这个不合理假设的影响，到增强目标模型的似然概率，降低非目标模型的似然概率的作用。而GMM具有识别率高、训练简单和训练数据量要求不大的优点。所以使得整个噪声分类系统识别率大大提高。

本发明的其他优点和效果将在下面继续描述。

附图说明

图1——噪声类型训练和识别模型。

图2——AANN网络模型。

图3——测试噪音长度为10秒时的识别效果及比较。

图4——GMM混合项数为48时的识别效果及比较。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

图1是噪声类型训练和识别模型，它跟基线GMM模型(仅采用GMM模型作为噪声识别)在训练和以别方面都有所不同。图2为AANN网络模型。

(1)预处理与特征提取；

(2)训练；

训练时，将提取出的特征向量经过延迟后作为AANN 的输入，AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给GMM，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新TDNN网络的权系数。具体训练过程如下：

(2-1)确定GMM模型和AANN结构：

p (x_{i} | λ) = Σ_{i = 1}^{M} p_{i} b_{i} (x_{i})

b_{i} (x_{t}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x_{t} - u_{i})}^{T} Σ_{i}^{- 1} (x_{t} - u_{i})}

p_i是混合权值混合权值满足条件：

完整的GMM模型参数如下：

λ＝{(p_i，u_i，∑_i)，i＝1，2，...，M}

(2-5)采用EM方法修正GMM模型的参数；

设残差向量为r_t，首先计算类别后验概率：

p (i | r_{t}, λ) = \frac{p_{i} b_{i} (r_{t})}{Σ_{k = 1}^{M} p_{k} b_{k} (r_{t})}

然后更新混合权值

均值矢量

和协方差矩阵

{\overset{&OverBar;}{p}}_{i} = \frac{1}{N} Σ_{t = 1}^{N} p (i | r_{t}, λ)

{\overset{&OverBar;}{u}}_{i} = \frac{Σ_{t = 1}^{N} p (i | r_{t}, λ) x_{t}}{Σ_{t = 1}^{N} p (i | r_{t}, λ)}

{\overset{&OverBar;}{Σ}}_{i}^{2} = \frac{Σ_{t = 1}^{N} p (i | r_{t}, λ) x_{t}^{2}}{Σ_{t = 1}^{N} p (i | r_{t}, λ)} - {\overset{&OverBar;}{u}}_{i}^{2}

AANN网络参数通过使下式中的函数极大化得到：

ω^{*} = \underset{ω}{\arg \max} Π_{t = 1}^{N} p ((x_{t} - o_{t}) | λ)

其中o_i为神经网络输出，x_t为输入的特征矢量。

对上式取对数后再取负，得到：

ω^{*} = \underset{ω}{\arg \min} (- Σ_{t = 1}^{N} \ln p ((x_{t} - o_{t}) | λ))

ω_{ij}^{k} (m + 1) = ω_{ij}^{k} (m) - α \frac{&PartialD; F (x)}{{&PartialD; ω}_{ij}^{k}} |_{ω_{ij}^{k} = ω_{ij}^{k} (m)}

带惯性的BP方法[15]能够加速迭收敛过程，并能更好的处理局部极小值问题，带惯性的BP方法的公式如下：

{Δω}_{ij}^{k} (m + 1) = {γΔω}_{ij}^{k} (m) - (1 - γ) α \frac{&PartialD; F (x)}{{&PartialD; ω}_{ij}^{k}} |_{ω_{ij}^{k} = ω_{ij}^{k} (m)}

其中，

y_{i}^{k} = \underset{j}{Σ} ω_{ij}^{k} O_{j}^{k - l}

O_{i}^{k} = f (y_{i}^{k})

为k层i个神经元输入样本x时的输出，

为k层i个神经元输入样本x时的输入，

为激活函数。

\frac{&PartialD; F (x)}{&PartialD; ω_{ij}^{k}}

的计算过程如下：

\frac{&PartialD; F (x)}{{&PartialD; ω}_{ij}^{k}} = \frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} \frac{&PartialD; y_{i}^{k}}{{&PartialD; ω}_{ij}^{k}}

\frac{&PartialD; y_{i}^{k}}{{&PartialD; ω}_{ij}^{k}} = o_{j}^{k - 1}

由于输出层和隐含层的

计算方法不同，所以分别计算。

先求输出层

\frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} :

\frac{&PartialD; F (x)}{{&PartialD; y}_{i}^{k}} = - \frac{1}{p ((x - o) | λ)} \frac{&PartialD; p ((x - o) | λ)}{{&PartialD; o}_{i}^{k}} \frac{&PartialD; o_{i}^{k}}{y_{i}^{k}}

= - \frac{f^{'} (y_{i}^{k})}{p ((x - o) | λ)} Σ_{n = 1}^{M} p_{n} c_{n} (\frac{a_{n} (x - o - u_{n})}{σ_{n, i}^{2}} (x_{i} - o_{i} - u_{n, i}))

其中：

a_{n} (x - o - u_{n}) = \exp (- \frac{1}{2} {(x - o - u_{n})}^{T} Σ_{n}^{- 1} (x - o - u_{n}))

c_{n} = \frac{1}{{(2 π)}^{D / 2} {| Σ_{n} |}^{1 / 2}}

再求隐含层

\frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} :

\frac{&PartialD; F (x)}{&PartialD; y_{i}^{k}} = \underset{j}{Σ} \frac{&PartialD; F (x) {&PartialD; y}_{j}^{k + 1}}{{&PartialD; y}_{j}^{k + 1} {&PartialD; y}_{i}^{k}}

= \underset{j}{Σ} \frac{&PartialD; F (x)}{{&PartialD; y}_{j}^{k + l}} \frac{&PartialD; (\underset{n}{Σ} ω_{jn}^{k + l} O_{n}^{k})}{{&PartialD; y}_{i}^{k}}

= f^{'} (y_{i}^{k}) \underset{j}{Σ} \frac{&PartialD; F (x)}{&PartialD; y_{i}^{k + 1}} ω_{ij}^{k + l}

由于向后反演，所以在计算时

已知，代入(16)即可求出

(3)噪声识别

识别时，特征向量序列X经过延迟后输入AANN。然后将X与AANN的输出序列O相减所得到的残差序列R提供给GMM模型，对于T个残差矢量的序列R＝R₁，R₂，...，R_j，它的GMM概率可以写为：

P (R | λ) = Π_{t = 1}^{T} p (R_{t} | λ)

在对数域表示为：

L (R | λ) = \log P (R | λ) = Σ_{t = 1}^{T} ligp (R_{t} | λ)

i^{*} = \underset{l \leq i \leq N}{\arg \max} L (R | λ_{i})

我们采用SPIB提供的噪声数据库(http://spib.ece.rice.edu/spib/select_noise.html)，SPIB提供了15种类型的噪声录音。每种类型噪声的采样率为19.98K，采样精度为16位。所有噪声持续时间大约为235秒。我们以30秒，50秒和100秒三种长度提取了训练噪音，然后把剩余噪音按长度为5秒进行分段，然后进行随机拼接，最终形成了5秒，10秒，15秒和20秒的测试噪音段。

我们进行了长度20ms，窗移10ms的分帧，然后进行汉明加窗，再进行1024点的FFT，利用20个三角滤波器对FFT功率谱进行滤波，对20个频段能量进行余弦变换，去掉直流分量后，取前面13阶变换系数形成13维的MEL倒谱参数，对13维的MEL倒谱参数进行差分运算形成13维ΔMEL倒谱参共26个参数作为噪声类型识别的特征参数。

采用2L:4N:L:4N:2L的AANN，非线性激活函数采用S函数，神经网络的惯性系数γ＝0.8；GMM利用对角方差阵，最小σ＝0.01。实验过程中，我们对嵌入AANN的GMM的识别率和基线GMM的识别率作了比较。

采用了与说话人辨认相同的评价方法。说话人辨认是根据提供的语音来判断是哪个目标说话人，所以说话人辨认一般采用正确识别率或错误识别率作为评判辨认效果的标准，R＝N_v/N_t。其中，R为正确识别率，N_v为正确辨认的测试次数，N_t总的测试次数。我们也是据此来定义噪声分类的识别率。

实验结果见图3和图4。图3显示了测试噪音长度为10秒时随GMM混合项数改变的识别效果及比较；图4显示了GMM混合项数为48时随测试时间改变的识别效果及比较的改善。

从图3中我们确实看到嵌入AANN的GMM的噪声识别效果确实有改进，并且混合项数M越少，改进效果越明显，这是由于类内子类较少时，神经网络的学习效果更好。随着混合项数增加，识别改进的效果并没有呈现线性增长，这可能与训练数据的长度有关，并且测试数据的长度也只有10秒。

从图4中我们可以看到测试数据的长短对识别率的影响较大，当测试数据过短时，如5秒测试时长与10秒测试时长比较，相同条件下的训练模型，识别率有很大差距，随着测试时长的增加，识别率差距逐渐减小。

Claims

1.一种基于神经网络的高斯混合模型的噪声分类方法，其包括以下步骤：

1.预处理与特征提取；

2.训练；

训练时，将提取出的特征向量经过延迟后作为自联想神经网络(AANN)的输入，AANN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM)，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新AANN网络的权系数。具体训练过程如下：

(2-1)确定GMM模型和AANN结构：