CN102693724A - 一种基于神经网络的高斯混合模型的噪声分类方法 - Google Patents

一种基于神经网络的高斯混合模型的噪声分类方法 Download PDF

Info

Publication number
CN102693724A
CN102693724A CN2011100690342A CN201110069034A CN102693724A CN 102693724 A CN102693724 A CN 102693724A CN 2011100690342 A CN2011100690342 A CN 2011100690342A CN 201110069034 A CN201110069034 A CN 201110069034A CN 102693724 A CN102693724 A CN 102693724A
Authority
CN
China
Prior art keywords
partiald
sigma
omega
aann
lambda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100690342A
Other languages
English (en)
Inventor
张燕
姜志鹏
姚健东
唐加能
陈存宝
黄艳
蔡群
李国华
Original Assignee
张燕
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 张燕 filed Critical 张燕
Priority to CN2011100690342A priority Critical patent/CN102693724A/zh
Publication of CN102693724A publication Critical patent/CN102693724A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络的高斯混合模型的噪声分类方法,利用本方法可以使得噪声分类识别率有所提高。本发明训练时,将提取出的特征向量经过延迟后作为自联想神经网络(AANN)的输入,利用AANN学习特征向量的结构,提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM),采用最大期望(EM)准则进行GMM模型训练,并且利用带惯性的向后反演方法更新AANN网络的权系数。本发明充分利用了AANN利GMM各自的优点,使得整个噪声分类系统识别率大大提高。

Description

一种基于神经网络的高斯混合模型的噪声分类方法
技术领域
本发明涉及一种说话人识别方法,特别涉及一种基于神经网络的高斯混合模型的噪声分类方法。
背景技术
降低各类城市环境噪声是现代化城市环境保护的重要指标之一,直接影响到城市形象。城市环境噪音监测系统是城市必不可少的公用设施。噪音监测系统的应用,可提高环境保护的硬件水平,增强城市环境保护的可靠性和可控性。根据在城市不同点的不间断监测,能实时发现违反噪音分贝的现象,提高环境保护的工作效率。
在噪声分类的方法上,基于高斯混合模型(GMM)方法越来越受到重视,由于它具有识别率高,训练简单,训练数据量要求不大等优点,已经成为目前主流的噪声分类方法。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力,只要有足够多的项,足够多的训练数据,GMM就能够逼近任何分布模型。但是,实际使用GMM时存在几个问题。首先,GMM没有利用语音的时间信息,训练和识别的结果与特征向量的输入顺序无关;其次,在GMM训练时,我们总是假设特征向量互相是独立的,这明显不合理;另外,由于我们在选择GMM模型时,混合项数目的选取也没有好的指导原则,要取得好的结果就要求高斯混合项足够多。
神经网络在噪声分类方面也占有重要的位置,多层感知器、射线基网络和自联想神经网络等已经成功应用于噪声分类,它充分利用了特征向量序列的时序信息,对特征向量进行学习和变换,使变换后的特征向量以某种方式(通常为极小最小二乘法)逼近目标向量。但是目前GMM和自联想神经网络(AANN)只是单独用于噪声分类,还没有出现结合二者各自的优点,从而更好地提高噪声分类效果的方法出现。
发明内容
本发明的目的就在于解决现有技术的缺陷,提出了一种基于神经网络的高斯混合模型的噪声分类方法。本发明的技术方案是:
一种基于神经网络的高斯混合模型的噪声分类方法,其包括以下步骤:
(1)预处理与特征提取;
首先,使用了基于能量和过零率的方法进行静音检测,并对噪声信号进行预加重,分帧,并进行线性预测(LPC)分析,然后从得到的LPC系数中求出倒谱系数作为噪声分类的特征向量。
(2)训练;
训练时,将提取出的特征向量经过延迟后作为AANN的输入,AANN学习特征向量的结构,提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给GMM,采用最大期望(EM)准则进行GMM模型训练,并且利用带惯性的向后反演方法更新AANN网络的权系数。具体训练过程如下:
(2-1)确定GMM模型和AANN结构:
一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的,可以用如下形式表示:
p ( x t | λ ) = Σ i = 1 M p i b i ( x t )
上式中xt为D维特征向量,这里D=13;bi(xt)是成员密度函数,其为均值矢量为ui,协方差矩阵为∑i的高斯函数;
b i ( x t ) 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) T Σ i - 1 ( x t - u i ) }
pi是混合权值混合权值满足条件:
Figure BSA00000456337900022
完整的GMM模型参数如下:
λ={(pi,ui,∑i),i=1,2,...,M}
AANN网络已成功应用于多种应用,如数据压缩,非线性主成分分析,数值逼近等等。
(2-2)设定收敛条件和最大迭代次数;具体而言,收敛条件为相邻两次GMM系数与AANN权系数的欧式距离小于0.0001,最大迭代次数通常不大于100。
(2-3)随机确定初始迭代的AANN和GMM模型参数;AANN的初始系数设定为由计算机产生的伪随机数,GMM的初始混合系数可以取为1/M,M为GMM的混合项数,GMM初始均值和方差由AANN的残差向量经过LBG(Linde,Buzo,Gray)方法产生M个聚合类,分别计算这M个聚合类的均值和方差获得。
(2-4)把特征向量x(n)输入AANN网络,将通过AANN之前的特征向量x(n)与AANN的输出特征向量o(n)相减,得到所有的残差向量;
(2-5)采用EM方法修正GMM模型的参数;
设残差向量为rt,首先计算类别后验概率:
p ( i | r t , λ ) = p i b i ( r t ) Σ k = 1 M p k b k ( r t )
然后更新混合权值均值矢量
Figure BSA00000456337900025
和协方差矩阵
Figure BSA00000456337900026
p ‾ i = 1 N Σ i = 1 N p ( i | r t , λ )
u ‾ i = Σ t = 1 N p ( i | r t , λ ) x t Σ t = 1 N p ( i | r t , λ )
Σ ‾ i 2 = Σ t = 1 N p ( i | r t , λ ) x t 2 Σ t = 1 N p ( i | r t , λ ) - u ‾ i 2
(2-6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的向后反演方法修正AANN参数;
AANN网络参数通过使下式中的函数极大化得到:
ω * = arg max ω Π t = 1 N p ( ( x t - o t ) | λ )
其中ot为神经网络输出,xt为输入的特征矢量。
对上式取对数后再取负,得到:
ω * = arg min ω ( - Σ t = 1 N ln p ( ( x t - o t ) | λ ) )
BP方法神经网络参数迭代过程一般如下(这里采用了单样本迭带法):
ω ij k ( m + 1 ) = ω ij k ( m ) - α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m )
这里α为迭代步长,F(x)=-ln p((x-o)|λ),为方便,省去了下标t。
(2-7)判断是否满足步骤(2-2)中设定的收敛条件或者是否达到最大迭代次数,如果是,则停止训练,否则,跳至步骤(2-4)。
(3)噪声识别
识别时,特征向量序列X经过延迟后输入AANN。然后将X与AANN的输出序列O相减所得到的残差序列R提供给GMM模型,对于T个残差矢量的序列R=R1,R2,...,R7,它的GMM概率可以写为:
P ( R | λ ) = Π t = 1 T p ( R i | λ )
在对数域表示为:
L ( R | λ ) = log P ( R | λ ) = Σ t = 1 T log p ( R i | λ )
识别时运用贝叶斯定理,在N个未知噪声的模型中,似然概率最大的模型对应的话者即为目标噪声:
i * = arg max l ≤ i ≤ N L ( R | λ i )
在所述的一种基于神经网络的高斯混合模型的噪声分类方法中,所述的带惯性的BP方法的计算过程如下:
Δω ij k ( m + 1 ) = γΔω ij k ( m ) - ( 1 - γ ) α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m )
其中,
Figure BSA00000456337900037
m为迭代次数,该值可根据实际情况选取,k为神经网络的层序号,γ为惯性系数。令:
y i k = Σ j ω ij k O j k - l
O i k = f ( y i k )
Figure BSA000004563379000310
为k层i个神经元输入样本x时的输出,为k层i个神经元输入样本x时的输入,
Figure BSA000004563379000312
为激活函数。
在所述的一种基于神经网络的高斯混合模型的噪声分类方法中,所述的
Figure BSA00000456337900041
的计算过程如下:
∂ F ( x ) ∂ ω ij k = ∂ F ( x ) ∂ y i k ∂ y i k ∂ ω ij k
∂ y i k ∂ ω ij k = o j k - 1
由于输出层和隐含层的
Figure BSA00000456337900044
计算方法不同,所以分别计算。
先求输出层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = - 1 p ( ( x - o ) | λ ) ∂ p ( ( x - o ) | λ ) ∂ o i k ∂ o i k y i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) Σ n = 1 M p n c n ( a n ( x - o - u n ) σ n , i 2 ( x i - o i - u n , i ) )
其中:
a n ( x - o - u n ) = exp ( - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) )
c n = 1 ( 2 π ) D / 2 | Σ n | 1 / 2
再求隐含层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ y j k + 1 ∂ y i k
= Σ j ∂ F ( x ) ∂ y j k + l ∂ ( Σ n ω jn k + l O n k ) ∂ y i k
= f ′ ( y i k ) Σ j ∂ F ( x ) ∂ y i k + 1 ω ij k + l
由于向后反演,所以在计算
Figure BSA000004563379000414
Figure BSA000004563379000415
已知,代入(16)即可求出
Figure BSA000004563379000416
在所述的一种基于神经网络的高斯混合模型的噪声分类方法中,我们进行了长度20ms,窗移10ms的分帧,然后进行汉明加窗,再进行1024点的FFT,利用20个三角滤波器对FFT功率谱进行滤波,对20个频段能量进行余弦变换,去掉直流分量后,取前面13阶变换系数形成13维的MEL倒谱参数,对13维的MEL倒谱参数进行差分运算形成13维ΔMEL倒谱参数共26个参数作为噪声类型识别的特征参数。
本发明的优点和效果在于:
充分利用了AANN和GMM各自的优点,这样使AANN能够学习特征向量的时间信息,把特征向量集映射到能增人似然概率的子空间,并能降低特征向量独立这个不合理假设的影响,到增强目标模型的似然概率,降低非目标模型的似然概率的作用。而GMM具有识别率高、训练简单和训练数据量要求不大的优点。所以使得整个噪声分类系统识别率大大提高。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——噪声类型训练和识别模型。
图2——AANN网络模型。
图3——测试噪音长度为10秒时的识别效果及比较。
图4——GMM混合项数为48时的识别效果及比较。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
图1是噪声类型训练和识别模型,它跟基线GMM模型(仅采用GMM模型作为噪声识别)在训练和以别方面都有所不同。图2为AANN网络模型。
(1)预处理与特征提取;
首先,使用了基于能量和过零率的方法进行静音检测,并对噪声信号进行预加重,分帧,并进行线性预测(LPC)分析,然后从得到的LPC系数中求出倒谱系数作为噪声分类的特征向量。
(2)训练;
训练时,将提取出的特征向量经过延迟后作为AANN 的输入,AANN学习特征向量的结构,提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给GMM,采用最大期望(EM)准则进行GMM模型训练,并且利用带惯性的向后反演方法更新TDNN网络的权系数。具体训练过程如下:
(2-1)确定GMM模型和AANN结构:
一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的,可以用如下形式表示:
p ( x i | λ ) = Σ i = 1 M p i b i ( x i )
上式中xt为D维特征向量,这里D=13;bi(xt)是成员密度函数,其为均值矢量为ui,协方差矩阵为∑i的高斯函数;
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) T Σ i - 1 ( x t - u i ) }
pi是混合权值混合权值满足条件:
Figure BSA00000456337900061
完整的GMM模型参数如下:
λ={(pi,ui,∑i),i=1,2,...,M}
AANN网络已成功应用于多种应用,如数据压缩,非线性主成分分析,数值逼近等等。
(2-2)设定收敛条件和最大迭代次数;具体而言,收敛条件为相邻两次GMM系数与AANN权系数的欧式距离小于0.0001,最大迭代次数通常不大于100。
(2-3)随机确定初始迭代的AANN和GMM模型参数;AANN的初始系数设定为由计算机产生的伪随机数,GMM的初始混合系数可以取为1/M,M为GMM的混合项数,GMM初始均值和方差由AANN的残差向量经过LBG(Linde,Buzo,Gray)方法产生M个聚合类,分别计算这M个聚合类的均值和方差获得。
(2-4)把特征向量x(n)输入AANN网络,将通过AANN之前的特征向量x(n)与AANN的输出特征向量o(n)相减,得到所有的残差向量;
(2-5)采用EM方法修正GMM模型的参数;
设残差向量为rt,首先计算类别后验概率:
p ( i | r t , λ ) = p i b i ( r t ) Σ k = 1 M p k b k ( r t )
然后更新混合权值
Figure BSA00000456337900063
均值矢量
Figure BSA00000456337900064
和协方差矩阵
p ‾ i = 1 N Σ t = 1 N p ( i | r t , λ )
u ‾ i = Σ t = 1 N p ( i | r t , λ ) x t Σ t = 1 N p ( i | r t , λ )
Σ ‾ i 2 = Σ t = 1 N p ( i | r t , λ ) x t 2 Σ t = 1 N p ( i | r t , λ ) - u ‾ i 2
(2-6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的向后反演方法修正AANN参数;
AANN网络参数通过使下式中的函数极大化得到:
ω * = arg max ω Π t = 1 N p ( ( x t - o t ) | λ )
其中oi为神经网络输出,xt为输入的特征矢量。
对上式取对数后再取负,得到:
ω * = arg min ω ( - Σ t = 1 N ln p ( ( x t - o t ) | λ ) )
BP方法神经网络参数迭代过程一般如下(这里采用了单样本迭带法):
ω ij k ( m + 1 ) = ω ij k ( m ) - α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m )
这里α为迭代步长,F(x)=-ln p((x-o)|λ),为方便,省去了下标t。
(2-7)判断是否满足步骤(2-2)中设定的收敛条件或者是否达到最大迭代次数,如果是,则停止训练,否则,跳至步骤(2-4)。
带惯性的BP方法[15]能够加速迭收敛过程,并能更好的处理局部极小值问题,带惯性的BP方法的公式如下:
Δω ij k ( m + 1 ) = γΔω ij k ( m ) - ( 1 - γ ) α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m )
其中,
Figure BSA00000456337900073
m为迭代次数,该值可根据实际情况选取,k为神经网络的层序号,γ为惯性系数。令:
y i k = Σ j ω ij k O j k - l
O i k = f ( y i k )
Figure BSA00000456337900076
为k层i个神经元输入样本x时的输出,
Figure BSA00000456337900077
为k层i个神经元输入样本x时的输入,
Figure BSA00000456337900078
为激活函数。
∂ F ( x ) ∂ ω ij k 的计算过程如下:
∂ F ( x ) ∂ ω ij k = ∂ F ( x ) ∂ y i k ∂ y i k ∂ ω ij k
∂ y i k ∂ ω ij k = o j k - 1
由于输出层和隐含层的
Figure BSA000004563379000712
计算方法不同,所以分别计算。
先求输出层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = - 1 p ( ( x - o ) | λ ) ∂ p ( ( x - o ) | λ ) ∂ o i k ∂ o i k y i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) Σ n = 1 M p n c n ( a n ( x - o - u n ) σ n , i 2 ( x i - o i - u n , i ) )
其中:
a n ( x - o - u n ) = exp ( - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) )
c n = 1 ( 2 π ) D / 2 | Σ n | 1 / 2
再求隐含层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ y j k + 1 ∂ y i k
= Σ j ∂ F ( x ) ∂ y j k + l ∂ ( Σ n ω jn k + l O n k ) ∂ y i k
= f ′ ( y i k ) Σ j ∂ F ( x ) ∂ y i k + 1 ω ij k + l
由于向后反演,所以在计算
Figure BSA00000456337900088
已知,代入(16)即可求出
Figure BSA00000456337900089
(3)噪声识别
识别时,特征向量序列X经过延迟后输入AANN。然后将X与AANN的输出序列O相减所得到的残差序列R提供给GMM模型,对于T个残差矢量的序列R=R1,R2,...,Rj,它的GMM概率可以写为:
P ( R | λ ) = Π t = 1 T p ( R t | λ )
在对数域表示为:
L ( R | λ ) = log P ( R | λ ) = Σ t = 1 T ligp ( R t | λ )
识别时运用贝叶斯定理,在N个未知噪声的模型中,似然概率最大的模型对应的话者即为目标噪声:
i * = arg max l ≤ i ≤ N L ( R | λ i )
我们采用SPIB提供的噪声数据库(http://spib.ece.rice.edu/spib/select_noise.html),SPIB提供了15种类型的噪声录音。每种类型噪声的采样率为19.98K,采样精度为16位。所有噪声持续时间大约为235秒。我们以30秒,50秒和100秒三种长度提取了训练噪音,然后把剩余噪音按长度为5秒进行分段,然后进行随机拼接,最终形成了5秒,10秒,15秒和20秒的测试噪音段。
我们进行了长度20ms,窗移10ms的分帧,然后进行汉明加窗,再进行1024点的FFT,利用20个三角滤波器对FFT功率谱进行滤波,对20个频段能量进行余弦变换,去掉直流分量后,取前面13阶变换系数形成13维的MEL倒谱参数,对13维的MEL倒谱参数进行差分运算形成13维ΔMEL倒谱参共26个参数作为噪声类型识别的特征参数。
采用2L:4N:L:4N:2L的AANN,非线性激活函数采用S函数,神经网络的惯性系数γ=0.8;GMM利用对角方差阵,最小σ=0.01。实验过程中,我们对嵌入AANN的GMM的识别率和基线GMM的识别率作了比较。
采用了与说话人辨认相同的评价方法。说话人辨认是根据提供的语音来判断是哪个目标说话人,所以说话人辨认一般采用正确识别率或错误识别率作为评判辨认效果的标准,R=Nv/Nt。其中,R为正确识别率,Nv为正确辨认的测试次数,Nt总的测试次数。我们也是据此来定义噪声分类的识别率。
实验结果见图3和图4。图3显示了测试噪音长度为10秒时随GMM混合项数改变的识别效果及比较;图4显示了GMM混合项数为48时随测试时间改变的识别效果及比较的改善。
从图3中我们确实看到嵌入AANN的GMM的噪声识别效果确实有改进,并且混合项数M越少,改进效果越明显,这是由于类内子类较少时,神经网络的学习效果更好。随着混合项数增加,识别改进的效果并没有呈现线性增长,这可能与训练数据的长度有关,并且测试数据的长度也只有10秒。
从图4中我们可以看到测试数据的长短对识别率的影响较大,当测试数据过短时,如5秒测试时长与10秒测试时长比较,相同条件下的训练模型,识别率有很大差距,随着测试时长的增加,识别率差距逐渐减小。

Claims (3)

1.一种基于神经网络的高斯混合模型的噪声分类方法,其包括以下步骤:
1.预处理与特征提取;
首先,使用了基于能量和过零率的方法进行静音检测,并对噪声信号进行预加重,分帧,并进行线性预测(LPC)分析,然后从得到的LPC系数中求出倒谱系数作为噪声分类的特征向量。
2.训练;
训练时,将提取出的特征向量经过延迟后作为自联想神经网络(AANN)的输入,AANN学习特征向量的结构,提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM),采用最大期望(EM)准则进行GMM模型训练,并且利用带惯性的向后反演方法更新AANN网络的权系数。具体训练过程如下:
(2-1)确定GMM模型和AANN结构:
一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的,可以用如下形式表示:
p ( x t | λ ) = Σ i = 1 M p i b i ( x t )
上式中xt为D维特征向量,这里D=13;bi(xi)是成员密度函数,其为均值矢量为ui,协方差矩阵为∑i的高斯函数;
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) T Σ i - 1 ( x t - u i ) }
pi是混合权值混合权值满足条件:
Figure FSA00000456337800013
完整的GMM模型参数如下:
λ={(pi,ui,∑i),i=1,2,...,M}
AANN网络已成功应用于多种应用,如数据压缩,非线性主成分分析,数值逼近等等。
(2-2)设定收敛条件和最大迭代次数;具体而言,收敛条件为相邻两次GMM系数与AANN权系数的欧式距离小于0.0001,最大迭代次数通常不大于100。
(2-3)随机确定初始迭代的AANN和GMM模型参数;AANN的初始系数设定为由计算机产生的伪随机数,GMM的初始混合系数可以取为1/M,M为GMM的混合项数,GMM初始均值和方差由AANN的残差向量经过LBG(Linde,Buzo,Gray)方法产生M个聚合类,分别计算这M个聚合类的均值和方差获得。
(2-4)把特征向量x(n)输入AANN网络,将通过AANN之前的特征向量x(n)与AANN的输出特征向量o(n)相减,得到所有的残差向量;
(2-5)采用EM方法修正GMM模型的参数;
设残差向量为rt,首先计算类别后验概率:
p ( i | r t , λ ) = p i b i ( r t ) Σ k = 1 M p k b k ( r t )
然后更新混合权值
Figure FSA00000456337800021
均值矢量
Figure FSA00000456337800022
和协方差矩阵
Figure FSA00000456337800023
p ‾ i = 1 N Σ t = 1 N p ( i | r t , λ )
u ‾ i = Σ t = 1 N p ( i | r t , λ ) x t Σ t = 1 N p ( i | r t , λ )
Σ ‾ i 2 = Σ t = 1 N p ( i | r t , λ ) x t 2 Σ t = 1 N p ( i | r t , λ ) - u ‾ i 2
(2-6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的向后反演方法修正AANN参数;
AANN网络参数通过使下式中的函数极大化得到:
ω * = arg max ω Π t = 1 N p ( ( x t - o t ) | λ )
其中ot为神经网络输出,xt为输入的特征矢量。
对上式取对数后再取负,得到:
ω * = arg min ω ( - Σ t = 1 N ln p ( ( x t - o t ) | λ ) )
BP方法神经网络参数迭代过程一般如下(这里采用了单样本迭带法):
ω ij k ( m + 1 ) = ω ij k ( m ) - α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m )
这里α为迭代步长,F(x)=-ln p((x-o)|λ),为方便,省去了下标t。
(2-7)判断是否满足步骤(2-2)中设定的收敛条件或者是否达到最大迭代次数,如果是,则停止训练,否则,跳至步骤(2-4)。
3.噪声识别
识别时,特征向量序列X经过延迟后输入AANN。然后将X与AANN的输出序列O相减所得到的残差序列R提供给GMM模型,对于T个残差矢量的序列R=R1,R2,...,Rj,它的GMM概率可以写为:
P ( R | λ ) = Π t = 1 T p ( R t | λ )
在对数域表示为:
L ( R | λ ) = log P ( R | λ ) = Σ t = 1 T log p ( R t | λ )
识别时运用贝叶斯定理,在N个未知噪声的模型中,似然概率最大的模型对应的话者即为目标噪声:
i * = arg max l ≤ i ≤ N L ( R | λ i )
在所述的一种基于神经网络的高斯混合模型的噪声分类方法中,所述的带惯性的BP方法的计算过程如下:
Δω ij k ( m + 1 ) = γΔω ij k ( m ) - ( 1 - γ ) α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m )
其中,
Figure FSA00000456337800032
m为迭代次数,该值可根据实际情况选取,k为神经网络的层序号,γ为惯性系数。令:
y i k = Σ j ω ij k O j k - l
O i k = f ( y i k )
Figure FSA00000456337800035
为k层i个神经元输入样本x时的输出,
Figure FSA00000456337800036
为k层i个神经元输入样本x时的输入,为激活函数。
在所述的一种基于神经网络的高斯混合模型的噪声分类方法中,所述的
Figure FSA00000456337800038
的计算过程如下:
∂ F ( x ) ∂ ω ij k = ∂ F ( x ) ∂ y i k ∂ y i k ∂ ω ij k
∂ y i k ∂ ω ij k = o j k - 1
由于输出层和隐含层的
Figure FSA000004563378000311
计算方法不同,所以分别计算。
先求输出层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = - 1 p ( ( x - o ) | λ ) ∂ p ( ( x - o ) | λ ) ∂ o i k ∂ o i k y i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) Σ n = 1 M p n c n ( a n ( x - o - u n ) σ n , i 2 ( x i - o i - u n , i ) )
其中:
a n ( x - o - u n ) = exp ( - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) )
c n = 1 ( 2 π ) D / 2 | Σ n | 1 / 2
再求隐含层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ y j k + 1 ∂ y i k
= Σ j ∂ F ( x ) ∂ y j k + l ∂ ( Σ n ω jn k + l O n k ) ∂ y i k
= f ′ ( y i k ) Σ j ∂ F ( x ) ∂ y i k + 1 ω ji k + l
由于向后反演,所以在计算
Figure FSA00000456337800044
Figure FSA00000456337800045
已知,代入(16)即可求出
CN2011100690342A 2011-03-22 2011-03-22 一种基于神经网络的高斯混合模型的噪声分类方法 Pending CN102693724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100690342A CN102693724A (zh) 2011-03-22 2011-03-22 一种基于神经网络的高斯混合模型的噪声分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100690342A CN102693724A (zh) 2011-03-22 2011-03-22 一种基于神经网络的高斯混合模型的噪声分类方法

Publications (1)

Publication Number Publication Date
CN102693724A true CN102693724A (zh) 2012-09-26

Family

ID=46859108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100690342A Pending CN102693724A (zh) 2011-03-22 2011-03-22 一种基于神经网络的高斯混合模型的噪声分类方法

Country Status (1)

Country Link
CN (1) CN102693724A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020733A (zh) * 2012-11-27 2013-04-03 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其系统
CN103245524A (zh) * 2013-05-24 2013-08-14 南京大学 基于神经网络的声学故障诊断方法
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103680496A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和系统
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
WO2014114048A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN104781875A (zh) * 2012-11-14 2015-07-15 高通股份有限公司 音频环境分类的系统和方法
CN105118522A (zh) * 2015-08-27 2015-12-02 广州市百果园网络科技有限公司 噪声检测方法及装置
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105976027A (zh) * 2016-04-29 2016-09-28 北京比特大陆科技有限公司 数据处理方法和装置、芯片
WO2017000813A1 (zh) * 2015-06-30 2017-01-05 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN107112006A (zh) * 2014-10-02 2017-08-29 微软技术许可有限责任公司 基于神经网络的语音处理
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN109214444A (zh) * 2018-08-24 2019-01-15 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN109299844A (zh) * 2018-07-03 2019-02-01 国网浙江省电力有限公司电力科学研究院 一种电力设备状态静态阈值评估方法
CN110060666A (zh) * 2018-01-17 2019-07-26 奥迪康有限公司 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置
CN110070068A (zh) * 2019-04-30 2019-07-30 苏州大学 一种人体动作识别方法
CN110263835A (zh) * 2019-06-13 2019-09-20 中国电建集团华东勘测设计研究院有限公司 基于深度学习和贝叶斯网络的岩石类别自动识别方法
CN110297221A (zh) * 2019-06-19 2019-10-01 西安电子科技大学 一种基于高斯混合模型的数据关联方法
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110781814A (zh) * 2019-10-24 2020-02-11 中国民用航空总局第二研究所 一种基于高斯混合神经网络模型的信号分类方法、设备及介质
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
WO2020220440A1 (zh) * 2019-04-29 2020-11-05 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN112837704A (zh) * 2021-01-08 2021-05-25 昆明理工大学 一种基于端点检测的语音背景噪声识别方法
WO2021189981A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
CN114882906A (zh) * 2022-06-30 2022-08-09 广州伏羲智能科技有限公司 一种新型环境噪声识别方法及系统
CN117690451A (zh) * 2024-01-29 2024-03-12 杭州爱华仪器有限公司 一种基于集成学习的神经网络噪声源分类的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254538B1 (en) * 1999-11-16 2007-08-07 International Computer Science Institute Nonlinear mapping for feature extraction in automatic speech recognition
CN101142622A (zh) * 2005-03-18 2008-03-12 索尼德国有限责任公司 用于对音频数据进行分类的方法
EP2028647A1 (de) * 2007-08-24 2009-02-25 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254538B1 (en) * 1999-11-16 2007-08-07 International Computer Science Institute Nonlinear mapping for feature extraction in automatic speech recognition
CN101142622A (zh) * 2005-03-18 2008-03-12 索尼德国有限责任公司 用于对音频数据进行分类的方法
EP2028647A1 (de) * 2007-08-24 2009-02-25 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOUGLAS A.REYNOLDS: "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104781875A (zh) * 2012-11-14 2015-07-15 高通股份有限公司 音频环境分类的系统和方法
CN104781875B (zh) * 2012-11-14 2016-11-02 高通股份有限公司 音频环境分类的系统和方法
CN103020733A (zh) * 2012-11-27 2013-04-03 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其系统
CN103020733B (zh) * 2012-11-27 2017-04-12 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其系统
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
EP2763134A1 (en) * 2013-01-24 2014-08-06 Huawei Device Co., Ltd. Method and apparatus for voice recognition
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
WO2014114048A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN103245524A (zh) * 2013-05-24 2013-08-14 南京大学 基于神经网络的声学故障诊断方法
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105765650B (zh) * 2013-09-27 2019-08-06 亚马逊技术公司 带有多向解码的语音辨识器
CN103680496B (zh) * 2013-12-19 2016-08-10 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和系统
CN103680496A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和系统
CN107112006A (zh) * 2014-10-02 2017-08-29 微软技术许可有限责任公司 基于神经网络的语音处理
CN107112006B (zh) * 2014-10-02 2020-10-23 微软技术许可有限责任公司 基于神经网络的语音处理
WO2017000813A1 (zh) * 2015-06-30 2017-01-05 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN105118522A (zh) * 2015-08-27 2015-12-02 广州市百果园网络科技有限公司 噪声检测方法及装置
CN105118522B (zh) * 2015-08-27 2021-02-12 广州市百果园网络科技有限公司 噪声检测方法及装置
CN105976027A (zh) * 2016-04-29 2016-09-28 北京比特大陆科技有限公司 数据处理方法和装置、芯片
CN110060666A (zh) * 2018-01-17 2019-07-26 奥迪康有限公司 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置
CN108417207A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 一种深度混合生成网络自适应方法及系统
CN109299844A (zh) * 2018-07-03 2019-02-01 国网浙江省电力有限公司电力科学研究院 一种电力设备状态静态阈值评估方法
CN109214444B (zh) * 2018-08-24 2022-01-07 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN109214444A (zh) * 2018-08-24 2019-01-15 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
WO2020220440A1 (zh) * 2019-04-29 2020-11-05 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN110070068A (zh) * 2019-04-30 2019-07-30 苏州大学 一种人体动作识别方法
CN110263835B (zh) * 2019-06-13 2021-11-12 中国电建集团华东勘测设计研究院有限公司 基于深度学习和贝叶斯网络的岩石类别自动识别方法
CN110263835A (zh) * 2019-06-13 2019-09-20 中国电建集团华东勘测设计研究院有限公司 基于深度学习和贝叶斯网络的岩石类别自动识别方法
CN110297221A (zh) * 2019-06-19 2019-10-01 西安电子科技大学 一种基于高斯混合模型的数据关联方法
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN110781814A (zh) * 2019-10-24 2020-02-11 中国民用航空总局第二研究所 一种基于高斯混合神经网络模型的信号分类方法、设备及介质
WO2021189981A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
CN112837704A (zh) * 2021-01-08 2021-05-25 昆明理工大学 一种基于端点检测的语音背景噪声识别方法
CN114882906A (zh) * 2022-06-30 2022-08-09 广州伏羲智能科技有限公司 一种新型环境噪声识别方法及系统
CN117690451A (zh) * 2024-01-29 2024-03-12 杭州爱华仪器有限公司 一种基于集成学习的神经网络噪声源分类的方法及装置
CN117690451B (zh) * 2024-01-29 2024-04-16 杭州爱华仪器有限公司 一种基于集成学习的神经网络噪声源分类的方法及装置

Similar Documents

Publication Publication Date Title
CN102693724A (zh) 一种基于神经网络的高斯混合模型的噪声分类方法
CN102034472A (zh) 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
Weninger et al. Single-channel speech separation with memory-enhanced recurrent neural networks
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
Prasad et al. Improved cepstral mean and variance normalization using Bayesian framework
CN101814159B (zh) 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN102968990B (zh) 说话人识别方法和系统
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
Gomez-Alanis et al. A deep identity representation for noise robust spoofing detection
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN102737633A (zh) 一种基于张量子空间分析的说话人识别方法及其装置
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
Almajai et al. Using audio-visual features for robust voice activity detection in clean and noisy speech
CN109767781A (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
Zhang et al. Noise robust speaker recognition based on adaptive frame weighting in GMM for i-vector extraction
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
Wöllmer et al. Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting
Deligne et al. Audio-visual speech enhancement with AVCDCN (audio-visual codebook dependent cepstral normalization)
CN114999525A (zh) 一种基于神经网络的轻量环境声音识别方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120926