CN102129860A - 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 - Google Patents

基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 Download PDF

Info

Publication number
CN102129860A
CN102129860A CN2011100858447A CN201110085844A CN102129860A CN 102129860 A CN102129860 A CN 102129860A CN 2011100858447 A CN2011100858447 A CN 2011100858447A CN 201110085844 A CN201110085844 A CN 201110085844A CN 102129860 A CN102129860 A CN 102129860A
Authority
CN
China
Prior art keywords
mrow
msub
msubsup
math
mover
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100858447A
Other languages
English (en)
Other versions
CN102129860B (zh
Inventor
魏昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2011100858447A priority Critical patent/CN102129860B/zh
Publication of CN102129860A publication Critical patent/CN102129860A/zh
Application granted granted Critical
Publication of CN102129860B publication Critical patent/CN102129860B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法,利用本方法可以避免传统的隐马尔可夫模型容易出现的过拟合或欠拟合数据的问题。本发明首先对用于训练的语音信号集合进行预处理和特征提取,接着在训练过程中采用了无限状态隐马尔可夫模型来描述训练集合,该模型在训练数据到来之前具有无限状态数目,并且每个状态所对应的输出概率分布函数用学生氏t混合模型来表示,在训练数据到来之后,通过计算得到该模型中的参数值和随机变量的分布情况;在识别时,将经过预处理和特征提取的带识别的语音,计算其关于训练好的每一说话人模型的似然值,将最大的似然值对应的说话人作为识别结果。本发明的方法可以有效地提高与文本相关的说话人识别系统的识别正确率,此外系统对噪声也具有较好的鲁棒性。

Description

基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
技术领域
本发明涉及信号处理和模式识别领域,主要涉及一种基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法。
背景技术
在门禁、信用卡交易和法庭证据等方面,自动说话人识别,特别是与文本相关的说话人识别起着越来越重要的作用,它的目标是把待识别语音正确地判定为属于语音库中多个参考人之中的某一个。
在与文本相关的说话人识别方法上,基于传统的隐马尔可夫模型(GHMM)方法越来越受到重视,由于它具有识别率高,训练简单,训练数据量要求不大等优点,已经成为目前与文本相关的说话人识别的主流的识别方法。由于GHMM具有很好的表示数据的分布的能力,只要有足够多的状态,足够多的训练数据,GHMM就能够逼近任何与时间序列相关分布模型。但是,实际使用GHMM时存在几个问题。首先,传统的GHMM的状态数目是有限的,在训练之前预先设定好,并且训练过程中是固定不变,这容易使模型对训练数据产生过拟合或欠拟合现象。其次,传统的GHMM中每个状态所对应的输出概率分布函数采用的是高斯混合模型来表示,而在实际应用中高斯混合模型的一个缺点是其对于噪声和数据采集过程中容易出现的野值点的鲁棒性较差。上述问题常常使得基于传统的隐马尔可夫模型的与文本相关的说话人识别系统的识别正确率较差。
发明内容
本发明的目的就在于解决现有技术的缺陷,设计、研究基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法。
本发明的技术方案是:
基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法,其特征在于包括以下步骤:
(1)对语音信号进行预处理:主要包括采样与量化、预加重、分帧与加窗;
(2)语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;
(3)对于每一说话人所对应的训练集合
Figure BSA00000467764800011
其中段数为M段,每段训练语音的帧数为T;用无限状态隐马尔可夫模型来建模,该隐马尔可夫模型具有无限状态数,并且每一状态的输出概率分布用学生氏t混合模型来表示;通过训练估计出该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况,即得到iSHMM1,......,iSHMMg,......iSHMMG,其中G为说话人的数量;
(4)对于待识别的一段语音,首先进行预处理以及特征提取,得到相应的特征矢量所组成的时间序列{x′t}t=1,...,T,T为序列的帧数;计算{x′t}t=1,.,T关于每一个说话人有关的模型iSHMM1,......,iSHMMg,......iSHMMG的似然值LIK(g),最终的识别结果为最大的LIK(g)所对应的说话人speaker,即:
speaker = arg max g = 1 G LIK ( g ) .
在所述的基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法中,所述的训练过程中估计该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况的过程如下:
(1)设定参数α,bij,μij,∑ij,yij,以及π,A的初始值;
Figure BSA00000467764800021
分别为与状态i的输出分布函数有关的学生氏t混合模型中的第j个混合成分的权值,均值,协方差,自由度参数;L为实际训练中近似代表∞的一个较大的状态数,L的取值较为灵活,在与文本相关的说话人识别中,L取文本中的音素数目的2~3倍;J为混合成分数目;初始时,bij=1/J,vij=1,μij和∑ij的初始值通过对当前说话人的所有训练数据求均值和协方差来得到;π={πh}h=1,...,L为初始状态矢量,
Figure BSA00000467764800022
为状态转移矩阵,首先随机取得每个元素的值,然后对A中的每一行,以及π元素进行归一化,使其满足在满足归一化条件:
Figure BSA00000467764800023
Figure BSA00000467764800024
h=1,...,L;α为与π,A分布相关的参数,取值范围为α=1~100,其初始值为在其取值范围内任意取出的一个值;此外,定义三个辅助变量,它们的初始值分别为ζimt=πi,ζhimt=ahi和ξijmt=πicij
(2)更新与学生氏t混合模型有关的隐变量uijmt的分布;它的分布q(uijmt)服从Gamma分布,即
Figure BSA00000467764800025
其中
υ ~ ijmt 1 = ξ ijmt · D + v ij 2
υ ~ ijmt 2 = ξ ijmt ( x mt - μ ij ) T Σ ij - 1 ( x mt - μ ij ) + v ij 2 ,
而后可以得到uijmt的数学期望<uijmt>以及loguijmt的数学期望<loguijmt>,如下:
< u ijmt > = &upsi; ~ ijmt 1 / &upsi; ~ ijmt 2
< log u ijmt > = &psi; ( &upsi; ~ ijmt 1 ) - log &upsi; ~ ijmt 2
上两式中的Ψ为标准的digamma函数;
(3)更新参数bij,μij,∑ij,vij
b ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt &Sigma; m = 1 M &Sigma; t = 1 T &zeta; ijmt
&mu; ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > x mt &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt >
&Sigma; ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > ( x mt - &mu; ij ) ( x mt - &mu; ij ) T &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt
1 + &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt [ < log u ijmt > - < u ijmt > ] &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt + log ( v ij 2 ) - &psi; ( v ij 2 ) = 0
(4)更新与πh和ahi相关的随机变量
Figure BSA00000467764800033
的分布,它们的分布
Figure BSA00000467764800034
Figure BSA00000467764800035
服从Beta分布,即
Figure BSA00000467764800037
其中:
&beta; ~ hi 1 A = 1 + &Sigma; m = 1 M &Sigma; t = 1 T &zeta; himt , &beta; ~ hi 2 A = 1 + &Sigma; m = 1 M &Sigma; t = 1 T &Sigma; k = i + 1 N &zeta; hkmt
&beta; ~ h 1 &pi; = 1 + &Sigma; m = 1 M &zeta; hm 1 , &beta; ~ h 2 &pi; = &alpha; + &Sigma; m = 1 M &Sigma; k = h + 1 N &zeta; km 1
而后可以得到关于
Figure BSA000004677648000312
的如下的数学期望:
< log V hi A > = &psi; ( &beta; ~ hi 1 A ) - &psi; ( &beta; ~ hi 1 A + &beta; ~ hi 2 A ) , < log ( 1 - V hi A ) > = &psi; ( &beta; ~ hi 2 A ) - &psi; ( &beta; ~ hi 1 A + &beta; ~ hi 2 A )
< log V h &pi; > = &psi; ( &beta; ~ h 1 &pi; ) - &psi; ( &beta; ~ h 1 &pi; + &beta; ~ h 2 &pi; ) , < log ( 1 - V h &pi; ) > = &psi; ( &beta; ~ h 2 &pi; ) - &psi; ( &beta; ~ h 1 &pi; + &beta; ~ h 2 &pi; )
(5)由本权利要求的步骤(2)~(4)估计出的参数值以及计算得到的随机变量的分布,采用前向-后向算法更新三个辅助变量ζimt,ζhimt和ξijmt
&zeta; himt = p hmt ( f ) < a hi > p ( x mt ) p im , t + 1 ( b ) &Sigma; h &prime; = 1 L &Sigma; i &prime; = 1 L p h &prime; mt ( f ) < a h &prime; i &prime; > p ( x mt ) p i &prime; m , t + 1 ( b )
&zeta; imt = p imt ( f ) p imt ( b ) &Sigma; i &prime; = 1 L p i &prime; mt ( f ) p i &prime; mt ( b )
&xi; ijmt = &zeta; imt &CenterDot; b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij ) &Sigma; j = 1 J b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij )
其中,
Figure BSA000004677648000321
为前向概率,
Figure BSA000004677648000322
为后向概率,其计算过程如下:
p hm 1 ( f ) = < &pi; h > &CenterDot; p ( x mt ) ,
p hm , t + 1 ( f ) = p ( x mt ) &CenterDot; &Sigma; h = 1 L p hmt ( f ) &CenterDot; < a hi > , t = 1 , . . . , T - 1
p hmT ( b ) = 1 ,
p hmt ( f ) = &Sigma; h = 1 L < a hi > &CenterDot; p ( x mt ) &CenterDot; p hm , t - 1 ( b ) , t = T - 1 , . . . , 1 ;
h>和<ahi>分别为π,A的期望值,其计算如下:
< &pi; h > = exp { < log &pi; h > } = exp { < log V h &pi; > + &Sigma; k = 1 h - 1 < log ( 1 - V h &pi; ) > }
< a hi > = exp { < log a hi > } = exp { < log V hi A > + &Sigma; k = 1 h - 1 < log ( 1 - V hi A ) > }
(6)计算当前迭代后的似然值LIKk(k为当前的迭代次数),其可以由上一步计算出的前向概率
Figure BSA00000467764800043
方便地得到:
LIK k = &Sigma; m = 1 M &Sigma; h = 1 L p hmT ( f ) ;
(7)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK=LIKk-LIKk-1;如果ΔLIK≤δ,那么训练完成,否则转到步骤(2),k的值增加1,继续下一次的迭代;阈值δ的取值范围为10-5~10-4
本发明的优点和效果在于:
1.本发明中所采用的隐马尔可夫模型具有无限状态数,该结构使得该模型具有很强的灵活性,能够根据训练数据自动的调节模型的最优结构,从而自动确定出合适的状态数目。解决了用于与文本相关的说话人识别中传统的隐马尔可夫模型中状态数固定且不可调节的缺点,以及由此引发的模型过拟合或欠拟合训练数据的问题,从而提高了系统识别的正确率。
2.本发明中所采用的隐马尔可夫模型中每个状态的输出概率分布函数采用的是学生氏t混合模型来建模的,它的优点是,与传统的模型中采用的高斯混合模型相比,对噪声以及数据采集过程中容易出现的野值点具有更强的鲁棒性,从而提高了噪声环境下的与文本相关的说话人识别系统的正确率和鲁棒性。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——本发明的方法流程图。
图2——无限状态隐马尔可夫模型(iSHMM)的结构图。
图3——L=5时,本发明的方法和传统的与文本相关的说话人识别方法的识别正确率的对比结果。
图4——L=10时,本发明的方法和传统的与文本相关的说话人识别方法的识别正确率的对比结果。
图5——L=15时,本发明的方法和传统的与文本相关的说话人识别方法的识别正确率的对比结果。
图6——L=15,ε=0.1时,采用传统方法的识别系统所得到的confusion矩阵
图7——L=15,ε=0.1时,采用本发明的方法的识别系统所得到的confusion矩阵
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。图1为本发明的方法流程图,本发明的方法共分为四步。
第一步:语音信号的预处理
(1)米样与量化
对用于训练的数据集和用于识别的数据集中的每一段模拟语音信号ya(t)进行采样,从而得到数字语音信号的振幅序列y(n)。用脉冲编码调制(PCM)技术对y(n)进行量化编码,从而得到振幅序列的量化值表示形式y′(n)。这里采样和量化的精度根据应用于不同环境下的说话人识别系统的要求来决定。对于大多数语音信号而言,采样频率F为8KHz-10KHz,量化位数为16位或24位。
(2)预加重
将y′(n)通过数字滤波器Z,得到语音信号的高、中、低频幅度相当的振幅序列s″(n)。这里数字滤波器的Z传递函数为H(z)=1-az-1。其中,预加重系数a的取值范围为0.8~0.97。
(3)分帧,加窗
以帧长τ(单位:毫秒),帧移量为τ/4,把s″(n)划分成一系列的语音帧Ft。即,每一语音帧包含N个语音信号样本(N=τ×F)。接着,计算汉明窗函数的信:
Figure BSA00000467764800051
最终,对每一语音帧Ft加汉明窗,得到
Figure BSA00000467764800052
从而完成语音信号的预处理过程:
F t * ( n ) = w H ( n ) &times; F t ( n ) , n = 1 , . . . , N . - - - ( 2 )
第二步:语音帧上的特征提取
本方法中针对每一帧
Figure BSA00000467764800054
通过计算,得到D阶线性预测倒谱系数(LPCC),该系数作为
Figure BSA00000467764800055
对应的D维特征矢量,这里的D根据应用于不同环境下的说话人识别系统的要求来决定,大多数情况下D的取值范围为10~20。LPCC的计算包含以下过程:
(1)计算出D阶的线性预测系数其计算公式如下:
&phi; m ( i , 0 ) = &Sigma; d = 1 D x ^ d &phi; m ( i , d ) , d = 1 , . . . , D - - - ( 3 )
其中 &phi; m ( i , d ) = &Sigma; n = 1 N F m * ( n - i ) F m * ( n - k ) . - - - ( 4 )
式(3)表示D个方程构成的方程组,未知数为D个。求解该方程组,就可以得到当前帧对应的D阶的线性预测系数
Figure BSA000004677648000510
(2)由D阶的线性预测系数
Figure BSA000004677648000511
通过如下的公式,计算出D阶的线性预测倒谱系数而,x1,...,xD
x d = x ^ d + &Sigma; k = 1 d - 1 k d x k a d - k , d = 1 , . . . , D - - - ( 5 )
用上述方法计算出所有说话人用于训练和用于测试的D维特征矢量。假设训练集合中某个的说话人所对应的训练语音有M段,每段训练语音的帧数为T,那么该说话人所对应训练集合可以表示为其中xmt=(xmt1,...,xmtD)为通过预处理和特征提取步骤计算出计算出的D维特征矢量。
第三步:训练
对于与文本相关的说话人识别,需要用隐马尔可夫模型来建模提取出的语音特征序列在特征空间的分布。这里采用的是无限状态数目的隐马尔可夫模型(iSHMM)。与常用的隐马尔可夫模型相比,iSHMM具有两个显著的不同:首先,iSHMM具有无限(infinite)的隐含状态数目,而传统的隐马尔可夫模型的状态数有限,并且一旦设定好之后,在训练过程中固定不变;其次,iSHMM中每一状态对应的输出概率分布情况用学生氏t混合模型(Student’st mixture model)来建模,而在传统的隐马尔可夫模型中,输出概率分布用高斯混合模型来表示。iSHMM的结构如图2所示。在iSHMM中,π={πh}h=1,.,∞为初始状态矢量,它具有无限维的元素。为状态转移矩阵,它的行数和列数也是无限的。采用stick-breaking方式来构造π和A中的元素,即:
a hi = V hi A &Pi; k = 1 i - 1 ( 1 - V hk A ) , h , i = 1 , . . . , &infin; , - - - ( 6 )
&pi; h = V h &pi; &Pi; k = 1 h - 1 ( 1 - V k &pi; ) , h = 1 , . . . , &infin; - - - ( 7 )
其中随机变量
Figure BSA00000467764800066
Figure BSA00000467764800067
分别服从Beta分布:
p ( V hi A ) = Beta ( 1 , &alpha; ) , h , i = 1 , . . . , &infin; - - - ( 8 )
p ( V h &pi; ) = Beta ( 1 , &alpha; ) , h , i = 1 , . . . , &infin; - - - ( 9 )
在式(8)和式(9)中,参数α取值范围分别为:α=1~100。由于无穷大“∞”在计算时无法精确表示,通常用一个较大的数L来近似代表∞。L的取值较为灵活,一般为在与文本相关的说话人识别中,L取文本中的音素数目的2~3倍。
这里,用
Figure BSA000004677648000610
表示与
Figure BSA000004677648000611
对应的隐含的状态序列。其中smt={simt}i=1,...,∞为与xmt所对应的状态指示变量。当xmt对应着状态i时,simt=1,其余情况下simt=0。对于iSHMM每个状态的输出概率分布,用学生氏t混合模型来建模(这里假设当前状态为i),其表达式如下:
p ( x m ) = &Sigma; J = 1 J b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij ) - - - ( 10 )
上式中bij,μij,∑y,vij分别为状态i的第j个混合成分的权值,均值,协方差,自由度参数;J为混合成分数目;St(xmt;μij,∑y,vij)为学生氏t分布,通常将其表示为:
St ( x mt ; &mu; ij , &Sigma; ij , v ij ) = &Integral; 0 &infin; p ( x mt | u ijmt ) p ( u ijmt ) du ijmt - - - ( 11 )
其中uijmt为引入的一个隐变量,其与自由度参数vij有关,服从Gamma分布:
p(uijmt)=Gam(vij/2,vij/2)                       (12)
p(xmt|uijmt)与μij,∑ij有关,服从高斯分布:
p(xmtijmt)=N(μij,∑ij/uijmt)                 (13)
此外,还需要引入一个隐变量
Figure BSA00000467764800072
Figure BSA00000467764800073
指示当前的数据xmt是由学生氏t混合模型中的哪个成分产生的。当xmt对应着状态i时,并且是由第j个混合成分产生时,
Figure BSA00000467764800074
其余情况下
Figure BSA00000467764800075
在iSHMM下,与文本相关的说话人识别的训练过程如下:
(1)设定参数α,bij,μij,∑ij,vij,以及π,A的初始值;
α的初始值为在其取值范围内任意取出的一个值,bij=1/J,vij=1,μij和∑y的初始值通过对当前说话人的所有训练数据求均值和协方差来得到。关于π,A的初始值的选取,首先随机取得每个元素的值,然后对A中的每一行,以及π元素进行归一化,使其满足在满足归一化条件( h=1,...,L)。此外,定义与S和Z相关的三个辅助变量ζimt=q(simt=1),ζhimt=q(shmt=1,sim,t+1=1),
Figure BSA00000467764800078
它们的初始值分别为:ζimt=πi,ζhimt=αhi和ξijmt=πicij。迭代次数k=1。
(2)更新隐变量uijmt的分布;其后验分布q(uijmt)仍然服从Gamma分布,即其中
&upsi; ~ ijmt 1 = &xi; ijmt &CenterDot; D + v ij 2 - - - ( 14 )
&upsi; ~ ijmt 2 = &xi; ijmt ( x mt - &mu; ij ) T &Sigma; ij - 1 ( x mt - &mu; ij ) + v ij 2 , - - - ( 15 )
而后可以得到uijmt的数学期望<uijmt>以及loguijmt的数学期望<loguijmt>,如下:
< u ijmt > = &upsi; ~ ijmt 1 / &upsi; ~ ijmt 2 - - - ( 16 )
< log u ijmt > = &psi; ( &upsi; ~ ijmt 1 ) - log &upsi; ~ ijmt 2 - - - ( 17 )
其中式(18)中的Ψ为标准的digamma函数(对数gamma函数的导数)。
(3)更新参数bij,μij,∑ij,vij
b ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt &Sigma; m = 1 M &Sigma; t = 1 T &zeta; ijmt - - - ( 18 )
&mu; ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > x mt &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > - - - ( 19 )
&Sigma; ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > ( x mt - &mu; ij ) ( x mt - &mu; ij ) T &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt - - - ( 20 )
1 + &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt [ < log u ijmt > - < u ijmt > ] &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt + log ( v ij 2 ) - &psi; ( v ij 2 ) = 0 - - - ( 21 )
其中式(21)中的Ψ为digamma函数,该式可以用常用的数值计算方法(如牛顿法)来求解。
(4)更新随机变量
Figure BSA00000467764800085
Figure BSA00000467764800086
的分布,它们的后验分布
Figure BSA00000467764800087
仍然服从Beta分布,即
Figure BSA00000467764800089
其中:
&beta; ~ hi 1 A = 1 + &Sigma; m = 1 M &Sigma; t = 1 T &zeta; himt , &beta; ~ hi 2 A = 1 + &Sigma; m = 1 M &Sigma; t = 1 T &Sigma; k = i + 1 N &zeta; hkmt - - - ( 22 )
&beta; ~ h 1 &pi; = 1 + &Sigma; m = 1 M &zeta; hm 1 , &beta; ~ h 2 &pi; = &alpha; + &Sigma; m = 1 M &Sigma; k = h + 1 N &zeta; km 1 - - - ( 23 )
而后可以得到关于
Figure BSA000004677648000815
Figure BSA000004677648000816
的如下的数学期望:
< log V hi A > = &psi; ( &beta; ~ hi 1 A ) - &psi; ( &beta; ~ hi 1 A + &beta; ~ hi 2 A ) , < log ( 1 - V hi A ) > = &psi; ( &beta; ~ hi 2 A ) - &psi; ( &beta; ~ hi 1 A + &beta; ~ hi 2 A ) - - - ( 24 )
< log V h &pi; > = &psi; ( &beta; ~ h 1 &pi; ) - &psi; ( &beta; ~ h 1 &pi; + &beta; ~ h 2 &pi; ) , < log ( 1 - V h &pi; ) > = &psi; ( &beta; ~ h 2 &pi; ) - &psi; ( &beta; ~ h 1 &pi; + &beta; ~ h 2 &pi; ) - - - ( 25 )
(5)由步骤(2)~(4)估计出的参数值以及计算得到的随机变量的分布,采用前向-后向算法更新三个辅助变量ζimt,ζhimt和ζijmt
和传统的有限状态、输出概率函数为高斯混合模型的HMM不同,这里前向-后向算法中需要用到的π,A以及分别为它们的期望值,即:
< &pi; h > = exp { < log &pi; h > } = exp { < log V h &pi; > + &Sigma; k = 1 h - 1 < log ( 1 - V h &pi; ) > } - - - ( 26 )
< a hi > = exp { < log a hi > } = exp { < log V hi A > + &Sigma; k = 1 h - 1 < log ( 1 - V hi A ) > } - - - ( 27 )
此外,在得到当前的bij,μij,∑ij,vij以后,p(xmt)可由式(10)得到,那么前向-后向算法中的前向概率为:
p hm 1 ( f ) = < &pi; h > &CenterDot; p ( x mt ) ,
p hm , t + 1 ( f ) = p ( x mt ) &CenterDot; &Sigma; h = 1 L p hmt ( f ) &CenterDot; < a hi > , t = 1 , . . . , T - 1 - - - ( 28 )
后向概率为:
p hmT ( b ) = 1 ,
p hmt ( f ) = &Sigma; h = 1 L < a hi > &CenterDot; p ( x mt ) &CenterDot; p hm , t - 1 ( b ) , t = T - 1 , . . . , 1 ; - - - ( 29 )
那么,
&zeta; himt = p hmt ( f ) < a hi > p ( x mt ) p im , t + 1 ( b ) &Sigma; h &prime; = 1 L &Sigma; i &prime; = 1 L p h &prime; mt ( f ) < a h &prime; i &prime; > p ( x mt ) p i &prime; m , t + 1 ( b ) - - - ( 30 )
&zeta; imt = p imt ( f ) p imt ( b ) &Sigma; i &prime; = 1 L p i &prime; mt ( f ) p i &prime; mt ( b ) - - - ( 31 )
&xi; ijmt = &zeta; imt &CenterDot; b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij ) &Sigma; j = 1 J b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij ) - - - ( 32 )
(6)计算当前迭代后的似然值LIKk(k为当前的迭代次数),其可以由上一步计算出的前向概率
Figure BSA00000467764800097
方便地得到:
LIK k = &Sigma; m = 1 M &Sigma; h = 1 L p hmT ( f ) - - - ( 33 )
(7)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK=LIKk-LIKk-1。如果ΔLIK≤δ,那么训练完成,否则转到步骤(2),k的值增加1,继续下一次的迭代。阈值δ的取值范围为10-5~10-4
上述训练过程如图1的虚线方框中所示,对于每一个说话人,采用这种方式进行训练,从而得到其对应的具有无限状态的隐马尔可夫模型iSHMM1,......,iSHMMg,......iSHMMG(G为说话人的数量)。
第四步:识别
在识别过程中,与当前待识别的说话人相关的一段语音首先经过步骤一的预处理以及步骤二的特征提取,得到相应的特征矢量所组成的时间序列{x′t}t=1,...,T。对于该序列,计算其关于每一个说话人有关的模型iSHMM1,......,iSHMMg,......iSHMMG的似然值LIK(g)。由于每一个iSHMMg,g=1,...G中包含了训练好的模型参数
Figure BSA00000467764800099
以及π,A的期望值。那么只要采用训练步骤中的第(5)步所示的前向-后向算法,将该步骤中的xmt用x′t替代,就可以计算出LIK(g)。最终的识别结果为最大的LIK(g)所对应的说话人,即:
speaker = arg max g = 1 G LIK ( g ) - - - ( 34 )
性能评价
为了验证采用了本发明所述的基于无线状态隐马尔司夫模型(iSHMM)的与文本相关的说话人识别方法的系统性能,以及将其与基于传统模型(GHMM)的与文本相关的说话人识别方法的系统性能进行对比,这里选用Japanese Vowels数据库做测试。在该数据库中,9位说话人分别发两个Japanese vowels/ae/的音。该数据库中总共有640段语音信号,其中270段用于训练(每个说话人有30段语音信号),剩余的370段用于识别。采样率为10KHz,量化位数为16位,帧长为25.6ms,预加重系数α=0.95,特征提取过程中的D=12。训练过程中的J=3,α=10,阈值δ=10-4。由于该数据库中的语音为不含噪声的纯净语音,而实际应用中的说话人识别系统都是含有噪声的,因此这里在训练和识别的语音序列上添加高斯白噪声,该噪声均值为0,协方差系数与语音信号的强度成比例,比例系数为ε,ε越大,表明当前的说话人识别系统受的噪声干扰越强。
图3,图4和图5分别给出了L=5,L=10和L=15条件下,采用本发明提出的基于无限状态隐马尔可夫模型(iSHMM)的说话人识别方法和传统的基于有限状态并且输出概率分布为高斯混合模型的普通HMM(GHMM)的说话人识别方法之后的系统识别的正确率。每一幅图中反映噪声等级的比例系数ε从0.05按0,05的比例递增到0.30。从图3,图4和图5可以看出,采用本发明提出的与文本相关的说话人识别方法的系统正确率均高于传统的基于GHMM的方法的系统正确率。并且在L=15时差别更加明显,这是因为本数据库中的说话人发出的语音的音素数目很少,对应的真实的隐马尔可夫状态数也较少。本发明中的iSHMM由于在训练数据到来前具有无限状态数目,在训练数据来了以后可以根据训练数据自动调节模型的结构,从而自动确定出合适的状态数。此外,本发明的输出概率分布函数采用的是学生氏t混合模型来描述,该模型对噪声具有较强的鲁棒性。而传统的GHMM中的状态数是预先设定好的,并且在训练数据到来之后是固定不变的,无法根据训练数据进行动态地调节,从而导致过拟合训练数据,并且高斯混合模型的输出概率分布函数对噪声的鲁棒性较差,这些因素引起了系统识别性能的下降。
图6~图7分别给出了在L=15,ε=0.1条件下,基于GHMM和iSHMM的与文本相关的说话人识别的方法的Confusion矩阵,它更加直观的反映了对于每个说话人的识别情况。在Confusion矩阵中,列代表真实的说话人,行代表通过说话人识别方法判断出的说话人,例如,图6中的第5行第1列中的值为7,它表示有7条来自于第5个说话人的语音序列被错误地判断成是来自于第1个说话人。因此,除了主对角线以外的元素值为0的越多,系统的识别性能越好。从图6和图7可以看出,采用本发明的说话人识别方法的性能要明显优于传统的说话人识别方法。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (2)

1.基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法,其特征在于包括以下步骤:
(1)对语音信号进行预处理:主要包括采样与量化、预加重、分帧与加窗;
(2)语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;
(3)对于每一说话人所对应的训练集合
Figure FSA00000467764700011
其中段数为M段,每段训练语音的帧数为T;用无限状态隐马尔可夫模型来建模,该隐马尔可夫模型具有无限状态数,并且每一状态的输出概率分布用学生氏t混合模型来表示;通过训练估计出该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况,即得到iSHMM1,......,iSHMMg,......iSHMMG,其中G为说话人的数量;
(4)对于待识别的一段语音,首先进行预处理以及特征提取,得到相应的特征矢量所组成的时间序列{xt}t=1,...,T,T为序列的帧数;计算{x′t}t=1,,T关于每一个说话人有关的模型iSHMM1,......,iSHMMg,......iSHMMG的似然值LIK(g),最终的识别结果为最大的LIK(g)所对应的说话人speaker,即:
speaker = arg max g = 1 G LIK ( g ) .
2.根据权利要求1所述的基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法,其特征在于,在训练过程中估计该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况的过程如下:
(1)设定参数α,bij,μij,∑ij,vij,以及π,A的初始值;
Figure FSA00000467764700013
分别为与状态i的输出分布函数有关的学生氏t混合模型中的第j个混合成分的权值,均值,协方差,自由度参数;L为实际训练中近似代表∞的一个较大的状态数,在与文本相关的说话人识别中,L取值为文本中的音素数目的2~3倍;J为混合成分数目;初始时,bij=1/J,vij=1,μij和∑y的初始值通过对当前说话人的所有训练数据求均值和协方差来得到;π={πh}h=1,...,L为初始状态矢量,
Figure FSA00000467764700014
为状态转移矩阵,首先随机取得每个元素的值,然后对A中的每一行,以及π元素进行归一化,使其满足在满足归一化条件:
Figure FSA00000467764700015
Figure FSA00000467764700016
h=1,...,L;α为与π,A分布相关的参数,取值范围为α=1~100,其初始值为在其取值范围内任意取出的一个值;此外,定义三个辅助变量,它们的初始值分别为ζimt=πi,ζhimt=ahi和ζijmt=πicij;当前的迭代次数k=1;
(2)更新与学生氏t混合模型有关的隐变量uijmt的分布;它的分布q(uijmt)服从Gamma分布,即
Figure FSA00000467764700017
其中参数
Figure FSA00000467764700018
Figure FSA00000467764700019
更新如下:
&upsi; ~ ijmt 1 = &xi; ijmt &CenterDot; D + v ij 2
&upsi; ~ ijmt 2 = &xi; ijmt ( x mt - &mu; ij ) T &Sigma; ij - 1 ( x mt - &mu; ij ) + v ij 2 ,
而后可以得到uijmt的数学期望<uijmt>以及loguijmt的数学期望<loguijmt>,如下:
< u ijmt > = &upsi; ~ ijmt 1 / &upsi; ~ ijmt 2
< log u ijmt > = &psi; ( &upsi; ~ ijmt 1 ) - log &upsi; ~ ijmt 2
上两式中的Ψ为标准的digamma函数;
(3)更新参数bij,μij,∑ij,vij
b ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt &Sigma; m = 1 M &Sigma; t = 1 T &zeta; ijmt
&mu; ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > x mt &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt >
&Sigma; ij = &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt < u ijmt > ( x mt - &mu; ij ) ( x mt - &mu; ij ) T &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt
1 + &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt [ < log u ijmt > - < u ijmt > ] &Sigma; m = 1 M &Sigma; t = 1 T &xi; ijmt + log ( v ij 2 ) - &psi; ( v ij 2 ) = 0
(4)更新与πh和ahi相关的随机变量
Figure FSA00000467764700029
Figure FSA000004677647000210
的分布,它们的分布
Figure FSA000004677647000211
Figure FSA000004677647000212
服从Beta分布,即
Figure FSA000004677647000213
Figure FSA000004677647000214
其中参数
Figure FSA000004677647000215
更新如下:
&beta; ~ hi 1 A = 1 + &Sigma; m = 1 M &Sigma; t = 1 T &zeta; himt , &beta; ~ hi 2 A = 1 + &Sigma; m = 1 M &Sigma; t = 1 T &Sigma; k = i + 1 N &zeta; hkmt ,
&beta; ~ h 1 &pi; = 1 + &Sigma; m = 1 M &zeta; hm 1 , &beta; ~ h 2 &pi; = &alpha; + &Sigma; m = 1 M &Sigma; k = h + 1 N &zeta; km 1 ;
而后可以得到关于
Figure FSA000004677647000220
Figure FSA000004677647000221
的如下的数学期望:
< log V hi A > = &psi; ( &beta; ~ hi 1 A ) - &psi; ( &beta; ~ hi 1 A + &beta; ~ hi 2 A ) , < log ( 1 - V hi A ) > = &psi; ( &beta; ~ hi 2 A ) - &psi; ( &beta; ~ hi 1 A + &beta; ~ hi 2 A ) ;
< log V h &pi; > = &psi; ( &beta; ~ h 1 &pi; ) - &psi; ( &beta; ~ h 1 &pi; + &beta; ~ h 2 &pi; ) , < log ( 1 - V h &pi; ) > = &psi; ( &beta; ~ h 2 &pi; ) - &psi; ( &beta; ~ h 1 &pi; + &beta; ~ h 2 &pi; ) ;
(5)由本权利要求的步骤(2)~(4)估计出的参数值以及计算得到的随机变量的分布,采用前向-后向算法更新三个辅助变量ζimt,ζhimt和ξijmt
&zeta; himt = p hmt ( f ) < a hi > p ( x mt ) p im , t + 1 ( b ) &Sigma; h &prime; = 1 L &Sigma; i &prime; = 1 L p h &prime; mt ( f ) < a h &prime; i &prime; > p ( x mt ) p i &prime; m , t + 1 ( b ) ,
&zeta; imt = p imt ( f ) p imt ( b ) &Sigma; i &prime; = 1 L p i &prime; mt ( f ) p i &prime; mt ( b ) ,
&xi; ijmt = &zeta; imt &CenterDot; b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij ) &Sigma; j = 1 J b ij &CenterDot; St ( x mt ; &mu; ij , &Sigma; ij , v ij ) ;
其中,
Figure FSA00000467764700034
为前向概率,
Figure FSA00000467764700035
为后向概率,其计算过程如下:
p hm 1 ( f ) = < &pi; h > &CenterDot; p ( x mt ) ,
p hm , t + 1 ( f ) = p ( x mt ) &CenterDot; &Sigma; h = 1 L p hmt ( f ) &CenterDot; < a hi > , t = 1 , . . . , T - 1
p hmT ( b ) = 1 ,
p hmt ( f ) = &Sigma; h = 1 L < a hi > &CenterDot; p ( x mt ) &CenterDot; p hm , t - 1 ( b ) , t = T - 1 , . . . , 1 ;
h>和<ahi>分别为π,A的期望值,其计算如下:
< &pi; h > = exp { < log &pi; h > } = exp { < log V h &pi; > + &Sigma; k = 1 h - 1 < log ( 1 - V h &pi; ) > } ,
< a hi > = exp { < log a hi > } = exp { < log V hi A > + &Sigma; k = 1 h - 1 < log ( 1 - V hi A ) > } ;
(6)计算当前迭代后的似然值LIKk,k为当前的迭代次数,其可以由上一步计算出的前向概率
Figure FSA000004677647000312
方便地得到:
LIK k = &Sigma; m = 1 M &Sigma; h = 1 L p hmT ( f ) ;
(7)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK=LIKk-LIKk-1;如果ΔLIK≤δ,那么训练完成,否则转到步骤(2),k的值增加1,继续下一次的迭代;阈值δ的取值范围为10-5~10-4
CN2011100858447A 2011-04-07 2011-04-07 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 Expired - Fee Related CN102129860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100858447A CN102129860B (zh) 2011-04-07 2011-04-07 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100858447A CN102129860B (zh) 2011-04-07 2011-04-07 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

Publications (2)

Publication Number Publication Date
CN102129860A true CN102129860A (zh) 2011-07-20
CN102129860B CN102129860B (zh) 2012-07-04

Family

ID=44267916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100858447A Expired - Fee Related CN102129860B (zh) 2011-04-07 2011-04-07 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法

Country Status (1)

Country Link
CN (1) CN102129860B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355439A (zh) * 2011-08-11 2012-02-15 魏昕 通信系统中基于无限成分数的t混合模型的调制信号的盲检测方法
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN105556546A (zh) * 2013-09-20 2016-05-04 日本电气株式会社 分层隐变量模型估计设备、分层隐变量模型估计方法、供应量预测设备、供应量预测方法、以及记录介质
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107342076A (zh) * 2017-07-11 2017-11-10 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107690651A (zh) * 2015-04-16 2018-02-13 罗伯特·博世有限公司 用于自动化手语识别的系统和方法
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN109119064A (zh) * 2018-09-05 2019-01-01 东南大学 一种适用于翻转课堂的英语口语教学系统的实现方法
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
US10460245B2 (en) * 2015-09-04 2019-10-29 Civitas Learning, Inc. Flexible, personalized student success modeling for institutions with complex term structures and competency-based education
CN112002343A (zh) * 2020-08-18 2020-11-27 海尔优家智能科技(北京)有限公司 语音纯度的识别方法、装置、存储介质及电子装置
WO2021127975A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声音采集对象声纹检测方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1171592A (zh) * 1996-05-01 1998-01-28 微软公司 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
KR100673834B1 (ko) * 2004-12-03 2007-01-24 고한석 문맥 요구형 화자 독립 인증 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1171592A (zh) * 1996-05-01 1998-01-28 微软公司 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统
KR100673834B1 (ko) * 2004-12-03 2007-01-24 고한석 문맥 요구형 화자 독립 인증 시스템 및 방법
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US20090254757A1 (en) * 2005-03-31 2009-10-08 Pioneer Corporation Operator recognition device, operator recognition method and operator recognition program
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355439A (zh) * 2011-08-11 2012-02-15 魏昕 通信系统中基于无限成分数的t混合模型的调制信号的盲检测方法
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
CN105556546B (zh) * 2013-09-20 2019-01-08 日本电气株式会社 分层隐变量模型估计设备、分层隐变量模型估计方法、供应量预测设备、供应量预测方法、以及记录介质
CN105556546A (zh) * 2013-09-20 2016-05-04 日本电气株式会社 分层隐变量模型估计设备、分层隐变量模型估计方法、供应量预测设备、供应量预测方法、以及记录介质
CN107690651A (zh) * 2015-04-16 2018-02-13 罗伯特·博世有限公司 用于自动化手语识别的系统和方法
US10460245B2 (en) * 2015-09-04 2019-10-29 Civitas Learning, Inc. Flexible, personalized student success modeling for institutions with complex term structures and competency-based education
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107342076B (zh) * 2017-07-11 2020-09-22 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN107342076A (zh) * 2017-07-11 2017-11-10 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
CN110188338B (zh) * 2018-02-23 2023-02-21 富士通株式会社 文本相关的说话人确认方法和设备
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN109119064A (zh) * 2018-09-05 2019-01-01 东南大学 一种适用于翻转课堂的英语口语教学系统的实现方法
WO2021127975A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声音采集对象声纹检测方法、装置和设备
CN112002343A (zh) * 2020-08-18 2020-11-27 海尔优家智能科技(北京)有限公司 语音纯度的识别方法、装置、存储介质及电子装置
CN112002343B (zh) * 2020-08-18 2024-01-23 海尔优家智能科技(北京)有限公司 语音纯度的识别方法、装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN102129860B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN102129860B (zh) 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
US9536525B2 (en) Speaker indexing device and speaker indexing method
US9595257B2 (en) Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
Prasad et al. Improved cepstral mean and variance normalization using Bayesian framework
EP2189976B1 (en) Method for adapting a codebook for speech recognition
KR100307623B1 (ko) 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
EP0453649B1 (en) Method and apparatus for modeling words with composite Markov models
CN101645269A (zh) 一种语种识别系统及方法
CN110189746B (zh) 一种应用于地空通信的话音识别方法
US7617101B2 (en) Method and system for utterance verification
CN102945670A (zh) 一种用于语音识别系统的多环境特征补偿方法
Singh et al. Model compensation and matched condition methods for robust speech recognition
EP2903003A1 (en) Online maximum-likelihood mean and variance normalization for speech recognition
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
WO2010035892A1 (en) Speech recognition method
US20040122672A1 (en) Gaussian model-based dynamic time warping system and method for speech processing
Seneviratne et al. Noise Robust Acoustic to Articulatory Speech Inversion.
JP4960845B2 (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
US20050027530A1 (en) Audio-visual speaker identification using coupled hidden markov models
CN102237082B (zh) 语音识别系统的自适应方法
US20040083102A1 (en) Method of automatic processing of a speech signal
Shahin Improving speaker identification performance under the shouted talking condition using the second-order hidden Markov models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NANJING POST + TELECOMMUNICATION UNIV.

Free format text: FORMER OWNER: WEI XIN

Effective date: 20120203

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Wei Cuan

Inventor after: Yang Zhen

Inventor after: Li Chunguang

Inventor before: Wei Cuan

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210096 NANJING, JIANGSU PROVINCE TO: 210003 NANJING, JIANGSU PROVINCE

Free format text: CORRECT: INVENTOR; FROM: WEI XIN TO: WEI XIN YANG ZHEN LI CHUNGUANG

TA01 Transfer of patent application right

Effective date of registration: 20120203

Address after: 210003 Nanjing City, Jiangsu Province, the new model road No. 66

Applicant after: Nanjing Post & Telecommunication Univ.

Address before: 210096 School of information science and engineering, Southeast University, No. four, 2 arch, Jiangsu, Nanjing

Applicant before: Wei Cuan

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20140407