CN101702314B - 基于语种对的鉴别式语种识别模型建立方法 - Google Patents

基于语种对的鉴别式语种识别模型建立方法 Download PDF

Info

Publication number
CN101702314B
CN101702314B CN2009102353933A CN200910235393A CN101702314B CN 101702314 B CN101702314 B CN 101702314B CN 2009102353933 A CN2009102353933 A CN 2009102353933A CN 200910235393 A CN200910235393 A CN 200910235393A CN 101702314 B CN101702314 B CN 101702314B
Authority
CN
China
Prior art keywords
theta
num
languages
statistic
chi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102353933A
Other languages
English (en)
Other versions
CN101702314A (zh
Inventor
张卫强
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2009102353933A priority Critical patent/CN101702314B/zh
Publication of CN101702314A publication Critical patent/CN101702314A/zh
Application granted granted Critical
Publication of CN101702314B publication Critical patent/CN101702314B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。

Description

基于语种对的鉴别式语种识别模型建立方法
技术领域
本发明属于语音识别领域,具体地说,涉及一种基于语种对的鉴别式模型建立方法,可用于语种识别。
背景技术
语种识别是指使用计算机从一段语音信号中自动识别出其语言的种类。语种识别技术主要用于多语种人机交互、语音信息侦听以及语音文档检索等系统。
语种识别模型可以分为描述性模型和鉴别性模型两类。描述性模型对各语种的分布进行建模,侧重于使用非参数化或参数化的方法对每个语种进行刻画,如早期的VQ(矢量量化)和后来的GMM(高斯混合模型),以及PPRLM(并行音素识别器后接语言模型)等;而鉴别性模型对各语种的分类面进行建模,侧重于分类,如近期兴起的SVM(支持矢量机)、SVM GSV(基于GMM超矢量的SVM)和PPR-VSM(并行音素识别器后接矢量空间模型)等。在语种识别中,描述性模型一般具有较好的推广能力,特别是对于没有参与训练的集外语种,也不容易出现虚警;而鉴别性模型一般具有更好的分类能力,其识别性能通常高于传统的描述性模型。
后来,学者们陆续采用一些鉴别性的准则对原来的描述性模型进行训练,并通过模型插值等手段使其兼有描述性模型和鉴别性模型的优点,从而识别性能显著提高。在连续语音识别领域,目前比较广泛使用的鉴别性准则有(MCE)最小分类错误、(MMI)最大互信息、(MPE)最小音素错误等准则。
本发明主要涉及到GMM模型的鉴别式建模。对于该模型,传统的建模方法是基于ML(最大似然)准则的,它采用一种“各扫自家门前雪”的描述性策略,每个语种的模型仅用本类的数据训练,使似然度最大化。但事实上各个语种的似然度的最大化只能保证模型对数据描述得更好,却并不一定有利于分类,换句话说,ML准则并不能保证最好的识别性能。2003年至2006年期间,Qu和Matejka等人将MMI准则引入语种识别中的GMM建模,MMI准则采用一种“统筹兼顾”的鉴别性策略,使训练数据和语种类别之间的互信息最大化,从而使识别性能得到了很大的提高。
但是由于MMI准则是同时将每一个语种与其他所有语种进行鉴别,没有充分考虑各语种间的混淆情况;另外MMI准则从整体考虑,目标函数的要求十分严格,考虑到实际数据分布情况复杂,各语种的数据量不同,混淆程度也各异,再加上迭代算法仅能达到局部极值等原因,这种的准则可能无法达到。
发明内容
为了解决现有MMI准则的不足,本发明提供一种基于语种对的鉴别式建模方法,首先从鉴别信息的角度出发,从易混语种对的鉴别入手,放松对MMI准则的约束。使用数字集成电路实现时,采用本发明耗费的存储和运算模块资源与MMI方法相同,而等错率相对降低25%。
本发明的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的:
步骤(1):初始化
在所述集成电路中建立以下模块:特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;
步骤(2):对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为:
sk(i)=x(i+3k+1)-x(i+3k-1),k=0,1,...,6
其中x(i)表示第i帧MFCC特征向量,k为SDC特征向量的块标号,k=0,1,...,6,共7块,每块7维,连同7维MFCC特征一起拼接成56维的特征向量;
步骤(3):在所述最大似然ML准则训练模块中,用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练,得到所述12个语种高斯混合模型GMM的初始参数,其中第l个语种的参数用λl表示:
λ l = { w lg , μ lg , σ lg 2 , g = 1 , . . . , G } , l=1,...,L
其中下标g表示高斯分量标号,每个语种含G个高斯分量,下标l表示语种标号,l=1,...,L,共L=12个语种,wlg表示第l个语种第g个高斯分量的权重,μlg表示第l个语种第g个高斯分量的均值,
Figure GSB00000555450100032
表示第l个语种第g个高斯分量的方差;
步骤(4):分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量:
在所述分子统计量中:
零阶分子统计量 θ lg num ( 1 ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · 1
一阶分子统计量 θ lg num ( χ ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · X r ( i )
二阶分子统计量 θ lg num ( χ 2 ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · X r 2 ( i )
在所述分母统计量中:
零阶分母统计量 θ lg den ( 1 ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · 1
一阶分母统计量 θ lg den ( χ ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · X r ( i )
二阶分母统计量 θ lg den ( χ 2 ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · X r 2 ( i )
其中上标“num”代表分子项,上标“den”代表分母项,θ(1)、
Figure GSB00000555450100046
Figure GSB00000555450100047
分别代表零阶、一阶和二阶统计量,
Figure GSB00000555450100048
为所述特征向量的随机变量,R为总段数,r=1,2,...,R,Tr为第r段语音的帧数,i=1,2,...,Tr,Xr(i)代表第r段语音的第i帧特征向量的取值,
Figure GSB00000555450100049
为第l个语种分子项中Xr(i)属于第g个高斯分量的后验概率,为第l个语种分母项中Xr(i)属于第g个高斯分量的后验概率,其中:
γ lgr num ( i ) = γ lgr ( i ) , l = l r 0 , l ≠ l r
Figure GSB000005554501000412
γ lgr den ( i ) = γ lgr ( i ) 1 L ( Σ l ′ = 1 L p λ ( X r | l ) K p λ ( X r | l ) K + p λ ( X r | l ′ ) K + 1 2 ) , l = l r γ lgr ( i ) 1 L p λ ( X r | l ) K p λ ( X r | l r ) K + p λ ( X r | l ) K , l ≠ l r
其中下标g′是不同于g的高斯分量标号,下标l′是不同于l的语种标号,
Figure GSB000005554501000414
表示均值为μlg,方差为
Figure GSB000005554501000415
的高斯分布在随机变量取值为Xr(i)时的概率密度,pλ(Xr|l)为第r段语音在第l个语种参数下的条件概率密度K为修正因子,取值为6/Tr,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
零阶分子统计量
Figure GSB00000555450100052
表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率
Figure GSB00000555450100053
之和,一阶分子统计量表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率
Figure GSB00000555450100055
与本帧特征向量的乘积之和,二阶分子统计量
Figure GSB00000555450100056
表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率与本帧特征向量平方的乘积之和,对于各阶分母统计量依此类推;
步骤(5):对步骤(4)中得到的分子统计量进行平滑处理:
θ lg num ( 1 ) + τ I 代替 θ lg num ( 1 ) ,
θ lg num ( χ ) θ lg num ( 1 ) + τ I θ lg num ( 1 ) 代替 θ lg num ( χ ) ,
θ lg num ( χ 2 ) θ lg num ( 1 ) + τ I θ lg num ( 1 ) 代替 θ lg num ( χ 2 ) ,
其中τI为平滑因子,取值为100,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
步骤(6):由分子统计量和分母统计量计算模型参数μlg
Figure GSB000005554501000514
的更新系数Dlg
D lg = max { 2 D min , 2 θ lg den ( 1 ) }
其中Dmin是关于D的一元二次方程的两个解中较大的一个:
σ lg 2 D 2 + [ ( θ lg num ( χ 2 ) - θ lg den ( χ 2 ) ) + ( θ lg num ( 1 ) - θ lg den ( 1 ) ) ( σ lg 2 + μ lg 2 ) - 2 ( θ lg num ( χ ) - θ lg den ( χ ) ) μ lg ] D
+ [ ( θ lg num ( 1 ) - θ lg den ( 1 ) ) ( θ lg num ( χ 2 ) - θ lg den ( χ 2 ) ) - ( θ lg num ( χ ) - θ lg den ( χ ) ) 2 ] = 0
对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
步骤(7):修正模型参数μlg
Figure GSB000005554501000518
得到新的模型参数
Figure GSB000005554501000519
Figure GSB000005554501000520
μ ^ lg = θ lg num ( χ ) - θ lg den ( χ ) + D lg μ lg θ lg num ( 1 ) - θ lg den ( 1 ) + D lg
σ ^ lg 2 = θ lg num ( χ 2 ) - θ lg den ( χ 2 ) + D lg ( σ lg 2 + μ lg 2 ) θ lg num ( 1 ) - θ lg den ( 1 ) + D lg - μ ^ lg 2
对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
步骤(8):设定所有R段语音数据的目标函数
Figure GSB00000555450100063
为:
Figure GSB00000555450100064
当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0×10-5则停止迭代,否则,用代替μlg
Figure GSB00000555450100066
代替σlg,转步骤(4)。
本发明的有益效果是,可以从语种对的局部入手,然后再通盘考虑,目标函数要求比标准MMI准则松,考虑到实际数据分布情况复杂,各语种的数据量不同,混淆程度也各异,再加上迭代算法仅能达到局部极值等原因,该方法更能抓住语种间的鉴别性信息,从而获得更好的识别性能。
附图说明
图1是本发明进行基于语种对的鉴别式模型建立的硬件结构和步骤框图。
图2是本发明进行基于语种对的鉴别式模型建立的流程框图。
具体实施方式
我们将观测特征和语种类别都作为随机变量看待,其中特征随机变量(矢量)为
Figure GSB00000555450100067
它的一个可能取值为X,其样本空间是连续的特征空间
Figure GSB00000555450100068
语种类别随机变量为它的一个可能取值为l,其样本空间是离散的语种类别空间
Figure GSB00000555450100072
L为语种数。
语种识别的建模过程本质上是估计每个语种的概率密度函数,如果将语种类别也看成随机变量的话,就是估计条件概率密度函数pλ(X|l)。此处下标表示条件概率密度函数依赖于参数λ,或者换句话说我们就是要估计决定概率密度函数的参数。
每个语种背后总有一个真实的分布支配其产生观测特征,我们不妨设实际的条件概率密度函数为q(X|l)。这样q(X|l)与pλ(X|l)之间的K-L距离(条件鉴别信息)为
Figure GSB00000555450100073
假设存在一个估计的条件概率密度函数
Figure GSB00000555450100074
它表示语种在{l1,l2}中取值且
Figure GSB00000555450100075
Figure GSB00000555450100076
独立时的分布,这时
Figure GSB00000555450100077
q(X|l)与
Figure GSB00000555450100078
之间的K-L距离为
Figure GSB00000555450100079
Figure GSB000005554501000710
它描述了语种在{l1,l2}范围内取值时q(X|l)与“小”背景之间的K-L距离。这仅是一个语种对的情况,进一步考虑所有语种对的情况,可定义
Figure GSB00000555450100081
Figure GSB00000555450100082
Figure GSB00000555450100083
Figure GSB00000555450100084
再计算它与
Figure GSB00000555450100085
的差,可得
Figure GSB00000555450100086
Figure GSB00000555450100087
Figure GSB00000555450100088
式中,R为训练数据的段数,
Figure GSB00000555450100089
表示R→∞时等式渐进成立。略去式中的1/R,并引入修正因子K,可得
Figure GSB000005554501000810
式中,Xr代表第r段训练数据,lr代表第r段训练数据的语种。这样我们就得到了一个新的目标函数,与MMI准则不同的是,MMI侧重目标语种与其他所有语种的和进行鉴别,而我们这里侧重目标语种与其他语种两两进行鉴别,这个准则首先针对每对语种,然后再对所有“语种对”求和,所以我们称之为PMMI准则(基于语种对的MMI准则)。
如果我们认为每个语种的先验概率是相等的,此时P(lr)和P(l′)是可以略去的,这样目标函数变成了
Figure GSB00000555450100091
为了优化该目标函数,我们采用弱辅助函数法进行迭代。首先根据各语种数据分别计算分子统计量和分母统计量:
θ lg num ( 1 ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · 1
θ lg num ( χ ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · X r ( i )
θ lg num ( χ 2 ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · X r 2 ( i )
θ lg den ( 1 ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · 1
θ lg den ( χ ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · X r ( i )
θ lg den ( χ 2 ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · X r 2 ( i )
其中θ(1)、分别代表零阶、一阶和二阶统计量,上标“num”代表分子项,上标“den”代表分母项,下标l表示语种标号,下标g表示高斯分量标号,Xr(i)代表第r段语音的第i帧特征矢量,R为总段数,Tr为第r段语音的帧数,
Figure GSB000005554501000910
Figure GSB000005554501000911
分别为
γ lgr num ( i ) = γ lgr ( i ) , l = l r 0 , l ≠ l r
γ lgr den ( i ) = γ lgr ( i ) 1 L ( Σ l ′ = 1 L p λ ( X r | l ) K p λ ( X r | l ) K + p λ ( X r | l ′ ) K + 1 2 ) , l = l r γ lgr ( i ) 1 L p λ ( X r | l ) K p λ ( X r | l r ) K + p λ ( X r | l ) K , l ≠ l r
其中γlgr(i)表示Xr(i)属于第g个高斯分量的后验概率:
Figure GSB00000555450100101
然后对分子统计量进行平滑处理:
θ lg num ( 1 ) ← θ lg num ( 1 ) + τ I
θ lg num ( χ ) ← θ lg num ( χ ) θ lg num ( 1 ) + τ I θ lg num ( 1 )
θ lg num ( χ 2 ) ← θ lg num ( χ 2 ) θ lg num ( 1 ) + τ I θ lg num ( 1 )
接着由分子统计量和分母统计量计算更新系数Dlg
D lg = max { 2 D min , 2 θ lg den ( 1 ) }
其中Dmin是关于D的一元二次方程:
σ lg 2 D 2 + [ ( θ lg num ( χ 2 ) - θ lg den ( χ 2 ) ) + ( θ lg num ( 1 ) - θ lg den ( 1 ) ) ( σ lg 2 + μ lg 2 ) - 2 ( θ lg num ( χ ) - θ lg den ( χ ) ) μ lg ] D
+ [ ( θ lg num ( 1 ) - θ lg den ( 1 ) ) ( θ lg num ( χ 2 ) - θ lg den ( χ 2 ) ) - ( θ lg num ( χ ) - θ lg den ( χ ) ) 2 ] = 0
的两个解中较大的一个;
最后计算新的模型参数:
μ ^ lg = θ lg num ( χ ) - θ lg den ( χ ) + D lg μ lg θ lg num ( 1 ) - θ lg den ( 1 ) + D lg
σ ^ lg 2 = θ lg num ( χ 2 ) - θ lg den ( χ 2 ) + D lg ( σ lg 2 + μ lg 2 ) θ lg num ( 1 ) - θ lg den ( 1 ) + D lg - μ ^ lg 2
如图1所示,实施本发明的具体步骤如下:
(1)首先对语音数据提取特征,得到特征矢量;
(2)采用Baum-Welch算法进行ML训练,得到初始GMM模型参数;
(3)利用GMM模型对特征矢量计算计算所有语种和所有高斯分量的分子和分母统计量;
(4)对计算所有语种和所有高斯分量的分子统计量进行平滑;
(5)由平滑后的分子统计量和分母统计量计算所有语种和所有高斯分量的更新系数Dlg
(6)按更新公式对计算所有语种和所有高斯分量的GMM模型参数进行更新;
本发明实验采用国际上标准的NIST 2003语种评测数据,共12个语种,含1280段长约为30秒的电话对话语音,训练数据采用CallFriend数据库语音,特征矢量采用7维的MFCC(Mel频率倒谱系数)加上49维的SDC(偏移差分倒谱)特征。
将所有测试段对每个语种分别进行语种确认,调节虚警率和漏报率相等时,可以得到系统的等错率,采用各语种平均的等错率作为系统的评价指标,等错率越低,表明系统性能越好。
实验中,采用GMM作为分类器,每个GMM由256个高斯分量构成。先用Bauman-Welch算法迭代8次作为初始模型,然后分别采用MMI准则以及本发明提供的基于语种对的鉴别式方法进行建模。
实验表明:采用MMI建模,语种识别等错率为2.13%;而采用本发明所提建模方法,语种识别等错率为1.58%,相对降低25.8%。可见,本发明提出的基于语种对的鉴别式语种识别模型建立方法用于语种识别可使其性能有较大提高。

Claims (1)

1.基于语种对的鉴别式语种识别模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的:
步骤(1):初始化
在所述集成电路中建立以下模块:特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;
步骤(2):对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为:
sk(i)=x(i+3k+1)-x(i+3k-1),k=0,1,...,6
其中x(i)表示第i帧MFCC特征向量,k为SDC特征向量的块标号,k=0,1,...,6,共7块,每块7维,连同7维MFCC特征一起拼接成56维的特征向量{x(i),s0(i),s1(i),…,s6(i)};
步骤(3):在所述最大似然ML准则训练模块中,用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练,得到所述12个语种高斯混合模型GMM的初始参数,其中第l个语种的参数用λl表示:
λ l = { w lg , μ lg , σ lg 2 , g = 1 , . . . , G } , l = 1 , . . . , L
其中下标g表示高斯分量标号,每个语种含G个高斯分量,下标l表示语种标号,l=1,...,L,共L=12个语种,wlg表示第l个语种第g个高斯分量的权重,μlg表示第l个语种第g个高斯分量的均值,
Figure FSB00000596301300012
表示第l个语种第g个高斯分量的方差;
步骤(4):分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量:
在所述分子统计量中:
零阶分子统计量 θ lg num ( 1 ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · 1
一阶分子统计量 θ lg num ( χ ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · X r ( i )
二阶分子统计量 θ lg num ( χ 2 ) = Σ r = 1 R Σ i = 1 T r γ lgr num ( i ) · X r 2 ( i )
在所述分母统计量中:
零阶分母统计量 θ lg den ( 1 ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · 1
一阶分母统计量 θ lg den ( χ ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · X r ( i )
二阶分母统计量 θ lg den ( χ 2 ) = Σ r = 1 R Σ i = 1 T r γ lgr den ( i ) · X r 2 ( i )
其中上标“num”代表分子项,上标“den”代表分母项,θ(1)、θ(χ)和θ(χ2)分别代表零阶、一阶和二阶统计量,χ为所述特征向量的随机变量,R为总段数,r=1,2,...,R,Tr为第r段语音的帧数,i=1,2,...,Tr,Xr(i)代表第r段语音的第i帧特征向量的取值,
Figure FSB00000596301300027
为第l个语种分子项中Xr(i)属于第g个高斯分量的后验概率,为第l个语种分母项中Xr(i)属于第g个高斯分量的后验概率,其中:
γ lgr num ( i ) = γ lgr ( i ) , l = l r 0 , l ≠ l r
γ lgr den ( i ) = γ lgr ( i ) 1 L ( Σ l ′ = 1 L p λ ( X r | l ) K p λ ( X r | l ) K + p λ ( X r | l ′ ) K + 1 2 ) , l = l r γ lgr ( i ) 1 L p λ ( X r | l ) K p λ ( X r | l r ) K + p λ ( X r | l ) K , l ≠ l r
其中下标g′是不同于g的高斯分量标号,下标l′是不同于l的语种标号,
Figure FSB00000596301300032
表示均值为μlg,方差为
Figure FSB00000596301300033
的高斯分布在随机变量取值为Xr(i)时的概率密度,pλ(Xr|l)为第r段语音在第l个语种参数下的条件概率密度
Figure FSB00000596301300034
K为修正因子,取值为6/Tr,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
零阶分子统计量
Figure FSB00000596301300035
表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率
Figure FSB00000596301300036
之和,一阶分子统计量表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率
Figure FSB00000596301300038
与本帧特征向量的乘积之和,二阶分子统计量
Figure FSB00000596301300039
表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率
Figure FSB000005963013000310
与本帧特征向量平方的乘积之和,对于各阶分母统计量依此类推;
步骤(5):对步骤(4)中得到的分子统计量进行平滑处理:
θ lg num ( 1 ) + τ I 代替 θ lg num ( 1 ) ,
θ lg num ( χ ) θ lg num ( 1 ) + τ I θ lg num ( 1 ) 代替 θ lg num ( χ ) ,
θ lg num ( χ 2 ) θ lg num ( 1 ) + τ I θ lg num ( 1 ) 代替 θ lg num ( χ 2 ) ,
其中τI为平滑因子,取值为100,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
步骤(6):由分子统计量和分母统计量计算模型参数μlg
Figure FSB000005963013000317
的更新系数Dlg
D lg = max { 2 D min , 2 θ lg den ( 1 ) }
其中Dmin是关于D的一元二次方程的两个解中较大的一个:
σ lg 2 D 2 + [ ( θ lg num ( χ 2 ) - θ lg den ( χ 2 ) ) + ( θ lg num ( 1 ) - θ lg den ( 1 ) ) ( σ lg 2 + μ lg 2 ) - 2 ( θ lg num ( χ ) - θ lg den ( χ ) ) μ lg ] D
+ [ ( θ lg num ( 1 ) - θ lg den ( 1 ) ) ( θ lg num ( χ 2 ) - θ lg den ( χ 2 ) ) - ( θ lg num ( χ ) - θ lg den ( χ ) ) 2 ] = 0
对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
步骤(7):修正模型参数μlg
Figure FSB00000596301300043
得到新的模型参数
Figure FSB00000596301300044
Figure FSB00000596301300045
μ ^ lg = θ lg num ( χ ) - θ lg den ( χ ) + D lg μ lg θ lg num ( 1 ) - θ lg den ( 1 ) + D lg
σ ^ lg 2 = θ lg num ( χ 2 ) - θ lg den ( χ 2 ) + D lg ( σ lg 2 + μ lg 2 ) θ lg num ( 1 ) - θ lg den ( 1 ) + D lg - μ ^ lg 2
对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;
步骤(8):设定所有R段语音数据的目标函数为:
Figure FSB00000596301300049
当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0×10-5则停止迭代,否则,用
Figure FSB000005963013000410
代替μlg
Figure FSB000005963013000411
代替σlg,转步骤(4)。
CN2009102353933A 2009-10-13 2009-10-13 基于语种对的鉴别式语种识别模型建立方法 Expired - Fee Related CN101702314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102353933A CN101702314B (zh) 2009-10-13 2009-10-13 基于语种对的鉴别式语种识别模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102353933A CN101702314B (zh) 2009-10-13 2009-10-13 基于语种对的鉴别式语种识别模型建立方法

Publications (2)

Publication Number Publication Date
CN101702314A CN101702314A (zh) 2010-05-05
CN101702314B true CN101702314B (zh) 2011-11-09

Family

ID=42157221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102353933A Expired - Fee Related CN101702314B (zh) 2009-10-13 2009-10-13 基于语种对的鉴别式语种识别模型建立方法

Country Status (1)

Country Link
CN (1) CN101702314B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894548B (zh) * 2010-06-23 2012-07-04 清华大学 一种用于语种识别的建模方法及装置
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102521706A (zh) * 2011-12-16 2012-06-27 北京斯泰威网络科技有限公司 Kpi 数据的分析方法及装置
CN104575495A (zh) * 2013-10-21 2015-04-29 中国科学院声学研究所 一种采用总变化量因子的语种识别方法及系统
CN105280181B (zh) * 2014-07-15 2018-11-13 中国科学院声学研究所 一种语种识别模型的训练方法及语种识别方法
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统
CN106959943B (zh) * 2016-01-11 2020-10-30 阿里巴巴集团控股有限公司 语种识别更新方法及装置
CN107221318B (zh) * 2017-05-12 2020-03-31 广东外语外贸大学 英语口语发音评分方法和系统
CN108427672B (zh) * 2018-02-07 2019-05-07 平安科技(深圳)有限公司 文字翻译的方法、终端设备及计算机可读存储介质
CN110970018B (zh) * 2018-09-28 2022-05-27 珠海格力电器股份有限公司 语音识别方法和装置
CN111445898B (zh) * 2020-03-17 2022-05-17 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN112233651B (zh) * 2020-10-10 2024-06-04 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300049A (zh) * 1999-12-10 2001-06-20 松下电器产业株式会社 汉语普通话话音识别的方法和设备
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN101546555A (zh) * 2009-04-14 2009-09-30 清华大学 用于语种识别的约束异方差线性鉴别分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300049A (zh) * 1999-12-10 2001-06-20 松下电器产业株式会社 汉语普通话话音识别的方法和设备
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN101546555A (zh) * 2009-04-14 2009-09-30 清华大学 用于语种识别的约束异方差线性鉴别分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Wade Shen,Reynolds, D..Improved GMM-based language recognition using constrained MLLR transforms.《Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on》.2008,4149-4152. *
刘长娥, 王世镇, 刘加, 夏善红.语种确认中基于段长的语言模型修正方法.《计算机应用研究》.2006, *
钟山,刘加.MLLR特征的SVM语种识别算法.《NCMMSC’2009》.2009, *

Also Published As

Publication number Publication date
CN101702314A (zh) 2010-05-05

Similar Documents

Publication Publication Date Title
CN101702314B (zh) 基于语种对的鉴别式语种识别模型建立方法
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
Qiao et al. A study on invariance of $ f $-divergence and its application to speech recognition
CN108447490A (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN102411931B (zh) 用于大词汇量连续语音识别的深度信任网络
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN105469784B (zh) 一种基于概率线性鉴别分析模型的说话人聚类方法及系统
CN107564513A (zh) 语音识别方法及装置
CN109192200A (zh) 一种语音识别方法
CN108735199B (zh) 一种声学模型的自适应训练方法及系统
Omar et al. Training Universal Background Models for Speaker Recognition.
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN102982799A (zh) 一种融合引导概率的语音识别优化解码方法
Su et al. GMM-HMM acoustic model training by a two level procedure with Gaussian components determined by automatic model selection
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN101546555B (zh) 用于语种识别的约束异方差线性鉴别分析方法
CN105654944A (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
CN107093422A (zh) 一种语音识别方法和语音识别系统
CN109273011A (zh) 一种可自动更新模型的操作人员身份识别系统及方法
CN104795063A (zh) 一种基于声学空间非线性流形结构的声学模型构建方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN101419799A (zh) 基于混合t模型的说话人识别方法
CN102237082B (zh) 语音识别系统的自适应方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161128

Address after: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee after: BEIJING HUA KONG CHUANG WEI INFORMATION TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing 100084-82 mailbox

Patentee before: Tsinghua University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200327

Address after: 100084 Tsinghua University, Beijing, Haidian District

Patentee after: TSINGHUA University

Address before: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee before: BEIJING HUA KONG CHUANG WEI INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111109

Termination date: 20211013