CN101604522B - 非特定人的嵌入式中英文混合语音识别方法及系统 - Google Patents

非特定人的嵌入式中英文混合语音识别方法及系统 Download PDF

Info

Publication number
CN101604522B
CN101604522B CN2009101575984A CN200910157598A CN101604522B CN 101604522 B CN101604522 B CN 101604522B CN 2009101575984 A CN2009101575984 A CN 2009101575984A CN 200910157598 A CN200910157598 A CN 200910157598A CN 101604522 B CN101604522 B CN 101604522B
Authority
CN
China
Prior art keywords
model
score
background
gmm
acoustics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101575984A
Other languages
English (en)
Other versions
CN101604522A (zh
Inventor
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Original Assignee
BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd filed Critical BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Priority to CN2009101575984A priority Critical patent/CN101604522B/zh
Publication of CN101604522A publication Critical patent/CN101604522A/zh
Application granted granted Critical
Publication of CN101604522B publication Critical patent/CN101604522B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种非特定人的、支持中英文混合语言、面向嵌入式应用的语音识别方法及系统。本发明采用海量语音数据训练的声学模型,兼容中文和英文发音方式的声学建模单元集,从而实现非特定人的中英文混合语音识别。本发明采用多个背景模型,由背景模型进行均值自适应训练得到混合高斯模型(GMM)参数,然后再对混合高斯模型(GMM)均值与背景模型均值的差值向量进行矢量量化,压缩模型参数;在识别阶段,使用快速高斯选择、声学得分预运算、以及简化GMM模型,从而大幅降低识别的计算量和模型的存储空间,使得本语音识别方法及系统可以在各种嵌入式应用系统上使用。

Description

非特定人的嵌入式中英文混合语音识别方法及系统
技术领域
本发明涉及自动语音识别技术领域,是一种非特定人的、面向计算和存储资源有限的嵌入式应用环境、支持中英文混合语言的语音识别方法及系统。
背景技术
语音是人类沟通和获取信息最自然、最便捷的方式。智能语音交互技术主要包括语音识别技术、语音合成技术、语音评测技术等,智能语音交互将是继图形交互模式(GUI)之后人机交互模式上具有突破性意义的变革。
语音识别技术是让机器听懂人说话,通过机器自动将语音信号转化为文本及相关信息的技术,是智能语音交互技术中非常重要的、也是非常关键的部分。从语音识别技术发展的情况看,其应用主要向以下两个方向发展:一个是大词汇量连续语音识别系统,主要应用于听写机、语音信息查询服务系统、海量音频数据自动标注系统等,这些系统都运行在PC平台或服务器上;另一个是嵌入式语音识别系统,面向小型化、便携式的、嵌入式的产品应用,如手机上的语音拨号、车载设备的语音控制、智能语音玩具、家电遥控等,这些嵌入式应用系统大都使用专门的硬件系统实现,如MCU、DSP和语音识别专用芯片,其运算速度、存储容量都非常有限。同时,它这些嵌入式应用系统还要求识别是实时的,并具有体积小、可靠性高、耗电少、成本低等特点。嵌入式语音产品的这些应用特点以及嵌入式系统资源的有限性是目前语音识别技术嵌入式应用的难点。
现有的嵌入式语音识别系统主要还是特定人孤立词语音识别,即需要用户在使用前让系统对所识别的词条先进行学习或训练。这一类识别功能对语种、方言没有限制,识别率很高,但使用前的录音和训练很不方便。
有一些嵌入式语音识别系统能实现非特定人语音识别,即预先将所要识别的语音模型训练好并装入系统的存储器,用户使用时不需要再进行学习而直接使用。但这类识别功能只适用于特定的语种和方言,识别率比特定人系统低,还有待进一步提高。
21世纪全球大融合的趋势越来越明显,甚至不同语种语言之间的融合特征也越来越多。在中国,外来英语词汇越来越多,一个人同时有中英文名字的情况越来越多,现实社会中越来越多的应用环境和产品系统中出现了中英文混用的情况。在这样的情况下,目前单一语种的中文语音识别技术无法实现中英文混合的语音识别,中英文混合识别是未来的中文语音识别技术发展的趋势。
结合语音识别技术的发展趋势,针对嵌入式系统语音识别应用的特点,以及目前中英文混用的应用特点,本发明采用全新的语音识别理念和框架,实现了一种非特定人的,面向嵌入式应用的,支持中英文混合识别的语音识别系统,该系统可广泛应用于各种小型化的嵌入式电子产品和嵌入式系统中,实现高识别率的、中英文混合语音识别。
发明内容
本发明克服现有语音识别技术的不足,实现了一种高识别率、非特定人、支持中英文混合的嵌入式语音识别方法及系统,使其能够应用于各种嵌入式应用领域,实现实时的语音识别,且在中等词汇量上识别率达95%以上。本发明算法压力小,存储空间小,适合在各种主流硬件环境中实时运行。
本发明是通过以下技术方案实现的,主要由S1-声学模型训练、S2-词树生成、S3-前端处理、S4-识别解码四个部分组成,如图1所示。
以下是对本发明进一步的说明:
S1-声学模型训练
特征提取:按帧长25毫秒,帧移10毫秒提取12维MFCC特征,再加上1维能量特征,共13维静态特征。动态特征取一阶和二阶差分特征,得到39维的声学特征向量序列。
兼容中文和英文发音方式的声学建模单元集,基于海量语音数据训练的声学模型,使得该语音识别方法是非特定人的、并支持中英文语言混合识别。具体是在英文音素集的基础上,扩展了英文中没有的中文发音单元,再加上静音单元构成。
基本声学模型的训练:声学建模方法使用CDHMM+GMM,利用本领域熟知的方法训练状态绑定的上下文相关三音子模型,并得到与每个GMM模型的每个混合项绑定的特征集合。
采用二叉树形式组织的多背景模型(背景模型-Background Model,简称BM,其中BM-n表示第n个背景模型),如图2所示,然后将声学模型中混合高斯模型(GMM)的每个混合项与某个背景模型按最大似然准则绑定,对背景模型进行均值自适应训练得到混合项的均值参数,并将其与背景模型均值相减得到两者的差值向量。每个背景模型均采用正态分布模型,所有背景模型采用二叉树形式来组织。背景模型的训练方式如下:首先使用所有的声学特征训练一个背景模型作为二叉树的根节点,然后使用分裂法训练得到两个子节点背景模型,再对每个子节点进行分裂,如此循环,直到分裂满足停止条件,则停止分裂,待所有节点都停止分裂后,即得到二叉树形式的背景模型。
在自适应训练完成后,对所有的差值向量进行矢量量化,并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项。其中混合系数的含义与标准GMM混合系数的含义一致,混合项高斯模型的均值向量由其绑定的背景模型的均值加上其绑定的差值向量得到,其方差向量等于其绑定的背景模型的方差向量。
用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,从而简化GMM模型。依据简化的GMM模型,对GMM模型的某些参数进行预运算,并保存为新的混合系数参数,减少计算GMM模型声学得分时的计算量。
简化GMM模型的方法是,用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,具体数学公式如下:
标准GMM模型: N ( O | M ) = Σ m = 1 M C m N ( O | μ m , σ m 2 )
简化GMM模型: N ( O | M ) = Max m = 1 M { C m N ( O | μ m , σ m 2 ) }
依据简化的GMM模型,对GMM模型的某些参数进行预运算,并保存为新的混合系数参数,以下是GMM模型某一混合项的数学公式推导:
C m N ( O | μ m , σ m 2 ) = - C m 2 π | σ m 2 | e - ( x - μ m ) 2 2 σ m 2
log ( C m N ( O | μ m , σ m 2 ) ) = - log ( C m 2 π | σ m 2 | ) + 1 - 2 σ m 2 ( x - μ m ) 2
令新的混合系数为: C m ′ = - log ( C m 2 π | σ m 2 | )
令新的方差向量为: σ m ′ 2 = 1 - 2 σ m 2
则有: log ( C m N ( O | μ m , σ m 2 ) ) = C m ′ + σ m ′ 2 ( x - μ m ) 2
S2-词树生成
发音标注:把词表中的每一个词看作一个字符串,把字符串分隔为汉字串、字母串、数字串、其他符号,依据发音词典,对汉字串、字母串和数字串标注发音,忽略其他符号,把这些发音再按原顺序连接在一起,得到该词的发音单元序列。对词表中的每个词标注发音,得到一系列的发音单元序列,利用这些发音单元序列生成词树。
词树生成:词树的数据结构为平凡树,词树中除根节点和叶节点代表静音外,其余每个节点代表一个发音单元,从根节点出发到达叶节点的一天完整路径表示一个词或多个发音相同的词,词表中有多少个发音不同的词,词树中就有多少个这样的路径。用词树的根节点和叶节点代表静音的目的是允许语音指令前后带静音。
S3-前端处理
前端处理有两个功能,语音增强和语音端点检测。首先对信号进行语音增强处理,消除平稳背景噪声或缓慢渐变的非平稳噪声;然后进行语音端点检测,特征采用帧对数能量,由于语音增强处理后的背景噪音能量近似一个很小的常量,因此可以采用绝对门限来判断是否是语音。语音增强处理后的语音信号中可能会残留突发噪声,因此设定语音段最小长度门限,如果检测到的语音段小于该门限,则判断为突发噪声。由于语音前后部分的能量较弱,容易造成漏检,这通常会导致识别错误,由于语音识别器容许语音前后带静音,因此在语音端点检测过程中,分别把语音开始点向前扩展200毫秒,语音结束点向后扩展200毫秒。
S4-识别解码
识别解码部分,首先用与声学模型训练阶段一样的方法提取声学特征。提取完声学特征后,对声学特征序列进行归一化处理,然后送入识别器进行识别。
识别采用Viterbi-Beam宽度优先的帧同步搜索方法。对每一帧声学特征,首先计算其所有背景模型的声学得分,并对背景模型按声学得分高低排序。然后在二叉树上自上而下地对背景模型的声学得分进行退化处理,具体方法是:令根节点背景模型的退化得分等于其声学得分,如果子节点的声学得分低于父节点的退化得分,则将子节点的退化得分设为父节点的退化得分,否则子节点的退化得分等于其声学得分。
接下来计算所有由一个背景模型和矢量量化表中的一个差值向量所确定的高斯模型的声学得分,并将该声学得分保存于高斯得分缓存中。具体做法是:选择声学得分较高的若干个背景模型、以及其所有子节点背景模型,计算矢量量化表中每个差值向量与背景模型对应的声学得分差值,将该声学得分差值与背景模型的声学得分相加,得到对应高斯模型的声学得分,如果该得分小于背景模型的退化得分,则将该高斯模型的声学得分修改为背景模型的退化得分,并将之保存到高斯得分缓存中;对其余的背景模型,其跟矢量量化表中的任一差值向量所确定的高斯模型的声学得分不再运算,直接将对应的高斯得分缓存设为背景模型的退化得分。
下面介绍计算矢量量化表中每个差值向量与背景模型对应的声学得分差值的方法。以下是GMM模型某混合项的高斯模型的声学得分的数学公式推导:
σ m ′ 2 ( x - μ m ) 2 = σ m ′ 2 ( x - ( μ b + Δ μ i ) ) 2 = σ m ′ 2 ( x - μ b ) 2 + σ m ′ 2 ( ( Δ μ i ) 2 - 2 Δ μ i ( x - μ b ) )
其中σ′m 2(x-μb)2为背景模型的声学得分,σ′m 2((Δμi)2-2Δμi(x-μb))为差值向量Δμi对应的声学得分差值,两者相加,即得到GMM模型某混合项的高斯模型的声学得分。
然后利用背景模型声学得分排序信息、及GMM模型与背景模型的绑定信息进行快速高斯选择,在计算GMM模型的声学得分时,仅计算该GMM模型的若干个候选混合项的声学得分。GMM模型某混合项的声学得分的计算方法是:根据该混合项绑定的背景模型标号、与背景模型均值的差值向量标号,从高斯得分缓存中读取该混合项的高斯模型声学得分,将该得分与混合项的混合系数相加,即得到该混合项的声学得分。
基于二叉树多背景模型的快速高斯选择方法如下:根据GMM模型各混合项所绑定的背景模型的标号,再参照背景模型的排序信息,得到这些背景模型中声学得分为最高的背景模型标号,然后选择绑定该背景模型标号的一个或多个混合项作为待运算的混合项。
最后用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,从而简化GMM模型,避免计算量较大的指数运算和对数运算。
发明实例
为了说明本方法的有效性,下面用一个实验来比较本方法与CDHMM模型、混合绑定CDHMM模型(Tied Mixture CDHMM,TM-CDHMM)在识别率、识别速度、模型大小方面的区别。
训练数据:标注普通话纯净语音数据库,100男100女;南方口音语音数据库,50男50女;北方口音语音数据库,50男50女。
测试数据:自录的人命库,共500个人名,5男5女,每人100句,共1000个句子。
测试平台为ARM9处理器,主频200MHz。
模型参数为:GMM个数1528,GMM混合数16,TM-CDHMM的共享高斯个数为8192,本方法背景模型个数为255个,差值矢量量化表含256个向量。
以下是测试结果:
  识别正确率   识别速度   模型大小
  CDHMM   96.79%   13.20倍实时   30336KB
  TM-CDHMM   95.55%   9.64倍实时   2748KB
  本文方法   95.10%   0.92倍实时   776KB
附图说明
图1为本发明的框架示意图
图2为基于二叉树的背景模型示意图
图3为本发明的系统流程示意图
具体实施方式
下面结合附图对本发明做进一步说明。
图1为本发明的框架示意图,图3为本发明的系统流程示意图,如图1和图3所示,本系统主要由S1-声学模型训练、S2-词树生成、S3-前端处理、S4-识别解码四个部分组成,系统流程如下:
S1-声学模型训练部分流程如下:
1.S1-1,特征提取。按帧长25毫秒,帧移10毫秒提取12维MFCC特征,再加上1维能量特征,共13维静态特征。动态特征取一阶和二阶差分特征,得到39维的声学特征向量序列;
2.S1-2,训练背景模型;
3.S1-3,自适应训练GMM模型的参数;
4.S1-4,训练差值向量的矢量量化表,并对GMM模型参数进行矢量量化。
S2-词树生成部分流程如下:
1.S2-1,把词表中的每一个词看作一个字符串,把字符串分隔为汉字串、字母串、数字串、其他符号;
2.S2-2,依据发音词典,对汉字串、字母串和数字串标注发音,忽略其他符号,把这些发音再按原顺序连接在一起,得到该词的发音单元序列;
3.S2-3,对词表中的每个词标注发音,得到一系列的发音单元序列,利用这些发音单元序列生成词树。
S3-前端处理部分流程如下:
1.S3-1,对信号进行语音增强处理,消除平稳背景噪声或缓慢渐变的非平稳噪声;
2.S3-2,采用帧对数能量为特征,进行语音端点检测;
3.S3-3,如果检测到的语音段小于语音段最小长度门限,则判断为突发噪声,否则,将检测到语音送入识别器识别。
S4-识别解码部分流程如下:
1.步骤S4-1,参照步骤S1-1,提取声学特征序列;
2.步骤S4-2,进行Viterbi-Beam搜索,将声学得分最高的词作为最终识别结果。

Claims (8)

1.非特定人的嵌入式中英文混合语音识别方法,是一种非特定人的、支持中英文混合语言、面向计算和存储资源有限的嵌入式应用环境的语音识别方法,本方法由声学模型训练、词树生成、前端处理、及识别解码四个部分组成,其特征在于:
兼容中文和英文发音方式的声学建模单元集,基于海量语音数据训练的声学模型,使得非特定人的嵌入式中英文混合语音识别方法是非特定人的、并支持中英文语言混合识别;
采用二叉树形式组织的多背景模型,然后将声学模型中混合高斯模型(GMM)的每个混合项与多背景模型中的一个按最大似然准则绑定,对背景模型进行均值自适应训练得到混合项的均值参数,并将其与背景模型均值相减得到两者的差值向量;
在自适应训练完成后,对所有的差值向量进行矢量量化,并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项;
用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,从而简化GMM模型,依据简化的GMM模型,对GMM模型的参数进行预运算,并保存为新的混合系数参数,减少计算GMM模型声学得分时的计算量;
识别解码阶段,对每一帧声学特征,首先计算其所有背景模型的声学得分,并对背景模型按声学得分高低排序,然后在二叉树上自上而下地对背景模型的声学得分进行退化处理,具体方法是:令根节点背景模型的退化得分等于其声学得分,如果子节点的声学得分低于父节点的退化得分,则将子节点的退化得分设为父节点的退化得分,否则子节点的退化得分等于其声学得分;
接下来计算所有由一个背景模型和矢量量化表中的一个差值向量所确定的高斯模型的声学得分,并将该声学得分保存于高斯得分缓存中,具体做法是:选择声学得分较高的若干个背景模型、以及其所有子节点背景模型,计算矢量量化表中每个差值向量与背景模型对应的声学得分差值,将该声学得分差值与背景模型的声学得分相加,得到对应高斯模型的声学得分,如果该得分小于背景模型的退化得分,则将该高斯模型的声学得分修改为背景模型的退化得分,并将之保存到高斯得分缓存中;对其余的背景模型,其跟矢量量化表中的任一差值向量所确定的高斯模型的声学得分不再运算,直接将对应的高斯得分缓存设为背景模型的退化得分;
然后利用背景模型声学得分排序信息、及GMM模型与背景模型的绑定信息进行快速高斯选择,在计算GMM模型的声学得分时,仅计算该GMM模型的若干个候选混合项的声学得分,GMM模型某混合项的声学得分的计算方法是:根据该混合项绑定的背景模型标号、与背景模型均值的差值向量标号,从高斯得分缓存中读取该混合项的高斯模型声学得分,将 该得分与混合项的混合系数相加,即得到该混合项的声学得分;
最后用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,从而简化GMM模型,避免计算量较大的指数运算和对数运算。
2.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,声学建模单元集兼容中文和英文发音方式,是在英文音素集的基础上,扩展了英文中没有的中文发音单元,再加上静音单元构成。
3.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,使用了多个背景模型,每个背景模型均采用正态分布模型,所有背景模型采用二叉树形式来组织,背景模型的训练方式如下:首先使用所有的声学特征训练一个背景模型作为二叉树的根节点,然后使用分裂法训练得到两个子节点背景模型,再对每个子节点进行分裂,如此循环,直到分裂满足停止条件,则停止分裂,待所有节点都停止分裂后,即得到二叉树形式的背景模型。
4.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项,其中混合项高斯模型的均值向量由其绑定的背景模型的均值加上其绑定的差值向量得到,其方差向量等于其绑定的背景模型的方差向量。
5.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,简化GMM模型的方法是,用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,具体数学公式如下:
标准GMM模型:
Figure FSB00000569943300021
简化GMM模型:
Figure FSB00000569943300022
其中 
Figure FSB00000569943300023
表示第m个混合项概率分布函数,O表示观察值,μm表示第m个混合项的均值向量, 
Figure FSB00000569943300024
表示第m个混合项的对角均方差向量,Cm表示第m个混合项的混合系数,M表示GMM模型。
6.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,依据简化的GMM模型,对GMM模型的某些参数进行预运算,并保存为新的混合系数参数,以下是GMM模型第m个混合项的数学公式推导:
Figure FSB00000569943300025
Figure FSB00000569943300031
令新的混合系数为:
Figure FSB00000569943300032
令新的方差向量为:
则有:
Figure FSB00000569943300034
其中 
Figure FSB00000569943300035
表示第m个混合项概率分布函数,O表示观察值,μm表示第m个混合项的均值向量, 
Figure FSB00000569943300036
表示第m个混合项的对角均方差向量,Cm表示第m个混合项的混合系数,x表示当前语音特征向量。
7.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,计算矢量量化表中每个差值向量与背景模型对应的声学得分差值的方法,以下是GMM模型第m个混合项的高斯模型的声学得分的数学公式推导:
Figure FSB00000569943300037
其中 
Figure FSB00000569943300038
为背景模型的声学得分, 
Figure FSB00000569943300039
为Δμi对应的声学得分差值,两者相加,即得到GMM模型第m个混合项的高斯模型的声学得分,其中μb表示背景模型的均值向量,Δμi表示GMM模型第m个混合项的均值向量μm与μb的差值向量,μm表示第m个混合项的均值向量, 
Figure FSB000005699433000310
表示第m个混合项的新的方差向量,x表示当前语音特征向量。
8.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法,其特征在于,基于二叉树多背景模型的快速高斯选择方法,如下:根据GMM模型各混合项所绑定的背景模型的标号,再参照背景模型的排序信息,得到这些背景模型中声学得分为最高的背景模型标号,然后选择绑定该背景模型标号的一个或多个混合项作为待运算的混合项。 
CN2009101575984A 2009-07-16 2009-07-16 非特定人的嵌入式中英文混合语音识别方法及系统 Expired - Fee Related CN101604522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101575984A CN101604522B (zh) 2009-07-16 2009-07-16 非特定人的嵌入式中英文混合语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101575984A CN101604522B (zh) 2009-07-16 2009-07-16 非特定人的嵌入式中英文混合语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN101604522A CN101604522A (zh) 2009-12-16
CN101604522B true CN101604522B (zh) 2011-09-28

Family

ID=41470228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101575984A Expired - Fee Related CN101604522B (zh) 2009-07-16 2009-07-16 非特定人的嵌入式中英文混合语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN101604522B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826325B (zh) * 2010-03-10 2012-04-18 华为终端有限公司 对中英文语音信号进行识别的方法和装置
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统
CN105096944B (zh) * 2015-07-20 2017-11-03 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN108510976B (zh) * 2017-02-24 2021-03-19 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN108711420B (zh) * 2017-04-10 2021-07-09 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108682417B (zh) * 2018-05-14 2020-05-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
CN108682437B (zh) * 2018-05-18 2020-12-11 网易乐得科技有限公司 信息处理方法、装置、介质和计算设备
CN111369978B (zh) * 2018-12-26 2024-05-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1346126A (zh) * 2000-09-27 2002-04-24 中国科学院自动化研究所 一种带调三音子模型及训练方法
CN1521727A (zh) * 2003-01-27 2004-08-18 北京天朗语音科技有限公司 基于高斯相似度分析的说话人自适应方法
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN1787077A (zh) * 2005-12-13 2006-06-14 浙江大学 基于锚模型空间投影序数比较的快速说话人确认方法
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101123648A (zh) * 2006-08-11 2008-02-13 中国科学院声学研究所 电话语音识别中的自适应方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1346126A (zh) * 2000-09-27 2002-04-24 中国科学院自动化研究所 一种带调三音子模型及训练方法
CN1521727A (zh) * 2003-01-27 2004-08-18 北京天朗语音科技有限公司 基于高斯相似度分析的说话人自适应方法
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN1787077A (zh) * 2005-12-13 2006-06-14 浙江大学 基于锚模型空间投影序数比较的快速说话人确认方法
CN101123648A (zh) * 2006-08-11 2008-02-13 中国科学院声学研究所 电话语音识别中的自适应方法
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2004-279466A 2004.10.07

Also Published As

Publication number Publication date
CN101604522A (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN101604522B (zh) 非特定人的嵌入式中英文混合语音识别方法及系统
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN104143327B (zh) 一种声学模型训练方法和装置
CN102543071B (zh) 用于移动设备的语音识别系统和方法
US9697201B2 (en) Adapting machine translation data using damaging channel model
CN1667699B (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN103730115B (zh) 一种语音中检测关键词的方法和装置
CN101105894B (zh) 多功能语言学习机
CN104036774A (zh) 藏语方言识别方法及系统
CN109036391A (zh) 语音识别方法、装置及系统
CA2537503A1 (en) Unsupervised and active learning in automatic speech recognition for call classification
CN110782880B (zh) 一种韵律生成模型的训练方法及装置
CN103000052A (zh) 人机互动的口语对话系统及其实现方法
CN101604520A (zh) 基于统计模型和语法规则的口语语音识别方法
CN111192570B (zh) 语言模型训练方法、系统、移动终端及存储介质
CN107093425A (zh) 电力系统的语音导航系统、语音识别方法和语音交互方法
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN102651218A (zh) 用于创建语音标签的方法以及设备
CN110853669B (zh) 音频识别方法、装置及设备
CN104199811A (zh) 短句解析模型建立方法及系统
CN111968646A (zh) 一种语音识别方法及装置
CN115331658B (zh) 一种语音识别方法
CN101458927A (zh) 产生及侦测混淆音的方法及系统
Dhivya et al. Clause boundary identification for tamil language using dependency parsing
TWI731921B (zh) 語音識別方法及裝置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Sun Minxia

Document name: payment instructions

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110928

Termination date: 20200716