CN101447184A - 基于音素混淆的中英文双语语音识别方法 - Google Patents
基于音素混淆的中英文双语语音识别方法 Download PDFInfo
- Publication number
- CN101447184A CN101447184A CNA2008101105556A CN200810110555A CN101447184A CN 101447184 A CN101447184 A CN 101447184A CN A2008101105556 A CNA2008101105556 A CN A2008101105556A CN 200810110555 A CN200810110555 A CN 200810110555A CN 101447184 A CN101447184 A CN 101447184A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- chinese
- english
- bilingual
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 56
- 238000003066 decision tree Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。
Description
技术领域
本发明涉及双语语音识别方法,更具体地说,本发明涉及基于两遍音素聚类算法(TCM:Two-pass phone clustering method based on Confusion Matrix)的中英文双语识别方法。
背景技术
随着现代社会信息的全球化,双语以及多语通信成为越来越普遍的现象,这为语音识别技术带来了新的挑战。在双语识别中,主要存在的问题是说话人在讲母语的过程中会穿插进第二语言,并且插入的第二语言是带有说话人母语发音特点的(nonnative)。如何在保证语音识别系统对占主要地位的母语语音识别率的前提下,同时实现并提高对带有母语发音特点的第二语言的识别是双语识别研究的重点。
文献[1](Y.C.Chan,P.C.Ching,T.Lee and H.Cao"Automatic speech recognitionof Cantonese-English Code-Mixing utterances",9th International Conference on SpokenLanguage Processing(Interspeech 2006-ICSLP),pp.113-116,Pennsylvania,USA,September17-21,2006.)研究了广东话和英文的双语语音识别。在该研究中,为提高带有广东口音的英文识别率,录制了大量相应的语音数据进行训练,从而使得到的声学模型在识别带有广东口音的英文语音时性能有较大提高。但是,这样得到的识别系统非常依赖相应的训练数据,在现实生活中获取这样的母语口音数据是耗时耗资金的。当训练数据有限时,相应的识别系统的识别性能将大幅度下降。
在文献[2](S.Yu,S.Zhang,B.Xu,“Chinese-English bilingual phone modeling forcross-language speech recognition”,International Conference on Natural LanguageProcessing and Knowledge Engineering(ICASSP),pp.603-609,2003.)中,S.Yu等研究了中英双语识别系统。在该研究中,S.Yu利用对数似然度(log-likelihood)作为音素间相似测度,将中英文音素按照相似度聚类到统一音素集上。文章采用对数似然作为测度,从实验结果看到,统一音素集在中文和英文测试集上的识别率相比独立语言识别系统的识别率都有所下降。这里主要问题在于,对数似然准则是基于不同音素高斯模型下同一语音特征矢量序列的观察概率的聚类准则,而事实上仅由高斯模型下的观察概率决定两音素间的相似度是不可靠的。真正能够直接反映两音素混淆度大小(或者说相似度大小)的,是看解码器对语音特征矢量解码后,某一音素容易识别成其它音素的错误统计情况。
随着信息全球化,中国与世界的交流越来越频繁,外国语(特别是英语)的使用也越来越频繁。人们在交谈过程中插入英文词汇表达的现象日益普遍。这使得中英双语的语音识别研究成为必需。
发明内容
因此,本发明的目的在于提供一种基于音素混淆的中英文双语语音识别方法,该方法仅基于标准中文和英文语音数据提高带有中文口音的英文语音识别率,同时保证占主要地位的中文语音的识别性能。为了实现上述目的,本发明的基于音素混淆的中英文双语语音识别方法,包括如下步骤:
第一步,采集一定数量的中文语音和英文语音,利用两遍(Two-pass)音素聚类算法(TCM)统计得到中英文混淆矩阵;
第二步,用中文声学模型对中文语音数据进行一遍强制对齐,得到中文音素级分段信息,该信息称之为中文音素参考信息;
第三步,用英文声学模型对中文语音数据进行一遍解码,得到英文音素级分段信息,并称之为英文音素解码信息;
第四步,将第二步和第三步得到的不同语种音素的分段信息在时间上对齐,当某两个音素的重合时间大于预先设定的门限值时,认为这两个音素出现一次“同现”(co-occurrence),以图3为例,给出了中文音素“aa_ch”和英文音素“ae_en”之间的一次同现。
第五步,按照第四步的方法,统计出所有的同现情况并计算得到英文音素对应于中文音素的相似度矩阵。计算过程为:若设定M,N分别为中文和英文的音素数量,AS,T(M,N)为相似度矩阵,Ai,j则为矩阵的第ith行jth列元素,若给定英文音素tj和中文音素si,则英文音素对应于中文音素的相似度矩阵可由公式(1)得到:
其中Ai,j∈As,T(M,N),i=1......M,j=1......N。count(tj|si)表示中文音素si和英文音素tj之间的同现出现次数。
第六步,基于准备好的英文语音数据,相应的重复第二到第五步,得到中文音素对应于英文音素的相似度矩阵。
经过上述第五步和第六步的两遍计算后,生成两个相似度矩阵(Aman,eng,Aeng,man)。
第七步,将得到的两个相似度矩阵给与相等权重加权平均,得到最终的混淆度矩阵ATCM:
ATCM记录了来自不同语种间(在本文中特指中文和英文)任意两个音素的混淆程度。该过程利用“两遍(Two-pass)音素聚类算法(TCM)”,即分别对中文和英文都计算一次相似度矩阵后作加权平均。
第八步,得到混淆矩阵后,根据该矩阵进行音素聚类。如果ATCM矩阵中ith行jth列元素是整个矩阵中的最大元素,这意味着来自相应语言的音素ith和音素jth最为相似,因此音素ith和音素jth可以聚类成一类;接下来将已聚成一类的音素ith和音素jth从矩阵中移出,在余下的矩阵元素中重复进行上述过程,直到聚类数达到要求。
第九步,根据第八步得到的两种语言音素间的对应关系,将训练时需要的文本语料以及决策树等信息都映射到统一音素集上,基于这些文件和已有的标准中文、英文数据,重新进行训练就可以得到中英双语声学模型。
本发明所述的方法在上述的技术方案中,还可以增加第十步,根据音素间对应关系,整理解码时需要的中文和英文发音字典,再加上中英文双语声学模型即构成一套完整的双语识别系统。
该系统可实现对中文、英文和中英文混合语音的识别。
本发明的优点在于:
本发明的特点:(1)建立一个统一的双语混合声学模型,使其能够处理中英文句间转换(inter-sentence language switching)和句内转换(intra-sentence languageswitching),(2)提出一种新型基于混淆矩阵的两遍(Two-pass)音素聚类算法(TCM),(3)在仅依靠标准中文和英文训练数据的前提下,提高系统对中文口音的英文片断的识别。
在本发明的基于音素混淆的中英文双语语音识别方法,采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能。
本发明的系统实现了使用一套系统识别中文、英文以及中英文并存的语音片断。相比分别用两套独立系统进行识别,中英文双语识别系统不需要事先对语种进行判断。由于对两种语言间的一部分音素进行了聚类,在模型规模上也得到降低。我们进行了大量实网数据的测试,结果显示在识别性能方面,由于该系统在音素集上的聚类信息是基于解码器输出的音素序列错误情况进行统计得到的,这种准则更为直接,更能真实的反映出两种语言音素间的混淆程度,所以相比目前常见的利用对数似然准则进行音素聚类的双语识别系统,基于TCM音素混淆的中英文双语语音识别系统对中文、英文以及中英文并存的语音片断的识别率皆有稳定提高。与独立语言识别系统相比,基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;而在对带有中文口音的英文片断的识别中,虽然该系统并没有中文口音的英文数据的额外加入,但由于TCM音素混淆本身完成了中文和英文数据的部分复用,使双语混合模型的英文音素模型部分带有了中文发音的特点,从而在仅有标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况明显优于独立英文语音识别系统。
附图说明
图1是基于两遍音素聚类算法TCM的中英文双语识别系统的基本原理框图;
图2是基于两遍音素聚类算法TCM的中英文双语识别系统的具体实施流程框图;
图3是中文音素“aa_ch”和英文音素“ae_en”之间的一次“同现”例图(为可区分中英文音素,中文音素皆带后缀“_ch”,英文音素带后缀“_en”)。
附图标记
1 中文语音接口 2 英文语音接口
3 中文模型模块 4 英文模型模块
5 中文音素强制对齐模块 6 英文音素解码模块
7 英文音素与中文音素相似度计算模块
8 英文音素强制对齐模块 9 中文音素解码模块
10 中文音素与英文音素相似度计算模块
11 中英文音素混淆矩阵计算模块
12 中英文混合声学模型模块 13 混合发音字典模块
14 中文语音解码模块 15 英文语音解码模块
16 中英文混合语音解码模块
具体实施方式
图1是基于两遍音素聚类算法TCM的中英文双语识别系统的基本原理框图,它描述了音素聚类算法的核心组成成分,主要由几个部分构成:中文/英文语音、中文/英文模型、强制对齐、解码、音素混淆矩阵生成以及中英文混合模型训练。图2是基于两遍音素聚类算法TCM的中英文双语识别系统的具体实施流程框图。
下面结合图1以及图2对本发明的具体实施方式做进一步详细描述:
本发明涉及的基于两遍音素聚类算法TCM的中英文双语识别系统的核心技术在于两遍(Two-pass)音素聚类算法TCM(模块1到11)。TCM是一种新型的基于混淆矩阵的音素聚类算法,通过两遍计算(Two-pass),得到两种语言音素间的对应关系,利用该关系确定需要聚类的音素对。
本发明的方法中,中文和英文将交替作为源语言和目标语言进行两遍计算(Two-pass)。具体计算流程如下:
第一步,目标语言音素参考答案:选择一定量的目标语言训练数据(中文语音接口1或者英文语音接口2),这些数据用于生成源语言对目标语言的混淆概率值。用目标语言声学模型(中文模型模块3或者英文模型模块4)对这些数据进行强制对齐(Force-align),得到目标音素序列,同时记录下每个音素的时间信息(中文音素强制对齐模块5或者英文音素强制对齐模块8)。
第二步,中文音素-源语言识别结果:用中文声学模型(中文模型模块3)对第一步中的英文数据进行解码(Decode),得到中文音素序列,同时记录下每个音素的时间信息(中文音素解码模块9)。
第三步,英文音素-源语言识别结果:用英文声学模型(英文模型模块4)对第一步中的中文数据进行解码(Decode),得到英文音素序列,同时记录下每个音素的时间信息(英文音素解码模块6)。
第四步,“同现”准则:通过第一步、第二步和第三步,在同一批目标语言训练数据上,分别得到了目标语言和源语言的音素序列以及相应的时间段信息,根据这两个音素序列在时间轴上的位置关系,可以定义两个音素的“同现”现象。在计算“同现”前,首先定义一个“同现”矩阵,该矩阵为(源语言音素个数*目标语言音素个数)的矩阵,每个元素位置上记录了对应行和列的音素之间的“同现”次数。在本发明所述方法的实验中,定义当两个音素在时间段上重叠的时间占到目标语言音素持续时间一半时,算作一次“同现”。当目标语言音素ith和源语言音素jth出现一次“同现”时,在对应同现矩阵的ith行jth列的位置上加1记录。如图3所示,以中文作为目标语言时,中文音素“aa_ch”和英文音素“ae_en”出现的一次“同现”。
第五步,音素相似度计算(英文音素与中文音素相似度计算模块7或者中文音素与英文音素相似度计算模块10):若设定M,N分别为源语言和目标语言音素个数,AS,T(M,N)为从同现矩阵派生出来的矩阵,矩阵元素记录了源语言和目标语言音素之间的相似度情况。Ai,j为矩阵ith行jth列的元素,设定tj为目标语言音素,si为源语言音素,两者之间的相似度计算为:
其中,Ai,j∈AS,T(M,N),i=1......M,j=1......N。
第六步,混淆矩阵(中英文音素混淆矩阵计算模块11):第一步到第五步实现了音素聚类的第一遍计算,如果设定中文为源语言,经过上述步骤即得到(中文音素*英文音素)的相似度矩阵;然后交换中英文语言地位,将英文设为源语言重复进行一次上述过程得到(英文音素*中文音素)的相似度矩阵。经过两遍计算后,生成两个相似度矩阵(Aman,eng,Aeng,man)。
第七步,由上述两个矩阵加权得到最后的混淆矩阵:
第八步,得到混淆矩阵后,根据该矩阵进行音素聚类。如果ATCM矩阵中ith行jth列元素是整个矩阵中的最大元素,这意味着来自相应语言的音素jth和音素jth最为相似,因此音素ith和音素jth可以聚类成一类;接下来将已聚成一类的音素ith和音素jth从矩阵中移出,在余下的矩阵元素中重复进行上述过程,直到聚类数达到要求。
到此,我们基于两遍音素聚类算法TCM,完成了双语间的音素聚类过程,得到了统一的音素集和相应的聚类信息。
第九步,接下来根据得到的两种语言音素间的对应关系,将训练时需要的文本语料以及决策树等信息都映射到统一音素集上,基于这些文件和已有的标准中文、英文数据,重新进行一次标准声学模型训练就可以得到中英双语声学模型(中英文混合声学模型模块12)。然后根据音素间对应关系,整理解码时需要的中文和英文发音字典(混合发音字典模块13),与已训练好的中英文双语声学模型一起构成一套完整的双语识别系统。该系统可实现对中文语音(中文语音解码模块14)、英文语音(英文语音解码模块15)和中英文混合语音(中英文语音解码模块16)的识别。
在进行的基于给定语法的实网数据测试中显示,基于两遍音素聚类算法TCM的中英文双语识别系统在纯英文测试集上的错误率相对独立英文识别系统下降7%-8%(相对值);在纯中文测试集上基本保持了独立中文语音识别系统的识别率。在与目前常见的利用对数似然准则进行音素聚类的双语识别系统的比较中,基于两遍音素聚类算法TCM的中英文双语识别系统在纯英文测试集上的错误率相对降低5%-6%;在纯中文测试集上的错误率相对降低<0.5%;在中英文混合测试集上的错误率相对降低12%-13%。
Claims (5)
1、一种基于音素混淆的中英文双语语音识别方法,包括如下步骤:
第一步,采集一定数量的中文语音和英文语音,利用两遍音素聚类算法统计得到中英文混淆矩阵;
第二步,用中文声学模型对中文语音数据进行一遍强制对齐,得到中文音素级分段信息,并称之为中文音素参考信息;
第三步,用英文声学模型对中文语音数据进行一遍解码,得到英文音素级分段信息,并称之为英文音素解码信息;
第四步,将第二步和第三步得到的不同语种音素的分段信息在时间上对齐,当某两个音素的重合时间大于预先设定的门限值时,则认为这两个音素出现一次“同现”;
第五步,按照第四步的方法,统计出所有的同现情况并计算得到英文音素对应于中文音素的相似度矩阵;
第六步,基于准备好的英文语音数据,相应的重复第二至第五步,获取中文音素对应于英文音素的相似度矩阵;
第七步,将经过上述第五步和第六步的两遍计算后得到的两个相似度矩阵给与相等权重加权平均,得到最终的混淆度矩阵;
第八步,得到混淆矩阵后,根据该矩阵进行音素聚类;
第九步,根据第八步得到的两种语言音素间的对应关系,将训练时需要的文本语料以及决策树等信息都映射到统一音素集上,基于这些文件和已有的标准中文、英文数据,重新进行训练从而得到中英双语声学模型。
2、按权利要求1所述的基于音素混淆的中英文双语语音识别方法,其特征在于,还包括:
第十步,根据音素间对应关系,整理解码时需要的中文和英文发音字典,与中英文双语声学模型一起构成一套完整的双语识别系统。
3、按权利要求1所述的基于音素混淆的中英文双语语音识别方法,其特征在于,
所述第五步中的计算过程为:若设定M,N分别为中文和英文的音素数量,AS,T(M,N)为相似度矩阵,Ai,j则为矩阵的第ith行jth列元素,若给定英文音素tj和中文音素si,则英文音素对应于中文音素的相似度矩阵可由公式(1)得到:
其中,Ai,j∈AS,T(M,N),i=1......M,j=1......N。count(tj|si)表示中文音素si和英文音素tj之间的同现出现次数。
4、按权利要求1所述的基于音素混淆的中英文双语语音识别方法,其特征在于,所述第七步中获得的最终混淆度矩阵ATCM为:
其中,ATCM记录了来自中文和英文间任意两个音素的混淆程度,该过程利用“两遍音素聚类算法”完成,即,分别对中文和英文都计算一次相似度矩阵后作加权平均。
5、按权利要求1所述的基于音素混淆的中英文双语语音识别方法,其特征在于,
所述第八步中的聚类过程为:若ATCM矩阵中ith行jth列元素是整个矩阵中的最大元素,则认为来自相应语言的音素ith和音素jth最为相似,从而将音素ith和音素jth聚类成一类;接下来将已聚成一类的音素ith和音素jth从矩阵中移出,在余下的矩阵元素中重复进行上述过程,直到聚类数达到要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101105556A CN101447184B (zh) | 2007-11-28 | 2008-06-03 | 基于音素混淆的中英文双语语音识别方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710195418.2 | 2007-11-28 | ||
CN200710195418 | 2007-11-28 | ||
CN2008101105556A CN101447184B (zh) | 2007-11-28 | 2008-06-03 | 基于音素混淆的中英文双语语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101447184A true CN101447184A (zh) | 2009-06-03 |
CN101447184B CN101447184B (zh) | 2011-07-27 |
Family
ID=40742824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101105556A Expired - Fee Related CN101447184B (zh) | 2007-11-28 | 2008-06-03 | 基于音素混淆的中英文双语语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101447184B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN104575497A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种声学模型建立方法及基于该模型的语音解码方法 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
CN106663422A (zh) * | 2014-07-24 | 2017-05-10 | 哈曼国际工业有限公司 | 利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107195295A (zh) * | 2017-05-04 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107301860A (zh) * | 2017-05-04 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107731228A (zh) * | 2017-09-20 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
CN107767858A (zh) * | 2017-09-08 | 2018-03-06 | 科大讯飞股份有限公司 | 发音词典生成方法及装置、存储介质、电子设备 |
CN108510978A (zh) * | 2018-04-18 | 2018-09-07 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
CN109712643A (zh) * | 2019-03-13 | 2019-05-03 | 北京精鸿软件科技有限公司 | 语音评价的方法和装置 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110517668A (zh) * | 2019-07-23 | 2019-11-29 | 普强信息技术(北京)有限公司 | 一种中英文混合语音识别系统及方法 |
CN110675855A (zh) * | 2019-10-09 | 2020-01-10 | 出门问问信息科技有限公司 | 一种语音识别方法、电子设备及计算机可读存储介质 |
CN110675854A (zh) * | 2019-08-22 | 2020-01-10 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN110808034A (zh) * | 2019-10-31 | 2020-02-18 | 北京大米科技有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN111489742A (zh) * | 2019-01-28 | 2020-08-04 | 北京猎户星空科技有限公司 | 声学模型训练方法、语音识别方法、装置及电子设备 |
CN111489735A (zh) * | 2020-04-22 | 2020-08-04 | 北京声智科技有限公司 | 语音识别模型训练方法及装置 |
CN111640452A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111916062A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置和系统 |
CN113744718A (zh) * | 2020-05-27 | 2021-12-03 | 海尔优家智能科技(北京)有限公司 | 语音文本的输出方法及装置、存储介质、电子装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229590A (ja) * | 2001-02-01 | 2002-08-16 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
US7587321B2 (en) * | 2001-05-08 | 2009-09-08 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system |
-
2008
- 2008-06-03 CN CN2008101105556A patent/CN101447184B/zh not_active Expired - Fee Related
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
CN103309926A (zh) * | 2013-03-12 | 2013-09-18 | 中国科学院声学研究所 | 基于条件随机场的中英文混合命名实体识别方法及系统 |
CN104575497B (zh) * | 2013-10-28 | 2017-10-03 | 中国科学院声学研究所 | 一种声学模型建立方法及基于该模型的语音解码方法 |
CN104575497A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种声学模型建立方法及基于该模型的语音解码方法 |
CN106663422A (zh) * | 2014-07-24 | 2017-05-10 | 哈曼国际工业有限公司 | 利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别 |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
CN106297773B (zh) * | 2015-05-29 | 2019-11-19 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN105161092B (zh) * | 2015-09-17 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107301860A (zh) * | 2017-05-04 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107195295A (zh) * | 2017-05-04 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107767858A (zh) * | 2017-09-08 | 2018-03-06 | 科大讯飞股份有限公司 | 发音词典生成方法及装置、存储介质、电子设备 |
CN107731228A (zh) * | 2017-09-20 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
US10755701B2 (en) | 2017-09-20 | 2020-08-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for converting English speech information into text |
CN108510978A (zh) * | 2018-04-18 | 2018-09-07 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
CN108510978B (zh) * | 2018-04-18 | 2020-08-21 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
CN111489742A (zh) * | 2019-01-28 | 2020-08-04 | 北京猎户星空科技有限公司 | 声学模型训练方法、语音识别方法、装置及电子设备 |
CN111640452A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111640452B (zh) * | 2019-03-01 | 2024-05-07 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN109712643A (zh) * | 2019-03-13 | 2019-05-03 | 北京精鸿软件科技有限公司 | 语音评价的方法和装置 |
CN111916062A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置和系统 |
CN110517668B (zh) * | 2019-07-23 | 2022-09-27 | 普强时代(珠海横琴)信息技术有限公司 | 一种中英文混合语音识别系统及方法 |
CN110517668A (zh) * | 2019-07-23 | 2019-11-29 | 普强信息技术(北京)有限公司 | 一种中英文混合语音识别系统及方法 |
CN110675854A (zh) * | 2019-08-22 | 2020-01-10 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN110675854B (zh) * | 2019-08-22 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN110675855B (zh) * | 2019-10-09 | 2022-03-25 | 出门问问信息科技有限公司 | 一种语音识别方法、电子设备及计算机可读存储介质 |
CN110675855A (zh) * | 2019-10-09 | 2020-01-10 | 出门问问信息科技有限公司 | 一种语音识别方法、电子设备及计算机可读存储介质 |
CN110808034A (zh) * | 2019-10-31 | 2020-02-18 | 北京大米科技有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN111489735A (zh) * | 2020-04-22 | 2020-08-04 | 北京声智科技有限公司 | 语音识别模型训练方法及装置 |
CN111489735B (zh) * | 2020-04-22 | 2023-05-16 | 北京声智科技有限公司 | 语音识别模型训练方法及装置 |
CN113744718A (zh) * | 2020-05-27 | 2021-12-03 | 海尔优家智能科技(北京)有限公司 | 语音文本的输出方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101447184B (zh) | 2011-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101447184B (zh) | 基于音素混淆的中英文双语语音识别方法 | |
Kirchhoff et al. | Novel approaches to Arabic speech recognition: report from the 2002 Johns-Hopkins summer workshop | |
He et al. | Why word error rate is not a good metric for speech recognizer training for the speech translation task? | |
CN101739867B (zh) | 运用计算机对口语翻译质量进行评分的方法 | |
CN102201235A (zh) | 发音词典的构建方法和系统 | |
CN105261246B (zh) | 一种基于大数据挖掘技术的英语口语纠错系统 | |
CN105957518A (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
CN101650943A (zh) | 一种非母语语音识别系统及方法 | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
Chen et al. | Improved pronunciation features for construct-driven assessment of non-native spontaneous speech | |
Goel et al. | Approaches to automatic lexicon learning with limited training examples | |
CN112489618A (zh) | 利用多级别上下文特征的神经文本到语音合成 | |
Yan et al. | End-to-end mispronunciation detection and diagnosis from raw waveforms | |
CN102436815B (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
Egorova et al. | Out-of-vocabulary word recovery using fst-based subword unit clustering in a hybrid asr system | |
CN103810993A (zh) | 一种文本注音方法及装置 | |
Ying et al. | A unified front-end framework for English text-to-speech synthesis | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models | |
Evans et al. | Developing automatic speech recognition for Scottish Gaelic | |
Penagarikano et al. | Semisupervised training of a fully bilingual ASR system for Basque and Spanish | |
CN115171647A (zh) | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 | |
KR20130067854A (ko) | 코퍼스 기반 언어모델 변별학습 방법 및 그 장치 | |
Wang et al. | Tone recognition of continuous mandarin speech based on tone nucleus model and neural network | |
CN202307118U (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
Zuluaga-Gomez et al. | A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers. Aerospace 2023, 10, 490 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110727 |