CN101447184B - 基于音素混淆的中英文双语语音识别方法 - Google Patents

基于音素混淆的中英文双语语音识别方法 Download PDF

Info

Publication number
CN101447184B
CN101447184B CN2008101105556A CN200810110555A CN101447184B CN 101447184 B CN101447184 B CN 101447184B CN 2008101105556 A CN2008101105556 A CN 2008101105556A CN 200810110555 A CN200810110555 A CN 200810110555A CN 101447184 B CN101447184 B CN 101447184B
Authority
CN
China
Prior art keywords
phoneme
chinese
english
bilingual
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101105556A
Other languages
English (en)
Other versions
CN101447184A (zh
Inventor
颜永红
张晴晴
潘接林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN2008101105556A priority Critical patent/CN101447184B/zh
Publication of CN101447184A publication Critical patent/CN101447184A/zh
Application granted granted Critical
Publication of CN101447184B publication Critical patent/CN101447184B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。

Description

基于音素混淆的中英文双语语音识别方法
技术领域
本发明涉及双语语音识别方法,更具体地说,本发明涉及基于两遍音素聚类算法(TCM:Two-pass phone clustering method based on Confusion Matrix)的中英文双语识别方法。
背景技术
随着现代社会信息的全球化,双语以及多语通信成为越来越普遍的现象,这为语音识别技术带来了新的挑战。在双语识别中,主要存在的问题是说话人在讲母语的过程中会穿插进第二语言,并且插入的第二语言是带有说话人母语发音特点的(nonnative)。如何在保证语音识别系统对占主要地位的母语语音识别率的前提下,同时实现并提高对带有母语发音特点的第二语言的识别是双语识别研究的重点。
文献[1](Y.C.Chan,P.C.Ching,T.Lee and H.Cao″Automatic speech recognitionof Cantonese-English Code-Mixing utterances″,9th International Conference on SpokenLanguage Processing(Interspeech 2006-ICSLP),pp.113-116,Pennsylvania,USA,September 17-21,2006.)研究了广东话和英文的双语语音识别。在该研究中,为提高带有广东口音的英文识别率,录制了大量相应的语音数据进行训练,从而使得到的声学模型在识别带有广东口音的英文语音时性能有较大提高。但是,这样得到的识别系统非常依赖相应的训练数据,在现实生活中获取这样的母语口音数据是耗时耗资金的。当训练数据有限时,相应的识别系统的识别性能将大幅度下降。
在文献[2](S.Yu,S.Zhang,B.Xu,“Chinese-English bilingual phone modeling forcross-language speech recognition”,International Conference on Natural LanguageProcessing and Knowledge Engineering(ICASSP),pp.603-609,2003.)中,S.Yu等研究了中英双语识别系统。在该研究中,S.Yu利用对数似然度(log-likelihood)作为音素间相似测度,将中英文音素按照相似度聚类到统一音素集上。文章采用对数似然作为测度,从实验结果看到,统一音素集在中文和英文测试集上的识别率相比独立语言识别系统的识别率都有所下降。这里主要问题在于,对数似然准则是基于不同音素高斯模型下同一语音特征矢量序列的观察概率的聚类准则,而事实上仅由高斯模型下的观察概率决定两音素间的相似度是不可靠的。真正能够直接反映两音素混淆度大小(或者说相似度大小)的,是看解码器对语音特征矢量解码后,某一音素容易识别成其它音素的错误统计情况。
随着信息全球化,中国与世界的交流越来越频繁,外国语(特别是英语)的使用也越来越频繁。人们在交谈过程中插入英文词汇表达的现象日益普遍。这使得中英双语的语音识别研究成为必需。
发明内容
因此,本发明的目的在于提供一种基于音素混淆的中英文双语语音识别方法,该方法仅基于标准中文和英文语音数据提高带有中文口音的英文语音识别率,同时保证占主要地位的中文语音的识别性能。为了实现上述目的,本发明的基于音素混淆的中英文双语语音识别方法,包括如下步骤:
第一步,采集一定数量的中文语音和英文语音,利用两遍(Two-pass)音素聚类算法(TCM)统计得到中英文混淆矩阵;
第二步,用中文声学模型对中文语音数据进行一遍强制对齐,得到中文音素级分段信息,该信息称之为中文音素参考信息;
第三步,用英文声学模型对中文语音数据进行一遍解码,得到英文音素级分段信息,并称之为英文音素解码信息;
第四步,将第二步和第三步得到的不同语种音素的分段信息在时间上对齐,当某两个音素的重合时间大于预先设定的门限值时,认为这两个音素出现一次“同现”(co-occurrence),以图3为例,给出了中文音素“aa_ch”和英文音素“ae_en”之间的一次同现。
第五步,按照第四步的方法,统计出所有的同现情况并计算得到英文音素对应于中文音素的相似度矩阵。计算过程为:若设定M,N分别为中文和英文的音素数量,AS,T(M,N)为相似度矩阵,Ai,j则为矩阵的第ith行jth列元素,若给定英文音素tj和中文音素si,则英文音素对应于中文音素的相似度矩阵可由公式(1)得到:
A i , j = count ( t j | s i ) Σ n = 1 N count ( t n | s i ) - - - ( 1 )
其中Ai,j∈AS,T(M,N),i=1......M,j=1......N。count(tj|si)表示中文音素si和英文音素tj之间的同现出现次数。
第六步,基于准备好的英文语音数据,相应的重复第二到第五步,得到中文音素对应于英文音素的相似度矩阵。
经过上述第五步和第六步的两遍计算后,生成两个相似度矩阵(Aman,eng,Aeng,man)。
第七步,将得到的两个相似度矩阵给与相等权重加权平均,得到最终的混淆度矩阵ATCM
A TCM = 1 2 ( A man , eng + A eng , man T ) - - - ( 4 )
ATCM记录了来自不同语种间(在本文中特指中文和英文)任意两个音素的混淆程度。该过程利用“两遍(Two-pass)音素聚类算法(TCM)”,即分别对中文和英文都计算一次相似度矩阵后作加权平均。
第八步,得到混淆矩阵后,根据该矩阵进行音素聚类。如果ATCM矩阵中ith行jth列元素是整个矩阵中的最大元素,这意味着来自相应语言的音素ith和音素jth最为相似,因此音素ith和音素jth可以聚类成一类;接下来将已聚成一类的音素ith和音素jth从矩阵中移出,在余下的矩阵元素中重复进行上述过程,直到聚类数达到要求。
第九步,根据第八步得到的两种语言音素间的对应关系,将训练时需要的文本语料以及决策树等信息都映射到统一音素集上,基于这些文件和已有的标准中文、英文数据,重新进行训练就可以得到中英双语声学模型。
本发明所述的方法在上述的技术方案中,还可以增加第十步,根据音素间对应关系,整理解码时需要的中文和英文发音字典,再加上中英文双语声学模型即构成一套完整的双语识别系统。
该系统可实现对中文、英文和中英文混合语音的识别。
本发明的优点在于:
本发明的特点:(1)建立一个统一的双语混合声学模型,使其能够处理中英文句间转换(inter-sentence language switching)和句内转换(intra-sentence languageswitching),(2)提出一种新型基于混淆矩阵的两遍(Two-pass)音素聚类算法(TCM),(3)在仅依靠标准中文和英文训练数据的前提下,提高系统对中文口音的英文片断的识别。
在本发明的基于音素混淆的中英文双语语音识别方法,采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能。
本发明的系统实现了使用一套系统识别中文、英文以及中英文并存的语音片断。相比分别用两套独立系统进行识别,中英文双语识别系统不需要事先对语种进行判断。由于对两种语言间的一部分音素进行了聚类,在模型规模上也得到降低。我们进行了大量实网数据的测试,结果显示在识别性能方面,由于该系统在音素集上的聚类信息是基于解码器输出的音素序列错误情况进行统计得到的,这种准则更为直接,更能真实的反映出两种语言音素间的混淆程度,所以相比目前常见的利用对数似然准则进行音素聚类的双语识别系统,基于TCM音素混淆的中英文双语语音识别系统对中文、英文以及中英文并存的语音片断的识别率皆有稳定提高。与独立语言识别系统相比,基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;而在对带有中文口音的英文片断的识别中,虽然该系统并没有中文口音的英文数据的额外加入,但由于TCM音素混淆本身完成了中文和英文数据的部分复用,使双语混合模型的英文音素模型部分带有了中文发音的特点,从而在仅有标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况明显优于独立英文语音识别系统。
附图说明
图1是基于两遍音素聚类算法TCM的中英文双语识别系统的基本原理框图;
图2是基于两遍音素聚类算法TCM的中英文双语识别系统的具体实施流程框图;
图3是中文音素“aa_ch”和英文音素“ae_en”之间的一次“同现”例图(为可区分中英文音素,中文音素皆带后缀“_ch”,英文音素带后缀“_en”)。
附图标记
1中文语音接口            2英文语音接口
3中文模型模块            4英文模型模块
5中文音素强制对齐模块    6英文音素解码模块
7英文音素与中文音素相似度计算模块
8英文音素强制对齐模块        9中文音素解码模块
10中文音素与英文音素相似度计算模块
11中英文音素混淆矩阵计算模块
12中英文混合声学模型模块     13混合发音字典模块
14中文语音解码模块           15英文语音解码模块
16中英文混合语音解码模块
具体实施方式
图1是基于两遍音素聚类算法TCM的中英文双语识别系统的基本原理框图,它描述了音素聚类算法的核心组成成分,主要由几个部分构成:中文/英文语音、中文/英文模型、强制对齐、解码、音素混淆矩阵生成以及中英文混合模型训练。图2是基于两遍音素聚类算法TCM的中英文双语识别系统的具体实施流程框图。
下面结合图1以及图2对本发明的具体实施方式做进一步详细描述:
本发明涉及的基于两遍音素聚类算法TCM的中英文双语识别系统的核心技术在于两遍(Two-pass)音素聚类算法TCM(模块1到11)。TCM是一种新型的基于混淆矩阵的音素聚类算法,通过两遍计算(Two-pass),得到两种语言音素间的对应关系,利用该关系确定需要聚类的音素对。
本发明的方法中,中文和英文将交替作为源语言和目标语言进行两遍计算(Two-pass)。具体计算流程如下:
第一步,目标语言音素参考答案:选择一定量的目标语言训练数据(中文语音接口1或者英文语音接口2),这些数据用于生成源语言对目标语言的混淆概率值。用目标语言声学模型(中文模型模块3或者英文模型模块4)对这些数据进行强制对齐(Force-align),得到目标音素序列,同时记录下每个音素的时间信息(中文音素强制对齐模块5或者英文音素强制对齐模块8)。
第二步,中文音素-源语言识别结果:用中文声学模型(中文模型模块3)对第一步中的英文数据进行解码(Decode),得到中文音素序列,同时记录下每个音素的时间信息(中文音素解码模块9)。
第三步,英文音素-源语言识别结果:用英文声学模型(英文模型模块4)对第一步中的中文数据进行解码(Decode),得到英文音素序列,同时记录下每个音素的时间信息(英文音素解码模块6)。
第四步,“同现”准则:通过第一步、第二步和第三步,在同一批目标语言训练数据上,分别得到了目标语言和源语言的音素序列以及相应的时间段信息,根据这两个音素序列在时间轴上的位置关系,可以定义两个音素的“同现”现象。在计算“同现”前,首先定义一个“同现”矩阵,该矩阵为(源语言音素个数*目标语言音素个数)的矩阵,每个元素位置上记录了对应行和列的音素之间的“同现”次数。在本发明所述方法的实验中,定义当两个音素在时间段上重叠的时间占到目标语言音素持续时间一半时,算作一次“同现”。当目标语言音素ith和源语言音素jth出现一次“同现”时,在对应同现矩阵的ith行jth列的位置上加1记录。如图3所示,以中文作为目标语言时,中文音素“aa_ch”和英文音素“ae_en”出现的一次“同现”。
第五步,音素相似度计算(英文音素与中文音素相似度计算模块7或者中文音素与英文音素相似度计算模块10):若设定M,N分别为源语言和目标语言音素个数,AS,T(M,N)为从同现矩阵派生出来的矩阵,矩阵元素记录了源语言和目标语言音素之间的相似度情况。Ai,j为矩阵ith行jth列的元素,设定tj为目标语言音素,si为源语言音素,两者之间的相似度计算为:
A i , j = count ( t j | s i ) Σ n = 1 N count ( t n | s i ) - - - ( 3 )
其中,Ai,j∈AS,T(M,N),i=1......M,j=1......N。
第六步,混淆矩阵(中英文音素混淆矩阵计算模块11):第一步到第五步实现了音素聚类的第一遍计算,如果设定中文为源语言,经过上述步骤即得到(中文音素*英文音素)的相似度矩阵;然后交换中英文语言地位,将英文设为源语言重复进行一次上述过程得到(英文音素*中文音素)的相似度矩阵。经过两遍计算后,生成两个相似度矩阵(Aman,eng,Aeng,man)。
第七步,由上述两个矩阵加权得到最后的混淆矩阵:
A TCM = 1 2 ( A man , eng + A eng , man T ) - - - ( 4 )
第八步,得到混淆矩阵后,根据该矩阵进行音素聚类。如果ATCM矩阵中ith行jth列元素是整个矩阵中的最大元素,这意味着来自相应语言的音素ith和音素jth最为相似,因此音素ith和音素jth可以聚类成一类;接下来将已聚成一类的音素ith和音素jth从矩阵中移出,在余下的矩阵元素中重复进行上述过程,直到聚类数达到要求。
到此,我们基于两遍音素聚类算法TCM,完成了双语间的音素聚类过程,得到了统一的音素集和相应的聚类信息。
第九步,接下来根据得到的两种语言音素间的对应关系,将训练时需要的文本语料以及决策树等信息都映射到统一音素集上,基于这些文件和已有的标准中文、英文数据,重新进行一次标准声学模型训练就可以得到中英双语声学模型(中英文混合声学模型模块12)。然后根据音素间对应关系,整理解码时需要的中文和英文发音字典(混合发音字典模块13),与已训练好的中英文双语声学模型一起构成一套完整的双语识别系统。该系统可实现对中文语音(中文语音解码模块14)、英文语音(英文语音解码模块15)和中英文混合语音(中英文语音解码模块16)的识别。
在进行的基于给定语法的实网数据测试中显示,基于两遍音素聚类算法TCM的中英文双语识别系统在纯英文测试集上的错误率相对独立英文识别系统下降7%-8%(相对值);在纯中文测试集上基本保持了独立中文语音识别系统的识别率。在与目前常见的利用对数似然准则进行音素聚类的双语识别系统的比较中,基于两遍音素聚类算法TCM的中英文双语识别系统在纯英文测试集上的错误率相对降低5%-6%;在纯中文测试集上的错误率相对降低<0.5%;在中英文混合测试集上的错误率相对降低12%-13%。

Claims (2)

1.一种基于音素混淆的中英文双语语音识别方法,将中文和英文交替作为源语言和目标语言进行两遍音素聚类计算,包括如下步骤:
第一步,首先采集一定数量的中文语音和英文语音;
第二步,设定中文为源语言,英文为目标语言,用中文声学模型对中文语音数据进行一遍强制对齐,得到中文音素级分段信息,并称之为中文音素参考信息;
第三步,用英文声学模型对中文语音数据进行一遍解码,得到英文音素级分段信息,并称之为英文音素解码信息;
第四步,将第二步和第三步得到的不同语种音素的分段信息在时间上对齐,当某两个音素的重合时间大于预先设定的门限值时,则认为这两个音素出现一次“同现”;
第五步,按照第四步的方法,统计出所有的同现情况并计算得到英文音素对应于中文音素的相似度矩阵,计算过程为:若设定M,N分别为中文和英文的音素数量,AS,T(M,N)为相似度矩阵,Ai,j则为矩阵的第i行j列元素,若给定英文音素tj和中文音素si,则英文音素对应于中文音素的相似度矩阵可由公式(1)得到:
A i , j = count ( t j | s i ) Σ n = 1 N count ( t n | s i ) - - - ( 1 )
其中,Ai,j∈AS,T(M,N),i=1......M,j=1......N,count(tj|si)表示中文音素si和英文音素tj之间的同现出现次数;
上述第一步到第五步是设定中文为源语言而实现的音素聚类的第一遍计算,经过上述步骤得到英文音素对应于中文音素的相似度矩阵Aman,eng
第六步,然后交换中英文语言地位,将英文设为源语言进行音素聚类的第二遍计算:基于准备好的英文语音数据,相应的重复第二至第五步,即,用英文声学模型对英文语音数据进行一遍强制对齐,得到英文音素级分段信息,然后用中文声学模型对英文语音数据进行一遍解码,得到中文音素级分段信息,接着将得到的不同语种音素的分段信息在时间上对齐,当某两个音素的重合时间大于预先设定的门限值时,则认为这两个音素出现一次同现,统计出所有的同现情况并利用与第五步相同的计算方法计算得到中文音素对应于英文音素的相似度矩阵Aeng,man
经过上述第五步和第六步的两遍音素聚类计算后,生成两个相似度矩阵Aman,eng,Aeng,man
第七步,将经过上述第五步和第六步的两遍计算后得到的两个相似度矩阵给与相等权重加权平均,得到中英文混淆矩阵ATCM为:
A TCM = 1 2 ( A man , eng + A eng , man T ) - - - ( 4 )
其中,ATCM记录了来自中文和英文间任意两个音素的混淆程度,该过程利用两遍音素聚类算法完成,即,分别对中文和英文都计算一次相似度矩阵后作加权平均;
第八步,得到中英文混淆矩阵ATCM后,根据该矩阵进行音素聚类,具体过程为:如果ATCM矩阵中i行j列元素是整个矩阵中的最大元素,则认为来自相应语言的音素i和音素j最为相似,从而将音素i和音素j聚类成一类;接下来将已聚成一类的音素i和音素j从矩阵中移出,在余下的矩阵元素中重复进行上述过程,直到聚类数达到要求;
第九步,根据第八步得到的两种语言音素间的对应关系,将训练时需要的文本语料以及决策树信息都映射到统一音素集上,基于这些文件和已有的标准中文、英文数据,重新进行训练从而得到中英双语声学模型。
2.一种基于音素混淆的中英文双语识别系统,其特征在于,该系统包括:通过权利要求1所述的基于音素混淆的中英文双语语音识别方法得到的中英双语声学模型、以及根据音素间对应关系整理的解码所需要的中文和英文发音字典。
CN2008101105556A 2007-11-28 2008-06-03 基于音素混淆的中英文双语语音识别方法 Expired - Fee Related CN101447184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101105556A CN101447184B (zh) 2007-11-28 2008-06-03 基于音素混淆的中英文双语语音识别方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200710195418 2007-11-28
CN200710195418.2 2007-11-28
CN2008101105556A CN101447184B (zh) 2007-11-28 2008-06-03 基于音素混淆的中英文双语语音识别方法

Publications (2)

Publication Number Publication Date
CN101447184A CN101447184A (zh) 2009-06-03
CN101447184B true CN101447184B (zh) 2011-07-27

Family

ID=40742824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101105556A Expired - Fee Related CN101447184B (zh) 2007-11-28 2008-06-03 基于音素混淆的中英文双语语音识别方法

Country Status (1)

Country Link
CN (1) CN101447184B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826325B (zh) * 2010-03-10 2012-04-18 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN104575497B (zh) * 2013-10-28 2017-10-03 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
WO2016014970A1 (en) * 2014-07-24 2016-01-28 Harman International Industries, Incorporated Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
CN106297773B (zh) * 2015-05-29 2019-11-19 中国科学院声学研究所 一种神经网络声学模型训练方法
CN105161092B (zh) * 2015-09-17 2017-03-01 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107195295B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107301860B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107767858B (zh) * 2017-09-08 2021-05-04 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN107731228B (zh) 2017-09-20 2020-11-03 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置
CN108510978B (zh) * 2018-04-18 2020-08-21 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN111489742B (zh) * 2019-01-28 2023-06-27 北京猎户星空科技有限公司 声学模型训练方法、语音识别方法、装置及电子设备
CN111640452B (zh) * 2019-03-01 2024-05-07 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110491382B (zh) * 2019-03-11 2020-12-04 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
CN109712643A (zh) * 2019-03-13 2019-05-03 北京精鸿软件科技有限公司 语音评价的方法和装置
CN111916062A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 语音识别方法、装置和系统
CN110517668B (zh) * 2019-07-23 2022-09-27 普强时代(珠海横琴)信息技术有限公司 一种中英文混合语音识别系统及方法
CN110675854B (zh) * 2019-08-22 2022-10-28 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN110675855B (zh) * 2019-10-09 2022-03-25 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN111489735B (zh) * 2020-04-22 2023-05-16 北京声智科技有限公司 语音识别模型训练方法及装置
CN113744718A (zh) * 2020-05-27 2021-12-03 海尔优家智能科技(北京)有限公司 语音文本的输出方法及装置、存储介质、电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229590A (ja) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229590A (ja) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Qingqing Zhang, Jielin Pan, Yonghong Yan.Mandarin-English bilingual Speech Recognition for real world music retrieval.《Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on》.2008,4253-4256. *

Also Published As

Publication number Publication date
CN101447184A (zh) 2009-06-03

Similar Documents

Publication Publication Date Title
CN101447184B (zh) 基于音素混淆的中英文双语语音识别方法
Chen et al. End-to-end neural network based automated speech scoring
Kirchhoff et al. Novel approaches to Arabic speech recognition: report from the 2002 Johns-Hopkins summer workshop
CN103761975B (zh) 一种口语评测方法及装置
CN102201235A (zh) 发音词典的构建方法和系统
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN101650943A (zh) 一种非母语语音识别系统及方法
CN109979257B (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
Chen et al. Improved pronunciation features for construct-driven assessment of non-native spontaneous speech
CN112489618A (zh) 利用多级别上下文特征的神经文本到语音合成
Yan et al. End-to-end mispronunciation detection and diagnosis from raw waveforms
Jiang et al. Towards robust mispronunciation detection and diagnosis for L2 English learners with accent-modulating methods
CN102436815B (zh) 一种应用于英语口语网络机考系统的语音识别装置
Egorova et al. Out-of-vocabulary word recovery using fst-based subword unit clustering in a hybrid asr system
Tan et al. A malay dialect translation and synthesis system: Proposal and preliminary system
Ling et al. Minimum unit selection error training for HMM-based unit selection speech synthesis system
Penagarikano et al. Semisupervised training of a fully bilingual ASR system for Basque and Spanish
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
Ying et al. A unified front-end framework for English text-to-speech synthesis
Rajaa et al. Skit-s2i: An indian accented speech to intent dataset
KR20130067854A (ko) 코퍼스 기반 언어모델 변별학습 방법 및 그 장치
Wang et al. Assessing phrase break of esl speech with pre-trained language models and large language models
CN202307118U (zh) 一种应用于英语口语网络机考系统的语音识别装置
Zuluaga-Gomez et al. A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers. Aerospace 2023, 10, 490

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110727