CN101315733B - 一种针对计算机语言学习系统发音评测的自适应方法 - Google Patents

一种针对计算机语言学习系统发音评测的自适应方法 Download PDF

Info

Publication number
CN101315733B
CN101315733B CN2008101071189A CN200810107118A CN101315733B CN 101315733 B CN101315733 B CN 101315733B CN 2008101071189 A CN2008101071189 A CN 2008101071189A CN 200810107118 A CN200810107118 A CN 200810107118A CN 101315733 B CN101315733 B CN 101315733B
Authority
CN
China
Prior art keywords
self
sound
tone
cutting
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101071189A
Other languages
English (en)
Other versions
CN101315733A (zh
Inventor
王海坤
魏思
胡国平
胡郁
刘庆峰
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IFLYTEK South Asia Information Technology (Yunnan) Co.,Ltd.
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2008101071189A priority Critical patent/CN101315733B/zh
Publication of CN101315733A publication Critical patent/CN101315733A/zh
Application granted granted Critical
Publication of CN101315733B publication Critical patent/CN101315733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种针对计算机语言学习系统发音评测的自适应方法,包括以下步骤:搭建语音识别系统;在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别;根据切分和限制边界识别的结果计算各声韵母和声调后验概率,并根据预先设定门限分别挑选出的自适应数据;根据挑选出自适应数据对识别系统中的声学模型进行自适应;用自适应后的声学模型进行第二遍切分和识别;用最终切分识别结果提取评测参数。本发明通过后验概率挑选合适的自适应语料,既能减弱由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差,又能避免自适应时将标准模型拉偏,不能正确对发音人的发音进行评价。

Description

一种针对计算机语言学习系统发音评测的自适应方法
技术领域
本发明涉及一种针对计算机语言学习系统发音评测作出自适应调整的方法。
背景技术
为了更方便,更准确的使学生学习各种语言,目前,较多的采用计算机辅助语言学习系统,但目前的计算机辅助语言学习系统会出现一个问题:使用到的标准声学模型训练数据的发音人数目有限,不可能覆盖到各种音色;标准语料录音环境(办公室环境)跟实际环境(考试及学习环境)有差异,同时录音设备也可能有较大差异。受到这些因素的影响,使得声学模型与实际使用的情况存在较大的不匹配现象;这些因素造成了实际应用中考生的发音矢量与标准声学模型差异较大,使得识别器的性能受到很大的干扰,严重影响计算机辅助语言学习系统对发音评价的正确性。
发明内容
针对现有计算机辅助语言学习系统出现的问题,本发明通过后验概率挑选合适的自适应语料,确保既能减弱由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差,又能避免自适应时将标准模型拉偏,不能正确对发音人的发音进行评价。
本发明是通过以下技术方案实现的:
一种针对计算机语言学习系统发音评测的自适应方法,包括搭建语音识别系统,还包括以下步骤:
(1)在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别;
所述的步骤(1)包括以下步骤:
(A)根据专家的先验知识,统计得到发音人容易混淆的音素作为限定边界识别的候选项,进行声韵母替换列表的设计;
(B)利用被评测语料的文本对发音进行切分和计算目标文本的概率,记为PT,然后,在切分得到的边界上,计算此音段对替换列表内所有模型的概率,这是一个矢量,记为(P1,P2,……,PN),得到声韵母第一遍切分和限制边界识别结果;(C)利用被评测语料的文本,在声韵母切分的边界上,计算该段对所有声调模型的概率,将这个矢量记为(PT1,PT2,……,PTK),将其中评测文本对应的调型概率记为PTT,得到声调第一遍限制边界识别的结果;
(2)根据切分和限制边界识别的结果计算各声韵母和声调后验概率,并根据预先设定门限分别挑选出的自适应数据;
所述的步骤(2)包括以下步骤:
首先,根据切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验概率,记为PP(p);同样,以调型为单位计算各个声调的后验概率,记为PPT(p),计算方法如下:
PP ( p ) = ( Log P T Σ i = 1 N P i ) / nFrame
P P T ( p ) = ( Log P TT Σ i = 1 K P Ti ) / nFram e Tone
其中nFrame为当前声韵母所占的时间长度,nFrameTone为单个调型所占时间长度,然后仅选择后验概率大于预先设定门限的数据作为自适应数据;
(3)根据挑选出自适应数据对识别系统中的声学模型进行自适应;
步骤(3)是根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自适应,得到自适应后的声韵母识别模型和声调识别模型;
(4)用自适应后的声学模型进行第二遍切分和识别;得到自适应后的声韵母识别模型和声调识别模型后,使用自适应后的模型对发音人的语料进行第二遍切分和限制边界的识别;
(5)用最终切分识别结果提取评测参数。
本发明提出了针对计算机辅助语言学习系统的一种有监督自适应方法,其自适应方法是通过后验概率挑选合适的自适应语料,引入改进自适应策略后,既减弱了因为发音人、使用环境和信道差异造成的声学特征矢量和声学模型的不匹配性,又能保证不用发音错误的数据自适应,提高了语音识别器正确的识别性能。减弱了由于实际发音人同标准模型音色、使用环境以及信道的差异造成的识别器误差;又避免自适应时将标准模型拉偏,不能正确对发音人的发音进行评价的不足。
附图说明
图1为计算机辅助语言学习系统中自适应策略的改进方法流程框图。
具体实施方式
参见附图所示。
针对计算机语言学习系统发音评测的自适应方法包括以下步骤:
1、语音识别系统的搭建,其步骤如下:
(1)收集训练识别器语音;
(2)数据标注;
(3)声韵母模型训练;
(4)声调模型训练;
(5)将模型保存到计算机辅助语言学习系统库中。
2、在识别器基础上进行切分和限制边界的识别,其步骤如下:
(1)声韵母替换列表的统计:根据专家的先验知识,统计得到发音人容易混淆的音素作为限定边界识别的候选项,这么做好处有二:其一,简化了计算,使得后验概率计算更为方便快捷。其二,降低了声学模型混淆对分母计算的影响。第一个优点显而易见,第二个优点的说明如下:由于HMM模型并不能完全代表真实语音模型(Plug-in决策的天然缺点),而且,某些音素对本身的混淆程度就较大(如ian-an等)而它们实际在学习者发音上的发音错误几乎不会发生,此时,忽略混淆音素的影响实际上加强了错误检测的能力。
(2)得到声韵母第一遍切分和限制边界识别结果:利用被评测语料的文本,对发音进行切分和计算目标文本的概率,记为PT,然后,在切分得到的边界上,计算此音段对替换列表内所有模型的概率,这是一个矢量,记为(P1,P2,……,PN)。
(3)得到声调第一遍限制边界识别的结果:利用被评测语料的文本,在声韵母切分的边界上,计算该段对所有声调模型的概率,将这个矢量记为(PT1,PT2,……,PTK),将其中评测文本对应的调型概率找出来,记为PTT
3自适应数据的挑选和自适应,其步骤如下:
(1)自适应数据的挑选:
首先,根据第一遍切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验概率,记为PP(p);同样,以调型为单位计算各个声调的后验概率,记为PPT(p),计算方法如下:
PP ( p ) = ( Log P T Σ i = 1 N P i ) / nFrame
P P T ( p ) = ( Log P TT Σ i = 1 K P Ti ) / nFram e Tone
其中nFrame为当前声韵母所占的时间长度(以帧为单位,每帧10ms),nFrameTone为单个调型所占时间长度。
然后仅选择后验概率高过选择预先设定门限(事先经验性设定)的数据作为自适应数据,进行有选择性的自适应:
如果PP(p)≥Thresh1(Thresh1:事先设定的声韵母经验性门限),该数据保留,作为声韵母模型自适应数据;如果PP(p)<Thresh1舍弃该数据。
同样,如果PPT(p)≥Thresh2(Thresh2:事先设定的声调经验性门限),该数据保留,作为声调模型自适应数据;如果PPT(p)<Thresh2舍弃该数据。
(2)模型自适应
根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自适应,得到自适应后的声韵母识别模型和声调识别模型。
4、使用自适应后的声韵母识别模型和声调识别模型,对发音人的语料进行第二遍切分和限制边界的识别,过程基本同第一遍切分识别。
5、得到最终的切分识别结果后就可以提取语音评测用到的参数了。

Claims (1)

1.一种针对计算机语言学习系统发音评测的自适应方法,包括搭建语音识别系统,其特征在于还包括以下步骤:
(1)在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声韵母和声调的识别;
所述的步骤(1)包括以下步骤:
(A)根据专家的先验知识,统计得到发音人容易混淆的音素作为限定边界识别的候选项,进行声韵母替换列表的设计;
(B)利用被评测语料的文本对发音进行切分和计算目标文本的概率,记为PT,然后,在切分得到的边界上,计算此音段对替换列表内所有模型的概率,这是一个矢量,记为(P1,P2,……,PN),得到声韵母第一遍切分和限制边界识别结果;
(C)利用被评测语料的文本,在声韵母切分的边界上,计算该段对所有声调模型的概率,将这个矢量记为(PT1,PT2,……,PTK),将其中评测文本对应的调型概率记为PTT,得到声调第一遍限制边界识别的结果;
(2)根据切分和限制边界识别的结果计算各声韵母和声调后验概率,并根据预先设定门限分别挑选出的自适应数据;
所述的步骤(2)包括以下步骤:
首先,根据切分和限制边界识别的结果以声韵母为单位计算各声韵母的后验概率,记为PP(p);同样,以调型为单位计算各个声调的后验概率,记为PPT(p),计算方法如下:
PP ( p ) = ( Log P T Σ i = 1 N P i ) / nFrame
PP T ( p ) = ( Log P TT Σ i = 1 K P Ti ) / nFrame Tone
其中nFrame为当前声韵母所占的时间长度,nFrameTone为单个调型所占时间长度,然后仅选择后验概率大于预先设定门限的数据作为自适应数据;
(3)根据挑选出自适应数据对识别系统中的声学模型进行自适应;
步骤(3)是根据挑选得到的数据分别对声韵母识别模型和声调识别模型做MLLR全局自适应,得到自适应后的声韵母识别模型和声调识别模型;
(4)用自适应后的声学模型进行第二遍切分和识别;得到自适应后的声韵母识别模型和声调识别模型后,使用自适应后的模型对发音人的语料进行第二遍切分和限制边界的识别;
(5)用最终切分识别结果提取评测参数。
CN2008101071189A 2008-07-17 2008-07-17 一种针对计算机语言学习系统发音评测的自适应方法 Active CN101315733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101071189A CN101315733B (zh) 2008-07-17 2008-07-17 一种针对计算机语言学习系统发音评测的自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101071189A CN101315733B (zh) 2008-07-17 2008-07-17 一种针对计算机语言学习系统发音评测的自适应方法

Publications (2)

Publication Number Publication Date
CN101315733A CN101315733A (zh) 2008-12-03
CN101315733B true CN101315733B (zh) 2010-06-02

Family

ID=40106728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101071189A Active CN101315733B (zh) 2008-07-17 2008-07-17 一种针对计算机语言学习系统发音评测的自适应方法

Country Status (1)

Country Link
CN (1) CN101315733B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9251783B2 (en) 2011-04-01 2016-02-02 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
CN102184654B (zh) * 2011-04-21 2013-06-19 安徽科大讯飞信息科技股份有限公司 诵读监督方法及装置
CN104766611A (zh) * 2014-01-07 2015-07-08 安徽科大讯飞信息科技股份有限公司 目标任务分布估计和声学模型自适应方法及系统
CN104318921B (zh) * 2014-11-06 2017-08-25 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
CN104463101B (zh) * 2014-11-06 2017-08-25 科大讯飞股份有限公司 用于文字性试题的答案识别方法及系统
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN106856095A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 一种拼音拼读的发音质量评测系统
CN109979484B (zh) * 2019-04-03 2021-06-08 北京儒博科技有限公司 发音检错方法、装置、电子设备及存储介质
US11081102B2 (en) * 2019-08-16 2021-08-03 Ponddy Education Inc. Systems and methods for comprehensive Chinese speech scoring and diagnosis
CN113053414B (zh) * 2019-12-26 2024-05-28 航天信息股份有限公司 一种发音评测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266636B1 (en) * 1997-03-13 2001-07-24 Canon Kabushiki Kaisha Single distribution and mixed distribution model conversion in speech recognition method, apparatus, and computer readable medium
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN1835076A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266636B1 (en) * 1997-03-13 2001-07-24 Canon Kabushiki Kaisha Single distribution and mixed distribution model conversion in speech recognition method, apparatus, and computer readable medium
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN1835076A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘庆升,魏思,胡郁,郭武,王仁华.基于语言学知识的发音质量评价算法改进.中文信息学报第21卷 第4期.2007,第21卷(第4期),92-96.
刘庆升,魏思,胡郁,郭武,王仁华.基于语言学知识的发音质量评价算法改进.中文信息学报第21卷 第4期.2007,第21卷(第4期),92-96. *
魏思,刘庆升,胡郁,王仁华.普通话水平测试电子化系统.中文信息学报第20卷 第6期.2006,第20卷(第6期),89-96.
魏思,刘庆升,胡郁,王仁华.普通话水平测试电子化系统.中文信息学报第20卷 第6期.2006,第20卷(第6期),89-96. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251783B2 (en) 2011-04-01 2016-02-02 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US10049657B2 (en) 2012-11-29 2018-08-14 Sony Interactive Entertainment Inc. Using machine learning to classify phone posterior context information and estimating boundaries in speech from combined boundary posteriors

Also Published As

Publication number Publication date
CN101315733A (zh) 2008-12-03

Similar Documents

Publication Publication Date Title
CN101315733B (zh) 一种针对计算机语言学习系统发音评测的自适应方法
CN107221318B (zh) 英语口语发音评分方法和系统
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
CN107871496B (zh) 语音识别方法和装置
CN107146624B (zh) 一种说话人确认方法及装置
Mak et al. PLASER: Pronunciation learning via automatic speech recognition
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN102332263B (zh) 一种基于近邻原则合成情感模型的说话人识别方法
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错系统
Kenny et al. New MAP estimators for speaker recognition.
CN106531185A (zh) 基于语音相似度的语音评测方法及系统
CN106683666B (zh) 一种基于深度神经网络的领域自适应方法
CN104464757B (zh) 语音评测方法和语音评测装置
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN104464423A (zh) 一种口语考试评测的校标优化方法及系统
CN109616105A (zh) 一种基于迁移学习的带噪语音识别方法
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN104765996A (zh) 声纹密码认证方法及系统
CN110047502A (zh) 噪声环境下层级式语音降噪识别方法及系统
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN109461441A (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN105845141A (zh) 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
CN105023570A (zh) 一种实现声音转换的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 information industry base, No. 616, Mount Huangshan Road, hi tech Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20191225

Address after: 650032 floor 1, 2 and 5, building B, platform 17, Jinding Science Park, No. 690, Xuefu Road, Wuhua District, Kunming City, Yunnan Province

Patentee after: Yunnan Xunyan Intelligent Technology Co., Ltd.

Address before: 666, No. 230088 Wangjiang West Road, Hefei hi tech Development Zone, Anhui, China (230088)

Patentee before: Iflytek Co., Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 650000 floor 1, 2 and 5, block B, platform 17, Jinding Science Park, 690 Xuefu Road, Wuhua District, Kunming City, Yunnan Province

Patentee after: IFLYTEK South Asia Information Technology (Yunnan) Co.,Ltd.

Address before: 650032 floor 1, 2 and 5, building B, platform 17, Jinding Science Park, No. 690, Xuefu Road, Wuhua District, Kunming City, Yunnan Province

Patentee before: Yunnan Xunyan Intelligent Technology Co.,Ltd.

CP03 Change of name, title or address