CN101661675B - 一种错误自感知的声调发音学习方法和系统 - Google Patents

一种错误自感知的声调发音学习方法和系统 Download PDF

Info

Publication number
CN101661675B
CN101661675B CN2009101861543A CN200910186154A CN101661675B CN 101661675 B CN101661675 B CN 101661675B CN 2009101861543 A CN2009101861543 A CN 2009101861543A CN 200910186154 A CN200910186154 A CN 200910186154A CN 101661675 B CN101661675 B CN 101661675B
Authority
CN
China
Prior art keywords
tone
model
learner
voice
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101861543A
Other languages
English (en)
Other versions
CN101661675A (zh
Inventor
俞凯
王欢良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chisheng Information Technology Co., Ltd.
Original Assignee
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Speech Information Technology Co Ltd filed Critical Suzhou Speech Information Technology Co Ltd
Priority to CN2009101861543A priority Critical patent/CN101661675B/zh
Publication of CN101661675A publication Critical patent/CN101661675A/zh
Application granted granted Critical
Publication of CN101661675B publication Critical patent/CN101661675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种错误自感知的声调发音学习方法和系统,首先建立标准发音语音库,训练得到上下文相关的三元声调模型和音素模型;从学习者语音中提取语谱和基频特征,并对基频特征进行后处理;利用三元声调模型计算反映声调质量的评分参数,得到声调评价得分、声调后验概率;基于源-滤波器模型合成具有标准目标声调和用户语音频谱特征的语音,并采用声调后验概率加权平均的二次函数绘制声调曲线;最后将目标声调语音和实际发音的声调曲线反馈给学习者。本发明通过声音和图像两种方式来直接反映声调发音质量,能够提供形象、直观的反馈信息,使学习者可以自发地感知声调发音错误并进行校正,并增加了学习的娱乐性和趣味性,提高学习效率。

Description

一种错误自感知的声调发音学习方法和系统
技术领域
本发明涉及计算机语音信号处理领域,尤其涉及在计算机辅助的口语语言学习中,通过改进的反馈机制实现错误自感知的声调发音辅助学习的方法和系统。
背景技术
声调是有调语言(如汉语和泰语)的重要组成部分,具有辨词表意和传达情感的作用。如果声调发音不准,那么会导致语言交流的困难。因此,声调通常是衡量口语语言能力的重要指标。对于非母语学习者来说,声调发音是有调语言的口语学习中的最大障碍之一。
计算机辅助的口语学习为语言学习提供了一个有效的途径,并且现在已被越来越多的学习者所接受。计算机辅助的口语学习最重要的一个特征就是交互能力,即能够为学习者提供有价值的反馈信息,包括发音评价和发音指导。
已公开的专利文献,如公开号为CN101383103和CN1815522的专利等,都涉及了对声调发音进行评估和指导的方法,但这类方法对声调发音的指导方式主要是首先总结声调发音规则,然后根据声调发音错误给出确定的改进建议。这种预先设定好的指导建议有三个局限性:一、指导建议是抽象的,不同学习者对建议的理解不同;二、声调主要由声带振动频率产生,难以主观直接控制;三、建议的普适性和具体性(针对不同的学习者和学习内容)是矛盾的,因此学习者从指导建议中得到的帮助非常有限。除了发音指导建议之外,这些系统也能提供标准声调发音,但对这种发音对用户来说可能是陌生的,有时和用户的声音相差甚远,用户难以准确模仿。
已公开专利CN101315733中涉及了声调的识别和后验概率计算。为了进行声调识别,它在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声调的识别;根据切分和限制边界识别的结果计算声调后验概率。这种方法的局限性就是:一、声调识别和后验概率计算严重依赖于声韵母边界,如果学习者发音不准,语音识别得到的声韵母边界就不可靠,这对于非母语学习者尤其显著;二、对于多音节连续语音的声调发音学习来说,声韵母边界的准确确定比较困难,尤其是自然口语的声调发音学习。
已公开的涉及声调发音学习的现有技术,反馈方式单一,指导信息抽象,还有如下不足:一、难以支持对连续语音的声调进行准确评分,这是一项重要的功能缺失;二、对于非母语学习者来说,来自计算机的错误提示和改进建议是教条的,难以提供感性认识,会导致对建议的理解偏差,而对于改进没有量化感觉。
现有的声调发音学习系统所能提供的反馈信息是抽象的,不丰富的,难以错误自感知的。对学习者来说,标准声调的发音示例是陌生的,难以和其实际发音进行对比来发现声调错误,并且也是难以模仿的。在声调曲线绘制方面,标准4声调曲线过于简单,携带的指导信息有限,难以反映实际声调发音质量;而绘制实际声调的基频轨迹又过于粗糙、复杂,学习者难以发现确切的发音错误和指导。现有声调发音学习系统对学习者来说难以启发式地诱导用户进行学习,可能导致学习者一味模仿标准的发音而无法从与该系统的互动中在感性上得到准确、直观、丰富的指导信息,其性能是不完善的。因此,开发一种具有立体的全方位的错误反馈能力的声调发音学习方法和系统是非常必要的,可以提供形象、直观、娱乐的反馈信息,具有错误自感知能力。
发明内容
本发明要解决的技术问题是:提供一种具有错误自感知功能的声调发音学习方法和系统,具有综合的、立体的学习反馈机制,能为学习者提供准确、形象、直观、娱乐的反馈信息,使学习者更容易发现自己声调发音上的问题,帮助学习者学习语音声调,提高学习者声调发音的学习效率。通过声音和图像两种方式来反馈学习者的声调发音质量,得到的反馈语音和现有技术相比更贴合学习者的语音,绘制的声调曲线更形象直观地反映错误程度,发音评价得分更准确,给学习者一个更有利于其学习改进的发音参考,使得学习者可以明确感知自己的声调发音错误和正确的声调发音,从而启发式地引导学习者有目标地校正自己的声调发音。
本发明的技术方案是:一种错误自感知的声调发音学习方法,包括如下步骤:
步骤S1:首先建立标准发音语音库,训练声调模型和音素模型,得到标准上下文相关的三元声调模型和语谱音素模型;
步骤S2:从学习者的语音中提取声学特征,包括语音频谱特征和声调特征,并对声调特征进行后处理;
步骤S3:根据标准声调模型和音素模型,利用基于隐马尔可夫模型(Hidden Markov Model,HMM)的上下文相关的三元声调模型计算反映声调质量的评分参数,得到声调评价得分、声调后验概率;
步骤S4:基于学习者声调错误的语音,采用源-滤波器模型合成具有标准目标声调和学习者语音频谱特征的新语音,并播放出来;
步骤S5:采用声调后验概率加权平均的二次函数绘制声调曲线,并将标准声调曲线和学习者实际发音的声调曲线显示出来。
本发明还提出了一种错误自感知的声调发音学习系统,包括:
模型训练模块2,建立标准发音语音库,训练声调模型和音素模型,得到标准上下文相关的三元声调模型和音素模型;
前端处理模块1,从学习者的语音中提取声学特征,包括语音频谱特征和声调特征,并对声调特征进行后处理;
评价参数计算模块3,根据模型训练模块2得到的标准声调模型和音素模型,利用从前端处理模块提取的声调特征和基于隐马尔可夫模型的上下文相关的三元声调模型计算反映声调质量的评分参数,得到从前端处理模块1提取的学习者语音的声调评价得分、声调后验概率;
反馈模块4,基于源-滤波器模型合成具有标准目标声调和学习者语音频谱特征的语音,采用评价参数计算模块3得到的声调后验概率加权平均的二次函数绘制声调曲线,将具有标准目标声调的学习者语音、标准声调曲线、学习者实际发音的声调曲线和声调发音量化评分及错误提示通过播放和显示反馈给学习者。
本发明的错误自感知的声调发音学习方法更详细的技术方案是:
所述步骤S4中采用基于源-滤波器模型生成标准目标声调语音,保留学习者自身语言特征,并不改变语音内容,合成的目标声调语音具有很好的自然度和清晰度,提高了声调错误感知的容易程度和学习的趣味性。具体包括如下步骤:
(S4.1)对学习者的发音进行声学分析,提取语音信号中的基频序列、非周期谐波成分特征和语音的语音频谱特征;
(S4.2)生成目标声调的基频序列,并修正或替换学习者发音中的基频序列;
(S4.3)基于源-滤波器模型,利用修正或替换后的基频序列和学习者语音的声道响应滤波器合成带有目标声调的学习者发音。
所述步骤S4的基于源-滤波器模型生成标准目标声调语音的过程中,采用归一化线性多项式表示声调的一般实现模型,根据目标声调的类型,选择不同声调对应的标准归一化时间函数,并和学习者的声调基频均值和范围一同代入声调实现模型,计算得到目标声调的基频序列。
所述步骤S4的基于源-滤波器模型生成标准目标声调语音的过程中,首先从标准发音库中提取不同带调音节的标准声调基频序列,并进行平滑、归一化等处理,得到标准声调的基频序列模板;然后选择和学习者的发音相同的音节所对应的声调基频序列模板作为目标声调的基频序列。
所述步骤S5中采用声调后验概率加权平均的二次函数绘制声调曲线,可得到平滑的易于理解的声调曲线,定量地反映声调发音质量。具体包括以下步骤:
(S5.1)设计标准声调曲线对应的二次函数的系数;
(S5.2)计算每种声调的后验概率;
(S5.3)使用后验概率加权标准声调曲线的二次函数,得到实际声调的曲线函数;
(S5.4)根据声调曲线函数,绘制目标声调和实际声调的曲线。
所述错误自感知的声调发音学习方法还包括声调评分和错误提示功能,用以给出对声调发音质量的客观量化得分,并告知学习者声调发音错误信息以及相关改进建议。
所述的错误自感知的声调发音学习方法可应用于多音节连续语音(如短语和句子)的声调学习场景。采用基于HMM模型的上下文相关的三元声调模型可以对连续语音计算不同层级(如字、词、句)的声调评分。在得到每个音节的声调边界后,基于源-滤波器模型的目标声调语音合成技术可以生成具有标准声调的连续语音,而基于后验概率加权的声调曲线生成技术可以绘制每个音节实际声调的曲线。
所述的错误自感知的声调发音学习方法其反馈信息的准确性不依赖于学习者的发音准确性和发音内容,可适用于不同语言水平的学习者。
本发明的优点是:
1.本发明提供了一种全面的、立体的声调学习反馈机制,通过声音和图像两种方式来反映声调发音质量,能够提供形象、直观、娱乐的反馈信息,使学习者可以自发地感知声调发音错误,从而启发式地引导学习者有目标地校正自己的声调发音,帮助学习者学习语音声调,提高声调发音学习的效率。
2.采用基于HMM的上下文相关的三元声调模型可以更好地建模上下文协同发音对声调模式的影响,在计算声调评价得分时,不需要预先对语音按照音节分段,得到的声调评价得分更加准确,计算的声调后验概率比其他模型(如基于高斯混合模型(GMM)的声调模型、基于HMM的一元声调模型)计算的后验概率更为准确,从而使绘制的声调曲线更真实准确。
3.基于源-滤波器模型的目标声调语音合成不会改变语音频谱特征,即学习者本人的发音特征和语音内容得以保留,这使得学习者可以直接对比合成的目标声调语音和实际语音的声调差异,更专注于感知声调并纠正声调错误,合成的新语音更接近学习者个人的语音,使学习者更容易模仿,有助于学习者从听觉上感知自己声调的错误。在语音其它声学特征都不变的情况下去感知声调差异,这对于非母语学习者来说更有帮助。
4.采用声调后验概率加权二次函数的声调曲线,使得绘制的声调曲线是平滑的,并且对于相同声调其曲线也有差异,其弯折程度和趋势有效反映了用户声调发音的准确程度,比简单的实际声调的4声调平滑曲线更加真实,比粗糙的实际声调的基频轨迹曲线更具有指导意义。这种声调曲线绘制方法不仅可以清楚地表明不同声调类型,而且可以表现相同声调的不同的发音准确程度。声调曲线和声调发音质量之间存在定量联系,学习者能够通过视觉更容易地发现声调发音错误和错误程度。
5.基于HMM的上下文相关的三元声调模型可以对连续语音的声调发音进行评价,而所述的目标声调合成和声调曲线绘制方法也适用于连续语音情况。因此,本发明所公开的方法和系统适用于字、词、短语和句子等不同层次的声调发音学习任务。
6.反馈信息的生成是基于学习者原始语音和声调模型的,不依赖于学习者的发音内容和发音水平,因此,本发明所提方法和系统适用于不同语言水平的学习者和学习内容,能够保证反馈信息的准确性。
附图说明
下面结合附图及一个应用于中文声调学习的优选实施例对本发明作进
一步描述:
图1为本发明的实施例的总功能框图;
图2为本发明的实施例的总流程图;
图3为本发明的实施例的声调发音评价参数计算流程图;
图4为本发明的实施例的源-滤波器模型的原理图;
图5为本发明的实施例的目标声调合成流程图;
图6为本发明的实施例的声调曲线绘制流程图;
图7为本发明的实施例的标准声调曲线和实际声调曲线的比较示意图。
其中:1前端处理模块;2模型训练模块;3评价参数计算模块;4反馈模块。
具体实施方式
实施例:如图1和图2所示,本发明首先建立标准发音语音库,利用标准声调发音数据训练声调模型和音素模型,得到上下文相关的三元声调模型和音素模型,然后记录并分析学习者的发音,从中提取声学特征,包括语音频谱特征和声调基频特征,并对基频特征进行后处理,给出声调发音质量的评价,利用学习者的原始语音生成具有目标声调发音的语音,并反馈给学习者,绘制平滑的目标声调和实际声调的轮廓曲线,也同时反馈给学习者。通过以上机制,使得学习者能够感知自己的声调发音错误,引导学习者自发地修正声调发音。
首先模型训练模块2建立标准发音语音库:要求录音文本覆盖所有音素/音节,常用音节相对均衡,声调相对均衡,文本涵盖单音节词、多音节词和句子,录音人性别均衡,年龄呈高斯分布,录音人普通话水平较高,声调发音要准确,通过自动和人工方式对原始录音数据和标注进行多轮检查和筛选,去除声调发音模糊的数据,修正错误声调标注。
然后建立音素和声调的隐马尔科夫模型(Hidden Markov Model,HMM),采用上下文相关建模方法。上下文相关建模是语音识别中的一项重要技术。三元声调建模采用了上下文相关建模技术,可建模上下文协同发音引起的声调模式变化。假设一段语音信号对应的声调序列为:“t1,t1,t3,t2,t4,t4”,那么其对应的上下文相关的三元声调模型序列为“t1+t1,t1-t3+t2,t3-t2+t4,t2-t4+t4,t4-t4”,其中“ti”表示声调i,比如“t3”表示声调3。
在本实施例的音素建模中,在长度为25ms的数据帧上逐帧提取感知线性预测(PLP,Perceptually Based Linear Prediction)特征,帧移10ms。采用PLP特征训练音素单元的HMM模型。
在本实施例的声调建模中,在长度为25ms的数据帧上逐帧(帧移10ms)提取目标声调基频序列和能量作为声调特征,对基频序列进行平滑,并做归一化处理,消除不同学习者的调域差异。采用期望最大化算法(EM算法)来训练基于HMM模型的上下文相关的三元声调模型。为了进行数据共享,提高模型推广能力,对上下文相关的三元声调模型进行数据驱动的状态绑定。期望最大化算法是成熟的机器学习技术。模型训练模块2建立的标准发音语音库,以及声调模型和音素模型等数据均存储于计算机设备、嵌入式计算设备(如PDA、蜂窝电话、MP3等媒体播放设备)以及专用的学习设备(如语言学习机等)的存储设备中,以备错误自感知的声调发音学习系统随时调用。
在声调模型和音素模型建立好之后,就可以开始为学习者服务了。学习者通过上述计算机等设备输入语音数据,前端处理模块1从学习者的语音中提取声学特征,包括谱特征和声调特征,并对声调特征做后处理。评价参数计算模块3根据标准声调模型和音素模型,利用基于HMM模型的上下文相关的三元声调模型计算反映声调质量的评分参数,得到声调评价得分、声调后验概率、声调长度等参数。如图3所示为声调发音评价参数计算流程图。声调评价得分是强制对齐的似然度和识别的似然度之比(参考文献“S.M.Witt:Use of speech recognition in computer-assisted language learning,PhD.Thesis,1999”)。识别似然度是指语音的内容未知,通过搜索标准发音语音库中所有可能的模型序列组合寻找似然度得分最大的模型序列作为识别结果,它所对应的似然度得分就是识别似然度。强制对齐似然度是指语音的内容已知的情况下,用对应的模型去计算的概率。本实施例采用基于HMM模型的上下文相关的三元声调模型。
给定声调模型参数λ、声学特征序列O和声调数目N,声调的后验概率可以通过下式计算:
P ( t i | O , λ ) = p ( O | t i , λ ) P ( t i ) Σ i = 1 N p ( O | t j , λ ) P ( t j ) - - - ( 1 )
在上下文相关的三元声调模型情况下,(1)式需要修正为下式:
P ( t i | O , λ ) = p ( O | t l - t i + t r , λ ) P ( t l - t i + t r ) Σ j = 1 N p ( O | t l - t j + t r , λ ) P ( t l - t j + t r ) - - - ( 2 )
其中,tl代表声调ti前一个发出的声调,tr代表声调ti后一个发出的声调。
如果学习文本是多音节词或者句子,那么每个音节上的声调后验概率的计算可以采用两种实现方式:
一、首先通过音素模型对语音进行强制对齐,获得音节边界,然后在每个音节段上分别计算声调后验概率;
二、直接使用上下文相关的三元声调模型进行解码,获得表示多候选结果的网格(Lattice),然后对Lattice中的所有路径进行对齐,得到声调混淆网络(参考文献“L.Mangu,E.Brill,A.Stolcke:Finding consensus in speechrecognition:word error minimization and other applications of confusionnetworks,Computer Speech&Language 14(4):373-400,2000”),每个混淆集合中的声调得分就是声调后验概率。
声调评价得分的计算公式如下:
G ( t i ) = log ( p ( O | t i , λ ) P ( t i ) Σ j = 1 N p ( O | t j , λ ) P ( t j ) ) | O | - - - ( 3 )
≅ log p ( O | t i , λ ) - log max j = 1 . . . N p ( O | t j , λ ) | O |
其中,λ表示声调模型,O为对应声调ti的声学特征序列,|O|表示序列的长度(帧数)。在使用上下文相关的三元声调模型的声调评价得分计算中,我们不需要预先知道每个声调的边界。声调的最佳边界由上下文相关的三元声调模型解码自动获得。这样就减少了对音素模型的依赖,并且很好的建模了声调上下文的影响。在连续语音的声调质量评估中,这样使用上下文相关的三元声调模型具有更好的评价性能。
把上述评分参数,如声调评价得分,映射为百分制得分或者是5分制得分,通过反馈模块4的还具有声调发音评分和错误提示功能,用以给出对声调发音质量的可度量的得分,并告知学习者声调发音错误信息以及相关改进建议。
本发明采用源-滤波器模型进行目标声调合成。如图5所示,为目标声调合成流程图,具体包括如下步骤:
(1)对学习者的发音进行声学分析,提取语音信号中的基频序列、非周期谐波成分特征和语音的语音频谱特征;
(2)用产生的目标声调的基频序列修正或替换学习者发音中的基频序列;
(3)基于源-滤波器模型,利用目标声调的基频序列和声道响应滤波器合成带有目标声调的学习者发音。
首先对学习者的发音进行声学分析,包括:提取语音信号中的激励源特征,即学习者语音的基频序列,提取非周期谐波成分特征和语音的声道响应特征,即语音频谱。采用声调模型或者音素模型对学习者的发音进行强制对齐,得到音节(syllable)边界,分析每个音节边界内的语音,提取其基频序列。基频提取可以采用很多算法,本发明中采用实时频率映射的固定点分析方法(参考文献“H.Kawahara:Fixed point analysis of frequency toinstantaneous frequency mapping for accurate estimation F0 andperiodicity,proc.Eurospeech’99,2781-2784”)。语音频谱通过短时傅立叶变换来提取,然后采用基频自适应的方法来进行谱平滑,去除周期性干扰(参考文献“H.Kawahara:Restructuring speech representations using apitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction,Speech Communication,27,187-207,1999”)。
然后使用新生成的目标声调基频序列修正或者替换学习者发音中声调的基频序列。其中,目标声调基频序列可以由基于规则的方法、或基于数据的方法、或者是规则和数据相结合的方法来产生。
基于规则的目标声调基频序列的生成方法如下:
根据实验语音学的相关研究成果,声调实现模型可以表示为一个归一化线性多项式,即:
Fi(t)=Fc+Fd·Fi(t)    (4)
其中:t为归一化时长,i∈{1,2,3,4}表示阴平、阳平、上声和去声4种声调,fc为体现学习者调域高低的基频均值,fd为体现说话人调域的宽度,fi(t)为标准声调的调形函数,本实施例中声调的调形函数表示为:
fi(t)=ai+bit-cit2+dit3-eit4    (5)
不同的声调具有不同的调性函数参数{ai,bi,ci,di,ei},根据目标声调的类型,选择对应的调形函数,并计算fc和fd,最后采用(4)式生成目标声调的基频序列。
基于数据的目标声调基频序列的生成方法如下:
首先对标准发音库中的语音按音节分组,再按照声调分组,对每组中的发音提取其声调基频序列。然后采用和声调特征处理相同的方法对基频序列进行平滑处理,采用动态时间伸缩算法(DTW,Dynamic Time Warpping)(参考文献“L.R.Rabiner,B.-H.Juang:Fundamentals of SpeechRecognition,Englewood Cliffs:Prentice Hall,1993”)对每组基频序列进行归整,得到该音节下该声调的标准基频序列模板。动态时间伸缩算法是日本学者板仓(Itakura)将动态规划技术应用于解决孤立词识别时说话速度不均匀的难题,提出的把时间规整和距离测度计算结合起来的一种非线性归整技术。
从标准基频序列模板库中选择和示例文本音节相同的发音,采用该音节下目标声调对应基频序列模板作为目标声调的基频基频序列。
接着用生成的目标声调的基频序列来代替学习者发音中的原始声调的基频序列,如果目标声调基频基频序列与原始声调基频序列的长度不同,那么需要对发音的语谱进行拉伸或者压缩,使之和目标声调基频序列的长度保持一致,可以通过插值操作实现。采用基频自适应方法使用目标声调的基频序列对做完插值操作的语音频谱进行平滑。此外,还需要根据目标声调类型调整语谱的能量分布,此为现有技术。
然后基于源-滤波器模型利用目标声调的基频序列和声道响应滤波器合成带有目标声调的学习者发音。如图4所示为源-滤波器模型的原理图。源-滤波器模型是一种通用的刻画语音信号产生的模型(参考文献“H.Dudley:Remaking speech,J.Acoust.Soc.Amer.11(2),169-177,1939”)。根据源-滤波器模型,数字语音信号x(n)可以看成是由声门产生的激励信号e(n)和声道的冲击响应h(n)进行卷积操作产生:
x(n)=e(n)*h(n)    (6)
声门激励信号e(n)即为目标基频序列,声道的冲击响应h(n)参数即为学习者的语音频谱。两者的卷积即为合成的目标声调语音。通过反馈模块4输出声音给学习者。正由于基于源-滤波器模型的声调转换采用了学习者产生的语音谱,不会改变语音的频谱特征,即学习者本人的发音特征和语音内容得以保留,这使得学习者更专注于感知声调发音错误,启发式地诱导学习者去纠正自己的声调发音。目标声调语音通过计算机设备、嵌入式计算设备(如PDA、蜂窝电话、MP3等媒体播放设备)以及专用的学习设备(如语言学习机等)的音频输出设备输出。
在得到声调后验概率之后,可以画出采用声调后验概率加权平均的二次曲线绘制声调曲线。如图6所示,为绘制声调曲线的流程图,具体包括如下步骤:
(1)设计标准声调曲线对应的二次函数的系数;
(2)计算每种声调的后验概率;
(3)使用后验概率加权标准声调曲线的二次函数,得到实际声调的曲线函数;
(4)在五度标调坐标下,绘制目标声调和实际声调的曲线。
本实施例中采用五度标调法(参考文献“Y.-R.Chao:A system of toneletters,
Figure GSB00000439217800111
Phonétique,45,24-27,1930”),设计四个二次函数来表示四声调,分别为:
t1(x)=a1x2+b1x+c1
t2(x)=a2x2+b2x+c2    (7)
t3(x)=a3x2+b3x+c3
t4(x)=a4x2+b4x+c4
通过这一组方程,在五度标调坐标中,可以绘制出4种声调的标准曲线。用A矩阵代表函数组的系数:
A = a 1 a 2 a 3 a 4 b 1 b 2 b 3 b 4 c 1 c 2 c 3 c 4 - - - ( 8 )
设经过声调识别得到四个声调的后验概率,将其表示为一个向量:
P=(p1 p2 p3 p4)
其中,pi指声调i的后验概率。
则声调后验概率加权的声调二次函数可表示为:
t(x)=PATX,其中X=(x2 x 1)T    (9)
根据(8)式在五度标调坐标下绘制学习者发音的声调曲线,如图7所示,为本实施例的标准声调曲线和实际声调曲线的比较图。标准声调曲线和实际声调曲线通过计算机等设备的显示设备输出,学习者通过和标准曲线进行比较,从而发现自己声调发音的错误或者缺陷。如停止的“停”的标准发音为ting发阳平2声调,学习者将2声发成了类似3声的样子,通过反馈模块4显示比较曲线,学习者看到后,根据曲线调整发音,直到使自己的发音曲线和标准声调曲线相近为止。
采用声调后验概率加权的声调二次函数绘制的声调曲线对于相同声调也有差异,其弯折程度和趋势有效反映了用户的声调发音准确程度,比简单的实际声调的4声调平滑曲线更加真实,比粗糙的实际声调的基频轨迹曲线更具有指导意义,不仅可以清楚地表明不同声调类型,而且可以表现相同声调的不同发音的准确程度,通过视觉能够给学习者以直观的指导。
另外,反馈模块中可以设置声调错误提示模块,用来告诉学习者声调发音错误的类型和改进的方法。
上述实施例中,声调发音学习的声学单元可以是单字、词、短语或者句子级发音。本发明所实施的上下文相关的三元声调模型、目标声调语音合成和实际语音声调曲线绘制方法支持不同长度的语音单元的声调发音学习。
如果学习内容是一段多音节连续语音的声调发音,系统首先采用上下文相关的三元声调模型对学习者的语音计算强制对齐似然度和识别似然度。在计算识别似然度时,采用根据语音音节数构造的固定长度的解码网络,可以保证高的识别正确率。然后利用声调评分算法可以计算得到音节、词和句子级的声调发音评分。根据声调识别得到的音节边界,对每个音节的声调基频序列进行修正或替换,最后合成具有标准声调发音的学习者语音,保留学习者自身语言特点和语音内容。同时,对每个音节的声调可以通过后验概率加权的二次函数绘制其曲线,学习者可以通过视觉感知每个音节上的声调发音错误。
以上所述,仅为本发明的优选实施例,并不能以此限定本发明实施的范围,凡依本发明权利要求及说明书内容所作的简单的变换,皆应仍属于本发明覆盖的保护范围。本领域的普通技术人员在具有常规的音频输入输出和显示输出的计算机设备、嵌入式计算设备(如PDA、蜂窝电话、MP3等媒体播放设备)以及专用的学习设备(如语言学习机等)上均可实现本发明所公开的错误自感知的声调发音学习方法和系统。

Claims (6)

1.一种错误自感知的声调发音学习方法,其特征在于包括如下步骤:
步骤S1:首先建立标准发音语音库,训练声调模型和音素模型,得到上下文相关的三元声调模型和音素模型;
步骤S2:从学习者的语音中提取声学特征,包括语音频谱特征和声调特征,并对声调特征进行后处理;
步骤S3:根据标准声调模型和音素模型,利用基于隐马尔可夫模型的上下文相关的三元声调模型计算反映声调质量的评分参数,得到声调评价得分、声调后验概率;
步骤S4:对学习者的发音进行声学分析,提取语音信号中的基频序列、非周期谐波成分特征和语音的频谱特征;然后生成目标声调的基频序列,并修正或替换学习者发音中的基频序列;通过基于源-滤波器模型,利用修正或替换后的基频序列和学习者语音的声道响应参数合成带有目标声调的学习者发音,并播放出来;
步骤S5:先设计标准声调曲线对应的二次函数的系数;然后计算每种声调的后验概率;使用后验概率加权标准声调曲线的二次函数,得到实际声调的曲线函数;根据声调曲线函数,绘制目标声调和实际声调的曲线;这样完成采用声调后验概率加权平均的二次函数绘制声调曲线,并将标准声调曲线和学习者实际发音的声调曲线显示出来。
2.根据权利要求1中所述的错误自感知的声调发音学习方法,其特征在于:所述步骤S4的基于源-滤波器模型生成标准目标声调语音的过程中,采用归一化线性多项式来表示声调实现模型,根据目标声调的类型,选择不同声调对应的标准归一化时间函数,并和学习者的声调基频均值和范围一同代入声调实现模型,计算得到目标声调的基频序列。
3.根据权利要求2中所述的错误自感知的声调发音学习方法,其特征在于:所述步骤S4的基于源-滤波器模型生成标准目标声调语音的过程中,首先从标准发音库中提取不同带调音节的标准声调基频序列,并进行平滑、归一化等处理,训练得到标准声调的基频序列模板;然后选择和学习者的发音相同的音节所对应的声调基频序列模板作为目标声调的基频序列。
4.根据权利要求1中所述的错误自感知的声调发音学习方法,其特征在于:还包括声调评分和错误提示功能,用以给出对声调发音质量的客观量化得分,并告知学习者声调发音错误信息以及相关改进建议。
5.根据权利要求1中所述的错误自感知的声调发音学习方法,其特征在于:基于隐马尔可夫模型的上下文相关的三元声调模型的声调评分、基于源-滤波器模型的目标声调语音合成和基于后验概率加权的二次函数声调曲线生成适用于字、词、短语和句等多种不同语音单元的声调发音学习,尤其是多音节连续语音的声调发音学习。
6.一种错误自感知的声调发音学习系统,其特征在于包括:
模型训练模块(2),建立标准发音语音库,训练声调模型和音素模型,得到标准的上下文相关的三元声调模型和音素模型;
前端处理模块(1),从学习者的语音中提取声学特征,包括语音频谱特征和声调特征,并对声调特征进行后处理;
评价参数计算模块(3),根据模型训练模块(2)得到的标准声调模型和音素模型,利用从前端处理模块(1)提取的声调特征和基于隐马尔可夫模型的上下文相关的三元声调模型计算反映声调质量的评分参数,得到学习者语音的声调评价得分、声调后验概率;
反馈模块(4),对学习者的发音进行声学分析,提取语音信号中的基频序列、非周期谐波成分特征和语音的频谱特征;然后生成目标声调的基频序列,并修正或替换学习者发音中的基频序列;通过基于源-滤波器模型,利用修正或替换后的基频序列和学习者语音的声道响应参数合成带有目标声调的学习者发音,然后设计标准声调曲线对应的二次函数的系数;然后计算每种声调的后验概率;使用后验概率加权标准声调曲线的二次函数,得到实际声调的曲线函数;根据声调曲线函数,绘制目标声调和实际声调的曲线,将具有标准目标声调的学习者语音、标准声调曲线、学习者实际发音的声调曲线和声调发音量化评分及错误提示通过播放和显示来反馈给学习者。
CN2009101861543A 2009-09-29 2009-09-29 一种错误自感知的声调发音学习方法和系统 Active CN101661675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101861543A CN101661675B (zh) 2009-09-29 2009-09-29 一种错误自感知的声调发音学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101861543A CN101661675B (zh) 2009-09-29 2009-09-29 一种错误自感知的声调发音学习方法和系统

Publications (2)

Publication Number Publication Date
CN101661675A CN101661675A (zh) 2010-03-03
CN101661675B true CN101661675B (zh) 2012-01-11

Family

ID=41789669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101861543A Active CN101661675B (zh) 2009-09-29 2009-09-29 一种错误自感知的声调发音学习方法和系统

Country Status (1)

Country Link
CN (1) CN101661675B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163428A (zh) * 2011-01-19 2011-08-24 无敌科技(西安)有限公司 汉语发音判断方法
CN102682768A (zh) * 2012-04-23 2012-09-19 天津大学 基于语音识别技术的汉语学习系统
CN102968921B (zh) * 2012-11-05 2014-12-10 北京语言大学 一种汉语语音训练系统及汉语语音训练方法
US9293129B2 (en) * 2013-03-05 2016-03-22 Microsoft Technology Licensing, Llc Speech recognition assisted evaluation on text-to-speech pronunciation issue detection
US10586556B2 (en) * 2013-06-28 2020-03-10 International Business Machines Corporation Real-time speech analysis and method using speech recognition and comparison with standard pronunciation
CN104599678A (zh) * 2013-10-30 2015-05-06 语冠信息技术(上海)有限公司 口语发音评价系统及方法
CN104485115B (zh) * 2014-12-04 2019-05-03 上海流利说信息技术有限公司 发音评价设备、方法和系统
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统
CN106856095A (zh) * 2015-12-09 2017-06-16 中国科学院声学研究所 一种拼音拼读的发音质量评测系统
CN105978722B (zh) * 2016-05-11 2019-02-26 腾讯科技(深圳)有限公司 用户属性挖掘方法及装置
CN106205603B (zh) * 2016-08-29 2019-06-07 北京语言大学 一种声调评估方法
CN106611048A (zh) * 2016-12-20 2017-05-03 李坤 一种具有在线语音测评及语音交互功能的语言学习系统
CN108288464B (zh) * 2018-01-25 2020-12-29 苏州奇梦者网络科技有限公司 一种修正合成音中错误声调的方法
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
US10896689B2 (en) 2018-07-27 2021-01-19 International Business Machines Corporation Voice tonal control system to change perceived cognitive state
CN109036384B (zh) * 2018-09-06 2019-11-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109119067B (zh) * 2018-11-19 2020-11-27 苏州思必驰信息科技有限公司 语音合成方法及装置
CN110992927B (zh) * 2019-12-11 2024-02-20 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备
CN113051985A (zh) * 2019-12-26 2021-06-29 深圳云天励飞技术有限公司 信息提示方法、装置、电子设备及存储介质
CN112259100B (zh) * 2020-09-15 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN113380231B (zh) * 2021-06-15 2023-01-24 北京一起教育科技有限责任公司 一种语音转换的方法、装置及电子设备
CN113421467A (zh) * 2021-06-15 2021-09-21 读书郎教育科技有限公司 一种辅助学习汉语拼音拼读的系统及方法
CN116894442B (zh) * 2023-09-11 2023-12-05 临沂大学 一种纠正引导发音的语言翻译方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1346126A (zh) * 2000-09-27 2002-04-24 中国科学院自动化研究所 一种带调三音子模型及训练方法
JP2004240352A (ja) * 2003-02-10 2004-08-26 Yukitoshi Cho 音声比較学習器
CN1952995A (zh) * 2005-10-18 2007-04-25 说宝堂信息科技(上海)有限公司 智能互动型语言练习装置及其方法
CN101105939A (zh) * 2007-09-04 2008-01-16 安徽科大讯飞信息科技股份有限公司 发音指导方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1346126A (zh) * 2000-09-27 2002-04-24 中国科学院自动化研究所 一种带调三音子模型及训练方法
JP2004240352A (ja) * 2003-02-10 2004-08-26 Yukitoshi Cho 音声比較学習器
CN1952995A (zh) * 2005-10-18 2007-04-25 说宝堂信息科技(上海)有限公司 智能互动型语言练习装置及其方法
CN101105939A (zh) * 2007-09-04 2008-01-16 安徽科大讯飞信息科技股份有限公司 发音指导方法

Also Published As

Publication number Publication date
CN101661675A (zh) 2010-03-03

Similar Documents

Publication Publication Date Title
CN101661675B (zh) 一种错误自感知的声调发音学习方法和系统
DiCanio et al. Using automatic alignment to analyze endangered language data: Testing the viability of untrained alignment
US20110123965A1 (en) Speech Processing and Learning
Turk et al. Robust processing techniques for voice conversion
Aryal et al. Can voice conversion be used to reduce non-native accents?
CN102214462A (zh) 用于发音评估的方法和系统
CN101785048A (zh) 基于hmm的双语(普通话-英语)tts技术
CN106057192A (zh) 一种实时语音转换方法和装置
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
Athanaselis et al. Making assistive reading tools user friendly: A new platform for Greek dyslexic students empowered by automatic speech recognition
Raitio et al. Deep neural network based trainable voice source model for synthesis of speech with varying vocal effort.
Rose et al. The potential role of speech production models in automatic speech recognition
Oura et al. Analysis of unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis using KLD-based transform mapping
Ghai et al. Exploring the effect of differences in the acoustic correlates of adults' and children's speech in the context of automatic speech recognition
Picart et al. Analysis and HMM-based synthesis of hypo and hyperarticulated speech
Peabody et al. Towards automatic tone correction in non-native mandarin
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
US8768697B2 (en) Method for measuring speech characteristics
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
Chouireb et al. Towards a high quality Arabic speech synthesis system based on neural networks and residual excited vocal tract model
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
Sisman Machine learning for limited data voice conversion
Komissarchik et al. Application of knowledge-based speech analysis to suprasegmental pronunciation training
Amdal et al. Automatic evaluation of quantity contrast in non-native Norwegian speech.
Bahaadini et al. Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
DD01 Delivery of document by public notice

Addressee: Suzhou gallop Mdt InfoTech Ltd patent controller (collect)

Document name: Notification that Application Deemed not to be Proposed

ASS Succession or assignment of patent right

Owner name: SUZHOU CHISHENG INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: SUZHOU AISPEECH INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20140910

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 215123 SUZHOU, JIANGSU PROVINCE TO: 215000 SUZHOU, JIANGSU PROVINCE

DD01 Delivery of document by public notice

Addressee: Suzhou gallop Mdt InfoTech Ltd patent controller (collect)

Document name: Notification that Application Deemed not to be Proposed

TR01 Transfer of patent right

Effective date of registration: 20140910

Address after: 102, room 210, Xinghai street, Suzhou Industrial Park, Jiangsu, Suzhou 215000, China

Patentee after: Suzhou Chisheng Information Technology Co., Ltd.

Address before: 215123 Suzhou City Industrial Park, Jiangsu Province alone lake library A104

Patentee before: Suzhou Speech Information Technology Co., Ltd.

C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Yu Kai

Inventor after: Wang Huanliang

Inventor after: Lin Yuandong

Inventor before: Yu Kai

Inventor before: Wang Huanliang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: YU KAI WANG HUANLIANG TO: YU KAI WANG HUANLIANG LIN YUANDONG