CN101105939B

CN101105939B - 发音指导方法

Info

Publication number: CN101105939B
Application number: CN2007101458591A
Authority: CN
Inventors: 魏思; 胡国平; 易中华; 刘庆升; 胡郁; 吴晓如; 刘庆峰; 王仁华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2007-09-04
Filing date: 2007-09-04
Publication date: 2012-07-18
Anticipated expiration: 2027-09-04
Also published as: CN101105939A

Abstract

本发明涉及一种发音指导方法，包括建立标准和非标准语音库；对非标准语音库中的各音素以及语音片段提供发音评价标注和语音评分标注；通过标准和非标准语音库获得非标准语音库中各音素的第一声学后验概率和音素检错阀值以及各语音片段的第一语音特征与语音评分标注之间的映射模型；获取用户发音，并根据该发音获得其各音素的第二声学后验概率以及语音片段的第二语音特征；根据该第二声学后验概率与该音素检错阀值的比较以及该第二语音特征与第一语音特征与语音评分间映射模型进行匹配，向该用户提供对其发音各音素的发音评价标注的评价内容以及语音片段的语音评分标注，让用户得知其发音中各个音素的发音是否标准以及发音中各语音片段的标准程度。

Description

发音指导方法

技术领域

本发明涉及一种发音指导方法，特别是一种用于语言学习的发音指导方法。

背景技术

目前，在现有技术中已经存在多种语言教学软件，以及多项涉及语言学习系统、方法的专利等。

例如，2006年3月16日公开的美国专利申请(公开号为US 2006/0057545A1)揭示了一种发音训练方法及系统。该方法及系统通过将用户输入的语音与预先设定在系统中的标准语音进行比较，得出该用户的发音是否标准的结论，当回放该用户语音时同时将每个片段的发音质量显示给用户，从而指导该用户发音。

2007年3月8日公开的美国专利申请(公开号为US 2007/0055523A1)揭示了一种发音训练系统，这种系统是通过帮助用户注意到其发音器官及其肌肉运动，并了解到正确发音与肌肉运动之间的相应关系，使用户了解到其发音应如何进行纠正，从而指导用户进行正确发音。

发明内容

本发明的一个发明目的在于提供一种新的发音指导方法，该方法能够让用户得知其发音中各个音素的发音是否标准。

本发明的另一个发明目的在于提供一种新的发音指导方法，该方法能够让用户得知其发音中各语音片段的标准程度。

为了实现上述发明目的，本发明提供一种发音指导方法，所述方法包括如下步骤：

通过录音装置和存储装置建立标准语音库和非标准语音库；

对所述非标准语音库中的各音素进行发音评价标注；所述发音评价标注的评价内容包括发音正确和发音错误；

根据所述标准语音库和所述非标准语音库分别建立标准发音模型和非标准发音模型；

基于所述标准发音模型和所述非标准发音模型，以及所述非标准语音库的音素发音评价标注，分别建立每个非标准发音人对应的第一正确发音模型和第一错误发音模型；

根据所述第一正确发音模型、所述第一错误发音模型以及所述非标准语音库中音素的所在的语音片段来获得在固定音素切分边界条件下的该语音片段中的该音素的第一声学后验概率；

根据所述发音评价标注以及所述非标准语音库中各音素的第一声学后验概率，训练得到所述非标准语音库中各音素的音素检错阀值；

获取用户基于第一发音材料的发音；

根据所述第一正确发音模型和所述第一错误发音模型中的至少一个正确发音模型和错误发音模型以及该发音的音素所在的语音片段，来获得在固定音素切分边界条件下的该语音片段中该音素的第二声学后验概率；

将所述发音中的各音素的第二声学后验概率与该音素对应的音素检错阀值相比较；

根据所述比较结果，确定所述发音中的各音素对应在所述发音评价标注中的评价内容；当所述发音中的音素的第二声学后验概率不小于该音素对应的音素检错阀值时，所述发音中的音素的评价内容为发音正确，当所述发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时，所述发音中的音素的评价内容为发音错误；

将所述发音中的各音素的评价内容显示。

与现有技术相比，本发明通过引入非标准语音库，并对所述非标准语音库中的各音素提供发音评价标注，通过该非标准语音库与标准语音库分别建立第一正确发音模型和第一错误发音模型；然后，根据所述第一正确发音模型、所述第一错误发音模型以及所述非标准语音库中音素的语音片段来获得该语音片段中的该音素的第一声学后验概率；根据所述发音评价标注以及所述非标准语音库中各音素的第一声学后验概率，训练得到所述非标准语音库中各音素的音素检错阀值；在判断时，先获取用户基于第一发音材料的发音；根据所述第一正确发音模型和所述第一错误发音模型中的至少一个正确发音模型和错误发音模型以及该发音的音素所在的语音片段，来获得在所述语音片段中该音素的第二声学后验概率；最后将所述发音中的各音素的第二声学后验概率与该音素对应的音素检错阀值相比较；根据所述比较结果，确定所述发音中的各音素对应在所述发音评价标注中的评价内容；将所述发音中的各音素的评价内容提供给该用户，因此该用户可获知其发音中各音素的评价内容，从而实现让该用户得知其发音中各个音素的发音是否标准。同时本发明提出了基于用户的语音数据进行第二声学后验概率的计算方法，有效实现了发音指导系统针对该用户的优化，提高了发音指导的准确性。

本发明提供另一种发音指导方法，所述方法包括如下步骤：

通过录音装置和存储装置建立标准语音库和非标准语音库；

对所述非标准语音库中的语音片段进行语音评分标注，并对所述非标准语音库的音素进行发音评价标注，所述发音评价标注的评价内容包括发音正确和发音错误；

根据所述第一正确发音模型、所述第一错误发音模型以及所述非标准语音库中音素所在的语音片段来获得在所述语音片段中，在固定音素切分边界条件下的该音素的第一声学后验概率；

根据该语音片段中各音素的第一声学后验概率，获取该语音片段的第一语音特征；

将各语音片段的第一语音特征与所述语音评分标注之间建立映射；

获取用户基于第一发音材料的发音；

根据所述第一正确发音模型和所述第一错误发音模型中的至少一个正确发音模型和错误发音模型以及该发音的音素所在的语音片段，来获得在所述语音片段中，在固定音素切分边界条件下的该发音的语音片段中该音素的第二声学后验概率；

根据所述发音的语音片段中各音素的第二声学后验概率，获取所述发音的语音片段的第二语音特征；

将与所述第二语音特征匹配的第一语音特征映射对应的语音评分标注显示。

与现有技术相比，本发明通过引入非标准语音库，并对所述非标准语音库中的语音片段提供语音评分标注，通过该非标准语音库与标准语音库分别建立第一正确发音模型和第一错误发音模型；然后根据所述第一正确发音模型、所述第一错误发音模型以及所述非标准语音库中音素所在的语音片段来获得在所述语音片段中该音素的第一声学后验概率；根据该语音片段中各音素的第一声学后验概率，获取该语音片段的第一语音特征；将各语音片段的第一语音特征与所述语音评分标注之间建立映射；在评价时，获取用户基于第一发音材料的发音；根据所述第一正确发音模型和所述第一错误发音模型中的至少一个正确发音模型和错误发音模型以及该发音的音素所在的语音片段，来获得在所述发音的语音片段中该音素的第二声学后验概率；根据所述发音的语音片段中各音素的第二声学后验概率，获取所述发音的语音片段的第二语音特征；最后将与所述第二语音特征匹配的第一语音特征映射对应的语音评分标注提供给该用户，从而让该用户得知其发音中各语音片段的标准程度。

作为对以上方法的进一步改进，所述第一发音材料为该用户任意选取的发音材料。借此，该用户可任意选择发音材料，避免系统提供发音材料有限的缺陷，而且用户可根据自己偏好来选择发音材料，也可让该用户练习适合自己的发音材料，可有效提高学习的兴趣。

作为对以上方法的进一步改进，根据所述用户的发音中的各音素的发音正确和错误信息，建立第二正确发音模型和第二错误发音模型；然后将所述第二正确发音模型和第二错误发音模型分别替换所述至少一个正确发音模型和错误发音模型。这样该正确发音模型和错误发音模型可随该用户的发音水平的提高而不断更新，实现了发音指导系统针对该用户的优化，这样也扩大正确发音模型和错误发音模型的来源，而且可让该用户可根据发音练习的历史记录来自我提高指导。

附图说明

图1是构建本发明实施例发音指导方法的发音标准程度评测模型的流程示意图。

图2是使用本发明实施例发音指导方法的流程示意图。

具体实施方式

本发明发音指导方法主要用于对语言学习者的发音进行指导，特别是普通话或第二外语，如英语等，该方法能够让用户得知其发音中各个音素的发音是否标准，并可评价其发音中各个语音片段的标准程度，从而来有效指导该用户发音。

为了实现该发音指导方法，需要构建发音标准程度评测模型，为评价用户发音的建立平台。

具体来讲，如图1所示，在开始构建该发音标准程度评测模型时，可先建立标准语音库，也可先建立非标准语音库，当然也可同时建立该标准语音库和非标准语音库。

在步骤101中，通过对标准语音库的录制，并对该标准语音库进行标注出发音的音素序列(对普通话可以使声韵母，但本文件统一成为音素)，来建立标准发音模型。具体来讲，是通过现有的录音装置，如录音机等来录制标准发音人的标准发音，然后将该标准发音转成语音信号，然后存储在存储装置中，以备后续调用。该语音信号优选为数字信号，也可为其他类型的信号，如电磁信号等。该存储装置可是个人电脑或者服务器或者其他电子设备的存储器。该录音的文本或材料，也即第一录音材料，根据需要可分为单字、词语、句子以及短文几个不同的级别，每个级别根据需要可录制一定的语音数据，然后存放在该存储装置中。作为优选方式，该录音文本被设计来尽量覆盖各种音素组合，同时挑选合适的标准发音人，例如对于普通话发音人员，优选地其发音的水平达到普通话水平测试一级甲等。在选择该标准发音人时，也可考虑其性别、年龄、籍贯等分布，使得分布尽量均衡，一般而言，标准发音人建议达到50人以上，以获得音素更全面的标准语音数据。

在步骤102中，获得标准语音库后，在该标准语音库中的标准语音数据的基础上，提取相应的声学参数特征。具体来讲，该声学参数特征可以包括谱和基频信息。在本实施例中，谱信息采用现有技术手段来提取，如英国剑桥大学发布的Hidden Markov Model Toolkit(HTK)3.4版本(隐马尔科夫模型工具包)中的专门用于声学特征提取的HCopy工具来提取的39维MFCC_0_D_A；基频信息也可通过现有技术手段来提取，如该提取算法则采用了Rabiner L R.提出的自相关基频提取算法，参见IEEETransaction on Acoustic Speech Signal Processing(IEEE声学、语音和信号处理杂志)1997年出版的第25卷的第24～33页论文《On the use ofautocorrelation analysis for pitch detection.IEEE Trans(自相关分析在基频检测中的应用)》。当然以上信息的提取方法也可用所属技术领域人员知悉的其他方法。

在步骤103中，获取该声学参数特征后，然后对该声学参数特征进行规整处理。具体来讲，对以上谱信息可进行声道长度规整算法(VoiceTract Length Normalization，VTLN)和倒谱均值规整(Cepstral MeanNormalization，CMN)等技术的规整；对基频信息可进行累计分布函数映射方法(Cumulative Distribution Function Matching)的规整。

在步骤104中，对该声学参数特征进行规整处理后，将该规整的声学参数特征通过训练模块来进行模型训练，该训练可基于HMM(隐马尔科夫模型)的声学模型，该训练的算法和工具可使用英国剑桥大学发布的Hidden Markov Model Toolkit(HTK)中声学模型训练工具和流程。在该训练中，可以进一步进行根据标准发音人音色的相近程度来进行聚类的处理。聚类过程如下：对每个标准发音人所提取出来的谱特征，训练高斯混合模型(Gaussian Mixture Model，GMM)，并定义两个发音人之间的距离为其对应高斯混合模型之间的马氏距离(Mahalanobis Distance)，采用传统的自底向上方法距离，且两个聚类间的距离定义为两个类内的GMM间的平均距离。对聚成一类的发音人，单独训练出这一类数据所对应的标准模型，这样根据不同的聚类颗粒度，可以构建出一个树状的标准模型库，于是在针对非标准发音人或者语言学习者的录音时(以下详细说明)，可以从该树状标准模型库上挑选出最为合适的标准模型，实现标准模型的细化和与目标发音人的近似。通过该模型训练处理后，获得标准声学模型。

在步骤105中，通过对非标准语音库的录制和专家标注，来提供非标准语音库，其与提供标准语音库的方法相似。具体来讲，聘请语音学专家对非标准语音数据的标准程度进行评判。与以上提供标准语音库的方法类似，也需要注意第二录音材料的录音文本的设计和录音人的挑选，这里除了要求以上所述分布均衡之外，还需要考虑录音人发音水平尽量覆盖各种标准程度的发音水平，一般非标准发音人建议达到300人。

该专家标注包括两个大的部分：对非标准语音库中的各音素提供发音评价标注和对非标准语音库中的语音片段提供语音评分标注。具体来讲，对于该发音评价标注的评价内容主要包括发音正确和发音错误，主要用于：当用户发音中的音素的第二声学后验概率(以下详细描述)不小于该音素对应的音素检错阀值(以下详细描述)时，对该发音中的音素的评价内容为发音正确；当该发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时，该发音中的音素的评价内容为发音错误。此外，同时专家在标注过程中，总结出一些比较有代表性的错误，并对如何纠正这些错误(如“n”错发成“l”)进行一定的说明和指导。也就是，该评价内容在该发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时还包括对该发音中的音素的纠正、指导信息。

对于非标准语音库中的语音片段提供语音评分标注，该专家标注一般需要标注总体感觉上的发音标准程度，也即专家评分，同时也可标注每个音素有无错误或者缺陷，具体的错误类型(如漏读、增读、错读以及错读成的音素，如声母“n”错成声母“l”)。例如对语音片段(如句子)的评分，即每个句子一个专家评分，当然也可以是段落或者更多文字层面。该评分的标准因人而异，以对句子的专家评分为例，如5分制，标准如下：

5分：非常流利，非常标准；

4分：较为流利且发音基本标准，基本感觉不出来方言口音；

3分：听懂没有任何问题，但觉得还有很多的改进空间。

2分：听懂较为吃力，有一定程度的方言口音和发音错误。

1分：听不懂了，方言太重，或者发音错误太多。

一般，音素发音错误的标注，则对于普通话，则采用了国家普通话水平评测大纲，对于英文，则采用专家的意见。

在步骤106中，获得非标准语音库后，在该非标准语音库中的非标准语音数据的基础上，提取相应的声学参数特征(包括谱和基频信息)，该声学参数特征的提取方法与上述对标准语音库操作中的声学参数特征的提取方法相同，在此不再赘述。

在步骤107中，获取非标准语音数据的声学参数特征后，对该声学参数特征进行规整处理，该规整处理方法与上述对标准语音库操作中的规整处理方法相同，在此不再赘述。

在步骤108中，在获取非标准语音数据的声学参数特征后，根据以上在步骤104中获得的标准声学模型，将规整后的非标准语音数据的声学参数特征进行切分(Force Alignment)，Force Alignment算法可以参见英国剑桥大学发布的Hidden Markov Model Toolkit(HTK)中的HVite工具。

在步骤109中，根据步骤108中非标准语音数据的声学参数特征的切分结果，绑定音素边界，通过英国剑桥大学发布的Hidden Markov ModelToolkit(HTK)中的HVite工具重新进行识别。如果识别结果与原始文本对应的音素一致的，认为是正确发音数据，否则视为错误发音数据，以此方法最终将每个非标准发音人的录音数据划分成正确发音数据和错误发音数据两部分。

在步骤110中，根据以上对非标准发音人的录音数据划分成结果，针对每个非标准发音人，在所述标准声学模型的基础上引入最大似然线性回归技术(Maximum Likelihood Linear Regression，MLLR)等语音声学模型自适应技术，将标准声学模型分别自适应得到该非标准发音人对应的第一正确发音模型和第一错误发音模型。

在步骤111中，对非标准语音数据的声学参数特征进行规整处理后，将该规整的声学参数特征通过训练模块来进行非标准模型训练，从而获得非标准声学模型。该非标准模型的训练与上述标准模型的训练的工作原理相同，在此不再赘述。在非标准模型训练时，将所有非标准发音人的数据全部放在一起完成训练。

在步骤112中，根据以上获得的标准声学模型和非标准声学模型，为后续处理步骤准备各个音素的第一竞争列表。某个音素(记为音素A)的竞争列表是一个音素的集合，是指用于判断当前语音片段是否就是音素A发音时一般通过尝试检查是不是其他音素(记为音素B)来实现，而所有的音素B构成的集合即所述的竞争列表。设计竞争列表有助于减少语音识别器错误造成的负面影响，也可以有效的降低尝试的音素数目(理论上需要尝试音素体系中所有的其他音素)以达到提高系统运行效率的目的。本发明采用发明人提出的基于KLD准则的竞争列表获取算法。该算法工作流程如下：对每个音素，计算其标准声学模型与其它各个音素的标准声学模型之间的KL距离(Kullback-Leibler Distance，KLD)，同时计算其非标准声学模型与其它音素的非标准声学模型之间的KL距离，并对上述KL距离进行相减(前者减后者)后按从大到小排序，把排序在前面若干个(根据具体实验确定，建议为5～10)定义为该音素的音素竞争列表(记为第一音素竞争列表)。一般也还会把平均音素模型(Filler，即把所有音素的数据混合在一起训练得到的声学模型)引入竞争列表，用于代表相似音素之外的其他音素对当前音素的竞争。

在步骤113中，由专家在非标准音库上完成的每个发音错误的音素的标注信息，统计得到每个音素易犯错成什么其他音素及其概率，通过简单的概率阈值处理，可以得到每个音素的基于专家知识的第二音素竞争列表，最后与上述自动得到的第一音素竞争列表相融合(也即求并集)，得到最终用于发音指导系统的各音素竞争列表，也即评估音素竞争列表。

在步骤114中，在固定音素切分边界条件下，对每个音素计算声学后验概率：基于第一正确发音模型计算该音素的第一声学似然值(Likelihood)，基于第一错误发音模型该音素的第二声学似然值，及该音素对应的语音片段作为该音素竞争列表中其他音素的第一、第二声学似然值，最后将该音素的第一声学似然值除以上述所有第一、第二声学似然值之和，得到该音素的第一声学后验概率。

在步骤115中，以上完成发音标准程度评测模型的框架，然后对完成发音标准程度评测模型进行训练。具体来讲，主要是完成非标准语音库中的语音片段提供语音评分标注与语音片段中各音素的第一声学后验概率之间的关系。具体来讲，基于非标准语音库中对各音素的发音评价标注(包括发音错误和发音正确的评价内容)，以及这些音素的第一声学后验概率值，完成音素检错阈值的训练(音素检错子系统对于声学后验概率低于阈值的音素判断为错，否则判断为正确的音素)，从而获得音素检错阈值。发音训练过程为采用遍历的方法找到最佳的音素检错阈值使得音素检错阈值在召回率和正确率之间取得平衡，达到最好的性能。

然后，根据非标准语音库中的语音片段中各音素的第一声学后验概率，获取该语音片段的第一语音特征，例如语音片段中音素最高、平均、最小的第一声学后验概率，并将各语音片段的第一语音特征与所述语音评分标注之间建立映射，该语音评分标注可参见上述的5分制，也可是3分制～10分制，该映射可以采用线性映射的方法。

因此，由上可建立根据本发明的发音标准程度评测模型，当然在不偏离该发音标准程度评测模型的原则下，以上各步骤的先后顺序可根据实际构造要求来调整。以下详细说明运用该发音标准程度评测模型来进行的发音指导方法。该发音指导方法作为应用系统或者软件主要在用户终端设备上运行，如桌上电脑、笔记本、互联网、局域网等等。

如图2所示，当使用该发音指导方法时，首先进入开始步骤，来进入系统提供的界面。在步骤201中，该系统来判断用户是否为新用户，若是进入步骤202，若否进入步骤224。在步骤202中，该用户可进行用户注册，以便成为注册用户，该注册信息包括姓名、密码、性别、国籍、籍贯、出生年月、学历、口音等等信息中一个或者多个的组合。当用户完成注册后，进入步骤203，来初始化所述发音标准程度测评模型的第一正确发音模型和第一错误发音模型中的一个或者多个第一正确发音模型和第一错误发音模型。具体来讲，根据用户的注册信息(主要根据性别、国籍、籍贯和年龄信息)，从上述系统平台的第一正确发音模型和第一错误发音模型中创建该新用户的一个第一正确发音模型和一个第一错误发音模型，根据需要也可为多个。具体创建方法为在系统中的第一正确发音模型和第一错误发音模型中根据上述信息选择最为合适的模型作为该新用户的初始模型，以备发音标准程度评估的算法时候使用。然后进入步骤204。在步骤224中，该系统读取该用户之前已经保存以作为第一正确发音模型和第一错误发音模型(以下详细说明)，以备发音标准程度评估的算法时候使用，模型读取结束后进入步骤204。在步骤204中，系统要求用户选择是否学习新的内容，也即选择第一发音材料。

当该学习新的内容为新的时，进入步骤205，该用户可输入学习的内容，也即第一发音材料，此时系统提供文本编辑框，让用户输入要学习的内容，此时用户可以从其他文本源或者网站拷贝粘贴或者手工输入所学习的内容，也可是系统本身提供的，从而可选择任何发音材料。内容分为不同级别，例如对于中文则分为字、词、句和短文四级；对于英文则分为词、短语、句子和短文四级。下文中字、词、短语、句子或短文统称学习单元，从而使得对任意文本可进行评测。由于可任意选择该第一发音材料，因此避免系统提供发音材料有限的缺陷，而且用户可根据自己偏好来选择发音材料，也可让该用户练习适合自己的发音材料，可有效提高学习的兴趣。

在步骤206中，系统将自动合成学习内容对应的带读标准语音，具体来讲，系统调用集成的或者网络访问的高自然度语音合成引擎，合成待学习内容所对应的语音。然后进入步骤208。

当该学习新的内容为不是新的时，进入步骤207，来让用户选定复习内容，也即为系统提供的第一发音材料，具体来讲，系统将列出所有已经学习过的内容，如果内容较多，则按时间建一些层级索引。然后进入步骤208。

在步骤208中，系统让用户确认之前选择的是否是学习新的第一发音材料。如果之前选择的是学习新的第一发音材料，则进入步骤209，以进行播放当前第一发音材料的带读语音，也即播放当前学习单元对应的合成语音。在步骤210中，该用户进行跟读学习，也就是用户根据播放的语音，进行一遍跟读练习。然后进入步骤211。如果之前选择的不是学习新的第一发音材料，则进入步骤209，该用户将根据文字提示来朗读，然后进入步骤211。

在步骤211中，系统将录制该用户的发音并提取该用户语音的声学参数特征，也即数据谱和基频信息。具体来讲，与上述提取标准语音数据的声学参数特征相同，以同样的方法来提取用户这段语音的谱和基频信息。

在步骤212中，根据当前学习的第一发音材料，将用户发音数据切分为一个个音素(对于中文可以是声韵母)，切分算法与上述的切分方法相同，在此不再赘述。

在步骤213中，根据步骤212中的切分结果规整用户语音数据所提取的谱和基频信息，该规整的方法与上述的规整方法相同，在此不再赘述。

在步骤214中，根据该用户个人定制或者创建的第一正确发音模型和第一错误发音模型以及该音素所在的语音片段，计算每个发音音素的第二声学后验概率，其与计算第一声学后验概率的方法相同，在此不必赘述。

在步骤215中，对于当前音素的音素竞争列表中的每一个音素，同样根据该用户定定制或者创建的第一正确发音模型和第一错误发音模型以及该音素所在的语音片段来计算似然度，也即用户发音音素的第二声学后验概率。

在步骤216中，对用户发音的每个音素的第二声学后验概率进行检验，生成用户的发音音素的正确或错误的评价内容。具体来讲，如上所述，当用户发音中的音素的第二声学后验概率不小于该音素对应的音素检错阀值时，对该发音中的音素的评价内容为发音正确；当该发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时，该发音中的音素的评价内容为发音错误。此外，同时还生成在该发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时对该发音中的音素的纠正、指导信息。

在步骤217中，该系统根据所述非标准语音库中的语音片段的第一语音特征与所述语音评分标注之间建立映射关系，通过步骤215步获得的第二声学后验概率，从而获得该发音的语音片段的第二语音特征，获得该第二语音特征与获得第一语音特征的方法相同，然后生成与第二语音特征匹配的第一语音特征映射对应的语音评分标注，从而对所有句子的平均标准程度得分估计出用户当前发音的标准程度。

在步骤218中，该系统将评价的结果(也即：评价内容和语音评分标注)显示给用户，具体包括每个音素(对于中文则是声韵母和调)的检错结果以及整个学习单元的综合评价结论。

由上可知。该发音指导方法可让用户得知其发音的标准与否以及发音的语音片段的标准程度，并得知其发音存在错误的位置。

作为进一步改进，在步骤219中，根据用户当前发音中每个音素的发音正确、发音错误信息，来获取第二正确发音模型和第二错误发音模型，来更新该用户的初始化时选择的至少一个第一正确发音模型和第一错误发音模型，并作为该用户保存的以便下次学习的第一正确发音模型和第一错误发音模型，这样该正确发音模型和错误发音模型可随该用户的发音水平的提高而不断更新，这样也扩大正确发音模型和错误发音模型的来源，而且可让该用户可根据发音练习的历史记录来自我提高指导，以逐步提高系统判断该用户发音标准程度的能力。

作为进一步改进，在步骤220中，该系统判断用户当前单元的发音标准程度是否超过了某个预先设置的预设标准判断阈值，来判断该用户的发音是否足够标准。具体来讲，计算未超过对应音素检错阈值的发音的各音素数量占所述用户的发音中的总音素数量的百分比作为判断阈值；如果该判断阈值不小于该预设标准判断阈值，则判断整体发音标准；如果该判断阈值小于该预设标准判断阈值，则判断整体发音不标准。

如果220步中用户发音不够标准，则进入步骤221，从而进一步判断用户当前学习第一发音材料的练习次数是否已经达到某个上限，如果没有达到该上限，则返回到步骤208，重新跟读或不跟读的方式练习一遍当前学习的第一发音材料，一直重复直到发音足够标准或者重复练习次数超过预先设置的上限；如果达到该上限，则进入步骤222。具体来讲，可提供发音次数阈值；如果用户对第一发音材料的一次发音的判断阈值小于该标准判断阈值，则发音次值加一；如果用户对第一发音材料的发音累计次数值不小于该发音次数阈值，进入步骤222；如果用户对第一发音材料的发音累计次数值小于该发音次数阈值，则进入步骤202。另外，如果步骤220中用户发音够标准，则也直接进入步骤222。

在步骤222中，来判断用户是否完成了所有学习的第一发音材料。如果没有完成所学习的发音材料，则进入步骤223，系统将移向下一个学习内容，也即第二发音材料，然后进步步骤208，开始新一个学习单元的学习过程。如果完成了所学习的第一发音材料，则进入步骤225，该系统将保存该第二正确发音模型和第二错误发音模型，来更新系统中第一正确发音模型和第一错误发音模型。

在步骤226中，系统保存该用户学习的发音材料以及学习的评价结果，例如具体学习了哪些字词句，发音练习的标准程度进步曲线等信息，以便下次复习和跟踪学习成果。最后，结束学习。

尽管通过以上实施例并结合附图对本发明进行了揭示，但是本发明的范围并不局限于此，在不偏离本发明构思的条件下，以上各元件或步骤可用所属技术领域人员了解的相似或等同元件或步骤来替换。

Claims

1.一种发音指导方法，其特征在于：所述方法包括如下步骤：

通过录音装置和存储装置建立标准语音库和非标准语音库；

对所述非标准语音库中的各音素进行发音评价标注，所述发音评价标注的评价内容包括发音正确和发音错误；

获取用户基于第一发音材料的发音；

根据所述第一正确发音模型和所述第一错误发音模型中的至少一个正确发音模型和错误发音模型以及该用户发音的音素所在的语音片段，来获得在固定音素切分边界条件下的该语音片段中该音素的第二声学后验概率；

根据所述比较结果，确定所述发音中的各音素对应在所述发音评价标注中的评价内容，当所述发音中的音素的第二声学后验概率不小于该音素对应的音素检错阀值时，所述发音中的音素的评价内容为发音正确，当所述发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时，所述发音中的音素的评价内容为发音错误；

将所述发音中的各音素的评价内容显示。

2.根据权利要求1所述的发音指导方法，其特征在于，所述评价内容在所述发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时还包括对所述发音中的音素的纠正、指导信息。

3.一种发音指导方法，其特征在于：所述方法包括如下步骤：

通过录音装置和存储装置建立标准语音库和非标准语音库；

对所述非标准语音库中的语音片段进行语音评分标注，并对所述非标准语音库中的各音素进行发音评价标注，所述发音评价标注的评价内容包括发音正确和发音错误；

获取用户基于第一发音材料的发音；

4.根据权利要求3所述的发音指导方法，其特征在于，所述映射为线性映射，所述第一语音特征包括与该第一语音特征对应的语音片段中音素的最高、平均和最低的第一声学后验概率；所述第二语音特征包括该第二语音特征对应的语音片段中音素的最高、平均和最低的第二声学后验概率。

5.根据权利要求3所述的发音指导方法，其特征在于，该方法还包括：

对所述非标准语音库中的各音素提供发音评价标注；

当所述发音中的音素的第二声学后验概率不小于该音素对应的音素检错阀值时，给该用户提供该音素的发音正确的信息，当所述发音中的音素的第二声学后验概率小于该音素对应的音素检错阀值时，给该用户提供该音素的发音错误的信息。

6.根据权利要求1至5中任一项所述的发音指导方法，其特征在于，所述第一发音材料为该用户任意选取的发音材料。

7.根据权利要求2或5中任一项所述的发音指导方法，其特征在于，该方法还包括：

根据所述用户的发音中的各音素的发音正确和错误信息，建立第二正确发音模型和第二错误发音模型；

将所述第二正确发音模型和第二错误发音模型分别替换所述至少一个正确发音模型和错误发音模型。

8.根据权利要求1至5中任一项所述的发音指导方法，其特征在于，所述建立非标准语音库的步骤包括：

选择非标准发音人，选择覆盖各种音素组合的录音材料；

录制所述非标准发音人对所述录音材料的发音作为所述非标准语音库。

9.根据权利要求1至5中任一项所述的发音指导方法，其特征在于，根据所述标准语音库和所述非标准语音库分别建立第一正确发音模型和第一错误发音模型的步骤包括：

从所述标准语音库和所述非标准语音库中提取声学参数特征；

对提取的所述声学参数特征进行规整；

对所述标准语音库和所述非标准语音库的声学参数特征规整后进行训练，分别得到所述标准发音模型和所述非标准发音模型；

用所述标准发音模型对所述非标准语音库的声学参数特征规整后得到的声学参数进行切分，来获得正确发音数据和错误发音数据；

基于所述正确发音数据和所述错误发音数据对标准发音模型进行自适应训练来获得所述第一正确发音模型和所述第一错误发音模型。

10.根据权利要求1、2或5所述的发音指导方法，其特征在于，根据所述第一正确发音模型、所述第一错误发音模型以及所述非标准语音库中音素所在的语音片段来获得在所述语音片段中的音素的第一声学后验概率的步骤包括：

根据所述标准发音模型和非标准发音模型，获取第一音素竞争列表；

根据对所述非标准语音库中对于各音素的发音正确和错误信息，获得第二音素竞争列表；

将该第一音素竞争列表和该第二音素竞争列表合并获得评估音素竞争列表；

基于所述第一正确发音模型计算该音素的第一声学似然值；

基于所述第一错误发音模型计算该音素的第二声学似然值；

将该音素对应的语音片段作为该音素在该评估音素竞争列表中其他音素的第一、第二声学似然值；

将该音素的第一声学似然值除以该音素的第一声学似然值、第二声学似然值以及其他音素的第一、第二声学似然值之和，得到所述第一声学后验概率。

11.根据权利要求1、2或5中任一项所述的发音指导方法，其特征在于，所述方法还包括以下步骤：

将所述用户的发音中的各音素的第一声学后验概率与该音素对应的音素检错阀值进行比较；

计算未超过对应音素检错阈值的各音素数量占所述用户的发音中的总音素数量的百分比作为判断阈值；

提供预设标准判断阈值以及发音次数阈值；

如果所述用户对所述当前发音内容的一次发音的判断阈值小于该预设标准判断阈值，则发音次数值加一；

如果该用户对所述第一发音材料的发音累计次数值不小于该预设标准判断阈值，则完成对所述第一发音材料的发音或者选择第二发音材料进行发音；

如果该用户对所述第一发音材料的发音累计次数值小于该发音次数阈值，则选择所述第一发音材料继续发音。