CN102568475A

CN102568475A - 用于普通话水平测评的系统和方法

Info

Publication number: CN102568475A
Application number: CN2011104597198A
Authority: CN
Inventors: 高前勇; 魏思; 胡国平; 何婷婷; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2011-12-31
Filing date: 2011-12-31
Publication date: 2012-07-11
Anticipated expiration: 2031-12-31
Also published as: CN102568475B

Abstract

本发明提供了一种用于普通话水平测评的系统和方法。根据本发明的方法包括：获取用户朗读标准文本的语音信号；根据标准文本构建识别网络，所述识别网络包括增读、漏读以及重复模型；基于所述识别网络，将所获取的语音信号与所述标准文本按字音对齐；以及根据字音对齐结果，对用户的普通话水平进行评分。根据本发明的基于复杂朗读实际问题模拟的识别网络，根据本发明的普通话评测系统和方法可以更准确、全面、客观地评测被测用户的普通话水平。

Description

用于普通话水平测评的系统和方法

技术领域

本发明一般地涉及计算机语音信号处理领域，特别地涉及计算机实现的用于普通话水平测试的系统和方法。

背景技术

普通话水平测试是推广普通话工作的重要方法，是使推广普通话工作逐渐走上科学化，规范化，制度化的重要举措。自2007年国家语委正式推广应用计算机智能测试和信息管理系统后，许多省市已经实现计算机辅助测试普通话。利用智能测试系统，计算机可以自动完成对有文字标注的前三题测评。普通话智能测试简化了评测程序，减轻了测试人员的工作量和劳动强度，降低了传统人工测试模式的难度和成本，提高了测试的客观性。

现有的普通话测评系统首先将用户语音和朗读文本对齐，确定每个标准模型对应的语音片断。随后计算各标准模型对应的语音片断和该标准模型的相似度以确定用户对具体字词的发音标准程度，进而给出普通话水平综评。显然在现有普通话评测系统的设定下，用户普通话水平测评结果的合理性很大程度上取决于用户朗读文本和预设标准文本的一致程度。当文本一致时，语音信号和朗读文本合理对齐，相应的语音段和标准模型的相似度度量可以真实反映用户发音的标准程度。反之当用户由于对朗读文本不熟悉或紧张等原因导致朗读不通顺时，其朗读文本已经不同于标准文本，将该语音信号和朗读文本强制对齐将导致字符语音段切分不准确。在这种情况下，后续计算得到的语音段和其对应标准模型的相似度无法真实反映用户字词发音的标准程度，进而基于相似度度量的普通话评测结果不够准确可靠。

另一方面，现有的语音评测系统给出的测评结果主要基于用户在具体字词发音上的标准度，而对朗读熟练度较少涉及，主要仅简单通过时长，语速等特征来体现。而根据《大纲》要求，“普通话水平测试不是普通话系统知识的考试，不是文化水平的考核，也不是口才的评估，是应试人运用普通话所达到的标准程度的检测和评定。”可见普通话水平应该包含发音正确度和流畅度两个方面。事实上也不存在一个只会普通话声韵母和音节发音的普通话高手。因此，现有的语音评测系统的评测结果不能全面反映被测人员的普通话水平。

发明内容

为了克服现有技术中的上述缺陷，本发明提出了一种改进的能够准确且客观地反映用户的普通话朗读水平的测评方法和系统。

根据本发明的第一方面，提出了一种用于普通话水平测评的方法，包括：获取用户朗读标准文本的语音信号；根据标准文本构建识别网络，所述识别网络包括增读、漏读以及重复模型；基于所述识别网络，将所获取的语音信号与所述标准文本按字音对齐；以及根据字音对齐结果，对用户的普通话水平进行评分。

根据本发明的另一方面，提出了用于普通话水平测评的系统，包括：语音获取装置，用于获取用户朗读标准文本的语音信号；识别网络构建装置，用于根据标准文本构建识别网络，所述识别网络包括增读、漏读以及重复模型；字音对齐装置，用于基于所述识别网络，将所获取的语音信号与所述标准文本按字音对齐；以及评分装置，用于根据字音对齐结果，对用户的普通话水平进行评分。

优选地，根据标准文本构建识别网络包括：将标准文本的字符按自左到右排列形成基本路径；以及在所排列成的基本路径中增加增读、漏读以及重复模型以形成所述识别网络。

优选地，基于识别网络实现字音对齐包括：在所述识别网络的搜索空间中找到匹配所述朗读语音信号的最优路径；以及基于所述最佳路径，对齐所述朗读语音信号和标准文本，具体地包括确定最优路径中的与标准文本对应的字符，以及将所确定的对应的字符和所述朗读语音信号对齐。

优选地，根据字音对齐结果对用户的普通话水平进行评分包括：计算朗读熟练度得分和/或计算发音标准度得分。

所述计算朗读熟练度得分包括：根据字音对齐结果，比较所述最优路径的字符与所述标准文本的内容差异；以及根据所述内容差异计算所述朗读熟练度得分。

所述计算发音标准度得分包括：根据字音对齐结果，计算所述普通话语音信号中对应于标准文本中的字符的有效语音段的发音标准度；以及综合所有有效语音的发音标准度，计算用户的发音标准度得分。

根据本发明的普通话朗读水平的测评方法和系统能够更加准确、全面且客观地反映用户的普通话水平。

附图说明

通过参考附图阅读下文的详细描述，本发明的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据现有技术的用于普通话水平测评的方法的流程图；

图2示意性地示出了根据发明一个实施例的用于普通话水平测评的方法的流程图；

图3示意性地示出了根据本发明的一个实施例的参考网络的构建构成过程；

图4示意性地示出了根据本发明的一个实施例的参考模型网络的示图；

图5示出了根据本发明的一个实施例的基于Viterbi搜索的在识别网络的搜索空间中找到匹配所述朗读语音信号的最优路径示意图；

图6示意性地示出了根据本发明的一个实施例的用于普通话水平测评的系统的框图；

图7示出了适于用来实践本发明的实施例的计算机系统的示意性框图。

在所有的上述附图中，相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

下面将参考若干示例性实施例来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

首先参考图1，其示意性地示出了根据现有技术的普通话水平评测系统执行的普通话水平测评方法100的流程图。现有的普通话水平评测系统主要对具体字词发音标准度进行检测。具体地，现有的普通话测评系统首先将用户语音和朗读文本对齐，确定每个标准模型对应的语音片断。随后计算各标准模型对应的语音片断和该标准模型的相似度以确定用户在具体字词上的发音标准程度，进而给出普通话水平综评。其实现流程如图1所示：

在步骤S110中，跟踪采集被测人员朗读的语音信号，对被测人员朗读输入的连续语音信号进行采样，并将其保存为离散化的能量信号。

在步骤S120中，提取被测人员朗读输入的连续语音信号的声学特征。系统考虑提取识别相关的语音有效特征，以尽可能减少语音信号中与识别无关的冗余信息，从而可以提高识别准确率，同时降低系统运算量。

在步骤S130中，从系统预置模型库中挑选对应于用户朗读的标准文本内容的字词标准发音模型，并按照自左到右顺序拼接作为步骤S140中使用的搜索空间，也即生成识别参考网络。应该理解，字符和字符的标准发音模型是对应的。为了简单起见，在下文中除了另有明示，术语“标准文本”也指代“标准文本对应的标准字符发音”，术语“字符”或“字词”也指代“字符或字词的标准发音模型”。

上述系统预置的字词标准发音模型，用于模拟基本音素单元的标准发音。具体地，该标准发音模型是在事先采集的标准发音人的语音上预先离线训练得到。

在步骤S140中，将步骤S120中提取的连续语音信号的声学特征的序列在步骤S130中构建的识别搜索空间中搜索最优路径，使得每帧语音特征都映射到某个基本模型单元。通过字音对齐，测试人员朗读输入的连续语音信号被分割成独立的语音片断，与标准发音模型单元一一对应。

在步骤S150中，分别计算映射到每个标准发音模型的测试人员语音段相应于该标准发音模型的发音标准度。

在步骤S160中：对被测人员的普通话水平进行评估。具体地，根据S150统计的各字词的发音标准度综合评估该用户的普通话水平。一般而言，系统将累加的标准度得分通过各种函数映射成和人工打分可比的评测打分，作为被测人员的普通话水平度量。

显然在现有的普通话评测系统的设定下，用户普通话水平测评结果很大程度上取决于用户语音与朗读文本之间对齐的准确度。当被测人员由于对朗读文本不熟悉或紧张等原因导致朗读文本和标准文本不一致时，将测试人员的语音信号和朗读文本强制对齐将导致字符语音段切分不准确。在这种情况下，基于语音段和各标准发音模型的相似度的普通话评测结果不够准确可靠合理。而且，现有的语音评测系统给出的测评结果主要在于对用户具体字词发音标准度的度量，而对朗读熟练度较少涉及，因而不能全面合理反映被测人员的普通话水平。

针对上述现有的普通话评测系统存在的评测片面及不客观等缺陷，本发明提出了一种基于复杂朗读问题模拟的普通话水平测评系统。该复杂模型的引入一方面实现了对测试人员普通话朗读中存在的漏读，重复，增读等问题的有效检测，进一步提高对普通话水平测试的全面性和客观性；而另一方面通过该复杂网络语音信号和标准文本之间实现了字音的有效对齐，改善了传统评测系统中由于字音强制对齐导致的评分过低的问题，进一步提高了对字词发音标准度检测的准确性和客观性。下面参考图2对本发明进行具体描述。应当理解，方法200中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法200可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

图2示意性地示出了根据发明一个实施例的用于普通话水平测评的方法200的流程图。

在步骤S210，获取被测人员(在下文中也称为用户)朗读标准文本的语音信号。可以利用麦克风等设备，采用任何已知的或未来开发的语音信号采集技术来获取该语音信号。随后采集系统可以对连续的语音信号进行数字采样，获得语音信号输入的数字化形式。

可选地，可以对语音信号输入进行预处理。在优选的实施例中，为了提高系统的鲁棒性，可以对采集到的原始语音信号做前端降噪预处理。例如，首先通过对语音信号执行短时能量和短时过零率分析，将连续的语音信号分割成独立的语音片断和非语音片断。随后通过维纳滤波等技术对语音片断进行语音增强，进一步消除语音信号中的噪音，提高后续系统对该信号的处理能力。

可选地，还可以对语音信号输入进行声学特征提取。考虑到降噪处理后的语音信号中依然存在大量语音识别无关的冗余信息，直接对其识别将导致运算量增加和识别准确率的下降，为此可以从语音能量信号中提取识别有效的语音特征，并存入特征缓存区内，以表征用户语音信号输入。在一个优选实施例中，提取语音的MFCC特征。例如，对窗长25ms帧移10ms的每帧语音数据做短时分析，得到MFCC参数及其一阶二阶差分，共计39维。一段语音信号输入可以量化为一39维的特征序列0。在其他实施例中，还可以采用PLP特征(Perceptual linear predictive)或者TANDEM特征等，来提取语音信号输入的特征以表征语音信号输入。为了避免模糊本发明的要点，在此对已知的语音信号跟踪技术、预处理技术和特征提取技术不再详述。

此外，应该理解，本发明的原始的或经预处理的普通话朗读语音信号或其特征标识可以存储在存储器中，并且不限于任何特定的存储格式。

在步骤S220中，根据被测人员朗读的标准文本构建识别网络。不同于现有系统构建的相应于朗读文本的自左到右串行连接的模型串搜索空间，根据本发明的实施例构建了新的模拟朗读中存在的各种问题(如增读、漏读以及重复等等)的模型搜索空间，以提高识别网络的容错性，进而提高测试人员的朗读语音信号和标准模型之间的字音对齐的有效性。在一个实施例中，根据本发明构建的识别网络包括增读、漏读以及重复模型，以模拟对应的增读、漏读以及重复等朗读中存在的问题。

在一个实施例中，通过下述子步骤来根据标准文本构建识别网络包括：将标准文本的字符按自左到右排列形成基本路径；以及在所排列成的基本路径中增加增读、漏读以及重复模型以形成所述识别网络。

下文中将参考图3和图4进一步详细描述识别网络的构建。

图3示意性地示出了根据本发明的一个实施例的识别网络的构建过程300的流程图。

在步骤S310中，根据朗读的标准文本的内容，从声学模型库中挑选合适的声学模型单元，将其简单串联构成基本识别网络。以标准文本“我们”为例。可以从声学模型库中挑选出字符“我”和“们”对应的声学模型单元

和

然后，可以将字符声学模型单元

和

串联成基本识别网络。应该理解，声学库中可以存储字符的标准发音模型，也可以存储以更小级别的基本音素单元(如元音，辅音或音节，带调音节等)的声学模型。因此，字符声学模型单元

或

可以是基于字符“我”或“们”的标准发音模型，也可以是由更小的音素单元的声学模型的串接。例如，字符声学模型单元

可以是辅音w和元音o的声学模型的串接。

在步骤S320中，在基本识别网络的各模型单元之间插入Filler(填充)模型(如图4中的Fil所示)，用于吸收各字词之间可能存在的无意义口语化连接词的发音，如啊”，“嗯”等，以模拟增读现象。

在步骤S330中，在各模型单元处增加自跳转路径(如图4中的回读惩罚(3)所示)，以模拟实际朗读中存在的重复现象。

在步骤S340中，在各模型单元处增加向后空跳转(如图4中的漏读惩罚(4)所示)，即跳过N个字词模型直接和第(N+1)个模型连接。其中N可以是1到M之间的任意整数，M用于设置系统允许一次性漏读的最大模型数目。该向后空跳转路径主要用于模拟朗读中存在的字词漏读现象。

在步骤S350中，在各模型单元处增加向前跳转(如图4中的回读惩罚(5)所示)，即向前跳过J个字词模型直接和前第(J+1)个模型连接。其中J可以是1到K之间的任意整数，K用于设置系统允许一次性漏读的最大模型数目。该向前跳转路径主要用于模拟朗读中存在的字词重复现象。

应当理解，方法300中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。例如，步骤S320-步骤S350可以用任意顺序执行，或者并行地执行。此外，方法300还可以包括附加的步骤和/或省略执行示出的步骤。例如方法300可以省略步骤S320到步骤S350中任意一个。又如，方法300可以在各模型单元处增加开始模型(如图4中的Sil所示)，以作为朗读起点。本发明的范围在此方面不受限制。

图4给出了根据图3的方法300构建的实例“我们”的模型网络示意图。图中Sil模型用作朗读起始节点，Nul模型用作个模型单元之间的连接，Fil模型用于模拟无意义的口语化连接词，如“啊”，“嗯”等，“我”及“们”分别是标准文本指定的模型单元。从图上可以看到，路径(1)代表了标准文本指定的朗读路径，路径(2)表示在实体模型之间插入了无意义口语词模型，路径(3)表示实体模型的自跳转，路径(4)表示实体模型的向后跳转，路径(5)表示实体模型的向前跳转。

可以看出，根据本发明的搜索网络除了支持标准文本的字词模型连读，还通过设置各模型之间的有限跳转，提高了模型连接的自由度，进而可以模拟实际朗读过程中的各种问题，有利于提高后续字音对齐的准确性。

下面，回到图2。在步骤S230中，基于所构建的识别网络，将步骤S210中所获取的语音信号与标准文本按字音对齐。在一个实施例中，通过下述方式来实现字音对齐：在步骤S220中构建的复杂识别网络中，搜索步骤S210中提取的语音信号的语音特征序列对应的最优路径，实现每帧语音特征到各模型单元的映射。

在本发明的一个实施例中，使用Viterbi搜索来获取所述语音信号在所述构建的识别网络中的最优路径。具体的在Viterbi搜索中，按照所述识别网络中允许的模型单元间跳转方式扩展模型单元到声学模型状态，使得每一时间点的状态列都对应于一帧语音特征矢量，如图5所示。随后该搜索算法在图示状态矩阵中利用动态规划思想依时间顺序从左到右寻找到达每一列的各个状态最优状态子序列。当搜索到最后一帧语音矢量时，从终止状态回溯就可以得到最优解码状态序列及获取对应的识别字串及各字符对应的语音片断。这种算法也称为动态时间规整DTW算法，其原理是现有技术中已知的，在此不再详细讨论。

在找到最优路径之后，可以据此对齐朗读语音信号和标准文本。优选地，可以通过下述方式来实现：确定最优路径中的与和标准文本对应的字符(或字词)，以及将所确定的对应的字词和所述朗读语音信号对齐。

根据本发明的实施例，通过这种字音对齐方式实现对连续语音信号的有效切分，使得每段语音与识别网络中的各模型单元一一对应，进而获得标准文本中各字符对应的语音段。

下面，回到图2。在步骤S240中，根据字音对齐结果，对被测人员的普通话水平进行评分。所述根据字音对齐结果对用户的普通话水平进行评分包括：计算朗读熟练度得分和/或计算发音标准度得分。

可以通过下述方式来计算朗读熟练度得分：根据字音对齐结果，比较用户实际朗读的语音信号的内容与标准文本的内容的差异，以及根据所述内容差异计算朗读熟练度得分。例如，可以通过统计朗读中存在的漏读、增读、重复的次数或者字符个数来确定用户存在的朗读问题，并据此根据普通话评分标准对这些朗读问题给出相应的惩罚。

可以通过下述方式来计算发音标准度得分：根据字音对齐结果，计算用户实际朗读的语音信号中对应于标准文本中的字符的有效语音段的发音标准度；以及综合所有有效语音的发音标准度，计算用户的发音标准度得分。可以通过计算标准文本中每个标准声学模型上对应的用户发音单元和该标准声学模型的相似度，评估被测人员对具体字词的发音标准程度。相似度越高，该用户发音越接近标准发音，给予的普通话水平评分越高。本实施例考虑采用后验概率来度量其相似度，即计算当前语音信号段隶属该声学模型的可能性。

在一个实施例中，采用后验概率度量作为发音相似度的度量方式。模型后验概率的具体计算如下所述：

步一，确定需要对其执行发音标准程度度量的字词集合。换言之，确定朗读的标准文本中字符对应模型上有语音帧存在的字词。这些字词称为有效字词，对应的语音帧也称为有效语音。

步二，计算每个有效字词的发音标准程度。

具体地，计算有效语音段信号O相对于指定模型M的后验概率：

p (M | O) = \frac{p (O | M)}{\underset{I}{Σ} p (O | M_{i})}

其中集合I表示容易和模型M发音混淆的字符集，M_i是集合I中的第i个模型单元。

步三：分析用户普通话整体发音标准程度。

具体地，将所有有效语音的发音标准程度得分合并获得对用户普通话整体发音标准程度的综评。例如，可以对所有有效语音的标准度得分进行平均。

在本发明的另一个优选的实施例中，通过综合发音标准度得分和朗读熟练度得分来获得对被测人员的普通话水平的评分。考虑到发音标准度量是基于模型匹配的后验概率，这样的得分不太容易为人所直观理解，同时和朗读熟练度评分也不可比。因此，该实施例提出可以将这种后验概率得分以及熟练度得分映射成和人工打分可比的评测打分或评测级别。例如，可以针对不同发音水平的发音人，通过运用分段线性映射，根据发音标准度得分和朗读熟练度得分，获得最终输出的评测级别，其映射关系可以如下所示：

Score = Σ_{i = 1}^{2} α_{1 i} p (x_{i})

C＝1级

Score = Σ_{i = 1}^{2} α_{2 i} p (x_{i})

C＝2级

Score = Σ_{i = 1}^{2} α_{3 i} p (x_{i})

C＝3级

其中α_ij，i＝1，2，3，j＝1，2是系统参数，由系统通过离线训练预先设置。

应该理解，根据评测要求，在其他实施例中，可以单独计算发音标准度得分或朗读熟练度得分来作为对被测人员的普通话水平的评分。

然后，方法200结束。

由于基于模拟复杂的朗读实际问题的模型网络，根据本发明的普通话评测方法可以提高被测用户朗读的语音信号和标准文本对齐的准确度，进而提高了对字词发音标准度检测的全面性和客观性。此外，根据本发明的普通话评测方法可以检测普通话朗读中存在的漏读，重复，增读等问题，进一步提高了对普通话水平测试的全面性和客观性。

上面已经参考附图详细说明了用于普通话水平测评的方法。应该注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行，也可以增加其他步骤。

图6示意性地示出了根据本发明的一个实施例的用于普通话水平测评的系统600的框图。

如图所示，系统600包括语音获取装置610、识别网络构建装置620、字音对齐装置630以及评分装置640。

根据本发明的一个实施例，语音获取装置610配置为获取被测人员朗读标准文本的语音信号。语音获取装置610可以采用任何已知的或未来开发的语音信号跟踪技术来获取用户的语音信号，还可以对连续的语音信号进行数字采样，获得语音信号的数字化形式。优选地，语音获取装置610可以包括预处理装置，用于对语音信号进行预处理，以增强语音并且消除语音中的噪声。优选地，语音获取装置610还可以包括声学特征提取装置，用于从语音信号(特别是经预处理的语音信号)中提取声学特征以表征语音信号。

识别网络构建装置620配置为根据被测人员朗读的标准文本构建识别网络。所述识别网络包括增读、漏读以及重复模型，以模拟对应的增读、漏读以及重复等朗读中存在的问题。根据本发明的识别网络有利于提高后续的字音对齐的准确性。

字音对齐装置630配置为，基于所构建的识别网络，获取对应于语音获取装置610所获取的语音信号的最优路径，并实现语音信号和标准文本的有效字音对齐。根据本发明的一个优选实施例，所述字音对齐装置630使用Viterbi搜索在网络构建装置620构建的识别网络中，搜索语音获取装置610所获取的语音信号的语音特征序列对应的最优路径，实现每帧语音特征到单个模型单元的映射，进而实现所获取的语音信号与标准文本的字音对齐。

评分装置640配置为，用于根据字音对齐结果，对用户的普通话水平进行评分。评分装置640可以配置为计算朗读熟练度得分和计算发音标准度得分中的任一个或二者。评分装置640还可以配置为，综合朗读熟练度得分和发音标准度得分，确定被测用户的普通话水平级别。

优选的，系统600还可包括发音指示装置，用于根据评测结果对用户发音中存在的问题进行具体明确的指导，包括朗读熟练度及具体字词发音等。

为清晰起见，在图6中并未示出各个装置所包含的子装置。然而，应当理解，系统600中记载的每个装置与参考图2描述的方法200中的各个步骤相对应。由此，上文针对图2描述的操作和特征同样适用于系统600及其中包含的装置和子装置，在此不再赘述。

应该理解，尽管在上文详细描述中提及了系统的若干装置或子装置，但是这种划分仅仅是并非强制性的。实际上，根据本发明的实施例，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，系统600还可以包括其他装置，例如易失性或者非易失性存储装置，用于存储获取的语音信号和/或标准文本、声学模型库，以及对齐结果等等。

而且，系统600及其各个组成部分可以利用各种方式来实现。例如，在某些实施方式中，系统600可以利用软件和/或固件模块来实现。此外，系统600也可以利用硬件模块来实现。例如，系统600可以实现为集成电路(IC)芯片或专用集成电路(ASIC)。系统600也可以实现为片上系统(SOC)。系统600可以部署在单个物理设备上，也可以分布在多个物理设备上。现在已知或者将来开发的其他方式也是可行的，本发明的范围在此方面不受限制。

图7示出了适于用来实践本发明的实施例的计算机系统的示意性框图。图7示出了适于用来实践本发明实施方式的计算机系统的示意性框图。如图7所示，计算机系统可以包括：CPU(中央处理单元)701、RAM(随机存取存储器)702、ROM(只读存储器)703、系统总线704、硬盘控制器705、键盘控制器706、串行接口控制器707、并行接口控制器708、显示控制器709、硬盘710、键盘711、串行外部设备712、并行外部设备713和显示器714。在这些设备中，与系统总线704耦合的有CPU 701、RAM 702、ROM 703、硬盘控制器705、键盘控制器706、串行控制器707、并行控制器708和显示控制器709。硬盘710与硬盘控制器705耦合，键盘711与键盘控制器706耦合，串行外部设备712与串行接口控制器707耦合，并行外部设备713与并行接口控制器708耦合，以及显示器714与显示控制器709耦合。应当理解，图7所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

特别地，除硬件实施方式之外，本发明的实施方式可以通过计算机程序产品的形式实现。例如，参考图2描述的方法200可以通过计算机程序产品来实现。该计算机程序产品可以存储在例如图7所示的RAM704、ROM 704、硬盘710和/或任何适当的存储介质中，或者通过网络从适当的位置下载到计算机系统700上。计算机程序产品可以包括计算机代码部分，其包括可由适当的处理设备(例如，图7中示出的CPU 701)执行的程序指令。所述程序指令至少可以包括：用于获取用户朗读标准文本的语音信号的指令；用于根据标准文本构建识别网络，所述识别网络包括增读、漏读以及重复模型的指令；用于基于所述识别网络，将所获取的语音信号与所述标准文本按字音对齐的指令；以及用于根据字音对齐结果，对用户的普通话水平进行评分的指令。

虽然已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于普通话水平测评的方法，包括：

获取用户朗读标准文本的语音信号；

根据标准文本构建识别网络，所述识别网络包括增读、漏读以及重复模型；

基于所述识别网络，将所获取的语音信号与所述标准文本按字音对齐；以及

根据字音对齐结果，对用户的普通话水平进行评分。

2.根据权利要求1所述的方法，其中所述根据标准文本构建识别网络包括：

将标准文本的字符按自左到右排列形成基本路径；以及

在所排列生成的基本路径中增加增读、漏读以及重复模型以形成所述识别网络。

3.根据权利要求1所述的方法，其中所述基于所述识别网络将所获取的语音信号与所述标准文本按字音对齐包括：

在所述识别网络的搜索空间中找到匹配所述朗读语音信号的最优路径；以及

基于所述最优路径，对齐所述朗读语音信号和标准文本。

4.根据权利要求1所述的方法，其中所述根据字音对齐结果对用户的普通话水平进行评分包括：计算朗读熟练度得分和/或计算发音标准度得分。

5.根据权利要求4所述的方法，其中所述计算朗读熟练度得分包括：

根据字音对齐结果，比较所述最优路径的字符与所述标准文本的内容差异，以及

根据所述内容差异计算所述朗读熟练度得分。

6.根据权利要求4所述的方法，其中所述计算发音标准度得分包括：

根据字音对齐结果，计算所述普通话语音信号中对应于标准文本中的字符的有效语音段的发音标准度，以及

综合所有有效语音的发音标准度，计算用户的发音标准度得分。

7.一种用于普通话水平测评的系统，包括：

语音获取装置，用于获取用户朗读标准文本的语音信号；

识别网络构建装置，用于根据标准文本构建识别网络，所述识别网络包括增读、漏读以及重复模型；

字音对齐装置，用于基于所述识别网络，将所获取的语音信号与所述标准文本按字音对齐；以及

评分装置，用于根据字音对齐结果，对用户的普通话水平进行评分。

8.根据权利要求7所述的方法，其中所述根据标准文本构建识别网络包括：

将标准文本的字符按自左到右排列形成基本路径，

在所排列成的基本路径中增加增读、漏读以及重复模型以形成所述识别网络。

9.根据权利要求7所述的系统，其中所述字音对齐装置配置为：

基于所述最优路径，对齐所述朗读语音信号和标准文本。

10.根据权利要求7所述的系统，其中所述评分装置配置为：计算朗读熟练度得分和/或计算发音标准度得分。

11.根据权利要求10所述的系统，其中所述计算朗读熟练度得分包括：

根据所述内容差异计算所述朗读熟练度得分。

12.根据权利要求10所述的系统，其中所述计算发音标准度得分包括：

根据字音对齐结果，计算所述语音信号中对应于标准文本中的字符的有效语音段的发音标准度，以及