CN109545244A

CN109545244A - 语音评测方法、装置、电子设备及存储介质

Info

Publication number: CN109545244A
Application number: CN201910085071.9A
Authority: CN
Inventors: 钟贵平; 刘顺鹏; 李宝祥
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-03-29

Abstract

本发明公开了一种语音评测方法、装置、电子设备及存储介质，所述方法包括：获取智能设备采集的预设参考文本对应的待评测语音；根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值；根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧；根据字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，并控制智能设备输出目标字母，字母发音映射表中包括音素与字母之间的对应关系。本发明提供的技术方案，使得用户能够获知跟读时错误或不标准的发音在预设参考文本中对应的是哪些字母，进而有针对性地改正发音，帮助用户更快更高效地提高口语水平。

Description

语音评测方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音评测方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，基于互联网的语言学习应用也得到了快速的发展。对于语言学习，除了学习语法和词汇等之外，一个重要的方面是学习语言的听说能力，尤其是说的能力。现有的语言学习应用中，通常使用跟读评测的方法检测用户的口语水平，即智能设备给定参考文本，用户通过智能设备的录音设备录制参考文本对应的语音，系统根据参考文本，将用户录制的语音和参考文本进行比较，从而向用户提供整句语音的发音评分，以及每个单词的发音是否正确的反馈，以此来提高用户的口语水平。

但是，单词本身的颗粒度比较大，不能提供更为详细的评测结果，用户也就无法针对性地改正发音。

发明内容

本发明实施例提供一种语音评测方法、装置、电子设备及存储介质，以解决现有的评测方法无法体现出单词中哪个音素发音错误，导致用户无法针对性地改正发音的问题。

第一方面，本发明一实施例提供了一种语音评测方法，包括：

获取智能设备采集的预设参考文本对应的待评测语音；

根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值；

根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧；

根据字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，并控制智能设备输出目标字母，字母发音映射表中包括音素与字母之间的对应关系。

第二方面，本发明一实施例提供了一种语音评测装置，包括：

获取模块，用于获取智能设备采集的预设参考文本对应的待评测语音；

评测模块，用于根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值；

确定模块，用于根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧；

字母确定模块，用于根据字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母；

输出模块，用于控制智能设备输出目标字母，字母发音映射表中包括音素与字母之间的对应关系。

第三方面，本发明一实施例提供了一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，收发机用于在处理器的控制下接收和发送数据，处理器执行计算机程序时实现上述任一种方法的步骤。

第四方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

本发明实施例提供的技术方案，根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值，得到音素级别的评测分值，然后，根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧，根据预先建立字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，最后，控制智能设备输出待纠错音频帧对应的目标字母。与现有技术相比，本发明实施例的语音评测方法，能够对语音作出音素级别的评测，使得用户能够获知跟读时错误或不标准的发音在预设参考文本中对应的是哪些字母，导致评测分值较低，进而有针对性地改正错误或不标准的发音，帮助用户更快更高效地提高口语水平。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音评测方法的应用场景示意图；

图2为本发明一实施例提供的语音评测方法的流程示意图；

图3为本发明一实施例提供的语音评测装置的结构示意图；

图4为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本发明实施例中涉及的名词进行解释：

GOP(Goodness of Pronunciation，发音准确度)算法是由麻省理工大学的SilkeWitt在他的博士论文中提出。GOP算法的基本思想正是利用了事先知道的参考文本，把语音和该语音对应的参考文本做强制对齐(force alignment)，识别参考文本中每个音素对应的语音段(即语音中的多个连续的音频帧)，然后计算在观察到这个语音段的前提下，这个语音段对应参考文本中的音素的匹配概率，匹配概率越高，说明发音越准确，匹配概率越低，说明发音越差。直观的来说，GOP算法计算的是输入语音对应于已知文字的可能性，如果可能性越高，说明发音越标准。

音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。英语词汇的音素分为元音、辅音两大类，例如，元音有a、e、ai等，辅音有p、t、h等。

声学模型(AM，Acoustic model)是语音识别系统中最为重要的部分之一，是把语音的声学特征分类对应到音素的模型。目前的主流系统多采用隐马尔科夫模型进行建模。

发音字典是描述词汇和其发音标注之间的对应关系的集合，根据字典中记录的发音标注可确定每个词汇的发音，例如，汉字“我”对应的发音标注为[wǒ]。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，通常使用跟读评测的方法检测用户的口语水平，即智能设备给定参考文本，用户通过智能设备的录音设备录制参考文本对应的语音，系统根据参考文本，将用户录制的语音和参考文本对应的标准音素进行比较，从而向用户提供整句语音的发音评分，以及每个单词的发音是否正确的反馈，以此来提高用户的口语水平。但是，单词本身的颗粒度比较大，不能提供更为详细的评测结果，用户也就无法针对性地改正发音。

为此，本发明的发明人考虑到，根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值，得到音素级别的评测分值，然后，根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧，根据预先建立字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，最后，控制智能设备输出待纠错音频帧对应的目标字母。与现有技术相比，本发明实施例的语音评测方法，能够对语音作出音素级别的评测，使得用户能够获知跟读时错误或不标准的发音在预设参考文本中对应的是哪些字母，导致评测分值较低，进而有针对性地改正错误或不标准的发音，帮助用户更快更高效地提高口语水平。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

首先参考图1，其为本发明实施例提供的发音质量评价方法的应用场景示意图。用户10通过智能设备11内的应用程序与智能设备11完成交互，智能设备11显示参考文本，用户10读出参考文本，此时，智能设备11通过应用程序启动智能设备11内置或外接的语音采集装置12(如麦克风)，以采集用户读参考文本的语音作为待评测语音，应用程序将待评测语音以及参考文本发送给服务器13，服务器13根据待评测语音和参考文本对待评测语音进行发音质量的评价，得到待评测语音的发音评分，将发音评分反馈给智能设备11，智能设备11显示服务器13反馈的发音评分。

这种应用场景下，智能设备11和服务器13之间通过网络进行通信连接，该网络可以为局域网、广域网等。智能设备11可以为便携设备(例如：手机、平板、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)等)，也可以为个人电脑(PC，PersonalComputer)，一般手机、平板、笔记本电脑均内置有麦克风，而个人电脑可通过外接语音采集装置采集用户的语音。服务器13可以为任何能够提供语音识别以及语音评测服务的设备。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

参考图2，本发明实施例提供一种语音评测方法，包括以下步骤：

S201、获取智能设备采集的预设参考文本对应的待评测语音。

本实施例中，预设参考文本通常是一句完整的句子，预设参考文本包含至少一个单词。具体实施时，由智能设备向用户展示预设参考文本，例如，显示预设参考文本“goodmorning”预设，用户朗读“good morning”，此时，智能设备采集用户朗读预设参考文本的语音作为待评测语音。

步骤S202、根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值。

具体实施时，通过查找发音字典即可确定预设参考文本对应的标准音素序列。例如，参考文本为“good morning”，则对应的标准音素序列包括八个标准音素[g]、[u]、[d]、[m]、[n]、[i]、。具体实施时，待评测语音是何种语言，就选择该语言对应的发音字典，例如，待评价语言为英语，则选择英语发音字典。本发明实施例中不限定评测的语音的语种。

具体实施时，可通过对齐处理，在待评测语音中确定出与标准音素对应的音频帧。在进行对齐处理前，需要对待评测语音进行预处理：将待评测语音切分为若干音频帧，提取各个音频帧的声学特征向量，声学特征向量为一个多维特征向量，每一帧语音用一个多维特征向量表示，以将待评测语音转化为多个音频帧组成的音频帧序列。一般取10-30ms为一帧，可使用移动窗口函数实现分帧，相邻音频帧之间有重叠部分，以避免窗边界对信号的遗漏。提取的声学特征可以Fbank特征、MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)特征或语谱图特征等。Fbank特征、MFCC特征的提取方法为现有技术，不再赘述。对齐处理的过程大致为：将待评测语音对应的声学特征向量输入对齐模型，得到条件概率矩阵，条件概率矩阵描述了各个音频帧被识别为任一音素的条件概率，其中，针对一个音频帧，条件概率矩阵给出了该音频帧与多个音素之间的条件概率，例如，可包括一个音频帧被识别为[u]的条件概率和一个音频帧被识别为的条件概率；然后，将条件概率矩阵输入解码器进行路径搜索，将预设参考文本对应的标准音素序列作为路径搜索时的限制条件，得到预设参考文本对应的标准音素序列中每个标准音素对应的音频帧，一般一个标准音素对应待评测语音中的多个连续的音频帧，该解码器已经预先对所有音素进行构图。其中，对齐模型可选用DNN(Deep Neural Network，深度神经网络)-HMM模型，或者对齐模型也可选用CNN(卷积神经网络，Convolutional Neural Networks)+LSTM(Long Short-TermMemory，长短期记忆网络)的网络实现。可通过预先训练的混合高斯(GMM，GaussianMixture Model)-隐马尔科夫(HMM，Hidden Markov Model)模型确定解码过程中使用的状态转移概率。

通过对齐处理，在待评测语音中确定出预设参考文本中每个标准音素对应的音频帧后，对每个标准音素对应的音频帧进行评测，得到每个标准音素对应的音频帧的评测分值。

步骤S203、根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧。

具体实施时，可设定第一阈值，当标准音素对应的音频帧的评测分值低于第一阈值时，确定该标准音素对应的音频帧为待纠错音频帧。本实施例中的第一阈值可根据实际应用场景确定，此处不作限定。第一阈值的设定会影响待提高音素的确定，针对同一待评测语音，第一阈值越高，待评测语音中，被确定为待纠错音频帧的音频帧数量就越多，从另一方面来看，第一阈值越高，对用户发音水平的要求就越高。为此，具体实施时，可根据用户的口语发音水平等级，为不同等级的用户设定不同的第一阈值，例如，等级较高(即口语发音较好)的用户使用的第一阈值可以高一些，而等级较低(口语发音较差)的用户使用的第一阈值可以低一些，随着等级的提高，同一用户的第一阈值会不断地增大。这样，可向不同用户反馈适合其水平等级的发音评价，瞄准用户亟待提高的错误发音进行发音纠正，在不打击用户自信心的前提下，帮助用户稳步提升口语发音水平。

步骤S204、根据字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，并控制智能设备输出目标字母，字母发音映射表中包括音素与字母之间的对应关系。

本实施例中，预先通过统计大量单词得到待评测语言包含的所有音素可能对应的单个字母或多个字母的组合，将统计结果记录在字母发音映射表中。以英语为例，共包括48个音素，通过统计大量英文单词确定每个音素可能对应的单个字母或多个字母的组合，例如，音素[f]对应的字母包括“g”、“gg”、“gh”、“gu”、“gue”等，音素[g]对应的字母包括“d”、“ed”、“dd”、“de”等，音素[i]对应的字母包括“a”、“i”、“e”、“ey”、“ay”、“u”、“ui”等，音素[u]对应的字母包括“o”、“oo”、“u”、“oul”等。

具体实施时，根据字母发音映射表，确定预设参考文本对应的每个标准音素与预设参考文本中包含的字母之间的映射关系；根据映射关系，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母。例如，针对预设参考文本good，其标准音素序列为[gud]，按单词good中的字母顺序，首先确定标准音素序列中的第一个标准音素[g]在单词中对应的字母，根据字母发音映射表可知，音素[g]可能对应的字母或字母组合为“g”、“gg”、“gh”、“gu”、“gue”，而单词good的第一个字母为g，第二个字母为o，显然音素[g]只能与第一个字母g建立映射关系；然后，确定标准音素序列中的第二个标准音素[u]在单词中对应的字母，根据字母发音映射表可知，音素[u]可能对应的字母或字母组合为“o”、“oo”、“u”、“oul”，而单词good的第二个字母和第三个字母为“oo”，标准音素[u]与字母“oo”建立映射关系；最后，标准音素序列中的最后一个标准音素[d]与单词中剩余的字母d建立映射关系。根据上述建立的标准音素与预设参考文本中包含的字母之间的映射关系，即可确定每个标准音素对应的音频帧与预设参考文本中包含的字母之间的对应关系，从而确定出待纠错音频帧对应的目标字母。

具体实施时，用户使用智能设备进行跟读评测时，用户朗读智能设备显示的预设参考文本，智能设备采集用户朗读预设参考文本的语音作为待评测语音，将待评测语音以及预设参考文本发送给服务器。服务器通过上述步骤S201-S204的处理方法得到待评测语音中的待纠错音频帧对应的目标字母后，控制智能设备在已显示的预设参考文本中标注出目标字母，以提示用户其需要纠正的发音。具体地，可通过修改目标字母的颜色或背景色或大小等方式在智能设备显示的预设参考文本中标注出目标字母，以突显出用户需要提高发音的目标字母，例如，显示的预设参考文本的背景色为白色，则目标字母的背景色可修改为黄色，显示的预设参考文本为黑色，则目标字母可修改为红色。又如，将目标字母的尺寸放大，以突出显示该目标字母。

本发明实施例的语音评测方法，根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值，得到音素级别的评测分值，然后，根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧，根据预先建立字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，最后，控制智能设备输出待纠错音频帧对应的目标字母。与现有技术相比，本发明实施例的语音评测方法，能够对语音作出音素级别的评测，使得用户能够获知跟读时错误或不标准的发音在预设参考文本中对应的是哪些字母，导致评测分值较低，进而有针对性地改正错误或不标准的发音，帮助用户更快更高效地提高口语水平。

基于上述任一实施例，本发明实施例提供了以下两种针对标准音素对应的音频帧的评测指标。但在实际评测时，不限于以下评测指标。

第一种评测指标为发音准确度。

具体实施时，通过以下方式确定标准音素对应的音频帧的评测指标：确定每个标准音素对应的音频帧的发音准确度评价值，根据音频帧的发音准确度评价值，确定音频帧对应的评测分值。

具体地，针对预设参考文本对应的每个标准音素，根据标准音素对应的音频帧的发音与标准音素的匹配概率，计算标准音素对应的音频帧的发音准确度评价值，匹配概率为标准音素对应的音频帧被识别为标准音素的概率。由于已经确定出了预设参考文本对应的每个标准音素与音频帧之间的对应关系，因此，针对预设参考文本对应的每个标准音素，可从条件概率矩阵中获取该标准音素与该标准音素对应的音频帧之间的条件概率，从而确定该标准音素与其对应的音频帧的匹配概率，例如，标准音素[u]对应10个音频帧，从条件概率矩阵中获取这10个音频帧与标准音素[u]之间的条件概率，取这10个条件概率的平均值或最大值或中值，作为标准音素[u]与其对应的音频帧的匹配概率。

具体实施时，可利用GOP算法计算每个标准音素的GOP值，作为每个标准音素的发音准确度评价值。作为一种可能的实现方式，可通过以下公式计算每个音素的GOP值：

其中，p为预设参考文本中的标准音素，P(p|o)为标准音素p对应的匹配概率，NF(p)为标准音素p对应的音频帧的数量，o为标准音素p对应的音频帧。

具体实施时，可将标准音素对应的音频帧的发音准确度评价值，作为该标准音素对应的音频帧的评测分值。

第二种评测指标为发音流利度。

具体实施时，通过以下方式确定标准音素对应的音频帧的评测指标：确定每个标准音素对应的音频帧的流利度评价值，并根据音频帧的流利度评价值，确定音频帧对应的评测分值。

具体地，针对预设参考文本对应的每个标准音素，确定标准音素对应的音频帧的实际发音时长，根据标准音素对应的实际发音时长和标准音素对应的标准发音时长，确定标准音素对应的音频帧的流利度评价值。

实际应用中，标准音素对应的音频帧的实际发音长度越接近该标准音素对应的标准发音时长，则说明用户在读该标准音素时的流利度越高。作为一种可能的实现方式，可通过以下公式计算标准音素对应的音频帧的流利度评价值F：

其中，T₀为标准音素对应的标准发音时长，T为标准音素对应的音频帧的实际发音时长。

本实施例中，实际发音时长可根据标准音素对应的音频帧的数量以及一帧音频的时长确定。例如标准音素[g]对应30帧音频帧，每一帧音频的时长为20ms，则标准音素[g]对应的音频帧的实际发音时长为600ms，假设标准音素[g]的标准发音时长为400ms，则待评测语音中的标准音素[g]对应的音频帧的流利度评价值为0.667。例如标准音素[i:]对应30帧音频帧，每一帧音频的时长为20ms，则标准音素[i:]对应的音频帧的实际发音时长为600ms，假设标准音素[i:]的标准发音时长为1000ms，则待评测语音中的标准音素[g]对应的音频帧的流利度评价值为0.6。

需要说明的是，上述计算流利度评价值的公式仅为一个示例，实际应用时，可选用其他的公式计算流利度评价值。

本实施例中，可通过以下步骤预先确定各个标准音素对应的标准发音时长：

步骤一、针对语料库中的每段语音信息，在语音信息中，确定出文本信息对应的每个音素对应的音频帧，文本信息为语音信息对应的参考文本。

本实施例中，语料库中存储了与待评测语音属于同种语言的语料。语料库中的语音信息来自不同的人，语料库中的语音信息为发音标准的语音。

具体实施时，可通过对齐处理的方法在语音信息中确定出文本信息对应的每个音素对应的音频帧，具体实施方式可参考S202的具体实施方式，不再赘述。

步骤二、根据文本信息对应的每个音素对应的音频帧，确定每个音素对应的实际发音时长。

本实施例中，音素的发音时长可根据音素对应的音频帧的数量以及一帧音频的时长确定。例如音素[g]对应30帧音频帧，每一帧音频的时长为20ms，则音素[g]的发音时长为600ms。

步骤三、根据每个音素对应的发音时长，统计音素集中的每个音素对应的发音时长分布，音素集为指定语种包含的所有音素组成的集合。

例如，指定语种为英语，英语一共包含48个音素，则英语对应的音素集中包含这48个音素。

步骤四、将每个音素对应的发音时长分布的中心值作为音素集中的每个音素的标准发音时长。

具体实施时，可将标准音素对应的音频帧的流利度评价值，作为该标准音素对应的音频帧的评测分值。

具体实施时，还可以根据标准音素对应的音频帧的流利度评价值和发音准确度评价值，确定该标准音素对应的音频帧的评测分值。例如，可计算标准音素对应的音频帧的流利度评价值和发音准确度评价值的平均值或加权值，确定为该标准音素对应的音频帧的评测分值。

本发明实施例的语音评测方法，根据标准音素对应的音频帧的实际发音时长和标准音素对应的标准发音时长，确定出标准音素对应的音频帧的流利度评价值，在基于音素级别的发音准确度评价值的基础上，引入了音素级别的流利度评价方法，增加了评价音素对应的音频帧的发音质量的评价维度，使得对语音质量的评测结果更加全面、客观、准确，也为用户提供了新的改进发音的方向和标准。

基于上述任一实施例，本发明实施例的语音评测方法还包括以下步骤：控制智能设备输出目标字母对应的标准音素。

具体实施时，在控制智能设备输出目标字母的同时，还可以控制智能设备输出目标字母对应的标准音素。例如，可控制智能设备在显示屏上目标字母对应的展示区域内显示该目标字母对应的标准音素，以提示用户该目标字母正确的发音，帮助用户快速纠正错误发音。此外，通过输出待纠错音频帧在预设参考文本中对应的字母以及该字母对应的标准音素，还能够帮助用户了解语言的发音规律，提高学习效率。

基于上述任一实施例，本发明实施例的语音评测方法还包括以下步骤：控制智能设备输出待纠错音频帧的评测分值。

具体实施时，在控制智能设备输出目标字母的同时，还可以控制智能设备输出目标字母对应的待纠错音频帧的评测分值，使得用户能够直观地了解自己的发音水平。如果采用两种评测指标对语音进行评测，还可以同时输出目标字母对应的待纠错音频帧的流利度评价值和发音准确度评价值。

基于上述任一实施例，本发明实施例的语音评测方法还包括以下步骤：在接收到第一播放指令后，控制智能设备播放待纠错音频帧对应的标准音频，标准音频是基于待纠错音频帧对应的标准音素得到的音频数据。

本实施例中，标准音素对应的标准音频是提前录制好的。智能设备输出目标字母对应的标准音素的同时，在智能设备的显示屏上显示该标准音素对应的第一播放按钮，当用户按下第一播放按钮后，智能设备播放该标准音素对应的标准音频，使得用户能够直观地获知该标准音素的正确发音。

基于上述任一实施例，本发明实施例的语音评测方法还包括以下步骤：识别待纠错音频帧对应的错误音素，控制智能设备输出错误音素。

具体实施时，根据待纠错音频帧在参考文本中对应的目标字母，控制智能设备在显示屏上显示待纠错音频帧对应的错误音素，提示用户其在读预设参考文本时的实际发音。例如，用户在读单词good时，将标准音素[u]发成了通过声学模型可识别出用户实际的发音为确定该标准音素[u]在单词good对应的字母为“oo”，则控制智能设备标注出单词good中的字母“oo”，并显示字母“oo”对应的标准音素[u]和用户的实际发音对应的错误音素标准音素和错误音素可显示在同一区域内，并且明确地标注出哪个是标准音素，哪个是错误音素，用户通过比较目标字母对应的标准音素和错误音素，可直观地了解自己的发音与正确发音之间的差别。

基于上述任一实施例，本发明实施例的语音评测方法还包括以下步骤：在接收到第二播放指令后，控制智能设备播放待纠错音频帧。

本实施例中，待纠错音频帧是从用户输入的待评测语音中截取的用户的真实语音。智能设备输出待纠错音频帧对应的错误音素的同时，在智能设备的显示屏上显示该错误音素对应的第二播放按钮，当用户按下第二播放按钮后，智能设备播放该错误音素对应的待纠错音频帧。

通过播放标准音素对应的标准语音和错误音素对应的待纠错音频帧，使得用户能够直观地了解自己的发音到底存在哪些缺陷，辅助用户纠正发音，帮助用户打好发音基础。

本实施例的方法可适用于任意一种由字母构成单词的语言，例如，英语、德语、西班牙语等。具体实施时，针对不同的语言，只需要使用不同语言对应的语料训练本实施例的方法中使用的对齐模型、声学模型等，并构建该语言对应的发音字典、字母发音映射表即可，针对不同语言，模型训练方法和字母发音映射表的构建方法均相同，不再赘述。

如图3所示，基于与上述语音评测方法相同的发明构思，本发明实施例还提供了一种语音评测装置30，包括获取模块301、评测模块302、确定模块303、字母确定模块304和输出模块305。

获取模块301，用于获取智能设备采集的预设参考文本对应的待评测语音。

评测模块302，用于根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值。

确定模块303，用于根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧。

字母确定模块304，用于根据字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母。

输出模块305，用于控制智能设备输出目标字母，字母发音映射表中包括音素与字母之间的对应关系。

进一步地，确定模块包括：准确度单元和/或流利度单元。

准确度单元，用于确定每个标准音素对应的音频帧的发音准确度评价值，并根据音频帧的发音准确度评价值，确定音频帧对应的评测分值。

流利度单元，用于确定每个标准音素对应的音频帧的流利度评价值，并根据音频帧的流利度评价值，确定音频帧对应的评测分值。

进一步地，准确度单元具体用于：针对预设参考文本对应的每个标准音素，根据标准音素对应的音频帧的发音与标准音素的匹配概率，计算标准音素对应的音频帧的发音准确度评价值，匹配概率为标准音素对应的音频帧被识别为标准音素的概率。

进一步地，流利度单元具体用于：针对预设参考文本对应的每个标准音素，确定标准音素对应的音频帧的实际发音时长，根据标准音素对应的实际发音时长和标准音素对应的标准发音时长，确定标准音素对应的音频帧的流利度评价值。

基于上述任一实施例，字母确定模块具体用于：根据字母发音映射表，确定预设参考文本对应的每个标准音素与预设参考文本中包含的字母之间的映射关系；根据映射关系，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母。

基于上述任一实施例，输出模块305还用于：控制智能设备输出目标字母对应的标准音素。

基于上述任一实施例，输出模块305还用于：控制智能设备输出待纠错音频帧的评测分值。

基于上述任一实施例，输出模块305还用于：在接收到第一播放指令后，控制智能设备播放待纠错音频帧对应的标准音频，标准音频是基于待纠错音频帧对应的标准音素得到的音频数据。

基于上述任一实施例，本发明实施例的语音评测装置30还包括识别模块，用于：识别待纠错音频帧对应的错误音素。

相应地，输出模块305还用于：控制智能设备输出错误音素。

基于上述任一实施例，输出模块305还用于：在接收到第二播放指令后，控制智能设备播放待纠错音频帧。

本发明实施例提的语音评测装置与上述语音评测方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述语音评测方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以为智能设备的控制器、服务器等。如图4所示，该电子设备40可以包括处理器401、存储器402和收发机403。收发机403用于在处理器401的控制下接收和发送数据。

存储器402可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储语音评测方法的程序。

处理器401可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的语音评测方法。

本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述语音评测方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种语音评测方法，其特征在于，包括：

获取智能设备采集的预设参考文本对应的待评测语音；

根据所述预设参考文本对应的每个标准音素，确定所述待评测语音中与所述标准音素对应的音频帧的评测分值；

根据所述音频帧的评测分值，确定出所述待评测语音中的待纠错音频帧；

根据字母发音映射表，在所述预设参考文本中，确定出所述待纠错音频帧对应的标准音素对应的目标字母，并控制所述智能设备输出所述目标字母，所述字母发音映射表中包括音素与字母之间的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述确定所述待评测语音中与所述标准音素对应的音频帧的评测分值，包括：

确定每个所述标准音素对应的音频帧的发音准确度评价值，并根据所述音频帧的发音准确度评价值，确定所述音频帧对应的评测分值；和/或

确定每个所述标准音素对应的音频帧的流利度评价值，并根据所述音频帧的流利度评价值，确定所述音频帧对应的评测分值。

3.根据权利要求2所述的方法，其特征在于，所述确定每个所述标准音素对应的音频帧的发音准确度评价值，包括：

针对所述预设参考文本对应的每个标准音素，根据所述标准音素对应的音频帧的发音与所述标准音素的匹配概率，计算所述标准音素对应的音频帧的发音准确度评价值，所述匹配概率为所述标准音素对应的音频帧被识别为所述标准音素的概率。

4.根据权利要求2所述的方法，其特征在于，所述确定每个所述标准音素对应的音频帧的流利度评价值，包括：

针对所述预设参考文本对应的每个标准音素，确定所述标准音素对应的音频帧的实际发音时长，根据所述标准音素对应的实际发音时长和所述标准音素对应的标准发音时长，确定所述标准音素对应的音频帧的流利度评价值。

5.根据权利要求1所述的方法，其特征在于，所述根据字母发音映射表，在所述预设参考文本中，确定出所述待纠错音频帧对应的标准音素对应的目标字母，包括：

根据字母发音映射表，确定所述预设参考文本对应的每个标准音素与所述预设参考文本中包含的字母之间的映射关系；

根据所述映射关系，在所述预设参考文本中，确定出所述待纠错音频帧对应的标准音素对应的目标字母。

6.根据权利要求1至5中任一所述的方法，其特征在于，还包括：控制所述智能设备输出所述目标字母对应的标准音素。

7.根据权利要求1至5中任一所述的方法，其特征在于，还包括：控制所述智能设备输出所述待纠错音频帧的评测分值。

8.根据权利要求1至5中任一所述的方法，其特征在于，还包括：在接收到第一播放指令后，控制所述智能设备播放所述待纠错音频帧对应的标准音频，所述标准音频是基于所述待纠错音频帧对应的标准音素得到的音频数据。

9.一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述收发机用于在所述处理器的控制下接收和发送数据，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。