CN108766415A

CN108766415A - 一种语音测评方法

Info

Publication number: CN108766415A
Application number: CN201810496872.XA
Authority: CN
Inventors: 汤志远; 王东
Original assignee: Beijing Fortune Star Intelligent Technology Co Ltd; Tsinghua University
Current assignee: Beijing Fortune Star Intelligent Technology Co Ltd; Tsinghua University
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-06
Anticipated expiration: 2038-05-22
Also published as: CN108766415B

Abstract

本发明实施例提供一种语音测评方法，包括：根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。本发明实施例提供的一种语音测评方法，以参考语音为衡量标准，从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评，能够全方位地体现发言人的口语水平，以使得发言人能够从不同角度了解自身口语的不足，从而实现口语水平的提高。

Description

一种语音测评方法

技术领域

本发明实施例涉及语音识别与测评技术领域，尤其涉及一种语音测评方法。

背景技术

当下的经济发展和文化交流，对个人的外语能力要求越来越高。如何快速高效地获取外语技能，是语言教育迫切需要解决的问题。

日益发达的计算机技术，特别是人工智能技术，是实现高效语言学习的重要途径。例如，计算机辅助语言学习技术，可以快速地对学习者的口语进行测评，并指出具体的错误，学习者可以据此有针对性地练习和提高。

目前的语音测评技术大多基于GOP(Goodness Of Pronunciation)算法。给定待测评语音和相应的文本(可表示成音素串)，计算每个音素的后验概率，并根据上述每一后验概率，进行音素级别的语音测评。比如某个音素的后验概率超过一定阈值，则认为学习者对该音素的发音较好，否者判断为发音有误。

这类算法聚焦的是音素级别的评分，基于此可以得到词级别到句子级别的评分，但这类分数对学习者口语的评估是片面的，它只反映了口语的一个基本要素，即发音准确性，使得学习者无法针对分数未覆盖的其他口语特性进行练习，致使口语水平不能得到全方位提升。

发明内容

本发明实施例提供一种语音测评方法，用以解决现有的语音测评只能反映发音准确性而无法覆盖其他口语特征的问题。

一方面，本发明实施例提供一种语音测评方法，包括：根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

另一方面，本发明实施例提供一种语音测评装置，包括：语音测评单元，用于根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

再一方面，本发明实施例提供一种语音测评设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行前所述的语音测评方法。

又一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的语音测评方法。

本发明实施例提供的一种语音测评方法，以参考语音为衡量标准，从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评，能够全方位地体现发言人的口语水平，以使得发言人能够从不同角度了解自身口语的不足，从而实现口语水平的提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种语音测评方法的流程示意图；

图2为本发明实施例的一种语音测评装置的结构示意图；

图3为本发明实施例的一种语音测评设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有的语音测评方法仅能对发音准确性这一个要素进行评价，而不能覆盖口语的其余特性的问题，本发明实施例提出了一种语音测评方法，基于节奏、音调和音准三方面对语音进行测评，以帮助发言人实现全方位的口语水平的提升。该方法包括：根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对待测评语音进行语音测评。

其中，参考语音是对应待测评语音的标准语音，是用于衡量待测评语音的判断标准。待测评语音与参考语音对应的文本相同，因而待测评语音中的音素与参与语音中的音素一一对应。

音素在待测评语音中的发音长度是指该音素在待测评语音中对应的语音帧数；音素在参考语音中的发音长度是指该音素在参考语音中对应的语音帧数。应用发音长度从发言人发音的节奏快慢上对待测评语音进行语音测评，展现了发言人对语言的熟悉程度和语感的掌握程度。将发音长度作为语音测评的判断标准，使得语音测评覆盖了语言的节奏特性。

音素在待测评语音中的音高特征是指该音素在待测评语音中对应的各语音帧的音高特征的均值；音素在参考语音中的音高特征是指该音素在参考语音中对应的各语音帧的音高特征的均值。应用音高特征从发言人发音的音调高低上对待测评语音进行语音测评，展现了发言人对语感的掌握程度。将音高特征作为语音测评的判断标准，使得语音测评覆盖了语言的音调特性。

音素在待测评语音中的后验概率是指该音素在待测评语音中对应的各语音帧的后验概率的均值；音素在参考语音中的后验概率是指该音素在参考语音中对应的各语音帧的后验概率的均值。将音素的后验概率作为发音评估的置信度，应用音素的后验概率从发言人的发音准确性上对待测评语音进行语音测评，使得语音测评覆盖了语言的音准特性。

本发明实施例中，以参考语音为衡量标准，从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评，能够全方位地体现发言人的口语水平，以使得发言人能够从不同角度了解自身口语的不足，从而实现口语水平的提高。

基于上述实施例，图1为本发明实施例的一种语音测评方法的流程示意图，如图1所示，一种语音测评方法，根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，之前还包括：

基于训练好的语音识别系统，获取每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率。

其中，语音识别系统包括信号处理及特征提取模块、声学模型、发音词典、语言模型和解码器。其中，声学模型优选为深度神经网络模型。

具体地，将待测评语音输入至训练好的语音识别系统，通过语音识别系统，将待测评语音中的语音特性，包括发音长度、音高特征和后验概率，与待测评语音对应的文本中的音素串强制对齐，即获取文本中每一音素对应的待测评语音中的发音长度、音高特征和后验概率。

同样地，将参考语音输入至训练好的语音识别系统，通过语音识别系统，将待测评语音中的语音特性，包括发音长度、音高特征和后验概率，与参考语音对应的文本中的音素串强制对齐，即获取文本中每一音素对应的参考语音中的发音长度、音高特征和后验概率。

基于上述任一实施例，一种语音测评方法，根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，进一步包括：

1021，根据每一音素在待测评语音中的发音长度，获取待测评语音的音长向量；根据每一音素在参考语音中的发音长度，获取参考语音的音长向量。获取所述待测评语音的音长向量和参考语音的音长向量的相似度作为第一音长测评结果。

此处，待测评语音的音长向量由文本音素串中每一音素在待测评语音中的发音长度顺序构成，参考语音的音长向量由文本音素串中每一音素在参考语音中的发音长度顺序构成。待测评语音的音长向量与参考语音的音长向量的长度均为本文音素串中的音素数量。

获取待测评语音的音长向量和参考语音的音长向量的相似度的方法有多种，例如应用皮尔逊相关系数计算相似度，又例如应用欧几里德距离计算相似度，或应用余弦计算相似度等。本发明实施例对此不作具体限定。

作为优选，可以通过多种相似度计算方法获取多种待测评语音的音长向量和参考语音的音长向量的相似度，并将上述多种相似度进行加权平均的结果作为第一音长测评结果。

1022，根据每一音素在待测评语音中的音高特征，获取待测评语音的音高向量；根据每一音素在参考语音中的音高特征，获取参考语音的音高向量。获取所述待测评语音的音高向量和参考语音的音高向量的相似度作为第一音高测评结果。

此处，待测评语音的音高向量由文本音素串中每一音素在待测评语音中的音高特征顺序构成，由文本音素串中每一音素在参考语音中的音高特征顺序构成。待测评语音的音高向量与参考语音的音高向量的长度均为本文音素串中的音素数量。

获取待测评语音的音高向量和参考语音的音高向量的相似度的方法有多种，例如应用皮尔逊相关系数计算相似度，又例如应用欧几里德距离计算相似度，或应用余弦计算相似度等。本发明实施例对此不作具体限定。

作为优选，可以通过多种相似度计算方法获取多种待测评语音的音高向量和参考语音的音高向量的相似度，并将上述多种相似度进行加权平均的结果作为第一音高测评结果。

1023，根据每一音素在待测评语音中的后验概率，获取待测评语音的平均后验概率；根据每一音素在参考语音中的后验概率，获取参考语音的平均后验概率。将所述待测评语音的平均后验概率和参考语音的平均后验概率之差作为第一音准测评结果。

此处，待测评语音的平均后验概率为文本音素串中每一音素在待测评语音中的后验概率的均值，参考语音的平均后验概率为文本音素串中每一音素在参考语音中的后验概率的均值。

需要说明的是，上述步骤1021、1022和1023的执行顺序可以随机选择，且步骤1021、1022和1023可同时执行，本发明实施例对此不作具体限定。

1024，根据所述第一音长测评结果、第一音高测评结果和第一音准测评结果，对所述待测评语音进行语音测评。

例如，对第一音长测评结果、第一音高测评结果和第一音准测评结果进行加权求和，获取待测评语音的测评分数，并根据预先设定的分数阈值，确定待测评语音对应的等级。

本发明实施例中，通过将每一音素的发音长度、音高特征和后验概率整合为待测评语音的整体测评结果，进而对待测评语音进行语音测评，进一步反应了发言人的整体水平。

1031，获取任一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度；根据每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度，获取第二音长测评结果。

此处，获取任一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度的方法有多种，例如差值、比例等。本发明实施例对此不作具体限定。

其中，第二音长测评结果为根据文本音素串中每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度获取的待测评语音与参考语音的发音长度的相似度。此处，第二音长测评结果可以是文本音素串中每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度的平均值，也可以是根据文本音素串中每一音素的重要度计算的每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度的加权平均值，本发明实施例对此不作具体限定。

1032，获取任一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度；根据每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度，获取第二音高测评结果。

此处，获取任一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度的方法有多种，例如差值、比例等。本发明实施例对此不作具体限定。

其中，第二音高测评结果为根据文本音素串中每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度获取的待测评语音与参考语音的音高特征的相似度。此处，第二音高测评结果可以是文本音素串中每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度的平均值，也可以是根据文本音素串中每一音素的重要度计算的每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度的加权平均值，本发明实施例对此不作具体限定。

1033，获取任一音素在待测评语音中的后验概率与在参考语音中的后验概率之差；根据每一音素在待测评语音中的后验概率与在参考语音中的后验概率之差，获取第二音准测评结果；

其中，第二音准测评结果可以是文本音素串中每一音素在待测评语音中的后验概率与在参考语音中的后验概率之差的平均值，也可以是根据文本音素串中每一音素的重要度计算的在待测评语音中的后验概率与在参考语音中的后验概率之差的加权平均值，本发明实施例对此不作具体限定。

需要说明的是，上述步骤1031、1032和1033的执行顺序可以随机选择，且步骤1031、1032和1033可同时执行，本发明实施例对此不作具体限定。

1034，根据所述第二音长测评结果、第二音高测评结果和第二音准测评结果，对所述待测评语音进行语音测评。

例如，对第二音长测评结果、第二音高测评结果和第二音准测评结果进行加权求和，获取待测评语音的测评分数，并根据预先设定的分数阈值，确定待测评语音对应的等级。本发明实施例中，从音素角度判断每一音素的测评结果，进而获取待测评语音的整体测评结果，进一步反应了发言人的整体水平。

1041，根据任一分词包含的每一音素在待测评语音中的发音长度，获取所述任一分词在待测评语音中的音长向量；根据所述任一分词包含的每一音素在参考语音中的发音长度，获取所述任一分词在参考语音中的音长向量；根据每一分词在所述待测评语音中的音长向量和参考语音的音长向量的相似度，获取第三音长测评结果。

此处，待测评语音中任一分词的音长向量由文本音素串中该分词包含的每一音素在待测评语音中的发音长度顺序构成，参考语音中任一分词的音长向量由文本音素串中该分词包含的每一音素在参考语音中的发音长度顺序构成。任一分词的待测评语音的音长向量与参考语音的音长向量的长度均为本文音素串中该分词包含的音素数量。

获取任一分词在待测评语音的音长向量和参考语音的音长向量的相似度的方法有多种，例如应用皮尔逊相关系数计算相似度，又例如应用欧几里德距离计算相似度，或应用余弦计算相似度等。本发明实施例对此不作具体限定。

1042，根据任一分词包含的每一音素在待测评语音中的音高特征，获取所述任一分词在待测评语音中的音高向量；根据所述任一分词包含的每一音素在参考语音中的音高特征，获取所述任一分词在参考语音中的音高向量；根据每一分词在所述待测评语音中的音高向量和参考语音的音高向量的相似度，获取第三音高测评结果。

此处，待测评语音中任一分词的音高向量由文本音素串中该分词包含的每一音素在待测评语音中的音高特征顺序构成，参考语音中任一分词的音高向量由文本音素串中该分词包含的每一音素在参考语音中的音高特征顺序构成。任一分词的待测评语音的音高向量与参考语音的音高向量的长度均为本文音素串中该分词包含的音素数量。

获取任一分词在待测评语音的音高向量和参考语音的音高向量的相似度的方法有多种，例如应用皮尔逊相关系数计算相似度，又例如应用欧几里德距离计算相似度，或应用余弦计算相似度等。本发明实施例对此不作具体限定。

1043，根据任一分词包含的每一音素在待测评语音中的后验概率，获取所述任一分词在待测评语音中的后验概率；根据所述任一分词包含的每一音素在参考语音中的后验概率，获取所述任一分词在参考语音中的后验概率；获取任一分词在待测评语音中的后验概率与在参考语音中的后验概率之差；根据每一分词在待测评语音中的后验概率与在参考语音中的后验概率之差，获取第三音准测评结果。

此处，第三音准测评结果可以是每一分词在待测评语音中的后验概率与在参考语音中的后验概率之差的平均值，也可以是根据每一分词的重要度计算的在待测评语音中的后验概率与在参考语音中的后验概率之差的加权平均值，本发明实施例对此不作具体限定。

需要说明的是，上述步骤1041、1042和1043的执行顺序可以随机选择，且步骤1041、1042和1043可同时执行，本发明实施例对此不作具体限定。

1044，根据所述第三音长测评结果、第三音高测评结果和第三音准测评结果，对所述待测评语音进行语音测评。

例如，对第三音长测评结果、第三音高测评结果和第三音准测评结果进行加权求和，获取待测评语音的测评分数，并根据预先设定的分数阈值，确定待测评语音对应的等级。

本发明实施例中，从分词角度判断每一分词的测评结果，进而获取待测评语音的整体测评结果，进一步反应了发言人的整体水平。

基于上述任一实施例，一种语音测评方法，根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，之前还包括：根据用户需求，从参考语音库中选取对应所述用户需求的类型的语音数据作为参考语音。

在进行语音测评之前，可以根据用户需求选取参考语音。此处，参考语音库中的语音数据类型有多种，例如男声或女声，英式英语或美式英语等。通过划分参考语音的类型，从而实现待测评语音与参考语音的精确匹配，获取更符合用户期望的学习方向的语音测评结果。

基于上述任一实施例，一种语音测评方法，根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，之后还包括：

将语音测评结果与预设的分数阈值进行比较，获取所述待测评语音对应的测评等级。

此处，分数阈值是根据用户要求选取的，分数阈值的高低与用户要求的测评严格程度有关，测评严格程度高则分数阈值高，测评严格程度低则分数阈值低。此处的分数阈值用于与待测评语音的测评结果进行比较，进而确定待测评语音对应的测评等级。

为了更好地理解与应用本发明提出的一种语音测评系统，本发明进行以下示例，且本发明不仅局限于以下示例。

本示例以英语语音测评为例。首先，应用英语语料数据库训练深度学习语音识别系统。其中，英语语料数据库可以是标准母语发音，也可以是非母语发音，语音总长度至少200小时。语音识别系统的声学模型采用深度神经网络结构。

其次，根据用户需求选取对应类型的参考语音，并获取与参考语音的文本对应的待测评语音。

随后，分别提取待测评语音和参考语音的帧级别语音特征，并通过语音识别系统将上述帧级别语音特征与对应文本的音素串强制对齐，获取文本音素串中每一音素在待测评语音中的发音长度和在参考语音中的发音长度。按照文本音素串中的音素顺序，由文本音素串中每一音素在待测评语音中的发音长度顺序构成待测评语音的音长向量，由文本音素串中每一音素在参考语音中的发音长度顺序构成参考语音的音长向量。通过多种方法获取上述待测评语音的音长向量与参考语音的音长向量的相似度，并将各个相似度加权平均。此处的加权平均值为0.85，将0.85转化为百分之分数，输出第一音长测评结果为85。

接着，提取待测评语音的帧级别音高特征，并基于上述文本音素串中每一音素在待测评语音的发音长度，将同属于一个音素的帧级别音高特征的平均值作为该音素在待测评语音中的音高特征；同样地，提取参考语音的帧级别音高特征，并基于上述文本音素串中每一音素在参考语音的发音长度，将同属于一个音素的帧级别音高特征的平均值作为该音素在参考语音中的音高特征。通过多种方法获取上述待测评语音的音高特征与参考语音的音高特征的相似度，并将各个相似度加权平均。此处的加权平均值为0.76，将0.76转化为百分制分数，输出第一音高测评结果为76。需要说明的是，此处的帧级别音高特征以语音数据中的基频特征为主体。

随后，基于语音识别系统中的声学模型获取待测评语音和参考语音的帧级别后验概率，并于上述文本音素串中每一音素在待测评语音的发音长度，将同属于一个音素的待测评语音的帧级别后验概率的平均值作为该音素在待测评语音中的后验概率，将同属于一个音素的参考语音的帧级别后验概率的平均值作为该音素在参考语音中的后验概率。分别获取文本音素串中所有音素在待测评语音中的后验概率的均值和在参考语音中的后验概率的均值，并获取两者之差。此处，平均后验概率之差为0.1，将平均后验概率之差转化为百分制分数，输出第一音准测评结果为10。

最后，将第一音长测评结果、第一音高测评结果和第一音准测评结果加权求和，85×0.25+76×0.25+(100-10)×0.5＝85.25，即最终输出的语音测评分数为85.25。

本示例中，以参考语音为衡量标准，从发音长度、音高特征和后验概率三方面对待测评语音进行语音测评，能够全方位地体现发言人的口语水平，以使得发言人能够从不同角度了解自身口语的不足，从而实现口语水平的提高。

基于上述任一方法实施例，一种语音测评装置，包括：

语音测评单元，用于根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

基于上述任一实施例，图2为本发明实施例的一种语音测评装置的结构示意图，参考图2，一种语音测评装置，还包括：

获取单元201，用于基于训练好的语音识别系统，获取每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率。

基于上述任一实施例，一种语音测评装置，语音测评单元202进一步包括：

音长向量获取子单元，用于根据每一音素在待测评语音中的发音长度，获取待测评语音的音长向量；根据每一音素在参考语音中的发音长度，获取参考语音的音长向量；

音长结果获取子单元，用于获取所述待测评语音的音长向量和参考语音的音长向量的相似度作为第一音长测评结果；

音高向量获取子单元，用于根据每一音素在待测评语音中的音高特征，获取待测评语音的音高向量；根据每一音素在参考语音中的音高特征，获取参考语音的音高向量；

音高结果获取子单元，用于获取所述待测评语音的音高向量和参考语音的音高向量的相似度作为第一音高测评结果；

后验概率获取子单元，用于根据每一音素在待测评语音中的后验概率，获取待测评语音的平均后验概率；根据每一音素在参考语音中的后验概率，获取参考语音的平均后验概率；

音准结果获取子单元，用于将所述待测评语音的平均后验概率和参考语音的平均后验概率之差作为第一音准测评结果；

测评结果获取子单元，用于根据所述第一音长测评结果、第一音高测评结果和第一音准测评结果，对所述待测评语音进行语音测评。

第二音长结果获取子单元，用于获取任一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度；根据每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度，获取第二音长测评结果；

第二音高结果获取子单元，用于获取任一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度；根据每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度，获取第二音高测评结果；

第二音准结果获取子单元，用于获取任一音素在待测评语音中的后验概率与在参考语音中的后验概率之差；根据每一音素在待测评语音中的后验概率与在参考语音中的后验概率之差，获取第二音准测评结果；

第二语音测评子单元，用于根据所述第二音长测评结果、第二音高测评结果和第二音准测评结果，对所述待测评语音进行语音测评。

第三音长结果获取子单元，用于根据任一分词包含的每一音素在待测评语音中的发音长度，获取所述任一分词在待测评语音中的音长向量；根据所述任一分词包含的每一音素在参考语音中的发音长度，获取所述任一分词在参考语音中的音长向量；根据每一分词在所述待测评语音中的音长向量和参考语音的音长向量的相似度，获取第三音长测评结果；

第三音高结果获取子单元，用于根据任一分词包含的每一音素在待测评语音中的音高特征，获取所述任一分词在待测评语音中的音高向量；根据所述任一分词包含的每一音素在参考语音中的音高特征，获取所述任一分词在参考语音中的音高向量；根据每一分词在所述待测评语音中的音高向量和参考语音的音高向量的相似度，获取第三音高测评结果；

第三音准结果获取子单元，用于根据任一分词包含的每一音素在待测评语音中的后验概率，获取所述任一分词在待测评语音中的后验概率；根据所述任一分词包含的每一音素在参考语音中的后验概率，获取所述任一分词在参考语音中的后验概率；获取任一分词在待测评语音中的后验概率与在参考语音中的后验概率之差；根据每一分词在待测评语音中的后验概率与在参考语音中的后验概率之差，获取第三音准测评结果；

第三语音测评子单元，用于根据所述第三音长测评结果、第三音高测评结果和第三音准测评结果，对所述待测评语音进行语音测评。

基于上述任一实施例，一种语音测评装置，还包括：

参考语音获取单元，用于根据用户需求，从参考语音库中选取对应所述用户需求的类型的语音数据作为参考语音。

基于上述任一实施例，一种语音测评装置，还包括：

等级测评单元，用于将语音测评结果与预设的分数阈值进行比较，获取所述待测评语音对应的测评等级。需要说明的是，上述获取单元201、语音测评单元202和参考语音获取单元配合以执行上述实施例中的一种语音测评方法，该系统的具体功能参见上述的语音测评方法的实施例，此处不再赘述。

图3为本发明实施例的一种语音测评设备的结构示意图，如图3所示，该设备包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304，其中，处理器301，通信接口302，存储器303通过总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行如下方法：根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

本发明实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的通信设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种语音测评方法，其特征在于，包括：

根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评。

2.根据权利要求1所述的方法，其特征在于，所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，之前还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，进一步包括：

根据每一音素在待测评语音中的发音长度，获取待测评语音的音长向量；根据每一音素在参考语音中的发音长度，获取参考语音的音长向量；

获取所述待测评语音的音长向量和参考语音的音长向量的相似度作为第一音长测评结果；

根据每一音素在待测评语音中的音高特征，获取待测评语音的音高向量；根据每一音素在参考语音中的音高特征，获取参考语音的音高向量；

获取所述待测评语音的音高向量和参考语音的音高向量的相似度作为第一音高测评结果；

根据每一音素在待测评语音中的后验概率，获取待测评语音的平均后验概率；根据每一音素在参考语音中的后验概率，获取参考语音的平均后验概率；

将所述待测评语音的平均后验概率和参考语音的平均后验概率之差作为第一音准测评结果；

根据所述第一音长测评结果、第一音高测评结果和第一音准测评结果，对所述待测评语音进行语音测评。

4.根据权利要求1所述的方法，其特征在于，所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，进一步包括：

获取任一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度；根据每一音素在待测评语音中的发音长度与在参考语音中的发音长度的相似度，获取第二音长测评结果；

获取任一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度；根据每一音素在待测评语音中的音高特征与在参考语音中的音高特征的相似度，获取第二音高测评结果；

获取任一音素在待测评语音中的后验概率与在参考语音中的后验概率之差；根据每一音素在待测评语音中的后验概率与在参考语音中的后验概率之差，获取第二音准测评结果；

根据所述第二音长测评结果、第二音高测评结果和第二音准测评结果，对所述待测评语音进行语音测评。

5.根据权利要求1所述的方法，其特征在于，所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，进一步包括：

根据任一分词包含的每一音素在待测评语音中的发音长度，获取所述任一分词在待测评语音中的音长向量；根据所述任一分词包含的每一音素在参考语音中的发音长度，获取所述任一分词在参考语音中的音长向量；

根据每一分词在所述待测评语音中的音长向量和参考语音的音长向量的相似度，获取第三音长测评结果；

根据任一分词包含的每一音素在待测评语音中的音高特征，获取所述任一分词在待测评语音中的音高向量；根据所述任一分词包含的每一音素在参考语音中的音高特征，获取所述任一分词在参考语音中的音高向量；

根据每一分词在所述待测评语音中的音高向量和参考语音的音高向量的相似度，获取第三音高测评结果；

根据任一分词包含的每一音素在待测评语音中的后验概率，获取所述任一分词在待测评语音中的后验概率；根据所述任一分词包含的每一音素在参考语音中的后验概率，获取所述任一分词在参考语音中的后验概率；

获取任一分词在待测评语音中的后验概率与在参考语音中的后验概率之差；根据每一分词在待测评语音中的后验概率与在参考语音中的后验概率之差，获取第三音准测评结果；

根据所述第三音长测评结果、第三音高测评结果和第三音准测评结果，对所述待测评语音进行语音测评。

6.根据权利要求1至5中任一权利要求所述的方法，其特征在于，所述根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，之前还包括：

根据用户需求，从参考语音库中选取对应所述用户需求的类型的语音数据作为参考语音。

7.根据权利要求1至5中任一权利要求所述的方法，其特征在于，根据每一音素在待测评语音中的发音长度、音高特征和后验概率，以及所述每一音素在待测评语音对应的参考语音中的发音长度、音高特征和后验概率，对所述待测评语音进行语音测评，之后还包括：

8.一种语音测评装置，其特征在于，包括：

9.一种语音测评设备，其特征在于，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如权利要求1至7任一所述的语音测评方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的语音测评方法。