CN108648766B

CN108648766B - 语音评测方法及系统

Info

Publication number: CN108648766B
Application number: CN201810864099.8A
Authority: CN
Inventors: 郭伟; 罗云
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-03-19
Anticipated expiration: 2038-08-01
Also published as: CN108648766A

Abstract

本发明提供了一种语音评测方法及系统，其中，方法包括：获取待测语音；提取待测语音中的句子；提取句子中的单词；提取单词的音素；获取音素的后验概率和音素的帧长，基于后验概率和帧长对音素进行评测，并将音素的评测结果作为第一评测结果；基于第一评测结果，对单词进行评测，将单词的评测结果作为第二评测结果；本语音评测方法将待测语音进行解剖成一个个音素，以音素为基础对该待测语音进行评测。具体为：以音素的后验概率和音素的帧长对音素进行评测；以单词包含的音素的评测结果对单词进行评测；再由单词的评测结果和句子的后验概率对句子进行评测，然后根据三次评测结果进行加权处理得出综合评测结果。

Description

语音评测方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音评测方法及系统。

背景技术

目前，语音的评测是通过音素的后验概率，推出单词、句子评测，该方法虽然稳定性较好，但差异化不明显。

发明内容

本发明提供一种语音评测方法及系统，通过音素的后验概率及帧长，推出单词、句子评测，以及语音整体的评测，并且具有稳定性好、准确率高、差异化的特点。

本发明实施例提供的一种语音评测方法，包括：

获取待测语音；

提取所述待测语音中的句子；

提取所述句子中的单词；

提取所述单词的音素；

获取所述音素的后验概率和所述音素的帧长，基于所述后验概率和帧长对所述音素进行评测，并将所述音素的评测结果作为第一评测结果；

基于第一评测结果，对所述单词进行评测，将所述单词的评测结果作为第二评测结果；

基于第二评测结果和句子的后验概率，对所述句子进行评测，将所述句子的评测结果作为第三评测结果；

对所述第一评测结果、第二评测结果和第三评测结果进行加权处理，将加权处理的结果作为最终评测结果。

获取所述音素的后验概率和所述音素的帧长，基于所述后验概率和帧长对所述音素进行评测，并将所述音素的评测结果作为第一评测结果；包括：

音素的后验概率为

其中，O表示发音人的音素，M_i表示针对需要发音的音素的语音识别模型；K_Mi表示针对需要发音的音素的语音识别模型以及相似音素模型的集合；M_j表示所述集合中的第j个模型；P（O/M_i）为音素相对于所述语音识别模型的先验概率，P（O/M_j）为音素相对于所述集合中的第j个模型的先验概率；

所述第一评测结果通过下式确定：

其中，O代表发音者发出的音素，M_i代表针对需要发音的音素的语音识别模型，D_Mi代表发音者发出的音素的帧长，D_i标代表针对需要发音的音素的语音识别模型的帧长。

基于第一评测结果，对所述单词进行评测，将所述单词的评测结果作为第二评测结果；包括：

所述单词包含的各个音素的第一评测结果取平均值作为第二评测结果；第二评测结果计算公式如下：

其中，S_j表示第二评测结果，Si表示第i个音素的第一评测结果，n表示单词包含的音素。

基于第二评测结果和句子的后验概率，对所述句子进行评测，将所述句子的评测结果作为第三评测结果；包括：

所述句子包含的单词的第二评测结果取平均值和确定所述句子的后验概率；

对第二评测结果与句子的后验概率进行加权处理，并确定第三评测结果：

其中，S_k表示第三评测结果，S_j表示第j个单词的第二评测结果，P_k表示句子后验概率，m表示句子包含的单词个数，a、b为权重。

本发明还提供一种语音评测系统，其特征在于，包括：

语音获取模块，用于获取待测语音；

句子提取模块，用于提取所述语音中的句子；

单词提取模块，用于提取所述句子中的单词；

音素提取模块，用于提取所述单词的关键音素；

第一评测结果生成模块，获取所述音素的后验概率和所述音素的帧长，基于所述后验概率和帧长对所述音素进行评测，并将所述音素的评测结果作为第一评测结果；

第二评测结果生成模块，用于基于第一评测结果，对所述单词进行评测，将所述单词的评测结果作为第二评测结果；

第三评测结果生成模块，用于基于第二评测结果和句子的后验概率，对所述句子进行评测，将所述句子的评测结果作为第三评测结果；

综合评测结果生成模块，用于对所述第一评测结果、第二评测结果和第三评测结果进行加权处理，将加权处理的结果作为综合评测结果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种语音评测方法的示意图；

图2为本发明实施例中一种语音评测系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种语音评测方法，如图1所示，包括：

S1：获取待测语音；

S2：提取待测语音中的句子；

S3：提取句子中的单词；

S4：提取单词的音素；

S5：获取音素的后验概率和音素的帧长，基于后验概率和帧长对音素进行评测，并将音素的评测结果作为第一评测结果；

S6：基于第一评测结果，对单词进行评测，将单词的评测结果作为第二评测结果；

S7：基于第二评测结果和句子的后验概率，对句子进行评测，将句子的评测结果作为第三评测结果；

S8：对第一评测结果、第二评测结果和第三评测结果进行加权处理，将加权处理的结果作为综合评测结果。

本语音评测方法将待测语音进行解剖成一个个音素，以音素为基础对该待测语音进行评测。具体为：以音素的后验概率和音素的帧长对音素进行评测；以单词包含的音素的评测结果对单词进行评测；再由单词的评测结果和句子的后验概率对句子进行评测，然后根据三次评测结果进行加权处理得出综合评测结果。

在音素评测的时候引入帧长，因发声人员的个体在发出音素的帧长上存在着差异，使综合评测结果具有差异化的特点。通过句子后验直接给出单词或句子的评测，由于音素状态的后验的叠加平均，在前端识别错误或者异常的情况下，会导致评测比较异常（不准），在正常情况下，对好坏的评测还是比较准确的；结合音素的帧长信息给单词进行评测，减少评测的突变，使评测更加稳定，但会导致异常数据（乱说）评测偏高一些，本语音评测方法结合上述两种方法，很好的兼顾的稳定性和准确性。

在音素评测的时候引入帧长，因发声人员的个体在发出音素的帧长上存在着差异，使综合评测结果具有差异化的特点。具体实施为：获取音素的后验概率和音素的帧长，基于后验概率和帧长对音素进行评测，并将音素的评测结果作为第一评测结果；包括：

音素的后验概率为

第一评测结果通过下式确定：

基于第一评测结果，对单词进行评测，将单词的评测结果作为第二评测结果；包括：

单词包含的各个音素的第一评测结果取平均值作为第二评测结果；第二评测结果计算公式如下：

基于第二评测结果和句子的后验概率，对句子进行评测，将句子的评测结果作为第三评测结果；包括：

句子包含的单词的第二评测结果取平均值和确定句子的后验概率；

其中，S_k表示第三评测结果，S_j表示第j个单词的第二评测结果，P_k表示句子后验概率为句子包含的音素叠加平均得出，m表示句子包含的单词个数，a、b为权重。通过句子后验直接给出单词或句子的评测，由于音素状态的后验的叠加平均，在前端识别错误或者异常的情况下，会导致评测比较异常（不准），在正常情况下，对好坏的评测还是比较准确的；结合音素的帧长信息给单词进行评测，减少评测的突变，使评测更加稳定，但会导致异常数据（乱说）评测偏高一些，上述对句子评测结合上述两种方法，很好的兼顾的稳定性和准确性。

本发明还提供一种语音评测系统，如图2所示，包括：

语音获取模块1，用于获取待测语音；

句子提取模块2，用于提取语音中的句子；

单词提取模块3，用于提取句子中的单词；

音素提取模块4，用于提取单词的关键音素；

第一评测结果生成模块5，获取音素的后验概率和音素的帧长，基于后验概率和帧长对音素进行评测，并将音素的评测结果作为第一评测结果；

第二评测结果生成模块6，用于基于第一评测结果，对单词进行评测，将单词的评测结果作为第二评测结果；

第三评测结果生成模块7，用于基于第二评测结果和句子的后验概率，对句子进行评测，将句子的评测结果作为第三评测结果；

综合评测结果生成模块8，用于对第一评测结果、第二评测结果和第三评测结果进行加权处理，将加权处理的结果作为综合评测结果。

本语音评测系统获取待测语音后通过句子提取模块、单词提取模块、音素提取模块将待测语音进行解剖成一个个音素，以音素为基础对该待测语音进行评测。具体为：第一评测结果生成模块是以音素的后验概率和音素的帧长对音素进行评测；第二评测结果生成模块是以单词包含的音素的评测结果对单词进行评测；第三评测结果生成模块再由单词的评测结果和句子的后验概率对句子进行评测，然后综合评测结果生成模块根据三次评测结果进行加权处理得出综合评测结果。

本语音评测的系统通过音素的后验概率及帧长，推出单词、句子评测，以及语音整体的评测，在音素评测的时候引入帧长，因发声人员的个体在发出音素的帧长上存在着差异，使综合评测结果具有差异化的特点，并且还保持着以音素的后验概率为基础的打分系统的稳定性好、准确率高的特点。

语音评测系统还包括：评测结果输出模块，用于输出第一评测结果、第二评测结果、第三评测结果和综合评测结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。