CN112992184B

CN112992184B - 一种发音评测方法、装置、电子设备和存储介质

Info

Publication number: CN112992184B
Application number: CN202110421831.6A
Authority: CN
Inventors: 郭立钊; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-09-10
Anticipated expiration: 2041-04-20
Also published as: CN112992184A

Abstract

本公开实施例涉及一种发音评测方法、装置、电子设备和存储介质。其中，发音评测方法包括：获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，其中，所述发音音频为基于参考文本的音频数据，所述第二音素状态序列不受所述参考文本的音素序列的约束；对比所述第一音素状态序列和所述第二音素状态序列，得到所述发音音频的平均帧错误率；在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时，对所述发音音频的GOP分值进行降分校正，得到最终评测分值。本公开技术方案提高了对发音进行评测打分的准确性。

Description

一种发音评测方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种发音评测方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和深度学习的发展，计算机辅助发音训练(Computer AssistedPronunciation Traing，CAPT)成为当前研究热点之一。尤其国内主要以英语学习为主，从读单词背诵到口语训练，再到情景对话，CAPT系统可以更方便、高效地帮助学生进行口语学习。CAPT系统设计需综合信号处理、深度学习和人机交互等多个学科知识，其中涉及到口语打分评测的技术。

口语打分评测是指发音人根据参考文本进行发音，机器对发音进行打分评判，确定发音的得分；机器的打分评测系统主要建立在一个语音识别模型基础之上，即先通过说话人的标准发音训练声学模型；在此基础上对于给定用户的语音，先提取相应的声学特征，根据声学模型得到发音单元（一般为音素）的似然值，最后通过发音良好度（Goodness ofPronunciation，GOP）的计算，最终得到发音人关于参考文本发音的打分值。

由于发音人发音错误的多样性和易变性，甚至环境因素的影响，如在开放嘈杂环境下发音。基于识别的声学模型和GOP的打分系统很难准确地对发音人的打分进行评判，导致系统反馈给口语学习者错误的信息。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种发音评测方法、装置、电子设备和存储介质。

本公开实施例提供了一种发音评测方法，包括：

获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，其中，所述发音音频为基于参考文本的音频数据，所述第二音素状态序列不受所述参考文本的音素序列的约束；

对比所述第一音素状态序列和所述第二音素状态序列，得到所述发音音频的平均帧错误率；

在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时，对所述发音音频的GOP分值进行降分校正，得到最终评测分值。

在一个实施例中，获取强制对齐下的第一音素状态序列，包括：

获取所述发音音频和对应的参考文本；

提取所述发音音频的语音特征序列；

基于预设声学模型以及所述语音特征序列，将所述参考文本和所述发音音频进行强制对齐，计算得到所述第一音素状态序列。

在一个实施例中，获取自由识别下的第二音素状态序列，包括：

基于所述语音特征序列，采用语音识别模型计算得到所述第二音素状态序列。

在一个实施例中，获取发音音频的GOP分值，包括：

基于所述第一音素状态序列和所述第二音素状态序列，采用GOP算法对所述参考文本中每个音素的发音情况进行打分，得到每个音素的GOP分值；

基于所述每个音素的GOP分值确定所述发音音频的GOP分值。

在一个实施例中，对比所述第一音素状态序列和所述第二音素状态序列，得到所述发音音频的平均帧错误率，包括：

对比所述第一音素状态序列和所述第二音素状态序列中各对应帧的音素，确定所述第二音素状态序列中音素匹配错误的帧数，其中，所述匹配错误包括删除错误、插入错误和替换错误；

将所述匹配错误的帧数与所述发音音频的总帧数之比作为所述平均帧错误率。

在一个实施例中，对所述发音音频的GOP分值进行降分校正，得到最终评测分值，包括：

将所述发音音频的GOP分值与预设惩罚因子相乘，得到所述最终评测分值，其中，所述预设惩罚因子大于0且小于1，在所述参考分段一定的情况下，所述预设惩罚因子与所述发音音频的GOP分值负相关。

在一个实施例中，所述方法还包括：

判断所述发音音频的GOP分值是否高于所述平均帧错误率对应的参考分段；

判断所述发音音频的GOP分值是否高于所述平均帧错误率对应的参考分段，包括：

基于预先设置的帧错误率与分段的对应关系，确定所述平均帧错误率对应的参考分段；

如果所述发音音频的GOP分值大于所述参考分段的最大值，则所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段；

或者，判断所述发音音频的GOP分值是否高于所述平均帧错误率对应的参考分段，包括：

确定所述发音音频的GOP分值所属的目标分段；

基于预先设置的帧错误率与分段的对应关系，确定所述目标分段对应的目标平均帧错误率；

如果所述目标平均帧错误率小于所述平均帧错误率，则所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段。

本公开实施例提供了一种发音评测装置，包括：

音频参数获取模块，用于获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，其中，所述发音音频为基于参考文本的音频数据，所述第二音素状态序列不受所述参考文本的音素序列的约束；

帧错误率获取模块，用于对比所述第一音素状态序列和所述第二音素状态序列，得到所述发音音频的平均帧错误率；

评测模块，用于在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时，对所述发音音频的GOP分值进行降分校正，得到最终评测分值。

本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本公开任意实施例所提供的发音评测方法的步骤。

本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开任意实施例所提供的发音评测方法的步骤。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的技术方案通过获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率，最后在发音音频的GOP分值高于平均帧错误率对应的参考分段的情况下，对发音音频的GOP分值进行降分校正，得到最终评测分值。如此，本公开技术方案在GOP打分的基础上，进一步通过对比第一音素状态序列和第二音素状态序列，确定发音音频的平均帧错误率，从而可以判断GOP打分的GOP分值是否过高，且在GOP分值过高时对GOP分值进行降分校正，最终得到在环境嘈杂或打分系统精度较差情况下的可靠打分，提高了对发音进行评测打分的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的发音评测方法的流程示意图；

图2为本公开实施例提供的第一音素状态序列和第二音素状态序列的对比示意图；

图3为本公开实施例提供的发音评测装置的结构框图；

图4为本公开实施例提供的电子设备的内部结构图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，在音频嘈杂或发音人的发音与文本内容无关时，评测专家（即人工打分）打分往往是给的低分甚至零分，但打分系统很难评判，需要打分系统有很强的鲁棒性和很高的精度，打分系统会存在打高分的情况。在音频嘈杂或发音人的发音与文本内容无关情况下，会存在打分系统将中间某一帧或多帧识别成参考文本的发音，从而给高分。

针对现有问题，本公开实施例在GOP打分的基础上，对GOP分值进行校正，提高了对发音进行评测打分的准确性。

图1为本公开实施例提供的发音评测方法的流程示意图。该发音评测方法可适用于对口语学习者的发音进行评测的情况，可应用于终端和与终端网络连接的服务器所构成的硬件环境中。其中，终端包括但不限于个人计算机、学习机、手机和平板电脑等。本公开实施例的发音评测方法可以由服务器来执行，也可以由终端来执行，还可以由服务器和终端共同执行。其中，终端执行本公开的发音评测方法可以是由安装在其上的客户端来执行。具体的，如图1所示，本公开实施例的发音评测方法可包括：

S110、获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值。

其中，发音音频为基于参考文本的音频数据。示例性的，口语学习者根据其在终端上选择的参考文本进行发音，终端可通过麦克风采集到口语学习者的语音并处理成音频数据，从而得到该发音音频。

第二音素状态序列不受参考文本的音素序列的约束，即不考虑参考文本，基于发音音频，直接采用语音识别模块把最可能的音素状态序列计算出来，相当于得到最符合口语学习者发音的音素序列。

在本公开实施例一实施方式中，获取强制对齐下的第一音素状态序列，包括：

S111、获取发音音频和对应的参考文本。

示例性的，终端根据口语学习者的选择得到对应的参考文本，同时，通过麦克风采集口语学习者的语音，进而得到发音音频。

S112、提取发音音频的语音特征序列。

麦克风采集的音频是wav格式的PCM数据，这种数据是无法直接处理的，和大多数机器学习系统一样，需要先从发音音频中提取语音特征。示例性的，先对发音音频进行短时傅里叶变换(STFT)得到声谱图，然后在梅尔域进行倒谱系数计算，完成语音特征的提取，从而将发音音频转换成一个语音特征序列。

S113、基于预设声学模型以及语音特征序列，将参考文本和发音音频进行强制对齐，计算得到第一音素状态序列。

其中，预设声学模型是根据用户的标准语音训练出来的声学模型，包括但不限于传统的HMM模型和主流的神经网络模型，如DNN模型和lstm模型等。

对于一个参考文本，可以通过发音词典得到该参考文本对应的音素序列。例如，获取到的参考文本为“中学”，通过发音词典可以得到对应的音素序列为/zh ong1 x ue2/。基于预设声学模型以及提取到的语音特征序列，通过解码（一般使用Viterbi解码）就能够计算最可能的音素状态序列，即第一音素状态序列，也就是每一帧语音属于/zh ong1 x ue2/中的哪个音素以及该音素的哪个状态。这样就实现了音频帧和音素状态的对应，即通过强制对齐技术就知道了每个音素对应的语音帧区间范围或时间边界。

在本公开实施例一实施方式中，获取自由识别下的第二音素状态序列，包括：

S114、基于语音特征序列，采用语音识别模型计算得到第二音素状态序列。

其中，语音识别模型与上述预设声学模型可以为同一模型。

示例性的，不考虑参考文本，例如不限制音素序列为/zh ong1 x ue2/，直接采用语音识别模型把最可能的音素状态序列计算出来，即得到第二音素状态序列。

在本公开实施例一实施方式中，获取发音音频的GOP分值，包括：

S115、基于第一音素状态序列和第二音素状态序列，采用GOP算法对参考文本中每个音素的发音情况进行打分，得到每个音素的GOP分值。

具体的，可采用以下公式得到每个音素的GOP分值：

；

其中，

为语音特征序列；

为在音素

下观察到

的概率；

为所有音素的个数；

为语音特征序列的段长。

S116、基于每个音素的GOP分值确定发音音频的GOP分值。

示例性的，可以将每个音素的GOP分值相加求和之后求平均，得到发音音频的GOP分值。

S120、对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率。

本公开实施例中，第一音素状态序列和第二音素状态序列为帧级别的音素状态序列。对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率，可包括：

S121、对比第一音素状态序列和所述第二音素状态序列中各对应帧的音素，确定第二音素状态序列中音素匹配错误的帧数。

其中，匹配错误包括删除错误、插入错误和替换错误。

示例性的，参考图2，第一音素状态序列为/zhzhzh ong1 ong1 x ue2 ue2ue2ue2/，即第一帧到第三帧对应的音素为zh，第四帧和第五帧对应的音素为ong1，第六帧对应的音素为x，第七帧到第十帧对应的音素为ue2。第二音素状态序列为/zhzhch ong1 ong1 xue2 ue2ue2sil/，即第一帧和第二帧对应的音素为zh，第三帧对应的音素为ch，第四帧和第五帧对应的音素为ong1，第六帧对应的音素为x，第七帧到第九帧对应的音素为ue2，第十帧表示静音。通过对比第一音素状态序列和所述第二音素状态序列中各对应帧的音素可以看出，第三帧识别出来的音素为ch，但对应帧的真实音素为zh，表示有一个替换错误的帧；第十帧为静音帧，即未识别出最后一帧的音素，表示有一个删除错误的帧；另外，如果第一音素状态序列中的某一帧为静音帧，而第二音素状态序列中对应帧识别结果为非静音，则表示有一个插入错误的帧。将删除错误的帧数、插入错误的帧数和替换错误的帧数相加求和，得到第二音素状态序列中音素匹配错误的帧数。

S122、将匹配错误的帧数与发音音频的总帧数之比作为平均帧错误率。

S130、在发音音频的GOP分值高于平均帧错误率对应的参考分段时，对发音音频的GOP分值进行降分校正，得到最终评测分值。

当发音音频的GOP分值高于平均帧错误率对应的参考分段时，说明GOP打分过高，因此，需要降低发音音频的GOP分值，以提高打分的准确性。示例性的，可以标定一大于0且小于1的惩罚因子，利用该惩罚因子对GOP分值进行加权，来降低GOP分值，得到在环境嘈杂或打分系统精度较差情况下的可靠打分。

在本公开实施例一实施方式中，对发音音频的GOP分值进行降分校正，得到最终评测分值，包括：

S131、将发音音频的GOP分值与预设惩罚因子相乘，得到最终评测分值。

其中，预设惩罚因子大于0且小于1，在参考分段一定的情况下，预设惩罚因子与发音音频的GOP分值负相关，即发音音频的GOP分值越大，预设惩罚因子越小。参考分段为平均帧错误率对应的标准分值区间。在参考分段一定的情况下，发音音频的GOP分值越大，说明发音音频的GOP分值偏高的越多，应更大程度地降低发音音频的GOP分值，因此，预设惩罚因子越小。预设惩罚因子的具体取值可根据实际试验进行标定。

示例性的，可预先设置帧错误率与分段的对应关系。例如，将验证集的评测打分转换为5分制打分，并划分0-1分、1-2分、2-3分、3-4分和4-5分的分段，分别计算计算人工打分在0-1分、1-2分、2-3分、3-4分和4-5分的平均帧错误率，得到帧错误率与分段的对应关系。人工打分时可以以一句话为单位进行打分，例如，4-5分总共有10句话，分别求每句话的帧错误率，再对10句话的帧错误率求平均，得到4-5分分段的平均帧错误率。

基于上述方案，在利用本公开的发音评测方法进行打分时，发音音频的GOP分值在高分段，而发音音频的平均帧错误率对应低分段，此时，说明发音音频的GOP分值偏高，将发音音频的GOP分值与预设惩罚因子相乘，以降低打分。在一示例中，发音音频的GOP分值在高分段，如3-4分的分段，发音音频的平均帧错误率对应低分段，如0-1分的分段，此时，预设惩罚因子可以为0.25。在另一示例中，发音音频的GOP分值在高分段，如4-5分的分段，发音音频的平均帧错误率对应低分段，如0-1分的分段，此时，预设惩罚因子可以为0.2。

在本公开实施例一实施方式中，发音评测方法还包括：

判断发音音频的GOP分值是否高于平均帧错误率对应的参考分段。

具体的，基于预先设置的帧错误率与分段的对应关系，确定平均帧错误率对应的参考分段；如果发音音频的GOP分值大于参考分段的最大值，则发音音频的GOP分值高于平均帧错误率对应的参考分段。或者，确定发音音频的GOP分值所属的目标分段；基于预先设置的帧错误率与分段的对应关系，确定目标分段对应的目标平均帧错误率；如果目标平均帧错误率小于平均帧错误率，则发音音频的GOP分值高于平均帧错误率对应的参考分段。

本公开实施例提供的发音评测方法，通过获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率，最后在发音音频的GOP分值高于平均帧错误率对应的参考分段的情况下，对发音音频的GOP分值进行降分校正，得到最终评测分值。如此，本公开技术方案在GOP打分的基础上，进一步通过对比第一音素状态序列和第二音素状态序列，确定发音音频的平均帧错误率，从而可以判断GOP打分的GOP分值是否过高，且在GOP分值过高时对GOP分值进行降分校正，最终得到在环境嘈杂或打分系统精度较差情况下的可靠打分，提高了对发音进行评测打分的准确性。

在一个实施例中，如图3所示，提供了一种发音评测装置，该装置包括音频参数获取模块201、帧错误率获取模块202和评测模块203。其中，音频参数获取模块201用于获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，其中，发音音频为基于参考文本的音频数据，第二音素状态序列不受参考文本的音素序列的约束；帧错误率获取模块202用于对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率；评测模块203用于在发音音频的GOP分值高于平均帧错误率对应的参考分段时，对发音音频的GOP分值进行降分校正，得到最终评测分值。

在本公开实施例一实施方式中，音频参数获取模块201包括第一音素状态序列获取单元，该第一音素状态序列获取单元包括：

参考文本获取子单元，用于获取发音音频和对应的参考文本；

语音特征序列提取子单元，用于提取发音音频的语音特征序列；

第一音素状态序列计算子单元，用于基于预设声学模型以及语音特征序列，将参考文本和发音音频进行强制对齐，计算得到第一音素状态序列。

在本公开实施例一实施方式中，音频参数获取模块201包括第二音素状态序列获取单元，该第二音素状态序列获取单元具体用于基于语音特征序列，采用语音识别模型计算得到第二音素状态序列。

在本公开实施例一实施方式中，音频参数获取模块201包括GOP分值获取单元，该GOP分值获取单元包括：

音素GOP分值计算子单元，用于基于第一音素状态序列和第二音素状态序列，采用GOP算法对参考文本中每个音素的发音情况进行打分，得到每个音素的GOP分值；

音频GOP分值计算子单元，用于基于所述每个音素的GOP分值确定所述发音音频的GOP分值。

在本公开实施例一实施方式中，帧错误率获取模块202包括：

音素状态序列对比单元，用于对比第一音素状态序列和第二音素状态序列中各对应帧的音素，确定第二音素状态序列中音素匹配错误的帧数，其中，匹配错误包括删除错误、插入错误和替换错误；

帧错误率确定单元，用于将匹配错误的帧数与发音音频的总帧数之比作为平均帧错误率。

在本公开实施例一实施方式中，评测模块203具体用于：将发音音频的GOP分值与预设惩罚因子相乘，得到最终评测分值，其中，预设惩罚因子大于0且小于1，在参考分段一定的情况下，预设惩罚因子与发音音频的GOP分值负相关。

在本公开实施例一实施方式中，发音评测装置还包括分值判断模块，用于判断发音音频的GOP分值是否高于平均帧错误率对应的参考分段。

具体的，该分值判断模块可包括：

参考分段确定单元，用于基于预先设置的帧错误率与分段的对应关系，确定平均帧错误率对应的参考分段；

分值判断单元，用于如果发音音频的GOP分值大于参考分段的最大值，则发音音频的GOP分值高于平均帧错误率对应的参考分段。

或者，上述分值判断模块可包括：

分段确定单元，用于确定发音音频的GOP分值所属的目标分段；

目标平均帧错误率确定单元，用于基于预先设置的帧错误率与分段的对应关系，确定目标分段对应的目标平均帧错误率；

分值判断单元，用于如果目标平均帧错误率小于平均帧错误率，则发音音频的GOP分值高于平均帧错误率对应的参考分段。

关于发音评测装置的具体限定可以参见上文中对于发音评测方法的限定，在此不再赘述。上述发音评测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该计算机程序被处理器执行时以实现一种发音评测方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本公开提供的发音评测装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的电子设备上运行。电子设备的存储器中可存储组成该发音评测装置的各个程序模块，比如，图3所示的音频参数获取模块201、帧错误率获取模块202和评测模块203。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本公开各个实施例的发音评测方法中的步骤。

例如，图4所示的电子设备可以通过如图3所示的发音评测装置中的音频参数获取模块201执行S110。电子设备可通过帧错误率获取模块202执行S120。电子设备可通过评测模块203执行S130。

一个实施例中，提供了一种电子设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，其中，发音音频为基于参考文本的音频数据，第二音素状态序列不受参考文本的音素序列的约束；对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率；在发音音频的GOP分值高于平均帧错误率对应的参考分段时，对发音音频的GOP分值进行降分校正，得到最终评测分值。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值，其中，发音音频为基于参考文本的音频数据，第二音素状态序列不受参考文本的音素序列的约束；对比第一音素状态序列和第二音素状态序列，得到发音音频的平均帧错误率；在发音音频的GOP分值高于平均帧错误率对应的参考分段时，对发音音频的GOP分值进行降分校正，得到最终评测分值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，比如静态随机存取存储器（Static Random Access Memory，SRAM）和动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种发音评测方法，其特征在于，包括：

在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时，对所述发音音频的GOP分值进行降分校正，得到最终评测分值；

获取发音音频的GOP分值，包括：

基于所述每个音素的GOP分值确定所述发音音频的GOP分值；

对比所述第一音素状态序列和所述第二音素状态序列，得到所述发音音频的平均帧错误率，包括：

2.根据权利要求1所述的发音评测方法，其特征在于，获取强制对齐下的第一音素状态序列，包括：

获取所述发音音频和对应的参考文本；

提取所述发音音频的语音特征序列；

3.根据权利要求2所述的发音评测方法，其特征在于，获取自由识别下的第二音素状态序列，包括：

4.根据权利要求1所述的发音评测方法，其特征在于，对所述发音音频的GOP分值进行降分校正，得到最终评测分值，包括：

5.根据权利要求1所述的发音评测方法，其特征在于，所述方法还包括：

确定所述发音音频的GOP分值所属的目标分段；

6.一种发音评测装置，其特征在于，包括：

评测模块，用于在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时，对所述发音音频的GOP分值进行降分校正，得到最终评测分值；

音频参数获取模块包括GOP分值获取单元，所述GOP分值获取单元包括：

音素GOP分值计算子单元，用于基于所述第一音素状态序列和所述第二音素状态序列，采用GOP算法对所述参考文本中每个音素的发音情况进行打分，得到每个音素的GOP分值；

音频GOP分值计算子单元，用于基于所述每个音素的GOP分值确定所述发音音频的GOP分值；

帧错误率获取模块包括：

7.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的发音评测方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的发音评测方法的步骤。