CN112185420A

CN112185420A - 一种发音检测方法、装置、计算机设备和存储介质

Info

Publication number: CN112185420A
Application number: CN202011033319.6A
Authority: CN
Inventors: 蒋成林; 梁球斌; 其他发明人请求不公开姓名
Original assignee: Beijing Lexuebang Network Technology Co Ltd
Current assignee: Beijing Lexuebang Network Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-05

Abstract

本公开提供了一种发音检测方法、装置、计算机设备和存储介质，其中，该方法包括：针对任一目标用户，获取目标用户的音频数据；针对所述音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界；利用音素编码模型分别对确定了时间边界的每一音素进行编码，确定每一音素对应的第一音素向量；针对每一音素，确定该音素对应的第一音素向量与第二音素向量之间的距离，第二音素向量为所述音素编码模型训练过程中获得的该音素对应的向量；根据各音素对应的第一音素向量与第二音素向量之间的距离，对音频数据进行检测。本公开实施例根据各用户的发音特性进行个性化检测，从而提高了发音检测结果的准确性。

Description

一种发音检测方法、装置、计算机设备和存储介质

技术领域

本公开涉及音频检测技术领域，具体而言，涉及一种发音检测方法、装置、计算机设备和存储介质。

背景技术

随着在线教育业务的兴起，用户在线朗读文本，由客户端编码得到相应的音频数据，服务器对接收到的音频数据进行检测，以判断用户朗读是否准确。

目前，用户在朗读英文或中文文本时，对于朗读正确与否的判断，服务器通常是从用户语音中提取表征发音特性的特征，对发音打分或做正误分类，根据发音得分划定门限或者根据分类结果，从而判断发音是否正确。

但是，这种根据单次语音的发音特性判读正误，受限于切分准确性及分类模型的泛化能力，导致判断结果存在一定的误差，降低了检测结果的准确性。

发明内容

本公开实施例至少提供一种发音检测方法、装置、计算机设备和存储介质。

第一方面，本公开实施例提供了一种发音检测方法，包括：

针对任一目标用户，获取所述目标用户的音频数据，并提取所述音频数据的声学特征，所述音频数据中包括音素；

针对任一目标用户，获取所述目标用户的音频数据，所述音频数据中包括音素；

针对所述音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界，所述网络为利用所述音频数据对应的文本信息构建的；

利用音素编码模型分别对确定了时间边界的每一音素进行编码，确定每一音素对应的第一音素向量，其中所述音素编码模型为基于所述目标用户产生的音频样本数据进行训练得到的；

针对每一音素，确定该音素对应的第一音素向量与第二音素向量之间的距离，所述第二音素向量为所述音素编码模型训练过程中获得的该音素对应的向量；

根据各音素对应附第一音素向量与第二音素向量之间的距离，对所述音频数据进行检测。

一种可选的实施方式中，根据各音素对应的第一音素向量与第二音素向量之间的距离，对所述音频数据进行检测，具体包括：

针对每一音素，根据该音素对应的第一音素向量与第二音素向量之间的距离，在所述距离小于等于第一预设阈值的情况下，确定所述音频数据中该音素发音正确；如果所述音频数据中所有音素发音正确，则确定所述音频数据发音正确；

在所述距离大于第二预设阈值的情况下，确定所述音频数据中该音素发音错误；如果所述音频数据中至少一个音素发音错误，则确定所述音频数据发音错误。

一种可选的实施方式中，在所述距离小于第一预设阈值的情况下，确定所述音频数据中该音素发音正确之后，还包括：

针对发音准确的音素，利用其对应的第一音素向量更新其对应的第二音素向量。

一种可选的实施方式中，还包括：

针对发音错误的音素，统计该音素发音错误的次数；

如果该音素的发音错误次数达到第三预设阈值；并

判断该音素对应的第二音素向量是否存在更新；

如果该音素对应的第二音素向量不存在更新，则确定该音素系统性发音错误。

一种可选的实施方式中，还包括：

针对系统性发音错误的音素，分别确定该音素对应的第一音素向量与第三音素对应的第二音素向量之间的距离，将距离最小的第三音素作为提示音素，其中，所述第三音素为预设音素中除该音素以外的音素。

一种可选的实施方式中，按照以下方法确定所述第一预设阈值：

针对每一音素，获取该音素正确发音的第一样本集合；

利用所述音素编码模型对所述第一样本集合中的每一样本分别进行编码，得到该音素对应的第四音素向量集合；

分别确定所述第四音素向量集合中包含的每一第四音素向量与所述第二音素向量之间的距离并升序排列；

确定第一预设比例处对应的距离为所述第一预设阈值。

一种可选的实施方式中，按照以下方法确定所述第二预设阈值：

针对每一音素，获取该音素错误发音的第二样本集合；

利用所述音素编码模型对所述第二样本集合中的每一样本分别进行编码，得到该音素对应的第五音素向量集合；

分别确定所述第五音素向量集合中包含的每一第五音素向量与所述第二音素向量之间的距离并降序排列；

确定第二预设比例处对应的距离为所述第二预设阈值。

一种可选的实施方式中，针对所述音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界，所述网络为利用所述音频数据对应的文本信息构建的，具体包括：

提取所述音频数据的声学特征；

针对所述音频数据中包含的每一音素，基于提取的声学特征，利用音频识别模型确定该音素对应的后验概率，所述音频识别模型为利用带音素标签的音频样本数据进行训练得到的；

基于该音素对应的后验概率，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界。

第二方面，本公开实施例还提供一种发音检测装置，包括：

提取单元，用于针对任一目标用户，获取所述目标用户的音频数据，所述音频数据中包括音素；

解码单元，用于针对所述音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界，所述网络为利用所述音频数据对应的文本信息构建的；

第一确定单元，用于利用音素编码模型对确定了时间边界的音素进行编码，确定每一音素对应的第一音素向量，其中所述音素编码模型为基于所述目标用户产生的音频样本数据进行训练得到的；

第二确定单元，用于针对每一音素，确定该音素对应的第一音素向量与第二音素向量之间的距离，所述第二音素向量为所述音素编码模型训练过程中获得的该音素对应的向量；

检测单元，用于根据各音素对应的第一音素向量与第二音素向量之间的距离，对所述音频数据进行检测。

一种可选的实施方式中，所述检测单元，具体用于针对每一音素，根据该音素对应的第一音素向量与第二音素向量之间的距离，在所述距离小于等于第一预设阈值的情况下，确定所述音频数据中该音素发音正确；如果所述音频数据中所有音素发音正确，则确定所述音频数据发音正确；在所述距离大于第二预设阈值的情况下，确定所述音频数据中该音素发音错误；如果所述音频数据中至少一个音素发音错误，则确定所述音频数据发音错误。

一种可选的实施方式中，还包括更新单元，其中：

所述更新单元，用于在所述距离小于第一预设阈值的情况下，确定所述音频数据中该音素发音正确之后，针对发音准确的音素，利用其对应的第一音素向量更新其对应的第二音素向量。

一种可选的实施方式中，所述检测单元，还用于针对发音错误的音素，统计该音素发音错误的次数；如果该音素的发音错误次数达到第三预设阈值；并判断该音素对应的第二音素向量是否存在更新；如果该音素对应的第二音素向量不存在更新，则确定该音素系统性发音错误。

一种可选的实施方式中，还包括第三确定单元，其中：

所述第四确定单元，用于针对系统性发音错误的音素，分别确定该音素对应的第一音素向量与第三音素对应的第二音素向量之间的距离，将距离最小的第三音素作为提示音素，其中，所述第三音素为预设音素中除该音素以外的音素。

一种可选的实施方式中，还包括第四确定单元，用于针对每一音素，获取该音素正确发音的第一样本集合；利用所述音素编码模型对所述第一样本集合中的每一样本分别进行编码，得到该音素对应的第四音素向量集合；分别确定所述第四音素向量集合中包含的每一第四音素向量与所述第二音素向量之间的距离并升序排列；确定第一预设比例处对应的距离为所述第一预设阈值。

一种可选的实施方式中，还包括第五确定单元，用于针对每一音素，获取该音素错误发音的第二样本集合；利用所述音素编码模型对所述第二样本集合中的每一样本分别进行编码，得到该音素对应的第五音素向量集合；分别确定所述第五音素向量集合中包含的每一第五音素向量与所述第二音素向量之间的距离并降序排列；确定第二预设比例处对应的距离为所述第二预设阈值。

一种可选的实施方式中，所述解码单元，具体用于提取所述音频数据的声学特征；针对所述音频数据中包含的每一音素，基于提取的声学特征，利用音频识别模型确定该音素对应的后验概率，所述音频识别模型为利用带音素标签的音频样本数据进行训练得到的；基于该音素对应的后验概率，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述发音检测装置、计算机设备及存储介质的效果描述参见上述发音检测方法的说明，这里不再赘述。

本公开实施例提供的发音检测方法、装置、计算机设备及存储介质，通过提取目标用户产生的音频数据中的声学特征，并输入到音素识别模型中，得到输出音素对应的后验概率，利用音频数据对应的文本信息构建网络并对音素对应的后验概率进行解码，得到每一音素对应的时间边界，利用音素编码模型对确定了时间边界的音素进行编码，确定第一音素向量，其中音素编码模型为利用目标用户所产生的音频样本数据进行训练得到的，根据第一音素向量与音素编码模型训练过程中产生的第二音素向量之间的距离对音频数据进行检测，上述过程中，由于针对不同用户采用不同的音素编码模型进行编码，即根据各用户的发音特性进行个性化检测，从而提高了发音检测结果的准确性。

进一步，本公开实施例提供的发音检测方法、装置、计算机设备及存储介质，还可以在确定音频数据发音正确的情况下，分别更新音素编码模型和第二音素向量，充分利用了用户个体的发音特性。

进一步，本公开实施例提供的发音检测方法、装置、计算机设备及存储介质，还可以在确定音频数据系统性发音错误的情况下，确定第一音素向量与第三音素向量之间的距离，将最小距离的一个或多个第三音素向量作为提示音素，使得音素编码模型具有反馈用户发音错误的能力。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1a示出了本公开实施例所提供的一种发音检测方法的应用场景示意图；

图1b示出了本公开实施例所提供的一种发音检测方法的流程图；

图2a示出了本公开实施例所提供的发音检测方法中，具体音频数据的频谱图；

图2b示出了本公开实施例所提供的发音检测方法中，提取到的声学特征示意图；

图2c示出了本公开实施例所提供的发音检测方法中，根据文本信息构建的网络结构示意图；

图3示出了本公开实施例所提供的发音检测方法中，每一音素的时间边界效果图；

图4示出了本公开实施例所提供的发音检测方法中，训练编码过程示意图；

图5示出了本公开实施例所提供的发音检测方法中，利用音素编码模型获得第一音素向量的原理示意图；

图6示出了本公开实施例所提供的一种发音检测装置的示意图；

图7示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

另外，本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

经研究发现，学生在朗读英文或者中文文本时，对语音发音特性的识别受限于切分的准确性以及分类模型的泛化能力，不能很好的利用学生个体的发音特性，对学生朗读文本误报，同时，未能及时检测出学生发音错误属于系统性发音错误的情况。

基于上述研究，本公开提供了一种发音检测方法、装置、计算机设备和存储介质，使得音素编码模型具有检测用户发音错误和反馈用户发音错误的能力；同时，通过更新音频数据和音素编码模型，充分利用用户个体的发音特性。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1a所示，其为本发明实施例提供的一种发音检测方法的应用场景示意图。用户10通过终端设备11中安装的应用客户端登录应用服务器12，其中，应用客户端可以为网页的浏览器，也可以为安装于终端设备，如手机，平板电脑等中的应用程序客户端。终端设备11与应用服务器12之间通过网络进行通信连接，该网络可以为局域网、蜂窝网和广域网等。终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。应用服务器12可以为任何能够提供互联网服务的设备。

本公开实施例提供的一种发音检测方法可以应用于应用服务器12中。在一些实施方式中，该方法也可以集成在客户端中，由客户端进行发音检测，本公开实施例对此不进行限定，为了便于描述，以下以服务器执行本公开实施例提供的发音检测方法为例进行说明。在一些可能的实现方式中，该发音检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

实施例一

针对用户个体发音特性和反馈用户发音错误两个方面，本公开实施例提供了一种发音检测方法，参见图1b所示，为本公开实施例提供的一种发音检测方法的流程图，该方法包括步骤S101～S106，其中：

S101：针对任一目标用户，获取目标用户的音频数据。

本步骤中，接收音频数据的设备可以是上述的终端设备11，例如电脑、手机、平板电脑等安装了评测客户端的设备。具体实施时，客户端通过调用终端设备的麦克风采集目标用户朗读文本的音频数据，音频数据中包括音素，客户端在获取了音频数据后将其发送给服务器进行朗读准确与否的检测。

当然，在一些实施方式中，也可以由客户端集成本公开实施例提供的发音检测方法，在获取到目标用户的音频数据后，客户端进行检测并向用户反馈检测结果，本公开实施例对此不进行限定，以下以服务器执行发音检测方法为例进行说明。

服务器在接收到客户端发送的音频数据之后，提取音频数据的声学特征。其中，声学特征可以是梅尔倒谱系数(MelFrequency Cepstral Coefficient，MFCC)，还可以是感知线性预测(Perceptual Linear Prediction，PLP)等。具体实施时，服务器首先将音频数据利用快速傅里叶变换(fast Fourier transform，FFT)转化到频域，每一帧代表语音能量；然后，经过滤波器组将音频转换为符合人耳的听觉特性；最后，利用离散余弦变换(Discrete Cosine Transform，DCT)提取声学特征。

例如，获取一段音频数据为“江南可采莲”，即“jiang nan ke cai lian”，音频数据的频谱如图2a所示，其提取到的声学特征示意图如图2b所示。经过提取出对应的声学特征的步骤，可以将音频数据分割成多帧，每一帧包括一个音素状态。延续上例，可以设定25毫秒间隔为窗长，对音频数据进行分割，其中，令10毫秒为窗移分帧，将“jiangnankecailian”分割成“j”“iang”“n”“an”“k”“e”“c”“ai”“l”“ian”，每一音素被分割为若干个音素状态，以“j”分割为3个音素状态为例，可以表示为j_s1、j_s2和j_s3。

S102：针对音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界。

具体实施过程中，基于步骤S101获取目标用户的音频数据，提取该音频数据的声学特征；针对音频数据中包含的每一音素，基于提取的声学特征，利用音频识别模型确定该音素对应的后验概率；基于该音素对应的后验概率，利用预先构建的网络对该音素对应的后验概率进行解码，得到该音素对应的时间边界。

其中，音频识别模型为利用带音素标签的音频样本数据进行训练得到的。音频识别模型可以是一种神经网络模型，例如卷积神经网络(convolutional neural networks，CNN)，或者长短时记忆神经网络(Long Short Term Mermory，LSTM)等。需要说明的是，训练音频识别模型的音频样本数据可以为任意用户的音频样本数据。

具体实施时，将步骤S101中提取到的声学特征输入到音频识别模型中，得到每一细化音素状态对应的后验概率，如表1所示。

表1

本步骤中提到的网络，可以利用音频数据对应的文本信息构建。具体实施时，可以利用音频数据对应的文本信息构建网络，所构建网络的网络结构可以根据实际需要进行定义，如图2c所示，其为根据文本信息构建的网络结构示意图，基于构建的网络，获取文本路径，按照路径可以通过Viterbi algorithm(维特比算法)解码输入的音素状态的后验概率，得到每一音素对应的时间边界。

延续上例，可以利用“江南可采莲”所构建的网络，获取其路径信息为“jiang-nan-ke-cai-lian”，通过Viterbi algorithm(维特比算法)解码输入的j_s2对应的后验概率0.35、iang_s3对应的后验概率0.21等，得到每一音素“j”“iang”“n”“an”“k”“e”“c”“ai”“l”“ian”对应的时间边界，即每一音素的起始时间和结束时间，得到每一音素的时间边界效果图如图3所示。

S103：利用音素编码模型分别对确定了时间边界的每一音素进行编码，确定每一音素对应的第一音素向量。

根据本公开实施例，音素编码模型为基于目标用户产生的音频样本数据进行训练得到的，音素编码模型的输出是one-hot向量，即0-1向量，其中，根据音素数量N确定的N维向量，根据编码结果，相应音素对应的向量为1，其余位置均为0，例如，当前音素编码结果为j，则j在N维向量中对应的向量值为1，其余音素对应的向量值均为0。具体实施时，音素编码模型可以是LSTM模型，将确定了时间边界的每一音素的声音特征输入到LSTM模型中，对每一音素进行编码，确定每一音素对应的第一音素向量，其训练编码过程示意图如图4所示。

延续上例，可以利用LSTM模型对确定了时间边界的每一音素“j”“iang”“n”“an”“k”“e”“c”“ai”“l”“ian”进行编码，当前音素的训练数据是10～15帧是j，那么利用LSTM模型，输入就是10～15帧的声学特征，输出每帧都是第一音素向量(0，0，0，1，…，0)，即该音素对应的第一音素向量；当前音素的训练数据是20～30帧的iang，那么输入就是20～30帧的声学特征，输出就是每帧都是第一音素向量(0，1，...，0)，在此不一一赘述，如表2所示，应当理解，以表2中10个音素为例进行说明。

表2

j	iang	n	an	k	e	c	ai	l	ian
										0	0	0	1	0	0	0	0	0	0
0	1	0	0	0	0	0	0	0	0
										0	0	0	0	0	0	1	0	0	0
1	0	0	0	0	0	0	0	0	0
										0	0	1	0	0	0	0	0	0	0
0	0	0	0	1	0	0	0	0	0
										0	0	0	0	0	1	0	0	0	0
0	0	0	0	0	0	0	0	1	0
										0	0	0	0	0	0	0	1	0	0
0	0	0	0	0	0	0	0	0	1

S104：针对每一音素，确定该音素对应的第一音素向量与第二音素向量之间的距离。

本步骤中，第二音素向量为音素编码模型训练过程中获得的该音素对应的向量。第一音素向量为在检测过程中采集的音频数据输入音素编码模型获得的向量，如图5所示，其为利用音素编码模型获得第一音素向量的原理示意图。

具体实施时，音素编码模型最外层输出为该音素对应的one-hot向量。本公开实施例中，取音素编码模型次外层的输出作为该音素对应的第一音素向量和第二音素向量。由于一个音素对应的输入可能存在多帧数据，具体实施时，为了保证输出结果的准确性，可以采用该音素最后一帧数据的次外层输出作为该音素对应的第一音素向量和第二音素向量。

其中，对于尚未产生音频数据的新用户，本公开实施例中可以采用标准发音的音频样本数据为其训练相应的第二音素向量；在后续采集到该用户的音频数据之后，可以基于该用户对应的音频数据训练得到该用户对应的第二音素向量。

基于获得的第一音素向量和第二音素向量，可以通过余弦相似度公式计算第一音素向量和第二音素向量之间的距离，距离值通常在[-1，1]范围之间，如果取值为1，表示两向量完全相同；如果取值为0，则表示两向量正交；如果取值为[-1，1]之间，则表示两向量具有一定程度的相似性。其中，两个向量A和B，余弦相似度公式为：

延续上例，利用音素编码模型输出时间边界内最后一帧的次外层值，通过余弦相似度公式计算“j”的第一音素向量(0.2，0.1，0.03，0.7，…，0.05)和第二音素向量(0.1，0.15，0.07，0.6，…，0.04)之间的距离。

S105：根据各音素对应的第一音素向量与第二音素向量之间的距离，对音频数据进行检测。

本步骤中，对音频数据进行检测，针对每一音素，根据该音素对应的第一音素向量与第二音素向量之间的距离，可以按照以下方法确定检测结果：

在一个实施例中，在第一音素向量和第二音素向量之间的距离小于等于第一预设阈值的情况下，确定音频数据中该音素发音正确；如果音频数据中所有音素发音正确，则确定音频数据发音正确。

根据本公开实施例，可以按照以下方法确定第一预设阈值，包括以下步骤：

步骤1、针对每一音素，获取该音素正确发音的第一样本集合。

步骤2、利用音素编码模型对第一样本集合中的每一样本分别进行编码，得到该音素对应的第四音素向量集合；

步骤3、分别确定第四音素向量集合中包含的每一第四音素向量与第二音素向量之间的距离并升序排列；

步骤4、确定第一预设比例处对应的距离为第一预设阈值。

例如，针对每一音素，收集该音素发音正确的音频数据组成第一样本集合，通常，第一样本集合中包含各个音素，利用LSTM模型对第一样本集合中的每一样本分别进行编码，取各音素最后一帧的次外层输出得到该音素对应的第四音素向量集合，具体过程参照步骤S102，此处不再赘述；通过余弦相似度公式分别计算第四音素向量集合中包含的每一第四音素向量与第二音素向量之间的距离D1，并按照升序排列D1，第二预设比例可以根据实际需要进行设定，本公开实施例对此不进行限定，例如，取50％时对应的值作为第一预设阈值。

进一步地，针对发音准确的音素，可以利用其对应的第一音素向量更新其对应的第二音素向量。

在另一实施例中，在第一音素向量和第二音素向量之间的距离大于第二预设阈值的情况下，确定音频数据中该音素发音错误；如果音频数据中至少一个音素发音错误，则确定音频数据发音错误。

具体实施时，为了判断目标用户针对该音素的发音错误是偶发错误还是系统性发音错误，即用户为掌握该音素的准确发音，本公开实施例中，针对发音错误的音素，统计该音素发音错误的次数；如果该音素的发音错误次数达到第三预设阈值；且判断该音素对应的第二音素向量是否存在更新；如果该音素对应的第二音素向量不存在更新，则确定该音素系统性发音错误。

根据本公开实施例，可以按照以下方法确定第二预设阈值，包括以下步骤：

步骤1、针对每一音素，获取该音素错误发音的第二样本集合；

步骤2、利用音素编码模型对第二样本集合中的每一样本分别进行编码，得到该音素对应的第五音素向量集合；

步骤3、分别确定第五音素向量集合中包含的每一第五音素向量与第二音素向量之间的距离并降序排列；

步骤4、确定第二预设比例处对应的距离为第二预设阈值。

例如，针对每一音素，收集该音素发音正确的音频数据组成第一样本集合，通常，第一样本集合中包含各个音素，利用LSTM模型对第二样本集合中的每一样本分别进行编码，得到该音素对应的第五音素向量集合，具体过程参照步骤S102，此处不再赘述；可以通过余弦相似度公式分别计算第五音素向量集合中包含的每一第五音素向量与第二音素向量之间的距离D2，按照降序排列D2，第二预设比例可以根据实际需要进行设定，本公开实施例对此不进行限定，例如，取90％时对应的值作为第二预设阈值。

进一步地，本公开实施例针对发音错误的音素，还为用户提供了纠错功能。

具体实施时，针对发音错误的音素，分别确定该音素对应的第一音素向量与第三音素对应的第二音素向量之间的距离，将距离最小的第三音素作为提示音素，其中，第三音素为预设音素中除该音素以外的音素。

以文本是“w-o”，错误音频数据“w-u”为例，针对发音错误的音素，分别确定该音素对应的第一音素向量(0.02，0.1，0.7，…，0.05)，在全部音素中找到与该音素对应的第一音素向量距离最小的音素，即可认为是错成的音素，其中，“o”对应的第二音素向量(0.2，0.5，0.03，…，0.02)，“u”对应的第二音素向量(0.02，0.1，0.7，…，0.05)，可以确定出与“o”对应的第二音素向量之间的距离很大，与“u”对应的第二音素向量之间的距离很小，因此可以生成纠错功能，即“o”错成了“u”。

本公开实施例通过提取音频数据的声学特征，并输入到音素识别模型中，得到输出音素对应的后验概率，对音素对应的后验概率进行解码后，得到每一音素对应的时间边界，利用音素编码模型对确定了时间边界的音素进行编码，确定第一音素向量，并确定第一音素向量和训练过程中音素编码模型输出的各音素对应的第二音素向量之间的距离，基于确定出的对音频数据进行检测，使得音素编码模型具有检测用户发音错误和反馈用户发音错误的能力，同时，通过更新音素编码模型和音频数据，充分利用了用户个体的发音特性，使得检测结果更具针对性，提高了检测结果的准确性。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与发音检测方法对应的发音检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述发音检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例二

参照图6所示，为本公开实施例提供的一种发音检测装置的示意图，该装置包括：提取单元601、解码单元602、第一确定单元603、第二确定单元604和检测单元605；其中，

提取单元601，用于针对任一目标用户，获取所述目标用户的音频数据，所述音频数据中包括音素；

解码单元602，用于针对所述音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界，所述网络为利用所述音频数据对应的文本信息构建的；

第一确定单元603，用于利用音素编码模型对确定了时间边界的音素进行编码，确定每一音素对应的第一音素向量，其中所述音素编码模型为基于所述目标用户产生的音频样本数据进行训练得到的；

第二确定单元604，用于针对每一音素，确定该音素对应的第一音素向量与第二音素向量之间的距离，所述第二音素向量为所述音素编码模型训练过程中获得的该音素对应的向量；

检测单元605，用于根据各音素对应的第一音素向量与第二音素向量之间的距离，对所述音频数据进行检测。

一种可选的实施方式中，所述检测单元605，具体用于针对每一音素，根据该音素对应的第一音素向量与第二音素向量之间的距离，在所述距离小于等于第一预设阈值的情况下，确定所述音频数据中该音素发音正确；如果所述音频数据中所有音素发音正确，则确定所述音频数据发音正确；在所述距离大于第二预设阈值的情况下，确定所述音频数据中该音素发音错误；如果所述音频数据中至少一个音素发音错误，则确定所述音频数据发音错误。

一种可选的实施方式中，还包括更新单元，其中：

一种可选的实施方式中，所述检测单元605，还用于针对发音错误的音素，统计该音素发音错误的次数；如果该音素的发音错误次数达到第三预设阈值；并判断该音素对应的第二音素向量是否存在更新；如果该音素对应的第二音素向量不存在更新，则确定该音素系统性发音错误。

一种可选的实施方式中，还包括第三确定单元，其中：

所述第三确定单元，用于针对系统性发音错误的音素，分别确定该音素对应的第一音素向量与第三音素对应的第二音素向量之间的距离，将距离最小的第三音素作为提示音素，其中，所述第三音素为预设音素中除该音素以外的音素。

一种可选的实施方式中，所述解码单元602，具体用于提取所述音频数据的声学特征；针对所述音频数据中包含的每一音素，基于提取的声学特征，利用音频识别模型确定该音素对应的后验概率，所述音频识别模型为利用带音素标签的音频样本数据进行训练得到的；基于该音素对应的后验概率，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例三

基于同一技术构思，本申请实施例还提供了一种计算机设备。参照图7所示，为本申请实施例提供的计算机设备结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当计算机设备运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行上述方法实施例中所提及的执行指令。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的发音检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的发音检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的发音检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种发音检测方法，其特征在于，包括：

根据各音素对应的第一音素向量与第二音素向量之间的距离，对所述音频数据进行检测。

2.根据权利要求1所述的方法，其特征在于，根据各音素对应的第一音素向量与第二音素向量之间的距离，对所述音频数据进行检测，具体包括：

3.根据权利要求2所述的方法，其特征在于，在所述距离小于第一预设阈值的情况下，确定所述音频数据中该音素发音正确之后，还包括：

4.根据权利要求2所述的方法，其特征在于，还包括：

针对发音错误的音素，统计该音素发音错误的次数；

如果该音素的发音错误次数达到第三预设阈值；并

判断该音素对应的第二音素向量是否存在更新；

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求2所述的方法，其特征在于，按照以下方法确定所述第一预设阈值：

针对每一音素，获取该音素正确发音的第一样本集合；

确定第一预设比例处对应的距离为所述第一预设阈值。

7.根据权利要求2所述的方法，其特征在于，按照以下方法确定所述第二预设阈值：

针对每一音素，获取该音素错误发音的第二样本集合；

确定第二预设比例处对应的距离为所述第二预设阈值。

8.根据权利要求1所述的方法，其特征在于，针对所述音频数据包含的每一音素，利用预先构建的网络对该音素进行解码，得到该音素对应的时间边界，所述网络为利用所述音频数据对应的文本信息构建的，具体包括：

提取所述音频数据的声学特征；

9.一种发音检测装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的发音检测方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的发音检测方法的步骤。