CN112908363A

CN112908363A - 一种发音检测方法、装置、计算机设备及存储介质

Info

Publication number: CN112908363A
Application number: CN202110080308.1A
Authority: CN
Inventors: 蒋成林; 梁球斌
Original assignee: Beijing Lexuebang Network Technology Co ltd
Current assignee: Beijing Lexuebang Network Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-06-04
Anticipated expiration: 2041-01-21
Also published as: CN112908363B

Abstract

本公开提供了一种发音检测方法、装置、计算机设备及存储介质，该方法包括：获取待检测的音频数据；基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列，所述错误发音序列中包括至少一个音素；基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，所述第一检测值用于表示所述音频数据中所包含的音素组成的音频发音序列为所述至少一个错误发音序列的概率；基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果。

Description

一种发音检测方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种发音检测方法、装置、计算机设备及存储介质。

背景技术

近年来，学生的教育问题越来越受到各方面的重视，但出于人力成本等多方面考量，学生们在进行发音练习时往往不会有专人进行随时的检测和纠正辅导，因此，需要借助应用程序对学生的发音进行自动检测和纠正。

现有的检测模型往往只能检测出学生的发音音频中各个音素的时间边界，当需要对检测出的时间边界内的音素进行确认时，则需要做其他的处理，比如再进行特征提取和特征转化等一系列操作，从而使得检测流程繁琐，导致了发音检测效率较低。

发明内容

本公开实施例至少提供一种发音检测方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种发音检测方法，包括：

获取待检测的音频数据；

基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列，所述错误发音序列中包括至少一个音素；

基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，所述第一检测值用于表示所述音频数据中所包含的音素组成的音频发音序列为所述至少一个错误发音序列的概率；

基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果。

一种可能的实施方式中，所述基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界，包括：

将所述音频数据和所述音频数据对应的发音序列输入至所述检测模型，得到与所述音频数据在该发音序列下对应的似然度矩阵，其中，所述似然度矩阵表示在该发音序列下每个采样区间内出现不同音素的概率；其中，所述音频数据对应的发音序列包括所述音频数据的标准发音序列和/或错误发音序列；

基于所述似然度矩阵，确定所述音频数据中包括的各个音素的时间边界。

一种可能的实施方式中，所述基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，包括：

针对任一个错误发音序列，将所述音频数据和该错误发音序列输入至所述检测模型，得到所述音频数据在该错误发音序列下对应的似然度矩阵；

基于所述音频数据中包括的各个音素的时间边界和所述音频数据在该错误发音序列下对应的似然度矩阵以及所述检测模型，确定该错误发音序列对应的第一检测值。

一种可能的实施方式中，所述错误发音序列为基于样本音频数据得到的，用于表征所述待检测的音频数据可能的发音音素组合；

所述错误发音序列包括：典型错误发音序列、通用错误发音序列。

基于所述音频数据中包括的各个音素的时间边界、至少一个所述典型错误发音序列、以及所述检测模型，确定至少一个所述典型错误发音序列对应的第一检测值；

在检测到至少一个所述典型错误发音序列对应的第一检测值不满足预设条件的情况下，基于所述音频数据中包括的各个音素的时间边界、至少一个所述通用错误发音序列、以及所述检测模型，确定至少一个所述通用错误发音序列对应的第一检测值。

一种可能的实施方式中，根据以下方法确定所述典型错误发音序列：

获取所述音频数据对应的样本数据；

基于所述样本数据，确定所述音频数据对应的至少一个待筛选的错误发音序列，以及每个待筛选的错误发音序列对应的频率；

基于所述至少一个待筛选的错误发音序列对应的频率，确定所述音频数据对应的典型错误发音序列。

一种可能的实施方式中，根据以下方法确定所述通用错误发音序列：

将所述待筛选的错误发音序列中，除所述典型错误发音序列外的其他错误发音序列作为所述通用错误发音序列。

获取训练好的音素识别模型；

调整所述音素识别模型的模型参数值；

基于调整后的所述音素识别模型对所述音频数据进行识别，得到所述音频数据对应的典型错误发音序列。

通过排列组合生成多个可能的发音序列；

将所述多个可能的发音序列中，除所述典型错误发音序列和标准发音序列外的其他发音序列，作为所述通用错误发音序列。

一种可能的实施方式中，在基于所述至少一个错误发音序列对应的第一检测值，确定所述音频所述对应的发音检测结果之前，所述方法还包括：

确定所述音频数据对应的标准发音序列对应的第二检测值；

所述基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果，包括：

基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果。

一种可能的实施方式中，所述基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果，包括：

确定对应的检测值最高的目标发音序列；所述检测值包括所述第一检测值和所述第二检测值；

将所述目标发音序列作为所述音频数据对应的发音检测结果。

一种可能的实施方式中，基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果，包括：

确定每个发音序列对应的参考检测值，所述发音序列包括所述错误发音序列和所述标准发音序列；

计算所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值分别与对应的参考检测值之间的差值；

确定对应的差值最小的目标发音序列；

第二方面，本公开实施例还提供一种发音检测装置，包括：

获取模块，用于获取待检测的音频数据；

第一确定模块，用于基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列，所述错误发音序列中包括至少一个音素；

第二确定模块，用于基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，所述第一检测值用于表示所述音频数据中所包含的音素组成的音频发音序列为所述至少一个错误发音序列的概率；

第三确定模块，用于基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果。

一种可能的实施方式中，所述第一确定模块，在所述基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界时，用于：

一种可能的实施方式中，所述第二确定模块，在所述基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值时，用于：

一种可能的实施方式中，所述装置还包括错误确定模块，在确定所述典型错误发音序列时，用于：

获取所述音频数据对应的样本数据；

一种可能的实施方式中，所述错误确定模块，在确定所述通用错误发音序列时，用于：

一种可能的实施方式中，所述错误确定模块，在确定所述典型错误发音序列时，用于：

获取训练好的音素识别模型；

调整所述音素识别模型的模型参数值；

通过排列组合生成多个可能的发音序列；

一种可能的实施方式中，所述第三确定模块，在基于所述至少一个错误发音序列对应的第一检测值，确定所述音频所述对应的发音检测结果之前，还用于：

确定所述音频数据对应的标准发音序列对应的第二检测值；

所述第三确定模块，在所述基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果时，用于：

一种可能的实施方式中，所述第三确定模块，在所述基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果时，用于：

一种可能的实施方式中，所述第三确定模块，在基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果时，用于：

确定对应的差值最小的目标发音序列；

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述发音检测装置、计算机设备、及计算机可读存储介质的效果描述参见上述发音检测方法的说明，这里不再赘述。

本公开实施例提供的发音检测方法、装置、计算机设备及存储介质，在基于预先确定的检测模型，确定各个音素的时间边界之后，可以直接基于各个音素的时间边界、音频数据对应的至少一个错误发音序列以及所述检测模型，确定至少一个错误发音序列对应的第一检测值，然后基于至少一个错误发音序列对应的第一检测值确定音频数据对应的发音检测结果，这样，通过多次调用同一检测模型对音频数据进行检测，并通过不同第一检测值之间的比较，就可以直接检测到音频数据中的错误发音序列，无需根据各个音素的时间边界进行其他处理，从而提高了发音检测效率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种发音检测方法的流程图；

图2示出了本公开实施例所提供的发音检测方法中，确定各个音素的时间边界的具体方法的流程图；

图3示出了本公开实施例所提供的发音检测方法中，一种确定典型错误发音序列的方法的流程图；

图4示出了本公开实施例所提供的发音检测方法中，另一种确定典型错误发音序列的具体方法的流程图；

图5示出了本公开实施例所提供的发音检测方法中，确定通用错误发音序列的具体方法的流程图；

图6示出了本公开实施例所提供的发音检测方法中，确定第一检测值的具体方法的流程图；

图7示出了本公开实施例所提供的发音检测方法中，一种确定发音检测结果的方法的流程图；

图8示出了本公开实施例所提供的发音检测方法中，另一种确定发音检测结果的方法的流程图；

图9示出了本公开实施例所提供的一种发音检测装置的示意图；

图10示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，现有的检测模型往往只能检测出学生的发音音频中各个音素的时间边界，当需要对检测出的时间边界内的音素进行确认时，则需要做其他的处理，比如再进行特征提取和特征转化等一系列操作，从而使得检测流程繁琐，导致了发音检测效率较低。

基于上述研究，本公开提供了一种发音检测方法、装置、计算机设备及存储介质，在基于预先确定的检测模型，确定各个音素的时间边界之后，可以直接基于各个音素的时间边界、音频数据对应的至少一个错误发音序列以及所述检测模型，确定至少一个错误发音序列对应的第一检测值，然后基于至少一个错误发音序列对应的第一检测值确定音频数据对应的发音检测结果，这样，通过多次调用同一检测模型对音频数据进行检测，并通过不同第一检测值之间的比较，就可以直接检测到音频数据中的错误发音序列，无需根据各个音素的时间边界进行其他处理，从而提高了发音检测效率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种发音检测方法进行详细介绍，本公开实施例所提供的发音检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该发音检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

本公开实施例所公开的一种发音检测方法通常可适用于在线教育领域，例如可作为软件模块等嵌入到在线教育APP、在线教育网站或者在线教育小程序的程序代码中等，或者直接作为硬件模块单独使用、或者挂载其他硬件协同使用等，对此不做任何限定。

下面以执行主体为服务器为例对本公开实施例提供的发音检测方法加以说明。

参见图1所示，为本公开实施例提供的发音检测方法的流程图，所述方法包括S101～S104，其中：

S101：获取待检测的音频数据。

S102：基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列，所述错误发音序列中包括至少一个音素。

S103：基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，所述第一检测值用于表示所述音频数据中所包含的音素组成的音频发音序列为所述至少一个错误发音序列的概率。

S104：基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果。

下面将对本公开实施例中各个步骤及对应的实施方法进行详细说明。

针对S101，所述待检测的音频数据可以是基于终端设备所部署的音频采集组件，比如麦克风进行采集的。例如，在线教育场景中，音频数据可以是在线教育APP(或者小程序、网站等)在得到用户同意后，调用终端麦克风采集到的用户针对音频文本的朗读数据，如单词、古诗、课文、字词等，对此不做任何限定。

在一种可能的实施方式中，在采集到所述待检测的音频数据后，可以由终端设备统一发送给服务器，由服务器存储，并进行后续的检测操作。

具体实施中，在获取待检测的音频数据之后，可以根据S102确定所述音频数据中包括的各个音素的时间边界，具体描述如下所示。

这里，所述检测模型可以是包含有隐含马尔柯夫模型(Hidden Markov Model、HMM)的计算模型，比如结合深度神经网络(Deep Neural Networks，DNN)的DNN-HMM模型、结合卷积神经网络(Convolutional Neural Networks,CNN)的CNN-HMM模型等。下面以所述检测模式为DNN-HMM为例，对本公开实施例进行详细描述。

一种可能的实施方式中，所述基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界时，参见图2所示，可以通过以下步骤进行确定：

S201：将所述音频数据和所述音频数据对应的发音序列输入至所述检测模型，得到与所述音频数据在该发音序列下对应的似然度矩阵，其中，所述似然度矩阵表示在该发音序列下每个采样区间内出现不同音素的概率；其中，所述音频数据对应的发音序列包括所述音频数据的标准发音序列和/或错误发音序列。

具体的，服务器在接收到客户端发送的音频数据之后，提取音频数据的声学特征。其中，声学特征可以是梅尔倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)，还可以是感知线性预测(Perceptual Linear Prediction，PLP)等。具体实施时，服务器首先将音频数据利用快速傅里叶变换(fast Fourier transform，FFT)转化到频域，每一帧代表语音能量；然后，经过滤波器组将音频转换为符合人耳的听觉特性；最后，利用离散余弦变换(Discrete Cosine Transform，DCT)提取声学特征。

例如，获取一段音频数据为“江南可采莲”，即“jiang nan ke cai lian”，经过提取出对应的声学特征的步骤，可以通过对音频数据进行采样，得到其在每个采样区间内的数据，从而将音频数据分割成多帧，每一帧包括一个音素状态。延续上例，可以设定25毫秒间隔为窗长，对音频数据进行分割，其中，令10毫秒为窗移分帧，将“jiangnankecailian”分割成“j”“iang”“n”“an”“k”“e”“c”“ai”“l”“ian”，每一音素被分割为若干个音素状态，以“j”分割为3个音素状态为例，可以表示为j_s1、j_s2和j_s3。

将上述提取的声学特征输入至训练好的DNN中，即可得到DNN输出的每一细化音素状态对应的后验概率，如下表1所示：

表1

上表中，每一细化音素状态后对应的数值即为该音素状态对应的后验概率，比如j_s2的后验概率为0.8，iang_s3的后验概率为0.7。

进一步的，在得到所述各个细化音素状态的后验概率之后，可以将上述后验概率输入至所述HMM中，并结合似然度＝后验概率×前验概率这一公式，得到HMM输出的似然度矩阵，其中，所述HMM用于定义音素状态的拓扑结构，所述前验概率则可以由样本音频数据进行统计得到。

示例性的，所述似然度矩阵如下表2所示：

表2

上述表2中，音频数据的长度为1秒，第1列表示的是在音频数据中可能出现的所有音素，英语中共有48个音素，故在此以48为例；第2列至最后1列中每一列则分别表示音频数据中在该采用区间内的发出的音素为各个音素的概率，比如第2列表示在0～0.01s这一采样区间内音频数据为音素1、音素2、音素3的概率依次为0.9、0.01、0.09，以此类推即可得到0～1s内每个采样区间内出现不同音素的概率。

这里，虽然单独使用前验概率和后验概率中的任一种，都能一定程度的表征对应的概率大小，但仅单独使用一种容易出现较大的偏差，可能对结果的准确度造成影响，而使用似然度表征概率的大小，由于结合了两种概率进行计算，因此使得得到的数值更能反映出真实的概率大小，使得预测结果更贴合实际。

S202：基于所述似然度矩阵，确定所述音频数据中包括的各个音素的时间边界。

承接上例，在得到所述似然度矩阵之后，可以找到从第2列至最后1列的似然度路径之和最大的那条似然路径，也即采用Viterbi algorithm(维特比算法)进行解码，可以得到音素1的时间边界为0～0.03s、音素2的时间边界为……，从而可以确定所述音频数据中包括的各个音素的时间边界。

理论上，由于在计算时间边界时只是确定在哪个采样区间进行了发音，并未具体确定每个采样区间发了哪个音，因此在计算所述时间边界时，使用任何一个发音序列都可以一定程度上确定出时间边界，但为了方便后续进行相关的计算，较佳的，还是优先采用所述标准发音序列确定时间边界。

进一步的，还可以对标准发音序列下的似然度矩阵进行进一步的计算，得到一个用于表征所述音频数据为所述标准发音序列的概率值的第二检测值，所述第二检测值为此时的似然度矩阵中最大似然路径上的各个似然度之和，可用于后续步骤中的计算。

一种可能的实施方式中，所述错误发音序列为基于样本音频数据得到的，用于表征所述待检测的音频数据可能的发音音素组合，比如音频数据对应的标准发音序列为b-iao，与其对应的错误发音序列可以是b-ao和p-iao等。

需要说明的是，音频数据对应有文本内容，所述文本内容对应有包括标准发音序列和错误发音序列的多种可能的发音序列，所述音频数据对应的错误发音序列指的是其对应的文本内容所对应的错误发音序列。

示例性的，所述文本内容为A-B-C，则其对应的标准发音序列也为A-B-C，由于不同的人去读上述文本内容可能读错成A-B-D等其他错误发音，则上述文本内容对应的错误发音序列即为人们读的与标准发音序列不同的发音序列。

示例性的，所述错误发音序列可以包括典型错误发音序列和通用错误发音序列。

其中，典型错误发音序列可以是错误频率较高的错误发音序列，比如是汉语中的“n”“l”不分等；通用发音错误则是错误频率较低的错误发音序列。通过设置不同的错误发音类型，还可以在识别错误类型后进行存储和记录，可用于后续对用户画像进行构建等其他操作提供数据支持。

一种可能的实施方式中，如图3所示，可以根据以下步骤确定所述典型错误发音序列：

S301：获取所述音频数据对应的样本数据。

示例性的，以汉字“中”为例，包含两个音素，分别是“zh”和“ong”，可以从预设的发音数据库中获取到大量针对“中”的进行发音的样本数据。

S302：基于所述样本数据，确定所述音频数据对应的至少一个待筛选的错误发音序列，以及每个待筛选的错误发音序列对应的频率。

仍以上述汉字“中”为例，获取到1000个“中”字对应的音频数据，其中有500个正确的发音对应的音频数据，500个错误的发音对应的音频数据。其中，待筛选的错误发音序列为“ch-ong”、“z-ong”、“sh-ong”，出现的次数分别为200、250、50，则每个待筛选的错误发音序列对应的频率依次为“40％”、“50％”、“10％”。

S303：基于所述至少一个待筛选的错误发音序列对应的频率，确定所述音频数据对应的典型错误发音序列。

这里，可以预设一个频率筛选阈值，比如20％，并将所述待筛选的错误发音序列对应的频率大于20％的待筛选错误序列确定为所述典型错误发音序列。比如，针对上述汉字“中”的“ch-ong”和“z-ong”。

相应的，可以将所述待筛选的错误发音序列中，除所述典型错误发音序列外的其他错误发音序列作为所述通用错误发音序列。

比如，可以将对应的频率为“10％”的“sh-ong”作为上述汉字“中”的所述通用错误发音序列。

另一种可能的实施方式中，如图4所示，可以根据以下步骤确定所述典型错误发音序列：

S401：获取训练好的音素识别模型。

这里，所述音素识别模型可以是针对英文单词进行发音音素识别的神经网络模型，比如字素到音素(Grapheme-to-Phoneme、G2P)模型，所述G2P模型基于循环神经网络(recurrent neural network,RNN)和LSTM(long short-termmemory units)，来实现从英文单词到音素的转化。所述G2P模型的输入为单词或字对应的文本数据，输出的则是模型预测的该单词或字对应的发音序列。

S402：调整所述音素识别模型的模型参数值。

这里，由于传统的G2P模型的识别结果都是正确的发音音素序列，无法得到想要的典型错误发音序列，所以需要在原有的G2P模型的基础上，通过调整模型内部参数，降低G2P模型的检测精度，使得G2P模型输出的发音序列中不仅仅包含标准发音序列。示例性的，可以对所述G2P模型进行标签平滑Label Smoothing操作，以及Local Attention操作。

S403：基于调整后的所述音素识别模型对所述音频数据进行识别，得到所述音频数据对应的典型错误发音序列。

这里，调整后的所述G2P模型可以输出标准发音序列，以及至少一个预测的典型错误发音序列，将输出结果中的标准发音序列排除，剩下的即为所述典型错误发音序列。

示例性的，调整前的所述G2P模型针对输入的单词X，输出的是单词对应的标准发音序列A-B-C，调整后的所述G2P模型针对输入的单词X，输出的是该单词对应的标准发音序列A-B-C，以及对应的错误发音序列A-B-D、A-B-E，将标准发音序列排除后，剩下的错误发音序列A-B-D、A-B-E即可确定为该单词对应的所述典型错误发音序列。

相应的，如图5所示，可以根据以下方法确定所述通用错误发音序列：

S501：通过排列组合生成多个可能的发音序列。

示例性的，仍以针对英文单词为例，英语音素包括20个元音音素和28个辅音音素，通过排列组合，即可生成多个可能的发音序列。

S502：将所述多个可能的发音序列中，除所述典型错误发音序列和标准发音序列外的其他发音序列，作为所述通用错误发音序列。

示例性的，针对单词“word”，排列组合生成了20个可能的发音序列，除去标准发音序列中的美式标准发音

和英式标准发音

以及3种所述G2P模型输出的典型错误发音序列，其余15种，均为所述通用错误发音序列。

在一种可能的实施方式中，在确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列之后，可以根据S103确定所述至少一个错误发音序列对应的第一检测值，具体描述如下所示。

其中，所述第一检测值为所述检测模型基于所述错误发音序列进行计算后得到的。

示例性的，错误发音序列为A-B-D、A-B-E、A-B-F，按照所述标准发音序列确定的时间边界，可以使用包含错误发音序列的解码网络再次对发音数据进行解码，也即再次执行上述DNN-HMM的具体步骤，与第一次进行解码不同，此次采用的解码网络包含了错误发音序列，然后，基于检测模型输出的似然度矩阵中各个音素的似然度进行计算，从而可以得到与上述三个错误发音序列对应的所述第一检测值。

一种可能的实施方式中，在基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值时，可以针对任一个错误发音序列，将所述音频数据和该错误发音序列输入至所述检测模型，得到所述音频数据在该错误发音序列下对应的似然度矩阵，所述音频数据在不同错误发音序列下对应的似然度矩阵不同；然后基于所述音频数据中包括的各个音素的时间边界和所述音频数据在该错误发音序列下对应的似然度矩阵以及所述检测模型，确定该错误发音序列对应的第一检测值。

具体实施中，也即在每次进行解码时，所述DNN-HMM都会基于给定的标准/错误发音序列进行识别，生成对应的似然度矩阵，并通过动态规划确定出其中的最大似然度路径，从而可以确定出与各个发音序列对应的检测值，其中，错误发音序列对应的检测值为第一检测值，标准发音序列对应的检测值为第二检测值。

一种可能的实施方式中，在确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列之后，参见图6所示，可以通过以下步骤进行确定所述至少一个错误发音序列对应的第一检测值：

S601：基于所述音频数据中包括的各个音素的时间边界、至少一个所述典型错误发音序列、以及所述检测模型，确定至少一个所述典型错误发音序列对应的第一检测值。

具体实施中，由于所述典型错误发音序列为出现频率较高的错误发音序列，若基于所述典型错误发音序列确定了所述音频数据对应的检测结果，就可以省略后续的识别和检测操作，因此为了加快对错误发音序列类型的识别的进度，可以优先将在样本音频数据中出现频率较高的所述典型错误发音序列进行检测，得到对应的第一检测值。

S602：在检测到至少一个所述典型错误发音序列对应的第一检测值不满足预设条件的情况下，基于所述音频数据中包括的各个音素的时间边界、至少一个所述通用错误发音序列、以及所述检测模型，确定至少一个所述通用错误发音序列对应的第一检测值。

通过先对高频的典型发音错误序列进行匹配，在匹配失败之后，再对低频的通用发音错误序列进行匹配，可以提高对发音序列的检测效率，节约检测时间。

或者，可以直接计算所有可能的发音序列对应的检测值，然后确定其中的最大值对应的发音序列为所述音频数据对应的发音序列。

需要说明的是，在对确定了时间边界后的音频数据的再次解码过程中，对通用错误发音序列和典型错误发音序列所对应的第一检测值的确定过程可以是同时的；或者，可以是先确定通用错误发音序列对应的第一检测值，再确定典型错误发音序列对应的第一检测值；或者，可以是先确定典型错误发音序列对应的第一检测值，再确定通用错误发音序列对应的第一检测值，具体选择何种确定方式可以由开发人员根据实际需要进行选择，本公开实施例对此不做限定。

具体实施中，在确定所述至少一个错误发音序列对应的第一检测值后，可以根据S104确定所述音频数据对应的发音检测结果，具体描述如下所示。

其中，所述发音检测结果可以是与所述音频数据对应的发音序列；进一步的，还可以是与所述发音序列对应的发音识别结果，比如发音正确、典型(高频)发音错误、通用(低频)发音错误。

一种可能的实施方式中，在基于所述至少一个错误发音序列对应的第一检测值，确定所述音频所述对应的发音检测结果之前，还可以确定所述音频数据对应的标准发音序列对应的第二检测值；

具体实施中，在确定所述发音检测结果时，可以通过如下图7和图8两种方式。

一种可能的实施方式中，所述基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果时，如图7所示，可以通过以下步骤：

S701：确定对应的检测值最高的目标发音序列；所述检测值包括所述第一检测值和所述第二检测值。

将标准发音序列对应的第二检测值，以及可能的错误发音序列对应的第一检测值进行比较，确定其中数值最大的检测值为所述目标检测值，与所述目标检测值对应的发音序列即为所述目标发音序列。

S702：将所述目标发音序列作为所述音频数据对应的发音检测结果。

将得到的目标发音序列作为对应的发音检测结果，并可以根据此时的发音序列，确定该结果为发音正确/典型(高频)发音错误/通用(低频)发音错误。

另一种可能的实施方式中，在基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果时，如图8所示，可以通过以下步骤：

S801：确定每个发音序列对应的参考检测值，所述发音序列包括所述错误发音序列和所述标准发音序列。

这里，可以直接从预先存储有每个发音序列对应的参考检测值的数据库中进行获取，从而确定每个发音序列对应的参考检测值。

其中，所述参考检测值是基于发音数据库中多个相同的发音序列对应的音频数据的检测值，进行求和取平均计算得到的。

示例性的，以所述发音序列为A-B-C为例，从所述发音数据库中找到了5个对应的音频数据，以及对应的检测值分别为73、74、75、76、77，对上述检测值进行求和并计算平均值，即可得到所述发音序列A-B-C对应的参考检测值为75。

S802：计算所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值分别与对应的参考检测值之间的差值。

示例性的，得到标准发音序列A-B-C的参考检测值为75、错误发音序列A-B-D的参考检测值为80、错误发音序列A-B-E的参考检测值为70；依次计算出对应的第二检测值为75.6、第一检测值为80.5和70.8，对应的差值依次为0.6、0.5、0.8。

S803：确定对应的差值最小的目标发音序列。

承接上步，可得最小的差值即为0.5，对应的发音序列A-B-D即可确定为所述目标发音序列。

S804：将所述目标发音序列作为所述音频数据对应的发音检测结果。

通过设置参考检测值，使得检测出的检测值有了参考依据，检测值离所述参考检测值越接近，即可认为与对应的发音序列越为接近。

进一步的，在确定所述音频数据与标准发音序列不同时，还可以在客户端展示对应的文字/图片/视频等发音检测结果提示信息，同时播放与所述音频数据对应的标准发音序列的音频，从而达到纠正发音错误的效果。

本公开实施例提供的发音检测方法，在基于预先确定的检测模型，确定各个音素的时间边界之后，可以直接基于各个音素的时间边界、音频数据对应的至少一个错误发音序列以及所述检测模型，确定至少一个错误发音序列对应的第一检测值，然后基于至少一个错误发音序列对应的第一检测值确定音频数据对应的发音检测结果，这样，通过多次调用同一检测模型对音频数据进行检测，并通过不同第一检测值之间的比较，就可以直接检测到音频数据中的错误发音序列，无需根据各个音素的时间边界进行其他处理，从而提高了发音检测效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与发音检测方法对应的发音检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述发音检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图9所示，为本公开实施例提供的一种发音检测装置的示意图，所述装置包括：获取模块901、第一确定模块902、第二确定模块903、第三确定模块904；其中，

获取模块901，用于获取待检测的音频数据；

第一确定模块902，用于基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界；以及，获取与所述音频数据对应的至少一个错误发音序列，所述错误发音序列中包括至少一个音素；

第二确定模块903，用于基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，所述第一检测值用于表示所述音频数据中所包含的音素组成的音频发音序列为所述至少一个错误发音序列的概率；

第三确定模块904，用于基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果。

一种可能的实施方式中，所述装置还包括错误确定模块905，在确定所述典型错误发音序列时，用于：

获取所述音频数据对应的样本数据；

一种可能的实施方式中，所述错误确定模块905，在确定所述通用错误发音序列时，用于：

一种可能的实施方式中，所述错误确定模块905，在确定所述典型错误发音序列时，用于：

获取训练好的音素识别模型；

调整所述音素识别模型的模型参数值；

通过排列组合生成多个可能的发音序列；

一种可能的实施方式中，所述第三确定模块904，在基于所述至少一个错误发音序列对应的第一检测值，确定所述音频所述对应的发音检测结果之前，还用于：

确定所述音频数据对应的标准发音序列对应的第二检测值；

所述第三确定模块904，在所述基于所述至少一个错误发音序列对应的第一检测值，确定所述音频数据对应的发音检测结果时，用于：

一种可能的实施方式中，所述第三确定模块904，在所述基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果时，用于：

一种可能的实施方式中，所述第三确定模块904，在基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果时，用于：

确定对应的差值最小的目标发音序列；

本公开实施例提供的发音检测装置，在基于预先确定的检测模型，确定各个音素的时间边界之后，可以直接基于各个音素的时间边界、音频数据对应的至少一个错误发音序列以及所述检测模型，确定至少一个错误发音序列对应的第一检测值，然后基于至少一个错误发音序列对应的第一检测值确定音频数据对应的发音检测结果，这样，通过多次调用同一检测模型对音频数据进行检测，并通过不同第一检测值之间的比较，就可以直接检测到音频数据中的错误发音序列，无需根据各个音素的时间边界进行其他处理，从而提高了发音检测效率。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图10所示，为本公开实施例提供的计算机设备1000的结构示意图，包括处理器1001、存储器1002、和总线1003。其中，存储器1002用于存储执行指令，包括内存10021和外部存储器10022；这里的内存10021也称内存储器，用于暂时存放处理器1001中的运算数据，以及与硬盘等外部存储器10022交换的数据，处理器1001通过内存10021与外部存储器10022进行数据交换，当计算机设备1000运行时，处理器1001与存储器1002之间通过总线1003通信，使得处理器1001在执行以下指令：

获取待检测的音频数据；

一种可能的实施方式中，处理器1001的指令中，所述基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界，包括：

一种可能的实施方式中，处理器1001的指令中，所述基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，包括：

一种可能的实施方式中，处理器1001的指令中，所述错误发音序列为基于样本音频数据得到的，用于表征所述待检测的音频数据可能的发音音素组合；

一种可能的实施方式中，处理器1001的指令中，根据以下方法确定所述典型错误发音序列：

获取所述音频数据对应的样本数据；

一种可能的实施方式中，处理器1001的指令中，根据以下方法确定所述通用错误发音序列：

获取训练好的音素识别模型；

调整所述音素识别模型的模型参数值；

通过排列组合生成多个可能的发音序列；

一种可能的实施方式中，处理器1001的指令中，在基于所述至少一个错误发音序列对应的第一检测值，确定所述音频所述对应的发音检测结果之前，还包括：

确定所述音频数据对应的标准发音序列对应的第二检测值；

一种可能的实施方式中，处理器1001的指令中，所述基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果，包括：

一种可能的实施方式中，处理器1001的指令中，基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果，包括：

确定对应的差值最小的目标发音序列；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的发音检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的发音检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的发音检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种发音检测方法，其特征在于，包括：

获取待检测的音频数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频数据和预先确定的检测模型，确定所述音频数据中包括的各个音素的时间边界，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，包括：

4.根据权利要求1所述的方法，其特征在于，所述错误发音序列为基于样本音频数据得到的，用于表征所述待检测的音频数据可能的发音音素组合；

5.根据权利要求4所述的方法，其特征在于，所述基于所述音频数据中包括的各个音素的时间边界、所述至少一个错误发音序列、以及所述检测模型，确定所述至少一个错误发音序列对应的第一检测值，包括：

6.根据权利要求4所述的方法，其特征在于，根据以下方法确定所述典型错误发音序列：

获取所述音频数据对应的样本数据；

7.根据权利要求6所述的方法，其特征在于，根据以下方法确定所述通用错误发音序列：

8.根据权利要求4所述的方法，其特征在于，根据以下方法确定所述典型错误发音序列：

获取训练好的音素识别模型；

调整所述音素识别模型的模型参数值；

9.根据权利要求6或8所述的方法，其特征在于，根据以下方法确定所述通用错误发音序列：

通过排列组合生成多个可能的发音序列；

10.根据权利要求1所述的方法，其特征在于，在基于所述至少一个错误发音序列对应的第一检测值，确定所述音频所述对应的发音检测结果之前，所述方法还包括：

确定所述音频数据对应的标准发音序列对应的第二检测值；

11.根据权利要求10所述的方法，其特征在于，所述基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果，包括：

12.根据权利要求10所述的方法，其特征在于，基于所述至少一个错误发音序列对应的第一检测值，和所述标准发音序列对应的第二检测值，确定所述音频数据对应的发音检测结果，包括：

确定对应的差值最小的目标发音序列；

13.一种发音检测装置，其特征在于，包括：

获取模块，用于获取待检测的音频数据；

14.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至12任一项所述的发音检测方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至12任一项所述的发音检测方法的步骤。