CN111862960B

CN111862960B - 发音错误检测方法、装置、电子设备及存储介质

Info

Publication number: CN111862960B
Application number: CN202010790901.0A
Authority: CN
Inventors: 叶珑; 雷延强; 梁伟文
Original assignee: Guangzhou Shikun Electronic Technology Co Ltd
Current assignee: Guangzhou Shikun Electronic Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2024-04-30
Anticipated expiration: 2040-08-07
Also published as: CN111862960A

Abstract

本申请提供一种发音错误检测方法、装置、电子设备及存储介质。该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息，待检测语音信号是针对发音文本的语音信号，边界信息用于区别第一音素状态序列中各状态对应的不同音素；针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态；根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素；根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。本申请基于第一音素状态序列中状态对应的混淆音素状态中后验概率最大的状态还原出状态所属音素对应的目标混淆音素(即实际音素)，可加快发音检错速度。

Description

发音错误检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机辅助语言学习技术，尤其涉及一种发音错误检测方法、装置、电子设备及存储介质。

背景技术

发音错误检测(Mispronunciation Detection)技术是计算机辅助语言学习(Computer Assisted Language Learning，简称：CALL)技术的一个细分方向，发音错误检测技术要求高效、准确地还原出学习者的实际发音情况，并给出音素级别的客观反馈和评价，以帮助学习者纠正发音错误。

传统的基于音素循环网络的发音检错技术，是在无限制的音素循环网络中解码得到实际发音的音素状态序列，进而基于音素状态序列确定发音是否错误。发明人在使用该技术进行发音检错时，发现至少存在发音检错速度慢的问题。

发明内容

本申请提供一种发音错误检测方法、装置、电子设备及存储介质，以提升发音检错速度。

第一方面，本申请提供一种发音错误检测方法，该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息，待检测语音信号是针对发音文本的语音信号，边界信息用于区别第一音素状态序列中各状态对应的不同音素；针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态；根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素；根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。

一种可能的实施方式中，上述确定状态对应的混淆音素状态中后验概率最大的状态，包括：在状态的持续时间内，遍历状态所属音素对应的混淆音素的状态，确定其中后验概率最大的状态。

一种可能的实施方式中，上述根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素，包括：根据边界信息，对后验概率最大的状态进行分组；根据分组中状态，确定状态所属音素对应的目标混淆音素。

一种可能的实施方式中，上述根据分组中状态，确定状态所属音素对应的目标混淆音素，包括：

若分组中状态同属于一音素，则确定该音素为状态所属音素对应的目标混淆音素；

若分组中状态不同属于一音素，则确定分组中后验概率最大的状态所属的音素为状态所属音素对应的目标混淆音素。

一种可能的实施方式中，上述根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息，包括：

根据发音文本，构建初始加权有限状态转移器(Weighted Finite-StateTransducers，简称：WFST)对齐网络，其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图；

根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素状态序列及边界信息。

一种可能的实施方式中，上述初始WFST对齐网络包含词间可选静音音素路径。

一种可能的实施方式中，上述根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误，包括：

若目标混淆音素与第一音素状态序列中对应音素相同，则确定第一音素状态序列中对应音素发音正确；

或者，若目标混淆音素与第一音素状态序列中对应音素不同，则确定第一音素状态序列中对应音素的发音错误。

第二方面，本申请提供一种发音错误检测装置，包括：

获取模块，用于根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息，待检测语音信号是针对发音文本的语音信号，边界信息用于区别第一音素状态序列中各状态对应的不同音素；

第一确定模块，用于针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态；

第二确定模块，用于根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素；

比较模块，用于根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。

一种可能的实施方式中，第一确定模块具体用于：在状态的持续时间内，遍历状态所属音素对应的混淆音素的状态，确定其中后验概率最大的状态。

一种可能的实施方式中，第二确定模块，包括：

分组单元，用于根据边界信息，对后验概率最大的状态进行分组；

确定单元，用于根据分组中状态，确定状态所属音素对应的目标混淆音素。

一种可能的实施方式中，确定单元具体用于：

一种可能的实施方式中，获取模块具体用于：

一种可能的实施方式中，比较模块具体用于：

第三方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行存储器中的程序指令，执行如第一方面中任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质上存储有程序指令；程序指令被执行时，实现如第一方面中任一项所述的方法。

本申请提供的发音错误检测方法、装置、电子设备及存储介质，该方法包括：根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息，待检测语音信号是针对发音文本的语音信号，边界信息用于区别第一音素状态序列中各状态对应的不同音素；针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态；根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素；根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。通过基于第一音素状态序列中状态对应的混淆音素状态中后验概率最大的状态，确定状态所属音素对应的目标混淆音素，即还原出实际音素，相比重新构建解码网络进行二次解码的方案，本申请可以加快发音检错速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请一实施例提供的应用场景示例图；

图1b为本申请另一实施例提供的应用场景示例图；

图2为本申请一实施例提供的发音错误检测方法的流程图；

图3为本申请另一实施例提供的发音错误检测方法的流程图；

图4为本申请提供的初始WFST对齐网络的一示例图；

图5为本申请提供的以状态持续时间(即状态帧长)为单位累加声学模型后验概率的过程示意图；

图6为本申请一实施例提供的发音错误检测装置的结构示意图；

图7为本申请另一实施例提供的发音错误检测装置的结构示意图；

图8为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的说明书、权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

传统的基于音素循环网络的发音检错技术，是对音频和文本采用传统方法对齐获得音素状态序列及音素边界，并在无限制的音素循环网络中解码得到实际发音的音素状态序列，用动态规划的方法对两条音素状态序列进行比较，以确定发音是否错误。发明人在使用该技术进行发音检错时，发现在无限制的音素循环网络中进行解码存在解码速度慢的问题。

因此，基于上述发现，本申请提供一种发音错误检测方法、装置、电子设备及存储介质，通过基于第一音素状态序列中状态对应的混淆音素状态中后验概率最大的状态还原出实际音素，来加快发音检错速度。

本方案能够用于包括但不限于语音评测领域中发音检错与诊断方向，例如，在线或离线语音评测系统，提供语言学习者发音错误检测，可以高效、准确地纠正发音错误。例如，以中文为母语的用户，学习英文，等等。

图1a为本申请一实施例提供的应用场景示例图。如图1a所示，服务器102用于执行本申请任一方法实施例所述的发音错误检测方法，服务器102与客户端101进行交互，获取发音文本和待检测语音信号，服务器102在执行完上述发音错误检测方法之后，输出发音是否错误的处理结果给客户端101，由客户端101通知给学习者。进一步地，客户端101提供正确的读音给学习者，以帮助其纠正发音。

在图1a中，客户端101以计算机为例说明，但本申请实施例不以此为限制，客户端101还可以是手机、学习机、可穿戴设备等。

或者，当具备一定算力时，客户端101也可以作为本申请任一方法实施例所述的发音错误检测方法的执行主体，如图1b所示例。在图1b中，学习者按住话筒，并读出发音文本对应的内容。这里以手机为例进行说明，但本申请不以此为限制。

以下结合具体的实施例，对本申请提供的发音错误检测方法进行解释说明。

图2为本申请一实施例提供的发音错误检测方法的流程图。该发音错误检测方法可以由发音错误检测装置执行，该发音错误检测装置可以通过软件和/或硬件的方式实现。实际应用中，该发音错误检测装置可以是服务器、电脑，手机，平板，个人数字助理(Personal Digital Assistant，简称：PDA)，学习机或交互智能平板等具备一定算力的电子设备，或该电子设备的芯片或电路。

参考图2，本实施例提供的发音错误检测方法包括：

S201、根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息。

其中，待检测语音信号是针对发音文本的语音信号。边界信息用于区别第一音素状态序列中各状态对应的不同音素。

在实际应用中，当学习者阅读一文本时，会产生该文本对应的语音信号。电子设备首先获取该语音信号，通过检测该语音信号，来确定该学习者的发音是否错误，并在学习者发音错误时给予指正或者提示正确发音。示例地，文本可以具体为至少一个词，甚至至少一个音素。其中，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。而音素由多个状态构成。例如，音素由三个状态构成，各至少分配一帧的时长给这三个状态。音素被读出对应的时长要大于三帧的时长。这里的文本即本申请实施例所述的发音文本，语音信号即待检测语音信号。

以学习机为例，在学习者阅读学习机显示界面上的发音文本时，学习机通过麦克风等拾音设备采集语音信号以获取语音信号，此时对于发音文本，学习机也是已知的。例如，对于触摸一体的学习机，学习者在阅读的同时可以指向发音文本，这样安装在学习机上的传感器即可感知到发音文本所在的位置，进而确定发音文本包含的内容。

基于发音文本和待检测语音信号，对待检测语音信号进行分解，得到其中包含的音素及边界信息，由这些音素对应的状态组成第一音素状态序列。也就是说，第一音素状态序列中包含的是待检测语音信号对应的音素的状态。

S202、针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态。

其中，混淆音素，是指相互之间易发音混淆的音素。对于第一音素状态序列中所包含的状态，其各自对应的混淆音素状态是相对确定的，从这些混淆音素状态中找到后验概率最大的状态。

S203、根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素。

基于边界信息及第一音素状态序列中各状态，可以确定第一音素状态序列中状态对应的音素。示例地，第一音素状态序列包含9个状态：状态1、状态2，……，状态9，根据边界信息得到：状态1，状态2，……，状态5这5个状态对应音素A，状态6，状态7，……，状态9这4个状态对应音素B。通过S202可得到上述9个状态分别对应的后验概率最大的状态，分别为状态1-1、状态2-1，……，状态9-1，根据边界信息得到：状态1-1，状态2-1，……，状态5-1这5个状态对应目标混淆音素A’，状态6-1，状态7-1，……，状态9-1这4个状态对应目标混淆音素B’。

在该示例中，状态1，状态2，……，状态5这5个状态所属音素A对应目标混淆音素A’；状态6，状态7，……，状态9这4个状态所属音素B对应目标混淆音素B’。

S204、根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。

其中，第一音素状态序列为学习者发音音素，目标混淆音素为实际音素。通过逐一比较第一音素状态序列中的音素与目标混淆音素，以目标混淆音素为基准，确定第一音素状态序列中音素是否发音错误，从而即可获得学习者容易读错的音素，即错读，实现了发音检错与诊断。

本申请实施例，首先根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息，待检测语音信号是针对发音文本的语音信号，边界信息用于区别第一音素状态序列中各状态对应的不同音素；针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态；根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素；根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。通过基于第一音素状态序列中状态对应的混淆音素状态中后验概率最大的状态，确定状态所属音素对应的目标混淆音素，即还原出实际音素，相比重新构建解码网络进行二次解码的方案，本申请实施例可以加快发音检错速度。

另外，相比于以音素长度为单位，以状态长度为单位的发音错误检测方法更稳定。

作为一种可选方式，S204、根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误，可以具体为：若目标混淆音素与第一音素状态序列中对应音素相同，则确定第一音素状态序列中对应音素发音正确，即学习者发音正确；或者，若目标混淆音素与第一音素状态序列中对应音素不同，则确定第一音素状态序列中对应音素的发音错误，即学习者发音错误，其中，不相同的音素即是学习者容易读错的音素，实现发音错误检测。

在上述实施例的基础上，一种具体实现中，S202中“确定状态对应的混淆音素状态中后验概率最大的状态”，可以包括：在状态的持续时间内，遍历该状态所属音素对应的混淆音素的状态，确定其中后验概率最大的状态。具体地，在每个状态持续时间内，遍历该状态对应音素的所有混淆音素的所有状态，找到最大后验概率的状态。利用状态的持续时间内的信息还原出实际发音因素，比解码搜索最优路径的相关度更高，因此，可提升发音错误检测的准确度。

进一步地，还可以基于最大后验概率的状态形成具有混淆音素的第二音素状态序列，通过对比第一音素状态序列和第二音素状态序列的异同，实现发音检错过程。

一些实施例中，S203、根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素，可以进一步包括：根据边界信息，对后验概率最大的状态进行分组；根据分组中状态，确定状态所属音素对应的目标混淆音素。

更进一步地，根据分组中状态，确定状态所属音素对应的目标混淆音素，可以包括：若分组中状态同属于一音素，则确定该音素为状态所属音素对应的目标混淆音素；若分组中状态不同属于一音素，则确定分组中后验概率最大的状态所属的音素为状态所属音素对应的目标混淆音素。可以理解，根据边界信息得到的分组中，几个状态持续时间内后验概率最大的状态所属音素会出现不是同一个的情况，此时，取众数音素，当几个后验概率最大的状态所属音素皆不相同时，取几个后验概率最大的状态中后验概率最大的状态所属音素作为目标混淆音素。

图3为本申请另一实施例提供的发音错误检测方法的流程图。参考图3，本实施例的发音错误检测方法，可以包括以下步骤：

S401、根据发音文本，构建初始WFST对齐网络。

其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图。

进一步地，初始WFST对齐网络包含词间可选静音音素路径。其中，词间可选静音音素路径，真实反应了发音的停顿、咳嗽声等噪声的实际情况。示例地，图4示出一初始WFST对齐网络的示例图。如图4所示，a，b表示词，sil表示静音音素，可见，该初始WFST对齐网络包含词间可选静音音素路径。

S402、根据待检测语音信号和初始WFST对齐网络，获取待检测语音信号对应的第一音素状态序列及边界信息。

一些实施例中，该步骤可以具体为：根据待检测语音信号和预先训练好的声学模型，获得待检测语音信号对应的状态后验概率；根据待检测语音信号对应的状态后验概率，获得待检测语音信号对应的声学分数；基于待检测语音信号对应的声学分数和维特比算法，在初始WFST对齐网络中搜索最优路径，得到待检测语音信号对应的第一音素状态序列及边界信息，反映了学习者的发音过程。

其中，维特比算法，是机器学习中应用非常广泛的动态规划算法，用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。本申请利用维特比算法在初始WFST对齐网络中搜索最优路径，获得第一音素状态序列。

声学模型可以深度神经网络(Deep Neural Networks，简称：DNN)-隐马尔可夫模型(Hidden Markov Model，简称：HMM)构建，即声学模型为DNN-HMM声学模型。将待检测语音信号逐帧输入DNN-HMM声学模型，输出逐帧对应的状态后验概率，经转换为声学分数，利用维特比算法搜索最优路径，得到第一音素状态序列及边界信息。维特比算法搜索路径的目的是在WFST对齐网络中搜索一条语音特征序列匹配的最优路径，学习者停顿等声音往往会被静音吸收，通过添加词间可选静音音素路径，反映了学习者的包含停顿、咳嗽声等声音的发音过程。

示例地，以状态持续时间(即状态帧长)为单位累加声学模型后验概率的过程如图5所示，其中，横轴为时间轴，纵轴为声学模型输出的状态。采用s表示在属于当前音素中一个状态，为区分不同状态，分别表示为s₁、s₂、s₃，等等；t_ss，t_se分别是状态的起止时间；o_t表示t时刻待检测语音信号对应的语音特征，P表示后验概率。依次搜索S201步骤中边界信息下的最大值状态路径，最终输出其中后验概率最大的状态。

S403、针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态。

S404、根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素。

S405、根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。

其中，S401和S402是如图2所示流程中S201的进一步细化；S403至S405的相关描述可参考图2所示实施例中S202至S204的相关描述，此处不再赘述。

由于状态比音素颗粒度更小，以状态为单位，搜索常见混淆音素状态的后验概率以还原出学习者实际发音音素，无需重新构建解码网络，检错速度快，并且减小了静音音素(也即非混淆音素)与实际音素之间相似度对发音检错产生的影响。

另外，由S402强制对齐得到第一音素状态序列的边界信息，当音素持续时长对应的帧数等于组成音素的状态个数时，认为这个音素没有发出，因此，可以检测出学习者的漏读习惯。例如，发音文本为“ay ae m ah”，学习者实际读出的是“ay ae m”，其中“ah”没有被读出，但在对齐搜索过程中，也要经过组成“ah”音素的三个状态的时长。

综上，通过本申请可以检测出学习者错读、漏读的发音错误。之后，基于本申请的检错结果，可以进一步为学习者提供错读、漏读部分的正确发音及提示。例如，对文本中错读部分和/或漏读部分进行标记等。

更进一步地，在根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误之后，发音错误检测方法还可以包括：输出上述发音文本对应的正确读音。通过正确读音的输出，帮助学习者进行更好地学习。

经过实验探索，在一批已鉴定为发音正确或发音错误的样本数据中进行发音良好度(Goodness Of Pronunciation，简称：GOP)打分，GOP算法计算公式为1)。该公式1)中分子为强制对齐得到的音素序列似然值，公式1)中分母为自由解码音素得到的序列似然值。其中，自由解码指的是“基于循环音素网络的解码过程”。

其中，T是音素持续时间，s₁,s₂,...,s_T是逐帧的状态，上标p及q是状态所属的音素，Q是音素集合，P(o|p)是音素p的观测概率，P(p)是音素p的先验概率，s^(q)是状态集合q中的一个状态，s_t是第t帧的状态，o表示待检测语音信号对应的语音特征，P(s|o)是后验概率，P(s₁)是初始概率，P(s_t|s_t-1)是转移概率。

对GOP算法计算公式1)进行变形得到公式2)，公式2)中分子为强制对齐得到音素序列似然值，公式2)中分母为以音素逐帧长度为单位的最大似然值：

其中，t_e和t_s分别表示音素的起止时间，P(o_t|p)表示第t帧时音素p的观测概率，P(p)是音素p的先验概率，q是音素集合Q中的一个音素，P(o_t|q)表示第t帧时音素q的观测概率，P(q)是音素q的先验概率。逐帧计算分子与分母值，音素持续时间进行累加得到GOP分数GOP(p)。

对GOP算法计算公式1)进行变形得到公式3)，公式3)中分子为强制对齐音素序列似然值，公式3)中分母为以状态持续时间为单位的最大似然值：

其中，t_ss和t_se分别是状态的起止时间；t_e和t_s分别是音素的起止时间；s_i表示音素中第i个状态；S是实际发音音素与混淆音素状态集合；表示在t_s时刻；第i个状态s_i的后验概率；P(s_i)是第i个状态的转移概率。由于一个音素通常由N个状态组成，对音素内每个状态持续时间内的分子分母值进行累加，再累加多个状态得到该音素的GOP分数。

本申请以状态为单位进行建模，一个音素通常由多个状态组成，因此在音素持续时间内，上式的分母要进行维特比解码得到；而以状态为单位，在状态持续时间内的特征都对应同一个状态，因此无需进行维特比解码，节省了搜索时间。为了叙述方便，将上述公式中的后验概率乘以转移概率简称为后验概率。

由表1可以看出，分母以状态帧长为单位的GOP分数分类的等错误率最小。等错误率表示“正样本被错误识别为负样本的概率”等于“负样本被错误识别为正样本的概率”，等错误率越低，性能越好。

因此，在发音正确和发音错误的分类中，使用状态帧长为单位的GOP打分分类正确率更高，能够有效评价朗读文本中每个语音单元朗读发音好坏。因此使用以状态持续时间为单位的混淆音素中的最大值对应音素来鉴别学习者的实际发音。

表1

以下为本申请装置实施例，可以用于执行本申请上述方法实施例。对于本申请装置实施例中未披露的细节，可参考本申请上述方法实施例。

图6为本申请一实施例提供的发音错误检测装置的结构示意图。该发音错误检测装置可以通过软件和/或硬件的方式实现。实际应用中，该发音错误检测装置可以是服务器、电脑，手机，平板，PDA或交互智能平板等具备一定算力的电子设备；或者，该发音错误检测装置可以是电子设备中的芯片或电路。

如图6所示，发音错误检测装置60包括：获取模块61、第一确定模块62、第二确定模块63和比较模块64。其中：

获取模块61，用于根据发音文本和待检测语音信号，获取待检测语音信号对应的第一音素状态序列及边界信息。待检测语音信号是针对发音文本的语音信号，边界信息用于区别第一音素状态序列中各状态对应的不同音素。

第一确定模块62，用于针对第一音素状态序列中状态，确定状态对应的混淆音素状态中后验概率最大的状态。

第二确定模块63，用于根据边界信息及后验概率最大的状态，确定状态所属音素对应的目标混淆音素。

比较模块64，用于根据目标混淆音素，确定第一音素状态序列中对应音素是否发音错误。

本申请实施例提供的发音错误检测装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在上述基础上，可选地，第一确定模块62可具体用于：在状态的持续时间内，遍历状态所属音素对应的混淆音素的状态，确定其中后验概率最大的状态。

如图7所示，在图6所示结构的基础上，进一步地，在发音错误检测装置70中，第二确定模块63可以包括：

分组单元71，用于根据边界信息，对后验概率最大的状态进行分组；

确定单元72，用于根据分组中状态，确定状态所属音素对应的目标混淆音素。

一些实施例中，确定单元72可具体用于：

可选地，获取模块61可具体用于：

根据发音文本，构建初始WFST对齐网络，其中，初始WFST对齐网络表示发音文本对应的音素的可能路径状态图；

进一步地，初始WFST对齐网络包含词间可选静音音素路径。

可选地，比较模块64可具体用于：

一些实施例中，发音错误检测装置还可以包括输出模块(未示出)，用于输出发音文本对应的正确读音。通过正确读音的输出，帮助学习者进行更好地学习。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称：ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称：FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称：CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-On-a-Chip，简称：SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图8为本申请一实施例提供的电子设备的结构示意图。该电子设备可以是计算机，服务器等。如图8所示：

电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，以及通信组件814。

处理组件802通常控制电子设备800的整体操作，诸如与数据通信和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件814发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

通信组件814被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

本实施例的电子设备，可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有程序指令，该程序指令被执行时，实现如上述任一实施例所述发音错误检测方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种发音错误检测方法，其特征在于，包括：

根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素状态序列及边界信息，所述待检测语音信号是针对所述发音文本的语音信号，所述边界信息用于区别所述第一音素状态序列中各状态对应的不同音素；

针对所述第一音素状态序列中状态，确定所述状态对应的混淆音素状态中后验概率最大的状态；

根据所述边界信息及后验概率最大的状态，确定所述状态所属音素对应的目标混淆音素；

根据所述目标混淆音素，确定所述第一音素状态序列中对应音素是否发音错误；

所述根据所述边界信息及后验概率最大的状态，确定所述状态所属音素对应的目标混淆音素，包括：

根据所述边界信息，对后验概率最大的状态进行分组；

若分组中状态同属于一音素，则确定该音素为所述状态所属音素对应的目标混淆音素；若分组中状态不同属于一音素，则确定所述分组中后验概率最大的状态所属的音素为所述状态所属音素对应的目标混淆音素。

2.根据权利要求1所述的方法，其特征在于，所述确定所述状态对应的混淆音素状态中后验概率最大的状态，包括：

在所述状态的持续时间内，遍历所述状态所属音素对应的混淆音素的状态，确定其中后验概率最大的状态。

3.根据权利要求1所述的方法，其特征在于，所述根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素状态序列及边界信息，包括：

根据所述发音文本，构建初始WFST对齐网络，其中，所述初始WFST对齐网络表示所述发音文本对应的音素的可能路径状态图；

根据所述待检测语音信号和所述初始WFST对齐网络，获取所述待检测语音信号对应的第一音素状态序列及边界信息。

4.根据权利要求3所述的方法，其特征在于，所述初始WFST对齐网络包含词间可选静音音素路径。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述目标混淆音素，确定所述第一音素状态序列中对应音素是否发音错误，包括：

若所述目标混淆音素与所述第一音素状态序列中对应音素相同，则确定所述第一音素状态序列中对应音素发音正确；

或者，若所述目标混淆音素与所述第一音素状态序列中对应音素不同，则确定所述第一音素状态序列中对应音素的发音错误。

6.一种发音错误检测装置，其特征在于，包括：

获取模块，用于根据发音文本和待检测语音信号，获取所述待检测语音信号对应的第一音素状态序列及边界信息，所述待检测语音信号是针对所述发音文本的语音信号，所述边界信息用于区别所述第一音素状态序列中各状态对应的不同音素；

第一确定模块，用于针对所述第一音素状态序列中状态，确定所述状态对应的混淆音素状态中后验概率最大的状态；

第二确定模块，用于根据所述边界信息及后验概率最大的状态，确定所述状态所属音素对应的目标混淆音素；

比较模块，用于根据所述目标混淆音素，确定所述第一音素状态序列中对应音素是否发音错误；

所述第二确定模块包括：

分组单元，用于根据所述边界信息，对后验概率最大的状态进行分组；

确定单元，具体用于：

7.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序指令；所述程序指令被执行时，实现如权利要求1至5中任一项所述的方法。