CN106297828B

CN106297828B - 一种基于深度学习的误发音检测的检测方法和装置

Info

Publication number: CN106297828B
Application number: CN201610662367.9A
Authority: CN
Inventors: 惠寅华; 王欢良; 杨嵩; 黄正伟; 方敏; 袁军峰; 戚自力
Original assignee: Suzhou Chivox Information Technology Co ltd
Current assignee: Suzhou Chivox Information Technology Co ltd
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2020-03-24
Anticipated expiration: 2036-08-12
Also published as: CN106297828A

Abstract

本发明公开了一种基于深度学习的误发音检测方法和装置，方法包括：步骤1)通过朗读音频提取声学特征，通过朗读文本和相应的单词发音字典构建音素级解码网络；步骤2)结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界；基于由深度神经网络构成的深度自动编码器，根据音素的边界和边界内的声学特征提取音素级特征，所述深度神经网络为一深度贝叶斯置信网络；将待检测音素的音素级特征送入事先训练好的发音正误分类器，判断待检测音素的发音正误。

Description

一种基于深度学习的误发音检测的检测方法和装置

技术领域

本发明属于一种基于深度学习的误发音检测的检测方法和装置。

背景技术

英语口语发音音误包括音素错误和韵律错误两个方面。

音素错误包括:音素发音不标准、多发音(插入错误)、少发音(删除错误)、错发成别的音(替换错误)。

我们提出的检测方案主要是为了找出发音不标准和错发成别的音的音素，统称为误发音检测。

传统方案主要分为基于似然差的GOP方案和基于提取音素级特征的分类方案。

基于似然差的GOP方案：通过朗读音频提取声学特征，通过朗读文本和相应的单词发音字典构建音素级解码网络，结合声学特征和预先训练好的声学模型对音素级解码网络进行解码并计算出待检测音素的GOP得分，然后通过人为设定的阈值判断待检测音素的发音正误。

传统GOP方案优点是计算简单，但很难确定一个适合的判别阈值。

基于音素级特征提取的分类方案：通过朗读音频提取声学特征，通过朗读文本和相应的单词发音字典构建音素级解码网络，结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界，然后根据音素的边界和边界内的声学特征提取音素级特征，最后将待检测音素的音素级特征送入事先训练好的发音正误分类器，判断待检测音素的发音正误。基于音素级特征提取的分类方可以通过学习的手段确定参数，避免了GOP方案人为设定的阈值的问题。但在一些训练样本较少的稀缺音素的正误判断上较训练样本充足的音素性能较差。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的误发音检测的检测方法和装置。

本发明解决上述技术问题所采取的技术方案如下：

一种基于深度学习的误发音检测方法，包括：

步骤1)通过朗读音频提取声学特征，通过朗读文本和相应的单词发音字典构建音素级解码网络；

步骤2)结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界；

基于由深度神经网络构成的深度自动编码器，根据音素的边界和边界内的声学特征提取音素级特征，所述深度神经网络为一深度贝叶斯置信网络；

将待检测音素的音素级特征送入事先训练好的发音正误分类器，判断待检测音素的发音正误。

优选的是，在音素级特征提取过程中，具体包括：

通过深度贝叶斯网络结点与结点的因果关系，计算出的一组结点的概率值，构成一个向量，并将其作为音素级特征。

优选的是，所述深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。

优选的是，步骤2)中，还包括:

用深度神经网络作为分类器，使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层；

其中，所述隐藏层为深度神经网络多层图结构中，出入层和输出层的剩余层。

优选的是，步骤2)中，具体包括以下子步骤：

子步骤21)通过给定的朗读文本通过强制对齐操作，输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界，确定音素序列的边界；

子步骤22)通过声学模型的前三层输出帧级特征；

通过统计的方法，根据音素的边界信息将帧级特征转化为音素级特征来表示音素，将音素级特征向量通过DAE降维至较低维度，减少最后深度神经网络分类模型的空间复杂度和时间复杂度；

子步骤23)结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率，取概率大者作为最后检测的结果；

如果正确的输出概率大于错误的输出概率，则待检测音素发音正确；如果正确的输出概率小于错误的输出概率，则待检测音素发音错误。

一种基于深度学习的误发音检测装置，包括：

声学特征提取模块，用于通过朗读音频提取声学特征，通过朗读文本和相应的单词发音字典构建音素级解码网络；

深度提取模块，用于结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界；

用于基于由深度神经网络构成的深度自动编码器，根据音素的边界和边界内的声学特征提取音素级特征，所述深度神经网络为一深度贝叶斯置信网络；

发音正误判断模块，用于将待检测音素的音素级特征送入事先训练好的发音正误分类器，判断待检测音素的发音正误。

优选的是，所述深度提取模块，在音素级特征提取过程中，具体包括：

优选的是，其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。

优选的是，所述深度提取模块，还用于用深度神经网络作为分类器，使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层；

优选的是，所述深度提取模块，具体包括以下子模块：

对齐子模块，用于通过给定的朗读文本通过强制对齐操作，输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界，确定音素序列的边界；

提取特征子模块，用于通过声学模型的前三层输出帧级特征；

概率判断子模块，用于结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率，取概率大者作为最后检测的结果；

本发明采取上述方案以后，具有以下的技术效果：

1、利用深度学习的框架提取出了更抽象更通用的特征来表示音素。

2、检测中的分类器，使各因素共享深度神经网络中的隐藏层信息，避免了稀缺音素检测性能不佳的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于深度学习的误发音检测方法的流程示意图；

图2是本发明基于深度学习的误发音检测方法的实施例的示意图；

图3是本发明基于深度学习的误发音检测装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一：

如图1所示，一种基于深度学习的误发音检测方法，包括：

本发明采取上述方案以后，具有以下的技术效果：

实施例二：

结合以下实施例对上述实施例进行详细说明，其中，在音素级特征提取过程中，具体包括：

优选的是，步骤2)中，还包括:

优选的是，步骤2)中，具体包括以下子步骤：

子步骤22)通过声学模型的前三层输出帧级特征；

实施例三：

如图2所示，一个实施例中，本发明采取了基于深度学习技术的深度自动编码(DAE)方法，提取出了更抽象更通用的特征来表示音素。

同时用深度神经网络作为分类器，使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层，从而避免了稀缺音素检测性能不佳的问题。

具体来说，通过给定的朗读文本通过强制对齐操作，确定音素序列序列的边界。再通过声学模型的前三层输出帧级特征，然后通过统计的方法，根据音素的边界信息将帧级特征转化为音素级特征来表示音素，将音素级特征向量通过DAE降维至较低维度，减少最后DNN分类模型模型的空间复杂度和时间复杂度。结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率，取概率大者作为最后检测的结果。

实施例四：

与以上方法实施例相对应，本发明还提供一种装置，如图3所示，一种基于深度学习的误发音检测装置，包括：

优选的是，所述深度提取模块，具体包括以下子模块：

本发明采取上述方案以后，具有以下的技术效果：

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的误发音检测方法，其特征在于，包括：

将待检测音素的音素级特征送入事先训练好的发音正误分类器，判断待检测音素的发音正误；其中，在音素级特征提取过程中，具体包括：

通过深度贝叶斯网络结点与结点的因果关系，计算出的一组结点的概率值，构成一个向量，并将其作为音素级特征；

步骤2)中，具体包括以下子步骤：

子步骤22)通过声学模型的前三层输出帧级特征；

2.根据权利要求1所述的基于深度学习的误发音检测方法，其特征在于，其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。

3.根据权利要求1所述的基于深度学习的误发音检测方法，其特征在于，步骤2)中，还包括:

4.一种基于深度学习的误发音检测装置，其特征在于，包括：

发音正误判断模块，用于将待检测音素的音素级特征送入事先训练好的发音正误分类器，判断待检测音素的发音正误；所述深度提取模块，在音素级特征提取过程中，具体包括：

所述深度提取模块，具体包括以下子模块：

5.根据权利要求4所述的基于深度学习的误发音检测装置，其特征在于，其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。

6.根据权利要求4所述的基于深度学习的误发音检测装置，其特征在于，所述深度提取模块，还用于用深度神经网络作为分类器，使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层；