CN104575490B

CN104575490B - 基于深度神经网络后验概率算法的口语发音评测方法

Info

Publication number: CN104575490B
Application number: CN201410840991.4A
Authority: CN
Inventors: 惠寅华; 王欢良; 杨嵩; 代大明; 袁军峰; 林远东
Original assignee: Suzhou Chisheng Information Technology Co Ltd
Current assignee: Suzhou Chisheng Information Technology Co Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2017-11-07
Anticipated expiration: 2034-12-30
Also published as: CN104575490A

Abstract

本发明公开了一种基于深度神经网络后验概率算法的口语发音评测方法，包括：步骤一：将语音按帧提取为音频特征向量序列；步骤二：将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典，确定音素状态的时间边界，该模型为DNN+HMM模型；步骤三：在确定时间边界后，提取时间边界内所有帧，按语音帧的帧长取平均值，作为该音素状态的后验概率，并得到基于音素状态后验的单词后验得分，单词的后验得分则为其所含的音素状态后验得分的平均值。

Description

基于深度神经网络后验概率算法的口语发音评测方法

技术领域

本发明属于语言识别领域，涉及一种基于深度神经网络算法的口语发音评测方法。

背景技术

在不同语言的地区的人们当前的全球化加速了对外语水平的要求，对于英语作为第二语言的学习者，电脑辅助语言学习是非常有帮助的。计算机辅助发音训练，旨在评估学生的语音水平和检测或识别一个高精度的发音错误或不足，其仍然是一个具有挑战性的研究领域。

传统口语评测方案，目的是给出一个以音素为基本单位的分数。在计算这个分数时，假设有一GMM+HMM模型能够很好地根据某些声学片段确定这些片段所对应音素的似然概率，然后通过似然差来衡量对应音素的发音质量，其计算复杂度消耗主要在

(1)强制对齐(FA)：受约束的音素序列的Viterbi解码过程。

(2)识别(REC)：不受约束的音素序列的Viterbi解码过程。

由于REC是不受约束的音素序列的Viterbi解码过程，相对于FA音素解码网络更大，更耗时。

同时，传统口语评测方案，质量主要依赖于声学模型的质量，因为基于的假设是一些GMM+HMM模型能够很好地根据某些声学片段确定这些片段所对应音素的似然概率。

发明内容

本发明所要解决的技术问题是提供一种基于深度神经网络算法的口语发音评测方法和系统，用以提高语音识别的性能，且基于深读神经网络算法的口语发音评测方法，其计算复杂度相对较低。

本发明解决上述技术问题所采取的技术方案如下：

一种基于深度神经网络后验概率算法的口语发音评测方法，包括：

步骤一：将语音按帧提取为音频特征向量序列；

步骤二：将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典，确定音素状态的时间边界，该模型为DNN+HMM模型；

步骤三：在确定时间边界后，提取时间边界内所有帧，按语音帧的帧长取平均值，作为该音素状态的后验概率，并按照以下公式得到基于音素状态后验的单词后验得分：

其中，P(word)为单词的后验得分，为该单词的第j个音素状态的第i帧，为的后验概率，k为音素状态所占的帧长，n为该单词所包含的音素状态个数，即音素状态的后验得分为其每一帧的后验概率累加按所占帧长取平均，单词的后验得分则为其所含的音素状态后验得分的平均值。

所述音频特征包括选取感知线性预测特征PLP或者梅尔倒谱系数MFCC特征。

还包括步骤四：按照以下公式得到基于音素状态后验的句子级后验得分，计算如下：

其中，P(sent)为句子的后验得分，P(S_i)为该句中第i帧的对应音素状态后验概率，句子的后验得分便为其所有帧对应音素状态的后验概率平均；

步骤五：通过预先设定的映射函数，将单词级和句子级的后验得分映射到所需要的分数段。

进一步包括：

将拥有相同上下文的音素状态的后验概率进行累加，作为当前音素状态的后验概率。

进一步包括：

根据训练数据确定好的各个音素状态后验概率分布，对音素状态的后验概率进行归一化；

由训练数据统计出当前音素状态后验概率在训练集上的均值与标准差，将当前音素状态的后验概率减去其均值除以标准差，使其后验概率归一化到标准正太分布，用这归一化后的值作为它最终计算评分的后验概率值。

进一步包括：

将每个音素的所有上下文不同的音素状态累加起来，作为该音素后验概率，以加强该音素与其它音素的区分性。

进一步包括：

将拥有相同中心音素的音素状态后验概率进行累加，来代表该输出结点状态的后验概率。

进一步包括：

通过训练数据估计各个音素状态的在训练集上的后验概率分布，将所有输出音素状态的后验概率进行归一化。

本发明采取了上述方案以后，具有以下的优点：

即把训练好的多层神经网络作为一个非线性方程来表示语音信号，网络的顶层能区分性地被训练成能够很好地表示音素后验概率的输出。然后我们利用这些输出来评估其对应音素的发音质量。我们认为这种直接利用DNN后验来评估音素发音质量的方法，相对传统基于最大似然间接计算后验概率的传统口语评测方案，区分性更强，计算复杂度更低。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于深度神经网络DNN后验概率算法的口语发音评测方法的流程示意图；

图2是本发明基于深度神经网络DNN后验概率算法的centralphone(中心音素)后验计算方案的流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一：

深度神经网络算法(DNN)是近几年在工业界和学术界新型的一个机器学习领域的热点话题。DNN算法成功的将以往的识别率提高了一个显著的档次。并且，当前大多数语音识别系统使用隐马尔可夫模型(HMM)来处理语音的实时变化，用高斯混合模型来确定每个HMM模型的每个状态对声学观察的匹配度，另一种评估匹配度的方法是使用一个前馈神经网络(NN)，而深层神经网络(DNN)是拥更多隐层的神经网络，DNN的方法已被证明相对于高斯混合模型，其在语音识别的各种基准性能上都有大幅度的提升。

从传统的传统口语发音评测方法中我们可以看出，要提高口语评测算法的质量，我们需要一个高质量的声学模型；要减少口语评测算法的时间复杂度，则要改变算法的固定框架。于是我们结合DNN，对传统口语评测算法做出了改进。

为此，本发明中，将传统的GMM+HMM模型改为DNN+HMM模型，从而提升声学模型的性能。同时,算法的框架调整为只做FA，利用DNN输出的状态后验来评估声学匹配度。流程如下图1，所示，具体来说，其主要步骤包括以下：

步骤一：将语音按帧提取为音频特征向量序列；

所述音频特征包括选取感知线性预测特征PLP或者梅尔倒谱系数MFCC特征，即通常的音频特征即可。

此外，根据如上实施例，还包括步骤四：按照以下公式得到基于音素状态后验的句子级后验得分，计算如下：

本发明采取了上述方案以后，这种直接利用DNN后验来评估音素发音质量的方法，相对传统基于最大似然间接计算后验概率的传统口语评测方案，区分性更强，计算复杂度更低。

实施例二：

根据本实施例对以上实施例的具体方案进行更详细的说明。

首先，将语音按帧提取为特征向量序列。

通用的语音特征有感知线性预测特征(PLP)和梅尔倒谱系数(MFCC)特征。然后按已经训练好的声学模型DNN+HMM和给定的口语评测文本、相应单词发音字典，通过Viterbi算法确定音素状态的时间边界。

在确定时间边界后，提取时间边界内所有帧对应的DNN后验概率，按帧长取平均值，作为该音素状态的后验概率，从而我们有了基于音素状态后验的单词后验得分计算方案：

而句子级后验得分计算如下：

其中，P(sent)为句子的后验得分，P(S_i)为该句中第i帧的对应音素状态后验概率。则句子的后验得分便为其所有帧对应音素状态的后验概率平均。

由于一般DNN的输出音素状态是基于triphone(三元音素模型)的(上下文相关的音素状态)，所以每个音素的后验概率容易分散到其上下文不同的各个输出因素状态上去，导致在某个特定上下文下的音素后验概率过低，降低了其与其它音素的区分性。

针对这一问题，我们的方案是将每个音素的所有上下文不同的音素状态累加起来，作为该音素后验概率，从而进一步加强该音素与其它音素的区分性，具体如下图2所示，其示出了一种基于centralphone后验计算方案。

具体来说，通常情况下，DNN输出层每个结点的输出值即为所对应的音素状态的后验概率，而在centralphone后验计算方案中，我们为避免音素的后验概率过于分散。

我们将拥有相同centralphone的音素状态后验概率进行累加，来代表该输出结点状态的后验概率。

如图2，假设输出层有三个结点，它门所代表的音素状态分别为b-a+c、d-a+e、e-a+f。它门拥有相同的centralphone：a，则音素状态d-a+e的后验概率由这三个音素状态输出概率的累加和表示。当然我们也可以有选择地进行累加。

由于训练数据的不均匀，说话人口音不同，环境噪声等各种原因。每个音素状态的后验概率分布可能各不相同。所以简单地利用后验来衡量音素发音质量可能会存在问题，于是我们又做了进一步改进。

我们首先通过训练数据估计各个音素状态的在训练集上的后验概率分布，然后假设测试数据也满足这样的分布。从而将所有输出音素状态的后验概率进行归一化，使得对每一个音素状态发音的评估尽量在同一标准下。这样，每个音素状态的后验概率更有可比性。

实施例三：

综上所述，我们的基于DNN后验的口语评测算法具体如下：

步骤一：提取音频特征。

步骤二：将音频特征输入事先训练好的DNN+HMM模型，按照给定的文本和发音字典，通过Viterbi算法来确定说话人所读句子的phone边界和相应的DNN后验概率。

步骤三：利用公式(1)计算单词级评分

步骤四:利用公式(2)计算句子级评分

步骤五:最后通过预先设定的映射函数，将单词级和句子级的后验得分映射到所需要的分数段。

此外，在上述步骤中，步骤三和步骤四中，音素状态的后验概率可以采用如下优选的计算方案：

按照centralphone后验概率计算方案，调整每个音素状态的后验概率。

实施例四：

与实施例三相同，区别在于，步骤三和步骤四中，音素状态的后验概率还可以采用如下优选的计算方案进行归一化：

根据训练数据确定好的各个音素状态后验概率分布，对音素状态的后验概率进行归一化。

由训练数据统计出当前音素状态后验概率在训练集上的均值与标准差，将当前音素状态的后验概率减去其均值除以标准差，使其后验概率归一化到标准正太分布。用这归一化后的值作为它最终计算评分的后验概率值。

本发明采取了上述方案以后，相比于传统的口语评测算法，我们将通过该音素的似然概率乘以其先验概率去间接计算该音素的后验概率，变为利用DNN直接估计该音素的后验概率。

主要优点有：

(1)DNN的训练过程本身是一个具有一定区分性的训练过程。其估计的后验概率，能够更好地区分音素的发音质量。

(2)直接利用DNN估计该音素的后验概率，能够避免间接计算中可能存在的一些计算误差，更精确。

(3)传统的口语评测方案需要两次解码过程，而直接利用DNN估计该音素的后验概率只需一次受约束的音素序列解码(FA)，降低了口语评测算法的计算复杂度。

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络后验概率算法的口语发音评测方法，包括：

步骤一：将语音按帧提取为音频特征向量序列；

步骤二：将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典，确定音素状态的时间边界，该模型为DNN+HMM；

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

2.根据权利要求1所述的口语发音评测方法，其特征在于，还包括步骤四：按照以下公式得到基于音素状态后验的句子级后验得分，计算如下：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

3.根据权利要求1所述的口语发音评测方法，其特征在于，进一步包括：

4.根据权利要求1所述的口语发音评测方法，其特征在于，进一步包括：

5.根据权利要求1所述的口语发音评测方法，其特征在于，进一步包括：

6.根据权利要求1所述的口语发音评测方法，其特征在于，进一步包括：

将拥有相同中心音素的状态后验概率进行累加，来代表输出结点状态的后验概率。

7.根据权利要求2或3所述的口语发音评测方法，其特征在于，进一步包括：