CN101645271B

CN101645271B - 发音质量评估系统中的置信度快速求取方法

Info

Publication number: CN101645271B
Application number: CN2008102408113A
Authority: CN
Inventors: 董滨; 葛凤培; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2008-12-23
Filing date: 2008-12-23
Publication date: 2011-12-07
Anticipated expiration: 2028-12-23
Also published as: CN101645271A

Abstract

本发明提供一种发音质量评估系统中的置信度快速求取方法，包括：预处理分帧；提取每帧语音的语音特征；根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码，得到最优路径上的各音素分割点信息；根据精细声学模型和对应帧的PLP特征向量，对目标音素和语音帧做强制对齐处理，获得每一帧语音对应的状态号，并计算各帧语音对应其相应状态的似然概率值；引入粗略的背景模型，计算每帧语音在该模型包含的所有状态下的似然概率和；计算每一帧待评估语音的广义后验概率；计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法，采用粗糙的背景模型作为后验概率分母部分计算的依据，从而极大降低广义后验概率即置信度得分的计算量。

Description

发音质量评估系统中的置信度快速求取方法

技术领域

本发明属于发音质量评估技术领域，具体地说，本发明涉及一种用于发音质量评估系统中的置信度快速求取方法。

背景技术

在自然条件下使用发音质量评估系统，不同于在理想实验环境下的使用，这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语，在语音中会参杂很多非语音，譬如非正常停顿、咳嗽声以及很多的环境噪声，这都给发音质量评估系统达到原有的评估精度造成了困难。另外，用户说的词汇如果不在发音质量评估系统预先设定的领域范围内，也较容易造成评估误差。总之，对于商业化的发音质量评估系统，用户的期望是尽可能的准确评估发音质量，与此同时还要求比较快的评估速度，而置信度评价方法正是解决这些困难的一种关键性措施。

置信度评价方法可以对发音质量评估系统的目标发音在特定的时间间隔内进行假设检验，通过预先训练的阈值对待评估发音段的准确性进行评价，从而提高发音质量评估系统的准确率和稳健性。

目前，把目标文本的后验概率作为计算发音评估的置信度是一种应用较广的做法。例如，图1为现有的置信度计算方法的示意图。如图1所示，输入语音首先通过全音节网络识别器进行一遍解码，在这个过程中，可以获得对应于输入语音的音素分割点，然后在每个音素段内与目标音素强制对齐，从而获得目标文本对应的状态分割点，最终计算出目标文本在待评估语音下的后验概率作为置信度得分。在解码和置信度计算过程中，使用同一个描述精细的大声学模型，由于这种精细模型包含大量的状态信息，所以有利于准确解码进而提高目标音素状态分割点的准确性，但同时给后验概率计算造成了很大的计算量，需要占用更长的系统时间，从而很不利于发音质量评估系统的在线使用和实际推广。

发明内容

本发明的目的是克服现有技术的不足，综合考虑计算速度和稳健性，提供一种用于发音质量评估系统中的置信度快速求取方法，该方法是一种利用粗糙背景模型的广义后验概率作为发音质量评估置信度的快速求取算法。

为实现上述发明目的，本发明提供的发音质量评估系统中的置信度快速求取方法，包括如下步骤：

1)将待识别语音输入语音识别系统中；

2)对输入语音进行预处理，该预处理中包括分帧处理；

3)采用感知加权线性预测参数(PLP)特征提取方法或者美尔域倒谱系数(MFCC)特征提取方法提取语音特征；

4)利用全音节循环网络状态图和精细声学模型，对特征向量序列进行解码，得到最优路径，记录最优路径上的各音素分割点信息；

5)按照步骤4)中得到的音素分割点，根据精细声学模型和对应帧的特征向量，对目标音素和语音帧做强制对齐处理，获得每一帧语音对应的状态号，并计算各帧语音对应其相应状态的似然概率值p(x_t|s_t)，其负对数为：

- \ln p (x_{t} | s_{t}) = d (x_{t}, s_{t}) = \frac{1}{2} [(x_{t} - μ_{t}) Σ_{t}^{- 1} (x_{t} - μ_{t}) + n \ln (2 π) + \ln (| Σ_{t} |)]

其中，x_t为输入的第t帧语音特征；s_t为第t帧语音特征对应的隐马尔科夫模型的状态，该状态为正态分布N(μ_t，∑_t)，μ_t和∑_t分别是状态s_t模型的均值矢量和协方差矩阵；n是特征向量x_t的维数，即μ_t和∑_t的维数；

6)引入粗略的背景模型，计算每帧语音在该模型包含的所有状态下的似然概率和

其中，D^*是粗略背景模型中所有状态的集合；

7)计算每一帧待评估语音的广义后验概率：

p (s_{t} | x_{t}) = \frac{p (x_{t} | s_{t})}{\underset{s_{k} &Element; D^{*}}{Σ} p (x_{t} | s_{k})};

8)分别计算每个音素的广义后验概率：

p (ph) = \frac{1}{τ_{e} - τ_{s} + 1} Σ_{t = τ_{s}}^{τ_{e}} p (s_{t} | x_{t}),

其中，τ_s、τ_e分别指输入的语音特征在当前音素的起始帧号和结束帧号，s_t是从强制对齐结果中获得的对应于第t帧语音特征x_t的状态号；

9)将音素的广义后验概率作为该音素在发音质量评估系统中的置信度得分。

上述技术方案中，所述步骤2)中对输入语音进行预处理包括对输入语音进行数字化、预加重高频提升、分帧及加窗处理。

上述技术方案中，所述步骤3)中提取语音特征包括：计算PLP或MFCC参数系数、计算能量特征和计算差分系数。

上述技术方案中，所述步骤4)中全音节循环网络解码过程采用viterbi解码方法。

本发明的优点是，采用粗糙的背景模型作为后验概率分母部分计算的依据，从而极大降低广义后验概率即置信度得分的计算量。在现有技术中，解码和置信度计算两部分使用同一个描述精细的大声学模型，这种精细模型包含大量的状态信息，所以有利于准确解码进而提高目标音素状态分割点的准确性，但同时给后验概率计算造成了很大的计算量，需要占用更长的系统时间。本发明是一种在保证状态分割点准确性的基础上置信度计算的简化算法，是在后验概率计算过程中引入背景模型，在简单的背景模型基础上获得后验概率分母值，因此只需要对少数几个状态计算各帧的似然值，极大节省了系统的运行时间和计算的复杂度。

附图说明

图1是现有技术的置信度计算方法的示意图；

图2是本发明的置信度快速求取方法一个实施例的流程图；

图3是本发明的置信度快速求取方法中的状态图的搭建示意图；

图4是本发明的置信度快速求取方法中的基于状态图的强制对齐示意图。

具体实施方式

下面结合附图及具体实施例对本发明的置信度快速求取方法做进一步地描述。

图2是本发明的置信度快速求取方法一个实施例的流程图。如图2所示，本发明提供的发音质量评估系统中的置信度快速求取方法包括如下步骤：

1)将待识别语音输入语音识别系统中。

2)对输入语音进行预处理，主要是进行分帧处理。

在本实施例中，预处理采用如下流程：

2-1)将语音信号按照16K(或8K)采样率进行数字化；

2-2)通过预加重进行高频提升：

预加重滤波器是：H(z)＝1-αz^-1，其中α＝0.98。

2-3)将数据进行分帧处理：取帧长25ms、帧间重叠15ms，可根据需要适当调整；

2-4)加窗处理：

窗函数采用常用的hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1})

其中，0≤n≤N-1。

3)提取语音特征：本发明可采用PLP(Perceptual Linear Predictive，感知加权线性预测)或者MFCC(mel-frequency cepstral coefficient，美尔域倒谱系数)参数特征提取方法，具体流程如下：

3-1)计算每帧语音的PLP或MFCC参数系数c(m)，1≤m≤N_c，其中N_c为倒谱系数的个数，N_c＝12；

3-2)计算每帧语音的能量特征；

3-3)计算能量特征和倒谱特征的一阶和二阶差分。采用如下的回归公式计算差分倒谱系数：

\frac{&PartialD; c (t)}{&PartialD; t} = μ Σ_{τ = - T}^{T} τc (t + τ),

其中μ是归一化因子，τ为整数，2T+1为用于计算差分倒谱系数的语音帧数，其中：T＝2，μ＝0.375；

3-4)对于每一帧语音，生成39维的特征向量。

4)利用全音节循环网络状态图和精细声学模型，对特征向量序列进行解码，得到最优路径，记录最优路径上的各音素分割点信息。

本步骤中所利用到的状态图的构建方法如下：

图3是本发明的置信度快速求取方法中的状态图的搭建示意图。如图3所示，首先根据全音节语法搭建起一个基于所有音节的搜索空间，即一个所有音节并联的可循环网络。识别器将在这个音节的网络上进行搜索，找到对应于输入语音的最好的一条路径作为识别结果。在搜索以前，借助识别系统中字典的信息，把词的网络展开成一个最小单位是音素的音素网络。每个节点由一个音节变为一个音素，然后每个音素再被声学模型中相对应的隐马尔可夫模型(HMM)所取代，每个马尔可夫模型(HMM)由若干个状态组成。这样，最终的搜索空间就变成了一个状态图，状态图中的任意一条路径代表一个音节序列候选，通过比较不同路径上的累积概率值(似然概率与转移概率)来获得最优路径作为识别结果。

本实施例中采用的精细声学模型是与性别有关的，男生模型包含4665个状态，女生模型包含4015个状态，每个状态都是由16个高斯共同描述的。

本实施例中，在解码过程中采用了传统的viterbi搜索策略。

5)按照步骤4)中得到的音素分割点，根据精细声学模型和对应帧的特征向量，对目标音素和语音帧做强制对齐处理，获得每一帧语音对应的状态号，并计算各帧语音在其相应状态下的似然概率值p(x_t|s_t)，其负对数为：

- \ln p (x_{t} | s_{t}) = d (x_{t}, s_{t}) = \frac{1}{2} [(x_{t} - μ_{t}) Σ_{t}^{- 1} (x_{t} - μ_{t}) + n \ln (2 π) + \ln (| Σ_{t} |)]

其中，x_t为输入的第t帧语音特征；s_t为第t帧语音特征对应的隐马尔科夫模型的状态，该状态为正态分布N(μ_t，∑_t)，μ_t和∑_t分别是状态s_t模型的均值矢量和协方差矩阵，其具体数值从声学模型中获得；n是特征向量x_t的维数，即μ_t和∑_t的维数。

该强制对齐过程也是一个简单的解码过程，只是这时的候选项是同一音素的所有状态序列，最佳状态序列作为最佳路径被解出来。图4是本发明的置信度快速求取方法中的基于状态图的强制对齐示意图。在图4中，虚线代表候选状态序列，而黑实线代表解出来的最优路径即最佳状态序列。如图4所示，当某一状态序列对观察序列(本实施例中的观察序列为特征向量)出现的似然概率P(X|S)最大时，认为该状态序列为最佳状态序列。

6)引入粗略的背景模型，计算每帧语音在该模型包含的所有状态下的似然概率和其中，D^*是粗略背景模型中所有状态的集合，将该和作为广义后验概率的分母代替采用精细模型的分母计算。

背景模型是将训练数据中的所有非sil和sp的音素均标记成背景音素bg，从而训练得到的一个只包含三个音素(sil，sp，bg)七个状态的简单声学模型。它与精细声学模型的区别主要在于声学概率空间中概率分布的精细程度，因此不管是背景模型还是精细模型所描述的声学空间的大致轮廓是相同的。而在声学模型所有状态下计算的似然概率和正是这种空间轮廓的反应，所以采用这种简单背景模型可以极大减少计算量，同时不会造成评估性能的严重降低。

7)计算每一帧待评估语音的广义后验概率：

p (s_{t} | x_{t}) = \frac{p (x_{t} | s_{t})}{\underset{s_{k} &Element; D^{*}}{Σ} p (x_{t} | s_{k})} .

8)分别计算每个音素的广义后验概率：

p (ph) = \frac{1}{τ_{e} - τ_{s} + 1} Σ_{t = τ_{s}}^{τ_{e}} p (s_{t} | x_{t}),

其中τ_s、τ_e分别指输入的语音特征在当前音素的起始帧号和结束帧号，s_t是从强制对齐结果中获得的对应于第t帧语音特征x_t的状态号。

9)音素的广义后验概率即可作为该音素的置信度得分。

音素的置信度得分被用来衡量该音素发音质量的好坏。在评价置信度计算方法的性能时，采用与专家评估作对比的方式进行，即对同一批语音数据机器评估和专家评估发音质量同时进行，以专家评估的结果作为标准，机器评估结果与其一致认为机器评估正确，否则认为机器评估错误，这样统计出一个打分正确率的值。比较打分正确率的变化即可获知不同置信度算法的性能变化情况。从音素的置信度得分到机器评估结果之间存在着影射关系的问题，在此采用了阈值分类的方法。首先采用一个开发数据集按照打分正确率最高的原则，训练出各个音素的置信度阈值；在测试过程中，针对特定音素，当其置信度得分高于该音素的阈值时认为发音较准确，反之则认为该发音存在缺陷。

测试试验：

使用香港普通话水平考试现场录制的三个数据集对本发明中的利用背景模型计算分母的置信度快速估计算法进行试验。试验任务是评价发音质量评估系统的音素打分正确率。三个数据集分别被称为PSK1、PSK2和PSK3，PSK1由182个女生和107个男生的语音数据构成，PSK2中有122个女生和79个男生的数据，PSK3中有64个女生和44个男生的数据。每位朗读者朗读的目标语音都是事先指定的50个单字和25个双字词，三个数据集之间事先指定的目标语音内容各不相同。朗读者均是香港本地的大学生毕业生，普通话水平普遍不太好。对所有语音数据均有语言学专家的音素打分结果作为评价发音质量评估系统准确性的依据。置信度的得分被用来区分发音质量的好坏。当置信度得分高于事先设定的门限时认为发音较准确，反之则认为该发音存在缺陷。这个门限我们是通过训练得到的，即我们从每个数据集中随机取出60％作为开发集用来训练门限值，剩下的40％作为其测试集。我们的目标是提高音素打分正确率，即尽可能使机器评估的准确性接近于专家评估。

使用两种不同的算法计算置信度。一种如图1所示，定义为精细算法，另一种为如图2所示的本发明的引入背景模型的快速置信度算法，定义为广义算法。在精细算法中，使用统一的精细声学模型，即与性别有关的，男生模型包含4665个状态，女生模型包含4015个状态，每个状态都是由16个高斯共同描述的声学模型。而在广义算法中，除了使用以上的精细声学模型，还引入了一个背景模型，用来描述整体声学空间的分布状况，它包含7个状态，每个状态由128个高斯模型共同描述。

表1是本发明的背景模型快速计算方法与现有技术的精细模型计算方法的性能对比测试表。两种算法的性能对比测试结果如下表1所示。

表1：

从表中可以看出，本发明所使用的引入背景模型的快速置信度算法的性能要好于精细置信度算法。本发明采用的置信度算法的打分正确率在PSK1韵母上达到87.6％，相应精细算法的打分正确率为87.0％。虽然在广义置信度算法中只使用了状态数很少的背景声学模型来计算后验概率的分母部分，但是由于背景模型仍然能够描述整个声学空间的大致分布状况，只是精细模型的一个概化，所以性能依然没有降低。

此外，两种方法的计算复杂度有很大的差别，实时测试中引入背景模型的快速置信度算法要比只采用精细声学模型的置信度算法的速度提高3倍以上。

Claims

1.一种发音质量评估系统中的置信度快速求取方法，其特征在于，包括如下步骤：

1)将待识别语音输入语音识别系统中；

2)对输入语音进行预处理，该预处理中包括分帧处理；

3)采用感知加权线性预测参数特征提取方法或者美尔域倒谱系数特征提取方法提取语音特征；

- \ln p (x_{t} | s_{t}) = d (x_{t}, s_{t}) = \frac{1}{2} [(x_{t} - μ_{t}) Σ_{t}^{- 1} (x_{t} - μ_{t}) + n \ln (2 π) + \ln (| Σ_{t} |)]

其中，x_t为输入的第t帧语音特征，s_t为第t帧语音特征对应的隐马尔科夫模型的状态，该状态为正态分布N(μ_t，∑_t)，μ_t和∑_t分别是状态s_t模型的均值矢量和协方差矩阵，n是特征向量的维数；

其中，D^*是粗略背景模型中所有状态的集合；

7)计算每一帧待评估语音的广义后验概率：

8)分别计算每个音素的广义后验概率：

2.根据权利要求1所述的发音质量评估系统中的置信度快速求取方法，其特征在于，所述步骤2)的语音预处理具体流程如下：

2-1)将语音信号按照16K或者8K采样率进行数字化；

2-2)通过预加重进行高频提升：

预加重滤波器是：H(z)＝1-αz^-1

其中，α＝0.98；

2-3)将数据进行分帧处理：取帧长25ms、帧间重叠15ms；

2-4)加窗处理：

窗函数采用hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1})

其中，0≤n≤N-1。

3.根据权利要求1所述的发音质量评估系统中的置信度快速求取方法，其特征在于，所述步骤3)中提取的语音特征包括：计算感知加权线性预测或美尔域倒谱系数的参数系数、计算能量特征和计算差分系数，具体流程如下：

3-1)计算每帧语音的感知加权线性预测或美尔域倒谱系数参数系数c(m)，1≤m≤N_c，其中N_c为倒谱系数的个数，取N_c＝12；

3-2)计算每帧语音的能量特征；

3-3)计算能量特征和倒谱特征的一阶和二阶差分，采用如下的回归公式计算差分倒谱系数：

\frac{&PartialD; c (t)}{&PartialD; t} = μ Σ_{τ = - T}^{T} τc (t + τ)

其中，μ是归一化因子，τ为整数，2T+1为用于计算差分倒谱系数的语音帧数，T＝2，μ＝0.375；

3-4)对于每一帧语音，生成39维的感知加权线性预测或者美尔域倒谱系数特征向量。

4.根据权利要求1所述的发音质量评估系统中的置信度快速求取方法，其特征在于，所述步骤4)中全音节循环网络解码过程采用viterbi解码方法。