CN102122507A

CN102122507A - 一种运用人工神经网络进行前端处理的语音检错方法

Info

Publication number: CN102122507A
Application number: CN2010100465208A
Authority: CN
Inventors: 龚澍
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-01-08
Filing date: 2010-01-08
Publication date: 2011-07-13

Abstract

一种运用人工神经网络进行前端处理的语音检错方法，包括使用多层感知器MLP从39维Mel倒谱系数参数中提取出拥有强大模式识别能力、具有良好区分性的64维新特征，在此基础上对测试数据进行机器语音识别，生成错误检测度量得分GOP，根据设定的阈值指出发音错误及其错误程度，并针对发音中的错误进行指导学习。

Description

一种运用人工神经网络进行前端处理的语音检错方法

技术领域

本发明涉及语音识别评测领域，具体是在使用计算机对发音人水平进行评测时综合运用语音识别方法、语音学知识和人工神经网络知识等有效地提升语音识别系统的检错性能。

背景技术

普通话水平测试是推广普通话工作的重要方法，是使用推广普通话工作逐步走向科学化、规范化、制度化的重要举措。《中华人民共和国国家通用语言文字法》规定，以普通话作为工作语言的播音员、节目主持人、影视话剧演员、教师、国家机关工作人员必须参加普通话水平测试并达到国家规定的等级标准。

目前进行的普通话水平测试工作全部采用人工评分的方式，一般每个普通话测试考场需要安排2-3名测试员，由测试员对考生说话的声音进行评分，一个考场一天只能测试30人，一个上千人的普通话水平测试常常需要在短时间内组织上百名测试员，不仅费时费力，测试成本高，而且效率低。由于全部采用人工的方式评分，测试员的主观性很强，在一定程度上存在测试结果的公正性问题。

因此，结合现代计算机技术的发展，研究开发如何将先进的信息技术应用于普通话水平测试，全部替代或部分替代人工的评测员，从而弥补传统的普通话水平测试方法的不足，对于节省人力物力等成本和提高测试的公正性、效率方面都具有重大的意义。

计算机普通话水平测试系统的研究本身对于基础资源库、跨学科的合作等方法的要求很高，存在较大的难度。正是由于缺乏系统的指导和广泛合作，计算机的方式实现普通话水平测试长期以来一直没有得到研究人员的关注。

中国科学技术大学讯飞语音实验室承担了国家语言文字应用“十五”重点项目——“智能语音技术在普通话辅助学习中的应用”。目前已完成主要方言语料库的收集、标注、整理工作，在部分省市利用项目成果进行的计算机普通话水平测试已达到了较高的精度，可以对普通话口语面貌进行比较准确的评测，测试水平已经达到省级测试员的水平，可在今后的普通话水平测试中逐步推广使用。

目前国际上针对语言学习的系统大都是基于计算机辅助语言学习(CALL)的评测学习系统，虽然也有在中文学习和评测方面的应用，但此类的评测系统，由于没有对中文进行针对性的处理，系统普适性和检错性能有待改进。如果能在评测系统中运用语音识别的通用原理，利用人工神经网络强大的模式分类能力，以及针对汉语的特点分析和音韵结构分析，将可以使评测系统的检错性能得到很大的提升，满足汉语自动评测的推广应用需求。

发明内容

本发明公开了一种运用人工神经网络进行前端处理的语音检错方法，在语音识别系统的框架下，使用多层感知器(MLP)提取出具有良好区分性的高维特征，利用机器主动地对学习者的发音进行分析和评判，指出发音人的错误及其错误程度，同时针对发音人的错误自动生成相应的学习文本或语音样例供发音人联系。

完整的运用人工神经网络进行前端处理的语音检错系统由两部分组成：特征提取部分和检错指导部分。

特征提取部分首先对输入的语音信号进行预处理，从中提取出原始的声学特征(一般采用的是39维MFCC特征)，经过滑动窗口的选择，选中输入特征的当前帧和该帧前后各4帧，共计9帧进行扩展，组成一个351维的大向量作为多层感知器(MLP)的输入。在神经网络训练阶段MLP使用反向传播(BackPropagation，BP)算法和最小交叉熵准则(Minimum Cross Entropy Criterion)利用带标注的特征得到了所有的网络权重参数，在之后的测试中MLP输出的是后验特征。这里MLP的输出特征很自由，既可以是状态级后验概率也可以是音素级后验概率。由于MLP的输出特征呈偏斜分布(Skewed Distribution)且具有高度的相关性，所以并不能直接作为后续HMM/GMM框架的输入特征，必须经过一些后处理模块的操作，可以使用柔性最大值传输(softmax)函数对MLP的输出特征进行处理，再取对数运算，其目的就是要修正后验概率分布的偏斜性，使之更趋向于一个正态分布。之后经过KL(Karhunen Loeve)变换，其作用一是去除维之间的相关性，二是降低维数，仅保留那些对全局方差有贡献的特征分量，删除冗余的数据信息。考虑到原始特征与MLP及其后续模块处理得到的特征之间具有互补性，为了提升系统的性能，最终的特征是由KL变化输出的25维特征和原始39维特征拼接起来得到的。将融合后的64维特征作为后续检错系统的输入特征，从而可以进一步完成语音评测的过程。

检错指导部分首先采用已获得的64维新特征训练出标准发音HMM模型，并获得标准发音的HMM参数分布。于是，对于系统输入的文本相关的测试语音，可知其标准发音的HMM模型，通过计算测试发音相对于标准发音的距离，生成错误检测度量得分GOP，GOP作为后验概率算法的一种变形，被定义在音素层面。假设某个待检测的音素p对应的观测矢量是o₁ ^T，则音素p的GOP被定义为下式(假设各音素等概率出现，并且使用最大值近似累加项)。其中，N是所有模型单元的数目，Q为所有音素的模型集合。

从式中可以看出，分子就是观测矢量对给定音素的似然度，分母就是观测矢量相对所有模型单元中似然度最大的似然度。一般情况下，分母大于等于分子，分子和分母的值越接近说明发音越准确。对于计算得到的错误检测度量GOP值，可以直接设置全局门限进行错误检测，如下式，其中，Thresh是在检错数据训练集上训练得到的检错门限。当GOP的值大于阈值时，系统判定发音人的当前一个音素或音调发音正确，否则，认为发音错误。

之后根据发音人所发语音在标准语音模型下的评分参数，在充分考虑相关语言学先验知识的基础之上针对人工对典型错误语音错误的标注运用机器学习的方法来判断出学习者发音错误的位置及错误类型。接着，针对考生的水平和发音错误给出纠正性的、积极的反馈指导，包括打印出考生的错误发音种类和错误程度，在计算机上播放止确的发音及发音的舌、口、唇运动示意图，指出考试具体的舌、口、唇错误，给出针对错误的学习文本及发音样例。

发明的效果

判断计算机测试系统检错性能的优劣，常常是通过计算出机器检错结果与专家人工标注结果之间分差的绝对误差均值和等级一致率均值来判定。由于专家之间的打分也存在误差，因此将三位专家人工测试结果之间的分数绝对误差均值和等级一致率均值作为机器与人工测试性能的比照。

在测试员的打分数据库上经同级，三位专家测试员两两之间的评分绝对误差平均，在不同的数据集上的分布在2.0-3.2分之间，等级一致率在0.83-0.90之间，计算机测试系统的总分平均误差在1.8分以内，与测试员之间的等级一致率达0.82以上，因此，我们这套发音检错系统的测试效果基本达到了与人工检错接近的水平。

此外由于对汉语的音韵结构和时长特性进行了分析和处理，并且利用了有强大模式识别能力的人工神经网络，使得系统对汉语普通话的评测更有针对性，从而大大地提升了语音识别评测系统的检错性能。

术语解释

语音识别：语音识别是模式识别的一个分支，又从属于信号处理科学领域，同时与语音学、语言学、数理统计及神经生物学等学科有着非常密切的关系，语音识别技术就是让机器通过识别和理解过程把语音信号转变成相应的文本和或命令的高技术。一个完整的语音识别系统可大致分成三部分：语音特征提取；声学模型与模式匹配(识别算法)；语言模型与语言处理。

似然度：也可称相似度，指将音段(或音调)划分到特定音段(或音段)模型类别的后验概率。

HTK：Hidden Markov Toolkit，剑桥大学提供的一个用来搭建基于隐马尔科夫模型(Hidden MarkovModel，HMM)的语音识别器的开放源代码的工具。

CALL：即计算机辅助语言学习(Computer Assisted Language Learning)。

MLP：即多层感知器(Multi Layer Perceptron)。多层感知器是一种单向传播的多层前馈网络模型，由于具有高度的非线性映射能力，是目前神经网络研究与应用中最基本的网络模型之一.BP算法是多层前向神经网络中应用最多的算法。

附图说明

图1：普通话发音检错系统的结构示意图。

图2：64维声学特征提取流程示意图。

具体实施方式

一种运用人工神经网络进行前端处理的语音检错方法，包括用多层感知器MLP提取64维新特征，对测试数据进行机器识别，生成错误检测度量得分GOP，根据设定的阈值指出发音中的错误及其错误程度，具体步骤是：

1.建立针对发音检错音素平衡的的标准数据库，包括单字、短语和连续语流的标准发音：

1)根据普通话检错要求的音素平衡原则设计录音文本；

2)分性别和年龄，寻找一批适合的标准发音人；

3)安排标准发音人进行录音工作。

2.采集待检错的语料，建立测试语料的语音库：

1)在普通话水平测试的现场，选取不同性别、年龄、地域的一批考生；

2)对这批考生的考试发音进行录音，同时保存录音试题，将录音文件与录音试题进行关联。

3.进行细致到音素的人工标注。其具体做法是：详细标注语音库中的每个字的声母、韵母以及声调的发音正确与否，并对每个不正确声母、韵母及调型标识出其正确的声母、韵母和声调。

4.将标准语料和待检错语料分帧，按帧计算语音的Mel倒谱系数参数(MFCC)，利用人工神经网络强大的模式分类能力，产生新的具有良好区分性的前端特征：

1)将语音分帧，帧长为250ms，帧移为10ms，按帧计算语音的MFCC参数；

2)以39维MFCC特征作为原始特征，将其和相应的人工标注提供给多层感知器(MLP)进行训练，同时合理地设置相关参数，如将滑动窗口的大小设置为9帧，又如使隐层节点数目的设置满足MLP平均每个权重至少分到20帧数据的要求；

3)将39维原始MFCC特征和相应的接着，对MLP解码得到的输出特征进行去相关和高斯化操作，将特征降至25维；

4)把KL变换输出的25维特征和原始39维MFCC特征进行拼接，合并成64维的新特征，并转换成HTK格式。

5.在标准数据库上使用HTK搭建基于隐马尔可夫模型(HMM)的语音识别器：

1)运用标准发音人语料库及相应的文本信息，训练标准语音的音段模型，可以是音素模型，也可以是上下文相关的音节模型。具体做法是：按帧计算语音的MFCC参数，之后训练各种音段的基于MFCC参数的HMM模型。

2)运用标准发音人语料库及相应的文本信息，训练标准语音的音调模型，可以是单纯的四声音调模型，也可以是与前后掉以及韵母相关的音调模型。具体做法是：按帧计算语音的基频参数，之后训练各种音调的基于音频参数的HMM模型。

6.通过使用区分性训练的神经网络去估计音素级后验概率，将64维的新特征作为基于HMM统计模型的发音检错系统的输入，语音识别器利用事先训练好的声学模型对输入的声学特征进行计算，得到检错所需要的检错特征。

7.针对汉语的声韵母结构和时长特性进行分析，得到、声韵母时长与检错系统评测性能的关系，引入了针对汉语声韵母结构和时长处理策略。用标准音段模型和声调模型对语音进行音段识别和音调识别，得到识别结果和对应的音段识别似然度和音调识别似然度。

8.采用最大似然线性回归(MLLR)对基于隐马尔可夫模型(HMM)的语音识别器的识别结果进行说话人自适应，以提高系统的检错性能。

9.对于系统输入的文本相关的测试语音，可知其标准发音的HMM模型，通过计算测试发音相对于标准发音的距离，生成错误检测度量得分GOP(Goodness of Pronunciation)。GOP作为后验概率(Posterior Probability，PP)算法的一种变形，被定义在音素层面。假设某个待检测的音素p对应的观测矢量是o₁ ^T，则音素p的GOP被定义为下式(假设各音素等概率出现，并且使用最大值近似累加项)。其中，N是所有模型单元的数目，Q为所有音素的模型集合。

10.选择合适的一个阈值，当某音素或音调的错误检测度量GOP大于该阈值是就认为此音素或音调发音正确，否则认为发音错误，如下式所示，其中，Thresh是在检错数据训练集上训练得到的检错门限。从而得出最终的检错结果。

11.根据测试者的发音错误给出相应的正确发音，生成针对错误的加强学习文本和发音样例供测试者参考联系；提供以正确的发音示范以及用语音提示发音方法，显示出语音的波形图，语谱图及正确的口、唇、舌位置图。

Claims

1.一种运用人工神经网络进行前端处理的语音检错方法，其特征是首先建立针对发音检错的标准数据库，包括单字、短语和连续语流的标准发音；同时采集待检错的语料，对此进行细致到音素的人工标注；将标准语料和待检错语料分帧，按帧计算语音的Mel倒谱系数参数(MFCC)，利用人工神经网络强大的模式分类能力，产生新的具有良好区分性的前端特征；之后，在标准数据库上使用HTK搭建基于隐马尔可夫模型(HMM)的语音识别器；对于系统输入的文本相关的测试语音，可知其标准发音的HMM模型，通过计算测试发音相对于标准发音的距离，生成错误检测度量得分，进而判断其发音是否准确。

2.根据权利要求1所述的方法，其特征在于先将39维原始MFCC特征和相应的人工标注提供给多层感知器(MLP)进行训练，同时合理地设置相关参数，如将滑动窗口的大小设置为9帧，又如使隐层节点数目的设置满足MLP平均每个权重至少分到20帧数据的要求。接着，对MLP解码得到的输出特征进行去相关和高斯化操作，将特征降至25维。最后，把KL变换输出的25维特征和原始39维MFCC特征进行拼接，合并成64维的新特征，并转换成HTK格式。

3.根据权利要求1所述的方法，其特征在于通过使用区分性训练的神经网络去估计音素级后验概率，将64维的新特征作为基于HMM统计模型的发音检错系统的输入，语音识别器利用事先训练好的声学模型对输入的声学特征进行计算，得到检错所需要的检错特征，检错模块利用得到的检错特征和事先训练好的检错模型得出最终的检错结果。

4.根据权利要求1所述的方法，其特征在于采用GOP(Goodness of Pronunciation)作为错误检测度量。GOP作为后验概率(Posterior Probability，PP)算法的一种变形，被定义在音素层面。假设某个待检测的音素p对应的观测矢量是o₁ ^T，则音素p的GOP被定义为下式(假设各音素等概率出现，并且使用最大值近似累加项)。其中，N是所有模型单元的数目，Q为所有音素的模型集合。

。

5.根据权利要求1所述的方法，其特征在于对采用最大似然线性回归(MLLR)对基于隐马尔可夫模型(HMM)的语音识别器的识别结果进行说话人自适应，以提高系统的检错性能。

6.根据权利要求1所述的方法，其特征在于：

1)建立音素平衡的标准发音人语音库：

a)根据普通话检错要求的音素平衡原则设计录音文本；

b)分性别和年龄，寻找一批适合的标准发音人；

c)安排标准发音人进行录音工作。

2)建立测试语料的语音库：

a)在普通话水平测试的现场，选取不同性别、年龄、地域的一批考生；

b)对这批考生的考试发音进行录音，同时保存录音试题，将录音文件与录音试题进行关联。

3)建立音段模型和音调模型：

a)运用标准发音人语料库及相应的文本信息，训练标准语音的音段模型，可以是音素模型，也可以是上下文相关的音节模型。模型的训练步骤为：将语音分帧，帧长为250ms，帧移为10ms，按帧计算语音的MFCC参数，之后训练各种音段的基于MFCC参数的HMM模型。

b)运用标准发音人语料库及相应的文本信息，训练标准语音的音调模型，可以是单纯的四声音调模型，也可以是与前后掉以及韵母相关的音调模型。模型的训练步骤为：将语音分帧，帧长为250ms，帧移为10ms，按帧计算语音的基频参数，之后训练各种音调的基于音频参数的HMM模型。

4)详细标注发音错误：即详细标注语音库中的每个字的声母、韵母以及声调的发音正确与否，并对每个不正确声母、韵母及调型标识出其正确的声母、韵母和声调。

5)针对汉语的声韵母结构和时长特性进行分析，得到、声韵母时长与检错系统评测性能的关系，引入了针对汉语声韵母结构和时长处理策略。用标准音段模型和声调模型对语音进行音段识别和音调识别，得到识别结果和对应的音段识别似然度和音调识别似然度，之后计算出错误检测度量GOP。

7.根据权利要求1所述的方法，其特征在于选择合适的一个阈值，当某音素或音调的错误检测度量GOP大于该阈值是就认为此音素或音调发音正确，否则认为发音错误。