CN104050965A

CN104050965A - 具有情感识别功能的英语语音发音质量评价系统及方法

Info

Publication number: CN104050965A
Application number: CN201310391948.XA
Authority: CN
Inventors: 李心广; 李苏梅; 姚敏锋; 任达成; 辛昊旭; 沈东雄; 江立锐; 林雅婷; 陈嘉华; 何智明
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2013-09-02
Filing date: 2013-09-02
Publication date: 2014-09-17

Abstract

本发明涉及语音识别（包括情感识别）与评价的技术领域，更具体地，涉及具有情感识别功能的英语语音发音质量评价系统及方法。具有情感识别功能的英语语音发音质量评价系统，包括依次连接的语音采集模块、语音预处理模块、语音识别模块、语音情感识别模块、客观评价模块以及反馈指导模块，还包括分别与语音识别模块、语音情感识别模块、客观评价模块、反馈指导模块连接的标准语句模型库，通过模型匹配得到结果；实现英语句子的语音识别、情感识别、客观评价和反馈指导等功能。本发明具有语音识别效率、情感识别效率和准确率更高，语音评价和反馈指导准确客观等优点。

Description

具有情感识别功能的英语语音发音质量评价系统及方法

技术领域

本发明涉及语音识别（包括情感识别）与评价的技术领域，更具体地，涉及一种可识别说话人的情感信息，并将语音信号识别后转变为相应的翻译结果，并给出客观评价和反馈指导的具有情感识别功能的英语语音发音质量客观评价系统。本发明还涉及该系统的语音情感识别、语音识别与评价方法。

背景技术

语音识别技术就是让机器通过识别和理解，把人发出的语音信号转变为相应的文本或做出设定命令的技术，它正逐步成为信息技术中人机交互的关键技术。而情感识别技术就是让机器自动识别出说话人的情感状态及其变化，是进一步建立智能和谐人机环境的关键。如何从语音信号中自动识别说话者的情感状态，如何更好地对语音进行客观评价，近年来已受到各领域研究者的广泛关注。因此，具有情感识别功能的英语语音发音质量客观评价系统有着巨大的发展潜力与应用前景。研究成果可用于日常的英语教学中，如口语练习及口语考试，还可运用到计算机批量改卷中，大大减少改卷中耗费的人力物力。此外，可以用于自动远程电话服务中心，及时发现客户的不满情绪；用于远程教学和婴儿教育，及时识别学生的情绪并做出适当的处理，从而提高教学质量；也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供具有情感识别功能的英语语音发音质量评价系统，实现英语句子的情感识别、语音识别、口语翻译、客观评价和反馈指导等功能。此外，本发明具有情感识别时可信度较高；语音识别时效率更高，识别准确率更高；语音评价时，评价指标更全面，客观评价和反馈指导准确客观，真实性和可信性高的特点。

进一步的，本发明还提供应用该系统的方法，可对语音情感识别、语音识别与评价。

为解决上述技术问题，本发明采用的技术方案是：具有情感识别功能的英语语音发音质量评价系统，其包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、语音情感识别模块、客观评价模块及反馈指导模块，还包括分别与语音识别模块、语音情感识别模块、客观评价模块、反馈指导模块连接的标准语句模型库。

语音采集模块对语音信号进行采集，语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理；语音特征提取模块对语音信号进行语音特征参数的提取；语音识别模块、语音情感识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、情感识别、客观评价和反馈指导。

所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元，通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价；

所述语速评价单元通过计算待评价语句与标准语句的时长比，与所设置的语速阈值进行比较；

所述准确度评价单元采用短时能量作为特征来提取语句的强度曲线，进而采用抽查值的方法将待评价语句规整到与标准语句相近的程度，再将之与标准语音的强度曲线图进行对比，通过比较其拟合程度进行评价；

所述重音评价单元在规整后强度曲线图的基础上，设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长，进行重音单元的划分；进而采用DTW算法对待评价语句和标准语句进行模式匹配；

所述节奏评价单元采用改进的dPVI参数计算公式，根据语音单元时长差异性的特征，将标准语句与待评价语句的音节单元片段时长分别进行对比计算，并转换出相对应的参数；

所述语调评价单元通过提取语句发音的语速、能量、基频、共振峰等短时特征参数并加以分析，通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化，再将之与标准语音的语调变化进行对比，最后通过语调的拟合程度进行打分。

同时，本发明还提供具有情感识别功能的英语语音发音质量评价的方法，其包括以下步骤：

（1）语音采集模块对语音信号进行采集，并根据奈奎斯特采样定理将模拟信号数字化；

（2）语音预处理模块对所得的语音信号进行预加重、分帧、加窗、端点检测预处理；

（3）语音特征提取模块对预处理后的语音信号进行语音特征参数MFCC、情感特征参数语音基频、共振峰等参数的提取；

（4）语音识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，然后通过与标准语句模型库的匹配，以语音和文本的形式输出识别结果；

（5）情感识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，让后通过与标准语句模型库的相匹配，以语音和文本的形式输出识别结果；

（6）客观评价模块和反馈指导模块通过与标准语句模型库的匹配从语句的语速、准确度、重音、节奏和语调方面进行客观评价和反馈指导。

所述标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库，情感HMM模型库和文本库。

标准语句模型库用于对语音信号进行语音识别、情感识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号，包括语音信号的强度曲线图、时长、重音、共振峰及标准发音；特征参数库存储标准语句的特征参数；聚类分组库存储标准语句的所属分组；HMM模型库存储标准语句的HMM模型；情感HMM模型库存储句子的情感HMM模型；文本库存储标准语句的中英文文本。

聚类分组库、HMM模型库和情感HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi 算法进行语音特征降维、分组建模和模型匹配；所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题，聚类模型交叉分组算法解决分组性能较低问题，HMM模型聚类分组技术解决Viterbi 算法运算量和混合高斯分布概率计算量大问题，Viterbi算法解决HMM的解码问题。

步骤（5）具体还包括如下步骤：

（a）采用分段均值数据降维算法对语音特征提取模块得到的短时特征进行降维处理；

（b）通过与标准语句模型库的匹配，利用改进的DTW算法确定语音特征聚类分组K；

（c）对第K组内的情感HMM模型参数进行计算：将短时特征参数作为隐马尔可夫模型的观察序列；训练得到的语音单元为状态序列，通过Viterbi算法解出状态转移序列；

（d）采用决策判决，得到最大概率的状态转移序列；

（e）通过与标准语句模型库的匹配，根据最佳状态序列对应出句子情感。

本发明通过对采集到的语音信号进行预处理和分段均值降维处理，使系统在后期进行语音识别和评价时效率更高，准确率也更高。采用隐马尔可夫模型，并结合聚类交叉分组算法训练模型库，再用其进行模型匹配，使识别过程更加准确高效。，通过比较待评价语句和标准语句的准确度、语速、重音、节奏和语调等方面进行客观评价，并给予反馈指导，使评价结果更加准确客观。

与现有技术相比，有益效果是：本发明具有口语翻译，同时融合和语音情感识别，使得语音识别时效率更高，识别准确率更高；语音评价时评价指标更加全面，客观评价和反馈指导准确客观，真实性和可信性高等优点，在语音识别、语音情感识别与评价系统领域具有很大的消费市场。

附图说明

图1为本发明的模块原理图。

图2为MFCC参数提取流程图。

图3为语音基频提取示意图。

图4为语音特征参数分段均值降维示意图。

图5为聚类模型交叉分组训练算法示意图。

图6为HMM模型聚类分组图。

图7为本发明的语音识别过程图。

图8为隐马尔可夫模型识别过程图。

图9为DTW算法约束后的匹配范围。

图10为基于DTW算法的评价示意图。

图11为同一句子在四种情感状态下的基频曲线。

图12为共振峰提取原理图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明设计并实现了一种具有情感识别功能的英语语音发音质量客观评价系统。本发明的模块原理图如图1所示，通过语音采集模块1采集输入的语音信号；通过语音预处理模块2对所得的语音信号进行预处理；通过语音特征提取模块3对预处理后的语音信号进行语音特征参数提取；通过情感识别模块4与标准语句模型库6进行匹配，以语音和文本的形式输出识别结果；通过语音识别模块5与标准语句模型库6进行匹配，以语音和文本的形式输出识别结果；通过客观评价模块7与标准语句模型库6进行匹配，对待评价语句的重音、语速、语调、节奏等方面进行评价，实现上述处理功能的是语速因素评价单元71、准确度评价单元72、重音因素评价单元73、节奏因素评价单元74和语调因素评价单元75；通过反馈指导模块8与标准语句模型库6进行匹配，给予反馈指导。

下面分别对涉及到的各个模块单元进行说明：

一、标准语句模型库6

本发明的标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库，情感HMM模型库和文本库。

标准语句模型库用于对语音信号进行语音识别、情感识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号，包括语音信号的强度曲线图、时长、重音、共振峰及标准发音等；特征参数库存储标准语句的特征参数；基频特征参数；聚类分组库存储标准语句的所属分组；HMM模型库存储标准语句的HMM模型；情感HMM模型库存储语句的情感HMM模型；文本库存储标准语句的中英文文本。

其中，聚类分组库和HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi 算法进行语音特征降维、分组建模和模型匹配；所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题，聚类模型交叉分组算法解决分组性能较低问题，HMM模型聚类分组技术解决Viterbi 算法运算量和混合高斯分布概率计算量大问题，Viterbi算法解决HMM的解码问题。

1、特征参数提取

一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明，高兴时，通常是语速较快，音量较大；悲伤时，通常是语速缓慢，音量较小。基音是最常用的判定情感的语音特征，它反映了超音段的信息。在语音情感识别中使用的特征参数有基频（Pitch），其次才是能量（Energy）、语速（Speech Rate）、共振峰频率（Formant）、单个音节的持续时间（Duration）、音节之间的停顿时间（Pause）、线性预测系数（LPC）、Mel倒谱系数（MFCC）等，以及它们的各种变化形式，如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征，因此和人的生理构造有着密切的关系，在不同的个体上显现出较强的相异性。

基于心理学和韵律学研究的结果，说话者的情感在语音中最直观的表现就是韵律特征和语音质量的变化。因此对语音情感识别的研究普遍从韵律特征和音质特征开始，尤其是韵律特征，被认为是最主要的语音情感特征。

因此对于英语句子的情感识别，主要从韵律特征、声学特征、全局与时序结构特征并用的参数提取，非线性分析提取的特征参数四个方面提取语音特征参数。情感相关的语音韵律特征包括：信号的持续时间、信号的振幅、基频、基音周期和共振峰频率，情感语句的语速差异基于不同情感说话速率的不同。在提取持续时间时应注意包括无声部分，因为无声部分本身对情感是有贡献的。信号的振幅特征与各种情感信息具有较强的相关性。求取语音信号每帧的短时振幅，分析随时间的变化情况。基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数，反映情感信息的重要特征参数。提取共振峰参数主要有带通滤波器组法、倒谱法和线性预测法（LPC）。

语音特征是声音的类型，包括元音、辅音和它们的发音。韵律特征包括重音、节奏和语调等。

（1）MFCC特征提取

本文采用的提取基于听觉特性的MFCC语音特征作为识别的特征。Mel倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)是根据人类听觉系统的特性提出的，模拟人耳对不同频率语音的感知。人耳分辨声音频率的过程就像一种取对数的操作。图2为MFCC参数提取流程图。

（2）基频提取

基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征。

自相关函数的性质: 若原信号具有周期性，那么它的自相关函数也具有周期性，并且周期与原信号的周期相同。清音信号没有周期性，它的自相关函数R(k)会随着k的增大呈衰减趋势；浊音信号具有准周期性，它的R(k)在基音周期整数倍上有很大的峰值，通常取第一最大峰值点为基音周期点。自相关函数法基音检测正是利用这一性质对语音信号进行基音检测的，同时结合滤波和三电平削波及后处理使基频提取更准确、高效。

如图3所示，基频提取的流程为：带通滤波、采样分帧、三电平削波、基频计算、后期处理去除“野点”。

2、分段均值数据降维算法

本发明采用一种分段均值的方法对语音特征参数进行降维，首先将语音信号特征参数进行平均分段，语音特征参数可表示为，其中K是特征参数的阶数，J为分段后特征参数的帧数，T为原语音帧数。则将特征参数平均分为N段的计算公式如下：

即为分段后第i段的语音特征参数。

把特征参数平均分为N段后，再将平均分为M段，子分段计算公式可参考上式。之后对每个子分段的各帧参数进行求均值运算，得出各个子分段的均值向量，。在取得各个子分段的均值向量后，将各个子分段的均值合并为一个矩阵，即得到大小的矩阵，即为降维后的特征参数输出值。对语音特征参数进行分段均值降维处理如图4所示。

可知，分段均值降维算法可将大小的特征参数矩阵降维为大小的参数矩阵。由式可知，分段均值降维算法成功去除了语音帧数T对降维后数据大小的影响，降维后参数矩阵大小只与特征参数阶数K、分段大小N以及子分段大小M有关，使得各个不同长度的语音可以规整为同一大小的矩阵，这在很大程度上方便了语音特征聚类算法的实现。

3、聚类模型交叉分组算法

成功实现对语音特征参数进行降维处理后，运用K均值算法对语音特征参数进行聚类实验。在对语句进行聚类时，本发明将训练样本中发音相同的语句采用均值的方式经行合并，使其成为一个具有代表性的标准样本，用于聚类训练。

为了进一步提高K均值聚类算法对语音的分类性能，本发明采用一种新的二次训练算法——聚类交叉分组训练算法。图5为聚类模型交叉分组训练算法示意图。

在用K均值聚类算法对已经过分段均值降维处理的训练样本参数进行聚类后，依次对每个样本参数用DTW算法匹配其与样本中心距离，距离最小者为目标分组，然后检验目标分组是否包含输入特征参数所表示的语句，若包含则表示分类正确，若不包含则将该语句加入目标分组。

设聚类分组数为K，系统词汇量为N，第k个聚类分得词汇数量为，则在进行初次聚类后有，定义聚类交叉分组系数，的表达式为，易知在进行初次聚类后有。必须提出的一个问题是，在采用聚类交叉分组训练算法对聚类分组进行二次训练后，是否会趋于或等于，即趋近于1。若趋近于1，则说明聚类算法退化，产生假分组现象。

由于引入分段均值降维聚类算法，聚类结果有较好的稳定性，其中有部分语句完全没有出现分组错误，那么在交叉分组训练是这些语句将不会参与重新分组，这将有助于减小，使交叉分组达到较好的效果。

4、HMM模型聚类分组技术

由于具有情感识别功能的英语语音发音质量客观评价系统中每种情感都有一个与其对应的唯一情感HMM模型，因此可以将语音情感特征参数聚类分组结果中所包含的语句映射到与这些语句相对应的HMM模型，这样就得出了如图6所示的HMM模型聚类分组。

由于本发明使用的降维聚类交叉分组算法具有较好的性能，使得每个模型聚类组中包含的HMM模型数总是小于等于系统情感数量。在聚类分组合适的情况下，系统将节省非常可观的计算量，系统性能得以大大提高。

5、Viterbi算法

解码问题，本发明采用Viterbi算法解决。给定一个HMM模型，以及由模型产生的观察序列，搜索使该模型产生此观察序列最有可能经历的状态序列，即求解使最大的状态序列S。由于，而对于所有的S均相同，因此解码问题等价于求解使最大的状态序列S。

表示找一个状态序列，这个状态序列在t时状态为i，并且状态i与前面t-1个状态构成的状态序列的概率值最大，算法的递推公式为：。

如图7所示，得出HMM聚类模型分组后，进行情感识别时首先对输入语音参数进行计算并确定其语音特征聚类分组K，则在进行Viterbi解码运算时只对第K组内的HMM模型参数进行计算。

如图8所示，情感识别模块采用情感HMM模型，调用标准模型库中已训练好的语音模型，和输入语音进行匹配，解出状态转移序列，最终采用决策判决，得到最大概率的状态转移序列。根据最佳状态序列对应出英语句子的情感，并以文本的形式输出识别结果。

6、带通滤波

语音基音的频率范围是50 Hz~ 450 Hz，为了保留语音的一二次谐波以保证正确的处理结果，一般先使语音信号通过一个频率范围为60 Hz~ 900 Hz 的带通滤波器，下截止频率为60 Hz 可以抑制电源的干扰，上截止频率为900 Hz 不但可以保留基音的一二次谐波，还可以滤掉高次谐波，在语音信号中，基音的频率一般在100 Hz~ 200 Hz 之间，而第一共振峰在300 Hz~ 1 000 Hz 之间，通过带通滤波器，可以去掉语音信号中的高次共振峰。

7、采样分帧

这里的采样是指从语音信号中选取一段样本，一般取样点数为帧长的整数倍。每秒钟的采样样本数叫做采样频率1 分帧主要完成将取样模块中获得的语音样值点分为若干个语音帧1语音是不平稳的时变信号，在时间足够短的情况下，可以近似认为是平稳的，短时分析将语音流分为一段一段来处理，每一段就被称为一帧。分帧时需对语音信号进行加窗操作，即用一个有限长度的窗序列截取一段语音信号来进行分析，该窗函数可以按时间方向滑动，以便分析任一时刻附近的信号.常见的窗函数有: 方窗、Hamming 窗及Hanning 窗。

8、三电平削波

短时自相关函数所包含的信息许多是多余的，用自相关函数提取基音频率时，关心的是时间，也就是自相关函数峰值出现的位置，而与峰值本身大小没有什么关系，这样就可以采用三电平削波法，其输入输出关系式为:

即削波器的输出在x ( n ) > 时为1，x ( n ) < - 时为- 1，除此以外都为0。这样可以增加刚刚超过电平的峰的重要性，滤除大多数次要的峰，只保留了明显的具有周期性的峰，避免了对清音段不必要的分析处理，这对后期处理有很大的好处。

9、自相关函数

经三电平削波后: 自相关函数的计算极为简单。自相关函数如下所示:

10、基频计算

因为浊音语音的自相关函数具有一定的周期性，在相隔一定的取样后，自相关函数达到最大值。浊音语音的周期可用自相关函数中的第一个峰值的位置来估算。得到语音的周期后，根据周期与频率的倒数关系就可容易得到语音频率。

11、后期处理

没有任何一种预测方法能够准确计算出所有的基音频率1 往往大部分的点是比较准确的，但基音频率轨迹中总是会有一个或几个基音频率的估计值偏离了正常的轨迹(通常是偏离到正常值的两倍或1/ 2) ，称这种偏离点为基音轨迹的“野点”。此时为了去除这些野点，可以采用各种平滑算法，其中最常用的是中值平滑算法、线性平滑算法及组合平滑算法。此处采用的是中值平滑处理。

二、客观评价模块7

所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元，通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调等方面进行综合评价。

重音以音节为单位，以词重音为主，其意义功能表现为起强调、对照作用。节奏分为完全重读型、不完全重读型、强调重读型三种，在朗读、说话时，以不同组合形成的节奏群为单位交替出现，其意义功能表现为增强旋律和乐感。语调以意群为单位按不同调式进行变化，其意义功能表现为表达各种不同的感情色彩。对于待评价语句的评价，除发音(Pronunciation)呈现出的表面要素外，它所要表达的意思内容、感情色彩才是本质所在。此外，语速和准确度也是衡量语句发音质量的因素。

三、语速评价单元71

由于不同人说话语速均存在一定差异，不同人对同一句子的发音均会造成句子时长的一定性差异。定义待评价语句与标准语句的时长比，则，其中为待评价语句的时长，为标准语句的时长。

本发明采用双门限比较法来进行语速评价，经过大量实验验证，设定两个阀值：0.9和1.1。如果时长比>1.1或者<0.9，将进行酌情扣分。

四、准确度评价单元72

语句的强度曲线图可以反映语音信号随着时间的变化。语句中重读音节响亮的特征将反映到时域上的能量强度，即重音音节表现为语音能量强度大。根据语音信号s(n)的短时能量的定义：

对语句提取能量值，即为语句的强度曲线图。

由于不同人不同时间对同一句话的发音时长不相等、发音强度也不同，如果将待评价语句和标准语音的强度曲线直接进行模板匹配，结果将影响评价的客观性。鉴于此，本发明提出了一种基于标准语音的强度曲线提取方法：当待评价语句时长比标准语句短的时候，采用插值方法对其进行时长的补充；当待评价语句时长比标准语句长的时候，采用抽值方法对其进行时长的调整；最后，利用标准语音强度曲线的最强点，对待评价语音强度曲线进行强度规整。

该方法首先计算插值或抽值的步进K

其中，分别表示标准语音和待评价语音的强度曲线，表示该强度曲线的长度。接着，当时，表示待评价语音的时长比标准语音长，可直接对待评价语音强度曲线进行步进为K的抽值计算；当时，表示待评价语音的时长比标准语音短，则需计算插值位置的强度值

其中。最后，将由上式所得的一系列强度值以步进K插入到待评价语音强度曲线中，并对其进行语音强度的规整，如下式所示

其中。

完成强度曲线的提取和规整后，本发明将之与标准语音的强度曲线图进行对比，通过比较其拟合程度进行评价。

五、重音评价单元73

重音以音节为单位，以词重音为主，其意义功能表现为起强调、对照作用。

在规整后强度曲线图的基础上，本发明采用双门限比较法来进行重音端点检测，经过大量实验验证，设定如下两个阀值：

重音阀值

非重音阀值

双门限比较法中，根据语句的能量值逐个搜索语句中大于重音阀值的最大语音信号值，然后向信号值左右搜索等于非重音阀值的语音信号值与，将与设置为语句重音信号，并将与之间的信号量值置0，避免重复在与之间搜索。

由于语句中重读音节有着发音偏长的特征，而第一步搜索出来的重读音节单元可能存在能量值大，即听觉表现为发音响亮，持续时间却很短的问题，这些单元可能是短元音，也可能是信号尖峰的干扰，它们不构成重读音节，可以根据重读音节发音偏长的特征将重读音节单元进一步筛选。本发明将重读音节单元的最小单位设定为一个大致重读元音时长（Stressed vowel durations），为100ms。

通过以上步骤，完成对语句重音单元的划分。

接着采用改进的DTW算法进行待评价语句和标准语句的模式匹配。DTW算法的基本原理为动态时间规整，把测试模板和参考模板之间本来不匹配的时间长度进行匹配。用传统的欧氏距离计算其相似度，设参考模板和测试模板为R和T，距离D[T,R]越小则相似度越高。传统DTW算法的缺点是在进行模板匹配时，所有帧的权重一致，必须匹配所有的模板，计算量比较大，特别是当模板数增加较快时，运算量增长特别快。

如图9所示，本发明通过设置匹配边界，将需要运算的交点限定在平行四边形内。将R和T按等时分为N、M帧，可分为三段路径计算距离，根据坐标计算可得和，、取最相近的整数。当不满足限制条件,时，不进行动态匹配，减少了系统开支。

X轴上的每一帧与Y坐标轴上间的帧匹配，的计算如下

若，匹配的路径可分为。X坐标轴每向前一帧，虽对应Y坐标轴的帧数不同，但规整特性一致，累积距离为

其中D和d分别表示累积距离和帧匹配距离。

图10为基于改进的DTW算法的评价示意图，其中X轴为标准语音的强度曲线，Y轴是待评价语音的强度曲线，将两曲线等长分帧，按照顺序计算对应帧的距离，将累积距离输出，作为评分机制的参考标准。

六、节奏评价单元74

节奏分为完全重读型、不完全重读型、强调重读型三种，在朗读、说话时，以不同组合形成的节奏群为单位交替出现，其意义功能表现为增强旋律和乐感。

本发明采用改进的dPVI (the Distinct Pairwise Variability Index)参数计算公式，根据语音单元时长差异性的特征，将标准语句与待评价语句的音节单元片段时长分别进行对比计算，并将转换出的参数用于客观评价和反馈指导依据。

其中为语句划分的语音单元片段时长（如：为第k个语音单元片段时长），，为标准语句时长。由于进行PVI运算之前已经将待评价语句时长规整到与标准语句时长相当，计算可只用作为计算单元。

七、语调评价单元75

语调以意群为单位按不同调式进行变化，其意义功能表现为表达各种不同的感情色彩。

在语调评价方面，本发明通过提取语句发音的语速、能量、基频、共振峰等短时特征参数并加以分析，通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化，再将之与标准语音的语调变化进行对比，最后通过语调的拟合程度进行打分。

1.语速和能量特征

（1）语速

通过分析得知语音情感与语速有关，通过语音时长和发音音节数来定义语速。计算平均发话速率，它由持续时间与发音音节数的比值（音节/s）确定。即：

式中指每句话的持续时间，其中包含音节的停顿，因为停顿时间对情绪的变现是有贡献的，本文通过设定短时能量和过零率的高低限值，对录入语音进行端点检测，来获得语音时长。

（2）能量

我们对情感语音数据中的平均能量进行统计，发现生气和高兴时语音信号的能量高，平均能量都高于50dB，其次是平静时的语音信号的能量，悲伤时语音信号的能量最低，平均能量不到50dB。

2.基频特征

基音频率是反映情感信息的。通过对大量的情感语句的基频进行观察分析，得到这样的结论: 对于同一个句子，不同情感状态下的基频变化是不同的，基频的构造特征也是不同的。如图11所示，它们是同一个句子分别在四种情感状态下的基频曲线。

针对基频曲线变化的分析，同时我们统计了整个句子基频的动态范围、均值、方差、最大值、最小值以及基频斜率的最大、最小、均值作为基频的扩展特征。

在计算基频前端的斜率前，我们先要确定具体的前端部分，即确定最前面的一个稳定的基频段作为处理的对象，在此段内，计算相邻帧的基频之差，作为斜率值。

3.谱信息特征

（1）谱能量

语音信号的能量主要集中在低频段，在这里我们计算低于250Hz的能量。在计算低于250Hz的能量时，先做FFT变化，把整个句子的语音信号从时域转到频域。因为我们的语音信号的采样率是8000Hz，所以频域的范围是[0,8000]，找到低于250Hz对应的点，用，，…，表示。

计算低于250Hz的谱能量公式为：

（2）共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接来源，而且人在语音感知中利用了共振峰信息，所以共振峰是语音信号处理中非常重要的特征参数。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般我们认为频谱包络中的最大值就是共振峰。

声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减，得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀，强的部分犹如山峰一般。在英语语音声学中，共振峰决定着元音的音质，每一个元音对应一个共振峰。

常见的共振峰提取方法有基于线性预测（LPC）、倒谱、LPC倒谱等方法，各种方法各有优劣，本发明主要是利用倒谱方法提取语音信号的共振峰，并将共振峰提取的结果运用于语音发音的评价中。倒谱法根据对数功率谱的逆傅里叶变换，能够分离频谱包络和细微结构，很精确地得到基音频率和共振峰信息，在噪音不大的情况下，倒谱进行基音提取的效果是很好的。倒谱的定义如下：

倒谱将基音谐波和声道的频谱包络分离开来。倒谱的低时部分可以分析声道、声门和辐射信息，而高频部分可以用来分析激励源信息。对倒谱进行低时窗选，通过语音倒谱分析系统的最后一级，进行DFT后的输出即为平滑后的对数模函数，这个平滑的对数谱显示了特定输入语音段的谐振结构，即谱的峰值基本上对应于共振峰频率，对平滑过的对数谱中的峰值进行了定位，即可提取出语音信号的共振峰。图12为共振峰提取原理图。

在语音发音质量评价中，对准确度（Accuracy），语速（Speed），重音（Stress），节奏 (Rhythm)，语调 (Intonation)这5个指标进行评价。据专家意见和研究发现，语速（Speed）10% +准确度（Accuracy）10% +重音（Stress）20 % +节奏(Rhythm) 25% +语调(Intonation) 35%=100%这样的比重是比较合理的。对于用户输入的每一个测试语句，都进行情感识别，如果与句子本应表达的情感进行比较，若是存在较大的区别，则系统给予反馈指导意见，指导用户正确表达句子蕴含的情感。

结合上述的说明，本发明与现有技术相比，具有口语翻译，同时由于融合情感识别和客观评价及发音反馈，使得语音识别时效率更高，识别准确率更高；语音评价时，评价指标更全面，客观评价和反馈指导准确客观，真实性和可信性高等优点，在语音识别与评价系统领域具有很大的消费市场。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，对发明的技术方案可以做若干适合实际情况的改进。因此，本发明的保护范围不限于此，本领域中的技术人员任何基于本发明技术方案上非实质性变更均包括在本发明保护范围之内。

Claims

1.具有情感识别功能的英语语音发音质量评价系统，其特征在于，包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、情感识别模块、客观评价模块及反馈指导模块，还包括分别与语音识别模块、情感识别模块、客观评价模块、反馈指导模块连接的具备四种情感的标准语句模型库，包括语音信号库、特征参数库、聚类分组库、HMM模型库，情感HMM模型库和文本库；

语音采集模块对带有高兴、悲伤、愤怒、中性这四种情感的语音信号进行采集；语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理；语音特征提取模块对语音信号进行语音特征参数的提取；其中特征参数提取包括语音识别特征参数和情感特征参数；情感特征参数包括语音基频在内的十二个参数进行提取；情感识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理，然后通过与标准语句模型库的相匹配，以语音和文本的形式输出识别情感结果；语音识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、客观评价和反馈指导。

2.根据权利要求1所述的具有情感识别功能的英语语音发音质量评价系统，其特征在于，所述的情感识别模块采用情感HMM模型，调用标准模型库中已训练好的语音模型，同输入语音进行匹配，解出状态转移序列，最终采用决策判决，得到最大概率的状态转移序列；根据最佳状态序列对应出英语句子的情感，并以文本的形式输出识别结果；所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元，通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价。

3.根据权利要求2所述的具有情感识别功能的英语语音发音质量评价系统，其特征在于，

所述情感识别模块通过提取语句的信号的持续时间、信号的振幅、基频、基音周期和共振峰频率，并求取语音信号每帧的短时振幅，分析随时间的变化情况；接着用分段均值数据降维算法对所得的语音特征进行降维处理，通过与标准语句模型库的参数范围相匹配来得到识别结果；

4.根据权利要求3所述的具有情感识别功能的英语语音发音质量评价系统，其特征在于，所述标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库，情感HMM模型库和文本库；

标准语句模型库用于对语音信号进行情感识别、语音识别、客观评价和反馈指导的模式匹配；语音信号库存储标准语句的语音信号，包括语音信号的强度曲线图、时长、重音、共振峰及标准发音；特征参数库存储标准语句的特征参数；聚类分组库存储标准语句的所属分组；HMM模型库存储标准语句的HMM模型；情感HMM模型库存储情感语句的HMM模型；文本库存储标准语句的中英文文本。

5.应用权利要求1至4任一所述的具有情感识别功能的英语语音发音质量评价系统的方法，其特征在于包括以下步骤：

（3）语音特征提取模块对预处理后的语音信号进行语音短时特征参数的提取；

6.根据权利要求5所述的方法，其特征在于，所述的步骤（5）具体还包括如下步骤：

（d）采用决策判决，得到最大概率的状态转移序列；

（e）通过与情感标准语句模型库的匹配，根据最佳状态序列对应出句子情感。