CN101201980A

CN101201980A - 一种基于语音情感识别的远程汉语教学系统

Info

Publication number: CN101201980A
Application number: CNA200710179888XA
Authority: CN
Inventors: 苗振江; 明悦; 纪现请
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2007-12-19
Filing date: 2007-12-19
Publication date: 2008-06-18
Anticipated expiration: 2027-12-19
Also published as: CN101201980B

Abstract

本发明公开了一种基于语音情感识别的远程汉语教学系统，包括汉语发音练习、语音情感处理、语音情感分析、用户管理、学习效果分析评测、课程管理六个模块。运用语音信号处理和统计信号处理的相关理论将用户输入的语音在语音情感处理模块进行分析，识别用户不同的情感状态，由语音情感分析模块分析其所处的精神状态，通过在学习效果分析评测模块与课程管理模块和用户管理模块的动态交互实现根据用户的情感进行个性化学习的目的。该设计方案对传统“大锅饭，平均分”式的教学进行了彻底的革命，真正实现了因人、因时、因事而异的教学方式，从用户的情感角度出发设计的教学方案可以有效地提高学习效率，寓教于乐融为一体。

Description

一种基于语音情感识别的远程汉语教学系统

技术领域

本发明涉及一种远程汉语教学系统，特别是设计一种基于语音情感识别的教学系统，属于网络汉语教学及语音情感识别技术领域。

背景技术

随着经济全球化的发展和中国经济的持续快速增长，世界各国对汉语学习的需求也在迅速增长，这种需求已经从学术和教学领域走到民间及政府层面，带动了一股学习汉语的热潮。据不完全统计，目前世界上学习汉语的人数已超过3000万人，有100个国家的2500余所大学和越来越多的中小学开设了汉语课程，中国汉语水平考试的考点遍布五大洲。搭建一个汉文化交流的平台，繁荣和发展世界汉语教学，推动汉语文化的广泛传播，让汉语更快地走向世界，正在成为越来越多炎黄子孙为之不懈奋斗的方向。

面对汉语如此巨大的魅力和如此广阔的市场和人文需求，显然传统的课堂教学方式已不能满足如此广大的受众群的需要，对外汉语教师严重短缺也成为制约汉语推广的重要因素，而信息时代的来临为这种矛盾的调和带来了新的希望，当今时代网络无所不在，为此基于网络的远程汉语教学系统应运而生。现有的远程汉语教学系统虽然已经融入了多媒体技术制作的音像材料、互动课程、虚拟社区等，也为用户提供了博客、播客、维基百科等实用工具。但它毕竟是无生命的，无法像真正的老师那样感受到每个学生的学习状态和精神状态，根据他们所处的状态实时地调整课程计划和授课内容。主要有以下几点不足：

1.用户受传统学习习惯的限制，远程教学若没有同步课堂传输，用户难以感受到课堂面授时教师的举手投足、一颦一笑，使人“如沐春风”般的人格魅力。无法将自己丰富的情感有机地融入到学习当中。

2.不具备随机应变的“教学机智”，无法感受到用户千变万化的情绪状态，因而也就不一定能适用于各种教学层次和各种课程。

3.由于它缺乏必要的督导性和交互性，要求用户必须具备一定的自主学习能力，因此较传统的“人与人，面对面”的教学方式，目前的远程系统无法根据用户的情感变迁，兴趣的转移进行有效的教学改革。

4.针对汉语语言教学这个特殊的教育领域，目前的远程教学系统适合于传授书面知识，在培养技能方面如发音练习，特别在不同情绪支配下的发音分析，根据不同情感状态进行有针对性的语言训练难度相对较大。

为了克服现有技术结构的不足，本发明提供一种基于语音情感识别的远程汉语教学系统。该系统中有效地融入了语音情感识别技术。语音识别技术作为人机交互的重要组成部分和人工智能的有机补充，使得网络课程可以告别生硬呆板的教学方式，成为一种有生机懂情感的崭新教学理念。语音之所以能够表达情感，是因为其中包含能体现情感特征的参数。目前研究表明，某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的，仅有微小差别。因而，情感的变化能够通过语音的特征参数来反映。本发明的目的就是提取用户输入的语音并在相应模块中分析出其对应的特征参数，运用相关语音信号处理的理论进行处理，从而识别出对应的情感，通过对相应情感的分析提出一套对应的教学方案给特定的用户，使用户可以便捷高效地进行汉语学习。

发明内容

本发明的目的是通过下述技术方案实现的。

为了实现基于语音情感识别的远程汉语教学系统，将该系统分为六大部分：汉语发音练习模块、语音情感处理模块、语音情感分析模块、用户管理模块、学习效果分析评测模块、课程管理模块。

汉语发音练习模块是本系统的第一部分，用户在进行汉语学习时进行发音练习是必不可少的一项重要环节，它也成为进行语音情感处理的基础和前提，情感分析正是通过对这些发音中传来的语音信号进行处理得到的情感识别结果。

用户进行汉语学习过程中会进行发音练习，这些汉语发音作为用户的语音输入到系统中，在语音情感处理模块中把这些语音视为情感语音。对于这些语音提取它们的特征参数，包括基频(pitch)、能量(energy)、语速(speech rate)、共振峰频率(formant)、单个音节的持续时间(duration)、音节之间的停顿时间(pause)、线性预测系数(LPC)、Mel倒谱系数(MFCC)等，以及它们的各种变化形式，如最大值、最小值、均值、范围、变化率等，但是对于不同的发音状态需要的参数是不同的，运用模糊熵的理论来分析语音信号情感特征参数相对于识别情感模式的不确定度，并对特征参数进行有效性分析，通过分析筛选出十个对于情感分析最为有效的参数作为对语音情感信号进行处理的特征参数。将这些参数分成短时和长时特征两大类，对于短时特征运用隐马尔可夫模型(HMM)进行识别，而长时特征则采取支持向量机(SVM)的方式进行处理，针对传统的支持向量机分类器在一些特定情况下效果不理想的情况，结合模糊支持向量机(FSVM)进行识别处理。由此得到平静、高兴、惊奇、生气、悲伤五种情感结果。

语音情感分析模块是语音情感处理模块与用户管理模块连接的纽带。用户在学习过程尤其是发音练习过程中要被语音情感处理模块实时监控。在一段学习过程后，语音情感分析模块自动统计出现的语音情感种类和所占的比例后，收集语音情感处理模块中识别的结果，得到特定人在特定时间学习特定汉语教学内容在进行发音练习时的情感状态，再通过统计的方法计算用户的整体情感反应做出适合的学习评价发送到用户管理模块中。

用户管理模块包括课程内容学习，学习日志，教学策略反馈三部分。课程内容学习主要记录用户的学习历史信息，学习时间，学习环境，学习内容是否进行复习与测试等信息。学习日志记录用户对知识点的认知能力及总体学习进度等。教学策略反馈需要用户主动填写问卷调查以形成学习评价，来调整学习进度的教学方式。

所有这些信息会发送到学习效果分析评测模块，通过分析用户汉语发音的准确率和由语音情感分析模块传来的情感状态得到相应的学习评价。结合用户管理模块中的相关记录内容进行动态分析和处理统一发送到课程管理模块中。在模块间实时动态交互，保证用户资料的随时更新，另一方面可以及时调用对应特定学生特定状态的课程内容给用户。

课程管理模块包括课程内容设计，练习/测试设计，学生情况分析三部分。课程内容设计主要是系统生成知识树，由浅入深地设置汉语教学的学习内容，如拼音、字、词、句、语法等。练习/测试设计是相关试题的设计，试题应具有独立性，与知识树中的知识点相对应建立关联度，根据关联度选择进行某一知识点学习时需要的试题。学生情况分析通过用户基本信息和动态的学习信息的推理，为用户提供教学建议，同时控制整个教学过程的进行，即判断用户是否已达到一定的认知能力，能否进入下一步的学习等等。

相应的课程内容再次传递给汉语发音练习模块，当他再次进行汉语学习时语音情感处理模块再次分析他的情感状态并进入下一轮学习过程，如此周而复始地实现用户循序渐进地汉语学习过程。

语音情感处理模块和语音情感分析模块是本发明的主要技术特征，这两部分的实现过程是：

预处理

对于输入的情感语音信号首先要进行预加重处理。通常采用长度有限的窗函数来截取语音信号形成分析帧，窗函数ω(n)将需处理区域之外的样点置零来获取当前帧。汉明窗函数采用的窗长范围为[20，40]ms，窗移[5，10]ms，通常采用窗长为23.22ms(256点)，窗移10ms。这样，语音信号就被分割成一帧一帧加过窗的短时信号，然后再把每一个短时语音帧看成平稳的随机信号。在进行处理时，按帧从数据区中取出数据，处理完后再取下一帧，最后得到有每一帧参数组成的语音特征参数的时间序列。应用汉明窗函数可以进行提取能量、振幅及时间参数的操作。

情感参数的有效性分析

在语音情感分析中，必须利用所提取的情感参数来决定语音信号的情感归属，不同的情感参数对其情感区分的作用是不同的，因此有必要对所有的这些语音信号的情感特征参数进行有效性分析，以提高情感的识别效率。

首先要利用训练样本来确定不同参数相对于不同情感的隶属函数μ_jk，其中1＜j＜J，1＜k＜C，J为特征参数个数，C为情感类别数。隶属函数采用高斯形式。平均模糊熵的值越大，表示该特征参数相对该情感的不确定性越大，联合不同情感分辨率越好。选择隶属度最大的情感作为识别情感。不同的特征参数对于情感识别的有效性是不同的，其中能量和语句持续时间等参数对于所有的情感具有较小的平均模糊熵，具有较高的有效性，而最大第一共振峰具有较大的平均模糊熵，有效性较差。利用各参数的有效性差异，可以选择有效性高的参数作为情感识别参数。利用修正的模糊关系矩阵计算综合评价模糊集合V＝U*R′得到模糊关系矩阵，最后选择隶属度最大的情感参数作为识别情感的特征参数。

通过参数有效性分析，在系统中主要选择了用于情感识别的8个情感特征参数作为主要研究对象：语句发音持续时间、语速、基音频率、短时平均振幅、共振峰、短时能量、Mel频率倒谱系数、Mel能谱动态系数。通过对这些参数的均值、最大值、最小值以及变化率方面的研究，运用适当的识别方法来以得到用户情感的识别结果。下面简要介绍这些参数求取方法：

语句持续时间

分析情感语音的时间构造主要着眼于不同情感语音发话时间构造的差别，对情感引起的持续时间变化进行分析和比较。把平静与其他四种情感语音进行分类，计算出每一情感语句从开始到结束的持续时间，注意此时间段包括无声部分，因为无声部分本身对情感是有贡献的。最终把各种情感持续时间与平静时的比值以及语速作为最终识别参数。

基音频率

语音的能量来源于正常呼吸时肺部呼出的稳定气流，而通过声带的开启和闭合使气流形成一系列的脉冲，每开启和闭合一次的时间称为基音周期，其倒数称为基音频率，简称基频(F0)。考虑到基音频率在50-500Hz之间，而多分辨率分析有把频率逐级对分的特点，可用Mallat算法直接对语音信号进行分解，用低频小波系数对信号低频部分重构，然后用小波变换进行信号奇异点检测，通过奇异点确定得到基音周期。通过求倒数得到基音频率，再计算出F0平均值、F0最大值和F0变化范围(分别记为F0、F0_max和F0_range)。

对于基音周期的提取，采用了小波变换奇异点检测算法。选取具有紧支集正则的二次样条小波(x)。在每一个尺度s＝2^j上，信号分解为低半带S₂ ^j-1f和高半带W₂ ^j-1f。在同一尺度下，相邻极值点的时间间隔就是基音周期T。

由此得到基音周期序列T_i(i＝1，...，k)，而基音频率就是基音周期的倒数，求得基音频率序列F0_i(i＝1，...，k)；再计算出F0平均值、F0最大值和F0变化范围(分别记为F0、F0_max和F0_range)。

能量

计算语音信号每帧平均能量以及其能量轮廓的第一、二阶差分来模拟能量的瞬时值以及能量轮廓的变化情况。为了减小噪声带来的影响，先将语音通过SMA滤波器，其冲击响应的低通特性可以通过下面的傅立叶变化式表示，其中B代表滤波器的带宽：

H (f) = \frac{\sin (πfB)}{B \sin (πf)}

识别时可把情感语句的振幅平均能量、动态范围和相应的平静语句的振幅平均能量、动态范围的差值作为识别用的特征参数。

共振峰

共振峰是反映声道特性的一个重要参数。首先用线性预测法(LPC)求出14阶预测系数，然后用预测系数估计出声道特性的频率响应曲线，再用峰值检出法算出各共振峰的频率。识别时可把情感语句各帧的第一共振峰频率的平均值、前4个共振峰峰值的平均值以及前4个共振峰峰值点回归曲线的平均斜率和相应的平静语句的这些参数的差值，以及第一共振峰频率的变化率和相应的平静语句的比值作为识别用的特征参数。

Mel频率倒谱系数

Mel频率倒谱系数(MFCC)是在Mel标度频率域提取出来的倒谱特征参数，Mel标度描述了人耳对频率感知的非线性特性，它与频率的关系表达式：

Mel (f) = 1127 \log (1 + \frac{f}{700})

其中f为频率，单位为Hz。MFCC参数的提取过程中，三角滤波器的个数取20个，最终得到20维均值频率倒谱系数。

Mel能谱动态系数(MESDC)

Mel能谱动态系数就是首先通过快速傅立叶变换(FFT)方法估计每一情感短句的长时谱。再令其通过N个均匀分布在Mel频率尺度上的滤波器。计算每一个滤波器输出的对数平均能量(En(i)，i＝1，...，N)。之后如下两个式子所示，求En(i)的一阶和二阶差分：

ΔEn(i)＝En(i+1)-En(i)，i＝1，...，N-1

Δ²En(j)＝ΔEn(j+1)-ΔEn(j)，j＝1，...，N-2

最后联合得到MESDC特征矢量：

MESDC＝[En(1)...En(N)ΔEn(1)...ΔEn(N-1)Δ²En(1)...Δ²En(N-2)]

这里，N设为12。在输入到分类器之前，矢量中的每一参数都经过了一次线性归一化处理。

这个参数描述的是频谱的动态特性，也是语音情感的一个重要指示。同前面描述的时间动态特性相比，Mel能谱动态系数作为长时频谱包络描述了说话人发音的声道特征，是一种相对比较稳定，可以代表特定说话人发音特点的特征。一段语音的频谱特征的长时平均，蕴含在语音信号中的音韵特性逐渐消失，而与说话人相关的特定信息却得到了保留。因而通过利用这种特征，可以弥补单纯时间动态特性参数的不足。将它作为长时特征，在识别时进行单独处理。

另外，以上的参数分析都是基于客观可量化的参数分析，还有一大类是主观不可量化参数，主要包括音质和清晰度两项，主要是根据人的主观评价得出的结果，情感与语音参数的对应关系已在表1中列出，根据这些大略的实验结果，运用短时和长时特征分别处理的方法，以便得到更加精细的结果。

表1 情感与语音参数的对应关系

		平静	高兴	惊奇	生气	悲伤
		平静	高兴	惊奇	生气	悲伤	客观参数	语速	中速	快或慢	很快	略快	略慢
基频均值	略低	很高	略高	非常高	很低			语速	中速	快或慢	很快	略快	略慢
基频均值	略低	很高	略高	非常高	很低	基频范围		略宽	很宽	很宽	很宽	略窄
振幅	正常	高	略高	高	略低	基频范围		略宽	很宽	很宽	很宽	略窄
振幅	正常	高	略高	高	略低	基频变化		平滑	向上弯曲	平滑略向上	重读处突变	向下弯曲
共振峰频率	正常	略大	最大	略小	最小	基频变化		平滑	向上弯曲	平滑略向上	重读处突变	向下弯曲
共振峰频率	正常	略大	最大	略小	最小	主观参数		清晰度	清晰	正常	可分辨	绷紧	含糊
音质	正常	呼吸声、鸣叫声	鸣叫音、胸腔声	呼吸声、胸腔声	嘟囔、共鸣声			清晰度	清晰	正常	可分辨	绷紧	含糊

情感分析语音资料的选择和获取

对语料库选取主要考虑以下几个方面：首先，必须具备高度的情感自由度；其次，对同一个语句应能施加各种情感进行分析和比较，即所选择的语句不包含某方面的情感倾向；最后，对语句的长度、发音的长度、不同发音人的个体及性别差异都应有所考虑。根据以上原则：选用汉语教学课程中的词句作为情感分析用的语音资料，用多位善于表演的说话者运用五种情感对每个词句发音多遍，提取其特征参数，得到每个样本的特征参数矢量，以供在后面的识别阶段使用。

采用一组基于短时特征的序列与隐马尔可夫模型的识别方法，和基于一组长时特征的矢量与支持向量机(SVM)的识别方法分别进行处理。在基于短时特征的方法中，通过对大量候选特征参数的研究和特征选择，选出了一个相对最优的八维特征矢量。在基于长时特征的方法中，提出了一个能够反映Mel频率尺度上子带能量分布及其动态特性的矢量作为情感特征矢量来区分五种情感。

基于短时特征的情感识别

语音的韵律特征是用户情感状态的一个重要指标，它可以捕捉语音在时间轴上的动态特征。一些对情感语音的研究表明，基音频率(F0)、短时能量、前三个共振峰频率(F1到F3)、两个Mel频率倒谱系数(MFCC)和五个Mel频率子带能量(MBE₁到MBE₅)以及它们的一阶和二阶导数等都可以作为情感识别的参数。一般使用的每一帧短时特征矢量为(也可以视具体效果而定)：

F_0i，

F_1i，E_i，

其中i表示第i帧，八个特征分别为：基音频率F_0i以及它的一阶导数和二阶导数，第一共振峰频率F_1i以及它的一阶导数，能量E_i以及它的一阶导数和二阶导数。

由于在描述语音的情感特征时，不同参数所起的作用有所不同，所以给每个特征参数分别乘以不同的权重，然后每帧的特征参数分别组成一个八维的特征矢量，其中ω_i表示权重，并且有

Σ_{i = 1}^{8} ω_{i} = 1,

ω_i一般取经验值。即得到每帧的八维特征向量：

(ω₁×F_0i，

ω_{2} \times \frac{{dF}_{0_{i}}}{dt},

ω_{3} \times \frac{d^{2} F_{0_{i}}}{d t^{2}},

ω₄×F_1i，

ω_{5} \times \frac{{dF}_{1_{i}}}{dt},

ω₆×E_i，

ω_{7} \times \frac{{dE}_{i}}{dt},

ω_{8} \times \frac{d^{2} E_{i}}{{dt}^{2}}

)短时特征情感识别的分类器设计

利用隐马尔可夫模型(HMM)进行语音情感识别，必须为每种情感状态分别建立一个HMM模型，即一种情感类型要用一个HMM加以描述，这要通过应用大量的情感语音进行模型学习和训练来完成。对于任一要识别的情感语音首先通过分帧、参数分析和特征参数提取，可以得到每帧的特征参数序列X₁，X₂，...，X_T(T为观察值的时间长度，即帧数)，而每帧的特征向量就是前面提取的短时特征矢量。

鉴于状态数对系统的识别率以及复杂度的影响，给每个模型一般采用了5-8种状态，每个状态用4个混合高斯分布来估计输出概率密度函数，把提取的每种情感的特征参数依次输入每个HMM模型，通过Baum-Welch算法进行训练，通过设定最大迭代次数和输出概率的最小相对变化量来结束每个模型的训练，最后即得到了每种情感的HMM模型。

基于长时特征的情感识别

除了上述参数外，频谱的动态特性也是语音情感的一个重要指示。语音的频谱特征的统计参数信息经常作为一种与文本无关的特征参数，其中包括频谱特征的平均值、方差值等。而其中长时频谱(短时频谱的长时平均)包络特征参数更受到了人们重视。本发明从语音在频率尺度上的动态特性出发研究情感的识别，考虑使用一个称为美尔能谱动态系数(MESDC)的特征矢量作为长时特征的一个主要参数。它可以去除声门和唇辐射的影响，将寂静段或噪声段予以删除。

长时特征情感识别的分类器设计

由于针对时间动态特性的连续HMM结构选择为从左到右的结构模型，每个状态采用的状态数越多，通过训练得到的模型的识别率提高，但同时运算量增大，大大增加了系统复杂度，鉴于状态数对系统的识别率以及复杂度的影响，考虑采用支持向量机(SVM)的方法对长时特征进行情感识别。支持向量机是20世纪90年代由Vapnik和Chervonenkis等人提出的，来源于统计学习理论的一种新的数据分类技术。其主要思想就是通过一个非线性变换将原始的数据空间变换到另一个高维的特征空间。并在新的空间实现最优分类。这正体现了利用它进行长时相对静态特性分析的需要。

对于两类问题，设线性可分样本集为(x_i，y_i)，i＝1，...，n，x∈R^d，y∈{1，-1}。d维空间线性判别函数为：g(x)＝ω·x+b，分类面方程为：ω·x+b＝0，将判别函数归一化，使所有样本满足|g(x)|≥1，离分类面最近的样本|g(x)|＝1，于是分类间隔为2/‖ω‖，间隔最大则‖ω‖最小。而分类面对样本正确分类需满足：

y_i[ω_i·x+b]-1≥0，i＝1，...，n

因此最优分类面问题相当于满足上式条件下求

的最小值。定义Lagrange函数：

L (ω, a, b) = \frac{1}{2} {| | ω | |}^{2} - Σ_{i = 1}^{n} a_{i} {y_{i} [ω_{i} \cdot x + b] - 1}

其中a_i≥0为Lagrange乘数。分别对ω，b求偏微分且令其为零，则原问题等价于在条件：

Σ_{i = 1}^{n} a_{i} y_{i} = 0, a_{i} &GreaterEqual; 0, i = 1, . . ., n

下求

Q (a) = Σ_{i = 1}^{n} a_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} a_{i} a_{j} y_{i} y_{j} (x_{i} \cdot x_{j})

的最大值。求得最优分类面的权系数为

ω^{*} = Σ_{i = 1}^{n} a_{i}^{*} y_{i} x_{i},

其中a_i ^*为上式最优解。

此时的最优分类函数为：

f = sgn {Σ_{i = 1}^{n} a_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*}}

上式的最优分类函数以及求解过程只涉及样本之间的内积运算(x_i·x_j)。另外，如果一个问题在原空间不是线性可分，可以通过非线性变换转换φ(x)转到另一个空间。即

x_i·x_j→φ(x_i)·φ(x_j)

具体可以通过核函数K(x_i·x_j)＝φ(x_i)·φ(x_j)的选择来实现。此时的Q(a)为：

Q (a) = Σ_{i = 1}^{n} a_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} a_{i} a_{j} y_{i} y_{j} K (x_{i} \cdot x_{j})

最优分类函数为：

f = sgn {Σ_{i = 1}^{n} a_{i}^{*} y_{i} K (x_{i} \cdot x) + b^{*}}

对于线性不可分的问题，引入一个松弛项ξ_i≥0

y_i[ω_i·x+b]-1+ξ_i≥0，i＝1，...，n

则最优分类面问题相当于在上式条件下求

φ (ω) = \frac{1}{2} ω \cdot ω + C Σ_{i = 1}^{n} ξ_{i}

的最小值，其中C为某个常数，称为惩罚函数。

对于系统中五类情感识别问题，常用的实现方法有“一对多”与“一对一”方法。“一对多”方法设计K(这里取五)个两类分类器，每一个分类器将某类别的训练数据与剩余K-1个类别数据分开。而“一对一”方法设计K(K-1)/2个分类器，每两个类别之间都有一个分类器，分类时哪个情感类别得票最多则数据被判为哪类。

在许多实际应用问题中，不同的训练样本点对分类的影响程度是不同的。一般来说，训练集中存在某些点对分类结果的影响很大，而同时也存在一些点对分类结果的影响很小，甚至是微不足道的。因此在处理分类问题时，必须将那些“重要的点”正确分类，并且可以忽略那些“微不足道”的点，如带有“噪声”的点或距离类中心很远的孤立点。为了克服传统支持向量机的拒分和误分陷阱，对每一个样本点x_i引入一个与之相对应的模糊隶属度0＜s_i＜1可以认为是x_i隶属于某一类的程度，而1-s_i则是x_i无意义的程度。这样扩展了模糊隶属度的SVM称为模糊支持向量机(FSVM)。在SVM不能准确识别的情况下它显示了更好的识别性能。

在语音情感识别模块中主要是进行了客观参数的分析和处理得到了由语音情感信号的客观评价结果，而情感更多的是一种人性化的体现，所以在语音情感分析模块中要结合主观参数，运用人工智能中的相关推理演算技术，将主客观进行有机融合互相补充，分析处理得到一个可供教学系统进行个性化指导的识别结果来，例如，平静时分析结果为学习效果很高，就分配相对难一些的课程。

本发明的有益效果是改变了现有的远程汉语教学系统只能根据学生的一些行为如鼠标点击行为，分析教学策略实现交互。本发明中将用户情感的语音表现作为重要的反馈信号，无需用户单独输入语音，一切识别过程都是通过用户在汉语发音训练过程中自然流露所体现出的情绪变化，进行分析处理得到相应的情感识别结果，根据此结果分配不同的课程，有效地解决情感交流匮乏的问题，同时上述过程无需用户刻意输入，完全是发音时情感的真实体现，所得结果客观高效，使用户的学习效率始终保持在一个巅峰的状态，真正意义上实现了教学内容随着用户的情感脉络波动。让用户充分感受到学习的无限乐趣变被动学习为主动学习。

附图说明

图1为本发明汉语教学系统框图；

图2为输入语音信号的处理框图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步描述。

如图1所示，用户的情感语音信号通过用户在汉语发音练习的过程中提取出来，通过语音情感处理模块得到相应的情感识别结果，由语音情感分析模块对结果进行分析推理，结合用户管理模块中的相关信息，在学习效果分析评测模块中得到的学习评价，由课程管理模块选取相应课程进行学习，在新一轮的发音练习过程中又可以提取情感参数，进行情感分析，从而实现动态实时交互式学习，有效提高用户的学习效率。

结合图1和图2，下面对具体实施过程分模块进行描述。

一、汉语发音练习模块

此模块中会实时收集用户在学习过程中的汉语发音，得到相应的语音信号，计算全局结构特征参数：语句发音持续时间、语速，并进行预加重、分帧、加窗处理。

分析情感语音的全局时间构造主要着眼于不同情感语音发话时间构造的差别，对情感引起的持续时间变化进行分析和比较，计算出每一情感语句从开始到结束的持续时间，注意此时间段包括无声部分，因为无声部分本身对情感是有贡献的。最终把各种情感持续时间作为最终识别参数。

计算每段情感语句的音节个数，采用音节个数作为分子，除以整段语句的发音持续时间，得到此段语句的语速，作为识别用的特征参数。

然后对输入的原始语音信号进行预加重，一般通过一个传递函数H(Z)＝1-αZ^-1的滤波器对其加以滤波，其中α为预加重系数0.9＜α＜1.0，一般为0.95、0.97或0.98。假设在n时刻的语音采样值为x(n)，则经过预加重处理后的结果为

y(n)＝x(n)-αx(n-1)(0.9＜α＜1.0)

语音具有短时平稳特点，通过对语音进行分帧操作后，可以提取其短时特性，从而便于模型的建立，这里一般取帧长为23.22ms(256点)，帧移10ms。

然后用每帧信号用汉明窗相乘，以减小帧起始和结束处的不连续性，采用的汉明窗函数为

ω (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1}) (0 \leq n \leq N - 1)

其中N为当前语音帧的采样数。

二、语音情感处理模块

此模块主要是对上面模块所提取出来的每帧语音信号提取其相应的时域和频域的特征参数，并将它们分为短时和长时特征分别进行训练和识别得到相应的情感识别结果。

(一)参数有效性分析

首先要利用训练样本来确定不同参数相对于不同情感的隶属函数μ_jk，其中1＜j＜J，1＜k＜C，J为特征参数个数，C为情感类别数。隶属函数采用高斯形式。

平均模糊熵的值越大，表示该特征参数相对该情感的不确定性越大，联合不同情感分辨率越好。选择隶属度最大的情感作为识别情感。不同的特征参数对于情感识别的有效性是不同的。利用各参数的有效性差异，可以选择有效性高的参数作为情感识别参数。利用修正的模糊关系矩阵计算综合评价模糊集合V＝U*R′得到模糊关系矩阵，最后选择隶属度最大的情感参数作为识别情感的特征参数。

(二)时域特征参数

基音频率

为了分析情感语音信号的基频构造特性，首先求出情感语音信号平滑的基频轨迹曲线，再分析不同情感信号基频轨迹曲线的变化情况，本发明利用小波变换法算出基音周期，其倒数便是基音频率。基频平均变化率指各帧语音信号的基频差分绝对值的平均值。识别是可以把情感语句的基频平均值、最大值和相应的平静语句的基频平均值、最大值的差值作为识别用的特征参数。同时把基频变化率和相应的平静语句的基频变化率的比值作为识别用的特征参数。

能量

语音信号的能量构造特性可以用其短时平均能量来代表。求取每帧语音信号的短时能量，分析随时间的变化情况。且为避免发音中的噪音的影响，只考虑短时平均能量超过某一阈值时绝对值的平均值。识别时可以把情感语句的平均能量，最大能量差值作为最终识别参数。

共振峰

共振峰是反映声道特性的一个重要参数，不同情感的发音可能使声道有不同的变化，所以能预料到不同情感发音的共振峰位置不同。首先用线性预测法(LPC)求出14阶预测系数，然后用预测系数估计出声道特性的频率响应曲线，再用峰值检出法算出各共振峰的频率。识别时可把情感语句各帧的第一共振峰频率的平均值、前4个共振峰峰值的平均值以及前4个共振峰峰值点回归曲线的平均斜率和相应的平静语句的这些参数的差值，以及第一共振峰频率的变化率和相应的平静语句的比值作为识别用的特征参数。

(三)频域特征参数

Mel频率倒谱系数

将时域信号后补若干0后形成长为N(一般取512)的序列，经过快速傅立叶变换(FFT)得到线性频谱X(k)，将其通过Mel频率滤波器得到Mel频谱，通过对数能量的处理得到对数频谱S(m)，将此对数频谱经过离散余弦变换(DCT)变换到倒频谱域，即可得到Mel频率倒谱系数c(n)：

c (n) = Σ_{m = 1}^{M - 1} S (m) \cos (\frac{πn (m + 1 / 2)}{M}) (0 \leq m < M)

Mel能谱动态系数(MESDC)

Mel能谱动态系数就是首先通过快速傅立叶变换(FFT)方法估计每一情感短句的长时谱。再令其通过N个均匀分布在Mel频率尺度上的滤波器。计算每一个滤波器输出的对数平均能量(En(i)，i＝1，...，N)。之后联合得到MESDC特征矢量：MESDC＝[En(1)...En(N)ΔEn(1)...ΔEn(N-1)Δ²En(1)...Δ²En(N-2)]这里，N设为12。在输入到分类器之前，矢量中的每一参数都经过了一次线性归一化处理。

(四)短时特征的训练和识别——隐马尔可夫模型(HMM)

基于HMM模型的情感语音识别系统中，假设的课程管理模块词汇表中包括V个词条，每个词条存在若干遍训练数据。利用这些情感数据建立一个HMM模型λ_V＝f(a_V，A_V，B_V)(v＝1，2，...，V)。识别时，对于每个待识别的语音，可以得到一个观察矢量序列Y＝[y₁，y₂，...，y_N]，其中N为输入语音所包含的帧数。语音识别过程是计算每个HMM模型λ_V产生Y的概率P(Y|λ_V)，并使得该概率达到最大的HMM模型，那么该模型所对应的词条即为相应的识别结果，即：

\hat{v} = \underset{v = 1,2, . . ., V}{\arg \max} [P (Y | λ_{V})]

针对语音信号特点，每个语音条目的时序关系可以通过状态的前后关系来确定。在系统中，一般采用无跳转或有跳转的自左向右HMM模型结构。至于HMM模型的状态个数的确定没有明确的规则，通过实验加以经验性的确定，一般把状态个数取为4-8之间可以取得较好的识别效果，一般取为6认为识别效果最好。

其次还需要确定是使用离散的HMM还是连续的HMM。如果选择离散的HMM，则需要对观察矢量进行矢量量化(VQ)处理以得到离散的码本标号，确定VQ的码本容量大小，一般取值为64、128或者256。如果选择连续的HMM，则一般使用具有混合高斯密度函数的HMM模型，此时需要确定模型的高斯混合数M，一般取M＞5即可保证识别效果。

(五)长时特征的训练和识别——支持向量机(SVM)

单个支持向量机是一个二分模式的分类器，对SVM的训练是在训练样本中寻找支持向量x_i(i＝1，2，...，n)、支持向量权值系数a_i和偏移系数b_i；从课程管理模块库中的高兴、生气、悲伤、惊奇、平静五种情感语句作为训练样本；将训练样本的特征参数向量和SVM输出参数作为训练集，核函数是高斯函数，分别训练五个支持向量机，得到相应的情感识别结果。

在处理分类问题时，必须将那些“重要的点”正确分类，并且可以忽略那些“微不足道”的点，如带有“噪声”的点或距离类中心很远的孤立点。为了克服传统支持向量机的拒分和误分陷阱，对每一个样本点x_i引入一个与之相对应的模糊隶属度0＜s_i＜1可以认为是x_i隶属于某一类的程度，而1-s_i则是x_i无意义的程度。这样扩展了模糊隶属度的SVM称为模糊支持向量机(FSVM)。在SVM不能准确识别的情况下它显示了更好的识别性能。

三、语音情感分析模块

在语音情感处理模块中，对情感语音信号分为短时和长时特征分别运用隐马尔可夫模型和支持向量机的方法进行处理，得到用户的情感识别结果，主要分为：平静、高兴、惊奇、生气、悲伤这五种情感，并根据这五种情感状态分析分别对应不同的课程内容。具体处理过程如下：

1.平静：平静是五种情感中最利于学习的一种情感，评价它的学习状态为高效，在这种情感的指导下系统分配相对较难的课程，同时兼顾难易相当，使学习者能够在一个相对长的时间里保持这种高效的学习状态。

2.高兴：高兴是学习者的精神状态处在高度亢奋状态，评价它的学习状态为快速，这时学习的热情高但在一定程度上难以以平静的心态进行深入学习。所以在语音情感处理模块的识别结果为高兴时，系统会分配一些在学习者平时容易读错的词语进行反复练习，和一些简单的新词语进行学习，同时根据每次发音的情感变化进行动态调整。

3.惊奇：对于这种情感，评价它的学习状态为一般，系统会为他分配平缓的语句使他的心境渐进地进入到比较缓和的状态，以利高效学习。

4.生气：在语音情感处理模块中的识别结果为生气时，评价它的学习状态为慢速，语音情感分析模块对其情感进行分析，在学习效果分析评测模块中分配相对难度适中，词或者句意感情色彩相对平缓、欢快的汉语语言进行学习，并实时反馈学习效果给语音情感处理模块，监控每次输入词语时学习者情感变化，动态调整学习内容。

5.悲伤：当检测结果为悲伤时，说明学习者的状态处于一种消极和低沉的境况中，评价它的学习状态为停滞，这时如果让他学习晦涩难懂的语句显然是无法激起他的学习兴趣的，所以分配一些时令新词、欢快的诗歌或者歌曲让他学习和欣赏，逐步调整他的心态，使之逐渐进入较好的学习状态。

四、用户管理模块

用户管理模块包括课程内容学习，学习日志，教学策略反馈三部分。通过对用户基本信息和动态的学习信息的推理，为学生提供教学建议，同时控制整个教学过程的进行，判断用户是否到达一定的认知能力，是否进入下一步学习等。还可以根据用户选择的学习目的和学习历史记录进行自适应诊断。

五、学习效果分析评测模块

所有这些用户管理模块中的信息会发送到学习效果分析评测模块，通过分析用户汉语发音的准确率和由语音情感分析模块传来的情感状态得到相应的学习评价。结合用户管理模块中的相关记录内容进行动态分析和处理后统一发送到课程管理模块中。在模块间实时动态交互，保证用户资料的随时更新，另一方面可以及时调用对应特定学生特定状态的课程内容给用户，根据用户的反映情况来估测用户能力和知识掌握程度。

六、课程管理模块

Claims

1.一种基于语音情感识别的远程汉语教学系统，其特征在于：该系统包括汉语发音练习模块、语音情感处理模块、语音情感分析模块、用户管理模块、学习效果分析评测模块、课程管理模块六个部分；用户在进行汉语语音课程学习的过程中要练习汉语发音，这些语音信号在经过汉语发音练习模块时进行预处理，得到相应便于分析的情感语音信号，在语音情感处理模块中进行实时监控；当汉语的发音输入语音情感处理模块后，对于带有一定情感的语音，进行情感参数有效性分析后提取出有具有典型特征的语音情感特征参数，再将这些参数分为短时特征和长时特征分别进行处理，运用相应的语音情感识别模型和分类器进行平静、高兴、惊奇、生气、悲伤的五种情感识别；语音情感分析模块根据从语音情感处理模块收集到的情感信息识别结果，为特定用户做出适合的学习状态评价；然后通过语音情感分析模块进入用户管理模块，在用户管理模块中记录的用户信息会发送到学习效果分析评测模块中，通过由课程管理模块调用相关的课程资料，用户就可以根据自身水平及时调整学习进度，得到适合自身水平的学习资料。

2.根据权利要求1所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：汉语发音练习模块对用户输入的语音数据进行预处理，滤除掉其中的不重要信息和背景噪声等；进行语音信号的端点检测，即判定语音有效范围的开始和结束位置，进行语音的分帧、预加重、加窗的工作；帧长20-40ms，帧移5-15ms；对语音高频部分进行加重，增加的高频分辨率，预加重系数一般为[0.9，1.0]。

3.根据权利要求1所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：语音情感处理模块对输入的语音数据进行参数有效性分析、特征提取、短时特征的训练识别、长时特征的训练识别这四部分处理，得到不同语音情感信号所对应的情感。

4.根据权利要求1和3所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：所述的参数有效性分析运用平均模糊熵的值，选择隶属度最大的情感参数作为识别情感的特征参数。

5.根据权利要求1和3所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：所述的特征提取分别选取全局结构特征参数：语句发音持续时间、语速，分帧处理后的时域结构特征参数：基音频率、短时平均振幅、共振峰、短时能量，频域结构特征参数：Mel频率倒谱系数、Mel能谱动态系数作为情感语音信号处理的特征参数。

6.根据权利要求1和3所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：所述的短时特征的训练识别选取发音持续时间、语速、基音频率、短时平均振幅、共振峰、短时能量、Mel频率倒谱系数作为短时特征参数，运用隐马尔可夫模型(HMM)的方法进行训练和识别。

7.根据权利要求1和3所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：所述的长时特征的训练识别选取Mel能谱动态系数作为长时特征参数，运用支持向量机(SVM)的方法进行训练和识别，对于训练集中某些对分类结果的影响很大的点采用模糊支持向量机(FSVM)进行处理。

8.根据权利要求1所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：语音情感分析模块根据不同人的学习记录和由语音情感处理模块得到的情感状态通过统计方法计算用户的整体情感反应，得到不同情感用户对应的情感状态；当用户处于平静时他处在一种高效的学习状态里，语音情感分析模块会通知用户管理模块分配给用户相对较难的课程；当用户处在高兴时在一种快速的学习状态的指导下，系统会分配一些在学习者平时容易读错的词语进行反复练习；当用户在惊奇状态中，学习状态识别为一般，语音情感分析模块会告知用户管理模块分配平缓的汉语语句进行练习调整情感状态；如果语音情感识别结果为生气时，语音情感分析模块认定学习状态为慢速，用户管理模块分配难度适中，词或者句意感情色彩相对平缓、欢快的汉语语言进行学习；如果用户处在悲伤状态下，学习状态处于停滞，用户管理模块根据这种情况只能分配时令新词、欢快的诗歌或者歌曲让用户学习和欣赏，以期逐步调整他的情感状态。

9.根据权利要求1所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：所述的用户管理模块将语音情感分析模块的用户信息导入，根据其分析结果，转化成相应的评价参数，同时结合该用户前一次的学习记录得到学习评价，一起传递给课程管理模块，此模块中接受评价参数和该用户前一次学习记录进行相应的课程调整，从课程管理模块中搜索出适合该用户水平的学习资料。

10.根据权利要求1所述的一种基于语音情感识别的远程汉语教学系统，其特征在于：学习效果分析评测模块对用户的学习情感状态和过往的学习记录进行综合分析评价；或课程管理模块存储用户学习的相关资料。