发明内容:
本发明为了解决传统的人机对话教学通常只利用单纯的语音识别技术,识别率低、抗噪能力差,语言培训软件产品主要还是处于特定行业的中英文语音合成信息和口语评测状态,在智能纠错互动方面无法满足学习和交流需求的技术问题,提供了一种具有智能纠错功能的交互式虚拟教师系统,它包括音视频数据采集模块、信息识别模块、纠错评价模块、教学策略模块和数据库。所述音视频数据采集模块,通过视频音频两路传感器采集学习者面部图像和声音信号;再由信息识别模块,辨识经融合后的学习者口型、发音内容和情感;由纠错评价模块,从标准口型发音数据库中提取与之对应的标准口型和发音数据,自动评断学习者的发音和口型,并在互动交流中,自主选择恰当的时机反馈给学习者与标准发音口型间的差异信息、差异产生原因,指导学习者如何纠正;再由教学策略模块根据纠错评价模块对学习者的评断数据和情感状态,制定出师生一对一互动的个性化教学实施方案,形成具有智能纠错功能的可视化互动人机对话学习平台。
本发明的特点及有益效果:运用先进的语音识别技术和图像识别技术实现具有智能纠错功能的虚拟教师,形成智能可视化互动人机对话学习系统。该系统利用语音情感多源信息交融加上虚拟教师视频交互纠正英语发音。将语音识别和基于视觉的图像处理技术结合,提高了系统的识别率、鲁棒性;此外,系统加入了动画演示功能,实现交互模拟、实时沟通的学习模式,弥补了声音教学的枯燥性,提高了学习的趣味性和准确性。
该系统至少有三种语音输出格式由学习者设定,并且能直接导入学习者自定义语音。学习者可存储视频对话文件,音频对话文件和文本文件,以备查询。
学习者可以自定义输入性别、年龄、地域、英语掌握程度等信息,减少程序判断负担。
所述信息识别模块在识别过程中包括语音信息、口型信息和情感信息的相互融合,结合预先输入的学习者年龄、性别、民族和省份等信息学习的情绪,有效提高识别速率和准确率。
语音和情感特征的融合研究表明语音信号中的音质特征也包含情感信息,情感不同发音方式及声音韵律也不同,从而可以根据声学特征参数识别人类的三种以上的基本情感,如高兴,生气,惊奇等。根据语音与情感的对应关系,一是判断学习者当前的学习状态及时改变教学内容;二是模拟各种情景,提供表演式朗诵范例或进行角色扮演。
教学策略模块根据学习者成绩和学习者情绪自适应调整交互训练学习的难度,若学习者情绪不高,降低交互学习训练的难度;若学习者情绪积极,缓慢提高互学习训练的难度;若学习者情绪平稳,保持交互学习训练的难度;若学习者情绪积极,缓慢提高互学习训练的难度。同时在动画演示时加入情感激励信息,鼓励激发学习者的学习热情。
纠错评价模块实现了虚拟教师与学习者智能互动学习的过程:虚拟教师根据学习者的发音口型判断学习者的发音口型是否准确,结合专家知识库,对偏差纠正调理,以文字形式反馈给学习者发音不准确的原因和改正办法,并作标准的音像示范,学习者纠正发音的结果反馈回教师,教师再次进行识别判断,根据当前观测信号(即学习者发音口型)与标准信号(标准发音口型)之差递进反馈,在线自适应调整,用文字声音动画多种形式明确偏差的差异点、差异度及如何纠正,力求将学习者的偏差控制在理想的容许范围内,递进式智能纠正观测错误,形成完全自动闭环反馈模式的智能纠错,如此循环往复,直至教师认为学习者的发音口型已经标准,本次学习内容结束,可以进入下一阶段的学习。
判定学习者发音口型已经合格的标准是将当前观测信号与标准信号之差量化为百分制,各项分数达到95分以上为合格。包含的各项指标具体为:口型分、发音分、情绪分、综合分,其中发音分还可进一步细分为声学分数、韵律分数和感知分数三部分。各项分数可输出到显示屏,供学习者参考。同时虚拟教师将学习者的成绩存入学习者档案,作为今后教学策略调整的依据。
纠错评价模块中,虚拟教师着重解决学习者由于受生活地域影响,语言发音中特有的不标准的发音习惯,虚拟教师,根据学习者地域特点可以预判学习者可能出现的语音错误,据此选择相应的课程进行针对性指导。
学习者可以根据自己的需要选择虚拟教师作标准口型发音的三维多视角动画示范,包括舌、齿等口腔内的细节演示。融入图像特征,结合预先输入的性别年龄等信息,软件也可以自主选择设计一个与学习者容貌和声音特质相近的虚拟教师,同时可以实时将学习者的发音唇形叠加显示到正确唇形上,直观比较两者差异,还可观察虚拟教师与学习者的声音波形对比图,经过量化的口型发音的各项分数,配以教师指导意见和评语,形象直观的了解自己发音不正确的原因、错在哪里、如何纠正,纠正后的发音口型是否达到了教师的要求。所有的口型发声表情演示及相关文字说明动态同步。
融合区域发音特征。中国地域广阔,各区域发言和发音特征显著不同,适应各地发音习惯的语音和唇形语料极度缺乏,当前软件一般只能保证官方语言说得好的用户才可以在对话练习、发音纠错方面取得相对满意的成绩,因此本发明建立不同地域发音习惯的语音和唇形语料数据库,可以提高系统的适应性,对不同个体特征进行针对性的教学辅导。
具体实施方式
参看图1,具有智能纠错功能的交互式虚拟教师系统,它包括音视频数据采集模块、信息识别模块、纠错评价模块、教学策略模块和数据库。通过所述音视频数据采集模块的视频音频两路传感器,采集学习者面部图像和声音信号;再由信息识别模块,辨识经融合后的学习者发音内容,如口型,面部和心理情感;由纠错评价模块,从标准口型发音数据库数据中提读取与之对应的标准口型和发音数据,自动评断学习者的发音内容、口型是否标准,根据偏差信息结合专家知识,确定偏差产生原因、所属类型、改正方法,进而以文字说明的形式反馈给学习者,帮助其改正偏差,递进式智能纠正学习者的音频和视频口型错误,同时虚拟教师辅以标准口型发声多视角动画演示、声音波形对比图、口型重合对比图等形式直观提示学习者如何正确发音,音像文字多种技术手段结合,错误根源分析、改正方法等的具体解释说明与分数、评语、动画演示动态同步,形成完全自动闭环反馈模式的智能纠错;再由教学策略模块根据纠错评价模块对学习者的评断数据,制定出师生一对一互动的个性化教学实施方案,让学习者反复练习,以提高个人的语言会话水平,同时虚拟教师可根据学习者情绪和学习成绩分析随时调整教学内容。
用于采集音频和视频信号的传感器没有特殊限定,可以是学习平台自带的,如智能手机本身带有的摄像头和录音器,也可以是自配的摄像头和麦克,只要其接口能与学习者使用的学习平台匹配即可。摄像头采集学习者的面部图像,学习者可预设参数,确定采集的图像分辨率,采集图像范围是整个面部还是只有唇部区域,系统默认采集区域为唇部区域;麦克采集学习者声音。然后由信息识别模块对采集到的声音和图像两路原始信息进行预处理、唇部区域检测、唇动跟踪和定位、特征提取、特征融合、训练进而识别出语音口型和情绪。
参看图2本发明中信息识别模块的结构示意图,做进一步描述。图中虚线部分表示该部分不是必需处理的。
对原始信息的预处理包括声音和图像两路信息数字化预处理。其中图像信息的预处理首先用图像增强算法去除噪声,然后根据采集模块的预先设定值确定采集的图像范围是整个人脸还是唇部区域,若采集的是整个人脸,则需要首先从人脸中确定出唇部区域,本发明采用基于人脸结构特征的方法,首先确定眼睛和鼻孔的位置,再根据眼睛鼻孔的位置信息确定嘴唇的大致范围,然后采用基于运动目标的检测方法准确跟踪定位发音时口型的运动变化过程。对声音信息的预处理首先采用视觉通道的唇动信息区分语音和非语音信号时段,再利用去噪滤波技术去除信道噪声和所有可能的背景加性噪声,获得尽可能纯净的学习者声音信号。
预处理后的图像和声音信号提取特征供系统训练识别,提取的特征信息包括初级特征:语音特征、唇型特征、面部特征(采集的图像范围是整个人脸时)和高级特征:情感特征;其中初级特征是从预处理后的音频视频传感器采集的语音图像信息中提取出来的,高级特征不能从传感器采集的信息中直接获得,而是各初级特征中的隐含信息,由基于专家知识的信息融合技术生成的。各初级特征中语音特征具体包括声学特征、韵律特征和感知特征三类特征,例如反应基本声音信息的LPCC(Linear Predictive Cepstral Coefficient,线性预测倒谱系数)特征参数、MFCC(Mel Frequency Cepstral Coefficient,梅尔频率倒谱系数)特征参数,与情感、唇动相关的一次共振峰和二次共振峰、能量、说话速率等特征参数;唇型特征包括与语音、情感相关的内外唇唇线轮廓特征、嘴唇变化速率、人脸侧面图像的嘴唇突出度动态变化特征、口腔内的舌头和牙齿位置变化特征等;面部特征包括眼睛、鼻子、口型的整体轮廓关系特征,面部特征不是必需提取的特征,但如果学习平台的传感器能保证采集图像分辨率的要求,则加入该特征可进一步提高虚拟教师识别学习者情感的识别准确率和识别速度。高级特征情感特征由学习者的声学特征、韵律特征和感知特征、唇线轮廓特征隐含的潜在信息和面部特征融合而成的。训练识别采用人工智能神经网络方法,首先建立训练集样本训练网络,建立朗读内容与语音、唇型、面部表情、心理情感间的对应关系,网络训练好后,即可用于识别任务,将使用者的所有特征作为多权值神经元网络的输入层,输出层为要识别的内容,使得虚拟教师可以实时准确地识别出学习者当前的发音内容、发音口型、情感状态,即完成语音口型情感三重识别。虚拟教师将识别出的学习者发音与之对应的口型变化和当前情绪作为一个整体记录,并输出到纠错评价模块,以便与标准发音和口型比较寻找差异、分析解释错误原因、错误所属类型、改正方法,同时参考学习者情绪,给出发音口型修正建议,评价分数和直观的多视角发音口型演示比对图。
参看图3本发明的发音口型差异解释纠正流程图,本发明的纠错重点是自主分析错误根源,提供改正意见,指导学习者有意识的修正不准确的发音口型。具体描述如下,首先把识别出的学习者的语音口型和标准的语音口型的所有特征参数放在一起分类比较,寻找它们之间的差异点并计算差异度,如果差异度超过了容忍的阈值范围,则认为学习者的语音口型错误或不标准,需要纠正;然后根据差异点利用专家知识对错误进行描述,最后解释错误,其中解释错误的关键是根据描述结果分析错误的根源,属于什么类型,回答为什么会犯这样的错误,如何改正。
参看图4本发明纠错评价模块中的智能纠错闭环反馈系统原理图,从数学模型的角度对发音口型差异解释纠正流程做进一步描述。图4中y(t)为当前观测信号,即识别出的学习者声音和口型;r(t)为标准信号,即数据库中给定的标准声音和口型;e(t)为观测信号与标准信号的差,即偏差信号。该系统的关键在于根据当前观测信号与标准信号之差,确定差异点和差异度,进而结合专家知识描述错误、解释错误,即将量化的差异数字信息转化为对应的可以理解的文字信息,把学习者错误产生原因、所属类型、改进方法递进反馈给学习者,指导其缩短与标准口型发音间的偏差、递进式智能改正学习者的声音和口型错误,达到完全自动闭环反馈模式的智能纠错。具体数学模型及智能控制纠错算法如下:
(1)e(t)=y(t)-r(t) (1)
(2)E(s)=L[e(t)],L为拉普拉斯变换 (2)
(3)Y(s)=G(s)E(s) (3)
(4)y(t)=L-1[Y(s)],L-1为拉普拉斯变换 (4)
(5)返回(1)
e(t)可以归类为两组偏差信号:视频信号偏差包括唇,喉,舌,牙齿和气流特征参数的偏差、具体特征参数包括嘴唇的开合度、宽度,舌、齿与嘴唇的位置形状因子等静态特征和舌、唇收缩度等动态变化特征;音频偏差包括LPCC、MPCC的偏差等。对e(t)中的所有元素计算偏差容许度,其计算公式为偏差与标准信号比值的百分率,如果任一项的偏差容许度大于等于5%,则认为学习者的发音或口型不准确,需要纠正,智能纠错的根本在于对各个信号误差的纠正调理过程,公式表示为:
其中
为常系数矩阵,分别称为状态转移矩阵和控制矩阵,为了得到理想的容许偏差范围(本发明要求各项子偏差的容许度都<5%),参看图5本发明的闭环反馈控制系统框图,对误差进行状态反馈控制,公式(5)还可以表示为
引入状态反馈矩阵K,K是可以调节的至关重要的参数,本系统可以在线自适应调整该参数,使其适应学习者不同年龄,区域和性别等物理参数的差别。则系统的模型可以重新写为:
K中内容就是为了修正偏差需要改变的特征参数数值,利用专家知识建立RBF神经网络对反馈矩阵K分析,可得出学习者错误产生原因、所属类型、改进方法,最终将上述分析结果以文字形式反馈给学习者,指导学习者改正错误。参看图6本发明的RBF神经网络模型结构,具体描述如何由反馈矩阵K确定学习者错误产生原因、所属类型、改进方法。本发明的RBF神经网络选择高斯函数作为基函数,其表达式为:
式中K=[k1,Λ,kp]T,为神经网络的输入向量,是反馈矩阵K中所有元素按列向量形式的重新排列,||·||代表欧几里德范数,ci∈RM为隐含层神经元的中心,σi为隐含层神经元的宽度参数,M为神经元节点个数(本发明M=30)。RBF神经网络的输出表达式为
式中Fm为整个网络的输出量,ωi∈RM+1为网络的权向量。首先对专家知识编码定义错误规则,分别对网络的隐含层和输出层进行反复训练,将知识存储在网络中。模型训练好后,即可用该网络解释错误,网络的输出即为错误类型。再根据专家知识将识别出的错误类型与错误产生原因对应匹配,就可以确定反馈矩阵K中包含哪些需要纠正的特征参数,而K中非零元素的数值就是需要纠正的特征参数的度量大小。我们预先分别建立了一个唇型舌体模型和一个声音波形模型。唇型舌体模型反映不同音节发音对应的嘴唇的形状开合变化、舌位的高低前后、口腔下颌的张合等,控制该模型的参数即为反馈矩阵K中的视频信号分量;声音波形模型主要反映发音的重音音量大小,重音位置点在什么地方等,其控制参数为反馈矩阵K中的音频信号分量。由于已经由反馈矩阵K知道了需要改正的参数和改正度量值,就可以通过上述两个模型以文字形式精确反馈学习者发音不准确的问题到底出在哪里,是嘴唇、舌、齿的位置不正确,还是送气发音的时机不对等等,并且具体指出改正到什么程度合适,比如发音时是否漏牙齿及露出牙齿的个数;舌头是抵住牙齿还是伸出、伸出的比例是多少;唇舌保持位置的时间;送气的时间;重音位置点在什么地方,重音音量大小等。学习者照着文字提示和教师动画演示重新发音,观察改进效果。本发明从错误根源提出改正方法,不仅能提高正音的效率,还可以避免今后产生类似的错误。
本发明还可以自主决策纠错时机,在语言学习过程中,系统设定纠错时机阈值,在人机互动过程中不断分析统计学习者语音口型的错误类型和次数,一旦某类型的错误次数超过了阈值,虚拟教师立即中断会话,纠正学习者的错误,否则教师会在整个会话结束后统一指出并纠正错误,这样既避免了会话因为偶然的小错误频繁中断,也不会让学习者的重大或常见错误日积月累养成习惯,难以改正。类似的,系统也可以照此处理语法错误。
纠错评价模块中,虚拟教师的所有口型和声音演示都是动态同步的,其口型发声同步动态示范采用的技术为以要输出的标准语音做为驱动,将正确的语音特征参数映射到相应的嘴唇物理模型上,通过控制参数的变化,改变嘴唇的几何模型,驱动它的运动,最后经过渲染,实现语音、唇形同步动画。
学习纠错的结果存入数据库,便于虚拟教师调整教学策略和学生查询。虚拟教师根据学习者成绩和识别出的学习者情绪,及时调整教学内容。比如,在纠错过程中学习者情绪低落,虚拟教师可以查找前一阶段的语言学习记录,调出学习者已掌握的比较熟练的学习资料,通过前后阶段的水平对比,使学生了解自己语音水平的进步幅度,提高学习者的自信心和学习兴趣。
上述各功能的实现,特别是识别的准确性,纠错的针对性,都依赖于一个强大完备的数据库。本发明数据库具体包括:学习者资料库,虚拟教师库,课程资料库,表情数据库,标准语音唇形语料数据库,中国按不同地域划分的语音唇形语料数据库。各子库分别具体描述如下。
学习者资料库,记录和学习者相关的个人信息,可以据此对不同的学习者选择特定的虚拟教师进行针对性的“一对一”互动教学,其存储的信息包括:学习者的性别、年龄、民族、省份、单词掌握度,这些信息由学习者在学习前自己输入到系统中;学习者的认知风格、情感信息、口语发音特点、声线特点、口型大小、口语发音准确度、学习成绩记录、学习历史纪录,这类信息是学习者在学习过程中,虚拟教师从信息识别模块和纠错评价模块中获得的;所有信息分类存储在学习者的各资料库中,供信息识别模块、纠错评价模块和教学策略模块调动使用。
上述学习者资料库中存储的各信息的具体内容为:学习者的省份,指学习者长年生活的省份;单词掌握度,分为小学、初中、高中、大学四级、大学六级和专业八级,其级别可动态调整,虚拟教师根据词汇量的不同,选择的合适的发音和对话训练课程;情感信息,至少分为高兴、生气、悲伤、惊奇、正常五种,由信息识别模块提供,虚拟教师根据学习者的反映及时调整教学内容、教学表情、打分和评语;口音发音特点,根据我国地域及民族分布特点,分为东北、西北、华北、华东、华南、西南、中原七大类,结合学习者自己录入的民族和省份信息,由信息识别模块输出判定结果,该信息使教师根据中国按不同地域划分的语音唇形情感数据库预先判断学习者的发音习惯、发音特点、可能存在的发音问题,提高识别纠错的准确性和针对性;声线特点,分为高音、中音、低音三类,由信息识别模块提供;口语发音准确度,分为较差、一般、熟练、优秀四级,由纠错评价模块提供,并根据学习者的不断学习可动态调整级别;学习成绩记录,记录虚拟教师给学习者的英语发音的各项分数,包括口型分、发音分、情绪分、综合分,综合分的计算标准为:口型分×30%+发音分×60%+情绪分×10%,此外每次学习的综合分平均计算作为口语发音准确度的分级标准:综合分小于60分为“较差”,综合分在60分到80之间定为“一般”,综合分在80分到90之间为“熟练”,综合分大于90分为“优秀”;学习历史纪录,记录学习者学习过词句发音和会话段落、已经掌握正确发音的词句段、还未掌握正确发音的词句段,由纠错评价模块提供;虚拟教师综合上述各类信息进行教学内容的调整。
学习者资料库中将口语发音准确度和单词掌握度作为两个不同的信息分别记录,传统的学习系统只记录单词掌握度,但实际上,口语发音准确度和单词掌握度之间不存在必然的联系,学习者的词汇量大不代表他的发音一定准确,反之,词汇量小的人其发音也可能非常正确,因此本系统将口语发音准确度和单词掌握度综合考虑,对词汇量小但发音准的人,虚拟教师从课程资料库中选择生词较多的词句段,不仅教授新单词的发音还增加了词汇量,对词汇量大但发音不准的人,虚拟教师暂不考虑复杂的对话,而从最基础的字母单词正音教起,初步纠正错误的发音习惯和口型定式,再逐步深入到整句整段的学习;随着学习的推移,虚拟教师可以随时调整口语发音准确度或单词掌握度的等级,调整教学内容。
虚拟教师库,库中存储多位不同性别、年龄、容貌的虚拟教师,根据学习者资料信息,系统自动选择一位与学习者年龄、声线特质、口型大小相近的同民族同地域同性别的虚拟教师,提高口型发音纠错中声音波形对照图和口型纠错图的可比性,同时增加学习的亲切感。
课程资料库,按单词量的大小和口语发音的难易度,将课程内容分为音节、单词、简单语句对话、大段文本朗读四类发音学习内容。
表情数据库,至少存储不同性别不同容貌人的高兴、生气、悲伤、惊奇、正常五种表情,可用于信息识别模块的识别处理及虚拟教师与学习者互动的表情演示评价反馈。
标准语音唇形语料数据库,存放标准的语音与对应的多视觉唇型变化、包括舌齿等口腔内的动画,供虚拟教师口型发声示范和纠错使用。本发明中所有采集环境保持一致,视觉通道,在普通室内灯光照明下,实验者不带任何装饰,在黑色背景前,分0度,45度和90度角设置三个摄像机,采集头部图像,图像分辨率360×440像素,视频帧速率25帧/秒,存储格式BMP真彩文件;听觉通道,安静无噪声,朗读方式录音,存储格式分别为WAV文件,采样率22.05KHz,16bits量化。
中国按不同地域划分的语音唇形语料数据库,中国地域广阔,各区域语言发音特征显著不同,传统软件极度缺乏适应各地发音习惯的语音和唇形语料,一般只能保证普通话说得好的用户才可以在对话练习、发音纠错方面取得相对满意的成绩,本发明根据我国地域及民族分布特点,开发东北、西北、华北、华东、华南、西南、中原七个不同地域发音习惯的语音唇形语料数据子库,每个地域各10男10女分正常、高兴、生气三种情感状态分别录音采集图像,保证了系统识别的准确性和针对性,更适合中国学习者使用。