CN103366618B

CN103366618B - 基于人工智能与虚拟现实用于汉语学习培训的场景设备

Info

Publication number: CN103366618B
Application number: CN201310302565.0A
Authority: CN
Inventors: 梁亚楠; 尹成
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2015-04-01
Anticipated expiration: 2033-07-18
Also published as: CN103366618A

Abstract

本发明提供一种基于人工智能与虚拟现实用于汉语学习培训的场景设备，包括：虚拟现实设备、基于人工智能的专家系统、口语培训模块和汉字培训模块；其中，所述虚拟现实设备包括头盔式3D眼镜、3D显示器、虚拟电子笔、脑波感应器、触摸屏、摄像头和电脑主机。本发明，通过人脸识别子模块获得培训者的心情状态以及身份信息，通过脑波识别子模块判断培训者注意力是否集中；并结合人工智能算法对培训者进行引导培训，尤其还通过口语培训模块，结合培训者心理状态和语境语气进行智能评测和纠错；通过汉字培训模块，结合培训者心理状态和语境语气进行智能评测和纠错。从而提高了培训的交互性，是一种反馈式培训方式，最终提高了培训者的培训效果。

Description

基于人工智能与虚拟现实用于汉语学习培训的场景设备

技术领域

本发明属于电子信息技术领域，具体涉及一种基于人工智能与虚拟现实用于汉语学习培训的场景设备。

背景技术

虚拟现实是通过计算机对复杂数据进行可视化操作以及实时交互的环境。与传统的计算机人-机界面(如键盘、鼠标器、图形用户界面以及流行的Windows等)相比，虚拟现实无论在技术上还是思想上都有质的飞跃。传统的人-机界面将用户和计算机视为两个独立的实体，而将界面视为信息交换的媒介，由用户把要求或指令输入计算机，计算机对信息或受控对象作出动作反馈。虚拟现实则将用户和计算机视为一个整体，通过各种直观的工具将信息进行可视化，形成一个逼真的环境，用户直接置身于这种三维信息空间中自由地使用各种信息，并由此控制计算机。

将虚拟现实应用于教育是教育技术发展的一个飞跃。它营造了“自主学习”的环境，由传统的“以教促学”的学习方式代之为学习者通过自身与信息环境的相互作用来得到知识、技能的新型学习方式。

现有的虚拟现实学习系统如图1所示，主要包括虚拟场景和各类感应设备；其中，感应设备包括虚拟现实头盔、语音控制、手势控制、触摸屏控制、鼠标键盘控制以及仿真设备；系统通过虚拟场景提供各类学习资源，学习者通过使用各类感应设备，使自身处于虚拟场景中，从而进行学习。

但是，在实现本发明的过程中，发明人发现，现有技术至少存在以下问题：

现有虚拟现实学习系统交互性能仍然有待进一步提高，尤其无法进行反馈式教学，从而降低了学习者的学习效果。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于人工智能与虚拟现实用于汉语学习培训的场景设备，具有培训交互性能强，尤其具有反馈式教学的优点，从而提高了学习者的学习效果。

本发明采用的技术方案如下：

本发明提供一种基于人工智能与虚拟现实用于汉语学习培训的场景设备，包括：虚拟现实设备、基于人工智能的专家系统、口语培训模块和汉字培训模块；其中，所述虚拟现实设备包括头盔式3D眼镜、3D显示器、虚拟电子笔、脑波感应器、触摸屏、摄像头和电脑主机；

所述专家系统包括脑波识别子模块和人脸识别子模块；所述脑波识别子模块用于通过所述脑波感应器获取培训者当前的脑波频率信息，通过对所述脑波频率信息进行分析，判断培训者注意力是否集中；所述人脸识别子模块用于通过所述摄像头获取培训者当前的面部图像，通过对所述面部图像进行分析，获得培训者的心情状态以及身份信息；

所述专家系统与所述口语培训模块关联，所述口语培训模块包括：语音检测子模块和口语评测与纠错子模块；

所述语音检测子模块用于：检测培训者发出的原始语音信号，然后将检测得到的原始语音信号发送给所述专家系统；

所述专家系统基于人工智能技术分析处理所述原始语音信号，识别出输入的语音信息；

所述专家系统将识别出的培训者当前注意力集中度、心情状态、身份信息和所述语音信息发送给所述口语评测与纠错子模块；

所述口语评测与纠错子模块结合培训者的注意力集中度、心情状态、身份信息和当前语境语气对识别出的所述语音信息进行智能纠错；

所述专家系统与所述汉字培训模块关联，所述汉字培训模块包括：汉字输入检测子模块、笔顺检测子模块和评测与纠错子模块；

所述汉字输入检测子模块用于：检测通过画板输入的原始汉字的图像，然后将检测得到的原始汉字的图像传输给所述专家系统；

所述笔顺检测子模块用于：检测通过画板输入的原始汉字的笔顺信息，然后将检测得到的笔顺信息传输给所述专家系统；

所述专家系统基于人工智能技术分析处理所述原始汉字的图像和所述笔顺信息，识别出输入的汉字信息；

所述专家系统将识别出的培训者当前注意力集中度、心情状态、身份信息和识别出的所述汉字信息发送给所述评测与纠错子模块；

所述评测与纠错子模块结合培训者的注意力集中度、心情状态、身份信息和当前语境语气对识别出的所述汉字信息进行智能纠错。

优选的，所述专家系统还用于：所述专家系统分析所述脑波频率信息，判断学习者当前情绪状态；如果情绪好，则进一步判断学习者注意力是否集中，如果集中，则直接进入教学场景；如果不集中，则向学习者推送趣味性场景；如果情绪不好，则进一步判断学习者注意力是否集中，如果集中，则向学习者推送鼓励性信息；如果不集中，则向学习者推送趣味与鼓励信息。

优选的，所述人脸识别子模块识别人脸的过程，具体包括：

建立人脸的面像档案：具体为，通过摄像机采集单位人员的人脸面像文件或采集单位人员的照片形成面像文件，然后，将所述面像文件生成面纹编码并贮存，得到人脸的面像档案；

通过摄像头获取当前培训者的当前人脸面像，然后，将所述当前人脸面像生成当前面纹编码；

用所述当前面纹编码与所述面像档案进行比对，从而识别出当前培训者的心情状态以及身份信息。

优选的，还包括：智能教学模块；

所述智能教学模块用于：接收所述专家系统产生的智能培训方案，根据所述智能培训方案对培训者进行智能引导式培训。

优选的，所述专家系统通过下述过程产生智能培训方案：

所述专家系统通过对所述脑波频率信息和培训者当前的面部图像进行智能分析，得出培训者性格信息；另外，所述专家系统还基于神经网络技术得出培训者当前心理状态及身份信息；通过综合计算培训者性格信息、心理状态及身份信息，产生与培训者最匹配的智能培训方案。

优选的，还包括：语音交互模块和手势交互模块；

所述语音交互模块用于培训者与虚拟教师进行语音沟通；所述手势交互模块用于：培训者通过触摸屏向虚拟教师发送手势信息。

本发明的有益效果如下：

本发明提供的基于人工智能与虚拟现实用于汉语学习培训的场景设备，通过人脸识别子模块获得培训者的心情状态以及身份信息，通过脑波识别子模块判断培训者注意力是否集中；并结合人工智能算法对培训者进行引导培训，尤其还具有口语培训模块和汉字培训模块，通过口语培训模块，结合培训者心理状态和语境语气进行智能评测和纠错；通过汉字培训模块，结合培训者心理状态和语境语气进行智能评测和纠错。从而提高了培训的交互性，是一种反馈式培训方式，最终提高了培训者的培训效果。

附图说明

图1为本发明提供的基于人工智能与虚拟现实用于汉语学习培训的场景设备的结构示意图。

具体实施方式

以下结合附图对本发明进行详细说明：

如图1所示，本发明提供一种基于人工智能与虚拟现实用于汉语学习培训的场景设备，包括：虚拟现实设备、基于人工智能的专家系统、口语培训模块和汉字培训模块；其中，所述虚拟现实设备包括头盔式3D眼镜、3D显示器、虚拟电子笔、脑波感应器、触摸屏、摄像头和电脑主机。通过头盔式3D眼镜和3D显示器，使培训者更好的处于虚拟场景中，提高培训者的培训体验。

以下对上述各主要模块分别进行介绍：

(一)专家系统

专家系统为整个设备的核心，分别与口语培训模块和汉字培训模块关联，用于向口语培训模块和汉字培训模块发送分析得到的注意力集中度、心情状态、身份信息等信息。

专家系统用于：专家系统分析脑波频率信息，判断学习者当前情绪状态；如果情绪好，则进一步判断学习者注意力是否集中，如果集中，则直接进入教学场景；如果不集中，则向学习者推送趣味性场景；如果情绪不好，则进一步判断学习者注意力是否集中，如果集中，则向学习者推送鼓励性信息；如果不集中，则向学习者推送趣味与鼓励信息。

可以将专家系统区分为脑波识别子模块和人脸识别子模块：

(1)脑波识别子模块

脑波识别子模块用于通过所述脑波感应器获取培训者当前的脑波频率信息，通过对所述脑波频率信息进行分析，判断培训者注意力是否集中。

具体的，脑波亦称“脑电波”。人脑中有许多的神经细胞在活动着，而成电器性的变动。也就是说，有电器性的摆动存在。而这种摆动呈现在科学仪器上，看起来脑电图就像波动一样。脑中的电器性震动我们称之为脑波。用一句话来说明脑波的话，或许可以说它是由脑细胞所产生的生物能源，或者是脑细胞活动的节奏。

人脑是凭借不同频率的脑波来传递信息的，就像广播、电视台的指挥中心利用电波发送信息一样。对于人脑而言，当思想、意念在心灵的迷宫中游走时，它就会发出微量的电波。人脑的四种脑波-α、β、θ、δ，可以通过脑波检测器来测量。将电极黏附在头皮上，在人的清醒和熟睡状态下，检测到的脑波模式是截然不同的。

一、α脑波

α脑波，是当人们放松身心、沉思时的脑波。它以每秒钟8～12周波的频率运行着。当人们在做“白日梦”或遐思时，脑波就会呈现这种模式。这种模式下的人应该是处于放松式的清醒状态中。

二、β脑波

β脑波，是一种有意识的脑波，它以每秒钟13～25周波的频率运行着。当人们处于清醒、专心、保持警觉的状态，或者是在思考、分析、说话和积极行动时，头脑就会发出这种脑波。

三、θ脑波

θ脑波，是人们沉于幻想或刚入眠时发出的脑波。它以每秒钟4～7周波的频率运行着。这正好属于“半梦半醒”的朦胧时段，在这种状态下，人的心灵正在处理白天接收的资讯，而许多的灵感可能就在这个时候突现。

四、δ脑波

δ脑波，是人们沉睡无梦时发出的脑波。它以每秒钟0.5～3周波的频率运行。

当我们处于β脑波状态时，或许我们正集中注意力处理手边的问题，或许是处理日常活动，但此时我们的直觉之门是关闭的。此时的人，可以说是处于“见树不见林”的状态之中。当我们处于α脑波状态时，身心放松，心灵是比较开放和易于接受外来事物的。

α脑波似乎可以让人们进入潜意识中，但许多学者都认为，当人们处于放松式清醒状态中时，可以最有效地将信息存入长期的记忆中。每当α(事实上，θ也是)脑波最强势时，负责逻辑思考的左脑就会放松警觉性(左脑通常是潜意识思想的过滤和把关者)。这时，心灵更深层次的直觉、情感和创新就能发挥更大的作用。

大脑的不同部位各司其职，有的管视觉，有的管听觉，有的管语言，有的管思考，这些区域的协调工作控制着我们的全部生命运动。

近年来，随着科学的发展，科学家们发明了崭新的技术，这项技术可以在不造成任何创伤的情况下，对人脑的不同区域的功能进行研究，大大加深了人们对人脑功能分区问题的认识，正电子发射断层扫描技术(简称PET技术)就是其中常用的一种。我们知道，神经细胞活动的越激烈，消耗葡萄糖的量就越多。PET技术就是利用这一原理，通过在活体条件下测定神经细胞葡萄糖新陈代谢的情况，来了解人脑不同脑区的活动。

波状态。随著β波的增加，身体逐渐呈紧张状态，准备随时因应外在环境作反应。大脑能量除了维持本身系统的运作外，尚须指挥对外防御系统作准备，因而消减了体内免疫系统能力，在此状态下人的身心能量耗费较剧，快速疲倦，若没有充份休息，非常容易堆积压力(这是现代人的通病)。然而，适量的β波，对积极的注意力提升，以及认知行为的发展有著关键性的助益。

依据现代脑电生理神经心理学的研究，脑波活动主要分为四组模式：β、α、θ、δ，脑波活动的某一模式与特定的情绪状态相关联。国际上对脑电图的分类有几种分法，这里采用的是频率分类法中的Schwab分类(1951年)：

γ波

频率在31Hz以上。每个希腊字母代表一个波带，θ波和δ波称为慢波，β波和γ波称为快波。β波还可分成低β波(β1)和高β波(β2)。

β波

频率大约在14-30Hz之间。人的精神状态：紧张状态。大多数人清醒时，对外部环境敏感；情绪激动，焦虑不安；警觉、全神贯注；注意力高度集中，从事高度智力活动；活力激发。

α波

频率在9-13Hz之间。人的精神状态：放松状态。大多数人平静，闭目养神时；大脑清醒放松，容易集中注意力脑波疗法，学习、工作不易受外界干扰；积极的情感状态，精神清晰乐观；压力和焦虑降低，中止不良情绪循环；平静放松，恢复活力。

θ波

频率在4-8Hz之间。人的精神状态：深度放松状态；浅睡眠状态，也称沉思、冥想状态，潜意识状态。潜意识易受暗示；创造力、灵感突发；感悟，富于直觉；加速学习、记忆。

δ波

频率在0.5-3Hz之间。人的精神状态：睡眠状态。最低的脑波活动，人在深度的无梦睡眠时才会出现。有时发现于相当老练的沉思者。

α波8-14赫兹(1秒内振动的次数)α为优势脑波时，人的意识清醒，但身体却是放松的，它提供意识与潜意识的桥梁。由于在这种状态下，身心能量耗费最少，相对地脑部所获得的能量较高，运作就会更加快速、顺畅、灵感及直觉敏锐，脑的活动活泼。现代科学积极倡导α波是为人们学习与思考的最佳脑波状态，道理就在于此。薄荷脑等香料能增强a-脑波。

因此，通过对脑波频率进行分析，可以判断培训者注意力是否集中。

(2)人脸识别子模块

人脸识别子模块用于通过摄像头获取培训者当前的面部图像，通过对面部图像进行分析，获得培训者的心情状态以及身份信息。

具体的，人脸识别，特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。本发明中，可以通过以下方法进行人脸识别：

方法一：人脸面貌检测

面貌检测是指在动态的场景与复杂的背景中判断是否存在面像，并分离出这种面像。可以采取以下方法：

①参考模板法

首先设计一个或数个标准人脸的模板，然后计算测试采集的样品与标准模板之间的匹配程度，并通过阈值来判断是否存在人脸；

②人脸规则法

由于人脸具有一定的结构分布特征，提取这些特征生成相应的规则以判断测试样品是否包含人脸；

③样品学习法

采用模式识别中人工神经网络的方法，即通过对面像样品集和非面像样品集的学习产生分类器；

④肤色模型法

依据面貌肤色在色彩空间中分布相对集中的规律来进行检测。

⑤特征子脸法

将所有面像集合视为一个面像子空间，并基于检测样品与其在子孔间的投影之间的距离判断是否存在面像。

需要说明的是，本发明中，可以将上述5种方法综合应用于实际检测系统中。

方法二：人脸跟踪

面貌跟踪是指对被检测到的面貌进行动态目标跟踪。具体采用基于模型的方法或基于运动与模型相结合的方法。此外，利用肤色模型跟踪也为一种简单而有效的手段。

方法三：人脸面貌比对

面貌比对是对被检测到的面像进行身份确认或在面像库中进行目标搜索。也就是说，将采样到的面像与库存的面像依次进行比对，并找出最佳的匹配对象。所以，面像的描述决定了面像识别的具体方法与性能。本发明可以采用特征向量与面纹模板两种描述方法：

①特征向量法

先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性，然后再计算出它们的几何特征量，而这些特征量形成一描述该面像的特征向量。

②面纹模板法

该方法是在库中存贮若干标准面像模板或面像器官模板，在进行比对时，将采样面像所有象素与库中所有模板采用归一化相关量度量进行匹配。此外，还可以有采用模式识别的自相关网络或特征与模板相结合的方法。

人脸识别技术的核心实际为“局部人体特征分析”和“图形/神经识别算法。”这种算法利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。一般判断时间低于1秒。

本发明提供一种人脸识别过程，包括以下三步：

(1)首先建立人脸的面像档案。即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件，并将这些面像文件生成面纹(Faceprint)编码贮存起来。

(2)获取当前的人脸面像。即用摄像机捕捉的当前出入人员的面像，或取照片输入，并将当前的面像文件生成面纹编码。

(3)用当前的面纹编码与档案库存的比对。即将当前的面像的面纹编码与档案库存中的面纹编码进行检索比对。上述的“面纹编码”方式是根据人脸脸部的本质特征和开头来工作的。这种面纹编码可以抵抗光线、皮肤色调、面部毛发、发型、眼镜、表情和姿态的变化，具有强大的可靠性，从而使它可以从百万人中精确地辩认出某个人。人脸的识别过程，利用普通的图像处理设备就能自动、连续、实时地完成

(二)口语培训模块

所述口语培训模块包括：语音检测子模块和口语评测与纠错子模块；

所述口语评测与纠错子模块结合培训者的注意力集中度、心情状态、身份信息和当前语境语气对识别出的所述语音信息进行智能纠错。

具体的，语音识别技术主要参考开源语音引擎HTK与jiujus，研发了核心语音识别算法(专用于口语评测纠错)与语音引擎。

主要用到的技术包括：信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等。

最核心方向主要包括特征提取技术、模式匹配准则和模型训练技术3个方面，另外还涉及到语音识别单元的选取。

关于语音识别单元的选取，对于大中型词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的，针对老外口语发音的特点，本发明研发了语音识别单元。

关于特征参数提取技术，语音信号中含有丰富的信息，这些信息称为语音信号的声学特征。特征参数提取技术就是获得影响语音识别的重要信息，特征参数应该尽量多的反映语义信息，尽量减少说话人的个人信息。根据对外汉语的特点，本发明提供了关于对外汉语口语培训，提取老外口语发音用于普通话汉语口语评测纠错的语音识别特征。

关于模式匹配以及模型训练技术，模型训练是按照一定的准则，从大量已知的模式中获取表征该模式本质特征的模型参数。模式匹配是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。参考了大量对外汉语口语模式，以及大量的语音数据模型资源，并将该技术完整地应用于本发明提供的语音识别引擎里。

本发明开发了基于HMM基础，结合神经网络，人工智能，依据多年对外汉语的教学积累与经验，开发了自己的语音识别算法。

关于信号检测，综合了短时频普分析法，基于线性系统的语音生成模型，语音信号的短时倒谱分析法，语音信号的线性预测分析法，语音信号的矢量量化法(VQ：Vector Quantization)几种方法的综合统计模式。

在模式匹配上，用语音端点检测与语音特征模式的距离测度来测量语音，用动态时间归整法(DTW：Dynamic Time Warping)与基于特征空间轨迹的时间规整法，改进了自身的模式识别。

在语音识别模型上，在基于马尔柯夫过程的语言模型与语境自由句法的语言模型上创建了自身的语音识别模型。

在初步的识别方法基础上进行了如下改进：

1.动态时间规整方法(DTW)：由于说话人信息不仅有稳定因素(发声器官的结构和发声习惯)，而且有时变因素(语速、语调、重音和韵律)。DTW将识别模板与参考模板进行时间对比，按照某种距离测度得出两模板间的相似程度。

2.矢量量化方法(Q)把每个人的特定文本训练成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。利用矢量量化的说话人识别方法具有判断速度快，而且识别精度高的优点。

综合下列算法的优点：

马尔可夫模型方法(M)是一种基于转移概率和输出概率的随机模型，它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。对于与文本无关的说话人识别一般采用各态历经型HMM；对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间规整，可节约判决时的计算时间和存储量，在目前被广泛应用。其缺点是训练时计算量较大。

人工神经网络方法(ANN)：它在某种程度上模拟了生物的感知特性，是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。目前，人工神经网络在说话人识别中已经得到了广泛的研究支持向量机(SupportVector Machines，SVM)法。

该方法试图用最优分类器划分样本空间，使得不同子类空间中的样本到分类器的距离达到最大，而对于在当前特征空间中线性不可分的模式，SVM使用核函数把样本映射到高维空间中，使得样本能够线性可分。

将双矢量量化与支持向量机相融合的说话人识别方法用训练好的双VQ码本对待测语音进行分类，若最小平均失真测度与次小平均失真测度相差很大(大于所选阈值)，则认为平均失真测度最小的说话人为识别结果；若有M个平均失真测度与最小平均失真测度相差很小(小于所选阈值)，则将这M个说话人与失真测度最小的说话人一起再用SVM进行第二次识别。

语音识别模型建立主要采用下列原理与技术

1、特征提取

(1)反映人耳听觉特征的Mel美尔频率倒谱系数(MFCC)近年来较普遍有效的语音特征参数提取方法，提取MFCC时，先做FFT变换进行频率分析，再通过一组三角滤波器进行滤波，取其对数能量的倒谱系数。

(2)基于小波变换具有可变的时频分辨率，可以克服短时傅立叶变换在分辨率上的局限性，采用小波包变换来替代FFT和三角滤波器这两个步骤，从滤波器的角度来看，就是信号通过一系列不同频带范围的带通滤波器，从而获得信号在个频带内的信息。

2、混合高斯GMM类模型的训练

在进行类模型的建立前，先定义一种说话人模型间的距离，即两者语音特征越接近，模型间所定义的距离就越小，距离表达式为：

表示GMM模型1中分量i与模型2中分量j的距离。表示混合数为H的GMM模型与混合数为L的GMM模之间的距离。和分别表示模型1和模型2第和GMM混合分量的均值和方差。分别表示对GMM模型和之间第和个距离分量赋予的权值。

首先通过高斯混合模型(GMM)练参数，确定每个人所对应的一个，在运行分类算法之前，先进行初始分类，初始类模型确定之后，剩余说话人选取与自己距离最近的类模型，完成初始聚类.

下一步确定参数：期望得到的聚类数(说话人分为几类)类内最少人数、类内最多人数(为取得较好的辨识效果，类中说话人数通常在5～10之间)。

最后通过修正的迭代自组织动态聚类(ISODATA))算法，将获得的聚类集进行分裂和合并处理，以获得新的聚类中心和分类集。反复经过多次迭代运算，直至各项参数符合要求，得到理想的聚类结果，确定最终的类模型参数。

关键步骤如下：

1.连续语音预处理。

(1)波形硬件采样率的确定、分帧大小与帧移动策略的确定。

(2)剔除噪音的带通滤波、高频预加重处理、各种变换策略。

(3)波形的自动切分(依赖于识别基元的选择方案)。

连续语音切分在预处理中极其重要。为的是找到语音信号中的各种识别单元(如音素、音节、半音节、单词等)的起始点和终止点，将连续语音细化成各个语音单元，对于数搜索方式算法来说大大降低了时间和空间的复杂度，从而极大提高了系统的总体性能。

2.特征参数提取。

识别语音的过程是对语音特征参数模型进行比较和匹配，所以选择一种合适的算法对语音特征参数进行选取就特别重要。它要求选择的特征既能充分表达语音的特征又能彼此区别。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、短时频谱、共振峰频率和宽带等。

3.参数模板存储。

进行参数提取对系统进行训练和聚类，然后建立并存储一个该系统所需识别字(或字母)的参数模板库。

4.识别判别。

识别即使用模板存储器中的模式进行匹配计算和比较，并根据一定的规则进行识别、判别，最后输出识别的结果。这一结果还需要经过理解，理解是基于语料库统计方法。

语音识别系统的结构

一个完整的基于统计的语音识别系统可大致分为三部分：

(1)语音信号预处理与特征提取；

(2)声学模型与模式匹配；

(3)语言模型与语言处理。

(1)语音信号预处理与特征提取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息；而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性(Robustness)。

(2)声学模型与模式匹配

声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较，得到最佳的识别结果。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

以汉语为例：

汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时，将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词，最后再由词构成句子。

汉语声母共有22个，其中包括零声母，韵母共有38个。按音素分类，汉语辅音共有22个，单元音13个，复元音13个，复鼻尾音16个。

目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。

基于统计的语音识别模型常用的就是HMM模型λ(N，M，π，A，B)，涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

(3)语言模型与语言处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

语音识别引擎主要开发用于对外汉语，外国人口语评测纠错，教会外国人专业普通话口语专用。

(三)汉字培训模块

专家系统与所述汉字培训模块关联，所述汉字培训模块包括：汉字输入检测子模块、笔顺检测子模块和评测与纠错子模块；

具体的，汉字已有数千年的历史，也是世界上使用人数最多的文字，对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋，并将继续发挥重要的、其它文字形式难以取代的作用。然而，汉字是非字母化、非拼音化的文字，在当今高度信息化的社会里，如何快速高效地将汉字输入计算机，已成为影响人机接口效率的一个重要瓶颈，也关系到计算机能否真正在我国得到普及应用。

本发明中，专家系统采用模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等技术进行汉字识别。

(四)智能教学模块

还包括：智能教学模块；

其中，专家系统通过下述过程产生智能培训方案：

(五)语音交互模块和手势交互模块

语音交互模块用于培训者与虚拟教师进行语音沟通；所述手势交互模块用于：培训者通过触摸屏向虚拟教师发送手势信息。

综上所述，本发明提供的基于人工智能与虚拟现实用于汉语学习培训的场景设备，通过人脸识别子模块获得培训者的心情状态以及身份信息，通过脑波识别子模块判断培训者注意力是否集中；并结合人工智能算法对培训者进行引导培训，尤其还具有口语培训模块和汉字培训模块，通过口语培训模块，结合培训者心理状态和语境语气进行智能评测和纠错；通过汉字培训模块，结合培训者心理状态和语境语气进行智能评测和纠错。从而提高了培训的交互性，是一种反馈式培训方式，最终提高了培训者的培训效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于人工智能与虚拟现实用于汉语学习培训的场景设备，其特征在于，包括：虚拟现实设备、基于人工智能的专家系统、口语培训模块和汉字培训模块；其中，所述虚拟现实设备包括头盔式3D眼镜、3D显示器、虚拟电子笔、脑波感应器、触摸屏、摄像头和电脑主机；

2.根据权利要求1所述的基于人工智能与虚拟现实用于汉语学习培训的场景设备，其特征在于，所述专家系统还用于：所述专家系统分析所述脑波频率信息，判断学习者当前情绪状态；如果情绪好，则进一步判断学习者注意力是否集中，如果集中，则直接进入教学场景；如果不集中，则向学习者推送趣味性场景；如果情绪不好，则进一步判断学习者注意力是否集中，如果集中，则向学习者推送鼓励性信息；如果不集中，则向学习者推送趣味与鼓励信息。

3.根据权利要求1所述的基于人工智能与虚拟现实用于汉语学习培训的场景设备，其特征在于，所述人脸识别子模块识别人脸的过程，具体包括：

4.根据权利要求1所述的基于人工智能与虚拟现实用于汉语学习培训的场景设备，其特征在于，还包括：智能教学模块；

5.根据权利要求4所述的基于人工智能与虚拟现实用于汉语学习培训的场景设备，其特征在于，所述专家系统通过下述过程产生智能培训方案：

所述专家系统通过对所述脑波频率信息和培训者当前的面部图像进行智能分析，得出培训者性格信息；另外，所述专家系统还基于神经网络技术得出培训者当前心情状态及身份信息；通过综合计算培训者性格信息、心情状态及身份信息，产生与培训者最匹配的智能培训方案。

6.根据权利要求1所述的基于人工智能与虚拟现实用于汉语学习培训的场景设备，其特征在于，还包括：语音交互模块和手势交互模块；