CN102063903A

CN102063903A - 言语交互训练系统及方法

Info

Publication number: CN102063903A
Application number: CN2010102921173A
Authority: CN
Inventors: 王岚; 李崇国; 郝健英; 蒙美玲
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2010-09-25
Filing date: 2010-09-25
Publication date: 2011-05-18
Anticipated expiration: 2030-09-25
Also published as: CN102063903B

Abstract

本发明涉及一种言语交互训练系统和方法，该系统包括用户选择模块，获取用户选择的训练内容；言语交互训练模块，将训练内容以多模态的导引方式展示给用户，导引用户进行言语训练；用户反馈模块，收集反馈的语音以及与语音对应的唇部视频；言语评测模块，接收用户反馈的语音以及对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果；结果反馈模块，用于将评测结果反馈给用户，供用户对言语训练进行纠正和调整。本发明对用户的言语训练进行自动评测给出评测结果，将评测结果反馈给用户，用户根据评测结果了解自身言语训练的水平并对自己的言语训练进行纠正和调整，进一步提高言语水平，从而极大的增强言语障碍者的康复训练效果。

Description

言语交互训练系统及方法

【技术领域】

本发明涉及一种言语交互训练系统及方法。

【背景技术】

言语障碍患者在当今社会中存在比较多，言语障碍给患者生活带来众多不便。

传统言语障碍患者的恢复绝大多数依靠医院、学校、老师、家长、言语矫治师或者某些特殊的治疗机构等使用一些特殊的教育方法，来导引言语障碍者进行发音并及时的纠正错误，直到患者恢复或部分恢复。这种传统的方法是言语训练的主要途径，但是不能在无人的情况下进行言语障碍训练，并且由于言语障碍训练是一个复杂而又繁琐的工作，纯粹通过人力来完成并不实际。

虽然，目前市场上有产品将言语训练教材电子化，或者做成一些简单的训练仪，在无人的情况下对言语障碍患者进行治疗。但是，这些产品多是使用了多媒体手段使学习内容变得丰富生动，缺乏对言语障碍者的言语训练做出指导，患者完全处于被动接受的状态，无法了解自身言语学习的结果和问题。由于言语障碍主要原因在于患者无法自如的控制自己的发音器官来准确连贯的发出目标语句，更多患者存在听力障碍或心理障碍，阻碍了发声和发音的联系，简单的多媒体手段对患者言语学习不明显，并不能起到太多的作用。

【发明内容】

有鉴于此，有必要提供一种能够对用户言语训练进行自动检测和反馈，供用户进行纠正和调整，并对用户进行指导的言语交互训练系统。

此外，提供一种能够对用户言语训练进行自动检测和反馈，供用户进行纠正和调整，并对用户进行指导的言语交互训练方法。

一种言语交互训练系统，包括：

用户选择模块，为用户提供多种训练内容供用户选择，获取用户选择的训练内容；

言语交互训练模块，将用户选择的训练内容以多模态的导引方式展示给用户，导引用户练习或者模仿训练内容，进行言语训练；

用户反馈模块，收集用户进行言语训练时反馈的语音以及与所述语音对应的唇部视频；

言语评测模块，接收并根据用户反馈的语音以及对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果；

结果反馈模块，用于将评测结果反馈给用户，供用户对言语训练进行纠正和调整。

优选的，所述训练内容为发出指定内容语音时的多种言语训练，包括呼吸训练、音调训练、构音训练、响度训练、单音节训练、双音节训练、单词训练、整句训练中的至少一种；所述训练内容的多模态的导引方式包括表现训练内容本身意义的图片、视频、音频、文字，训练内容结合言语训练的场景，训练内容结合游戏方式以及可视化的发音过程中的至少一种。

优选的，所述言语评测模块包括：

发音质量检测单元，用于针对反馈的语音，采用语音信息处理技术进行发音质量和正确性的自动检测，并给出检测结果；

唇部运动检测单元，用于针对反馈的唇部视频进行唇部运动正确性的自动检测，并给出检测结果；

理解正确性检测单元，根据用户对系统的操作动作，结合训练内容自动检测用户的理解正确性，并给出检测结果；

综合评测单元，综合发音质量检测单元、唇部运动检测单元和理解正确性检测单元的检测结果，进行综合评测，形成评测结果。

优选的，所述结果反馈模块通过多媒体反馈，视觉反馈以及场景反馈将评测结果反馈给用户。

优选的，所述系统还包括训练控制模块，接收评测结果作为用户当前言语训练所达水平的参考，依据初始存储的训练内容和用户信息，规划用户下一步训练内容，制定言语训练方案。

优选的，所述系统实现方式包括基于网络的客户端/服务器方式、基于网络的浏览器/服务器方式、基于嵌入式系统的单机模式中的至少一种。

一种言语交互训练方法，包括如下步骤：

为用户提供多种训练内容供用户选择，获取用户选择的训练内容；

将用户选择的训练内容以多模态的导引方式展示给用户，导引用户练习或者模仿训练内容，进行言语训练；

接收并根据用户反馈的语音以及与所述语音对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果；

将评测结果反馈给用户，供用户对言语训练进行纠正和调整。

优选的，所述接收并根据用户反馈的语音以及与所述语音对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果具体为：接收用户模仿或者练习训练内容时反馈的语音及与所述语音对应的唇部视频，进行发音质量的自动检测，唇部运动自动检测以及理解正确性自动检测并各自给出检测结果，自动综合检测结果进行评测，给出评测结果。

优选的，所述将评测结果反馈给用户采用多媒体反馈，视觉反馈以及场景反馈中的至少一种。

优选的，所述方法还包括将接收的评测结果作为用户当前言语训练所达水平的参考，依据初始存储的训练内容和用户信息，规划用户下一步训练内容，制定言语训练方案的步骤。

上述言语交互训练系统及方法，采用交互方式，为用户提供训练内容并将用户选择的训练内容以及多模态的导引方式展示给用户，导引用户进行言语训练，获取用户进行言语训练反馈的语音以及与语音对应的唇部视频对用户的言语训练进行自动评测给出评测结果，将评测结果反馈给用户，用户根据评测结果了解自身言语训练的水平并对自己的言语训练进行纠正和调整，进一步提高言语训练的水平，从而极大的增强言语障碍的训练效果。

【附图说明】

图1是一个实施例中言语交互训练系统结构示意图；

图2是一个实施例中言语评测模块结构示意图；

图3是一个实施例中言语交互训练方法流程图。

【具体实施方式】

下面结合附图，对本发明的具体实施方式进行详细描述。

图1是一个实施例中言语交互训练系统结构示意图。该系统包括：用户选择模块100、言语交互训练模块200、用户反馈模块300、言语评测模块400、结果反馈模块500、训练控制模块600以及存储模块700。

用户选择模块100，用于为用户提供多种训练内容供用户选择，获取用户选择的训练内容。

该实施例中，训练内容是根据用户信息、言语训练课程以及用户选择形成的，提供给用户进行言语训练的内容，包括发出指定内容语音时的多种言语训练，如呼吸训练、音调训练、构音训练、响度训练、单音节训练、双音节训练、单词训练、整句训练等。用户控制模块100为用户提供交互界面，将训练内容提供给用户，用户根据自身言语训练要求通过键盘、鼠标、触摸屏等进行选择，用户控制模块100获取用户选择的训练内容。

言语交互训练模块200，用于将用户选择的训练内容以多模态的导引方式展示给用户，导引用户练习或者模仿训练内容，进行言语训练。

由于有些言语障碍用户存在听觉障碍等问题，训练内容必须以多模态的导引方式展示给用户，才能导引任意用户练习或者模仿训练内容，进行言语训练，发出指定内容的语音。该实施例中，言语交互训练模块200将训练内容以多模态的导引方式展示给用户，包括表现训练内容本身意义的图片、视频、音频、文字，训练内容结合某些特定的用于言语训练的场景，训练内容结合游戏方式以及可视化的发音过程等。其中，表现训练内容本身意义的视频还包含通过影像采集设备实时捕捉到的用户人脸，并标识出其脸部和唇部，便于提醒用户观察自身发音过程中存在的不足和缺陷。可视化的发音过程为根据真实的发音过程中的舌部、唇部等位置的运动变化形成的二维或三维虚拟头像，为用户提供从口腔内部多角度观察具体的发音过程中的舌部运动、唇部运动，口腔运动，以及气流及声带的振动。由于这些口腔内部器官的运动变化控制是整个发音过程中最困难的地方，通过多模态的导引方式展示训练内容本身，而且利用计算机图形学及实际生理数据形成的二维或三维虚拟头像来形象地表示具体训练内容的发音过程中各个发音器官的变化，便于用户进行模仿和自我纠正。

用户反馈模块300用于收集用户进行言语训练时反馈的语音以及与该语音对应的唇部视频。

言语评测模块400接收用户反馈的语音以及对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果。

言语评测模块400接收用户模仿或者练习训练内容时反馈的语音及其对应的唇部视频，进行发音质量的自动检测，唇部运动自动检测以及理解正确性自动检测，根据检测结果进行自动综合评测，给出评测结果。

图2是一个实施例中言语评测模块结构示意图。该实施例中，言语评测模块包括发音质量检测单元410、唇部运动检测单元420、理解正确性检测单元430以及综合评测单元440。

发音质量检测单元410，用于针对用户反馈中的语音，使用语音信息处理技术进行发音质量和正确性等方面的自动检测并给出检测结果。对于用户反馈的语音，发音质量检测单元410计算其短时能量，基频以及语调等特征，进行单个音素级别的发音的响度、音调、持续时间长度等正确性的自动检测，多音节的发音的响度、音调等正确性的自动检测，孤立词发音的响度、音调、各个音素发音的正确性自动检测，整个语句的音素的正确性、音调、响度等方面的自动检测。同时还进行语音内容的自动识别，并自动进行检测。

在整个检测过程中需要语音识别，发音质量检测单元410基于声学模型，并结合语言模型或者词网络，对用户反馈的语音的特征参数进行自动识别，分别得到单词级别和音素级别的序列、对应的时间边界以及相应的似然概率值，并与训练内容进行比对，得到发音质量检测结果，例如音素的插入、删除、替代等错误。

唇部运动检测单元420用于针对反馈的唇部视频进行唇部运动正确性自动检测并给出检测结果。唇部运动检测单元420根据通过影像采集设备采集到的用户脸部视频，采用人脸检测算法实时获得人脸位置，进一步通过统计和模型建立的方法获取用户在发音过程中的唇部视频(运动图像)，并结合发音质量检测单元410对语音的特征参数进行识别得到的时间边界，得到具体音素的唇部动作，并自动检测其正确性，给出检测结果。

理解正确性检测单元430，根据用户通过键盘、鼠标、触摸屏等对系统的操作动作，结合训练内容自动检测用户的理解正确性，并给出检测结果。

综合评测单元440综合发音质量检测单元410、唇部运动检测单元420和理解正确性检测单元430的检测结果，对用户的语音质量、唇部运动，以及理解正确性的自动进行综合评测，形成评测结果。

结果反馈模块500将评测结果反馈给用户，供用户对言语训练进行纠正和调整并对用户进行指导。

该实施例中，结果反馈模块500将评测结果通过多种方式反馈给用户，包括多媒体反馈，视觉反馈以及场景反馈。

其中，多媒体反馈，将使用者的发音及其操作结果以图片、数字、曲线、声音、文本等多种形式形象，生动，直观的表现出来，使得声音及操作结果可视化；与此同时，自动对用户的不标准及错误发音进行对比纠正，使用户可以明确的知道自己发音的错误所在，进而有目的的进行针对性练习。

视觉反馈，通过内置影像采集设备对用户言语训练时的嘴唇运动情况进行实时捕捉，并将其以画面的形式实时显示，使得用户可以清楚的观察到自己发音过程中的嘴型变化，通过与标准发音动作对比，找出不足，进而改正并做出正确发音。

场景反馈，用于交互式训练中，将用户在互动游戏中的发音或者操作所产生的结果融入相应的游戏背景元素，以画面，声音的形式表现出来，并且在正确完成任务的情况下会适当给予视觉或者声音奖励，使得训练更具有趣味性及目标性。

训练控制模块600接收评测结果作为用户当前训练所达水平的参考，依据存储模块700存储的训练内容和用户信息，自动规划用户下一步训练内容制定言语训练安排。或者通过用户操作，由用户根据评测结果以及自己的意愿制定或者调整训练内容，选择接下来的言语训练。

存储模块700用于存储不同等级难度的训练内容和用户信息。

存储模块700存储训练内容所包括的呼吸训练、响度训练、单音节训练、双音节训练、单词训练、整句训练等，以及相应于不同阶段不同训练内容所需的词汇，短语，句子，游戏场景等。还存储用户信息，作为用户个人信息记录档案，不仅记录用户的个人资料信息，还记录用户每次的训练内容及评测结果，并将其表示成随时间变化的学习曲线，使得用户可以直观的看到自己的学习进度及进步情况。

上述言语交互训练系统有多种实现方式，例如基于网络的客户端/服务器(Client/Server)方式、基于网络的浏览器/服务器(Browser/Server)方式、基于嵌入式系统的单机模式等等。

基于网络的客户端、服务器方式：其客户端是用户访问终端，提供语音输入、音频播放以及鼠标操作，并且对输入音频完成静音检测、特征提取以及网络传输、游戏场景生成等功能，其服务器端完成对输入语音的音调检测，响度检测，时长检测，错误发音检测、错误反馈、帮助选项反馈、游戏场景内容生成、数据库操作、学习信息统计、网络传输等功能。

基于网络的浏览器、服务器方式：其浏览器是用户访问终端，提供语音输入、音频播放、鼠标操作、网络传输、游戏场景，并通过插件(Plug-in)完成对输入音频静音检测以及特征提取等操作，其服务器包括数据处理服务器和Web服务器，其中数据服务器端完成对输入语音的音调检测，响度检测，时长检测，错误发音检测、错误反馈、帮助选项反馈、游戏场景内容生成、数据库操作、学习信息统计、网络传输等功能，其中Web服务器是浏览器的访问服务器，浏览器与数据处理服务器之间进行直接的数据传输。

基于嵌入式系统的单机方式：在一个程序框架内完成单机方式的语音输入、音频播放、音频静音检测、音频特征提取、输入语音的音调检测，响度检测，时长检测、错误发音检测及错误反馈、游戏内容生成、数据库操作、学习信息统计等。

此外，提供一种言语交互训练方法。

图3是一个实施例中言语交互训练方法流程图。该方法包括：

S31：为用户提供多种训练内容供用户选择，获取用户选择的训练内容。

训练内容是根据用户信息、言语训练课程以及用户选择形成的，提供给用户进行言语训练的内容，包括对指定内容进行发音时的多种言语训练，如呼吸训练、音调训练、构音训练、响度训练、单音节训练、双音节训练、单词训练、整句训练等。该实施例中，为用户提供交互界面，将训练内容提供给用户，用户根据自身言语训练要求通过键盘、鼠标、触摸屏等进行选择，从而获取用户选择的训练内容。

S32：将用户选择的训练内容以多模态的导引方式展示给用户，导引用户练习或者模仿训练内容，进行言语训练。

由于有些言语障碍用户存在听觉障碍等问题，训练内容必须以多模态的导引方式展示给用户，才能导引任意用户练习或者模仿训练内容，进行言语训练，发出指定内容的语音。该实施例中，训练内容以多模态的导引方式展示给用户，包括表现训练内容本身意义的图片、视频、音频、文字，训练内容结合某些特定的用于言语训练的场景、训练内容结合游戏方式以及可视化的发音过程等。其中，表现训练内容本身意义的视频还包含通过影像采集设备实时捕捉到的用户人脸，并标识出其脸部和唇部，便于提醒用户观察自身发音过程中存在的不足和缺陷。可视化的发音过程为根据真实的发音过程中的舌部、唇部等位置的运动变化形成的二维或三维虚拟头像，为用户提供从口腔内部多角度观察具体的发音过程中的舌部运动、唇部运动，口腔运动，以及气流及声带的振动。由于这些口腔内部器官的运动变化控制是整个发音过程中最困难的地方，通过多模态方式展示训练内容本身，而且利用计算机图形学及实际生理数据形成的三维虚拟头像来形象地表示具体训练内容的发音过程中各个发音器官的变化，便于用户进行模仿和自我纠正。

S33：接收用户反馈的语音以及对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果。

该实施例中，接收用户反馈的语音以及对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果具体为：接收用户模仿或者练习训练内容时反馈的语音及其对应的唇部视频，进行发音质量的自动检测，唇部运动自动检测以及理解正确性自动检测并各自给出检测结果，根据检测结果进行综合评测，给出评测结果。

其中，发音质量检测，针对用户反馈中的语音，使用语音信息处理技术进行发音质量和正确性等方面的自动检测。对于用户反馈的语音，计算其短时能量，基频以及语调等特征，进行单个音素级别的发音的响度、音调、持续时间长度等正确性的自动检测，多音节的发音的响度、音调等正确性的自动检测，孤立词发音的响度、音调、各个音素发音的正确性自动检测，整个语句的音素的正确性、音调、响度等方面的自动检测。同时还进行语音内容的自动识别，进行检测。

在整个检测过程中需要语音识别，其基于声学模型，并结合语言模型或者词网络，对用户反馈的语音的特征参数进行自动识别，分别得到单词级别和音素级别的序列、对应的时间边界以及相应的似然概率值，并与训练内容进行比对，得到发音质量检测结果，例如音素的插入、删除、替代等错误。

唇部运动检测，根据影像采集设备采集到的用户脸部视频进行唇部运动正确性检测。首先，对于采集用户脸部视频，通过人脸检测算法实时获得人脸位置，进一步通过统计和模型建立的方法获取用户在发音过程中的唇部视频(运动图像)，并结合发音质量检测中对语音的特征参数进行识别得到的时间边界，得到具体音素的唇部动作，并自动检测其正确性，给出检测结果。

理解正确性检测，根据用户通过键盘、鼠标、触摸屏等对系统的操作动作，根据训练内容自动检测用户的理解正确性，并给出检测结果。

最后，综合发音质量检测、唇部运动检测和理解正确性检测的检测结果，对用户的语音质量、唇部运动，以及理解正确性进行自动综合评测，形成评测结果。

S34：将评测结果反馈给用户，供用户对言语训练进行纠正和调整并对用户进行指导。

该实施例中，评测结果通过多种方式反馈给用户，包括多媒体反馈，视觉反馈以及场景反馈。

其中，多媒体反馈，将使用者的发音及其操作结果以图片、数字、曲线、声音、文本等多种形式形象，生动，直观的表现出来，使得声音及操作结果可视化；与此同时，自动对用户的不标准发音及错误发音进行对比纠正，使用户可以明确的知道自己发音的错误所在，进而有目的的进行针对性训练。

视觉反馈，通过内置影像采集设备对用户言语训练时的嘴唇运动情况进行实时捕捉，并将其以画面的形式实时显示，使得用户可以清楚的观察到自己发音过程中的嘴型变化，通过与标准发音动作对比，找出不足进而改正做出正确发音。

此外，还包括接收评测结果作为用户当前训练所达水平的参考，依据存储的训练内容和用户信息，自动规划用户下一步训练内容制定训练安排。或者通过用户操作，由用户根据评测结果以及自己的意愿制定或者调整训练内容，选择接下来的言语训练的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种言语交互训练系统，其特征在于，包括：

2.根据权利要求1所述的言语交互训练系统，其特征在于，所述训练内容为发出指定内容语音时的多种言语训练，包括呼吸训练、音调训练、构音训练、响度训练、单音节训练、双音节训练、单词训练、整句训练中的至少一种；所述训练内容的多模态的导引方式包括表现训练内容本身意义的图片、视频、音频、文字，训练内容结合言语训练的场景，训练内容结合游戏方式以及可视化的发音过程中的至少一种。

3.根据权利要求2所述的言语交互训练系统，其特征在于，所述言语评测模块包括：

4.根据权利要求3所述的言语交互训练系统，其特征在于，所述结果反馈模块通过多媒体反馈，视觉反馈以及场景反馈将评测结果反馈给用户。

5.根据权利要求1至4中任一项所述的言语交互训练系统，其特征在于，所述系统还包括训练控制模块，接收评测结果作为用户当前言语训练所达水平的参考，依据初始存储的训练内容和用户信息，规划用户下一步训练内容，制定言语训练方案。

6.根据权利要求1所述的言语交互训练系统，其特征在于，所述系统实现方式包括基于网络的客户端/服务器方式、基于网络的浏览器/服务器方式、基于嵌入式系统的单机模式中的至少一种。

7.一种言语交互训练方法，包括如下步骤：

8.根据权利要求7所述的言语交互训练方法，其特征在于，所述接收并根据用户反馈的语音以及与所述语音对应的唇部视频，对用户的言语训练进行自动评测并给出评测结果具体为：接收用户模仿或者练习训练内容时反馈的语音及与所述语音对应的唇部视频，进行发音质量的自动检测，唇部运动自动检测以及理解正确性自动检测并各自给出检测结果，自动综合检测结果进行评测，给出评测结果。

9.根据权利要求8所述的言语交互训练方法，其特征在于，所述将评测结果反馈给用户采用多媒体反馈，视觉反馈以及场景反馈中的至少一种。

10.根据权利要求7或9所述的言语交互训练方法，其特征在于，所述方法还包括将接收的评测结果作为用户当前言语训练所达水平的参考，依据初始存储的训练内容和用户信息，规划用户下一步训练内容，制定言语训练方案的步骤。