CN110176284A

CN110176284A - 一种基于虚拟现实的言语失用症康复训练方法

Info

Publication number: CN110176284A
Application number: CN201910425523.3A
Authority: CN
Inventors: 潘志庚; 焦欢欢
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-27

Abstract

本发明公开了一种基于虚拟现实的言语失用症康复训练方法。本发明方法采用头显设备和计算机：头显设备包括内置有定位模块的头戴式显示器和手柄；计算机与头显设备连接，提供康复训练虚拟场景的画面。该方法包括：通过计算机将言语失用症康复训练画面传输到头显设备，使用者通过手柄与虚拟物品进行交互，学习虚拟场景中物品的发音；计算机将虚拟人嘴型画面传输到头显设备，使用语音在虚拟场景中与虚拟人进行交互，学习完成后进入训练模块虚拟场景；使用者用语音在虚拟场景中与虚拟物品进行交互，获得训练分数信息，计算机实时获取头戴式显示器、手柄的反馈信息。本发明方法减少了言语失用症康复训练的成本、提高了患者训练的积极性和治疗效果。

Description

一种基于虚拟现实的言语失用症康复训练方法

技术领域

本发明涉及虚拟康复训练技术领域，具体涉及一种基于虚拟现实的言语失用症康复训练方法。

背景技术

言语失用是不能执行自主运动进行发音和言语的活动，而且这种异常是在缺乏或者不能用言语肌肉的麻痹、不协调或肌力减弱来解释的一种运动性言语障碍。这种疾病的主要特征就是患者在生活中失去了语言表达的能力，给患者的生活带来了很大的压力，同时也影响了患者的健康，因此言语失用患者的康复治疗显得尤为重要。传统的康复治疗方法通常是在医院由康复师制定康复计划，利用医疗康复器材进行被动式辅助性康复训练，其康复治疗过程单调、枯燥，用户难以产生兴趣，治疗效果也不尽人意。

近年来，随着虚拟现实技术的广泛应用，将虚拟现实技术引入语言康复训练中已成为研究热点。虚拟现实技术由软件提供多种训练场景，如同置身于游戏之中，在用户使用虚拟现实技术进行康复训练时，可以明显地感受到自己在动作技能、肌肉张力等方面的提高，使治疗过程充满乐趣，提高用户的乐观情绪。

发明内容

本发明的目的就是提供了一种基于虚拟现实的言语失用症康复训练方法，该方法使用先进的虚拟现实技术，减少康复训练的成本、增加康复训练的趣味性。

本发明方法采用的康复训练设备，包括：

头显设备，包括头戴式显示器、与所述头戴式显示器无线交互的手柄；所述头戴式显示器和手柄均内置有定位模块，所述的定位模块用于空间内同时追踪头戴式显示器与手柄的定位；

计算机，与所述头显设备连接；计算机为头显设备提供康复训练虚拟场景的画面，虚拟场景包括：言语失用康复室场景、学习虚拟人嘴型和发音场景、康复训练场景；

在言语失用康复室场景中，使用者通过与场景中虚拟物品的交互，学习场景中每个物品的读音；

在学习虚拟人嘴型和发音场景中，使用者跟随虚拟人的嘴型和发音，学习汉语拼音字母、字、词、句，如果检测到使用者读音正确，则会出现显示正确的提示界面；否则出现显示错误的提示界面；

在康复训练场景中，使用者与场景中展示的虚拟物品进行语音交互，如果计算机检测到读音与所示物品的读音相同，则会出现显示正确的提示界面；否则出现显示错误的提示界面，并且播放物品的正确读音。

该方法的具体包括：

1.计算机将言语失用症康复训练画面传输到头显设备，提供言语失用症康复训练虚拟场景，使用者用手柄在虚拟康复训练中与虚拟物品进行交互，学习虚拟场景中物品的发音，点击学习按钮进入学习模块虚拟场景；

2.计算机将虚拟人嘴型画面传输到头显设备，提供学习的虚拟场景，使用者用语音在虚拟场景中与虚拟人进行交互，学习完成后，点击训练按钮进入训练模块虚拟场景；

使用者用语音在虚拟场景中与虚拟人进行交互，采用音素识别器将输入的语音转换为音素输入；所述的音素为语言的最小可分单元，采用实时音素识别器将输入的语音实时转换为音素；具体方法如下：

在语音识别系统中，一段语音信号经过特征提取后得到一个特征序列O＝(o₁,o₂,…,o_i)，假定该特征帧序列对应的一个音素串为W＝(ω₁,ω₂,…,ω_n),那么连接语音识别的任务就是在语言L中找到与O对应的最可能音素串满足：

在基于隐马尔可夫模型语音识别中，使用Veterbi搜索算法，每处理一个特征序列即得到当前最佳的音素串,由式(1)得到t时刻的最佳音素串：

其中，o_t为t时刻输入的特征帧，表示音素串的最后一个音素；由(s1)得到t+1时刻到t+N-1时刻的N-1个音素序列：

如果连续N个特征帧搜索到的最佳音素序列的最后一个音素都相同，设为并且与上一个已经识别输出的发音音素不同，那么将作为当前的发音音素输出，即如果t到t+N-1时刻得到的最佳音素序列满足：

则把当作当前正在发音的音素输出；

3.计算机将训练画面传输到头显设备，提供训练的虚拟场景，使用者用语音在虚拟场景中与虚拟物品进行交互，获得训练分数信息，计算机实时获取头戴式显示器、手柄的反馈信息；

采用动态视素来描述某一视素发音时口型从产生到消失的完整变化过程：每个视素的每一个面部动画参数都定义一个控制函数，同时引入了两个无声模型以及他们各自的控制函数；p表示视素s的某一个面部动画参数，p在s中的控制函数D_sp表示为：

其中：α_sp表示控制函数的峰值，θ_sp(-)、θ_sp(+)是衰减系数，c是常数，τ表示当前时刻到控制函数中心时刻的距离τ＝t_s0-t，t_s0表示当前时刻；

两个无声模型分别表示无声到有声和有声到无声的口型转变；其中：

从无声到有声的控制函数为：

其中σ＝t_l0-t，t_l0表示左无声模型中心的时刻。

从有声到无声的控制函数为：

其中v＝t_r0-t，t_r0表示右无声模型中心的时刻。

任意时刻视素的动态参数由其静态值按照(s2)～(s4)表示的控制函数加权构成：

其中：T_0p为自然状态下中参数p的静态值；T_sp为视素s中参数p的静态值。

本发明的康复训练方法，使用者只需要在电脑上安装本系统即可进行康复训练，减少了言语失用症康复训练的成本、提高了患者训练的积极性和治疗效果。本发明系统采用语音驱动虚拟人嘴型动画的算法，该方法能够输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动画，从而使虚拟人说话更加逼真。

附图说明

图1为本发明方法的流程示意图；

图2为实时语音驱动的虚拟说话人系统流程图。

具体实施方式

一种基于虚拟现实的言语失用症康复训练方法，采用的康复训练设备包括：

头显设备，包括头戴式显示器、与所述头戴式显示器无线交互的手柄，所述头戴式显示器和手柄均内置有定位模块，定位模块能用于空间内同时追踪头戴式显示器与手柄的定位系统。该设备满足实现显示虚拟场景和手柄交互的功能的硬件要求。头戴设备可采用HTC Vive头显设备。

计算机，与所述头显设备连接。计算机为头显设备提供康复训练虚拟场景的画面。

本实施例利用unity3D引擎并配合HTC Vive虚拟头盔进行制作。使用HTC Vive手柄进行交互。场景中的模型是用3dsmax软件创建，该软件可以建立高精度的模型，精确模拟出中现实中的言语失用康复训练室、人的嘴型，使患者在虚拟场景中有种身临其境的感觉。

虚拟场景包括：言语失用康复室场景、学习虚拟人嘴型和发音场景、康复训练场景。

在言语失用康复室场景中，使用者可以通过与场景中虚拟物品的交互，学习场景中每个物品的读音。

在学习虚拟人嘴型和发音场景中，使用者跟随虚拟人的嘴型和发音，学习汉语拼音字母、字、词、句。使用者必须跟随虚拟人的嘴型和发音进行学习，如果检测到使用者读音正确，则会出现显示正确的提示界面；否则出现显示错误的提示界面。

在康复训练场景中，使用者与场景中展示的虚拟物品进行语音交互。如果计算机检测到读音与所示物品的读音相同，则会出现显示正确的提示界面；否则出现显示错误的提示界面，并且播放物品的正确读音。

如图1所示，该方法的具体是：

1.计算机将言语失用症康复训练画面传输到头显设备，提供言语失用症康复训练虚拟场景，使用者用手柄在虚拟康复训练中与虚拟物品进行交互，学习虚拟场景中物品的发音，点击学习按钮进入学习模块虚拟场景。

2.计算机将虚拟人嘴型画面传输到头显设备，提供学习的虚拟场景，使用者用语音在场景中与虚拟人进行交互，学习完后，点击训练按钮进入训练模块虚拟场景。

计算机将虚拟人画面传输到头显设备之前，通过语音驱动虚拟人嘴型，其具体动画方法包括主控模块、实时识别模块、合成模块、驱动模块。详细流程如图2所示。

(1)主控模块首先启动识别器，识别器收到指令检测是否有语音输入，即语音激活检测(voice activation detection，AVD)。

(2)当实时识别模块检测到有语音输入时，针对输入的语音进行语音识别处理，将语音转换为汉语文本，再对汉语文本进行分析，将汉字拆分为不同的汉语可视化音素，将识别结果发送到结果队列。

(3)当主控模块收到识别结果的信息，启动合成模块，合成模块检测队列状态，从中取出识别结果即音素，将其映射为对应视素后，利用动态视素生成算法合成面部动画参数(FAP，Facial Animation Parameter)序列，发送到驱动模块。

(4)驱动模块利用收到的面部动画参数序列，驱动头部模型得到相应的面部动画。

使用者用语音在场景中与虚拟人进行交互，采用音素识别器将输入的语音转换为音素输入。音素为语言的最小可分单元，为了实现实时语音驱动虚拟人嘴型的效果，采用实时音素识别器将输入的语音实时转换为音素；具体如下：

在基于隐马尔可夫模型(HMM，Hidden Markov Model)语音识别中，使用Veterbi搜索算法，每处理一个特征序列就可以得到当前最佳的音素串,由式(s1)得到t时刻的最佳音素串：

其中，o_t为t时刻输入的特征帧，表示音素串的最后一个音素。由(s1)得到t+1时刻到t+N-1时刻的N-1个音素序列：

为了实现实时面部动画效果，识别器需要随着语音的输入快速输出当前发音的音素。考虑到不可避免的识别错误，采用的语音输入方法是：如果连续N个特征帧搜索到的最佳音素序列的最后一个音素都相同，设为并且与上一个已经识别输出的发音音素不同，那么将作为当前的发音音素输出。即如果t到t+N-1时刻得到的最佳音素序列满足：则把当作当前正在发音的音素输出。

3.计算机将训练画面传输到头显设备，提供训练的虚拟场景，使用者用语音在虚拟场景中与虚拟物品进行交互，获得训练分数信息，计算机实时获取头戴式显示器、手柄的反馈信息。所述的反馈信息包括位置信息、图像信息、按键反馈信息。

由于发音过程是连续的、动态的，因此静态视素不能准确描述虚拟人发音的连续过程，采用动态视素来描述某一视素发音时口型从产生到消失的完整变化过程。

为了描述视素的动态过程，每个视素的每一个面部动画参数(FAP，FacialAnimation Parameter)都定义一个控制函数，同时引入了两个无声模型以及他们各自的控制函数。p表示视素s的某一个面部动画参数，那么p在s中的控制函数D_sp表示为：

其中：α_sp表示控制函数的峰值，θ_sp(-)、θ_sp(+)是衰减系数，c是常数，τ表示当前时刻到控制函数中心时刻的距离τ＝t_s0-t，t_s0表示当前时刻。

两个无声模型分别表示无声到有声和有声到无声的口型转变。

从无声到有声(左无声模型)的控制函数为：

其中σ＝t_l0-t，t_l0表示左无声模型中心的时刻。

从有声到无声(右无声模型)的控制函数为：

其中v＝t_r0-t，t_r0表示右无声模型中心的时刻。

任意时刻视素的动态参数由它们的静态值按照(s2)～(s4)表示的控制函数加权构成：其中：T_0p为自然状态下中参数p的静态值；T_sp为视素s中参数p的静态值。

Claims

1.一种基于虚拟现实的言语失用症康复训练方法，该方法采用的康复训练设备包括：

计算机，与所述头显设备连接；计算机为头显设备提供康复训练虚拟场景的画面；

其特征在于，该方法的具体包括：

(1).计算机将言语失用症康复训练画面传输到头显设备，提供言语失用症康复训练虚拟场景，使用者用手柄在虚拟康复训练中与虚拟物品进行交互，学习虚拟场景中物品的发音，点击学习按钮进入学习模块虚拟场景；

(2).计算机将虚拟人嘴型画面传输到头显设备，提供学习的虚拟场景，使用者用语音在虚拟场景中与虚拟人进行交互，学习完成后，点击训练按钮进入训练模块虚拟场景；

则把当作当前正在发音的音素输出；

(3).计算机将训练画面传输到头显设备，提供训练的虚拟场景，使用者用语音在虚拟场景中与虚拟物品进行交互，获得训练分数信息，计算机实时获取头戴式显示器、手柄的反馈信息；

从无声到有声的控制函数为：

其中σ＝t_l0-t，t_l0表示左无声模型中心的时刻；

从有声到无声的控制函数为：

其中v＝t_r0-t，t_r0表示右无声模型中心的时刻；

任意时刻视素的动态参数由其静态值按照(s2)～(s4)表示的控制函数加权构成：其中：T_0p为自然状态下中参数p的静态值；T_sp为视素s中参数p的静态值。

2.如权利要求1所述的一种基于虚拟现实的言语失用症康复训练方法，其特征在于：计算机为头显设备提供的康复训练虚拟场景包括：言语失用康复室场景、学习虚拟人嘴型和发音场景、康复训练场景；

3.如权利要求1所述的一种基于虚拟现实的言语失用症康复训练方法，其特征在于：

计算机将虚拟人画面传输到头显设备之前，通过语音驱动虚拟人嘴型，动画方法包括主控模块、实时识别模块、合成模块、驱动模块，具体是：

(a)主控模块首先启动识别器，识别器收到指令检测是否有语音输入，即语音激活检测；

(b)当实时识别模块检测到有语音输入时，针对输入的语音进行语音识别处理，将语音转换为汉语文本，再对汉语文本进行分析，将汉字拆分为不同的汉语可视化音素，将识别结果发送到结果队列；

(c)当主控模块收到识别结果的信息，启动合成模块，合成模块检测队列状态，从中取出识别结果即音素，将其映射为对应视素后，利用动态视素生成算法合成面部动画参数序列，发送到驱动模块；

(d)驱动模块利用收到的面部动画参数序列，驱动头部模型得到相应的面部动画。

4.如权利要求1所述的一种基于虚拟现实的言语失用症康复训练方法，其特征在于：所述的反馈信息包括位置信息、图像信息、按键反馈信息。