CN106710590A

CN106710590A - 基于虚拟现实环境的具有情感功能的语音交互系统及方法

Info

Publication number: CN106710590A
Application number: CN201710101294.0A
Authority: CN
Inventors: 黄昌正; 林正才; 冀鸣; 刘晓悦; 叶永权
Original assignee: Guangzhou Science And Technology Co Ltd
Current assignee: Fantasy Zhuhai Technology Co ltd; Guangzhou Huantek Co ltd
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2017-05-24
Anticipated expiration: 2037-02-24
Also published as: CN106710590B

Abstract

本发明提供一种基于虚拟现实环境的具有情感功能的语音交互系统及方法，包括语音移动终端、虚拟环境终端、外部服务器，通过语音移动终端采集用户语音并进行处理，从而得到用户语音信息是控制命令或者语音交流信息，并发送至虚拟环境终端，进行相应的控制操作以及相应的情感、动作显示和语音播放，从而虚拟用户的在现实环境中的多人交流，本发明的功能脱离了对手柄的依赖，而且操控功能数量不受按键影响，操作简单，并且通过用户语音控制系统的操作，另外，通过从用户语音信息中提取用户出用户的情绪、动作信息，从而虚拟用户在现实环境中多人游戏或应用中相互交流和表达自己情感，真正实现情感交流，进一步提高了用户在虚拟环境中的体验效果。

Description

基于虚拟现实环境的具有情感功能的语音交互系统及方法

技术领域

本发明涉及一种虚拟现实环境的技术领域，尤其是一种基于虚拟现实环境的具有情感功能的语音交互系统及方法。

背景技术

虚拟现实(Virtual Reality，简称“VR”)是近年来出现的高新技术，其原理是利用电脑模拟产生一个三维空间的虚拟世界，向使用者提供关于视觉、听觉、触觉等感官的模拟，让使用者如同身临其境一般，可以及时、没有限制地观察三维空间内的事物。而交互控制领域是虚拟现实技术的重要应用方向之一，也为虚拟现实技术的快速发展起了巨大的需求牵引作用。

目前，一些科技企业已经推出了相应的虚拟现实控制设备，例如，美国Oculus公司推出的Oculus Rift、韩国三星公司推出的Gear、HTC公司推出的HTC Vive等。然而，这些虚拟现实设备的控制系统仍停留在手柄的控制方法。

中国专利201610869534.7的一种用于虚拟现实控制的交互手柄，公开一种用于虚拟现实环境的操作手柄，实现方法复杂、控制不精准、控制指令数量受限于按键个数。而且这些控制方式对于手部行动不便的人来说却无法操控；对于普通用户来说手柄控制流程也是比较复杂的，需要了解每个按键的功能才能操作。

中国专利为201610270381.4的一种基于虚拟现实VR场景的多用户语音交互方法以及装置；只是简单实现在虚拟环境的多人游戏中的语音通话交流的功能，但并不能在虚拟环境的游戏中看到游戏人物角色的表情、情态、动作等；看到游戏中的人物只是单纯固定的表情、嘴型动作在说话，在语音交流中毫无情感。

发明内容

针对现有技术的不足，本发明提供基于虚拟现实环境的具有情感功能的语音交互系统及方法，从而避免了虚拟环境中依赖于按键、传感设备而导致的操作复杂，功能受按键数量限制等问题。

本发明的技术方案为：一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：包括语音移动终端、虚拟环境终端、外部服务器，所述外部服务器分别与语音移动终端、虚拟环境终端通讯连接，所述语音移动终端与虚拟环境终端通讯连接；

所述语音移动终端包括

语音采集模块，用于采集用户的语音信号，并对采的集语音信号进行预处理；

语音识别模块，用于将预处理的语音信号转化为文本信息，并将文本信息生成相应的控制命令和参数；

语音情感特征参数提取模块，用于提取预处理后的语音信号中具有情感特征的参数；

存储模块，用于存储从外部服务器加载更新的语音识别数据、语音控制命令数据库和语音情感数据库；

无线通信模块，用于将识别出的控制命令和参数或者语音文本信息和对应的语音情感发送至虚拟环境终端，以及用于与外部服务器通讯连接，从而将外部服务器中相应的数据包加载更新到存储模块中；

处理器，用于处理采集的用户语音信息、或者发送更新命令至外部服务器加载更新存储模块储存的数据库；

所述处理器分别与语音采集模块、语音识别模块、语音情感特征参数提取模块、存储模块、无线通信模块连接；

所述语音采集模块与语音识别模块连接，所述语音采集模块还与语音情感特征参数提取模块连接，语音情感特征参数提取模块提取出来的情感特征分别与对应的语音识别模块识别出来的语音文本信息相映射；

所述存储模块分别与语音识别模块和语音情感特征参数提取模块连接；

所述虚拟环境终端包括

存储单元，用于存储从外部服务器加载更新的虚拟人物情感表情和动作的模型库、语音情感对应的语调和语速数据库；

语音播放模块，用于播放接收到的语音文本信息；

显示模块，用于展示虚拟人物语音表达的情感表情和动作；

通信模块，用来与语音移动终端通信，以及与外部服务器通讯连接，从而将外部服务器中相应的数据包加载更新到存储单元中；

所述存储单元分别与语音播放模块、显示模块连接。

所述的语音采集模块主要为麦克风。

所述的处理器为STM32F407芯片

所述的语音识别模块包括语音特征提取单元、语音特征比较单元、比较结果输出单元，所述语音特征提取单元与语音特征比较单元连接，所述语音特征比较单元与比较结果输出单元连接。

所述语音情感特征参数提取模块包括情感特征提取单元、情感特征比较单元、情感特征输出单元，所述情感特征提取单元与情感特征比较单元连接，所述情感特征比较单元与情感特征输出单元连接。

所述语音播放模块包括语调匹配单元、语音播放单元，所述语调匹配单元与语音播放单元连接。

所述显示模块包括动作匹配单元、显示单元，所述动作匹配单元与显示单元连接。

一种基于虚拟现实环境的具有情感功能的语音交互方法，包括以下步骤：

语音移动终端与虚拟环境终端进行连接，连接成功后，语音移动终端的处理器、虚拟环境终端分别发送数据库版本查询命令至外部服务器，查询语音移动终端的存储模块中存储的语音识别数据、语音控制命令数据库和语音情感数据库的版本、以及虚拟环境终端的存储单元中存储的虚拟人物情感表情和动作的模型库、语音情感对应的语调和语速数据库的版本是否与外部服务器中的一致，若不一致则从外部服务器加载更新相应最新版本的数据到相应的存储模块、存储单元中，从而使存储模块与存储单元中的数据为最新状态；

语音采集模块采集用户的语音信号，并将采集的语音信号进行滤波、量化等预处理后发送至语音识别模块与语音情感特征参数提取模块；

语音识别模块结合存储模块中存储的语音识别数据将语音信号转换为文本信息形式，将文本信息与语音控制命令数据库中的命令数据进行匹配是否为控制命令；如果是控制命令则生成相应的控制命令和参数，并输出至虚拟环境终端进行相应的控制操作；

如果不是控制命令，则为语音交流信息，则通过语音情感特征参数提取模块分析预处理后的语音信号的波形，并提取具有情感特征的参数，将提取出来的具有情感特征的参数与语音情感数据库的情绪数据进行匹配，从而得出相应的情感特征，然后将该情感特征信息映射对应词语或语句，并将情感特征、以及该情感特征信息映射对应词语或语句输送至虚拟环境终端，

虚拟环境终端的动作匹配单元将接收到的情感特征与存储单元中的虚拟人物情感表情和动作的模型库进行匹配，得到该情感特征所对应的情感表情和动作，通过显示单元显示相应的情感表情和动作；语调匹配单元将情感特征对应的词语或语句与语音情感对应的语调和语速数据库中的数据进行匹配，从而得到该词语或语句对应的语调和语速，通过语音播放单元播放相对应的具有语调和语速的语音交流信息，通过语音播放模块与显示模块同步播放，从而虚拟用户的在现实环境中的多人交流。

本发明的有益效果为：系统功能脱离了对手柄的依赖，而且数量不受按键影响，操作简单，并且通过用户语音控制系统的操作，另外，通过从用户语音信息中提取用户出用户的情绪、动作信息，并通过相应的通过语音播放模块与显示模块同步播放，从而虚拟用户在现实环境中多人游戏或应用中相互交流和表达自己情感，真正实现情感交流，进一步提高了用户在虚拟环境中的体验效果。

附图说明

图1为本发明系统框架图；

图2为本发明的流程图；

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1和图2所示，一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：包括语音移动终端、虚拟环境终端、外部服务器，所述外部服务器分别与语音移动终端、虚拟环境终端通讯连接，所述语音移动终端与虚拟环境终端通讯连接；

所述语音移动终端包括

语音采集模块，用于采集用户的语音信号，并对采集语音信号进行预处理；

所述虚拟环境终端包括

语音播放模块，用于播放接收到的语音文本信息；

显示模块，用于展示虚拟人物语音表达的情感表情和动作；

所述存储单元分别与语音播放模块、显示模块连接。

所述的语音采集模块主要为麦克风。

所述的处理器为STM32F407芯片。

语音采集模块采集用户的语音信号，并将采集的语音信号进行滤波、量化等预处理后发送至语音识别模块、语音情感特征参数提取模块；

语音识别模块结合存储模块中存储的语音识别数据将语音信号转换为文本信息形式，将文本信息与语音控制命令数据库中的命令数据进行匹配是否为控制命令；如果是控制命令则生成相应的控制命令和参数，并输出至虚拟环境终端进行相应的控制操作，具体的控制操作可以为系统菜单相关操作，例如“菜单”，“返回”，“退出”，“开始”，“确定”，“取消”等等；还可以为人机交互操作，例如在游戏中的相关操空，“前进50米”，“向左转60度”，“以10米每秒的速度向右移动30秒”等操作；

所述语音情感数据库中的语音情感数据主要是利用现有技术中的分类器训练输出的，通过先收集情感声音数据作为训练样本；然后对其提取MFCC参数、共振峰以及过零率三个特征参数并进行特征组合，建立高斯混合模型；对高斯混合模型按情感类别分类，形成各个情感类别的声学模型数据库；当收到具有情感化的语音数据时，对其提取特征参数，然后与各个情绪类别下的声学模型相匹配，最后得到该语音的情感信息。

所述虚拟人物情感表情、动作模型库主要是通过3D建模软件建立各类情感对应的表情和一些夸张的情绪习惯性作出的动作的3D人物模型。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：包括语音移动终端、虚拟环境终端、外部服务器，所述外部服务器分别与语音移动终端、虚拟环境终端通讯连接，所述语音移动终端与虚拟环境终端通讯连接；

所述语音移动终端包括

语音采集模块，用于采集用户的语音信号，并对采集的语音信号进行预处理；

语音情感特征参数提取模块，用于提取语音采集模块预处理后的语音信号中具有情感特征的参数；

处理器，用于处理采集的用户语音信息、或者发送更新命令至外部服务器加载更新存储模块储存的数据；

所述语音采集模块分别与语音识别模块、语音情感特征参数提取模块连接，语音情感特征参数提取模块提取出来的情感特征分别与对应的语音识别模块识别出来的语音文本信息相映射；

所述虚拟环境终端包括

语音播放模块，用于播放接收到的语音文本信息；

显示模块，用于展示虚拟人物语音表达的情感表情和动作；

所述存储单元分别与语音播放模块、显示模块连接。

2.根据权利要求1所述的一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：所述的语音采集模块主要为麦克风。

3.根据权利要求1所述的一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：所述的处理器为STM32F407芯片。

4.根据权利要求1所述的一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：所述的语音识别模块包括语音特征提取单元、语音特征比较单元、比较结果输出单元，所述语音特征提取单元与语音特征比较单元连接，所述语音特征比较单元与比较结果输出单元连接。

5.根据权利要求1所述的一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：所述语音情感特征参数提取模块包括情感特征提取单元、情感特征比较单元、情感特征输出单元，所述情感特征提取单元与情感特征比较单元连接，所述情感特征比较单元与情感特征输出单元连接。

6.根据权利要求1所述的一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：所述语音播放模块包括语调匹配单元、语音播放单元，所述语调匹配单元与语音播放单元连接。

7.根据权利要求1所述的一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：所述显示模块包括动作匹配单元、显示单元，所述动作匹配单元与显示单元连接。

8.根据权利要求1-7中任一项所述的基于虚拟现实环境的具有情感功能的语音交互方法，其特征在于：包括以下步骤：

语音识别模块结合存储模块中存储的语音识别数据将预处理后的语音信号转换为文本信息形式，并将文本信息与语音控制命令数据库中的命令数据进行匹配是否为控制命令；如果是控制命令则生成相应的控制命令和参数并输出至虚拟环境终端进行相应的控制操作；

如果不是控制命令，则为语音交流信息，语音情感特征参数提取模块分析预处理后的语音信号的波形，并提取具有情感特征的参数，将提取出来的具有情感特征的参数与语音情感数据库的情绪数据进行匹配，从而得出相应的情感特征，然后将该情感特征信息映射对应词语或语句，并将情感特征、以及该情感特征信息映射对应词语或语句输送至虚拟环境终端，