CN108227903A

CN108227903A - 一种虚拟现实语言交互系统与方法

Info

Publication number: CN108227903A
Application number: CN201611193005.6A
Authority: CN
Inventors: 孙其民; 李炜
Original assignee: Inlife Handnet Co Ltd
Current assignee: Inlife Handnet Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2018-06-29
Anticipated expiration: 2036-12-21
Also published as: CN108227903B; WO2018113650A1

Abstract

一种虚拟现实语言交互系统与方法，系统包括：语音采集模块，用于周期性的采集音频信号；图像采集模块，用于实时采集用户图像；唇动识别模块，用于基于采集的图像识别出唇动特征；VR交互系统，VR交互系统，用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令。本发明通过实时采集用户图像、周期性采集音频信号，基于采集的图像识别出唇动特征，最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令，克服了VR头盔中语音输入的局限性，将语音输入与唇动特征相结合，可以准确识别重要声源的语音命令。

Description

一种虚拟现实语言交互系统与方法

技术领域

本发明涉及虚拟现实自然交互技术领域，尤其涉及一种虚拟现实语言交互系统与方法。

背景技术

语言是人们自然交流中最有效的手段，在基于计算机的人机交互技术研究中语言交互已经达到实用状态，但是在很多场合语音输入具有很大的局限性，使用时不可避免的会遇到使用者语音与周围环境噪声、其他人员语音等噪音的混叠。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种虚拟现实语言交互系统与方法。

本发明解决其技术问题所采用的技术方案是：构造一种虚拟现实语言交互系统，包括：

语音采集模块，用于周期性的采集音频信号；

图像采集模块，用于实时采集用户图像；

唇动识别模块，用于基于采集的图像识别出唇动特征；

VR交互系统，用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令。

在本发明所述的虚拟现实语言交互系统中，所述唇动识别模块包括：

预处理单元，用于针对多帧连续的图像，确定图像的有效区域；

唇部区域检测单元，用于从有效区域中分离出唇部区域；

唇动特征提取单元，用于从唇部区域提取出唇部轮廓，确定唇部轮廓的特征点，通过跟踪多帧连续的图像的特征点识别出唇动特征。

在本发明所述的虚拟现实语言交互系统中，所述VR交互系统包括：

启动单元，用于在语音采集模块采集到音频信号时，判断唇动识别模块是否识别出唇动特征，如果是则判断音频信号有效并触发语音识别单元工作，否则不作处理；

语音识别单元，用于对采集到的音频信号进行语音识别。

在本发明所述的虚拟现实语言交互系统中，所述VR交互系统还包括去噪单元，用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别。

在本发明所述的虚拟现实语言交互系统中，所述VR交互系统还包括：

有效时域确定单元，用于在每个音频采集周期内，基于唇动识别模块识别出的唇动特征，确定音频采集周期的有效时域，并通知语音识别单元对有效时域内的音频信号进行处理。

在本发明所述的虚拟现实语言交互系统中，所述唇动识别模块还包括唇语识别单元，用于根据唇动特征识别唇语信息；

所述VR交互系统包括还包括语义分析单元，用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析，并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。

在本发明所述的虚拟现实语言交互系统中，

所述唇动识别模块还包括唇语识别单元，用于根据唇动特征识别唇语信息；

所述VR交互系统包括还包括匹配单元，用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配，如果匹配度高于预设值，则将语音识别结果转化为虚拟角色的动作指令，否则不作处理。

在本发明所述的虚拟现实语言交互系统中，所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块；或者，所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。

本发明还公开了一种虚拟现实语言交互方法，包括：

S1、周期性的采集音频信号，实时采集用户图像；

S2、基于采集的图像识别出唇动特征；

S3、基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令。

在本发明所述的虚拟现实语言交互方法中，所述步骤S2包括：

S21、针对多帧连续的图像，确定图像的有效区域；

S22、从有效区域中分离出唇部区域；

S23、从唇部区域提取出唇部轮廓，确定唇部轮廓的特征点，通过跟踪多帧连续的图像的特征点识别出唇动特征；

S24、根据唇动特征识别唇语信息；

所述步骤S3包括：

S31、在采集到音频信号时，判断是否识别出唇动特征，如果是则判断音频信号有效并执行步骤S32，否则不作处理；

S32、在每个音频采集周期内，基于识别出的唇动特征，确定音频采集周期的有效时域；

S33、将音频信号中持续存在的低频声音作为环境噪音滤除；

S34、对音频信号的有效时域内的信号进行语音识别；

S35、对识别出的唇语信息、语音识别结果分别进行语义分析，并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令；或者，将识别出的唇语信息与语音识别结果进行匹配，如果匹配度高于预设值，则将语音识别结果转化为虚拟角色的动作指令，否则不作处理。

实施本发明的虚拟现实语言交互系统与方法，具有以下有益效果：本发明通过实时采集用户图像、周期性采集音频信号，基于采集的图像识别出唇动特征，最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令，克服了VR头盔中语音输入的局限性，将语音输入与唇动特征相结合，可以准确识别重要声源的语音命令。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1是本发明虚拟现实语言交互系统的较佳实施例的结构示意图；

图2是较佳实施例的唇动识别模块和VR交互系统的结构示意图；

图3是另一较佳实施例的唇动识别模块和VR交互系统的结构示意图；

图4是本发明虚拟现实语言交互方法的流程图；

图5是较佳实施例的步骤S2流程图；

图6是较佳实施例的步骤S3流程图；

图7是另一较佳实施例的步骤S3流程图。

具体实施方式

在本发明实施例中，本发明通过实时采集用户图像、周期性采集音频信号，基于采集的图像识别出唇动特征，最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令，克服了VR头盔中语音输入的局限性，将语音输入与唇动特征相结合，可以准确识别重要声源的语音命令。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

图1是本发明虚拟现实语言交互系统的较佳实施例的结构示意图；较佳实施例中，虚拟现实语言交互系统具体包括：

语音采集模块，用于周期性的采集音频信号；

图像采集模块，用于实时采集用户图像；

唇动识别模块，用于基于采集的图像识别出唇动特征；

VR渲染系统，用于根据最新变化的场景信息绘制最新输出信息；

输出通道，用于将输出信息在对应的通道输出展示给用户。其中，所述输出通道包括：声音输出通道、显示输出通道以及其他输出通道。

其中，所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。或者，所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。

参考图2是较佳实施例的唇动识别模块和VR交互系统的结构示意图。

较佳实施例中所述唇动识别模块包括：

预处理单元，用于针对多帧连续的图像，确定图像的有效区域；有效区域一般是人脸区域，例如可以利用肤色模型和人脸的几何特征检测出人脸。

唇部区域检测单元，用于从有效区域中分离出唇部区域；例如，在检测到人脸后通过Fisher变换增强嘴唇区域，然后利用Otsu二值化图像，再结合唇色模型实现对唇部的定位。

唇动特征提取单元，用于从唇部区域提取出唇部轮廓，确定唇部轮廓的特征点，通过跟踪多帧连续的图像的特征点识别出唇动特征；例如，唇部轮廓可以采用基于snake模型的嘴唇轮廓提取方法，然后确定特征点，利用光流法和snake模型结合的方法对特征点进行跟踪。

较佳实施例中所述VR交互系统包括：

语音识别单元，用于对采集到的音频信号进行语音识别。语音识别可以基于语音识别软件或者语音识别芯片实现。语音识别过程可以为：把帧识别成状态；把状态组合成音素；把音素组合成单词。

可以理解的是，本发明对于语音识别的具体算法并不做限制，除了上述语音识别过程外，还可以基于模板匹配法等实现，只要能根据音频信息进行直接的音频解析得到文字信息，都在本发明的保护范围之内。

语音采集模块实际收集的音频信息包括周围环境中的噪音干扰的音频信息和用于确定使用者动作指令的音频信息，因此在进行语音识别之前需要进行去噪处理。为此优选的，VR交互系统还包括去噪单元，用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别。

由于语音采集模块的一个完整的音频采集周期的时长与一个语音命令的语音时长可能不相同，或者在一个完整的音频采集周期中可能接收到多个人类语言，或多个语音命令。为此，优选的，VR交互系统还包括有效时域确定单元，用于在每个音频采集周期内，基于唇动识别模块识别出的唇动特征，确定音频采集周期的有效时域，并通知语音识别单元仅对有效时域内的音频信号进行处理。

考虑到在嘈杂的环境下，语音识别容易受影响而降低可靠性，而唇语识别不受嘈杂环境的影响，为了提高系统的可靠性，更进一步优选的，可以考虑将语音识别和唇语识别相结合，在两者中更符合语境的一个作为系统的有效输入。为此，唇动识别模块还包括唇语识别单元，所述VR交互系统包括还包括语义分析单元。

其中，唇语识别单元用于根据唇动特征识别唇语信息。例如，可以运用BP神经网络的唇读识别方法。采用附加动量法和自适应学习速率法在样本集上训练BP网络。

其中，语义分析单元，用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析，并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。

参考图3，在本发明的另一较佳实施例中，为了提高系统的可靠性，还可以对考虑将语音识别和唇语识别进行匹配，在两者的识别结果匹配度较高时才认为语音识别结果是有效的。因此，在该实施例中，唇动识别模块还包括唇语识别单元，所述VR交互系统还包括匹配单元。

其中，匹配单元用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配，如果匹配度高于预设值，则将语音识别结果转化为虚拟角色的动作指令，否则不作处理。

相应的，本发明还公开了一种虚拟现实语言交互方法，参考图4是本发明虚拟现实语言交互方法的流程图。本发明的虚拟现实语言交互方法包括：

S1、语音采集模块周期性的采集音频信号，图像采集模块实时采集用户图像；

S2、唇动识别模块基于采集的图像识别出唇动特征；

S3、VR交互系统基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令。

参考图5，其中，所述步骤S2包括：

S21、预处理单元针对多帧连续的图像，确定图像的有效区域；

S22、唇部区域检测单元从有效区域中分离出唇部区域；

S23、唇动特征提取单元从唇部区域提取出唇部轮廓，确定唇部轮廓的特征点，通过跟踪多帧连续的图像的特征点识别出唇动特征；

优选的，步骤S2还包括S24：唇语识别单元根据唇动特征识别唇语信息。

参考图6，其中，在一个较佳实施例中，所述步骤S3包括：

S31、启动单元在语音采集模块采集到音频信号时，判断唇动识别模块是否识别出唇动特征，如果是则判断音频信号有效并执行步骤S32，否则不作处理；

S32、有效时域确定单元在每个音频采集周期内，基于唇动识别模块识别出的唇动特征，确定音频采集周期的有效时域；

S33、去噪单元将音频信号中持续存在的低频声音作为环境噪音滤除后送往语音识别单元；

S34、语音识别单元对去噪单元发送的音频信号的有效时域内的信号进行语音识别。

优选的，步骤S3还包括S35：对识别出的唇语信息、语音识别结果分别进行语义分析，并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。

参考图7，其中，在另一个较佳实施例中，所述步骤S3包括：

优选的，步骤S3还包括S35：匹配单元将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配，如果匹配度高于预设值，则将语音识别结果转化为虚拟角色的动作指令，否则不作处理。

综上所述，实施本发明的虚拟现实语言交互系统与方法，具有以下有益效果：本发明通过实时采集用户图像、周期性采集音频信号，基于采集的图像识别出唇动特征，最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别，从而确定虚拟角色的动作指令，克服了VR头盔中语音输入的局限性，将语音输入与唇动特征相结合，可以准确识别重要声源的语音命令。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种虚拟现实语言交互系统，其特征在于，包括：

语音采集模块，用于周期性的采集音频信号；

图像采集模块，用于实时采集用户图像；

唇动识别模块，用于基于采集的图像识别出唇动特征；

2.根据权利要求1所述的虚拟现实语言交互系统，其特征在于，所述唇动识别模块包括：

唇部区域检测单元，用于从有效区域中分离出唇部区域；

3.根据权利要求2所述的虚拟现实语言交互系统，其特征在于，所述VR交互系统包括：

语音识别单元，用于对采集到的音频信号进行语音识别。

4.根据权利要求3所述的虚拟现实语言交互系统，其特征在于，所述VR交互系统还包括去噪单元，用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别。

5.根据权利要求3所述的虚拟现实语言交互系统，其特征在于，所述VR交互系统还包括：

6.根据权利要求3所述的虚拟现实语言交互系统，其特征在于，所述唇动识别模块还包括唇语识别单元，用于根据唇动特征识别唇语信息；

7.根据权利要求3所述的虚拟现实语言交互系统，其特征在于，

8.根据权利要求1所述的虚拟现实语言交互系统，其特征在于，所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块；或者，所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头，摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。

9.一种虚拟现实语言交互方法，其特征在于，包括：

S1、周期性的采集音频信号，实时采集用户图像；

S2、基于采集的图像识别出唇动特征；

10.根据权利要求9所述的虚拟现实语言交互方法，其特征在于，

所述步骤S2包括：

S21、针对多帧连续的图像，确定图像的有效区域；

S22、从有效区域中分离出唇部区域；

S24、根据唇动特征识别唇语信息；

所述步骤S3包括：

S33、将音频信号中持续存在的低频声音作为环境噪音滤除；

S34、对音频信号的有效时域内的信号进行语音识别；