CN108255308A

CN108255308A - 一种基于虚拟人的手势交互方法及系统

Info

Publication number: CN108255308A
Application number: CN201810142789.2A
Authority: CN
Inventors: 尚小维; 俞志晨; 李晓丹
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-07-06

Abstract

本申请提供的一种基于虚拟人的手势交互方法及系统，其中，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：通过所述虚拟人输出多模态数据；获取用户的多模态交互数据；解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像；当所述招手手势满足预设条件时，确定该手势指示空间移动的意图；所述虚拟人响应所述空间移动的意图并进行移动。

Description

一种基于虚拟人的手势交互方法及系统

技术领域

本申请涉及人工智能技术领域，特别涉及本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，人与计算机的交互活动逐渐成为人们日常生活的重要组成部分。在这种情况下，更加自然和更加符合人交流习惯的人机交互技术也得到了较大的发展。

目前，在传统的虚拟现实交互中，用户需要通过键盘、鼠标等外接设备来控制虚拟人实现所述虚拟人在虚拟现实空间中进行移动，用户对外接设备的依赖性较强，人机交互不直接不自然，极大的降低了用户体验。

发明内容

有鉴于此，本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

一方面，本申请提供一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像；

当所述招手手势满足预设条件时，确定该手势指示空间移动的意图；

所述虚拟人响应所述空间移动的意图并进行移动。

可选地，所述预设条件包括所述招手手势与预设招手手势特征相匹配以及所述招手手势的持续时长大于等于第一阈值。

可选地，所述虚拟人响应所述空间移动的意图并进行移动包括：

所述虚拟人响应所述空间移动的意图并进行移动，同时进行询问。

可选地，所述招手手势特征包括：

实时采集的手部轮廓、各手指轮廓和手指节点；

根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述招手手势，其中，所述手指节点包括手指关节关键点和手指指尖。

可选地，所述招手手势包括：

手心向上，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动；或者

手心向上，大拇指、中指、无名指、小拇指蜷缩至手掌，食指进行朝向手心的一次或几次摆动；或者

手心向下，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动。。

可选地，所述虚拟人响应所述空间移动的意图并进行移动之后，还包括：

匹配所述虚拟人的肢体、情感和/或表情输出。

另一方面，本申请还提供了一种基于虚拟人的手势交互系统，包括智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述云端服务器用于，

所述智能设备还配置为呈现所述虚拟人响应所述空间移动的意图并进行移动。

另一方面，本申请还提供了一种虚拟人，所述虚拟人在智能设备运行，所述虚拟人执行所述基于虚拟人的手势交互方法的步骤。

另一方面，本申请还提供了一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

该智能设备中所运行的所述虚拟人响应所述空间移动的意图并进行移动。

另一方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现所述基于虚拟人的手势交互方法的步骤。

本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，其中，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：通过所述虚拟人输出多模态数据；获取用户的多模态交互数据；解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像；当所述招手手势满足预设条件时，确定所述招手手势指示空间移动的意图；控制所述虚拟人响应所述空间移动的意图并进行移动。采用该方法当实时采集的手势满足预设条件时，即可实现所述虚拟人在虚拟现实空间中进行移动，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并且用户也无需直接接触即可实现对虚拟人的控制操作，用户操作方便，极大的提高用户体验。

附图说明

图1是本申请实施例的一种基于虚拟人的手势交互系统的结构示意图；

图2是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图3是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图4是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图5是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图6是本申请实施例的一种基于虚拟人的手势交互系统的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请提供了一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，本申请一实施例提供的基于虚拟人的手势交互系统结构示意图。

该基于虚拟人的手势交互系统包括智能设备120和云端服务器110，所述虚拟人在所述智能设备120运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时可以启动语音、情感、视觉和感知能力。

所述智能设备120可以包括：用户界面121、通信模块122、中央处理单元123和人机交互输入输出模块124；

其中，所述用户界面121，其在预设显示区域内显示被唤醒的虚拟人。

所述人机交互输入输出模块124，其用于获取多模态数据以及输出虚拟人执行参数，多模态数据包括来自周围环境的数据及与用户进行交互的多模态交互数据。

所述通信模块122，其用于调用所述云端服务器110的能力接口并接收通过所述云端服务器110的能力接口解析所述多模态交互数据以决策出多模态输出数据。

所述中央处理单元123，用于利用所述多模态输出数据计算与所述多模态输出数据相对应的应答数据。

所述云端服务器110具备多模态数据解析模块，用于对所述智能设备120接收的多模态交互数据进行解析，并决策多模态输出数据。

如图1所示，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口111，其接收从所述通信模块122转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口112，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能和决策功能；

其中，所述图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

所述特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

所述决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

情感计算接口114，其接收从所述通信模块122转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口114是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口113，其接收从所述通信模块122转发的多模态数据，所述认知计算接口113用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

上述为本申请实施例的一种基于虚拟人的手势交互方法及系统的一种示意性的技术方案。为了便于本领域技术人员理解本申请的技术方案，下述通过多个实施例对本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，进行进一步的说明。

本申请中，智能设备与云端服务器连接使得虚拟人具备多模态人机交互的能力，即具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等Artificial Intelligence(AI)的能力。

所述虚拟人可以以3D虚拟形象通过所述智能设备进行显示，具备特定形象特征，并且可以为所述虚拟人配置社会属性、人格属性和人物技能等。

具体来说，所述社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；所述人格属性可以包括：性格、气质等属性；所述人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

参见图2，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤201至步骤205。

步骤201：通过所述虚拟人输出多模态数据。

本申请实施例中，所述智能设备可以是非触摸、非鼠标键盘输入的屏幕、携带有摄像头的全息屏幕、电视屏、多媒体显示屏、LED屏等，同时，可以是全息设备、虚拟现实技术(VR)设备、个人计算机(personal computer，PC)。

所述虚拟人可以为系统应用程序或者可执行文件，并且所述虚拟人在所述智能设备运行和呈现，实现与用户进行交互。所述智能设备中运行操作系统，如全息设备内置系统，如PC的操作系统则为windows或MAC OS系统等。

本申请实施例中，所述多模态数据可以是语言语音、视觉感知、触摸感知、情感表情以及动作等数据。所述智能设备呈现所述虚拟人输出多模态数据，例如所述虚拟人为全息设备系统应用程序，所述虚拟人在全息设备运行，并通过所述全息设备系统进行唱歌、跳舞或者讲故事技能展示等。

步骤202：获取用户的多模态交互数据。

本申请实施例中，通过所述智能设备获取用户的多模态交互数据。

所述多模态交互数据可以包括视觉数据、语音数据、动作数据、和/或感知数据，其中，所述视觉数据可以包括通过视觉识别设备采集图像及视频数据等，所述语音数据可以包括唱歌、讲故事、语音对话等，所述动作数据可以包括用户接触所述虚拟人触摸部件的肢体动作，所述感知数据可以包括红外遥控数据、温度数据等。

本申请实施例中，若所述多模态数据为语音数据，所述语音数据为唱歌，所述智能设备获取用户的多模态交互数据即为所述智能设备获取用户唱歌的语音数据，若所述多模态数据为视觉数据，所述视觉数据为通过视觉识别设备采集的用户肢体姿态的图像，所述智能设备获取用户的多模态交互数据即为所述智能设备获取用户做出的肢体姿态的图像数据。

步骤203：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像。

本申请实施例中，可以由云端服务器解析所述智能设备接收到的所述多模态交互数据，并获得解析结果。

所述云端服务器对所述多模态交互数据进行解析并获得解析结果，即是所述云端服务器对视觉数据、语音数据、动作数据、和/或感知数据进行视觉识别、语义理解、情感计算和/或认知计算，获得识别后的结果。

若所述多模态交互数据为视觉数据，则可以通过所述虚拟人的视觉识别能力检测并提取所述视觉数据的图像，然后由所述云端服务器对所述视觉数据的图像进行解析，解析出的结果可以是用户腿部或手臂等肢体姿态。

本申请实施例中，以所述多模态交互数据为招手手势的图像为例进行说明，首先通过所述虚拟人的视觉识别能力检测并提取所述招手手势的图像，然后由所述云端服务器对所述招手手势的图像进行解析，解析出的结果为：从所述招手手势的图像中提取招手手势。

所述招手手势可以包括手心向上，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动；或者

手心向上，大拇指、中指、无名指、小拇指蜷缩至手掌，食指进行朝向手心的一次或几次摆动；或者，

手心向下，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动。

所述预设空间位置关系可以食指、中指、无名指、小拇指为并列关系，也可以食指、中指、无名指、小拇指为空间上相互交错的关系。

步骤204：当所述招手手势满足预设条件时，确定该手势指示空间移动的意图。

本申请实施例中，所述预设条件包括所述招手手势与预设招手手势特征相匹配所述招手手势的持续时长大于等于第一阈值。

所述招手手势的特征可以包括：实时采集的手部轮廓(所述手部轮廓包含的手腕部分)、各手指轮廓和手指节点；根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述招手手势，其中，所述手指节点包括手指关节关键点和手指指尖。

本申请实施例中，若所述预设招手手势特征可以包括手心向上，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指任意手指进行朝向手心的一次或几次摆动，以及所述招手手势的持续时长大于等于1s。

此时解析的所述多模态交互数据为招手手势的图像，并且所述招手手势为手心向上，大拇指、中指、无名指、小拇指蜷缩至手掌，食指进行朝向手心的一次或几次摆动，以及所述招手手势的持续时长为1.5s。

那么则可以确定该手势指示空间移动的意图。

所述空间移动的意图即为意图使得运行在智能设备的所述虚拟人在虚拟现实空间中进行移动。

本申请实施例中，还可以对招手手势的频率进行限定，所述招手手势的频率可以为：在1s内的招手次数为2次或2次以上。根据所述招手手势的频率设定用户与虚拟人的熟悉程度，若招手手势的频率较高，可以认为熟悉程度较高，若招手手势的频率较低，可以认为熟悉程度较低。

步骤205：所述虚拟人响应所述空间移动的意图并进行移动。

本申请实施例中，所述虚拟人在智能设备运行，当接收到云端服务器解析后的多模态交互数据中包括空间移动的意图时，所述虚拟人响应所述空间移动的意图，并在所述智能设备的虚拟现实空间中进行移动。

举例说明，若当前虚拟人以全息设备作为载体，在所述全息设备的虚拟现实空间中心跳舞，在接收并解析到用户输入的多模态交互数据为招手手势的图像，并且提取出的该手势指示空间移动的意图时，所述虚拟人响应所述空间移动的意图，即所述虚拟人在所述智能设备的虚拟现实空间中进行前向移动，移动的距离可以与招手手势的频率进行匹配，本申请对此不作限定。

本申请实施例提供的一种基于虚拟人的手势交互方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，并且实现所述虚拟人在所述智能设备的虚拟现实空间中进行移动，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，结合视觉能力实现与虚拟人的多模态交互，用户体验效果好。

参见图3，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤301至步骤305。

步骤301：通过所述虚拟人输出多模态数据。

步骤302：获取用户的多模态交互数据。

步骤303：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像。

步骤304：当所述招手手势不满足预设条件时，询问该手势指示的意图。

本申请实施例中，所述预设条件包括所述招手手势与预设招手手势特征相匹配以及所述招手手势的持续时长大于等于第一阈值。

所述招手手势的特征可以包括：实时采集的手部轮廓、各手指轮廓和手指节点；根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述招手手势，其中，所述手指节点包括手指关节关键点和手指指尖。

此时解析的所述多模态交互数据为招手手势的图像，并且所述招手手势为手心向上，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动，以及所述招手手势的持续时长为0.5s。

那么所述招手手势不满足预设条件，所述虚拟人则询问该手势指示的意图，即在所述招手手势不满足有空间移动意图的招手手势时，所述虚拟人则需要再次确认所述招手手势所指示的意图，以便进行下一步的操作。

本申请实施例中，所述招手手势不满足预设条件可以包括：所述招手手势与预设招手手势特征不匹配，例如所述预设招手手势特征为手心向上，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动，所述招手手势为手心向下，食指、中指、无名指、小拇指形成预设空间位置关系，且所述食指、中指、无名指、小拇指同步进行一次或几次摆动，则所述招手手势与预设招手手势特征不匹配；或者

所述招手手势的持续时长小于第二阈值，例如所述第二阈值为2s，而所述招手手势的持续时间为1s，则所述招手手势的持续时长小于第二阈值。

本申请实施例中，所述招手手势可以出现一次也可以出现多次，每出现一次所述招手手势，所述虚拟人就会在智能设备的虚拟空间中前向移动一段距离，也可以根据当时的话题或场景来确定所述招手手势的含义，例如用户说了再见，又做了招手手势的时候，所述虚拟人可以理解为该招手手势为再见的动作，不前向移动。

步骤305：所述虚拟人响应所述空间移动的意图并进行移动。

本申请实施例中，当招手手势不满足预设条件时，所述虚拟人需要询问该手势指示的意图是否为空间移动的意图，若所述意图为空间移动的意图，则所述虚拟人响应所述空间移动的意图，前向移动一次。

本申请实施例提供的一种基于虚拟人的手势交互方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，并且实现所述虚拟人在所述智能设备的虚拟空间中进行移动，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，结合视觉能力实现与虚拟人的多模态交互，用户体验效果好。

参见图4，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤401至步骤406。

步骤401：通过所述虚拟人输出多模态数据。

步骤402：获取用户的多模态交互数据。

步骤403：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像。

步骤404：当所述招手手势满足预设条件时，确定该手势指示空间移动的意图。

本申请实施例中，若通过视觉能力检测并提取的招手手势的图像中有两个招手手势时，只要其中一个招手手势满足预设条件，就可以确定该手势指示空间移动的意图。

步骤405：所述虚拟人响应所述空间移动的意图并进行移动。

步骤406：匹配所述虚拟人的肢体、情感和/或表情输出。

本申请实施例中，用户与运行在智能设备的虚拟人进行交互，智能设备通过所述虚拟人输出多模态数据，然后接收用户根据所述多模态数据输入的多模态交互数据，由云端服务器解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像，当解析出的所述招手手势满足预设条件时，确定该手势指示空间移动的意图，则所述虚拟人响应所述空间移动的意图，并进行移动，同时匹配所述虚拟人的肢体、情感和/或表情输出。

例如用户与运行在全息设备的虚拟人进行交互，所述虚拟人正在讲故事，若用户此时想要所述虚拟人在全息设备的虚拟空间中进行移动，则可以在所述虚拟人讲该故事时提供一个可以使得虚拟人进行移动的手势，由云端服务器对该手势进行解析，即通过视觉能力检测并提取的该手势的图像，通过解析得出该手势为招手手势，且所述招手手势满足预设条件，则可以确定该手势指示空间移动的意图，此时所述虚拟人响应所述空间移动的意图，即所述虚拟人讲故事的同时在全息设备的虚拟空间中进行前向移动一次，同时，当所述虚拟人接收到所述招手手势时可以搭配肢体动作、眼神、表情等一起协同统一表达，可以是配合表达出兴奋雀跃的面部表情，还可以模仿向前跑步的动作使得虚拟人更加的形象，可以提高用户体验。

本申请实施例中，还可以将空间移动的意图的预设招手手势特征以及手势的持续时间等根据实际应用进行具体设置，本申请对此不作限定。

本申请实施例中，所述虚拟人和用户交互时，可以连续出现招手手势，一次或多次招手手势均可以表示有空间移动的意图。

本申请实施例提供的方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态并在智能设备的虚拟空间中进行移动，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可结合视觉能力实现与虚拟人的多模态交互，还可以搭配肢体动作、眼神、表情等一起协同统一表达，用户与虚拟人之间交互更加流畅，体验效果更好。

参见图5，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤501至步骤506。

步骤501：通过所述虚拟人输出多模态数据。

步骤502：获取用户的多模态交互数据。

步骤503：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像。

步骤504：当所述招手手势不满足预设条件时，询问该手势指示的意图。

步骤505：若所述意图为空间移动的意图，则所述虚拟人响应所述空间移动的意图并进行移动。

步骤506：匹配所述虚拟人的肢体、情感和/或表情输出。

本申请实施例中，用户与运行在智能设备的虚拟人进行交互，智能设备通过所述虚拟人输出多模态数据，然后接收用户根据所述多模态数据输入的多模态交互数据，由云端服务器解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的招手手势的图像，当招手手势不满足预设条件时，所述虚拟人需要询问该手势指示的意图是否为空间移动的意图，若所述意图为空间移动的意图，则所述虚拟人响应所述空间移动的意图，并进行移动，同时匹配所述虚拟人的肢体、情感和/或表情输出。

例如用户与运行在全息设备的虚拟人进行交互，所述虚拟人正在所述全息设备的虚拟空间中的舞台中央跳舞，若用户此时想要所述虚拟人在全息设备的虚拟空间中进行移动，则可以在所述虚拟人跳舞时提供一个可以使得虚拟人进行移动的手势，由云端服务器对该手势进行解析，即通过视觉能力检测并提取的该手势的图像，通过解析得出该手势为招手手势，但所述招手手势不满足预设条件，则虚拟人需要询问该手势指示的意图是否为空间移动的意图，若是，则所述虚拟人响应所述空间移动的意图，即所述虚拟人可以以跳舞的旋转动作由虚拟空间的舞台中央向前移动一次，同时，当所述虚拟人接收到所述招手手势时可以搭配肢体动作、眼神、表情等一起协同统一表达，可以是配合表达出兴奋雀跃的面部表情，还可以模仿该招手手势使得虚拟人更加的形象，可以提高用户体验。

本申请实施例提供的方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态并在智能设备的虚拟空间中进行移动，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，结合视觉能力实现与虚拟人的多模态交互，并且可以搭配肢体动作、眼神、表情等一起协同统一表达，用户与虚拟人之间交互更加流畅，体验效果更好。

本申请一实施例提供的一种基于虚拟人的手势交互系统，包括：

智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述云端服务器用于，

参见图6，本申请实施例提供了一种基于虚拟人的手势交互系统，所述系统涉及到的交互主体包括：用户601、智能设备602以及云端服务器603。

本申请实施例中，基于虚拟人的手势交互系统需要在用户601、智能设备602以及云端服务器603之间建立通畅的通信通道，以便能够完成用户601与虚拟人的交互。为了完成交互的任务，智能设备602以及云端服务器603会设置有支持完成交互的模块以及部件。与虚拟人交互的对象可以为一方，也可以为多方。

智能设备602包括接收模块602A、处理模块602B、输出模块602C以及通信模块602D。其中，接收模块602A用于接收多模态交互数据。接收模块602A可以包括用于语音操作的麦克风、扫描仪、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。智能设备602可以通过以上提到的输入设备来获取多模态交互数据。

输出模块602C用于输出虚拟人与用户601交互的多模态数据，其中，输出模块602C可以包括智能屏，所述智能屏包括携带有非触摸、非鼠标键盘输入的屏幕、还包括携带有摄像头的全息屏、电视屏、多媒体显示屏或LED屏；所述输出模块602C还可以为智能设备，所述智能设备包括全息设备、虚拟现实技术(VR)设备、个人计算机(personal computer，PC)、手持平板电脑、裸眼3D设备或全息设备。

处理模块602B用于处理交互过程中由云端服务器603传送的交互数据。

通信模块602D用于与云端服务器603之间的联系，处理模块602B处理接收模块602A预处理的多模态交互数据或由云端服务器传送的交互数据。通信模块602D发送调用指令来调用云端服务器603上的虚拟人能力，是智能设备602以及云端服务器603之间沟通的介质。

云端服务器603可以与智能设备602之间的通信联系。该云端服务器603与智能设备602上的通信模块602D之间保持通讯联系，接收智能设备602的发来的请求，并发送云端服务器603发出的处理结果。

本申请实施例提供的基于虚拟人的手势交互系统，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，并且实现所述虚拟人在所述智能设备的虚拟现实空间中进行移动，无需直接接触即可实现对终端设备的操作，减少了对外设设备的依赖，并可结合视觉能力实现与虚拟人的多模态交互，用户体验效果好。

上述为本实施例的一种基于虚拟人的手势交互系统的示意性方案。需要说明的是，该一种基于虚拟人的手势交互系统的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，一种基于虚拟人的手势交互系统的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

本申请还提供一种虚拟人，所述虚拟人在智能设备运行，所述虚拟人执行上述基于虚拟人的手势交互方法的步骤。

上述为本实施例的一种虚拟人的示意性方案。需要说明的是，该虚拟人的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该虚拟人的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

本申请一实施例还提供一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

上述为本实施例的智能设备的示意性方案。需要说明的是，该智能设备的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该智能设备的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

所述处理器可以为中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

所述存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本申请还提供一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述基于虚拟人的手势交互方法的步骤。

上述为本实施例的计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于虚拟人的手势交互方法，其特征在于，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述虚拟人响应所述空间移动的意图并进行移动。

2.根据权利要求1所述的方法，其特征在于，所述预设条件包括所述招手手势与预设招手手势特征相匹配以及所述招手手势的持续时长大于等于第一阈值。

3.根据权利要求1所述的方法，其特征在于，所述虚拟人响应所述空间移动的意图并进行移动包括：

4.根据权利要求2所述的方法，其特征在于，所述招手手势特征包括：

实时采集的手部轮廓、各手指轮廓和手指节点；

5.根据权利要求4所述的方法，其特征在于，所述招手手势指示：

6.根据权利要求1所述的方法，其特征在于，所述虚拟人响应所述空间移动的意图并进行移动之后，还包括：

匹配所述虚拟人的肢体、情感和/或表情输出。

7.一种基于虚拟人的手势交互系统，其特征在于，包括智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述云端服务器用于，

8.一种虚拟人，其特征在于，所述虚拟人在智能设备运行，所述虚拟人执行权利要求1-6任意一项所述方法的步骤。

9.一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任意一项所述方法的步骤。