CN108227935A

CN108227935A - 一种基于虚拟人的手势交互方法及系统

Info

Publication number: CN108227935A
Application number: CN201810142539.9A
Authority: CN
Inventors: 尚小维; 俞志晨; 李晓丹
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-06-29

Abstract

本申请提供的一种基于虚拟人的手势交互方法及系统，其中，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：通过所述虚拟人输出多模态数据；获取用户的多模态交互数据；解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像；当所述V字手势满足预设条件时，确定该手势指示开启相机拍照的意图；所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

Description

一种基于虚拟人的手势交互方法及系统

技术领域

本申请涉及人工智能技术领域，特别涉及本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，人与计算机的交互活动逐渐成为人们日常生活的重要组成部分。在这种情况下，更加自然和更加符合人交流习惯的人机交互技术也得到了较大的发展。

目前，在人机交互中，尚未出现虚拟人与用户进行流畅的交互，更无法实现开启智能设备相机等操作，且用户对外接设备的依赖性较强，用户体验效果差。

发明内容

有鉴于此，本申请提供一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

一方面，本申请提供一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像；

当所述V字手势满足预设条件时，确定该手势指示开启相机拍照的意图；

所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

可选地，所述预设条件包括所述V字手势与预设V字手势特征相匹配、所述V字手势与预设位置的空间距离小于等于第一阈值，或，所述V字手势位于预设位置的持续时长大于等于第二阈值。

可选地，所述V字手势特征包括：

实时采集的手部轮廓、各手指轮廓和手指节点；

根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述V字手势，其中，所述手指节点包括手指关节关键点和手指指尖。

可选地，所述V字手势包括：手心朝向所述智能设备，并且两根手指竖起呈开口向上的“V”形。

可选地，所述预设位置包括：头部区域。

可选地，所述V字手势与预设位置的空间距离小于等于第一阈值包括：

所述V字手势与头部的距离小于等于第一阈值。

可选地，所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照之后，还包括：

匹配所述虚拟人的肢体、情感和/或表情输出。

另一方面，本申请还提供了一种基于虚拟人的手势交互系统，包括智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述云端服务器用于，

所述智能设备还配置为呈现所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

另一方面，本申请还提供了一种虚拟人，所述虚拟人在智能设备运行，所述虚拟人执行所述基于虚拟人的手势交互方法的步骤。

另一方面，本申请还提供了一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述智能设备中所运行的虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

另一方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现所述基于虚拟人的手势交互方法的步骤。

本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，其中，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：通过所述虚拟人输出多模态数据；获取用户的多模态交互数据；解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像；当所述V字手势满足预设条件时，确定该手势指示开启相机拍照的意图；所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照；采用该方法当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，并且实现所述智能设备开启相机进行拍照，无需直接接触即可实现对终端设备的操作，减少了对外设设备的依赖，并可通过视觉能力实现与虚拟人的多模态交互，用户体验效果好。

附图说明

图1是本申请实施例的一种基于虚拟人的手势交互系统的结构示意图；

图2是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图3是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图4是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图5是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图6是本申请实施例的一种基于虚拟人的手势交互系统的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请提供了一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，本申请一实施例提供的基于虚拟人的手势交互系统结构示意图。

该基于虚拟人的手势交互系统包括智能设备120和云端服务器110，所述虚拟人在所述智能设备120运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时可以启动语音、情感、视觉和感知能力。

所述智能设备120可以包括：用户界面121、通信模块122、中央处理单元123和人机交互输入输出模块124；

其中，所述用户界面121，其在预设显示区域内显示被唤醒的虚拟人。

所述人机交互输入输出模块124，其用于获取多模态数据以及输出虚拟人执行参数，多模态数据包括来自周围环境的数据及与用户进行交互的多模态交互数据。

所述通信模块122，其用于调用所述云端服务器110的能力接口并接收通过所述云端服务器110的能力接口解析所述多模态交互数据以决策出多模态输出数据。

所述中央处理单元123，用于利用所述多模态输出数据计算与所述多模态输出数据相对应的应答数据。

所述云端服务器110具备多模态数据解析模块，用于对所述智能设备120接收的多模态交互数据进行解析，并决策多模态输出数据。

如图1所示，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口111，其接收从所述通信模块122转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口112，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能和决策功能；

其中，所述图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

所述特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

所述决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等结果响应功能。

情感计算接口114，其接收从所述通信模块122转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口114是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口113，其接收从所述通信模块122转发的多模态数据，所述认知计算接口113用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

上述为本申请实施例的一种基于虚拟人的手势交互方法及系统的一种示意性的技术方案。为了便于本领域技术人员理解本申请的技术方案，下述通过多个实施例对本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，进行进一步的说明。

本申请中，智能设备与云端服务器连接使得虚拟人具备多模态人机交互的能力，即具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等Artificial Intelligence(AI)的能力。

所述虚拟人可以以3D虚拟形象通过所述智能设备进行显示，具备特定形象特征，并且可以为所述虚拟人配置社会属性、人格属性和人物技能等。

具体来说，所述社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；所述人格属性可以包括：性格、气质等属性；所述人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

参见图2，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤201至步骤205。

步骤201：通过所述虚拟人输出多模态数据。

本申请实施例中，所述智能设备可以是非触摸、非鼠标键盘输入的屏幕、携带有摄像头的全息屏幕、电视屏、多媒体显示屏、LED屏等，同时，可以是全息设备、VR设备、PC机。但并不排除其他硬件设备，如：手持平板、裸眼3D设备、甚至智能手机等。

所述虚拟人可以为系统应用程序或者可执行文件，并且所述虚拟人在所述智能设备运行和呈现，实现与用户进行交互。所述智能设备中运行操作系统，如全息设备内置系统，如PC的操作系统则为windows或MAC OS系统等。

本申请实施例中，所述多模态数据可以是语言语音、视觉感知、触摸感知、情感表情以及动作等数据。所述智能设备还配置为呈现所述虚拟人输出多模态数据，例如所述虚拟人为全息设备系统应用程序，所述虚拟人在智能手机运行，并通过所述全息设备系统进行唱歌、跳舞或者讲故事技能展示等。

步骤202：获取用户的多模态交互数据。

本申请实施例中，通过所述智能设备获取用户的多模态交互数据。

所述多模态交互数据可以包括视觉数据、语音数据、动作数据、和/或感知数据，其中，所述视觉数据可以包括通过视觉识别设备采集图像及视频数据等，所述语音数据可以包括唱歌、讲故事、语音对话等，所述动作数据可以包括用户接触所述虚拟人触摸部件的肢体动作，所述感知数据可以包括红外遥控数据、温度数据等。

本申请实施例中，若所述多模态数据为语音数据，所述语音数据为唱歌，所述智能设备获取用户的多模态交互数据即为所述智能设备获取用户唱歌的语音数据，若所述多模态数据为视觉数据，所述视觉数据为通过视觉识别设备采集的用户肢体姿态的图像，所述智能设备获取用户的多模态交互数据即为所述智能设备获取用户做出的肢体姿态的图像数据。

步骤203：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像。

本申请实施例中，可以由云端服务器解析所述智能设备接收到的所述多模态交互数据，并获得解析结果。

所述云端服务器对所述多模态交互数据进行解析并获得解析结果，即是所述云端服务器对视觉数据、语音数据、动作数据、和/或感知数据进行视觉识别、语义理解、情感计算和/或认知计算，获得识别后的结果。

若所述多模态交互数据为视觉数据，则可以通过所述虚拟人的视觉识别能力检测并提取所述视觉数据的图像，然后由所述云端服务器对所述视觉数据的图像进行解析，解析出的结果可以是用户腿部或手臂等肢体姿态。

本申请实施例中，以所述多模态交互数据解析包含有V字手势的图像为例进行说明，首先通过所述虚拟人的视觉识别能力检测并提取所述V字手势的图像，然后由所述云端服务器对所述V字手势的图像进行解析，解析出的结果为：从所述V字手势的图像中提取V字手势。

所述V字手势可以包括手心面向用户，食指和中指竖起形成不同空间方位、不同张合幅度的呈开口向上的“V”形，所述V字手势可以是左手、右手或双手一起使用形成的。

步骤204：当所述V字手势满足预设条件时，确定该手势指示开启相机拍照的意图。

本申请实施例中，所述预设条件包括所述V字手势与预设V字手势特征相匹配、所述V字手势与预设位置的空间距离小于等于第一阈值，或，所述V字手势位于预设位置的持续时长大于等于第二阈值。

该手势可以包括：实时采集的手部轮廓、各手指轮廓和手指节点；根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述V字手势，其中，所述手指节点包括手指关节关键点和手指指尖。

所述预设位置可以包括：面部周围的头部区域。

所述V字手势与预设位置的空间距离包括：所述V字手势与面部周围的头部区域的空间距离。

本申请实施例中，若所述预设V字手势特征为两根手指竖起呈开口向上的“V”形；所述预设V字手势特征与面部周围的头部区域的空间距离小于等于5厘米，所述预设V字手势特征位于面部周围的头部区域的持续时长大于等于1秒。

此时解析的所述多模态交互数据为V字手势的图像，并且所述V字手势为右手手心朝向所述智能设备，并且食指和中指竖起呈开口向上的“V”形，无名指、小拇指蜷缩至手心，大拇指蜷缩压至无名指上；所述V字手势位于面部周围的头部区域的持续时长为2秒。

那么则可以确定该手势指示开启相机拍照的意图。

所述开启相机拍照的意图即为意图通过所述虚拟人开启智能设备的相机进行拍照，若所述虚拟人输出的所述多模态数据为讲故事，则所述开启相机拍照的意图即为意图使得所述虚拟人停止讲故事，然后通过所述虚拟人向所述智能设备传输开启相机的指令，所述智能设备接收到该指令后开启相机进行拍照。

步骤205：所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

本申请实施例中，所述虚拟人运行在智能设备，当接收到云端服务器解析后的多模态交互数据中包括开启相机拍照的意图时，所述虚拟人停止当前的多模态数据输出，来响应所述开启相机拍照的意图，并控制所述智能设备开启相机进行拍照。

举例说明，若当前虚拟人以智能手机为载体输出歌曲或讲故事的音频数据，在接收并解析到用户输入的多模态交互数据为V字手势的图像，并且提取出的该手势指示开启相机拍照的意图时，所述虚拟人响应所述开启相机拍照的意图，即所述虚拟人停止输出歌曲或讲故事的音频数据，以及停止输出与讲故事关联的其他模态数据，并且控制所述智能手机开启相机进行拍照。

若当前虚拟人以平板电脑为载体输出舞蹈动作并配合背景音乐舞动，在接收并解析到用户输入的多模态交互数据为V字手势，并且该手势指示开启相机拍照的意图时，所述虚拟人响应所述开启相机拍照的意图，即所述虚拟人停止输出舞蹈动作以及背景音乐，并且控制所述平板电脑开启相机进行拍照。

本申请实施例提供的一种基于虚拟人的手势交互方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，并且实现所述智能设备开启相机进行拍照，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，通过视觉能力实现与虚拟人的多模态交互，用户体验效果好。

参见图3，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤301至步骤305。

步骤301：通过所述虚拟人输出多模态数据。

步骤302：获取用户的多模态交互数据。

步骤303：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像。

步骤304：当所述V字手势不满足预设条件时，询问该手势指示的意图。

所述预设位置可以包括：面部周围的头部区域。

此时解析的所述多模态交互数据为V字手势的图像，并且所述V字手势为手心朝向所述智能设备，并且食指和中指竖起呈开口向上的“V”形，无名指、小拇指蜷缩至手心，大拇指蜷缩压至无名指上；所述V字手势位于面部周围的头部区域的持续时长为0.5秒。

那么所述虚拟人则询问该手势指示的意图，即在所述V字手势不满足有开启相机意图的V字手势时，所述虚拟人则需要再次确认所述V字手势所指示的意图，以便进行下一步的操作。

本申请实施例中，所述V字手势不满足预设条件可以包括：所述V字手势与预设V字手势特征不匹配，例如所述预设V字手势特征为两根手指竖起呈开口向上的“V”形，所述V字手势为两根手指竖起呈开口向下的“V”形，则所述V字手势与预设V字手势特征不匹配；

所述V字手势与预设位置的空间距离大于第一阈值，例如所述预设位置为面部周围的头部区域，所述第一阈值为3厘米，所述V字手势与面部周围的头部区域的距离为4厘米，则所述V字手势与预设位置的空间距离大于第一阈值；或者

所述V字手势位于预设位置的持续时长小于第二阈值，例如所述预设位置为面部周围的头部区域，所述第二阈值为2秒，所述V字手势位于面部周围的头部区域的持续时间为1秒，则所述V字手势位于预设位置的持续时长小于第二阈值。

本申请实施例中，用户做出V字手势靠近嘴唇且手心朝向面部的动作可以定义为抽烟动作，在检测到该V字手势时不开启相机，对于V字手势，手心反向面部，或V字手势开口朝下、V字手势弯曲等情况，也可以定义为询问意图，当通过视觉能力检测并提取的V字手势的图像为上述情况时，所述虚拟人询问该手势指示的意图。

步骤305：若所述意图为开启相机拍照的意图，则所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

本申请实施例中，当V字手势不满足预设条件时，所述虚拟人需要询问该手势指示的意图是否为开启相机拍照的意图，若所述意图为开启相机拍照的意图，则所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

参见图4，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤401至步骤406。

步骤401：通过所述虚拟人输出多模态数据。

步骤402：获取用户的多模态交互数据。

步骤403：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像。

步骤404：当所述V字手势满足预设条件时，确定该手势指示开启相机拍照的意图。

本申请实施例中，若通过视觉能力检测并提取的V字手势的图像中有两个V字手势时，只要其中一个V字手势满足预设条件，就可以确定该手势指示开启相机拍照的意图。

步骤405：所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

步骤406：匹配所述虚拟人的肢体、情感和/或表情输出。

本申请实施例中，用户与运行在智能设备的虚拟人进行交互，智能设备通过所述虚拟人输出多模态数据，然后接收用户根据所述多模态数据输入的多模态交互数据，由云端服务器解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像，当解析出的所述V字手势满足预设条件时，确定该手势指示开启相机拍照的意图，则所述虚拟人响应所述开启相机拍照的意图，并控制所述智能设备开启相机拍照，同时匹配所述虚拟人的肢体、情感和/或表情输出。

例如用户与运行在智能手机的虚拟人进行交互，所述虚拟人正在讲故事，若用户此时想要开启智能手机的摄像头进行拍照，则可以在所述虚拟人讲该故事时提供一个可以使得虚拟人停止讲故事，并控制所述智能手机开启摄像头的手势，由云端服务器对该手势进行解析，即通过视觉能力检测并提取该手势的图像，通过解析得出该手势为V字手势，且所述V字手势满足预设条件，则可以确定该手势指示开启相机拍照的意图，此时所述虚拟人响应所述开启相机拍照的意图，即所述虚拟人停止讲故事，并控制所述智能手机开启相机的摄像头进行拍照，同时，当所述虚拟人接收到所述V字手势时可以搭配肢体动作、眼神、表情等一起协同统一表达，可以是配合表达出兴奋雀跃的面部表情，还可以模仿该V字手势使得虚拟人更加的形象，可以提高用户体验。

本申请实施例中，还可以将开启相机拍照的意图的预设V字手势特征、预设位置以及手势的持续时间等根据实际应用进行具体设置，本申请对此不作限定。

本申请实施例中，所述虚拟人和用户交互时，可以连续出现V字手势，一次或多次V字手势均可以表示有开启相机拍照的意图，但是在拍照过程中再出现V字手势时视为拍摄内容，不做特定识别处理。

本申请实施例提供方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可通过视觉能力实现与虚拟人的多模态交互，还可以搭配肢体动作、眼神、表情等一起协同统一表达，用户与虚拟人之间交互更加流畅，体验效果更好。

参见图5，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤501至步骤506。

步骤501：通过所述虚拟人输出多模态数据。

步骤502：获取用户的多模态交互数据。

步骤503：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像。

步骤504：当所述V字手势不满足预设条件时，询问该手势的意图。

步骤505：若所述意图为开启相机拍照的意图，则所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

步骤506：匹配所述虚拟人的肢体、情感和/或表情输出。

本申请实施例中，用户与运行在智能设备的虚拟人进行交互，智能设备通过所述虚拟人输出多模态数据，然后接收用户根据所述多模态数据输入的多模态交互数据，由云端服务器解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的V字手势的图像，当V字手势不满足预设条件时，所述虚拟人需要询问该手势指示的意图是否为开启相机拍照的意图，若所述意图为开启相机拍照的意图，则所述虚拟人响应所述开启相机拍照的意图，并控制所述智能设备开启相机进行拍照，同时匹配所述虚拟人的肢体、情感和/或表情输出。

例如用户与运行在智能手机的虚拟人进行交互，所述虚拟人正在讲故事，若用户此时想要开启智能手机的摄像头进行拍照，则可以在所述虚拟人讲该故事时提供一个可以使得虚拟人停止讲故事，并控制所述智能手机开启摄像头的手势，由云端服务器对该手势进行解析，即通过视觉能力检测并提取该手势的图像，通过解析得出该手势为V字手势，但所述V字手势不满足预设条件，则虚拟人需要询问该手势指示的意图是否为开启相机拍照的意图，若是，则所述虚拟人响应所述开启相机拍照的意图，即所述虚拟人停止讲故事，并控制所述智能手机开启相机进行拍照，同时，当所述虚拟人接收到所述V字手势时可以搭配肢体动作、眼神、表情等一起协同统一表达，可以是配合表达出兴奋雀跃的面部表情，还可以模仿该V字手势使得虚拟人更加的形象，可以提高用户体验。

本申请实施例提供方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态并开启相机进行拍照，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，通过视觉能力实现与虚拟人的多模态交互，并且可以搭配肢体动作、眼神、表情等一起协同统一表达，用户与虚拟人之间交互更加流畅，体验效果更好。

本申请一实施例提供一种基于虚拟人的手势交互系统，包括：

智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述云端服务器用于，

参见图6，本申请实施例提供了一种基于虚拟人的手势交互系统，所述系统涉及到的交互主体包括：用户601、智能设备602以及云端服务器603。

本申请实施例中，基于虚拟人的手势交互系统需要在用户601、智能设备602以及云端服务器603之间建立通畅的通信通道，以便能够完成用户601与虚拟人的交互。为了完成交互的任务，智能设备602以及云端服务器603会设置有支持完成交互的模块以及部件。与虚拟人交互的对象可以为一方，也可以为多方。

智能设备602包括接收模块602A、处理模块602B、输出模块602C以及通信模块602D。其中，接收模块602A用于接收多模态交互数据。接收模块602A可以包括用于语音操作的麦克风、扫描仪、摄像头、感知模块等等等。智能设备602可以通过以上提到的输入设备来获取多模态交互数据。

输出模块602C用于输出虚拟人与用户601交互的多模态数据，其中，输出模块602C可以包括智能屏，所述智能屏包括携带有非触摸、非鼠标键盘输入的屏幕、还包括携带有摄像头的全息屏、电视屏、多媒体显示屏或LED屏；所述输出模块602C还可以为智能设备，所述智能设备包括全息设备、虚拟现实技术(VR)设备、个人计算机(personal computer，PC)、手持平板电脑、裸眼3D设备或智能手机。

处理模块602B用于处理交互过程中由云端服务器603传送的交互数据。

通信模块602D用于与云端服务器603之间的联系，处理模块602B处理接收模块602A预处理的多模态交互数据或由云端服务器传送的交互数据。通信模块602D发送调用指令来调用云端服务器603上的虚拟人能力，是智能设备602以及云端服务器603之间沟通的介质。

云端服务器603可以与智能设备602之间的通信联系。该云端服务器603与智能设备602上的通信模块602D之间保持通讯联系，接收智能设备602的发来的请求，并发送云端服务器603发出的处理结果。

本申请实施例提供的基于虚拟人的手势交互系统，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，并且实现所述智能设备开启相机进行拍照，无需直接接触即可实现对终端设备的操作，减少了对外设设备的依赖，并可通过视觉能力实现与虚拟人的多模态交互，用户体验效果好。

上述为本实施例的一种基于虚拟人的手势交互系统的示意性方案。需要说明的是，该一种基于虚拟人的手势交互系统的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，一种基于虚拟人的手势交互系统的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

本申请还提供一种虚拟人，所述虚拟人在智能设备运行，所述虚拟人执行上述基于虚拟人的手势交互方法的步骤。

上述为本实施例的一种虚拟人的示意性方案。需要说明的是，该虚拟人的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该虚拟人的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

本申请一实施例还提供一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

上述为本实施例的智能设备的示意性方案。需要说明的是，该智能设备的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该智能设备的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

所述处理器可以为中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

所述存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本申请还提供一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述基于虚拟人的手势交互方法的步骤。

上述为本实施例的计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于虚拟人的手势交互方法，其特征在于，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

2.根据权利要求1所述的方法，其特征在于，所述预设条件包括:所述V字手势与预设V字手势特征相匹配、所述V字手势与预设位置的空间距离小于等于第一阈值，或，所述V字手势位于预设位置的持续时长大于等于第二阈值。

3.根据权利要求2所述的方法，其特征在于，所述V字手势特征包括：

实时采集的手部轮廓、各手指轮廓和手指节点；

4.根据权利要求3所述的方法，其特征在于，所述V字手势包括：手心朝向所述智能设备，并且两根手指竖起呈开口向上的“V”形。

5.根据权利要求2所述的方法，其特征在于，所述预设位置包括：头部区域。

6.根据权利要求2所述的方法，其特征在于，所述V字手势与预设位置的空间距离小于等于第一阈值包括：

所述V字手势与头部的空间距离小于等于第一阈值。

7.根据权利要求1所述的方法，其特征在于，所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照之后，还包括：

匹配所述虚拟人的肢体、情感和/或表情输出。

8.一种基于虚拟人的手势交互系统，其特征在于，包括智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述云端服务器用于，

当所述V字手势满足预设条件时，确定所述V字手势的特征包括开启相机拍照的意图；

9.一种虚拟人，其特征在于，所述虚拟人在智能设备运行，所述虚拟人执行权利要求1-7任意一项所述方法的步骤。

10.一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

获取用户的多模态交互数据；

所述智能设备中所运行的所述虚拟人响应所述开启相机拍照的意图，开启相机进行拍照。

11.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被执行时实现权利要求1-7任意一项所述方法的步骤。