CN108459712A

CN108459712A - 一种基于虚拟人的手势交互方法及系统

Info

Publication number: CN108459712A
Application number: CN201810142790.5A
Authority: CN
Inventors: 尚小维; 俞志晨; 李晓丹
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-08-28

Abstract

本申请提供的一种基于虚拟人的手势交互方法及系统，其中，所述方法包括：所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，通过所述虚拟人输出多模态数据；接收用户根据所述多模态数据输入的多模态交互数据；解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取嘘声打断手势的图像；当所述嘘声打断手势满足第一预设条件时，确定该手势指示嘘声打断意图；所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。本申请实现与虚拟人的流畅交互，用户体验效果好。

Description

一种基于虚拟人的手势交互方法及系统

技术领域

本申请涉及人工智能技术领域，特别涉及本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，人与计算机的交互活动逐渐成为人们日常生活的重要组成部分。在这种情况下，更加自然和更加符合人交流习惯的人机交互技术也得到了较大的发展。

目前，在人机交互中，尚未出现虚拟人与用户进行流畅的交互，更无法实现中止或停止等操作，且用户对外接设备的依赖性较强，用户体验效果差。

发明内容

有鉴于此，本申请提供一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

一方面，本申请提供一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像；

当所述嘘声打断手势满足第一预设条件时，确定该手势指示嘘声打断意图；

所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。

可选地，解析所述多模态交互数据之后，还包括：

当所述嘘声打断手势满足第二预设条件时，确定该手势指示暂停意图；

所述虚拟人响应所述暂停意图，中止输出多模态数据。

可选地，所述第一预设条件包括所述嘘声打断手势与预设嘘声打断手势特征相匹配、所述嘘声打断手势与预设位置的关系相匹配以及所述嘘声打断手势位于预设位置的持续时长大于等于第一阈值。

可选地，所述第二预设条件包括所述嘘声打断手势与预设嘘声打断手势特征相匹配、所述嘘声打断手势与预设位置的关系相匹配以及所述嘘声打断手势位于预设位置的持续时长小于第一阈值且大于等于第二阈值。

可选地，所述嘘声打断手势的特征包括：

实时采集的手部轮廓、各手指轮廓和手指节点；

根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述嘘声打断手势，其中，所述手指节点包括手指关节关键点和手指指尖。

可选地，所述预设位置包括：手指与嘴唇的交叉区域。

可选地，所述手指与嘴唇的交叉区域包括：

食指指尖自上嘴唇上移至食指指根到下嘴唇的移动轨迹内的区域；和

食指指尖到食指指根的任一位置以嘴唇中间为中点，向两侧偏移1厘米之内的移动轨迹内的区域，所述嘴唇中间为以两个嘴角为基点的中间位置。

可选地，所述根据当前所述虚拟人的状态响应所述嘘声打断意图，停止输出多模态数据之后，还包括：

匹配所述虚拟人的肢体、情感和/或表情输出。

另一方面，本申请还提供了一种基于虚拟人的手势交互系统，包括智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

所述云端服务器用于，

所述智能设备还配置为呈现所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。

另一方面，本申请还提供了一种虚拟人，所述虚拟人在智能设备运行，所述虚拟人执行所述基于虚拟人的手势交互方法的步骤。

另一方面，本申请还提供了一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取嘘声打断手势的图像；

该智能设备中所运行的所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。

另一方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现所述基于虚拟人的手势交互方法的步骤。

本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，其中，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：通过所述虚拟人输出多模态数据；接收用户根据所述多模态数据输入的多模态交互数据；解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取嘘声打断手势的图像；当所述嘘声打断手势满足第一预设条件时，确定该手势指示嘘声打断意图；所述虚拟人响应所述嘘声打断意图，停止输出多模态数据的状态；采用该方法当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可通过视觉能力实现与虚拟人的流畅交互，用户体验效果好。

附图说明

图1是本申请实施例的一种基于虚拟人的手势交互系统的结构示意图；

图2是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图3是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图4是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图5是本申请实施例的一种基于虚拟人的手势交互方法流程图；

图6是本申请实施例的一种基于虚拟人的手势交互系统的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请提供了一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，本申请一实施例提供的基于虚拟人的手势交互系统结构示意图。

该基于虚拟人的手势交互系统包括智能设备120和云端服务器110，所述虚拟人在所述智能设备120运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时可以启动语音、情感、视觉和感知能力。

所述智能设备120可以包括：用户界面121、通信模块122、中央处理单元123和人机交互输入输出模块124；

其中，所述用户界面121，其在预设显示区域内显示被唤醒的虚拟人。

所述人机交互输入输出模块124，其用于获取多模态数据以及输出虚拟人执行参数，多模态数据包括来自周围环境的数据及与用户进行交互的多模态交互数据。

所述通信模块122，其用于调用所述云端服务器110的能力接口并接收通过所述云端服务器110的能力接口解析所述多模态交互数据以决策出多模态输出数据。

所述中央处理单元123，用于利用所述多模态输出数据计算与所述多模态输出数据相对应的应答数据。

所述云端服务器110具备多模态数据解析模块，用于对所述智能设备120接收的多模态交互数据进行解析，并决策多模态输出数据。

如图1所示，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口111，其接收从所述通信模块122转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口112，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

其中，所述图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

所述特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

所述决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

情感计算接口114，其接收从所述通信模块122转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口114是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口113，其接收从所述通信模块122转发的多模态数据，所述认知计算接口113用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

上述为本申请实施例的一种基于虚拟人的手势交互方法及系统的一种示意性的技术方案。为了便于本领域技术人员理解本申请的技术方案，下述通过多个实施例对本申请提供的一种基于虚拟人的手势交互方法及系统、一种虚拟人、一种智能设备及一种计算机可读存储介质，进行进一步的说明。

本申请中，智能设备与云端服务器连接使得虚拟人具备多模态人机交互的能力，即具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等Artificial Intelligence(AI)的能力。

所述虚拟人可以以3D虚拟形象通过所述智能设备进行显示，具备特定形象特征，并且可以为所述虚拟人配置社会属性、人格属性和人物技能等。

具体来说，所述社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；所述人格属性可以包括：性格、气质等属性；所述人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

参见图2，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤201至步骤205。

步骤201：通过所述虚拟人输出多模态数据。

本申请实施例中，所述智能设备可以是非触摸、非鼠标键盘输入的屏幕、携带有摄像头的全息屏幕、电视屏、多媒体显示屏、LED屏等，同时，可以是全息设备、VR设备、PC机。但并不排除其他硬件设备，如：手持平板、裸眼3D设备、甚至智能手机等。

所述PC机可以为台式机(Desktop)、一体机、笔记本电脑、掌上电脑(PDA)、平板电脑(Tablet)等，所述智能设备是所述虚拟人与用户及环境进行交互的主要媒介。

所述虚拟人可以为系统应用程序或者可执行文件，并且所述虚拟人在所述智能设备运行和呈现，实现与用户进行交互。所述智能设备中运行操作系统，如全息设备内置系统，如PC的操作系统则为windows或MAC OS系统。

本申请实施例中，所述多模态数据可以是语言语音、视觉感知、触摸感知、情感表情以及动作等数据。所述智能设备呈现所述虚拟人输出多模态数据，例如所述虚拟人为全息设备系统应用程序，所述虚拟人在智能手机运行，并通过所述全息设备系统进行唱歌、跳舞或者讲故事技能展示等。

步骤202：接收用户根据所述多模态数据输入的多模态交互数据。

本申请实施例中，所述智能设备接收用户针对所述多模态数据提供的多模态交互数据。

所述多模态交互数据可以包括视觉数据、语音数据、动作数据、和/或感知数据，其中，所述视觉数据可以包括通过视觉识别设备采集图像及视频数据等，所述语音数据可以包括语音对话等，所述动作数据可以包括用户接触所述虚拟人触摸部件的肢体动作，所述感知数据可以包括红外遥控数据、温度数据等。

本申请实施例中，所述多模态交互数据是与所述多模态数据匹配输入的，例如若所述多模态数据为语音输出数据，所述多模态交互数据则可以为打断该语音输出数据的通过视觉能力识别出的动作或者通过语音能力识别出的语音指令数据。

步骤203：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像。

本申请实施例中，可以由云端服务器解析所述智能设备接收到的所述多模态交互数据，并获得解析结果。

所述云端服务器对所述多模态交互数据进行解析并获得解析结果，即是所述云端服务器对视觉数据、语音数据、动作数据、和/或感知数据进行视觉识别、语义理解、情感计算和/或认知计算，获得识别后的结果。

若所述多模态交互数据为视觉数据，则可以通过所述虚拟人的视觉识别能力检测并提取所述视觉数据的图像，然后由所述云端服务器对所述视觉数据的图像进行解析，解析出的结果可以是用户腿部或手臂等肢体姿态。

本申请实施例中，以所述多模态交互数据为嘘声打断手势的图像为例进行说明，首先通过所述虚拟人的视觉识别能力检测并提取所述嘘声打断手势的图像，然后由所述云端服务器对所述嘘声打断手势的图像进行解析，解析出的结果为：从所述嘘声打断手势的图像中提取嘘声打断手势。

步骤204：当所述嘘声打断手势满足第一预设条件时，确定该手势指示嘘声打断意图。

本申请实施例中，所述第一预设条件包括所述嘘声打断手势与预设嘘声打断手势特征相匹配、所述嘘声打断手势与预设位置的关系相匹配以及所述嘘声打断手势位于预设位置的持续时长大于等于第一阈值。

所述嘘声打断手势的特征可以包括：实时采集的手部轮廓、各手指轮廓和手指节点；根据所述手部轮廓、所述手指轮廓和所述手指节点确定所述嘘声打断手势，其中，所述手指节点包括手指关节关键点和手指指尖。

所述预设位置可以包括：手指与嘴唇的交叉区域，其中，所述手指与嘴唇的交叉区域包括：食指指尖自上嘴唇上移至食指指根到下嘴唇的移动轨迹内的区域；和食指指尖到食指指根的任一位置以嘴唇中间为中点，向两侧偏移1厘米之内的移动轨迹内的区域，所述嘴唇中间为以两个嘴角为基点的中间位置，所述食指与嘴唇之间的距离小于等于3厘米。

本申请实施例中，若所述预设嘘声打断手势为手指的食指竖起，其余手指蜷缩至手心；食指指尖自上嘴唇上移至食指指根到下嘴唇的移动轨迹内的区域和手指的食指指尖到食指指根的任一位置以嘴唇中间为中点，向两侧偏移1厘米之内的移动轨迹内的区域，食指与嘴唇之间的距离小于等于3厘米；所述第一阈值为2。

此时解析的所述多模态交互数据为嘘声打断手势的图像，并且所述嘘声打断手势为手指的食指竖起，中指、无名指、小拇指蜷缩至手心，大拇指蜷缩压至中指上；手指的食指指尖位于嘴唇的中间位置，食指与嘴唇之间的距离为1厘米，且停留3秒的时间，那么则可以确定该手势指示嘘声打断意图。

所述嘘声打断意图即为意图打断通过所述虚拟人输出多模态数据，若所述多模态数据为讲故事，则所述嘘声打断意图即为意图使得所述虚拟人停止讲故事，所述嘘声打断意图可以是使得所述虚拟人暂时中止输出多模态数据，也可以是使得所述虚拟人长久停止输出多模态数据的状态，可以根据所述嘘声打断手势的停留时长来确定是意图暂时中止输出多模态数据，还是意图长久停止输出多模态数据的状态，根据实际应用设定，本申请对此不作限制。

步骤205：所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。

本申请实施例中，所述智能设备还配置为呈现所述虚拟人响应所述嘘声打断意图，停止输出多模态数据，即所述虚拟人停止输出多模态数据，并以所述智能设备为载体进行呈现停止输出多模态数据的状态。

举例说明，若当前虚拟人正在输出歌曲或讲故事的音频数据，在接收并解析到用户输入的多模态交互数据为嘘声打断手势的图像，并且提取出的所述嘘声打断包括嘘声打断意图时，所述智能设备还配置为呈现所述虚拟人响应所述嘘声打断意图，即所述智能设备呈现所述虚拟人停止输出歌曲或讲故事的状态，并且所述虚拟人停止输出歌曲或讲故事的音频数据，以及停止输出与讲故事关联的其他模态数据。

若当前虚拟人正在输出舞蹈动作并配合背景音乐舞动，在接收并解析到用户输入的多模态交互数据为嘘声打断手势，并且所述嘘声打断包括嘘声打断意图时，所述智能设备还配置为呈现所述虚拟人响应所述嘘声打断意图，即所述智能设备呈现所述虚拟人停止输出舞蹈动作以及背景音乐的状态，并且所述虚拟人停止输出舞蹈动作以及背景音乐的音频数据。

本申请实施例提供的一种基于虚拟人的手势交互方法，当实时采集的手势满足第一预设条件时，即可实现虚拟人停止输出多模态数据的状态，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，通过视觉能力实现与虚拟人的流畅交互，用户体验效果好。

参见图3，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤301至步骤305。

步骤301：通过所述虚拟人输出多模态数据。

步骤302：接收用户根据所述多模态数据输入的多模态交互数据。

步骤303：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像。

步骤304：当所述嘘声打断手势满足第二预设条件时，确定该手势指示暂停意图。

本申请实施例中，所述第二预设条件包括所述嘘声打断手势与预设嘘声打断手势特征相匹配、所述嘘声打断手势与预设位置的关系相匹配以及所述嘘声打断手势位于预设位置的持续时长小于第一阈值且大于等于第二阈值。

本申请实施例中，若所述预设嘘声打断手势为手指的食指竖起；食指指尖自上嘴唇上移至食指指根到下嘴唇的移动轨迹内的区域和手指的食指指尖到食指指根的任一位置以嘴唇中间为中点，向两侧偏移1厘米之内的移动轨迹内的区域，食指与嘴唇之间的距离小于等于2厘米；所述第一阈值为3秒，所述第二阈值为1秒。

此时解析的所述多模态交互数据为嘘声打断手势的图像，并且所述嘘声打断手势为手指的食指和中指竖起，无名指、小拇指和大拇指均蜷缩至手心；手指的食指指尖位于嘴唇的中间偏0.5厘米的位置，食指与嘴唇之间的距离为2厘米，且停留2秒的时间，那么则可以确定该手势指示暂停意图。

所述暂停意图即为意图暂停通过所述虚拟人输出多模态数据，使得所述虚拟人暂时中止输出多模态数据，若所述多模态数据为讲故事的音频数据，则所述暂停意图即为意图暂时中止所述虚拟人讲故事的音频数据。

步骤305：所述虚拟人响应所述暂停意图，中止输出多模态数据。

本申请实施例中，所述智能设备所述虚拟人响应所述暂停意图，中止输出多模态数据，即所述虚拟人中止输出多模态数据，并以所述智能设备为载体进行呈现中止输出多模态数据的状态。

举例说明，若当前虚拟人正在输出歌曲或讲故事的音频数据，在接收并解析到用户输入的多模态交互数据为嘘声打断手势，并且所述嘘声打断手势的特征包括暂停意图时，所述智能设备所述虚拟人响应所述暂停意图，即所述智能设备呈现所述虚拟人暂停输出歌曲或讲故事的状态，并且所述虚拟人暂停输出歌曲或讲故事，所述虚拟人再次输出歌曲或讲故事的动作或者时间可以在实际应用中进行设定。

若当前虚拟人正在输出舞蹈动作并配合背景音乐舞动，在接收并解析到用户输入的多模态交互数据为暂停意图，并且所述嘘声打断手势的特征包括暂停意图时，所述智能设备控制所述虚拟人响应所述暂停意图，即所述智能设备呈现所述虚拟人暂时中止输出舞蹈动作以及背景音乐的状态，并且所述虚拟人暂时中止输出舞蹈动作以及背景音乐的音频数据。

本申请实施例提供的一种基于虚拟人的手势交互方法，当实时采集的手势满足第二预设条件时，即可实现虚拟人中止输出多模态数据，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可通过视觉能力实现与虚拟人的流畅交互，用户体验效果好。

参见图4，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤401至步骤406。

步骤401：通过所述虚拟人输出多模态数据。

步骤402：接收用户根据所述多模态数据输入的多模态交互数据。

步骤403：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像。

步骤404：当所述嘘声打断手势满足第一预设条件时，确定该手势指示嘘声打断意图。

步骤405：所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。

步骤406：匹配所述虚拟人的肢体、情感和/或表情输出。

本申请实施例中，用户与运行在智能设备的虚拟人进行交互，智能设备通过所述虚拟人输出多模态数据，然后接收用户根据所述多模态数据输入的多模态交互数据，由云端服务器解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像，当解析出的所述嘘声打断手势满足第一预设条件时，确定该手势指示嘘声打断意图，则所述智能设备还配置为呈现所述虚拟人响应所述嘘声打断意图，停止输出多模态数据，同时匹配所述虚拟人的肢体、情感和/或表情输出。

例如用户与运行在智能设备的虚拟人进行交互，所述虚拟人处于讲故事的状态，若用户对所述虚拟人讲的该故事不感兴趣，则可以在所述虚拟人讲该故事时提供一个可以使得虚拟人停止讲故事的手势，由云端服务器对该手势进行解析，即通过视觉能力检测并提取的该手势的图像，通过解析得出该手势为嘘声打断手势，且所述嘘声打断手势满足第一预设条件，则可以确定该手势指示嘘声打断意图，此时所述虚拟人响应所述嘘声打断意图，停止所述虚拟人讲故事，同时，当所述虚拟人接收到所述嘘声打断手势时可以搭配肢体动作、眼神、表情等一起协同统一表达，可以是配合表达出好奇又担心害怕的面部表情，使得虚拟人更加的形象，可以提高用户体验。

本申请实施例中，还可以将嘘声打断意图的预设手势、预设位置以及手势的持续时间等根据实际应用进行具体设置，本申请对此不作限定。

本申请实施例中，还可以将嘘声打断手势设置为降低音量的意图或者动作节拍放慢的意图等，若虚拟人在进行语音输出或者动作输出时，接收到嘘声打断手势后就可以确定该嘘声打断手势中包括降低音量和放慢动作的意图，例如虚拟人在讲故事时，确定嘘声打断手势中包括降低音量的意图后，就会把讲故事的音量减小，若所述虚拟人在动作输出跳舞时，确定嘘声打断手势中包括动作节拍放慢的意图后，就会把舞蹈节拍放慢，并且还可以搭配一个捂嘴的动作和面部紧张的表情。

本申请实施例中，所述虚拟人和用户交互时，可以连续出现嘘声打断手势，进行暂停和播放的循环，也支持用户和虚拟人一对一交互、用户和虚拟人多对一交互，在用户和虚拟人多对一交互时，当有一人出现嘘声打断手势时，即响应停止的意图。

本申请实施例提供方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可通过视觉能力实现与虚拟人的流畅交互，还可以搭配肢体动作、眼神、表情等一起协同统一表达，用户与虚拟人之间交互更加流畅，体验效果更好。

参见图5，本申请一实施例提供了一种基于虚拟人的手势交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括步骤501至步骤506。

步骤501：通过所述虚拟人输出多模态数据。

步骤502：接收用户根据所述多模态数据输入的多模态交互数据。

步骤503：解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像。

步骤504：当所述嘘声打断手势满足第二预设条件时，确定该手势指示暂停意图。

步骤505：所述虚拟人响应所述暂停意图，中止输出多模态数据。

步骤506：匹配所述虚拟人的肢体、情感和/或表情输出。

本申请实施例中，用户与运行在智能设备的虚拟人进行交互，智能设备通过所述虚拟人输出多模态数据，然后接收用户根据所述多模态数据输入的多模态交互数据，由云端服务器解析所述多模态交互数据，其中，所述多模态交互数据包括通过视觉能力检测并提取的嘘声打断手势的图像，当所述嘘声打断手势满足第二预设条件时，确定该手势指示暂停意图，所述智能设备所述虚拟人响应所述暂停意图，中止输出多模态数据，同时匹配所述虚拟人的肢体、情感和/或表情输出。

例如用户与运行在智能设备的虚拟人进行交互，所述虚拟人处于讲故事的状态，若用户突然临时有事情，想暂时中止所述虚拟人讲故事，待会再听，则可以在所述虚拟人讲这个故事的时候提供一个可以使得虚拟人暂时中止讲故事的手势，由云端服务器对该手势进行解析，通过视觉能力检测并提取的该手势的图像，通过解析得出该手势为嘘声打断手势，且所述嘘声打断手势满足第二预设条件，则可以确定该手势指示暂停意图，此时所述虚拟人响应所述暂停意图，暂时中止所述虚拟人讲故事，当用户事情办理完毕，想要听该故事的时候可以使用其他指令使得虚拟人开始讲故事，或者是预先设定一个暂时中止的时长，当虚拟人暂时中止的时长完毕之后，可以自行接着暂停之前的内容讲该故事。

本申请实施例中，还可以将嘘声暂停意图的预设手势、预设位置以及手势的持续时间等根据实际应用进行具体设置，本申请对此不作限定。

本申请实施例提供方法，当实时采集的手势满足预设条件时，即可实现虚拟人停止输出多模态数据的状态，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可通过视觉能力实现与虚拟人的流畅交互，并且可以搭配肢体动作、眼神、表情等一起协同统一表达，用户与虚拟人之间交互更加流畅，体验效果更好。

本申请一实施例提供一种基于虚拟人的手势交互系统，包括：

智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

所述云端服务器用于，

参见图6，本申请实施例提供了一种基于虚拟人的手势交互系统，所述系统涉及到的交互主体包括：用户601、智能设备602以及云端服务器603。

本申请实施例中，基于虚拟人的手势交互系统需要在用户601、智能设备602以及云端服务器603之间建立通畅的通信通道，以便能够完成用户601与虚拟人的交互。为了完成交互的任务，智能设备602以及云端服务器603会设置有支持完成交互的模块以及部件。与虚拟人交互的对象可以为一方，也可以为多方。

智能设备602包括接收模块602A、处理模块602B、输出模块602C以及通信模块602D。其中，接收模块602A用于接收多模态交互数据。接收模块602A可以包括用于语音操作的麦克风、扫描仪、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。智能设备602可以通过以上提到的输入设备来获取多模态交互数据。

输出模块602C用于输出虚拟人与用户601交互的多模态数据，其中，输出模块602C可以包括智能屏，所述智能屏包括携带有非触摸、非鼠标键盘输入的屏幕、还包括携带有摄像头的全息屏、电视屏、多媒体显示屏或LED屏；所述输出模块602C还可以为智能设备，所述智能设备包括全息设备、虚拟现实技术(VR)设备、个人计算机(personal computer，PC)、手持平板电脑、裸眼3D设备或智能手机。

处理模块602B用于处理交互过程中由云端服务器603传送的交互数据。

通信模块602D用于与云端服务器603之间的联系，处理模块602B处理接收模块602A预处理的多模态交互数据或由云端服务器传送的交互数据。通信模块602D发送调用指令来调用云端服务器603上的虚拟人能力，是智能设备602以及云端服务器603之间沟通的介质。

云端服务器603可以与智能设备602之间的通信联系。该云端服务器603与智能设备602上的通信模块602D之间保持通讯联系，接收智能设备602的发来的请求，并发送云端服务器603发出的处理结果。

本申请实施例提供的基于虚拟人的手势交互系统，当实时采集的手势满足预设条件时，即可控制虚拟人停止输出多模态数据的状态，无需使用鼠标、键盘等外接设备进行人机交互，减少了用户对外接设备的依赖，并可通过视觉能力实现与虚拟人的流畅交互，用户体验效果好。

上述为本实施例的一种基于虚拟人的手势交互系统的示意性方案。需要说明的是，该一种基于虚拟人的手势交互系统的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，一种基于虚拟人的手势交互系统的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

本申请还提供一种虚拟人，所述虚拟人在智能设备运行，所述虚拟人执行上述基于虚拟人的手势交互方法的步骤。

上述为本实施例的一种虚拟人的示意性方案。需要说明的是，该虚拟人的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该虚拟人的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

本申请一实施例还提供一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

上述为本实施例的智能设备的示意性方案。需要说明的是，该智能设备的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该智能设备的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

所述处理器可以为中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

所述存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本申请还提供一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述基于虚拟人的手势交互方法的步骤。

上述为本实施例的计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的一种基于虚拟人的手势交互方法的技术方案属于同一构思，该计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述一种基于虚拟人的手势交互方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于虚拟人的手势交互方法，其特征在于，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

所述虚拟人响应所述嘘声打断意图，停止输出多模态数据。

2.根据所述权利要求1所述的方法，其特征在于，解析所述多模态交互数据之后，还包括：

所述虚拟人响应所述暂停意图，中止输出多模态数据。

3.根据权利要求1所述的方法，其特征在于，所述第一预设条件包括所述嘘声打断手势与预设嘘声打断手势特征相匹配、所述嘘声打断手势与预设位置的关系相匹配以及所述嘘声打断手势位于预设位置的持续时长大于等于第一阈值。

4.根据所述权利要求2所述的方法，其特征在于，

所述第二预设条件包括所述嘘声打断手势与预设嘘声打断手势特征相匹配、所述嘘声打断手势与预设位置的关系相匹配以及所述嘘声打断手势位于预设位置的持续时长小于第一阈值且大于等于第二阈值。

5.根据权利要求3或4任意一项所述的方法，其特征在于，所述嘘声打断手势的特征包括：

实时采集的手部轮廓、各手指轮廓和手指节点；

6.根据权利要求5所述的方法，其特征在于，所述预设位置包括：

食指指尖自上嘴唇上移至食指指根到下嘴唇的移动轨迹内的区域；或者

7.根据权利要求1所述的方法，其特征在于，所述虚拟人响应所述嘘声打断意图，停止输出多模态数据之后，还包括：

匹配所述虚拟人的肢体、情感和/或表情输出。

8.一种基于虚拟人的手势交互系统，其特征在于，包括智能设备和云端服务器，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，其中：

所述智能设备用于，

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

所述云端服务器用于，

9.一种虚拟人，其特征在于，所述虚拟人在智能设备运行，所述虚拟人执行权利要求1-7任意一项所述方法的步骤。

10.一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

通过所述虚拟人输出多模态数据；

接收用户根据所述多模态数据输入的多模态交互数据；

11.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。