CN108229642A

CN108229642A - 虚拟人情感能力表现输出方法及系统

Info

Publication number: CN108229642A
Application number: CN201711461229.5A
Authority: CN
Inventors: 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-29

Abstract

本发明提供一种虚拟人情感能力表现输出方法，其包含以下步骤：获取多模态输入数据；调用机器人能力接口解析多模态输入数据，提取多模态输入数据中的情感要素；根据解析结果决策并生成多模态输出数据，其中，多模态输出数据包含情感数据，情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据；通过虚拟人的形象输出多模态输出数据。本发明提供的虚拟人情感能力表现输出方法及系统能够根据虚拟人的基础情绪表现输出匹配的展示数据，例如不同的眼部变化以及不同的皮肤肌理反应等，还能够在输出虚拟人情感时配合不同的泪腺作用。并且，本发明还能够根据输出时间以及程度值的变化来协助表现虚拟人的情感输出，提升了用户的交互体验。

Description

虚拟人情感能力表现输出方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种虚拟人情感能力表现输出方法及系统。

背景技术

机器人聊天交互系统的开发致力于模仿人类对话。早期应用比较广泛的聊天机器人应用程序包括小i聊天机器人或是苹果手机上的siri聊天机器人等处理所接收到的输入(包括文本或语音)并根据输入做出相应的响应，以试图在上下文之间模仿人类之间的交互。

然而，要想完全模仿人类进行多模态交互，在输出多模态输出数据时丰富多模态交互的内容，提升用户的交互体验，现有的这些机器人聊天系统远远达不到要求。

因此，本发明提供了一种虚拟人情感能力表现输出方法及系统。

发明内容

为解决上述问题，本发明提供了一种虚拟人情感能力表现输出方法，所述方法包含以下步骤：

获取多模态输入数据；

调用机器人能力接口解析所述多模态输入数据，提取所述多模态输入数据中的情感要素；

根据解析结果决策并生成多模态输出数据，其中，所述多模态输出数据包含情感数据，所述情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据；

通过所述虚拟人的形象输出所述多模态输出数据。

根据本发明的一个实施例，所述虚拟人具有基础情绪表现，其中，所述基础情绪表现包含但不限于：生气、大笑、害羞、悲伤、含泪以及哭泣。

根据本发明的一个实施例，通过所述虚拟人的形象输出所述多模态输出数据的步骤还包含以下步骤：

根据所述虚拟人的基础情绪表现输出与所述基础情绪表现匹配的所述虚拟人眼部变化以及所述虚拟人皮肤肌理反应的展示数据。

输出皮肤肌理反应以及泪腺作用；

或者，

在输出所述情感数据时配合所述虚拟人的皮肤肌理反应以及泪腺作用。

根据本发明的一个实施例，在输出所述情感数据时配合所述虚拟人的皮肤肌理反应以及泪腺作用的步骤还包含以下步骤：

在第一预设时间节点输出第一预设程度值的所述皮肤肌理反应以及所述泪腺作用；

所述第一预设时间节点早于所述多模态输出数据中的语音输出时间节点。

在第二预设时间节点输出第二预设程度值的所述情感数据。

根据本发明的另一个方面，还提供了一种存储介质，其上存储有可执行以上任一项所述的方法步骤的程序代码。

根据本发明的另一个方面，还提供了一种虚拟人情感能力表现输出装置，所述装置包含：

获取模块，其用于获取多模态输入数据；

提取模块，其用于调用机器人能力接口解析所述多模态输入数据，提取所述多模态输入数据中的情感要素；

决策模块，其用于根据解析结果决策并生成多模态输出数据，其中，所述多模态输出数据包含情感数据，所述情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据；

输出模块，其用于通过所述虚拟人的形象输出所述多模态输出数据。

根据本发明的另一个方面，还提供了一种虚拟人，其特征在于，所述虚拟人搭载于具有操作系统的智能硬件设备中，所述虚拟人在被启动后显示在预设区域内，并具备特定的形象、性格设定、社会属性以及技能，用于通过所述虚拟人的形象输出如上所述的多模态输出数据。

根据本发明的另一个方面，还提供了一种虚拟人情感能力表现输出系统，所述系统包含：

硬件设备，包括：

获取模块，其用于获取多模态输入数据；

输出模块，其用于通过所述虚拟人的形象输出所述多模态输出数据；

云端大脑，包括：

决策模块，其用于根据解析结果决策并生成多模态输出数据，其中，所述多模态输出数据包含情感数据，所述情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。

本发明提供的虚拟人情感能力表现输出方法及系统输出多模态输出数据时，能够根据虚拟人的基础情绪表现输出匹配的展示数据，例如不同的眼部变化以及不同的皮肤肌理反应等，还能够在输出虚拟人情感时配合不同的泪腺作用。并且，本发明还能够根据输出时间以及程度值的变化来协助表现虚拟人的情感输出，使得虚拟人的情感输出更加完整、丰富以及协调，更能够打动用户，丰富了交互的内容，增加了用户视觉感官的粘度，提升了用户的交互体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的多模态交互示意图；

图2显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的结构框图；

图3显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的多模态输出数据的内容分类图；

图4显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的多模态输出数据输出时间线图；

图5显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的模块框图；

图6显示了根据本发明的一个实施例的虚拟人情感能力表现输出方法的流程图；

图7显示了根据本发明的一个实施例的虚拟人情感能力表现输出方法的输出步骤详细流程图；

图8显示了根据本发明的一个实施例的虚拟人情感能力表现输出方法的另一流程图；以及

图9显示了根据本发明的一个实施例的在用户、硬件设备以及云端大脑三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的虚拟人为搭载于支持感知、控制等输入输出模块的智能设备；

以高仿真3d虚拟人物形象为主要用户界面，具备显著人物特征的外观；

支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力；

可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验的虚拟人物。

虚拟机人在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如PC则为windows或MAC OS。

虚拟人为系统应用程序，或者可执行文件。

虚拟机器人基于硬件设备获取用户多模态交互数据，在云端大脑对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算。

所提到的云端大脑为提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以便帮助用户进行决策。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的虚拟人情感能力表现输出的多模态交互示意图。

如图1所示，完成多模态交互需要用户101、硬件设备102(包括显示区域1021以及硬件支持设备1022)、虚拟人103以及云端大脑104。其中，与虚拟人103交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人，另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此，在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。

另外，硬件设备102包括显示区域1021以及硬件支持设备1022(实质为核心处理器)。显示区域1021用于显示虚拟人103的形象，硬件支持设备1022与云端大脑104配合使用，用于交互过程中的数据处理。虚拟人103需要屏显载体来呈现。因此，显示区域1021包括：PC屏、投影仪、电视机、多媒体显示屏、全息投影设备、VR设备以及AR设备。本发明提出的多模态交互过程需要一定的硬件性能作为支撑，一般来说，选用有主机的PC端来作为硬件支持设备1022。在图1中显示区域1021选用的是PC屏。

图1中虚拟人103与用户101之间交互的过程为：

交互所需的前期准备或是条件有，虚拟人搭载于支持感知、控制等输入输出模块的智能设备，虚拟人在被启动后显示在预设区域内，以高仿真3d虚拟人物形象为主要用户界面，具备显著人物特征的外观，可配置社会属性、人格属性、人物技能等。

虚拟人103需要搭载在具有操作系统的硬件设备中，为了配合虚拟人的感知功能以及控制功能，硬件设备也需要安装有具备感知功能的部件以及控制功能的部件。为了提升交互的体验，在本发明的一个实施例中，虚拟人在被启动后就显示在硬件设备的预设区域内，避免用户等待的时间过长。

在此需要说明的是，虚拟人103的形象以及装扮不限于一种模式。虚拟人103可以具备不同的形象以及装扮。虚拟人103的形象一般为3d高模动画形象。虚拟人103可以具备不同的外貌以及装饰。每种虚拟人103的形象还会对应多种不同的装扮，装扮的分类可以依据季节分类，也可以依据场合分类。这些形象以及装扮可以存在于云端大脑104中，也可以存在于硬件设备102中，在需要调用这些形象以及装扮时可以随时调用。

虚拟人的社会属性、人格属性以及人物技能也不限于一种或是一类。虚拟人可以具备多种社会属性、多种人格属性以及多种人物技能。这些社会属性、人格属性以及人物技能可以分别搭配，并不固定于一种搭配方式，用户可以根据需要进行选择与搭配。

以下为多模态交互过程，首先，获取多模态输入数据。多模态输入数据可以是用户101发出的，也可以是通过感知环境输入的。多模态输入数据可以包含文本、语音、视觉以及感知信息等多种模态的信息。获取多模态输入数据的接收装置均安装或是配置于硬件设备102上，这些接收装置包含接收文本的文本接收装置，接收语音的语音接收装置，接收视觉的摄像头以及接收感知信息的红外线设备等。

接着，调用机器人能力接口解析多模态输入数据，提取多模态输入数据中的情感要素。机器人能力包含语义理解、视觉识别、情感计算、认知计算等。通过以上这些机器人能力就能够对多模态输入数据进行解析，分析出多模态输入数据中包含的用户的交互意图以及情感要素。交互意图能够反映用户101的交互诉求，了解用户101需要从此次交互中获取何种需要的信息。情感要素能够反映用户101此时的情感状态，使得在生成多模态输出数据的时候更加人性化，更具备针对性，更加准确的回应用户的诉求。

然后，根据解析结果决策并生成多模态输出数据，其中，多模态输出数据包含情感数据，情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。其中，皮肤肌理反应可以包含皮肤褶皱、面部明暗变化和面部肤色。为了丰富交互的形式，给用户交互体验更好的交互，多模态输出数据中可以包含情感数据。情感数据中还包含虚拟人的眼部变化以及虚拟人的皮肤肌理反应数据，这两种数据都能够展示出来，向用户传达交互信息。

需要说明的是，情感是情绪与感情的总称，在情感中，能够表现出来的是情绪，如基本的喜怒哀乐悲泣，在多模态输出数据中，由于用户画像及历史情感记忆等因素存在，感情这种长期的影响会对决策起到一定的作用。

最后，通过虚拟人的形象输出多模态输出数据。输出多模态数据的载体是虚拟人的形象，通过虚拟人的形象，能够全方位的展现多模态数据中的文本、语音视觉识别结果等输出数据。交互对象也能够快速准确的获知多模态数据中包含的交互信息。在此处，多模态输出数据中包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。

如图1所示的多模态交互在输出多模态输出数据时，能够根据虚拟人的基础情绪表现输出匹配的展示数据，例如不同的眼部变化以及不同的皮肤肌理反应等，使得虚拟人的情感输出更加完整、丰富，更能够打动用户，丰富了交互的内容，提升了用户的交互体验。

图2显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的结构框图。如图2所示，完成多模态交互需要用户101、硬件设备102、显示区域1021以及云端大脑104。其中，硬件设备102包含接收装置102A、处理装置102B、输出装置102C以及连接装置102D。云端大脑104包含通信装置1041。

在本发明提供的虚拟人情感能力表现输出系统需要在三方之间建立通信连接，即在用户101、硬件设备102以及云端大脑104之间建立通畅的通信通道，以便能够完成用户101与虚拟人103的交互。为了完成交互的任务，硬件设备102以及云端大脑104会设置有支持完成交互的装置以及部件。与虚拟人交互的对象可以为一方，也可以为多方。

硬件设备包含接收装置102A、处理装置102B输出装置102C以及连接装置102D。其中，接收装置102A用于接收多模态输入数据。接收装置102A的例子包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。硬件设备102可以通过以上提到的输入设备来获取多模态输入数据。输出装置102C用于输出多模态输出数据，与接收装置102A的配置基本相当，在此不再赘述。

处理装置102C用于处理交互过程中由云端大脑104传送的交互数据。连接装置102D用于与云端大脑104之间的联系，处理装置102C将接收装置预处理的多模态输入数据或由云端大脑传送的多模态输出数据，通过连接装置102D发送调用指令来调用云端大脑104上的机器人能力来解析多模态输入数据。

云端大脑104利用对于语音、视觉、情感、认知的能力接口对多模态输入数据进行处理，包含的通信装置1041用于完成与硬件设备102之间的通信联系。通信装置1041与硬件设备102上的连接装置102D之间保持通讯联系，接收硬件设备102的发来的解析请求，并发送云端大脑104发出的解析结果，是硬件设备102以及云端大脑104之间沟通的介质。

图3显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的多模态输出数据的内容分类图。为了表达更加丰富的交互内容，本发明提供的虚拟人情感能力表现输出系统中多模态输出数据包含多种输出数据。在本发明的一个实施例中，多模态输出数据可以包含文本输出数据、音频输出数据、情感数据以及视频输出数据。

其中，文本输出数据可以是虚拟人音频输出数据的对应文字数据，也可以是解释旁白等数据，可以显示在显示区域内。音频输出数据可以是匹配虚拟人嘴型的音频数据，也可以是背景音乐等音频数据。视频输出数据可以是虚拟人形态的视频数据，也可以是其他视频数据，本发明不对文本输出数据、音频输出数据以及视频输出数据的具体内容作出限制。

根据本发明的一个实施例，所述虚拟人具有基础情绪表现，其中，基础情绪表现包含：生气、大笑、害羞、悲伤、含泪以及哭泣。基础情绪表现可以包含多种不同类型的情绪表现，例如：喜类、怒类、哀类以及乐类。每一类包含一个专属调用标识符，在需要调用时通过调用标识符进行区分。

任一基础情绪表现还具备与之对应的虚拟人眼部变化集以及皮肤肌理反应集。在存储介质中，包含虚拟人眼部变化库以及皮肤肌理反应库，里边包含所有的虚拟人眼部变化以及皮肤肌理反应的展示数据。在与基础情绪表现匹配时，需要从虚拟人眼部变化库以及皮肤肌理反应库中调用合适的虚拟人眼部变化以及皮肤肌理反应，将调用出来的虚拟人眼部变化以及皮肤肌理反应放在一个集中，用于与当前调用的基础情绪表现进行匹配。

任一对应的虚拟人眼部变化集以及皮肤肌理反应集还具备与之对应的虚拟人泪腺作用组。在存储介质中，包含虚拟人泪腺作用库，里边包含所有的虚拟人泪腺作用的展示数据。在与虚拟人眼部变化集以及皮肤肌理反应集匹配时，需要从虚拟人泪腺作用库调用合适的虚拟人泪腺作用，将调用出来的虚拟人泪腺作用放在一个组中，用于与当前虚拟人眼部变化集以及皮肤肌理反应集进行匹配。

通过库、集以及组三个层次数据的匹配，能够生动形象的展示出多模态输出数据，给用户以丰富的交互体验。

图4显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的多模态输出数据输出时间线图。为了多模态输出数据在输出时更具备层次感，需要将需要输出的多模态输出数据进行时间线的安排。

在本发明的一个实施例中，多模态输出数据的时间线可以为，首先输出文本输出数据，此处的文本输出数据可以是旁白等用于解释的文本数据。接着，同时输出视频输出数据以及情感数据。此处的情感数据与视频输出数据中虚拟人的形象匹配。最后输出音频输出数据。

在输出情感数据时，还需要输出多个不同的基础情绪表现以及与之对应的眼部变化以及皮肤肌理反应。在本发明的一个实施例中，虚拟人包含基础情绪表现A、基础情绪表现B、基础情绪表现C、基础情绪表现D、眼部变化A以及皮肤肌理反应A、眼部变化B以及皮肤肌理反应B、眼部变化C以及皮肤肌理反应C以及眼部变化D以及皮肤肌理反应D。

其中，基础情绪表现A与眼部变化A以及皮肤肌理反应A的时间节点匹配，基础情绪表现B与眼部变化B以及皮肤肌理反应B的时间节点匹配，基础情绪表现C与眼部变化C以及皮肤肌理反应C的时间节点匹配，基础情绪表现D与眼部变化D以及皮肤肌理反应D的时间节点匹配。

另外，除了输出时间的安排，在输出数据时还可以包含程度值的安排，安排不同程度值的标准有：情感强烈程度、保持的时间、上一表情情感的慢慢褪去时机。依据以上标准，脸红或是流泪此类丰富的表现就能够与表情紧密结合，并且随着情感的逐渐表现，脸红或是流泪此类表现就能在最恰当的时机点出现和淡淡消失，另外，同时展现的不同情绪脸红或流泪的程度也可以不同。

需要说明的是，时间线以及程度值可以根据实际情况进行调整，本发明不对时间线以及程度值的具体内容作出限制。

图5显示了根据本发明的一个实施例的虚拟人情感能力表现输出系统的模块框图。

获取模块501包含文本采集单元5011、音频采集单元5012、视觉采集单元5013以及感知采集单元5014。获取模块501主要用来获取多模态输入数据。其中，文本采集单元5011用来采集文本信息。音频采集单元5012用来采集音频信息。视觉采集单元5013用来视觉信息。感知采集单元5014用来采集触摸等感知信息。

提取模块502，用于调用机器人能力接口解析多模态输入数据，提取多模态输入数据中的情感要素。其中，提取模块502包含接口单元5021以及解析单元5022。接口单元5021用于调用云端大脑104的机器人能力接口。解析单元5022用来解析多模态输入数据。

决策模块503用于根据解析结果决策并生成多模态输出数据，其中，多模态输出数据包含情感数据，情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。决策模块503包含生成单元5031。生成单元5031用于决策并生成多模态输出数据。

输出模块504用于通过虚拟人的形象输出多模态输出数据。其中，输出模块504包含匹配单元5041、时间单元5042以及程度单元5043。匹配单元5041用于将虚拟人的基础情绪表现与虚拟人的眼部变化以及虚拟人皮肤肌理反应的展示数据匹配。时间单元5042用于匹配多模态输出数据的输出时间。程度单元5043用于控制多模态输出数据输出时的程度值。

图6显示了根据本发明的一个实施例的虚拟人情感能力表现输出方法的流程图。

在步骤S601中，获取多模态输入数据。在多模态交互过程中，虚拟人103通过聆听、视觉以及其他方式用户了解用户101当下表达的含义以及情感，虚拟人103接收到用户101的信息，通过声音、表情以及动作统筹协调来将自己的思想以及情感回应给用户。虚拟人103是通过硬件设备102来获取多模态输入数据的，硬件设备102配置有获取多模态输入数据对应的装置。硬件设备102中包含接收文本数据的文本接收装置、接收音频数据的音频接收装置以及接收感知数据的感知接收装置等。

接着，在步骤S602中，调用机器人能力接口解析多模态输入数据，提取多模态输入数据中的情感要素。云端大脑104具备多种机器人能力，能够解析多模态输入数据，能够了解用户101的交互意图。另外，机器人能力还需要提取多模态输入数据中的情感要素，以便根据交互意图以及情感要素生成多模态输出数据。

然后，在步骤S603中，根据解析结果决策并生成多模态输出数据，其中，多模态输出数据包含情感数据，情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。云端大脑104会根据解析的结果决策并生成多模态输出数据，多模态输出数据就是虚拟人103对于用户101输入的多模态输入数据的应答。在本发明的一个实施例中，多模态输出数据包含情感数据，情感数据中包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。

在多模态输出数据中，虚拟人103的表情部分根据虚拟人103表达内容的情感因素为依据来刻画，虚拟人103的表情可以包含基础的面部骨骼、皮肤肌理反应驱动的情绪，还可以包括像人类一样真实的泪腺作用(如流泪)等。

最后，在步骤S604中，通过虚拟人的形象输出多模态输出数据。

图7显示了根据本发明的一个实施例的虚拟人情感能力表现输出方法的输出步骤详细流程图。

图7显示了在输出多模态输出数据时的具体步骤，其中，在步骤S701中，根据虚拟人的基础情绪表现输出与基础情绪表现匹配的虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。根据本发明的一个实施例，虚拟人的基础情绪表现包含：生气、大笑、害羞、悲伤、含泪以及哭泣。

在步骤S702中，输出皮肤肌理反应以及泪腺作用或者在输出情感数据时配合虚拟人的皮肤肌理反应以及泪腺作用。在本发明的一个实施例中，虚拟人的脸红表现属于虚拟人的皮肤肌理反应，是依托于基础情绪表现上实现了一种更丰富的情感表达，即拟人类生物的真实情感表达，它结合某些基础情绪表现需要出现，让虚拟人的表达更贴近人类的情感表达，提升情感表达的真实度。

具体如：生气会脸颊红、耳朵红；伤心会鼻子和眼圈红；害羞会脸颊绯红等；哭泣伤心难过会眼眶里充满泪水难过到一定程度眼泪忍不住流出等。

在步骤S702中，还具体包含在第一预设时间节点输出第一预设程度值的皮肤肌理反应以及泪腺作用，第一预设时间节点早于多模态输出数据中的语音输出时间节点。脸红、流泪等此类丰富表情的输出，是在基础情绪上搭载的更丰富、饱含情感的表现，在表情实现时，表情先于声音起势。

在步骤S703中，在第二预设时间节点输出第二预设程度值的情感数据。根据本发明的一个实施例，统一情绪表达激烈程度不同脸红或流泪的程度也不同，通过时间、程度值来协助表表现更加完整、丰富、打动用户。具体如：伤心时鼻头和眼圈红，当伤心的情感表达时，伤心整体情绪起来，然后鼻头迅速红起来，眼眶由浅到强红起来，伤心情感结束时，两者也随时间慢慢消失而不是骤然停止或是骤然消失。

除脸红以外，其他特定的情感的输出，如撒娇、含泪、大笑闭眼等如脸红所述。

图8显示了根据本发明的一个实施例的虚拟人情感能力表现输出方法的另一流程图。

如图8所示，在步骤S801中，硬件设备102向云端大脑104发出请求。请求云端大脑104处理多模态输入数据。之后，在步骤S802中，硬件设备102一直处于等待云端大脑104回复的状态。在等待的过程中，硬件设备102会对返回数据所花费的时间进行计时操作。

在步骤S803中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则硬件设备102会选择进行本地回复，生成本地常用应答数据。然后，在步骤S804中，输出与本地常用应答配合的动画，并调用语音播放设备进行语音播放。

图9显示了根据本发明的一个实施例在用户、硬件设备以及云端大脑三方之间进行通信的流程图。

为了实现虚拟人103的多模态交互数据处理，需要用户101、硬件设备102以及云端大脑104之间建立起通信连接。这种通信连接应该是实时的、通畅的，能够保证交互不受影响的。

为了完成交互，需要具备一些条件或是前提。这些条件或是前提包含，虚拟人搭载于具有操作系统的智能硬件设备中，虚拟人在被启动后显示在预设区域内，并具备特定的形象、性格设定、社会属性以及技能。

硬件设备102完成交互的前提是搭载有操作系统，这个操作系统能够兼容虚拟人103，并且具备感知以及控制功能的硬件设施。硬件设备102应该还具备显示功能的显示屏，用于显示虚拟人103的形象。

虚拟人103完成交互的条件是虚拟人103具备特定的形象、性格设定、社会属性以及技能。特定的形象能够使得与用户101的交互更加形象生动，有助于增进用户101对虚拟人103的认知。性格设定以及社会属性能够使得虚拟人103具备了人类的性格以及社会属性特征，使得虚拟人103的形象更加鲜活。另外，具备技能的虚拟人103能够更好的完成用户101的诉求，针对不同的技能需要，虚拟人103还能够被分类成不同技能属性的虚拟人103。

完成了上述的前期准备后，如图9所示，用户101与虚拟人103之间正式开始交互，首先，硬件设备102获取多模态输入数据。在此处，用户101与硬件设备102之间建立起通信连接，硬件设备102上的接收装置实时接收用户101或是其它设备发送的多模态输入数据。

虚拟人103调用机器人能力接口解析多模态输入数据，通过机器人能力提取所述多模态输入数据中的情感要素，并根据解析结果决策并生成多模态输出数据，其中，多模态输出数据包含情感数据，情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。

此时，硬件设备102与云端大脑104之间会展开联系，硬件设备102调用云端大脑104的能力接口，云端大脑104中的机器人能力解析多模态输入数据。机器人能力可以包含语义理解，认知计算等。接着，云端大脑104根据解析的结果决策并生成多模态输出数据。

最后，用户101与硬件设备102之间建立联系，硬件设备102通过虚拟人103的形象输出多模态输出数据。多模态输出数据包含情感数据，情感数据包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据，虚拟人103能够生动的向用户101表达出多模态输出数据中包含的信息。用户101也能够直观的获取到多模态输出数据中包含的内容信息。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种虚拟人情感能力表现输出方法，其特征在于，所述方法包含以下步骤：

获取多模态输入数据；

通过所述虚拟人的形象输出所述多模态输出数据。

2.如权利要求1所述的虚拟人情感能力表现输出方法，其特征在于，所述虚拟人具有基础情绪表现，其中，所述基础情绪表现包含但不限于：生气、大笑、害羞、悲伤、含泪以及哭泣。

3.如权利要求2所述的虚拟人情感能力表现输出方法，其特征在于，通过所述虚拟人的形象输出所述多模态输出数据的步骤还包含以下步骤：

4.如权利要求3所述的虚拟人情感能力表现输出方法，其特征在于，通过所述虚拟人的形象输出所述多模态输出数据的步骤还包含以下步骤：

输出皮肤肌理反应以及泪腺作用；

或者，

5.如权利要求4所述的虚拟人情感能力表现输出方法，其特征在于，在输出所述情感数据时配合所述虚拟人的皮肤肌理反应以及泪腺作用的步骤还包含以下步骤：

6.如权利要求1所述的虚拟人情感能力表现输出方法，其特征在于，通过所述虚拟人的形象输出所述多模态输出数据的步骤还包含以下步骤：

在第二预设时间节点输出第二预设程度值的所述情感数据。

7.一种存储介质，其上存储有可执行如权利要求1-6中任一项所述的方法步骤的程序代码。

8.一种虚拟人情感能力表现输出装置，其特征在于，所述装置包含：

获取模块，其用于获取多模态输入数据；

9.一种虚拟人，其特征在于，所述虚拟人搭载于具有操作系统的智能硬件设备中，所述虚拟人在被启动后显示在预设区域内，并具备特定的形象、性格设定、社会属性以及技能，用于通过所述虚拟人的形象输出如权利要求1所述的多模态输出数据。

10.一种虚拟人情感能力表现输出系统，其特征在于，所述系统包含：

硬件设备，包括：

获取模块，其用于获取多模态输入数据；

云端大脑，包括：