CN107340865A

CN107340865A - 多模态虚拟机器人交互方法和系统

Info

Publication number: CN107340865A
Application number: CN201710519314.6A
Authority: CN
Inventors: 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-10
Anticipated expiration: 2037-06-29
Also published as: CN107340865B

Abstract

本发明提供一种多模态虚拟机器人交互方法，包括以下步骤：启用虚拟机器人，将虚拟机器人的形象在预设显示区域中显示，虚拟机器人具备设定性格和背景故事；获取用户发送的单模态和/或多模态交互指令；调用机器人能力接口对单模态和/或多模态交互指令进行解析，获取交互指令意图；根据当前应用场景和设定性格来筛选生成与设定性格和背景故事相关联的多模态应答数据；虚拟机器人形象输出多模态应答数据。本发明采用具有设定故事以及性格属性的虚拟机器人进行对话交互使得用户看起来是在与人对话。并且，本发明的虚拟机器人还具备根据设定的性格属性和设定故事筛选生成多模态应答数据的功能，使得虚拟机器人对交互内容具备了一定的选择性与主动性。

Description

多模态虚拟机器人交互方法和系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种多模态虚拟机器人交互方法和系统。

背景技术

机器人聊天交互系统的开发致力于模仿人类对话。早期广为人知的聊天机器人应用程序包括小i聊天机器人、苹果手机上的siri聊天机器人等处理所接收到的输入(包括文本或语音)并进行响应，以试图在上下文之间模仿人类响应。

然而，要想使虚拟机器人具备人类的某些特性甚至是完全模仿人类对话，丰富用户的交互体验，现有的这些智能机器人远远达不到要求。

发明内容

为解决上述问题，本发明提供了一种多模态虚拟机器人交互方法，所述方法包括以下步骤：

启用虚拟机器人，以将所述虚拟机器人的形象在预设显示区域中显示，所述虚拟机器人具备设定性格和背景故事；

获取用户发送的单模态和/或多模态交互指令；

调用机器人能力接口对所述单模态和/或多模态交互指令进行解析，获取所述交互指令的意图；

根据当前应用场景和所述设定性格来筛选生成与所述设定性格和所述背景故事相关联的多模态应答数据；

通过所述虚拟机器人的形象输出所述多模态应答数据。

根据本发明的一个实施例，触发启用虚拟机器人的事件的条件包括：

检测到有特定的生物特征输入；

或，装载有虚拟机器人程序包的硬件被启动；

或，该硬件装载的指定系统、应用、指定功能被启动。

根据本发明的一个实施例，调用机器人能力接口对所述单模态和/或多模态交互指令进行解析，获取所述交互指令的意图的步骤包括：

调用与所述设定背景故事和所述设定性格相适应的语音识别、视觉识别、语义理解、情感计算、认知计算、表情控制、动作控制接口。

根据本发明的一个实施例，在筛选生成与所述设定性格和所述背景故事相关联的多模态应答数据的步骤中，进一步包括：

判断所述单模态和/或多模态交互指令与所述设定性格是否相符；

当所述交互指令的意图指向与所述设定性格指向不符，输出表征拒绝的应答数据，所述应答数据可为多模态应答数据。

根据本发明的一个实施例，所述单模态和/或多模态交互指令包括娱乐、陪伴、助手应用场景下发出的交互指令。

根据本发明的一个实施例，虚拟机器人的存在形态并不限定如下方式中的任一项：

系统服务、平台功能、应用中功能、单独的应用、文本机器人匹配虚拟形象。

根据本发明的另一个方面，还提供了一种存储介质，其上存储有可执行以上任一项所述的方法步骤的程序代码。

根据本发明的另一个方面，还提供了一种多模态虚拟机器人交互装置，所述装置包括：

启动显示单元，其用于启用虚拟机器人，以将所述虚拟机器人的形象在预设显示区域中显示，所述虚拟机器人具备设定性格和背景故事；

获取单元，其用于获取用户发送的单模态和/或多模态交互指令；

调用单元，其用于调用机器人能力接口对所述单模态和/或多模态交互指令进行解析，获取所述交互指令的意图；

生成单元，其用于根据当前应用场景和所述设定性格来筛选生成与所述设定性格和所述背景故事相关联的多模态应答数据；

输出单元，其用于通过所述虚拟机器人的形象输出所述多模态应答数据。

根据本发明的一个实施例，所述启动显示单元包括：

检测子单元，其用于检测特定的生物特征输入，或，装载有虚拟机器人程序包的硬件被启动；

或，该硬件装载的指定系统、应用、指定功能被启动；

显示子单元，其用于将所述虚拟机器人的形象在预设显示区域中显示。

根据本发明的一个实施例，所述装置包括：

与所述设定背景故事和所述设定性格相适应的语音识别子单元、视觉识别子单元、语义理解子单元、情感计算子单元、认知计算子单元、表情控制子单元、动作控制子单元。

根据本发明的一个实施例，所述生成单元进一步包括：

判断子单元，其用于判断所述单模态和/或多模态交互指令与所述设定性格是否相符；

拒绝子单元，其用于当所述交互指令的意图指向与所述设定性格指向不符，输出表征拒绝的应答数据，所述应答数据可为多模态应答数据。

根据本发明的一个实施例，所述装置包含场景选择单元，其用于选择应用场景，其中，应用场景包含娱乐应用场景、陪伴应用场景以及助手应用场景。

根据本发明的一个实施例，所述装置包含支持所述虚拟机器人的存在形态并不限定如下方式中的任一项进行多模态交互的组件：

根据本发明的另一个方面，还提供了一种多模态虚拟机器人交互系统，所述系统包括：

目标硬件设备，用于显示具备设定背景故事和设定性格的虚拟机器人形象，并具有接收用户发送的的单模态和/或多模态交互指令的能力以及输出多模态应答数据的能力；

云端服务器，其与所述目标硬件设备进行通信，并提供多模态机器人能力接口，用于执行以下步骤：

根据当前应用场景和所述设定性格来筛选生成与所述设定性格和所述背景故事相关联的多模态应答数据。

根据本发明的一个实施例，所述系统目标硬件设备包括：

生物特征检测模块，其用于检测是否有特定的生物特征输入；

或，装载有虚拟机器人程序包的硬件被启动；

或，该硬件装载的指定系统、应用、指定功能被启动。

本发明采用具有设定背景故事以及性格属性的虚拟机器人进行对话交互可以使得虚拟机器人的形象更加丰满，更加贴近于真实的人类，丰富了用户的交互体验，使得用户看起来是在与人对话，而不是机器，增强了用户的想象空间。并且，本发明的虚拟机器人还具备根据已经设定的性格属性和设定背景故事来筛选生成多模态应答数据的功能，使得虚拟机器人对交互内容具备了一定的选择性与主动性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例采用虚拟机器人进行多模态交互的示意图；

图2显示了根据本发明的一个实施例的多模态虚拟机器人交互的结构框图；

图3显示了根据本发明的一个实施例的多模态虚拟机器人交互的系统模块框图；

图4显示了根据本发明的一个实施例的多模态虚拟机器人交互的系统的机器人能力接口图；

图5显示了根据本发明的一个实施例的多模态虚拟机器人交互方法的模块工作流程图；

图6显示了根据本发明的一个实施例的设定性格与背景故事之间的关系示意图；

图7显示了根据本发明的一个实施例进行多模态交互的流程图；

图8显示了根据本发明的一个实施例进行多模态交互的详细流程图；

图9显示了根据本发明的一个实施例进行多模态交互的另一流程图；以及

图10进一步详细地显示了根据本发明的一个实施例在用户、安装了虚拟机器人的目标硬件设备以及云端服务器三方之间进行通信的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

图1显示了根据本发明的采用虚拟机器人进行多模态交互的示意图。为表述清晰，需要在实施例前进行如下说明：

所述虚拟机器人为多模态交互机器人，使得多模态交互机器人成为交互过程中的一员，用户与该多模态交互机器人进行问答、聊天、游戏。所述虚拟形象为所述多模态交互机器人的载体，对所述多模态交互机器人的多模态输出进行表现。虚拟机器人(以虚拟形象为载体)为：所述多模态交互机器人与虚拟形象为载体的共同体，即：以确定的UI形象设计为载体；基于多模态人机交互，具有语义、情感、认知等AI能力；使用户享受流畅体验的个性化及智能化的服务机器人。在本实施例中，所述虚拟机器人包括：3D高模动画的虚拟机器人形象。

所述云端服务器为，提供所述多模态交互机器人对用户的交互需求进行解析(语音识别、视觉识别、语义理解、情感计算、认知计算、表情控制、动作控制)的处理能力的终端，实现与用户的交互。

如图1所示，包含用户101、目标硬件设备102、虚拟机器人103以及云端服务器104。

其中，用户101可以为单个的人、单个的虚拟机器人以及单个的实体机器人。这些对象都可以与虚拟机器人103进行交互。另外，目标硬件设备102包括显示区域1021以及硬件设备1022。显示区域1021用于显示虚拟机器人103的形象，硬件设备1022与云端服务器104配合使用，用于多模态交互过程中的指令分析以及数据处理，所述硬件设备1022可嵌入智能机器人操作系统。由于虚拟机器人103的形象需要屏显载体来呈现。因此，显示区域1021包括：PC屏、投影仪、电视机、多媒体显示屏、全息投影、VR以及AR。一般来说，选用有主机的PC端来作为硬件设备1022。在图1中显示区域1021选用的是PC屏。

图1中展示的用户101与虚拟机器人103进行的多模态交互的过程可以为：

首先，用户101有意愿发起交互，在交互之前首先需要唤醒虚拟机器人103，而唤醒虚拟机器人的手段可以为声纹、虹膜等生物特征、触摸、按键、遥控器以及特定肢体动作、手势等。另外，虚拟机器人103也可以在装载有虚拟机器人程序包的硬件被启动时一起启动，或，该硬件装载的指定系统、应用、指定功能被启动。在唤醒虚拟机器人103后，虚拟机器人103的形象会在显示区域1021中显示，唤醒的虚拟机器人103具备设定性格和背景故事。

在此需要说明的是，虚拟机器人103的形象不限于一种固定的形象装扮，虚拟机器人103的形象一般为3D高模动画形象，这些形象可以具备与设定性格与背景故事搭配，尤其是当前虚拟机器人所在场景下的的多种衣服以及配饰装扮。用户101可以选择提供的虚拟机器人103的装扮。虚拟机器人103的装扮可以按职业以及场合进行分类。以上装扮均可以从在云端服务器104处调用，也可以存储在PC102上从PC102上调用，但是，PC102一般存储占空间小的虚拟机器人形象数据，大部分的数据还是存储在云端服务器104中。另外，由于虚拟机器人103具备设定的性格以及背景故事，所以本发明提供的虚拟机器人103更加贴近于人类。

接着，被唤醒成功的虚拟机器人103等待用户101发送的单模态和/或多模态交互指令，用户101发出交互指令后，PC102会获取这些指令，一般来说，PC102可以通过其上安装的话筒收集用户发送的音频信息、通过摄像头收集用户的图像以及视频信息以及通过触摸装置收集用户的触摸信息。

在获取了用户101发送的单模态和/或多模态交互指令后，虚拟机器人103会调用机器人能力接口对获取到的用户101发送的单模态和/或多模态交互指令进行解析，获取以上交互指令的意图。机器人能力接口可以包含与所述设定背景故事和所述设定性格相适应的语音识别、视觉识别、语义理解、情感计算、认知计算、表情控制以及动作控制接口。

然后，虚拟机器人103会配合云端服务器104根据当前应用场景和设定性格来筛选生成与设定性格和背景故事相关联的多模态应答数据。其中，应用场景一般包含娱乐应用场景、陪伴应用场景以及助手应用场景，用户101可以根据需要，选择与虚拟机器人103进行交互的应用场景。由于虚拟机器人103具备设定的性格以及设定的背景故事，所以，虚拟机器人103会根据自己的预设性格以及预设背景故事来生成相应的多模态应答数据。虚拟机器人103会有自主性以及选择性，对于不符合自己预设性格和预设背景故事的用户101交互指令，虚拟机器人103会输出表征拒绝的应答数据，这些应答数据可以是单模态应答数据，也可以是多模态应答数据。

最后，将以上步骤产生的多模态应答数据通过虚拟机器人103的形象输出。PC102屏幕上的虚拟机器人103的形象可以通过面部的表情，嘴型以及肢体动作来输出多模态应答数据。虚拟机器人103由于具备了多模态输出的功能，所以使得交互更加多样。

以上交互步骤简单来说就是，首先启用虚拟机器人103，以将虚拟机器人103的形象在预设显示区域中显示，虚拟机器人103具备设定性格和背景故事。接着，虚拟机器人103获取用户101发送的单模态和/或多模态交互指令。然后，调用机器人能力接口对单模态和/或多模态交互指令进行解析，获取交互指令的意图。然后，根据当前应用场景和设定性格来筛选生成与设定性格和背景故事相关联的多模态应答数据。最后通过虚拟机器人103的形象输出多模态应答数据。

所述场景为

在本发明中，目标硬件设备102事实上是用做了虚拟机器人103的显示载体以及交互对话内容的显示载体。云端服务器104为虚拟机器人数据的载体。下面举一个例子说明虚拟机器人103以及用户101的交互对话过程。在娱乐应用场景下，虚拟机器人的背景故事被赋予是具备渊博学识、良好情商的现代女性，其具性格为知性优雅的虚拟机器人103可以与用户101这样展开聊天。

虚拟机器人103说：嗨(微笑)，有什么需要帮忙的吗(打招呼)？

用户101说：有的，我想唱歌。

虚拟机器人103说：好啊，您想唱什么歌呢(微笑)？

用户101说：这个我一时间也想不起来，最近有什么好听的歌曲吗？

虚拟机器人103说：是这样啊(微笑)，那你是喜欢华语歌还是英语歌或者是其他的外语歌(疑问)？

用户101说：华语歌吧。

虚拟机器人103说：好的(感兴趣)，我明白了，那您是喜欢什么风格的歌曲呢(疑问)？

用户101说：欢快劲爆的，比如萧敬腾的《王妃》，这样吧，咱们一起随着这首歌跳一支性感的舞吧。

当所述虚拟机器人的的性格设定为积极、知性、温婉时，用户的意图指向了性感、妖娆的性格，与所述该虚拟机器人的设定性格指向不符，输出表征拒绝的应答数据，即：

虚拟机器人103说：对不起(遗憾)，我不会跳这样的舞蹈哦。

在以上对话中，虚拟机器人103会在做出应答以及等待对方做出应答时改变自己的情绪。以上问答里括号内的内容为虚拟机器人103做出的表情上的应答。除了表情上的应答，虚拟机器人103还可以通过降低语调以及升高语调的方式来表达虚拟机器人当时的情绪。除了表情以及语调上的应答，虚拟机器人103还可以通过肢体上的动作来表达自己的情绪，比如点头、挥手、坐下、站立、走路、跑步等一系列动作。

虚拟机器人103可以通过判断交互对象的情绪变化，根据交互对象的情绪变化来做出对应的表情、语调以及肢体上的变化。虚拟机器人103还可以在程序卡顿或者网络出现问题的时候以跳舞或者其他表演形式弥补程序卡顿以及网络问题所带来的交互过程不流畅的缺陷。此外，对于轻微缺失某些识别能力的用户，这种交互输出也可以提高他们的对话交互能力。

最重要的是，虚拟机器人103由于具备预设的性格以及预设的背景故事，所以，虚拟机器人103会拒绝输出与自己性格不符合的多模态应答数据。这样一来，虚拟机器人103在交互的感觉上就更加接近人类，使得交互的内容更加丰富和有趣。

图2显示了根据本发明的一个实施例的多模态虚拟机器人交互的结构框图。如图2所示，包含用户101、目标硬件设备102以及云端服务器104。其中，用户101包含三种不同的类型，分别是人、虚拟机器人以及实体机器人。目标硬件设备102包含唤醒检测模块201、输入获取模块202以及显示区域1021。

需要说明的是，唤醒检测模块201用于唤醒并启动虚拟机器人103，唤醒检测单元201检测到有特定的生物特征输入时便会启动虚拟机器人103。一般来说，生物特征输入包含用户的触摸动作，即用户通过手指触摸目标硬件设备102特定位置上的触摸区域，虚拟机器人103便会被唤醒继而被启动。另外，唤醒检测模块201可以在某些特定的条件下去除，这里提到的某些特定的条件可以是虚拟机器人103随装载有虚拟机器人程序包的硬件启动时一起启动，此时，目标硬件设备102便不需要装载有唤醒检测模块201。唤醒虚拟机器人的条件，包括但不限于如下方式：

有特定的生物特征输入；

或

装载有虚拟机器人程序包的硬件被启动；

或该硬件装载的指定系统、应用、指定功能被启动。

在目标硬件设备102中还包含输入获取模块202，输入获取模块202用于获取用户发送的单模态和/或多模态交互指令。输入获取模块202可以包含键盘、麦克风以及摄像头。其中，键盘可以获取用户101输入的文本信息，麦克风可以获取用户101输入的音频信息，摄像头可以获取用户101输入的图像以及视频信息。其他可以获取用户101的交互指令的设备也可以运用到本发明的交互中，本发明不限于此。

图3显示了根据本发明的一个实施例的多模态虚拟机器人交互的系统模块框图。如图3所示，包括唤醒检测模块201、输入获取模快202、输入解析模块203、筛选处理模块204以及数据输出模块205。其中，安装了虚拟机器人103的目标硬件设备102包含唤醒检测模块201、输入获取模快202、输入解析模块203、筛选处理模块204以及数据输出模块205。云端服务器104包含输入解析模块203以及筛选处理模块204。

在本发明提供的多模态虚拟机器人交互系统中，安装了虚拟机器人103的目标硬件设备102以及云端服务器104之间会建立通信，协同完成解析以及筛选处理用户101发送的单模态和/或多模态回复数据的任务。因此，安装了虚拟机器人103的目标硬件设备102以及云端服务器104中均包含输入解析模块203以及筛选处理模块204。

如图3所示，本发明提供的多模态虚拟机器人交互系统包含唤醒检测模块201，其用于接收用户101发送的启动虚拟机器人103的启动信息，并唤醒虚拟机器人103。一般来说，唤醒检测模块201能够检测特定的生物特征的输入，并根据这些生物特征包含的特定信息唤醒虚拟机器人103，这些生物特征可以是用户101的指纹信息、声纹信息，也可以是其他预先设定的生物特征。

但是，唤醒虚拟机器人103除了通过唤醒检测模块201唤醒以外，虚拟机器人103还可以随着装载有虚拟机器人程序包的硬件被启动；或该硬件装载的指定系统、应用、指定功能被启动时同时启动。这种方式可以节约交互系统的硬件放置空间，但是用户101无法控制虚拟机器人103启动的时机。交互系统的设计者可以根据实际情况选择合适的虚拟机器人103的唤醒方式。另外，需要说明的是，唤醒虚拟机器人103的方式不仅限于上文提到的两种唤醒方式，其他可以唤醒虚拟机器人103的方式亦可以运用到本发明提供的交互系统中，本发明不限于此。

另外，交互系统还包含输入获取模块202，输入获取模块202用于获取用户101发送的单模态和/或多模态交互指令。这些交互指令可以包含用户101输入的文本信息、音频信息、图像信息以及视频信息。为了采集以上提到的用户101发送的多模态信息，输入获取模块202配备有文本采集单元2021、音频采集单元2022、图像采集单元2023以及视频采集单元2024。其中，文本采集单元2021可以为一切实体以及虚拟键盘。音频采集单元2022可以为麦克风、话筒以及其他可以采集用户101音频信息的装置。

图像采集单元2023以及视频采集单元2024可以为摄像头，摄像头可以间隔一段时间拍摄一张用户101的图像信息，然后选择合适的用户101的图像信息。间隔时间可以是1分钟，也可以是其他任意时间，间隔时间参数在设计交互系统的时候被设定好，可以在后续使用时进行修改。

另外，用户输入多模态信息设备的例子还包括键盘、光标控制设备(鼠标)、用于语音操作的麦克风、扫描仪、触摸功能(例如用以检测物理触摸的电容型传感器)、摄像头(采用可见或不可见波长检测不涉及触摸的动作)等等。

交互系统还包含输入解析模块203，其用于调用机器人能力接口对单模态和/或多模态交互指令进行解析，获取交互指令的意图。一般来说，目标硬件设备102中包含的输入解析模块203与云端服务器104建立通信关系，向云端服务器104发送调用机器人能力接口的信息。云端服务器104提供机器人能力对单模态和/或多模态交互指令进行解析，然后根据解析的结果获取交互指令的意图，根据交互指令的意图来指导应答数据的生成。

另外，交互系统还包含筛选处理模块204，其用于根据当前应用场景和设定性格来筛选生成与设定性格和背景故事相关联的多模态应答数据。需要说明的是，在交互开始之前，用户101可以选择交互应用场景，本发明中，交互应用场景包含娱乐应用场景、陪伴应用场景以及助手应用场景，当应用场景选择完成后，交互正式开始，用户101可以在应用场景下与虚拟机器人103展开交互，虚拟机器人103会根据当前的应用场景和设定性格来筛选生成与设定性格和背景故事相关联的多模态应答数据。当用户101的交互指令与虚拟机器人103设定的性格和背景故事不相符时，虚拟机器人103会输出表征拒绝的多模态应答数据，比如，“对不起，我不会这样的哦”“我来给你读一篇红楼梦选段吧”。

最后，交互系统还包含数据输出模块205，其用于通过虚拟机器人的形象输出多模态应答数据。多模态应答数据包含文本应答数据、音频应答数据、图像应答数据以及视频应答数据。虚拟机器人103的形象会通过面部表情、语调以及肢体动作等输出多模态应答数据。输出设备例如包括显示屏、扬声器、触觉响应设备等等。移动设备的通信能力包括有线和无线通信。例如包括：一个或多个Wi-Fi天线、GPS天线、蜂窝天线、NFC天线、蓝牙天线。

图4显示了根据本发明的一个实施例的多模态虚拟机器人交互的系统的机器人能力接口图。如图4所示，机器人能力接口包含语音识别能力接口、视觉识别能力接口、语义理解能力接口、情感计算能力接口、认知计算能力接口、认知控制能力接口以及表情控制能力接口。交互系统会在获取到用户101发送的单模态和/或多模态交互指令后调用以上机器人能力接口，对获取到的交互指令进行解析，获取交互指令的意图。

其中，语音识别能力接口用于识别用户101发送的音频交互指令，对音频交互指令首先进行识别，识别音频交互指令的语言，当确认交互指令所属的语言类别后，对交互指令进行文字识别，识别交互指令的文字信息。之后，送入语义理解能力接口，利用语义理解能力接口识别交互指令包含的语义信息，解析用户101发送的交互指令的意图。视觉识别能力接口可以用来识别交互对象的身份以及识别用户的表情以及肢体动作信息，配合语音识别能力接口共同来解析用户101发送的交互指令的意图。

另外，情感计算能力接口用来识别以及分析用户101在交互时的情绪状态，根据用户101的情绪状态配合之前的语音识别能力接口、视觉识别能力接口以及语义理解能力接口来解析交互指令的意图。认知计算能力接口以及认知控制能力接口用来执行涉及到虚拟机器人认知方面的任务。

以上机器人能力接口既可以在解析交互指令意图时被调用，也可以在生成应答数据时被调用，用来筛选以及生成单模态和/或多模态应答数据。

图5显示了根据本发明的一个实施例的多模态虚拟机器人交互方法的模块工作流程图。如图5所示，交互系统包含唤醒检测模块201、输入获取模块202、输入解析模块203、筛选处理模块204以及数据输出模块205。其中，唤醒检测模块201包含唤醒单元；输入获取模块202包含音频采集单元、文本采集单元、图像采集单元以及视频采集单元。输入解析模块203包含语音识别能力、视觉识别能力、语义理解能力、情感计算能力、认知计算能力、表情控制能力以及认知控制能力。筛选处理模块204包含筛选单元以及处理单元。

首先，唤醒检测模块201中的唤醒单元接收到用户101发送的特定生物信息输入时启动虚拟机器人103，然后输入获取模块202中的音频采集单元、文本采集单元、图像采集单元以及视频采集单元获取用户发送的单模态和/或多模态交互指令。输入解析模块203调用语音识别能力、视觉识别能力、语义理解能力、情感计算能力、认知计算能力、表情控制能力以及认知控制能力对单模态和/或多模态交互指令进行解析，获取交互指令的意图。筛选处理模块204中的筛选单元根据当前应用场景和设定性格来筛选与设定性格和背景故事相关联的多模态应答数据，处理单元生成需要输出的多模态应答数据。最后，数据输出模块205通过虚拟机器人的形象输出多模态应答数据。

图6显示了根据本发明的一个实施例的设定性格与背景故事之间的关系示意图。如图6所示，背景故事A、背景故事B、背景故事C、背景故事D、背景故事E、以及背景故事F可与预设性格相关联，每一个背景故事都会影响虚拟机器人103的预设性格。在每次交互结束后，虚拟机器人103均会记录下交互的全部过程，这些交互的过程也会在一定程度上影响虚拟机器人103的性格。

以上方式并不局限，需要说明的是：

所述虚拟机器人103可拥有独立、持久、稳定的性格限定，并关联固定的背景故事及身份设定，所述虚拟机器人在完善的设定下进行人机交互，使得本发明的虚拟机器人103更加贴近人类，在交互过程中带给用户101的交互体验更加舒适。

图7显示了根据本发明的一个实施例进行多模态交互的流程图。如图7所示，在步骤S701中，首先启用虚拟机器人103，以将虚拟机器人103的形象在预设显示区域中显示，虚拟机器人103具备设定性格和背景故事。接着，在步骤S702中，获取用户发送的单模态和/或多模态交互指令。然后，在步骤S703中，调用机器人能力接口对单模态和/或多模态交互指令进行解析，获取交互指令的意图。接着，在步骤S704中，根据当前应用场景和设定性格来筛选生成与设定性格和背景故事相关联的多模态应答数据。最后，在步骤S705中，通过虚拟机器人的形象输出多模态应答数据。

图8显示了根据本发明的一个实施例进行多模态交互的详细流程图。如图所示，在步骤S801中，目标硬件设备102检测到有特定的生物特征输入，或，装载有虚拟机器人程序包的硬件被启动，或，装载有虚拟机器人程序包的硬件被启动时，虚拟机器人103被唤醒，接着，在步骤S802中，虚拟机器人103被唤醒之后，虚拟机器人103的形象显示在预设区域内，被显示的虚拟机器人形象具备设定的性格和背景故事。此时，交互前的准备工作结束，交互正式开始。接着，在步骤S803中，虚拟机器人103获取用户101发送的单模态和/或多模态交互指令，然后将交互指令传送至下一环节，在步骤S804中，虚拟机器人103调用与预设背景故事和设定性格相适应的语音识别、视觉识别、语义理解、情感计算、认知计算、表情控制以及动作控制能力接口对单模态和/或多模态交互指令进行解析，获取交互指令的意图。

然后，在步骤S805中，虚拟机器人103会判断以上交互指令与设定性格是否相符，当交互指令的指向与设定性格指向不符，则输出表征拒绝的应答数据，这里的应答数据可以是多模态应答数据。接着，在步骤S806中，当交互指令意图与设定性格相符，则生成与设定性格和背景故事相关联的多模态应答数据。最后，在步骤S807中，通过虚拟机器人103的形象输出多模态应答数据。

图9显示了根据本发明的一个实施例进行多模态交互的另一流程图。如图所示，在步骤S901中，目标硬件设备102向云端服务器104发出交互内容。之后，目标硬件设备102一直处于等待云端服务器104完成云端服务器104部分任务的状态。在等待的过程中，目标硬件设备102会对返回数据所花费的时间进行计时操作。如果长时间未得到返回数据，比如，超过了预定的时间长度5S，则目标硬件设备102会选择进行本地回复，生成本地常用应答数据。然后由虚拟机器人形象输出与本地常用应答配合的动画，并调用语音播放设备播放语音。

图10进一步详细地显示了根据本发明的一个实施例在用户101、安装了虚拟机器人103的目标硬件设备102以及云端服务器104三方之间进行通信的流程图。

如图10所示，在交互开始之初，用户101启用虚拟机器人103，目标硬件设备102的显示区域1021上显示出虚拟机器人103的形象，用户101启动的虚拟机器人103具备设定的性格和背景故事，用户101选择应用场景。此时，交互即将开始。

交互开始之后，虚拟机器人103获取用户发送的单模态和/或多模态交互指令，然后，目标硬件设备102上的虚拟机器人103调用机器人能力接口对单模态和/或多模态交互指令进行解析，获取交互指令的意图。接着，虚拟机器人103根据当前用户101选择的应用场景和设定的性格来筛选预生成与设定性格和背景故事相关的多模态应答数据。如果交互指令不符合虚拟机器人103的设定性格，虚拟机器人103会输出表征拒绝的多模态应答数据。最后，虚拟机器人103通过虚拟形象输出生成的多模态输出数据。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种多模态虚拟机器人交互方法，其特征在于，所述方法包括以下步骤：

获取用户发送的单模态和/或多模态交互指令；

通过所述虚拟机器人的形象输出所述多模态应答数据。

2.如权利要求1所述的多模态虚拟机器人交互方法，其特征在于，触发启用虚拟机器人的事件的条件包括：

检测到有特定的生物特征输入；

或

装载有虚拟机器人程序包的硬件被启动；

或，

该硬件装载的指定系统、应用、指定功能被启动。

3.如权利要求1所述的多模态虚拟机器人交互方法，其特征在于，调用机器人能力接口对所述单模态和/或多模态交互指令进行解析，获取所述交互指令的意图的步骤包括：

4.如权利要求1所述的多模态虚拟机器人交互方法，其特征在于，在筛选生成与所述设定性格和所述背景故事相关联的多模态应答数据的步骤中，进一步包括：

5.如权利要求4所述的多模态虚拟机器人交互方法，其特征在于，所述单模态和/或多模态交互指令包括娱乐、陪伴、助手应用场景下发出的交互指令。

6.如权利要求1-5中任一项所述的多模态虚拟机器人交互方法，其特征在于，虚拟机器人的存在形态并不限定如下方式中的任一项：

7.一种存储介质，其上存储有可执行如权利要求1-6中任一项所述的方法步骤的程序代码。

8.一种多模态虚拟机器人交互装置，其特征在于，所述装置包括：

9.如权利要求8所述的多模态虚拟机器人交互装置，其特征在于，所述启动显示单元包括：

检测子单元，其用于检测特定的生物特征输入；

或，装载有虚拟机器人程序包的硬件被启动；

或，该硬件装载的指定系统、应用、指定功能被启动

10.如权利要求8所述的多模态虚拟机器人交互装置，其特征在于，所述装置包括：

与所述设定背景故事和所述设定性格相适应的语音识别子单元、视觉识别子单元、语义理解子单元、情感计算子单元、认知计算子单元、表情控制子单元以及动作控制子单元。

11.如权利要求8所述的多模态虚拟机器人交互装置，其特征在于，所述生成单元进一步包括：

12.如权利要求8所述的多模态虚拟机器人交互装置，其特征在于，所述装置包含场景选择单元，其用于选择应用场景，其中，应用场景包含娱乐应用场景、陪伴应用场景以及助手应用场景。

13.如权利要求8-12中任一项所述的多模态虚拟机器人交互装置，其特征在于，所述装置包含支持所述虚拟机器人的存在形态并不限定如下方式中的任一项进行多模态交互的组件：

14.一种多模态虚拟机器人交互系统，其特征在于，所述系统包括：

15.如权利要求14所述的多模态虚拟机器人交互系统，其特征在于，所述系统目标硬件设备包括：

以及，检测装载有虚拟机器人程序包的硬件被启动；

或该硬件装载的指定系统、应用、指定功能被启动。