CN107340859B

CN107340859B - 多模态虚拟机器人的多模态交互方法和系统

Info

Publication number: CN107340859B
Application number: CN201710454559.5A
Authority: CN
Inventors: 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2021-04-06
Anticipated expiration: 2037-06-14
Also published as: CN107340859A

Abstract

本发明提供一种多模态虚拟机器人的多模态交互方法，其中，虚拟机器人的形象在目标硬件设备的预设显示区域中显示，所构建的虚拟机器人具备预设的角色属性，方法包括以下步骤：获取用户发送的单模态和/或多模态交互指令；调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，以生成各个模态的应答数据，各个模态的应答数据与预设的角色属性相关；将各模态的应答数据融合生成多模态输出数据；通过虚拟机器人形象输出多模态输出数据。本发明采用虚拟机器人进行对话交互，一方面可以将某一形象的个体通过高模3D建模技术在人机交互界面上显示出来；另一方面可以通过虚拟形象的动画实现语音与嘴型、表情以及肢体动作自然融合的效果。

Description

多模态虚拟机器人的多模态交互方法和系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种多模态虚拟机器人的多模态交互方法和系统。

背景技术

随着人工智能热潮的不断升级，虚拟机器人聊天交互系统也越来越多的受到大众的关注。机器人聊天交互系统的开发致力于模仿人类对话。早期广为人知的聊天机器人包括小i聊天机器人、苹果的siri聊天机器人等处理所接收到的输入(包括文本或语音)并进行响应，以试图模仿人类响应。

然而，要想完全模仿人类对话，丰富用户的交互体验，现有的这些智能机器人远远达不到要求。

发明内容

为解决上述问题，本发明提供了一种多模态虚拟机器人的多模态交互方法，所述虚拟机器人的形象在目标硬件设备的预设显示区域中显示，所构建的虚拟机器人具备预设的角色属性，所述方法包括以下步骤：

获取用户发送的单模态和/或多模态交互指令；

调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，以生成各个模态的应答数据，所述各个模态的应答数据与预设的角色属性相关；

将各模态的应答数据融合生成多模态输出数据；

通过所构建的虚拟机器人形象输出所述多模态输出数据。

根据本发明的一个实施例，将各模态的应答数据融合生成多模态输出数据的步骤包括：

将语音应答数据进行语音切分生成语音切分数据；

将所述语音切分数据与嘴型应答数据融合。

将所述语音切分数据、所述嘴型应答数据以及表情应答数据融合。

将所述语音切分数据、所述嘴型应答数据、所述表情应答数据以及肢体动作应答数据融合。

根据本发明的一个实施例，虚拟机器人以如下方式的任一且不限于如下方式进行多模态交互：

系统服务、平台功能、应用中功能模块、应用(APP)、主题、屏显。

根据本发明的一个实施例，所述角色属性包括性格属性。

根据本发明的一个实施例，所述目标硬件设备的预设显示区域包括：PC屏、投影仪、电视机、全息投影、多媒体显示屏、VR或AR。

根据本发明的一个实施例，所述虚拟机器人的形象为3D高模动画形象。

根据本发明的一个实施例，所述方法还包括在所述目标硬件设备的交互界面上输出所述多模态输出数据对应的文本信息。

根据本发明的另一个方面，还提供了一种多模态虚拟机器人的多模态交互装置，其特征在于，所述虚拟机器人的形象在所述装置的预设显示区域中显示，所构建的虚拟机器人具备预设的角色属性，所述装置包括：

获取单元，其用于获取用户发送的单模态和/或多模态交互指令；

处理单元，其用于调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，以生成各个模态的应答数据，所述各个模态的应答数据与预设的角色属性相关；

融合单元，其用于将各模态的应答数据融合生成多模态输出数据；

输出单元，其用于通过所构建的虚拟机器人形象输出所述多模态输出数据。

根据本发明的一个实施例，所述融合单元包括：

语音切分子单元，其用于将语音应答数据进行语音切分生成语音切分数据；

嘴型融合子单元，其用以将所述语音切分数据与嘴型应答数据融合步骤的子单元。

根据本发明的一个实施例，所述融合单元包括：

嘴型及表情融合子单元，其用以将所述语音切分数据、所述嘴型应答数据以及表情应答数据融合。

根据本发明的一个实施例，所述融合单元包括：

嘴型表情肢体融合子单元，其用以将所述语音切分数据、所述嘴型应答数据、所述表情应答数据以及肢体动作应答数据融合。

根据本发明的一个实施例，所述装置包含支持虚拟机器人以如下方式的任一且不限于如下方式进行多模态交互的组件：

根据本发明的一个实施例，所述装置包括：

形象存储单元，其用于存储3D高模动画的虚拟机器人形象。

根据本发明的一个实施例，所述装置还包括：

文本输出单元，其用于在所述装置的交互界面上输出所述多模态输出数据对应的文本信息。

根据本发明的另一个方面，还提供了一种存储介质，其上存储有计算机可执行的程序代码，所述程序代码被计算机运行时，能够实现如权利要求1-9中任一项所述的方法步骤。

根据本发明的另一个方面，还提供了一种多模态虚拟机器人的多模态交互系统，其特征在于，所述系统包括：

目标硬件设备，用于显示具备预设的角色属性的虚拟机器人形象，并具有接收用户的单模态和/或多模态交互指令的能力以及输出多模态输出数据的能力；

云端服务器，其与所述目标硬件设备进行通信，并提供多模态机器人能力接口，以与所述目标硬件设备协同执行以下步骤：

根据目标硬件设备发送的所述单模态和/或多模态交互指令生成特定于所述预设的角色属性的各模态的应答数据；

所述目标硬件设备接收所述各模态的应答数据，并将各模态的应答数据融合生成多模态输出数据；

所述目标硬件设备通过所构建的虚拟机器人形象输出所述多模态输出数据。

根据本发明的一个实施例，所述系统目标硬件设备还配置成用以执行以下步骤：

将语音应答数据进行语音切分生成语音切分数据；

将所述语音切分数据与嘴型应答数据融合；

将所述语音切分数据、所述嘴型应答数据以及表情应答数据融合；

根据本发明的一个实施例，所述系统包括PC屏接口、投影仪接口、电视机接口、全息投影接口、多媒体显示屏接口、VR接口或AR接口。

本发明采用虚拟机器人进行对话交互，一方面可以丰富对话的个体，将某一形象的个体通过高模3D建模技术在人机交互界面上显示出来，使得用户实现与有形象的机器人的交互效果；另一方面，除了在语音上增加情绪之外，还可以通过虚拟形象的动画实现语音与嘴型、表情以及肢体动作自然融合的效果，能够将对话信息所要表达的内容完整表现出来。因此，采用本发明可以使得智能机器人与用户之间人机交互粘度和流畅度均得到极大提升。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1-2显示了根据本发明的采用虚拟机器人进行多模态交互的示意图；

图3显示了根据本发明的采用虚拟机器人进行多模态交互系统的结构图；

图4显示了根据本发明的采用虚拟机器人进行多模态交互系统的详细结构图；

图5显示了根据本发明的一个实施例的云端服务器数据库结构图；

图6显示了根据本发明的一个实施例的角色以及性格参数结构图；

图7显示了根据本发明的一个实施例采用虚拟机器人进行多模态交互的总体流程图；

图8显示了根据本发明的一个实施例采用虚拟机器人进行多模态交互的详细流程图；

图9进一步详细地显示了根据本发明的一个实施例在用户、目标硬件设备以及云端服务器三方之间进行通信的流程图；以及

图10为根据本发明的一个实施例的采用虚拟机器人进行多模态交互的文本输出方式的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

图1-2显示了根据本发明的采用虚拟机器人进行多模态交互的示意图。其中，图1为用户通过PC屏与虚拟机器人之间的多模态交互示意图，图2为用户通过全息投影的方式与虚拟机器人之间的多模态交互示意图。

为表述清晰，需要在实施例前进行如下说明：

所述虚拟机器人103为多模态交互机器人，使得多模态交互机器人成为交互过程中的一员，用户与该多模态交互机器人进行问答、聊天、游戏。所述虚拟形象为所述多模态交互机器人的载体，对所述多模态交互机器人的多模态输出进行表现。虚拟机器人(以虚拟形象为载体)为：所述多模态交互机器人与虚拟形象为载体的共同体，即：以确定的UI形象设计为载体；基于多模态人机交互，具有语义、情感、认知等AI能力；使用户享受流畅体验的个性化及智能化的服务机器人。在本实施例中，所述虚拟机器人包括：3D高模动画的虚拟机器人形象。

所述云端服务器104为，提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、情感计算、认知计算)的处理能力的终端，实现与用户的交互。

如图1所示，图中包含用户101、目标硬件设备102、虚拟机器人103以及云端服务器104。其中，与虚拟机器人103交互的用户101可以为单个的人、另一个虚拟机器人以及实体的机器人，另一虚拟机器人以及实体机器人与虚拟机器人的交互过程与单个的人与虚拟机器人的交互过程类似，因此，在图1中仅展示的是用户(人)与虚拟机器人的多模态交互过程。

另外，目标硬件设备102包括显示区域1021以及硬件设备1022。显示区域1021用于显示虚拟机器人103的形象，硬件设备1022与云端服务器104配合使用，用于多模态交互过程的数据处理。虚拟机器人103需要屏显载体来呈现。因此，显示区域1021包括：PC屏、投影仪、电视机、多媒体显示屏、全息投影、VR以及AR。本发明提出的多模态交互过程需要一定的硬件性能作为支撑，一般来说，选用有主机的PC端来作为硬件设备1022。在图1中显示区域1021选用的是PC屏。

图1中的多模态交互过程为：首先，所述虚拟机器人103通过PC102会获取用户101发送的单模态和/或多模态交互指令，然后所述虚拟机器人103通过PC102调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，配合云端服务器104生成各个模态的应答数据，接着，所述虚拟机器人103通过PC102会将各模态的应答数据融合生成多模态输出数据，最后，所述虚拟机器人103通过PC102会发送这些输出数据至PC屏，通过PC屏上的虚拟机器人形象输出所述多模态输出数据。

一般来说，在多模态输出过程中，虚拟机器人103融合语音、嘴型、表情以及肢体动作数据的工作由目标硬件设备102以及云端服务器104协同完成，但某些情况下，云端服务器104可以独自完成融合语音、嘴型、表情以及肢体动作数据的工作，然后将融合后的输出数据传输至目标硬件设备102，由目标硬件设备102将输出数据通过所述虚拟机器人形象传输出来。

虚拟机器人103具备不同的角色属性，这些角色属性可以分为四大类，但在本实施例中所列举属性并不作为所述虚拟机器人场景的限制，分别为：

娱乐类、生活助手类、办公类以及家庭类，其中：

娱乐类的虚拟机器人包含主持人、舞蹈家、歌唱家以及代言人；

生活助手类的虚拟机器人包含天气管家、旅行管家、财富管家以及健身管家；办公类的虚拟机器人包含日程安排助手、工作计划助手、会议助手以及人事行政助手；

家庭类的虚拟机器人包含：情感陪伴助手、家务提醒助手、厨房助手以及家用电器安全助手。

每一种角色属性都可以对应多种不同装扮的虚拟机器人形象，这些不同装扮可以根据季节进行分类，也可以根据场合进行分类，比如，主持人虚拟机器人形象可以具备春夏秋冬四种不同季节的装扮，在每个季节下边，又可以分成，歌唱节目装扮、谈话节目装扮、闯关节目装扮以及运动节目装扮等多种的不同装扮，这些装扮可以随用户的选择进行切换。

另外，每种角色属性的虚拟机器人也分别对应不同的性格属性，性格属性一般包括温暖性格以及机智性格等多种性格。比如，虚拟机器人可以是温暖性格的主持人形象，也可以是具备机智性格的主持人形象。这些角色以及性格属性可以互相搭配，在交互之前以及交互之中的任何时间，用户都可以选择自己喜欢的角色以及性格。

下边举一个例子来说明具备温暖性格的天气管家虚拟机器人与用户的多模态交互过程。

天气管家说：亲(表情-微笑)，有什么我可以帮助你的吗(肢体动作-挥手)？

用户说：天气助手，你好，最近我要进行一个长途旅行，需要经过很多个国家，麻烦你能帮我看一下这些国家的天气吗？

天气管家说：好的(表情-微笑)，不知道你都要去哪些国家呢(表情-疑问)？

用户说：我打算明天从北京出发，坐飞机前往英国的首都伦敦，在伦敦游玩两天。

天气管家说：(肢体动作-ok)明白了，我首先帮你看看明天北京以及伦敦的天气怎么样(表情-微笑)。

用户说：好的，谢谢你。

在以上对话中，虚拟机器人103会在做出应答以及等待对方做出应答时改变自己的情绪。以上问答里括号内的内容为虚拟机器人103做出的表情以及肢体动作上的应答。除了以上应答，虚拟机器人103还可以通过降低语调以及升高语调的方式来表达虚拟机器人103当时的情绪。虚拟机器人103的肢体动作还包括点头、挥手、坐下、站立、走路、跑步等一系列动作。

虚拟机器人103可以通过判断交互对象的情绪变化，根据交互对象的情绪变化来做出对应的表情、语调以及肢体上的变化。虚拟机器人103还可以在程序卡顿或者网络出现问题的时候以跳舞或者其他表演形式弥补程序卡顿以及网络问题所带来的交互过程不流畅的缺陷。

图2显示了用户通过全息投影的方式与虚拟机器人之间的多模态交互示意图。图中包含用户101、目标硬件设备102、虚拟机器人103以及云端服务器104。其中，目标硬件设备包含显示区域1021以及硬件设备1022。

显示区域1021用于显示虚拟机器人103的形象，硬件设备1022与云端服务器104配合使用，用于多模态交互过程的数据处理。在图2中选用的显示区域1021为全息投影屏，硬件设备1022为全息投影机以及安装有虚拟机器人103的PC102。这里所说的全息投影(front-projected holographic display)也称虚拟成像技术，是利用干涉和衍射原理记录并再现物体真实的三维图像的技术。通过全息投影技术可以产生立体的空中幻象。

图2中的多模态交互过程为：首先，所述虚拟机器人103通过PC102会获取用户101发送的单模态和/或多模态交互指令，所述虚拟机器人103调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，配合云端服务器104生成各个模态的应答数据，接着，所述虚拟机器人103通过PC102会将各模态的应答数据融合生成多模态输出数据，最后，所述虚拟机器人103通过PC102会发送这些输出数据至全息投影机，全息投影机投影的虚拟机器人形象输出所述多模态输出数据。

图3显示了根据本发明的采用虚拟机器人进行多模态交互系统的结构图。如图3所示，图中包含安装了虚拟机器人103的目标硬件设备102、云端服务器104、输入采集模块301、输入信息处理模块302、表达信息融合模块303以及信息输出模块304。其中，安装了虚拟机器人103的目标硬件设备102包含输入采集模块301、输入信息处理模块302、表达信息融合模块303以及信息输出模块304；云端服务器104包含输入信息处理模块302。

输入采集模块301即虚拟机器人103通过目标硬件设备102获取用户发送的单模态和/或多模态交互指令；

虚拟机器人103调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，输入信息处理模块302生成各个模态的应答数据，生成的各个模态的应答数据与预设的角色属性相关；并由所述表达信息融合模块303将应答数据融合生成多模态输出数据；所述输入信息处理模块302分为两个部分，一部分在安装了虚拟机器人103的目标硬件设备102中，一部分在云端服务器104中，两部分的输入信息处理模块协同合作，共同完成生成多模态应答数据的任务。

所述信息输出模块304将多模态输出数据通过所构建的虚拟机器人形象输出出来。

图4显示了根据本发明的采用虚拟机器人进行多模态交互系统的详细结构图。如图4所示，图中包含四大部分，分别是输入采集模块301、输入信息处理模块302、表达信息融合模块303以及信息输出模块304。其中，输入采集模块301包含音频采集单元3011、文本采集单元3012、图像采集单元3013以及感知采集单元3014。输入信息处理模块302包含语义理解能力3021、情感识别能力3022、视觉能力3023以及认知能力3024。

用户101输入的信息一般为语音、文本、用户的动作表情以及触摸等感知的信息。这些信息需要采集设备采集，然后传送至处理部分处理，音频采集单元3011用于采集用户101输入的语音信息，文本采集单元3012用于采集用户101输入的文本信息，图像采集单元3013用于采集用户101的面部表情以及肢体动作等信息，感知采集单元3014用于采集用户101的触摸等传感信息。

输入信息处理模块302具备语义理解能力3021、情感识别能力3022、视觉能力3023以及认知能力3024。语义理解能力3021以及情感识别能力3022可针对音频采集单元3011采集的用户101输入的语音信息以及文本采集单元3012采集的用户101输入的文本信息进行处理。视觉能力3023可针对图像采集单元3013采集的用户101的表情以及肢体动作等信息进行处理，认知能力3014接收用户101及周围环境信息的处理。语义理解能力3021、情感识别能力3022、视觉能力3023以及认知能力3024可在对相应数据处理后生成语音应答数据、嘴型应答数据、表情应答数据以及肢体动作应答数据。

表达信息融合模块303会将输入信息处理模块302生成的语音应答数据、嘴型应答数据、表情应答数据以及肢体动作应答数据进行融合。

信息输出模块304用于输出多模态应答数据，信息输出模块304决策输出肢体、表情和语音数据。由于信息输出模块304可以提供了多种输出模式，使得多模态交互过程变得更加丰富更加多样化，语音、嘴型、表情以及肢体动作的配合输出使得多模态交互的信息更加丰富，交互更加流畅。

图5显示了根据本发明的采用虚拟机器人进行多模态交互系统的云端服务器数据库结构图。如图5所示，图中包含角色数据库、性格属性单元、嘴型数据库、表情数据库以及肢体动作数据库。其中，角色数据库包含娱乐类、生活助手类、办公类以及家庭类；性格属性单元包含温暖性格以及机智性格。这些数据库用来存储各种角色以及各种性格的虚拟机器人103形象数据，用于在交互之前以及交互的过程中调取。一般来说这些数据库存储在云端服务器104上，但一些占用内存较少的也可以存储在目标硬件设备102上，用户101可以选择自己喜欢的虚拟机器人103形象存储在目标硬件设备102上，以便于随时调取。

娱乐类角色包含主持人、舞蹈家、歌唱家以及代言人；生活助手类角色包含天气管家、旅行管家、财富管家以及健身管家；办公类角色包含日程安排助手、工作计划助手、会议助手以及人事行政助手；家庭类角色包含：情感陪伴助手、家务提醒助手、厨房助手以及家用电器安全助手。以上这些角色不仅含有一套装扮，可以根据不同的场合和需求转换不同的装扮，这些装扮一般存储在云端服务器数据库中，系统维护人员可以定期上传新装扮至云端服务器数据库，用户101可以随时根据需求选择最新的、最合适的虚拟机器人103装扮。

在本发明的交互系统中可以支持多种语言的交互，一般包括汉语、英语等多种语言，这些语言都对应多种嘴型数据。系统维护人员会定期上传新语言嘴型数据库至云端服务器数据库，用户101可以随时根据需求选择。一般来说，日常生活中交流以汉语居多，所以，下边列举汉语的拼音字母表。汉语拼音中的声母包含b p m f d t n l g k h j q xzh ch sh r z c s y w；单韵母包含a o e i u ü；复韵母包含ai ei ui ao ou iu ie üeer an en in un ünang eng ing ong；整体认读音节包含zhi chi shi ri zi ci si yiwu yu ye yue yuan yin yun ying，以上这些拼音都具备与之一一对应的的嘴型数据。

表情数据库一般包含多种不同效果的表情，表情数据库里可以包含大笑、微笑、坏笑、憨笑、害羞、抛媚眼、花痴、吐舌头、难过、哭泣、生气、吃惊以及激动等表情，这些表情一般存储在云端服务器104上，但目标硬件设备102中也可以存储部分表情，系统维护人员会定期上传新的表情至云端服务器104，用户可以选择自己喜欢的表情进行下载。

肢体动作数据库一般包含胳膊数据库、手指数据库以及腿数据库。胳膊数据库一般包含向上举、向下垂、拥抱、握手以及挥手等胳膊形态，手指数据库一般包含握手、ok、摆手、数字一至数字十以及攥拳等手指的形态，腿数据库一般包含抬腿、高抬腿、走、跑、劈叉、坐下以及二郎腿等腿的形态。

嘴型、表情、肢体动作具备很多种的组合，本发明不限于以上提到的各种形态。

图6显示了根据本发明的采用虚拟机器人进行多模态交互系统的角色以及性格参数结构图。如图6所示，图中包含娱乐类角色参数、生活助手类角色参数、办公类角色参数以及性格参数。其中，娱乐类角色参数包含主持人角色参数、舞蹈家角色参数、歌唱家角色参数以及代言人角色参数；生活助手类角色参数包含天气管家角色参数、旅行管家角色参数、财富管家角色参数以及健身管家角色参数；办公类角色参数包含日程安排助手角色参数、工作安排助手角色参数、会议助手角色参数以及人事行政助手角色参数；家庭类角色参数包含情感陪伴助手角色参数、家务提醒助手角色参数、厨房助手参数以及家用电器安全助手角色参数；性格参数包含温暖性格参数以及机智性格参数参数。以上这些数据一般存储在云端服务器104中，但一些简单或者是用户101习惯选择的角色以及性格也可以存储在目标硬件设备102中，用户可以根据自己的需求从云端服务器104上下载自己喜爱的角色以及性格属性。

在输入信息处理模块302生成各模态应答数据的时候，会调用相应的角色参数以及性格参数，这些角色参数以及性格参数会影响应答数据的生成，不同的角色以及性格会产生截然不同的应答数据，同一角色的不同性格的应答数据也存在着差异，这种差异使得交互更加多样。

图7显示了根据本发明的一个实施例采用虚拟机器人进行多模态交互的总体流程图。

根据本发明，虚拟机器人的形象可以在交互开始之前被构建并在预设显示区域中显示，即用户101在仅仅实施了打开交互系统这一操作之后但还未开始进行交互之前，本发明中的虚拟机器人形象已经显示在目标硬件设备102的显示区域内，这一过程是为了保证交互的顺利进行。本发明中的交互对象包括但不限于两个，交互对象应当包含虚拟机器人以及与虚拟机器人进行交互的其他个体。当然，本发明的虚拟机器人形象也可以是用户101发出了请求要求与其对话的时候自动构建。

如图所示，在步骤S701中，虚拟机器人103获取用户发送的单模态和/或多模态交互指令，即，当用户101发出交互请求并输入需要与虚拟机器人103交互的内容时，输入采集模块301即虚拟机器人103会通过目标硬件设备102获取单模态和/或多模态交互指令。用户101输入的交互内容的方式包括语音输入、文本输入、视觉输入以及其他可以交互的输入形式。

具体的说，交互的软载体一般包括系统服务、平台功能、应用中功能模块、应用(APP)、主题、屏显，这些并不构成对本发明的限制。

接下来，在步骤S702中，虚拟机器人103调用语义理解能力、情感识别能力、视觉能力和认知能力的接口配合云端服务器104生成各个模态的应答数据，另外，由于虚拟机器人103具备多种角色以及性格，在生成应答数据的时候还需要调用角色参数以及性格参数。产生的应答数据会带有特定的角色属性以及性格属性。各模态的应答数据一般包含语音应答数据、嘴型应答数据、表情应答数据以及肢体动作应答数据。

在步骤S703中，虚拟机器人103通过目标硬件设备102将各模态的应答数据融合生成多模态输出数据。首先，语音应答数据会被进行切分，获取每个音节，生成语音切分数据；然后，进入融合阶段，一般来说，融合阶段可以分为三种情况，第一种情况为语音切分数据与嘴型应答数据融合；第二种情况为语音切分数据、嘴型应答数据以及表情应答数据融合；第三种情况为语音切分数居、嘴型应答数据、表情应答数据以及肢体动作数据进行融合。

最后，在步骤S704中，通过所构建的虚拟机器人的形象输出多模态输出数据。所构建的虚拟机器人会配合嘴型和/或表情和/或肢体动作的变化输出多模态应答数据。

图8显示了根据本发明进行多模态交互的另一流程图。如图所示，在步骤S801中，目标硬件设备102向云端服务器104发出对话内容。之后，目标硬件设备102一直处于等待云端服务器104完成云端服务器104部分任务的状态。在等待的过程中，目标硬件设备102会对返回数据所花费的时间进行计时操作。如果长时间未得到返回数据，比如，超过了预定的时间长度5S，则目标硬件设备102会选择进行本地回复，生成本地常用应答数据。然后由虚拟机器人形象输出与本地常用应答配合的动画，并调用语音播放设备播放语音。

图9进一步详细地显示了根据本发明的一个实施例在用户、安装了虚拟机器人的目标硬件设备以及云端服务器三方之间进行通信的流程图。

如图所示，在对话交互开始进行之前，由用户101发出与虚拟机器人交互的信息，所述目标硬件设备102具有硬件的视觉识别能力或触觉认知能力，比如安装有摄像头以及具有触摸屏。当目标硬件设备102通过这些硬件接收到启动指令后，在指定的显示区域中进行将虚拟形象显示出来。虚拟机器人103动画形象的构建可以为3D高模动画的虚拟机器人形象。

当用户101看到了虚拟机器人形象后，向目标硬件设备102通过语音、动作或文本输入对话数据，比如要问的问题“今天天气怎么样？”

目标硬件设备102上的虚拟机器人103调用语义理解能力、情感识别能力、视觉能力以及认知能力接口，接着调用角色参数以及性格参数。

虚拟机器人103通过目标硬件设备102与云端服务器104配合生成多模态的应答数据，这些数据受角色参数以及性格参数的影响。

最后，目标硬件设备102上的显示区域显示的虚拟机器人形象会输出多模态交互数据。

图10为根据本发明的一个实施例的采用虚拟机器人进行多模态交互的文本输出方式的示意图。所述虚拟机器人可以处理文本输入数据，并进行语音回复输出，在语音输出的同时，显示区域上会实时显示虚拟机器人输出语音数据对应的文本数据。本交互在虚拟机器人进行语音输出的同时在显示区域内实时显示虚拟机器人的应答信息，使得交互更加顺畅。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种多模态虚拟机器人的多模态交互方法，其特征在于，所述虚拟机器人的形象在目标硬件设备的预设显示区域中显示，所构建的虚拟机器人具备预设的角色属性，所述虚拟机器人包括3D高模动画的虚拟机器人形象，所述方法包括以下步骤：

获取用户发送的单模态和/或多模态交互指令；

调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，以生成各个模态的应答数据，所述各个模态的应答数据与预设的角色属性相关，在生成所述应答数据时需要调用虚拟机器人的角色参数以及性格参数，所述视觉能力针对用户的表情以及肢体动作信息进行处理，所述认知能力接收用户及周围环境信息的处理；

将各模态的应答数据融合生成多模态输出数据，其中，将语音应答数据进行语音切分生成语音切分数据，

将所述语音切分数据与嘴型应答数据融合作为所述多模态输出数据，或

将所述语音切分数据、所述嘴型应答数据以及表情应答数据融合作为所述多模态输出数据，或

将所述语音切分数据、所述嘴型应答数据、所述表情应答数据以及肢体动作应答数据融合作为所述多模态输出数据；

通过所构建的虚拟机器人形象输出所述多模态输出数据，虚拟机器人通过降低语调以及升高语调的方式来表达虚拟机器人当时的情绪，具备与语言对应的嘴型数据，在汉语拼音中，声母、单韵母、复韵母、整体认读音节都具备与之一一对应的嘴型数据。

2.如权利要求1所述的多模态虚拟机器人的多模态交互方法，其特征在于，虚拟机器人以如下方式的任一且不限于如下方式进行多模态交互：

3.如权利要求1所述的多模态虚拟机器人的多模态交互方法，其特征在于，所述角色属性包括性格属性。

4.如权利要求1所述的多模态虚拟机器人的多模态交互方法，其特征在于，所述目标硬件设备的预设显示区域包括：PC屏、投影仪、电视机、全息投影、多媒体显示屏、VR或AR。

5.如权利要求1所述的多模态虚拟机器人的多模态交互方法，其特征在于，所述虚拟机器人的形象为3D高模动画形象。

6.如权利要求1所述的多模态虚拟机器人的多模态交互方法，其特征在于，所述方法还包括，在所述目标硬件设备的交互界面上输出所述多模态输出数据对应的文本信息。

7.一种多模态虚拟机器人的多模态交互装置，其特征在于，所述虚拟机器人的形象在所述装置的预设显示区域中显示，所构建的虚拟机器人具备预设的角色属性，所述虚拟机器人包括3D高模动画的虚拟机器人形象，所述装置包括：

处理单元，其用于调用语义理解能力、情感识别能力、视觉能力和认知能力的接口，以生成各个模态的应答数据，所述各个模态的应答数据与预设的角色属性相关，在生成所述应答数据时需要调用虚拟机器人的角色参数以及性格参数，所述视觉能力针对用户的表情以及肢体动作信息进行处理，所述认知能力接收用户及周围环境信息的处理；

融合单元，其用于将各模态的应答数据融合生成多模态输出数据，其中，所述融合单元包括：

嘴型融合子单元，其用以将所述语音切分数据与嘴型应答数据进行融合输出；

嘴型及表情融合子单元，其用以将所述语音切分数据、所述嘴型应答数据以及表情应答数据融合；

嘴型表情肢体融合子单元，其用以将所述语音切分数据、所述嘴型应答数据、所述表情应答数据以及肢体动作应答数据融合；

输出单元，其用于通过所构建的虚拟机器人形象输出所述多模态输出数据，虚拟机器人通过降低语调以及升高语调的方式来表达虚拟机器人当时的情绪，具备与语言对应的嘴型数据，在汉语拼音中，声母、单韵母、复韵母、整体认读音节都具备与之一一对应的嘴型数据。

8.如权利要求7所述的多模态虚拟机器人的多模态交互装置，其特征在于，所述装置包含支持虚拟机器人以如下方式的任一且不限于如下方式进行多模态交互的组件：

9.如权利要求7所述的多模态虚拟机器人的多模态交互装置，其特征在于，所述装置包括：

形象存储单元，其用于存储3D高模动画的虚拟机器人形象。

10.如权利要求7所述的多模态虚拟机器人的多模态交互装置，其特征在于，所述装置还包括：

11.一种存储介质，其上存储有计算机可执行的程序代码，所述程序代码被计算机运行时，能够实现如权利要求1-6中任一项所述的方法步骤。

12.一种多模态虚拟机器人的多模态交互系统，其特征在于，所述系统包括：

目标硬件设备，用于显示具备预设的角色属性的虚拟机器人形象，所述虚拟机器人包括3D高模动画的虚拟机器人形象，并具有接收用户的单模态和/或多模态交互指令的能力以及输出多模态输出数据的能力；

根据目标硬件设备发送的所述单模态和/或多模态交互指令生成特定于所述预设的角色属性的各模态的应答数据，在生成所述应答数据时需要调用虚拟机器人的角色参数以及性格参数，视觉能力针对用户的表情以及肢体动作信息进行处理，认知能力接收用户及周围环境信息的处理；

所述目标硬件设备接收所述各模态的应答数据，并将各模态的应答数据融合生成多模态输出数据，

其中，将语音应答数据进行语音切分生成语音切分数据；

将所述语音切分数据与嘴型应答数据融合；

将所述语音切分数据、所述嘴型应答数据、所述表情应答数据以及肢体动作应答数据融合；

所述目标硬件设备通过所构建的虚拟机器人形象输出所述多模态输出数据，虚拟机器人通过降低语调以及升高语调的方式来表达虚拟机器人当时的情绪，具备与语言对应的嘴型数据，在汉语拼音中，声母、单韵母、复韵母、整体认读音节都具备与之一一对应的嘴型数据。

13.如权利要求12所述的多模态虚拟机器人的多模态交互系统，其特征在于，所述系统包括PC屏接口、投影仪接口、电视机接口、全息投影接口、多媒体显示屏接口、VR接口或AR接口。