CN107894833A

CN107894833A - 基于虚拟人的多模态交互处理方法及系统

Info

Publication number: CN107894833A
Application number: CN201711014806.6A
Authority: CN
Inventors: 尚小维; 李晓丹
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-04-10
Anticipated expiration: 2037-10-26
Also published as: CN107894833B

Abstract

本发明公开了一种基于虚拟人的多模态交互处理方法及系统，所述虚拟人在智能设备运行，该方法包括如下步骤：在虚拟人处于唤醒状态时，虚拟人显示在预设显示区域内，虚拟人具备特定明星人物的外形及属性；获取多模态输入数据；调用虚拟人能力接口解析多模态输入数据以获取用户与该明星人物进行交互的多模态交互意图；根据该明星人物社会属性、人格属性和人物技能响应多模态交互意图，决策出与该意图匹配的多模态数据；开启与意图匹配的粉丝互动技能，并输出与意图匹配的多模态数据。本发明实施例不限于线上或线下场景都能够实现虚拟明星与用户的多模态交互，能够更好地满足用户需求，增加虚拟人与用户或该明星粉丝之间的互动形式，改善用户体验。

Description

基于虚拟人的多模态交互处理方法及系统

技术领域

本发明涉及人机交互领域，尤其涉及一种基于虚拟人的多模态交互处理方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

目前机器人包括具备实体的实体机器人和搭载在硬件设备上的虚拟机器人。现有技术中的虚拟机器人无法进行多模态交互，且一直呈现出固定不变的状态，无法实现逼真、流畅、拟人的交互效果。因此，提升虚拟机器人的交互能力，是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种基于虚拟人的多模态交互处理方法及系统，不限于线上或线下场景都能够实现虚拟明星与用户的多模态交互，能够更好地满足用户需求，增加虚拟人与用户或该明星粉丝之间的互动形式，改善用户体验。

为了解决上述技术问题，本申请的实施例首先提供了一种基于虚拟人的多模态交互处理方法，所述虚拟人在智能设备运行，该方法包括如下步骤：在虚拟人处于唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的外形及属性；获取多模态输入数据；调用虚拟人能力接口解析所述多模态输入数据以获取用户与该明星人物进行交互的多模态交互意图；根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据；开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据，所述多模态数据包括但不限于：文本数据、图像数据、该明星人物声音合成数据、面部表情、头部动作和肢体动作。

优选地，还包括：开启社交应用端以在虚拟人处于唤醒状态时，所述虚拟人显示在社交应用端用户界面的预设显示区域内；通过所述社交应用端获取用户输入的多模态输入数据。

优选地，判断当前用户是否为粉丝用户，若是，则调整当前状态为进入粉丝互动模式。

优选地，根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图包括：获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态数据。

优选地，还包括：在多模态交互过程中，实时获取硬件设备的状态信息；在所述状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。

优选地，所述虚拟人由3D高模构造成型。

优选地，所述虚拟人能力接口包括：语义理解接口、视觉识别接口、认知计算接口、情感计算接口。

根据本发明实施例的另一方面，还提供了一种基于虚拟人的多模态交互处理系统，所述虚拟人在智能设备运行，该系统包括如下模块：虚拟人唤醒模块，其在虚拟人处于唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的外形及属性；多模态输入数据获取模块，其获取多模态输入数据；多模态输入数据解析模块，其调用虚拟人能力接口解析所述多模态输入数据以获取用户与该明星人物进行交互的多模态交互意图，并根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据；粉丝互动技能开启模块，其开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据，所述多模态数据包括但不限于：文本数据、图像数据、该明星人物声音合成数据、面部表情、头部动作和肢体动作。

优选地，所述虚拟人唤醒模块，其开启社交应用端以在虚拟人处于唤醒状态时，所述虚拟人显示在社交应用端用户界面的预设显示区域内；进一步，多模态输入数据获取模块，其通过所述社交应用端获取用户输入的多模态输入数据。

根据本发明实施例的另一方面，还提供一种智能设备，所述智能设备包括：用户界面，其在预设显示区域内显示被唤醒的虚拟人和展示与用户的多模态交互意图匹配的多模态数据，所述虚拟人具备特定明星人物的外形及属性，所述多模态数据包括但不限于：文本数据、图像数据、该明星人物声音合成数据和肢体动作；具备人机交互功能的输入输出模块，其获取多模态输入数据以及输出多模态数据；通信模块，其调用虚拟人能力接口并接收通过该接口决策出的、根据该明星人物的社会属性、人格属性和人物技能响应用户与该明星人物进行交互的多模态交互意图而得到的多模态数据；中央处理单元，其开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据。

优选地，所述中央处理单元，其进一步执行如下操作：开启社交应用端以在虚拟人处于唤醒状态时，所述虚拟人显示在社交应用端用户界面的预设显示区域内；所述输入输出模块，其通过所述社交应用端获取用户输入的多模态输入数据。

根据本发明实施例的另一方面，还提供一种基于虚拟人的多模态交互系统，该系统包括：如上所述的智能设备，其与用户进行多模态交互；具备虚拟人能力接口的云服务器，其对所述智能设备发送的多模态输入数据进行解析以获取用户与该明星人物进行交互的多模态交互意图，并根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

在本发明实施例中，启动所述虚拟人，将设定的明星人物的属性融合在虚拟人上并进行展示，根据当前的多模态输入输出场景，所述虚拟人明星与用户进行交互；在交互过程中，对多模态输入数据进行解析，输出与所述意图匹配的多模态数据。本发明实施例不限于线上或线下场景，都能实现虚拟明星与用户，尤其该明星的粉丝进行互动，满足了用户需求，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例的基于虚拟人的多模态交互系统的应用场景示意图。

图2为本申请实施例的采用3D高模构造成型的虚拟人头部的示例图。

图3为本申请实施例的基于虚拟人的多模态交互系统的功能结构示意图。

图4为本申请实施例的智能设备20和云端服务器10内部的功能模块的示意图。

图5为本申请另一实施例的智能设备20内部的功能模块的示意图。

图6为本申请实施例的基于虚拟人的多模态交互处理方法的流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着人工智能技术的进步，虚拟个人助手如Apple Siri、Google Assistant以及Microsoft Cortana等已逐步参与到人们的生活中。目前大多数的虚拟个人助手都只能单纯地使用语音与用户交流，而没有实现多模态交互。而且，针对娱乐场景，目前也没有能够在线上或线下场景下与用户进行多模态交互的虚拟明星。因此，本发明实施例提出了一种基于虚拟人的多模态交互处理方法及系统，在该实施例中，虚拟人具备特定明星人物的外形和属性，该虚拟明星能够与用户进行多模态交互，在交互的过程中根据用户针对该明星人物的多模态交互意图，输出匹配的多模态数据，无论在在线上还是线下场景中，都能与粉丝实现多模态互动。

为了更好地理解本发明实施例，下面对涉及的虚拟人稍作说明。本例中的虚拟人搭载于支持感知、控制等输入输出模块的智能设备上，优选以3D高模构造成型，具备显著人物特征的外观(如图2所示的头部3D)，在某些示例中可配置社会属性、人格属性、人物技能等。该虚拟人支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等人工智能AI能力，在与用户交互的过程中，能够使用户享受智能化及个性化流畅体验。

在本例中，虚拟人为系统的应用程序或者可执行文件。在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如果为PC机则系统为windows或Mac OS操作系统。在与用户交互的过程中，该虚拟人基于搭载的智能设备的硬件获取用户多模态交互数据，在云端大脑对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算。

实施例

图1为本申请实施例的基于虚拟人的多模态交互系统的应用场景示意图。该虚拟人A可以通过其所搭载的智能设备，以全息影像或计算机大屏显示界面显示的方式展示给用户U，且该虚拟人A在与用户U进行多模态交互过程中，主要响应用户U(尤其是该明星人物的粉丝)与该明星人物进行交互的多模态交互意图，启动匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据。在本实施例中，该系统主要包括云端大脑(云端服务器)10和与用户U进行多模态交互的智能设备20。智能设备20可以为传统的PC个人电脑、LapTop笔记本电脑、全息投影设备等，也可以是能够随身携带且能通过无线局域网、移动通信网络等无线方式接入互联网的终端设备。本申请实施例中，无线终端包括但不限于手机、Netbook(上网本)、智能显示大屏(可多模态交互)，无线终端一般具有多模态信息采集和数据传输等功能。

图3为本申请实施例的基于虚拟人的多模态交互系统的结构示意图。如图3所示，智能设备20主要包括：用户界面21、通信模块22、中央处理单元23和人机交互输入输出模块24。用户界面21，在预设显示区域内显示被唤醒的虚拟人和展示与用户的多模态交互意图匹配的多模态数据，所述虚拟人具备特定明星人物的外形及属性；具备人机交互功能的输入输出模块24，其获取多模态输入数据以及输出来自云端大脑10的多模态数据，多模态输入数据主要是与用户进行交互时的数据；通信模块22，其调用虚拟人能力接口并接收通过虚拟人能力接口解析多模态输入数据所获取的多模态数据，该多模态数据通过根据该明星人物的社会属性、人格属性和人物技能响应多模态交互意图而决策得到的；以及中央处理单元23，其开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据。在云端服务器10中，具备多模态输入数据解析模块(作为一个例子，如图4所示，包括虚拟人能力接口、多模态数据决策模块110和存储模块120)，对智能设备20发送的多模态输入数据进行解析以获取用户与该明星人物进行交互的多模态交互意图，并根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据。如图3所示，在多模态数据解析过程各个能力接口分别调用对应的逻辑处理。

下面对智能设备20的各个单元模块的组成和功能进行具体说明。

首先来说明用户界面21。用户界面21也称人机界面或使用者界面，是系统和用户之间进行交互和信息交换的媒介，主要借助于显示设备来展现。在该用户界面21的预设显示区域内，例如中心位置，显示唤醒后的虚拟人影像(主要是虚拟人3D外貌)以及展示多模态数据给用户。当然，根据实际需要，为了方便用户了解虚拟人的性格和属性，也可以在其他设定区域内文字显示该虚拟人的具体情况，本发明对此不做限定。

接下来，对通信模块22进行说明。该通信模块22具备发送和接收功能，主要调用虚拟人能力接口，将本地人机交互输入输出模块24预处理后的多模态数据转发至云端大脑10对应虚拟人能力接口，以及接收来自虚拟人能力接口决策出的、根据该明星人物社会属性、人格属性和人物技能响应用户与该明星人物进行交互的多模态交互意图而得到的多模态数据。该通信模块22在发送多模态数据时，需要根据多模态数据种类来发送，例如将语音数据和文本数据发送至语义理解接口21，将图像数据发送至视觉识别接口12。

接着，来说明人机交互输入输出模块24。人机交互输入输出模块24包括语音采集系统、视觉处理系统和文本输入系统，还可以包括其他模态数据输入设备。语音采集系统主要包括麦克风、A/D转换器、语音处理器等设备。视觉处理系统主要包括图像传感器和图像数字处理器等设备。图像传感器可以为CCD摄像器件或CMOS摄像器件，主要对用户当前的面部图像、姿态图像进行采集。图像数字处理器具备图像预处理功能。在对原始图像进行预处理时，一般需要执行滤波去噪、灰度修正、图像增强和几何变换等。而图像分割一般包括边缘检测、二值化、细化和边缘连接等。文本输入系统包括触屏输入设备、键盘、鼠标等，通过这些设备输入文本数据。其他模态数据输入设备，例如可以是触觉采集系统，该系统包括触觉传感器和数据处理器，触觉传感器接收来自用户的触摸信号，数据处理器对该触摸信号进行预处理，滤除多余的噪声。

接下来，重点说明智能设备20的中央处理单元23。如图4所示，中央处理单元23主要包括：虚拟人控制单元231和粉丝互动技能开启模块232。

接下来，分别对中央处理单元23的各个子单元进行具体说明。

首先，说明虚拟人控制单元231。该单元231用于对虚拟人进行控制，具体包括虚拟人属性存储模块2311、虚拟人唤醒模块2312、虚拟人构建模块2313和虚拟人展示模块2314。概括来说，虚拟人控制单元231预先设置虚拟人属性信息，并将其保存于设置的虚拟人属性存储模块2311中，当虚拟人唤醒模块2312判定满足唤醒虚拟人的条件时，从虚拟人属性存储模块2311调用并保存虚拟人属性信息，通过虚拟人构建模块2313构建匹配的虚拟人并利用虚拟人展示模块2314在用户界面21显示虚拟人影像信息。

其中，设置虚拟人属性信息的具体方式可以是在虚拟人属性存储模块2311中建立虚拟人属性信息列表，该列表主要涉及明星人物属性内容。该列表可以认为是用户画像(User portrait)，即用户信息标签化，就是通过收集与分析人物社会属性、生活习惯、行为等主要信息的数据之后，抽象出一个用户的全貌的数据库或信息体系。虚拟人属性信息包括虚拟人实体属性信息和虚拟人状态属性信息。其中，虚拟人实体属性信息与用户的实体属性相类似，主要包括针对不同明星人物的虚拟人标识、社会属性、人格属性、人物技能等属性字段。具体来说，社会属性可以包括：虚拟明星的长相外观、标志性服饰和配饰、发型、声音、肢体动作、特征动作、神情、作品、名人故事或相关经历等属性字段。人格属性可以包括：性格、声音、气质等属性字段。人物技能可以包括：唱歌、跳舞、主持、粉丝互动等技能。在本例中，每个虚拟人都具备特定明星人物的性格，在与用户交互时会呈现出与其性格相关联的语言、表情、姿态等的表达。虚拟人状态属性信息主要用于实现虚拟人状态控制，从而使得系统通过调用该特性属性信息实现虚拟人的激活、活动、去激活以及注销等状态的控制，属于虚拟人区别真实人的附加属性信息。

当虚拟人唤醒模块2312判定满足唤醒虚拟人的预设条件时，同时，需要对唤醒虚拟人用户进行基于用户身份的判断，如唤醒所述虚拟人的用户本身即为虚拟人(明星人物)的忠实粉丝F，虚拟人唤醒模块将响应唤醒指令，并优先进入粉丝互动模式，所述粉丝互动模式可以为该虚拟明星人物的技能，所述虚拟人控制单元231将保存的虚拟人实体属性中的状态属性变迁为唤醒状态，并从虚拟人属性存储模块2311调用激活的虚拟人的实体属性信息，然后保存调用的虚拟人实体属性信息，同时将虚拟人实体属性信息中的标识属性信息添加至云端大脑10的在线虚拟人明星列表中。其中，控制唤醒虚拟人的具体方式为：中央处理单元23向虚拟人控制单元231发送携带唤醒条件的唤醒指令；虚拟人控制单元231接收到该指令后，根据保存的虚拟人特性的属性信息和唤醒指令中携带的唤醒条件(并不局限)选取需要唤醒的虚拟人，并将选定唤醒的虚拟人实体属性信息中的状态属性变迁为唤醒状态。在线下场景下，即虚拟人单独运行在当前智能设备的系统环境下，例如粉丝互动模式(微博、facebook等应用、社交web端不开启的情况下)，虚拟人唤醒条件例如可以是用户发出唤醒某个明星虚拟人的语音信息或者用户唤醒虚拟人明星的动作信息，亦或是用户直接输入的命令指令。虚拟人唤醒模块2312判定满足唤醒虚拟人的预设条件时，则根据唤醒指令进行唤醒操作。若用户发出的唤醒指令没有指代具体虚拟人，则系统默认为上一次在粉丝互动模式下唤醒的虚拟人明星。

虚拟人构建模块2313基于调用的虚拟人属性信息，利用3D高模构造匹配的虚拟人影像。高模是高细节高精度的3D模型，高模看上去十分逼真、细节非常丰富，模型的面数也相当的高(可达数万三角形面数)。以3D头像为例，在构建的过程中，获取人脸图像，提取人脸图像中的人脸特征点和真实皮肤及毛发素材进行模型调整和个性特征构建，最后对与人脸图像匹配的人脸模型进行纹理贴图，生成虚拟人物头像。

考虑到智能设备的处理能力，在其他实施例中优选不设置虚拟人构建模块2313，而事先通过3D技术将虚拟人3D影像构造出来以应用程序或可执行文件的方式存储在虚拟人影像存储器中，通过系统调用的方式来生成虚拟人，这样能够极大降低处理器的处理负担。另外，也可以利用3D低模来构造虚拟人，虽然效果上没有3D高模构建的虚拟人更加逼真，但能够减轻处理器负担且满足本发明实施例的基本需求。

虚拟人展示模块2314将构建或调取的虚拟人明星影像和/或多模态数据展示在用户界面21上，以供用户与其进行多模态交互。

接着，说明粉丝互动技能开启模块232。粉丝互动技能开启模块232，其开启与意图匹配的粉丝互动技能，并输出与意图匹配的多模态数据，该多模态数据来自云端大脑10，包括但不限于：文本数据、图像数据、该明星人物声音合成数据和肢体动作决策数据。在本例中，粉丝互动技能可以包括文本模式或语音模式的回复技能、新闻播报技能、与粉丝用户进行歌曲演唱的对唱技能等。

针对不同场景的粉丝互动技能，该模块232开启智能设备10端对应的执行应用程序和/或硬件设备。具体来说，在展现文本模式或语音模式的回复技能时，多模态数据至少包括文本数据或该明星人物声音合成数据，针对该技能的展现，粉丝互动技能开启模块232开启文本内容自动回复程序，将文本数据显示在用户界面的文本聊天区域内对用户输入的评论内容进行回复。例如，用户通过文本输入设备发出评论：“你今天上传的照片太美了”，针对该评论内容，虚拟明星人物可以在设定用户界面区域保持一定状态(如微笑)不变，然后在回复区域中输出从云端大脑10接收到的文本内容：“谢谢，请继续关注我，稍后还会有更美的照片呢”，完成本轮与用户的交互。在进行语音回复用户时，粉丝互动技能开启模块232开启声音播放设备，虚拟人的嘴型按照预先设定的频率进行张开闭合与声音数据同步完成输出，或者也可以将语音数据转化为文本数据进行输出，然后，根据文本切词结果匹配虚拟人嘴型的变化参数，使得虚拟明星人物看起来更加逼真、拟人化更好。

在展示新闻播报技能时，粉丝互动技能开启模块232开启声音播放设备，输出与该明星的新闻动态相关的该明星人物声音合成数据，例如正在上映的电影宣传语音数据等，虚拟人的嘴型变化可以参考语音模式回复技能那样来同语音数据同步输出。更进一步，还可以根据语音数据对应的文本切词结果匹配虚拟人的面部表情、头部/肢体动作等变化参数，提高虚拟人物的拟人性。当然，在进行新闻播报的同时，粉丝互动技能开启模块232还会开启视频/图片播放应用，向用户展示相关的新闻现场图片或视频等附加性内容，能够更好地使用户了解明星人物的当前状态，以形成与用户(粉丝身份)的互动。

在展示演唱技能时，多模态输出数据包括歌曲信息、与歌曲情绪对应的面部表情和该明星招牌动作，那么粉丝互动技能开启模块232开启声音播放设备，将该歌曲信息与虚拟人嘴型、面部表情、头部动作及肢体动作基于歌曲的文本进行，完成与用户的歌曲对唱交互。

接下来对云端大脑10进行具体说明。云端大脑10在接收到多模态信息后，解析信息内容和虚拟人标识ID，并将多模态输入数据发送至相应的虚拟人能力接口来完成逻辑处理。下面分别说明云端大脑10的各个组成部分。

语义理解接口11，其接收从通信模块22转发的语音信息或文本信息，对其进行语音识别和自然语言处理，从中识别用户的真实意图。一般情况下，通过该语义理解接口11主要用来识别出用户与该明星人物进行交互的多模态交互意图，例如，针对当前的虚拟人形象为“郭富城”时，若用户发出“最近有什么新的新闻动态啊”的文本内容时，通过语义理解可知，交互意图是要获取郭富城的最新新闻信息，需要调用的技能为“新闻播报技能”的应用程序，则郭富城(虚拟人)为用户播报最新的有关该明星人物的新闻动态或影片/歌曲宣传等内容。

视觉识别接口12，其针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能。图像预处理主要是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化。特征提取主要提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息。决策主要是对特征信息，按照一定的决策策略分发给需要该特征信息的具体应用。具体应用功能实现人脸检测、人物肢体识别、运动检测等功能，以获知用户(尤其是粉丝)的交互意图。

情感计算接口14，其接收从通信模块22转发的多模态数据，利用情感计算逻辑(主要是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容来可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口14在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用情感计算算法进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口13，其接收从通信模块22转发的多模态数据，所述认知结算接口用以处理多模态数据中与数据采集识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

为了避免重复的计算量，可以将语义理解接口11、视觉识别接口12和情感计算接口14处理后得到的结果发送到认知计算接口13进行决策输出。

如图4所示，云端大脑10还具备多模态数据决策模块110和多模态数据存储模块120.其中的多模态数据决策模块110可以单独设置，也可以作为认知计算接口13的一部分，此处不做限定，其根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据。

接下来，说明多模态数据决策模块110。该多模态数据决策模块110，其首先根据该明星人物的社会属性、人格属性和人物技能响应通信模块22转发的来自云端大脑10决策出的用户与该明星人物进行交互的多模态交互意图，确定具体的粉丝互动技能。对于不同的明星来说，其技能可以设置为不同，主要依据该明星的社会属性、人格属性和人物技能来预先设置，如蔡依林(虚拟人)可以进行演唱、对唱技能的表现，而如谢娜(虚拟人)可提供回复技能、新闻播报技能等作为与粉丝互动的技能展示。

更具体地，多模态数据决策模块110获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态输出数据。在一个例子中，多模态数据决策模块110在云端通过类似于深度学习技术获取该明星人物的知识图谱或关联新闻，知识图谱中包括该明星人物的基本信息(包括姓名、性别、生日、年龄、血型、出生地、星座、签约公司)、人物评价(标签、大众典型印象)、大事件/重要经历(包括出道、结婚、离婚、获奖等)、社会活动(公益类、形象大使)、作品(代表作、获奖作品、当前热播/流行作品)、社交关系、相似艺人等。

在确定了粉丝互动技能后，多模态数据决策模块110根据该明星人物的知识图谱或与该明星人物关联新闻生成或从多模态数据存储模块120中筛选出对应该粉丝互动技能的、与该意图更加匹配的多模态数据。

在多模态数据存储模块120预先存储有针对不同明星人物不同粉丝互动技能的多模态数据，这些数据主要包括文本数据、该明星人物声音合成数据、歌曲作品、招牌(特征)面部表情、招牌动作等。其中，明星人物声音合成数据一般包括与该明星关联的最新的新闻播报、最新的电影点评和最新的音乐推荐合成的声音数据，可以预先通过声音合成技术来实现，也可以通过本地声音合成模块(未图示)实时地将更新的明星关联信息进行声音合成处理，此处不做限定。当云端大脑10接收到智能设备20传输的多模态输入数据后，通过初步解析，可以得到该智能设备20搭载的虚拟人明星标识及具体明星特征。在了解到需要调用该明星人物的某个粉丝互动技能后，从该多模态数据存储模块120中筛选该明星人物的明星人物声音合成数据、歌曲和/或舞蹈作品、招牌(特征)面部表情、招牌动作等。

例如，多模态数据决策模块110根据用户与该明星人物进行交互的多模态交互意图，了解到需要调用新闻播报技能，例如，若云端大脑10发送的用户意图为“播报最近上映的电影”，则多模态数据决策模块110从多模态数据存储模块120中选取与特定明星人物属性(即社会属性和人格属性)匹配的电影信息语音合成数据，作为多模态数据发送给智能设备20。随后，智能设备20开启新闻播报技能，完成虚拟人的多模态输出。

接下来，参照附图6对本发明实施例的系统的多模态交互流程进行说明。

在当前的智能设备20的系统环境下，虚拟人控制单元231的虚拟人唤醒模块2312判定是否满足唤醒虚拟人的预设条件，在判定满足唤醒虚拟人的预设条件时，发送唤醒指令，开启虚拟人执行文件以唤醒虚拟人并将其显示在用户界面21的预设显示区域内。然后在虚拟人明星人物被唤醒后，在接收到与用户进行多模态交互指令后，开始与虚拟人的多模态交互。在交互过程中，人机交互输入输出模块24采集多模态数据(环境数据和多模态输入数据)，经过初步处理后转发给通信模块22，通信模块22调用虚拟人能力接口，将多模态数据发送给云端大脑10对应的虚拟人能力接口，并接收通过虚拟人能力接口决策出的、根据该明星人物的社会属性、人格属性和人物技能响应用户与该明星人物进行交互的多模态交互意图而得到的多模态数据。然后，粉丝互动技能开启模块232开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据进行展示。在云端大脑10一端，虚拟人能力接口(主要是语义理解接口11)根据接收到的多模态数据，调用匹配的逻辑处理获取获取用户与该明星人物进行交互的多模态交互意图，然后认知计算接口13或单独设置的多模态数据决策模块110根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据。

在本发明实施例中提供了一种虚拟人与用户进行多模态交互的解决方案，在该方案中，实现了虚拟明星与用户在线下场景的多模态交互，虚拟人本身具备多种粉丝互动技能，在能够根据用户的交互意图，调用相应的技能与用户进行不同形式的沟通交流，这样增加了虚拟人与用户之间的互动形式，能够更好地满足用户需求，提高用户体验感。

补充说明1：

在本例中，虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，与实施例不同的是，该虚拟人的应用场景为线上场景，即开启了社交应用端的场景，例如微博、Face book、直播等应用的社交web端开启场景。在该线上场景下，唤醒虚拟人的条件是在某一明星人物的社交web端开启，则虚拟人唤醒模块2312判断满足虚拟人激活的条件，将保存的有关该明星人物的虚拟人实体属性中的状态属性变迁为唤醒状态，然后保存调用的虚拟人实体属性信息，同时将虚拟人实体属性信息中的标识属性信息添加至云端大脑10的在线虚拟人明星列表中。简单来说，就是与社交端开启的同时同步在虚拟人处于唤醒状态时，虚拟人显示在社交应用端用户界面的预设区域内。容易理解，当用户切换到另一明星人物的社交端时，则唤醒与该明星人物一致的虚拟人。智能设备20通过社交应用端来获取用户输入的多模态输入数据。

在本发明实施例中提供了一种虚拟人与用户进行多模态交互的解决方案，在该方案中，实现了虚拟明星与用户的线上场景，即社交应用端开启时的多模态交互，能够更好地满足用户需求，增加了虚拟人与用户之间的互动形式，提高用户体验感。

补充说明2：

如图5所示，智能设备20还包括硬件设备监测模块234，其在多模态交互过程中，实时获取硬件设备的状态信息，在状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。此处设置是为了防止当前硬件声音关闭或网络中断等情况出现时，无法顺利进行虚拟人明星和用户的交互。当出现上述情况时，虚拟明星能够将向用户提示当前硬件状态，用户根据提示修复硬件以顺利进行多模态交互。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于虚拟人的多模态交互处理方法，其特征在于，所述虚拟人在智能设备运行，该方法包括如下步骤：

在虚拟人处于唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的外形及属性；

获取多模态输入数据；

调用虚拟人能力接口解析所述多模态输入数据以获取用户与该明星人物进行交互的多模态交互意图；

根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据；

开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据，所述多模态数据包括但不限于：文本数据、图像数据、该明星人物声音合成数据和肢体动作。

2.根据权利要求1所述的方法，其特征在于，还包括：

开启社交应用端以在虚拟人处于唤醒状态时，所述虚拟人显示在社交应用端用户界面的预设显示区域内；

通过所述社交应用端获取用户输入的多模态输入数据。

3.根据权利要求1所述的方法，其特征在于，还包括：判断当前用户是否为粉丝用户，若是，则调整当前状态为进入粉丝互动模式。

4.根据权利要求1～3中任一项所述的方法，其特征在于，根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图包括：

获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态数据。

5.根据权利要求1所述的方法，其特征在于，还包括：

在多模态交互过程中，实时获取硬件设备的状态信息；

在所述状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。

6.根据权利要求1～5中任一项所述的方法，其特征在于，

所述虚拟人由3D高模构造成型。

7.根据权利要求1～6中任一项所述的方法，其特征在于，

所述虚拟人能力接口包括：语义理解接口、视觉识别接口、认知计算接口、情感计算接口。

8.一种基于虚拟人的多模态交互处理系统，其特征在于，所述虚拟人在智能设备运行，该系统包括如下模块：

虚拟人唤醒模块，其在虚拟人处于唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的外形及属性；

多模态输入数据获取模块，其获取多模态输入数据；

多模态输入数据解析模块，其调用虚拟人能力接口解析所述多模态输入数据以获取用户与该明星人物进行交互的多模态交互意图，并根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据；

粉丝互动技能开启模块，其开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据，所述多模态数据包括但不限于：文本数据、图像数据、该明星人物声音合成数据和肢体动作。

9.根据权利要求8所述的系统，其特征在于，

所述虚拟人唤醒模块，其开启社交应用端以在虚拟人处于唤醒状态时，所述虚拟人显示在社交应用端用户界面的预设显示区域内；

进一步，多模态输入数据获取模块，其通过所述社交应用端获取用户输入的多模态输入数据。

10.一种智能设备，其特征在于，所述智能设备包括：

用户界面，其在预设显示区域内显示被唤醒的虚拟人和展示与用户的多模态交互意图匹配的多模态数据，所述虚拟人具备特定明星人物的外形及属性，所述多模态数据包括但不限于：文本数据、图像数据、该明星人物声音合成数据和肢体动作；

具备人机交互功能的输入输出模块，其获取多模态输入数据以及输出多模态数据；

通信模块，其调用虚拟人能力接口并接收通过该接口决策出的、根据该明星人物的社会属性、人格属性和人物技能响应用户与该明星人物进行交互的多模态交互意图而得到的多模态数据；

中央处理单元，其开启与意图匹配的粉丝互动技能，并输出与所述意图匹配的多模态数据。

11.根据权利要求10所述的智能设备，其特征在于，

所述中央处理单元，其进一步执行如下操作：开启社交应用端以在虚拟人处于唤醒状态时，所述虚拟人显示在社交应用端用户界面的预设显示区域内；

所述输入输出模块，其通过所述社交应用端获取用户输入的多模态输入数据。

12.一种基于虚拟人的多模态交互系统，其特征在于，该系统包括：

如权利要求10或11所述的智能设备，其与用户进行多模态交互；

具备虚拟人能力接口的云服务器，其对所述智能设备发送的多模态输入数据进行解析以获取用户与该明星人物进行交互的多模态交互意图，并根据该明星人物社会属性、人格属性和人物技能响应所述多模态交互意图，决策出与该意图匹配的多模态数据。