CN107797663A

CN107797663A - 基于虚拟人的多模态交互处理方法及系统

Info

Publication number: CN107797663A
Application number: CN201711013415.2A
Authority: CN
Inventors: 尚小维; 李晓丹
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-03-13

Abstract

本发明公开了一种基于虚拟人的多模态交互处理方法及系统，虚拟人在智能设备运行，该方法包括如下步骤：在虚拟人唤醒状态时，虚拟人显示在预设显示区域内，虚拟人具备特定明星人物的属性；获取多模态数据；调用虚拟人能力接口解析多模态输入数据以获取用户针对该明星人物的技能展示意图；根据该明星人物的社会属性、人格属性和人物技能响应技能展示意图，输出与技能展示意图匹配的多模态输出数据，将输出的多模态输出数据匹配虚拟人嘴型、面部表情、动作和/或肢体的执行参数并展示在预设显示区域内。本发明实现了虚拟明星与用户的多模态交互，能够更好地满足用户需求，并通过虚拟明星进行歌唱、舞蹈等作品的演绎，以增加虚拟人与用户或该明星粉丝之间的互动形式，改善用户体验。

Description

基于虚拟人的多模态交互处理方法及系统

技术领域

本发明涉及人机交互领域，尤其涉及一种基于虚拟人的多模态交互处理方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

目前机器人，包括具备实体的实体机器人和搭载在硬件设备上的虚拟机器人。现有技术中的虚拟机器人无法进行多模态交互，且一直呈现出固定不变的状态，无法实现逼真、流畅、拟人的交互效果。因此，提升虚拟机器人的交互能力和呈现表现力，是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种基于虚拟人的多模态交互处理方法及系统，实现了虚拟明星与用户的多模态交互，可以做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果，满足用户需求，改善了用户体验。

为了解决上述技术问题，本申请的实施例首先提供了一种基于虚拟人的多模态交互处理方法，所述虚拟人在智能设备运行，该方法包括如下步骤：在虚拟人唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的属性；获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；调用虚拟人能力接口解析所述多模态输入数据以获取用户针对该明星人物的技能展示意图；根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与所述技能展示意图匹配的多模态输出数据，所述多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作；将输出的多模态输出数据匹配虚拟人嘴型、面部表情、动作和/或肢体的执行参数并展示在预设显示区域内。

优选地，根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图的步骤包括：获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态输出数据。

优选地，还包括：获取当前用户的历史交互记录，以此筛选与当前用户适配的内容作为多模态输出数据。

优选地，还包括：在多模态交互过程中，实时获取硬件设备的状态信息；在所述状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。

优选地，所述虚拟人由3D高模构造成型。

优选地，所述虚拟人能力接口包括：语义理解接口、视觉识别接口、认知计算接口、情感计算接口。

根据本发明实施例的另一方面，还提供了一种基于虚拟人的多模态交互处理系统，所述虚拟人在智能设备运行，该系统包括如下模块：虚拟人唤醒模块，其在虚拟人唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的属性；多模态数据获取模块，其获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；多模态输入数据解析模块，其调用虚拟人能力接口解析所述多模态输入数据以获取用户针对该明星人物的技能展示意图；多模态数据输出模块，其根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与所述技能展示意图匹配的多模态输出数据，所述多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作；执行参数展示模块，其将输出的多模态输出数据匹配虚拟人嘴型、面部表情、动作和肢体的执行参数并展示在预设显示区域内。

优选地，所述多模态数据输出模块，其进一步获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态输出数据。

优选地，所述多模态数据输出模块，其进一步获取当前用户的历史交互记录，以此筛选与当前用户适配的内容作为多模态输出数据。

优选地，还包括：硬件设备监测模块，其在多模态交互过程中，实时获取硬件设备的状态信息；所述模态数据输出模块，其在所述状态信息异常时，调取硬件报警应用，向用户多模态输出有关硬件设备异常的报警信息。

根据本发明实施例的另一方面，还提供了一种智能设备，所述智能设备包括：用户界面，其在预设显示区域内显示被唤醒的虚拟人和展示执行参数，所述虚拟人具备特定明星人物的属性；具备人机交互功能的输入输出模块，其获取多模态数据以及输出执行参数，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；通信模块，其调用虚拟人能力接口并接收通过虚拟人能力接口解析所述多模态输入数据所获取的用户针对该明星人物的技能展示意图、以及根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图而输出的与所述技能展示意图匹配的多模态输出数据；中央处理单元，其将多模态输出数据匹配虚拟人嘴型、面部表情、动作和肢体的执行参数。

优选地，所述中央处理单元，其进一步执行如下操作：在多模态交互过程中，实时获取硬件设备的状态信息；在所述状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。

根据本发明实施例的另一方面，还提供了一种基于虚拟人的多模态交互系统，该系统包括：如上所述的智能设备，其与用户进行多模态交互；具备虚拟人能力接口的云服务器，其对所述智能设备发送的多模态输入数据进行解析以获取用户针对该明星人物的技能展示意图，并根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与所述技能展示意图匹配的多模态输出数据。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

在本发明实施例中，在虚拟人唤醒状态时，以使虚拟人显示在预设显示区域内；获取多模态数据；调用虚拟人能力接口解析多模态输入数据以获取用户针对该明星人物的技能展示意图；根据该明星人物的社会属性、人格属性和人物技能响应技能展示意图，输出与技能展示意图匹配的多模态输出数据，多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作。本发明实施例实现了虚拟明星与用户的多模态交互，能够更好地满足用户需求，并通过虚拟明星进行歌唱、舞蹈等作品的演绎，以增加虚拟人与用户或该明星粉丝之间的互动形式，改善用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例的基于虚拟人的多模态交互系统的应用场景示意图。

图2为本申请实施例的采用3D高模构造成型的虚拟人头部的示例图。

图3为本申请实施例的基于虚拟人的多模态交互系统的功能结构示意图。

图4为本申请实施例的智能设备20和云端服务器10内部的功能模块的示意图。

图5为本申请另一实施例的云端服务器10内部的功能模块(包括智能设备20)的示意图。

图6为本申请再一实施例的云端服务器10内部的功能模块(包括智能设备20)的示意图。

图7为本申请另一实施例的智能设备20内部的功能模块的示意图。

图8为本申请实施例的基于虚拟人的多模态交互处理方法的流程示意图。

图9为本申请另一实施例的基于虚拟人的多模态交互处理方法的流程示意图。

图10为本申请再一实施例的基于虚拟人的多模态交互处理方法的流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着人工智能技术的进步，虚拟个人助手如Apple Siri、Google Assistant以及Microsoft Cortana等已逐步参与到人们的生活中。目前大多数的虚拟个人助手都只能单纯地使用语音与用户交流，而没有实现多模态交互。而且，针对娱乐场景，目前也没有能够与用户进行多模态交互的虚拟明星，且该虚拟明星能够对明星人物相应的作品进行演绎的方案。因此，本发明实施例提出了一种基于虚拟人的多模态交互处理方法及系统，在该实施例中，虚拟人具备特定明星人物的属性，该虚拟明星能够与人类进行多模态交互，完成用户针对该明星人物的技能展示，做到语音、面部表情、情感、头部、肢体的融合，以呈现出逼真、流畅的交互效果。

为了更好地理解本发明实施例，下面对涉及的虚拟人稍作说明。本例中的虚拟人搭载于支持感知、控制等输入输出模块的智能设备上，优选以3D高模构造成型，具备显著人物特征的外观(如图2所示的头部3D)，在某些示例中可配置社会属性、人格属性、人物技能等。该虚拟人支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力，在与用户交互的过程中，能够使用户享受智能化及个性化流畅体验。

在本例中，虚拟人为系统的应用程序或者可执行文件。在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如果为PC机则系统为windows或Mac OS操作系统。在与用户交互的过程中，该虚拟人基于搭载的智能设备的硬件获取用户多模态交互数据，在云端大脑对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算。

实施例

图1为本申请实施例的基于虚拟人的多模态交互系统的应用场景示意图。该虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，且该虚拟人A在与用户进行多模态交互过程中，主要能够响应用户针对该明星人物的技能展示意图，完成技能展示，做到语音、面部表情、情感、头部、肢体的协调配合。在本实施例中，该系统主要包括云端大脑(云端服务器)10和与用户进行多模态交互的智能设备20。智能设备20可以为传统的PC个人电脑、LapTop笔记本电脑、全息投影设备、智能显示屏等，也可以是能够随身携带且能通过无线局域网、移动通信网络等无线方式接入互联网的终端设备。

图3为本申请实施例的基于虚拟人的多模态交互系统的结构示意图。如图3所示，智能设备20主要包括：用户界面21、通信模块22、中央处理单元23和人机交互输入输出模块24。用户界面21，其在预设显示区域内显示被唤醒的虚拟人和展示执行参数；具备人机交互功能的输入输出模块24，其获取多模态数据以及输出执行参数，多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据和来自云端大脑10的多模态输出数据；通信模块22，其调用虚拟人能力接口并接收通过虚拟人能力接口解析多模态输入数据所获取的用户针对该明星人物的技能展示意图、以及根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图而输出的与所述技能展示意图匹配的多模态输出数据；以及中央处理单元23，其将多模态输出数据匹配虚拟人嘴型、面部表情、动作和/或肢体的执行参数。在云端服务器10中，具备多模态输入数据解析模块(也称“虚拟人能力接口”)，对智能设备20发送的多模态输入数据进行解析以获取用户针对该明星人物的技能展示意图。如图3所示，在多模态数据解析过程各个能力接口分别调用对应的逻辑处理。

下面对智能设备20的各个单元模块的组成和功能进行具体说明。

首先来说明用户界面21。用户界面21也称人机界面或使用者界面，是系统和用户之间进行交互和信息交换的媒介，主要借助于显示设备来展现。在该用户界面21的预设显示区域内，例如中心位置，显示唤醒后的虚拟人影像(主要是虚拟人3D外貌)以及展示执行参数。当然，根据实际需要，为了方便用户了解虚拟人的性格和属性，也可以在其他设定区域内文字显示该虚拟人的具体情况，本发明对此不做限定。

接下来，对通信模块22进行说明。该通信模块22具备发送和接收功能，主要调用虚拟人能力接口，将本地人机交互输入输出模块24预处理后的多模态数据转发至云端大脑10对应虚拟人能力接口，以及接收来自虚拟人能力接口决策出的用户针对该明星人物的技能展示意图以及根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图而输出的与所述技能展示意图匹配的多模态输出数据，多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作。该通信模块22在发送多模态数据时，需要根据多模态数据种类来发送，例如将语音数据发送至语义理解接口21，将图像数据发送至视觉识别接口12。

接着，来说明人机交互输入输出模块24。人机交互输入输出模块24包括语音采集系统、视觉处理系统和触觉采集系统，还可以包括其他模态数据输入设备。语音采集系统主要包括麦克风、A/D转换器、语音处理器等设备。在用户发出语音信息后，语音采集系统经由麦克风采集该模拟语音信号，利用A/D转换器将将模拟语音信号转换成系统能够处理的语音信号，然后将数字语音信号输入至语音处理器中进行语音信息的预处理，包括滤波、放大等。视觉处理系统主要包括图像传感器和图像数字处理器等设备。图像传感器可以为CCD摄像器件或CMOS摄像器件，主要对用户当前的面部图像、姿态图像进行采集。图像数字处理器具备图像预处理功能。在对原始图像进行预处理时，一般需要执行滤波去噪、灰度修正、图像增强和几何变换等。而图像分割一般包括边缘检测、二值化、细化和边缘连接等。触觉采集系统包括触觉传感器和数据处理器，触觉传感器接收来自用户的触摸信号，数据处理器对该触摸信号进行预处理，滤除多余的噪声。其他模态数据输入设备10n，例如可以是键盘、鼠标等设备。

接下来，重点说明智能设备20的中央处理单元23。如图4所示，中央处理单元23主要包括：虚拟人控制单元231、执行参数匹配模块232和执行参数存储模块233。

接下来，分别对中央处理单元23的各个子单元进行具体说明。

首先，说明虚拟人控制单元231。该单元231用于对虚拟人进行控制，具体包括虚拟人属性存储模块2311、虚拟人唤醒模块2312、虚拟人构建模块2313和虚拟人展示模块2314。概括来说，虚拟人控制单元231预先设置虚拟人属性信息，并将其保存于设置的虚拟人属性存储模块2311中，当虚拟人唤醒模块2312判定满足在虚拟人唤醒状态时的条件时，从虚拟人属性存储模块2311调用并保存虚拟人属性信息，通过虚拟人构建模块2313构建匹配的虚拟人并利用虚拟人展示模块2314在用户界面21显示虚拟人影像信息。

其中，设置虚拟人属性信息的具体方式可以是在虚拟人属性存储模块2311中建立虚拟人属性信息列表，该列表主要涉及明星人物属性内容。虚拟人属性信息包括虚拟人实体属性信息和虚拟人状态属性信息。其中，虚拟人实体属性信息与用户的实体属性相类似，主要包括针对不同明星人物的虚拟人标识、社会属性、人格属性、人物技能等属性字段。具体来说，社会属性可以包括：虚拟明星的长相外观、标志性服饰和配饰、发型、声音、肢体动作、特征动作、神情、作品、名人故事或相关经历等属性字段。人格属性可以包括：性格、声音、气质等属性字段。人物技能可以包括：唱歌、跳舞、主持等专业技能。在本例中，每个虚拟人都具备特定明星人物的性格，在与用户交互时会呈现出与其性格相关联的语言、表情、姿态等的表达。虚拟人状态属性信息主要用于实现虚拟人状态控制，从而使得系统通过调用该特性属性信息实现虚拟人的激活、活动、去激活以及注销等状态的控制，属于虚拟人区别真实人的附加属性信息。

当虚拟人唤醒模块2312判定满足在虚拟人唤醒状态时的预设条件时，虚拟人控制单元231将保存的虚拟人实体属性中的状态属性变迁为激活状态，并从虚拟人属性存储模块2311调用激活的虚拟人的实体属性信息，然后保存调用的虚拟人实体属性信息，同时将虚拟人实体属性信息中的标识属性信息添加至云端大脑10的在线虚拟人明星列表中。其中，控制在虚拟人唤醒状态时的具体方式为：中央处理单元23向虚拟人控制单元231发送携带唤醒条件的唤醒指令；虚拟人控制单元231接收到该指令后，根据保存的虚拟人特性的属性信息和唤醒指令中携带的唤醒条件选取需要唤醒的虚拟人，并将选定唤醒的虚拟人实体属性信息中的状态属性变迁为激活状态。唤醒条件例如可以是用户发出唤醒某个明星虚拟人的语音信息或者用户在虚拟人唤醒状态时明星的动作信息，亦或是用户直接输入的命令指令。虚拟人唤醒模块2312判定满足在虚拟人唤醒状态时的预设条件时，则根据唤醒指令进行唤醒操作。若用户发出的唤醒指令没有指代具体虚拟人，则系统默认为上一次唤醒的虚拟人明星。

虚拟人构建模块2313基于调用的虚拟人属性信息，利用3D高模构造匹配的虚拟人影像。高模是高细节高精度的3D模型，高模看上去十分逼真、细节非常丰富，模型的面数也相当的高(可达数万三角形面数)。以3D头像为例，在构建的过程中，获取人脸图像，提取人脸图像中的人脸特征点和真实皮肤及毛发素材进行模型调整和个性特征构建，最后对与人脸图像匹配的人脸模型进行纹理贴图，生成虚拟人物头像。

考虑到智能设备的处理能力，在其他实施例中优选不设置虚拟人构建模块2313，而事先通过3D技术将虚拟人3D影像构造出来以应用程序或可执行文件的方式存储在虚拟人影像存储器中，通过系统调用的方式来生成虚拟人，这样能够极大降低处理器的处理负担。另外，也可以利用3D低模来构造虚拟人，虽然效果上没有3D高模构建的虚拟人更加逼真，但能够减轻处理器负担且满足本发明实施例的基本需求。

虚拟人展示模块2314将构建或调取的虚拟人明星影像或虚拟人明星的执行参数展示在用户界面21上，以供用户与其进行多模态交互。

接着，说明执行参数匹配模块232。执行参数匹配模块232，其将输出的多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作。具体来说，在展现主持技能时，多模态输出数据至少包括语音数据，针对该技能的展现，执行参数匹配模块232首先将语音数据转化为文本数据，然后，针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。在文本切词处理时，可以根据长句中的标点符号，例如逗号、顿号和句号等来切分成短句，还可以通过语义分析来切分长句中的短句，并按照文本词句的韵律、发音习惯进行切分，以使虚拟人的嘴型、面部表情、头部动作及肢体动作进行一致性地匹配。在展示演唱技能时，多模态输出数据包括歌曲信息、与歌曲情绪对应的面部表情和该明星招牌动作，那么执行参数匹配模块232需要将该歌曲信息与虚拟人嘴型、面部表情、头部动作及肢体动作基于歌曲的文本进行。在展示跳舞技能时，多模态输出数据包括肢体动作，则执行参数匹配模块232将该肢体动作与虚拟人头部动作和肢体动作的执行参数进行匹配。

如图4所示，该模块232包括嘴型匹配子模块2321、面部表情匹配子模块2322、头部动作匹配子模块2323和肢体动作匹配子模块2324。

在说明执行参数匹配模块232之前，需要说明的是，在执行参数存储模块233的内部预先存储了针对上面4个层次的执行参数。以嘴型执行参数为例，为了保证嘴部动作与语音数据的连贯配合性，预先对语音数据，例如主持数据，进行分析生成文本切词序列，从中筛选出关键音素；针对各个关键音素建立对应不同嘴型的执行参数，并将这些参数数据存入到执行参数存储模块233的嘴型参数子数据库中。以中文发音为例，这些关键音素的选择可以根据汉语拼音和发生嘴型之间的规律来设置，例如：bo、po、mo、lv、lin、wu、ying、ji、shi等等，根据这些发音设置相应类人的嘴型执行参数。同理，针对面部表情、头部动作和肢体动作的执行参数，生成方法与嘴型执行参数类似，也是预先根据文本切词序列，筛选关键字段，并建立各个关键字段对应的不同面部表情、头部动作和肢体动作的执行参数，并分别存储到对应的数据库中，以便后续多模态交互时的调取处理。

下面分别说明执行参数匹配模块232的各个子模块的功能。

嘴型匹配子模块2321，其将多模态输出数据匹配虚拟人嘴型的执行参数以输出嘴型运动。嘴型匹配子模块2321在将语音数据转化为文本数据，并完成文本切词处理后，根据切词结果筛选关键音素，从执行参数存储模块233选择匹配的执行参数，按照关键因素的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人嘴部动作完成虚拟人的嘴型输出。嘴型执行参数可以包括：左/右嘴角X方向移动值、左/右嘴角Y方向移动值、左/右边上唇上下移动值、中间上唇上下移动值、左/右边下唇上下移动值、中间下唇上下移动值、上/下嘴唇翻翘程度、露出的上/下齿大小等，那么，在明星(虚拟人)进行作品演绎时，根据如上列举方式，对自己歌曲作品进行演绎表达歌词文本咬字，并进行口型匹配。例如，若虚拟明星人物为蒋大为时，获知用户的意图是：演唱“牡丹之歌”，在虚拟人明星演唱歌词“啊，牡丹，百花丛中最鲜艳”的“啊”时，为了保持口型呈完全张开状态，则给定嘴型执行参数中左/右边上唇上下移动值和中间上唇上下移动值，在发出“啊”音调的同时，虚拟人根据执行参数来形成匹配的嘴型。

面部表情匹配子模块2322，其将多模态输出数据匹配虚拟人面部表情的执行参数以进行表情输出。具体来说，在展示主持技能时，面部表情匹配子模块2322在将语音数据转化为文本数据，并完成文本切词处理后，从切词结果中筛选出关键字段，从执行参数存储模块233选择匹配的执行参数，按照关键字段的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人面部表情完成虚拟人的表情输出。

在一个例子中，为了提高分词的效率和准确度，本实施例中定义了情感辞典数据库，其中包含大部分常用的形容情感的词汇。对于分好的词汇，进行情感分类，以确定分句的情感倾向。在识别出情感词之后，还需要对情感词前面的修饰词进行处理，以确定该种情感的强烈程度。为了将内部因素整合成一个整体，达到整体的协调性，在其他例子中，可以采用复杂的句法分析来识别分句的情感倾向，在确定分句表征的情感后生成对应的情绪参量和语气参量。该情绪参量为对应情感的，例如喜、怒、哀、乐等参量表达，而语气参量主要是语音语调，主要是指声音方面的高低、强弱、快慢及音色的等参量。其中，情感表达数据库中关联存储情绪及实现情绪表达的指令。虚拟人展示模块2314根据情绪表达的指令完成虚拟人的表情输出，通过用户界面23展现高兴、生气、沮丧等不同的面部表情，通过声音输出设备进行韵律方面的处理，完成语音语调与表情的协调输出。例如，在虚拟明星进行歌曲演绎时，通过对该歌曲的分析了解到该歌曲的歌词、韵律等的情感更接近高兴，则可以在虚拟明星演唱的过程中，面部表情一直呈现出高兴的状态即可。

头部动作匹配子模块2323，其将多模态输出数据匹配虚拟人头部动作的执行参数以进行头部动作输出。具体来说，在展示主持技能时，头部动作匹配子模块2323在将语音数据转化为文本数据，并完成文本切词处理后，从切词结果中筛选出关键字段，从执行参数存储模块233选择匹配的执行参数，按照关键字段的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人头部动作。在展示舞蹈技能或歌曲技能时，输出的多模态输出数据中包括舞蹈肢体动作信息或招牌动作信息，针对这些动作信息解析出对应的肢体动作执行参数，然后根据这些执行参数驱动相应的关节进行舞蹈展示，例如，若虚拟明星人物为费玉清时，获知用户的意图是：让费玉清(虚拟人)演唱《千里之外》歌曲演绎时，其招牌动作便是头部仰起30°，则根据这一信息匹配头部动作，并融合其左腿微弯、右手伸展的肢体动作，以进行多模态的作品演绎。

肢体动作匹配子模块2324，其将多模态输出数据匹配虚拟人肢体动作的执行参数以进行肢体动作输出。具体来说，在展示主持技能时，肢体动作匹配子模块2324在将语音数据转化为文本数据，并完成文本切词处理后，从切词结果中筛选出关键字段，从执行参数存储模块233选择匹配的执行参数，按照关键字段的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人肢体动作。肢体动作的参数包括针对躯干的位置和方位参数(如旋转参数)、左右上肢和左右下肢的关节参数等。虚拟人展示模块2314接收这些执行参数，根据已定义的命令库查询动作指令后，会解析出各个重点关节的旋转角度之类的信息，并根据这些信息驱动相应的关节进行动作，从而完成虚拟人的肢体动作。在展示舞蹈技能或歌曲技能时，输出的多模态执行数据中包括舞蹈肢体动作信息或招牌动作信息，针对这些动作信息解析出对应的肢体动作执行参数，然后根据这些执行参数驱动相应的关节进行舞蹈展示。

综上来说，嘴型匹配子模块2321、面部表情匹配子模块2322、头部动作匹配子模块2323和肢体动作匹配子模块2324在整体配合操作时，按照需要输出的语音信息，根据分工的不同，实现不同层次之间的配合。比如整体动画和基调表情做为主基调，然后配合局部动画和局部表情的方式来实现各层之间的耦合。

接下来对云端大脑10进行具体说明。云端大脑10在接收到多模态信息后，解析信息内容和虚拟人标识ID，并将多模态数据发送至相应的虚拟人能力接口来完成逻辑处理，具体来说，调用虚拟人能力接口解析多模态输入数据以获取用户针对该明星人物的技能展示意图。

语义理解接口11，其接收从通信模块22转发的语音信息，对其进行语音识别和自然语言处理，从中识别用户的真实意图。一般情况下，通过该语义理解接口11就可以识别出用户针对该明星人物的技能展示意图，例如，针对当前的虚拟人形象为“蔡依林”时，若用户发出“请给我唱首歌吧”，通过语义理解可知，需要调用的技能为“演唱技能”，则蔡依林(虚拟人)为用户演绎其成名曲《说爱你》。

视觉识别接口12，其接收从通信模块22转发的图像信息，视觉识别系统主要针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能。图像预处理主要是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化。特征提取主要提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息。决策主要是对特征信息，按照一定的决策策略分发给需要该特征信息的具体应用。具体应用功能实现人脸检测、人物肢体识别、运动检测等功能。

情感计算接口14，其接收从通信模块22转发的多模态数据，利用情感计算逻辑(主要是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容来可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口14在进行视觉情绪识别时，通过使用视觉采集系统收集人类面部表情图像，而后转换成可分析数据，再利用图像处理、人工智能等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口13，其接收从通信模块22转发的多模态数据，所述认知结算接口用以处理多模态数据中与数据采集识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

为了避免重复的计算量，可以将语义理解接口11、视觉识别接口12和情感计算接口14处理后得到的结果发送到认知计算接口13进行决策输出。

如图4所示，云端大脑10还具备多模态数据输出模块100，该模块100包括技能响应模块110和多模态输出数据存储模块120，主要是根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与技能展示意图匹配的多模态输出数据，多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作。

接下来，说明技能响应模块110。该技能响应模块110，其根据该明星人物的社会属性、人格属性和人物技能响应通信模块22转发的来自云端大脑10决策出的用户针对该明星人物的技能展示意图。如图4所示，该技能响应模块110主要配置有三种技能：演唱技能、跳舞技能和主持技能，主持技能进一步细分为新闻播报、电影点评和音乐推荐等。对于不同的明星来说，其技能包括多种，如谢娜(虚拟人)可提供关于演唱、跳舞、主持及播报的不同作品的演绎。

需要说明的是，在多模态输出数据存储模块120预先存储有针对不同明星人物不同技能的多模态输出数据，这些数据包括该明星人物声音合成数据、歌曲和/或舞蹈作品、招牌(特征)面部表情、招牌动作等。明星人物声音合成数据一般包括与该明星关联的最新的新闻播报、最新的电影点评和最新的音乐推荐合成的声音数据，可以预先通过声音合成技术来实现，也可以通过本地声音合成模块(未图示)实时地将更新的明星关联信息进行声音合成处理，此处不做限定。当云端大脑10接收到智能设备20传输的多模态输入数据后，通过初步解析，可以得到该智能设备20搭载的虚拟人明星标识及具体明星特征。在了解到需要调用该明星人物的某个技能后，从该多模态输出数据存储模块120中选择该明星人物的明星人物声音合成数据、歌曲和/或舞蹈作品、招牌(特征)面部表情、招牌动作等。

例如，技能响应模块110根据用户针对该明星人物的技能展示意图，了解到需要调用演唱技能，例如，若云端大脑10发送的用户意图为“唱一首歌”，则技能响应模块110从多模态输出数据存储模块120中选取与特定明星人物属性(即社会属性和人格属性)匹配的歌曲信息，作为多模态输出数据发送给智能设备20。随后，智能设备20通过进行执行参数的匹配，完成虚拟人的多模态输出。

接下来，参照附图8对本发明实施例的系统的多模态交互流程进行说明。

虚拟人控制单元231的虚拟人唤醒模块2312判定是否满足在虚拟人唤醒状态时的预设条件，在判定满足在虚拟人唤醒状态时的预设条件时，发送唤醒指令，在虚拟人唤醒状态时并将其显示在用户界面21的预设显示区域内。然后在虚拟人明星人物被唤醒后，在接收到与用户进行多模态交互指令后，开始与虚拟人的多模态交互。在交互过程中，人机交互输入输出模块24采集多模态数据(环境数据和多模态输入数据)，经过初步处理后转发给通信单元22，通信单元22调用虚拟人能力接口，将多模态数据发送给云端大脑10对应的虚拟人能力接口，并接收通过虚拟人能力接口解析多模态数据以获取用户针对该明星人物的技能展示意图虚拟人而决策出的多模态输出数据。然后，执行参数匹配模块232将多模态输出数据匹配虚拟人嘴型、面部表情、头部动作和肢体动作的执行参数。具体地，在执行主持技能时，执行参数匹配模块232将语音数据转化为文本数据；针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。最后将执行参数发送给虚拟人展示模块2314进行展示。在云端大脑一端，虚拟人能力接口根据接收到的多模态数据，调用匹配的逻辑处理获取用户针对该明星人物的技能展示意图，并根据该明星人物的社会属性、人格属性、技能决策出多模态输出数据，以完成针对该明星的作品演绎数据。

本发明实施例提供了一种虚拟人与用户进行多模态交互的解决方案，在该方案中，实现了虚拟明星与用户的多模态交互，能够更好地满足用户需求，并通过虚拟明星进行歌唱、舞蹈等作品的演绎，以增加虚拟人与用户或该明星粉丝之间的互动形式，改善用户体验，可以做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果。

补充说明1：

在本例中，虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，与实施例不同的是，在云端服务器10端，进一步包括明星信息获取模块130，其获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态输出数据。

在本例中省略说明与前一实施例相同或类似的内容，重点说明与不同的内容。如图5所示，在云端大脑10端，明星信息获取模块130在云端通过类似于网络爬虫技术获取该明星人物的知识图谱或关联新闻，知识图谱中包括该明星人物的基本信息(包括姓名、性别、生日、年龄、血型、出生地、星座、签约公司)、人物评价(标签、大众典型印象)、大事件/重要经历(包括出道、结婚、离婚、获奖等)、社会活动(公益类、形象大使)、作品(代表作、获奖作品、当前热播/流行作品)、社交关系、相似艺人等。

本例的系统完成多模态交互的流程参考图9。在云端服务器10端，根据该明星人物的知识图谱或与该明星人物关联新闻从多模态输出数据中筛选出更加匹配的内容，发送给智能设备20端。

补充说明2

在本例中，虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，与实施例不同的是，在云端服务器10端，进一步包括用户历史信息获取模块140(参见图6)，其获取当前用户的历史交互记录，以此筛选与当前用户适配的内容作为多模态输出数据。

例如，通过分析用户的历史信息，了解到用户生活习惯和性格等因素。用户在听歌时，更喜欢听抒情歌曲，当对虚拟明星(谭咏麟)说：唱一首歌吧，虚拟明星更倾向于唱《爱在深秋》，而并不推荐演唱《卡拉永远OK》。

本例的系统完成多模态交互的流程参考图10。在云端服务器10端，根据当前用户的历史交互记录从多模态输出数据中筛选出更加匹配的内容，发送给智能设备20端。这样筛选出来的多模态输出数据能够更加符合用户需求，提高用户体验。

补充说明3：

如图7所示，智能设备20还包括硬件设备监测模块234，其在多模态交互过程中，实时获取硬件设备的状态信息，在状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。此处设置是为了防止当前硬件声音关闭或网络中断等情况出现时，无法顺利进行虚拟人明星和用户的交互。当出现上述情况时，虚拟明星能够将向用户提示当前硬件状态，用户根据提示修复硬件以顺利进行多模态交互。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于虚拟人的多模态交互处理方法，其特征在于，所述虚拟人在智能设备运行，该方法包括如下步骤：

在虚拟人唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的属性；

获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；

调用虚拟人能力接口解析所述多模态输入数据以获取用户针对该明星人物的技能展示意图；

根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与所述技能展示意图匹配的多模态输出数据，所述多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作；

将输出的多模态输出数据匹配虚拟人嘴型、面部表情、动作和/或肢体的执行参数并展示在预设显示区域内。

2.根据权利要求1所述的方法，其特征在于，根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图的步骤包括：

获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态输出数据。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取当前用户的历史交互记录，以此筛选与当前用户适配的内容作为多模态输出数据。

4.根据权利要求1所述的方法，其特征在于，还包括：

在多模态交互过程中，实时获取硬件设备的状态信息；

在所述状态信息异常时，向用户多模态输出有关硬件设备异常的提示信息。

5.根据权利要求1～4中任一项所述的方法，其特征在于，

所述虚拟人由3D高模构造成型。

6.根据权利要求1～5中任一项所述的方法，其特征在于，

所述虚拟人能力接口包括：语义理解接口、视觉识别接口、认知计算接口、情感计算接口。

7.一种基于虚拟人的多模态交互处理系统，其特征在于，所述虚拟人在智能设备运行，该系统包括如下模块：

虚拟人唤醒模块，其在虚拟人唤醒状态时，所述虚拟人显示在预设显示区域内，所述虚拟人具备特定明星人物的属性；

多模态数据获取模块，其获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；

多模态输入数据解析模块，其调用虚拟人能力接口解析所述多模态输入数据以获取用户针对该明星人物的技能展示意图；

多模态数据输出模块，其根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与所述技能展示意图匹配的多模态输出数据，所述多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作；

执行参数匹配模块，其将输出的多模态输出数据匹配虚拟人嘴型、面部表情、动作和/或肢体的执行参数并展示在预设显示区域内。

8.根据权利要求7所述的系统，其特征在于，

所述多模态数据输出模块，其进一步获取该明星人物的知识图谱或与该明星人物关联新闻，以此决策输出多模态输出数据。

9.根据权利要求7所述的系统，其特征在于，

所述多模态数据输出模块，其进一步获取当前用户的历史交互记录，以此筛选与当前用户适配的内容作为多模态输出数据。

10.根据权利要求7所述的系统，其特征在于，还包括：

硬件设备监测模块，其在多模态交互过程中，实时获取硬件设备的状态信息；

所述模态数据输出模块，其在所述状态信息异常时，调取硬件报警应用，向用户多模态输出有关硬件设备异常的报警信息。

11.一种智能设备，其特征在于，所述智能设备包括：

用户界面，其在预设显示区域内显示被唤醒的虚拟人和展示执行参数，所述虚拟人具备特定明星人物的属性；

具备人机交互功能的输入输出模块，其获取多模态数据以及输出执行参数，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；

通信模块，其调用虚拟人能力接口并接收通过虚拟人能力接口解析所述多模态输入数据所获取的用户针对该明星人物的技能展示意图、以及根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图而输出的与所述技能展示意图匹配的多模态输出数据，所述多模态输出数据包括但不限于：该明星人物声音合成数据、歌曲及肢体动作；

中央处理单元，其将多模态输出数据匹配虚拟人嘴型、面部表情、动作和/或肢体的执行参数。

12.根据权利要求11所述的智能设备，其特征在于，所述中央处理单元，其进一步执行如下操作：

在多模态交互过程中，实时获取硬件设备的状态信息；

13.一种基于虚拟人的多模态交互系统，其特征在于，该系统包括：

如权利要求11或12所述的智能设备，其与用户进行多模态交互；

具备虚拟人能力接口的云服务器，其对所述智能设备发送的多模态输入数据进行解析以获取用户针对该明星人物的技能展示意图，并根据该明星人物的社会属性、人格属性和人物技能响应所述技能展示意图，输出与所述技能展示意图匹配的多模态输出数据。