CN107765852A

CN107765852A - 基于虚拟人的多模态交互处理方法及系统

Info

Publication number: CN107765852A
Application number: CN201710940710.6A
Authority: CN
Inventors: 周伟; 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2018-03-06

Abstract

本发明公开了一种基于虚拟人的多模态交互处理方法和系统，虚拟人在智能设备运行，该方法包括如下步骤：唤醒虚拟人，以使虚拟人显示在预设显示区域内，虚拟人具备特定的性格和属性；获取多模态数据，多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；调用虚拟人能力接口解析多模态数据，并决策多模态输出数据；将多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数；将执行参数呈现于所述预设显示区域内。本发明使得虚拟人在与用户交互时，可以做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果，满足用户需求，改善了用户体验。

Description

基于虚拟人的多模态交互处理方法及系统

技术领域

本发明涉及人机交互领域，尤其涉及一种基于虚拟人的多模态交互处理方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

目前机器人包括具备实体的实体机器人和搭载在硬件设备上的虚拟人。现有技术中的虚拟人无法进行多模态交互，且一直呈现出固定不变的状态，无法实现逼真、流畅、拟人的交互效果。因此，提升虚拟人的交互能力，是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种基于虚拟人的多模态交互处理方法及系统，使得虚拟人在与用户交互时，可以做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果，满足用户需求，改善了用户体验。

为了解决上述技术问题，本申请的实施例首先提供了一种基于虚拟人的多模态交互处理方法，所述虚拟人在智能设备运行，该方法包括如下步骤：唤醒虚拟人，以使所述虚拟人显示在预设显示区域内，所述虚拟人具备特定的性格和属性；获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；调用虚拟人能力接口解析所述多模态数据，并决策多模态输出数据；将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，所述多模态输出数据至少包含语音数据；将所述执行参数呈现于所述预设显示区域内。

优选地，将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数包括：将多模态输出数据匹配虚拟人嘴型的执行参数以输出嘴型运动；所述虚拟人配置有相较面部表情、头部动作及肢体动作更多的嘴型的执行参数。

优选地，将所述多模态输出数据中的语音数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数包括：将所述语音数据转化为文本数据；针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。

优选地，还包括：获取当前虚拟人所在场景信息，所述场景信息包括应用场景信息及外部场景信息；决策多模态输出数据的步骤包括：提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

优选地，还包括：获取当前虚拟人涉及的领域信息；决策多模态输出数据的步骤包括：提取所述领域信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

优选地，所述虚拟人由3D高模构造成型。

优选地，所述虚拟人能力接口包括：语义理解接口、视觉识别接口、认知计算接口、情感计算接口。

根据本发明实施例的另一方面，还提供了一种基于虚拟人的多模态交互处理系统，所述虚拟人在智能设备运行，该系统包括如下模块：虚拟人唤醒模块，其唤醒虚拟人，以使所述虚拟人显示在预设显示区域内，所述虚拟人具备特定的性格和属性；多模态数据获取模块，其获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；多模态数据解析模块，其调用虚拟人能力接口解析所述多模态数据，并决策多模态输出数据；执行参数匹配模块，其将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，所述多模态输出数据至少包含语音数据；执行参数显示模块，其将所述执行参数呈现于所述预设显示区域内。

优选地，所述执行参数匹配模块进一步执行如下操作：将多模态输出数据匹配虚拟人嘴型的执行参数以输出嘴型运动；所述虚拟人配置有相较面部表情、头部动作及肢体动作更多的嘴型的执行参数。

优选地，所述执行参数匹配模块还执行如下操作：将所述语音数据转化为文本数据；针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。

优选地，该系统还包括：场景信息获取模块，其获取当前虚拟人所在场景信息，所述场景信息包括应用场景信息及外部场景信息；所述多模态数据解析模块，其提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

优选地，该系统还包括：领域信息获取模块，其获取当前虚拟人涉及的领域信息；所述多模态数据解析模块，其提取所述领域信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

根据本发明实施例的另一方面，还提供了一种智能设备，所述智能设备包括：用户界面，其在预设显示区域内显示被唤醒的虚拟人和虚拟人执行参数，所述虚拟人具备特定的性格和属性；具备人机交互功能的输入输出模块，其获取多模态数据以及输出虚拟人执行参数，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；通信模块，其调用虚拟人能力接口并接收通过虚拟人能力接口解析所述多模态数据决策出的多模态输出数据；以及中央处理单元，其将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，所述多模态输出数据至少包含语音数据。

优选地，所述中央处理单元，其进一步执行如下操作：将多模态输出数据匹配虚拟人嘴型的执行参数以输出嘴型运动；所述虚拟人配置有相较面部表情、头部动作及肢体动作更多的嘴型的执行参数。

优选地，所述中央处理单元，其进一步执行如下操作：将所述语音数据转化为文本数据；针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。

根据本发明实施例的另一方面，还提供了一种基于虚拟人的多模态交互系统，该系统包括：如上所述的智能设备，其与用户进行多模态交互；具备虚拟人能力接口的云服务器，其对所述智能设备发送的多模态数据进行解析，并决策多模态输出数据。

优选地，所述云服务器，其进一步执行如下步骤：获取当前虚拟人所在场景信息，所述场景信息包括应用场景信息及外部场景信息；提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

优选地，所述云服务器，其进一步执行如下步骤：获取当前虚拟人涉及的领域信息；提取所述领域信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例提供的基于虚拟人的多模态交互处理方法，通过唤醒虚拟人，以使所述虚拟人显示在预设显示区域内，获取多模态数据，并调用虚拟人能力接口解析所述多模态交互数据，并决策多模态输出数据，最后将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，将所述执行参数呈现于所述预设显示区域内。这样，使得虚拟人在与用户交互时，可以做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果，满足用户需求，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请第一实施例的基于虚拟人的多模态交互系统的应用场景示意图。

图2为本申请第一实施例的采用3D高模构造成型的虚拟人头部的示例图。

图3为本申请第一实施例的基于虚拟人的多模态交互系统的功能结构示意图。

图4为本申请第一实施例的智能设备20内部的功能模块的示意图。

图5为本申请第二实施例的基于虚拟人的多模态交互系统的功能结构示意图。

图6为本申请第三实施例的基于虚拟人的多模态交互系统的功能结构示意图。

图7为本申请实施例的基于虚拟人的多模态交互处理方法的示例一的流程示意图。

图8为本申请实施例的基于虚拟人的多模态交互处理方法的示例二的流程示意图。

图9为本申请实施例的基于虚拟人的多模态交互处理方法的示例三的流程示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着人工智能技术的进步，虚拟个人助手如Apple Siri、Google Assistant以及Microsoft Cortana等已逐步参与到人们的生活中。目前大多数的虚拟个人助手都只能单纯地使用语音与用户交流，而不能实现多模态交互，因此，与真实世界中人与人之间的交流依然存在一定的区别。本发明实施例提出了一种基于虚拟人的多模态交互处理方法及系统，通过本实施例，可以使虚拟人与人类进行多模态交互，做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果。

为了更好地理解本发明实施例，下面对涉及的虚拟人稍作说明。本例中的虚拟人搭载于支持感知、控制等输入输出模块的智能设备上，优选以3D高模构造成型，具备显著人物特征的外观(如图2所示的头部3D)，在某些示例中可配置社会属性、人格属性、人物技能等。该虚拟人支持多模态人机交互，具备自然语言理解、视觉感知、感知、语言语音输出、情感表情动作输出等AI能力，在与用户交互的过程中，能够使用户享受智能化及个性化流畅体验。

在本例中，虚拟人为系统的应用程序或者可执行文件。在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如果为PC机则系统为windows或IOS操作系统。在与用户交互的过程中，该虚拟人基于搭载的智能设备的硬件获取用户多模态交互数据，在云端大脑对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算。

第一实施例

图1为本申请第一实施例的基于虚拟人的多模态交互系统的应用场景示意图。该虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，且该虚拟人A在与用户进行多模态交互过程中，可以做到语音、面部表情、情感、头部、肢体协调配合。在本实施例中，该系统主要包括云端大脑(云端服务器)10和与用户进行多模态交互的智能设备20。智能设备20可以为传统的PC个人电脑、LapTop笔记本电脑等，也可以是能够随身携带且能通过无线局域网、移动通信网络等无线方式接入互联网的终端设备。本申请实施例中，无线终端包括但不限于手机、Netbook(上网本)等，无线终端一般具有多模态信息采集和数据传输等功能。

图3为本申请实施例的基于虚拟人的多模态交互系统的结构示意图。如图3所示，智能设备20主要包括：用户界面21、通信模块22、中央处理单元23和人机交互输入输出模块24。其中，用户界面21，其在预设显示区域内显示被唤醒的虚拟人和虚拟人执行参数。具备人机交互功能的输入输出模块(其作为多模态数据获取模块的一个例子)24，其获取多模态数据以及输出虚拟人执行参数，多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据。通信模块22，其调用虚拟人能力接口并接收通过虚拟人能力接口解析多模态数据决策出的多模态输出数据。中央处理单元23，其将多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，多模态输出数据至少包含语音数据。云端大脑10具备多模态数据解析模块(也称“虚拟人能力接口”)，其对智能设备20发送的多模态数据进行解析，并决策多模态输出数据。如图3所示，在多模态数据解析过程各个能力接口分别调用对应的逻辑处理。

下面对智能设备20的各个单元模块的组成和功能进行具体说明。

首先来说明用户界面21。用户界面21也称人机界面或使用者界面，是系统和用户之间进行交互和信息交换的媒介，主要借助于显示设备来展现。在该用户界面21的预设显示区域内，例如中心位置，显示唤醒后的虚拟人影像(主要是虚拟人3D外貌)以及虚拟人多模态操作的执行参数(嘴型、面部表情、动作等)。当然，根据实际需要，为了方便用户了解虚拟人的性格和属性，也可以在其他设定区域内文字显示该虚拟人的具体情况，本发明对此不做限定。

接下来，对通信模块22进行说明。该通信模块22具备发送和接收功能，主要调用虚拟人能力接口，将本地人机交互输入输出模块24预处理后的多模态数据转发至云端大脑10对应虚拟人能力接口，以及接收来自各虚拟人能力接口决策出的多模态输出数据。该通信模块22在发送多模态数据时，需要根据多模态数据种类来发送，例如将语音数据发送至语义理解接口21，将图像数据发送至视觉识别接口12。

下面说明人机交互输入输出模块24。人机交互输入输出模块24包括语音采集系统、图像采集系统和触觉采集系统，还可以包括其他模态数据输入设备。语音采集系统主要包括麦克风、A/D转换器、语音处理器等设备。在用户发出语音信息后，语音采集系统经由麦克风采集该模拟语音信号，利用A/D转换器将将模拟语音信号转换成系统能够处理的语音信号，然后将数字语音信号输入至语音处理器中进行语音信息的预处理，包括滤波、放大等。图像采集系统主要包括图像传感器和图像数字处理器等设备。图像传感器可以为CCD摄像器件或CMOS摄像器件，主要对用户当前的面部图像、姿态图像进行采集。图像数字处理器具备图像预处理功能。在对原始图像进行预处理时，一般需要执行滤波去噪、灰度修正、图像增强和几何变换等。而图像分割一般包括边缘检测、二值化、细化和边缘连接等。触觉采集系统包括触觉传感器和数据处理器，触觉传感器接收来自用户的触摸信号，数据处理器对该触摸信号进行预处理，滤除多余的噪声。其他模态数据输入设备，例如可以是键盘、鼠标等设备。

接下来，重点说明智能设备20的中央处理单元23。图4为本申请实施例的智能设备20内部的功能模块的示意图。

如图4所示，中央处理单元23主要包括：虚拟人控制单元231、执行参数匹配模块232和执行参数存储模块233。

虚拟人控制单元231，其用于对虚拟人进行控制，具体包括虚拟人属性存储模块2311、虚拟人唤醒模块2312、虚拟人构建模块2313和虚拟人展示模块(其作为执行参数显示模块的一个例子)2314。概括来说，虚拟人控制单元231预先设置虚拟人属性信息，并将其保存于设置的虚拟人属性存储模块2311中，当虚拟人唤醒模块2312判定满足唤醒虚拟人的条件时，从虚拟人属性存储模块2311调用并保存虚拟人属性信息，通过虚拟人构建模块2313构建匹配的虚拟人并利用虚拟人展示模块2314在用户界面21显示虚拟人影像信息。

其中，设置虚拟人属性信息的具体方式可以是在虚拟人属性存储模块2311中建立虚拟人属性信息列表。虚拟人属性信息包括虚拟人实体属性信息和虚拟人状态属性信息。其中，虚拟人实体属性信息与用户的实体属性相类似，主要包括：虚拟人标识、社会属性、人格属性、人物技能等属性字段。具体来说，社会属性可以包括：外貌、姓名、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性字段。人格属性可以包括：性格、气质等属性字段。人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能。在本例中，每个虚拟人都具备特定的性格，在与用户交互时会呈现出与其性格相关联的语言、表情、姿态等的表达。虚拟人状态属性信息主要用于实现虚拟人状态控制，从而使得系统通过调用该特性属性信息实现虚拟人的激活、活动、去激活以及注销等状态的控制，属于虚拟人区别真实人的附加属性信息。

当虚拟人唤醒模块2312判定满足唤醒虚拟人的预设条件时，虚拟人控制单元231将保存的虚拟人实体属性中的状态属性变迁为激活状态，并从虚拟人属性存储模块2311调用激活的虚拟人的实体属性信息，然后保存调用的虚拟人实体属性信息，同时将虚拟人实体属性信息中的标识属性信息添加至云端大脑10的在线虚拟人列表中。其中，控制唤醒虚拟人的具体方式为：中央处理单元23向虚拟人控制单元231发送携带唤醒条件的唤醒指令；虚拟人控制单元231接收到该指令后，根据保存的虚拟人特性的属性信息和唤醒指令中携带的唤醒条件选取需要唤醒的虚拟人，并将选定唤醒的虚拟人实体属性信息中的状态属性变迁为激活状态。唤醒条件例如可以是用户发出唤醒某个虚拟人的语音信息或者用户唤醒虚拟人的动作信息，亦或是用户直接输入的命令指令。虚拟人唤醒模块2312判定满足唤醒虚拟人的预设条件时，则根据唤醒指令进行唤醒操作。若用户发出的唤醒指令没有指代具体虚拟人，则系统默认为上一次唤醒的虚拟人。

虚拟人构建模块2313基于调用的虚拟人属性信息，利用3D高模构造匹配的虚拟人影像。高模是高细节高精度的3D模型，高模看上去十分逼真、细节非常丰富，模型的面数也相当的高(可达数万三角形面数)。以3D头像为例，在构建的过程中，获取人脸图像，提取人脸图像中的人脸特征点，然后，根据人脸特征点标定人脸图像获取面部特征区域，利用面部特征区域调整预设模型以获取与人脸图像匹配的人脸模型，最后对与人脸图像匹配的人脸模型进行纹理贴图，生成虚拟人物头像。

考虑到智能设备的处理能力，在其他实施例中优选不设置虚拟人构建模块2313，而事先通过3D技术将虚拟人3D影像构造出来以应用程序或可执行文件的方式存储在虚拟人影像存储器中，通过系统调用的方式来生成虚拟人，这样能够极大降低处理器的处理负担。另外，也可以利用3D低模来构造虚拟人，虽然效果上没有3D高模构建的虚拟人更加逼真，但能够减轻处理器负担且满足本发明实施例的基本需求。

虚拟人展示模块2314将构建或调取的虚拟人影像或执行参数展示在用户界面21上，以供用户与其进行多模态交互。

执行参数匹配模块232，其将多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，多模态输出数据至少包含语音数据。具体来说，执行参数匹配模块232首先将语音数据转化为文本数据，然后，针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。在文本切词处理时，可以根据长句中的标点符号，例如逗号、顿号和句号等来切分成短句，还可以通过语义分析来切分长句中的短句，具体语义分析方法可以采用现有的技术来，此处不再赘述。在执行完分句处理之后，对每个分句设置分句标识。

如图4所示，该模块232包括嘴型匹配子模块2321、面部表情匹配子模块2322、头部动作匹配子模块2323和肢体动作匹配子模块2324。

执行参数匹配模块232的上述配置，主要是考虑到：真人表情大多集中在上半身以及面部上，所以根据各部位可发出的信息量的多少将其从高至低划分为：口型、面部表情、局部动画(主要是头部动作)及整体动画(主要是肢体动作)4个层次。这种层次的划分主要是为了将复杂问题简单化。

在说明执行参数匹配模块232之前，需要说明的是，在执行参数存储模块233的内部预先存储了针对上面4个层次的执行参数。以嘴型执行参数为例，为了保证嘴部动作与语音数据的连贯配合性，预先对语音数据，例如对白数据，进行分析生成文本切词序列，从中筛选出关键音素；针对各个关键音素建立对应不同嘴型的执行参数，并将这些参数数据存入到执行参数存储模块233的嘴型参数子数据库中。以中文发音为例，这些关键音素的选择可以根据汉语拼音和发生嘴型之间的规律来设置，例如：bo、po、mo、lv、lin、wu、ying、ji、shi等等，根据这些发音设置相应类人的嘴型执行参数。同理，针对面部表情、头部动作和肢体动作的执行参数，生成方法与嘴型执行参数类似，也是预先根据文本切词序列，筛选关键字段，并建立各个关键字段对应的不同面部表情、头部动作和肢体动作的执行参数，并分别存储到对应的数据库中，以便后续多模态交互时的调取处理。

下面分别说明执行参数匹配模块232的各个子模块的功能。

嘴型匹配子模块2321，其将多模态输出数据匹配虚拟人嘴型的执行参数以输出嘴型运动，一般来讲，虚拟人配置有相较面部表情、头部动作以及肢体动作更多的嘴型的执行参数。嘴型匹配子模块2321在将语音数据转化为文本数据，并完成文本切词处理后，根据切词结果筛选关键音素，从执行参数存储模块233选择匹配的执行参数，按照关键因素的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人嘴部动作完成虚拟人的嘴型输出。嘴型执行参数可以包括：左/右嘴角X方向移动值、左/右嘴角Y方向移动值、左/右边上唇上下移动值、中间上唇上下移动值、左/右边下唇上下移动值、中间下唇上下移动值、上/下嘴唇翻翘程度、露出的上/下齿大小等，然而上述参数的执行过程仅作为举例，并不局限于此。

面部表情匹配子模块2322，其将多模态输出数据匹配虚拟人面部表情的执行参数以进行表情输出。具体来说，面部表情匹配子模块2322在将语音数据转化为文本数据，并完成文本切词处理后，从切词结果中筛选出关键字段，从执行参数存储模块233选择匹配的执行参数，按照关键字段的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人面部表情完成虚拟人的表情输出。

在一个例子中，为了提高分词的效率和准确度，本实施例中定义了情感辞典数据库，其中包含大部分常用的形容情感的词汇。对于分好的词汇，进行情感分类，以确定分句的情感倾向。在识别出情感词之后，还需要对情感词前面的修饰词进行处理，以确定该种情感的强烈程度。为了将内部因素整合成一个整体，达到整体的协调性，在其他例子中，可以采用复杂的句法分析来识别分句的情感倾向，在确定分句表征的情感后生成对应的情绪参量和语气参量。该情绪参量为对应情感的，例如喜、怒、哀、乐等参量表达，而语气参量主要是语音语调，主要是指声音方面的高低、强弱、快慢及音色的等参量。其中，情感表达数据库中关联存储情绪及实现情绪表达的指令。虚拟人展示模块2314根据情绪表达的指令完成虚拟人的表情输出，通过用户界面23展现高兴、生气、沮丧等不同的面部表情，通过声音输出设备进行韵律方面的处理，完成语音语调与表情的协调输出。

头部动作匹配子模块2323，其将多模态输出数据匹配虚拟人头部动作的执行参数以进行头部动作输出。具体来说，头部动作匹配子模块2323在将语音数据转化为文本数据，并完成文本切词处理后，从切词结果中筛选出关键字段，从执行参数存储模块233选择匹配的执行参数，按照关键字段的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人头部动作。这些关键字段与情绪信息也匹配，根据这些关键字段选择与对应情绪信息匹配的头部动作的执行参数。头部动作的执行参数包括：保持不动、抬头、右抬头、向右转、右抬头、向左转、左抬头。虚拟人展示模块2314接收这些执行参数，预先将运动矢量所属的区域按每隔45°进行对应划分，根据执行参数确定运动矢量落在哪一区域，完成头部动作展示。

肢体动作匹配子模块2324，其将多模态输出数据匹配虚拟人肢体动作的执行参数以进行肢体动作输出。具体来说，肢体动作匹配子模块2324在将语音数据转化为文本数据，并完成文本切词处理后，从切词结果中筛选出关键字段，从执行参数存储模块233选择匹配的执行参数，按照关键字段的发音顺序依次调取，发送给虚拟人展示模块2314，然后结合语音数据配合控制虚拟人肢体动作。肢体动作的参数包括针对躯干的位置和方位参数(如旋转参数)、左右上肢和左右下肢的关节参数等。虚拟人展示模块2314接收这些执行参数，根据已定义的命令库查询动作指令后，会解析出各个重点关节的旋转角度之类的信息，并根据这些信息驱动相应的关节进行动作，从而完成虚拟人的肢体动作。

综上来说，嘴型匹配子模块2321、面部表情匹配子模块2322、头部动作匹配子模块2323和肢体动作匹配子模块2324按照需要输出的语音信息，根据分工的不同，实现不同层次之间的配合。需要说明的是，基于嘴型、面部、头部和肢体的动作执行，可通过动画方式实现，但并不局限。如将进行比如整体动画和基调表情做为主基调，然后配合局部动画和局部表情的方式来实现各层之间的互动。

例如，用户通过挥手的方式唤醒虚拟人，虚拟人被唤醒后在屏幕中从远处走来，那么此时，虚拟人的面部呈微笑状，面部肌肉群放松，协调嘴形“你好”输出，肢体呈自然站立状。在与虚拟人多模态交互时，如虚拟人看到用户哭泣，且用户说出“今天好难过”的语音。虚拟人口型匹配“可以跟我说说么？”，此时头部转向用户侧，面部呈现关切微微伤心的神态。可以理解是，为了减少面部肌肉群的耦合，保证其输出协调性，“微微伤心”的表现是一段动画来集中输出。而由于头部和肢体属于第三、四层次，其实际上动作幅度小，且可能并不输出动作。

接下来对云端大脑10进行具体说明。云端大脑10在接收到多模态信息后，解析信息内容和虚拟人标识ID，并将多模态数据发送至相应的虚拟人能力接口来完成逻辑处理。

语义理解接口11，其接收从通信模块22转发的语音信息，对其进行语音识别。在语音识别的过程中，先对语音信息进行预处理，然后进行特征提取和训练识别。预处理主要包括语音信号的预加重，分帧加窗和端点检测等工作。将待识别语音经过特征提取后的特征参数与参考模型库中的各个模式一一进行比较，将相似度最高的模式作为识别的结果输出，完成模式的匹配过程。

视觉识别接口12，其接收从通信模块22转发的图像信息，对目标的特征进行提取，例如提取线段、区域或特征点等。最后根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能。图像预处理主要是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化。特征提取主要提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息。决策主要是对特征信息，按照一定的决策策略分发给需要该特征信息的具体应用。具体应用功能实现人脸检测、人物肢体识别、运动检测等功能。

情感计算接口14，其接收从通信模块22转发的多模态数据，利用情感计算逻辑(主要是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容来可以判断用户的情绪状态。

情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

在本实施例中，异常情绪包括消沉情绪和极端情绪。例如，人们熟知的焦虑、紧张、愤怒、沮丧、悲伤、痛苦等负性情绪，人们之所以这样称呼这些情绪，是因为此类情绪体验是不积极的，身体也会有不适感，甚至影响工作和生活的顺利进行，进而有可能引起身心的伤害。

情感计算接口14在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理、人工智能等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

需要说明的是，在本例中，情感计算接口14预先设置了两个表情阈值，不同的阈值区间代表不同的异常情绪，例如，在第一表情阈值与第二表情阈值之间的第一段阈值区间是消沉情绪，在第二表情阈值之上的第二段阈值区间是极端情绪。情感计算接口14在进行人脸表情情绪识别后得到关于该用户的表情情绪值，通过与预先设置的第一表情阈值和第二表情阈值来判断该家庭用户的当前情绪状态。当从用户的多模态输入信息中获取的表情情绪值在第一表情阈值与第二表情阈值之间时，判断为消沉情绪(例如悲伤)，当情绪值在第二表情阈值之上时，判断为极端情绪(例如愤怒)。

容易理解，在情感计算接口14进行视觉情绪识别时，识别到的表情情绪不是异常情绪，则继续通过人脸检测与追踪进行人脸表情情绪检测。另外，为了更加准确地判断出异常情绪，本实施例的情感计算接口14还进行声音情绪识别。

具体地，在确定表情情绪为异常情绪后，情感计算接口14分析采集到的用户声音数据，进行声音情绪检测。情感计算接口14从声音信息中后得到关于该用户的声音情绪值，通过与预先设置的第一声音阈值和第二声音阈值来判断该用户的当前情绪状态。具体地，当从用户的多模态输入信息中获取的声音情绪值在第一声音阈值与第二声音阈值之间时，判断为消沉情绪，当情绪值在第二声音阈值之上时，判断为极端情绪。

在一个例子中，通过测量语速和音频来评估用户的声音情绪状态。在测量出语速的快慢和/或音频的高低超出预先设定的第二声音阈值时，情感计算接口14能更加准确确认用户当前处于极端情绪中。

认知计算接口13，其接收从通信模块22转发的多模态数据，所述认知结算接口用以处理多模态数据中与数据采集识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

为了避免重复的计算量，可以将语义理解接口11、视觉识别接口12和情感计算接口14处理后得到的结果发送到认知计算接口13进行决策输出。

接下来，参照附图7对本发明实施例的系统的多模态交互流程进行说明。

在虚拟人一端，虚拟人控制单元231的虚拟人唤醒模块2312判定是否满足唤醒虚拟人的预设条件，在判定满足唤醒虚拟人的预设条件时，发送唤醒指令，唤醒虚拟人并将其显示在用户界面21的预设显示区域内。然后在虚拟人被唤醒后，在接收到与用户进行多模态交互指令后，开始与虚拟人的多模态交互。在交互过程中，人机交互输入输出模块24采集多模态数据(环境数据和多模态输入数据)，经过初步处理后转发给通信单元22，通信单元22调用虚拟人能力接口，将多模态数据发送给云端大脑10对应的虚拟人能力接口，并接收通过虚拟人能力接口解析多模态数据决策出的多模态输出数据。然后，执行参数匹配模块232将多模态输出数据匹配虚拟人嘴型、面部表情、头部动作和肢体动作的执行参数，该多模态输出数据至少包含语音数据。具体地，执行参会匹配模块232将语音数据转化为文本数据；针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。最后将执行参数发送给虚拟人展示模块2314进行展示。在云端大脑一端，虚拟人能力接口根据接收到的多模态数据，调用匹配的逻辑处理决策出多模态输出数据。

本发明实施例提供了一种虚拟人与用户进行多模态交互的解决方案，在该方案中，使得虚拟人在与用户交互时，可以做到语音、面部表情、情感、头部、肢体融合，以呈现出逼真、流畅的人物交互效果，满足用户需求，改善了用户体验。

第二实施例

在本例中，虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，与第一实施例不同的是，该虚拟人A可以与用户进行不同场景的多模态交互，例如家庭场景、舞台场景、游乐场场景等。

在本例中省略说明与第一实施例相同或类似的内容，重点说明与第一实施例不同的内容。如图5所示，在云端大脑10端，具备场景信息获取功能，具体执行如下操作：获取当前虚拟人所在场景信息，场景信息包括应用场景信息及外部场景信息，然后在决策多模态输出数据的过程中：提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。在本例中，多模态输出数据除了包括语音数据以外，还可以包括虚拟人需要执行的参数信息。

应用场景信息可以为预先设定的与不同虚拟人相关联的应用场景，例如明星形象的虚拟人，其应用场景信息可以为舞台场景；游戏形象的虚拟人，其应用场景信息可以为游戏场景。外部场景信息为用户当前所处的环境信息，例如家庭环境、校园环境等。例如在一个舞台场景上，虚拟人可以输出唱歌、跳舞等符合场景所配置的执行参数、而不会出现吃饭、睡觉等其它执行参数。

本例的系统完成多模态交互的流程参考图8。云端大脑10获取当前虚拟人所在场景信息，在决策多模态输出数据的步骤中，提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。虚拟人呈现执行参数匹配完成的多模态输出数据。

综上，本发明实施例的虚拟人在与用户进行多模态交互的过程中，考虑了虚拟人所处场景信息带来的影响，能够使用户在交互时获得更加真实的体验效果。

第三实施例

在本例中，虚拟人A可以通过其所搭载的智能设备，以全息影像或显示界面显示的方式展示给用户，与第一实施例不同的是，该虚拟人A可以与用户进行不同领域的多模态交互，例如金融领域、教育领域等。

所述领域为预先设定的虚拟人相关联的应用领域，例如明星形象的虚拟人，其领域可以为娱乐；教师形象的虚拟人，其领域可以为教育；白领形象的虚拟人，其领域可以为金融等。这些领域信息预先针对不同形象的虚拟人进行设定，而在与不同领域的虚拟人进行多模态交互时，虚拟人输出的多模态数据也会与该领域相匹配，例如在一个娱乐领域上，虚拟人可以输出唱歌、跳舞等符合领域所配置的执行参数、而不会出现吃饭、睡觉等其它执行参数。

在本例中省略说明与第一实施例相同或类似的内容，重点说明与第一实施例不同的内容。如图6所示，在云端大脑10端，具备领域信息获取功能，具体执行如下操作：获取当前虚拟人涉及的领域信息，然后在决策多模态输出数据的过程中：提取所述领域信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数(参见流程图9)。在本例中，多模态输出数据除了包括语音数据以外，还可以包括虚拟人需要执行的参数信息。虚拟人呈现执行参数匹配完成的多模态输出数据。

综上，本发明实施例的虚拟人在与用户进行多模态交互的过程中，考虑了虚拟人涉及的领域带来的影响，能够使用户在交互时获得更加真实的体验效果。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于虚拟人的多模态交互处理方法，其特征在于，所述虚拟人在智能设备运行，该方法包括如下步骤：

唤醒虚拟人，以使所述虚拟人显示在预设显示区域内，所述虚拟人具备特定的性格和属性；

获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；

调用虚拟人能力接口解析所述多模态数据，并决策多模态输出数据；

将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，所述多模态输出数据至少包含语音数据；

将所述执行参数呈现于所述预设显示区域内。

2.根据权利要求1所述的方法，其特征在于，将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数包括：

将多模态输出数据匹配虚拟人嘴型的执行参数以输出嘴型运动；

所述虚拟人配置有相较面部表情、头部动作及肢体动作更多的嘴型的执行参数。

3.根据权利要求1或2所述的方法，其特征在于，将所述多模态输出数据中的语音数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数包括：

将所述语音数据转化为文本数据；

针对虚拟人嘴型、面部表情、头部动作及肢体动作匹配过程遵循统一的文本切词处理结果。

4.根据权利要求1所述的方法，其特征在于，

还包括：获取当前虚拟人所在场景信息，所述场景信息包括应用场景信息及外部场景信息；

决策多模态输出数据的步骤包括：

提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

5.根据权利要求1所述的方法，其特征在于，

还包括：获取当前虚拟人涉及的领域信息；

决策多模态输出数据的步骤包括：

提取所述领域信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

6.根据权利要求1～5中任一项所述的方法，其特征在于，

所述虚拟人由3D高模构造成型。

7.根据权利要求1～6中任一项所述的方法，其特征在于，

所述虚拟人能力接口包括：语义理解接口、视觉识别接口、认知计算接口、情感计算接口。

8.一种基于虚拟人的多模态交互处理系统，其特征在于，所述虚拟人在智能设备运行，该系统包括如下模块：

虚拟人唤醒模块，其唤醒虚拟人，以使所述虚拟人显示在预设显示区域内，所述虚拟人具备特定的性格和属性；

多模态数据获取模块，其获取多模态数据，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；

多模态数据解析模块，其调用虚拟人能力接口解析所述多模态数据，并决策多模态输出数据；

执行参数匹配模块，其将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，所述多模态输出数据至少包含语音数据；

执行参数显示模块，其将所述执行参数呈现于所述预设显示区域内。

9.根据权利要求8所述的系统，其特征在于，所述执行参数匹配模块进一步执行如下操作：

10.根据权利要求8或9所述的系统，其特征在于，所述执行参数匹配模块还执行如下操作：

将所述语音数据转化为文本数据；

11.根据权利要求8所述的系统，其特征在于，该系统还包括：

场景信息获取模块，其获取当前虚拟人所在场景信息，所述场景信息包括应用场景信息及外部场景信息；

所述多模态数据解析模块，其提取所述场景信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数；

和/或

领域信息获取模块，其获取当前虚拟人涉及的领域信息；

所述多模态数据解析模块，其提取所述领域信息并以此筛选出匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数。

12.一种智能设备，其特征在于，所述智能设备包括：

用户界面，其在预设显示区域内显示被唤醒的虚拟人和虚拟人执行参数，所述虚拟人具备特定的性格和属性；

具备人机交互功能的输入输出模块，其获取多模态数据以及输出虚拟人执行参数，所述多模态数据包括来自周围环境的数据及与用户进行交互的多模态输入数据；

通信模块，其调用虚拟人能力接口并接收通过虚拟人能力接口解析所述多模态数据决策出的多模态输出数据；以及

中央处理单元，其将所述多模态输出数据匹配虚拟人嘴型、面部表情、头部动作及肢体动作的执行参数，所述多模态输出数据至少包含语音数据。

13.一种基于虚拟人的多模态交互系统，其特征在于，该系统包括：

如权利要求12所述的智能设备，其与用户进行多模态交互；

具备虚拟人能力接口的云服务器，其对所述智能设备发送的多模态数据进行解析，并决策多模态输出数据。