CN108942919B

CN108942919B - 一种基于虚拟人的交互方法及系统

Info

Publication number: CN108942919B
Application number: CN201810522466.6A
Authority: CN
Inventors: 俞志晨; 李晓丹; 尚小维
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2021-03-30
Anticipated expiration: 2038-05-28
Also published as: CN108942919A

Abstract

本发明公开了一种基于虚拟人的交互方法以及系统。方法包括：采集用户多模态数据并解析，获取包含用户表情意图的用户交互意图，其中：从所述用户多模态数据中提取用户表情数据；对所述用户表情数据进行解析，生成对应的用户表情意图；针对所述用户交互意图，生成对应的多模态交互回应数据，所述多模态交互回应数据包含表情回应数据；基于所述虚拟人输出所述多模态交互回应数据，其中，利用所述虚拟人展示所述表情回应数据对应的表情。根据本发明的方法及系统，可以令虚拟人展现与当前交互内容自然匹配的表情，从而大大提高虚拟人的亲切感，提高用户体验。

Description

一种基于虚拟人的交互方法及系统

技术领域

本发明涉及计算机领域，具体涉及一种基于虚拟人的交互方法及系统。

背景技术

随着人工智能技术的不断发展，智能机器人被越来越多的应用于人类的生产生活当中。在众多种类的智能机器人当中，较为常见的一种就是虚拟机器人。

在现有技术中，通常的虚拟机器人是以人类或者与人类相似的形态为其虚拟形象。这就使得虚拟机器人可以利用其虚拟形象模拟人类的表情。基于此，在现有技术中，在很多应用场景中利用虚拟机器人在输出交互数据的同时会进行表情展示。

然而，在现有技术中，虚拟机器人在进行人机交互时通常是输出一个大概的表情，不仅输出的表情十分粗糙，而且表情的输出与当前的交互内容的匹配度也很低。在很多应用场景中，虚拟机器人的表情输出不仅不能给人带来亲切感，反而因其与当前交互内容不搭造成用户感到莫名其妙从而降低用户体验。

发明内容

本发明提供了一种基于虚拟人的交互方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

采集用户多模态数据并解析，获取包含用户表情意图的用户交互意图，其中：

从所述用户多模态数据中提取用户表情数据；

对所述用户表情数据进行解析，生成对应的用户表情意图；

针对所述用户交互意图，生成对应的多模态交互回应数据，所述多模态交互回应数据包含表情回应数据；

基于所述虚拟人输出所述多模态交互回应数据，其中，利用所述虚拟人展示所述表情回应数据对应的表情。

在一实施例中，所述用户表情数据包括用户面部表情数据和/或用户姿态数据。

在一实施例中，调用视觉能力提取所述用户面部表情数据。

在一实施例中，对所述用户表情数据进行解析，生成对应的用户表情意图，包括：

确认用户情绪和/或用户态度。

在一实施例中，利用所述虚拟人展示所述表情回应数据对应的表情，包括：

根据所述表情回应数据确定所述虚拟人的基础情绪表现；

根据所述虚拟人的基础情绪表现输出与所述基础情绪表现匹配的所述虚拟人眼部变化以及所述虚拟人皮肤肌理反应的展示数据。

在一实施例中，针对所述用户交互意图，生成对应的多模态交互回应数据，所述多模态交互回应数据包含表情回应数据，其中：

获取所述虚拟人与所述用户的熟悉度参量；

当所述熟悉度参量超过设定阈值时生成与所述用户表情意图同步的表情回应数据。

在一实施例中，利用所述虚拟人与所述用户的交互次数描述所述熟悉度参量。

本发明还提出了一种存储介质，所述存储介质上存储有可实现如本发明所述方法的程序代码。

本发明还提出了一种基于虚拟人的交互系统，所述系统包括：

输入获取模块，其配置为采集用户多模态数据；

交互解析模块，其配置为解析所述用户多模态数据，获取包含用户表情意图的用户交互意图，包括：

表情提取单元，其配置为从所述用户多模态数据中提取用户表情数据；

表情解析单元，其配置为对所述用户表情数据进行解析，生成对应的用户表情意图；

交互回应生成模块，其配置为针对所述用户交互意图，生成对应的多模态交互回应数据，所述多模态交互回应数据包含表情回应数据，所述表情回应数据可被所述虚拟人展示为对应的表情。

本发明还提出了一种虚拟人系统，其特征在于，所述系统包括智能设备以及云端服务器，其中：

所述云端服务器包含如本发明所述的交互系统以及多个能力接口，所述交互系统配置为调用所述能力接口获取所述用户多模态数据并解析，生成并输出所述多模态交互回应数据，其中，所述能力接口包括语义理解接口、视觉识别接口、情感计算接口、认知计算接口；

所述智能设备包括：

用户界面，其配置为基于虚拟人执行参数在预设显示区域内显示被唤醒的虚拟人并令所述虚拟人展示与所述表情回应数据对应的表情；

人机交互输入输出模块，其配置为获取所述用户多模态数据以及输出所述虚拟人执行参数；

通信模块，其配置为输出所述用户多模态数据并接收所述多模态交互回应数据；

中央处理单元，其配置为利用所述多模态交互回应数据计算与所述多模态交互回应数据相对应的虚拟人执行参数。

根据本发明的方法及系统，可以令虚拟人展现与当前交互内容自然匹配的表情，从而大大提高虚拟人的亲切感，提高用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一实施例的方法流程图；

图2以及图3是根据本发明实施例的方法的部分流程图；

图4是根据本发明一实施例的交互系统结构简图；

图5是根据本发明一实施例的虚拟人系统结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

针对上述问题，本发明提出了一种基于虚拟人的交互方法。在本发明的方法中，虚拟人在智能设备运行，且虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力。

具体的，本发明提到的虚拟人为搭载于支持感知、控制等输入输出模块的智能设备；

以高仿真3d虚拟人物形象为主要用户界面，具备显著人物特征的外观；

支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力；

可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验的虚拟人物。

虚拟机人在系统层面与用户进行交互，所述系统硬件中运行操作系统，如全息设备内置系统，如PC则为windows或MAC OS。

虚拟人为系统应用程序，或者可执行文件。

虚拟机器人基于硬件设备获取用户多模态交互数据，在云端大脑对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算。

所提到的云端大脑为提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以便帮助用户进行决策。

在正常的人与人交互的过程中，人类所展现出的面部表情通常是与当前的交互内容匹配的。因此，为了提高对人类的交互内容的理解程度，在本发明的方法中，特别针对当前交互对象的表情进行解析，在表情解析的基础上对交互对象的交互意图进行理解，从而生成对应的交互回应。并且，进一步的，在进行交互回应时，输出匹配交互对象的交互意图的虚拟人表情进行辅助，从而使得虚拟人的交互回应更加生动。根据本发明的方法及系统，可以令虚拟人展现与当前交互内容自然匹配的表情，从而大大提高虚拟人的亲切感，提高用户体验。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

具体的，如图1所示，在一实施例中，本发明的方法包含以下流程。

采集用户多模态数据(S100)并解析(S110)，获取包含用户表情意图的用户交互意图。在这里，用户交互意图是由多种意图组合而成，例如用户语言意图、用户文字意图等。具体的，在本实施例中，用户交互意图包含用户表情意图，即用户通过表情所体现出的意图。具体的，步骤S110包括：

S111，从用户多模态数据中提取用户表情数据；

S112，对用户表情数据进行解析，生成对应的用户表情意图。

在步骤S110之后，针对用户交互意图，生成对应的多模态交互回应数据(例如描述回应内容的文本数据)(S120)。在本实施例中，步骤S120所生成的多模态交互回应数据包含表情回应数据(S121)；

进一步的，基于虚拟人输出多模态交互回应数据(例如在对话框展示文本数据或是以语音形式播放文本数据)(S130)，其中，利用虚拟人展示表情回应数据对应的表情(S131)(即，令虚拟人形象展示对应的表情)。

进一步的，考虑到在实际场景中，人类在做出表情时并不仅仅是面部发生变化，在很多时候还会配合一定的肢体动作。因此，在一实施例中，在步骤S111中，从用户多模态数据中提取的并不仅仅是用户面部描述，还包括用户肢体动作描述。具体的，在一实施例中，用户表情数据包括用户面部表情数据和/或用户姿态数据。

进一步的，在一实施例中，调用视觉能力提取用户面部表情数据。

进一步的，在实际场景中，人类的表情通常表达两类含义，一是自身的情绪，例如高兴、悲伤等，而是自身的某种态度，例如赞同、否定等。因此，在一实施例中，在步骤S112中，确认用户情绪和/或用户态度。

进一步的，在实际场景中，人类的表情非常复杂，例如，人类的笑容就可以细分为不同的多个等级。如果要完全模拟人类的表情势必需要很高的硬件支持。因此，在一实施例中，为了降低虚拟人的硬件需求，将人类正式的表情花费为多个基础情绪表现，预先记录每个基础情绪表现所对应的人类眼部变化以及皮肤机理反应，然后令虚拟人模拟记录的表情并存储该模拟对应的虚拟人参数。这样，当之后虚拟人需要展现该情绪时只需要调用预存的对应参数并执行就可以展现对应的基础情绪表现。

具体的，如图2所示，在一实施例中，利用虚拟人展示表情回应数据对应的表情，包括：

根据表情回应数据确定虚拟人的基础情绪表现(S210)；

根据虚拟人的基础情绪表现输出与基础情绪表现匹配的虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据(S220)。

具体的，在一实施例中，虚拟人具有基础情绪表现，其中，基础情绪表现包含：生气、大笑、害羞、悲伤、含泪以及哭泣。基础情绪表现可以包含多种不同类型的情绪表现，例如：喜类、怒类、哀类以及乐类。每一类包含一个专属调用标识符，在需要调用时通过调用标识符进行区分。

任一基础情绪表现还具备与之对应的虚拟人眼部变化集以及皮肤肌理反应集。在存储介质中，包含虚拟人眼部变化库以及皮肤肌理反应库，里边包含所有的虚拟人眼部变化以及皮肤肌理反应的展示数据。在与基础情绪表现匹配时，需要从虚拟人眼部变化库以及皮肤肌理反应库中调用合适的虚拟人眼部变化以及皮肤肌理反应，将调用出来的虚拟人眼部变化以及皮肤肌理反应放在一个集中，用于与当前调用的基础情绪表现进行匹配。

任一对应的虚拟人眼部变化集以及皮肤肌理反应集还具备与之对应的虚拟人泪腺作用组。在存储介质中，包含虚拟人泪腺作用库，里边包含所有的虚拟人泪腺作用的展示数据。在与虚拟人眼部变化集以及皮肤肌理反应集匹配时，需要从虚拟人泪腺作用库调用合适的虚拟人泪腺作用，将调用出来的虚拟人泪腺作用放在一个组中，用于与当前虚拟人眼部变化集以及皮肤肌理反应集进行匹配。

具体的，在一实施例中，根据虚拟人的基础情绪表现输出与基础情绪表现匹配的虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据，即是令虚拟人执行基础情绪表现对应的虚拟人执行参数。

基础情绪表现对应的虚拟人执行参数包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。其中，皮肤肌理反应可以包含皮肤褶皱、面部明暗变化和面部肤色。

在一实施例中，在步骤S130中，通过虚拟人的形象输出多模态交互回应数据。输出多模态交互回应数据的载体是虚拟人的形象，通过虚拟人的形象，能够全方位的展现多模态数据中的文本、语音视觉识别结果等输出数据。交互对象也能够快速准确的获知多模态交互回应数据中包含的交互信息。在此处，多模态交互回应数据中包含虚拟人眼部变化以及虚拟人皮肤肌理反应的展示数据。

进一步的，在实际场景中，当一方发起话题时，另一方为了表示赞同通常会采用与对方相似的表情。尤其的，比较亲密的两人在进行交互时，由于其喜好、观点以及习惯趋于一致，其展现的表情也是相似的。因此，在一实施例中，令虚拟人展现与交互对象同步的表情从而增加用户对虚拟人的亲密感。

具体的，在一实施例中，针对用户交互意图，生成对应的多模态交互回应数据，多模态交互回应数据包含表情回应数据，其中：

获取虚拟人与用户的熟悉度参量；

当熟悉度参量超过设定阈值时生成与用户表情意图同步的表情回应数据。

具体的，如图3所示，在一实施例中，在交互过程中获取虚拟人与用户的熟悉度参量(S310)，判断熟悉度参量是否超过预设阈值(S320)，如果超过，则在之后的交互过程中保持虚拟人与用户表情意图的同步(S321)，如果没超过，则之后的交互过程中不需要一定保持虚拟人与用户表情意图的同步(S322)。

进一步的，在一实施例中，利用虚拟人与用户的交互次数描述熟悉度参量。即，虚拟人与用户的交互次数越多，虚拟人就表现的与用户越亲密。

具体的，在一实施例中，在交互过程中识别当前用户身份，确认与当前用户的交互次数，然后将获取到的交互次数所对应的熟悉度参量值作为虚拟人与当前用户在当前交互进程中的熟悉度参量。

进一步的，基于本发明的方法，本发明还提出了一种存储介质，该存储介质上存储有可实现本发明所述方法的程序代码。

进一步的，基于本发明的方法，本发明还提出了一种基于虚拟人的交互系统。如图4所示，在一实施例中，系统包括：

输入获取模块410，其配置为采集用户多模态数据；

交互解析模块420，其配置为解析用户多模态数据，获取包含用户表情意图的用户交互意图，包括：

表情提取单元421，其配置为从用户多模态数据中提取用户表情数据；

表情解析单元422，其配置为对用户表情数据进行解析，生成对应的用户表情意图；

交互回应生成模块430，其配置为针对用户交互意图，生成对应的多模态交互回应数据，该多模态交互回应数据包含表情回应数据，表情回应数据可被虚拟人展示为对应的表情。

进一步的，基于本发明的交互方法以及交互系统，本发明还提出了一种虚拟人系统。具体的，如图5所示，在一实施例中，系统包括智能设备120以及云端服务器110，其中：

云端服务器110包含本发明所述的交互系统以及多个能力接口。交互系统配置为调用云端服务器110的能力接口获取用户多模态数据并解析，生成并输出多模态交互回应数据。具体的，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。

具体的，云端服务器110的能力接口包括语义理解接口111、视觉识别接口112、情感计算接口113、认知计算接口114。

具体的，在一实施例中，以下为各个接口的说明：

语义理解接口，其接收从智能设备的通信模块转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能和决策功能。其中：

图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

情感计算接口，其接收从通信模块转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口，其接收从通信模块转发的多模态数据，认知计算接口用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

智能设备120包括用户界面121、通信模块122、中央处理单元123以及人机交互输入输出模块124。

用户界面121配置为基于虚拟人执行参数在预设显示区域内显示被唤醒的虚拟人并令虚拟人展示与表情回应数据对应的表情。

具体的，在一实施例中，用户界面121包含需要屏显载体来支持以呈现显示区域。显示区域的硬件支撑包括：PC屏、投影仪、电视机、多媒体显示屏、全息投影设备、VR设备以及AR设备。本发明提出的多模态交互过程需要一定的硬件性能作为支撑，一般来说，选用有主机的PC端来作为硬件支持设备。

人机交互输入输出模块124配置为获取用户多模态数据以及输出虚拟人执行参数。具体的，在一实施例中，多模态数据包括来自周围环境的数据及与用户进行交互的多模态交互数据。

通信模块122配置为输出人机交互输入输出模块124获取到的用户多模态数据到云端服务器110，并接收来自云端服务器110的多模态交互回应数据。

中央处理单元123配置为利用通信模块122接收的多模态交互回应数据计算与该多模态交互回应数据相对应的虚拟人执行参数。

具体的，在一具体应用场景中，人机交互输入输出模块124配置为获取包括用户表情数据的用户多模态数据。

通信模块122配置为输出包括用户表情数据的用户多模态数据到云端服务器110。

云端服务器110中的交互系统配置为调用云端服务器110的能力接口(111、112、113、114)获取用户多模态数据并提取用户表情数据(例如，调用视觉识别接口112从通信模块122输出的用户多模态数据中提取用户表情数据)并解析，生成并输出包含表情回应数据的多模态交互回应数据。

通信模块122还配置为接收包含表情回应数据的多模态交互回应数据。

中央处理单元123配置为利用包含表情回应数据的多模态交互回应数据计算与多模态交互回应数据相对应的虚拟人执行参数。

用户界面121配置为基于虚拟人执行参数在预设显示区域内显示被唤醒的虚拟人并令虚拟人展示与虚拟人执行参数对应的表情。

上述为本申请实施例的一种示意性的技术方案。本申请中，智能设备与云端服务器连接使得虚拟人具备多模态人机交互的能力，即具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等Artificial Intelligence(AI)的能力。虚拟人可以以3D虚拟形象通过所述智能设备进行显示，具备特定形象特征，并且可以为虚拟人配置社会属性、人格属性和人物技能等。

具体来说，社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；人格属性可以包括：性格、气质等属性；人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种基于虚拟人的交互方法，其特征在于，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

从所述用户多模态数据中提取用户表情数据；

对所述用户表情数据进行解析，生成对应的用户表情意图；

针对所述用户交互意图，生成对应的多模态交互回应数据，所述多模态交互回应数据包含表情回应数据，其中，获取所述虚拟人与所述用户的熟悉度参量，判断熟悉度参量是否超过预设阈值，当所述熟悉度参量超过设定阈值时生成与所述用户表情意图同步的表情回应数据，如果没超过，则之后的交互过程中不需要一定保持虚拟人与用户表情意图的同步；

基于所述虚拟人输出所述多模态交互回应数据，其中，利用所述虚拟人展示所述表情回应数据对应的表情，其中：

根据所述表情回应数据确定所述虚拟人的基础情绪表现，其中，每一类基础情绪表现包含一个专属调用标识符，在需要调用时通过调用标识符进行区分；

根据所述虚拟人的基础情绪表现输出与所述基础情绪表现匹配的所述虚拟人眼部变化以及所述虚拟人皮肤肌理反应的展示数据，其中，任一基础情绪表现还具备与之对应的虚拟人眼部变化集以及皮肤肌理反应集，任一对应的虚拟人眼部变化集以及皮肤肌理反应集还具备与之对应的虚拟人泪腺作用组。

2.根据权利要求1所述的方法，其特征在于，所述用户表情数据包括用户面部表情数据和/或用户姿态数据。

3.根据权利要求2所述的方法，其特征在于，调用视觉能力提取所述用户面部表情数据。

4.根据权利要求1所述的方法，其特征在于，对所述用户表情数据进行解析，生成对应的用户表情意图，包括：

确认用户情绪和/或用户态度。

5.根据权利要求1所述的方法，其特征在于，利用所述虚拟人与所述用户的交互次数描述所述熟悉度参量。

6.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1-5中任一项所述方法的程序代码。

7.一种基于虚拟人的交互系统，其特征在于，所述系统包括：

输入获取模块，其配置为采集用户多模态数据；

交互回应生成模块，其配置为针对所述用户交互意图，生成对应的多模态交互回应数据，所述多模态交互回应数据包含表情回应数据，所述表情回应数据被所述虚拟人展示为对应的表情；

所述交互回应生成模块配置为：

获取所述虚拟人与所述用户的熟悉度参量，判断熟悉度参量是否超过预设阈值，当所述熟悉度参量超过设定阈值时生成与所述用户表情意图同步的表情回应数据，如果没超过，则之后的交互过程中不需要一定保持虚拟人与用户表情意图的同步；

8.一种虚拟人系统，其特征在于，所述系统包括智能设备以及云端服务器，其中：

所述云端服务器包含如权利要求7所述的交互系统以及多个能力接口，所述交互系统配置为调用所述能力接口获取所述用户多模态数据并解析，生成并输出所述多模态交互回应数据，其中，所述能力接口包括语义理解接口、视觉识别接口、情感计算接口、认知计算接口；

所述智能设备包括：