CN116009692A

CN116009692A - 虚拟人物交互策略确定方法以及装置

Info

Publication number: CN116009692A
Application number: CN202211648749.8A
Authority: CN
Inventors: 张昆才; 冷海涛; 朱鹏程; 马远凯; 石乾坤; 周伟; 罗智凌; 钱景
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-04-25

Abstract

本说明书实施例提供虚拟人物交互策略确定方法以及装置，其中所述虚拟人物交互策略确定方法包括：确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据；将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息；根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。考虑到了用户与虚拟人物进行交互时的状态，从而提升虚拟人物交互策略确定的实时性、针对性和准确性，进而提升虚拟人物与用户之间的交互过程的流畅性。

Description

虚拟人物交互策略确定方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及虚拟人物交互策略确定方法。

背景技术

随着虚拟人物技术的发展，智能数字人产品已经深入到人们生活的各个方面，比如，智能客服、虚拟主播等。通常，数字人能够与用户进行一问一答式的交互，以实现为用户提供服务。

然而，目前的数字人与用户之间的交互通常根据预先设置的指令动作和文本内容，只能实现单一机械的互动，造成数字人与用户之间的交互过程的流畅性较差，从而影响用户的交互体验。

发明内容

有鉴于此，本说明书实施例提供了一种虚拟人物交互策略确定方法。本说明书一个或者多个实施例同时涉及一种虚拟人物交互策略确定装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种虚拟人物交互策略确定方法，包括：

确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据；

将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息；

根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。

根据本说明书实施例的第二方面，提供了一种虚拟人物交互策略确定装置，包括：

生成模块，被配置为确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据；

获取模块，被配置为将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息；

确定模块，被配置为根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述虚拟人物交互策略确定方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述虚拟人物交互策略确定方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述虚拟人物交互策略确定方法的步骤。

本说明书一个实施例提供了一种虚拟人物交互策略确定方法确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据；将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息；根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。

上述方法通过多元感知模型对用户与虚拟人物交互时的行为视频数据进行分析，获取用户的用户状态信息，可以实现对用户的多种用户状态进行统一的多维度理解，根据该用户状态信息确定的虚拟人物交互策略考虑到了用户与虚拟人物进行交互时的状态，从而提升虚拟人物交互策略确定的实时性、针对性和准确性，进而提升虚拟人物与用户之间的交互过程的流畅性，从而提升用户的交互体验。

附图说明

图1是本说明书一个实施例提供的一种虚拟人物交互策略确定方法的应用场景示意图；

图2是本说明书一个实施例提供的一种虚拟人物交互策略确定方法的流程图；

图3是本说明书一个实施例提供的一种虚拟人物交互策略确定方法中的多元感知模型的结构示意图；

图4是本说明书一个实施例提供的应用虚拟人物交互策略确定方法的虚拟人物交互控制系统的系统架构图；

图5是本说明书一个实施例提供的一种虚拟人物交互策略确定方法的处理过程流程图；

图6是本说明书一个实施例提供的一种虚拟人物交互策略确定装置的结构示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

多模态交互：用户可通过文字、语音、表情等方式与数字人交流，数字人可以理解用户的文字、语音、表情等信息，并可以反过来通过文字、语音、表情等方式与用户进行交流。

双工交互：实时的、双向的交互方式，用户可以随时打断数字人，数字人也可以在必要的时候打断正在说话的自己。

承接：数字人在与用户的对话过程，可对用户进行即时反馈，如点头、微笑和轻声应和等。

打断：数字人在与用户的对话过程，任意一方可以随时中止另一方的对话，开起新一轮的交互。

VAD：Voice Act ivity Detect ion，语音活动检测，又称语音端点检测,语音边界检测，指的是用于识别话音数据比特是否出现的处理过程。其目的是检测当前语音信号中是否包含话音信号存在，即对输入信号进行判断，将话音信号与各种背景噪声信号区分出来，分别对两种信号采用不同的处理方法。

TTS：Text To Speech，语音合成技术，将文本转化为声音。

数字人：指的是具有数字化外形的虚拟人物，可以用于在虚拟现实应用中与用户交互。在与数字人的交流过程中，传统的交互方式为以语音或单一的视觉能力为载体的独占式问答方式。

独占式问答：用户不能主动打断数字人的对话，数字人也不能在与用户对话的过程中，进行即时的承接回复。

多元感知模型：用于预测用户的状态信息的模型，比如可以预测用户的表情、手势、头部动作等任意一种或多种用户状态。

ASR：Automat ic Speech Recogn it ion，自动语音识别，能够将语音转换为文本。

实际应用中，人和人之间的交互过程是可以随时互相打断的，但是在用户和虚拟人物的交互过程中，由于采用传统的独占式问答，导致用户无法打断正在播报的虚拟人物，从而使得交互过程不智能，用户和虚拟人物之间的沟通不流畅。并且，传统的虚拟人物仅通过语音识别或单一的视觉理解能力去感知用户的状态，无法处理语音模态和视觉模态表达信息不一致的情况，从而导致用户和虚拟人物之间的交互方式单一。因此，亟需一种有效的技术方案解决上述问题。

在本说明书中，提供了一种虚拟人物交互策略确定方法，本说明书同时涉及一种虚拟人物交互策略确定装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种虚拟人物交互策略确定方法的应用场景示意图。

图1包含计算机终端102和服务端104，其中，计算机终端102部署有虚拟人物，用户可以通过计算机终端102与虚拟人物进行交互，计算机终端102和服务端104通信连接，服务端104用于执行该虚拟人物交互策略确定方法。

具体实施时，用户通过计算机终端102与虚拟人物进行交互，计算机终端102将采集的用户的当前交互行为发送至服务端104，服务端104基于该当前交互行为生成行为视频数据，并通过部署于服务端104的多元感知模型对行为视频数据进行分析，获得多元感知模型输出的用户状态信息，并根据用户状态信息确定虚拟人物交互策略，将虚拟人物交互策略发送至计算机终端102，计算机终端102中的虚拟人物基于该虚拟人物交互策略与用户进行交互。

如图1所示，用户向计算机终端102中部署的虚拟人物询问“查一下我的投保订单”，计算机终端102将用户的询问行为发送至服务端104，服务端104基于该询问行为生成用户询问时的视频数据，并将视频数据输入多元感知模型，获得输出结果“表情：自然/手势：招手/头部姿态：仰首”，根据该输出结果确定虚拟人物交互策略为文本承接策略“输出文本：您稍等，我马上为您查询”，并将该文本承接策略发送至计算机终端102，计算机终端102中的虚拟人物基于该文本承接策略，通过语音向用户回复“您稍等，我马上为您查询”。实现对用户的状态进行多元感知，从多维度确定虚拟人物交互策略，实现交互过程的流畅性和智能性。

参见图2，图2示出了根据本说明书一个实施例提供的一种虚拟人物交互策略确定方法的流程图，具体包括以下步骤。

步骤202：确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据。

具体的，该虚拟人物交互策略确定方法可以用于服务端，比如可以用于虚拟人物交互控制系统。虚拟人物可以应用于客服场景，用户可以向客服场景中的虚拟人物提出问题，虚拟人物会对用户提出的问题进行回复。虚拟人物也可以应用于虚拟主播场景、虚拟陪伴场景和游戏虚拟人场景等，比如虚拟陪伴场景下，虚拟人物能够与用户聊天，以实现为用户提供陪伴服务。

为了便于理解，本说明书实施例中均以该虚拟人物交互策略确定方法应用于客服场景为例进行详细介绍，但是不影响该虚拟人物交互策略确定方法应用于其他可实施场景的实现。

其中，目标用户可以理解为正在与虚拟人物进行交互的用户，目标用户针对虚拟人物的当前交互行为可以理解为，目标用户与虚拟人物的交互行为，比如用户向虚拟人物询问“请问可以查询转账记录吗”的询问行为。那么行为视频数据可以理解为用户和虚拟人物进行当前交互行为时的视频数据，该行为视频数据可以表现出用户在进行当前交互行为时的表情、口型、动作、用户所处环境等。

基于此，可以确定目标用户与虚拟人物的当前交互行为，并生成用户和虚拟人物进行当前交互行为时的视频数据。

实际应用中，可以在用户和虚拟人物产生交互行为时对用户进行录制，以获得用户针对虚拟人物的当前交互行为的行为视频数据。具体而言，在虚拟人物部署于终端的情况下，可以利用终端设置的摄像装置进行录制，终端比如可以是计算机终端、移动终端等。

具体实施时，为了使虚拟人物能够即时对用户的当前交互行为进行承接反馈，可以按照预设时间间隔采集当前交互行为，具体实现方式如下：

按照预设时间间隔，采集目标用户针对虚拟人物的当前交互行为，生成行为视频数据。

其中，预设时间间隔可以理解为预先设置的时间间隔，比如预设时间间隔可以是1秒。

基于此，可以按照预先设置的时间间隔，采集目标用户针对虚拟人物的当前交互行为，在每个时间间隔生成对应的行为视频数据。

举例而言，在用户开始与虚拟人物进行交互时的第1秒，录制用户的当前交互行为，生成第1秒的行为视频数据。每隔1秒，即在第2秒时录制用户的当前交互行为，生成第2秒的行为视频数据。以此类推，直至用户和虚拟人物的交互过程结束。

综上，通过实时采集用户针对虚拟人物的当前交互行为，能够准确确定用户在当前交互过程中的状态，进而使虚拟人物能够对用户的当前交互行为做出即时的反应，减少交互过程中所产生的延时。

步骤204：将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息。

具体的，在获取目标用户针对虚拟人物的当前交互行为的行为视频数据之后，可以将该行为视频数据输入多元感知模型，通过多元感知模型分析该行为视频数据，从而得到目标用户的用户状态信息。

其中，多元感知模型可以理解为用于根据用户的行为视频数据分析用户的用户状态信息的模型，用户状态信息可以理解为用于表示用户状态的信息，比如用户表情、手势、头部姿态、性别等信息。该多元感知模型根据任意一种或更多种用户状态信息训练获得，那么利用该多元感知模型预测的用户状态信息也可以是任意一种或更多种用户状态信息，从而实现对用户状态的多元感知。

基于此，可以通过将目标用户的行为视频数据输入多元感知模型，通过多元感知模型对该行为视频数据进行识别，获得目标用户的用户状态信息。

具体实施时，还可以设置与用户状态相关的提示信息，通过提示信息辅助多元感知模型关注用户的状态，具体实现方式如下：

将所述行为视频数据和预设的提示信息输入多元感知模型，其中，所述提示信息与所述目标用户的用户状态相关；

获取所述多元感知模型输出的、所述提示信息对应的用户状态信息。

其中，提示信息可以理解为用于辅助多元感知模型、使多元感知模型能够关注用户状态的提示信息，比如提示信息可以是“表情是？”、“手势是？”等。提示信息对应的用户状态信息可以理解为提示信息辅助多元感知模型关注的用户状态的信息，比如提示信息为“表情是？”的情况下，多元感知模型输出的用户状态信息即为用户的表情，提示信息为“手势是？”的情况下，多元感知模型输出的用户状态信息即为用户的手势。可以理解的，提示信息为“手势是？/表情是？”的情况下，多元感知模型输出的用户状态信息为用户的手势和表情。

具体的，提示信息中包含的感知内容和该感知内容对应的部分用户状态信息如下表1所示。其中，感知内容可以理解为该多元感知模型能够感知的用户状态，用户状态信息可以理解为用户状态的值。比如，感知内容可以为表情，那么用户状态信息可以为生气。可以理解的，提示信息中包含的感知内容越多，该提示信息辅助的多元感知模型输出的用户状态信息越全面，因此，可以根据实际需要增加或减少提示信息中包含的感知内容，以获得全面的用户状态信息。

感知内容	部分用户状态信息
		表情	生气，开心，伤心，惊喜，恐惧，自然等
手势	停止，“嘘”，OK，竖大拇指等
		头部姿态	向左转，向右转，仰首，俯首，自然等
性别	男性，女性
		其他	……

表1

基于此，可以将目标用户的行为视频数据和与用户状态相关的提示信息输入多元感知模型，获取多元感知模型输出的、该提示信息对应的用户状态信息。

以提示信息为“手势是？/表情是？/头部姿态是？”为例，将该提示信息和目标用户的行为视频数据输入多元感知模型，获得多元感知模型输出的用户状态信息“手势：停止/表情：生气/头部姿态：向右转”。

综上，通过设置提示信息辅助多元感知模型关注不同的人体区域，获得与提示信息相关的用户状态信息，能够多维度感知用户的状态信息，进一步提升后续虚拟人物交互策略的准确性。

实际应用中，还可以对获取的行为视频数据进行拆分，得到至少一个视频帧序列，具体实现方式如下：

按照预设时间间隔拆分所述行为视频数据，获得至少一个视频帧序列；

将第一视频帧序列和预设的提示信息输入多元感知模型，其中，所述第一视频帧序列为所述至少一个视频帧序列之一。

其中，视频帧序列可以理解为拆分行为视频数据得到的视频帧的集合。第一视频帧序列可以理解为至少一个视频帧序列中的每个视频帧序列，那么，将第一视频帧序列和预设的提示信息输入多元感知模型，可以理解为将至少一个视频帧序列中的每个视频帧序列和预设的提示信息输入多元感知模型。

基于此，可以采集用户和虚拟人物进行当前交互行为时的行为视频数据，并对按照预先设置的时间间隔，对行为视频数据进行拆分，得到至少一个视频帧序列，将每个视频帧序列和预设的提示信息输入多元感知模型，获得每个视频帧序列对应的用户状态信息。

综上，通过将行为视频数据拆分成视频帧序列，并且通过多元感知模型中的时序关联模块对不同时刻感知内容的时序关系进行建模，实现使得多元感知模型的输出结果更加稳定。

实际应用中，多元感知模型可以在视频-语言预训练模型的基础上构建，该多元感知模型可以设置2个模块，可参见图3，图3示出了本说明书一个实施例提供的一种虚拟人物交互策略确定方法中的多元感知模型的结构示意图，该多元感知模型包括预测模块和时序关联模块。具体的，在视频-语言预训练模型的基础上，通过提示信息使该多元感知模型关注不同的人体区域，通过预测模块输出与提示信息相关的用户状态信息，以实现多元感知。同时，通过时序关联模块对不同时刻感知内容的时序关系进行建模，从而实现解决相邻时刻的感知内容出现跳变的现象，使输出的感知内容更加稳定。具体的，如图3所示，可以按照预设的时间间隔t，将视频数据划分为多个视频帧，将每个视频帧输入至多元感知模型之后，首先经过多元感知模型中的视频-语言预训练模型，将该视频-语言预训练模型的输出的第一中间向量输入至时序关联模块，将时序关联模块输出的第二中间向量输入至预测模块，并根据预测模块输出最终的用户状态结果。

综上，通过一套统一的多元化感知模型，可以对用户的表情、手势、头部姿态等多元化内容进行统一的理解，在工程部署方面，解决了部署空间及带宽资源消耗的问题；在交互效果方面，通过多元化的感知内容为虚拟人物的交互提供更加丰富的决策依据，同时能够解决视觉模态和语音模态表达信息不一致的问题，提升虚拟人物的智能水平和人机交互体验，使虚拟人物更加类人化，从而使得用户的体验更加流畅。并且，通过单个多元感知模型实现多种用户状态的感知，这种单模型多任务的视觉感知框架，避免了传统方案多模型部署的端上资源不足以及云上带宽过高的问题。

具体的，多元感知模型的训练过程如下：

获取用户的交互行为对应的视频数据，以及关联用户状态的提示信息，并根据所述交互行为和所述提示信息，确定所述交互行为对应的至少两种用户状态信息；

将所述提示信息和所述视频数据作为训练样本、所述至少两种用户状态信息作为训练标签，利用所述训练样本和所述训练标签对所述多元感知模型进行训练，直至获得满足训练停止条件的所述多元感知模型。

其中，用户的交互行为对应的视频数据可以理解为用户在与虚拟人物交互时的视频数据，比如可以是用户向虚拟人物提问时的视频数据、用户对虚拟人物给出的回复做出响应的视频数据等。关联用户状态的提示信息可以是根据实际需要预先设置的，比如实际需要关注用户的表情和手势，那么该关联用户状态的提示信息即为提示虚拟人物关注用户的表情和手势的提示信息，此时交互行为对应的用户状态信息即可以理解为该视频数据中用户在提问时的表情和手势。训练停止条件可以理解为模型训练次数达到次数阈值或者模型损失值达到预设阈值。

基于此，可以收集用户与虚拟人物之间的交互行为的视频数据，和根据实际需求确定的关联用户状态的提示信息，并根据该交互行为和提示信息，确定用户在与虚拟人物交互时的至少两种用户状态信息。以视频数据和提示信息作为训练样本、至少两种用户状态信息作为训练标签，利用训练样本和训练标签对多元感知模型进行训练，直至获得满足训练停止条件的多元感知模型。

综上，通过利用提示信息、视频数据和用户状态信息对多元感知模型进行训练，能够实现后续多元感知模型能够根据输入的提示信息和视频数据获得需要的用户状态，从而实现对用户状态的多元感知。

步骤206：根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。

具体的，在获得用户状态信息之后，即可根据该用户状态信息，确定虚拟人物的虚拟人物交互策略。

其中，虚拟人物交互策略可以理解为虚拟人物与用户之间所承接的文案决策、动作决策或者是文案决策及动作决策的结合，即文本交互策略和/或动作交互策略。文本交互策略可以理解为虚拟人物针对用户的行为音频数据对应的交互文本，以及该交互文本需要在用户所表达的语音文本中的句中打断、还是句尾承接。动作交互策略可以理解为虚拟人物针对用户的用户状态信息所对应的交互姿态，以及该交互姿态需要在用户所表达的语音文本中的句中打断、还是句尾承接。

另外，虚拟人物不仅能够对用户的交互进行承接或打断，还可支持不作任何反馈的功能，即当用户VAD时间未达到800ms时，不需要调用基础对话系统或业务逻辑进行回答时，虚拟人物不作任何反馈。

基于此，可以根据用户状态信息，确定用户的意图，并根据用户的意图，确定虚拟人物交互策略。其中，用户的意图可以理解为用户状态信息所表达的意图，比如上例中用户状态信息“手势：停止/表情：生气/头部姿态：向右转”的意图，为打断虚拟人物回复。

实际应用中，还可以根据用户针对虚拟人物的当前交互行为中包括的音频数据，确定虚拟人物交互策略，具体实现方式如下：

根据目标用户针对虚拟人物的当前交互行为，生成行为音频数据；

对所述行为音频数据进行文本转换，获得行为文本信息；

相应地，所述根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略，包括：

根据所述行为文本信息和所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。

其中，行为音频数据可以理解为目标用户进行当前交互行为时，与虚拟人物交流的音频数据，比如目标用户在与虚拟人物进行询问行为“请问可以查询转账记录吗”时，目标用户向虚拟人物表达的“请问可以查询转账记录吗”这句音频数据。

需要说明的是，虚拟人物与用户的交互为了实现仿真人交互，则需要虚拟人物针对用户的行为音频数据和行为视频数据做出即时的反应，减少交互过程中所产生的延时。同时，还需支持双方的交互、打断、承接等功能。

对行为音频数据进行文本转换的方式包括但不限于采用ASR技术，本实施例对具体文本转换方式不做限定。基于此，为了保证该虚拟人物能够在用户说话的过程中，也能够进行即时的反馈，可以按照预设的VAD时间对行为音频数据进行切分，获得至少一个音频单元，再将每个音频单元输入至ASR模块，将每个音频单元转换为文本，并对每个音频单元对应的文本进行拼接，以获得该行为音频数据对应的行为文本信息。

基于此，在确定行为文本信息和用户状态信息之后，可以根据行为文本信息和用户状态信息，确定虚拟人物交互策略，包括：

对所述行为文本信息和所述用户状态信息进行融合对齐处理，确定所述目标用户的目标意图信息；

根据所述目标意图信息，确定所述虚拟人物的虚拟人物交互策略。

其中，目标意图信息可以理解为目标用户的意图。

基于此，可以对行为文本信息和用户状态信息进行融合对齐处理，综合判断目标用户的意图，进而，后续可根据目标意图信息确定虚拟人物交互策略。

举例而言，多元感知模块已经通过分析目标用户的行为视频数据确定了目标用户的用户状态信息包括微笑的表情，但是用户有可能是在表达一种无奈的苦笑，此时识别结果与用户真实表达的情绪是不同的，因此，可以从用户的语音和当前说的文本话术进行多模态的判断，从而达到更好的效果。

综上，通过对行为文本信息和用户状态信息进行融合对齐处理，确定用户的意图，能够实现根据视频和音频进行综合判断，从而精准的确定用户的交互目的，避免由于用户交互目的错误而导致后续虚拟人物展示出无效的沟通，降低虚拟人物的智能度。

基于此，可以设置虚拟人物交互控制系统执行上述虚拟人物交互策略确定方法，具体的，该虚拟人物交互控制系统可设计4个交互模块，可参见图4，图4示出了本说明书实施例提供的应用虚拟人物交互策略确定方法的虚拟人物交互控制系统的系统架构图。

图4中包括多模态多元感知模块、多模态双工决策管理模块、基础对话模块和多模态驱动渲染模块，也可将上述4个模块看作子系统，即多模态多元感知系统、多模态双工决策管理系统、基础对话系统和多模态驱动渲染系统。其中，在多模态多元感知系统的输入端，将输入的语音流通过ASR模块进行切分和理解，通过多元感知模型对视频流中的用户状态进行感知，包括用户的表情、手势动作和头部姿态等人体相关的视觉感知内容。在多模态多元感知系统的输出端，将分析结果输出至多模态双工决策管理系统，该多模态双工决策管理系统负责管理当前对话的状态，并决策当前的双工策略。当前的双工策略包含双工主动\被动打断、双工主动承接、调用基础对话系统或业务逻辑和无反馈。基础对话系统包含基本的业务逻辑和对话问答能力，具备基本的问答交互能力；也即输入用户的问题，系统输出该问题的答案，一般来说包含三个子模块。1)NLU(自然语言理解)模块：对文本信息进行识别理解，转换成计算机可理解的结构化语义表示或者意图标签。2)DM(对话管理)模块：维护和更新当前的对话状态，并决策下一步系统动作。3)NLG(自然语言生成)模块：将系统输出的状态转换成可理解的自然语言文本。

实际应用中，在获得行为文本信息之后，可以先调用预先存储的基础对话数据，以支持能够实现基础交互过程，具体实现方式如下：

根据所述行为文本信息和所述用户状态信息，调用预先存储的基础对话数据；

根据所述基础对话数据渲染所述虚拟人物的输出视频流，并驱动所述虚拟人物对所述输出视频流进行展示。

其中，基础对话数据可以理解为预先存储的可驱动虚拟人物实现基础交互的语音和/或动作数据。比如，该对话数据包括存储在数据库中的基础交流语音数据，包括但不限定于“您好”、“谢谢”、“再见”等。基础交流的动作数据，包括但不限定于“比爱心”动作、“摇头”动作、“点头”动作等。

实际应用中，还可根据行为文本信息和用户状态信息，从预先存储的基础对话数据中，查找与文本行为信息和用户状态信息较为匹配的基础对话数据，并进行调用。由于基础对话数据包括基础语音数据和/或基础动作数据，即可根据基础语音数据和/或基础动作数据渲染虚拟人物对应的输出视频流，以驱动虚拟人物对输出视频流进行展示。

需要说明的是，基础对话数据中还可包括预先设置的虚拟人物所完成的基础业务数据，比如为用户提供基础的业务服务等，本实施例中对此不作具体限定。

综上，通过调用预先存储的基础对话数据，能够使虚拟人物和用户完成基础交互过程，以提升用户交互体验。

所述虚拟人物交互策略包括动作交互策略，所述确定所述虚拟人物的虚拟人物交互策略之后，还包括：

根据所述虚拟人物交互策略，利用三维渲染模型生成包含所述动作交互策略的所述虚拟人物的形象，以驱动所述虚拟人物与所述目标用户进行交互。

实际应用中，虚拟人物交互控制系统可根据确定的虚拟人物交互策略，并利用三维渲染模型生成包含上述虚拟人物的动作交互策略的虚拟人物的形象。比如该虚拟人物对应的头部动作、面部表情以及手势动作等，进而，驱动渲染后的虚拟人物形象与用户实现多模态交互。

进一步地，所述虚拟人物交互策略还包括文本交互策略，所述根据所述虚拟人物交互策略，利用三维渲染模型生成包含所述动作交互策略的所述虚拟人物的形象，以驱动所述虚拟人物与所述目标用户进行交互，包括：

根据所述文本交互策略，确定所述虚拟人物与所述目标用户进行文本交互的音频数据流；

根据所述动作交互策略，确定所述虚拟人物与所述目标用户进行动作交互的视频数据流；

根据所述音频数据流和所述视频数据流，利用三维渲染模型生成包含所述动作交互策略的所述虚拟人物的形象，以驱动所述虚拟人物与所述目标用户进行交互。

实际应用中，虚拟人物交互控制系统的输出渲染合成视频流推送出去，一共包含3个部分。1)流式TTS部分，将系统的文本输出合成音频流。2)驱动部分，包含两个子模块，面部驱动模块和动作驱动模块。面部驱动模块根据语音流，驱动数字人输出准确的口型。动作驱动模块根据系统输出的动作标签，驱动数字人输出准确的动作。3)渲染合成部分，负责将驱动部分、TTS等模块的输出渲染合成数字人的视频流。

综上所述，上述方法通过多元感知模型对用户与虚拟人物交互时的行为视频数据进行分析，获取用户的用户状态信息，可以实现对用户的多种用户状态进行统一的多维度理解，根据该用户状态信息确定的虚拟人物交互策略考虑到了用户与虚拟人物进行交互时的状态，从而提升虚拟人物交互策略确定的实时性、针对性和准确性，进而提升虚拟人物与用户之间的交互过程的流畅性，从而提升用户的交互体验。

下述结合附图5，以本说明书提供的虚拟人物交互策略确定方法在客服场景的应用为例，对所述虚拟人物交互策略确定方法进行进一步说明。其中，图5示出了本说明书一个实施例提供的一种虚拟人物交互策略确定方法的处理过程流程图，具体包括以下步骤。

步骤502：确定目标用户针对虚拟人物的当前交互行为。

步骤504：确定当前交互行为的行为视频数据和行为音频数据。

步骤506：按照预设时间间隔拆分所述行为视频数据，获得至少一个视频帧序列。

步骤508：将每个视频帧序列和预设的提示信息输入多元感知模型，获得用户状态信息。

步骤510：利用ASR方法对行为音频数据进行文本转换，获得行为文本信息。

步骤512：根据用户状态信息和行为文本信息，确定虚拟人物交互策略。

步骤514：根据虚拟人物交互策略，利用三维渲染模型生成虚拟人物的形象，以驱动虚拟人物与目标用户交互。

与上述方法实施例相对应，本说明书还提供了虚拟人物交互策略确定装置实施例，图6示出了本说明书一个实施例提供的一种虚拟人物交互策略确定装置的结构示意图。如图6所示，该装置包括：

生成模块602，被配置为确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据；

获取模块604，被配置为将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息；

确定模块606，被配置为根据所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略。

一个可选的实施例中，所述获取模块604，进一步被配置为：

一个可选的实施例中，所述生成模块602，进一步被配置为：

一个可选的实施例中，所述获取模块604，进一步被配置为：

对所述行为音频数据进行文本转换，获得行为文本信息。

一个可选的实施例中，所述确定模块606，进一步被配置为：

一个可选的实施例中，所述装置还包括渲染模块，被配置为：

一个可选的实施例中，所述渲染模块，进一步被配置为：

一个可选的实施例中，所述装置还包括训练模块，被配置为：

综上所述，上述装置通过多元感知模型对用户与虚拟人物交互时的行为视频数据进行分析，获取用户的用户状态信息，可以实现对用户的多种用户状态进行统一的多维度理解，根据该用户状态信息确定的虚拟人物交互策略考虑到了用户与虚拟人物进行交互时的状态，从而提升虚拟人物交互策略确定的实时性、针对性和准确性，进而提升虚拟人物与用户之间的交互过程的流畅性，从而提升用户的交互体验。

上述为本实施例的一种虚拟人物交互策略确定装置的示意性方案。需要说明的是，该虚拟人物交互策略确定装置的技术方案与上述的虚拟人物交互策略确定方法的技术方案属于同一构思，虚拟人物交互策略确定装置的技术方案未详细描述的细节内容，均可以参见上述虚拟人物交互策略确定方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN，Pub l ic Switched Telephone Network)、局域网(LAN，Loca l Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Persona l Area Network)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface contro l ler))中的一个或多个，诸如I EEE802.11无线局域网(WLAN，Wi reless Loca l Area Network)无线接口、全球微波互联接入(Wi-MAX，Wor ldwide Interoperabi l ity for Microwave Access)接口、以太网接口、通用串行总线(USB，Universa l Ser ia l Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near Fie ldCommun icat ion)接口，等等。

在本申请的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Persona l Computer)的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述虚拟人物交互策略确定方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的虚拟人物交互策略确定方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述虚拟人物交互策略确定方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述虚拟人物交互策略确定方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的虚拟人物交互策略确定方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述虚拟人物交互策略确定方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述虚拟人物交互策略确定方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的虚拟人物交互策略确定方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述虚拟人物交互策略确定方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种虚拟人物交互策略确定方法，包括：

2.根据权利要求1所述的方法，所述将所述行为视频数据输入多元感知模型，获取所述目标用户的用户状态信息，包括：

3.根据权利要求2所述的方法，所述将所述行为视频数据和预设的提示信息输入多元感知模型，包括：

4.根据权利要求1所述的方法，所述确定目标用户针对虚拟人物的当前交互行为，生成行为视频数据，包括：

5.根据权利要求1所述的方法，所述多元感知模型训练步骤包括：

6.根据权利要求1所述的方法，所述获取所述目标用户的用户状态信息之后，还包括：

对所述行为音频数据进行文本转换，获得行为文本信息；

7.根据权利要求6所述的方法，所述根据所述行为文本信息和所述用户状态信息，确定所述虚拟人物的虚拟人物交互策略，包括：

8.根据权利要求6所述的方法，所述获得行为文本信息之后，还包括：

9.根据权利要求1或6所述的方法，所述虚拟人物交互策略包括动作交互策略，所述确定所述虚拟人物的虚拟人物交互策略之后，还包括：

10.根据权利要求9所述的方法，所述虚拟人物交互策略还包括文本交互策略，所述根据所述虚拟人物交互策略，利用三维渲染模型生成包含所述动作交互策略的所述虚拟人物的形象，以驱动所述虚拟人物与所述目标用户进行交互，包括：

11.一种虚拟人物交互策略确定装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述虚拟人物交互策略确定方法的步骤。

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述虚拟人物交互策略确定方法的步骤。