CN114357135A

CN114357135A - 交互方法、交互装置、电子设备以及存储介质

Info

Publication number: CN114357135A
Application number: CN202111672307.2A
Authority: CN
Inventors: 胡诗卉; 何山; 胡金水; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15

Abstract

本申请公开了交互方法、交互装置、电子设备以及存储介质，其中，该交互方法包括：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本；利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。通过上述方案，本申请交互方法对应的虚拟形象能够进行类人的情感表达，从而能够使用户对应获得更自然，更具趣味性的交互体验。

Description

交互方法、交互装置、电子设备以及存储介质

技术领域

本申请涉及互联网的技术领域，特别是涉及交互方法、交互装置、电子设备以及存储介质。

背景技术

目前的虚拟形象技术大致可分为两大类：基于拍摄真人视频数据的二维虚拟形象，基于建模软件设计的三维虚拟形象。二维虚拟形象的生成方法是基于真人视频数据，使用深度神经网络来进行人脸视频生成任务。而三维虚拟形象的生成方法是事先基于建模软件创建出一个可驱动的三维虚拟形象模型，再使用深度神经网络方法对该模型进行面部表情和肢体动作的控制。

然而，不管是二维或三维虚拟形象，目前的虚拟形象交互系统仅仅只能进行简单的面部表情和肢体动作驱动，且大多只关注如何实现虚拟形象构建和驱动等基本功能，并没有考虑情感等高表现力的因素，以致虚拟形象并不具有类人的情感表达，不能做到非常自然的交互体验。

发明内容

本申请提供了交互方法、交互装置、电子设备以及存储介质，以解决现有技术中的虚拟形象并不具有类人的情感表达，不能做到非常自然的交互体验的问题。

为了解决上述问题，本申请提供了一种交互方法，其中，该交互方法包括：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本；利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。

其中，利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据的步骤，还包括：利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应的步骤，还包括：将带有情感的语音加载到虚拟形象中，通虚拟形象对带有情感的语音进行播放。

其中，利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音的步骤，还包括：利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音以及面部表情动画；将带有情感的语音加载到虚拟形象中，通虚拟形象对带有情感的语音进行播放的步骤，还包括：将带有情感的语音以及面部表情动画加载到虚拟形象中，通过虚拟形象对带有情感的语音进行播放以及对面部表情动画进行展示。

其中，利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音以及面部表情动画的步骤，还包括：将对话文本以及情感类型标签输入到文本合成语音以及面部动画模型中，利用文本合成语音以及面部动画模型基于情感类型标签生成情感状态编码；利用情感状态编码确定带有情感的语音以及面部表情动画。

其中，交互方法还包括：将情感类型标签、第一对话文本样本及其对应的情感回应样本输入到第一预设网络模型；第一预设网络模型基于第一对话文本样本以及情感类型标签合成与情感类型标签对应的语音预测数据以及面部表情动画预测数据，并通过语音预测数据以及面部表情动画预测数据与情感回应样本进行比对，得到相应的第一匹配程度结果；根据第一匹配程度结果和情感回应样本对第一预设网络模型进行训练，并将训练完成后的模型确定为文本合成语音以及面部动画模型。

其中，利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音的步骤，还包括：利用对话文本以及带有情感的语音合成与所情感类型标签对应的肢体动作；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应的步骤，还包括：将肢体动作加载到虚拟形象中，通虚拟形象对肢体动作进行展示。

其中，利用对话文本以及带有情感的语音合成与所情感类型标签对应的肢体动作的步骤，还包括：获取到对话文本中的命名实体；利用命名实体确定对应的初始肢体动作；获取带有情感的语音的重音或/和节奏信息；利用初始肢体动作以及重音或/和节奏信息合成与所情感类型标签对应的肢体动作。

其中，利用对话文本以及带有情感的语音合成与所情感类型标签对应的肢体动作的步骤，还包括：将对话文本以及带有情感的语音输入到动作合成模型中，利用动作合成模型合成与所情感类型标签对应的肢体动作。

其中，交互方法还包括：将情感类型标签、第二对话文本样本和带有情感的语音样本及对应的肢体动作样本输入到第二预设网络模型；第二预设网络模型基于第二对话文本样本以及带有情感的语音样本合成与情感类型标签对应的肢体动作预测数据，并通过肢体动作预测数据与肢体动作样本进行比对，得到相应的第二匹配程度结果；根据第二匹配程度结果和肢体动作样本对第二预设网络模型进行训练，并将训练完成后的模型确定为动作合成模型。

本申请还提供了一种交互装置，其中，该交互装置包括：获取模块，用于获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；处理模块，用于基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本，以利用对话文本以及情感类型标签得到与情感类型匹配的情感回应数据；展示模块，用于将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。

本申请还提供了一种电子设备，其中，该电子设备包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一项的交互方法。

本申请还提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任一项的交互方法。

本发明的有益效果是：区别于现有技术的情况，本申请中的交互方法通过用户的问询文本以及面部表情确定用户当前的情感类型标签，以能够基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本，从而能够利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据，并将情感回应数据加载到虚拟形象中，以通过加载有情感回应数据的虚拟形象对用户做出带有情感的交互响应，也便使得对用户进行交互响应的虚拟形象能够有效地进行类人的情感表达，进而使用户能够获得更自然，且更具趣味性的交互体验。

附图说明

图1是本申请交互方法第一实施例的流程示意图；

图2是本申请交互方法第二实施例的流程示意图；

图3是本申请交互方法第三实施例的流程示意图；

图4是图3中S33一实施例的流程示意图；

图5是图4中涉及的文本合成语音以及面部动画模型一实施例的框架示意图；

图6是图4中涉及的文本合成语音以及面部动画模型的训练方法一实施例的流程示意图；

图7是本申请交互方法第四实施例的流程示意图；

图8是图7中S53一实施例的流程示意图；

图9是图8中涉及的动作合成模型一实施例的框架示意图；

图10是图8中涉及的动作合成模型的训练方法一实施例的流程示意图；

图11是本申请交互装置一实施例的框架示意图；

图12是本申请电子设备一实施例的框架示意图；

图13为本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

发明人经长期研究发现，随着近年来AR(Augmented Reality，增强现实)/VR(Virtual Reality，虚拟现实)概念的火爆，虚拟形象技术也逐渐地进入人们地视野中。其中，虚拟形象技术是在计算机中使用具体的数字形象进行新闻播报、节目互动以及人机对话等任务，在VR/AR、元宇宙等场景中作为用户或机器的人形化身，为用户提供更自然的交互体验。

目前的虚拟形象技术大致可分为两大类：基于拍摄真人视频数据的二维虚拟形象，基于建模软件设计的三维虚拟形象。二维虚拟形象的生成方法是基于真人视频数据，使用深度神经网络来进行人脸视频生成任务。它的优势在于生成的虚拟形象视频非常逼真，甚至与真人无异，劣势在形象单一，灵活度不高，不能做自由的动作控制和视角切换。而三维虚拟形象的生成方法是事先基于建模软件创建出一个可驱动的三维虚拟形象模型，再使用深度神经网络方法对该模型进行面部表情和肢体动作的控制。三维虚拟形象模型能够做到自由的动作控制和视角切换，但受制于建模软件的渲染效果问题，它的视觉真实度相对没有那么高。

但不管是二维或三维虚拟形象，目前的虚拟形象交互系统仅仅只能进行简单的面部表情和肢体动作驱动，虚拟形象并不具有类人的情感表达，不能做到非常自然的交互体验。

进一步地，现有的三维虚拟形象驱动方法，一类是由动画演员实时演绎面部表情和动作，然后使用面捕动捕设备将表情和动作数据同步到三维虚拟形象上。这类方法的缺陷在于，三维虚拟形象的驱动需要演员实时演绎，无法做到自动化。另一类是使用对话文本直接进行驱动，一般是由文本预测三维虚拟形象的面部表情，情绪和肢体动作表达则是用表情库、动作库等预置资源库来实现。这类方法通常表达能力受限，在人机交互等开放场景中很难做到自然的驱动效果。

为了使虚拟形象能够进行类人的情感表达，进而使用户获得更自然的交互体，本申请提供了一种交互方法、交互装置、电子设备以及存储介质。下面结合附图和实施例，对本申请作进一步的详细描述。特别指出的是，以下实施例仅用于说明本申请，但不对本申请的范围进行限定。同样的，以下实施例仅为本申请的部分实施例而非全部实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，图1是本申请交互方法第一实施例的流程示意图。具体而言，本实施例中的交互方法可以包括如下步骤：

S11：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签。

可理解的是，本申请中的交互方法具体涉及的是通过向用户展示一虚拟形象，以基于该虚拟形象采用如语音、图像展示以及三维投影形象展示等任意合理形式中的一种或多种与用户进行如对话、情感交流、行为动作交流等任意合理的交互。

其中，该虚拟形象具体可以是对真人进行虚拟形象建模得到的真人虚拟形象，也可以是动漫人物虚拟形象，或物品、动植物的拟人化虚拟形象等任一合理的样式，且具体可以二维或三维虚拟形象，本申请对此不做限定。而在其他实施例中，该虚拟形象也可以是具象化的人工智能实体形象，本申请对此不做限定。

由此可知，为更好的与用户进行交互，具体展示该虚拟形象的智能终端设备还需首先获取用户的问询文本以及面部表情，比如，该智能终端设备采用语音和图像获取装置，如摄像头等装置对用户的问询语音及脸部的图像进行获取，进而转换为相应的问询文本以及面部表情数据，以能够基于预先定义好的情感类型标签，确定获取到的用户当前的问询文本以及面部表情具体与哪一个情感类型标签相对应。

可选地，该智能终端设备具体可以是手机、平板电脑、个人计算机、三维图像投影仪、仿真机器人等任一合理的能够进行程序处理的电子终端设备，本申请对此不做限定。

可理解的是，不同的语句及面部表情通常会代指用户不同的情感，比如，“今天很高兴呢”及“微笑的表情”通常代指用户正处于开心的状态，而“今天有一点儿难过”及“哭泣、皱眉的表情”通常代指用户正处于悲伤的状态等等。基于此，我们可以通过对用户的问询文本以及面部表情进行分词、特征提取等任意合理的数据处理，以对其进行情感状态分类，并基于常用情感标签的定义，比如，中立、开心、悲伤、生气、可爱等，在获取到用户的问询文本以及面部表情后，即可根据预先定义的特征分类给用户打上一个情感类型标签，以待后续使虚拟形象能够选择恰当的情感状态与用户进行交互。

进一步地，该问询文本具体可以是一段语音，或标注有语调特征的语句等任意合理形态的文本样式，本申请对此不做限定。

S12：基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本。

进一步地，用于展示虚拟形象的智能终端设备在获取到用户的问询文本与情感类型标签即可对应生成该问询文本的回复文本，比如，根据问询文本对应的具体语句及给用户划定的情感类型标签对应生成符合用户当前情感状态的语句应答文本，并对应当前确定的情感类型标签对该语句应答文本进行合理化的情感状态调整，以对应生成符合当前情景的回复文本，进而能够根据问询文本以及回复文本形成对话文本。

可理解的是，处于不同情感状态中的用户在使用同一语句时，通常渴望得到的回应的语句与语调也会有不同，基于此，通过对问询文本进行情感类型标签的对应关系确立，能够更准确的形成更符合情理的回复文本，进而是相应形成的对话文本也更合情理。

S13：利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据。

又进一步地，在对应形成对话文本后，用于展示虚拟形象的智能终端设备即可利用该对话文本以及情感类型标签合成与情感类型标签相匹配的，也即与用户当前情感状态相对应的情感回应数据。

可理解的是，该情感回应数据具体可以是包括有语调特征的一段语音，和/或具有特定情绪特征的面部表情图像和/或体态动作所对应的数据。

S14：将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。

具体地，在得到与用户当前的情感类型标签相对应的情感回应数据后，即可通过将该情感回应数据加载至虚拟形象中的方式，使虚拟形象对用户做出合乎当前情景的交互响应，也即对用户给出的问询文本以及面部表情进行带有情感的，比如，与用户当前情感状态相对应的带有特定语调的语音，和/或具有特定情绪特征的面部表情动画和/或体态动作的回应。

可理解的是，智能终端设备预先建模好的虚拟形象具体可以是可驱动的三维虚拟形象模型，而情感回应数据，比如，面部动画和肢体动作序列可经三维渲染引擎生成视频帧序列，以在加入合成语音后便可得到完成的三维虚拟形象视频。而三维虚拟形象可通过三维渲染引擎进行自由视角的渲染，以二维平面或三维AR/VR形式展示，用于新闻播报、节目互动以及人机对话等场景使用。

进一步地，在一实施例中，上述S11具体可以包括：将获取到的用户的问询文本以及面部表情输入到带情感回应的NLP(Natural Language Processing，自然语言处理)对话系统中，以通过该NLP对话系统确定用户当前的情感类型标签。

可理解的是，该NLP对话系统在识别到用户的问询文本内容后，能够首先对问询文本进行情感分类，以得到用户问询文本的情感类型标签，并将该文本情感标签与其识别到的用户语音和面部表情相结合，以得到带有情感属性的对话文本和面部表情回应数据。其中，该对话文本和面部表情回应数据在后续可作为语音、面部表情和肢体动作合成系统的输入，使情感贯穿于本案三维虚拟形象的所有表达维度。

而在其他实施例中，在获取到用户的问询文本以及面部表情后，还能够基于设定的卷积网络模型，或仅训练的深度学习网络模型，或特定的函数映射关系确定用户当前的情感类型标签。

上述方案，通过利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据，并将情感回应数据加载到虚拟形象中，以通过加载有情感回应数据的虚拟形象对用户做出带有情感的交互响应，从而使得对用户进行交互响应的虚拟形象具有更拟人化的情感和人格，以能够有效地进行类人的情感表达，进而使用户能够获得更自然、更具趣味的交互体验，且相应的交互过程也更灵活，对用户更友好。

请参阅图2，图2是本申请交互方法第二实施例的流程示意图。本实施例的交互方法是图1中的交互方法的一细化实施例的流程示意图，包括如下步骤：

S21：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签。

S22：基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本。

其中，S21和S22分别与图1中的S11和S12相同，具体请参阅S11和S12及其相关的文字描述，在此不再赘述。

S23：利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音。

具体地，在对应形成对话文本后，用于展示虚拟形象的智能终端设备即可利用该对话文本以及情感类型标签合成与情感类型标签相匹配的，也即与用户当前情感状态相对应的带有情感的语音。

S24：将带有情感的语音加载到虚拟形象中，通虚拟形象对带有情感的语音进行播放。

进一步地，在得到与用户当前的情感类型标签相对应的带有情感的语音后，即可通过将该带有情感的语音加载至虚拟形象中，而使该虚拟形象播放该带有情感的语音，以对用户给出的问询文本和面部表情以及由此确定的用户当前的情感状态进行相对应的带有情感的语音回应。

请参阅图3，图3是本申请交互方法第三实施例的流程示意图。本实施例的交互方法是图2中的交互方法的一细化实施例的流程示意图，包括如下步骤：

S31：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签。

S32：基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本。

其中，S31和S32分别与图2中的S21和S22相同，具体请参阅S21和S22及其相关的文字描述，在此不再赘述。

S33：利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音以及面部表情动画。

具体地，在对应形成对话文本后，用于展示虚拟形象的智能终端设备即可利用该对话文本以及情感类型标签合成与该情感类型标签相匹配的，也即与用户当前情感状态相对应的带有情感的语音以及面部表情动画。

S34：将带有情感的语音以及面部表情动画加载到虚拟形象中，通过虚拟形象对带有情感的语音进行播放以及对面部表情动画进行展示。

进一步地，在得到与用户当前的情感类型标签相对应的带有情感的语音以及面部表情动画后，即可通过将该带有情感的语音以及面部表情动画加载至虚拟形象中，而使该虚拟形象播放该带有情感的语音，并同步展示该面部表情动画，以对用户给出的问询文本和面部表情以及由此确定的用户当前的情感状态进行相对应的带有情感的语音及影像回应。

请继续结合参阅图4，图4是图3中S33一实施例的流程示意图。在一实施例中，本申请的交互方法除了包括上述S31-S34之外，还进一步包括一些更为具体的步骤。具体地，上述S33具体还可以包括如下步骤：

S331：将对话文本以及情感类型标签输入到文本合成语音以及面部动画模型中，利用文本合成语音以及面部动画模型基于情感类型标签生成情感状态编码。

具体地，用于展示虚拟形象的智能终端设备中具体加载有一经过训练的网络模型，也即文本合成语音以及面部动画模型，以在将相应得到的对话文本以及情感类型标签输入到文本合成语音以及面部动画模型中后，该文本合成语音以及面部动画模型即可基于其对应存储或设置的情感类型标签生成情感状态编码。

可理解的是，该情感状态编码具体可以是具有特定语调特征的一段语音，和/或具有特定情绪特征的面部表情图像和/或体态动作所对应的特征向量表示，或编码张量或特征序列等任一合理的数据，以能够将其展示为具有特定语调特征的一段语音，和/或具有特定情绪特征的面部表情图像和/或体态动作。

S332：利用情感状态编码确定带有情感的语音以及面部表情动画。

进一步地，智能终端设备在通过文本合成语音以及面部动画模型获取到情感状态编码后，即可利用该情感状态编码确定相应的带有情感的语音以及面部表情动画。

在一具体的实施例中，如图5所示，图5是图4中涉及的文本合成语音以及面部动画模型一实施例的框架示意图，则可知，该文本合成语音以及面部动画模型具体为带有情感属性的TTSA(Text-to-Speech and Animation，文本合成语音和面部动画)系统，其中，该TTSA系统具体包括Encoder(编码器)、Attention(注意力机制)以及Decoder(解码器)，且该Decoder进一步包括Voice Dncoder(语音解码器)和Animation Dncoder(动画解码器)。且该TTSA系统具体是基于序列到序列生成模型来实现。

由此可知，用于展示虚拟形象的智能终端设备在将其获取到的对话文本输入到TTSA系统后，其编码器可对该对话文本进行特征编码，并由相应的注意力机制对该特征编码进行对应如中立、开心、悲伤、生气、可爱等情感类型标签的特征计算，以得到相应的情感状态编码，进而由解码器对该情感状态编码进行解码，而将该情感状态编码解析为带有情感的语音以及面部表情动画。

请继续结合参阅图6，图6是图4中涉及的文本合成语音以及面部动画模型的训练方法一实施例的流程示意图。在一实施例中，在上述S331之前，具体还可以包括：

S41：将情感类型标签、第一对话文本样本及其对应的情感回应样本输入到第一预设网络模型。

可理解的是，在通过文本合成语音以及面部动画模型与用户进行交互之前，还需要首先对其进行训练，比如，首先需要采集大量带情感状态的播音员说话的音视频数据，以将其整理为第一对话文本样本，并对第一对话文本样本进行情感类型标签的确定，以及情感回应样本的提取，进而将获取到的情感类型标签、第一对话文本样本及其对应的情感回应样本输入到第一预设网络模型。

其中，该情感回应样本具体可以是针对第一对话文本样本进行回应的，实际发生的情感语音和情感面部动画。

S42：第一预设网络模型基于第一对话文本样本以及情感类型标签合成与情感类型标签对应的语音预测数据以及面部表情动画预测数据，并通过语音预测数据以及面部表情动画预测数据与情感回应样本进行比对，得到相应的第一匹配程度结果。

进一步地，第一预设网络模型在获取到相应的第一对话文本样本后，即可对该第一对话文本样本进行特征提取，以得到相应的情感状态编码，进而能够基于该情感状态编码及第一对话文本样本对应的情感类型标签进行推理，进而合成对应的语音预测数据以及面部表情动画预测数据。

而为了使该语音预测数据以及面部表情动画预测数据更符合情理，也即与真实发生的人物对话场景更接近，还需通过语音预测数据以及面部表情动画预测数据与情感回应样本进行比对，以验证本次预测数据与样本数据之间的相似度，且具体可以通过设定的函数处理或网络模型架构对这一相似度进行量化，而得到相应的第一匹配程度结果及置信度。

其中，情感状态需要预先定义好常用的情感标签，例如，中立、开心、悲伤、生气、可爱等。训练时，每个预定义好的情感标签分配一个情感状态编码，开始时进行随机初始化，训练过程中，每个训练样本只更新其对应的情感状态编码，训练完成后每个情感状态编码便带有情感属性。

S43：根据第一匹配程度结果和情感回应样本对第一预设网络模型进行训练，并将训练完成后的模型确定为文本合成语音以及面部动画模型。

又进一步地，在得到第一匹配程度结果，便可根据该第一匹配程度结果和相应的情感回应样本对第一预设网络模型进行训练，并实时调整第一预设网络模型中的内部参数，以逐步提升第一匹配程度结果的有效率，直至该有效率达到设定程度时，将训练完成后的相应模型确定为文本合成语音以及面部动画模型。

请参阅图7，图7是本申请交互方法第四实施例的流程示意图。本实施例的交互方法是图2中的交互方法的一细化实施例的流程示意图，包括如下步骤：

S51：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签。

S52：基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本。

其中，S51和S52分别与图2中的S21和S22相同，具体请参阅S21和S22及其相关的文字描述，在此不再赘述。

S53：利用对话文本以及带有情感的语音合成与所情感类型标签对应的肢体动作。

具体地，在对应形成对话文本后，用于展示虚拟形象的智能终端设备即可利用该对话文本以及情感类型标签合成与情感类型标签相匹配的，也即与用户当前情感状态相对应的肢体动作。

S54：将肢体动作加载到虚拟形象中，通虚拟形象对肢体动作进行展示。

进一步地，在得到与用户当前的情感类型标签相对应的肢体动作后，即可通过将该肢体动作加载至虚拟形象中，而使该虚拟形象做出、并展示该肢体动作，以对用户给出的问询文本和面部表情以及由此确定的用户当前的情感状态进行相对应的动作回应。

进一步地，在一实施例中，上述S53具体还可以包括：利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音、面部表情动画以及肢体动作。

而上述S54则对应为将带有情感的语音、面部表情动画以及肢体动作加载到虚拟形象中，通虚拟形象对带有情感的语音进行播放，并对面部表情动画及肢体动作进行展示。

可理解的是，在本实施例中，通过在虚拟形象的回复文本、语音、面部表情和肢体动作等所有的表达维度，加入情感标签，能够有效地将情感表达贯穿于整个三维虚拟形象的表达过程中。且在回复文本中，具体是在识别到用户问询文本以及面部和语音情感后，做出相应的对话文本和情感回应，该情感回应将贯穿到后续所有的表达维度。

请继续结合参阅图8，图8是图7中S53一实施例的流程示意图。

在一实施例中，上述S53具体还可以包括：

S531：获取到对话文本中的命名实体。

可理解的是，在肢体动作维度上，由于肢体动作和回复文本通常关系并不大，比如，大部分的肢体动作可能都是无意义的，只有特定语义文本才有对应关系，例如，你好、再见、请往右走、请向上看等等。

因此，在获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签，以对应形成相应的对话文本后，还需首先从该对话文本中提取出具有动作语义的命名实体，如你好、再见、请往左走、请向上看等等，而这些命名实体可以对应比较确定的肢体动作，使得后续合成的肢体动作与该对话文本有较明确的对应关系。

S532：利用命名实体确定对应的初始肢体动作。

进一步地，在从对话文本中提取出具有特定语义文本的命名实体后，即可根据该命名实体与肢体动作的对应关系确定命名实体对应的初始肢体动作。

S533：获取带有情感的语音的重音或/和节奏信息。

可理解的是，带有情感的语音通常会在一定程度上影响人们在交谈过程中的肢体动作表达，比如，不同的情感状态下，相应语音的重音、节奏以及语调等任意合理的信息中的一种或多种通常也会不同，进而又会影响到交谈人员的肢体动作表达。

具体地，用于展示虚拟形象的智能终端设备通过相应的收音装置进一步获取用户的带有情感的语音的重音或/和节奏信息。

S534：利用初始肢体动作以及重音或/和节奏信息合成与所情感类型标签对应的肢体动作。

进一步地，该智能终端设备在获取到初始肢体动作以及重音或/和节奏信息后，即可利用该初始肢体动作以及重音或/和节奏信息合成与情感类型标签相匹配的，也即与用户当前情感状态相对应的肢体动作。

进一步地，在一实施例中，上述S53具体还可以包括：将对话文本以及带有情感的语音输入到动作合成模型中，利用动作合成模型合成与所情感类型标签对应的肢体动作。

具体地，用于展示虚拟形象的智能终端设备中具体加载有一经过训练的网络模型，也即动作合成模型，以在将相应得到的对话文本以及带有情感的语音输入到动作合成模型中后，该动作合成模型即可基于其对应存储或设置的情感类型标签合成对应的肢体动作。

在一具体的实施例中，如图9所示，图9是图8中涉及的动作合成模型一实施例的框架示意图，则可知，该动作合成模型具体可以为结合有NLP(Natural LanguageProcessing，自然语言处理)中的命名实体识别NER(Named Entity Recognition，命名实体识别)任务的网络模型，且该动作合成模型具体包括Text Transformer(文本翻译器)、Audio Transformer(语音翻译器)、Action NER(动作命名实体识别任务器)、CrossAttention(交叉注意力机制)、Action Condition(动作状态识别器)、Action Transformer(动作翻译器)、Action Decoder(动作解码器)。

由此可知，用于展示虚拟形象的智能终端设备在将其获取到的对话文本以及带有情感的语音分别输入到该动作合成模型中的文本翻译器和语音翻译器后，能够通过其动作命名实体识别任务器获取到对话文本中的命名实体，以利用命名实体确定对应的初始肢体动作，并通过交叉注意力机制进行对话文本以及带有情感的语音的加权运算，进而能够通过动作状态识别器从初始肢体动作及该加权运算的结果中识别出初始肢体动作以及重音或/和节奏信息，以由动作翻译器合成与所情感类型标签对应的肢体动作序列或特征向量，也便能够通过动作解码器合成出相应的与所情感类型标签对应的肢体动作。

请继续结合参阅图10，图10是图8中涉及的动作合成模型的训练方法一实施例的流程示意图。在一实施例中，在上述S53之前，具体还可以包括：

S61：将情感类型标签、第二对话文本样本和带有情感的语音样本及对应的肢体动作样本输入到第二预设网络模型。

可理解的是，在通过动作合成模型与用户进行交互之前，还需要首先对其进行训练，比如，首先需要采集大量的真人说话视频，该视频包括说话语音和肢体动作，以将其整理为第二对话文本样本和带有情感的语音样本，并对第二对话文本样本进行情感类型标签的确定，以及肢体动作样本的提取，进而将获取到的情感类型标签、第二对话文本样本及其对应的肢体动作样本输入到第二预设网络模型。

其中，该肢体动作样本具体可以是针对第二对话文本样本进行回应的，实际发生的肢体动作。

S62：第二预设网络模型基于第二对话文本样本以及带有情感的语音样本合成与情感类型标签对应的肢体动作预测数据，并通过肢体动作预测数据与肢体动作样本进行比对，得到相应的第二匹配程度结果。

进一步地，第二预设网络模型在获取到相应的第二对话文本样本和带有情感的语音样本后，即可对该第二对话文本样本进行特征提取，以将第二对话文本样本中的每类命名实体的动作状态编码可提取出来，并加入对应的动作状态编码合成有语义的动作序列，进而与带有情感的语音样本进行统合运算推理，以合成与情感类型标签对应的肢体动作预测数据。

而为了使该肢体动作预测数据更符合情理，也即与真实发生的人物对话场景更接近，还需通过肢体动作预测数据与肢体动作样本进行比对，以验证本次预测数据与样本数据之间的相似度，且具体可以通过设定的函数处理或网络模型架构对这一相似度进行量化，而得到相应的第二匹配程度结果及置信度。

可理解的是，与上述的TTSA系统一样，该动作合成模型同样需要采集大量的真人说话视频，该视频包括说话语音和肢体动作，视频数据可在互联网上爬取新闻报告或电视演讲之类的素材，经语音识别和3D(三维)人体姿态估计得到说话文本和肢体动作数据。动作实体标签需事先模糊确认好，经NER模块在训练集说话文本中识别得到，动作实体标签对应的肢体动作数据可先经音频对应关系标注出粗略位置，再由人工进行精标。训练时，当肢体动作序列中遇到动作实体标注时，系统会更新Action NER模块后的动作实体编码，训练完成后每个动作实体编码便可学习到其对应的动作序列模式。

推理时，Action NER模块识别到动作实体时，其对应的动作实体编码便加入到动作序列生成的主网络流程中，合成具有明确语义的动作序列。同时，合成语音中的情感属性也会给合成的动作序列生成提供一定的情感状态。

S63：根据第二匹配程度结果和肢体动作样本对第二预设网络模型进行训练，并将训练完成后的模型确定为动作合成模型。

又进一步地，在得到第二匹配程度结果，便可根据该第二匹配程度结果和相应的肢体动作样本对第二预设网络模型进行训练，并实时调整第二预设网络模型中的内部参数，以逐步提升第二匹配程度结果的有效率，直至该有效率达到设定程度时，将训练完成后的相应模型确定为动作合成模型。

上述方案，通过在虚拟形象的对话文本、语音、面部动画和肢体动作所有表达维度都加入情感状态属性，使得情感贯穿于三维虚拟形象的所有表达维度，使其具有情感和拟人化的特性，使得三维虚拟形象表达更加自然。在文本维度上，系统在给出对话文本之外，额外给定该文本的情感标签，该标签将作为后续语音、面部动画和肢体动作合成系统的输入。在语音和面部动画维度上，通过提出带情感状态的TTSA系统，可合成带情感状态的语音和面部动画序列。在肢体动作维度上，通过结合Action NER模块，可合成与对话文本有明确语义关系的肢体动作序列，合成语音也作为输入，为整个肢体动作合成提供情感状态。而由于将情感表达贯穿于三维虚拟形象的语音、面部表情和肢体动作三个方面，本申请中的虚拟形象驱动系统及相应的交互方法具有自然度高、表现力强、更加用户友好等优点。

请参阅图11，图11是本申请交互装置一实施例的框架示意图。

本实施例的交互装置71包括：获取模块711、处理模块712以及展示模块713。其中，获取模块711用于获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；处理模块712用于基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本，以利用对话文本以及情感类型标签得到与情感类型匹配的情感回应数据；展示模块713用于将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。

处理模块712还用于利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音；而展示模块713还用于将带有情感的语音加载到虚拟形象中，通虚拟形象对带有情感的语音进行播放。

处理模块712还用于利用对话文本以及情感类型标签合成与所情感类型标签对应的带有情感的语音以及面部表情动画；而展示模块713还用于将带有情感的语音以及面部表情动画加载到虚拟形象中，通过虚拟形象对带有情感的语音进行播放以及对面部表情动画进行展示。

处理模块712还用于将对话文本以及情感类型标签输入到文本合成语音以及面部动画模型中，利用文本合成语音以及面部动画模型基于情感类型标签生成情感状态编码；利用情感状态编码确定带有情感的语音以及面部表情动画。

处理模块712还用于将情感类型标签、第一对话文本样本及其对应的情感回应样本输入到第一预设网络模型；第一预设网络模型基于第一对话文本样本以及情感类型标签合成与情感类型标签对应的语音预测数据以及面部表情动画预测数据，并通过语音预测数据以及面部表情动画预测数据与情感回应样本进行比对，得到相应的第一匹配程度结果；根据第一匹配程度结果和情感回应样本对第一预设网络模型进行训练，并将训练完成后的模型确定为文本合成语音以及面部动画模型。

处理模块712还用于利用对话文本以及带有情感的语音合成与所情感类型标签对应的肢体动作；而展示模块713还用于将肢体动作加载到虚拟形象中，通虚拟形象对肢体动作进行展示。

处理模块712还用于获取到对话文本中的命名实体；利用命名实体确定对应的初始肢体动作；获取带有情感的语音的重音或/和节奏信息；利用初始肢体动作以及重音或/和节奏信息合成与所情感类型标签对应的肢体动作。

处理模块712还用于将对话文本以及带有情感的语音输入到动作合成模型中，利用动作合成模型合成与所情感类型标签对应的肢体动作。

处理模块712还用于将情感类型标签、第二对话文本样本和带有情感的语音样本及对应的肢体动作样本输入到第二预设网络模型；第二预设网络模型基于第二对话文本样本以及带有情感的语音样本合成与情感类型标签对应的肢体动作预测数据，并通过肢体动作预测数据与肢体动作样本进行比对，得到相应的第二匹配程度结果；根据第二匹配程度结果和肢体动作样本对第二预设网络模型进行训练，并将训练完成后的模型确定为动作合成模型。

上述方案，使得对用户进行交互响应的虚拟形象能够有效地进行类人的情感表达，进而使用户能够获得更自然，且更具趣味性的交互体验。

请参阅图12，图12是本申请电子设备一实施例的框架示意图。电子设备81包括相互耦接的存储器811和处理器812，处理器812用于执行存储器811中存储的程序指令，以实现上述任一日文字音转换方法实施例的步骤。在一个具体的实施场景中，电子设备81可以包括但不限于：微型计算机、服务器，此外，电子设备81还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器812用于控制其自身以及存储器811以实现上述任一日文字音转换方法实施例的步骤。处理器812还可以称为CPU(Central Processing Unit，中央处理单元)。处理器812可能是一种集成电路芯片，具有信号的处理能力。处理器812还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器812可以由集成电路芯片共同实现。

请参阅图13，图13为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质91存储有能够被处理器运行的程序指令911，程序指令911用于实现上述任一交互方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种交互方法，其特征在于，所述交互方法包括：

获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；

基于所述问询文本与所述情感类型标签确定所述问询文本的回复文本，并基于所述问询文本以及所述回复文本形成对话文本；

利用所述对话文本以及所述情感类型标签得到与所述情感类型标签匹配的情感回应数据；

将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应。

2.根据权利要求1所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签得到与所述情感类型标签匹配的情感回应数据的步骤，还包括：

利用所述对话文本以及所述情感类型标签合成与所述情感类型标签对应的带有情感的语音；

所述将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应的步骤，还包括：

将所述带有情感的语音加载到所述虚拟形象中，通所述虚拟形象对所述带有情感的语音进行播放。

3.根据权利要求2所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的带有情感的语音的步骤，还包括：

利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的所述带有情感的语音以及面部表情动画；

所述将所述带有情感的语音加载到所述虚拟形象中，通所述虚拟形象对所述带有情感的语音进行播放的步骤，还包括：

将所述带有情感的语音以及面部表情动画加载到所述虚拟形象中，通过所述虚拟形象对所述带有情感的语音进行播放以及对所述面部表情动画进行展示。

4.根据权利要求3所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的所述带有情感的语音以及面部表情动画的步骤，还包括：

将所述对话文本以及所述情感类型标签输入到文本合成语音以及面部动画模型中，利用所述文本合成语音以及面部动画模型基于所述情感类型标签生成情感状态编码；

利用所述情感状态编码确定所述带有情感的语音以及所述面部表情动画。

5.根据权利要求4所述的交互方法，其特征在于，所述交互方法还包括：

将所述情感类型标签、第一对话文本样本及其对应的情感回应样本输入到第一预设网络模型；

所述第一预设网络模型基于所述第一对话文本样本以及所述情感类型标签合成与所述情感类型标签对应的语音预测数据以及面部表情动画预测数据，并通过所述语音预测数据以及面部表情动画预测数据与所述情感回应样本进行比对，得到相应的第一匹配程度结果；

根据所述第一匹配程度结果和所述情感回应样本对所述第一预设网络模型进行训练，并将训练完成后的模型确定为所述文本合成语音以及面部动画模型。

6.根据权利要求2-5中任一项所述的交互方法，其特征在于，所述利用所述对话文本以及所述情感类型标签合成与所情感类型标签对应的带有情感的语音的步骤，还包括：

利用所述对话文本以及所述带有情感的语音合成与所情感类型标签对应的肢体动作；

将所述肢体动作加载到所述虚拟形象中，通所述虚拟形象对所述肢体动作进行展示。

7.根据权利要求6所述的交互方法，其特征在于，所述利用所述对话文本以及所述带有情感的语音合成与所情感类型标签对应的肢体动作的步骤，还包括：

获取到所述对话文本中的命名实体；

利用所述命名实体确定对应的初始肢体动作；

获取所述带有情感的语音的重音或/和节奏信息；

利用所述初始肢体动作以及所述重音或/和节奏信息合成所述与所情感类型标签对应的肢体动作。

8.根据权利要求7所述的交互方法，其特征在于，所述利用所述对话文本以及所述带有情感的语音合成与所情感类型标签对应的肢体动作的步骤，还包括：

将所述对话文本以及所述带有情感的语音输入到动作合成模型中，利用所述动作合成模型合成与所情感类型标签对应的肢体动作。

9.根据权利要求7所述的交互方法，其特征在于，所述交互方法还包括：

将所述情感类型标签、第二对话文本样本和带有情感的语音样本及对应的肢体动作样本输入到第二预设网络模型；

所述第二预设网络模型基于所述第二对话文本样本以及所述带有情感的语音样本合成与所述情感类型标签对应的肢体动作预测数据，并通过所述肢体动作预测数据与所述肢体动作样本进行比对，得到相应的第二匹配程度结果；

根据所述第二匹配程度结果和所述肢体动作样本对所述第二预设网络模型进行训练，并将训练完成后的模型确定为所述动作合成模型。

10.一种交互装置，其特征在于，所述交互装置包括：

获取模块，用于获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；

处理模块，用于基于所述问询文本与所述情感类型标签确定所述问询文本的回复文本，并基于所述问询文本以及所述回复文本形成对话文本，以利用所述对话文本以及所述情感类型标签得到与所述情感类型匹配的情感回应数据；

展示模块，用于将所述情感回应数据加载到虚拟形象中，以对所述用户做出带有情感的交互响应。

11.一种电子设备，其特征在于，所述电子设备包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1-9中任一项所述的交互方法。

12.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1-9中任一项所述的交互方法。