CN117351123A

CN117351123A - 交互式数字人像生成方法、装置、设备及存储介质

Info

Publication number: CN117351123A
Application number: CN202311378589.4A
Authority: CN
Inventors: 郑江; 聂砂; 罗奕康; 丁苏苏; 戴菀庭
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-05

Abstract

本申请提供的一种交互式数字人像生成方法、装置、设备及存储介质，涉及数字人像技术领域。该方法通过从智能客服系统中获取历史文本交互数据信息，并基于历史文本交互数据信息确定与历史文本数据信息关联的用户的情绪信息；从智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取用户的脸部数据信息；将历史文本交互数据信息、用户的情绪信息、预留的音频信息和用户的脸部数据信息进行融合，生成交互式数字人像；其中，交互式数字人像用于模拟用户在智能客服系统交互时的形态。采用本技术方案，能够提升内容回复的多样性以及提高表达的准确度。

Description

交互式数字人像生成方法、装置、设备及存储介质

技术领域

本申请涉及数字人像技术领域，尤其涉及一种交互式数字人像生成方法、装置、设备及存储介质。

背景技术

目前，智能助手类软件在企业内部办公类应用场景越来越广泛，其广泛应用给用户带来了更好的体验与处理效率。目前智能助手类应用一般以文本直接交互的模式进行，用户输入或选择自己希望解决的问题，智能助手机器人去寻找问题的可能答案，并返回给用户。为了提升用户的体验，这种交互方式一般会通过用户意图来理解、知识库辅助、多轮会话等方式，进行提升。

但是，目前智能助手类软件一般都是文本类的回复，会导致回复的内容比较单一，不能够生动灵活的表达意图。

因此，亟需一种交互式数字人像生成方法，能够提升内容回复的多样性以及提高表达的准确度。

发明内容

本申请提供一种交互式数字人像生成方法、装置、设备及存储介质，能够提升内容回复的多样性以及提高表达的准确度。

第一方面，本申请提供一种交互式数字人像生成方法，所述方法包括：

从智能客服系统中获取历史文本交互数据信息，并基于所述历史文本交互数据信息确定与所述历史文本数据信息关联的用户的情绪信息；

从所述智能客服系统中获取所述的预留音频信息和所述用户的脸部数据信息；

将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合，生成交互式数字人像；其中，所述交互式数字人像用于模拟所述用户在所述智能客服系统交互时的形态。

在一个示例中，将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合，生成交互式数字人像，包括：

将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合，得到情绪语音信息；

将所述情绪语音信息和所述用户的脸部数据信息进行融合，生成交互式数字人像。

在一个示例中，所述将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合，得到情绪语音信息，包括：

对所述历史文本交互数据信息进行文本序列排序，得到文本序列结果，并对所述文本序列结果进行分词转化，得到注音字符结果；

将所述注音字符结果输入至文本编码器中，得到隐向量；其中，所述隐向量用于表征文本特征；

将标准音频信息输入至自编码器中，得到风格编码向量；其中，所述风格编码向量用于表征音频特征；

基于所述隐向量和所述风格编码向量，得到所述情绪语音信息。

在一个示例中，所述基于所述隐向量和所述风格编码向量，得到所述情绪语音信息，包括：

将所述隐向量与所述风格编码向量进行拼接，得到输入向量；

将所述输入向量输入至语音合成模型中，得到所述情绪语音信息；其中，所述语音合成模型包括注意力机制层、解码器网络层和声码器网络层。

在一个示例中，将所述情绪语音信息和所述用户的脸部数据信息进行融合，生成交互式数字人像，包括：

根据所述情绪语音信息，确定语音特征向量；

根据所述用户的脸部数据信息以及三维脸部模型，确定脸部特征向量；

根据所述语音特征向量和所述脸部特征向量，确定所述用户的脸部关键点序列信息；

对所述用户的脸部关键点序列信息进行渲染，生成所述交互式数字人像。

在一个示例中，对所述用户的脸部关键点序列信息进行渲染，生成所述交互式数字人像，包括：

将所述用户的脸部关键点序列信息作为隐式函数的输入值，得到所述用户的脸部关键点序列信息中每一个脸部关键点的颜色和密度；

根据所述每一个脸部关键点的颜色和密度，生成所述交互式数字人像。

第二方面，本申请提供一种交互式数字人像生成装置，所述装置包括：

第一获取单元，用于从智能客服系统中获取历史文本交互数据信息，并基于所述历史文本交互数据信息确定与所述历史文本数据信息关联的用户的情绪信息；

第二获取单元，用于从所述智能客服系统中获取所述的预留音频信息和所述用户的脸部数据信息；

融合单元，用于将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合，生成交互式数字人像；其中，所述交互式数字人像用于模拟所述用户在所述智能客服系统交互时的形态。

在一个示例中，融合单元，包括：

融合模块，用于将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合，得到情绪语音信息；

生成模块，用于将所述情绪语音信息和所述用户的脸部数据信息进行融合，生成交互式数字人像。

在一个示例中，融合模块，包括：

分词转化子模块，用于对所述历史文本交互数据信息进行文本序列排序，得到文本序列结果，并对所述文本序列结果进行分词转化，得到注音字符结果；

第一输入子模块，用于将所述注音字符结果输入至文本编码器中，得到隐向量；其中，所述隐向量用于表征文本特征；

第二输入子模块，用于将标准音频信息输入至自编码器中，得到风格编码向量；其中，所述风格编码向量用于表征音频特征；

第一确定子模块，用于基于所述隐向量和所述风格编码向量，得到所述情绪语音信息。

在一个示例中，第一确定子模块，具体用于将所述隐向量与所述风格编码向量进行拼接，得到输入向量；将所述输入向量输入至语音合成模型中，得到所述情绪语音信息；其中，所述语音合成模型包括注意力机制层、解码器网络层和声码器网络层。

在一个示例中，生成模块，包括：

第二确定子模块，用于根据所述情绪语音信息，确定语音特征向量；

第三确定子模块，用于根据所述用户的脸部数据信息以及三维脸部模型，确定脸部特征向量；

第四确定子模块，用于根据所述语音特征向量和所述脸部特征向量，确定所述用户的脸部关键点序列信息；

生成子模块，用于对所述用户的脸部关键点序列信息进行渲染，生成所述交互式数字人像。

在一个示例中，生成子模块，具体用于将所述用户的脸部关键点序列信息作为隐式函数的输入值，得到所述用户的脸部关键点序列信息中每一个脸部关键点的颜色和密度；

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

本申请提供的一种交互式数字人像生成方法、装置、设备及存储介质，通过从智能客服系统中获取历史文本交互数据信息，并基于所述历史文本交互数据信息确定与所述历史文本数据信息关联的用户的情绪信息；从所述智能客服系统中获取所述的预留音频信息和所述用户的脸部数据信息；将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合，生成交互式数字人像；其中，所述交互式数字人像用于模拟所述用户在所述智能客服系统交互时的形态。采用本技术方案，能够提升内容回复的多样性以及提高表达的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据本申请实施例一提供的一种交互式数字人像生成方法的流程示意图；

图2是根据本申请实施例二提供的一种交互式数字人像生成方法的流程示意图；

图3是根据本申请实施例三提供的一种交互式数字人像生成装置的结构示意图；

图4是根据本申请实施例四提供的一种交互式数字人像生成装置的结构示意图；

图5是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请提供的一种交互式数字人像生成方法、装置、设备及存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1是根据本申请实施例一提供的一种交互式数字人像生成方法的流程示意图。实施例一中包括如下步骤：

S101、从智能客服系统中获取历史文本交互数据信息，并基于历史文本交互数据信息确定与历史文本数据信息关联的用户的情绪信息。

在一个示例中，历史文本交互数据信息一般是短文本，对于短文本的情绪识别，主要需要考虑文本的语义信息和结构信息。对于文本语义信息的表征，采用了Bert模型，即将短本文的[CLS]和[SEP]连接为完整的序列，输入Bert模型后，获取最后一层Transformer编码器的[CLS]的特征向量，该特征通过对所有词向量的池化后表征了整个文本序列的全局语义特征。将全局语义特征输入到多层前馈网络进行标签分类，得到用户的情绪信息。

S102、从智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取用户的脸部数据信息。

本实施例中，预留音频信息为智能客服系统在设计时用于建模标准情感语音交互过程的音频信息，用户的脸部数据信息为用户在使用智能客服系统时识别的脸部数据信息，具体的，可以是用户发起操作请求后，然后识别该用户的脸部数据信息。

S103、将历史文本交互数据信息、用户的情绪信息、预留音频信息和用户的脸部数据信息进行融合，生成交互式数字人像；其中，交互式数字人像用于模拟用户在智能客服系统交互时的形态。

本实施例中，交互式数字人像可以在用户与智能客服系统交互时使用，具体的，可以为与该用户匹配的动态人物。该交互式数字人像具备历史文本交互数据信息、用户的情绪信息、的预留音频信息和用户的脸部数据信息，能够真实地模拟出该用户的形态。

本申请提供的一种交互式数字人像生成方法，通过从智能客服系统中获取历史文本交互数据信息，并基于历史文本交互数据信息确定与历史文本数据信息关联的用户的情绪信息；从智能客服系统中的预留音频信息和用户的脸部数据信息；其中，用户的脸部数据信息为用户在智能客服系统中的头像信息；将历史文本交互数据信息、用户的情绪信息、的预留音频信息和用户的脸部数据信息进行融合，生成交互式数字人像；其中，交互式数字人像用于模拟用户在智能客服系统交互时的形态。采用本技术方案，能够提升内容回复的多样性以及提高表达的准确度。

图2是根据本申请实施例二提供的一种交互式数字人像生成方法的流程示意图。实施例二中包括如下步骤：

S201、从智能客服系统中获取历史文本交互数据信息，并基于历史文本交互数据信息确定与历史文本数据信息关联的用户的情绪信息。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

S202、从智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取用户的脸部数据信息。

示例性地，本步骤可以参见上述步骤S102，不再赘述。

S203、将历史文本交互数据信息、用户的情绪信息和的预留音频信息进行融合，得到情绪语音信息。

示例性地，文本到语音转换任务(Text To Speech，简称TTS)从实现方式上目前以基于端到端的方式为主。它使用声学特征作为中间表征，将模型分为文本分析、声学模型、声码器等三个部分，可以展现出多样化的发音风格以及韵律表现力。

文本分析主要负责将输入文本从字素转为音素其中音素是发音的最小单元，类似拼音或音标，是比文字本身更适合语音合成的输入形式；此外，还需要处理韵律、音调以及中文的分词等任务；声学模型主要负责通过音素预测TTS的中间表征，中间表征一般是某种手工声学特征，比如最常用的梅尔频谱。它决定着合成出的语音是否符合输入文本，此外，语音中的情感、韵律等也特性也和其有关。声码器部分负责将梅尔谱(Mel spectrogram，简称Mels)等中间表征还原为音频，它决定着合成语音的音质。目前主流的端到端语音模型主要包括WaveNet，DeepVoice和Tacotron等。

目前要结合情感因素进行语音合成，主要有两类技术处理方法。一类是使用风格迁移的方法，即通过带有情感参照的音频中提取风格信息，将其嵌入到语音合成模型中。另一类是从类别标签中获得情感嵌入信息，将其作为输入输入到语音合成模型以生成对应类别情感的语音。

在一个示例中，将历史文本交互数据信息、用户的情绪信息和的预留音频信息进行融合，得到情绪语音信息，包括：

对历史文本交互数据信息进行文本序列排序，得到文本序列结果，并对文本序列结果进行分词转化，得到注音字符结果；

将注音字符结果输入至文本编码器中，得到隐向量；其中，隐向量用于表征文本特征；

将标准音频信息输入至自编码器中，得到风格编码向量；其中，风格编码向量用于表征音频特征；

基于隐向量和风格编码向量，得到情绪语音信息。

在一个示例中，首先，对文本序列进行分词转化，将中文字符转换为音素，从而将文本序列转换成注音字符的形式，编码器模块主要将输入的注音字符编码成隐向量，根据智能助手的一般应用场景，设定了中性、高兴、愤怒、悲伤、恐惧5类典型情绪的参考标准语音片段。通过自编码器网络从参考音频中学习语音中的潜在风格表征，自编码器网络输入为原始语音对应的语音线性谱序列，输出为定长隐变量Z表示不同的风格编码向量，将这个向量和上一步得到的隐向量拼接，共同作为下一步的输入。为了更好的控制输入与输出之间的对齐关系，引入多头注意力机制与基于位置注意力机制相结合，以便于获取更丰富的特征信息。解码器通过自回归循环神经网络将编码器生成的隐向量处理为语音的频谱特征。最终，通过声码器，将梅尔倒谱系数转化为时域波形，合成带有情绪的说话人语音。

在一个示例中，基于隐向量和风格编码向量，得到情绪语音信息，包括：

将隐向量与风格编码向量进行拼接，得到输入向量；

将输入向量输入至语音合成模型中，得到情绪语音信息；其中，语音合成模型包括注意力机制层、解码器网络层和声码器网络层。

S204、将情绪语音信息和用户的脸部数据信息进行融合，生成交互式数字人像。

在一个示例中，将情绪语音信息和用户的脸部数据信息进行融合，生成交互式数字人像，包括：

根据情绪语音信息，确定语音特征向量；

根据用户的脸部数据信息以及三维脸部模型，确定脸部特征向量；

根据语音特征向量和脸部特征向量，确定用户的脸部关键点序列信息；

对用户的脸部关键点序列信息进行渲染，生成交互式数字人像。

在一个示例中，引入人像头部关键点特征作为下一步语音驱动人脸头部要素关键点预测的输入之一。在这里，使用3D可变形模型/参数化模型(3D Morphable Model，简称3DMM)模型进行人像头部特征的计算。3DMM也称为三维可变形人脸模型，是一个通用的三维人脸模型，用固定的点数来表示人脸。在3DMM模型中，三维脸部形状S可以被表述为下述公式形式：

其中，是三维人脸的平均形状，U_id和U_exp是3DMM模型库LSFM morphable模型中表征人身份和表情的正则项，系数α和β分别描述人物身份和表情。由于3DMM只能获取到人脸的粗略3维表征描述，很多基于3DMM的方法，都是在求解这几个系数基础上，再添加一些人脸的细节要素的相关系数系数，如眼睛、头发、嘴唇、牙齿等。在本装置中，参照了3DMM的人脸头部三维表征方案，通过单目图像求解出人脸的表情系数、头部姿态参数。

在一个示例中，对用户的脸部关键点序列信息进行渲染，生成交互式数字人像，包括：

将用户的脸部关键点序列信息作为隐式函数的输入值，得到用户的脸部关键点序列信息中每一个脸部关键点的颜色和密度；

根据每一个脸部关键点的颜色和密度，生成交互式数字人像。

基于得到的语音特征、3DMM系数，需要建立人脸头部关键点预测序列，作为下一步渲染3D人脸头像动画的基础。因为是针对智能助手交互双方可视化交互模拟，因此本装置需要支持人脸头部口型与语音的匹配。在本装置中，参照SadTalker模型架构，本装置仅引用其中的面部表情模拟部分来实现音频和嘴唇口型的同步。即通过引入一个采用ResNet为主框架的编码器，基于Wav2Lip模型的对音频的编码分支，是一个预训练的编码器，再加入一个提供映射功能的全连接层进行微调。这里，编码器的输入是前述所输入的单张人脸图片和生成的音频，输出是嘴唇在动的图片序列(包含人脸68个关键点以及蒙板)。

最终，人像头部需要通过三维渲染，生成三维人像动画，参与到智能助手的用户交互中去。在三维渲染上，采用了基于神经辐射场类模型(Neual Radiance Field，简称NERF)为核心的隐式表示方法。基于NERF的表示思路，动态的人脸隐式地用NERF进行表示，通过基于语音特征对三维人脸及口型关键点预测，将其作为条件输入的条件隐式函数来表示说话人的动态神经辐射场。也就是说，通过隐式函数，可以得到神经辐射场空间下某个点在某个视角下的颜色和密度，基于预测的每个点的颜色和密度，就可以利用体渲染过程将由相机出发经过某一像素的射线上采样点的密度和颜色累积起来得到改像素的最终预测的颜色值。

本申请提供的一种交互式数字人像生成方法，通过对历史文本交互数据信息进行文本序列排序，得到文本序列结果，并对文本序列结果进行分词转化，得到注音字符结果；将注音字符结果输入至文本编码器中，得到隐向量；其中，隐向量用于表征文本特征；将标准音频信息输入至自编码器中，得到风格编码向量；其中，风格编码向量用于表征音频特征；基于隐向量和风格编码向量，得到情绪语音信息。采用本技术方案，能够使用三维人脸形象等技术手段的多模态、灵活的交互方式，增加交互的灵活性。

图3是根据本申请实施例三提供的一种交互式数字人像生成装置的结构示意图。具体的，实施例三的装置30中包括：

第一获取单元301，用于从智能客服系统中获取历史文本交互数据信息，并基于历史文本交互数据信息确定与历史文本数据信息关联的用户的情绪信息；

第二获取单元302，用于从智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取用户的脸部数据信息；

融合单元303，用于将历史文本交互数据信息、用户的情绪信息、的预留音频信息和用户的脸部数据信息进行融合，生成交互式数字人像；其中，交互式数字人像用于模拟用户在智能客服系统交互时的形态。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4是根据本申请实施例四提供的一种交互式数字人像生成装置的结构示意图。具体的，实施例四的装置40中包括：

第一获取单元401，用于从智能客服系统中获取历史文本交互数据信息，并基于历史文本交互数据信息确定与历史文本数据信息关联的用户的情绪信息；

第二获取单元402，用于从智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取用户的脸部数据信息；

融合单元403，用于将历史文本交互数据信息、用户的情绪信息、的预留音频信息和用户的脸部数据信息进行融合，生成交互式数字人像；其中，交互式数字人像用于模拟用户在智能客服系统交互时的形态。

在一个示例中，融合单元403，包括：

融合模块4031，用于将历史文本交互数据信息、用户的情绪信息和的预留音频信息进行融合，得到情绪语音信息；

生成模块4032，用于将情绪语音信息和用户的脸部数据信息进行融合，生成交互式数字人像。

在一个示例中，融合模块4031，包括：

分词转化子模块40311，用于对历史文本交互数据信息进行文本序列排序，得到文本序列结果，并对文本序列结果进行分词转化，得到注音字符结果；

第一输入子模块40312，用于将注音字符结果输入至文本编码器中，得到隐向量；其中，隐向量用于表征文本特征；

第二输入子模块40313，用于将标准音频信息输入至自编码器中，得到风格编码向量；其中，风格编码向量用于表征音频特征；

第一确定子模块40314，用于基于隐向量和风格编码向量，得到情绪语音信息。

在一个示例中，第一确定子模块40314，具体用于将隐向量与风格编码向量进行拼接，得到输入向量；将输入向量输入至语音合成模型中，得到情绪语音信息；其中，语音合成模型包括注意力机制层、解码器网络层和声码器网络层。

在一个示例中，生成模块4032，包括：

第二确定子模块40321，用于根据情绪语音信息，确定语音特征向量；

第三确定子模块40322，用于根据用户的脸部数据信息以及三维脸部模型，确定脸部特征向量；

第四确定子模块40323，用于根据语音特征向量和脸部特征向量，确定用户的脸部关键点序列信息；

生成子模块40324，用于对用户的脸部关键点序列信息进行渲染，生成交互式数字人像。

在一个示例中，生成子模块40324，具体用于将用户的脸部关键点序列信息作为隐式函数的输入值，得到用户的脸部关键点序列信息中每一个脸部关键点的颜色和密度；根据每一个脸部关键点的颜色和密度，生成交互式数字人像。

图5是根据一示例性实施例示出的一种电子设备的框图，该设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到装置500的打开/关闭状态，组件的相对定位，例如组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述电子设备的一种交互式数字人像生成方法。

本申请还公开了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本实施例中的方法。

本申请以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或电子设备上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据电子设备)、或者包括中间件部件的计算系统(例如，应用电子设备)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和电子设备。客户端和电子设备一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-电子设备关系的计算机程序来产生客户端和电子设备的关系。电子设备可以是云电子设备，又称为云计算电子设备或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。电子设备也可以为分布式系统的电子设备，或者是结合了区块链的电子设备。应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种交互式数字人像生成方法，其特征在于，所述方法包括：

从所述智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取所述用户的脸部数据信息；

2.根据权利要求1所述的方法，其特征在于，所述将所述历史文本交互数据信息、所述用户的情绪信息、所述的预留音频信息和所述用户的脸部数据信息进行融合，生成交互式数字人像，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述历史文本交互数据信息、所述用户的情绪信息和所述的预留音频信息进行融合，得到情绪语音信息，包括：

将预留标准音频信息输入至自编码器中，得到风格编码向量；其中，所述风格编码向量用于表征音频特征；

4.根据权利要求3所述的方法，其特征在于，所述基于所述隐向量和所述风格编码向量，得到所述情绪语音信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述情绪语音信息和所述用户的脸部数据信息进行融合，生成交互式数字人像，包括：

根据所述情绪语音信息，确定语音特征向量；

6.根据权利要求5所述的方法，其特征在于，所述对所述用户的脸部关键点序列信息进行渲染，生成所述交互式数字人像，包括：

7.一种交互式数字人像生成装置，其特征在于，所述装置包括：

第二获取单元，用于从所述智能客服系统中获取预留的音频信息，并响应于用户的操作请求，获取所述用户的脸部数据信息；

8.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-6中任一项所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。