CN114332318A

CN114332318A - 一种虚拟形象生成方法及其相关设备

Info

Publication number: CN114332318A
Application number: CN202111679099.9A
Authority: CN
Inventors: 李林; 何山; 胡金水; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本申请公开了一种虚拟形象生成方法及其相关设备，该方法包括：在获取到待处理语音数据之后，先对该待处理语音数据进行语音特征提取，得到待使用语音特征，以使该待使用语音特征能够表示出该待处理语音数据所携带的语音信息；再根据该待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定该待处理语音数据对应的虚拟形象展示数据，以使该虚拟形象展示数据能够表示出与该待处理语音数据相匹配的虚拟形象，从而使得该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态，如此能够实现自动生成虚拟形象的目的。

Description

一种虚拟形象生成方法及其相关设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种虚拟形象生成方法及其相关设备。

背景技术

虚拟形象是一种随着数据处理技术(例如，语音合成技术、视频生成技术等)快速发展而出现的新的交互展示媒介；而且该虚拟形象能够极大提升人机交互自然度和体验感，在主播播报，客服，交互场景有着广泛的应用和发展前景。

然而，如何生成虚拟形象成为一种亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提供一种虚拟形象生成方法及其相关设备，能够实现自动生成虚拟形象。

本申请实施例提供了一种虚拟形象生成方法，所述方法包括：在获取到待处理语音数据之后，对所述待处理语音数据进行语音特征提取，得到待使用语音特征；根据所述待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据。

本申请实施例还提供了一种虚拟形象生成装置，包括：特征提取单元，用于在获取到待处理语音数据之后，对所述待处理语音数据进行语音特征提取，得到待使用语音特征；形象生成单元，用于根据所述待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据。

本申请实施例还提供了一种设备，所述设备包括：处理器、存储器、系统总线；所述处理器以及所述存储器通过所述系统总线相连；所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行申请实施例提供的虚拟形象生成方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行申请实施例提供的虚拟形象生成方法的任一实施方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的虚拟形象生成方法的任一实施方式。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的技术方案中，在获取到待处理语音数据(例如，语音流中的一帧语音数据等)之后，先对该待处理语音数据进行语音特征提取，得到待使用语音特征，以使该待使用语音特征能够表示出该待处理语音数据所携带的语音信息(例如，声纹、音素等)；再根据该待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定该待处理语音数据对应的虚拟形象展示数据，以使该虚拟形象展示数据能够表示出与该待处理语音数据相匹配的虚拟形象，从而使得该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态(例如，眼部表情、唇部表情等)，如此能够实现自动生成虚拟形象的目的。

另外，因虚拟形象生成模型具有较好的虚拟形象生成性能，使得基于该虚拟形象生成模型确定的虚拟形象展示数据，能够更好地表示出与该待处理语音数据相匹配的虚拟形象，从而使得该虚拟形象能够更好地展示出在发出该待处理语音数据时人物所呈现的脸部状态(例如，眼部表情、唇部表情等)，如此有利于提高虚拟形象生成效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种虚拟形象生成方法的流程图；

图2为本申请实施例提供的一种虚拟形象生成流程的示意图；

图3为本申请实施例提供的另一种虚拟形象生成流程的示意图；

图4为本申请实施例提供的一种人脸参数的提取过程的示意图；

图5为本申请实施例提供的一种虚拟形象生成装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例一

参见图1，该图为本申请实施例提供的一种虚拟形象生成方法的流程图。

本申请实施例提供的虚拟形象生成方法，包括S1-S2：

S1：在获取到待处理语音数据之后，对该待处理语音数据进行语音特征提取，得到待使用语音特征。

上述“待处理语音数据”是指需要进行虚拟形象生成处理的语音数据；而且本申请实施例不限定该“待处理语音数据”，例如，该“待处理语音数据”可以是一帧语音数据。又如，“待处理语音数据”可以是一段语音数据(也就是，该“待处理语音数据”包括至少两帧语音数据)。

另外，本申请实施例不限定上述“待处理语音数据”的获取过程，为了便于理解，下面结合三种情况进行说明。

情况1，当针对一段已获取到的音频数据进行虚拟形象生成处理，且上述“待处理语音数据”包括一帧语音数据时，上述“待处理语音数据”的获取过程具体可以包括：将音频数据中第m帧语音数据，确定为该待处理语音数据，以便后续能够借助针对该待处理语音数据的虚拟形象生成处理过程，确定该第m帧语音数据对应的虚拟形象展示图像，以使该虚拟形象展示图像能够表示出在发出该第m帧语音数据时人物所呈现的脸部状态。其中，m≤M，M为正整数，M表示上述“音频数据”中语音数据的帧数。

情况2，当针对一段已获取到的音频数据进行虚拟形象生成处理，且上述“待处理语音数据”包括至少两帧语音数据时，上述“待处理语音数据”的获取过程具体可以包括：将该音频数据，确定为待处理语音数据，以便后续能够借助针对该待处理语音数据中各帧语音数据的虚拟形象生成处理过程，确定该音频数据对应的虚拟形象展示图像，以使该虚拟形象展示图像能够表示出人在发出该音频数据时人物所呈现的脸部状态变化情况。

情况3，当针对实时语音流进行虚拟形象生成处理，且上述“待处理语音数据”包括一帧语音数据时，上述“待处理语音数据”的获取过程具体可以包括：在获取到当前帧语音数据之后，将该当前帧语音数据，确定为待处理语音数据，以便后续能够借助针对该待处理语音数据的虚拟形象生成处理过程，确定该当前帧语音数据对应的虚拟形象展示图像，以使该虚拟形象展示图像能够表示出在发出该当前帧语音数据时人物所呈现的脸部状态，如此能够实现针对语音流进行实时地虚拟形象生成处理，从而有利于提高虚拟形象生成的实时性。其中，上述“当前帧语音数据”用于代表从语音流中实时采集的语音数据。

上述“语音特征提取”用于针对一个语音数据进行语音信息提取处理(例如，梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)提取处理、音素提取处理等)；而且本申请实施例不限定该“语音特征提取”，其可以采用现有的或者未来出现的任意一种语音特征提取方法进行实施。

上述“待使用语音特征”用于表示待处理语音数据携带的语音信息(例如，声纹、音素等)；而且本申请实施例不限定该“待使用语音特征”，例如，其可以包括该待处理语音数据的MFCC、以及该待处理语音数据的音素特征中的至少一个。

S2：根据待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定待处理语音数据对应的虚拟形象展示数据。

上述“待使用人脸参数”用于表示在针对待处理语音数据进行虚拟形象生成处理时所需参考的基础脸部状态；而且本申请实施例不限定该“待使用人脸参数”，例如，其可以包括待使用人脸表情参数、待使用人脸位姿参数、以及待使用人脸形状参数中的至少一个。

上述“待使用人脸表情参数”用于表示在针对待处理语音数据进行虚拟形象生成处理时所需参考的基础脸部表情(例如，张嘴，睁闭眼等表情)；而且本申请实施例不限定该“待使用人脸表情参数”，例如，该“待使用人脸表情参数”可以只包括与唇形无关的脸部表情参数(也就是，与除了口型以外其他部位相关的脸部表情参数)。又如，“待使用人脸表情参数”可以包括与唇形相关的脸部表情参数、以及与唇形无关的脸部表情参数。

需要说明的是，上述“与唇形相关的脸部表情参数”用于控制人脸上的口型状态(例如，张嘴等)；上述“与唇形无关的脸部表情参数”用于控制人脸上除了口型以外其他部位(例如，眼部等)。

上述“待使用人脸位姿参数”用于表示在针对待处理语音数据进行虚拟形象生成处理时所需参考的基础脸部位姿(例如，低头，侧脸等人脸朝向姿态)。

上述“待使用人脸形状参数”用于表示在针对待处理语音数据进行虚拟形象生成处理时所需参考的基础脸部形状(例如，人脸长短，胖瘦等)。

另外，本申请实施例也不限定上述“待使用人脸参数”的获取过程，例如，可以由用户通过人机交互方式设定，也可以从用户提供的虚拟形象标准图像中提取，还可以使用在构建虚拟形象生成模型时所涉及的样本人脸参数进行实施。

需要说明的是，上述“样本人脸参数”的相关内容请参见下文步骤43的相关内容。另外，本申请实施例不限定“从虚拟形象标准图像中提取待使用人脸参数”的实施方式，例如，其可以类似于下文步骤43所示的“样本人脸参数”的确定过程。

上述“虚拟形象生成模型”用于针对该虚拟形象生成模型的输入数据进行虚拟形象生成处理；而且该“虚拟形象生成模型”是一种机器学习模型。需要说明的是，上述“虚拟形象生成模型”的相关内容请参见下文方法实施例二。

上述“待处理语音数据对应的虚拟形象展示数据”用于表示与该待处理语音数据相匹配的虚拟形象，以使该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态(例如，眼部表情、唇部表情等)。

另外，本申请实施例不限定上述“待处理语音数据对应的虚拟形象展示数据”，例如，若上述“待处理语音数据”包括一帧语音数据，则该“待处理语音数据对应的虚拟形象展示数据”是一个图像数据。又如，若上述“待处理语音数据”包括至少两帧语音数据，则该“待处理语音数据对应的虚拟形象展示数据”可以是一个图像数据序列。

此外，本申请实施例不限定上述“图像数据序列”的确定过程，例如，当上述“待处理语音数据”包括J帧语音数据，且上述“待使用语音特征”包括J帧语音数据的语音特征时，该“图像数据序列”的确定过程，具体可以包括步骤11-步骤12：

步骤11：根据第j帧语音数据的语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定第j帧语音数据对应的虚拟形象展示图像；其中，j为正整数，j≤J，J为正整数，且J≥2。

上述“第j帧语音数据的语音特征”用于表示待处理语音数据中第j帧语音数据携带的语音信息(例如，声纹、音素等)；而且本申请实施例不限定该“第j帧语音数据的语音特征”，例如，其可以包括该第j帧语音数据的MFCC、以及该第j帧语音数据的音素特征中的至少一个。

上述“第j帧语音数据对应的虚拟形象展示图像”用于表示与待处理语音数据中第j帧语音数据相匹配的虚拟形象，以使该虚拟形象能够展示出在发出该第j帧语音数据时人物所呈现的脸部状态(例如，眼部表情、唇部表情等)。

本申请实施例不限定步骤11的实施方式，例如，其类似于下文方法实施例二所示的获取“待处理语音数据对应的虚拟形象展示数据”的任一实施方式。

步骤12：根据第1帧语音数据对应的虚拟形象展示图像至第J帧语音数据对应的虚拟形象展示图像，确定待处理语音数据对应的虚拟形象展示数据。

本申请实施例中，在获取到待处理语音数据中第1帧语音数据对应的虚拟形象展示图像、第2帧语音数据对应的虚拟形象展示图像、……、以及第J帧语音数据对应的虚拟形象展示图像之后，可以按照该J帧语音数据的时序，将该J帧语音数据对应的虚拟形象展示图像进行排序并集合，得到该待处理语音数据对应的虚拟形象展示数据，以使该虚拟形象展示数据包括有序排列的J个虚拟形象展示图像，如此使得该虚拟形象展示数据能够以一个图像数据序列的方式表示在发出该待处理语音数据时人物所呈现的脸部状态变化，以便后续能够基于该虚拟形象展示数据以及该待处理语音数据，构建一个视频数据，以使该视频数据能够将每帧语音数据及其对应的虚拟形象展示数据进行同步播放。

基于上述步骤11至步骤12的相关内容可知，对于一个包括多帧语音数据的语音段来说，可以先针对该语音段中每帧语音数据分别进行虚拟形象生成处理，得到每帧语音数据对应的虚拟形象展示图像；再按照这些语音数据的采集时间从早到晚的顺序，将这些虚拟形象展示图像进行排序并集合，得到该语音段对应的图像数据序列，以使该图像数据序列能够配合该语音段的播放速度展示人脸状态变化，如此使得该图像数据序列能够更好地表示出在发出该语音段时人物所呈现的脸部状态变化。

基于上述S1至S2的相关内容可知，对于本申请实施例提供的虚拟形象生成方法来说，在获取到待处理语音数据之后，先对该待处理语音数据进行语音特征提取，得到待使用语音特征，以使该待使用语音特征能够表示出该待处理语音数据所携带的语音信息(例如，声纹、音素等)；再根据该待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定该待处理语音数据对应的虚拟形象展示数据，以使该虚拟形象展示数据能够表示出与该待处理语音数据相匹配的虚拟形象，从而使得该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态(例如，眼部表情、唇部表情等)，如此能够实现自动生成虚拟形象的目的。

此外，本申请实施例不限定虚拟形象生成方法的执行主体，例如，本申请实施例提供的虚拟形象生成方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

方法实施例二

为了提高虚拟形象生成效果，本申请实施例还提供了上述“虚拟形象生成模型”的一种可能的实施方式，其具体可以包括：唇形表情参数预测模块、参数融合模块、无纹理图像渲染模块和纹理图像生成模块；而且该参数融合模块的输入数据包括该唇形表情参数预测模块的输出数据，该无纹理图像渲染模块的输入数据包括该参数融合模块的输出数据，该纹理图像生成模块的输入数据包括该无纹理图像渲染模块的输出数据。

为了便于理解上述“虚拟形象生成模型”的工作原理，下面以上文“待处理语音数据对应的虚拟形象展示数据”的确定过程为例进行说明。

作为示例，当上文“待处理语音数据”包括一帧语音数据、而且上文“待使用人脸参数”包括待使用人脸表情参数、待使用人脸位姿参数、以及待使用人脸形状参数时，上述“待处理语音数据对应的虚拟形象展示数据”的确定过程，具体可以包括步骤21-步骤24：

步骤21：将待使用语音特征输入唇形表情参数预测模块，得到该唇形表情参数预测模块输出的待使用唇形表情参数。

上述“唇形表情参数预测模块”用于针对该唇形表情参数预测模块的输入数据进行唇形表情参数预测处理；而且本申请实施例不限定该“唇形表情参数预测模块”，例如，其可以包括：多层全连接网络(例如，3层全连接网络)进行实施。

需要说明的是，上述“唇形表情参数”是指与唇形相关的脸部表情参数。

上述“待使用唇形表情参数”用于表示在发出该待处理语音数据时人物所呈现的与口型相关的脸部表情。

步骤22：将待使用唇形表情参数和待使用人脸表情参数输入参数融合模块，得到该参数融合模块输出的待使用表情融合参数。

上述“参数融合模块”用于针对该参数融合模块的输入数据进行融合处理；而且本申请实施例不限定该“参数融合模块”的实施方式，例如，可以采用现有的或者未来出现的任一种特征融合方法进行实施。

上述“待使用表情融合参数”用于表示在发出该待处理语音数据时人物所呈现的脸部表情(例如，与口型相关的脸部表情、以及与除了口型以外其他部位相关的脸部表情等)。

另外，本申请实施例不限定上述“待使用表情融合参数”的确定过程，为了便于理解，下面结合两个示例进行说明。

示例1，若上述“待使用人脸表情参数”包括与唇形相关的脸部表情参数、以及与唇形无关的脸部表情参数，则上述“待使用表情融合参数”的确定过程具体可以为：利用待使用唇形表情参数，直接替换待使用人脸表情参数中与唇形相关的脸部表情参数，得到待使用表情融合参数。

需要说明的是，本申请实施例不限定上述“替换”的实施方式，例如，其具体可以为：先将待使用人脸表情参数中与唇形相关的脸部表情参数删除，得到删除后表情参数；再将该删除后表情参数与待使用唇形表情参数进行拼接处理(如公式(1)所示)，得到待使用表情融合参数。

β_joint＝concat(β_other，β_lip) (1)

式中，β_joint表示待使用表情融合参数；β_other表示删除后表情参数(也就是，与唇形无关的脸部表情参数)；β_lip表示待使用唇形表情参数。

示例2，若上述“待使用人脸表情参数”只包括与唇形无关的脸部表情参数，则上述“待使用表情融合参数”的确定过程具体可以为：将该待使用人脸表情参数与待使用唇形表情参数进行拼接处理(如图2所示)，得到待使用表情融合参数。

基于步骤22的相关内容可知，对于虚拟形象生成模型来说，在获取到待使用唇形表情参数之后，可以由该虚拟形象生成模型中参数融合模块，将待使用唇形表情参数与待使用人脸表情参数进行融合处理，得到并输出待使用表情融合参数，以使该待使用表情融合参数能够更好的表示出在发出该待处理语音数据时人物所呈现的脸部状态，如此能够实现针对与口型相关的脸部表情参数进行可控编辑的目的，从而能够有效地避免虚拟形象口型发生错误的现象。

步骤23：将待使用表情融合参数、待使用人脸位姿参数、以及待使用人脸形状参数输入无纹理图像渲染模块，得到该无纹理图像渲染模块输出的待使用无纹理图像。

上述“待使用无纹理图像”是指针对待处理语音数据生成的无纹理人脸图像(如图2所示)。

上述“无纹理图像渲染模块”用于针对该无纹理图像渲染模块的输入数据进行无纹理图像渲染处理(尤其是，无纹理图像可微渲染处理)；而且本申请实施例不限定该“无纹理图像渲染模块”的工作原理，为了便于理解，下面以上述“待使用无纹理图像”的确定过程为例进行说明。

作为示例，利用无纹理图像渲染模块确定上述“待使用无纹理图像”的过程，具体可以包括步骤31-步骤33：

步骤31：根据待使用人脸位姿参数，确定待使用转换矩阵。

上述“待使用转换矩阵”是指根据待使用人脸位姿参数得到的转换矩阵；而且本申请实施例不限定上述“待使用转换矩阵”的确定过程。

步骤32：根据待使用转换矩阵、待使用表情融合参数、以及待使用人脸形状参数，确定待使用三维人脸模型。

上述“待使用三维人脸模型”用于表示在发出该待处理语音数据时人物具有的三维人脸；而且本申请实施例不限定该“待使用三维人脸模型”的确定过程，例如，其可以采用公式(2)进行实施。

式中，V_proj表示待使用三维人脸模型，且该V_proj包括待使用三维人脸模型的顶点坐标；M表示待使用转换矩阵(也就是，根据待使用人脸位姿参数得到的转换矩阵)；

为人脸模型平均脸，而且该

可以预先设定；SP_ki表示三维人脸模型中的人脸形状基，而且该SP_ki可以预先设定；α表示待使用人脸形状参数；EP_ki表示三维人脸模型中的人脸表情基，而且该EP_ki可以预先设定；β_joint表示待使用表情融合参数。

步骤33：根据待使用三维人脸模型，确定待使用无纹理图像。

本申请实施例不限定步骤33的实施方式，例如，为了能够更好地实现端到端的虚拟形象生成过程，步骤33具体可以包括：按照可微的软光栅化方法，将待使用三维人脸模型进行图像渲染处理，得到待使用无纹理图像。为了便于理解上述“软光栅化方法”的工作原理，下面结合示例进行说明。

作为示例，步骤33具体可以包括步骤331-步骤332：

步骤331：将待使用三维人脸模型进行二维图像投影处理，得到二维概率密度图。

上述“二维概率密度图”用于表示待使用三维人脸模型中各个三角面在二维图像上各个像素点的投影概率。

另外，本申请实施例不限定步骤331的实施方式，例如，其可以采用公式(3)进行实施。

式中，

表示待使用三维人脸模型中第b个三角面在二维图像上第i个像素点的投影概率；b为正整数，b≤B，B为正整数，B表示待使用三维人脸模型中三角面个数；

表示指示因子，而且该

的确定过程为：若二维图像上第i个像素点位于该第b个三角面在二维图像上的投影三角形内部，则

但是，若二维图像上第i个像素点位于该第b个三角面在二维图像上的投影三角形之外，则

d²(i，b)表示二维图像上第i个像素点与第b个三角面中最近边的欧式距离；σ为超参数，可以预先设定，且σ用于调节概率密度图的形状。

需要说明的是，公式(3)的含义为：对于待使用三维人脸模型中第b个三角面在二维图像上的投影三角形来说，该投影三角形内部像素点概率密度范围在[0.5，1]之间，且外部点在[0，0.5]之间。

步骤332：根据二维概率密度图、以及待使用三维人脸模型，确定待使用无纹理图像(如公式(4)-(6)所示)。

式中，

表示待使用无纹理图像中第i个像素点的像素值(也就是，深度值)；

表示第i个像素点在待使用三维人脸模型的第b个三角面中对应点的深度值；

表示

的加权权重；

表示待使用三维人脸模型的第b个三角面中第1个顶点的深度值(也就是，第1个顶点的顶点坐标中z轴坐标值)；

表示待使用三维人脸模型的第b个三角面中第2个顶点的深度值(也就是，第2个顶点的顶点坐标中z轴坐标值)；

表示待使用三维人脸模型的第b个三角面中第3个顶点的深度值(也就是，第3个顶点的顶点坐标中z轴坐标值)；

表示

的加权权重，且

可以根据上述“第i个像素点在待使用三维人脸模型的第b个三角面中对应点”与该第b个三角面中第1个顶点之间的距离进行确定；

表示

的加权权重，且

可以根据上述“第i个像素点在待使用三维人脸模型的第b个三角面中对应点”与该第b个三角面中第2个顶点之间的距离进行确定；

表示

的加权权重，且

可以根据上述“第i个像素点在待使用三维人脸模型的第b个三角面中对应点”与该第b个三角面中第3个顶点之间的距离进行确定；γ为超参数，可以预先设定。

需要说明的是，上述

可以是指重心坐标计算的深度值；而且在确定该

时所涉及的加权权重均可以基于重心坐标进行确定。另外，上述

表示与像素点距离近的三角面以及更趋向于表面的深度数值会产生更大的权重。

基于上述步骤331至步骤332的相关内容可知，在获取到待使用三维人脸模型之后，可以按照软光栅化方法，将该待使用三维人脸模型渲染到图像上，得到待使用无纹理图像，如此能够实现像素梯度回传，从而有利于提高虚拟形象生成效果。另外，因软光栅化方法是一种可微渲染方法，使得基于该软光栅化方法实现的虚拟形象生成模型可以进行梯度回传，如此能够更好地实现端到端的虚拟形象生成过程。

基于上述步骤23的相关内容可知，对于虚拟形象生成模型来说，在获取到待使用表情融合参数之后，可以由该虚拟形象生成模型中无纹理图像渲染模块，针对该待使用表情融合参数、待使用人脸位姿参数、以及待使用人脸形状参数进行无纹理人脸图像生成处理，得到待使用无纹理图像，以便后续能够基于该待使用无纹理图像，生成待处理语音数据对应的虚拟形象展示数据。

步骤24：根据待使用无纹理图像和纹理图像生成模块，确定待处理语音数据对应的虚拟形象展示数据。

上述“纹理图像生成模块”用于针对该纹理图像生成模块的输入数据进行图像生成处理；而且本申请实施例不限定该“纹理图像生成模块”，例如，其可以采用经过U-net结构的生成式对抗网络(Generative Adversarial Networks，GAN)中的生成网络进行实施。

本申请实施例不限定步骤24的实施方式，例如，其具体可以包括：将待使用无纹理图像输入纹理图像生成模块，得到该纹理图像生成模块输出的待处理语音数据对应的虚拟形象展示数据。

另外，为了提高虚拟形象生成效果，本申请实施例还提供了步骤24的另一种可能的实施方式，其具体可以包括：根据待使用无纹理图像、至少一帧虚拟形象参考图像和纹理图像生成模块，确定待处理语音数据对应的虚拟形象展示数据。

上述“至少一帧虚拟形象参考图像”是指在针对待处理语音数据进行虚拟形象生成处理时所需参考的虚拟形象展示图像。

另外，本申请实施例不限定上述“至少一帧虚拟形象参考图像”的获取方式，例如，其可以预先设定。又如，为了提高虚拟形象时序上的连续性，上述“至少一帧虚拟形象参考图像”可以是指待处理语音数据对应的至少一个虚拟形象历史图像(例如，图3所示的“前两帧语音数据对应的图像生成数据”)，而且该“待处理语音数据对应的至少一个虚拟形象历史图像”可以是根据待处理语音数据对应的至少一帧历史语音数据生成的。其中，“待处理语音数据对应的至少一帧历史语音数据”的采集时间早于该待处理语音数据的采集时间。

作为示例，假设，上述“待处理语音数据”为一个语音段(或者，一个实时语音流)中的第r帧语音数据；第r-e个虚拟形象历史图像是通过针对该语音段(或者，该实时语音流)中的第r-e帧语音数据进行虚拟形象生成处理确定的；e为正整数，e≤E，E为正整数，r为正整数。

基于上述假设可知，当上述“至少一帧虚拟形象参考图像”包括E个虚拟形象历史图像时，上述“待处理语音数据对应的至少一帧历史语音数据”可以包括第r-1帧语音数据、第r-2帧语音数据、……、以及第r-E帧语音数据，而且该“至少一帧虚拟形象参考图像”可以包括第r-1个虚拟形象历史图像、第r-2个虚拟形象历史图像、……、以及第r-E个虚拟形象历史图像。

此外，本申请实施例不限定上述步骤“根据待使用无纹理图像、至少一帧虚拟形象参考图像和纹理图像生成模块，确定待处理语音数据对应的虚拟形象展示数据”的实施方式，例如，其具体可以包括步骤241-步骤242：

步骤241：将待使用无纹理图像和至少一帧虚拟形象参考图像进行相加，得到待使用融合图像(如公式(7)所示)。

式中，F_Add表示待使用融合图像；f_r表示待使用无纹理图像(例如，上文“第r帧语音数据”对应的虚拟形象展示图像)；f_r-e表示第e帧虚拟形象参考图像(例如，上文“第r-e个虚拟形象历史图像”)；e为正整数，e≤E，E为正整数，r为正整数。

步骤242：将待使用融合图像输入纹理图像生成模块，得到该纹理图像生成模块输出的待处理语音数据对应的虚拟形象展示数据。

本申请实施例中，对于虚拟形象生成模型来说，在获取到待使用融合图像之后，由该虚拟形象生成模型中纹理图像生成模块针对该待使用融合图像进行图像生成处理，得到并输出待处理语音数据对应的虚拟形象展示数据。

基于上述步骤21至步骤24的相关内容可知，对于包括唇形表情参数预测模块、参数融合模块、无纹理图像渲染模块和纹理图像生成模块的虚拟形象生成模型来说，在获取到待使用语音特征之后，可以先由该唇形表情参数预测模块针对该待使用语音特征进行唇形表情参数预测处理，得到待使用唇形表情参数，以使该待使用唇形表情参数能够更准确地表示出在发出该待处理语音数据时人物所呈现的与口型相关的脸部表情；再由该参数融合模块将该待使用唇形表情参数与待使用人脸表情参数进行融合处理，得到表情融合参数，以使该表情融合参数能够更好地表示出在发出该待处理语音数据时人物所呈现的脸部表情；最后，由无纹理图像渲染模块以及纹理图像生成模块，参考该表情融合参数、待使用人脸位姿参数、以及待使用人脸形状参数，生成待处理语音数据对应的虚拟形象展示数据，以使该虚拟形象展示数据能够更准确地表示出与该待处理语音数据相匹配的虚拟形象，如此有利于提高虚拟形象生成效果。

方法实施例三

为了提高虚拟形象生成模型的虚拟形象生成性能，本申请实施例还提供了构建上述“虚拟形象生成模型”的一种可能的实施方式，其具体可以包括步骤41-44：

步骤41：获取样本视频。

上述“样本视频”是指在构建虚拟形象生成模型时所需使用的视频数据；而且本申请实施例不限定该“样本视频”的个数。需要说明的是，为了便于说明，步骤42-步骤44均是以一个样本视频的使用过程为例进行说明的。

步骤42：根据样本视频，确定至少一个样本语音数据和至少一个样本语音数据对应的视频图像。

上述“第n个样本语音数据”用于表示从样本视频中抽取的与第n帧视频图像相对应的语音数据；而且该“第n个样本语音数据”在该样本视频中的播放时间与该第n帧视频图像的播放时间保持一致。其中，n为正整数，n≤N，N为正整数，N表示样本语音数据的个数。

“第n个样本语音数据对应的视频图像”是指样本视频中与该第n个样本语音数据相对应的视频图像(也就是，该样本视频中的第n帧视频图像)。其中，n为正整数，n≤N，N为正整数，N表示样本语音数据的个数。

本申请实施例不限定步骤42的实施方式，例如，当样本视频包括N帧视频图像时，步骤42具体可以包括：将该样本视频中第n帧视频图像所对应的语音数据，确定为第n个样本语音数据，并将该样本视频中第n帧视频图像，确定为该第n个样本语音数据对应的视频图像。其中，n为正整数，n≤N。

步骤43：根据各个样本语音数据对应的视频图像，确定各个样本语音数据对应的样本人脸参数。

“第n个样本语音数据对应的样本人脸参数”用于表示该第n个样本语音数据对应的视频图像所携带的人脸状态；而且本申请实施例不限定该“第n个样本语音数据对应的样本人脸参数”，例如，其可以包括：该第n个样本语音数据对应的样本人脸表情参数、该第n个样本语音数据对应的样本人脸位姿参数、以及该第n个样本语音数据对应的样本人脸形状参数中的至少一个。其中，n为正整数，n≤N。

上述“第n个样本语音数据对应的样本人脸表情参数”用于表示该第n个样本语音数据对应的视频图像所携带的人脸表情(例如，张嘴，睁闭眼等表情)；而且本申请实施例不限定该“第n个样本语音数据对应的样本人脸表情参数”，例如，其可以只包括与唇形无关的脸部表情参数。又如，“第n个样本语音数据对应的样本人脸表情参数”可以包括与唇形相关的脸部表情参数、以及与唇形无关的脸部表情参数。

上述“第n个样本语音数据对应的样本人脸位姿参数”用于表示该第n个样本语音数据对应的视频图像所携带的脸部位姿(例如，低头，侧脸等人脸朝向姿态)。

上述“第n个样本语音数据对应的样本人脸形状参数”用于表示该第n个样本语音数据对应的视频图像所携带的脸部形状(例如，人脸长短，胖瘦等)

另外，本申请实施例不限定上述“第n个样本语音数据对应的样本人脸参数”的确定过程，例如，其具体可以包括步骤431-步骤433：

步骤431：对第n个样本语音数据对应的视频图像进行人脸关键点提取处理，得到该第n个样本语音数据对应的人脸关键点实际坐标。其中，n为正整数，n≤N。

需要说明的是，本申请实施例不限定步骤431的实施方式，可以采用现有的或者未来出现的任意一种人脸关键点提取方法进行实施。

步骤432：根据开源三维人脸模型，对第n个样本语音数据对应的人脸关键点实际坐标进行三维人脸重建处理，得到该第n个样本语音数据对应的三维人脸重建模型。其中，n为正整数，n≤N。

需要说明的是，本申请实施例不限定步骤432的实施方式，可以采用现有的或者未来出现的任意一种三维人脸重建方法进行实施。

步骤433：根据第n个样本语音数据对应的三维人脸重建模型，确定该第n个样本语音数据对应的样本人脸参数。其中，n为正整数，n≤N。

本申请实施例中，在获取到第n个样本语音数据对应的三维人脸重建模型(例如，图4所示的三维人脸重建模型)之后，可以先从该三维人脸重建模型的重建参数中分别提取人脸形状参数(控制人脸长短，胖瘦等形状)、人脸表情参数(控制人脸张嘴，睁闭眼等表情)、以及人脸位姿参数(控制低头，侧脸等人脸朝向)；再根据该人脸形状参数、人脸表情参数以及人脸位姿参数，确定该第n个样本语音数据对应的样本人脸参数，以使该“第n个样本语音数据对应的样本人脸参数”包括该人脸形状参数、人脸表情参数以及人脸位姿参数。

基于上述步骤43的相关内容可知，在从样本视频中抽取出各个样本语音数据对应的视频图像之后，可以先针对各个样本语音数据对应的视频图像进行人脸关键点提取处理，得到各个样本语音数据对应的人脸关键点实际坐标；再根据各个样本语音数据对应的人脸关键点实际坐标，确定各个样本语音数据对应的样本人脸参数。

步骤44：利用至少一个样本语音数据的语音特征、该至少一个样本语音数据对应的样本人脸参数、以及该至少一个样本语音数据对应的视频图像，构建虚拟形象生成模型。

需要说明的是，本申请实施例不限定步骤44的实施方式，例如，步骤44具体可以包括步骤441-步骤444：

步骤441：根据至少一个样本语音数据的语音特征、该至少一个样本语音数据对应的样本人脸参数、以及待训练模型，确定该至少一个样本语音数据对应的虚拟形象生成图像。

“第n个样本语音数据对应的虚拟形象生成图像”是指该第n个样本语音数据的虚拟形象预测结果。其中，n为正整数，n≤N。

上述“待训练模型”用于针对该待训练模型的输入数据进行虚拟形象生成处理；而且本申请实施例不限定该“待训练模型”，例如，其可以包括唇形表情参数预测层、参数融合层、无纹理图像渲染层和纹理图像生成层，而且该纹理图像生成层的输入数据包括该无纹理图像渲染层的输出数据，该无纹理图像渲染层的输入数据包括该参数融合层的输出数据，该参数融合层的输入数据包括该唇形表情参数预测层的输出数据。

另外，本申请实施例不限定上述“纹理图像生成层”的实施方式，例如，其可以采用GAN网络进行实施。可见，上述“纹理图像生成层”可以包括生成网络和判断网络。其中，上述“生成网络”用于进行图像数据生成处理；上述“判断网络”用于判断一个图像数据是否为真图。

为了便于理解上述“待训练模型”的工作原理，下面以“第n个样本语音数据对应的虚拟形象生成图像”的确定过程为例进行说明。

作为示例，当上述“样本人脸参数”包括样本人脸表情参数、样本人脸位姿参数、以及样本人脸形状参数，且上述“纹理图像生成层”包括生成网络和判断网络时，利用上述“待训练模型”确定“第n个样本语音数据对应的虚拟形象生成图像”的过程，具体可以包括步骤51-步骤55：

步骤51：将第n个样本语音数据的语音特征输入唇形表情参数预测层，得到该唇形表情参数预测层输出的第n个样本唇形表情参数。

上述“唇形表情参数预测层”用于针对该唇形表情参数预测层的输入数据进行唇形表情参数预测处理；而且本申请实施例不限定该“唇形表情参数预测层”的网络结构，例如，其可以类似于上文“唇形表情参数预测模块”的网络结构。

上述“第n个样本唇形表情参数”用于表示在发出第n个样本语音数据时人物预测呈现的与口型相关的脸部表情。

步骤52：将第n个样本唇形表情参数和第n个样本语音数据对应的样本人脸表情参数输入参数融合层，得到该参数融合层输出的第n个表情融合参数。

上述“参数融合层”用于针对该参数融合层的输入数据进行融合处理；而且本申请实施例不限定该参数融合层”的网络结构，例如，其可以类似于上文“参数融合模块”的网络结构。

上述“第n个表情融合参数”用于表示在发出该待处理语音数据时人物预测呈现的脸部表情(例如，与口型相关的脸部表情、以及与除了口型以外其他部位相关的脸部表情等)。

另外，本申请实施例不限定上述“第n个表情融合参数”的确定过程，例如，其类似于上文“表情融合参数”的确定过程。

步骤53：将第n个表情融合参数、第n个样本语音数据对应的样本人脸位姿参数、以及该第n个样本语音数据对应的样本人脸形状参数输入无纹理图像渲染层，得到该无纹理图像渲染层输出的第n个样本无纹理图像。

上述“无纹理图像渲染层”用于针对该无纹理图像渲染层的输入数据进行无纹理图像渲染处理；而且本申请实施例不限定该“无纹理图像渲染层”的工作原理，例如，其类似于上文“无纹理图像渲染模块”的工作原理。

上述“第n个样本无纹理图像”是指针对第n个样本语音数据生成的无纹理人脸图像；而且本申请实施例不限定该“第n个样本无纹理图像”的确定过程，例如，该“第n个样本无纹理图像”的确定过程类似于上文“待使用无纹理图像”的确定过程。为了便于理解，下面结合示例进行说明。

作为示例，“第n个样本无纹理图像”的确定过程，具体可以包括步骤531-步骤533：

步骤531：根据第n个样本语音数据对应的样本人脸位姿参数，确定该第n个样本语音数据对应的转换矩阵。

步骤532：根据第n个样本语音数据对应的转换矩阵、第n个表情融合参数、以及该第n个样本语音数据对应的样本人脸形状参数，确定该第n个样本语音数据对应的三维人脸模型。

步骤533：根据第n个样本语音数据对应的三维人脸模型，确定第n个样本无纹理图像。

需要说明的是，步骤531-步骤533的实施方式分别类似于上文步骤31-步骤33的实施方式。

基于上述步骤53的相关内容可知，对于待训练模型来说，在获取到第n个表情融合参数之后，可以由该待训练模型中无纹理图像渲染层，参考该第n个表情融合参数、第n个样本语音数据对应的样本人脸位姿参数、以及该第n个样本语音数据对应的样本人脸形状参数，进行无纹理图像渲染处理，得到并输出第n个样本无纹理图像。

步骤54：将第n个样本无纹理图像输入生成网络，得到该生成网络输出的第n个样本语音数据对应的虚拟形象生成图像。

上述“生成网络”用于针对该生成网络的输入数据进行图像生成处理；而且本申请实施例不限定该“生成网络”，例如，其可以采用GAN中的生成网络进行实施。

步骤55：将第n个样本语音数据对应的虚拟形象生成图像输入判断网络，得到该判断网络输出的第n个第一判断结果。

上述“判断网络”用于针对该判断网络的输入数据进行真假判断(也就是，确定是真图，还是由生成网络生成的图像)；而且本申请实施例不限定该“判断网络”，例如，其可以采用GAN中的判断网络进行实施。

上述“第n个第一判断结果”是指该第n个样本语音数据对应的虚拟形象生成图像的真假判断结果，以使该“第n个第一判断结果”用于表示该第n个样本语音数据对应的虚拟形象生成图像是否为真图，从而使得该“第n个第一判断结果”能够表示出该“第n个样本语音数据对应的虚拟形象生成图像”的真实性程度(也就是，以假乱真程度)。

基于上述步骤51至步骤55的相关内容可知，对于包括唇形表情参数预测层、参数融合层、无纹理图像渲染层和纹理图像生成层的待训练模型来说，该待训练模型不仅能够输出针对一个语音数据的虚拟形象生成结果，还能够输出该虚拟形象生成结果的真假判断结果，以便后续能够基于该虚拟形象生成结果以及该真假判断结果，确定该待训练模型的预测性能。

另外，为了进一步提高虚拟形象生成效果，本申请实施例还提供了步骤44的另一种可能的实施方式(如图3所示)，其具体可以包括：根据第n个样本语音数据的语音特征、该第n个样本语音数据对应的样本人脸参数、该第n个样本语音数据对应的第二虚拟形象参考数据、以及待训练模型，确定该第n个样本语音数据对应的虚拟形象生成图像。其中，n为正整数，n≤N，N为正整数。

上述“第n个样本语音数据对应的第二虚拟形象参考数据”是指在针对该第n个样本语音数据进行虚拟形象生成处理时所需参考的虚拟形象展示图像。

另外，本申请实施例不限定上述“第n个样本语音数据对应的第二虚拟形象参考数据”的确定过程，例如，其具体可以包括步骤61-步骤62：

步骤61：若n≥2，则根据第n-1个样本语音数据对应的虚拟形象生成图像，确定第n个样本语音数据对应的第二虚拟形象参考数据。

示例1，若上述“第二虚拟形象参考数据”包括一帧图像数据，则步骤61具体可以为：将第n-1个样本语音数据对应的虚拟形象生成图像，确定为第n个样本语音数据对应的第二虚拟形象参考数据。其中，2≤n≤N。

可见，对于第n个样本语音数据来说，可以参考该第n个样本语音数据的前一个样本语音数据对应的虚拟形象生成图像，对该第n个样本语音数据进行虚拟形象生成处理，得到该第n个样本语音数据对应的虚拟形象生成图像，以使该虚拟形象生成图像能够更好地表示出与该待处理语音数据相匹配的虚拟形象。

需要说明的是，上述“第n个样本语音数据的前一个样本语音数据”在上文“样本视频”中的播放时间早于该第n个样本语音数据的播放时间，而且该“第n个样本语音数据的前一个样本语音数据”在上文“样本视频”中的播放时间距离该第n个样本语音数据的播放时间最近。

示例2，当上述“第二虚拟形象参考数据”包括D帧图像数据，且D为正整数，D＞2时，步骤61具体可以包括步骤611-步骤612：

步骤611：若n＞D，则根据第n-D个样本语音数据对应的虚拟形象生成图像至第n-1个样本语音数据对应的虚拟形象生成图像，确定第n个样本语音数据对应的第二虚拟形象参考数据。

需要说明的是，本申请实施例不限定步骤611的实施方式，例如，其具体可以包括：将第n-D个样本语音数据对应的虚拟形象生成图像至第n-1个样本语音数据对应的虚拟形象生成图像进行集合处理，得到第n个样本语音数据对应的第二虚拟形象参考数据。

步骤612：若2≤n≤D，则根据至少一个预设虚拟形象生成图像、以及前n-1个样本语音数据对应的虚拟形象生成图像，确定第n个样本语音数据对应的第二虚拟形象参考数据。

上述“预设虚拟形象生成图像”可以预先设定；而且本申请实施例不限定该“预设虚拟形象生成图像”；而且本申请实施例不限定该“预设虚拟形象生成图像”的个数，例如，其可以利用公式(8)进行确定。

Number_Preset＝D-(n-1)＝D-n+1 (8)

式中，Number_Preset表示上述“预设虚拟形象生成图像”的个数。

另外，本申请实施例不限定步骤612的实施方式，例如，其具体可以包括：将至少一个预设虚拟形象生成图像、以及前n-1个样本语音数据对应的虚拟形象生成图像进行集合处理，得到该第n个样本语音数据对应的第二虚拟形象参考数据，以使该第二虚拟形象参考数据包括D个图像数据。

基于上述示例2的相关内容可知，当上述“第二虚拟形象参考数据”包括D帧图像数据时，对于第n个样本语音数据来说，若该第n个样本语音数据在上文“样本视频”中所对应的图像帧数高于D，则可以将该第n个样本语音数据的前D个样本语音数据对应的虚拟形象生成图像，确定为该第n个样本语音数据对应的第二虚拟形象参考数据；若该第n个样本语音数据在上文样本视频中所对应的图像帧数不高于D，则在确定该“第n个样本语音数据对应的第二虚拟形象参考数据”时，不仅需要利用该“样本视频”中播放时间早于该第n个样本语音数据的所有样本语音数据对应的虚拟形象生成图像，还需要利用一些预设虚拟形象生成图像进行图像数据补全。

需要说明的是，上述“第n个样本语音数据的前D个样本语音数据”在上文“样本视频”中的播放时间均早于该第n个样本语音数据的播放时间，而且该“第n个样本语音数据的前D个样本语音数据”在上文“样本视频”中的播放时间距离该第n个样本语音数据的播放时间比较近。

基于上述步骤61的相关内容可知，对于第n个样本语音数据来说，若上文“样本视频”中存在播放时间早于该第n个样本语音数据的至少一个样本语音数据，则可以参考该至少一个样本语音数据对应的虚拟形象生成图像，确定该第n个样本语音数据对应的第二虚拟形象参考数据。

步骤62：若n＝1，则将预设虚拟形象展示数据，确定为第n个样本语音数据对应的第二虚拟形象参考数据。

上述“预设虚拟形象展示数据”可以预先设定；而且本申请实施例不限定该“预设虚拟形象展示数据”，例如，若上述“第二虚拟形象参考数据”包括一帧图像数据，则该“预设虚拟形象展示数据”可以是上文“预设虚拟形象生成图像”。又如，若上述“第二虚拟形象参考数据”包括D个图像数据，则该“预设虚拟形象展示数据”可以包括D个预设虚拟形象生成图像。

基于上述步骤61至步骤62的相关内容可知，对于第n个样本语音数据来说，可以参考该第n个样本语音数据的前几个样本语音数据对应的虚拟形象生成图像，确定该第n个样本语音数据对应的第二虚拟形象参考数据，以便后续能够基于该“第n个样本语音数据对应的第二虚拟形象参考数据”，针对该第n个样本语音数据进行虚拟形象生成处理，得到该第n个样本语音数据对应的虚拟形象生成图像，如此有利于提高该虚拟形象在时序上的连续性，从而有利于提高虚拟形象生成效果。

另外，本申请实施例不限定上文步骤“根据第n个样本语音数据的语音特征、该第n个样本语音数据对应的样本人脸参数、该第n个样本语音数据对应的第二虚拟形象参考数据、以及待训练模型，确定该第n个样本语音数据对应的虚拟形象生成图像”的实施方式，例如，其具体可以包括步骤71-步骤76：

步骤71：将第n个样本语音数据的语音特征输入唇形表情参数预测层，得到该唇形表情参数预测层输出的第n个样本唇形表情参数。

步骤72：将第n个样本唇形表情参数和第n个样本语音数据对应的样本人脸表情参数输入参数融合层，得到该参数融合层输出的第n个表情融合参数。

步骤73：将第n个表情融合参数、第n个样本语音数据对应的样本人脸位姿参数、以及该第n个样本语音数据对应的样本人脸形状参数输入无纹理图像渲染层，得到该无纹理图像渲染层输出的第n个样本无纹理图像。

需要说明的是，步骤71-步骤73的相关内容请分别参见步骤51-步骤53的相关内容。

步骤74：将第n个样本无纹理图像与第n个样本语音数据对应的第二虚拟形象参考数据进行相加，得到第n个融合图像。

需要说明的是，本申请实施例不限定步骤74的实施方式，例如，其可以类似于上文步骤241的任一实施方式。

步骤75：将第n个融合图像输入生成网络，得到该生成网络输出的第n个样本语音数据对应的虚拟形象生成图像。

需要说明的是，本申请实施例不限定步骤75的实施方式，例如，其可以类似于上文步骤54的任一实施方式。

步骤76：将第n个样本语音数据对应的虚拟形象生成图像输入判断网络，得到该判断网络输出的第n个第一判断结果。

需要说明的是，步骤76的相关内容请参见步骤55的相关内容。

基于上述步骤71至步骤76的相关内容可知，对于待训练模型来说，该待训练模型可以参考第n个样本语音数据的语音特征、该第n个样本语音数据对应的样本人脸参数、该第n个样本语音数据对应的第二虚拟形象参考数据，进行虚拟形象生成处理，得到并输出该第n个样本语音数据对应的虚拟形象生成图像及其对应的真假判断结果，以便后续能够基于该虚拟形象生成图像及其对应的真假判断结果，确定该待训练模型的预测性能。

基于上述步骤441的相关内容可知，在获取到各个样本语音数据的语音特征之后，可以利用待训练模型针对各个样本语音数据的语音特征进行虚拟形象生成处理，得到并输出各个样本语音数据对应的虚拟形象生成图像及其对应的真假判断结果，以便后续能够基于这些虚拟形象生成图像及其对应真假判断结果，确定该待训练模型的预测性能。

步骤442：判断是否达到预设停止条件，若是，则执行步骤444；若否，则执行步骤443。

上述“预设停止条件”可以预先设定，而且本申请实施例不限定该“预设停止条件”，例如，其具体可以包括：待训练模型的模型损失值低于预设损失阈值、该待训练模型的模型损失值的变化率低于预设变化率阈值、以及该待训练模型的更新次数达到预设次数阈值中的至少一个。

上述“模型损失值”用于表示待训练模型的预测性能；而且本申请实施例不限定该“模型损失值”的确定过程，为了便于理解，下面结合示例进行说明。

作为示例，假设，待训练模型的训练数据集包括(第1个样本语音数据，第1个样本语音数据对应的样本人脸参数，第1个样本语音数据对应的视频图像)、(第2个样本语音数据，第2个样本语音数据对应的样本人脸参数，第2个样本语音数据对应的视频图像)、……、以及(第N个样本语音数据，第N个样本语音数据对应的样本人脸参数，第N个样本语音数据对应的视频图像)。基于上述假设可知，“模型损失值”的确定过程具体可以包括步骤81-步骤83：

步骤81：根据N个样本语音数据对应的虚拟形象生成图像、以及该N个样本语音数据对应的视频图像，确定图像重建损失值。

上述“图像重建损失值”用于表示待训练模型的图像重建性能；而且本申请实施例不限定该“图像重建损失值”的确定过程，例如，其具体可以包括步骤811-步骤812：

步骤811：根据第n个样本语音数据对应的虚拟形象生成图像、以及该第n个样本语音数据对应的视频图像，确定该第n个样本语音数据对应的重建损失值。其中，n为正整数，n≤N。

上述“第n个样本语音数据对应的重建损失值”用于表示第n个样本语音数据对应的虚拟形象生成图像、与该第n个样本语音数据对应的视频图像之间的差异性。

需要说明的是，本申请实施例不限定步骤811的实施方式，例如，可以采用现有的或者未来出现的任意一种图像重建损失计算方法进行实施。

步骤812：将第1个样本语音数据对应的重建损失值、第2个样本语音数据对应的重建损失值、……、以及第N个样本语音数据对应的重建损失值之间的和值(或者，平均值)，确定为图像重建损失值。

基于上述步骤81的相关内容可知，对于待训练模型来说，可以根据N个样本语音数据对应的虚拟形象生成图像、与该N个样本语音数据对应的视频图像之间的差异性，确定该待训练模型的图像重建损失值，以使该图像重建损失值能够准确地表示出待训练模型的图像重建性能。

步骤82：根据N个第一判断结果和所述N个第一判断结果对应的图像标签信息，确定第一判断损失值。

上述“第一判断损失值”用于待训练模型(尤其是，该待训练模型中判断网络)针对单帧图像的真假判断性能；而且本申请实施例不限定该“第一判断损失值”的实施方式，例如，其具体可以包括步骤821-步骤822：

步骤821：根据第n个第一判断结果和该第n个第一判断结果对应的图像标签信息，确定第n个样本语音数据对应的第一判损值。其中，n为正整数，n≤N。

上述“第n个第一判断结果对应的图像标签信息”用于表示第n个样本语音数据对应的虚拟形象生成图像是假的。

上述“第n个样本语音数据对应的第一判损值”用于表示第n个第一判断结果与该第n个第一判断结果对应的图像标签信息之间的差异性。

需要说明的是，本申请实施例不限定步骤821的实施方式，例如，可以采用现有的或者未来出现的任意一种能够计算两个数据之间差异性的方法进行实施。

步骤822：将第1个样本语音数据对应的第一判损值、第2个样本语音数据对应的第一判损值、……、以及第N个样本语音数据对应的第一判损值之间的和值(或者，平均值)，确定为第一判断损失值。

基于上述步骤82的相关内容可知，对于待训练模型来说，可以根据N个第一判断结果与该N个第一判断结果对应的图像标签信息之间的差异性，确定该待训练模型的第一判断损失值，以使该第一判断损失值能够表示出待训练模型(尤其是，判断网络)针对单帧图像的真假判断性能。

步骤83：根据图像重建损失值和第一判断损失值，确定模型损失值。

需要说明的是，本申请实施例不限定步骤83的实施方式，例如，其具体可以包括：将图像重建损失值和第一判断损失值之间的和值，确定为模型损失值。

基于上述步骤81至步骤83的相关内容可知，在获取到各个样本语音数据对应的虚拟形象生成图像及其对应的第一判断结果之后，可以参考这些虚拟形象生成图像及其对应的第一判断结果，确定模型损失值，以使该模型损失值能够表示出待训练模型的预测性能。

另外，为了提高模型损失值的准确性，本申请实施例还提供了确定上述“模型损失值”的两种可能的实施方式，下面分别进行介绍。

在第一种可能的实施方式中，“模型损失值”的确定过程除了包括上述步骤81-步骤82、以外，可以还包括步骤84-步骤86：

步骤84：确定第n个样本语音数据对应的人脸关键点预测坐标。其中，n为正整数，n≤N。

上述“第n个样本语音数据对应的人脸关键点预测坐标”是指针对第n个样本语音数据确定的人脸关键点预测结果。

另外，本申请实施例不限定步骤84的实施方式，例如，其具体可以包括：对第n个样本无纹理图像进行人脸关键点提取处理，得到第n个样本语音数据对应的人脸关键点预测坐标。

此外，为了能够更准确地获取到人脸关键点预测坐标，本申请实施例还提供了步骤85的另一种可能的实施方式，其具体可以包括步骤841-步骤842：

步骤841：根据第n个样本语音数据对应的三维人脸模型，确定该第n个样本语音数据对应的人脸关键点三维坐标。

需要说明的是，上述“第n个样本语音数据对应的三维人脸模型”请参见上文步骤532。

还需要说明的是，本申请实施例不限定步骤841的实施方式，例如，其可以采用公式(9)进行实施。

式中，

表示第n个样本语音数据对应的人脸关键点三维坐标；M_n表示第n个样本语音数据对应的转换矩阵，且该M_n是根据第n个样本语音数据对应的样本人脸位姿参数确定的转换矩阵；

表示人脸模型平均脸；SP_{ki_lm}表示三维人脸模型中人脸关键点顶点序列的形状基；α_n第n个样本语音数据对应的样本人脸形状参数；EP_{ki_lm}表示三维人脸模型中人脸关键点顶点序列的表情基；β_n表示第n个表情融合参数。

步骤842：将该第n个样本语音数据对应的人脸关键点三维坐标映射至第n个样本无纹理图像，得到该第n个样本语音数据对应的人脸关键点预测坐标，以使该人脸关键点预测坐标用于表示该“第n个样本语音数据对应的人脸关键点三维坐标”在该第n个样本无纹理图像中的映射位置。

需要说明的是，本申请实施例不限定步骤842的实施方式，例如，其可以采用公式(10)进行实施。

式中，Y_n表示第n个样本语音数据对应的人脸关键点预测坐标；

表示第n个样本语音数据对应的人脸关键点三维坐标；V_2D()表示二维取值函数，且

表示从

中提取第一维度下的坐标值以及第二维度下的坐标值，以便舍去第三维度下的坐标值。

基于上述步骤84的相关内容可知，对于待训练模型来说，可以利用该待训练模型中无纹理图像渲染层中所涉及的第n个样本无纹理图像、或者第n个样本语音数据对应的三维人脸模型，确定该第n个样本语音数据对应的人脸关键点预测坐标，以便后续能够基于该第n个样本语音数据对应的人脸关键点预测坐标，确定出待训练模型的人脸关键点预测性能。其中，n为正整数，n≤N。

步骤85：根据N个样本语音数据对应的人脸关键点预测坐标、以及该N个样本语音数据对应的人脸关键点实际坐标，确定关键点预测损失值。

上述“关键点预测损失值”用于表示待训练模型的人脸关键点预测性能；而且本申请实施例不限定该“关键点预测损失值”的确定过程，例如，其具体可以包括步骤851-步骤852：

步骤851：根据第n个样本语音数据对应的人脸关键点预测坐标、以及第n个样本语音数据对应的人脸关键点实际坐标，确定第n个样本语音数据对应的关键点损失值。其中，n为正整数，n≤N。

上述“第n个样本语音数据对应的关键点损失值”用于表示该第n个样本语音数据对应的人脸关键点预测坐标、与该第n个样本语音数据对应的人脸关键点实际坐标之间的差异性。

需要说明的是，本申请实施例不限定步骤851的实施方式，例如，其可以采用现有的或者未来出现的任意一种能够计算两组人脸关键点坐标之间差异性的方法进行实施。又如，可以采用公式(11)进行实施。

式中，

表示第n个样本语音数据对应的关键点损失值；Y_n表示第n个样本语音数据对应的人脸关键点预测坐标；X_n表示第n个样本语音数据对应的人脸关键点实际坐标。

步骤852：将第1个样本语音数据对应的关键点损失值、第2个样本语音数据对应的关键点损失值、……、以及第N个样本语音数据对应的关键点损失值之间的和值(或者，平均值)，确定为关键点预测损失值。

需要说明的是，本申请实施例不限定步骤852的实施方式，例如，其可以采用公式(12)进行说明。

基于上述步骤85的相关内容可知，对于待训练模型来说，可以利用N个样本语音数据对应的人脸关键点预测坐标、以及该N个样本语音数据对应的人脸关键点实际坐标之间的差异性，确定该待训练模型的关键点预测损失值，以使该关键点预测损失值能够准确地表示出该待训练模型的人脸关键点预测性能。

步骤86：根据图像重建损失值、第一判断损失值和关键点预测损失值，确定模型损失值。

需要说明的是，本申请实施例不限定步骤86的实施方式，例如，其具体可以包括：将图像重建损失值、第一判断损失值和关键点预测损失值之间的和值，确定为模型损失值。

基于上述步骤84至步骤86的相关内容可知，对于待训练模型的模型损失值来说，其不仅参考各个样本语音数据对应的虚拟形象生成图像及其对应的第一判断结果，还可以参考各个样本语音数据对应的人脸关键点预测坐标，如此使得该模型损失值能够更好地表示出该待训练模型的预测性能，从而有利于提高待训练模型的训练效果。

在第二种可能的实施方式中，“模型损失值”的确定过程除了包括上述部分步骤(例如，步骤81-步骤82；或者，步骤81-步骤82、以及步骤84-步骤85)以外，可以还包括步骤87-步骤90：

步骤87：将第n个样本语音数据对应的虚拟形象生成图像、以及该第n个样本语音数据对应的第一虚拟形象参考数据进行拼接处理，得到待判别图像。其中，n为正整数，n≤N。

上述“第n个样本语音数据对应的第一虚拟形象参考数据”是指在衡量待训练模型中判断网络针对连续帧图像数据的判断性能时所需使用的虚拟形象展示图像。

另外，本申请实施例不限定上述“第n个样本语音数据对应的第一虚拟形象参考数据”的确定过程，例如，其具体可以包括步骤101-步骤104：

步骤101：若n＞P，则将第n-P个样本语音数据对应的虚拟形象生成图像至第n-1个样本语音数据对应的虚拟形象生成图像进行集合处理，确定为该第n个样本语音数据对应的第一虚拟形象参考数据。其中，P为正整数，P＞2。

步骤102：若2＜n≤P，则将第1个样本语音数据对应的虚拟形象生成图像至第n-1个样本语音数据对应的虚拟形象生成图像进行集合处理，确定为该第n个样本语音数据对应的第一虚拟形象参考数据。

步骤103：若n＝2，则将第1个样本语音数据对应的虚拟形象生成图像，确定为该第n个样本语音数据对应的第一虚拟形象参考数据。

步骤104：若n＝1，则将空集，确定为该第n个样本语音数据对应的第一虚拟形象参考数据。

基于上述步骤101至步骤104的相关内容可知，对于第n个样本语音数据来说，可以将该第n个样本语音数据的前一个或者多个样本语音数据对应的虚拟形象生成图像，确定该第n个样本语音数据对应的第一虚拟形象参考数据。

另外，本申请实施例不限定步骤87的实施方式，例如，可以采用现有的或者未来出现的任意一种图像拼接数据方法进行实施。

步骤88：将待判别图像输入判断网络，得到该判断网络输出的第n个第二判断结果。其中，n为正整数，n≤N。

上述“第n个第二判断结果”是指待判别图像的真假判断结果，以使该“第n个第二判断结果”用于表示该待判别图像是否为真图，从而使得该“第n个第二判断结果”能够表示出上述“第n个样本语音数据对应的虚拟形象生成图像、以及该第n个样本语音数据对应的第一虚拟形象参考数据”的真实性程度(也就是，以假乱真程度)。

步骤89：根据N个第二判断结果和该N个第二判断结果对应的图像标签信息，确定第二判断损失值。

上述“第二判断损失值”用于待训练模型(尤其是，该待训练模型中判断网络)针对连续帧图像的真假判断性能；而且本申请实施例不限定该“第二判断损失值”的实施方式，例如，其具体可以包括步骤891-步骤892：

步骤891：根据第n个第二判断结果和该第n个第二判断结果对应的图像标签信息，确定第n个样本语音数据对应的第二判损值。其中，n为正整数，n≤N。

上述“第n个第二判断结果对应的图像标签信息”用于表示待判别图像是假的。

上述“第n个样本语音数据对应的第二判损值”用于表示第n个第二判断结果与该第n个第二判断结果对应的图像标签信息之间的差异性。

需要说明的是，本申请实施例不限定步骤891的实施方式，例如，可以采用现有的或者未来出现的任意一种能够计算两个数据之间差异性的方法进行实施。

步骤892：将第1个样本语音数据对应的第二判损值、第2个样本语音数据对应的第二判损值、……、以及第N个样本语音数据对应的第二判损值之间的和值(或者，平均值)，确定为第二判断损失值。

基于上述步骤89的相关内容可知，对于待训练模型来说，可以根据N个第二判断结果与该N个第二判断结果对应的图像标签信息之间的差异性，确定该待训练模型的第二判断损失值，以使该第二判断损失值能够表示出待训练模型(尤其是，判断网络)针对连续帧图像的真假判断性能。

步骤90：根据图像重建损失值、第一判断损失值和第二判断损失值，确定模型损失值。

需要说明的是，本申请实施例不限定步骤90的实施方式，例如，其具体可以包括：将图像重建损失值、第一判断损失值和第二判断损失值进行相加，得到模型损失值。又如，步骤90可以包括：将图像重建损失值、第一判断损失值、关键点预测损失值、和第二判断损失值进行相加，得到模型损失值(如公式(13)所示)。

式中，L_model表示模型损失值；Loss_key-points表示关键点预测损失值；Loss_{reconstruction}表示图像重建损失值；

表示第一判断损失值；

表示第二判断损失值。

基于上述步骤442的相关内容可知，对于当前轮的待训练模型来说，可以判断该待训练模型是否达到预设停止条件，若达到，则表示该待训练模型具有较好的预测性能，故可以直接根据该待训练模型，构建虚拟形象生成模型即可；但是，若未达到，则表示该待训练模型的预测性能依旧比较差，故可以基于该待训练模型的模型损失值，更新该待训练模型，以使更新后的待训练模型具有更好的预测性能。

步骤443：根据至少一个样本语音数据对应的虚拟形象生成图像、以及该至少一个样本语音数据对应的视频图像，更新待训练模型，并返回执行步骤441。

本申请实施例不限定上述“待训练模型”的更新过程，例如，其具体可以包括步骤111-步骤112：

步骤111：根据至少一个样本语音数据对应的虚拟形象生成图像、以及该至少一个样本语音数据对应的视频图像，确定模型损失值。

需要说明的是，上述“模型损失值”的确定过程请参见上文步骤442的相关内容。

步骤112：根据模型损失值，更新待训练模型。

需要说明的是，本申请实施例不限定步骤112的实施方式。

基于上述步骤443的相关内容可知，在确定当前轮的待训练模型未达到预设停止条件时，可以确定该待训练模型的预测性能依旧比较差，故可以先计算该待训练模型的模型损失值；再根据该模型损失值，更新该待训练模型，以使更新后的待训练模型具有更好的预测性能，以便后续能够基于更新后的待训练模型，执行步骤442及其后续步骤，以实现针对该待训练模型的下一轮训练过程。

步骤444：根据待训练模型，确定虚拟形象生成模型。

作为示例，当上述“待训练模型”包括唇形表情参数预测层、参数融合层、无纹理图像渲染层、生成网络、以及判断网络时，步骤444具体可以包括：根据该待训练模型中唇形表情参数预测层、参数融合层、无纹理图像渲染层和生成网络，确定虚拟形象生成模型。

可见，在获取到更新好的待训练模型之后，可以将该待训练模型中唇形表情参数预测层，确定为该虚拟形象生成模型中唇形表情参数预测模块；将该待训练模型中参数融合层，确定为该虚拟形象生成模型中参数融合模块；将该待训练模型中无纹理图像渲染层，确定为该虚拟形象生成模型中无纹理图像渲染模块；将该待训练模型中生成网络，确定为该虚拟形象生成模型中纹理图像生成模块。

基于上述步骤41至步骤44的相关内容可知，对于虚拟形象生成模型来说，可以先利用一些已有的视频数据中的语音数据以及视频图像，构建该虚拟形象生成模型的训练数据；再利用该训练数据，构建该虚拟形象生成模型，以使构建好的虚拟形象生成模型具有较好的虚拟形象生成性能。其中，因虚拟形象生成模型采用端到端的框架进行实施的，使得该虚拟形象生成模型的训练流程比较简便，如此有利于提高该虚拟形象生成模型的训练效果。

方法实施例四

为了便于理解上述“虚拟形象生成方法”，下面结合一个场景进行说明。

作为示例，当本申请实施例提供的虚拟形象生成方法用于针对实时语音流进行虚拟形象生成处理时，该虚拟形象生成方法具体可以包括步骤121-步骤123：

步骤121：在获取到当前帧语音数据之后，将该当前帧语音数据，确定为待处理语音数据。

需要说明的是，步骤121的相关内容请参见上文S1中“情况3”的相关内容。

步骤122：对待处理语音数据进行语音特征提取，得到待使用语音特征。

需要说明的是，步骤122的相关内容请参见上文S1。

步骤123：根据待使用语音特征、待使用人脸参数、前至少一帧语音数据对应的虚拟形象展示数据、以及虚拟形象生成模型，确定待处理语音数据对应的虚拟形象展示数据。

上述“前至少一帧语音数据”的采集时间早于当前帧语音数据的采集时间；而且该“前至少一帧语音数据”的采集时间与该当前帧语音数据的采集时间之间的时间差比较小。

另外，本申请实施例不限定上述“前至少一帧语音数据”，例如，若上述“当前帧语音数据”为实时语音流中的第r帧语音数据，则该“前至少一帧语音数据”可以包括：该实时语音流中的第r-1帧语音数据、第r-2帧语音数据、……、以及第r-E帧语音数据。其中，E表示上述“前至少一帧语音数据”中语音数据的帧数。

“前至少一帧语音数据对应的虚拟形象展示数据”是针对该前至少一帧语音数据进行虚拟形象生成处理得到的；而且该“前至少一帧语音数据对应的虚拟形象展示数据”可以包括第r-1帧语音数据对应的虚拟形象展示图像、第r-2帧语音数据对应的虚拟形象展示图像、……、以及第r-E帧语音数据对应的虚拟形象展示图像。其中，“第r-e帧语音数据对应的虚拟形象展示图像”是针对该第r-e帧语音数据进行虚拟形象生成处理得到的。e为正整数，e≤E。

此外，本申请实施例不限定步骤123的实施方式，例如，当上述“虚拟形象生成模型”包括唇形表情参数预测模块、参数融合模块、无纹理图像渲染模块和纹理图像生成模块时，步骤123具体可以包括步骤1231-步骤1235：

步骤1231：将待使用语音特征输入唇形表情参数预测模块，得到该唇形表情参数预测模块输出的待使用唇形表情参数。

步骤1232：将待使用唇形表情参数和待使用人脸表情参数输入参数融合模块，得到该参数融合模块输出的待使用表情融合参数。

步骤1233：将待使用表情融合参数、待使用人脸位姿参数、以及待使用人脸形状参数输入无纹理图像渲染模块，得到该无纹理图像渲染模块输出的待使用无纹理图像。

需要说明的是，步骤1231-步骤1233的相关内容请分别参见上文步骤21-步骤23的相关内容。

步骤1234：将待使用无纹理图像与前至少一帧语音数据对应的虚拟形象展示数据进行相加，得到待使用融合图像。

需要说明的是，步骤1234的实施方式类似于上文步骤241的实施方式。

步骤1235：将待使用融合图像输入纹理图像生成模块，得到该纹理图像生成模块输出的待处理语音数据对应的虚拟形象展示数据。

需要说明的是，步骤1235的相关内容请参见上文步骤242的相关内容。

基于上述步骤121至步骤123的相关内容可知，对于实时语音流中当前帧语音数据来说，在获取到该当前帧语音数据之后，可以借助虚拟形象生成模型针对该当前帧语音数据进行虚拟形象生成处理，得到该当前帧语音数据对应的虚拟形象展示数据，以使该虚拟形象展示数据能够表示出与该当前帧语音数据相匹配的虚拟形象，从而使得该虚拟形象能够展示出在发出该当前帧语音数据时人物所呈现的脸部状态(例如，眼部表情、唇部表情等)，如此能够实现实时地生成虚拟形象的目的。

基于上述方法实施例提供的虚拟形象生成方法，本申请实施例还提供了一种虚拟形象生成装置，下面结合附图进行解释和说明。

装置实施例

装置实施例对虚拟形象生成装置进行介绍，相关内容请参见上述方法实施例。

参见图5，该图为本申请实施例提供的一种虚拟形象生成装置的结构示意图。

本申请实施例提供的虚拟形象生成装置500，包括：

特征提取单元501，用于在获取到待处理语音数据之后，对所述待处理语音数据进行语音特征提取，得到待使用语音特征；

形象生成单元502，用于根据所述待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据。

在一种可能的实施方式下，所述待使用人脸参数包括待使用人脸表情参数、待使用人脸位姿参数、以及待使用人脸形状参数中的至少一个。

在一种可能的实施方式下，所述待处理语音数据包括一帧语音数据；所述待使用人脸参数包括待使用人脸表情参数、待使用人脸位姿参数、以及待使用人脸形状参数；所述虚拟形象生成模型包括唇形表情参数预测模块、参数融合模块、无纹理图像渲染模块和纹理图像生成模块；

所述形象生成单元502，具体用于：将所述待使用语音特征输入所述唇形表情参数预测模块，得到所述唇形表情参数预测模块输出的待使用唇形表情参数；将所述待使用唇形表情参数和所述待使用人脸表情参数输入所述参数融合模块，得到所述参数融合模块输出的待使用表情融合参数；将所述待使用表情融合参数、所述待使用人脸位姿参数、以及所述待使用人脸形状参数输入所述无纹理图像渲染模块，得到所述无纹理图像渲染模块输出的待使用无纹理图像；根据所述待使用无纹理图像和所述纹理图像生成模块，确定所述待处理语音数据对应的虚拟形象展示数据。

在一种可能的实施方式下，所述待使用无纹理图像的确定过程，包括：根据所述待使用人脸位姿参数，确定待使用转换矩阵；根据所述待使用转换矩阵、所述待使用表情融合参数、以及所述待使用人脸形状参数，确定待使用三维人脸模型；根据所述待使用三维人脸模型，确定所述待使用无纹理图像。

在一种可能的实施方式下，所述待处理语音数据对应的虚拟形象展示数据的确定过程，包括：根据所述待使用无纹理图像、至少一帧虚拟形象参考图像和所述纹理图像生成模块，确定所述待处理语音数据对应的虚拟形象展示数据。

在一种可能的实施方式下，所述待处理语音数据对应的虚拟形象展示数据的确定过程，包括：将所述待使用无纹理图像和所述至少一帧虚拟形象参考图像进行相加，得到待使用融合图像；将所述待使用融合图像输入所述纹理图像生成模块，得到所述纹理图像生成模块输出的所述待处理语音数据对应的虚拟形象展示数据。

在一种可能的实施方式下，所述至少一帧虚拟形象参考图像是根据所述待处理语音数据对应的至少一帧历史语音数据生成的；所述至少一帧历史语音数据的采集时间早于所述待处理语音数据的采集时间。

在一种可能的实施方式下，所述待处理语音数据包括J帧语音数据；所述待使用语音特征包括所述J帧语音数据的语音特征；其中，J为正整数，且J≥2；

所述形象生成单元502，具体用于：根据第j帧语音数据的语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述第j帧语音数据对应的虚拟形象展示图像；其中，j为正整数，j≤J；根据第1帧语音数据对应的虚拟形象展示图像至第J帧语音数据对应的虚拟形象展示图像，确定所述待处理语音数据对应的虚拟形象展示数据。

在一种可能的实施方式下，所述虚拟形象生成装置500，还包括：

语音获取单元，用于在获取到当前帧语音数据之后，将所述当前帧语音数据，确定为所述待处理语音数据。

在一种可能的实施方式下，所述形象生成单元502，具体用于：根据所述待使用语音特征、所述待使用人脸参数、前至少一帧语音数据对应的虚拟形象展示数据、以及所述虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据；其中，所述前至少一帧语音数据的采集时间早于所述当前帧语音数据的采集时间。

样本获取单元，用于获取样本视频；

第一确定单元，用于根据所述样本视频，确定至少一个样本语音数据和所述至少一个样本语音数据对应的视频图像；

第二确定单元，用于根据各个样本语音数据对应的视频图像，确定各个样本语音数据对应的样本人脸参数；

模型构建单元，用于利用所述至少一个样本语音数据的语音特征、所述至少一个样本语音数据对应的样本人脸参数、以及所述至少一个样本语音数据对应的视频图像，构建所述虚拟形象生成模型。

在一种可能的实施方式下，所述模型构建单元，包括：

形象预测单元，用于根据所述至少一个样本语音数据的语音特征、所述至少一个样本语音数据对应的样本人脸参数、以及待训练模型，确定所述至少一个样本语音数据对应的虚拟形象生成图像；

模型更新单元，用于根据所述至少一个样本语音数据对应的虚拟形象生成图像、以及所述至少一个样本语音数据对应的视频图像，更新所述待训练模型，并返回所述形象预测单元继续执行所述根据所述至少一个样本语音数据的语音特征、所述至少一个样本语音数据对应的样本人脸参数、以及待训练模型，确定所述至少一个样本语音数据对应的虚拟形象生成图像；

模型确定单元，用于直至在达到预设停止条件时，根据所述待训练模型，确定所述虚拟形象生成模型。

在一种可能的实施方式下，所述待训练模型包括唇形表情参数预测层、参数融合层、无纹理图像渲染层和纹理图像生成层；其中，所述纹理图像生成层包括生成网络和判断网络；

所述模型确定单元，具体用于：根据所述待训练模型中唇形表情参数预测层、参数融合层、无纹理图像渲染层和所述生成网络，确定所述虚拟形象生成模型。

在一种可能的实施方式下，所述样本人脸参数包括样本人脸表情参数、样本人脸位姿参数、以及样本人脸形状参数；所述样本语音数据的个数为N；

所述形象预测单元，具体用于：将所述第n个样本语音数据的语音特征输入所述唇形表情参数预测层，得到所述唇形表情参数预测层输出的第n个样本唇形表情参数；其中，n为正整数，n≤N，N为正整数；将所述第n个样本唇形表情参数和所述第n个样本语音数据对应的样本人脸表情参数输入所述参数融合层，得到所述参数融合层输出的第n个表情融合参数；将所述第n个表情融合参数、所述第n个样本语音数据对应的样本人脸位姿参数、以及所述第n个样本语音数据对应的样本人脸形状参数输入所述无纹理图像渲染层，得到所述无纹理图像渲染层输出的第n个样本无纹理图像；将所述第n个样本无纹理图像输入所述生成网络，得到所述生成网络输出的所述第n个样本语音数据对应的虚拟形象生成图像；将所述第n个样本语音数据对应的虚拟形象生成图像输入所述判断网络，得到所述判断网络输出的第n个第一判断结果。

在一种可能的实施方式下，所述模型更新单元，包括：

第一确定子单元，用于根据N个样本语音数据对应的虚拟形象生成图像、以及所述N个样本语音数据对应的视频图像，确定图像重建损失值；

第二确定子单元，用于根据N个第一判断结果和所述N个第一判断结果对应的图像标签信息，确定第一判断损失值；

第三确定子单元，用于根据所述图像重建损失值和所述第一判断损失值，确定模型损失值；

模型更新子单元，用于根据所述模型损失值，更新所述待训练模型。

在一种可能的实施方式下，所述模型更新单元，还包括：

第四确定子单元，用于确定所述第n个样本语音数据对应的人脸关键点预测坐标；其中，n为正整数，n≤N；

第五确定子单元，用于根据所述N个样本语音数据对应的人脸关键点预测坐标、以及所述N个样本语音数据对应的人脸关键点实际坐标，确定关键点预测损失值；

所述第三确定子单元，具体用于：根据所述图像重建损失值、所述第一判断损失值和所述关键点预测损失值，确定模型损失值。

在一种可能的实施方式下，所述模型更新单元，还包括：

图像拼接子单元，用于将所述第n个样本语音数据对应的虚拟形象生成图像、以及所述第n个样本语音数据对应的第一虚拟形象参考数据进行拼接处理，得到待判别图像；其中，n为正整数，n≤N；

图像识别子单元，用于将所述待判别图像输入所述判断网络，得到所述判断网络输出的第n个第二判断结果；其中，n为正整数，n≤N；

第六确定子单元，用于根据N个第二判断结果和所述N个第二判断结果对应的图像标签信息，确定第二判断损失值；

所述第三确定子单元，具体用于：根据所述图像重建损失值、所述第一判断损失值和所述第二判断损失值，确定模型损失值。

在一种可能的实施方式下，所述样本语音数据的个数为N；所述形象预测单元，具体用于：根据所述第n个样本语音数据的语音特征、所述第n个样本语音数据对应的样本人脸参数、所述第n个样本语音数据对应的第二虚拟形象参考数据、以及待训练模型，确定所述第n个样本语音数据对应的虚拟形象生成图像；其中，n为正整数，n≤N，N为正整数。

在一种可能的实施方式下，所述第n个样本语音数据对应的第二虚拟形象参考数据的确定过程，包括：若所述n≥2，则根据第n-1个样本语音数据对应的虚拟形象生成图像，确定所述第n个样本语音数据对应的第二虚拟形象参考数据；若所述n＝1，则将预设虚拟形象展示数据，确定为所述第n个样本语音数据对应的第二虚拟形象参考数据。

在一种可能的实施方式下，所述第二虚拟形象参考数据包括D个图像数据；其中，D为正整数，D＞2；

所述第n个样本语音数据对应的第二虚拟形象参考数据的确定过程，包括：若所述n＞D，则根据第n-D个样本语音数据对应的虚拟形象生成图像至第n-1个样本语音数据对应的虚拟形象生成图像，确定所述第n个样本语音数据对应的第二虚拟形象参考数据；若所述2≤n≤D，则根据至少一个预设虚拟形象生成图像、以及前n-1个样本语音数据对应的虚拟形象生成图像，确定所述第n个样本语音数据对应的第二虚拟形象参考数据。

进一步地，本申请实施例还提供了一种设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述虚拟形象生成方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述虚拟形象生成方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述虚拟形象生成方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种虚拟形象生成方法，其特征在于，所述方法包括：

在获取到待处理语音数据之后，对所述待处理语音数据进行语音特征提取，得到待使用语音特征；

根据所述待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据。

2.根据权利要求1所述的方法，其特征在于，所述待处理语音数据包括一帧语音数据；

所述待使用人脸参数包括待使用人脸表情参数、待使用人脸位姿参数、以及待使用人脸形状参数；

所述虚拟形象生成模型包括唇形表情参数预测模块、参数融合模块、无纹理图像渲染模块和纹理图像生成模块；

所述虚拟形象展示数据的确定过程，包括：

将所述待使用语音特征输入所述唇形表情参数预测模块，得到所述唇形表情参数预测模块输出的待使用唇形表情参数；

将所述待使用唇形表情参数和所述待使用人脸表情参数输入所述参数融合模块，得到所述参数融合模块输出的待使用表情融合参数；

将所述待使用表情融合参数、所述待使用人脸位姿参数、以及所述待使用人脸形状参数输入所述无纹理图像渲染模块，得到所述无纹理图像渲染模块输出的待使用无纹理图像；

根据所述待使用无纹理图像和所述纹理图像生成模块，确定所述待处理语音数据对应的虚拟形象展示数据。

3.根据权利要求2所述的方法，其特征在于，所述待使用无纹理图像的确定过程，包括：

根据所述待使用人脸位姿参数，确定待使用转换矩阵；

根据所述待使用转换矩阵、所述待使用表情融合参数、以及所述待使用人脸形状参数，确定待使用三维人脸模型；

根据所述待使用三维人脸模型，确定所述待使用无纹理图像。

4.根据权利要求2所述的方法，其特征在于，所述根据所述待使用无纹理图像和所述纹理图像生成模块，确定所述待处理语音数据对应的虚拟形象展示数据，包括：

根据所述待使用无纹理图像、至少一帧虚拟形象参考图像和所述纹理图像生成模块，确定所述待处理语音数据对应的虚拟形象展示数据。

5.根据权利要求2所述的方法，其特征在于，所述根据所述待使用无纹理图像、至少一帧虚拟形象参考图像和所述纹理图像生成模块，确定所述待处理语音数据对应的虚拟形象展示数据，包括：

将所述待使用无纹理图像和所述至少一帧虚拟形象参考图像进行相加，得到待使用融合图像；

将所述待使用融合图像输入所述纹理图像生成模块，得到所述纹理图像生成模块输出的所述待处理语音数据对应的虚拟形象展示数据。

6.根据权利要求4所述的方法，其特征在于，所述至少一帧虚拟形象参考图像是根据所述待处理语音数据对应的至少一帧历史语音数据生成的；所述至少一帧历史语音数据的采集时间早于所述待处理语音数据的采集时间。

7.根据权利要求1所述的方法，其特征在于，所述待处理语音数据包括J帧语音数据；所述待使用语音特征包括所述J帧语音数据的语音特征；其中，J为正整数，且J≥2；

所述虚拟形象展示数据的确定过程，包括：

根据第j帧语音数据的语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述第j帧语音数据对应的虚拟形象展示图像；其中，j为正整数，j≤J；

根据第1帧语音数据对应的虚拟形象展示图像至第J帧语音数据对应的虚拟形象展示图像，确定所述待处理语音数据对应的虚拟形象展示数据。

8.根据权利要求1所述的方法，其特征在于，所述待处理语音数据的获取过程，包括：

在获取到当前帧语音数据之后，将所述当前帧语音数据，确定为所述待处理语音数据。

9.根据权利要求8所述的方法，其特征在于，所述根据所述待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据，包括：

根据所述待使用语音特征、所述待使用人脸参数、前至少一帧语音数据对应的虚拟形象展示数据、以及所述虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据；其中，所述前至少一帧语音数据的采集时间早于所述当前帧语音数据的采集时间。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述虚拟形象生成模型的构建过程，包括：

获取样本视频；

根据所述样本视频，确定至少一个样本语音数据和所述至少一个样本语音数据对应的视频图像；

根据各个样本语音数据对应的视频图像，确定各个样本语音数据对应的样本人脸参数；

利用所述至少一个样本语音数据的语音特征、所述至少一个样本语音数据对应的样本人脸参数、以及所述至少一个样本语音数据对应的视频图像，构建所述虚拟形象生成模型。

11.一种虚拟形象生成装置，其特征在于，包括：

特征提取单元，用于在获取到待处理语音数据之后，对所述待处理语音数据进行语音特征提取，得到待使用语音特征；

形象生成单元，用于根据所述待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型，确定所述待处理语音数据对应的虚拟形象展示数据。

12.一种设备，其特征在于，所述设备包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至10任一项所述的方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1至10任一项所述的方法。