CN114222179B

CN114222179B - 虚拟形象视频合成方法及设备

Info

Publication number: CN114222179B
Application number: CN202111406811.8A
Authority: CN
Inventors: 刘永进; 温玉辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-08-30
Anticipated expiration: 2041-11-24
Also published as: CN114222179A

Abstract

本发明提供一种虚拟形象视频合成方法及设备，方法包括：确定待合成的音频数据的音频特征；基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息；从预设视频库中提取与第一动作信息对应的初始视频，初始视频包括：虚拟形象；确定初始视频中虚拟形象的头部姿态信息；基于脸部表情信息和头部姿态信息，得到脸部关键点投影图；基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；合成初始视频和脸部视频图像，得到目标视频。本发明用以解决现有技术中根据音频数据，生成的虚拟人视频中虚拟人真实感差的缺陷。

Description

虚拟形象视频合成方法及设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种虚拟形象视频合成方法及设备。

背景技术

在日常生活中，经常会根据一段音频，生成与该音频对应的虚拟形象节奏感动作高清视频，其中，高清视频包括：虚拟形象的说话手势动作或者虚拟形象的舞蹈动作，其中，虚拟形象包括虚拟人、虚拟动物等。

在现有技术中，根据音频生成虚拟人节奏感动作高清视频合成技术较少，往往通过音频生成虚拟人动作，并绘制成骨架图，然后，依赖生成式对抗网络(GAN)训练骨架图与虚拟人动作视频帧之间的关系，最后，利用GAN网络输出骨架图对应的虚拟人动作视频帧，以得到最终的高清视频。

但是，现有技术利用绘制骨架图的技术手段，无法准确识别视频中虚拟人的人体姿态，对于虚拟人的局部细节姿态，例如，手部细节姿态、脸部姿态等，更是无法准确识别，导致最终的高清视频中虚拟人出现肢体部分丢失，真实感较差，效果很不理想。

发明内容

本发明提供一种虚拟形象视频合成方法及设备，用以解决现有技术中根据音频数据，生成的虚拟人视频中虚拟人真实感差的缺陷，实现生成虚拟形象真实、自然的虚拟形象视频。

本发明提供一种虚拟形象视频合成方法，包括：

确定待合成的音频数据的音频特征；

基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息；

从预设视频库中提取与所述第一动作信息对应的初始视频，所述初始视频包括：虚拟形象；

确定所述初始视频中所述虚拟形象的头部姿态信息；

基于所述脸部表情信息和所述头部姿态信息，得到脸部关键点投影图；

基于所述脸部关键点投影图，确定与所述虚拟形象对应的脸部视频图像；

合成所述初始视频和所述脸部视频图像，得到目标视频；

其中，所述预设视频库包括：至少两帧按时序排列的视频图像，所述视频图像包括：具有第二动作信息的虚拟形象；

所述从预设视频库中提取与所述第一动作信息对应的初始视频，包括：

从所述预设视频库中，选取至少两帧所述视频图像，以形成所述初始视频，在选取的过程中，对选取的至少两帧所述视频图像的时序进行重排序，以使所述初始视频满足第一预设条件；

其中，所述第一预设条件包括：所述选取的至少两帧视频图像中的所述第二动作信息与所述第一动作信息之间的距离小于第一预设值；

其中，所述从所述预设视频库中，选取至少两帧所述视频图像，以形成所述初始视频，包括：

从所述预设视频库中选取满足所述第一预设条件的所述视频图像，形成视频图像集合；

从所述视频图像集合中选择至少两帧所述视频图像，形成第一视频图像序列，所述第一视频图像序列中相邻的两帧所述视频图像中的所述第二动作信息之间的距离小于第二预设值；

将所述第一视频图像序列划分成至少两个子序列；

针对每个所述子序列，从所述第一视频图像序列中选取一帧所述视频图像，替换所述子序列中作为中间帧的所述视频图像，以使得替换后的各所述子序列形成的第二视频图像序列中，第i+1帧所述视频图像和第j帧所述视频图像中的所述第二动作信息之间的距离，与第i帧所述视频图像和第j-1帧所述视频图像中的所述第二动作信息之间的距离之和小于第三预设值，所述i为大于或等于0的整数，所述j为大于或等于1的整数；

利用所述第二视频图像序列，形成所述初始视频。

根据本发明提供的一种虚拟形象视频合成方法，所述合成所述初始视频和所述脸部视频图像，得到目标视频，包括：

基于所述头部姿态信息和所述脸部表情信息，确定脸部关键点；

利用所述脸部关键点，建立脸部掩膜；

利用建立的所述脸部掩膜，将所述脸部视频图像融合在所述初始视频中虚拟形象中，得到所述目标视频。

根据本发明提供的一种虚拟形象视频合成方法，所述基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息，包括：

将所述音频特征和预设初始动作信息输入动作预测模型，得到所述动作预测模型输出的所述第一动作信息；

将所述音频特征和预设初始脸部表情信息输入表情预测模型，得到所述表情预测模型输出的脸部表情信息；

其中，所述动作预测模型通过音频特征样本、初始动作信息样本和第一动作信息样本训练得到，所述表情预测模型通过所述音频特征样本、初始脸部表情信息样本和脸部表情信息样本训练得到。

根据本发明提供的一种虚拟形象视频合成方法，所述动作预测模型包括至少一个动作预测模块，所述动作预测模块包括：第一激活标准化层、第一重排层、第一划分与组合层、第一变换耦合层和第二划分与组合层；

所述动作预测模型的训练过程包括：

将所述音频特征样本按照时间戳划分为至少两个第一子音频特征样本；

基于第一个动作预测模块，对每个所述第一子音频特征样本执行以下处理过程：

将所述第一子音频特征样本和所述初始动作信息样本输入到所述第一激活标准化层，得到所述第一激活标准化层输出的第一处理结果；将所述第一处理结果，输入所述第一重排层，得到所述第一重排层输出的第二处理结果；将所述第二处理结果输入所述第一划分与组合层，得到所述第一划分与组合层输出的第三处理结果；将所述第三处理结果输入所述第一变换耦合层，得到所述第一变换耦合层输出的第四处理结果；将所述第三处理结果和所述第四处理结果输入所述第二划分与组合层，得到第五处理结果；

将所述第五处理结果输入下一个动作预测模块的所述第一激活标准化层，重复执行所述处理过程，以得到所述动作预测模型。

根据本发明提供的一种虚拟形象视频合成方法，所述表情预测模型包括至少一个表情预测模块，所述表情预测模块包括：第二激活标准化层、第二重排层、第三划分与组合层、第二变换耦合层和第四划分与组合层；

所述表情预测模型的训练过程包括：

将所述音频特征样本按照时间戳划分为至少两个第二子音频特征样本；

基于第一个表情预测模块，对每个所述第二子音频特征样本执行以下处理过程：

将所述第二子音频特征样本和所述初始脸部表情信息样本输入到所述第二激活标准化层，得到所述第二激活标准化层输出的第六处理结果；将所述第六处理结果，输入所述第二重排层，得到所述第二重排层输出的第七处理结果；将所述第七处理结果输入所述第三划分与组合层，得到所述第三划分与组合层输出的第八处理结果；将所述第八处理结果输入所述第二变换耦合层，得到所述第二变换耦合层输出的第九处理结果；将所述第八处理结果和所述第九处理结果输入所述第四划分与组合层，得到第十处理结果；

将所述第十处理结果输入下一个表情预测模块的所述第二激活标准化层，重复执行所述处理过程，以得到所述表情预测模型。

根据本发明提供的一种虚拟形象视频合成方法，所述基于所述脸部关键点投影图，确定与所述虚拟形象对应的脸部视频图像，包括：

将所述脸部关键点投影图输入生成式对抗网络，得到所述生成式对抗网络输出的脸部视频图像，所述生成式对抗网络通过脸部关键点投影图样本和脸部视频图像样本训练得到。

根据本发明提供的一种虚拟形象视频合成方法，所述生成式对抗网络包括：生成模块和判别模块；

所述生成式对抗网络的训练过程包括：

将所述脸部关键点投影图样本输入所述生成模块，得到所述生成模块输出的预测脸部视频图像；

将所述预测脸部视频图像输入所述判别模块，对所述预测脸部视频图像和脸部视频图像样本进行一致性判别，得到判别结果；

当所述判别结果大于第四预设值时，判定所述生成式对抗网络训练完成。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述虚拟形象视频合成方法的步骤。

本发明提供的虚拟形象视频合成方法及设备，通过确定待合成的音频数据的音频特征；基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息；从预设视频库中提取与第一动作信息对应的初始视频，初始视频包括：虚拟形象，可见，本发明的初始视频中已经为与音频数据对应的真实、自然的虚拟形象，不会出现虚拟形象组成部分缺失的现象；确定初始视频中虚拟形象的头部姿态信息；基于脸部表情信息和头部姿态信息，得到脸部关键点投影图；基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；合成初始视频和脸部视频图像，得到目标视频，本发明利用脸部视频图像完善初始视频中虚拟形象的面部，使虚拟形象更逼真、自然，以生成虚拟形象真实、自然的虚拟形象视频，提高了用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的虚拟形象视频合成方法的流程示意图之一；

图2是本发明提供的虚拟形象视频合成方法的流程示意图之二；

图3是本发明提供的虚拟形象视频合成装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2描述本发明的虚拟形象视频合成方法。

本发明实施例提供了一种虚拟形象视频合成方法，该方法可以应用在智能终端，例如，手机、电脑、平板等，也可以应用在服务器中。下面，以该方法应用在服务器中为例进行说明，但需要说明的是此处仅为举例说明，并不用于对本发明的保护范围进行限定。本发明实施例中的一些其他说明，也是举例说明，并不用于对本发明的保护范围进行限定，之后便不再一一说明。

其中，虚拟形象可以为人也可以为动物等，下面，以虚拟形象为人进行举例说明，因此，此时可以将虚拟形象定义为虚拟人。

步骤101，确定待合成的音频数据的音频特征。

具体的，获取音频数据，提取该音频数据的音频特征。

具体的，利用端到端自动语音识别系统(DeepSpeech)提取音频数据的音频特征。

具体的，预先创建视频库，其中创建视频库的具体实现如下所示：

步骤一：采集带有各种真实、自然、完整的虚拟人的视频数据。

具体的，视频库中包括多种虚拟形象，因此，在确定音频数据的音频特征之后，确定音频数据对应的虚拟形象，或，在确定音频数据的音频特征之前，确定音频数据对应的虚拟形象。在本发明中应用的虚拟形象即为确定的与音频数据对应的虚拟形象。

步骤二：提取视频数据中的音频数据和视频图像。

具体的，可以利用moviepy提取视频数据中的音频数据和视频图像，其中，moviepy是一个用于视频编辑的Python模块,可用于基本操作，例如，剪切、拼接、字幕插入等，视频合成、视频处理或创建高级效果等。

其中，将视频图像以视频图像序列表示。

步骤三：利用人体姿态识别技术(Openpose)，识别各个视频图像中虚拟人的第二动作信息。

其中，第二动作信息为第二二维人体动作信息，第二二维人体动作信息为虚拟人各个关节在视频图像中的2D位置表示。

步骤四：利用人脸关键点检测工具，识别各个视频图像中虚拟人的脸部关键点，并裁剪各个视频图像中的脸部视频图像；

步骤五：利用脸部视频图像，创建3D人脸，得到3D人脸的目标参数，目标参数包括：脸部几何参数、脸部表情参数、脸部旋转和位移参数。

步骤六：将视频图像序列、音频特征、第二二维人体动作信息、目标参数，按照视频帧一一对应。

其中，视频图像第t帧的数据包括(p_t,d_t,x_t,α_t,β_t,g_t,h_t)，其中，p_t表示视频图像，d_t表示音频特征，x_t表示第二二维人体动作信息，α_t表示脸部几何参数，β_t表示脸部表情参数，g_t表示脸部旋转及位移参数，h_t表示脸部视频图像。

可见，预设视频库中包括(p_t,d_t,x_t,α_t,β_t,g_t,h_t)。

其中，将α_t和g_t用于指示头部姿态信息，即：头部姿态信息包括：脸部几何参数和脸部旋转及位移参数，β_t用于指示脸部表情信息。

步骤102，基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息。

一个具体实施例中，确定与音频数据对应的第一动作信息和脸部表情信息的具体实现如下所示：

步骤一：将音频特征和预设初始动作信息输入动作预测模型，得到动作预测模型输出的第一动作信息。

其中，整段音频数据对应的音频特征用表示d_{’i＝1,…,T}，其中，i表示任意一帧音频特征，T表示音频特征总帧数。

具体的，将任意10帧视频图像对应的二维人体动作信息x_’1:10作为预设初始动作信息，将音频特征和预设初始动作信息输入动作预测模型，输出i帧对应的第一动作信息，其中，i＝11。进而，对于i＝11开始，将i-10帧到第i帧的音频特征d_’i-10:i和第i-10帧到第i-1帧的二维人体动作信息x_’i-10:i-1，自回归地生成第i帧的二维人体动作信息x_’i，最终各帧生成结果组成与音频特征对应的二维人体动作信息x_{’i＝1,…,T}，其中，x_{’i＝1,…,T}即为第一动作信息。

步骤二：将音频特征和预设初始脸部表情信息输入表情预测模型，得到表情预测模型输出的脸部表情信息。

具体的，将任意10帧视频图像对应的脸部表情信息β_’1:10作为预设初始脸部表情信息，将音频特征和预设初始脸部表情信息输入表情预测模型，输出i帧对应的脸部表情信息，其中，i＝11。进而，对于i＝11开始，将i-10帧到第i帧的音频特征d_’i-10:i和第i-10帧到第i-1帧的脸部表情信息β_’i-10:i-1，自回归地生成第i帧的脸部表情信息β_’i，最终各帧生成结果组成与音频特征对应的脸部表情信息β_{’i＝1,…,T}。

其中，动作预测模型通过音频特征样本、初始动作信息样本和第一动作信息样本训练得到，表情预测模型通过音频特征样本、初始脸部表情信息样本和脸部表情信息样本训练得到。

具体的，在训练动作预测模型和表情训练模型之前，要获得训练数据，获得训练数据的具体实现如下所示：

步骤一：从预设视频库中，提取各视频图像对应的音频特征d_t，第二二维人体动作信息x_t和脸部表情参数β_t。将预设视频库的总体音频特征d_t-1,…,N，第二二维人体动作信息x_t-1,…,N和脸部表情信息β_t-1,…,N，划分为多个等长数据段，其中，每个数据段的长度为50帧。

步骤二：将所有等长数据段进行归一化处理，即分别对音频特征、第二二维人体动作信息脸部表情信息，求所有训练数据的均值μ和标准差σ，然后，对每个训练数据的等长数据段减去μ再除以σ，得到归一化处理后的等长数据段。

步骤三：对归一化处理后的等长数据段，提取并生成音频数据对应的第二二维人体动作信息的控制信息和生成信息，其中，生成第t帧第二二维人体动作信息的控制信息包括：第t-10帧到第t帧的音频特征d_t-10:t和第t-10帧到第t-1帧的第二二维人体动作信息x_t-10:t-1，生成信息即第t帧的第二二维人体动作信息x_t。将第二二维人体动作信息的控制信息和生成信息作为动作预测模型训练样本。

步骤四：对归一化处理后的等长数据段，提取并生成音频数据对应的脸部表情信息的控制信息和生成信息，其中，生成第t帧脸部表情信息的控制信息包括：第t-10帧到第t帧的音频特征d_t-10:t和第t-10帧到第t-1帧的脸部表情信息β_t-10:t-1，生成信息即第t帧脸部表情信息β_t。将脸部表情信息的控制信息生成信息作为表情预测模型训练样本。

一个具体实施例中，动作预测模型包括至少一个动作预测模块，动作预测模块包括：第一激活标准化层、第一重排层、第一划分与组合层、第一变换耦合层和第二划分与组合层。其中，第一激活标准化层用于对输入数据进行标准化处理；第一重排层用于对数据进行重新排序；第一划分与组合层用于对输入数据进行拆分与组合；第一变换耦合层用于对数据进行仿射耦合变换；第二划分与组合层用于对输入数据进行拆分与组合。

动作预测模型的训练过程具体如下：

步骤一：将音频特征样本按照时间戳划分为至少两个第一子音频特征样本。

其中，将d_t-10:t和x_t-10:t-1组合，作为第一子音频特征样本。

步骤二：基于第一个动作预测模块，对每个第一子音频特征样本执行以下处理过程：

(1)将第一子音频特征样本和初始动作信息样本输入到第一激活标准化层，得到第一激活标准化层输出的第一处理结果。

具体的，将d_t-10:t和x_t-10:t-1输入到第一激活标准化层(Activation NormalizatonLayer，简称AN)，通过第一激活标准化层使得输入信息的每个特征通道具有零均值和单位方差，得到第一处理结果。

(2)将第一处理结果，输入第一重排层，得到第一重排层输出的第二处理结果。

具体的，将第一处理结果，输入第一重排层(Permute Layer,简称PL)，增加控制信息得特征维度的变化，得到第二处理结果。

(3)将第二处理结果输入第一划分与组合层，得到第一划分与组合层输出的第三处理结果。

具体的，将第二处理结果输入第一划分与组合层(Split-Concat，简称SC)，将第二处理结果划分为等长片段a和a'，将a和a'作为第三处理结果。

(4)将第三处理结果输入第一变换耦合层，得到第一变换耦合层输出的第四处理结果。

具体的，将第三处理结果中的a'输入第一变换耦合层的长短期记忆网络层(LSTM)，得到a”，将a”输入第一变换耦合层的第一子耦合层，通过a”提取第一子耦合层的偏移参数t和缩放参数s，将偏移参数t和缩放参数s结合a得到b,其中，b＝(a+t)×s。其中，b为经过仿射耦合变换的第一变换耦合层的输出。

(5)将第三处理结果和第四处理结果输入第二划分与组合层，得到第五处理结果。

具体的，将a'和b输入第二划分与组合层，得到第五处理结果。

步骤三：将第五处理结果输入下一个动作预测模块的第一激活标准化层，重复执行处理过程，以得到动作预测模型。

其中，每个动作预测模块为流基本模块(Step of Flow，简称SoF)，将当前SoF模块的输出结果，输入到下一个SoF模块中，直至，最后一个SoF模块。

其中，动作预测模型包括16个SoF模块。

一个具体实施例中，表情预测模型包括至少一个表情预测模块，表情预测模块包括：第二激活标准化层、第二重排层、第三划分与组合层、第二变换耦合层和第四划分与组合层。其中表情预测模型的具体训练过程可参见动作预测模型的训练过程，重复之处不再赘述。

其中，第二激活标准化层用于对输入数据进行标准化处理；第二重排层用于对数据进行重新排序；第三划分与组合层用于对输入数据进行拆分与组合；第二变换耦合层用于对数据进行仿射耦合变换；第四划分与组合层用于对输入数据进行拆分与组合。

表情预测模型的训练过程包括：

将音频特征样本按照时间戳划分为至少两个第二子音频特征样本；

基于第一个表情预测模块，对每个第二子音频特征样本执行以下处理过程：

将第二子音频特征样本和初始脸部表情信息样本输入到第二激活标准化层，得到第二激活标准化层输出的第六处理结果；将第六处理结果，输入第二重排层，得到第二重排层输出的第七处理结果；将第七处理结果输入第三划分与组合层，得到第三划分与组合层输出的第八处理结果；将第八处理结果输入第二变换耦合层，得到第二变换耦合层输出的第九处理结果；将第八处理结果和第九处理结果输入第四划分与组合层，得到第十处理结果；

将第十处理结果输入下一个表情预测模块的第二激活标准化层，重复执行处理过程，以得到表情预测模型。

步骤103，从预设视频库中提取与第一动作信息对应的初始视频。

其中，初始视频包括：虚拟形象。

其中，第一动作信息为第一二维人体动作信息。

一个具体实施例中，预设视频库包括：至少两帧按时序排列的视频图像，视频图像包括：具有第二动作信息的虚拟形象。从预设视频库中，选取至少两帧视频图像，以形成初始视频，在选取的过程中，对选取的至少两帧视频图像的时序进行重排序，以使初始视频满足第一预设条件。其中，第一预设条件包括：选取的至少两帧视频图像中的第二动作信息与第一动作信息之间的距离小于第一预设值。

具体的，在选取的过程中，对选取的至少两帧视频图像的时序进行重排序，以使初始视频满足第一预设条件和第二预设条件。

其中，其中，第一预设条件包括：选取的至少两帧视频图像中的第二动作信息与第一动作信息之间的距离小于第一预设值；第二预设条件包括：选取的至少两帧视频图像在进行重排序后的任意选取的视频图像中的第二动作信息之间的距离小于第四预设值。

具体的，利用欧式距离公式，计算第二动作信息与第一动作信息的欧式距离，或，计算不同视频图像中第二动作信息与第二动作信息的欧式距离。

一个具体实施例中，初始视频的具体实现方式如图2所示：

步骤201，从预设视频库中选取满足第一预设条件的视频图像，形成视频图像集合。

具体的，从预设视频库(p_t,d_t,x_t,α_t,β_t,g_t,h_t)中选取与x′_i的欧式距离小于第一预设值的视频图像集合o＝o₁,o_2,…,o_T。

其中，代价函数定义为

其中，c_i＝(x_t-1,…,N,x′_i)表示生成的第i帧的第一动作信息x′_i与第二动作信息x_t-1,…,N的距离。

步骤202，从视频图像集合中选择至少两帧视频图像，形成第一视频图像序列。

其中，第一视频图像序列中相邻的两帧视频图像中的第二动作信息之间的距离小于第二预设值。

具体的，在从预设视频库中选取视频图像时，需要使得到的视频图像集合中的任意相邻帧图像之间的第二动作信息的距离小于第二预设值，此时，用s＝s₁,s_2,…,s_T表示。

其中，代价函数定义为

其中，

表示相邻两帧的索引p_i和p_i+1的差。

步骤203，将第一视频图像序列划分成至少两个子序列。

具体的，将s＝s₁,s_2,…,s_T划分为若干子序列，每个子序列的相邻两帧的索引p_i和p_i+1的差小于5，以防止出现跳帧现象。

步骤204，针对每个子序列，从第一视频图像序列中选取一帧视频图像，替换子序列中作为中间帧的视频图像，以使得替换后的各子序列形成的第二视频图像序列中，第i+1帧视频图像和第j帧视频图像中的第二动作信息之间的距离，与第i帧视频图像和第j-1帧视频图像中的第二动作信息之间的距离之和小于第三预设值。

其中，i为大于或等于0的整数，j为大于或等于1的整数。

具体的，将第一视频图像序列中的每帧图像依次替换每个子序列的中间帧对应的视频图像，以使每个子序列的距离最小，进而，得到第二视频图像序列。

步骤205，利用第二视频图像序列，形成初始视频。

本发明通过洗牌算法，对初始视频图像进行处理，得到第二视频图像序列，使得整个初始视频更流畅，避免了跳帧现象的发生，提高了用户体验。

步骤104，确定初始视频中虚拟形象的头部姿态信息。

步骤105，基于脸部表情信息和头部姿态信息，得到脸部关键点投影图。

步骤106，基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像。

一个具体实施例中，脸部视频图像的获取过程具体为：将脸部关键点投影图输入生成式对抗网络，得到生成式对抗网络输出的脸部视频图像，生成式对抗网络通过脸部关键点投影图样本和脸部视频图像样本训练得到。

一个具体实施例中，生成式对抗网络包括：生成模块和判别模块。生成式对抗网络的训练过程如下：

步骤一：采集训练样本数据。

具体的，基于(α_t,β_t,g_t,h_t)，创建脸部关键点投影图初始样本和脸部视频图像初始样本，将脸部关键点投影图初始样本和脸部视频图像初始样本进行放缩变换，得到统一尺寸256像素*256像素，将处理后的脸部关键点投影图初始样本和处理后的脸部视频图像初始样本整合成一一对应的数据对，作为训练样本数据。

步骤二：将脸部关键点投影图样本输入生成模块，得到生成模块输出的预测脸部视频图像。

步骤三：将预测脸部视频图像输入判别模块，对预测脸部视频图像和脸部视频图像样本进行一致性判别，得到判别结果。

步骤四：当判别结果大于第四预设值时，判定生成式对抗网络训练完成。

步骤107，合成初始视频和脸部视频图像，得到目标视频。

一个具体实施例中，基于头部姿态信息和脸部表情信息，确定脸部关键点；利用脸部关键点，建立脸部掩膜；利用建立的脸部掩膜，将脸部视频图像融合在初始视频中虚拟形象中，得到目标视频。

下面对本发明提供的虚拟形象视频合成装置进行描述，下文描述的虚拟形象视频合成装置与上文描述的虚拟形象视频合成方法可相互对应参照，具体如图3所示，该装置包括：

第一确定模块301，用于确定待合成的音频数据的音频特征；

第二确定模块302，用于基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息；

提取模块303，用于从预设视频库中提取与所述第一动作信息对应的初始视频，所述初始视频包括：虚拟形象；

第三确定模块304，用于确定所述初始视频中所述虚拟形象的头部姿态信息；

获得模块305，用于基于所述脸部表情信息和所述头部姿态信息，得到脸部关键点投影图；

第四确定模块306，用于基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；

合成模块307，用于合成初始视频和脸部视频图像，得到目标视频。

一个具体实施例中，至少两帧按时序排列的视频图像，所述视频图像包括：具有第二动作信息的虚拟形象；

其中，所述第一预设条件包括：所述选取的至少两帧视频图像中的所述第二动作信息与所述第一动作信息之间的距离小于第一预设值。

一个具体实施例中，提取模块303，具体用于从所述预设视频库中选取满足所述第一预设条件的所述视频图像，形成视频图像集合；从所述视频图像集合中选择至少两帧所述视频图像，形成第一视频图像序列，所述第一视频图像序列中相邻的两帧所述视频图像中的所述第二动作信息之间的距离小于第二预设值；将所述第一视频图像序列划分成至少两个子序列；针对每个所述子序列，从所述第一视频图像序列中选取一帧所述视频图像，替换所述子序列中作为中间帧的所述视频图像，以使得替换后的各所述子序列形成的第二视频图像序列中，第i+1帧所述视频图像和第j帧所述视频图像中的所述第二动作信息之间的距离，与第i帧所述视频图像和第j-1帧所述视频图像中的所述第二动作信息之间的距离之和小于第三预设值，所述i为大于或等于0的整数，所述j为大于或等于1的整数；利用所述第二视频图像序列，形成所述初始视频。

一个具体实施例中，合成模块307，具体用于基于头部姿态信息和脸部表情信息，确定脸部关键点；利用脸部关键点，建立脸部掩膜；利用建立的脸部掩膜，将脸部视频图像融合在初始视频中虚拟形象中，得到目标视频。

一个具体实施例中，第二确定模块302，具体用于将音频特征和预设初始动作信息输入动作预测模型，得到动作预测模型输出的第一动作信息；将音频特征和预设初始脸部表情信息输入表情预测模型，得到表情预测模型输出的脸部表情信息；其中，动作预测模型通过音频特征样本、初始动作信息样本和第一动作信息样本训练得到，表情预测模型通过音频特征样本、初始脸部表情信息样本和脸部表情信息样本训练得到。

一个具体实施例中，动作预测模型包括至少一个动作预测模块，动作预测模块包括：第一激活标准化层、第一重排层、第一划分与组合层、第一变换耦合层和第二划分与组合层。该装置还包括第一训练模块，第一训练模块，用于将音频特征样本按照时间戳划分为至少两个第一子音频特征样本；基于第一个动作预测模块，对每个第一子音频特征样本执行以下处理过程：

将第一子音频特征样本和初始动作信息样本输入到第一激活标准化层，得到第一激活标准化层输出的第一处理结果；将第一处理结果，输入第一重排层，得到第一重排层输出的第二处理结果；将第二处理结果输入第一划分与组合层，得到第一划分与组合层输出的第三处理结果；将第三处理结果输入第一变换耦合层，得到第一变换耦合层输出的第四处理结果；将第三处理结果和第四处理结果输入第二划分与组合层，得到第五处理结果；将第五处理结果输入下一个动作预测模块的第一激活标准化层，重复执行处理过程，以得到动作预测模型。

一个具体实施例中，表情预测模型包括至少一个表情预测模块，表情预测模块包括：第二激活标准化层、第二重排层、第三划分与组合层、第二变换耦合层和第四划分与组合层。该装置还包括第二训练模块，第二训练模块，用于将音频特征样本按照时间戳划分为至少两个第二子音频特征样本；基于第一个表情预测模块，对每个第二子音频特征样本执行以下处理过程：

将第二子音频特征样本和初始脸部表情信息样本输入到第二激活标准化层，得到第二激活标准化层输出的第六处理结果；将第六处理结果，输入第二重排层，得到第二重排层输出的第七处理结果；将第七处理结果输入第三划分与组合层，得到第三划分与组合层输出的第八处理结果；将第八处理结果输入第二变换耦合层，得到第二变换耦合层输出的第九处理结果；将第八处理结果和第九处理结果输入第四划分与组合层，得到第十处理结果；将第十处理结果输入下一个表情预测模块的第二激活标准化层，重复执行处理过程，以得到表情预测模型。

一个具体实施例中，第四确定模块306，具体用于将脸部关键点投影图输入生成式对抗网络，得到生成式对抗网络输出的脸部视频图像，生成式对抗网络通过脸部关键点投影图样本和脸部视频图像样本训练得到。

一个具体实施例中，生成式对抗网络包括：生成模块和判别模块。该装置还包括第三训练模块，第三训练模块，用于将脸部关键点投影图样本输入生成模块，得到生成模块输出的预测脸部视频图像；将预测脸部视频图像输入判别模块，对预测脸部视频图像和脸部视频图像样本进行一致性判别，得到判别结果；当判别结果大于第四预设值时，判定生成式对抗网络训练完成。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行虚拟形象视频合成方法，该方法包括：确定待合成的音频数据的音频特征；基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息；从预设视频库中提取与第一动作信息对应的初始视频，初始视频包括：虚拟形象；确定初始视频中虚拟形象的头部姿态信息；基于脸部表情信息和头部姿态信息，得到脸部关键点投影图；基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；合成初始视频和脸部视频图像，得到目标视频。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的虚拟形象视频合成方法，该方法包括：确定待合成的音频数据的音频特征；基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息；从预设视频库中提取与第一动作信息对应的初始视频，初始视频包括：虚拟形象；确定初始视频中虚拟形象的头部姿态信息；基于脸部表情信息和头部姿态信息，得到脸部关键点投影图；基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；合成初始视频和脸部视频图像，得到目标视频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的虚拟形象视频合成方法，该方法包括：确定待合成的音频数据的音频特征；基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息；从预设视频库中提取与第一动作信息对应的初始视频，初始视频包括：虚拟形象；确定初始视频中虚拟形象的头部姿态信息；基于脸部表情信息和头部姿态信息，得到脸部关键点投影图；基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；合成初始视频和脸部视频图像，得到目标视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟形象视频合成方法，其特征在于，包括：

确定待合成的音频数据的音频特征；

确定所述初始视频中所述虚拟形象的头部姿态信息；

合成所述初始视频和所述脸部视频图像，得到目标视频；

将所述第一视频图像序列划分成至少两个子序列；

利用所述第二视频图像序列，形成所述初始视频。

2.根据权利要求1所述的虚拟形象视频合成方法，其特征在于，所述合成所述初始视频和所述脸部视频图像，得到目标视频，包括：

利用所述脸部关键点，建立脸部掩膜；

3.根据权利要求1或2所述的虚拟形象视频合成方法，其特征在于，所述基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息，包括：

4.根据权利要求3所述的虚拟形象视频合成方法，其特征在于，所述动作预测模型包括至少一个动作预测模块，所述动作预测模块包括：第一激活标准化层、第一重排层、第一划分与组合层、第一变换耦合层和第二划分与组合层；

所述动作预测模型的训练过程包括：

5.根据权利要求3所述的虚拟形象视频合成方法，其特征在于，所述表情预测模型包括至少一个表情预测模块，所述表情预测模块包括：第二激活标准化层、第二重排层、第三划分与组合层、第二变换耦合层和第四划分与组合层；

所述表情预测模型的训练过程包括：

6.根据权利要求1或2所述的虚拟形象视频合成方法，其特征在于，所述基于所述脸部关键点投影图，确定与所述虚拟形象对应的脸部视频图像，包括：

7.根据权利要求6所述的虚拟形象视频合成方法，其特征在于，所述生成式对抗网络包括：生成模块和判别模块；

所述生成式对抗网络的训练过程包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述虚拟形象视频合成方法的步骤。