CN112750185A

CN112750185A - 一种肖像画视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN112750185A
Application number: CN202110069361.1A
Authority: CN
Inventors: 刘永进; 易冉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-04

Abstract

本发明提供一种肖像画视频生成方法、装置、电子设备及存储介质，包括：对预设目标音频和目标人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；将音频特征信息和人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；将目标人脸图像和音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；将目标肖像画图片序列信息和预设目标音频进行合成，得到目标人脸的肖像画视频。最终实现根据目标人脸照片和预设目标音频，生成一个音频同步的说话肖像画视频。

Description

一种肖像画视频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种肖像画视频生成方法、装置、电子设备及存储介质。

背景技术

说话肖像画视频的生成，是指根据目标人物的一张人脸图像和一段音频，生成与该音频同步的、艺术风格化后的目标人物说话的肖像画视频。生成的视频中每一帧都是一个目标人物的艺术肖像画，且肖像画中的人物嘴型与该时刻的音频同步。

而如何根据一张人脸图像生成动画，是计算机视觉中的一个重要问题，在电影制作、虚拟主播、视频流、新媒体等领域有着广泛的应用。相较于真实人脸，艺术肖像画能激发起人类不同的情感体验，甚至唤起不同的人脑功能。因此，艺术风格化后的说话人视频，即说话肖像画视频，能实现新的交互和娱乐应用，从而获得更强的视觉效果。

然而，目前还没有方法解决从人脸照片生成一个说话肖像画视频的问题。

因此，如何根据人脸照片生成一个说话的肖像画视频，已经成为业界亟待解决的问题。

发明内容

本发明提供一种肖像画视频生成方法、装置、电子设备及存储介质，用以解决现有技术中无法根据人脸照片生成一个说话的肖像画视频的问题。

本发明提供一种肖像画视频生成方法，包括：

对预设目标音频和人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；

将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；

将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；

将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；

其中，所述训练好的深度神经网络语音模型是根据音频同步的音频特征样本信息和人脸特征点样本信息训练得到的；

其中，所述训练好的肖像画视频生成模型，是由真实人脸图像样本信息和携带真实标签的肖像画样本图像训练得到的。

根据本发明提供的一种肖像画视频生成方法，在将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型的步骤之前，所述方法还包括：

从预设唇读数据集中获取说话视频数据集的样本视频文件和样本音频文件；

按照预设采样间隔，提取样本视频文件中的人脸特征点样本信息，并同步采集样本音频文件中的音频特征样本信息，得到音频同步的音频特征样本信息和人脸特征点样本信息。

根据本发明提供的一种肖像画视频生成方法，所述提取样本视频文件中的人脸特征点样本信息，并同步采集样本音频文件中的音频特征样本信息，得到音频同步的音频特征样本信息和人脸特征点样本信息的步骤，具体包括：

对所述样本音频文件进行梅尔频率倒谱系数特征提取，得到音频特征样本信息；

对所述样本视频文件进行人脸特征点检测，得到人脸特征点样本信息。

将样本视频文件中第一帧图像的人脸特征点样本信息和任一预测时刻的音频特征样本信息，作为一组训练样本，获取多组训练样本；

利用多组训练样本对预设深度神经网络语音模型进行训练。

根据本发明提供的一种肖像画视频生成方法，利用多组训练样本对预设深度神经网络语音模型进行训练的步骤，具体包括：

对于任意一个训练样本，将所述训练样本输入预设深度神经网络语音模型，确认模型输出与预测时刻音频同步的人脸特征点；

根据模型输出的人脸特征点和真实的与预测时刻音频同步的人脸特征点，计算最小化损失函数值，当所述最小化损失函数值小于预设阈值时，完成训练，得到训练好的深度神经网络语音模型。

根据本发明提供的一种肖像画视频生成方法，在所述将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型的步骤之前，所述方法还包括：

获取真实人脸数据样本集中的真实人脸图像样本信息，并获取肖像画图像数据集的肖像画样本图像；

对所述真实人脸图像样本信息进行特征点提取，得到真实人脸图像特征点样本信息；

对所述肖像画样本图像进行特征点提取，得到肖像画图像特征点样本信息；

根据所述肖像画样本图像和肖像画图像特征点样本信息、真实人脸图像样本信息和真实人脸图像特征点样本信息构建第一训练样本；

对肖像画电影视频样本文件的图像帧，进行特征点提取和线条提取，得到第二训练样本集；

根据所述第一训练样本和第二训练样本对预设对抗网络模型进行训练，当满足预设训练条件时，得到训练好的肖像画视频生成模型；

其中，所述预设对抗网络模型由生成子模型、单帧判别子模型和多帧判别子模型构成。

根据本发明提供的一种肖像画视频生成方法，所述根据所述第一训练样本和第二训练样本对预设对抗网络模型进行训练的步骤，具体包括：

所述生成子模型用于根据所述第一训练样本生成伪造的肖像画样本图像；

所述单帧判别子模型和多帧判别子模型用于对伪造的肖像画样本图像和真实的肖像画样本图像进行区分；

所述单帧判别子模型和多帧判别子模型，与所述生成子模型以对抗的方式进行训练，直至满足预设训练条件时，得到训练好的肖像画视频生成模型。

本发明还提供一种肖像画视频生成装置，包括：

提取模块，用于对预设目标音频和人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；

分析模块，用于将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；

处理模块，用于将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；

生成模块，用于将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述肖像画视频生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述肖像画视频生成方法的步骤。

本发明提供的一种肖像画视频生成方法、装置、电子设备及存储介质，通过对于深度神经网络语音模型的训练，可以实现，根据人脸图像，确定预设目标音频同步的人脸特征点信息；然后将音频同步的人脸特征点序列和目标人脸图像输入训练好的深度神经网络神经模型，从而实现预设人脸图像的变形，并进行肖像画风格转换，得到与人脸图像一致、人脸几何和特征点一致的肖像画图像序列，此时该肖像画图像序列的人脸特征点依然保持与预设音频同步，因此最终将预设音频与目标肖像画图片序列进行合成后，即可得到人物嘴型与该时刻的音频同步的目标人脸肖像画视频。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的肖像画视频生成方法的流程示意图；

图2为本发明提供的深度神经网络语音模型的结构示意图；

图3为本发明中提供的预设对抗网络模型结构示意图；

图4为本发明提供的艺术肖像画的示例示意图；

图5为本发明提供的肖像画视频生成装置示意图；

图6为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的肖像画视频生成方法的流程示意图，如图1所示，包括：

步骤S1，对预设目标音频和人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；

具体的，本发明中所描述的预设目标音频是指真实说话音频文件，即需要根据该预设音频生成对应的说话肖像画视频。

本发明中所描述的人脸图像是指包含目标人物的人脸图像文件。

本发明中预设目标音频进特征提取，具体可以是指对预设目标音频进行梅尔频率倒谱系数特征(Mel Frequency Cepstrum Coefficient；MFCC)提取，得到音频特征信息。

本发明中对目标人脸图像进行特征提取，具体可以是指对目标人脸图像进行人脸特征点检测，得到人脸特征点信息。

本发明中对于音频和人脸图像进行特征提取是为了更有利于后续模型进行数据处理，从而更有效地确定音频对应的人脸特征点，即音频对应的嘴型等信息。

步骤S2，将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；

具体的，本发明中的训练好的深度神经网络语音模型是根据音频同步的音频特征样本信息和人脸特征点样本信息训练得到的，而其在训练过程中的人脸特征点通常是样本视频文件中的第一帧图像的人脸特征点，因此训练好的肖像画视频生成模型，可以根据预设目标音频和目标人脸图像，预测与预设目标音频同步的人脸特征点序列。

本发明中所描述的音频同步的人脸特征点序列可以是指其特征的嘴部特征能够与预设目标音频的发声嘴型一致的特征点序列，从而在后续肖像画视频生成时，有效保证肖像画中的人物嘴型与预设目标音频同步。

步骤S3，将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；

具体的，本发明中通过训练好的肖像画视频生成模型，可以根据将目标人脸图像和所述音频同步的人脸特征点，将目标人脸图像进行肖像画风格转换，得到与人脸图像一致、人脸几何和特征点一致的肖像画图像序列，此时目标肖像画图片序列信息的人脸特征点依然保持与预设音频同步。

步骤S4，将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；

本发明中所描述的真实标签用于标记该肖像画样本图像是真实的肖像画样本图像，用于区分其不是生成子模块生成的肖像画图像。

本发明得到的目标肖像画图像序列依然保持与预设音频同步，因此在将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频后，该目标人脸的肖像画视频，依然可以保持肖像画的人物嘴型与该时刻的音频同步。

本发明通过对于深度神经网络语音模型的训练，可以实现，根据人脸图像，确定预设目标音频同步的人脸特征点信息；然后将音频同步的人脸特征点序列和目标人脸图像输入训练好的深度神经网络神经模型，从而实现预设人脸图像的变形，并进行肖像画风格转换，得到与人脸图像一致、人脸几何和特征点一致的肖像画图像序列，此时该肖像画图像序列的人脸特征点依然保持与预设音频同步，因此最终将预设音频与目标肖像画图片序列进行合成后，即可得到人物嘴型与该时刻的音频同步的目标人脸肖像画视频。

基于上述任一实施例，在将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型的步骤之前，所述方法还包括：

具体的，本发明中所描述的预设唇读数据集(Lip Reading in the WildDataset；LRW)具体是指，包括不同人物的说话视频，且存在有该说话视频对应的人脸特征点信息，即唇读数据信息，本发明中的样本音频文件是从样本视频文件中提取得到的。

本发明中所描述的按照预设间隔取样，是指按照同样的采样间隔，对样本视频文件中的人脸特征点样本信息和样本音频文件中的音频特征样本信息进行同步提取，从而保证得到的音频特征样本信息和人脸特征点样本信息保持音频同步。

具体的，本发明的采样具体可以是指，采用40毫秒的预设采样间隔，对样本音频文件每隔40毫秒取一个以该时刻为中心的280毫秒的音频片段，对每个这样的音频片段提取一个MFCC音频特征样本信息，得到MFCC音频特征样本信息

其中T表示采样数；同时，从样本视频文件中每隔40毫秒提取一张图像(即帧率为25fps)，对该图像进行人脸特征点检测，从而提取人脸特征点样本信息，得到人脸特征点样本信息，

表示样本视频文件中预测时刻t的图像的人脸特征点，为68个三维特征点；最后，得到音频同步的音频特征样本信息s和人脸特征点样本信息。

本发明中通过从预设唇读数据库中获取样本视频文件和样本音频文件，从而保证所获取的样本视频文件和样本音频文件的音频同步，而后续按照预设采样间隔同步对样本视频文件和样本音频文件进行特征提起，同样能够得到音频同步的音频特征样本信息和人脸特征点样本信息，从而保证后续训练的进行。

利用多组训练样本对预设深度神经网络语音模型进行训练。

利用多组训练样本对预设深度神经网络语音模型进行训练的步骤，具体包括：

具体的，本发明中所描述的预设深度神经网络语音模型是由长短期记忆模型构建得到的，具体的，该长短期记忆模型(Long Short-Term Memory；LSTM)依次包括卷积层、归一化层、激活层和全连接层等。

图2为本发明提供的深度神经网络语音模型的结构示意图，如图2所示，在训练过程中，深度神经网络语音模型的输入是以某时刻t为中心的280毫秒的样本音频文件的MFCC音频特征

和样本视频文件中第一帧图像的人脸特征点样本信息

模型的输出是预测时刻t对应的与音频同步的人脸特征点，即

进一步地，通过最小化损失函数L_AudioLmNe，完成深度神经网络语音模型的训练，公式为：

其中，第一项表示均方误差(Mean squared error，简称MSE)损失项，用于预测正确的面部运动；第二项表示拉普拉斯损失项，用于控制预测的人脸特征点间的相对位置在合理的范围内，λ_a1表示拉普拉斯损失项的权重；n表示训练样本集中的训练样本数量，T表示每个训练样本中样本视频文件的采样帧数；

表示人脸特征点X_t的图拉普拉斯坐标，通过对人脸特征点中的68个点之间建立图连接关系，计算第j个特征点的图拉普拉斯坐标为

其中N(X_j)表示第j个特征点的邻接节点集合。

在训练好后，测试过程中，深度神经网络语音模型的输入是以某时刻t为中心的280毫秒的预设音频文件的MFCC音频特征

和预设人脸图像文件的人脸特征点

模型的输出是预测的对应时刻的与音频同步的人脸特征点，即

进一步将三维特征点投影到二维图像平面得到二维特征点

本发明通过训练好的深度神经网络语音模型，可以输入人脸图像文件的人脸特征点和预测时刻的音频特征信息时，即可得到预测时刻的人脸特征点样本信息，因此，在输入音频特征信息时，可以得到音频同步的人脸特征点序列。

基于上述任一实施例，在所述将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型的步骤之前，所述方法还包括：

具体的，本发明中的真实人脸数据样本集和肖像画图像数据集都是从互联网信息源进行收集的。

本发明中所描述的肖像画电影视频样本文件是指每帧为艺术家创作的肖像画的电影。

本发明对真实人脸图像数据集的样本真实人脸图像文件和肖像画图像数据集的样本肖像画图像文件进行人脸特征点提取，得到第一训练样本集S₁。

本发明对肖像画电影视频样本文件的图像帧进行特征点提取和线条提取，得到第二训练样本集S₂。

本发明中对第一训练样本集S₁和第二训练样本集S₂的构建，具体为：

分别从真实人脸图像样本信息S(p)的真实人脸图像样本信息、肖像画图像数据集S(d)的样本肖像画图像文件(构建第一训练样本集S₁)和肖像画电影视频样本文件的图像帧(构建第二训练样本集S₂)中提取人脸特征点

并将该人脸特征点输入一个预测模型获得头部特征点

最终得到特征点

其中im表示人脸图像文件或肖像画图像文件；进一步，对肖像画电影视频文件的图像帧进行线条提取等处理，使其更接近肖像画图像数据集中的肖像画风格，对处理后的肖像画图像构造相邻帧集合S(adj)和不相邻帧集合S(nadj)。

本发明中的预设对抗网络模型(Generative Adversarial Networks，简称GANs)依次包括卷积层、归一化层、激活层和全连接层等。

具体的，图3为本发明中提供的预设对抗网络模型结构示意图，如图3所示，包括：深度神经网络迁移模型包括生成子模型G，单帧判别子模型D₁和多帧判别子模型D₂。

其中：生成子模型G的输入是1)真实人脸图像p，2)真实人脸图像p的特征点

3)目标特征点

在训练过程中，目标特征点为肖像画图像数据集S(d)中样本肖像画图像d的特征点，在测试过程中，目标特征点由深度神经网络语音模型预测得到；模型输出的是一个肖像画图像G(p，l_p，l_t)，其人物身份与真实人脸图像一致p、人脸几何与目标特征点l_t一致，即生成子模型同时进行人脸几何编辑和艺术风格转换。

进一步地，单帧判别子模型D₁用于判断一个待检测肖像画图像是否为伪造的肖像画图像，需要说明的是，在本发明实施例中，待检测肖像画图像可以是生成子模型G生成得到的肖像画图像G(p，l_p，l_t)，也可能是肖像画图像数据集中的样本肖像画图像d。

进一步地，多帧判别子模型D₂用于判断两个待检测肖像画图像是否为伪造的时间上连续的肖像画图像，需要说明的是，在本发明实施例中，待检测的两个肖像画图像可以是生成子模型G生成得到的两个肖像画图像(G(p，l_p，l_t1)，G(p，l_p，l_t2))，其中l_t1和l_t2为差异微小的两个目标特征点，也可能是肖像画电影视频文件中提取并处理的相邻两帧肖像画图像(d₁，d₂)或不相邻两帧肖像画图像(d₃，d₄)。

进一步地，生成子模型G和判别子模型D₁、D₂以对抗的方式进行训练，即生成子模型G负责产生伪造的肖像画图像，单帧判别子模型D₁负责区分真正的肖像画图像和伪造的肖像画图像，多帧判别子模型D₂负责区分两个待检测肖像画图像是真正的时间上连续的肖像画图像还是伪造的时间上连续的肖像画图像；生成子模型G的目标1是，最小化判别子模型D₁将其生成的伪造肖像画图像判断为伪造的概率，而判别子模型D₁的目标是最大化正确区分真正肖像画图像和伪造肖像画图像的概率；生成子模型G的目标2是，最小化判别子模型D₂将其生成的两个伪造肖像画图像判断为伪造的时间上连续的概率，而判别子模型D₂的目标是最大化正确区分真正的时间上连续的肖像画图像和伪造的时间上连续的肖像画图像。

在上述实施例的基础上，通过最小化损失函数L_TransferNet，完成深度神经网络迁移模型的训练，公式为：

其中，L_adv表示对抗损失项，L_coh1表示基于多帧判别子模型D₂的第一帧间一致性损失项，l_t1和l_t2为差异微小的两个目标特征点；L_content表示内容损失项，W表示一个根据关键点进行图像变形的模块，d_s表示真实人脸图像p通过一个静态肖像画生成模型生成得到的肖像画图像，W(d_s，l_p，l_t)表示静态肖像画d_s变形到目标特征点l_t后的肖像画，W(d_s，l_p，l_t)作为近似的真值用于引导生成子模块合成高质量的肖像画；L_geom表示几何损失项，用于限制生成的肖像画的面部几何与目标特征点相似，R_land表示一个人脸特征点检测器，M_{lip_line}表示嘴部线条掩膜；L_iden表示身份保持损失项，用于限制生成肖像画的人物身份与输入真实人脸图像一致，R_iden表示一个基于人脸识别网络的人脸身份特征提取器；L_coh2表示基于图像变形的第二帧间一致性损失项，限制基于微小变化的目标特征点生成的两个肖像画图像经过变形后是一致的；λ₁表示第一帧间一致性损失项的权重，λ₂表示内容损失项的权重，λ₃表示几何损失项的权重，λ₄表示身份保持损失项的权重，λ₅表示第二帧间一致性损失项的权重。

本发明通过对抗训练的方式，有效地保证了根据目标人脸图像和所述音频同步的人脸特征点序列所生成的目标肖像画图片序列信息的有效性，能够实现更好的肖像画变形效果，提升用户体验。

图4为本发明提供的艺术肖像画的示例示意图，如图4所示，其中显示了艺术肖像画示例和肖像画电影中提取和处理后所得的肖像画示例。

图5为本发明提供的肖像画视频生成装置示意图，如图5所示，包括：提取模块510、分析模块520、处理模块530和生成模块540；其中，提取模块510用于对预设目标音频和人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；其中，分析模块520用于将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；其中，处理模块530用于将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；其中，生成模块540用于将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；其中，所述训练好的深度神经网络语音模型是根据音频同步的音频特征样本信息和人脸特征点样本信息训练得到的；其中，所述训练好的肖像画视频生成模型，是由真实人脸图像样本信息和携带真实标签的肖像画样本图像训练得到的。

图6为本发明提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行肖像画视频生成方法，该方法包括：对预设目标音频和目标人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；其中，所述训练好的深度神经网络语音模型是根据音频同步的音频特征样本信息和人脸特征点样本信息训练得到的；其中，所述训练好的肖像画视频生成模型，是由真实人脸图像样本信息和携带真实标签的肖像画样本图像训练得到的。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的肖像画视频生成方法，该方法包括：对预设目标音频和目标人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；其中，所述训练好的深度神经网络语音模型是根据音频同步的音频特征样本信息和人脸特征点样本信息训练得到的；其中，所述训练好的肖像画视频生成模型，是由真实人脸图像样本信息和携带真实标签的肖像画样本图像训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的肖像画视频生成方法，该方法包括：对预设目标音频和目标人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型，得到音频同步的人脸特征点序列；将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型，得到目标肖像画图片序列信息；将所述目标肖像画图片序列信息和所述预设目标音频进行合成，得到目标人脸的肖像画视频；其中，所述训练好的深度神经网络语音模型是根据音频同步的音频特征样本信息和人脸特征点样本信息训练得到的；其中，所述训练好的肖像画视频生成模型，是由真实人脸图像样本信息和携带真实标签的肖像画样本图像训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种肖像画视频生成方法，其特征在于，包括：

对预设目标音频和目标人脸图像进行特征提取，得到音频特征信息和人脸特征点信息；

2.根据权利要求1所述肖像画视频生成方法，其特征在于，在将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型的步骤之前，所述方法还包括：

3.根据权利要求2所述肖像画视频生成方法，其特征在于，所述提取样本视频文件中的人脸特征点样本信息，并同步采集样本音频文件中的音频特征样本信息，得到音频同步的音频特征样本信息和人脸特征点样本信息的步骤，具体包括：

4.根据权利要求2所述肖像画视频生成方法，其特征在于，在将所述音频特征信息和所述人脸特征点信息输入训练好的深度神经网络语音模型的步骤之前，所述方法还包括：

利用多组训练样本对预设深度神经网络语音模型进行训练。

5.根据权利要求4所述肖像画视频生成方法，其特征在于，利用多组训练样本对预设深度神经网络语音模型进行训练的步骤，具体包括：

6.根据权利要求1所述肖像画视频生成方法，其特征在于，在所述将目标人脸图像和所述音频同步的人脸特征点序列输入训练好的肖像画视频生成模型的步骤之前，所述方法还包括：

7.根据权利要求6所述肖像画视频生成方法，其特征在于，所述根据所述第一训练样本和第二训练样本对预设对抗网络模型进行训练的步骤，具体包括：

8.一种肖像画视频生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述肖像画视频生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述肖像画视频生成方法的步骤。