CN113223121A

CN113223121A - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN113223121A
Application number: CN202110478994.8A
Authority: CN
Inventors: 饶强; 黄旭为; 张国鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-06
Anticipated expiration: 2041-04-30
Also published as: CN113223121B

Abstract

本申请涉及计算机技术领域，公开了一种视频生成方法、装置、电子设备及存储介质。方法包括：获取参考视频和目标图像；从参考视频的每帧图像中分别提取出第一对象的第一面部表情运动参数；将各第一面部表情运动参数分别输入表情映射模型，得到第二对象的与各第一面部表情运动参数分别对应的第二面部表情运动参数；根据预先从目标图像中提取出的第二对象的第三面部表情运动参数和各第二面部表情运动参数，生成分别与各第二面部表情运动参数对应的运动图像帧；将各帧运动图像帧进行组合，得到目标运动视频，从而可以根据参考视频驱动目标图像，快速得到目标运动视频，使得生成的视频流畅自然，并且可以提高视频生成效率。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

现有技术中，一般采用人工调整动物图像的面部维度结构系数实现动物说话的目的。针对动画视频的制作，存在大量动物图像需要调整的情况，这样需要人工对每一个待调整的动物图像逐一进行设计调整，导致效率低。

例如，动画视频制作时，针对需要生成动物说话视频的应用场景，使得动物可以和人一样张闭口，做出说话的动作，但是人工调整动物图像的面部维度结构系数后生成的动物说话的视频，相对人说话的视频来说，不够流畅和自然，并且人工逐一调整，动画视频制作时长太久，效率太低。

发明内容

本申请实施例提供一种视频生成方法、装置、电子设备及存储介质，可以使得生成的视频流畅自然，并且可以提高视频生成效率。

第一方面，本申请一实施例提供了一种视频生成方法，所述方法包括：

获取参考视频和目标图像；所述参考视频中包括具有面部表情变化的第一对象，所述目标图像中包括第二对象、且所述第一对象和所述第二对象的类别不同；

从所述参考视频的每帧图像中分别提取出所述第一对象的第一面部表情运动参数；

将各所述第一面部表情运动参数分别输入表情映射模型，得到所述第二对象的与各所述第一面部表情运动参数分别对应的第二面部表情运动参数；

根据预先从所述目标图像中提取出的所述第二对象的第三面部表情运动参数和各所述第二面部表情运动参数，生成分别与各所述第二面部表情运动参数对应的运动图像帧；

将各帧所述运动图像帧进行组合，得到目标运动视频。

可选的，所述表情映射模型的训练方法包括：

获取样本图像对，所述样本图像对包括所述第一对象对应的第一样本图像以及所述第二对象对应的第二样本图像，且所述第一样本图像和所述第二样本图像具有相同类型的面部运动信息；

从所述第一样本图像和所述第二样本图像中分别提取所述第一对象的面部表情运动参数和所述第二对象的面部表情运动参数；

将所述第一对象的面部表情运动参数输入待训练的表情映射模型，得到所述待训练的表情映射模型输出的所述第二对象的预测面部表情运动参数；

基于所述第二对象的预测面部表情运动参数与所述第二对象的面部表情运动参数之间的损失值，对所述待训练的表情映射模型进行训练，得到所述表情映射模型。

可选的，所述从所述参考视频的每帧图像中分别提取出所述第一对象的第一面部表情运动参数，包括：

将所述参考视频的每帧图像分别输入第一运动参数提取模型，得到与所述每帧图像分别对应的所述第一面部表情运动参数；

所述预先从所述目标图像中提取出所述第二对象的第三面部表情运动参数，包括：

将所述目标图像输入第二运动参数提取模型，得到所述第二对象的所述第三面部表情运动参数。

可选的，将所述第一运动参数提取模型和所述第二运动参数提取模型中的任一模型分别作为目标模型，则训练所述目标模型，包括：

获取训练对象的训练样本对，其中所述训练样本对中包括所述训练对象的第一图像和第二图像；其中，当所述目标模型为所述第一运动参数提取模型时，所述训练对象为所述第一对象，当所述目标模型为所述第二运动参数提取模型时，所述训练对象为所述第二对象；

将所述训练样本对输入待训练的目标模型，得到所述待训练的目标模型输出的所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数；

基于所述第一图像、所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数，生成第三图像，其中所述第三图像表示所述第一图像驱动所述第二图像生成的；

将所述第三图像输入所述目标模型，得到所述目标模型输出的所述第三图像对应的面部表情运动参数；

基于所述第二图像对应的面部表情运动参数和所述第三图像对应的面部表情运动参数之间的差异信息，得到损失值；

基于所述损失值对所述待训练的目标模型进行训练，得到所述目标模型。

可选的，当所述目标模型为所述第二运动参数提取模型，所述训练对象为所述第二对象时，所述基于所述第一图像、所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数，生成第三图像，包括：

将所述第一图像、所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数输入第二图像生成器，得到所述第二图像生成器输出的所述第三图像。

可选的，所述第二面部表情运动参数和所述第三面部表情运动参数中均包括关键点坐标和雅克比矩阵，所述根据预先从所述目标图像中提取出的所述第二对象的第三面部表情运动参数和各所述第二面部表情运动参数，生成分别与各所述第二面部表情运动参数对应的运动图像帧，包括：

对每个所述第二面部表情运动参数，确定所述第二面部表情运动参数中的关键点坐标与所述第三面部表情运动参数中的关键点坐标之间的第一差异信息；以及，

确定所述第二面部表情运动参数中的雅克比矩阵与所述第三面部表情运动参数中的雅克比矩阵之间的第二差异信息；

基于所述目标图像、所述第一差异信息、以及所述第二差异信息，生成所述运动图像帧。

可选的，所述基于所述目标图像、所述第一差异信息、以及所述第二差异信息，生成所述运动图像帧，包括：

将所述目标图像、所述第一差异信息、以及所述第二差异信息输入已训练好的第二图像生成器，得到所述已训练好的第二图像生成器输出的所述运动图像帧。

第二方面，本申请一实施例提供了一种视频生成装置，所述装置包括：

获取单元，被配置为执行获取参考视频和目标图像；所述参考视频中包括具有面部表情变化的第一对象，所述目标图像中包括第二对象、且所述第一对象和所述第二对象的类别不同；

提取单元，被配置为执行从所述参考视频的每帧图像中分别提取出所述第一对象的第一面部表情运动参数；

输入单元，被配置为执行将各所述第一面部表情运动参数分别输入表情映射模型，得到所述第二对象的与各所述第一面部表情运动参数分别对应的第二面部表情运动参数；

生成单元，被配置为执行根据预先从所述目标图像中提取出的所述第二对象的第三面部表情运动参数和各所述第二面部表情运动参数，生成分别与各所述第二面部表情运动参数对应的运动图像帧；

确定单元，被配置为执行将各帧所述运动图像帧进行组合，得到目标运动视频。

可选的，所述表情映射模型的训练方法，包括：

可选的，所述提取单元，被配置为执行：

所述生成单元在预先从所述目标图像中提取出所述第二对象的第三面部表情运动参数时，被配置为执行：

可选的，当所述目标模型为所述第二运动参数提取模型，所述训练对象为所述第二对象时，所述提取单元在基于所述第一图像、所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数，生成第三图像时，被配置为执行：

可选的，所述第二面部表情运动参数和所述第三面部表情运动参数中均包括关键点坐标和雅克比矩阵，所述生成单元，被配置为执行：

可选的，所述生成单元在基于所述目标图像、所述第一差异信息、以及所述第二差异信息，生成所述运动图像帧时，被配置为执行：

第三方面，本申请一实施例还提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如本申请第一方面中提供的任一方法。

第四方面，本申请一实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本申请第一方面中提供的任一方法。

第五方面，本申请一实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本申请第一方面中提供的任一方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

获取参考视频和目标图像；从参考视频的每帧图像中分别提取出第一对象的第一面部表情运动参数；将各第一面部表情运动参数分别输入表情映射模型，得到第二对象的与各第一面部表情运动参数分别对应的第二面部表情运动参数；根据预先从目标图像中提取出的第二对象的第三面部表情运动参数和各第二面部表情运动参数，生成分别与各第二面部表情运动参数对应的运动图像帧；将各帧运动图像帧进行组合，得到目标运动视频，从而可以根据参考视频驱动目标图像，快速得到目标运动视频，使得生成的视频流畅自然，并且可以提高视频生成效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频生成方法的应用场景示意图；

图2为本申请一实施例提供的运动参数提取模型训练方法的流程示意图；

图3为本申请一实施例提供基于第一图像、第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数，生成第三图像的示意图；

图4为本申请一实施例提供的表情映射模型训练方法的流程示意图；

图5为本申请一实施例提供的视频生成方法的流程示意图；

图6为本申请一实施例提供的视频生成方法的具体应用场景示意图；

图7为本申请一实施例提供的视频生成装置的结构示意图；

图8为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

以下，对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

(2)“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

(3)服务器，是为终端服务的，服务的内容诸如向终端提供资源，保存终端数据；服务器是与终端上安装的应用程序相对应的，与终端上的应用程序配合运行。

(4)终端设备，既可以指软件类的APP(Application，应用程序)，也可以指客户端。它具有可视的显示界面，能与用户进行交互；是与服务器相对应，为客户提供本地服务。针对软件类的应用程序，除了一些只在本地运行的应用程序之外，一般安装在普通的客户终端上，需要与服务端互相配合运行。因特网发展以后，较常用的应用程序包括了如收寄电子邮件时的电子邮件客户端，以及即时通讯的客户端等。对于这一类应用程序，需要网络中有相应的服务器和服务程序来提供相应的服务，如数据库服务，配置参数服务等，这样在客户终端和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

在具体实践过程中，一般采用人工调整动物图像的面部维度结构系数实现动物说话的目的。针对动画视频的制作，存在大量动物图像需要调整的情况，这样需要人工对每一个待调整的动物图像逐一进行设计调整，导致效率低。例如，动画视频制作时，针对需要生成动物说话视频的应用场景，使得动物可以和人一样张闭口，做出说话的动作，但是人工调整动物图像的面部维度结构系数后生成的动物说话的视频，相对人说话的视频来说，不够流畅和自然，并且人工逐一调整，动画视频制作时长太久，效率太低。

为此，本申请提供了一种视频生成方法，通过对参考视频的每帧图像分别提取第一对象的第一面部表情运动参数后，再通过表情映射模型得到与各第一面部表情运动参数分别对应的第二对象的第二面部表情运动参数，最后利用目标图像中提取出的第二对象的第三面部表情运动参数和各第二面部表情运动参数生成分别与各第二面部表情运动参数对应的运动图像帧，进而通过组合运动图像帧得到目标运动视频。从而可以根据参考视频驱动目标图像，快速得到目标运动视频，使得生成的视频流畅自然，并且可以提高视频生成效率。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参考图1，其为本申请实施例提供的视频生成方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101-1、终端设备101-2、……终端设备101-n)和服务器102。其中，终端设备101和服务器102之间通过无线或有线网络连接，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

不同用户分别通过各自对应的终端设备101将参考视频、以及目标图像发送至服务器102中，以用户1对应的终端设备101-1将参考视频、以及目标图像发送至服务器102为例进行说明。假设参考视频为人说话的视频，包括人说话图像1、人说话图像2、以及人说话图像3，目标图像为猫闭嘴图像，服务器102通过提取人说话视频中的每张图像中人的面部表情运动参数之后，将每张图像中人的面部表情运动参数输入已经训练好的表情映射模型中，得到人说话预测猫说话图像1、人说话预测猫说话图像2、人说话预测猫说话图像3，并在服务器102通过猫闭嘴图像提取猫的面部表情运动参数后，根据猫的面部表情运动参数、以及人说话预测猫说话图像1、人说话预测猫说话图像2、人说话预测猫说话图像3，确定猫说话视频并将该视频发送至其对应的终端设备101-1中，通过终端设备101-1显示生成的猫说话视频。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案按照以下几部分内容进行说明。

一、运动参数提取模型的训练

利用参考视频，生成对应的目标图像的目标运动视频的过程中，需要对参考视频的每帧图像以及目标图像提取面部表情运动参数。而针对不同种类的对象，需要不同的运动参数提取模型从给定图像中进行提取该种类对象对应的面部表情运动参数。

这里，将提取第一对象的第一面部表情信息的运动参数提取模型确定为第一运动参数提取模型，将提取第二对象的第二面部表情信息的运动参数提取模型确定为第二运动参数提取模型。训练样本对中包括训练对象的第一图像和第二图像。

假设第一对象为人，则可以将提取人的面部表情运动参数的运动参数提取模型确定为第一运动参数提取模型，假设第二对象为动物，则可以将提取动物的面部表情运动参数的运动参数提取模型确定为第二运动参数提取模型。

这里，将第一运动参数提取模型和第二运动参数提取模型中的任一模型分别作为目标模型，目标模型为一阶运动模型(First Order Motion Model，FOMM)的第一部分，FOMM还包括稠密运动场估计模型(第二部分)、图像生成器(第三部分)，接下来分别介绍第一运动参数提取模型和第二运动参数提取模型的训练过程。

(1)第一运动参数提取模型的训练

如图2所示，根据以下方法训练第一运动参数提取模型：

S201，获取训练对象的训练样本对，其中训练样本对中包括训练对象的第一图像和第二图像。

示例性地，以第一对象表示人为例，第一对象的第一图像和第二图像可以是同一个人的不同表情的图像，也可以是两个人的不同表情的图像，在此不做具体的限制，可根据实际应用情况进行调整。

S202，将训练样本对输入待训练的第一运动参数提取模型，得到待训练的第一运动参数提取模型输出的第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数。

具体地，第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数均可以包括关键点坐标和雅克比矩阵，雅克比矩阵可以为关键点坐标的预设范围内变化量的一阶展开系数矩阵。

S203，基于第一图像、第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数，生成第三图像，其中第三图像表示第一图像驱动第二图像生成的。

示例性地，以第一对象表示人，并且第一对象的第一图像和第二图像为两个不同的人的图像为例。如图3所示，分别获取A图像对应的面部表情运动参数与B图像对应的面部表情运动参数，基于A图像、A图像对应的面部表情运动参数与B图像对应的面部表情运动参数，生成C图像，这里，C图像为A图像驱动B图像生成的。

并且，可以根据VGG(Visual Geometry Group，视觉几何群)卷积神经网络模型对A图像进行特征提取，基于提取到的特征、A图像对应的面部表情运动参数与B图像对应的面部表情运动参数，生成C图像。这里，并不具体限定特征提取所采用的模型，可根据实际应用情况进行调整。

S204，将第三图像输入第一运动参数提取模型，得到第一运动参数提取模型输出的第三图像对应的面部表情运动参数。

这里，提取面部表情运动参数的过程可参考步骤S202，在此不再赘述。

S205，基于第二图像对应的面部表情运动参数和第三图像对应的面部表情运动参数之间的差异信息，得到损失值。

S206，基于损失值对待训练的第一运动参数提取模型进行训练，得到第一运动参数提取模型。

示例性地，如图3所示，根据B图像对应的面部表情运动参数、以及C图像对应的面部表情运动参数，确定损失值。

(2)第二运动参数提取模型的训练

根据以下方法训练第二运动参数提取模型：

A1，获取训练对象的训练样本对，其中训练样本对中包括训练对象的第一图像和第二图像。

A2，将训练样本对输入待训练的第二运动参数提取模型，得到待训练的第二运动参数提取模型输出的第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数。

A3，基于第一图像、第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数，生成第三图像，其中第三图像表示第一图像驱动第二图像生成的。

A4，将第三图像输入第二运动参数提取模型，得到第二运动参数提取模型输出的第三图像对应的面部表情运动参数。

A5，基于第二图像对应的面部表情运动参数和第三图像对应的面部表情运动参数之间的差异信息，得到损失值。

A6，基于损失值对待训练的第二运动参数提取模型进行训练，得到第二运动参数提取模型。

这里，第二运动参数提取模型的训练过程可参考第一运动参数提取模型的训练过程，在此不再赘述。

本申请的一实施例中，步骤A3，基于第一图像、第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数，生成第三图像，包括：

基于将第一图像、第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数输入第二图像生成器，得到第二图像生成器输出的第三图像。

通过将第一图像、第一图像对应的面部表情运动参数、以及第二图像对应的面部表情运动参数输入第二图像生成器，对第二图像生成器进行训练，从而得到训练好的第二图像生成器，以便于后续利用训练好的第二图像生成器生成运动图像帧。

另外，通过对第一运动参数提取模型、第二运动参数提取模型的训练，相对于人工逐一标记后提取到的表情运动参数来说，提取结果更加准确，并且提取的效率更高。

具体的，将参考视频的每帧图像分别输入第一运动参数提取模型，得到与每帧图像分别对应的第一面部表情运动参数；并将目标图像输入第二运动参数提取模型，得到第二对象的第三面部表情运动参数。

利用预先训练好的第一运动参数提取模型、第二运动参数提取模型提取表情运动参数，既可以自适应提取表情运动参数，又相对于人工逐一标记后提取到的表情运动参数来说，提取结果更加准确，并且提取的效率更高。

二、表情映射模型的训练

将参考视频的每帧图像、以及目标图像按照训练好的目标提取模型分别提取出各自对应的面部表情运动参数之后，根据表情映射模型，确定每帧图像对应的面部表情运动参数分别对应的目标图像的面部表情运动参数。

如图4所示，根据以下方法训练表情映射模型：

S401，获取样本图像对，样本图像对包括第一对象对应的第一样本图像以及第二对象对应的第二样本图像，且第一样本图像和第二样本图像具有相同类型的面部运动信息；

示例性地，假设第一对象为人，第二对象为一种动物，样本图像对可以包括人对应的第一样本图像以及一种动物对应的第二样本图像，并且当人对应的第一样本图像为张嘴的面部表情时，该动物对应的第二样本图像也应该是张嘴的面部表情。

S402，从第一样本图像和第二样本图像中分别提取第一对象的面部表情运动参数和第二对象的面部表情运动参数；

具体地，可以通过预先训练的运动参数提取模型从第一对象对应的第一样本图像中提取第一对象的面部表情运动参数，以及，通过预先训练的运动参数提取模型从第二对象对应的第二样本图像中提取第二对象的面部表情运动参数，其中，运动参数提取模型的训练过程在前面已经描述完具体的步骤，在此不再赘述。

S403，将第一对象的面部表情运动参数输入待训练的表情映射模型，得到待训练的表情映射模型输出的第二对象的预测面部表情运动参数；

S404，基于第二对象的预测面部表情运动参数与第二对象的面部表情运动参数之间的损失值，对待训练的表情映射模型进行训练，得到表情映射模型。

通过对表情映射模型的训练，可以使得第二对象的面部表情发生变化时，更加流畅、自然，并且与第一对象的面部表情变化也更加贴合。

三、视频生成

如图5所示，示出了本申请一实施例提供的视频生成方法：

将参考视频的每帧图像输入预先训练的第一运动参数提取模型，以使运动参数提取模型输出每帧图像分别对应的第一对象的第一面部表情运动参数。再将每帧图像分别对应的第一对象的第一面部表情运动参数输入预先训练的表情映射模型，以使表情映射模型输出每帧图像分别对应的第二对象的第二面部表情运动参数。

并且将目标图像输入预先训练的第二运动参数提取模型，以使第二运动参数提取模型输出目标图像对应的第二对象的第三面部表情运动参数。将第二对象的第二面部表情运动参数、以及第二对象的第三面部表情运动参数输入预先训练的第二对象的第二图像生成器，以使第二对象的第二图像生成器输出分别与各第二面部表情运动参数对应的运动图像帧。最后由各运动图像帧进行组合，得到目标运动视频。其中，第一运动参数提取模型的训练过程、第二运动参数提取模型的训练过程、表情映射模型的训练过程在前面已经描述完具体的步骤，在此不再赘述。

当第二对象的面部表情运动参数中包括关键点坐标和雅克比矩阵时，也即第二对象的第二面部表情运动参数与第二对象的第三面部表情运动参数分别包括各自对应的关键点坐标和雅克比矩阵。

那么，对每个第二面部表情运动参数，确定第二面部表情运动参数中的关键点坐标与第三面部表情运动参数中的关键点坐标之间的第一差异信息；以及，确定第二面部表情运动参数中的雅克比矩阵与第三面部表情运动参数中的雅克比矩阵之间的第二差异信息；基于目标图像、第一差异信息、以及第二差异信息，生成运动图像帧。

示例性地，根据以下公式(1)计算第一差异信息，根据以下公式(2)计算第二差异信息：

ΔK₁＝K₁-K'₁ (1)

ΔJ₁＝(J₁)^-1*J'₁ (2)

其中，K₁为第二面部表情运动参数中的关键点坐标，K'₁为第三面部表情运动参数中的关键点坐标，ΔK₁为第一差异信息。J₁为第二面部表情运动参数中的雅克比矩阵，J'₁为第三面部表情运动参数中的雅克比矩阵，ΔJ₁为第二差异信息。

如图6所示，参考视频中的每帧图像包括D1图像、D2图像、D3图像，目标图像为E图像，其中，参考视频中的每帧图像为人对应的图像，目标图像为猫对应的图像，并且D1图像为微笑表情、D2图像为闭眼表情、D3图像为歪头表情，利用上述步骤生成与参考视频中每帧图像对应的目标图像，也即生成E1图像(微笑表情)、E2图像(闭眼表情)、E3图像(歪头表情)，基于E1图像、E2图像、E3图像，得到目标图像对应的视频，也即目标运动视频。

通过提取关键点坐标，可以获取图像中对象表情变化的不同运动关键点信息，并且雅克比矩阵是关键点坐标周围运动量的一阶展开系数矩阵，表示关键点坐标周围的运动变化方向和快慢，因此将关键点坐标和雅克比矩阵均作为提取到的面部表情运动参数，可以使得提取到的面部表情运动参数更准确，也可以更精细的描述局部运动。

本申请的一实施例中，将目标图像、第一差异信息、以及第二差异信息输入已训练好的第二图像生成器，得到已训练好的第二图像生成器输出的运动图像帧。

通过预先训练好的第二图像生成器，生成运动图像帧，可以使得运动图像帧在发生表情变化时，更加流畅、自然，并且与参考视频中的每帧图像的面部表情变化也更加贴合。

本申请实施例通过对参考视频的每帧图像分别提取第一对象的第一面部表情运动参数后，再通过表情映射模型得到与各第一面部表情运动参数分别对应的第二对象的第二面部表情运动参数，最后利用目标图像中提取出的第二对象的第三面部表情运动参数和各第二面部表情运动参数生成分别与各第二面部表情运动参数对应的运动图像帧，进而通过组合运动图像帧得到目标运动视频。从而可以根据参考视频驱动目标图像，快速得到目标运动视频，使得生成的视频流畅自然，并且可以提高视频生成效率。

如图7所示，基于与上述视频生成方法相同的发明构思，本申请实施例还提供了一种视频生成装置70，所述装置70包括：

获取单元701，被配置为执行获取参考视频和目标图像；所述参考视频中包括具有面部表情变化的第一对象，所述目标图像中包括第二对象、且所述第一对象和所述第二对象的类别不同；

提取单元702，被配置为执行从所述参考视频的每帧图像中分别提取出所述第一对象的第一面部表情运动参数；

输入单元703，被配置为执行将各所述第一面部表情运动参数分别输入表情映射模型，得到所述第二对象的与各所述第一面部表情运动参数分别对应的第二面部表情运动参数；

生成单元704，被配置为执行根据预先从所述目标图像中提取出的所述第二对象的第三面部表情运动参数和各所述第二面部表情运动参数，生成分别与各所述第二面部表情运动参数对应的运动图像帧；

确定单元705，被配置为执行将各帧所述运动图像帧进行组合，得到目标运动视频。

可选的，所述表情映射模型的训练方法，包括：

可选的，所述提取单元702，被配置为执行：

所述生成单元704在预先从所述目标图像中提取出所述第二对象的第三面部表情运动参数时，被配置为执行：

可选的，当所述目标模型为所述第二运动参数提取模型，所述训练对象为所述第二对象时，所述提取单元702在基于所述第一图像、所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数，生成第三图像时，被配置为执行：

可选的，所述第二面部表情运动参数和所述第三面部表情运动参数中均包括关键点坐标和雅克比矩阵，所述生成单元704，被配置为执行：

可选的，所述生成单元704在基于所述目标图像、所述第一差异信息、以及所述第二差异信息，生成所述运动图像帧时，被配置为执行：

将所述目标图像、所述第一差异信息、以及所述第二差异信息输入已训练好的所述图像生成器，得到所述已训练好的所述图像生成器输出的所述运动图像帧。

本申请实施例提供的视频生成装置与上述视频生成方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

在介绍了本申请示例性实施方式的视频生成方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的视频生成方法中的步骤。例如，处理器可以执行如视频生成方法中的步骤。

下面参照图8来描述根据本申请的这种实施方式的电子设备130。图8显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器132，上述指令可由处理器131执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器131执行时实现如本申请提供的视频生成方法的任一方法。

在示例性实施例中，本申请提供的一种视频生成方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种视频生成方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于图像缩放的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器，使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

将各帧所述运动图像帧进行组合，得到目标运动视频。

2.根据权利要求1所述的方法，其特征在于，所述表情映射模型的训练方法，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述参考视频的每帧图像中分别提取出所述第一对象的第一面部表情运动参数，包括：

4.根据权利要求3所述的方法，其特征在于，将所述第一运动参数提取模型和所述第二运动参数提取模型中的任一模型分别作为目标模型，则训练所述目标模型，包括：

5.根据权利要求4所述的方法，其特征在于，当所述目标模型为所述第二运动参数提取模型，所述训练对象为所述第二对象时，所述基于所述第一图像、所述第一图像对应的面部表情运动参数、以及所述第二图像对应的面部表情运动参数，生成第三图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述第二面部表情运动参数和所述第三面部表情运动参数中均包括关键点坐标和雅克比矩阵，所述根据预先从所述目标图像中提取出的所述第二对象的第三面部表情运动参数和各所述第二面部表情运动参数，生成分别与各所述第二面部表情运动参数对应的运动图像帧，包括：

7.一种视频生成装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频生成方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的视频生成方法。