CN109951654B

CN109951654B - 一种视频合成的方法、模型训练的方法以及相关装置

Info

Publication number: CN109951654B
Application number: CN201910169985.3A
Authority: CN
Inventors: 黄浩智; 成昆; 袁春; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2022-02-15
Anticipated expiration: 2039-03-06
Also published as: WO2020177582A1; US20210243383A1; US11356619B2; CN109951654A

Abstract

本申请公开了一种视频合成的方法，包括：获取第一待合成视频的K帧源图像信息，其中，每帧图像信息包括源图像以及源动作关键点，源图像与源动作关键点具有对应关系，获取第二待合成视频的多帧目标图像信息，每帧目标图像信息包括目标动作关键点；通过视频合成模型获取K帧源图像信息与第一目标动作关键点所对应的第一输出图像，视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理；根据动作参照序列以及第一输出图像生成合成视频。本申请还公开了一种模型处理的方法和装置。本申请可以利用多帧源图像信息生成动作序列对应的输出图像，由此充分考虑到了连续帧之间的信息关联性，从而增强了合成视频的时域连续性。

Description

一种视频合成的方法、模型训练的方法以及相关装置

技术领域

本申请涉及人工智能领域，尤其涉及一种视频合成的方法、模型训练的方法以及相关装置。

背景技术

随着媒体形式的多样性提出了一种迁移不同视频中人物动作的策略。对于两个视频，一个视频中是想要合成动作的目标人物，另一个是被迁移动作的源人物。通过一种基于像素的端到端流程在人物之间进行动作迁移。视频动作迁移可以使未经训练的业余人员也能像专业芭蕾舞演员那样做出旋转等舞蹈动作，像流行明星那样跳舞。

目前，在视频动作迁移方法中，常用的处理方式为先提供两个视频，一个视频包括迁移对象，另一个视频包括动作参照序列，然后针对动作参照序列对视频中的每一帧动作分别进行单帧动作迁移，最后拼接成一个新的视频。

然而，针对动作序列对每一帧分别进行动作迁移的连贯性并不好，会导致合成的视频在时域的连续性较差。

发明内容

本申请实施例提供了一种视频合成的方法、模型训练的方法以及相关装置，可以利用多帧源图像信息生成动作序列对应的输出图像，由此充分考虑到了连续帧之间的信息关联性，从而增强了合成视频的时域连续性。

有鉴于此，本申请第一方面提供一种视频合成的方法，包括：

获取第一待合成视频的K帧源图像信息，其中，每帧图像信息包括源图像以及源动作关键点，所述源图像与所述源动作关键点具有对应关系，所述源图像包括迁移对象，所述K为大于1的整数；

获取第二待合成视频的多帧目标图像信息，其中，每帧目标图像信息包括目标动作关键点，所述第二待合成视频对应于动作参照序列，所述动作参照序列用于指示视频合成的图像顺序；

通过视频合成模型获取所述K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，所述视频合成模型用于对所述源图像、所述源动作关键点以及所述目标动作关键点进行融合处理，所述第一输出图像包括所述迁移对象，所述第一目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点；

根据所述动作参照序列以及所述第一输出图像生成合成视频。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练视频，其中，所述待训练视频包括多帧待训练图像信息，每帧待训练图像信息包括目标动作关键点；

通过待训练视频合成模型获取所述待训练视频所对应的预测输出图像；

采用内容损失函数对所述预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果；

采用对抗损失函数对所述预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果；

根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，其中，所述视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，所述源图像以及所述源动作关键点属于第一待合成视频，所述目标动作关键点属于第二待合成视频。

本申请第三方面提供一种视频合成装置，包括：

获取模块，用于获取第一待合成视频的K帧源图像信息，其中，每帧图像信息包括源图像以及源动作关键点，所述源图像与所述源动作关键点具有对应关系，所述源图像包括迁移对象，所述K为大于1的整数；

所述获取模块，还用于获取第二待合成视频的多帧目标图像信息，其中，每帧目标图像信息包括目标动作关键点，所述第二待合成视频对应于动作参照序列，所述动作参照序列用于指示视频合成的图像顺序；

所述获取模块，还用于通过视频合成模型获取所述K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，所述视频合成模型用于对所述源图像、所述源动作关键点以及所述目标动作关键点进行融合处理，所述第一输出图像包括所述迁移对象，所述第一目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点；

生成模块，用于根据所述获取模块获取的动作参照序列以及所述获取模块获取的所述第一输出图像生成合成视频。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于通过所述视频合成模型对所述K帧源图像信息以及所述第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合，其中，所述前景特征集合包括K个前景特征，所述背景特征集合包括K个背景特征；

通过所述视频合成模型获取所述前景特征集合所对应的前景融合特征；

通过所述视频合成模型获取所述背景特征集合所对应的背景融合特征；

通过所述视频合成模型对所述前景融合特征进行卷积处理，得到前景图像以及前景遮罩，其中，所述前景遮罩用于提取图像轮廓；

通过所述视频合成模型对所述背景融合特征进行卷积处理，得到背景图像；

通过所述视频合成模型对所述前景图像、所述前景遮罩以及所述背景图像进行处理，得到所述第一输出图像。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述获取模块，具体用于根据前景特征集合、所述K帧源图像信息中所述每帧图像信息的源动作关键点以及所述第一目标动作关键点，确定K帧前景注意力遮罩图；

根据所述K帧前景注意力遮罩图以及所述前景特征集合，确定所述前景融合特征。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于采用如下方式计算所述前景融合特征：

其中，所述

表示所述前景融合特征，所述

表示所述前景特征集合中的第k帧前景特征，所述

表示所述K帧前景注意力遮罩图中的第k帧前景注意力遮罩图，所述⊙表示像素的乘法。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述获取模块，具体用于根据背景特征集合、所述K帧源图像信息中所述每帧图像信息的源动作关键点以及所述第一目标动作关键点，确定K帧背景注意力遮罩图；

根据所述K帧背景注意力遮罩图以及所述背景特征集合，确定所述背景融合特征。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述获取模块，具体用于采用如下方式计算所述背景融合特征：

其中，所述

表示所述背景融合特征，所述

表示所述背景特征集合中的第k帧背景特征，所述

表示所述K帧背景注意力遮罩图中的第k帧背景注意力遮罩图，所述⊙表示像素的乘法。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

所述获取模块，具体用于采用如下方式计算所述第一输出图像：

其中，所述O^t表示第t帧对应的所述第一输出图像，所述

表示所述第t帧对应的所述前景图像，所述

表示所述第t帧对应的所述背景图像，所述

表示所述第t帧对应的所述前景遮罩，所述⊙表示像素的乘法。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

所述获取模块，还用于在所述生成模块根据所述动作参照序列以及所述第一输出图像生成合成视频之前，通过视频合成模型获取所述K帧源图像信息与第二目标动作关键点所对应的第二输出图像，其中，所述第二输出图像包括所述迁移对象，所述第二目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点；

所述生成模块，具体用于按照所述动作参照序列，对所述第一输出图像以及所述第二输出图像进行处理，得到所述合成视频。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练视频，其中，所述待训练视频包括多帧待训练图像信息，每帧待训练图像信息包括目标动作关键点；

所述获取模块，还用于通过待训练视频合成模型获取所述待训练视频所对应的预测输出图像；

处理模块，用于采用内容损失函数对所述获取模块获取的所述预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果；

所述处理模块，还用于采用对抗损失函数对所述获取模块获取的所述预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果；

训练模块，用于根据所述处理模块处理得到的所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，其中，所述视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，所述源图像以及所述源动作关键点属于第一待合成视频，所述目标动作关键点属于第二待合成视频。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述处理模块，具体用于对所述预测输出图像进行特征提取处理，得到预测图像特征，并对所述真实输出图像进行特征提取处理，得到真实图像特征；

采用均方误差损失函数对所述预测输出图像以及所述真实输出图像进行计算，得到所述第一损失结果；

采用VGG损失函数对所述预测图像特征以及所述真实图像特征进行计算，得到所述第二损失结果；

采用单帧对抗损失函数以及图像真实感判别器对所述预测输出图像、所述真实输出图像以及所述目标动作关键点进行计算，得到所述第三损失结果；

采用时域对抗损失函数以及视频真实感判别器对预测输出视频以及真实输出视频进行计算，得到所述第四损失结果，其中，所述预测输出视频包括多帧所述预测输出图像，所述真实输出视频包括多帧所述真实输出图像。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述处理模块，具体用于采用如下方式计算所述第一损失结果：

其中，所述L_MSE表示所述第一损失结果，所述O^t表示所述预测输出图像，所述

表示所述真实输出图像，所述t表示图像的帧号；

采用如下方式计算所述第二损失结果：

其中，所述L_VGG表示所述第一损失结果，所述φ(O^t)表示所述预测图像特征，所述

表示所述真实图像特征；

采用如下方式计算所述第三损失结果：

其中，所述L_GAN,I表示所述第三损失结果，所述D_I表示所述图像真实感判别器，所述

表示所述目标动作关键点；

采用如下方式计算所述第四损失结果：

其中，所述L_GAN,V表示所述第四损失结果，所述

表示所述视频真实感判别器，所述

表示所述预测输出视频，所述

表示所述真实输出视频，所述

表示光流信息，所述n表示所述视频真实感判别器所采用的图像帧数。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

所述训练模块，具体用于根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，计算得到总损失结果；

根据所述总损失结果确定模型参数；

根据所述模型参数对所述待训练视频合成模型进行训练，得到所述视频合成模型；

采用如下方式计算得到所述总损失结果：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；

其中，所述L_total表示所述总损失结果，所述L_MSE表示所述第一损失结果，所述λ_VGG表示第一权重系数，所述L_VGG表示所述第二损失结果，所述λ_GI表示第二权重系数，所述L_GAN,I表示所述第三损失结果，所述λ_GV表示第三权重系数，所述L_GAN,V表示所述第四损失结果；

采用如下方式计算得到所述模型参数：

其中，所述arg min max()表示使函数取最值时的变量值，所述G表示所述模型参数，所述D_I表示所述图像真实感判别器，所述D_V表示所述视频真实感判别器。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述动作参照序列以及所述第一输出图像生成合成视频；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，其中，所述视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，所述源图像以及所述源动作关键点属于第一待合成视频，所述目标动作关键点属于第二待合成视频；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频合成的方法，首先获取第一待合成视频的K帧源图像信息，每帧图像信息包括源图像以及源动作关键点，源图像包括迁移对象，并且获取第二待合成视频的多帧目标图像信息，每帧目标图像信息包括目标动作关键点，第二待合成视频对应于动作参照序列，动作参照序列用于指示视频合成的图像顺序，然后通过视频合成模型获取K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，第一输出图像包括迁移对象，第一目标动作关键点属于多帧目标图像信息中的一个目标动作关键点，最后根据动作参照序列以及第一输出图像生成合成视频。通过上述方式，可以利用多帧源图像信息生成动作序列对应的输出图像，由此充分考虑到了连续帧之间的信息关联性，从而增强了合成视频的时域连续性。

附图说明

图1为本申请实施例中视频合成系统的一个架构示意图；

图2为本申请实施例中合成视频的一个效果示意图；

图3为本申请实施例中视频合成的方法一个实施例示意图；

图4为本申请实施例中视频合成系统的一个框架流程示意图；

图5为本申请实施例中特征提取器的一个结构示意图；

图6为本申请实施例中特征聚合模块的一个结构示意图；

图7为本申请实施例中模型训练的方法一个实施例示意图；

图8为本申请实施例中视频合成装置的一个实施例示意图；

图9为本申请实施例中模型训练装置的一个实施例示意图；

图10为本申请实施例中终端设备的一个实施例示意图；

图11为本申请实施例中服务器的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供一种基于多帧融合的视频动作迁移方法，对于给定的两段视频，其中一段视频包括迁移对象，另一段视频包括动作参照序列，于是可以将动作参照序列的动作转移到迁移对象上，同时保持迁移对象的身份信息和外在表征。本申请具体可以应用于多种场景，包含但不仅限于视频编辑与制作，低成本计算机动画(ComputerAnimation，CA)动作捕捉等，能够快速的将待定动作序列应用于目标人物和场景，并且很好地保持主体的外观。比如，给定一个人跳舞的源视频，我们可以在这个人执行标准动作的几分钟之后，将该标准动作的表演迁移到一个业务的目标人物上，一个是用户心目中理想舞者表演的视频，另一个是用户随性提供的动作视频，合成最终的目标视频，让用户能够跳出梦寐以求的曼妙舞姿。

为了便于理解，本申请提出了一种视频合成检测的方法，该方法应用于图1所示的视频合成检测系统，请参阅图1，图1为本申请实施例中视频合成检测系统的一个架构示意图，如图所示，本申请设计了一个基于卷积神经网络的视频合成模型，该视频合成模型可以应用于客户端，也可以用于服务器。如果视频合成模型应用于客户端，则可以在离线状态下完成视频的合成，如果视频合成模型应用于服务器，则可以在在线的状态下由服务器进行视频合成，并将最终得到的合成视频发送至客户端，由客户端进行播放和分享。

具体地，首先每张图片将会被送入视频合成模型的特征提取网络，用于分离前景和背景，并提取相应的特征图。然后利用视频合成模型中的特征聚合模块，两路特征图将会各自聚合多帧有效信息，以便更好还原前景与背景的细节。随后，各自的解码器将两路聚合特征分别解码，生成相应的前景图像、前景遮罩和背景图像。最后，通过一个聚合模块合成输出图像。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机以及个人电脑(personal computer，PC)，此处不做限定。

下面将结合图2对本发明提供的视频合成的方法进行说明，请参阅图2，图2为本申请实施例中合成视频的一个效果示意图，如图所示，给定一段源视频，源视频中可以看到人物甲正在跳舞，此时，给出另一段目标视频，目标视频中可以看到人物乙在跳舞。用目标视频中的第t帧视频与源视频进行融合，从而得到合成图像，在合成图像中可以看到人物甲正在表演人物乙的舞蹈。将合成图像与预先合成完成的其他图像进行组合，从而生成合成视频。在客户端上即可播放和分析这段合成视频。

结合上述介绍，下面将对本申请中视频合成的方法进行介绍，请参阅图3，本申请实施例中视频合成的方法一个实施例包括：

101、获取第一待合成视频的K帧源图像信息，其中，每帧图像信息包括源图像以及源动作关键点，源图像与源动作关键点具有对应关系，源图像包括迁移对象，K为大于1的整数；

本实施例中，视频合成装置获取第一待合成视频，可以理解的是，视频合成装置可以部署于服务器，也可以部署于终端设备，此处不做限定。在得到第一待合成视频之后，需要对该第一待合成视频中的K帧图像进行信息提取，得到K帧源图像信息，K是大于1的整数。在K帧源图像信息中每帧源图像信息均包括源图像以及源动作关键点，源图像是指第一待合成视频中的一帧图像，该源图像中包括迁移对象，通常情况下，迁移对象可以是一个全景条件下的人物，也可以是动物或者其他可活动物体。源动作关键点是指源图像中迁移对象的动作关键点，比如一个人的头部关键点、肘部关键点、颈部关键点、膝盖关键点以及肩部关键点等。

102、获取第二待合成视频的多帧目标图像信息，其中，每帧目标图像信息包括目标动作关键点，第二待合成视频对应于动作参照序列，动作参照序列用于指示视频合成的图像顺序；

本实施例中，视频合成装置获取第二待合成视频，在得到第二待合成视频之后，需要对该第二待合成视频中的图像进行信息提取，得到多帧目标图像信息，其中，每帧目标图像信息中都包括了被迁移对象所对应的目标动作关键点，通常情况下，被迁移对象可以是一个全景条件下的人物，也可以是动物或者其他可活动物体。目标动作关键点是指被迁移对象的动作关键点，比如一个人的头部关键点、肘部关键点、颈部关键点、膝盖关键点以及肩部关键点等。

第二待合成视频对应于动作参照序列，动作参照序列用于指示视频合成的图像顺序，比如，第二待合成视频包括5帧图像，对应的动作参照序列分别为序列1、序列2、序列3、序列4和序列5，按照序列1至5的顺序生成的合成视频也包括5帧图像，其中，图像1与序列1具有对应关系，图像2与序列3具有对应关系，图像3与序列3具有对应关系，图像4与序列4具有对应关系，图像5与序列5具有对应关系。

103、通过视频合成模型获取K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，第一输出图像包括迁移对象，第一目标动作关键点属于多帧目标图像信息中的一个目标动作关键点；

本实施例中，视频合成装置将K帧源图像信息以及多帧目标图像信息中的第一目标动作关键点输入至视频合成模型，由视频合成模型输出相应的第一输出图像。这里的视频合成模型是提前训练得到的模型，可以对源图像、源动作关键点以及目标动作关键点进行融合处理。最后生成的第一输出图像中包括了迁移对象，因此，第一输出图像与第一待合成视频的身份信息相同，并且保持了迁移对象的外观。

104、根据动作参照序列以及第一输出图像生成合成视频。

本实施例中，视频合成装置按照第二待合成视频对应的动作参照序列，对第一输出图像以及其他输出图像进行拼接，得到合成视频。可以理解的是，如果视频合成装置部署于终端设备，则在得到合成视频之后即可进行展示。如果视频合成装置部署于服务器，则在得到合成视频之后需要发送至终端设备，由终端设备展示合成后的视频。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的视频合成的方法第一个可选实施例中，通过视频合成模型获取K帧源图像信息与第一目标动作关键点所对应的第一输出图像，包括：

通过视频合成模型对K帧源图像信息以及第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合，其中，前景特征集合包括K个前景特征，背景特征集合包括K个背景特征；

通过视频合成模型获取前景特征集合所对应的前景融合特征；

通过视频合成模型获取背景特征集合所对应的背景融合特征；

通过视频合成模型对前景融合特征进行卷积处理，得到前景图像以及前景遮罩，其中，前景遮罩用于提取图像轮廓；

通过视频合成模型对背景融合特征进行卷积处理，得到背景图像；

通过视频合成模型对前景图像、前景遮罩以及背景图像进行处理，得到第一输出图像。

本实施例中，介绍了一种利用视频合成模型对两个待合成视频的处理过程。首先，视频合成装置将K帧源图像信息以及第一目标动作关键点输入至视频合成模型，然后由该视频合成模型K帧源图像信息以及第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合，其中，前景特征集合包括K个前景特征，背景特征集合包括K个背景特征，即每个前景特征对应一个源图像信息，且每个背景特征对应一个源图像信息。接下来分别对前景特征集合和背景特征集合进行融合，得到前景融合特征以及背景融合特征。分别对前景融合特征以及背景融合特征进行卷积处理，得到前景图像、前景遮罩以及背景图像，其中，离用户视点较近的称为前景图像，位于画面深处且离用户视点较远的人与景物称为背景图像，而前景遮罩(mask)是为了去除合成时的锯齿而设计的，可以用于提取图像轮廓。最后，对前景图像、前景遮罩以及背景图像进行合成，得到第一输出图像。

具体地，请参阅图4，图4为本申请实施例中视频合成系统的一个框架流程示意图，如图所示，K帧源图像信息包括K帧源图像

K帧源动作关键点

以及目标动作关键点

将K帧源图像

K帧源动作关键点

以及目标动作关键点

输入至多帧初步特征提取模块，由此提取到前景特征集合

以及背景特征集合

接下来对前景特征集合

进行特征融合和卷积处理，得到前景图像(O_fg)以及前景遮罩(M_fg)。对背景特征集合

进行特征融合和卷积处理，得到背景图像(O_bg)。最后通过视频合成模型对前景图像(O_fg)、前景遮罩(M_fg)以及背景图像(O_bg)进行处理，得到输出图像(O^t)。

为了便于理解，请参阅图5，图5为本申请实施例中特征提取器的一个结构示意图，如图所示，本申请使用了基于卷积神经网络的特征提取器进行特征提取工作，该特征提取器由单帧姿态迁移网络的前半部分构成。多帧输入的图像共享同一个特征提取器，被分别编码为m通道的特征图，m可以取值64或者128等，此处不做限定。在多帧初步特征提取的过程中，分别对第一待合成视频中的每帧源图像信息进行处理，得到前景特征集合

以及背景特征集合

在单帧特征提取的过程中，对前景部分进行空间变换，得到变换后的前景部分，进而得到前景特征。对背景遮罩进行处理得到背景特征。最后对前景特征进行特征融合和卷积处理，得到前景图像以及前景遮罩。对背景特征进行特征融合和卷积处理，得到背景图像。通过视频合成模型对前景图像、前景遮罩以及背景图像进行处理，得到输出图像。

其次，本申请实施例中，提供了一种生成输出图像的方法，即首先通过视频合成模型对K帧源图像信息以及目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合，然后通过视频合成模型获取前景特征集合所对应的前景融合特征，并通过视频合成模型获取背景特征集合所对应的背景融合特征，接下来通过视频合成模型对前景融合特征进行卷积处理，得到前景图像以及前景遮罩，通过视频合成模型对背景融合特征进行卷积处理，得到背景图像，最后通过视频合成模型对前景图像、前景遮罩以及背景图像进行处理，得到输出图像。通过上述方式，能够利用视频合成模型对两个待合成视频进行特征的提取和融合，从而生成更加准确的前景图像、前景遮罩以及背景图像，由此，提升方案的可行性和可靠性。

可选地，在上述图3对应的第一个实施例的基础上，本申请实施例提供的视频合成的方法第二个可选实施例中，通过视频合成模型获取前景特征集合所对应的前景融合特征，可以包括：

根据前景特征集合、K帧源图像信息中每帧图像信息的源动作关键点以及第一目标动作关键点，确定K帧前景注意力遮罩图；

根据K帧前景注意力遮罩图以及前景特征集合，确定前景融合特征。

本实施例中，介绍了一种确定前景融合特征的方式，具体为，视频合成装置先对前景特征集合、K帧源图像信息中每帧图像信息的源动作关键点以及第一目标动作关键点进行学习，得到K帧前景注意力遮罩图，也就是多个前景注意力遮罩图是由多帧源图像信息预测得到的，在预测过程中会自动学习多帧权重的分配。得到K帧前景注意力遮罩图后，对前景特征集合和K帧前景注意力遮罩图进行融合，得到前景融合特征。

为了便于理解，请参阅图6，图6为本申请实施例中特征聚合模块的一个结构示意图，如图所示，对前景特征集合

K帧源动作关键点

以及目标动作关键点

进行学习，得到具有K个通道的前景注意力遮罩图

接下来需要将K帧前景注意力遮罩图

以及前景特征集合

相乘，由此产生前景融合特征

对前景融合特征

进行卷积处理即可得到前景图像(O_fg)以及前景遮罩(M_fg)。

再次，本申请实施例中，提供一种获取前景融合特征的方法，即先根据前景特征集合、K帧源图像信息中每帧图像信息的源动作关键点以及第一目标动作关键点，确定K帧前景注意力遮罩图，然后根据K帧前景注意力遮罩图以及前景特征集合，确定前景融合特征。通过上述方式，采用多帧源图像信息生成前景特征集合，能够有效地利用连续帧之间的信息关联性，进一步增强了合成视频的时域连续性。

可选地，在上述图3对应的第二个实施例的基础上，本申请实施例提供的视频合成的方法第三个可选实施例中，根据K帧前景注意力遮罩图以及前景特征集合，确定前景融合特征，可以包括：

采用如下方式计算前景融合特征：

其中，

表示前景融合特征，

表示前景特征集合中的第k帧前景特征，

表示K帧前景注意力遮罩图中的第k帧前景注意力遮罩图，⊙表示像素的乘法。

本实施例中，介绍了一种计算前景融合特征的具体方式，在生成第K帧前景注意力遮罩图之后，采用如下方式计算前景融合特征：

由此可见，采用上述计算方式即可得到前景融合特征

进一步地，本申请实施例中，提供了一种计算前景融合特征的具体方式。通过上述方式，可以为方案的实现提供具体的依据，从而提升计算前景融合特征的可行性和可操作性。

可选地，在上述图3对应的第一个实施例的基础上，本申请实施例提供的视频合成的方法第四个可选实施例中，通过视频合成模型获取背景特征集合所对应的背景融合特征，可以包括：

根据背景特征集合、K帧源图像信息中每帧图像信息的源动作关键点以及第一目标动作关键点，确定K帧背景注意力遮罩图；

根据K帧背景注意力遮罩图以及背景特征集合，确定背景融合特征。

本实施例中，介绍了一种确定背景融合特征的方式，具体为，视频合成装置先对背景特征集合、K帧源图像信息中每帧图像信息的源动作关键点以及第一目标动作关键点进行学习，得到K帧背景注意力遮罩图，也就是多个背景注意力遮罩图是由多帧源图像信息预测得到的，在预测过程中会自动学习多帧权重的分配。得到K帧背景注意力遮罩图后，对背景特征集合和K帧背景注意力遮罩图进行融合，得到背景融合特征。

与图6提供的附图类似，首先需要对背景特征集合

K帧源动作关键点

以及目标动作关键点

进行学习，得到具有K个通道的背景注意力遮罩图

接下来需要将K帧背景注意力遮罩图

以及背景特征集合

相乘，由此产生背景融合特征

对背景融合特征

进行卷积处理即可得到背景图像(O_bg)。

再次，本申请实施例中，提供一种获取背景融合特征的方法，即先根据背景特征集合、K帧源图像信息中每帧图像信息的源动作关键点以及第一目标动作关键点，确定K帧背景注意力遮罩图，然后根据K帧背景注意力遮罩图以及背景特征集合，确定背景融合特征。通过上述方式，采用多帧源图像信息生成背景特征集合，能够有效地利用连续帧之间的信息关联性，进一步增强了合成视频的时域连续性。

可选地，在上述图3对应的第四个实施例的基础上，本申请实施例提供的视频合成的方法第五个可选实施例中，根据K帧背景注意力遮罩图以及背景特征集合，确定背景融合特征，包括：

采用如下方式计算背景融合特征：

其中，

表示背景融合特征，

表示背景特征集合中的第k帧背景特征，

表示K帧背景注意力遮罩图中的第k帧背景注意力遮罩图，⊙表示像素的乘法。

本实施例中，介绍了一种计算背景融合特征的具体方式，在生成第K帧背景注意力遮罩图之后，采用如下方式计算背景融合特征：

由此可见，采用上述计算方式即可得到背景融合特征

进一步地，本申请实施例中，提供了一种计算背景融合特征的具体方式。通过上述方式，可以为方案的实现提供具体的依据，从而提升计算背景融合特征的可行性和可操作性。

可选地，在上述图3对应的第一个实施例的基础上，本申请实施例提供的视频合成的方法第六个可选实施例中，通过视频合成模型对前景图像、前景遮罩以及背景图像进行处理，得到第一输出图像，可以包括：

采用如下方式计算第一输出图像：

其中，O^t表示第t帧对应的第一输出图像，

表示第t帧对应的前景图像，

表示第t帧对应的背景图像，

表示第t帧对应的前景遮罩，⊙表示像素的乘法。

本实施例中，介绍了一种计算输出图像的具体方式，在得到前景图像、前景遮罩以及背景图像之后，采用如下方式可以计算得到第一输出图像，可以理解的是，其他的输出图像也可以按照上述方式进行处理，此处不做赘述。

采用如下方式计算第一输出图像：

由此可见，采用上述计算方式即可得到第一输出图像O^t。

再次，本申请实施例中，提供了一种通过视频合成模型对前景图像、前景遮罩以及背景图像进行处理，得到输出图像的具体方式。通过上述方式，可以为方案的实现提供具体的依据，从而提升计算输出图像的可行性和可操作性。

可选地，在上述图3以及图3对应的第一个至第六个实施例中任一项的基础上，本申请实施例提供的视频合成的方法第七个可选实施例中，根据动作参照序列以及第一输出图像生成合成视频之前，还可以包括：

通过视频合成模型获取K帧源图像信息与第二目标动作关键点所对应的第二输出图像，其中，第二输出图像包括迁移对象，第二目标动作关键点属于多帧目标图像信息中的一个目标动作关键点；

根据动作参照序列以及第一输出图像生成合成视频，可以包括：

按照动作参照序列，对第一输出图像以及第二输出图像进行处理，得到合成视频。

本实施例中，介绍了一种生成合成视频的方式。具体地，在得到第一输出图像之前，还可以得到其他的输出图像，下面以生成第二输出图像为例进行说明。可以理解的是，第二输出图像可以在第一输出图像之前生成，也可以在第一输出图像之后生成，此处不做限定。如果第二输出图像在第一输出图像之前生成，则在合成视频中，第二输出图像通常出现在第一输出图像之前。如果第二输出图像在第一输出图像之后生成，则在合成视频中，第二输出图像通常出现在第一输出图像之后。

对于生成第二输出图像方式可以参考上述实施例中描述的具体内容，即先获取第二待合成视频中的第二目标动作关键点，然后将K帧源图像信息以及第二目标动作关键点输入至视频合成模型中，由该视频合成模型输出对应的第二输出图像。最后按照动作参照序列所指示的图像拼接顺序，对第一输出图像与第二输出图像进行拼接，从而生成合成视频。

更进一步地，本申请实施例中，提供了一种生成合成视频的方式，即在生成合成视频之前，还可以先通过视频合成模型获取K帧源图像信息与第二目标动作关键点所对应的第二输出图像，该第二输出图像也包括迁移对象，第二目标动作关键点属于多帧目标图像信息中的一个目标动作关键点，再按照动作参照序列，对第一输出图像以及第二输出图像进行处理，得到合成视频。通过上述方式，在实际应用中，可以采用本申请提供的方式生成其他的输出图像，再按照动作参照序列定义的顺序对多帧输出图像进行拼接，从而得到最终的合成视频，由此提升方案的可操作性和可行性。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图7，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练视频，其中，待训练视频包括多帧待训练图像信息，每帧待训练图像信息包括目标动作关键点；

本实施例中，在训练的过程中模型训练装置首先需要获取待训练视频，模型训练装置通常部署于服务器。可以理解的是，在实际应用中，可以获取大量的待训练视频进行学习，此处以其中任意一个待训练视频为例进行说明，然而这不应理解为对本申请的限定。

其中，待训练视频包括多帧待训练图像信息，这里的每帧待训练图像中包括图像以及对象的目标动作关键点，其中，目标动作关键点可以是一个人的头部关键点、肘部关键点、颈部关键点、膝盖关键点以及肩部关键点等。

202、通过待训练视频合成模型获取待训练视频所对应的预测输出图像；

本实施例中，将待训练视频输入至待训练视频合成模型，其中，该待训练视频合成模型可以是一个初始模型，也可以是还需要进一步进行训练的模型，此处不做限定。待训练视频合成模型根据输入的待训练视频，输出相应的预测输出图像。

203、采用内容损失函数对预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果；

本实施例中，由于待训练视频的内容是已知的，因此，可以获取到待训练视频所对应的真实输出图像。于是模型训练装置可以采用内容损失函数对预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果。

损失函数是用来估量模型的预测值与真实值之间的不一致程度，它是一个非负实值函数，通常用L来表示。损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。本申请中的内容损失函数包含但不仅限于互熵损失函数(Cross Entropy Loss，Softmax Loss Function)、铰链损失(Hinge LossFunction)、平方损失(Square Loss Function)以及指数损失(Exponential LossFunction)中的至少一项。

204、采用对抗损失函数对预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果；

本实施例中，模型训练装置还可以采用对抗损失函数对预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果。其中，对抗损失函数与内容损失函数的功能有所区别，内容损失函数主要用于使预测的图像与真实的图像尽可能的接近，而对抗损失函数是使预测的图像与真实的图像之间不容易分辨，也就是让预测图像能够“以假乱真”，从而进一步提升预测图像的整体质量。

205、根据第一损失结果、第二损失结果、第三损失结果以及第四损失结果，对待训练视频合成模型进行训练，得到视频合成模型，其中，视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，源图像以及源动作关键点属于第一待合成视频，目标动作关键点属于第二待合成视频。

本实施例中，最后，模型训练装置结合第一损失结果、第二损失结果、第三损失结果以及第四损失结果，计算得到总损失结果，再根据总损失结果计算得到模型参数，用模型参数对待训练视频合成模型进行训练，得到视频合成模型。视频合成对象可以对属于第一待合成视频的源图像以及源动作关键点以及属于第二待合成视频的目标动作关键点进行融合，最后生成输出图像，将多个输出图像拼接在一起，形成合成视频。

本申请实施例中，提供了一种模型训练的方法，首先获取待训练视频，然后通过待训练视频合成模型获取待训练视频所对应的预测输出图像，接下来采用内容损失函数对预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果，再采用对抗损失函数对预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果，最后根据第一损失结果、第二损失结果、第三损失结果以及第四损失结果，对待训练视频合成模型进行训练，得到视频合成模型。通过上述方式，在模型的训练过程中，利用设置好的约束以及动作参考视频的动作序列，可以保留输入图片的主体外观特征和背景的能力，能够快速地将特定动作序列应用于人物和场景中，同时很好地保持目标主体的外观。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，采用内容损失函数对预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果，可以包括：

对预测输出图像进行特征提取处理，得到预测图像特征，并对真实输出图像进行特征提取处理，得到真实图像特征；

采用均方误差损失函数对预测输出图像以及真实输出图像进行计算，得到第一损失结果；

采用VGG损失函数对预测图像特征以及真实图像特征进行计算，得到第二损失结果；

采用对抗损失函数对预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果，可以包括：

采用单帧对抗损失函数以及图像真实感判别器对预测输出图像、真实输出图像以及目标动作关键点进行计算，得到第三损失结果；

采用时域对抗损失函数以及视频真实感判别器对预测输出视频以及真实输出视频进行计算，得到第四损失结果，其中，预测输出视频包括多帧预测输出图像，真实输出视频包括多帧真实输出图像。

本实施例中，将介绍本申请中所使用的损失函数类型，损失函数仅仅用于模型训练，在实际预测中不需要使用损失函数。对于内容损失函数而言，具体可以包括两类损失函数，一个是均方误差(Mean Square Error，MSE)损失函数，另一个是VGG损失函数。其中，MSE损失函数负责捕捉像素级别的损失，防止生成结果产生过大的偏差。MSE是指预测值与参数真实值之差平方的期望值，MSE可以评价数据的变化程度，MSE的值越小说明预测模型描述实验数据具有更好的精确度。VGG损失函数则负责衡量感知损失，使最终生成的结果具有更好的视觉质量。

对于对抗损失函数而言，具体可以包括两类损失函数，一个是单帧对抗损失函数，另一个是时域对抗损失函数。其中，对抗损失函数包括生成器和判别器，判别器对假数据的损失原理为，需要达到的目标是对于所有的真实图片，输出为1，对于所有的假图片，输出为0。生成器的目标是愚弄判别器器蒙混过关，需要达到的目标是对于生成的图片，输出为1，其输出正好与判别器相反。单帧对抗损失函数主要负责提升生成结果的空间细节。而时域对抗损失函数所训练的目标是视频，即包括了多帧图像，利用多帧判别器可以减少生成结果中的时域跳动以及闪烁的情况。

其次，本申请实施例中，提供了一种获取损失结果的方式，即采用均方误差损失函数对预测输出图像以及真实输出图像进行计算，得到第一损失结果，采用VGG损失函数对预测图像特征以及真实图像特征进行计算，得到第二损失结果，采用单帧对抗损失函数以及图像真实感判别器对预测输出图像、真实输出图像以及目标动作关键点进行计算，得到第三损失结果，采用时域对抗损失函数以及视频真实感判别器对预测输出视频以及真实输出视频进行计算，得到第四损失结果，其中，预测输出视频包括多帧预测输出图像，真实输出视频包括多帧真实输出图像。通过上述方式，利用均方误差损失函数可以负责捕捉像素级别的损失，防止生成结果产生过大的偏差，利用VGG损失函数可以负责衡量感知损失，使最终生成的结果具有更好的视觉质量。利用对抗损失函数可以保证生成的预测图像和真实图像不容易分辨，从而进一步提升生成图像的质量。

可选地，在上述图7对应的第一个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，采用均方误差损失函数对预测输出图像以及真实输出图像进行计算，得到第一损失结果，可以包括：

采用如下方式计算第一损失结果：

其中，L_MSE表示第一损失结果，O^t表示预测输出图像，

表示真实输出图像，t表示图像的帧号；

采用VGG损失函数对预测图像特征以及真实图像特征进行计算，得到第二损失结果，可以包括：

采用如下方式计算第二损失结果：

其中，L_VGG表示第一损失结果，φ(O^t)表示预测图像特征，

表示真实图像特征；

采用单帧对抗损失函数以及图像真实感判别器对预测输出图像、真实输出图像以及目标动作关键点进行计算，得到第三损失结果，可以包括：

采用如下方式计算第三损失结果：

其中，L_GAN,I表示第三损失结果，D_I表示图像真实感判别器，

表示目标动作关键点；

采用时域对抗损失函数以及视频真实感判别器对预测输出视频以及真实输出视频进行计算，得到第四损失结果，可以包括：

采用如下方式计算第四损失结果：

其中，L_GAN,V表示第四损失结果，

表示视频真实感判别器，

表示预测输出视频，

表示真实输出视频，

表示光流信息，n表示视频真实感判别器所采用的图像帧数。

本实施例中，将介绍如何利用不同的损失函数计算得到相应的损失结果。对于MSE损失函数而言，可以采用如下方式进行计算：

具体地，即对待训练视频中的每帧预测输出图像以及对应的真实输出图像进行计算，其中，上角标“2”表示平方计算，下角标“2”表示2的范数。

对于VGG损失函数而言，可以采用如下方式进行计算：

具体地，这里需要先提取预测输出图像与真实输出图像的特征，即提取预测输出图像的特征，从而得到预测图像特征，提取真实输出图像的特征，从而得到真实图像特征。然后对待训练视频中每帧图像对应的真实图像特征以及每帧图像对应的预测输出图像进行计算。

对于单帧对抗损失函数而言，可以采用如下方式进行计算：

具体地，将真实输出图像以及目标动作关键点输入至图像真实感判别器，与此同时，将预测输出图像以及目标动作关键点也输入至图像真实感判别器，综合图像真实感判别器的判别结果得到第三损失结果L_GAN,I。

对于时域对抗损失函数而言，可以采用如下方式进行计算：

具体地，将预测输出视频和光流信息输入至视频真实感判别器，与此同时，将真实输出视频和光流信息输入至视频真实感判别器，其中，预测输出视频和真实输出视频均包括n帧图像，本申请中的n可以设置为3、5或7，在实际应用中，还可以设置其他的帧数，此处仅为一个示意，多帧图像的对抗能够减少生成结果的时域跳动和闪烁。而光流信息是根据两帧图像求得的，光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。

再次，本申请实施例中，提供了四类损失结果的具体计算方式，即提供具体的计算公式。通过上述方式，可以为方案的实现提供具体的依据，从而提升损失结果计算的可行性和可操作性。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，根据第一损失结果、第二损失结果、第三损失结果以及第四损失结果，对待训练视频合成模型进行训练，得到视频合成模型，可以包括：

根据第一损失结果、第二损失结果、第三损失结果以及第四损失结果，计算得到总损失结果；

根据总损失结果确定模型参数；

根据模型参数对待训练视频合成模型进行训练，得到视频合成模型；

其中，根据第一损失结果、第二损失结果、第三损失结果以及第四损失结果，计算得到总损失结果，可以包括：

采用如下方式计算得到总损失结果：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；

其中，L_total表示总损失结果，L_MSE表示第一损失结果，λ_VGG表示第一权重系数，L_VGG表示第二损失结果，λ_GI表示第二权重系数，L_GAN,I表示第三损失结果，λ_GV表示第三权重系数，L_GAN,V表示第四损失结果；

根据总损失结果确定模型参数，可以包括：

采用如下方式计算得到模型参数：

其中，arg min max()表示使函数取最值时的变量值，G表示模型参数，D_I表示图像真实感判别器，D_V表示视频真实感判别器。

本实施例中，将介绍确定模型参数的方式。具体地，首先模型训练装置需要根据第一损失结果、第二损失结果、第三损失结果以及第四损失结果，计算得到总损失结果，计算方式如下：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；

其中，λ_VGG表示第一权重系数，也就是VGG损失结果所对应的权重系数，λ_GI表示第二权重系数，也就是单帧对抗损失函数结果所对应的权重系数，λ_GV表示第三权重系数，也就是时域对抗损失函数结果所对应的权重系数。假设λ_VGG为0.3，λ_GI为0.2，λ_GV为0.5，且假设计算得到的第一损失结果L_MSE为10，第二损失结果L_VGG为15，第三损失结果L_GAN,I为20，第四损失结果L_GAN,V为5，那么总损失结果L_total可以为：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V

＝10+0.3×15+0.2×20+0.5×5

＝21

可以理解的是，上述代入式子的取值仅为一个示意，并不应理解为对本申请的限定。基于计算得到的总损失结果L_total，在训练过程中，生成器以减小总损失结果L_total为目的来迭代更新权重，判别器(包括图像真实感判别器以及视频真实感判别器)则与总损失结果L_total进行对抗，即：

也就是说，模型参数G的取值取决于真实感判别器D_I以及视频真实感判别器D_V的取值，当真实感判别器D_I以及视频真实感判别器D_V为最大值时，即可得到模型参数G的最小值。

其次，本申请实施例中，提供了一种根据总损失结果计算得到模型参数的具体方式。通过上述方式，可以为方案的实现提供具体的依据，从而提升模型参数计算的可行性和可操作性。

下面对本申请中的视频合成装置进行详细描述，请参阅图8，图8为本申请实施例中视频合成装置一个实施例示意图，视频合成装置30包括：

获取模块301，用于获取第一待合成视频的K帧源图像信息，其中，每帧图像信息包括源图像以及源动作关键点，所述源图像与所述源动作关键点具有对应关系，所述源图像包括迁移对象，所述K为大于1的整数；

所述获取模块301，还用于获取第二待合成视频的多帧目标图像信息，其中，每帧目标图像信息包括目标动作关键点，所述第二待合成视频对应于动作参照序列，所述动作参照序列用于指示视频合成的图像顺序；

所述获取模块301，还用于通过视频合成模型获取所述K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，所述视频合成模型用于对所述源图像、所述源动作关键点以及所述目标动作关键点进行融合处理，所述第一输出图像包括所述迁移对象，所述第一目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点；

生成模块302，用于根据所述获取模块301获取的动作参照序列以及所述获取模块301获取的所述第一输出图像生成合成视频。

本实施例中，获取模块301获取第一待合成视频的K帧源图像信息，其中，每帧图像信息包括源图像以及源动作关键点，所述源图像与所述源动作关键点具有对应关系，所述源图像包括迁移对象，所述K为大于1的整数，所述获取模块301获取第二待合成视频的多帧目标图像信息，其中，每帧目标图像信息包括目标动作关键点，所述第二待合成视频对应于动作参照序列，所述动作参照序列用于指示视频合成的图像顺序，所述获取模块301通过视频合成模型获取所述K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，所述视频合成模型用于对所述源图像、所述源动作关键点以及所述目标动作关键点进行融合处理，所述第一输出图像包括所述迁移对象，所述第一目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点，生成模块302，根据所述获取模块301获取的动作参照序列以及所述获取模块301获取的所述第一输出图像生成合成视频。

本申请实施例中，提供了一种视频合成装置，首先该视频合成装置获取第一待合成视频的K帧源图像信息，每帧图像信息包括源图像以及源动作关键点，源图像包括迁移对象，并且获取第二待合成视频的多帧目标图像信息，每帧目标图像信息包括目标动作关键点，第二待合成视频对应于动作参照序列，动作参照序列用于指示视频合成的图像顺序，然后通过视频合成模型获取K帧源图像信息与第一目标动作关键点所对应的第一输出图像，其中，视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，第一输出图像包括迁移对象，第一目标动作关键点属于多帧目标图像信息中的一个目标动作关键点，最后根据动作参照序列以及第一输出图像生成合成视频。通过上述方式，可以利用多帧源图像信息生成动作序列对应的输出图像，由此充分考虑到了连续帧之间的信息关联性，从而增强了合成视频的时域连续性。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的视频合成装置30的另一实施例中，

所述获取模块301，具体用于通过所述视频合成模型对所述K帧源图像信息以及所述第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合，其中，所述前景特征集合包括K个前景特征，所述背景特征集合包括K个背景特征；

所述获取模块301，具体用于根据前景特征集合、所述K帧源图像信息中所述每帧图像信息的源动作关键点以及所述第一目标动作关键点，确定K帧前景注意力遮罩图；

所述获取模块301，具体用于采用如下方式计算所述前景融合特征：

其中，所述

表示所述前景融合特征，所述

表示所述前景特征集合中的第k帧前景特征，所述

所述获取模块301，具体用于根据背景特征集合、所述K帧源图像信息中所述每帧图像信息的源动作关键点以及所述第一目标动作关键点，确定K帧背景注意力遮罩图；

所述获取模块301，具体用于采用如下方式计算所述背景融合特征：

其中，所述

表示所述背景融合特征，所述

表示所述背景特征集合中的第k帧背景特征，所述

所述获取模块301，具体用于采用如下方式计算所述第一输出图像：

其中，所述O^t表示第t帧对应的所述第一输出图像，所述

表示所述第t帧对应的所述前景图像，所述

表示所述第t帧对应的所述背景图像，所述

所述获取模块301，还用于在所述生成模块根据所述动作参照序列以及所述第一输出图像生成合成视频之前，通过视频合成模型获取所述K帧源图像信息与第二目标动作关键点所对应的第二输出图像，其中，所述第二输出图像包括所述迁移对象，所述第二目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点；

所述生成模块302，具体用于按照所述动作参照序列，对所述第一输出图像以及所述第二输出图像进行处理，得到所述合成视频。

下面对本申请中的模型训练装置进行详细描述，请参阅图9，图9为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练视频，其中，所述待训练视频包括多帧待训练图像信息，每帧待训练图像信息包括目标动作关键点；

所述获取模块401，还用于通过待训练视频合成模型获取所述待训练视频所对应的预测输出图像；

处理模块402，用于采用内容损失函数对所述获取模块401获取的所述预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果；

所述处理模块402，还用于采用对抗损失函数对所述获取模块401获取的所述预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果；

训练模块403，用于根据所述处理模块402处理得到的所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，其中，所述视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，所述源图像以及所述源动作关键点属于第一待合成视频，所述目标动作关键点属于第二待合成视频。

本实施例中，获取模块401获取待训练视频，其中，所述待训练视频包括多帧待训练图像信息，每帧待训练图像信息包括目标动作关键点所述获取模块401通过待训练视频合成模型获取所述待训练视频所对应的预测输出图像，处理模块402采用内容损失函数对所述获取模块401获取的所述预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果，所述处理模块402采用对抗损失函数对所述获取模块401获取的所述预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果，训练模块403根据所述处理模块402处理得到的所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，其中，所述视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，所述源图像以及所述源动作关键点属于第一待合成视频，所述目标动作关键点属于第二待合成视频。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述处理模块402，具体用于对所述预测输出图像进行特征提取处理，得到预测图像特征，并对所述真实输出图像进行特征提取处理，得到真实图像特征；

所述处理模块402，具体用于采用如下方式计算所述第一损失结果：

表示所述真实输出图像，所述t表示图像的帧号；

采用如下方式计算所述第二损失结果：

表示所述真实图像特征；

采用如下方式计算所述第三损失结果：

表示所述目标动作关键点；

采用如下方式计算所述第四损失结果：

其中，所述L_GAN,V表示所述第四损失结果，所述

表示所述视频真实感判别器，所述

表示所述预测输出视频，所述

表示所述真实输出视频，所述

所述训练模块403，具体用于根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，计算得到总损失结果；

根据所述总损失结果确定模型参数；

采用如下方式计算得到所述总损失结果：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；

采用如下方式计算得到所述模型参数：

本发明实施例还提供了另一种视频合成装置，如图10所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图10示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频(radio frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图10中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端设备所包括的处理器580还具有以下功能：

可选地，处理器580具体用于执行如下步骤：

通过所述视频合成模型对所述K帧源图像信息以及所述第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合，其中，所述前景特征集合包括K个前景特征，所述背景特征集合包括K个背景特征；

可选地，处理器580具体用于执行如下步骤：

根据前景特征集合、所述K帧源图像信息中所述每帧图像信息的源动作关键点以及所述第一目标动作关键点，确定K帧前景注意力遮罩图；

可选地，处理器580具体用于执行如下步骤：

采用如下方式计算所述前景融合特征：

其中，所述

表示所述前景融合特征，所述

表示所述前景特征集合中的第k帧前景特征，所述

可选地，处理器580具体用于执行如下步骤：

根据背景特征集合、所述K帧源图像信息中所述每帧图像信息的源动作关键点以及所述第一目标动作关键点，确定K帧背景注意力遮罩图；

可选地，处理器580具体用于执行如下步骤：

采用如下方式计算所述背景融合特征：

其中，所述

表示所述背景融合特征，所述

表示所述背景特征集合中的第k帧背景特征，所述

可选地，处理器580具体用于执行如下步骤：

采用如下方式计算所述第一输出图像：

其中，所述O^t表示第t帧对应的所述第一输出图像，所述

表示所述第t帧对应的所述前景图像，所述

表示所述第t帧对应的所述背景图像，所述

可选地，处理器580还用于执行如下步骤：

通过视频合成模型获取所述K帧源图像信息与第二目标动作关键点所对应的第二输出图像，其中，所述第二输出图像包括所述迁移对象，所述第二目标动作关键点属于所述多帧目标图像信息中的一个目标动作关键点；

按照所述动作参照序列，对所述第一输出图像以及所述第二输出图像进行处理，得到所述合成视频。

图11是本发明实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

在本发明实施例中，该服务器所包括的CPU 622还具有以下功能：

可选地，CPU 622具体用于执行如下步骤：

对所述预测输出图像进行特征提取处理，得到预测图像特征，并对所述真实输出图像进行特征提取处理，得到真实图像特征；

可选地，CPU 622具体用于执行如下步骤：

采用如下方式计算所述第一损失结果：

表示所述真实输出图像，所述t表示图像的帧号；

采用如下方式计算所述第二损失结果：

表示所述真实图像特征；

采用如下方式计算所述第三损失结果：

表示所述目标动作关键点；

采用如下方式计算所述第四损失结果：

其中，所述L_GAN,V表示所述第四损失结果，所述

表示所述视频真实感判别器，所述

表示所述预测输出视频，所述

表示所述真实输出视频，所述

可选地，CPU 622具体用于执行如下步骤：

根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，计算得到总损失结果；

根据所述总损失结果确定模型参数；

采用如下方式计算得到所述总损失结果：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；

采用如下方式计算得到所述模型参数：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频合成的方法，其特征在于，包括：

其中，所述通过视频合成模型获取所述K帧源图像信息与第一目标动作关键点所对应的第一输出图像，包括：

通过所述视频合成模型对所述K帧源图像信息以及所述第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合；

通过所述视频合成模型对所述前景图像、所述前景遮罩以及所述背景图像进行处理，得到所述第一输出图像；根据所述动作参照序列以及所述第一输出图像生成合成视频。

2.根据权利要求1所述的方法，其特征在于，通过所述视频合成模型获取所述前景特征集合所对应的前景融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述K帧前景注意力遮罩图以及所述前景特征集合，确定所述前景融合特征，包括：

采用如下方式计算所述前景融合特征：

其中，所述

表示所述前景融合特征，所述

表示所述前景特征集合中的第k帧前景特征，所述

4.根据权利要求1所述的方法，其特征在于，所述通过所述视频合成模型获取所述背景特征集合所对应的背景融合特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述K帧背景注意力遮罩图以及所述背景特征集合，确定所述背景融合特征，包括：

采用如下方式计算所述背景融合特征：

其中，所述

表示所述背景融合特征，所述

表示所述背景特征集合中的第k帧背景特征，所述

6.根据权利要求1所述的方法，其特征在于，所述通过所述视频合成模型对所述前景图像、所述前景遮罩以及所述背景图像进行处理，得到所述第一输出图像，包括：

采用如下方式计算所述第一输出图像：

其中，所述O^t表示第t帧对应的所述第一输出图像，所述

表示所述第t帧对应的所述前景图像，所述

表示所述第t帧对应的所述背景图像，所述

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述动作参照序列以及所述第一输出图像生成合成视频之前，所述方法还包括：

所述根据所述动作参照序列以及所述第一输出图像生成合成视频，包括：

8.一种模型训练的方法，其特征在于，包括：

其中，所述视频合成模型还用于对K帧源图像信息以及第一目标动作关键点进行特征提取，得到前景特征集合以及背景特征集合；获取所述前景特征集合所对应的前景融合特征；获取所述背景特征集合所对应的背景融合特征；对所述前景融合特征进行卷积处理，得到前景图像以及前景遮罩，其中，所述前景遮罩用于提取图像轮廓；对所述背景融合特征进行卷积处理，得到背景图像；对所述前景图像、所述前景遮罩以及所述背景图像进行处理，得到第一输出图像。

9.根据权利要求8所述的方法，其特征在于，所述采用内容损失函数对所述预测输出图像以及真实输出图像进行处理，得到第一损失结果以及第二损失结果，包括：

所述采用对抗损失函数对所述预测输出图像以及真实输出图像进行处理，得到第三损失结果以及第四损失结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述采用均方误差损失函数对所述预测输出图像以及所述真实输出图像进行计算，得到所述第一损失结果，包括：

采用如下方式计算所述第一损失结果：

表示所述真实输出图像，所述t表示图像的帧号；

所述采用VGG损失函数对所述预测图像特征以及所述真实图像特征进行计算，得到所述第二损失结果，包括：

采用如下方式计算所述第二损失结果：

表示所述真实图像特征；

所述采用单帧对抗损失函数以及图像真实感判别器对所述预测输出图像、所述真实输出图像以及所述目标动作关键点进行计算，得到所述第三损失结果，包括：

采用如下方式计算所述第三损失结果：

表示所述目标动作关键点；

所述采用时域对抗损失函数以及视频真实感判别器对预测输出视频以及真实输出视频进行计算，得到所述第四损失结果，包括：

采用如下方式计算所述第四损失结果：

其中，所述L_GAN,V表示所述第四损失结果，所述

表示所述视频真实感判别器，所述

表示所述预测输出视频，所述

表示所述真实输出视频，所述

11.根据权利要求8所述的方法，其特征在于，所述根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，包括：

根据所述总损失结果确定模型参数；

其中，所述根据所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，计算得到总损失结果，包括：

采用如下方式计算得到所述总损失结果：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；

所述根据所述总损失结果确定模型参数，包括：

采用如下方式计算得到所述模型参数：

其中，所述argminmax()表示使函数取最值时的变量值，所述G表示所述模型参数，所述D_I表示所述图像真实感判别器，所述D_V表示所述视频真实感判别器。

12.一种视频合成装置，其特征在于，包括：

通过所述视频合成模型对所述前景图像、所述前景遮罩以及所述背景图像进行处理，得到所述第一输出图像；生成模块，用于根据所述获取模块获取的动作参照序列以及所述获取模块获取的所述第一输出图像生成合成视频。

13.一种模型训练装置，其特征在于，包括：

训练模块，用于根据所述处理模块处理得到的所述第一损失结果、所述第二损失结果、所述第三损失结果以及所述第四损失结果，对所述待训练视频合成模型进行训练，得到视频合成模型，其中，所述视频合成模型用于对源图像、源动作关键点以及目标动作关键点进行融合处理，所述源图像以及所述源动作关键点属于第一待合成视频，所述目标动作关键点属于第二待合成视频；

14.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过所述视频合成模型对所述前景图像、所述前景遮罩以及所述背景图像进行处理，得到所述第一输出图像；根据所述动作参照序列以及所述第一输出图像生成合成视频；