CN110047118A

CN110047118A - 视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN110047118A
Application number: CN201910276831.4A
Authority: CN
Inventors: 龙如蛟; 邱日明; 李峰; 左小祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-07-23
Anticipated expiration: 2039-04-08
Also published as: CN110047118B

Abstract

本发明公开了一种视频生成方法、装置、计算机设备及存储介质，属于网络技术领域。通过基于每帧第一图像的上下文图像，来提取该每帧第一图像的对象姿态信息，由于上下文图像中包括多帧连续图像，使得多帧第一图像的对象姿态的具备连贯性，避免单帧图像的对象姿态发生突变，保证最终生成的第二视频中，第二对象的动作是连续的，保证了所生成的视频在视觉效果上的真实性。

Description

视频生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及网络技术领域，特别涉及一种视频生成方法、装置、计算机设备及存储介质。

背景技术

随着网络技术的发展，终端为用户制作视频时，可以基于一个被模仿对象的对象动作，为用户生成模仿该对象动作的用户视频。例如，基于A用户视频中A用户的姿态，生成模仿A用户的姿态的B用户视频，无需B用户执行任何动作，而将A用户的动作迁移到B用户上。

相关技术中，视频生成过程可以包括：将A用户视频输入姿态估计模型，A用户视频中包括多帧A用户图像，该姿态估计模型提取每一帧A用户图像的图像特征，根据每帧A用户图像的图像特征，提取每帧A用户图像中A用户的姿态。然后，将多帧A用户图像中A用户的姿态输入到B用户的视频生成器中，生成器基于每帧A用户图像中A用户的姿态，对应生成一帧B用户图像，得到多帧B用户图像，输出B用户视频。

上述方法实际上是基于单帧图像提取的A用户姿态生成视频，然而，提取的A用户姿态在连续的帧与帧之间可能发生突变，使得最终生成的视频中，B用户姿态也是突变的，例如，展示B用户的某动作过程不连贯，导致生成的视频在视觉效果上的真实性较差。

发明内容

本发明实施例提供了一种视频生成方法、装置、计算机设备及存储介质，能够解决相关技术中生成的视频在视觉效果上的真实性较差的问题。所述技术方案如下：

一方面，提供了一种视频生成方法，所述方法包括：

获取第一视频，所述第一视频中包括第一对象；

将所述第一视频输入第一模型，基于输入的所述第一视频中至少一帧第一图像的上下文图像，输出所述至少一帧第一图像的对象姿态信息，其中，上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧；

将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型，基于输入的所述至少一帧第一图像的对象姿态信息，输出第二视频，所述第二视频中包括与所述第一对象具有相同姿态变化的第二对象。

在一种可能实现方式中，所述方法还包括：

所述第一模型包括目标网络，所述目标网络位于该第一模型的任一特征层中，或者作为独立的目标特征层位于所述第一模型的任一排序位置上，所述目标网络用于实现所述对于所述每帧第一图像，获取所述第一图像的上下文图像和所述第一图像的聚合特征的步骤。

另一方面，提供了一种视频生成装置，所述装置包括：

获取模块，用于获取第一视频，所述第一视频中包括第一对象；

输出模块，用于将所述第一视频输入第一模型，基于输入的所述第一视频中至少一帧第一图像的上下文图像，输出所述至少一帧第一图像的对象姿态信息，其中，上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧；

所述输出模块，还用于将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型，基于输入的所述至少一帧第一图像的对象姿态信息，输出第二视频，所述第二视频中包括与所述第一对象具有相同姿态变化的第二对象。

在一种可能实现方式中，所述输出模块，还用于将所述第一视频输入所述第一模型，对于每帧第一图像，获取所述第一图像的上下文图像和所述第一图像的聚合特征，所述聚合特征用于指示所述第一对象的姿态变化；根据所述聚合特征，确定所述第一图像中所述第一对象的关键点位置，得到所述第一图像的对象姿态信息。

在一种可能实现方式中，所述输出模块，还用于对于每帧第一图像，根据所述第一图像和所述上下文图像的图像特征，确定所述上下文图像和所述第一图像中每两帧图像之间的相似度；根据所述第一图像以及所确定的相似度，确定所述聚合特征。

在一种可能实现方式中，所述输出模块，还用于对于所述上下文图像和所述第一图像中每帧图像，根据所述每帧图像包括的多个像素点的像素特征，分别确定每两帧图像中像素点之间的相似度。

在一种可能实现方式中，所述输出模块，还用于对于所述上下文图像和所述第一图像中每帧图像，根据所述图像与所述图像以外的图像之间的相似度，确定所述图像以外的图像相对于所述图像的权重；根据所述上下文图像和所述第一图像的图像特征以及所述图像以外的图像的权重，确定所述图像的聚合特征。

在一种可能实现方式中，所述输出模块，还用于根据所述图像与所述图像以外的图像之间的相似度，确定所述图像的权重；确定所述图像以外的图像的特征向量与所述图像以外的图像的权重的第一乘积，以及所述图像的特征向量与所述图像的权重的第二乘积；将所述第一乘积和所述第二乘积之和，确定为所述图像的聚合特征。

在一种可能实现方式中，所述输出模块，还用于对于所述每帧第一图像，根据所述第一图像和所述上下文图像的图像特征，确定所述上下文图像和所述第一图像中每帧图像的关键点位置；根据所述上下文图像和所述第一图像中每帧图像的关键点位置，获取所述上下文图像和所述第一图像的关键点位置的聚合特征。

在一种可能实现方式中，所述第一模型包括目标网络，所述目标网络位于该第一模型的任一特征层中，或者作为独立的目标特征层位于所述第一模型的任一排序位置上，所述目标网络用于实现所述对于所述每帧第一图像，获取所述第一图像的上下文图像和所述第一图像的聚合特征的步骤。

在一种可能实现方式中，所述输出模块，还用于将所述第一视频中至少一帧第一图像的对象姿态信息输入所述第二模型；对于每帧第一图像，基于所述第一图像和所述第一图像的上下文图像的对象姿态信息，确定所述第一图像对应的第二图像，所述第二图像包括与所述第一图像中第一对象具备相同姿态的第二对象；基于所述至少一帧第一图像对应的至少一帧第二图像，输出所述第二视频。

在一种可能实现方式中，所述输出模块，还用于下述任一项：

对于每帧第一图像，根据所述第一图像和所述第一图像的上下文图像的对象姿态信息，确定所述第一图像和所述上下文图像的对象姿态信息的聚合特征，根据所述第一图像和所述上下文图像的对象姿态信息的聚合特征，确定所述第一图像对应的第二图像；和

对于每帧第一图像，根据所述第一图像和所述第一图像的上下文图像的对象姿态信息，生成第一图像和所述上下文图像对应的多帧第三图像，根据所述多帧第三图像的聚合特征，确定所述第一图像对应的第二图像，所述多帧第三图像包括与所述第一图像和所述上下文图像中第一对象具备相同姿态的第二对象。

在一种可能实现方式中，所述装置还包括训练模块，所述训练模块，用于将第一样本视频中至少一帧第一样本图像的对象姿态信息、第二样本视频中至少一帧第二样本图像的对象姿态信息输入第二初始模型，分别基于所述至少一帧第一样本图像的对象姿态信息和所述至少一帧第二样本图像的对象姿态信息，获取所述第二初始模型中生成器生成的第三视频和第四视频；将所述第三视频、所述第四视频、所述第一样本视频和所述第二样本视频输入所述第二初始模型的判别器中，基于所述判别器分别对所述第三视频、第四视频、所述第一样本视频和所述第二样本视频的判别结果，对所述第二初始模型进行训练，得到所述第二模型；

所述第一样本视频包括第一样本对象，所述第二样本视频包括第二对象，所述第三视频包括与所述第一样本对象具有相同姿态变化的第二对象，所述第四视频包括与所述第二样本视频的第二对象具有相同姿态变化的第二对象。

在一种可能实现方式中，所述训练模块，还用于将所述第三视频和所述第一样本视频输入第一判别器，获取所述第一判别器的第一判别结果和第二判别结果之间的第一相似度；将所述第四视频和所述第二样本视频输入第二判别器，获取所述第二判别器的第三判别结果和第四判别结果之间的第二相似度；将所述第四视频中每帧第五图像和所述第二样本视频中与所述第五图像对应的第二样本图像输入第三判别器，获取所述第三判别器的第五判别结果和第六判别结果之间的第三相似度；基于所述第一相似度、所述第二相似度和所述第三相似度，对所述生成器、所述第一判别器、所述第二判别器和所述第三判别器的参数进行调整，直至符合目标条件时停止调整，输出所述第二模型。

在一种可能实现方式中，所述训练模块，还用于将所述第三视频和所述第一样本视频输入所述第一判别器；基于所述第三视频中至少一帧第四图像的上下文图像，确定所述至少一帧第四图像和所述上下文图像的聚合特征，基于所述至少一帧第四图像和所述上下文图像的聚合特征，输出对所述第三视频的第一判别结果；基于所述第一样本视频中至少一帧第一样本图像的上下文图像，确定所述至少一帧第一样本图像和所述上下文图像的聚合特征，基于所述至少一帧第一样本图像和所述上下文图像的聚合特征，输出对所述第一样本视频的第二判别结果；根据所述第一判别结果、所述第二判别结果和第一损失函数，确定所述第一相似度。

另一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如上述的视频生成方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述的视频生成方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少可以包括：

通过基于每帧第一图像的上下文图像，来提取第一图像的对象姿态信息，由于上下文图像中包括多帧连续图像，使得该第一图像的对象姿态信息也是连续的，避免单帧图像的对象姿态发生突变，保证最终生成的第二视频中，第二对象的动作是连续的，保证了所生成的视频在视觉效果上的真实性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频生成方法的实施环境的示意图；

图2是本发明实施例提供的一种视频生成方法的流程图；

图3是本发明实施例提供的一种第一模型和第二模型训练流程示意图；

图4是本发明实施例提供的一种视频生成方法的流程图；

图5是本发明实施例提供的一种第一模型内部流程示意图；

图6是本发明实施例提供的一种关键点位置的示意图；

图7是本发明实施例提供的一种第二图像生成过程示意图；

图8是本发明实施例提供的一种第一模型训练流程示意图；

图9是本发明实施例提供的一种第一模型训练示意图；

图10是本发明实施例提供的一种第二模型训练流程示意图；

图11是本发明实施例提供的一种生成器生成第三视频示意图；

图12是本发明实施例提供的一种第一判别器内部流程示意图；

图13是本发明实施例提供的一种第一判别器判别过程示意图；

图14是本发明实施例提供的一种第二判别器判别过程示意图；

图15是本发明实施例提供的一种第三判别器判别过程示意图；

图16是本发明实施例提供的一种视频生成装置的结构示意图；

图17是本发明实施例提供的一种终端的结构示意图；

图18是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种视频生成方法的实施环境的示意图，参见图1，该实施环境包括：至少一个计算机设备。参见图1，仅以该实施环境包括多个计算机设备为例进行说明。其中，该多个计算机设备可以通过有线连接方式实现数据交互，也可以通过无线网络连接方式实现数据交互，本发明实施例对此不作限定。

在本发明实施例中，计算机设备101可以基于第一视频中第一对象的姿态，生成第二视频，该第二视频包括与该第一对象具有相同姿态变化的第二对象。该第一对象的姿态可以表示该第一对象动作、姿势、行为状态等。例如，A用户摆的拍照姿势、踢球的动作、行走状态等。在一种可能的实施方式中，该计算机设备101可以获取第一视频中每帧第一图像的对象姿态信息，基于多帧第一图像的对象姿态信息，生成第二视频。每帧第一图像的对象姿态信息用于指示第一图像中第一对象的姿态。该对象姿态信息可以包括对象的至少一个身体部位的位置信息，对象的至少一个身体部位可以包括：对象的四肢、躯体、头部等身体部位中的一个或多个。该至少一个身体部位的位置信息可以反映对象的动作、姿势、行为状态等姿态。

该计算机设备101可以基于第一模型和第二模型实现上述视频生成过程。该第一模型用于基于输入视频中至少一帧图像的上下文图像输出该输入视频的对象姿态信息。第二模型用于基于输入的对象姿态信息输出符合该输入的对象姿态信息的第二对象的视频。该计算机设备101上可以存储该第一模型和第二模型，或者，该计算机设备101也可以调用其它计算机设备上的模型实现视频生成过程，在另一种可能实现方式中，该实施环境中还可以包括计算机设备102，该计算机设备102还可以将该第一模型和第二模型发送至该计算机设备101，从而计算机设备101可以接收并存储该第一模型和第二模型。下述均以该计算机设备101存储第一模型和第二模型为例进行说明。

需要说明的是，该计算机设备101和计算机设备102均可以被提供为终端，也可以被提供为服务器，本发明实施例对此不作限定。

图2为本发明实施例提供的一种视频生成方法的流程图，如图2所示，计算机设备中可以存储有第一模型和第二模型，该计算机设备可以将第一视频输入第一模型中，输出该第一视频中每帧第一图像的对象姿态信息，将每帧第一图像的对象姿态信息输入第二模型中，输出第二视频。

图3为本发明实施例提供的一种第一模型和第二模型训练流程示意图。该计算机设备可以采用第一样本视频和第二样本视频对第一模型和第二模型进行训练。例如，该第一样本视频可以为A跳舞视频，第二样本视频可以为B平时生活视频。

下面对第一模型的训练过程进行介绍：

该计算机设备可以将第二样本视频输入第一初始模型，输出第二样本视频中每帧第二样本图像的对象姿态信息，基于该每帧第二样本图像的对象姿态信息和该第二样本视频的样本标签，对第一初始模型进行训练，得到第一模型。第二样本视频的样本标签包括每帧第二样本图像的样本对象姿态信息，该样本对象姿态信息用于指示第二样本图像中第二对象的姿态。例如，B平时生活视频中B的动作姿态。当然，该计算机设备还可以采用第一样本视频对第一初始模型进行训练。第一样本图像的样本对象姿态信息用于指示第一样本对象的姿态。例如，A跳舞视频中A的动作姿态。

下面对第二模型的训练过程进行介绍：

如图3中左图所示，第二初始模型中包括生成器、第一判别器、第二判别器和第三判别器。该计算机设备将第二样本视频输入第一模型中，输出第二样本视频中每帧第二样本图像的对象姿态信息。该第一模型为基于第一初始模型训练得到。该计算机设备将该第二样本视频中每帧第二样本图像的对象姿态信息输入生成器中，生成第四视频；该第四视频中包括与第二样本视频中第二对象具有相同姿态变化的第二对象。例如，第四视频为生成器基于B平时生活视频中B的动作姿态生成的B的视频。

该计算机设备将第二样本视频和第四视频中连续m帧对应图像输入第二判别器中，获取第二判别器分别对第二样本视频和对第四视频的判别结果。将对第二样本视频的判别结果称作第三判别结果，将对第四视频的判别结果称作第四判别结果，例如，第三判别结果、第四判别结果可以分别为第二样本视频为真、第四视频为假。该连续的m帧对应图像包括第二样本视频中连续的m帧第二样本图像，以及第四视频中与该连续的m帧第二样本图像对应的连续的m帧第五图像。该计算机设备将第四视频中每帧第五图像和第二样本视频中与该第五图像对应的第二样本图像输入第三判别器中，获取第三判别器分别对第二样本图像和对第五图像的判别结果。将对第二样本图像的判别结果称作第五判别结果、将对第五图像的判别结果称作第六判别结果，例如，第五判别结果第六判别结果。第五判别结果、第六判别结果可以分别为第二样本图像为真、第五图像为假。

如图3中右图所示，该计算机设备将第一样本视频输入第一模型中，输出第一样本视频中每帧第一样本图像的对象姿态信息。该计算机设备将第一样本视频中每帧第一样本图像的对象姿态信息输入生成器中，生成第三视频。例如，第三视频可以为B跳舞的视频。该计算机设备将第一样本视频和第三视频中连续m帧对应图像输入第二初始模型的第一判别器中，获取第一判别器分别对第一样本视频和对第三视频的判别结果。例如，将对第一样本视频的判别结果称作第一判别结果、将对第三视频的判别结果称作第二判别结果，例如，第一判别结果、第二判别结果可以分别为第一样本视频为真、第三视频为假。该连续的m帧对应图像包括第一样本视频中连续的m帧第一样本图像，以及第三视频中与该连续的m帧第一样本图像对应的连续的m帧第四图像。该计算机设备可以基于上述第一判别结果至第六判别结果，对第二初始模型的生成器和三个判别器分别进行判断，以得到第二模型。

图4是本发明实施例提供的一种视频生成方法的流程图。该发明实施例的执行主体为计算机设备，参见图4，该方法包括：

401、计算机设备获取第一视频。

该第一视频包括第一对象，该第一视频可以为计算机直接对第一对象进行拍摄得到。或者，计算机设备还可以直接获取已存储的第一对象的第一视频。该第一视频中包括多帧第一图像。该多帧第一图像中第一对象的姿态可以不相同。该第一视频中第一对象的姿态进行不同变化。

需要说明的是，该第一模型为预先训练好的模型，第一模型的训练过程在下一个实施例中进行介绍。

402、计算机设备将该第一视频输入该第一模型，对于每帧第一图像，获取该第一图像的上下文图像和该第一图像的聚合特征。

本发明实施例中，该第一模型用于基于输入视频中至少一帧图像的上下文图像输出该输入视频的对象姿态信息，其中，上下文图像是指图像之前的多帧图像和之后的多帧图像中至少一帧。该聚合特征用于指示第一对象姿态变化。该计算机设备上可以存储有第一模型。该第一模型也可以存储于其他计算机设备中，该计算机设备可以调用其他计算机设备中的第一模型。

该第一视频中可以包括多帧第一图像，第一图像的上下文图像包括显示顺序位于该帧第一图像的目标顺序范围内的多帧图像。该目标顺序范围可以包括：显示顺序位于该帧第一图像之前的目标数量帧，显示顺序位于该帧第一图像之后的目标数量帧，或者显示顺序位于该帧第一图像之前以及之后的目标数量帧等。

在一种可能的实施方式中，该终端可以直接基于该第一图像的上下文图像和该第一图像的图像特征，获取该聚合特征。在另一种可能的实施方式中，该计算机设备还可以基于该第一图像的上下文图像和该第一图像的图像特征，先提取上下文图像和该第一图像的关键点位置，基于该关键点位置，获取该上下文图像和该第一图像的聚合特征。相应的，本步骤可以通过以下两种方式实现。

第一种方式、对于每帧第一图像，计算机设备根据该第一图像和该上下文图像的图像特征，确定该上下文图像和该第一图像中每两帧图像之间的相似度；根据该第一图像以及所确定的相似度，确定该聚合特征。

本发明实施例中，该计算机设备可以基于图像的像素点，进行相似度的确定。对于该上下文图像和该第一图像中每帧图像，该计算机设备可以根据该每帧图像包括的多个像素点的像素特征，分别确定每两帧图像中像素点之间的相似度。在一种可能的实施方式中，该计算机设备可以基于相似度，确定图像的权重，基于权重来获取聚合特征。对于该上下文图像和该第一图像中每帧图像，该计算机设备可以根据该图像与该图像以外的图像之间的相似度，确定该图像以外的图像相对于该图像的权重；该计算机设备可以根据该上下文图像和该第一图像的图像特征以及该图像以外的图像的权重，确定该图像的聚合特征。该图像以外的图像相对于该图像的权重，用于指示该图像以外的图像与该图像之间的相似程度。以图像特征为特征向量的表示形式为例，该计算机设备可以获取该图像以外的图像的权重与该图像以外的图像的特征向量之间的乘积，该计算机设备根据该图像的特征向量和该乘积，确定该图像的聚合特征向量。

在一种可能的实施方式中，以图像特征为特征向量的表示形式为例，该计算机设备还可以确定该图像本身的权重，该过程可以为：该计算机设备可以根据该图像与该图像以外的图像之间的相似度，确定该图像的权重；该计算机设备确定该图像以外的图像的特征向量与该图像以外的图像的权重的第一乘积，以及该图像的特征向量与该图像的权重的第二乘积；该计算机设备将该第一乘积和该第二乘积之和，确定为该图像的聚合特征，以此得到第一图像和上下文图像等多帧图像的聚合特征。

该计算机设备可以根据该图像与该图像本身的相似度，以及该图像与该图像以外的图像的相似度，确定该图像的权重。例如，图像1与该图像1本身的相似度为a，该图像1与图像2、图像3、图像4的相似度分别为b、c、d，则该计算机设备可以根据四个相似度，确定图像1、图像2、图像3、图像4的权重分别为：(a/(a+b+c+d))、(b/(a+b+c+d))、(c/(a+b+c+d))、(d/(a+b+c+d))。

需要说明的是，该第一图像的上下文图像也为该第一视频中的第一图像。该计算机设备通过确定每帧第一图像的上下文图像，以每帧第一图像与其上下文图像为一个图像集合，确定该图像集合中每帧图像与任一帧图像的相似度，从而在图像集合内的多帧第一图像之间建立关联关系，也即是帧与帧之间基于相似程度的关系。在一种具体示例中，对于图像集合内每帧图像，该计算机设备可以分别确定每两帧图像之间的相似度，包括每个图像与每个图像本身的相似度，从而得到该图像分别与该图像以及该图像以外的图像之间的多个相似度，该计算机设备基于该图像对应的多个相似度，确定多个权重，该多个权重分别用于指示该图像分别与该图像在内的多帧图像之间的相似程度，该计算机设备再获取该多个权重分别与该图像在内的多帧图像中对应图像的特征向量之间的乘积，通过将得到的多个乘积之和，确定为该图像的聚合特征，从而将包括该帧图像在内的多帧图像的图像特征聚合为该图像的特征。

该计算机设备基于上述过程，将多帧第一图像的图像特征基于相似度对应的权重进行聚合，由于每帧第一图像中第一对象的姿态在上下文图像中是随图像时间戳连续变化的，通过将聚合后的聚合特征作为第一图像的图像特征，从而将多帧第一图像中第一对象姿态的连续变化情况，聚合到第一图像的图像特征中，使得第一图像的图像特征能够指示第一对象的姿态在上下文图像对应播放时段内的连续性的变化特征。

在一个具体示例中，以图像为矩阵的表示形式为例，对上述过程进行介绍。

如图5所示，以第一特征层能输入第一图像和上下文图像共m帧图像为例，每帧图像的长和宽分别为H和W，每帧图像的特征通道数为C。则输入X是m×H×W×C维的矩阵，该m×H×W×C维的矩阵中的元素可以用于表示图像中像素点。

本步骤可以包括以下步骤(1)-(6)：

步骤(1)：计算机设备先分别用3个卷积(θ，φ，g)对m×H×W×C维的矩阵进行通道变化处理，将通道数变为原来的一半。

卷积θ、卷积φ和卷积g对应输出的m×H×W×C/2维度的矩阵。如图5所示，卷积θ、卷积φ和卷积g可以均为1×1×1的大小。

步骤(2)：计算机设备对各个通道数减半的矩阵进行维度变化处理。

计算机设备进行维度变化处理后，得到卷积θ对应输出的m×H×W×C/2维度变化为mHW×C/2维的矩阵(W_θ)，卷积φ对应输出的m×H×W×C/2维度变化为C/2×mHW维的矩阵(W_φ)，卷积g对应输出的m×H×W×C/2维度变化为mHW×C/2维的矩阵(W_g)。

步骤(3)：该计算机设备将矩阵(W_θ)和矩阵(W_φ)相乘，得到mHW×mHW维的矩阵(W_θφ)。

该矩阵(W_θφ)包括mHW行和mHW列，共mHW×mHW个元素。该矩阵(W_θφ)中，第i行第j列的元素用于表示第x帧第一图像的第y行的第z列的像素点与第x_帧第一图像的第y_行的第z_列的像素点的相似度。x，y，z和x_，y_，z_的分别表示如下：

x＝i/HW+1；“/”整除操作，x＝1，2，…，m；i＝0，2，…，mHW；

y＝(i-(x-1)×HW)/H+1；“×”表示乘法操作，y＝1，2，…，H；

z＝(i-(x-1)×HW)-(y-1)×W+1；z＝1，2，…，W；

x_＝j/HW+1；“/”表示整除操作，x_＝1，2，…，m；j＝0，2，…，mHW；

y_＝(j-(x_-1)×HW)/H+1；“×”表示乘法操作，y_＝1，2，…，H；

z_＝(j-(x_-1)×HW)-(y_-1)×W+1；z_＝1，2，…，W；

需要说明的是，该矩阵(W_θφ)中，包括该m帧图像的多个像素点中任意两个像素点之间的相似度。例如，该矩阵(W_θ)和矩阵(W_φ)中每个元素用于表示像素点的像素向量，则矩阵(W_θ)中元素1和矩阵(W_φ)中元素2相乘，即为两个像素向量相乘，可以用于表示两个像素点之间的相似程度，两个像素向量之间夹角越大，相似度越小。因此，该矩阵(W_θφ)表示了m帧图像中任意两帧图像之间的相似程度以及图像与图像本身的相似程度，以及像素点与像素点之间的相似性。

步骤(4)：该计算机设备通过softmax(归一化指数函数)进行归一化操作，将矩阵(W_θφ)变换为权值矩阵。

该权值矩阵包括m帧图像中，每帧图像分别与包括该图像在内的多帧图像的多个权重，还包括该m帧图像中任意两个像素点之间的权重。

步骤(5)：该计算机设备将矩阵(W_θφ)与矩阵(W_g)相乘，得到mHW×C/2维的矩阵(W_θφg)，从而将多帧图像的图像特征基于相似度进行聚合。

步骤(6)：该计算机设备对矩阵(W_θφg)进行维度变换处理，得到m×H×W×C/2维的矩阵(F_θφg)，也即是聚合特征。

计算机设备在当前特征层中，提取该聚合特征后，将该聚合特征作为该第一图像的图像特征，输入该第一模型的下一特征层。

在一种可能的实施方式中，该计算机设备还可以将该聚合特征进行处理，得到第一图像的图像特征。如图5所示，该计算机设备对m×H×W×C/2维的矩阵(F_θφg)，通过使用第一维步长大于1的卷积或者求m帧的平均的方式，将m×H×W×C/2维变化为1×H×W×C/2的矩阵，作为第一图像的图像特征。

需要说明的是，该第一模型中可以包括目标网络。对于每帧第一图像，获取该第一图像的上下文图像和该第一图像的聚合特征的步骤可以在该目标网络中实现。该目标网络可以位于该第一模型的任一特征层中，或者作为独立的目标特征层位于第一模型的任一排序位置上。该目标网络的结构可以为Nonlocal(非局部)网络。该第一模型中包括多个特征层，该多个特征层中至少一个特征层配置有该目标网络。在一种可能的实施方式中，该目标网络可以位于排序位置在首位的第一特征层，或者位于该多个特征层中排序位置在首位之后的第二特征层或者排序在末位的特征层。或者，该目标网络还可以位于该第一模型的每个特征层中。该排序是指第一模型对第一图像进行对象姿态信息提取时，该第一图像依次经过多个特征层的层层处理的顺序。当该计算机设备可以将该目标网路作为独立的目标特征层配置在该第一模型时，该目标特征层的排序位置可以位于第一特征层或者第二特征层之前或者之后，该计算机设备可以基于本步骤，执行该每个特征层的处理过程。每个特征层的处理过程，与上述过程同理，对此不再赘述。本发明实施例对该目标网络的存在形式以及目标特征层的排序位置不做具体限定。

在一种可能的示例中，当该目标特征层排序位置位于第一特征层之前，该计算机设备可以在该目标特征层中，确定第一图像和上下文图像的聚合特征，将聚合特征作为第一图像的图像特征输入第一特征层。在另一种可能的示例中，当该目标网络位于第二特征层时，该计算机设备则在第二特征层中，基于该第二特征层的原处理过程，提取第一图像和上下文图像的图像特征，基于该第一图像和上下文图像的图像特征，确定第一图像和上下文图像中每帧图像与任一图像的相似度，基于该每帧图像与任一图像的相似度，确定聚合特征。

第二种方式、对于该每帧第一图像，计算机设备根据该第一图像和该上下文图像的图像特征，确定该上下文图像和该第一图像中每帧图像的关键点位置；根据该上下文图像和该第一图像中每帧图像的关键点位置，获取该上下文图像和该第一图像的关键点位置的聚合特征。

该计算机设备可以基于第一模型的原有特征层，提取第一图像和上下文图像中每帧图像的关键点位置。该原有特征层是指不包含目标网络的特征层。对于上下文图像和第一图像中每帧图像，该计算机设备根据上下文图像和第一图像的关键点位置，确定每两帧图像的关键点位置的相似度，根据每帧图像的关键点位置与所确定的相似度，确定该聚合特征。在一种可能的实施方式中，每帧图像的关键点位置可以为一帧特征图的形式，该特征图中包括对应图像的关键点位置。对于上下文图像和第一图像中每帧图像，该计算机设备可以根据上下文图像和第一图像的特征图，确定每两帧特征图的相似度，根据每帧特征图与所确定的相似度，确定该聚合特征。确定该聚合特征的过程与上述第一种方式同理，此处不再一一赘述。

403、计算机设备根据该聚合特征，确定该每帧第一图像中对第一对象的关键点位置，得到该每帧第一图像的对象姿态信息。

每帧第一图像对应有对象姿态信息，每帧第一图像的对象姿态信息可以包括该第一图像中关键点的位置，该关键点的位置用于表示该第一图像的各个身体部位的位置，该关键点的位置还可以用于表示该第一图像的多个身体部位的形状、大小等特征。该多个身体部位可以包括头部、颈部、躯干、四肢等部位中的一个或多个。在一种可能的实施方式中，该关键点可以为骨骼关节点，该骨骼关节点可以包括骨骼一端的端点或者相邻两个骨骼之间的连接点。如图6所示，该关键点位置可以包括第一对象的身体部位中多个骨骼关节点，例如，包括胳膊肘位置的骨骼关节点、肩部的关节点、手部位置的关节点等。

在一种可能的实施方式中，计算机设备在当前特征层中，提取该聚合特征后，可以将该聚合特征作为该第一图像的图像特征，输入该第一模型的下一特征层，经过第一模型的原有特征层的层层处理，提取第一图像的关键点位置。在另一种可能的实施方式中，该计算机设备根据每帧图像的关键点位置与任一帧图像的关键点位置的相似度，确定聚合特征后，该计算机设备根据该关键点位置的聚合特征，通过求平均的方式，将该聚合特征进行维度变化的降维处理，作为第一图像的图像特征。

在一种可能的实施方式中，第一图像的对象姿态信息可以为特征图的形式，每帧第一图像可以对应一帧特征图，该帧特征图包括第一图像的关键点位置，例如，如图7所示，图7中(a)和(b)中的左图为第一图像，为第一对象的具体形态图。中间图为第一对象的姿态信息，也即是第一图像的特征图，该特征图中包括该用户身体部位的各个关键点位置，展示了第一对象的姿态。(a)和(b)中的右图为第二图像，第二图像中第二对象的姿态与第一对象相同。

404、计算机设备将该第一视频中至少一帧第一图像的对象姿态信息输入第二模型，基于输入的该至少一帧第一图像的对象姿态信息，输出第二视频。

该第二模型用于基于输入的对象姿态信息输出符合该输入的对象姿态信息的第二对象的视频，该符合对象姿态信息是指第二对象具有该对象姿态信息所指示的姿态，第二视频中包括与该第一对象具有相同姿态变化的第二对象。

该计算机设备将该第一视频中至少一帧第一图像的对象姿态信息输入该第二模型；对于每帧第一图像，基于该第一图像和该第一图像的上下文图像的对象姿态信息，确定该第一图像对应的第二图像，该第二图像包括与该第一图像中第一对象具备相同姿态的第二对象；该计算机设备基于至少一帧第一图像对应的至少一帧第二图像，输出该第二视频。

该计算机设备中可以存储有该第二模型，在另一种可能的实施方式中，该目标识别模型可以存储于其他计算机设备中，该计算机设备可以调用其他计算机设备中的第二模型。需要说明的是，该第二模型为预先进行训练得到的模型。该第二模型中包括生成器和判别器，该生成器用于基于对象姿态信息生成视频，该判别器用于对视频进行真假的判断，判断为真则指示该视频为真实拍摄的源视频，判断为假则指示该视频为生成的视频。该源视频是相对于生成器生成的视频而言，直接对第一对象进行拍摄所得到的视频。

本发明实施例中，该计算机设备可以基于该第二模型中的生成器，获取每帧第一图像对应的第二图像，该每帧第一图像中第一对象的姿态，与每帧第一图像对应的第二图像中第二对象的姿态相同，依次得到多帧第一图像对应的多帧第二图像，输出该第二对象的第二视频。在一种可能示例中，以每帧第一图像的对象姿态信息为一帧特征图为例，对于每帧第一图像，该计算机设备可以基于该第一图像和该第一图像的上下文图像的多帧特征图，生成该帧第一图像对应的第二图像。

该计算机设备可以基于多帧特征图的聚合特征生成第二图像。或者，该计算机设备先生成第一图像和上下文图像对应的第三图像，再基于多帧第三图像的聚合特征生成第二图像。该第三图像中包括与该第一图像和该上下文图像中第一对象具备相同姿态的第二对象。相应的，本步骤可以包括以下两种方式。

第一种方式、对于每帧第一图像，该计算机设备根据该第一图像和该第一图像的上下文图像的对象姿态信息，确定该第一图像和该上下文图像的对象姿态信息的聚合特征，根据该第一图像和该上下文图像的对象姿态信息的聚合特征，确定该第一图像对应的第二图像。

该计算机设备可以根据该第一图像和该上下文图像的对象姿态信息，确定该上下文图像和该第一图像中每两帧图像的对象姿态信息之间的相似度；该计算机设备可以根据该第一图像的对象姿态信息、该上下文图像的对象姿态信息以及每两帧图像的对象姿态信息之间的相似度，确定该第一图像和该上下文图像的对象姿态信息的聚合特征。

以每帧第一图像的对象姿态信息为一帧特征图为例，该计算机设备根据多帧特征图的图像特征，确定每帧特征图与任一特征图的相似度，根据每帧特征图与任一特征图的相似度，提取多帧特征图的聚合特征，然后，该计算机设备将该多帧特征图的聚合特征作为该第一图像的特征图，根据该多帧特征图的聚合特征，生成第一图像对应的第二图像。该计算机设备提取多帧特征图的聚合特征的过程，与上述步骤402中同理，此处不再赘述。

第二种方式、对于每帧第一图像，该计算机设备根据该第一图像和该第一图像的上下文图像的对象姿态信息，生成第一图像和该上下文图像对应的多帧第三图像，根据该多帧第三图像的聚合特征，确定该第一图像对应的第二图像，该多帧第三图像包括与该第一图像和该上下文图像中第一对象具备相同姿态的第二对象。

以每帧第一图像的对象姿态信息为一帧特征图为例，该计算机设备可以先根据该多帧特征图，生成第一图像和该第一图像的上下文图像相对应的多帧第三图像，根据多帧第三图像中每两帧第三图像之间的相似度和该多帧第三图像的图像特征，提取该多帧第三图像的聚合特征。该计算机设备根据该多帧第三图像的聚合特征，生成第一图像对应的第二图像。该计算机设备可以根据该多帧第三图像的聚合特征，通过卷积层降维或者确定多帧第三图像的平均图像的方式，生成该第一图像。该计算机设备提取多帧第三图像的聚合特征的过程，与上述步骤402中第一种方式同理，此处不再赘述。

该计算机设备根据第一图像和该上下文图像的对象姿态信息，获取该第一图像对应的第二图像的步骤可以在该第二模型的生成器中的目标网络中实现。该目标网络可以位于该第二模型的任一特征层中，或者作为独立的目标特征层位于第二模型的任一排序位置上。与上述第一模型中目标网络同理，此处不再赘述。

如图7所示，(a)中左图为第一对象所在的第一视频中的一帧图像，计算机设备提取该帧图像的对象姿态信息，包括关键点位置等信息，根据该对象姿态信息，生成右图中CG(computer graphics，计算机动画)动画人物形象所在的第二视频中对应帧图像。

本发明实施例中，通过基于每帧第一图像的上下文图像，来提取该每帧第一图像的对象姿态信息，由于上下文图像中包括多帧连续图像，使得该每帧第一图像的对象姿态信息也是连续的，避免单帧图像的对象姿态发生突变，保证最终生成的第二视频中，第二对象的动作是连续的，保证了所生成的视频在视觉效果上的真实性。

图8为本发明实施例提供的一种第一模型的训练方法流程图，该方法可以应用在计算机设备上。如图8所示，该训练过程包括以下步骤。

801、计算机设备将第一样本视频输入第一初始模型中，输出第一输出结果。

该第一样本视频包括第一样本对象。每帧第一样本图像对应有第一样本对象的姿态信息。为该第一样本对象在该帧第一样本图像中的真实姿态信息。在一种可能的示例中，该真实姿态信息可以为第一样本对象的关键点位置。如图9所示，该第一初始模型中包括有目标网络，该目标网络可以位于第一初始模型中任一特征层，或者，该目标网络作为第一初始模型中的一个独立的目标特征层。该目标特征层可以为位于该第一模型中任一特征层之前或之后，本发明实施例对目标网络的在第一初始模型的存在形式以及排序位置不做具体限定。

该第一输出结果包括第一样本视频中每帧第一样本图像的对象姿态信息。每帧第一样本图像的对象姿态信息用于指示该帧第一样本图像中第一样本对象的姿态。该第一样本图像的对象姿态信息可以为特征图的形式。

802、计算机设备确定第一样本视频的样本标签与该第一输出结果之间的第四相似度。

该样本标签包括该第一样本视频中每帧第一样本图像的样本对象姿态信息，为该第一样本图像中第一样本对象的姿态的真实描述值。

该计算机设备可以根据该第一损失函数、第一输出结果和样本标签，确定该第四相似度。该第一损失函数可以表示第一输出结果和样本标签之间的距离。该计算机设备可以通过该第一输出结果和样本标签之间的距离，确定第一输出结果和样本标签的相似程度，该第一输出结果和样本标签之间的距离越小，该第一输出结果和样本标签的相似程度越大，该第一输出结果越靠近样本标签。

803、计算机设备根据该第四相似度，对第一初始模型的模型参数进行调整，直至符合目标条件时停止调整，输出第一模型。

该计算机设备可以重复执行上述801-803的过程，通过梯度下降法，重复调整第一初始模型的模型参数，直到符合目标条件时，停止调整，输出第一模型。在一种可能的实施方式中，该目标条件可以包括但不限于：该第四相似度达到目标收敛条件，或者，训练次数达到目标次数等。该目标条件可以基于需要进行设置，该目标条件还可以为其他预设条件，本发明实施例对此不作限定。

需要说明的是，该计算机设备还可以获取第二样本视频，该计算机设备还可以基于第二样本视频，对第一初始模型进行训练，该第二样本视频中每帧第二样本图像对应有样本对象姿态信息。该计算机设备可以基于第一初始模型的输出结果和该第二样本图像的样本对象姿态信息，对第一初始模型进行训练，该过程与上述步骤801-803同理，此处不再赘述。

图10为本发明实施例提供的一种第二模型的训练方法流程图，该方法可以应用在计算机设备上。如图10所示，该训练过程包括以下步骤。

1001、计算机设备将第一样本视频中至少一帧第一样本图像的对象姿态信息、第二样本视频中至少一帧第二样本图像的对象姿态信息输入第二初始模型中，分别基于至少一帧第一样本图像的对象姿态信息和至少一帧第二样本图像的对象姿态信息，获取该第二初始模型中生成器生成的第三视频和第四视频。

第一样本视频包括第一样本对象，该第三视频包括与该第一样本对象具有相同姿态变化的第二对象。第一样本视频为第一样本对象的源视频，该第三视频为生成器生成第二对象的视频。该第二样本视频包括第二对象，该第四视频包括与该第二样本视频的第二对象具有相同姿态变化的第二对象。第二样本视频为第二对象的源视频。本发明实施例中，该源视频可以为直接对第一样本对象或第二对象进行拍摄得到的视频。

该生成器可以基于输入的至少一帧第一样本图像的对象姿态信息，生成第三视频，基于输入的至少一帧第二样本图像的对象姿态信息，生成第四视频。在一种可能的实施方式中，如图11所示，该生成器中添加了目标网络，该计算机设备可以基于每帧第一样本图像的上下文图像，生成该帧第一样本图像对应的第四图像，最终输出第三视频。该第三视频包括多帧第四图像，该多帧第四图像包括与对应第一样本图像中第一样本对象具备相同姿态的第二对象。该计算机设备生成每帧第一样本图像对应的第四图像，输出第三视频的过程，与上述步骤405同理，此处不再赘述。同理，该计算机设备可以基于每帧第二样本图像的上下文图像，生成该帧第二样本图像对应的第五图像，最终输出第四视频。该第四视频包括多帧第五图像，该多帧第五图像包括与对应第二样本图像中第二对象具备相同姿态的第二对象，该过程与上述步骤405同理，此处不再赘述。

该第二模型中包括三个判别器，分别为：第一判别器、第二判别器和第三判别器。该第一判别器用于基于第一样本视频和第三视频，判断第一样本视频和第三视频的真假。该第二判别器用于基于第二样本视频和第四视频，判断第二样本视频和第四视频的真假。该第三判别器用于基于第五图像和与该第五图像对应的第二样本图像，判断第二样本图像和第五图像的真假。下面分别通过以下三个步骤1002-1004，对三个判别器的判别过程进行介绍。

1002、计算机设备将该第三视频和第一样本视频输入第一判别器，获取该第一判别器的第一判别结果和第二判别结果之间的第一相似度。

在一种可能的实施方式中，对于每帧第一样本图像，该第一样本视频中每帧第一样本图像对应一帧第三图像，该计算机设备可以根据每帧第一样本图像的上下文图像，以及该帧第一样本图像对应的一帧第三图像的上下文图像，进行判断该第一样本图像和第三图像的真假，从而得到对该第一样本视频的第一判别结果，以及对该第三视频的第二判别结果。

在一种可能的实施方式中，如图12所示，该计算机设备也可以通过每帧第一样本图像的上下文图像，对每帧第一样本图像进行判别，从而输出第一样本视频的判别结果。该计算机设备可以通过目标网络进行判断，该计算机设备可以将该第三视频和该第一样本视频输入该第一判别器；基于该第三视频中至少一帧第四图像的上下文图像，确定该至少一帧第四图像和该上下文图像的聚合特征，基于该至少一帧第四图像和该上下文图像的聚合特征，输出对该第三视频的第一判别结果；该计算机设备基于该第一样本视频中至少一帧第一样本图像的上下文图像，确定该至少一帧第四图像和该上下文图像的聚合特征，基于该至少一帧第四图像和该上下文图像的聚合特征，输出对该第一样本视频的第二判别结果。

对于每帧第四图像，如图13所示，以输入第四图像和第四图像的上下文图像共n帧图像为例，每帧图像的长和宽分别为H和W，每帧图像的特征通道数为C。则输入X是n×H×W×C维的矩阵，该n×H×W×C维的矩阵中的元素可以用于表示第四图像中像素点。

本步骤可以包括以下步骤(1)-(7)：

步骤(1)：计算机设备先分别用3个卷积(θ，φ，g)对n×H×W×C维的矩阵进行通道变化处理，将通道数变为原来的一半。

卷积θ、卷积φ和卷积g对应输出的n×H×W×C/2维度的矩阵。如图13所示，卷积θ、卷积φ和卷积g可以为1×1×1的大小。

计算机设备进行维度变化处理后，得到卷积θ对应输出的n×H×W×C/2维度变化为n×HWC/2维的矩阵(W1_θ)，卷积φ对应输出的n×H×W×C/2维度变化为HW C/2×n维的矩阵(W1_φ)，卷积g对应输出的n×H×W×C/2维度变化为n×HWC/2维的矩阵(W1_g)。

步骤(3)：该计算机设备将矩阵(W1_θ)和矩阵(W1_φ)相乘，得到n×n维的矩阵(W1_θφ)。该矩阵(W1_θφ)中，每个元素表示n帧图像中每帧图像与任一帧图像的相似度。

步骤(4)：该计算机设备通过softmax(归一化指数函数)进行归一化操作，将矩阵(W1_θφ)变化为权值矩阵。该权值矩阵包括每帧图像与任一帧图像的多个相似度的权重。

步骤(5)：该计算机设备将矩阵(W1_θφ)与矩阵(W1_g)相乘，得到n×HWC/2维的矩阵(W1_θφg)，从而将多帧图像的图像特征基于相似度进行聚合。

步骤(6)：该计算机设备对矩阵(W1_θφg)进行维度变换处理，得到n×H×W×C/2维的矩阵(F1_θφg)，也即是，多帧图像的聚合特征。

该计算机设备还可以基于(F1_θφg)进行进一步的残差处理，最终输出Z是一个n×H×W×C维的矩阵。

步骤(7)：该计算机设备将该多帧图像的聚合特征对应的矩阵(F_θφg)输入下一个特征层，经过多个特征层的层层处理，输出第一判别结果。

该计算机设备将该多帧图像的聚合特征作为第四图像的图像特征，输入下一个特征层进行处理。

该第一相似度可以用于表示第一判别结果和第二判别结果的相似程度。在一种可能的实施方式中，该第一相似度可以基于第一损失函数确定，该计算机设备可以根据第一损失函数、第一判别结果和第二判别结果，确定第一判别结果和第二判别结果之间的第一相似度。该第一损失函数用于确定该第一判别结果和第二判别结果之间的相似程度，该第一损失函数的值越小，该第一相似度越大，第三视频越接近于第一样本视频。

在一个具体示例中，该计算机设备可以采用该第一判别结果和第二判别结果之间的散度来表示第一损失函数，该第一损失函数可以如下公式一所示，

公式一：Loss1＝min_G max_D1(KL(D1(sn)，D1(G(hn)))；

其中，sn是第一样本视频，包括n帧第一样本图像，hn是第一模型输出的第一样本视频中第一样本图像的对象姿态信息，也包括n帧第一样本图像的对象姿态信息，G(hn)表示生成器生成的第三视频，也包括n帧第四图像。D1表示第一判别器。D1(sn)表示第一判别结果，D1(G(hn))表示第二判别结果。KL表示散度。

如果G(hn)生成的多帧第一样本图像中，第一对象的动作发生跳变，又因为sn中帧与帧之间过渡自然无跳变，则训练D1时，G(hn)与sn的差异变大，Loss1变大，D1变强。训练G时，为了使Loss1变小，则迫使G(hn)的分布越来越接近sn，从而获得更强的G。因此，通过优化公式一，可迫使生成器生成的第三视频在时序上逼近第一样本视频。

1003、计算机设备将该第四视频和第二样本视频输入第二判别器，获取该第二判别器的第三判别结果和第四判别结果之间的第二相似度。

在第二判别器中，该计算机设备可以根据第二样本视频和第四视频中，对第二样本视频和第四视频进行判断。在一种可能的实施方式中，该第二样本视频中每帧第二样本图像对应一帧第五图像，该计算机设备可以根据每帧第二样本图像和该帧第二样本图像的上下文图像，以及该帧第二样本图像对应的一帧第五图像以及该帧第五图像的上下文图像，进行判断该第四视频和第二样本视频的真假，得到对该第二样本视频的第三判别结果，以及对该第四视频的第四判别结果。例如，如图14所示，该计算机设备可以n帧第二样本图像和上下文图像，以及n帧第五图像和上下文图像进行真假判断。

该第二相似度可以用于表示第三判别结果和第四判别结果的相似程度。在一种可能的实施方式中，该第二相似度可以基于第二损失函数确定，该计算机设备可以根据第二损失函数、第三判别结果和第四判别结果，确定第二相似度。该第二损失函数用于确定该第三判别结果和第四判别结果之间的相似程度，该第二损失函数的值越小，该第二相似度越大，第四视频越接近于第二样本视频。

在一个具体示例中，该计算机设备可以采用该第三判别结果和第四判别结果之间的散度来表示第二损失函数，该第二损失函数可以如下公式一所示，

公式二：Loss2＝min_G max_D2(KL(D2(tn)，D2(G(h₁n)))；

其中，tn为第二样本视频，包括n帧第二样本图像，h₁n是第一模型输出的第二样本视频中第二样本图像的对象姿态信息，也包括n帧第二样本图像的对象姿态信息，G(h₁n)表示生成器生成的第四视频，也包括n帧第五图像。D2表示第二判别器。D2(sn)表示第三判别结果，D2(G(h₁n))表示第四判别结果。则训练D2时，如果G(h₁n)生成的多帧第二样本图像中，第二对象的动作发生跳变，又因为tn帧与帧之间过渡自然无跳变，则G(h₁n)与tn的分布差异变大，loss2变大，D2变强。而训练G时，为了使loss2变小，则优化G使其生成的第四视频逼近第二样本视频，两个分布差异变小，loss2就变小。因此，通过优化公式二，G和D2对抗训练，G和D2都变得越来越强，从而使得生成器生成的第四视频在时序上逼近第二样本视频，从而使第四视频中帧与帧之间更自然。

1004、计算机设备将该第四视频中每帧第五图像和该第二样本视频中与该第五图像对应的第二样本图像输入第三判别器，获取该第三判别器的第五判别结果和第六判别结果之间的第三相似度。

在第三判别器中，该计算机设备可以对每帧第二样本图像和第五图像进行判断。在一种可能的实施方式中，该第二样本视频中每帧第二样本图像对应一帧第五图像，该计算机设备可以根据每帧第五图像和该帧第五图像对应的一帧第二样本图像，进行判断该每帧第二样本图像和每帧第五图像的真假，得到对每帧第二样本图像的第五判别结果，以及对该每帧第五图像的第六判别结果。例如，如图15所示，该计算机设备可以每帧第二样本图像和每帧第五图像进行真假判断。

该第三相似度可以用于表示第五判别结果和第六判别结果的相似程度。在一种可能的实施方式中，该第三相似度可以基于第三损失函数确定，该计算机设备可以根据第三损失函数、第五判别结果和第六判别结果，确定第三相似度。该第三损失函数用于确定该第五判别结果和第六判别结果之间的相似程度，该第三损失函数的值越小，该第三相似度越大，每帧第五图像越接近于对应第二样本图像。

在一个具体示例中，该第三损失函数可以用对数函数来表示，该第三损失函数可以如下公式三所示，

公式三：Loss3＝min_G max_D3(log(D3(t)+log(1-D2(G(h₁)))))；

其中，h₁是第一模型输出的第二样本视频中第二样本图像的对象姿态信息，G(h₁)表示生成器生成的第四视频中一帧第五图像。t为该帧第五图像对应的一帧第二样本图像，D3表示第三判别器。D3(s)表示第五判别结果，D3(G(h₁))表示第六判别结果。D3的能力越强，则D3(G(h₁))越小，loss3越大。G的能力越强，则G(h₁)越接近t，从而D3(G(h))越大，loss3越小。通过这样的对抗训练获得越来越强的G，使G(h₁)更加逼近t，也即是，每帧第五图像越接近第二样本图像，从而生成更加自然的视频。

1005、计算机设备基于该第一相似度、第二相似度和第三相似度，对该生成器、该第一判别器、第二判别器和第三判别器的参数进行调整，直至符合目标条件时停止调整，输出该第二模型。

在一种可能的实施方式中，该计算机设备可以根据该第一损失函数、第二损失函数、第三损失函数，确定目标损失函数，基于该目标损失函数，进行模型训练。在一个可能示例中，该计算机设备可以采用和的方式表示目标损失函数。该目标损失函数可以为公式四：loss＝loss1+loss2+loss3，该计算机设备可以基于该目标损失函数，确定该第一相似度、第二相似度和第三相似度。

该计算机设备可以基于第一相似度、第二相似度和第三相似度对第二初始模型的参数进行调整，上述步骤1001-1005为一次训练过程，在每次训练时，该计算机设备对第二初始模型的模型参数进行调整，直到符合目标条件时，将最后一次训练得到的模型参数，作为第二识别模型的模型参数。例如，该计算机设备可以基于上述公式四，通过随机梯度下降法，对第二初始模型的模型参数进行调整。在一种可能的实施方式中，该目标条件可以包括但不限于：该第一相似度、第二相似度和第三相似度达到目标收敛条件，或者，训练次数达到目标次数等。当然，该目标条件可以基于需要进行设置，该目标条件还可以为其他预设条件，本发明实施例对此不作限定。

本发明实施例中，通过三个判别器，分别基于第一样本视频、第二样本视频以及第三视频和第四视频，对生成器和三个判别器进行训练，使得生成器生成的第三视频更靠近第一样本视频，第四视频更靠近第二样本视频，保证了训练的准确性，进而保证了第二视频在视觉效果上的真实性。

图16是本发明实施例提供的一种视频生成装置的结构示意图。如图16所示，该装置包括：

获取模块1601，用于获取第一视频，该第一视频中包括第一对象；

输出模块1602，用于将该第一视频输入第一模型，基于输入的该第一视频中至少一帧第一图像的上下文图像，输出该至少一帧第一图像的对象姿态信息，其中，上下文图像是指第一图像之前的多帧图像和之后的多帧图像中至少一帧；

该输出模块1602，还用于将该第一视频中至少一帧第一图像的对象姿态信息输入第二模型，基于输入的该至少一帧第一图像的对象姿态信息，输出第二视频，该第二视频中包括与该第一对象具有相同姿态变化的第二对象。

在一种可能实现方式中，该输出模块1602，还用于将该第一视频输入该第一模型，对于每帧第一图像，获取该第一图像的上下文图像和该第一图像的聚合特征，该聚合特征用于指示该第一对象的姿态变化；根据该聚合特征，确定该第一图像中该第一对象的关键点位置，得到该第一图像的对象姿态信息。

在一种可能实现方式中，该输出模块1602，还用于对于每帧第一图像，根据该第一图像和该上下文图像的图像特征，确定该上下文图像和该第一图像中每两帧图像之间的相似度；根据该第一图像以及所确定的相似度，确定该聚合特征。

在一种可能实现方式中，该输出模块1602，还用于对于该上下文图像和该第一图像中每帧图像，根据该每帧图像包括的多个像素点的像素特征，分别确定每两帧图像中像素点之间的相似度。

在一种可能实现方式中，该输出模块1602，还用于对于该上下文图像和该第一图像中每帧图像，根据该图像与该图像以外的图像之间的相似度，确定该图像以外的图像相对于该图像的权重；根据该上下文图像和该第一图像的图像特征以及该图像以外的图像的权重，确定该图像的聚合特征。

在一种可能实现方式中，该输出模块1602，还用于根据该图像与该图像以外的图像之间的相似度，确定该图像的权重；确定该图像以外的图像的特征向量与该图像以外的图像的权重的第一乘积，以及该图像的特征向量与该图像的权重的第二乘积；将该第一乘积和该第二乘积之和，确定该图像的聚合特征。

在一种可能实现方式中，该输出模块1602，还用于对于该每帧第一图像，根据该第一图像和该上下文图像的图像特征，确定该上下文图像和该第一图像中每帧图像的关键点位置；根据该上下文图像和该第一图像中每帧图像的关键点位置，获取该上下文图像和该第一图像的关键点位置的聚合特征。

在一种可能实现方式中，该第一模型包括目标网络，该目标网络位于该第一模型的任一特征层中，或者作为独立的目标特征层位于该第一模型的任一排序位置上，该目标网络用于实现该对于该每帧第一图像，获取该第一图像的上下文图像和该第一图像的聚合特征的步骤。

在一种可能实现方式中，该输出模块1602，还用于将该第一视频中至少一帧第一图像的对象姿态信息输入该第二模型；对于每帧第一图像，基于该第一图像和该第一图像的上下文图像的对象姿态信息，确定该第一图像对应的第二图像，该第二图像包括与该第一图像中第一对象具备相同姿态的第二对象；基于该至少一帧第一图像对应的至少一帧第二图像，输出该第二视频。

在一种可能实现方式中，该输出模块1602，还用于下述任一项：

对于每帧第一图像，根据该第一图像和该第一图像的上下文图像的对象姿态信息，确定该第一图像和该上下文图像的对象姿态信息的聚合特征，根据该第一图像和该上下文图像的对象姿态信息的聚合特征，确定该第一图像对应的第二图像；和

对于每帧第一图像，根据该第一图像和该第一图像的上下文图像的对象姿态信息，生成第一图像和该上下文图像对应的多帧第三图像，根据该多帧第三图像的聚合特征，确定该第一图像对应的第二图像，该多帧第三图像包括与该第一图像和该上下文图像中第一对象具备相同姿态的第二对象。

在一种可能实现方式中，该装置还包括训练模块，该训练模块，用于将第一样本视频中至少一帧第一样本图像的对象姿态信息、第二样本视频中至少一帧第二样本图像的对象姿态信息输入第二初始模型，分别基于该至少一帧第一样本图像的对象姿态信息和该至少一帧第二样本图像的对象姿态信息，获取该第二初始模型中生成器生成的第三视频和第四视频；将该第三视频、该第四视频、该第一样本视频和该第二样本视频输入该第二初始模型的判别器中，基于该判别器分别对该第三视频、第四视频、该第一样本视频和该第二样本视频的判别结果，对该第二初始模型进行训练，得到该第二模型；

该第一样本视频包括第一样本对象，该第二样本视频包括第二对象，该第三视频包括与该第一样本对象具有相同姿态变化的第二对象，该第四视频包括与该第二样本视频的第二对象具有相同姿态变化的第二对象。

在一种可能实现方式中，该训练模块，还用于将该第三视频和该第一样本视频输入第一判别器，获取该第一判别器的第一判别结果和第二判别结果之间的第一相似度；将该第四视频和该第二样本视频输入第二判别器，获取该第二判别器的第三判别结果和第四判别结果之间的第二相似度；将该第四视频中每帧第五图像和该第二样本视频中与该第五图像对应的第二样本图像输入第三判别器，获取该第三判别器的第五判别结果和第六判别结果之间的第三相似度；基于该第一相似度、该第二相似度和该第三相似度，对该生成器、该第一判别器、该第二判别器和该第三判别器的参数进行调整，直至符合目标条件时停止调整，输出该第二模型。

在一种可能实现方式中，该训练模块，还用于将该第三视频和该第一样本视频输入该第一判别器；基于该第三视频中至少一帧第四图像的上下文图像，确定该至少一帧第四图像和该上下文图像的聚合特征，基于该至少一帧第四图像和该上下文图像的聚合特征，输出对该第三视频的第一判别结果；基于该第一样本视频中至少一帧第一样本图像的上下文图像，确定该至少一帧第一样本图像和该上下文图像的聚合特征，基于该至少一帧第一样本图像和该上下文图像的聚合特征，输出对该第一样本视频的第二判别结果；根据该第一判别结果、该第二判别结果和第一损失函数，确定该第一相似度。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频生成装置在生成视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图17是本发明实施例提供的一种终端的结构示意图。该终端1700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1701所执行以实现本申请中方法实施例提供的视频生成方法。

图18是本发明实施例提供的一种服务器的结构示意图，该服务器1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1801和一个或一个以上的存储器1802，其中，该存储器1802中存储有至少一条指令，该至少一条指令由该处理器1801加载并执行以实现上述各个方法实施例提供的视频生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由计算机设备中的处理器执行以完成上述实施例中的视频生成方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(random accessmemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取第一视频，所述第一视频中包括第一对象；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一视频输入第一模型，基于输入的所述第一视频中至少一帧第一图像的上下文图像，输出所述至少一帧第一图像的对象姿态信息包括：

将所述第一视频输入所述第一模型，对于每帧第一图像，获取所述第一图像的上下文图像和所述第一图像的聚合特征，所述聚合特征用于指示所述第一对象的姿态变化；

根据所述聚合特征，确定所述第一图像中所述第一对象的关键点位置，得到所述第一图像的对象姿态信息。

3.根据权利要求2所述的方法，其特征在于，所述对于每帧第一图像，获取所述第一图像的上下文图像和所述第一图像的聚合特征包括：

对于每帧第一图像，根据所述第一图像和所述上下文图像的图像特征，确定所述上下文图像和所述第一图像中每两帧图像之间的相似度；

根据所述第一图像以及所确定的相似度，确定所述聚合特征。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一图像和所述上下文图像的图像特征，确定所述上下文图像和所述第一图像中每两帧图像之间的相似度包括：

对于所述上下文图像和所述第一图像中每帧图像，根据所述每帧图像包括的多个像素点的像素特征，分别确定每两帧图像中像素点之间的相似度。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一图像以及所确定的相似度，确定所述聚合特征包括：

对于所述上下文图像和所述第一图像中每帧图像，根据所述图像与所述图像以外的图像之间的相似度，确定所述图像以外的图像相对于所述图像的权重；

根据所述上下文图像和所述第一图像的图像特征以及所述图像以外的图像的权重，确定所述图像的聚合特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述上下文图像和所述第一图像的图像特征以及所述图像以外的图像的权重，确定所述图像的聚合特征包括：

根据所述图像与所述图像以外的图像之间的相似度，确定所述图像的权重；

确定所述图像以外的图像的特征向量与所述图像以外的图像的权重的第一乘积，以及所述图像的特征向量与所述图像的权重的第二乘积；

将所述第一乘积和所述第二乘积之和，确定为所述图像的聚合特征。

7.根据权利要求2所述的方法，其特征在于，所述对于每帧第一图像，获取所述第一图像的上下文图像和所述第一图像的聚合特征包括：

对于所述每帧第一图像，根据所述第一图像和所述上下文图像的图像特征，确定所述上下文图像和所述第一图像中每帧图像的关键点位置；

根据所述上下文图像和所述第一图像中每帧图像的关键点位置，获取所述上下文图像和所述第一图像的关键点位置的聚合特征。

8.根据权利要求1所述的方法，其特征在于，所述将所述第一视频中至少一帧第一图像的对象姿态信息输入第二模型，基于输入的所述至少一帧第一图像的对象姿态信息，输出第二视频包括：

将所述第一视频中至少一帧第一图像的对象姿态信息输入所述第二模型；

对于每帧第一图像，基于所述第一图像和所述第一图像的上下文图像的对象姿态信息，确定所述第一图像对应的第二图像，所述第二图像包括与所述第一图像中第一对象具备相同姿态的第二对象；

基于所述至少一帧第一图像对应的至少一帧第二图像，输出所述第二视频。

9.根据权利要求8所述的方法，其特征在于，所述对于每帧第一图像，基于所述第一图像和所述第一图像的上下文图像的对象姿态信息，确定所述第一图像对应的第二图像包括下述任一项：

对于每帧第一图像，根据所述第一图像和所述第一图像的上下文图像的对象姿态信息，生成所述第一图像和所述上下文图像对应的多帧第三图像，根据所述多帧第三图像的聚合特征，确定所述第一图像对应的第二图像，所述多帧第三图像包括与所述第一图像和所述上下文图像中第一对象具备相同姿态的第二对象。

10.根据权利要求1所述的方法，其特征在于，所述第二模型的训练过程包括：

将第一样本视频中至少一帧第一样本图像的对象姿态信息、第二样本视频中至少一帧第二样本图像的对象姿态信息输入第二初始模型，分别基于所述至少一帧第一样本图像的对象姿态信息和所述至少一帧第二样本图像的对象姿态信息，获取所述第二初始模型中生成器生成的第三视频和第四视频；

将所述第三视频、所述第四视频、所述第一样本视频和所述第二样本视频输入所述第二初始模型的判别器中，基于所述判别器分别对所述第三视频、第四视频、所述第一样本视频和所述第二样本视频的判别结果，对所述第二初始模型进行训练，得到所述第二模型；

11.根据权利要求10所述的方法，其特征在于，所述将所述第三视频、所述第四视频、所述第一样本视频和所述第二样本视频输入所述第二初始模型的判别器中，基于所述判别器分别对所述第三视频、第四视频、所述第一样本视频和所述第二样本视频的判别结果，对所述第二初始模型进行训练，得到所述第二模型包括：

将所述第三视频和所述第一样本视频输入第一判别器，获取所述第一判别器的第一判别结果和第二判别结果之间的第一相似度；

将所述第四视频和所述第二样本视频输入第二判别器，获取所述第二判别器的第三判别结果和第四判别结果之间的第二相似度；

将所述第四视频中每帧第五图像和所述第二样本视频中与所述第五图像对应的第二样本图像输入第三判别器，获取所述第三判别器的第五判别结果和第六判别结果之间的第三相似度；

基于所述第一相似度、所述第二相似度和所述第三相似度，对所述生成器、所述第一判别器、所述第二判别器和所述第三判别器的参数进行调整，直至符合目标条件时停止调整，输出所述第二模型。

12.根据权利要求11所述的方法，其特征在于，所述将所述第三视频和所述第一样本视频输入第一判别器，获取所述第一判别器的第一判别结果和第二判别结果之间的第一相似度包括：

将所述第三视频和所述第一样本视频输入所述第一判别器；

基于所述第三视频中至少一帧第四图像的上下文图像，确定所述至少一帧第四图像和所述上下文图像的聚合特征，基于所述至少一帧第四图像和所述上下文图像的聚合特征，输出对所述第三视频的第一判别结果；

基于所述第一样本视频中至少一帧第一样本图像的上下文图像，确定所述至少一帧第一样本图像和所述上下文图像的聚合特征，基于所述至少一帧第一样本图像和所述上下文图像的聚合特征，输出对所述第一样本视频的第二判别结果；

根据所述第一判别结果、所述第二判别结果和第一损失函数，确定所述第一相似度。

13.一种视频生成装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频生成方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频生成方法所执行的操作。