CN112613495B

CN112613495B - 真人视频生成方法、装置、可读存储介质及设备

Info

Publication number: CN112613495B
Application number: CN202110246897.6A
Authority: CN
Inventors: 王骁; 高原; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-01
Anticipated expiration: 2041-03-05
Also published as: CN112613495A

Abstract

本发明提供一种真人视频生成方法、装置、可读存储介质及设备，真人视频生成方法包括：获取用于生成目标角色的第一视频；从预设的参考帧池中寻找与第一视频的多帧图像分别对应的多帧第一参考图像；根据第一视频的多帧图像、与第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型；获取用于生成目标动作的第二视频；从参考帧池中寻找与第二视频的多帧图像分别对应的多帧第二参考图像；根据第二视频的多帧图像、与第二视频的多帧图像分别对应的多帧第二参考图像、图像生成模型，生成由目标角色作出目标动作的视频。本发明能够提高生成视频的真实度。

Description

真人视频生成方法、装置、可读存储介质及设备

技术领域

本发明涉及视频生成技术领域，尤其涉及一种真人视频生成方法、装置、可读存储介质及设备。

背景技术

随着电子设备的普及，基于视频的信息传递和交流，在人们的生活和工作中的份量越来越重要，特别是线上教学逐渐兴起。目前的线上教学中，出现了非直播形式的AI课程，是通过AI技术生成的视频课程，并不是授课老师真实录制的视频课程。AI课程需要用到真人视频生成技术，目前的视频生成方法中多为基于单帧参考图像来生成，这类生成方法具有局限性。视频中的很多细节，例如衣服花纹、背景图像和肢体细节等，难以达到“真实”的级别。因此，需要一种能够提高真实度的视频生成技术。

发明内容

为了解决上述技术问题中的至少一个，本发明的一些方面提供了一种真人视频生成方法、装置、可读存储介质及设备，可以自动从不同参考图像中聚合生成需要用到的深度特征，提高生成视频的真实度。

一方面，本发明提供一种真人视频生成方法，包括：

获取用于生成目标角色的第一视频；

从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像；

根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型；

获取用于生成目标动作的第二视频；

从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像；

根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频。

在本发明的至少一个实施例中，从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像，包括：

根据所述第一视频的多帧图像的SMPL特征的相似度从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像；

从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像，包括：

根据所述第二视频的多帧图像的SMPL特征的相似度从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像。

在本发明的至少一个实施例中，根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型，包括：

根据所述第一视频的多帧图像的openpose特征和densepose特征、所述第一参考图像、光流预设模型预测的从所述第一参考图像到所述第一视频的帧图像的第一光流信息，训练所述图像生成模型；

根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频，包括：

根据所述第二视频的多帧图像的openpose特征和densepose特征、所述第二参考图像、光流预设模型预测的从所述第二参考图像到所述第二视频的帧图像的第二光流信息、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频。

在本发明的至少一个实施例中，所述图像生成模型包括：

由生成网络和鉴别网路组成的对抗神经网络。

在本发明的至少一个实施例中，所述生成网络包括：

外观编码网络，用于从多个第二参考图像中提取参考深度特征；

扭曲处理模块，用于根据第二光流信息对所述参考深度特征进行扭曲处理；

姿势编码网络，用于从第二视频的多帧图像中提取动作深度特征；

特征聚合模块，用于将扭曲处理后的所述参考深度特征和所述动作深度特征进行聚合，得到聚合深度特征。

在本发明的至少一个实施例中，所述特征聚合模块包括：

第一卷积网络，用于对扭曲处理后的所述参考深度特征进行处理，得到用于聚合的参考深度特征；

第二卷积网络，用于对所述动作深度特征进行处理，得到用于指导的动作深度特征；

注意力机制模块，用于计算所有用于聚合的参考深度特征的权重；

粗聚合模块，用于根据所述权重将用于指导的动作深度特征和用于聚合的参考深度特征进行聚合，得到聚合粗特征；

第三卷积网络，用于对所述聚合粗特征与所述动作深度特征进行处理，得到所述聚合深度特征。

在本发明的至少一个实施例中，所述生成网络还包括：

余差网络，用于对所述动作深度特征进行解码处理；

组合模块，用于将解码后的所述动作深度特征与所述聚合深度特征进行组合得到组合特征；

解码网络，用于对所述组合特征进行解码。

另一方面，本发明还提供一种真人视频生成装置，包括：

第一视频获取模块，用于获取生成目标角色的第一视频；

第一参考图像获取模块，用于从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像；

训练模块，用于根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型；

第二视频获取模块，用于获取生成目标动作的第二视频；

第二参考图像获取模块，用于从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像；

视频生成模块，用于根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频。

又一方面，本发明还提供一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如上任一项所述的真人视频生成方法中的步骤。

又一方面，本发明还提供一种电子设备，设备包括处理器和存储器，存储器中存储有适于处理器执行的计算机程序指令，计算机程序指令被处理器运行时执行如上任一项所述的真人视频生成方法中的步骤。

本发明的真人视频生成方法、装置、可读存储介质及设备，在训练模型时采用了多参考图像来生成，并且，在视频生成阶段采用了多图像深度特征聚合的方法，能自动的从各个参考图像中获取用于生成真人视频的深度特征，从而提高生成视频的真实度。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本发明真人视频生成方法的一种示例性流程示意图；

图2为本发明真人视频生成方法的又一示例性流程示意图；

图3为本发明真人视频生成方法一具体示例的流程示意图；

图4为本发明中视频生成阶段的示例性流程示意图；

图5为本发明中特征聚合过程的示例性流程示意图；

图6为本发明真人视频生成装置的示例性结构示意图；

图7为本发明电子设备的示例性结构示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。

本发明实施例提供的方法可以由相关的处理器执行，且下文均以处理器作为执行主体为例进行说明。其中，执行主体可以根据具体案例进行调整，如服务器、电子设备、计算机等。

本发明实施例提供了一种真人视频生成方法、装置、可读存储介质及设备，以提高生成视频的真实度。

参见图1，示例性地示出了一种真人视频生成方法的流程示意图；本发明实施例提供的真人视频生成方法，用来将一段视频（目标角色视频）中的角色替换另一段视频（目标动作视频）中的角色，执行另一段视频中的动作，并达到真实的效果。该方法包括：

S101、获取用于生成目标角色的第一视频。将所述第一视频拆分为若干个训练帧和若干个参考帧，且训练帧和参考帧互相不重复；所述训练帧用于生成训练动作；多个参考帧形成参考帧池。

S102、从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像。本发明实施例选用了多个参考帧，可以通过提取多个参考帧的深度特征来提高生成视频的真实度。

具体的，先提取每个训练帧的动作特征数据。可以分别采用SMPL模型、OpenPose模型和Densepose模型提取得到每个训练帧的SMPL数据、openpose数据和densepose数据。SMPL（Skinned Multi-Person Linear）模型是一种三维人体建模和驱动模型，能通过参数调整人体三维模型的外形和姿态。Densepose是一种人体实时姿势识别系统，它在2D图像和人体3D模型之间建立映射，最终实现密集人群的实时姿态识别。具体来说，DensePose利用深度学习将2D RPG图像坐标映射到3D人体表面，把一个人分割成许多UV贴图（UV坐标），然后处理密集坐标，实现动态人物的精确定位和姿态估计。OpenPose也是人体姿态描述方式，是基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人，具有极好的鲁棒性。SMPL数据、openpose数据和densepose数据是指通过这三种模型对每个目标动作帧提取出的关于运动特征的参数数据。

然后，基于训练帧的动作特征数据，在参考帧池中寻找与各个训练帧的动作相近的参考帧作为第一参考图像。第一参考图像是从参考帧池中按照动作相似度选择出来的一部分参考帧，是参考帧池的子集。

S103、根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像来训练图像生成模型。图像生成模型的具体结构在下文进行描述。

步骤S101~S103可以看做是图像生成模型的训练阶段。

S104、获取用于生成目标动作的第二视频。将所述第二视频拆分为若干个目标动作帧；目标动作也就是最终生成的视频中将要执行的动作。参考帧中的角色与目标动作帧中的角色不同。本发明实施例选用了多个参考帧，可以通过提取多个参考帧的深度特征来提高生成视频的真实度。

S105、从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像。

具体的，可以提取每个目标动作帧的动作特征数据，目标动作帧的动作特征数据包括目标动作帧的SMPL数据、openpose数据和densepose数据。然后，基于目标动作帧的动作特征数据，在参考帧池中寻找与各个目标动作帧的动作相近的参考帧作为第二参考图像。

S106、根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型，生成由目标角色作出目标动作的视频。具体的，图像生成模型逐帧输出目标角色作出目标动作的图像，将多帧图像再合成为视频，也就是最终生成的目标视频。

步骤S104~S106可以看做是图像生成模型的应用阶段。

本发明实施例的真人视频生成方法在训练模型时采用了多参考图像来生成，并且，在视频生成阶段采用了多图像深度特征聚合的方法，能自动的从各个参考图像中获取用于生成真人视频的深度特征，从而提高生成视频的真实度。

在本发明一实施例中，从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像，包括：

根据第一视频的多帧图像的SMPL特征的相似度从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像。也就是基于参考帧的SMPL数据，在参考帧池中寻找与各个训练帧的动作相近的参考帧作为第一参考图像。

根据第二视频的多帧图像的SMPL特征的相似度从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像。也就是基于目标动作帧的SMPL数据，在参考帧池中寻找与各个目标动作帧的动作相近的参考帧作为第二参考图像。

进一步的，根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型，包括：

根据所述第一视频的多帧图像的openpose特征和densepose特征、所述第一参考图像、光流预设模型预测的从所述第一参考图像到所述第一视频的帧图像的第一光流信息，训练所述图像生成模型。

也就是说，根据训练帧的openpose数据和densepose数据、第一参考图像和第一光流信息来训练所述图像生成模型。第一光流信息是通过光流模型预测从第一参考图像到对应的训练帧的光流信息。

也就是说，根据目标动作帧的openpose数据和densepose数据、第二参考图像、第二光流信息以及训练后的图像生成模型，来生成目标视频。第二光流信息是通过光流模型预测从第二参考图像到对应的目标动作帧的光流信息。

在本发明一实施例中，所述图像生成模型包括：

由生成网络和鉴别网路组成的对抗神经网络。鉴别网路应用在图像生成模型的训练阶段，生成网络应用在图像生成模型的应用阶段。

进一步的，参见图4所示，生成网络包括：

参见图2所示，该生成网络的执行流程如下：

S201、提取各个第二参考图像的不同尺度的深度特征作为参考深度特征。不同尺度代表提取的特征信息相对于原图像信息的占比不同，如果尺度大则提取出的特征占比就小，相反，如果尺度小，则提取出的特征占比就大。该过程可以采用外观编码网络提取出四个不同尺度的参考深度特征。

S202、根据所述第二光流信息对所述参考深度特征进行扭曲处理。扭曲处理的作用是将每个第二参考图像的参考深度特征所代表的动作扭曲到与该第二参考图像对应的目标动作帧的动作相一致。该过程可以通过扭曲处理模块来执行，参见图4中示出的扭曲处理模块内部结构，其中，Appearance Features Scale 1, Appearance Features Scale 2,Appearance Features Scale 3, Appearance Features Scale 4分别表示第一尺度至第四尺度的参考深度特征；Warp Function表示扭曲函数；AvgPool表示平均池模块。处理过程为：第二光流信息经过第一次平均池模块处理后，一部分光流信息与第一尺度的参考深度特征通过扭曲函数进行处理，得到第一尺度的扭曲处理后的参考深度特征；另一部分光流信息经过第二次平均池模块处理之后，一部分光流信息与第二尺度的参考深度特征通过扭曲函数进行处理，得到第二尺度的扭曲处理后的参考深度特征，另一部分光流信息继续经过第三次平均池模块处理，依次类推得到第一尺度至第四尺度的扭曲处理后的参考深度特征。通过提取多个参考图像的深度特征，可以获得在聚合时需要用到的深度特征，提高聚合后生成图像的真实性。

S203、提取各个目标动作帧的动作特征数据的不同尺度的深度特征作为动作深度特征。该过程可以采用姿势编码网络提取出四个不同尺度的动作深度特征。

S204、将动作深度特征与扭曲处理后的参考深度特征进行聚合得到聚合深度特征。该过程可以采用特征聚合模块来执行，用来将代表目标角色的参考深度特征与代表目标动作的动作深度特征进行聚合。

进一步的，参见图4所示，生成网络还包括：

余差网络，用于对所述动作深度特征进行解码处理；

解码网络，用于对所述组合特征进行解码。

参见图2，具体执行流程为：

S205、动作深度特征经过余差网络进行解码处理，得到解码后的动作深度特征。

S206、将所述聚合深度特征与解码后的所述动作深度特征进行组合，得到组合特征。其中，相同尺度的解码后的动作深度特征与相同尺度的聚合深度特征进行组合。

S207、将组合后得到的组合特征经过解码网络进行解码，得到最终合成的目标图像。

进一步的，参见图5所示，特征聚合模块包括：

特征聚合模块的执行流程如下：

S301、通过第一卷积网络对扭曲处理后的所述参考深度特征进行处理，得到用于聚合的参考深度特征。例如，如果有K个第二参考图像，则将得到K个用于聚合的参考深度特征。

S302、通过第二卷积网络对所述动作深度特征进行处理，得到用于指导的动作深度特征。

S303、通过注意力机制计算所有用于聚合的参考深度特征的权重（也可以叫权值）。该步骤是用来计算所有用于聚合的参考深度特征的分配权制。例如，针对K个用于聚合的参考深度特征，每一个用于聚合的参考深度特征具有一个对应的权重，形成K个权重。

S304、粗聚合模块根据所述权重将用于指导的动作深度特征和用于聚合的参考深度特征进行聚合，得到聚合粗特征。

S305、将所述聚合粗特征与所述动作深度特征通过第三卷积网络进行处理，得到所述聚合深度特征，将经过第三卷积网络处理后的聚合深度特征作为该步骤的输出。

需要说明的是步骤S301~S305是针对同一个尺度的处理过程，对于其他尺度的处理过程相同，不再赘述。例如，最终输出四个不同尺度的聚合深度特征。

如图3所示，以下参照一个具体实施例来说明本发明真人视频生成方法的实施过程。

可以将真人视频生成方法的实施过程分成四个阶段：光流预测阶段、训练阶段、参考图像选择阶段和应用阶段。其中，训练阶段和应用阶段是两个主要的阶段，在训练阶段和应用阶段中都会应用到起辅助作用的光流预测阶段和参考图选择阶段。在经过训练阶段的训练之后，将训练后的图像生成模型放入应用阶段便可以将生成目标动作视频中的动作用生成目标角色视频中的角色表演出来，并合成为能连续播放的视频，且达到真实的级别。

训练阶段

1）输入一段用于生成目标角色的视频，将视频拆分为两个部分，分别是训练帧和参考帧，这两个部分的数据没有重合，参考帧形成参考帧池备用。

2）提取所有训练帧的SMPL数据、openpose数据和densepose数据。

3）针对每一帧训练帧中的动作，基于2）中得到的SMPL数据在参考帧池中寻找与其具有相近动作的参考帧作为参考图像。

4）通过光流模型预测从参考图像中动作到训练帧中动作的第一光流信息。

5）将2）中得到的openpose数据、densepose数据，3）中选取的参考图像和4）中预测的第一光流信息一同输入图像生成模型进行训练。

应用阶段

1）输入一段生成目标动作的视频，并拆分为目标动作帧。

2）提取所有目标动作帧的SMPL数据、openpose数据和densepose数据。

3）针对每一帧目标动作帧，基于2）中得到的SMPL数据从训练阶段的参考帧池中选取动作相近的参考帧作为参考图像。

4）通过光流模型预测从参考图像中动作到目标动作帧中动作的第二光流信息。

5）将2）中得到的openpose数据、densepose数据，3）中选取的参考图像和4）中预测的第二光流信息一同输入到训练好的图像生成模型中逐帧生成出目标角色执行目标动作的图像（目标图像）。

最后将目标图像合成为最终生成的目标视频。

另一方面，本发明实施例还提供了一种真人视频生成装置，该装置用于执行上述公开的真人视频生成方法，如图6所示，装置包括：

第一视频获取模块，用于获取生成目标角色的第一视频。

第一参考图像获取模块，用于从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像。

训练模块，用于根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型。

第二视频获取模块，用于获取生成目标动作的第二视频。

第二参考图像获取模块，用于从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像。

另一方面，本发明实施例还提供了一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行前述任一项所述的真人视频生成方法中的步骤。

另一方面，本发明实施例还提供了一种电子设备，图7所示的电子设备的示例性结构示意图，设备包括通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信，进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。所述存储器2000和处理器3000的数量可以为一个或多个。

如果通信接口1000、存储器2000及处理器3000独立实现，则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上，则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

处理器用于执行上述任一实施例所述真人视频生成方法中的一个或多个步骤。处理器可以是中央处理单元（Central Processing Unit，简称CPU），还可以是其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行上述任一实施例所述真人视频生成方法中的一个或多个步骤。

存储器可以是只读存储器（Read-Only Memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（Random Access Memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory，EEPROM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。同时，在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电性连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种真人视频生成方法，其特征在于，包括：

获取用于生成目标角色的第一视频；

根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型，包括：根据所述第一视频的多帧图像的openpose特征和densepose特征、所述第一参考图像、光流预设模型预测的从所述第一参考图像到所述第一视频的帧图像的第一光流信息，训练所述图像生成模型；

获取用于生成目标动作的第二视频；

根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频，包括：根据所述第二视频的多帧图像的openpose特征和densepose特征、所述第二参考图像、光流预设模型预测的从所述第二参考图像到所述第二视频的帧图像的第二光流信息、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频；

所述图像生成模型包括由生成网络和鉴别网路组成的对抗神经网络；所述生成网络包括：

外观编码网络，用于从多个所述第二参考图像中提取参考深度特征；

扭曲处理模块，用于根据所述第二光流信息对所述参考深度特征进行扭曲处理；

姿势编码网络，用于从所述第二视频的多帧图像中提取动作深度特征；

2.根据权利要求1所述的真人视频生成方法，其特征在于，所述从预设的参考帧池中寻找与所述第一视频的多帧图像分别对应的多帧第一参考图像，包括：

所述从所述参考帧池中寻找与所述第二视频的多帧图像分别对应的多帧第二参考图像，包括：

3.根据权利要求2所述的真人视频生成方法，其特征在于，所述特征聚合模块包括：

粗聚合模块，用于根据所述权重将用于所述指导的动作深度特征和所述用于聚合的参考深度特征进行聚合，得到聚合粗特征；

4.根据权利要求2所述的真人视频生成方法，其特征在于，所述生成网络还包括：

余差网络，用于对所述动作深度特征进行解码处理；

解码网络，用于对所述组合特征进行解码。

5.一种真人视频生成装置，其特征在于，包括：

第一视频获取模块，用于获取生成目标角色的第一视频；

训练模块，用于根据所述第一视频的多帧图像、与所述第一视频的多帧图像分别对应的多帧第一参考图像训练图像生成模型，包括：根据所述第一视频的多帧图像的openpose特征和densepose特征、所述第一参考图像、光流预设模型预测的从所述第一参考图像到所述第一视频的帧图像的第一光流信息，训练所述图像生成模型；

第二视频获取模块，用于获取生成目标动作的第二视频；

视频生成模块，用于根据所述第二视频的多帧图像、与所述第二视频的多帧图像分别对应的多帧第二参考图像、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频，包括：根据所述第二视频的多帧图像的openpose特征和densepose特征、所述第二参考图像、光流预设模型预测的从所述第二参考图像到所述第二视频的帧图像的第二光流信息、所述图像生成模型，生成由所述目标角色作出所述目标动作的视频；

6.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-4任一项所述的真人视频生成方法中的步骤。

7.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如权利要求1-4任一项所述的真人视频生成方法中的步骤。