CN115082300B

CN115082300B - 图像生成模型的训练方法、图像生成方法及装置

Info

Publication number: CN115082300B
Application number: CN202210865417.9A
Authority: CN
Inventors: 刘斌; 张雅琪
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-12-30
Anticipated expiration: 2042-07-22
Also published as: CN115082300A

Abstract

本发明提供了图像生成模型的训练方法、图像生成方法及装置，用于人工智能和图像处理领域。训练方法包括：利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到候选关键点转换器；利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量；将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成样本目标视频帧；利用样本目标视频帧更新样本第一视频帧集合，得到样本第二视频帧集合；利用新的样本目标视频帧迭代地生成其他的样本目标视频帧，得到样本目标视频帧序列；利用鉴别器处理样本目标视频帧序列，得到图像生成模型。图像生成模型生成的视频提升跨身份的泛化能力。

Description

图像生成模型的训练方法、图像生成方法及装置

技术领域

本发明涉及人工智能领域和图像处理领域，具体地涉及一种图像生成模型的训练方法、图像生成方法及装置。

背景技术

随着科技的快速发展，在影视产品、游戏动画等场景中，相关产品制作人员可以利用人工智能算法等先进的图像重建技术来构建多样化的视频图像、动画图像等图像产品。尤其在影视产品制作中，影视制作人员可以根据目标人物的人脸图像、源人物的视频图像，构建逼真地说话人脸视频，该说话人脸视频中可以实现将源人物的说话内容和姿态（即说话风格）迁移到目标人物上，从而合成新的目标人物的说话人脸视频。该说话人脸视频还可以应用于动画图像制作，游戏视频制作等其他应用场景中，以提升相关图像产品的逼真程度，降低制作成本。

尽管相关技术中图像生成方法已经在相关应用场景中取得了令人瞩目的成果，但仍然存在针对不同源人物的泛化能力较差，图像处理需要的样本数量较大等问题，导致图像重建的效果难以满足实际需求。

发明内容

鉴于上述问题，本发明提供了一种图像生成模型的训练方法、图像生成方法及装置。

根据本发明的第一个方面，提供了一种图像生成模型的训练方法，包括：

利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，上述初始关键点转换器输出样本第一关键点集合，上述候选关键点转换器输出样本第二关键点集合；

利用特征嵌入器处理上述样本第一关键点集合与上述样本目标图像信息，得到样本风格特征向量；

将上述样本第二关键点集合、上述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧；

利用上述样本目标视频帧更新上述样本第一视频帧集合，得到更新后的样本第二视频帧集合；

将上述样本第二关键点集合、上述样本风格特征向量和更新后的样本第二视频帧集合输入至上述初始图像生成器，生成新的样本目标视频帧，以便利用上述新的样本目标视频帧更新上述样本第二视频帧集合，以及利用上述样本第二关键点集合、上述样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至上述样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列；以及

利用鉴别器处理上述样本目标视频帧序列，以便迭代地调整上述候选关键点转换器、上述特征嵌入器和上述初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，上述图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

本发明的第二方面提供了一种图像生成方法，包括：

将源视频信息和目标图像信息输入至图像生成模型，输出重建后的目标视频帧序列，其中，上述图像生成模型根据上述的图像生成模型的训练方法训练得到。

本发明的第三方面提供了一种图像生成模型的训练装置，包括：

第一训练模块，用于利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，上述初始关键点转换器输出样本第一关键点集合，上述候选关键点转换器输出样本第二关键点集合；

特征嵌入模块，用于利用特征嵌入器处理上述样本第一关键点集合与上述样本目标图像信息，得到样本风格特征向量；

第一生成模块，用于将上述样本第二关键点集合、上述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧；

更新模块，用于利用上述样本目标视频帧更新上述样本第一视频帧集合，得到更新后的样本第二视频帧集合；

第二生成模块，用于将上述样本第二关键点集合、上述样本风格特征向量和更新后的样本第二视频帧集合输入至上述初始图像生成器，生成新的样本目标视频帧，以便利用上述新的样本目标视频帧更新上述样本第二视频帧集合，以及利用上述样本第二关键点集合、上述样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至上述样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列；以及

第二训练模块，用于利用鉴别器处理上述样本目标视频帧序列，以便迭代地调整上述候选关键点转换器、上述特征嵌入器和上述初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，上述图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

本发明的第四方面还提供了一种图像生成装置，包括：

视频帧生成模块，用于将源视频信息和目标图像信息输入至图像生成模型，输出重建后的目标视频帧序列，其中，上述图像生成模型根据上述的图像生成模型的训练方法训练得到。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本发明实施例的图像生成模型的训练方法的流程图；

图2示意性示出了根据本发明实施例的用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器的流程图；

图3示意性示出了根据本发明实施例的利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量的应用场景图；

图4示意性示出了根据本发明实施例的将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧的流程图；

图5A示意性示出了根据本发明实施例的生成重建后的样本目标视频帧的应用场景图；

图5B示意性示出了根据本发明另一实施例的生成重建后的样本目标视频帧的应用场景图；

图6示意性示出了根据本发明实施例的图像生成方法的应用场景图；

图7A示意性示出了根据本发明另一实施例的图像生成方法得到的重建图像的效果对比示意图；

图7B示意性示出了根据本发明又一实施例的图像生成方法得到的重建图像的效果对比示意图；

图8示意性示出了根据本发明实施例的图像生成模型的训练装置的结构框图；

图9示意性示出了根据本发明实施例的图像生成装置的结构框图；以及

图10示意性示出了根据本发明实施例的适于实现图像生成模型的训练方法、图像生成方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

在本发明的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、发明和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本发明的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

在相关技术中，用于生成说话人脸视频的研究得了令人瞩目的成果，但仍然存在诸多技术问题，例如生成说话人脸视频的方法多基于计算机图形学，该方法需要占用大量计算资源，同时缺乏对不同的源人物身份信息（ID）的泛化能力，同时，相关生成人脸说话视频的方法中对于人物视频的数量要求较高，需要采集海量的人物视频才能完成风格特征的迁移。同时，相关技术中重建得到的跨人物身份信息的头部姿态迁移视频（即跨ID的人脸说话视频）中，通常带有明显的伪影或明显的抖动，使生成的视频成像效果较差，难以满足实际需求。

本发明的实施例提供了一种图像生成模型的训练方法，包括：利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，初始关键点转换器输出样本第一关键点集合，候选关键点转换器输出样本第二关键点集合；利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量；将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧；利用样本目标视频帧更新样本第一视频帧集合，得到更新后的样本第二视频帧集合；将样本第二关键点集合、样本风格特征向量和更新后的样本第二视频帧集合输入至初始图像生成器，生成新的样本目标视频帧，以便利用新的样本目标视频帧更新样本第二视频帧集合，以及利用样本第二关键点集合、样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列；以及利用鉴别器处理样本目标视频帧序列，以便迭代地调整候选关键点转换器、特征嵌入器和初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

根据本发明的实施例，首先训练初始关键点转换器，得到候选关键点转换器，将初始关键点转换器输出的样本第一关键点集合和样本目标图像输入至特征嵌入器，实现将样本源视频的风格特征嵌入至样本目标图像中，从而得到样本风格特征向量，样本风格特征向量可以保留目标图像中人物的面部纹理的真实感，利用第二关键点集合、样本风格特征向量和初始的样本第一视频帧集合，生成重建后的样本目标视频帧，进而利用已经生成的样本目标视频帧迭代地更新样本第一视频帧集合，从而可以迭代地生成具有时序连续性的样本目标视频帧序列，实现将样本目标图像的风格特征嵌入至样本源视频信息中，还增强了风格特征转换过程后，样本目标视频帧序列的时序一致性，再利用鉴别器迭代地训练候选关键点转换器、特征嵌入器和初始图像生成器，得到训练后的图像生成模型。基于该训练后的图像生成模型可以利用少量的目标图像信息来将目标图像信息中的目标人物的人脸迁移至源视频信息中，从而得到目标人物的人脸说话视频，减少了生成人脸说话视频所需的样本数量，同时提升针对不同源视频人物身份信息的泛化能力。

以下将通过图1~图5B对发明实施例的图像生成模型的训练方法进行详细描述。

图1示意性示出了根据本发明实施例的图像生成模型的训练方法的流程图。

如图1所示，该实施例的图像生成模型的训练方法包括操作S110~操作S160。

在操作S110，利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，初始关键点转换器输出样本第一关键点集合，候选关键点转换器输出样本第二关键点集合。

根据本发明的实施例，样本源视频信息可以包括源人物说话的视频，源人物说话的视频可以是由样本源视频帧序列按照时序展示生成的。样本目标图像信息可以包括含有目标人物头像的图片，样本目标图像信息的数量可以是多个。

根据本发明的实施例，初始关键点转换器可以包括相关技术中用于提取并转换图像中人脸的关键点的网络模型，例如可以包括3DMM网络模型。

需要说明的是，样本第一关键点集合与样本第二关键点集合，可以融合有样本目标图像中的目标人脸关键点、样本源视频信息中的源人物的源人物表情信息（即风格特征）和目标人物的身份信息。

在操作S120，利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量。

根据本发明的实施例，特征嵌入器可以是基于神经网络构建得到的，例如可以基于卷积神经网络、SFT神经网络等来构建特征嵌入器。通过特征嵌入器可以实现将少量的样本图像信息（例如二十张样本图片）中的面部纹理嵌入至生成的样本风格特征向量中，使后续生成的样本目标视频帧充分保留目标人脸的纹理风格信息。

需要说明的是，SFT神经网络可以是相关技术中的空间特征变换（SpatialFeature Transform，SFT）网络层，用于对空间特征进行调制，从而生成仿射参数。

在操作S130，将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧。

在操作S140，利用样本目标视频帧更新样本第一视频帧集合，得到更新后的样本第二视频帧集合。

在操作S150，将样本第二关键点集合、样本风格特征向量和更新后的样本第二视频帧集合输入至初始图像生成器，生成新的样本目标视频帧，以便利用新的样本目标视频帧更新样本第二视频帧集合，以及利用样本第二关键点集合、样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列。

根据本发明的实施例，初始图像生成器可以是基于神经网络构建得到的，例如可以基于卷积神经网络构建得到初始图像生成器，利用卷积神经网络来分别提取样本第二关键点集合与更新后的样本第二视频帧集合中的图像特征，并将提取后的图像特征与样本风格特征向量进行融合，从而使迭代生成的新的样本目标视频帧可以充分融合之前生成的样本目标视频帧的图像特征与风格特征，进而使生成的样本目标视频帧序列在保留目标人物的身份信息和关键点信息的同时，充分融合源人物表情，减少样本目标视频帧序列构建的样本目标视频信息中的跳帧、抖动等图像缺陷。

在操作S160，利用鉴别器处理样本目标视频帧序列，以便迭代地调整候选关键点转换器、特征嵌入器和初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

根据本发明的实施例，鉴别器可以包括相关技术中用于鉴别视频真伪的网络模型，例如帧鉴别器、视频鉴别器等。可以利用鉴别器理样本目标视频帧序列，以识别样本目标视频帧序列的真假，并基于对抗训练的方式，迭代地调整候选关键点转换器、特征嵌入器和初始图像生成器各自的权重参数，直至图像生成模型输出的样本目标视频帧序列被鉴别器识别为真，得到训练后的图像生成模型。

根据本发明的实施例，首先训练初始关键点转换器，得到候选关键点转换器，将初始关键点转换器输出的样本第一关键点集合和样本目标图像输入至特征嵌入器，实现将样本目标图像信息的风格特征信息嵌入至样本源视频信息的关键点中，从而得到样本风格特征向量，样本风格特征向量可以保留目标图像中人物的面部纹理的真实感，提升后续生成的样本目标视频帧的图像效果，利用第二关键点集合、样本风格特征向量和初始的样本第一视频帧集合，生成重建后的样本目标视频帧，进而利用已经生成的样本目标视频帧迭代地更新样本第一视频帧集合，从而可以迭代地生成具有时序连续性的样本目标视频帧序列，实现将样本目标图像的风格特征嵌入至样本源视频信息中，还增强了风格特征转换过程后，样本目标视频帧序列的时序一致性，再利用鉴别器迭代地训练候选关键点转换器、特征嵌入器和初始图像生成器，得到训练后的图像生成模型。基于该训练后的图像生成模型可以利用少量的目标图像信息来将目标图像信息中的目标人物的人脸迁移至源视频信息中，从而得到目标人物的人脸说话视频，减少了生成人脸说话视频所需的样本数量，同时提升针对不同源视频人物身份信息的泛化能力。

根据本发明的实施例，样本第一关键点集合中每一个样本视频帧对应的样本第一关键点通过样本平均关键点信息、样本目标图像身份信息和样本源视频信息中样本源视频帧的表情信息。

图2示意性示出了根据本发明实施例的用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器的流程图。

如图2所示，操作S110，利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器可以包括操作S210~操作S230。

在操作S210，将样本源视频信息与样本目标图像信息输入至初始关键点转换器，输出样本第一关键点集合。

在操作S220，利用欧几里得距离最小化函数处理样本第一关键点集合中，每一个样本源视频帧的表情信息，得到损失值。

在操作S230，基于损失值迭代地调整初始关键点转换器的权重参数，直至欧几里得距离最小化函数收敛，得到训练后的候选关键点转换器。

根据本发明的实施例，可以利用3DMM网络模型来构建初始关键点转换器，通过初始关键点转换器分别对样本源视频信息中的样本源视频帧和样本目标图像信息分别进行关键点解耦和身份信息提取，并提取样本源视频信息中源人物的表情信息。

根据本发明的实施例，初始关键点转换器可以根据公式（1）对样本源视频信息进行关键点分解。

公式（1）中，

表示在第

个样本源视频信息中的第

帧中的驱动关键点，

表示样本平均关键点信息，

表示第

个样本源视频信息中的源人物x的身份信息，

表示对应于第

个样本源视频信息第

帧的源人物的表情信息。

样本平均关键点信息可以通过如下方法得到：对包含有大量的样本人脸图像的图像库中的每张样本人脸图像进行关键点提取，得到每张样本人脸图像的样本人脸关键点，然后计算图像库中全部的样本人脸关键点的平均关键点信息，得到样本平均关键点信息

需要说明的是，本实施例中的第x个样本源视频信息，可以表征包含有源人物x的人脸的视频，相应地，样本源视频信息可以包括多个样本视频信息，其中每个样本视频信息各自可以包含有不同的源人物。

在得到驱动关键点

的情况下，可以通过公式（2）来将样本目标图像信息中的目标人物的身份信息迁移至驱动关键点中，从而生成样本第一关键点集合。

公式（2）中，

可以表示样本第一关键点集合，

表示样本目标图像信息中的目标人物y的身份信息。

需要说明的是，目标人物y的身份信息

可以通过3DMM网络模型对样本目标图像特征信息进行处理后得到，源人物的表情信息

可以通过公式（3）进行计算得到。

公式（3）中，

表示第x个视频的第t帧下的人脸表情系数；

表示由n个数组成的标准表情向量；

用于对标准表情向量进行调制；同时可以基于“ResNet-50 +MLP”的神经网络模型来估算

。

在本发明的一个实施例中，可以对样本源视频信息中的源人物的面部的不同部分，例如嘴巴、眼睛等部分，进行PCA分解提取表情信息

。

然后可以根据公式（4）来表示欧几里得距离最小化函数，实现处理样本第一关键点集合中，每一个样本源视频帧的表情信息。

公式（4）中，可以最小化计算第x样本源视频信息中的第1个样本源视频帧至第n个样本源视频帧中，每相邻的两个表情信息之间的欧几里得距离，并在每相邻的两个表情信息之间的欧几里得距离收敛的过程中迭代地调整初始关键点转换器的权重参数，得到训练后的候选关键点转换器，从而可以使训练后的候选关键点转换器可以减少源人物面部关键点和目标人物关键点之间的结构差异影响，强化样本第二关键点集合中，每个样本视频帧的关键点与相邻的其他样本视频帧的关键点之间的连续性，提升后续重建样本目标视频帧的质量。

需要说明的是，公式（2）中的样本第一关键点集合

可以进一步表示为

，其中，

表示第t个样本视频帧的样本第一关键点的坐标信息，N表示样本视频帧的数量，该样本视频帧的数量与样本源视频信息中的样本源视频帧的数量相同。同时，样本第二关键点集合可以表示为

。

根据本发明的实施例，样本目标图像信息包括多个，特征嵌入器包括L个顺序连接的第一卷积子层，L个顺序连接的特征调制模型块，以及连接在每个特征调制模型块输出端的风格特征生成模型块，特征调制模型块包括第二卷积子层和SFT子层。

操作S120，利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量包括如下操作：

将多个样本目标图像信息进行拼接，得到样本风格信息；将样本风格信息输入至L个顺序连接的特征调制模型块，以及将样本第一关键点集合输入至L个顺序连接的第一卷积子层，以便每个第一卷积子层各自输出的第一图像特征，和每个第二卷积子层各自输出的第二图像特征，输入至连接在第二卷积子层输出端的SFT子层，得到每个SFT子层各自输出的调制特征；按照特征调制模型块的排列顺序，将每个SFT子层各自输出的调制特征输入至与SFT子层对应的风格特征生成模型块，得到顺序排列的L个样本风格特征向量；其中，风格特征生成模型块包括顺序连接的平均池化子层和第三卷积子层。

需要说明的是，SFT子层可以是相关技术中的空间特征变换（Spatial FeatureTransform，SFT）网络层，用于对空间特征进行调制，从而生成仿射参数。

图3示意性示出了根据本发明实施例的利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量的应用场景图。

如图3所示，特征嵌入器可以包括三个顺序连接的第一卷积子层311a、311b、311c，三个顺序连接的特征调制模型块320a、320b、320c，以及连接在每个特征调制模型块输出端的风格特征生成模型块330a、330b、330c。风格特征生成模型块330a、330b、330c可以分别包含有平均池化子层331a、331b、331c和第三卷积子层332a、332b、332c。特征调制模型块320a、320b、320c可以分别包含有第二卷积子层322a、322b、322c和SFT子层323a、323b、323c。

样本第一关键点集合

在拼接后输入至顺序连接的第一卷积子层311a、311b、311c，每个第一卷积子层各自输出第一图像特征。

将多个样本目标图像信息进行拼接，可以得到样本风格信息D，将样本风格信息D输入至顺序连接的特征调制模型块320a、320b、320c，以便于每个SFT子层323a、323b、323c分别将第一图像特征所表征的空间域特征与样本目标图像信息中的目标人物的风格域特征进行融合，每个SFT子层323a、323b、323c生成的调制特征分别输入至风格特征生成模型块330a、330b、330c。

基于特征嵌入器的模块化级联结构，可以生成与每个第三卷积子层对应的样本风格特征向量e1、e2、e3，从而可以利用样本风格特征向量e1、e2、e3来指导后续样本目标视频帧中的目标人物面部图像的生成。

根据本发明的实施例，可以利用SFT子层对样本目标图像信息执行风格域特征方向和空间域特征方向的调制。

根据本发明的实施例，样本第一视频帧集合包括R个空视频帧，初始图像生成器包括第一编码层、第二编码层和风格特征融合层。

图4示意性示出了根据本发明实施例的将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧的流程图。

如图4所示，操作S130，将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧包括操作S410~操作S430。

在操作S410，将样本第二关键点集合输入至第一编码层，得到样本第一编码信息。

在操作S420，将R个空视频帧输入至第二编码层，得到样本第二编码信息。

在操作S430，将样本第一编码信息与样本第二编码信息的级联操作结果，以及样本风格特征向量输入至风格特征融合层，输出样本目标视频帧。

根据本发明的实施例，第一编码层与第二编码层可以是基于卷积神经网络和残差（Residual）神经网络构建得到的。例如可以是基于顺序连接的卷积下采样（Conv+Downsamp）网络层和残差网络层构建第一编码层与第二编码层。

根据本发明的实施例，风格特征融合层可以基于顺序连接的残差（Residual）神经网络和卷积神经网络构建得到。

根据本发明的实施例，根据R个空视频帧和样本第二关键点集合生成的样本目标视频帧，可以包括样本目标视频帧序列中时序排列首位的样本目标视频帧。

应该理解的是，样本第一编码信息与样本第二编码信息的级联操作结果，可以是对样本第一编码信息与样本第二编码信息进行级联操作后得到的结果。根据本发明的实施例，风格特征融合层包括顺序连接的第一残差子层、第一归一化子层和第一卷积采样子层。

操作S430，将样本第一编码信息与样本第二编码信息之和，以及样本风格特征向量输入至风格特征融合层，输出样本目标视频帧包括如下操作。

将样本第一编码信息与样本第二编码信息之和输入至第一残差子层，输出第一编码特征；将第一编码特征与样本风格特征向量输入至第一归一化子层，输出第一归一化编码特征；以及利用第一卷积采样子层处理第一归一化编码特征，得到样本目标视频帧。

根据本发明的实施例，在第一归一化子层（InstanceNorm子层）中，可以基于AdaIN操作实现第一归一化子层的归一化计算。

图5A示意性示出了根据本发明实施例的生成重建后的样本目标视频帧的应用场景图。

如图5A所示，该应用场景中，可以包括第一编码层510、第二编码层520和风格特征融合层530。第一编码层510可以包括顺序连接的第二卷积采样子层511和残差子层512、513、514。第二编码层520可以包括顺序连接的第三卷积采样子层521和残差子层522、523、524。风格特征融合层530可以包括顺序连接的第一残差子层531、第一归一化子层532和第一卷积采样子层533。

样本第一视频帧集合U510可以包含有R个空视频帧，例如可以包含有两个空视频帧。样本第二关键点集合

，以及样本风格特征向量e1可以分别输入至第二卷积采样子层511和第一归一化子层532，从而可以使风格特征融合层530输出样本目标视频帧U1，即可以得到样本目标视频帧序列排序首位的样本目标视频帧。

在本实施例中，第一归一化子层532可以是InstanceNorm子层，样本风格特征向量e1可以作为第一归一化子层532中AdaIN操作的参数，以便于在第一归一化子层中，基于AdaIN操作实现第一归一化子层532的归一化计算。

根据本发明的实施例，风格特征融合层包括顺序连接的L个风格融合模型块，以及与L个风格融合模型块中，排序末位的风格融合模型块连接的第一卷积采样子层，风格融合模型块包括第一残差子层和第一归一化子层，样本风格特征向量包括顺序排列的L个。

操作S430，将样本第一编码信息与样本第二编码信息的级联操作结果，以及样本风格特征向量输入至风格特征融合层，输出样本目标视频帧包括如下操作：

将样本第一编码信息与样本第二编码信息的级联操作结果输入至顺序连接的L个风格融合模型块中的第一个风格融合模型块的第一残差子层，输出第一编码特征；按照L个样本风格特征向量的排列顺序与风格模型融合模型连接顺序的对应关系，将每个风格融合模型块各自的第一残差子层输出的第一编码特征，以及与每个风格融合模型块对应的样本风格特征向量，输入至每个风格融合模型块各自的第一归一化子层，以便每个第一归一化子层各自输出第一归一化编码特征；其中，L个第一归一化子层中，除了排序末位的第L第一归一化子层之外，每个第一归一化子层各自输出第一归一化编码特征，输入至与每个第一归一化子层连接的下一个第一残差子层；以及将第L第一归一化子层输出的第一归一化编码特征输入至第一卷积采样子层，输出样本目标视频帧。

图5B示意性示出了根据本发明另一实施例的生成重建后的样本目标视频帧的应用场景图。

结合图3与图5B所示，该实施例的应用场景中，初始图像生成器可以包括第一编码层510、第二编码层520和风格特征融合层530。第一编码层510可以包括顺序连接的第二卷积采样子层511和残差子层512、513、514。第二编码层520可以包括顺序连接的第三卷积采样子层521和残差子层522、523、524。

风格特征融合层包括顺序连接的三个风格融合模型块530a、530b、530c，风格融合模型块可以包括第一残差子层531a、531b、531c和第一归一化子层532a、532b、532c。第一归一化子层532c与第一卷积采样子层533连接。

将样本第二关键点集合

和样本第一视频帧集合U510分别输入至第一编码层510和第二编码层520，然后对第一编码层510和第二编码层520各自输出的样本第一编码信息与样本第二编码信息进行级联操作，得到级联操作结果，并将级联操作结果输入至风格融合模型块530a的第一残差子层531a。样本风格特征向量e1、e2、e3，可以分别与第一残差子层531a、531b、531c各自输出的第一编码特征输入至第一归一化子层 532a、532b、532c。每个第一归一化子层各自输出第一归一化编码特征，且第一归一化子层 532c输出的第一归一化编码特征将输入至第一卷积采样子层533，经第一卷积采样子层533 进行特征提取以及下采样后输出重建后的样本目标视频帧U1。

在本实施例中，第一归化子层532a、532b、532c可以是InstanceNorm子层。

为了解决InstanceNorm子层输出的向量中存在的空间信息丢失问题，可以利用SFT-GAN网络模型中的 SFT 网络层，构建SFT子层，将特征嵌入器中风格域特征及其相应的空间域特征同时进行融合，以便于第一归化子层532a、532b、532c分别将不同维度的图像特征进行归一化。

如图3所示，可以利用SFT子层323a、323b、323c对样本目标图像信息执行风格域特征方向和空间域特征方向的调制。

例如，可以通过公式（5）来表示SFT子层的计算过程。

；（5）

公式（5）中

表示变换参数，

表示指逐元素相乘，F表示第二卷积子层输出的图像特征向量。

从而可以利用表征空间域信息的样本第一关键点集合

和表征风格域特征信息的样本风格信息D 来生成第i级仿射参数

和

。仿射参数可以根据公式（6）得到。

公式（6）中，

表示仿射参数，

表示特征嵌入器。仿射参数

可以表示样本风格特征向量。

进一步地，可以利用公式（7）表示每个第一归化子层各自的计算过程。

公式（7）中，

表示样本风格特征向量；

表示第一残差子层输出的第一编码特征；

表示均值函数；

表示方差函数；

表示第一归化子层输出的计算结果。

需要说明的是，样本风格特征向量

可以作为作为第一归一化子层中AdaIN操作的参数，以便基于AdaIN操作实现第一归一化子层532a、532b、532c各自的归一化计算。

可以在每个

向量的均值和方差是一致的条件下优化特征嵌入器。因而使用基于级联结构的特征嵌入器，可以使第一归一化子层各自输出的计算结果中充分保留样本图像信息中的纹理信息和语义信息（例如人物的头部信息、姿势信息等）。从而至少部分地解决了相关技术中在将目标人物的风格信息传递给驱动关键点，产生的目标人物的关键点信息丢失的技术问题。

应该理解的是样本风格特征向量e1、e2、e3可以是上述实施例中特征调制模型块320a、320b、320c各自输出的，以便利用每个特征调制模型块各自输出的样本风格特征向量作为相对应的每个风格融合模型块各自的解码条件。

需要说明的是，上述实施例中的第一卷积采样子层可以包括激活函数，例如可以是tanh函数、softmax函数等，本发明的实施例对激活函数的类型不做限定。

根据本发明的实施例，样本第一视频帧集合包括R个空视频帧，样本源视频帧的数量包括N个。

操作S140，利用样本目标视频帧更新样本第一视频帧集合，得到更新后的样本第二视频帧集合可以包括如下操作：利用重建后的样本目标视频帧替换样本第一视频帧集合中R个空视频帧中的一个，得到更新后的样本第二视频帧集合。

利用新的样本目标视频帧更新样本第二视频帧集合可以包括如下操作：按照样本第二视频帧集合中的视频帧的时间属性，利用初始图像生成器迭代输出的新的第二样本目标视频帧，迭代更新样本第二视频帧集合，得到更新后的新的样本第二视频帧集合，直至初始图像生成器迭代输出第N-1个新的第二样本目标视频帧。

其中，样本目标视频帧序列包括重建后的样本目标视频帧，以及初始图像生成器迭代输出的N-1个第二样本目标视频帧。

根据本发明的实施例，可以通过公式（8）来表示初始图像生成器迭代地样本目标视频帧序列中的样本目标视频帧。

公式（8）中，

表示样本目标视频帧序列中的第i个样本目标视频帧，

表示初始图像生成器，S表示样本第二关键点集合，

表示第i-1个样本目标视频帧和第i-2个样本目标视频帧，即利用与当前需要生成的第i个样本目标视频帧时序相邻的前两个样本目标视频帧（第i-1个样本目标视频帧和第i-2个样本目标视频帧）构建得到当前需要输入至第二编码层的样本第二视频帧集合，从而可以使新生成的第i个样本目标视频帧

（即新的第二样本目标视频帧）更新样本第二视频帧集合

, 得到更新后的新的样本第二视频帧集合

。

从而采用相同或相似的方法，可以实现利用初始图像生成器迭代输出的新的第二样本目标视频帧，迭代更新样本第二视频帧集合，得到更新后的新的样本第二视频帧集合，直至初始图像生成器迭代输出第N-1个新的第二样本目标视频帧。这样就可以得到时序上首个生成的样本目标视频帧，以及后续生成的时序上连续的N-1个第二样本目标视频帧，从而得到时序上连续的包含有N个样本目标视频帧的样本目标视频帧序列。

应该理解的是，生成的样本目标视频帧序列中的N个样本目标视频帧可以按照时序展示，从而可以将目标人物的人脸风格特征迁移至样本源视频信息中，得到目标人物说话的说话人脸视频。

根据本发明的实施例，可以利用帧鉴别器

和视频鉴别器

分别对重建得到的样本目标视频帧序列进行鉴别，从而实现以对抗的方式序列图像生成模型。例如可以利用真实的视频帧或真实的视频，与样本目标视频帧或样本目标视频帧序列组成视频帧对或视频对，从而利用帧鉴别器

或视频鉴别器

识别视频帧对或视频对的真假，从而实现训练得到图像生成模型。

需要说明的是，可以利用相关技术中的训练方法来训练得到图像生成模型，本发明的实施例对此不做限定，本领域技术人员可以根据实际需求进行设计。

在上述图像生成模型的训练方法的基础上，本发明的实施例还提供了一种图像生成方法。

根据本发明的实施例，图像生成方法可以包括如下步骤。

将源视频信息和目标图像信息输入至图像生成模型，输出重建后的目标视频帧序列，其中，图像生成模型根据上述实施例中提供的图像生成模型的训练方法训练得到的。

图6示意性示出了根据本发明实施例的图像生成方法的应用场景图。

如图6所示，该应用场景中图像生成模型可以包括初始关键点转换器611、目标关键点转换器612、目标特征嵌入器620和目标图像生成器630。

目标特征嵌入器620可以包括第一卷积子层621a、621b、621c、特征调制模型块622a、622b、622c和特征生成模型块623a、623b、623c。目标图像生成器630可以包括第一编码层631、第二编码层632和风格特征融合层633。风格特征融合层633可以包括顺序连接的三个风格融合模型块和第一卷积采样子层。

目标图像信息和源视频信息可以输入至初始关键点转换器611，输出第一关键点集合S621，第一关键点集合S621输入至训练后得到的目标关键点转换器612，可以输出第二关键点集合S622。

目标图像信息拼接后得到的风格信息D613可以输入至目标特征嵌入器620的特征调制模型块622a，第一关键点集合S621输入至目标特征嵌入器620的第一卷积子层621a。然后目标特征嵌入器620的特征生成模型块623a、623b、623c可以分别生成风格特征向量e621、e622、e623。

第一视频帧集合U630可以包含有2个空视频帧，第二关键点集合S622和第一视频帧集合U630可以分别输入至目标图像生成器630的第一编码层631和第二编码层632，分别得到第一编码信息和第二编码信息，第一编码信息和第二编码信息相加后可以输入至风格特征融合层633的风格融合模型块，且风格特征向量e621、e622、e623分别输入至风格特征融合层633中不同的风格融合模型块，然后由第一卷积采样子层输出第一个目标视频帧U641。

第一个目标视频帧U641将更新第一视频帧集合U630，得到的第二视频帧集合可以包含有一个空视频帧和目标视频帧U641，然后将第二视频帧集合输入至目标图像生成器630，使目标图像生成器630输出的第二个目标视频帧，再利用第二个目标视频帧更新第二视频帧集合中的空视频帧，得到新的第二视频帧集合。

将每一次目标图像生成器630生成的新的目标视频帧，替换第二视频帧集合中生成时间最早的目标视频帧，从而可以使更新后的第二视频帧集合可以输入至目标图像生成器630，使目标图像生成器630可以迭代地生成新的目标视频帧，直至生成的目标视频帧的数量与源视频信息包含的源视频帧的数量相同。

在本实施例中，源视频信息包含有九个源视频帧，因此可以使目标图像生成器630生成第九个目标视频帧U649后，得到目标视频帧序列，进而可以得到目标视频帧序列所构成的重建后的目标视频。

根据本发明的实施例，通过在某视频网站采集目标人物的目标图像，并采集源人物的源视频信息，通过进行图像重建实验，即利用上述实施例中提供的图像生成模型将目标人物的人脸迁移至源视频中，使生成的目标视频可以展示利用目标人物的人脸在目标视频中说话，目标视频中的目标人物说话的内容与姿态与源视频中源人物的说话内容与姿态相同。

在本实施例中，采用以下指标来评价目标视频的图像质量，并评估图像生成模型的泛化能力。

帧级指标包括：峰值信噪比（Peak Signal-to-Noise Ratio, PSNR）、结构相似性（Structural SIMilarity, SSIM）、FID（Fréchet Inception Distance）。其中，峰值信噪比和结构相似性的数值越高越好，FID的数值越多越好。

语义级指标包括：平均关键点距离（Average Keypoints Distance , AKD），该平均关键点距离数值越低越好。

视频级指标包括：视频多方法评估融合（Video Multi-Method AssessmentFusion , VMAF），视频多方法评估融合的数值越高越好。

图像生成实验细节包括如下所述内容。

在图像生成实验中，图像生成模型所提供的初始关键点转换器、目标关键点转换器、目标特征嵌入器和目标图像生成器是经过独立优化的。

在VoxCeleb上训练初始关键点转换器150次，得到候选关键点转换器。然后使用候选关键点转换器提取转换后的关键点并在每个与样本视频上进行微调，以训练特征嵌入器和初始图像生成器。同时可以更新特征嵌入器、初始图像生成器和鉴别器各自的权重参数。特征嵌入器和初始图像生成器的权重参数是随机初始化的，在训练期间（约70次）采用基础学习率为0.0001的ADAM方法作为优化方法。然后可以得到训练后的图像生成模型。

图7A示意性示出了根据本发明另一实施例的图像生成方法生成的图像的效果对比示意图。

图7B示意性示出了根据本发明又一实施例的图像生成方法生成的图像的效果对比示意图。

结合图7A与图7B所示，利用上述实施例中得到的训练后的图像生成模型，可以与其他的用于少样本人脸说话视频重建的方法进行比较。其他的用于少样本人脸说话视频生成的方法可以包括如下方法。

X2Face方法：该方法应用直接图像扭曲。FS-NeuralHead方法：该方法采用单一的AdaIN嵌入器，并使用关键点生成重建后的人脸图像。FOMM方法，该方法学习使用无模型网络将运动从目标视频迁移到参考图像。FS-Vid2Vid方法：该方法是一种基于视频的方法，以面部关键点为条件。

需要说明的是，图7A与图7B中，711列表示不同的目标图像信息，712列表示不同的源视频信息，720列表示利用本发明的实施例提供的图像生成模型，或者是利用本发明的实施例提供的图像生成方法生成的目标视频帧，730列表示利用FS-Vid2Vid方法生成的目标视频帧，740列表示利用FOMM方法生成的目标视频帧，750列表示利用FS-NeuralHead方法生成的目标视频帧，760列表示利用X2Face方法生成的目标视频帧。

如图7A和表1所示，比较目标图像和驱动视频来自同一ID（身份信息）时的结果。利用上述实施例中的图像生成模型的图像生成方法在VMAF指标上取得了很大进展。但是，在AKD指标上与FS-Vid2Vid方法相比略有下降，这是因为FS-Vid2Vid方法是由来自同一身份信息下的源关键点直接驱动的。

表1

如图7B和表1所示，还可以比较目标图像信息和驱动视频分别为跨身份信息的图像重建的结果。相较于其他的图像生成方法，基于上述实施例构建的图像生成模型的图像生成方法实现了显着的改进，尤其在与VMAF指标和FID指标的比较结果中取得了显着改进，而FS-NeuralHead方法、FOMM方法在PSNR指标方面表现出稍好的性能，FS-NeuralHead方法和FOMM方法在FID指标和VMAF指标上的较低性能说明了这两种方法（FS-NeuralHead方法和FOMM方法）无法确保视频的时序质量。

进一步地，针对上述实施例中的图像生成方法进行消融实验，从而实现评估目标特征嵌入器

在风格迁移中的重要性，以及目标关键点转换器VLT和目标图像生成器

在视频合成中的贡献。结果如表2所示。

表2中，组件是w/o-LT（没有关键点转换器）、w/o-VLT(w-LT)（有关键点转换器，但没有视频关键点转换器）、一层风格迁移算法嵌入器和基于图像的生成器。我们发现目标关键点转换器VLT和目标图像生成器

有利于提高重建后的视频质量（Idx.4和Idx.5），（Idx表示人物的索引，Idx用于区分不同的人物身份）目标特征嵌入器

有助于提高重建后的图像质量（Idx.3和Idx.4）。从Idx.4和Idx.5来看，引入目标关键点转换器VLT得到的视频质量相比LT(VMAF: 39.94 v.s. 31.00) 有一定程度的提升。

表2

根据本发明的实施例，图像生成方法中利用深度卷积网络，通过一系列卷积操作而不是扭曲以直接合成视频。通过目标关键点转换器对视频中的面部关键点进行解耦，将包含身份信息的关键点转换为与身份信息无关的关键点。此外，我们在目标图像生成器中增强了视频转换过程的时序一致性，并使用基于级联的目标特征嵌入器来确保目标人物的面部纹理在生成过程中具有真实感。

基于上述图像生成模型的训练方法、图像生成方法，本发明还提供了一种图像生成模型的训练装置和图像生成装置。以下将结合图8和图9对该装置进行详细描述。

图8示意性示出了根据本发明实施例的图像生成模型的训练装置的结构框图。

如图8所示，该实施例的图像生成模型的训练装置800包括第一训练模块810、特征嵌入模块820、第一生成模块830、更新模块840、第二生成模块850和第二训练模块860。

第一训练模块810用于利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，初始关键点转换器输出样本第一关键点集合，候选关键点转换器输出样本第二关键点集合。

特征嵌入模块820用于利用特征嵌入器处理样本第一关键点集合与样本目标图像信息，得到样本风格特征向量。

第一生成模块830用于将样本第二关键点集合、样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧。

更新模块840用于利用样本目标视频帧更新样本第一视频帧集合，得到更新后的样本第二视频帧集合。

第二生成模块850用于将样本第二关键点集合、样本风格特征向量和更新后的样本第二视频帧集合输入至初始图像生成器，生成新的样本目标视频帧，以便利用新的样本目标视频帧更新样本第二视频帧集合，以及利用样本第二关键点集合、样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列。

第二训练模块860用于利用鉴别器处理样本目标视频帧序列，以便迭代地调整候选关键点转换器、特征嵌入器和初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

第一生成模块包括第一编码子模块、第二编码子模块和第一风格特征融合子模块。

第一编码子模块用于将样本第二关键点集合输入至第一编码层，得到样本第一编码信息。

第二编码子模块用于将R个空视频帧输入至第二编码层，得到样本第二编码信息。

第一风格特征融合子模块用于将样本第一编码信息与样本第二编码信息的级联操作结果，以及样本风格特征向量输入至风格特征融合层，输出样本目标视频帧。

根据本发明的实施例，风格特征融合层包括顺序连接的第一残差子层、第一归一化子层和第一卷积采样子层。

第一风格特征融合子模块包括：第一编码单元、第一融合单元和第一卷积采样单元。

第一编码单元用于将样本第一编码信息与样本第二编码信息的级联操作结果输入至第一残差子层，输出第一编码特征。

第一融合单元用于将第一编码特征与样本风格特征向量输入至第一归一化子层，输出第一归一化编码特征。

第一卷积采样单元利用第一卷积采样子层处理第一归一化编码特征，得到样本目标视频帧。

第一风格特征融合子模块包括第二编码单元、第二融合单元和第二卷积采样单元。

第二编码单元用于将样本第一编码信息与样本第二编码信息的级联操作结果输入至顺序连接的L个风格融合模型块中的第一个风格融合模型块的第一残差子层，输出第一编码特征。

第二融合单元用于按照L个样本风格特征向量的排列顺序与风格模型融合模型连接顺序的对应关系，将每个风格融合模型块各自的第一残差子层输出的第一编码特征，以及与每个风格融合模型块对应的样本风格特征向量，输入至每个风格融合模型块各自的第一归一化子层，以便每个第一归一化子层各自输出归一化第一编码特征。

其中，L个第一归一化子层中，除了排序末位的第L第一归一化子层之外，每个第一归一化子层各自输出第一归一化编码特征，输入至与每个第一归一化子层连接的下一个第一残差子层。

第二卷积采样单元用于将第L第一归一化子层输出的第一归一化编码特征输入至第一卷积采样子层，输出样本目标视频帧。

更新模块包括：利用重建后的样本目标视频帧替换样本第一视频帧集合中R个空视频帧中的一个，得到更新后的样本第二视频帧集合。

第二生成模块包括：按照样本第二视频帧集合中的视频帧的时间属性，利用初始图像生成器迭代输出的新的第二样本目标视频帧，迭代更新样本第二视频帧集合，得到更新后的新的样本第二视频帧集合，直至初始图像生成器迭代输出第N-1个新的第二样本目标视频帧。

特征嵌入模块包括：拼接子模块、特征调制子模块和特征生成子模块。

拼接子模块用于将多个样本目标图像信息进行拼接，得到样本风格信息。

特征调制子模块用于将样本风格信息输入至L个顺序连接的特征调制模型块，以及将样本第一关键点集合输入至L个顺序连接的第一卷积子层，以便每个第一卷积子层各自输出的第一图像特征，和每个第二卷积子层各自输出的第二图像特征，输入至连接在第二卷积子层输出端的SFT子层，得到每个SFT子层各自输出的调制特征。

特征生成子模块用于按照特征调制模型块的排列顺序，将每个SFT子层各自输出的调制特征输入至与SFT子层对应的风格特征生成模型块，得到顺序排列的L个样本风格特征向量。

其中，风格特征生成模型块包括顺序连接的平均池化子层和第三卷积子层。

第一训练模块包括：第一转换子模块、第二处理子模块和第一训练子模块。

第一转换子模块用于将样本源视频信息与样本目标图像信息输入至初始关键点转换器，输出样本第一关键点集合。

第二处理子模块用于利用欧几里得距离最小化函数处理样本第一关键点集合中，每一个样本源视频帧的表情信息，得到损失值。

第一训练子模块用于基于损失值迭代地调整初始关键点转换器的权重参数，直至欧几里得距离最小化函数收敛，得到训练后的候选关键点转换器。

图9示意性示出了根据本发明实施例的图像生成装置的结构框图。

如图9所示，图像生成装置900包括：视频帧生成模块910。

视频帧生成模块910用于将源视频信息和目标图像信息输入至图像生成模型，输出重建后的目标视频帧序列，其中，图像生成模型根据上述的图像生成模型的训练方法训练得到。

根据本发明的实施例，第一训练模块810、特征嵌入模块820、第一生成模块830、更新模块840、第二生成模块850和第二训练模块860。中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第一训练模块810、特征嵌入模块820、第一生成模块830、更新模块840、第二生成模块850和第二训练模块860中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一训练模块810、特征嵌入模块820、第一生成模块830、更新模块840、第二生成模块850和第二训练模块860中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图10所示，根据本发明实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器（ROM）1002中的程序或者从存储部分1008加载到随机访问存储器（RAM）1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备1000还可以包括输入/输出（I/O）接口1005，输入/输出（I/O）接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本发明实施例所提供的方法。

在该计算机程序被处理器1001执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本发明实施例的系统中限定的上述功能。根据本发明的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本发明的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种图像生成模型的训练方法，其特征在于，包括：

利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，所述初始关键点转换器输出样本第一关键点集合，所述候选关键点转换器输出样本第二关键点集合；

利用特征嵌入器处理所述样本第一关键点集合与所述样本目标图像信息，得到样本风格特征向量；

将所述样本第二关键点集合、所述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧；

利用所述样本目标视频帧更新所述样本第一视频帧集合，得到更新后的样本第二视频帧集合；

将所述样本第二关键点集合、所述样本风格特征向量和更新后的样本第二视频帧集合输入至所述初始图像生成器，生成新的样本目标视频帧，以便利用所述新的样本目标视频帧更新所述样本第二视频帧集合，以及利用所述样本第二关键点集合、所述样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至所述样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列；以及

利用鉴别器处理所述样本目标视频帧序列，以便迭代地调整所述候选关键点转换器、所述特征嵌入器和所述初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，所述图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

2.根据权利要求1所述的训练方法，其特征在于，所述样本第一视频帧集合包括R个空视频帧，所述初始图像生成器包括第一编码层、第二编码层和风格特征融合层；

将所述样本第二关键点集合、所述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧包括：

将所述样本第二关键点集合输入至所述第一编码层，得到样本第一编码信息；

将R个所述空视频帧输入至所述第二编码层，得到样本第二编码信息；以及

将所述样本第一编码信息与所述样本第二编码信息的级联操作结果，以及所述样本风格特征向量输入至所述风格特征融合层，输出所述样本目标视频帧。

3.根据权利要求2所述的训练方法，其特征在于，所述风格特征融合层包括顺序连接的第一残差子层、第一归一化子层和第一卷积采样子层；

将所述样本第一编码信息与所述样本第二编码信息的级联操作结果，以及所述样本风格特征向量输入至所述风格特征融合层，输出所述样本目标视频帧包括：

将所述样本第一编码信息与所述样本第二编码信息的级联操作结果输入至所述第一残差子层，输出第一编码特征；

将所述第一编码特征与所述样本风格特征向量输入至所述第一归一化子层，输出第一归一化编码特征；以及

利用所述第一卷积采样子层处理所述第一归一化编码特征，得到所述样本目标视频帧。

4.根据权利要求2所述的训练方法，其特征在于，所述风格特征融合层包括顺序连接的L个风格融合模型块，以及与所述L个风格融合模型块中，排序末位的风格融合模型块连接的第一卷积采样子层，所述风格融合模型块包括第一残差子层和第一归一化子层，所述样本风格特征向量包括顺序排列的L个；

将所述样本第一编码信息与所述样本第二编码信息的级联操作结果输入至所述顺序连接的L个风格融合模型块中的第一个风格融合模型块的第一残差子层，输出第一编码特征；

按照L个所述样本风格特征向量的排列顺序与所述风格模型融合模型连接顺序的对应关系，将每个所述风格融合模型块各自的第一残差子层输出的第一编码特征，以及与每个所述风格融合模型块对应的样本风格特征向量，输入至每个所述风格融合模型块各自的第一归一化子层，以便每个所述第一归一化子层各自输出归一化第一编码特征；

其中，L个所述第一归一化子层中，除了排序末位的第L第一归一化子层之外，每个所述第一归一化子层各自输出第一归一化编码特征，输入至与每个所述第一归一化子层连接的下一个第一残差子层；以及

将第L第一归一化子层输出的第一归一化编码特征输入至所述第一卷积采样子层，输出所述样本目标视频帧。

5.根据权利要求1所述的训练方法，其特征在于，所述样本第一视频帧集合包括R个空视频帧，所述样本源视频帧的数量包括N个；

利用所述样本目标视频帧更新所述样本第一视频帧集合，得到更新后的样本第二视频帧集合包括：利用重建后的样本目标视频帧替换所述样本第一视频帧集合中R个空视频帧中的一个，得到更新后的样本第二视频帧集合；

利用所述新的样本目标视频帧更新所述样本第二视频帧集合包括：按照所述样本第二视频帧集合中的视频帧的时间属性，利用所述初始图像生成器迭代输出的新的第二样本目标视频帧，迭代更新所述样本第二视频帧集合，得到更新后的新的样本第二视频帧集合，直至所述初始图像生成器迭代输出第N-1个新的第二样本目标视频帧；

其中，所述样本目标视频帧序列包括所述重建后的样本目标视频帧，以及所述初始图像生成器迭代输出的N-1个第二样本目标视频帧。

6.根据权利要求1所述的训练方法，其特征在于，所述样本目标图像信息包括多个，所述特征嵌入器包括L个顺序连接的第一卷积子层，L个顺序连接的特征调制模型块，以及连接在每个特征调制模型块输出端的风格特征生成模型块，所述特征调制模型块包括第二卷积子层和SFT子层；

利用特征嵌入器处理所述样本第一关键点集合与所述样本目标图像信息，得到样本风格特征向量包括：

将多个所述样本目标图像信息进行拼接，得到样本风格信息；

将所述样本风格信息输入至L个顺序连接的所述特征调制模型块，以及将所述样本第一关键点集合输入至L个顺序连接的所述第一卷积子层，以便每个所述第一卷积子层各自输出的第一图像特征，和每个所述第二卷积子层各自输出的第二图像特征，输入至连接在所述第二卷积子层输出端的SFT子层，得到每个所述SFT子层各自输出的调制特征；

按照所述特征调制模型块的排列顺序，将每个所述SFT子层各自输出的调制特征输入至与所述SFT子层对应的风格特征生成模型块，得到顺序排列的L个所述样本风格特征向量；

其中，所述风格特征生成模型块包括顺序连接的平均池化子层和第三卷积子层。

7.根据权利要求1所述的训练方法，其特征在于，所述样本第一关键点集合中每一个样本视频帧对应的样本第一关键点通过样本平均关键点信息、样本目标图像身份信息和样本源视频信息中样本源视频帧的表情信息；

利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器包括：

将所述样本源视频信息与所述样本目标图像信息输入至所述初始关键点转换器，输出所述样本第一关键点集合；

利用欧几里得距离最小化函数处理所述样本第一关键点集合中，每一个样本源视频帧的表情信息，得到损失值；

基于所述损失值迭代地调整所述初始关键点转换器的权重参数，直至所述欧几里得距离最小化函数收敛，得到训练后的候选关键点转换器。

8.一种图像生成方法，其特征在于，包括：

将源视频信息和目标图像信息输入至图像生成模型，输出重建后的目标视频帧序列，其中，所述图像生成模型根据权利要求1至7中任一项所述的图像生成模型的训练方法训练得到。

9.一种图像生成模型的训练装置，其特征在于，包括：

第一训练模块，用于利用样本源视频信息与样本目标图像信息训练初始关键点转换器，得到训练后的候选关键点转换器，其中，所述初始关键点转换器输出样本第一关键点集合，所述候选关键点转换器输出样本第二关键点集合；

特征嵌入模块，用于利用特征嵌入器处理所述样本第一关键点集合与所述样本目标图像信息，得到样本风格特征向量；

第一生成模块，用于将所述样本第二关键点集合、所述样本风格特征向量和样本第一视频帧集合输入至初始图像生成器，生成重建后的样本目标视频帧；

更新模块，用于利用所述样本目标视频帧更新所述样本第一视频帧集合，得到更新后的样本第二视频帧集合；

第二生成模块，用于将所述样本第二关键点集合、所述样本风格特征向量和更新后的样本第二视频帧集合输入至所述初始图像生成器，生成新的样本目标视频帧，以便利用所述新的样本目标视频帧更新所述样本第二视频帧集合，以及利用所述样本第二关键点集合、所述样本风格特征向量和更新后的样本第二视频帧集合，迭代地生成其他的样本目标视频帧，直至所述样本目标视频帧的数量与样本第二视频帧的数量相同，得到样本目标视频帧序列；以及

第二训练模块，用于利用鉴别器处理所述样本目标视频帧序列，以便迭代地调整所述候选关键点转换器、所述特征嵌入器和所述初始图像生成器各自的权重参数，得到训练后的图像生成模型，其中，所述图像生成模型包括训练后的目标关键点转换器、目标特征嵌入器和目标图像生成器。

10.一种图像生成装置，其特征在于，包括：

视频帧生成模块，用于将源视频信息和目标图像信息输入至图像生成模型，输出重建后的目标视频帧序列，其中，所述图像生成模型根据权利要求1至7中任一项所述的图像生成模型的训练方法训练得到。