CN111797753B

CN111797753B - 图像驱动模型的训练、图像生成方法、装置、设备及介质

Info

Publication number: CN111797753B
Application number: CN202010610862.1A
Authority: CN
Inventors: 高岱恒
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-02-27
Anticipated expiration: 2040-06-29
Also published as: WO2022002032A1; CN111797753A

Abstract

本发明实施例公开了一种图像驱动模型的训练、图像生成方法、装置、设备及介质。所述方法包括：获取驱动视频；获取所述驱动视频的第一视频帧以及第二视频帧；从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵；根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据；根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。本发明实施例可以提高生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性。

Description

图像驱动模型的训练、图像生成方法、装置、设备及介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种图像驱动模型的训练、图像生成方法、装置、设备及介质。

背景技术

近年来，人们对于合成图像的真实度要求越来越高，这要求图像处理算法可以实现生成更为真实和自然的图像。

例如，可以采用单张目标人脸和一个驱动视频(Drving Video)，就可以让目标人脸模拟与驱动视频的人相应的表情和动作。目前，可以采用换脸算法(Talking Head)算法实现，具体的，采用姿态估计的算法提取驱动视频的关键点信息，并通过生成对抗网络模型(Generative Adversarial Network，GAN)，实现模型训练。

通常目标人脸不存在遮挡问题，相应的，Talking Head中，没有考虑到遮挡情况。在采用人物模拟Drving Video中的肢体动作时，如果存在人物侧身的情况，例如，左手遮挡右手，导致图像显示全部左手和部分右手，则Talking Head方法无法对肢体遮挡进行估计，导致最终生成的图像中人物的左手和右手的显示错误，例如，最终生成的图像显示全部右手和部分左手。

发明内容

本发明实施例提供一种图像驱动模型的训练、图像生成方法、装置、设备及介质，可以提高生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性。

第一方面，本发明实施例提供了一种图像驱动模型的训练方法，包括：

获取驱动视频；

获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像；

从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵；

根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据；

根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。

第二方面，本发明实施例提供了一种图像生成方法，包括：

获取人物图像；

获取指定视频中的目标视频帧；

将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如本发明实施例中任一项所述的图像驱动模型的训练方法训练生成。

第三方面，本发明实施例还提供了一种图像驱动模型的训练装置，包括：

驱动视频获取模块，用于获取驱动视频；

视频帧获取模块，用于获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像；

姿态特征提取模块，用于从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵；

像素数据获取模块，用于根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据；

图像驱动模型生成模块，用于根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。

第四方面，本发明实施例还提供了一种图像生成装置，包括：

人物图像获取模块，用于获取人物图像；

目标视频帧获取模块，用于获取指定视频中的目标视频帧；

人物驱动图像生成模块，用于将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如本发明实施例中任一项所述的图像驱动模型的训练方法训练生成。

第五方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的图像驱动模型的训练或图像生成方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的图像驱动模型的训练或图像生成方法。

本发明实施例通过采用第一视频帧和驱动信息关联的人物像素运动数据和人物像素遮挡数据作为训练样本，对模型进行训练，生成图像驱动模型，可以使图像驱动模型学习遮挡特征，提高该图像驱动模型输出的人物驱动图像中的遮挡关系正确率，解决了现有技术中换脸算法生成的图像中没有考虑遮挡情况导致生成图像遮挡关系错误的问题，可以提高生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性，实现生成正确的人物图像。

附图说明

图1是本发明实施例一中的一种图像驱动模型的训练方法的流程图；

图2a是本发明实施例二中的一种图像驱动模型的训练方法的流程图；

图2b是本发明实施例二中的一种图像驱动模型的训练方法的流程图；

图2c是本发明实施例所适用的一种局部仿射变换矩阵的示意图；

图3a是本发明实施例三中的一种图像驱动模型的训练方法的流程图；

图3b是本发明实施例所适用的第一视频帧的示意图；

图3c是本发明实施例所适用的第二视频帧的示意图；

图3d是本发明实施例所适用的光流信息图的示意图；

图3e是本发明实施例所适用的阴影图的示意图；

图3f是本发明实施例三中的一种训练图像驱动模型的应用场景的示意图；

图4a是本发明实施例一中的一种图像生成方法的流程图；

图4b是本发明实施例一中的一种人物驱动图像的示意图；

图5是本发明实施例五中的一种图像驱动模型的训练装置的结构示意图；

图6是本发明实施例六中的一种图像生成装置的结构示意图；

图7是本发明实施例七中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种图像驱动模型的训练方法的流程图，本实施例可适用于训练生成图像驱动模型，该图像驱动模型用于使人物图像中的人物模拟指定视频包括的面部表情和/或身体动作，生成驱动人物执行指定视频匹配的动作和/或做出指定视频匹配的表情的情况，该方法可以由本发明实施例提供的图像驱动模型的训练装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中。如图1所示，本实施例的方法具体包括：

S110，获取驱动视频。

驱动视频包括时序连续的多个视频帧。驱动视频中包括连续多个人物运动的图像。

S120，获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像。

第一视频帧包括人物的真实图像，可以将第一视频帧作为初始人物图像。第二视频帧包括人物的真实图像，可以将第二视频帧作为初始人物图像图像模拟的目标人物图像，第二视频帧可以是驱动视频中的任意一个视频帧。

通常，为了让图像驱动模型可以学习到从人物图像生成模拟驱动视频的人体姿态的人物驱动图像，需要使人物图像和生成的人物驱动图像不同。第一视频帧和第二视频帧不同，具体可以为：例如，第一视频帧与第二视频帧至少相隔设定时长，例如1min。或者，第一视频帧与第二视频帧的相似度值大于设定阈值。

S130，从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵。

人物姿态特征用于表征第一视频帧中一个人物的特征，人物姿态特征可以包括面部特征数据和/或身体特征数据。驱动姿态特征用于表征第二视频帧中一个人物的特征，驱动姿态特征可以包括面部特征数据和/或身体特征数据。

仿射变换矩阵用于将一个像素矩阵进行空间变换，形成另一个像素矩阵。在本发明实施例中，仿射变换矩阵用于将人物像素矩阵进行空间变换，形成另外一个人物像素矩阵。其中，空间变换包括下述至少一项：线性变化、旋转变换和平移变换等。局部仿射变换矩阵可以针对人物局部区域进行仿射变换，例如左臂区域、右腿区域或头部区域等，甚至还可以是多个区域的组合。

从人物姿态特征指向驱动姿态特征的局部仿射变换矩阵，可以是用于将第一视频帧中的人物像素仿射变换形成第二视频帧匹配的目标人物像素，其中，目标人物像素为人物像素期待仿射变换。具体的，仿射变换矩阵可以通过根据人物像素矩阵和匹配的目标人物像素矩阵确定，其中，人物像素可以是人体关键点。

S140，根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据。

人物像素运动数据可以是人物关联的像素移动到指定人体姿态关联的像素位置的运动数据，人物像素遮挡数据可以是在人物关联的像素移动到指定人体姿态关联的像素位置的过程中，移动到同一像素位置的多个像素的遮挡关系数据。

根据局部仿射变换矩阵和第一视频帧，可以确定第一视频帧中人物像素的运动方向(变换矢量)，作为驱动信息关联的人物像素运动数据；以及确定运动到同一像素位置的像素的前后遮挡顺序，作为驱动信息关联的像素遮挡数据。

S150，根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。

在本发明实施例中，图像驱动模型用于驱动人物做出指定的人体姿态，可以理解为将人物关联的像素移动到指定像素位置处，形成指定人体姿态的人物。在将人物像素移动到指定人体姿态中匹配的像素位置过程中，需要确定移动方向和移动距离，相应的，像素运动数据可以包括移动方向和/或移动距离等。而且，指定的人体姿态中存在肢体相互遮挡的情况，此时，存在多个人物像素移动到同一像素位置，从而针对同一像素位置，需要获取每个人物像素的遮挡关系，其中，未被遮挡的人物像素在最终形成的图像中进行展示。相应的，像素遮挡数据可以包括关键点的遮挡关系。

图像驱动模型通过学习第一视频帧、像素运动数据和像素遮挡数据，可以按照第二视频帧中驱动姿态特征将人物图像中的人物准确调整成指定人体姿态，生成人物驱动图像。

将生成的像素运动数据、像素遮挡数据和第一视频帧作为训练样本，训练深度学习模型，生成图像驱动模型，以使图像驱动模型从驱动姿态特征中学习到像素运动数据和像素遮挡数据，以及从根据像素运动数据、像素遮挡数据和第一视频生成第二视频帧的过程中，学习从人物图像生成模拟驱动视频的人体姿态的人物驱动图像。从而生成的图像驱动模型为端到端模型，可以避免对图像预处理的操作，大大减少模型训练的步骤，简化模型训练过程，提高生成人物驱动图像的效率，同时降低多环节的图像处理，增加误差引入，从而提高生成人物驱动图像的准确率。

本发明实施例通过采用第一视频帧和驱动信息关联的人物像素运动数据和人物像素遮挡数据作为训练样本，对模型进行训练，生成图像驱动模型，可以使图像驱动模型学习遮挡特征，保证该图像驱动模型输出的人物驱动图像中的遮挡关系正确，解决了现有技术中换脸算法生成的图像中没有考虑遮挡情况导致生成图像遮挡关系错误的问题，可以提高生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性，实现生成正确的人物图像。

实施例二

图2a-图2b为本发明实施例二中的一种图像驱动模型的训练方法的流程图，本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括：

S201，获取驱动视频。

本发明实施例中未详尽的描述可以参考前述实施例。

S202，获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像。

S203，将所述第一视频帧输入到关键点检测模型中，获取所述关键点检测模型输出的多个初始人物关键点和各所述初始人物关键点对应的热力图。

关键点检测模型用于在人物图像中检测人体关键点，以及生成热力图(Heatmap)。Heat map可以用颜色变化来反映二维矩阵或表格中的数据信息，它可以直观地将数据值的某个属性(例如大小或密度等)以定义的颜色深浅表示出来。初始人物关键点可以是初始人物的人体关键点。对应的热力图用于描述初始人物关键点位于第一视频帧中各位置的概率。

可选的，所述关键点检测模型包括U型网络(U-Net)。其中，U-Net可以包括：编码器和解码器。编码器可以包括四个子模块，每个子模块包括两个卷积层。每个子模块分别与一个下采样层相连，下采样层通过最大池化网络实现，也即，每个子模块的输出结果输入到下采样层进行下采样。数据依次经过下采样层，分辨率依次下降。解码器可以包括四个子模块，每个子模块分别与一个上采样层相连。数据依次经过上采样层，分辨率依次上升，直到与输入图像的分辨率一致，从而分辨率的大小变化，形成U型效果。U-Net还使用了跳跃连接，将上采样结果与编码器中具有相同分辨率的子模块的输出进行连接，作为解码器中下一个子模块的输入。在关键点检测模型中，U-Net将浅层特征图与深层特征图结合，这样可以结合局部条件(Where)以及全局内容(What)的特征，生成更精准的图像，从而可以根据更精准的图像进行关键点检测，提高关键点检测的准确率。

S204，根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，作为人物姿态特征。

具体的，根据初始人物关键点可以确定初始人物关键点在第一视频帧中每个位置的概率，并根据该概率和关键点的位置可以生成对应的热力图。由于每个关键点对应的热力图的形状不同，可以将各关键点对应的热力图均统一成指定形状的区域，并将热力图进行变换的仿射变换矩阵作为关键点的初始局部仿射变换矩阵。

可选的，所述根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，包括：获取各所述初始人物关键点的坐标，以及匹配的置信度；根据各所述初始人物关键点的坐标以及匹配的置信度，生成分别与各所述初始人物关键点匹配的热力图区域；针对每个所述初始人物关键点匹配的热力图区域，将所述热力图区域转换为设定规则形状的热力图区域，并获取所述设定规则形状的热力图区域对应的局部仿射变换矩阵，确定为所述初始人物关键点对应的局部仿射变换矩阵；将各所述初始人物关键点对应的局部仿射变换矩阵，确定为初始局部仿射变换矩阵。

可以通过U-Net或者其他回归算法计算初始人物关键点在第一视频帧中的预测坐标，以及该初始人物关键点在每个位置的概率，并且根据初始人物关键点在第一视频帧中的预测坐标，以及该预测坐标周围的其他预测坐标的位置，确定该预测坐标的置信度。通常将概率最大的预测坐标作为初始人物关键点。

根据初始人物关键点在第一视频帧中的预测坐标，以及该初始人物关键点在每个位置的概率，生成以初始人物关键点为中心的热力图。热力图用于通过颜色表示，中心点(即概率最大的坐标位置)对周围的影响力。通过U-Net可以获取每个关键点的坐标以及坐标的置信度，具体是(x1，y1，m1，n1)其中，(x1，y1)是坐标，m1为x1的置信度，n1为y1的置信度。置信度的取值范围为[0,1]。

具体的，热力图的生成方式具体为：预先生成设定奇数矩阵(例如，3*3矩阵或5*5矩阵)。以概率最大的坐标位置为矩阵中心，根据该坐标位置对应的置信度，在x轴方向和y轴方向分别采用双线性插值方法进行插值，并配置插入的坐标点的像素色彩值作为矩阵中元素，从而生成热力图对应的奇数矩阵。像素色彩值与和中心点之间的距离存在对应关系，例如，远离中心的像素色彩值的红色值越低，靠近中心的像素色彩值的红色值越高。

其中，奇数矩阵通常无法用于仿射变换，由此，可以通过对热力图对应的奇数矩阵进行仿射变换，生成设定规则形状的矩阵，作为初始人物关键点对应的局部仿射变换矩阵。设定规则形状可以根据需要进行设定，示例性的，设定规则形状为2*3矩阵，此外还有其他情形，对此，本发明实施例不作具体限制。

其中，在指定奇数矩阵和设定规则形状矩阵之后，可以通过指定奇数矩阵和设定规则形状矩阵之间的映射方式，确定由指定奇数矩阵指向设定规则形状矩阵的变换方法，例如，采用一个仿射变换矩阵，与指定奇数矩阵相乘，乘积为设定规则形状矩阵。相应的，对热力图对应的奇数矩阵与该仿射变换矩阵相乘，得到的乘积结果即为初始人物关键点对应的局部仿射变换矩阵。

初始局部仿射变换矩阵包括多个初始人物关键点对应的局部仿射变换矩阵。

通过初始人物关键点的预测坐标和坐标的置信度，生成热力图，并根据热力图确定初始人物关键点对应的局部仿射变换矩阵，从而确定初始局部仿射变换矩阵，可以准确评估初始人物关键点的预测准确性，以指示图像驱动模型准确学习初始人物关键点的坐标，可以提高图像驱动模型的人物关键点的识别准确率，从而提高图像驱动模型生成的驱动图像的准确率。

此外，还可以通过U-Net可以为每个关键点预测4个标量加权数值，可以根据标量加权数值对对应的热力图的区域的置信度进行加权平均，最终获得每个关键点对应的3x3的局部仿射矩阵。

S205，将所述第二视频帧输入到所述关键点检测模型中，获取所述关键点检测器输出的多个目标驱动关键点和各所述目标驱动关键点对应的热力图。

目标驱动关键点可以是第二视频帧中人物的人体关键点。对应的热力图用于描述目标驱动位于第二视频帧中各位置的概率。

S206，根据各所述目标驱动关键点和对应的热力图，生成目标驱动局部仿射变换矩阵，作为驱动姿态特征。

目标驱动局部仿射变换矩阵的生成方法同初始局部仿射变换矩阵。

S207，将所述初始局部仿射变换矩阵与所述目标驱动局部仿射变换矩阵相乘，获取从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵。

局部仿射变换矩阵为初始局部仿射变换矩阵与目标驱动局部仿射变换矩阵相乘结果。实际上矩阵可以图像特征，初始局部仿射变换矩阵用于描述第一视频帧的人物姿态特征，目标驱动局部仿射变换矩阵用于描述第二视频帧的目标姿态特征，相乘得到的局部仿射变换矩阵用于描述从人物姿态特征到目标姿态特征的变化量的特征。从而，根据局部仿射变换矩阵和第一视频帧，可以将第一视频帧中人物像素变换形成与第二视频帧中匹配的目标像素。

示例性的，局部仿射变换矩阵的示意图如图2c所示，一个矩形代表一个局部仿射变换矩阵。一个局部放射变换矩阵可以代表人体中局部区域，例如，左臂区域、右臂区域、左腿区域或右腿区域。

S208，根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据。

S209，根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。

可选的，所述根据所述第一视频帧、像素运动数据和像素遮挡数据，训练深度学习模型，生成图像驱动模型，包括：根据损失函数配置信息计算所述深度学习模型的损失函数，所述损失函数配置信息用于在初始损失函数中添加同变性约束函数，所述同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定；如果确定所述损失函数满足稳定条件，则将当前训练的深度学习模型确定为图像驱动模型。

损失函数配置信息用于在初始损失函数的基础上，添加同变性约束函数，该同变性约束函数可以包括欧氏距离范数，或者成为正则化项，或者L2范数，是指各元素的平方和再开方的结果。初始损失函数为图像驱动模型的损失函数。在添加了欧氏距离范数之后，相当于对初始损失函数添加约束条件，实际是对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量，实现使权重的分配更均匀，避免集中在少数向量上，使得图像驱动模型更接近低维模型，相应的，维度越低，训练使用的数据量越小，可以降低图像驱动模型训练使用的数据量，从而可以降低图像驱动模型的复杂度。

稳定条件用于判断损失函数是否趋于稳定，例如，稳定条件用于判断损失函数的变化率是否小于设定阈值，其中，设定阈值可以根据实际情况限定。损失函数的变化率可以是：计算当前损失函数与前一次训练计算得到的损失函数的差值，与当前损失函数的比值。如果该比值小于设定阈值，则确定损失函数再训练的变化速率很小，表明损失函数趋于稳定，或损失函数收敛。此时，确定深度学习模型训练完成，将当前深度学习模型作为图像驱动模型。

具体的，更新后的损失函数LOSS_new可以为如下形式：

LOSS_new＝LOSS+L_eqv

其中，LOSS为初始损失函数，L_eqv为同变性约束函数。

同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定，同变性约束函数L_eqv可以为如下形式：

其中，K为关键点的数量，(x′_k,y′_k)为初始人物关键点，(x_k,y_k)为期望关键点，(x_k,y_k)实际是初始人物关键点期望变换后形成的关键点。g(*)为用于对初始人物关键点进行坐标变化的函数，g(x′_k,y′_k)为初始人物关键点变换后的像素点。g(x′_k,y′_k)越接近(x_k,y_k)，表明初始人物关键点越接近期望变换后的期望关键点。‖·‖_F为隐藏空间的参数项矩阵的F范数。其中，期望关键点可以配置为趋近于目标驱动关键点的关键点，也即，期望关键点可以是由初始人物关键点变换成为目标驱动关键点的过程中，生成的中间结果。

具体的，g(*)可以理解为一个随机创建的薄板样条(Thin Plate Spline,TPS)，可以使用随机平移、旋转和缩放来确定TPS的全局仿射分量，并通过空间扰动一组控制点来确定局部TPS分量。可以以当前关键点模型检测到的人体关键点作为控制点，提高了模拟变换对关键点的关注。

发明人发现关键点检测模型在检测关键点时没有采用人工标注的关键点进行监督，关键点检测模型没有对应的标注数据用于回归，也即采用自监督的方式训练关键点检测模型，相对监督学习来说，不可避免的会导致关键点的不稳定乃至不准确。此外，由于指定视频与静态人物图像的物种可以完全不一样，例如静态人物图像为人物，指定视频为动物或者其他无生物物体(如虚拟人物)，这会导致无法保证跨物体之间的对应关系的准确性。

有鉴于此，添加同变性约束函数来保证图像语义信息的一致性，例如，在经过动作变换后的图像中，人物的胳膊和腿不会发生错位等。

通过在图像驱动模型的初始损失函数中添加同变性约束函数，以实现对损失函数中增加约束条件，可以使权重的分配更均匀，避免集中在少数向量上，可以降低图像驱动模型训练使用的数据量，从而可以降低图像驱动模型的复杂度，以及可以提高图像驱动模型的泛化能力，同时可以准确建立人物图像的关键点与期望生成的人物驱动图像的关键点之间的对应关系，以使图像驱动模型学习到正确的对应关系，提高图像驱动模型所生成的人物驱动图像的准确率，以及增加图像驱动模型所生成图像中人体结构的真实性。

本发明实施例通过直接获取图像中的人体关键点和对应的热力图，未对人体关键点进行标注，并根据人体关键点和对应的热力图确定姿态特征，生成局部仿射变换矩阵，以获取人物像素运动数据和像素遮挡数据，以及结合第一视频帧，生成训练样本，对深度学习模型进行训练，生成图像驱动模型，可以减少人工标注样本的需求量，降低模型训练的人工成本。

实施例三

图3a为本发明实施例三中的一种图像驱动模型的训练方法的流程图，本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括：

S301，获取驱动视频。

本发明实施例中未详尽的描述可以参考前述实施例。

S302，获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像。

S303，从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵。

S304，将所述局部仿射变换矩阵和所述第一视频帧输入到预先训练的密集运动估计模型中，获取所述密集运动估计模型输出的人物像素运动数据和像素遮挡数据；其中，所述密集运动估计模型包括深度学习模型，所述像素运动数据包括所述第一视频帧中人物像素指向所述第二视频帧中匹配的目标像素的运动方向，所述像素遮挡数据包括所述第一视频帧中各人物像素对应的仿射变换到所述第二视频帧中匹配的目标像素位置之间的遮挡顺序关系。

密集运动估计模型用于估计像素的运动情况和不同像素在运动之后的遮挡顺序。密集运动估计模型为预先训练的深度学习模型。

人物像素为第一视频帧包括的人物的像素。人物像素可以包括人体关键点。目标像素为模拟第二视频帧指定人体姿态，与人物像素对应的期望生成的像素。目标像素不是第二视频帧包括的像素。

像素运动数据用于确定从人物像素变换到目标像素的运动方向，通常运动方向可以是从人物像素点指向目标像素点的方向，具体可以采用光流信息图表示，其中，光流信息图包括多个区域像素集合，每个区域像素集合可以采用箭头方向表示运动方向。第一视频帧如图3b所示，第二视频帧如图3c所示，将第一视频帧中的人物模拟第二视频帧中的人物的动作，相应获取的光流信息图具体效果如图3d所示，每个箭头代表一个像素区域的运动方向。

像素遮挡数据用于确定不同目标像素之间的遮挡顺序。目标像素位置可以是目标像素所在的坐标位置。第一视频帧中各人物像素对应的仿射变换到第二视频帧中匹配的目标像素位置，存在多个人物像素点分别匹配的多个目标像素位于同一个像素位置的情况。当多个目标像素位于同一个像素位置时，只展示顶层的目标像素，其他目标像素作为被遮挡的像素不进行显示。遮挡顺序关系用于描述多个像素的显示顺序，只有置于顶层，即未被遮挡的像素可以显示。其中，可以阴影图表示像素遮挡数据，将第一视频帧中的人物模拟第二视频帧中的人物的动作，相应获取的阴影图具体效果如图3e所示，越暗的地方表示灰度值越低(也就是灰度值接近0),代表该区域被遮挡的程度越高；越亮的地方表示灰度值越高(也就是灰度值接近255)，代表该区域被遮挡的程度越低。

可选的，在将所述局部仿射变换矩阵和所述第一视频帧输入到预先训练的密集运动估计模型中之前，还包括：将所述训练视频的视频帧与空间转换视频帧的光测误差的最小值作为训练目标，对深度学习模型进行训练，生成密集运动估计模型；其中，所述空间转换视频帧通过将所述训练视频的视频帧输入到空间转换模型生成，所述训练视频的视频帧的局部空间特征与所述空间转换视频帧中匹配的局部空间特征相同。

训练视频的视频帧可以是训练视频的任意视频帧。空间转换视频帧是采用空间变换方法对训练视频的视频帧进行空间变换，生成的视频帧。训练视频的视频帧的局部空间特征与空间转换视频帧中匹配的局部空间特征相同，表明训练视频的视频帧和空间转换视频帧满足空间不变性，也表明空间变换方法满足空间不变性。示例性的，空间变换方法可以是牛津大学的Max Jaderberg，Karen Simonyan等人提出的空间转换模块(spatialtransformer modules)实现。

其中，密集运动估计模型的训练目标为如下形式表示：

其中，N为视频帧包括的像素的总数量，(i,j)为像素的坐标，I₁(i,j)为训练视频的视频帧，I′₁(i,j)为空间转换视频帧，ρ(*)用于表示训练视频的视频帧与空间转换视频帧的光测误差，如光强差值和光的改变方向。密集运动估计模型的训练目标为最小化L_reconst。

通过训练密集运动估计模型，可以使密集运动估计模型学习到光流的运动特征，从而可以准确提取出人物像素运动数据和像素遮挡数据，提高运动特征的准确率，从而提高图像驱动模型所生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性，实现生成正确的人物图像。

S305，根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。

在一个具体的例子中，如图3f所示，图像驱动模型的训练过程可以是：采用关键点检测模型301从第一视频帧中提取多个初始人物关键点和各初始人物关键点对应的热力图，并根据初始人物关键点和各初始人物关键点对应的热力图，生成初始局部仿射变换矩阵。并行采用关键点检测模型301从第二视频帧中提取多个目标驱动关键点和各目标驱动关键点对应的热力图，并根据初目标驱动关键点和各目标驱动关键点对应的热力图，生成目标驱动局部仿射变换矩阵。将初始局部仿射变换矩阵与目标驱动局部仿射变换矩阵相乘，得到局部仿射变换矩阵，输入到密集运动估计模型302中，可以获取人物像素运动数据和像素遮挡数据。将第一视频帧、人物像素运动数据和人物像素遮挡数据作为图像运动样本，对深度学习模型进行训练，获取深度学习模型输出的输出图像。将训练完成的深度学习模型，确定为图像驱动模型303。

本发明实施例通过预先训练的密集运动估计模型，从局部仿射变换矩阵和第一视频帧中提取出人物像素运动数据和像素遮挡数据，可以提高提取的人物像素运动特征的准确率，从而提高图像驱动模型所生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性，实现生成正确的人物图像。

实施例四

图4a为本发明实施例一中的一种图像生成方法的流程图，本实施例可适用于使人物图像中的人物模拟指定视频包括的面部表情和/或身体动作，生成驱动人物执行指定视频匹配的动作和/或做出指定视频匹配的表情的情况，该方法可以由本发明实施例提供的图像生成装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中。如图4a所示，本实施例的方法具体包括：

S410，获取人物图像。

人物图像包括人物的真实图像。例如，人物图像包括人脸和/或人物身体的真实图像。

S420，获取指定视频中的目标视频帧。

指定视频包括时序连续的多个视频帧，每个视频帧都可以看作是一个图像。目标视频帧可以是指定视频中的任意一个视频帧。可以按照视频播放的时序，依次选择指定视频中的视频帧作为目标视频帧。目标视频帧用于获取目标驱动信息。

其中，人物图像中包括至少一个人物，可以根据实际情况进行选择，例如，随机选择人物，或选择在人物图像中所占面积比例最大的人物，或选择人物图像中脸部未被遮挡的人物，作为目标人物，对此，本发明实施例不作具体限制。

目标视频帧包括目标驱动信息，该目标驱动信息用于指示人物图像中人物做出指定的人体姿态(面部姿态和/或身体姿态)，即将目标视频帧中的人体姿态迁移到人物图像的目标人物中，以使人物图像中的目标人物模拟目标视频帧的人体姿态，驱动目标人物执行目标视频帧指定的身体动作和/或做出面部表情等。目标驱动信息可以包括人物面部特征数据和/或人物身体特征数据。人物面部特征数据用于人物图像中的目标人物的人脸模拟目标视频帧中的面部姿态，驱动目标人物的面部姿态与该面部姿态匹配，例如，驱动目标人物的面部表情做出相同的表情。人物面部特征数据可以包括下述至少一项：人物脸部的方向、脸部轮廓和各器官的位置等。人物身体特征数据用于人物图像中的目标人物的身体模拟目标视频帧中的身体姿态，驱动目标人物的身体姿态与该身体姿态匹配，例如，驱动目标人物的身体做出相同的动作。人物身体特征数据可以包括下述至少一项：人物头部位置和方向、人物肢体位置和方向和人物脚部位置和方向等。

可选的，获取指定视频中的目标视频帧可以包括：获取指定视频；依次获取所述指定视频中的视频帧作为目标视频帧；在生成人物驱动图像之后，选择时序在后的下一视频帧作为目标视频帧，并再次生成人物驱动图像，直至获取所述指定视频中最后一个视频帧，以此类推，可以根据指定视频生成多个人物驱动图像，并按照时序进行排列，可以生成人物驱动视频，最终实现驱动人物图像中的目标人物做出与指定视频匹配的人体姿态，执行匹配的动作，和/或做出匹配的面部表情等。此外，由于相邻视频帧的差异很小，还可以选择每间隔设定时长获取一个视频帧作为目标视频帧，例如，设定时长为10ms。

S430，将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如本发明实施例中任一项所述的图像驱动模型的训练方法训练生成。

图像驱动模型用于生成人物图像中目标人物模拟目标视频帧中人体姿态的人物驱动图像，实际是驱动人物图像中目标人物的面部和/或身体，做出与目标视频帧匹配的人体姿态。其中，人物驱动图像可以是包括人物图像中目标人物，所述目标人物的人体姿态与目标视频帧包括的目标驱动信息匹配，此外，人体驱动图像除目标人物以外的图像区域均与人物图像相同。

实际上，人物图像用于提供待驱动的目标人物。目标视频帧用于指定人体姿态。图像驱动模型用将目标人物与人体姿态进行合成，生成展现出该人体姿态的人物图像，作为人物驱动图像。

图像驱动模型为预先训练的深度学习模型，示例性的，图像驱动模型可以包括解码器和编码器。

图像驱动模型通过如本发明实施例中任一项所述的图像驱动模型的训练方法训练生成。具体的，将人物图像按照目标视频帧进行驱动，实际是将人物像素调整成目标视频帧中指定目标像素，其中，目标像素不是目标视频帧中的真实像素，而是根据目标视频帧，确定的人物像素期望变换后的像素。像素包括关键点。根据人物像素和目标像素可以确定人物像素的调整数据，该调整数据用于将人物像素调整成匹配的目标像素，具体可以从像素的运动情况和遮挡情况进行考虑。相应的，可以根据人物图像和目标视频帧，确定人物像素运动数据和人物像素遮挡数据，并基于人物像素运动数据和人物像素遮挡数据采用如本发明实施例中任一项所述的图像驱动模型的训练方法训练生成图像驱动模型。

在一个具体的例子中，如图4b所示，初始人物图像为第一列(从左往右第一列)的两张图像；依次将第一行(从上往下第一行)的三个图像作为指定视频的目标视频帧，形成的人物驱动图像分别如图4b所示。

本发明实施例通过采用第一视频帧和驱动信息关联的人物像素运动数据和人物像素遮挡数据作为训练样本，对模型进行训练，生成图像驱动模型，可以使图像驱动模型学习遮挡特征，并将人物图像输入到该图像驱动模型中，获取图像驱动模型输出的人物驱动图像，保证人物驱动图像的遮挡关系正确，解决了现有技术中换脸算法生成的图像中没有考虑遮挡情况导致生成图像遮挡关系错误的问题，可以提高生成图像中的人物的人体遮挡关系准确性，提高人物驱动图像的真实性，实现生成正确的人物图像。

实施例五

图5为本发明实施例五中的一种图像驱动模型的训练装置的示意图。实施例五是实现本发明上述实施例提供的图像驱动模型的训练方法的相应装置，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中等。

驱动视频获取模块510，用于获取驱动视频；

视频帧获取模块520，用于获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像；

姿态特征提取模块530，用于从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵；

像素数据获取模块540，用于根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据；

图像驱动模型生成模块550，用于根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型。

进一步的，所述姿态特征提取模块530，包括：局部仿射变换矩阵计算单元，用于将所述第一视频帧输入到关键点检测模型中，获取所述关键点检测模型输出的多个初始人物关键点和各所述初始人物关键点对应的热力图；根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，作为人物姿态特征；将所述第二视频帧输入到所述关键点检测模型中，获取所述关键点检测器输出的多个目标驱动关键点和各所述目标驱动关键点对应的热力图；根据各所述目标驱动关键点和对应的热力图，生成目标驱动局部仿射变换矩阵，作为驱动姿态特征；将所述初始局部仿射变换矩阵与所述目标驱动局部仿射变换矩阵相乘，获取从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵。

进一步的，所述局部仿射变换矩阵计算单元，包括：初始人物关键点匹配的热力图获取子单元，用于获取各所述初始人物关键点的坐标，以及匹配的置信度；根据各所述初始人物关键点的坐标以及匹配的置信度，生成分别与各所述初始人物关键点匹配的热力图区域；针对每个所述初始人物关键点匹配的热力图区域，将所述热力图区域转换为设定规则形状的热力图区域，并获取所述设定规则形状的热力图区域对应的局部仿射变换矩阵，确定为所述初始人物关键点对应的局部仿射变换矩阵；将各所述初始人物关键点对应的局部仿射变换矩阵，确定为初始局部仿射变换矩阵。

进一步的，所述关键点检测模型包括U型网络。

进一步的，所述像素数据获取模块540，包括：密集运动估计单元，用于将所述局部仿射变换矩阵和所述第一视频帧输入到预先训练的密集运动估计模型中，获取所述密集运动估计模型输出的人物像素运动数据和像素遮挡数据；其中，所述密集运动估计模型包括深度学习模型，所述像素运动数据包括所述第一视频帧中人物像素指向所述第二视频帧中匹配的目标像素的运动方向，所述像素遮挡数据包括所述第一视频帧中各人物像素对应的仿射变换到所述第二视频帧中匹配的目标像素位置之间的遮挡顺序关系。

进一步的，所述图像驱动模型的训练装置，还包括：密集运动估计模型训练模块，用于在将所述局部仿射变换矩阵和所述第一视频帧输入到密集运动估计模型中之前，将所述训练视频的视频帧与空间转换视频帧的光测误差的最小值作为训练目标，对深度学习模型进行训练，生成密集运动估计模型；其中，所述空间转换视频帧通过将所述训练视频的视频帧输入到空间转换模型生成，所述训练视频的视频帧的局部空间特征与所述空间转换视频帧中匹配的局部空间特征相同。

进一步的，所述图像驱动模型生成模块550，包括：图像驱动模型训练单元，用于根据损失函数配置信息计算所述深度学习模型的损失函数，所述损失函数配置信息用于在初始损失函数中添加同变性约束函数，所述同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定；如果确定所述损失函数满足稳定条件，则将当前训练的深度学习模型确定为图像驱动模型。

上述图像生成装置可执行本发明实施例任一所提供的图像驱动模型的训练方法，具备执行的图像生成方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六中的一种图像生成装置的示意图。实施例六是实现本发明上述实施例提供的图像生成方法的相应装置，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中等。

相应的，本实施例的装置可以包括：

人物图像获取模块610，用于获取人物图像；

目标视频帧获取模块620，用于获取指定视频中的目标视频帧；

人物驱动图像生成模块630，用于将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如权利要求1-7任一项所述的图像驱动模型的训练方法训练生成。

上述图像生成装置可执行本发明实施例任一所提供的图像生成方法，具备执行的图像生成方法相应的功能模块和有益效果。

实施例七

图7为本发明实施例七提供的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘运动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘运动器，以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘运动器。在这些情况下，每个运动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图7中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备运动器、冗余处理单元、外部磁盘运动阵列、(Redundant Arrays of Inexpensive Disks，RAID)系统、磁带运动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的一种图像驱动模型的训练或图像生成方法。

实施例八

本发明实施例八提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的图像驱动模型的训练方法：

也即，该程序被处理器执行时实现：获取驱动视频；获取所述驱动视频的第一视频帧以及第二视频帧，所述第一视频帧和所述第二视频帧分别为不同视频帧，所述第一视频帧包括人物图像，所述第二视频帧包括人物图像；从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵；根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据；根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型；

或者实现如本申请所有发明实施例提供的图像生成方法：

也即，该程序被处理器执行时实现：获取人物图像；获取指定视频中的目标视频帧；将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如本发明实施例中任一项所述的图像驱动模型的训练方法训练生成。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像驱动模型的训练方法，其特征在于，包括：

获取驱动视频；

基于密集运动估计模型，根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据，所述密集运动估计模型是通过训练得到的、用于估计像素的运动情况和不同像素在运动之后的遮挡顺序的深度学习模型；

根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型；

其中，所述密集运动估计模型的训练过程包括：将训练视频的视频帧与空间转换视频帧的光测误差的最小值作为训练目标，对深度学习模型进行训练，生成所述密集运动估计模型，所述空间转换视频帧通过将所述训练视频的视频帧输入到空间转换模型生成，所述训练视频的视频帧的局部空间特征与所述空间转换视频帧中匹配的局部空间特征相同。

2.根据权利要求1所述的方法，其特征在于，所述从所述第一视频帧提取人物姿态特征，以及从所述第二视频帧提取驱动姿态特征，并生成从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵，包括：

将所述第一视频帧输入到关键点检测模型中，获取所述关键点检测模型输出的多个初始人物关键点和各所述初始人物关键点对应的热力图；

根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，作为人物姿态特征；

将所述第二视频帧输入到所述关键点检测模型中，获取所述关键点检测器输出的多个目标驱动关键点和各所述目标驱动关键点对应的热力图；

根据各所述目标驱动关键点和对应的热力图，生成目标驱动局部仿射变换矩阵，作为驱动姿态特征；

将所述初始局部仿射变换矩阵与所述目标驱动局部仿射变换矩阵相乘，获取从所述人物姿态特征指向所述驱动姿态特征的局部仿射变换矩阵。

3.根据权利要求2所述的方法，其特征在于，所述根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，包括：

获取各所述初始人物关键点的坐标，以及匹配的置信度；

根据各所述初始人物关键点的坐标以及匹配的置信度，生成分别与各所述初始人物关键点匹配的热力图区域；

针对每个所述初始人物关键点匹配的热力图区域，将所述热力图区域转换为设定规则形状的热力图区域，并获取所述设定规则形状的热力图区域对应的局部仿射变换矩阵，确定为所述初始人物关键点对应的局部仿射变换矩阵；

将各所述初始人物关键点对应的局部仿射变换矩阵，确定为初始局部仿射变换矩阵。

4.根据权利要求2所述的方法，其特征在于，所述关键点检测模型包括U型网络。

5.根据权利要求1所述的方法，其特征在于，所述根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据，包括：

将所述局部仿射变换矩阵和所述第一视频帧输入到预先训练的密集运动估计模型中，获取所述密集运动估计模型输出的人物像素运动数据和像素遮挡数据；

其中，所述密集运动估计模型包括深度学习模型，所述像素运动数据包括所述第一视频帧中人物像素指向所述第二视频帧中匹配的目标像素的运动方向，所述像素遮挡数据包括所述第一视频帧中各人物像素对应的仿射变换到所述第二视频帧中匹配的目标像素位置之间的遮挡顺序关系。

6.根据权利要求5所述的方法，其特征在于，在将所述局部仿射变换矩阵和所述第一视频帧输入到密集运动估计模型中之前，还包括：

将所述训练视频的视频帧与所述空间转换视频帧的光测误差的最小值作为训练目标，对深度学习模型进行训练，生成所述密集运动估计模型。

7.根据权利要求2所述的方法，其特征在于，所述根据所述第一视频帧、像素运动数据和像素遮挡数据，训练深度学习模型，生成图像驱动模型，包括：

根据损失函数配置信息计算所述深度学习模型的损失函数，所述损失函数配置信息用于在初始损失函数中添加同变性约束函数，所述同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定；

如果确定所述损失函数满足稳定条件，则将当前训练的深度学习模型确定为图像驱动模型。

8.一种图像驱动模型的训练装置，其特征在于，包括：

驱动视频获取模块，用于获取驱动视频；

像素数据获取模块，用于基于密集运动估计模型，根据所述局部仿射变换矩阵和所述第一视频帧，生成人物像素运动数据和像素遮挡数据，所述密集运动估计模型是通过训练得到的、用于估计像素的运动情况和不同像素在运动之后的遮挡顺序的深度学习模型；

图像驱动模型生成模块，用于根据所述第一视频帧、所述像素运动数据和所述像素遮挡数据，训练深度学习模型，生成图像驱动模型；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的图像驱动模型的训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的图像驱动模型的训练方法。