CN113870314B

CN113870314B - 一种动作迁移模型的训练方法及动作迁移方法

Info

Publication number: CN113870314B
Application number: CN202111209167.5A
Authority: CN
Inventors: 司马华鹏; 屈奇勋; 范宏伟; 李佳斌
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2023-09-19
Anticipated expiration: 2041-10-18
Also published as: CN113870314A

Abstract

本申请提供了一种动作迁移模型的训练方法及动作迁移方法，所述训练方法包括将源图像和驱动图像输入至待训练动作迁移模型，以使该模型根据初始模型参数获取源图像的源关键点坐标组和驱动图像的驱动关键点坐标组，并根据源关键点坐标组和驱动关键点坐标组，获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图，获取源图像的隐层特征图，根据隐层特征图、光流图和重绘图，获取目标图像，目标图像是将驱动图像中与驱动关键点坐标相关联的待迁移动作迁移至源关键点坐标后得到的图像；根据目标图像、源图像以及驱动图像，计算损失函数，并根据损失函数优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

Description

一种动作迁移模型的训练方法及动作迁移方法

技术领域

本申请涉及图像处理领域，尤其涉及一种动作迁移模型的训练方法及动作迁移方法。

背景技术

动作迁移是图像处理领域中一种重要的图像编辑技术，是指将驱动视频中的人物动作迁移到源图像中的人物身上，在保留源图像中人物外观的基础上，使源图像中的人物与目标视频中的人物保持同步运动。

在现有的方案中，可采用三维(3-dimension，3D)的方式进行动作迁移，首先需要分析源图像的像素数据，获取源图像中人物形象的像素位置信息，根据人物形象的像素位置信息构建该人物的3D模型，然后基于驱动视频，对该3D人物模型进行图像扭曲和融合等处理，最终实现动作迁移的目的。

但是，采用3D建模的方式构建人物模型需要运用大量的数据并涉及复杂的运算，相应的，在对该模型的实际训练过程中，不但需要消耗大量的计算资源，还会影响模型的训练效率。

发明内容

本申请提供了一种动作迁移模型的训练方法及动作迁移方法，降低了动作迁移模型的训练成本，提升了动作迁移模型的训练效率。

一方面，本申请提供了一种动作迁移模型的训练方法，包括：

获取训练视频文件，所述训练视频文件包括源图像和驱动图像；

将所述源图像和所述驱动图像输入至待训练动作迁移模型，所述待训练动作迁移模型根据初始模型参数执行以下步骤：

获取所述源图像的源关键点坐标组，所述源关键点坐标组是所述源图像的源关键点坐标K_Sn合集；

获取所述驱动图像的驱动关键点坐标组，所述驱动关键点坐标组是所述驱动图像的驱动关键点坐标K_Dn合集；

根据所述源关键点坐标组和所述驱动关键点坐标组，获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>

获取所述源图像的隐层特征图，根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像，所述目标图像是将所述驱动图像中与所述驱动关键点坐标K_Dn相关联的待迁移动作迁移至所述源关键点坐标K_Sn后得到的图像；

根据所述目标图像、所述源图像以及所述驱动图像，计算损失函数，并根据所述损失函数优化所述初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

可选的，获取训练视频文件，所述训练视频文件包括源图像和驱动图像，包括：

获取训练视频文件，所述训练视频文件包括若干视频帧，提取任意两个视频帧，将其中一个视频帧确定为源图像，另一个视频帧确定为驱动图像。

可选的，获取所述源图像的源关键点坐标组之前，包括：

获取所述源图像的有效区域面积，将所述源图像的有效区域面积确定为第一面积，计算所述第一面积在所述源图像中的面积占比；

判定所述第一面积在所述源图像中的面积占比是否小于第一预设值，所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值；

若是，则对所述源图像进行预处理，以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。

可选的，获取所述驱动图像的驱动关键点坐标组之前，包括：

获取所述驱动图像的有效区域面积，将所述驱动图像的有效区域面积确定为第二面积，计算所述第二面积在所述驱动图像中的面积占比；

判定所述第二面积在所述驱动图像中的面积占比是否小于第二预设值，所述第二预设值是所述第二面积在所述驱动图像中的面积占比的阈值；

若是，则对所述驱动图像进行预处理，以使所述第二面积在所述驱动图像中的面积占比大于或等于所述第二预设值。

可选的，根据所述源关键点坐标组和所述驱动关键点坐标组，获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>包括：

根据所述源关键点坐标组和所述驱动关键点坐标组，获取零阶运动信息H_n(z)，所述零阶运动信息H_n(z)包括每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的平移变换参数；

根据所述源关键点坐标组和所述驱动关键点坐标组，获取与所述源关键点坐标K_Sn关联的源局部仿射变换参数和与所述驱动关键点坐标K_Dn关联的驱动局部仿射变换参数；

根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所述驱动局部仿射变换参数，获取一阶运动信息所述一阶运动信息/>包括每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的局部仿射变换的参数；

根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息H_n(z)、所述一阶运动信息计算每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的全局仿射变换的参数，并得到对应的光流图/>和重绘图/>

可选的，根据所述源关键点坐标组和所述驱动关键点坐标组，获取零阶运动信息H_n(z)，包括：

获取以所述源关键点坐标组中的每个所述源关键点坐标K_Sn为中心的高斯热力图，将所述以源关键点坐标K_Sn为中心的高斯热力图记为G_S(p_n)；

获取以所述驱动关键点坐标组中的每个所述驱动关键点坐标K_Dn为中心的高斯热力图，将所述以驱动关键点坐标K_Dn为中心的高斯热力图记为G_D(p_n)；

所述零阶运动信息H_n(z)＝G_D(p_n)-G_S(p_n)。

可选的，根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所述驱动局部仿射变换参数，获取一阶运动信息包括

所述一阶运动信息

其中，K_Sn是所述源关键点坐标组中的所述源关键点坐标K_Sn，J_Sn是所述源局部仿射变换参数，K_Dn是所述驱动关键点坐标组中的所述驱动关键点坐标K_Dn，J_Dn是所述驱动局部仿射变换参数，z是所述驱动关键点坐标K_Dn的矩阵。

可选的，根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息H_n(z)、所述一阶运动信息计算每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的全局仿射变换的参数，并得到对应的光流图/>和重绘图/>包括：

在所述零阶运动信息H_n(z)中插入第一矩阵H₀(z)，所述第一矩阵H₀(z)是一个全零矩阵；将所述一阶运动信息作用于所述源关键点坐标组中的每一个所述源关键点坐标K_Sn，以获取对应的仿射变换图像组，记为S¹,S²,…,S^N；

在所述仿射变换图像组中插入源图像S⁰；

根据插入所述第一矩阵H₀(z)后的所述零阶运动信息H_n(z)、插入源图像S⁰后的所述仿射变换图像组，得到像素掩模组，记为M₀,M₁,M₂,…,M_N，所述像素掩模用于描述像素点坐标的运动状态；

根据所述像素掩模组M₀,M₁,M₂,…,M_N，插入所述第一矩阵H₀(z)后的零阶运动信息H_n+1(z)、所述一阶运动信息得到所述全局仿射变换的参数，所述全局仿射变换的参数即为光流图/>所述光流图/>

根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息H_n+1(z)、所述一阶运动信息通过卷积注意力层，得到所述源图像对应的重绘图/>所述重绘图/>用于描述在所述目标图像生成过程中需要生成的像素点坐标信息。

可选的，获取所述源图像的隐层特征图，根据所述隐层特征图、所述光流图和所述重绘图，获取目标图像，包括：

通过具有编码器-解码器结构的卷积神经网生成模型，获取所述源图像的隐层特征图；

根据所述光流图重绘图/>以及所述隐层特征图，获取目标图像。

另一方面，本申请还提供了一种动作迁移方法，包括：

获取源图像和驱动视频，所述驱动视频包括按时间顺序排序的视频帧；

将所述源图像和所述驱动视频的视频帧输入至动作迁移模型中，合成目标视频，其中，所述动作迁移模型为采用上述训练方法训练得到的。

由以上技术方案可知，本申请提供了一种动作迁移模型的训练方法及动作迁移方法，所述训练方法包括将源图像和驱动图像输入至待训练动作迁移模型，以使该模型根据初始模型参数获取源图像的源关键点坐标组和驱动图像的驱动关键点坐标组，并根据源关键点坐标组和驱动关键点坐标组，获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图，获取源图像的隐层特征图，根据隐层特征图、光流图和重绘图，获取目标图像，目标图像是将驱动图像中与驱动关键点坐标相关联的待迁移动作迁移至源关键点坐标后得到的图像；根据目标图像、源图像以及驱动图像，计算损失函数，并根据损失函数优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型，本申请提供的动作迁移模型的训练方法，降低了动作迁移模型的训练成本，提升了动作迁移模型的训练效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种动作迁移模型的训练方法的流程图；

图2为本申请提供的零阶运动信息的获取流程图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有” 以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

第一方面，本申请公开了一种动作迁移模型的训练方法，该方法通过将一段训练视频输入至待训练动作迁移模型，以使所述待训练动作迁移模型根据初始模型参数执行训练过程，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。为便于说明，在下述实施例中，将对待训练动作迁移模型的训练过程称为模型训练过程。将训练得到的目标动作迁移模型的运用过程称为模型推断过程。

本申请提供的动作迁移模型的训练方法，参见图1，该方法可以包括如下步骤：

S110，获取训练视频文件；

示例性的，获取的训练视频文件包括但不限于人脸视频、人运动视频、动物运动视频、物体运动视频、动画视频等包含运动的人或物体的视频，视频时长可以根据需求自行选择，一般选取的时长在10秒左右，视频分辨率为720P、1080P的训练视频为佳。视频帧率为常用的视频帧率即可，如25帧/秒或30帧/秒。

在一些实施例中，训练视频文件包括若干视频帧，每一个视频帧即为某一时刻该视频的静止画面，训练过程中，每一步训练迭代时，从训练视频中任意选取两个不同的视频帧，一个视频帧作为源图像，另一个视频帧作为驱动图像，将源图像和驱动图像输入至待训练动作迁移模型中，得到目标图像，每一步训练迭代的优化目标是目标图像与驱动图像相同。

在一些实施例中，若训练视频中运动的人或物体占视频帧图像的比例较大，则不需要额外的处理；若运动的人或物体占视频帧图像的比例较小，则需要使用手动裁剪方法或自动裁剪方法，将视频中运动的人或物体所在的视频图像子区域提取出来，产生新的视频用于训练。

在一些实施例中，手动裁剪方法可以通过人工观察训练视频的所有视频帧，在每一个视频帧中划定一固定区域，使得此训练视频的每一个视频帧中的人或物体在此区域内，将所有视频帧中的此区域裁剪出来，组合成为新的训练视频。

在一些实施例中，自动裁剪方法可以通过人脸、人体、动物或物体检测算法，自动检测训练视频的每一个视频帧中运动的人或物体所在的区域，并根据所有视频帧中检测出的区域，计算出一更大的图像区域，使得所有视频帧的检测区域均为此更大区域的子集，并将所有视频帧中该更大区域提取出来，产生新的仅包含运动的人或物体区域的视频。

在一种实现方式中，自动裁剪方法可以获取所述源图像的有效区域面积，所述有效区域面积即为上述检测区域，将源图像的有效区域面积确定为第一面积，计算所述第一面积在源图像中的面积占比；判定第一面积在源图像中的面积占比是否小于第一预设值，第一预设值是第一面积在源图像中的面积占比的阈值；若是，则对源图像进行预处理，以使所述第一面积在源图像中的面积占比大于或等于所述第一预设值。

进一步地，获取驱动图像的有效区域面积，将驱动图像的有效区域面积确定为第二面积，计算第二面积在驱动图像中的面积占比；判定第二面积在驱动图像中的面积占比是否小于第二预设值，第二预设值是第二面积在驱动图像中的面积占比的阈值；

若是，则对驱动图像进行预处理，以使第二面积在驱动图像中的面积占比大于或等于第二预设值。

S120，将源图像和驱动图像输入至待训练动作迁移模型，待训练动作迁移模型根据初始模型参数执行S130-S170步骤；

S130，获取源图像的源关键点坐标组；

在一些实施例中，将源图像和驱动图像输入至待训练动作迁移模型之前，还可以对源图像和驱动图像进行降采样，减小源图像与驱动图像尺寸，以保证对源图像和驱动图像中的关键点检测的稳定性。例如，若源图像与驱动图像的尺寸均为512像素×512像素，降采样后，源图像与驱动图像尺寸均变为256像素×256像素。需要说明的是，此降采样过程为可选过程，对源图像与驱动图像进行降采样，可以使生成的目标图像稳定性较好，避免出现过多抖动的现象。

在一些实施例中，源关键点坐标组是源图像的源关键点坐标K_Sn合集，源关键点坐标 K_Sn是源图像中的人或物体的结构上的特征点，例如，人脸视频中的人脸特征点，人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频，可以通过手动标注此类视频中的人或物体的结构特征点，或训练一特定模型来提取结构特征点。从源图像中提取N_s个源关键点坐标K_Sn关键点坐标并保存。N_s必须大于0，一般情况下不大于10。 N_s的数值不做强制限制可以根据需要自行选择，因为N_s的数值不影响本发明流程，但影响本发明所提方法所获得的效果，N_s的数值越大，则本发明所提供的训练效果越好。

S140，获取驱动图像的驱动关键点坐标组；

在一些实施例中，驱动关键点坐标组是驱动图像的源关键点坐标K_Dn合集，驱动关键点坐标K_Dn是训练视频中运动的人或物体的结构上的特征点，例如，人脸视频中的人脸特征点，人运动视频中的人体骨架关节点等。若训练视频为动物运动视频或动画视频，可以通过手动标注此类视频中的人或物体的结构特征点，或训练一特定模型来提取结构特征点。从驱动图像中提取N_s个驱动关键点坐标K_Dn关键点坐标并保存。N_s必须大于0，一般情况下不大于10。N_s的数值不做强制限制可以根据需要自行选择，因为N_s的数值不影响本发明流程，但影响本发明所提方法所获得的效果，N_s的数值越大，则本发明所提供的训练效果越好。

S150，根据源关键点坐标组和驱动关键点坐标组，获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图/>

在一些实施例中，可以根据源关键点坐标组和驱动关键点坐标组，获取零阶运动信息H_n(z)，零阶运动信息H_n(z)包括每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的平移变换参数；

更为具体的，参见图2，零阶运动信息H_n(z)可以通过如下步骤获得：

S210：获取以源关键点坐标组中的每个源关键点坐标K_Sn为中心的高斯热力图，将以源关键点坐标K_Sn为中心的高斯热力图记为G_S(p_n)；

S220：获取以驱动关键点坐标组中的每个驱动关键点坐标K_Dn为中心的高斯热力图，将以驱动关键点坐标K_Dn为中心的高斯热力图记为G_D(p_n)；

S230：零阶运动信息H_n(z)＝G_D(p_n)-G_S(p_n)。

在一些实施例中，可以根据源关键点坐标组和驱动关键点坐标组，获取与源关键点坐标K_Sn关联的源局部仿射变换参数和与驱动关键点坐标K_Dn关联的驱动局部仿射变换参数；

根据源关键点坐标组、驱动关键点坐标组、源局部仿射变换参数和驱动局部仿射变换参数，获取一阶运动信息一阶运动信息/>包括每一个驱动关键点坐标 K_Dn到其对应的源关键点坐标K_Sn发生的局部仿射变换的参数；

更为具体的，一阶运动信息其中，K_Sn是所述源关键点坐标组中的所述源关键点坐标K_Sn，J_Sn是所述源局部仿射变换参数，K_Dn是所述驱动关键点坐标组中的所述驱动关键点坐标K_Dn，J_Dn是所述驱动局部仿射变换参数，z是所述驱动关键点坐标K_Dn的矩阵。

在一些实施例中，可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息H_n(z)、一阶运动信息计算每一个驱动关键点坐标K_Dn到其对应的源关键点坐标K_Sn发生的全局仿射变换的参数，并得到对应的光流图/>和重绘图/>

更为具体的，可通过如下步骤获取光流图和重绘图/>

在零阶运动信息H_n(z)中插入第一矩阵H₀(z)，第一矩阵H₀(z)是一个全零矩阵；将一阶运动信息作用于源关键点坐标组中的每一个源关键点坐标K_Sn，以获取对应的仿射变换图像组，记为S¹,S²,…,S^N；

在仿射变换图像组中插入源图像S⁰；

根据插入第一矩阵H₀(z)后的零阶运动信息H_n(z)、插入源图像S⁰后的仿射变换图像组，得到像素掩模组，记为M₀,M₁,M₂,…,M_N，像素掩模用于描述像素点坐标的运动状态；

根据像素掩模组M₀,M₁,M₂,…,M_N，插入第一矩阵H₀(z)后的零阶运动信息H_n+1(z)、一阶运动信息得到全局仿射变换的参数，全局仿射变换的参数即为光流图光流图/>

根据源关键点坐标组、驱动关键点坐标组、零阶运动信息H_n+1(z)、一阶运动信息通过卷积注意力层，得到源图像对应的重绘图/>重绘图/>用于描述在所述目标图像生成过程中需要生成的像素点坐标信息。

S160，获取源图像的隐层特征图，根据隐层特征图、光流图和重绘图获取目标图像；

其中，目标图像是将驱动图像中与驱动关键点坐标K_Dn相关联的待迁移动作迁移至源关键点坐标K_Sn后得到的图像；

在一些实施例中，可以通过具有编码器-解码器结构的卷积神经网生成模型，获取所述源图像的隐层特征图，并根据得到的光流图重绘图/>以及所述隐层特征图，获取目标图像。

更为具体的，可以将所述隐层特征SR_E(S)与所述光流图拼接，得到的拼接结果与所述重绘图/>相乘，以输出目标视频，若用D_r表示目标视频，则：

S170，根据目标图像、源图像以及驱动图像，计算损失函数，并根据损失函数优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

在一些实施例中，损失函数可以包括有监督关键点损失函数无监督关键点损失函数/>无监督局部仿射变换损失函数/>感知损失函数L_P以及所述辨别器损失函数/>

在一些实施例中，源关键点坐标K_Sn包括有监督关键点坐标K_S,s和无监督关键点坐标 K_S,us，所述有监督关键点坐标K_S,s与已知结构关键点坐标K_S数量相同，已知结构关键点坐标K_S是已知的所述源图像关键点的实际坐标，可以将有监督关键点坐标K_S,s和已知结构关键点坐标K_S的数量均记为N_s，N_s的数值不做强制限制可以根据需要自行选择，因为N_s的数值不影响本发明流程，但影响本发明所提方法所获得的效果，N_s的数值越大，则本发明所提供的训练效果越好。

在一些实施例中，有监督关键点坐标K_S,s和无监督关键点坐标K_S,us是源图像中的人或物体的结构上的特征点，例如，人脸视频中的人脸特征点，人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频，可以通过手动标注此类视频中的人或物体的结构特征点，或训练一特定模型来提取结构特征点。

驱动关键点坐标K_Dn包括有监督关键点坐标K_D,s和无监督关键点坐标K_D,us；所述有监督关键点坐标K_D,s与已知结构关键点坐标K_I数量相同，已知结构关键点坐标K_I是已知的所述驱动图像关键点的实际坐标，可以将有监督关键点坐标K_D,s与已知结构关键点坐标K_I的数量均记为N_s，N_s的数值不做强制限制可以根据需要自行选择，因为N_s的数值不影响本发明流程，但影响本发明所提方法所获得的效果，N_s的数值越大，则本发明所提供的训练效果越好。

在一些实施例中，有监督关键点坐标K_D,s和无监督关键点坐标K_D,us是驱动图像中的人或物体的结构上的特征点，例如，人脸视频中的人脸特征点，人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频，可以通过手动标注此类视频中的人或物体的结构特征点，或训练一特定模型来提取结构特征点。

在一些实施例中，从驱动图像中提取已知结构关键点坐标K_I和有监督关键点坐标K_D,s，计算已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异，得到的结果即为有监督关键点损失函数具体的，可通过以下公式计算已知结构关键点坐标K_I和有监督关键点坐标K_D,s之间的L₁距离，所述L₁距离即为已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异：

其中,n为关键点序号。

需要说明的是，除使用L₁距离可以描述已知结构关键点坐标K_I和有监督关键点坐标 K_D,s的差异外，还可以使用L₂距离或其他回归损失函数描述已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异。

在一些实施例中，无监督关键点损失函数可通过如下方式获取：

获取经过薄板样条变换后的驱动图像D_tps；

获取所述经过薄板样条变换后的驱动图像D_tps的无监督关键点K_D,us,tps；

将K_D,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点K_D,us,r，K_D,us,r与K_D,us相同；

计算K_D,us,r与K_D,us的差异即为无监督关键点损失函数

具体的，可通过以下公式计算K_D,us,r与K_D,us之间的L₁距离，所述L₁距离即为K_D,us,r与K_D,us的差异：

其中，n为关键点序号。

需要说明的是，除使用L₁距离可以描述K_D,us,r与K_D,us的差异外，还可以使用L₂距离或其他回归损失函数描述K_D,us,r与K_D,us的差异。

在一些实施例中，由于没有已知的局部仿射变换参数，无法通过有监督方式计算局部仿射变换损失函数，因此需要无监督方式计算局部仿射变换损失函数。与上述计算无监督关键点损失函数类似，无监督局部仿射变换损失函数可通过如下方式获取：

获取驱动图像的有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部放射变换参数J_D；

获取经过薄板样条变换后的驱动图像D_tps；

获得有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部放射变换参数J_D,tps；将J_D,tps做薄板样条逆变换获得驱动图像空间下的J_D,r；

计算J_D,r与J_D的差异即为无监督局部仿射变换损失函数

具体的，可通过以下公式计算J_D,r与J_D之间的L₁距离，所述L₁距离即为J_D,r与J_D的差异：

需要说明的是，除使用L₁距离可以描述J_D,r与J_D的差异外，还可以使用L₂距离或其他回归损失函数描述J_D,r与J_D的差异。

需要说明的是，在计算上述有监督关键点损失函数无监督关键点损失函数与无监督局部仿射变换损失函数/>时，上述使用的变量均来自驱动图像。原因为，在训练过程中随机从训练视频中提取两帧图像，一帧作为源图像，一帧作为驱动图像，且这两帧图像是可以交换的，即视频中的帧图像在某次训练迭代中作为源图像，在另一次训练迭代中作为驱动图像。因此，上述损失函数仅对驱动图像提供的上述变量进行计算。

将上述计算的有监督关键点损失函数、无监督关键点损失函数与无监督局部仿射变换损失函数合并，用于关键点检测模块的优化。合并方法如以下公式所示：

其中，c₁,c₂,c₃分别为有监督关键点损失函数无监督关键点损失函数/>与无监督局部仿射变换损失函数/>的系数，可以根据实际需要人工设置，示例性的，可分别将 c₁,c₂,c₃设置为100、100、50，此三个损失函数系数也可使用其他值，在此不作限制。

在一些实施例中，感知损失函数L_P可以通过使用一组神经网络模型P得到，具体的，可以将目标图像和驱动图像一同输入神经网络模型P中，获得中间隐层的特征图输出，分别计算目标图像和驱动图像输入获得的特征图的L₁距离，如以下公式所示：

其中，为神经网络模型P所有被使用的中间隐层层数，l为神经网络模型P的某层中间隐层，H_l和W_l为l层输出特征图的高度和宽度。

需要说明的是，在计算感知损失函数L_P的过程中，计算目标图像和驱动图像的输入获得的不同特征图的差异时，并不限制使用L₁距离，也可使用其他任何可以度量差异的可微的损失函数，也可使用其他任何度量图像相似度的可微的损失函数。神经网络模型 P可以为现有图像任务的模型或设计新模型。神经网络模型P的参数可以随机生成，也可以由某项图像任务预训练生成，也可在本发明模型训练过程中学习产生。

辨别器损失函数可以通过辨别器/>获取，辨别器/>用于判断输入图像为真实图像或为生成图像。在本发明中，真实图像为每个训练迭代中输入的驱动图像，生成图像为上述超分辨率生成模型的输出图像。辨别器/>可以优化超分辨率生成模型，使超分辨率生成模型输出的图像更接近真实图像。辨别器由卷积层、全连接层、激活层、池化层、归一化层等神经网络基本结构构成。可以使用现有的生成对抗网络的辨别器/>结构，也可使用基本结构自行设计辨别器。

在一些实施例中，辨别器是一个用于二分类的模型，因此，使用常用的交叉熵损失函数即可。交叉熵损失函数图可通过如下公式得到：

其中，x为输入辨别器的图像，y_x为此图像的标签。当输入辨别器/>的图像x为真实驱动图像时，y_x为1；当输入辨别器/>的图像为动作迁移图像时，y_x为0。/>为图像输入辨别器/>后的输出，其值表示输入图像为真实图像的概率，除使用交叉熵损失函数用于辨别器分类外，也可以使用其他用于分类的损失函数。

需要说明的是，上述所有损失函数均是在一帧源图像与一帧驱动图像作为输入的情况下，获得动作迁移模型各模块的输出后计算出来的。若在训练迭代中输入批数据，一次输入多帧源图像与多帧驱动图像，则会计算出多组损失函数。在这种情况下，计算此多组损失函数的均值代表此次训练迭代的损失函数计算结果。

S190：根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>优化所述初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

更为具体的，计算出上述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>后，进行反向传播过程，根据计算出的有监督关键点损失函数/>所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>对模型中各组件的参数计算梯度，使用梯度下降方法优化更新模型中各组件参数。需要说明的是，模型训练过程包含若干轮次，每个轮次均执行上述模型训练过程，直到达成训练终止条件，完成训练，得到目标动作迁移模型。

进一步地，本申请提供的动作迁移模型的训练方法，具体实施例包括如下步骤：

(1)收集若干人脸彩色视频片段，分辨率为720P，帧率为25帧/秒；

(2)通过dlib人脸检测算法，从视频中裁剪出仅包含完整人脸区域的视频，将视频每帧图像的尺寸调整为512像素×512像素，此视频每帧图像将作为源图像与驱动图像输入动作迁移模型；

(3)使用上述仅包含完整人脸区域的视频，使用dlib人脸关键点检测算法，逐帧获得 5个已知的人脸关键点坐标K_I，此处5关键点分别为左眼中心、右眼中心、鼻尖、左侧嘴角与右侧嘴角；

(4)某次训练迭代中，从上述包含完整人脸区域的视频中，随机选择一帧图像作为源图像S，随机算侧另外一帧图像作为驱动图像D；

(5)对上述随机选取的源图像与驱动图像做降采样，将图像尺寸调整为256像素×256 像素；

(6)将源图像输入待训练的动作迁移模型，获得源图像的关键点K_S及局部仿射变换参数J_S；将驱动图像输入同动作迁移模型，获得驱动图像的关键点K_D及局部放射变换参数J_D；

(7)根据使用上述K_S、J_S、K_D与J_D，计算出驱动图像像素变换至源图像像素所做的零阶运动信息H_n(z)与一阶运动信息

(8)通过上述得到的零阶运动信息H_n(z)、一阶运动信息以及源图像，计算出驱动图像像素坐标变换至源图像像素坐标所需的像素全局运动信息，即光流图同时获得重绘图/>

(9)获取源图像的隐层特征图SR_E(S)，根据该隐层特征图SR_E(S)、光流图以及重绘图/>得到目标图像；

(10)根据目标图像、源图像以及驱动图像，计算损失函数，并根据损失函数优化初始模型参数，直至达到模型收敛条件，完成训练，训练过程包含若干轮次，每个轮次均执行上述模型训练过程，得到目标动作迁移模型。

匹配上述模型训练过程的模型推断过程的实施例进行描述：

(1)准备一人脸图像作为源图像，一人脸视频作为驱动视频；源图像与驱动视频图像尺寸均为512像素×512像素；

(2)对上述源图像与驱动视频图像做降采样，将图像尺寸调整为256像素×256像素；

(3)将源图像输入训练好的动作迁移模型，获得并保存源图像的关键点及局部仿射变换参数；将驱动视频逐帧图像作为驱动图像输入同一动作迁移模型，获得并保存所有驱动图像的关键点及局部放射变换参数；

(4)根据源图像的关键点及局部仿射变换参数、驱动图像的关键点及局部放射变换参数，获取对应的隐层特征图SR_E(S)、光流图以及重绘图/>

(5)根据得到的隐层特征图SR_E(S)、光流图以及重绘图/>获取驱动视频每个视频帧对应的目标图像，将逐帧获得的目标图像合并为目标动作迁移视频，目标动作迁移视频中为源图像人脸，其动作与驱动视频中人脸一致。

需要说明的是，上述模型训练和模型推断过程中，dlib人脸检测算法可替换为其他方法，此处仅为说明实施例而列举的特征方法。

第二方面，本申请还提供一种动作迁移方法，包括：

将所述源图像和所述驱动视频的视频帧输入至动作迁移模型中，合成目标视频，其中，所述动作迁移模型为采用本申请提供的模型训练方法训练得到的。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的动作迁移模型的训练方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称： ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种动作迁移模型的训练方法，其特征在于，包括：

获取训练视频文件，其中，所述训练视频为包含运动的人或物体的视频；

根据所述运动的人或物体的占有比例，提取所述训练视频文件的子区域图像，所述子区域图像为根据所述占有比例裁剪的源图像和驱动图像；

获取所述源图像的源关键点坐标组，所述源关键点坐标组是所述源图像的源关键点坐标K_Sn合集，所述源关键点坐标K_Sn是源图像中的人或物体的结构上的特征点；

获取所述驱动图像的驱动关键点坐标组，所述驱动关键点坐标组是所述驱动图像的驱动关键点坐标K_Dn合集，所述驱动关键点坐标K_Dn是训练视频中运动的人或物体的结构上的特征点坐标；

从所述驱动图像中提取已知结构关键点坐标K_I和有监督关键点坐标K_D,s，并计算有监督关键点损失函数所述有监督关键点损失函数/>为所述已知结构关键点坐标K_I和所述有监督关键点坐标K_D,s的差异，所述差异通过以下公式计算：

其中，n为关键点序号；

获取经过薄板样条变换后的驱动图像D_tps；

将K_D,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点K_D,us,r，其中，K_D,us,r与K_D,us相同，并计算监督关键点损失函数/>所述监督关键点损失函数/>为K_D，us，r与K_D，us的差异，所述差异通过以下公式计算：

其中，n为关键点序号；

获取驱动图像的有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部仿射变换参数J_D；

获取经过薄板样条变换后的驱动图像D_tps；

获得有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部仿射变换参数J_D,tps；

将J_D,tps做薄板样条逆变换获得驱动图像空间下的J_D,r，并计算无监督局部仿射变换损失函数，所述无监督局部仿射变换损失函数为J_D,r与J_D的差异，所述差异通过以下公式计算：

将所述目标图像和所述驱动图像输入至神经网络模型P中，得到中间隐层的特征图输出，通过下式分别计算所述目标图像和所述驱动图像输入获取的特征图的的L₁距离：

其中，为神经网络模型P所有被使用的中间隐层层数，l为神经网络模型P的某层中间隐层，H_l和W_l为l层输出特征图的高度和宽度；

通过辨别器D获取辨别器损失函数L_D；

根据所述监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>感知损失函数L_P以及所述辨别器损失函数/>对初始模型执行反向传播，以及计算所述初始模型参数的梯度，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

2.根据权利要求1所述的方法，其特征在于，获取训练视频文件，所述训练视频文件包括源图像和驱动图像，包括：

3.根据权利要求2所述的方法，其特征在于，获取所述源图像的源关键点坐标组之前，包括：

4.根据权利要求3所述的方法，其特征在于，获取所述驱动图像的驱动关键点坐标组之前，包括：

5.根据权利要求2所述的方法，其特征在于，根据所述源关键点坐标组和所述驱动关键点坐标组，获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>包括：

根据所述源关键点坐标组和所述驱动关键点坐标组，获取零阶运动信息所述零阶运动信息/>包括每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的平移变换参数；

根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息所述一阶运动信息/>计算每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的全局仿射变换的参数，并得到对应的光流图/>和重绘图/>

6.根据权利要求5所述的方法，其特征在于，根据所述源关键点坐标组和所述驱动关键点坐标组，获取零阶运动信息包括：

获取以所述源关键点坐标组中的每个所述源关键点坐标K_Sn为中心的高斯热力图，将以源关键点坐标K_Sn为中心的高斯热力图记为G_S(p_n)；

获取以所述驱动关键点坐标组中的每个所述驱动关键点坐标K_Dn为中心的高斯热力图，将以驱动关键点坐标K_Dn为中心的高斯热力图记为G_D(p_n)；

所述零阶运动信息

7.根据权利要求6所述的方法，其特征在于，根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所述驱动局部仿射变换参数，获取一阶运动信息包括

所述一阶运动信息

其中，K_Sn是所述源关键点坐标组中的所述源关键点坐标K_Sn，J_Sn是所述源局部仿射变换参数，K_Dn是所述驱动关键点坐标组中的所述驱动关键点坐标K_Dn，J_Dn是所述驱动局部仿射变换参数，是所述驱动关键点坐标K_Dn的矩阵。

8.根据权利要求7所述的方法，其特征在于，根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息所述一阶运动信息/>计算每一个所述驱动关键点坐标K_Dn到其对应的所述源关键点坐标K_Sn发生的全局仿射变换的参数，并得到对应的光流图/>和重绘图/>包括：

在所述零阶运动信息中插入第一矩阵/>所述第一矩阵H₀(z)是一个全零矩阵；将所述一阶运动信息/>作用于所述源关键点坐标组中的每一个所述源关键点坐标K_Sn，以获取对应的仿射变换图像组，记为S¹,S²,…,S^N；

在所述仿射变换图像组中插入源图像S⁰；

根据插入所述第一矩阵后的所述零阶运动信息/>插入源图像S⁰后的所述仿射变换图像组，得到像素掩模组，记为M₀,M₁,M₂,…,M_N，所述像素掩模用于描述像素点坐标的运动状态；

根据所述像素掩模组M₀,M₁,M₂,…,M_N，插入所述第一矩阵后的零阶运动信息所述一阶运动信息/>得到所述全局仿射变换的参数，所述全局仿射变换的参数即为光流图/>所述光流图/>

根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息所述一阶运动信息/>通过卷积注意力层，得到所述源图像对应的重绘图/>所述重绘图/>用于描述在所述目标图像生成过程中需要生成的像素点坐标信息。

9.根据权利要求1所述的方法，其特征在于，获取所述源图像的隐层特征图，根据所述隐层特征图、所述光流图和所述重绘图，获取目标图像，包括：

10.一种动作迁移方法，其特征在于，包括：

将所述源图像和所述驱动视频的视频帧输入至动作迁移模型中，合成目标视频，其中，所述动作迁移模型为采用权利要求1-9任一项训练方法训练得到的。