CN113870315B

CN113870315B - 基于多算法集成的动作迁移模型训练方法及动作迁移方法

Info

Publication number: CN113870315B
Application number: CN202111211258.2A
Authority: CN
Inventors: 司马华鹏; 屈奇勋; 范宏伟; 李佳斌
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2023-08-25
Anticipated expiration: 2041-10-18
Also published as: CN113870315A

Abstract

本申请提供一种动作迁移模型的训练方法及动作迁移方法，所述训练方法通过将源图像和驱动图像输入至待训练动作迁移模型，获取已知结构关键点坐标、有监督关键点坐标、无监督关键点坐标、有监督关键点坐标和无监督关键点坐标，得到有监督关键点损失函数、无监督关键点损失函数以及无监督局部仿射变换损失函数。并根据前述损失函数，优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。本申请提供的动作迁移模型的训练方法及动作迁移方法，只需运用少量的数据，即可完成对动作迁移模型的训练，训练后的模型更稳定，在进行动作迁移时输出的目标视频效果更好。

Description

基于多算法集成的动作迁移模型训练方法及动作迁移方法

技术领域

本申请涉及图像处理领域，尤其涉及一种动作迁移模型的训练方法及动作迁移方法。

背景技术

动作迁移是图像处理领域中一种重要的图像编辑技术，是指将驱动视频中的人物动作迁移到源图像中的人物身上，在保留源图像中人物外观的基础上，使源图像中的人物与目标视频中的人物保持同步运动。

在现有的方案中，可通过向训练好的动作迁移模型中输入一段驱动视频和一张源图像，获取目标视频。目标视频的迁移效果与对动作迁移模型的训练程度有关，对动作迁移模型的训练常采用输入一张源图像和一张驱动图像，分别检测源图像和驱动图像的关键点，并在源图像和驱动图像的关键点附近区域作仿射变换，以训练出稳定的动作迁移模型。

上述的模型训练方法为基于无监督形式的训练方法，此无监督形式的模型训练方法需要运用大量的图像数据。当图像数据量较少时，使用该训练方法获得的动作迁移模型不稳定，输出的目标视频效果不好。

发明内容

本申请提供了一种动作迁移模型的训练方法及动作迁移方法，只需运用少量的数据，即可完成对动作迁移模型的训练，训练后的模型更稳定，输出的目标视频效果更好。

一方面，本申请提供了一种动作迁移模型的训练方法，包括：

获取训练视频文件，所述训练视频文件包括源图像和驱动图像；

将所述源图像和所述驱动图像输入至待训练动作迁移模型，所述待训练动作迁移模型根据初始模型参数执行以下步骤：

获取所述源图像的源关键点坐标组，所述源关键点坐标组包括有监督关键点坐标K_S,s和无监督关键点坐标K_S,us；

获取所述驱动图像的驱动关键点坐标组，所述驱动关键点坐标组包括有监督关键点坐标K_D,s和无监督关键点坐标K_D,us；

根据已知结构关键点坐标K_I、有监督关键点坐标K_S,s、无监督关键点坐标K_S,us、有监督关键点坐标K_D,s和无监督关键点坐标K_D,us，获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>所述已知结构关键点坐标K_I是已知的所述驱动图像关键点的实际坐标；

获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>

获取所述源图像的隐层特征图，根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像，所述目标图像是将所述驱动图像中与所述驱动关键点坐标K_D,sn相关联的待迁移动作迁移至所述源关键点坐标K_S,sn后得到的图像；

根据所述目标图像、所述源图像以及所述驱动图像，计算感知损失函数L_P以及辨别器损失函数

根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>优化所述初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

可选的，获取训练视频文件，所述训练视频文件包括源图像和驱动图像，包括：

获取训练视频文件，所述训练视频文件包括若干视频帧，提取任意两个视频帧，将其中一个视频帧确定为源图像，另一个视频帧确定为驱动图像。

可选的，获取所述源图像的源关键点坐标组之前，包括：

获取所述源图像的有效区域面积，将所述源图像的有效区域面积确定为第一面积，计算所述第一面积在所述源图像中的面积占比；

判定所述第一面积在所述源图像中的面积占比是否小于第一预设值，所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值；

若是，则对所述源图像进行预处理，以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。

可选的，获取所述驱动图像的驱动关键点坐标组之前，包括：

获取所述驱动图像的有效区域面积，将所述驱动图像的有效区域面积确定为第二面积，计算所述第二面积在所述驱动图像中的面积占比；

判定所述第二面积在所述驱动图像中的面积占比是否小于第二预设值，所述第二预设值是所述第二面积在所述驱动图像中的面积占比的阈值；

若是，则对所述驱动图像进行预处理，以使所述第二面积在所述驱动图像中的面积占比大于或等于所述第二预设值。

可选的，所述有监督关键点损失函数的计算方法为：

可选的，根据已知结构关键点坐标K_I、有监督关键点坐标K_S,s、无监督关键点坐标K_S,us、有监督关键点坐标K_D,s和无监督关键点坐标K_D,us，获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>包括：

获取经过薄板样条变换后的驱动图像D_tps；

获取所述经过薄板样条变换后的驱动图像D_tps的无监督关键点K_D,us,tps；

将K_D,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点K_D,us,r，K_D,us,r与K_D,us相同；

计算K_D,us,r与K_D,us的差异即为无监督关键点损失函数

获取所述驱动图像的有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部仿射变换参数J_D；

获取经过薄板样条变换后的驱动图像D_tps；

获取所述经过薄板样条变换后的驱动图像D_tps的局部仿射变换参数J_D,tps；

将J_D,tps做薄板样条逆变换获取驱动图像空间下的局部仿射变换参数J_D,r，J_D,r与J_D相同；

计算J_D,r与J_D的差异即为无监督局部仿射变换损失函数

可选的，根据所述目标图像、所述源图像以及所述驱动图像，计算感知损失函数L_P，包括：

将所述目标图像和所述驱动图像输入至神经网络P中，分别得到所述目标图像的中间隐层特征图和所述驱动图像的中间隐层特征图；

所述目标图像的中间隐层特征图到所述驱动图像的中间隐层特征图的距离即为所述感知损失函数L_P：

其中，D_r为所述目标图像，D为所述驱动图像，为神经网络P所有被使用的中间隐层层数，l为神经网络P的任意一层中间隐层，H_l和W_l为l层输出的特征图的高度和宽度。

可选的，采用计算交叉熵损失函数的方法对所述辨别器损失函数进行计算。

另一方面，本申请还提供了一种动作迁移方法，包括：

获取源图像和驱动视频，所述驱动视频包括按时间顺序排序的视频帧；

将所述源图像和所述驱动视频的视频帧输入至训练好的动作迁移模型中，合成目标视频，其中，所述动作迁移模型为采用上述训练方法训练得到的。

由以上技术方案可知，所述训练方法通过将源图像和驱动图像输入至待训练动作迁移模型，获取已知结构关键点坐标K_I、有监督关键点坐标K_S,s、无监督关键点坐标K_S,us、有监督关键点坐标K_D,s和无监督关键点坐标K_D,us，得到有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>并根据前述损失函数，优化初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。本申请提供的动作迁移模型的训练方法及动作迁移方法，只需运用少量的数据，即可完成对动作迁移模型的训练，训练后的模型更稳定，在进行动作迁移时输出的目标视频效果更好。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种动作迁移模型的训练方法的流程图；

图2为本申请提供的零阶运动信息的获取流程图；

图3为本申请提供的一种动作迁移方法的流程图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

第一方面，本申请公开了一种动作迁移模型的训练方法，该方法通过将一段训练视频文件输入至待训练动作迁移模型，以使所述待训练动作迁移模型根据初始模型参数执行训练过程，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。为便于说明，在下述实施例中，将对待训练动作迁移模型的训练过程称为模型训练过程。将训练得到的目标动作迁移模型的运用过程称为模型推断过程。

本申请提供的动作迁移模型的训练方法，参见图1，该方法可以包括如下步骤：

一种动作迁移模型的训练方法，其特征在于，包括：

S110：获取训练视频文件，所述训练视频文件包括源图像和驱动图像；

示例性的，获取的训练视频文件包括但不限于人脸视频、人运动视频、动物运动视频、物体运动视频、动画视频等包含运动的人或物体的视频，视频时长可以根据需求自行选择，一般选取的时长在10秒左右，视频分辨率为720P、1080P的训练视频为佳。视频帧率为常用的视频帧率即可，如25帧/秒或30帧/秒。

在一些实施例中，训练视频文件包括若干视频帧，每一个视频帧即为某一时刻该视频的静止画面，训练过程中，每一步训练迭代时，从训练视频中任意选取两个不同的视频帧，一个视频帧作为源图像，另一个视频帧作为驱动图像，将源图像和驱动图像输入至待训练动作迁移模型中，得到目标图像，每一步训练迭代的优化目标是目标图像与驱动图像相同。

在一些实施例中，若训练视频中运动的人或物体占视频帧图像的比例较大，则不需要额外的处理；若运动的人或物体占视频帧图像的比例较小，则需要使用手动裁剪方法或自动裁剪方法，将视频中运动的人或物体所在的视频图像子区域提取出来，产生新的视频用于训练。

在一些实施例中，手动裁剪方法可以通过人工观察训练视频的所有视频帧，在每一个视频帧中划定一固定区域，使得此训练视频的每一个视频帧中的人或物体在此区域内，将所有视频帧中的此区域裁剪出来，组合成为新的训练视频。

在一些实施例中，自动裁剪方法可以通过人脸、人体、动物或物体检测算法，自动检测训练视频的每一个视频帧中运动的人或物体所在的区域，并根据所有视频帧中检测出的区域，计算出一更大的图像区域，使得所有视频帧的检测区域均为此更大区域的子集，并将所有视频帧中该更大区域提取出来，产生新的仅包含运动的人或物体区域的视频。

在一种实现方式中，自动裁剪方法可以获取所述源图像的有效区域面积，所述有效区域面积即为上述检测区域，将源图像的有效区域面积确定为第一面积，计算所述第一面积在源图像中的面积占比；判定第一面积在源图像中的面积占比是否小于第一预设值，第一预设值是第一面积在源图像中的面积占比的阈值；若是，则对源图像进行预处理，以使所述第一面积在源图像中的面积占比大于或等于所述第一预设值。

进一步地，获取驱动图像的有效区域面积，将驱动图像的有效区域面积确定为第二面积，计算第二面积在驱动图像中的面积占比；判定第二面积在驱动图像中的面积占比是否小于第二预设值，第二预设值是第二面积在驱动图像中的面积占比的阈值；

若是，则对驱动图像进行预处理，以使第二面积在驱动图像中的面积占比大于或等于第二预设值。

S120：将所述源图像和所述驱动图像输入至待训练动作迁移模型，所述待训练动作迁移模型根据初始模型参数执行S130-S190步骤：

在一些实施例中，将源图像和驱动图像输入至待训练动作迁移模型之前，还可以对源图像和驱动图像进行降采样，减小源图像与驱动图像尺寸，以保证对源图像和驱动图像中的关键点检测的稳定性。例如，若源图像与驱动图像的尺寸均为512像素×512像素，降采样后，源图像与驱动图像尺寸均变为256像素×256像素。需要说明的是，此降采样过程为可选过程，对源图像与驱动图像进行降采样，可以使生成的目标图像稳定性较好，避免出现过多抖动的现象。

S130：获取所述源图像的源关键点坐标组；

在一些实施例中，所述源关键点坐标组包括有监督关键点坐标K_S,s和无监督关键点坐标K_S,us所述有监督关键点坐标K_S,s与已知结构关键点坐标K_S数量相同，已知结构关键点坐标K_S是已知的所述源图像关键点的实际坐标，可以将有监督关键点坐标K_S,s和已知结构关键点坐标K_S的数量均记为N_s，N_s的数值不做强制限制可以根据需要自行选择，因为N_s的数值不影响本发明流程，但影响本发明所提方法所获得的效果，N_s的数值越大，则本发明所提供的训练效果越好。

在一些实施例中，有监督关键点坐标K_S,s和无监督关键点坐标K_S,us是源图像中的人或物体的结构上的特征点，例如，人脸视频中的人脸特征点，人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频，可以通过手动标注此类视频中的人或物体的结构特征点，或训练一特定模型来提取结构特征点。

S140：获取所述驱动图像的驱动关键点坐标组；

在一些实施例中，所述驱动关键点坐标组包括有监督关键点坐标K_D,s和无监督关键点坐标K_D,us；所述有监督关键点坐标K_D,s与已知结构关键点坐标K_I数量相同，已知结构关键点坐标K_I是已知的所述驱动图像关键点的实际坐标，可以将有监督关键点坐标K_D,s与已知结构关键点坐标K_I的数量均记为N_s，N_s的数值不做强制限制可以根据需要自行选择，因为N_s的数值不影响本发明流程，但影响本发明所提方法所获得的效果，N_s的数值越大，则本发明所提供的训练效果越好。

在一些实施例中，有监督关键点坐标K_D,s和无监督关键点坐标K_D,us是驱动图像中的人或物体的结构上的特征点，例如，人脸视频中的人脸特征点，人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频，可以通过手动标注此类视频中的人或物体的结构特征点，或训练一特定模型来提取结构特征点。

S150：根据已知结构关键点坐标K_I、有监督关键点坐标K_S,s、无监督关键点坐标K_S,us、有监督关键点坐标K_D,s和无监督关键点坐标K_D,us，获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>所述已知结构关键点坐标K_I是已知的所述驱动图像关键点的实际坐标；

在一些实施例中，从驱动图像中提取已知结构关键点坐标K_I和有监督关键点坐标K_D,s，计算已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异，得到的结果即为有监督关键点损失函数具体的，可通过以下公式计算已知结构关键点坐标K_I和有监督关键点坐标K_D,s之间的L₁距离，所述L₁距离即为已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异：

其中,n为关键点序号。

需要说明的是，除使用L₁距离可以描述已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异外，还可以使用L₂距离或其他回归损失函数描述已知结构关键点坐标K_I和有监督关键点坐标K_D,s的差异。

在一些实施例中，无监督关键点损失函数可通过如下方式获取：

获取经过薄板样条变换后的驱动图像D_tps；

计算K_D,us,r与K_D,us的差异即为无监督关键点损失函数

具体的，可通过以下公式计算K_D,us,r与K_D,us之间的L₁距离，所述L₁距离即为K_D,us,r与K_D,us的差异：

其中，n为关键点序号。

需要说明的是，除使用L₁距离可以描述K_D,us,r与K_D,us的差异外，还可以使用L₂距离或其他回归损失函数描述K_D,us,r与K_D,us的差异。

在一些实施例中，由于没有已知的局部仿射变换参数，无法通过有监督方式计算局部仿射变换损失函数，因此需要无监督方式计算局部仿射变换损失函数。与上述计算无监督关键点损失函数类似，无监督局部仿射变换损失函数可通过如下方式获取：

获取驱动图像的有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部仿射变换参数J_D；

获取经过薄板样条变换后的驱动图像D_tps；

获得有监督关键点坐标K_D,s和无监督关键点坐标K_D,us附近的局部仿射变换参数J_D,tps；将J_D,tps做薄板样条逆变换获得驱动图像空间下的J_D,r；

计算J_D,r与J_D的差异即为无监督局部仿射变换损失函数

具体的，可通过以下公式计算J_D,r与J_D之间的L₁距离，所述L₁距离即为J_D,r与J_D的差异：

需要说明的是，除使用L₁距离可以描述J_D,r与J_D的差异外，还可以使用L₂距离或其他回归损失函数描述J_D,r与J_D的差异。

需要说明的是，在计算上述有监督关键点损失函数无监督关键点损失函数与无监督局部仿射变换损失函数/>时，上述使用的变量均来自驱动图像。原因为，在训练过程中随机从训练视频中提取两帧图像，一帧作为源图像，一帧作为驱动图像，且这两帧图像是可以交换的，即视频中的帧图像在某次训练迭代中作为源图像，在另一次训练迭代中作为驱动图像。因此，上述损失函数仅对驱动图像提供的上述变量进行计算。

将上述计算的有监督关键点损失函数、无监督关键点损失函数与无监督局部仿射变换损失函数合并，用于关键点检测模块的优化。合并方法如以下公式所示：

其中，c₁,c₂,c₃分别为有监督关键点损失函数无监督关键点损失函数/>与无监督局部仿射变换损失函数/>的系数，可以根据实际需要人工设置，示例性的，可分别将c₁,c₂,c₃设置为100、100、50，此三个损失函数系数也可使用其他值，在此不作限制。

S160：获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>

在一些实施例中，光流图是所述驱动图像上的关键点坐标到所述源图像上的关键点坐标发生的全局仿射变换的参数，可通过如下方式获取：

根据源关键点坐标组和驱动关键点坐标组，获取零阶运动信息H_n(z)，零阶运动信息H_n(z)包括每一个所述驱动关键点坐标K_Dn到其对应的源关键点坐标K_Sn发生的平移变换参数；

更为具体的，参见图2，零阶运动信息H_n(z)可以通过如下步骤获得：

S210：获取以源关键点坐标组中的每个源关键点坐标K_Sn为中心的高斯热力图，将以源关键点坐标K_Sn为中心的高斯热力图记为G_S(p_n)；

S220：获取以驱动关键点坐标组中的每个驱动关键点坐标K_Dn为中心的高斯热力图，将以驱动关键点坐标K_Dn为中心的高斯热力图记为G_D(p_n)；

S230：零阶运动信息H_n(z)＝G_D(p_n)-G_S(p_n)。

在一些实施例中，可以根据源关键点坐标组和驱动关键点坐标组，获取与源关键点坐标K_Sn关联的源局部仿射变换参数和与驱动关键点坐标K_Dn关联的驱动局部仿射变换参数；

根据源关键点坐标组、驱动关键点坐标组、源局部仿射变换参数和驱动局部仿射变换参数，获取一阶运动信息一阶运动信息/>包括每一个驱动关键点坐标K_Dn到其对应的源关键点坐标K_Sn发生的局部仿射变换的参数；

更为具体的，一阶运动信息其中，K_Sn是所述源关键点坐标组中的所述源关键点坐标K_Sn，J_Sn是所述源局部仿射变换参数，K_Dn是所述驱动关键点坐标组中的所述驱动关键点坐标K_Dn，J_Dn是所述驱动局部仿射变换参数，z是所述驱动关键点坐标K_Dn的矩阵。

在一些实施例中，可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息H_n(z)、一阶运动信息计算每一个驱动关键点坐标K_Dn到其对应的源关键点坐标K_Sn发生的全局仿射变换的参数，并得到对应的光流图/>和重绘图/>

更为具体的，参见图2，可通过如下步骤获取光流图和重绘图/>

在零阶运动信息H_n(z)中插入第一矩阵H₀(z)，第一矩阵H₀(z)是一个全零矩阵；将一阶运动信息作用于源关键点坐标组中的每一个源关键点坐标K_Sn，以获取对应的仿射变换图像组，记为S¹,S²,…,S^N；

在仿射变换图像组中插入源图像S⁰；

根据插入第一矩阵H₀(z)后的零阶运动信息H_n(z)、插入源图像S⁰后的仿射变换图像组，得到像素掩模组，记为M₀,M₁,M₂,…,M_N，像素掩模用于描述像素点坐标的运动状态；

根据像素掩模组M₀,M₁,M₂,…,M_N，插入第一矩阵H₀(z)后的零阶运动信息H_n+1(z)、一阶运动信息得到全局仿射变换的参数，全局仿射变换的参数即为光流图光流图/>

在一些实施例中，重绘图用于描述在所述目标图像生成过程中需要生成的像素点坐标信息，可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息H_n+1(z)、一阶运动信息/>通过卷积注意力层获取。

S170：获取所述源图像的隐层特征图，根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像，所述目标图像是将所述驱动图像中与所述驱动关键点坐标K_D，sn相关联的待迁移动作迁移至所述源关键点坐标K_S,sn后得到的图像；

在一些实施例中，可以通过具有编码器-解码器结构的卷积神经网生成模型，获取所述源图像的隐层特征图，并根据得到的光流图重绘图/>以及所述隐层特征图，获取目标图像。

更为具体的，可以将所述隐层特征SR_E(S)与所述光流图拼接，得到的拼接结果与所述重绘图/>相乘，以输出目标视频，若用D_r表示目标视频，则：

S180：根据所述目标图像、所述源图像以及所述驱动图像，计算感知损失函数L_P以及辨别器损失函数

在一些实施例中，感知损失函数L_P可以通过使用一组神经网络模型P得到，具体的，可以将目标图像和驱动图像一同输入神经网络模型P中，获得中间隐层的特征图输出，分别计算目标图像和驱动图像输入获得的特征图的L₁距离，如以下公式所示：

其中，为神经网络模型P所有被使用的中间隐层层数，l为神经网络模型P的某层中间隐层，H_l和W_l为l层输出特征图的高度和宽度。

需要说明的是，在计算感知损失函数L_P的过程中，计算目标图像和驱动图像的输入获得的不同特征图的差异时，并不限制使用L₁距离，也可使用其他任何可以度量差异的可微的损失函数，也可使用其他任何度量图像相似度的可微的损失函数。神经网络模型P可以为现有图像任务的模型或设计新模型。神经网络模型P的参数可以随机生成，也可以由某项图像任务预训练生成，也可在本发明模型训练过程中学习产生。

辨别器损失函数可以通过辨别器/>获取，辨别器/>用于判断输入图像为真实图像或为生成图像。在本发明中，真实图像为每个训练迭代中输入的驱动图像，生成图像为上述超分辨率生成模型的输出图像。辨别器/>可以优化超分辨率生成模型，使超分辨率生成模型输出的图像更接近真实图像。辨别器由卷积层、全连接层、激活层、池化层、归一化层等神经网络基本结构构成。可以使用现有的生成对抗网络的辨别器/>结构，也可使用基本结构自行设计辨别器。

在一些实施例中，辨别器是一个用于二分类的模型，因此，使用常用的交叉熵损失函数即可。交叉熵损失函数图可通过如下公式得到：

其中，x为输入辨别器的图像，y_x为此图像的标签。当输入辨别器/>的图像x为真实驱动图像时，y_x为1；当输入辨别器/>的图像为动作迁移图像时，y_x为0。/>为图像输入辨别器/>后的输出，其值表示输入图像为真实图像的概率，除使用交叉熵损失函数用于辨别器分类外，也可以使用其他用于分类的损失函数。

需要说明的是，上述所有损失函数均是在一帧源图像与一帧驱动图像作为输入的情况下，获得动作迁移模型各模块的输出后计算出来的。若在训练迭代中输入批数据，一次输入多帧源图像与多帧驱动图像，则会计算出多组损失函数。在这种情况下，计算此多组损失函数的均值代表此次训练迭代的损失函数计算结果。

S190：根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>优化所述初始模型参数，直至达到模型收敛条件，完成训练，得到目标动作迁移模型。

更为具体的，计算出上述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>后，进行反向传播过程，根据计算出的有监督关键点损失函数/>所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数L_P以及所述辨别器损失函数/>对模型中各组件的参数计算梯度，使用梯度下降方法优化更新模型中各组件参数。需要说明的是，模型训练过程包含若干轮次，每个轮次均执行上述模型训练过程，直到达成训练终止条件，完成模型的训练。

进一步地，本申请提供的动作迁移模型的训练方法，具体实施例包括如下步骤：

(1)收集若干人脸彩色视频片段，分辨率为720P，帧率为25帧/秒；

(2)通过dlib人脸检测算法，从视频中裁剪出仅包含完整人脸区域的视频，将视频每帧图像的尺寸调整为512像素×512像素，此视频每帧图像将作为源图像与驱动图像输入待训练的动作迁移模型；

(3)使用上述仅包含完整人脸区域的视频，使用dlib人脸关键点检测算法，逐帧获得5个已知的人脸关键点坐标K_I，此处5关键点分别为左眼中心、右眼中心、鼻尖、左侧嘴角与右侧嘴角；

(4)某次训练迭代中，从上述包含完整人脸区域的视频中，随机选择一帧图像作为源图像S，随机算侧另外一帧图像作为驱动图像D；

(5)对上述随机选取的源图像与驱动图像做降采样，将图像尺寸调整为256像素×256像素；

(6)使用UNet作为检测源图像与驱动图像的关键点坐标，将源图像输入UNet，获得源图像的关键点K_S及局部仿射变换参数J_S；将驱动图像输入UNet，获得驱动图像的关键点K_D及局部仿射变换参数J_D；

(7)使用上述K_S、J_S、K_D与J_D，计算出驱动图像像素坐标变换至源图像像素坐标所需的像素全局运动信息，即光流图同时获得重绘图/>

(9)获取源图像的隐层特征图SR_E(S)，根据光流图重绘图/>以及隐层特征图SR_E(S)，获得目标图像；

(10)使用上述已知人脸关键点坐标K_I与驱动图像的有监督关键点K_D,s，计算有监督关键点损失

(11)使用上述驱动图像经过关键点检测模型获得的无监督关键点K_D,us，计算无监督关键点损失

(12)使用上述驱动图像经过关键点检测模型获得的局部仿射变换J_D，计算无监督局部仿射变换损失

(13)合并上述与/>计算L_K，其中c₁＝50,c₂＝100,c₃＝100；

(14)使用VGG19作为感知损失提取网络，使用上述驱动图像与目标图像，计算感知损失L_P；

(15)使用上述驱动图像与目标图像，计算辨别器损失

(16)进行反向传播过程，对模型中各组件的参数计算梯度，使用Adam优化器更新模型中各组件参数；使用L_K对关键点检测模型参数进行优化，使用L_P对动作估计模型与超分辨率生成模型参数，使用对辨别器参数进行优化；

(17)模型训练过程包含若干轮次，每个轮次均执行上述模型训练过程，直到达成训练终止条件，完成模型的训练；保存关键点检测模型、动作估计模型与超分辨率生成模型用于推断过程。

匹配上述模型训练过程的模型推断过程的实施例进行描述：

(1)准备一人脸图像作为源图像，一人脸视频作为驱动视频；源图像与驱动视频图像尺寸均为512像素×512像素；

(2)对上述源图像与驱动视频图像做降采样，将图像尺寸调整为256像素×256像素；

(3)将源图像输入训练好的动作迁移模型，获得并保存源图像的关键点及局部仿射变换参数；将驱动视频逐帧图像作为驱动图像输入训练好的动作迁移模型，获得并保存所有驱动图像的关键点及局部仿射变换参数；

(4)使用上述关键点平滑方法，以某帧驱动图像为中心，对其前f帧至其后f帧范围内的关键点与仿射变换参数进行平滑，平滑结果作为当前帧驱动图像的关键点与仿射变换参数；此处平滑窗口宽度f为5；完成对驱动视频所有帧图像的关键点与仿射变换参数的平滑；

(5)根据源图像、源图像的关键点及局部仿射变换参数、驱动视频逐帧的关键点及局部仿射变换参数，获取光流图及重绘图/>

(6)根据源图像、光流图及重绘图/>获取目标图像；

(7)将逐帧获得的目标图像合并为目标视频，目标视频中为源图像人脸，其动作与驱动视频中人脸一致。

需要说明的是，上述过程中，dlib人脸检测算法、dlib人脸关键点检测算法、UNet、SPARNet、VGG19、Adam等方法均可替换为其他方法，此处仅为说明实施例而列举的特征方法。

第二方面，本申请提供一种动作迁移方法，参见图3，包括：

S310：获取源图像和驱动视频，所述驱动视频包括按时间顺序排序的视频帧；

S320：将所述源图像和所述驱动视频的视频帧输入至训练好的动作迁移模型中，合成目标视频，其中，所述动作迁移模型为采用上述第一方面训练方法训练得到的。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的动作迁移模型的训练方法及动作迁移方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种动作迁移模型的训练方法，其特征在于，包括：

获取所述源图像的源关键点坐标组，所述源关键点坐标组包括有监督关键点坐标K_S，s和无监督关键点坐标K_S，us；

获取所述驱动图像的驱动关键点坐标组，所述驱动关键点坐标组包括有监督关键点坐标K_D，S和无监督关键点坐标K_D，us；

根据已知结构关键点坐标K_I、有监督关键点坐标K_S，s、无监督关键点坐标K_S，us、有监督关键点坐标K_D，s和无监督关键点坐标K_D，us，获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>所述已知结构关键点坐标K_I是已知的所述驱动图像关键点的实际坐标，其中，有监督关键点损失函数/>为结构关键点坐标K_I和有监督关键点坐标K_D，s的差异，所述差异通过以下公式计算：

无监督关键点损失函数为无监督关键点K_D，us，r与无监督关键点坐标K_D，us的差异，所述差异通过以下公式计算：

所述驱动图像空间下的无监督关键点K_D，us，r通过以下方法获取：

获取经过薄板样条变换后的驱动图像D_tps；

获取所述经过薄板样条变换后的驱动图像D_tps的无监督关键点K_D，us，tps；

将K_D，us，tps做薄板样条逆变换获取驱动图像空间下的无监督关键点K_D，us，r，K_D，us，r与K_D，us相同；

无监督局部仿射变换损失函数为局部仿射变换参数J_D，r与局部仿射变换参数J_D的差异，所述局部仿射变换参数J_D，r和所述局部仿射变换参数J_D通过以下方法获取：

获取所述驱动图像的有监督关键点坐标K_D，s和无监督关键点坐标K_D，us附近的局部仿射变换参数J_D；

获取经过薄板样条变换后的驱动图像D_tps；

获取所述经过薄板样条变换后的驱动图像D_tps的局部仿射变换参数J_D，tps；

将J_D，tps做薄板样条逆变换获取驱动图像空间下的局部仿射变换参数J_D，r，J_D，r与J_D相同；

获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图其中，所述光流图/>是所述驱动图像上的关键点坐标到所述源图像上的关键点坐标发生的全局仿射变换的参数，所述重绘图/>用于描述在目标图像生成过程中需要生成的像素点坐标信息；

获取所述源图像的隐层特征图，根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像，所述目标图像是将所述驱动图像中与所述驱动关键点坐标K_D，sn相关联的待迁移动作迁移至所述源关键点坐标K_s，sn后得到的图像；

根据所述目标图像、所述源图像以及所述驱动图像，计算感知损失函数L_P以及辨别器损失函数其中，所述感知损失函数L_P通过以下方法得到：

其中，D_r为所述目标图像，D为所述驱动图像，为神经网络P所有被使用的中间隐层层数，l为神经网络P的任意一层中间隐层，H_l和W_l为l层输出的特征图的高度和宽度；

所述辨别器损失函数通过采用计算交叉熵损失函数得到；

2.根据权利要求1所述的方法，其特征在于，获取训练视频文件，所述训练视频文件包括源图像和驱动图像，包括：

3.根据权利要求2所述的方法，其特征在于，获取所述源图像的源关键点坐标组之前，包括：

4.根据权利要求3所述的方法，其特征在于，获取所述驱动图像的驱动关键点坐标组之前，包括：

5.一种动作迁移方法，其特征在于，包括：

将所述源图像和所述驱动视频的视频帧输入至训练好的动作迁移模型中，合成目标视频，其中，所述动作迁移模型为采用权利要求1-4任一项训练方法训练得到的。