CN111462209A

CN111462209A - 动作迁移方法、装置、设备及存储介质

Info

Publication number: CN111462209A
Application number: CN202010243906.1A
Authority: CN
Inventors: 吴文岩; 朱文韬; 杨卓谦
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: WO2021197143A1; TW202139135A; KR20220002551A; EP3979204A1; EP3979204A4; US20220114777A1; CN111462209B; JP2022536381A

Abstract

本公开提供了一种动作迁移方法、装置、设备及存储介质，其中首先获取包括初始对象的动作序列的第一初始视频；之后，识别所述初始对象在所述第一初始视频的多帧图像中的二维骨架关键点序列；再将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列；最后，基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频。

Description

动作迁移方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种动作迁移方法、装置、设备及存储介质。

背景技术

动作迁移是将初始运动视频中初始对象的动作迁移到目标对象上，以形成目标运动视频。由于初始运动视频和目标运动视频存在很大的结构和视角差异，很难在像素级别上实现动作的迁移。尤其在初始对象做出极端动作，或者初始对象和目标对象的结构差异比较大时，迁移到目标对象上的动作准确度较低。

发明内容

有鉴于此，本公开至少提供一种动作迁移方法及装置。

第一方面，本公开提供了一种动作迁移方法，包括：

获取包括初始对象的动作序列的第一初始视频；

识别所述初始对象在所述第一初始视频的多帧图像中的二维骨架关键点序列；

将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列；

基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频。

本方面，通过二维骨架关键点序列提取、二维骨架关键点序列到三维骨架关键点序列的重定向以及基于三维骨架关键点序列进行目标对象的动作渲染，实现了动作迁移，避免直接在像素级别上实现动作迁移，能够克服初始视频和目标视频之间存在的结构和视角差异大的问题，尤其在初始对象作出极端动作或初始对象与目标对象的结构差异较大时，提高了动作迁移的准确度。另外，本方面利用二维骨架关键点序列重定向三维骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度。

在一种可能的实施方式中，所述将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列，包括：

基于所述二维骨架关键点序列，确定所述初始对象的动作迁移分量序列；

基于所述初始对象的动作迁移分量序列，确定所述目标对象的三维骨架关键点序列。

本实施方式，利用二维骨架关键点序列正交分解后的动作迁移分量序列，来重定向三维骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度。

在一种可能的实施方式中，在确定所述目标对象的三维骨架关键点序列之前，上述动作迁移方法还包括：

获取包括目标对象的第二初始视频；

识别所述目标对象在所述第二初始视频的多帧图像中的二维骨架关键点序列；

所述基于所述初始对象的动作迁移分量序列，确定所述目标对象的三维骨架关键点序列，包括：

基于所述目标对象的二维骨架关键点序列，确定所述目标对象的动作迁移分量序列；

基于所述初始对象的动作迁移分量序列和所述目标对象的动作迁移分量序列，确定目标动作迁移分量序列；

基于所述目标动作迁移分量序列确定所述目标对象的三维骨架关键点序列。

本实施方式，将初始对象的二维骨架关键点序列正交分解后的动作迁移分量序列，与目标对象的二维初始骨架关键点序列进行正交分解后的动作迁移分量序列进行融合后，来确定三维骨架关键点序列，能够克服初始对象作出极端动作或初始对象与目标对象的结构差异较大时，动作迁移准确度低的缺陷。

在一种可能的实施方式中，所述初始对象的动作迁移分量序列包括运动分量序列、对象结构分量序列和拍摄角度分量序列；

所述基于所述二维骨架关键点序列，确定所述初始对象的动作迁移分量序列，包括：

基于所述第一初始视频的多帧图像中每一帧图像对应的二维骨架关键点，分别确定所述初始对象的运动分量信息、对象结构分量信息和拍摄角度分量信息；

基于所述第一初始视频的多帧图像中每一帧图像对应的运动分量信息，确定所述运动分量序列；

基于所述第一初始视频的多帧图像中每一帧图像对应的对象结构分量信息，确定所述对象结构分量序列；

基于所述第一初始视频的多帧图像中每一帧图像对应的拍摄角度分量信息，确定所述拍摄角度分量序列。

本实施方式，动作迁移分量序列可以包括多个正交的分量序列，利用多个正交的分量序列来确定三维骨架关键点序列，能够进一步克服了初始对象作出极端动作或初始对象与目标对象的结构差异较大时，动作迁移准确度低的缺陷。

在一种可能的实施方式中，所述基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频，包括：

基于所述三维骨架关键点序列，生成所述目标对象的二维目标骨架关键点序列；

基于所述二维目标骨架关键点序列，生成包括目标对象的动作序列的目标视频。

本实施方式，将重建的三维骨架关键点序列重投影得到二维的目标骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度。

采用动作迁移神经网络将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列。

本实施方式，利用训练好的动作迁移神经网络来确定目标对象的三维骨架关键点序列，能够提高了关键点重定向的效率和准确度。

在一种可能的实施方式中，上述动作迁移方法还包括训练所述动作迁移神经网络的步骤：

获取包括样本对象的动作序列的样本运动视频；

识别所述样本对象在所述样本运动视频的多帧样本图像中的第一样本二维骨架关键点序列；

对第一样本二维骨架关键点序列进行肢体比例缩放处理，得到第二样本二维骨架关键点序列；

基于所述第一样本二维骨架关键点序列和所述第二样本二维骨架关键点序列，确定损失函数；

基于所述损失函数，调整所述动作迁移神经网络的网络参数。

本实施方式，利用样本对象的第一样本二维骨架关键点序列和对样本对象进行肢体比例缩放后的第二样本二维骨架关键点序列构建损失函数，来训练动作迁移神经网络，能够提高在初始对象与目标对象的结构差异较大时，动作迁移的准确度。并且在训练上述动作迁移神经网络的时候，并未使用真实世界中配对的动作-角色数据，实现了无监督的构建损失函数和训练动作迁移神经网络，有利于提高训练得到的动作迁移神经网络在进行动作迁移时的准确度。

在一种可能的实施方式中，所述基于所述第一样本二维骨架关键点序列和所述第二样本二维骨架关键点序列，确定损失函数，包括：

基于所述第一样本二维骨架关键点序列，确定所述第一样本动作迁移分量序列；

基于所述第二样本二维骨架关键点序列，确定所述第二样本动作迁移分量序列；

基于所述第一样本动作迁移分量序列，确定预估三维骨架关键点序列；

基于所述第一样本动作迁移分量序列、第二样本动作迁移分量序列和所述预估三维骨架关键点序列，确定所述损失函数。

本实施方式，利用第一样本二维骨架关键点序列正交分解后的第一样本动作迁移分量序列、第二样本二维骨架关键点序列正交分解后的第二样本动作迁移分量序列，以及，基于第一样本动作迁移分量序列重建得到的预估三维骨架关键点序列，来构建损失函数，能够提高在初始对象与目标对象的结构差异较大时，动作迁移的准确度。

在一种可能的实施方式中，所述损失函数包括运动不变损失函数；所述第一样本动作迁移分量序列包括每帧样本图像对应的第一样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息；所述第二样本动作迁移分量序列包括每帧样本图像对应的第二样本运动分量信息、第二样本结构分量信息和第二样本角度分量信息；

所述确定所述损失函数，包括：

基于所述第二样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息，确定所述第一样本二维骨架关键点序列中对应的所述第一样本二维骨架关键点对应的第一预估骨架关键点；

基于所述第一样本运动分量信息、第二样本结构分量信息和第二样本角度分量信息，确定所述第二样本二维骨架关键点序列中对应的所述第二样本二维骨架关键点对应的第二预估骨架关键点；

基于所述第一预估骨架关键点、第二预估骨架关键点、第一样本运动分量信息、第二样本运动分量信息、和所述预估三维骨架关键点序列，确定所述运动不变损失函数。

本实施方式，利用第一样本二维骨架关键点序列和第二样本二维骨架关键点序列正交分解后的信息，对样本对象进行骨架恢复得到第一预估骨架关键点，以及对肢体缩放后的样本对象进行骨架恢复得到第二预估骨架关键点；之后，结合恢复得到的第一预估骨架关键点、第二预估骨架关键点和重建得到的样本对象的预估三维骨架关键点序列能够构建运动不变损失函数，由于样本对象尽管在结构和拍摄视角上存在变化和扰动，但是迁移后的运动信息应该是不变的，因此通过构建运动不变损失函数，并且在训练时，使运动不变损失函数最小，能够提高构建的动作迁移神经网络在进行动作迁移时的准确度。

在一种可能的实施方式中，所述损失函数还包括结构不变损失函数；

所述确定所述损失函数还包括：

从所述第一样本二维骨架关键点序列中，筛选所述样本对象在第一时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第一样本二维骨架关键点；

从所述第二样本二维骨架关键点序列中，筛选所述样本对象在第二时刻的第二样本二维骨架关键点、和所述样本对象在第一时刻的第二样本二维骨架关键点；

基于所述样本对象在第一时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第二样本二维骨架关键点、所述样本对象在第一时刻的第二样本二维骨架关键点、和所述预估三维骨架关键点序列，确定所述结构不变损失函数。

本实施方式，利用不同时刻的第一样本二维骨架关键点和第二样本二维骨架关键点，结合重建得到的样本对象的预估三维骨架关键点序列能够构建结构不变损失函数，由于样本对象的结构随着时间的变化存在不变性，因此通过构建结构不变损失函数，并且在训练时，使运动不变损失函数和结构不变损失函数最小，能够提高构建的动作迁移神经网络在进行动作迁移时的准确度。

在一种可能的实施方式中，所述损失函数还包括视角不变损失函数；

所述确定所述损失函数还包括：

基于所述样本对象在第一时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第一样本二维骨架关键点、第一样本角度分量信息、第二样本角度分量信息、和所述预估三维骨架关键点序列，确定所述视角不变损失函数。

本实施方式中，利用不同时刻的第一样本二维骨架关键点和重建得到的样本对象的预估三维骨架关键点序列等能够构建视角不变损失函数，由于样本对象的拍摄视角随着样本对象的运动和结构的变化，存在不变性，因此通过构建视角不变损失函数，并且在训练时，使视角不变损失函数、运动不变损失函数和结构不变损失函数最小，能够提高构建的动作迁移神经网络在进行动作迁移时的准确度。

在一种可能的实施方式中，所述损失函数还包括重建恢复损失函数；

所述确定所述损失函数还包括：

基于所述第一样本二维骨架关键点序列和所述预估三维骨架关键点序列，确定所述重建恢复损失函数。

本实施方式，利用第一样本二维骨架关键点序列和重建得到的样本对象的预估三维骨架关键点序列能够构建重建恢复损失函数，由于样本对象在进行样本对象恢复时，应该存在不变性，因此通过构建重建恢复损失函数，并且在训练时，使重建恢复损失函数、视角不变损失函数、运动不变损失函数和结构不变损失函数最小，能够提高构建的动作迁移神经网络在进行动作迁移时的准确度。

第二方面，本公开提供了一种动作迁移装置，包括：

视频获取模块，用于获取包括初始对象的动作序列的第一初始视频；

关键点提取模块，用于识别所述初始对象在所述第一初始视频的多帧图像中的二维骨架关键点序列；

关键点转换模块，用于将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列；

图像渲染模块，用于基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频。

在一种可能的实施方式中，所述关键点转换模块在将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列时，用于：

在一种可能的实施方式中，所述视频获取模块还用于获取包括目标对象的第二初始视频；

所述关键点提取模块还用于识别所述目标对象在所述第二初始视频的多帧图像中的二维骨架关键点序列；

所述关键点转换模块在基于所述初始对象的动作迁移分量序列，确定所述目标对象的三维骨架关键点序列时，用于：

所述关键点转换模块在基于所述二维骨架关键点序列，确定所述初始对象的动作迁移分量序列时，用于：

第三方面，本公开提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述动作迁移方法的步骤。

第四方面，本公开还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述动作迁移方法的步骤。

本公开上述装置、电子设备、和计算机可读存储介质，至少包含与本公开上述方法的任一方面或任一方面的任一实施方式的技术特征实质相同或相似的技术特征，因此关于上述装置、电子设备、和计算机可读存储介质的效果描述，可以参见上述方法内容的效果描述，这里不再赘述。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例提供的一种动作迁移方法的流程图；

图2示出了本公开实施例提供的另一种动作迁移方法的流程图；

图3示出了本公开实施例提供的一种动作迁移神经网络的训练方法的流程图；

图4示出了本公开实施例提供的另一种动作迁移神经网络训练过程中恢复骨架关键点的流程图；

图5示出了本公开实施例提供的一种动作迁移装置的结构示意图；

图6示出了本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，应当理解，本公开中附图仅起到说明和描述的目的，并不用于限定本公开的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本公开内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本公开提供了一种动作迁移方法及装置，通过二维骨架关键点序列提取、二维骨架关键点序列到三维骨架关键点序列的重定向以及基于三维骨架关键点序列进行目标对象的动作渲染，实现了动作迁移，避免直接在像素级别上实现动作迁移，能够克服初始视频和目标视频之间存在的结构和视角差异大的问题，尤其在初始对象作出极端动作或初始对象与目标对象的结构差异较大时，提高了动作迁移的准确度。另外，本公开利用二维骨架关键点序列重定向三维骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度。

下面通过具体的实施例对本公开的动作迁移方法、装置、设备及存储介质进行说明。

本公开实施例提供了一种动作迁移方法，该方法应用于进行动作迁移的终端设备或服务器等。具体地，如图1所示，本公开实施例提供的动作迁移方法包括如下步骤：

S110、获取包括初始对象的动作序列的第一初始视频。

这里，第一初始视频中包括多帧图像，每帧图像中初始对象可能呈现不同的姿势，这些姿势合并起来为初始对象的动作序列。

S120、识别所述初始对象在所述第一初始视频的多帧图像中的二维骨架关键点序列。

为了确定初始对象的动作序列，可以从第一初始视频的每帧图像中提取初始对象的二维骨架关键点，多帧图像对应的二维骨架关键点形成上述二维骨架关键点序列。示例性的，上述二维骨架关键点可以包括初始对象的各个关节对应的关键点。各个关节对应的关键点组合连接起来，可以得到初始对象的骨架。

在可能的实施方式中，可以利用二维姿态估计神经网络提取每帧图像中初始对象的二维骨架关键点。

上述初始对象可以是真实的人、虚拟的人、动物等，本公开对此不限定。

S130、将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列。

在可能的实施方式中，首先可以基于所述二维骨架关键点序列，确定所述初始对象的动作迁移分量序列；之后再基于所述初始对象的动作迁移分量序列，确定所述目标对象的三维骨架关键点序列。

示例性的，上述初始对象的动作迁移分量序列包括运动分量序列、对象结构分量序列和拍摄角度分量序列中的至少一种。

在一些实施例中，可以利用如下步骤形成上述运动分量序列、对象结构分量序列和拍摄角度分量序列：

子步骤一、基于所述第一初始视频的多帧图像中每一帧图像对应的二维骨架关键点，分别确定所述初始对象的运动分量信息、对象结构分量信息和拍摄角度分量信息；

子步骤二、基于所述第一初始视频的多帧图像中每一帧图像对应的运动分量信息，确定所述运动分量序列；

子步骤三、基于所述第一初始视频的多帧图像中每一帧图像对应的对象结构分量信息，确定所述对象结构分量序列；

子步骤四、基于所述第一初始视频的多帧图像中每一帧图像对应的拍摄角度分量信息，确定所述拍摄角度分量序列。

上述步骤是将每帧图像对应的二维骨架关键点进行正交分解，分别得到每帧图像对应的运动分量信息、对象结构分量信息和拍摄角度分量信息。之后，将多帧图像对应的运动分量信息组合形成运动分量序列，多帧图像对应的对象结构分量信息组合形成对象结构分量序列，多帧图像对应的拍摄角度分量信息组合形成拍摄角度分量序列。

上述三个分量信息中，每个分量信息对于另外两个分量信息存在不变性。

此步骤，利用二维骨架关键点序列正交分解后的动作迁移分量序列，来重定向三维骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度，并且能够进一步克服了初始对象作出极端动作或初始对象与目标对象的结构差异较大时，动作迁移准确度低的缺陷。

S140、基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频。

在确定了三维骨架关键点序列之后，可以将该三维骨架关键点序列中的每帧图像对应的三维骨架关键点投影回二维空间，得到目标对象的二维目标骨架关键点，多帧图像对应的二维目标骨架关键点形成二维目标骨架关键点序列。之后，基于所述二维目标骨架关键点序列，生成包括目标对象的动作序列的目标视频。

在一些实施例中，在利用二维目标骨架关键点序列，生成包括目标对象的动作序列的目标视频时，可以利用得到每个二维目标骨架关键点，进行动作渲染，得到每帧图像对应的目标对象的姿势，依次将各帧图像中姿势合并起来就能够得到目标对象的动作序列。

示例性的，可以利用视频渲染引擎，基于每帧图像对应的二维目标骨架关键点，生成包括所述目标对象的动作序列的目标视频。

上述，将重建的三维骨架关键点序列重投影得到二维的目标骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度。

示例性的，上述步骤130，可以利用一个训练好的运动迁移神经网络对二维骨架关键点序列进行正交分解，以及利用分解得到的动作迁移分量序列确定目标对象的三维骨架关键点序列。

上述运动迁移神经网络具体的可以包括三个编码器和一个解码器，其中每个编码器分别用于对二维骨架关键点序列中的每个二维骨架关键点进行分量信息提取，以得到上述运动分量信息、对象结构分量信息和拍摄角度分量信息。在得到上述分量信息之后，利用一个解码器进行解码处理，重建得到目标对象的预估三维骨架关键点，最后将预估三维骨架关键点重投影回二维空间，得到上述三维骨架关键点序列中的一个三维骨架关键点。

应当说明的是，在确定三维骨架关键点的时候，既可以利用编码器直接解码得到的对象结构分量信息和拍摄视角分量信息，也可以利用平均池化后的对象结构分量信息和拍摄视角分量信息来确定。具体地，将包括当前帧图像的连续多帧图像分别对象的二维骨架关键点进行正交分解，得到每帧图像对应的对象结构分量信息和拍摄角度分量信息，之后，对每帧图像对应的对象结构分量信息进行平均池化操作，得到当前帧图像对应的最终的对象结构分量信息；对每帧图像对应的拍摄视角分量信息进行平均池化操作，得到当前帧图像对应的最终的拍摄视角分量信息。最后，利用直接分解得到的运动分量信息、平均池化操作得到的对象结构分量信息和平均池化操作得到的拍摄角度分量信息，确定当前帧图像对应的三维骨架关键点。

上述实施例避免直接在像素级别上实现动作迁移，克服了第一初始视频和目标视频之间存在的结构和视角差异大的问题，尤其在初始对象作出极端动作或初始对象与目标对象的结构差异较大时，提高了动作迁移的准确度。另外，上述实施例将提取的二维骨架关键点分解为三个正交的运动分量信息、对象结构分量信息和拍摄角度分量信息，进一步克服了初始对象作出极端动作或初始对象与目标对象的结构差异较大时，动作迁移准确度低的缺陷。

为了克服初始对象作出极端动作或初始对象与目标对象的结构差异较大时，动作迁移准确度低的缺陷，本公开实施例在确定所述目标对象的三维骨架关键点序列之前，还获取了包括目标对象的第二初始视频，并识别了所述目标对象在所述第二初始视频的多帧图像中的二维骨架关键点序列。

之后，在确定所述目标对象的三维骨架关键点序列时，首先基于所述目标对象的二维骨架关键点序列，确定所述目标对象的动作迁移分量序列；之后，基于所述初始对象的动作迁移分量序列和所述目标对象的动作迁移分量序列，确定目标动作迁移分量序列；最后，基于所述目标动作迁移分量序列确定所述目标对象的三维骨架关键点序列。

上述确定目标对象的动作迁移分量序列的方法与确定初始对象的动作迁移分量序列的方法相同，同样是首先从第二初始视频的每帧图像中分别提取目标对象的二维骨架关键点，并对每帧图像中的二维骨架关键点进行正交分解，确定了所述目标对象的运动分量信息、对象结构分量信息、和拍摄角度分量信息。最后，利用多帧图像对应的运动分量信息形成运动分量序列，利用多帧图像对应的对象结构分量信息形成对象结构分量序列，利用多帧图像对应的拍摄角度分量信息形成拍摄角度分量序列。

上述实施例，利用融合后的目标动作迁移分量序列，重建目标对象的三维骨架关键点序列，之后再将重建的三维骨架关键点序列重投影得到目标对象的二维目标骨架关键点序列，避免了在动作迁移中使用误差较大的三维关键点估计和重定向，有利于提高动作迁移的准确度。

下面再通过一个具体的实施例对本公开的动作迁移方法进行说明。

如图2所示，本实施例的动作迁移方法包括如下步骤：

步骤一、骨架提取操作。从第一初始视频的每帧图像中提取初始对象的二维骨架关键点，得到初始对象的二维骨架关键点序列；从第二初始视频的每帧图像中提取目标对象的二维骨架关键点，得到目标对象的二维骨架关键点序列。

步骤二、动作迁移处理。分别对初始对象的二维骨架关键点序列中的每个二维骨架关键点和目标对象的二维骨架关键点序列中的每个二维骨架关键点进行编码处理，即进行正交分解，分别得到初始对象的每个二维骨架关键点或每帧图像对应的运动分量信息、对象结构分量信息、和拍摄角度分量信息，以及，目标对象的每个二维骨架关键点或每帧图像对应的运动分量信息、对象结构分量信息、和拍摄角度分量信息。

上述初始对象的多帧图像对应的运动分量信息组成初始对象的运动分量序列，初始对象的多帧图像对应的对象结构分量信息组成初始对象的对象结构分量序列，初始对象的多帧图像对应的拍摄角度分量信息组成初始对象的拍摄角度分量序列。初始对象的运动分量序列、对象结构分量序列和拍摄角度分量序列形成初始对象的动作迁移分量序列。

同样，上述目标对象的多帧图像对应的运动分量信息组成目标对象的运动分量序列，目标对象的多帧图像对应的对象结构分量信息组成目标对象的对象结构分量序列，目标对象的多帧图像对应的拍摄角度分量信息组成目标对象的拍摄角度分量序列。目标对象的运动分量序列、对象结构分量序列和拍摄角度分量序列形成目标对象的动作迁移分量序列。

之后，基于所述初始对象的动作迁移分量序列和所述目标对象的动作迁移分量序列，确定目标动作迁移分量序列；基于所述目标动作迁移分量序列确定所述目标对象的三维骨架关键点序列。

示例性的，可以是将初始对象的每帧图像对应的运动分量信息、对象结构分量信息、和拍摄角度分量信息，与，目标对象的每帧图像对应的运动分量信息、对象结构分量信息、和拍摄角度分量信息进行重新组合，得到重新组合的目标运动分量信息、目标结构分量信息、和目标角度分量信息。

上述多帧图像对应的目标运动分量信息可以组成目标运动分量序列，多帧图像对应的目标结构分量信息可以组成目标对象结构分量序列，多帧图像对应的目标角度分量信息可以组成目标拍摄角度分量序列。目标运动分量序列、目标对象结构分量序列和目标拍摄角度分量序列形成上述目标动作迁移分量序列。

之后，对目标运动分量信息、目标结构分量信息、和目标角度分量信息进行解码操作，得到目标对象对应于一帧图像在三个预设角度上的三维骨架关键点。多帧图像的三维骨架关键点形成上述三维骨架关键点序列。

最后，分别将每个预设角度上的三维骨架关键点重投回二维空间，分别得到目标对象在每个预设角度上的二维目标骨架关键点。

步骤三、骨架到视频渲染操作。基于每帧图像中目标对象在每个预设角度上的二维目标骨架关键点，确定目标对象在每个预设角度上的目标动作，并基于目标动作生成目标对象在每个预设角度上的目标视频。

上述实施例能够显著提高动作迁移的准确度，并且可以实现任意角度上的动作迁移。同时对于目标对象与初始对象在结构上差异较大、初始对象作为极端动作的情况仍然能够进行准确的动作迁移，取得了较好的视觉效果。

目前，由于运动呈现出复杂的非线性以及很难在真实世界中找到配对的动作-角色数据，因此很难建立准确的动作迁移模型来实现上述动作迁移，致使动作迁移呈现出准确度低的缺陷。为了解决上述缺陷，本公开还提供了一种动作迁移神经网络的训练方法，该方法既可以应用于上述进行动作迁移处理的终端设备或服务器上，也可以应用于单独进行神经网络训练的终端设备或服务器上。具体地，如图3所示，可以包括如下步骤：

S310、获取包括样本对象的动作序列的样本运动视频。

S320、识别所述样本对象在所述样本运动视频的多帧样本图像中的第一样本二维骨架关键点序列。

这里，从样本运动视频的每帧图像中提取样本对象的第一样本二维骨架关键点，多帧样本图像的第一样本二维骨架关键点形成第一样本二维骨架关键点序列。

上述第一样本二维骨架关键点可以包括样本对象的各个关节对应的关键点。各个关节对应的关键点组合连接起来，可以得到样本对象的骨架。

在具体实施时，可以利用二维姿态估计神经网络提取样本对象的第一样本二维骨架关键点。

上述样本对象可以是真实的人、虚拟的人、动物等，本公开对此不限定。

S330、对第一样本二维骨架关键点序列进行肢体比例缩放处理，得到第二样本二维骨架关键点序列。

这里，按照预定的缩放比例，对第一样本二维骨架关键点序列中的每个第一样本二维骨架关键点进行肢体比例缩放，得到第二样本二维骨架关键点序列。

如图4所示，第一样本二维骨架关键点x进行肢体比例缩放后，得到第二样本二维骨架关键点x’。

S340、基于所述第一样本二维骨架关键点序列和所述第二样本二维骨架关键点序列，确定损失函数。基于所述损失函数，调整所述动作迁移神经网络的网络参数。

在具体实施时，可以分别对第一样本二维骨架关键点序列中的每个第一样本二维骨架关键点和所述第二样本二维骨架关键点序列中的每个第二样本二维骨架关键点进行正交分解，利用分解得到信息进行三维骨架关键点序列预估，和二维的样本骨架关键点恢复，并利用分解得到的信息、预估的三维骨架关键点序列和恢复的二维的样本骨架关键点构建损失函数。

这里，以构建的损失函数取值最小为目标训练动作迁移神经网络。

上述动作迁移神经网络具体可以包括三个编码器和一个解码器，对动作迁移神经网络的训练实质上是对上述是三个编码器和一个解码器的训练。

在一些实施例中，上述基于所述第一样本二维骨架关键点序列和所述第二样本二维骨架关键点序列，确定损失函数，具体可以利用如下步骤实现：

步骤一、基于所述第一样本二维骨架关键点序列，确定所述第一样本动作迁移分量序列。

对第一样本二维骨架关键点序列中的每个第一样本二维关键点进行正交分解，得到每帧样本图像对应的第一样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息。多帧样本图像对应的第一样本运动分量信息形成第一样本运动分量序列；多帧样本图像对应的第一样本结构分量信息形成第一样本结构分量序列；多帧样本图像对应的第一样本角度分量信息形成第一样本角度分量序列。第一样本运动分量序列、第一样本角度分量序列和第一样本结构分量序列形成上述第一样本动作迁移分量序列。

这里，如图4所示，利用动作迁移神经网络中的一个编码器Em对一个第一样本二维骨架关键点进行处理，得到第一样本运动分量信息，利用另一个编码器Es对该第一样本二维骨架关键点进行处理，得到第一样本结构分量信息，利用最后一个编码器Ev对该第一样本二维骨架关键点进行处理，得到第一样本角度分量信息。

对当前帧样本图像对应的第一样本结构分量信息和当前帧样本图像相邻的多帧样本图像对应的第一样本结构分量信息进行均值池化处理，得到最终的第一样本结构分量信息

对当前帧样本图像对应的第一样本角度分量信息和当前帧样本图像相邻的多帧样本图像对应的第一样本结构分量信息进行均值池化处理，得到最终的第一样本角度分量信息

当前帧样本图像对应的第一样本运动分量信息不用进行均值池化处理，可以直接作为最终的第一样本运动分量信息m。

步骤二、基于所述第二样本二维骨架关键点序列，确定所述第二样本动作迁移分量序列。

对第二样本二维骨架关键点序列中的每个第二样本二维关键点进行正交分解，得到每帧样本图像对应的第二样本运动分量信息、第二样本结构分量信息和第二样本角度分量信息。多帧样本图像对应的第二样本运动分量信息形成第二样本运动分量序列；多帧样本图像对应的第二样本结构分量信息形成第二样本结构分量序列；多帧样本图像对应的第二样本角度分量信息形成第二样本角度分量序列。第二样本运动分量序列、第二样本角度分量序列和第二样本结构分量序列形成上述第二样本动作迁移分量序列。

这里，如图4所示，利用动作迁移神经网络中的一个编码器Em对一个第二样本二维骨架关键点进行处理，得到第二样本运动分量信息，利用另一个编码器Es对第二样本二维骨架关键点进行处理，得到第二样本结构分量信息，利用最后一个编码器Ev对第二样本二维骨架关键点进行处理，得到第二样本角度分量信息。

对当前帧样本图像对应的第二样本结构分量信息和当前帧样本图像相邻的多帧样本图像对应的第二样本结构分量信息进行均值池化处理，得到最终的第二样本结构分量信息

对当前帧样本图像对应的第二样本角度分量信息和当前帧样本图像相邻的多帧样本图像对应的第二样本结构分量信息进行均值池化处理，得到最终的第一样本角度分量信息

当前帧样本图像对应的第二样本运动分量信息不用进行均值池化处理，可以直接作为最终的第二样本运动分量信息m’。

步骤三、基于所述第一样本动作迁移分量序列，确定预估三维骨架关键点序列。

这里，具体是利用一帧样本图像对应的第一样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息，确定一个预估三维骨架关键点。多帧样本图像对应的预估三维骨架关键点即形成上述预估三维骨架关键点序列。

这里，具体可以利用一个解码器G对一帧样本图像的第一样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息进行解码处理，得到重建后的预估三维骨架关键点。

步骤四、基于所述第一样本动作迁移分量序列、第二样本动作迁移分量序列和所述预估三维骨架关键点序列，确定所述损失函。

在具体实施时，可以利用第一样本动作迁移分量序列中的所述第一样本运动分量信息、第一样本结构分量信息、第一样本角度分量信息，第二样本动作迁移分量序列中的第二样本运动分量信息、第二样本结构分量信息、第二样本角度分量信息进行二维的样本骨架关键点恢复，并利用预估三维骨架关键点序列和恢复的二维的样本骨架关键点构建损失函数。

由于样本对象尽管在结构和拍摄视角上存在变化和扰动，但是迁移后的运动信息应该是不变的，因此可以通过构建运动不变损失函数，并且在训练时，使运动不变损失函数最小，来提高构建的动作迁移神经网络在进行动作迁移时的准确度。具体地，可以利用如下步骤构建上述运动不变损失函数：

步骤一、基于所述第二样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息，确定所述第一样本二维骨架关键点序列中对应的所述第一样本二维骨架关键点对应的第一预估骨架关键点。

如图4所示，具体可以利用如下子步骤实现：利用解码器G对第二样本运动分量信息m’、第一样本结构分量信息

第一样本角度分量信息

进行处理，可以重建得到三维的骨架关键点

之后，利用旋转投影函数

将三维的骨架关键点

重投影到二维空间，得到第一预估骨架关键点

步骤二、基于所述第一样本运动分量信息、第二样本结构分量信息和第二样本角度分量信息，确定所述第二样本二维骨架关键点序列中对应的所述第二样本二维骨架关键点对应的第二预估骨架关键点。

如图4所示，具体可以利用如下子步骤实现：利用解码器G对第一样本运动分量信息m、第二样本结构分量信息

第二样本角度分量信息

进行处理，可以重建得到三维的骨架关键点

之后，利用旋转投影函数

将三维的骨架关键点

重投影到二维空间，得到第二预估骨架关键点

步骤一和步骤二中，生成第一预估骨架关键点

和第二预估骨架关键点

的具体公式如下：

式中，

表示进行对编码器提取的样本结构分量信息进行平均池化操作，

表示进行对编码器提取的样本角度分量信息进行平均池化操作。

步骤三、基于所述第一预估骨架关键点、第二预估骨架关键点、第一样本运动分量信息、第二样本运动分量信息、和所述预估三维骨架关键点序列，确定所述运动不变损失函数。

构建的运动不变损失函数具体可以包括如下三个：

其中，

式中，N表示样本运动视频的帧数，T表示一个第一样本二维骨架关键点对应的关节的数量，M表示一个预设的数值，C_m表示第一样本运动分量信息对应的编码长度，K表示样本对象旋转的数量，

表示一个预估三维骨架关键点，

表示三个运动不变损失函数。

本公开实施例中，利用第一样本二维骨架关键点序列和第二样本二维骨架关键点序列正交分解后的信息，对样本对象进行骨架恢复得到第一预估骨架关键点，以及对肢体缩放后的样本对象进行骨架恢复得到第二预估骨架关键点；之后，结合恢复得到的第一预估骨架关键点、第二预估骨架关键点和重建得到的样本对象的预估三维骨架关键点序列能够构建运动不变损失函数。

由于样本对象的结构随着时间的变化存在不变性，因此可以通过构建结构不变损失函数，并且在训练时，使运动不变损失函数和结构不变损失函数最小，来提高构建的动作迁移神经网络在进行动作迁移时的准确度。具体地，可以利用如下步骤构建上述结构不变损失函数：

步骤一、从所述第一样本二维骨架关键点序列中，筛选所述样本对象在第一时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第一样本二维骨架关键点。

从所述第二样本二维骨架关键点序列中，筛选所述样本对象在第二时刻的第二样本二维骨架关键点、和所述样本对象在第一时刻的第二样本二维骨架关键点。

上述第一样本二维骨架关键点是从样本运动视频中第一时刻t1和第二时刻t2对应的样本图像中分别提取的样本对象的二维骨架关键点，是未经过肢体比例缩放的样本对象的骨架关键点。上述第二样本二维骨架关键点是在样本运动视频中第一时刻t1和第二时刻t2对应的样本图像中分别提取的样本对象的骨架关键点进行肢体比例缩放后的关键点。

步骤二、基于所述样本对象在第一时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第一样本二维骨架关键点、所述样本对象在第二时刻的第二样本二维骨架关键点、所述样本对象在第一时刻的第二样本二维骨架关键点、和所述预估三维骨架关键点序列，确定所述结构不变损失函数。

在具体实施时，构建的结构不变损失函数包括如下两个：

其中，

式中，S_t1表示从时刻t₁的第一样本二维骨架关键点中直接提取的样本结构分量信息，S_t2表示从时刻t₂的第一样本二维骨架关键点中直接提取的样本结构分量信息，S_t2’表示从时刻t₂的第二样本二维骨架关键点中直接提取的样本结构分量信息，S_t1’表示从时刻t1的第二样本二维骨架关键点中直接提取的样本结构分量信息，C_b表示第一样本结构分量信息对应的编码长度，m是一个预设的数值，s()表示余弦相似函数，

表示两个结构不变损失函数。

本公开实施例中，利用不同时刻的第一样本二维骨架关键点和第二样本二维骨架关键点，结合重建得到的样本对象的预估三维骨架关键点序列能够构建结构不变损失函数。

由于样本对象的拍摄视角随着样本对象的运动和结构的变化，存在不变性，因此可以通过构建视角不变损失函数，并且在训练时，使视角不变损失函数、运动不变损失函数和结构不变损失函数最小，能够提高构建的动作迁移神经网络在进行动作迁移时的准确度。具体地，可以利用如下步骤构建视角不变损失函数：

构建的视角不变损失函数具体包括如下两个：

其中，

式中，v_t1表示从时刻t1的第一样本二维骨架关键点中直接提取的样本角度分量信息，v_t2表示从时刻t2的第一样本二维骨架关键点中直接提取的样本角度分量信息，C_v表示第一样本角度分量信息对应的编码长度，

表示两个视角不变损失函数。

由于样本对象在进行样本对象恢复时，应该存在不变性，因此可以通过构建重建恢复损失函数，并且在训练时，使重建恢复损失函数、视角不变损失函数、运动不变损失函数和结构不变损失函数最小，来提高构建的动作迁移神经网络在进行动作迁移时的准确度。具体的，可以利用如下步骤构建重建恢复损失函数：

构建的重建恢复损失函数具体包括如下两个：

式中，D表示一个时序上的卷积网络，

表示x取自样本的概率分布，再对后面的函数，即

求期望，

表示两个重建恢复损失函数。

通过上面的实施例构建了重建恢复损失函数、视角不变损失函数、运动不变损失函数和结构不变损失函数，在具体实施时，可以利用如下公式对上述损失函数进行融合，得到目标损失函数：

式中，λres、λcrs、λadv、λtrip、λinv均表示预设的权重。

在训练动作迁移神经网络的时候，以上述目标损失函数取值最小即可。

对应于上述动作迁移方法，本公开还提供了一种动作迁移装置，该装置应用于进行动作迁移的终端设备或服务器上，并且各个模块能够实现与上述方法中相同的方法步骤以及取得相同的有益效果，因此对于其中相同的部分，本公开不再进行赘述。

如图5所示，本公开提供的一种动作装置可以包括：

视频获取模块510，用于获取包括初始对象的动作序列的第一初始视频。

关键点提取模块520，用于识别所述初始对象在所述第一初始视频的多帧图像中的二维骨架关键点序列。

关键点转换模块530，用于将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列。

图像渲染模块540，用于基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频。

在一些实施例中，所述关键点转换模块530在将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列时，用于：

在一些实施例中，所述视频获取模块510还用于获取包括目标对象的第二初始视频；

所述关键点提取模块520还用于识别所述目标对象在所述第二初始视频的多帧图像中的二维骨架关键点序列；

所述关键点转换模块530在基于所述初始对象的动作迁移分量序列，确定所述目标对象的三维骨架关键点序列时，用于：

在一些实施例中，所述初始对象的动作迁移分量序列包括运动分量序列、对象结构分量序列和拍摄角度分量序列；

所述关键点转换模块530在基于所述二维骨架关键点序列，确定所述初始对象的动作迁移分量序列时，用于：

本公开实施例公开了一种电子设备，如图6所示，包括：处理器601、存储器602和总线603，所述存储器602存储有所述处理器601可执行的机器可读指令，当电子设备运行时，所述处理器601与所述存储器602之间通过总线603通信。

所述机器可读指令被所述处理器601执行时执行以下动作迁移方法的步骤：

获取包括初始对象的动作序列的第一初始视频；

除此之外，机器可读指令被处理器61执行时，还可以执行上述方法部分描述的任一实施方式中的方法内容，这里不再赘述。

本公开实施例还提供的一种对应于上述方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，本文不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本公开中不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种动作迁移方法，其特征在于，包括：

获取包括初始对象的动作序列的第一初始视频；

2.根据权利要求1所述的动作迁移方法，其特征在于，所述将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列，包括：

3.根据权利要求2所述的动作迁移方法，其特征在于，在确定所述目标对象的三维骨架关键点序列之前，还包括：

获取包括目标对象的第二初始视频；

4.根据权利要求2所述的动作迁移方法，其特征在于，所述初始对象的动作迁移分量序列包括运动分量序列、对象结构分量序列和拍摄角度分量序列；

5.根据权利要求1所述的动作迁移方法，其特征在于，所述基于所述三维骨架关键点序列，生成包括目标对象的动作序列的目标视频，包括：

6.根据权利要求1至5任一项所述的动作迁移方法，其特征在于，所述将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列，包括：

7.根据权利要求6所述的动作迁移方法，其特征在于，还包括训练所述动作迁移神经网络的步骤：

获取包括样本对象的动作序列的样本运动视频；

8.根据权利要求7所述的动作迁移方法，其特征在于，所述基于所述第一样本二维骨架关键点序列和所述第二样本二维骨架关键点序列，确定损失函数，包括：

9.根据权利要求8所述的动作迁移方法，其特征在于，所述损失函数包括运动不变损失函数；所述第一样本动作迁移分量序列包括每帧样本图像对应的第一样本运动分量信息、第一样本结构分量信息和第一样本角度分量信息；所述第二样本动作迁移分量序列包括每帧样本图像对应的第二样本运动分量信息、第二样本结构分量信息和第二样本角度分量信息；

所述确定所述损失函数，包括：

10.根据权利要求9所述的动作迁移方法，其特征在于，所述损失函数还包括结构不变损失函数；

所述确定所述损失函数还包括：

11.根据权利要求10所述的动作迁移方法，其特征在于，所述损失函数还包括视角不变损失函数；

所述确定所述损失函数还包括：

12.根据权利要求11所述的动作迁移方法，其特征在于，所述损失函数还包括重建恢复损失函数；

所述确定所述损失函数还包括：

13.一种动作迁移装置，其特征在于，包括：

14.根据权利要求13所述的动作迁移装置，其特征在于，所述关键点转换模块在将所述二维骨架关键点序列转换为目标对象的三维骨架关键点序列时，用于：

15.根据权利要求14所述的动作迁移装置，其特征在于，所述视频获取模块还用于获取包括目标对象的第二初始视频；

16.根据权利要求14所述的动作迁移装置，其特征在于，所述初始对象的动作迁移分量序列包括运动分量序列、对象结构分量序列和拍摄角度分量序列；

17.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1～12任一所述的动作迁移方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1～12任一所述的动作迁移方法。