CN111611997A

CN111611997A - 一种基于人体动作迁移的卡通定制形象运动视频生成方法

Info

Publication number: CN111611997A
Application number: CN202010361432.0A
Authority: CN
Inventors: 纪刚; 周萌萌; 周亚敏
Original assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Current assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-01
Anticipated expiration: 2040-04-30
Also published as: CN111611997B

Abstract

本发明公开了一种基于人体动作迁移的卡通定制形象运动视频生成方法，包括如下步骤：步骤一，检测视频中每帧图像的源对象回归框，并通过对抗生成网络修正源对象回归框，得到源对象修正回归框；步骤二，提取视频中每帧图像的源对象修正回归框的2D姿态；步骤三，根据2D姿态获取SMPL模板模型，并根据自动化阈值分割原理得到定制形象的轮廓掩膜；步骤四，根据定制形象的轮廓掩膜将SMPL模板模型进行重构整合，最终生成定制形象的2D运动视频。本发明所公开的方法能够直接从源对象动作和选定的定制形象生成定制形象运动视频，无需做全局标准化和图像映射，生成的定制形象生动且具有连续性外观，无需担心由生成器原因导致的外观不连续问题。

Description

一种基于人体动作迁移的卡通定制形象运动视频生成方法

技术领域

本发明涉及图像检测跟踪与重构卡通形象技术领域，特别涉及一种基于人体动作迁移的卡通定制形象运动视频生成方法。

背景技术

目前对定制卡通形象(定制形象)生成卡通视频的方法分为借助专业软件如live2D进行手工绘制的方法和基于图像算法自动将人体动作重构为定制卡通的方法。其中，手工绘制方法由于其专业性强、难度系数大、制作成分高的特点，很难普及；基于人体动作迁移自动生成的技术，主要包括：

(1)基于姿态估计的标准化图像转换算法，例如论文Everybody Dance Now[J].Caroline Chan Etc.,2018中提到人体动作迁移方法，即一种简单的“按我做”动作转移方法，给定源对象跳舞动作的视频，算法可以将该表演转移到指定定制形象上。该算法首先采用openpose姿态检测；然后采用全局姿态标准化，即根据迁移源对象和定制形象身体形状和比例不同做映射变换继续宁全局姿态归一化操作；再根据pix2pixHD生成式对抗模型(GAN)从标准化后的姿态图形推断目标人物的图像；最后补充面部表情细节，同样采用一个特殊的GAN结构来训练更细节更真实的面部区域。

该方法能够很好实现动作迁移，且在高分辨率下细节信息较为完整真实，但该算法需要从源对象到定制形象以逐帧的方式形成图像映射，从而实现动作迁移，不能直接从源对象和指定的定制形象直接生成定制形象视频，在实际应用中具有局限性。

(2)基于光流约束的姿态图视频生成技术，Video-to-Video Synthesis[J],Ting-Chun Wang,etc.,2018,Advances in Neural Information Processing Systems(NeurIPS)，该技术建立生成器模型和相邻两帧之间的光流信息并通过对前景和背景分别建模来进行姿态迁移的视频生成。该方法通过添加光流时序约束从而克服了由源对象视频到定制形象视频转换过程中前后帧不一致性问题，实现了人体动作的迁移，但该算法需要输入语义分割掩码视频，因此还需要将源对象视频先进行语义分割，且分割结果直接影响定制形象视频的生成，此外，由于该算法用的生成器技术，因此算法模型不能确保定制形象在整个视频中有连续外观。

综上所述，目前先进的人体动作迁移算法，存在以下缺陷：

(1)图像转换算法需要同时具备源对象视频与定制形象视频的图像映射；

(2)姿态图视频生成技术需要用精准的语义分割掩码作为输入，且生成的定制形象不保证有连续的外观。

由此可见，目前根据人体动作迁移生成目标运动视频的方法尤其是对于生成定制卡通形象运动仍存在许多不足。

发明内容

为解决上述技术问题，本发明提供了一种基于人体动作迁移的卡通定制形象运动视频生成方法，能够直接从源对象动作和选定的定制形象生成定制形象运动视频，无需做全局标准化和图像映射，生成的定制形象生动且具有连续性外观，无需担心由生成器原因导致的外观不连续问题。

为达到上述目的，本发明的技术方案如下：

一种基于人体动作迁移的卡通定制形象运动视频生成方法，包括如下步骤：

步骤一，检测视频中每帧图像的源对象回归框，并通过对抗生成网络修正源对象回归框，得到源对象修正回归框；

步骤二，提取视频中每帧图像的源对象修正回归框的2D姿态；

步骤三，根据2D姿态获取SMPL模板模型，并根据自动化阈值分割原理得到定制形象的轮廓掩膜；

步骤四，根据定制形象的轮廓掩膜将SMPL模板模型进行重构整合，最终生成定制形象的2D运动视频。

上述方案中，步骤一的具体方法如下：

(1)根据行人识别技术获取视频中每帧图像的源对象回归框，然后将源对象回归框的图像信息以及根据聚类算法得到的9个聚类图像信息作为生成网络的输入，输出10个修正后回归框的图像信息；

(2)利用对抗网络将输出的10个修正后回归框的图像信息与人工标注的真实的回归框的图像信息分别进行比较，输出误差值，选择其中误差值最小的一个图像信息的回归框作为源对象修正回归框。

上述方案中，步骤二的具体方法如下：

根据并行多分辨率卷积的原理，将源对象修正回归框作为deep-high-resolutionnet网络的输入，输出源对象修正回归框的2D关节点信息。

上述方案中，步骤三中，获取SMPL模板模型的具体方法如下：

根据人体姿态和形状估计的视频推断网络的原理，将源对象修正回归框的2D关节点作为人体姿态和形状估计的视频推断网络的输入，获取定制形象的SMPL模板模型，以及模板标准图、模板蒙皮图和模板深度图。

上述方案中，步骤四的具体方法如下：

以定制形象轮廓掩膜为模板，将SMPL模板模型进行重构整合，获取定制形象的法向图、标准图、轮廓图和蒙皮图，根据最终估算出的定制形象的轮廓图和蒙皮图，即可得到定制形象基于轮廓掩膜与源对象动作一一对应的2D运动，从而生成该视频图像下的卡通定制形象2D运动视频。

通过上述技术方案，本发明提供的基于人体动作迁移的卡通定制形象运动视频生成方法具有如下有益效果：

(1)无需深度相机获取源对象的3d信息；

(2)能够准确获取源对象目标；

(3)能够直接从源对象动作和选定的定制形象生成定制形象运动视频，无需做全局标准化和图像映射；

(4)定制形象生动且具有连续性外观，无需担心由生成器原因导致的外观不连续问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于人体动作迁移的卡通定制形象运动视频生成方法流程示意图；

图2为人体关节点模型图；

图3为SMPL模板模型图；

图4为定制形象图；

图5为定制形象轮廓掩模图；

图6为视频源对象2D动作图；

图7为生成的定制形象运动图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于人体动作迁移的卡通定制形象运动视频生成方法，如图1所示，具体实施例如下：

具体方法如下：

(1)给定采集视频帧数据为：Ig＝{I₁(x¹,y¹),I₂(x²,y²),...,I_i(xⁱ,yⁱ),...,I_a(x^a,y^a)}，I_i(xⁱ,yⁱ)为第i帧视频图像，0≤xⁱ≤W_i-1，0≤yⁱ≤H_i-1，W_i和H_i分别为图像Ii(xⁱ,yⁱ)的宽度和高度，xⁱ,yⁱ分别表示视频图像中像素点的横坐标和纵坐标；

根据行人识别技术获取视频中每帧图像Ii(xⁱ,yⁱ)的源对象回归框bbox＝[x_c,y_c,w,h]，x_c,y_c分别表示该回归框的中心点的横坐标和纵坐标，w为回归框的宽度，h为回归框的高度；

定义bbox_g＝[x_c_g,y_c_g,w_g,h_g]和bbox＝[x_c,y_c,w,h]两者之间的偏移量Δbbox＝[Δx_c,Δy_c,Δw,Δh]，公式如下，

Δx_c＝(x_c_g-x_c)/W_i

Δy_c＝(y_c_g-y_c)/H_i

Δw＝(w_g-w)/W_i

Δh＝(h_g-h)/H_i

其中，bbox_g＝[x_c_g,y_c_g,w_g,h_g]为源对象真实的回归框，由人工标注得到；

将所有源对象回归框偏移量进行聚类，设定聚类数为9，得到源对象聚类回归框的集合ΔBbox＝{[Δx_c₁,Δy_c₁,Δw₁,Δh₁],...,[Δx_c₉,Δy_c₉,Δw₉,Δh₉]}，Δx_c_ii，Δy_c_ii分别表示第ii个聚类回归框与真实回归框之间横坐标和纵坐标的偏移量，Δw_ii,Δh_ii分别表示第ii个聚类回归框与真实回归框之间宽度和高度的偏移量；1≤ii≤9，ii表示聚类中心点的个数，增加的9个源对象聚类回归框能够很好的保证生成网络最后输出图像信息的准确性和多样性，有利于后续2D姿态更加准确的生成；

然后根据如下公式生成对应ii个区域的源对象聚类回归框bbox_ii＝[x_c_ii,y_c_ii,w_ii,h_ii]：

x_c_ii＝x_c+Δx_c_i×W_i

y_c_ii＝y_c+Δy_c_i×H_i

w_ii＝w+Δw_i×W_i

h_ii＝h+Δh_i×H_i

使用opencv提取源对象回归框bbox＝[x_c,y_c,w,h]的图像信息region_bbox和源对象聚类回归框bbox_ii＝[x_c_ii,y_c_ii,w_ii,h_ii]的图像信息

将其缩放到512×512大小，均作为生成网络的输入。

定义生成网络特征矩阵集合为Feature_gen＝[F₁(x¹,y¹；C₁),...,F_i′(x^i′,y^i′；C_i′),...,F_N-1(x^N-1,y^N-1；C_N-1)]，0≤x^i′≤W_i′-1，W_i′为i′层特征矩阵宽度信息，0≤y^i′≤H_i′-1，H_i′为i′层特征矩阵长度信息，x^i′和y^i′分别表示生成网络第i′层特征层的点的横坐标和纵坐标，C_i′为i′层特征层的通道数，1≤i′≤N-1，N-1表示生成网络特征层的标号，则求得F_N(x^N,y^N；C_N)的公式如下：

F₁(x¹,y¹；C₁)＝ω₁(kw₁,kh₁,kn₁)region_bbox+b₁(kn₁)F_i′(x^i′,y^i′；C_i′)＝ω_i′(kw_i′,kh_i′,kn_i′)F_i′-1(x^i′-1,y^i′-1；C_i′-1)+b_i′(kn_i′)，i′＞1

F_N(x^N,y^N；C_N)＝ω_N(kw_N,kh_N,kn_N)F_N-1(x^N-1,y^N-1；C_N-1)+b_N(kn_N)

同理，0≤x^i′-1≤W_i′-1-1，W_i′-1为i′-1层特征层宽度信息，0≤y^i′-1≤H_i′-1-1，H_i′-1为i′-1层特征层长度信息，x^i′-1和y^i′-1分别表示生成网络i′-1层特征层点的横坐标和纵坐标，C_i′-1为i′-1层特征层的通道数，ω_i′(kw_i′,kh_i′,kn_i′)为权重矩阵，其中，kh_i′，kw_i′，kn_i′分别为第i′特征层权重矩阵的行数，列数和数量，b_i′(kn_i′)为i′层偏移矩阵。

最后输出10个修正后回归框的图像信息F_N(x^N,y^N；C_N)，N表示生成网络最后输出的图像信息的标号，0≤x^N≤W_N-1，0≤y^N≤H_N-1，W_N和H_N分别表示生成网络输出图像信息的宽度和高度，x^N和y^N分别表示输出图像信息点的横坐标和纵坐标位置，C_N表示输出图像信息的通道数。

(2)利用对抗网络将输出的10个修正后回归框的图像信息与人工标注的真实的回归框的图像信息分别进行比较，输出误差值，选择其中误差值最小的一个图像信息的回归框作为源对象修正回归框，具体如下：

首先，将人工标注的源对象真实回归框bbox_g＝[x_c_g,y_c_g,w_g,h_g]的图像信息

缩放到512×512大小，和生成网络输出修正后回归框的图像信息F_N(x^N,y^N；C_N)_bbox和

两者同时作为对抗网络的输入，并分别输出region_bbox与

以及

与

的误差值MSE_loss和(MSE_loss)_ii，并将误差值分别与thresh比较，一般，thresh>0.75，生成网络输出的修正图像信息F_N(x^N,y^N；C_N)的真伪状态定义为state，其中，

MSE_loss为F_N(x^N,y^N；C_N)与

的均方误差，计算公式如下:

score_ii＝(state,value_ii)，value_ii＝(1-MSE_loss)_ii，将Score进行排序，选择state＝true，value_ii最大的

作为最终源对象修正回归框的位置，

根据论文Deep High-Resolution Representation Learning for VisualRecognition[J],Jingdong Wang,etc.,CVPR2019,阐述的2D关节点生成方法，里面提到的并行多分辨率卷积的原理，将源对象修正回归框作为deephighresolution net网络的输入，输出源对象修正回归框的2D关节点信息：

其中，(x_i,k,y_i,k)代表图像I_i中源对象修正回归框第k个2D关节点在图像中的坐标。

人体关节点模型如图2所示，视频Ig中所有帧源对象的修正回归框2D关节点集合定义为Jg^2D＝{J₁,J₂,...,J_i,...J_a}，1≤i≤a。

获取如图3所示的SMPL模板模型的具体方法如下：

根据论文VIBE:Video Inference for Human Body Pose and Shape Estimation[J].Muhammed Kocabas,etc.,CVPR2020，中描述的VIBE(人体姿态与形态估计的视频推断)网络的原理，将源对象修正回归框的2D关节点作为人体姿态和形状估计的视频推断网络的输入，获取定制形象的SMPL模板模型S_SMPL，以及模板标准图N_SMPL、模板蒙皮图W_SMPL和模板深度图Z_SMPL。

根据自动阈值分割方法得到定制形象轮廓掩膜S_mask(x_m,y_m)为：

其中，(x_m,y_m)为定制形象背景图I_b的坐标，且满足0≤x_m≤W_m-1，0≤y_m≤H_m-1，W_m和H_m分别为背景图I_b的宽度和高度。

步骤四，根据定制形象的轮廓掩膜将SMPL模板模型进行重构整合，最终生成如图4所示的定制形象的2D运动视频。

以如图5所示的定制形象轮廓掩膜为模板，将SMPL模板模型进行重构整合，获取定制形象的法向图、标准图、轮廓图和蒙皮图，具体如下：

获取定制形象的法向图

标准图N_obj、轮廓图Z_obj和蒙皮图W_obj：

N_obj(x_m,y_m)＝N_SMPL(f(x_m,y_m))，

W_obj(x_m,y_m)＝W_SPML(f(x_m,y_m))，

其中，Intergrate表示根据法向图和标准图整合的过程，f(x_m,y_m)求解公式为：

其中，p(x_m′,y_m′)表示定制形象轮廓掩膜S_mask(x_m,y_m)上的点，(x_m′,y_m′)为点的坐标值，ME为定制形象轮廓上点的数量，λ_m′(x_m,y_m)表示点(x_m,y_m)关于p(x_m′,y_m′)的中值坐标，即λ_m′(x_m,y_m)＝((x_m+x_m′)/2,(y_m+y_m′)/2),

表示已知的SMPL模板模型轮廓上的点。φ[m′]为从SMPL模板模型轮廓到定制形象轮廓的映射变换，满足公式：

其中，Kn＝48用于映射φ的动态规划。

根据最终估算出的定制形象的轮廓图Z_obj和蒙皮图W_obj，即可得到定制形象基于轮廓掩膜S_mask(x_m,y_m)与如图6所示的源对象动作一一对应的2D运动，从而生成该视频图像下的卡通定制形象2D运动视频，如图7所示。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于人体动作迁移的卡通定制形象运动视频生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于人体动作迁移的卡通定制形象运动视频生成方法，其特征在于，步骤一的具体方法如下：

3.根据权利要求1所述的一种基于人体动作迁移的卡通定制形象运动视频生成方法，其特征在于，步骤二的具体方法如下：

根据并行多分辨率卷积的原理，将源对象修正回归框作为deephighresolution net网络的输入，输出源对象修正回归框的2D关节点信息。

4.根据权利要求1所述的一种基于人体动作迁移的卡通定制形象运动视频生成方法，其特征在于，步骤三中获取SMPL模板模型的具体方法如下：

5.根据权利要求1所述的一种基于人体动作迁移的卡通定制形象运动视频生成方法，其特征在于，步骤四的具体方法如下：