CN111539262A - 一种基于单张图片的运动转移方法及系统 - Google Patents
一种基于单张图片的运动转移方法及系统 Download PDFInfo
- Publication number
- CN111539262A CN111539262A CN202010253271.3A CN202010253271A CN111539262A CN 111539262 A CN111539262 A CN 111539262A CN 202010253271 A CN202010253271 A CN 202010253271A CN 111539262 A CN111539262 A CN 111539262A
- Authority
- CN
- China
- Prior art keywords
- human body
- foreground
- picture
- target
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000033001 locomotion Effects 0.000 title claims abstract description 40
- 238000012546 transfer Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 83
- 230000011218 segmentation Effects 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 101
- 238000012549 training Methods 0.000 claims description 38
- 230000000007 visual effect Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 238000002679 ablation Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 239000002689 soil Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 241001647769 Mirza Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于单张图片的运动转移方法及系统。
背景技术
随着深度学习理论和相关技术的蓬勃发展,有很多过去人们无法攻克的问题都取得了巨大的进展,例如语音合成、语音识别、目标追踪等。特别是深度卷积神经网络的提出,让计算机视觉的研究有了跨越性的发展,人们通过深度卷积神经网络在图像分类、目标检测和语义分割上取得了重大的进展。同时,随着GPU芯片的发展,人们可以使用的计算力越来越大,神经网络被构建的越来越深,参数越来越多,人们能够利用神经网络做的事情也越来越多,甚至可以用于生成图片或者视频。
Goodfellow等人在2014年提出生成对抗网络(Generative AdversarialNetworks,GAN),其生成对抗网络由生成器和判别器组成,在训练过程中生成器和判别器进行对抗。M.Mirza等在GAN提出的同一年提出了基于条件的生成对抗网络(ConditonalGenerative Adversarial Nets,C-GAN),C-GAN可以通过条件输入(conditional input)来控制输出,比如可以让GAN生成一只狗或者生成有特定颜色头发的人。此后,很多人投入了对GAN的研究,其中BigGAN等工作给人们留下了深刻的印象,他们生成的图片甚至难辨真假。
图像合成(Image Synthesis)和视频合成(Video Synthesis)都是产生式模型(Generative Model)研究的热点问题,相比图像合成,视频合成需要考虑时序信息以保证视觉上的连贯性。P.Isola等人在2017年提出pix2pix,一种由图像生成图像(Image-to-Image Translation)的模型,其输入可以是语义分割的结果,而输出则是具有真实感的图片。类似于pix2pix,T.-C.Wang等人提出了一种由视频生成视频(Video-to-VideoTranslation)的模型vid2vid,输入可以是语义分割的序列,而输出则是具有真实感的视频。
运动转移指将人类的运动从源人物转移到目标人物,这在计算机视觉和图形学上有着大量的用途,并且已经被研究了数十年。运动转移在虚拟现实、电子游戏、艺术创作和电影剪辑等领域具有广泛用途。在之前的研究中,有些人的方法需要基于精密的人体3D模型;而最近也有人尝试使用生成对抗网络“Everybody Dance Now”解决这个问题,但是它需要每个目标人物训练一个独立的生成对抗网络,这个生成对抗网络可以根据给定的动作信息(骨骼关键点)序列生成对应的目标人物视频。尽管上述两种方法都取得了很好的效果,但是这两种方法都很难投入实际使用。例如,若要在一些社交平台上上线这个功能,为每位用户单独训练一个模型从算力上来说是不切实际的。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于单张图片的运动转移方法及系统,以实现基于单张目标人物外观图片完成运动转移的目的。
为达上述目的,本发明提出一种基于单张图片的运动转移方法,包括如下步骤:
步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
优选地,步骤S1进一步包括:
步骤S100,对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose;
步骤S101,对步骤S100所获得的姿势序列Spose进行时序光滑;
步骤S102,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位;
步骤S103,将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图从而得到目标视频的人体语义解析序列。
优选地,于步骤S1中,其训练阶段的损失函数包括第一范式距离损失函数和分类交叉墒损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和分类交叉墒损失函数的加权和。
优选地,步骤S2进一步包括:
步骤S200,使用人体姿态估计器提取目标人物外观图片对应的姿态图Ipose;
优选地,所述流回归网络的损失函数包括端点错误损失函数和交叉墒损失函数两部分。
优选地,于步骤S2中,其训练阶段的损失函数包括三个部分:第一范式距离损失函数、对抗损失函数和感知损失函数,步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和。
优选地,步骤S3进一步包括:
步骤S300,通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景和背景;
步骤S302,通过得到的前景掩膜fg_maskt融合前后景,得到最终目标视频。
优选地,于步骤S3中,其训练阶段的损失函数包括第一范式距离损失函数和感知损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和。
为达到上述目的,本发明还提供一种基于单张图片的运动转移系统,包括:
目标视频人体语义解析序列生成单元,用于对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
目标视频生成单元,用于通过修护后的背景图bg、所述目标视频前景生成单元中生成的前景以及目标视频前景生成单元中生成的前一帧前景预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt。
与现有技术相比,本发明一种基于单张图片的运动转移方法及系统通过对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图然后根据生成的目标视频的人体语义解析图以及目标人物外观图片前景Ia生成目标视频的前景最后通过修护后的背景图bg、生成的前景以及前一帧前景预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt,本发明只需要借助一张目标人物的外观图片即可完成运动转移的目的。
附图说明
图1为本发明一种基于单张图片的运动转移方法的步骤流程图;
图2为本发明具体实施例中输入输出定义示意图;
图3为本发明一种基于单张图片的运动转移系统的系统架构图;
图4为本发明实施例之运动转移结果的示意图;
图5为本发明和基线方法对比的示意图;
图6为本发明与基线方法生成视频细节对比的示意图;
图7为本发明与基线方法对比的示意图;
图8为本发明实施例中所使用的DMT数据集示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于单张图片的运动转移方法的步骤流程图。如图1所示,本发明一种基于单张图片的运动转移方法,包括如下步骤:
步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
在本发明具体实施例中,如图2所示,给定一段源视频和目标人物图片I,本发明可以生成一段目标视频,在目标视频中,目标人物的动作与源视频中的人物相同,因此称之为一种运动转移方法,其将源视频中人物的动作转移到了目标人物身上,目标人物指生成的目标视频中的人物。
具体地,步骤S1进一步包括以下步骤:
步骤S100,对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose。也就是说,给定一段源视频(本发明中源视频均为单人视频),对于源视频每一帧均通过上述方法提取姿势图,获得源视频所对应的姿势序列Spose。
步骤S101,对步骤S100所获得的姿势序列Spose进行时序光滑。
由于通过人体姿态估计器获得的姿势序列相邻帧之间可能会有较大的变化,这会导致最终视频视觉上不连贯。为解决此问题,在本发明具体实施例中,对于所获取的姿势序列Spose进行Savitzky–Golay滤波,具体见Savitzky,A.,and M.J.E.Golay(1964),Smoothing and differentiation of data by simplified least squares procedures,Analytical Chemistry,36,1627-1639.”,在此不予赘述。
步骤S102,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位。也就是说,给定目标人物图片I,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位,并利用人体解析分割图Iparsing分割目标人物图片得到外观图片前景Ia。
步骤S103,将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,得到对应的人体语义解析序列。具体地,对于第i帧姿势热图将其和目标人物人体语义解析Iparsing一同输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图将上述过程应用到姿势序列每一帧,即可得到目标视频的人体语义解析序列。
在本发明具体实例中,所述人体姿态估计器来源于“OpenPose:realtime multi-person 2D pose estimation using Part Affinity Fields”论文中所提出的方法,所述人体解析器来源于“Graphonomy:Universal human parsing via graph transferlearning.”论文中所提出的方法,由于其均采用的是现有技术,在此不予赘述。
在步骤S1中,训练阶段的损失函数包括两个部分,第一范式距离损失函数(L1Loss)和分类交叉墒损失函数(Cross Entropy Loss)。令x′p∈RW*H*C,xp∈RW*H*C分别为生成的人体语义解析图和人体语义解析图的标准答案(Ground Truth),其中W,H分别为输入图片的宽高,C为人体语义解析的类别数。在本发明中,(W,H)=(448,448),C=19。
其中,第一范式距离损失可以表示为:
其中,分类交叉墒损失可以表示为:
具体地,步骤S2进一步包括:
步骤S200,使用人体姿态估计器提取目标人物图片I对应的姿态图Ipose,具体提取方式与步骤S100中所描述的相似,在此不予赘述。
所述流图F指的是同一个人体的相同位置在两张不同图片间二维坐标的差值,本发明使用ui,u′i分别表示同一点在两张图片上的坐标,则fi=F(ui)=u′i-ui。
所述可视图V指的是某一点在Ia上是否可见,具体来说,vi=V(ui)=visibility(hi,Ia),其中hi指三维人体模型的一个点,其中visibility(hi,Ia)的返回值有三个,分别为可见、不可见、背景。
在本发明具体实施例中,为了训练本步骤的流回归网络,首先使用HMR(“End-to-end Recovery of Human Shape and Pose”)对于外观图片前景Ia和目标帧(根据目标视频获得)提取SMPL(SMPL,A Skinned Multi-Person Linear Model)人体三维模型,然后通过提取的两个三维模型计算流图F和可视图V的标准答案(Ground Truth),随后利用这个标准答案(Ground Truth)训练流回归网络。对于可视图V的标准答案(Ground Truth),首先将外观图片Ia对应的人体三维模型投影到二维空间,那么这个三维模型在二维空间上肯定只有一面是可见的,剩下有些点被自身遮挡而不可见,还有一些点不属于三维模型,则为背景。
流回归网络的损失函数包括两个部分:端点错误损失函数(end-point-errorloss)和交叉墒损失函数(cross entropy)。
步骤S204,使用VGG网络对于第i帧对应的人体语义解析图提取特征图,形变后的特征图逐通道与人体语义解析对应的特征图(即对于第i帧对应的人体语义解析图提取特征图)连接起来,随后通过解码器获得生成的目标视频的前景
需说明的是,在真实场景中,视频通常长宽比为16:9,而人物只占整个画面的一小部分,所以本发明利用人体语义解析结果将源视频和目标人物中的人物部分抠出,抠出后,首先将其填充成长宽相等的矩形,而后将其缩放至448*448,并将该小块区域在源视频中的坐标记录下来。在此所叙述的处理适用于步骤S1和步骤S2。在进行步骤S3前,根据记录的坐标,将生成的前景恢复至源视频中原有的大小,并输出至步骤S3中。
在步骤S2中,训练阶段的损失函数包括三个部分:第一范式距离损失函数(L1Loss)、对抗损失函数(Adversarial Loss)和感知损失函数(Perceptual Loss)。令分别为生成的前景和前景的标准答案(Ground Truth),Ia为目标人物外观图片前景,为输入的人体语义解析图。
其中感知损失函数可以表达为感知损失函数度量的是真实图片与生成图片在特征空间的第一范式距离。在本发明中,使用VGG19网络的特征提取器进行特征提取,其中指的是生成图来源于VGG19网络所提取的第i层特征图,具有类似的意义。
步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和,令λL1,λadv,λper分别为第一范式距离损失函数、对抗损失函数、感知损失函数所对应的权重。在具体实施中,λL1,λadv,λper=1.0,0.01,1.0。
具体来说,步骤S3可以进一步包括以下步骤:
步骤S300,通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景Ia和背景。这里得到的背景由于被人体遮挡,会有一部分空缺,本发明使用图像修复算法(“EdgeConnect:Generative image inpainting withadversarial edge learning”)对于背景进行修复,得到修复后的背景bg。
步骤S302,通过得到的前景掩膜fg_maskt融合前后景,具体的融合过程如下:
在步骤S3中,训练阶段的损失函数包括两部分,第一范式距离损失函数(L1Loss)和感知损失函数(Perceptual Loss),定义与步骤S2中的损失函数相似,在此不再赘述。本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和,对于以上两个损失函数,在本发明中均设为1.0。
在本发明具体实施例中,Adam优化器被用来训练各个阶段的网络,其中β1=0.5,β2=0.999。对于步骤S1,初始学习率为0.0002,在遍历整个训练集30次(epoch)以内,可以获得合理的结果。对于步骤S2,生成器的初始学习率为0.0002,判别器的初始学习率为0.00002,在遍历整个训练集40次(epoch)以内,可以获得合理的结果。对于步骤S3,初始学习率为0.0001,在遍历整个训练集5次(epoch)以内,可以获得合理的结果。
图3为本发明一种基于单张图片的运动转移系统的系统架构图。如图3所示,本发明一种基于单张图片的运动转移系统,包括:
目标视频人体语义解析序列生成单元301,用于对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
具体地,目标视频人体语义解析序列生成单元301进一步包括:
源视频姿势序列获取模块,用于对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose。也就是说,给定一段源视频,对于源视频每一帧均通过上述方法提取姿势图,获得源视频所对应的姿势序列Spose。
时序光滑模块,用于对源视频姿势序列获取模块所获得的姿势序列Spose进行时序光滑。
由于通过人体姿态估计器获得的姿势序列相邻帧之间可能会有较大的变化,这会导致最终视频视觉上不连贯。为解决此问题,在本发明具体实施例中,源视频姿势序列获取模块对所获取的姿势序列Spose进行Savitzky–Golay滤波实现时序光滑。
人体解析分割图获取模块,用于使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位。也就是说,给定目标人物图片I,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位,并利用人体解析分割图Iparsing分割目标人物图片得到外观图片前景Ia。
生成器,用于将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,得到对应的人体语义解析序列。具体地,对于第i帧姿势热图将其和目标人物人体语义解析Iparsing一同输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图将上述过程应用到姿势序列每一帧,即可得到目标视频的人体语义解析序列。
在目标视频人体语义解析序列生成单元301中,训练阶段的损失函数包括两个部分,第一范式距离损失函数(L1 Loss)和分类交叉墒损失函数(Cross Entropy Loss)。令x′p∈RW*H*C,xp∈RW*H*C分别为生成的人体语义解析图和人体语义解析图的标准答案(GroundTruth),其中W,H分别为输入图片的宽高,C为人体语义解析的类别数。在本发明中,(W,H)=(448,448),C=19。
其中,第一范式距离损失可以表示为:
其中,分类交叉墒损失可以表示为:
具体地,目标视频前景生成单元302进一步包括:
目标人物外观图片姿态图提取模块,用于使用人体姿态估计器提取目标人物外观图片对应的姿态图Ipose,具体提取方式与源视频姿势序列获取模块中所描述的相似,在此不予赘述。
所述流图F指的是同一个人体的相同位置在两张不同图片间二维坐标的差值,本发明使用ui,u′i分别表示同一点在两张图片上的坐标,则fi=F(ui)=u′i-ui。
所述可视图V指的是某一点在Ia上是否可见,具体来说,vi=V(ui)=visibility(hi,Ia),其中hi指三维人体模型的一个点,其中visibility(hi,Ia)的返回值有三个,分别为可见、不可见、背景。
在本发明具体实施例中,为了训练所述流回归网络,首先使用HMR(“End-to-endRecovery of Human Shape and Pose”)对于外观图片Ia和目标帧提取SMPL(“SMPL:ASkinned Multi-Person Linear Model”)人体三维模型,然后通过提取的两个三维模型计算流图F和可视图V的标准答案(Ground Truth),随后利用这个标准答案(Ground Truth)训练流回归网络。对于可视图V的标准答案(Ground Truth),首先将外观图片Ia对应的人体三维模型投影到二维空间,那么这个三维模型在二维空间上肯定只有一面是可见的,剩下有些点被自身遮挡而不可见,还有一些点不属于三维模型,则为背景。
流回归网络的损失函数包括两个部分:端点错误损失函数(end-point-errorloss)和交叉墒损失函数(cross entropy)。
在目标视频前景生成单元302中,训练阶段的损失函数包括三个部分:第一范式距离损失函数(L1 Loss)、对抗损失函数(Adversarial Loss)和感知损失函数(PerceptualLoss)。令分别为生成的前景和前景的标准答案(Ground Truth),Ia为目标人物外观图片前景,为输入的人体语义解析图。
其中感知损失函数可以表达为 感知损失函数度量的是真实图片与生成图片在特征空间的第一范式距离。在本发明中,使用VGG19网络的特征提取器进行特征提取,其中指的是生成图来源于VGG19网络所提取的第i层特征图,具有类似的意义。
目标视频前景生成单元302的训练阶段的总体损失函数即为上述三种损失函数的加权和,令λL1,λadv,λper分别为第一范式距离损失函数、对抗损失函数、感知损失函数所对应的权重。在具体实施中,λL1,λadv,λper=1.0,0.01,1.0。
目标视频生成单元303,用于通过修护后的背景图bg、目标视频前景生成单元302中生成的前景以及目标视频前景生成单元302中生成的前一帧前景预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt。
具体来说,目标视频生成单元303进一步包括:
前景背景区分模块,用于通过在人体解析分割图获取模块中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景和背景。这里得到的背景由于被人体遮挡,会有一部分空缺,本发明使用图像修复算法(“EdgeConnect:Generativeimage inpainting with adversarial edge learning”)对于背景进行修复,得到修复后的背景bg。
融合模块,用于通过得到的前景掩膜fg_maskt融合前后景,其具体的融合过程如下:
在目标视频生成单元303中,训练阶段的损失函数包括两部分,第一范式距离损失函数(L1 Loss)和感知损失函数(Perceptual Loss),定义与目标视频前景生成单元302中的损失函数相似,在此不再赘述。目标视频生成单元303在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和,对于以上两个损失函数,在本发明中均设为1.0。
在本发明具体实施例中,Adam优化器被用来训练各个阶段的网络,其中β1=0.5,β2=0.999。对于步骤S1,初始学习率为0.0002,在遍历整个训练集30次(epoch)以内,可以获得合理的结果。对于步骤S2,生成器的初始学习率为0.0002,判别器的初始学习率为0.00002,在遍历整个训练集40次(epoch)以内,可以获得合理的结果。对于步骤S3,初始学习率为0.0001,在遍历整个训练集5次(epoch)以内,可以获得合理的结果。
实施例
为了验证本发明的具体实施效果,在本实施例中,构造了一个包含438段视频的数据集,取名为DMT数据集,如图8所示。在DMT数据集中,视频均满足以下三个特征:1)单人2)近乎固定的背景3)人物动作幅度大。特征1和特征2让研究者可以专注于动作转移的技术,而不用关注复杂的背景或者多人物的问题,特征3能够验证方法对于复杂动作的处理能力。如上述发明内容所述,对于每段视频需要一张代表人物外观的外观图片(Ia),采用如下方式选取每段视频的外观图片。首先采用OpenPose人体姿态估计器对于视频的每一帧提取姿态关键点,对于每一帧来说,有18个关键点,对于第j帧第i个关键点的信息为其中为关键点的横纵坐标,为该点所预测的置信度;对于每一帧18个人体关键点的置信度进行求和,并取置信度之和最大的那一帧作为本段视频的外观图片(Ia)。将DMT数据集分为训练集和测试集,其中训练集包含406段视频,测试集包含22段视频,对应561785帧和31680帧。
首先使用DMT数据集训练步骤S1、步骤S2、步骤S3。
对于评价视频生成方法效果的好坏,主要是有两类评价方法,一类为定性评价,一类为定量评价。对于定量评价,在本实施例中,使用了弗雷谢视频距离(Frechet VideoDistance,FVD,“Towards accurate generative models of video:A new metric&challenges.”)作为评判标准。但这一标准不适用于对运动转移效果的评价,因为其无法衡量生成视频的真实感。所以本发明还同时使用用户调查的方式对不同模型做定性评价。具体操作是,在亚马逊AMT平台上,向平台上的工作人员展示一张外观图片,然后让工作人员从两个运动转移结果中选择更加真实逼真,保留更多细节的结果,给定的两个运动转移结果来自不同的模型。当在比较两种方法优劣时,对测试集中的每个视频发放等量的问卷,最后将所有的问卷放在一起计算每种方法所获得的支持的比例,这个比例作为这个方法在人工评估中的得分。
首先从定性角度来分析具体实施结果:
如图4所示,将第一行视频中的动作转移到了左边一列的7个不同的目标人物上。
如图5所示,将本发明的方法所生成的结果与三种不同的基线方法进行对比,本发明的方法从视觉效果上明显优于基线方法,基线方法包括pix2pixHD(“High-ResolutionImage Synthesis and Semantic Manipulation with Conditional GANs”)、vid2vid(“Video-to-Video Synthesis”)和soft-gated(“Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis”)。如图6所示,本发明的结果与基线方法的结果进行细节上的对比,本发明的结果明显基线方法。
为了验证本发明所提出的方法各个模块的必要性,在本实施例中,还设计了两组消融实验,分别为去除步骤S2中的流回归网络和去除步骤S3。如图7最后两列所示,两组消融实验所产生的结果从视觉上明显差于完整模型,说明了流回归网络和步骤S3的必要性。
接下来从定量角度来分析具体实施结果:
如下表1所示:
表1
方法 | 弗雷谢视频距离 |
Pix2pixHD | 1783.94 |
Vid2vid | 2244.97 |
Soft-gated | 1555.33 |
本发明消融实验(去除流回归网络) | 1285.68 |
发发明消融实验(去除步骤S3) | 1454.47 |
本发明完整方法 | 1005.84 |
表1为本实施例中的在DMT测试集上的FVD分数,FVD距离越低说明生成效果越好,可见本发明完整方法FVD距离最低,低于基线方法或消融方法,说明了本发明优于基线方法,也优于消融方法。
表2
从上表2可以看出,大部分的工作人员都倾向于选择本发明完整方法所生成的结果,这也说明了本发明所生成的结果更具有真实感。
综上所述,本发明一种基于单张图片的运动转移方法及系统通过对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图然后根据生成的目标视频的人体语义解析图以及目标人物外观图片前景Ia生成目标视频的前景最后通过修护后的背景图bg、生成的前景以及前一帧前景预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt,本发明只需要借助一张目标人物的外观图片即可完成运动转移的目的,不需要复杂先验知识,更加符合实际需求,方便应用于工业界。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于单张图片的运动转移方法,包括如下步骤:
步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,并生成目标视频的人体语义解析图
2.如权利要求1所述的一种基于单张图片的运动转移方法,其特征在于,步骤S1进一步包括:
步骤S100,对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose;
步骤S101,对步骤S100所获得的姿势序列Spose进行时序光滑;
步骤S102,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位,并利用该人体解析分割图Iparsing分割目标人物图片I得到外观图片前景Ia;
3.如权利要求2所述的一种基于单张图片的运动转移方法,其特征在于;于步骤S1中,其训练阶段的损失函数包括第一范式距离损失函数和分类交叉墒损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和分类交叉墒损失函数的加权和。
4.如权利要求2所述的一种基于单张图片的运动转移方法,其特征在于,步骤S2进一步包括:
步骤S200,使用人体姿态估计器提取目标人物外观图片对应的姿态图Ipose;
6.如权利要求5所述的一种基于单张图片的运动转移方法,其特征在于:所述流回归网络的损失函数包括端点错误损失函数和交叉墒损失函数两部分。
7.如权利要求5所述的一种基于单张图片的运动转移方法,其特征在于:于步骤S2中,其训练阶段的损失函数包括三个部分:第一范式距离损失函数、对抗损失函数和感知损失函数,步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和。
9.如权利要求8所述的一种基于单张图片的运动转移方法,其特征在于:于步骤S3中,其训练阶段的损失函数包括第一范式距离损失函数和感知损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和。
10.一种基于单张图片的运动转移系统,包括:
目标视频人体语义解析序列生成单元,用于对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010253271.3A CN111539262B (zh) | 2020-04-02 | 2020-04-02 | 一种基于单张图片的运动转移方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010253271.3A CN111539262B (zh) | 2020-04-02 | 2020-04-02 | 一种基于单张图片的运动转移方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539262A true CN111539262A (zh) | 2020-08-14 |
CN111539262B CN111539262B (zh) | 2023-04-18 |
Family
ID=71978583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010253271.3A Active CN111539262B (zh) | 2020-04-02 | 2020-04-02 | 一种基于单张图片的运动转移方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539262B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419455A (zh) * | 2020-12-11 | 2021-02-26 | 中山大学 | 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质 |
CN113051420A (zh) * | 2021-04-15 | 2021-06-29 | 山东大学 | 一种基于文本生成视频机器人视觉人机交互方法及系统 |
WO2023060918A1 (zh) * | 2021-10-14 | 2023-04-20 | 天翼数字生活科技有限公司 | 一种基于语义和姿态图引导的图片匿名化方法 |
CN118283201A (zh) * | 2024-06-03 | 2024-07-02 | 上海蜜度科技股份有限公司 | 视频合成方法、系统、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008915A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
CN110197167A (zh) * | 2019-06-05 | 2019-09-03 | 清华大学深圳研究生院 | 一种视频动作迁移方法 |
CN110868598A (zh) * | 2019-10-17 | 2020-03-06 | 上海交通大学 | 基于对抗生成网络的视频内容替换方法及系统 |
-
2020
- 2020-04-02 CN CN202010253271.3A patent/CN111539262B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008915A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
CN110197167A (zh) * | 2019-06-05 | 2019-09-03 | 清华大学深圳研究生院 | 一种视频动作迁移方法 |
CN110868598A (zh) * | 2019-10-17 | 2020-03-06 | 上海交通大学 | 基于对抗生成网络的视频内容替换方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419455A (zh) * | 2020-12-11 | 2021-02-26 | 中山大学 | 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质 |
CN113051420A (zh) * | 2021-04-15 | 2021-06-29 | 山东大学 | 一种基于文本生成视频机器人视觉人机交互方法及系统 |
CN113051420B (zh) * | 2021-04-15 | 2022-07-05 | 山东大学 | 一种基于文本生成视频机器人视觉人机交互方法及系统 |
WO2023060918A1 (zh) * | 2021-10-14 | 2023-04-20 | 天翼数字生活科技有限公司 | 一种基于语义和姿态图引导的图片匿名化方法 |
CN118283201A (zh) * | 2024-06-03 | 2024-07-02 | 上海蜜度科技股份有限公司 | 视频合成方法、系统、存储介质及电子设备 |
CN118283201B (zh) * | 2024-06-03 | 2024-10-15 | 上海蜜度科技股份有限公司 | 视频合成方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111539262B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275518B (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
CN111539262B (zh) | 一种基于单张图片的运动转移方法及系统 | |
Quan et al. | Image inpainting with local and global refinement | |
JP7147078B2 (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
Saunders et al. | Everybody sign now: Translating spoken language to photo realistic sign language video | |
Cartucho et al. | VisionBlender: a tool to efficiently generate computer vision datasets for robotic surgery | |
JP7026222B2 (ja) | 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 | |
CN103530619B (zh) | 基于rgb-d数据构成的少量训练样本的手势识别方法 | |
CN111242837A (zh) | 基于生成对抗网络的人脸匿名隐私保护方法 | |
Liu et al. | Defective samples simulation through adversarial training for automatic surface inspection | |
Jia et al. | Head and facial gestures synthesis using PAD model for an expressive talking avatar | |
CN109389035A (zh) | 基于多特征和帧置信分数的低延迟视频动作检测方法 | |
Bao et al. | High-quality face capture using anatomical muscles | |
Liang et al. | Video to fully automatic 3d hair model | |
Sengan et al. | Cost-effective and efficient 3D human model creation and re-identification application for human digital twins | |
CN113076918B (zh) | 基于视频的人脸表情克隆方法 | |
Mattos et al. | Multi-view mouth renderization for assisting lip-reading | |
CN113128517A (zh) | 色调映射图像混合视觉特征提取模型建立及质量评价方法 | |
CN111062284B (zh) | 一种交互式视频摘要模型的可视理解与诊断方法 | |
Yu et al. | A framework for automatic and perceptually valid facial expression generation | |
CN104517299B (zh) | 视频流体物理驱动模型恢复及重新仿真的方法 | |
US20230079478A1 (en) | Face mesh deformation with detailed wrinkles | |
CN115936796A (zh) | 一种虚拟换妆方法、系统、设备和存储介质 | |
Zeng et al. | Highly fluent sign language synthesis based on variable motion frame interpolation | |
Fang et al. | Audio-to-Deep-Lip: Speaking lip synthesis based on 3D landmarks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |