CN111539262A - 一种基于单张图片的运动转移方法及系统 - Google Patents

一种基于单张图片的运动转移方法及系统 Download PDF

Info

Publication number
CN111539262A
CN111539262A CN202010253271.3A CN202010253271A CN111539262A CN 111539262 A CN111539262 A CN 111539262A CN 202010253271 A CN202010253271 A CN 202010253271A CN 111539262 A CN111539262 A CN 111539262A
Authority
CN
China
Prior art keywords
human body
foreground
picture
target
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010253271.3A
Other languages
English (en)
Other versions
CN111539262B (zh
Inventor
吴博文
谢震宇
梁小丹
董浩业
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010253271.3A priority Critical patent/CN111539262B/zh
Publication of CN111539262A publication Critical patent/CN111539262A/zh
Application granted granted Critical
Publication of CN111539262B publication Critical patent/CN111539262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单张图片的运动转移方法及系统,所述方法包括:步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure DDA0002436272650000011
步骤S2,根据生成人体语义解析图以及目标人物外观图片前景Ia,生成目标视频的前景
Figure DDA0002436272650000014
步骤S3,通过修护后的背景图bg、步骤S2中生成的前景
Figure DDA0002436272650000012
以及步骤S2中生成的前一帧前景
Figure DDA0002436272650000013
预测出前景掩膜,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt

Description

一种基于单张图片的运动转移方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于单张图片的运动转移方法及系统。
背景技术
随着深度学习理论和相关技术的蓬勃发展,有很多过去人们无法攻克的问题都取得了巨大的进展,例如语音合成、语音识别、目标追踪等。特别是深度卷积神经网络的提出,让计算机视觉的研究有了跨越性的发展,人们通过深度卷积神经网络在图像分类、目标检测和语义分割上取得了重大的进展。同时,随着GPU芯片的发展,人们可以使用的计算力越来越大,神经网络被构建的越来越深,参数越来越多,人们能够利用神经网络做的事情也越来越多,甚至可以用于生成图片或者视频。
Goodfellow等人在2014年提出生成对抗网络(Generative AdversarialNetworks,GAN),其生成对抗网络由生成器和判别器组成,在训练过程中生成器和判别器进行对抗。M.Mirza等在GAN提出的同一年提出了基于条件的生成对抗网络(ConditonalGenerative Adversarial Nets,C-GAN),C-GAN可以通过条件输入(conditional input)来控制输出,比如可以让GAN生成一只狗或者生成有特定颜色头发的人。此后,很多人投入了对GAN的研究,其中BigGAN等工作给人们留下了深刻的印象,他们生成的图片甚至难辨真假。
图像合成(Image Synthesis)和视频合成(Video Synthesis)都是产生式模型(Generative Model)研究的热点问题,相比图像合成,视频合成需要考虑时序信息以保证视觉上的连贯性。P.Isola等人在2017年提出pix2pix,一种由图像生成图像(Image-to-Image Translation)的模型,其输入可以是语义分割的结果,而输出则是具有真实感的图片。类似于pix2pix,T.-C.Wang等人提出了一种由视频生成视频(Video-to-VideoTranslation)的模型vid2vid,输入可以是语义分割的序列,而输出则是具有真实感的视频。
运动转移指将人类的运动从源人物转移到目标人物,这在计算机视觉和图形学上有着大量的用途,并且已经被研究了数十年。运动转移在虚拟现实、电子游戏、艺术创作和电影剪辑等领域具有广泛用途。在之前的研究中,有些人的方法需要基于精密的人体3D模型;而最近也有人尝试使用生成对抗网络“Everybody Dance Now”解决这个问题,但是它需要每个目标人物训练一个独立的生成对抗网络,这个生成对抗网络可以根据给定的动作信息(骨骼关键点)序列生成对应的目标人物视频。尽管上述两种方法都取得了很好的效果,但是这两种方法都很难投入实际使用。例如,若要在一些社交平台上上线这个功能,为每位用户单独训练一个模型从算力上来说是不切实际的。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于单张图片的运动转移方法及系统,以实现基于单张目标人物外观图片完成运动转移的目的。
为达上述目的,本发明提出一种基于单张图片的运动转移方法,包括如下步骤:
步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure BDA0002436272630000021
步骤S2,根据步骤S1中生成的目标视频的人体语义解析图
Figure BDA0002436272630000022
以及目标人物外观图片前景Ia,生成目标视频的前景
Figure BDA0002436272630000023
步骤S3,通过修护后的背景图bg、步骤S2中生成的前景
Figure BDA0002436272630000024
以及步骤S2中生成的前一帧前景
Figure BDA0002436272630000031
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt
优选地,步骤S1进一步包括:
步骤S100,对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose
步骤S101,对步骤S100所获得的姿势序列Spose进行时序光滑;
步骤S102,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位;
步骤S103,将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图
Figure BDA0002436272630000032
从而得到目标视频的人体语义解析序列。
优选地,于步骤S1中,其训练阶段的损失函数包括第一范式距离损失函数和分类交叉墒损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和分类交叉墒损失函数的加权和。
优选地,步骤S2进一步包括:
步骤S200,使用人体姿态估计器提取目标人物外观图片对应的姿态图Ipose
步骤S201,流回归网络,将目标人物外观图片对应的姿态图Ipose与第i帧姿势热图
Figure BDA0002436272630000033
一起输入到深度神经网络中,输出流图F和可视图V;
步骤S202,使用VGG网络对于目标人物外观图片前景Ia提取特征,得到特征图
Figure BDA0002436272630000034
步骤S203,使用步骤S201中得到的可视图V对于步骤S202中得到的特征图
Figure BDA0002436272630000035
进行形变,得到形变后的特征图
Figure BDA0002436272630000036
步骤S204,使用VGG网络对于第i帧对应的人体语义解析图
Figure BDA0002436272630000037
提取特征图,形变后的特征图
Figure BDA0002436272630000041
逐通道与人体语义解析对应的特征图连接起来,随后通过解码器获得生成的目标视频的前景
Figure BDA0002436272630000042
优选地,于步骤S201中,首先使用HMR对于外观图片Ia和目标帧
Figure BDA0002436272630000043
提取SMPL人体三维模型,然后通过提取的两个三维模型计算流图F和可视图V的标准答案,随后利用该标准答案训练所述流回归网络。
优选地,所述流回归网络的损失函数包括端点错误损失函数和交叉墒损失函数两部分。
优选地,于步骤S2中,其训练阶段的损失函数包括三个部分:第一范式距离损失函数、对抗损失函数和感知损失函数,步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和。
优选地,步骤S3进一步包括:
步骤S300,通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景和背景;
步骤S301,将经步骤S300修护后的背景图bg、步骤S2中生成的前景
Figure BDA0002436272630000044
以及步骤S2中生成的前一帧前景
Figure BDA0002436272630000045
输入到残差网络结构的生成器预测出前景掩膜fg_maskt
步骤S302,通过得到的前景掩膜fg_maskt融合前后景,得到最终目标视频。
优选地,于步骤S3中,其训练阶段的损失函数包括第一范式距离损失函数和感知损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和。
为达到上述目的,本发明还提供一种基于单张图片的运动转移系统,包括:
目标视频人体语义解析序列生成单元,用于对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure BDA0002436272630000051
目标视频前景生成单元,用于根据目标视频人体语义解析序列生成单元中生成的目标视频的人体语义解析图
Figure BDA0002436272630000052
以及目标人物外观图片前景Ia,生成目标视频的前景
Figure BDA0002436272630000053
目标视频生成单元,用于通过修护后的背景图bg、所述目标视频前景生成单元中生成的前景
Figure BDA0002436272630000054
以及目标视频前景生成单元中生成的前一帧前景
Figure BDA0002436272630000055
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt
与现有技术相比,本发明一种基于单张图片的运动转移方法及系统通过对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure BDA0002436272630000056
然后根据生成的目标视频的人体语义解析图
Figure BDA0002436272630000057
以及目标人物外观图片前景Ia生成目标视频的前景
Figure BDA0002436272630000058
最后通过修护后的背景图bg、生成的前景
Figure BDA0002436272630000059
以及前一帧前景
Figure BDA00024362726300000510
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt,本发明只需要借助一张目标人物的外观图片即可完成运动转移的目的。
附图说明
图1为本发明一种基于单张图片的运动转移方法的步骤流程图;
图2为本发明具体实施例中输入输出定义示意图;
图3为本发明一种基于单张图片的运动转移系统的系统架构图;
图4为本发明实施例之运动转移结果的示意图;
图5为本发明和基线方法对比的示意图;
图6为本发明与基线方法生成视频细节对比的示意图;
图7为本发明与基线方法对比的示意图;
图8为本发明实施例中所使用的DMT数据集示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于单张图片的运动转移方法的步骤流程图。如图1所示,本发明一种基于单张图片的运动转移方法,包括如下步骤:
步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure BDA0002436272630000061
在本发明具体实施例中,如图2所示,给定一段源视频和目标人物图片I,本发明可以生成一段目标视频,在目标视频中,目标人物的动作与源视频中的人物相同,因此称之为一种运动转移方法,其将源视频中人物的动作转移到了目标人物身上,目标人物指生成的目标视频中的人物。
具体地,步骤S1进一步包括以下步骤:
步骤S100,对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose。也就是说,给定一段源视频(本发明中源视频均为单人视频),对于源视频每一帧均通过上述方法提取姿势图,获得源视频所对应的姿势序列Spose
步骤S101,对步骤S100所获得的姿势序列Spose进行时序光滑。
由于通过人体姿态估计器获得的姿势序列相邻帧之间可能会有较大的变化,这会导致最终视频视觉上不连贯。为解决此问题,在本发明具体实施例中,对于所获取的姿势序列Spose进行Savitzky–Golay滤波,具体见Savitzky,A.,and M.J.E.Golay(1964),Smoothing and differentiation of data by simplified least squares procedures,Analytical Chemistry,36,1627-1639.”,在此不予赘述。
步骤S102,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位。也就是说,给定目标人物图片I,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位,并利用人体解析分割图Iparsing分割目标人物图片得到外观图片前景Ia
步骤S103,将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,得到对应的人体语义解析序列。具体地,对于第i帧姿势热图
Figure BDA0002436272630000071
将其和目标人物人体语义解析Iparsing一同输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图
Figure BDA0002436272630000072
将上述过程应用到姿势序列每一帧,即可得到目标视频的人体语义解析序列。
在本发明具体实例中,所述人体姿态估计器来源于“OpenPose:realtime multi-person 2D pose estimation using Part Affinity Fields”论文中所提出的方法,所述人体解析器来源于“Graphonomy:Universal human parsing via graph transferlearning.”论文中所提出的方法,由于其均采用的是现有技术,在此不予赘述。
在步骤S1中,训练阶段的损失函数包括两个部分,第一范式距离损失函数(L1Loss)和分类交叉墒损失函数(Cross Entropy Loss)。令x′p∈RW*H*C,xp∈RW*H*C分别为生成的人体语义解析图和人体语义解析图的标准答案(Ground Truth),其中W,H分别为输入图片的宽高,C为人体语义解析的类别数。在本发明中,(W,H)=(448,448),C=19。
其中,第一范式距离损失可以表示为:
Figure BDA0002436272630000073
其中,分类交叉墒损失可以表示为:
Figure BDA0002436272630000081
本步骤在训练阶段的总损失函数即为
Figure BDA0002436272630000082
Figure BDA0002436272630000083
的加权和,对于以上两个损失函数,在本发明中均设为10.0。
步骤S2,根据步骤S1中生成的目标视频的人体语义解析图
Figure BDA0002436272630000084
以及目标人物外观图片前景Ia,生成目标视频的前景
Figure BDA0002436272630000085
具体地,步骤S2进一步包括:
步骤S200,使用人体姿态估计器提取目标人物图片I对应的姿态图Ipose,具体提取方式与步骤S100中所描述的相似,在此不予赘述。
步骤S201,流回归网络,即采用UNet结构的深度神经网络:将目标人物外观图片对应的姿态图Ipose与第i帧姿势热图
Figure BDA0002436272630000086
一起输入到UNet结构的深度神经网络中,输出流图F和可视图V。
所述流图F指的是同一个人体的相同位置在两张不同图片间二维坐标的差值,本发明使用ui,u′i分别表示同一点在两张图片上的坐标,则fi=F(ui)=u′i-ui
所述可视图V指的是某一点在Ia上是否可见,具体来说,vi=V(ui)=visibility(hi,Ia),其中hi指三维人体模型的一个点,其中visibility(hi,Ia)的返回值有三个,分别为可见、不可见、背景。
在本发明具体实施例中,为了训练本步骤的流回归网络,首先使用HMR(“End-to-end Recovery of Human Shape and Pose”)对于外观图片前景Ia和目标帧
Figure BDA0002436272630000087
(根据目标视频获得)提取SMPL(SMPL,A Skinned Multi-Person Linear Model)人体三维模型,然后通过提取的两个三维模型计算流图F和可视图V的标准答案(Ground Truth),随后利用这个标准答案(Ground Truth)训练流回归网络。对于可视图V的标准答案(Ground Truth),首先将外观图片Ia对应的人体三维模型投影到二维空间,那么这个三维模型在二维空间上肯定只有一面是可见的,剩下有些点被自身遮挡而不可见,还有一些点不属于三维模型,则为背景。
流回归网络的损失函数包括两个部分:端点错误损失函数(end-point-errorloss)和交叉墒损失函数(cross entropy)。
步骤S202,使用VGG网络对于目标人物外观图片前景Ia提取特征,得到特征图
Figure BDA0002436272630000091
步骤S203,使用步骤S201中得到的可视图V对于步骤S202中得到的特征图
Figure BDA0002436272630000092
进行形变,得到形变后的特征图
Figure BDA0002436272630000093
步骤S204,使用VGG网络对于第i帧对应的人体语义解析图
Figure BDA0002436272630000094
提取特征图,形变后的特征图
Figure BDA0002436272630000095
逐通道与人体语义解析对应的特征图(即对于第i帧对应的人体语义解析图
Figure BDA0002436272630000096
提取特征图)连接起来,随后通过解码器获得生成的目标视频的前景
Figure BDA0002436272630000097
需说明的是,在真实场景中,视频通常长宽比为16:9,而人物只占整个画面的一小部分,所以本发明利用人体语义解析结果将源视频和目标人物中的人物部分抠出,抠出后,首先将其填充成长宽相等的矩形,而后将其缩放至448*448,并将该小块区域在源视频中的坐标记录下来。在此所叙述的处理适用于步骤S1和步骤S2。在进行步骤S3前,根据记录的坐标,将生成的前景恢复至源视频中原有的大小,并输出至步骤S3中。
在步骤S2中,训练阶段的损失函数包括三个部分:第一范式距离损失函数(L1Loss)、对抗损失函数(Adversarial Loss)和感知损失函数(Perceptual Loss)。令
Figure BDA0002436272630000098
分别为生成的前景和前景的标准答案(Ground Truth),Ia为目标人物外观图片前景,
Figure BDA0002436272630000099
为输入的人体语义解析图。
其中,第一范式距离损失函数可以表示为
Figure BDA00024362726300000910
其中,对抗损失函数可以表示为在以下表达式中优化操作符
Figure BDA00024362726300000911
Figure BDA00024362726300000912
Figure BDA00024362726300000913
其中感知损失函数可以表达为
Figure BDA00024362726300000914
感知损失函数度量的是真实图片与生成图片在特征空间的第一范式距离。在本发明中,使用VGG19网络的特征提取器进行特征提取,其中
Figure BDA0002436272630000101
指的是生成图来源于VGG19网络所提取的第i层特征图,
Figure BDA0002436272630000102
具有类似的意义。
步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和,令λL1advper分别为第一范式距离损失函数、对抗损失函数、感知损失函数所对应的权重。在具体实施中,λL1advper=1.0,0.01,1.0。
步骤S3,通过修护后的背景图bg、步骤S2中生成的前景
Figure BDA0002436272630000103
以及步骤S2中生成的前一帧前景
Figure BDA0002436272630000104
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt
具体来说,步骤S3可以进一步包括以下步骤:
步骤S300,通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景Ia和背景。这里得到的背景由于被人体遮挡,会有一部分空缺,本发明使用图像修复算法(“EdgeConnect:Generative image inpainting withadversarial edge learning”)对于背景进行修复,得到修复后的背景bg。
步骤S301,将步骤S300修护后的背景图bg、步骤S2中生成的前景
Figure BDA0002436272630000105
以及步骤S2中生成的前一帧前景
Figure BDA0002436272630000106
输入到残差网络结构的生成器预测出前景掩膜fg_maskt
步骤S302,通过得到的前景掩膜fg_maskt融合前后景,具体的融合过程如下:
Figure BDA0002436272630000107
在步骤S3中,训练阶段的损失函数包括两部分,第一范式距离损失函数(L1Loss)和感知损失函数(Perceptual Loss),定义与步骤S2中的损失函数相似,在此不再赘述。本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和,对于以上两个损失函数,在本发明中均设为1.0。
在本发明具体实施例中,Adam优化器被用来训练各个阶段的网络,其中β1=0.5,β2=0.999。对于步骤S1,初始学习率为0.0002,在遍历整个训练集30次(epoch)以内,可以获得合理的结果。对于步骤S2,生成器的初始学习率为0.0002,判别器的初始学习率为0.00002,在遍历整个训练集40次(epoch)以内,可以获得合理的结果。对于步骤S3,初始学习率为0.0001,在遍历整个训练集5次(epoch)以内,可以获得合理的结果。
图3为本发明一种基于单张图片的运动转移系统的系统架构图。如图3所示,本发明一种基于单张图片的运动转移系统,包括:
目标视频人体语义解析序列生成单元301,用于对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure BDA0002436272630000111
具体地,目标视频人体语义解析序列生成单元301进一步包括:
源视频姿势序列获取模块,用于对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose。也就是说,给定一段源视频,对于源视频每一帧均通过上述方法提取姿势图,获得源视频所对应的姿势序列Spose
时序光滑模块,用于对源视频姿势序列获取模块所获得的姿势序列Spose进行时序光滑。
由于通过人体姿态估计器获得的姿势序列相邻帧之间可能会有较大的变化,这会导致最终视频视觉上不连贯。为解决此问题,在本发明具体实施例中,源视频姿势序列获取模块对所获取的姿势序列Spose进行Savitzky–Golay滤波实现时序光滑。
人体解析分割图获取模块,用于使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位。也就是说,给定目标人物图片I,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位,并利用人体解析分割图Iparsing分割目标人物图片得到外观图片前景Ia
生成器,用于将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,得到对应的人体语义解析序列。具体地,对于第i帧姿势热图
Figure BDA0002436272630000121
将其和目标人物人体语义解析Iparsing一同输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图
Figure BDA0002436272630000122
将上述过程应用到姿势序列每一帧,即可得到目标视频的人体语义解析序列。
在目标视频人体语义解析序列生成单元301中,训练阶段的损失函数包括两个部分,第一范式距离损失函数(L1 Loss)和分类交叉墒损失函数(Cross Entropy Loss)。令x′p∈RW*H*C,xp∈RW*H*C分别为生成的人体语义解析图和人体语义解析图的标准答案(GroundTruth),其中W,H分别为输入图片的宽高,C为人体语义解析的类别数。在本发明中,(W,H)=(448,448),C=19。
其中,第一范式距离损失可以表示为:
Figure BDA0002436272630000123
其中,分类交叉墒损失可以表示为:
Figure BDA0002436272630000124
目标视频人体语义解析序列生成单元301在训练阶段的总损失函数即为
Figure BDA0002436272630000125
Figure BDA0002436272630000126
的加权和,对于以上两个损失函数,在本发明中均设为10.0。
目标视频前景生成单元302,用于根据目标视频人体语义解析序列生成单元301中生成的目标视频的人体语义解析图
Figure BDA0002436272630000127
以及目标人物外观图片前景Ia,生成目标视频的前景
Figure BDA0002436272630000128
具体地,目标视频前景生成单元302进一步包括:
目标人物外观图片姿态图提取模块,用于使用人体姿态估计器提取目标人物外观图片对应的姿态图Ipose,具体提取方式与源视频姿势序列获取模块中所描述的相似,在此不予赘述。
流回归网络,用于将目标人物外观图片对应的姿态图Ipose与第i帧姿势热图
Figure BDA0002436272630000131
一起输入到UNet结构的深度神经网络中,输出流图F和可视图V。
所述流图F指的是同一个人体的相同位置在两张不同图片间二维坐标的差值,本发明使用ui,u′i分别表示同一点在两张图片上的坐标,则fi=F(ui)=u′i-ui
所述可视图V指的是某一点在Ia上是否可见,具体来说,vi=V(ui)=visibility(hi,Ia),其中hi指三维人体模型的一个点,其中visibility(hi,Ia)的返回值有三个,分别为可见、不可见、背景。
在本发明具体实施例中,为了训练所述流回归网络,首先使用HMR(“End-to-endRecovery of Human Shape and Pose”)对于外观图片Ia和目标帧
Figure BDA0002436272630000132
提取SMPL(“SMPL:ASkinned Multi-Person Linear Model”)人体三维模型,然后通过提取的两个三维模型计算流图F和可视图V的标准答案(Ground Truth),随后利用这个标准答案(Ground Truth)训练流回归网络。对于可视图V的标准答案(Ground Truth),首先将外观图片Ia对应的人体三维模型投影到二维空间,那么这个三维模型在二维空间上肯定只有一面是可见的,剩下有些点被自身遮挡而不可见,还有一些点不属于三维模型,则为背景。
流回归网络的损失函数包括两个部分:端点错误损失函数(end-point-errorloss)和交叉墒损失函数(cross entropy)。
目标人物外观图片前景特征提取模块,用于使用VGG网络对于目标人物外观图片前景Ia提取特征,得到特征图
Figure BDA0002436272630000133
特征形变模块,用于使用流回归网络中得到的可视图V对于目标人物外观图片前景特征提取模块中得到的特征图
Figure BDA0002436272630000134
进行形变,得到形变后的特征图
Figure BDA0002436272630000135
特征图连接模块,用于使用VGG网络对于第i帧对应的人体语义解析图
Figure BDA0002436272630000141
提取特征图,形变后的特征图
Figure BDA0002436272630000142
逐通道与人体语义解析对应的特征图连接起来,随后通过解码器获得生成的目标视频的前景
Figure BDA0002436272630000143
在目标视频前景生成单元302中,训练阶段的损失函数包括三个部分:第一范式距离损失函数(L1 Loss)、对抗损失函数(Adversarial Loss)和感知损失函数(PerceptualLoss)。令
Figure BDA0002436272630000144
分别为生成的前景和前景的标准答案(Ground Truth),Ia为目标人物外观图片前景,
Figure BDA0002436272630000145
为输入的人体语义解析图。
其中,第一范式距离损失函数可以表示为
Figure BDA0002436272630000146
其中,对抗损失函数可以表示为在以下表达式中优化操作符
Figure BDA0002436272630000147
Figure BDA0002436272630000148
Figure BDA0002436272630000149
其中感知损失函数可以表达为
Figure BDA00024362726300001410
Figure BDA00024362726300001411
感知损失函数度量的是真实图片与生成图片在特征空间的第一范式距离。在本发明中,使用VGG19网络的特征提取器进行特征提取,其中
Figure BDA00024362726300001412
指的是生成图来源于VGG19网络所提取的第i层特征图,
Figure BDA00024362726300001413
具有类似的意义。
目标视频前景生成单元302的训练阶段的总体损失函数即为上述三种损失函数的加权和,令λL1advper分别为第一范式距离损失函数、对抗损失函数、感知损失函数所对应的权重。在具体实施中,λL1advper=1.0,0.01,1.0。
目标视频生成单元303,用于通过修护后的背景图bg、目标视频前景生成单元302中生成的前景
Figure BDA00024362726300001414
以及目标视频前景生成单元302中生成的前一帧前景
Figure BDA00024362726300001415
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt
具体来说,目标视频生成单元303进一步包括:
前景背景区分模块,用于通过在人体解析分割图获取模块中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景和背景。这里得到的背景由于被人体遮挡,会有一部分空缺,本发明使用图像修复算法(“EdgeConnect:Generativeimage inpainting with adversarial edge learning”)对于背景进行修复,得到修复后的背景bg。
前景掩模预测模块,用于将修护后的背景图bg、目标视频前景生成单元302中生成的前景
Figure BDA0002436272630000151
以及目标视频前景生成单元302中生成的前一帧前景
Figure BDA0002436272630000152
输入到残差网络结构的生成器预测出前景掩膜fg_maskt
融合模块,用于通过得到的前景掩膜fg_maskt融合前后景,其具体的融合过程如下:
Figure BDA0002436272630000153
在目标视频生成单元303中,训练阶段的损失函数包括两部分,第一范式距离损失函数(L1 Loss)和感知损失函数(Perceptual Loss),定义与目标视频前景生成单元302中的损失函数相似,在此不再赘述。目标视频生成单元303在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和,对于以上两个损失函数,在本发明中均设为1.0。
在本发明具体实施例中,Adam优化器被用来训练各个阶段的网络,其中β1=0.5,β2=0.999。对于步骤S1,初始学习率为0.0002,在遍历整个训练集30次(epoch)以内,可以获得合理的结果。对于步骤S2,生成器的初始学习率为0.0002,判别器的初始学习率为0.00002,在遍历整个训练集40次(epoch)以内,可以获得合理的结果。对于步骤S3,初始学习率为0.0001,在遍历整个训练集5次(epoch)以内,可以获得合理的结果。
实施例
为了验证本发明的具体实施效果,在本实施例中,构造了一个包含438段视频的数据集,取名为DMT数据集,如图8所示。在DMT数据集中,视频均满足以下三个特征:1)单人2)近乎固定的背景3)人物动作幅度大。特征1和特征2让研究者可以专注于动作转移的技术,而不用关注复杂的背景或者多人物的问题,特征3能够验证方法对于复杂动作的处理能力。如上述发明内容所述,对于每段视频需要一张代表人物外观的外观图片(Ia),采用如下方式选取每段视频的外观图片。首先采用OpenPose人体姿态估计器对于视频的每一帧提取姿态关键点,对于每一帧来说,有18个关键点,对于第j帧第i个关键点的信息为
Figure BDA0002436272630000161
其中
Figure BDA0002436272630000162
为关键点的横纵坐标,
Figure BDA0002436272630000163
为该点所预测的置信度;对于每一帧18个人体关键点的置信度进行求和,并取置信度之和最大的那一帧作为本段视频的外观图片(Ia)。将DMT数据集分为训练集和测试集,其中训练集包含406段视频,测试集包含22段视频,对应561785帧和31680帧。
首先使用DMT数据集训练步骤S1、步骤S2、步骤S3。
对于评价视频生成方法效果的好坏,主要是有两类评价方法,一类为定性评价,一类为定量评价。对于定量评价,在本实施例中,使用了弗雷谢视频距离(Frechet VideoDistance,FVD,“Towards accurate generative models of video:A new metric&challenges.”)作为评判标准。但这一标准不适用于对运动转移效果的评价,因为其无法衡量生成视频的真实感。所以本发明还同时使用用户调查的方式对不同模型做定性评价。具体操作是,在亚马逊AMT平台上,向平台上的工作人员展示一张外观图片,然后让工作人员从两个运动转移结果中选择更加真实逼真,保留更多细节的结果,给定的两个运动转移结果来自不同的模型。当在比较两种方法优劣时,对测试集中的每个视频发放等量的问卷,最后将所有的问卷放在一起计算每种方法所获得的支持的比例,这个比例作为这个方法在人工评估中的得分。
首先从定性角度来分析具体实施结果:
如图4所示,将第一行视频中的动作转移到了左边一列的7个不同的目标人物上。
如图5所示,将本发明的方法所生成的结果与三种不同的基线方法进行对比,本发明的方法从视觉效果上明显优于基线方法,基线方法包括pix2pixHD(“High-ResolutionImage Synthesis and Semantic Manipulation with Conditional GANs”)、vid2vid(“Video-to-Video Synthesis”)和soft-gated(“Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis”)。如图6所示,本发明的结果与基线方法的结果进行细节上的对比,本发明的结果明显基线方法。
为了验证本发明所提出的方法各个模块的必要性,在本实施例中,还设计了两组消融实验,分别为去除步骤S2中的流回归网络和去除步骤S3。如图7最后两列所示,两组消融实验所产生的结果从视觉上明显差于完整模型,说明了流回归网络和步骤S3的必要性。
接下来从定量角度来分析具体实施结果:
如下表1所示:
表1
方法 弗雷谢视频距离
Pix2pixHD 1783.94
Vid2vid 2244.97
Soft-gated 1555.33
本发明消融实验(去除流回归网络) 1285.68
发发明消融实验(去除步骤S3) 1454.47
本发明完整方法 1005.84
表1为本实施例中的在DMT测试集上的FVD分数,FVD距离越低说明生成效果越好,可见本发明完整方法FVD距离最低,低于基线方法或消融方法,说明了本发明优于基线方法,也优于消融方法。
表2
Figure BDA0002436272630000171
Figure BDA0002436272630000181
从上表2可以看出,大部分的工作人员都倾向于选择本发明完整方法所生成的结果,这也说明了本发明所生成的结果更具有真实感。
综上所述,本发明一种基于单张图片的运动转移方法及系统通过对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure BDA0002436272630000182
然后根据生成的目标视频的人体语义解析图
Figure BDA0002436272630000183
以及目标人物外观图片前景Ia生成目标视频的前景
Figure BDA0002436272630000184
最后通过修护后的背景图bg、生成的前景
Figure BDA0002436272630000185
以及前一帧前景
Figure BDA0002436272630000186
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt,本发明只需要借助一张目标人物的外观图片即可完成运动转移的目的,不需要复杂先验知识,更加符合实际需求,方便应用于工业界。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于单张图片的运动转移方法,包括如下步骤:
步骤S1,对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,并生成目标视频的人体语义解析图
Figure FDA0002436272620000011
步骤S2,根据步骤S1中生成的目标视频的人体语义解析图
Figure FDA0002436272620000012
以及目标人物外观图片前景Ia,生成目标视频的前景
Figure FDA0002436272620000013
步骤S3,通过修护后的背景图bg、步骤S2中生成的前景
Figure FDA0002436272620000014
以及步骤S2中生成的前一帧前景
Figure FDA0002436272620000015
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt
2.如权利要求1所述的一种基于单张图片的运动转移方法,其特征在于,步骤S1进一步包括:
步骤S100,对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图,所述姿态图上每个特征点都被转化为1通道的热图,将每个特征点对应的热图按通道拼接起来,得到编码人体姿态信息的18通道的热图,从而获得所述源视频所对应的姿势序列Spose
步骤S101,对步骤S100所获得的姿势序列Spose进行时序光滑;
步骤S102,使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,该分割图上不同区域对应人体的不同部位,并利用该人体解析分割图Iparsing分割目标人物图片I得到外观图片前景Ia
步骤S103,将姿势序列Spose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图Iparsing一起输入到残差网络结构的生成器中,所述生成器输出第i帧对应的人体语义解析图
Figure FDA0002436272620000016
从而得到目标视频的人体语义解析序列。
3.如权利要求2所述的一种基于单张图片的运动转移方法,其特征在于;于步骤S1中,其训练阶段的损失函数包括第一范式距离损失函数和分类交叉墒损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和分类交叉墒损失函数的加权和。
4.如权利要求2所述的一种基于单张图片的运动转移方法,其特征在于,步骤S2进一步包括:
步骤S200,使用人体姿态估计器提取目标人物外观图片对应的姿态图Ipose
步骤S201,流回归网络,将目标人物外观图片对应的姿态图Ipose与第i帧姿势热图
Figure FDA0002436272620000021
一起输入到深度神经网络中,输出流图F和可视图V;
步骤S202,使用VGG网络对于目标人物外观图片前景Ia提取特征,得到特征图
Figure FDA0002436272620000022
步骤S203,使用步骤S201中得到的可视图V对于步骤S202中得到的特征图
Figure FDA0002436272620000023
进行形变,得到形变后的特征图
Figure FDA0002436272620000024
步骤S204,使用VGG网络对于第i帧对应的人体语义解析图
Figure FDA0002436272620000025
提取特征图,形变后的特征图
Figure FDA0002436272620000026
逐通道与人体语义解析对应的特征图连接起来,随后通过解码器获得生成的目标视频的前景
Figure FDA0002436272620000027
5.如权利要求4所述的一种基于单张图片的运动转移方法,其特征在于:于步骤S201中,首先使用HMR对于外观图片Ia和目标帧
Figure FDA0002436272620000028
提取SMPL人体三维模型,然后通过提取的两个三维模型计算流图F和可视图V的标准答案,随后利用该标准答案训练所述流回归网络。
6.如权利要求5所述的一种基于单张图片的运动转移方法,其特征在于:所述流回归网络的损失函数包括端点错误损失函数和交叉墒损失函数两部分。
7.如权利要求5所述的一种基于单张图片的运动转移方法,其特征在于:于步骤S2中,其训练阶段的损失函数包括三个部分:第一范式距离损失函数、对抗损失函数和感知损失函数,步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和。
8.如权利要求5所述的一种基于单张图片的运动转移方法,其特征在于,步骤S3进一步包括:
步骤S300,通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图Iparsing,将目标人物图片I分为前景和背景;
步骤S301,将经步骤S300修护后的背景图bg、步骤S2中生成的前景
Figure FDA0002436272620000031
以及步骤S2中生成的前一帧前景
Figure FDA0002436272620000032
输入到残差网络结构的生成器预测出前景掩膜fg_maskt
步骤S302,通过得到的前景掩膜fg_maskt融合前后景,得到最终目标视频。
9.如权利要求8所述的一种基于单张图片的运动转移方法,其特征在于:于步骤S3中,其训练阶段的损失函数包括第一范式距离损失函数和感知损失函数两部分,本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和。
10.一种基于单张图片的运动转移系统,包括:
目标视频人体语义解析序列生成单元,用于对源视频利用人体姿态估计器获得对应的姿势序列Spose,对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图Iparsing,根据源视频对应的姿势序列Spose以及目标人物图片I所对应的人体解析分割图Iparsing,生成目标视频的人体语义解析图
Figure FDA0002436272620000033
目标视频前景生成单元,用于根据目标视频人体语义解析序列生成单元中生成的目标视频的人体语义解析图
Figure FDA0002436272620000034
以及目标人物外观图片前景Ia,生成目标视频的前景
Figure FDA0002436272620000035
目标视频生成单元,用于通过修护后的背景图bg、所述目标视频前景生成单元中生成的前景
Figure FDA0002436272620000036
以及目标视频前景生成单元中生成的前一帧前景
Figure FDA0002436272620000037
预测出前景掩膜fg_maskt,并通过该前景掩膜融合前后景得到最终目标视频中的帧xt
CN202010253271.3A 2020-04-02 2020-04-02 一种基于单张图片的运动转移方法及系统 Active CN111539262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010253271.3A CN111539262B (zh) 2020-04-02 2020-04-02 一种基于单张图片的运动转移方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010253271.3A CN111539262B (zh) 2020-04-02 2020-04-02 一种基于单张图片的运动转移方法及系统

Publications (2)

Publication Number Publication Date
CN111539262A true CN111539262A (zh) 2020-08-14
CN111539262B CN111539262B (zh) 2023-04-18

Family

ID=71978583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010253271.3A Active CN111539262B (zh) 2020-04-02 2020-04-02 一种基于单张图片的运动转移方法及系统

Country Status (1)

Country Link
CN (1) CN111539262B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419455A (zh) * 2020-12-11 2021-02-26 中山大学 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质
CN113051420A (zh) * 2021-04-15 2021-06-29 山东大学 一种基于文本生成视频机器人视觉人机交互方法及系统
WO2023060918A1 (zh) * 2021-10-14 2023-04-20 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN118283201A (zh) * 2024-06-03 2024-07-02 上海蜜度科技股份有限公司 视频合成方法、系统、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008915A (zh) * 2019-04-11 2019-07-12 电子科技大学 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
CN110197167A (zh) * 2019-06-05 2019-09-03 清华大学深圳研究生院 一种视频动作迁移方法
CN110868598A (zh) * 2019-10-17 2020-03-06 上海交通大学 基于对抗生成网络的视频内容替换方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008915A (zh) * 2019-04-11 2019-07-12 电子科技大学 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
CN110197167A (zh) * 2019-06-05 2019-09-03 清华大学深圳研究生院 一种视频动作迁移方法
CN110868598A (zh) * 2019-10-17 2020-03-06 上海交通大学 基于对抗生成网络的视频内容替换方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419455A (zh) * 2020-12-11 2021-02-26 中山大学 基于人体骨架序列信息的人物动作视频生成方法、系统及存储介质
CN113051420A (zh) * 2021-04-15 2021-06-29 山东大学 一种基于文本生成视频机器人视觉人机交互方法及系统
CN113051420B (zh) * 2021-04-15 2022-07-05 山东大学 一种基于文本生成视频机器人视觉人机交互方法及系统
WO2023060918A1 (zh) * 2021-10-14 2023-04-20 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN118283201A (zh) * 2024-06-03 2024-07-02 上海蜜度科技股份有限公司 视频合成方法、系统、存储介质及电子设备
CN118283201B (zh) * 2024-06-03 2024-10-15 上海蜜度科技股份有限公司 视频合成方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN111539262B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111275518B (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN111539262B (zh) 一种基于单张图片的运动转移方法及系统
Quan et al. Image inpainting with local and global refinement
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
Saunders et al. Everybody sign now: Translating spoken language to photo realistic sign language video
Cartucho et al. VisionBlender: a tool to efficiently generate computer vision datasets for robotic surgery
JP7026222B2 (ja) 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体
CN103530619B (zh) 基于rgb-d数据构成的少量训练样本的手势识别方法
CN111242837A (zh) 基于生成对抗网络的人脸匿名隐私保护方法
Liu et al. Defective samples simulation through adversarial training for automatic surface inspection
Jia et al. Head and facial gestures synthesis using PAD model for an expressive talking avatar
CN109389035A (zh) 基于多特征和帧置信分数的低延迟视频动作检测方法
Bao et al. High-quality face capture using anatomical muscles
Liang et al. Video to fully automatic 3d hair model
Sengan et al. Cost-effective and efficient 3D human model creation and re-identification application for human digital twins
CN113076918B (zh) 基于视频的人脸表情克隆方法
Mattos et al. Multi-view mouth renderization for assisting lip-reading
CN113128517A (zh) 色调映射图像混合视觉特征提取模型建立及质量评价方法
CN111062284B (zh) 一种交互式视频摘要模型的可视理解与诊断方法
Yu et al. A framework for automatic and perceptually valid facial expression generation
CN104517299B (zh) 视频流体物理驱动模型恢复及重新仿真的方法
US20230079478A1 (en) Face mesh deformation with detailed wrinkles
CN115936796A (zh) 一种虚拟换妆方法、系统、设备和存储介质
Zeng et al. Highly fluent sign language synthesis based on variable motion frame interpolation
Fang et al. Audio-to-Deep-Lip: Speaking lip synthesis based on 3D landmarks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant