CN114399829A - 基于生成式对抗网络的姿态迁移方法、电子设备及介质 - Google Patents

基于生成式对抗网络的姿态迁移方法、电子设备及介质 Download PDF

Info

Publication number
CN114399829A
CN114399829A CN202210297909.2A CN202210297909A CN114399829A CN 114399829 A CN114399829 A CN 114399829A CN 202210297909 A CN202210297909 A CN 202210297909A CN 114399829 A CN114399829 A CN 114399829A
Authority
CN
China
Prior art keywords
migration
model
network
posture
migrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210297909.2A
Other languages
English (en)
Other versions
CN114399829B (zh
Inventor
洪刚
陈豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yiti Technology Co ltd
Original Assignee
Zhejiang Yiti Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yiti Technology Co ltd filed Critical Zhejiang Yiti Technology Co ltd
Priority to CN202210297909.2A priority Critical patent/CN114399829B/zh
Publication of CN114399829A publication Critical patent/CN114399829A/zh
Application granted granted Critical
Publication of CN114399829B publication Critical patent/CN114399829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,具体为基于生成式对抗网络的姿态迁移方法、电子设备及介质,获取迁移对象和被迁移对象图像数据;将迁移对象和被迁移对象的图像数据送入姿势检测器;将迁移对象和被迁移对象的关节点绘制成火柴人模型;将迁移和被迁移对象的真实样本图像和火柴人模型送入姿态迁移网络,分别作为GAN网络的标签和随机噪声向量;经过姿态迁移网络得到迁移结果;本发明有效对人体目标图像进行关节点检测定位,根据定位的关节点将迁移对象姿态映射到被迁移对象,同时生成清晰的人物身体边缘、面部图像,保证时间和空间的连续性。

Description

基于生成式对抗网络的姿态迁移方法、电子设备及介质
技术领域
本发明涉及图像处理技术领域,具体为基于生成式对抗网络的姿态迁移方法、电子设备及介质。
背景技术
近年来,生成式对抗网络(Generative Adversarial Nets,GAN)迅速发展,特别是深度神经网络(Deep Neural Networks,DNN)理论技术不断成熟,各种优秀的算法模型层出不穷,GAN与DNN结合取得了优异的成果,已经成为当前计算机视觉领域的主要研究方向之一。GAN网络模型框架中至少包含两个模块:生成模型(G)、判别模型(D),二者相互博弈产生较好的输出结果。GAN模型早期阶段,并不要求G和D 都是神经网络模型,只需要能够拟合相应的生成模型和判别模型的函数即可。在实际应用中,一般均使用DNN作为G和D。一个优秀的GAN应该具备良好的训练方法,否则很可能由于神经网络的自由性导致模型输出结果不理想。
姿态迁移则是当前计算机视觉任务研究热点之一,可以理解为一个对象的肢体状态或者姿态动作迁移到另外一个目标,同时维持被迁移对象外观,在这个过程中尽可能地保证时间和空间的连贯性。目前姿态迁移任务一般需要两个阶段进行,第一个阶段是获得目标对象诸如外接矩形框或者人体关节点等信息,第二个阶段利用第一阶段获得的信息进行姿态动作迁移。外接矩形框方法由于没办法获取在某个姿态下目标对象的肢体位置,进行姿态迁移时生成的被迁移对象肢体边界模糊甚至出现变形等现象。基于关节点进行姿态迁移详细考虑了目标对象某个姿态下的肢体位置信息以及与该位置相关的其他肢体信息,关节点个数不同获得的迁移结果也有所差异。关节点的数量和位置要根据实际任务需求进行选取,关节点位置如何选取、标注是否精确同样影响着最终的迁移结果。
目前使用GAN进行姿态迁移的解决方案中,仍然存在着一些问题。首先是GAN网络自身的局限性,G、D两种模型需要在不断的对抗当中达到动态平衡(理想情况下达到纳什平衡),当其中某一个模型性能特别好时,另外一个模型就会变得特别差,进而导致模型过拟合无法使用。
其次,GAN网络进行姿态迁移之前,接收的是第一阶段的输出,这个输出一般是检测目标的外接矩形框或者关节点。那么获得矩形框的模型或者获得关节点的姿势检测器的性能尤为重要,制约着GAN网络性能。因此,需要尽可能精确获得检测目标的外接矩形框或者人体关节点。
最后,目前进行姿态迁移的解决方案中,对数据需求量较大,较大的数据量一方面增加了模型的训练时间开销,另一方面越多的数据量对于GAN网络的生成模型来说意味着有更多的杂乱冗余信息。此外,姿态迁移模型还存在着迁移之后的人体边缘信息不够清晰,缺少对衣服信息编码;面部和手部细节不够精细;由于成像距离、迁移对象和被迁移对象身体结构差异较大等问题,在图像中呈现不同比例状态,影响关节点匹配精度;生成的视频帧不连续,缺乏考虑前后帧信息,时间平滑性得不到保证;人体运动呈现复杂的非线性,很难建立准确的模型和参数刻画人体动作迁移的过程。
发明内容
本申请的目的:在于解决和克服现有技术和应用的不足,提供基于生成式对抗网络的姿态迁移方法、电子设备及存储介质,有效解决关节点定位不准确、人体边缘不清晰以及面部和手部细节不够精细的问题,有效对人体目标图像进行关节点检测定位,根据定位的关节点将迁移对象姿态映射到被迁移对象,同时生成清晰的人物身体边缘、面部图像,保证时间和空间的连续性。
本申请的目的是通过如下技术方案来完成的,一种基于生成式对抗网络的姿态迁移方法,包括以下步骤:
S1、获取迁移对象和被迁移对象的真实样本图像;
S2、将真实样本图像送入姿势检测器,在姿态检测器中添加卷积注意力机制CBAM,获取关节点;
S3、将获取的关节点绘制成火柴人模型;
S4、将真实样本图像和火柴人模型送入姿态迁移网络;
S5、面部增强网络:将火柴人模型以及从步骤S4获得的生成样本的脸部区域分割出来,重新训练一个GAN模型,获得增强之后的面部区域,并输出最终迁移结果;
其中,S4步骤中的姿态迁移网络以GAN网络为框架,并且对图像间转换进行对抗训练;姿态迁移网络的步骤具体为:
S41.获取真实样本集以及火柴人模型;
S42.对真实样本集进行全局姿态标准化操作;
S43.火柴人模型送入生成模型;
S44.获得生成模型生成的生成样本;
S45.生成样本分别送进判别模型、鉴别损失单元作判别处理、匹配损失处理,获得判别模型的输出和鉴别损失单元输出;
S46.将所述步骤S45判别模型输出和鉴别损失单元输出再次送入一个判别模型;
S47.输出迁移结果。
优选地,所述步骤S2具体包括:
所述步骤S2具体包括:
S21.对迁移对象和被迁移对象的真实样本图像进行详细的关节点标注;
S23.对预处理好的数据进行卷积神经网络训练;S24.保留训练好的姿势检测器模型,并输出迁移对象和被迁移对象的关节点。
优选地,所述GAN网络结合DNN的GAN网络训练需要两个过程,前向过程:生成模型G接受一个随机噪声,生成图片G,判别模型D判别G是True还是False;反向优化过程:对G和D进行优化,G、D二者单独交替训练,同时定义迭代次数,交替迭代停止。
优选地,所述步骤S42具体为:
找到迁移对象和被迁移对象视频中最小和最大的脚踝关键位置;
偏移量b计算如下:
Figure DEST_PATH_IMAGE001
其中
Figure 405590DEST_PATH_IMAGE002
Figure 994835DEST_PATH_IMAGE003
分别代表迁移对象和被迁移对象中最大、最小的脚踝关节点位置。
Figure 446676DEST_PATH_IMAGE004
是迁移对象的脚踝平均位置,
Figure 779568DEST_PATH_IMAGE005
为迁移对象当前帧相对于第一帧的姿态位置偏移量;
比例Scale通过如下计算:
Figure 390678DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE007
分别代表迁移对象和被迁移对象中最小、最大脚踝关节点的高度。
优选地,所述步骤S5具体包括:
S51 分别截取火柴人模型和真实样本的面部区域;
S52 将步骤1获得的两部分面部区域进行生成模型处理;
S53将真实样本的面部区域和生成模型生成的面部区域进行残差相加;
S54获得增强之后的面部区域。
本发明还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明提供的基于生成式对抗网络的姿态迁移方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可以被计算机处理器执行,以实现上述任意一项所述的基于生成式对抗网络的姿态迁移方法。
本申请与现有技术相比,至少具有以下明显优点和效果:
1、在本发明中,对包含人体目标图像进行关节点检测定位,然后根据定位的关节点将迁移对象姿态映射到被迁移对象,同时生成清晰的人物身体边缘、面部图像,保证时间和空间的连续性,且数据预处理时间、训练时间大幅度减少。
2、在本发明中,通过使用一个特殊的GAN网络进行面部区域增强,利用一个残差操作获得清晰的面部区域。
3、在本发明中,通过Transfer网络将源视频人体和目标视频人体归一化到同一比例大小,能够获得更符合常理、更加真实的迁移动作视频。
附图说明
图1是本申请基于生成式对抗网络的姿态迁移方法的流程图。
图2是本申请中姿势检测器的流程示意图。
图3是本申请中CBAM结构的结构示意图。
图4是本申请中GAN网络结构示意图。
图5是本申请中姿态迁移网络流程图。
图6是本申请中姿态迁移网络结构示意图。
图7是本申请中Transfer网络结构示意图。
图8是本申请中面部增强网络结构示意图。
图9是本申请中面部区域增强流程图。
图10是本申请中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作(或步骤)可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
下面通过以下各个实施例及其可选方案对本申请中提供的基于生成式对抗网络的姿态迁移方法、电子设备及存储介质进行详细阐述。
图1是本发明实施例中提供的一种基于生成式对抗网络的姿态迁移方法的流程图。本发明实施例可适用于姿态迁移的情况。该方法可由姿态迁移处理器来执行,该装置可以采用软件和/或硬件的方式实现,并集成在任何具有网络通信功能的电子设备上。如图1所示,本申请实施例中提供的基于生成式对抗网络的姿态迁移方法,可包括以下步骤:
S1、获取迁移对象和被迁移对象的真实样本图像;
在本申请实施例中,采集不同场景下不同状态人物的图像数据;采集图像数据场景主要集中在体育场馆、舞室以及少部分室外三个场景,数据均为图片形式,分辨率不同的RGB图像,图片内容包括单人场景、多人场景、单人场景部分身体在画面以及多人场景下遮挡、拥挤等,但必须可辨识。此处预处理主要是清洗其中不合格的样本,例如过曝、人体模糊、不可辨识等。
S2、将真实样本图像送入姿势检测器,获取关节点;
如图2所示为本申请中姿势检测器的流程示意图,在姿态检测器中添加卷积注意力机制CBAM,具体包括:
S21.对迁移对象和被迁移对象的图像数据进行详细的关节点标注;
采用标注工具,对样本标记17个关节点,标注过程按照固定的顺序进行标注,例如第一个点是鼻子,第二个点是左眼角,以此类推完成17点标注;对于被遮挡的关节点,添加可见/不可见属性,不允许空标,此步骤有效提高关节点的准确度。
S22.对所述步骤S21标注好的数据进行预处理;
此处的数据预处理为:对标注好的图像尺寸进行调整,数据增强。
S23.对预处理好的数据进行卷积神经网络训练。
在本申请实施例中,该步骤的训练过程包含两部分内容:一是前向传播,使用不同大小卷积核的2D卷积器对预处理的数据进行连续不断地下采样,获得带有丰富语义信息的稀疏性特征图,对稀疏性特征图进行定位、回归、检测操作,获得卷积神经网络的输出;此过程每层网络会学习到一定的参数,称之为权重;二是反向传播,计算获得卷积神经网络的输出和目标输出的总误差,通过求解偏导数获得每层权重对误差的影响量(梯度),结合梯度和学习率调整每层权重大小,减小总误差。以上两个过程交替往复,得到满足需求的姿势检测器。
S24.保留训练好的姿势检测器模型,并输出迁移对象和被迁移对象的关节点。
其中,姿势检测器作为第一阶段负责对迁移对象和被迁移对象进行关节点检测,输出的关节点位置的精度一定程度上会影响姿态动作迁移到被迁移对象之后的效果,因此需要对姿势检测器进行调整优化。对选择的高精度关节点检测模型添加卷积注意力机制。同时使用标注精确的样本集进行迁移学习训练,依据训练结果不断调整参数,多次训练选择性能最好的模型作为姿势检测器。
如图3所示为本申请中CBAM结构的结构示意图,注意力机制结构包含了两部分注意力机制, CAM是通道注意力机制,SAM是空间注意力机制。将两者独立分离,不仅节约参数和计算量,而且更易于移植到其他网络结构。CBAM添加的位置要适合(模型开头、结尾不添加),添加的数量为四个,具体位置在:第二个3*3卷积后、第一个1*1卷积后、第一个7*7卷积后、第五个7*7卷积后。通过多次CBAM堆叠达到整体的增强效果。对于包含非常多层的网络,不添加CBAM,目的是防止网络过拟合,通过在姿势检测器中添加卷积注意力机制CBAM,获取到更精准的关节点位置。
S3、将获取的关节点绘制成火柴人模型;
在本申请实施例中,通过特定点之间连线绘制成火柴人模型,例如左肩和左手,右肩和右手,左膝和左脚踝,符合人体关节连接结构。
S4、将真实样本 图像 和火柴人模型送入姿态迁移网络;分别作为GAN网络的标签和随机噪声向量;
其中,S4步骤中的姿态迁移网络以GAN网络为框架,并且对图像间转换进行对抗训练;;
如图4所示为申请中GAN网络结构示意图,在本申请实施例中,GAN网络结构结合DNN的GAN网络训练需要两个过程,首先是前向过程:生成模型G接受一个随机噪声(本实施例中随机噪声即迁移对象和被迁移对象的关节点),进而生成图片G(x);判别模型D判别G(x)是True还是False,是一个二分类问题。反向优化过程:反向优化过程需要对G和D进行优化。优化D时,固定G的参数不变,只优化D的参数,同时将样本Label(迁移对象和被迁移对象的真实图片)标记为1,生成样本G(x)标记为0。在优化G时,人为的将一些生成样本标记为True,D就会给出低分,从而产生误差,训练G,该过程中D的参数不变,只传播误差。G、D二者单独交替训练,同时定义迭代次数,交替迭代停止。不断的训练过程中进行博弈,同时提高G、D的能力,最终达到期望的动态平衡。
如图5所示为本申请中姿态迁移网络结构示意图,在本申请实施例中,姿态迁移网络结构包括由姿势检测器P、生成模型G、判别模型D1、鉴别损失单元IDM以及判别模型D2组成。其中姿势检测器估计关节点的坐标,然后根据坐标将关节点绘制成火柴人模型X;G是生成模型,将火柴人模型x当作随机变量生成G(x),将x和G(x)送入判别模型D1进行判别,输出生成模型生成的姿态;同时将G(x)和真实样本送入鉴别损失单元IDM进行鉴别损失处理,再次进行蒸馏;经过D1判别模型的生成图G(x)和蒸馏之后的样本经过判别模型D2之后得到最终完成姿态迁移之后的结果。
进行图像间转换的对抗训练,进行这一步的目的是为了获得时间连贯的视频帧以及合成真实的面部图像。修改了原始GAN网络中单个图像生成模式,使其产生时间连续的相邻帧。模型预测两个连续的相邻帧,第一个输出G(Xt-1),由相应的动作图形Xt-1和一个空图像z(值为0,由于没有t-2的帧输入,所以用空值作为占位符)作为预测条件;第二个输出G(Xt),以Xt和G(Xt-1)为条件。相应的,判别器的任务就变成了鉴别真实序列(Xt-1,Xt,Yt-1,Yt)和伪造序列(Xt-1,Xt,G(Xt-1),G(Xt))的真实性以及时间连续性。通过在原始GAN优化目标上添加顺序平滑损失,从而得到新的优化目标。
如图6所示为本申请中姿态迁移网络流程图,具体为:
S41.获取真实样本集以及火柴人模型;
S42.对真实样本集进行全局姿态标准化操作;
S43.火柴人模型送入生成模型;
S44.获得生成模型生成的生成样本;
S45.生成样本分别送进判别模型、鉴别损失单元作判别处理、匹配损失处理,获得判别模型的输出和鉴别损失单元输出;
S46.将所述步骤S45判别模型输出和鉴别损失单元输出再次送入一个判别模型;
S47.输出迁移结果。
其中,步骤S45中的判别处理为:初始化
Figure 321463DEST_PATH_IMAGE008
的D和
Figure 260600DEST_PATH_IMAGE009
的G;循环迭代训练;训练D的过程(K次):
从真实分布
Figure 131604DEST_PATH_IMAGE010
抽取m个正例;
从先验分布
Figure 597220DEST_PATH_IMAGE011
抽取m个噪声向量;
利用生成器输入噪声向量,生成m个反例;
最大化更新判别器参数
Figure 784660DEST_PATH_IMAGE012
,获得生成模型生成的姿态。
其中,火柴人模型X’进入生成模型G之前对真实样本集进行全局姿态标准化(Norm)操作为Transfer网络结构中的内容,如图7所示为本申请中Transfer网络结构示意图,在本申请实施例中,迁移对象和被迁移对象真实样本经过姿态检测器得到关节点并绘制成火柴人模型;对真实样本集进行全局姿态标准化 (Norm)操作,能够获取到清晰合理的迁移结果,缩放到同一身体比例;缩放之后的被迁移对象火柴人模型送入GAN网络生成模型得到生成图像G(x)全局姿态标准化操作具体为:
找到迁移对象和被迁移对象视频中最小和最大的脚踝关键位置(距离镜头最近最大,反之最小);
偏移量b计算如下:
Figure 476673DEST_PATH_IMAGE013
其中
Figure 885789DEST_PATH_IMAGE002
Figure 81278DEST_PATH_IMAGE003
分别代表迁移对象和被迁移对象中最大、最小的脚踝关节点位置。
Figure 947340DEST_PATH_IMAGE004
是迁移对象的脚踝平均位置,
Figure 985704DEST_PATH_IMAGE005
为迁移对象当前帧相对于第一帧的姿态位置偏移量;
比例Scale通过如下计算:
Figure 198510DEST_PATH_IMAGE014
其中
Figure 514085DEST_PATH_IMAGE007
分别代表迁移对象和被迁移对象中最小、最大脚踝关节点的高度。
在不同的视频中,被迁移对象可能具有不同的肢体比例,或者离相机距离远近导致的成像大小不同。因此,当两个对象之间进行姿态迁移时,需要变换迁移对象人物的姿态关节点,使关节点能够根据被迁移对象的身体形状和比例产生。通过分析每个目标的姿势的高度和脚踝位置来确定改变换,使用两个对象中最近和最远的脚踝位置之间的线性映射。完成这个映射之后,根据统计数据进行相应的姿态检测,计算每个帧的比例和平移尺度。通过Transfer网络将源视频人体和目标视频人体归一化到同一比例大小,能够获得更符合常理、更加真实的迁移动作视频。
S5、面部增强网络:将火柴人模型以及真实样本图像的脸部区域分割出来,重新训练一个GAN模型,获得增强之后的面部区域,并最终输出最终迁移结果;
为了保证面部有更多的细节和真实性,需要对面部区域进行单独增强,将火柴人模型以及真实样本图像的脸部区域分割出来,重新训练一个GAN(Gf)模型,这个GAN中的判别模型D对真实的面部图像以及生成的面部图像和火柴人模型分割出来的面部区域进行配对,配对之后进行一次残差相加得到增强之后的面部区域,通过使用一个特殊的GAN网络进行面部区域增强,利用一个残差操作获得清晰的面部区域。
如图8、9所示,在本申请实施例中,面部增强网络流程具体包括:
S51.截取火柴人模型X的面部区域得到xf,截取生成样本G(x)的面部区域得到G(x);
S52.将步骤S51获得的两部分面部区域进行生成模型Gf处理,得到面部区域r;
S53.将生成样本的面部区域G(x)f和Gf生成模型生成的面部区域r进行残差相加;
通过使用一个特殊的GAN网络进行面部区域增强,利用一个残差操作获得清晰的面部区域。
此外,进行评价姿态的一致性,如果身体部分图像被正确合成,那么合成图像的姿态图形应该和输入的姿态图形非常接近。为了评价姿态的一致性,使用姿态距离矩阵计算姿态差异。假设由n个点{P1
Figure 521355DEST_PATH_IMAGE015
Figure 686495DEST_PATH_IMAGE016
Pn},{
Figure 437413DEST_PATH_IMAGE017
},计算对应点的L2距离均值衡量姿态距离。姿态距离越低表示图像质量越好。
当前大数据技术已经应用到了各个领域,比如运动分析、术后康复等领域。在运动分析领域,需要更精准地对运动员动作专业性、标准性、科学性进行分析,帮助运动员获得更好成绩。以往获得运动员运动数据需要每一个运动员针对不同的动作去实际完成,这种方法大大消耗运动员体力和教练组精力。本专利提出的姿态迁移方法,只需要录制运动员的几个简单肢体动作视频数据,以该数据作为本专利中的被迁移对象,选择动作教学视频为迁移对象。使用完整的姿态迁移方法把动作教学姿态迁移到运动员身体上,获得迁移之后的视频数据、关节点数据,就可以利用大数据技术根据迁移之后的视频和关节点位置、关节点之间的位置关系,精确找到运动员在训练过程的可改进方向,取得更好的成绩。
本发明有效对人体目标图像进行关节点检测定位,根据定位的关节点将迁移对象姿态映射到被迁移对象,同时生成清晰的人物身体边缘、面部图像,保证时间和空间的连续性。
本发明还提供了一种电子设备,如图10所示为本申请中的一种电子设备的结构示意图,包括一个或多个处理器101和存储装置102;该电子设备中的处理器101可以是一个或多个,图10中以一个处理器101为例;存储装置102用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器101执行,使得所述一个或多个处理器101实现如本发明实施例中任一项所述的基于生成式对抗网络的姿态迁移方法。
该电子设备还可以包括:输入装置103和输出装置104。该电子设备中的处理器101、存储装置102、输入装置103和输出装置104可以通过总线105或其他方式连接,图10中以通过总线105连接为例。
该电子设备中的存储装置102作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中所提供的基于生成式对抗网络的姿态迁移方法对应的程序指令/模块。处理器101通过运行存储在存储装置102中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中基于生成式对抗网络的姿态迁移方法。
存储装置102可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储装置102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置102可进一步包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置103可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置104可包括显示屏等显示设备。
并且,当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器101执行时,程序进行如下操作:
获取迁移对象和被迁移对象的真实样本图像;
将真实样本图像送入姿势检测器,获取关节点;
将获取的关节点绘制成火柴人模型;
将真实样本图像和火柴人模型送入姿态迁移网络;
面部增强网络:将火柴人模型以及真实样本图像的脸部区域分割出来,重新训练一个GAN模型,获得增强之后的面部区域,并输出最终迁移结果。
当然,本领域技术人员可以理解,当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器101执行时,程序还可以进行本发明任意实施例中所提供的基于生成式对抗网络的姿态迁移方法中的相关操作。
需要进一步说明的是,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可以被计算机处理器执行,实现上述实施例基于生成式对抗网络的姿态迁移方法。所述计算机程序可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Python计算机语言、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
由于本领域技术人员能够很容易想到,利用申请的构思和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种基于生成式对抗网络的姿态迁移方法,其特征在于:包括以下步骤:
S1、获取迁移对象和被迁移对象的真实样本图像;
S2、将真实样本图像送入姿势检测器,在姿态检测器中添加卷积注意力机制CBAM,获取关节点;
S3、将获取的关节点绘制成火柴人模型;
S4、将真实样本图像和火柴人模型送入姿态迁移网络;
S5、面部增强网络:将火柴人模型以及从步骤S4获得的生成样本的脸部区域分割出来,重新训练一个GAN模型,获得增强之后的面部区域,并输出最终迁移结果;
其中,S4步骤中的姿态迁移网络以GAN网络为框架,并且对图像间转换进行对抗训练;姿态迁移网络的步骤具体为:
S41.获取真实样本集以及火柴人模型;
S42.对真实样本集进行全局姿态标准化操作;
S43.火柴人模型送入生成模型;
S44.获得生成模型生成的生成样本;
S45.生成样本分别送进判别模型、鉴别损失单元作判别处理、匹配损失处理,获得判别模型的输出和鉴别损失单元输出;
S46.将所述步骤S45判别模型输出和鉴别损失单元输出再次送入一个判别模型;
S47.输出迁移结果。
2.根据权利要求1所述的一种基于生成式对抗网络的姿态迁移方法,其特征在于:所述步骤S2具体包括:
S21.对迁移对象和被迁移对象的真实样本图像进行详细的关节点标注;
S22.对所述步骤S21标注好的真实样本图像数据进行预处理;
S23.对预处理好的数据进行卷积神经网络训练;
S24.保留训练好的姿势检测器模型,并输出迁移对象和被迁移对象的关节点。
3.根据权利要求1所述的一种基于生成式对抗网络的姿态迁移方法,其特征在于:所述GAN网络结合DNN的GAN网络训练需要两个过程,前向过程:生成模型G接受一个随机噪声,生成图片G,判别模型D判别G是True还是False;反向优化过程:对G和D进行优化,G、D二者单独交替训练,同时定义迭代次数,交替迭代停止。
4.根据权利要求1所述的一种基于生成式对抗网络的姿态迁移方法,其特征在于:所述步骤S42具体为:
找到迁移对象和被迁移对象视频中最小和最大的脚踝关键位置;
偏移量b计算如下:
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
分别代表迁移对象和被迁移对象中最大、最小的脚踝关节点位置,
Figure DEST_PATH_IMAGE008
是迁移对象的脚踝平均位置,
Figure DEST_PATH_IMAGE010
为迁移对象当前帧相对于第一帧的姿态位置偏移量;
比例Scale通过如下计算:
Figure DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE014
分别代表迁移对象和被迁移对象中最小、最大脚踝关节点的高度。
5.根据权利要求1所述的一种基于生成式对抗网络的姿态迁移方法,其特征在于:所述步骤S5具体包括:
S51 分别截取火柴人模型和真实样本的面部区域;
S52 将步骤1获得的两部分面部区域进行生成模型处理;
S53将真实样本的面部区域和生成模型生成的面部区域进行残差相加;
S54获得增强之后的面部区域。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-5中任一所述的图像风格迁移处理方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序可以被计算机处理器执行实现如权利要求1至5中的任意一项所述方法的计算机可读指令。
CN202210297909.2A 2022-03-25 2022-03-25 基于生成式对抗网络的姿态迁移方法、电子设备及介质 Active CN114399829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210297909.2A CN114399829B (zh) 2022-03-25 2022-03-25 基于生成式对抗网络的姿态迁移方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210297909.2A CN114399829B (zh) 2022-03-25 2022-03-25 基于生成式对抗网络的姿态迁移方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN114399829A true CN114399829A (zh) 2022-04-26
CN114399829B CN114399829B (zh) 2022-07-05

Family

ID=81234060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210297909.2A Active CN114399829B (zh) 2022-03-25 2022-03-25 基于生成式对抗网络的姿态迁移方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114399829B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270997A (zh) * 2022-09-20 2022-11-01 中国人民解放军32035部队 基于迁移学习的火箭目标姿态稳定判别方法及相关装置
CN117290733A (zh) * 2023-11-27 2023-12-26 浙江华创视讯科技有限公司 姿态样本生成方法、模型训练方法、设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法
CN110969124A (zh) * 2019-12-02 2020-04-07 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111161200A (zh) * 2019-12-22 2020-05-15 天津大学 基于注意力机制的人体姿态迁移方法
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111640172A (zh) * 2020-05-08 2020-09-08 大连理工大学 一种基于生成对抗网络的姿态迁移方法
CN111739115A (zh) * 2020-06-23 2020-10-02 中国科学院自动化研究所 基于循环一致性的无监督人体姿态迁移方法、系统及装置
CN113223124A (zh) * 2021-03-30 2021-08-06 华南理工大学 一种基于三维人体参数化模型的姿态迁移方法
CN113361566A (zh) * 2021-05-17 2021-09-07 长春工业大学 用对抗性学习和判别性学习来迁移生成式对抗网络的方法
CN113705295A (zh) * 2021-03-10 2021-11-26 中国科学院计算技术研究所 对象姿态迁移方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法
CN110969124A (zh) * 2019-12-02 2020-04-07 重庆邮电大学 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN111161200A (zh) * 2019-12-22 2020-05-15 天津大学 基于注意力机制的人体姿态迁移方法
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111640172A (zh) * 2020-05-08 2020-09-08 大连理工大学 一种基于生成对抗网络的姿态迁移方法
CN111739115A (zh) * 2020-06-23 2020-10-02 中国科学院自动化研究所 基于循环一致性的无监督人体姿态迁移方法、系统及装置
CN113705295A (zh) * 2021-03-10 2021-11-26 中国科学院计算技术研究所 对象姿态迁移方法、装置、设备及存储介质
CN113223124A (zh) * 2021-03-30 2021-08-06 华南理工大学 一种基于三维人体参数化模型的姿态迁移方法
CN113361566A (zh) * 2021-05-17 2021-09-07 长春工业大学 用对抗性学习和判别性学习来迁移生成式对抗网络的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAROLINE CHAN等: "《Everybody Dance Now》", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
赵宁等: "《融合自注意力机制的人物姿态迁移生成模型》", 《激光与光电子学进展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270997A (zh) * 2022-09-20 2022-11-01 中国人民解放军32035部队 基于迁移学习的火箭目标姿态稳定判别方法及相关装置
CN115270997B (zh) * 2022-09-20 2022-12-27 中国人民解放军32035部队 基于迁移学习的火箭目标姿态稳定判别方法及相关装置
CN117290733A (zh) * 2023-11-27 2023-12-26 浙江华创视讯科技有限公司 姿态样本生成方法、模型训练方法、设备及可读存储介质
CN117290733B (zh) * 2023-11-27 2024-03-12 浙江华创视讯科技有限公司 姿态样本生成方法、模型训练方法、设备及可读存储介质

Also Published As

Publication number Publication date
CN114399829B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
Rogez et al. Lcr-net++: Multi-person 2d and 3d pose detection in natural images
Wang et al. Predicting camera viewpoint improves cross-dataset generalization for 3d human pose estimation
Wang et al. Salient object detection based on multi-scale contrast
Gall et al. Optimization and filtering for human motion capture: A multi-layer framework
CN114399829B (zh) 基于生成式对抗网络的姿态迁移方法、电子设备及介质
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN107403446A (zh) 用于使用智能人工代理的图像配准的方法和系统
CN103430218A (zh) 用3d脸部建模和地标对齐扩增造型的方法
Zhu et al. Simpose: Effectively learning densepose and surface normals of people from simulated data
CN112434679B (zh) 康复运动的评估方法及装置、设备、存储介质
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN112446322B (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
Shu et al. LVC-Net: Medical image segmentation with noisy label based on local visual cues
CN117671738B (zh) 基于人工智能的人体姿态识别系统
Yuan et al. A novel deep pixel restoration video prediction algorithm integrating attention mechanism
Xia et al. Cascaded 3d full-body pose regression from single depth image at 100 fps
Correia et al. 3D reconstruction of human bodies from single-view and multi-view images: A systematic review
US11854306B1 (en) Fitness action recognition model, method of training model, and method of recognizing fitness action
CN117711066A (zh) 一种三维人体姿态估计方法、装置、设备及介质
CN116958872A (zh) 一种羽毛球运动的智能化辅助训练方法及系统
CN114783039B (zh) 一种3d人体模型驱动的运动迁移方法
Zhang et al. CT-GAN: A conditional generative adversarial network of transformer architecture for text-to-image
CN115880766A (zh) 姿态迁移、姿态迁移模型训练方法、装置和存储介质
Chang et al. Fast Online Upper Body Pose Estimation from Video.
Chen et al. A Novel Automatic Tracking Method of Moving Image Sequence Marker Points Uses Kinect and Wireless Network Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant