CN112116673A - 一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备 - Google Patents
一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备 Download PDFInfo
- Publication number
- CN112116673A CN112116673A CN202010745734.8A CN202010745734A CN112116673A CN 112116673 A CN112116673 A CN 112116673A CN 202010745734 A CN202010745734 A CN 202010745734A CN 112116673 A CN112116673 A CN 112116673A
- Authority
- CN
- China
- Prior art keywords
- human body
- image
- body image
- target
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备,所述方法包括以下步骤:步骤1,采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;步骤2,将步骤1中的源人体图像和目标姿态图像输入预构建的encoder‑decoder结构的卷积神经网络中,获得虚拟目标人体图像;步骤3,基于步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像构建损失函数,对预构建的encoder‑decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder‑decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成。本发明能够生成更加真实的目标姿态的现实场景人体图像。
Description
技术领域
本发明属于计算机视觉及计算机图形学交叉技术领域,特别涉及一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备。
背景技术
姿态引导下的虚拟人体图像生成是指给定现实场景中的一张人体图像和任意一张目标人体姿态图像,在目标人体姿态图像的引导下,生成拥有目标人体姿态的现实场景人体图像。这个任务有很多有意义的现实应用,比如:电影制作可以利用此方式直接操纵角色的姿势;人体姿态估计中生成稀有但重要的人体图像数据。
目前的虚拟人体图像生成存在两方面的问题:
(1)由于源人体图像和目标姿态人体图像之间存在很大差异,根据源人体图像生成目标姿态的人体图像本身就是一件非常困难的任务。
(2)人体图像具有很明显的结构特征,人体的各个部分都具有相似的结构和纹理信息,这些结构信息对于生成完整的目标姿态人体图像非常重要,然而现有的方法没有合理利用这一信息,使得生成的目标图像缺失更细节的纹理信息。
综上,亟需一种新的姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备。
发明内容
本发明的目的在于提供一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备,以解决上述存在的一个或多个技术问题。本发明针对现有方法在生成虚拟人体图像过程中忽略人体特殊结构特征,生成的目标人体图像缺失更细节的纹理信息的问题,提出了基于结构相似性的虚拟人体图像生成方法,能够生成更加真实的目标姿态的现实场景人体图像。
为达到上述目的,本发明采用以下技术方案:
本发明的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,包括以下步骤:
步骤1,采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
步骤2,将步骤1中的源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
步骤3,基于步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
本发明的进一步改进在于,步骤1中,所述根据目标人体图像获得目标姿态图像的具体步骤包括:
步骤1.1,用姿态估计方法对输入的目标人体图像进行姿态估计,得到预设数量的人体关节点坐标;
步骤1.2,基于步骤1.1获得的人体关节点坐标,用heat map表示人体姿态信息,获得目标姿态图像。
本发明的进一步改进在于,步骤3中,获得基于人体结构相似性的损失函数具体步骤包括:
步骤3.1,基于步骤1.1获得的人体关节点坐标,划分人体图像为若干个人体部分和1个背景部分,获得各个部分的掩码;
步骤3.2,基于步骤3.1获得的各个部分的掩码,将步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像,划分成若干个人体部分和1个背景部分;
步骤3.3,计算步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像,各个部分的结构相似性;
步骤3.4,基于步骤3.3获得的各个部分的结构相似性,获得基于人体结构相似性的损失函数。
本发明的进一步改进在于,步骤3.1和步骤3.2中,所述若干个人体部分具体为10个人体部分,包括:头、左上臂、右上臂、左下臂、右下臂、左大腿、右大腿、左小腿、右小腿、躯干。
本发明的进一步改进在于,
步骤1.1中,具体包括:用openpose姿态估计方法对输入的真实目标人体图像It进行姿态估计,得到18个人体关节点坐标;其中,关节点序列P(It)={p1,…,pk},k=18;第i个关节点pi由二维坐标点(xi,yi)表示;
步骤3.1中,具体包括:基于每个用于人体部分划分的两个关节点坐标,通过二维正态分布得到对应区域的掩码。
对于任一点的坐标(x,y),人体部分的划分表达式为:
f(x,y)=Aexp(-a(x-xc)2+2b(x-xc)(y-yc)+c(y-yc)2);
除过人体部分的其他部分为背景部分。
本发明的进一步改进在于,步骤3中,所述基于人体结构相似性的损失函数的表达式为:
其中,
式中,X,Y为待计算相似度的两张图片;
SSIM1为图像X和图像Y的第l部分的结构相似性表达式;为图像X的第l个人体部分的均值和方差;为图像Y的第1个人体部分的均值和方差,为图像X和图像Y的第1个人体部分的协方差;C1和C2为常数并设定C1=(0.01*L)2,C2=(0.03*L)2,L为图像像素值的范围;MSSIM(X,Y)为图像X和图像Y的标准的结构相似性表达式,Xi,Yi表示图像X和图像Y的第i个像素;
MSSIM(X,Y)为图像X和图像Y的标准的结构相似性表达式,Xi,Yi表示图像X和图像Y的第i个像素;分别为Xi周围7×7窗口大小的像素的均值和方差,分别为Yi周围7×7窗口大小的像素的均值和方差,为Xi周围7×7窗口大小的像素和Yi周围7×7窗口大小的像素的协方差,C1,C2,C3为常数并设定C1=(0.01*L)2,C2=(0.03*L)2,L为图像像素值的范围。
本发明的进一步改进在于,对卷积神经网络进行优化时使用的损失函数还包括:对抗损失函数以及感知损失函数。
本发明的一种姿态引导下的基于结构相似性的虚拟人体图像生成系统,包括:
样本获取模块,用于采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
训练模块,用于将源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
优化模块,用于基于获得的虚拟目标人体图像及采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将获得的虚拟目标人体图像及采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
本发明的一种姿态引导下的基于结构相似性的虚拟人体图像生成电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
将源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
基于获得的虚拟目标人体图像及采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将获得的虚拟目标人体图像及采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
与现有技术相比,本发明具有以下有益效果:
本发明是一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,针对现有方法没有合理利用人体结构特性,从而使得生成的图像缺失细节的纹理信息这一问题,本发明构建了一种基于人体结构相似性的损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化,得到预训练好的卷积神经网络用来实现目标姿态的现实场景人体图像的生成。本发明使用基于人体结构相似性的损失函数,使得生成的虚拟人体图像拥有更丰富的纹理结构信息,从而更加逼真;同时也为解决目标姿态人体图像生成这个困难任务提供了一种新的思路。
本发明的系统,针对目前在生成虚拟人体图像过程中忽略人体特殊结构特征,生成的目标人体图像缺失更细节的纹理信息的问题,引入了基于结构相似性的虚拟人体图像生成方法,有效计算人体各个部分的结构相似性,精确衡量生成的目标姿态人体图像和真实的目标姿态人体图像的差异;使用基于人体结构相似性的损失函数驱动网络训练,生成更加真实的目标姿态的现实场景人体图像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法的流程示意图;
图2是本发明实施例中,人体关节点示意图;
图3是本发明实施例中,heat maps表示的人体姿态信息示意图;其中,图3中的(a)为原图,图3中的(b)为heat maps示意图;
图4是本发明实施例中,根据关节点划分的10个人体部分和背景部分示意图;其中,图4中的(a)为原图,图4中的(b)为人体部分掩码示意图,图4中的(c)为人体部分示意图,图4中的(d)为背景部分示意图;
图5是本发明实施例中,在Market-1501数据集上的部分结果示意图;
图6是本发明实施例中,在DeepFashion数据集上的部分结果示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
本发明实施例的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,包括如下步骤:
步骤1,对人体图像进行姿态估计:
1.1)用姿态估计方法对输入的现实场景中的一张人体图像进行姿态估计,得到人体预设数量关节点的坐标;
1.2)基于步骤1.1)获得的坐标,用heat map表示人体姿态信息,获得heat map图像。
步骤2,划分人体图像为10个人体部分和背景部分,得到各个部分的掩码,具体包括:
根据步骤1得到的人体关节点坐标,将人体图像划分为10个人体部分和背景部分,包括头、左(右)上臂、左(右)下臂、左(右)大腿、左(右)小腿、躯干以及背景。
步骤3,生成目标姿态人体图像:
1)构建encoder-decoder结构的卷积神经网络;
2)组织输入卷积神经网络的数据;
3)利用encoder-decoder结构的卷积神经网络生成目标姿态人体图像。
步骤4,计算基于人体结构相似性的损失函数:
1)结构相似性损失介绍;
2)根据步骤2得到的各个部分的掩码、步骤3得到的生成图像以及真实图像,对生成图像和真实图像划分成10个人体部分和背景部分;
3)计算每个部分的结构相似性;
4)计算基于人体结构相似性的损失函数以及其他损失函数。
步骤5,优化网络参数,实现目标姿态的现实场景人体图像的生成:
1)根据步骤4得到的损失函数对网络参数进行迭代优化;
2)当达到预定的迭代次数后,用encoder-decoder结构的卷积神经网络实现目标姿态的现实场景人体图像的生成。
本发明实施例的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,针对现有方法在生成虚拟人体图像过程中忽略人体特殊结构特征,生成的目标人体图像缺失更细节的纹理信息的问题,引入了基于结构相似性的虚拟人体图像生成方法,有效计算人体各个部分的结构相似性,驱动网络训练生成更加真实的目标姿态的现实场景人体图像。
请参阅图1,本发明实施例的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,步骤如下:
步骤1:对人体图像进行姿态估计:
1)用姿态估计方法对输入的现实场景中的一张人体图像进行姿态估计,得到人体的18个关节点的坐标。
本发明实施例中,使用openpose估计人体的姿态,得到2D关节点序列P(I)={p1,…,pk}(k=18)表示人体图像I中人体的关节点信息;其中,pi由二维坐标点(xi,yi)表示,如图2为18个关节点的示意图。
2)用heat maps表示人体姿态信息。
为了利用姿态信息的空间特性,这里用K个heat maps组成表示2D姿态信息。如图3所示,图3为用heat maps表示姿态信息的可视化结果。
步骤2:划分人体图像为10个人体部分和背景部分:
根据步骤1得到的人体关节点坐标,将人体图像划分为11个部分,包括头、左(右)上臂、左(右)下臂、左(右)大腿、左(右)小腿、躯干以及背景。
本发明实施例中,根据每个人体部分的两个关节点坐标用二维正态分布得到对应区域的掩码。例如,小臂部分,由手首和手肘两个关节点决定,给定两个关节点坐标p1(x1,y1)和p2(x2,y2),可以确定其中心点的位置并定义θ=arctan(y2-y1,x2-x1)。
给定:
根据任一点的坐标(x,y),可以得到:
f(x,y)=Aexp(-a(x-μx)2+2b(x-μx)(y-μy)+c(y-μy)2);
人体图像的10个人体部分即可用上式进行划分,除过人体部分的其他部分即为背景部分。
如图4所示为根据关节点划分的10个人体部分和背景部分。
步骤3:生成目标姿态人体图像:
1)构建encoder-decoder结构的卷积神经网络;
“Progressive Pose Attention Transfer for Person Image Generation”在姿态引导下的虚拟人体图像生成任务上取得了较好的效果,这里借鉴该篇论文里面的网络结构作为生成虚拟人体图像的主干网络,它采用encoder-decoder结构的网络框架,中间加入级联的姿态注意力转移模块实现姿态转移。
2)组织输入卷积神经网络的数据;
输入网络的数据分为两个部分,一个部分是现实场景下的人体图像,另外一个部分是步骤1得到的用heatmap表示的姿态图像,包括现实场景下人体图像的姿态图像和目标姿态图像。
3)利用encoder-decoder结构的卷积神经网络生成目标姿态的人体图像。
将组织好的输入数据输入到网络中,生成目标姿态的人体图像。
步骤4:计算基于人体结构相似性的损失函数:
1)结构相似性指标;
结构相似性是根据人眼感知设计的一种衡量图片性能的指标,它将相似性的衡量分解为三个比较函数:亮度(l)、对比度(c)、结构(s),给定两个信号x和y,这三个函数的定义为:
SSIM(x,y)=[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ
α,β,γ是控制三个部分重要性的参数,这里C3=C2/2,α=β=γ=1,SSIM的定义可以简化为:
对于图像来说,通常使用滑动高斯窗口来计算结构相似度SSIM,指定大小的窗口在图像上逐元素移动来获得窗口中心元素的结构相似度,最终所有元素结构相似性的均值作为两张图像的结构相似性,定义两张图片X和Y之间的结构相似性MSSIM为:
2)根据步骤2得到的划分好的11个部分、步骤3得到的生成图像以及真实图像,对生成图像和真实图像划分成不同的部分;
记{Ml:l=0,…,L}为用来划分人体图像各个部分的L+1个掩码,M0和{Ml:l=1,…,L}分别表示背景区域掩码和L个人体部分的掩码,这里L=10。即表示图像X的第l部分区域的像素,其中表示逐元素相乘。
3)计算每个部分的结构相似性;
不同于标准的结构相似性计算图像相似性,这里用划分的11个图像区域作为窗口计算每个窗口的结构相似性。第l部分的结构相似性SSIMl可以定义为:
4)计算基于人体结构相似性的损失函数以及其他损失函数。
由于背景部分没有明显的相似的结构,所以背景部分采用1)中标准的结构相似性计算背景相似度,前景则采用3)中改进的结构相似性计算人体各个部分的相似度,记为:
另外,还采用了对抗损失以及感知损失共同对网络参数进行优化。
步骤5:优化网络参数,实现目标姿态的现实场景人体图像的生成:
1)根据步骤4得到的损失函数对网络参数进行迭代优化;
使用Adam优化器迭代90k次,其中β1=0.5,β2=0.999。
2)当达到预定的迭代次数后,用encoder-decoder结构的卷积神经网络实现目标姿态的现实场景人体图像的生成。
综上,本发明的方法针对现实场景中的一张人体图像和任意一张目标人体姿态图像,引入encoder-decoder结构的卷积神经网络作为人体图像生成的主干网络;首先对输入的人体图像进行姿态估计,得到人体图像的关节点信息;然后利用关节点信息将人体图像分成10个人体部分和背景部分,包括头、左(右)上臂、左(右)下臂、左(右)大腿、左(右)小腿、躯干以及背景;通过计算基于人体结构相似性的损失函数来衡量生成的目标姿态人体图像和真实的目标姿态人体图像的差异;最后利用该损失及其他损失函数联合优化网络参数,实现目标姿态的现实场景人体图像的生成。该方法与现有方法进行定性和定量的对比实验分析,在Market-1501和DeepFashion两个公开数据集上验证该方法的有效性。
表1a、1b分别是本发明的定量的实验结果,表1a为在Market-1501数据集下该方法的实验结果,表1b为在DeepFashion数据集下该方法的实验结果。
表1a在Market-1501数据集下该方法的实验结果
表1b在DeepFashion数据集下该方法的实验结果
SSIM、IS、DS都是衡量生成图像的质量常用的指标,数值越大表示生成的图像越逼真、质量越高,Mask-SSIM和Mask-IS计算的是人体部分的SSIM、IS值,反映了生成的图像中人体部分图像的质量。从表1a中可以看到,在Market-1501数据集上,用本发明生成的图像在SSIM、Mask-SSIM、Mask-IS指标上均达到了最高,DS值达到了和真实值差不多的水平。从表1b中可以看到,在DeepFashion数据集上,本发明生成的图像在SSIM和DS指标上均达到了最高。因此,从定量结果上看,本发明基于结构相似性的虚拟人体图像生成方法可以生成更加真实的虚拟人体图像。
图5、图6分别是本发明的定性的实验结果,图5为在Market-1501数据集下本发明生成的图像,与原始方法PATN相比,本发明生成的图像细节更加准确,比如第一行第二列示意图像,本发明很好的还原了书包,而PATN没有还原出书包;第四行第二列示意图像,本发明准确还原了人体上衣的颜色,而PATN生成了错误颜色的人体上衣,图6为在DeepFashion数据集下本发明的生成的图像,与原始方法PATN相比,本发明准确生成了人体图像的纹理结构细节,比如,第二行第一列示意图像,本发明生成了轮廓清晰的胳膊部分而PATN生成的胳膊部分比较模糊;第一行第二列示意图像,本发明生成了和源图像相似的衣服纹理而PATN生成的衣服纹理比较模糊。因此,从定性结果上看,本发明基于结构相似性的虚拟人体图像生成方法可以生成拥有更丰富的纹理结构信息的人体图像。
本发明实施例的一种姿态引导下的基于结构相似性的虚拟人体图像生成系统,包括:
样本获取模块,用于采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
训练模块,用于将源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
优化模块,用于基于获得的虚拟目标人体图像及采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数、对抗损失函数以及感知损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将获得的虚拟目标人体图像及采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
本发明实施例的一种姿态引导下的基于结构相似性的虚拟人体图像生成电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
将源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
基于获得的虚拟目标人体图像及采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数、对抗损失函数以及感知损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将获得的虚拟目标人体图像及采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
综上所述,本发明公开了一种姿态引导下的基于结构相似性损失的虚拟人体图像生成方法、系统及电子设备,属于计算机视觉和计算机图形学的交叉领域,本发明针对现实场景中的一张人体图像和任意一张目标人体姿态图像,生成拥有目标人体姿态的现实场景人体图像。本发明引入卷积神经网络作为人体图像生成的主干网络;利用人体的各个部分具有相似的纹理和结构信息,将人体图像分成10个人体部分和背景部分,包括头、左(右)上臂、左(右)下臂、左(右)大腿、左(右)小腿、躯干以及背景;通过计算人体各个部分的结构相似性来衡量生成的目标姿态人体图像和真实的目标姿态人体图像的差异,进而使用基于人体结构相似性的损失函数驱动网络训练,实现目标姿态的现实场景人体图像的生成。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (10)
1.一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,包括以下步骤:
步骤1,采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
步骤2,将步骤1中的源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
步骤3,基于步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
2.根据权利要求1所述的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,步骤1中,所述根据目标人体图像获得目标姿态图像的具体步骤包括:
步骤1.1,用姿态估计方法对输入的目标人体图像进行姿态估计,得到预设数量的人体关节点坐标;
步骤1.2,基于步骤1.1获得的人体关节点坐标,用heat map表示人体姿态信息,获得目标姿态图像。
3.根据权利要求2所述的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,步骤3中,获得基于人体结构相似性的损失函数具体步骤包括:
步骤3.1,基于步骤1.1获得的人体关节点坐标,划分人体图像为若干个人体部分和1个背景部分,获得各个部分的掩码;
步骤3.2,基于步骤3.1获得的各个部分的掩码,将步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像,划分成若干个人体部分和1个背景部分;
步骤3.3,计算步骤2获得的虚拟目标人体图像及步骤1采集获取的目标人体图像,各个部分的结构相似性;
步骤3.4,基于步骤3.3获得的各个部分的结构相似性,获得基于人体结构相似性的损失函数。
4.根据权利要求3所述的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,步骤3.1和步骤3.2中,所述若干个人体部分具体为10个人体部分,包括:头、左上臂、右上臂、左下臂、右下臂、左大腿、右大腿、左小腿、右小腿、躯干。
5.根据权利要求3所述的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,
步骤1.1中,具体包括:用openpose姿态估计方法对输入的真实目标人体图像It进行姿态估计,得到18个人体关节点坐标;其中,关节点序列P(It)={p1,…,pk},k=18;第i个关节点pi由二维坐标点(xi,yi)表示;
步骤3.1中,具体包括:基于每个用于人体部分划分的两个关节点坐标,通过二维正态分布得到对应区域的掩码。
7.根据权利要求5所述的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,步骤3中,所述基于人体结构相似性的损失函数的表达式为:
其中,
式中,X,Y为待计算相似度的两张图片;
SSIMl为图像X和图像Y的第l部分的结构相似性表达式;为图像X的第l个人体部分的均值和方差;为图像Y的第l个人体部分的均值和方差,为图像X和图像Y的第l个人体部分的协方差;C1和C2为常数并设定C1=(0.01*L)2,C2=(0.03*L)2,L为图像像素值的范围;MSSIM(X,Y)为图像X和图像Y的标准的结构相似性表达式,Xi,Yi表示图像X和图像Y的第i个像素;
8.根据权利要求1所述的一种姿态引导下的基于结构相似性的虚拟人体图像生成方法,其特征在于,对卷积神经网络进行优化时使用的损失函数还包括:对抗损失函数以及感知损失函数。
9.一种姿态引导下的基于结构相似性的虚拟人体图像生成系统,其特征在于,包括:
样本获取模块,用于采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
训练模块,用于将源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
优化模块,用于基于获得的虚拟目标人体图像及采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将获得的虚拟目标人体图像及采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
10.一种姿态引导下的基于结构相似性的虚拟人体图像生成电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
采集获取源人体图像和目标人体图像;根据目标人体图像获得目标姿态图像;
将源人体图像和目标姿态图像输入预构建的encoder-decoder结构的卷积神经网络中,获得虚拟目标人体图像;
基于获得的虚拟目标人体图像及采集获取的目标人体图像构建损失函数,对预构建的encoder-decoder结构的卷积神经网络进行迭代优化;达到预设的迭代次数后,获得优化后的encoder-decoder结构的卷积神经网络,用于实现目标姿态的现实场景人体图像的虚拟生成;其中,所述损失函数包括:基于人体结构相似性的损失函数;所述基于人体结构相似性的损失函数获得的具体步骤包括:将获得的虚拟目标人体图像及采集获取的目标人体图像进行区域划分和结构相似性计算,计算获得基于人体结构相似性的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745734.8A CN112116673B (zh) | 2020-07-29 | 2020-07-29 | 一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745734.8A CN112116673B (zh) | 2020-07-29 | 2020-07-29 | 一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116673A true CN112116673A (zh) | 2020-12-22 |
CN112116673B CN112116673B (zh) | 2022-12-09 |
Family
ID=73799423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010745734.8A Active CN112116673B (zh) | 2020-07-29 | 2020-07-29 | 一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116673B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592971A (zh) * | 2021-07-29 | 2021-11-02 | 西安交通大学 | 一种虚拟人体图像生成方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345869A (zh) * | 2018-03-09 | 2018-07-31 | 南京理工大学 | 基于深度图像和虚拟数据的驾驶人姿态识别方法 |
KR102036785B1 (ko) * | 2019-06-24 | 2019-11-26 | 김길곤 | 엘리베이터의 유지 및 보수의 공정을 제어하기 위한 방법 및 장치 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
-
2020
- 2020-07-29 CN CN202010745734.8A patent/CN112116673B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345869A (zh) * | 2018-03-09 | 2018-07-31 | 南京理工大学 | 基于深度图像和虚拟数据的驾驶人姿态识别方法 |
KR102036785B1 (ko) * | 2019-06-24 | 2019-11-26 | 김길곤 | 엘리베이터의 유지 및 보수의 공정을 제어하기 위한 방법 및 장치 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592971A (zh) * | 2021-07-29 | 2021-11-02 | 西安交通大学 | 一种虚拟人体图像生成方法、系统、设备及介质 |
CN113592971B (zh) * | 2021-07-29 | 2024-04-16 | 西安交通大学 | 一种虚拟人体图像生成方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112116673B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7476428B2 (ja) | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN102662476B (zh) | 一种视线估计方法 | |
JP7015152B2 (ja) | キーポイントデータに関する加工装置、方法及びプログラム | |
CN106780592A (zh) | 基于相机运动和图像明暗的Kinect深度重建算法 | |
JP2023545190A (ja) | 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム | |
CN108734078B (zh) | 图像处理方法、装置、电子设备、存储介质及程序 | |
Sun et al. | Learning local quality-aware structures of salient regions for stereoscopic images via deep neural networks | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN110210426A (zh) | 基于注意力机制从单幅彩色图像进行手部姿态估计的方法 | |
Liu et al. | Asflow: Unsupervised optical flow learning with adaptive pyramid sampling | |
Su et al. | Cross-validated locally polynomial modeling for 2-D/3-D gaze tracking with head-worn devices | |
CN112116673B (zh) | 一种姿态引导下的基于结构相似性的虚拟人体图像生成方法、系统及电子设备 | |
CN113643329B (zh) | 一种基于孪生注意力网络的在线更新目标跟踪方法和系统 | |
CN112085223A (zh) | 一种用于机械维修的诱导系统及方法 | |
US11734889B2 (en) | Method of gaze estimation with 3D face reconstructing | |
CN111275610A (zh) | 一种人脸变老图像处理方法及系统 | |
CN115205750B (zh) | 基于深度学习模型的运动实时计数方法和系统 | |
CN113592971B (zh) | 一种虚拟人体图像生成方法、系统、设备及介质 | |
CN113592021B (zh) | 一种基于可变形和深度可分离卷积的立体匹配方法 | |
CN115690389A (zh) | 一种基于深度学习的白内障手术中角膜中心定位系统 | |
CN115994944A (zh) | 三维关键点预测方法、训练方法及相关设备 | |
CN113610115B (zh) | 一种基于灰度图像的高效人脸对齐方法 | |
CN113160421B (zh) | 一种基于投影的空间式实物交互虚拟实验方法 | |
Zhang et al. | Large motion anime head animation using a cascade pose transform network | |
CN109151444B (zh) | 3d智能像素增强引擎 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |