CN116597026A - 一种多视角全身人体图像生成方法 - Google Patents

一种多视角全身人体图像生成方法 Download PDF

Info

Publication number
CN116597026A
CN116597026A CN202310601275.XA CN202310601275A CN116597026A CN 116597026 A CN116597026 A CN 116597026A CN 202310601275 A CN202310601275 A CN 202310601275A CN 116597026 A CN116597026 A CN 116597026A
Authority
CN
China
Prior art keywords
human body
image
generator
discriminator
whole
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310601275.XA
Other languages
English (en)
Inventor
杨万扣
陈子威
杨森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310601275.XA priority Critical patent/CN116597026A/zh
Publication of CN116597026A publication Critical patent/CN116597026A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多视角全身人体图像生成方法,包括如下步骤:步骤1,构建人体图像生成器及判别器的主体框架;步骤2,输入一批潜在编码、人体关节点热图及相机参数,由生成器生成一批图像;步骤3,将生成的图像送入判别器,计算损失函数,以更新生成器网络参数;步骤4,将数据集中一批图像送入判别器,计算损失函数,以更新判别器网络参数,完成一次网络训练;步骤6,重复步骤2到步骤5,直至训练收敛,得到最终的全身人体图像生成器;步骤7,在测试阶段,把潜在编码、人体关节点热图及相机参数输入生成器,得到生成的图像。本申请解决了全身人体图像生成速度慢、质量低、不真实的问题,且本申请可控制生成图像的人体姿态、相机视角。

Description

一种多视角全身人体图像生成方法
技术领域
本发明属于图像生成与计算机图形学领域,具体涉及到一种多视角人体图像生成方法。
背景技术
近年来,生成对抗网络(Generative Adversarial Networks,GAN)被广泛用于生成高分辨率的、高质量的逼真图像。其中,StyleGAN被提出并且成为了先进的无条件图像生成模型。相比较于先前的生成模型,StyleGAN将单独的属性因子(即样式)注入生成器,以影响生成图像的外观。在这之后,StyleGAN2重新设计了归一化、多尺度方案和正则化方法,以校正StyleGAN模型所生成的图像中的伪影。最新的StyleGAN3模型揭示了细节纹理出现在固定像素位置的非理想情况,并提出了无别名网络。
如今,如何将传统GAN的生成能力拓展到3D层面受到越来越多的关注,如何生成多视角一致的图像以及如何生成对应图像中的3D形状被广泛研究。随着神经辐射场(NeuralRadiance Field,NeRF)的发展,许多工作如GRAF、GIRAFFE、StyleNeRF尝试将其引入到GAN中,以增强生成图像的多视角一致性。GIRAFFE将神经辐射场与卷积结构的解码器结合在一起,以此提升训练和渲染效率。StyleNeRF则采用类似StyleGAN结构的网络生成神经辐射场,以实现对于样式更精准的控制。StyleSDF使用有向距离场替代神经辐射场中的密度,进一步提升了几何一致性。
尽管现有的生成模型在人脸生成、物体生成方面取得了巨大进步,全身人体图像的生成依然是一个十分困难的任务。不同人之间的高矮、胖瘦等身体形态各不相同,且人体的姿态复杂多变,这些都加大了生成难度。一方面,受限制于训练使用的数据,这些方法生成的图像质量往往不佳;另一方面,由于缺乏严格的3D建模环节,这些方法也难以确保较为准确的人体图像几何一致性。此外,如何控制生成过程,使得能指定生成的人体图像中人体的姿态,也是一个技术难点。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种多视角人体图像生成方法,与现有的图像生成模型不同,本发明构造的生成模型能指定生成图像中人体的姿态,并可生成不同视角下的人体图像。
该方法包括如下步骤:
步骤1,构建多视角全身人体图像生成器及判别器的主体框架;
步骤2,输入一批潜在编码、人体关节点热图及相机参数,由生成器生成一批全身人体图像;
步骤3,将生成的全身人体图像及对应的人体关节点热图、相机参数送入判别器,计算损失函数,以更新生成器网络参数;
步骤4,将一批真实的全身人体图像及其对应的人体关节点热图、相机参数送入判别器,计算损失函数,以更新判别器网络参数,完成一次网络训练;
步骤5,重复步骤2到步骤4,直至训练收敛,得到最终的全身人体图像生成器;步骤6,在测试阶段,把潜在编码、人体关节点热图及相机参数输入最终的生成器,得到生成的全身人体图像。
优选地,所述步骤1需要构造多视角人体图像生成器的主体框架。生成器包含姿态编码器、骨干网络、体渲染模块以及超分辨率模块。
姿态编码器由多个残差模块组成,能提取人体关节点热图中的有效信息,为生成过程提供引导,减少生成难度;
骨干网络为StyleGAN2生成器结构,包括一个映射网络及多层上采样模块,其输入为潜在编码、人体关节点热图及相机参数,能生成中间表征,用于体渲染;骨干网络输出的特征图经空间变换,转化为三平面表征,该表征在保证信息有效性的同时,节省了存储空间,提升了生成器生成效率,使得生成的特征图包含更多有效信息,且同时保证生成器较快的运算速度;
体渲染模块采用相机参数进行光线采样,在三平面表征提取特征,以渲染得到特征图像,体渲染使得在测试阶段能通过输入不同的相机视角参数,控制生成的人体图像的观察视角,体渲染模块用于渲染小尺寸的人体图像,经过超分辨率模块得到大尺寸的人体图像,该设计能大大减少生成器计算需求,加快推理速度;
超分辨率模块以特征图像为输入,输出上采样8倍分辨率后的全身人体图像,该模块使得体渲染无需直接渲染大尺寸图像,大大提升了生成器运行速度;
生成器总体输入包括人体关节点热图,使得在推理阶段,能通过输入不同的关节点热图控制生成图像中的人体姿态。
优选地,所述步骤1需要构造多视角人体图像判别器的主体框架。判别器为StyleGAN2判别器结构,其输入为全身人体图像、人体关节点热图及相机参数,输出图像为真实图像的概率值,该判别器能捕获不同尺度的图像信息,更有效地判断生成的人体图像是否真实,保证了生成的全身人体图像质量,同时也使得生成的人体图像与输入的人体关节点热图相匹配。
优选地,所述步骤2中,潜在编码由随机对高斯分布进行采样取得,该高斯分布均值为0,方差为1,每个潜在编码为随机采样512次构成的512维向量,该潜在编码使得生成器在测试阶段能便捷地控制输入。
优选地,所述步骤2中,潜在编码与相机参数首先堆叠到一起,构成一个537维的向量,作为调制信号送入生成器。额外送入相机参数能使得生成器建模与视角相关的信息,由此生成过程能额外受到视角信息的引导,有利于生成器建模视角相关的信息,能增强生成图像中细节的质量。
优选地,所述步骤2中,人体关节点热图经过姿态编码器处理后送入生成器,能引导生成过程,减小生成器生成难度。
优选地,所述步骤2中,相机参数为25维向量,前9个数值表示相机内参,后16个数值表示相机外参,对于所有图像,相机内参均固定为相同值,以此减小生成器生成中间表征的难度,提升最终图像的生成质量。
优选地,所述步骤3及步骤4中,人体图像与人体关节点热图首先堆叠在一起,然后送入判别器。该堆叠使得判别器能判断生成的人体图像是否与输入的人体关节点热图相匹配。其中,步骤3中提出一种三重判别法,渲染得到的人体图像、超分辨率后的人体图像以及人体关节点热图首先堆叠在一起,构成维度为7×512×512的特征,之后送入判别器;相机参数作为调制信号,送入判别器。人体图像与人体关节点热图的堆叠使得生成的人体图像与输入的人体关节点热图相匹配。相机参数的引入使得判别器能获取更多视角信息,有助于判断生成的人体图像是否真实。此外,相比较于其他条件判别方法,堆叠减少了计算量,提升了判别器运算速度。
优选地,所述步骤5中,由于损失函数无法直接显示出生成器收敛状态,使用Fréchet Inception Distance(FID)指标以及Kernel Inception Distance(KID)指标评估生成器是否收敛,当FID指标和KID指标下降到较低的数值,并在小范围内振荡时,认定为生成器已收敛,停止训练。
本发明的有益效果在于:解决了全身人体图像生成质量不足、真实性低的技术问题,能控制生成的全身人体图像的人体姿态,以及生成某种人体的多视角图像,同时实现了较快的生成速度;此外,本发明还能应用到虚拟现实、影视娱乐、数字人体等领域。
附图说明
图1为本发明所提供的多视角人体图像生成方法的流程示意图;
图2为本发明所构建的多视角人体图像生成器网络架构示意图;
图3为本发明所构建的多视角人体图像生成器生成效果示意图;
图4为本发明所构建的多视角人体图像生成器姿态控制示意图;
图5为本发明所构建的多视角人体图像生成器多视角生成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明公开了一种多视角人体图像生成方法,如图1所示,包括如下步骤:
步骤1,构建多视角全身人体图像生成器及判别器的主体框架。
生成器包含姿态编码器、骨干网络、体渲染模块以及超分辨率模块。
姿态编码器由多个残差模块组成,其输入为1×512×512维度的人体关节点热图Eheatmap,输出为512×32×32维度的特征图。
骨干网络为StyleGAN2生成器结构,输入为姿态编码器输出的特征图,潜在编码z与相机参数v先进行堆叠,然后送入骨干网络的多层感知器得到w编码,该编码作为调制信号控制骨干网络的生成过程,最终输出96×256×256的特征图,该特征图经过空间变换后,得到32×256×256的三平面表征。
体渲染模块使用相机参数v在三平面表征的空间进行光线采样,每条光线采样48个点,共计采样64×64×48个点p。之后,在三平面表征中对应位置取出特征,将三个平面提取到的特征相加,构成每个点的特征向量F(p)=Fxy(pxy)+Fxz(pxz)+Fyz(pyz)。该特征向量送入体渲染模块中的解码器,得到密度σ(p)以及颜色c(p)。最终,通过计算一条光线上所有点的颜色及密度信息,可以得到图像中每个像素点的值:
其中,T(t)表示沿着光线方向的累计透射率。
超分辨率模块使用渲染得到的图像Irender作为输入,超分辨率模块包含双线性插值上采样层以及若干个上采样层,最后输出8倍上采样后的图像Isuper
判别器采用StyleGAN2判别器结构。渲染得到的图像Irender、超分辨率后的图像Isuper以及人体关节点热图Eheatmap首先堆叠在一起,构成7×512×512的特征图,以此作为判别器的输入。判别器最终输出为一个概率值,表示该输入图像为真实图像的概率大小。
步骤2,输入一批潜在编码、人体关节点热图及相机参数,由生成器生成一批全身人体图像。
潜在编码由随机对高斯分布进行采样取得,该高斯分布均值为0,方差为1,每个潜在编码为随机采样512次构成的512维向量。人体关节点热图、相机参数通过对数据集中的数据随机采样获取。
步骤3,将生成的全身人体图像及对应的人体关节点热图、相机参数送入判别器,计算损失函数,以更新生成器网络参数。
渲染得到的图像Irender、超分辨率后的图像Isuper以及人体关节点热图Eheatmap首先被堆叠在一起,构成7×512×512的特征图,以此作为判别器的输入。判别器最终输出为一个概率值,表示该输入图像为真实图像的概率大小。对于生成器,期望其生成的图像会被判别器认定为真实图像,其损失函数表示如下:
LG=log(1-D(G(z,v,E))).
步骤4,将一批真实的全身人体图像及其对应的人体关节点热图、相机参数送入判别器,计算损失函数,以更新判别器网络参数,完成一次网络训练。
真实的全身人体图像及其对应的人体关节点热图、相机参数通过对数据集中的数据对进行随机采样得到。对于判别器,期望其将生成器生成的图像判定为不真实图像,而将数据集中采样的图像判定为真实图像,其损失函数表示如下:
LD=log(D(I))-log(1-D(G(z,v,E))).
步骤5,重复步骤2到步骤4,直至训练收敛,得到最终的全身人体图像生成器。
使用Fréchet Inception Distance(FID)指标以及Kernel Inception Distance(KID)指标评估生成器是否收敛,当FID指标和KID指标下降到较低的数值,并在小范围内振荡时,认定为生成器已收敛,停止训练。
FID指标计算了生成图像与数据集原始图像之间的相似度,FID数值接近于0,则代表生成的图像与数据集中图像十分相似。计算FID指标时,首先使用生成器随机生成一定数量的图像,然后使用一个预训练好的分类网络(本发明使用VGG网络)进行多尺度特征提取,这些特征会与采用数据集中图像经过网络提取出的特征计算相似度,最后得到FID指标。
Kernel Inception Distance(KID)指标与FID指标类似,使用一个预训练好的Inception网络对生成图像以及数据集中的图像进行特征提取,通过计算这两种特征之间最大平均差异的平方,来衡量生成图像与数据集中原始图像之间的相似度。KID数值越小,则表示生成图像与数据集中原始图像越相似。相比较于FID,KID指标存在无偏估计值。
步骤6,在测试阶段,把潜在编码、人体关节点热图及相机参数输入最终的生成器,得到生成的全身人体图像。
本发明提出了一种多视角人体图像生成方法。与现有的图像生成模型不同,本发明构造的多视角人体图像生成器能指定生成图像中人体的姿态,并可生成不同视角下的人体图像,而不仅仅以一种人体姿态不可控的方式生成单视角人体图像。本发明使用StyleGAN2结构的骨干网络生成三平面表征,以对人体进行建模,保证了表征信息的充分性;本发明使用体渲染进行图像生成,实现对生成视角的控制;此外,本发明通过引入人体姿态条件,提出三重判别的方法,实现了对生成过程中人体姿态的控制。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种多视角全身人体图像生成方法,其特征在于,该方法包括以下步骤:
步骤1,构建多视角全身人体图像生成器及判别器的主体框架;
步骤2,输入一批潜在编码、人体关节点热图及相机参数,由生成器生成一批全身人体图像;
步骤3,将生成的全身人体图像及对应的人体关节点热图、相机参数送入判别器,计算损失函数,以更新生成器网络参数;
步骤4,将一批真实的全身人体图像及其对应的人体关节点热图、相机参数送入判别器,计算损失函数,以更新判别器网络参数,完成一次网络训练;
步骤5,重复步骤2到步骤4,直至训练收敛,得到最终的全身人体图像生成器;
步骤6,在测试阶段,把潜在编码、人体关节点热图及相机参数输入最终的生成器,得到生成的全身人体图像。
2.根据权利要求1所述的一种多视角全身人体图像生成方法,其特征在于,所述步骤1中,生成器包含姿态编码器、骨干网络、体渲染模块以及超分辨率模块;姿态编码器由多个残差模块组成,能提取人体关节点热图中的有效信息,为生成过程提供引导,减少生成难度;骨干网络为StyleGAN2生成器结构,包括一个映射网络及多层上采样模块,其输入为潜在编码、人体关节点热图及相机参数,能生成中间表征,用于体渲染;骨干网络输出的特征图经空间变换,转化为三平面表征,该表征在保证信息有效性的同时,节省了存储空间,提升了生成器生成效率;体渲染模块采用相机参数进行光线采样,在三平面表征提取特征,以渲染得到特征图像,体渲染使得在测试阶段能通过输入不同的相机视角参数,控制生成的人体图像的观察视角;超分辨率模块以特征图像为输入,输出上采样8倍分辨率后的全身人体图像,该模块使得体渲染无需直接渲染大尺寸图像,提升生成器运行速度。
3.根据权利要求1所述的一种多视角全身人体图像生成方法,其特征在于,所述步骤1中,判别器为StyleGAN2判别器结构,其输入为全身人体图像、人体关节点热图及相机参数,输出图像为真实图像的概率值,该判别器保证了生成的全身人体图像质量,同时也使得生成的人体图像与输入的人体关节点热图相匹配。
4.根据权利要求1所述的一种多视角全身人体图像生成方法,其特征在于,所述步骤2中,潜在编码由随机对高斯分布进行采样取得,该高斯分布均值为0,方差为1,每个潜在编码为随机采样512次构成的512维向量,该潜在编码使得生成器在测试阶段能便捷地控制输入。
5.根据权利要求1所述的一种多视角全身人体图像生成方法,其特征在于,所述步骤2中,潜在编码与相机参数首先堆叠在一起,构成一个537维的向量,作为调制信号送入生成器;该堆叠操作使得生成过程能额外受到视角信息的引导,有利于生成器建模视角相关的信息,增强生成图像中的细节质量。
6.根据权利要求1所述的一种多视角全身人体图像生成方法,其特征在于,所述步骤3中,提出一种三重判别法,渲染得到的人体图像、超分辨率后的人体图像以及人体关节点热图首先堆叠在一起,构成维度为7×512×512的特征,之后送入判别器;相机参数作为调制信号,送入判别器;人体图像与人体关节点热图的堆叠使得生成的人体图像与输入的人体关节点热图相匹配;相机参数的引入使得判别器能获取更多视角信息,有助于判断生成的人体图像是否真实。
7.根据权利要求1所述的一种多视角全身人体图像生成方法,其特征在于,所述步骤5中,由于损失函数无法直接显示出生成器收敛状态,使用FID指标以及KID指标评估生成器是否收敛,当FID指标和KID指标下降到较低的数值,并在小范围内振荡时,认定为生成器已收敛,停止训练。
CN202310601275.XA 2023-05-25 2023-05-25 一种多视角全身人体图像生成方法 Pending CN116597026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310601275.XA CN116597026A (zh) 2023-05-25 2023-05-25 一种多视角全身人体图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310601275.XA CN116597026A (zh) 2023-05-25 2023-05-25 一种多视角全身人体图像生成方法

Publications (1)

Publication Number Publication Date
CN116597026A true CN116597026A (zh) 2023-08-15

Family

ID=87589588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310601275.XA Pending CN116597026A (zh) 2023-05-25 2023-05-25 一种多视角全身人体图像生成方法

Country Status (1)

Country Link
CN (1) CN116597026A (zh)

Similar Documents

Publication Publication Date Title
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN109816593B (zh) 一种基于注意力机制的生成对抗网络的超分辨率图像重建方法
CN111524135B (zh) 基于图像增强的输电线路细小金具缺陷检测方法及系统
CN113361560B (zh) 一种基于语义的多姿势虚拟试衣方法
CN112215050A (zh) 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备
CN111414953B (zh) 点云分类方法和装置
CN112085835B (zh) 三维卡通人脸生成方法、装置、电子设备及存储介质
CN112837215B (zh) 一种基于生成对抗网络的图像形状变换方法
CN113327299B (zh) 一种基于联合采样结构的神经网络光场方法
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
CN113112583B (zh) 基于红外热成像的3d人体重构方法
CN113724354A (zh) 基于参考图颜色风格的灰度图像着色方法
Cheng et al. Dense point cloud completion based on generative adversarial network
CN115761178A (zh) 基于隐式神经表示的多视图三维重建方法
CN113744136A (zh) 基于通道约束多特征融合的图像超分辨率重建方法和系统
CN114882524A (zh) 一种基于全卷积神经网络的单目三维手势估计方法
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
CN115115805A (zh) 三维重建模型的训练方法、装置、设备及存储介质
Wang et al. 3D model inpainting based on 3D deep convolutional generative adversarial network
CN109658508B (zh) 一种多尺度细节融合的地形合成方法
Jung et al. Learning free-form deformation for 3D face reconstruction from in-the-wild images
CN117218300B (zh) 三维模型的构建方法、三维构建模型的训练方法及装置
Hu et al. A noising-denoising framework for point cloud upsampling via normalizing flows
CN117788296A (zh) 基于异构组合深度网络的红外遥感图像超分辨率重建方法
CN112017159A (zh) 一种遥感场景下的地面目标真实感仿真方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination