CN115482557B - 人体图像生成方法、系统、设备及存储介质 - Google Patents

人体图像生成方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115482557B
CN115482557B CN202211228947.9A CN202211228947A CN115482557B CN 115482557 B CN115482557 B CN 115482557B CN 202211228947 A CN202211228947 A CN 202211228947A CN 115482557 B CN115482557 B CN 115482557B
Authority
CN
China
Prior art keywords
human body
body image
dimensional
vector
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211228947.9A
Other languages
English (en)
Other versions
CN115482557A (zh
Inventor
苏明兰
张超颖
刘巧俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211228947.9A priority Critical patent/CN115482557B/zh
Publication of CN115482557A publication Critical patent/CN115482557A/zh
Application granted granted Critical
Publication of CN115482557B publication Critical patent/CN115482557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种人体图像生成方法、系统、设备及存储介质,所述方法包括步骤:根据多个预设人体图像参数,构造参数空间;基于所述参数空间,训练预设变分自动编码器,获得目标解码器;分别获取多个第一向量变量和一第二向量变量;所述第一向量变量的数量与所述预设人体图像参数的数量相同;根据所述目标解码器和所述第一向量变量,生成三维人体模型;以及根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像;本申请实现能够生成任意姿态的人体图像。

Description

人体图像生成方法、系统、设备及存储介质
技术领域
本发明涉及图像处理技术领域,具体地说,涉及一种人体图像生成方法、系统、设备及存储介质。
背景技术
三维人体姿态估计、重建是元宇宙的重点探索方向之一。基于人体姿态生成算法,合成任意形状、姿态的人体数据可以有效的解决人体姿态估计训练数据不足的问题。此外人体姿态生成还可以被广泛应用于动画制作、摄影学的自动编辑等。
现有的人体姿态生成算法通常基于输入的参考图像姿态进行目标姿态合成,由于以参考图像作为先验姿态,因此会存在生成的人体姿态受参考姿态约束,不能生成任意姿态的人体图像的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种人体图像生成方法、系统、设备及存储介质,解决现有技术由于以参考图像姿态作为先验姿态,不能生成任意姿态的人体图像的问题。
为实现上述目的,本发明提供了一种人体图像生成方法,所述方法包括以下步骤:
根据多个预设人体图像参数,构造参数空间;
基于所述参数空间,训练预设变分自动编码器,获得目标解码器;
分别获取多个第一向量变量和一第二向量变量;所述第一向量变量的数量与所述预设人体图像参数的数量相同;
根据所述目标解码器和所述第一向量变量,生成三维人体模型;以及
根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像。
可选地,所述基于所述参数空间,训练预设变分自动编码器,获得目标解码器,包括:
基于所述参数空间,对预设变分自动编码器进行训练;
将训练完成的预设变分自动编码器中的编码器丢弃,仅保留所述预设变分自动编码器中的解码器,作为目标解码器。
可选地,所述根据所述目标解码器和所述第一向量变量,生成三维人体模型,包括:
将各个所述第一向量变量分别作为所述目标解码器的输入,获得多个中间参数值;以及
将所述中间参数值输入渲染器,生成三维人体模型;所述渲染器包括预设参数化人体模型以及典型服装模型。
可选地,所述根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像,包括:
根据所述第二向量变量,对所述三维人体模型进行模仿渲染,生成二维初始图像;
根据身份一致性损失函数、关键点一致性损失函数和衣物一致性损失函数,计算所述二维初始图像和所述三维人体模型之间的损失,并不断循环,生成二维的目标人体图像。
可选地,所述根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像,包括:
将所述第二向量变量作为训练完成的预设生成器模型的输入,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像。
可选地,所述根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像,包括:
改变所述多个第一向量变量中的一个第一向量变量对应的值,以获得变化前的第一向量变量和变化后的第一向量变量;
根据所述变化前的第一向量变量,生成第一二维人体图像;以及根据所述变化后的第一向量变量,生成第二二维人体图像;
根据所述变化前的第一向量变量和变化后的第一向量变量,计算得到流场;
根据第一二维人体图像和所述流场,计算得到第三二维人体图像;
基于所述第三二维人体图像和所述第二二维人体图像之间的差异,确定绝对值损失函数;以及
根据所述绝对值损失函数,对预设生成器模型进行训练,获得训练完成的预设生成器模型。
可选地,所述身份一致性损失函数为:
其中,L1表示身份一致性损失值,fid(x)表示根据训练好的目标再识别网络在所述二维初始图像中提取到的身份特征;表示根据训练好的目标再识别网络在所述三维人体模型中提取到的身份特征;/>表示fid(x)与/>之间的相似度,τ表示预设超参数。
可选地,所述关键点一致性损失函数为:
其中,L2表示关键点一致性损失值,p(x)表示根据训练好的关键点识别网络在所述二维初始图像中提取到的关键点;表示根据训练好的关键点识别网络在所述三维人体模型中提取到的关键点;/>表示p(x)与/>之间的欧式距离。
可选地,所述衣物一致性损失函数为:
其中,L3表示衣物一致性损失值,fc(x)表示根据训练好的服饰识别网络在所述二维初始图像中提取到的服饰特征;表示根据训练好的服饰识别网络在所述三维人体模型中提取到的服饰特征;/>表示fc(x)与/>之间的相似度,τ表示预设超参数。
可选地,所述预设人体图像参数为人体形状参数、姿态参数或者衣物参数。
本发明还提供了一种人体图像生成系统,用于实现上述人体图像生成方法,所述系统包括:
参数空间构造模块,根据多个预设人体图像参数,构造参数空间;
目标解码器获取模块,基于所述参数空间,训练预设变分自动编码器,获得目标解码器;
向量变量输入模块,分别获取多个第一向量变量和一第二向量变量;所述第一向量变量的数量与所述预设人体图像参数的数量相同;
三维人体模型生成模块,根据所述目标解码器和所述第一向量变量,生成三维人体模型;以及
二维人体图像生成模块,根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像。
本发明还提供了一种人体图像生成设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行程序;
其中,所述处理器配置为经由执行所述可执行程序来执行上述任意一项人体图像生成方法的步骤。
本发明还提供了一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现上述任意一项人体图像生成方法的步骤。
本发明与现有技术相比,具有以下优点及突出性效果:
本发明提供的人体图像生成方法、系统、设备及存储介质首先基于训练好的VAE解码器,将输入的第一向量变量映射至人体参数空间,渲染器基于人体参数生成对应的3D人体模型;然后在多种模拟损失的监督下,生成器尽可能的模仿渲染得到的3D人体模型,基于第二向量变量生成2D人体图像,实现生成任意姿态的人体图像。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1为现有技术中的一种人体图像生成方法的示意图;
图2为本发明一实施例公开的一种人体图像生成方法的示意图;
图3为本发明另一实施例公开的一种人体图像生成方法的示意图;
图4为人体图像生成过程中模仿损失的计算过程示意图;
图5为本发明另一实施例公开的人体图像生成方法中步骤S151的示意图;
图6为人体图像生成过程中对比损失的计算过程示意图;
图7为本发明一实施例公开的一种人体图像生成系统的结构示意图;
图8为本发明另一实施例公开的一种人体图像生成系统中三维人体模型生成模块的结构示意图;
图9为本发明另一实施例公开的一种人体图像生成系统中二维初始图像生成单元的结构示意图;
图10为本发明一实施例公开的一种人体图像生成设备的结构示意图;
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本申请所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用系统,本申请中的各项细节也可以根据不同观点与应用系统,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
在本申请的表示中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本申请中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于表示目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的表示中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了明确说明本申请,省略与说明无关的器件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某器件与另一器件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种器件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某器件在另一器件“之上”时,这可以是直接在另一器件之上,但也可以在其之间伴随着其它器件。当对照地说某器件“直接”在另一器件“之上”时,其之间不伴随其它器件。
虽然在一些实例中术语第一、第二等在本文中用来表示各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等表示。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
现在将结合参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
图1公开了现有技术中的一种人体图像生成方法的示意图。参考图1,输入图像是一个人体图像,该方法利用第一个生成器根据参考姿态和输入的人体图像,生成与参考姿态是同一姿态且与输入图像是同一个人的目标姿态图像。然后该方法利用第二个生成器根据目标姿态图像和输入姿态来生成输入图像,该过程是第一个生成器的逆过程。基于该逆过程生成的输入图像利用判别器进行姿态监督损失。其中,在上述方法中,输入姿态和输入图像是同一个姿态,目标姿态和参考姿态是同一个姿态,上述图像是2D的即二维图像。
由上述过程可知,现有技术存在以下问题:一方面,基于参考姿态实现与参考姿态相同的目标姿态生成,生成姿态受参考姿态限制,因此会存在生成的人体姿态受参考姿态约束,不能生成任意姿态的人体图像的问题;另一方面,仅能对姿态进行生成,无法改变生成目标的衣物、形状等影响因子,也即无法根据仅对其他的影响因子进行改变,生成图像。
如图2所示,本发明一实施例公开了一种人体图像生成方法。该方法可以应用于一卷积神经网络模型中。该卷积神经网络模型即用于模仿渲染得到的3D人体模型,生成任一姿态的二维人体图像;或者改变单一影响因子,生成对应的二维人体图像。该方法包括以下步骤:
S110,根据多个预设人体图像参数,构造参数空间。具体实施时,可以从预设人体图像数据集中,提取出多个预设人体图像参数。也即,提取出可以区分不同人体图像的影响因素。上述预设人体图像参数可以包括人体形状参数、姿态参数和衣物参数等。
其中预设人体图像数据集包含有多个不同的人体图像,比如包含不同姿态、不同衣物、不同形状的人体图像。示例性地,上述不同姿态比如可以表现为正面对或者背面对等;不同衣物比如可以表现为裙子或者裤子等;不同形状比如可以表现为举着胳膊或者放下胳膊等。该数据集中的图像可以为图片格式或者视频格式,如果为视频,可以基于对视频进行抽帧获取上述数据集。
比如,在提取到形状参数α、姿态参数β和衣物参数θ之后,构建的参数空间λ可以表示为:λ=[α,β,θ]。
S120,基于上述参数空间,训练预设变分自动编码器,获得目标解码器。具体而言,本实施例中,上述预设变分自动编码器即为VAE(Variational auto-Encoder),训练时,将多组不同的参数值输入VAE,进行编码和解码。每一组参数值包括形状参数值、姿态参数值以及衣物参数值。该步骤具体包括:基于上述参数空间训练VAE,训练结束后,丢弃VAE中的编码器,仅保留VAE中的解码器,作为目标解码器。由于训练结束后,上述编码器在后续过程中不再需要使用,这样利于提高VAE的运行速度,进而利于提高上述卷积神经网络模型的生成图像效率。上述卷积神经网络模型包含该VAE。
S130,分别获取多个第一向量变量和一第二向量变量。本实施例中,上述第一向量变量和第二向量变量均属于向量类型。其中第一向量变量和第二向量变量均可以为随机生成。第一向量变量的数量与上述预设人体图像参数的数量相同。第一向量变量与预设人体图像参数具有一一对应的关系。
上述多个第一向量变量用于后续生成三维人体模型。第二向量变量中包含有所有的预设人体图像参数对应的值,比如包含有形状参数α、姿态参数β和衣物参数θ各自对应的值。第二向量变量可以为随机生成的符合正太分布的高维向量,比如为100维的向量。基于该第二向量变量,可以确定一个指定的影响因子对应的值。示例性地,比如可以确定一个指定姿态;然后基于该指定姿态模仿上述三维人体模型,生成与该指定姿态对应的人体图像。
S140,根据上述目标解码器和上述第一向量变量,生成三维人体模型。具体实施时,参考图3,该步骤可以包括:
S141,将各个第一向量变量分别作为目标解码器的输入,获得多个中间参数值。
以及S142,将上述中间参数值输入渲染器,生成三维人体模型。
具体实施时,步骤S141即为将所述第一向量变量映射至所述参数空间,获得多个中间参数值。其中,根据每一个第一向量变量可以得到对应的一个中间参数值。并且,参考图4,基于一个第一向量变量得到的中间参数值,即为与该第一向量变量对应的预设人体图像参数的值。比如,基于向量变量Z1输入解码器1之后,得到与形状参数α对应的参数值。基于向量变量Z2输入解码器2之后,得到与姿态参数β对应的参数值。基于向量变量Z3输入解码器3之后,得到与衣物参数θ对应的参数值。
上述渲染器可以包括预设参数化人体模型以及典型服装模型(CanonicalGarment Model)。上述卷积神经网络模型包含该渲染器。上述预设参数化人体模型可以为SMPL(Skinned Multi-Person Linear,多人线性蒙皮)模型。关于利用上述形状参数α、姿态参数β和衣物参数θ对应的参数值输入渲染器,获得3D人体模型的实现过程,可参考现有技术,本实施例不再赘述。
以及S150,根据第二向量变量,对上述三维人体模型进行模仿渲染,获得二维的目标人体图像。具体实施时,该步骤可以包括:
S151,根据上述第二向量变量,对上述三维人体模型进行模仿渲染,生成二维初始图像。以及
S152,根据身份一致性损失函数、关键点一致性损失函数和衣物一致性损失函数,计算二维初始图像和三维人体模型之间的损失,并不断循环,生成二维的目标人体图像。
继续参考图4,步骤S151中将上述第二向量变量(即向量Z4)作为训练完成的预设生成器模型的输入,对上述三维人体模型进行模仿渲染,获得二维的目标人体图像。其中,该预设生成器模型也可以为一卷积神经网络。上述卷积神经网络模型包含该预设生成器模型。生成人体图像过程中,在多种模拟损失函数的监督下,不断计算模仿损失,循环迭代,直至迭代过程得到的二维初始图像和三维人体模型之间的模仿损失小于第一预设阈值,才结束循环。
本发明将随机生成的潜在变量映射到三维人体参数空间,并渲染得到对应的3D人体模型,基于模仿学习,通过一组模仿损失函数监督生成器,使生成器尽可能的模仿3D人体模型的外观、姿态、体型、衣物等,实现以特征影响因子为属性的人体姿态的生成。
在一些实施例中,上述身份一致性损失函数可以为:
其中,L1表示身份一致性损失值,fid(x)表示根据训练好的目标再识别网络在上述二维初始图像中提取到的身份特征;表示根据训练好的目标再识别网络在上述三维人体模型中提取到的身份特征。身份特征唯一表示一个人体,比如可以为面部特征。身份特征用于识别是不是同一个目标,用于表示身份一致。
表示fid(x)与/>之间的相似度,比如可以为cosine相似度。τ表示预设超参数,也表示恒定边距,由于渲染的3D人体与真实人体图像之间存在明显的域差距,因此允许特征之间存在微小差异。
上述关键点一致性损失函数为:
其中,L2表示关键点一致性损失值,p(x)表示根据训练好的关键点识别网络在上述二维初始图像中提取到的关键点;表示根据训练好的关键点识别网络在上述三维人体模型中提取到的关键点;/>表示p(x)与/>之间的欧式距离。
上述衣物一致性损失函数为:
其中,L3表示衣物一致性损失值,fc(x)表示根据训练好的服饰识别网络在上述二维初始图像中提取到的服饰特征;表示根据训练好的服饰识别网络在上述三维人体模型中提取到的服饰特征。/>表示fc(x)与/>之间的相似度,比如可以为cosine相似度。τ表示预设超参数。
上述身份特征、关键点以及服饰特征均可以为高维特征,比如为2048维或者1024维的特征。
示例性地,上述目标再识别网络、关键点识别网络和服饰识别网络均可以为ResNet网络或者基于ResNet网络构建。
在一些实施例中,参考图5,上述步骤S151可以包括:
S1511,改变上述多个第一向量变量中的一个第一向量变量对应的值,以获得变化前的第一向量变量和变化后的第一向量变量。
S1512,根据变化前的第一向量变量,生成第一二维人体图像;以及根据变化后的第一向量变量,生成第二二维人体图像。
S1513,根据上述变化前的第一向量变量和变化后的第一向量变量,计算得到流场。
S1514,根据第一二维人体图像和上述流场,计算得到第三二维人体图像。
S1515,基于上述第三二维人体图像和第二二维人体图像之间的差异,确定绝对值损失函数。
以及S1516,根据上述绝对值损失函数,对预设生成器模型进行训练,获得训练完成的预设生成器模型。
该实施例中,训练迭代过程中,每轮迭代,需要改变一个第一向量变量对应的值,同时保持其他第一向量变量不变。以此类推,依次改变各个第一向量变量对应的值,以及同时获得未变化的其余第一向量变量。示例性地,第一向量变量一共有3个,分别为Z1、Z2和Z3,那么可以在第一轮迭代时,保持Z2和Z3不变,仅改变Z1。在第一轮迭代时,保持Z1和Z3不变,仅改变Z2。在第一轮迭代时,保持Z1和Z2不变,仅改变Z3。
示例性地,参考图6,对于形状、姿态、衣物等三个影响因子,只将其中一个特征因子的潜在变量Z变为Z',例如将Z2变为Z2',保持其他变量不变。
然后第一二维人体图像为依据变化前的第一向量变量和未变化的其余第一向量变量生成。第二二维人体图像为依据变化后的第一向量变量和未变化的其余第一向量变量生成。比如参考上述示例,第一二维人体图像为依据Z1、Z2和Z3生成。第二二维人体图像为依据Z1、Z2'和Z3生成。
上述流场可以为变化后的第一向量变量和变化前的第一向量变量之间的向量差。流场可以表示依据Z1、Z2和Z3生成的3D渲染人体、以及依据Z1、Z2'和Z3生成的3D渲染人体之间的流场。上述绝对值损失函数即为第三二维人体图像和第二二维人体图像之间存在差异的第一向量变量的差值的绝对值。预设生成器模型训练过程中,根据该绝对值损失函数计算对比损失,直至该对比损失小于第二预设阈值。绝对值损失函数即为用于惩罚第三二维人体图像和第二二维人体图像之间的差异。
具体而言,现有的人体图像生成方法还存在另一些问题:姿态生成过程中,姿态、形状、衣物等影响生成结果的因素高度耦合,无法针对单一条件变量进行人体姿态合成。
本实施例基于对比学习,在训练过程中,改变单一特征影响因子,保持其他因子不变生成相应的人体姿态图像和3D渲染人体模型,根据3D渲染模型的流场扭曲原始人体姿态图像,通过扭曲后的图像与改变特征因子生成的人体姿态图像的对比,来惩罚不变的特征因子对生成图像带来的影响。
也即本实施例通过对比学习促进了特征影响因子的解耦合,即改变单一变量,保持其他变量不变时,生成的人体姿态图像上的差异仅与该特征因子有关,保证了人体姿态生成的精确可控。
本申请提出的人体图像生成方法既不需要参考姿态作为输入,可以实现任意姿态的人体图像生成;又将影响人体姿态生成的特征因子(人体形状、姿态、衣服等)解耦合,实现可以改变单一特征因子,保持其他特征因子不变时,生成的人体姿态图像上的差异仅与该特征因子有关,保证了人体姿态生成的精确可控。
需要说明的是,本申请中公开的上述所有实施例可以进行自由组合,组合后得到的技术方案也在本申请的保护范围之内。
如图7所示,本发明一实施例还公开了一种人体图像生成系统8,该系统包括:
参数空间构造模块81,根据多个预设人体图像参数,构造参数空间。
目标解码器获取模块82,基于上述参数空间,训练预设变分自动编码器,获得目标解码器。
向量变量输入模块83,分别获取多个第一向量变量和一第二向量变量。上述第一向量变量的数量与上述预设人体图像参数的数量相同。
三维人体模型生成模块84,根据上述目标解码器和上述第一向量变量,生成三维人体模型。以及
二维人体图像生成模块85,根据上述第二向量变量,对上述三维人体模型进行模仿渲染,获得二维的目标人体图像。
可以理解的是,本发明的人体图像生成系统还包括其他支持人体图像生成系统运行的现有功能模块。图7显示的人体图像生成系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本实施例中的人体图像生成系统用于实现上述的人体图像生成的方法,因此对于人体图像生成系统的具体实施步骤可以参照上述对人体图像生成的方法的描述,此处不再赘述。
如图8所示,本发明另一实施例还公开了一种人体图像生成系统9。该系统在上述图7对应实施例的基础上,三维人体模型生成模块84可以包括:
中间参数值获取单元841,将各个第一向量变量分别作为目标解码器的输入,获得多个中间参数值。
中间参数值输入渲染单元842,将上述中间参数值输入渲染器,生成三维人体模型。
本发明另一实施例还公开了一种人体图像生成系统,该系统在上述图7对应实施例的基础上,二维人体图像生成模块85包括:
二维初始图像生成单元851,根据上述第二向量变量,对上述三维人体模型进行模仿渲染,生成二维初始图像。以及
循环迭代单元852,根据身份一致性损失函数、关键点一致性损失函数和衣物一致性损失函数,计算二维初始图像和三维人体模型之间的损失,并不断循环,生成二维的目标人体图像。
可选地,如图9所示,在一些实施例中,上述二维初始图像生成单元851可以包括:
向量值更改单元8511,改变上述多个第一向量变量中的一个第一向量变量对应的值,以获得变化前的第一向量变量和变化后的第一向量变量。
第一生成单元8512,根据变化前的第一向量变量,生成第一二维人体图像;以及根据变化后的第一向量变量,生成第二二维人体图像。
流场计算单元8513,根据上述变化前的第一向量变量和变化后的第一向量变量,计算得到流场。
第二生成单元8514,根据第一二维人体图像和上述流场,计算得到第三二维人体图像。
绝对值损失函数确定单元8515,基于上述第三二维人体图像和第二二维人体图像之间的差异,确定绝对值损失函数。
以及预设生成器训练单元8516,根据上述绝对值损失函数,对预设生成器模型进行训练,获得训练完成的预设生成器模型。
本发明一实施例还公开了一种人体图像生成设备,包括处理器和存储器,其中存储器存储有所述处理器的可执行程序;处理器配置为经由执行可执行程序来执行上述人体图像生成方法中的步骤。图10是本发明公开的人体图像生成设备的结构示意图。下面参照图10来描述根据本发明的这种实施方式的电子设备600。图10显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述人体图像生成方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明还公开了一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述人体图像生成方法中的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述人体图像生成方法中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,首先基于训练好的VAE解码器,将输入的第一向量变量映射至人体参数空间,渲染器基于人体参数生成对应的3D人体模型;然后在多种模拟损失的监督下,生成器尽可能的模仿渲染得到的3D人体模型,基于第二向量变量生成2D人体图像,实现生成任意姿态的人体图像。
本发明一实施例公开了一种计算机可读存储介质。该存储介质是实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例提供的人体图像生成方法、系统、设备及存储介质首先基于训练好的VAE解码器,将输入的第一向量变量映射至人体参数空间,渲染器基于人体参数生成对应的3D人体模型;然后在多种模拟损失的监督下,生成器尽可能的模仿渲染得到的3D人体模型,基于输入的第二向量变量生成2D人体图像,实现生成任意姿态的人体图像;
另一方面,本发明将影响人体姿态生成的特征因子解耦合,实现改变单一特征因子,保持其他特征因子不变时,生成的人体姿态图像上的差异仅与该特征因子有关,保证了人体姿态生成的精确可控。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (13)

1.一种人体图像生成方法,其特征在于,包括以下步骤:
根据多个预设人体图像参数,构造参数空间;
基于所述参数空间,训练预设变分自动编码器,获得目标解码器;
分别获取多个第一向量变量和一第二向量变量;所述第一向量变量的数量与所述预设人体图像参数的数量相同;
根据所述目标解码器和所述第一向量变量,生成三维人体模型;以及
根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像。
2.如权利要求1所述的人体图像生成方法,其特征在于,所述基于所述参数空间,训练预设变分自动编码器,获得目标解码器,包括:
基于所述参数空间,对预设变分自动编码器进行训练;
将训练完成的预设变分自动编码器中的编码器丢弃,仅保留所述预设变分自动编码器中的解码器,作为目标解码器。
3.如权利要求1所述的人体图像生成方法,其特征在于,所述根据所述目标解码器和所述第一向量变量,生成三维人体模型,包括:
将各个所述第一向量变量分别作为所述目标解码器的输入,获得多个中间参数值;以及
将所述中间参数值输入渲染器,生成三维人体模型;所述渲染器包括预设参数化人体模型以及典型服装模型。
4.如权利要求1所述的人体图像生成方法,其特征在于,所述根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像,包括:
根据所述第二向量变量,对所述三维人体模型进行模仿渲染,生成二维初始图像;
根据身份一致性损失函数、关键点一致性损失函数和衣物一致性损失函数,计算所述二维初始图像和所述三维人体模型之间的损失,并不断循环,生成二维的目标人体图像。
5.如权利要求1所述的人体图像生成方法,其特征在于,所述根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像,包括:
将所述第二向量变量作为训练完成的预设生成器模型的输入,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像。
6.如权利要求5所述的人体图像生成方法,其特征在于,所述根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像,包括:
改变所述多个第一向量变量中的一个第一向量变量对应的值,以获得变化前的第一向量变量和变化后的第一向量变量;
根据所述变化前的第一向量变量,生成第一二维人体图像;以及根据所述变化后的第一向量变量,生成第二二维人体图像;
根据所述变化前的第一向量变量和变化后的第一向量变量,计算得到流场;
根据第一二维人体图像和所述流场,计算得到第三二维人体图像;
基于所述第三二维人体图像和所述第二二维人体图像之间的差异,确定绝对值损失函数;以及
根据所述绝对值损失函数,对预设生成器模型进行训练,获得训练完成的预设生成器模型。
7.如权利要求4所述的人体图像生成方法,其特征在于,所述身份一致性损失函数为:
其中,L1表示身份一致性损失值,fid(x)表示根据训练好的目标再识别网络在所述二维初始图像中提取到的身份特征;表示根据训练好的目标再识别网络在所述三维人体模型中提取到的身份特征;/>表示fid(x)与/>之间的相似度,τ表示预设超参数。
8.如权利要求4所述的人体图像生成方法,其特征在于,所述关键点一致性损失函数为:
其中,L2表示关键点一致性损失值,p(x)表示根据训练好的关键点识别网络在所述二维初始图像中提取到的关键点;表示根据训练好的关键点识别网络在所述三维人体模型中提取到的关键点;/>表示p(x)与/>之间的欧式距离。
9.如权利要求4所述的人体图像生成方法,其特征在于,所述衣物一致性损失函数为:
其中,L3表示衣物一致性损失值,fc(x)表示根据训练好的服饰识别网络在所述二维初始图像中提取到的服饰特征;表示根据训练好的服饰识别网络在所述三维人体模型中提取到的服饰特征;/>表示fc(x)与/>之间的相似度,τ表示预设超参数。
10.如权利要求1所述的人体图像生成方法,其特征在于,所述预设人体图像参数为人体形状参数、姿态参数或者衣物参数。
11.一种人体图像生成系统,用于实现如权利要求1所述的人体图像生成方法,其特征在于,所述系统包括:
参数空间构造模块,根据多个预设人体图像参数,构造参数空间;
目标解码器获取模块,基于所述参数空间,训练预设变分自动编码器,获得目标解码器;
向量变量输入模块,分别获取多个第一向量变量和一第二向量变量;所述第一向量变量的数量与所述预设人体图像参数的数量相同;
三维人体模型生成模块,根据所述目标解码器和所述第一向量变量,生成三维人体模型;以及
二维人体图像生成模块,根据所述第二向量变量,对所述三维人体模型进行模仿渲染,获得二维的目标人体图像。
12.一种人体图像生成设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行程序;
其中,所述处理器配置为经由执行所述可执行程序来执行权利要求1至10中任意一项所述人体图像生成方法的步骤。
13.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至10中任意一项所述人体图像生成方法的步骤。
CN202211228947.9A 2022-10-09 2022-10-09 人体图像生成方法、系统、设备及存储介质 Active CN115482557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211228947.9A CN115482557B (zh) 2022-10-09 2022-10-09 人体图像生成方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211228947.9A CN115482557B (zh) 2022-10-09 2022-10-09 人体图像生成方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115482557A CN115482557A (zh) 2022-12-16
CN115482557B true CN115482557B (zh) 2023-11-17

Family

ID=84394736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211228947.9A Active CN115482557B (zh) 2022-10-09 2022-10-09 人体图像生成方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115482557B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116959109A (zh) * 2023-07-21 2023-10-27 蚂蚁区块链科技(上海)有限公司 人体姿态图像的生成方法、装置、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021190321A1 (zh) * 2020-03-27 2021-09-30 虹软科技股份有限公司 图像处理方法和装置
CN113538608A (zh) * 2021-01-25 2021-10-22 哈尔滨工业大学(深圳) 基于生成对抗网络的可控人物图像生成方法
CN113689578A (zh) * 2020-05-15 2021-11-23 杭州海康威视数字技术股份有限公司 一种人体数据集生成方法及装置
CN113781640A (zh) * 2021-09-27 2021-12-10 华中科技大学 基于弱监督学习的三维人脸重建模型建立方法及其应用
CN114266860A (zh) * 2021-12-22 2022-04-01 西交利物浦大学 三维人脸模型建立方法、装置、电子设备及存储介质
CN114463511A (zh) * 2021-12-16 2022-05-10 浙江工业大学 一种基于Transformer解码器的3D人体模型重建方法
CN114529940A (zh) * 2022-01-19 2022-05-24 华南理工大学 基于姿态引导的人体图像生成方法
CN114782610A (zh) * 2022-04-25 2022-07-22 北京影数科技有限公司 一种结合神经纹理的可操控3d人脸重建方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021190321A1 (zh) * 2020-03-27 2021-09-30 虹软科技股份有限公司 图像处理方法和装置
CN113689578A (zh) * 2020-05-15 2021-11-23 杭州海康威视数字技术股份有限公司 一种人体数据集生成方法及装置
CN113538608A (zh) * 2021-01-25 2021-10-22 哈尔滨工业大学(深圳) 基于生成对抗网络的可控人物图像生成方法
CN113781640A (zh) * 2021-09-27 2021-12-10 华中科技大学 基于弱监督学习的三维人脸重建模型建立方法及其应用
CN114463511A (zh) * 2021-12-16 2022-05-10 浙江工业大学 一种基于Transformer解码器的3D人体模型重建方法
CN114266860A (zh) * 2021-12-22 2022-04-01 西交利物浦大学 三维人脸模型建立方法、装置、电子设备及存储介质
CN114529940A (zh) * 2022-01-19 2022-05-24 华南理工大学 基于姿态引导的人体图像生成方法
CN114782610A (zh) * 2022-04-25 2022-07-22 北京影数科技有限公司 一种结合神经纹理的可操控3d人脸重建方法及系统

Also Published As

Publication number Publication date
CN115482557A (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
Skorokhodov et al. Stylegan-v: A continuous video generator with the price, image quality and perks of stylegan2
CN110717977B (zh) 游戏角色脸部处理的方法、装置、计算机设备及存储介质
Li et al. Monocular real-time volumetric performance capture
Lassner et al. A generative model of people in clothing
CN108961369B (zh) 生成3d动画的方法和装置
CN111260764B (zh) 一种制作动画的方法、装置及存储介质
CN110288681B (zh) 角色模型的蒙皮方法、装置、介质及电子设备
CN114067057A (zh) 一种基于注意力机制的人体重建方法、模型、装置
CN115482557B (zh) 人体图像生成方法、系统、设备及存储介质
Caliskan et al. Multi-view consistency loss for improved single-image 3d reconstruction of clothed people
CN113593001A (zh) 目标对象三维重建方法、装置、计算机设备和存储介质
Deng et al. Plausible 3d face wrinkle generation using variational autoencoders
CN113706577A (zh) 一种图像处理方法、装置和计算机可读存储介质
Liang et al. Machine learning for digital try-on: Challenges and progress
CN112966390B (zh) 基于双重三维距离场的衣服处理方法以及装置
Xue et al. Nsf: Neural surface fields for human modeling from monocular depth
Kim et al. NCHO: Unsupervised learning for neural 3d composition of humans and objects
Fan et al. HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video
CN116777738A (zh) 基于服装区域对齐和风格保持调制的真实性虚拟试穿方法
Song et al. Joint sparse learning for 3-D facial expression generation
CN116485962A (zh) 一种基于对比学习的动画生成方法及系统
Fu et al. State-of-the-art in 3D face reconstruction from a single RGB image
Huang et al. Detail-preserving controllable deformation from sparse examples
Goel et al. Interaction Mix and Match: Synthesizing Close Interaction using Conditional Hierarchical GAN with Multi‐Hot Class Embedding
Zhu et al. Semi-supervised eye makeup transfer by swapping learned representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant