CN117413299A - 用于人体3d形状和外观建模的神经辐射场骨骼绑定 - Google Patents
用于人体3d形状和外观建模的神经辐射场骨骼绑定 Download PDFInfo
- Publication number
- CN117413299A CN117413299A CN202180098681.8A CN202180098681A CN117413299A CN 117413299 A CN117413299 A CN 117413299A CN 202180098681 A CN202180098681 A CN 202180098681A CN 117413299 A CN117413299 A CN 117413299A
- Authority
- CN
- China
- Prior art keywords
- image
- appearance
- truth
- feature
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural effect Effects 0.000 title description 15
- 210000000988 bone and bone Anatomy 0.000 title description 4
- 230000005855 radiation Effects 0.000 title description 4
- 238000009877 rendering Methods 0.000 claims abstract description 32
- 230000015654 memory Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 123
- 238000000034 method Methods 0.000 claims description 49
- 238000005070 sampling Methods 0.000 claims description 14
- 241001465754 Metazoa Species 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000031700 light absorption Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000037237 body shape Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 241001302210 Sida <water flea> Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/06—Ray-tracing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2021—Shape modification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Architecture (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
一种图像变形装置(700)包括处理器(701)和以非瞬时性形式存储数据的存储器,其中,所述数据定义可由所述处理器(701)执行的用以实现图像变形模型(400)的程序代码。所述装置(700)用于:接收输入图像(401);从所述输入图像(401)中提取特征(401a)的排列参数(402);从所述输入图像(401)中提取所述特征(401a)的外观参数(403);通过修改所述特征(401a)中的至少一个点的位置,生成变形后的排列参数(404);根据所述变形后的排列参数(404)和所述外观参数(403),渲染输出图像(405),其中,所述输出图像(405)包括与所述特征(401a)对应的变形后的特征(405a)。所述装置可以控制所述输出图像(405)中的所述变形后的特征(405a)的排列,同时保持所述输入图像(401)中的所述特征(401a)的整体外观。
Description
技术领域
本发明涉及图像变形,以控制具有新姿势的图像,等等。
背景技术
图像变形可以使现有图像被修改、操作和控制,以用于各种应用。
图1示出了进行示例性图像变形过程的示例性输入图像。输入图像101可以包括身体等特征。身体可以是人体,也可以是动物体。在图1中,身体是人体。身体可以包括排列和外观等特征。如图1所示,排列可以是一种姿势,例如,手臂悬空。外观可以是人体的衣服或面部表情。典型特征可以从输入图像101中提取,然后输入到学习到的模型102中。
图2示出了输入图像中的示例性特征。特征的排列可以通过形状模型201进行建模,并且通过姿势控制202进行控制。特征的外观可以通过外观模型203进行建模。
在保持整体外观的同时使身体的排列变形可能是有利的。例如,修改人体的姿势使得双臂悬空,同时还保持人体的整体外观可能是有利的。如果在输入图像中还不知道这个姿势,则这个姿势可以称为新姿势。
图3示出了图像变形的示例性实现方式。图像变形可以在虚拟现实(virtualreality,VR)或增强现实(augmented reality,AR)301、游戏和头像302、虚拟试穿303中实现。
众所周知,图像变形会使人体3D表示变形,例如,通过蒙皮多人线性人体模型(skinned multi-person linear body model,SMPL)或稀疏训练的关节人体回归器(sparse trained articulated human body regressor,STAR)。这些生成形状模型可以对姿势和形状进行可解释控制。
最近,神经渲染(Neural Rendering,NeRF)已经成为一个热门的研究话题。基于NeRF的方法可以提供高渲染质量,并且可以实现照片级真实感的新视角合成。
SMPL和STAR以及NeRF在需要控制特征的新姿势时可能会出现问题。这些问题可能源于:(i)体积外观表示,(ii)可控形状表示,(iii)根据2D图像、初始混合形状和相机参数进行3D重建的能力,(iv)可微渲染能力。在尝试组合这些能力时,也可能出现问题。
组合这些能力对于VR/AR 301、游戏和头像302、虚拟试穿303这些实现方式可能是有利的。
Ben Mildenhall、Pratul P.Srinivasan、Matthew Tancik、Jonathan T.Barron、Ravi Ramamoorthi、Ren Ng.在2020ECCV[NeRF]中发表的NeRF:Representing Scenes asNeural Radiance Fields for View Synthesis(NeRF:将场景表示为视角合成的神经辐射场)公开了一种高质量的基于神经网络的可微渲染器。渲染器可以从具有已知相机参数的一组图像中重建体积3D表示。这种渲染器专注于控制学习到的3D物体(例如,改变人体的姿势),而不是重建刚性场景。
Park,Keunhong、Sinha,Utkarsh、Barron,Jonathan T.、Bouaziz,Sofien、Goldman,Dan B、Seitz,Steven M.、Martin-Brualla,Ricardo在arXiv:2011.12948 2020[DNeRF]中发表的Deformable Neural Radiance Fields(可变形的神经辐射场)公开了一种系统,其重点关注于首先使3D体积变形,然后将投射光线中的3D点输入到NeRF中,以此从一组图像中重建可变形场景,而不是控制学习到的3D物体(例如,改变人体的姿势)。
Loper,Matthew、Mahmood,Naureen、Romero,Javier、Pons-Moll,Gerard、Black,Michael J.在2015亚洲SIGGRAPH上发表的SMPL:A Skinned Multi-Person Linear Model(SMPL:蒙皮多人线性模型)和Osman,Ahmed A、Bolkart,Timo、Black,Michael J.在2020ECCV上发表的STAR:A Sparse Trained Articulated Human Body Regressor(STAR:稀疏训练的关节人体回归器)公开了一种用于表示3D人体的基于生成式网格的可控混合形状模型。该模型使用人体的3D扫描而不是外观表示来训练。
Peng,Sida、Zhang,Yuanqing、Xu,Yinghao、Wang,Qianqian、Shuai,Qing、Bao,Hujun、Zhou,Xiaowei在2021CVPR上发表的Neural Body:Implicit NeuralRepresentations with Structured Latent Codes for Novel View Synthesis ofDynamic Humans(神经身体:用于动态人体的新视角合成的具有结构化潜在代码的隐式神经表示)公开了NERF和SMPL模型的组合。上述系统重点关注于使3D体积从变形后的空间变形到规范空间,然后将3D点输入到NeRF中,变形取决于SMPL参数,而不是在学习外观模型之后保留控制人体3D模型的能力。
Saito,Shunsuke、Simon,Tomas、Saragih,Jason、Joo,Hanbyul在2020CVPR上发表的PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3DHuman Digitization(PIFuHD:用于高分辨率3D人体数字化的多层次像素对齐隐式函数)公开了从对齐的2D/3D训练样本中学习由粗到细的隐函数,其中,在输入单张RGB图像的情况下,隐函数可以预测空间中任意点的3D占用率。这种方法重点关注于通过对3D空间进行密集采样并在推理时使用移动立方体算法,生成输入人体的高质量、像素对齐的3D模型。然而,输出是一个刚性3D网格,可能无法对该刚性3D网格进行骨骼绑定(rig)和做新的姿势。
Huang,Zeng、Xu,Yuanlu、Lassner,Christoph、Li,Hao、Tung,Tony在2020CVPR上发表的Arch:Animatable reconstruction of clothed humans(Arch:穿衣人体的动画重建)公开了训练语义变形场,从而学习了输入图像空间和规范姿势空间之间的对应关系。隐函数在语义变形场的后面,该隐函数在规范空间中重建骨骼绑定的3D人体。在训练过程中,可微渲染器可以用于改进颜色和法线估算。然而,重建后的3D人体的身体部位是刚性的,并且可能不会真实地变形,因为在推理过程中仅使用3D网格的经典渲染。
使用视频流输入的CN 110033405 A公开了使用姿势网络和mocap来获取稳定的姿势序列。接下来,使用条件GAN从自定义虚拟演员的输入中生成视频。然而,上述系统可能不重点关注于对人体姿势和形状的详细控制,因此渲染质量和鲁棒性也可能受到限制。
WO 2020/228322 A1公开了接收3D局部人体模型的骨架参数调整信息作为输入。然后,上述系统可以根据这些信息调整骨架参数。最后,上述系统根据调整后的骨架参数生成3D局部人体模型。然而,上述系统可能不重点关注于对人体姿势和形状的详细控制,因此渲染质量可能较差。
CN 111354079 A公开了接收2D面部图像输入。3D面部重建网络用于提取3D面部特征。然后,上述系统使用渲染器模拟网络来生成虚拟人脸。最后,上述系统使用脸部一致性网络来计算虚拟脸部与2D脸部图像相比的损失。上述系统可能不重点关注于对人体姿势和形状的可解释控制,因此渲染质量可能不真实。
希望提出一种解决上述问题的装置和方法。
发明内容
根据第一方面,提供了一种图像变形装置。所述装置包括一个或多个处理器和以非瞬时性形式存储数据的存储器,其中,所述数据定义可由所述一个或多个处理器执行的用以实现图像变形模型的程序代码,所述装置用于:接收输入图像;从所述输入图像中提取特征的排列参数,其中,每个排列参数定义所述特征中的点的位置;从所述输入图像中提取所述特征的外观参数,其中,每个外观参数定义所述特征中的点的外观信息;通过修改所述特征中的至少一个点的位置,生成变形后的排列参数;根据所述变形后的排列参数和所述外观参数,渲染输出图像,其中,所述输出图像包括与所述特征对应的变形后的特征。
通过根据变形后的排列参数和输入图像的外观参数,渲染包括变形后的特征的输出图像,这样可以控制输出图像的排列,同时保持输入图像中的特征的整体外观。这可能是有利的,因为姿势或形状等排列可以根据装置的需要修改,同时保持特征的整体外观。这可能会导致无缝输出图像渲染,这对于观看者来说,准确地对应于输入图像的外观,同时可以对排列进行修改或操作。
在一些实现方式中,所述一个或多个处理器用于通过从所述输出图像中的像素投射光线,渲染所述输出图像,其中,所述变形后的特征的位置由所述变形后的排列参数定义,所述像素的外观由所述外观参数定义。
通过从输出图像中的像素投射光线,其中,变形后的特征的位置由变形后的排列定义,这样可以将输出图像中的变形后的特征准确放置在变形后的位置上。换句话说,排列参数可以提供一种映射方式,这种映射方式决定了变形后的特征。例如,人体手臂可以准确地变形到新的位置。
类似地,通过从输出图像中的像素投射光线,其中,像素的外观由外观参数定义,这样可以将输出图像中的变形后的特征的外观与输入图像中的特征的外观相对应。
在一些实现方式中,所述一个或多个处理器用于:通过进一步修改所述特征中的至少一个点的位置,生成其它变形后的排列参数;根据所述其它变形后的排列参数和所述外观参数,渲染其它输出图像,其中,所述其它输出图像包括与所述特征对应的其它变形后的特征。
在一些实现方式中,所述一个或多个处理器用于通过从所述其它输出图像中的像素投射光线,渲染所述其它输出图像,其中,所述其它变形后的特征的位置由所述其它变形后的排列参数定义,所述像素的外观由所述外观参数定义。
通过进一步修改特征中的至少一个点的位置,这样可以将其它变形后的特征放置在与相同输入图像中的变形后的特征不同的位置上。这样就可以控制特征的变形。例如,如果特征是人体,则手臂可以移动到不同的位置上。
在一些实现方式中,所述一个或多个处理器用于使得所述特征包括人体或动物体。
通过使表示人体或动物体的特征变形,这样可以使上述装置能够在VR/AR、游戏和头像、虚拟试穿等中实现。
在一些实现方式中,所述一个或多个处理器用于使得所述排列参数表示所述特征的姿势。
通过配置排列参数表示姿势,这样可以使变形装置能够修改特征的姿势。
在一些实现方式中,所述一个或多个处理器用于使得所述排列参数表示所述特征的形状。
通过配置排列参数表示形状,这样可以使变形装置能够修改特征的形状,例如,通过增加高度或宽度来修改长宽比。
在一些实现方式中,所述一个或多个处理器用于使得所述外观参数包括所述特征中的像素的颜色。
通过配置外观参数配置包括特征中的像素的颜色,这样可以将输出图像中的变形后的特征的颜色与输入图像中的特征的颜色相对应。换句话说,对于观看者来说,整个输出图像可以包括与输入图像相同的颜色。
在一些实现方式中,所述一个或多个处理器用于使得所述外观参数包括所述特征中的像素的密度。
通过配置外观参数配置包括特征中的像素的密度,这样可以将输出图像中的变形后的特征的密度与输入图像中的特征的密度相对应。换句话说,对于观看者来说,整个输出图像可以包括与输入图像相同的体积中的光吸收率。
在一些实现方式中,所述一个或多个处理器用于:对至少一个后续输入图像重复根据上述权利要求中任一项所述的步骤,以渲染对应的后续输出图像;根据所述至少两个输出图像渲染3D输出图像。
在一些实现方式中,所述一个或多个处理器用于使得所述输出图像和所述后续输出图像是2D图像,并且包括不同视点下的相同变形后的特征。
在一些实现方式中,所述一个或多个处理器用于通过数值积分根据所述至少两个输出图像渲染所述3D输出图像。
通过对输入图像重复这些步骤,这样可以使装置能够渲染、组合或集成输出图像以形成3D输出图像。这样,3D输出图像可以包括变形后的特征。上述装置还可以提供用于接收3D输入图像、分解成2D输入图像和输出组合用于形成输出3D图像的2D图像的构件。
根据第二方面,提供了一种用于使图像变形的方法。所述方法包括:接收输入图像;从所述输入图像中提取特征的排列参数,其中,每个排列参数定义所述特征中的点的位置;从所述输入图像中提取所述特征的外观参数,其中,每个外观参数定义所述特征中的点的外观信息;通过修改所述特征中的至少一个点的位置,生成变形后的排列参数;根据所述变形后的排列参数和所述外观参数,渲染输出图像,其中,所述输出图像包括与所述特征对应的变形后的特征。
通过根据变形后的排列参数和输入图像的外观参数,渲染包括变形后的特征的输出图像,这样可以控制输出图像的排列,同时保持输入图像中的特征的整体外观。这可能是有利的,因为姿势或形状等排列可以根据装置的需要修改,同时保持特征的整体外观。这可能会导致无缝输出图像渲染,这对于观看者来说,准确地对应于输入图像的外观,同时可以对排列进行修改或操作。
根据第三方面,提供了一种用于训练图像变形模型的装置。所述装置包括一个或多个处理器,所述一个或多个处理器用于:接收真值图像;接收所述真值图像中的特征的真值排列参数,其中,每个真值排列参数定义所述特征中的点的位置;根据所述真值排列参数生成排列训练图像;根据所述真值图像和所述排列训练图像之间的比较,调整图像排列模型;接收所述真值图像中的所述特征的真值外观参数,其中,每个真值外观参数定义所述特征中的点的外观信息;根据所述真值外观参数生成外观训练图像;根据所述真值图像和所述外观训练图像之间的比较,调整图像外观模型;根据所述图像排列模型和所述图像外观模型,调整所述图像变形模型。
图像变形模型最好根据图像中的特征的排列和外观进行训练。这样,图像变形模型能够使输入图像中的特征的排列变形,同时保持特征的整体外观。通过根据图像排列模型和图像外观模型调整图像变形模型,这样使图像变形模型能够从图像排列模型和图像外观模型中学习。
在一些实现方式中,所述一个或多个处理器用于在生成所述外观训练图像之前调整所述图像排列模型。
通过在生成外观训练图像之前,因此在调整图像外观模型之前,调整图像排列模型,这样可以在训练图像外观模型之前通过最小化误差,优化图像排列模型。这样,两个模型的训练就不会相互干扰。
在一些实现方式中,所述一个或多个处理器用于通过自我监督网络调整所述图像排列模型。
通过提供自我监督网络,这样可以减少数据输入,从而可以提高训练时间。
在一些实现方式中,所述一个或多个处理器用于使得所述图像排列模型是生成模型。
通过提供生成模型,这样可以为反转网络提供任意大的、完美的训练集。
在一些实现方式中,所述一个或多个处理器用于通过从所述生成模型中随机采样,接收所述真值图像中的特征的真值排列参数。
在一些实现中,所述一个或多个处理器用于:接收所述真值图像中的特征的一组或多组后续真值排列参数;根据每组对应的后续真值排列参数生成后续排列训练图像;根据所述真值图像和每个后续排列训练图像之间的比较,调整所述图像排列模型。
在一些实现方式中,所述一个或多个处理器用于通过随机采样所述真值图像,接收所述真值图像中的特征的一组或多组后续真值排列参数,其中,每组后续真值排列参数与任一组先前真值排列参数不同。
通过接收各组后续真值排列参数,这样可以通过单个真值图像的多次迭代来训练图像排列模型。此外,通过从生成模型中随机采样来接收特征的真值排列参数,这样可以提供多样化的训练集,这种训练集可以更好地训练图像排列模型。
在一些实现方式中,所述一个或多个处理器用于:接收所述真值图像中的所述特征的一组或多组后续真值外观参数;根据每组对应的后续真值外观参数生成后续外观训练图像;根据所述真值图像和每个后续外观训练图像之间的比较,调整图像外观模型。
通过接收各组后续的真值外观参数,这样可以通过单个真值图像的多次迭代来训练图像外观模型。
在一些实现方式中,所述一个或多个处理器用于对一个或多个后续真值图像执行根据权利要求14至21中任一项所述的步骤,其中,所述一个或多个后续训练图像中的每个后续训练图像构成用于后续训练迭代的输入。
通过对一个或多个后续真值图像重复步骤以提供后续训练迭代,这样可以进一步训练图像变形模型。
根据第四方面,提供了一种用于训练图像变形模型的方法。所述方法包括:接收真值图像;接收所述真值图像中的特征的真值排列参数,其中,每个真值排列参数定义所述特征中的点的位置;根据所述真值排列参数生成排列训练图像;根据所述真值图像和所述排列训练图像之间的比较,调整图像排列模型;接收所述真值图像中的所述特征的真值外观参数,其中,每个真值外观参数定义所述特征中的点的外观信息;根据所述真外观参数生成外观训练图像;根据所述真值图像和所述外观训练图像之间的比较,调整图像外观模型;根据所述图像排列模型和所述图像外观模型,调整所述图像变形模型。
图像变形模型最好根据图像中的特征的排列和外观进行训练。这样,图像变形模型能够使输入图像中的特征的排列变形,同时保持特征的整体外观。通过根据图像排列模型和图像外观模型调整图像变形模型,这样使图像变形模型能够从图像排列模型和图像外观模型中学习。
附图说明
下面结合附图通过示例的方式对本发明进行描述。
图1示出了示例性输入图像在示例性图像变形过程中可能经历的阶段。
图2示出了输入图像中的示例性特征。
图3示出了图像变形的示例性实现方式。
图4是输入图像在示例性图像变形装置中可能经历的阶段的示意图。
图5是图像变形装置中使用的网络架构的示例性结构的示意图。
图6示出了用于使输入图像变形的示例性方法。
图7示出了用于执行本文中描述的方法的装置的一个示例。
图8是输入图像在示例性图像变形训练装置中可能经历的阶段的示意图。
图9示出了用于训练图像变形模型的示例性方法。
图10示出了一个示例性实施例提供的后合成和新视角输出图像。
具体实施方式
本文中描述的装置和方法涉及使用图像变形模型和训练所述图像变形模型。
通过根据变形后的排列参数和输入图像外观参数渲染包括变形后的特征的输出图像,本系统的实施例可以解决前面提到的一个或多个问题。这样就可以在保持输入图像中的特征的整体外观的同时控制输出图像中的变形后的特征的排列。
图4是输入图像在示例性图像变形装置中可能经历的阶段的示意图。
上述装置用于接收输入图像401。输入图像401包括输入图像特征401a。特征401a可以包括身体,例如,人体或动物体。通过身体特征401a,图像变形装置可以用于在VR/AR、游戏和头像、虚拟试穿等中实现。在这些实现方式中,身体上的手臂或腿等各个方面可能会变形以向观看者呈现动画身体表示。
上述装置用于从输入图像401中提取特征401a的排列参数402。可以存在多个或一组排列参数402。每个排列参数402定义特征401a中的点的位置。换句话说,提取排列参数402可以使装置能够定位特征401a在输入图像401上的多个位置。这在图4中使用与输入图像401中的特征401a对应的排列参数402中的虚线轮廓表示。
排列参数402可以表示特征401a的姿势。换句话说,可以组合特征401a中的点的位置来限定特征401a的姿势。例如,如果特征401a是人体,则位于手臂上的排列参数402的点可以表示人体手臂的姿势。这样,上述装置可以用于修改特征401a的姿势。使用上述示例,人体上的手臂可以从一个位置修改到另一个位置。
排列参数402可以另外或可选地表示特征401a的形状。换句话说,可以组合特征401a中的点的位置来限定特征401a的形状。例如,如果特征401a是人体,则位于身体上的排列参数402的点可以表示人体体形。这样,上述装置可以用于修改特征401a的形状。使用上述示例,可以修改人体躯干及其长宽比,以使人体变高、变矮、变薄或变宽,等等。
排列参数402可以通过一个或多个混合形状模型表示特征401a的排列。例如,混合形状模型可以包括蒙皮多人线性人体模型(skinned multi-person linear body model,SMPL)或稀疏训练的关节人体回归器(sparse trained articulated human bodyregressor,STAR)。
上述装置用于从输入图像401中提取特征401a的外观参数403。可以存在多个或一组外观参数403。每个外观参数403定义特征401a中的点的外观信息。换句话说,提取外观参数403可以使上述装置能够获取特征401a在输入图像401中的不同点的外观。这在图4中使用与输入图像401中的特征401a的实线对应的外观参数403中的实线表示。
外观参数403可以包括特征401a中的像素的颜色。换句话说,可以组合特征401a中的像素的颜色来呈现特征401a的外观。例如,如果特征401a是人体,则外观参数402可以包括人体服装或衣服的颜色。这样,上述装置可以用于在使排列变形之后重建特征401a的颜色。使用上述示例,对于观看者来说,衣服的颜色可以在输出图像中保持不变。
外观参数403可以包括特征401a中的像素的密度。换句话说,特征401a中的像素的密度可以限定特征401a的体积的光吸收率。例如,如果特征401a是人体,则外观参数402可以包括人体图像的密度。这样,上述装置可以用于在使排列变形之后重建特征401a的密度。使用上述示例,对于观看者来说,人体图像的密度可以在输出图像中保持不变。
外观参数403可以通过神经辐射场(Neural Radiance Field,NeRF)表示特征401a的外观。与传统技术相比,基于NeRF的外观模型可以实现更高质量的渲染。
上述装置用于使排列参数402变形,以生成变形后的排列参数404。变形包括修改特征401a中的至少一个点在输入图像401中的位置。换句话说,变形后的排列参数404至少与排列参数402略有不同。根据排列参数402中的点数,即提取排列参数402时的采样密度,可以修改特征401a中的多个点。被修改的点数可以取决于需要使特征401a变形的程度。例如,如图4所示,从下到上修改人体的手臂。在这个示例中,可能有大量的点需要修改,以表示手臂从一个位置移动到另一个位置。
上述装置用于渲染包括变形后的特征405a的输出图像405。变形后的特征405a对应于输入图像401中的特征401a。换句话说,变形后的特征405a对于观看者来说可以表示变形后的位置上的相同特征。例如,如图4所示,特征401a是手臂向下的人体。变形后的405a是手臂向上的同一个人体。
输出图像405的渲染以变形后的排列参数404和外观参数403渲染为依据。由于外观参数403与输入图像401有关,输出图像的整体外观可以对应于输入图像401,使得对于观看者来说,输出图像405包括与输入图像401中的特征401a相同的特征405a。由于变形后的排列参数404与输入图像401变形后的版本相关,输出图像405中的特征405a的排列是输入图像401中的特征401a变形后的版本。
通过根据变形后的排列参数404和输入图像401的外观参数渲染包括变形后的特征405a的输出图像405,这样可以控制输出图像405的排列,同时保持输入图像特征401a的整体外观。这可能是有利的,因为姿势或形状等排列可以根据装置的需要修改,同时保持特征401a的整体外观。这可以导致无缝渲染输出图像405,对于观看者来说,准确地对应于输入图像401的外观,同时可以对排列进行修改或操作。
上述装置可以用于通过从输出图像405中的像素投射光线来渲染输出图像405。变形后的特征405a的位置由变形后的排列参数404定义。换句话说,根据变形后的排列参数404控制变形后的特征405a在输出图像405上的位置。像素的外观由外观参数403定义。换句话说,根据外观参数403控制像素的外观,即颜色和/或密度。
通过从输出图像405中的像素投射光线,其中,变形后的特征405a的位置由变形后的排列参数404定义,这样可以将输出图像405中的变形后的特征405a准确放置在变形后的位置上。换句话说,排列参数可以提供变形后的特征405a的映射。例如,人体手臂可以准确地变形到新的位置。
类似地,通过从输出图像405中的像素投射光线,其中,像素的外观由外观参数403定义,这样可以将输出图像405中的变形后的特征的外观与输入图像401中的特征的外观相对应。
上述装置可以用于通过进一步修改特征401a中的至少一个点的位置来生成其它变形后的排列参数404。换句话说,上述装置可以从相同的输入图像401以不同的方式使排列参数402变形,即变形到特征401a的不同姿势或形状。
上述装置还可以根据其它变形后的排列参数404和外观参数403渲染其它输出图像405,其中,其它输出图像405包括与特征401a对应的其它变形后的特征405a。换句话说,上述装置可以渲染与相同输入图像401对应但具有不同排列下的变形后的特征405a的不同输出图像405。
通过进一步修改特征401a中的至少一个点的位置,这样可以将其它变形后的特征405a放置在与相同输入图像401中的变形后的特征不同的位置上。这样就可以控制特征401a的变形。例如,如果特征是人体,则手臂可以移动到不同的位置上。如果对多个其它输出图像405重复该过程,则这样可以为视频输出提供帧,其中,特征可以移动到多个排列。例如,人体手臂可以上下摆动。这样可以使上述装置能够在VR/AR 301、游戏和头像302、虚拟试穿303中实现。
上述装置可以用于对至少一个后续输入图像401重复图4中所示的步骤,以渲染对应的后续输出图像404。换句话说,多个输入图像401可以输入到上述装置中。多个输入图像401可以包括不同视点下的相同特征401a。换句话说,多个输入图像401可以是2D图像,并且可以通过分解2D输入图像来生成。
上述装置可以用于输出与多个输入图像401对应的多个输出图像405。因此,多个输出图像405可以包括相同或不同的变形后的特征405a。如果输出图像405包括相同的变形后的特征405a,则可以组合2D输出图像以形成3D输出图像。可以通过对2D输出图像405进行数值积分来渲染3D输出图像。
图5是图像变形装置中使用的网络架构的示例性结构的示意图。
从给定的相机视点来看,光线可以对应于输出图像501中的每个像素投射。对于每个光线,点502、503可以沿着变形后的体积中的光线采样。
图像变形装置网络架构500可以包括逆变形模型InvNet 504,优选是神经网络。InvNet504可以用于使3D点502、503变形回规范体积。等式1表示通过InvNet 504执行的过程。变形后的体积中的3D点表示为y,混合形状参数表示为p。
x=InvNet(y,p) (1)
稀疏训练的关节人体回归器(sparse trained articulated human bodyregressor,STAR)模型508用于进一步将p分离为姿势和形状排列参数402。优选地,InvNet504能够将混合形状模型反转到规范域。上述表示可以用作关节(控制)人体的可微渲染器。这样可以通过将误差从2D图像反向传播到混合形状参数来提供细粒度的3D重建和姿势估计。等式2表示通过STAR模型508执行的过程。
y=STAR(x,p) (2)
规范体积507中的点505、506可以输入到神经渲染网络(neural renderingnetwork,NeRF)509中,NeRF 509估计点505、506的密度s和颜色值c。等式3表示通过示NeRF网络执行的过程。光线方向表示为d。点的颜色可能取决于光线方向。
s,c=NeRF(x,d) (3)
NeRF网络还可以将光线方向510用作输入,因为颜色值可以与视角有关。数值积分方法可以用于将每个3D点对像素颜色的贡献值相加。等式4和等式5表示在积分中执行的过程。下标表示采样后的3D点密度的索引和沿光线r的颜色值。t表示连续点之间的距离。由于x坐标取决于使用InvNet对y的反转,像素颜色C可能取决于r和p。
在推理过程中,上述装置可以使用训练过的InvNet和NeRF网络,通过从这些视点投射光线,从任意姿势p和任意视点渲染人体或其它身体,并且对光线执行渲染过程。
图6概述了用于使图像变形的方法600的一个示例。在步骤601中,方法600包括:接收输入图像。在步骤602中,方法600包括:从所述输入图像中提取特征的排列参数,其中,每个排列参数定义所述特征中的点的位置。在步骤603中,方法600包括:从所述输入图像中提取所述特征的外观参数,其中,每个外观参数定义所述特征中的点的外观信息。在步骤604中,方法600包括:通过修改所述特征中的至少一个点的位置,生成变形后的排列参数。在步骤605中,方法600包括:根据所述变形后的排列参数和所述外观参数,渲染输出图像,其中,所述输出图像包括与所述特征对应的变形后的特征。
图7是用于实现本文中描述的方法的装置700的一个示例的示意图。装置700可以在笔记本电脑、平板电脑、智能手机或TV等电子设备上实现。
装置700包括处理器701,处理器701用于以本文中描述的方式处理数据集。例如,处理器701可以实现为运行在中央处理器(Central Processing Unit,CPU)等可编程设备上的计算机程序。装置700包括存储器702,存储器702用于与处理器701进行通信。存储器702可以是非易失性存储器。处理器701还可以包括高速缓存(图7中未示出),该高速缓存可以用于临时存储存储器702中的数据。装置700可以包括一个以上处理器701和一个以上存储器702。存储器702可以存储可由处理器701的数据。处理器701可以用于根据以非瞬时性形式存储在机器可读存储介质中的计算机程序进行操作。计算机程序可以存储指令,以使得处理器701以本文中描述的方式执行其方法。
具体地,变形装置701可以包括一个或多个处理器,例如,处理器701,以及以非瞬时性形式存储数据的存储器702,其中,数据定义可由一个或多个处理器执行的用以实现图像变形模型的程序代码。所述图像变形装置可以接收输入图像。所述图像变形装置可以从所述输入图像中提取特征的排列参数,其中,每个排列参数定义所述特征中的点的位置。所述图像变形装置可以从所述输入图像中提取所述特征的外观参数,其中,每个外观参数定义所述特征中的点的外观信息。所述图像变形装置可以通过修改所述特征中的至少一个点的位置,生成变形后的排列参数。所述图像变形装置可以根据所述变形后的排列参数和所述外观参数,渲染输出图像,其中,所述输出图像包括与所述特征对应的变形后的特征。
图8是输入图像在示例性图像变形训练装置中可能经历的阶段的示意图。
上述装置用于接收真值图像801。真值图像801包括真值图像特征801a。特征801a可以包括身体,例如,人体或动物体。通过身体特征801a,上述图像变形训练装置可以用于在VR/AR、游戏和头像、虚拟试穿等中实现。在这些实现方式中,身体上的手臂或腿等各个方面可能会变形以向观看者呈现动画身体表示。
上述装置用于接收真值图像801中的特征801a的真值排列参数802。可以存在多个或一组真值排列参数802。每个真值排列参数802定义特征801a中的点的位置。换句话说,真值排列参数802可以为上述装置提供特征801a在真值图像801上的多个位置。这在图8中使用与真值图像801中的特征801a对应的真值排列参数802中的虚线轮廓表示。
真值排列参数802可以表示特征801a的姿势。换句话说,可以组合特征801a中的点的位置来限定特征801a的姿势。例如,如果特征801a是人体,则位于手臂上的真值排列参数802的点可以表示人体手臂的姿势。这样,上述装置可以用于学习特征801a的姿势。使用上述示例,可以学习人体手臂的位置。
真值排列参数802可以另外或可选地表示特征801a的形状。换句话说,可以组合特征801a中的点的位置来限定特征801a的形状。例如,如果特征801a是人体,则位于身体上的真值排列参数802的点可以表示人体体形。这样,上述装置可以用于学习特征801a的形状。使用上述示例,可以学习人体躯干及其长宽比。
真值排列参数802可以通过一个或多个混合形状模型表示特征801a的排列。例如,混合形状模型可以包括蒙皮多人线性人体模型(skinned multi-person linear bodymodel,SMPL)或稀疏训练的关节人体回归器(sparse trained articulated human bodyregressor,STAR)。
上述装置用于根据真值排列参数802生成排列训练图像803。换句话说,上述装置可以使用由真值排列参数802定义的位置来定位排列训练图像803中的特征803a。排列训练图像803可以通过图像排列模型804生成。如图8中的示意性示例所示,排列训练图像803中的特征803a可以不放置在绝对正确的位置上(图8通过位于错误位置上的手臂表示这一点,技术人员可以理解其它误差)。然而,随着图像排列模型804的训练,排列训练图像803中的特征803a的定位可能会变得更加准确。
上述装置用于根据真值图像801和排列训练图像803之间的比较,调整图像排列模型804。如本文所述,排列训练图像803中的特征803a可以排列在绝对正确的位置上。真值图像801中的特征801a和排列训练图像803中的特征803a之间的差异可以用于上述比较。根据差异,图像排列模型804可以用于更好地生成排列训练图像803。
优选地,上述装置用于通过自我监督网络调整图像排列模型804。通过提供自我监督网络,这样可以减少数据输入,从而可以提高训练时间。
此外,优选地,上述装置用于使得图像排列模型804是生成模型。通过提供生成模型,这样可以为反转网络提供任意大的、完美的训练集。
优选地,上述装置用于通过从生成模型中随机采样,接收真值图像中的特征的真值排列参数802。通过从生成模型中随机采样,接收特征801a的真值排列参数802,这样可以提供多样化的训练集,这种训练集可以更好地训练图像排列模型804。
图像排列模型804可以包括逆变形模型InvNet 504,如图5所示。可以训练神经网络InvNet来反转可控制的人体形状模型。具体地,网络可以将变形后和摆好姿势的3D坐标映射回规范3D体积。网络输入可以是变形后的3D坐标和混合形状参数,而输出是规范姿势中的3D坐标。
逆变形网络的目标是反转混合形状模型。在这个示例性实施例中,混合形状模型是STAR 508。混合形状模型从分析的角度看可能是不可反转的。因此,可以训练神经网络以反转混合形状模型。可以最小化等式6以在混合形状模型中反转。
混合形状参数表示为p。可以最小化InvNet神经网络的参数。目标使用估计点x'和地面真值点x之间的L2范数的期望值来表示。在实践中,可以最小化采样后的3D点和混合形状参数。优选的是,混合形状模型是生成模型,使得x和p都被随机采样,以获得任意大的训练集。3D点可以从混合形状模型的网格表面均匀采样,而p可以根据高斯分布进行采样。在这种实现方式中,在线进行采样。换句话说,数据生成发生在训练过程中。因此,事先不会生成和存储训练数据。
还优选的是,在训练过程中,每个训练样本只使用一次,因此原则上泛化误差可以基本上为零。因此,如果获得的目标值很低,则可以断定InvNet表现良好。在这种实现方式中,模型不会将变形网络过拟合到一组特定的输入图像。这样就可以在新的实例中控制形状和姿势。
如图5所示,网络架构设计可以利用混合形状模型的设计,并且支持更好的反转。混合形状模型(在本实施例中是STAR 508)变形根据等式7定义。
x和y处于齐次坐标系中,B(x)是位置相关的混合形状,B(x)p是使用参数p作为权重的线性组合。Ri(p)是4×4刚性变换矩阵。下标表示关节的索引。成形和摆好姿势的点(x+B(x)p)可以使用变换的线性组合进行变换(蒙皮),其中,权重wi(x)与位置相关。在现有技术中,STAR模型B和w仅在离散顶点位置上可用。在本实施例中,上述装置通过使用重心坐标进行线性插值来计算整个网格表面上的B和w。
在这个示例性实施例中,估计混合形状模型B(x)和W(x)的内部值,其中,W=[w1,w2,…,wk]是关节权重。使用这些估计值,模型可以从分析的角度反转混合形状变形,如等
式8至等式10所示。
这两个多层感知可以用于估计(MLP1和MLP2)。两者都将3D坐标和p的列表用作输入。3D坐标y表示在关节Ri的参考帧中。这种方法更可取,因为网络可能不需要进行实际反转,而只需找到B和W的稳健估计值即可。
一旦估计出混合形状内部值,模型就可以直接在目标中使用它们,因为它们很容易得到。这可以使用内部值来完成,而不是最小化3D点之间的误差。完整目标如等式11所示。
可选地,也可以从分析的角度反转混合形状模型,例如,STAR。可以直接根据内部混合形状模型参数计算混合形状模型,而不是学习W'(y)和B'(y)。具体地,STAR包括3D顶点坐标,如等式12所示。
x1,x2,...,xN (12)
此外,协调的3D顶点可以包括混合形状Bj和关节权重Wj的值,如等式13所示。
Bj=B(xj),Wj=W(xj) (13)
Bj和Wj值分别是矩阵和向量。
在这个示例性实施例中,存在三个反转步骤。
第一,计算所有xj点的正向变形,如等式14所示。
第二,在变形后的3D体积中扩散混合形状参数。对于我们计算的采样后的点y,扩散如等式15所示。
宽度是一个参数,它大致小于或等于网格中三角形的大小。当宽度接近零时,所有yi点都可以在极限宽度→0上完美反转。
第三,与以前一样使用反转公式,并且根据等式16计算估计值。
求和应用于关节(索引i),而在上文中,在扩散的情况下,求和应用于顶点(索引j)。
可选地,反转可以包括第四步骤和第五步骤,其中,可以通过x'的扩散从xi中获取混合形状参数,然后根据W'(y)检查一致性。这可能是有利的,因为混合形状模型变形在整个3D体积上是不可反转的。当一致性检查失败(例如,L2距离太大)时,该点可能会从渲染步骤中丢弃。
上述装置用于从真值图像801中接收特征801a的真值外观参数805,其中,每个真值外观参数805定义特征801中的点的外观信息。可以存在多个或一组真值外观参数805。每个真值外观参数805定义特征801a中的点的外观信息。换句话说,真值外观参数805可以为上述装置提供特征801a中的不同点在真值图像801中的外观。这在图8中使用与真值图像801中的特征801a的实线对应的真值外观参数805中的实线表示。
真值外观参数805可以包括特征801a中的像素的颜色。换句话说,可以组合特征801a中的像素的颜色来限定特征801a的颜色。例如,如果特征801a是人体,则外观参数805可以包括人体服装或衣服的颜色。这样,上述装置可以用于学习特征801a的颜色。使用上述示例,可以学习衣服的颜色。
真值外观参数805可以包括特征801a中的像素的密度。换句话说,特征801a中的像素的密度可以限定特征801a的体积中的光吸收率。例如,如果特征801a是人体,则外观参数802可以包括人体图像的密度。这样,上述装置可以用于学习特征801a的密度。使用上述示例,可以学习人体图像的密度。
真值外观参数804可以通过神经辐射场(Neural Radiance Field,NeRF)表示特征801a的外观。与传统技术相比,基于NeRF的外观模型实现了更高质量的渲染。
上述装置用于根据真值外观参数805生成外观训练图像806。换句话说,上述装置可以使用由真值外观参数805定义的外观信息来渲染排列训练图像806中的特征806a的外观。外观训练图像806可以由图像外观模型807生成。如图8中的示意性示例所示,外观训练图像806中的特征806a可以不包括绝对正确的外观(图8使用虚线表示这一点,技术人员可以理解其它误差)。然而,随着图像排列模型804的训练,排列训练图像806中的特征806a的定位可能会变得更加准确。
上述装置用于根据真值图像801和外观训练图像806之间的比较,调整图像外观模型807。如本文所述,排列训练图像806中的特征806a可以不包括绝对正确的外观。真值图像801中的特征801a和外观训练图像806中的特征806a之间的差异可以用于上述比较。根据差异,图像外观模型807可以用于更好地生成外观训练图像806。
图像外观模型807可以包括神经渲染器NeRFRig 509,如图5所示。给定一组真值图像801和混合形状参数的初始估计值,可以通过学习图像中特定对象的外观模型来训练神经网络NeRF。对于训练集中的每个像素,可以渲染外观训练图像806。给定真值图像801和外观训练图像,误差可以反向传播到NeRF网络参数和输入混合形状参数。
InvNet 504训练完成后,可以将参数固定下来并在训练完整设置时使用。给定一组图像及其对应的初始混合形状参数,可以优化等式17中定义的目标。
P=[p1,p2,pn]表示与图像I=1、2……n相关联的参数。下标r是指采样光线ri的图像。使用初始混合形状估计值初始化P,然后优化P和外观模型NeRF 509。
通过反向传播图像排列模型804和图像外观模型807中的误差,训练后的图像变形模型可以用作人体的可微渲染器。图像变形模型还可以实现细粒度的3D重建和姿势估计。这样,图像变形模型可以适用于在VR/AR 301、游戏和头像302、虚拟试穿303中实现。
上述装置用于根据图像排列模型804和图像外观模型807,调整图像变形模型808。换句话说,图像排列模型804和图像外观模型807的训练可以结合使用,以训练图像变形模型808。
图像变形模型808最好根据图像801中的特征801a的排列和外观进行训练。这样,图像变形模型808能够使输入图像401中的特征401a的排列变形,同时保持特征401a的整体外观。
通过训练装置中的自我监督训练目标,变形装置可以在训练之后保持人体模型的可控性。由于变形模型是针对各种各样的可能样本而学习的,因此可控性得以保持。
优选地,上述装置用于在生成外观训练图像806a之前,调整图像排列模型804。更优选地,图像排列模型804可以在生成外观训练图像806a之前进行训练。通过在生成外观训练图像804之前,因此在调整图像外观模型806之前,调整图像排列模型804,这样可以在训练图像外观模型807之前通过最小化误差,优化图像排列模型804。这样,两个模型的训练就不会相互干扰。
上述装置可以用于:接收真值图像801中的特征801a的一组或多组后续真值排列参数802;从每组对应的后续真值排列参数802生成后续排列训练图像803;根据真值图像801和每个后续排列训练图像803之间的比较,调整图像排列模型804。换句话说,可以对具有相同真值图像801的真值排列参数802的各种不同样本重复排列训练步骤。通过接收各组后续真值排列参数802,这样可以通过单个真值图像801的多次迭代来训练图像排列模型804。
优选地,通过随机采样真值图像801来接收真值图像801中的特征801a的一组或多组后续真值排列参数802,其中,每组后续真值排列参数802与任一组先前真值排列参数802不同。通过从真值图像801中随机采样来接收特征的真值排列参数802,这样可以提供多样化的训练集,这种训练集可以更好地训练图像排列模型804。
类似地,上述装置可以用于:接收真值图像801中的特征801a的一组或多组后续真值外观参数805;根据每组对应的后续真值外观参数805生成后续外观训练图像806;根据真值图像801和每个后续外观训练图像807之间的比较,调整图像外观模型807。换句话说,可以对具有相同真值图像801的真值外观参数805的各种不同样本重复外观训练步骤。通过接收各组后续的真值外观参数805,这样可以通过根据单个真值图像801的多次迭代训练图像外观模型。
上述装置可以用于对至少一个后续真值图像801重复图8中所示的步骤,以通过多次迭代训练图像变形模型808。换句话说,可以将多个真值图像801输入到上述装置中。真值图像801可以包括相同的特征801a,可能以不同的排列,还可以包括完全不同的特征801a。通过对一个或多个后续真值图像重复步骤以提供后续训练迭代,这样可以进一步训练图像变形模型。具体地,在真值图像801中具有不同特征801a的多样化训练集可以提供可以改进训练的多样化训练集。
训练装置可以利用以下事实:混合形状模型是生成模型。因此,上述装置可以使用随机形状和姿势参数从混合形状模型的表面采样几乎无限量的3D点。这样,对于反转网络,训练集可以任意大。地面真值规范3D坐标和变形模型预测的3D坐标之间的误差得到最小化。由于采样根据一系列可能的形状和变形,模型可以推广到一系列人体形状和位置。
训练装置可以利用该装置试图反转由混合形状模型描述的特定类型的变形的信息。反转网络不直接估计3D坐标,而是估计混合形状的一组内部参数,然后可以使用这些内部参数通过分析获得3D坐标。
由于所有内部混合形状参数都可以通过真值图像801的采样过程获得,因此这些参数可以用作训练过程中的监督信号。通过在真值图像801和估计出的混合形状内部参数之间添加损失项,反转网络可以表现更好。
图9概述了用于训练图像变形模型的方法900的一个示例。在步骤901中,方法900包括:接收真值图像。在步骤902中,方法900包括:接收所述真值图像中的特征的真值排列参数,其中,每个真值排列参数定义所述特征中的点的位置。在步骤903中,方法900包括:根据所述真值排列参数生成排列训练图像。在步骤904中,方法900包括:根据所述真值图像和所述排列训练图像之间的比较,调整图像排列模型。在步骤905中,方法900包括:接收所述真值图像中的所述特征的真值外观参数,其中,每个真值外观参数定义所述特征中的点的外观信息。在步骤906中,方法900包括:根据所述真值外观参数生成外观训练图像。在步骤907中,方法900包括:根据所述真值图像和所述外观训练图像之间的比较,调整图像外观模型。在步骤908中,方法900包括:根据所述图像排列模型和所述图像外观模型,调整所述图像变形模型。
装置700还可以用于训练如本文中描述的图像变形模型。上述变形训练装置可以包括一个或多个处理器,例如,处理器901,以及存储器902。上述图像变形训练装置可以接收真值图像。上述图像变形训练装置可以接收所述真值图像中的特征的真值排列参数,其中,每个真值排列参数定义所述特征中的点的位置。上述图像变形训练装置可以根据所述真值排列参数生成排列训练图像。上述图像变形训练装置可以根据所述真值图像和所述排列训练图像之间的比较,调整图像排列模型。上述图像变形训练装置可以接收所述真值图像中的所述特征的真值外观参数,其中,每个真值外观参数定义所述特征中的点的外观信息。上述图像变形训练装置可以根据所述真值外观参数生成外观训练图像。上述图像变形训练装置可以根据所述真值图像和所述外观训练图像之间的比较,调整图像外观模型。上述图像变形训练装置可以根据所述图像排列模型和所述图像外观模型,调整所述图像变形模型。
图10示出了本发明一个示例性实施例提供的后合成和新视角输出图像。
测试是在输入图像1001的合成数据上进行的。进行了100次训练,使用了100个测试样本。每个样本包括不同视点下的随机姿势和形状。图像的分辨率为128px×128px。使用了普通的环境纹理,并且使用传统的网格渲染器来渲染图像。
目前描述的方法的示例性实施例在测试集上实现了24.7的峰值信噪比(peaksignal to noise ratio,PSNR)。输出图像1002示出了随机新视角和姿势下的保持测试集中的样本。输出图像1003示出了当前提出的方法的示例性实施例的输出。在与1002相同的视点和姿势下渲染输出图像1003(学习到的模型的渲染)。
申请人在此单独公开本文描述的每个单独特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够根据本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题;且不对权利要求书的范围造成限制。申请人指出,本发明的方面可以包括任何这样的单独特征或特征的组合。鉴于上述描述,本领域技术人员将明显地看到,在本发明的范围内可以进行各种修改。
Claims (23)
1.一种图像变形装置(700),其特征在于,所述装置包括一个或多个处理器(701)和以非瞬时性形式存储数据的存储器,其中,所述数据定义可由所述一个或多个处理器(701)执行的用以实现图像变形模型(400)的程序代码,所述装置(700)用于:
接收输入图像(401);
从所述输入图像(401)中提取特征(401a)的排列参数(402),其中,每个排列参数(402)定义所述特征(401a)中的点的位置;
从所述输入图像(401)中提取所述特征的外观参数(403),其中,每个外观参数(403)定义所述特征(401a)中的点的外观信息;
通过修改所述特征(401a)中的至少一个点的位置,生成变形后的排列参数(404);
根据所述变形后的排列参数(404)和所述外观参数(403),渲染输出图像(405),其中,所述输出图像(405)包括与所述特征(401a)对应的变形后的特征(405a)。
2.根据权利要求1所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于通过从所述输出图像(405)中的像素投射光线,渲染所述输出图像(405),其中,所述变形后的特征(405a)的位置由所述变形后的排列参数(404)定义,所述像素的外观由所述外观参数(403)定义。
3.根据权利要求1或2所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于:通过进一步修改所述特征(401a)中的至少一个点的位置,生成其它变形后的排列参数(404);根据所述其它变形后的排列参数(404)和所述外观参数(403),渲染其它输出图像(405),其中,所述其它输出图像(405)包括与所述特征(401a)对应的其它变形后的特征(405a)。
4.根据权利要求3所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于通过从所述其它输出图像(405)中的像素投射光线,渲染所述其它输出图像(405),其中,所述其它变形后的特征(405a)的位置由所述其它变形后的排列参数(404)定义,所述像素的外观由所述外观参数(403)定义。
5.根据上述权利要求中任一项所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于使得所述特征(401a)包括人体或动物体。
6.根据上述权利要求中任一项所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于使得所述排列参数(402)表示所述特征(401a)的姿势。
7.根据上述权利要求中任一项所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701a)用于使得所述排列参数(402)表示所述特征(401a)的形状。
8.根据上述权利要求中任一项所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于使得所述外观参数(403)包括所述特征(401a)中的像素的颜色。
9.根据上述权利要求中任一项所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于使得所述外观参数(403)包括所述特征(401a)中的像素的密度。
10.根据上述权利要求中任一项所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于:对至少一个后续输入图像(401)重复根据上述权利要求中任一项所述的步骤,以渲染对应的后续输出图像(405);根据所述至少两个输出图像(405)渲染3D输出图像。
11.根据权利要求10所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701a)用于使得所述输出图像(405)和所述后续输出图像(405)是2D图像,并且包括不同视点下的相同变形后的特征(405a)。
12.根据权利要求10和11所述的图像变形装置(700),其特征在于,所述一个或多个处理器(701)用于通过数值积分渲染所述至少两个输出图像(405)中的所述3D输出图像。
13.一种用于使图像变形的方法(600),其特征在于,所述方法(600)包括:
接收(601)输入图像;
从所述输入图像中提取(602)特征的排列参数,其中,每个排列参数定义所述特征中的点的位置;
从所述输入图像中提取(603)所述特征的外观参数,其中,每个外观参数定义所述特征中的点的外观信息;
通过修改所述特征中的至少一个点的位置,生成(604)变形后的排列参数;
根据所述变形后的排列参数和所述外观参数,渲染(605)输出图像,其中,所述输出图像包括与所述特征对应的变形后的特征。
14.一种用于训练图像变形模型的装置(700),其特征在于,所述装置(700)包括一个或多个处理器(701),所述一个或多个处理器(701)用于:
接收真值图像(801);
接收所述真值图像(801)中的特征(801a)的真值排列参数(802),其中,每个真值排列参数(802)定义所述特征(801a)中的点的位置;
根据所述真值排列参数(802)生成排列训练图像(803);
根据所述真值图像(801)和所述排列训练图像(803)之间的比较,调整图像排列模型(804);
接收所述真值图像(801)中的所述特征(801a)的真值外观参数(805),其中,每个真值外观参数(805)定义所述特征(801a)中的点的外观信息;
根据所述真值外观参数(805)生成外观训练图像(806);
根据所述真值图像(801)和所述外观训练图像(806)之间的比较,调整图像外观模型(807);
根据所述图像排列模型(804)和所述图像外观模型(807),调整所述图像变形模型(808)。
15.根据权利要求14所述的装置(700),其特征在于,所述一个或多个处理器(701)用于在生成所述外观训练图像(806)之前调整所述图像排列模型(804)。
16.根据权利要求14或15所述的装置(700),其特征在于,所述一个或多个处理器(701)用于通过自我监督网络调整所述图像排列模型(804)。
17.根据权利要求14至16中任一项所述的装置(700),其特征在于,所述一个或多个处理器(701)用于使得所述图像排列模型(804)是生成模型。
18.根据权利要求17所述的装置(700),其特征在于,所述一个或多个处理器(701)用于通过从所述生成模型中随机采样,接收所述真值图像(801)中的特征(801a)的真值排列参数(802)。
19.根据权利要求14至18中任一项所述的装置(700),其特征在于,所述一个或多个处理器(701)用于:
接收所述真值图像(801)中的特征(801a)的一组或多组后续真值排列参数(802);
根据每组对应的后续真值排列参数(802)生成后续排列训练图像(803);
根据所述真值图像(801)和每个后续排列训练图像(803)之间的比较,调整所述图像排列模型(804)。
20.根据权利要求19所述的装置(700),其特征在于,所述一个或多个处理器(701)用于通过随机采样所述真值图像(801),接收所述真值图像(801)中的特征(801a)的一组或多组后续真值排列参数(802),其中,每组后续真值排列参数(802)与任一组先前真值排列参数(802)不同。
21.根据权利要求14至20中任一项所述的装置(700),其特征在于,所述一个或多个处理器(701)用于:
接收所述真值图像(801)中的所述特征(801a)的一组或多组后续真值外观参数(805);
根据每组对应的后续真值外观参数(805)生成后续外观训练图像(806);
根据所述真值图像(801)和每个后续外观训练图像(806)之间的比较,调整所述图像外观模型(807)。
22.根据权利要求14至21中任一项所述的装置(700),其特征在于,所述一个或多个处理器(701)用于对一个或多个后续真值图像(801)执行根据权利要求14至21中任一项所述的步骤,其中,所述一个或多个后续训练图像(803、806)中的每个后续训练图像构成用于后续训练迭代的输入。
23.一种用于训练图像变形模型(800)的方法(900),其特征在于,所述方法包括:
接收(901)真值图像;
接收(902)所述真值图像中的特征的真值排列参数,其中,每个真值排列参数定义所述特征中的点的位置;
根据所述真值排列参数生成(903)排列训练图像;
根据所述真值图像和所述排列训练图像之间的比较,调整(904)图像排列模型;
接收(905)所述真值图像中的所述特征的真值外观参数,其中,每个真值外观参数定义所述特征中的点的外观信息;
根据所述真外观参数生成(906)外观训练图像;
根据所述真值图像和所述外观训练图像之间的比较,调整(907)图像外观模型;
根据所述图像排列模型和所述图像外观模型,调整(908)所述图像变形模型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2021/064136 WO2022248042A1 (en) | 2021-05-27 | 2021-05-27 | Neural radiance field rig for human 3d shape and appearance modelling |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117413299A true CN117413299A (zh) | 2024-01-16 |
Family
ID=76181138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180098681.8A Pending CN117413299A (zh) | 2021-05-27 | 2021-05-27 | 用于人体3d形状和外观建模的神经辐射场骨骼绑定 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240095999A1 (zh) |
EP (1) | EP4285331A1 (zh) |
CN (1) | CN117413299A (zh) |
WO (1) | WO2022248042A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240114162A1 (en) * | 2022-09-29 | 2024-04-04 | Nvidia Corporation | Frame selection for streaming applications |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529137B1 (en) * | 2016-11-29 | 2020-01-07 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Machine learning systems and methods for augmenting images |
CN110033405B (zh) | 2019-03-20 | 2020-11-06 | 上海交通大学 | 一种基于图像处理器加速的符号执行方法及系统 |
CN110111417B (zh) | 2019-05-15 | 2021-04-27 | 浙江商汤科技开发有限公司 | 三维局部人体模型的生成方法、装置及设备 |
RU2019125602A (ru) * | 2019-08-13 | 2021-02-15 | Общество С Ограниченной Ответственностью "Тексел" | Комплексная система и способ для дистанционного выбора одежды |
CN111354079B (zh) | 2020-03-11 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 三维人脸重建网络训练及虚拟人脸形象生成方法和装置 |
-
2021
- 2021-05-27 EP EP21728563.4A patent/EP4285331A1/en active Pending
- 2021-05-27 CN CN202180098681.8A patent/CN117413299A/zh active Pending
- 2021-05-27 WO PCT/EP2021/064136 patent/WO2022248042A1/en active Application Filing
-
2023
- 2023-11-27 US US18/520,110 patent/US20240095999A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022248042A1 (en) | 2022-12-01 |
EP4285331A1 (en) | 2023-12-06 |
US20240095999A1 (en) | 2024-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706714B (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
Achenbach et al. | Fast generation of realistic virtual humans | |
US10867444B2 (en) | Synthetic data generation for training a machine learning model for dynamic object compositing in scenes | |
CN109636831B (zh) | 一种估计三维人体姿态及手部信息的方法 | |
Yang et al. | S3: Neural shape, skeleton, and skinning fields for 3d human modeling | |
CN113012282B (zh) | 三维人体重建方法、装置、设备及存储介质 | |
CN110517355A (zh) | 用于照明混合现实对象的环境合成 | |
Weng et al. | Vid2actor: Free-viewpoint animatable person synthesis from video in the wild | |
CN113344777B (zh) | 基于三维人脸分解的换脸与重演方法及装置 | |
CN104915978A (zh) | 基于体感相机Kinect的真实感动画生成方法 | |
JP7446566B2 (ja) | ボリュメトリックキャプチャ及びメッシュ追跡ベースの機械学習 | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
CN114450719A (zh) | 人体模型重建方法、重建系统及存储介质 | |
CN115298708A (zh) | 多视角神经人体渲染 | |
US20240095999A1 (en) | Neural radiance field rig for human 3d shape and appearance modelling | |
Ahmed et al. | Automatic generation of personalized human avatars from multi-view video | |
Cheung et al. | Markerless human motion transfer | |
Caliskan et al. | Multi-view consistency loss for improved single-image 3d reconstruction of clothed people | |
Liu et al. | Animatable 3D Gaussian: Fast and High-Quality Reconstruction of Multiple Human Avatars | |
Beacco et al. | Automatic 3d character reconstruction from frontal and lateral monocular 2d rgb views | |
Dai et al. | PBR-Net: Imitating physically based rendering using deep neural network | |
Freer et al. | Novel-view synthesis of human tourist photos | |
Hyneman et al. | Human face project | |
Song et al. | RC-SMPL: Real-time cumulative SMPL-based avatar body generation | |
Hetang et al. | Novel View Synthesis from a Single RGBD Image for Indoor Scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |