CN114782634B - 基于表面隐函数的单目图像着装人体重建方法与系统 - Google Patents
基于表面隐函数的单目图像着装人体重建方法与系统 Download PDFInfo
- Publication number
- CN114782634B CN114782634B CN202210500678.0A CN202210500678A CN114782634B CN 114782634 B CN114782634 B CN 114782634B CN 202210500678 A CN202210500678 A CN 202210500678A CN 114782634 B CN114782634 B CN 114782634B
- Authority
- CN
- China
- Prior art keywords
- human body
- image
- smpl
- point
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000005070 sampling Methods 0.000 claims abstract description 81
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000009877 rendering Methods 0.000 claims abstract description 18
- 230000008447 perception Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 8
- 238000005096 rolling process Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 210000003813 thumb Anatomy 0.000 claims 1
- 238000012800 visualization Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Geometry (AREA)
- Image Generation (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于表面隐函数的单目图像着装人体重建方法与系统。包括:获取高精度着装人体模型并进行渲染和表面采样,运用所述采样点构建训练集,提取所述渲染得到的着装人体图像的特征图和粗预测SMPL,将所述生成的SMPL体素化并使用三维卷积融合各部分的特征,得到三维空间下融合编码后的体素特征,获取给定查询点的混合局部特征,通过图卷积和交叉注意力获取空间中给定查询点的局部点云特征,训练和构建离散点占有率估算模型,生成着装人体模型。本发明具备对输入图像更好的保真性和细节恢复能力;设计的网络保证模型结构的鲁棒性,提高模型对人体图像与3D语义特征的感知和表达能力,并保证重建人体模型的完整性和细致程度,可视化效果更好。
Description
技术领域
本发明涉及计算机视觉,计算机图形学,三维重建领域,具体涉及一种基于表面隐函数的单目图像着装人体重建方法与系统。
背景技术
虚拟现实技术为当下的现代社会生活提供了极大地便利,它被广泛应用于娱乐,教育,医疗等领域。元宇宙的火爆更是为虚拟现实带来了第二春,元宇宙需要创造与现实世界相对应的虚拟世界,因此需要用于计算机显示的图形以供构建基本要素,三维模型则必不可少。虚拟现实技术中的一项关键技术便是三维重建,而其一个应用领域,基于单目图像的着装人体重建可以为构建元宇宙中的可视化图形要素提供技术方案。
早期基于优化算法的重建技术无法生成鲁棒的模型,并且无法很好地保留图像中的要素并恢复来自图像的细节。随着大数据和人工智能的发展,基于数据驱动的深度学习方法开始应用于单目图像三维重建,这些方法通过标注的图像-三维模型样本对训练神经网络,以学习从图像中恢复三维模型的函数。
以三维模型在神经网络中的表示形态为依据,基于深度学习的方法可以分为显式表示和隐式表示。显式表示方法中主要为基于体素的表示方法,它将三维模型表示为一个个最小立方体的组合,用神经网络根据给定图像预测出空间中每个体素是否属于模型内部,但这类方法的空间复杂度随分辨率成立方增长,难以扩大网络规模。因此隐式表示方法在近年来受到更多关注,它对给定三维坐标点和图像信息,由MLP预测出该查询点在目标模型中的占有概率值。该方法拟合出的隐式曲面能有效恢复模型细节,并且空间利用高效,具有对图像更好的保真性。
目前的现有技术之一,是通过3D建模专家通过给定概念图,在3D建模软件中手工设计目标3D网格模型。该方法的缺点是通过人工建模的方法需要时间成本和资金成本,在不需要高精度模型的情况下,生产效率和成本都无法达到预期,且该工作通常只能单人完成,无法流水线化。
目前的现有技术之二,“一种将人体模型表示为离散体素的显式建模方法”,该方法首先通过神经网络预测出图像中的2D人体关节点位置,然后结合图像的特征信息,预测出三维空间中人体关节点热度图,最后为空间中每个体素进行概率赋值,通过进一步融合图像特征,使用三维卷积得出每个体素属于人体内部的概率值。该方法的缺点是生成体素需要指定空间中的体素分辨率,类似于图像有不同清晰度,体素分辨率越高,建模越精细,但是体素模型的空间占用随分辨率呈现立方增长,无法实现高精度建模,而且生成的着装人体模型往往无法恢复细节,相对图像具有较差的保真性。
目前的现有技术之三,“一种基于隐函数和混合特征的着装人体模型重建方法”,该方法先通过图像预测出SMPL参数化人体模型,然后将其体素化,进行3D卷积,同时将图像经过SHG网络,生成图像特征,对于给定三维空间中的点,由相机参数生成其在图像上的投影点,插值得到该投影点的2D像素对齐特征,然后在体素特征中同样通过三维空间中的插值得到3D体素特征,特征混合后输入到MLP中预测出该指定的三维空间中的点属于待预测模型内部的概率值。该方案的缺点是从SMPL体素化生成的3D特征存在量化误差,对特征的表达不够精确,体素化后特征在空间中分布相对稀疏,且基于体素的3D卷积操作空间占用高,无法形成比较深的网络结构,对于给定体素,无法在卷积后具有全局的感受野,模型表达能力受限。
发明内容
本发明的目的是克服现有方法的不足,提出了基于表面隐函数的单目图像着装人体重建方法与系统。本发明解决的主要问题是,现有主流的3D建模专家根据设计蓝图进行手工建模方法,耗时,且无法流水线化,同时目前市场上建模价格高昂,给有相关需求的企业增加了资金负担。即如何基于深度学习和数据驱动的方法,消除人力成本、减少时间成本,建模出更好的重建精确度和表面细节的着装人体模型的问题。
为了解决上述问题,本发明提出了一种基于表面隐函数的单目图像着装人体重建方法,所述方法包括:
从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像;
对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集;
通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致;
通过GCN(Graph Convolutional Network,图卷积网络)获取针对所述着装人体图像的粗预测的SMPL(Skinned Multi-Person Linear Model,基于蒙皮的参数化人体模型);
将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征;
对所述特征图的图像特征和所述三维空间下融合编码后的体素特征分别进行插值,拼接后得到给定查询点的混合局部特征;
在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征;
对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到MLP(Multi-layer Perceptron,多层感知机)中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型;
设置一个单位立方体,在该单位立方体内部按用户设定的离散点分辨率设置均匀间隔分布的离散点,由所述离散点占有率估算模型得出所述离散点分辨率下所有离散点的占有率后,使用Marching Cube(立方体匹配算法)生成三角形面片网格模型得到最终的着装人体模型。
优选地,从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像,具体为:
所述数据集来自清华大学开源数据集THuman2.0,所述渲染方法采用球谐波光照离线渲染,并生成对应的人体图像遮罩,处理背景为白色。
优选地,对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集,具体为:
所述神经网络采用SHG(Stacked Hourglass Network,堆叠沙漏网络),设置堆叠数量为4块,每一层内部包含四层递归式网络结构,对图像进行多尺度编码;
将所述后三块的特征图作为该图像编码模块的输出,保证浅层网络能在梯度下降中更容易有权值更新。
优选地,通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致,具体为:
将所述着装人体图像输入到一个普通的卷积神经网络,编码出全局语义信息,然后作为一个特征拼接上预定义SMPL顶点的位置信息和法向量信息,在固定拓扑结构下输入GCN,所述GCN输出SMPL顶点的三维坐标;
对所述SMPL模型的6890个顶点进行下采样到1732个顶点,预测出该部分顶点位置后,通过上采样恢复出所有顶点位置;
所述GCN在原数据集上进行预训练,其余网络参数训练时,该部分网络参数不参与权值更新,其中所述标签数据的SMPL参数使用多视角版本的SMPlify-X得到。
优选地,所述多视角版本的SMPlify-X方法,具体为:
对密集视角下的渲染图像先用OpenPose生成2D关节位置作为真实2D关节位置,并选取其中的17个关节顶点作为参考数据,然后基于解最优化方程的方法,对若干视角的图像求出其SMPL参数,保证该参数下的关节位置通过投影后,在各个视角下和参考数据的关节位置误差尽可能小,所述过程的具体公式如下:
其中,f表示从给定SMPL参数θ,β生成关节位置的函数,为可微函数,πi,k表示关节k在视角i下的2D投影,表示关节k在视角i下的真实2D位置。
优选地,所述将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征,具体为:
所述三维卷积网络采用多块结构,使用后三块网络的三维特征图作为输出,保证浅层网络权重更容易更新,所述网络结构使用的开源方案具体公式如下:
其中为给定查询点在数据集的模型空间中是否属于模型内部的标签值,若在模型内部,则为1,否则为0,f2d,f3d,fpoint分别代表所述着装人体图像的特征图的图像特征,所述三维空间下融合编码后的体素特征和所述空间中给定查询点的局部点云特征。
优选地,所述在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征,具体为:
将所述生成的SMPL表面进行采样,得到若干采样点位置和其所在面片的法向量,作为该采样点3D几何特征,然后按给定相机参数进行弱透视投影,用所述生成的着装人体图像的特征图插值得到该采样点的2D图像特征,与3D几何特征拼接后得到SMPL表面采样点的混合特征,所述混合特征基于SMPL的预定义拓扑结构进行图卷积操作得到有全局感知的点云特征,所述图卷积网络使用和所述用多块结构的三维卷积网络采的类似结构,只是将其中的三维卷积模块替换为图卷积模块,由于网络输入来自局部混合特征,因此使用先前网络的多块输出,但权值更新在同样参数的网络中进行;
对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征进行交叉注意力操作,该部分以SMPL采样点的混合局部特征为K矩阵,查询点混合局部特征为Q矩阵,SMPL采样点的点云编码特征为V矩阵,得到给定查询点的局部点云特征,具体过程的公式如下:
fpoint=WV(V)×Softmax(WQ(Q)×WK(K)T)
其中WV,WQ,WK分别为所述三个矩阵对应的待学习参数矩阵。
优选地,所述对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型,具体为:
所述损失项的具体公式如下:
其中为给定查询点在数据集的模型空间中是否属于模型内部的标签值,若在模型内部,则为1,否则为0,f2d,f3d,fpoint分别代表所述着装人体图像的特征图的图像特征,所述三维空间下融合编码后的体素特征和所述空间中给定查询点的局部点云特征。
相应地,本发明还提供了一种基于表面隐函数的单目图像着装人体重建系统,包括:
训练集构建单元,用于从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像;对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集;
特征图提取单元,用于通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致;
体素特征提取单元,用于通过GCN获取针对所述着装人体图像的粗预测的SMPL;将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征;
混合局部特征提取单元,用于对所述特征图的图像特征和所述三维空间下融合编码后的体素特征分别进行插值,拼接后得到给定查询点的混合局部特征;
局部点云特征提取单元,用于在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征;
网络模型训练单元,用于对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型;
着装人体模型生成单元,用于设置一个单位立方体,在该单位立方体内部按用户设定的离散点分辨率设置均匀间隔分布的离散点,由所述离散点占有率估算模型得出所述离散点分辨率下所有离散点的占有率后,使用Marching Cube生成三角形面片网格模型得到最终的着装人体模型。
实施本发明,具有如下有益效果:
本发明仅以2D图像作为输入生成三维着装人体模型,基于数据驱动的方法设计网络结构,相比传统的3D扫描仪进行的方法,不需要成本高昂的特殊动作捕捉设备;采用将人体模型表示为一个隐式曲面的思想,能最大限度地重建出原有图像中的着装人体模型的各个细节,相比采用体素,固定模板的网格表示方法,本发明的网络结构具备对输入图像更好的保真性和细节恢复能力;设计的网络使用了不同模态的特征,保证了模型结构的鲁棒性,提高了模型对各种人体图像和对应3D语义特征的感知能力和表达能力,设计局部点云编码网络同时保证重建人体模型的完整性和细致程度,有更好的可视化效果。
附图说明
图1是本发明实施例的基于表面隐函数的单目图像着装人体重建方法的流程图;
图2是本发明实施例的基于表面隐函数的单目图像着装人体重建系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于表面隐函数的单目图像着装人体重建方法的流程图,如图1所示,该方法包括:
S1,从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像;
S2,对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集;
S3,通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致;
S4,通过GCN获取针对所述着装人体图像的粗预测的SMPL;
S5,将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征;
S6,对所述特征图的图像特征和所述三维空间下同和编码后的体素特征分别进行插值,拼接后得到给定查询点的混合局部特征;
S7,在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征;
S8,对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型;
S9,设置一个单位立方体,在该单位立方体内部按用户设定的离散点分辨率设置均匀间隔分布的离散点,由所述离散点占有率估算模型得出所述离散点分辨率下所有离散点的占有率后,使用Marching Cube生成三角形面片网格模型得到最终的着装人体模型。
步骤S1,具体如下:
S1-1,所述数据集来自清华大学开源数据集THuman2.0,所述渲染方法采用球谐波光照离线渲染,并生成对应的人体图像遮罩,处理背景为白色。
步骤S3,具体如下:
S3-1,所述神经网络采用SHG,设置堆叠数量为4块,每一层内部包含四层递归式网络结构,对图像进行多尺度编码;
S3-2,将所述后三块的特征图作为该图像编码模块的输出,保证浅层网络能在梯度下降中更容易有权值更新。
步骤S4,具体如下:
S4-1,将所述着装人体图像输入到一个普通的卷积神经网络,编码出全局语义信息,然后作为一个特征拼接上预定义SMPL顶点的位置信息和法向量信息,在固定拓扑结构下输入GCN,所述GCN输出SMPL顶点的三维坐标;
S4-2,对所述SMPL模型的6890个顶点进行下采样到1732个顶点,预测出该部分顶点位置后,通过上采样恢复出所有顶点位置;
S4-3,所述GCN在原数据集上进行预训练,其余网络参数训练时,该部分网络参数不参与权值更新,其中所述标签数据的SMPL参数使用多视角版本的SMPlify-X得到。
S4-3-1,对密集视角下的渲染图像先用OpenPose生成2D关节位置作为真实2D关节位置,并选取其中的17个关节顶点作为参考数据,然后基于解最优化方程的方法,对若干视角的图像求出其SMPL参数,保证该参数下的关节位置通过投影后,在各个视角下和参考数据的关节位置误差尽可能小,所述过程的具体公式如下:
其中,f表示从给定SMPL参数θ,β生成关节位置的函数,为可微函数,πi,k表示关节k在视角i下的2D投影,表示关节k在视角i下的真实2D位置。
步骤S5,具体如下:
S5-1,所述三维卷积网络采用多块结构,使用后三块网络的三维特征图作为输出,保证浅层网络权重更容易更新,所述网络结构使用的开源方案具体公式如下:
其中为给定查询点在数据集的模型空间中是否属于模型内部的标签值,若在模型内部,则为1,否则为0,f2d,f3d,fpoint分别代表所述着装人体图像的特征图的图像特征,所述三维空间下融合编码后的体素特征和所述空间中给定查询点的局部点云特征。
步骤S7,具体如下:
S7-1,将所述生成的SMPL表面进行采样,得到若干采样点位置和其所在面片的法向量,作为该采样点3D几何特征,然后按给定相机参数进行弱透视投影,用所述生成的着装人体图像的特征图插值得到该采样点的2D图像特征,与3D几何特征拼接后得到SMPL表面采样点的混合特征,所述混合特征基于SMPL的预定义拓扑结构进行图卷积操作得到有全局感知的点云特征,所述图卷积网络使用和所述用多块结构的三维卷积网络采的类似结构,只是将其中的三维卷积模块替换为图卷积模块,由于网络输入来自局部混合特征,因此使用先前网络的多块输出,但权值更新在同样参数的网络中进行;
S7-2,对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征进行交叉注意力操作,该部分以SMPL采样点的混合局部特征为K矩阵,查询点混合局部特征为Q矩阵,SMPL采样点的点云编码特征为V矩阵,得到给定查询点的局部点云特征,具体过程的公式如下:
fpoint=WV(V)×Softmax(WQ(Q)×WK(K)T)
其中WV,WQ,WK分别为所述三个矩阵对应的待学习参数矩阵。
步骤S8,具体如下:
S8-1,所述损失项的具体公式如下:
其中为给定查询点在数据集的模型空间中是否属于模型内部的标签值,若在模型内部,则为1,否则为0,f2d,f3d,fpoint分别代表所述着装人体图像的特征图的图像特征,所述三维空间下融合编码后的体素特征和所述空间中给定查询点的局部点云特征。
相应地,本发明还提供了一种基于表面隐函数的单目图像着装人体重建系统,如图2所示,包括:
训练集构建单元1,用于从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像;对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集;
具体地,所述数据集来自清华大学开源数据集THuman2.0,所述渲染方法采用球谐波光照离线渲染,并生成对应的人体图像遮罩,处理背景为白色。
特征图提取单元2,用于通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致;
具体地,所述神经网络采用SHG,设置堆叠数量为4块,每一层内部包含四层递归式网络结构,对图像进行多尺度编码;将所述后三块的特征图作为该图像编码模块的输出,保证浅层网络能在梯度下降中更容易有权值更新。
体素特征提取单元3,用于通过GCN获取针对所述着装人体图像的粗预测的SMPL;将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征;
具体地,将所述着装人体图像输入到一个普通的卷积神经网络,编码出全局语义信息,然后作为一个特征拼接上预定义SMPL顶点的位置信息和法向量信息,在固定拓扑结构下输入GCN,所述GCN输出SMPL顶点的三维坐标;对所述SMPL模型的6890个顶点进行下采样到1732个顶点,预测出该部分顶点位置后,通过上采样恢复出所有顶点位置;所述GCN在原数据集上进行预训练,其余网络参数训练时,该部分网络参数不参与权值更新,其中所述标签数据的SMPL参数使用多视角版本的SMPlify-X得到;所述三维卷积网络采用多块结构,使用后三块网络的三维特征图作为输出,保证浅层网络权重更容易更新。
具体地,对密集视角下的渲染图像先用OpenPose生成2D关节位置作为真实2D关节位置,并选取其中的17个关节顶点作为参考数据,然后基于解最优化方程的方法,对若干视角的图像求出其SMPL参数,保证该参数下的关节位置通过投影后,在各个视角下和参考数据的关节位置误差尽可能小。
混合局部特征提取单元4,用于对所述特征图的图像特征和所述三维空间下融合编码后的体素特征分别进行插值,拼接后得到给定查询点的混合局部特征;
局部点云特征提取单元5,用于在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征;
具体地,将所述生成的SMPL表面进行采样,得到若干采样点位置和其所在面片的法向量,作为该采样点3D几何特征,然后按给定相机参数进行弱透视投影,用所述生成的着装人体图像的特征图插值得到该采样点的2D图像特征,与3D几何特征拼接后得到SMPL表面采样点的混合特征,所述混合特征基于SMPL的预定义拓扑结构进行图卷积操作得到有全局感知的点云特征,所述图卷积网络使用和所述用多块结构的三维卷积网络采的类似结构,只是将其中的三维卷积模块替换为图卷积模块,由于网络输入来自局部混合特征,因此使用先前网络的多块输出,但权值更新在同样参数的网络中进行;对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征进行交叉注意力操作,该部分以SMPL采样点的混合局部特征为K矩阵,查询点混合局部特征为Q矩阵,SMPL采样点的点云编码特征为V矩阵,得到给定查询点的局部点云特征。
网络模型训练单元6,用于对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型;
着装人体模型生成单元7,用于设置一个单位立方体,在该单位立方体内部按用户设定的离散点分辨率设置均匀间隔分布的离散点,由所述离散点占有率估算模型得出所述离散点分辨率下所有离散点的占有率后,使用Marching Cube生成三角形面片网格模型得到最终的着装人体模型。
因此,本发明仅以2D图像作为输入生成三维着装人体模型,基于数据驱动的方法设计网络结构,相比传统的3D扫描仪进行的方法,不需要成本高昂的特殊动作捕捉设备;采用将人体模型表示为一个隐式曲面的思想,能最大限度地重建出原有图像中的着装人体模型的各个细节,相比采用体素,固定模板的网格表示方法,本发明的网络结构具备对输入图像更好的保真性和细节恢复能力;设计的网络使用了不同模态的特征,保证了模型结构的鲁棒性,提高了模型对各种人体图像和对应3D语义特征的感知能力和表达能力,设计局部点云编码网络同时保证重建人体模型的完整性和细致程度,有更好的可视化效果。
以上对本发明实施例所提供的基于表面隐函数的单目图像着装人体重建方法与系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述方法包括:
从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像;
对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集;
通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致;
通过图卷积网络GCN获取针对所述着装人体图像的粗预测的基于蒙皮的参数化人体模型SMPL;
将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征;
对所述特征图的图像特征和所述三维空间下融合编码后的体素特征分别进行插值,拼接后得到给定查询点的混合局部特征;
在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征;
对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型;
设置一个单位立方体,在该单位立方体内部按用户设定的离散点分辨率设置均匀间隔分布的离散点,由所述离散点占有率估算模型得出所述离散点分辨率下所有离散点的占有率后,使用立方体匹配算法Marching Cube生成三角形面片网格模型得到最终的着装人体模型。
2.如权利要求1所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像,具体为:
所述数据集来自清华大学开源数据集THuman2.0,所述渲染方法采用球谐波光照离线渲染,并生成对应的人体图像遮罩,处理背景为白色。
3.如权利要求1所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致,具体为:
所述神经网络采用堆叠沙漏网络SHG,设置堆叠数量为4块,每一层内部包含四层递归式网络结构,对图像进行多尺度编码;
将所述后三块的特征图作为该图像编码模块的输出,保证浅层网络能在梯度下降中更容易有权值更新。
4.如权利要求1所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述通过GCN获取针对所述着装人体图像的粗预测的SMPL,具体为:
将所述着装人体图像输入到一个普通的卷积神经网络,编码出全局语义信息,然后作为一个特征拼接上预定义SMPL顶点的位置信息和法向量信息,在固定拓扑结构下输入GCN,所述GCN输出SMPL顶点的三维坐标;
对所述SMPL模型的6890个顶点进行下采样到1732个顶点,预测出该部分顶点位置后,通过上采样恢复出所有顶点位置;
所述GCN在原数据集上进行预训练,其余网络参数训练时,该部分网络参数不参与权值更新,其中所述标签数据的SMPL参数使用多视角版本的SMPlify-X得到。
5.如权利要求4所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述多视角版本的SMPlify-X方法,具体为:
对密集视角下的渲染图像先用OpenPose生成2D关节位置作为真实2D关节位置,并选取其中的17个关节顶点作为参考数据,然后基于解最优化方程的方法,对若干视角的图像求出其SMPL参数,保证该参数下的关节位置通过投影后,在各个视角下和参考数据的关节位置误差尽可能小,所述过程的具体公式如下:
其中,f表示从给定SMPL参数θ,β生成关节位置的函数,为可微函数,πi,k表示关节k在视角i下的2D投影,表示关节k在视角i下的真实2D位置。
6.如权利要求1所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征,具体为:
所述三维卷积网络采用多块结构,使用后三块网络的三维特征图作为输出,保证浅层网络权重更容易更新,所述网络结构使用的开源方案具体公式如下:
其中为给定查询点在数据集的模型空间中是否属于模型内部的标签值,若在模型内部,则为1,否则为0,f2d,f3d,fpoint分别代表所述着装人体图像的特征图的图像特征,所述三维空间下融合编码后的体素特征和所述空间中给定查询点的局部点云特征。
7.如权利要求1所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征,具体为:
将所述生成的SMPL表面进行采样,得到若干采样点位置和其所在面片的法向量,作为该采样点3D几何特征,然后按给定相机参数进行弱透视投影,用所述生成的着装人体图像的特征图插值得到该采样点的2D图像特征,与3D几何特征拼接后得到SMPL表面采样点的混合特征,所述混合特征基于SMPL的预定义拓扑结构进行图卷积操作得到有全局感知的点云特征,所述图卷积网络使用和所述用多块结构的三维卷积网络采的类似结构,只是将其中的三维卷积模块替换为图卷积模块,由于网络输入来自局部混合特征,因此使用先前网络的多块输出,但权值更新在同样参数的网络中进行;
对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征进行交叉注意力操作,该部分以SMPL采样点的混合局部特征为K矩阵,查询点混合局部特征为Q矩阵,SMPL采样点的点云编码特征为V矩阵,得到给定查询点的局部点云特征,具体过程的公式如下:
fpoint=WV(V)×Softmax(WQ(Q)×WK(K)T)
其中WV,WQ,WK分别为所述三个矩阵对应的待学习参数矩阵。
8.如权利要求1所述的基于表面隐函数的单目图像着装人体重建方法,其特征在于,所述对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型,具体为:
所述损失项的具体公式如下:
其中为给定查询点在数据集的模型空间中是否属于模型内部的标签值,若在模型内部,则为1,否则为0,f2d,f3d,fpoint分别代表所述着装人体图像的特征图的图像特征,所述三维空间下融合编码后的体素特征和所述空间中给定查询点的局部点云特征。
9.一种基于表面隐函数的单目图像着装人体重建系统,其特征在于,所述系统包括:
训练集构建单元,用于从数据集获取高精度着装人体模型,并在360度视角下渲染出360张着装人体图像;对所述数据集人体模型进行表面采样,并按照高斯分布对采样点延法线方向作偏移,为每个采样点设置人体内部和外部的标签数据,该部分采样点即对应训练集;
特征图提取单元,用于通过神经网络获取所述着装人体图像的特征图,所述特征图的图像分辨率和所述着装人体图像保持一致;
体素特征提取单元,用于通过GCN获取针对所述着装人体图像的粗预测的SMPL;将所述生成的SMPL体素化,得到三维体素空间的离散特征,对所述离散体素特征使用三维卷积融合各个部分的特征,最终得到三维空间下融合编码后的体素特征;
混合局部特征提取单元,用于对所述特征图的图像特征和所述三维空间下融合编码后的体素特征分别进行插值,拼接后得到给定查询点的混合局部特征;
局部点云特征提取单元,用于在所述SMPL粗预测模型的表面采样后进行图卷积,得到SMPL采样点融合特征图后的混合特征,再使用交叉注意力得到空间中给定查询点的局部点云特征;
网络模型训练单元,用于对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征做拼接,得到最终的给定查询点的混合特征,输入到多层感知机MLP中得到给定查询点对于人体模型的占有概率,与标签值作差得到损失值,通过梯度下降类方法更新网络权重,使该损失迭代收敛至尽可能小,以此训练形成离散点占有率估算模型;
着装人体模型生成单元,用于设置一个单位立方体,在该单位立方体内部按用户设定的离散点分辨率设置均匀间隔分布的离散点,由所述离散点占有率估算模型得出所述离散点分辨率下所有离散点的占有率后,使用Marching Cube生成三角形面片网格模型得到最终的着装人体模型。
10.如权利要求9所述的基于表面隐函数的单目图像着装人体重建系统,其特征在于,所述训练集构建单元,需要所述数据集来自清华大学开源数据集THuman2.0,所述渲染方法采用球谐波光照离线渲染,并生成对应的人体图像遮罩,处理背景为白色。
11.如权利要求9所述的基于表面隐函数的单目图像着装人体重建系统,其特征在于,所述特征图提取单元,需要所述神经网络采用SHG,设置堆叠数量为4块,每一层内部包含四层递归式网络结构,对图像进行多尺度编码;将所述后三块的特征图作为该图像编码模块的输出,保证浅层网络能在梯度下降中更容易有权值更新。
12.如权利要求9所述的基于表面隐函数的单目图像着装人体重建系统,其特征在于,所述体素特征提取单元,需要将所述着装人体图像输入到一个普通的卷积神经网络,编码出全局语义信息,然后作为一个特征拼接上预定义SMPL顶点的位置信息和法向量信息,在固定拓扑结构下输入GCN,所述GCN输出SMPL顶点的三维坐标;对所述SMPL模型的6890个顶点进行下采样到1732个顶点,预测出该部分顶点位置后,通过上采样恢复出所有顶点位置;所述GCN在原数据集上进行预训练,其余网络参数训练时,该部分网络参数不参与权值更新,其中所述标签数据的SMPL参数使用多视角版本的SMPlify-X得到;所述三维卷积网络采用多块结构,使用后三块网络的三维特征图作为输出,保证浅层网络权重更容易更新。
13.如权利要求12所述的基于表面隐函数的单目图像着装人体重建系统,其特征在于,所述体素特征提取单元,需要对密集视角下的渲染图像先用OpenPose生成2D关节位置作为真实2D关节位置,并选取其中的17个关节顶点作为参考数据,然后基于解最优化方程的方法,对若干视角的图像求出其SMPL参数,保证该参数下的关节位置通过投影后,在各个视角下和参考数据的关节位置误差尽可能小。
14.如权利要求9所述的基于表面隐函数的单目图像着装人体重建系统,其特征在于,所述局部点云特征提取单元,需要将所述生成的SMPL表面进行采样,得到若干采样点位置和其所在面片的法向量,作为该采样点3D几何特征,然后按给定相机参数进行弱透视投影,用所述生成的着装人体图像的特征图插值得到该采样点的2D图像特征,与3D几何特征拼接后得到SMPL表面采样点的混合特征,所述混合特征基于SMPL的预定义拓扑结构进行图卷积操作得到有全局感知的点云特征,所述图卷积网络使用和所述用多块结构的三维卷积网络采的类似结构,只是将其中的三维卷积模块替换为图卷积模块,由于网络输入来自局部混合特征,因此使用先前网络的多块输出,但权值更新在同样参数的网络中进行;对所述给定查询点的混合局部特征和所述给定查询点的局部点云特征进行交叉注意力操作,该部分以SMPL采样点的混合局部特征为K矩阵,查询点混合局部特征为Q矩阵,SMPL采样点的点云编码特征为V矩阵,得到给定查询点的局部点云特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500678.0A CN114782634B (zh) | 2022-05-10 | 2022-05-10 | 基于表面隐函数的单目图像着装人体重建方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500678.0A CN114782634B (zh) | 2022-05-10 | 2022-05-10 | 基于表面隐函数的单目图像着装人体重建方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782634A CN114782634A (zh) | 2022-07-22 |
CN114782634B true CN114782634B (zh) | 2024-05-14 |
Family
ID=82436733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210500678.0A Active CN114782634B (zh) | 2022-05-10 | 2022-05-10 | 基于表面隐函数的单目图像着装人体重建方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782634B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147559B (zh) * | 2022-09-05 | 2022-11-29 | 杭州像衍科技有限公司 | 基于神经隐式函数的三维人体参数化表示方法及装置 |
CN115496864B (zh) * | 2022-11-18 | 2023-04-07 | 苏州浪潮智能科技有限公司 | 模型构建方法、重建方法、装置、电子设备及存储介质 |
CN115984462B (zh) * | 2022-12-19 | 2024-03-08 | 广州紫为云科技有限公司 | 一种单目多视角的通用物体三维建模方法 |
CN116152417B (zh) * | 2023-04-19 | 2023-06-23 | 北京天图万境科技有限公司 | 一种多视点类透视空间拟合与渲染的方法和装置 |
CN116824086B (zh) * | 2023-06-14 | 2024-03-19 | 西南交通大学 | 一种三维运动目标重建方法及系统 |
CN116580164B (zh) * | 2023-07-15 | 2023-10-17 | 昆明理工大学 | 一种面向单视角三维人体重建的着装特征学习方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021077720A1 (zh) * | 2019-10-25 | 2021-04-29 | 深圳奥比中光科技有限公司 | 获取对象三维模型的方法、装置、电子设备及系统 |
CN113077545A (zh) * | 2021-04-02 | 2021-07-06 | 华南理工大学 | 一种基于图卷积的从图像中重建着装人体模型的方法 |
CN113112607A (zh) * | 2021-04-19 | 2021-07-13 | 复旦大学 | 一种生成任意帧率的三维网格模型序列的方法及装置 |
-
2022
- 2022-05-10 CN CN202210500678.0A patent/CN114782634B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021077720A1 (zh) * | 2019-10-25 | 2021-04-29 | 深圳奥比中光科技有限公司 | 获取对象三维模型的方法、装置、电子设备及系统 |
CN113077545A (zh) * | 2021-04-02 | 2021-07-06 | 华南理工大学 | 一种基于图卷积的从图像中重建着装人体模型的方法 |
CN113112607A (zh) * | 2021-04-19 | 2021-07-13 | 复旦大学 | 一种生成任意帧率的三维网格模型序列的方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于RGB-D相机数据的人体三维重建系统;周泽浩;张之江;;工业控制计算机;20200925(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114782634A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114782634B (zh) | 基于表面隐函数的单目图像着装人体重建方法与系统 | |
CN108921926B (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN110443842A (zh) | 基于视角融合的深度图预测方法 | |
CN110458939A (zh) | 基于视角生成的室内场景建模方法 | |
CN109003325A (zh) | 一种三维重建的方法、介质、装置和计算设备 | |
CN111369681A (zh) | 三维模型的重构方法、装置、设备及存储介质 | |
CN116258835B (zh) | 基于深度学习的点云数据三维重建方法和系统 | |
CN113822993B (zh) | 一种基于3d模型匹配的数字孪生方法和系统 | |
Li et al. | 3D-ReConstnet: a single-view 3d-object point cloud reconstruction network | |
CN113313828B (zh) | 基于单图片本征图像分解的三维重建方法与系统 | |
CN111028335B (zh) | 一种基于深度学习的点云数据的分块面片重建方法 | |
CN113379646A (zh) | 一种利用生成对抗网络进行稠密点云补全的算法 | |
CN112530005B (zh) | 一种三维模型直线结构识别与自动修复方法 | |
CN112818860B (zh) | 基于端到端多任务多尺度神经网络的实时三维人脸重建方法 | |
Chen et al. | A survey on 3d gaussian splatting | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN115731365A (zh) | 基于二维图像的网格模型重建方法、系统、装置及介质 | |
CN116071278A (zh) | 无人机航拍图像合成方法、系统、计算机设备及存储介质 | |
CN115272599A (zh) | 一种面向城市信息模型的三维语义地图构建方法 | |
Yuan et al. | Interactive nerf geometry editing with shape priors | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN115761116A (zh) | 一种基于单目相机的透视投影下三维人脸重建方法 | |
CN114882173A (zh) | 一种基于隐式表达的3d单目头发建模方法及装置 | |
CN114663600A (zh) | 一种基于自编码器的点云重建方法及系统 | |
CN114119874A (zh) | 基于gan的单图重建高清3d面部纹理的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |