CN116246010A - 一种基于图像的人体三维重建方法 - Google Patents
一种基于图像的人体三维重建方法 Download PDFInfo
- Publication number
- CN116246010A CN116246010A CN202211546047.9A CN202211546047A CN116246010A CN 116246010 A CN116246010 A CN 116246010A CN 202211546047 A CN202211546047 A CN 202211546047A CN 116246010 A CN116246010 A CN 116246010A
- Authority
- CN
- China
- Prior art keywords
- human body
- image
- feature
- model
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000005855 radiation Effects 0.000 claims abstract description 22
- 210000005036 nerve Anatomy 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 230000010354 integration Effects 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 15
- 241000282326 Felis catus Species 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 5
- 208000011580 syndromic disease Diseases 0.000 claims 1
- 230000006870 function Effects 0.000 description 46
- 230000004913 activation Effects 0.000 description 29
- 238000010606 normalization Methods 0.000 description 20
- 230000036544 posture Effects 0.000 description 18
- 238000011176 pooling Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 3
- 230000037237 body shape Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于图像的人体三维重建方法,由姿态融合三维人体重建网络与图神经辐射场三维人体重建网络各自对输入图像进行处理重建后,再进行融合实现最终的三维重建;姿态融合三维人体重建网络包括表面法向图生成模块、表面法向图特征编码模块、人体姿态特征编码模块、特征解码重建模块、背面图像生成模块以及纹理映射模块,图神经辐射场三维人体重建网络包括姿态优化模块、人体图像编码模块、特征解码模块以及集成模块。本发明提高了人体三维模型与人体新视角图像的重建质量。
Description
技术领域
本发明涉及三维重建技术领域,特别是涉及姿态融合三维人体重建网络与图神经辐射场三维人体重建网络的人体三维重建方法。
背景技术
基于图像的人体三维重建是指从单张或多张人体二维图像中重建出人体三维模型的过程,是计算机视觉中研究价值较高的一个方向。
深度学习背景下的人体三维重建方法利用大量数据建立先验知识,将三维重建的过程转变为编码与解码,直接从二维图像中对人体进行三维重建。早期的人体三维重建方法通过重建人体参数化模型进行人体三维重建,但人体参数化模型只能表示人体的三维姿态,无法表示衣服等细节信息。为了获得更加良好的人体三维重建的重建表现和泛化能力,基于隐式函数的人体三维重建方法使用堆叠沙漏网络对图像进行编码,通过多层感知机解码隐式函数,预测三维点在人体模型的内部和外部的分布,构建点标签形式的隐式函数,使用提取算法从隐式表示中提取网格信息,重建人体模型。
基于神经辐射场的三维重建方法在多个视角上聚合图像特征,通过解码器获取颜色和体密度值,以体渲染的方式进行图像渲染。基于神经辐射场的方法在多个场景或特定的目标类上进行训练,从一个或多个视角的图像中进行三维重建。一些研究将人体参数化模型与神经辐射场相结合,从人体视频中建立神经辐射场并渲染出人体的其他视角的图像。然而,全局特征编码器对全局姿态敏感,只使用全局特征编码器的方法对复杂的人体姿态的重建效果较差,使用多层感知机进行特征解码的方式忽略了三维点之间的相互关系,对人体细节部位的重建效果较差。而准确提取图像特征和人体姿态特征并进行高效的特征解码,提升不同姿态的泛化能力是提高人体三维重建表现的关键。
发明内容
本发明的目的是针对现有技术中存在的重建表现较差和泛化能力不足的问题,提供一种基于图像的人体三维重建方法,旨在高效提取人体图像中的特征,获得具有良好质量的人体三维模型。
为实现本发明的目的所采用的技术方案是:
基于图像的人体三维重建方法,由姿态融合三维人体重建网络与图神经辐射场三维人体重建网络各自对输入图像进行处理三维重建后再进行融合实现最终的三维重建;其中,姿态融合三维人体重建网络包括表面法向图生成模块、表面法向图特征编码模块、人体姿态特征编码模块、特征解码重建模块、背面图像生成模块以及纹理映射模块;图神经辐射场三维人体重建网络包括姿态优化模块、人体图像编码模块、特征解码模块以及集成模块;
处理步骤如下:
由人体图像Xi通过姿态估计方法预测人体参数化模型Msmp,送入到可微渲染器得到人体参数化模型正面法向图Nsf和人体参数化模型背面法向图Nsb,与人体图像Xi共同送入表面法向图生成模块,获取人体正面法向图Ncf和人体背面法向图Ncb,送入表面法向图特征编码模块提取人体表面法向图特征fi;将人体参数化模型Msmp送入人体姿态特征编码模块,提取局部特征编码flo和体积特征编码fv,与人体表面法向图特征fi共同送入特征解码重建模块,获取符号距离函数值sd并重建无色彩纹理的人体三维模型Ys输出;人体图像Xi和人体背面法向图Ncb共同送入背面图像生成模块生成人体背面图像Xb,人体图像Xi、人体背面图像Xb和无色彩纹理的人体三维模型Ys共同送入纹理映射模块重建具有正面色彩纹理和背面色彩纹理的人体三维模型Yc输出;
由人体图像编码模块提取人体图像Xi的图像特征fr,图像特征fr与人体图像Xi分别进行网格采样插值并进行特征拼接,获取图像特征编码fca;将人体图像Xi的像素转换为神经辐射场中的三维点坐标p,附加位置编码,获取具有位置编码的三维点特征fl并将姿态特征fs送入姿态优化模块获取优化后的姿态编码frs;由相机参数计算出三维点的方向编码fv,与图像特征编码fca、姿态特征frs和三维点特征fl共同送入特征解码模块,获取颜色值c和形状特征fσ;将符号距离函数值sd和形状特征fσ共同送入集成模块获取体密度值σ,渲染输出相机参数所对应的人体预设视角图像Yn。
本发明采用表面法向图特征编码模块来进行特征提取,使用堆叠网络单元对人体表面法向图进行编码,增加网络的深度并融合不同阶段的特征,在残差编码中加入通道注意力层并使用Transformer网络编码捕获长距离依赖关系,获取人体表面法向图的不同部位之间的关系,提高特征提取信息的效率。
本发明采用人体姿态特征编码模块提取人体参数化模型的局部特征编码和体积特征编码,计算人体参数化模型的符号距离函数获取人体参数化模型的局部特征编码,将人体参数化模型进行体素化,通过三维残差编码获取人体参数化模型的体积特征编码,结合人体参数化模型的局部特征编码和体积特征编码,重建具有较高的精细度和完整度的人体三维模型。
本发明采用特征解码重建模块进行特征解码,将人体表面法向图特征、局部特征编码和体积特征编码共同送入特征解码器,获取人体三维模型的符号距离函数值,通过行进立方体算法重建无色彩纹理的人体三维模型。特征解码器由图卷积编码和一维卷积编码构成,利用KNN算法构建三维点的图结构,获取相邻三维点之间关系,更加高效地进行特征解码。
本发明采用纹理映射模块,使用网格采样插值提取人体模型颜色编码,将网格模型光栅化,选择不重复值获取人体模型可见性,利用人体模型颜色编码和人体模型可见性获取三维模型的正面色彩纹理和背面色彩纹理,同时利用人体图像和人体背面图像进行纹理映射,提高重建纹理的完整度,获取具有正面色彩纹理和背面色彩纹理的人体三维模型。
本发明采用姿态优化模块,使用KNN算法构建高维姿态特征所对应的姿态特征图结构,将姿态特征图结构送入图卷积编码,获取高维的姿态优化特征,提高了姿态优化的效果。
本发明采用人体图像编码模块,使用堆叠网络单元对人体图像进行编码,增加网络的深度并融合不同阶段的特征,将图像特征分为多个部分并使用KNN算法构建图像特征的图结构,获取人体图像的不同部位之间的关系,提高特征提取信息的效率,为生成人体新视角的图像提供更加准确的人体图像特征,提高生成人体新视角的图像的效果。
其中,由人体图像Xi通过姿态估计方法预测人体参数化模型Msmp,送入到可微渲染器得到人体参数化模型正面法向图Nsf和人体参数化模型背面法向图Nsb,表述如下:
其中,Gs(·)表示姿态估计的操作,Rf(·),Rb(·)表示渲染人体参数化模型正面法向图、背面法向图的操作。
所述将人体图像Xi、人体参数化模型正面法向图Nsf和人体参数化模型人体背面法向图Nsb共同送入表面法向图生成模块,得到人体正面法向图Ncf和人体背面法向图Ncb的步骤如下:
将人体图像Xi与人体参数化模型正面法向图Nsf进行特征拼接后,送入图像编码器处理,得到表示人体参数化模型正面法向图编码特征fsf,将人体图像Xi与人体参数化模型正面法向图Nsf进行特征拼接后,送入图像编码器处理,得到人体参数化模型背面法向图编码特征fsb,对人体参数化模型正面法向图编码特征和人体参数化模型背面法向图编码特征fsf,fsb分别送入残差编码器进行处理后上采样操作,得到人体正面法向图Ncf和人体背面法向图Ncb;表示如下:
其中,fsf,fsb分别表示人体参数化模型正面法向图编码特征和人体参数化模型背面法向图编码特征,Es(·)表示图像编码器操作,图像编码器由卷积层、实例归一化与Relu激活函数组成,Fcat(·)表示特征拼接操作,Eres(·)表示残差编码器操作,残差编码器由卷积层、通道注意力层、批量归一化与Relu激活函数组成,Fup(·)表示上采样操作,上采样由转置卷积层、批量归一化与Relu激活函数组成。
其中,所述表面法向图特征编码模块提取人体表面法向图特征fi的步骤如下:
分别对人体正面法向图和人体背面法向图进行编码,获取人体正面法向图特征编码和人体背面法向图特征编码,将特征编码拼接后进行网格采样插值获取人体表面法向图特征fi:
其中,Ec(·)表示表面法向图编码模块的人体表面法向图编码操作,表面法向图编码模块由堆叠网络单元、残差单元和卷积层组成,其中堆叠网络单元包含最大池化层、Transformer网络编码层和上采样层,Transformer网络编码层包含多头注意力层、层归一化及多层感知层,残差单元包含卷积层与Relu激活函数,fcf表示人体正面法向图特征编码,fcb表示人体背面法向图特征编码,Fcat(·)表示特征拼接的操作,Fgrid(·)表示网格采样插值。
其中,所述人体姿态特征编码模块提取局部特征编码flo和体积特征编码fv具体步骤如下:
计算人体参数化模型的符号距离函数,获取人体参数化模型的符号距离函数编码,将人体参数化模型进行体素化,通过三维残差单元获取体素化后人体参数化模型的三维特征编码,通过网格采样插值,基于符号距离函数编码获取局部特征编码和基于三维特征编码提取体积特征编码:
其中,Fsdf(·)表示计算人体参数化模型Msmp的符号距离函数的操作,Fvol(·)表示网格模型体素化的操作,E3d(·)表示通过三维残差单元获取体素化后人体参数化模型Msmp的三维特征编码的操作,Fgrid(·)表示网格采样插值,flo表示局部特征编码,fv表示体积特征编码。
其中,所述特征解码重建无色彩纹理的人体三维模型Ys输出的处理步骤如下:
将人体表面法向图特征fi、局部特征编码flo和体积特征编码fv共同送入特征解码器,获取三维模型的符号距离函数值sd,基于符号距离函数值通过行进立方体算法重建无色彩纹理的人体三维模型Ys:
其中,Fcat(·)表示特征拼接操作,Eg(·)表示图卷积解码器的操作,图卷积解码器由图卷积层、一维卷积层、批量归一化与Relu激活函数组成,sd表示符号距离函数值,Fmc(·)表示行进立方体算法的操作,Ys表示无色彩纹理的三维模型。
其中,所述背面图像生成模块生成人体背面图像xb的处理步骤如下:
将人体图像Xi和人体背面法向图Ncb进行拼接编码获取人体背面编码特征,送入图像编码进行编码,形成人体背面编码特征,然后送入通道注意力残差单元进行编码,并经过上采样后获取人体背面图像xb:
其中,fbf表示人体背面编码特征,Es(·)表示图像编码器的操作,图像编码器由卷积层、实例归一化与Relu激活函数组成,Fcat(·)表示特征拼接,Eres(·)表示通道注意力残差单元的操作,通道注意力残差单元由卷积层、通道注意力层、批量归一化与Relu激活函数组成,Fup(·)表示上采样的操作,上采样由转置卷积层、批量归一化与Relu激活函数组成。
其中,所述纹理映射的处理步骤如下:
使用网格采样插值值对人体图像Xi提取人体模型颜色编码,将人体模型颜色编码通过网格模型光栅化,选择不重复值获取人体模型可见性;基于无色彩纹理的人体三维模型Ys,利用人体模型颜色编码和人体模型可见性得到具有正面色彩纹理的三维模型;使用网格采样插值对人体背面图像Xb提取人体背面模型颜色编码,将人体背面模型颜色编码通过网格模型光栅化,并选择不重复值获取人体背面模型可见性,得到人体背面模型可见性;基于具有正面色彩的三维模型、人体背面模型颜色编码以及人体背面模型可见性,利用人体图像Xi和人体背面图像Xb进行纹理映射,得到具有正面色彩纹理和背面色彩纹理的人体三维模型Yc:
其中,Fgrid(·)表示网格采样插值,ffc表示人体正面模型颜色编码,Fras(·)表示网格模型光栅化,Fu(·)表示选择不重复值的操作,ffv表示人体正面模型可见性,Ycf表示具有正面色彩纹理的三维模型,fbc表示人体背面模型颜色编码,fbv表示人体背面模型可见性,Yc表示具有正面色彩纹理和背面色彩纹理的三维模型。
其中,所述姿态优化模块的处理步骤如下:
将姿态特征送入线性层,获取高维度的姿态特征,使用KNN算法构建高维度的姿态特征所对应的姿态特征图结构,将姿态特征图结构送入图卷积单元和线性层,获取姿态优化特征,利用罗德里格旋转公式计算优化后的姿态特征:
其中,fs表示姿态特征,El(·)表示线性层的操作,Fknn(·)表示KNN算法的操作,gf表示姿态特征图结构,Eg(·)表示图卷积单元的操作,fgs表示姿态优化特征,frs表示优化后的姿态特征,Frod(·)表示罗德里格旋转操作,具体公式如下:
Frod(r)=cosθI+(1-cosθ)nnT+sinθn^
其中,I是单位矩阵,n是向量r的单位向量,θ是向量r的模长,nT表示n的转置矩阵,n^表示n的反对称矩阵。
其中,所述人体图像编码模块的处理步骤如下:
人体图像编码模块对人体图像Xi提取图像特征fr,图像特征fr与人体图像Xi分别进行网格采样插值并进行特征拼接,获取图像特征编码fc:
其中,Ec(·)表示人体图像编码模块的操作,人体图像编码模块由堆叠网络单元、残差单元和卷积层组成,其中堆叠网络单元包含池化层、图卷积块和上采样层,图卷积块包含图卷积层、线性层与Relu激活函数。
本发明的方法提出了姿态融合三维人体重建网络与图神经辐射场三维人体重建网络,通过姿态融合三维人体重建网络重建360度视角的网格形式人体三维模型,通过图神经辐射场三维人体重建网络从人体图像中重建符合精度人体神经辐射场,渲染得到人体任意角度的图像。
本发明同时考虑局部特征和全局特征,将融合的特征送入特征解码重建模块重建人体形状三维模型,由人体图像和表面法向图获取人体背面生成图像,利用人体图像和人体背面生成图像进行纹理映射,取得了良好的形状重建效果和颜色纹理重建效果,进一步提高了人体三维模型的重建质量。
附图说明
图1为本发明实施例的三维重建方法流程图;
图2为本发明实施例的表面法向图生成模块的结构图;
图3为本发明实施例的表面法向图特征编码模块的结构图;
图4为本发明实施例的特征解码重建模块和纹理映射模块的结构图;
图5为本发明实施例的人体图像编码模块的结构图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的基于图像的人体三维重建方法,由姿态融合三维人体重建网络与图神经辐射场三维人体重建网络处理实现,姿态融合三维人体重建网络的输入条件为单张图像,至少4张图像,姿态融合三维人体重建网络重建360度视角的网格形式人体三维模型;图神经辐射场三维人体重建网络从人体图像(如500张以上)中重建符合精度人体神经辐射场,渲染得到人体任意角度的图像。
其中,所述姿态融合三维人体重建网络包括表面法向图生成模块、表面法向图特征编码模块、人体姿态特征编码模块、特征解码重建模块、背面图像生成模块以及纹理映射模块,所述图神经辐射场三维人体重建网络包括人体图像编码模块、姿态优化模块、特征解码模块以及集成模块。
所述姿态融合三维人体重建网络重建时,首先通过表面法向图生成模块获取表面法向图,由表面法向图特征编码模块获取表面法向图特征编码,从人体参数化模型中提取局部特征编码和体积特征编码,将融合的特征送入特征解码重建模块重建人体形状三维模型,由人体图像和表面法向图获取人体背面生成图像,然后基于纹理映射模块利用人体图像和人体背面生成图像进行纹理映射;
所述图神经辐射场三维人体重建网络重建时,首先通过人体图像编码模块提取人体图像的图像特征,与人体图像分别进行网格采样插值并进行特征拼接,获取图像特征编码,将人体图像的像素转换为神经辐射场中的三维点,将三维点附加位置编码并将姿态特征送入姿态优化模块获取优化后的姿态编码,由相机参数计算出三维点的方向编码,与图像特征编码、姿态编码和三维点特征共同送入特征解码模块,获取颜色值和形状特征;将符号距离函数值和形状特征共同送入集成模块获取体密度值,渲染输出人体新视角图像。
本发明采用表面法向图特征编码模块来进行特征提取,使用堆叠网络对人体表面法向图进行编码,增加网络的深度并融合不同阶段的特征,在残差编码中加入通道注意力层并使用Transformer网络编码捕获长距离依赖关系,获取人体表面法向图的不同部位之间的关系,提高特征提取信息的效率。
本发明采用人体姿态特征编码模块提取人体参数化模型的局部特征编码和体积特征编码,计算人体参数化模型的符号距离函数获取人体参数化模型的局部特征编码,将人体参数化模型进行体素化,通过三维残差编码获取人体参数化模型的体积特征编码,结合人体参数化模型的局部特征编码和体积特征编码,重建具有较高的精细度和完整度的人体三维模型。
本发明采用特征解码重建模块进行特征解码,将人体表面法向图特征、局部特征编码和体积特征编码共同送入特征解码器,获取人体三维模型的符号距离函数值,通过行进立方体算法重建无色彩纹理的人体三维模型。特征解码器由图卷积编码和一维卷积编码构成,利用KNN算法构建三维点的图结构,获取相邻三维点之间关系,更加高效地进行特征解码。
本发明采用纹理映射模块,使用网格采样插值提取人体模型颜色编码,将网格模型光栅化,选择不重复值获取人体模型可见性,利用人体模型颜色编码和人体模型可见性获取三维模型的正面色彩纹理和背面色彩纹理,同时利用人体图像和人体背面图像进行纹理映射,提高重建纹理的完整度,获取具有正面色彩纹理和背面色彩纹理的人体三维模型。
本发明采用姿态优化模块,使用KNN算法构建高维姿态特征所对应的姿态特征图结构,将姿态特征图结构送入图卷积编码,获取高维的姿态优化特征,提高了姿态优化的效果。
本发明采用个人体图像编码模块,使用堆叠网络对人体图像进行编码,增加网络的深度并融合不同阶段的特征,将图像特征分为多个部分并使用KNN算法构建图像特征的图结构,获取人体图像的不同部位之间的关系,提高特征提取信息的效率,为生成人体新视角的图像提供更加准确的人体图像特征,提高生成人体新视角的图像的效果。
本发明提出的人体三维重建方法整体流程如图1所示,其中,姿态融合三维人体重建网络的流程包括表面法向图生成模块、表面法向特征编码模块、人体姿态特征编码模块、特征解码重建模块、纹理映射模块;图神经辐射场三维人体重建网络的流程包括姿态优化模块、人体图像编码模块、特征解码模块以及集成模块。
由人体图像Xi通过姿态估计方法预测人体参数化模型Msmp,送入到可微渲染器得到人体参数化模型正面法向图Nsf和人体参数化模型背面法向图Nsb,与人体图像Xi共同送入表面法向图生成模块,获取人体正面法向图Ncf和人体背面法向图Ncb,送入表面法向图特征编码模块提取人体表面法向图特征fi;将人体参数化模型Msmp送入人体姿态特征编码模块,提取局部特征编码flo和体积特征编码fv,与人体表面法向图特征fi共同送入特征解码重建模块,获取符号距离函数值sd并重建无色彩纹理的人体三维模型Ys输出;人体图像Xi和人体背面法向图Ncb共同送入背面图像生成模块生成人体背面图像Xb,人体图像Xi、人体背面图像和无色彩纹理的人体三维模型Ys共同送入纹理映射模块重建出具有正面色彩纹理和背面色彩纹理的人体三维模型Yc输出。
由人体图像编码模块提取人体图像Xi的图像特征fr,图像特征fr与人体图像Xi分别进行网格采样插值并进行特征拼接,获取图像特征编码fca;将人体图像Xi的像素转换为神经辐射场中的三维点坐标p,附加位置编码,获取具有位置编码的三维点特征fl并将姿态特征fs送入姿态优化模块获取优化后的姿态编码frs;由相机参数计算出三维点的方向编码fv,与图像特征编码fca、姿态编码frs和三维点特征fl共同送入特征解码模块,获取颜色值c和形状特征fσ,将符号距离函数值sd和形状特征fσ共同送入集成模块获取体密度值σ,渲染输出相机参数所对应的人体新视角图像Yn。
本发明设计的表面法向图生成模块更加高效地进行表面法向图生成,由图像Xi通过姿态估计方法预测人体参数化模型Msmp,送入到可微渲染器得到人体参数化模型正面法向图Nsf和人体参数化模型背面法向图Nsb:
其中,Gs(·)表示姿态估计的操作,Rf(·),Rb(·)表示渲染人体参数化模型正面、背面法向图的操作,然后将人体正面图像、人体参数化模型正面法向图和人体参数化模型人体背面法向共同送入表面法向图生成模块,得到人体正面法向图Ncf和人体背面法向图Ncb:
其中,fsf,fsb分别表示人体参数化模型正面法向图编码特征和背面法向图编码特征,Es(·)表示图像编码器的编码操作,图像编码器依次由卷积层、实例归一化与Relu激活函数组成,Fcat(·)表示特征拼接操作,Eres(·)表示残差编码器的编码操作,Fup(·)表示上采样操作,上采样层由转置卷积层、批量归一化与Relu激活函数组成。参见图2所示,所述表面法向图生成模块依次包括卷积层-残差单元1-残差单元2-残差单元3-残差单元4-残差单元5-残差单元6-残差单元7-残差单元8-残差单元9-上采样层构成,其中,其中的残差单元依次由Conv+Relu层,Conv+Relu层,Conv层,最大池化层,Conv+Relu层,Conv层以及Sigmoid激活层构成,前一级的Conv层的输出作为最大池化层的输入,同时与Sigmoid激活层的输出相加后,再与残差单元的输入一起作为残差单元的输出。
本发明设计的表面法向图特征编码模块分别对人体正面法向图和人体背面法向图进行编码,获取人体正面法向图特征编码和人体背面法向图特征编码,将特征编码拼接后进行网格采样插值获取人体表面法向图特征fi:
其中,Ec(·)表示表面法向图特征编码模块的人体表面法向图编码的操作,表面法向图特征编码模块由堆叠网络单元、残差单元和卷积层组成,其中堆叠网络单元包含多级结构的最大池化层(AvgPool)、Transformer网络编码层和上采样层(upsamlpe),具体的,如四层结构的最大池化层、三个上采样层以及五个Transformer网络编码模块,最大池化层依次连接后通过最后一层的最大池化层通过一个Transformer网络编码模块与依次连接的三个上采样层的第一个上采样层连接,其它每个Transformer网络编码模块的输入为上一个最大池的输出,最后一个Transformer网络编码模块的输入为堆叠网络单元的输入,其它每个Transformer网络编码模块的输出同时作为每个上采样层的输入,最后一个Transformer网络编码模块的输出与最后一级的上采样层的输出作为堆叠网络单元的输出;所述Transformer网络编码模块依次包含层归一化层、多头注意力层W-MSA、层归一化层、多层感知层MLP,Transformer网络编码层的输入与多头注意力层W-MSA的输出作为下层的层归一化层的输入,下层的层归一化层的输入与多层感知层MLP的输出作为ransformer网络编码层的输出;残差单元依次包含Con+Relu层、Con+Relu层以及一个卷积层Con,残差单元的输入同时与其一个卷积层Con的输出作为表面法向图特征编码模块中与残差单元相邻的卷积层的输入;fcf表示人体正面法向图特征编码,fcb表示人体背面法向图特征编码,Fcat(·)表示特征拼接的操作,Fgrid(·)表示网格采样插值。参见图3所示,表面法向图特征编码模块依次由堆叠网络单元-残差单元-卷积层-卷积层-卷积层-堆叠网络单元-残差单元-卷积层组成,第二堆叠网络单元的输入包括其上一级的卷积层的输出以及再上一级的卷积层的输出;
参见图1所示,本发明的人体姿态特征编码模块包括符号距离计算单元,模型体素化单元以及三维残差单元,本发明的人体姿态特征编码模块提取人体参数化模型的局部特征编码和体积特征编码,计算人体参数化模型的符号距离函数获取人体参数化模型的符号距离函数编码,将人体参数化模型进行体素化,通过三维残差单元获取人体参数化模型的三维特征编码,分别对符号距离函数编码和三维特征编码进行网格采样插值获取局部特征编码和体积特征编码:
其中,Fsdf(·)表示计算人体参数化模型的符号距离函数的操作,由符号距离计算单元进行处理,Fvol(·)表示网格模型体素化的操作,由模型体素化单元进行,E3d(·)表示三维残差单元的操作,三维残差单元由三维卷积层、三维批量归一化与Relu激活函数组成,Fgrid(·)表示网格采样插值,flo表示局部特征编码,fv表示体积特征编码。
本发明设计的特征解码重建模块将人体表面法向图特征、局部特征编码和体积特征编码共同送入特征解码器,获取三维模型的符号距离函数值,通过行进立方体算法重建无色彩纹理的人体三维模型:
其中,Fcat(·)表示特征拼接操作,Eg(·)表示图卷积解码器的操作,图卷积解码器由图卷积层、一维卷积层、批量归一化与Relu激活函数组成,sd表示符号距离函数值,Fmc(·)表示行进立方体算法的操作,Ys表示无色彩纹理的三维模型。
参见图4所示,本发明设计的特征解码重建模块依次由图卷积块--图卷积块-线性层—线性层构成,下级的图卷积块的输出同时作为两个线性层的输入,且下级的线性层的输入还包括上级的线性层的输出,其中,图卷积块依次由图卷积层GCN,Relu激活层,线性层Liner以及Relu激活层构成,线性层Liner的输入包括前一个Relu激活层的输出与图卷积块或是图卷积层GCN的输入,线性层Liner的输入与后一级Relu激活层的输出作为图卷积块的输出。
本发明设计的背面图像生成模块将人体图像和人体背面法向图进行拼接编码获取人体背面编码特征,送入通道注意力残差编码获取人体背面图像xb:
其中,fbf表示人体背面编码特征,Es(·)表示图像编码器的操作,该图像编码器由卷积层、实例归一化与Relu激活函数组成,Fcat(·)表示特征拼接,Eres(·)表示残差单元的操作,该残差单元由卷积层、通道注意力层、批量归一化与Relu激活函数组成,Fup(·)表示上采样的操作,上采样层由转置卷积层、批量归一化与Relu激活函数组成。参见图4所示,所述背面图像生成模块依次包括卷积层-Relu激活层—残差单元以及上采样层依次连接组成,输入图像与人体背面法向图相加后作为该背面图像生成模块的卷积层的输入。
本发明设计的纹理映射模块,使用网格采样插值提取人体模型颜色编码,将网格模型光栅化,选择不重复值获取人体模型可见性,利用人体模型颜色编码和人体模型可见性获取三维模型的正面色彩纹理和背面色彩纹理,同时利用人体图像和人体背面图像进行纹理映射,提高重建纹理的完整度,获取具有正面色彩纹理和背面色彩纹理的人体三维模型:
其中,Fgrid(·)表示网格采样插值,ffc表示人体正面模型颜色编码,Fras(·)表示网格模型光栅化,Fu(·)表示选择不重复值的操作,ffv表示人体正面模型可见性,Ycf表示具有正面色彩纹理的三维模型,fbc表示人体背面模型颜色编码,fbv表示人体背面模型可见性,Yc表示具有正面色彩纹理和背面色彩纹理的三维模型。
本发明设计的姿态优化模块包括线性层单元以及图卷积单元,线性层单元的输出作为图卷积单元的输入,将姿态特征送入线性层单元,获取更高维度的姿态特征,使用KNN算法构建高维度的姿态特征所对应的姿态特征图结构,将姿态特征图结构送入图卷积单元进行卷积处理后再送入线性层单元进行处理,获取姿态优化特征;利用罗德里格旋转公式计算优化后的姿态特征:
其中,fs表示姿态特征,El(·)表示线性层单元的操作,Fknn(·)表示KNN算法的操作,gf表示姿态特征图结构,Eg(·)表示图卷积单元的操作,图卷积单元可以是由图卷积层、批量归一化与Relu激活函数组成,fgs表示姿态优化特征,fgs表示优化后的姿态特征,Frod(·)表示罗德里格旋转操作,具体公式如下:
Frod(r)=cosθI+(1-cosθ)nnT+sinθn^
其中,I是单位矩阵,n是向量r的单位向量,θ是向量r的模长,nT表示n的转置矩阵,n^表示n的反对称矩阵。
本发明设计的人体图像编码模块,将人体图像Xi送入人体图像编码模块提取图像特征fr,然后将图像特征与人体图像分别进行网格采样插值并进行特征拼接,获取图像特征编码fc:
其中,Ec(·)表示人体图像编码模块的编码操作,人体图像编码模块由堆叠网络单元、残差单元和卷积层组成,参见图5所示,其网络结构依次是堆叠网络单元-残差单元-卷积层-卷积层-卷积层-堆叠网络单元--残差单元-卷积层的结构,第二个堆叠网络单元的输入来自于前级的卷积层的输出及再前一级卷积层的输出;其中堆叠网络单元包含池化层、图卷积块和上采样层,池化层及上采样层均为多层级的结构,如四层,图卷积块为多个,一个池化层的输出同时对应作为一个图卷积块的输入,一个图卷积块的输出同时作为一个上采样层的输入,下级的上采样层的输入还包括上一级的上采样层的输出,下级的池化层的输入还包括上一级的池化层的输出,第一个上采样层的输入包括两个图卷积块的输出,堆叠网络单元的输入通过一个图卷积块后,其输出同时与最后一级的上采样层的输出相加,成为所述堆叠网络单元的输出。所述图卷积块依次包含图卷积层、Relu激活函数、线性层与Relu激活函数,图卷积层的输入与其前一级Relu激活函数的输出作为其线性层的输入,同时其线性层的输入与后一级Relu激活函数的输出作为图卷积块的输出,残差单元依次包括卷积层Con+Relu激活层-卷积层Con+Relu激活层-卷积层Con,残差单元的输入为堆叠网络单元的输出,残差单元的卷积层Con的输出与残差单元的输入作为人体图像编码模块的接收残差单元的输出的卷积层的输入。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.基于图像的人体三维重建方法,其特征在于,由姿态融合三维人体重建网络与图神经辐射场三维人体重建网络各自对输入图像进行处理重建后,再进行融合实现最终的三维重建;其中,姿态融合三维人体重建网络包括表面法向图生成模块、表面法向图特征编码模块、人体姿态特征编码模块、特征解码重建模块、背面图像生成模块以及纹理映射模块,图神经辐射场三维人体重建网络包括姿态优化模块、人体图像编码模块、特征解码模块以及集成模块;人体三维重建方法的处理步骤如下:
由人体图像Xi通过姿态估计方法预测人体参数化模型Msmp,送入到可微渲染器得到人体参数化模型正面法向图Nsf和人体参数化模型背面法向图Nsb,与人体图像Xi共同送入表面法向图生成模块,获取人体正面法向图Ncf和人体背面法向图Ncb,送入表面法向图特征编码模块提取人体表面法向图特征fi;将人体参数化模型Msmp送入人体姿态特征编码模块,提取局部特征编码flo和体积特征编码fv,与人体表面法向图特征fi共同送入特征解码重建模块,获取符号距离函数值sd并重建无色彩纹理的人体三维模型Ys输出;人体图像Xi和人体背面法向图Ncb共同送入背面图像生成模块生成人体背面图像Xb,人体图像Xi、人体背面图像Xb和无色彩纹理的人体三维模型Ys共同送入纹理映射模块重建出具有正面色彩纹理和背面色彩纹理的人体三维模型Yc输出;
由人体图像编码模块提取人体图像Xi的图像特征fr,图像特征fr与人体图像Xi分别进行网格采样插值并进行特征拼接,获取图像特征编码fca;将人体图像Xi的像素转换为神经辐射场中的三维点坐标p,附加位置编码,获取具有位置编码的三维点特征fl并将姿态特征fs送入姿态优化模块获取优化后的姿态编码frs;由相机参数计算出三维点的方向编码fv,与图像特征编码fca、姿态特征frs和三维点特征fl共同送入特征解码模块,获取颜色值c和形状特征fσ;将符号距离函数值sd和形状特征fσ共同送入集成模块获取体密度值σ,渲染输出相机参数所对应的人体预设视角图像Yn。
2.根据权利要求1所述基于图像的人体三维重建方法,其特征在于,所述表面法向图生成模块获得人体正面法向图Ncf和人体背面法向图Ncb的步骤如下:
将人体图像Xi与人体参数化模型正面法向图Nsf进行特征拼接后,送入图像编码器处理,得到表示人体参数化模型正面法向图编码特征fsf,将人体图像Xi与人体参数化模型正面法向图Nsf进行特征拼接后,送入图像编码器处理,得到人体参数化模型背面法向图编码特征fsb,对人体参数化模型正面法向图编码特征和人体参数化模型背面法向图编码特征fsf,fsb分别送入残差编码器进行处理后上采样操作,得到人体正面法向图Ncf和人体背面法向图Ncb;表示如下:
其中,fsf,fsb分别表示人体参数化模型正面法向图编码特征和人体参数化模型背面法向图编码特征,Es(·)表示图像编码器的编码操作,Fcat(·)表示特征拼接操作,Eres(·)表示残差编码器的操作,Fup(·)表示上采样操作。
4.根据权利要求3所述基于图像的人体三维重建方法,其特征在于,所述人体姿态特征编码模块提取局部特征编码flo和体积特征编码fv的步骤如下:
计算人体参数化模型Msmp的符号距离函数,获取人体参数化模型Msmp的符号距离函数编码fsdf,将人体参数化模型Msmp进行体素化,通过三维残差单元获取体素化后人体参数化模型Msmp的三维特征编码,通过网格采样插值基于符号距离函数编码fsdf获取局部特征编码flo以及基于三维特征编码提取体积特征编码fv:
其中,Fsdf(·)表示计算人体参数化模型Msmp的符号距离函数的操作,Fvol(·)表示网格模型体素化的操作,E3d(·)表示通过三维残差单元获取体素化后人体参数化模型Msmp的三维特征编码的操作,Fgrid(·)表示网格采样插值,flo表示局部特征编码,fv表示体积特征编码。
7.根据权利要求6所述基于图像的人体三维重建方法,其特征在于,所述纹理映射模块的处理步骤如下:
使用网格采样插值对人体图像Xi提取人体模型颜色编码,将人体模型颜色编码通过网格模型光栅化,并选择不重复值获取人体模型可见性;基于无色彩纹理的人体三维模型Ys,利用人体模型颜色编码和人体模型可见性得到具有正面色彩的三维模型;使用网格采样插值对人体背面图像Xb提取人体背面模型颜色编码,将人体背面模型颜色编码通过网格模型光栅化,并选择不重复值获取人体背面模型可见性,得到人体背面模型可见性;基于具有正面色彩的三维模型、人体背面模型颜色编码以及人体背面模型可见性,利用人体图像Xi和人体背面图像Xb进行纹理映射,得到具有正面色彩纹理和背面色彩纹理的人体三维模型Yc:
其中,Fgrid(·)表示网格采样插值,ffc表示人体正面模型颜色编码,Fras(·)表示网格模型光栅化,Fu(·)表示选择不重复值的操作,ffv表示人体正面模型可见性,Ycf表示具有正面色彩纹理的三维模型,fbc表示人体背面模型颜色编码,fbv表示人体背面模型可见性,Yc表示具有正面色彩纹理和背面色彩纹理的三维模型。
8.根据权利要求7所述基于图像的人体三维重建方法,其特征在于,所述姿态优化模块的处理步骤如下:
将姿态特征送入线性层,获取高维度的姿态特征,使用KNN算法构建高维度的姿态特征所对应的姿态特征图结构,将姿态特征图结构送入图卷积单元处理后再送入线性层处理,获取姿态优化特征,利用罗德里格旋转公式计算优化后的姿态特征:
其中,fs表示姿态特征,El(·)表示线性层操作,Fknn(·)表示KNN算法的操作,gf表示姿态特征图结构,Eg(·)表示图卷积单元的操作,fgs表示姿态优化特征,frs表示优化后的姿态特征,Frod(·)表示罗德里格旋转操作,具体公式如下:
Frod(r)=cosθI+(1-cosθ)nnT+sinθn^
其中,I是单位矩阵,n是向量r的单位向量,θ是向量r的模长,nT表示n
的转置矩阵,n^表示n的反对称矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211546047.9A CN116246010A (zh) | 2022-12-05 | 2022-12-05 | 一种基于图像的人体三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211546047.9A CN116246010A (zh) | 2022-12-05 | 2022-12-05 | 一种基于图像的人体三维重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246010A true CN116246010A (zh) | 2023-06-09 |
Family
ID=86631972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211546047.9A Pending CN116246010A (zh) | 2022-12-05 | 2022-12-05 | 一种基于图像的人体三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246010A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704140A (zh) * | 2023-08-08 | 2023-09-05 | 江西求是高等研究院 | 一种人体三维重建方法、系统、计算机及存储介质 |
-
2022
- 2022-12-05 CN CN202211546047.9A patent/CN116246010A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704140A (zh) * | 2023-08-08 | 2023-09-05 | 江西求是高等研究院 | 一种人体三维重建方法、系统、计算机及存储介质 |
CN116704140B (zh) * | 2023-08-08 | 2023-10-20 | 江西求是高等研究院 | 一种人体三维重建方法、系统、计算机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396703B (zh) | 一种单图像三维点云模型重建方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
Huang et al. | 3d point cloud geometry compression on deep learning | |
CN111402310B (zh) | 一种基于深度估计网络的单目图像深度估计方法及系统 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN110544297A (zh) | 一种单幅图像的三维模型重建方法 | |
CN110659727A (zh) | 一种基于草图的图像生成方法 | |
CN113962858B (zh) | 一种多视角深度获取方法 | |
Shi et al. | 3d-retr: End-to-end single and multi-view 3d reconstruction with transformers | |
CN113628348A (zh) | 一种确定三维场景中视点路径的方法及设备 | |
CN113096239B (zh) | 一种基于深度学习的三维点云重建方法 | |
CN113792641A (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN112634438A (zh) | 基于对抗网络的单帧深度图像三维模型重建方法及装置 | |
Liu et al. | High-quality textured 3D shape reconstruction with cascaded fully convolutional networks | |
Li et al. | Semantic point cloud upsampling | |
Cheng et al. | Gaussianpro: 3d gaussian splatting with progressive propagation | |
Afifi et al. | Pixel2Point: 3D object reconstruction from a single image using CNN and initial sphere | |
CN116342788A (zh) | 基于神经辐射场的三维场景重建方法 | |
CN116246010A (zh) | 一种基于图像的人体三维重建方法 | |
CN117522990B (zh) | 基于多头注意力机制和迭代细化的类别级位姿估计方法 | |
Nagy et al. | Non-traditional grids embedded in ℤn | |
CN116091762A (zh) | 一种基于rgbd数据和视锥体的三维目标检测方法 | |
CN112785684B (zh) | 一种基于局部信息加权机制的三维模型重建方法 | |
CN113763539B (zh) | 一种基于图像和三维输入的隐式函数三维重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |