CN110599585A - 基于深度学习的单图像人体三维重建方法及装置 - Google Patents
基于深度学习的单图像人体三维重建方法及装置 Download PDFInfo
- Publication number
- CN110599585A CN110599585A CN201910716534.7A CN201910716534A CN110599585A CN 110599585 A CN110599585 A CN 110599585A CN 201910716534 A CN201910716534 A CN 201910716534A CN 110599585 A CN110599585 A CN 110599585A
- Authority
- CN
- China
- Prior art keywords
- layer
- size
- human body
- dimensional
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000012360 testing method Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims description 28
- 238000009877 rendering Methods 0.000 claims description 27
- 230000033001 locomotion Effects 0.000 claims description 26
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 24
- 238000012937 correction Methods 0.000 claims description 18
- 230000003068 static effect Effects 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 6
- 238000011426 transformation method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的单图像人体三维重建方法及装置,其中,该方法包括:获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型并对其进行预处理得到网络训练数据;构建满足预设条件的图像特征提取网络和三维体转换网络,并在最小化损失函数的条件下,利用网络训练数据对两个网络进行训练;对测试图像进行处理得到测试图像对应的人体内层参数化模型;将测试图像和测试图像对应的人体内层参数化模型输入到训练后的网络中,得到测试图像中人体的三维重建预测结果。该方法基于深度学习实现,一旦网络训练完成,则使用时只需要单张彩色图片作为输入,就可以实现对图像中出现的人体的三维重建。
Description
技术领域
本发明涉及计算机视觉和计算机图形学技术领域,特别涉及一种基于深度学习的单图像人体三维重建方法及装置。
背景技术
人体三维重建是计算机图形学和计算机视觉领域的重点问题。高质量的人体三维模型在影视娱乐、人口数据统计分析等领域有着广泛的应用前景和重要的应用价值。但是高质量人体三维模型的获取通常依靠价格昂贵的激光扫描仪或者多相机阵列系统来实现,虽然精度较高,但是也显著存在着一些缺点:第一,扫描过程中要求被人保持绝对静止,微小的移动就会导致扫描结果存在明显的误差;第二,造假昂贵,很难普及到普通民众日常生活中,往往应用于大公司或国家统计部门。第三,速度慢,往往重建一个三维人体模型需要至少10分钟到数小时的时间。即便现有一些简便的方法可以使用单个深度相机实现简便的三维人体重建,其对深度相机的依赖使得其不能应用到现有的RGB相机系统下。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度学习的单图像人体三维重建方法,该方法基于深度学习实现,一旦网络训练完成,则使用时只需要单张彩色图片作为输入,就可以实现对图像中出现的人体的三维重建。
本发明的另一个目的在于提出一种基于深度学习的单图像人体三维重建装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度学习的单图像人体三维重建方法,包括:
获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据;
构建满足预设条件的图像特征提取网络和三维体转换网络,在最小化损失函数的条件下,利用所述网络训练数据对所述图像特征提取网络和所述三维体转换网络进行训练;
对所述测试图像进行处理得到所述测试图像对应的人体内层参数化模型;
将所述测试图像和所述测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络,得到所述测试图像中人体的三维重建预测结果。
本发明实施例的基于深度学习的单图像人体三维重建方法,通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型,充分挖掘人体模型中各个维度的多样性,保证其泛化能力;使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络,输出对彩色图片中外层三维人体模型的预测结果,具有很强的使用性。
另外,根据本发明上述实施例的基于深度学习的单图像人体三维重建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,包括:静态模型采集阶段和动作捕捉阶段;
在所述静态模型采集阶段,所述采集系统要求采集对象先进行简单的扫描动作,以实现具有纹理的静态人体外层模型的扫描和重建,以及内层参数化模型的估计;
在所述动作捕捉阶段,所述采集系统呈现随机生成的动作,并要求采集对象模仿呈现的动作,采集对象模仿完毕后,所述采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。
进一步地,在本发明的一个实施例中,所述对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据,包括:
将所述外层人体模型和对应的内层参数化模型进行随机旋转;
将所述外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上,得到训练图像;
将所述外层人体模型和对应的内层参数化模型做体素化,构建对应的三维体描述,得到训练时的输入三维体和目标三维体;
对所述目标三维体做前向投影渲染和侧向投影渲染,得到训练时的目标前向投影和侧向投影,所述目标前向投影和所述侧向投影为所述网络训练数据。
进一步地,在本发明的一个实施例中,所述图像特征提取网络包括5层卷积层:第一层卷积层包括8个大小为4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4、步长为2的卷积核,每一层后均连接有一个修正线性单元;
所述三维体转换网络,包括11层三维卷积层:第一层卷积层包括8个大小为4x4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4x4、步长为2的卷积核,第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元,第六层为128个大小为4x4x4、步长为2的解卷积核,第七层为64个大小为4x4x4、步长为2的解卷积核,第八层为32个大小为4x4x4、步长为2的解卷积核,第九层为16个大小为4x4x4、步长为2的解卷积核,第十层为8个大小为4x4x4、步长为2的解卷积核,第六层到第十层的每一层后均连接有一个修正线性单元,且与第一层到第五层中对应尺度的卷积层相互连接,第十一层为1个大小4x4x4、步长为1的卷积核,其后连接有一个sigmoid单元;
所述图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入,其变换方法为:其中F(·)表示所执行的仿射变换,表示输入的三维卷积结果的第z个切片,表示输入的图像特征,α(·)和β(·)表示获得线性变换参数的卷积操作。
进一步地,在本发明的一个实施例中,所述最小化损失函数的定义为:
L=LV+λFSLFS+λSSLSS
其中,LV为三维体重建损失函数,LFS为前向投影重建损失函数,LSS为侧向投影重建损失函数,λFS和λSS对应各个约束项的权重系数,其中,
其中,γ为平衡不同体素的损失贡献的权重,为真实的目标三维体,为中坐标为(x,y,z)的体素的取值,Vo为网络输出的三维体,为Vo中坐标为(x,y,z)的体素的取值,为真实的前向投影,为中坐标为(x,y)的像素的取值,SF为网络的输出三维体的前向投影,为SF中坐标为(x,y)的像素的取值,为真实的侧向投影,为中坐标为(x,y)的像素的取值,SS为网络的输出三维体的侧向投影,为SS中坐标为(x,y)的像素的取值。
为达到上述目的,本发明另一方面实施例提出了一种基于深度学习的单图像人体三维重建装置,包括:
采集模块,用于获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据;
构建模块,用于构建满足预设条件的图像特征提取网络和三维体转换网络,在最小化损失函数的条件下,利用所述网络训练数据对所述图像特征提取网络和所述三维体转换网络进行训练;
预处理模块,用于对所述测试图像进行处理得到所述测试图像对应的人体内层参数化模型;
重建模块,用于将所述测试图像和所述测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络,得到所述测试图像中人体的三维重建预测结果。
本发明实施例的基于深度学习的单图像人体三维重建装置,通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型,充分挖掘人体模型中各个维度的多样性,保证其泛化能力;使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络,输出对彩色图片中外层三维人体模型的预测结果,具有很强的使用性。
另外,根据本发明上述实施例的基于深度学习的单图像人体三维重建装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,包括:静态模型采集阶段和动作捕捉阶段;
在所述静态模型采集阶段,所述采集系统要求采集对象先进行简单的扫描动作,以实现具有纹理的静态人体外层模型的扫描和重建,以及内层参数化模型的估计;
在所述动作捕捉阶段,所述采集系统呈现随机生成的动作,并要求采集对象模仿呈现的动作,采集对象模仿完毕后,所述采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。
进一步地,在本发明的一个实施例中,所述采集模块,包括:
旋转单元,用于将所述外层人体模型和对应的内层参数化模型进行随机旋转;
渲染单元,用于将所述外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上,得到训练图像;
第一处理单元,用于将所述外层人体模型和对应的内层参数化模型做体素化,构建对应的三维体描述,得到训练时的输入三维体和目标三维体;
第二处理单元,用于对所述目标三维体做前向投影渲染和侧向投影渲染,得到训练时的目标前向投影和侧向投影,所述目标前向投影和所述侧向投影为所述网络训练数据。
进一步地,在本发明的一个实施例中,所述图像特征提取网络包括5层卷积层:第一层卷积层包括8个大小为4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4、步长为2的卷积核,每一层后均连接有一个修正线性单元;
所述三维体转换网络,包括11层三维卷积层:第一层卷积层包括8个大小为4x4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4x4、步长为2的卷积核,第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元,第六层为128个大小为4x4x4、步长为2的解卷积核,第七层为64个大小为4x4x4、步长为2的解卷积核,第八层为32个大小为4x4x4、步长为2的解卷积核,第九层为16个大小为4x4x4、步长为2的解卷积核,第十层为8个大小为4x4x4、步长为2的解卷积核,第六层到第十层的每一层后均连接有一个修正线性单元,且与第一层到第五层中对应尺度的卷积层相互连接,第十一层为1个大小4x4x4、步长为1的卷积核,其后连接有一个sigmoid单元;
所述图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入,其变换方法为:其中F(·)表示所执行的仿射变换,表示输入的三维卷积结果的第z个切片,表示输入的图像特征,α(·)和β(·)表示获得线性变换参数的卷积操作。
进一步地,在本发明的一个实施例中,所述最小化损失函数的定义为:
L=LV+λFSLFS+λSSLSS
其中,LV为三维体重建损失函数,LFS为前向投影重建损失函数,LSS为侧向投影重建损失函数,λFS和λSS对应各个约束项的权重系数,其中,
其中,γ为平衡不同体素的损失贡献的权重,为真实的目标三维体,为中坐标为(x,y,z)的体素的取值,Vo为网络输出的三维体,为Vo中坐标为(x,y,z)的体素的取值,为真实的前向投影,为中坐标为(x,y)的像素的取值,SF为网络的输出三维体的前向投影,为SF中坐标为(x,y)的像素的取值,为真实的侧向投影,为中坐标为(x,y)的像素的取值,SS为网络的输出三维体的侧向投影,为SS中坐标为(x,y)的像素的取值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于深度学习的单图像人体三维重建方法流程图;
图2为根据本发明一个实施例的基于深度学习的单图像人体三维重建装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于深度学习的单图像人体三维重建方法及装置。
首先将参照附图描述根据本发明实施例提出的基于深度学习的单图像人体三维重建方法。
图1为根据本发明一个实施例的基于深度学习的单图像人体三维重建方法流程图。
如图1所示,该基于深度学习的单图像人体三维重建方法包括以下步骤:
步骤S1,获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,对人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据。
进一步地,在本发明的一个实施例中,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,包括:静态模型采集阶段和动作捕捉阶段;
在静态模型采集阶段,采集系统要求采集对象先进行简单的扫描动作,以实现具有纹理的静态人体外层模型的扫描和重建,以及内层参数化模型的估计。
在动作捕捉阶段,采集系统呈现随机生成的动作,并要求采集对象模仿呈现的动作,采集对象模仿完毕后,采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。
可以理解的是,采集系统可以根据实际需要进行设置,采集系统可以为算法等,采集对象可以为人体等。通过采集系统对人体的动作进行采集,得到人体外层模型及对应的内层参数化模型。
进一步地,在本发明的一个实施例中,得到网络训练数据的具体步骤为:
将外层人体模型和对应的内层参数化模型进行随机旋转;
将外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上,得到训练图像;
将外层人体模型和对应的内层参数化模型做体素化,构建对应的三维体描述,得到训练时的输入三维体和目标三维体;
对目标三维体做前向投影渲染和侧向投影渲染,得到训练时的目标前向投影和侧向投影,目标前向投影和侧向投影为网络训练数据。
其中,目标前向投影和侧向投影为网络训练数据。
步骤S2,构建满足预设条件的图像特征提取网络和三维体转换网络,在最小化损失函数的条件下,利用网络训练数据对图像特征提取网络和三维体转换网络进行训练。
进一步地,在本发明的一个实施例中,构建的图像特征提取网络包括5层卷积层:第一层卷积层包括8个大小为4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4、步长为2的卷积核,每一层后均连接有一个修正线性单元,每一层的输出构成了图像在该尺度下的特征。
进一步地,在本发明的一个实施例中,构建的三维体转换网络,包括11层三维卷积层:第一层卷积层包括8个大小为4x4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4x4、步长为2的卷积核,第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元,第六层为128个大小为4x4x4、步长为2的解卷积核,第七层为64个大小为4x4x4、步长为2的解卷积核,第八层为32个大小为4x4x4、步长为2的解卷积核,第九层为16个大小为4x4x4、步长为2的解卷积核,第十层为8个大小为4x4x4、步长为2的解卷积核,第六层到第十层的每一层后均连接有一个修正线性单元,且与第一层到第五层中对应尺度的卷积层相互连接,第十一层为1个大小4x4x4、步长为1的卷积核,其后连接有一个sigmoid单元。
其中,图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入,其变换方法为:其中F(·)表示所执行的仿射变换,表示输入的三维卷积结果的第z个切片,表示输入的图像特征,α(·)和β(·)表示获得线性变换参数的卷积操作。
进一步地,在最小化损失函数的条件下,完成两个网络的训练。训练所使用的损失函数的定义为:
L=LV+λFSLFS+λSSLSS
其中,LV为三维体重建损失函数,LFS为前向投影重建损失函数,LSS为侧向投影重建损失函数,λFS和λSS对应各个约束项的权重系数。其中,
其中,γ为平衡不同体素的损失贡献的权重,为真实的目标三维体,为中坐标为(x,y,z)的体素的取值,Vo为网络输出的三维体,为Vo中坐标为(x,y,z)的体素的取值,为真实的前向投影,为中坐标为(x,y)的像素的取值,SF为网络的输出三维体的前向投影,为SF中坐标为(x,y)的像素的取值,为真实的侧向投影,为中坐标为(x,y)的像素的取值,SS为网络的输出三维体的侧向投影,为SS中坐标为(x,y)的像素的取值。
步骤S3,对测试图像进行处理得到测试图像对应的人体内层参数化模型。
具体地,对输入的测试图像,进行预处理获取对应的人体内层参数化模型。其中,所采用的获取对应人体内层模型的方法为HMR算法。
步骤S4,将测试图像和测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络,得到测试图像中人体的三维重建预测结果。
具体地,将图像和人体内层参数化模型输入网络,得到人体外层三维模型的预测结果,实现对人体的三维重建。
根据本发明实施例提出的基于深度学习的单图像人体三维重建方法,通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型,充分挖掘人体模型中各个维度的多样性,保证其泛化能力;使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络,输出对彩色图片中外层三维人体模型的预测结果,具有很强的使用性。
其次参照附图描述根据本发明实施例提出的基于深度学习的单图像人体三维重建装置。
图2为根据本发明一个实施例的基于深度学习的单图像人体三维重建装置结构示意图。
如图2所示,该基于深度学习的单图像人体三维重建装置包括:采集模块100、构建模块200、预处理模块300和重建模块400。
其中,采集模块100,用于获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,对人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据。
构建模块200,用于构建满足预设条件的图像特征提取网络和三维体转换网络,在最小化损失函数的条件下,利用网络训练数据对图像特征提取网络和三维体转换网络进行训练。
预处理模块300,用于对测试图像进行处理得到测试图像对应的人体内层参数化模型。
重建模块400,用于将测试图像和测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络,得到测试图像中人体的三维重建预测结果。
该装置基于深度学习实现,一旦网络训练完成,则使用时只需要单张彩色图片作为输入,就可以实现对图像中出现的人体的三维重建。
进一步地,在本发明的一个实施例中,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,包括:静态模型采集阶段和动作捕捉阶段;
在静态模型采集阶段,采集系统要求采集对象先进行简单的扫描动作,以实现具有纹理的静态人体外层模型的扫描和重建,以及内层参数化模型的估计;
在动作捕捉阶段,采集系统呈现随机生成的动作,并要求采集对象模仿呈现的动作,采集对象模仿完毕后,采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。
进一步地,在本发明的一个实施例中,采集模块,包括:
旋转单元,用于将外层人体模型和对应的内层参数化模型进行随机旋转;
渲染单元,用于将外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上,得到训练图像;
第一处理单元,用于将外层人体模型和对应的内层参数化模型做体素化,构建对应的三维体描述,得到训练时的输入三维体和目标三维体;
第二处理单元,用于对目标三维体做前向投影渲染和侧向投影渲染,得到训练时的目标前向投影和侧向投影,目标前向投影和侧向投影为网络训练数据。
进一步地,在本发明的一个实施例中,图像特征提取网络包括5层卷积层:第一层卷积层包括8个大小为4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4、步长为2的卷积核,每一层后均连接有一个修正线性单元;
三维体转换网络,包括11层三维卷积层:第一层卷积层包括8个大小为4x4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4x4、步长为2的卷积核,第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元,第六层为128个大小为4x4x4、步长为2的解卷积核,第七层为64个大小为4x4x4、步长为2的解卷积核,第八层为32个大小为4x4x4、步长为2的解卷积核,第九层为16个大小为4x4x4、步长为2的解卷积核,第十层为8个大小为4x4x4、步长为2的解卷积核,第六层到第十层的每一层后均连接有一个修正线性单元,且与第一层到第五层中对应尺度的卷积层相互连接,第十一层为1个大小4x4x4、步长为1的卷积核,其后连接有一个sigmoid单元;
图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入,其变换方法为:其中F(·)表示所执行的仿射变换,表示输入的三维卷积结果的第z个切片,表示输入的图像特征,α(·)和β(·)表示获得线性变换参数的卷积操作。
进一步地,在本发明的一个实施例中,最小化损失函数的定义为:
L=LV+λFSLFS+λSSLSS
其中,LV为三维体重建损失函数,LFS为前向投影重建损失函数,LSS为侧向投影重建损失函数,λFS和λSS对应各个约束项的权重系数,其中,
其中,γ为平衡不同体素的损失贡献的权重,为真实的目标三维体,为中坐标为(x,y,z)的体素的取值,Vo为网络输出的三维体,为Vo中坐标为(x,y,z)的体素的取值,为真实的前向投影,为中坐标为(x,y)的像素的取值,SF为网络的输出三维体的前向投影,为SF中坐标为(x,y)的像素的取值,为真实的侧向投影,为中坐标为(x,y)的像素的取值,SS为网络的输出三维体的侧向投影,为SS中坐标为(x,y)的像素的取值。
需要说明的是,前述对基于深度学习的单图像人体三维重建方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于深度学习的单图像人体三维重建装置,通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型,充分挖掘人体模型中各个维度的多样性,保证其泛化能力;使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络,输出对彩色图片中外层三维人体模型的预测结果,具有很强的使用性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于深度学习的单图像人体三维重建方法,其特征在于,包括以下步骤:
获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据;
构建满足预设条件的图像特征提取网络和三维体转换网络,在最小化损失函数的条件下,利用所述网络训练数据对所述图像特征提取网络和所述三维体转换网络进行训练;
对所述测试图像进行处理得到所述测试图像对应的人体内层参数化模型;
将所述测试图像和所述测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络,得到所述测试图像中人体的三维重建预测结果。
2.根据权利要求1所述的方法,其特征在于,所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,包括:静态模型采集阶段和动作捕捉阶段;
在所述静态模型采集阶段,所述采集系统要求采集对象先进行简单的扫描动作,以实现具有纹理的静态人体外层模型的扫描和重建,以及内层参数化模型的估计;
在所述动作捕捉阶段,所述采集系统呈现随机生成的动作,并要求采集对象模仿呈现的动作,采集对象模仿完毕后,所述采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。
3.根据权利要求1所述的方法,其特征在于,所述对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据,包括:
将所述外层人体模型和对应的内层参数化模型进行随机旋转;
将所述外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上,得到训练图像;
将所述外层人体模型和对应的内层参数化模型做体素化,构建对应的三维体描述,得到训练时的输入三维体和目标三维体;
对所述目标三维体做前向投影渲染和侧向投影渲染,得到训练时的目标前向投影和侧向投影,所述目标前向投影和所述侧向投影为所述网络训练数据。
4.根据权利要求1所述的方法,其特征在于,
所述图像特征提取网络包括5层卷积层:第一层卷积层包括8个大小为4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4、步长为2的卷积核,每一层后均连接有一个修正线性单元;
所述三维体转换网络,包括11层三维卷积层:第一层卷积层包括8个大小为4x4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4x4、步长为2的卷积核,第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元,第六层为128个大小为4x4x4、步长为2的解卷积核,第七层为64个大小为4x4x4、步长为2的解卷积核,第八层为32个大小为4x4x4、步长为2的解卷积核,第九层为16个大小为4x4x4、步长为2的解卷积核,第十层为8个大小为4x4x4、步长为2的解卷积核,第六层到第十层的每一层后均连接有一个修正线性单元,且与第一层到第五层中对应尺度的卷积层相互连接,第十一层为1个大小4x4x4、步长为1的卷积核,其后连接有一个sigmoid单元;
所述图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入,其变换方法为:其中F(·)表示所执行的仿射变换,表示输入的三维卷积结果的第z个切片,表示输入的图像特征,α(·)和β(·)表示获得线性变换参数的卷积操作。
5.根据权利要求1所述的方法,其特征在于,所述最小化损失函数的定义为:
L=LV+λFSLFS+λSSLSS
其中,LV为三维体重建损失函数,LFS为前向投影重建损失函数,LSS为侧向投影重建损失函数,λFS和λSS对应各个约束项的权重系数,其中,
其中,γ为平衡不同体素的损失贡献的权重,为真实的目标三维体,为中坐标为(x,y,z)的体素的取值,Vo为网络输出的三维体,为Vo中坐标为(x,y,z)的体素的取值,为真实的前向投影,为中坐标为(x,y)的像素的取值,SF为网络的输出三维体的前向投影,为SF中坐标为(x,y)的像素的取值,为真实的侧向投影,为中坐标为(x,y)的像素的取值,SS为网络的输出三维体的侧向投影,为SS中坐标为(x,y)的像素的取值。
6.一种基于深度学习的单图像人体三维重建装置,其特征在于,包括:
采集模块,用于获取测试图像,通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据;
构建模块,用于构建满足预设条件的图像特征提取网络和三维体转换网络,在最小化损失函数的条件下,利用所述网络训练数据对所述图像特征提取网络和所述三维体转换网络进行训练;
预处理模块,用于对所述测试图像进行处理得到所述测试图像对应的人体内层参数化模型;
重建模块,用于将所述测试图像和所述测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络,得到所述测试图像中人体的三维重建预测结果。
7.根据权利要求6所述的装置,其特征在于,所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型,包括:静态模型采集阶段和动作捕捉阶段;
在所述静态模型采集阶段,所述采集系统要求采集对象先进行简单的扫描动作,以实现具有纹理的静态人体外层模型的扫描和重建,以及内层参数化模型的估计;
在所述动作捕捉阶段,所述采集系统呈现随机生成的动作,并要求采集对象模仿呈现的动作,采集对象模仿完毕后,所述采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。
8.根据权利要求6所述的装置,其特征在于,所述采集模块,包括:
旋转单元,用于将所述外层人体模型和对应的内层参数化模型进行随机旋转;
渲染单元,用于将所述外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上,得到训练图像;
第一处理单元,用于将所述外层人体模型和对应的内层参数化模型做体素化,构建对应的三维体描述,得到训练时的输入三维体和目标三维体;
第二处理单元,用于对所述目标三维体做前向投影渲染和侧向投影渲染,得到训练时的目标前向投影和侧向投影,所述目标前向投影和所述侧向投影为所述网络训练数据。
9.根据权利要求6所述的装置,其特征在于,所述图像特征提取网络包括5层卷积层:第一层卷积层包括8个大小为4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4、步长为2的卷积核,每一层后均连接有一个修正线性单元;
所述三维体转换网络,包括11层三维卷积层:第一层卷积层包括8个大小为4x4x4、步长为2的卷积核,第二层卷积层16个个大小为4x4x4、步长为2的卷积核,第三层卷积层包括32个大小为4x4x4、步长为2的卷积核,第四层卷积层包括64个大小为4x4x4、步长为2的卷积核,第五层卷积层包括128个大小为4x4x4、步长为2的卷积核,第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元,第六层为128个大小为4x4x4、步长为2的解卷积核,第七层为64个大小为4x4x4、步长为2的解卷积核,第八层为32个大小为4x4x4、步长为2的解卷积核,第九层为16个大小为4x4x4、步长为2的解卷积核,第十层为8个大小为4x4x4、步长为2的解卷积核,第六层到第十层的每一层后均连接有一个修正线性单元,且与第一层到第五层中对应尺度的卷积层相互连接,第十一层为1个大小4x4x4、步长为1的卷积核,其后连接有一个sigmoid单元;
所述图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入,其变换方法为:其中F(·)表示所执行的仿射变换,表示输入的三维卷积结果的第z个切片,表示输入的图像特征,α(·)和β(·)表示获得线性变换参数的卷积操作。
10.根据权利要求6所述的装置,其特征在于,所述最小化损失函数的定义为:
L=LV+λFSLFS+λSSLSS
其中,LV为三维体重建损失函数,LFS为前向投影重建损失函数,LSS为侧向投影重建损失函数,λFS和λSS对应各个约束项的权重系数,其中,
其中,γ为平衡不同体素的损失贡献的权重,为真实的目标三维体,为中坐标为(x,y,z)的体素的取值,Vo为网络输出的三维体,为Vo中坐标为(x,y,z)的体素的取值,为真实的前向投影,为中坐标为(x,y)的像素的取值,SF为网络的输出三维体的前向投影,为SF中坐标为(x,y)的像素的取值,为真实的侧向投影,为中坐标为(x,y)的像素的取值,SS为网络的输出三维体的侧向投影,为SS中坐标为(x,y)的像素的取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910716534.7A CN110599585A (zh) | 2019-08-05 | 2019-08-05 | 基于深度学习的单图像人体三维重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910716534.7A CN110599585A (zh) | 2019-08-05 | 2019-08-05 | 基于深度学习的单图像人体三维重建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110599585A true CN110599585A (zh) | 2019-12-20 |
Family
ID=68853559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910716534.7A Pending CN110599585A (zh) | 2019-08-05 | 2019-08-05 | 基于深度学习的单图像人体三维重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110599585A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340944A (zh) * | 2020-02-26 | 2020-06-26 | 清华大学 | 基于隐式函数和人体模板的单图像人体三维重建方法 |
CN111402397A (zh) * | 2020-02-28 | 2020-07-10 | 清华大学 | 基于无监督数据的tof深度数据优化方法及装置 |
CN111768452A (zh) * | 2020-06-30 | 2020-10-13 | 天津大学 | 一种基于深度学习的非接触式自动贴图方法 |
CN111932513A (zh) * | 2020-08-07 | 2020-11-13 | 深圳市妇幼保健院 | 一种超声图像中胎儿脑沟回三维立体图像成像方法和系统 |
CN113554741A (zh) * | 2020-04-24 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 一种对象三维重建的方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198524A (zh) * | 2013-04-27 | 2013-07-10 | 清华大学 | 一种大规模室外场景三维重建方法 |
WO2017181332A1 (zh) * | 2016-04-19 | 2017-10-26 | 浙江大学 | 一种基于单幅图像的全自动三维头发建模方法 |
CN107680158A (zh) * | 2017-11-01 | 2018-02-09 | 长沙学院 | 一种基于卷积神经网络模型的三维人脸重建方法 |
CN107862741A (zh) * | 2017-12-10 | 2018-03-30 | 中国海洋大学 | 一种基于深度学习的单帧图像三维重建装置及方法 |
CN108776990A (zh) * | 2018-04-10 | 2018-11-09 | 清华大学 | 基于三阶球面谐波的动态场景高精度实时三维重建方法及系统 |
CN108805977A (zh) * | 2018-06-06 | 2018-11-13 | 浙江大学 | 一种基于端到端卷积神经网络的人脸三维重建方法 |
-
2019
- 2019-08-05 CN CN201910716534.7A patent/CN110599585A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198524A (zh) * | 2013-04-27 | 2013-07-10 | 清华大学 | 一种大规模室外场景三维重建方法 |
WO2017181332A1 (zh) * | 2016-04-19 | 2017-10-26 | 浙江大学 | 一种基于单幅图像的全自动三维头发建模方法 |
CN107680158A (zh) * | 2017-11-01 | 2018-02-09 | 长沙学院 | 一种基于卷积神经网络模型的三维人脸重建方法 |
CN107862741A (zh) * | 2017-12-10 | 2018-03-30 | 中国海洋大学 | 一种基于深度学习的单帧图像三维重建装置及方法 |
CN108776990A (zh) * | 2018-04-10 | 2018-11-09 | 清华大学 | 基于三阶球面谐波的动态场景高精度实时三维重建方法及系统 |
CN108805977A (zh) * | 2018-06-06 | 2018-11-13 | 浙江大学 | 一种基于端到端卷积神经网络的人脸三维重建方法 |
Non-Patent Citations (1)
Title |
---|
ZERONG ZHENG等: "DeepHuman:3D Human Reconstruction from a Single Image", 《ARXIV》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340944A (zh) * | 2020-02-26 | 2020-06-26 | 清华大学 | 基于隐式函数和人体模板的单图像人体三维重建方法 |
CN111340944B (zh) * | 2020-02-26 | 2022-05-17 | 清华大学 | 基于隐式函数和人体模板的单图像人体三维重建方法 |
CN111402397A (zh) * | 2020-02-28 | 2020-07-10 | 清华大学 | 基于无监督数据的tof深度数据优化方法及装置 |
CN113554741A (zh) * | 2020-04-24 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 一种对象三维重建的方法、装置、电子设备及存储介质 |
CN113554741B (zh) * | 2020-04-24 | 2023-08-08 | 北京达佳互联信息技术有限公司 | 一种对象三维重建的方法、装置、电子设备及存储介质 |
CN111768452A (zh) * | 2020-06-30 | 2020-10-13 | 天津大学 | 一种基于深度学习的非接触式自动贴图方法 |
CN111768452B (zh) * | 2020-06-30 | 2023-08-01 | 天津大学 | 一种基于深度学习的非接触式自动贴图方法 |
CN111932513A (zh) * | 2020-08-07 | 2020-11-13 | 深圳市妇幼保健院 | 一种超声图像中胎儿脑沟回三维立体图像成像方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599585A (zh) | 基于深度学习的单图像人体三维重建方法及装置 | |
CN111340944B (zh) | 基于隐式函数和人体模板的单图像人体三维重建方法 | |
CN112465718B (zh) | 一种基于生成对抗网络的两阶段图像修复方法 | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN109214989B (zh) | 基于多方向特征预测先验的单幅图像超分辨率重建方法 | |
Liu et al. | A high-definition diversity-scene database for image quality assessment | |
CN111080531B (zh) | 一种水下鱼类图像的超分辨率重建方法、系统及装置 | |
CN114049434B (zh) | 一种基于全卷积神经网络的3d建模方法及系统 | |
US11727628B2 (en) | Neural opacity point cloud | |
CN112750201B (zh) | 三维重建方法及相关装置、设备 | |
CN111667407B (zh) | 一种深度信息引导的图像超分辨率方法 | |
CN113284061B (zh) | 一种基于梯度网络的水下图像增强方法 | |
CN113592726A (zh) | 高动态范围成像方法、装置、电子设备和存储介质 | |
CN113240622A (zh) | 人体场景图像本征分解与重光照方法和装置 | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
He et al. | Remote sensing image super-resolution using deep–shallow cascaded convolutional neural networks | |
CN114049464A (zh) | 一种三维模型的重建方法及设备 | |
CN112163998A (zh) | 一种匹配自然降质条件的单图像超分辨率分析方法 | |
Xu et al. | Infrared and visible image fusion using a deep unsupervised framework with perceptual loss | |
Zheng et al. | Double-branch dehazing network based on self-calibrated attentional convolution | |
CN115511722A (zh) | 基于深浅特征融合网络及联合损失函数的遥感图像去噪方法 | |
Kumar et al. | Underwater image enhancement using deep learning | |
Li | Image super-resolution algorithm based on RRDB model | |
CN117291855B (zh) | 高分辨率图像融合方法 | |
CN117422927B (zh) | 一种乳腺超声图像分类方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |