CN113313828A

CN113313828A - 基于单图片本征图像分解的三维重建方法与系统

Info

Publication number: CN113313828A
Application number: CN202110547353.3A
Authority: CN
Inventors: 方彬彬; 肖南峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-27
Anticipated expiration: 2041-05-19
Also published as: CN113313828B

Abstract

本发明公开了一种基于单图片本征图像分解的三维重建方法与系统，包括：采集多个物体的模型数据；利用反照率梯度指标与光照梯度指标改造视角图片，得到反照率梯度图和光照梯度图；利用反照率梯度图分割光照梯度图，在光照梯度图的各个区域内使用梯度场重建算法获得视角图片的光照图，再根据本征图像分解的原理获得视角图片的反射图；训练三维RGB重建网络；根据训练学习得到的三维RGB重建网络对新图片产生的光照图和反射图进行预测，得到新图片中物体的三维RGB模型，完成对物体的三维重建。本发明创新地采用了本征图像分解作为图片的预处理，从单张图片恢复物体的完整三维形状与表面色彩，为后续的三维模型操作奠定基础。

Description

基于单图片本征图像分解的三维重建方法与系统

技术领域

本发明涉及计算机视觉的技术领域，尤其是指一种基于单图片本征图像分解的三维重建方法与系统。

背景技术

三维重建是指在二维图片中获取物体三维信息的技术，是计算机视觉中基础且困难的一个不适定问题(ill-posed problem)。虽然单张图片可以找到无数个三维模型与之对应，但由于现实世界中物体的三维模型趋向表面连通且光滑，并且形状与基本几何体或组合几何体相近，如果利用一些先验知识，从单张图片也能重建出逼真的三维模型。在传统单图片重建方法中有结合明暗、纹理、轮廓、对称等先验知识进行重建的方法，这类方法统称为Shape from X，其中较受关注的是从明暗关系恢复形状的方法(Shape From Shading,SFS)，该方法是基于假设物体所处光照环境与物体表面反射模型的一种重建算法。SFS通常结合亮度约束和表面光滑等约束，从照片亮度变化解出物体表面法向量或梯度来恢复三维形状。合理假设光照环境和反射模型是SFS恢复逼真模型的关键线索，两者是单图片重建的重要信息。其中光照环境与能够恢复三维形状的光照方向、观察方向与表面法向量有关，反射模型则与物体自身的材质有关，而蕴含光照环境和反射模型的信息可在一张图片中以一定方法相互分离，分离两者的方法可通过本征图像分解来完成。将分离的部分而不是整张图片作为三维重建的原始信息的做法在一定程度上加强了单图片重建的先验知识。

本征图像分解是将一张图片分解为光照图和反射图的方法，光照图蕴含光照环境的信息，反射图蕴含反射模型的信息，光照图与反射图相乘可以得到原图片。AnilS.Baslamisli等人(A.S.Baslamisli,Y.Liu,S.Karaoglu,and T.Gev-ers,“Physics-basedShading Reconstruction for Intrinsic Image Decomposition,”arXiv preprintarXiv:2009.01540,2020.)基于双色反射模型提出可以捕捉光照量和反射量变化的指标，以一种无监督的方式得到了本征图像分解的结果。这意味着光照图作为三维形状的原始数据可以免受颜色变化的干扰，恢复出更加逼真的三维形状。

如今结合深度学习的单图片三维重建方法是解决单图片对应无数三维模型的一大途径，深度学习卓越的感受与推理能力使算法可以在二维图片中学习到合理的三维信息。以得出的三维模型表示形式来看，深度学习三维重建方法可分为三类：以推断出三维表面点云坐标，推断占据三维物体的体素分布和推断三维网面的点边信息。相比点云和体素，三角形化网面使用顶点和边的属性就能表示一个面上所有点的信息，具有更高的表示效率，同时，三角形网面是众多渲染软件的常用处理格式之一，便于三维模型建成之后的后续处理。Nanyang Wang等人(N.Wang,Y.Zhang,Z.Li,Y.Fu,H.Yu,W.Liu,et al.,"Pixel2Mesh:3D mesh model generation via image guided deformation",IEEE Trans.PatternAnal.Mach.Intell.,Apr.2020.)使用单张图片作为三维信息的来源，通过以图卷积为主要特点的深度神经网络将一个椭球体网面形变成物体的三维网面模型，同时通过投影映射和双线性插值的方法将二维图片的特征与图卷积的点边特征联系起来。该方法只需单张图片就恢复了物体完整的三维结构，但恢复三维物体表面的颜色信息时是采用预测三维结构的神经网络末尾的一个小分支进行预测，并没有整合原图片的信息，在通过单张图片预测三维物体表面颜色的情况下效果不佳。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种基于单图片本征图像分解的三维重建方法，基于本征图像分解对输入图片进行处理，得到与三维形状相关的光照图和物体材质信息相关的反射图，再将本征图像分解的结果输入三维RGB重建网络，得到与图片对应的三维RGB模型。

本发明的第二目的在于提供一种基于单图片本征图像分解的三维重建系统。

本发明的第一目的通过下述技术方案实现：基于单图片本征图像分解的三维重建方法，包括以下步骤：

S1、采集多个物体的模型数据，包括三维RGB模型及与每个三维RGB模型对应的视角图片；

S2、利用反照率梯度指标与光照梯度指标改造视角图片，得到反照率梯度图和光照梯度图；

S3、利用反照率梯度图分割光照梯度图，在光照梯度图的各个区域内使用梯度场重建算法获得视角图片的光照图，再根据本征图像分解的原理获得视角图片的反射图；

S4、训练三维RGB重建网络；其中，三维RGB重建网络训练过程中以光照图和反射图作为输入，以三维RGB模型作为输出，所述三维RGB重建网络的结构包含形变网络和RGB网络；

S5、根据训练学习得到的三维RGB重建网络对新图片产生的光照图和反射图进行预测，得到新图片中物体的三维RGB模型，完成对物体的三维重建。

所述步骤S1的具体过程如下：

S101、使用RGBD相机在多个固定的视角采集多帧图片，选取视角时确保这多帧图片能够捕捉到物体的完整表面；

S102、根据多帧图片恢复得到多个RGB点云，对多个RGB点云进行滤波、配准和融合，最终得到物体的三维RGB点云模型；

S103、使用RGB摄像头，对物体或RGB摄像头进行随机的旋转和位移，之后对物体多次进行拍摄，选取一张能丰富展示物体形状信息的图片作为与三维RGB模型对应的视角图片；

S104、利用贪婪投影三角化算法将三维点云模型网面化生成三维RGB模型。

所述步骤S2的具体过程如下：

利用反照率梯度指标

和光照梯度指标

分别处理视角图片，分别得到反照率梯度图和光照梯度图，其中R、G、B分别为训练图片某像素位置的R、G、B分量，Δ算子为视角图片中相邻像素之间计算值的差值，反照率梯度图中不为0的AGI值将反照率梯度图划分为多个同质化区域，这些同质化区域有不同的反照率。

所述步骤S3的具体过程如下：

S301、利用反照率梯度图中不同反照率的同质化区域，将光照梯度图划分成多个不同的光照梯度场，利用表面梯度重建算法，从多个光照梯度场重建组合出光照图；

S302、基于本征图像分解的原理，利用光照图得到反射图。

所述步骤S4的具体过程如下：

S401、将对视角图片进行本征图像分解而来的光照图和反射图与三维RGB模型对应起来，形成图-模型对，以图-模型对为单位将采集的三维RGB模型与对应的光照图和反射图划分成训练集和验证集，训练集与验证集交集为空；

S402、在训练集上，将光照图输入到形变网络中，会输出三维RGB模型的顶点坐标和顶点上的形变特征，使用输出的三维RGB模型的顶点坐标与训练集上图-模型对中的三维RGB模型计算损失函数，训练形变网络直至损失函数收敛；在验证集上，将光照图输入到形变网络中，得到预测的三维RGB模型的顶点坐标，计算与图-模型对中三维RGB模型顶点坐标的差异，评估形变网络的性能；其中，光照图到三维RGB模型的顶点坐标和顶点上的形变特征的变化步骤如下：

S4021、光照图经过编码器和解码器，所述编码器重复卷积和下采样操作，所述解码器重复卷积和上采样操作；

S4022、在解码器的多层结构中，取两个不同中间层的输出和最后一层的输出作为低、中、高分辨率的图像特征；

S4023、利用相机内参形成的投影关系将初始球面投影到视角图片所在的图像平面，利用双线性插值法为初始球面顶点赋予低分辨率的图像特征插值形成的低分辨率顶点图像特征；其中，初始球面的形成步骤如下：

S40231、初始化一个正八面体，连接正八面体每个正三角形面各边的中点，一个正三角形面会被细分为四个小正三角形面，对每个正三角形面递归地细分下去，得到一个多顶点和正三角形面的封闭曲面；

S40232、将封闭曲面的顶点坐标进行归一化，再进行尺度伸缩，生成初始球面；

S4024、在第一个图卷积模块中，将低分辨率顶点图像特征与第一个图卷积层节点上的特征拼接起来，经过后续多个图卷积层的处理，得到第一图模块特征；其中，图卷积模块包含多个结构相同的图卷积层，形变网络中共有三个图卷积模块；第一个图卷积模块中每个图卷积层的节点数与初始球面的顶点数相同；第一图模块特征前三维描述了顶点坐标，其它维描述了顶点上的形变特征；

S4025、根据第一个图卷积模块特征恢复出网面，连接网面的各边中点，再利用步骤S4023中的投影关系与双线性插值法将中分辨率的图像特征映射到网面上，形成中分辨率顶点图像特征，中分辨率顶点图像特征经过类似低分辨率顶点图像特征与第一个图卷积模块的处理，递推地，在第二个图卷积模块的处理下形成了第二图模块特征；

S4026、递推地，类似步骤S4025，根据第二图模块特征，第三个图卷积模块输出了形变网络所输出的三维RGB模型的顶点坐标和顶点上的形变特征；

S403、在训练集上，将形变网络得到的顶点上的形变特征与反射图输入到RGB网络中，会输出三维RGB模型的RGB值；使用三维RGB模型的RGB值与训练集上图-模型对中的三维RGB模型计算损失函数，训练形变网络直至损失函数收敛；在验证集上，将反射图输入到RGB网络中，得到预测的三维RGB模型的RGB值，计算与图-模型对中三维RGB模型的RGB值的差异，评估形变网络的性能；其中，反射图到三维RGB模型的RGB值的变化步骤如下：

S4031、将从反射图得到的顶点上的映射图像特征与形变网络得到的顶点上的形变特征进行1×1卷积融合形成融合特征；其中，顶点上的映射图像特征的生成步骤如下：

S40311、反射图经过编码器和解码器，输出反射图像特征；其中编码器和解码器的结构与步骤S4021所述的编码器和解码器结构相同；

S40312、利用步骤S4023中的投影关系与双线性插值法，将反射图像特征映射到形变网络得到的顶点坐标上，得到映射图像特征；

S4032、将融合特征输入颜色图卷积模块进行处理，输出结果作为RGB网络的输出：三维RGB模型的RGB信息；其中颜色图卷积模块的结构与第三个图卷积模块的结构相同。

所述步骤S5的具体过程如下：

S501、选择一张能够展现物体细节的新图片，执行步骤S2得到光照图、反射图；其中，新图片并不存在于训练集与验证集中；

S502、将光照图输入形变网络，得到只有形状信息的三维模型；将三维模型与反射图输入RGB网络，得到具有形状和颜色信息的三维RGB模型；

S503、对三维RGB模型进行后处理，利用高洛德着色的方法为面片进行颜色插值填充，得到最终的三维RGB模型，完成对物体的三维重建。

本发明的第二目的通过下述技术方案实现：基于单图片本征图像分解的三维重建系统，包括：

数据获取单元，用于采集多个物体的模型数据；其中，采集的模型数据包括三维RGB模型及与每个三维RGB模型对应的视角图片；所述三维RGB模型获取过程包括对RGBD相机采集的多帧图片进行点云的恢复、滤波、配准、融合以及网面化；所述视角图片与三维RGB模型对应，为RGB摄像头拍摄物体所得的图片；

图片处理单元，利用反照率梯度指标与光照梯度指标改造视角图片，得到反照率梯度图和光照梯度图，利用反照率梯度图分割光照梯度图，在光照梯度图的各个区域内使用梯度场重建算法获得视角图片的光照图，再根据本征图像分解的原理获得视角图片的反射图；

三维RGB重建网络训练单元，用于训练三维RGB重建网络；其中，三维RGB重建网络训练过程中以光照图和反射图作为输入，以三维RGB模型作为输出，所述三维RGB重建网络的结构包含了形变网络和RGB网络；所述形变网络的输入为光照图，输出为三维RGB模型的顶点坐标和顶点上的形变特征；所述RGB网络的输入为反射图和形变网络的输出，输出为三维RGB模型的RGB值；结合形变网络和RGB网络的输出可以得到完整的三维RGB模型；

三维重建单元，根据训练学习得到的三维RGB重建网络对新图片产生的光照图和反射图进行预测，得到新图片中物体的三维RGB模型，完成对物体的三维重建；其中，新图片利用图片处理单元得到光照图和反射图，输入到训练好的三维RGB重建网络得到具有形状和颜色信息的三维RGB模型，之后利用高洛德着色的方法对三维RGB模型进行后处理，得到最终的三维RGB模型，完成对物体的三维重建。

本发明与现有技术相比，具有如下优点与有益效果：

1、相比于多视角重建而言，本发明使用时只需输入单张图片与相机参数就能够完成三维形状的重建，无需确定多视角图片相机的相对位置关系与多视角图片之间特征的匹配等问题。

2、本发明利用本征图像分解作为图像的预处理，分离了可能影响三维重建准确率的颜色变化等材质信息，将分解结果的光照图用于重建形状的输入信息，反射图用于推断重建模型的颜色信息，且此预处理过程相当方便快捷，无需使用到任何机器学习的方法就能完成分解，节省了本发明应用过程中的计算机硬件消耗。

3、本发明最后生成的三维模型为三角形网面的表示形式，便于现有三维软件进行展示与渲染等后续处理，在影视制作、虚拟现实、人机交互等方面啊具有很高的使用价值。

4、本发明重建的三维模型带有RGB颜色，能够更加直观地展现模型与图片之间特征的对应，加强重建模型的演示效果。

5、本发明在从单张图片预测三维模型表面颜色的过程中，整合了原图片中表示物体材质信息的分解成分-反射图，使得预测过程更具鲁棒性。

附图说明

图1为本发明方法的流程示意图。

图2为本征图像分解的分解结果展示图。

图3为三维RGB重建网络结构示意图。

图4为本发明系统的架构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1所示，本实例所提供的基于单图片本征图像分解的三维重建方法，包括以下步骤：

S1、采集多个物体的模型数据，具体过程如下：

S101、使用RGBD相机在多个固定的视角采集多帧图片，选取视角时确保这多帧图片能够捕捉到物体的完整表面，(例如从正视物体的视角为起始顺时针每60度取一视角，总共6个视角去采集图片)；

S102、根据

从多帧图片恢复得到多个RGB点云，其中u,v为多帧图片在图像坐标系的横、纵坐标，x,y,z为三维点云在世界坐标系的横、纵、竖直坐标，R_obj为物体的旋转矩阵，T为物体的位移矩阵，Π(·)为三维模型到二维图片的投影关系，f_x和f_y分别由相机焦距除以相机拍摄图像的长和宽得出，c_x和c_y为相机拍摄图像长宽尺寸的一半，R_cam为相机的3X3旋转矩阵，

为相机中心在世界坐标系的非齐次坐标，对多个RGB点云进行滤波、配准和融合，最终得到物体的RGB三维点云模型；

S103、使用普通的RGB摄像头，对物体或RGB摄像头进行随机的旋转和位移，之后对物体多次进行拍摄，选取一张能丰富展示物体形状信息的图片作为与三维RGB模型对应的视角图片；其中，视角图片的分辨率160X128；

S2、利用反照率梯度指标与光照梯度指标改造视角图片，得到反照率梯度图和光照梯度图，具体过程如下：

S201、利用Anil S.Baslamisli等人(A.S.Baslamisli,Y.Liu,S.Karaoglu,andT.Gev-ers,“Physics-based Shading Reconstruction for Intrinsic ImageDecomposition,”arXiv preprint arXiv:2009.01540,2020.)提出的反照率梯度指标

和

分别处理视角图片，其中R、G、B分别为训练图片某像素位置的R、G、B分量，Δ算子为相邻像素之间计算值的差值，分别得到反照率梯度图DZ_albe和光照梯度图DZ_illu；Δ算子的一种计算方式可以参考公式：

其中f为任意一个二元函数，u，v为f的自变量(例如在图像坐标系中，u，v为横、纵坐标)，u+1和v+1需要满足在f的定义域内；DZ_albe中不为0的AGI值将图片划分为不同的区域，这些区域有不同的反照率。

S3、利用反照率梯度图分割光照梯度图，在光照梯度图的各个区域内使用梯度场重建算法获得视角图片的光照图，再根据本征图像分解的原理获得视角图片的反射图(分解结果如图2所示)，具体过程如下：

S301、设置阈值0.01，将反照率梯度图中值大于0.01置1，小于0.01置0，得到二值掩码图并乘以光照梯度图，会将光照梯度图划分成多个不同的光照梯度场，利用Harker&O'Leary公开的全局最小二乘表面梯度重建算法，从每个光照梯度场重建出携带光照信息和表面法向量信息的光照图；这里将光照图表示为：

Z_illu＝grad2surf(grid_u,grid_v,grid_Zu,grid_Zv)

grad2surf的功能通过python中pygrad2surf模块以实现，其中Z_illu为重建后所得的光照图，grid_u,grid_v为常见函数meshgird生成的具有一定分辨率的二维网格坐标的横、纵坐标，grid_Zu,grid_Zv则是根据梯度图(例如光照梯度图)插值形成与grid_u,grid_v同网格位置的梯度值；

S302、基于本征图像分解的原理，将视角图片的R、G、B分量值分别除以光照图对应像素位置的值，得到反照图。

S4、训练三维RGB重建网络，三维RGB重建网络的结构如图3所示，训练的具体过程如下：

S401、将对视角图片进行本征图像分解而来的光照图和反射图与三维RGB模型对应起来，形成图-模型对，以图-模型对为单位将采集的三维RGB模型与对应的光照图和反射图划分成训练集和验证集，所述训练集与验证集交集为空；

S402、在训练集上，将光照图输入到形变网络中，会输出三维RGB模型的顶点坐标和顶点上的形变特征，使用输出的三维RGB模型的顶点坐标与训练集上图-模型对中的三维RGB模型计算损失函数，训练形变网络直至损失函数收敛；所述损失函数继承Pixel2Mesh(N.Wang,Y.Zhang,Z.Li,Y.Fu,H.Yu,W.Liu,et al.,"Pixel2Mesh:3D mesh modelgeneration via image guided deformation",IEEE Trans.PatternAnal.Mach.Intell.,Apr.2020.)的损失函数，使用倒角距离项l_c作为损失函数的主体，再加权法向量项l_n、拉氏正则项l_lap和边长正则项l_loc，具体构成如下：

其中p,q分别是估计网面与真实网面的顶点坐标，l_n、l_lap、l_loc中p,q的定义也与此相同；

其中k为p的邻接点(N(p)为p的邻接点)，l_lap、l_loc中k的定义与此相同，<·,·>为内积，n_q为q点法向量；

其中

δ_p′和δ_p为变形后与变形前拉氏坐标；

总的损失函数为l＝λ_cl_c+λ₁l_n+λ₂l_lap+λ₃l_loc，其中权重系数λ_c＝1，λ₁＝3.2e-4，λ₂＝0.6，λ₃＝0.2；

在验证集上，将光照图输入到形变网络中，得到预测的三维RGB模型的顶点坐标，计算与图-模型对中三维RGB模型顶点坐标的差异，评估形变网络的性能；其中，光照图到三维RGB模型的顶点坐标和顶点上的形变特征的变化步骤为：

S4023、利用相机内参形成的投影关系将初始球面投影到视角图片所在的图像平面，利用双线性插值法为初始球面顶点赋予低分辨率的图像特征插值形成的低分辨率顶点图像特征；其中，初始球面的形成步骤为：

S40231、初始化一个正八面体，连接正八面体每个正三角形面各边的中点，一个正三角形面会被细分为四个小正三角形面，对每个正三角形面递归地细分下去，得到一个足够多顶点和正三角形面的封闭曲面；设细分次数为s，则球面的顶点数为4^s+1+2，最开始可进行3次拆分获得一个顶点数为258的封闭曲面；

S4026、递推地，类似步骤S4025，根据第二个图模块特征，第三个图卷积模块输出了形变网络所输出的三维RGB模型的顶点坐标和顶点上的形变特征；

S403、在训练集上，将形变网络得到的顶点上的形变特征与反射图输入到RGB网络中，会输出三维RGB模型的RGB值；使用三维RGB模型的RGB值与训练集上图-模型对中的三维RGB模型计算损失函数，训练形变网络直至损失函数收敛；所述损失函数为：

其中p,q分别是估计网面与真实网面的顶点坐标，R(·)表示该点的RGB向量；

在验证集上，将反射图输入到RGB网络中，得到预测的三维RGB模型的RGB值，计算与图-模型对中三维RGB模型的RGB值的差异，评估形变网络的性能；其中，反射图到三维RGB模型的RGB值的变化步骤为：

S4031、将从反射图得到的顶点上的映射图像特征与形变网络得到的顶点上的形变特征进行1×1卷积融合形成融合特征；其中，顶点上的映射图像特征的生成步骤为：

S40311、反射图经过编码器和解码器，输出反射图像特征；其中编码器和解码器的结构与步骤S4021所述的编码器和解码器的结构相同；

S5、根据训练学习得到的三维RGB重建网络对新图片产生的光照图和反射图进行预测，得到新图片中物体的三维RGB模型，完成对物体的三维重建，具体过程如下：

S501、选择一张尽可能展现物体细节的新图片，执行步骤S2得到光照图、反射图；其中，新图片并不存在于训练集与验证集中；

参见图4所示，本实施例也提供了一种基于单图片本征图像分解的三维重建系统，包括：

数据获取单元，用于采集多个物体的模型数据；其中，采集的模型数据包括三维RGB模型及与每个三维RGB模型对应的视角图片；所述三维RGB模型获取过程包括对RGBD相机采集的多帧图片进行点云的恢复、滤波、配准、融合以及网面化；所述视角图片与三维RGB模型对应，为普通的RGB摄像头拍摄物体所得的图片；

综上所述，在采用以上方案后，本发明提供了一种从单张图片恢复物体的完整三维形状与表面色彩的方法与系统，具有实际推广价值与应用价值。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于单图片本征图像分解的三维重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单图片本征图像分解的三维重建方法，其特征在于，所述步骤S1的具体过程如下：

3.根据权利要求1所述的基于单图片本征图像分解的三维重建方法，其特征在于，所述步骤S2的具体过程如下：

利用反照率梯度指标

和光照梯度指标

分别处理视角图片，分别得到反照率梯度图和光照梯度图，其中R、G、B分别为训练图片某像素位置的R、G、B分量，_Δ算子为视角图片中相邻像素之间计算值的差值，反照率梯度图中不为0的AGI值将反照率梯度图划分为多个同质化区域，这些同质化区域有不同的反照率。

4.根据权利要求1所述的基于单图片本征图像分解的三维重建方法，其特征在于，所述步骤S3的具体过程如下：

S302、基于本征图像分解的原理，利用光照图得到反射图。

5.根据权利要求1所述的基于单图片本征图像分解的三维重建方法，其特征在于，所述步骤S4的具体过程如下：

6.根据权利要求1所述的基于单图片本征图像分解的三维重建方法，其特征在于，所述步骤S5的具体过程如下：

7.基于单图片本征图像分解的三维重建系统，其特征在于，包括：