CN113362447A

CN113362447A - 一种表面法线重建融合系统及重建融合方法

Info

Publication number: CN113362447A
Application number: CN202110572831.6A
Authority: CN
Inventors: 徐超; 曾康辉; 孟昭鹏; 胡静; 肖健
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-07
Anticipated expiration: 2041-05-25
Also published as: CN113362447B

Abstract

本发明公开了一种表面法线重建融合系统，包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块；立体视觉模块A包括光照估计子模块和法线估计子模块；光照估计子模块用于提取照片的光照特征；法线估计子模块用于输入照片及照片的光照特征，提取物体的表面法向量；立体视觉模块B包括：反映法向量、光照特征值与像素值之间联系的关系模型，以及约束条件为最大散度等于0的散度模型；立体视觉模块A和立体视觉模块B的输出均输入至融合模块，融合模块输出最终的物体表面法向量。本发明还公开了一种表面法线重建融合方法。本发明提高深度学习的泛化能力及最终的预估法向量精度。

Description

一种表面法线重建融合系统及重建融合方法

技术领域

本发明涉及一种表面法线重建方法，特别涉及一种表面法线重建融合系统及重建融合方法。

背景技术

目前，三维重建是计算机视觉的重要领域。近年来，随着技术的不断迭代与发展，三维重建的速度与精度已经得到巨大的提升。作为环境感知的关键技术之一，许多的三维重建方法已经可以用于具体商业产业及领域，如自动驾驶、虚拟现实、增强现实、土木工程、医疗。此外，日益提倡的以人为本，让人因工程的概念出现在人们的视野中。人因工程的理念突出机器适应人，以便于人更好的使用机器，完成任务。而人因工程的关键在于人与机器的交互，三维重建作为计算机视觉的重要领域，是机器完成人机交互的重要一环，如何利用算法获得精细的物体细节是重建的关键，是机器更好的与人交互的关键，也是人因工程的关键。

一般来说，主流的三维重建方法可以分成两大类：基于几何的三维重建方法和基于光学的三维重建方法。其中基于几何的传统三维重建方法是利用重建场景的不同角度拍摄的多张图像作为输入，通过运动恢复结构算法获得重建场景的相机姿态和稀疏粗糙的点云，然后利用多视图立体几何算法将粗糙的点云转化为稠密的点云，最后利用泊松重建算法，获得场景的三维模型。这类型的方法的缺陷是重建速度慢，对纹理弱的区域重建精度低。由于基于几何的三维重建方法对细节重建精度较低，因此本方法采用基于光学的三维重建方法。近年来，随着深度学习的迅速发展，基于光学的三维重建方法的主流方法慢慢转向深度学习算法。在传统算法中，光度立体视觉法PS(Photometric Stereo)，未标定的光度立体视觉法UPS(Uncalibrated Photometric Stereo)，相比于基于几何的三维重建方法都能获得不错的细节精度，其中标定的光度立体法是利用重建场景同视角的不同光照情况下拍摄的多张照片及光照信息作为输入，使用漫射模型解出场景的法向量，然后对法向量积分得到三维模型，而未标定的光度立体法是利用重建场景单一视角的不同光照情况下拍摄的多张照片作为输入，对输入进行奇异值分解得到形状近似，然后利用线索约束，如最大散度法将广义浮雕歧义转换为二义问题。因为标定的光度立体视觉法输入的严苛，还有未标定光度立体视觉法的二义性问题，导致其应用不如基于几何的三维重建方法普及。深度学习的出现解决了传统算法的问题，在深度学习中，利用海量的合成样本训练多层次的神经网络，通过深度学习挖掘当前公式不能表达的未知而泛化的输入照片与输出法向量的关系，解决了光度立体视觉法的严苛输入问题及未标定光度立体视觉法的二义性问题，但由于神经网络的特殊性，无法解释具体每一层的意义，因为并没有将以往的经验知识完全用上，在面对训练样本以外的输入时，可能会出现效果较差的情况。

总之，传统的算法存在输入严苛或输出二义性的问题；而深度学习网络中间层的不可解释性，使得深度学习虽然在面对训练样本类型的输入时有好的结果，但面对训练样本类型以外的输入时，可能会出现较差的情况。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种表面法线重建融合系统及重建融合方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种表面法线重建融合系统，包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块；

立体视觉模块A包括光照估计子模块和法线估计子模块；光照估计子模块用于提取照片的光照特征；法线估计子模块用于输入照片及照片的光照特征，提取物体的表面法向量；

立体视觉模块B包括：反映法向量、光照特征值与像素值之间联系的关系模型，以及约束条件为最大散度等于0的散度模型；关系模型用于对像素值进行奇异值分解得到伪法向量和伪光照特征，散度模型用于由伪法向量和伪光照特征来求解照片中红绿蓝三基色在X、Y、Z轴方向法向量；

立体视觉模块A和立体视觉模块B的输出均输入至融合模块，融合模块输出最终的物体表面法向量。

进一步地，光照估计子模块包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的全连接层单元；每个全连接层单元包括两个串接的全连接层。

进一步地，法线估计子模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。

进一步地，融合模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。

进一步地，法线估计子模块的损失函数如下式(1)所示：

式中：

L_NORMAL为法线估计子模块的损失；

h为照片的宽；

w为照片的高；

n_i作为预测的法向量；

为真值法向量。

进一步地，反映法向量、光照特征值与像素值之间联系的关系模型如下式(2)所示：

式中：

I_p，k为p像素点在k光照情况下的像素值；

ρ_p为反照率；

n_P为p像素的单位法向量；

l_k为k光照情况的光照方向；

e_k为k光照情况的光照强度；

为p像素的一般法向量；

L_k为k光照情况的光照向量；

由式(2)得到下式(3)：

I＝N^TG^-1GL (3)

其中

式中：

I为像素矩阵；矩阵中元素为I_p，k；

N^T为按字典排序重排像素组成的一般法向量矩阵；

L为按字典排序重排像素组成的光照向量矩阵；

G为3*3的待求解转换线性矩阵；

μ为GBR转换的待求解未知数之一；

γ为GBR转换的待求解未知数之二；

λ为GBR转换的待求解未知数之三，且λ不等于0。

进一步地，散度模型的表达式如下式(4)所示：

设局部漫反射为

则

式中：

为像素散度；

为反照率散度；

为单位法向量矩阵散度；

ρ_P为反照率；

为单位法向量矩阵；

L_k为光照方向矩阵；

e_k为光照强度。

本发明还提供了一种表面法线重建融合方法，该方法为：建立基于深度学习的未标定光度的立体视觉模块A，建立基于最大散度的未标定光度的立体视觉模块B，建立基于深度学习的融合模块；

在立体视觉模块A中设置光照估计子模块和法线估计子模块；采用光照估计子模块提取照片的光照特征；采用法线估计子模块，使其输入照片及由光照估计子模块提取的照片的光照特征，使其输出物体的表面法向量；

在立体视觉模块B中设置：反映法向量、光照特征值与像素值之间联系的关系模型，以及约束条件为最大散度等于0的散度模型；先通过关系模型对像素值进行奇异值分解得到伪法向量和伪光照特征，再通过散度模型求解照片中红绿蓝三基色在X、Y、Z轴方向法向量；

使立体视觉模块A和立体视觉模块B的输出，输入至融合模块，使融合模块输出最终的物体表面法向量。

进一步地，立体视觉模块A及融合模块均采用由blender软件合成的虚拟数据集进行训练。

进一步地，训练采用的参数为：batch_size为12～20，epochs为15～25，input_nums为25～40。

本发明具有的优点和积极效果是：本发明的一种表面法线重建融合系统，设置基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块；立体视觉模块A，通过深度学习光照情况计算物体的表面法向量，立体视觉模块B通过数学模型得到相应的最大散度线索，通过融合模块，将立体视觉模块A和立体视觉模块B的分析结果作为输入，进一步进行深度学习，得到最终的表面法向量，这样能够结合深度学习和数学模型的两者各自的优点，充分利用了传统方法的泛化能力及深度学习方法处理二义性问题的能力，通过深度学习方法指导传统方法解决二义性问题，然后通过传统方法规范深度学习的方向，大大降低深度学习的不可解释性，加快深度学习的收敛速度，提高深度学习的泛化能力及最终的预估法向量精度。

附图说明

图1为本发明的一种表面法线重建融合系统工作流程图。

图2为本发明的一种基于深度学习的未标定光度的立体视觉模块A工作流程图。

图3为本发明的一种光照估计子模块结构示意图。

图4为本发明的一种法线估计子模块结构示意图。

图5为本发明的一种融合模块结构示意图。

图中：c表示拼接处理；N表示归一化处理。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

本申请中的一些英文及英文缩写的中文注释如下：

Batch：每次送入网络中训练的一部分数据；

batch_size：每个batch中训练样本的数量；

epochs：所有的数据送入网络中完成一次前向计算及反向传播的过程；

input_nums：每个样本输入的照片的数量；

Blender：一款开源的跨平台三维动画制作渲染软件；

GBR转换：广义浅浮雕转换。

请参见图1至图5，一种表面法线重建融合系统，包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块；

立体视觉模块A基于深度学习网络构建，其包括光照估计子模块和法线估计子模块；光照估计子模块和法线估计子模块均由深度学习网络构建；光照估计子模块用于提取照片的光照特征；法线估计子模块用于输入照片及照片的光照特征，提取物体的表面法向量；

立体视觉模块B基于数学模型构建，其包括：反映法向量、光照特征值与像素值之间联系的关系模型，以及约束条件为最大散度等于0的散度模型；关系模型用于对像素值进行奇异值分解得到伪法向量和伪光照特征，散度模型用于由伪法向量和伪光照特征来求解照片中红绿蓝三基色在X、Y、Z轴方向法向量；

融合模块基于深度学习网络构建。立体视觉模块A和立体视觉模块B的输出,以及待重建的照片均输入至融合模块，融合模块输出最终的物体表面法向量。

进一步地，光照估计子模块可包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的全连接层单元；每个全连接层单元可包括两个串接的全连接层。

给卷积层排序，则光照估计子模块可包括依次连接的第一至第七卷积层、最大池化层、第八至第十一卷积层、两个并接的第一、二全连接层单元；第一或第二全连接层单元包括第一、二全连接层。

其中，光照估计子模块的第一、二、四、六、九、十、十一卷积层的卷积核大小是4*4，步长为2；其第三、五、七、八卷积层的卷积核大小是3*3，步长为1；其所有卷积层都带有激活函数Relu；其最大池化层是取所有batch中各像素点最大的值；其第一卷积层将输入的3维提高为32维，然后其第二卷积层将维度提高到64维，其第三卷积层将维度提高到128维，其第七卷积层将维度提高到256维，其第八卷积层将维度降低到128维，其第一全连接层单元将维度降低到64维，其第二全连接层单元中的第一全连接层将维度提高到72维预估光照方向，其第二全连接层单元中的第二全连接层将维度降低到20维预估光照强度。

可使用如下损失函数来对光照估计子模块进行评估并纠正，以获得更好的结果：

式中

表示光照估计子模块的综合损失，

μ_e是作为权重，训练中根据经验一般为1。

表示光照的仰角损失，

表示光照的方位角损失，

表示光照的强度损失。

进一步地，法线估计子模块可包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。

给卷积层排序，则法线估计子模块可包括依次连接的第一至五卷积层、第一反卷积层、第六卷积层、最大池化层、第七至八卷积层、第二反卷积层、第九卷积层和L2正则化层。

其中，法线估计子模块的第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3，步长可为1；其第二、四卷积层的卷积核大小可为4*4，步长为2；其第一、二反卷积层的卷积核大小为4*4，步长可为2；其最大池化层可取所有batch中各像素点最大的值；其L2正则化层可对最后的法向量进行L2正则化操作。

进一步地，融合模块与法线估计子模块的深度学习网络结构可相同。融合模块可包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。

给卷积层排序，则融合模块可包括依次连接的第一至五卷积层、第一反卷积层、第六卷积层、最大池化层、第七至八卷积层、第二反卷积层、第九卷积层和L2正则化层。

其中，融合模块的第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3，步长可为1；其第二、四卷积层的卷积核大小可为4*4，步长为2；其第一、二反卷积层的卷积核大小为4*4，步长可为2；其最大池化层可取所有batch中各像素点最大的值；其L2正则化层可对最后的法向量进行L2正则化操作。

进一步地，法线估计子模块的损失函数可如下式(1)所示：

式中：

L_NORMAL为法线估计子模块的损失；

h为照片的宽；

w为照片的高；

n_i作为预测的法向量；

为真值法向量。

进一步地，反映法向量、光照特征值与像素值之间联系的关系模型可如下式(2)所示：

式中：

I_p，k为p像素点在k光照情况下的像素值；

ρ_p为反照率；

n_P为p像素的单位法向量；

l_k为k光照情况的光照方向；

e_k为k光照情况的光照强度；

为p像素的一般法向量；

L_k为k光照情况的光照向量；

可以利用奇异值分解将像素值分解成伪法向量

和伪光照

此时伪法向量

与法向量N只差一个转换矩阵，设转换矩阵为G，可由式(2)得到下式(3)：

I＝N^TG^-1GL (3)

其中

式中：

I为像素矩阵；矩阵中元素为I_p，k；

N^T为按字典排序重排像素组成的一般法向量矩阵；

L为按字典排序重排像素组成的光照向量矩阵；

G为3*3的待求解转换线性矩阵；

μ为GBR转换的待求解未知数之一；

γ为GBR转换的待求解未知数之二；

λ为GBR转换的待求解未知数之三，且λ不等于0。

进一步地，散度模型的表达式可如下式(4)所示：

设局部漫反射为

则

式中：

为像素散度；

为反照率散度；

为单位法向量矩阵散度；

ρ_P为反照率；

为单位法向量矩阵；

L_k为光照方向矩阵；

e_k为光照强度。

与上述系统相对应，本发明还提供了一种表面法线重建融合方法实施例，该方法为：建立基于深度学习的未标定光度的立体视觉模块A，建立基于最大散度的未标定光度的立体视觉模块B，建立基于深度学习的融合模块；

进一步地，立体视觉模块A及融合模块均可采用由blender软件合成的虚拟数据集进行训练。

进一步地，训练采用的参数可为：batch_size为12～20，epochs为15～25，input_nums为25～40。

下面以本发明的一个优选实施例来进一步说明本发明的结构、工作流程及工作原理：

一种表面法线重建融合系统，其包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块。

基于深度学习的未标定光度的立体视觉模块A。这一模块分成两个部分，第一部分是光照估计子模块，目的是计算输入照片对应的光照情况。第二部分是法线估计子模块，目的是利用输入照片及第一部分估计的光照情况计算物体的表面法向量。一般的深度学习采用端到端的方案，然而在面对本问题时，端到端的处理方案的结果并不理想，因此需要采用先求光照情况，后求法向量的方案。两步走的方案具有以下优势：首先，为深度学习确立的中间的结果，一般来说深度学习的中间层是不可解释的，除了开头和结尾是确定的，中间层是盲目的，现在第一部分结束获得的是光照情况，为深度学习的中间层添加了确定性。同时，分为两部分分别训练，可以比端到端的训练获得更快的收敛及更好的训练结果。

设置基于最大散度的未标定光度的立体视觉模块B。在求得深度学习估计的法向量之后，本发明使用立体视觉模块B，旨在为后续融合模块提供相应的最大散度线索，利用以往的先验知识指导深度学习获得比第一部分更好的结果。该模块利用照片的像素亮度值公式将像素值用物体的法向量和光照情况表示，对像素值进行奇异值分解可以获得伪法向量和伪光照情况，最后利用散度公式及最大散度为0的约束，将照片中红绿蓝三基色在X、Y、Z轴方向法向量歧义解出，最终得到法向量，只剩下z轴方向的二义性问题。利用深度学习模块得到的预估法向量可以将二义性问题消去，得到比传统方法更好的法向量结果。

融合模块。在求得深度学习估计的法向量及传统学习估计的法向量之后，本发明使用融合模块，旨在利用神经网络挖掘传统学习相对于深度学习模块没学习到的散度信息，获得相对于深度学习模块更好的法向量结果。该模块输入为各光照情况的照片，深度学习模块估计的法向量及传统学习模块估计的法向量，利用五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层，充分挖掘输入与输出的内在联系，实现端到端的训练，求得比深度学习模块更好的法向量。

本发明所需使用的运行环境是pytorch1.1版本，ubuntu16.04版本，cuda9版本，显卡为一块K8024GB。训练集是使用blender合成的虚拟数据集，大小约24.2G。训练采用的参数是16的batch_size、20的epochs，32的input_nums，每个epochs的训练时长大约在25小时。

如图1所示，本发明的表面法线重建方法的流程是：原始输入的不同光照情况的照片经过裁剪后成为128*128的大小，经过立体视觉模块A生成预计的物体表面法向量，然后利用立体视觉模块B生成带有二义性的物体表面法向量，然后利用立体视觉模块A的结果去除二义性，最后将裁剪后的照片、立体视觉模块A的输出、立体视觉模块B的输出一起输入到融合模块中，通过融合模块的深度学习获得最终的物体表面法线。

步骤一：设置基于深度学习的未标定光度的立体视觉模块A：

如图2所示，立体视觉模块A包括两部分，第一部分是利用输入照片估计光照的方向和强度情况的光照估计子模块，第二部分是利用输入照片和估计的光照情况估计表面法向量的法线估计子模块。

如图3所示，首先将不同光照情况的照片作为输入放入光照估计子模块中。光照估计子模块包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的两个全连接层。其中第一、二、四、六、九、十、十一卷积层的卷积核大小是4*4，步长为2；第三、五、七、八卷积层的卷积核大小是3*3，步长为1；所有卷积层都带有激活函数Relu；最大池化层是取所有batch中各像素点最大的值；第一卷积层将输入的3维提高为32维，然后第二卷积层将维度提高到64维，第三卷积层将维度提高到128维，第七卷积层将维度提高到256维，第八卷积层将维度降低到128维，其中第一全连接层单元将维度降低到64维，第二全连接层单元中的第一全连接层将维度提高到72维预估光照方向，第二全连接层单元中的第二全连接层将维度降低到20维预估光照强度。

最后使用损失函数：

来对光照估计子模块进行评估并纠正，以获得更好的结果。其中

μ_e是作为权重，训练中根据经验一般为1。

和

是用来评估光照的仰角和方位角误差的，

是用来评估光照的强度误差的。

如图4所示，在得到光照估计子模块的光照强度和方向后，经过正则化操作后连同输入的照片一起作为法线估计子模块的输入。法线估计子模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。其中第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3，步长可为1；第二、四卷积层的卷积核大小可为4*4，步长为2；第一、二反卷积层的卷积核大小为4*4，步长可为2；最大池化层可取所有batch中各像素点最大的值；L2正则化层可对最后的法向量进行L2正则化操作。

其第一卷积层将维度提高到16维，第二卷积层将维度提高到32维，第三卷积层将维度提高到64维，第四卷积层将维度提高到128维，第二反卷积层将维度降低到64维，第九卷积层将维度降低到3维，最后在通过正则化层将输出正则化，最后通过损失函数：

来对法线估计子模块进行评估并纠正，以获得更好的结果。其中h和w是照片的宽和高，n_i作为预测的法向量而

是真值法向量。

步骤二：设置基于最大散度的未标定光度的立体视觉模块B：

首先，照片的像素亮度值可以用以下公式表示：

其中I_P，k是p像素点在k光照情况下的像素值，ρ_P是反照率，n_P是p像素的法向量，l_k是k光照情况的光照方向，e_k是k光照情况的光照强度，最终可以简写成

由上式可得到如下表达式：

I＝N^TG^-1GL

其中，G为3*3的待求解转换线性矩阵；其中

因此可以利用奇异值分解将I分成伪法向量

和伪光照

μ为GBR转换的待求解未知数之一；

γ为GBR转换的待求解未知数之二；

λ为GBR转换的待求解未知数之三，且λ不等于0。此时伪法向量

与法向量N只差一个G，这就是GBR广义浮雕歧义。

利用散度公式：

且最大散度

可以得到如下公式：

式中：

为μ的近似解；

为γ的近似解；

为λ的近似解；

为将图像I奇异值分解得出的在P像素点处的伪法向量；

为将图像I奇异值分解得出的在k光照情况下的伪光照向量。

最终得到的法向量只剩下z轴方向的二义性问题。利用立体视觉模块A得到的预估法向量可以将二义性问题消去，得到该传统方法能得到的最好的法向量结果。

步骤三：设置融合模块：

如图5所示，在得到由光照估计子模块估计的光照强度和方向，由法线估计子模块估计的法向量结果，以及基于最大散度的未标定光度的立体视觉模块B估计的法向量结果后，连同输入的照片一起放入融合模块作为输入。融合模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。其中第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3，步长可为1；第二、四卷积层的卷积核大小可为4*4，步长为2；第一、二反卷积层的卷积核大小为4*4，步长可为2；最大池化层可取所有batch中各像素点最大的值；L2正则化层可对最后的法向量进行L2正则化操作。

第一卷积层将维度提高到16维，第二卷积层将维度提高到32维，第三卷积层将维度提高到64维，第四卷积层将维度提高到128维，第二反卷积层将维度降低到64维，第九卷积层将维度降低到3维，最后在通过正则化层将输出正则化，最后通过损失函数：

来对融合模块进行评估并纠正，以获得更好的结果。其中h和w是照片的宽和高，n_i作为预测的法向量而

是真值法向量。

本实例在DiLiGenT和Light Stage Data Gallery数据集上进行实验。

其中DiLiGenT数据集包括十种不同纹理、材质类型的东西，每个东西有96张照片，实验结果的误差如表1所示，皆获得良好的结果。

表1、表1DiLiGenT数据集的实验误差结果(％)

Light Stage Data Gallery数据集包括6种不同的东西，每个东西有113张照片，实验结果如表2所示，皆获得良好的结果。

表2、Light Stage Data Gallery数据集的实验误差结果(％)

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。