CN113362447B - 一种表面法线重建融合系统及重建融合方法 - Google Patents

一种表面法线重建融合系统及重建融合方法 Download PDF

Info

Publication number
CN113362447B
CN113362447B CN202110572831.6A CN202110572831A CN113362447B CN 113362447 B CN113362447 B CN 113362447B CN 202110572831 A CN202110572831 A CN 202110572831A CN 113362447 B CN113362447 B CN 113362447B
Authority
CN
China
Prior art keywords
illumination
module
normal
normal vector
stereoscopic vision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110572831.6A
Other languages
English (en)
Other versions
CN113362447A (zh
Inventor
徐超
曾康辉
孟昭鹏
胡静
肖健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110572831.6A priority Critical patent/CN113362447B/zh
Publication of CN113362447A publication Critical patent/CN113362447A/zh
Application granted granted Critical
Publication of CN113362447B publication Critical patent/CN113362447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种表面法线重建融合系统,包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块;立体视觉模块A包括光照估计子模块和法线估计子模块;光照估计子模块用于提取照片的光照特征;法线估计子模块用于输入照片及照片的光照特征,提取物体的表面法向量;立体视觉模块B包括:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;立体视觉模块A和立体视觉模块B的输出均输入至融合模块,融合模块输出最终的物体表面法向量。本发明还公开了一种表面法线重建融合方法。本发明提高深度学习的泛化能力及最终的预估法向量精度。

Description

一种表面法线重建融合系统及重建融合方法
技术领域
本发明涉及一种表面法线重建方法,特别涉及一种表面法线重建融合系统及重建融合方法。
背景技术
目前,三维重建是计算机视觉的重要领域。近年来,随着技术的不断迭代与发展,三维重建的速度与精度已经得到巨大的提升。作为环境感知的关键技术之一,许多的三维重建方法已经可以用于具体商业产业及领域,如自动驾驶、虚拟现实、增强现实、土木工程、医疗。此外,日益提倡的以人为本,让人因工程的概念出现在人们的视野中。人因工程的理念突出机器适应人,以便于人更好的使用机器,完成任务。而人因工程的关键在于人与机器的交互,三维重建作为计算机视觉的重要领域,是机器完成人机交互的重要一环,如何利用算法获得精细的物体细节是重建的关键,是机器更好的与人交互的关键,也是人因工程的关键。
一般来说,主流的三维重建方法可以分成两大类:基于几何的三维重建方法和基于光学的三维重建方法。其中基于几何的传统三维重建方法是利用重建场景的不同角度拍摄的多张图像作为输入,通过运动恢复结构算法获得重建场景的相机姿态和稀疏粗糙的点云,然后利用多视图立体几何算法将粗糙的点云转化为稠密的点云,最后利用泊松重建算法,获得场景的三维模型。这类型的方法的缺陷是重建速度慢,对纹理弱的区域重建精度低。由于基于几何的三维重建方法对细节重建精度较低,因此本方法采用基于光学的三维重建方法。近年来,随着深度学习的迅速发展,基于光学的三维重建方法的主流方法慢慢转向深度学习算法。在传统算法中,光度立体视觉法PS(Photometric Stereo),未标定的光度立体视觉法UPS(Uncalibrated Photometric Stereo),相比于基于几何的三维重建方法都能获得不错的细节精度,其中标定的光度立体法是利用重建场景同视角的不同光照情况下拍摄的多张照片及光照信息作为输入,使用漫射模型解出场景的法向量,然后对法向量积分得到三维模型,而未标定的光度立体法是利用重建场景单一视角的不同光照情况下拍摄的多张照片作为输入,对输入进行奇异值分解得到形状近似,然后利用线索约束,如最大散度法将广义浮雕歧义转换为二义问题。因为标定的光度立体视觉法输入的严苛,还有未标定光度立体视觉法的二义性问题,导致其应用不如基于几何的三维重建方法普及。深度学习的出现解决了传统算法的问题,在深度学习中,利用海量的合成样本训练多层次的神经网络,通过深度学习挖掘当前公式不能表达的未知而泛化的输入照片与输出法向量的关系,解决了光度立体视觉法的严苛输入问题及未标定光度立体视觉法的二义性问题,但由于神经网络的特殊性,无法解释具体每一层的意义,因为并没有将以往的经验知识完全用上,在面对训练样本以外的输入时,可能会出现效果较差的情况。
总之,传统的算法存在输入严苛或输出二义性的问题;而深度学习网络中间层的不可解释性,使得深度学习虽然在面对训练样本类型的输入时有好的结果,但面对训练样本类型以外的输入时,可能会出现较差的情况。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种表面法线重建融合系统及重建融合方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种表面法线重建融合系统,包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块;
立体视觉模块A包括光照估计子模块和法线估计子模块;光照估计子模块用于提取照片的光照特征;法线估计子模块用于输入照片及照片的光照特征,提取物体的表面法向量;
立体视觉模块B包括:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;关系模型用于对像素值进行奇异值分解得到伪法向量和伪光照特征,散度模型用于由伪法向量和伪光照特征来求解照片中红绿蓝三基色在X、Y、Z轴方向法向量;
立体视觉模块A和立体视觉模块B的输出均输入至融合模块,融合模块输出最终的物体表面法向量。
进一步地,光照估计子模块包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的全连接层单元;每个全连接层单元包括两个串接的全连接层。
进一步地,法线估计子模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。
进一步地,融合模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。
进一步地,法线估计子模块的损失函数如下式(1)所示:
Figure GDA0003941377030000031
式中:
LNORMAL为法线估计子模块的损失;
h为照片的宽;
w为照片的高;
i为像素点序号;
ni作为预测的法向量;
Figure GDA0003941377030000032
为真值法向量。
进一步地,反映法向量、光照特征值与像素值之间联系的关系模型如下式(2)所示:
Figure GDA0003941377030000033
式中:
Ip,k为p像素点在k光照情况下的像素值;
ρp为反照率;
np为p像素点的单位法向量;
lk为k光照情况的光照单位向量;
ek为k光照情况的光照强度;
Figure GDA0003941377030000034
为p像素的单位法向量矩阵;
Lk为k光照情况的光照单位向量矩阵;
由式(2)得到下式(3):
I=NTG-1GL    (3)
其中
Figure GDA0003941377030000035
式中:
I为像素矩阵;矩阵中元素为Ipk
NT为按字典排序重排像素组成的一般法向量矩阵;
L为按字典排序重排像素组成的光照向量矩阵;
G为3*3的待求解转换线性矩阵;
μ为GBR转换的待求解未知数之一;
γ为GBR转换的待求解未知数之二;
λ为GBR转换的待求解未知数之三,且λ不等于0。
进一步地,散度模型的表达式如下式(4)所示:
Figure GDA0003941377030000041
设局部漫反射为
Figure GDA0003941377030000042
Figure GDA0003941377030000043
式中:
Figure GDA0003941377030000044
为p像素点在k光照情况下的像素散度;
Figure GDA0003941377030000045
为反照率散度;
Figure GDA0003941377030000046
为p像素的单位法向量矩阵散度;
ρp为反照率;
ek为k光照情况的光照强度;
Figure GDA0003941377030000047
为p像素的单位法向量矩阵;
Lk为k光照情况的光照单位向量矩阵。
本发明还提供了一种表面法线重建融合方法,该方法为:建立基于深度学习的未标定光度的立体视觉模块A,建立基于最大散度的未标定光度的立体视觉模块B,建立基于深度学习的融合模块;
在立体视觉模块A中设置光照估计子模块和法线估计子模块;采用光照估计子模块提取照片的光照特征;采用法线估计子模块,使其输入照片及由光照估计子模块提取的照片的光照特征,使其输出物体的表面法向量;
在立体视觉模块B中设置:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;先通过关系模型对像素值进行奇异值分解得到伪法向量和伪光照特征,再通过散度模型求解照片中红绿蓝三基色在X、Y、Z轴方向法向量;
使立体视觉模块A和立体视觉模块B的输出,输入至融合模块,使融合模块输出最终的物体表面法向量。
进一步地,立体视觉模块A及融合模块均采用由blender软件合成的虚拟数据集进行训练。
进一步地,训练采用的参数为:batch_size为12~20,epochs为15~25,input_nums为25~40。
本发明具有的优点和积极效果是:本发明的一种表面法线重建融合系统,设置基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块;立体视觉模块A,通过深度学习光照情况计算物体的表面法向量,立体视觉模块B通过数学模型得到相应的最大散度线索,通过融合模块,将立体视觉模块A和立体视觉模块B的分析结果作为输入,进一步进行深度学习,得到最终的表面法向量,这样能够结合深度学习和数学模型的两者各自的优点,充分利用了传统方法的泛化能力及深度学习方法处理二义性问题的能力,通过深度学习方法指导传统方法解决二义性问题,然后通过传统方法规范深度学习的方向,大大降低深度学习的不可解释性,加快深度学习的收敛速度,提高深度学习的泛化能力及最终的预估法向量精度。
附图说明
图1为本发明的一种表面法线重建融合系统工作流程图。
图2为本发明的一种基于深度学习的未标定光度的立体视觉模块A工作流程图。
图3为本发明的一种光照估计子模块结构示意图。
图4为本发明的一种法线估计子模块结构示意图。
图5为本发明的一种融合模块结构示意图。
图中:c表示拼接处理;N表示归一化处理。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
本申请中的一些英文及英文缩写的中文注释如下:
Batch:每次送入网络中训练的一部分数据;
batch_size:每个batch中训练样本的数量;
epochs:所有的数据送入网络中完成一次前向计算及反向传播的过程;
input_nums:每个样本输入的照片的数量;
Blender:一款开源的跨平台三维动画制作渲染软件;
GBR转换:广义浅浮雕转换。
请参见图1至图5,一种表面法线重建融合系统,包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块;
立体视觉模块A基于深度学习网络构建,其包括光照估计子模块和法线估计子模块;光照估计子模块和法线估计子模块均由深度学习网络构建;光照估计子模块用于提取照片的光照特征;法线估计子模块用于输入照片及照片的光照特征,提取物体的表面法向量;
立体视觉模块B基于数学模型构建,其包括:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;关系模型用于对像素值进行奇异值分解得到伪法向量和伪光照特征,散度模型用于由伪法向量和伪光照特征来求解照片中红绿蓝三基色在X、Y、Z轴方向法向量;
融合模块基于深度学习网络构建。立体视觉模块A和立体视觉模块B的输出,以及待重建的照片均输入至融合模块,融合模块输出最终的物体表面法向量。
进一步地,光照估计子模块可包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的全连接层单元;每个全连接层单元可包括两个串接的全连接层。
给卷积层排序,则光照估计子模块可包括依次连接的第一至第七卷积层、最大池化层、第八至第十一卷积层、两个并接的第一、二全连接层单元;第一或第二全连接层单元包括第一、二全连接层。
其中,光照估计子模块的第一、二、四、六、九、十、十一卷积层的卷积核大小是4*4,步长为2;其第三、五、七、八卷积层的卷积核大小是3*3,步长为1;其所有卷积层都带有激活函数Relu;其最大池化层是取所有batch中各像素点最大的值;其第一卷积层将输入的3维提高为32维,然后其第二卷积层将维度提高到64维,其第三卷积层将维度提高到128维,其第七卷积层将维度提高到256维,其第八卷积层将维度降低到128维,其第一全连接层单元将维度降低到64维,其第二全连接层单元中的第一全连接层将维度提高到72维预估光照方向,其第二全连接层单元中的第二全连接层将维度降低到20维预估光照强度。
可使用如下损失函数来对光照估计子模块进行评估并纠正,以获得更好的结果:
Figure GDA0003941377030000061
式中
Figure GDA0003941377030000062
表示光照估计子模块的综合损失,
Figure GDA0003941377030000063
μe是作为权重,训练中根据经验一般为1。
Figure GDA0003941377030000064
表示光照的仰角损失,
Figure GDA0003941377030000065
表示光照的方位角损失,
Figure GDA0003941377030000066
表示光照的强度损失。
进一步地,法线估计子模块可包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。
给卷积层排序,则法线估计子模块可包括依次连接的第一至五卷积层、第一反卷积层、第六卷积层、最大池化层、第七至八卷积层、第二反卷积层、第九卷积层和L2正则化层。
其中,法线估计子模块的第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3,步长可为1;其第二、四卷积层的卷积核大小可为4*4,步长为2;其第一、二反卷积层的卷积核大小为4*4,步长可为2;其最大池化层可取所有batch中各像素点最大的值;其L2正则化层可对最后的法向量进行L2正则化操作。
进一步地,融合模块与法线估计子模块的深度学习网络结构可相同。融合模块可包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。
给卷积层排序,则融合模块可包括依次连接的第一至五卷积层、第一反卷积层、第六卷积层、最大池化层、第七至八卷积层、第二反卷积层、第九卷积层和L2正则化层。
其中,融合模块的第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3,步长可为1;其第二、四卷积层的卷积核大小可为4*4,步长为2;其第一、二反卷积层的卷积核大小为4*4,步长可为2;其最大池化层可取所有batch中各像素点最大的值;其L2正则化层可对最后的法向量进行L2正则化操作。
进一步地,法线估计子模块的损失函数可如下式(1)所示:
Figure GDA0003941377030000071
式中:
LNORMAL为法线估计子模块的损失;
h为照片的宽;
w为照片的高;
i为像素点序号;
ni作为预测的法向量;
Figure GDA0003941377030000072
为真值法向量。
进一步地,反映法向量、光照特征值与像素值之间联系的关系模型可如下式(2)所示:
Figure GDA0003941377030000081
式中:
Ip,k为p像素点在k光照情况下的像素值;
ρp为反照率;
np为p像素点的单位法向量;
lk为k光照情况的光照单位向量;
ek为k光照情况的光照强度;
Figure GDA0003941377030000082
为p像素的单位法向量矩阵;
Lk为k光照情况的光照单位向量矩阵;
可以利用奇异值分解将像素值分解成伪法向量
Figure GDA0003941377030000083
和伪光照
Figure GDA0003941377030000084
此时伪法向量
Figure GDA0003941377030000085
与法向量N只差一个转换矩阵,设转换矩阵为G,可由式(2)得到下式(3):
I=NTG-1GL    (3)
其中
Figure GDA0003941377030000086
式中:
I为像素矩阵;矩阵中元素为Ip,k;
NT为按字典排序重排像素组成的一般法向量矩阵;
L为按字典排序重排像素组成的光照向量矩阵;
G为3*3的待求解转换线性矩阵;
μ为GBR转换的待求解未知数之一;
γ为GBR转换的待求解未知数之二;
λ为GBR转换的待求解未知数之三,且λ不等于0。
进一步地,散度模型的表达式可如下式(4)所示:
Figure GDA0003941377030000087
设局部漫反射为
Figure GDA0003941377030000088
Figure GDA0003941377030000089
式中:
Figure GDA00039413770300000810
为p像素点在k光照情况下的像素散度;
Figure GDA0003941377030000091
为反照率散度;
Figure GDA0003941377030000092
为p像素的单位法向量矩阵散度;
ρp为反照率;
ek为k光照情况的光照强度;
Figure GDA0003941377030000093
为p像素的单位法向量矩阵;
Lk为k光照情况的光照单位向量矩阵。
与上述系统相对应,本发明还提供了一种表面法线重建融合方法实施例,该方法为:建立基于深度学习的未标定光度的立体视觉模块A,建立基于最大散度的未标定光度的立体视觉模块B,建立基于深度学习的融合模块;
在立体视觉模块A中设置光照估计子模块和法线估计子模块;采用光照估计子模块提取照片的光照特征;采用法线估计子模块,使其输入照片及由光照估计子模块提取的照片的光照特征,使其输出物体的表面法向量;
在立体视觉模块B中设置:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;先通过关系模型对像素值进行奇异值分解得到伪法向量和伪光照特征,再通过散度模型求解照片中红绿蓝三基色在X、Y、Z轴方向法向量;
使立体视觉模块A和立体视觉模块B的输出,输入至融合模块,使融合模块输出最终的物体表面法向量。
进一步地,立体视觉模块A及融合模块均可采用由blender软件合成的虚拟数据集进行训练。
进一步地,训练采用的参数可为:batch_size为12~20,epochs为15~25,input_nums为25~40。
下面以本发明的一个优选实施例来进一步说明本发明的结构、工作流程及工作原理:
一种表面法线重建融合系统,其包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块。
基于深度学习的未标定光度的立体视觉模块A。这一模块分成两个部分,第一部分是光照估计子模块,目的是计算输入照片对应的光照情况。第二部分是法线估计子模块,目的是利用输入照片及第一部分估计的光照情况计算物体的表面法向量。一般的深度学习采用端到端的方案,然而在面对本问题时,端到端的处理方案的结果并不理想,因此需要采用先求光照情况,后求法向量的方案。两步走的方案具有以下优势:首先,为深度学习确立的中间的结果,一般来说深度学习的中间层是不可解释的,除了开头和结尾是确定的,中间层是盲目的,现在第一部分结束获得的是光照情况,为深度学习的中间层添加了确定性。同时,分为两部分分别训练,可以比端到端的训练获得更快的收敛及更好的训练结果。
设置基于最大散度的未标定光度的立体视觉模块B。在求得深度学习估计的法向量之后,本发明使用立体视觉模块B,旨在为后续融合模块提供相应的最大散度线索,利用以往的先验知识指导深度学习获得比第一部分更好的结果。该模块利用照片的像素亮度值公式将像素值用物体的法向量和光照情况表示,对像素值进行奇异值分解可以获得伪法向量和伪光照情况,最后利用散度公式及最大散度为0的约束,将照片中红绿蓝三基色在X、Y、Z轴方向法向量歧义解出,最终得到法向量,只剩下z轴方向的二义性问题。利用深度学习模块得到的预估法向量可以将二义性问题消去,得到比传统方法更好的法向量结果。
融合模块。在求得深度学习估计的法向量及传统学习估计的法向量之后,本发明使用融合模块,旨在利用神经网络挖掘传统学习相对于深度学习模块没学习到的散度信息,获得相对于深度学习模块更好的法向量结果。该模块输入为各光照情况的照片,深度学习模块估计的法向量及传统学习模块估计的法向量,利用五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层,充分挖掘输入与输出的内在联系,实现端到端的训练,求得比深度学习模块更好的法向量。
本发明所需使用的运行环境是pytorch1.1版本,ubuntu16.04版本,cuda9版本,显卡为一块K8024GB。训练集是使用blender合成的虚拟数据集,大小约24.2G。训练采用的参数是16的batch_size、20的epochs,32的input_nums,每个epochs的训练时长大约在25小时。
如图1所示,本发明的表面法线重建方法的流程是:原始输入的不同光照情况的照片经过裁剪后成为128*128的大小,经过立体视觉模块A生成预计的物体表面法向量,然后利用立体视觉模块B生成带有二义性的物体表面法向量,然后利用立体视觉模块A的结果去除二义性,最后将裁剪后的照片、立体视觉模块A的输出、立体视觉模块B的输出一起输入到融合模块中,通过融合模块的深度学习获得最终的物体表面法线。
步骤一:设置基于深度学习的未标定光度的立体视觉模块A:
如图2所示,立体视觉模块A包括两部分,第一部分是利用输入照片估计光照的方向和强度情况的光照估计子模块,第二部分是利用输入照片和估计的光照情况估计表面法向量的法线估计子模块。
如图3所示,首先将不同光照情况的照片作为输入放入光照估计子模块中。光照估计子模块包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的两个全连接层。其中第一、二、四、六、九、十、十一卷积层的卷积核大小是4*4,步长为2;第三、五、七、八卷积层的卷积核大小是3*3,步长为1;所有卷积层都带有激活函数Relu;最大池化层是取所有batch中各像素点最大的值;第一卷积层将输入的3维提高为32维,然后第二卷积层将维度提高到64维,第三卷积层将维度提高到128维,第七卷积层将维度提高到256维,第八卷积层将维度降低到128维,其中第一全连接层单元将维度降低到64维,第二全连接层单元中的第一全连接层将维度提高到72维预估光照方向,第二全连接层单元中的第二全连接层将维度降低到20维预估光照强度。
最后使用损失函数:
Figure GDA0003941377030000111
来对光照估计子模块进行评估并纠正,以获得更好的结果。其中
Figure GDA0003941377030000112
μe是作为权重,训练中根据经验一般为1。
Figure GDA0003941377030000113
Figure GDA0003941377030000114
是用来评估光照的仰角和方位角误差的,
Figure GDA0003941377030000115
是用来评估光照的强度误差的。
如图4所示,在得到光照估计子模块的光照强度和方向后,经过正则化操作后连同输入的照片一起作为法线估计子模块的输入。法线估计子模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。其中第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3,步长可为1;第二、四卷积层的卷积核大小可为4*4,步长为2;第一、二反卷积层的卷积核大小为4*4,步长可为2;最大池化层可取所有batch中各像素点最大的值;L2正则化层可对最后的法向量进行L2正则化操作。
其第一卷积层将维度提高到16维,第二卷积层将维度提高到32维,第三卷积层将维度提高到64维,第四卷积层将维度提高到128维,第二反卷积层将维度降低到64维,第九卷积层将维度降低到3维,最后在通过正则化层将输出正则化,最后通过损失函数:
Figure GDA0003941377030000121
来对法线估计子模块进行评估并纠正,以获得更好的结果。其中h和w是照片的宽和高,ni作为预测的法向量而
Figure GDA0003941377030000122
是真值法向量。
步骤二:设置基于最大散度的未标定光度的立体视觉模块B:
首先,照片的像素亮度值可以用以下公式表示:
Figure GDA0003941377030000123
其中IPk是p像素点在k光照情况下的像素值,ρP是反照率,nP是p像素的法向量,lk是k光照情况的光照方向,ek是k光照情况的光照强度,最终可以简写成
Figure GDA0003941377030000124
由上式可得到如下表达式:
I=NTG-1GL
其中,G为3*3的待求解转换线性矩阵;其中
Figure GDA0003941377030000125
因此可以利用奇异值分解将I分成伪法向量
Figure GDA0003941377030000126
和伪光照
Figure GDA0003941377030000127
μ为GBR转换的待求解未知数之一;
γ为GBR转换的待求解未知数之二;
λ为GBR转换的待求解未知数之三,且λ不等于0。此时伪法向量
Figure GDA0003941377030000128
与法向量N只差一个G,这就是GBR广义浮雕歧义。
利用散度公式:
Figure GDA0003941377030000129
且最大散度
Figure GDA00039413770300001210
可以得到如下公式:
Figure GDA00039413770300001211
式中:
Figure GDA00039413770300001212
为μ的近似解;
Figure GDA00039413770300001213
为γ的近似解;
Figure GDA00039413770300001214
为λ的近似解;
Figure GDA00039413770300001215
为将图像I奇异值分解得出的在P像素点处的伪法向量;
Figure GDA00039413770300001216
为将图像I奇异值分解得出的在k光照情况下的伪光照向量。
最终得到的法向量只剩下z轴方向的二义性问题。利用立体视觉模块A得到的预估法向量可以将二义性问题消去,得到该传统方法能得到的最好的法向量结果。
步骤三:设置融合模块:
如图5所示,在得到由光照估计子模块估计的光照强度和方向,由法线估计子模块估计的法向量结果,以及基于最大散度的未标定光度的立体视觉模块B估计的法向量结果后,连同输入的照片一起放入融合模块作为输入。融合模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。其中第一、三、五、六、七、八、九卷积层的卷积核大小可为3*3,步长可为1;第二、四卷积层的卷积核大小可为4*4,步长为2;第一、二反卷积层的卷积核大小为4*4,步长可为2;最大池化层可取所有batch中各像素点最大的值;L2正则化层可对最后的法向量进行L2正则化操作。
第一卷积层将维度提高到16维,第二卷积层将维度提高到32维,第三卷积层将维度提高到64维,第四卷积层将维度提高到128维,第二反卷积层将维度降低到64维,第九卷积层将维度降低到3维,最后在通过正则化层将输出正则化,最后通过损失函数:
Figure GDA0003941377030000131
来对融合模块进行评估并纠正,以获得更好的结果。其中h和w是照片的宽和高,ni作为预测的法向量而
Figure GDA0003941377030000132
是真值法向量。
本实例在DiLiGenT和Light Stage Data Gallery数据集上进行实验。
其中DiLiGenT数据集包括十种不同纹理、材质类型的东西,每个东西有96张照片,实验结果的误差如表1所示,皆获得良好的结果。
表1、表1DiLiGenT数据集的实验误差结果(%)
Figure GDA0003941377030000133
Light Stage Data Gallery数据集包括6种不同的东西,每个东西有113张照片,实验结果如表2所示,皆获得良好的结果。
表2、Light Stage Data Gallery数据集的实验误差结果(%)
Figure GDA0003941377030000141
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。

Claims (10)

1.一种表面法线重建融合系统,其特征在于,包括基于深度学习的未标定光度的立体视觉模块A、基于最大散度的未标定光度的立体视觉模块B及基于深度学习的融合模块;
立体视觉模块A包括光照估计子模块和法线估计子模块;光照估计子模块用于提取照片的光照特征;法线估计子模块用于输入照片及照片的光照特征,提取物体的表面法向量;
立体视觉模块B包括:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;关系模型用于对像素值进行奇异值分解得到伪法向量和伪光照特征,散度模型用于由伪法向量和伪光照特征来求解照片中红绿蓝三基色各自在X、Y、Z轴方向法向量;
立体视觉模块A和立体视觉模块B的输出均输入至融合模块,融合模块输出最终的物体表面法向量。
2.根据权利要求1所述的表面法线重建融合系统,其特征在于,光照估计子模块包括依次连接的七个卷积层、一个最大池化层、四个卷积层和两个并列的全连接层单元;每个全连接层单元包括两个串接的全连接层。
3.根据权利要求1所述的表面法线重建融合系统,其特征在于,法线估计子模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。
4.根据权利要求1所述的表面法线重建融合系统,其特征在于,融合模块包括依次连接的五个卷积层、一个反卷积层、一个卷积层、一个最大池化层、两个卷积层、一个反卷积层、一个卷积层和一个L2正则化层。
5.根据权利要求1所述的表面法线重建融合系统,其特征在于,法线估计子模块的损失函数如下式(1)所示:
Figure FDA0003941377020000011
式中:
LNORMAL为法线估计子模块的损失;
h为照片的宽;
w为照片的高;
i为像素点序号;
ni作为预测的法向量;
Figure FDA0003941377020000021
为真值法向量。
6.根据权利要求1所述的表面法线重建融合系统,其特征在于,反映法向量、光照特征值与像素值之间联系的关系模型如下式(2)所示:
Figure FDA0003941377020000022
式中:
Ip,k为p像素点在k光照情况下的像素值;
ρp为反照率;
np为p像素点的单位法向量;
lk为k光照情况的光照单位向量;
ek为k光照情况的光照强度;
Figure FDA0003941377020000023
为p像素的单位法向量矩阵;
Lk为k光照情况的光照单位向量矩阵;
由式(2)得到下式(3):
I=NTG-1GL    (3)
其中
Figure FDA0003941377020000024
式中:
I为像素矩阵;矩阵中元素为Ip,k
NT为按字典排序重排像素组成的一般法向量矩阵;
L为按字典排序重排像素组成的光照向量矩阵;
G为3*3的待求解转换线性矩阵;
μ为GBR转换的待求解未知数之一;
γ为GBR转换的待求解未知数之二;
λ为GBR转换的待求解未知数之三,且λ不等于0。
7.根据权利要求6所述的表面法线重建融合系统,其特征在于,散度模型的表达式如下式(4)所示:
Figure FDA0003941377020000025
设局部漫反射为
Figure FDA0003941377020000026
Figure FDA0003941377020000027
式中:
Figure FDA0003941377020000031
为p像素点在k光照情况下的像素散度;
Figure FDA0003941377020000032
为反照率散度;
Figure FDA0003941377020000033
为p像素的单位法向量矩阵散度;
ρp为反照率;
ek为k光照情况的光照强度;
Figure FDA0003941377020000034
为p像素的单位法向量矩阵;
Lk为k光照情况的光照单位向量矩阵。
8.一种表面法线重建融合方法,其特征在于,该方法为:建立基于深度学习的未标定光度的立体视觉模块A,建立基于最大散度的未标定光度的立体视觉模块B,建立基于深度学习的融合模块;
在立体视觉模块A中设置光照估计子模块和法线估计子模块;采用光照估计子模块提取照片的光照特征;采用法线估计子模块,使其输入照片及由光照估计子模块提取的照片的光照特征,使其输出物体的表面法向量;
在立体视觉模块B中设置:反映法向量、光照特征值与像素值之间联系的关系模型,以及约束条件为最大散度等于0的散度模型;先通过关系模型对像素值进行奇异值分解得到伪法向量和伪光照特征,再通过散度模型求解照片中红绿蓝三基色在X、Y、Z轴方向法向量;
使立体视觉模块A和立体视觉模块B的输出,输入至融合模块,使融合模块输出最终的物体表面法向量。
9.根据权利要求8所述的表面法线重建融合方法,其特征在于,立体视觉模块A及融合模块均采用由blender软件合成的虚拟数据集进行训练。
10.根据权利要求9所述的表面法线重建融合方法,其特征在于,训练采用的参数为:batch_size为12~20,epochs为15~25,input_nums为25~40。
CN202110572831.6A 2021-05-25 2021-05-25 一种表面法线重建融合系统及重建融合方法 Active CN113362447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110572831.6A CN113362447B (zh) 2021-05-25 2021-05-25 一种表面法线重建融合系统及重建融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110572831.6A CN113362447B (zh) 2021-05-25 2021-05-25 一种表面法线重建融合系统及重建融合方法

Publications (2)

Publication Number Publication Date
CN113362447A CN113362447A (zh) 2021-09-07
CN113362447B true CN113362447B (zh) 2023-04-07

Family

ID=77527515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110572831.6A Active CN113362447B (zh) 2021-05-25 2021-05-25 一种表面法线重建融合系统及重建融合方法

Country Status (1)

Country Link
CN (1) CN113362447B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761137B (zh) * 2022-11-24 2023-12-22 之江实验室 一种基于法向量和点云数据相互融合的高精度曲面重建方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170043A (zh) * 2017-06-19 2017-09-15 电子科技大学 一种三维重建方法
CN108510573A (zh) * 2018-04-03 2018-09-07 南京大学 一种基于深度学习的多视点人脸三维模型重建的方法
CN110428491A (zh) * 2019-06-24 2019-11-08 北京大学 基于单帧图像的三维人脸重建方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047144A (zh) * 2019-04-01 2019-07-23 西安电子科技大学 一种基于Kinectv2的完整物体实时三维重建方法
US10665011B1 (en) * 2019-05-31 2020-05-26 Adobe Inc. Dynamically estimating lighting parameters for positions within augmented-reality scenes based on global and local features
WO2021042277A1 (zh) * 2019-09-03 2021-03-11 浙江大学 基于神经网络的三维物体法向量、几何及材质获取方法
WO2021067665A2 (en) * 2019-10-03 2021-04-08 Photon-X, Inc. Enhancing artificial intelligence routines using 3d data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170043A (zh) * 2017-06-19 2017-09-15 电子科技大学 一种三维重建方法
CN108510573A (zh) * 2018-04-03 2018-09-07 南京大学 一种基于深度学习的多视点人脸三维模型重建的方法
CN110428491A (zh) * 2019-06-24 2019-11-08 北京大学 基于单帧图像的三维人脸重建方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113362447A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN112767468B (zh) 基于协同分割与数据增强的自监督三维重建方法及系统
CN112001914B (zh) 深度图像补全的方法和装置
CN108510573B (zh) 一种基于深度学习的多视点人脸三维模型重建的方法
Long et al. Multi-view depth estimation using epipolar spatio-temporal networks
CN108764250B (zh) 一种运用卷积神经网络提取本质图像的方法
CN107103285B (zh) 基于卷积神经网络的人脸深度预测方法
US11948320B2 (en) Systems and methods for depth estimation by learning triangulation and densification of sparse points for multi-view stereo
CN112102182B (zh) 一种基于深度学习的单图像去反射方法
US11915439B2 (en) Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN113362447B (zh) 一种表面法线重建融合系统及重建融合方法
Liang et al. An improved DualGAN for near-infrared image colorization
CN114972748B (zh) 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
Liu et al. Rockformer: A u-shaped transformer network for martian rock segmentation
CN111753739A (zh) 物体检测方法、装置、设备以及存储介质
CN112288788A (zh) 单目图像深度估计方法
Zhang et al. FFCA-YOLO for small object detection in remote sensing images
Liang et al. DIG-SLAM: an accurate RGB-D SLAM based on instance segmentation and geometric clustering for dynamic indoor scenes
Tseng et al. Semi-supervised image depth prediction with deep learning and binocular algorithms
CN111178229B (zh) 一种基于深度学习的静脉显像方法和装置
Yoon et al. Cross-guided optimization of radiance fields with multi-view image super-resolution for high-resolution novel view synthesis
Zhu et al. PCTNet: Depth estimation from single structured light image with a parallel CNN-transformer network
CN116824433A (zh) 基于自监督神经网络的视觉-惯导-雷达融合自定位方法
Mu et al. Hallucinated-PQA: No reference point cloud quality assessment via injecting pseudo-reference features
Aladem et al. A comparative study of different cnn encoders for monocular depth prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant