CN114202492A

CN114202492A - 基于三维卷积的非朗伯体表面光度立体模型及方法

Info

Publication number: CN114202492A
Application number: CN202111527424.XA
Authority: CN
Inventors: 曹衍龙; 丁斌杰; 黄芳; 陈景曦; 韦逍遥; 刘文渊; 王敬; 杨将新; 曹彦鹏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-16
Filing date: 2021-12-14
Publication date: 2022-03-18
Also published as: JP2022126587A; EP4016058A1; EP4016058B1

Abstract

本发明属于图像处理技术领域，具体涉及基于三维卷积的非朗伯体表面光度立体模型及方法。本发明公开了基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层、帧间特征提取层、空间特征提取层、最大池化层和回归层；所述信息融合层用于融合每一张图像与其对应的光源信息，保证在后续处理中图像与光源的一一对应；所述帧间特征提取层用于提取帧间信息，获取输入图像帧之间的信息，用于我们法向图的估计；所述空间特征提取层提取单张图像内部的结构信息用于法向图的恢复；所述最大池化层用于用于降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减少计算量、减少内存消耗。

Description

基于三维卷积的非朗伯体表面光度立体模型及方法

技术领域

本发明属于图像处理技术领域，具体涉及基于三维卷积的非朗伯体表面光度立体模型及方法。

背景技术

近年来随着3D相关技术的发展，非刚性体的三维数字化技术受到了业内的广泛关注。实现高效、高精度、廉价的重建方法一直是三维数字化领域的一个研究重点。

现有的方法都是单独使用空间信息或者帧间信息来进行法向量的恢复。因此提出了一种多维度信息融合的方法，同时使用空间信息和帧间信息来进行法向量的求解，在算法对于异常值区域(高光和阴影)具有较好的鲁棒性的同时，又能保留丰富的纹理信息。

发明内容

本发明的第一个方面：旨在提供基于三维卷积获取非朗伯体表面三维图像的方法。

为实现上述技术目的，本发明采用的技术方案如下：

基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层、帧间特征提取层、空间特征提取层、最大池化层和回归层；

所述信息融合层用于融合每一张图像与其对应的光源信息，保证在后续处理中图像与光源的一一对应；

所述帧间特征提取层用于提取帧间信息，获取输入图像帧之间的信息，用于我们法向图的估计；

所述空间特征提取层提取单张图像内部的结构信息用于法向图的恢复；

所述最大池化层用于用于降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减少计算量、减少内存消耗。

作为本发明的一种优选方案，所述信息融合层包括一个三维卷积层C1，三维卷积层C1后跟有一个LeakyReLU激活函数，其LeakyReLU激活函数输出值dropout比率为0.2。

作为本发明的一种优选方案，所述帧间特征提取层包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，每个LeakyReLU激活函数输出值dropout比率为0.2。

作为本发明的一种优选方案，所述空间特征提取层包括三个三维卷积层，其分别为三维卷积层C5、三维卷积层6和三维卷积层C7，每个三维卷积层后跟有一个LeakyReLU激活函数。

作为本发明的一种优选方案，所述回归层包括三个二维卷积层，其分别为二维卷积层C8、二维卷积层C9和二维卷积层C10，二维卷积层C8和二维卷积层C9后跟有一个LeakyReLU激活函数，二维卷积层C10后跟有一个L2 normalization修正函数。

本发明的第二方面，提供一种以多张从不同角度照明的图像来重建待测工件三维表面信息的数据处理系统。

一种数据处理系统，包括数据处理器、图形处理器和数据存储器，数据处理器从数据存储器中读取图像并输入图形处理器中，图形处理器中预设图像识别网络，图像识别网络包括图像输入、获得输入图像的有效特征的特征提取器、最大池化层和法向求解单元；其特征在于：图像输入至初始融合模块，初始融合模块使当前图像及其光照信息一一对应，初始融合模块输出的融合了光照信息的图像输入到特征提起器中，特征提取器包括帧间信息提取器和空间信息提取器，帧间信息提取器和空间信息提取器均使用三维卷积核，其中帧间信息占一个维度，空间信息占两个维度；帧间信息提取器的输入是初始融合模块的输出，空间信息提取器的输入是帧间信息提取器的输出；空间信息提取器的输出作为最大池化层的输入。

进一步，法向求解单元对最大池化层的输出先做卷积操作，然后做L2正则化，正则化输出的结果为法向图。

进一步，法向求解单元的最后一个卷积操作使用3通道。

进一步，图像识别网络的其他卷积操作使用128通道。

进一步，融合待测物体图像的空间信息和帧间信息的步骤包括：

建立信息融合模块的公式：

其中，IL_input表示公式的输入，IL_input包括每次拍摄任务获得的各张图像和光源强度、以及光源方向，F₀表示公式的输出，Con_6×1×1表示一个尺寸为6×1×1的卷积核，Con_6×1×1(IL_input)表示对IL_input做卷积操作，σ表示leaky Relu激活函数，σ(Con_6×1×1(IL_input)表示对Con_6×1×1(IL_input)做激活操作。

表示dropout操作，

表示对σ(Con_6×1×1(IL_input)做dropout操作。卷积操作、激活操作和dropout操作属于深度学习的常规函数或常规操作。

每张图像具有R、G、B三个通道，每张图像拍摄时的光源信息图需要X、Y、Z三个坐标值来表征，每个坐标方向的值存储在一个通道里；将每张图像的3通道信息和对应的光源信息图的3通道信息、这6个通道的信息通过一个6×1×1的卷积核进行操作，由此融合该张图像与对应光源信息，防止之后的操作将一一对应的关系打乱。

可选的，使用IRFE(帧间信息提取器)进行帧间信息提取，

IRFE由一个尺寸为5×1×1的卷积核，一个leaky Relu激活函数和一个dropout层组成：

·表示帧间信息提取器的输入，

表示对输入进行i次卷积，卷积核的尺寸为5×1×1；

表示对

进行激活操作，

表示对

进行dropout操作。

进一步，使用IRFE提取帧间信息提取的步骤为：

将IRFE的初始输入·设置为F₀，

其中，F₀表示信息融合模块公式的输出；

表示第一个帧间信息提取器的输出，IRFE¹(F₀)表示第一个帧间信息提取器以F₀作为输入；K为IRFE的个数，

表示第K个帧间信息提取器的输出，

表示第K个帧间信息提取器以第K-1个帧间信息提取器的输出作为输入；

优选的，K＝3。

进一步，使用IAFE(空间信息提取器)进行空间信息提取，IAFE由一个尺寸为1×3×3的卷积核，一个leaky Relu激活函数组成：

其中，·表示空间信息提取器的输入，

表示对输入做i次卷积、卷积核的尺寸为1×3×3，

表示对

进行激活。

进一步，将IAFE的初始输入设置为

其中，

表示第一个空间信息提取器的输出，

表示第一个空间信息提取器的输入，

表示第L个空间信息提取器的输出，

表示以第L-1个空间信息提取器的输出作为作为第L个空间信息提取器的输入。

优选的，L＝3。

进一步，以

作为最大池化的输入，

，MP表示最大池化max-pooling操作，F_MAX表示最大池化的输出。这一步的操作提取不同通道之间最显著的信息，同时也为后面的操作固定了输入通道。

进一步，以F_MAX作为输入进行法向量求解：

其中，Con_1×1表示尺寸为1×1的卷积，Con_1×1(F_MAX)表示对F_MAX进行卷积操作，卷积核的尺寸为1×1，σ表示leaky Relu激活函数，

表示L2正则化；

以N_ij表示像素坐标为(i，j)的点的法向量，以整个图像的所有像素的法向量形成的法向图表征待测物体的表面三维信息。

本发明的有益效果：

本发明将三维卷积引入光度立体领域，提出了MT-CNN-PS模型；该模型充分利用了输入图像序列的帧间信息与空间信息，具有较好的法向量恢复准确率；空间信息对于高光点，以及阴影区域具有很好的信息补偿作用，加入空间信息可以提高算法对于异常区域的鲁棒性；

本发明在训练时加入了光源图像掩膜，用于减小无用点对于结果的干扰；提高了模型对于图像阴影部分的鲁棒性；本发明的模型在保留高运算速度的同时，相比于现有的光度立体方法具有较高的法向恢复准确率，具有较好的工业运用前景。

附图说明

本发明可以通过附图给出的非限定性实施例进一步说明。

图1是本发明基于三维卷积的非朗伯体表面光度立体模型的网络结构示意图。

图2是本发明基于三维卷积的非朗伯体表面光度立体方法的流程示意图。

图3是本发明实施例1～5的网络结构示意图。

图4是本发明实施例6的网络结构示意图。

图5是本发明实施例7的网络结构示意图。

图6是本发明实施例8的网络结构示意图。

图7是基于MERL数据集渲染图像结果对比结果。

具体实施方式

为了使本领域的技术人员可以更好地理解本发明，下面结合附图和实施例对本发明技术方案进一步说明。

如图1所示，本发明公开了基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层1、帧间特征提取层2、空间特征提取层3、最大池化层4和回归层5；

信息融合层1用于融合每一张图像与其对应的光源信息，保证在后续处理中图像与光源的一一对应；

帧间特征提取层2用于提取帧间信息，获取输入图像帧之间的信息，用于我们法向图的估计；

空间特征提取层3提取单张图像内部的结构信息用于法向图的恢复；

最大池化层4用于用于降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减少计算量、减少内存消耗。

信息融合层1包括一个三维卷积层C1，三维卷积层C1后跟有一个LeakyReLU激活函数，其LeakyReLU激活函数输出值dropout比率为0.2。

帧间特征提取层2包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，每个LeakyReLU激活函数输出值dropout比率为0.2。

空间特征提取层3包括三个三维卷积层，其分别为三维卷积层C5、三维卷积层6和三维卷积层C7，每个三维卷积层后跟有一个LeakyReLU激活函数。

回归层5包括三个二维卷积层，其分别为二维卷积层C8、二维卷积层C9和二维卷积层C10，二维卷积层C8和二维卷积层C9后跟有一个LeakyReLU激活函数，二维卷积层C10后跟有一个L2 normalization修正函数。

在一些实施例中，一种数据处理系统，包括数据处理器、图形处理器和数据存储器，数据处理器从数据存储器中读取图像并输入图形处理器中，图形处理器中预设图像识别网络，图像识别网络为基于三维卷积的非朗伯体表面光度立体模型，如图1、2所示，图像识别网络包括图像输入、获得输入图像的有效特征的特征提取器、最大池化层和法向求解单元；图像输入至初始融合模块，初始融合模块使当前图像及其光照信息一一对应，初始融合模块输出的融合了光照信息的图像输入到特征提起器中，特征提取器包括帧间信息提取器和空间信息提取器，帧间信息提取器和空间信息提取器均使用三维卷积核，其中帧间信息占一个维度，空间信息占两个维度；帧间信息提取器的输入是初始融合模块的输出，空间信息提取器的输入是帧间信息提取器的输出；空间信息提取器的输出作为最大池化层的输入。

在一些实施例中，法向求解单元对最大池化层的输出先做卷积操作，然后做L2正则化，正则化输出的结果为法向图。在一些实施例中，法向求解单元的最后一个卷积操作使用3通道。在一些实施例中，图像识别网络的其他卷积操作使用128通道。上述回归层作为法向量求解单元。

如图1、2所示，在一些实施例中，提取待测物体图像中的空间信息和帧间信息，空间信息和帧间信息均以三维卷积分别表示，其中，三维卷积包括二维空间维度和一维帧间维度，空间信息的三维卷积中的一维帧间维度的值为设定值、二维空间维度为图像的空间信息值，帧间信息的三维卷积中的二维空间维度的值为设定值，一维帧间维度为帧间信息值；进行图像信息融合时，先处理帧间信息，再处理空间信息，再融合帧间信息和空间信息获得待测物体表面纹理的三维图像。

在一些实施例中，融合待测物体图像的空间信息和帧间信息的步骤包括：

建立信息融合模块的公式：

表示dropout操作，

在一些实施例中，使用IRFE(帧间信息提取器)进行帧间信息提取，IRFE由一个尺寸为5×1×1的卷积核，一个leaky Relu激活函数和一个dropout层组成：

·表示帧间信息提取器的输入，

表示对输入进行i次卷积，卷积核的尺寸为5×1×1；

表示对

进行激活操作，

表示对

进行dropout操作。

在一些实施例中，使用IRFE提取帧间信息提取的步骤为：

将IRFE的初始输入·设置为F₀，

其中，F₀表示信息融合模块公式的输出；

表示第K个帧间信息提取器的输出，

表示第K个帧间信息提取器以第K-1个帧间信息提取器的输出作为输入。本实施例中，K＝3。

在一些实施例中，使用IAFE(空间信息提取器)进行空间信息提取，IAFE由一个尺寸为1×3×3的卷积核，一个leaky Relu激活函数组成：

其中，·表示空间信息提取器的输入，

表示对输入做i次卷积、卷积核的尺寸为1×3×3，

表示对

进行激活。

进一步，将IAFE的初始输入设置为

其中，

表示第一个空间信息提取器的输出，

表示第一个空间信息提取器的输入，

表示第L个空间信息提取器的输出，

表示以第L-1个空间信息提取器的输出作为作为第L个空间信息提取器的输入。本实施例中，L＝3。

在一些实施例中，以

作为最大池化的输入，

进一步，以F_MAX作为输入进行法向量求解：

表示L2正则化；以N_ij表示像素坐标为(i，j)的点的法向量，以整个图像的所有像素的法向量形成的法向图表征待测物体的表面三维信息。

具体的实施例1～5，

如图3所示，基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层、帧间特征提取层、空间特征提取层、最大池化层和回归层；

帧间特征提取层包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，每个LeakyReLU激活函数输出值dropout比率为0.2，三维卷积层C2、三维卷积层C3和三维卷积层C4包括IF个1*1的特征图；

空间特征提取层包括三个三维卷积层，其分别为三维卷积层C5、三维卷积层6和三维卷积层C7，每个三维卷积层后跟有一个LeakyReLU激活函数；三维卷积层C5、三维卷积层6和三维卷积层C7包括1个S*S的特征图；

在图像处理过程中，先进行帧间特征提取层处理，再进行帧间特征提取层处理；

其中，实施例1取：S＝3，IF＝5；

实施例2取：S＝1，IF＝5；

实施例3取：S＝5，IF＝5；

实施例4取：S＝3，IF＝1；

实施例5取：S＝3，IF＝3；

实施例6

如图4所示，基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层、帧间特征提取层、空间特征提取层、最大池化层和回归层；

帧间特征提取层包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，每个LeakyReLU激活函数输出值dropout比率为0.2，三维卷积层C2、三维卷积层C3和三维卷积层C4包括1个3*3的特征图；

空间特征提取层包括三个三维卷积层，其分别为三维卷积层C5、三维卷积层6和三维卷积层C7，每个三维卷积层后跟有一个LeakyReLU激活函数；三维卷积层C5、三维卷积层6和三维卷积层C7包括5个1*1的特征图；

实施例7

如图5所示，基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层、帧间特征提取层、空间特征提取层、最大池化层和回归层；

帧间特征提取层包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，三维卷积层C2、三维卷积层C3和三维卷积层C4包括IF个1*1的特征图；

其中，S＝3，IF＝5；

实施例8

如图6所示，基于三维卷积的非朗伯体表面光度立体模型，包括信息融合层、特征提取层、最大池化层和回归层；

特征提取层包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，每个LeakyReLU激活函数输出值dropout比率为0.2，三维卷积层C2、三维卷积层C3和三维卷积层C4包括5个3*3的特征图；

将实施例1～8卷积数据分析结果，针对不同形状的图像进行测试，其MAE值如表1所示，

表1

由表1可知，参考各个实施例的MAE值，其实施例1的对于每一种图形下的效果相对较好；且相对稳定；

按照实施例1的卷积层数据，建立MT-CNN-PS模型，将此模型与其它模型进行对比，针对不同形状的图像进行测试，其MAE值如表2所示；

表2

由表2可知，通过MT-CNN-PS模型处理的图像，对于不同形状下的效果每一明显的劣势，且在公开数据集DiLiGenT中熊、佛样本上上有明显的优势，因此其处理后的图像有较高的准确率。

按照实施例1的卷积层数据，建立MT-CNN-PS模型，将此模型的光度立体方法与其它光度立体方法在输入图片数量较少时的平均误差对比(DiLiGenT十个物体平均误差)，其MAE值如表3所示，

	96	16	10	8	6
						本模型	7.56	8.82	9.84	10.75	12.30
JU-19	8.43	9.66	10.02	10.39	12.16
						CH-18	8.39	9.37	10.33	11.13	12.56
SI-18	7.20	10.49	14.34	19.50	30.28
						IK-12	14.08	15.47	16.37	16.84	18.45
BASELINE	15.39	16.65	17.31	17.47	18.60

表3

·表第一行代表输入的图像，第一列代表方法名称，中间数值代表平均角度误差。

·该表是本模型与目前先进的稀疏输入光度立体方法的横向对比，其中

JU-19,CH-18,SI-18都是基于深度学习的方法且JU-19,CH-18有特定的结构来针对稀疏输入的问题，甚于方法都是传统方法。可以看出我们的模型没有复杂的针对稀疏输入的结构，只是用了帧间空间提取器来提高信息利用率就能在16张和10张图片输入的时候有较好的效果。

按照实施例1的卷积层数据，建立MT-CNN-PS模型，将此模型的光度立体方法与其它光度立体方法在输入图片数量较少时的平均误差对比(DiLiGenT十个物体具体误差)，其MAE值如表3所示，

表4

由表3和表4可知，相对于其他的光度立体方法，MT-CNN-PS模型具有相对较好图像处理的稳定性。

将实施例1的卷积层数据，建立MT-CNN-PS模型，将此模型光度立体方法处理后的图像，和PS-FCN模型立体方法处理后的图像，基于MERL数据集渲染图像结果对比结果如图7所示，

由图7可知，相对于PS-FCN来说，MT-CNN-PS模型具有相对较好图像处理的稳定性，并且其精确度更好。

综上所述，本发明具有较好的法向量恢复准确率；空间信息对于高光点，以及阴影区域具有很好的信息补偿作用，加入空间信息可以提高算法对于异常区域的鲁棒性；本发明的模型在保留高运算速度的同时，相比于现有的光度立体方法具有较高的法向恢复准确率，具有较好的工业运用前景。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.基于三维卷积的非朗伯体表面光度立体模型，其特征在于：包括信息融合层、帧间特征提取层、空间特征提取层、最大池化层和回归层；

2.根据权利要求1所述的基于三维卷积的非朗伯体表面光度立体模型，其特征在于：所述信息融合层包括一个三维卷积层C1，三维卷积层C1后跟有一个LeakyReLU激活函数，其LeakyReLU激活函数输出值dropout比率为0.2。

3.根据权利要求1所述的基于三维卷积的非朗伯体表面光度立体模型，其特征在于：所述帧间特征提取层包括三个三维卷积层，其分别为三维卷积层C2、三维卷积层C3和三维卷积层C4，每个三维卷积层后跟有一个LeakyReLU激活函数，每个LeakyReLU激活函数输出值dropout比率为0.2。

4.根据权利要求1所述的基于三维卷积的非朗伯体表面光度立体模型，其特征在于：所述空间特征提取层包括三个三维卷积层，其分别为三维卷积层C5、三维卷积层6和三维卷积层C7，每个三维卷积层后跟有一个LeakyReLU激活函数。

5.根据权利要求1所述的基于三维卷积的非朗伯体表面光度立体模型，其特征在于：所述回归层包括三个二维卷积层，其分别为二维卷积层C8、二维卷积层C9和二维卷积层C10，二维卷积层C8和二维卷积层C9后跟有一个LeakyReLU激活函数，二维卷积层C10后跟有一个L2 normalization修正函数。

6.一种数据处理系统，包括数据处理器、图形处理器和数据存储器，数据处理器从数据存储器中读取图像并输入图形处理器中，图形处理器中预设图像识别网络，图像识别网络包括图像输入、获得输入图像的有效特征的特征提取器、最大池化层和法向求解单元；其特征在于：图像输入至初始融合模块，初始融合模块使当前图像及其光照信息一一对应，初始融合模块输出的融合了光照信息的图像输入到特征提起器中，特征提取器包括帧间信息提取器和空间信息提取器，帧间信息提取器和空间信息提取器均使用三维卷积核，其中帧间信息占一个维度，空间信息占两个维度；帧间信息提取器的输入是初始融合模块的输出，空间信息提取器的输入是帧间信息提取器的输出；空间信息提取器的输出作为最大池化层的输入。

7.如权利要求6所述的数据处理系统，其特征在于：法向求解单元对最大池化层的输出先做卷积操作，然后做L2正则化，正则化输出的结果为法向图。

8.如权利要求7所述的数据处理系统，其特征在于：法向求解单元的最后一个卷积操作使用3通道。

9.如权利要求8所述的数据处理系统，其特征在于：图像识别网络的其他卷积操作使用128通道。

10.如权利要求9所述的数据处理系统，其特征在于：融合待测物体图像的空间信息和帧间信息的步骤包括：

建立信息融合模块的公式：