CN110335344A

CN110335344A - 基于2d-3d注意机制神经网络模型的三维重建方法

Info

Publication number: CN110335344A
Application number: CN201910534985.9A
Authority: CN
Inventors: 李恩; 高子舒; 郭锐; 李胜川; 杨国栋; 梁自泽; 谭民; 景奉水; 田雨农; 王昊; 孙苑淞; 陆偲蓰; 李勇; 罗桓桓; 刘佳鑫; 周桂平
Original assignee: Institute of Automation of Chinese Academy of Science; State Grid Shandong Electric Power Co Ltd; State Grid Liaoning Electric Power Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; State Grid Shandong Electric Power Co Ltd; State Grid Liaoning Electric Power Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-10-15

Abstract

本发明属于计算机视觉及三维重建技术领域，具体涉及了一种基于2D‑3D注意机制神经网络模型的三维重建方法，旨在解决现有技术无法兼顾三维重建精度及模型泛化能力的问题。本发明方法包括：基于自编码器2D‑3D注意机制神经网络构建三维重建模型并初始化；采用训练数据集训练并获取三维重建模型的训练损失值；采用误差反向传播的方法更新模型参数；重复进行损失计算以及模型参数更新直至训练损失值低于设定阈值或达到设定训练次数；采用训练好的三维重建模型基于输入数据进行三维重建。本发明将注意力机制引入自编码网络中，实现了对目标物体高质量的三维重建，并采用不在训练集中的数据进行测试，模型有更强的泛化能力。

Description

基于2D-3D注意机制神经网络模型的三维重建方法

技术领域

本发明属于计算机视觉及三维重建技术领域，具体涉及了一种基于2D-3D注意机制神经网络模型的三维重建方法。

背景技术

近年来机器人领域飞速发展，在机器人计算机视觉领域中物体的三维重建一直是最基本的问题，得到了广泛的关注。在机器人抓取、机器人导航、增强现实、机器人语义理解等场景中二维图像已经不能满足足够的要求，人们越来越希望从三维角度解决问题，因此物体的三维重建承担着重要的任务，解决该问题成为计算机视觉领域的重中之重。随着人工智能深度学习的迅速发展和广泛传播，多种计算机视觉问题得到了极大的改善，基于深度学习的三维重建问题也成为了研究者们关注的焦点，如何用深度学习准确的将物体的形状，外貌完整的呈现出来成为当前三维重建技术的重要研究方向。

三维重建主要研究任务在于获取图像的形状和外貌，目前可以分为以下两类。一是基于SFM的方法，也就是从运动恢复结构，这种方式首先对图像进行特征点检测与匹配，接下来根据特征点来构造外极几何图，接下来进行摄像机位姿和场景结构设计，可以使用增量式、全局式、混合式三种方法。为了消除重建误差，在初始结果的基础上捆绑调整，进一步优化摄像机位姿和场景，最后对重建的点云进行处理。这种方法对图像有很高的要求，比如需要图像有足够的纹理，亮度，图像之间基线足够的小，否则会导致特征点匹配失败。除此之外，此方法需要图像个数在几十甚至更多。在重建过程中还存在退化和不鲁棒的情况，需要其他方法进行弥补。二是深度学习方法，目前，深度学习的三维重建方法主要分为两类：一类采用生成式对抗网络(GAN),另一类采用自编码器网络。生成式对抗网络完成的三维重建一般由生成器将提取的低维度特征映射成物体的三维模型，判别器网络一般与生成器网络对称，用来区分预测的三维模型是真的还是假的，通过不断训练，得到高质量的三维模型。自编码器网络中，编码器主要完成提取图像的低维度特征，解码器将低维度特征映射成物体的三维形状。其中，基于生成式对抗网络的方法速度较快，计算复杂度较小，并且解码器的作用可以看成整个网络是无监督学习。但是也存在训练过程中达到稳定较难、三维重建精度较低的缺点。基于自编码器网络的方法相比于生成对抗方法，其获得的三维模型精度较高，但往往计算复杂度较大，泛化能力弱。

总的来说，现有的方法无法兼顾三维重建精度及泛化能力，重建的三维模型精度达不到预期，网络的泛化能力也无法达到应用的需求。

发明内容

为了解决现有技术中的上述问题，即现有技术无法兼顾三维重建精度及模型泛化能力的问题，本发明提供了一种基于2D-3D注意机制神经网络模型的三维重建方法，该三维重建方法包括：

步骤S10，获取物体不同视角的二维图像集作为输入图像集；

步骤S20，基于所述输入图像集，通过训练好的三维重建模型，获取物体三维模型；

其中，所述三维重建模型基于自编码器2D-3D注意机制神经网络构建，其训练方法为：

步骤B10，初始化所述三维重建模型的参数；

步骤B20，将输入的训练图像在初始化后的三维重建模型中进行前馈传导并计算输入的训练图像投影的训练损失值；

步骤B30，采用误差反向传播的方法，获取所述三维重建模型中各层参数的变化值并进行相应层的参数更新；

步骤B40，重复执行步骤B20、步骤B30直至所述训练损失值低于预设阈值或训练次数达到预设值，获得训练好的三维重建模型。

在一些优选的实施例中，所述三维重建模型包括：特征提取网络、三维模型生成解码网络、注意机制网络。

在一些优选的实施例中，所述特征提取网络为残差网络。

在一些优选的实施例中，所述三维模型生成解码网络为卷积循环神经网络。

在一些优选的实施例中，所述注意机制网络为长短期记忆网络。

在一些优选的实施例中，步骤B20中“计算输入的训练图像投影的训练损失值”，其方法为：

步骤B21，将输入的训练图像在初始化后的三维重建模型中进行前馈传导，并利用max函数求出三维模型投影，将投影与输入的训练图像真实值比较，获得训练误差；

步骤B22，基于所述训练误差、当前三维重建模型的参数值以及所述输入的训练图像，获取输入训练图像投影的训练损失值。

在一些优选的实施例中，所述三维重建模型训练完成后还设置有模型测试评估的步骤，其方法为：

步骤C10，基于输入的测试图像，采用训练好的三维重建模型获取三维重建立体测试模型；

步骤C20，将所述三维重建立体测试模型与测试图像的真实值对比计算IoU评估值，并获取同一种类的物体的loss值、IoU值的平均值与方差；

步骤C30，判断所述IoU评估值、同一种类的物体的loss值、IoU值的平均值与方差是否符合设定条件，如果是则模型训练达到要求。

本发明的另一方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。

本发明的第三方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。

本发明的有益效果：

本发明基于2D-3D注意机制神经网络模型的三维重建方法，针对三维重建精度较低，泛化能力较弱等问题，将注意力机制引入自编码器网络中，实现了对目标物体高质量的三维重建。相比于生成对抗式网络等方法，本发明提出的方法在三维重建问题上精度更高，并采用不在训练集中的数据进行测试，模型有更强的泛化能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于2D-3D注意机制神经网络模型的三维重建方法的流程示意图；

图2是本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的网络模型loss值与IoU值折线趋势图；

图3是本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的本发明方法与3DR2N2模型、PTN模型重建结果对比图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于2D-3D注意机制神经网络模型的三维重建方法，该三维重建方法包括：

步骤S10，获取物体不同视角的二维图像集作为输入图像集；

步骤B10，初始化所述三维重建模型的参数；

为了更清晰地对本发明基于2D-3D注意机制神经网络模型的三维重建方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于2D-3D注意机制神经网络模型的三维重建方法，包括步骤S10-步骤S20，各步骤详细描述如下：

步骤S10，获取物体不同视角的二维图像集作为输入图像集。

物体不同视角的二维图像为不同拍摄视点下获得的物体二维图像，包含了物体各个角度的特征。

步骤S20，基于所述输入图像集，通过训练好的三维重建模型，获取物体三维模型。

三维重建是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。

在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全，因此三维重建需要利用经验知识，而多视图的三维重建(类似人的双目定位)相对比较容易,其方法是先对摄像机进行标定,即计算出摄像机的图像坐标系与世界坐标系的关系，然后利用多个二维图像中的信息重建出三维信息。

三维重建模型包括：特征提取网络、三维模型生成解码网络、注意机制网络。

特征提取网络主要负责对原始数据进行特征提取，输入图像分辨率为64×64，本发明实施例中采用残差网络得到低维度的丰富特征，接下来使用卷积长短期记忆网络可以使特征同时具备空间上与时间上的联系，使用5×5的卷积核得到32×32×64的特征图，最后采用多层卷积控制隐式向量的维度，分别使用3×3，4×4，5×5卷积核，最终得到一串1×1×512的隐式向量。该隐式向量将作为解码部分以及长短期记忆网络的输入。

三维模型生成解码网络为了得到三维模型，全部采用三维卷积核，采取与图像编码部分对称的形式，首先采用卷积长短期记忆网络得到3×3×3，512个通道的特征图，接下来同样采取三层卷积，卷积核大小分别为4×4×4，5×5×5，6×6×6，最终得到32×32×32，1通道的三维模型。卷积与卷积长短期记忆网络有效的结合，可以使得三维模型的精度得到保证。

注意机制网络部分旨在输入原始数据与编码部分得到的隐式向量，使得长短期记忆网络不断更新，最后可以输出图像的角度。将该角度对应的图像再次输入到网络中，促进三维重建更快的完成，最终使用尽可能少的图像达到高精度的三维重建结果。在该网络中，输入图像与隐式向量合并输入到长短期记忆网络中，长短期记忆网络不断的更新隐藏层，再经过全链接层得到下一帧需要输入的图像，并再次输入到图像编码网络中实现循环。

步骤B10，初始化所述三维重建模型的参数。

本发明一个实施例中，将一次性送入模型的训练数据批量设为16，初始学习率设为0.0001，优化器参数为β₁＝0.9，β₂＝0.99，权重衰减正则项设为0.0005，最大训练步数设为60000步。

步骤B20，将输入的训练图像在初始化后的三维重建模型中进行前馈传导并计算输入的训练图像投影的训练损失值。

本发明一个实施例中，使用shapeNet数据集，该数据集包含55种物体，每种物体从24个方位角进行拍摄得到RGB图像，共有51300个3D模型，模型大小为32×32×32。在本发明实施例中，将图像大小裁剪成64×64×3。

“计算输入的训练图像投影的训练损失值”，其方法为：

步骤B30，采用误差反向传播的方法，获取所述三维重建模型中各层参数的变化值并进行相应层的参数更新。

三维重建模型训练完成后还设置有模型测试评估的步骤，其方法为：

设定判断条件为：IoU值及其平均值、方差大于预设阈值，同时loss值及其平均值、方差小于设定阈值。

本发明一个实施例中，对三维重建模型进行测试评估，选取13种物体的312张64×64×3的图像作为测试数据，评估加入注意力辅助部分与仅有自编码器网络部分的重建效果，结果如表1所示：

表1

其中，views行代表输入图像数量，2D-3D代表仅有图像编码、解码，未加入注意机制的三维重建结果，2D-3D-Attention代表加入注意机制(即长短期记忆网络)的三维重建结果，loss代表获取的损失值，IoU代表获取的IoU值。如图2所示，为本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的网络模型loss值与IoU值折线趋势图，横坐标为输入的图像数量，纵坐标分别代表loss值、IoU值，方点折线代表仅有图像编码、解码，未加入注意机制的2D-3D三维重建loss值、IoU值走向趋势，圆点折线代表加入注意机制的2D-3D-Attention三维重建loss值、IoU值走向趋势。从表1和图2均可以看出本发明2D-3D-Attention模型优于普通2D-3D模型，在输入相同图像个数情况下，2D-3D-Attention模型的损失值要远小于2D-3D模型，得到的三维重建模型的IoU值明显提高。另外不论是2D-3D-Attention模型还是2D-3D模型，随着输入图像个数的增多，性能都逐渐增强。

对于13个物体种类的测试数据集，采用3D-R2N2方法、PTN、本发明方法，获得的三维重建IoU结果如表2所示：

表2

	3D-R2N2(IoU)	PTN(IoU)	Ours(IoU)
				Plane	0.513	0.533	0.602
Bench	0.412	0.482	0.508
				Cabinet	0.716	0.711	0.757
Car	0.798	0.712	0.788
				Chair	0.466	0.458	0.468
Monitor	0.468	0.535	0.566
				Lamp	0.381	0.354	0.398
Speaker	0.662	0.586	0.700
				Firearm	0.544	0.582	0.598
Couch	0.628	0.643	0.698
				Table	0.513	0.471	0.624
Cellphone	0.661	0.728	0.758
				Watercraft	0.513	0.536	0.532

其中，第一列分别代表13个物体类别的测试数据集，第二列分别为采用3D-R2N2方法进行三维重建的IoU值，第三列为采用PTN方法进行三维重建的IoU值，第四列为采用本发明方法进行三维重建的IoU值。从表中数据可以看出，本发明方法在大多数种类下得到的IOU值都为最高，在汽车(Car)与船(Watercraft)这两个种类中，实验结果与其他模型相当。如图3所示，为本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的本发明方法与3DR2N2模型、PTN模型重建结果对比图，综合以上结果来看，本发明方法整体性能与3D-R2N2方法、PTN方法相比具有较高的优越性，可以看出本发明使用的注意力机制有助于实现物体的三维重建。

本发明第二实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。

本发明第三实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，该三维重建方法包括：

步骤S10，获取物体不同视角的二维图像集作为输入图像集；

步骤B10，初始化所述三维重建模型的参数；

2.根据权利要求1所述的基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，所述三维重建模型包括：特征提取网络、三维模型生成解码网络、注意机制网络。

3.根据权利要求2所述的基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，所述特征提取网络为残差网络。

4.根据权利要求2所述的基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，所述三维模型生成解码网络为卷积循环神经网络。

5.根据权利要求2所述的基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，所述注意机制网络为长短期记忆网络。

6.根据权利要求1所述的基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，步骤B20中“计算输入的训练图像投影的训练损失值”，其方法为：

7.根据权利要求1-6任一项所述的基于2D-3D注意机制神经网络模型的三维重建方法，其特征在于，所述三维重建模型训练完成后还设置有模型测试评估的步骤，其方法为：

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于2D-3D注意机制神经网络模型的三维重建方法。

9.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于2D-3D注意机制神经网络模型的三维重建方法。