CN112927353A

CN112927353A - 基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端

Info

Publication number: CN112927353A
Application number: CN202110210926.3A
Authority: CN
Inventors: 匡平; 李祖宁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-08
Anticipated expiration: 2041-02-25
Also published as: CN112927353B

Abstract

本发明公开了基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端，属于三维场景重建技术领域，方法包括获取图像的包围框信息，根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围，并根据视锥体范围对待重建的扫描场景进行裁剪；在裁剪后的扫描场景进行模型检索、模型对齐处理，得到与裁剪后的扫描场景模型匹配的对象模型；预测所有与裁剪后的扫描场景模型匹配的第一对象模型的位置姿态参数，根据位置姿态参数使第一对象模型替换扫描场景中的对应点云，实现三维场景的重建。本发明在裁剪后的扫描场景进行模型检索、模型对齐处理，减小了模型检索、模型对齐的计算量，加快了三维场景重建的计算速度，三维场景重建效率高。

Description

基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端

技术领域

本发明涉及三维场景重建技术领域，尤其涉及基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端。

背景技术

随着消费者级别的深度传感器的普及(如Microsoft Kinect、Intel Real Sense、Google Tango等)，基于深度信息的三维场景重建技术也取得了长足发展，如A.Dai等人(A.Dai,M.Nieβner,M.

S.Izadi,and C.Theobalt,"Bundlefusion:Real-timeglobally consistent 3d reconstruction using on-the-fly surfacereintegration,"ACM Transactions on Graphics(ToG),vol.36,no.3,p.24,2017)实现了面向实时场景重建的Bundle Fusion等。同时，三维场景重建生成的大型标注数据集(A.Dai,A.X.Chang,M.Savva,M.Halber,T.Funkhouser,and M.Nieβner,"Scannet:Richly-annotated 3d reconstructions of indoor scenes,"in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017,pp.5828-5839)在三维对象识别和三维语义分割等深度学习领域也得到了广泛应用。尽管如此，由于传感器精度、扫描模式等因素的影响，生成的扫描模型往往是有噪声且不完整的。与人工建模相比，三维场景重建生成的扫描模型还难以达到应用标准。

解决上述问题的一种方案是Avetisyan等人(Avetisyan,Armen,et al."Scan2cad:Learning cad model alignment in rgb-d scans."Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019)的模型对齐：即根据输入的场景扫描模型，从预先建立的对象模型数据库中自动检索出匹配的模型对象，并将其与输入的扫描模型进行对齐和替换。用这种方式替换场景中的所有对象，就可以获得一个平滑、简洁的场景表示，从而满足虚拟现实、增强现实、建筑设计等多个领域的应用需求。然而，该方法还存在以下缺陷：(1)对于对象模型数据库中的每个对象都要进行一次模型检索，并在整个场景扫描中进行模型对齐，效率很低。(2)模型检索过程中只考虑了三维场景扫描的几何信息，而没有考虑颜色信息，限制了模型检索的准确度。

发明内容

本发明的目的在于克服现有三维场景重建过程中模型检索效率低的问题，提供基于二维目标检测和模型对齐的三维场景重建方法。

本发明的目的是通过以下技术方案来实现的：基于二维目标检测和模型对齐的三维场景重建方法，所述方法包括：

获取图像的包围框信息，根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围，并根据视锥体范围对待重建的扫描场景进行裁剪；

在裁剪后的扫描场景进行模型检索、模型对齐处理，得到与裁剪后的扫描场景模型匹配的对象模型；

预测所有与裁剪后的扫描场景模型匹配的第一对象模型的位置姿态参数，根据位置姿态参数使第一对象模型替换扫描场景中的对应点云，实现三维场景的重建。

作为一选项，所述方法还包括：

获取图像的对象类型，并根据对象类型从对象模型数据库获取类型匹配的对象模型；

将类型匹配的对象模型、剪裁后的扫描场景进行模型检索，判断对象模型与剪裁后的扫描场景模型是否匹配，若是，将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理。

作为一选项，所述图像具体为具有深度信息的RGB-D图像。

作为一选项，所述根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围具体包括：根据相机的视场范围构建视锥体投影矩阵进而确定三维空间中的视锥体范围，视锥体投影矩阵的计算公式为：

其中，FOV表示相机的视场范围，R表示视锥体的宽高比，N，F分别表示视锥体的近平面距离以及远平面距离。

作为一选项，所述根据视锥体范围对待重建的扫描场景进行裁剪具体包括：

将对象模型顶点的齐次坐标[x,y,z,w]经视锥体投影矩阵变换后，将对象模型顶点的齐次坐标的x,y,z分量与变换后的w分量进行比较，进而判断对象模型顶点是否处于视锥体内部。

作为一选项，所述将齐次坐标的x,y,z分量与变换后的w分量进行比较具体为：

-w≤x≤w

-w≤y≤w

-w≤z≤w

若对象模型顶点的齐次坐标的x,y,z分量满足上式条件，则对象模型顶点处于视锥体内部，反之，对象模型顶点处于视锥体外部。

作为一选项，所述将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理具体包括：

将裁剪后的扫描场景进行三维语义分割，得到对象模型在扫描场景中的平均坐标；

根据对象模型的平均坐标、裁剪后的扫描场景的顶点坐标回归预测对象模型的平均坐标与真实坐标的偏移量，得到对象模型的真实坐标；

将对象模型的真实坐标与语义分割后的对象模型进行包围盒预测处理，得到对象模型在场景中的位置姿态参数。

作为一选项，所述将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理的损失函数计算公式为：

L＝L_seg+λ(L_c1+L_c2+L_s+L_h+γL_corner)

L_seg表示三维语义分割的损失函数，L_c1、L_c2分别表示回归预测处理、包围盒预测处理的中心坐标偏移损失函数，L_s、L_h分别表示包围盒预测处理的包围盒大小损失函数与朝向损失函数，λ、γ分别表示用于控制各个损失函数权重的超参数；L_corner表示包围盒预测处理、真实包围盒的八个对应角点之间的距离之和。

需要进一步说明的是，上述方法各选项对应的技术特征可以相互组合或替换构成新的技术方案。

本发明还包括一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述的基于二维目标检测和模型对齐的三维场景重建方法的步骤。

本发明还包括一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述的基于二维目标检测和模型对齐的三维场景重建方法的步骤。

与现有技术相比，本发明有益效果是：

(1)本发明在裁剪后的扫描场景进行模型检索、模型对齐处理，减小了模型检索、模型对齐的计算量，加快了三维场景重建的计算速度，三维场景重建效率高。

(2)本发明利用成熟的二维图像目标检测技术确定场景中的目标对象的类型和视锥体范围，将类型匹配的对象模型、剪裁后的扫描场景进行模型检索、模型对齐处理，进一步限制匹配对象类型、模型检索及模型对齐的扫描场景，进一步加快了三维场景重建的计算速度，保证了三维场景重建的高效率。

(3)本发明图像具体为具有深度信息的RGB-D图像，保留了图像的颜色信息，将图像的类型作为模型检索处理的先验信息，有效提升了模型检索的准确度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明实施例1的方法流程图；

图2为本发明实施例1的裁剪前后的扫描场景对比示意图；

图3为本发明实施例1的语义分割网络结构图；

图4为本发明实施例1的回归偏移网络结构图；

图5为本发明实施例1的包围盒预测网络结构图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

如图1所示，在实施例1中，基于二维目标检测和模型对齐的三维场景重建方法，具体包括以下步骤：

S01：获取图像的包围框信息，根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围，并根据视锥体范围对待重建的扫描场景进行裁剪；其中，扫描场景为根据图像深度数据计算得到的场景点云模型。视锥体(frustum)，是指场景中摄像机的可见的一个锥体范围，由上、下、左、右、近、远，共6个面组成。在视锥体内的景物可见，反之则不可见，本发明使用视锥体裁剪只对视锥体内的对象进行绘制，从而提高渲染效率。

S02：在裁剪后的扫描场景进行模型检索、模型对齐处理，得到与裁剪后的扫描场景模型匹配的对象模型；

S03：预测所有与裁剪后的扫描场景模型匹配的第一对象模型的位置姿态参数，根据位置姿态参数使第一对象模型替换扫描场景中的对应点云，实现三维场景的重建。其中，位置姿态参数具体为模型的坐标、大小和朝向参数。

本发明在裁剪后的扫描场景进行模型检索、模型对齐处理，减小了模型检索、模型对齐的计算量，加快了三维场景重建的计算速度，三维场景重建效率高。

作为一优选项，本发明方法具体包括：

S11：获取图像的对象类型以及包围框信息，并根据对象类型从对象模型数据库获取类型匹配的对象模型；其中，图像具体为具有深度信息的RGB-D图像，能够保留图像的颜色信息；对象模型数据库为预建立好的平滑CAD模型数据库。

S12：根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围，并根据视锥体范围对待重建的扫描场景进行裁剪；

S13：将类型匹配的对象模型、剪裁后的扫描场景进行模型检索，判断对象模型与剪裁后的扫描场景模型是否匹配，若是，将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理；具体地，将类型匹配的对象模型作为模型检索处理的先验信息，有效提升了模型检索的准确度。

S14：对所有与裁剪后的扫描场景模型相匹配的第一对象模型进行位置姿态参数预测处理，根据位置姿态参数使第一对象模型替换扫描场景中的对应点云，实现三维场景的重建。

本发明利用成熟的二维图像目标检测技术确定场景中的目标对象的类型和视锥体范围，将类型匹配的对象模型、剪裁后的扫描场景进行模型检索、模型对齐处理，进一步限制匹配对象类型、模型检索及模型对齐的扫描场景，进一步加快了三维场景重建的计算速度，保证了三维场景重建的高效率。

进一步地，在步骤S11中，具体采用CNN模型如YOLOv3目标检测网络实现目标检测，即首先将RGB-D图像进行预处理，重新定义图像大小为448x448，然后输入YOLOv3目标检测网络，得到目标对象的类型以及二维包围框。相比R-CNN等经典的2-stage目标检测算法，该模型框架训练速度更快，且训练和预测过程都是端到端的，适用于本专利应用场景。更为具体地，YOLOv3目标检测网络将输入的RGB-D图片分割成S*S个均匀大小的网格，然后每个单元格负责去检测那些中心点落在该单元格内的目标，每个单元格会预测B多个边界框(bounding box)以及边界框的置信度(confidence score)。该置信度包含两个方面，一是这个边界框含有目标的可能性大小Pr(Object)，二是这个边界框的准确度。当该边界框的内容是背景时(即不包含目标)，此时Pr(Object)＝0，而当该边界框包含目标时Pr(Object)＝1。边界框的准确度可以用预测框与标签框(ground truth)的IOU(intersection overunion，交并比)来表征，记为

因此置信度整体c可以定义为

边界框(包围框)的大小与位置由4个特征值来表征：(x,y,w,h)，其中(x,y)是边界框的中心坐标，而w和h是边界框的宽与高，且中心坐标的预测值(x,y)是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小的，而边界框的w和h预测值是相对于整个图片的宽与高的比例，这样理论上4个元素的大小应该在0-1范围内，则实际上，每个边界框的预测值实际上包含5个元素：(x,y,w,h,c)，其中前4个表征边界框的大小与位置，而最后一个值是置信度。最后对检测目标进行分类，对于每一个单元格还要预测C个类别的概率值，用于表示该单元格负责预测的边界框内的目标属于各个类别的概率，这些概率值是在各个边界框置信度下的条件概率，即Pr(class_i|object)，不管一个单元格预测多少个边界框，只预测置信度最高边界框的概率值。同时，我们可以计算出各个边界框类别置信度(class-specific confidence scores)，具体计算公式为：

根据上式可知，包围框、类别、置信度表示该边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏。综上所述，每个单元格需要预测B*5+C个值。如果将输入图片划分为S*S个网格，那么网络最终输出的是大小为S*S*(B*5+C)的张量。

进一步地，在步骤S12中根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围具体包括：

根据相机的视场范围构建视锥体投影矩阵进而确定三维空间中的视锥体范围，视锥体投影矩阵的计算公式为：

其中，FOV表示相机的视场范围，决定了视锥体竖直方向上的张开角度；R表示视锥体的宽高比，与二维包围框的宽高比保持一致；N，F分别表示视锥体的近平面距离以及远平面距离，由相机成像范围决定。

进一步地，根据视锥体范围对待重建的扫描场景进行裁剪具体包括：

进一步地，将齐次坐标的x,y,z分量与变换后的w分量进行比较具体为：

-w≤x≤w

-w≤y≤w

-w≤z≤w

若对象模型顶点的齐次坐标的x,y,z分量满足上式条件，则对象模型顶点处于视锥体内部，保留对象模型顶点，反之，对象模型顶点处于视锥体外部，将视锥体外部的对象模型顶点删除。裁剪前后的扫描场景对比示意图如图2所示，可以看出，裁剪后的扫描场景(图2(b))范围相较于裁剪前的扫描场景(图2(a))范围有很大缩减，利于减小模型检索、模型对齐的计算量，保证了三维场景重建效率。

进一步地，步骤S13中将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理具体包括：

S131：将裁剪后的扫描场景进行三维语义分割，得到对象模型在扫描场景中的平均坐标；

S132：根据对象模型的平均坐标、裁剪后的扫描场景的顶点坐标回归预测对象模型的平均坐标与真实坐标的偏移量，得到对象模型的真实坐标；

S133：将对象模型的真实坐标与语义分割后的对象模型进行包围盒预测处理，得到对象模型在场景中的位置姿态参数。

具体地，在步骤S131中，具体采用语义分割网络对裁剪后的扫描场景进行三维语义分割，如图3所示，语义分割网络包括顺次连接的第一共享权重的多层感知机(MLP(64,64))、第二共享权重的多层感知机(MLP(64,128,1024))、第一池化层(极大值池化)、第三共享权重的多层感知机(MLP(512,256,128,128,2))和第一分类层(二分类N*2)，第一特征提取层输出端与第三特征提取层连接，其中第一共享权重的多层感知机输出N*64的特征图；第二共享权重的多层感知机输出N*1024的特征图；第一池化层经池化处理输出向量维度为1024的特征向量，并结合第一共享权重的多层感知机输出的特征图得到N*(1024+64)的特征图。语义分割网络对裁剪后的扫描场景(场景点云模型)的每个顶点都要进行并行计算，其输出是对输入顶点的二分类结果，即该顶点是否属于目标对象。对所有属于目标对象的顶点坐标位置求平均，即可得到该对象在扫描场景中的平均坐标C_avg。

具体地，在步骤S132中，具体采用回归偏移网络对象模型的平均坐标与真实坐标的偏移量，回归偏移网络输入为裁剪后的扫描场景中的顶点坐标，但输出层改为使用全连接层(FC)，用于回归预测平均坐标C_avg和真实坐标C_real之间的偏移量。如图4所示，回归偏移网络包括顺次连接的第四共享权重的多层感知机(MLP(128,256,512))、第二池化层(极大值池化)、第三全连接层(FC(256,128,3))和第一回归层(坐标偏移(x,y,z))，其中第四共享权重的多层感知机输出N*512的特征图，第二池化层经池化处理输出向量维度为512的特征向量。

具体地，在步骤S133中，具体采用包围盒预测网络进行包围盒预测处理，包围盒预测网络结构业余回归便宜网络类似，但修改了多层感知机层和全连接层的维度，输出中心坐标偏移量C_box和包围盒大小(h,w,l)以及包围盒朝向θ共7个参数。如图5所示，包围盒预测网络包括顺次连接的第五共享权重的多层感知机(MLP(128,128,256,512))、第三池化层(极大值池化)、第五全连接层(FC(512,256,3+3+1))和第二回归层((坐标偏移(x,y,z)),包围盒大小(h,w,l),朝向θ)，其中第五共享权重的多层感知机输出M*512的特征图，第三池化层经池化处理输出向量维度为512的特征向量。模型对齐过程中的真实坐标是由模型的平均坐标经过回归偏移网络和包围盒预测网络进行偏移后得到，如公式(1)所示：

C_real＝C_avg+ΔC_reg+ΔC_box

进一步地，三维语义分割网络、回归偏移网络和包围盒预测网络将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理的损失函数计算公式为：

L＝L_seg+λ(L_c1+L_c2+L_s+L_h+γL_corner)

其中,L_seg表示三维语义分割损失函数，大小为预测的对象模型顶点和真实模型顶点的交并比(IOU)；L_c1和L_c2分别表示回归偏移网络和包围盒预测网络的中心坐标偏移损失函数，大小为预测坐标偏移和真实坐标偏移之间的距离值；L_s和L_h分别表示包围盒预测网络的包围盒大小损失函数和朝向损失函数；L_s的大小为网络预测的缩放和真实模型缩放之间差值的绝对值之和；L_h的大小为网络预测的朝向θ和真实模型朝向θ'之间二分之一夹角的sin值；λ和γ是用于控制各个损失函数权重的超参数；L_corner损失函数表示预测的包围盒和真实包围盒的八个对应角点之间的欧式距离之和；由于角点位置是由包围盒中心、大小和朝向共同决定的，因此能够对这些参数进行联合的多目标训练。

为进一步说明本发明技术效果，现将本发明方法与现有三维场景重建方法Scan2CAD在Scan2CAD benchmark数据集下的准确率和运行时间(单一场景)对比，具体三维场景重建结果如表1所示：

表1本发明方法与现有技术三维场景重建对比表

Methods	bath	bookshelf	cabinet	chair	display	sofa	table	trash bin	other	Run time
											Scan2CAD	37.97	36.40	34.00	44.26	23.25	70.63	37.64	31.05	22.81	0.43s
Ours	43.32	33.34	39.61	45.22	27.87	61.10	41.16	32.52	20.62	0.12s

由表1不难看出，本发明方法的三维场景重建的准确率以及三维场景重建时间都得到了一定的提升，具有更加的应用价值。

实施例2

本实施例提供了一种存储介质，与实施例1具有相同的发明构思，其上存储有计算机指令，计算机指令运行时执行实施例1中的基于二维目标检测和模型对齐的三维场景重建方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例3

本实施例还提供一种终端，与实施例1具有相同的发明构思，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行实施例1中的基于二维目标检测和模型对齐的三维场景重建方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述方法包括：

2.根据权利要求1所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述方法还包括：

3.根据权利要求2所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述图像具体为具有深度信息的RGB-D图像。

4.根据权利要求1所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述根据图像的包围框信息结合相机内参计算三维空间中的视锥体范围，具体包括：

5.根据权利要求4所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述根据视锥体范围对待重建的扫描场景进行裁剪，具体包括：

6.根据权利要求5所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述将齐次坐标的x,y,z分量与变换后的w分量进行比较，具体为：

-w≤x≤w

-w≤y≤w

-w≤z≤w

7.根据权利要求2所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理，具体包括：

8.根据权利要求7所述的基于二维目标检测和模型对齐的三维场景重建方法，其特征在于：所述将相互匹配的对象模型与剪裁后的扫描场景模型进行对齐处理的损失函数计算公式为：

L＝L_seg+λ(L_c1+L_c2+L_s+L_h+γL_corner)

9.一种存储介质，其上存储有计算机指令，其特征在于：所述计算机指令运行时执行权利要求1-8任意一项所述的基于二维目标检测和模型对齐的三维场景重建方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于：所述处理器运行所述计算机指令时执行权利要求1-8任意一项所述的基于二维目标检测和模型对齐的三维场景重建方法的步骤。