CN113011359B

CN113011359B - 一种基于图像的同时检测平面结构和生成平面描述的方法及应用

Info

Publication number: CN113011359B
Application number: CN202110326862.3A
Authority: CN
Inventors: 鲍虎军; 章国锋; 叶伟才
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-10-24
Anticipated expiration: 2041-03-26
Also published as: CN113011359A

Abstract

本发明公开了一种基于图像的同时检测平面结构和生成对应平面描述的方法及应用，属于计算机视觉和图像处理领域。本发明能够针对单张图像，同时提取3D平面和生成对应平面的描述，为了提升平面描述子的辨别能力，本发明提出一个掩码感知的模块和一个实例三元组的损失函数，能够很好的应用在AR场景中。此外，本发明还可以将SuperPlane应用到基于图像定位的任务上(图像检索)，由于提取平面的面积不同，本发明提出了一个面积感知的Kullback‑Leibler散度方法来召回相似的图像。通过基于图像检索和增强现实等应用，本发明展示了在挑战场景中的平面匹配的强大能力和显著的泛化能力。

Description

一种基于图像的同时检测平面结构和生成平面描述的方法及应用

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种基于图像的同时检测平面结构和生成平面描述的方法及应用。

背景技术

查找不同视图之间的对应关系是3D视觉任务，例如增强现实(AR)应用和基于图像的定位(IBL)或图像检索的关键问题。在AR应用程序中，某些虚拟对象通常放置在提取的平面上。传统的平面提取通常遵循以下范式：先进行特征点提取和描述(如SIFT，ORB，SuperPoint等)，将匹配的特征点从多个视图中三角化为3D坐标点，然后通过对3D点进行聚类和扩展来估计平面的参数。但是，在具有挑战性的条件下(例如，弱纹理的场景)获得足够的匹配特征点并非易事。一些方法直接执行深度估计，然后对平面进行三角剖分，以便可以将虚拟对象放置在平面上，但它们不能区分语义上不同的区域。例如，墙壁和门可以具有相同的深度，并且将仅检测到一个平面，这不足以实现将帽子悬挂在门上的AR效果。人造场景通常包含丰富的平面结构，人类对世界的感知可能基于单个平面特征，而不是基于低级特征点或全局图像特征。诸如平面结构之类的中层特征可以在某种程度上模拟人类感知世界的方式。鉴于此，本发明强调平面检测和描述值得更多关注。

基于图像的定位(IBL)任务也可认为是场景识别。基于图像的定位任务是：给定查询图像，从具有地理标记的数据库中的相同位置捕获的参考图像。现有作品可以分为基于图像检索的方法和基于按位置分类方法等，而本发明的关注点在于能够生成多个平面描述子，用于检索相似图像。传统的NetVLAD通过提出可学习的VLAD层，将CNN特征转换为具有可学习的语义中心的本地描述子，以进行本地化，它用的是全局或语义特征，这些特征受显着区域的影响很大，并且对动态对象敏感(例如，移动人)导致模糊的匹配。SFRS引入了图像到区域的监督机制，以挖掘困难的阳性样本，从而更有效地进行局部特征学习，尽管SFRS引入了图像到区域监督以自我监督的方式训练图像特征，但它忽略了多区域到多区域监督。与SFRS不同，本发明利用多区域到多区域的监督来增强特征向量的可识别性。

由于存在许多挑战性问题，同时检测平面结构和生成平面描述仍是一个值得研究的问题。

发明内容

本发明针对现有技术的不足，提出了一种基于图像的同时检测平面结构和生成平面描述的方法及应用。本发明在应对上述问题，进行了以下分析：平面检测应与现实世界中的物体实例相关，随着获得的不同图像，检测到的平面数量也应改变。对于平面描述子，它应该具有处理视角变化，甚至是光照变化等的分辨能力。本发明可以遵循诸如PlaneRCNN之类的平面检测网络来检测平面，并构造三元组样本作为对相应平面描述子的监督，三元组样本需要由检测到的平面组成，而不是完整的图像。

基于上述分析，本发明提出了一个名为SuperPlane的网络结果，用于检测3D平面并从单个图像生成相应的描述，并将其应用于AR场景、图像检索任务等。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个目的在于提出一种基于图像的同时检测平面结构和生成对应平面描述的方法，包括：

针对单张图像，利用平面检测和描述网络SuperPlane，生成图像的多个3D平面以及每个平面对应的描述子；

所述的平面检测和描述网络SuperPlane包括平面检测子网络和平面描述子网络，所述的平面检测子网络由骨干网络和两个分支构成，第一分支采用Unet网络，第二分支包括区域生成网络RPN+RoIAlign层、卷积层、激活函数层构成；

首先通过骨干网络提取图像特征，得到第一特征图；

在第一分支中，利用Unet网络获取第一特征图的深度图；

在第二分支中，利用区域生成网络RPN和RoIAlign层提取第一特征图中的局部区域信息，获得感兴趣区域；经卷积层提取感兴趣区域的特征，得到第二特征图，再经激活函数层输出每一个实例的分割蒙板图；

由深度图和分割蒙板图合成3D平面；

所述的平面描述子网络由掩码感知模块、卷积层、平均池化层、全连接层、内部正则化层和L2范数层构成；

将由平面检测子网络输出的第二特征图和分割蒙板图进行逐个像素相乘，以获得掩码感知的第三特征图，然后将第三特征图与第二特征图拼接作为第四特征图；将第四特征图依次经卷积层、平均池化层、全连接层后生成矩阵，通过内部正则化层转换为向量，最后使用L2范数层进行整体归一化，得到每一个3D平面对应的描述子。

本发明的第二个目的在于提供一种上述方法在AR场景中的应用。

本发明的第三个目的在于提供一种上述方法在图像检索任务中的应用，将多平面匹配相似度集成到整个图像相似度中。

现有技术相比，本发明的优势在于：

1)本发明是一种同时检测平面结构和生成平面描述的方法。本发明是第一次尝试从单个图像中检测3D平面并同时生成对应的平面描述的方法。它可以用于实现多个虚拟物体放置到特定平面的AR应用，也可以用于实现如弱纹理、重复纹理等挑战场景的平面匹配任务，可以作为SLAM回环检测或重定位模块的技术支撑。

2)本发明提出的平面描述的基准可以用于单张图像多平面描述子性能的衡量基准，另外在训练平面描述子提出的实例三元组可以较好的增强图像检索的细粒度辨别能力。

3)本发明提出的基于SuperPlane的图像定位方案中，模型只在提出的平面描述基准(Plane Description Benchmark)上训练，但并未在图像定位的数据集上测试，结合全局描述子取得了基本最先进的性能，体现了较好的泛化能力。

附图说明

图1是本发明提出的SuperPlane网络的结构示意图；

图2是本实施例中在SuperPlane网络中引入循环扭曲优化网络之后的应用示意图；

图3是本实施例中将SuperPlane用于图像检索任务的示意图；

图4是本发明提出的平面描述基准(PDB，Plane Description Benchmark)构造的示意图；

图5是本发明在弱纹理场景能稳定检测平面并匹配，与基于特征点方法提取不出足够特征点无法生成平面的对比结果；

图6是本发明在重复纹理场景能稳定检测平面并匹配的结果图；

图7是本发明提出的面积感知KL散度方法优于传统KL散度方法的对比图；

图8是本发明在图像检索任务中，与现有方法相比，能鲁棒应对视角变化和光照变化的对比图；

图9是本发明展示了单平面检测用于AR应用场景中虚拟物体放置与平面匹配用于纹理映射的效果图；

图10是本发明展示了多平面检测用于AR应用场景中多虚拟物体放置的效果图。

具体实施方式

下面结合说明书附图对本发明进行详细说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

本发明是一种同时检测平面结构和生成平面描述的方法，输入每张RGB图像，运行共享权重的SuperPlane网络，可以得到每张图像的多个平面和生成对应的描述子，根据计算的描述子可以得到匹配的平面。使用得到的匹配平面可以支持如虚拟物体放置在平面的AR应用，平面跟踪和图像检索等应用。

本发明的贡献可概括为四个方面。

1)本发明提出了一个新颖的模型(SuperPlane)，用于同时对单个图像进行3D平面检测和生成对应平面的描述。

2)本发明提出了一种新的平面描述训练和测试基准(PDB)，并提出了一个实例三元组损失来训练SuperPlane。

3)本发明将SuperPlane应用于基于图像的定位任务上，并进一步引入Area-AwareKullback-Leibler散度检索方法来检索相似图像。

4)本发明在基于图像的定位任务、挑战场景的平面匹配优于以前的最新方法，并展示了显着的泛化能力。

如图1所示，一种基于图像的同时检测平面结构和生成对应平面描述的方法，包括：

所述的平面检测和描述网络SuperPlane包括平面检测子网络和平面描述子网络，所述的平面检测子网络用于生成候选的实例平面，由骨干网络和两个分支构成，第一分支采用Unet网络，第二分支包括区域生成网络RPN+RoIAlign层、卷积层、激活函数层构成；

首先通过骨干网络提取图像特征，得到第一特征图；在本实施例中，骨干网络可以采用resnet101、图像金字塔网络(FPN)。

在第一分支中，利用Unet网络获取第一特征图的深度图；

由深度图和分割蒙板图合成3D平面；

所述的平面描述子网络由掩码感知模块、卷积层、平均池化层、全连接层、内部正则化层和L2范数层构成；本实施例中，采用三层卷积层结构。

在本实施例中，针对缺乏可用于训练本发明的框架的数据集，本发明利用一个平面描述基准来训练网络，具体为：

获取图像对，采用PlaneRCNN生成的平面索引；每对图像样本都包含一组对应的匹配项、图像对之间的相对位姿和相机内参，所述的匹配项为平面索引-平面索引，构成三元组；

构建平面基准，通过相对姿态将图像对中的一张图像扭曲到另一张图像，然后计算交集IOU，来选择三元组，筛选出IOU值处于0.4-0.7的三元组作为训练集。

在训练过程中引入平面实例级三重态损失，随机选择一组图像的不同平面匹配对进行监督，负样本的平面对是随机选择的，将平面实例级三重态损失的计算式表示为：

其中，i表示匹配平面的索引，而j是正样本之外的随机索引，m表示一组图像平面匹配对的数量，k表示一对匹配平面正负样本的数量，A_i表示锚定输入，P_i表示匹配平面的正输入，N_j表示不同平面的负输入，f(·)表示编码的描述子，α表示正负样本对之间的边距。

平面检测和描述网络SuperPlane的整体损失函数为：

L_total＝λ₁L_RPN+λ₂L_loc+λ₃L_mask+λ₄L_depth+λ₅L_{instance-triplet}

其中，L_total表示总损失，L_RPN表示区域生成网络得到粗糙位置的损失，L_loc表示每个平面精确包围盒的损失，L_mask表示每个平面掩码损失，L_depth表示深度估计损失，L_{instance-triplet}表示用于训练平面描述子的平面实例三重态损失，λ₁、λ₂、λ₃、λ₄、λ₅为权重系数。

在训练过程中，首先固定平面描述子网络的参数，仅训练平面描述子网络，当平面描述子网络接近收敛时，不再固定平面描述子网络的参数，继续进行端到端整体训练直至平面检测和描述网络SuperPlane收敛。

下面对网络结构的设计和实现思路进行阐述：

1)平面检测子网络：用来检测图片中的平面实例。图1的左上角为待处理的图像，放入骨干网络获取特征图，特征图用于推断每个平面区域对应的深度图(depth)和分割蒙版(mask)。对于深度图，本发明使用形如Unet的架构通过卷积层(conv)和反卷积层(deconv)之间的跳过链接(skip-connection)来恢复深度值，对于分割蒙版，本发明使用区域生成网络(RPN)和RoIAlign层提取局部区域信息，使用sigmoid层来得到最终的每个实例的分割蒙版。使用的损失函数跟Fast-RCNN的分类loss和回归loss一样，用来监督物体粗糙的位置，定位loss和掩码loss用于精细的位置回归和二值掩码预测，这里不赘述。对于深度估计，使用平滑的L1 loss：

其中，d_gt表示真值深度，d_pt表示预测的深度。

2)平面描述子网络：用于对每个检测出来的平面进行表述来得到紧凑的平面描述子。如图1下部分所示，平面描述子网络采用类似NetVLAD的模块来表示平面特征。从RPN网络获得ROI后，本发明添加了三个卷积层，然后是全局平均池化层。全连接层生成的矩阵通过内部归一化层转换为向量，最后使用L2范数进行整体归一化。由于可以生成平面遮罩的平面检测子网络，本发明进一步提出了一种掩码感知模块来改进描述子，在掩码感知模块中，本发明将sigmoid层前面的特征图和sigmoid层后面的特征图逐个像素相乘，以获得掩码感知的特征图，该方式可增强特征的识别能力。

3)平面描述基准(PDB)：本发明构造了一个平面描述的数据集(PlaneDescription Benchmark)来训练网络SuperPlane，具体的步骤为：

如图4所示，本发明保留从PlaneRCNN生成的平面索引。直接使用PlaneRCNN中的每20个相邻帧来提取匹配对可能会导致一些简单的采样，因此本发明通过已知姿势将当前帧扭曲到相邻帧，然后计算从当前帧到相邻帧的交集(1OU)，来选择三元组；

对数据集进行筛选时，根据计算的IOU，可以将数据集分为三个级别：简单(0.7-1.0)，中等难度(0.4-0.7)和困难(0.1-0.4)。本发明主要考虑中等难度的数据。对于Scannet数据集中的所有场景，遵循Scannet训练/验证/测试拆分度量。对于每个单独场景，本发明还将数据集按照比率90％，5％，5％分别训练/验证/测试子集；

对于每个图像对，它都有多个对应的平面。每对图像都包含一组对应的匹配项(平面索引-平面索引)、每个图像的相对姿态和相机姿态。本实施例中，每个平面还可以包含平面参数(例如法向信息Normal和偏移Offset)、蒙版信息、深度和全局平面索引信息。

4)实例三元组损失函数：平面描述网络需要设计损失函数来进行监督，提出了一个实例级别的三元组来训练网络，使其具有细粒度检索能力。由于本发明的网络可以生成多个平面描述子，本发明将标准的三元组损失拓展为实例三元组损失来训练本发明的平面描述子。

传统方法为每个图像学习一个描述子，并构造一个图像三元组，以使图像级描述子更具区分性。但是，这种全局匹配策略在图像中也缺少一些详细信息。对于本发明的SuperPlane，本发明尝试了解类似图像搜索的更多详细信息。为了实现这个目标，本发明为每个平面实例学习了一个描述子。此外，本发明提出了一个平面实例级三重态损失，用于细粒度的判别性特征学习。本发明不在训练批次中构造图像级三元组，而是在图像中构造平面实例三元组。对于图像中的每个平面实例，此策略可增强平面描述子的可分辨性。它可以使离散概率分布更具区分性，可以用更详细的信息评估图像之间两个平面描述子分布的KL散度，这将导致更好的性能。

5)具体网络训练方式：本实施例中，由高性能深度学习库Pytorch实现，本发明采用在PlaneRCNN中使用的相同框架，并利用VLAD层对平面特征描述子进行编码和聚合。与PlaneRCNN不同，本发明使用拟议的PDB中等难度数据集来训练。在训练过程中，首先固定平面描述子网络的参数，仅训练平面描述子网络，当平面描述子网络接近收敛时，不再固定平面描述子网络的参数，继续进行端到端整体训练直至平面检测和描述网络SuperPlane收敛。

本实施例中，通过固定平面检测子网络进行了600次迭代训练，并进一步进行了1200次迭代训练。Adam算法用于优化损失函数，学习率恒定为1e-4，动量为0.99，权重衰减为0.0001。

6)在训练过程中引入循环扭曲优化网络，根据两张视图对应的深度图进行优化。循环扭曲优化网络通过保持当前视图(current view)和邻近视图(near view)之间重建的3D平面的一致性来提升平面检测和深度估计的质量。如图2中所示，本发明将两个有交叠的视图图像作为输入，并输出多个3D平面和相应的描述子。注意，两个重叠的视图图像的姿态是已知的。对于视频来说，每个SuperPlane分支均以每个帧为输入，并输出一个像素深度图。

具体过程为：

将第一张视图中的3D点P_c利用相对姿态信息投影到第二张视图中，然后利用双线性插值从第二张视图中读取对应的3D点P_n；利用拍摄不同视角的相机姿态，将P_n转换到第一张视图的坐标系，并计算转换后的坐标与转换前的坐标P_n之间的3D距离；

将第二张视图中的3D点P_n利用相对姿态信息投影到第一张视图中，然后利用双线性插值从第一张视图中读取对应的3D点P_c；利用拍摄不同视角的相机姿态，将P_c转换到第一张视图的坐标系，并计算转换后的坐标与转换前的坐标P_c之间的3D距离；

通过保持两张图像之间重建的3D平面的一致性来提升平面检测和深度估计的质量；

基于最终得到的3D平面，能够区别出不同平面的语义信息，支持AR场景中单个或多个虚拟物体的放置。

训练过程中，两张不同视角的视图需存在交叠，且两张视图的相对姿态、拍摄不同视角的相机姿态已知。

在本发明的另一项具体实施中，利用平面检测和描述网络SuperPlane得到每张图像的平面和对应的描述子之后，可以通过计算描述子的距离，按照最近邻匹配，就可以得到匹配的平面。这可以用于弱纹理、重复纹理、复杂变化场景中的特征匹配。也可用于多个平面放置虚拟物体和纹理映射。

例如，可将上述方法应用在AR场景中，如图2所示：

图9和10是AR场景真正应用的效果图，图2可以认为是使用的方案。循环扭曲优化网络可以用，也可以不用。

基于得到的3D平面，可以支持AR场景中单个或多个虚拟物体的放置，由于本发明的平面不单单只有平面信息，还能区别出不同的语义信息，可以支持像把图画放置到墙面而不是门这些特定的应用，如图10所示。在一些挑战场景，如弱纹理场景如图5所示，左侧显示查询图像，右侧显示参考图像。基于特征点的方法无法提取足够的匹配点来对平面进行分组(第一行)，而SuperPlane(第二行)可以直接检测平面并生成平面描述。

在重复纹理场景，SuperPlane也展示较好的平面匹配能力，如图9所示：每两行是一对视点变化的图像。从左到右：RGB图像，深度图，分割，匹配的平面和3D地图。结果表明，本发明可以产生稳定的平面检测，并在重复的纹理场景中保持匹配的一致性。

在本发明的另一项具体实施中，利用两张图像分别检测到的多个平面和生成的平面描述，可以构造一个MxN的差异矩阵，按照最近邻匹配的原则，可以得到M个匹配的平面。将每个平面描述子视为离散的分布，可以使用Kullback-Leibler散度来衡量两张图像的相似性。由于得到的每个平面的面积各有差异，本发明进一步提出的面积感知的Kullback-Leibler散度可以进一步改进衡量相似性的指标。

与现有的基于检索的方法不同，它们直接使用查询图像和图像库图像的全局特征来计算彼此之间的相似度。本发明额外使用多平面描述子网络来获取两个图像的相似性。将多对多平面相似度合并为两个图像的相似度并非易事。传统的Kullback-LeiblerDivergence(KL)通常用于估计分布P和Q之间的平均差。本发明将图像的每个平面描述子视为离散的分布，从而可以利用KL散度来估计两个图像的差异。由于本发明的模型检测到大小不同的平面，每个平面对图像的相似度都有不同的影响。本发明将传统的KL散度扩展为面积感知的KL散度(Area-Aware Kullback-Leibler)方法来检索相似图像，来提升图像检索的精度。

例如，可将上述方法应用在图像检索任务中，如图3所示：

将多平面匹配相似度集成到整个图像相似度中：

针对查询图像和图像库图像，利用平面检测和描述网络SuperPlane，分别生成查询图像和图像库图像的多个3D平面以及每个平面对应的描述子；

全局特征差异：计算查询图像和图库图像之间的全局特征差异；

局部平面特征差异：假设待匹配图像检测得到M个平面，图像库中的图像检测得到N个平面，构造一个MxN的差异矩阵，将每个平面的描述子视为离散的分布，按照最近邻匹配原则，获得两张图像之间的平面匹配，采用面积感知的Kullback-Leibler散度衡量两张图像平面的相似性；

将两个图像的全局特征差异与多个局部平面特征差异相加，以获得两个图像之间的最终差异，差异最小的图像作为最终的匹配图像。

在现有的基于检索的图像定位方法中，一般会首先获取查询图像和图库图像的描述子，然后计算查询与图库图像之间的相似度，以确认是否获得了查询图像和图库图像。在相同的GPS下，本发明的方案与现有方案不同。本发明获得的不仅是单个图像的全局特征向量，而且是图像的多个平面特征向量。本发明开发了一种将多平面匹配相似度集成到整个图像相似度中的策略。如图6中所示，首先，使用具有共享权重的SuperPlane网络从每个图像计算多平面描述符和全局特征，然后计算查询图像和图库图像之间的协方差。假设查询图像由M个平面组成，而图库图像由N个平面组成。然后，本发明计算不同图像平面之间的距离。换句话说，它将形成一个M*N的矩阵。本发明使用最近邻居搜索来获取每行最小相似度的索引，以便可以形成M对匹配项。

将每组匹配平面视为两个离散分布P和Q，因此KL散度可用于测量两个图像之间的差异。传统的KL散度定义为：

在每组图像中检测到的平面是不同的，然后本发明提出了面积感知的Kullback-Leibler散度来测量两个图像之间的差异，公式具体为：

其中，D_area-awareKL(P||Q)表示两个图像之间平面描述子分布的距离，Area(x)表示每个平面的面积占原图像的比例，P(x)表示第一张图像平面的描述子，Q(x)表示第二张图像与第一张图像匹配的平面描述子。χ表示选取的匹配平面集合。小距离意味着它们是相似的，反之亦然。

实施例

为了进一步展示本发明的实施效果，本实施例从五个方面进行实验：

本发明对拟议的平面描述基准(PDB)的拟议框架进行的消融研究，与ScanNet基准上的最新平面深度估计方法进行比较，与几种基于检索的方法在基于图像的定位基准上进行比较，网络的泛化能力以及SuperPlane上的AR应用。

使用的数据集清单：

ScanNet是现实环境中带注释的RGB-D扫描的数据集，包含在707个不同空间中进行的1,513项扫描中的2.5M RGB-D图像。本发明遵循PlaneRCNN的拆分指标来评估深度估计的性能。

Pittsburgh是统一的IBL数据集，由在不同时间捕获的大规模全景图像组成，并与嘈杂的GPS位置相关联。Pitts30k-val包含7,608个查询和10,000个图库图像，而Pitts250k-test包含8,280个探针和83,952个数据库图像。

Tokyo 24/7也广泛用于IBL任务。由于查询是在不同的条件下进行的，因此具有很大的挑战性。

另外，为了验证本发明方法的功效，本发明进一步将训练好的SuperPlane应用于IBL任务，并在Pitts30K-val，Pitts250K-val和Tokyo 24/7数据集上进行评估。请注意，本发明不对上述数据集进行训练。本发明遵循基于最新检索的IBL方法进行公平比较。

评价指标：

精度与召回率(Precision and Recall)：本发明在提出的PDB数据集上使用精度和召回率指标评估了本发明方法的平面匹配。精度测量平面匹配结果的相关性，而召回率则测量返回多少个真正的平面匹配相关结果。

对于深度估计，本发明遵循planercnn中使用的相同评估指标来评估预测深度图与地面真实深度之间的准确性。

在基于检索的IBL任务上，本发明遵循SFRS提出的相同评估指标，其中对前k个召回率进行了测量。如果前k个检索到的参考图像中的至少一个位于距查询图像d＝25米内，则确定已成功从前k个检索到查询图像。绝对误差评估直接把所有位姿与真实位姿作比较，并除以总轨迹长度，再求平均的旋转误差R(单位：度/100米)与平移误差t(单位：％)。绝对误差评估最大限度地考虑了累积误差的存在，用于评估整段序列的整体定位精度。

实验1：不同网络架构消融实验对比

表1在PDB数据集上不同网络架构的消融研究精度和召回率对比

本实验根据最新的平面检测方法planercnn的实验设置，利用拟议的平面描述基准(PDB)优化了SuperPlane网络。据本发明所知，本发明是第一个提出从单个图像检测3D平面和描述的方法。因为找不到相关的工作，所以本实验只在本发明的PDB数据集上报告一些结果。在提出的平面描述基准(PDB)中，本实验执行精度和召回率指标以分析提出的方法的有效性。表1证明了掩码注意模块增强了平面描述子的识别能力。循环翘曲优化模块进一步提高了精度和召回率。图6中显示的定性结果表明，本发明的网络可以产生稳定的平面检测并在重复的纹理场景中保持匹配的一致性。本发明还提供补充视频，以展示本发明的方法在平面检测和匹配中的时间一致性。

实验2：Kullback-Leibler散度消融实验

在基于图像的定位方案中，本发明利用两种KL散度方法来检索相似图像。本发明的w/o区域的KL”是使用标准KL散度的基线，图7所示，位于上面的一条线对应于本发明提出的Area Aware KL散度，位于下面的曲线对应于标准KL散度。在Tokyo 24/7,Pitts250K-test和Pitts30k-test数据集上，提出的Area Aware KL散度优于标准KL散度。

实验3：与最新深度估计方法的比较

本发明在ScanNet数据集上评估深度估计，并与最新的深度估计方法进行比较。PlaneRCNN是最相关的工作。表2证明本发明的方法通常比PlaneRCNN更好。左侧的五列显示了不同的深度误差度量，包括均方根深度误差(RMSE)和相关差(Rel)，越低越好。右边的三列表示地面真实深度和预测深度之间的相对差低于阈值的像素比率，越高越好。

表2与最新深度估计方法的深度估计比较

实验4：基于图像定位的基准上与最新技术比较

本实验将提出的基于SuperPlane的IBL方案与最新的图像定位方法NetVLAD，CRN，SARE和SFRS进行图像定位的数据集Pitts30k-test，Pitts250k测试和Tokyo 24/7进行比较。本实验将标准的Kullback-Leibler散度与生成的平面描述子结合在一起。本实验进一步利用Area-Aware Kullback-Leibler Divergence Retrieval检索方法，该方法比标准的Kullback-Leibler Divergence方法具有更好的性能。实验结果表明，本实验的方法优于最新的方法，如表3IBL基准测试中所示。这些方法从整个图像中提取可能对动态对象敏感的全局特征，从而导致错误匹配。相反，本发明的方法不仅基于全局特征，而且还基于背景中的局部平面特征，并且被认为对动态前景更健壮。

请注意，本发明的网络仅在提出的平面描述基准(PDB训练集)上进行训练，并直接在Tokyo 24/7，Pitts250k检验和Pitts30k检验数据集上进行评估。本实例证明提出的方法优于现有的最新方法。本实验将最佳结果标黑。

表3基于SuperPlane的IBL方案与最新技术基于图像定位的基准上的图像检索召回率对比

为了更好地了解本实验的方法在IBL任务上的优越性能，本实验与SFRS比较检索召回的图像。在图8视点和照明变化的IBL定性结果中召回的top-1图像表明，使用所提出的方法，本实验的检索系统可以处理照明或视点的较大变化。原因有两个。一方面，在训练过程中，根据IOU选择图像，可以覆盖较大的视点变化。此外，训练数据集还包含一些照明变化。另一方面，本发明的模型隐式编码各种局部提示，包括平面，轮廓和语义信息，因此它可以更稳健地处理复杂的场景。

实验五、网络的泛化能力和限制

由于本实验的框架仅在建议的平面描述基准(PDB)上进行训练，并在几个新的数据集上进行了评估，因此大量实验表明，本实验的方法在标准图像检索任务中保留了重要的泛化能力。

本实验的方法假定捕获图像的固有参数是已知的。如果地面真相与给定的固有参数之间的差距较大，则可能会导致平面检测和描述不准确。此外，如果平面数不够，则基于平面的图像匹配精度可能会降低。本实验将探索自我监督的训练方法，并将其与光流估计相结合，以改善未来的匹配精度。

实验六、SuperPlane的AR应用

本实验采用了一些AR应用程序来展示本发明的框架在“平面检测”和“平面描述”的能力。平面检测是AR应用程序中的一项基本任务，通常用于放置虚拟对象。对于基于特征的方法而言，捕获足够多的匹配特征点以构造弱纹理场景中的平面并非易事。但是，本发明的方法可以轻松检测多个平面，并且可以支持用户方便地放置目标对象。在AR应用程序中，长期的用户交互不可避免地会累积错误，并且系统需要自动消除错误。常用的解决方案可能是闭环检测或重定位，其中通常需要图像检索。如所证明的，本发明基于平面的图像检索方法可以处理弱纹理，重复纹理，透视图变化，照明变化和其他挑战性场景。所以可以用于slam的回环检测或重定位模块。

根据对比实验可以得出以下结论：

1)本发明提出的名为SuperPlane的新颖框架，该框架可检测3D平面并从单个图像生成相应的描述子。

2)本发明也建立新的Plane Description Benchmark，以方便将来在此方向上的研究。本发明提出的掩码感知模块和回环翘曲优化网络可以增强网络的辨别能力。

3)本发明提出的实例三元组损失函数可以增强平面的细粒度辨别能力。

4)本发明提出的Area-Aware Kullback-Leibler散度检索方法在Tokyo 24/7，Pitts250k和Pitts30k数据集上产生了最新的IBL结果。通过基于图像的定位和增强现实中的应用，SuperPlane展示了在挑战场景(弱纹理、重复纹理、视角变化和光照变化)中平面匹配的强大功能。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，包括：

首先通过骨干网络提取图像特征，得到第一特征图；

在第一分支中，利用Unet网络获取第一特征图的深度图；

在第二分支中，利用区域生成网络RPN和RoIAlign层提取第一特征图中的局部区域信息，获得感兴趣区域；经卷积层提取感兴趣区域的特征，得到第二特征图，再经激活函数层输出每一个平面的分割蒙板图；

由深度图和分割蒙板图合成3D平面；

2.根据权利要求1所述的基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，利用一个平面描述基准来训练网络，具体为：

构建平面基准，通过相对位姿将图像对中的一张图像扭曲到另一张图像，然后计算交集IOU，来选择三元组，筛选出IOU值处于0.4-0.7的三元组作为训练集。

3.根据权利要求2所述的基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，在训练过程中引入循环扭曲优化网络，根据两张视图对应的深度图进行优化，具体为：

通过保持两张图像之间重建的3D平面的一致性来提升平面检测和深度估计的质量。

4.根据权利要求3所述的基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，两张不同视角的视图需存在交叠，且两张视图的相对姿态、拍摄不同视角的相机姿态已知。

5.根据权利要求3所述的基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，在训练过程中引入平面实例级三重态损失，随机选择一组图像的不同平面匹配对进行监督，负样本的平面对是随机选择的，将平面实例级三重态损失的计算式表示为：

6.根据权利要求5所述的基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，平面检测和描述网络SuperPlane的整体损失函数为：

7.根据权利要求1所述的基于图像的同时检测平面结构和生成对应平面描述的方法，其特征在于，在训练过程中，首先固定平面描述子网络的参数，仅训练平面描述子网络，当平面描述子网络接近收敛时，不再固定平面描述子网络的参数，继续进行端到端整体训练直至平面检测和描述网络SuperPlane收敛。

8.一种权利要求1所述的同时检测平面结构和生成对应平面描述的方法在AR场景中的应用，其特征在于，将场景视图作为SuperPlane网络的输入，得到3D平面及对应的描述子，能够区别出不同平面的语义信息，支持AR场景中单个或多个虚拟物体的放置。

9.一种权利要求1所述的同时检测平面结构和生成对应平面描述的方法在图像检索任务中的应用，其特征在于，将多平面匹配相似度集成到整个图像相似度中：

10.根据权利要求9所述的同时检测平面结构和生成对应平面描述的方法在图像检索任务中的应用，其特征在于，所述的面积感知的Kullback-Leibler具体为：

其中，D_area-awareKL(P||Q)表示两个图像之间平面描述子分布的距离，Area(x)表示每个平面的面积占原图像的比例，P(x)表示第一张图像平面的描述子，Q(x)表示第二张图像与第一张图像匹配的平面描述子，χ表示选取的匹配平面集合。