CN115619709B

CN115619709B - 一种3d平面检测与重建方法、装置及存储介质

Info

Publication number: CN115619709B
Application number: CN202211046210.5A
Authority: CN
Inventors: 徐增林; 欧阳文喆
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-07-04
Anticipated expiration: 2042-08-30
Also published as: CN115619709A

Abstract

本发明公开了一种3D平面检测与重建方法、装置及存储介质，方法包括将待检测图像输入Swin Transformer 骨干网络中，输出具有5个尺度的特征图；将特征图输入特征金字塔网络中将特征图线性插值为 S×S×C大小，并经过6个卷积层和一个3×3×D卷积层生成Kernel G；利用一个Center‑ness模块预测一个Center‑ness分值，将Center‑ness分值与预测的置信度分数相乘得到置信度取值；将Kernel G分别与掩码头网络生成的掩码F和边缘E相乘后得到对应的掩码和边缘，最终通过将得到的掩码、边缘以及平面法向量参数结合得到重建图像。本发明方法将非平面区域错误预测为平面的概率大大降低，有效提高了平面分割精度。

Description

一种3D平面检测与重建方法、装置及存储介质

技术领域

本发明涉及计算机视觉领域，特别是涉及一种3D平面检测与重建方法、装置及存储介质。

背景技术

平面检测是很多AR应用的基础，许多国际国内巨头的AR开发引擎中包含了平面检测功能，如苹果公司的ARKit、谷歌公司的ARCore，华为公司的HuaweiAREngine，以及商汤科技的SenseAR都提供了平面检测功能，但在这些SDK的底层算法中，都是根据摄像头图像输入检测特征点，并依据特征点三维信息构建空间环境，将符合特定规律的特征点划归为平面，这导致平面检测精度不高，无法满足高质量AR内容生产的需求。

现有的3D平面检测与重建方法有基于聚类的方法，此方法容易将非平面区域错误检测为平面或周围其他平面的一部分；同时，现阶段的平面检测工作通常存在分割掩码精度不高的问题，这影响追求视觉质量的一些AR应用；另外，现阶段的3D平面重建工作通常存在法向量预测精度不高的问题，这也进一步导致了重建平面不平整等问题。

发明内容

本发明针对上述问题，提供了一种3D平面检测与重建方法、装置及存储介质，具有将非平面区域错误预测为平面的概率大大降低，有效提高了平面分割精度的优点。

本发明的第一方面，提供了一种3D平面检测与重建方法，方法包括如下步骤：

将待检测图像输入SwinTransformer骨干网络和特征金字塔网络中，输出具有5个尺度的特征图；

将特征图输入Kernel头网络进行边缘预测，具体为：将特征图线性插值为S×S×C大小，并经过6个卷积层和一个3×3×D卷积层生成Kernel G，其中S为特征图的尺寸，C为特征图的通道数，Kernel G为一个可学习的物体表示，D为卷积层个数；

将特征图输入掩码头网络进行特征统一后生成掩码F和边缘E；

将特征图输入平面参数解码网络获取平面法向量参数；

将Kernel G分别与掩码头网络生成的掩码F和边缘E相乘后得到对应的掩码和边缘；

通过将得到的掩码、边缘以及平面法向量参数结合得到重建图像。

本发明的进一步技术方案：在平面参数解码网络中将特征图应用4倍双线性插值和单层卷积层来预测每个像素的平面法向量。

本发明的进一步技术方案：预测每个像素的平面法向量损失函数包括L1损失、余弦相似度损失和深度损失，具体表达式为:

其中，n_i为预测平面法向量值，

为为平面法向量真值，n^T为平面法向量的转置，q为一个与相机参数矩阵和场景设定有关联的矩阵，α、β、γ为调节损失函数比率的系，N为点的个数，Q_i为属于平面的点的集合。

本发明的进一步技术方案：在获得像素的法向量后，将一个平面的所有像素的平面法向量求平均来计算得到实际平面法向量参数。

本发明的进一步技术方案：所述方法获取边缘E的边缘损失为：

其中，S_i为预测边缘掩码的真值面积，S_ave为预测所有掩码的平均真值面积，G_d为掩码真值宽度为d的边缘，P_d为预测掩码宽度为d的边缘。

本发明的进一步技术方案：所述方法还包括在Kernel头网络中利用一个Centerness分支网络预测一个Centerness分值，将Centerness分值与掩码头网络预测的置信度分数相乘得到置信度取值，置信度取值用于方法训练或选出预测结果。

本发明的第二方面，提供了一种3D平面检测与重建装置，装置包括：

特征图获取模块，用于将待检测图像输入Swin Transformer骨干网络和特征金字塔网络中，输出具有5个尺度的特征图；

Kernel G生成模块，用于将特征图输入Kernel头网络进行边缘预测，具体为：将特征图线性插值为S×S×C大小，并经过6个卷积层和一个3×3×D卷积层生成Kernel G，其中S为特征图的尺寸，C为特征图的通道数，Kernel G为一个可学习的物体表示，D为卷积层个数；

掩码模块，用于将特征图输入掩码头网络进行特征统一后生成掩码F和边缘E；

平面法向量获取模块，用于将特征图输入平面参数解码网络获取平面法向量参数；

掩码和边缘获取模块，用于将Kernel G分别与掩码头网络生成的掩码F和边缘E相乘后得到对应的掩码和边缘；

重建图像获取模块，用于通过将得到的掩码、边缘以及平面法向量参数结合得到重建图像。

本发明的进一步技术方案：所述装置还包括置信度取值获取模块，用于在Kernel头网络中利用一个Centerness分支网络预测一个Centerness分值，将Centerness分值与掩码头网络预测的置信度分数相乘得到置信度取值，置信度取值用于方法训练或选出预测结果。

本发明的第三方面，提供了一种3D平面检测与重建装置，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述3D平面检测与重建方法。

本发明的第四方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行上述3D平面检测与重建方法。

本发明提供的3D平面检测与重建方法、装置及存储介质，通过采用基于定位的分割方法，有效解决了之前基于聚类模型容易将非平面区域错误检测为平面区域或周围平面一部分的问题；通过引入Center-ness分支网络，提升后处理过程中的分割掩码筛选质量，有效提高了分割质量；使用边缘分支来监督分割掩码，从而有效提高了掩码分割精度，较好地提升了3D平面重建的效果；预测3D法向量方面的精度相较之前的模型也更高，使得重建后的3D平面更平整和高精度。综上所述，本发明产生的有益效果有：

与现有的基于聚类的模型相比，本发明方法将非平面区域错误预测为平面的概率大大降低，有效提高了平面分割精度。

本发明方法加入了边缘注意约束，模型会典型的预测出更高的掩码分割精度，大大提升了3D平面重建的效果。

本本发明方法采用了Center-ness分支网络来有效抑制那些低质量的预测结果，进一步保证了分割精度和3D平面重建的精度。

附图说明

图1是本发明实施例中3D平面检测与重建方法流程示意图；

图2是本发明实施例中3D平面检测与重建装置结构示意图；

图3是本发明实施例中的计算机设备的架构。

具体实施方式

为进一步对本发明的技术方案作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的步骤。

本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或硬件获取模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

实施例中涉及的缩略语和关键术语定义有：

平面检测：是指依据单幅输入RGB图像生成各平面对应掩码的任务；

掩码(Mask)：一种二值图，分割模型中一般指相对应物体的像素覆盖区域。

3D平面重建：通常要求逐一检测分割出输入RGB图片中平面实例，以及相对应的平面法向量参数。

实例分割(Instance Segmentation)：是在目标检测基础上进一步将物体逐像素的前景和背景分离出来，并准确分类。

后处理(Post-Processing)：在实例分割任务中，对于一个实例，可能产生多个有重叠的预测，这时需要后处理技术来对其中置信度较低的预测过滤掉，从而确保预测结果质量。

Transformer模型：一种以自注意力为核心的建模算法及相应模型。

本发明实施例针对3D平面检测与重建方法、装置及存储介质，提供了如下实施例：

基于本发明的实施例1

本实施例用于说明3D平面检测与重建方法，其流程示意图如图1所示，方法包括如下步骤：

将待检测图像输入Swin Transformer骨干网络和特征金字塔网络中，输出具有5个尺度的特征图；

将特征图输入Kernel头网络进行边缘预测，具体为：将特征图线性插值为S×S×C大小，并经过6个卷积层和一个3×3×D卷积层生成Kernel G，其中S为特征图的尺寸，C为特征图的通道数，Kernel G为一个可学习的物体表示，优选实施例中长度为256维，D为卷积层个数；

将特征图输入平面参数解码网络获取平面法向量参数；

具体实施过程中，如图1所示，首先由骨干(Backbone)网络和用于多尺度特征提取的特征金字塔网络(FPN)提取图像特征，接着由共享参数的Kernel头网络，用于预测边缘的边缘头网络和掩码的掩码头网络，以及用于平面法向量参数估计的卷积网络分支共同组成。优选实施例中，利用最新的Swin Transformer作为骨干网络，它以图像I∈R^H×W×3作为输入，其中H、W分别为输入图像长和宽，输出具有5个尺度的特征图，用P2、P3、P4、P5、P6表示。在经过给定主干和FPN之后，输入特征P2-P6将被线性插值为S×S×C大小，S为P2特征图的尺寸，C为特征图的通道数，然后经过6个卷积层和一个3×3×D卷积层生成Kernel G，D为卷积层个数，优选实施例中可为256，Kernel G为一个可学习的物体表示，长度为256维。至于Mask feature F，首先应用可变形卷积网络Deformable Convolutional Networks生成统一的特征表示，然后使用卷积层对其unified。

优选实施例中，在平面参数解码网络中将特征图应用4倍双线性插值和单层卷积层来预测每个像素的平面法向量。

进一步地，当位置远离对应实例的质心时，基于位置的方法会产生大量低质量的预测结果，简单的非极大值抑制NMS不足以选出高质量的预测结果，基于FCOS添加了一个与掩码内核分支平行的单层分支，以预测一个Center-ness分值，和预测的置信度分数相乘后来作为进一步提高预测筛选质量，包括在Kernel头网络中利用一个Centerness分支网络预测一个Centerness分值，将Centerness分值与掩码头网络预测的置信度分数相乘得到置信度取值，置信度取值用于方法训练或选出预测结果。具体地，这个单层分支与掩码内核分支平行，结构上相似，是专门用来预测Center-ness的；预测的置信度由平行的掩码分支预测得到，相乘之后得到一个最终的置信度，用来做训练或预测。Center-ness的定义与FCOS略有不同，其Center-ness不再基于整张图片，而是基于单个掩码的质心和其到掩码四边的距离。

优选实施例中，预测每个像素的平面法向量损失函数包括L1损失、余弦相似度损失和深度损失，具体表达式为:

其中，n_i为预测平面法向量值，

具体地，对于3D平面重建任务，同时预测出每个平面实例的3D参数(法向量)也是非常重要的。将3D平面参数

表面法线n和平面中心到相机中心的距离d定义/>

为此，在特征金字塔特征P2上应用4倍双线性插值和单层卷积层来预测每个像素的平面法向量。对于位于该平面上的3D点Q，有这样的关系n^TQ＝1。平面参数损失由三部分组成：L1损失、余弦相似度损失和深度损失。

优选实施例中，在获得像素的法向量后，将一个平面的所有法向量求平均来计算得到实际平面法向量参数。

优选实施例中，在获得逐像素的法向量后，通过对属于平面分割结果将一个平面的所有法向量求平均来计算平面实例法向量，这与之前基于聚类的方法是不同的，具体地，所述方法获取边缘E的边缘损失为：

进一步地，最终损失函数定义为：

L＝L_cls+L_dice+L_boundary+L_centerness+L_parn

上式中，L_cls为分类损失，L_dice为掩码的Dice loss，L_boundary为边缘损失，L_centerness为centerness损失(采用和L_cls相似的Focal loss)，L_parm为平面参数损失。

基于本发明的实施例2

以下，参照图2来描述根据本公开实施例1的方法对应的装置，一种3D平面检测与重建装置，装置200包括：特征图获取模块201，用于将待检测图像输入SwinTransformer骨干网络和特征金字塔网络中，输出具有5个尺度的特征图；Kernel G生成模块202，用于将特征图输入Kernel头网络进行边缘预测，具体为：将特征图线性插值为S×S×C大小，并经过6个卷积层和一个3×3×D卷积层生成Kernel G，其中S为特征图的尺寸，C为特征图的通道数，Kernel G为一个可学习的物体表示，D为卷积层个数；掩码模块203，用于将特征图输入掩码头网络进行特征统一后生成掩码F和边缘E；平面法向量获取模块204，用于将特征图输入平面参数解码网络获取平面法向量参数；掩码和边缘获取模块205，用于将Kernel G分别与掩码头网络生成的掩码F和边缘E相乘后得到对应的掩码和边缘；重建图像获取模块206，用于通过将得到的掩码、边缘以及平面法向量参数结合得到重建图像。

进一步的，装置200还包括置信度取值获取模块(图示未显示)，用于在Kernel头网络中利用一个Centerness分支网络预测一个Centerness分值，将Centerness分值与掩码头网络预测的置信度分数相乘得到置信度取值，置信度取值用于方法训练或选出预测结果。

除了上述模块以外，装置200还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

一种3D平面检测与重建装置300的具体工作过程参照上述3D平面检测与重建方法实施例1的描述，不再赘述。

基于本发明的实施例3

根据本发明实施例的装置也可以借助于图3所示的计算设备的架构来实现。图3示出了该计算设备的架构。如图3所示，计算机系统301、系统总线303、一个或多个CPU 304、输入/输出302、存储器305等。存储器305可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1方法的程序指令。图3所示的架构只是示例性的，在实现不同的设备时，根据实际需要调整图3中的一个或多个组件。

基于本发明的实施例4

本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本发明实施例1的3D平面检测与重建方法。

本发明实施例针对以上所述3D平面检测与重建方法、装置及存储介质，通过采用基于定位的分割方法，有效解决了之前基于聚类模型容易将非平面区域错误检测为平面区域或周围平面一部分的问题；通过引入Center-ness分支网络，提升后处理过程中的分割掩码筛选质量，有效提高了分割质量；使用边缘分支来监督分割掩码，从而有效提高了掩码分割精度，较好地提升了3D平面重建的效果；预测3D法向量方面的精度相较之前的模型也更高，使得重建后的3D平面更平整和高精度。综上所述，本发明产生的有益效果有：

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的步骤、方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种步骤、方法所固有的要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种3D平面检测与重建方法，其特征在于，所述方法包括以下步骤：

将特征图输入平面参数解码网络获取平面法向量参数；

通过将得到的掩码、边缘以及平面法向量参数结合得到重建图像；

其中，在Kernel头网络中利用一个Centerness分支网络预测一个Centerness分值，将Centerness分值与掩码头网络预测的置信度分数相乘得到置信度取值，置信度取值用于方法训练或选出预测结果。

2.根据权利要求1所述的一种3D平面检测与重建方法，其特征在于，在平面参数解码网络中将特征图应用4倍双线性插值和单层卷积层来预测每个像素的平面法向量。

3.根据权利要求2所述的一种3D平面检测与重建方法，其特征在于，预测每个像素的平面法向量损失函数包括L1损失、余弦相似度损失和深度损失，具体表达式为:

其中，n_i为预测平面法向量值，

为平面法向量真值，n^T为平面法向量的转置，q为一个与相机参数矩阵和场景设定有关联的矩阵，α、β、γ为调节损失函数比率的系数，N为点的个数，Q_i为属于平面的点的集合。

4.根据权利要求3所述的一种3D平面检测与重建方法，其特征在于，在获得像素的平面法向量后，将一个平面所有像素的平面法向量求平均来计算得到实际平面法向量参数。

5.根据权利要求4所述的一种3D平面检测与重建方法，其特征在于，所述方法获取边缘E的边缘损失为：

6.一种3D平面检测与重建装置，其特征在于，装置包括：

特征图获取模块，用于将待检测图像输入SwinTransformer骨干网络和特征金字塔网络中，输出具有5个尺度的特征图；

KernelG生成模块，用于将特征图输入Kernel头网络进行边缘预测，具体为：将特征图线性插值为S×S×C大小，并经过6个卷积层和一个3×3×D卷积层生成KernelG，其中S为特征图的尺寸，C为特征图的通道数，KernelG为一个可学习的物体表示，D为卷积层个数；

掩码和边缘获取模块，用于将KernelG分别与掩码头网络生成的掩码F和边缘E相乘后得到对应的掩码和边缘；

重建图像获取模块，用于通过将得到的掩码、边缘以及平面法向量参数结合得到重建图像；

置信度取值获取模块，用于在Kernel头网络中利用一个Centerness分支网络预测一个Centerness分值，将Centerness分值与掩码头网络预测的置信度分数相乘得到置信度取值，置信度取值用于方法训练或选出预测结果。

7.一种3D平面检测与重建装置，其特征在于，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行权利要求1-5中任一项所述的3D平面检测与重建方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的3D平面检测与重建方法。