CN114092697A

CN114092697A - 注意力融合全局和局部深度特征的建筑立面语义分割方法

Info

Publication number: CN114092697A
Application number: CN202111318277.5A
Authority: CN
Inventors: 陈动; 向桂丘; 刘玉婵; 王佳迪; 车顺豪; 胡凡; 何文龙
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-25
Anticipated expiration: 2041-11-09
Also published as: CN114092697B

Abstract

本发明公开了注意力融合全局和局部深度特征的建筑立面语义分割方法，通过设计顾及方向和位置编码的局部特征编码，强化局部特征聚合，增强门窗边界点的边缘特征和立面点的局部特征；通过融入全局Transformer感知模块，捕获门窗上下文全局特征，推理建筑立面门窗的几何位置结构和结构布局，从密度变化不均、含有噪声和离值点且数据缺失的建筑立面点云中正确识别出边缘特征不显著的门窗；基于注意力机制融合局部特征和全局特征。

Description

注意力融合全局和局部深度特征的建筑立面语义分割方法

技术领域

本发明属于建筑结构部件识别领域，特别涉及了一种建筑立面语义分割方法。

背景技术

建筑物作为城市中最基本、最主要的组成元素，其三维模型在室内外导航、建筑能耗模拟、三维可视化、建筑抽象等领域有着广泛的应用。由于激光雷达技术可以捕捉到建筑屋顶和立面部件的复杂结构，如窗户、门、阳台等，点云被大量用于三维真实场景的增强。建筑物重建是摄影测量学、计算机图形学、计算机视觉和遥感界的一个重要的研究领域。然而，如何以精确的几何、正确的拓扑和丰富的语义来重建点云的建筑模型，以实现语义理解和几何表示仍然是一个重大的挑战。与识别建筑屋顶部件相比，解析建筑立面部件，如窗户、门、阳台等是极具挑战性的，因为立面部件的复杂性(类型多样化的窗户和门，不规则的排列等)，以及立面点云通常存在异常值、不规则性和遮挡和自遮挡造成的数据缺失等问题。

近年来，深度学习在处理点云语义分割任务展现了很好的性能，出现了基于多视图(MVCNN、DeePr3SS、SnapNet等)、体素(VoxNet、SparseConvNet、Oct-Net、Kd-Net等)、点本身(PointNet、PointNet++等)的语义分割网络，这些方法相较于传统方法分割精度更高，不需要人工设计特征提取算子，因此利用深度学习处理建筑立面点云数据具有重要研究意义。由于建筑立面的门窗等小部件点云数据占比率极低，从现有技术文献可知，从不平衡数据中学习仍然是点云语义分割任务中一个具有挑战性的问题。

点云是无序的、不规则的、无结构的，在点云语义分割任务中，从3D点云提取特征的传统方法常常依赖于手工提取。近年来，基于自动提取特征的深度学习方法得到了广泛应用。点云语义分割的深度学习方法通常分为三类：基于多视图、体素和点本身。将3D点云映射为多视图、体素等规则表征，从而使用标准CNN，但此举会改变了点云的组织方式，从而产生点云几何信息损失、计算成本高、内存消耗大等问题。基于点本身的方法是直接应用MLP、卷积等方式提取点特征，保留了点云数据本身的结构并避免了以上问题。在点云语义场景分割任务中，基于点本身可分为逐点MLP、点卷积、图卷积和Transformer的这四类方法。

(1)基于逐点MLP的方法

这类方法是把共享参数MLP作为提取逐点特征的基本单元，并在提取逐点点特征后利用对称函数消除无序。PointNet是最早提出直接基于点本身处理无序点云的方法，该方法利用对称函数实现置换不变性，将深度学习应用于无序点云的开创性工作。具体来说使用共享参数MLP获取逐点特征，并使用最大池化层聚合所有点的全局特征。PointNet++作为PointNet的扩展，使用一个自编码器来探索点云的层次结构。为增强对点云形状特征的描述，Jiang等人受二维形状描述子SIFT的启发，设计了PointSIFT模块，该模块能够对不同方向的信息进行编码，并自适应不同尺度的形状，然后将该模块嵌入到PointNet++中。PointWeb在PointNet++的基础上提出了Adaptive Feature Adjustment(AFA)模块，继而获取局部邻域点集中所有点对之间的关系，实现局部点对之间的信息交换和特征优化。SO-Net通过Self-Organizing Map(SOM)选择特征点，以此模拟点云的空间分布。Chiang等人和Geng等人都提出了一种多尺度特征聚合方法，将编码器或解码器不同尺度的特征均上采样到原始点集大小，然后进行聚合操作获取点云的全局结构。RandLA-Net提出了一种高效、轻量级的网络结构，该网络采用随机点采样策略对点云实施大规模处理，并采用新颖的局部特征聚合模块保持几何细节。虽然这种方法可以利用共享的MLP获取逐点特征，利用注意力池化函数获取局部特征，但不能捕获点云的全局几何形状和邻域点之间的相互关系。这些方法使用MLP作为网络的基本单元使其处理效率高，但这未充分考虑语义上下文之间的依赖关系和邻域点之间的几何关系。

(2)基于点卷积的方法

这类方法是对采样点构建局部邻域空间，以便定义合适的卷积运算，使其直接作用于无序的点云。Hua等人采用3D卷积核对点云逐点卷积，以此获取每个点的高级特征，该方法原理简单、鲁棒性高，但效率低下。Tatarchenko等人把每个点的局部邻域点集投影到切平面上，然后在切平面上实施卷积，该方法能够处理大规模点云数据集，但没有充分利用3D点云潜在的几何结构信息。ShellNet提出了一种有效的卷积算子，该算子利用同心球壳的统计量来定义局部代表性特征。PointCNN使用χ-Conv算子将输入点云转换为潜在的规范顺序，然后对转换后的特征实现“标准卷积”。KPConv对点云进行卷积操作，通过使用一小组核点为相邻点分配不同的权值。该方法采用固定卷积核和可变形卷积核两种工作模式，使核点适应不同的局部几何复杂度。A-CNN提出一种在指定的环形结构和方向上的环形卷积，通过获取局部邻域空间内所有点对之间的关系，可以更好地捕获局部几何结构信息。虽然这些方法得到了很好的分割结果，但需要注意的是，如何设计合理的连续和离散卷积算子，逐步赋予邻域点权值是一个具有挑战性的步骤。另外，利用邻域点构造的卷积算子只反映了中心点与其邻域点之间的几何关系，忽略了邻域点之间的相互作用，导致局部形状描述不足。

(3)基于图卷积的方法

这类方法通过构建复杂多样的图的表示，从有组织的点云中获取依赖关系和底层连接模式。针对点云数据，图结构通常被认为是一种很好的解决和表示方法，以编码自然场景中的对象关系。DGCNN把EdgeConv模块嵌入到PointNet结构中，EdgeConv建立了一个局部图，继而学习了点与其邻近点之间的关系，该方法对特征空间中相似的特征进行聚类，所以在点云分类及分割任务中效果显著。然而，在该框架中引入空间变换模块会极度增大网络的复杂度。RGCNN为了自适应捕获动态图结构而使用图拉普拉斯矩阵，以描述层之间特征的关系，该方法对点云的噪声及密度都具有较强的鲁棒性。GACNet提出了一种图注意卷积，通过给相邻点分配适当的注意力权重，可以关注到学习特征中最相关的部分，继而适应不同形状的点云。SPG将点云按照几何形状划分为均匀的超点，在此基础上建立了一个图卷积，通过网络学习相邻超点之间的上下文信息，该方法能够处理大规模的室外场景点云数据集，但效率较低。尽管深度图结构试图利用点云的几何结构来实现更好的形状表示，但它通常会受到不合理的图结构的影响。因此，如何构建一个深度图架构，从合理的图中自适应地探索更深层次的结构模式是一个重大的挑战。

(4)基于Transformer的方法

Transformer在自然语言处理任务中取得巨大进展后引起了广泛关注，Transformer是由注意力特征向量和MLP组成，有助于改善识别特征，抑制干扰。PCT第一次将Transformer引入到点云处理中，通过构建Offset-Attention模块能够学习点云的上下文全局特征，由于Transformer的注意力矩阵运算容易消耗GPU显存，该方法并不适合较大规模的数据集。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了注意力融合全局和局部深度特征的建筑立面语义分割方法，从三维激光点云数据中精确提取建筑外立面的部件语义信息，增强建筑立面语义表达，为建筑立面的结构部件定量分析和建筑立面三维几何重建提供语义丰富的语义信息。

为了实现上述技术目的，本发明的技术方案为：

注意力融合全局和局部深度特征的建筑立面语义分割方法，通过设计顾及方向和位置编码的局部特征编码，强化局部特征聚合，增强门窗边界点的边缘特征和立面点的局部特征；通过融入全局Transformer感知模块，捕获门窗上下文全局特征，推理建筑立面门窗的几何位置结构和结构布局，从密度变化不均、含有噪声和离值点且数据缺失的建筑立面点云中正确识别出边缘特征不显著的门窗；基于注意力机制融合局部特征和全局特征。

进一步地，所述局部特征编码包括局部位置编码、局部方向编码和局部特征聚合；

所述局部位置编码过程如下：

给定建筑立面点云P＝{p₁,···,p_i,···,p_N}中每个点的三维坐标，采用KNN搜索算法，检索到p_i点的K个邻域点集

利用p_i及K个邻近点，根据下式对p_i进行局部位置编码：

其中，

表示p_i相对

的位置编码，

是p_i点的第k个邻近点，符号

表示拼接运算；

所述局部方向编码过程如下：

给定p_i及其邻域点

且各自的法向量分别为n_i和

在p_i点定义局部坐标系uvw，并建立规则，如下式：

其中，符号“×”表示向量叉乘；

n_i与

之间的差异用3个角度

来表示，如下式所示：

其中，符号“·”表示向量点乘；

则p_i相对

的方向特征编码

表示如下：

所述局部特征聚合过程如下：

在对

实施了局部位置编码和局部方向编码后，需将相关位置编码和相关方向编码的结果与

中间特征f_i ^k拼接得到

点的增强特征

得到增强特征后，将p_i点的K个邻近点采用注意力池化策略，实施邻域特征点集的加权求和，聚合邻域点集中有用信息，最终p_i点的聚合特征如下：

其中，

是p_i点的局部聚合特征，δ表示归一化函数softmax，MLP表示共享参数。

进一步地，对于所述全局Transformer感知模块，将p_i投入到Transformer中的三个不同的全连接层，得到逐点的特征向量q_i、k_i和v_i，进而根据下式得到p_i的全局特征

其中，γ是两个串联的全连接层。

进一步地，在全局Transformer感知模块中借助残差连接和多次Transformer编码增强对立面全局几何结构特征表达，提高解析不同类型建筑立面的泛化能力。

进一步地，基于注意力机制融合局部特征和全局特征的过程如下：

(1)局部和全局特征生成：给定输入点云(N,d_in)，分别从自编码器学习到建筑立面门窗的边缘几何局部特征(N,d_local)和从使用残差连接的Transformer层学习到门窗间上下文全局特征(N,d_global)；其中，N为当前采样尺度下处理的建筑立面点的数目，d_in、d_local和d_global分别为对应的特征维度；

(2)注意力矩阵构建：将(N,d_local)和(N,d_global)用共享参数MLP分别特征映射到(N,64)，将两个特征向量相加构建注意力矩阵，并对注意力矩阵使用softmax函数实施归一化操作；

(3)注意力机制的特征融合：将归一化后的注意力矩阵与局部特征矩阵(N,d_local)实施点乘，计算融合特征向量的注意力值，将注意力值进行非线性映射，得到注意力的融合特征向量，整个融合过程如下所示：

其中，f_i是p_i的注意力机制融合特征向量，

是p_i的局部特征，

是p_i的全局特征，p_i是建筑立面3D点，δ是归一化函数softmax，符号“·”表示点乘。

进一步地，最后将融合后的特征经过两个全连接层和一个Dropout层后，提取建筑立面门窗小部件，得到门窗小部件标注结果。

采用上述技术方案带来的有益效果：

本发明采用一种基于注意力的特征融合机制来聚合由自编码器和Transformer模块分别生成的局部和全局特征，从而学习增强的门窗编码特征，以帮助解决立面分割时发生的类不平衡问题。

在经典的自编码器神经网络结构的基础上，本发明提出了一种结合局部位置编码和局部方向编码的增强局部空间编码器。增强后的局部空间编码特征可以很容易地识别立面部件的轮廓，例如窗框。

本发明引入Transformer模块，以增强全局/上下文特征表征。针对密度不均、异常值和数据缺失的立面点云，通过利用立面门窗之间的全局特征，利用不完美的立面点云的上下文来推断感知不显著的建筑立面门窗结构部件。

附图说明

图1为本发明的基本流程图；

图2为本发明设计的深度学习框架AFGL-Net示意图；

图3为Dublin城区建筑立面标注数据集分布图；

图4为Dublin城区每块区域类别占比图；

图5为Dublin数据集相对基本配置参数下mIoU变化图；

图6为RueMonge2014数据集相对基本配置参数下mIoU变化图；

图7为不同占比训练集语义分割结果图；

图8为消融实验立面分割结果图；

图9为Dublin立面分割细节图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明提出了一种注意力融合全局和局部深度特征的建筑立面语义分割方法，如图1所示，通过设计顾及方向和位置编码的局部特征编码，强化局部特征聚合，增强门窗边界点的边缘特征和立面点的局部特征；通过融入全局Transformer感知模块，捕获门窗上下文全局特征，推理建筑立面门窗的几何位置结构和结构布局，从密度变化不均、含有噪声和离值点且数据缺失的建筑立面点云中正确识别出边缘特征不显著的门窗；基于注意力机制融合局部特征和全局特征。据此，本发明设计出了一种深度学习框架AFGL-Net，如图2所示，该网络采用提取局部特征的自编码器和全局Transformer感知模块的并行网络架构：首先把建筑立面点坐标和法向量等原始特征输入到全连接层，实现特征映射，生成非线性中间特征；然后将中间特征分别输入到自编码器和Transformer层，提取3D点云几何的局部和全局特征；继而借助注意力特征融合模块，融合局部集成特征和全局Transformer特征，生成高级融合特征；最后将融合特征输入到两个的全连接层和一个Dropout层，获得建筑立面每个3D点对应的语义标签。

本实施例使用Dublin城区建筑立面标注数据集和RueMonge2014建筑立面分割点云数据集评估AFGL-Net提取建筑立面门窗小部件的精度，并通过对比实验和鲁棒性实验实施例充分验证了AFGL-Net框架的有效性和鲁棒性。

(1)数据集描述

①Dublin城区建筑立面标注数据集

Dublin城区数据集于2015年由Laefer等人采集，包含41条航线，覆盖区域约5.6km²。直升飞机平台搭载TopEye system S/N 443激光雷达传感器和飞思相机，飞行高度较低约300m，激光点云的密度每平方米为250-348个点。由于飞行高度较低、密度较大，该数据集包含丰富的建筑立面点云。在该数据集的基础之上，2019年学者Zolanvarid等人从该数据集中选择部分密度较高、影像覆盖度较大和建筑类型较丰富的区域，实施了人工点云语义标注，用于训练卷积神经网络。为了深入挖掘Dublin城区数据点云的价值和充分训练神经网络，我们扩展了Zolanvarid等学者点云语义标注的范围，对图3的B₂区域开展了点云语义标注，选择该区域因为建筑密集、点云密度较大且建筑立面类型丰富。这些标注数据集一并用于本发明AFGL-Net网络的训练和预测建筑立面、门窗等部件。在训练时我们去除了建筑屋顶点云，仅仅将标注数据集中约3,600万个建筑立面点用于模型的训练和预测，以识别建筑立面门窗等部件。标注数据语义占比如表1所示：

表1 Dublin城区建筑立面标注数据集语义类别占比

为了便于后续实验的训练和测试，本发明对该将标注数据集划分为7块区域，见图5分别为B₁～B₇，其每块区域类别占比如图4所示。

②RueMonge2014建筑立面分割点云数据集

RueMonge2014数据集覆盖区域沿巴黎RueMonge 700 m的街道，采用428张高分辨率的建筑立面多视角图像通过SfM/MVS算法得到立面的三角网，并生成稠密3D点云。Riemenschneider等人对每张图像开展人工语义标注，然后利用图像与三角网的几何关系挑选出最适合点云标注的图像，继而将图像的标签传递到3D点云。该数据集点云语义标注分类包括墙壁、商店、门、窗户、阳台、屋顶和天空七个类别，每个点具有坐标、颜色、法向量和相对地面高度共10维特征。Riemenschneider等人将该数据集分割为约50％的训练数据集和剩余约50％的测试数据集，用于深度学习测试建筑立面分割任务。

(2)精度评价指标

本实施例用建筑立面各类别交并比(IoU)、类别平均交并比(mIoU)和总体分类精度(OA)三个精度指标用于评估AFGL-Net提取建筑立面门窗小部件的性能，其中把门窗交并比和平均交并比作为主要考虑的精度评价指标。IoU即某一类别两个集合的交集和并集之比，本实施例为预测结果(Prediction)与真实场景(Ground Truth)的交集与它们的并集之间的比值，mIoU则为各个类别交并比的平均值，OA衡量的是所有类别作为一个整体的分类精度。假定数据集中有k个类别，指定p_ii表示原本为i类且正确预测为i类的点数，p_ij表示原本为i类实际错误预测为j类的点数，p_ji表示原本为j类实际错误预测为i类的点数，mIoU和OA定义如下式所示：

(3)超参数设置

为了充分挖掘AFGL-Net对建筑立面点云的分割潜力，需要找到适合AFGL-Net网络的最佳超参数。本实施例使用以下六类超参数：初始AFGL-Net单独处理的一个数据单元的立面点数N；立面点p_i的邻域点数K；自编码器中编码器或解码器层数A以及对应特征维度B；全局Transformer感知模块层数C以及对应特征维度D。

针对Dublin数据集，六类超参数中的每类超参数进行四组设置(见表2所示)，即Schemes 1～4，每次改变其中一类超参数的值，其余超参数采用Scheme2中预定义的标准超参数配置，六类超参数共有24种组合。本实施例采用B₁～B₃三个区域作为测试集，剩余区域作为训练集。图5为Dublin数据集使用不同超参数得到实验结果与表2中Scheme 2中预定义的标准超参数预测结果的对比。针对RueMonge2014倾斜摄影点云数据集，采用RueMonge2014数据集提供的训练集和测试集开展建筑立面语义标注实验，对每类超参数进行了三组设置(见表3所示)，不同超参数设置的实验结果与表3中Scheme 2预定义的标准超参数预测结果的对比如图6所示。

表2 Dublin数据集超参数设置

表3 RueMonge2014数据集超参数设置

为兼顾建筑立面分割精度和GPU显存消耗，针对Dublin数据集，AFGL-Net网络超参数设置为：N3＝16,384、K2＝16、A2＝4、B2＝(16-64-128-256)、C2＝2、D2＝(8-32)。RueMonge2014数据集超参数设置为：N2＝2,048、K3＝24、A1＝3、B2＝(16-64-128)、C2＝2、D1＝(4-16)。在网络训练过程中针对Dublin和Ruemong2014数据集，AFGL-Net的训练轮次epoch设为100，训练批大小batch_size设为4，训练批数量batch_number设为500，每个训练轮次输入的点云块数为2,000(batch_size×batch_number)，每块点数为16,384(Dublin数据集)或2,048(RueMonge2014数据集)，学习率设为0.01。AFGL-Net软件运行环境为Ubuntu20.04、TensorFlow 1.15、CUDA 11.1和Python 3.6；硬件运行环境为NVIDIA GTX 3090 24GGPU、3.00GHz Intel i9-10980 XE CPU和64GB RAM。

(4)训练集的比例选择

在确保语义分割精度的同时，为兼顾网络训练效率，本发明期待能够利用最少占比的训练数据即可有效学习建筑立面门窗等部件几何。为此本实施例逐步增加训练数据集，训练多个AFGL-Net网络，通过评估这些AFGL-Net网络在相同测试数据集上的分割精度，以确定选择训练数据集的最佳规模。

针对Dublin数据集，从中随机选择区域B₂为测试数据集，通过对剩余分块数据的组合，构造不同比例的训练数据集，如表4所示构建了6种规模的训练数据集，占比从12.88％至80.74％，用于训练AFGL-Net网络，最终均以B₂作为测试集评估立面语义分割精度。根据图7可知，随着训练样本的增加，mIoU也同步增加，在训练数据集占比为35.27％时出现了拐点，此时mIoU为68.44％，其后虽然再增加训练样本，mIoU仍然增加，但增幅较小(≤0.3％)，增长趋势基本达到了饱和，这说明针对Dublin数据集，选择35.27％规模的训练数据基本能够充分训练网络来表征建筑立面几何特征。

表4六种规模的Dublin训练集且B2为测试集条件下AFGL-Net语义分割结果

针对RueMonge2014数据集，从其原有的50％训练数据集中依次划分11％、22％、30％、42％和50％，构建5种规模的训练数据集，用于训练AFGL-Net网络，最终以RueMonge2014中约50％的测试集评估立面语义分割精度。根据图7可知，随着训练集比例不断增大，其测试集的分割精度逐步提高，当训练数据集占比为50％时，mIoU达到最大值59.80％，由于训练数据集占比的限制整条蓝线未出明显的拐点，这说明利用RueMonge2014中占比约50％的训练数据训练AFGL-Net，此时学习并不充分。

(5)消融实验

本实施例设计了如表5所示的五组消融实验与AFGL-Net进行实验结果对比，验证AFGL-Net中相应模块的有效性。消融实验(a)：仅使用AFGL-Net中自编码器Autoencoder，验证局部编码的有效性。消融实验(b)：将消融实验(a)自编码器中解码器的LSE替换为共享参数MLP，验证解码器中施加LSE的有效性。消融实验(c)：去除消融实验(a)中LSE模块中的LDE编码，验证LDE编码的有效性。消融实验(d)：仅保留AFGL-Net中GTA，验证GTA学习全局上下文信息的有效性。消融实验(e)：仅保留AFGL-Net中Autoencoder和GTA，继而直接拼接Autoencoder和GTA各自获取的局部和全局特征，验证Autoencoder和GTA分别编码局部和全局特征的互补性。消融实验(f)：为本发明提出的AFGL-Net网络，在消融实验(e)的基础上增加了注意力特征融合模块AFF，融合局部和全局特征，替代简单拼接局部和全局特征的融合策略。实验选用Dublin数据集中B₁～B₃作为测试集，剩余区域作为训练集，图8为消融实验得到的立面分割对比结果图。

表5 AFGL-Net中各模块的消融实验结果

从结果可以看出Autoencoder侧重对建筑立面局部几何特征的学习，GTA侧重对建筑立面门窗上下文语义的学习。表5中实验方案(a)门窗IoU和mIoU比方案(d)分别高出19.63％和14.13％，直接表明了Autoencoder的重要性。方案(b)和(c)的mIoU均小于方案(a)的mIoU也直接证明了Autoencoder中增加局部方向编码LDE和在解码模块中施加LSE是有效果的。LSE能够对门窗边界框的形状进行有效的描述，从而得到几何形状较为规则的门窗。LDE增强了门窗边界点的边缘特征，对门窗边界框的位置刻画更精确。但是应该看到仅仅采用自编码器Autoencoder不易识别边缘特征不显著、密度不一的门窗，而GTA能够通过门窗上下文的全局特征捕获/推理建筑立面门窗的几何位置结构，识别出这些不显著的门窗。AFF特征融合通过注意力机制加权处理局部和全局特征能够更好地均衡GTA所带来门窗提取Commission分割错误。通过对比方案(e)和(f)门窗分割结果观察得到增加了AFF特征融合后的立面噪声更少、分割结果更均质。

(6)对比实验

为评估AFGL-Net在Dublin数据集上的性能，本实施例将AFGL-Net与当今基于逐点MLP的方法(PointNet、PointNet++、RandLA-Net)、基于图卷积的方法(DGCNN)和基于点卷积的方法(KPConv)进行了比较，实验中训练集为B₄～B₇四个区域，测试集为B₁～B₃三个区域，超参数选用最优超参数设置，分割结果如表6和图9所示。PointNet、PointNet++和DGCNN的默认采样方法为1m×1m的网格分块，在训练时由于分块较小，将整个场景切割成非常小的点云块会破坏建筑立面门窗结构的完整性，训练得到的网络不能有效地学习建筑立面几何结构。另外由于测区建筑分布密度不一且高度差异较大，导致1m×1m的网格划分得到的建筑立面点数差异很大。上述两点导致直接采用1m×1m网格划分作为上述三个模型的输入，其结果预测精度过低，有失对比的公平性。为此本实施例借鉴RandLA-Net点云分块预处理策略为PointNet、PointNet++和DGCNN网络提供输入，开展对比实验。

表6 Dublin数据集对比实验结果

根据如表6和图9的定量和定性分割结果，对比实验结论如下：

PointNet和DGCNN容易将较大区域局部点集全部预测为门窗或者建筑立面，产生错误分割，这是因为这两种算法均未采用能够有效扩大立面点感受野的自编码器，削弱了对立面点局部特征的表达。由于PointNet++对采样点的邻域半径设置和密度较为敏感，使得该方法虽然能够探测到大部分门窗的粗略位置，但未能对建筑立面的门窗进行精确提取。

RandLA-Net、KPConv和AFGL-Net的门窗分割效果比其他方法明显具有优势(mIoU:63.98％～67.02％；OA:86.02％～89.72％)，说明RandLA-Net、KPConv和AFGL-Net比其他三种方法具有更强大的局部特征编码能力，其中AFGL-Net门窗IoU分别比RandLA-Net、KPConv高出3.42％和4.27％。RandLA-Net将建筑立面预测为门窗的Commission分割错误相对较为严重，而KPConv明显存在将门窗预测为建筑墙面的Omission分割错误，AFGL-Net设计的局部方向编码以及在解码器中用局部空间编码替换MLP能学习到建筑立面更有效的局部几何细节，可以更好地均衡Commission和Omission两类分割错误，分割的结果与真值更为接近。尤其值得注意的是图9(f)AFGL-Net能更有效识别一系尺寸较小，密度不均的不显著的立面窗户，表明全局Transformer感知模块可以学习到建筑立面的结构信息特征、窗户间的上下文全局特征，而KPConv和RandLA-Net则难以正确识别出该区域包含的非显著门窗。但是同样应看到我们方法对区域B₄～B₇的训练最为耗时，需要253.95分钟，这主要是由于在自编码器中施加了更加复杂的局部空间编码和引入了刻画全局特征的Transformer模块。

(7)鲁棒性实验

为了评估AFGL-Net在其他类型点云数据集的鲁棒性和泛化能力，本实施例选择倾斜摄影建筑点云立面数据集RueMonge2014开展对比实验。表7为AFGL-Net与逐点MLP方法(PointNet、PointNet++和RandLA-Net)、图卷积方法(DGCNN)和点卷积方法(KPConv)针对RueMonge2014数据集的定量对比结果。

表7与相关方法的比较结果

根据如表7定量分割结果，鲁棒性实验结论如下：

PointNet++、RandLA-Net和AFGL-Net在RueMonge2014数据集的建筑立面整体分割精度明显优于其他算法。PointNet++在RueMonge2014数据集表现较佳主要是由于RueMonge2014倾斜摄影点云分布相对均质和稠密，使得该方法能够较好地捕获建筑立面的几何细节，但由于训练样本有限，PointNet++分割精度的绝对值仍然比Dublin数据集差。RandLA-Net和AFGL-Net不仅使用了更强的局部空间特征编码，还采用了注意力池化策略对邻域点集加权处理，聚合得到的局部特征更加具有区分度。另外由于AFGL-Net引入了Transformer，其能够学习建筑立面各部件间的拓扑，推理出相应语义信息，有效提升对不均衡类别的分割精度。如表7AFGL-Net对门分割的IoU为37.01％，远高于紧接其后RandLA-Net对该部件得到的21.75％IoU的分割精度。

PointNet、DGCNN和KPConv在分割门、窗和阳台等部件的分割精度明显低于其他算法。其中PointNet和DGCNN分割精度低可能是由于未充分考虑各部件之间几何分布的相关性，从而弱化了立面点的上下文特征。由于RueMonge2014训练样本有限且立面部件类型单一，建筑立面部件几何部件差异较小，限制了KPConv对该数据集的编码和特征的表达能力。

综上，本发明提出的建筑立面点云的门窗小部件分割的深度学习框架AFGL-Net，与当今主流深度学习框架相比AFGL-Net能够从大规模点云中有效识别占比过低的门窗等不均衡类别部件：譬如，AFGL-Net在预测Dublin数据集的门窗时，其门窗IoU为47.06％，比RandLA-Net、KPConv分别提高了3.42％和4.27％；在预测RueMonge2014数据集的门窗时，其门、窗IoU分别为55.31％和37.01％，比RandLA-Net提高了4.67％和15.44％。另外由于AFGL-Net通过注意力机制融合了刻画立面细节的局部特征和表征上下文结构布局的全局特征，建筑立面门窗边界点的识别更加精确，同时也能够根据立面门窗上下文信息，学习建筑立面的结构布局，将边缘特征不显著的门窗从密度变化不均的建筑立面点云中正确识别。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.注意力融合全局和局部深度特征的建筑立面语义分割方法，其特征在于：通过设计顾及方向和位置编码的局部特征编码，强化局部特征聚合，增强门窗边界点的边缘特征和立面点的局部特征；通过融入全局Transformer感知模块，捕获门窗上下文全局特征，推理建筑立面门窗的几何位置结构和结构布局，从密度变化不均、含有噪声和离值点且数据缺失的建筑立面点云中正确识别出边缘特征不显著的门窗；基于注意力机制融合局部特征和全局特征。

2.根据权利要求1所述注意力融合全局和局部深度特征的建筑立面语义分割方法，其特征在于：所述局部特征编码包括局部位置编码、局部方向编码和局部特征聚合；

所述局部位置编码过程如下：