CN117934524A - 建筑物轮廓提取方法及装置 - Google Patents
建筑物轮廓提取方法及装置 Download PDFInfo
- Publication number
- CN117934524A CN117934524A CN202311753244.2A CN202311753244A CN117934524A CN 117934524 A CN117934524 A CN 117934524A CN 202311753244 A CN202311753244 A CN 202311753244A CN 117934524 A CN117934524 A CN 117934524A
- Authority
- CN
- China
- Prior art keywords
- building
- image
- candidate
- neural network
- vertexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 80
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 66
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 230000001629 suppression Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种建筑物轮廓提取方法及装置,所述方法包括:获取建筑物卫星图像;将建筑物卫星图像输入至建筑物指针网络BPN,得到BPN输出的建筑物轮廓;其中,BPN包括角点检测模块与角点顺序预测模块,角点检测模块用于基于DETR神经网络从建筑物卫星图像中提取出候选顶点;角点顺序预测模块用于将候选顶点与建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于输入序列的注意力机制,从候选顶点中选出目标顶点,构建出建筑物轮廓,如此使用BPN实现了更泛化能力地提取建筑物轮廓。
Description
技术领域
本发明涉及数字图像处理与识别技术领域,尤其涉及一种建筑物轮廓提取方法及装置。
背景技术
从卫星图像中提取结构化的建筑轮廓在许多地理空间任务中起着重要作用,如三维城市建模、地图更新、地籍测绘等。
目前的方法大都基于深度学习。然而现有的方法仍然有许多问题,比如训练网络需要大量数据集,其标记成本高,以及在简单多边形上训练的模型在具有更复杂形状的建筑物上表现出较差的泛化能力。
因此亟需提供一种基于泛化能力强的深度学习的建筑物轮廓提取方法。
发明内容
本发明提供一种建筑物轮廓提取方法及装置,用以实现更泛化能力地提取建筑物轮廓。
本发明提供一种建筑物轮廓提取方法,包括:
获取建筑物卫星图像;
将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,构建出所述建筑物轮廓。
根据本发明提供的一种建筑物轮廓提取方法,所述基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点,包括:
将所述建筑物卫星图像依次输出至预训练的第一残差网络以及DETR神经网络的编码器中,得到所述建筑物卫星图像的特征图像;
通过所述DETR神经网络的注意力机制,将所述特征图像与所述建筑物卫星图像的节点特征融合,得到融合特征图,并将所述融合特征图解码为置信度图;
对所述置信度图进行非极大值抑制,提取出候选顶点。
根据本发明提供的一种建筑物轮廓提取方法,所述节点特征是通过以下方式得到的:
将所述建筑物卫星图像划分成多个相同大小的超像素块;
将每一个所述超像素块视为所述建筑物卫星图像的一个节点,并将所述节点进行位置编码后,输入至多层感知机MLP,得到所述节点对应的节点特征。
根据本发明提供的一种建筑物轮廓提取方法,所述多尺寸特征图像包括在所述建筑物卫星图像进行下采样的至少一个下采样尺寸的特征图像;
所述将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列,包括:
对每一个所述下采样尺寸的特征图像进行线性上采样,得到每一个所述下采样尺寸的所述候选顶点的特征向量;
将每一个所述下采样尺寸的所述候选顶点的所述特征向量与所述候选顶点的原始坐标进行嵌入操作,得到所述候选顶点对应的嵌入向量;
将每一个所述候选顶点对应的所述嵌入向量连接在一起,作为RNN神经网络的输入序列。
根据本发明提供的一种建筑物轮廓提取方法,所述基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,包括:
将所述输入序列输入至所述RNN神经网络的编码器中,得到所述编码器输入的第一隐向量;
将所述第一隐向量输入至所述RNN神经网络的解码器中,获取所述解码器在每一个时间步下的注意力向量,其中,所述编码器在每一个时间步进行输出时,将每一个时间步下所述编码器的第二隐向量与所述第一隐向量进行注意力运算,得到每一个时间步下的所述注意力向量;
基于每一个时间步下的所述注意力向量,从所述候选顶点中选出目标顶点。
根据本发明提供的一种建筑物轮廓提取方法,所述多尺寸特征图像是通过将所述建筑物卫星图像输入至预训练的第二残差网络得到的。
本发明还提供一种建筑物轮廓提取装置,包括:
图像获取单元,用于获取建筑物卫星图像;
轮廓提取单元,用于将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点并预测出所述目标顶点的顺序,得到所述建筑物轮廓。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述建筑物轮廓提取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述建筑物轮廓提取方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述建筑物轮廓提取方法的步骤。
本发明提供的建筑物轮廓提取方法及装置,通过将建筑物卫星图像输入至建筑物指针网络BPN,BPN包括角点检测模块与角点顺序预测模块,角点检测模块用于基于DETR神经网络从建筑物卫星图像中提取出候选顶点;角点顺序预测模块用于将候选顶点与建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于输入序列的注意力机制,从候选顶点中选出目标顶点,构建出建筑物轮廓,如此使用BPN实现了更泛化能力地提取建筑物轮廓。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的建筑物轮廓提取方法的流程示意图之一;
图2是本发明提供的建筑物轮廓提取方法的流程示意图之二;
图3是本发明提供的角点检测模块的候选顶点提取流程示意图;
图4是本发明提供的角点顺序预测模块的目标顶点提取流程示意图;
图5是本发明提供的建筑物轮廓提取装置的结构示意图;
图6示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
从卫星图像中提取结构化的建筑轮廓在许多地理空间任务中起着重要作用,如三维城市建模、地图更新、地籍测绘等。
目前的方法大都基于深度学习。然而现有的方法仍然有许多问题,比如基于建筑物足迹分割的两阶段方法,这类方法普遍采用基于分割的网络来栅格化建筑物,然后进行一系列的后处理操作。例如,有方法使用Mask R-CNN神经网络生成建筑实例的掩码,然后应用一系列操作来规范和矢量化边界,比如使用Ramer-Douglas-Peucker算法简化初始多边形,然后使用最小描述长度优化对输出进行改进。还有方法首先通过使用R2U-Net神经网络来分割建筑物,然后使用生成对抗网络(Generative Adversarial Network,GAN)来规范边界,以及使用CNN神经网络来预测建筑物边缘,最后的多边形化通过规范化轮廓上的顶点顺序获得。在这一类方法中,帧场学习(Frame FieldLearning,FFL)是当前最先进的方法。它使用额外的帧场监督训练深度分割模型。帧场目标提高了分割的质量,并促使后续多边形化过程更容易进行。尽管这些方法在与真实建筑物轮廓的交并比(Intersection overUnion,IoU)方面表现出较高的性能,但通常在后处理阶段涉及许多手工制定的规则和预定义的超参数。此外,先前分割结果的质量限制了后续矢量化操作能够达到的性能水平。
还比如端到端预测多边形建筑轮廓的单阶段方法,此类方法省略了后处理阶段,直接预测建筑多边形的矢量表示。例如,Polygon-RNN神经网络和Polygon-RNN++神经网络通过处理实际对象边界框的每个顶点,使用基于RNN神经网络的方法来提取多边形。基于CNN-GCN(Graph Convolutional Network,GCN)神经网络范例的方法有PolyWorld等。PolyWorld将角点检测视为一个分割任务,利用CNN神经网络生成角点的概率图,然后使用GCN神经网络来细化坐标并预测编码顶点之间连接性的排序矩阵。这最终预测了建筑多边形。还有基于CNN-GCN神经网络的方法使用Curve-GCN神经网络在一个对象检测模块的基础上同时预测建筑物的所有角点。其他端到端方法,如HiSup使用分层监督方法,对顶点信息、线段信息和建筑物掩码信息进行融合,这提高了与实际建筑轮廓不对齐情况下的建筑轮廓预测的准确性。PolyTransform算法对于每个对象实例创建一个多边形,并使用Transformer网络调整顶点位置。PolyBuilding算法基于编码器-解码器的Transformer架构,同时输出建筑边界框和多边形的矢量表示。与后处理的分割结果相比,直接预测的建筑轮廓具有更加规则的形状,具有锐利的顶点和直边。然而,这些方法仅限于为每个建筑物预测固定数量的角点,并且可能难以处理包含更多角点的长序列的推理。
基于上述技术中所存在的缺陷,本实施例中提出了一种使用建筑物指针网络(Building Pointer Network,BPN)进行建筑物轮廓提取的方法,BPN有较好的泛化性,可以在简单形状的数据上进行训练,在较复杂的数据上进行推理,如此实现了更泛化能力地提取建筑物轮廓。
下面结合附图描述本发明的建筑物轮廓提取方法及装置。
图1是本发明提供的建筑物轮廓提取方法的流程示意图,所述方法包括:
步骤100,获取建筑物卫星图像;
本实施例中建筑物卫星图像为RGB格式的卫星图像,RGB格式的卫星图像指的是将卫星拍摄到的原始图像数据按照红绿蓝三个颜色通道进行编码,形成一张彩色图像的格式。在这种格式下,每个像素点都由三个单独的值来表示其在红、绿、蓝三个通道上的亮度值。
步骤110,将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,构建出所述建筑物轮廓。
其中,建筑物指针网络(Building Pointer Network,BPN)是一种用于解决建筑物检测和定位问题的神经网络模型。它的主要目标是在给定输入图像中准确地检测和定位建筑物。
本实施例中,BPN基于循环神经网络(Recurrent Neural Network,RNN)架构,将视觉和几何信号与面向输入的注意机制相结合,使其对于各种形状复杂性更具通用性。从功能上划分,BPN由两个主要模块组成:角点检测模块与角点顺序预测模块。
角点检测模块用于使用卷积神经网络(Convolutional NeuralNetwork,CNN)在输入的建筑物卫星图像中识别出可能为建筑物轮廓上的候选顶点。
角点顺序预测模块用于将候选顶点的坐标和建筑物卫星图像的多尺寸特征图像的图像特征融合并输入到递归神经网络(RecurrentNeural Network,RNN)中,最终按顺序预测建筑物轮廓上的目标顶点。
本实施例中将候选顶点的坐标和建筑物卫星图像的多尺寸特征图像的图像特征融合之后,可以得到一个(T,V)的矩阵,其中T是序列长度,V是每个时间步的特征维度。这个矩阵就是输入序列,它可以被RNN神经网络接受并进行处理。在RNN神经网络中,每个时间步都会接收到一个输入,并输出一个状态。因此,在输入序列中的每个元素都会作为一个时间步来处理,这样RNN神经网络就可以捕捉到候选顶点之间的依赖关系和上下文信息,并从中挑选出最可能的目标顶点,构建建筑物轮廓。
具体地,本实施例在RNN神经网络中使用注意力机制来从候选顶点序列中选择出最可能是目标顶点的候选顶点。注意力机制是根据候选顶点的相关性或重要性给予它们不同的注意力权重。在每个时间步,根据当前的RNN隐藏状态和候选顶点的特征,通过计算注意力权重,可以将更多的注意力集中在与当前上下文最相关的候选顶点上。
本实施例中通过注意力机制,RNN神经网络可以在每个时间步选择具有最高注意力权重的候选顶点作为目标顶点。这样,注意力机制帮助神经网络在选择建筑物轮廓时更加准确地关注到与当前上下文最相关的候选顶点,从而提高了建筑物轮廓的精度和准确性。
本发明通过将建筑物卫星图像输入至建筑物指针网络BPN,BPN包括角点检测模块与角点顺序预测模块,角点检测模块用于基于DETR神经网络从建筑物卫星图像中提取出候选顶点;角点顺序预测模块用于将候选顶点与建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于输入序列的注意力机制,从候选顶点中选出目标顶点,构建出建筑物轮廓,如此使用BPN实现了更泛化能力地提取建筑物轮廓。
在一些实施例中,所述基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点,包括:
将所述建筑物卫星图像依次输出至预训练的第一残差网络以及DETR神经网络的编码器中,得到所述建筑物卫星图像的特征图像;
通过所述DETR神经网络的注意力机制,将所述特征图像与所述建筑物卫星图像的节点特征融合,得到融合特征图,并将所述融合特征图解码为置信度图;
对所述置信度图进行非极大值抑制,提取出候选顶点。
本实施例中,可以将建筑物卫星图像输入到预训练的第一残差网络中进行特征提取,比如ResNet50。ResNet50的前几层会通过卷积、池化等操作对图像进行处理,并逐渐提取出图像的特征表示。这些特征表示可以包含图像中的边缘、纹理、颜色等信息。
将经过第一残差网络提取的图像特征作为输入传递给DETR神经网络的编码器部分。DETR(Deformable Detection Transformer)是一种基于Transformer架构的目标检测模型。DETR的编码器部分会进一步对图像特征进行编码和抽象,以便后续用于目标检测任务。
具体地,本实施例中DETR的编码器输出的是建筑物卫星图像的特征图像为特征金字塔,特征金字塔(Feature Pyramid)指的是一种从图像中提取多个尺度和抽象程度不同的特征表示的方法。通过对输入图像进行多次下采样,并在每个下采样层上计算图像特征,可以得到一个由多个特征图组成的金字塔结构。
本实施例中,输入的建筑物卫星图像在ResNet50和DETR的编码器中,通过在不同的卷积层上进行下采样和特征提取,并将不同尺度的特征图进行融合,就可以得到一个特征金字塔。
接下来,基于DETR神经网络的注意力机制可以用于将特征图像与建筑物卫星图像的节点特征进行融合,并生成融合特征图。融合特征图会被解码器进一步处理,生成目标的置信度图。通过对置信度图进行阈值处理和后处理,可以得到最终的目标检测结果。
其中,建筑物卫星图像的节点特征指的是对于建筑物卫星图像中的每个节点(或者称为像素)所提取的特征表示。在处理建筑物卫星图像时,可以将图像划分为一个个小的区域,每个区域被视为一个节点。对于每个节点,可以通过卷积神经网络或其他特征提取方法来获取其特征表示。
其中,DETR神经网络的注意力机制是DETR神经网络中的一个模块,用于在图像特征和超像素节点之间进行自适应的特征融合。具体来说,注意力机制会将输入的特征图像与建筑物卫星图像的节点特征分别映射到一个二维的空间中,并通过计算二者之间的相似度矩阵,得到一个权重矩阵,用于对图像特征进行加权平均,实现特征融合。
最后,本实施例中在得到置信度图后,通过非极大值抑制(Non-MaximumSuppression,NMS)方式,提取出候选顶点。
本发明中通过将建筑物卫星图像输入预训练的第一残差网络和DETR神经网络的编码器,然后结合注意力机制进行特征融合,并将融合特征图解码为置信度图,最后通过非极大值抑制提取候选顶点,能够有效地提取建筑物卫星图像的候选顶点,并具有较高的检测准确性和效率。
在一些实施例中,所述节点特征是通过以下方式得到的:
将所述建筑物卫星图像划分成多个相同大小的超像素块;
将每一个所述超像素块视为所述建筑物卫星图像的一个节点,并将所述节点进行位置编码后,输入至多层感知机MLP,得到所述节点对应的节点特征。
在一个示例中,可以将建筑物卫星图像划分成4*4大小的超像素块(也即每个超像素块的宽和高都为4个像素),每个超像素块可以视为建筑物卫星图像的一个节点。
在一个示例中,对于每个超像素块节点,可以使用三角函数位置编码来表示其位置信息。比如将超像素块的中心坐标映射到一个高维空间,并通过正弦和余弦函数对其进行编码。这样可以将二维位置信息编码为固定长度的向量表示。
经过位置信息编码后,每个节点都有了位置特征。然后,这些位置特征可以作为输入传递给多层感知机(MultiLayer Perceptron,MLP)来得到节点特征。
在一些实施例中,所述多尺寸特征图像包括在所述建筑物卫星图像进行下采样的至少一个下采样尺寸的特征图像;
所述将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列,包括:
对每一个所述下采样尺寸的特征图像进行线性上采样,得到每一个所述下采样尺寸的所述候选顶点的特征向量;
将每一个所述下采样尺寸的所述候选顶点的所述特征向量与所述候选顶点的原始坐标进行嵌入操作,得到所述候选顶点对应的嵌入向量;
将每一个所述候选顶点对应的所述嵌入向量连接在一起,作为RNN神经网络的输入序列。
其中,多尺寸特征图像是指在处理原始的建筑物卫星图像时,对建筑物卫星图像进行不同尺寸下采样得到的。比如对建筑物卫星图像进行下采样,获取与原始图像尺寸的1/4、1/8、1/16和1/32相对应的特征图。
在一个示例中,多尺寸特征图像是通过将建筑物卫星图像输入至预训练的第二残差网络得到的,比如ResNet-152。
本实施例中,对于候选顶点集合中的每个候选顶点,通过上采样方法(如线性上采样),以获取每一个候选顶点在每一个下采样尺寸下特征向量。最后通过MLP将候选顶点在每一个下采样尺寸下特征向量与候选顶点的原始坐标(x,y)嵌入,并连接在一起,作为RNN神经网络的输入序列。
在一些实施例中,所述基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,包括:
将所述输入序列输入至所述RNN神经网络的编码器中,得到所述编码器输入的第一隐向量;
将所述第一隐向量输入至所述RNN神经网络的解码器中,获取所述解码器在每一个时间步下的注意力向量,其中,所述编码器在每一个时间步进行输出时,将每一个时间步下所述编码器的第二隐向量与所述第一隐向量进行注意力运算,得到每一个时间步下的所述注意力向量;
基于每一个时间步下的所述注意力向量,从所述候选顶点中选出目标顶点。
比如RNN神经网络的解码器的初始隐向量为d0,输入序列输入至RNN神经网络的编码器,则编码器中每层的隐向量为e1,e2,e3…eN”,之后将编码器的隐向量“e1,e2,e3…eN”与解码器的初始隐向量d0进行注意力运算,可得到解码器在第一个时间步下输出的d1,且可获得编码器的隐向量“e1,e2,e3…eN”与解码器的初始隐向量d0进行注意力运算的注意力运算向量u1,根据注意力运算向量u1可以从候选顶点中筛选出第一个顶点,接着继续将编码器的隐向量“e1…eN”与解码器在第一个时间步下输出的d1进行注意力运算,可得到解码器在第二个时间步下输出的d2,且可获得编码器的隐向量“e1,e2,e3…eN”与解码器的初始隐向量d1进行注意力运算的注意力运算向量u2,根据注意力运算向量u2可以从候选顶点中筛选出第二个顶点…以此类推,当解码器在第M个时间步下输出的dM时,可根据注意力运算向量uM可以从候选顶点中筛选出第M个顶点,M<=N,最终即可得到了建筑物轮廓。
在一个实施例中,建筑物轮廓提取方法具体包括如下流程,参考图2:
步骤S1:获取RGB格式的建筑物卫星图像;
步骤S2:将RGB格式的建筑物卫星图像输入至角点检测模块;
其中,角点检测模块中包括三个处理流程:位置信息编码、编码输入及解码输出以及非极大值抑制。
具体地,参考图3,首先对RGB卫星图像进行位置信息编码(PositionalEncoding),将图像中4x4大小的超像素块视为图像的一个节点,对图像中所有的节点进行三角函数位置编码,再经过多层感知机MLP得到初始化节点特征fnode。
接着将RGB卫星图像输入预训练的残差网络ResNet50以及DETR的编码器(DETREncoder)来获得输入图像的特征金字塔(Image feature)。接下来,通过采用DETR的Deformable Attention(DA),将图像特征注入到超像素节点中,允许对图像特征进行自适应注意,获得融合特征ffused。最后,ConvNet Decoder将融合特征图解码为与输入大小相同的置信度图。
对置信度图采用非最大抑制(Non-Maximum SuppresSion,NMS)生成检测到的角点数组V,也即候选顶点,数组大小为N×2,非极大值阈值设置为0.5。
步骤S3:将RGB格式的建筑物卫星图像输入到预训练的ResNet-152模型中,获取与原始图像尺寸的1/4、1/8、1/16和1/32相对应的多尺度特征图,然后,对多尺度特征图进行线性上采样,以获取候选点多尺度特征。
步骤S4:将候选顶点与候选点多尺度特征输入至角点顺序检测模块中;
其中,角点顺序检测模块中包括二个处理流程:点特征及多尺度图像特征融合、分布基于输入的注意力机制。
具体地,参考图4,通过MLP层将每个尺度的特征以及原始坐标x和y嵌入,并连接在一起,作为RNN的输入V’。
设输入序列为V’,则RNN的编码器中每层隐向量可表示为e1,e2,···,eN,解码器中每层隐向量可表示为d1,d2,···,dM,其中M<=N。解码器在每一个时间步进行输出时,将隐向量与编码器中的每个隐向量进行注意力运算,得到注意力向量u,对u进行softmax操作后得到的最大值所对应的索引即为建筑物顶点的索引。通过分布基于输入的注意力机制,最终得到了大小为Mx2的建筑物轮廓数组C,即目标顶点。
下面对本发明提供的建筑物轮廓提取装置进行描述,下文描述的建筑物轮廓提取装置与上文描述的建筑物轮廓提取方法可相互对应参照。
图5是本发明提供的建筑物轮廓提取装置的结构示意图,如图5所示,该装置包括:
图像获取单元510,用于获取建筑物卫星图像;
轮廓提取单元520,用于将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点并预测出所述目标顶点的顺序,得到所述建筑物轮廓。
本发明提供的建筑物轮廓提取装置,通过将建筑物卫星图像输入至建筑物指针网络BPN,BPN包括角点检测模块与角点顺序预测模块,角点检测模块用于基于DETR神经网络从建筑物卫星图像中提取出候选顶点;角点顺序预测模块用于将候选顶点与建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于输入序列的注意力机制,从候选顶点中选出目标顶点,构建出建筑物轮廓,如此使用BPN实现了更泛化能力地提取建筑物轮廓。
在一些实施例中,轮廓提取单元520,还用于将所述建筑物卫星图像依次输出至预训练的第一残差网络以及DETR神经网络的编码器中,得到所述建筑物卫星图像的特征图像;通过所述DETR神经网络的注意力机制,将所述特征图像与所述建筑物卫星图像的节点特征融合,得到融合特征图,并将所述融合特征图解码为置信度图;对所述置信度图进行非极大值抑制,提取出候选顶点。
在一些实施例中,轮廓提取单元520,还用于将所述建筑物卫星图像划分成多个相同大小的超像素块;将每一个所述超像素块视为所述建筑物卫星图像的一个节点,并将所述节点进行位置编码后,输入至多层感知机MLP,得到所述节点对应的节点特征。
在一些实施例中,所述多尺寸特征图像包括在所述建筑物卫星图像进行下采样的至少一个下采样尺寸的特征图像;轮廓提取单元520,还用于对每一个所述下采样尺寸的特征图像进行线性上采样,得到每一个所述下采样尺寸的所述候选顶点的特征向量;将每一个所述下采样尺寸的所述候选顶点的所述特征向量与所述候选顶点的原始坐标进行嵌入操作,得到所述候选顶点对应的嵌入向量;将每一个所述候选顶点对应的所述嵌入向量连接在一起,作为RNN神经网络的输入序列。
在一些实施例中,轮廓提取单元520,还用于将所述输入序列输入至所述RNN神经网络的编码器中,得到所述编码器输入的第一隐向量;将所述第一隐向量输入至所述RNN神经网络的解码器中,获取所述解码器在每一个时间步下的注意力向量,其中,所述编码器在每一个时间步进行输出时,将每一个时间步下所述编码器的第二隐向量与所述第一隐向量进行注意力运算,得到每一个时间步下的所述注意力向量;基于每一个时间步下的所述注意力向量,从所述候选顶点中选出目标顶点。
在一些实施例中,所述多尺寸特征图像是通过将所述建筑物卫星图像输入至预训练的第二残差网络得到的。
需要说明的是,本发明提供的建筑物轮廓提取装置可以实现上述建筑物轮廓提取方法的各实施例,并达到相同的技术效果,在此不再赘述。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行建筑物轮廓提取方法,包括:
获取建筑物卫星图像;
将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,构建出所述建筑物轮廓。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的建筑物轮廓提取方法,包括:
获取建筑物卫星图像;
将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,构建出所述建筑物轮廓。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的建筑物轮廓提取方法,包括:
获取建筑物卫星图像;
将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,构建出所述建筑物轮廓。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种建筑物轮廓提取方法,其特征在于,包括:
获取建筑物卫星图像;
将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,构建出所述建筑物轮廓。
2.根据权利要求1所述的建筑物轮廓提取方法,其特征在于,所述基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点,包括:
将所述建筑物卫星图像依次输出至预训练的第一残差网络以及DETR神经网络的编码器中,得到所述建筑物卫星图像的特征图像;
通过所述DETR神经网络的注意力机制,将所述特征图像与所述建筑物卫星图像的节点特征融合,得到融合特征图,并将所述融合特征图解码为置信度图;
对所述置信度图进行非极大值抑制,提取出候选顶点。
3.根据权利要求2所述的建筑物轮廓提取方法,其特征在于,所述节点特征是通过以下方式得到的:
将所述建筑物卫星图像划分成多个相同大小的超像素块;
将每一个所述超像素块视为所述建筑物卫星图像的一个节点,并将所述节点进行位置编码后,输入至多层感知机MLP,得到所述节点对应的节点特征。
4.根据权利要求1所述的建筑物轮廓提取方法,其特征在于,所述多尺寸特征图像包括在所述建筑物卫星图像进行下采样的至少一个下采样尺寸的特征图像;
所述将所述候选顶点与所述建筑物卫星图像的多尺寸特征图像融合,作为RNN神经网络的输入序列,包括:
对每一个所述下采样尺寸的特征图像进行线性上采样,得到每一个所述下采样尺寸的所述候选顶点的特征向量;
将每一个所述下采样尺寸的所述候选顶点的所述特征向量与所述候选顶点的原始坐标进行嵌入操作,得到所述候选顶点对应的嵌入向量;
将每一个所述候选顶点对应的所述嵌入向量连接在一起,作为RNN神经网络的输入序列。
5.根据权利要求4所述的建筑物轮廓提取方法,其特征在于,所述基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点,包括:
将所述输入序列输入至所述RNN神经网络的编码器中,得到所述编码器输入的第一隐向量;
将所述第一隐向量输入至所述RNN神经网络的解码器中,获取所述解码器在每一个时间步下的注意力向量,其中,所述编码器在每一个时间步进行输出时,将每一个时间步下所述编码器的第二隐向量与所述第一隐向量进行注意力运算,得到每一个时间步下的所述注意力向量;
基于每一个时间步下的所述注意力向量,从所述候选顶点中选出目标顶点。
6.根据权利要求4所述的建筑物轮廓提取方法,其特征在于,所述多尺寸特征图像是通过将所述建筑物卫星图像输入至预训练的第二残差网络得到的。
7.一种建筑物轮廓提取装置,其特征在于,包括:
图像获取单元,用于获取建筑物卫星图像;
轮廓提取单元,用于将所述建筑物卫星图像输入至建筑物指针网络BPN,得到所述BPN输出的建筑物轮廓;
其中,所述BPN包括角点检测模块与角点顺序预测模块,所述角点检测模块用于基于DETR神经网络从所述建筑物卫星图像中提取出候选顶点;所述角点顺序预测模块用于将所述候选顶点与所述建筑物卫星图像的多尺寸图像融合,作为RNN神经网络的输入序列;基于所述输入序列的注意力机制,从所述候选顶点中选出目标顶点并预测出所述目标顶点的顺序,得到所述建筑物轮廓。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述建筑物轮廓提取方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述建筑物轮廓提取方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述建筑物轮廓提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753244.2A CN117934524A (zh) | 2023-12-19 | 2023-12-19 | 建筑物轮廓提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753244.2A CN117934524A (zh) | 2023-12-19 | 2023-12-19 | 建筑物轮廓提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117934524A true CN117934524A (zh) | 2024-04-26 |
Family
ID=90765736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311753244.2A Pending CN117934524A (zh) | 2023-12-19 | 2023-12-19 | 建筑物轮廓提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117934524A (zh) |
-
2023
- 2023-12-19 CN CN202311753244.2A patent/CN117934524A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
Verma et al. | Feastnet: Feature-steered graph convolutions for 3d shape analysis | |
CN113706686B (zh) | 一种三维点云重建结果补全方法及相关组件 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN114549338A (zh) | 一种电子地图的生成方法、装置和计算机可读存储介质 | |
CN114565789B (zh) | 一种基于集合预测的文本检测方法、系统、装置及介质 | |
CN116309536A (zh) | 一种路面裂缝检测方法及存储介质 | |
CN117496347A (zh) | 遥感影像建筑物提取方法、装置及介质 | |
Khan et al. | LRDNet: Lightweight LiDAR aided cascaded feature pools for free road space detection | |
CN117036425A (zh) | 点云分级决策配准方法、系统、设备及介质 | |
CN116912661A (zh) | 一种具备域泛化能力的目标轨迹预测方法及系统 | |
CN115035402B (zh) | 一种用于土地覆盖分类问题的多级特征聚合系统及方法 | |
Mai et al. | Spatial Representation Learning in GeoAI | |
CN117934524A (zh) | 建筑物轮廓提取方法及装置 | |
CN113763539B (zh) | 一种基于图像和三维输入的隐式函数三维重建方法 | |
KR20230071052A (ko) | 이미지 처리 방법 및 장치 | |
CN111582275B (zh) | 一种序列号识别方法及装置 | |
CN115170682A (zh) | 一种处理点云数据的方法和目标处理点云数据模型 | |
CN113454678A (zh) | 三维面部扫描增强 | |
CN113591685A (zh) | 一种基于多尺度池化的地理对象空间关系识别方法及系统 | |
CN113505650A (zh) | 地形特征线提取方法及装置、设备 | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
Dong et al. | ViT-SAPS: Detail-Aware Transformer for Mechanical Assembly Semantic Segmentation | |
CN116628251B (zh) | 月球表面安全区域的搜索方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |