CN114529552A - 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 - Google Patents
一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 Download PDFInfo
- Publication number
- CN114529552A CN114529552A CN202210202403.9A CN202210202403A CN114529552A CN 114529552 A CN114529552 A CN 114529552A CN 202210202403 A CN202210202403 A CN 202210202403A CN 114529552 A CN114529552 A CN 114529552A
- Authority
- CN
- China
- Prior art keywords
- prediction
- building
- vertex
- loss
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims abstract description 9
- 238000003708 edge detection Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 4
- 230000007787 long-term memory Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,本方法首先使用两阶段检测网络结构,通过该网络从遥感影像中提取建筑物的特征信息,利用ROI‑Align操作对建筑物检测框进行操作得到建筑物的特征图,然后在该特征图上使用基于注意力机制的长短时记忆网络对建筑物轮廓进行建模预测,在轮廓预测过程中,先做边缘检测和关键点检测,将关键点得分最高的顶点作为开始顶点,输入到基于注意力机制的长短时记忆网络中开始预测,直到碰到结束标志或达到最大时序长度时结束预测,最后将预测的顶点结果映射到原图,并按照顺序相连得到建筑物的轮廓。
Description
技术领域
本发明属于图像处理技术领域,尤其是一种基于序列关系的建筑物轮廓建模方法。
背景技术
建筑物分割任务是指通过对遥感图像进行处理,对图像进行逐像素分类,分割出每个建筑物并获得建筑物的轮廓信息。作为计算机视觉领域的一个热门问题,建筑物分割是遥感图像解译的重要研究方向,提取的建筑物信息是基础地理数据获取和更新的重要数据支撑;而且建筑物分割模型在城市规划、地图更新、灾害评估等领域都具有广泛的应用。
现有的建筑物分割方法通常是采用先分割再提取轮廓两阶段的方法,首先通过基于深度学习的图像分割方法获得建筑物的像素级别分割结果,得到每个建筑物的边框信息,然后对轮廓进行拟合或者建模得到精细的建筑物轮廓信息。尽管基于深度学习的方法可以获得极好的语义信息和边缘信息,但由于遥感影像分辨率相较于自然场景更低,且分割掩码提取到的建筑物轮廓复杂,不够平滑,不能表现建筑物的几何特性,不能直接用于下游应用,也不符合人的直接理解。建筑轮廓拟合算法则需要先验性设计的手工算法,流程复杂、计算时间长。轮廓拟合算法与之前的分割算法分阶段进行,不能端到端训练,且拟合结果严重依赖前面的分割结果。所以,建筑物轮廓拟合算法提取的建筑物轮廓不够稳定且通用性不强。建筑物轮廓建模算法需要事先采样固定数量的点,由于建筑物的角点数不一样,很容易出现多余点问题,使得边界线多余,从而不能得到建筑物最符合人理解的描述形式。上述这些问题导致建筑物分割模型提取的建筑物轮廓精度不高,有待进一步提高。
发明内容
为了解决上述已有技术存在的不足,本发明提出一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,可以解决建筑物分割任务中分割模型预测的建筑物边界模糊或不平滑、预测多余的建筑物点和边,而导致建筑物分割精度指标低的问题,本发明的具体技术方案如下:
一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,包括以下步骤:
S1:读取地区的遥感影像图,将所有数据预处理切分到512×512像素大小,获取训练集和测试集;
S2:构建网络模型,包括建筑物检测模块和轮廓预测模块;
S3:对网络模型进行训练,得到建筑物分割模型;
S4:将未分割的遥感图像输入到已训练完成的建筑物分割模型中,得到结果。
进一步的,步骤S2中建筑物检测模块使用两阶段检测模型,利用基于transformer的特征提取器提取特征,获取提取器每层提取到的特征得到特征金字塔;使用区域生成网络提取候选框;RCNN头部对候选框进行分类和回归,得到建筑物检测框。
进一步的,步骤S2中轮廓预测模块包括以下步骤:
S2-1:将特征金字塔的多层特征进行融合得到更丰富的特征P,然后在该特征P上对检测框进行ROI-Align操作得到检测框对应的特征R,并将特征R映射到28×28大小,获取更高分辨率的特征;
S2-2:对检测框做边缘检测和关键点检测,将预测概率最大的关键点作为起始点,输入到轮廓预测模块中开始进行轮廓预测。
步骤S2-1中特征融合具体为:
特征金字塔网络产生的多层特征定义为P={P2,P3,P4,P5},以特征P3为基础,将其他层特征信息通过池化操作或线性插值调整到与P3同等尺度,然后将特征相加并平均后得到更丰富的特征信息层P3,利用建筑物检测模块提取到的检测框在特征P3进行ROI-Align操作获得检测框对应的特征,将提取的特征映射到28×28大小,获得高分辨率特征RN ×256×28×28。
进一步的,步骤S2-2中起始点预测具体为:
使用两个3×3卷积提取S2-1获得的特征图特征,利用组归一化帮助训练,通过两个1×1卷积,分别获得建筑物的边界掩码E和建筑物的顶点预测V,V经过sigmoid激活后,得到每一个建筑物点的概率,选择最大概率的点作为起始点S。
进一步的,步骤S2-2中轮廓预测具体为:
当前时序的顶点位置yt的预测建模:
P(yt|yt-1,yt-2,y0)(1)
其中,y0为起始点位置,yt-1为上一时刻预测位置,yt-2为上上次时刻预测位置。
在S2-1得到的特征图上拼接顶点的位置信息,包括x坐标信息和y坐标信息的两层特征图,其取值范围为(-1,1),根据特征图尺度均匀取值,然后进行两个3×3卷积提取特征F;
对E和V使用sigmoid函数激活,获得参考预测信息,拼接E,V,F和三个预测结果,使用两个维度为64的基于注意力机制的长短时记忆网络提取时空特征,使用两个全连接网络分别预测类别和偏置。当网络感知到需要再次预测第一个位置时,输出结束标志完成预测。
在训练过程中,对每次预测结果替换为真实结果,测试时使用预测结果,将预测结果映射为二值图;对于第一个时序,使用全为0的特征图代替。
进一步的,步骤S2中,模型的总体损失为:
L=Ledge+λvertex*Lvertex+Loffset+Lrnn+Ldet (2)
其中,Ledge表示建筑物边缘预测损失,Lvertex表示建筑物顶点预测损失,Loffset表示时序顶点预测中的偏置回归损失,Lrnn表示时序顶点预测中的分类损失,Ldet表示建筑物检测损失,建筑物顶点预测损失权重λvertex=10,利用总体损失监督训练建筑物分割模型。
进一步的,建筑物顶点预测损失Lvertex具体为:
建筑物顶点预测过程,利用2D高斯分布建模衰减系数,得到公式如(3)所示,其中offsetx,offsety表示样本相对ground truth的偏移量。
利用sigmoid激活,表示一个特征点是建筑物顶点的概率,利用衰减系数和Focalloss损失计算顶点预测损失Lvertex,公式如(4)所示,
其中,γ为聚焦参数,β为权重因子,p表示预测样本属于1的概率,p的取值为为0-1,θ为衰减系数。
进一步的,时序顶点预测使用基于注意力机制的长短时记忆网络依次预测顶点位置,将顶点量化后得到坐标(x,y),假设特征图尺度为w×h,按照如下公式(5)得到类别,
c=x+y×w (5)
使用多类交叉熵损失进行监督,添加一个权重参数,除建筑物顶点数量和一个结束标志可训练外,权重设为1,其余不参与训练,设置为0。
在时序顶点预测损失中添加一个偏置回归损失,损失目标如公式(6)所示,
ox和oy为学习的偏移参数,x和y为样本点映射到特征图的浮点位置,目标区间在(0,1),通过Smooth L1损失进行监督学习。
本发明的有益效果:
本方法将建筑物轮廓预测模块添加于现有的建筑物分割网络中,提高了建筑物分割的准确性,在建筑物分割任务中运用本分割模型预测的建筑物边界清楚且平滑,且不会预测出多余的建筑物点和边,建筑物分割精度(AP)指标高。
附图说明
通过参考附图可更好地理解本发明。图中的构件不应视作按比例绘制,重点应放在示出本发明的原理上。
图1基于几何轮廓顶点预测的建筑物分割模型框架图
图2特征金字塔结构
图3顶点预测建模——高斯分布
图4建筑物轮廓预测流程示例
图5建筑物轮廓预测结果
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图与具体实施方式对本发明作进一步详细描述:
一种基于几何轮廓顶点预测的建筑物分割方法,流程为:
S1:读取地区的遥感影像图,将所有数据预处理切分到512×512像素大小,获取训练集和测试集;
S2:构建网络模型,包括建筑物检测模块和轮廓预测模块;
S3:对网络模型进行训练,得到建筑物分割模型;
S4:将未分割的遥感图像输入到已训练完成的建筑物分割模型中,得到结果。
数据来源上,首先对影像数据进行划分训练集和测试集,防止训练集和测试集来源于同一幅影像,从而造成性能误导性上升。由于原始遥感影像尺度较大,不能一次性输入到网络中,所以将所有数据预处理切分到512×512像素大小。为尽可能保证建筑物实例的完整性,切分过程中有64像素的重叠,保留占比大于0.5的建筑物。
建筑物分割模型是基于Pytorch框架进行训练的,在建筑物分割网络中除了主干网络部分,其他网络使用均值为0,方差为0.01的高斯分布进行随机初始化。训练过程使用了SGD优化器,初始学习率设置为0.005,动量设置为0.9,权重衰减参数为0.0005。数据增强使用了随机水平翻转,训练批次大小设置为2。模型一共训练24个迭代周期,分别在第16个和第22个迭代周期对学习率衰减10倍。图像大小设置输入尺度最小为800,最大为512进行训练,测试时使用同样的配置。
具体的基于几何轮廓顶点预测的建筑物分割框架见图1,其中建筑物检测模块和轮廓预测模块具体为:
建筑物检测模块,建筑物检测阶段使用两阶段检测模型,首先利用基于transformer的特征提取器提取特征,然后使用区域生成网络提取候选框,最后RCNN头部对候选框进行分类和回归,最终得到建筑物检测框。
建筑物轮廓预测模块主要可以分为三个部分:
(1)特征融合模块。特征金字塔网络会产生多层特征,定义为P={P2,P3,P4,P5}。底层特征P2含有更多的位置信息,对局部的梯度变化更加敏感;而高层特征P5含有更丰富的语义信息,有更大的感受野,能对整体建筑物进行建模。如果仅利用单层特征信息,可能会造成信息的缺失,对预测结果造成一定的影响。因此,以特征P3为基础,它是原图的1/8,能同时兼顾语义信息和位置信息,并将其他层特征信息通过池化操作或线性插值调整到与P3同等尺度,并将特征相加取平均,获得更丰富的特征信息层P3。然后利用上一阶段提取到的检测框在特征P3进行ROI-Align操作,与检测网络不同,点的预测需要更高的分辨率,所以将得到的特征映射到28×28大小,从而获得特征RN×256×28×28。
(2)起始点预测。在上一阶段获得特征图使用两个3×3卷积提取特征,然后通过两个1×1卷积,分别获得建筑物的边界掩码E和建筑物的顶点预测V。V经过sigmoid激活后,可得到每一个建筑物点的概率,而后选择最大概率的点作为起始点S。
(3)轮廓预测。首先,通过上一时刻预测位置yt-1和上上次时刻预测位置yt-2这两个预测位置,可以确定当前时序预测位置的方向。其次,当网络感知到需要再次预测第一个位置时,可以输出结束标志完成预测。因此,当前时序的顶点位置yt预测建模如公式(7)所示,流程示例如图4所示。
P(yt|yt-1,yt-2,y0) (7)其中,y0为起始点位置,yt-1为上一时刻预测位置,yt-2为上上次时刻预测位置。
在ROI-Align得到的特征图基础上拼接位置信息,两层特征图分别表示x坐标信息和y坐标信息,取值范围为(-1,1),根据特征图尺度均匀取值,进行两个3×3卷积提取特征F,每个特征F都利用组归一化(Group Norm)帮助训练。训练过程,对每次预测结果替换为真实结果,测试时则使用预测结果,并将预测结果映射为二值图。对E和V使用sigmoid函数激活,获得参考预测信息,拼接E,V,F和三个预测结果,使用两个维度为64的基于注意力机制的长短时记忆网络提取时空特征。对于第一个时序,由于没有yt-2,所以使用全为0的特征图代替,最后使用两个全连接网络分别预测类别和偏置。在轮廓预测阶段值得注意的是,由于在上一阶段对所有点同等训练,所以任意一个点都可以作为起始点,故首先对真值样本点数进行随机旋转,从而能应对这种情况。
建筑物检测模块使用两阶段检测模型,建筑物检测模块的损失为建筑物检测损失,包括区域生成网络损失和检测头部分损失两部分。轮廓预测模块损失主要包含建筑物边缘预测损失、建筑物顶点预测损失和时序顶点预测损失三部分,其中时序顶点预测损失包括偏置回归损失和分类损失。利用检测损失去监督特征提取,可以获得更抽象更具代表的建筑物特征。
建筑物边缘预测过程中,将建筑物边缘映射到特征图上,将其认为是正样本,其余作为背景,利用sigmoid激活函数,判断当前特征点是建筑物边缘的概率,所以建筑物边缘预测损失使用二分类交叉熵损失。
建筑物顶点预测过程中,真实顶点映射到特征图尺度并量化的位置作为正样本,其余作为负样本。正样本相比于负样本仍然是非常少的,为了保证训练平衡,利用Focalloss损失,公式如(8)所示。
其中,γ为聚焦参数,α为权重因子,p表示预测样本属于1的概率,p取值为0-1,label表示样本标签,label的取值为{+1,-1}。α=0.25,γ=2,p为经过sigmoid激活后概率。
通过上述损失,可以防止大量简单样本损失占据主要地位,从而关注到困难样本。除此之外,因为在真实顶点附近预测到较高得分是可接受的且合理的,所以如果惩罚所有背景样本,在训练过程中在正样本附近可能会存在拉扯现象,使得对于正样本预测困难。因此,对背景样本不进行同等惩罚,设置一个衰减系数,越靠近真实顶点位置,衰减系数越大,减少真实顶点附近预测得分高的影像。具体地,利用2D高斯分布建模衰减系数,得到公式如(3)所示,其中offsetx,offsety表示样本相对ground truth的偏移量。
模拟一个10×10的特征图,并设置位置(5,5)顶点进行建模,将其可视化。结果如图3所示,位置(5,5)的系数最高,其余位置逐渐衰减直至为0。同样利用sigmoid激活,表示一个特征点是建筑物顶点的概率,利用衰减系数和Focal loss计算计算顶点预测损失Lvertex,公式如(4)所示,
其中,γ为聚焦参数,β为权重因子,p表示预测样本属于1的概率,p取值范围为0-1,θ为衰减系数,越靠近正样本θ越高,从而使得尽管预测概率最大,仍然能获得一个较低的损失,从而防止正样本附近出现拉扯现象。
使用多类交叉熵损失进行监督,如公式(8),针对建筑物顶点数量和一个结束标志进行训练,
在时序顶点预测中,使用基于注意力机制的长短时记忆网络依次预测顶点位置,需要将顶点量化,从而得到预测类别。假设特征图尺度为w×h,将顶点量化后得到坐标(x,y),则按照如下公式(5)得到类别:
c=x+y×w (5)
然后使用多类交叉熵损失进行监督。训练过程需要批处理,而建筑物顶点数量是不一样的,因此,我们添加一个权重参数,除建筑物顶点数量和一个结束标志可训练外,权重设为1,其余不参与训练,设置为0。
除上述的分类损失外,顶点预测过程中,需要量化到具体位置,但是样本位置一般是浮点数,这会对定位精度产生一定的损失。因此,在时序顶点预测损失中添加一个偏置回归损失,从而得到更精确的定位,损失目标如公式(6)所示,
ox和oy为学习的偏移参数,x和y为样本点映射到特征图的浮点位置。目标区间在(0,1),通过Smooth L1损失进行监督学习。
综上,模型的总体的损失为如下公式(2)所示,
L=Ledge+λvertex*Lvertex+Loffset+Lrnn+Ldet (2)
其中,Ledge表示建筑物边缘预测损失,Lvertex表示建筑物顶点预测损失,Loffset表示时序顶点预测中的偏置回归损失,Lrnn表示时序顶点预测中的分类损失,Ldet表示建筑物检测损失,建筑物顶点预测损失权重λvertex设置10,其余为1。模型在总体损失函数L的约束下,可以实现端到端的训练。
建筑物分割模型将轮廓结果转为掩码结果,使用MS COCO提出的ap,ap@50,ap@75,ap@small,ap@medium,ap@large评价指标作为参考。其中,ap@50反映建筑物基本被分割正确;ap@75反映的一个更高的定位标准下的效果;ap@small为小物体的精度;ap@medium为中等物体的精度;ap@large为大物体的精度;ap是ap@50到ap@95的一个加权结果,反映的是总体的性能指标。
在建筑物轮廓预测过程中需要注意几个重要的参数。首先,由于通过ROI-Align后的特征后续会被用来提取时序特征以及预测位置信息(类别),所以ROI-Align后的特征尺度大小会影响轮廓预测的精度。其次,由于使用基于注意力机制的长短时记忆网络进行顶点预测,所以要综合考虑网络的时序长度的影响。最后,如果一个点附近预测得分较高,则它附近点应该获得较高的分数,所以要充分利用像素的位置相关信息。
为了验证池化尺度、时序长度、位置信息、偏置回归分支、平均核操作参数对模型性能的影响,进行了相关实验。
(1)池化尺度
池化尺度是指通过ROI-Align后的特征尺度,该特征后续会被用来提取时序特征以及预测位置信息(类别)。当池化尺度越小,量化后的精度损失越大,同样可表示的范围会变少,当进行逆变换映射到原图时,会带来更高的精度。如下表1所示,实验采用五个不同的尺度(7,14,16,28,32)。在池化尺度为7时,ap@75非常低,说明量化位置后的定位效果难以满足需求。当池化尺度逐渐变大时,在ap@75上带来了大约有20个点的提升。随着尺度越来越大,性能变饱和,甚至下降,是由于更大的池化尺度带来了更大的优化空间,使得优化困难。因此模型参数选用28作为标准池化尺度。
表1不同池化尺度效果对比
(2)时序长度
时序越长越能保留复杂建筑物的轮廓点数,但却会带来训练时间增长,以及对复杂建筑物的过度建模,使得损失过大,优化陷入局部最优,影响建筑物的检测精度。如下表2所示,当时序长度为5时,性能与其他时序长度性能有较大差别;其余时序长度对精度影响不大,表明已经可以很好的覆盖建筑物顶点数量。因此模型参数使用20作为标准时序长度。
表2不同时序尺度效果对比
(3)位置信息
在轮廓预测过程中,预测点的位置间有一定的相关性。本方法建立两个显式的位置信息特征图,分别表示x坐标和y坐标的相对位置,取值范围为(-1,1),根据特征图尺度均匀取值。通过在第一个卷积过程中加入两层特征,来显式的融入位置信息。实验结果如下表3所示,添加位置信息在ap上有0.7%的增益。
表3位置信息性能影响
(4)偏置回归分支
轮廓预测中,需要将标注数据映射到池化的特征图并量化,从而得到需要预测的类别。在量化过程存在位置损失,影响定位的精度。为解决上述问题,在基于注意力机制的长短时记忆网络的预测部分,添加一个回归分支去预测量化过程的损失。实验结果如下表4所示,添加回归分支对于ap@50并没有带来收益,主要体现在ap@75指标上,即对定位精度有更大的提升;对于物体尺度,性能提高主要体现在中大物体上,这是由于中大物体量化过程相比于小物体的损失更加明显导致的。
表4偏置回归分支性能影响
(5)平均核操作
如果一个点附近预测得分较高,则它附近点应该获得较高的分数。为充分利用这种特性,增加推断过程的稳定性,对预测结果附近点的得分进行加权后,选择最高得分作为当前时序的预测结果。加权方法主要使用高斯加权和求和加权,该实验测试不同的加权及加权范围对精度的影响,加权通过卷积来实现,其中高斯核是二维高斯核函数,常数则表示全部用1进行加权。实验结果如下表5所示。第一行不使用求和加权,可以认为是使用核尺度大小为1的高斯核或者常数核。从表中可以发现,常数核会严重降低性能,是由于此时不考虑中心位置差别,导致得分分布发生严重的变化,当核尺度变大时,分布变化更加剧烈,从而导致后续的预测出现问题。通过使用高斯核,中心位置的权值高,附近的权值低,从而突出预测点的中心位置,获得更稳定的结果,在高斯核尺度是3或5的情况下,效果提升差不多,为简化计算,使用高斯核尺度3。
表5不同核操作影响
根据以上实验结果分析,选择使用池化尺度28和时序长度20的实验配置进行消融实验,结果如下表6所示:
表6各模块性能对比
5)与其他方法的对比
表7报告了所提方法与Mask RCNN在公开数据集上的结果对比。为了比较建筑物轮廓的拟合结果,对Mask RCNN的分割结果进行后处理,表7中Mask RCNN(矩形)表示将多边形结果使用最小外接矩形表示,Mask RCNN(多边形)表示利用拟合算法将掩码结果拟合成多边形。本方法通过基于注意力机制的长短时记忆网络可以直接得到多边形结果,不需要经过后处理操作。从表中可以看出,本方法精度相比于拟合算法要更高,大约提高了6.1%,由此证明提出方法的有效性。
表7所提方法与其他方法的对比
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,包括以下步骤:
S1:读取地区的遥感影像图,将所有数据预处理切分到512×512像素大小,获取训练集和测试集;
S2:构建网络模型,包括建筑物检测模块和轮廓预测模块;
S3:对网络模型进行训练,得到建筑物分割模型;
S4:将未分割的遥感图像输入到已训练完成的建筑物分割模型中,得到结果。
2.根据权利要求1所述的一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,所述步骤S2中建筑物检测模块为两阶段检测模型,该模型
利用基于transformer的特征提取器提取特征,获取提取器每层提取到的特征得到特征金字塔;
使用区域生成网络提取候选框;
RCNN头部对候选框进行分类和回归,得到建筑物检测框。
3.根据权利要求2所述的一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,所述步骤S2中轮廓预测模块包括以下步骤:
S2-1:将特征金字塔的多层特征进行融合得到更丰富的特征P,然后在该特征P上对检测框进行ROI-Align操作得到检测框对应的特征R,并将特征R映射到28×28大小,获取更高分辨率的特征;
S2-2:对检测框做边缘检测和关键点检测,将预测概率最大的关键点作为起始点,输入到轮廓预测模块中开始进行轮廓预测。
4.根据权利要求3所述的一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,所述步骤S2-1中特征融合具体为:
特征金字塔网络产生的多层特征定义为P={P2,P3,P4,P5},以特征P3为基础,将其他层特征信息通过池化操作或线性插值调整到与P3同等尺度,然后将特征相加并平均后得到更丰富的特征信息层P3,利用建筑物检测模块提取到的检测框在特征P3进行ROI-Align操作获得检测框对应的特征,将提取的特征映射到28×28大小,获得高分辨率特征RN×256×28×28。
5.根据权利要求4所述的一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,所述步骤S2-2中起始点预测具体为:
使用两个3×3卷积提取S2-4获得的特征图特征,利用组归一化帮助训练,通过两个1×1卷积,分别获得建筑物的边界掩码E和建筑物的顶点预测V,V经过sigmoid激活后,得到每一个建筑物点的概率,选择最大概率的点作为起始点S。
6.根据权利要求5所述的一种基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,所述步骤S2-2中轮廓预测具体为:
当前时序的顶点位置yt的预测建模公式如下:
P(yt|yt-1,yt-2,y0) (1)
其中,y0为起始点位置,yt-1为上一时刻预测位置,yt-2为上上次时刻预测位置;
在S2-1得到的特征图上拼接顶点的位置信息,包括x坐标信息和y坐标信息的两层特征图,其取值范围为(-1,1),根据特征图尺度均匀取值,然后进行两个3×3卷积提取特征F;
对E和V使用sigmoid函数激活,获得参考预测信息;
拼接E,V,F和三个预测结果,使用两个维度为64的基于注意力机制的长短时记忆网络提取时空特征;
使用两个全连接网络分别预测类别和偏置,当网络感知到需要再次预测第一个位置时,输出结束标志完成预测;
在训练过程中,对每次预测结果替换为真实结果,测试时使用预测结果,将预测结果映射为二值图;对于第一个时序,使用全为0的特征图代替。
7.根据权利要求1-6之一所述的基于几何轮廓顶点预测的遥感影像建筑物分割方法,其特征在于,模型的总体损失为:
L=Ledge+λvertex*Lvertex+Loffset+Lrnn+Ldet (2)
其中,Ledge表示建筑物边缘预测损失,Lvertex表示建筑物顶点预测损失,Loffset表示时序顶点预测中的偏置回归损失,Lrnn表示时序顶点预测中的分类损失,Ldet表示建筑物检测损失,建筑物顶点预测损失权重λvertex=10,利用总体损失监督训练建筑物分割模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210202403.9A CN114529552A (zh) | 2022-03-03 | 2022-03-03 | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210202403.9A CN114529552A (zh) | 2022-03-03 | 2022-03-03 | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529552A true CN114529552A (zh) | 2022-05-24 |
Family
ID=81626856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210202403.9A Pending CN114529552A (zh) | 2022-03-03 | 2022-03-03 | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529552A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880691A (zh) * | 2023-03-02 | 2023-03-31 | 国网山东省电力公司东营供电公司 | 一种基于计算机视觉的屋顶光伏潜力估计方法 |
CN115937223A (zh) * | 2023-01-06 | 2023-04-07 | 北京理工大学 | 一种单样本新类别白质束分割方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871798A (zh) * | 2019-02-01 | 2019-06-11 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
CN112149585A (zh) * | 2020-09-27 | 2020-12-29 | 上海商汤智能科技有限公司 | 一种图像处理方法、装置、设备和存储介质 |
WO2021208502A1 (zh) * | 2020-04-16 | 2021-10-21 | 中国科学院深圳先进技术研究院 | 一种基于平滑边框回归函数的遥感图像目标检测方法 |
CN113658203A (zh) * | 2021-08-20 | 2021-11-16 | 上海商汤智能科技有限公司 | 建筑物三维轮廓提取及神经网络的训练方法和装置 |
CN113920148A (zh) * | 2021-12-14 | 2022-01-11 | 星际空间(天津)科技发展有限公司 | 基于多边形的建筑物边界提取方法、设备及存储介质 |
-
2022
- 2022-03-03 CN CN202210202403.9A patent/CN114529552A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871798A (zh) * | 2019-02-01 | 2019-06-11 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
WO2021208502A1 (zh) * | 2020-04-16 | 2021-10-21 | 中国科学院深圳先进技术研究院 | 一种基于平滑边框回归函数的遥感图像目标检测方法 |
CN112149585A (zh) * | 2020-09-27 | 2020-12-29 | 上海商汤智能科技有限公司 | 一种图像处理方法、装置、设备和存储介质 |
CN113658203A (zh) * | 2021-08-20 | 2021-11-16 | 上海商汤智能科技有限公司 | 建筑物三维轮廓提取及神经网络的训练方法和装置 |
CN113920148A (zh) * | 2021-12-14 | 2022-01-11 | 星际空间(天津)科技发展有限公司 | 基于多边形的建筑物边界提取方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
伊力哈木・亚尔买买提;: "基于粒子滤波的彩色图像轮廓提取算法研究", 计算机仿真, no. 03, 15 March 2013 (2013-03-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937223A (zh) * | 2023-01-06 | 2023-04-07 | 北京理工大学 | 一种单样本新类别白质束分割方法、装置、设备及介质 |
CN115880691A (zh) * | 2023-03-02 | 2023-03-31 | 国网山东省电力公司东营供电公司 | 一种基于计算机视觉的屋顶光伏潜力估计方法 |
CN115880691B (zh) * | 2023-03-02 | 2023-05-23 | 国网山东省电力公司东营供电公司 | 一种基于计算机视觉的屋顶光伏潜力估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN111860235B (zh) | 高低层特征融合的注意力遥感图像描述的生成方法及系统 | |
CN113705478B (zh) | 一种基于改进YOLOv5的红树林单木目标检测方法 | |
CN106294344B (zh) | 视频检索方法和装置 | |
CN110942072B (zh) | 基于质量评估的质量分、检测模型训练、检测方法及装置 | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN114529552A (zh) | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
US20230343128A1 (en) | Juvenile fish limb identification method based on multi-scale cascaded perceptual convolutional neural network | |
CN111738164B (zh) | 一种基于深度学习的行人检测方法 | |
CN114821299B (zh) | 一种遥感图像变化检测方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN113158777A (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
CN113627229A (zh) | 目标检测方法、系统、设备以及计算机存储介质 | |
CN116662468A (zh) | 基于地理对象空间模式特征的城市功能区识别方法及系统 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN116189139A (zh) | 一种基于Transformer的交通标志检测方法 | |
CN115393666A (zh) | 图像分类中基于原型补全的小样本扩充方法及系统 | |
CN112634174B (zh) | 一种图像表示学习方法及系统 | |
Li et al. | Caption generation from road images for traffic scene modeling | |
CN114332288B (zh) | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 | |
Wang et al. | Instance segmentation of soft‐story buildings from street‐view images with semiautomatic annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221031 Address after: 100191 No. 37, Haidian District, Beijing, Xueyuan Road Applicant after: BEIHANG University Applicant after: TECHNOLOGY AND ENGINEERING CENTER FOR SPACE UTILIZATION, CHINESE ACADEMY OF SCIENCES Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road Applicant before: BEIHANG University Applicant before: NATIONAL DISASTER REDUCTION CENTER OF THE EMERGENCY MANAGEMENT DEPARTMENT |
|
TA01 | Transfer of patent application right |