CN114943894A - 一种基于ConvCRF的高分遥感影像建筑物提取优化方法 - Google Patents
一种基于ConvCRF的高分遥感影像建筑物提取优化方法 Download PDFInfo
- Publication number
- CN114943894A CN114943894A CN202210513757.5A CN202210513757A CN114943894A CN 114943894 A CN114943894 A CN 114943894A CN 202210513757 A CN202210513757 A CN 202210513757A CN 114943894 A CN114943894 A CN 114943894A
- Authority
- CN
- China
- Prior art keywords
- model
- convcrf
- remote sensing
- training
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于ConvCRF的高分遥感影像建筑物提取优化方法,属于图像处理技术领域;所要解决的技术问题为:提供一种基于ConvCRF的高分遥感影像建筑物提取优化方法的改进;解决上述技术问题采用的技术方案为:通过residual‑block残差卷积结构替换Unet网络当中的普通卷积运算,并在Unet低感受野编码与解码阶段引入了CBAM(Convolution Block Attention Module)卷积注意力模块,以提高模型对于建筑物边缘的提取精度;同时衔接ConvCRF模块进行分离模型训练,以减少分割结果边缘锯齿的产生,消除噪声,拟合建筑物真实轮廓;本发明应用于高分遥感影像建筑物提取。
Description
技术领域
本发明提供了一种基于ConvCRF的高分遥感影像建筑物提取优化方法,属于图像处理技术领域。
背景技术
遥感技术的进步发展,让遥感应用与城市生活紧密结合,其中城市规划更是离不开遥感技术的支撑。高分遥感影像对于建筑物特征呈现的更加明显,形状、结构、细节及纹理的清晰突出使得人们对于城市建筑物的提取更加有效。为了保证高分遥感影像建筑物提取的精度及轮廓最优化,人工解译仍然是最普遍的提取方式,其费时费力的弱点制约了高分遥感影像大范围的应用。
为了减少人们对于建筑物提取所花费大量的劳动力与时间,研究人员们开始尝试将深度学习与遥感影像结合到一起。近几年深度学习技术的快速发展,使得研究人员可以通过使用深度学习技术建立模型,在模型训练过程中不断学习高分遥感影像中建筑物的数据分布特征,从而区分建筑物和其背景环境。
城市版图的扩大,建筑物也随之不断增多,人们对于建筑物提取的需求也在不断增大。但是目前仍鲜有方法能较好的平衡建筑物的提取精度与解译时间。在地物分割问题中,为了提升建筑物提取精度,多采用加深神经网络编码结构的方式以提取分辨率较低的高级抽象特征,从而丢失了地物对象的空间信息及边缘信息;同时,全卷积神经网络上采样过程中的双线性插值及反卷积运算,使得地物对象在抽象特征尺寸还原过程中无法准确插入对象边缘像素,致使地物对象分割结果边缘存在较多锯齿,无法准确还原地物对象轮廓。目前人们在使用深度学习技术解决建筑物提取的问题上,多通过神经网络一次对象分割,人工二次修正分割结果的方法来满足城市对于建筑物提取的需求。为了尽量减少人工二次标注注入的劳动力,本发明提出全卷积神经网络与ConvCRF相结合的方法以提高高分遥感影像建筑物提取精度,消除提取结果边缘存在的锯齿,尽可能满足建筑物的真实轮廓。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种基于ConvCRF的高分遥感影像建筑物提取优化方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:一种基于ConvCRF的高分遥感影像建筑物提取优化方法,包括如下步骤:
S1:构建全卷积神经网络基础分割模型,在高分遥感影像数据上对基础模型进行多轮次的训练,得到拟合高分遥感影像数据特征分布的分割模型,以Residual_Block替换基础Unet中的普通卷积,将基础Unet中的MaxPooling最大池化层替换为普通卷积层,将CBAM模块嵌入到前两层编码及后两层解码阶段的Residual_Block中,得到改进后的Unet神经网络模型;
S2:构建图像分割后处理模型:引入ConvCRF端到端衔接式模型,对基础分割模型的分割结果进行二次校正优化,采用基于FullCRF改进的ConvCRF做图像分割后处理模型,在FullCRF的基础上引入条件限制,通过设定给定的kernel-size使得像素间的计算范围仅限于以其为中心的kernel-size范围内;
S3:对神经网络模型和图像分割后处理模型进行训练;
S4:采用平均交并比MIOU和平均像素MPA来评价模型在数据集上的分割效果。
在进行模型训练之前,先获取遥感图像数据集并进行预处理,将数据集按比例分为训练集、验证集、测试集;采用Inria_Aerial_Image_Labeling_Dataset遥感影像城市建筑物检测数据集,数据集中每张影像具有5000*5000像素大小的分辨率,标签分为建筑物与非建筑物;
在神经网络训练过程当中,将5000*5000像素分辨率的大图遥感影像进行裁剪,在裁剪过程中chunk图之间产生10%的覆盖率。
所述步骤S3中对神经网络模型和图像分割后处理模型进行训练的具体包括:
采用pytorch中torchvision.transforms对输入数据进行数据归一化,选用多分类交叉熵损失函数作为模型训练的损失函数,在基于自适应梯度下降算法Adam的情况下,采用StepLR间隔调整学习率衰减策略对学习率进行调整,在基础分割模型基础上,对ConvCRF算法进行分离式迭代训练。
采用StepLR间隔调整学习率衰减策略对学习率进行调整。
采用平均交并比MIOU和平均像素MPA来评价模型在数据集上的分割效果;
假设共有n+1个类别,pij表示实际类别为i类但被预测为j类的像素数量,则MIOU和MPA的具体计算公式如下:
对训练集中的数据进行增强,以1:4的数据增强比例对数据训练集进行数据增强,增强方法包括:图像翻转,对原始图像以中线为轴进行左右对称翻转;图像旋转,对原始图像进行顺时针及逆时针90°旋转;数据加噪,按50%的像素比例,对原始图像进行随机加噪。
通过pytorch框架,将ConvCRF中的所有参数置于gpu中进行具有梯度的训练。
本发明相对于现有技术具备的有益效果为:本发明提供的一种基于ConvCRF的高分遥感影像建筑物提取优化方法通过residual-block残差卷积结构替换Unet网络当中的普通卷积运算,并在Unet低感受野编码与解码阶段引入了CBAM(Convolution BlockAttention Module)卷积注意力模块,以提高模型对于建筑物边缘的提取精度。同时衔接ConvCRF模块进行分离模型训练,以减少分割结果边缘锯齿的产生,消除噪声,拟合建筑物真实轮廓。实验结果表明,本发明提出的改进Unet神经网络在分割效果及精度上优于经典的语义分割算法,在平均精度和平均交并比上提升2.67%和3.17%;ConvCRF分离式模型能够有效消除噪点并减少边缘锯齿的产生。
附图说明
下面结合附图对本发明做进一步说明:
图1为传统Unet神经网络模型的结构示意图;
图2为CBAM算法的结构示意图;
图3为CRF算法的的结构示意图;
图4为FullCRF算法的结构示意图;
图5为本发明改进的Unet神经网络模型的结构示意图;
图6为本发明基于FullCRF改进的ConvCRF算法的结构示意图;
图7为本发明采用的数据样本示例图;
图8为本发明进行数据增强后的数据集图;
图9为Unet、PSP、改进Unet以及分离ConvCRF模型训练精度损失图;
图10为各个模型在测试集上的验证结果的对比图;
图11为各个模型的预测结果图。
具体实施方式
如图1-11所示,鉴于目前全卷积神经网络更倾向于模型对于识别地物主要部分的提取,忽视了低感受野区域的特征提取部分,致使模型对于地物边缘的检测较为缺乏。为了改进这一缺陷,本发明提出了改进Unet与ConvCRF相结合的神经网络模型。通过residual-block残差卷积结构替换Unet网络当中的普通卷积运算,并在Unet低感受野编码与解码阶段引入了CBAM(Convolution Block Attention Module)卷积注意力模块,以提高模型对于建筑物边缘的提取精度。同时衔接ConvCRF模块进行分离模型训练,以减少分割结果边缘锯齿的产生,消除噪声,拟合建筑物真实轮廓。实验结果表明,本发明提出的改进Unet神经网络在分割效果及精度上优于经典的语义分割算法,在平均精度和平均交并比上提升2.67%和3.17%;ConvCRF分离式模型能够有效消除噪点并减少边缘锯齿的产生。
下面先依次对Unet、CBAM、CRF、FullCRF的基本模型结构进行介绍。
Unet:如图1所示,基础Unet架构共5层,整体网络呈对称结构,即Encoder-Decoder结构,左边称为收缩路径,亦称为编码阶段,通过卷积神经网络以提取图片的抽象特征信息;右边称为扩张路径,亦称为解码阶段,通过双线性插值算法还原高级抽象特征的图像尺寸。左边参考VGG16建立,采用典型的卷积神经网络结构,共有4次下采样和5组卷积,输入数据大小为572*572*1,每组卷积操作都由两次卷积运算组成,卷积核大小为3*3,随后是一次卷积操作,采样核为2*2,步长为2。结果就是特征图尺寸不断缩小,特征图通道数不断增加,左侧输出数据大小为28*28*1024。右侧先进行上采样,卷积核大小为2*2,再和左侧收缩路径上相应层的特征图叠加,然后进行卷积运算。
这期间的卷积和上采样都需要用到激活函数,Unet网络层中一般使用的是Relu激活函数,它能够改善梯度消失和加快训练速度。网络的最后使用1*1的卷积来进行分类输出结果,激活函数一般采用Sigmoid或Softmax函数转换为概率图。
CBAM:如图2所示,CBAM(Convolutional Block Attention Module,卷积注意力模块)由通道注意力机制与空间注意力机制组成,其主要意义为通过在不同维度上获取特征图的最大值与平均值以提取特征图中的主要特征。
通道注意力机制中,对输入特征图input分别才用最大池化与平均池化,并衔接1*1的卷积运算获取主要特征。最后引入sigmoid激活函数引入特征非线性关系。
类同于通道注意力机制,空间注意力机制中,在通道维度上分别获取特征最大值与平均值。并衔接卷积运算与sigmoid激活函数。
CRF:2001年John等提出了条件随机场,如图3所示,条件随机场CRF(ConditionalRandom Filed)由观测序列与状态序列组成,状态序列组成马尔可夫随机场,由公式(1)(2)表示:
P(Yi-1,Yi+1|Yi)=P(Yi-1|Yi)P(Yi+1|Yi) (1);
P(Yi-1|Yj,yi+1)=P(Yi-1|Yi) (2);
单个观测点Xi唯一确定一个状态点Yi,即P(Yi|Xi)。在条件随机场中每一个状态点仅与其相邻状态点及对应观测点有关,如公式(3)(4)所示:
Z(X)为归一化因子,μ与s为特征函数,λ与u为特征函数对应权重。
FullCRF:2011年Philipp等提出了FullCRF(Fully Connected CRFs,全连接条件随机场)。承接CRF的原理,FullCRF与CRF的原理大同小异,在FullCRF中,将单独像素Xi作为观测点,各个像素对应类别Yi作为状态点,不同于CRF的是,每个状态点与图片中所有状态点均有关系,如图4所示。
其对应原理如公式(5)(6)(7)所示,I为图像中各个像素点及观测序列,X为观测点对应的预测标签及状态序列。在公式(5)中E(X|I)为势能函数,由一元势能与二元势能组成。其中一元势能函数ψu(Xi)为各个像素i对应相对类别Xi的概率,在神经网络中,通过最后一层softmax激活函数即可计算。二元势能函数ψp(Xi,Yj)计算两像素点对应同一类别的概率,在公式(7)中,u(xi,yj)为标签兼容项,为了减少FullCRF计算量,即减除非相同类别所对应像素之间的运算。KG为通过两像素之间的颜色差异及相对位置差异计算两像素相似概率的特征函数,w为特征函数对应的权重。
在FullCRF中,由于标签兼容项限制了部分像素之间的相似概率运算,故一般通过多次推理来计算二元势能函数,从而完成各个像素的预测。
通过对上述Unet、CBAM、CRF、FullCRF的基本模型结构的了解,在此基础上,如图5所示,Unet采用的对称Encoder-Decoder结构使得模型在上采样过程中能够融合同尺寸特征图,获取到的抽象特征信息有利于建筑物轮廓的分割与预测。然而传统Unet采用的VGG架构结构较浅,无法获取到丰富的抽象特征,导致Unet对于建筑物的分割产生漏识,误测的现象。故本发明引入了ResNet(Residual Network,残差神经网络)中的残差结构,加深Unet神经网络结构,通过残差结构减少梯度消失的情况出现。
为了最大程度的拟合建筑物的真实轮廓并提升模型对于建筑物的分割精度,本发明在Unet前两层编码及后两层解码阶段引入了CBAM卷积注意力模块。以在神经网络获取到较低感受野的特征图阶段提取主要特征,不仅减少漏识、误测的情况,同时使得模型对于建筑物边缘的预测更为精细。
本发明以Residual_Block替换Unet中的普通卷积,加深神经网络结构,丰富抽象特征提取。同时由于池化层丢失特征空间信息并扩大特征感受野,导致神经网络对于边缘检测较为粗糙,故将传统Unet当中的MaxPooling最大池化层替换为普通卷积层,以减少空间信息的丢失,使得神经网络对于建筑物边缘的检测更为精细。
图5表示中,CBAM模块嵌入到前两层编码及后两层解码阶段的Residual_Block当中,以在低感受野特征阶段获取主要特征,从而提高模型对于建筑物整体包括建筑物轮廓的细致分割。
FullCRF一直是细化分割结果的经典算法之一,在传统的deeplabV1、V2神经网络当中也一直加以应用,但由于全连接条件随机场计算量较大,即使通过标签兼容项限制部分像素之间二元势能的计算,但其计算区域仍为整张图片当中的所有像素,在经过多次推理计算后,随着部分像素对应标签的预测改变,仍会花费大量的计算时间,导致模型对于图片的预测无法做到实时性。
本发明引入了基于FullCRF改进的ConvCRF做图像分割后处理模型。如图6所示,其不同于FullCRF之处是借鉴了标准卷积与池化中的kernel-size,在FullCRF的基础上引入了条件限制,通过设定给定的kernel-size使得像素间的计算范围仅限于以其为中心的kernel-size范围内,大大减少了计算量与计算时间。同时本发明通过pytorch框架,将ConvCRF中的所有参数置于gpu中进行具有梯度的训练,从而在不过于丢失性能的情况下实现实时检测分割的效果。
下面通过具体实施例对本发明进行进一步说明。
本发明实验数据集及超参数选择:本发明采用法国研究所于2017年发布的Inria_Aerial_Image_Labeling_Dataset遥感影像城市建筑物检测数据集。数据集中每张影像具有5000*5000像素大小的分辨率,标签分为建筑物与非建筑物,对应像素值大小设置为255和0,如图7所示。
神经网络训练过程当中,限于内存与显存的影响,无法直接送入分辨率过大的整张遥感影像,故本发明将5000*5000像素分辨率的大图遥感影像裁剪为441张256*256像素分辨率的chunk图。由于裁剪得到的chunk图在拼接过程中会有缝隙产生,影响解译结果的可视性,本发明提出在裁剪过程中chunk图之间产生10%的覆盖率,以消除解译结果拼接时chunk图之间缝隙的产生。
本发明选取2景遥感影像作为模型的训练集,1景的遥感影像作为验证集,1景的遥感影像作为测试集。数据准备过程中,对训练数据集进行1:4的数据增强,故本实施例训练集与验证集、测试集的数目比例为8:1:1。
如图8所示,本发明使用传统数据增强(数据旋转、数据翻转、数据加噪)方法对训练数据集进行数据增强(如图8所示),以1∶4的数据增强比例对训练数据集进行数据增强,增强方法包括:图像翻转,对原始图像以中线为轴进行左右对称翻转;图像旋转,对原始图像进行顺时针及逆时针90°旋转;数据加噪,按50%的像素比例,对原始图像进行随机加噪。
本实施例对于神经网络模型训练实验超参数设置如表1所示,本发明采用pytorch中torchvision.transforms对输入数据进行数据归一化,Normalize_Mean代表各个通道的均值,Normalize_Std代表各个通道的标准差,本发明中将均值与标准差设置为imageNet训练集中抽样得出的均值与标准差;
Paramter | Batch_Size | Base_Lr | Normalize_Mean | Normalize_Std |
Value | 8 | 0.01 | (0.485,0.456,0.426) | (0.229,0.224,0.225) |
表1神经网络模型训练超参数选择策略表。
受限于设备的影响,本发明中Batch_Size值设置为8;Epoch表示整个训练集训练的迭代次数,本发明对于Epoch的设置为200次;损失函数在模型训练过程中起到至关重要的作用,模型在训练过程中通过计算损失函数进行反向传播,通过梯度寻找模型各个参数的最优解来降低损失函数的值,从而拟合数据的特征分布函数。本发明选用多分类交叉熵损失函数,交叉熵代表两个信息分布的混乱度及不确定度,在交叉熵的计算过程中,某一点的值越大,其在该点的梯度也就越大,故其作为模型训练的损失函数能够快速实现梯度下降。其数学形式如公式(8)所示:
本发明在基于自适应梯度下降算法Adam的情况下,采用StepLR间隔调整学习率衰减策略对学习率进行调整,其中Step Size设为20,Gamma设为0.1,即每隔20个epochs对learning rate进行0.1倍的调整。
在改进Unet训练模型基础上,本发明对ConvCRF算法进行了分离式100个epoch的模型训练,其超参数设置如表2所示:
Paramter | Filter_Size | Blur | Inference |
Value | 7 | 4 | 5 |
表2ConvCRF算法模型训练超参数表。
为了保证ConvCRF对图像的预测精度,同时减少ConvCRF的运算时间,本发明在ConvCRF的模型训练中,将Filter_Size即Kernel_Size设置为7,Blur模糊系数设置为4,Inference推理次数设置为5。从而在满足实时性分割的需求下保证模型的分割精度。
本发明使用平均交并比MIOU(Mean Interesection over Union)和平均像素MPA(Mean Pixels Accuracy)来评价模型在数据集上的分割效果。假设共有n+1个类别,pij表示实际类别为i类但被预测为j类的像素数量,则MIOU和MPA的具体计算公式如下:
通过平均交并比的公式--公式(9),可以看出平均交并比的计算方式等同于数学中的集合交并比计算方式。其意义为建筑物预测结果与对应标签的交集除以并集。当预测结果完全对应于相应标签时,交集便等于并集,其交并比的值变为1。在模型评估当中,交并比的值越大,说明模型对于建筑物识别的准确率越高。
通过平均像素准确率的公式--公式(10),可以看出平均像素准确率的计算方式是以准确识别的像素个数除以总体识别的像素个数。其意义为建筑物准确预测的像素个数除以该建筑物预测的整体像素个数。当建筑物预测结果完全准确时,准确像素个数便等于整体像素个数,即像素准确率的计算值为1。在模型评估当中,像素准确率的值越大,说明模型对于建筑物识别的准确率越高。
模型训练
如图9所示,分别展示了Unet、PSP、改进Unet以及分离ConvCRF模型训练精度损失图。在给定相同的超参数选择策略下,本发明对Unet、PSP、改进Unet神经网络进行了200个epoch的模型训练,在改进Unet模型基础上,单独对ConvCRF进行了100个epoch的模型训练。精度损失图显示,各个神经网络皆于大约30个epoch处开始拟合,其中改进Unet在验证集上的拟合程度最为平稳,训练集中的平均交并比与平均像素准确率分别达到0.945与0.987,验证集中的平均交并比与平均像素准确率分别达到0.883与0.939,在各个模型中精度最高。
由于ConvCRF的计算包含一元势能函数,即像素对应像素类别的概率,其输入须为分割模型对于图像的预测概率与分割图像原图,故发明采用模型分离训练,即在改进Unet训练模型基础上进行ConvCRF模型的训练,由ConvCRF模型精度损失图可以看出,ConvCRF大约在第7个epoch处开始趋于拟合,拟合后的平稳精度趋近于改进Unet的模型精度。训练集中ConvCRF平均交并比与平均准确率0.947与0.987,验证集中平均交并比与平均像素准确率分别达到0.886与0.941。
本发明为了验证基于Unet改进网络的精度提升有效性,在Inria Aeria BuildingDataset数据集上对传统Unet、PSP等神经网络进行模型训练,并对比各个模型在测试集上的验证精度。由表3模型精度对比表可以看出,本发明提出的改进Unet神经网络对于建筑物识别的精度最高,平均交并比达到0.8874,像素准确率达到0.9483,F1分数达到0.9064。对于建筑物识别的单类交并比达到0.8071,建筑物单类F1分数达到0.8337,建筑物单类像素准确率达到0.9115。分离式ConvCRF模型在测试集上的验证精度并没有太大的变化,与改进Unet类似,其主要目的是细化改进Unet分割结果的边缘检测以及减少锯齿。
表3各模型精度对比表。
如图10所示,展示了各个模型在测试集上的验证结果。图10中,Unet与PSP模型对于建筑物边缘的分割较为粗糙,且Unet与PSP对于小型建筑物存在着漏识、误测的情况,如红色标注框所示。相较于传统Unet与PSP神经网络,引入CBAM机制的ResUnet对于建筑物的边缘分割较为细致,且能较为准确的检测出位置偏僻、面积较小的小型建筑物。ConvCRF在改进Unet的基础上对建筑物的边缘进一步的细化,如蓝色标注框所示,ConvCRF在验证精度上并未能表现出显著的提升,但在测试集中的验证效果上能够实现对建筑边缘检测的细化,同时减少建筑物边缘锯齿的存在。
如图11所示,模型预测结果图展示了各个模型对于整张建筑物遥感影像测试集的预测结果。受限于遥感影像分辨率过大,GPU显存不足,无法整张送入模型进行预测的影响,神经网络模型无法获取到遥感影像的全局信息。裁剪过后的chunk图存在无法容纳完整建筑物的问题,模型对于部分大类别建筑物的识别无法获取到完整的语义信息。同时,遥感影像中,部分建筑物被树木、桥梁等其他类别地物的遮挡,使得模型对于建筑物的预测结果存在许多缺口。但对比各模型在测试集上的预测结果可以看出,本发明提出的引入CBAM的ResUnet神经网络训练所得模型在测试集预测中,建筑物边缘识别更为精细。纵然存在其他地物遮挡的问题,对于未遮挡部分,建筑物轮廓上的点更为稀疏,建筑物边界线的识别更为细腻。在此基础上,ConvCRF模型的引入,进一步细化了建筑物边缘检测的分割效果,消除部分存在噪点,减少模型对于建筑物漏测、误识的情况发生。从而进一步满足建筑物分割结果应用需求,减少人们对于建筑物检测结果修过注入的二次标注劳动力。
如表4所示,显示了各个模型解译单张256*256像素chunk图花费时间,其中传统Unet神经网络由于网络结构较浅,花费时间最为短暂,对于单张chunk图的解译时间达到0.02343秒每张;PSP50引入了残差神经网络,同时在编码阶段的末尾引入了金字塔池化层,故PSP神经网络较高于传统Unet神经网络,对于单张chunk图的解译需要花费0.02809秒每张3;基于Unet改进的CBAM_ResUnet神经网络在替换残差结构的基础上引入CBAM注意力机制,故其参数量较大于PSP50,对单张chunk图的解译时间达到了0.02944秒每张;衔接分离式ConvCRF模型的改进Unet对单张chunk图的解译时间为0.03407秒每张,较改进Unet多花费0.00463秒每张,即对单张chunk图的解译时间多出15%。满足对于建筑物实时性分割的需求。
表4各个模型解译单张256*256像素chunk图花费时间。
本发明根据传统Unet神经网络缺陷提出一种基于Unet改进的CBAM-ResUnet神经网络,该网络的改进目的主要是为了通过加深网络结构提升模型精度以及低感受野区域主要特征提取实现建筑物边缘的精细分割。Residual Block的引入使得改进网络在结构加深的同时避免梯度消失的情况发生;CBAM模块的引入使得改进网络在特征图空间尺寸较大阶段提取到建筑物的主要抽象特征,从而保留更多的空间信息以及实现了建筑物边缘的特征提取,满足建筑物边缘精细分割的需求。基于FullCRF改进的ConvCRF分离式模型,在不过分丢失精度的情况下,大大提升解译速度,从而实现模型的实时分割,减少噪点及边缘锯齿的产生。经实验证明,改进Unet网络对于建筑物的边缘分割更为精细,且减少了漏识、误测的情况发生;ConvCRF分离式模型的引入,在不增加大量参数及解译时间的情况下进一步细化了建筑物边缘的分割效果。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、连接方式除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的已公开专利、已公开的期刊论文、或公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种基于ConvCRF的高分遥感影像建筑物提取优化方法,其特征在于:包括如下步骤:
S1:构建全卷积神经网络基础分割模型,在高分遥感影像数据上对基础模型进行多轮次的训练,得到拟合高分遥感影像数据特征分布的分割模型,以Residual_Block替换基础Unet中的普通卷积,将基础Unet中的MaxPooling最大池化层替换为普通卷积层,将CBAM模块嵌入到前两层编码及后两层解码阶段的Residual_Block中,得到改进后的Unet神经网络模型;
S2:构建图像分割后处理模型:引入ConvCRF端到端衔接式模型,对基础分割模型的分割结果进行二次校正优化,采用基于FullCRF改进的ConvCRF做图像分割后处理模型,在FullCRF的基础上引入条件限制,通过设定给定的kernel-size使得像素间的计算范围仅限于以其为中心的kernel-size范围内;
S3:对神经网络模型和图像分割后处理模型进行训练;
S4:采用平均交并比MIOU和平均像素MPA来评价模型在数据集上的分割效果。
2.根据权利要求1所述的一种基于ConvCRF的高分遥感影像建筑物提取优化方法,其特征在于:在进行模型训练之前,先获取遥感图像数据集并进行预处理,将数据集按比例分为训练集、验证集、测试集;采用Inria_Aerial_Image_Labeling_Dataset遥感影像城市建筑物检测数据集,数据集中每张影像具有5000*5000像素大小的分辨率,标签分为建筑物与非建筑物;
在神经网络训练过程当中,将5000*5000像素分辨率的大图遥感影像进行裁剪,在裁剪过程中chunk图之间产生10%的覆盖率。
3.根据权利要求1所述的一种基于ConvCRF的高分遥感影像建筑物提取优化方法,其特征在于:所述步骤S3中对神经网络模型和图像分割后处理模型进行训练的具体包括:
采用pytorch中torchvision.transforms对输入数据进行数据归一化,选用多分类交叉熵损失函数作为模型训练的损失函数,在基于自适应梯度下降算法Adam的情况下,采用StepLR间隔调整学习率衰减策略对学习率进行调整,在基础分割模型基础上,对ConvCRF算法进行分离式迭代训练。
4.根据权利要求1所述的一种基于ConvCRF的高分遥感影像建筑物提取优化方法,其特征在于:采用StepLR间隔调整学习率衰减策略对学习率进行调整。
6.根据权利要求2所述的一种基于ConvCRF的高分遥感影像建筑物提取优化方法,其特征在于:对训练集中的数据进行增强,以1:4的数据增强比例对数据训练集进行数据增强,增强方法包括:图像翻转,对原始图像以中线为轴进行左右对称翻转;图像旋转,对原始图像进行顺时针及逆时针90°旋转;数据加噪,按50%的像素比例,对原始图像进行随机加噪。
7.根据权利要求1所述的一种基于ConvCRF的高分遥感影像建筑物提取优化方法,其特征在于:通过pytorch框架,将ConvCRF中的所有参数置于gpu中进行具有梯度的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210513757.5A CN114943894A (zh) | 2022-05-11 | 2022-05-11 | 一种基于ConvCRF的高分遥感影像建筑物提取优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210513757.5A CN114943894A (zh) | 2022-05-11 | 2022-05-11 | 一种基于ConvCRF的高分遥感影像建筑物提取优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943894A true CN114943894A (zh) | 2022-08-26 |
Family
ID=82906498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210513757.5A Pending CN114943894A (zh) | 2022-05-11 | 2022-05-11 | 一种基于ConvCRF的高分遥感影像建筑物提取优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943894A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630971A (zh) * | 2023-07-24 | 2023-08-22 | 安徽大学 | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 |
CN116862252A (zh) * | 2023-06-13 | 2023-10-10 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
-
2022
- 2022-05-11 CN CN202210513757.5A patent/CN114943894A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862252A (zh) * | 2023-06-13 | 2023-10-10 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN116862252B (zh) * | 2023-06-13 | 2024-04-26 | 河海大学 | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
CN116630971A (zh) * | 2023-07-24 | 2023-08-22 | 安徽大学 | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 |
CN116630971B (zh) * | 2023-07-24 | 2023-09-29 | 安徽大学 | 基于CRF_ResUnet++网络的小麦赤霉病孢子分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN113298818A (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
CN111047522B (zh) | 一种基于边缘生成的图像修复方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN110889813A (zh) | 基于红外信息的低光图像增强方法 | |
CN111274921B (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN110163213B (zh) | 基于视差图和多尺度深度网络模型的遥感图像分割方法 | |
CN114943894A (zh) | 一种基于ConvCRF的高分遥感影像建筑物提取优化方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
CN111709900A (zh) | 一种基于全局特征指导的高动态范围图像重建方法 | |
CN110717921B (zh) | 改进型编码解码结构的全卷积神经网络语义分割方法 | |
CN111008608B (zh) | 一种基于深度学习的夜间车辆检测方法 | |
CN114973011A (zh) | 一种基于深度学习的高分辨率遥感影像建筑物提取方法 | |
CN113392711A (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN113486894A (zh) | 一种卫星图像特征部件语义分割方法 | |
CN116958827A (zh) | 一种基于深度学习的撂荒区域提取方法 | |
CN115984323A (zh) | 基于空频域均衡的双级融合rgbt跟踪算法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |