CN111191628B - 基于决策树与特征优化的遥感影像震害建筑物识别方法 - Google Patents

基于决策树与特征优化的遥感影像震害建筑物识别方法 Download PDF

Info

Publication number
CN111191628B
CN111191628B CN202010009179.2A CN202010009179A CN111191628B CN 111191628 B CN111191628 B CN 111191628B CN 202010009179 A CN202010009179 A CN 202010009179A CN 111191628 B CN111191628 B CN 111191628B
Authority
CN
China
Prior art keywords
acc
earthquake
building
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010009179.2A
Other languages
English (en)
Other versions
CN111191628A (zh
Inventor
朱立琴
仇星
刘辉
高成
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010009179.2A priority Critical patent/CN111191628B/zh
Publication of CN111191628A publication Critical patent/CN111191628A/zh
Application granted granted Critical
Publication of CN111191628B publication Critical patent/CN111191628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Image Analysis (AREA)

Abstract

本发明针对在震前参考信息缺乏情况下,仅依赖震后遥感影像对震害建筑物进行特征建模和随机森林分类中所存在的困难和局限,提出了一种基于决策树与特征优化的遥感影像震害建筑物识别方法。首先,结合影像分割及非建筑物筛选规则提取潜在建筑物对象集合;在此基础上,提出了一种基于分类正确率曲线波动判别的自适应决策树数量提取策略;同时,在特征重要度指标指引下对光谱、纹理、几何形态学这三大类特征进行筛选,获得具有代表性的震害特征集合;最后,基于所构建的优化随机森林模型对震害建筑物进行识别。通过对四组不同的遥感图像进行实验表明,本发明方法在震后复杂场景下的震害建筑物识别中展现出了出色的性能,其总体精度可达到85%以上。

Description

基于决策树与特征优化的遥感影像震害建筑物识别方法
技术领域
本发明公开了一种基于决策树与特征优化的遥感影像震害建筑物识别方法,属于图像识别技术领域。
背景技术
作为一种严重的自然灾害,地震的发生往往伴随着巨大的人员伤亡以及经济财产损失。震后及时、准确地识别震害建筑物,对快速评估灾情、开展应急救援响应及灾后重建等具有重要意义。相较于传统震后人工实地探查的方式,基于遥感影像的震害建筑物识别具有数据获取迅速、覆盖范围广等优势,已经成为震后应急响应中一种重要的技术手段。
伴随着卫星和传感器技术的不断发展,高分辨率遥感影像的广泛应用带来了更加丰富的空间细节信息,从而有利于对震害建筑物的精细刻画。在已有震害建筑物识别方法中,仅依赖于震后影像的震害建筑物识别方法突破了对震前影像的依赖,因而更具应用推广性。尽管如此,此类方法不仅无法提取震前、震后变化信息作为识别的震害建筑物识别的依据,同时还需要面对遥感影像空间分辨率的提高所产生的更加突出的“同物异谱”和“同谱异物”现象,即完好建筑物、震害建筑物及其他地物的类内方差增大而类间方差减小所带来的严峻挑战。为此,能否构建更加高效的特征空间以准确描述建筑物的震害信息,是实现高精度震害建筑物识别的前提和基础。目前震害建筑物识别方法中采用的特征主要包括光谱、纹理以及几何形态学三类。例如,Liu Yu等人利用形态学属性剖面(MAP)和与局部二值模式(LBP)算子提取影像的几何特征与纹理特征,进而利用随机森林分类器提取震害建筑物[刘宇,曹国.基于多特征结合的损毁建筑物检测[J].计算机应用,2015,35(9):2652-2655.];Asli Sabuncu等人综合利用光谱、compactness以及smoothness特征,提出了一种针对震后场景坍塌建筑物的识别方法[Sabuncu A.A study of earthquake-inducedbuilding detection by object oriented classification approach[C]//Egu GeneralAssembly Conference.2017.]。尽管结合不同种类特征有利于对震害建筑物的多维度描述,但由于不同特征之间存在冗余信息,不仅会增加计算复杂度,同时还可能由于不同特征之间作为震害证据时的相互冲突而降低检测精度。为此,需要多特征的筛选和优化组合策略,从而构建精炼的特征集合。在此基础上,特征集合还必须结合合适的分类方法以获得可靠的震害建筑物识别结果。随机森林(Random Forest,RF)是目前比较流行的集成分类器,具有模型参数少、利用样本和特征选择的双重随机性可以避免过拟合的优点。但合理选择决策树的数量是提高随机森林分类器性能的一个关键因素,决策树数量过少时难以获得可靠的检测结果;数量过多则会降低算法运行效率。特别是当决策树超过一定数量时,分类的精度就在一定范围内上下浮动甚至有下降的趋势。因此要选择合适的决策树棵树。尽管如此,在RF理论中并未给出明确的决策树数量标准,而通常采用的人工赋值方式,不仅容易受到主观因素影响而陷入局部最优,同时又降低了分类过程的自动化程度。
发明内容
发明目的:针对现有技术的不足,本发明的目的在于提出了一种基于决策树与特征优化的遥感影像震害建筑物识别方法,以实现震后复杂场景下的震害建筑物快速、准确地识别,提升总体识别精度。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于决策树与特征优化的遥感影像震害建筑物识别方法,包括如下步骤:
(1)对卫星遥感影像进行分割提取初始对象集合,并结合几何形态学特征提取潜在的建筑物对象集合;
(2)基于分类正确率曲线波动判别规则自适应确定决策树数量;
(3)在特征重要度指标指引下对光谱、纹理、几何形态学三大类特征进行筛选,获得具有代表性的震害特征集合,进而构建优化的随机森林模型;
(4)根据随机森林判别结果将潜在建筑物对象集合进一步进行分类,识别出震害建筑物。
作为优选,所述步骤(1)中采用高分辨率遥感影像分割算法WJSEG提取遥感影像的初始对象集合。
作为优选,所述步骤(1)中结合几何形态学特征提取潜在的建筑物对象集合的具体规则包括面积规则、矩形度规则和MBI规则;所述面积规则是根据对象所包含的像素个数确定是否剔除,若像素个数不超过设定的阈值,则剔除;所述矩形度规则是根据对象所包含的像素个数与最小外接矩形所包含的像素个数的比值和最小外接矩形的长宽比确定是否剔除,若比值小于设定的阈值且长宽比大于设定的阈值,则剔除;所述MBI规则是基于影像中所有像素的MBI值利用最大类间方差法自适应确定分离阈值,获得对象内属于非建筑物像素的比例,若比例大于设定的阈值则剔除对象。
作为优选,所述步骤(2)中基于分类正确率曲线波动判别规则自适应确定决策树数量,包括:
(2.1)在潜在的建筑物对象集合中,采用人工标记的方式提取样本,构成训练样本集;
(2.2)确定初始建筑物震害特征集合,包括光谱特征、纹理特征和几何形态学特征;
(2.3)构建初始随机森林模型,输入训练样本集,定义分类正确率为每棵树的分类正确的样本数与输入的样本数的比值,比值越大说明分类结果与真实情况越接近,计算每棵树的分类正确率并求所有决策树的正确率均值;
(2.4)以设定的步长,迭代增加决策树后构建新的随机森林模型,获得迭代次数为n时的正确率均值Accn
(2.5)若某Accn满足Accn-1<Accn且Accn>Accn+1,则认为Accn是一个子区间内的峰值点,记Accopt0=Accn
(2.6)继续计算Accn后连续出现的3个峰值点,分别计为Accopt1、Accopt2、Accopt3,若满足Accopt0≥argmax{Accopt1,Accopt2,Accopt3},则记Accopt0对应的决策树颗数为Iopt0;否则,进入下一步;
(2.7)重复步骤(2.5)和(2.5),直到取得满足
Accopt0≥argmax{Accopt1,Accopt2,Accopt3}的Accopt0,停止迭代并提取Iopt0;若无法确定Accopt0,则记已经获得的Accn最大值对应的决策树颗数为Iopt0
(2.8)继续比较Iopt0与其前、后相邻的N-1棵数的分类正确率,根据分类正确率最大值确定最终提取的优化决策树棵数Iopt,N为步骤(2.4)中设定的步长。
作为优选,所述步骤(3)中在特征筛选的方法是:在包含Iopt颗决策树的随机森林模型中,首先计算所有特征的重要度,再分别求取光谱、纹理和几何形态学三类特征的类间重要度,再分别对三类特征中包含的子特征进行类内重要度排序,最后在重要度指引下获得优化后的震害建筑物分类特征集合;其中Iopt为步骤(2)中优化决策树棵数。
作为优选,任意特征ft对于第i单棵决策树的重要度由下式计算得到:
Figure GDA0002790511810000041
式中ΦB表示OOB样本集合,xj和lj分别表示袋外数据中任意样本与其被赋予的类别标签,cj (i)表示样本xj所获得的类别标签,
Figure GDA0002790511810000042
表示将特征ft的值替换为其他随机值后样本xj所得的类别标签,N(·)为计数函数;特征ft对于随机森林分类器的重要度
Figure GDA0002790511810000043
作为优选,将光谱、纹理和几何形态学三类特征的重要度分别求和得到三类特征的类间重要度,分别记为WL,WT和WG,并分别计算类间冗余归一化惩罚因子;对各个特征子集内的特征按照类内重要度从高到低排列;对各个特征子集,依据冗余归一化惩罚因子的比例取整后,分别仅保留类内重要度相对较高的vL,vT和vG个特征,从而获得共包含V=vL+vT+vG维特征的优化特征集合Fopt
作为优选,所述步骤(3)中基于提取的优化决策树棵数Iopt及优化特征集合Fopt,构建的优化随机森林模型如下:
Figure GDA0002790511810000044
式中,P(x)表示分类结果;pi(x)表示单棵决策树的分类结果;c表示分类标签,c∈{Undamaged Building,Damage Building,Ruin,The Others}。
有益效果:本发明针对在震前参考信息缺乏情况下,仅依赖震后遥感影像对震害建筑物进行特征建模和随机森林分类中所存在的困难和局限,提出了一种基于决策树与特征优化的震害建筑物识别方法。首先,结合影像分割及非建筑物筛选规则集合提取潜在建筑物对象集合;在此基础上,提出了一种基于分类正确率曲线波动判别的自适应决策树数量提取策略;同时,在特征重要度指标指引下对光谱、纹理、几何形态学这三大类特征进行筛选,获得具有代表性的震害特征集合;最后,基于所构建的优化随机森林模型将建筑物划分为完好建筑物、部分震损建筑物、废墟及其他。通过对四组不同传感器的遥感图像进行实验表明,本发明方法在震后复杂场景下的震害建筑物识别中展现出了出色的性能,其总体精度可达到85%以上。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例中使用的实验数据集的卫星遥感影像图;包括(a)Dataset 1、(b)Dataset 2、(c)Dataset 3和(d)Dataset 4。
图3为对图2中的遥感影像进行分割及初始对象提取结果图。
图4为对图3中提取的对象进行非建筑物对象筛选后的结果图。
图5为本发明实施例中Dataset 1决策树棵数与分类正确率关系图。
图6为本发明实施例与现有方法对Dataset 1的震害建筑物分类结果对比图。
图7为本发明实施例与现有方法对Dataset 2的震害建筑物分类结果对比图。
图8为本发明实施例与现有方法对Dataset 3的震害建筑物分类结果对比图。
图9为本发明实施例与现有方法对Dataset 4的震害建筑物分类结果对比图。
图10为Dataset 1~4震害建筑物分类的参考图。
图11为决策树数量与总体精度的关系曲线图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明实施例公开的一种基于决策树与特征优化的遥感影像震害建筑物识别方法,主要包括四个步骤:潜在建筑物集合提取、随机森林决策树颗数自适应选择、特征重要度指引下的特征集合优化及基于优化随机森林模型的影像分类。具体实现流程如图1所示,下面对各步骤进行详细说明:
(1)潜在建筑物集合提取
(1.1)初始对象集合提取
首先通过影像分割将离散像素划分为具有语义信息的地理对象集合,从而为后续震害建筑物识别提供有效的基本分析单元。为此,本发明采用高分辨率遥感影像分割算法WJSEG,其优势在于:与广泛采用的著名商业软件eCognition相比,WJSEG保持包括建筑物在内的地理对象的轮廓更加完整,且不存在狭长的“虚假单元”,同时有助于提高所提出算法的透明度。
WJSEG的具体实现流程可参见文献[Wang C et al.,“A novel multi-scalesegmentation algorithm for high resolution remote sensing images based onwavelet transform and improved JSEG algorithm,”Optik-International Journalfor Light and Electron Optics.125(19),5588-5595(2014).],分割参数的设定均采用原文的建议值。经过影像分割后所提取的初始对象集合本发明采用Rorigin表示。
(1.2)非建筑物对象筛选
在Rorigin基础上,本发明设计了一组基于几何形态学特征的非建筑物对象筛选规则集合,以剔除与建筑物有明显差异的对象,从而在减少计算量的同时避免此类地物在后续处理中产生误检。对于Rorigin中的任意对象Rb,具体筛选规则如下:
(1)面积规则。统计Rb所包含的像素个数Npixels,若Npixels≤80,则认为Rb为车辆、噪声等弱小目标,予以剔除;
(2)矩形度规则。矩形度是衡量一个对象与其最小外接矩形充满程度的参数,通过计算Rb的最小外接矩形所包含的像素个数Nrectangle,矩形度可表示为Rd=Npixels/Nrectangle。令Rb的最小外接矩形的长宽比为Ar。若Rb满足Rd<0.8且Ar>5,则认为该对象为道路、河道等狭长目标,予以剔除。
(3)形态学建筑物指数(MBI,Morphological Building Index)规则。MBI利用了属于建筑物的像素在高帽变换后的灰度影像中多具有高亮特征的特点,通过计算多尺度差分序列获得某像素对应的指标值[Huang X,Zhang L.A Multidirectional and MultiscaleMorphological Index for Automatic Building Extraction from MultispectralGeoEye-1 Imagery[J].Photogrammetric Engineering&Remote Sensing,2011,77(7):721-732.]。当MBI值越大时,该像素属于建筑物的可能性越高,计算公式如下:
Figure GDA0002790511810000071
其中,D和S分别代表线性结构元素的方向和尺度;DMP(d,s)为多尺度差分形态学特征值,依据文献[付乾坤,吴波,汪小钦,et al.基于形态学建筑物指数的城市建筑物提取及其高度估算[J].遥感技术与应用,2015,Issue(1).]的建议,本文设定D=8,S=50,d的取值范围为1到8且间隔为1,s的取值范围为1到50且间隔为1。基于影像中所有像素的MBI值,利用最大类间方差法(Otsu)自适应确定分离阈值TMBI,从而获得Rb内属于非建筑物像素的比例Ratiofalse,若满足Ratiofalse>0.8,则剔除该对象。
根据规则(1)~(3)遍历Rorigin中所有对象,被剔除的非建筑物对象将不再参与后续的分析和判别。剩余对象将构成潜在建筑物集合RBLD,用于进一步的震害建筑物识别。
(2)随机森林决策树颗数自适应选择
基于机器学习的高分辨率遥感影像震害建筑物识别本质上是通过对震后影像的特征提取,将目标识别问题转化为影像分类为题。本发明采用的随机森林分类器是以无剪枝决策树为基分类器的一种集成算法,相较于其他机器学习算法具有精度高、泛化能力强、参数少等优势。其中,随机森林中的决策树颗数I是一个显著影响分类精度的关键参数。通常情况下,随着决策树颗数的不断增加,分类精度会随之逐渐上升直至稳定于某一常数。此时,若继续增加决策树颗数,不仅会无谓增加计算量,甚至可能导致分类精度的降低。为此,本发明提出了一种基于分类正确率曲线波动趋势判别的决策树数量自适应确定策略,主要包括以下五个步骤:
Step1:在潜在建筑物对象集合RBLD中,采用人工标记的方式提取20个完好建筑物、20个震害建筑物、20个废墟和20个非建筑物样本,构成训练样本集H。
Step2:确定初始建筑物震害特征集合F。本发明选择包括光谱、纹理和几何形态学在内的30种震害建筑物识别领域的常用特征构建初始建筑物震害特征集合F[Ximeng C,Zhanfeng S,Tingyan X,et al.Damaged building extraction and rapid assessmentfor earthquake disasters based on high-resolution remote sensing images[J].Journal of Natural Disasters,2016.//李强[1,2],焦其松[2],et al.基于地面激光雷达技术点云的北川县城震害建筑物提取研究[J].科学技术与工程,2016,16(19):244-249.//Qihao C,Yuliang N,Linlin L I,et al.Buildings damage assessment usingtexture features of polarization decomposition components[J].Journal ofRemote Sensing,2017.]。其中,光谱特征包括R波段均值、G波段均值、B波段均值、R波段标准差、G波段标准差、B波段标准差、R波段贡献率、G波段贡献率、B波段贡献率、亮度;几何形态学特征包括Area(区域面积)、MajorAxisLength(与区域具有相同标准二阶中心矩的椭圆的长轴长度)、Eccentricity(与区域具有相同标准二阶中心矩的椭圆的离心率)、Orientation(与区域具有相同标准二阶中心矩的椭圆的长轴与x轴的交角)、MinorAxisLength(与区域具有相同标准二阶中心矩的椭圆的短轴长度)、Extent(同时在区域和其最小边界矩形中的像素比例)、Perimeter(区域的周长)、ConvexArea(填充区域凸多边形图像中用于填充空洞的所有像素的个数)、EquivDiameter(与区域具有相同面积的圆的直径)、Solidity(同时在区域和其最小凸多边形中的像素比例);纹理特征包括灰度共生矩阵对比度、同质性、相关性、熵、Jvalue、Roberts算子、Sobel算子、Prewitt算子、Laplacian算子、Canny算子。
Step3:以5棵决策树构建初始随机森林模型,输入包含30种特征的训练样本集H。定义分类正确率为每棵树的分类正确的样本数与输入的样本数的比值,比值越大说明分类结果与真实情况越接近。计算每棵树的分类正确率Ttree1~Ttree5。,并求所有决策树的正确率均值
Figure GDA0002790511810000081
其中i表示决策树的序号;
Step4:以5棵树为步长,迭代增加决策树后构建新的随机森林模型。采用与Step3相同的步骤,获得迭代次数为n时的正确率均值
Figure GDA0002790511810000091
Step5:若某Accn满足Accn-1<Accn且Accn>Accn+1,则认为Accn是一个包含10颗决策树的子区间内的峰值点,记Accopt0=Accn
Step6:继续计算Accn后连续出现的3个峰值点,分别计为Accopt1、Accopt2、Accopt3。若满足:
Accopt0≥argmax{Accopt1,Accopt2,Accopt3} (2)
则记Accopt0对应的决策树颗数为Iopt0。否则,进入下一步;
Step7:在n∈[1,99]区间内,重复Step5和Step6,n为迭代次数,直到取得满足公式(2)的Accopt0,停止迭代并提取Iopt0。若在n∈[1,99]内无法确定Accopt0,则记已经获得的Accn最大值对应的决策树颗数为Iopt0
Step8:继续比较Iopt0与其前、后相邻的4棵数(共9种模型)的分类正确率,根据分类正确率最大值确定最终提取的优化决策树棵数Iopt
(3)特征重要度指引下的特征集合优化
在对随机森林的决策树颗数进行的优化选择基础上,为进一步减少候选特征集合F中特征间的冗余和证据冲突,本发明定义了一种特征的重要度指标,进而提出了特征集合优化策略:在包含Iopt颗决策树的随机森林模型中,首先计算所有特征的重要度,再分别求取光谱、纹理和几何形态学三类特征的类间重要度,再分别对三类特征中包含的子特征进行类内重要度排序,最后在重要度指引下获得优化后的震害建筑物分类特征集合。具体步骤如下:
Step1:计算所有特征的重要度。在训练样本集H中,经过有放回的随机采样(bootsrap)后未被选中的样本组成袋外数据集(out-of-bag,OOB)。任意特征ft(ft∈F,t∈[1,30])对于第i单棵决策树的重要度由公式(3)计算得到:
Figure GDA0002790511810000101
式中ΦB表示OOB样本集合,xj和lj分别表示袋外数据中任意样本与其被赋予的类别标签,cj (i)表示样本xj所获得的类别标签,
Figure GDA0002790511810000102
表示将特征ft的值替换为其他随机值后样本xj所得的类别标签,N(·)为计数函数。遍历所有决策树,可求得特征ft对于随机森林分类器的重要度
Figure GDA0002790511810000103
Step2:计算特征的类间重要度。由于F中的特征分别归属于光谱、纹理和几何形态学(下文中分别用下标L,T,G表示)三类,因此根据每个ft的重要度W(ft)及其所属的类别分别求和,可得到光谱、纹理和几何形态学三类特征的类间重要度,分别记为WL,WT和WG。在此基础上,定义光谱特征的类间冗余归一化惩罚因子为
Figure GDA0002790511810000104
以此类推,可得到纹理、几何形态学特征的类间冗余归一化惩罚因子分别为
Figure GDA0002790511810000105
Figure GDA0002790511810000106
Step3:特征的类内重要度排序。将30种特征分别按照其所属的光谱、纹理或几何形态学分为三类特征子集,分别仅采用这三类特征子集单独进行模型训练,采用Step1的步骤计算特征重要度。在此基础上,对各个特征子集内的特征按照重要度从高到低排列从而得到类内重要度排序。
Step4:对各个特征子集,依据冗余归一化惩罚因子的比例取整后,分别仅保留类内重要度相对较高的vL,vT和vG个特征,从而获得共包含V=vL+vT+vG维特征的优化特征集合Fopt
Figure GDA0002790511810000107
其中Fopt是提取的特征集合;δ,β,γ分别代表按各自类内重要度排序并抽取后的三大类特征。若加权后的抽取个数大于某类特征总数,则取该类全部特征作为分类特征。
(4)基于优化随机森林模型的影像分类
基于所提取的Fopt及Iopt,构建优化随机森林模型如下:
Figure GDA0002790511810000111
式中,P(x)表示分类结果;pi(x)表示单棵决策树的分类结果;x为样本;c表示分类标签,c∈{Undamaged Building,Damage Building,Ruin,The Others},分别对应完好建筑物、震害建筑物、废墟和其他;E(·)为示性函数,即当结果为Undamaged Building时,取值为1,Damage Building、Ruin、The Others依次为2,3,4。此基础上,根据每棵决策树给出的分类标签进行投票表决,以票数多作为该判别样本最终分类标签的标准。若属于某几类的投票结果出现平局情况,则根据公式(6)判断该样本与此几类训练样本之间的距离Dist,取Dist较小的类别作为该样本的最终分类结果。
Figure GDA0002790511810000112
式中,xtest(v)和xtrain(v)分别为测试样本和训练样本中第v个特征的值;
Figure GDA0002790511810000113
是第v个特征的方差。
为了说明本发明的有益效果,实验采用四组不同地区、不同传感器的震后高分辨率遥感影像,通过目视分析和定量精度评价,并与多种先进的震害建筑物识别方法进行了对比,验证了所提出方法的性能。
实验数据:Dataset 1和Dataset 2为中国青海省玉树地区的GE01卫星遥感影像,采集时间为2010年5月6日。地震发生时间为2010年4月4日,地震最高震级为7.1级。影像包括全色波段和多光谱(蓝、绿、红、近红外)波段,空间分辨率分别为0.41m和1.65m,尺寸为1024×1024像素。实验采用ENVI软件融合后的空间分辨率为0.41m的pan-sharpened RGB影像。如图2(a),(b)所示。Dataset 3和Dataset 4为中国四川省汶川地区的QuickBird卫星遥感影像,采集时间为2008年6月3日。地震发生时间2018年5月12日,地震最高震级为8.0级。影像包括全色波段和多光谱(蓝、绿、红、近红外4个波段)波段,空间分辨率分别为0.6m和2.4m。实验采用ENVI软件融合后的空间分辨率为0.6m的pan-sharpened RGB影像,如图2(c),(d)所示
采用WJSEG方法对影像进行分割,所获得的联通区域构成初始对象集合Rorigin。为便于观察,首先在原始影像中叠加一个半透明白色图层,再将分割结果用黑色像素表示并投影到原始影像中,如图3所示。
由图可以看出,分割结果较为完整地提取了完好建筑物与震害建筑物,且几乎不存在欠分割现象;过分割现象则主要存在于大尺寸的河道,草地区域中,并非本研究的感兴趣对象Region of Interesting(ROI)。因此,所提取的初始对象集合可为后续建筑物震害识别提供有效的分析基元。
根据前述规则集合对影像非建筑物对象进行筛选,结果如图4所示。其中,被剔除的非建筑物对象用黑色像素表示,剩余白色对象构成潜在建筑物集合RBLD。同时,为便于分析,本研究采用字母符号(alphabetic symbol)对影像中的一些位置和对象进行了标注,后续内容中也采用了同样的方式。
如图4所示,Dataset 1和Dataset 2中狭长的道路(如位置A、C),Dataset1中面积较小的帐篷(如位置B),Dataset3和Dataset4中的河道(如位置G、E),以及Dataset4中大面积的植被区域(如位置F)均得到了有效剔除。尽管如此,仍有一些非建筑物对象没有被剔除,如Dataset2中的裸地(如位置D),Dataset3中的植被、裸地等(如位置H)。因此,所提出的非建筑物筛选策略是可行且有效的,但同时在后续的分类结果中也有必要保留其他地物这一类别。
Dataset 1~Dataset 4所确定的优化决策树棵数分别为131,64,91和63。下文以Dataset 1为例进行详细说明。如图5所示,依据分类正确率曲线波动判别规则,所选定满足条件的峰值点为Iopt0=130。在此基础上,以Iopt0为中心构造一个区间,分别计算Iopt0前后4棵树的分类正确率,并比较区间内9种模型的分类正确率。其中,当决策树颗数为131时分类正确率取得最大值,因此取Iopt=131。
对候选特征集合F进行筛选后,四组实验数据集合对应的优化特征集合如表1所示:
表1特征优化集合
Figure GDA0002790511810000131
为客观分析和验证本发明方法的性能,本发明采用传统随机森林以及两种先进的震害建筑物识别方法进行了对比实验。方法1[Breiman L.Random Forest.MachineLearning,2001,45(1):5-32.]采用传统随机森林方法,其输入特征采用初始建筑物震害特征集合F,决策树棵树为500棵。通过与方法1对比,以分析本发明所提出的特征及决策树颗数优化策略的有效性;方法2采用文献[Dou J,Yunus A P,Tien Bui D,et al.Assessmentof advanced random forest and decision tree algorithms for modeling rainfall-induced landslide susceptibility in the Izu-Oshima Volcanic Island,Japan[J].Science of The Total Environment,2019,662:332-346.]中提出的震害建筑物识别方法。此方法采用十折交叉验证法对训练样本集进行优化选择,再利用传统随机森林进行分类。其中,输入特征为本发明所提取的优化特征集合Fopt,决策树棵树则按照该文献中所使用的500棵。通过与方法2对比,有助于分析本发明方法自适应提取的决策树颗数对提高识别精度的作用。方法3采用文献[王之,刘超,刘秀菊,et al.基于SEaTH算法的芦山地震无人机低空遥感影像信息对象级分类[J].地震研究,2018,v.41;No.186(02):19-25+189.]中提出的震害建筑物识别方法。该方法利用改进的SEaTH算法进行了特征优化,再采用隶属度分类法对影像进行分类。由于方法3同样从特征优化角度出发,同时采用了不同的分类器,因此通过与该方法对比有助于客观评价所提出方法的总体精度。
实验中,由于方法2属于像素级分类方法,难以直接与本发明对象级分类方法结果进行比较,因此直接利用本发明提取的初始对象集合Rorigin中的对象代替像素作为后续分类的基本单元,其他实现步骤与原文一致;由于方法3为对象级分类方法,为保证分类对象的一致性,同样采用Rorigin中的对象作为震害建筑物识别的基本单元,其他实现步骤均与原文一致。此外,为了避免由于是否进行了非建筑物初筛所导致的震害建筑物识别结果差异,四种对比方法均在本发明所提取的潜在建筑物集合RBLD基础上进行特征提取和分类。此外,实验结果将建筑物划分为完好建筑物、震害建筑物、废墟和其他四类,并分别用不同颜色进行表示。本发明方法和三种对比方法的震害建筑物识别结果如图6~图9所示。
为了开展对实验结果的精度评价,本发明依据目视解译和实地考察绘制了四组数据的参考map,并以此作为后续精度评价的依据,如图10所示。
目视分析:通过将实验结果图和参考图对比,本发明方法对震害建筑物的识别效果优于其他三种对比方法。主要体现在:(1)在四组实验结果中,位于位置I、Q的完好建筑物、位置O的非建筑物、位置R的废墟只有本发明方法正确识别出来,其他方法均出现了漏检或者错检;(2)对于形状、纹理规则的完好建筑物如位置S、W、Z、C*,四种方法都做出了正确的判别结果;但对于Partly damaged building,如位置K、P的只有本发明方法和方法3做出了正确判别,位置L、J只有本发明方法分别和方法2、3做出了正确判别;(3)对于废墟,如位置U、A只有本发明和方法2做出了正确判别;(4)在构建潜在建筑物集合时未被筛掉的,与建筑物有相似光谱、形状特征的非建筑物,如位置V、X只有本发明方法和方法2做出正确判别;对于一些面积较小的对象,如B*、Z只有本发明方法和方法做出正确判别。
定量分析:在目视分析的基础上,本发明采用总体精度(Overall accuracy)、误检率(False positive)、漏检率(False negative)、Kappa系数四个指标进行定量精度评价。本发明方法和三种对比方法的精度评价表分别见表2~表5。
表2 Dataset1震害建筑物识别精度评价表
Figure GDA0002790511810000151
表3 Dataset2震害建筑物识别精度评价表
Figure GDA0002790511810000152
表4 Dataset3震害建筑物识别精度评价表
Figure GDA0002790511810000153
表5 Dataset4震害建筑物识别精度评价表
Figure GDA0002790511810000154
由表2~表5可以看出,本发明方法总体精度能够达到85%以上,且四种精度指标均优于另外三种对比方法,与目视分析结果一致。在数据集1和数据集4实验中,4种对比方法的精度均显著高于其他两组数据集,这主要是由于非建筑物初筛结果不同所导致的,具体体现在:数据集1和数据集4中被筛选掉的非建筑物对象占初始对象集合Rorigin中的比例分别为67.84%和66.6%,显著高于数据集2和数据集3的34.66%和38.35%。这也就意味着,数据集2和数据集3中的精度指标能够更加真实的反映不同方法之间的性能差异。因此,我们重点对这两个数据集的精度指标展开分析和讨论:与方法1对比,所提出方法的总体精度提高了5%以上,从而证明了所提出的特征及决策树颗数优化策略是必要、可行且有效的。方法2采用不仅采用了优化训练样本集合,同时特征集合也与所提出方法一致,但由于决策树颗数均设定为500颗,其总体精度依然低于所提出方法5%以上。这也再次证明了确定合理的决策树颗数对于震害建筑物识别精度的重要作用。本发明方法和方法3都是在分类前对初始特征集合进行了优化,但总体精度低于所提出方法超过8%,这也在一定程度上证明了本发明所构建的优化随机森林模型的合理性和有效性。
决策树数量对总体精度影响分析:为进一步分析决策树数量对总体精度的影响,以及评价本发明所自适应提取的决策树颗数的合理性。本发明依据参考图及所提出方法,在[50,200]区间内以10为间隔,统计四组实验中总体精度与决策树数量的变化曲线,并对对统计获得的最大、最小及平均总体精度及本发明获得的总体精度分别用不同样式的直线表示,如图11所示。
如图所示,决策树数量的变化对总体精度具有显著影响,因此选择合理的决策树颗数是必要的。另一方面,尽管所提取的决策树颗数对应的总体精度均非[50,200]区间内对应的最大值,但差异均小于1%,且远高于平均总体精度。因此,所提出的决策树颗数自适应选择策略是可行且有效的,不仅提高了算法自动化程度,同时取得了理想的分类精度。
特征组合对总体精度影响分析
除决策树棵树外,本发明进一步分析了不同类别特征及特征组合对震害建筑物检测精度的影响。在初始建筑物震害特征集合F中,依据特征所属类别不同,统计获得的总体精度如表6所示。
表6不同特征及特征组合所获得的总体精度
Figure GDA0002790511810000171
如上表所示,本发明所提取的特征集合效果最好。在单独使用光谱、几何形态、纹理特征进行分类时,光谱特征的总体精度明显高于另外两种特征,其原因在于震害建筑物的几何形态和纹理特征均遭到破坏,增加了分类的不确定性,而光谱特征不易发生大的改变因此在震害建筑物识别这一特定应用领域中更加可靠。而采用三大类特征所取得的总体精度甚至低于单独采用光谱特征对应的总体精度,其原因就在于存在特征冗余和证据冲突,而本发明所给出的特征集合优策略给出了一种有效的解决方案。
综上,在震前参考信息缺乏前提下,本发明提出了一种基于决策树与特征优化的震害建筑物识别方法。在对不同地区、不同传感器的多组震后高分辨率遥感影像的开展的实验中,其总体精度均可达到85%以上,且误检率小于6%,可为震后应急响应及灾后重建提供关键而可靠的决策支持信息。其理论主要贡献在于,(1)提出的基于特征重要性指标的特征集优化策略,为地震破坏建筑特征空间的自动构建提供了可行的解决方案;(2)提出的特征集筛选策略,结合决策树数的自适应提取策略,构建了一种新的高效的地震损伤建筑识别优化RF模型。

Claims (5)

1.一种基于决策树与特征优化的遥感影像震害建筑物识别方法,其特征在于,包括如下步骤:
(1)对卫星遥感影像进行分割提取初始对象集合,并结合几何形态学特征提取潜在的建筑物对象集合;
(2)基于分类正确率曲线波动判别规则自适应确定决策树数量;
(3)在特征重要度指标指引下对光谱、纹理、几何形态学三大类特征进行筛选,获得具有代表性的震害特征集合,进而构建优化的随机森林模型;
(4)根据随机森林判别结果将潜在建筑物对象集合进一步进行分类,识别出震害建筑物;步骤(2)中基于分类正确率曲线波动判别规则自适应确定决策树数量,包括:
(2.1)在潜在的建筑物对象集合中,采用人工标记的方式提取样本,构成训练样本集;
(2.2)确定初始建筑物震害特征集合,包括光谱特征、纹理特征和几何形态学特征;
(2.3)构建初始随机森林模型,输入训练样本集,定义分类正确率为每棵树的分类正确的样本数与输入的样本数的比值,比值越大说明分类结果与真实情况越接近,计算每棵树的分类正确率并求所有决策树的正确率均值;
(2.4)以设定的步长,迭代增加决策树后构建新的随机森林模型,获得迭代次数为n时的正确率均值Accn
(2.5)若某Accn满足Accn-1<Accn且Accn>Accn+1,则认为Accn是一个子区间内的峰值点,记Accopt0=Accn
(2.6)继续计算Accn后连续出现的3个峰值点,分别计为Accopt1、Accopt2、Accopt3,若满足Accopt0≥argmax{Accopt1,Accopt2,Accopt3},则记Accopt0对应的决策树颗数为Iopt0;否则,进入下一步;
(2.7)重复步骤(2.5)和(2.6),直到取得满足
Accopt0≥argmax{Accopt1,Accopt2,Accopt3}的Accopt0,停止迭代并提取Iopt0;若无法确定Accopt0,则记已经获得的Accn最大值对应的决策树颗数为Iopt0
(2.8)继续比较Iopt0与其前、后相邻的N-1棵数的分类正确率,根据分类正确率最大值确定最终提取的优化决策树棵数Iopt,N为步骤(2.4)中设定的步长;
步骤(3)中在特征筛选的方法是:在包含Iopt颗决策树的随机森林模型中,首先计算所有特征的重要度,再分别求取光谱、纹理和几何形态学三类特征的类间重要度,再分别对三类特征中包含的子特征进行类内重要度排序,最后在重要度指引下获得优化后的震害建筑物分类特征集合;其中Iopt为步骤(2)中优化决策树棵数;
任意特征ft对于第i单棵决策树的重要度由下式计算得到:
Figure FDA0002790511800000021
式中ΦB表示OOB样本集合,xj和lj分别表示袋外数据中任意样本与其被赋予的类别标签,cj (i)表示样本xj所获得的类别标签,
Figure FDA0002790511800000022
表示将特征ft的值替换为其他随机值后样本xj所得的类别标签,N(·)为计数函数;特征ft对于随机森林分类器的重要度
Figure FDA0002790511800000023
2.根据权利要求1所述的基于决策树与特征优化的遥感影像震害建筑物识别方法,其特征在于,步骤(1)中采用高分辨率遥感影像分割算法WJSEG提取遥感影像的初始对象集合。
3.根据权利要求1所述的基于决策树与特征优化的遥感影像震害建筑物识别方法,其特征在于,步骤(1)中结合几何形态学特征提取潜在的建筑物对象集合的具体规则包括面积规则、矩形度规则和MBI规则;所述面积规则是根据对象所包含的像素个数确定是否剔除,若像素个数不超过设定的阈值,则剔除;所述矩形度规则是根据对象所包含的像素个数与最小外接矩形所包含的像素个数的比值和最小外接矩形的长宽比确定是否剔除,若比值小于设定的阈值且长宽比大于设定的阈值,则剔除;所述MBI规则是基于影像中所有像素的MBI值利用最大类间方差法自适应确定分离阈值,获得对象内属于非建筑物像素的比例,若比例大于设定的阈值则剔除对象。
4.根据权利要求1所述的基于决策树与特征优化的遥感影像震害建筑物识别方法,其特征在于,将光谱、纹理和几何形态学三类特征的重要度分别求和得到三类特征的类间重要度,分别记为WL,WT和WG,并分别计算类间冗余归一化惩罚因子;对各个特征子集内的特征按照类内重要度从高到低排列;对各个特征子集,依据冗余归一化惩罚因子的比例取整后,分别仅保留类内重要度相对较高的vL,vT和vG个特征,从而获得共包含V=vL+vT+vG维特征的优化特征集合Fopt
5.根据权利要求1所述的基于决策树与特征优化的遥感影像震害建筑物识别方法,其特征在于,步骤(3)中基于提取的优化决策树棵数Iopt及优化特征集合Fopt,构建的优化随机森林模型如下:
Figure FDA0002790511800000031
式中,P(x)表示分类结果;pi(x)表示第i单棵决策树的分类结果;c表示分类标签,c∈{Undamaged Building,Damage Building,Ruin,The Others}。
CN202010009179.2A 2020-01-06 2020-01-06 基于决策树与特征优化的遥感影像震害建筑物识别方法 Active CN111191628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010009179.2A CN111191628B (zh) 2020-01-06 2020-01-06 基于决策树与特征优化的遥感影像震害建筑物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010009179.2A CN111191628B (zh) 2020-01-06 2020-01-06 基于决策树与特征优化的遥感影像震害建筑物识别方法

Publications (2)

Publication Number Publication Date
CN111191628A CN111191628A (zh) 2020-05-22
CN111191628B true CN111191628B (zh) 2021-01-26

Family

ID=70708790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010009179.2A Active CN111191628B (zh) 2020-01-06 2020-01-06 基于决策树与特征优化的遥感影像震害建筑物识别方法

Country Status (1)

Country Link
CN (1) CN111191628B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723711A (zh) * 2020-06-10 2020-09-29 内蒙古农业大学 基于Pléiades和面向对象的地膜信息提取方法及系统
CN111985355B (zh) * 2020-08-01 2022-09-27 桂林理工大学 基于深度学习和云计算的遥感建筑物震害评估方法和系统
CN112052756B (zh) * 2020-08-24 2023-08-01 南京信息工程大学 一种震后高分遥感影像震害建筑物检测方法
CN112529075A (zh) * 2020-12-10 2021-03-19 重庆大学 一种利用楼宇外立面对建筑物进行分类的方法
CN113033674A (zh) * 2021-03-25 2021-06-25 安徽理工大学 一种贝叶斯优化随机森林算法的苹果多光谱图像无损检测方法
CN115170979B (zh) * 2022-06-30 2023-02-24 国家能源投资集团有限责任公司 一种多源数据融合的矿区精细用地分类方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125114A1 (en) * 2002-12-31 2004-07-01 Hauke Schmidt Multiresolution image synthesis for navigation
US8306942B2 (en) * 2008-05-06 2012-11-06 Lawrence Livermore National Security, Llc Discriminant forest classification method and system
CN101599120B (zh) * 2009-07-07 2012-01-25 华中科技大学 一种遥感影像建筑物识别方法
US9207318B2 (en) * 2011-06-20 2015-12-08 California Institute Of Technology Damage proxy map from interferometric synthetic aperture radar coherence
CN103500344B (zh) * 2013-09-02 2017-02-08 中国测绘科学研究院 一种遥感影像信息提取与解译方法及其模块
CN103578110B (zh) * 2013-11-12 2016-06-08 河海大学 基于灰度共生矩阵的多波段高分辨率遥感影像分割方法
CN105469098B (zh) * 2015-11-20 2018-10-12 中北大学 一种自适应特征权重合成的lidar数据地物精确分类方法
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
CN106845559B (zh) * 2017-02-28 2019-09-24 山东师范大学 顾及poi数据空间异质性的地表覆盖验证方法及系统
CN107862667B (zh) * 2017-11-23 2019-12-24 武汉大学 一种基于高分辨率遥感影像的城市阴影检测与去除方法
CN108629287A (zh) * 2018-04-09 2018-10-09 华南农业大学 一种遥感影像地物分类方法
CN110123317A (zh) * 2019-04-28 2019-08-16 华东交通大学 融合人工鱼群和随机森林算法的膝关节接触力计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于面向对象的高分辨率遥感建筑物震害信息提取与评估;赵妍 等;《地震学报》;20161130;第38卷(第6期);第942-951页 *

Also Published As

Publication number Publication date
CN111191628A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191628B (zh) 基于决策树与特征优化的遥感影像震害建筑物识别方法
Huang et al. A multidirectional and multiscale morphological index for automatic building extraction from multispectral GeoEye-1 imagery
CN101840581B (zh) 一种从卫星遥感影像中提取建筑物轮廓的方法
CN102496034B (zh) 基于直线单词的高空间分辨率遥感图像词袋分类方法
CN110309781B (zh) 基于多尺度光谱纹理自适应融合的房屋损毁遥感识别方法
CN112101159B (zh) 多时相林业遥感影像变化监测方法
CN103077515B (zh) 一种多光谱图像建筑物变化检测方法
CN110569751B (zh) 一种高分遥感影像建筑物提取方法
CN104182763A (zh) 一种基于花朵特征的植物种类识别系统
Xu et al. Leaf instance segmentation and counting based on deep object detection and segmentation networks
CN105427309A (zh) 面向对象高空间分辨率遥感信息提取的多尺度分层处理方法
CN112396619B (zh) 一种基于语义分割的内部复杂组成的小型颗粒分割方法
CN104850822B (zh) 基于多特征融合的简单背景下的叶片识别方法
CN102542293A (zh) 一种针对高分辨率sar图像场景解译的一类提取分类方法
CN107992856A (zh) 城市场景下的高分遥感建筑物阴影检测方法
CN116091937A (zh) 基于深度学习的高分辨率遥感影像地物识别模型计算方法
CN111738052A (zh) 基于深度学习的多特征融合高光谱遥感地物分类方法
CN115019163A (zh) 基于多源大数据的城市要素识别方法
Aahlaad et al. An object-based image analysis of worldview-3 image for urban flood vulnerability assessment and dissemination through ESRI story maps
CN1252588C (zh) 高光谱遥感图像联合加权随机分类方法
CN111882573B (zh) 一种基于高分辨率影像数据的耕地地块提取方法及系统
CN110929739B (zh) 一种自动化的不透水面范围遥感迭代提取方法
Engstrom et al. Evaluating the Relationship between Contextual Features Derived from Very High Spatial Resolution Imagery and Urban Attributes: A Case Study in Sri Lanka
Avci et al. A comparison of pixel-based and object-based classification methods, a case study: Istanbul, Turkey
CN115512159A (zh) 面向对象的高分辨率遥感影像地表覆盖分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant