CN115564989A - 面向土地利用分类的随机森林算法 - Google Patents

面向土地利用分类的随机森林算法 Download PDF

Info

Publication number
CN115564989A
CN115564989A CN202211150667.0A CN202211150667A CN115564989A CN 115564989 A CN115564989 A CN 115564989A CN 202211150667 A CN202211150667 A CN 202211150667A CN 115564989 A CN115564989 A CN 115564989A
Authority
CN
China
Prior art keywords
classification
samples
training
random forest
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211150667.0A
Other languages
English (en)
Inventor
魏洁茹
韩林
商建东
聂凯
李晓
赵香菊
王芷晓
赵蓓
李新钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202211150667.0A priority Critical patent/CN115564989A/zh
Publication of CN115564989A publication Critical patent/CN115564989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及土地利用分类技术领域,公开了面向土地利用分类的随机森林算法,本发明通过设置制作训练集、组成测试样本集、对训练集进行K折划分、根据影像数据和研究区域特性,确定决策树数量k和特征属性数n的范围,建立网格、抽取样本、将多次计算所有树在剩余1份训练样本时的预测效果、导入测试数据集,使用精度评价模型计算最优参数组合的精度等步骤的设置,使得该算法实现了自适应参数调优的随机森林算法,达到了提高土地利用分类精度的目的。并且该算法具有较好的准确率和运算效率,随机森林算法为了降低过拟合的风险性,使用平均决策树方法。同时随机森林具有良好的稳定性,不会受到个别决策树结果的影响。

Description

面向土地利用分类的随机森林算法
技术领域
本发明涉及土地利用技术领域,具体为面向土地利用分类的随机森林算法。
背景技术
近年来,遥感影像已经成为获取土地利用信息的重要手段之一,分类技术的研究也成为当前遥感技术研究的热点。随着社会经济的快速发展,土地利用也在发生着日新月异的变化,其变化范围广、速度快。现代社会的经济发展和城市化引发了土地利用覆盖变化。利用遥感影像进行精准的地物分类是研究土地利用覆盖变化的基础,土地利用分类技术经过多年的积累而日趋完善,遥感影像分类的传统方法分为监督分类与非监督分类。常用的方法包括:最大似然估计、BP神经网络、CART决策树、支持向量机(SVM)算法和随机森林等。
目前随机森林是进行土地利用分类最常用的方法。由于随机森林算法是由多个回归决策树组合而成的分类算法,因此在分类过程中,参数会影响随机森林的分类结果精度。其中对分类结果最具有影响的参数是决策树的数量和构建决策树最优模型的最大特征数。现有的方法在不同数据与不同条件的观测场景下各有各的优势。但是在进行影像分类时要综合考虑研究区状况和影像特征等因素并且灵活运用多种不同的方法,才能达到更好的分类结果,导致操作繁琐并且分类结果精度不高。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了面向土地利用分类的随机森林算法,具备相比于未优化的随机森林算法、决策树算法以及支持向量机算法的分类结果进行对比,参数优化后的随机森林算法具有更好的分类精度等优点,解决了背景技术中提出的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
本发明要解决的另一技术问题是提供面向土地利用分类的随机森林算法,包括以下步骤:
1)制作训练集:首先通过目视解译,选择一定数量具有代表性的像元,来组成总训练样本集,总样本集中样本数量为w。利用自举重采样方法,随机产生训练集。
2)组成测试样本集:先创建分裂属性集,在训练样本集合中选取一定影像特征作为分类依据,即分类属性,利用每个训练集,生成对应的决策树用于分类;在每个非叶子节点(内部节点)上选择属性前,从所有属性中随机抽取一定量属性作为当前决策树的分裂属性集;然后将影像的所有像元作为测试样本,组成测试样本集。
3)对训练集进行K折划分:将数据集随机平均划分为K个互斥子集,进行K轮的模型训练和评价,每一轮取K-1份用作训练集,1份作为测试集,来训练和评估模型,根据K次迭代所得到的均方根误差的平均值估计期望泛化误差,最终选择最小的平均值所对应的参数组合为最优。
4)根据影像数据和研究区域特性,确定决策树数量k和特征属性数n的范围,以k和n为坐标系建立二维网格,网格的交叉节点就是对应的k和n的参数组合。
5)任意选取训练集中的K-1份数据,选取网格搜索交叉点的1组参数.从K-1份数据中有放回地随机抽取个数为样本总数的数据作为1棵决策树的样本。
6)计算所有树在剩余1份训练样本时的预测效果。
7)重复步骤3)、4),直到遍历完K-1份训练样本的预测效果。
8)遍历网格交叉点所有的参数组合,重复3)至5)步骤,选出最优参数组合。
9)导入测试数据集,使用精度评价模型计算最优参数组合的精度:采取总体精度和Kappa系数两种评价指标对分类结果进行精度评估:总体精度定义为正确进行了类别划分的像元占总像元数的百分比,公式为:
Figure BDA0003856240300000031
Kappa系数通过离散的多元分析方法,克服了混淆矩阵依赖样本和采样方法的问题,公式为:
Figure BDA0003856240300000032
以上式子中,n是混淆矩阵中的总列数,即总的类别数;Pii表示混淆矩阵中第i行、第i列上样本数量,即正确分类的样本数量:
Figure BDA0003856240300000033
Figure BDA0003856240300000034
分别表示第i列、第j列的总样本数量;N表示总的样本数量。
优选的,步骤一中制作训练集时采用有放回的方式会使新训练集中有重复的样本,因此在概率上,新训练集中仅包含了原训练集63.2%的样本。
优选的,步骤二中对于每个节点都要遍历所有可以用的分类方法后,若能提供最小的基尼指数就被选择作为此节点处分裂的标准,对该节点进行分裂,然后利用每个决策树对各个像元进行分类得到对应的类别。
(三)有益效果
与现有技术相比,本发明提供了面向土地利用分类的随机森林算法,具备以下有益效果:
1、该面向土地利用分类的随机森林算法,通过基于GridSearchCV对随机森林算法进行改进,实现了自适应参数调优的随机森林算法,达到了提高土地利用分类精度的目的。将参数调优后的随机森林算法应用到城市的土地利用分类中,并利用混淆矩阵对分类结果进行评估,从而实现遥感影像的土地利用分类结果精度的提升,并且该算法具有较好的准确率和运算效率,可以检验分类过程中各个特征属性对分类结果的重要性。随机森林算法为了降低过拟合的风险性,使用平均决策树方法。同时随机森林具有良好的稳定性,不会受到个别决策树结果的影响。
附图说明
图1为本发明采用采取决策树算法对郑州市土地利用分类结果图;
图2为本发明采用采取支持向量机算法对郑州市土地利用分类结果图;
图3为本发明采用采取随机森林算法对郑州市土地利用分类结果图;
图4为本发明采用采取优化的随机森林算法对郑州市土地利用分类结果图;
图5为本发明分类结果精度进行分析图。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:以郑州市为实验区域。郑州是中国河南省省会,地处河南省中北部,黄河中、下游分界处。位于东经112°42′—114°14′,北纬34°16′—34°58′之间。郑州市总面积约为7567km2,东西距离为138.6km,南北距离为78.6km,然后选取2020年的Landsat-5TM和Landsat-8OLI影像提取土地利用类型,结合郑州市的土地资源现状Error!Referencesource not found.,以及遥感影像的可判读性和空间分辨率,将郑州市的土地利用类型重新划分,如下表所示:
Figure BDA0003856240300000051
第一步:采取分层抽样的方法进行样本点的选取,样本结果如下表:
Figure BDA0003856240300000052
第二步:提取研究区影像的分类特征,包括多光谱波段、3种光谱指数、基于灰度共生矩阵的纹理均值。
第三步:采取决策树算法:使用决策树分类方法对2020年份的影像数据进行土地利用分类,最终得到了2020年的郑州市土地利用分类结果,如下图1所示;
然后获取分类结果的混淆矩阵根据公式
Figure BDA0003856240300000053
Figure BDA0003856240300000054
计算分类结果的总体精度为0.8708,Kappa系数为0.832。
实施例二:以郑州市为实验区域。郑州是中国河南省省会,地处河南省中北部,黄河中、下游分界处。位于东经112°42′—114°14′,北纬34°16′—34°58′之间。郑州市总面积约为7567km2,东西距离为138.6km,南北距离为78.6km,然后选取2020年的Landsat-5TM和Landsat-8OLI影像提取土地利用类型,结合郑州市的土地资源现状Error!Referencesource not found.,以及遥感影像的可判读性和空间分辨率,将郑州市的土地利用类型重新划分,如下表所示:
Figure BDA0003856240300000061
第一步:采取分层抽样的方法进行样本点的选取,样本结果如下表:
Figure BDA0003856240300000062
第二步:提取研究区影像的分类特征,包括多光谱波段、3种光谱指数、基于灰度共生矩阵的纹理均值。
第三步:采用支持向量机算法:使用持向量机分类方法对2020年份的影像数据进行土地利用分类,最终得到了2020年的郑州市土地利用分类结果,如下图2所示;
然后获取分类结果的混淆矩阵根据公式
Figure BDA0003856240300000063
Figure BDA0003856240300000064
计算分类结果的总体精度为0.8705,Kappa系数为0.8285。
实施例三:以郑州市为实验区域。郑州是中国河南省省会,地处河南省中北部,黄河中、下游分界处。位于东经112°42′—114°14′,北纬34°16′—34°58′之间。郑州市总面积约为7567km2,东西距离为138.6km,南北距离为78.6km,然后选取2020年的Landsat-5TM和Landsat-8OLI影像提取土地利用类型,结合郑州市的土地资源现状Error!Referencesource not found.,以及遥感影像的可判读性和空间分辨率,将郑州市的土地利用类型重新划分,如下表所示:
Figure BDA0003856240300000071
第一步:采取分层抽样的方法进行样本点的选取,样本结果如下表:
Figure BDA0003856240300000072
第二步:提取研究区影像的分类特征,包括多光谱波段、3种光谱指数、基于灰度共生矩阵的纹理均值。
第三步:采取随机森林算法:使用随机森林分类方法对2020年份的影像数据进行土地利用分类,最终得到了2020年的郑州市土地利用分类结果,如下图3所示;
然后获取分类结果的混淆矩阵根据公式
Figure BDA0003856240300000073
Figure BDA0003856240300000074
计算分类结果的总体精度为0.9159,Kappa系数为0.8868。
实验例:以2020年的影像为例,将决策树数量从50至500以步长为50取值,特征属性数从1至20以步长为1取值,找到两个参数的最优组合(k,n),通过优化后的随机森林算法进行实验,通过优化后的随机森林算法进行实验,得到最优参数组合(100,5)结果表明当决策树数量为100,最大特征数为5时,分类精度最高,然后使用随机森林算法,最终得到了2020年的郑州市土地利用分类结果,如下图4所示;
其获取分类结果的混淆矩阵根据公式
Figure BDA0003856240300000081
Figure BDA0003856240300000082
计算分类结果的总体精度为0.9362,Kappa系数为0.9141。
判断标准:将参数优化后的随机森林算法分类结果精度与未优化随机森林算法、决策树算法以及支持向量机算法的分类结果精度进行对比分析,如下图5所示;
从图表中我们可以得知决策树算法的总体精度为0.8708,Kappa系数为0.832;支持向量机算法的总体精度为0.8705,Kappa系数为0.8285;未优化的随机森林算法的总体精度为0.9159,Kappa系数为0.8868;优化后的随机森林算法的总体精度为0.9362,Kappa系数为0.9141。在总体精度上排序为:优化后的RF>未优化的RF>CART>SVM;在Kappa系数上的排序为:优化后的RF>未优化的RF>CART>SVM。
本发明的有益效果是:基于GridSearchCV对随机森林算法进行改进,实现了自适应参数调优的随机森林算法。使用该方法对城市各目标年份遥感影像进行土地利用分类,分类结果的总体精度均在0.90以上,Kappa系数均大于0.86。从对郑州市土地利用分类结果可以看出,在分类精度和稳定性上,该方法比未优化的随机森林算法、决策树算法以及支持向量机算法具有一定的优势。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.面向土地利用分类的随机森林算法,其特征在于:包括以下步骤:
1)制作训练集:首先通过目视解译,选择一定数量具有代表性的像元,来组成总训练样本集,总样本集中样本数量为w。利用自举重采样方法,随机产生训练集。
2)组成测试样本集:先创建分裂属性集,在训练样本集合中选取一定影像特征作为分类依据,即分类属性,利用每个训练集,生成对应的决策树用于分类;在每个非叶子节点(内部节点)上选择属性前,从所有属性中随机抽取一定量属性作为当前决策树的分裂属性集;然后将影像的所有像元作为测试样本,组成测试样本集。
3)对训练集进行K折划分:将数据集随机平均划分为K个互斥子集,进行K轮的模型训练和评价,每一轮取K-1份用作训练集,1份作为测试集,来训练和评估模型,根据K次迭代所得到的均方根误差的平均值估计期望泛化误差,最终选择最小的平均值所对应的参数组合为最优。
4)根据影像数据和研究区域特性,确定决策树数量k和特征属性数n的范围,以k和n为坐标系建立二维网格,网格的交叉节点就是对应的k和n的参数组合。
5)任意选取训练集中的K-1份数据,选取网格搜索交叉点的1组参数.从K-1份数据中有放回地随机抽取个数为样本总数的数据作为1棵决策树的样本。
6)计算所有树在剩余1份训练样本时的预测效果。
7)重复步骤3)、4),直到遍历完K-1份训练样本的预测效果。
8)遍历网格交叉点所有的参数组合,重复3)至5)步骤,选出最优参数组合。
9)导入测试数据集,使用精度评价模型计算最优参数组合的精度:采取总体精度和Kappa系数两种评价指标对分类结果进行精度评估:总体精度定义为正确进行了类别划分的像元占总像元数的百分比,公式为:
Figure FDA0003856240290000021
Kappa系数通过离散的多元分析方法,克服了混淆矩阵依赖样本和采样方法的问题,公式为:
Figure FDA0003856240290000022
以上式子中,n是混淆矩阵中的总列数,即总的类别数;Pii表示混淆矩阵中第i行、第i列上样本数量,即正确分类的样本数量:
Figure FDA0003856240290000023
Figure FDA0003856240290000024
分别表示第i列、第j列的总样本数量;N表示总的样本数量。
2.根据权利要求1所述的面向土地利用分类的随机森林算法,其特征在于:步骤一中制作训练集时采用有放回的方式会使新训练集中有重复的样本,因此在概率上,新训练集中仅包含了原训练集63.2%的样本。
3.根据权利要求1所述的面向土地利用分类的随机森林算法,其特征在于:步骤二中对于每个节点都要遍历所有可以用的分类方法后,若能提供最小的基尼指数就被选择作为此节点处分裂的标准,对该节点进行分裂,然后利用每个决策树对各个像元进行分类得到对应的类别。
CN202211150667.0A 2022-09-21 2022-09-21 面向土地利用分类的随机森林算法 Pending CN115564989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211150667.0A CN115564989A (zh) 2022-09-21 2022-09-21 面向土地利用分类的随机森林算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211150667.0A CN115564989A (zh) 2022-09-21 2022-09-21 面向土地利用分类的随机森林算法

Publications (1)

Publication Number Publication Date
CN115564989A true CN115564989A (zh) 2023-01-03

Family

ID=84741851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211150667.0A Pending CN115564989A (zh) 2022-09-21 2022-09-21 面向土地利用分类的随机森林算法

Country Status (1)

Country Link
CN (1) CN115564989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171533A (zh) * 2023-11-02 2023-12-05 山东省国土测绘院 一种地理测绘作业数据实时采集处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171533A (zh) * 2023-11-02 2023-12-05 山东省国土测绘院 一种地理测绘作业数据实时采集处理方法及系统
CN117171533B (zh) * 2023-11-02 2024-01-16 山东省国土测绘院 一种地理测绘作业数据实时采集处理方法及系统

Similar Documents

Publication Publication Date Title
CN113449594B (zh) 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN106228185A (zh) 一种基于神经网络的通用图像分类识别系统及方法
CN112733800B (zh) 基于卷积神经网络的遥感图像道路信息提取方法和装置
CN109344845B (zh) 一种基于Triplet深度神经网络结构的特征匹配方法
CN108540988B (zh) 一种场景划分方法及装置
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN111652039A (zh) 基于残差网络和特征融合模块的高光谱遥感地物分类方法
CN115564989A (zh) 面向土地利用分类的随机森林算法
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
CN115880487A (zh) 基于深度学习方法的林木激光点云枝叶分离方法
CN115859805A (zh) 基于混合加点准则的自适应序贯试验设计方法和装置
CN108764307A (zh) 自然最近邻优化的密度峰值聚类方法
CN115775634A (zh) 一种基于多变量核密度估计的虫媒疾病预测方法及系统
CN113051824B (zh) 基于剖面观测数据的海洋内部温度场重建方法
CN116993555A (zh) 国土空间规划重点区域识别的分区方法、系统及存储介质
CN114782835B (zh) 作物倒伏面积比例检测方法及装置
CN107423319B (zh) 一种垃圾网页检测方法
CN115659165A (zh) 园区负荷数据样本的构建方法、装置、设备及存储介质
Canales et al. Modification of the growing neural gas algorithm for cluster analysis
CN113449631A (zh) 图像分类方法及系统
JP6950647B2 (ja) データ判定装置、方法、及びプログラム
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
Streltsov et al. Automated building energy consumption estimation from aerial imagery
CN111309782A (zh) 一种基于子空间的离群点检测算法
CN114882292B (zh) 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination