CN111680615A - 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 - Google Patents

基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 Download PDF

Info

Publication number
CN111680615A
CN111680615A CN202010499382.2A CN202010499382A CN111680615A CN 111680615 A CN111680615 A CN 111680615A CN 202010499382 A CN202010499382 A CN 202010499382A CN 111680615 A CN111680615 A CN 111680615A
Authority
CN
China
Prior art keywords
training
sample
samples
unbalanced
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010499382.2A
Other languages
English (en)
Inventor
冯伟
童莹萍
全英汇
邢孟道
肖国尧
董淑仙
钟娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010499382.2A priority Critical patent/CN111680615A/zh
Publication of CN111680615A publication Critical patent/CN111680615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,主要解决现有技术对不平衡图像分类精度低的问题。其实现方案是:获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;统计预分类的不平衡训练样本投票数,建立基于投票表决的集成间隔模型;将不平衡训练样本按照样本数量和集成间隔值进行排序,保留最小类,其余类以欠采样率随机选择样本,构造新的平衡训练子集;将每个新的平衡训练子集输入到CART决策树,通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。本发明能通过集成间隔模型有效减少分类时有用信息的丢失,且抗噪声能力强,训练速度快,可用于土地覆盖和环境监测。

Description

基于集成间隔的多类不平衡遥感土地覆盖图像分类方法
技术领域
本发明属于遥感图像处理领域,尤其涉及多类不平衡的遥感分类方法,可用于土地覆盖和环境监测。
背景技术
不平衡分类问题是指训练样本在类别间分布不平衡的分类问题。现有解决不平衡数据分类问题的方法通常可分为数据层面的方法和算法层面的方法。其中:
数据层面的方法通常对原数据集进行重采样构建一个新的数据集,主要分为过采样和欠采样。过采样的方法是通过增加少数类训练样本的数量达到平衡数据集的效果。常用的过采样方法包括随机过采样和SOMTE算法。由于随机过采样的方法直接随机复制少数类样本,经常会造成过拟合现象的发生,而SOMTE算法合成新样本时,很容易引入噪声,影响最终的分类效果。这种过采样方法的不足是增加了算法的运算量,降低了算法的运行效率。欠采样的方法是通过舍弃部分大类的样本降低不平衡度。但这种随机删除大类中的样本容易引起信息丢失。
算法层面的方法,是通过改进传统的分类算法提高少数类样本的重要性,其主要有集成学习分类算法。该算法是目前广泛应用的分类算法,其用同一个基分类器学习不同的训练子集,使每个基分类器的分类模型各不相同。集成学习分类算法又包括Bagging算法和Boosting算法。Bagging算法是从训练样本中有放回地随机选取样本,构建训练子集。这种方法每个基分类器之间差异小,泛化能力弱。Boosting算法能根据上一个基分类器的分类结果决定下一次样本被选择的权重,但这种方法对噪声样本过分偏重,基分类器需要串行迭代,运行效率低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,以减少样本有效信息的丢失,提高运行效率。
为达到上述目的,本发明的技术方案包括如下步骤:
(1)实地采集或从遥感图像训练库获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;
(2)建立基于投票表决的集成间隔模型:
(2a)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc
(2b)统计其他各类别投票数vc之和∑vc,构建集成间隔模型:
Figure BDA0002524216080000021
其中,x为训练样本,margin(x)为训练样本的间隔值,L为样本的类别数,y为样本的真实类别,vy为真实类别的投票数,c为样本的其他类别,vc为其它类别的投票数;
(3)根据样本间隔值的大小对训练样本进行欠采样,生成新的平衡数据训练子集:
(3a)将每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其间隔值升序排列;
(3b)保留最小类,其余类以欠采样率α随机选择样本,构造新的平衡训练子集,α的取值范围为0.1至1;
(4)将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
本发明具有如下优点:
1)本发明由于建立集成间隔模型对训练样本进行欠采样和平衡数据集,有效减少有用信息的丢失;
2)本发明选用随机森林分类方法,该方法抗噪声能力强,分类精度高,训练速度快,能够处理高维度的数据;
3)本发明由于可对多类别分类的不平衡问题直接进行处理,相比于现有方法将多类别转化为二分类的处理方式,应用范围更广泛,平衡数据集的处理效果更好。
附图说明
图1是本发明的实现流程图。
具体实施方案
以下结合附图对本发明的实施例和效果进行详细描述。
参照图1,本发明的实现步骤如下:
步骤1:获取不平衡训练样本。
训练样本通常从实地调查获取,高空间分辨率影像手动提取或从已有的遥感图像分类训练库获得。本实施例的训练样本来自但不限于UCI训练库的Landsat卫星多光谱数据。
步骤2:使用随机森林分类算法对训练样本进行预分类。
遥感图像常用的分类算法包括最大似然法、K最近邻法、支持向量机。
本实施例采用但不限于使用随机森林分类方法对训练样本进行预分类,其实现如下:
2.1)设训练样本的大小为Q,共包含L个类别。采用有放回的抽样方式从训练样本中随机选择k个样本,k的取值范围为1至Q,从类别中随机选择m个类别形成训练数据集,m的范围为1至L。本实施例中Q的取值为2500,L的取值为6;
2.2)选择最佳分割属性作为节点为每个数据集建立一个完全分裂且没有经过剪枝的CART决策树,每棵决策树对样本的类别进行投票,统计每个类别的投票数,按照少数服从多数的原则确定样本的类别,得到训练样本的预分类结果。
步骤3:建立基于投票表决的集成间隔模型。
3.1)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc
3.2)对不同类别的投票数进行计算,得到样本的集成间隔值:
传统的集成间隔模型是通过计算其他各类别c投票数vc的最大值得到样本的集成间隔值。
本发明使用其他各类别投票数vc之和∑vc构建集成间隔模型,即先计算真实样本的投票数vy与∑vc的差值,再计算这个差值在所有投票数中所占的比例,得到基于投票表决的集成间隔模型如下:
Figure BDA0002524216080000031
其中,x为训练样本,margin(x)为训练样本的间隔值,margin(x)的取值范围为-1至1,L为样本的类别数,本实施例中L为6,y为样本的真实类别,c为样本的其他类别。
该集成间隔模型使得样本的集成间隔值可以表示为一个下界,即使真实类别获得最多的投票数,样本的集成间隔值也可以为负数,其取值范围更加广。
步骤4:生成新的平衡数据训练子集。
传统的随机森林分类方法是通过随机抽取的方式生成训练子集。在不平衡数据集中,传统的随机森林分类往往会牺牲小类的分类精度。本步骤使用集成间隔模型对不平衡数据集进行欠采样,选择最重要的训练样本生成新的平衡数据训练子集,能提高整体训练精度,其实现如下:
4.1)对集成间隔值取绝对值,该绝对值越小,样本的重要性越高;
4.2)将训练样本中每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其集成间隔值的绝对值升序排列;
4.3)保留最小类样本L,计算最大类样本数N1与欠采样率α的乘积N1·α,对其他类样本进行随机抽样:
若其他类别c的样本数大于等于N1·α,则从其他类别样本数的前N1·α中随机抽样出NL个样本;
若其他类别c的样本数小于N1·α,则从其他类别的全部样本中随机抽样出NL个样本;
4.4)用抽样出的NL个样本构造训练子集Sc,再将最小类样本L与训练子集Sc进行随机排列组合,得到平衡训练子集。
步骤5:将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
集成学习模型由T棵决策树共同决策得到分类结果,通过对每棵决策树输入不同的平衡训练子集,并改变欠采样率α的取值,得到T个平衡训练子集,将这些平衡训练子集输入决策树,可得到遥感图像的最终分类结果,其实现如下:
以0.1的欠采样率为间隔,欠采样率α从0.1至1循环取值,每次取值构造出一个平衡训练子集,每个训练子集建立一棵CART决策树,直到构造出T棵决策树,这些决策树构成集成学习模型,在本实施例中T为100。每棵决策树对样本的类别进行投票,按照主要投票原则确定样本的类别,得到不平衡遥感图像的最终分类结果。
本发明的效果可以通过以下测试进一步说明:
测试内容:使用原始随机森林算法与本发明算法对四个不平衡样本进行分类,统计其平均分类精度,结果如表1所示。
表1原始随机森林算法与本发明算法的平均分类精度
样本 原始随机森林算法 本发明算法
样本1 79.5 82.1
样本2 70.6 85.9
样本3 80.6 92.6
样本4 65.7 82.1
从表1可见,本发明的平均分类精度明显高于原始随机森林的分类精度,证明本发明具有很好的应用效果。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (4)

1.一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,其特征在于,包括如下:
(1)实地采集或从遥感图像训练库获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;
(2)建立基于投票表决的集成间隔模型:
(2a)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc
(2b)统计其他各类别投票数vc之和∑vc,构建集成间隔模型:
Figure FDA0002524216070000011
其中,x为训练样本,margin(x)为训练样本的间隔值,L为样本的类别数,y为样本的真实类别,vy为真实类别的投票数,c为样本的其他类别,vc为其它类别的投票数;
(3)根据样本间隔值的大小对训练样本进行欠采样,生成新的平衡数据训练子集:
(3a)将每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其间隔值升序排列;
(3b)保留最小类,其余类以欠采样率α随机选择样本,构造新的平衡训练子集,α的取值范围为0.1至1;
(4)将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
2.根据权利要求1所述的方法,其特征在于,(1)中使用随机森林分类算法对训练样本进行预分类,实现如下:
(1a)采用有放回的抽样方式从训练样本中随机选择k个样本,从类别中随机选择m个类别作为最终的数据集;
(1b)选择最佳分割属性作为节点为每个数据集建立一个完全分裂且没有经过剪枝的CART决策树,每棵决策树对样本的类别进行投票,统计每个类别的投票数,按照少数服从多数的原则确定样本的类别,得到训练样本的预分类结果。
3.根据权利要求1所述的方法,其特征在于,(3b)中以欠采样率α随机选择样本构造新的平衡训练子集,是对其他类别c的样本先按照最大类样本数N1的前采样率α随机抽样出NL个样本构造训练子集Sc,再将最小类样本L与训练子集Sc进行随机排列组合,得到平衡训练子集。
4.根据权利要求1所述的方法,其特征在于,(4)中将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,是以0.1的欠采样率为间隔,从0.1至1循环取值,每次取值构造出一个平衡训练子集,每个训练子集建立一棵CART决策树,直到构造出T棵决策树;每棵决策树对样本的类别进行投票,按照主要投票原则的投票原则生成集成学习模型,确定样本的类别,得到不平衡遥感图像的最终分类结果。
CN202010499382.2A 2020-06-04 2020-06-04 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 Pending CN111680615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010499382.2A CN111680615A (zh) 2020-06-04 2020-06-04 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010499382.2A CN111680615A (zh) 2020-06-04 2020-06-04 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法

Publications (1)

Publication Number Publication Date
CN111680615A true CN111680615A (zh) 2020-09-18

Family

ID=72453376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010499382.2A Pending CN111680615A (zh) 2020-06-04 2020-06-04 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法

Country Status (1)

Country Link
CN (1) CN111680615A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080442A (zh) * 2019-12-21 2020-04-28 湖南大学 信用评分模型的构建方法、装置、设备及存储介质
CN112308151A (zh) * 2020-11-03 2021-02-02 西安电子科技大学 基于加权的旋转森林高光谱图像分类方法
CN112733736A (zh) * 2021-01-13 2021-04-30 西安电子科技大学 基于增强过采样的类别不平衡高光谱图像分类方法
CN112884752A (zh) * 2021-03-10 2021-06-01 华东师范大学 用于不平衡高分辨率遥感影像的在线持续目标检测方法
CN113221972A (zh) * 2021-04-26 2021-08-06 西安电子科技大学 基于加权深度随机森林的不平衡高光谱数据分类方法
CN114994150A (zh) * 2022-05-31 2022-09-02 中国标准化研究院 一种红花椒麻度的电子舌快速分类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080442A (zh) * 2019-12-21 2020-04-28 湖南大学 信用评分模型的构建方法、装置、设备及存储介质
CN112308151A (zh) * 2020-11-03 2021-02-02 西安电子科技大学 基于加权的旋转森林高光谱图像分类方法
CN112733736A (zh) * 2021-01-13 2021-04-30 西安电子科技大学 基于增强过采样的类别不平衡高光谱图像分类方法
CN112884752A (zh) * 2021-03-10 2021-06-01 华东师范大学 用于不平衡高分辨率遥感影像的在线持续目标检测方法
CN113221972A (zh) * 2021-04-26 2021-08-06 西安电子科技大学 基于加权深度随机森林的不平衡高光谱数据分类方法
CN113221972B (zh) * 2021-04-26 2024-02-13 西安电子科技大学 基于加权深度随机森林的不平衡高光谱数据分类方法
CN114994150A (zh) * 2022-05-31 2022-09-02 中国标准化研究院 一种红花椒麻度的电子舌快速分类方法
CN114994150B (zh) * 2022-05-31 2023-10-27 中国标准化研究院 一种红花椒麻度的电子舌快速分类方法

Similar Documents

Publication Publication Date Title
CN111680615A (zh) 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN107368807B (zh) 一种基于视觉词袋模型的监控视频车型分类方法
CN108280187B (zh) 一种基于卷积神经网络深度特征的分级图像检索方法
CN109509187B (zh) 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法
CN110197205B (zh) 一种多特征来源残差网络的图像识别方法
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN108197538A (zh) 一种基于局部特征和深度学习的卡口车辆检索系统及方法
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN105654122B (zh) 基于核函数匹配的空间金字塔物体识别方法
CN109461458B (zh) 一种基于生成对抗网络的音频异常检测方法
CN110334777A (zh) 一种加权多视角无监督属性选择方法
CN105989001B (zh) 图像搜索方法及装置、图像搜索系统
CN111488911B (zh) 基于Mask R-CNN与GAN的图像实体抽取方法
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN111652257A (zh) 一种样本数据清洗方法及系统
CN111079427A (zh) 一种垃圾邮件识别方法及系统
CN110443303B (zh) 基于图像分割和分类的煤岩显微组分智能识别方法
Fink et al. Grouping historical postcards using query-by-example word spotting
CN106570514A (zh) 一种基于词袋模型和支持向量机的汽车轮毂分类方法
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN112308151A (zh) 基于加权的旋转森林高光谱图像分类方法
CN106933805B (zh) 一种大数据集中生物事件触发词的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200918