CN111680615A - 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 - Google Patents
基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 Download PDFInfo
- Publication number
- CN111680615A CN111680615A CN202010499382.2A CN202010499382A CN111680615A CN 111680615 A CN111680615 A CN 111680615A CN 202010499382 A CN202010499382 A CN 202010499382A CN 111680615 A CN111680615 A CN 111680615A
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- samples
- unbalanced
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000010354 integration Effects 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000003066 decision tree Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000007637 random forest analysis Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000007613 environmental effect Effects 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000007635 classification algorithm Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,主要解决现有技术对不平衡图像分类精度低的问题。其实现方案是:获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;统计预分类的不平衡训练样本投票数,建立基于投票表决的集成间隔模型;将不平衡训练样本按照样本数量和集成间隔值进行排序,保留最小类,其余类以欠采样率随机选择样本,构造新的平衡训练子集;将每个新的平衡训练子集输入到CART决策树,通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。本发明能通过集成间隔模型有效减少分类时有用信息的丢失,且抗噪声能力强,训练速度快,可用于土地覆盖和环境监测。
Description
技术领域
本发明属于遥感图像处理领域,尤其涉及多类不平衡的遥感分类方法,可用于土地覆盖和环境监测。
背景技术
不平衡分类问题是指训练样本在类别间分布不平衡的分类问题。现有解决不平衡数据分类问题的方法通常可分为数据层面的方法和算法层面的方法。其中:
数据层面的方法通常对原数据集进行重采样构建一个新的数据集,主要分为过采样和欠采样。过采样的方法是通过增加少数类训练样本的数量达到平衡数据集的效果。常用的过采样方法包括随机过采样和SOMTE算法。由于随机过采样的方法直接随机复制少数类样本,经常会造成过拟合现象的发生,而SOMTE算法合成新样本时,很容易引入噪声,影响最终的分类效果。这种过采样方法的不足是增加了算法的运算量,降低了算法的运行效率。欠采样的方法是通过舍弃部分大类的样本降低不平衡度。但这种随机删除大类中的样本容易引起信息丢失。
算法层面的方法,是通过改进传统的分类算法提高少数类样本的重要性,其主要有集成学习分类算法。该算法是目前广泛应用的分类算法,其用同一个基分类器学习不同的训练子集,使每个基分类器的分类模型各不相同。集成学习分类算法又包括Bagging算法和Boosting算法。Bagging算法是从训练样本中有放回地随机选取样本,构建训练子集。这种方法每个基分类器之间差异小,泛化能力弱。Boosting算法能根据上一个基分类器的分类结果决定下一次样本被选择的权重,但这种方法对噪声样本过分偏重,基分类器需要串行迭代,运行效率低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,以减少样本有效信息的丢失,提高运行效率。
为达到上述目的,本发明的技术方案包括如下步骤:
(1)实地采集或从遥感图像训练库获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;
(2)建立基于投票表决的集成间隔模型:
(2a)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc;
(2b)统计其他各类别投票数vc之和∑vc,构建集成间隔模型:
其中,x为训练样本,margin(x)为训练样本的间隔值,L为样本的类别数,y为样本的真实类别,vy为真实类别的投票数,c为样本的其他类别,vc为其它类别的投票数;
(3)根据样本间隔值的大小对训练样本进行欠采样,生成新的平衡数据训练子集:
(3a)将每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其间隔值升序排列;
(3b)保留最小类,其余类以欠采样率α随机选择样本,构造新的平衡训练子集,α的取值范围为0.1至1;
(4)将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
本发明具有如下优点:
1)本发明由于建立集成间隔模型对训练样本进行欠采样和平衡数据集,有效减少有用信息的丢失;
2)本发明选用随机森林分类方法,该方法抗噪声能力强,分类精度高,训练速度快,能够处理高维度的数据;
3)本发明由于可对多类别分类的不平衡问题直接进行处理,相比于现有方法将多类别转化为二分类的处理方式,应用范围更广泛,平衡数据集的处理效果更好。
附图说明
图1是本发明的实现流程图。
具体实施方案
以下结合附图对本发明的实施例和效果进行详细描述。
参照图1,本发明的实现步骤如下:
步骤1:获取不平衡训练样本。
训练样本通常从实地调查获取,高空间分辨率影像手动提取或从已有的遥感图像分类训练库获得。本实施例的训练样本来自但不限于UCI训练库的Landsat卫星多光谱数据。
步骤2:使用随机森林分类算法对训练样本进行预分类。
遥感图像常用的分类算法包括最大似然法、K最近邻法、支持向量机。
本实施例采用但不限于使用随机森林分类方法对训练样本进行预分类,其实现如下:
2.1)设训练样本的大小为Q,共包含L个类别。采用有放回的抽样方式从训练样本中随机选择k个样本,k的取值范围为1至Q,从类别中随机选择m个类别形成训练数据集,m的范围为1至L。本实施例中Q的取值为2500,L的取值为6;
2.2)选择最佳分割属性作为节点为每个数据集建立一个完全分裂且没有经过剪枝的CART决策树,每棵决策树对样本的类别进行投票,统计每个类别的投票数,按照少数服从多数的原则确定样本的类别,得到训练样本的预分类结果。
步骤3:建立基于投票表决的集成间隔模型。
3.1)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc;
3.2)对不同类别的投票数进行计算,得到样本的集成间隔值:
传统的集成间隔模型是通过计算其他各类别c投票数vc的最大值得到样本的集成间隔值。
本发明使用其他各类别投票数vc之和∑vc构建集成间隔模型,即先计算真实样本的投票数vy与∑vc的差值,再计算这个差值在所有投票数中所占的比例,得到基于投票表决的集成间隔模型如下:
其中,x为训练样本,margin(x)为训练样本的间隔值,margin(x)的取值范围为-1至1,L为样本的类别数,本实施例中L为6,y为样本的真实类别,c为样本的其他类别。
该集成间隔模型使得样本的集成间隔值可以表示为一个下界,即使真实类别获得最多的投票数,样本的集成间隔值也可以为负数,其取值范围更加广。
步骤4:生成新的平衡数据训练子集。
传统的随机森林分类方法是通过随机抽取的方式生成训练子集。在不平衡数据集中,传统的随机森林分类往往会牺牲小类的分类精度。本步骤使用集成间隔模型对不平衡数据集进行欠采样,选择最重要的训练样本生成新的平衡数据训练子集,能提高整体训练精度,其实现如下:
4.1)对集成间隔值取绝对值,该绝对值越小,样本的重要性越高;
4.2)将训练样本中每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其集成间隔值的绝对值升序排列;
4.3)保留最小类样本L,计算最大类样本数N1与欠采样率α的乘积N1·α,对其他类样本进行随机抽样:
若其他类别c的样本数大于等于N1·α,则从其他类别样本数的前N1·α中随机抽样出NL个样本;
若其他类别c的样本数小于N1·α,则从其他类别的全部样本中随机抽样出NL个样本;
4.4)用抽样出的NL个样本构造训练子集Sc,再将最小类样本L与训练子集Sc进行随机排列组合,得到平衡训练子集。
步骤5:将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
集成学习模型由T棵决策树共同决策得到分类结果,通过对每棵决策树输入不同的平衡训练子集,并改变欠采样率α的取值,得到T个平衡训练子集,将这些平衡训练子集输入决策树,可得到遥感图像的最终分类结果,其实现如下:
以0.1的欠采样率为间隔,欠采样率α从0.1至1循环取值,每次取值构造出一个平衡训练子集,每个训练子集建立一棵CART决策树,直到构造出T棵决策树,这些决策树构成集成学习模型,在本实施例中T为100。每棵决策树对样本的类别进行投票,按照主要投票原则确定样本的类别,得到不平衡遥感图像的最终分类结果。
本发明的效果可以通过以下测试进一步说明:
测试内容:使用原始随机森林算法与本发明算法对四个不平衡样本进行分类,统计其平均分类精度,结果如表1所示。
表1原始随机森林算法与本发明算法的平均分类精度
样本 | 原始随机森林算法 | 本发明算法 |
样本1 | 79.5 | 82.1 |
样本2 | 70.6 | 85.9 |
样本3 | 80.6 | 92.6 |
样本4 | 65.7 | 82.1 |
从表1可见,本发明的平均分类精度明显高于原始随机森林的分类精度,证明本发明具有很好的应用效果。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (4)
1.一种基于集成间隔的多类不平衡遥感土地覆盖图像分类方法,其特征在于,包括如下:
(1)实地采集或从遥感图像训练库获取不平衡训练样本,并使用随机森林分类算法对其进行预分类;
(2)建立基于投票表决的集成间隔模型:
(2a)统计预分类后训练样本中真实类别y的投票数vy和其他各类别c的投票数vc;
(2b)统计其他各类别投票数vc之和∑vc,构建集成间隔模型:
其中,x为训练样本,margin(x)为训练样本的间隔值,L为样本的类别数,y为样本的真实类别,vy为真实类别的投票数,c为样本的其他类别,vc为其它类别的投票数;
(3)根据样本间隔值的大小对训练样本进行欠采样,生成新的平衡数据训练子集:
(3a)将每个类别i按照其样本数量Ni降序排列,将每个类别内的样本按照其间隔值升序排列;
(3b)保留最小类,其余类以欠采样率α随机选择样本,构造新的平衡训练子集,α的取值范围为0.1至1;
(4)将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,得到不平衡遥感图像的最终分类结果。
2.根据权利要求1所述的方法,其特征在于,(1)中使用随机森林分类算法对训练样本进行预分类,实现如下:
(1a)采用有放回的抽样方式从训练样本中随机选择k个样本,从类别中随机选择m个类别作为最终的数据集;
(1b)选择最佳分割属性作为节点为每个数据集建立一个完全分裂且没有经过剪枝的CART决策树,每棵决策树对样本的类别进行投票,统计每个类别的投票数,按照少数服从多数的原则确定样本的类别,得到训练样本的预分类结果。
3.根据权利要求1所述的方法,其特征在于,(3b)中以欠采样率α随机选择样本构造新的平衡训练子集,是对其他类别c的样本先按照最大类样本数N1的前采样率α随机抽样出NL个样本构造训练子集Sc,再将最小类样本L与训练子集Sc进行随机排列组合,得到平衡训练子集。
4.根据权利要求1所述的方法,其特征在于,(4)中将每个平衡训练子集输入到CART决策树,将这些决策树通过主要投票原则生成集成学习模型,是以0.1的欠采样率为间隔,从0.1至1循环取值,每次取值构造出一个平衡训练子集,每个训练子集建立一棵CART决策树,直到构造出T棵决策树;每棵决策树对样本的类别进行投票,按照主要投票原则的投票原则生成集成学习模型,确定样本的类别,得到不平衡遥感图像的最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499382.2A CN111680615A (zh) | 2020-06-04 | 2020-06-04 | 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499382.2A CN111680615A (zh) | 2020-06-04 | 2020-06-04 | 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111680615A true CN111680615A (zh) | 2020-09-18 |
Family
ID=72453376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010499382.2A Pending CN111680615A (zh) | 2020-06-04 | 2020-06-04 | 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680615A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN112308151A (zh) * | 2020-11-03 | 2021-02-02 | 西安电子科技大学 | 基于加权的旋转森林高光谱图像分类方法 |
CN112733736A (zh) * | 2021-01-13 | 2021-04-30 | 西安电子科技大学 | 基于增强过采样的类别不平衡高光谱图像分类方法 |
CN112884752A (zh) * | 2021-03-10 | 2021-06-01 | 华东师范大学 | 用于不平衡高分辨率遥感影像的在线持续目标检测方法 |
CN113221972A (zh) * | 2021-04-26 | 2021-08-06 | 西安电子科技大学 | 基于加权深度随机森林的不平衡高光谱数据分类方法 |
CN114994150A (zh) * | 2022-05-31 | 2022-09-02 | 中国标准化研究院 | 一种红花椒麻度的电子舌快速分类方法 |
-
2020
- 2020-06-04 CN CN202010499382.2A patent/CN111680615A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN112308151A (zh) * | 2020-11-03 | 2021-02-02 | 西安电子科技大学 | 基于加权的旋转森林高光谱图像分类方法 |
CN112733736A (zh) * | 2021-01-13 | 2021-04-30 | 西安电子科技大学 | 基于增强过采样的类别不平衡高光谱图像分类方法 |
CN112884752A (zh) * | 2021-03-10 | 2021-06-01 | 华东师范大学 | 用于不平衡高分辨率遥感影像的在线持续目标检测方法 |
CN113221972A (zh) * | 2021-04-26 | 2021-08-06 | 西安电子科技大学 | 基于加权深度随机森林的不平衡高光谱数据分类方法 |
CN113221972B (zh) * | 2021-04-26 | 2024-02-13 | 西安电子科技大学 | 基于加权深度随机森林的不平衡高光谱数据分类方法 |
CN114994150A (zh) * | 2022-05-31 | 2022-09-02 | 中国标准化研究院 | 一种红花椒麻度的电子舌快速分类方法 |
CN114994150B (zh) * | 2022-05-31 | 2023-10-27 | 中国标准化研究院 | 一种红花椒麻度的电子舌快速分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680615A (zh) | 基于集成间隔的多类不平衡遥感土地覆盖图像分类方法 | |
CN109614979B (zh) | 一种基于选择与生成的数据增广方法及图像分类方法 | |
CN107368807B (zh) | 一种基于视觉词袋模型的监控视频车型分类方法 | |
CN108280187B (zh) | 一种基于卷积神经网络深度特征的分级图像检索方法 | |
CN109509187B (zh) | 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法 | |
CN110197205B (zh) | 一种多特征来源残差网络的图像识别方法 | |
WO2019179403A1 (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN108197538A (zh) | 一种基于局部特征和深度学习的卡口车辆检索系统及方法 | |
CN104392250A (zh) | 一种基于MapReduce的图像分类方法 | |
CN105574063A (zh) | 基于视觉显著性的图像检索方法 | |
CN109271517B (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN105654122B (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN109461458B (zh) | 一种基于生成对抗网络的音频异常检测方法 | |
CN110334777A (zh) | 一种加权多视角无监督属性选择方法 | |
CN105989001B (zh) | 图像搜索方法及装置、图像搜索系统 | |
CN111488911B (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN112926645B (zh) | 一种基于边缘计算的窃电检测方法 | |
CN111652257A (zh) | 一种样本数据清洗方法及系统 | |
CN111079427A (zh) | 一种垃圾邮件识别方法及系统 | |
CN110443303B (zh) | 基于图像分割和分类的煤岩显微组分智能识别方法 | |
Fink et al. | Grouping historical postcards using query-by-example word spotting | |
CN106570514A (zh) | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 | |
CN113792141A (zh) | 基于协方差度量因子的特征选择方法 | |
CN112308151A (zh) | 基于加权的旋转森林高光谱图像分类方法 | |
CN106933805B (zh) | 一种大数据集中生物事件触发词的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200918 |