CN109117956A

CN109117956A - 一种最佳特征子集的确定方法

Info

Publication number: CN109117956A
Application number: CN201810732008.5A
Authority: CN
Inventors: 杨玲波; 黄敬峰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2019-01-01
Anticipated expiration: 2038-07-05
Also published as: CN109117956B

Abstract

本发明公开了一种最佳特征子集确定方法，包括如下步骤：获取高分辨率影像，并进行预处理及面向对象分割，得到地物对象数据集；计算地物对象的各类特征，包括形状、指数、光谱、纹理等；从原始的地物对象数据集中挑选样本，包括训练样本、测试样本；基于交叉验证方法，以及随机森林、梯度提升决策树、支持向量机等机器学习方法，利用训练样本计算各特征的重要性，并使用改进的增强特征递归筛选方法对特征进行筛选，得到不同特征数量下，各特征子集的分类精度得分；依据得分最高的原则，确定各方法的分类最佳特征子集，剩余特征则作为冗余特征剔除。该方法简单、快速、准确。

Description

一种最佳特征子集的确定方法

技术领域

本发明涉及最佳分类特征子集获取技术领域，具体涉及一种最佳特征子集的确定方法。

背景技术

特征筛选是从原始特征集中剔除冗余特征，获取对于分类有效的最佳特征子集的过程，可以降低分类计算时间，提高分类精度。特征子集的评价方法往往通过预先定义的指标，如分类精度或类别可分离性等。特征筛选是机器学习方法中重要的一步，过多的特征可能造成分类精度的降低，分类时间的提高，被称为维数灾难(Pacifici et al.2009)。特征筛选的方式主要分为过滤式、封装式和嵌入式三种(Weston et al.2003)。过滤式方法所使用的特征子集评价方法是独立于分类器的，而嵌入式和封装式方法，特征筛选则是与分类器相结合的。对于嵌入式特征筛选方法，特征筛选是学习算法的一部分，并与特定的机器学习方法相绑定；而对于封装式，则封装了一个特定的学习算法用来评估最佳特征子集，并使分类结果的误差最小，最后建立起一个分类器。

递归特征筛选(Recursive feature elimination，RFE)是一种应用较为广泛的特征筛选技术，其通过训练模型评估每个特征的重要性并进行排序，逐步从特征集合中移除最不重要的特征，通过交叉验证的方式评价特征子集的性能，以此获取最佳特征集合(Guyon 2001)。由于RFE方法为嵌入式方法，利用RFE方法获取的特征子集往往可以较好地得到较高的分类精度。然而，重要性较低的特征在与其它特征组合后，可能对于分类精度具有较大的影响，单纯按照重要性排序进行特征筛选可能导致最佳特征子集的性能下降(Chen and Jeong 2007)。为解决这一问题，(Chen and Jeong 2007)提出了一种增强递归特征筛选(Enhanced recursive feature elimination，EnRFE)方法，通过搜索重要性较低且剔除后有助于分类精度提高的特征，从而提高搜索获取的最佳特征子集性能。然而，该方法依然存在两方面不足，其一是效率较低，其二是在未搜索到能提高分类精度的特征时直接剔除最不重要的特征，同样可能导致剔除后特征子集性能的大幅降低。

针对这一情况，本发明通过改进EnRFE方法存在的两个问题，从而提高特征筛选效率，并提高选择的最佳特征子集的表现，并基于该方法，建立从影像预处理、特征计算、特征筛选到影像分类的完整技术流程。

发明内容

本发明的目的是为机器学习中海量特征筛选，冗余特征剔除，提供一种简单、快速、准确的最佳特征子集的确定方法，基于改进增强特征递归筛选方法，其通过限制特征搜索的深度，并提高搜索算法的并行计算能力，从而提高特征筛选的效率，另一方面，将特征选择的评价依据从重要性的高低修改为交叉验证得分的高低，从而提高了最佳特征子集的表现。

一种最佳特征子集的确定方法，包括如下步骤：

步骤1、获取高分辨率影像，并进行预处理及面向对象分割，得到地物对象数据集；

步骤2、计算步骤1得到的地物对象数据集中各对象的形状类特征、指数类特征、光谱类特征、纹理类特征，作为初始特征集；

步骤3、从步骤1得到的地物对象数据集中挑选样本，得到训练样本和测试样本；

步骤4、将步骤3得到的训练样本输入到随机森林方法、梯度提升决策树方法或支持向量机方法中，计算步骤2中初始特征集中各类特征的重要性，并按照重要性由低到高排序，得到排序后的特征集；

步骤5、首先移除排序后的特征集中第一个特征(即重要性最低的一个特征)，得到第一个特征子集，并利用交叉验证方法评价该特征子集的得分，然后，移除排序后的特征集中第二个特征(即重要性最二低的一个特征)，得到第二个特征子集，并利用交叉验证方法评价该特征子集的得分，依次类推，得到第k个特征子集，并利用交叉验证方法评价该特征子集的得分；从第一个特征子集、第二个特征子集……第k个特征子集中筛选出得分最高的特征子集；

步骤6、将步骤3得到的训练样本输入到随机森林方法、梯度提升决策树方法或支持向量机方法中，计算步骤5中筛选的得分最高的特征子集中各类特征的重要性，并按照重要性由低到高排序，得到新的排序后的特征集，并重复步骤5，再筛选出一个新的得分最高的特征子集；

步骤7、重复步骤6，记录每次迭代得分最高的特征子集的得分，直至特征子集为空集；

步骤8、依据步骤7得到的不同特征数量特征子集的得分情况，选择得分最高的特征子集作为最佳特征子集。

步骤1中，所述的预处理包括：几何校正，辐射定标、大气校正。

步骤2中，形状类特征如长度、面积等，指数类特征如改进归一化水体指数(Modified normalized difference water index)、归一化植被指数(Normalizeddifference vegetation index，NDVI)，增强植被指数(Enhanced vegetation index，EVI)等，光谱类特征如各波段光谱的平均值和方差，纹理类特征如基于灰度共生矩阵的纹理。

步骤3中，训练样本为训练样本和测试样本总数的60％～80％，测试样本为训练样本和测试样本总数的20％～40％，挑选方法为分层随机抽样。进一步优选，训练样本为训练样本和测试样本总数的70％，测试样本为训练样本和测试样本总数的30％，挑选方法为分层随机抽样。使用目视解译、地面调查等方法从步骤1得到的地物对象数据集中挑选样，包括训练样本和测试样本。

步骤5中，k为特征搜索深度，k值可以根据实际情况人为设定，k值小于等于初始特征集中特征总数。改进增强递归特征筛选方法通过限制搜索深度k，增强算法同步搜索能力，将特征选择依据从单纯依据重要性修改为交叉验证得分最高，从而提高获取的最佳特征子集的分类能力。本发明对特征搜索深度进行限制，最大搜索深度需综合考虑搜索精度和效率，建议设置为与计算机CPU核心数量相同，但不应小于4，可设置为4～15，即k为4～15，进一步优选，最大搜索深度设置为5～10，即k为5～10，最优选，k为7。

步骤8获得最佳特征子集之后，基于获取的最佳特征子集，利用随机森林、梯度特征决策树、支持向量机等方法对原始地物对象数据集进行分类，并使用测试样本对分类精度进行评价。

与现有技术相比，本发明具有如下优点：

本发明是基于改进增强特征递归筛选方法的最佳特征子集确定方法，减少特征筛选时间，提高最佳特征子集的表现，从而提高机器学习方法的分类精度，并基于该方法，对基于面向对象获取的众多特征进行特征筛选，剔除冗余特征，利用最佳特征子集进行对象的分类。该方法简单、快速、准确，其通过限制特征搜索的深度，并提高搜索算法的并行计算能力，从而提高特征筛选的效率，另一方面，将特征选择的评价依据从重要性的高低修改为交叉验证得分的高低，从而提高了最佳特征子集的表现。

附图说明

图1为本发明基于改进增强特征递归筛选方法的最佳特征子集确定方法的流程图；

图2为测试区域地理位置和原始影像；

图3为测试区域的各类地物样方分布图；

图4为基于RF、GBDT、SVM模型的增强特征递归筛选方法的结果。

图5为基于筛选获取的最佳特征子集的区域作物识别结果，其中图5(a)为RF方法的识别结果，图5(b)为GBDT方法的识别结果，图5(c)为SVM方法的识别结果，图5(d)为油菜种植区的结果放大，图5(e)为香葱种植区的结果放大。

具体实施方式

下面结合附图和实施实例对本发明做进一步说明。

如图1所示，为本发明基于改进增强特征递归筛选方法的最佳特征子集确定方法的流程图，首先对于获取的高分辨率卫星影像，进行几何校正、辐射定标和大气校正；其次，使用多尺度分割方法，将研究区影像分割为地物对象，作为分类识别的基本单元；接着，根据目视解译等方式，从所有地物对象中抽取一部分作为样本，并区分为训练样本和测试样本；然后，计算各对象的光谱、纹理、形状和指数四大类特征，这些特征数量多，冗余度高，需要进行特征筛选以获取最佳特征子集；基于改进后的增强特征递归筛选方法，利用训练数据，并分别基于RF(Random Forest，随机森林)、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)和SVM(Support Vector Machine，支持向量机)模型，对各模型的最佳特征子集进行计算获取；最后，获取得到最佳特征子集后，基于RF、GBDT、SVM方法对所有对象进行分类识别，并利用测试样本对识别精度进行评价。

一种基于改进增强特征递归筛选方法的最佳特征子集确定方法，具体计算方法包括如下步骤：

步骤A、获取高分辨率影像，并进行预处理及面向对象分割，得到地物对象数据集；

具体地，获取的高分辨率遥感影像应当为无云晴空影像，可以清晰识别影像中的不同地物。获取影像后，需要对影像进行预处理，主要包括几何校正、辐射定标和大气校正。几何校正可以通过地面获取控制点的方式，或在其他高分辨率影像底图上选择控制点(如Google Earth)，并在待校正影像上选择相应的同名点，使用多项式校正方法进行影像的几何精校正。辐射定标使用相应卫星的辐射定标系数校正；大气校正使用6S等大气辐射传输模型进行校正，获取地表反射率影像。对校正后的影像，利用多尺度分割方法，获得地物对象，作为分类的基本单元。测试区域(如图2和图3所示)共使用了5景影像，包括Sentinel-2A，Landsat-8、GF-1WFV等三个卫星的数据。图2为测试区域地理位置和原始影像；图3为测试区域的各类地物样方分布图。

步骤B、计算地物对象的各类特征，包括形状、指数、光谱、纹理等，作为初始特征集；

具体地，形状特征共12个，分别为area、length、width、compactness、density、asymmetry、roundness、elliptic fit、rectangular fit、main direction、border index、shape index。

纹理参数的计算则首先需要对各景影像进行主成分变换，获取包含最多信息的第一主成分波段，并对其进行纹理计算。每一景影像的纹理特征各有8个，分别是GLCM(Gray-Level Co-occurrence Matrix)homogeneity、GLCM contrast、GLCM dissimilarity、GLCMentropy、GLCMang.2nd moment、GLCM mean、GLCM StdDev、GLCM correlation。5景影像共获得40个特征

光谱特征则对5景影像的所有波段计算对象的光谱均值Mean和均方差V ariance。其中，Sentinel-2AMSI影像2景，每景影像10个波段，Landsat-8OLI影像2景，每景影像7个波段，GF-1WFV影像1景，每景影像4个波段。全部影像共38个波段，76个光谱特征。

指数特征包括归一化植被指数(normalized difference vegetation index，NDVI)、增强植被指数(enhanced vegetation index，EVI)、地表水体指数(land surfacewater index，LSWI)和改进归一化水体指数(modified normalized difference waterindex，MNDWI)。NDVI(Rouse et al.1974)是应用最广泛的植被指数之一，在作物提取、作物长势和产量等遥感监测领域拥有广泛的应用(Fuller 1998；Wardlow et al.2007)。EVI(Huete et al.1994)是针对NDVI在植被密度较高时容易饱和的缺陷，通过解耦植被冠层信号和大气阻抗，增强遥感影像中的植被信息，提高植被指数在植被浓密区域的敏感性和探测能力(Huete et al.2002)。LSWI指数则对植被冠层水分含量的变化较敏感，且相比NDVI更不容易受到大气效应影响(Gao 1996；Jurgens 1997)。MNDWI(Xu2006)则可以有效区分水体、植被以及建成区(Mansaray et al.2017)。各指数的计算公式参见公式1～4，公式中的NIR代表近红外波段反射率值，Red代表红光波段反射率值，SWIR代表短波红外反射率值，Blue代表蓝光波段反射率值，Green代表绿光波段反射率值。由于Sentinel2A有两个短波红外波段，因此使用Sentinel2A影像计算NDWI和MNDWI指数时，取其两个SWIR波段的均值代入公式进行计算。由于GF-1WFV影像没有短波红外波段，因此GF-1WFV影像仅计算NDVI和EVI指数。这样，共获得18个指数特征。

步骤C、使用目视解译、地面调查等方法从原始的地物对象数据集中挑选样本，包括训练样本、测试样本。

具体地，使用目视判读解译方式，从影像多尺度分割对象中随机选取2025个对象作为样本数据，其中冬小麦对象649个，油菜对象230个，香葱对象176个，其他对象970个。其他对象的类型主要为建筑、水体、荒地、道路、林地、大棚等地物类别，样本的分布见图3。使用分层随机抽样方法，在冬小麦、油菜、香葱和其他样本对象中各抽取70％共1418个的样本作为训练样本，参与特征筛选和机器学习的模型训练过程中，剩余30％共607个样本则作为测试样本，用于分析最终分类结果的精度。

步骤D、基于交叉验证方法，以及随机森林、梯度提升决策树或支持向量机等机器学习方法，利用训练样本计算各特征的重要性，并使用改进的增强特征递归筛选方法对特征进行筛选，得到不同特征数量下，各特征子集的分类精度得分。

具体地，利用增强递归特征筛选Enhanced recursive feature elimination(EnRFE)技术并对其进行改进，使用改进后的EnRFE方法(Improved EnREF)进行特征筛选，具体方法如下：

(a)将训练样本输入到随机森林方法、梯度提升决策树方法或支持向量机方法中，计算初始特征集中各类特征的重要性，并按照重要性由低到高排序，得到排序后的特征集；

(b)首先移除排序后的特征集中第一个特征(即重要性最低的一个特征)，得到第一个特征子集，并利用交叉验证方法评价该特征子集的得分，然后，移除排序后的特征集中第二个特征(即重要性最二低的一个特征)，得到第二个特征子集，并利用交叉验证方法评价该特征子集的得分，依次类推，得到第k个特征子集，并利用交叉验证方法评价该特征子集的得分；从第一个特征子集、第二个特征子集……第k个特征子集中筛选出得分最高的特征子集；

k为特征搜索深度，k值可以根据实际情况人为设定，本实施方式中，特征搜索深度进行限制，最大搜索深度设置为7；

(c)将训练样本输入到随机森林方法、梯度提升决策树方法或支持向量机方法中，计算步骤(b)筛选的得分最高的特征子集中各类特征的重要性，并按照重要性由低到高排序，得到新的排序后的特征集，并重复步骤(b)，再筛选出一个新的得分最高的特征子集；

(d)、重复步骤(c)，记录每次迭代得分最高的特征子集的得分，直至特征子集为空集；

步骤E、依据得到的不同特征数量特征子集的得分情况，选择得分最高的特征子集作为最佳特征子集。依据得分最高的原则，确定各方法的分类最佳特征子集，剩余特征则作为冗余特征剔除；

具体地，利用改进EnRFE方法进行最佳特征子集筛选。RF、GBDT、SVM方法的特征数量与交叉验证精度的关系如图4所示，图4为基于RF、GBDT、SVM模型的增强特征递归筛选方法的结果。从图4中，我们可以发现，三种分类方法的交叉验证精度随着特征数量的增加，均呈现了先急速增加后缓慢下降的特性。在特征数量较少时(少于10个)，三种方法的分类精度随着选择特征数量的增多迅速增加；在特征数量为10～20个时，验证精度缓慢上升；在特征数量达到20～40个之间时，三种方法的验证精度均达到了最高点，同时变化幅度较小；当特征数量逐渐增多时，3种方法的交叉验证精度均呈现下降的趋势。其中，GBDT方法的下降幅度最小，表明其对于特征冗余具有较好的鲁棒性；RF方法的精度则呈现缓慢但明显的下降趋势；SVM方法精度下降幅度较大，尤其在特征数量从50增加到70的过程中，精度急剧下降，从0.87降低至0.83，在特征多于70之后，整体精度虽未明显下降，但是精度的稳定性较低，振幅较大，表明SVM方法易受到冗余特征的影响，鲁棒性相对较低。GBDT和RF方法的交叉验证最高精度相近，均为0.90左右，而SVM方法的精度则相对要低一些，在0.88左右。依据得分最高原则，最终选取30个特征作为最佳特征子集。

步骤F、基于获取的最佳特征子集，利用随机森林、梯度特征决策树、支持向量机等方法对原始地物对象数据集进行分类，并使用测试样本对分类精度进行评价；

具体地，利用训练样本集分别训练RF、GBDT、SVM分类模型，并利用训练完成的分类模型对兴化市的地物对象进行分类，最终得到兴化市冬小麦(Winter wheat)、油菜(Oilseed rape)、香葱(Green onion)作物的空间分布，结果如图5所示。图5为基于筛选获取的最佳特征子集的区域作物识别结果，其中图5(a)为RF方法的识别结果，图5(b)为GBDT方法的识别结果，图5(c)为SVM方法的识别结果，图5(d)为油菜种植区的结果放大，图5(e)为香葱种植区的结果放大。从图5中可以发现，三种分类方法的作物识别结果基本相似。

利用测试样本集对各分类方法的作物提取精度进行验证，结果表明，基于改进增强特征递归筛选方法获取的最佳特征子集，本发明方法结合GBDT方法获得了最高的总体分类精度，OA(Overall accuracy，总体精度)为92.5％，kappa系数为0.882；其次是RF方法，总体分类精度为91.7％，kappa系数为0.867；SVM方法的精度相对最低，OA为90.5％，kappa系数为0.853。

Claims

1.一种最佳特征子集的确定方法，其特征在于，包括如下步骤：

步骤5、首先移除排序后的特征集中第一个特征，得到第一个特征子集，并利用交叉验证方法评价该特征子集的得分，然后，移除排序后的特征集中第二个特征，得到第二个特征子集，并利用交叉验证方法评价该特征子集的得分，依次类推，得到第k个特征子集，并利用交叉验证方法评价该特征子集的得分；从第一个特征子集、第二个特征子集、第k个特征子集中筛选出得分最高的特征子集；

2.根据权利要求1所述的最佳特征子集的确定方法，其特征在于，步骤1中，所述的预处理包括：几何校正，辐射定标、大气校正。

3.根据权利要求1所述的最佳特征子集的确定方法，其特征在于，步骤3中，训练样本为训练样本和测试样本总数的60％～80％，测试样本为训练样本和测试样本总数的20％～40％。