CN112668400A

CN112668400A - 一种植被识别方法及应用

Info

Publication number: CN112668400A
Application number: CN202011421841.1A
Authority: CN
Inventors: 钱静; 徐锴滨; 孙加裕; 陈朝亮; 魏树杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-04-16

Abstract

本申请属于环境保护技术领域，特别是涉及一种植被识别方法及应用。由于使用光学和SAR数据很难准确地区分成熟和幼龄的棕榈树等植被，并且现有的分类算法在对植被进行监测和识别时对输入参数的值存在很强的依赖性。本申请提供了一种植被识别方法，并应用于棕榈种植园的识别上，包括：将第一卫星光学遥感图像和第二卫星合成孔径雷达图像进行融合，得到融合影像数据；从融合的数据影像中提取信息特征组合；计算所述特征的权重值，并挑选出最优子集作为模型训练集；优化随机森林算法得到改进的随机森林算法，采用所述改进的随机森林算法和所述模型训练集训练出植被识别分类模型；对植被识别分类模型进行验证后得到识别结果。能显著提高识别效率。

Description

一种植被识别方法及应用

技术领域

本申请属于环境保护技术领域，特别是涉及一种植被识别方法及应用。

背景技术

目前已有许多研究利用卫星遥感数据进行植被的识别。基于光学方法依赖于从植被的物候或图像特征中提取的信息，其中包括物候学方法和图像识别方法。基于物候学的方法主要利用植被光谱的时间变化来监测棕榈树等植被的扩张。为了解决热带地区棕榈种植园等植被的识别与监测难题，全天候的全球观测合成孔径雷达(SAR)成为人们的关注对象。这些研究使用雷达卫星数据(ALOS PALSAR中的L波段和Sentinel-1中的C波段)作为识别植被的主要依据。利用雷达卫星数据，不同植被类型可以呈现出各自独特的雷达后向散射值，因此可以很容易地将光谱相似的植被区分开。然而，由于不同年龄的植被所表现出的散射值十分相似，因此仅使用SAR数据也很难区分成熟和幼龄(小于3岁)的棕榈树等植被。为了进一步克服仅使用SAR或光学数据进行棕榈树等植被识别的局限性，最近有一些研究通过使用数据融合技术来识别植被。这些研究从SAR和光学卫星组合中选择了特定的后向散射值和反射率/发射率特征输入到机器学习算法中来识别棕榈种植园等作物植被，包括成熟，幼龄植被和其他土地分类类型。

而相比其他分类器，随机森林(random forest)在训练集样本点数量较低和在观测对象存在缺失情况时仍能够较好的进行分类和预测。一些研究也表明，在众多机器学习算法中，选择随机森林进行分类并优选特征对象可以获得更好的执行效果。然而，随机森林算法和其他机器学习分类算法对输入参数的值存在很强的依赖性，这也导致了植被的识别准确性对参数的选取十分敏感，参数选取不佳容易导致准确率较低。

发明内容

1.要解决的技术问题

基于由于使用光学遥感和SAR数据很难准确地区分成熟和幼龄的棕榈树等植被，并且现有的分类算法在对植被进行监测和识别时对输入参数的值存在很强的依赖性的问题，本申请提供了一种植被识别方法及应用。

2.技术方案

为了达到上述的目的，本申请提供了一种植被识别方法，所述方法包括如下步骤：步骤1：将第一卫星光学遥感图像和第二卫星合成孔径雷达图像进行融合，得到融合影像数据；步骤2：从融合的数据影像中提取信息特征组合；步骤3：计算所述特征的权重值，并挑选出最优子集作为模型训练集；步骤4：优化随机森林算法得到改进的随机森林算法，采用所述改进的随机森林算法和所述模型训练集训练出植被识别分类模型；步骤5：对所述植被识别分类模型进行验证后得到识别结果。

本申请提供的另一种实施方式为：所述第一卫星光学遥感图像为陆地8号卫星的光学遥感图像，所述第二卫星合成孔径雷达图像为哨兵1号卫星的合成孔径雷达图像；所述步骤1在谷歌地球引擎中分别合成陆地8号卫星的光学遥感图像和哨兵1号卫星的合成孔径雷达图像，将所述光学遥感图像和所述合成孔径雷达图像进行融合。

本申请提供的另一种实施方式为：选取所述陆地8号的光学图像中30米分辨率的蓝波段，绿波段，红波段和近红外波段，以及所述哨兵1号卫星的合成孔径雷达图像中的单同极化波段(垂直发射/垂直接收)和双交叉极化波段(垂直发射/水平接收)进行融合，得到融合影像数据。

本申请提供的另一种实施方式为：所述信息特征组合包括多时相光谱特征，合成孔径雷达后向散射值，植被指数和纹理特征。

本申请提供的另一种实施方式为：所述步骤3采用基尼系数计算所述特征的权重值。

本申请提供的另一种实施方式为：所述步骤4采用改进的网格搜索算法优化随机森林算法。

本申请提供的另一种实施方式为：所述改进的网格搜索优化算法包括先确定随机森林算法中决策树的数目k和分裂特征数目m的搜索范围，设置长距离步长进行大范围的粗略搜索，并为参数k和m搜索建立二维搜索网格，根据网格节点上的每个参数值构建一个随机森林，并使用袋外数据的信息熵和错误率作为估算函数来估计泛化误差，选择当前具有最小泛化误差的参数值k和m，如果当前参数的泛化误差或搜索步长满足要求，则输出当前最优参数和分类误差；否则，缩小搜索步长，重复上述步骤继续搜索。

本申请提供的另一种实施方式为：所述改进的随机森林算法为采用改进的网格搜索优化算法寻找出最优参数值，得到改进的随机森林。

本申请提供的另一种实施方式为：所述验证采用5倍交叉验证法来对所述植被识别分类模型进行验证，其中五分之一的数据用于训练，五分之四的数据用于所述植被识别分类模型验证。

本申请还提供一种植被识别方法的应用，将所述的植被识别方法应用于棕榈种植园识别。

3.有益效果

与现有技术相比，本申请提供的一种植被识别方法及应用的有益效果在于：

本申请提供的植被识别方法，为一种基于IGSO-RF算法和特征优选的植被识别方法。

本申请提供的植被识别方法，通过对Landsat-8和Sentinel-1下的特征变量进行提取和分析，并进行特征优选，能显著提高识别效率。

本申请提供的植被识别方法，通过采用改进的网格搜索算法优化随机森林分类器的参数选取，能有效解决现有的分类算法在识别植被时对输入参数值敏感问题，从而提高识别精度和效率。

附图说明

图1是本申请的植被识别方法流程示意图；

图2是本申请的不同特征组合在模型中的分类结果的混淆矩阵示意图；

图3是本申请的不同分类模型在不同特征组合下的准确度分析对比示意图

图4是本申请的基尼系数分析结果示意图；

图5是本申请的IGSO-RF算法与特征优选使用前后的举例分析示意图；

图6是本申请的2019年印尼廖内省(Riau)的棕榈种植园识别结果示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

棕榈树(Elaeisguineensis)是世界上扩张速度最快的赤道农作物之一，其种植区主要分布在一些潮湿的热带国家，例如印度尼西亚。由于其具有用途广、产量高和生产成本较低等特点，在过去的几十年中，全球对棕榈树的需求呈指数增长，并为当地带来了巨大的经济利益。然而，棕榈树等植被的迅速扩张也导致了森林砍伐和一系列负面环境影响，诸如森林财产损失、社会经济收入损失、生物多样性减少和生态连通性破坏等等。此外，棕榈树等植被也是印度尼西亚经常起火的重要原因之一，大火增加了温室气体的排放，对全球气候环境和生态系统带来一定的危害。为了更加科学地管理和仔细地监测这些危害，必须精确地监测和识别出诸如棕榈树这样的农作物植被，以保护森林、全球气候环境和生态系统。

植被可以利用其自身独特的纹理特征从卫星图像中进行识别和监测，例如工业种植园的矩形块形状和树冠的几何形状等。但是，单单使用光学方法来识别棕榈树等植被仍然存在一些问题，包括难以将光谱相似的植被(例如棕榈，橡胶树，果树)区分开，以及在潮湿的热带地区云层的频繁出现阻碍了基于图像的方法分析。此外，大多数高分辨率遥感影像并不是免费的。

相较于传统光学遥感数据，利用雷达卫星数据，不同植被类型可以呈现出各自独特的雷达后向散射值，因此可以很容易地将光谱相似的植被区分开。因此采用数据融合，能更为有效地进行棕榈树等植被的识别提取。例如，有学者融合了Landsat和PALSAR数据来对马来西亚半岛的植被进行监督分类，以及使用Landsat-8、Sentinel-1和Sentinel-2的融合数据来准确绘制橡胶和其他植被。结果表明，采用数据融合进行棕榈识别的准确度明显优于仅使用SAR或光学数据的准确度。此外，有多项研究表明，使用重要指标分析并选择最优特征组合也可以取得更好的结果。然而，由于幼龄植被的树冠覆盖率低，以及幼龄植被和裸地之间的具有极高的相似度，在大多数采用数据融合的方法中，对幼龄植被的识别仍然具有挑战性。大多数研究只选择光谱带和少量的后向散射特性作为特征变量，这也使得植被的识别精度一直保持在90％左右。另外，机器学习分类算法的选择也是影响植被识别精度的关键，这些分类算法包括支持向量，朴素贝叶斯，决策树和神经网络等。分类算法需要大量样本信息来提高预测准确性，这无疑要花费大量的时间和人力。

Google Earth Engine(GEE)是Google提供的对大量全球尺度地球科学资料(尤其是卫星数据)进行在线可视化计算分析处理的平台。

参见图1～6，本申请提供一种植被识别方法，所述方法包括如下步骤：步骤1：将第一卫星光学图像和第二卫星合成孔径雷达图像融合，得到融合影像数据；步骤2：从融合的数据影像中提取信息特征组合；步骤3：计算所述特征的权重值，并挑选出最优子集作为模型训练集；步骤4：优化随机森林算法，根据改进的网格搜索优化算法得到改进的随机森林算法，采用所述改进的随机森林算法和所述模型训练集训练出植被识别分类模型；步骤5：对所述植被识别分类模型进行验证后得到识别结果。

进一步地，所述第一卫星光学图像为陆地卫星8号(Landsat-8)的光学图像，所述第二卫星合成孔径雷达图像为哨兵1号卫星(Sentinel-1)的合成孔径雷达(SAR)图像；所述步骤1在谷歌地球引擎中合成陆地卫星8号的光学图像和哨兵1号卫星的合成孔径雷达图像，将所述光学图像和所述合成孔径雷达图像进行融合。

本申请针对基于Landsat-8和Sentinel-1下植被的识别方法的流程，包括算法实验过程的数据预处理，特征提取和特征优选的流程，模型优化、训练及验证的方法等；

本申请训练植被识别分类器的IGSO-RF算法的设计，包括分类器选取，网格搜索算法寻优步长和判定条件设计，IGSO算法执行步骤等；

本申请的样本测试流程，包括Landsat-8和Sentinel-1波段的选取，不同特征变量的选取，训练样本的不同特征组合，不同分类器对植被识别精度的影响等。

进一步地，选取所述陆地卫星8号的光学图像中30米分辨率的蓝波段，绿波段，红波段和近红外波段，以及所述哨兵1号卫星的合成孔径雷达图像中的单同极化波段(垂直发射/垂直接收)和双交叉极化波段(垂直发射/水平接收)进行融合，得到融合影像数据。

进一步地，所述信息特征组合包括多时相光谱特征，合成孔径雷达后向散射值，植被指数和纹理特征。

进一步地，所述步骤3采用基尼系数计算所述特征的权重值。

进一步地，所述步骤4采用改进的网格搜索算法优化随机森林算法。

进一步地，所述改进的网格搜索优化算法包括先确定随机森林算法中决策树的数目k和分裂特征数目m的搜索范围，设置长距离步长进行大范围的粗略搜索，并为参数k和m搜索建立二维搜索网格，根据网格节点上的每个参数值构建一个随机森林，并使用估算函数来估计泛化误差，选择当前具有最小泛化误差的参数值k和m，如果当前参数的泛化误差或搜索步长满足要求，则输出当前最优参数和分类误差；否则，缩小搜索步长，重复上述步骤继续搜索。

进一步地，所述改进的网格搜索优化算法包括采用袋外数据的信息熵和错误率作为估算函数来评估不同的参数对于随机森林构建的合理程度。

进一步地，所述验证采用5倍交叉验证法来对所述植被识别分类模型进行验证，其中五分之一的数据用于训练，五分之四的数据用于所述植被识别分类模型验证。

实施例

1Landsat-8和Sentinel-1影像融合

首先针对Landsat-8影像数据，使用GEE中提供的云掩膜算法挑选一年内所有无云的Landsat-8影像数据，并求出每个月的影像数据的平均值作为Landsat-8的影像数据源，合成的窗口大小设置为6个月；其次，使用GEE获取一年内所有的Sentinel-1影像数据，并求每个月的平均值作为Sentinel-1的影像数据源，合成的窗口大小同样设置为6个月。最后，选取Landsat-8影像中30米分辨率的蓝波段，绿波段，红波段和近红外波段，以及Sentinel-1影像中的单同极化波段VV(垂直发射/垂直接收)和双交叉极化波段VH(垂直发射/水平接收)进行融合，得到Landsat-8和Sentinel-1融合影像数据。

2特征提取

特征提取是从原始数据集中提取出信息变量(特征)组合来提高分类模型准确性的过程。在本申请中，采用多时相光谱特征，SAR后向散射值，植被指数和纹理特征这四种特征变量类型作为特征变量组合。表1列出了提取的具体特征，输入波段和计算公式。

表1特征提取的变量及公式

多时相光谱特征是区分遥感图像中各种地面物体类型的重要和直接基础，包含着最关键和最直接的信息。选取多时相的Landsat-8数据中的蓝，绿，红和近红外波段作为光谱特征。

SAR后向散射值可以为热带地区的研究提供全天候的观测数据，弥补了光谱特征易受恶劣的天气和云层影响的不足。本申请使用了Sentinel-1A数据中的双极化波段，即VV和VH双频波段。研究表明，通过VV后向散射值或归一化指数NDI可以最好地区分棕榈种植园。此外，棕榈树在VV-VH后向散射差异中具有独特的直方图。因此，本申请还选择了VV-VH后向散射差异值作为SAR后向散射特征值的一部分。

植被指数是遥感图像数据中不同波段的组合，可以有效反映作物生长，作物结构，土壤背景和其他相关信息。本申请在相关研究的基础上，结合棕榈树的光谱特征和研究区域的特点，提取了六种具有较强适用性的植被指数。

纹理特征可以充分反映图像中植被的特征，对于图像中植被的特征提取和分析具有重要意义。本申请使用基于中值滤波器和灰度共生矩阵(Gray-Level Co-OccurrenceMatrix,GLCM)的纹理分析，从Landsat-8光谱波段中计算出纹理特征。具体过程包括提取灰度图像，量化灰度级，计算特征值以及生成纹理特征图像。基于GLCM的多个纹理特征中，只有对比度CON，角秒矩ASM，相关性COR和熵ENT不相关，并且这四个特征易于计算，可以提供较高的分类精度。因此，本申请选择它们构成纹理特征数据集，并根据研究区域中的表面特征大小和纹理粗糙度将滑动窗口设置为6×6进行纹理特征提取。

3特征优选

特征变量的重要性分析和特征组合的优选在遥感图像分类中起着重要的作用。特征优选可以减少数据维度，增强模型的泛化能力，同时减少模型过度拟合，并增强特征和对象之间的联系。为了对棕榈种植园分类模型中最相关的特征进行排序，并对冗余和非信息性数据进行过滤，本申请使用基尼指数对从光学和SAR图像中提取的特征进行了分析。基尼重要性分析(Gini importance)是随机森林算法分类器中的一种隐式计算方法，该重要性分析是随机森林所有决策树上平均节点杂质减少的总和。

4模型优化及训练

随机森林分类算法(random forest,RF)是一种基于决策树的高效机器学习算法。本申请选择RF算法作为模型构建的基础算法是因为其在模型训练和样本预测中具有快速的计算时间，并且在预处理阶段对训练集数量的要求较低，并且在观察结果出现缺失值时仍能够进行预测。

随机森林算法是一种集成的机器学习算法，它基于多个决策树T＝{T₁(x),T₂(x),...,T_k(x)}。在随机森林构建的过程中，第一步是从原始训练样本集D中有放回的随机选择k个样本以生成新的训练样本数据集

并构建k个决策树T_k(x)。此外，每次未被挑选到的样本数据构成另一个数据集，称为袋外数据(out-of-bag data,OOB)。第二步是从决策树T_k(x)的每个节点中的特征集中随机选择一个由M个特征组成的特征组。然后，通过对决策树中的每个叶子节点递归地执行上述步骤，直到决策树可以在最小节点数量下准确标识出所有训练数据集

并以此来构建随机森林树。在训练过程中，本申请使用识别回归树(CART)来将决策树的每个节点中的M个特征划分为m个子特征，并使用基尼重要性(Giniimportance)作为划分过程的标准。

随机森林算法的准确性取决于训练过程中的参数选择，而通常情况下，单单依靠经验很难选择出最佳参数，对模型的分类和预测结果的准确性产生较大影响。而网格搜索优化(Grid Search Optimization,GSO)是一种通过遍历变量的网格空间区域搜索寻找满足约束函数的最佳网格点(参数值)的方法，被广泛用于分类算法的参数优化中。但是，在网格上搜索最优参数需要花费大量时间。本申请提出了一种改进的GSO算法(improved GSOalgorithm,IGSO)，以提高训练速度，并与随机算法结合，构建一个优化的棕榈种植园识别模型(IGSO-RF)。为了加快网格搜索优化在变量的网格空间中的搜索时间，本申请先使用长距离步长进行大范围的粗略搜索，并使用小距离步长将网格划分为最佳点；另外，本申请提出基于OOB错误率和信息熵的估算函数f_OOB用于估计目标函数值的泛化误差，从而可以评估决策树的强度以及决策树之间的相关性。

假设随机森林分类模型在袋外数据OOB_N(x)上分类正确的数量为n，分类错误的数量为N-n，错误率e_n，信息熵为H(n)，则函数f_OOB的定义如下：

其中，

IGSO算法具体步骤如下：

(1)确定随机森林算法中决策树的数目k和分裂特征数目m的搜索范围。然后，设置步长，并为参数搜索建立二维搜索网格，每个网格节点是参数k和m的键值对。

(2)为网格节点上的每个参数集构建一个随机森林，并使用f_OOB估计泛化误差。

(3)选择当前具有最小泛化误差的参数值k和m，如果当前参数的泛化误差或搜索步长满足要求，则输当前最优参数和分类误差；否则，缩小搜索步长，重复上述步骤继续搜索。

5模型验证

本申请采用总体精度和卡帕系数作为特征组合与模型在棕榈种植园上的识别准确度的评价指标，验证方法采用5倍交叉验证法来对模型进行验证，其中五分之一的数据用于训练，而五分之四的数据用于模型验证。交叉验证生成了平均准确度指标及其标准偏差，为本申请的模型提供了更好的性能方面的指导。

为了验证本申请流程在识别棕榈种植园上的可行性和准确性，实验部分采用四组不同的特征组合来进行比较验证，如表2所示。结合2400验证样本数据集，计算出不同特征组合在模型中的分类结果的混淆矩阵，并使用总体精度和Kappa系数比较和分析分类结果之间的差异，如图2所示。

表2不同特征组合

在图2中，四组的总体准确性和kappa系数呈现出不同的增长趋势。对于组Ⅰ(图2(a))，只选择光谱特征作为特征变量，总准确度为85.96％，卡帕系数为0.8076。基于光谱特性，在组Ⅱ中加入SAR后向散射值后(图2(b))，总精度和Kappa系数分别提高到90.13％和0.8645，这表明SAR后向散射值有助于提升棕榈树的识别和土地分类。在组Ⅲ(图2(c))中加入植被指数和纹理特征进行棕榈树识别后，总体精度和kappa系数分别提高到93.04％和0.9045，表现出良好的识别成熟棕榈和幼龄棕榈种植园的性能。而与组Ⅲ相比，组Ⅳ(图2(c))的总体精度和kappa系数分别提高4.04％和4.61％。从实验结果可以看出，随着特征变量的逐渐增多，分类精度逐渐提高。当结合多光谱特征，SAR后向散射值，植被指数和纹理特征运用于模型训练时，能取得较好的区分成熟和幼龄的棕榈种植园的效果，表明多源综合特征的合成有利于棕榈种植园的类型(成熟和幼龄)识别。此外，不同类型的特征对分类精度的敏感性也不同，与没有特征选择的特征组合相比，优选子集可以更有效地提高分类精度，并且它对于从裸露的地面中识别幼龄的棕榈种植园具有最佳的性能。

图3为不同分类模型在不同特征组合下的准确度，其中，IGSO-RF为基于改进网格搜索优化的随机森林算法，RF为随机森林算法，SVM为支持向量机，CART为决策树，NB为朴素贝叶斯，MD为最小距离法。从图3可以看出，本申请所提出的IGSO-RF是四组中精度最高的模型(kappa＝0.8076、0.8645、0.9045和0.9462)，其次是组Ⅰ和Ⅱ的SVM(kappa＝0.7794和0.8471)，以及组Ⅲ和Ⅳ的随机森林算法(kappa＝0.8741和0.9165)。从结果可以看出，在使用所有特征组合的情况下，随机森林的性能明显优于支持向量机和其他分类算法。此外，本申请所提出的IGSO-RF使用IGSO算法优化随机森林算法的输入参数，从而更进一步地提高分类精度，并获得更好的棕榈种植园识别结果。除了在特征组合Ⅰ下的NB和MD算法外，其他模型在四组不同特征组合下kappa值均维持在75％以上，并呈现出相似的增长趋势，在特征组合Ⅳ下kappa值达到最高。

通过基尼系数进行特征优选的结果如图4所示。基尼系数方法总共挑选了来自Landsat-8和Sentinel-1中的15个特征，其中9个是从Landsat-8影像获取，剩余6个来自Sentinel-1影像。从结果可以看出，SAR后向散射值排名最前，VH，VV波段以及标准差在分类模型中显示出较高的基尼系数，这表明这三个特征对于棕榈种植园的识别非常重要。实验结果还表明，纹理信息和植被指数可用于植被分类，并且纹理特征比植被指数特征更更有效地提高棕榈种植园的识别精度。

图5展示了利用组Ⅲ的特征变量在随机森林和利用组Ⅳ中的特征变量在IGSO-RF算法进行棕榈种植园的识别结果。通过与Landsat-8遥感影像的直观比较(图5a)，图5c说明了使用优选特征训练的IGSO-RF模型在识别精度上的提升，这表明本申请提出的IGSO-RF分类模型和优选特征子集解决了目前识别幼龄棕榈种植园的主要问题。此外，基于特征选择，通过使用IGSO算法优化随机森林算法的参数，使得油棕种植园的总体识别精度显著提高了8.2％。

图6展示了使用来自Landsat-8和Sentinel-1融合影像的优选特征后，2019年印度尼西亚廖内省棕榈种植园识别结果。识别出的棕榈种植园总面积为38,721平方公里，占廖内省土地面积的38.6％。在这其中，成熟棕榈种植园占70.8％，幼龄棕榈种植园占29.2％。

棕榈树的迅速扩张是导致热带地区，特别是东南亚地区森林大量砍伐和气候及生态系统遭受破坏的主要驱动力，因此必须有效地监测和管理植被，以保护森林的生态系统服务和生物多样性。与易受云层影响的光学数据相比，Sentinel-1SAR(双极化C波段合成孔径雷达)提供了全天候的全球观测数据，在潮湿的热带地区拥有良好的棕榈树的识别能力。

SAR图像由SAR(合成孔径雷达)系统产生，这是一种主动式的对地观测系统，可安装在飞机、卫星、宇宙飞船等飞行平台上，全天时、全天候对地实施观测、并具有一定的地表穿透能力。

本申请通过融合Landsat-8和Sentinel-1图像来提高植被类型(成熟或幼龄)和面积的识别准确性。该方法首先从融合的数据影像中提取多时相光谱特征，SAR后向散射值，植被指数和纹理特征作为特征组合；其次，使用基尼系数(Gini)分析特征组合并挑选出最佳特征子集；最后提出IGSO-RF算法用于解决参数选取敏感问题并输入最佳特征子集建立植被分类模型，并应用于棕榈种植园的识别监测上。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims

1.一种植被识别方法，其特征在于：所述方法包括如下步骤：

步骤1：将第一卫星光学遥感图像和第二卫星合成孔径雷达图像融合，得到融合影像数据；

步骤2：从所述融合影像数据中提取信息特征组合；

步骤3：计算所述特征的权重值，并挑选出最优子集作为模型训练集；

步骤4：优化随机森林算法得到改进的随机森林算法，采用所述改进的随机森林算法和所述模型训练集训练出植被识别分类模型；

步骤5：对所述植被识别分类模型进行验证后得到识别结果。

2.如权利要求1所述的植被识别方法，其特征在于：所述第一卫星光学遥感图像为陆地8号卫星的光学遥感图像，所述第二卫星合成孔径雷达图像为哨兵1号卫星的合成孔径雷达图像；所述步骤1在谷歌地球引擎中分别合成陆地8号卫星的光学遥感图像和哨兵1号卫星的合成孔径雷达图像，将所述光学遥感图像和所述合成孔径雷达图像进行融合。

3.如权利要求2所述的植被识别方法，其特征在于：选取所述陆地卫星8号的光学图像中30米分辨率的蓝波段，绿波段，红波段和近红外波段，以及所述哨兵1号卫星的合成孔径雷达图像中的由垂直发射再垂直接收的单同极化波段和由垂直发射再水平接收的双交叉极化波段进行融合，得到融合影像数据。

4.如权利要求1所述的植被识别方法，其特征在于：所述信息特征组合包括多时相光谱特征，合成孔径雷达后向散射值，植被指数和纹理特征。

5.如权利要求1所述的植被识别方法，其特征在于：所述步骤3采用基尼系数计算所述特征的权重值。

6.如权利要求1所述的植被识别方法，其特征在于：所述改进的随机森林算法为采用改进的网格搜索优化算法寻找出最优参数值，得到改进的随机森林。

7.如权利要求6所述的植被识别方法，其特征在于：所述改进的网格搜索优化算法包括先确定随机森林算法中决策树的数目k和分裂特征数目m的搜索范围，设置长距离步长进行大范围的粗略搜索，并为参数k和m搜索建立二维搜索网格，根据网格节点上的每个参数值构建一个随机森林，并使用估算函数来估计泛化误差，选择当前具有最小泛化误差的参数值k和m，如果当前参数的泛化误差或搜索步长满足要求，则输出当前最优参数和分类误差；否则，缩小搜索步长，重复上述步骤继续搜索。

8.如权利要求6所述的植被识别方法，其特征在于：所述改进的网格搜索优化算法包括采用袋外数据的信息熵和错误率作为估算函数来评估不同的参数对于随机森林构建的合理程度。

9.如权利要求1所述的植被识别方法，其特征在于：所述验证采用5倍交叉验证法来对所述植被识别分类模型进行验证，其中五分之一的数据用于训练，五分之四的数据用于所述植被识别分类模型验证。

10.一种植被识别方法的应用，其特征在于：将权利要求1～9中任一项所述的植被识别方法应用于棕榈种植园识别。