CN116310864A

CN116310864A - 一种作物倒伏自动识别方法、系统、电子设备及介质

Info

Publication number: CN116310864A
Application number: CN202310137820.4A
Authority: CN
Inventors: 朱秀芳; 郭锐
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-23

Abstract

本发明公开一种作物倒伏自动识别方法、系统、电子设备及介质，涉及作物倒伏识别领域，通过获取待识别区域灾害前后的哨兵1号数据和哨兵2号数据，对获取的数据进行处理，构成波段差值特征集、指数特征集和纹理特征集，利用递归特征消除法对上述特征集进行特征筛选，并根据筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；根据倒伏样本和非倒伏样本，利用监督分类器提取灾后未被水体淹没的作物覆盖区域内的倒伏范围。本发明中提出了先基于孤立森林算法自动化提取倒伏样本和非倒伏样本，再基于随机森林监督分类器确定倒伏范围的算法，提高了作物倒伏识别的精度。

Description

一种作物倒伏自动识别方法、系统、电子设备及介质

技术领域

本发明涉及作物倒伏识别领域，特别是涉及一种作物倒伏自动识别方法、系统、电子设备及介质。

背景技术

作物倒伏是指直立生长的作物成片发生歪斜，甚至全株匍倒在地的现象。倒伏是作物生产中普遍存在的问题，已成为高产稳产的重要限制因素之一。不合理的施肥、灌水和种植密度等栽培措施都有可能造成倒伏，而倒伏发生后若及时采取田间排水、作物扶起等管理措施将显著降低产量损失。因此，快速识别作物倒伏范围对于优化防灾减灾措施、制定合理的农业管理政策、确保作物产量稳定等方面有着重要意义。

多光谱遥感数据能很好的反映植被的生长状况、冠层结构等，被广泛用于倒伏识别。然而，在恶劣的天气条件下，高质量可见光多光谱遥感数据获取受限，而雷达遥感影像具有全天时、全天候、不受天气条件的影响的优点，尤其适合进行倒伏监测。为此，大量研究同时使用了光学遥感影像和雷达遥感影像进行倒伏识别，从而更好的综合数据优势，提高识别精度。此外，多个研究者指出使用单一时相的光学数据难以避免倒伏识别过程中作物自身生长等因素带来的干扰，往往需采用时序影像或多期影像进行监测。

目前，倒伏识别使用的方法基本都是基于较成熟的机器学习、深度学习算法，例如随机森林算法、支持向量机SVM算法、最大似然分类(MLC)算法、XGBoost算法、迁移学习、Unet、SegNet等。上述算法均可以较好的实现倒伏识别，但都需要人工选取和标注样本。在基于遥感影像进行作物倒伏等作物生长异常监测的过程中，人工参与获取样本会大幅提高倒伏识别的时间成本和经济成本，因此，探索一种无需人工参与、泛化能力强、自动化程度高的倒伏识别方法是研究者们努力的方向。

倒伏事件作为台风、暴雨等极端天气事件引发的作物异常事件，可以通过异常检测技术来进行识别。孤立森林算法是一种非监督的异常检测算法，该算法将异常点定义为较易从所有样本点中分离的样本点，无需规定正常样本点的范围和模式，无需计算有关距离和密度的指标，通过计算样本点的异常得分即可实现异常检测，被广泛应用于网络安全中的攻击检测、金融交易欺诈检测、噪声数据过滤等领域。目前，孤立森林算法在遥感领域的应用还较少，尚未有研究将孤立森林算法应用在倒伏识别中。且现有研究中基于孤立森林算法进行二值化(异常与正常)的判别均引入了阈值分割算法，而实际应用过程中阈值两侧的样本点往往具备相似的特征，难以仅通过阈值将数据可靠地区分为属性截然相反的两类，这会导致模型不确定性增加，从而降低作物倒伏识别的精度。

发明内容

本发明的目的是提供一种作物倒伏自动识别方法、系统、电子设备及介质，以提高作物倒伏识别的精度。

为实现上述目的，本发明提供了如下方案：

一种作物倒伏自动识别方法，包括：

获取待识别区域的灾害前哨兵1号数据、灾害前哨兵2号数据、灾害后哨兵1号数据和灾害后哨兵2号数据；所述待识别区域为发生灾害的作物生长区域；

根据所述灾害前哨兵1号数据、所述灾害前哨兵2号数据、所述灾害后哨兵1号数据和所述灾害后哨兵2号数据，计算特征集；所述特征集包括波段差值特征集、指数差值特征集和纹理特征集；

利用递归特征消除法对所述特征集进行特征筛选，得到筛选后的特征集；

根据所述筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；所述灾后未被水体淹没的作物覆盖区域是在所述待识别区域内根据所述灾害后哨兵2号数据以及Dynamic World数据集确定的；

根据所述倒伏样本和所述非倒伏样本，利用随机森林监督分类器提取所述灾后未被水体淹没的作物覆盖区域内的倒伏范围。

可选地，所述灾后未被水体淹没的作物覆盖区域的确定过程，具体包括：

获取DynamicWorld数据集以及所述灾害后哨兵2号数据的特征数据集；所述特征数据集包括所述灾害后哨兵2号数据的第二波段数据和第二指数数据；所述第二指数数据包括归一化植被指数、增强型植被指数、红边位置指数、修正红边归一化植被指数和地表水体指数；所述第二波段数据为多光谱遥感数据；

根据所述DynamicWorld数据集确定初始耕地覆盖数据；所述初始耕地覆盖数据是所述DynamicWorld数据集中标签为4的数据；

根据所述初始耕地覆盖数据，得到初始耕地覆盖范围；

利用ISODATA算法对所述特征数据集进行非监督分类，得到分类结果；

在所述分类结果中选取归一化植被指数平均值最小和双极化水指数平均值最大的一类作为水体类型；

在所述初始耕地覆盖范围去除所述水体类型，得到灾后未被水体淹没的作物覆盖区域。

可选地，根据所述灾害前哨兵1号数据、所述灾害前哨兵2号数据、所述灾害后哨兵1号数据和所述灾害后哨兵2号数据，计算特征集，具体包括：

计算所述灾害前哨兵1号数据的第一指数数据和所述灾害后哨兵1号数据的第一指数数据；所述第一指数数据包括雷达植被指数和双极化水指数；

计算所述灾害前哨兵2号数据的第二指数数据和所述灾害后哨兵2号数据的第二指数数据；

计算所述灾害后哨兵1号数据的第一指数数据相对于所述灾害前哨兵1号数据的第一指数数据的第一差值、所述灾害后哨兵2号数据的第二指数数据相对于所述灾害前哨兵2号数据的第二指数数据的第二差值，并构成指数差值特征集；

计算所述灾害后哨兵1号数据的第一波段数据相对于所述灾害前哨兵1号数据的第一波段数据的第三差值以及所述灾害后哨兵2号数据的第二波段数据相对于所述灾害前哨兵2号数据的第二波段数据的第四差值，并构成波段差值特征集；所述第一波段数据为雷达遥感数据；所述第二波段数据为多光谱遥感数据；

计算所述指数差值特征集和所述波段差值特征集的纹理特征，得到纹理特征集；所述纹理特征包括均值、方差、同质性、对比度、不相似性、熵、角二阶矩和相关性。

可选地，利用递归特征消除法对所述波段差值特征集、所述指数差值特征集和所述纹理特征集进行特征筛选，得到筛选后的特征集，具体包括：

利用所述递归特征消除法对所述纹理特征集进行筛选，得到最优纹理特征集；

将所述最优纹理特征集与所述波段差值特征集和所述指数差值特征集重新组合，得到重新组合后的特征集；

利用所述递归特征消除法对所述重新组合后的特征集进行筛选，得到所述筛选后的特征集。

可选地，根据所述筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本，具体包括：

将所述筛选后的特征集中与所述灾后未被水体淹没的作物覆盖区域的像元对应的数值输入至孤立森林算法，得到每个像元的归一化异常得分；

根据每个像元的所述归一化异常得分，确定归一化异常得分直方图；

根据所述归一化异常得分将所述灾后未被水体淹没的作物覆盖区域的像元按升序排序且划分为n组像元集；

计算每组所述像元集的变异系数，将n个变异系数拟合为变异系数曲线；

根据所述变异系数曲线计算像元的变异系数贡献率；

去除n组像元集中累计变异系数贡献率小于0.99的像元集，得到纯化作物像元组；

根据所述变异系数贡献率在所述纯化作物像元组中确定倒伏样本和非倒伏样本；倒伏样本为直方图百分位在[x_p＝0.99+5％，x_p＝0.99+10％]区间的像元，非倒伏样本为直方图百分位在[95％，100％]区间的像元；x_p＝0.99为变异系数贡献率为0.99处的归一化异常得分直方图的百分位。

一种作物倒伏自动识别系统，包括：

数据获取模块，用于获取待识别区域的灾害前哨兵1号数据、灾害前哨兵2号数据、灾害后哨兵1号数据和灾害后哨兵2号数据；所述待识别区域为发生灾害的作物生长区域；

特征计算模块，用于根据所述灾害前哨兵1号数据、所述灾害前哨兵2号数据、所述灾害后哨兵1号数据和所述灾害后哨兵2号数据，计算特征集；所述特征集包括波段差值特征集、指数差值特征集和纹理特征集；

数据筛选模块，用于利用递归特征消除法对所述波段差值特征集、所述指数差值特征集和纹理特征集进行特征筛选，得到筛选后的特征集；

倒伏识别模块，用于根据所述筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；所述灾后未被水体淹没的作物覆盖区域是在所述待识别区域内根据所述灾害后哨兵2号数据以及DynamicWorld数据集确定的；

倒伏范围确定模块，用于根据所述倒伏样本和所述非倒伏样本，利用随机森林监督分类器提取所述灾后未被水体淹没的作物覆盖区域内的倒伏范围。

一种电子设备，包括：存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的作物倒伏自动识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的作物倒伏自动识别方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明的作物倒伏自动识别方法，通过获取待识别区域灾害前后的哨兵1号数据和哨兵2号数据，对获取的数据进行处理，构成特征集，利用递归特征消除法对所述特征集进行特征筛选，并根据筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；根据所述倒伏样本和所述非倒伏样本，利用监督分类器提取所述灾后未被水体淹没的作物覆盖区域内的倒伏范围。本发明中提出了先基于孤立森林算法自动化提取倒伏样本和非倒伏样本，再基于随机森林监督分类器确定倒伏范围的算法，以实现基于遥感影像在无人工干预情况下对大范围农作物进行低成本、高精度、高自动化的倒伏识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的作物倒伏自动识别方法流程图；

图2为本发明的作物倒伏自动识别方法在实际应用中的流程图；

图3为本实施例中的第一次特征筛选曲线图；

图4为本实施例中的第二次特征筛选曲线图；

图5为本实施例中的归一化异常得分示意图；

图6为本实施例中基于变异系数的像元提取过程示意图；其中，图6(a)为变异系数曲线图；图6(b)为变异系数贡献率示意图；图6(c)为最终提取的像元在归一化异常得分直方图中的位置示意图；

图7为本实施例中倒伏和非倒伏样本示意图；

图8为本实施例中倒伏程度示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种作物倒伏自动识别方法、系统、电子设备及介质，提高了作物倒伏识别的精度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

以2020年9月3日受台风“美莎克”侵袭发生倒伏灾害的黑龙江省大庆市肇源县薄荷台乡为具体实施例，对本发明的方法进行说明。

2020年9号超强台风美莎克于9月3日23时到达薄荷台乡，此时台风中心最大风力有8级(18米/秒)，并持续向西北方向移动，黑龙江省于9月2日14时起启动防汛IV级应急响应，于9月2日14时30分启动气象灾害(大风、暴雨)Ⅲ级应急响应。该台风造成黑龙江、吉林等地城区大面积停电停水，乡镇部分房屋受损，玉米等农作物大面积倒伏。

如图1和图2所示，本发明提供的作物倒伏自动识别方法，包括：

步骤101：获取待识别区域的灾害前哨兵1号数据、灾害前哨兵2号数据、灾害后哨兵1号数据和灾害后哨兵2号数据；所述待识别区域为发生灾害的作物生长区域。

本发明使用的数据主要分为航天影像数据(哨兵数据)、航空影像数据(无人机数据)、地表类型分布产品。

航天影像数据包括谷歌地球引擎的公共数据存档提供的哨兵1号数据、哨兵2号数据，其中哨兵1号数据可在GEE平台上通过链接ee.ImageCollection("COPERNICUS/S1_GRD")获取，本发明选用了哨兵1号数据中IW(干涉宽幅)模式下双频波段VV和VH；哨兵2号数据是多光谱仪器表面反射率数据，可在GEE平台上通过链接ee.ImageCollection("COPERNICUS/S2_SR_HARMONIZED")获取，本发明选用了哨兵2号数据的第2-8A波段和第11波段。以上数据的具体波段信息及时相信息如表1和表2所示。

表1哨兵1号数据表

表2哨兵2号数据表

本发明使用的无人机数据是2020年9月28日对黑龙江省大庆市肇源县薄荷台乡进行航拍获取的，覆盖了薄荷台乡124.0°E―125.5°E，45.48°N―45.54°N范围内的部分区域，覆盖面积约为5km²。拍摄所使用的无人机为垂起FK-001，搭载的相机为SONYa7r，传感器型号为ExmorCMOS，传感器尺寸为35.9mm×24mm，有效像素为3640万，影像尺寸7360×4912像素，像元尺寸4.9μm×4.9μm，航拍时高度为410m，旁向重叠率70％，航向重叠率70％，所获得影像地面分辨率为0.06m。对无人机影像进行的处理包括数据质量检查、影像特征点提取、影像匹配、空中三角测量与区域网平差、生成数字高程模型、正射校正生成数字正射影像等。该无人机数据的作用有两个：一个是通过目视解译的方法获得用于特征筛选和精度验证所需的样本点；另一个是通过数字化的方式得到研究区内不同类型的作物地块分布数据。

本发明使用的地表类型数据来自Google发布的DynamicWorld数据库，可在GEE平台上通过“GOOGLE/DYNAMICWORLD/V1”获取。Dynamic World是一个近乎实时的10m分辨率全球土地利用土地覆盖数据集，基于10m分辨率的Sentinel-2影像(哨兵2号数据)使用深度学习制作，包括9个地表利用类型的概率信息和标签信息。本发明基于2020年8月21日的DynamicWorld数据集提取研究区的耕地像元。

步骤102：根据所述灾害前哨兵1号数据、所述灾害前哨兵2号数据、所述灾害后哨兵1号数据和所述灾害后哨兵2号数据，计算特征集；所述特征集包括波段差值特征集、指数差值特征集和纹理特征集。

进一步地，所述步骤102，具体包括：

计算所述灾害前哨兵1号数据的第一指数数据和所述灾害后哨兵1号数据的第一指数数据。所述第一指数数据包括雷达植被指数和双极化水指数。

计算所述灾害前哨兵2号数据的第二指数数据和所述灾害后哨兵2号数据的第二指数数据；所述第二指数数据包括归一化植被指数、增强型植被指数、红边位置指数、修正红边归一化植被指数和地表水体指数。

计算所述灾害后哨兵1号数据的第一波段数据相对于所述灾害前哨兵1号数据的第一波段数据的第三差值以及所述灾害后哨兵2号数据的第二波段数据相对于所述灾害前哨兵2号数据的第二波段数据的第四差值，并构成波段差值特征集。

在实际应用中，本发明基于GEE平台对Sentinel-1数据和Sentinel-2数据进行预处理。对于Sentinel-1数据，首先参照Mullissaetal.给出的谷歌地球引擎中对Sentinel-1SAR后向散射数据预处理的框架，对每幅Sentinel-1数据进行边界噪声校正、斑纹过滤和辐射地形归一化。之后，分别计算灾害前和灾害后各期影像的中值，再进一步筛选与该中值数据平均差异最小的影像进行镶嵌，得到灾害前合成雷达影像和灾害后合成雷达影像。对于Sentinel-2数据，首先对每幅Sentinel-2数据进行去云处理，去云处理是利用Sentinel-2数据中质量评估波段QA60进行的，掩膜该波段像元值比特位10和11为0的像元，其分别代表云和卷云像元。之后，将所有波段重采样至10米分辨率。最终，分别计算灾害前和灾害后各期影像的中值，再进一步筛选与该中值数据平均差异最小的影像进行镶嵌，得到灾害前合成多光谱影像和灾害后合成多光谱影像。

倒伏识别中选用的指数主要包含用于反映植被生长状况的植被指数和用于反映地表水分含量的水体指数。通过调研之前研究中常使用的指数，并综合考虑本发明数据源的波段特点，本发明计算了用于倒伏识别的7种水体和植被指数，具体包括基于Sentinel-1数据计算雷达植被指数(RVI)和哨兵一号双极化水指数(SDWI)，基于Sentinel-2数据计算的归一化植被指数(NDVI)、增强型植被指数(EVI)、红边位置指数(REP)、修正红边归一化植被指数(MNDVI705)和地表水体指数(LSWI)，见表3。其中，RVI对植被含水量和植物结构较敏感，SDWI在复杂地表环境下进行大范围水体信息提取时有较好的表现，REP和MNDVI705对绿色植物生长状况的生化参数更为敏感，LSWI对土壤和植被液态水含量较为敏感。

表3指数计算数据与公式统计表

其中，VH是交叉极化波段，VV是垂直极化波段，NIR是近红外波段，RED是红波波段，BLUE是蓝波波段，RE1，RE2，RE3是哨兵2的三个红边波段，SWIR是哨兵2号的短波红外波段。

使用多期数据差值进行倒伏识别，可以较好的避免作物品种差异、混合像元、作物播种时间差异等因素造成的误判，提高倒伏识别精度。本发明计算灾害后相对于灾害前的哨兵1号数据的雷达遥感数据(第一波段数据)差值和上述第一指数数据的差值、灾害后相对于灾害前的哨兵2号数据的多光谱遥感数据(第二波段数据)差值和上述第二指数数据的差值，得到了包含18个差值特征的差值特征集。

纹理是一种反映图像中同质现象的视觉特征，它体现了物体表面具有缓慢变化或者周期性变化的表面结构组织排列属性。许多研究指出，纹理特征在倒伏识别中十分重要，倒伏和非倒伏作物的纹理特征体现出了显著的数值差距。因此，本发明基于灰度共生矩阵(GLCM)，进一步计算了上述18个差值特征的纹理。计算纹理的窗口大小为5×5，步长为1，方向为45°，纹理的类型包括均值，方差，同质性，对比度，不相似性，熵，角二阶矩，相关性8类，最终得到共计144个纹理特征数据，构成纹理特征集。

步骤103：利用递归特征消除法对所述波段差值特征集、所述指数差值特征集和纹理特征集进行特征筛选，得到筛选后的特征集。

进一步地，所述步骤103，具体包括：

利用所述递归特征消除法对所述纹理特征集进行筛选，得到最优纹理特征集。

基于随机森林分类器的RFE算法对144个纹理特征进行筛选，结果如图3所示。随着特征数量的增加，分类精度显著提升，当特征数量为7时，分类精度达到最高，为0.8755，之后随着特征数量的增加，模型分类精度呈现小范围波动且不断下降的趋势。当特征数量为7时，所选择的最优纹理特征集包括RedEdge1、RedEdge2、RedEdge4、SWIR波段，NDVI、mNDVI705、LSWI指数对应的均值纹理特征。

将所述最优纹理特征集与所述波段差值特征集和所述指数差值特征集重新组合，得到重新组合后的特征集。

基于RFE算法对重新组合后的特征集进行特征筛选，结果如图4所示。图4中X轴表示输入RFE算法的特征数量；左Y轴表示特征，被RFE算法选中的特征用蓝色点亮，蓝色的深浅表示该特征在RFE算法中的重要程度；右Y轴表示RFE算法的精度。例如，当RFE算法的特征为1时，只有SWIR被选中，此时RFE算法的精度为0.7845。随着RFE算法中特征数量的增加，RFE算法精度显著提高；在特征数量为5时，RFE算法精度开始小范围波动并缓慢提高，直至特征数量达到18时RFE算法精度最高，为0.8932。此时选中的特征为最适用于倒伏识别的特征。

在实际应用中，本发明使用基于随机森林分类器的递归特征消除(RFE)算法选取适用于倒伏识别的最优特征组合，并对特征贡献进行评价。RFE算法是一种贪婪优化算法，通过对特征子集进行多次训练以找到性能最佳的特征子集。基于随机森林分类器的RFE算法具体步骤如下：1)将k个特征作为初始特征数据集输入至随机森林分类器中，计算每个特征的重要性，并利用交叉验证的方式计算初始特征子集的精度；2)从当前特征子集中移除特征重要性最低的一个特征，得到一个新的特征子集，将其再次输入至随机森林分类器中，计算新特征子集中每个特征的重要性，并利用交叉验证的方式计算新特征子集的精度；3)迭代重复步骤2)，直至所有特征都耗尽为止，最终得到k个不同特征数量的特征子集，选择当中精度最高的特征子集作为最优特征组合。

本发明利用灾后无人机数据，通过目视解译的方式勾选共计579个样本作为RFE算法中随机森林分类器的样本数据。为了综合使用各类特征，避免特征共线性问题，提高倒伏识别精度，本发明的特征筛选分为两步进行。首先，对144个纹理特征集进行筛选，得到用于倒伏识别的最优纹理特征集；之后，将最优纹理特征集与波段差值特征集和指数差值特征集重新组合，并对其再次进行筛选，得到最终用于倒伏识别的特征集(筛选后的特征集)。

通过分析选中的特征类型，可以发现遥感波段差值特征体现了最高的重要性，其次为纹理特征，而遥感指数差值特征的重要性则明显低于前二者。遥感波段差值特征中，重要性最高的为SWIR波段，SWIR比其他波段拥有更强的大气穿透力，且对于植被水分含量有较为明显的吸收特征；其次，Red、Green波段在分类中也体现了较高的重要性；所有的RedEdge波段均被选中，红边波段能够精准的反应作物生长状况，对于识别倒伏作物十分重要。遥感指数差值特征中重要性最高的是基于RedEdge波段计算的mNDVI705指数，其次为基于SWIR波段计算LSWI指数，最后为NDVI指数。指数差值特征的重要性基本继承了计算其所使用波段的重要性，指数差值特征并未体现出相对于单波段差值特征的信息优势。经过第一步特征筛选得到的纹理特征中，除Green波段外的均值纹理特征均被选中，其中重要性最高的为mNDVI705和RedEdge1的均值纹理特征。

表4筛选后的纹理特征集示意表

步骤104：根据所述筛选后的纹理特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；所述灾后未被水体淹没的作物覆盖区域是在所述待识别区域内根据所述灾害后哨兵2号数据以及DynamicWorld数据集确定的。

进一步地，所述灾后未被水体淹没的作物覆盖区域的确定过程，具体包括：

获取DynamicWorld数据集以及所述灾害后哨兵2号数据的特征数据集。所述特征数据集包括所述灾害后哨兵2号数据的第二波段数据和第二指数数据。

根据所述DynamicWorld数据集确定初始耕地覆盖数据；所述初始耕地覆盖数据是所述DynamicWorld数据集中标签为4的数据。

根据所述初始耕地覆盖数据，得到初始耕地覆盖范围。

利用ISODATA算法对所述特征数据集进行非监督分类，得到分类结果。

在所述分类结果中选取归一化植被指数平均值最小和双极化水指数平均值最大的一类作为水体类型。

在实际应用中，由于倒伏灾害往往伴随强降雨天气，作物遭受倒伏和洪涝的双重侵害，导致受灾前的耕地像元在灾后一部分转为水体像元。若仍使用灾害发生前的耕地覆盖范围作为研究区域，在后续倒伏识别中往往会将被水淹没的农田范围归为倒伏农田，从而影响识别精度，因此，应在受灾后未被水淹没的耕地覆盖范围内进行倒伏识别工作。

本发明基于8月21日的DynamicWorld数据集和灾害后哨兵2号数据提取灾害发生后的耕地覆盖范围(灾后未被水淹没的耕地覆盖范围)。首先，提取DynamicWorld数据集中标签信息为4(耕地)的数据作为初始耕地覆盖数据；再利用ISODATA算法对受灾后的哨兵二号波段数据(第二波段数据)和第二指数数据组成的数据集进行非监督分类，并定义数据中包含的地表覆盖类型为4类，即本发明的待识别区域的影像中最常见的水体、裸地、植被、建筑物4类。在该分类结果中，选取各类别中类内NDVI平均值最低，SDWI平均值最高的一类作为水体类型，并从初始耕地覆盖范围中去除该部分水体类型，得到灾后未被水淹没的耕地覆盖区域。

进一步地，所述步骤104，具体包括：

步骤1041：将所述筛选后的特征集中与所述灾后未被水体淹没的作物覆盖区域的像元对应的数值输入至孤立森林算法，得到每个像元的归一化异常得分。

在实际应用中，本发明使用Scikit-learn工具包中的孤立森林算法，将灾后未被水淹没的耕地覆盖区域内的每个像元作为一个样本，将筛选后的纹理特征集中与样本对应的数值输入孤立森林算法，计算每个像元的归一化异常得分。归一化异常得分区间为[-1,1]，越靠近-1代表该像元异常程度越高，越靠近1代表该像元异常程度越低，即归一化异常得分越小的像元越有可能是倒伏像元。

本发明提取的灾后未被水体淹没的作物覆盖区域内进一步提取倒伏和非倒伏样本。受限于遥感数据有限的空间分辨率和DynamicWorld数据集本身分类误差的影响，提取出的耕地覆盖区域内的像元可能包含部分混合像元(一种像元内包含多种地物类型)、误分的非耕地像元等。其次，倒伏与非倒伏样本的提取原则上应在作物像元内进行，而上一步提取出的耕地覆盖区域内的像元可能包括部分非作物像元，例如裸地像元、混入的灌木像元等。上述两种情况都会对倒伏和非倒伏样本的提取造成干扰。在当前提取的耕地覆盖区域内，其他地物类型像元数量是少数，且相比于耕地像元中倒伏作物像元和非倒伏作物像元之间的差异，其他地物类型像元与作物像元之间的差异是更大的，即其他地物类型像元计算出的异常得分值更靠近-1。同时，不同类型样本的特征数据一定存在类内差异小、类间差异大的特点，如果选用变异系数来刻画数据离散程度，则同类别像元的特征数据的变异系数应该越小，而不同类别的像元的特征数据的变异系数应该更大。因此，对耕地覆盖区内的像元按照异常得分排序并分组，变异系数大且异常程度高(也即异常得分值低，接近-1)的分组更可能是非作物像元之间的混合或者是非作物像元(或混合像元)和作物像元的混合，相反变异系数小且异常程度低(也即异常得分值高，接近1)的分组更可能是纯净的作物像元。

基于上述分析，通过计算耕地覆盖区域内像元的归一化异常得分的变异系数来进行倒伏和非倒伏像元的提取。具体包括四个步骤：直方图统计与像元分组、变异系数计算与曲线拟合、变异系数贡献率计算和像元提取。

步骤1042：根据每个像元的所述归一化异常得分，确定归一化异常得分直方图。

基于孤立森林计算的耕地归一化异常得分如图5所示，通过色带的深浅表示像元异常程度的大小，颜色越深(取值越靠近-1)则异常程度越大。

步骤1043：根据所述归一化异常得分将所述灾后未被水体淹没的作物覆盖区域的像元按升序排序且划分为n组像元集。

在实际应用中，计算归一化异常得分的直方图，并按照归一化异常得分从小到大的顺序将像元分为20组像元集，即每组像元集包含总像元数5％的像元。

步骤1044：计算每组所述像元集的变异系数，将n个变异系数拟合为变异系数曲线。

在实际应用中，计算每组像元集的变异系数，获得20个变异系数样本点。变异系数是概率分布离散程度的归一化量度，其值为标准差(σ)与平均值(μ)的比值，可通过公式(1)计算得到，公式(1)中x指直方图百分位为x％处的像元。选用自然指数函数(公式(2))将离散的20个组的变异系数拟合为连续的变异系数函数，公式(2)中，x为直方图百分位为x％的像元，y_cv为直方图百分位为x％的像元对应的拟合变异系数，a、b为函数系数。

y_cv＝a×e^-bx(2)

步骤1045：根据所述变异系数函数计算像元的变异系数贡献率。

在实际应用中，基于该变异系数函数y_cv，利用公式(3)计算变异系数贡献率p。变异系数贡献率p表示直方图百分位前x％的像元的累计变异系数值。当p>0.99时，意味着直方图百分位前x_p＝0.99％的像元贡献了99％的变异系数，而直方图百分位x_p＝0.99％至100％的像元则几乎没有贡献变异系数。一组像元的变异系数越小，意味着这组像元越同质化，即越易排除错分像元的影响。因此，本发明认定直方图百分位x_p＝0.99％至100％的像元为可以用来提取分类样本的耕地像元组。

步骤1046：去除n组像元集中累计变异系数贡献率小于0.99的像元集，得到纯化作物像元组。在实际应用中，进一步去除耕地像元组中归一化异常得分较低一侧5％的像元，以更好的排除混合像元(如作物和裸地的混合)的影响。

步骤1047：根据所述变异系数贡献率在所述纯化作物像元组中确定倒伏样本和非倒伏样本。在实际应用中，在作物像元组中，归一化异常得分值越靠近-1(越小)的像元越可能是倒伏像元，异常得分值越靠近1(越小)的像元越有可能非倒伏像元。因此，选择直方图百分位在[x_p＝0.99+5％，x_p＝0.99+10％]区间的像元作为倒伏样本，选取直方图百分位在[95％，100％]区间的像元作为非倒伏样本。

经过拟合得到的变异系数曲线如图6(a)所示，计算的变异系数贡献率如图6(b)所示，最终提取的像元在归一化异常得分直方图中的位置如图6(c)所示。当变异系数贡献率等于0.99时，直方图百分位位于18％，即直方图百分位[18％，100％]区间内的像元为可用于分类的作物像元。此时，去除作物像元直方图中异常得分较低一侧(左侧)5％的像元，取[23％，28％]区间内的像元为倒伏像元，取[95％，100％]区间内样本为非倒伏像元，包含研究区内均匀分布的104549个像元，如图7所示。

步骤105：根据所述倒伏样本和所述非倒伏样本，利用随机森林监督分类器提取所述灾后未被水体淹没的作物覆盖区域内的倒伏范围。

进一步地，步骤105，具体包括：

将所述倒伏样本和所述非倒伏样本输入至所述随机森林监督分类器中，将得到的倒伏范围，作为所述灾后未被水体淹没的作物覆盖区域内的倒伏范围。

本发明基于自动提取的训练样本，使用ArcGIS10.6影像分类工具包中提供的随机森林分类器对倒伏像元和非倒伏像元进行分类，提取随机森立分类得到的倒伏范围内的归一化异常得分数据，并利用几何间隔分类法，按照归一化异常得分从小至大的顺序将倒伏像元分为4级，分别代表不同的倒伏严重程度，分别为极重度倒伏，重度倒伏，中度倒伏，轻度倒伏，如图8所示。

下面通过将本发明的方法与现有技术中的方法进行对比，说明本发明的特性。

1.随机森林分类器的优越性

为验证随机森林分类器的优越性，本发明基于自动提取的训练样本，使用ArcGIS10.6影像分类工具包中提供的随机森林分类器、SVM分类器、最大似然法分类器对倒伏像元和非倒伏像元进行分类，提取灾后未被水体淹没的作物覆盖区域内的倒伏范围。之后，基于无人机影像选取200个倒伏点和200个非倒伏点作为精度验证的点，分别计算上述三种分类器得到的倒伏范围的总体精度和Kappa系数，对比随机森林和其他两种方法的提取精度。

本发明倒伏像元范围提取精度如表5所示。随机森林分类器的精度最高，总体精度为0.7775，kappa精度为0.5550，其次为SVM分类器，其总体精度为0.7443，kappa精度为0.4890，最后为MLC分类器，其总体精度为0.6741，kappa精度为0.3457。

表5倒伏识别的精度统计表

分类器	Kappa精度	总体精度
			RF	0.5550	0.7775
SVM	0.4890	0.7443
			MLC	0.3457	0.6741

2、特征筛选的重要性

为了分析特征筛选是否有助于提升倒伏提取精度，对比了使用全部特征和使用筛选的特征进行倒伏提取的精度，如表6所示。通过对比可以看出，进行了特征筛选的倒伏提取精度整体显著高于未进行特征筛选的精度，其中SVM算法提升最明显，总体精度提升了20.46％，其次为MLC算法，总体精度提升了20.38％，且进行特征筛选后的监督分类运算时间显著减少，尤其是随机森林算法，运算时间减少近五分之四。因此，在倒伏提取过程中，先进行特征筛选有助于提升算法精度，且大幅减少数据运算量，节省计算时间。

表6倒伏识别精度对比结果表

3、自动选取样本的可行性

为了分析基于自动选择样本的倒伏提取算法的优、劣势，基于无人机数据目视解译的倒伏样本和筛选出来的特征，利用随机森林分类器、SVM分类器、最大似然法分类器进行倒伏范围提取，并和基于自动提取的样本识别的倒伏范围的精度进行对比，结果如表7所示。基于自动选择样本的算法精度整体低于基于手动选取样本的算法精度，精度差异最小的为SVM算法，总体精度仅相差0.0962，差异最大的为MLC算法，总体精度相差0.1531。然而，高质量样本的获取往往需要额外的数据(例如本研究中所用的无人机数据)或者是外业调查，增加了工作量和成本。自动化的样本提取方法虽然牺牲了一部分精度，但人工参与度低、自由度高、业务化程度强，倒伏识别速度快，大大提升了效率、降低了成本，有很好的业务化应用潜力。此外，考虑孤立森林和随机森林结合的自动化倒伏提取精度最高，特征选择对其影响最小，在实际倒伏提取的应用中首先推荐使用孤立森林和随机森林结合的方法。

表7倒伏识别准确率对比结果表

4、算法在不同作物类型倒伏识别中的适用性

为了探讨本算法对于不同类型作物的倒伏识别的适用性，本发明根据各类型作物地块分布数据，分别提取出玉米和水稻地块，基于孤立森林和随机森林组合方法进行分作物的倒伏识别，并与整个研究区倒伏识别结果在玉米、水稻地块内的识别精度分别进行对比。如表8所示，在玉米覆盖像元进行玉米倒伏范围提取时，其整体精度为0.8025，比在全研究区耕地像元中进行倒伏范围提取时总体精度提高1.29％；在水稻覆盖像元内进行倒伏范围提取时，其整体精度为0.7375，比在全研究区耕地像元中进行倒伏范围提取时总体精度提高了0.83％。通过对比可知，针对单一作物进行的倒伏提取精度与在整个研究区进行的倒伏提取精度相近，这和本发明中选择使用灾害发生前后的差值数据进行倒伏识别有关，差值计算在一定能程度上减少了作物类型差异的影响。综上，考虑区分和不区分作物类型进行倒伏识别精度差异不大，同时获取可靠的各类型作物分布数据需要额外的工作量和数据支撑，对整体耕地像元进行倒伏提取是更加经济、高效的方法。

表8倒伏识别精度统计表

本发明使用了哨兵1号和哨兵2号数据，探究了雷达遥感数据和光学遥感数据在倒伏检测中的实用性，并通过特征筛选过程综合分析了适用于倒伏检测的特征波段，为使用哨兵数据进行倒伏检测或其他农作物灾害检测的相关研究提供借鉴。本发明提出了一套基于孤立森林的自动化样本提取方法，改进了目前需要大量的地面数据和人工参与工作做支撑的样本提取的方法，该方法极大的提高了样本提取的效率，且具有普适性的应用价值，对于农作物遭遇的洪涝、秸秆燃烧、冰雹等其他灾害范围检测同样适用。本发明是最先将孤立森林算法应用至遥感影像分类样本自动提取的研究，为将异常识别领域的机器学习算法应用到遥感领域中提供了参考。本发明提出了先基于孤立森林算法自动化提取倒伏或非倒伏样本，再基于监督分类器进行倒伏识别的顺序化集成算法，并推荐在监督分类过程中选用随机森林分类器。基于本发明制作的倒伏分布图可以服务于倒伏范围的快速识别，为踏田估损、保险理赔金准备、抢险救灾等工作提供了第一手资料。同时本发明提出的方法为将异常识别领域的机器学习算法应用到遥感领域中提供了参考。

本发明基于孤立森林算法，提出了一种利用遥感影像在无人工干预情况下对大范围农作物进行自动化倒伏快速识别的方法(作物倒伏自动识别方法)，并得出以下结论：1)RFE算法可以很好地筛选出适于倒伏识别的特征，大幅提高算法精度和效率，特征筛选结果显示遥感波段差值特征和纹理差值特征在倒伏识别中贡献率较高，其中SWIR波段和红边波段最为重要；2)基于孤立森林算法计算的耕地像元归一化异常得分反映了受灾后各耕地像元受灾害影响的异常程度，在同一时刻发生的倒伏灾害中，大豆的倒伏程度最严重，其次为玉米；3)利用归一化异常得分直方图的组内变异系数拟合变异系数曲线，并计算变异系数贡献率，较好的实现了倒伏和非倒伏样本像元的提取，避免了耕地提取误差和混合像元的影响；4)随机森林分类器进行倒伏识别的精度高于SVM分类器和MLC分类器，倒伏识别整体精度可达78％，Kappa精度可达77％。综上所述，本研究提出的算法自动化程度高，数据成本低，实际业务中可应用性强，在农业灾害应急管理、农业保险核保定损等方面均有较高的应用价值，同时可以为其他农作物突发灾害事件的识别提供了参考。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种作物倒伏自动识别系统，包括：

数据获取模块，用于获取待识别区域的灾害前哨兵1号数据、灾害前哨兵2号数据、灾害后哨兵1号数据和灾害后哨兵2号数据；所述待识别区域为发生灾害的作物生长区域。

特征计算模块，用于根据所述灾害前哨兵1号数据、所述灾害前哨兵2号数据、所述灾害后哨兵1号数据和所述灾害后哨兵2号数据，计算特征集。

数据筛选模块，用于利用递归特征消除法对所述波段差值特征集、所述指数差值特征集和纹理特征集进行特征筛选，得到筛选后的特征集。

倒伏识别模块，用于根据所述筛选后的特征集确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；所述灾后未被水体淹没的作物覆盖区域是在所述待识别区域内根据所述灾害后哨兵2号数据以及Dynamic World数据集确定的。

实施例三

本实施例提供了一种电子设备，包括：存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行实施例一的作物倒伏自动识别方法。

实施例四

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现实施例一的作物倒伏自动识别方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种作物倒伏自动识别方法，其特征在于，包括：

利用递归特征消除法对所述波段差值特征集、所述指数差值特征集和纹理特征集进行特征筛选，得到筛选后的特征集；

2.根据权利要求1所述的作物倒伏自动识别方法，其特征在于，所述灾后未被水体淹没的作物覆盖区域的确定过程，具体包括：

获取Dynamic World数据集以及所述灾害后哨兵2号数据的特征数据集；所述特征数据集包括所述灾害后哨兵2号数据的第二波段数据和第二指数数据；所述第二指数数据包括归一化植被指数、增强型植被指数、红边位置指数、修正红边归一化植被指数和地表水体指数；所述第二波段数据为多光谱遥感数据；

根据所述Dynamic World数据集确定初始耕地覆盖数据；所述初始耕地覆盖数据是所述DynamicWorld数据集中标签为4的数据；

根据所述初始耕地覆盖数据，得到初始耕地覆盖范围；

3.根据权利要求1所述的作物倒伏自动识别方法，其特征在于，根据所述灾害前哨兵1号数据、所述灾害前哨兵2号数据、所述灾害后哨兵1号数据和所述灾害后哨兵2号数，计算特征集，具体包括：

4.根据权利要求1所述的作物倒伏自动识别方法，其特征在于，利用递归特征消除法对所述波段差值特征集、所述指数差值特征集和所述纹理特征集进行特征筛选，得到筛选后的特征集，具体包括：

5.根据权利要求1所述的作物倒伏自动识别方法，其特征在于，根据所述筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本，具体包括：

根据所述变异系数曲线计算像元的变异系数贡献率；

6.一种作物倒伏自动识别系统，其特征在于，包括：

倒伏识别模块，用于根据所述筛选后的特征集，利用孤立森林算法确定灾后未被水体淹没的作物覆盖区域内的倒伏样本和非倒伏样本；所述灾后未被水体淹没的作物覆盖区域是在所述待识别区域内根据所述灾害后哨兵2号数据以及Dynamic World数据集确定的；

7.一种电子设备，其特征在于，包括：存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-5任一项所述的作物倒伏自动识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的作物倒伏自动识别方法。