CN115830464A

CN115830464A - 基于多源数据的高原山地农业大棚自动提取方法

Info

Publication number: CN115830464A
Application number: CN202211378980.XA
Authority: CN
Inventors: 李�杰; 王金亮; 王辉
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-21

Abstract

本申请公开了一种基于多源数据的高原山地农业大棚自动提取方法，包括：步骤S1：收集并处理多源数据；步骤S2：计算多种特征因子并构建特征场景；步骤S3：基于精度评价结果进行分类器和特征场景初筛；步骤S4：采用RF算法迭代优化初筛的特征场景，得到最佳特征子集；步骤S5：采用初筛得到的最佳分类器和优化得到的最佳特征子集提取农业大棚。该方法联合了GEE大数据云平台以及多源数据，兼顾精度与效率。首先，相较于传统单一数据源的模式，多源数据的结合使用可以提高农业大棚提取精度；此外，在云平台上仅需十余分钟即可完成本地遥感软件数天、甚至数周的工作量，可极大地提高工作效率。该方法适用于高原山地区域的农业大棚自动提取。

Description

基于多源数据的高原山地农业大棚自动提取方法

技术领域

本申请涉及遥感测控技术领域，特别是一种基于多源数据的高原山地农业大棚自动提取方法。

背景技术

塑料大棚的农业实践具有重要战略经济意义，为避免农业大棚扩张导致负面的社会和环境后果，保持粮食供应和环境安全之间的平衡，迫切需要开发高效的农业大棚提取方法，以实时掌握其动态，促进区域农业资源管理和可持续发展。考虑到量财力、物力和人力等资源的消耗，以前对农业大棚的调查往往是小区域性质的人工野外调查统计，时效性差且对于局部偏远区域容易出现遗漏现象，难以拓展到大区域尺度，更难实现多时相的动态监测。近年来，虽然依托遥感技术已经为大区域农业大棚的识别提供了可能，然而，仍存在诸多亟待解决的问题，如联合多源数据、提高分类精度和效率、扩大时空尺度、分析动态趋势等。

现有农业大棚遥感识别方法倾向于基于单一光学数据源和极为有限的特征，导致农业大棚提取精度较低。目前，SAR系统现已形成了多波段、多模、多极化、多分辨率的成像技术体系，其后向散射特征已经被证明可助力于大棚识别，却鲜有研究将其与结合光学数据进行联合。Lu等(2018)首次联合Sentinel-1(S1)SAR和Sentinel-2(S2)数据提取农业大棚，并得到了94.3％的总体精度。这是一次突破性尝试，揭示了综合使用多源数据的多种特征将是提高农业大棚识别精度的关键。

然而，需要注意的是，多特征的使用并不是简单的叠加，而应该是特征的合理组合，Lu等(2018)之前的研究缺乏对特征的进一步思考。特征变量通常具有较高的相关性和冗余性，特征的类别和数量的选择可能会影响分类的效率和准确性，因此，有必要合理地组合多维特征，必要时删除冗余特征，以获得最佳特征子集，从而提高分类器的性能和分类精度。现有方法缺乏对特征间如何实现有效合理组合，以提高大棚提取精度的相关技术。

现有技术的另一局限是倾向于引入多种不同的方法来提高农业大棚的遥感提取精度，多局限于单时相的小区域研究，而忽略了时空尺度的拓展，这极大地限制了科学研究向实际应用的转化。如何有效地监测大区域长时序的农业大棚动态仍然是一个亟待解决的问题。

大面积农业大棚提取面临的第一个挑战是无云高质量时间序列图像的获取、存储和处理，这对高性能计算资源的需求是巨大的。

现有遥感影像处理工具效率极低，其基本都是分布在本地计算机上，如ENVI(收费)、ArcGIS(收费)、QGIS、GDAL等，这些软件的计算，处理能力和本地设备好坏呈正相关，从数据下载到完成分类任务，往往要耗费大量的人力和物力，难以实现大区域多时相的目标识别任务。特别是高原山区，其具有多云雾、地形崎岖、耕地景观破碎、种植结构复杂的特点，这给低云量覆盖遥感数据的获取到高精度分类算法构建都造成了困难。虽然无人机可以获得清晰图像，但监控面积受制于自身电池续航时间，难以实现对较大区域农业大棚数据的快速获取。

综上可知，现有农业大棚提取普遍以下缺陷：1、现有提取方法多数仅依靠单一数据源提取大棚，而未考虑利用多源数据的优势，造成大棚识别精度较低；2、现有方法缺乏对特征间如何实现有效合理组合，以提高大棚提取精度的相关技术；3、现有方法多依赖分布在本地计算机上的软件提取农业大棚，当数据处理量大时，其效率极低，而要提高计算机算力便需要投入高昂的成本，因此难以实现时空尺度扩展，这严重降低了农业大棚大棚遥感提取的应用价值。

发明内容

本申请提供了一种基于多源数据的高原山地农业大棚自动提取方法，用于解决现有技术中存在的现有农业大棚数据提取方法仅基于单一数据源，无法实现多源数据联合提取、数据提取采用本地平台效率低、有限的时空尺度的技术问题。

本申请提供了一种基于多源数据的高原山地农业大棚自动提取方法，包括以下步骤：

步骤S1：在GEE遥感大数据云平台收集并处理所需多源数据，多源数据包括：S1SAR数据、S2数据、SRTM数据；此外，通过实地调查以及对高分辨率谷歌历史影像目视解译确定LULC分类体系，构建LULC样本数据并上传至GEE平台，通过随机数算法将LULC样本按照7:3的比例划分为训练样本和验证样本，所得训练样本用于分类算法训练，所得验证样本用于后期精度验证；

步骤S2：基于上述多源数据构建光谱特征、指数特征、纹理特征、后向散射特征、地形特征，分别以S1 SAR数据的后向散射特征、S2数据的光谱特征以及S1 SAR+S2数据为基础，依次叠加上其他特征后得到24种特征场景。其中，光谱特征包括的特征因子为：蓝光波段、绿光波段、红光波段、红边波段、近红外波段、短波红外波段1、短波红外波段2；指数特征包括的特征因子为：裸土指数、植被指数、增强型植被指数、增强型水体指数、归一化植被指数、绿归一化植被指数、绿红植被指数、地表水指数、修正归一化水体指数、归一化燃烧比率、归一化建筑指数、归一化耕作指数、土壤调节植被指数、塑料温室指数、塑料覆盖土地覆盖指数、退化塑料温室指数；纹理特征包括的特征因子为：角二阶矩、对比度、相关性、差值、熵、逆差分矩、平均值、方差；后向散射特征包括的特征因子为：上升轨道交叉极化、下降轨道交叉极化、上升轨道单极化、下降轨道单极化；地形特征包括的特征因子为：坡向、高程、山体阴影、坡度；

步骤S3：对包含不同特征因子的24种特征场景依次采用CART、RF、SVM机器学习分类器构建分类算法，并通过基于验证样本构建的混淆矩阵中的OA和F-score指标评估各分类器在不同特征场景下提取整体LULC以及农业大棚的精度，择优得到适用于农业大棚提取的最佳分类器和最佳特征场景；

步骤S4：采用RF算法的特征重要性对最佳特征场景进行优化，具体而言，首先基于初筛得到的最佳分类器和特征场景构建分类算法，完成第一轮次的分类，得到该轮次农业大棚提取精度F-score1，并通过RF算法计算各特征因子的贡献率，通过排序，删除特征贡献率排名最低的因子；余下特征因子继续参与下一轮的分类，得到对应的农业大棚提取精度F-score2，并再次并对分类后特征因子进行重要性排序，排名最低的特征再次被删除，以此类推，对所有特征因子完成迭代；最后通过比较所有轮次的F-score，遴选出F-score最高的迭代轮次和该轮次中包含的特征因子，后者即为最佳特征子集；

步骤S5：基于初筛得到的最佳分类器以及特征优化后的最佳特征子集构建分类算法，提取农业大棚；此外，待提取完多年份的农业大棚后，进一步分析其时空变化特征。

优选地，步骤S1中S1 SAR数据的收集和处理包括以下步骤：

S1 SAR数据为GEE平台上的GRD产品，最高空间分辨率为10×10m，数据已用Sentinel-1工具箱进行了轨道文件应用、GRD边界噪声去除、热噪声去除、辐射校正、地形校正；通过“COPERNICUS/S1_GRD”代码段直接调用，并选择IW条带模式下的两种极化方式，即VV、VH；根据待识别区域农业大棚的物候信息设置时间过滤条件，空间范围为待识别区域；最后计算所有匹配的波段中每个像素的中值以合成年度S1 SAR数据。

优选地，步骤S1中S2光学数据的收集和处理包括以下步骤：

在GEE平台选择S2-Level-1C产品，其为已经过正射校正和亚像素级几何精细校正的大气顶部反射率产品；

首先通过“COPERNICUS/S2”代码在GEE中直接调用该数据，并对其进行大气校正；然后根据待识别区域农业大棚的物候信息设置时间过滤条件，空间范围为待识别区域，通过密集时间堆栈方法获得所有云量小于12％的高质量S2地表反射率数据；最后使用中值函数生成高质量的S2年度合成图像。

优选地，步骤S1中SRTM地形数据的收集和处理包括以下步骤：

通过代码“USGS/SRTMGL1_003”调用SRTM V3作为地形数据，空间分辨率为30m；然后通过重采样函数将所得数据转换为与S2数据相同的空间分辨率，即为10m，最后调用ee.Algorithms.Terrain()函数计算所需地形特征。

优选地，其特征在于，步骤S1中LULC样本数据的收集和处理包括以下步骤：

1)对待监测区域进行野外实地调查，确定其主要LULC类型；

2)在野外采集各LULC类型的样本点位置信息，并基于同年的高分辨率谷歌影像和已发布LULC产品对实地样本点进行目视筛查和扩充，使得最终样本点分布满足监督分类中对样本点均匀分布的要求，得到样本库，若要进行多年度研究，则可参照所得样本库，在谷歌历史影像以及不同年份的S2真彩色图像上通过视觉判读得到不同年份的LULC样本库；

3)采用GEE随机数算法模块，将LULC样本按照7:3的比例分为训练样本和验证样本，所得训练样本用于分类算法训练，所得验证样本用于后期精度验证。

优选地，步骤S2中构建的24种特征场景如下：

1)以S1 SAR的后向散射特征为基础构建的场景包括：后向散射特征、后向散射特征+指数特征、后向散射特征+纹理特征、后向散射特征+地形特征、后向散射特征+指数特征+纹理特征、后向散射特征+指数特征+地形特征、后向散射特征+纹理特征+地形特征、后向散射特征+指数特征+纹理特征+地形特征；

2)以S2的光谱特征为基础构建的场景包括：光谱特征、光谱特征+指数特征、光谱特征+纹理特征、光谱特征+地形特征、光谱特征+指数特征+纹理特征、光谱特征+指数特征+地形特征、光谱特征+纹理特征+地形特征、光谱特征+指数特征+纹理特征+地形特征；

3)以S1 SAR的后向散射特征+S2的光谱特征为基础构建的场景包括：光谱特征+后向散射特征、光谱特征+后向散射特征+指数特征、光谱特征+后向散射特征+纹理特征、光谱特征+后向散射特征+地形特征、光谱特征+后向散射特征+指数特征+纹理特征、光谱特征+后向散射特征+指数特征+地形特征、光谱特征+后向散射特征+纹理特征+地形特征、光谱特征+后向散射特征+指数特征+纹理特征+地形特征。

优选地，其特征在于，在步骤S5中得到各年的农业大棚提取数据，用于绘制农业大棚动态谱图以及其时空格局特征。

本申请能产生的有益效果包括：

1)本申请所提供的基于多源数据的高原山地农业大棚自动提取方法，该方法通过遥感数据云平台收集待识别区域的多源数据，计算多种特征，构建特征场景，并采用不同的机器学习分类器进行分类后，对分类结果采用F-score指标进行精度评价，以择优筛选出农业大棚提取准确率最高的分类器和特征场景，并通过重要性迭代的方式优化特征场景，以获得最优特征子集，依据所得最优特征子集和最优分类器，提取农业大棚数据。该方法可充分利用多源数据，提取的农业大棚空间分辨率可达10m，且准确率高，计算效率高。

2)本申请所提供的基于多源数据的高原山地农业大棚自动提取方法，该方法采用RF算法的特征重要性对初筛得到的最佳特征场景进行优化。具体而言，首先基于初筛得到的最佳分类器和特征场景构建分类算法，完成第一轮次的分类，得到该轮次大棚提取精度F-score₁，并通过RF算法计算各特征因子的贡献率，通过排序，删除特征贡献率排名最低的因子；余下特征因子继续参与下一轮的分类，得到对应的大鹏提取精度F-score₂，并再次并对分类后特征因子进行重要性排序，排名最低的特征再次被删除，以此类推，对所有特征因子完成迭代；最后通过比较所有轮次的F-score，遴选出F-score最高的迭代轮次和该轮次中包含的特征因子，后者即为最佳特征子集。

3)本申请所提供的基于多源数据的高原山地农业大棚自动提取方法，该方法主要依靠GEE遥感大数据云平台进行多源数据收集、处理以及执行农业大棚提取算法，极大地提高工作效率，降低本地设备投入成本。在GEE平台上仅需十余分钟即可完成高原山地区域大量数据的收集、处理以及农业大棚的提取，运算时间相对于以天，甚至以周计的本地遥感软件处理时间得到大幅度缩短。该方法尤其适用于处理数据情况复杂的高原多山区域的农业大棚提取。

4)本申请所提供的基于多源数据的高原山地农业大棚自动提取方法，该方法利用GEE平台及多源数据，有效提高所得结果精度，实施例中各年份的F-score均超过95.00％，所得提取结果相对于GLOBELAND30和2019年中国10米分辨率农业大棚专题数据等已发布产品，可校正GLOBELAND30对滇中地区的中部和北部存在大量草地的错误识别结果，可校正2019年中国10米分辨率农业大棚专题数据对滇中地区大棚集中分布区明显的漏分错误。本申请提供方法中所提取的农业大棚与无人机现场核实结果一致，细节效果好，可靠性强；此外，所得农业大棚数据量化后，还可以通过绘制图表对数据进行进一步的开发利用。

附图说明

图1为本申请提供的基于多源数据的高原山地农业大棚自动提取方法流程示意图；

图2为本申请提供的基于多源数据的高原山地农业大棚自动提取方法操作示意图；

图3为本申请提供的LULC样本示意图；其中a)为实地收集LULC样本；b)LULC样本数量统计表；

图4为本申请提供的RF算法逐特征迭代优化流程示意图；

图5为本申请实施例中2021年LULC分类结果与S2遥感图像、无人机图像的视觉对比检测，其中a)为地图中a示例区；b)为地图中b示例区；c)为地图中c示例区；d)为地图中d示例区；e)为地图中e示例区；f)地图中f示例区；其中UAV为无人机图像采集结果；

图6为本申请实施例中所得LULC分类数据集与LOBALAND30产品对比图；其中a1)为本申请实施例中所得LULC分类结果；a2)为GLOBELAND30产品的LULC分类结果；

图7为本申请实施例中所得LULC分类数据集与GLOBALAND30的LULC产品细节对比图；其中S2-I～V为原始S2卫星影像在图6中示例区的细节放大图；L-I～V为本申请实施例中所得LULC分类数据集在图6中示例区的细节放大图；G-I～V为图6中示例区的GLOBALAND30的LULC产品细节放大图；

图8为本申请实施例中所得农业大棚提取数据集与冯权泷等(2021)发表的2019年中国10米分辨率农业大棚专题数据的对比图；其中b1)为本申请实施例中所提取的农业大棚结果；b2)为冯权泷等(2021)等人已经发表的农业大棚数据集；

图9为本申请实施例中所得农业大棚数据集与冯权泷等(2021)发表的2019年中国10米分辨率农业大棚专题数据的细节对比图；其中FI～V为冯权泷等(2021)发表农业大棚数据集在图8中示例区的细节放大图；J-I～V为本申请实施例中所得农业大棚数据集在图8中示例区的细节放大图；UAV-I～V为图8中示例区的无人机所得实地农业大棚数据集细节放大图；

图10为本申请实施例中所得2016-2021年滇中地区农业大棚数据的年份-大棚面积-年平均增长率关系柱状图；

图11为本申请实施例中所得在2016年、2021年的滇中地区大棚集中分布的各区/县的农业大棚数据的年份-大棚面积-年平均增长率关系柱状图；

图12为本申请实施例中所得滇中地区各年农业大棚数据的空间分布示意图；其中各图下方标注对应年份。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。通常在此处附图中描述和示出的本发明实施方式的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本申请中未详述的且并不用于解决本申请技术问题的技术手段，均按本领域公知常识进行设置，且多种公知常识设置方式均可实现。

参见图1～2，本申请提供的基于多源数据的高原山地农业大棚遥感数据提取方法，包括以下步骤：

步骤S1：在GEE遥感大数据云平台收集并处理所需多源数据，多源数据包括：S1SAR数据、S2数据、SRTM数据；此外，通过实地调查以及对高分辨率谷歌历史影像目视解译确定LULC分类体系，构建LULC样本数据并上传至GEE平台，通过随机数算法将LULC样本按照7:3的比例划分为训练样本和验证样本，所得训练样本用于分类算法训练，所得验证样本用于后期精度验证；GEE全称Google earth engine。

步骤S2：基于上述多源数据构建光谱特征、指数特征、纹理特征、后向散射特征、地形特征，分别以S1 SAR数据的后向散射特征、S2数据的光谱特征以及S1 SAR+S2的双特征为基础，依次叠加上其他特征后得到24种特征场景。其中，光谱特征包括的特征因子为：蓝光波段、绿光波段、红光波段、红边波段、近红外波段、短波红外波段1、短波红外波段2；指数特征包括的特征因子为：裸土指数、植被指数、增强型植被指数、增强型水体指数、归一化植被指数、绿归一化植被指数、绿红植被指数、地表水指数、修正归一化水体指数、归一化燃烧比率、归一化建筑指数、归一化耕作指数、土壤调节植被指数、塑料温室指数、塑料覆盖土地覆盖指数、退化塑料温室指数；纹理特征包括的特征因子为：角二阶矩、对比度、相关性、差值、熵、逆差分矩、平均值、方差；后向散射特征包括的特征因子为：上升轨道交叉极化、下降轨道交叉极化、上升轨道单极化、下降轨道单极化；地形特征包括的特征因子为：坡向、高程、山体阴影、坡度。

该方法联合GEE遥感大数据云平台和多源数据进行大区域、长时序农业大棚快速自动提取，GEE遥感大数据云平台可为大批量数据处理及执行分类算法提供保障，极大地提高分类效率；多源数据中多种特征的合理组合可以全面体现大棚特征，提高大棚提取精度。该方法兼具效率与精度，可实现高原农业地区10米级分辨率农业大棚得高精度识别，为该区农业管理和环境保护提供科学依据。

优选地，步骤S1中S1 SAR数据的收集和处理包括以下步骤：

具体实施例中：所采集的S1 SAR数据参数参见表1。最高空间分辨率为10×10m，数据已用Sentinel-1工具箱模块进行轨道文件应用、GRD边界噪声去除、热噪声去除、辐射校正、地形校正(Sentinel-1工具箱模块的网址为https://developers.google.com/earthengine/guides/sentinel1)，数据质量得到了保证。该数据可通过“COPERNICUS/S1_GRD”代码段直接调用。为了最大限度减少地形的影响，利用元数据属性筛选出IW条带模式下的两种极化方式，即：VV、VH。考虑到高质量SAR数据需完整覆盖研究区，而滇中地区农业大棚基本全年覆盖，制图窗口时间单位可以为年，因此设置时间过滤条件为每年1月1日到12月31日，空间过滤条件为滇中地区；最后计算所有匹配的波段中每个像素的中值以合成年度S1 SAR数据。

采用该操作可满足农业大棚基本全年覆盖的特性，从数据采集阶段实现提高数据识别的准确性。

优选地，步骤S1中S2光学数据的收集和处理包括以下步骤：

具体实施例中：S2数据为欧空局哥白尼计划提供的S2-Level-1C模块(表1)，即经过正交校正和亚像素级几何精细校正的大气顶部反射率产品，其可通过“COPERNICUS/S2”代码在GEE中调用(https://developers.google.com/earth-engine/datasets/catalog/COPERNICUS_S2)，并通过py6s大气校正模块对其进行大气校正。在实践中，由于高原地区的多云现象，使用单一场景图像进行LULC分类非常困难。GEE平台中的密集时间堆栈方法可以用另一个图像替换同一位置的多云图像，以创建清晰的图像。通过在GEE编程环境中多次测试，将时间间隔设置为每年1月1日至12月31日，并通过密集时间堆栈方法获得所有云量小于12％的高质量S2地表反射率数据；此外，使用中值减缩函数生成高质量的年度合成图像。

表1本实施例中所得S1 SAR和S2数据参数

优选地，步骤S1中SRTM地形数据的收集和处理包括以下步骤：

具体实施例中：选择NASA提供的SRTM V3模块作为提供地形特征的辅助数据，空间分辨率为30m。

数据处理均在GEE内实现：

(1)在GEE平台通过代码“USGS/SRTMGL1_003”调用(https://developers.google.com/earth-engine/datasets/catalog/USGS_SRTMGL1_003)，并按照滇中行政边界进行裁剪；

(2)通过重采样函数将其转换为与S2数据相同的空间分辨率，即10m；

(3)调用ee.Algorithms.Terrain()函数计算出地形特征，包括坡度、坡向、高程、山体阴影。

优选地，步骤S1中LULC样本数据的收集和处理包括以下步骤：

1)对待监测区域进行野外实地调查，确定其主要LULC类型；

具体实施例中：为了能采用GEE中的监督机器学习方法有效识别大棚，需要获取准确可靠的LULC样本数据。

首先，根据长期在滇中地区的野外实地调查，确定包含以下七种主要LULC类型的分类系统：农业大棚、耕地、林地、草地水体、不透水面和裸地，地类定义标准见图3a。

此外，借助手持GPS采集大量野外样本点，同时拍照取证(图3a)。考虑到偏远地区LULC样本难以获取，而监督分类中样本需要均分分布。基于2020年的高分辨率谷歌影像和2020年GLOBELAND30产品对野外样本进行了筛查和扩充，形成了地类样本库(图3a)。

以该样本库为参照，在谷歌历史图像以及同期S2真彩色图像上通过视觉判读，依次采集2016-2021年逐年的LULC样本(图3b)，总样本数量达到39672个。最后，使用GEE自带的随机数算法，按照7:3的比例，将各类样本分为训练样本和验证样本，分别用于分类算法训练和后期精度验证。

具体地，步骤S2中各特征的获取方法均按现有技术中常用方法获取，例如，所述光谱特征的获取方法为从S2原始地表反射率数据合成的年度图像中提取所需波段，具体参见表2。

具体地，步骤S2计算多种特征因子并构建特征场景。

特征变量的选择对于遥感分类至关重要，多个特征的组合可以有效提高分类精度。塑料大棚作为一种人造设施，由于材料类型、作物结构和卫星传感器的差异，具有混合型、复杂性和异构性。

从视觉上看，农业大棚的光谱特征与裸地和不透水表面的光谱特征非常相似，难以区分，特别是在土地类型复杂的高原山区环境下。

因此，为了减少提取误差，构建光谱、后向散射、指数、纹理、地形作为提取特征，共39个特征因子。具体如下：

(1)光谱(S；Spectrum)和指数(I，Index)特征

光谱及其衍生的光谱指数是LULC分类中使用最广泛的特征。对于前者，考虑到波段冗余并参考之前的研究，仅选择10米(即：B2-蓝光波段、B3-绿光波段、B4-红光波段、B8-近红外波段)和20米(B6-红遍波段、B11-短波红外-1波段以及、B12-短波红外-2波段)分辨率波段(表2)。

对于光谱指数，已有研究指出遥感指数可以有效增强特定物体的光谱特征。例如，归一化植被指数(NDVI)可以有效地提取植被；同样，修正归一化水体指数(MNDWI)和归一化建筑指数(NDBI)可以分别有效地识别水体和人工不透水表面。

在GEE平台上使用S2的原始光谱波段计算了16个常用的遥感指数(表2)。其中，归一化耕作指数(NDTI)和退化塑料温室指数(RPGI)主要用于识别农业大棚。

(2)纹理特征(T；Texture)

由于农业大棚结构特殊，其纹理特性可以弥补光谱特征的局限。考虑到农业大棚本身的特征，选取了最常用的8个纹理指标参与特征空间的构建(表2)。GEE提供的ee.glcmTexture(size,kernel,average)函数可以基于灰度共生矩阵(GLCM；Gray levelco-occurrence matrix)快速计算相关纹理特征，该算法需要一个灰度级为8位的图像作为输入元素，之前普遍基于S2某一个波段计算纹理特征，然而参考波段却没有统一标准。本方法参考Tassi and Vizzari,(2020)提出的Gray＝(0.3×NIR)+(0.59×RED)+(0.11×GREEN)公式，通过初始合成图像的NIR、红色和绿色波段的线性组合计算的灰度图像来构建纹理特征。

(3)后向散射特征(B；Backscatter)

农业大棚的高介电特性、特殊的几何形状和雷达回波特性使其具有很强的后向散射信号，SAR的加入将有助于提高农业大棚的提取精度。S1 SAR具有双轨道多极化功能，考虑到前人指出双轨数据可以减弱山区SAR图像的阴影和叠加，双极化数据有利于提高地物识别精度。因此，后向散射特征构建策略是通过GEE平台的密集时间叠加方法对研究区全年IW模式下的所有双轨道双极化多时相SAR数据进行交叉整合，通过均值合成年际S1 SAR数据，包含四个后向散射特征波段，即“VV_Asc”、“VH_Asc”、“VV_Desc”和“VH_Desc”(表2)。

(4)地形特征(Tr；Terrain)

滇中区域地形复杂，这极大影响着农业大棚的空间分布与扩张，其通常分布于地势相对平坦的山间坝区，而极少分布在高海拔或高坡度山区。因此，地形特征应纳入特征变量的构建中。基于GEE平台的SRTMGL1_003地形数据，通过调用ee.Algorithms.Terrain(input)函数计算出四个地形特征，包括海拔、坡度、坡向和简单山体阴影(表2)。

表2特征因子表

注：公式中的R、G、B、NIR、SWIR1、SWIR2分别代表S2原始光谱中的B4(红光波段)、B3(绿光波段)、B2(蓝光波段)、B8(近红外波段)、B11(短波红外波段-1)、B12(短波红外波段-2)。

以上5类特征的39个特征因子组合后，分别基于S1 SAR的后向散射特征、S2的光谱特征以及S1 SAR+S2的双特征叠加上其他特征后形成24种特征场景：

具体地，步骤S3基于精度评价结果进行分类器和特征场景初筛

基于不同特征场景，采用三种LULC机器学习分类器(即CART、RF、SVM分类器)构建分类算法进行整体LULC分类以及农业大棚提取，并通过构建混淆矩阵，计算OA和F-score定量地逐年评价各分类器在不同特征组的整体LULC以及农业大棚提取精度，避免单个分类器或单一时相的绝对影响，通过初筛选出适用于农业大棚的最佳分类器和原始特征场景。

精度评价中，混淆矩阵是一种标准的精度评估方法，包括：四个参数，即整体精度(OA)、生产者精度(PA)、用户精度(UA)和Kappa系数。

基于随机选择的验证样本(占总样本的30％)构建混淆矩阵，并选择两个互补的指标来评估分类准确性。

指标为OA、F-score，OA用于评估整体算法的有效性；F-score用于通过平衡PA和UA之间的关系来衡量农业大棚识别的准确性。

具体地，步骤S4采用RF算法迭代优化初筛的特征场景，得到最佳特征子集

对于机器学习分类器，特征维数对分类精度的促进效应不是绝对的，换言之，并不是特征维数越多，最终分类精度越高，相反，过多的特征还可能降低分类器学习能力，这就是所谓的“维数灾难”。

本申请共构建39个特征因子，包括：7个光谱特征因子，16个指数特征因子，8个纹理特征因子，4个后向散射特征因子，4个地形特征因子。为避免上述“维数灾难”，将通过特征选择删除冗余的特征，把样本从高维特征空间降到低维空间，从而提高分类精度和性能。

RF算法是最常用的特征优化方法之一，它通过比较特征对决策树的贡献来评估特征的重要性，通常使用前面提到的基尼指数作为衡量标准。以往的研究一般以平均贡献率作为阈值对特征进行优化，然而，在实际应用中这种固定的特征组泛化性较差，并不适用于所有时相和区域数据，尤其不适用于大棚特征的准确提取。

如图4所示，本申请采用RF算法的特征重要性对最佳特征场景进行优化。具体而言，首先基于初筛得到的最佳分类器和特征场景构建分类算法，完成第一轮次的分类，得到该轮次大棚提取精度F-score₁，并通过RF算法计算各特征因子的贡献率，通过排序，删除特征贡献率排名最低的因子；余下特征因子继续参与下一轮的分类，得到对应的大棚提取精度F-score₂，并再次并对分类后特征因子进行重要性排序，排名最低的特征再次被删除，以此类推，对所有特征因子完成迭代；最后通过比较所有轮次的F-score，遴选出F-score最高的迭代轮次和该轮次中包含的特征因子，后者即为最佳特征子集。

具体地，步骤S5：采用初筛得到的最佳分类器和优化得到的最佳特征子集提取农业大棚及动态分析

根据精度评价结果，选择每个年份最高F-score对应的最佳特征子集，结合初筛的农业大棚最佳分类器方法，提取待分类区域各年份的农业大棚数据。

所得大棚数据分类筛选准确性高，适用于提取长时序的大棚数据，所得多时相的农业大棚数据可用于绘制农业大棚动态谱图，并分析其时空格局特征。

实施例

在滇中地区联合遥感大数据云平台和多源数据开展2016-2021年的农业大棚提取按以下步骤进行处理：

1、多源数据(包括S1 SAR、S2、SRTM及其他辅助分类数据)收集及处理

(1)S1 SAR数据

S1 SAR由欧空局哥白尼计划研发，本研究中数据来自GEE上的GRD产品(表1)，最高空间分辨率为10×10m，数据已用Sentinel-1工具箱进行了轨道文件应用、GRD边界噪声去除、热噪声去除、辐射校正、地形校正(https://developers.google.com/earthengine/guides/sentinel1)，数据质量得到了保证。该数据可通过“COPERNICUS/S1_GRD”代码段直接调用。为了最大限度减少地形的影响，利用元数据属性筛选出IW条带模式下的两种极化方式，即：VV、VH。考虑到高质量SAR数据需完整覆盖研究区，而滇中地区农业大棚基本全年覆盖，制图窗口可以年为单位，因此设置时间过滤条件为每年1月1日到12月31日，空间过滤条件为滇中地区；最后计算所有匹配的波段中每个像素的中值以合成年度S1 SAR数据。

(2)S2光学数据

S2数据为欧空局哥白尼计划提供的S2-Level-1C产品(表1)，即经过正交校正和亚像素级几何精细校正的大气顶部反射率产品，其可通过“COPERNICUS/S2”代码在GEE中直接调用(https://developers.google.com/earth-engine/datasets/catalog/COPERNICUS_S2)。在实践中，由于高原地区的多云现象，使用单一场景图像进行LULC分类非常困难。GEE平台中的密集时间堆栈方法可以用另一个图像替换同一位置的多云图像，以创建清晰的图像。通过在GEE编程环境中多次测试，根据滇中地区大棚的物候信息将时间窗口设置为每年1月1日至12月31日，并通过密集时间堆栈方法获得所有云量小于12％的高质量S2 TOA数据；此外，使用中值减缩函数生成高质量的年度合成图像。S1 SAR和S2数据参数间表1。

(3)SRTM地形数据

选择NASA提供的SRTM V3产品作为提供地形特征的辅助数据，空间分辨率为30m，选择。数据处理均在GEE内通过编程实现：(1)在GEE平台通过代码“USGS/SRTMGL1_003”调用(https://developers.google.com/earth-engine/datasets/catalog/USGS_SRTMGL1_003)，并按照滇中行政边界进行裁剪；(2)通过重采样函数将其转换为与S2数据相同的空间分辨率；(3)调用ee.Algorithms.Terrain()函数计算出地形特征。

(4)遥感监督分类体系及参考数据

要基于GEE中的监督机器学习方法有效识别温室，需要获取准确可靠的LULC样本数据。首先，根据长期野外实地调查，确定包含以下七种主要LULC类型的分类系统：农业大棚、耕地、林地、草地水体、不透水面和裸地，地类定义标准见图3a。此外，借助手持GPS采集了大量野外样本点，同时拍照取证(图3a)。考虑到偏远地区LULC样本难以获取，而监督分类中样本需要均分分布。基于2020年的高分辨率谷歌影像和2020年GLOBELAND30产品对野外样本进行了筛查和扩充，形成了地类样本库(图3a)。以该样本库为参照，在谷歌历史图像以及同期S2真彩色图像上通过视觉判读，依次采集了2016-2021年逐年的LULC样本(图3b)，总样本数量达到39672个。最后，使用GEE自带的随机数算法，按照7:3的比例，将各类样本分为训练样本和验证样本，分别用于分类算法训练和后期精度验证。

2、基于多源数据计算多种特征因子并构建特征场景

特征变量的选择对于遥感分类至关重要，多个特征的组合可以有效提高分类精度。塑料大棚作为一种人造设施，由于材料类型、作物结构和卫星传感器的差异，具有混合型、复杂性和异构性。从视觉上看，农业大棚的光谱特征与裸地和不透水表面的光谱特征非常相似，难以区分，特别是在土地类型复杂的地区。因此，为了减少提取误差，深入考虑滇中地区农业大棚的属性特征及其空间特征，最终构建了包括光谱、后向散射、指数、纹理、地形的5类特征，共39个特征因子。具体如下：

(1)光谱和指数特征

光谱及其衍生的光谱指数是LULC分类中使用最广泛的特征。对于前者，考虑到波段冗余并参考之前的研究，仅选择10米(即：B2-蓝光波段,B3-绿光波段,B4-红光波段,B8-近红外波段)和20米(B6-红边波段,B11-短波红外-1波段和B12-短波红外-2波段)分辨率波段(表2)。对于光谱指数，已有研究指出遥感指数可以有效增强特定物体的光谱特征。例如，归一化植被指数(NDVI)可以有效地提取植被；同样，修正归一化水体指数(MNDWI)和归一化建筑指数(NDBI)可以分别有效地识别水体和人工不透水表面。在GEE平台上使用S2的原始光谱带计算了16个常用的遥感指数(表2)。其中，归一化耕作指数(NDTI)和退化塑料温室指数(RPGI)主要用于识别农业大棚。

(2)纹理特征

(3)后向散射特征

(4)地形特征

滇中区域地形复杂，这极大影响着农业大棚的空间分布与扩张，其通常分布于地势相对平坦的山间坝区，而极少分布在高海拔或高坡度山区。因此，地形特征应纳入特征变量的构建中。基于GEE平台的SRTMGL1_003地形数据，通过调用ee.Algorithms.Terrain(input)函数计算出四个地形特征，包括海拔、坡度、坡向和简单山体阴影，见表2。

以表2中5类特征的39个特征因子进行组合，分别基于S1 SAR的后向散射特征、S2的光谱特征以及S1 SAR+S2的双特征叠加上其他特征后形成24种特征场景。主要包括：

1)以S1 SAR的后向散射特征为基础构建的场景包括：后向散射特征，后向散射特征+指数特征、后向散射特征+纹理特征、后向散射特征+地形特征、后向散射特征+指数特征+纹理特征、后向散射特征+指数特征+地形特征、后向散射特征+纹理特征+地形特征、后向散射特征+指数特征+纹理特征+地形特征；

3、基于精度评价结果进行分类器和特征场景初筛

基于不同特征场景，采用三种LULC机器学习分类器，即CART、RF、SVM分类器，构建分类算法进行整体LULC分类以及农业大棚提取，并通过构建混淆矩阵，计算OA和F-score定量地逐年评价各分类器在不同特征组的农业大棚提取精度，避免单个分类器或单一时相的绝对影响，通过初筛选出适用于农业大棚的最佳分类器和原始特征场景。

4、采用RF算法迭代优化初筛的特征场景，得到最佳特征子集。

5、采用初筛得到的最佳分类器和优化得到的最佳特征子集提取农业大棚及动态分析。

所得结果如下：

1、农业大棚的提取精度取得突破

采用上述方法，获得滇中地区2016-2021年的高精度LULC整体分类结果以及农业大棚提取结果。精度评价结果见表3，显示所有年份LULC的OA参数均超过88％，最高值为2018年的89.13％。

对于农业大棚，所有年份的F-score均超过95.00％，尤其是在2016年达到了97.93％。

表3精度评价表

精度评价指标

2016

2017

2018

2019

2020

2021

OA

88.07％

88.92％

89.13％

88.42％

88.60％

F-score

97.93％

96.84％

96.56％

97.30％

95.87％

95.26％

将滇中地区农业大棚集中的6个典型区域分类结果与卫星图像、无人机航拍照片进行对比，目视检查2021年农业大棚提取结果参见图5，发现采用本申请提供方法提取得到的农业大棚和其他地类景观在宏观尺度上与卫星图像具有良好的空间一致性，与无人机复查结果一致，即使在复杂区域，农业大棚区域仍然可以被准确识别并能经受现场无人机航拍检查。有效证实了本申请提供方法提取结果的准确性。

进一步地与跟本研究分类结果存在时空交集的相关产品进行对比。首先，对于LULC分类产品，目前国际上流行的LULC产品很多，如GLOBELAND30、CCI_LC、MCD2Q1，其空间分辨率分别为30m、300m、500m。GLOBELAND30产品由中华人民共和国自然资源部发布(http://www.globallandcover.com/)，目前已经生产了2000，2010，和2020年全球LULC产品，其具有很高的认可度，已被广泛应用于各个领域。

考虑到空间分辨率与本研究接近，故选择2020年的GLOBELAND30产品与本研究同年LULC分类结果进行目视对比，所得结果如图6a1～a2)所示，本申请提供方法所得LULC结果与该高可靠性的GLOBELAND30产品在宏观尺度上的土地利用类型的空间格局是一致的。然而GLOBELAND30产品中滇中地区的中部和北部存在大量草地，这与滇中地区以耕地和林地为主的土地景观存在较大偏差。而本申请提供方法所得提取结果对森林、草地的分类效果准确度更好。

此外，对几个案例区进行细节对比，可以很明显地看出本研究对LULC的细节提取更准确，尤其是建设用地和耕地(图7中的J I-V)。对于GLOBELAND30，由于像素分辨率的限制，其将各种耕地类型(如水田、旱地、农业大棚)一并归为耕地，当然，对于宏观尺度研究这是无可厚非的，也是被允许的。然而，农业大棚作为一种特殊的农业景观，虽隶属于耕地，但与传统农业存在较大差异，对于区域性研究应当对二者进行进一步区分。本研究成功将农业大棚从耕地中分割出来，可更好地协助指导区域农业资源管理和可持续发展。

参见图8b1～b2)将冯权泷等(2021)研发的2019年中国10米分辨率农业大棚专题数据(滇中区域)与本研究同年的农业大棚提取结果进行对比。图8b1～b2)显示在同一比例尺下，冯权泷等(2021)提供方法提取的农业大棚区域像素寥寥无几。

通过几个农业大棚集中分布案例区的放大细节对比(图9)，同时联合无人机实地航拍图像(图9中的UAV I-V)，结果证实冯权泷等(2021)提取的农业大棚产品存在明显的漏分现象(图9b F I-V)。一般地，农业大棚通常根据地形集中分布，并具有在农村居民区周围的农田周围向外扩散，并被河流和道路分割的特点。本方法提取的农业大棚区域符合这一特征，并且与S2图像吻合度高(图9J I-V)；同时经得起无人机实地检测，可靠性强。

2、生产的农业大棚产品的时空尺度得到拓展

提取了2016-2021年包含昆明、曲靖、玉溪、楚雄等4个自治州/地级市的滇中地区的高精度农业大棚区域(图10～12)，相对于以往只进行局部区域单一时相的大棚提取研究而言，研发的农业大棚时空数据集无疑具有更高的应用价值。得益于多年份高精度的大棚提取结果，可进一步分析其动态变化。年际变化方面(图10)，近6年，滇中地区农业大棚整体呈现出上升趋势，面积由2016年的634.67km²增长至2021年的1027.40km²，并通过了置信度P<0.05的显著性检验。2016～2021年间，滇中地区的农业大棚稳中有增，主要表现出沿着既有的农业大棚区向周边扩张的趋势，并未出现新的农业大棚集中区。

2016、2021年的农业大棚柱状图显示(图11)，滇中地区农业大棚主要分布在中部地区，如陆良县、崇明县、晋宁区、寻甸县、宜良县、通海县、安宁区、呈贡区、江川县、红塔区、麒麟区，元谋县，而其他区域则零星分布。以上区域在2021年的农业大棚面积合计约为690.44km²，占总面积的67.10％，尤其以陆良县、崇明县、晋宁区的农业大棚面积最大，分别占12.45％、10.60％和8.90％。

进一步的统计显示(图12)，农业大棚集中分布区中，除了红塔区的农业大棚轻微下降(平均增长率为-0.75％)，其余地区农业大棚均不同程度地增加。其中元谋县的大棚扩张速度最快，年均增长率高达54.58％，其次为麒麟区(47.90％)、寻甸县(30.13％)、通海县(23.06％)、陆良县(20.80％)、江川县(17.60％)、宜良县(17.00)，其他县区均表现为较缓慢的扩张状态，年均增长率均低于10％。

3、运算效率得到极大提高

一般而言，如果利用设置于本地计算机上的遥感处理软件(如ENVI、ERDAS等)进行大区域目标识别，不考虑训练样本制作的过程，从海量数据下载、预处理，到分类结束，所花费的时间、人力成本通常以天计，甚至是周计。

而本申请提供方法充分利用了GEE遥感大数据云平台上的海量数据，可直接在平台完成数据集的筛选和预处理工作，同时平台上集成数千台服务器，其优越的算力可快速完成大区域的遥感影像分类工作。

本申请提供方法说明，在GEE平台从数据筛选到大棚提取结束的代码运行仅需十余分钟，其运算效率呈几何倍数高于传统遥感处理软件，有效提高了农业大棚提取的时效性，可更好地服务于政府相关决策。

综上所述，本发明的农业大棚自动提取技术兼具泛化性、高效性、高精度、时空可移植性，方法科学可靠，可很好地解释区域农业大棚时空动态，为区域现代化农业经济生产和可持续发展提供新的科学指导。

本申请实施例中所用对比例为：

(1)“GLOBELAND30”指中国向联合国提供的首个全球地理信息公共产品，被国际同行专家誉为“对地观测与地理信息开放共享的里程碑”，数据下载地址：http://www.globallandcover.com/；

(2)“冯权泷等(2021)”指冯权泷,牛博文,朱德海,姚晓闯,刘逸铭,欧聪,陈泊安,杨建宇,郭浩,刘建涛.2019年全国农业塑料大棚遥感分类数据集[J].中国科学数据(中英文网络版),2021,6(04):153-170，数据下载地址：http://www.dx.doi.org/10.11922/sciencedb.j00001.00230。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源数据的高原山地农业大棚自动提取方法，其特征在于，主要包括以下步骤：

步骤S2：基于上述多源数据构建光谱特征、指数特征、纹理特征、后向散射特征、地形特征，再分别以S1 SAR数据的后向散射特征、S2数据的光谱特征以及S1SAR+S2的双特征为基础，依次叠加上其他特征后得到24种特征场景；

其中，光谱特征包括的特征因子为：蓝光波段、绿光波段、红光波段、红边波段、近红外波段、短波红外波段1、短波红外波段2；指数特征包括的特征因子为：裸土指数、植被指数、增强型植被指数、增强型水体指数、归一化植被指数、绿归一化植被指数、绿红植被指数、地表水指数、修正归一化水体指数、归一化燃烧比率、归一化建筑指数、归一化耕作指数、土壤调节植被指数、塑料温室指数、塑料覆盖土地覆盖指数、退化塑料温室指数；纹理特征包括的特征因子为：角二阶矩、对比度、相关性、差值、熵、逆差分矩、平均值、方差；后向散射特征包括的特征因子为：上升轨道交叉极化、下降轨道交叉极化、上升轨道单极化、下降轨道单极化；地形特征包括的特征因子为：坡向、高程、山体阴影、坡度；

步骤S4：采用RF算法的特征重要性对最佳特征场景进行优化，具体而言，首先基于初筛得到的最佳分类器和特征场景构建分类算法，完成第一轮次的分类，得到该轮次农业大棚提取精度F-score₁，并通过RF算法计算各特征因子的贡献率，通过排序，删除特征贡献率排名最低的因子；余下特征因子继续参与下一轮的分类，得到对应的农业大棚提取精度F-score₂，并再次并对分类后特征因子进行重要性排序，排名最低的特征再次被删除，以此类推，对所有特征因子完成迭代；最后通过比较所有轮次的F-score，遴选出F-score最高的迭代轮次和该轮次中包含的特征因子，后者即为最佳特征子集；

2.根据权利要求1所述的基于多源数据的高原山地农业大棚自动提取方法，其特征在于，步骤S1中S1 SAR数据的收集和处理包括以下步骤：

S1 SAR数据为GEE平台上的GRD产品，最高空间分辨率为10×10m，数据已用Sentinel-1工具箱进行了轨道文件应用、GRD边界噪声去除、热噪声去除、辐射校正、地形校正；通过“COPERNICUS/S1_GRD”代码段直接调用，并选择IW条带模式下的两种极化方式，即VV、VH；根据待识别区域农业大棚的物候信息设置时间过滤条件，空间范围为待识别区域；最后计算所有匹配的波段中每个像素的中值以合成年度S1SAR数据。

3.根据权利要求1所述的基于多源数据的高原山地农业大棚自动提取方法，其特征在于，步骤S1中S2光学数据的收集和处理包括以下步骤：

4.根据权利要求1所述的基于多源数据的高原山地农业大棚自动提取方法，其特征在于，步骤S1中SRTM地形数据的收集和处理包括以下步骤：

5.根据权利要求1所述的基于多源数据的高原山地农业大棚自动提取方法，其特征在于，步骤S1中LULC样本数据的收集和处理包括以下步骤：

1)对待监测区域进行野外实地调查，确定其主要LULC类型；

6.根据权利要求1所述的基于多源数据的高原山地农业大棚自动提取方法，其特征在于，步骤S2中构建的24种特征场景如下：

7.根据权利要求1所述的基于多源数据的高原山地农业大棚自动提取方法，其特征在于，在步骤S5中得到各年的农业大棚提取数据，用于绘制农业大棚动态谱图以及其时空格局特征。