CN114494909A

CN114494909A - 一种大豆生长季空间分布图的生成方法和系统

Info

Publication number: CN114494909A
Application number: CN202210142348.9A
Authority: CN
Inventors: 彭代亮; 陈月; 黄林生; 潘玉豪; 楼子杭; 郑诗军
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-13
Anticipated expiration: 2042-02-16
Also published as: CN114494909B

Abstract

本发明提出一种大豆生长季空间分布图的生成方法和系统。其中，方法包括：大豆生长季的影像的提取和预处理；随机森林分类模型的构建与训练；时间窗口的设置；特征子集的选择；大豆生长季空间分布图的获得。本申请构造大豆生长季内Sentinel‑2光谱波段的时间序列合成影像，然后结合随机森林分类模型探究大豆最早识别的时间窗口，其次通过评估时间窗口内所有特征的重要性进一步筛选特征子集，最终绘制出大豆空间分布图。

Description

一种大豆生长季空间分布图的生成方法和系统

技术领域

本发明属于遥感影像处理技术领域，尤其涉及一种大豆生长季空间分布图的生成方法和系统。

背景技术

目前基于遥感的大豆作物识别常见的方法主要分为两种：(1)选择大豆关键生育期内的某一期或几期影像来提取大豆空间分布，(2)在一个或多个生长季节同时使用光谱和时间特征。对于第一种方法，既省时又方便，然而由于受云层污染可能会阻止或延迟图像的采集，因此这种单日期方法在年际间可迁移性较低，特别是在大区域尺度。此外，对于种植结构复杂、光谱相似度较高的地区，单一数据的分类结果可能不准确。对于第二种方法利用时间序列影像能够捕获大豆在不同生长阶段的动态信息，从而提高分类精度。然而，大多数的研究采用大豆整个生长周期内的遥感影像，在大豆收获后甚至收获几个月后才能获得大豆空间分布信息。

虽然部分研究涉及在生长季早期识别大豆的空间分布信息，然而大多数研究集中在省或州的范围以内，而且采用生长季早期所有可用的信息。有研究表明并不是所有的输入数据都能为分类提供有用的信息，使用所有的数据也不一定能获得最高的精度，即所谓的“维度灾难”。由于生长季早期的信息中可能存在大量的冗余数据，这不仅会浪费计算时间，还可能会降低分类精度。因此，研究在大豆生长季早期就行进种植区的精确提取的方法迫在眉睫。

最近的几个进展为在生长季节内大豆识别提供了可能。首先，Sentinel-2卫星数据具有5天重访周期、10m和20m空间分辨率，可以提供丰富的时间及光谱特征，其10m和20m空间分辨率的光谱波段广泛应用于大豆作物分类。另外，GEE作为云数据平台拥有强大的计算能力，可以方便的调用、分析和处理各种卫星影像、地理空间数据集，提供多种分类算法接口。丰富的卫星数据及新兴的计算平台为大区域尺度大豆生长季早期提取给予了强大的支撑。

然而，在大豆生长季早期实现大豆识别仍具有挑战：(1)在大豆早季识别时，可用的卫星影像比大豆季后识别要少。同时，由于云、雪、阴影等造成数据的污染以及卫星重访轨道叠加处观测数量激增，导致时间序列影像的不规则性，这种有效像元数量的不确定会对分类结果产生影响；(2)部分研究采用大量的植被指数以及纹理等特征来辅助大豆分类。但由于不同研究区内气候环境及作物种植结构的差异，导致很难全面了解哪些特征是重要的，而且这些多维输入特征增加了分类的复杂性。

因此，如何借助Sentinel-2数据进行大豆生长季的早期识别已经成为急需解决的技术问题。

发明内容

为解决上述技术问题，本发明提出一种大豆生长季空间分布图的生成方法和系统的技术方案，以解决上述技术问题。

本发明第一方面公开了一种大豆生长季空间分布图的生成方法，所述方法包括：

步骤S1、通过对大豆生长季的影像进行影像合成时间间隔设置、影像合成时间间隔寻优，得到最优时间间隔的单周期合成影像，再对所述最优时间间隔的单周期合成影像的缺失像元进行间隙填充，最后对间隙填充后的单周期合成影像进行耕地掩膜，得到掩膜后的单周期合成影像；

步骤S2、构建随机森林分类模型并通过训练设置参数，得到训练好的随机森林分类模型；

步骤S3、通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像，将所述不同长度的时间序列影像输入所述训练好的随机森林分类模型，得到不同长度的时间序列影像的分类精度，通过所述分类精度确定时间窗口；

步骤S4、将所述时间窗口内的所有特征输入所述训练好的随机森林分类模型，并计算重要性分数，然后依据重要性分数得到特征子集，再通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度；

步骤S5、将最优特征子集输入所述训练好的随机森林分类模型获得大豆生长季空间分布图。

根据本发明第一方面的方法，在所述步骤S3中，所述通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像的具体方法包括：

从掩膜后的第一个单周期合成影像开始依次添加靠后的每期单周期合成影像，形成各个不同长度的时间序列影像。

根据本发明第一方面的方法，在所述步骤S3中，所述分类精度包括：

总体精度、Kappa系数、生产者精度和用户精度。

根据本发明第一方面的方法，在所述步骤S3中，所述通过所述分类精度确定时间窗口的具体方法包括：

分类的总体精度大于整个生长季内分类的总体精度最大值的90％的时间序列影像的长度作为时间窗口。

根据本发明第一方面的方法，在所述步骤S4中，所述依据重要性分数得到特征子集的具体方法包括：

依据重要性分数，对所有特征重要性进行降序排序；

将待选的特征子集从空集开始，依据特征重要性的降序排序中的特征顺序，每次向待选的特征子集中添加一个新的特征，得到特征子集。

根据本发明第一方面的方法，在所述步骤S4中，所述通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度的具体方法包括：

取所有的特征子集分类的总体精度最大值的90％作为阈值；

当依次添加新的特征进入特征子集后，依据某个特征子集分类的总体精度大于所述阈值时，且利用所述特征子集提取大豆种植面积的相对误差小于10％，确定特征子集的维度。

根据本发明第一方面的方法，在所述步骤S1中，影像合成时间间隔设置的具体方法包括：

影像合成时间间隔分别设置为5天、15天及30天的尺度。

本发明第二方面公开了一种大豆生长季空间分布图的生成系统，所述系统包括：

第一处理模块，被配置为，通过对大豆生长季的影像进行影像合成时间间隔设置、影像合成时间间隔寻优，得到最优时间间隔的单周期合成影像，再对所述最优时间间隔的单周期合成影像的缺失像元进行间隙填充，最后对间隙填充后的单周期合成影像进行耕地掩膜，得到掩膜后的单周期合成影像；

第二处理模块，被配置为，构建随机森林分类模型并通过训练设置参数，得到训练好的随机森林分类模型；

第三处理模块，被配置为，通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像，将所述不同长度的时间序列影像输入所述训练好的随机森林分类模型，得到不同长度的时间序列影像的分类精度，通过所述分类精度确定时间窗口；

第四处理模块，被配置为，将时间窗口内的所有特征输入所述训练好的随机森林分类模型，并计算重要性分数，然后依据重要性分数得到特征子集，再通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度；

第五处理模块，被配置为，将最优特征子集输入所述训练好的随机森林分类模型获得大豆生长季空间分布图。

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种大豆生长季空间分布图的生成方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种大豆生长季空间分布图的生成方法中的步骤。

本发明提出的方案，与现有技术相比构造大豆生长季内Sentinel-2光谱波段的时间序列合成影像，然后结合随机森林分类模型探究大豆最早识别的时间窗口，其次通过评估时间窗口内所有特征的重要性进一步筛选特征子集，最终绘制出大豆空间分布图，提供了大区域尺度大豆生长季早期识别的高精度方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种大豆生长季空间分布图的生成方法的流程图；

图2为根据本发明实施例的生成的2019/2020生长季阿根廷主要农业区(包含15个省的主要农业区)大豆空间分布图；

图3为根据本发明实施例的生成的2020/2021生长季阿根廷主要农业区(包含15个省的主要农业区)大豆空间分布图；

图4为根据本发明实施例的一种大豆生长季空间分布图的生成系统的结构图；

图5为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种大豆生长季空间分布图的生成方法。图1为根据本发明实施例的一种大豆生长季空间分布图的生成方法的流程图，如图1所示，所述方法包括：

在步骤S1，通过对大豆生长季的影像进行影像合成时间间隔设置、影像合成时间间隔寻优，得到最优时间间隔的单周期合成影像，再对所述最优时间间隔的单周期合成影像的缺失像元进行间隙填充，最后对间隙填充后的单周期合成影像进行耕地掩膜，得到掩膜后的单周期合成影像。

在一些实施例中，在所述步骤S1中，影像合成时间间隔设置的具体方法包括：

影像合成时间间隔分别设置为5天、15天及30天的尺度。

具体地，提取Sentinel-2合成影像并对其进行预处理。在此，主要借助GoogleEarth Engine(GEE)云计算平台利用JavaScript编程语言进行Sentinel-2卫星影像数据的调用、分析等处理。其具体步骤如下：

步骤S11、在GEE云计算平台中调用大豆生长季内所有的Sentinel-2大气顶端反射率数据1c级，利用质量控制QA60波段将云量限制在10％以内，并将所有波段值除以10000得到各个波段反射率值。

步骤S12、选择Sentinel-2所有10m和20m空间分辨率的光谱波段，包括蓝、绿、红、红边1、红边2、红边3、近红外、窄红外、短波红外1和短波红外2，共10个波段。

步骤S13、选择影像合成时间间隔分别为5天、15天及30天尺度，然后分别构造各波段不同时间间隔内观测值的中值合成影像，其计算公式如下所示，并导出各个时段内合成影像，即单周期合成影像，

C_t＝median[C_t,C_t+1,…,C_t+i-1]

其中，C_t为第t时刻像元的合成值，i为合成的时间间隔分别为5、15、30，median为得到第t时刻像元合成值的中值函数。

步骤S14、在ArcGIS软件中统计各个单周期合成影像的每个像元至少获得一次有效观测值的百分比情况，，其计算公式如下所示，依据所有单周期合成影像缺失百分比小于10％，并且合成时间间隔更窄来确定影像合成的时间间隔。

其中，P_k为第k时段内至少有一次有效观测值的像元百分比，n_k为第k时段内至少有一次有效观测值的像元总数，N为所有像元总数。

步骤S15、在GEE中对最优时间间隔的单周期合成影像的缺失像元，使用前后两期影像的平均值进行间隙填充，其计算公式如下：

D_k＝mean[D_k-1,D_k+1]，

其中，D_k为第k个时段像元的插入值，mean为得到相邻两幅图像平均值的均值函数。

步骤S16、在GlobeLand30网站下载30m空间分辨率的土地覆盖数据，在ArcGIS软件中进行瓦片的镶嵌及剪裁，然后选择耕地层数据使用ArcGIS软件中的栅格转换工具将其由栅格格式转换为矢量格式，并上传至GEE平台，利用mask函数对间隙填充后的单周期合成影像进行耕地掩膜。

在步骤S2，构建随机森林分类模型并通过训练设置参数，得到训练好的随机森林分类模型。

具体地，构建随机森林分类模型并通过训练设置参数。随机森林分类模型采用随机重复自抽样方法有放回的在原始数据中抽取K组数据集，每组数据集所包含的数据量为原始数据总量的约三分之二。通过K组数据集选定合适的特征节点数P构建K棵决策树，集合K棵决策树对结果进行简单的投票即可获得所需分类器。其中特征数量和决策树棵树是决定决策树生长的主要参数，该参数的最优解是通过袋外误差获取。袋外误差指未参与模型构建的三分之一数据集对常规误差进行无偏估计所获得的结果。具体计算方法是将未参与模型构建的三分之一数据集，应用生成的分类器，对其进行分类获得分类结果，由于该部分的类别为已知，故将分类器生成的分类结果与已知类别进行比对，计算分类器所得的每一类别的错误分类结果的占比即为该类别的分类误差，将所有类别的误差通过均值计算可得该分类器的平均袋外误差。袋外误差具有高效性，且与交叉验证的结果相近，故而在随机森林分类中无需进行交叉验证或采用独立数据建立误差无偏估计。

其具体步骤如下：

步骤S21、基于原始训练集(实测点标签)，采用随机且有放回地抽样Bagging方法产生每棵决策树的训练子集；

步骤S22、构建随机森林分类模型，设定随机森林由多棵CART决策树组成，CART决策树采用基尼Gini系数选择最优特征；其具体步骤如下：

步骤S221、计算每个特征的基尼系数，选择基尼系数最小的特征X进行节点划分，基尼系数的计算公式如下所示：

其中，M₁和M₂是根据特征X的某个属性值，将M分成的两部分数据集；

步骤S222、对于特征X，根据某一属性值将其划分为两个子集M₁和M₂，计算该属性值进行节点划分得到的基尼系数，计算公式如下所示：

其中，Q表示给定样本集中样本数量，k表示类别个数，Q_i表示第i个类别的样本数量；

步骤S223、遍历特征X的所有属性值，选择基尼系数最小的属性值作为特征X的最优划分节点值；

步骤S224、不断遍历这棵树的特征子集，重复步骤S221和步骤S222直至所有的特征都被选择完毕或子数据集都属于同一类；

步骤S23、利用训练好的随机森林模型对分类样本进行预测，其中每棵树都得到一个独立的预测结果，对每棵树的预测结果进行汇总统计，按照投票的方式，将获得票数最多的类作为最终结果。

随机森林模型中的需要设置的参数主要有决策树的数量、最大特征数、决策树深度、叶子节点最少样本数、节点划分的最小样本数。

①决策树的数量：决策树的数量是影响分类精度的重要参数之一，若该数值设置过小，会使模型对数据的拟合能力不足，而若决策树数目设置过大，分类精度会提高，但模型的复杂程度和运行时间会大幅增加。②最大特征数：随机森林在构建每棵树时，不是所有的特征都参与节点分裂过程，而是随机地选择某些特征，最大特征数是指从特征空间可随机抽取的特征的最大数量。若该数值设置过小，则决策树的分类能力较弱，反之，最大特征数设置过大，单棵决策树的分类能力可能会上升，但会导致决策树之间的相关性增加，从而使得随机森林的性能下降。常用的最大特征数取值有：所有特征数、所有特征数量的开平方、所有特征数量的对数。③决策树深度：即随机森林模型中决策树生长的最大深度，若深度值设置过小，单棵决策树的分类能力较弱，降低其分类精度，设置过大则容易引起模型过度拟合，同时会增加模型的复杂程度及运行时间。④叶子节点最少样本数：该值决定决策子树中叶子节点是否剪枝，当子树中叶子节点地样本数目小于该值，则舍弃该节点。⑤节点划分的最少样本数：当模型中决策子树节点的样本数小于该值时，不再选取最优特征对其进行划分。

在GEE中调用随机森林分类模型，主要设置以下参数：森林中决策树的数量。在GEE中将棵数分别设置为50至400每次增加50。依据棵树大于100且分类精度第一次达到局部最大值确定树的数量。其中，由于随机森林每次取样的随机性，为了避免每次重复实验结果的细微差别，设置随机种子(seed)为999。其他参数保持默认值。

在步骤S3，通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像，将所述不同长度的时间序列影像输入所述训练好的随机森林分类模型，得到不同长度的时间序列影像的分类精度，通过所述分类精度确定时间窗口。

在一些实施例中，在所述步骤S3中，所述通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像的具体方法包括：

从所述掩膜后的第一个单周期合成影像开始依次添加靠后的每期单周期合成影像，形成各个不同长度的时间序列影像。

所述分类精度包括：

总体精度、Kappa系数、生产者精度和用户精度。

所述通过所述分类精度确定时间窗口的具体方法包括：

具体地，采用增量时间窗法来确定大豆生长季制图的最早时间窗口。在大豆生长季内，从播种期开始以合成时间间隔为步长逐步延长至生长期结束，比较不同长度的季节变化。即从大豆生长期开始，依次添加各个时段掩膜后的单周期合成影像来组成更长的时间序列影像，在此基础上，比较不同长度的时间序列影像对大豆识别精度的影响，在分类精度与输入时序影像长度之间权衡，依据分类总体精度大于整个生长季分类总体精度最大值的90％，最终确定最早的可识别时间窗口。时间窗口越短，对决策活动越有价值。

为了尽可能早的识别大豆，需要捕捉大豆生长季早期更加细致的影像信息，那么要求影像合成的时间间隔应足够的窄，但太窄的时间间隔可能不足以填补影像空缺，因此，确定合适的影像合成的时间间隔是必要的。本发明分析时间间隔为5天、15天及30天尺度中值合成的Sentinel-2时序影像信息。首先，构造研究期内不同时间间隔合成的时序影像，然后分别统计各个时段内研究区像元至少获得一次有效观测值的百分比情况。其中虽然可以采用数据插值的方法来填补间隙，但是对于缺失时间长且范围大的数据进行插值，该方法不但耗时，而且分类结果往往存在一定的不确定性。此外，有研究表明时间间隔越窄，大豆分类精度越高。因此，为了有效的捕捉大豆生长季早期更加细致的影像信息，依据合成间隔较窄并且数据缺失程度较小，确定影像合成时间间隔。

时间窗口的设置具体步骤如下：

步骤S31、计算大豆生长季内每个掩膜后的单周期合成影像随机森林分类精度，其中分类精度评价指标包含总体精度、Kappa系数、生产者精度和用户精度，计算公式分别为：

其中，OA表示总体精度、KC表示Kappa系数、PA表示生产者精度、UA表示用户精度，N表示样本总个数，m表示类别的个数，n_i表示预测为类别i中实际为类别i的个数，N_i表示预测类别为i的总个数，M_i表示验证样本中类别i的总个数；

步骤S32、从所述掩膜后的第一个单周期合成影像开始依次添加靠后的每期单周期合成影像，形成各个不同长度的时间序列影像；

步骤S33、将所述不同长度的时间序列影像输入所述训练好的随机森林分类模型，得到不同长度的时间序列影像的分类精度；

步骤S34、分类的总体精度大于整个生长季内分类的总体精度最大值的90％的时间序列影像的长度作为时间窗口。

在步骤S4，将所述时间窗口内的所有特征输入所述训练好的随机森林分类模型，并计算重要性分数，然后依据重要性分数得到特征子集，再通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度。

在一些实施例中，在所述步骤S4中，所述依据重要性分数得到特征子集的具体方法包括：

依据重要性分数，对所有特征重要性进行降序排序；

所述通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度的具体方法包括：

取所有的特征子集分类的总体精度最大值的90％作为阈值；

具体地，利用随机森林分类模型基于平均不纯度下降的方法评估每个特征的重要性。平均不纯度下降是一种基于基尼系数进行特征重要性评估的方法，在随机森林中，当训练决策树的时候，可以计算出每个特征减少了多少树的不纯度，对于一个决策树森林来说，可以计算出每个特征平均减少的不纯度，并把它平均减少的不纯度作为特征选择的值。其值越大则认为该特征的分类能力越强，在模型中的重要性越大，反之亦然。然后采用序列前向选择法确定大豆生长季制图的最优特征子集。序列前向选择法是一种寻找最优特征子集的贪心算法，将特征子集从空集开始，每次向特征子集中增加一个新的特征，依据特征函数最优，确定最终的特征子集，这表明较少的特征可以获得相对较高的精度，且输入数据量和计算成本显著降低。

机器学习在实际应用时，输入特征个数越多，不仅会增加模型计算开销，同时还可能引起“维度灾难”。特征选择能够减少降低冗余信息，缩减特征数量，减少计算运行时间。本发明采用序列前向选择法确定大豆提取特征子集的维数。SFS(序列前向选择法-Sequential Forward Selection,缩写为SFS)是一种寻找最优特征子集的贪心算法，将特征子集从空集开始，每次向特征子集中增加一个新的特征，依据特征函数最优，确定最终的特征子集。

特征子集的选择具体步骤如下：

步骤S41、在GEE中将所述时间窗口内的所有特征输入所述训练好的随机森林分类模型，利用explain函数得到各个特征的重要性分数，再利用Min-max标准化处理将分数映射为[0,1]范围内，其计算公式如下所示；

其中，n表示原始序列中数据的个数，y_i为中第i个数据经过Min-max标准化后的数据，x_i表示原始序列中第i个数据，

表示原始序列中的最小值，

表示原始序列中的最大值；

步骤S42、依据重要性分数，对所有特征重要性进行降序排序；

将待选的特征子集从空集开始，依据特征重要性的降序排序中的特征顺序，每次向待选的特征子集中添加一个新的特征，得到特征子集；

步骤S43、通过计算特征子集的分类总体精度和提取面积精度，提取面积精度即大豆提取面积与官方农业统计数据对比的精度，精度评价指标包括：相对误差、均方根误差，计算公式如下所示，

其中，RE表示相对误差，S表示提取的大豆面积，S’表示大豆面积农业统计数据；

其中，RMSE表示均方根误差，f_i表示第i个区域大豆提取面积，y_i表示第i个区域大豆农业统计面积，N表示区域个数；

步骤S44、取所有的特征子集分类的总体精度最大值的90％作为阈值；

如图2所示，其为利用本发明所述方法所生成的2019/2020生长季阿根廷主要农业区(包含15个省的主要农业区)大豆空间分布图。其中分类总体精度为85.87％，kappa系数为0.79，大豆生产者精度为88.65％，用户精度为86.75％。大豆提取面积为1749.09万公顷，与农业统计数据对比相对误差为3.45％。大豆面积省级数据与农业统计数据对比均方根误差为18.27万公顷。如图3所示其为利用本发明所述方法所生成的2020/2021生长季阿根廷主要农业区(包含15个省的主要农业区)大豆空间分布图。其中大豆提取面积为1693.37万公顷，与农业统计数据对比相对误差为1.71％。

从图2和图3可以看出，不同大豆生长季本方法均可快速产生较高精度的大豆空间分布图。

综上，本发明提出的方案与现有技术相比构造大豆生长季内Sentinel-2光谱波段的时间序列合成影像，然后结合随机森林分类模型探究大豆最早识别的时间窗口，其次通过评估时间窗口内所有特征的重要性进一步筛选特征子集，最终绘制出大豆空间分布图，提供了大区域尺度大豆生长季早期识别的高精度方法。

本发明借助Google earth engine(GEE)云平台，利用Sentinel-2多光谱数据与随机森林分类模型探究大豆识别的最早时间窗口与最优特征子集。结果如下：(1)分类总体精度为85.87％，大豆种植面积估算值与农业统计数据相对误差为3.45％；(2)大豆最早可在2月末(结荚灌浆期)准确的识别；(3)利用特征筛选后的特征子集，可以保持较高分类精度的同时减少80％的输入数据量。

本发明第二方面公开了一种大豆生长季空间分布图的生成系统。图4为根据本发明实施例的一种大豆生长季空间分布图的生成系统的结构图；如图4所示，所述系统100包括：

第一处理模块101，被配置为，通过对大豆生长季的影像进行影像合成时间间隔设置、影像合成时间间隔寻优，得到最优时间间隔的单周期合成影像，再对所述最优时间间隔的单周期合成影像的缺失像元进行间隙填充，最后对间隙填充后的单周期合成影像进行耕地掩膜，得到掩膜后的单周期合成影像；

第二处理模块102，被配置为，构建随机森林分类模型并通过训练设置参数，得到训练好的随机森林分类模型；

第三处理模块103，被配置为，通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像，将所述不同长度的时间序列影像输入所述训练好的随机森林分类模型，得到不同长度的时间序列影像的分类精度，通过所述分类精度确定时间窗口；

第四处理模块104，被配置为，将时间窗口内的所有特征输入所述训练好的随机森林分类模型，并计算重要性分数，然后依据重要性分数得到特征子集，再通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度；

第五处理模块105，被配置为，将最优特征子集输入所述训练好的随机森林分类模型获得大豆生长季空间分布图。

根据本发明第二方面的系统，所述第一处理模块101具体被配置为，影像合成时间间隔设置的具体方法包括：

影像合成时间间隔分别设置为5天、15天及30天的尺度。

1.1、在GEE云计算平台中调用大豆生长季内所有的Sentinel-2大气顶端反射率数据1c级，利用质量控制QA60波段将云量限制在10％以内，并将所有波段值除以10000得到各个波段反射率值。

1.2、选择Sentinel-2所有10m和20m空间分辨率的光谱波段，包括蓝、绿、红、红边1、红边2、红边3、近红外、窄红外、短波红外1和短波红外2，共10个波段。

1.3、选择影像合成时间间隔分别为5天、15天及30天尺度，然后分别构造各波段不同时间间隔内观测值的中值合成影像，其计算公式如下所示，并导出各个时段内合成影像，即单周期合成影像，

C_t＝median[C_t,C_t+1,…,C_t+i-1]

1.4、在ArcGIS软件中统计各个单周期合成影像的每个像元至少获得一次有效观测值的百分比情况，，其计算公式如下所示，依据所有单周期合成影像缺失百分比小于10％，并且合成时间间隔更窄来确定影像合成的时间间隔。

1.5、在GEE中对最优时间间隔的单周期合成影像的缺失像元，使用前后两期影像的平均值进行间隙填充，其计算公式如下：

D_k＝mean[D_k-1,D_k+1]，

1.5、在GlobeLand30网站下载30m空间分辨率的土地覆盖数据，在ArcGIS软件中进行瓦片的镶嵌及剪裁，然后选择耕地层数据使用ArcGIS软件中的栅格转换工具将其由栅格格式转换为矢量格式，并上传至GEE平台，利用mask函数对间隙填充后的单周期合成影像进行耕地掩膜。

根据本发明第二方面的系统，所述第二处理模块102具体被配置为，构建随机森林分类模型并通过训练设置参数。随机森林分类模型采用随机重复自抽样方法有放回的在原始数据中抽取K组数据集，每组数据集所包含的数据量为原始数据总量的约三分之二。通过K组数据集选定合适的特征节点数P构建K棵决策树，集合K棵决策树对结果进行简单的投票即可获得所需分类器。其中特征数量和决策树棵树是决定决策树生长的主要参数，该参数的最优解是通过袋外误差获取。袋外误差指未参与模型构建的三分之一数据集对常规误差进行无偏估计所获得的结果。具体计算方法是将未参与模型构建的三分之一数据集，应用生成的分类器，对其进行分类获得分类结果，由于该部分的类别为已知，故将分类器生成的分类结果与已知类别进行比对，计算分类器所得的每一类别的错误分类结果的占比即为该类别的分类误差，将所有类别的误差通过均值计算可得该分类器的平均袋外误差。袋外误差具有高效性，且与交叉验证的结果相近，故而在随机森林分类中无需进行交叉验证或采用独立数据建立误差无偏估计。

其具体步骤如下：

2.1、基于原始训练集(实测点标签)，采用随机且有放回地抽样Bagging方法产生每棵决策树的训练子集；

2.2、构建随机森林分类模型，设定随机森林由多棵CART决策树组成，CART决策树采用基尼Gini系数选择最优特征；其具体步骤如下：

2.21、计算每个特征的基尼系数，选择基尼系数最小的特征X进行节点划分，基尼系数的计算公式如下所示：

2.22、对于特征X，根据某一属性值将其划分为两个子集M₁和M₂，计算该属性值进行节点划分得到的基尼系数，计算公式如下所示：

2.23、遍历特征X的所有属性值，选择基尼系数最小的属性值作为特征X的最优划分节点值；

2.24、不断遍历这棵树的特征子集，重复2.21和2.22直至所有的特征都被选择完毕或子数据集都属于同一类；

2.3、利用训练好的随机森林模型对分类样本进行预测，其中每棵树都得到一个独立的预测结果，对每棵树的预测结果进行汇总统计，按照投票的方式，将获得票数最多的类作为最终结果。

根据本发明第二方面的系统，所述第三处理模块103具体被配置为，所述通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像的具体方法包括：

所述分类精度包括：

总体精度、Kappa系数、生产者精度和用户精度。

所述通过所述分类精度确定时间窗口的具体方法包括：

时间窗口的设置具体步骤如下：

3.1、计算大豆生长季内每个掩膜后的单周期合成影像随机森林分类精度，其中分类精度评价指标包含总体精度、Kappa系数、生产者精度和用户精度，计算公式分别为：

3.2、从所述掩膜后的第一个单周期合成影像开始依次添加靠后的每期单周期合成影像，形成各个不同长度的时间序列影像；

3.3、将所述不同长度的时间序列影像输入所述训练好的随机森林分类模型，得到不同长度的时间序列影像的分类精度；

3.4、分类的总体精度大于整个生长季内分类的总体精度最大值的90％的时间序列影像的长度作为时间窗口。

根据本发明第二方面的系统，所述第四处理模块104具体被配置为，所述依据重要性分数得到特征子集的具体方法包括：

依据重要性分数，对所有特征重要性进行降序排序；

取所有的特征子集分类的总体精度最大值的90％作为阈值；

机器学习在实际应用时，输入特征个数越多，不仅会增加模型计算开销，同时还可能引起“维度灾难”。特征选择能够减少降低冗余信息，缩减特征数量，减少计算运行时间。本发明采用序列前向选择法确定大豆提取特征子集的维数。SFS是一种寻找最优特征子集的贪心算法，将特征子集从空集开始，每次向特征子集中增加一个新的特征，依据特征函数最优，确定最终的特征子集。

特征子集的选择具体步骤如下：

4.1、在GEE中将所述时间窗口内的所有特征输入所述训练好的随机森林分类模型，利用explain函数得到各个特征的重要性分数，再利用Min-max标准化处理将分数映射为[0,1]范围内，其计算公式如下所示；

表示原始序列中的最小值，

表示原始序列中的最大值；

4.2、依据重要性分数，对所有特征重要性进行降序排序；

4.3、通过计算特征子集的分类总体精度和提取面积精度，提取面积精度即大豆提取面积与官方农业统计数据对比的精度，精度评价指标包括：相对误差、均方根误差，计算公式如下所示，

4.4、取所有的特征子集分类的总体精度最大值的90％作为阈值；

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种大豆生长季空间分布图的生成方法中的步骤。

图5为根据本发明实施例的一种电子设备的结构图，如图5所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种大豆生长季空间分布图的生成方法中的步骤中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种大豆生长季空间分布图的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种大豆生长季空间分布图的生成方法，其特征在于，在所述步骤S3中，所述通过对掩膜后的单周期合成影像进行排列，得到不同长度的时间序列影像的具体方法包括：

3.根据权利要求1所述的一种大豆生长季空间分布图的生成方法，其特征在于，在所述步骤S3中，所述分类精度包括：

总体精度、Kappa系数、生产者精度和用户精度。

4.根据权利要求3所述的一种大豆生长季空间分布图的生成方法，其特征在于，在所述步骤S3中，所述通过所述分类精度确定时间窗口的具体方法包括：

5.根据权利要求1所述的一种大豆生长季空间分布图的生成方法，其特征在于，在所述步骤S4中，所述依据重要性分数得到特征子集的具体方法包括：

依据重要性分数，对所有特征重要性进行降序排序；

6.根据权利要求5所述的一种大豆生长季空间分布图的生成方法，其特征在于，在所述步骤S4中，所述通过计算特征子集的分类总体精度和提取面积精度，来确定最优特征子集的维度的具体方法包括：

取所有的特征子集分类的总体精度最大值的90％作为阈值；

7.根据权利要求1所述的一种大豆生长季空间分布图的生成方法，其特征在于，在所述步骤S1中，所述影像合成时间间隔设置的具体方法包括：

影像合成时间间隔分别设置为5天、15天及30天的尺度。

8.一种用于大豆生长季空间分布图的生成系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的一种大豆生长季空间分布图的生成方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的一种大豆生长季空间分布图的生成方法中的步骤。