CN113657781A

CN113657781A - 一种适用于极端气候条件下的小麦估产方法及系统

Info

Publication number: CN113657781A
Application number: CN202110965833.1A
Authority: CN
Inventors: 朱秀芳; 李石波
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-16

Abstract

本发明公开一种适用于极端气候条件下的小麦估产方法及系统，涉及农业技术领域，方法包括：获取多个不同的训练样本；每个训练样本均包括设定麦区中各县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个平均降水距平值、N个平均温度距平值和M个NDVI植被指数；以多个不同的训练样本为输入，以各训练样本分别对应的各县总耕地在每个小麦生育期的实际产量为输出，对随机森林模型进行训练和优化，得到优化后的随机森林模型；利用优化后的随机森林模型，预测设定麦区中待估产县总耕地在待预测小麦生育期的实际产量。本发明能准确估计极端气候条件下小麦的产量。

Description

一种适用于极端气候条件下的小麦估产方法及系统

技术领域

本发明涉及农业技术领域，特别是涉及一种适用于极端气候条件下的小麦估产方法及系统。

背景技术

从20世纪上半叶至今，地球大气中的CO₂浓度显著升高，全球表面平均气温上升0.74℃，变暖趋势越来越严重。全球气候变化异常，导致异常气候事件频发，给农业生产带来巨大影响。相关研究表明，农业生产受气候变化的影响有一定的差异，但整体上弊大于利。

农业受气候变化的影响十分严重，1986-2007年间，连续经历了21个暖冬。在各类农业气象灾害中，干旱和洪涝是影响农作物生产的最主要的因素。1980年以来，洪旱灾害频发，农田破坏情况极为严重。相比洪涝，干旱对农业生产的影响更为严重，旱灾每年造成的经济损失更高。有关统计数据表明，2007至2017年农作物旱灾面积年均值为15310.92千公顷，粮食损失年均值为214.14亿公斤，造成直接经济损失年均值为282.15亿元，占GDP均值的0.21％。在各种气象灾害中，干旱导致的农作物受灾面积占比约56％，洪涝导致的农作物受灾面积占比约24％，两者共计约84％。此外，低温冷害、干热风等气候事件的频繁发生也给农作物安全生产带来巨大挑战，在北方麦区，干热风灾害的发生一般会导致小麦减产5％～10％，而干热风严重年份减产率能达到20％～30％。

作物生长发育是一个复杂的生理过程，作物产量预测需要考虑气象、土壤、田间管理等多种因素，因此作物估产一直是研究热点和难点。几十年来，众多不同领域的学者做了大量相关研究，作物估产技术得到快速发展。随着遥感技术的不断地发展与创新应用，许多专家学者将遥感技术应用到农作物估产中，为作物估产研究开辟了新途径。目前作物估产模型有上百种，模型的理论基础和特点各不相同，从模型建立的理论角度出发，当前主流的作物估产模型可以分为四类：经验统计模型、光能利用率模型、作物生长模拟模型和耦合模型。探究气候变化对作物产量的影响，大多采用经验统计模型中的气象估产模式。气象估产模式发展较早，始于20世纪70年代末，基本的气象估产模式有三种。第一种，直接建立气象因子和作物产量之间的回归模型；第二种，首先计算相邻两年作物产量差和气象因子差，然后建立作物产量差和气象因子差之间的回归模型，进而进行作物产量预测。第三种，将作物产量分解为由趋势产量和气象产量两部分，前者反映由技术进步(如灌溉、施肥、新品种等)导致的产量的长期变化，后者反映由自然气候要素(光照、降水、辐射等)引起的产量的短期波动。

目前统计估产模型构建常用方法有线性和非线性回归模型，随着数据挖掘技术的发展，神经网络、支持向量机、随机森林等新的数据挖掘手段也应用于了估产模型的构建。如Monisha Kaul等利用人工神经网络对马里兰州的大豆和玉米进行了产量预测，效果优于线性模型；王恺宁等基于线性回归方程、神经网络和支持向量机进行了冬小麦估产模型的建立，结果表明单植被指数的非线性模型估产精度高于线性回归方程；王鹏新等以条件植被指数和叶面积指数为特征变量，基于随机森林算法对河北省中部平原玉米产量进行了预测，估产结果精度较高。Breiman在2001年提出随机森林算法，它是一种集成学习算法，具有稳定性好，预测精度高，不易产生过拟合等优点，它不必顾虑多元共线性的问题，建模前不必刻意进行变量选择，与神经网络和线性回归方法相比，其表现更稳定，具有较强的抗干扰能力，因此，该算法已经广泛应用于洪涝风险分析、遥感图像处理、火灾风险分析等方面，但目前应用随机森林算法针对异常气候(极端气候)条件下的作物估产建模的研究甚少，目前大多研究也并没有验证所建立的估产模型在灾害年份的估产效果。即使有采用随机森林算法实现估产的研究，也只是采用原始温度和降水数据进行小麦产量的估计，无法准确估计极端气候条件下(也即灾害年份)小麦的产量。

综上，本领域亟需一种适用于极端气候条件下的小麦估产方法，以准确估计极端气候条件下小麦的产量。

发明内容

本发明的目的是提供一种适用于极端气候条件下的小麦估产方法及系统，从而准确估计极端气候条件下小麦的产量。

为实现上述目的，本发明提供了如下方案：

一种适用于极端气候条件下的小麦估产方法，所述方法包括：

获取多个不同的训练样本；每个所述训练样本均包括设定麦区中各县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个平均降水距平值、N个平均温度距平值和M个NDVI植被指数；其中，N和M的值均根据小麦生育期确定；

以多个不同的所述训练样本为输入，以各所述训练样本分别对应的各县总耕地在每个小麦生育期的实际产量为输出，对随机森林模型进行训练和优化，得到优化后的随机森林模型；

将设定麦区中待估产县总耕地在待预测小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个降水距平值、N个温度距平值和M个NDVI植被指数输入所述优化后的随机森林模型中，得到设定麦区中待估产县总耕地在待预测小麦生育期的实际产量。

可选地，所述获取多个不同的训练样本，之前还包括：

获取设定麦区中各县总耕地在历年的每个小麦生育期的实际产量；

利用直线滑动平均法或HP滤波法对设定麦区中各县总耕地在每个小麦生育期的实际产量进行拟合，确定设定麦区中各县总耕地在每个小麦生育期的趋势产量。

可选地，所述获取多个不同的训练样本，之前还包括：

根据SPEIbase v2.6数据集得到设定麦区的每个像元在每个小麦生育期对应的SPEI干旱指数；

将所述SPEI干旱指数重采样至1km分辨率，得到每个像元在每个小麦生育期对应的1km分辨率的SPEI干旱指数；

将设定麦区的1km分辨率的耕地掩模分别与每个像元在每个小麦生育期对应的1km分辨率的SPEI干旱指数相乘，得到设定麦区的各耕地像元在每个小麦生育期对应的SPEI干旱指数；

以县边界矢量数据和各耕地像元在每个小麦生育期对应的SPEI干旱指数为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期对应的SPEI干旱指数的均值，得到设定麦区中各县总耕地在每个小麦生育期对应的SPEI干旱指数。

可选地，所述获取多个不同的训练样本，之前还包括：

根据欧空局哥白尼数据中心历年的每日的14时风速、14时空气相对湿度和日最高温度得到设定麦区的每个像元在每个小麦生育期内每日的14时风速、14时空气相对湿度和日最高温度；

利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每日的14时风速、14时空气相对湿度和日最高温度的均值，得到设定麦区中各县总耕地在每个小麦生育期内每日的14时风速均值、14时空气相对湿度均值和日最高温度均值；

分别判断设定麦区中各县总耕地在每个小麦生育期内每日的所述14时风速均值是否大于3m/s、所述14时空气相对湿度均值是否小于30％且所述日最高温度均值是否大于30℃；

若是，则确定所述14时风速均值大于3m/s、所述14时空气相对湿度均值小于30％且所述日最高温度均值大于30℃的当日为干热风有效天，根据每个小麦生育期内所述干热风有效天的数量，得到设定麦区中各县总耕地在每个小麦生育期对应的干热风有效天数。

可选地，所述获取多个不同的训练样本，之前还包括：

根据欧空局哥白尼气象数据中心历年的每月平均降水量数据得到设定麦区的每个像元在每个小麦生育期内每月的平均降水量；

逐月对所有小麦生育期内同一月的平均降水量计算均值，得到每月的平均降水量历史均值；

对所述平均降水量以及与所述平均降水量对应的所述平均降水量历史均值做差，得到设定麦区的每个像元在每个小麦生育期内每月的平均降水距平值；

根据设定麦区的耕地掩模和每个像元在每个小麦生育期内每月的平均降水距平值，得到设定麦区的各耕地像元在每个小麦生育期内每月的平均降水距平值；

以县边界矢量数据和各耕地像元在每个小麦生育期内每月的平均降水距平值为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每月的平均降水距平值的均值，得到设定麦区中各县总耕地在每个小麦生育期内每月的平均降水距平值；其中，每个小麦生育期对应N个平均降水距平值；N的值与所述小麦生育期包括的月份数量等同。

可选地，所述获取多个不同的训练样本，之前还包括：

根据欧空局哥白尼气象数据中心历年的每月平均温度数据得到设定麦区的每个像元在每个小麦生育期内每月的平均温度；

逐月对所有小麦生育期内同一月的平均温度计算均值，得到每月的平均温度历史均值；

对所述平均温度以及与所述平均温度对应的所述平均温度历史均值做差，得到设定麦区的每个像元在每个小麦生育期内每月的平均温度距平值；

根据设定麦区的耕地掩模和每个像元在每个小麦生育期内每月的平均温度距平值，得到设定麦区的各耕地像元在每个小麦生育期内每月的平均温度距平值；

以县边界矢量数据和各耕地像元在每个小麦生育期内每月的平均温度距平值为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每月的平均温度距平值的均值，得到设定麦区中各县总耕地在每个小麦生育期内每月的平均温度距平值；其中，每个小麦生育期对应N个平均温度距平值；N的值与所述小麦生育期包括的月份数量等同。

可选地，所述获取多个不同的训练样本，之前还包括：

根据NASA历年16天合成的MOD13Q1-NDVI数据得到设定麦区的每个像元在每个小麦生育期内每16天对应的NDVI植被指数；

将所述NDVI植被指数重采样至1km分辨率，得到每个像元在每个小麦生育期内每16天对应的1km分辨率的NDVI植被指数；

将设定麦区的1km分辨率的耕地掩模分别与每个像元在每个小麦生育期内每16天对应的1km分辨率的NDVI植被指数相乘，得到设定麦区的各耕地像元在每个小麦生育期内每16天对应的NDVI植被指数；

以县边界矢量数据和各耕地像元在每个小麦生育期内每16天对应的NDVI植被指数为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每16天对应的NDVI植被指数的均值，得到设定麦区中各县总耕地在每个小麦生育期内每16天对应的NDVI植被指数；其中，每个小麦生育期对应M个NDVI植被指数。

本发明还提供了如下方案：

一种适用于极端气候条件下的小麦估产系统，所述系统包括：

训练样本获取模块，用于获取多个不同的训练样本；每个所述训练样本均包括设定麦区中各县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个平均降水距平值、N个平均温度距平值和M个NDVI植被指数；其中，N和M的值均根据小麦生育期确定；

随机森林模型训练模块，用于以多个不同的所述训练样本为输入，以各所述训练样本分别对应的各县总耕地在每个小麦生育期的实际产量为输出，对随机森林模型进行训练和优化，得到优化后的随机森林模型；

估产模块，用于将待估产麦区中待估产县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个降水距平值、N个温度距平值和M个NDVI植被指数输入所述优化后的随机森林模型中，得到待估产麦区中待估产县总耕地的实际产量。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开的适用于极端气候条件下的小麦估产方法及系统，根据影响农作物生长的主要气象灾害类型，收集数据并建立了相应气象灾害指标，即SPEI干旱指数、干热风有效天数、平均降水距平值和平均温度距平值，能够在小麦生育期不同阶段描述气象灾害发生的严重程度，气象灾害指标作为外在气象影响因素，补充遥感植被指数，即NDVI植被指数，作为外在影响因素的直接长势反映；以传统气象估产模型为理论基础，以趋势产量反映社会技术进步的产量长期变化趋势，以气象灾害指标反映气象波动引起的气象产量部分，同时也能够反映气候异常情况，建立的估产模型在灾害年份具有较高的估产精度，能够准确估计极端气候条件下小麦的产量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明适用于极端气候条件下的小麦估产方法实施例的流程图；

图2为本发明技术路线示意图；

图3为气象产量与气象因子拟合精度示意图；

图4为西北春麦区农作物受灾面积统计图；

图5为北部冬麦区农作物受灾面积统计图；

图6为黄淮海冬麦区农作物受灾面积统计图；

图7为长江中下游冬麦区农作物受灾面积统计图；

图8为西南冬麦区农作物受灾面积统计图；

图9为本发明适用于极端气候条件下的小麦估产系统实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明适用于极端气候条件下的小麦估产方法实施例的流程图。参见图1，该适用于极端气候条件下的小麦估产方法包括：

步骤101：获取多个不同的训练样本；每个训练样本均包括设定麦区中各县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个平均降水距平值、N个平均温度距平值和M个NDVI植被指数；其中，N和M的值均根据小麦生育期确定。

该步骤101中，设定麦区为西北春麦区、北部冬麦区、黄淮海冬麦区、长江中下游冬麦区或西南冬麦区。中国小麦种植区主要划分为西北春麦区、北部冬麦区、黄淮海冬麦区、长江中下游冬麦区与西南冬麦区五大麦区。西北春麦区位于黄淮上游三大高原的交汇地带，该区由宁夏全区、甘肃省全部，内蒙古西北部沙漠地区构成，冬天寒冷、夏季炎热，春季与秋季多风，天气较为干燥，白天和晚上温差很大为该麦区主要气候特点，降水不足是影响小麦作物生长的重要因素，部分地区土地盐碱化限制了小麦生长，部分地区春小麦生长后期有干热风危害，不利于小麦生长。北部冬麦区位于中国中纬度地带，由北京全市、天津全市、河北和山西省大部以及陕西省部分地区组成，属于暖温带季风区域，该区大部分气候状况较为干旱，沿海地区气候则较为湿润。冬寒春旱，降水不足且分布不均匀是该区的主要气候特点。黄淮海冬麦区位于黄河中下游，由山东省全部、河南省全部，以及陕西省与山西省南部、安徽省与江苏省北部、河北南部的少部分地区组成。该区大部分为平坦的平原地区，气候条件适宜小麦生长，是中国种植冬小麦主要区域。该区北部小麦在低温年份有遭受低温冷害的风险，南部地区气温较高，冬小麦返青期不明显。降水量呈南多北少，东多西少，降雨不均，整体降水多集中在6至8月份，小麦生育期降雨可基本满足，但北部仍偶尔有旱灾发生，需灌溉。长江中下游冬麦区位于长江中下游区，由湖北全省、湖南全省、江西全省、浙江全省、上海全市，安徽省与浙江省大部分地区组成。该区大部分地区的自然条件适宜小麦生长，但该区降水极不平衡，南部降水过多不适宜小麦生长，北部降水较少时有干旱发生。西南冬麦区处于中国的西南部，处于低纬度地区，由重庆全市、贵州全省，四川省东部与云南省北部组成。该麦区地形复杂，包括山地、盆地、平原等多种地形，其中山地为该区主要地形，同时复杂的地形也导致该区域气候环境差异较大，农作物种植、成熟时间较为不同，除平原地区外，农田地块较为破碎。该区光照充足，但降水不均匀是该区域主要的气候特点。五大麦区范围广，各麦区内小麦种植时间差异较大，因此该实施例采用麦区整体小麦生育期并集作为该麦区研究时段(小麦生育期)进行参数计算。表1为五大麦区小麦生育期并集表，由表1可知，黄淮海冬麦区的一个小麦生育期为当年9月-次年6月，北部冬麦区的一个小麦生育期为当年9月-次年6月，西南冬麦区的一个小麦生育期为当年8月-次年7月，长江中下游冬麦区的一个小麦生育期为当年10月-次年5月，西北春麦区的一个小麦生育期为当年3月-当年8月。

表1五大麦区小麦生育期并集表

步骤102：以多个不同的训练样本为输入，以各训练样本分别对应的各县总耕地在每个小麦生育期的实际产量为输出，对随机森林模型进行训练和优化，得到优化后的随机森林模型。

步骤103：将设定麦区中待估产县总耕地在待预测小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个降水距平值、N个温度距平值和M个NDVI植被指数输入优化后的随机森林模型中，得到设定麦区中待估产县总耕地在待预测小麦生育期的实际产量。

本发明通过查阅资料发现，在中国众多不同类型气象灾害中，对农作物生产影响较大的灾害类型主要包括旱灾、洪涝灾害、低温冻害以及干热风灾害四种，尤其旱灾对我国农作物产量影响最大，本发明收集了2000年至2018年中国不同类型的原始气象因子与遥感数据用于构建表示干旱、洪涝、低温冷害、干热风四种类型灾害的指标以及表示小麦不同时期长势情况的遥感植被指数指标，这些指标即模型输入参数，用来参与后期估产模型的建立。模型输入参数计算过程如下。具体的，步骤101之前还包括：

获取设定麦区中各县总耕地在历年的每个小麦生育期的实际产量。其中，历年的每个小麦生育期的实际产量为历史时间序列的实际产量数据，历史序列的时间长度应尽可能长一些，比如大于30年。

利用直线滑动平均法或HP滤波法对设定麦区中各县总耕地在每个小麦生育期的实际产量进行拟合，确定设定麦区中各县总耕地在每个小麦生育期的趋势产量，也即趋势产量拟合，具体为：

在气象估产模式中，通常小麦实际产量可分解为趋势产量、气象产量和随机产量三部分，随机产量通常忽略不计。因此，实际单产可以分解为趋势单产和气象单产之和。

y_t＝Y_t+Y_c

式中，y_t为小麦实际单产，Y_t为趋势单产，Y_c为气象单产，单位为千克/公顷。

其中，直线滑动平均法是求解趋势产量较为流行的方法，它方法简单、易操作，拟合效果较好。直线滑动平均法在某个时间段内对小麦产量时序数据内拟合线性函数。通过设置一定的滑动步长，逐渐向后推移，线性函数会在新时间阶段内重新拟合，依次求取各时间段内的直线回归模型，在某个时间点上所有直线预测值的平均值即为其趋势产量。某时间阶段的线性方程为：

y_i＝a_i+b_it

式中，i＝n-K+1为方程个数；K为滑动步长；n为样本个数；t为时间编号。当i＝1时，t＝1,2,3,…,K；当i＝2时，t＝2,3,4,…,K+1；当i＝n-K+1时，t＝n-K+1,n-K+2,n-K+3,…n。计算每个线性方程在t点上的函数值y_j(t)，这样每个t点上分别有q个函数值，q的多少与n、K有关。当

时，则q＝1,2,3,…,K,…,K,…,3,2,1；q连续为K的个数等于n-2(K+1)；当

则q＝1,2,3,…,n-K+1,…,n-K+1,…,3,2,1；q连续为n-K+1的个数等于2K-n。然后再求算每个t点上q个函数值的平均值：

式中，

即为各个时间点对应的趋势产量。

HP滤波法具体为：

设小麦实际产量时间序列为{y_t}(t＝1,2,…,n；n为样本容量)，其中包括长期趋势成分l_t和短期波动成分s_t，因此可以用HP滤波将小麦实际产量y_t分解为：

y_t＝l_t+s_t

其中，l_t为下式最小值求解问题。

分别对y₁,y₂,…,y_n求一阶偏导，令导数为0，可以得到下列公式：

s₁＝λ(l₁-2l₂+l₃)

s₂＝λ(-2l₁+5l₂-4l₃+l₄)

s_t＝λ(l_t-2-4l_t-1+6l_t-4l_t+1+l_t+2)

s_n-1＝λ(l_n-3-4l_n-2+5l_n-1-2l_n)

s_n＝λ(l_n-2-2l_n-1+l_n)

即可以写为s＝λFl的矩阵表示形式，其中F矩阵为：

因此小麦产量的长时间趋势部分可以表示为：

y-l＝λFl

l＝(λF+I)^-1y

根据已有经验，序列数据为年度数据时，λ一般取值为100，为季度数据时，一般取值为1600，为月度数据时，一般取值为14400。小麦实际产量序列数据为年度数据，因此该实施例在计算小麦趋势产量时将λ取值100进行计算。

具体的，步骤101之前还包括：

根据SPEIbasev2.6数据集得到设定麦区的每个像元在每个小麦生育期对应的SPEI干旱指数。其中，SPEIbasev2.6数据集是来自全球标准化降水蒸散指数(StandardizedPrecipitationEvapotranspiration Index，SPEI)数据库(https://spei.csic.es/database.html)1999至2018年的SPEIbase v2.6数据集，时间尺度为1-48月，空间分辨率为0.5°*0.5°，用于计算不同麦区县级SPEI均值，作为表示该地区农作物受旱程度的指标(干旱指标)。

将SPEI干旱指数重采样至1km分辨率，得到每个像元在每个小麦生育期对应的1km分辨率的SPEI干旱指数。

将设定麦区的1km分辨率的耕地掩模分别与每个像元在每个小麦生育期对应的1km分辨率的SPEI干旱指数相乘，得到设定麦区的各耕地像元在每个小麦生育期对应的SPEI干旱指数。

由于SPEI干旱指数具有多尺度特征，因此该实施例选用SPEI8-6、SPEI6-10、SPEI6-10、SPEI5-8、SPEI7-12分别表示西北春麦区、北部冬麦区、黄淮海冬麦区、长江中下游冬麦区、西南冬麦区中小麦整个生育期并集的干旱程度。其中，SPEIm-n为m月份时间尺度为n的SPEI干旱指数，用来描述m月份过去n个月整体的干旱情况。具体计算流程是：1)将SPEI干旱指数从0.5度分辨率重采样到1km分辨率；2)用1km分辨率的耕地掩模(01二值图，1表示耕地，0表示非耕地)和1km分辨率的SPEI相乘，得到耕地的SPEI数值；3)以县边界矢量数据和耕地的SPEI为输入，利用矢栅统计工具，逐县统计县域内耕地SPEI的均值。简单来说，首先将SPEI干旱指数重采样至1km空间尺度，然后用全国耕地范围数据进行耕地掩膜，以县域范围内SPEI干旱指数均值作为描述某县小麦生育期内整体干旱程度的指标。

具体的，步骤101之前还包括：

分别判断设定麦区中各县总耕地在每个小麦生育期内每日的14时风速均值是否大于3m/s、14时空气相对湿度均值是否小于30％且日最高温度均值是否大于30℃；

若是，则确定14时风速均值大于3m/s、14时空气相对湿度均值小于30％且日最高温度均值大于30℃的当日为干热风有效天，根据每个小麦生育期内干热风有效天的数量，得到设定麦区中各县总耕地在每个小麦生育期对应的干热风有效天数。

基于干热风发生时气象要素不同组合对小麦产量影响与危害结果的差异，中国小麦干热风具体可以分为高温低湿型、雨后青枯型和旱风型3种类型。国家气象局发布了2019年干热风国家标准，采用日最高气温、14时空气相对湿度和14时风速组合，结合20cm土壤相对湿度确定了3种类型小麦干热风指标。不同地区干热风类型不同，评定标准也不同，同时干热风灾害主要发生在中国北方麦区，具有局地性特征。为了统一各麦区干热风指标，该实施例采用了“三三三”标准对各麦区小麦生育期并集内干热风有效天数进行统计。当小麦生育期并集内某天同时满足日最高气温>30℃、14时空气相对湿度<30％、14时风速>3m/s三个条件时即为一个干热风有效天数。干热风有效天数指小麦生育期并集内干热风有效天的累积。具体计算流程是：1)干热风指标指的就是一个干热风有效天数。某天同时满足日最高气温>30℃、14时空气相对湿度<30％、14时风速>3m/s三个条件时即为一个干热风有效天数。2)小麦生育期并集内干热风有效天的累积数就是将小麦生育期里面的有效干热风的天数求和。或者做如下描述：1)在小麦生育期内逐日判断该日是否发生了干热风，若该日的日最高气温>30℃、14时空气相对湿度<30％、14时风速>3m/s，则认为该日发生了干热风，记作一个干热风有效天。2)统计生育期内所有干热风有效天得到干热风有效天的累积。

具体的，步骤101之前还包括：

根据欧空局哥白尼气象数据中心历年的每月平均降水量数据得到设定麦区的每个像元在每个小麦生育期内每月的平均降水量。欧空局哥白尼气象数据中心历年每月的平均降水量数据来自欧空局(European SpaceAgency)哥白尼气象数据中心1999-2018年月平均降水量数据，空间分辨率为0.25°*0.25°，用于计算能够描述小麦生育期内冷害与洪涝情况的指标(洪涝与低温冷害指标)。

逐月对所有小麦生育期内同一月的平均降水量计算均值，得到每月的平均降水量历史均值。历史均值即历时一定时间内的均值，只有一个数值。

对平均降水量以及与平均降水量对应的平均降水量历史均值做差，得到设定麦区的每个像元在每个小麦生育期内每月的平均降水距平值。

根据设定麦区的耕地掩模和每个像元在每个小麦生育期内每月的平均降水距平值，得到设定麦区的各耕地像元在每个小麦生育期内每月的平均降水距平值。

以县边界矢量数据和各耕地像元在每个小麦生育期内每月的平均降水距平值为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每月的平均降水距平值的均值，得到设定麦区中各县总耕地在每个小麦生育期内每月的平均降水距平值；其中，每个小麦生育期对应N个平均降水距平值；N的值与小麦生育期包括的月份数量等同。

根据欧空局哥白尼气象数据中心历年的每月平均温度数据得到设定麦区的每个像元在每个小麦生育期内每月的平均温度。欧空局哥白尼气象数据中心历年每月的平均温度数据来自欧空局(European SpaceAgency)哥白尼气象数据中心1999-2018年月平均温度数据，空间分辨率为0.25°*0.25°，用于计算能够描述小麦生育期内冷害与洪涝情况的指标。

逐月对所有小麦生育期内同一月的平均温度计算均值，得到每月的平均温度历史均值。

对平均温度以及与平均温度对应的平均温度历史均值做差，得到设定麦区的每个像元在每个小麦生育期内每月的平均温度距平值。

根据设定麦区的耕地掩模和每个像元在每个小麦生育期内每月的平均温度距平值，得到设定麦区的各耕地像元在每个小麦生育期内每月的平均温度距平值。

以县边界矢量数据和各耕地像元在每个小麦生育期内每月的平均温度距平值为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每月的平均温度距平值的均值，得到设定麦区中各县总耕地在每个小麦生育期内每月的平均温度距平值；其中，每个小麦生育期对应N个平均温度距平值；N的值与小麦生育期包括的月份数量等同。

洪涝指标的计算流程是首先在像元水平上计算小麦生育期内某月份平均降水的历史均值，然后用当月平均降水实际值与历史均值作差得到当月平均降水距平值，最后取县域内像元距平值的均值作为描述该县在当月洪涝情况的指标(简称为月平均降水距平值)。低温冷害指标的计算方法与洪涝指标类似，首先在像元水平上计算小麦生育期内某月份平均温度的历史均值，然后用当月平均温度实际值与历史均值作差得到当月平均温度距平值，最后取县域内像元距平值的均值作为描述该县在当月低温冷害情况的指标(简称为月平均温度距平值)，小麦生育期内其他所有月份的月平均降水距平值和月平均温度距平值均采用以上方法进行计算，各个区的生育期不一样，计算的月份数量不一样。具体每个小麦种植区计算的月份可以见表1。其中，像元水平指的是格网，用来计算洪涝与低温冷害的指标来自欧空局(European SpaceAgency)哥白尼气象数据中心1999-2018年月平均降水量和月平均温度数据，空间分辨率均为0.25°*0.25°。像元水平就是0.25°的格网大小。当月平均降水距平值指的是一个0.25°的格网内的当月平均降水距平值。县域内像元距平值的均值是县内包含的所有格网的当月平均降水距平值的均值。单纯的历年降水量不能较好地表示灾害发生的严重程度和灾害在不同阶段对作物的影响程度，像元水平的计算过程只是为了最终得到县域内像元距平值的均值，作为相应的灾害指标进行模型输入。

根据NASA历年16天合成的MOD13Q1-NDVI数据得到设定麦区的每个像元在每个小麦生育期内每16天对应的NDVI植被指数。NASA历年16天合成的MOD13Q1-NDVI数据来自美国航空航天局(NASA)2000-2018年16天合成的MOD13Q1-NDVI数据，空间分辨率为250m，用于遥感植被指数(NDVI植被指数)的计算。

将NDVI植被指数重采样至1km分辨率，得到每个像元在每个小麦生育期内每16天对应的1km分辨率的NDVI植被指数。

将设定麦区的1km分辨率的耕地掩模分别与每个像元在每个小麦生育期内每16天对应的1km分辨率的NDVI植被指数相乘，得到设定麦区的各耕地像元在每个小麦生育期内每16天对应的NDVI植被指数。

以县边界矢量数据和各耕地像元在每个小麦生育期内每16天对应的NDVI植被指数为输入，利用矢栅统计工具，逐县统计县域内所有耕地像元在每个小麦生育期内每16天对应的NDVI植被指数的均值，得到设定麦区中各县总耕地在每个小麦生育期内每16天对应的NDVI植被指数；其中，每个小麦生育期对应M个NDVI植被指数。通过计算一个小麦生育期所包括的所有天数/16所得到的整数部分的值来确定M的值，M的值等于一个小麦生育期所包括的所有天数/16所得到的整数部分的值。

遥感植被指数具体计算流程如下：1)将MOD13Q1-NDVI从250米分辨率重采样到1km分辨率；2)用1km分辨率的耕地掩模(01二值图，1表示耕地，0表示非耕地)和1km分辨率的MOD13Q1-NDVI相乘，得到耕地的MOD13Q1-NDVI数值；3)以县边界矢量数据和耕地的MOD13Q1-NDVI为输入，利用矢栅统计工具，逐县统计县域内耕地NDVI的均值。简单来说，首先对MOD13Q1-NDVI数据从250m重采样至1km，然后用全国土地利用分布图对2000-2018年小麦生育期内MOD13Q1-NDVI数据进行耕地掩膜，最后用全国县级矢量对各县耕地范围内NDVI取均值，作为各县的遥感植被指数指标。

具体的，步骤102具体包括气象产量与气象因子回归以及随机森林回归与验证。其中：

气象产量与气象因子回归分别采用不同方法对五大麦区所有县小麦实际单产进行趋势产量拟合，用实际单产减去趋势单产得到气象单产，以气象单产(气象产量)为输出变量，以四类气象灾害指标(四类气象灾害指数)为输入变量，训练数据集包括了输出变量和输入变量，分别在五大麦区构建随机森林回归模型。气象产量并非产量，目标是检测哪种趋势产量的拟合方法好，选出最佳的拟合方法后，再进行随机森林回归与验证。气象产量是指因气象条件变化而导致的产量波动部分，因此模型拟合精度越好的说明气象产量拟合效果越好，即趋势产量拟合效果越好。模型拟合精度用验证样本的决定系数R²，均方根误差、平均绝对误差进行评价。

随机森林回归与验证采用目前较为流行的机器学习算法：随机森林算法。随机森林算法的主要思想是从原始训练集中有放回地抽取n个样本，且每个样本的样本容量均与原始训练集的大小一致；然后对每个样本分别进行决策树建模，得到n个建模结果，最后以每一个棵决策树预测结果的平均值作为最终预测结果。

以四类气象灾害指标、遥感植被指数和趋势单产为输入变量，以实际单产为输出变量，建立样本集，综合考虑了气候变化引起的气象产量部分以及社会技术发展引起的技术产量(即趋势产量)部分，并以遥感植被指数作为补充，对各个麦区建立随机森林估产模型。估产模型的输入变量包括趋势单产1个、干热风有效天数1个、SPEI干旱指数1个、生育期内月平均降水距平N个、生育期内月平均温度距平N个、生育期内每16天的NDVI植被指数M个，共2N+M+3个参数作为输入变量，实际产量为输出变量进行估产模型建立。实际产量即小麦单产，小麦单产为趋势产量与气象产量之和，目的是建立估产模型，并用随机验证样本测试模型拟合精度。需要注意的是，不同麦区小麦的生育期并集不同，相应的生育期并集月平均温度距平和月平均降水距平的个数N将发生改变。以样本集中四分之三样本子集作为训练样本建立回归模型，四分之一样本子集作为验证样本进行估产模型拟合精度的验证，随机森林回归模型拟合精度用模型决定系数R²、验证样本的均方根误差、平均绝对误差以及平均相对误差进行评价。

本发明技术路线如图2所示，主要包括以下步骤：1)利用原始气象数据与遥感数据建立相应气象灾害指标与遥感植被指数。2)利用直线滑动平均法、HP滤波法拟合趋势产量，选择最佳拟合方法。3)以气象灾害指标、遥感植被指数为输入变量，实际产量为输出变量，建立样本库。4)利用随机森林算法在不同麦区建立估产模型并进行精度验证。5)筛选出各麦区不同类型灾害年份，并进行估产验证。本发明基于随机森林算法，以气象估产模式为理论基础，结合遥感植被指数，建立估产模型，为探究气候变化对小麦产量的影响，获取大尺度下满足异常气候下估产精度的模型提供方案参考。

其中，对该实施例适用于极端气候条件下的小麦估产方法进行灾害年份估产精度验证，目的是为了测试建立的估产模型在灾害异常年份的估产精度，具体包括：考虑到各麦区实际上均由不同的省(直辖市)组成，因此该实施例直接采用麦区内主要省(直辖市)农作物受灾面积累计的大小来表示各麦区整体受干旱、洪涝、低温冷害三类气象灾害导致的农作物受灾情况。另外，由于年鉴统计数据中不包含干热风灾害统计数据，因此对于不同麦区干热风灾害年份的确定，该实施例主要参考了其他专家学者的相关研究。灾害年份确定之后，将五大麦区灾害年份对应的样本进行剔除，对各麦区重新建立随机森林回归模型，然后将各麦区旱灾、洪涝灾害、低温冷害、干热风灾害年份对应的样本代入重新训练好的模型进行灾害年份产量预测。各麦区灾害年份产量预测分别用各麦区中所有县小麦单产真实值和预测值的平均相对误差、各麦区实际单产和预测单产的相对误差进行评价。其中，各麦区实际单产是先用各县实际单产与各县实际种植面积计算得到麦区实际总产量，再用实际总产量除以总种植面积得到。同理，各麦区预测单产是先用各县预测单产与各县级实际种植面积计算得到麦区总预测产量，再用麦区总预测产量除以总种植面积得到。

下面对该实施例适用于极端气候条件下的小麦估产方法的研究成果进行介绍：

1、趋势产量拟合方法

图3为气象产量与气象因子拟合精度示意图，图3中R²、MAE、RMSE分别为决定系数、平均绝对误差、均方根误差；3a、5a、hp分别为3a直线滑动平均法、5a直线滑动平均法、hp滤波法。如图3所示，分别采用3a直线滑动平均法、5a直线滑动平均法和HP滤波法对五大麦区所有县小麦实际单产进行趋势产量拟合，并在五大麦区构建随机森林回归模型。从各麦区不同方法拟合效果来看，北部冬麦区HP方法R²最高，但3a方法的均方根误差、平均绝对误差最低；黄淮海冬麦区3a方法R²最高，均方根误差、平均绝对误差最低；西南冬麦区5a方法R²最高为0.368，其次为HP方法0.327、3a方法0.324，但3a方法的均方根误差、平均绝对误差最低；长江中下游冬麦区中HP方法R²最高为0.315，其次为5a方法0.288，3a方法0.226，但3a方法均方根误差、平均绝对误差最低；西北春麦区3a方法R²最高为0.205，其次为5a方法0.151，HP方法0.093，3a方法的均方根误差、平均绝对误差最低；综合对比各麦区模型R²、均方根误差、平均绝对误差，认为在本次研究中，3a直线滑动平均法拟合趋势产量的效果比5a直线滑动平均法和HP滤波法的拟合效果更好。因此，该实施例最终决定采用3a直线滑动平均法对趋势产量进行拟合，并进行下一步估产模型建立工作。

2、随机森林估产模型构建与精度验证结果

表2为各麦区随机森林估产模型拟合精度统计表。从表2可以看出，各麦区估产模型的拟合精度均较高，各麦区估产模型拟合R²达到0.98以上，平均相对误差均低于0.073。其中，黄淮海冬麦区估产模型拟合精度最高，决定系数R²、均方根误差、平均绝对误差与平均相对误差分别为0.992、125.183千克/公顷、76.703千克/公顷、0.019；西北春麦区估产模型拟合精度相对最低，决定系数R²、均方根误差RMSE(kg/hm²)、平均绝对误差MAE(kg/hm²)与平均相对误差MRE分别为0.990、200.835千克/公顷、131.655千克/公顷、0.073。综上所述，用该实施例提出的方法对各麦区建立的随机森林估产模型拟合精度整体较高，能够满足大范围尺度估产精度，为异常气候下估产模型的建立提供参考。

表2各麦区随机森林估产模型拟合精度统计表

麦区	决定系数	均方根误差	平均绝对误差	平均相对误差
					黄淮海冬麦区	0.992	125.183	76.703	0.019
西南冬麦区	0.989	118.102	75.293	0.032
					长江中下游冬麦区	0.990	129.915	86.513	0.032
北部冬麦区	0.989	159.188	100.74	0.035
					西北春麦区	0.990	200.835	131.655	0.073

3灾害年份估产精度验证

3.1灾害年份确定

图4至图8为各麦区农作物灾损统计情况，图4、图5、图6、图7和图8中，(a)部分均表示低温冷害受灾面积统计，(b)部分均表示干旱受灾面积统计，(c)部分均表示洪涝受灾面积统计，以2000-2019年《中国农村统计年鉴》全国各省农作物自然气候灾害损失数据为基础，各麦区主要省(直辖市)农作物受灾面积累计的大小为依据，对五大麦区不同类型灾害年份进行确定。西北春麦区低温冷害、干旱、洪涝灾害年份分别为2004年、2000年、2013年；北部冬麦区低温冷害、旱灾、洪涝灾害年份分别为2006年、2001年、2007年；黄淮海冬麦区低温冷害、旱灾、洪涝灾害年份分别为2005年、2001年、2003年；长江中下游冬麦区低温冷害、旱灾、洪涝灾害年份分别为2008年、2001年、2003年；西南冬麦区低温冷害、旱灾、洪涝灾害年份分别为2008年、2001年、2002年。

通过收集相关资料发现，干热风灾害有较强的区域性，其主要集中在中国河西地区、黄淮海平原等地区，即西北春麦区、北方冬麦区以及黄淮海冬麦区，而在其他地区较轻。已有研究表明，1960年至2017年河西地区发生总次数和日数先缓慢减少后迅速增多，2000年之后干热风发生日数、次数明显增多，干热风影响范围不断扩大，其中2004年的干热风发生总天数最高，持续天数也达到了历年最长(12天)；1961年至2015年黄淮海平原地区干热风日数总体呈下降趋势，重度干热风日数下降较为明显，但是在2001年黄淮海平原地区仍发生了一次严重的干热风灾害，区域平均干热风日数达8.1天，成为1961至2015年干热风日数最多的年份，严重影响了粮食安全。因此，该实施例将2004年作为西北春麦区干热风灾害年份，2001年作为北部冬麦区与黄淮海冬麦区的干热风灾害年份，并进行后续灾害年份估产精度验证，长江中下游冬麦区与西南冬麦区未进行干热风灾害年份的确定。

3.2灾害年份估产精度验证结果

表3、表4分别显示了各麦区所有县单产真实值与预测值平均相对误差、各麦区实际单产与预测单产相对误差统计。五大麦区不同类型灾害年份的估产精度整体较高，从整体上看，各麦区所有县单产平均相对误差的最大值为西北春麦区洪涝灾害年份的估产精度(0.060)，最小值为黄淮海冬麦区洪涝灾害年份的估产精度(0.017)，平均相对误差的均值为0.032。黄淮海冬麦区灾害年份的估产精度高于其他麦区灾害年份的估产精度，西北春麦区灾害年份估产精度相对最低。从表4也可以看出，在不同类型灾害年份，五大麦区单产预测精度整体较高，整体相对误差最低为0.049，最高为0.001，均值为0.018。

表3各麦区所有县单产真实值与预测值平均相对误差统计表

表4各麦区实际单产与预测单产相对误差统计表

以上通过对整个试验的设计、实施与结果分析，得到如下主要结论：(1)分别采用3a、5a直线滑动平均法和HP滤波法进行趋势产量拟合，用实际产量减去趋势产量得到气象产量，用随机森林算法对各类气象因子与气象产量进行回归，通过分析回归精度来间接验证趋势产量的拟合精度。综合对比各麦区模型R²、均方根误差、平均绝对误差，确定3a直线滑动平均法拟合趋势产量的效果更好。(2)以四类气象灾害指标、遥感植被指数、趋势单产为输入变量，实际单产作为输出变量，在五大麦区建立随机森林估产模型并进行精度验证。结果显示，各麦区回归模型拟合精度较高，决定系数R²均达到了0.95以上，验证样本的平均相对误差均低于0.073，均方根误差均低于200.835千克/公顷，平均绝对误差均低于131.655千克/公顷。各麦区所有县灾害年份实际单产与预测单产平均相对误差均低于0.060，各麦区实际单产与预测单产的相对误差均低于0.049。

本发明研究异常气候下小麦估产方法，在全球气候变化背景下，为了探究气候变化对农作物产量的影响，获取异常气候条件下满足预测精度的估产模型，提出一种综合气象灾害指标、遥感植被指数与趋势产量的随机森林回归估产方法。采用不同方法对趋势产量(趋势单产)进行拟合；筛选了影响中国小麦生产的四种主要气象灾害类型，分别建立相应的气象灾害指标；结合遥感植被指数，利用随机森林算法，在五大麦区建立估产回归模型并进行了灾害年份估产精度验证。结果显示，不同趋势产量拟合方法中，3a直线滑动平均法效果更好；五大麦区估产模型拟合精度较高，R²均达到0.95以上，各麦区灾害年份产量估测精度较高，各麦区所有县灾害年份实际单产与预测单产平均相对误差均低于0.060，各麦区实际单产与预测单产的相对误差均低于0.049。本发明构建的随机森林估产模型能够满足异常气候下估产精度，为在异常气候频发的背景下，探究气候变化对小麦产量的影响与全国大尺度范围估产方法研究提供参考。本发明以传统气象估产模式为理论基础，结合气象灾害指标、遥感植被指数、趋势产量建立的估产模型取得了较好的估产精度，为异常气候下小麦估产模型的建立，分析气候变化对小麦产量的影响提供了借鉴，发展的估产模型对所有区域主要气象灾害类型参数进行了统一，并且能够在大范围尺度下(全国)，对灾害年份的产量进行准确预测。

图9为本发明适用于极端气候条件下的小麦估产系统实施例的结构图。参见图9，该系统包括：训练样本获取模块901，用于获取多个不同的训练样本；每个训练样本均包括设定麦区中各县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个平均降水距平值、N个平均温度距平值和M个NDVI植被指数；N和M的值均根据小麦生育期确定。随机森林模型训练模块902，用于以多个不同的训练样本为输入，以各训练样本分别对应的各县总耕地在每个小麦生育期的实际产量为输出，对随机森林模型进行训练和优化，得到优化后的随机森林模型。估产模块903，用于将待估产麦区中待估产县总耕地在一个小麦生育期对应的趋势产量、SPEI干旱指数、干热风有效天数、N个降水距平值、N个温度距平值和M个NDVI植被指数输入优化后的随机森林模型中，得到待估产麦区中待估产县总耕地的实际产量。

Claims

1.一种适用于极端气候条件下的小麦估产方法，其特征在于，所述方法包括：

2.根据权利要求1所述的适用于极端气候条件下的小麦估产方法，其特征在于，所述获取多个不同的训练样本，之前还包括：

3.根据权利要求1所述的适用于极端气候条件下的小麦估产方法，其特征在于，所述获取多个不同的训练样本，之前还包括：

根据SPEIbasev2.6数据集得到设定麦区的每个像元在每个小麦生育期对应的SPEI干旱指数；

4.根据权利要求1所述的适用于极端气候条件下的小麦估产方法，其特征在于，所述获取多个不同的训练样本，之前还包括：

5.根据权利要求1所述的适用于极端气候条件下的小麦估产方法，其特征在于，所述获取多个不同的训练样本，之前还包括：

6.根据权利要求1所述的适用于极端气候条件下的小麦估产方法，其特征在于，所述获取多个不同的训练样本，之前还包括：

7.根据权利要求1所述的适用于极端气候条件下的小麦估产方法，其特征在于，所述获取多个不同的训练样本，之前还包括：

8.一种适用于极端气候条件下的小麦估产系统，其特征在于，所述系统包括：