CN116028834B - 一种基于XGBoost算法的小麦赤霉病预测方法 - Google Patents

一种基于XGBoost算法的小麦赤霉病预测方法 Download PDF

Info

Publication number
CN116028834B
CN116028834B CN202310177526.6A CN202310177526A CN116028834B CN 116028834 B CN116028834 B CN 116028834B CN 202310177526 A CN202310177526 A CN 202310177526A CN 116028834 B CN116028834 B CN 116028834B
Authority
CN
China
Prior art keywords
data
flowering period
wheat
wheat scab
xgboost algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310177526.6A
Other languages
English (en)
Other versions
CN116028834A (zh
Inventor
张昊
王季锋
刘太国
陈万权
王兆勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huangjun Technology Co ltd
Institute of Plant Protection of Chinese Academy of Agricultural Sciences
Original Assignee
Beijing Huangjun Technology Co ltd
Institute of Plant Protection of Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huangjun Technology Co ltd, Institute of Plant Protection of Chinese Academy of Agricultural Sciences filed Critical Beijing Huangjun Technology Co ltd
Priority to CN202310177526.6A priority Critical patent/CN116028834B/zh
Publication of CN116028834A publication Critical patent/CN116028834A/zh
Application granted granted Critical
Publication of CN116028834B publication Critical patent/CN116028834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及农作物病害监测技术领域,公开了一种基于XGBoost算法的小麦赤霉病预测方法。包括以下步骤:S1:建立全国小麦赤霉病病情数据库;S2:建立病害监测点气象资料数据库;S3:筛选出三个模型的训练数据集;S4:使用XGBoost算法进行梯度提升训练;S5:评价模型精度。本发明提供的基于XGBoost算法的小麦赤霉病预测方法数据来源为全国大部分小麦产区的多年多病害监测点调查数据,包括扬花期前30天至扬花期后15天的气象数据,数据精度高、数据量大。采用三段式预测的方法,具有适用范围广、预测精度高、预测时间提前的优点,同时可以逐年向数据库中增加新的数据,用以优化模型参数,提高模型精度,能够大范围应用于全国的小麦赤霉病监测预警,保障我国小麦生产安全。

Description

一种基于XGBoost算法的小麦赤霉病预测方法
技术领域
本发明涉及一种基于XGBoost算法的小麦赤霉病预测方法,属于农作物病害监测技术领域。
背景技术
小麦是我国的主要粮食作物之一,小麦生产安全是保障我国粮食安全的重要部分。小麦赤霉病(Fusarium Head Blight)被纳入我国《一类农作物病虫害目录》,是我国小麦生产中的主要病害之一,具有发病范围广,危害面积大,易造成减产绝收,使小麦籽粒面临毒素污染风险等特点,今年来不仅传统的长江中下游麦区发病严重,还呈现出明显的北移西扩的趋势,黄淮海麦区常年发病严重,过去很少发病的陇南、海东等地区近年也常有发生,严重威胁到了我国的粮食安全,给国家造成了巨大的经济损失。
小麦赤霉病的发生与流行受气象因素影响极大,主要体现在三个阶段,一是初侵染源镰孢菌的子囊壳和子囊孢子的形成和积累;二是小麦扬花期时子囊孢子的扩散和侵染;三是在成功侵染后,镰孢菌在小麦上的扩展以及毒素的产生积累,这三个阶段都不同程度地受到温度、湿度、降雨等气象因素的影响。因此利用气象因子开展小麦赤霉病发病情况预测可以实现对赤霉病的提前防控,降低经济损失。
目前,多数传统的小麦赤霉病预测预报研究都是利用抽穗扬花前的较长时间尺度气象因子以及田间调查的子囊壳数量、小麦品种赤霉病抗性等因素,采用统计方法建立回归模型,结合经验模型进而预测小麦赤霉病的流行趋势,传统模型数据中包含人工调查指标、分类变量等因素,可能会存在较大的误差,同时数据来源多局限于单个省市,具有地域局限性。
也有通过深度学习方法,结合小麦生长阶段的部分气象数据进行模型训练,进而进行预测。但现有模型所用的数据多为扬花期前的气象数据,很少考虑扬花后的病情扩展阶段,重在预测小麦赤霉病在扬花期的侵染而对于病害在灌浆期的严重度发展预测不足,大多方法所使用的数据都是对气象数据进行了归纳整合后的数据,可能丢失部分数据特征,同时都具有一定的地域限制,不能广泛应用于全国的小麦赤霉病监测预警。
因此,提供一种基于机器学习算法,结合大量扬花期前后更长时间尺度的气象数据,尽量排除人为因素的不稳定性、适用于全国的高精度小麦赤霉病预测模型是有必要的。
发明内容
针对上述背景技术中的不足,本发明提供一种基于XGBoost算法的小麦赤霉病预测方法,通过构建全国赤霉病病情等级及气象因子数据库,选择适宜时间尺度的天气数据,利用XGBoost机器学习算法进行梯度提升训练模型,进行小麦赤霉病病情预测。
为实现上述目的,本发明提供一种基于XGBoost算法的小麦赤霉病预测方法,包括以下步骤:
S1:根据多年在全国多个省份进行小麦赤霉病田间发病率调查,构建病情数据库,建立全国小麦赤霉病病情数据库;
S2:基于中国气象要素站点观测逐日数据集,利用R软件(R version:4.1.1)中的gstat程序包,通过普通克里金插值法得到各病害监测点的气象数据,建立病害监测点气象资料数据库;
S3:根据赤霉病的实际防控需求,设立了三个预报时间节点,分别是扬花期前9天、前6天、前3天,分别设置三个预测模型(model1、model2、model3),根据模型设置要求从步骤S1和S2建立的数据库中提取扬花期前30天至扬花期后15天共46天的部分气象数据,分别建立三个模型训练数据库;
S4:在Python平台上调用sklearn程序包中的XGBoost算法对三个模型进行梯度提升训练;
S5:通过测试数据集对模型进行测试,根据相应指标判断模型预测精度。
进一步地,步骤S1中构建的数据库包括安徽、内蒙古、北京、甘肃、河北、河南、黑龙江、湖北、江苏、宁夏、青海、山东、山西、陕西、四川、天津等16个省市的499个病害监测点,从2018-2021四年共836条调查数据,数据内容包含病害监测点编号、经纬度、调查时间、小麦生育期、田间病穗率、扬花期等信息,其中扬花期由调查时间和小麦生育期推导而来。
进一步地,步骤S2中构建的数据库包含空气温度、空气相对湿度、0cm地表温度、降雨量、日照时数五种要素,分为平均空气温度(tmean)、最高空气温度(tmax)、最低空气温度(tmin)、平均相对空气湿度(rhmean)、最低相对空气湿度(rhmin)、平均0cm地表温度(stmean)、最高0cm地表温度(stmax)、最低0cm地表温度(stmin)、总降雨量(pcp)、总日照时数(dh)十个因子。
进一步地,步骤S3中选择气象数据时考虑到模型在实际应用时只能获取到模型应用时间节点前的实际气象数据,但是节点后的数据只能采用天气预报数据,而天气预报数据只包含平均空气温度(tmean)、最高空气温度(tmax)、最低空气温度(tmin)、平均相对空气湿度(rhmean)、总降雨量(pcp)五个因子,所以每个模型所需的气象数据采取了实测气象数据(十个因子)加天气预报数据(五个因子)组合的方式,模型训练数据集中天气预报数据用相应实测数据代替。其中model1,扬花期前9-前7天调用,采用扬花期前30-前10天(共21天)实测气象数据加扬花期前9-扬花期后15天(共25天)天气预报数据,共计335列气象数据;model2,扬花期前6-前4天调用,采用扬花期前30-前7(共24天)天实测气象数据加扬花期前6-扬花期后15天(共22天)天气预报数据,共计350列气象数据;model3,扬花期前3天及之后调用,采用扬花期前30-前4(共27天)天实测气象数据加扬花期前3-扬花期后15天(共19天)天气预报数据,共计365列气象数据。三个模型的输入变量为各自的气象数据以及对应病害监测点的经纬度,输出变量为对应病害监测点的小麦赤霉病病穗率。
进一步地,步骤S4中模型训练时选取10%数据作为测试数据,90%作为训练数据,通过网格搜索法优化参数。
进一步地,步骤S5中通过均方误差(MSE)、R-平方(R2)、平均绝对误差(MAE)三个指标判断模型精度。
与现有技术相比,本发明具备以下有益效果:
1.XGBoost机器学习算法运行速度快,学习能力强,能够从大量数据中捕捉特征用以优化模型,不同于以往大多数模型对气象数据进行筛选、归纳、整合,本发明使用了大量的气象数据,且通过空间插值的方法获取到病害监测点的准确气象数据,再利用XGBoost算法来捕捉每个变量对模型的影响,同时没有使用品种抗性、田间子囊壳数量等无法用仪器定量测定而可能存在较大偶然误差的变量,以此提高模型的精度及普适性;
2.本发明采用了大量来自全国多个省份多年调查的数据,基本覆盖了我国所有的小麦产区,空间尺度大,数据量充足,同时在模型中引入了病害监测点经纬度作为输入变量,考虑到了监测点间的位置差异,能够很好的应用于全国范围内的小麦赤霉病病情预测。同时能够逐年向数据库中持续添加新的病害监测点数据,随着模型数据库的不断扩大,模型预测精度会不断增高;
3.本发明模型所使用的气象数据不仅包含了扬花期前的实测气象数据,能够很好的反映气象情况对镰孢菌子囊壳和子囊孢子形成、释放的影响,同时还包含了扬花期及扬花期后灌浆阶段的天气预报数据,能够反映镰孢菌侵染及在病株中的发展情况,更加符合小麦赤霉病的田间实际发生情况,预测结果更加贴合接近实测的田间数据;
4.本发明采取了分阶段预测的方法,设置三个预测模型,随着距扬花期越来越近,模型所使用到的实测气象数据越多,而天气预报数据越少,数据真实性增加,预测精度提高。本方法从扬花期前9天就开始进行预测,能够尽早的进行风险提示,为必要的防治工作预留了足够的准备时间。
附图说明
图1为本发明的技术流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施实例,对本发明的技术方案进行清楚、完整地描述。
实施实例1:
S1:根据2018-2021年在全国多个省份进行的小麦赤霉病田间发病率调查,构建病情数据库,建立全国小麦赤霉病病情数据库;
S2:基于中国气象要素站点观测逐日数据集,利用R软件(R version:4.1.1)中的gstat程序包,通过普通克里金插值法得到各病害监测点的气象数据,建立病害监测点气象资料数据库;
S3:根据赤霉病的实际防控需求,我们设立了三个预报时间节点,分别是扬花期前9天、前6天、前3天,分别设置三个预测模型(model1、model2、model3),根据模型设置要求从步骤S1和S2建立的数据库中提取扬花期前30天至扬花期后15天共46天的部分气象数据,分别筛选出三个模型训练数据集;
S4:在Python平台上调用sklearn程序包中的XGBoost算法对三个模型进行梯度提升训练,优化参数得到最优模型;
S5:通过测试数据集对模型进行测试,根据相应指标判断模型预测精度。
步骤S1中构建的数据库包括安徽、内蒙古、北京、甘肃、河北、河南、黑龙江、湖北、江苏、宁夏、青海、山东、山西、陕西、四川、天津等16个省市的499个病害监测点,共836条调查数据,包含病害监测点编号、经纬度、调查时间、小麦生育期、田间病穗率、扬花期等信息,其中扬花期由调查时间和小麦生育期推导而来。
步骤S2中构建的数据库包含空气温度、空气相对湿度、0cm地表温度、降雨量、日照时数五种要素,分为平均空气温度(tmean)、最高空气温度(tmax)、最低空气温度(tmin)、平均相对空气湿度(rhmean)、最低相对空气湿度(rhmin)、平均0cm地表温度(stmean)、最高0cm地表温度(stmax)、最低0cm地表温度(stmin)、总降雨量(pcp)、总日照时数(dh)十个因子。
步骤S3中选择气象数据时考虑到预测模型在实际应用时我们可以获取到模型应用时间节点前的实际气象数据,但是节点后的数据只能采用天气预报数据,而天气预报数据只包含平均空气温度(tmean)、最高空气温度(tmax)、最低空气温度(tmin)、平均相对空气湿度(rhmean)、总降雨量(pcp)五个因子,所以每个模型所需的气象数据采取了实测气象数据(十个因子)加天气预报数据(五个因子)组合的方式进行,其中model1,扬花期前9-7天调用,采用扬花期前30-前10天(共21天)实测气象数据加扬花期前9-扬花期后15天(共25天)天气预报数据,共计335列气象数据;model2,扬花期前6-4天调用,采用扬花期前30-前7(共24天)天实测气象数据加扬花期前6-扬花期后15天(共22天)天气预报数据,共计350列气象数据;model3,扬花期前3天及之后调用,采用扬花期前30-前4(共27天)天实测气象数据加扬花期前3-扬花期后15天(共19天)天气预报数据,共计365列气象数据。三个模型的输入变量为各自的气象数据以及对应病害监测点的经纬度,输出变量为对应病害监测点的小麦赤霉病病穗率。
步骤S4中模型训练时选取10%数据作为测试数据,90%作为训练数据,通过网格搜索法优化参数。
步骤S5中通过均方误差(MSE)、R2(R-squared)、平均绝对误差(MAE)三个指标判断,经过梯度提升训练后,三个模型的R2均大于0.8,MSE均小于0.01,MAE均小于0.02,模型精度都较高。
以上所述仅为本发明的实施实例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于XGBoost算法的小麦赤霉病预测方法,其特征在于:包括如下步骤:
S1:根据多年在全国多个省份进行小麦赤霉病田间发病率调查,构建病情数据库,建立全国小麦赤霉病病情数据库;
S2:基于中国气象要素站点观测逐日数据集,利用R软件(R version:4.1.1)中的gstat程序包,通过普通克里金插值法得到各病害监测点的气象数据,建立病害监测点气象资料数据库;
所述建立病害监测点气象资料数据库包含空气温度、空气相对湿度、0cm地表温度、降雨量、日照时数五种要素;
S3:根据赤霉病的实际防控需求,设立了三个预报时间节点,分别是扬花期前9天、前6天、前3天,分别设置三个预测模型model1、model2、model3,根据模型设置要求从步骤S1和S2建立的数据库中提取扬花期前30天至扬花期后15天共46天的部分气象数据,分别建立三个模型训练数据库;
所述model1扬花期前9-前7天调用,model2扬花期前6-前4天调用,model3扬花期前3天及之后调用;
S4:在Python平台上调用sklearn程序包中的XGBoost算法对三个模型进行梯度提升训练;
S5:通过测试数据集对模型进行测试,根据相应指标判断模型预测精度。
2.根据权利要求1所述的一种基于XGBoost算法的小麦赤霉病预测方法,其特征在于:步骤S1中构建的数据库包括安徽、内蒙古、北京、甘肃、河北、河南、黑龙江、湖北、江苏、宁夏、青海、山东、山西、陕西、四川、天津等16个省市的499个病害监测点,从2018-2021四年共836条调查数据,数据内容包含病害监测点编号、经纬度、调查时间、小麦生育期、田间病穗率、扬花期等信息,其中扬花期由调查时间和小麦生育期推导而来。
3.根据权利要求1所述的一种基于XGBoost算法的小麦赤霉病预测方法,其特征在于:步骤S2中所述空气温度、空气相对湿度、0cm地表温度、降雨量、日照时数五种要素,分为平均空气温度(tmean)、最高空气温度(tmax)、最低空气温度(tmin)、平均相对空气湿度(rhmean)、最低相对空气湿度(rhmin)、平均0cm地表温度(stmean)、最高0cm地表温度(stmax)、最低0cm地表温度(stmin)、总降雨量(pcp)、总日照时数(dh)十个因子。
4.根据权利要求1所述的一种基于XGBoost算法的小麦赤霉病预测方法,其特征在于:步骤S3中三个模型的训练数据分为调用时间节点前、后两个部分,节点前采用实测数据(10个因子),节点后采用天气预报数据(5个因子),包括tmean,tmax,tmin,rhmean,pcp,此处由实测数据代替。
5.根据权利要求1所述的一种基于XGBoost算法的小麦赤霉病预测方法,其特征在于:步骤S4中模型训练时选取10%数据作为测试数据,90%作为训练数据,通过网格搜索法优化参数。
6.根据权利要求1所述的一种基于XGBoost算法的小麦赤霉病预测方法,其特征在于:步骤S5中通过均方误差(MSE)、R-平方(R2)、平均绝对误差(MAE)三个指标判断模型精度。
CN202310177526.6A 2023-02-28 2023-02-28 一种基于XGBoost算法的小麦赤霉病预测方法 Active CN116028834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310177526.6A CN116028834B (zh) 2023-02-28 2023-02-28 一种基于XGBoost算法的小麦赤霉病预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310177526.6A CN116028834B (zh) 2023-02-28 2023-02-28 一种基于XGBoost算法的小麦赤霉病预测方法

Publications (2)

Publication Number Publication Date
CN116028834A CN116028834A (zh) 2023-04-28
CN116028834B true CN116028834B (zh) 2023-12-12

Family

ID=86070702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310177526.6A Active CN116028834B (zh) 2023-02-28 2023-02-28 一种基于XGBoost算法的小麦赤霉病预测方法

Country Status (1)

Country Link
CN (1) CN116028834B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085753A (zh) * 2017-04-21 2017-08-22 河北农业大学 一种冬小麦赤霉病的预测方法
CN110741889A (zh) * 2019-11-28 2020-02-04 河南省农业科学院植物保护研究所 一种预测小麦赤霉病初始侵染源丰富度的方法
CN111611983A (zh) * 2020-06-29 2020-09-01 南京农业大学 一种手持式田间小麦赤霉病监测预警装置及方法
GB202101354D0 (en) * 2020-07-06 2021-03-17 Aerospace Information Research Institute Chinese Academy Of Sciences Method and device for dynamic early-warning of wheat scab
CN113205205A (zh) * 2021-04-08 2021-08-03 安徽农业大学 一种基于深度森林算法的小麦赤霉病预测方法
CN114298418A (zh) * 2021-12-29 2022-04-08 江苏省气候中心 小麦赤霉病流行气象适宜度等级预测方法及计算机系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085753A (zh) * 2017-04-21 2017-08-22 河北农业大学 一种冬小麦赤霉病的预测方法
CN110741889A (zh) * 2019-11-28 2020-02-04 河南省农业科学院植物保护研究所 一种预测小麦赤霉病初始侵染源丰富度的方法
CN111611983A (zh) * 2020-06-29 2020-09-01 南京农业大学 一种手持式田间小麦赤霉病监测预警装置及方法
GB202101354D0 (en) * 2020-07-06 2021-03-17 Aerospace Information Research Institute Chinese Academy Of Sciences Method and device for dynamic early-warning of wheat scab
CN113205205A (zh) * 2021-04-08 2021-08-03 安徽农业大学 一种基于深度森林算法的小麦赤霉病预测方法
CN114298418A (zh) * 2021-12-29 2022-04-08 江苏省气候中心 小麦赤霉病流行气象适宜度等级预测方法及计算机系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
左豫虎 ; 郑莲枝 ; 张匀华 ; 刘惕若 ; 彭驰 ; 张运权 ; 史翠萍 ; 许群洲 ; 潘春彦 ; .黑龙江省春小麦赤霉病流行的预测方法.植物保护学报.1995,(第04期),全文. *
徐敏 ; 徐经纬 ; 谢志清 ; 高苹 ; 李亚春 ; 缪璟秋 ; .随机森林机器算法在江苏省小麦赤霉病病穗率预测中的应用.气象学报.2020,(第01期),全文. *
曾娟 ; 姜玉英 ; .2012年我国小麦赤霉病暴发原因分析及持续监控与治理对策.中国植保导刊.2013,(第04期),全文. *

Also Published As

Publication number Publication date
CN116028834A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN107037504B (zh) 用于强对流天气预报的同化地闪转换代理雷达回波的方法
CN115048354B (zh) 一种水文模型的创建及径流预测方法、装置及计算机设备
CN110909933A (zh) 一种耦合作物模型与机器学习语言的农业干旱快速诊断和评估方法
CN116485048B (zh) 一种大气污染物排放清单的联合优化反演方法及系统
CN111784200A (zh) 一种草莓种苗壮苗指数及其构建方法
Zhen et al. Updated homogenized Chinese temperature series with physical consistency
CN112270131A (zh) 基于ard回归算法的水稻叶面积指数遥感反演模型和方法
CN109325433A (zh) 引入地形因子的黑土区大豆生物量多时相遥感反演方法
CN113657781A (zh) 一种适用于极端气候条件下的小麦估产方法及系统
CN116028834B (zh) 一种基于XGBoost算法的小麦赤霉病预测方法
CN113887847B (zh) 一种基于WRF-Hydro模型的混合产流区次洪预报方法
CN109145257A (zh) 一种基于多测点公共异常时间的大坝安全监测分析方法
Amin et al. Evaluation of the performance of SWAT model to simulate stream flow of Mojo river watershed: in the upper Awash River basin, in Ethiopia
CN112945881A (zh) 一种基于高光谱特征参数的马铃薯叶片含水量监测方法
CN116705144A (zh) 一种测量物种分布数据与环境因子相关联的方法
CN115099493B (zh) 一种基于cnn的林火向任意方向蔓延速率预测方法
CN116518935A (zh) 一种水稻种植分布及种植强度识别方法、装置及设备
CN113282883B (zh) 一种逐日降水数据综合插值方法
Biswas et al. Impact of temperature increase on performance of kharif rice at Kalyani, West Bengal using WOFOST model
CN115345846A (zh) 一种中低碳钢晶粒度智能评级方法及系统
JIANG et al. A method for upscaling genetic parameters of CERES-Rice in regional applications
CN107807064A (zh) 一种筛选耐热小麦品种的方法
CN114647820A (zh) 一种三七栽培设施内参考作物蒸散量的估算方法
CN113610436A (zh) 一种承灾体动态脆弱性评估方法及系统
CN108919384B (zh) 一种基于预估偏差的台风路径集合预报方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant