CN115718746A - 基于机器学习的稻田甲烷排放量预测方法 - Google Patents

基于机器学习的稻田甲烷排放量预测方法 Download PDF

Info

Publication number
CN115718746A
CN115718746A CN202210527032.1A CN202210527032A CN115718746A CN 115718746 A CN115718746 A CN 115718746A CN 202210527032 A CN202210527032 A CN 202210527032A CN 115718746 A CN115718746 A CN 115718746A
Authority
CN
China
Prior art keywords
model
data
soil
rice field
methane emission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210527032.1A
Other languages
English (en)
Inventor
李润桐
穆莉
胡献刚
邓鹏�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Agro Environmental Protection Institute Ministry of Agriculture
Original Assignee
Nankai University
Agro Environmental Protection Institute Ministry of Agriculture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University, Agro Environmental Protection Institute Ministry of Agriculture filed Critical Nankai University
Priority to CN202210527032.1A priority Critical patent/CN115718746A/zh
Publication of CN115718746A publication Critical patent/CN115718746A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于机器学习的稻田甲烷排放量预测方法,包括建立稻田甲烷排放数据库,数据预处理,使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型,根据调参结束的模型进行10折交叉验证,得到模型的预测结果,在所有数据上拟合模型,得到最终模型。本发明基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测,为快速预测甲烷排放量提供了技术基础。

Description

基于机器学习的稻田甲烷排放量预测方法
技术领域
本发明涉及环境技术领域,特别涉及一种基于机器学习的稻田甲烷排放量预测方法。
背景技术
稻田甲烷减排对于将升温阈值保持在2℃以下至关重要,但其排放在全球呈现出较高的空间异质性,受到气候变量、土壤性质、人为管理措施等因素的综合影响,使用环境以及管理指标准确估算稻田甲烷排放有助于更好地应对全球气候变化。甲烷排放量主要通过田间实验的方法测量或基于过程的模型计算,前者消耗大量人力物力,后者在应用到具体站点时要对模型进行校正和参数修改;随着机器学习等方法的出现,它能够处理多变量与标签的关系,同时做出快速准确预测,通过对数据集的筛选和模型参数的调整,能达到较好的预测效果,但是在稻田甲烷排放的应用较少。
发明内容
本发明的目的在于克服现有技术的不足和填补空白,提供一种基于机器学习的估计稻田甲烷排放量的方法,能够实现对稻田甲烷季节排放量的模拟预测。
为解决上述技术问题,本发明的技术方案:基于机器学习的稻田甲烷排放量预测方法,包括如下步骤:
步骤S1建立稻田甲烷排放数据库;
步骤S2数据预处理;
步骤S3使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;
步骤S4根据调参结束的模型进行10折交叉验证,得到模型的预测结果。
步骤S5在所有数据上拟合模型,得到最终模型。
进一步地,所述步骤S1中建立稻田甲烷排放数据库,具体步骤包括:
步骤S1.1从数据库中收集文献:收集的数据来源于Web of Sciences数据库中发表的文献(2021年11月18日之前),使用“methane OR CH4”AND“rice*OR paddy*ORcornfield”检索,得到5973篇文章,并按照以下标准进行筛选:(1)田间试验;排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量;(2)研究提供了季节排放通量并排除了未提供施氮量的研究;(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统。
步骤S1.2记录文献中变量,包括:实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量;
步骤S1.3文章以文字或表格形式提供的变量手动抄录,以图的形式提供的数据使用Origin提供的“Digitizer”工具读取。
步骤S1.4对于论文中未提供的土壤性质、气候数据,分别使用HWSD数据库、美国国家海洋和大气管理局(NOAA)国家环境信息中心(NCEI)数据库根据研究地点经纬度进行补全;对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究,根据研究地点所在国家对应轮作方式的平均持续时长进行补全。
进一步地,所述步骤S2中数据预处理,具体步骤包括:
S2.1划分训练集和测试集;根据实验持续时间进行分层抽样,测试集划分比例为0.2;
S2.2数值属性的标准化,为去除量纲的影响并解决各特征之间差异过大的问题,对数值数据进行标准化来特征缩放,使得数据均值为0且分布具有单位方差;进行标准化的属性包括:实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性;
标准化公式如下:
Figure SMS_1
其中,x为原数值,x为标准化后的数值属性,μ为数值属性的均值,σ为标准差;
S2.3分类属性数字化,要作为机器算法的输入,需要对分类属性进行数字化,使用one-hot编码为每个类别创建一个二进制的属性,具体使用Scikit-Learn的OneHotEncoder编码器来实现;进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性。
进一步地,所述步骤S3中使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;具体步骤包括:
S3.1在Python3.8中使用Scikit-Learn训练随机森林、支持向量机、XGBoost,使用Keras训练两层全连接神经网络;
S3.2网格搜索法在训练集上选择模型超参数,10折交叉验证评估需要进行实验的超参数值的所有组合,根据验证集上的分数得到最佳估算器,然后在整个训练集上重新训练;
S3.3在测试集上评估模型作为泛化误差的近似,首先使用训练集得到的转换数据的方法对转换测试集的数据,然后评估模型在测试集上的性能,评估指标包括相关系数R2和均方根误差RMSE;
R2=ρX,Y
其中,X表示实际值,Y表示预测值;
进一步地,所述步骤S4中根据调参结束的模型进行10折交叉验证,得到模型的预测结果;具体步骤包括:
为进一步在所有数据上评估模型的性能,避免训练集测试计划分的随机性,将所有数据随机分割成10个不同的子集,然后对模型进行10次训练和评估;
模型预测准确性评定指标为:相关系数R2
进一步地,步骤S5中在所有数据上拟合模型,得到最终模型,具体步骤包括:
在模型学习算法和参数配置选定之后,使用全部数据集重新训练模型作为最终模型。
本发明的有益效果表现如下
1、本发明提供了一种基于机器学习的稻田甲烷排放量预测的方法,利用稻田土壤性质、气候因素、地点以及管理方式作为特征输入模型,以甲烷季节排放通量作为输出,通过机器学习训练学习,获得了预测甲烷季节排放通量的随机森林、XGBoost、支持向量机、神经网络模型,十折交叉验证的R2分别为0.74、0.78、0.64、0.47。
2、本发明的基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测,为快速预测甲烷排放量提供了技术基础。
附图说明
图1为本发明的基于机器学习的预测稻田甲烷排放量的方法流程图;
图2为本发明的具体实施方法中预测稻田甲烷排放量的十折交叉验证结果图。
具体实施方式
以下结合附图以及具体实施方式,对本发明作进一步详细说明。
本发明提供了一种基于机器学习的稻田甲烷排放量预测的方法,根据气候、土壤、地点、管理措施数据可以快速准确地得到稻田甲烷排放量结果。
如图1所示,本发明包括以下步骤:
步骤S1建立稻田甲烷排放数据库,所述步骤S1中建立稻田甲烷排放数据库,具体步骤包括:
步骤S1.1从数据库中收集文献:收集的数据来源于Web of Sciences数据库中发表的文献(2021年11月18日之前),使用“methane OR CH4”AND“rice*OR paddy*ORcornfield”检索,得到5973篇文章,并按照以下标准进行筛选:(1)田间试验;排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量;(2)研究提供了季节排放通量并排除了未提供施氮量的研究;(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统。
步骤S1.2记录文献中变量,包括:实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量;
步骤S1.3文章以文字或表格形式提供的变量手动抄录,以图的形式提供的数据使用Origin提供的“Digitizer”工具读取。
步骤S1.4对于论文中未提供的土壤性质、气候数据,分别使用HWSD数据库、美国国家海洋和大气管理局(NOAA)国家环境信息中心(NCEI)数据库根据研究地点经纬度进行补全;对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究,根据研究地点所在国家对应轮作方式的平均持续时长进行补全。
步骤S2数据预处理,所述步骤S2中数据预处理,具体步骤包括:
S2.1划分训练集和测试集;根据实验持续时间进行分层抽样,测试集划分比例为0.2;
S2.2数值属性的标准化,为去除量纲的影响并解决各特征之间差异过大的问题,对数值数据进行标准化来特征缩放,使得数据均值为0且分布具有单位方差;
进行标准化的属性包括:实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性;
标准化公式如下:
Figure SMS_2
其中,x为原数值,x为标准化后的数值属性,μ为数值属性的均值,σ为标准差;
S2.3分类属性数字化,要作为机器算法的输入,需要对分类属性进行数字化,使用one-hot编码为每个类别创建一个二进制的属性,具体使用Scikit-Learn的OneHotEncoder编码器来实现;进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性。
步骤S3使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;
所述步骤S3具体步骤包括:
S3.1在Python3.8中使用Scikit-Learn训练随机森林、支持向量机、XGBoost,使用Keras训练两层全连接神经网络;
S3.2网格搜索法在训练集上选择模型超参数,10折交叉验证评估需要进行实验的超参数值的所有组合,根据验证集上的分数得到最佳估算器,然后在整个训练集上重新训练;
S3.3在测试集上评估模型作为泛化误差的近似,首先使用训练集得到的转换数据的方法对转换测试集的数据,然后评估模型在测试集上的性能,评估指标包括相关系数R2和均方根误差RMSE;
R2=ρX,Y
其中,X表示实际值,Y表示预测值。
步骤S4根据调参结束的模型进行10折交叉验证,得到模型的预测结果;
所述步骤S4中根据调参结束的模型进行10折交叉验证,得到模型的预测结果;具体步骤包括:
S4.1为进一步在所有数据上评估模型的性能,避免训练集测试计划分的随机性,将所有数据随机分割成10个不同的子集,然后对模型进行10次训练和评估;模型预测准确性评定指标为:相关系数(R2);
图2所示为本发明的十折交叉验证R2
步骤S5中在所有数据上拟合模型,得到最终模型,具体步骤包括:
S5.1在模型学习算法和参数配置选定之后,使用全部数据集重新训练模型作为最终模型。
综上所述,本发明提供了一种基于机器学习的估计稻田甲烷排放量的方法,能够实现对稻田甲烷季节排放量的模拟预测。利用稻田土壤性质、气候因素、地点以及管理方式作为特征输入模型,以甲烷季节排放通量作为输出,通过机器学习训练学习,获得了预测甲烷季节排放通量的随机森林、XGBoost、支持向量机、神经网络模型,十折交叉验证的R2分别为0.74、0.78、0.64、0.47。本发明基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测,为快速预测甲烷排放量提供了技术基础。
本发明不局限于上述实例方法,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围。

Claims (5)

1.基于机器学习的稻田甲烷排放量预测方法,其特征在于,包括如下步骤:
步骤S1:建立稻田甲烷排放数据库;
步骤S2:数据预处理,具体步骤包括:
S2.1划分训练集和测试集;根据实验持续时间进行分层抽样;
S2.2数值属性的标准化,对数值数据进行标准化来特征缩放,使得数据均值为0且分布具有单位方差;
进行标准化的属性包括:实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性;
标准化公式如下:
Figure FDA0003644780060000011
其中,x为原数值,x′为标准化后的数值属性,μ为数值属性的均值,σ为标准差;
S2.3分类属性数字化,要作为机器算法的输入,需要对分类属性进行数字化,使用one-hot编码为每个类别创建一个二进制的属性,具体使用Scikit-Learn的OneHotEncoder编码器来实现;
进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性;
步骤S3:使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;
所述步骤S3具体步骤包括:
S3.1使用Scikit-Learn训练随机森林、支持向量机、XGBoost,使用Keras训练两层全连接神经网络;
S3.2网格搜索法在训练集上选择模型超参数,10折交叉验证评估需要进行实验的超参数值的所有组合,根据验证集上的分数得到最佳估算器,然后在整个训练集上重新训练;
S3.3在测试集上评估模型作为泛化误差的近似,首先使用训练集得到的转换数据的方法对转换测试集的数据,然后评估模型在测试集上的性能,评估指标包括相关系数R2和均方根误差RMSE;
R2=ρX,Y
其中,X表示实际值,Y表示预测值;
步骤S4:根据调参结束的模型进行10折交叉验证,得到模型的预测结果;
步骤S5:在所有数据上拟合模型,得到最终模型。
2.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S1具体步骤包括:
步骤S1.1从数据库中收集文献:收集的数据来源于Web of Sciences数据库中发表的文献,使用“methane OR CH4”AND“rice*OR paddy*OR cornfield”检索,并按照以下标准进行筛选:
(1)田间试验;排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量;
(2)研究提供了季节排放通量并排除了未提供施氮量的研究;
(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统;
步骤S1.2记录文献中变量,包括:实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量;
步骤S1.3文章以文字或表格形式提供的变量手动抄录,以图的形式提供的数据使用Origin提供的“Digitizer”工具读取;
步骤S1.4对于论文中未提供的土壤性质、气候数据,分别使用HWSD数据库、美国国家海洋和大气管理局NOAA国家环境信息中心NCEI数据库根据研究地点经纬度进行补全;
对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究,根据研究地点所在国家对应轮作方式的平均持续时长进行补全。
3.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S3中随机森林、XGBoost、支持向量机、神经网络模型,十折交叉验证的R2分别为0.74、0.78、0.64、0.47。
4.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S4具体为进一步在所有数据上评估模型的性能,避免训练集测试计划分的随机性,将所有数据随机分割成10个不同的子集,然后对模型进行10次训练和评估;
模型预测准确性评定指标为:相关系数R2
R2=ρX,Y
其中,X表示实际值,Y表示预测值。
5.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S5具体在模型学习算法和参数配置选定之后,使用全部数据集重新训练模型作为最终模型。
CN202210527032.1A 2022-05-16 2022-05-16 基于机器学习的稻田甲烷排放量预测方法 Pending CN115718746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210527032.1A CN115718746A (zh) 2022-05-16 2022-05-16 基于机器学习的稻田甲烷排放量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210527032.1A CN115718746A (zh) 2022-05-16 2022-05-16 基于机器学习的稻田甲烷排放量预测方法

Publications (1)

Publication Number Publication Date
CN115718746A true CN115718746A (zh) 2023-02-28

Family

ID=85253805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210527032.1A Pending CN115718746A (zh) 2022-05-16 2022-05-16 基于机器学习的稻田甲烷排放量预测方法

Country Status (1)

Country Link
CN (1) CN115718746A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562465A (zh) * 2023-07-06 2023-08-08 吉林农业大学 一种肉牛温室气体总排放量预测方法
CN116681315A (zh) * 2023-08-03 2023-09-01 南京农业大学 温室气体净排放的估算方法、装置、设备和存储介质
CN116797035A (zh) * 2023-04-20 2023-09-22 中国科学院地理科学与资源研究所 一种稻田甲烷排放量预测方法、系统、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797035A (zh) * 2023-04-20 2023-09-22 中国科学院地理科学与资源研究所 一种稻田甲烷排放量预测方法、系统、装置及存储介质
CN116562465A (zh) * 2023-07-06 2023-08-08 吉林农业大学 一种肉牛温室气体总排放量预测方法
CN116681315A (zh) * 2023-08-03 2023-09-01 南京农业大学 温室气体净排放的估算方法、装置、设备和存储介质
CN116681315B (zh) * 2023-08-03 2023-11-21 南京农业大学 温室气体净排放的估算方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN115718746A (zh) 基于机器学习的稻田甲烷排放量预测方法
Vathsala et al. Prediction model for peninsular Indian summer monsoon rainfall using data mining and statistical approaches
Madhuri et al. Artificial neural networks based integrated crop recommendation system using soil and climatic parameters
CN112903606B (zh) 一种基于无人机高光谱的红树林生态恢复力评估方法
Stine Global demonstration of local Liebig's law behavior for tree‐ring reconstructions of climate
CN111126511A (zh) 一种基于植被指数融合的lai定量模型建立的方法
CN108764527B (zh) 一种土壤有机碳库时空动态预测最优环境变量筛选方法
Samadi et al. Comparison of general circulation models: methodology for selecting the best GCM in Kermanshah Synoptic Station, Iran
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
Wen et al. Applying an artificial neural network to simulate and predict Chinese fir (Cunninghamia lanceolata) plantation carbon flux in subtropical China
Kavyanifar et al. Coastal solid waste prediction by applying machine learning approaches (Case study: Noor, Mazandaran Province, Iran)
Rasztovits et al. Evaluating the performance of stochastic distribution models for European beech at low-elevation xeric limits
CN115270042A (zh) 一种适用于植被碳储量的计量方法
Abdar et al. A composite index for assessment of agricultural sustainability: The case of Iran
Lewis et al. Validation of a hydrodynamic-ecosystem model simulation with time-series data collected in the western English Channel
CN113537336A (zh) 基于XGBoost的短临雷雨大风的预测方法
CN116337146B (zh) 基于改进遥感生态指数的生态质量评价与分区方法及装置
Rastogi et al. Grasslands half‐full: investigating drivers of spatial heterogeneity in ungulate occurrence in Indian Terai
CN115965121A (zh) 一种基于随机森林回归的农田氮淋失预测方法
CN113128871B (zh) 一种气候变化条件下落叶松分布变化和生产力协同估算方法
Mezquida et al. Evaluation of the potential index model to predict habitat suitability of forest species: the potential distribution of mountain pine (Pinus uncinata) in the Iberian peninsula
CN116976915B (zh) 地理信息支持的种植类地理标志产品溯源方法
Gakenou et al. Parameter testing and application of the 3PG model for Eucalyptus grandis x Urophylla in subtropical conditions in South Africa
Smith et al. A new technique for century-scale wind component indices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination