CN115718746A - 基于机器学习的稻田甲烷排放量预测方法 - Google Patents
基于机器学习的稻田甲烷排放量预测方法 Download PDFInfo
- Publication number
- CN115718746A CN115718746A CN202210527032.1A CN202210527032A CN115718746A CN 115718746 A CN115718746 A CN 115718746A CN 202210527032 A CN202210527032 A CN 202210527032A CN 115718746 A CN115718746 A CN 115718746A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- soil
- rice field
- methane emission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于机器学习的稻田甲烷排放量预测方法,包括建立稻田甲烷排放数据库,数据预处理,使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型,根据调参结束的模型进行10折交叉验证,得到模型的预测结果,在所有数据上拟合模型,得到最终模型。本发明基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测,为快速预测甲烷排放量提供了技术基础。
Description
技术领域
本发明涉及环境技术领域,特别涉及一种基于机器学习的稻田甲烷排放量预测方法。
背景技术
稻田甲烷减排对于将升温阈值保持在2℃以下至关重要,但其排放在全球呈现出较高的空间异质性,受到气候变量、土壤性质、人为管理措施等因素的综合影响,使用环境以及管理指标准确估算稻田甲烷排放有助于更好地应对全球气候变化。甲烷排放量主要通过田间实验的方法测量或基于过程的模型计算,前者消耗大量人力物力,后者在应用到具体站点时要对模型进行校正和参数修改;随着机器学习等方法的出现,它能够处理多变量与标签的关系,同时做出快速准确预测,通过对数据集的筛选和模型参数的调整,能达到较好的预测效果,但是在稻田甲烷排放的应用较少。
发明内容
本发明的目的在于克服现有技术的不足和填补空白,提供一种基于机器学习的估计稻田甲烷排放量的方法,能够实现对稻田甲烷季节排放量的模拟预测。
为解决上述技术问题,本发明的技术方案:基于机器学习的稻田甲烷排放量预测方法,包括如下步骤:
步骤S1建立稻田甲烷排放数据库;
步骤S2数据预处理;
步骤S3使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;
步骤S4根据调参结束的模型进行10折交叉验证,得到模型的预测结果。
步骤S5在所有数据上拟合模型,得到最终模型。
进一步地,所述步骤S1中建立稻田甲烷排放数据库,具体步骤包括:
步骤S1.1从数据库中收集文献:收集的数据来源于Web of Sciences数据库中发表的文献(2021年11月18日之前),使用“methane OR CH4”AND“rice*OR paddy*ORcornfield”检索,得到5973篇文章,并按照以下标准进行筛选:(1)田间试验;排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量;(2)研究提供了季节排放通量并排除了未提供施氮量的研究;(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统。
步骤S1.2记录文献中变量,包括:实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量;
步骤S1.3文章以文字或表格形式提供的变量手动抄录,以图的形式提供的数据使用Origin提供的“Digitizer”工具读取。
步骤S1.4对于论文中未提供的土壤性质、气候数据,分别使用HWSD数据库、美国国家海洋和大气管理局(NOAA)国家环境信息中心(NCEI)数据库根据研究地点经纬度进行补全;对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究,根据研究地点所在国家对应轮作方式的平均持续时长进行补全。
进一步地,所述步骤S2中数据预处理,具体步骤包括:
S2.1划分训练集和测试集;根据实验持续时间进行分层抽样,测试集划分比例为0.2;
S2.2数值属性的标准化,为去除量纲的影响并解决各特征之间差异过大的问题,对数值数据进行标准化来特征缩放,使得数据均值为0且分布具有单位方差;进行标准化的属性包括:实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性;
标准化公式如下:
其中,x为原数值,x′为标准化后的数值属性,μ为数值属性的均值,σ为标准差;
S2.3分类属性数字化,要作为机器算法的输入,需要对分类属性进行数字化,使用one-hot编码为每个类别创建一个二进制的属性,具体使用Scikit-Learn的OneHotEncoder编码器来实现;进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性。
进一步地,所述步骤S3中使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;具体步骤包括:
S3.1在Python3.8中使用Scikit-Learn训练随机森林、支持向量机、XGBoost,使用Keras训练两层全连接神经网络;
S3.2网格搜索法在训练集上选择模型超参数,10折交叉验证评估需要进行实验的超参数值的所有组合,根据验证集上的分数得到最佳估算器,然后在整个训练集上重新训练;
S3.3在测试集上评估模型作为泛化误差的近似,首先使用训练集得到的转换数据的方法对转换测试集的数据,然后评估模型在测试集上的性能,评估指标包括相关系数R2和均方根误差RMSE;
R2=ρX,Y
其中,X表示实际值,Y表示预测值;
进一步地,所述步骤S4中根据调参结束的模型进行10折交叉验证,得到模型的预测结果;具体步骤包括:
为进一步在所有数据上评估模型的性能,避免训练集测试计划分的随机性,将所有数据随机分割成10个不同的子集,然后对模型进行10次训练和评估;
模型预测准确性评定指标为:相关系数R2;
进一步地,步骤S5中在所有数据上拟合模型,得到最终模型,具体步骤包括:
在模型学习算法和参数配置选定之后,使用全部数据集重新训练模型作为最终模型。
本发明的有益效果表现如下
1、本发明提供了一种基于机器学习的稻田甲烷排放量预测的方法,利用稻田土壤性质、气候因素、地点以及管理方式作为特征输入模型,以甲烷季节排放通量作为输出,通过机器学习训练学习,获得了预测甲烷季节排放通量的随机森林、XGBoost、支持向量机、神经网络模型,十折交叉验证的R2分别为0.74、0.78、0.64、0.47。
2、本发明的基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测,为快速预测甲烷排放量提供了技术基础。
附图说明
图1为本发明的基于机器学习的预测稻田甲烷排放量的方法流程图;
图2为本发明的具体实施方法中预测稻田甲烷排放量的十折交叉验证结果图。
具体实施方式
以下结合附图以及具体实施方式,对本发明作进一步详细说明。
本发明提供了一种基于机器学习的稻田甲烷排放量预测的方法,根据气候、土壤、地点、管理措施数据可以快速准确地得到稻田甲烷排放量结果。
如图1所示,本发明包括以下步骤:
步骤S1建立稻田甲烷排放数据库,所述步骤S1中建立稻田甲烷排放数据库,具体步骤包括:
步骤S1.1从数据库中收集文献:收集的数据来源于Web of Sciences数据库中发表的文献(2021年11月18日之前),使用“methane OR CH4”AND“rice*OR paddy*ORcornfield”检索,得到5973篇文章,并按照以下标准进行筛选:(1)田间试验;排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量;(2)研究提供了季节排放通量并排除了未提供施氮量的研究;(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统。
步骤S1.2记录文献中变量,包括:实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量;
步骤S1.3文章以文字或表格形式提供的变量手动抄录,以图的形式提供的数据使用Origin提供的“Digitizer”工具读取。
步骤S1.4对于论文中未提供的土壤性质、气候数据,分别使用HWSD数据库、美国国家海洋和大气管理局(NOAA)国家环境信息中心(NCEI)数据库根据研究地点经纬度进行补全;对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究,根据研究地点所在国家对应轮作方式的平均持续时长进行补全。
步骤S2数据预处理,所述步骤S2中数据预处理,具体步骤包括:
S2.1划分训练集和测试集;根据实验持续时间进行分层抽样,测试集划分比例为0.2;
S2.2数值属性的标准化,为去除量纲的影响并解决各特征之间差异过大的问题,对数值数据进行标准化来特征缩放,使得数据均值为0且分布具有单位方差;
进行标准化的属性包括:实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性;
标准化公式如下:
其中,x为原数值,x′为标准化后的数值属性,μ为数值属性的均值,σ为标准差;
S2.3分类属性数字化,要作为机器算法的输入,需要对分类属性进行数字化,使用one-hot编码为每个类别创建一个二进制的属性,具体使用Scikit-Learn的OneHotEncoder编码器来实现;进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性。
步骤S3使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;
所述步骤S3具体步骤包括:
S3.1在Python3.8中使用Scikit-Learn训练随机森林、支持向量机、XGBoost,使用Keras训练两层全连接神经网络;
S3.2网格搜索法在训练集上选择模型超参数,10折交叉验证评估需要进行实验的超参数值的所有组合,根据验证集上的分数得到最佳估算器,然后在整个训练集上重新训练;
S3.3在测试集上评估模型作为泛化误差的近似,首先使用训练集得到的转换数据的方法对转换测试集的数据,然后评估模型在测试集上的性能,评估指标包括相关系数R2和均方根误差RMSE;
R2=ρX,Y
其中,X表示实际值,Y表示预测值。
步骤S4根据调参结束的模型进行10折交叉验证,得到模型的预测结果;
所述步骤S4中根据调参结束的模型进行10折交叉验证,得到模型的预测结果;具体步骤包括:
S4.1为进一步在所有数据上评估模型的性能,避免训练集测试计划分的随机性,将所有数据随机分割成10个不同的子集,然后对模型进行10次训练和评估;模型预测准确性评定指标为:相关系数(R2);
图2所示为本发明的十折交叉验证R2。
步骤S5中在所有数据上拟合模型,得到最终模型,具体步骤包括:
S5.1在模型学习算法和参数配置选定之后,使用全部数据集重新训练模型作为最终模型。
综上所述,本发明提供了一种基于机器学习的估计稻田甲烷排放量的方法,能够实现对稻田甲烷季节排放量的模拟预测。利用稻田土壤性质、气候因素、地点以及管理方式作为特征输入模型,以甲烷季节排放通量作为输出,通过机器学习训练学习,获得了预测甲烷季节排放通量的随机森林、XGBoost、支持向量机、神经网络模型,十折交叉验证的R2分别为0.74、0.78、0.64、0.47。本发明基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测,为快速预测甲烷排放量提供了技术基础。
本发明不局限于上述实例方法,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围。
Claims (5)
1.基于机器学习的稻田甲烷排放量预测方法,其特征在于,包括如下步骤:
步骤S1:建立稻田甲烷排放数据库;
步骤S2:数据预处理,具体步骤包括:
S2.1划分训练集和测试集;根据实验持续时间进行分层抽样;
S2.2数值属性的标准化,对数值数据进行标准化来特征缩放,使得数据均值为0且分布具有单位方差;
进行标准化的属性包括:实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性;
标准化公式如下:
其中,x为原数值,x′为标准化后的数值属性,μ为数值属性的均值,σ为标准差;
S2.3分类属性数字化,要作为机器算法的输入,需要对分类属性进行数字化,使用one-hot编码为每个类别创建一个二进制的属性,具体使用Scikit-Learn的OneHotEncoder编码器来实现;
进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性;
步骤S3:使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练,并分别调节这四种模型的超参数使其达到准确度要求,得到预测稻田甲烷排放的机器学习模型;
所述步骤S3具体步骤包括:
S3.1使用Scikit-Learn训练随机森林、支持向量机、XGBoost,使用Keras训练两层全连接神经网络;
S3.2网格搜索法在训练集上选择模型超参数,10折交叉验证评估需要进行实验的超参数值的所有组合,根据验证集上的分数得到最佳估算器,然后在整个训练集上重新训练;
S3.3在测试集上评估模型作为泛化误差的近似,首先使用训练集得到的转换数据的方法对转换测试集的数据,然后评估模型在测试集上的性能,评估指标包括相关系数R2和均方根误差RMSE;
R2=ρX,Y
其中,X表示实际值,Y表示预测值;
步骤S4:根据调参结束的模型进行10折交叉验证,得到模型的预测结果;
步骤S5:在所有数据上拟合模型,得到最终模型。
2.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S1具体步骤包括:
步骤S1.1从数据库中收集文献:收集的数据来源于Web of Sciences数据库中发表的文献,使用“methane OR CH4”AND“rice*OR paddy*OR cornfield”检索,并按照以下标准进行筛选:
(1)田间试验;排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量;
(2)研究提供了季节排放通量并排除了未提供施氮量的研究;
(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统;
步骤S1.2记录文献中变量,包括:实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量;
步骤S1.3文章以文字或表格形式提供的变量手动抄录,以图的形式提供的数据使用Origin提供的“Digitizer”工具读取;
步骤S1.4对于论文中未提供的土壤性质、气候数据,分别使用HWSD数据库、美国国家海洋和大气管理局NOAA国家环境信息中心NCEI数据库根据研究地点经纬度进行补全;
对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究,根据研究地点所在国家对应轮作方式的平均持续时长进行补全。
3.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S3中随机森林、XGBoost、支持向量机、神经网络模型,十折交叉验证的R2分别为0.74、0.78、0.64、0.47。
4.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S4具体为进一步在所有数据上评估模型的性能,避免训练集测试计划分的随机性,将所有数据随机分割成10个不同的子集,然后对模型进行10次训练和评估;
模型预测准确性评定指标为:相关系数R2
R2=ρX,Y
其中,X表示实际值,Y表示预测值。
5.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法,其特征在于,所述步骤S5具体在模型学习算法和参数配置选定之后,使用全部数据集重新训练模型作为最终模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210527032.1A CN115718746A (zh) | 2022-05-16 | 2022-05-16 | 基于机器学习的稻田甲烷排放量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210527032.1A CN115718746A (zh) | 2022-05-16 | 2022-05-16 | 基于机器学习的稻田甲烷排放量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115718746A true CN115718746A (zh) | 2023-02-28 |
Family
ID=85253805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210527032.1A Pending CN115718746A (zh) | 2022-05-16 | 2022-05-16 | 基于机器学习的稻田甲烷排放量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115718746A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562465A (zh) * | 2023-07-06 | 2023-08-08 | 吉林农业大学 | 一种肉牛温室气体总排放量预测方法 |
CN116681315A (zh) * | 2023-08-03 | 2023-09-01 | 南京农业大学 | 温室气体净排放的估算方法、装置、设备和存储介质 |
CN116797035A (zh) * | 2023-04-20 | 2023-09-22 | 中国科学院地理科学与资源研究所 | 一种稻田甲烷排放量预测方法、系统、装置及存储介质 |
CN118070675A (zh) * | 2024-04-09 | 2024-05-24 | 中国农业科学院农业环境与可持续发展研究所 | 基于机器学习的土壤氮素矿化速率预测系统 |
-
2022
- 2022-05-16 CN CN202210527032.1A patent/CN115718746A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797035A (zh) * | 2023-04-20 | 2023-09-22 | 中国科学院地理科学与资源研究所 | 一种稻田甲烷排放量预测方法、系统、装置及存储介质 |
CN116562465A (zh) * | 2023-07-06 | 2023-08-08 | 吉林农业大学 | 一种肉牛温室气体总排放量预测方法 |
CN116681315A (zh) * | 2023-08-03 | 2023-09-01 | 南京农业大学 | 温室气体净排放的估算方法、装置、设备和存储介质 |
CN116681315B (zh) * | 2023-08-03 | 2023-11-21 | 南京农业大学 | 温室气体净排放的估算方法、装置、设备和存储介质 |
CN118070675A (zh) * | 2024-04-09 | 2024-05-24 | 中国农业科学院农业环境与可持续发展研究所 | 基于机器学习的土壤氮素矿化速率预测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113919448B (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN115718746A (zh) | 基于机器学习的稻田甲烷排放量预测方法 | |
CN116337146B (zh) | 基于改进遥感生态指数的生态质量评价与分区方法及装置 | |
CN112966926A (zh) | 一种基于集成学习的洪水敏感性风险评估方法 | |
Vathsala et al. | Prediction model for peninsular Indian summer monsoon rainfall using data mining and statistical approaches | |
CN112903606B (zh) | 一种基于无人机高光谱的红树林生态恢复力评估方法 | |
Stine | Global demonstration of local Liebig's law behavior for tree‐ring reconstructions of climate | |
CN113128871B (zh) | 一种气候变化条件下落叶松分布变化和生产力协同估算方法 | |
CN111126511A (zh) | 一种基于植被指数融合的lai定量模型建立的方法 | |
Samadi et al. | Comparison of general circulation models: methodology for selecting the best GCM in Kermanshah Synoptic Station, Iran | |
Dongming et al. | The application of decision tree C4. 5 algorithm to soil quality grade forecasting model | |
CN108764527B (zh) | 一种土壤有机碳库时空动态预测最优环境变量筛选方法 | |
CN115526298A (zh) | 一种高鲁棒性的大气污染物浓度综合预测方法 | |
Wen et al. | Applying an artificial neural network to simulate and predict Chinese fir (Cunninghamia lanceolata) plantation carbon flux in subtropical China | |
Kavyanifar et al. | Coastal solid waste prediction by applying machine learning approaches (Case study: Noor, Mazandaran Province, Iran) | |
Abdar et al. | A composite index for assessment of agricultural sustainability: The case of Iran | |
CN115270042A (zh) | 一种适用于植被碳储量的计量方法 | |
Lewis et al. | Validation of a hydrodynamic-ecosystem model simulation with time-series data collected in the western English Channel | |
CN113537336A (zh) | 基于XGBoost的短临雷雨大风的预测方法 | |
CN115965121A (zh) | 一种基于随机森林回归的农田氮淋失预测方法 | |
Nida et al. | Comparison of missing data imputation methods using weather data. | |
CN116976915B (zh) | 地理信息支持的种植类地理标志产品溯源方法 | |
Gakenou et al. | Parameter testing and application of the 3PG model for Eucalyptus grandis x Urophylla in subtropical conditions in South Africa | |
Smith et al. | A new technique for century-scale wind component indices | |
Melišová et al. | Evaluation of Evaporation from Water Reservoirs in Local Conditions Evaluation of Evaporation from Water Reservoirs in Local Conditions at Czech Republic. Hydrology 2021, 8, 153 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |