CN115718746A

CN115718746A - 基于机器学习的稻田甲烷排放量预测方法

Info

Publication number: CN115718746A
Application number: CN202210527032.1A
Authority: CN
Inventors: 李润桐; 穆莉; 胡献刚; 邓鹏�
Original assignee: Nankai University; Agro Environmental Protection Institute Ministry of Agriculture
Current assignee: Nankai University; Agro Environmental Protection Institute Ministry of Agriculture
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2023-02-28

Abstract

本发明公开了基于机器学习的稻田甲烷排放量预测方法，包括建立稻田甲烷排放数据库，数据预处理，使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练，并分别调节这四种模型的超参数使其达到准确度要求，得到预测稻田甲烷排放的机器学习模型，根据调参结束的模型进行10折交叉验证，得到模型的预测结果，在所有数据上拟合模型，得到最终模型。本发明基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测，为快速预测甲烷排放量提供了技术基础。

Description

基于机器学习的稻田甲烷排放量预测方法

技术领域

本发明涉及环境技术领域，特别涉及一种基于机器学习的稻田甲烷排放量预测方法。

背景技术

稻田甲烷减排对于将升温阈值保持在2℃以下至关重要，但其排放在全球呈现出较高的空间异质性，受到气候变量、土壤性质、人为管理措施等因素的综合影响，使用环境以及管理指标准确估算稻田甲烷排放有助于更好地应对全球气候变化。甲烷排放量主要通过田间实验的方法测量或基于过程的模型计算，前者消耗大量人力物力，后者在应用到具体站点时要对模型进行校正和参数修改；随着机器学习等方法的出现，它能够处理多变量与标签的关系，同时做出快速准确预测，通过对数据集的筛选和模型参数的调整，能达到较好的预测效果，但是在稻田甲烷排放的应用较少。

发明内容

本发明的目的在于克服现有技术的不足和填补空白，提供一种基于机器学习的估计稻田甲烷排放量的方法，能够实现对稻田甲烷季节排放量的模拟预测。

为解决上述技术问题，本发明的技术方案：基于机器学习的稻田甲烷排放量预测方法，包括如下步骤：

步骤S1建立稻田甲烷排放数据库；

步骤S2数据预处理；

步骤S3使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练，并分别调节这四种模型的超参数使其达到准确度要求，得到预测稻田甲烷排放的机器学习模型；

步骤S4根据调参结束的模型进行10折交叉验证，得到模型的预测结果。

步骤S5在所有数据上拟合模型，得到最终模型。

进一步地，所述步骤S1中建立稻田甲烷排放数据库，具体步骤包括：

步骤S1.1从数据库中收集文献：收集的数据来源于Web of Sciences数据库中发表的文献(2021年11月18日之前)，使用“methane OR CH4”AND“rice*OR paddy*ORcornfield”检索，得到5973篇文章，并按照以下标准进行筛选：(1)田间试验；排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量；(2)研究提供了季节排放通量并排除了未提供施氮量的研究；(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统。

步骤S1.2记录文献中变量，包括：实验持续时间、实验地点、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量、轮作方式、是否耕作、秸秆还田方式、灌溉方式、水稻甲烷季节排放通量；

步骤S1.3文章以文字或表格形式提供的变量手动抄录，以图的形式提供的数据使用Origin提供的“Digitizer”工具读取。

步骤S1.4对于论文中未提供的土壤性质、气候数据，分别使用HWSD数据库、美国国家海洋和大气管理局(NOAA)国家环境信息中心(NCEI)数据库根据研究地点经纬度进行补全；对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究，根据研究地点所在国家对应轮作方式的平均持续时长进行补全。

进一步地，所述步骤S2中数据预处理，具体步骤包括：

S2.1划分训练集和测试集；根据实验持续时间进行分层抽样，测试集划分比例为0.2；

S2.2数值属性的标准化，为去除量纲的影响并解决各特征之间差异过大的问题，对数值数据进行标准化来特征缩放，使得数据均值为0且分布具有单位方差；进行标准化的属性包括：实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性；

标准化公式如下：

其中，x为原数值，x^′为标准化后的数值属性，μ为数值属性的均值，σ为标准差；

S2.3分类属性数字化，要作为机器算法的输入，需要对分类属性进行数字化，使用one-hot编码为每个类别创建一个二进制的属性，具体使用Scikit-Learn的OneHotEncoder编码器来实现；进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性。

进一步地，所述步骤S3中使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练，并分别调节这四种模型的超参数使其达到准确度要求，得到预测稻田甲烷排放的机器学习模型；具体步骤包括：

S3.1在Python3.8中使用Scikit-Learn训练随机森林、支持向量机、XGBoost，使用Keras训练两层全连接神经网络；

S3.2网格搜索法在训练集上选择模型超参数，10折交叉验证评估需要进行实验的超参数值的所有组合，根据验证集上的分数得到最佳估算器，然后在整个训练集上重新训练；

S3.3在测试集上评估模型作为泛化误差的近似，首先使用训练集得到的转换数据的方法对转换测试集的数据，然后评估模型在测试集上的性能，评估指标包括相关系数R²和均方根误差RMSE；

R²＝ρ_X,Y

其中，X表示实际值，Y表示预测值；

进一步地，所述步骤S4中根据调参结束的模型进行10折交叉验证，得到模型的预测结果；具体步骤包括：

为进一步在所有数据上评估模型的性能，避免训练集测试计划分的随机性，将所有数据随机分割成10个不同的子集，然后对模型进行10次训练和评估；

模型预测准确性评定指标为：相关系数R²；

进一步地，步骤S5中在所有数据上拟合模型，得到最终模型，具体步骤包括：

在模型学习算法和参数配置选定之后，使用全部数据集重新训练模型作为最终模型。

本发明的有益效果表现如下

1、本发明提供了一种基于机器学习的稻田甲烷排放量预测的方法，利用稻田土壤性质、气候因素、地点以及管理方式作为特征输入模型，以甲烷季节排放通量作为输出，通过机器学习训练学习，获得了预测甲烷季节排放通量的随机森林、XGBoost、支持向量机、神经网络模型，十折交叉验证的R²分别为0.74、0.78、0.64、0.47。

2、本发明的基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测，为快速预测甲烷排放量提供了技术基础。

附图说明

图1为本发明的基于机器学习的预测稻田甲烷排放量的方法流程图；

图2为本发明的具体实施方法中预测稻田甲烷排放量的十折交叉验证结果图。

具体实施方式

以下结合附图以及具体实施方式，对本发明作进一步详细说明。

本发明提供了一种基于机器学习的稻田甲烷排放量预测的方法，根据气候、土壤、地点、管理措施数据可以快速准确地得到稻田甲烷排放量结果。

如图1所示，本发明包括以下步骤：

步骤S1建立稻田甲烷排放数据库，所述步骤S1中建立稻田甲烷排放数据库，具体步骤包括：

步骤S2数据预处理，所述步骤S2中数据预处理，具体步骤包括：

S2.2数值属性的标准化，为去除量纲的影响并解决各特征之间差异过大的问题，对数值数据进行标准化来特征缩放，使得数据均值为0且分布具有单位方差；

进行标准化的属性包括：实验持续时间、经度、纬度、年平均温度、平均年降水量、土壤容重、粘粒含量、土壤总氮、土壤有机碳、土壤C/N、土壤pH、生物炭施用、粪肥施用、绿肥施用、无机氮施用量共15个数值属性；

标准化公式如下：

所述步骤S3具体步骤包括：

R²＝ρ_X,Y

其中，X表示实际值，Y表示预测值。

步骤S4根据调参结束的模型进行10折交叉验证，得到模型的预测结果；

所述步骤S4中根据调参结束的模型进行10折交叉验证，得到模型的预测结果；具体步骤包括：

S4.1为进一步在所有数据上评估模型的性能，避免训练集测试计划分的随机性，将所有数据随机分割成10个不同的子集，然后对模型进行10次训练和评估；模型预测准确性评定指标为：相关系数(R²)；

图2所示为本发明的十折交叉验证R²。

步骤S5中在所有数据上拟合模型，得到最终模型，具体步骤包括：

S5.1在模型学习算法和参数配置选定之后，使用全部数据集重新训练模型作为最终模型。

综上所述，本发明提供了一种基于机器学习的估计稻田甲烷排放量的方法，能够实现对稻田甲烷季节排放量的模拟预测。利用稻田土壤性质、气候因素、地点以及管理方式作为特征输入模型，以甲烷季节排放通量作为输出，通过机器学习训练学习，获得了预测甲烷季节排放通量的随机森林、XGBoost、支持向量机、神经网络模型，十折交叉验证的R²分别为0.74、0.78、0.64、0.47。本发明基于机器学习的稻田甲烷排放量预测的方法可以快速、准确地对稻田甲烷排放量进行预测，为快速预测甲烷排放量提供了技术基础。

本发明不局限于上述实例方法，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围。

Claims

1.基于机器学习的稻田甲烷排放量预测方法，其特征在于，包括如下步骤：

步骤S1：建立稻田甲烷排放数据库；

步骤S2：数据预处理，具体步骤包括：

S2.1划分训练集和测试集；根据实验持续时间进行分层抽样；

S2.2数值属性的标准化，对数值数据进行标准化来特征缩放，使得数据均值为0且分布具有单位方差；

标准化公式如下：

其中，x为原数值，x′为标准化后的数值属性，μ为数值属性的均值，σ为标准差；

S2.3分类属性数字化，要作为机器算法的输入，需要对分类属性进行数字化，使用one-hot编码为每个类别创建一个二进制的属性，具体使用Scikit-Learn的OneHotEncoder编码器来实现；

进行one-hot编码的属性包括轮作方式、是否耕作、秸秆还田方式、灌溉方式共4个分类属性；

步骤S3：使用随机森林、支持向量机、XGBoost、神经网络算法将处理后的数据集输入模型进行训练，并分别调节这四种模型的超参数使其达到准确度要求，得到预测稻田甲烷排放的机器学习模型；

所述步骤S3具体步骤包括：

S3.1使用Scikit-Learn训练随机森林、支持向量机、XGBoost，使用Keras训练两层全连接神经网络；

R²＝ρ_X,Y

其中，X表示实际值，Y表示预测值；

步骤S4：根据调参结束的模型进行10折交叉验证，得到模型的预测结果；

步骤S5：在所有数据上拟合模型，得到最终模型。

2.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法，其特征在于，所述步骤S1具体步骤包括：

步骤S1.1从数据库中收集文献：收集的数据来源于Web of Sciences数据库中发表的文献，使用“methane OR CH4”AND“rice*OR paddy*OR cornfield”检索，并按照以下标准进行筛选：

(1)田间试验；排除在花盆、实验室、温室中进行的培养测量以及模型模拟计算的通量；

(2)研究提供了季节排放通量并排除了未提供施氮量的研究；

(3)排除了使用钢渣、矿渣、硅酸盐、粉煤灰等土壤改良剂进行的实验以及稻蟹养殖、稻鱼养殖系统；

步骤S1.3文章以文字或表格形式提供的变量手动抄录，以图的形式提供的数据使用Origin提供的“Digitizer”工具读取；

步骤S1.4对于论文中未提供的土壤性质、气候数据，分别使用HWSD数据库、美国国家海洋和大气管理局NOAA国家环境信息中心NCEI数据库根据研究地点经纬度进行补全；

对于没有提供开始日期和结束日期从而无法计算甲烷排放量测量持续时间的研究，根据研究地点所在国家对应轮作方式的平均持续时长进行补全。

3.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法，其特征在于，所述步骤S3中随机森林、XGBoost、支持向量机、神经网络模型，十折交叉验证的R²分别为0.74、0.78、0.64、0.47。

4.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法，其特征在于，所述步骤S4具体为进一步在所有数据上评估模型的性能，避免训练集测试计划分的随机性，将所有数据随机分割成10个不同的子集，然后对模型进行10次训练和评估；

模型预测准确性评定指标为：相关系数R²

R²＝ρ_X,Y

其中，X表示实际值，Y表示预测值。

5.根据权利要求1所述的基于机器学习的稻田甲烷排放量预测方法，其特征在于，所述步骤S5具体在模型学习算法和参数配置选定之后，使用全部数据集重新训练模型作为最终模型。