CN116205310B - 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法 - Google Patents

一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法 Download PDF

Info

Publication number
CN116205310B
CN116205310B CN202310112272.XA CN202310112272A CN116205310B CN 116205310 B CN116205310 B CN 116205310B CN 202310112272 A CN202310112272 A CN 202310112272A CN 116205310 B CN116205310 B CN 116205310B
Authority
CN
China
Prior art keywords
model
soil moisture
feature
soil
shap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310112272.XA
Other languages
English (en)
Other versions
CN116205310A (zh
Inventor
杨晓静
付平凡
屈艳萍
吕娟
李云霄
董蓉蓉
苏志诚
马苗苗
张学君
高辉
陈茜茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute of Water Resources and Hydropower Research
Original Assignee
China Institute of Water Resources and Hydropower Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute of Water Resources and Hydropower Research filed Critical China Institute of Water Resources and Hydropower Research
Priority to CN202310112272.XA priority Critical patent/CN116205310B/zh
Publication of CN116205310A publication Critical patent/CN116205310A/zh
Application granted granted Critical
Publication of CN116205310B publication Critical patent/CN116205310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/24Earth materials
    • G01N33/246Earth materials for water content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Geology (AREA)
  • Artificial Intelligence (AREA)
  • Food Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Immunology (AREA)
  • Environmental & Geological Engineering (AREA)

Abstract

本发明公开了一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,包括构建初始样本训练集;利用初始样本训练集对集成学习模型进行训练和验证,优选预测结果更好的集成学习模型,结合其本身的特征重要度算法进行特征重要度计算;将择优后的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算每个特征所有个体的SHAP值;并基于个体SHAP值进一步确定对土壤含水量影响最大的特征区间;按照输入特征的重要度排序对比几种缺省因子方案下模型预测土壤含水量的精度。优点是:不仅能够降低土壤水分的预测成本,显著提升了土壤含水量的预测精度,更增添该预测模型的可解释性,也可以为缺省因子情况下模型的输入因子选择提供参考借鉴。

Description

一种基于可解释集成学习模型的土壤含水量影响因素敏感区 间判定方法
技术领域
本发明涉及土壤含水量预测技术领域,尤其涉及一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法。
背景技术
土壤含水量是区域水循环、农业灌溉管理和气候变化的特征要素之一,其在水文、气象、农业等学科中也具有重要的作用,其对作物的生长发育至关重要。目前主要的土壤水分预测方法有经验模型法、土壤水动力学法、时间序列模型法以及机器学习算法。近年来,随着计算机技术的快速发展,机器学习算法已成为一种重要的预测土壤含水量的手段。机器学习模型由于不需要建立精确的数学模型,就能实现从输入端到输出端的非线性映射,因此在土壤水分预测中得到了广泛应用。
土壤含水量主要受温度、降雨、植被类型、太阳辐射、用水管理等诸多因素所影响,除此之外,土壤含水量还与土壤的理化性质有关,如土壤质地、土壤容重和土壤孔隙度等。由于地形、时间和资金的限制,在实际情况中不能大范围高密度的布置站点测量土壤水分。传统水分预测模型需要输入的参数基本上是确定的,如果缺少其中的部分输入量,将严重影响模型的预测结果,而实际应用,多数参数很难获得,使模型难以应用。
而且,虽然机器学习在预测土壤含水量上的应用较多,但由于机器学习其本身是黑箱模型这一特性,建立的预测模型并没有得到很好的解释,集成模型虽然可以从总体上将各个特征进行重要度排序,但却无法解释输入特征个体变化对于土壤含水量的贡献,因此无法精确判断因素的哪些区间对于土壤含水量的影响最大,最终导致无法实现高精度、可解释的实现土壤含水量预测。
发明内容
本发明的目的在于提供一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,包括如下步骤,
S1、初始样本训练集构建:
基于目标土壤区域的野外实测墒情站点数据和气象站点数据构建样本量为m、特征数为n的初始样本训练集;
S2、集成学习模型的训练与验证:
将预处理后的初始样本训练集划分为训练集和测试集,利用训练集训练GBM模型和RF模型,并在训练过程中结合多种参数调优方法进行超参数随机匹配择优,确定GBM模型和RF模型的最优参数组合;并利用测试集验证GBM模型和RF模型的最优参数组合;
S3、特征重要度计算:
对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,将预测结果更好的模型利用其自身特征重要度算法计算各输入特征的特征重要度,并基于计算结果对各输入特征进行特征重要度排序;
S4、个体SHAP值计算:
将步骤S3中选出的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算年、季尺度下每个特征所有个体的SHAP值;
S5、影响最大的特征区间确定:
基于个体SHAP值的结果选择模型的最适季节,提取每个特征中SHAP值大于预设阈值的个体,并统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,并将每个区间的SHAP均值与原始区间的SHAP均值进行对比,基于对比结果确定对土壤含水量影响最大的特征区间。
优选的,步骤S1具体包括如下内容,
S11、针对目标土壤区域,以墒情站点的野外实测墒情数据和气象站点的气象数据作为数据源,基于数据的经纬度以及时间对野外实测墒情数据和气象数据进行匹配处理,实现野外实测墒情数据和气象数据的同步;
S12、获取各个站点对应的野外实测墒情数据和气象数据,并剔除其中的空值数据;并将气象数据作为初始输入特征,实测土壤含水量作为期望输出特征,构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m×n;
S13、对初始样本训练集中的数据进行归一化处理,以实现初始样本训练集的预处理。
优选的,墒情站点所使用的土壤水分传感器长期埋设于野外大田的测点中,实时接收间隔为1小时的土壤墒情数据,并基于TDR时域反射原理对不同深度的土壤测定土壤体积含水量。
优选的,步骤S2中,针对目标土壤区域的所有站点数据,按照预设的分配原则进行训练集和测试集的划分。
优选的,步骤S2中,利用GridSearchCV方法和optuna方法对GBM模型和RF模型的相关参数进行综合随机匹配择优,以获取各模型的最优参数组合。
优选的,GBM模型在进行参数匹配择优时需要择优的参数包括学习率、损失函数、决策树的数量、决策树的深度和建立决策树时选择的最大特征数目;RF模型在进行参数匹配择优时需要择优的决策树的数量、决策树的深度和建立决策树时选择的最大特征数目。
优选的,在利用测试集验证GBM模型和RF模型的最优参数组合时,以平均绝对误差、决定系数和均方根误差作为评价指标,平均绝对误差和均方根误差越小、决定系数越大,则表示最优参数组合的对土壤含水量的预测结果越好。
优选的,步骤S4中,SHAP方法通过计算每个特征对预测值的贡献来解释特征,其所使用的SHAP值能够定量化表征各个特征对预测值的贡献,SHAP值越大表示该特征对于预测值的贡献越大。
优选的,步骤S5中,将统计后的区间进行2等分并分别计算各个区间的SHAP均值,比较各个区间的SHAP均值与原始区间SHAP均值之间的大小,最终确定各站点对土壤含水量贡献最大的区间。
优选的,基于S3中获取的特征重要度排序,由低到高依次去除相应特征,并利用模型进行土壤含水量预测,并基于预测结果确定相应输入特征缺省时,模型对土壤含水量预测的精度,进而为输入特征缺省时,模型的输入特征选择提供参考。
本发明的有益效果是:1、本发明方法结合了机器学习和可解释模型的方法,就土壤含水量的预测解释进行了优化改进;不仅能够借助集成学习的方法获取高精度的土壤含水量预测结果,而且基于重要度算法制定不同缺省因子下的方案,并比较模型在不同方案下预测土壤水分的精度,从而在输入因子缺省时,为模型输入因子的选择提供参考借鉴。2、本发明方法将SHAP方法与集成学习模型融合定量评估集成学习模型输入变量的贡献程度,并制定的区间划分规则识别特征敏感阈值区间,为各输入要素对土壤含水量的定量精细化影响提供技术指导。这种混合技术的突破为区域内的土壤水分预测和解释提供技术支撑,能够降低土壤水分的预测成本,显著提升土壤含水量的预测精度,更增添该预测模型的可解释性,具有广阔的工业化应用前景。
附图说明
图1是本发明实施例中预测方法的总体架构示意图;
图2是本发明实施例中GBM模型预测值与实测值对比示意图;
图3是本发明实施例中RF模型预测值与实测值对比示意图;
图4是本发明实施例中是预测结果较好的GBM模型10~40cm深度的输入特征要素重要性结果示意图;
图5是本发明实施例中预测结果较好的GBM模型5类输入特征要素的特征贡献依赖示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本实施例中,提供了一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,本方法具体包括六部分内容,分别是初始样本训练集构建、集成学习模型的训练与验证、特征重要度计算、个体SHAP值的计算、影响最大的特征区间的确定以及缺省特征下的精度比较;下面分别针对这六部分内容进行说明:
一、初始样本训练集构建
基于目标土壤区域的野外实测墒情站点数据和气象站点数据构建样本量为m、特征数为n的初始样本训练集。
该部分的具体包括如下内容:
1、数据同步:针对目标土壤区域,以墒情站点的野外实测墒情数据和气象站点的气象数据作为数据源,基于数据的经纬度以及时间对野外实测墒情数据和气象数据进行匹配处理,实现野外实测墒情数据和气象数据的同步;
2、样本构建:获取各个站点对应的野外实测墒情数据和气象数据,并剔除其中的空值数据;并将气象数据作为初始输入特征,实测土壤含水量作为期望输出特征,构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m×n;
3、初始样本训练集预处理:对初始样本训练集中的数据进行归一化处理,以实现初始样本训练集的预处理。归一化处理的公式如下:
式中:x*为归一化后的样本集,x为原始样本集,xmin为原始样本集最小值,xmax为原始样本集最大值。
本实施例中,在实际应用中,由于气象站点和墒情站点的数量及空间分布的限制,选择距离墒情站点最近的气象站点作为模型的输入变量。整个技术方案中,根据气象站点和墒情站点的最小距离来选定墒情站点附近的气象站点。
本实施例中,墒情站点所使用的土壤水分传感器长期埋设于野外大田的测点中,实时接收间隔为1小时的土壤墒情数据,并基于TDR时域反射原理对不同深度的土壤测定土壤体积含水量。
本实施例中,输入随时间变化的特征为动态环境变量,这种变化可能是一小时,也可能是一天;因此在准备输入的动态环境变量时,要将输入变量的时间进行统一。例如,降雨是前一日8时到今日8时的累积降水,土壤含水量数据则是小时数据,为了统一数据的时间尺度,以每日8时的土壤含水量数据作为当日的结果,输入的环境变量如表1所示。
表1输入环境变量
二、集成学习模型的训练与验证
具体为,将预处理后的初始样本训练集Dataset划分为训练集train_set和测试集test_set,利用训练集训练GBM模型和RF模型,并在训练过程中结合多种参数调优方法进行超参数随机匹配择优,确定GBM模型和RF模型的最优参数组合;并利用测试集验证GBM模型和RF模型的最优参数组合。
本实施例中,针对目标土壤区域的所有站点数据,按照预设的分配原则进行训练集和测试集的划分。预设的分配原则具体为训练集和测试集的比例为8:2,具体还可以根据实际情况进行划分,以便更好的满足实际需求。
本实施例中,利用GridSearchCV方法和optuna方法对GBM模型和RF模型的参数进行随机匹配择优,以获取最优参数组合。具体是利用这两种方法依次对GBM模型和RF模型的参数进行随机匹配择优,分别选择出预测精度最高的参数组合作为相应模型的最优参数组合。
在利用GridSearchCV方法进行超参数调节时,主要分为两个步骤:第一步是网格搜索,即在参数指定的范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数;第二步是交叉验证,即将数据集划分为n份,依次取其中1份为验证集,其余n-1份为训练集,测试在验证集上的精度,取n次实验的平均精度为平均精度。
Optuna是一个自动超参数优化软件框架,专为机器学习而设计,其调优过程是在模型训练之前完成的,在确定了超参数的最佳值后,将超参数馈送到模型训练阶段。Optuna拥有许多非常先进的调参算法(如贝叶斯优化,遗传算法采样等),这些算法往往可以在几十上百次的尝试过程中找到一个不可微问题的较优解。Optuna是一个完全用Python编写的最先进的自动超参数调整框架,可以与PyTorch、TensorFlow、Keras、SKlearn等其他框架一起使用。Optuna的用户可以动态地构建超参数的搜索空间,它可以帮助用户编写高度模块化的代码并动态构建超参数的搜索空间,找到最优超参数值。通过配合optuna-dashboard,可以可视化整个调参过程,从各个方面加深对问题的理解。相较于传统的超参数调节方法,Optuna方法同时具有小巧轻量,通用且与平台无关;高效的优化算法;写法简单,可以并行;快速可视化等优点。
在利用optuna方法进行超参数调节时,第一步需要定义目标特征(objective),在这个目标函数中,我们必须完成的每个超参数调整;第二步需要定义一个搜索空间,搜索空间是一个普通的字典,要创建可能的值进行搜索,必须使用试验对象的suggest_函数。这些函数至少需要范围的超参数名称、最小值和最大值,以搜索分类超参数或可能的类别;第三步需要创建一个研究对象(direction),最小化诸如RMSE等损失函数的结果;最后调用study.optimize方法,传递目标函数名称和需要的试验次数。
本实施例中,GBM模型在进行参数匹配择优时需要择优的参数包括学习率、损失函数、决策树的数量、决策树的深度和建立决策树时选择的最大特征数目;RF模型在进行参数匹配择优时需要择优的决策树的数量、决策树的深度和建立决策树时选择的最大特征数目。
本实施例中,以平均绝对误差(MAE)、决定系数(R2)和均方根误差(RMSE)作为评价指标评价,基于GBM模型和RF模型利用测试集验证最优参数组合;平均绝对误差和均方根误差越小、决定系数越大表示预测结果与实测结果之间的偏差越小,即最优参数组合的预测结果越好。平均绝对误差(MAE)、决定系数(R2)和均方根误差(RMSE)的具体公式如下:
式中,是预测值,yi是真实值,/>是平均值。MAE是绝对误差的平均值,它能够反映预测值误差的实际情况。RMSE是参数估计值与参数真值之差的平方的期望值,它可以评价数据的变化程度。R2可以消除维数对评价测度的影响,MAE和RMSE越小表明预测结果越好,R2越大表明预测结果越好。
三、特征重要度计算
对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,并将预测结果更好的模型利用其自身特征重要度算法计算各输入特征的特征重要度并基于计算结果对各输入特征进行特征重要度排序。这样能够对模型的各输入特征的重要度有个初步的了解。
特征重要度算法是利用基尼系数,信息增益和分裂次数,添加权重计算特征重要性。通常有2种实现方式:一种为不纯度减少均值(Mean decrease impurity),这种方法是当模型进行分类、回归时,特征越重要,对节点的纯度增加的效果越好;另外一种精度减少均值(Mean decrease accuracy),这个方法更直观一些,是说某个特征对模型精度的影响,把一个变量的取值变为随机数,该值越大表示该变量的重要性越大。本实施例中利用第二种实现方式计算特征重要度。
但是,由于特征重要度算法只能从特征整体上表现特征的重要度,无法判别某一特征其取值变化对预测值的影响,因此本发明引入SHAP方法计算各个特征个体的SHAP值,从而识别各个特征对预测值贡献最大的区间。
四、个体SHAP值计算
对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,并将预测结果更好的模型及其最优参数组合与SHAP方法融合(即将上一步选择出的模型及其最优参数组合与SHAP方法融合),基于初始样本训练集计算年、季尺度下每个特征所有个体的SHAP值。
SHAP值是对所有可能的特征值组合进行加权求和,其公式如下,
其中,S是模型中使用的特征的子集,表示j这些特征不包括在集合S中,p是特征的数量,val(S)是对集合S中特征值的预测,表示val第j个特征的贡献。
五、影响最大的特征区间确定
提取每个特征中SHAP值大于预设阈值(可设置为0,具体可以根据实际情况进行选择,以便更好的满足实际需求)的个体,并统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,并将每个区间的SHAP均值与原始区间的SHAP均值进行对比,基于对比结果确定对土壤含水量影响最大的特征区间。
本实施例中,SHAP方法通过计算每个特征对预测值的贡献来解释特征,其所使用的SHAP值能够定量化表征各个特征对预测值的贡献度,SHAP值越大表示该特征对于预测值的贡献越大。
本实施例中,具体地,将统计后的区间进行2等分并分别计算各个区间的SHAP均值,比较各个区间的SHAP均值与原始区间SHAP均值之间的大小,最终确定各站点对土壤含水量贡献最大的区间。
六、缺省特征下的精度比较
本发明关于特征重要度的计算,还能够为输入特征缺省的情况下,模型输入因子的选择提供参考借鉴。
具体为,基于S3中获取的特征重要度排序,由低到高依次去除相应特征,并利用模型进行土壤含水量预测,并基于预测结果确定相应输入特征缺省时,模型对土壤含水量预测的精度,进而为输入特征缺省时,模型的输入特征选择提供参考。
实施例二
本实施例中,以辽宁省西部地区孙家湾、叶柏寿和凌海站的10cm、20cm和40cm深度土壤含水量预测为例,具体说明本发明方法的执行过程和有效性。
一、初始样本训练集构建
针对目标土壤区域,以野外实测墒情站点数据和气象站点为数据源,然后基于野外墒情数据和气象数据的经纬度以及数据的时间进行匹配处理,确定了3个墒情站点附近气象站点。由于墒情站点的数据序列起始时间为2018年7月,为匹配对应日期的墒情数据,选择2018-2021年气象数据作为模型输入变量,实现处理后墒情数据和气象数据的同步。
获取各个站点对应的各类数据,剔除数据中的空值数据,构成输入模型的样本集,其中孙家湾共有数据1099条,叶柏寿共有数据1202条,凌海共有数据1177条。将气象要素作为初始输入特征,实测土壤含水量为期望输出特征。这里选取的环境变量是:逐日的降水、日照时数、平均相对湿度、风速、平均气温。构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m×n,并对数据集进行归一化处理,使它们的值缩放到[0,1]区间内。
二、集成学习模型的训练与验证
将初始样本训练集Dataset按照数据集8:2分配要求分配训练集train_set和测试集test_set,利用GBM模型和RF模型对土壤区域各个站点的训练集进行训练。GBM模型有5个需要优化的参数,分别为学习率(learning_rate)、损失函数(loss)、决策树的数量(n_estimators)、决策树的深度(max_depth)和建立决策树时选择的最大特征数目(max_features)。随机森林(RF)模型有3个需要优化的参数:决策树的数量(n_estimators)、决策数的深度(max_depth)和建立决策树时选择的最大特征数目(max_features)。
利用GridSearchCV方法和optuna方法进行超参数随机匹配择优,经过调参后发现GridSearchCV方法调参后的模型的预测结果精度更高,GBM模型最优参数分别为n_estimators=300,max_depth=10,max_features=2,loss='huber'函数,learning_rate=0.1;RF模型最优参数为n_estimators=900,max_depth=15,max_features=5。确定模型最优参数后,利用测试集test_set对模型的最优参数组合进行验证。
将最优参数组合应用于测试集中,10~40cm深度测试集样本GBM模型预测值与实测土壤含水量的散点分布图如图2a、图2b、图2c、图2d所示,RF模型预测值与实测土壤含水量的散点分布图如图3a、图3b、图3c、图3d所示,精度验证结果如表2所示。
表2验证结果
综合GBM模型和RF模型对于土壤含水量的预测结果,可以看出GBM模型表现更为出色。
三、特征重要度计算
根据上一步内容可知,表现更好的模型为GBM模型,则利用该模型自身的特征重要度算法计算该模型各输入特征的重要度,并进行排序。GBM模型的各输入特征的特征重要度排序如图4所示。
四、个体SHAP值的计算
由于特征重要度计算只能从特征整体上表现特征的重要度,无法判别某一特征其取值变化对预测值的影响,因此引入SHAP方法计算各个特征个体的SHAP值,从而识别各个特征对预测值贡献最大的区间。
计算不同深度土层的结果,10~40cm深度的SHAP值结果如表3所示。
表3各站点不同土层深度SHAP值结果
为了更精细化的确定各特征的贡献程度,将年份按照3-5月为春季、6-8月为夏季、9-11月为秋季、12-次年2月为冬季进行季节划分,并计算每个站点的不同季节的SHAP值,计算结果如表4所示。
表4各站点不同季节SHAP值结果
五、影响最大的特征区间确定
将上述结果表现较好的夏季作为输入,提取每个特征中SHAP值大于0的个体,统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,与原始区间SHAP均值进行对比,根据SHAP值大小判断影响土壤含水量的最大特征区间。结合最优参数组合获得目标土壤区域土壤预测时间含水量预测数据。
为定量识别不同输入特征要素对应的有效阈值区间,制定区间识别划分规则为:(1)筛选出SHAP值大于0的点,提取点所在的区间;(2)将区间等分,分别计算每个区间SHAP均值;(3)比较划分后的区间与原区间SHAP均值的大小,最终定量识别不同输入特征对SMC贡献最大的区间。
各个特征SHAP值大于0的区间如图5a、图5b、图5c、图5d、图5e所示,各站点的最大贡献区间如表5所示。
表5各站点的最大贡献区间
(备注:表5中加粗部分即为各个特征贡献最大值)
六、缺省特征(因子)下的精度比较
虽然本实施例中输入模型的因子只有5类,但在实际应用中,还是可能存在输入因子缺省的问题。因此在上述特征重要度的基础上,设计了4套方案,按照特征重要度由低到高依次去除一类因子,进而比较各个方案预测土壤水分的精度。
由于10、20和40cm深度重要度排序结果一致,因此3个土层实施方案一致,下面以孙家湾站的结果为例,具体结果见表6:
表6孙家湾站缺省因子下GBM模型预测土壤水分精度比较
/>
由上述结果可以看出,在10、20和40cm深度时,仅有气温和日照时数作为输入时,GBM模型预测土壤水分仍能达到较高的精度(R2均大于0.929),在30cm深度时,GBM模型仅有气温和相对湿度作为输入的R2达到了0.950。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,本发明方法结合了机器学习和可解释模型的方法,就土壤含水量的预测解释进行了优化改进;不仅能够借助集成学习的方法获取高精度的土壤含水量预测结果,而且基于重要度算法制定不同缺省因子下的方案,并比较模型在不同方案下预测土壤水分的精度,从而在输入因子缺省时,为模型输入因子的选择提供参考借鉴。本发明方法将SHAP方法与集成学习模型融合定量评估集成学习模型输入变量的贡献程度,并制定的区间划分规则识别特征敏感阈值区间,为各输入要素对土壤含水量的定量精细化影响提供技术指导。这种混合技术的突破为区域内的土壤水分预测和解释提供技术支撑,能够降低土壤水分的预测成本,显著提升土壤含水量的预测精度,更增添该预测模型的可解释性,具有广阔的工业化应用前景。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:包括如下步骤,
S1、初始样本训练集构建:
基于目标土壤区域的野外实测墒情站点数据和气象站点数据构建样本量为m、特征数为n的初始样本训练集;
S2、集成学习模型的训练与验证:
将预处理后的初始样本训练集划分为训练集和测试集,利用训练集训练GBM模型和RF模型,并在训练过程中结合多种参数调优方法进行超参数随机匹配择优,确定GBM模型和RF模型的最优参数组合;并利用测试集验证GBM模型和RF模型的最优参数组合;
S3、特征重要度计算:
对比验证后的在相应最优参数组合下的GBM模型和RF模型的土壤含水量预测结果,将预测结果更好的模型利用其自身特征重要度算法计算各输入特征的特征重要度,并基于计算结果对各输入特征进行特征重要度排序;
S4、个体SHAP值计算:
将步骤S3中选出的模型及其最优参数组合与SHAP方法融合,基于初始样本训练集计算年、季尺度下每个特征所有个体的SHAP值;
S5、影响最大的特征区间确定:
基于个体SHAP值的结果选择模型的最适季节,提取每个特征中SHAP值大于预设阈值的个体,并统计每个特征的区间,将统计后的区间进行划分,计算每个区间的SHAP均值,并将每个区间的SHAP均值与原始区间的SHAP均值进行对比,基于对比结果确定对土壤含水量影响最大的特征区间。
2.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S1具体包括如下内容,
S11、针对目标土壤区域,以墒情站点的野外实测墒情数据和气象站点的气象数据作为数据源,基于数据的经纬度以及时间对野外实测墒情数据和气象数据进行匹配处理,实现野外实测墒情数据和气象数据的同步;
S12、获取各个站点对应的野外实测墒情数据和气象数据,并剔除其中的空值数据;并将气象数据作为初始输入特征,实测土壤含水量作为期望输出特征,构建样本量为m,特征个数为n的初始样本训练集Dataset,Dataset=m×n;
S13、对初始样本训练集中的数据进行归一化处理,以实现初始样本训练集的预处理。
3.根据权利要求2所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:墒情站点所使用的土壤水分传感器长期埋设于野外大田的测点中,实时接收间隔为1小时的土壤墒情数据,并基于TDR时域反射原理对不同深度的土壤测定土壤体积含水量。
4.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S2中,针对目标土壤区域的所有站点数据,按照预设的分配原则进行训练集和测试集的划分。
5.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S2中,利用GridSearchCV方法和optuna方法对GBM模型和RF模型的相关参数进行综合随机匹配择优,以获取各模型的最优参数组合。
6.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:GBM模型在进行参数匹配择优时需要择优的参数包括学习率、损失函数、决策树的数量、决策树的深度和建立决策树时选择的最大特征数目;RF模型在进行参数匹配择优时需要择优的决策树的数量、决策树的深度和建立决策树时选择的最大特征数目。
7.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:在利用测试集验证GBM模型和RF模型的最优参数组合时,以平均绝对误差、决定系数和均方根误差作为评价指标,平均绝对误差和均方根误差越小、决定系数越大,则表示最优参数组合的对土壤含水量的预测结果越好。
8.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S4中,SHAP方法通过计算每个特征对预测值的贡献来解释特征,其所使用的SHAP值能够定量化表征各个特征对预测值的贡献,SHAP值越大表示该特征对于预测值的贡献越大。
9.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:步骤S5中,将统计后的区间进行2等分并分别计算各个区间的SHAP均值,比较各个区间的SHAP均值与原始区间SHAP均值之间的大小,最终确定各站点对土壤含水量贡献最大的区间。
10.根据权利要求1所述的基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法,其特征在于:基于S3中获取的特征重要度排序,由低到高依次去除相应特征,并利用模型进行土壤含水量预测,并基于预测结果确定相应输入特征缺省时,模型对土壤含水量预测的精度,进而为输入特征缺省时,模型的输入特征选择提供参考。
CN202310112272.XA 2023-02-14 2023-02-14 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法 Active CN116205310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310112272.XA CN116205310B (zh) 2023-02-14 2023-02-14 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310112272.XA CN116205310B (zh) 2023-02-14 2023-02-14 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法

Publications (2)

Publication Number Publication Date
CN116205310A CN116205310A (zh) 2023-06-02
CN116205310B true CN116205310B (zh) 2023-08-15

Family

ID=86507300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310112272.XA Active CN116205310B (zh) 2023-02-14 2023-02-14 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法

Country Status (1)

Country Link
CN (1) CN116205310B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757031B (zh) * 2023-06-15 2024-02-09 中南大学 影响金属-金属胶接性能的多因素的分析方法及装置
CN116501979A (zh) * 2023-06-30 2023-07-28 北京水滴科技集团有限公司 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN117094123B (zh) * 2023-07-12 2024-06-11 广东省科学院生态环境与土壤研究所 基于可解释模型的土壤固碳驱动力识别方法、装置及介质
CN117390390A (zh) * 2023-10-19 2024-01-12 上海交通大学 基于可解释机器学习的核电厂状态预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508442A (zh) * 2020-12-18 2021-03-16 湖南大学 基于自动化和可解释机器学习的暂态稳定评估方法及系统
CN114723149A (zh) * 2022-04-14 2022-07-08 北京市农林科学院信息技术研究中心 土壤墒情预测方法、装置、电子设备及存储介质
CN115438849A (zh) * 2022-08-29 2022-12-06 北京航空航天大学 一种基于集成学习的装备后续备件需求预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022552980A (ja) * 2019-10-19 2022-12-21 キナクシス インコーポレイテッド 機械学習解釈可能性のためのシステム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508442A (zh) * 2020-12-18 2021-03-16 湖南大学 基于自动化和可解释机器学习的暂态稳定评估方法及系统
CN114723149A (zh) * 2022-04-14 2022-07-08 北京市农林科学院信息技术研究中心 土壤墒情预测方法、装置、电子设备及存储介质
CN115438849A (zh) * 2022-08-29 2022-12-06 北京航空航天大学 一种基于集成学习的装备后续备件需求预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Stacking集成学习模型的气态亚硝酸预测;唐科;秦敏;赵星;段俊;方武;梁帅西;孟凡昊;叶凯迪;张鹤露;谢品华;;中国环境科学(第02期);全文 *

Also Published As

Publication number Publication date
CN116205310A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN116205310B (zh) 一种基于可解释集成学习模型的土壤含水量影响因素敏感区间判定方法
Oudin et al. Are seemingly physically similar catchments truly hydrologically similar?
Wang et al. Integrating remotely sensed leaf area index and leaf nitrogen accumulation with RiceGrow model based on particle swarm optimization algorithm for rice grain yield assessment
CN112288164B (zh) 一种计及空间相关性和修正数值天气预报的风功率组合预测方法
CN114168906B (zh) 一种基于云计算的测绘地理信息数据采集系统
Baldeck et al. Environmental drivers of tree community turnover in western Amazonian forests
CN107860889A (zh) 土壤有机质的预测方法和设备
CN113505923B (zh) 一种地区电网短期负荷预测方法及系统
CN111582387A (zh) 一种岩石光谱特征融合分类方法及系统
Wang et al. Forest above ground biomass estimation from remotely sensed imagery in the mount tai area using the RBF ANN algorithm
CN105930531A (zh) 一种基于混合模型的农业领域本体知识云维度优选方法
Koolagudi Long-range prediction of Indian summer monsoon rainfall using data mining and statistical approaches
Cui et al. Estimating maize yield in the black soil region of Northeast China using land surface data assimilation: integrating a crop model and remote sensing
CN116957356B (zh) 一种基于大数据的景区碳中和管理方法和系统
Gecchele et al. Advances in uncertainty treatment in FHWA procedure for estimating annual average daily traffic volume
CN117236515A (zh) 一种预测城市行道树胸径生长趋势的方法、预测系统及电子设备
CN115018137B (zh) 基于强化学习的水环境模型参数率定方法
CN116796291A (zh) 一种基于lstm-mea-svr空气质量预报的系统
CN113179834B (zh) 耦合多因素影响的华北落叶松人工林生长模型及构建方法
CN115238967A (zh) 一种结合云图和相邻电站集群的光伏功率预测方法及装置
Zhao et al. Selecting essential factors for predicting reference crop evapotranspiration through tree-based machine learning and Bayesian optimization
Wang et al. Precipitation prediction in several Chinese regions using machine learning methods
Ji et al. An Integrated Framework of GRU Based on Improved Whale Optimization Algorithm for Flood Prediction
Corral Investigating selection criteria of constrained cluster analysis: applications in forestry
CN117787110B (zh) 基于深度学习模型的土壤水分反演方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant