CN116227692B

CN116227692B - 一种农作物重金属富集风险量化方法、系统及可存储介质

Info

Publication number: CN116227692B
Application number: CN202310125004.1A
Authority: CN
Inventors: 杨阳; 陈卫平
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-09-26
Anticipated expiration: 2043-02-06
Also published as: CN116227692A

Abstract

本发明公开了一种农作物重金属富集风险量化方法、系统及可存储介质，涉及精准农业技术领域。具体为：获取研究区水文、气候、土壤理化性质和农作物重金属含量等参数，筛选后形成多元数据集；通过蒙特卡洛随机模拟方法在不同数据组中建立多个子训练集和子测试集，通过多次模拟对多棵决策树进行优化，获取精准的多组别随机森林模型；基于最优随机森林模型，获取关键影响变量，结合区域土壤环境特征和农业发展需求开展多场景模拟，量化不同调控措施下区域农作物重金属富集风险及其变化趋势，形成区域农作物重金属污染防治优化对策。本发明解决了传统农作物重金属富集风险评估方法中的不确定性问题以及机器学习方法预测结果与实际管理脱节的问题。

Description

一种农作物重金属富集风险量化方法、系统及可存储介质

技术领域

本发明涉及精准农业技术领域，更具体的说是涉及一种农作物重金属富集风险量化方法、系统及可存储介质。

背景技术

重金属(镉、铅、汞等)迁移性强，生物毒性大，不能被化学或生物降解，且易通过食物链途径在农作物、动物和人体内富集，对土壤生态环境、食品安全和人体健康构成严重威胁。

与空气污染和水污染相比，土壤重金属污染具有长期性、隐蔽性和污染来源多样化等特性，导致重金属在土壤－农作物系统中的迁移转化行为十分复杂且影响因子众多。距工业区、矿区和城镇区的距离，不同种类农产品的投入，土壤pH，土壤氧化还原电位，土壤有机质含量，土壤质地和共存阴阳离子等变量均会对土壤—农作物重金属富集过程造成影响。因此通过采样分析来研究土壤－农作物系统重金属迁移转化行为较为困难且成本较高。数学模型可以有效地耦合多种因素，是科学分析区域土壤重金属污染趋势和演变过程的重要手段。如何耦合多个环境变量变化特性，通过系统建模手段重现土壤－农作物系统重金属累积动态变化过程，是当前农作物重金属污染防治的重点和难点。

机器学习方法(神经网络、支持向量机、随机森林等)可通过大样本数据训练实现对目标变量的高精度预测，在非线性关系解析及多维数据建模方面均表现出较大潜力。

虽然已有的研究工作推动了随机森林模型在环境领域中的应用，并在农作物重金属富集过程模拟和预测，生态风险评估和空间分布建模方面取得了一定的进展，但该模型仍存在以下几个问题：

(1)现行模型缺少关键分类模块，难以扩展应用。

区域土壤－农作物系统重金属污染格局多样，土壤重金属空间异质性强，不同区域农作物重金属富集过程差异较大。现行机器学习方法类模型(包括随机森林模型)缺少对数据进行筛选和分类的关键模块或只有简单的线性分类模块，很容易造成局部过拟合现象且输出结果与实际情况差别较大，无法准确识别重点污染区域和潜在风险区域及其驱动因子，导致模型不确定性较强，很难扩展应用到其他场景或区域。

(2)现行模型涉及参数较少，预测结果偏差较大且可解释性较差。

区域土壤－农作物系统重金属富集过程复杂，影响因子众多，需要结合较多的专业知识对模型结果进行校正和解释。传统以土壤重金属和土壤pH为自变量的机器学习模型(包括随机森林模型)很难对农作物重金属富集过程做出准确预测，且模拟结果缺乏合理的可解释性和语义表达能力等问题。

(3)现行模型缺少先验参数设定模块，与实际管理脱节。

机器学习方法类模型(包括随机森林模型)属于“黑箱”类模型，虽然在建模的快速和便捷方面优于传统的统计性模型，但现行机器学习方法类模型(包括随机森林模型)缺少先验参数设定模块，难以对数据挖掘过程进行人为“监督”，也不能进行多场景模拟。我国农田土壤类型多样，不同区域经济发展现状、污染防治规划和农业发展目标差异较大，单一的“黑箱”类样本训练易导致模拟结果易与实际管理脱节，相应的优化措施可行性较低。这也是制约该类模型扩展应用的瓶颈问题。

综上所述，如何基于现有机器学习方法类模型(包括随机森林模型)，发展新的数据分类、监督和挖掘功能，揭示不同环境变量土壤－农作物系统重金属富集过程的影响程度，识别污染管控重点区域，预测农作物重金属富集风险，并给出相应的田间管理优化措施，对于我国农田重金属污染防治具有重大意义。

发明内容

有鉴于此，本发明提供了一种农作物重金属富集风险量化方法、系统及可存储介质，解决了传统农作物重金属富集风险评估方法中的不确定性问题以及机器学习方法预测结果与实际管理脱节的问题。

为了实现上述目的，本发明采用如下技术方案：

首先，公开了一种农作物重金属富集风险量化方法，包括以下步骤：

获取研究区的地理参数，筛选后形成多元数据集；

基于国家土壤环境质量标准和数据分布特征，构建模糊聚类模型对多元数据集进行分组分级；

以分组分级后的数据集为基础，以农作物重金属富集因子为目标变量，建立基于决策树的多组别随机森林模型；

通过蒙特卡洛随机模拟方法在不同数据组中建立多个子训练集和子测试集，通过多次模拟对多棵决策树进行优化，获取精准的多组别随机森林模型；

基于最优随机森林模型，获取影响变量，结合区域土壤环境特征和农业发展需求进行多场景模拟，量化不同调控措施下区域农作物重金属富集风险及其变化趋势，形成区域农作物重金属污染防治优化对策。

可选的，所述地理参数包括水文、气候、土壤理化性质和农作物重金属含量。

可选的，模糊聚类模型的数据集分组方案的具体公式如下：

其中，F(X_i，c)表示基于模糊集理论的富集因子分组方案，μ_ik为第i个样点的小麦Cd富集因子对于第k个聚类类别的隶属度，d² _ik为第i个样点富集因子与第k个类别中心之间的距离模数，n表示样点数，c表示模糊类别数量，表示模糊指数。

可选的，应用范围优化法和目标函数优化法两种方式对c和进行参数优化：构建模糊性能指数和分类熵判定参数c和/>的取值范围，通过设定不同的模糊指数/>和模糊类别数量c，得到模糊性能指数和分类熵的变化曲线；当两条曲线变化一致，变幅较小且逐渐形成平滑直线时所对应的参数集为模糊指数/>和模糊类别数量c的最优参数取值范围。

可选的，模糊性能指数和分类熵的具体公式如下：

其中，FP为模糊性能指数，CH为分类熵。

可选的，定义派生函数具体为：

该函数取值为目标函数F(X_i，c)对模糊度的偏导数与分类数c方根的积的负数，通过设定不同的模糊指数/>和模糊类别数量c，可得到目标函数/>的变化曲线。当取值最小时对应的c值为最优模糊类别数。在选定c值的情况下，/>曲线峰值最大处的/>值为最优模糊指数。

其次，公开了一种农作物重金属富集风险量化系统，包括：

数据集获取模块：用于获取研究区的地理参数，筛选后形成多元数据集；

分组分级模块：用于基于国家土壤环境质量标准和数据分布特征，构建模糊聚类模型对多元数据集进行分组分级；

多组别随机森林模型建立模块：用于以分组分级后的数据集为基础，以农作物重金属富集因子为目标变量，建立基于决策树的多组别随机森林模型；

多组别随机森林模型优化模块：用于通过蒙特卡洛随机模拟方法在不同数据组中建立多个子训练集和子测试集，通过多次模拟对多棵决策树进行优化，获取精准的多组别随机森林模型；

防治优化对策生成模块：用于基于最优随机森林模型，获取影响变量，结合区域土壤环境特征和农业发展需求进行多场景模拟，量化不同调控措施下区域农作物重金属富集风险及其变化趋势，形成区域农作物重金属污染防治优化对策。

最后，公开了一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现任意一项所述的一种农作物重金属富集风险量化方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种农作物重金属富集风险量化方法、系统及可存储介质，解决了传统农作物重金属富集风险评估方法中的不确定性问题以及机器学习方法预测结果与实际管理脱节的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明基于模糊集理论的多组别随机森林模型构建框架；

图2a为本发明的区域采样点；图2b为本发明的模糊分类区(IV组方案)；图2c为本发明的传统分类区(11组方案)；

图3a－图3c为本发明的最优模糊指数和模糊类别数量c取值范围；

图4为本发明模糊指数和模糊类别数量c的最优控制参数取值；

图5a为本发明的基于模糊集理论的随机森林模型；图5b为现行“黑箱”随机森林模型；图5c为多元回归线性模型的区域小麦Cd富集因子预测图；

图6a－图6d为本发明的基于敏感性分析的变量重要性解析：图6a为第I组，图6b为第II组，图6c为第III组，图6d为第IV组；

图7a－图7b为基于模糊集理论的随机森林模型的小麦Cd籽粒含量场景预测：图7a为高污染风险管控区大气管控措施应用效果，图7b为中等污染风险管控区大气管控和施加富Zn微肥联合措施应用效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种农作物重金属富集风险量化方法，如图1所示，包括以下步骤：

获取研究区的地理参数，筛选后形成多元数据集；

进一步的，在本实施例中通过区域调查和采样分析获取多源参数，建立小麦镉污染防治专题数据库，形成一个n×p的土壤－小麦重金属污染概况模糊集X,n为空间样点数量，p为环境变量。

定义小麦Cd富集因子(BCF，小麦籽粒Cd含量/土壤Cd含量)为因变量，即X_i表示为小麦Cd富集因子在样点i的水平(i＝1,2，3，n)。将样区内n个样点土壤的属性划分到c个小麦Cd富集因子类别中，则模糊分类核心方程为每一个样点隶属于某一类别的隶属度(μ_ik)和该样点距离聚类中心的距离模数(d² _ik)乘积之和的最小值(见公式1)，具体计算过程如下：

式中，F(X_i，c)表示基于模糊集理论的小麦Cd富集因子分组方案，μ_ik为第i个样点的小麦Cd富集因子对于第k个聚类类别的隶属度(见公式2)，且各类别的隶属度之和为1(见公式3)，d² _ik为第i个样点小麦Cd富集因子与第k个类别中心之间的距离模数，n表示样点数(影响模型复杂度)，c表示模糊类别数量(影响分类结果)，表示模糊指数(影响类别交叠程度)。

为降低模糊分类模型的不确定性并保证分类结果和区域风险管控目标措施相契合，本例中对核心方程添加控制参数α，则原核心方程优化为公式4：

经计算得出某区域小麦Cd富集因子(BCF)的安全值为0.0073，则模糊聚类固定控制参数α可设定为0.0073。

模糊类别数量c和模糊指数是模糊模型运行的中两个关键参数。本发明应用范围优化法和目标函数优化法两种方式对c和/>进行参数优化。首先构建模糊性能指数(FP)和分类熵(CH)判定参数c和/>的取值范围，其中模糊性能指数(FP)和分类熵(CH)计算方程分别见公式5和公式6：

其中FP为模糊性能指数，CH为分类熵。通过设定不同的模糊指数和模糊类别数量c，可得到模糊性能指数(FP)和分类熵(CH)的变化曲线。当两条曲线变化一致，变幅较小且逐渐形成平滑直线时所对应的参数集为模糊指数/>和模糊类别数量c的最优参数取值范围。

进一步，定义派生函数具体为：

在确定区域模糊数据集所对应的最优模糊指数和模糊类别数量后，开展模糊聚类，获取c个模糊类别对应的聚类中心，样本组别及其分布区域，并结合实际情况开展模糊聚类结果判别。

将经模糊分类后的原土壤－小麦重金属污染概况模糊集X进一步划分为c个子数据集X_c。定义分类后的小麦Cd富集因子(BCFF)为因变量，定义相应的土壤理化性质(V_i)为自变量，构建随机森林模型预测方程(公式8)：

式中BCFF_i表示模糊分类后的第i组(i＝1，2，3，c)样品的小麦Cd富集因子(无量纲)，α_i表示拟合常数，n表示第i组样本量，β_i(i＝1,2,3,n)表示拟合参数，V_i表示土壤理化性质，包括土壤pH、黏粒含量(％)、阳离子交换量(cmol kg^-1)、有机质(g kg^-1)、碱解氮(mgkg^-1)，无定型Fe(mg kg^-1)、无定型Mn(mg kg^-1)、土壤磷(mg kg^-1)和土壤锌(mg kg^-1)等变量。

基于数据集X_c(n_c×p_c，样点数量×环境变量)通过循环训练和参数优化建立基于决策树的随机森林模型。

具体步骤为：(i)通过Monte Carlo随机抽样方法从数据集X_c中抽取训练样本，从每个子数据集中抽取数据集85％数据作为子训练集s＝{s₁,s₂,…,s_n}，并将剩余15％样本作为模型测试集l＝{l₁,l₂,…,l_n}；(ii)设定决策树个数(Ntree)为500，设定树节点预选变量个数(mtry)为p_c(环境变量个数)，设定决策树最大深度为L(一般L≤10)，训练最大轮数为T；(iii)以子训练集为基础，构建第i个决策树h_i，从根节点出发，找出各个可以作为分类变量的自变量的所有可能的划分条件，然后不断重复以上步骤，最终将生成的叶子节点作为分类或预测值；(iv)为保证模型的分类精度，本发明使用Gini值作为节点分裂的依据，Gini值越小，说明样本纯度越高，分类效果越好，计算过程参见公式9：

式中，Gini(t)为决策树分支节点，p²(k|t)为估计类别的概率，即从节点t中随机抽取两个样本，其类别标记不一致的概率。

(v)同时，在每一个节点设定如“BCF是否满足该组BCF分类标准”的“特征参数+判别条件+数值形式”判别条件，直至训练样本全部被分配到叶节点生成决策树，以控制树结构的复杂度并防止出现局部最优的情况；

(vi)将所有决策树h₁,h₂,…,h_n集合起来，得到决策树集E＝{h₁,h₂,…,h_n}，应用余量函数进一步降低决策树数目增加造成的泛化误差，计算公式如下：

P_s(h(X,s)＝Y)-max[P_s(h(X,s)＝ω_i)]<0(10)

式中，P_s表示概率值，h(X,s)＝Y表示接受子训练集s后，决策树分类结果与样本真实值Y一致；h(X,s)＝ω_i表示接受子训练集s后，决策树将样本划分到ω_i类别；当ω_i≠Y时表示分类错误，ω_i＝Y时表示分类正确，且i＝1，2，c。

(vii)将测试集l输入决策树集E，应用平均误差(ME)，平均绝对误差(MAE)，均方根误差(RMSE)和变异系数(CV)进行模型验证，优化决策树个数(Ntree)、树节点预选变量个数(mtry)、决策树最大深度为L等模型参数，计算公式如下：

式中，P_i、O_i、N_i、j_i分别为预测值、实测值、观测数和观测样点平均误差(ME)和平均绝对误差(MAE)对模型的总体准确度的度量，其值越接近0，说明模型的总体偏差越小，准确度越高；均方根误差(RMSE)和变异系数(CV)是对模型精度及稳定性的度量，值越小说明模型的精度与稳定性越高。

(viii)应用Morris分类筛选法进行参数敏感性分析，识别关键影响参数及其交互作用。该方法通过在变量阈值范围内随机改变参数值以计算变量对模型结果的影响程度，其计算公式为如下：

式中e_i为Morris灵敏度判别系数，Y₀为参数率定后计算结果初始值，初始值Y_i+1和Y_i为模型第i+1次和第i次的运行结果，P_i+1和P_i为模型第i+1次和第i次模型运算参数值相对于率定参数后参数值变化的百分率，n为模型运行次数。e_i变化范围在0～1之间，数值越大，变量重要性越显著。

根据区域土壤环境特征和农业发展需求，调整环境变量输入参数，开展场景分析，评估不同Cd污染防治措施在污染小麦田应用的效率和潜在风险，形成优化对策，保障小麦的安全生产。

在本实施例中，基于区域土壤－小麦系统环境变量模糊数据集，通过计算对应的模糊性能指数(FP)和分类熵(CH)，得出模糊指数和模糊类别数量c的最优取值范围分别为且2<c≤5时(如图3a所示)。进一步构建相对于模糊指数/>和模糊类别数量c的派生函数/>并获取该派生函数与c和/>的交互关系图(见图4)，得出最优控制参数为c＝4且/>在确定区域模糊数据集所对应的最优模糊指数和模糊类别数量后，开展模糊聚类，结果如图2c所示。由图2c可知，区域土壤－小麦系统镉富集风险可分为4个组别，对应的小麦Cd富集因子聚类中心分别是0.028、0.018、0.012和0.0073。其中第I组样本小麦Cd富集因子均在0.028以上(BCF>0.028)，主要分布在研究区西北部、中东部和东南部，为高污染风险管控区(见图2c)。第II组样本小麦Cd富集因子在0.018～0.028之间(BCF＝0.018～0.028)，主要分布在研究区北部和东北部部分地区并呈带状分布，为中等污染风险管控区(见图2c)。第III组样本小麦Cd富集因子在0.012～0.0073之间(BCF＝0.0073～0.012)，主要分布在研究区西南地区，为轻度污染风险管控区(见图2c)。第IV组样品小麦Cd富集能力较低，样品小麦Cd富集因子大多小于0.0073(BCF<0.0073，模糊分类中设定的安全值)，为安全利用区(见图2c)。

分别以4个风险区样本作为子数据集，设定第I组(高污染风险管控区)子数据集特征参数“mtry”为21(21个监测指标)，第II组(中等污染风险管控区)子数据集“mtry”为10(与小麦Cd富集因子显著相关的10个指标)，第III组(轻度污染风险管控区)子数据集“mtry”为6(与小麦Cd富集因子最为相关的前6个指标)，第IV组(轻度污染风险管控区)子数据集“mtry”为4(与小麦Cd富集因子最为相关的前4个指标)。四个子数据集决策树数量“Ntree”均设定为500，第I组和第II组最大深度设定为10，第III组和第IV组最大深度设定为4。通过Monte Carlo随机抽样方法从每个子数据集中抽取数据集85％数据为训练集。同时，在每一个节点设定如“BCF是否满足该组BCF分类标准”的“特征参数+判别条件+数值形式”的判别条件，直至训练样本全部被分配到叶节点生成决策树。在生成决策树时为了避免过拟合或者算法冗余添加剪枝算法，并抽取剩余15％样本作为模型测试集。重复上述过程直至生成“Ntree”即500棵决策树组成随机森林，训练过程用Gini系数来评价误差。由结果可知(见图5a－图5c)，优化随机森林模型的R²＝0.781，显著优于现行“黑箱”随机森林模型(R²＝0.419)和多元回归模型(R²＝0.308)。

进一步应用优化森林模型对决策树进行反推，实现对关键变量重要性的排序，结果如图6a－图6d所示。对于第I组(高污染风险管控区)子数据集，Pb，Cr，Ni，Zn，Cu，Fe、阳离子交换量，磷(P)、Fe和pH是影响BCF预测最重要的关键变量。对于第II组(中等污染风险管控区)子数据集，Zn，磷(P)，Cu，有机碳，Mg和Ca是影响BCF预测最重要的关键变量。对于第III组(轻度污染风险管控区)子数据集，Zn，P，有机碳，Mg，Ca，pH和K是影响BCF预测最重要的关键变量。对于第IV组(安全利用区)子数据集，有机碳，Zn，Ca，pH是影响BCF预测最重要的关键变量。

进一步应用优化森林模型对决策树进行反推，通过敏感性分析方法实现对关键变量重要性的排序，结果如图6a－图6d所示。对于第I组(高污染风险管控区)子数据集，Pb、Cr、Zn、Ni、Cu、Fe和CEC是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6a)；对于第II组(中等污染风险管控区)子数据集，Zn、P、Pb、Cr、Ni、CEC和Cu是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6b)；对于第III组(轻度污染风险管控区)子数据集，P、有机碳、Zn、CEC、Cr和Pb是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6c)；对于第IV组(安全利用区)子数据集，有机碳、CEC、P、Zn、pH、Cu、Fe、Ca和K是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6d)。因此，在对不同区域耕地进行重金属污染风险管控时，应根据不同的关键变量执行相应的污染防治措施，通过“一区一策”的方式实现小麦的安全生产。

更进一步的，通过实地踏勘和区域采样获取多源参数，采样点覆盖整个研究区(见图2a)。结合实验室分析建立小麦镉污染防治专题数据库，数据库涉及286个样品及21个监测指标(见表1)。结果发现区域土壤Cd含量变化幅度较大(0.280～17.8mg kg^-1)，变异系数高达131％。相应的，区域小麦籽粒Cd含量变化幅度也较大(0.03～0.95mg·kg^-1)，变异系数高达85.1％，58.3％的小麦籽粒样品超过国家粮食安全标准(0.1mg kg^-1，GB2762-2022)。小麦Cd富集系数(BCF，小麦籽粒Cd/土壤Cd含量)可以量化重金属Cd在土壤－小麦的转移过程，表征小麦Cd富集能力。研究区小麦Cd富集系数变异系数(38.7％)小于土壤Cd和小麦籽粒Cd，但其数值变幅也相差近10倍(0.045～0.354)。

表1研究区土壤－小麦系统环境因子

以构建的数据库为基础，采用传统的离差平方和方法(ward method)进行样点聚类，聚类结果如图2b

所示。由图2a－图2c可知，传统的离差平方和聚类法将数据分为11组，除第I组小麦Cd富集系数(0.218±0.0799)较高外，其他组小麦Cd富集系数并无显著性差异。另外，从空间分布特征来看，除研究区西北部样点分组较为均一外，其他组样点均分散在研究区不同位置。可见传统聚类法对大样本多指标数据进行分类的结果较为混乱，不确定性较大，且分类结果不利于农田重金属污染风险实际管控，也说明了非监督数据分析方法的缺点。

以构建的数据库为基础，应用模糊集理论对区域小麦田环境变量进行连续聚类。构建以区域小麦田环境变量为基础的286×21的模糊集(样点×指标，表1)，定义小麦Cd富集因子(BCF，小麦籽粒Cd含量/土壤Cd含量)为因变量。以国家粮食安全标准(0.1mg·kg^-1)和区域土壤Cd平均值为(1.37mg·kg^-1)为评估标准，计算得出区域小麦Cd富集因子(BCF)安全值为0.0073，并设定0.0073为模糊聚类固定控制参数α，以保证分类结果和区域风险管控目标措施相一致。

设定不同的模糊指数和模糊类别数量c，计算对应的模糊性能指数(FP)和分类熵(CH)，并绘制变化曲线(如图3a－图3c所示)。由结果可知，在不同模糊指数/>和模糊类别数量c设定下，区域数据模糊分类集的模糊性能指数(FP)和分类熵(CH)变化较大。当模糊度时，模糊性能指数(FP)和分类熵(CH)曲线均随着分类组别的增加表现为增加趋势，并在c>5后近似为波浪形线，在c>10后两条曲线逐渐形成直线(如图3a所示)；模糊度时，FP和CH曲线在总体上随着分类组别的增加表现为先下降后上升的趋势，但在由下降转为上升的过程中可出现多个谷值及峰值(如图3b所示)；模糊度/>时，FP和CH值的整体变幅变小，并在c>5后取值偏差较大(如图3c所示)。综上可知本案例中，模糊指数/>和模糊类别数量c的最优取值范围分别为/>且2<c≤5时(如图3a所示)。进一步构建一个相对于模糊指数/>和模糊类别数量c的派生函数/>并获取该派生函数与c和/>的交互关系图(图4)。可以明显看出，当c＝4，/>时，派生函数曲线的峰值最小，因此区域小麦镉富集系数模糊聚类的最优控制参数为c＝4，/>

在确定区域模糊数据集所对应的最优模糊指数和模糊类别数量后，开展模糊聚类，结果如图2c所示。由图2c可知，区域土壤－小麦系统镉富集风险可分为4个组别，对应的小麦Cd富集因子聚类中心分别是0.028、0.018、0.012和0.073。其中第I组样本小麦Cd富集因子均在0.028以上(BCF>0.028)，主要分布在研究区西北部、中东部和东南部(见图2c)。该区域范围与研究区铅镉冶炼基地分布区域基本一致，说明第I组样品Cd污染源主要来自于工业污染，为高污染风险管控区。第II组样本小麦Cd富集因子在0.018～0.028之间(BCF＝0.018～0.028)，主要分布在研究区北部和东北部部分地区并呈带状分布(见图2c)。调查发现该区域河流底泥存在严重的Cd污染现象，说明第II组样品Cd污染源主要来自于灌溉污染，为中等污染风险管控区。

第III组样本小麦Cd富集因子在0.012～0.0073之间(BCF＝0.0073～0.012)，主要分布在研究区西南地区(见图2c)。该区域农田灌溉水系与东北部农田灌溉水系不一，但位于西北部工业基地下风向，为轻度污染风险管控区。第IV组样品小麦Cd富集能力较低，样品小麦Cd富集因子大多小于0.0073(BCF<0.0073，模糊分类中设定的安全值)。该区域样品主要分布在研究区南部、东南部和西北河流以北地区(见图2c)，离工业区和污灌区较远，为安全利用区。与传统分类方法相比，基于模糊理论的连续分类结果更贴近实际结果。添加质控参数对模糊分类模型进行优化后，分区标准与风险管控目标更为接近，分区数量更为合适，分区样点呈块状或带状分布，方便区域小麦田Cd污染风险管控措施的制定和施行。

在模糊分类结果的基础上，构建基于决策树的随机森林模型并开展小麦Cd富集因子预测。随机森林模型构建中，“Ntree”和“mtry”这两个参数对模型训练结果影响较大，其中“Ntree”是随机森林中决策树的个数，“mtry”是树节点预选的变量个数。因此，为了获得最佳模拟结果有必要对进行优化。分别以4个风险区样本作为子数据集，设定第I组(高污染风险管控区)特征参数“mtry”为21(21个监测指标)，第II组(中等污染风险管控区)“mtry”为10(与小麦Cd富集因子显著相关的10个指标)，第III组(轻度污染风险管控区)“mtry”为6(与小麦Cd富集因子最为相关的前6个指标)，第IV组(轻度污染风险管控区)“mtry”为4(与小麦Cd富集因子最为相关的前4个指标)。四个子数据集决策树数量“Ntree”均设定为500，第I组和第II组最大深度设定为10，第III组和第IV组最大深度设定为4。分别以4个风险区样本作为子数据集，通过Monte Carlo随机抽样方法抽取训练样本，从每个子数据集中抽取数据集85％数据为训练集。同时，在每一个节点设定如“BCF是否满足该组的BCF分类标准”这样的特征参数+判别条件+数值形式的判别条件，直至训练样本全部被分配到叶节点生成决策树。在生成决策树时为了避免过拟合或者算法冗余添加剪枝算法，并抽取剩余15％样本作为模型测试集。重复上述过程直至生成“Ntree”即500棵决策树组成随机森林，训练过程用Gini值来评价误差。训练后获取测试集的决定系数(R²)和均方误差(RMSE)。同时，采用传统的“黑箱类”随机森林模型(未优化)和多源回归模型开展小麦Cd富集因子预测，各模型运行结果如图5a－图5c所示。

由结果可知(见图5a－图5c)，优化随机森林模型的R²＝0.781，显著优于现行“黑箱”随机森林模型(R²＝0.419)和多元回归模型(R²＝0.308)。与优化随机森林模型相比，现行“黑箱”随机森林模型预测精度较低，容易高估小麦Cd富集因子水平，并忽视了轻度污染区和安全利用区环境变量对小麦Cd富集因子的影响(见图5a和图5b)。这种不确定性是由于随机森林模型为黑箱模型，侧重预测结果却忽视了数据结构，容易造成局部最优的情况。而本研究提出的优化森林模型耦合了模糊分类结果、环境变量特性和实际管理需求，模型表现更加稳健，预测更为精准，结果更具解释性。

进一步应用优化森林模型对决策树进行反推，实现对关键变量重要性的排序，结果如图6a－图6d所示。由图6a可知，对于第I组(高污染风险管控区)子数据集，Pb、Cr、Zn、Ni、Cu、Fe和CEC是影响BCF预测最重要的关键变量(变量重要性〉0.05)。该结果进一步说明该区域铅冶炼活动与小麦重金属富集趋势关系密切，在风险调控时应侧重污染源控制措施及重金属活性控制两方面。一方面通过引导工矿企业合理布局，提升除污技术，以降低工矿活动对小麦生长的影响。另一方面，通过撒施土壤调理剂(如锌肥、Fe基生物炭等)，以增加该区域农田土壤对重金属的吸附，降低重金属活性和小麦Cd富集趋势。

对于第II组(中等污染风险管控区)子数据集，Zn、P、Pb、Cr、Ni、CEC和Cu是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6b)。该区域受工矿企业活动、河流污染和农田投加物影响较大，在风险调控时应侧重在工矿企业优化布局、灌溉水清洁、磷肥控制和微肥施用等4方面。其中，Zn与Cd化学性质相似，在小麦吸收转运过程中共用相同转运体，存在广泛的拮抗作用，而施用P肥等肥料对区域农田土壤Cd的贡献率高达30.8％。因此，增施富Zn微肥或有机肥，并控制该区域P肥施用量，提升土壤有机质和微量元素含量，有助于降低小麦Cd富集趋势。

对于第III组(轻度污染风险管控区)子数据集，P、有机碳、Zn、CEC、Cr和Pb是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6c)。土壤CEC通过影响土壤水合氧化物、粘土矿物、有机质表面负电荷数量，来影响土壤Cd生物有效性。因此，该区域可通过增施微肥、有机肥及碱性钝化剂以提升土壤有机质、微量元素含量和土壤CEC，以进一步降低该区域小麦Cd富集趋势。对于第IV组(安全利用区)子数据集，有机碳、CEC、P、Zn、pH、Cu、Fe、Ca和K是影响BCF预测最重要的关键变量(变量重要性〉0.05)(见图6d)。该区域可通过增施有机肥，进一步提升土壤有机质和微量元素含量，以继续保持该区域小麦的安全生产。

基于以上分析结果，应用所构建模型，对不同区域开展多场景模拟，量化不同调控措施的应用效率。以第I组(高污染风险管控区)和第II组(中等污染风险管控区)为案例。中国科学院生态环境研究中心在我国北方小麦产区的研究表明通过引导工矿企业合理布局和提升除污技术等大气污染管控措施可降低30％的土壤重金属输入量，增施富Zn微肥等土壤拮抗剂可通过拮抗作用降低20％的小麦籽粒Cd富集量。应用所构建的随机森林模型，模拟大气污染管控措施应用后高污染风险管控区小麦Cd富集因子变化趋势，以及增施富Zn微肥后中等污染风险管控区小麦Cd富集因子变化趋势，模拟结果如图7a－图7b所示。由图7a－图7b可知，场景模拟R²＝0.621～0.729，且大部分预测值均在95％置信区间内，可见所构建的随机森林模型在场景预测中表现较好。模型模拟结果大气污染管后，高污染风险管控区小麦Cd籽粒含量下降31.2％。而中等污染风险管控区通过大气管控和施加富Zn微肥后，小麦Cd籽粒含量下降52.5％，该优化措施在随后的大田实验中进一步得到证实。

基于以上分析结果，应用所构建模型，对不同区域开展多场景模拟，量化不同调控措施的应用效率(见图7a－图7b)。以第I组(高污染风险管控区)和第II组(中等污染风险管控区)为案例，发现所构建的随机森林模型在场景预测中表现较好(R²＝0.621～0.729，见图7a－图7b)。其中，高污染风险管控区小麦Cd籽粒含量下降31.2％。而中等污染风险管控区通过大气管控和施加富Zn微肥后，小麦Cd籽粒含量下降52.5％，该优化措施在随后的大田实验中进一步得到证实。

综上可知，基于模糊集理论和随机森林的农作物重金属富集风险量化模型能够充分利用现有大数据集进行数据解析，模拟过程不确定性更小，模拟结果更为精准，相较于传统模型其适用性更广，应用潜力更大，并可对农田重金属污染防治对策制定提供更为有效和灵活的结果支撑，保障粮食的安全生产。

本实施例还公开了一种农作物重金属富集风险量化系统，包括：

最后本实施例公开了一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，计算机程序被处理器执行时实现任意一项的一种农作物重金属富集风险量化方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种农作物重金属富集风险量化方法，其特征在于，包括以下步骤：

获取研究区的地理参数，筛选后形成多元数据集；

基于国家土壤环境质量标准和数据分布特征，构建模糊聚类模型对多元数据集进行分组分级；模糊聚类模型的数据集分组方案的具体公式如下：

其中，F(X_i，c)表示基于模糊集理论的富集因子分组方案，μ_ik为第i个样点的小麦Cd富集因子对于第k个聚类类别的隶属度，d² _ik为第i个样点富集因子与第k个类别中心之间的距离模数，n表示样点数，c表示模糊类别数量，表示模糊指数；

应用范围优化法和目标函数优化法两种方式对c和进行参数优化：构建模糊性能指数和分类熵判定参数c和/>的取值范围，通过设定不同的模糊指数/>和模糊类别数量c，得到模糊性能指数和分类熵的变化曲线；当两条曲线变化一致，变幅较小且逐渐形成平滑直线时所对应的参数集为模糊指数/>和模糊类别数量c的最优参数取值范围；

模糊性能指数和分类熵的具体公式如下：

其中，FP为模糊性能指数，CH为分类熵；

以分组分级后的数据集为基础，以农作物重金属富集因子为目标变量，建立基于决策树的多组别随机森林模型：将经模糊分类后的原土壤－小麦重金属污染概况模糊集X进一步划分为c个子数据集X_c；定义分类后的小麦Cd富集因子BCFF为因变量，定义相应的土壤理化性质V_i为自变量，构建随机森林模型预测方程：

式中BCFF_i表示模糊分类后的第i组(i＝1，2，3，c)样品的小麦Cd富集因子，α_i表示拟合常数，n表示第i组样本量，β_i(i＝1,2,3,n)表示拟合参数，V_i表示土壤理化性质，包括土壤pH、黏粒含量、阳离子交换量、有机质、碱解氮，无定型Fe、无定型Mn、土壤磷和土壤锌；

基于数据集X_c通过循环训练和参数优化建立基于决策树的随机森林模型；

2.根据权利要求1所述的一种农作物重金属富集风险量化方法，其特征在于，所述地理参数包括水文、气候、土壤理化性质和农作物重金属含量。

3.根据权利要求1所述的一种农作物重金属富集风险量化方法，其特征在于，定义派生函数具体为：

当取值最小时对应的c值为最优模糊类别数，在选定c值的情况下，/>曲线峰值最大处的/>值为最优模糊指数。

4.一种农作物重金属富集风险量化系统，其特征在于，包括：

模糊聚类模型的数据集分组方案的具体公式如下：

模糊性能指数和分类熵的具体公式如下：

其中，FP为模糊性能指数，CH为分类熵；

多组别随机森林模型建立模块：用于以分组分级后的数据集为基础，以农作物重金属富集因子为目标变量，建立基于决策树的多组别随机森林模型：将经模糊分类后的原土壤－小麦重金属污染概况模糊集X进一步划分为c个子数据集X_c；定义分类后的小麦Cd富集因子BCFF为因变量，定义相应的土壤理化性质V_i为自变量，构建随机森林模型预测方程：

5.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-3中任意一项所述的一种农作物重金属富集风险量化方法的步骤。