CN116166923A

CN116166923A - 基于地统计分析与apls-mlr的土壤重金属来源解析方法

Info

Publication number: CN116166923A
Application number: CN202211587357.5A
Authority: CN
Inventors: 王安慧; 冯梓义; 任东; 任顺; 肖敏; 安毅; 霍莉莉
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2022-12-11
Filing date: 2022-12-11
Publication date: 2023-05-26

Abstract

本发明涉及基于地统计分析与APLS‑MLR的土壤重金属来源解析方法，包括：对研究区域的土壤进行采样，测量土壤样本中重金属的含量，并进行预处理；利用克里金插值方法分析得到研究区域的土壤重金属空间含量分布特征图；对研究区域的重金属浓度数据采用偏最小二乘法进行分析；建立用于土壤重金属污染源解析的绝对偏最小二乘‑多元线性回归法受体模型；结合土壤重金属空间含量分布特征图和各污染源贡献率，推断确定具体的污染源。本发明方法不仅能计算确定污染源数量以及各个污染源的贡献率，还能准确确定具体的污染源；本发明提出的受体模型的APLS‑MLR方法，解决了APCS‑MLR方法中主成分分析时特征值的分解具有局限性的问题。

Description

基于地统计分析与APLS-MLR的土壤重金属来源解析方法

技术领域

本发明属于土壤重金属分析领域，具体涉及一种基于地统计分析与APLS-MLR的土壤重金属来源解析方法。

背景技术

随着工业化的快速发展和城市化进程加快，土壤重金属污染愈发严重，2014年发布的《全国土壤污染状况调查公报》指出我国土壤状况总体不容乐观，尤其是耕地土壤环境质量堪忧，全国土壤点位超标率高达16.1％。土壤重金属污染不仅会降低土壤活性，降低农产品产量，还会通过食物链进入人体，对人体健康造成危害。农田土壤污染来源识别是农田土壤重金属污染预防和治理修复的基础。因此开展农田土壤重金属污染来源的定量解析方法，成为解决土壤重金属污染问题的关键和基础。

目前，对于土壤重金属源解析存在两种层次，一是定性的判别主要污染来源类型，即源识别；二是不仅定性的分析污染来源，而且定量的计算不同污染来源的贡献率，即源解析，研究人员通常将两者统称为源解析。目前对于重金属源解析模型主要分为两大类：一是以污染源为研究对象的扩散模型，扩散模型法是从污染源出发，根据污染源排放清单和污染物传输过程来评估不同源类对受体的贡献。但其受到复杂的气象条件和化学过程变化的影响，模型预测结果的误差较大，模型预测的效果往往不尽人意。二是以污染区域为研究对象的受体模型。目前常用的受体模型主要包括绝对主成分-多元线性回归(Absoluteprincipal component multiple linear regression，APCS-MLR)、正定矩阵因子分解法(Positive Matrix Factorization，PMF)、化学质量平衡法(Chemical Mass Balance，CMB)、同位素标记法和Unmix模型等。这些模型在定量源解析上都取得了不错的效果。

源解析的研究最初是针对大气环境中颗粒物来源开展的，现已逐步形成比较完整的大气污染源解析技术体系：污染源清单-空气质量扩散模型-受体模型。与大气污染不同，土壤污染的隐蔽性、累积性、地域性等复杂特征使得土壤污染物来源解析的研究受到较大的限制。壤重金属污染问题具有较高的复杂性和更大的不确定性。

APCS-MLR受体模型法应用在土壤重金属源解析较少见。该模型将主成分分析PCA与多元线性回归分析MLR相结合，可以通过PCA定性的分析每个主成分所对应的污染源，还可以定量确定源对其重金属的平均贡献量和在每个采样点的贡献量。但是APCS-MLR受体模型进行主成分分析时特征值的分解存在一定的局限性，且结果缺乏可视化效果，不能准确预测污染源的指纹谱图，对模型结果的解释准确性不够。难以分析确定具体的污染源或污染源类型。

偏最小二乘回归是一种新型的多元统计分析方法，它利用了因变量和自变量的信息，结合了多元线性回归、主主成分分析和典型相关性分析等多种功能为一体，同时将建模预测类型的数据分析方法与非模式的数据认识性分析方法结合在一起，可以更好地识别污染源，提高源解析的准确率。

因此，研究一种基于地统计分析与受体模型方法相结合的土壤重金属来源解析方法，采偏最小二乘回归对APCS-MLR受体模型方法进行改进。

发明内容

本发明的技术问题是绝对主成分-多元线性回归方法APCS-MLR相比扩散模型法在定量源解析上预测效果更好，但较少用于土壤重金属源解析；同时，APCS-MLR受体模型进行主成分分析时特征值的分解存在一定的局限性，且结果缺乏可视化的直观效果，难以分析确定具体的污染源或污染源类型。

本发明的目的是利用偏最小二乘回归对绝对主成分-多元线性回归方法进行改进，提出绝对偏最小二乘回归-多元线性回归方法(Absolutely Partial Least Squares-Multiple Linear Regression，APLS-MLR)，用于土壤重金属来源解析；并将地统计分析重金属空间分布特征图与APLS-MLR方法相结合，提高源解析的准确性和源解析结果的直观性，以便于进一步地分析确定污染源的性质。

本发明的技术方案是基于地统计分析与APLS-MLR的土壤重金属来源解析方法，包括以下步骤：

步骤1：对研究区域的土壤进行采样，测量土壤样本中重金属的含量，对测量得到的原始数据进行预处理；

步骤2：利用克里金插值方法分析得到研究区域的土壤重金属空间含量分布特征图，识别出土壤污染源；

步骤3：对研究区域的重金属浓度数据采用偏最小二乘法进行分析；

步骤4：建立用于土壤重金属污染源解析的绝对偏最小二乘-多元线性回归法受体模型；

步骤4-1：计算每个土壤样本的绝对偏最小二乘法得分；

偏最小二乘法得分是以土壤重金属浓度做为自变量，经偏最小二乘法分析所得到的主因子系数矩阵与标准化后的重金属含量矩阵做矩阵乘法运算得到；

由每个土壤样本的偏最小二乘法得分与0浓度样本的偏最小二乘法得分做减法运算，得到每个样本的绝对偏最小二乘法得分；

步骤4-2：将绝对偏最小二乘法得分作为自变量，重金属浓度作为因变量，做多元线性回归分析得到回归系数与回归常数项；

利用得到的回归系数将样本的绝对偏最小二乘法得分转化为主成分对应的污染源对每个样本的浓度贡献；

步骤4-3：计算得到各个主成分对应的污染源贡献率；

步骤5：结合步骤2的土壤重金属空间含量分布特征图和绝对偏最小二乘-多元线性回归法受体模型解析的污染源数量以及各个污染源的贡献率，推断确定具体的污染源。

优选地，步骤1中，采用EXCEL软件对原始数据进行预处理，剔除明显有误的属性值，原始数据中的缺失值利用平均值填补。

优选地，步骤2中，利用ArcGIS软件创建数据的直方图，对不符合正态分布的数据进行对数变换，应用克里金插值方法绘制土壤重金属空间含量分布特征图，分析出潜在污染源。

进一步地，步骤3具体包括以下子步骤：

步骤3-1；标注化原始数据；

E₀＝(e_ij)_n×p

F₀＝(f_ij)_n×q

其中E₀为标准化的自变量矩阵，F₀为标准化的因变量矩阵，e_ij表示自变量矩阵的元素值，f_ij表示因变量矩阵的元素值，n表示样本的数量，p表示自变量的数量，q表示因变量的数量；X_ij表示样本的自变量的真实值，μ_j表示第j个自变量的样本的均值，SX_j表示第j个自变量的多样本的方差，Y_ij表示样本的因变量的真实值，v_j表示第j个因变量的多样本的均值，SY_j表示第j个因变量的多样本的方差；

步骤3-2：第一轮主成分提取；

步骤3-2-1：提取自变量第一主成分，对矩阵E₀ ^TF₀F₀ ^TE₀进行特征分解；

t₁＝E₀·w₁ (3)

其中t₁表示自变量第一个主成分，w₁表示最大特征值所对应的单位特征向量；

步骤3-2-2：提取因变量第一主成分，对矩阵F₀ ^TE₀E₀ ^TF₀进行特征分解；

u₁＝F₀·c₁ (4)

其中u₁表示因变量第一个主成分，c₁表示最大特征值所对应单位特征向量；

步骤3-2-3：求残差矩阵

E₁＝E₀-t₁·p₁ ^T (5)

F₁＝F₀-t₁·r₁ ^T (6)

其中E₁、F₁分别表示自变量矩阵、因变量矩阵的残差矩阵；p₁表示第一次提取主成分时自变量的回归系数向量；r₁表示第一次提取主成分时因变量的回归系数向量。

式(5)中

式(6)中

步骤3-3：新一轮主成分提取；

令E₀＝E₁，F₀＝F₁，利用步骤3-2的主成分提取方式，对残差矩阵进行新一轮的主成分提取；

t_h＝E_h-1·w_h (7)

u_h＝F_h-1·c_h (8)

E_h＝E_h-₁-t_h·p_h ^T (9)

F_h＝F_h-1-t_h·r_h ^T (10)

式(7)中，下标h表示第h次主成分提取，t_h表示自变量第h个主成分，w_h表示第h次提取主成分时，自变量残差矩阵最大特征值所对应的单位特征向量，E_h-1、E_h分别表示第h、h+1次提取主成分时的自变量残差矩阵。

u_h表示因变量第h个主成分，c_h表示因变量残差矩阵最大特征值所对应的单位特征向量，F_h-1、F_h分别表示第h、h+1次提取主成分时的因变量残差矩阵；p_h表示第h次提取主成分时自变量的回归系数向量；r_h表示第h次提取主成分时因变量的回归系数向量。

式(9)中

式(10)中

步骤3-4：完成主成分提取，根据交叉有效性确定所提取的主成分的数量；

步骤3-4-1：将因变量y_k的成分t_h交叉有效性

定义为：

其中PRESS_hk为因变量y_k的预测误差平方和，SS_(h-1)k为y_k的误差平方和；

其中n表示样本的数量，y_ik为y_k在样本点i上的实际值，y_hk(-i)为y_k在样本点i上的拟合值；y_(h-1)ki为第i个样本点的预测值；

步骤3-4-2：将因变量Y的成分t_h交叉有效性

定义为：

式中q表示因变量的数量，PRESS_h表示Y的预测误差平方和；SS_(h-1)表示Y的误差平方和；

步骤3-4-3：确定最优主成分数；根据成分t_h交叉有效性

最大时所对应的h值，从而确定最优的主成分个数r。

步骤4中，主成分对应的污染源对每个样本的浓度贡献的计算式如下：

式中P表示主成分的数量，c_i为第i种重金属的浓度，b_io为多元线性回归的常数项，b_pi为多元线性回归的回归系数，APLS_p为主成分p的绝对偏最小二乘法得分；

b_pi×APLS_p为主成分p对于c_i的含量贡献，所有样本的b_pi×APLS_p平均值即为主成分p对应的污染源平均绝对贡献量；

主成分p对应的污染源贡献率为其平均绝对贡献量与所有源贡献量的比值。

进一步地，步骤5中，根据步骤2得到的地土壤重金属空间分布特征图和步骤3中基于偏最小二乘法得到的主成分矩阵以及步骤4中得到污染源因子的贡献率，结合对研究区域的实地考察和验证，推断确定研究区域的具体污染源。

相比现有技术，本发明的有益效果包括：

1)本发明方法将受体模型与地统计分析相结合，不仅能计算确定污染源数量以及各个污染源的贡献率，还能准确确定具体的污染源，有利于开展农田土壤重金属污染防治和治理工作。

2)本发明将绝对偏最小二乘法与多元线性回归方法相结合，提出了受体模型的APLS-MLR方法，解决了APCS-MLR方法中主成分分析时特征值的分解具有局限性的问题，本发明的APLS-MLR将绝对偏最小二乘法得分作为自变量，重金属浓度作为因变量，做多元线性回归分析，利用得到的回归系数将样本的绝对偏最小二乘法得分转化为主成分对应的污染源对每个样本的浓度贡献，提高了模型回归效果，计算得到的污染源贡献率准确性更好。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的土壤重金属来源解析方法的流程示意图。

图2为本发明实施例计算得到的研究区域的土壤重金属As含量空间分布图。

图3为本发明实施例计算得到的研究区域土壤重金属Hg含量空间分布图。

图4为本发明实施例计算得到的研究区域土壤重金属Cr含量空间分布图。

图5为本发明实施例计算得到的研究区域土壤重金属Hg含量空间分布图。

图6为本发明实施例计算得到的研究区域土壤重金属Pb含量空间分布图。

图7为本发明实施例计算得到的不同污染因子对重金属累积的贡献率的示意图。

具体实施方式

如图1所示，基于地统计分析与APLS-MLR的土壤重金属来源解析方法，包括以下步骤：

步骤1：对原始数据进行预处理，在研究区域布设采样点后，测量土壤样本中重金属的含量，再通过EXCEL软件对数据进行预处理，剔除存在明显有误的属性值，缺失值通过平均值来代替。

实例数据中发现Hg、Cd和Pb存在少量缺失值，最终用其总金属平均值来代替；发现样本中存在个数的异常值，综合考虑，由于布点采样合理、样品处理步骤严谨、检测仪器精准，所测重金属含量并无差错性，对于个少数的异常值采取保留的方式。

步骤2：利用克里金插值方法分析研究区域土壤重金属空间分布特征，识别出土壤污染源；分析重金属浓度含量在研究区域空间上的变化，识别出土壤重金属潜在的污染来源。

通过采用普通克里金插值生成各总金属的空间分布图，普通克里格插值平均误差(ME)接近于0，证明预测值是精确的。均方根标准误差(RMSSE)值在0.968-1.032之间，表明标准误差是准确的。实施例得到的重金属的空间分布结果如图2-6所示。

步骤3：对研究区域重金属浓度数据进行偏最小二乘法分析，最终经过交叉有效性确定所提取的主成分个数；所得到主成分与五种重金属的系数矩阵如表1所示：

表1 主成分与重金属的系数矩阵表

步骤4：建立土壤重金属污染源解析APLS-MLR受体模型；根据得到的回归系数与回归常数项，通过计算得到各重金属的最终贡献率。实验结果如表2所示：

表2 污染源对重金属的贡献数据表

步骤5：根据地统计分析的重金属空间分布特征识别的污染源及APLS-MLR受体模型解析的污染源及其贡献率，结合对研究区域的实地考察和验证，确定明确的污染源及贡献率。

在主成分1中，As和Pb占较大的占比。根据普通克里金空间插值总金属含量的特征图可以看出，As和Pb空间分布较为相似，根据实际调查，在研究区域的最南部和最北部存在大量的化工企业，且该地区被长江支流由南向北所贯穿，因此可以分析出源1污染源为化工污染；由Pb的含量空间分布图可以看出，高值区域存在研究区域南部，而研究区域南部为交通枢纽中心，故推断源1为交通污染源和化工灌溉水排放源的混合源。

在主成分2中。载荷较大的重金属有Cr，由图4可知研究区域重金属Cr几乎不存在污染，大量研究表明成土母质是造成Cr污染的最主要的原因，故推断源2为“自然源”。

在主成分3中，载荷较大的重金属有Hg和Cd，从空间分布看，由图2可以看出，Hg高值区分布集中，主要分布在研究区域东部，与低值区有明显界限，Hg元素变异系数为75％，属于中高度变异，表明污染区域受人为影响因素较大。调研发现高值区有河流以及灌溉渠经过，河流周边存在排放Hg废水的企业，故推测高值区土壤Hg的累积可能是长期河流污灌所造成的。且Hg和Cd元素常常被用于农药制造和使用，因此可以推断故源3为“农业源”最终研究区域稻田土壤重金属污染源贡献率如图7所示。

本发明通过实用案例进行分析，根据分析所得到的各总金属土壤重金属含量空间分布特征图和主成分矩阵，结合研究区域的实地考察，定性的分析出具体的污染源，最后根据APLS-MLR受体模型，实现对农田土壤重金属的来源解析，得到了各个污染源的贡献率。