CN112785450B

CN112785450B - 一种土壤环境质量分区方法及系统

Info

Publication number: CN112785450B
Application number: CN202011604894.7A
Authority: CN
Inventors: 潘瑜春; 刘佳斌; 郑顺安; 郜允兵; 杨晶; 赵亚楠; 周艳兵; 刘振民; 陈其永
Original assignee: Beijing Research Center for Information Technology in Agriculture
Current assignee: Beijing Research Center for Information Technology in Agriculture
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-12-07
Anticipated expiration: 2040-12-30
Also published as: CN112785450A

Abstract

本发明提供一种土壤环境质量分区方法及系统，该方法包括：基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；采用地理探测器，筛选出土壤环境质量主要影响指标；建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案；以最佳预分类方案构建高斯混合模型，通过EM算法对高斯混合模型中表示样点类别的隐变量参数进行估算，得到监测点的初始分类；基于监测点相应泰森多边形获得初始分区，并结合目标区域的自然边界信息，对目标区域进行最终分区。本发明以监测点的土壤环境质量综合特征为基础，构建了基于EM算法的高斯混合模型，实现了基于高维属性特征的土壤环境质量的综合分区。

Description

一种土壤环境质量分区方法及系统

技术领域

本发明涉及农业和计算机技术领域，尤其涉及一种土壤环境质量分区方法及系统。

背景技术

土壤重金属的影响因素分为自然因素和人为因素，自然因素以土壤母质母岩为主，人为因素可分为工业源(如采矿、冶炼、燃煤、交通等)、农业源(肥料、农药、灌溉水等)以及生活源(交通、生活废水、生活垃圾、燃煤等)。土壤母质母岩及成土条件是引起背景值区域差异性的主因。气候、生物、地形地貌等因素在成土过程和搬运转移起到重要作用，影响了土壤重金属的地带性分布。工矿企业生产、农业生产投入是造成土壤污染的主因。工矿企业生产通过工业废水、废气、固体废弃物等形式进入农田土壤，其影响的时空范围与企业场地、河流、风力风向、降水等存在相关性，影响范围以企业位置呈面状扩散分布或者依河流呈条带分布的特征，其作用范围可达数公里。农业生产中由于污水灌溉、化肥农药以及畜禽粪便等施用也带来大量的污染。

污水灌溉的农田空间分布格局与排污河流、污水排放性企业的空间分布特征紧密相关，在空间上往往呈现面片状或宽条带状的空间分布特征。对于一个区域来讲，土壤重金属往往受自然因素或者人为因素的共同或交互作用。土壤环境质量空间分布具有较为明显的分层异质性，表现为受污染耕地环境质量往往区别于其它农田区。

因此，对土壤环境质量分级分类分区符合了土壤污染的客观性和环境质量管理的人为性。充分挖掘土壤监测调查数据中蕴含的分级分类分区信息，有利于土壤环境质量的区域化评价，同时也有利于区域土壤污染的分区治理措施的落实与实行。

目前对于全国尺度上的综合自然区划、农业种植区划、地貌区划、土壤环境质量区划等主要是基于传统的区划理论进行划分。然而，县域尺度上土壤重金属质量分区其目的在于将人为和自然因素作用下的非平稳的区域环境质量变量划分到若干相对均匀的子区域，使得各个子区域内部相对均匀，而子区域之间差异显著，进而为区域环境质量的统计及环境质量的管理措施落实提供技术基础。比如区域土壤重金属均值估计，区域土壤重金属污染分区防治和靶向修复治理、农业产业结构调整等。目前常用分区实现方法主要基于土壤环境质量影响因素分区和基于土壤环境质量监测调查数据的空间聚类等两种分区方法。其中基于多维土壤环境质量影响因素如土壤类型、地形地貌、企业聚集等辅助数据存在数据尺度多变、相似性刻画难、数据空间尺度和时间尺度及数据精度准确度差等问题，往往分区效果不佳。

土壤环境质量监测调查点位数据其自身蕴含了自然因素、人为活动因素的共同或交互作用，本质上是区域环境质量的综合反映结果。因此，在区域土壤环境监测点采样强度较高情况下，直接对监测点上主要污染指标进行空间上和属性值域的聚类分组，确保类内子集之间的紧密性、类间的分离性不失为一种解决方案。常用的空间聚类方法可以分为基于划分的方法、基于层次的方法、基于密度的方法和基于格网的方法。不同空间聚类分析方法适用条件并不相同，在实际应用时各有其优点与不足。基于土壤环境监测点的聚类分析工作中，需结合监测数据的多维属性特征、空间分布特点以及环境影响因素时空特征，选择合适的聚类方法和模型，分析并挖掘土壤环境质量总体的空间分布特征和土壤环境质量分区模式。因此，如何基于土壤环境质量监测调查数据的特征，优选适合的聚类模型和参数解算方法，形成科学、有效且客观准确的质量分区方法，是当前土壤环境质量评价、土壤环境质量防治与修复中的一项重要议题。

目前土壤环境质量分区常用的方法有：(1)局部Moran’s I指数法。该方法是监测点空间聚集和局部异常识别的算法，通过监测点在局部空间范围内其它要素属性值的相关关系，有效识别监测调查点的局部聚集模式，“高-高”集聚，“低-低”集聚，“高-低”异常区，“低-高”异常区四类固定的空间模式，四类空间模式仅表达监测点的污染指标值得高低差异，同时容易将局部噪声当作局部异常区，使得土壤环境质量分层异质性失真，如图1所示。(2)K-均值家族聚类。该方法本质上是根据土壤监测点间的距离作为判定该点划分到某个聚类中心准则，对各聚类中心的监测点在各聚类中心的移动进行迭代求解。由于每个人对研究区环境质量的认识程度并不一致，初始聚类个数的确定存在一定随意性。同时，在环境质量变异系数波动较大的区域聚类时，该方法随机初始化聚类中心也容易使聚类结果陷入局部最优解困境。(3)双重自组织神经网络聚类。该方法在聚类中同时考虑了属性相近和空间相邻，基于自组织特征映射神经网络方法进行空间点的聚类，形成对整个研究区的分层。该聚类方法中的混合距离是由人为对空间距离和属性距离进行加权构成，监测样点向量的相似性计算具有一定的主观性。

因此，以上现有技术均不能很好的满足土壤环境质量分区的需求，亟需一种新的土壤环境质量分区方法。

发明内容

本发明提供一种土壤环境质量分区方法及系统，用以解决现有技术中传统方法无法很好满足土壤环境质量分区的缺陷，实现土壤环境的精确分区。

本发明提供一种土壤环境质量分区方法，包括：

基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；

采用地理探测器识别所述土壤环境质量综合特征与预设环境影响因素的分层异质性，筛选出土壤环境质量主要影响指标；

根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案；

以所述最佳预分类方案对构建的高斯混合模型进行初始化，通过期望最大化(Expectation-Maximum，简称EM)算法对所述高斯混合模型中表示样点类别的隐变量参数进行估算，得到所述监测点的初始分类；

基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区。

根据本发明提供一种的土壤环境质量分区方法，所述根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案，包括：

基于所述监测点的土壤环境质量综合特征和所述土壤环境质量主要影响指标，获取所述目标区域的预分类方案，所述预分类方案中包含所述监测点的类别个数；

根据所述预分类方案的贝叶斯信息准则指数，从所有预分类方案中筛选出最佳预分类方案；

将所述最佳预分类方案中的监测点的类别的个数作为所述最佳预分类方案。

根据本发明提供一种的土壤环境质量分区方法，所述基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区，包括：

根据所述监测点的初始分类和泰森多边形划分法，对所述目标区域进行划分，获取初始分区结果；

基于所述初始分区结果、所述目标区域的人为和自然边界，对所述初始分区结果进行优化，获取所述目标区域的最终分区结果。

根据本发明提供一种的土壤环境质量分区方法，所述根据所述监测点的初始分类和泰森多边形划分法，对所述目标区域进行划分，获取初始分区结果，具体包括：

基于泰森多边形划分法对所述目标区域进行划分，获取所述监测点对应的泰森多边形；

将所述监测点的类别作为对应泰森多边形的每条边的聚类属性；

将互为邻域且具有相同聚类属性的泰森多边形进行合并，获取所述初始分区结果，所述邻域为具有相同聚类属性的共享边的泰森多边形。

本发明还提供一种土壤环境质量分区系统，包括：

主成分分析模块，用于基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；

环境质量影响模块，用于采用地理探测器识别所述土壤环境质量综合特征与预设环境影响因素的分层异质性，筛选出土壤环境质量主要影响指标；

最佳初始化模块，用于根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案；

初始分类模块，用于以所述最佳预分类方案对构建的高斯混合模型进行初始化，通过期望最大化(Expectation-Maximum，简称EM)算法对所述高斯混合模型中表示样点类别的隐变量参数进行估算，得到所述监测点的初始分类；

分区模块，用于基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述土壤环境质量分区方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述土壤环境质量分区方法的步骤。

本发明提供了一种土壤环境质量分区方法及系统，基于对人为活动、自然活动影响叠加下的土壤环境格局进行高密度土壤监测，采用主成分分析提取多种土壤重金属类型的含量数据的综合特征，实现了土壤环境质量的综合分区；并综合考虑环境影响因素的效应，对构建的高斯混合模型进行初始化分类，实现土壤监测调查点的稳定、精细分类，从而以泰森多边形划分法实现“由点到面”的区域化土壤环境质量分区。

相比传统的土壤环境质量分区方法，该方法在定量分析手段下实现局部地区上的土壤环境质量精细区划，为土壤环境质量分区提供一种新方案，具有较强的应用普遍性，能为土壤环境质量区划工作中的环境质量评价、土壤环境质量防治与修复提供更有力的技术支撑。同时该方法能很好的应用于实际操作中，为土壤环境质量本地化分区提供了一种可软件化实现的标准方法。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中基于局部莫兰指数的聚类示意图；

图2为本发明提供的一种土壤环境质量分区方法的流程图；

图3为本发明提供的一种土壤环境质量分区方法的技术框图；

图4为本发明中对监测点进行主成分分析法的变换示意图；

图5为本发明中土壤环境质量主要影响指标筛选示意图；

图6为本发明中预分类方案选取最佳预分类方案的示意图；

图7为本发明中高斯分布混合过程示意图；

图8为本发明中利用高斯混合模型对监测点进行聚类的示意图；

图9为本发明中土壤环境质量分区结果示意图；

图10为本发明提供的一种土壤环境质量分区系统的结构示意图；

图11为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例针对工矿企业集聚性排放、设施农业高投入等高强度人为活动和地质高背景等交互作用引起的复杂区域，提出一种针对农产品产地的土壤环境质量分区方法，基于区域高密度的土壤重金属监测点，采用高斯混合模型对研究区进行分类分区，以其为区域土壤环境质量精准防控、靶向修复治理提供技术依据。

本发明实施例提供的一种土壤环境质量分区方法，如图2所示，该方法包括：

110，基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；

120，采用地理探测器识别所述土壤环境质量综合特征与预设环境影响因素的分层异质性，筛选出土壤环境质量主要影响指标；

130，根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案；

140，以所述最佳预分类方案对构建的高斯混合模型进行初始化，通过期望最大化(Expectation-Maximum，简称EM)算法对所述高斯混合模型中表示样点类别的隐变量参数进行估算，得到所述监测点的初始分类；

150，基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区。

目标区域即为需要进行土壤环境质量分区的区域，本发明实施例针对受工矿企业、农药化肥高投入、土壤高背景单独或综合影响下采样密度高土壤监测点。

在目标区域的不同地方布测监测点，通过监测点提取到的土壤样本来代表该目标区域中的土壤环境质量，一般监测点的数量为多个。

土壤环境质量综合特征是指能够代表目标区域中的土壤环境质量的主要特征，通过该特征向量，可以表示监测点处的土壤环境质量。

由于空间聚类分析可以得到土壤监测点的分类结果。由于区域土壤重金属污染受工矿企业的废水、废气排放，农药化肥过量施用、土壤高背景(土壤成土过程的母质母岩、地形地貌、河流风沙搬运等)等因素影响，在空间上表现为分层分异性，因而表达区域生态环境综合情况的高密度监测点之间也将存在较大的差异性，在人为采样误差、不同环境因素的综合影响下，总体的概率密度图(大样本下近似频率分布图)通常为右偏态分布，该分布难以通过对数转换、Cox-Box等进行正态变换。

假定目标区域内具有相似土壤环境质量状况的分区Z₁受同一质量分区环境效应影响，该分区内样点满足的数学期望μ₁、方差σ₁的正态分布函数。若整个目标区域由上述多个分区组成，则目标区域总体可看作是多个不同数学期望、方差的正态分布环境效应下的组合。土壤环境效应作用下样本点分类情况是隐变量，无法直接获取。

并根据样点在土壤环境质量主要影响指标下的分类关系，建立一系列初始化预分类方案，并计算每个方案的贝叶斯信息准则，从所有的初始化预分类方案中确定最佳预分类方案。

将确定的最佳预分类方案作为构建的高斯混合模型的初始化条件，并以目标区域中监测点的土壤环境质量综合特征为基础，构建高斯混合模型，并利用EM算法对高斯混合模型进行求解，得到监测点的初始分类。

EM算法是最常见的隐变量估计方法，在机器学习中有极为广泛的用途，例如常被用来学习高斯混合模型(Gaussian mixture model，简称GMM)的参数，隐式马尔科夫算法(HMM)、LDA主题模型的变分推断等等。

本发明实施例中将监测点的土壤环境质量综合特征输入到高斯混合模型中，得到监测点的类别。

然后根据监测点的类别，对目标区域进行分区，比如，可以将同一类别的监测点划分为一个区，说明这个区中的土壤环境质量比较相近；还可以先选取监测点周围的一片区域，将相似的类别合并为一个区。

综上，本发明提供了一种土壤环境质量分区方法，基于对人为活动、自然活动影响叠加下的土壤环境格局进行高密度土壤监测，采用主成分分析提取多种土壤重金属类型的含量数据的综合特征，实现了土壤环境质量的综合分区；并综合考虑环境影响因素的效应，对构建的高斯混合模型进行初始化分类，实现土壤监测调查点的稳定、精细分类，从而以泰森多边形划分法实现“由点到面”的区域化土壤环境质量分区。

在上述实施例的基础上，优选地，所述根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案，包括：

由于土壤环境质量分区本质上是土壤环境质量监测点多次迭代聚类的过程，土壤环境质量受工矿企业、高农业投入以及局部地质异常影响，表现为土壤环境监测点的局部空间变异性高，因此空间聚类是随机初始化聚类中心往往容易陷入局部最优解，导致多次监测点聚类结果存在一定的差异。

土壤监测点是土壤环境影响因素作用的结果反映，因此土壤监测点与环境质量影响因素在空间格局上具有相似性或关联性。在土壤监测点聚类时引入环境影响因素分区概要信息对土壤监测点进行预分类，避免土壤监测点初始化分类的盲目性，增加聚类分组结果的稳定性和一致性，以便得出更为接近客观实际的聚类结果。

传统的分类方法中，监测点的类别个数通常是人为根据经验设定的，因此进行初始化分类的时候具有很大的盲目性，并且聚类分组结果的稳定性较低。

针对该问题，本发明实施例中先对目标区域中的监测点进行预分类，得到预分类的结果，通过预分类的结果来对高斯混合模型进行初始化。

目前很多参数估计问题均采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价的，同时带来一个机器学习中非常普遍的问题—过拟合。所以，模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。

在本发明实施例也存在类似问题，如果不对高斯混合模型中的监测点的类别个数进行约定，最终会导致分类个数过于多，高斯混合模型表面上看对所有监测点均有较好的拟合效果，但实际上并没有反映区域土壤环境质量总体趋势和局部污染的主体特征。

因此本发明实施例中拟引入贝叶斯信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题。

在高斯混合模型中，以贝叶斯信息准则指数(简称BIC)作为指标辅助选取聚类个数，以多个主要环境影响因素的组合对土壤监测点进行预分类生成分类方案，并根据相应的BIC指标值确定最佳的预分类组合方案，具体步骤如下：

(1)根据各土壤环境质量主要影响指标与土壤环境质量综合特征之间的相似性或解释力的强弱，按照从大到小的规则对集合Q_i(q₁,q₂,…,q_r)排序：

Q′＝sort(q₁,q₂,…,q_r)＝(Q′₁,Q′₂,…,Q′_r)，

其中，Q′₁≥Q′₂≥…≥Q′_r。

(2)生成土壤监测点的预分类方案FA，每个预分类方案中包括该监测点的类别的个数。

第一个预分类方案FA₁为选取土壤监测点在Q′集合中第一个q值所对应的影响因素下的分类方式F₁，根据该影响因素中的影响因子组合方式“F₁”将土壤监测点分成A₁个类。

第二个预分类方案FA₂为选取土壤监测点在Q′集合中前两个q值所对应的影响因素下的分类方式F₁与F₂，根据该两种影响因素中的影响因子组合方式“F₁*F₂”将土壤监测点分成A₂个类。

第r个预分类方案FA_r为选取土壤监测点在Q′集合中前r个q值所对应的影响因素下的分类方式F₁、F₂、…、F_r根据该所有影响因素中的影响因子组合方式“F₁*F₂*F_r”将土壤监测点分成A_r个类。

以预分类方案FA₂为例，选取土壤监测点在Q′集合中前两个q值所对应的影响因素下的分类方式F₁与F₂，并假设监测点在分类方式F₁中对应的影响因素有3种不同类型影响因子，监测点在分类方式F₂中对应的影响因素有2种不同类型影响因子，则最大共可组合成包含3×2＝6种类型的综合分类方式“F₁*F₂”，以便根据监测点所在位置上的综合分类类型属性分成A₂(A₂≤6)个类。

其中BIC₁、BIC₂、…、BIC_r代表预分类方案FA₁、FA₂、…、FA_r中的贝叶斯信息准则指数值，可通过步骤(3)计算。

(3)计算土壤预分类方案的贝叶斯信息准则指数(BIC)：

BIC＝u·ln(m)-2ln(L)，

单个高斯分布包含均值和方差两个参数，其中u＝3A指在预分类方案FA下的高斯混合模型的总参数数目，即条件约束的个数；m为监测点数量也即样本的数量；

ln(g(x_i))指在高斯分布下的对数似然函数值。

(4)根据预分类方案和相应的BIC指标值之间关系，为避免人为按某预分类方案聚类出现过拟合、欠拟合，在考虑功能分区个数的基础上，选取当BIC值变化率最小时候的第一个预分类方案作为最佳预分类方案，假设将预分类方案和相应的BIC指标值绘制成图，通过可视化的方法观察可知预分类方案FA₄的BIC值变化率较小，即可认为该方案为最佳预分类方案Class_BIC，该最佳预分类方案中包含的监测点的类别的个数即为优化后的高斯混合模型中的聚类个数。

本发明实施例中，考虑到非监督分类随机性，提出了基于主要质量影响指标预分类方案与贝叶斯信息准则指数(BIC)之间的关系，以最佳预分类方案对优化后的高斯混合模型的聚类过程进行初始化，避免聚类的随机性，使得分区更具精确性。同时考虑到聚类算法过拟合问题，采用了贝叶斯信息准则指数作为聚类的惩罚算法，进一步优化聚类结果。

具体地，高斯混合模型的计算公式如下：

a＝(a₁,a₂,…,a_n)，

θ＝(α₁,α₂,…,α_K；θ₁,θ₂,…,θ_K)，

其中，P表示高斯混合模型，a_i表示第i个监测点上的土壤环境质量综合特征，K表示子高斯模型的个数，μ_k表示第k个分布的期望矩阵，σ_k表示第k个分布的方差矩阵。

假设n个监测点的M个监测指标，总体反映了研究区土壤环境质量，则n个土壤环境监测点的多维土壤环境质量综合特征PC，可由K个高斯模型的线性组合的高斯混合模型P来表征。

α_k是系数，其概率密度函数在其作用域内的积分之和为1，因此需对每个高斯分量赋予一个不大于1的权重，并且权重之和为1，

为第k个分模型高斯分布密度。

实施时，具体步骤如下：

(1)高斯混合模型构建：

模型初始化时假设监测点的观测值a_i是由k个环境影响因素综合作用的结果，变量γ_ik表示分类结果，定义如下：

γ_ik初始值由监测点在环境影响因素组合类型分类情况确定。

则完整数据集合A＝(A₁，A₂，…，A_n)，

完整数据的似然函数：

由于监测点数据从各高斯分量生成这个事件相互独立，因此：

完整数据的对数似然函数为：

(2)E步：依据当前模型参数，计算分模型k对观测数据a_i的相应度：

显然，辅助函数Q(θ，θ⁽ⁱ⁾)的值就是log是(θ|X，Z)的期望值，并且是θ的函数，是上一步迭代运算求得的参数值。令

及

代入式中即得：

(3)M步：求Q对θ的极大值，即求新一轮迭代的模型参数：

θ⁽ⁱ⁺¹⁾＝argmaxQ(θ，θ⁽ⁱ⁾)，

根据上式分别对

求偏导数并令其为0求得

是在条件

下求偏导数等于0的解，k＝1，2，…，K，重复以上计算，直到对数似然函数值不再有明显的变化为止，根据分模型k中观测数据a_i的最终响应度

确定土壤监测点的分类情况。

以土壤监测点关于主要环境影响因素的最佳预分类情况为初始效应，在E步中基于隐变量的现有估计值计算其最大似然估计值(期望)，在M步中最大化计算参数估计值，该过程不断交替进行，直到得出稳定的土壤监测点的分类情况。

在上述实施例的基础上，优选地，所述基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区，包括：

根据所述监测点的类别和泰森多边形划分法，对所述目标区域进行划分，获取初始分区结果；

本发明实施例以土壤监测点分类结果为依据，通过泰森多边形实现土壤监测信息的“由点到面”，对空间共边、内含监测点聚类结果相同的多边形要素进行合并，形成土壤环境质量空间初始分区。结合自然因素和人为因素的物理边界对土壤环境质量分区进行调整，最后形成区域土壤环境质量分区。

土壤环境质量的形成取决于自然、人为及叠加因素。进行分区时必须考虑不同区域土壤环境质量的差异成因与演化过程，并以此确定土壤环境质量分区类型。在土壤环境质量初始分区的基础上，以工矿企业、土壤母质、土壤类型、土地利用方式、主要河流、主干道、行政边界等自然人文要素及主要环境影响因素图作为分区合理评价和分区边界调整依据。

从行政管理的目的出发，为提高环境治理的效率，可按照区域内的行政区划边界、主要道路河流等自然人为边界对进行土壤环境质量初始分区范围进行分割。

具体实现可在软件中构建代表自然人为边界的线状要素与代表分区范围的面状要素之间的拓扑关系，以边界信息对分区范围进行分割。

其次通过对土壤重金属背景值与农业高投入及工矿企业等污染物信息的叠加验证，阐明区域土壤环境质量的空间格局，并考虑各环境影响因素之间的相互影响、表现程度和作用结果，在诸要素中根据已经识别筛选出来的重要和典型环境污染主导作用和综合作用因素，作为区域划分调整的依据，从而结合主要环境因素的影响区和初始分区差异性对初始分区结果进行优化调整。

本发明实施例提出了土壤环境质量初始分区调整的策略和解决方案，结合主要环境因素的影响区和初始分区结果差异性进行优化调整，为了便于分区结果管理中使用，结合河流道路行政区等自然人为边界进行分区动态调整，提高了分区技术结果适用性。

在上述实施例的基础上，优选地，所述根据所述监测点的类别和泰森多边形划分法，对所述目标区域进行划分，获取初始分区结果，具体包括：

土壤环境质量初始分区步骤如下：

本发明实施例采用泰森多边形划分法构建土壤监测点泰森(Voronoi)多边形，每个Voronoi多边形内仅含有一个土壤监测点，以该监测点的分类属性(高斯混合聚类得到的监测点类别)赋值到该Voronoi多边形。

具体实现方法为：以土壤监测点集F中的几何位置为中心生成Voronoi图，Vr(o_i)是土壤监测点o_i所在的Voronoi多边形，定义与土壤监测点o_i所在的Voronoi多边形有共享边(Rook连接)的其他Voronoi多边形为邻域。

Pv(o_i)＝{o_j，Vr(o_i)∩Vr(o_j)且i≠j}，

从而将互为邻域且具有相同聚类属性的的Voronoi多边形要素合并，并将该分类属性值赋值到合并后的多边形要素，作为该初始分区要素的分类属性值。

具体实现可在ARCGIS软件中选取分类后的土壤监测点数据集，通过邻域提取并创建泰森多边形生成Voronoi多边形要素图层，在Voronoi多边形图层中新建“类别”字段，将监测点分类属性值赋值到Voronoi多边形，根据相邻Voronoi多边形要素“类别”字段值判定是否相同进行多边形合并。

Voronoi多边形要素通过ARCGIS软件中要素合并命令Union实现类别相同的Voronoi多边形的聚合。

在上述实施例的基础上，优选地，所述目标区域中监测点的土壤环境质量综合特征具体通过如下方式获得：

获取所述目标区域中监测点的土壤环境质量监测数据，通过主成分分析法，获取所述土壤环境质量综合特征。

实际工作中，对目标区域的土壤环境质量进行监测，得到目标区域中监测点的土壤环境质量检测数据，所谓的对土壤环境质量进行监测，主要是指土壤重金属进行监测，监测数据均经过如下处理：GPS定位记录样点中心位置，对土壤中的杂质进行有效的分离，并按照国家标准分析测定各重金属元素(Cu、Zn、Pb、Cd、As、Hg等)，土壤中包含的重金属元素的含量即为土壤环境质量监测数据。

土壤环境质量受人类活动和成土环境因素的共同影响，区域土壤重金属之间往往存在强弱不一的依赖或者伴生关联关系。由多种土壤重金属指标表达的区域土壤环境质量通过主成分分析方法可降维为主要成分向量来组合来表达区域环境。

经过主成分分析法，得到土壤环境质量综合特征，具体步骤如下：

设有n个样本，M个重金属类型构成样本空间X，X＝X_ij(i＝1，2…n；j＝1，2…M)，主成分分析过程如下：

(1)标准化：

其中，u_j，δ_j分别指第j个指标的均值和标准差。

(2)求矩阵X的相关系数阵R＝(R_jj′)_M×M；

R_jj′＝cov(X_j，X_j′)＝E[X_jX_j′]-E[X_j]E[X_j′]，

其中，X_jX_j′指的是第j，j′(j，j′＝1，2，…M)个指标的列向量。

(3)求协方差矩阵R的特征值和相应的特征向量；

Rη＝λη，

得特征根λ₁，λ₂，…，λ_M及对应的特征向量η₁，η₂，…，η_M。

(4)根据贡献率T筛选转换矩阵；

将贡献率T按照从大到小的顺序排序，选择总贡献率大于80％的前m个，并根据其相对应的m个特征向量组成的一组转换矩阵Ψ_(M×m)。

(5)对所有数据集X进行投影,得出降维后新的m维度矩阵PC；

PC_(m)＝X·Ψ，

M维度的土壤重金属样本X进行主成分分析，压缩成m维度相互独立的新特征PC_(m)，能更突出的反映区域土壤环境质量的主要特征，也即研究区监测点中不同重金属指标内在的总体上相似性和差异性的特征水平。

在上述实施例的基础上，优选地，所述土壤环境质量主要影响指标具体通过如下方法获得：

获取预设土壤环境质量影响指标，通过地理探测器，筛选出所述土壤环境质量主要影响指标。

基于经验知识、文献资料查阅，对目标区域中可能影响土壤重金属分布的因素进行收集整理，建立环境影响因素候选集B{B₁,B₂,…,B_i，…,B_R}，其中，B_i取值可为影响土壤环境质量的、成土母质、土壤类型、数字高程(DEM)土地利用方式类型、工矿企业聚集度、有机肥施用量、畜禽粪便施用量、有机质含量等。

地理探测器是探测空间分异性，以及解释其背后驱动力的一组统计学方法。其核心思想是基于这样的假设：如果某个自变量对某个因变量有重要影响，那么自变量和因变量的空间分布应具有相似性。

因此，本发明实施例中使用地理探测器分析土壤环境质量与环境因素的空间相似，进而达到探测本目标区域内与环境紧密相关的影响因素。

地理探测器主要用于分析因变量为类别型变量的数据。对于连续变量需将其转换成顺序量、比值量或间隔量，进行适当离散化后对其进行统计分析。主要环境影响因素对土壤重金属含量值的空间分布及格局起一定影响和控制作用，因此可以用地理探测器对主要因素进行探测分析。

影响因素既有连续型变量如有机质含量、高程等，也有类别型如土地利用类型、母质母岩、土壤类型等类别型变量。对于连续型因子变量可参考行业标准对其进行分类分级，将其转换为次序变量后进行统计分析。以有机质含量为例，有机质含量是连续型变量，按第二次全国土壤普查养分分级标准可以离散为6类，表1为本发明实施例中土壤有机质含量分级标准示意表，如表1所示。

表1

根据相关行业标准可将环境影响因素集B中的所有连续型影响因素转换为类别型变量。

假设某个环境影响因素对环境综合特征有显著性影响，则该环境影响因素的空间分布与环境综合特征的空间分布应该具有一定空间格局的相似性或者具有一定程度的归因的可解释性。

由于土壤监测点的重金属含量在经过主成分分析后，其主要成分(环境综合特征PC_(m))表征区域的土壤环境质量。因此，依次选取代表环境综合特征的主成分PC，遍历环境影响因素数据集B，通过地理探测器检验B_i与每个PC与之间的空间特征或者属性特征上的相似性或可解释性，建立环境影响因素与环境综合特征分层性检验关系，表2为环境影响因素与环境综合特征分层性检验，如表2所示：

表2

PC1

PC2

…

PCj

…

PCm

B1

q11

q12

…

q1j

…

q1m

B2

q21

q22

…

q2j

…

q2m

…

Bi

qi1

qi2

…

qij

…

qim

…

BR

qR1

qR2

…

qRj

…

qRm

若存在一个主成分PC_j其q_ij值通过统计学的显著性检验，则该环境影响因素B_i入选主要影响因素，并选取出(q_i1，q_i2，...，q_im)中满足显著性检验的最大q值，作为该环境因素B_i对环境综合特征PC_(m)的解释力。具体计算公式及步骤如下：

SST＝Nσ²，

式中：h＝1，2，……，L为某环境影响因素B_i(z_1i,z_2i,…,z_li)分类或分层；N_h和N分别为层h和全区的监测点数；

和σ²分别为层h和全区的PC₁特征变量的方差；SSW和SST分别为层内方差之和、全区总方差。

其中q值的简单变换满足非中心F分布，构造检验F统计量，计算出F值并作F检验。根据给定的显著性水平p(p取值为0.01、0.05、0.1)在F分布表中查找相应的临界值F_1-p。

若统计量

则拒绝B_i，否则接受B_i。

通过地理探测器对环境影响因素候选集进行筛选，选择满足检验的环境影响因素作为主要环境影响因素，并可得到主要环境影响因素对应的q值集合Q(q₁,q₂,…,q_r)，(r≤R)，其中q_i表示环境影响因素B_i对环境综合特征PC的解释力，q值越大代表着该因素的解释力越强。主要环境影响因素的筛选过程具体实现通过地理探测器软件(www.geodetector.cn)完成。

本发明一优选实施例提供的一种土壤环境质量分区方法，如图3所示，该实施方案的主要技术路线如下：

(1)对目标区域监测点的土壤中的各重金属元素含量进行检测，得到土壤环境质量监测数据，通过主成分分析法，对土壤环境质量监测数据进行压缩，识别土壤环境质量的主要成分，即以总贡献率大于80％的主成分向量构成的矩阵作为土壤环境质量综合特征，得到土壤环境质量综合特征。

如图4所示，环境综合特征矩阵提取可通过SPSS软件实现，选择“Analyze―Dimension Reduction―Factor”来实现主成分分析。

(2)如图5所示，依据国家、行业技术标准，将连续型预设土壤环境质量影响指标转换为对应类别型变量，并采用地理探测器选取影响土壤环境质量空间分层异质性的土壤环境质量主要影响指标。

(3)如图6所示，以土壤环境质量主要影响指标对土壤监测点的土壤环境质量综合特征进行处理，结合贝叶斯信息准则指数(BIC)变化，确定最佳预分类方案，该最佳预分类方案中包含了监测点的类别的个数。

(4)如图7所示，构建土壤环境质量分类的优化后的高斯混合模型，并将最佳预分类方案中的监测点的类别作为优化后的高斯混合模型的初始化条件，如图8所示，采用EM算法对高斯混合模型的参数进行估计，得到目标区域中监测点的类别。

(5)采用泰森多边形法，由土壤监测点生成泰森多边形，以边—边连接方式合并监测点类型相同的多边形，从而土壤环境质量初始分区，得到初始分区结果。

(6)结合土壤环境质量主要影响因素的空间边界范围、河流道路以及行政区边界等对初步划分的分区进行调整，并根据诱发环境污染主导作用和综合作用因素定义各分区的生态环境类型，从而形成最终的土壤环境质量区，得到最终分区结果。

如图9所示，针对图中Class3类Voronoi多边形聚合形成的土壤环境质量初始分区，以保障土壤环境安全为目标，假设工矿企业是区域污染的主要来源，通过对工矿企业环境风险的污染特征因子、污染企业空间分布密度及风险分布等情况进行分析，测算影响因素的作用域，从而通过空间分析得到优化调整后的分区范围。

综上，本发明实施例提供了一种土壤环境质量分区方法及系统，基于对人为活动、自然活动影响叠加下的土壤环境格局进行高密度土壤监测，采用主成分分析提取多种土壤重金属类型的含量数据的综合特征，实现了土壤环境质量的综合分区；并综合考虑环境影响因素的效应，对构建的高斯混合模型进行初始化分类，实现土壤监测调查点的稳定、精细分类，从而以泰森多边形划分法实现“由点到面”的区域化土壤环境质量分区。

本发明实施例提供一种土壤环境质量分区系统，如图10所示，该系统包括主成分分析模块1010、环境质量影响模块1020、最佳初始化模块1030、初始分类模块1040和分区模块1050，其中：

主成分分析模块1010用于基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；

环境质量影响模块1020用于采用地理探测器识别所述土壤环境质量综合特征与预设环境影响因素的分层异质性，筛选出土壤环境质量主要影响指标；

最佳初始化模块1030用于根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案；

初始分类模块1040用于以所述最佳预分类方案对构建的高斯混合模型进行初始化，通过期望最大化(Expectation-Maximum，简称EM)算法对所述高斯混合模型中表示样点类别的隐变量参数进行估算，得到所述监测点的初始分类；

分区模块1050用于基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区。

本实施例为与上述方法对应的系统实施例，详情请参考上述方法实施例，本系统实施例在此不再赘述。

如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行土壤环境质量分区方法，该方法包括：

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的土壤环境质量分区方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的土壤环境质量分区方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种土壤环境质量分区方法，其特征在于，包括：

基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；所述土壤环境质量综合特征用于代表所述目标区域中的土壤环境质量的特征；

采用地理探测器识别所述土壤环境质量综合特征与预设环境影响因素的分层异质性，筛选出土壤环境质量主要影响指标，包括：基于经验知识、文献资料查阅，对所述目标区域中可能影响土壤重金属分布的影响因素进行收集整理，建立环境影响因素候选集B；通过地理探测器对环境影响因素候选集B进行筛选，选择满足检验的环境影响因素作为主要环境影响指标；

以所述最佳预分类方案对构建的高斯混合模型进行初始化，通过期望最大化算法对所述高斯混合模型中表示样点类别的隐变量参数进行估算，得到所述监测点的初始分类；

所述高斯混合模型的计算公式如下：

a＝(a₁,a₂,…,a_n)，

θ＝(α₁,α₂,…,α_K；θ₁,θ₂,…,θ_K)，

其中，P表示高斯混合模型；a_i表示第i个监测点上的土壤环境质量综合特征；μ_k表示第k个分布的期望矩阵；σ_k表示第k个分布的方差矩阵；K表示子高斯模型的个数，假设n个监测点的M个监测指标，总体反映了研究区土壤环境质量，则n个土壤环境监测点的多维土壤环境质量综合特征PC，可由K个子高斯模型的线性组合的高斯混合模型P来表征；α_k是系数，其概率密度函数在其作用域内的积分之和为1；φ(a|θ_k)为第k个子高斯模型的高斯分布密度；N为土壤环境监测点的总个数；

2.根据权利要求1所述的土壤环境质量分区方法，其特征在于，所述根据样点在所述土壤环境质量主要影响指标下的分类关系建立系列初始化预分类方案，以贝叶斯信息准则确定最佳预分类方案，包括：

3.根据权利要求1所述的土壤环境质量分区方法，其特征在于，所述基于所述监测点相应泰森多边形范围及所述监测点的初始分类，并结合所述目标区域的自然边界信息，对所述目标区域进行分区，包括：

4.根据权利要求3所述的土壤环境质量分区方法，其特征在于，所述根据所述监测点的初始分类和泰森多边形划分法，对所述目标区域进行划分，获取初始分区结果，具体包括：

5.一种土壤环境质量分区系统，其特征在于，包括：

主成分分析模块，用于基于主成分分析法提取目标区域中监测点的土壤环境质量综合特征；所述土壤环境质量综合特征用于代表所述目标区域中的土壤环境质量的特征；

环境质量影响模块，用于采用地理探测器识别所述土壤环境质量综合特征与预设环境影响因素的分层异质性，筛选出土壤环境质量主要影响指标，包括：基于经验知识、文献资料查阅，对所述目标区域中可能影响土壤重金属分布的影响因素进行收集整理，建立环境影响因素候选集B；通过地理探测器对环境影响因素候选集B进行筛选，选择满足检验的环境影响因素作为主要环境影响指标；

初始分类模块，用于以所述最佳预分类方案对构建的高斯混合模型进行初始化，通过期望最大化算法对所述高斯混合模型中表示样点类别的隐变量参数进行估算，得到所述监测点的初始分类；

所述高斯混合模型的计算公式如下：

a＝(a₁,a₂,…,a_n)，

θ＝(α₁,α₂,…,α_K；θ₁,θ₂,…,θ_K)，

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述土壤环境质量分区方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述土壤环境质量分区方法的步骤。