CN112347155B

CN112347155B - 基于数据挖掘的场地污染特征因子识别和监测指标优化方法

Info

Publication number: CN112347155B
Application number: CN202011182291.2A
Authority: CN
Inventors: 施小清; 马春龙; 莫绍星; 徐红霞; 吴吉春
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2023-11-21
Anticipated expiration: 2040-10-29
Also published as: CN112347155A

Abstract

本发明公开了一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法，首先，对预先获取的污染场地的地下水污染数据进行预处理操作；其次，构建自组织映射神经网络模型，完成模型训练后开展数据降维、相关性解析、可视化分析等一系列数据挖掘任务；然后，对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习，实现特征因子的识别；最后，对污染指标采取先分类后分级的策略，优化指标的后期监测过程。本发明可为污染场地数据监测、数据分析和决策管理提供技术支持，通过对污染场地的数据挖掘，识别场地污染特征因子，同时进行监测指标的优化，最终达到降低场地监测成本的目的。

Description

基于数据挖掘的场地污染特征因子识别和监测指标优化方法

技术领域

本发明属地下水环境科学技术领域，具体涉及一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法。

背景技术

由于我国产业结构调整，大批企业关停或搬迁，遗留下大量的工业污染场地，这些工业污染场地往往具有污染程度重、污染物组成复杂、土壤和地下水均受到污染等特点，已对居民食品安全、饮用水安全、生态环境、人居环境健康、经济社会可持续发展造成了严重威胁与挑战。因此，亟待开展污染场地的调查评估、风险管控和修复。

在污染场地前期调查评估中，将获得大量有关土壤和地下水的污染数据，这些数据样本数量大，监测项目多，数据结构复杂，其中隐含着大量的特征信息、关系信息以及分类信息，例如污染物在单一环境介质中的相关性以及污染物在地下水和土壤两种介质中的相关性等。

另一方面，受人力、物力以及财力的限制，无法对污染场地取大量样品并对所有指标逐一测试分析，如何在不影响污染场地客观评价的条件下，尽可能减少需监测的污染指标数目，降低场地监测费用，也是一个值得研究的问题。

目前，众多多变量方法已被应用于污染场地数据分析，如主成分分析(PCA)、因子分析(FA)、判别分析(DA)，聚类(CA)分析等，以此减小或消除数据中的冗余。然而由于污染数据本身的复杂性，当污染指标存在非线性相关、数据存在缺失时，上述传统数据分析方法存在较大局限性。

自组织映射神经网络(self-organizing map,SOM)是一种无监督人工神经网络，可处理高维数据和非线性数据，同时保留原始数据的拓扑结构。目前在水资源和环境领域主要用于各种水文过程的预测、地表和地下水水质评估、地表水和地下水的时空相关关系、生态群落的研究等。大量应用研究表明，SOM在处理高维非均质性和复杂异构性数据时具有显著优势，尤能解决传统数据方法需要线性完备数据的问题。

目前，污染场地数据分析常用传统多变量数据分析方法，如主成分分析(PCA)、因子分析(FA)、判别分析(DA)，聚类(CA)分析等，以此减小或消除数据中的冗余。但随着数据收集能力的提高，针对污染场地的数据不仅量大，而且数据结构复杂，其中隐藏着大量的特征信息、关系信息以及分类信息，同时污染数据不仅具有随机性，而且表现出强烈的非线性，很难直接利用传统的数据分析方法对这些多维数据进行分析，也很难直接从多维数据集中了解数据结构、获取有用信息。另外，目前还未有技术方法针对场地污染物指标监测进行优化，以此达到降低场地监测成本的目的。

发明内容

发明目的：本发明提供一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法，通过对污染场地的数据挖掘，识别场地污染特征因子，同时进行监测指标的优化，以达到降低场地监测成本的目的。

技术方案：本发明所述的一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法，包括以下步骤：

(1)对预先获取的污染场地的地下水污染数据进行预处理；

(2)构建自组织映射神经网络模型，完成模型训练后开展数据降维、相关性解析、可视化分析数据挖掘任务；

(3)对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习，实现特征因子的识别；

(4)对污染指标采取先分类后分级的策略，优化指标的后期监测过程。

进一步地，所述步骤(1)包括以下步骤：

(11)数据格式标准化：所有污染指标名称位于第一行，按列排，监测点位名称位于最后一列，按行排；

(12)低于检测限的数据值默认设为0；

(13)剔除存在明显有误的属性值，如浓度值为负值时；

(14)剔除在所有样本点的属性值均低于检测限或在检测限上下轻微浮动的污染指标。

进一步地，所述步骤(2)包括以下步骤：

(21)利用MATLAB软件构建神经网络模型，构建的神经网络模型输出层神经元数量为n为样本数量；同时输出层神经网络尺寸应根据平均量化误差和拓扑误差的大小来设置，两者达到最小值时为最优尺寸；

(22)构建完成的神经网络模型中输入步骤(1)已预处理的数据，模型运行完成后输出所有污染指标自组织映射图；

(23)污染指标自组织映射(图2)为高维污染数据的降维结果展示，根据自组织映射图中颜色梯度的相似性可判断相关性，梯度越相近，相关性越高。

进一步地，所述步骤(3)包括以下步骤：

(31)对自组织映射输出的距离权重U-matrix采用K均值算法进一步开展无监督聚类学习，选择DB指数作为聚类性能度量，最小DB指数对应的聚类数即最优聚类；

(32)根据地下水质量标准筛选部分存在超标严重的指标，同时计算超标指标在所有聚类中的权重分布，若污染指标在所有聚类中均有相当权重，则被确定为该污染场地的污染特征因子即特征污染物。

进一步地，所述步骤(4)实现过程如下：

(41)在场地后续的污染物监测中采用先分类后分级的优化策略，首先根据前述步骤的最终聚类实现，将所有待监测指标进行分类；

(42)依据污染指标超标倍数以及环境风险对污染指标进行排序任务，根据实际情况在每一类中仅选取少数污染指标供后续监测。

有益效果：与现有技术相比，本发明的有益效果：1、本发明能解决传统数据分析方法在处理污染场地大数据时遇到的诸如高维数据、非线性数据、非高斯分布数据、文本数据、缺失数据等技术难题；2、针对污染场地开展大数据分析，识别关联性污染物，筛选场地重要污染物指标因子，优化场地污染监测指标数目，最终降低场地监测费用；3、本发明可为污染场地数据监测、数据分析和决策管理提供技术支持。

附图说明

图1为本发明的流程图；

图2为自组织神经网络模型结构，右侧六边形为神经元；

图3为污染指标映射图；

图4为K均值聚类结果；

图5为地下水中污染物指标SOM映射图；

图6为SOM-K均值聚类结果。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提供一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法，对某污染场地的地下水污染数据开展数据挖掘，通过数据降维和聚类，完成场地污染特征因子的识别，同时针对场地众多污染监测指标进行优化，以降低场地监测费用。如图1所示，具体包括以下步骤：

(1)对收集于污染场地的地下水污染数据(污染物指标及其数值组成的矩阵型高维数据)进行预处理操作：

数据格式标准化，即所有污染指标名称位于第一行，按列排，监测点位名称位于最后一列，按行排的矩阵形式；低于检测限的数据值默认设为0；剔除存在明显有误的属性值，如浓度值为负值时；剔除在所有样本点的属性值均低于检测限或在检测限上下轻微浮动的污染指标。

(2)构建自组织映射神经网络模型，如图2所示，完成模型训练后开展数据降维、相关性解析、可视化分析等一系列数据挖掘任务：

利用MATLAB软件构建神经网络模型，构建的神经网络模型输出层神经元数量为n为样本数量。同时输出层神经网络尺寸(即神经元数量c＝a行×b列的矩阵排列形式)应根据平均量化误差(表示输入层向量与输出层向量的平均距离)和拓扑误差(表示最匹配单元与次匹配单元的数据矢量百分比)的大小来设置，两者达到最小值时为最优尺寸。构建完成的神经网络模型中输入前一步中已预处理完备的数据，模型运行完成后输出所有污染指标自组织映射图，如图3所示。污染指标自组织映射为高维污染数据的降维结果展示，根据自组织映射图中颜色梯度的相似性可判断相关性，梯度越相近，相关性越高。如图3中1,2-二氯苯、1,3-二氯苯、1,4-二氯苯因具有十分相似的颜色梯度，故存在高相关性。以此为例，此步中将提取所有存在关联性的指标，减小数据冗余。

(3)对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习，实现特征因子的识别：

对自组织映射输出的距离权重U-matrix(如图3所示)采用K均值算法进一步开展无监督聚类学习，选择DB指数作为聚类性能度量，最小DB指数对应的聚类数即最优聚类；根据地下水质量标准筛选部分存在超标严重的指标，同时计算超标指标在所有聚类中的权重分布，若污染指标在所有聚类中均有相当权重，则被确定为该污染场地的污染特征因子即特征污染物。

(4)对污染指标采取先分类后分级的策略，优化指标的后期监测过程：

在场地后续的污染物监测中采用先分类后分级的优化策略，首先根据前述步骤的最终聚类实现，将所有待监测指标进行分类，然后，依据污染指标超标倍数以及环境风险对污染指标进行排序任务，根据实际情况在每一类中仅选取少数污染指标供后续监测。

表1为SOM神经网络输入数据统计特征(已剔除浓度低于检测限的指标和无机监测指标)，根据地下水质量标准(GB/T 14848-2017)中IV类水标准，该场地地下水中主要有机污染物为邻二甲苯、氯苯、四氯化碳、1,2-二氯乙烷、间二甲苯和对二甲苯、氯仿、乙苯以及二氯苯。

对SOM输出图重排序，如图5，每种污染物对应一种映射图，其中的颜色梯度可用来识别污染指标间的相关性，相同或相似颜色梯度指示正相关性，相似程度越高，相关性越强。由此可知，1,3-二氯苯、1,4-二氯苯、1,2-二氯苯、1,2,3-三氯苯、2,4-二氯酚、2,6-二氯酚，溴苯间存在较强的相关性；三氯甲烷(氯仿)、锰、甲苯、乙苯、二甲苯、砷、二硫化碳、1,3,5-三甲苯、异丙基苯、苯、苯酚、4-氯甲苯、丙酮、4-甲基-2-戊酮、1-萘胺存在良好相关性；以及四氯化碳、三氯乙烯、四氯乙烯相关性极好，氯苯、1,2-二氯乙烷、2-氯甲苯间也存在较好相关性。

在SOM映射结果基础上，进一步结合K均值算法，得到图6所示的聚类结果，根据SOM映射图可将污染物与聚类一一对应。污染指标被分为4类，根据污染指标映射图，可将聚类与具体污染指标一一对应(图6中仅列部分污染指标)。第一类(Cluster-1)包含绝大部分样本点，相关指标包括氯苯、1,2-二氯乙烷等，说明第一类中的污染物空间分布范围最为广泛，第二类(Cluster-2)包含1,3-二氯苯、1,4-二氯苯、1,2-二氯苯、2,4-二氯酚、2,6-二氯酚以及溴苯，第三类(Cluster-3)包含邻二甲苯、间二甲苯和对二甲苯、甲苯、乙苯、三氯甲烷等；第四类(Cluster-4)中为三氯乙烯、四氯乙烯和四氯化碳三种污染。

表1场地污染物数据统计特征

注：/表示非地下水质量标准(GB/T 14848-2017)要求控制指标

由相关性和聚类结果可知，除个别污染物外，该场地中绝大部分污染物均存在与之相关的污染指标，相当的正相关性说明场地污染物可能具有相似的来源特征，如工业中常用三氯乙烯制备四氯乙烯和四氯化碳，故三者有良好的相关性，同时其在环境介质中可能存在相似的生物化学降解以及迁移扩散途径等行为特征。

进一步分析，得出其相关性主要表现在空间分布的相似性，从属于同一聚类的污染物，其浓度空间分布具有非常高的相似性，有基本一致的高值区。据此在污染场地后续监测中可据相关性的不同，施行先分类后分级的筛选策略，将同一类中的污染指标根据超标倍数或环境风险进行分级别监测，在同一聚类中筛选少数几个污染指标，总体削减需监测指标数目。表2为根据SOM-K均值聚类以及地下水质量标准(GB/T 14848-2017)进行的污染物优化筛选结果，根据超标倍数在Cluster-1至Cluster-4类中分别选择氯苯，1,4-二氯苯，邻二甲苯和四氯化碳以供后续持续监测(筛选出的污染指标)。“/”表示非地下水质量标准(GB/T14848-2017)要求控制指标。

表2地下水中污染物聚类分级优化筛选结果

本发明是一种结合自组织映射神经网络和K均值聚类算法的数据挖掘框架，旨在解决传统数据分析方法在处理污染场地大数据时遇到的诸如高维数据、非线性数据、非高斯分布数据、文本数据、缺失数据等技术难题。针对污染场地开展大数据分析，识别关联性污染物，筛选场地重要污染物指标因子，优化场地污染监测指标数目，最终降低场地监测费用。本发明可为污染场地数据监测、数据分析和决策管理提供技术支持。

Claims

1.一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法，其特征在于，包括以下步骤：

(1)对预先获取的污染场地的地下水污染数据进行预处理；

(4)对污染指标采取先分类后分级的策略，优化指标的后期监测过程；

所述步骤(2)包括以下步骤：

(23)污染指标自组织映射为高维污染数据的降维结果展示，根据自组织映射图中颜色梯度的相似性可判断相关性，梯度越相近，相关性越高；

所述步骤(3)包括以下步骤：

(32)根据地下水质量标准筛选部分存在超标严重的指标，同时计算超标指标在所有聚类中的权重分布，若污染指标在所有聚类中均有相当权重，则被确定为该污染场地的污染特征因子即特征污染物；

所述步骤(4)实现过程如下：

2.根据权利要求1所述的基于数据挖掘的场地污染特征因子识别和监测指标优化方法，其特征在于，所述步骤(1)包括以下步骤：

(12)低于检测限的数据值默认设为0；

(13)剔除存在明显有误的属性值；