CN112347155B - 基于数据挖掘的场地污染特征因子识别和监测指标优化方法 - Google Patents
基于数据挖掘的场地污染特征因子识别和监测指标优化方法 Download PDFInfo
- Publication number
- CN112347155B CN112347155B CN202011182291.2A CN202011182291A CN112347155B CN 112347155 B CN112347155 B CN 112347155B CN 202011182291 A CN202011182291 A CN 202011182291A CN 112347155 B CN112347155 B CN 112347155B
- Authority
- CN
- China
- Prior art keywords
- pollution
- data
- site
- monitoring
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000007418 data mining Methods 0.000 title claims abstract description 16
- 238000005457 optimization Methods 0.000 title claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 238000010219 correlation analysis Methods 0.000 claims abstract description 4
- 238000003895 groundwater pollution Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 239000003344 environmental pollutant Substances 0.000 claims description 22
- 231100000719 pollutant Toxicity 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 11
- 238000005065 mining Methods 0.000 abstract 1
- 239000003673 groundwater Substances 0.000 description 11
- VZGDMQKNWNREIO-UHFFFAOYSA-N tetrachloromethane Chemical compound ClC(Cl)(Cl)Cl VZGDMQKNWNREIO-UHFFFAOYSA-N 0.000 description 10
- MVPPADPHJFYWMZ-UHFFFAOYSA-N chlorobenzene Chemical compound ClC1=CC=CC=C1 MVPPADPHJFYWMZ-UHFFFAOYSA-N 0.000 description 8
- CTQNGGLPUBDAKN-UHFFFAOYSA-N O-Xylene Chemical group CC1=CC=CC=C1C CTQNGGLPUBDAKN-UHFFFAOYSA-N 0.000 description 7
- RFFLAFLAYFXFSW-UHFFFAOYSA-N 1,2-dichlorobenzene Chemical compound ClC1=CC=CC=C1Cl RFFLAFLAYFXFSW-UHFFFAOYSA-N 0.000 description 6
- YNQLUTRBYVCPMQ-UHFFFAOYSA-N Ethylbenzene Chemical compound CCC1=CC=CC=C1 YNQLUTRBYVCPMQ-UHFFFAOYSA-N 0.000 description 6
- YXFVVABEGXRONW-UHFFFAOYSA-N Toluene Chemical compound CC1=CC=CC=C1 YXFVVABEGXRONW-UHFFFAOYSA-N 0.000 description 6
- 239000000356 contaminant Substances 0.000 description 6
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 5
- OCJBOOLMMGQPQU-UHFFFAOYSA-N 1,4-dichlorobenzene Chemical compound ClC1=CC=C(Cl)C=C1 OCJBOOLMMGQPQU-UHFFFAOYSA-N 0.000 description 4
- URLKBWYHVLBVBO-UHFFFAOYSA-N Para-Xylene Chemical group CC1=CC=C(C)C=C1 URLKBWYHVLBVBO-UHFFFAOYSA-N 0.000 description 4
- 238000000556 factor analysis Methods 0.000 description 4
- IVSZLXZYQVIEFR-UHFFFAOYSA-N m-xylene Chemical group CC1=CC=CC(C)=C1 IVSZLXZYQVIEFR-UHFFFAOYSA-N 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- WSLDOOZREJYCGB-UHFFFAOYSA-N 1,2-Dichloroethane Chemical compound ClCCCl WSLDOOZREJYCGB-UHFFFAOYSA-N 0.000 description 3
- ZPQOPVIELGIULI-UHFFFAOYSA-N 1,3-dichlorobenzene Chemical compound ClC1=CC=CC(Cl)=C1 ZPQOPVIELGIULI-UHFFFAOYSA-N 0.000 description 3
- CSCPPACGZOOCGX-UHFFFAOYSA-N Acetone Chemical compound CC(C)=O CSCPPACGZOOCGX-UHFFFAOYSA-N 0.000 description 3
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 description 3
- 229960001701 chloroform Drugs 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 229940078552 o-xylene Drugs 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000002689 soil Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- AUHZEENZYGFFBQ-UHFFFAOYSA-N 1,3,5-trimethylbenzene Chemical compound CC1=CC(C)=CC(C)=C1 AUHZEENZYGFFBQ-UHFFFAOYSA-N 0.000 description 2
- RUFPHBVGCFYCNW-UHFFFAOYSA-N 1-naphthylamine Chemical compound C1=CC=C2C(N)=CC=CC2=C1 RUFPHBVGCFYCNW-UHFFFAOYSA-N 0.000 description 2
- HFZWRUODUSTPEG-UHFFFAOYSA-N 2,4-dichlorophenol Chemical compound OC1=CC=C(Cl)C=C1Cl HFZWRUODUSTPEG-UHFFFAOYSA-N 0.000 description 2
- HOLHYSJJBXSLMV-UHFFFAOYSA-N 2,6-dichlorophenol Chemical compound OC1=C(Cl)C=CC=C1Cl HOLHYSJJBXSLMV-UHFFFAOYSA-N 0.000 description 2
- NPDACUSDTOMAMK-UHFFFAOYSA-N 4-Chlorotoluene Chemical compound CC1=CC=C(Cl)C=C1 NPDACUSDTOMAMK-UHFFFAOYSA-N 0.000 description 2
- CYTYCFOTNPOANT-UHFFFAOYSA-N Perchloroethylene Chemical group ClC(Cl)=C(Cl)Cl CYTYCFOTNPOANT-UHFFFAOYSA-N 0.000 description 2
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 2
- XSTXAVWGXDQKEL-UHFFFAOYSA-N Trichloroethylene Chemical group ClC=C(Cl)Cl XSTXAVWGXDQKEL-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- QARVLSVVCXYDNA-UHFFFAOYSA-N bromobenzene Chemical compound BrC1=CC=CC=C1 QARVLSVVCXYDNA-UHFFFAOYSA-N 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- RWGFKTVRMDUZSP-UHFFFAOYSA-N cumene Chemical compound CC(C)C1=CC=CC=C1 RWGFKTVRMDUZSP-UHFFFAOYSA-N 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 229950011008 tetrachloroethylene Drugs 0.000 description 2
- UBOXGVDOUJQMTN-UHFFFAOYSA-N trichloroethylene Natural products ClCC(Cl)Cl UBOXGVDOUJQMTN-UHFFFAOYSA-N 0.000 description 2
- RELMFMZEBKVZJC-UHFFFAOYSA-N 1,2,3-trichlorobenzene Chemical compound ClC1=CC=CC(Cl)=C1Cl RELMFMZEBKVZJC-UHFFFAOYSA-N 0.000 description 1
- IBSQPLPBRSHTTG-UHFFFAOYSA-N 1-chloro-2-methylbenzene Chemical compound CC1=CC=CC=C1Cl IBSQPLPBRSHTTG-UHFFFAOYSA-N 0.000 description 1
- NTIZESTWPVYFNL-UHFFFAOYSA-N Methyl isobutyl ketone Chemical compound CC(C)CC(C)=O NTIZESTWPVYFNL-UHFFFAOYSA-N 0.000 description 1
- UIHCLUNTQKBZGK-UHFFFAOYSA-N Methyl isobutyl ketone Natural products CCC(C)C(C)=O UIHCLUNTQKBZGK-UHFFFAOYSA-N 0.000 description 1
- 229910052785 arsenic Inorganic materials 0.000 description 1
- RQNWIZPPADIBDY-UHFFFAOYSA-N arsenic atom Chemical compound [As] RQNWIZPPADIBDY-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- ADMHPUMJTXSWOE-UHFFFAOYSA-N bromobenzene;chloroform Chemical compound ClC(Cl)Cl.BrC1=CC=CC=C1 ADMHPUMJTXSWOE-UHFFFAOYSA-N 0.000 description 1
- QGJOPFRUJISHPQ-NJFSPNSNSA-N carbon disulfide-14c Chemical compound S=[14C]=S QGJOPFRUJISHPQ-NJFSPNSNSA-N 0.000 description 1
- 229950005499 carbon tetrachloride Drugs 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940117389 dichlorobenzene Drugs 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 229940058172 ethylbenzene Drugs 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- WPBNNNQJVZRUHP-UHFFFAOYSA-L manganese(2+);methyl n-[[2-(methoxycarbonylcarbamothioylamino)phenyl]carbamothioyl]carbamate;n-[2-(sulfidocarbothioylamino)ethyl]carbamodithioate Chemical compound [Mn+2].[S-]C(=S)NCCNC([S-])=S.COC(=O)NC(=S)NC1=CC=CC=C1NC(=S)NC(=O)OC WPBNNNQJVZRUHP-UHFFFAOYSA-L 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000002352 surface water Substances 0.000 description 1
- -1 trichloroethylene, tetrachloroethylene Chemical group 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
- 239000008096 xylene Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法,首先,对预先获取的污染场地的地下水污染数据进行预处理操作;其次,构建自组织映射神经网络模型,完成模型训练后开展数据降维、相关性解析、可视化分析等一系列数据挖掘任务;然后,对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习,实现特征因子的识别;最后,对污染指标采取先分类后分级的策略,优化指标的后期监测过程。本发明可为污染场地数据监测、数据分析和决策管理提供技术支持,通过对污染场地的数据挖掘,识别场地污染特征因子,同时进行监测指标的优化,最终达到降低场地监测成本的目的。
Description
技术领域
本发明属地下水环境科学技术领域,具体涉及一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法。
背景技术
由于我国产业结构调整,大批企业关停或搬迁,遗留下大量的工业污染场地,这些工业污染场地往往具有污染程度重、污染物组成复杂、土壤和地下水均受到污染等特点,已对居民食品安全、饮用水安全、生态环境、人居环境健康、经济社会可持续发展造成了严重威胁与挑战。因此,亟待开展污染场地的调查评估、风险管控和修复。
在污染场地前期调查评估中,将获得大量有关土壤和地下水的污染数据,这些数据样本数量大,监测项目多,数据结构复杂,其中隐含着大量的特征信息、关系信息以及分类信息,例如污染物在单一环境介质中的相关性以及污染物在地下水和土壤两种介质中的相关性等。
另一方面,受人力、物力以及财力的限制,无法对污染场地取大量样品并对所有指标逐一测试分析,如何在不影响污染场地客观评价的条件下,尽可能减少需监测的污染指标数目,降低场地监测费用,也是一个值得研究的问题。
目前,众多多变量方法已被应用于污染场地数据分析,如主成分分析(PCA)、因子分析(FA)、判别分析(DA),聚类(CA)分析等,以此减小或消除数据中的冗余。然而由于污染数据本身的复杂性,当污染指标存在非线性相关、数据存在缺失时,上述传统数据分析方法存在较大局限性。
自组织映射神经网络(self-organizing map,SOM)是一种无监督人工神经网络,可处理高维数据和非线性数据,同时保留原始数据的拓扑结构。目前在水资源和环境领域主要用于各种水文过程的预测、地表和地下水水质评估、地表水和地下水的时空相关关系、生态群落的研究等。大量应用研究表明,SOM在处理高维非均质性和复杂异构性数据时具有显著优势,尤能解决传统数据方法需要线性完备数据的问题。
目前,污染场地数据分析常用传统多变量数据分析方法,如主成分分析(PCA)、因子分析(FA)、判别分析(DA),聚类(CA)分析等,以此减小或消除数据中的冗余。但随着数据收集能力的提高,针对污染场地的数据不仅量大,而且数据结构复杂,其中隐藏着大量的特征信息、关系信息以及分类信息,同时污染数据不仅具有随机性,而且表现出强烈的非线性,很难直接利用传统的数据分析方法对这些多维数据进行分析,也很难直接从多维数据集中了解数据结构、获取有用信息。另外,目前还未有技术方法针对场地污染物指标监测进行优化,以此达到降低场地监测成本的目的。
发明内容
发明目的:本发明提供一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法,通过对污染场地的数据挖掘,识别场地污染特征因子,同时进行监测指标的优化,以达到降低场地监测成本的目的。
技术方案:本发明所述的一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法,包括以下步骤:
(1)对预先获取的污染场地的地下水污染数据进行预处理;
(2)构建自组织映射神经网络模型,完成模型训练后开展数据降维、相关性解析、可视化分析数据挖掘任务;
(3)对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习,实现特征因子的识别;
(4)对污染指标采取先分类后分级的策略,优化指标的后期监测过程。
进一步地,所述步骤(1)包括以下步骤:
(11)数据格式标准化:所有污染指标名称位于第一行,按列排,监测点位名称位于最后一列,按行排;
(12)低于检测限的数据值默认设为0;
(13)剔除存在明显有误的属性值,如浓度值为负值时;
(14)剔除在所有样本点的属性值均低于检测限或在检测限上下轻微浮动的污染指标。
进一步地,所述步骤(2)包括以下步骤:
(21)利用MATLAB软件构建神经网络模型,构建的神经网络模型输出层神经元数量为n为样本数量;同时输出层神经网络尺寸应根据平均量化误差和拓扑误差的大小来设置,两者达到最小值时为最优尺寸;
(22)构建完成的神经网络模型中输入步骤(1)已预处理的数据,模型运行完成后输出所有污染指标自组织映射图;
(23)污染指标自组织映射(图2)为高维污染数据的降维结果展示,根据自组织映射图中颜色梯度的相似性可判断相关性,梯度越相近,相关性越高。
进一步地,所述步骤(3)包括以下步骤:
(31)对自组织映射输出的距离权重U-matrix采用K均值算法进一步开展无监督聚类学习,选择DB指数作为聚类性能度量,最小DB指数对应的聚类数即最优聚类;
(32)根据地下水质量标准筛选部分存在超标严重的指标,同时计算超标指标在所有聚类中的权重分布,若污染指标在所有聚类中均有相当权重,则被确定为该污染场地的污染特征因子即特征污染物。
进一步地,所述步骤(4)实现过程如下:
(41)在场地后续的污染物监测中采用先分类后分级的优化策略,首先根据前述步骤的最终聚类实现,将所有待监测指标进行分类;
(42)依据污染指标超标倍数以及环境风险对污染指标进行排序任务,根据实际情况在每一类中仅选取少数污染指标供后续监测。
有益效果:与现有技术相比,本发明的有益效果:1、本发明能解决传统数据分析方法在处理污染场地大数据时遇到的诸如高维数据、非线性数据、非高斯分布数据、文本数据、缺失数据等技术难题;2、针对污染场地开展大数据分析,识别关联性污染物,筛选场地重要污染物指标因子,优化场地污染监测指标数目,最终降低场地监测费用;3、本发明可为污染场地数据监测、数据分析和决策管理提供技术支持。
附图说明
图1为本发明的流程图;
图2为自组织神经网络模型结构,右侧六边形为神经元;
图3为污染指标映射图;
图4为K均值聚类结果;
图5为地下水中污染物指标SOM映射图;
图6为SOM-K均值聚类结果。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提供一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法,对某污染场地的地下水污染数据开展数据挖掘,通过数据降维和聚类,完成场地污染特征因子的识别,同时针对场地众多污染监测指标进行优化,以降低场地监测费用。如图1所示,具体包括以下步骤:
(1)对收集于污染场地的地下水污染数据(污染物指标及其数值组成的矩阵型高维数据)进行预处理操作:
数据格式标准化,即所有污染指标名称位于第一行,按列排,监测点位名称位于最后一列,按行排的矩阵形式;低于检测限的数据值默认设为0;剔除存在明显有误的属性值,如浓度值为负值时;剔除在所有样本点的属性值均低于检测限或在检测限上下轻微浮动的污染指标。
(2)构建自组织映射神经网络模型,如图2所示,完成模型训练后开展数据降维、相关性解析、可视化分析等一系列数据挖掘任务:
利用MATLAB软件构建神经网络模型,构建的神经网络模型输出层神经元数量为n为样本数量。同时输出层神经网络尺寸(即神经元数量c=a行×b列的矩阵排列形式)应根据平均量化误差(表示输入层向量与输出层向量的平均距离)和拓扑误差(表示最匹配单元与次匹配单元的数据矢量百分比)的大小来设置,两者达到最小值时为最优尺寸。构建完成的神经网络模型中输入前一步中已预处理完备的数据,模型运行完成后输出所有污染指标自组织映射图,如图3所示。污染指标自组织映射为高维污染数据的降维结果展示,根据自组织映射图中颜色梯度的相似性可判断相关性,梯度越相近,相关性越高。如图3中1,2-二氯苯、1,3-二氯苯、1,4-二氯苯因具有十分相似的颜色梯度,故存在高相关性。以此为例,此步中将提取所有存在关联性的指标,减小数据冗余。
(3)对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习,实现特征因子的识别:
对自组织映射输出的距离权重U-matrix(如图3所示)采用K均值算法进一步开展无监督聚类学习,选择DB指数作为聚类性能度量,最小DB指数对应的聚类数即最优聚类;根据地下水质量标准筛选部分存在超标严重的指标,同时计算超标指标在所有聚类中的权重分布,若污染指标在所有聚类中均有相当权重,则被确定为该污染场地的污染特征因子即特征污染物。
(4)对污染指标采取先分类后分级的策略,优化指标的后期监测过程:
在场地后续的污染物监测中采用先分类后分级的优化策略,首先根据前述步骤的最终聚类实现,将所有待监测指标进行分类,然后,依据污染指标超标倍数以及环境风险对污染指标进行排序任务,根据实际情况在每一类中仅选取少数污染指标供后续监测。
表1为SOM神经网络输入数据统计特征(已剔除浓度低于检测限的指标和无机监测指标),根据地下水质量标准(GB/T 14848-2017)中IV类水标准,该场地地下水中主要有机污染物为邻二甲苯、氯苯、四氯化碳、1,2-二氯乙烷、间二甲苯和对二甲苯、氯仿、乙苯以及二氯苯。
对SOM输出图重排序,如图5,每种污染物对应一种映射图,其中的颜色梯度可用来识别污染指标间的相关性,相同或相似颜色梯度指示正相关性,相似程度越高,相关性越强。由此可知,1,3-二氯苯、1,4-二氯苯、1,2-二氯苯、1,2,3-三氯苯、2,4-二氯酚、2,6-二氯酚,溴苯间存在较强的相关性;三氯甲烷(氯仿)、锰、甲苯、乙苯、二甲苯、砷、二硫化碳、1,3,5-三甲苯、异丙基苯、苯、苯酚、4-氯甲苯、丙酮、4-甲基-2-戊酮、1-萘胺存在良好相关性;以及四氯化碳、三氯乙烯、四氯乙烯相关性极好,氯苯、1,2-二氯乙烷、2-氯甲苯间也存在较好相关性。
在SOM映射结果基础上,进一步结合K均值算法,得到图6所示的聚类结果,根据SOM映射图可将污染物与聚类一一对应。污染指标被分为4类,根据污染指标映射图,可将聚类与具体污染指标一一对应(图6中仅列部分污染指标)。第一类(Cluster-1)包含绝大部分样本点,相关指标包括氯苯、1,2-二氯乙烷等,说明第一类中的污染物空间分布范围最为广泛,第二类(Cluster-2)包含1,3-二氯苯、1,4-二氯苯、1,2-二氯苯、2,4-二氯酚、2,6-二氯酚以及溴苯,第三类(Cluster-3)包含邻二甲苯、间二甲苯和对二甲苯、甲苯、乙苯、三氯甲烷等;第四类(Cluster-4)中为三氯乙烯、四氯乙烯和四氯化碳三种污染。
表1场地污染物数据统计特征
注:/表示非地下水质量标准(GB/T 14848-2017)要求控制指标
由相关性和聚类结果可知,除个别污染物外,该场地中绝大部分污染物均存在与之相关的污染指标,相当的正相关性说明场地污染物可能具有相似的来源特征,如工业中常用三氯乙烯制备四氯乙烯和四氯化碳,故三者有良好的相关性,同时其在环境介质中可能存在相似的生物化学降解以及迁移扩散途径等行为特征。
进一步分析,得出其相关性主要表现在空间分布的相似性,从属于同一聚类的污染物,其浓度空间分布具有非常高的相似性,有基本一致的高值区。据此在污染场地后续监测中可据相关性的不同,施行先分类后分级的筛选策略,将同一类中的污染指标根据超标倍数或环境风险进行分级别监测,在同一聚类中筛选少数几个污染指标,总体削减需监测指标数目。表2为根据SOM-K均值聚类以及地下水质量标准(GB/T 14848-2017)进行的污染物优化筛选结果,根据超标倍数在Cluster-1至Cluster-4类中分别选择氯苯,1,4-二氯苯,邻二甲苯和四氯化碳以供后续持续监测(筛选出的污染指标)。“/”表示非地下水质量标准(GB/T14848-2017)要求控制指标。
表2地下水中污染物聚类分级优化筛选结果
本发明是一种结合自组织映射神经网络和K均值聚类算法的数据挖掘框架,旨在解决传统数据分析方法在处理污染场地大数据时遇到的诸如高维数据、非线性数据、非高斯分布数据、文本数据、缺失数据等技术难题。针对污染场地开展大数据分析,识别关联性污染物,筛选场地重要污染物指标因子,优化场地污染监测指标数目,最终降低场地监测费用。本发明可为污染场地数据监测、数据分析和决策管理提供技术支持。
Claims (2)
1.一种基于数据挖掘的场地污染特征因子识别和监测指标优化方法,其特征在于,包括以下步骤:
(1)对预先获取的污染场地的地下水污染数据进行预处理;
(2)构建自组织映射神经网络模型,完成模型训练后开展数据降维、相关性解析、可视化分析数据挖掘任务;
(3)对自组织映射分类结果进一步采用K均值算法进行无监督聚类学习,实现特征因子的识别;
(4)对污染指标采取先分类后分级的策略,优化指标的后期监测过程;
所述步骤(2)包括以下步骤:
(21)利用MATLAB软件构建神经网络模型,构建的神经网络模型输出层神经元数量为n为样本数量;同时输出层神经网络尺寸应根据平均量化误差和拓扑误差的大小来设置,两者达到最小值时为最优尺寸;
(22)构建完成的神经网络模型中输入步骤(1)已预处理的数据,模型运行完成后输出所有污染指标自组织映射图;
(23)污染指标自组织映射为高维污染数据的降维结果展示,根据自组织映射图中颜色梯度的相似性可判断相关性,梯度越相近,相关性越高;
所述步骤(3)包括以下步骤:
(31)对自组织映射输出的距离权重U-matrix采用K均值算法进一步开展无监督聚类学习,选择DB指数作为聚类性能度量,最小DB指数对应的聚类数即最优聚类;
(32)根据地下水质量标准筛选部分存在超标严重的指标,同时计算超标指标在所有聚类中的权重分布,若污染指标在所有聚类中均有相当权重,则被确定为该污染场地的污染特征因子即特征污染物;
所述步骤(4)实现过程如下:
(41)在场地后续的污染物监测中采用先分类后分级的优化策略,首先根据前述步骤的最终聚类实现,将所有待监测指标进行分类;
(42)依据污染指标超标倍数以及环境风险对污染指标进行排序任务,根据实际情况在每一类中仅选取少数污染指标供后续监测。
2.根据权利要求1所述的基于数据挖掘的场地污染特征因子识别和监测指标优化方法,其特征在于,所述步骤(1)包括以下步骤:
(11)数据格式标准化:所有污染指标名称位于第一行,按列排,监测点位名称位于最后一列,按行排;
(12)低于检测限的数据值默认设为0;
(13)剔除存在明显有误的属性值;
(14)剔除在所有样本点的属性值均低于检测限或在检测限上下轻微浮动的污染指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182291.2A CN112347155B (zh) | 2020-10-29 | 2020-10-29 | 基于数据挖掘的场地污染特征因子识别和监测指标优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182291.2A CN112347155B (zh) | 2020-10-29 | 2020-10-29 | 基于数据挖掘的场地污染特征因子识别和监测指标优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347155A CN112347155A (zh) | 2021-02-09 |
CN112347155B true CN112347155B (zh) | 2023-11-21 |
Family
ID=74356576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011182291.2A Active CN112347155B (zh) | 2020-10-29 | 2020-10-29 | 基于数据挖掘的场地污染特征因子识别和监测指标优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347155B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887635B (zh) * | 2021-10-08 | 2022-07-01 | 河海大学 | 一种流域相似性分类方法及分类装置 |
CN115495499B (zh) * | 2022-09-22 | 2023-05-30 | 生态环境部南京环境科学研究所 | 一种基于污染场地同介质多批次海量数据的整合统计方法 |
CN117592870B (zh) * | 2024-01-19 | 2024-04-30 | 生态环境部环境规划院 | 基于水环境监测信息的综合分析系统 |
CN117807382B (zh) * | 2024-02-29 | 2024-05-10 | 广东慧航天唯科技有限公司 | 基于智慧物联的排水管网污染监测数据智能处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009048739A2 (en) * | 2007-10-10 | 2009-04-16 | Mks Instruments, Inc. | Chemical ionization reaction or proton transfer reaction mass spectrometry with a quadrupole or time-of-flight mass spectrometer |
CN106529738A (zh) * | 2016-11-28 | 2017-03-22 | 中国环境科学研究院 | 一种地下水污染场地修复技术优化方法 |
CN110363347A (zh) * | 2019-07-12 | 2019-10-22 | 江苏天长环保科技有限公司 | 基于决策树索引的神经网络预测空气质量的方法 |
CN111089852A (zh) * | 2019-12-20 | 2020-05-01 | 中国科学院合肥物质科学研究院 | 一种污染场地石油烃污染物垂直剖面分布原位检测系统 |
CN111666909A (zh) * | 2020-06-11 | 2020-09-15 | 中科山水(北京)科技信息有限公司 | 基于面向对象和深度学习的疑似污染场地空间识别方法 |
-
2020
- 2020-10-29 CN CN202011182291.2A patent/CN112347155B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009048739A2 (en) * | 2007-10-10 | 2009-04-16 | Mks Instruments, Inc. | Chemical ionization reaction or proton transfer reaction mass spectrometry with a quadrupole or time-of-flight mass spectrometer |
CN106529738A (zh) * | 2016-11-28 | 2017-03-22 | 中国环境科学研究院 | 一种地下水污染场地修复技术优化方法 |
CN110363347A (zh) * | 2019-07-12 | 2019-10-22 | 江苏天长环保科技有限公司 | 基于决策树索引的神经网络预测空气质量的方法 |
CN111089852A (zh) * | 2019-12-20 | 2020-05-01 | 中国科学院合肥物质科学研究院 | 一种污染场地石油烃污染物垂直剖面分布原位检测系统 |
CN111666909A (zh) * | 2020-06-11 | 2020-09-15 | 中科山水(北京)科技信息有限公司 | 基于面向对象和深度学习的疑似污染场地空间识别方法 |
Non-Patent Citations (3)
Title |
---|
monitoring effluent quality of wastewater treatment plant by clustering based artificial neural network method;Elnaz Sharghi等;Desalination and water treatment;86-97 * |
基于生态系统服务供需的陕西省土地整治空间分区;王萌辉;白中科;董潇楠;;中国土地科学;第32卷(第11期);73-80 * |
基于自组织神经网络的污染场地多监测指标相关性分析;马春龙等;水文地质工程地质;第48卷(第3期);191-202 * |
Also Published As
Publication number | Publication date |
---|---|
CN112347155A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347155B (zh) | 基于数据挖掘的场地污染特征因子识别和监测指标优化方法 | |
Props et al. | Measuring the biodiversity of microbial communities by flow cytometry | |
CN116186566B (zh) | 基于深度学习的扩散预测方法及系统 | |
Céréghino et al. | Review of the self-organizing map (SOM) approach in water resources: commentary | |
Vamanan et al. | Classification of agricultural land soils a data mining approach | |
Gibert et al. | Knowledge discovery with clustering based on rules by states: A water treatment application | |
CN112735539B (zh) | 基于复合受体模型的污染场地特征污染物的源解析方法 | |
Nadiri et al. | Mapping aquifer vulnerability indices using artificial intelligence-running multiple frameworks (AIMF) with supervised and unsupervised learning | |
Bagley et al. | High-throughput environmental DNA analysis informs a biological assessment of an urban stream | |
CN106815492A (zh) | 一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法 | |
Juahir et al. | Improving oil classification quality from oil spill fingerprint beyond six sigma approach | |
Jiang et al. | Is coarse taxonomy sufficient for detecting macroinvertebrate patterns in floodplain lakes? | |
Marshall et al. | Macroinvertebrate community diversity and habitat quality relationships along a large river from targeted eDNA metabarcode assays | |
Robinson et al. | Multi-marker metabarcoding resolves subtle variations in freshwater condition: Bioindicators, ecological traits, and trophic interactions | |
Lin et al. | Environmental DNA metabarcoding revealed the impacts of anthropogenic activities on phytoplankton diversity in Dianchi Lake and its three inflow rivers | |
Jannicke Moe et al. | Assessing macroinvertebrate metrics for classifying acidified rivers across northern Europe | |
CN117350146A (zh) | 一种基于ga-bp神经网络的排水管网健康性评价方法 | |
CN117541095A (zh) | 一种农用地土壤环境质量类别划分的方法 | |
Saadat et al. | Selection of a suitable soft computing model for estimation of soil cation exchange capacity | |
Benedetti et al. | Optimal sampling designs for dependent spatial units | |
He et al. | Problems in air quality monitoring and assessment | |
Nguyen et al. | Practical application of machine learning for organic matter and harmful algal blooms in freshwater systems: A review | |
Monroy et al. | Diagnosis of undesired scenarios in hydrogen production by photo-fermentation | |
Cejas et al. | Chemometric mapping of polychlorinated dibenzo-p-dioxin (PCDD) and dibenzofuran (PCDF) congeners from the Passaic River, NJ: Integrated application of RSIMCA, PVA, and t-SNE | |
Bissett et al. | Linking niche size and phylogenetic signals to predict future soil microbial relative abundances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |