CN110175739A

CN110175739A - 一种重金属工业污染源解析方法、系统和存储介质

Info

Publication number: CN110175739A
Application number: CN201910295787.1A
Authority: CN
Inventors: 王�琦; 李芳柏; 孙蔚旻
Original assignee: Guangdong Institute of Eco Environmental Science and Technology
Current assignee: Guangdong Institute of Eco Environment and Soil Sciences; Guangdong Institute of Eco Environmental Science and Technology
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-08-27

Abstract

本发明公开了一种重金属工业污染源解析方法、系统和存储介质，方法包括以下步骤：获取待识别区域的重金属污染企业信息和重金属污染数据，从所述重金属污染数据中，获取每个企业以其所在的地理位置为中心的设定半径范围内的重金属污染数据作为条件推理树模型的因变量，以每个企业运行时间、企业类别和企业规模作为条件推理树模型的自变量；通过递归划分算法对条件推理树模型进行推理，在每一次执行递归划分时分别进行置换检验，从而构造出决策因子推理树。本发明具有较强的普适性，能够适用于不同区域不同重金属污染的工业源解析，从而分析出企业运行时间、企业类别和企业规模对重金属污染的影响。本发明可以广泛应用于环境建模技术领域。

Description

一种重金属工业污染源解析方法、系统和存储介质

技术领域

本发明涉及环境建模技术领域，尤其是一种重金属工业污染源解析方法、系统和存储介质。

背景技术

随着人类社会工业化和现代化进程的不断推进,城镇生活污水和垃圾急剧增加、以及工业超标排放使工业中的点源污染日益加剧，重金属污染事件频发,严重危害人体健康。目前，世界各国重金属污染最大的来源是工业排放，贡献大约全球1/3的重金属排放。工业活动通过工业“三废”废气、废水和废渣,以及煤和石油等矿物燃料的燃烧向环境中排放重金属，涉重金属排放的工业企业类别有：采矿、选矿、冶金、电镀、电工、染料、纺织、炼油等。由于这些污染源大多是点性污染源，故对土壤环境来说是不均匀污染，在局部地区土壤重金属污染可能相当严重。然而，不同类别工业过程如何影响重金属污染尚不明确。了解工业源如何影响重金属污染至关重要，将对合理防控污染源，协调社会工业化和社会经济可持续发展具有重要意义。

许多学者针对不同类别的重金属污染进行了工业源解析。然而，解析工业源如何影响重金属污染仍然存在一个重要技术难点：即企业运行时间、企业类别和企业规模与重金属污染之间的关联关系。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种能够识别企业运行时间、企业类别和企业规模对重金属污染的影响的重金属工业污染源解析方法、系统和存储介质。

本发明实施例的第一方面提供了：

一种重金属工业污染源解析方法，包括以下步骤：

获取待识别区域的重金属污染企业信息和重金属污染数据，所述重金属污染企业信息包括企业名称、地理位置、运行时间、企业类别以及企业规模；

从所述重金属污染数据中，获取每个企业以其所在的地理位置为中心的设定半径范围内的重金属污染数据作为条件推理树模型的因变量，以每个企业运行时间、企业类别和企业规模作为条件推理树模型的自变量；

通过递归划分算法对条件推理树模型进行推理，在每一次执行递归划分时分别进行置换检验，从而构造出决策因子推理树。

进一步，所述递归划分算法具体为：

对因变量和单个自变量进行卡方检验，计算出因变量与各自变量的卡方值；

选择卡方值小于设定阈值的自变量进入到条件推理树模型进行递归划分。

进一步，所述选择卡方值小于设定阈值的自变量进入到条件推理树模型进行递归划分，其具体包括：

选择卡方值小于设定阈值的自变量进入到条件推理树模型；

在进入在条件推理树模型的自变量之中选取与因变量相关性最高的自变量作为第一次递归划分的自变量；

通过置换检验确定每次递归划分的方式。

进一步，所述置换检验为基于条件概率分布的推理的置换检验。

进一步，所述置换检验，其具体包括：

获取两组样本数据，

求算两组样本数据的均值之差的绝对值作为第一绝对值；

计算将两组样本数据的并集进行随机均分所得到的分类方式的总数；

计算每一种分类方式中两组随机均分的数据的均值之差的绝对值作为第二绝对值；

计算p值，其中p值等于第二绝对值大于第一绝对值的分类方式的数量除以分类方式的总数；

根据p值判断两组样本数据是否具备差异性。

进一步，所述通过置换检验确定每次递归划分的方式，其具体为：

将置换检验结果为具备差异性的节点作为划分节点。

一种重金属工业污染源解析系统，包括：

数据获取模块，用于获取待识别区域的重金属污染企业信息和重金属污染数据，所述重金属污染企业信息包括企业名称、地理位置、运行时间、企业类别以及企业规模；

数据选择模块，用于从所述重金属污染数据中，获取每个企业以其所在的地理位置为中心的设定半径范围内的重金属污染数据作为条件推理树模型的因变量，以每个企业运行时间、企业类别和企业规模作为条件推理树模型的自变量；

推理模块，用于通过递归划分算法对条件推理树模型进行推理，在每一次执行递归划分时分别进行置换检验，从而构造出决策因子推理树。

进一步，递归划分算法具体为：

本发明实施例的第二方面提供了：

一种重金属工业污染源解析系统，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行所述的重金属工业污染源解析方法。

本发明实施例的第三方面提供了：

一种存储介质，其存储有程序，所述程序被处理器执行时实现所述的重金属工业污染源解析方法。

本发明的有益效果是：本发明通过递归划分算法将运算结果生成决策树，能够避免自变量选择上的偏差，进而得到最优的回归分类结果，此外，通过置换检验步骤自动选择统计上的最优源分类结果，避免了人为选择。并且只需要替换采集的数据，即可自动生成模型，本发明具有较强的普适性，能够适用于不同区域不同重金属污染的工业源解析，从而分析出企业运行时间、企业类别和企业规模对重金属污染的影响。

附图说明

图1为本发明一种具体实施例的重金属工业污染源解析方法的流程图；

图2为本发明另一种具体实施例的重金属工业污染源解析方法的流程图；

图3为本发明一种具体实施例的某市的重金属镉的工业污染源解析的条件推理树图；

图4为本发明一种具体实施例的某市的重金属铅的工业污染源解析的条件推理树图。

具体实施方式

下面结合说明书附图和具体的实施例对本发明进行进一步的说明。

参照图1，本实施例公开了一种重金属工业污染源解析方法，其包括以下步骤：

S101、获取待识别区域的重金属污染企业信息和重金属污染数据，所述重金属污染企业信息包括企业名称、地理位置、运行时间、企业类别以及企业规模。

其中，所述运行时间是指经营的年份，其可以是从建厂开始计算，也可以按照实际工作时间来计算，例如，某个企业在某一年实施了停产，那么这一年不算入运行时间内。所述企业类别，包括化工、电子和机械制造等不同的类别。所述地理位置是指经纬度坐标。所述企业规模是指产能。所述重金属污染数据，是指待识别区域中全部的重金属污染数据，重金属污染数据一般通过定点采样得到。

S102、从所述重金属污染数据中，获取每个企业以其所在的地理位置为中心的设定半径范围内的重金属污染数据作为条件推理树模型的因变量，以每个企业运行时间、企业类别和企业规模作为条件推理树模型的自变量；

本实施例从重金属污染数据中筛选出企业附近的数据进行分析，能够更加准确地分析出企业与污染的关联性。

S103、通过递归划分算法对条件推理树模型进行推理，在每一次执行递归划分时分别进行置换检验，从而构造出决策因子推理树。

其中，条件推理树对分类结果的预测是基于一个或者多个输入变量并结合划分条件完成的。分类过程从条件推理树树根结点开始：在每一个节点，递归划分算法将根据自变量的划分条件检查输入变量是否需要断续向左子叶树与右子叶树递归进行划分，当达到任意分类树的子节点(终点)时，停止分类。通过递归划分算法将运算结果生成决策树，并且在递归划分的每一步分别进行基于条件推理的置换检验。条件推理树选择分类变量时的依据是置换检验的显著性测量的结果。通过递归划分过程，不断减少自变量，再重新绘制分类树，最终得到一颗最简化的条件推理树。输出结果图可以显示出每个中间节点的相应的自变量名称与p值，划分条件在左右的分枝上有所显示，叶子节点可以显示不同类别样本的个数n，以及样本的统计。

条件推理：基于条件概率分布的推理，条件概率分布定义为：已知两个相关的m维的随机变量X＝(x₁,…,x_m)和Y，随机变量Y在条件{X＝x}下的条件概率分布是指当已知X的取值为某个特定值x之时，Y的概率分布，用D(Y/X)表示。我们用基于树结构划分递归模型来描述在m个自变量X条件下的因变量Y的条件概率分布D(Y/X)。X＝(x₁,…,x_m)和Y可以是任意尺度的数据，我们假设在自变量X条件下的因变量Y的条件概率分布D(Y/X)取决于自变量的函数f。

D(Y/X)＝D(Y/X₁,X₂,…,X_m)＝D(Y/f(X₁,X₂,…,X_m))

其中，X₁,X₂,……,X_m表示m个自变量；Y表示因变量，D(Y/X)表示条件概率分布。

递归划分算法：首先对因变量和单个自变量进行卡方检验，计算出因变量与所有自变量的卡方值，选择p值小于阈值(如0.05，一般小样本和中等样本都为0.05)的自变量进入分类条件推理树模型，通过这步确定进入模型的自变量，下一步选择哪个自变量作为第一次划分的自变量也就是最重要的自变量，在进入模型的自变量中，选择与因变量的相关性最高的那个自变量作为第一次划分的自变量。用置换检验来确定划分方法。例如通过置换检验选取一个划分节点将一个自变量划分为两个部分，如果这两个部分有显著差异，则可以根据该节点划分条件推理树的节点。以此递归划分进行下去，在所有自变量中，自变量的重要性次序逐一被选出，通过条件推理树的节点次序表示自变量的重要性次序，比如，结点1重要性大于节点2，结点4重要性大于节点5。

置换检验：是一种基于大量计算，利用样本数据的随机排列进行统计推断的方法。因其对总体分布自由，特别适合用于总体分布未知的小样本数据，以及一些常规方法难以使用的假设检验情况。置换检验的基本思想是：在H0假设成立的前提下，根据研究目的构造一个检验统计量，并利用样本数据，按排列组合的原理，导出检验统计量的理论分布，在实际中往往因为排列组合数太多，而模拟其近似分布，然后求出在该分布中出现观察样本及更极端样本的概率(p值)，通过和0.05比较，做出统计推断。如果p>0.05，表明H0假设成立时，当前样本的出现是很平常的，不拒绝H0假设；如果p<0.05，表明H0假设成立时，观察样本的出现是小概率事件，基于小概率在一次样本中基本不发生的原理，可以认为H0假设不成立，也就是不接受H0假设。

下面以成组设计的两样本均数比较的双侧检验为例,介绍置换检验实施的具体步骤：

1)建立假设,确定检验水准。

与传统假设检验相同。H0:μ1＝μ2；H1:μ1≠μ2；α＝0.05(双侧检验)。

2)构造统计量D,并计算现有样本统计量Do。

检验统计量可以根据实际情况构造，无需考虑检验统计量的理论抽样分布，这是置换检验的特点。此处，可选两样本均数之差“X1-X2”作为统计量D。

3)在H0假设条件下，通过计算机模拟得到统计量D的“经验抽样分布”。

①在H0假设成立的条件下，即两样本来自同一个总体,均为总体的随机样本，那么对样本数据重新随机分组(各组样本含量不变)，得到的新样本也是总体的两个随机样本，称之为置换样本。并据此计算检验统计量D。

②重复步骤①k次(如100000次，理论上讲，模拟的次数越多越好，但占用计算机资源。如果模拟1000次所得P值远离0.05，从统计推断的角度而言，模拟1000次也就足够了；但若需了解“确切”概率或所构造统计量的“确切”分布，考虑结果的相对稳定性，至少应模拟50000次，建议模拟100000次以上。样本含量越大，对模拟次数的要求也越高)。

③根据k个置换样本的统计量D，即可得到D的“经验抽样分布”。

4)计算概率P。

在H0假设成立的前提下，P值为“经验抽样分布”中D值大于等于(或小于等于)现有样本统计量Do的概率，即：

P＝P(|D|≥|Do|)＝number(|D|≥|Do|)/K

其中，分母k为随机重复的次数，number为分子为分母中D≥Do的次数。

5)根据小概率原理作出推断性结论。

作为优选的实施例，所述递归划分算法具体为：

本实施例使用条件推理树解析重金属工业污染源的优点是其非常灵活也易于理解，可以同时解决分类和回归两种问题，条件推理树是一种无参算法，意味用户不需要担心数据是否线性可分。通过递归划分算法将运算结果生成决策树，能够避免自变量选择上的偏差，进而得到最优的回归分类结果。此外，通过置换检验步骤自动选择统计上的最优源分类结果，避免了人为选择。并且只需要替换采集的数据，即可自动生成模型，本发明具有较强的普适性，能够适用于不同区域不同重金属污染的工业源解析。

作为优选的实施例，所述选择卡方值小于设定阈值的自变量进入到条件推理树模型进行递归划分，其具体包括：

选择卡方值小于设定阈值的自变量进入到条件推理树模型；

通过置换检验确定每次递归划分的方式。

选择与因变量相关性最高的自变量作为第一次递归划分的自变量，能够优化递归划分的的分类结果。

作为优选的实施例，所述置换检验为基于条件概率分布的推理的置换检验。

本实施例对数据总体分布自由，应用广泛，特别适用于某些难以用常规方法分析的假设检验问题，通过对样本进行顺序上的置换，构造“多采样”以实现大样本分析。

作为优选的实施例，所述置换检验，其具体包括：

获取两组样本数据，

求算两组样本数据的均值之差的绝对值作为第一绝对值；

根据p值判断两组样本数据是否具备差异性。

作为优选的实施例，所述通过置换检验确定每次递归划分的方式，其具体为：

将置换检验结果为具备差异性的节点作为划分节点。

本实施例能够判断两组样本(即划分决策树的同一分枝的两个节点所用的样本)所代表的总体是否存在差别及划分条件；判断小样本结果的总体观测值是否有效；克服小样本难确定样本总体分布带来的风险。

参照图2，本实施例公开了一种重金属工业污染源解析方法，其包括以下步骤：

S201、获取研究区域的土壤重金属的污染源数据和分点采样的污染数据；

步骤S201具体为：确定重金属工业污染源解析的区域，搜集区内重金属污染数据和工业污染源数据；搜集区内尽可能多的重金属污染企业信息，包括企业名称，地理位置，运行时间、企业类别和规模，以及分点采样或者分区的重金属污染数据。

最后以每个重金属污染企业所在地理位置为圆心，以污染企业影响范围6500米为半径画圆，计算每个圆内重金属含量的均值(土壤或者大气或者水体中重金属的含量)。例如，区域内一共450个重金属污染企业，以每个重金属污染企业为圆心，以6500米为半径画圆，计算每个圆内的土壤重金属含量的均值。以上分析可以在Arcgis10.2.1软件中实现。

S202、以每个重金属污染企业点在设定半径范围内的所有重金属污染企业数据作为条件推理树模型的自变量，以每个重金属污染企业影响范围内的重金属含量的均值数据作为条件推理树模型的因变量，对条件推理树模型进行推理。

S203、通过递归划分过程，在递归划分的每一步分别进行基于条件推理的置换检验，构造满足条件的决策因子推理树，识别条件推理树模型重要决策自变量。

参照图3和图4，本实施例以某市的土壤重金属污染为例，对本发明进行详细的应用说明。本实施例包括以下内容：

以某市作为土壤污染工业源解析区域。

数据来源：2018年某市的国家重点环境保护监控企业450家，重金属污染企业信息，包括企业名称，地理位置，运行时间，企业类别和企业规模；2018年某市的土壤重金属铅和镉污染空间分布图,空间分辨率为1000米。

根据土壤铅和镉含量数据以及污染企业数据，土壤铅(镉)含量作为条件推理树模型的因变量，每个企业运行时间、企业类别和规模数据作为条件推理树模型的自变量，进行条件推理树模型模拟，通过递归划分过程，构造满足条件的决策因子推理树，识别条件推理树模型重要决策自变量即工业源。

其中，数据分析借助软件Arcgis10.2.1完成，条件推理树模型模拟借助R语言编辑的程序完成。

其中，图3和图4是某市土壤重金属工业污染源解析的条件推理树图。图3和图4中表明，企业运行时间和企业类别的p值均小于0.05。企业运行时间是影响土壤镉浓度最重要的工业自变量，当所有类别的企业运行时间大于11.97年时，土壤镉浓度累积达到区域均值为0.80mg/kg，远远超过国家土壤镉浓度标准0.30mg/kg。当企业运行时间小于等于11.97年时，企业类别是影响土壤镉浓度最重要的工业自变量，受企业类别黑色和有色金属冶炼和压延加工业，黑色和有色金属矿采选业，污水处理业，生态保护和环境治理业的影响，土壤镉浓度累积达到区域均值为0.85mg/kg，也远远超过国家土壤镉浓度标准。受企业类别造纸和纸制品业，汽车制造业，金属制品业，计算机、通信和其他电子设备制造业，化学原料和化学制品制造业，规模化畜禽养殖，公共设施管理业，废弃资源综合利用业，电气机械和器材制造业和仓储业的影响，土壤镉浓度累积达到区域均值为0.10mg/kg,远远低于国家土壤镉浓度标准。

企业类别是影响土壤铅浓度最重要的工业自变量，当受企业类别为黑色和有色金属冶炼和压延加工业，黑色和有色金属矿采选业，医药制造业和纺织业的影响，土壤铅浓度累积达到区域均值为91.28mg/kg,远远超过国家土壤铅浓度标准80.00mg/kg。对于类别为造纸和纸制品业，污水处理业，生态保护和环境治理业，汽车制造业，皮革、毛皮、羽毛及其制品和制鞋业，金属制品业，计算机、通信和其他电子设备制造业，化学原料和化学制品制造业，规模化畜禽养殖，公共设施管理业，废弃资源综合利用业，电力、能源行业，电气机械和器材制造业和仓储业的企业，企业运行时间是影响土壤铅浓度最重要的工业自变量，当企业运行时间大于12.05年时，土壤铅浓度累积达到区域均值为65.15mg/kg，没有达到国家土壤铅浓度标准。当企业运行时间小于等于12.05年时，企业类别是影响土壤铅浓度最重要的工业自变量，当受企业类别为污水处理业，生态保护和环境治理业，金属制品业，规模化畜禽养殖和电气机械和器材制造业的影响，土壤铅浓度累积达到区域均值为57.28mg/kg,当受企业类别为造纸和纸制品业，汽车制造业，计算机、通信和其他电子设备制造业，化学原料和化学制品制造业，公共设施管理业，废弃资源综合利用业和仓储业的影响，土壤铅浓度累积达到区域均值为46.62mg/kg,均没有达到国家土壤铅浓度标准80.00mg/kg。因此，企业运行时间和企业类别是影响土壤镉和铅浓度最重要的工业源。其中，企业运行时间是影响土壤镉浓度最重要的工业源，企业类别是影响土壤铅浓度最重要的工业源。

在本实施例中影响土壤重金属铅的工业企业类别是金属冶炼和压延加工业，金属矿采选业，医药制造业和纺织业；影响土壤重金属镉的工业企业类别是金属冶炼和压延加工业，金属矿采选业，污水处理业和生态保护和环境治理业。

可见，本实施例能够顺利地识别企业运行时间、企业类别和企业规模对重金属污染的影响。

本实施例公开了一种重金属工业污染源解析系统，其包括：

作为优选的实施例，递归划分算法具体为：

本实施例公开了一种重金属工业污染源解析系统，其包括：

存储器，用于存储程序；

本实施例公开了一种存储介质，其存储有程序，所述程序被处理器执行时实现所述的重金属工业污染源解析方法。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种重金属工业污染源解析方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种重金属工业污染源解析方法，其特征在于：所述递归划分算法具体为：

3.根据权利要求2所述的一种重金属工业污染源解析方法，其特征在于：所述选择卡方值小于设定阈值的自变量进入到条件推理树模型进行递归划分，其具体包括：

选择卡方值小于设定阈值的自变量进入到条件推理树模型；

通过置换检验确定每次递归划分的方式。

4.根据权利要求3所述的一种重金属工业污染源解析方法，其特征在于：所述置换检验为基于条件概率分布的推理的置换检验。

5.根据权利要求4所述的一种重金属工业污染源解析方法，其特征在于：所述置换检验，其具体包括：

获取两组样本数据，

求算两组样本数据的均值之差的绝对值作为第一绝对值；

根据p值判断两组样本数据是否具备差异性。

6.根据权利要求5所述的一种重金属工业污染源解析方法，其特征在于：所述通过置换检验确定每次递归划分的方式，其具体为：

将置换检验结果为具备差异性的节点作为划分节点。

7.一种重金属工业污染源解析系统，其特征在于：包括：

8.根据权利要求7所述的一种重金属工业污染源解析系统，其特征在于：所述递归划分算法具体为：

9.一种重金属工业污染源解析系统，其特征在于：包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如权利要求1-6任一项所述的方法。

10.一种存储介质，其存储有程序，其特征在于：所述程序被处理器执行时实现如权利要求1-6任一项所述的方法。