CN113111964A - 场地污染特征分析方法、装置、电子设备和存储介质 - Google Patents
场地污染特征分析方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113111964A CN113111964A CN202110464605.6A CN202110464605A CN113111964A CN 113111964 A CN113111964 A CN 113111964A CN 202110464605 A CN202110464605 A CN 202110464605A CN 113111964 A CN113111964 A CN 113111964A
- Authority
- CN
- China
- Prior art keywords
- data
- pollution
- environmental
- correlation
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Processing Of Solid Wastes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了场地污染特征分析方法、装置、电子设备和存储介质。该方法包括:获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素;根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性;根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据;根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。基于该方法和装置,可以顾及被分析区域中的环境因素对于被分析区域污染状态的影响,对被分析区域的污染特征进行综合分析,从而提供更为全面和准确的分析结果。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及场地污染特征分析方法和装置。
背景技术
随着国家倡导生态经济,各行各业都开始注意到环境保护的重要性。针对污染超标场地,一般通过环境治理来改善环境质量、促进环境保护与社会发展。目前国内外场地治理技术主要包括:物理手段、化学手段和生物手段。物理修复和化学修复通过物理、化学手段来分离和固定污染物质,其施工方便、周期较短的优点在场地污染修复中得到广泛应用。但因为施工量大、成本较高影响了污染治理的效果。生物修复主要包括植物修复和微生物修复,其中,植物修复应用广泛,其成本低、无二次污染的优点适合大范围的场地修复。但由于植物生长依赖于土壤环境,面对污染严重、环境恶劣的场地,植物修复受植物生长局限、植物覆盖深度有限和修复时间漫长等限制。考虑到三种修复技术的优点和局限性,在场地污染修复的时候,应充分考虑污染的空间分布特征,才能有的放矢地开展合理的修复工作。
传统场地污染特征分析研究,往往是考虑某一区域特定污染物的污染状态,或是采用相对单一的评价方法进行评价分析,因此难以全面地了解污染物的污染特征,进而也导致难以科学合理地开展场地污染治理和修复工作。
发明内容
本发明实施例的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
本发明实施例提供了场地污染特征分析方法、装置、电子设备和存储介质,其顾及被分析区域中的环境因素,对被分析区域的污染特征进行综合分析,提供更为全面和准确的分析结果。
第一方面,提供了一种场地污染特征分析方法,包括:
获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素;
根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性;
根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据;
根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。
可选地,所述污染数据包括多种环境数据,所述多种环境数据用于描述所述被分析区域中的多个环境因素。
可选地,所述多个环境因素包括针对所述污染物的污染评价指标、空间地理位置、在所述被分析区域中所处的分区位置和/或自然要素属性。
可选地,所述根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性,包括:
根据所述污染数据,基于提升决策树算法确定所述环境因素与所述污染物浓度之间的相关性。
可选地,所述决策树算法为XGBoost算法。
可选地,所述根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据,包括:
基于所述多个环境因素与所述污染物浓度之间的相关性,对所述多种环境数据进行加权求和,计算出所述环境污染特征数据。
可选地,所述根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征,具体通过以下公式实现:
其中,P为所述被分析区域的污染特征值,PEnv为环境污染特征值,PPol为所述污染物浓度数据经过归一化和标准化处理之后与所述环境污染特征值具有统一量纲的数值,a为常数,a>1。
可选地,所述根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征之后,所述方法还包括:
根据所述被分析区域的多个采样位置的污染特征,确定所述被分析区域的污染空间分布特征。
可选地,所述污染物为六价铬;所述多个环境因素包括经度、纬度、高程、土壤深度、在所述被分析区域中所处的分区位置、土壤质地以及所述污染物的超标倍数。
第二方面,提供了一种污染特征分析装置,包括:
污染数据获取模块,用于获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素;
相关性确定模块,用于根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性;
环境污染特征数据确定模块,用于根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据;
污染物污染特征确定模块,用于根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。
可选地,所述污染数据包括多种环境数据,所述多种环境数据用于描述所述被分析区域中的多个环境因素。
可选地,所述多个环境因素包括针对所述污染物的污染评价指标、空间地理位置、在所述被分析区域中所处的分区位置和/或自然要素属性。
可选地,所述相关性确定模块,具体用于:
根据所述污染数据,基于提升决策树算法确定所述环境因素与所述污染物浓度之间的相关性。
可选地,所述决策树算法为XGBoost算法。
可选地,所述环境污染特征数据确定模块,具体用于:
基于所述多个环境因素与所述污染物浓度之间的相关性,对所述多种环境数据进行加权求和,计算出所述环境污染特征数据。
可选地,所述污染物污染特征确定模块,具体通过以下公式实现:
其中,P为所述被分析区域的污染特征值,PEnv为环境污染特征值,PPol为所述污染物浓度数据经过归一化和标准化处理之后与所述环境污染特征值具有统一量纲的数值,a为常数,a>1。
可选地,所述装置还包括:
污染物空间分布特征确定模块,用于根据所述被分析区域的多个采样位置的污染特征,确定所述被分析区域的污染空间分布特征。
可选地,所述污染物为六价铬;所述多个环境因素包括经度、纬度、高程、土壤深度、在所述被分析区域中所处的分区位置、土壤质地以及所述污染物的超标倍数。
第三方面,提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行以上所述的方法。
第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现以上所述的方法。
本发明实施例至少包括以下有益效果:
本发明实施例提供的场地污染特征分析方法和装置,首先获取污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述被分析区域中的环境因素,之后根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性,再根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据,最后根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。基于该方法和装置,可以顾及被分析区域中的环境因素对于被分析区域污染状态的影响,对被分析区域的污染特征进行综合分析,从而提供更为全面和准确的分析结果。
本发明实施例的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。
附图说明
图1本发明一个实施例提供的场地污染特征分析方法的流程图;
图2为本发明一个实施例提供的决策树算法的原理示意图;
图3a为本发明另一个实施例提供的基于随机森林算法的相关性分析结果;
图3b为本发明另一个实施例提供的基于GBDT算法的相关性分析结果;
图3c为本发明另一个实施例提供的基于XGBoost算法的相关性分析结果;
图3d为本发明另一个实施例提供的基于随机森林算法、GBDT算法和XGBoost算法的相关性分析的比较结果;
图4a为本发明一个实施例提供的第一土层中污染空间分布图;
图4b为本发明一个实施例提供的第二土层中污染空间分布图;
图4c为本发明一个实施例提供的第三土层中污染空间分布图;
图4d为本发明一个实施例提供的第四土层中污染空间分布图;
图5为本发明一个实施例提供的场地污染特征分析装置的结构示意图;
图6为本发明一个实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
传统场地污染特征分析研究往往只考虑某一区域特定污染物的污染状态,或是采用相对单一的评价方法进行评价分析。然而,在研究中发现,相同污染物在不同环境下所衍射出的污染影响会呈现出不同的结果。也就是说,实际上污染物对于环境的影响不仅取决于污染物自身的浓度,还依赖于其所处的环境。基于此,本发明实施例提出一种场地污染特征分析方法,该方法旨在,根据污染数据确定环境因素和污染物浓度之间的相关性,根据环境数据以及环境因素与污染物浓度之间的相关性确定环境污染特征数据,并进一步根据环境污染特征数据和污染物浓度数据,确定被分析区域的污染特征,这样可以将环境因素结合到被分析区域的污染特征的分析过程中,从宏观层面上实现多因素共同作用下的污染特征分析。该方法改变了传统单一数据下的污染特征分析,从综合视角分析被分析区域的污染状态,可为有关部门对场地修复治理提供一定的参考。
图1为本发明实施例提供的场地污染特征分析方法的流程图,该方法由具有处理能力的系统、服务端设备或场地污染特征分析装置执行。如图1所示,上述方法包括:
步骤110,获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素。
污染物对于环境的影响不仅取决于污染物自身的浓度,还依赖于其所处的环境。因此,将环境因素作为污染数据的一部分,用于对被分析区域的污染特征的分析,可以获得更加全面和准确的分析结果,进而更加全面的掌握被分析区域的污染状态。
这里,环境因素可以是从构成被分析区域的环境的诸多要素中选择出来的。由于污染物同样也构成被分析区域的环境的一部分,作为构成被分析区域的环境的要素之一,污染物的污染评价指标也可以作为环境因素,参与污染物的污染特征的分析。
环境数据用于描述相应的环境因素。例如,土壤作为环境要素之一,该要素相应的环境因素为土壤质地,对于土壤质地这一环境因素,其相应的环境数据可以是填土、粉质沙土、粉土等,还可以其他的可以描述土壤质地的环境数据。对于污染物的污染评价指标,则可以是污染物的超标倍数等用于评价污染物含量的指标。
污染物对环境的影响不仅取决于其自身,还取决于其周围环境。即环境本身与污染物之间相互作用,共同决定了被分析区域的污染状态。环境中可能与污染物产生相互作用的要素可能不仅有一个,因此,在一些实施例中,所述污染数据包括多种环境数据,所述多种环境数据用于描述所述被分析区域中的多个环境因素。这里,一个更高维度的环境因素可以分解为更低维度的多个环境因素,例如空间地理位置这一环境因素,可以进一步分解为经度、维度、高程和土壤深度等多个维度的环境因素,以达到全面表示该更高维度的环境因素的目的。在另一些实施例中,在场地环境极其简单的情况下,也可以仅选择一个环境因素,参与被分析区域的污染特征的分析。
在一些实施例中,所述多个环境因素包括针对所述污染物的污染评价指标、空间地理位置、在所述被分析区域中所处的分区位置和/或自然要素属性。空间地理位置是指在自然环境中的地理位置,可以进一步分解为经度、维度、高程和土壤深度等多个维度的环境因素。污染物浓度分布可以随着空间地理位置的改变而发生变化,因此空间地理位置可以作为参与被分析区域的污染特征分析的一个环境因素。当被分析区域属于生产或施工场所时,可以依据生产环节或施工作业环节或者在被分析区域之间的活动规律将被分析区域划分为多个功能分区,即多个分区位置,不同的功能分区对应着不同的生产环节或者施工作业环节,而不同的生产环节或者施工作业环节所造成的污染物排放情况可能是不同的,因此功能分区可以作为参与被分析区域的污染特征分析的一个环境因素。自然要素是指那些构成自然环境的要素,例如空气、水、土壤、微生物、植物、动物等。自然要素的特性和状态可以由自然要素属性描述。例如,土壤质地、地表形态均属于土壤属性。污染物浓度分布会根据自然要素属性的不同而产生差异,因此可以作为参与被分析区域的污染特征分析的一个环境因素。
对于污染数据,须进行归一化和标准化的处理,以便进行后续运算。通过各种形式、各种手段获取的场调数据呈现各式各样的形式,主要分为结构化数据和非结构化数据、文本信息和数值数据等,不同结构、不同属性的数据之间无法直接构建模型,难以计算其相关性,因此,需要对于多源异构数据进行相应的转换,对多源异构数据进行归一化和标准化,整合多源异构污染数据,为开展相关性分析以及被分析区域的污染特征分析做准备。
结构化数据主要是实测数据,包括采样点的经纬度、高程和污染物浓度等信息。这些结构化信息通过数据表格进行记录和存储,满足后续运算的模型输入层数据格式,因此无需过多处理,只需要构建统一的数据表,根据采样点编号对于数据进行整理,将多个数据表整合为一个以采样点位建立索引的数据表。
非结构化数据主要是来自于场地背景调查文档,常以文本形式存储。文本信息可以根据分析需求对数据进行文本提取。以土壤质地和分区位置这两个环境因素为例。在某一被分析区域中,土壤质地主要包括粉土、填土、粉质沙土、粉质粘土和粘质粉土等五种;又将该区域按功能分为A区、B区、C区、D区和E区等五个功能区。由于非结构化数据以文本形式存在,不便于数理计算,因此,需将文本数据用数值代替,并构建一一对应的映射关系,如表1所示。
表1文本信息管理
在对多源异构污染数据开展融合分析时,为了克服多源异构污染数据之间量纲不同造成的影响,需要在使用统计分析方法之前,将每个指标“标准化”,如式(1)所示。
步骤120,根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性。
相关性分析是指对两个或者多个具有相关性变量因素之间进行分析,衡量变量因数间的相关密切程度。相关性分析是数理统计中常用的分析方法之一,结合不同数据的特征进行分析,挖掘数据间的关联关系,发现事件中的关键因素及驱动因素。场地污染状态不仅是污染物浓度的单一反应,还涉及其周围环境的综合反应。不同环境下的污染物对于环境和人类的污染程度存在明显差异。因此,研究污染物与环境因素之间的关系,从多维视角进行场地污染分析,能够避免仅从单一污染物浓度指标进行片面的评价分析。
相关性分析可分为定性分析和定量分析。定性分析是指判断元素之间的关系呈现正相关、负相关或不相关;定量分析是指寻找一个指标值去描述元素间的关系强弱。相关性分析方法包括图表分析法、协方差及协方差矩阵法、相关系数法、回归分析法和信息熵法。这些方法均能一定程度上实现变量之间的分析,但场地污染涵盖多维数据,污染特征值是一个过程指标,而影响这个结果的因素还包括其他环境变量。环境变量,如土壤质地、分区位置等信息,无法用数字进行度量。而信息熵法能够针对场地污染数据发现具体特征与最终结果的密切关系,因此,本发明实施例采用信息熵法开展场地污染与环境因素的相关性分析,并通过决策树算法来具体实现信息熵的计算。
决策树算法是一种分类与回归分析机器学习算法,通常以if-then的形式开展运算。图2为本发明实施例提供的决策树算法的原理示意图,决策树是一种树形结构,由根节点、分支与叶节点三部分组成。根节点表示一个属性,叶节点表示分类类别,分支表示输出结果。一般由自上而下的递归算法生成决策树,建立决策树的过程包括特征的选择、决策树的生成和决策树的修剪。根据数据属性度量的不同,决策树算法分为ID3算法、C4.5算法和CART算法,如表2所示。
表2不同决策树算法度量方法
决策树算法 | 度量方法 |
ID3 | 信息增益 |
C4.5 | 信息增益率 |
CART | GINI指数 |
上述三种算法都可以实现简单数据集的分析,然而场地污染是涵盖复杂因素的综合体,当数据量大的时候,算法规则复杂,计算过程冗余,建模效率低下,并且当数据噪点过多时,上述三种算法均易出现过拟合现象。因此,为了避免过拟合,提高分析效率,在一些示例中,根据所述污染数据,基于提升决策树算法确定所述环境因素与所述污染物浓度之间的相关性。提升决策树算法为基于上述经典的三种决策树算法所提出的,包括随机森林、GBDT和XGBoost算法。
XGBoost算法基于CART决策树,通过正则化方式防止了模型过拟合现象,同时在特征粒度上进行了并行计算,考虑了训练数据为稀疏值的情况,大大提高了运算效率。因此,XGBoost算法能准确判断环境数据间的相关性,可为计算环境污染特征值提供相对准确的权重系数。因此,本发明实施例优选采用XGBoost算法实现环境因素与污染物浓度之间的相关性分析。
具体地,在进行相关性分析时,将每个采样点的污染物浓度数据以及多种环境数据作为一组分析数据,然后将多个采样点所对应的多组分析数据输入决策树模型中,以计算各环境因素的权重。
步骤130,根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据。
基于多个环境因素的相关性指标,可以计算环境污染特征值,量化评价环境因素的污染风险等级,为顾及环境因素的污染特征分析提供环境相关指标。在一些实施例中,所述根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据,包括:基于所述多个环境因素与所述污染物浓度之间的相关性,对所述多种环境数据进行加权求和,计算出所述环境污染特征数据。具体地,将标准化后的环境数据通过线性加权的方式得到环境污染特征值,如式(2)所示。线性加权法是一种函数评价法,可以按照各环境因素的重要性赋予其对应的权系数,通过线性组合寻求最优解。
式中,L为环境污染特征值,fk(x)为第k个环境因素的环境数据,wk≥0(k=1,2,……,m)为第k个环境因素的权系数,m为环境因素的个数,且有:
这里,为实现计算,环境数据fk(x)为经过归一化和标准化处理之后的数据。环境数据可以与污染物浓度数据同时进行归一化和标准化处理,从而使得环境数据与污染物浓度数据处于统一的量纲下。
步骤140,根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。
单因子污染指数法是一种污染物的污染等级评价方法,其通过污染物含量的实测值和标准规范值的比值来量化污染物的污染等级:
式(4)中,Pi为第i种污染物的污染指数,Ci为第i种污染物的实测值,Si为第i种污染物的标准规范值。
单因子污染指数法只能反映单一污染物的污染等级,但一个区域的污染状态往往不是一种元素造成的,因此,该方法不能全面地反映被分析区域的污染状态。
传统的内梅罗污染指数法是一种污染综合评价指数计算方法。该方法先计算求出各污染物的超标倍数,然后计算全部污染物超标倍数的平均值和最大值。这里平均值和最大值可以利用单因子污染指数法计算得到。内梅罗污染指数法考虑单因子污染指数的平均值和最高值,选用权重最高的污染物进行综合评价被分析区域的污染状态,计算公式如式(5)和式(6)所示:
传统的内梅罗污染指数法可考虑区域内的污染影响权重大小,综合地反映被分析区域的污染状态。然而,传统的内梅罗污染指数法未考虑到环境因素对于被分析区域的污染状态的影响。
为了将环境因素纳入评价体系,相较于传统的内梅罗污染指数法,本发明实施例提供了改进的污染指数计算方法。在一些实施例中,所述根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征,具体通过以下公式实现:
其中,P为所述被分析区域的污染特征值,PEnv为环境污染特征值,PPol为所述污染物浓度数据经过归一化和标准化处理之后与所述环境污染特征值具有统一量纲的数值,a为常数,a>1。
将PEnv引入公式中,可以实现顾及环境因素对于被分析区域的污染特征的影响。对于PEnv和PPol,当二者中的任意一个越大,其平方越大,当二者中的任意一个越小,其平方也越小,因此,对二者平方,可以突出对被分析区域的污染特征影响更大的那一项。当所计算出的PEnv和PPol的平方和的平方根过小时,不利于比较和分析,因此利用系数a将污染特征值调节至合适的区间。a可以取值为10。
在对被分析区域的污染特征进行分析时,可以预先设置多个采样点,采集每个采样点的污染物浓度数据和环境数据。因此,在步骤130中,可以根据每个采样点的环境数据以及环境因素与污染物浓度之间的相关性,确定该采样点的环境污染特征数据。进一步地,在步骤140中,结合每个采样点的环境污染特征数据和污染物浓度数据,即可以确定被分析区域中每个采样点的污染特征。这里,可以直接以被分析区域中每个采样点的污染特征作为被分析区域的污染特征。也可以对全部采样点的污染特征进行分析(例如计算全部采样点的污染特征值的算数平均值),从而得到被分析区域的污染特征。
进一步地,所述根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征之后,所述方法还包括:根据所述被分析区域的多个采样位置的污染特征,确定所述被分析区域的污染空间分布特征。这里,一个采样位置即对应一个采样点。具体地,为了提高采样效率,可以根据以下方式设置采样点,即选取地表的一个点,向下采集位于不同土壤深度的采样位置的采样数据,则此时的多个采样点实际具有相同的经纬度和功能分区信息,具有不同的土壤深度、高程以及污染物浓度信息。基于每个采样点的污染特征以及每个采样点的空间地理位置,则可以确定被分析区域的污染空间分布特征。可以使用可视化的方式将被分析区域的污染空间分布特征展示出来。
综上所述,本发明实施例提供的场地污染特征分析方法,首先获取污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述被分析区域中的环境因素,之后根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性,再根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据,最后根据所述环境污染特征数据和所述污染物浓度数据,确定所述污染物的污染特征。基于该方法和装置,可以顾及被分析区域中的环境因素对于被分析区域污染状态的影响,对被分析区域的污染特征进行综合分析,提供更为全面和准确的分析结果。
以下结合一个具体场景来描述本发明实施例提供的场地污染特征分析方法。
本实施例以某铬盐化工厂为研究对象,污染物主要是六价铬,分析该场地内土壤污染情况。对场地中多个采样点进行采样,采集每个采样点的采样点经度、采样点纬度、土壤深度、高程、土壤质地、功能分区、污染物超标倍数和污染物浓度等八个指标。其中,土壤质地和功能分区均依照表1进行设计。经归一化和标准化处理,数据处理结果如表3所示。
表3土壤污染指标标准化
编号 | 经度 | 纬度 | 土层 | 高程 | 土壤质地 | 功能分区 | 超标倍数 |
S1 | -0.50 | 1.72 | -1.32 | 0.97 | -1.14 | -1.22 | 2.23 |
S2 | 0.05 | 1.77 | -1.32 | 0.47 | -1.14 | -1.22 | 1.74 |
…… | …… | …… | …… | …… | …… | …… | …… |
基于多源异构污染数据归一化和标准化后的数据集,对不同数据源的场地环境数据开展相关性分析,以期提取环境因素与污染物浓度之间的关联关系。本实施例选用随机森林算法、GBDT算法和XGBoost算法对影响Cr(VI)含量的影响因子进行相关性研究。基于Python语言在Tensorflow中实现三种相关性分析算法,相关性分析结果见表4。
表4相关性分析结果
方法 | 经度 | 纬度 | 功能分区 | 高程 | 土壤深度 | 土壤质地 | 超标倍数 |
随机森林 | 0.05 | 0.05 | 0.01 | 0.10 | 0.03 | 0.01 | 0.75 |
GBDT | 0.16 | 0.005 | 0.005 | 0.08 | 0.01 | 0.03 | 0.71 |
XGBoost | 0.13 | 0.10 | 0.14 | 0.15 | 0.17 | 0.11 | 0.20 |
图3a示出了本发明实施例提供的基于随机森林算法的相关性分析结果;图3b示出了本发明实施例提供的基于GBDT算法的相关性分析结果;图3c示出了本发明实施例提供的基于XGBoost算法的相关性分析结果。结果表明,不同计算方法的相关性存在着明显的差异。随机森林算法和GBDT算法的超标倍数和污染物浓度之间的相关性呈现极大占比,分别达到了75%和71%,其他环境因素只占据了25%和29%。在随机森林算法中,高程占比10%,纬度和经度占比都为5%,土壤深度占据了3%,土壤质地和功能分区只占据了1%;GBDT算法中经度占据达到了16%,然而纬度占比却仅有0.5%,高程占比8%,土壤质地占比3%,土壤深度占比1%,功能分区占比0.5%。XGBoost算法中,各环境因素占比相对平衡。其中,超标倍数占比20%,土壤深度占比17%,高层占比15%,功能分区占比14%,纬度和经度占比分别为13%和10%。
图3d示出了本发明实施例提供的基于随机森林算法、GBDT算法和XGBoost算法的相关性分析的比较结果。将上述三种算法的相关性分析结果放置到同一统计图中,经比较发现,随机森林算法和GBDT算法偏向于超标倍数,其他环境因素重要性很弱,个别环境因素对于场地污染几乎没有影响。XGBoost算法反映的重要因素除超标倍数外,其他重要因素依次为土壤深度、高程和功能分区,而经纬度和土壤质地影响较弱。该算法在现实情况下具有较强的可解释性,污染情况会随着其所在土壤深度、高程和功能分区发生明显区别,场地污染所在位置土壤质地较为均匀,并非坚硬的岩石层,因此,土壤质地对于污染情况影响较小。
经对比分析发现,上述三种基于提升决策树的相关性计算方法所反映的结果相差较大,随机森林和GBDT算法未能够很好地挖掘场地污染信息之间的关联关系,仅突出了污染超标倍数的重要性,而忽视了其他环境因素对于场地污染状态的影响。XGBoost算法基于CART决策树,通过正则化方式防止了模型过拟合现象,同时在特征粒度上进行了并行计算,考虑了训练数据为稀疏值的情况,大大提高了运算效率。因此,XGBoost能准确判断环境数据与污染物浓度之间的相关性,可为加权得到环境污染特征值提供权重系数。
基于XGBoost算法得到的各环境因素的权重系数见表5。
表5基于XGBoost算法的环境因素权重
方法 | 经度 | 纬度 | 功能分区 | 高程 | 土壤深度 | 土壤质地 | 超标倍数 |
XGBoost | 0.13 | 0.10 | 0.14 | 0.15 | 0.17 | 0.11 | 0.20 |
根据表5中的权重系数,计算得到每个采样点的环境污染特征值。将式(7)中a取值为10。根据各个采样点的环境污染特征值,结合式(7),可以计算出每个采样点的污染特征值。之后将土壤划分为第一土层、第二土层、第三土层和第四土层,第一土层距离地表0-3m,第二土层距离地表3.0-7.6m,第三土层距离地表7.6-12.2m,第四土层距离地表12.2-16.1m。根据每个采样点的土壤深度,确定每个采样点所位于的土层。每个土层对应的采样点的污染特征值见表6。
表6每个土层部分污染特征值
对应土层中采样点编号 | S1 | S2 | S3 | S4 | S5 | …… |
第一土层 | 15.6 | 15.4 | 14.6 | 15.1 | 14.4 | …… |
第二土层 | 10.6 | 8.8 | 8.8 | 8.8 | 7.6 | …… |
第三土层 | 3.4 | 3.9 | 4.0 | 4.6 | 3.7 | …… |
第四土层 | 1.7 | 0.8 | 0.9 | 0.4 | 3.1 | …… |
经比较发现,各个采样点的环境因素对场地污染状态的影响不尽相同。换言之,不同采样点因为其所处位置不同,给人和自然带来不同的“危害度”。此外,每个采样点的污染特征值受到不同环境因素的制约,可以利用区域变化突出环境评价的显著性。
接下来,利用每个土层所包含的采样点的污染特征值,绘制四个土层的污染空间分布图。设定污染特征值阈值,当污染特征值小于5时,认为该采样点不存在污染。图4a为本发明实施例提供的第一土层中污染空间分布图;图4b为本发明实施例提供的第二土层中污染空间分布图;图4c为本发明实施例提供的第三土层中污染空间分布图;图4d为本发明实施例提供的第四土层中污染空间分布图。该化工厂Cr(VI)污染呈现明显的空间异质性,污染随着土壤深度递增而降低。在第一土层(0-3m)中,污染主要聚集在厂区的东北部,与之对应的功能分区为:铬渣堆、铬渣填埋场、万吨铬盐车间、污水处理厂、铬盐车间、金红钛白车间、钛白车间和锐钛白车间。第一土层区域内污染特征值范围为13.1-33.9,污染最严重的采样点为S46,污染特征值达到了33.9,对应的功能区为铬渣填埋场。第二土层(3.0-7.6m)污染主要聚集在铬盐车间和污水处理厂地区,污染主要来自于工业废水的渗漏,含有Cr(VI)离子的废水能够穿透土壤间隙,导致该土层的污染。第三土层(7.6-12.2m)和第四土层(12.2-16.1m)无污染,推测可能是由于Cr(VI)的渗透能力未能达到该深度区域内的土壤。
该化工厂浅层东北部污染较为严重,主要由于功能分区直接或间接地接触铬盐生产各个环节,污染物通过填埋和渗流进行扩散,导致东北部污染严重。又因污染物渗漏具有一定限度,所以未能触及深层次土壤结构,厂区西南部和整个厂区深层次土壤无明显污染。基于此,针对该厂区的修复工作,修复企业应主要集中在东北部浅层土壤,可以减少修复工作成本和化学修复对环境带来的副作用。
综上所述,本发明实施例利用XGBoost算法计算出环境因素与污染物浓度之间的相关性,并通过线性加权的方式得到各采样点的环境污染特征值,然后基于改进的污染指数算法计算出顾及环境因素的污染特征值,最终实现了该化工厂的污染特征空间分析。
图5示出了本发明实施例提供的场地污染特征分析装置的结构示意图。如图5所示,上述场地污染特征分析装置500,包括:污染数据获取模块510,用于获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素;相关性确定模块520,用于根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性;环境污染特征数据确定模块530,用于根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据;污染物污染特征确定模块540,用于根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。
在一些实施例中,所述污染数据包括多种环境数据,所述多种环境数据用于描述所述被分析区域中的多个环境因素。
在一些实施例中,所述多个环境因素包括针对所述污染物的污染评价指标、空间地理位置、在所述被分析区域中所处的分区位置和/或自然要素属性。
在一些实施例中,所述相关性确定模块,具体用于:根据所述污染数据,基于提升决策树算法确定所述环境因素与所述污染物浓度之间的相关性。
在一些实施例中,所述决策树算法为XGBoost算法。
在一些实施例中,所述环境污染特征数据确定模块,具体用于:基于所述多个环境因素与所述污染物浓度之间的相关性,对所述多种环境数据进行加权求和,计算出所述环境污染特征数据。
在一些实施例中,所述污染物污染特征确定模块,具体通过以下公式实现:
其中,P为所述被分析区域的污染特征值,PEnv为环境污染特征值,PPol为所述污染物浓度数据经过归一化和标准化处理之后与所述环境污染特征值具有统一量纲的数值,a为常数,a>1。
在一些实施例中,所述装置还包括:污染物空间分布特征确定模块,用于根据所述被分析区域的多个采样位置的污染特征,确定所述被分析区域的污染空间分布特征。
在一些实施例中,所述污染物为六价铬;所述多个环境因素包括经度、纬度、高程、土壤深度、在所述被分析区域中所处的分区位置、土壤质地以及所述污染物的超标倍数。
图6示出了本发明实施例的电子设备。如图6所示,电子设备600包括:至少一个处理器610,以及与所述至少一个处理器610通信连接的存储器620,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。
具体地,上述存储器620和处理器610经由总线630连接在一起,能够为通用的存储器和处理器,这里不做具体限定,当处理器610运行存储器620存储的计算机程序时,能够执行本发明实施例中结合图1至图5所描述的各项操作和功能。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的方法。具体实现可参见方法实施例,在此不再赘述。
尽管本发明实施例的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明实施例并不限于特定的细节和这里示出与描述的图例。
Claims (12)
1.一种场地污染特征分析方法,其特征在于,包括:
获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素;
根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性;
根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据;
根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。
2.如权利要求1所述的场地污染特征分析方法,其特征在于,所述污染数据包括多种环境数据,所述多种环境数据用于描述所述被分析区域中的多个环境因素。
3.如权利要求2所述的场地污染特征分析方法,其特征在于,所述多个环境因素包括针对所述污染物的污染评价指标、空间地理位置、在所述被分析区域中所处的分区位置和/或自然要素属性。
4.如权利要求2所述的场地污染特征分析方法,其特征在于,所述根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性,包括:
根据所述污染数据,基于提升决策树算法确定所述环境因素与所述污染物浓度之间的相关性。
5.如权利要求4所述的场地污染特征分析方法,其特征在于,所述决策树算法为XGBoost算法。
6.如权利要求2所述的场地污染特征分析方法,其特征在于,所述根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据,包括:
基于所述多个环境因素与所述污染物浓度之间的相关性,对所述多种环境数据进行加权求和,计算出所述环境污染特征数据。
8.如权利要求1所述的场地污染特征分析方法,其特征在于,所述根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征之后,所述方法还包括:
根据所述被分析区域的多个采样位置的污染特征,确定所述被分析区域的污染空间分布特征。
9.如权利要求3所述的场地污染特征分析方法,其特征在于,所述污染物为六价铬;所述多个环境因素包括经度、纬度、高程、土壤深度、在所述被分析区域中所处的分区位置、土壤质地以及所述污染物的超标倍数。
10.一种污染特征分析装置,其特征在于,包括:
污染数据获取模块,用于获取被分析区域的污染数据,所述污染数据包括污染物浓度数据和环境数据,所述环境数据用于描述所述被分析区域中的环境因素;
相关性确定模块,用于根据所述污染数据,确定所述环境因素与污染物浓度之间的相关性;
环境污染特征数据确定模块,用于根据所述环境数据以及所述环境因素与所述污染物浓度之间的相关性,确定环境污染特征数据;
污染物污染特征确定模块,用于根据所述环境污染特征数据和所述污染物浓度数据,确定所述被分析区域的污染特征。
11.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-9中任一项所述的方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464605.6A CN113111964B (zh) | 2021-04-28 | 2021-04-28 | 场地污染特征分析方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464605.6A CN113111964B (zh) | 2021-04-28 | 2021-04-28 | 场地污染特征分析方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111964A true CN113111964A (zh) | 2021-07-13 |
CN113111964B CN113111964B (zh) | 2023-04-07 |
Family
ID=76720252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110464605.6A Active CN113111964B (zh) | 2021-04-28 | 2021-04-28 | 场地污染特征分析方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111964B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994847A (zh) * | 2023-03-24 | 2023-04-21 | 中国环境科学研究院 | 一种污染场地的管控树模型建立方法、管控方法和装置 |
CN117171678A (zh) * | 2023-11-02 | 2023-12-05 | 北京建工环境修复股份有限公司 | 一种微生物修复过程中土壤微生物菌群调控方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0002693D0 (en) * | 2000-02-07 | 2000-03-29 | Mini Agriculture & Fisheries | A system, method and article of manufacture for media contamination risk analysis and for identifying priorities for testing for the prescence and/or level of |
CN104298889A (zh) * | 2014-09-28 | 2015-01-21 | 中国矿业大学(北京) | 一种金属矿渣土重金属污染综合评价方法 |
CN106568923A (zh) * | 2016-11-10 | 2017-04-19 | 北京农业质量标准与检测技术研究中心 | 一种土壤重金属含量影响因子评价方法 |
CN110889611A (zh) * | 2019-11-20 | 2020-03-17 | 中国环境科学研究院 | 一种精准评估重金属污染场地生态风险的证据权重方法 |
CN111062549A (zh) * | 2018-10-17 | 2020-04-24 | 中电建生态环境集团有限公司 | 评价环境因素的方法、评价环境因素的装置及服务器 |
CN111553588A (zh) * | 2020-04-26 | 2020-08-18 | 中国科学院地理科学与资源研究所 | 矿区土壤重金属污染特征及环境影响因素的分析方法 |
CN111784149A (zh) * | 2020-06-28 | 2020-10-16 | 盐城工学院 | 基于变权重的土壤重金属污染综合评价方法 |
-
2021
- 2021-04-28 CN CN202110464605.6A patent/CN113111964B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0002693D0 (en) * | 2000-02-07 | 2000-03-29 | Mini Agriculture & Fisheries | A system, method and article of manufacture for media contamination risk analysis and for identifying priorities for testing for the prescence and/or level of |
CN104298889A (zh) * | 2014-09-28 | 2015-01-21 | 中国矿业大学(北京) | 一种金属矿渣土重金属污染综合评价方法 |
CN106568923A (zh) * | 2016-11-10 | 2017-04-19 | 北京农业质量标准与检测技术研究中心 | 一种土壤重金属含量影响因子评价方法 |
CN111062549A (zh) * | 2018-10-17 | 2020-04-24 | 中电建生态环境集团有限公司 | 评价环境因素的方法、评价环境因素的装置及服务器 |
CN110889611A (zh) * | 2019-11-20 | 2020-03-17 | 中国环境科学研究院 | 一种精准评估重金属污染场地生态风险的证据权重方法 |
CN111553588A (zh) * | 2020-04-26 | 2020-08-18 | 中国科学院地理科学与资源研究所 | 矿区土壤重金属污染特征及环境影响因素的分析方法 |
CN111784149A (zh) * | 2020-06-28 | 2020-10-16 | 盐城工学院 | 基于变权重的土壤重金属污染综合评价方法 |
Non-Patent Citations (2)
Title |
---|
卢剑: "基于机器学习的场地Cr(Ⅵ)污染特征分析研", 《中国优秀硕士学位论文全文数据库社会科学Ⅱ辑》 * |
李庭: "废弃矿井地下水污染风险评价研究", 《中国博士学位论文全文数据库工程科技Ⅰ辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994847A (zh) * | 2023-03-24 | 2023-04-21 | 中国环境科学研究院 | 一种污染场地的管控树模型建立方法、管控方法和装置 |
CN117171678A (zh) * | 2023-11-02 | 2023-12-05 | 北京建工环境修复股份有限公司 | 一种微生物修复过程中土壤微生物菌群调控方法及系统 |
CN117171678B (zh) * | 2023-11-02 | 2024-01-12 | 北京建工环境修复股份有限公司 | 一种微生物修复过程中土壤微生物菌群调控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113111964B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536908B (zh) | 基于非点源氮磷流失风险对流域水环境安全评估的方法 | |
CN113111964B (zh) | 场地污染特征分析方法、装置、电子设备和存储介质 | |
CN110969346B (zh) | 基于指标筛选的流域水生态功能分区治理需求评价方法 | |
CN112785450B (zh) | 一种土壤环境质量分区方法及系统 | |
CN111241476B (zh) | 一种获得区域性河口营养物基准值的方法 | |
CN111260148A (zh) | 一种基于生态位因子模型的松材线虫侵入风险预测方法 | |
CN116187543A (zh) | 基于机器学习的土壤重金属含量预测方法及其应用 | |
Remillard et al. | GIS technologies for aquatic macrophyte studies: modeling applications | |
CN113850516A (zh) | 基于t-s模糊神经网络的水质评价方法 | |
Yao et al. | Soil‐quality‐index model for assessing the impact of groundwater on soil in an intensively farmed coastal area of E China | |
CN116227692B (zh) | 一种农作物重金属富集风险量化方法、系统及可存储介质 | |
Olivares et al. | Relationship of microbial activity with soil properties in banana plantations in Venezuela. Sustainability. 2022; 14: 13531 | |
He et al. | Problems in air quality monitoring and assessment | |
Carlson | A review of the philosophy and construction of trophic state indices | |
CN114626965A (zh) | 一种区域生态承载力边界阈值检测方法及装置 | |
Jiang et al. | Construction of water pollution monitoring model after flood disaster based on big data analysis | |
Liu | Opportunities and Challenges of Compensation and Governance of Network Neural Ecological Environment Damage in the Era of Artificial Intelligence | |
CN117909913B (zh) | 一种农业面源污染数据管理方法、系统、设备及介质 | |
CN108446433A (zh) | 一种土壤酸化驱动力的识别方法、系统和装置 | |
Tanaka et al. | A model of deforestation by human population interactions | |
Jiang et al. | Water pollution monitoring method after flood disaster based on big data technology | |
CN117009767B (zh) | 一种基于生物有效性的土壤基准制定及风险评估的方法 | |
Batzias et al. | Measuring Uncertainty in Lichen Biomonitoring of Atmospheric Pollution: The Case of $\hbox {SO} _ {2} $ | |
He et al. | A study on evaluation of farmland fertility levels based on optimization of the decision tree algorithm | |
CN114358501A (zh) | 一种污染地块生态风险权重确定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |