CN115660407A

CN115660407A - 污染场地风险等级预测模型的训练方法和训练装置

Info

Publication number: CN115660407A
Application number: CN202211186720.2A
Authority: CN
Inventors: 张健钦; 李心治; 李星辰; 姜会忠
Original assignee: Zhonghui Tuce Beijing Technology Co ltd
Current assignee: Zhonghui Tuce Beijing Technology Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-31

Abstract

本发明实施例公开了污染场地风险等级预测模型的训练方法和训练装置。训练方法，包括：将一个或多个污染场地划分为多个地块；根据多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于多个地块的风险等级构建输出样本集；针对污染场地构建特征指标集，包括用于指示污染场地的环境属性、污染物迁移路径和自身特性的多个特征指标；获取多个地块中每个地块的与多个特征指标相对应的多个特征数据；基于多个地块的特征数据构建输入样本集，基于输入样本集和输出样本集构建训练集，基于训练集对污染场地风险等级预测模型进行训练。基于该方法和装置，其所构建的预测模型可以在无需污染物采样数据的条件下对污染场地的风险等级进行预测。

Description

污染场地风险等级预测模型的训练方法和训练装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及污染场地风险等级预测模型的训练方法、训练装置以及污染场地风险等级预测方法。

背景技术

随着科学技术的不断进步，工业化生产规模不断扩大，给人们带来巨大财富的同时，也对土地造成了一定程度的污染，特别是重金属污染尤为突出。目前，钻孔取样分析是精准获得场地污染状态的唯一有效方法，主要是通过在场地中布置大量的采样点，通过对采样点的土壤样品中污染物含量进行检测，确定场地污染状态。但是，该方法存在成本高、周期长等缺点。同时，污染场地在调查、修复、评估的全流程中会产生大量的记录数据，如影像、视频、遥感地理信息、报告文本、物探数据等等。这些数据种类繁多，包括不同方面、不同层次和不同形式的各类数据。因此，如何有效地利用这些数据，在不进行钻孔取样的情况下对污染场地进行风险等级的预测，对优化污染场地的风险评估决策流程具有重要意义。

目前，围绕土壤的重金属污染问题，国内外众多学者开展了相关研究。其中，在土壤重金属污染评价方面较为常用的方法有单因子指数法、地累积指数法、污染负荷指数法、内梅罗指数法和生态风险指数法等。上述污染评价方法对重金属污染场地的研究具有很大价值，但都需要依赖钻孔采样所获取的污染物含量数据作为计算分析的基础，其数据获取过程存在操作复杂且成本较高等缺点。

发明内容

本发明实施例的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明实施例提供了污染场地风险等级预测模型的训练方法、训练装置以及污染场地风险等级预测方法，其所构建的污染场地风险等级预测模型可以在无需污染物采样数据的条件下对污染场地的风险等级进行预测。

第一方面，提供了一种污染场地风险等级预测模型的训练方法，包括：

将一个或多个污染场地划分为多个地块；

根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于所述多个地块的风险等级构建输出样本集；

针对所述污染场地构建特征指标集，其中，所述特征指标集包括用于指示所述污染场地的环境属性、污染物迁移路径和自身特性的多个特征指标；

获取所述多个地块中每个地块的与所述多个特征指标相对应的多个特征数据；

基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型。

可选地，所述根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，包括：

根据所述多个地块中每个地块的污染物含量，确定每个地块的一个或多个污染指数；

根据每个地块的一个或多个污染指数，确定每个地块的风险等级。

可选地，所述根据每个地块的一个或多个污染指数，确定每个地块的风险等级，包括：

根据每个地块的每个污染指数，确定每个地块与每个污染指数相对应的污染等级；

若任一个地块的全部污染指数相对应的污染等级均为轻度，则确定相应地块的风险等级为低；若任一个地块的任一个污染指数相对应的污染等级为中度，而其他污染指数相对应的污染等级在中度之下，则确定相应地块的风险等级为中；若任一个地块的任一个污染指数相对应的污染等级在中度以上，而其他污染指数相对应的污染等级为中度或中度以下，则确定相应地块的风险等级为高。

可选地，所述基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型，包括：

根据所述多个特征指标建立由不同的特征指标所组成的多个特征指标组合，基于所述多个地块的与每个特征指标组合相对应的特征数据，构建与每个特征指标组合相对应的每个所述输入样本集；基于多个所述输入样本集和所述输出样本集，构建多个所述训练集；基于多个所述训练集分别对所述污染场地风险等级预测模型进行训练，得到多个训练完成的污染场地风险等级预测模型；

对所述多个训练完成的污染场地风险等级预测模型的性能进行评价，得到多个性能评价结果；

从所述多个性能评价结果中筛选所述性能评价结果最优的一个训练完成的污染场地风险等级预测模型，作为目标模型，并将所述目标模型所使用的特征指标组合作为目标特征指标组合，所述目标模型用于对污染场地风险等级进行预测。

可选地，所述根据所述多个特征指标建立由不同的特征指标所组成的多个特征指标组合，基于所述多个地块的与每个特征指标组合相对应的特征数据，构建与每个特征指标组合相对应的每个所述输入样本集；基于多个所述输入样本集和所述输出样本集，构建多个所述训练集；基于多个所述训练集分别对所述污染场地风险等级预测模型进行训练，得到多个训练完成的污染场地风险等级预测模型，包括：

分多个批次对所述污染场地风险等级预测模型进行训练，其中，

在每个批次训练过程中，基于所述多个地块的与每个批次的特征指标组合相对应的特征数据，构建与每个批次的特征指标组合相对应的每个批次的输入样本集；

基于所述每个批次的输入样本集和所述输出样本集，构建每个批次的训练集；

基于每个批次的训练集对所述污染场地风险等级预测模型进行训练，得到每个批次训练完成的污染场地风险等级预测模型；

从所述每个批次训练完成的污染场地风险等级预测模型中，获取每个批次的特征指标组合中特征指标的权重，从每个批次的特征指标组合中筛选符合预设的权重筛选条件的特征指标，建立下一批次训练所使用的特征指标组合；

其中，在第一个批次训练过程中，采用所述多个特征指标建立第一个批次的特征指标组合。

可选地，所述污染物为重金属污染物；

所述特征指标集包括用于指示每个地块的环境属性的面积、年降水量、硬化面积、地下管线长度、主要产品年产量、原辅材料年使用量、生产时间、储罐个数和排污区域面积，用于指示每个地块的污染物迁移路径的地下水埋深、饱和带土壤渗透性、包气带土壤渗透性和地下防渗措施，以及用于指示每个地块的自身特性的岩土层高密度电阻。

可选地，所述污染场地风险等级预测模型为基于决策树的预测模型。

可选地，所述污染场地风险等级预测模型包括基于CatBoost、XGBoost或LightGBM的预测模型。

第二方面，提供了一种污染场地风险等级预测模型的训练装置，包括：

地块划分模块，用于将一个或多个污染场地划分为多个地块；

输出样本集构建模块，用于根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于所述多个地块的风险等级构建输出样本集；

特征指标集构建模块，用于针对所述污染场地构建特征指标集，其中，所述特征指标集包括用于指示每个地块的环境属性、污染物迁移路径和自身特性的多个特征指标；

特征数据获取模块，用于获取所述多个地块中每个地块的与所述多个特征指标相对应的多个特征数据；

模型训练模块，用于基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型。

第三方面，提供了一种污染场地风险等级预测方法，包括：

将所述待预测污染场地划分为一个或多个待预测地块；

根据所述的训练完成的污染场地风险等级预测模型所使用的特征指标，获取每个待预测地块与所述特征指标相对应的特征数据；

将每个待预测地块的特征数据输入至所述的训练完成的污染场地风险等级预测模型中进行处理，得到所述每个待预测地块的风险等级的预测结果。

第四方面，提供了一种污染场地风险等级预测装置，包括：

待预测地块划分模块，用于将所述待预测污染场地划分为一个或多个待预测地块；

待预测地块特征数据获取模块，用于根据所述的训练完成的污染场地风险等级预测模型所使用的特征指标，获取每个待预测地块与所述特征指标相对应的特征数据；

待预测地块风险等级预测模块，用于将每个待预测地块的特征数据输入至所述的训练完成的污染场地风险等级预测模型中进行处理，得到所述每个待预测地块的风险等级的预测结果；

待预测污染场地风险等级确定模块，用于根据所述一个或多个待预测地块的风险等级的预测结果，确定所述待预测污染场地的风险等级。

第五方面，提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

第六方面，提供了一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现所述的方法。

本发明实施例至少包括以下有益效果：

本发明实施例提供的污染场地风险等级预测模型的训练方法、训练装置以及污染场地风险等级预测方法。该训练方法首先将一个或多个污染场地划分为多个地块，根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于所述多个地块的风险等级构建输出样本集，之后针对所述污染场地构建特征指标集，其中，所述特征指标集包括用于指示所述污染场地的环境属性、污染物迁移路径和自身特性的多个特征指标，获取所述多个地块中每个地块的与所述多个特征指标相对应的多个特征数据，最后基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型。基于该训练方法和训练装置，其所构建的预测模型可以在无需污染物采样数据的条件下对污染场地的风险等级进行预测。

本发明实施例的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明一个实施例提供的污染场地风险等级预测模型的训练方法的流程图。

图2为本发明一个实施例提供的污染场地风险等级预测模型的训练过程的流程图；

图3为本发明一个实施例提供的污染场地风险等级预测方法的流程图。

图4A为本发明另一个实施例提供的基于14个特征指标对污染场地风险等级预测模型进行训练所获得的特征指标的权重分布情况。

图4B为本发明另一个实施例提供的基于11个特征指标对污染场地风险等级预测模型进行训练所获得的特征指标的权重分布情况。

图4C为本发明另一个实施例提供的基于8个特征指标对污染场地风险等级预测模型进行训练所获得的特征指标的权重分布情况。

图4D为本发明另一个实施例提供的基于5个特征指标对污染场地风险等级预测模型进行训练所获得的特征指标的权重分布情况。

图5为本发明一个实施例提供的污染场地风险等级预测模型的训练装置的结构示意图。

图6为本发明一个实施例提供的污染场地风险等级预测装置的结构示意图。

图7为本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

图1为本发明实施例提供的污染场地风险等级预测模型的训练方法的流程图，由具有处理能力的系统、服务端设备或污染场地风险等级预测模型的训练装置执行。如图1所示，该方法包括：

步骤110，将一个或多个污染场地划分为多个地块。

在将一个或多个污染场地划分为多个地块之前，可以先在每个污染场地中布设采样点位，以基于所布设的采样点采集土壤样品，检测土壤样品中的污染物含量。

具体地，可以根据《场地环境调查技术导则》(HJ 25.1-2014)、《场地环境监测技术导则》(HJ 25.2-2014)、《污染场地土壤修复技术导则》(HJ25.4-2014)、《工业企业污染场地调查与修复管理技术指南》(征求意见稿)等相关导则和指南要求，以及潜在污染区域的识别情况，按照系统布点及功能分区方式，结合专业判断的原则对场地进行布点采样。各污染场地在各分区分布密度不同，设计的采样点覆盖场地全部区域，同时为了更加准确划定重点区域污染边界，在部分区域进行加密布点。采样时，根据采样点所处功能区域的地层特征、现场XRF扫描数据辅助及感官判断结果进行采样深度的适当调整，优化分层采样深度划分，确保采集的土壤样品最具代表性。采样完毕且清点无误后，为了防止样品的损失、混淆和污染，将样品分类、整理和包装后放于带有冷冻蓝冰的保温箱中，直至最后到达检测单位分析实验室，完成样品交接。经实验室分析后，可以得到每个污染场地中每个采样点的污染物含量。

进一步地，可以利用ArcMap10.2软件，结合污染场地的遥感影像，并根据各污染场地的面积以及采样点分布等情况，对污染场地进行划分，保证所划分出的每个地块中至少包含一个土壤采样点。

这里，采用多个污染场地，有助于增加训练集中的数据量，以提高污染场地风险等级预测模型的预测性能。可以选取分别属于不同行业的多个污染场地。不同行业的污染场地在污染物的种类、含量、环境属性、土壤自身特性、污染物迁移路径等方面都存在较大的差异，因此，可以增加训练集中数据的多样性，进而提高模型的泛化能力。当一个污染场地的面积较大且该场地中各区域在污染物的种类、含量、环境属性、土壤自身特性、污染物迁移路径等方面也存在较大差异时，也可以采用一个污染场地用于对模型的训练。

步骤120，根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于所述多个地块的风险等级构建输出样本集。

可以根据污染物的种类，选择合适的风险等级评价方法。

在一些实施例中，所述根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，包括：根据所述多个地块中每个地块的污染物含量，确定每个地块的一个或多个污染指数；根据每个地块的一个或多个污染指数，确定每个地块的风险等级。

可以采用单一的污染指数计算方法计算一个污染指数，再根据这一个污染指数确定地块的风险等级。也可以采用多个污染指数计算方法分别计算多个污染指数，再根据多个污染指数综合判断地块的风险等级。由于不同的污染指数计算方法存在侧重点的区别，该方法可以综合考虑多种因素，进而提高风险等级评估的全面性和准确性。

在一些示例中，所述根据每个地块的一个或多个污染指数，确定每个地块的风险等级，包括：根据每个地块的每个污染指数，确定每个地块与每个污染指数相对应的污染等级；若任一个地块的全部污染指数相对应的污染等级均为轻度，则确定相应地块的风险等级为低；若任一个地块的任一个污染指数相对应的污染等级为中度，而其他污染指数相对应的污染等级在中度之下，则确定相应地块的风险等级为中；若任一个地块的任一个污染指数相对应的污染等级在中度以上，而其他污染指数相对应的污染等级为中度或中度以下，则确定相应地块的风险等级为高。

需要说明的是，每个地块包含有至少一个土壤采样点，而根据每个土壤采样点的采样数据(即污染物含量数据)都可以计算出一个污染指数，因此，对于任一个地块，若该地块中全部土壤采样点的全部污染指数相对应的污染等级均为轻度，则确定相应地块的风险等级为低，若该地块的任一个土壤采样点的任一个污染指数相对应的污染等级为中度，而其他土壤采样点的全部污染指数相对应的污染等级在中度之下，则确定相应地块的风险等级为中，若该地块的任一个土壤采样点的任一个污染指数相对应的污染等级在中度以上，而其他土壤采样点的全部污染指数相对应的污染等级为中度或中度以下，则确定相应地块的风险等级为高。

例如，当一个地块包含2个土壤采样点，分别记为A1和A2。采用2个污染指数计算方法B1和B2，对土壤采样点A1和A2的污染指数进行计算，确定土壤采样点A的污染等级。土壤采样点A1由污染指数计算方法B1和B2所判断的污染等级均为轻度，土壤采样点A2由污染指数计算方法B1和B2所判断的污染等级分别为中度和较重。由于该地块中土壤采样点A2的由污染指数计算方法B2所确定的污染等级为较重，在中度以上，而其他污染等级均在中度或中度以下，则该地块的风险等级为高。

可以根据污染物的种类，选择合适的污染指数计算方法。在一些示例中，所分析的污染物为重金属污染物。基于重金属污染物，可以选择单因子指数法、地累积指数法、污染负荷指数法、内梅罗指数法和潜在生态风险指数法等方法计算污染指数，并根据计算结果进一步确定每个地块的风险等级。优选地，可以基于单因子指数法、地累积指数法和潜在生态风险指数法分别确定每个地块的三个污染指数，再根据每个地块的三个污染指数，确定每个地块与每个污染指数相对应的污染等级，再进一步结合三个污染指数相对应的污染等级，确定每个地块的风险等级。其中，单因子指数是利用实测数据和标准对比分类，直接得到评价结果。地累积指数不仅反映了重金属分布的自然变化特征，而且可以判别人为活动对环境的影响。潜在生态风险指数综合考虑了多元素协同作用、毒性水平以及环境对重金属污染敏感性等因素。因此，综合上述三种土壤重金属污染评价方法确定的地块风险等级作为预测模型的输出结果，能够从宏观的角度充分考虑重金属特征污染物的污染情况。

此外，为了实现对于重金属污染物的污染指数的计算，可以《采用场地土壤环境风险评价筛选值》(DB11/T811-2011)为筛选标准，从每个场地选取超标数量最多的重金属污染物为该场地的特征污染物。再基于特征污染物的浓度对污染指数进行计算。

步骤130，针对所述污染场地构建特征指标集，其中，所述特征指标集包括用于指示所述污染场地的环境属性、污染物迁移路径和自身特性的多个特征指标。

本步骤中，可以针对污染场地构建特征指标集，其中，特征指标集中的特征指标为与污染情况相关，对污染物在污染场地中的分布、迁移、渗透可能产生影响或可以反映污染物对于污染场地的污染程度的那些特征。具体地，特征指标集中的特征指标主要涉及污染场地的三个方面——环境属性、污染物迁移路径和自身特性。基于这三个方面的特征数据，可以训练出能够准确预测污染场地风险等级的预测模型。

在一些实施例中，所述特征指标集包括用于指示每个地块的环境属性的面积、年降水量、硬化面积、地下管线长度、主要产品年产量、原辅材料年使用量、生产时间、储罐个数和排污区域面积，用于指示每个地块的污染物迁移路径的地下水埋深、饱和带土壤渗透性、包气带土壤渗透性和地下防渗措施，以及用于指示每个地块的自身特性的岩土层高密度电阻。

具体地，可以参考《关闭搬迁企业地块风险筛查与风险分级技术规定》等相关标准、规范，构建预测重金属污染场地的特征指标集，一级指标包括环境背景(即环境属性)、污染物迁移途径和自身特性3项，一级指标中又包含上述二级指标14项。根据14项二级指标，从已获取到的前期调查数据和物探数据中提取计算地块相对应的指标赋值(即特征数据)，作为预测模型的输入特征。

步骤140，获取所述多个地块中每个地块的与所述多个特征指标相对应的多个特征数据。

可以根据特征指标的具体内容，获取相应的特征数据。例如可以通过非侵入式物探方式获取用于指示每个地块的自身特性的岩土层高密度电阻值。具体地，物探数据的获取采用高密度电法，其在水平和垂向上能够达到较高密度并在一定深度范围获取场地岩土层电阻率的参数，以探测各岩土层的空间分布等情况，满足目的要求。

步骤150，基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型。

在所构建的特征指标集中，不同的特征指标对于污染场地的风险等级判断的贡献是不同的，因此，可以在所构建的特征指标集中对不同的特征指标进行组合，并基于不同的特征指标组合对预测模型进行训练，以筛选出性能最优的预测模型。此外，模型的输入特征过多会增加模型的复杂程度，还可能会产生过拟合等问题，因此，也需要对特征指标集中的特征指标进行适当筛选。

图2为本发明一个实施例提供的污染场地风险等级预测模型的训练过程的流程图。如图2所示，步骤150进一步包括：

步骤210，根据所述多个特征指标建立由不同的特征指标所组成的多个特征指标组合，基于所述多个地块的与每个特征指标组合相对应的特征数据，构建与每个特征指标组合相对应的每个所述输入样本集；基于多个所述输入样本集和所述输出样本集，构建多个所述训练集；基于多个所述训练集分别对所述污染场地风险等级预测模型进行训练，得到多个训练完成的污染场地风险等级预测模型。

在一些示例中，步骤210进一步包括：分多个批次对所述污染场地风险等级预测模型进行训练，其中，在每个批次训练过程中，基于所述多个地块的与每个批次的特征指标组合相对应的特征数据，构建与每个批次的特征指标组合相对应的每个批次的输入样本集；基于所述每个批次的输入样本集和所述输出样本集，构建每个批次的训练集；基于每个批次的训练集对所述污染场地风险等级预测模型进行训练，得到每个批次训练完成的污染场地风险等级预测模型；从所述每个批次训练完成的污染场地风险等级预测模型中，获取每个批次的特征指标组合中特征指标的权重，从每个批次的特征指标组合中筛选符合预设的权重筛选条件的特征指标，建立下一批次训练所使用的特征指标组合；其中，在第一个批次训练过程中，采用所述多个特征指标建立第一个批次的特征指标组合。

具体地，训练完成的模型可以生成针对每个特征指标的权重，该权重可以反映出每个特征指标对于污染场地的风险等级判断的贡献度，即对于模型的贡献度越大。某一个特征指标的权重越大，说明该特征指标对于模型的贡献度越大，反之则越小。仅保留那些贡献度较大的特征指标，对于贡献度较小的特征指标，则可以将其舍去，以达到提高模型性能，避免模型过拟合，降低模型复杂度的目的。

这里，预设的权重筛选条件可以根据需要进行设定。例如可以是，设定权重阈值，采用每一个批次训练中权重高于权重阈值的特征指标建立下一个批次训练时模型所使用的特征指标组合。预设的权重筛选条件也可以是，基于每一个批次训练得到的特征指标的权重进行排序，选取排序靠前的若干特征指标建立下一个批次的特征指标组合。

步骤220，对所述多个训练完成的污染场地风险等级预测模型的性能进行评价，得到多个性能评价结果。

可以采用现有的性能评价方法对预测模型的性能进行预测。本发明实施例对此不做具体限制。

步骤230，从所述多个性能评价结果中筛选所述性能评价结果最优的一个训练完成的污染场地风险等级预测模型，作为目标模型，并将所述目标模型所使用的特征指标组合作为目标特征指标组合，所述目标模型用于对污染场地风险等级进行预测。

在预测阶段，可以获取待预测污染场地的与目标特征指标组合相对应的特征数据，并这些特征数据输入至目标模型中进行处理，得到待预测污染场地的风险等级的预测结果。

在一些实施例中，所述污染场地风险等级预测模型为基于决策树的预测模型。基于决策树的预测模型可以实现多分类预测，进而实现污染场地风险等级的预测。

在一些示例中，所述污染场地风险等级预测模型包括基于CatBoost、XGBoost或LightGBM的预测模型。其中，优选采用基于CatBoost的预测模型。CatBoost能够自动将类别型特征处理为数值型特征，同时可以使用组合类别特征，利用特征之间的联系极大地丰富了特征维度。此外，该算法还可以解决梯度偏差以及预测偏移的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。

综上所述，本发明实施例提供了污染场地风险等级预测模型的训练方法，首先将一个或多个污染场地划分为多个地块，根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于所述多个地块的风险等级构建输出样本集，之后针对所述污染场地构建特征指标集，其中，所述特征指标集包括用于指示所述污染场地的环境属性、污染物迁移路径和自身特性的多个特征指标，获取所述多个地块中每个地块的与所述多个特征指标相对应的多个特征数据，最后基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型。基于该训练方法，其可以在无需污染物采样数据的条件下对污染场地的风险等级进行预测。

图3为本发明实施例提供的污染场地风险等级预测方法的流程图，由具有处理能力的系统、服务端设备或污染场地风险等级预测方法执行。如图3所示，该方法包括：

步骤310，将所述待预测污染场地划分为一个或多个待预测地块。

步骤320，根据所述的训练完成的污染场地风险等级预测模型所使用的特征指标，获取每个待预测地块与所述特征指标相对应的特征数据。

应该理解的是，当使用目标模型进行预测时，目标模型所使用的特征指标为目标特征指标组合所包括的若干特征指标，则需要根据目标特征指标组合来获取的每个待预测地块的特征数据。

步骤330，将每个待预测地块的特征数据输入至所述的训练完成的污染场地风险等级预测模型中进行处理，得到所述每个待预测地块的风险等级的预测结果。

进一步地，可以根据所述一个或多个待预测地块的风险等级的预测结果，对所述待预测污染场地的风险进行评估。具体地，可以将全部待预测地块的风险等级的预测结果作为待污染场地的预测结果。

以下提供一个具体的实施场景，以进一步说明本发明实施例提供的污染场地风险等级预测模型的训练方法。

本实施例以国内8个重金属污染场地为研究区，综合采用单因子指数法、地累积指数法与潜在生态风险指数法3种污染评价方法对场地网格地块的风险等级进行划分，依据场地污染行业知识从场调数据中提取计算出各网格地块的特征数据作为模型的输入，采用机器学习模型CatBoost进行建模，在无需进行钻孔取样的条件下对污染场地中每个地块的风险等级进行预测，从而为重金属污染场地的风险评估提供决策信息。

1材料与方法

1.1试验区域

试验区域为来自我国不同地区的共8个重金属污染场地，总占地面积约504.2万m²，涉及石油化工、冶金矿产、农林牧渔三种行业。具体信息如表1所示。

表1试验场地信息

1.2数据来源与处理

1.2.1前期调查数据

污染场地的前期调查数据主要来源于资料收集和现场踏勘，包括与企业相关负责人沟通协调，收集场地历史、生产工艺、地勘报告和环境影响评价报告等相关资料；根据收集的资料和人员访谈初步判断疑似污染区域并进行现场走访和踏勘，获取到照片、视频、遥感影像等信息。

1.2.2土壤采样数据

根据《场地环境调查技术导则》(HJ 25.1-2014)、《场地环境监测技术导则》(HJ25.2-2014)、《污染场地土壤修复技术导则》(HJ 25.4-2014)、《工业企业污染场地调查与修复管理技术指南》(征求意见稿)等相关导则和指南要求，以及潜在污染区域的识别情况，按照系统布点及功能分区方式，结合专业判断的原则对场地进行布点采样。各场地在各分区分布密度不同，设计的采样点覆盖场地全部区域，同时为了更加准确划定重点区域污染边界，在部分区域进行加密布点。采样时，根据采样点所处功能区域的地层特征、现场XRF扫描数据辅助及感官判断结果进行采样深度的适当调整，优化分层采样深度划分，确保采集的土壤样品最具代表性。采样完毕且清点无误后，为了防止样品的损失、混淆和污染，将样品分类、整理和包装后放于带有冷冻蓝冰的保温箱中，直至最后到达检测单位分析实验室，完成样品交接。8个污染场地共布设土壤采样点位1024个，共采集土壤样品3849个(包括平行样品和质量控制样品)。经实验室分析后，《采用场地土壤环境风险评价筛选值》(DB11/T811-2011)为筛选标准，从每个场地选取超标数量最多的重金属污染物为该污染场地的特征污染物。各污染场地的采样情况及特征污染物信息如表2所示。

表2各试验场地采样详情

场地名称	采样点数量	样品数量	特征污染物	筛选值(mg/kg)
					DH	407	1843	As	20
GG	189	360	Cr	250
					GZ	38	160	As	20
HB	37	180	Cr(VI)	30
					HN	66	169	As	20
XY	17	57	Ni	50
					YX	65	287	Cr(VI)	30
CG	205	793	As	20

1.2.3物探数据

物探数据的获取采用高密度电法，其在水平和垂向上能够达到较高密度并在一定深度范围获取场地岩土层电阻率的参数，以探测各岩土层的空间分布等情况，满足目的要求。

1.2.4网格地块划分

利用ArcMap10.2软件，结合污染场地的遥感影像，并根据各场地的面积以及采样点分布等情况，将8个污染场地共划分为315个网格地块，保证每个地块都包含至少一个土壤采样点。

1.3研究方法

1.3.1 CatBoost算法简介

CatBoost由Categorical和Boosting组成，是一种在GBDT框架下进行改进优化的算法。CatBoost以对称决策树为基学习器，参数较少，支持类别型变量，且在准确率等方面相比其他算法表现得更为优秀。

在GBDT中处理类别型特征的时候，通常采用Greedy TS方法，它以标签平均值作为节点分裂的标准，然而这种方法在训练数据集和测试数据集数据结构和分布不一样时候会出现条件偏移问题。针对该问题，CatBoost对Greedy TS进行了改进，公式表达为：

式中，p为添加的先验项；a为大于0的权重系数。

通过这种添加先验分布项的方式，可以有效减少噪声和低频率类别型数据对于数据分布的影响。

CatBoost能够自动将类别型特征处理为数值型特征，同时可以使用组合类别特征，利用特征之间的联系极大地丰富了特征维度。此外，该算法还可以解决梯度偏差以及预测偏移的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。

1.3.2特征指标集构建与权重处理

基于8个试验场地的数据，参考《关闭搬迁企业地块风险筛查与风险分级技术规定》等相关标准、规范，构建预测重金属污染地块的特征指标集，一级指标包括环境背景、污染物迁移途径和非侵入式物探3项，一级指标中又包含二级指标14项，具体信息如表3所示。根据14项二级指标，从已获取到的前期调查数据和物探数据中提取计算315个网格地块相对应的指标赋值(即与每个特征指标对应的特征数据)，作为CatBoost模型的输入特征。

表3重金属污染地块特征指标集

1.3.3土壤重金属污染评价方法

(1)单因子指数法

单因子指数法可以对土壤中任意一种重金属污染物的污染程度及特性做出评价。其计算公式如式(2)所示：

式中，P_i为污染物的单因子指数；C_i为污染物的实测浓度，mg/kg；S_i为污染物的风险筛选值(见表2)。

单因子指数评价等级分为4级，具体分级情况如表4所示。

(2)地累积指数法

地累积指数法是研究沉积物重金属污染程度的定量指标，除地球化学背景值外还考虑了人为污染因素及自然成岩作用引起的背景值变动。其计算公式如式(3)所示：

I_geo＝log₂[C_i/(K×B_i)] (3)

式中，I_geo为污染物的地累积指数；C_i为污染物的实测浓度，mg/kg；K为调节系数，取1.5；B_i为污染物的风险筛选值(见表2)。

地累积指数评价等级分为7级，具体分级情况如表4所示。

(3)潜在生态风险指数法

潜在生态风险指数法结合了生态效应、环境效应和毒理学方面的内容对土壤重金属的生态风险进行评价。其计算公式如式(4)和式(5)所示：

E_i＝T_r×C_f (4)

式中，E_i为污染物的潜在生态风险系数；T_r为污染物的毒性系数，As、Cr、Cr(VI)、Ni的毒性系数分别为10、2、2、5；C_f为污染物的污染指数，即上述单因子指数值。

潜在生态风险指数评价等级分为5级，具体分级情况如表4所示。

表4三种评价方法分级对照

1.3.4网格地块风险等级划分方法

利用单因子指数法、地累积指数法与潜在生态风险指数法分别计算各网格地块内所有采样点特征污染物的三项污染指数，并综合其结果对应的污染等级，对重金属污染地块的风险等级进行划分。划分情况为：地块内所有采样点三种方法评级均为轻度，则该地块风险等级划分为低；地块内任一采样点某方法评级为中度，而该采样点的其他评级以及其他采样点的各项评级均在中度以下，则该地块风险等级划分为中；地块内任一采样点某方法评级为中度以上，而该采样点的其他评级以及其他采样点的各项评级均为中度或者中度以下，则该地块风险等级划分为高。

单因子指数是利用实测数据和标准对比分类，直接得到评价结果。地累积指数不仅反映了重金属分布的自然变化特征，而且可以判别人为活动对环境的影响。潜在生态风险指数综合考虑了多元素协同作用、毒性水平以及环境对重金属污染敏感性等因素。因此，将综合上述三种土壤重金属污染评价方法所确定的污染地块风险等级作为CatBoost模型的预测输出，能够从宏观的角度充分考虑重金属特征污染物的污染情况。

1.3.5模型评价指标

本实施例所构建的模型为多分类，因此采用准确率(Accuracy)、宏查准率(Macro-P)宏查全率(Macro-R)和宏F1值(Macro-F1)作为衡量模型训练效果的评价指标。它们的定义为

式中，TP为把正样本成功预测为正的数量；TN为把负样本成功预测为负的数量；FP为把负样本错误预测为正的数量；FN为把正样本错误预测为负的数量；P_i为每类样本的查准率；R_i为每类样本的查全率。

由定义可知，准确率为在所有样本中被正确预测的比例；宏查准率、宏查全率分别为计算每类样本的查准率和查全率后求得的平均值；宏F1为宏查准率与宏查全率的调和平均数，能够客观全面地反映模型性能。

2结果与分析

2.1模型构建

根据从8个试验场地数据中提取计算的特征指标信息，以及结合单因子指数法、地累积指数法与潜在生态风险指数法确定的网格地块风险等级，完成了CatBoost预测模型输入和输出样本数据集的构建。数据集共315条，其中80％的数据划分为训练集，作为模型拟合的数据样本；20％划分为测试集，用来评估模最终模型的泛化能力，并且通过交叉验证方式获取模型最优参数。

2.2不同输入特征下的模型预测

CatBoost模型能够分析出各输入特征在建模过程中对模型的贡献度，本研究的初始输入特征(即特征指标集中全部特征指标)为14个二级指标，过多的输入特征会造成模型复杂程度过高等影响。因此，在模型训练过程中，依据CatBoost模型分析所得的特征权重，调整输入特征组合，观察模型各项评价指标的变化。

图4A至图4D为CatBoost模型在输入特征组合的调整过程中，不同输入特征组合条件下进行训练所得到的每个输入特征的权重。如图4A所示，在第一个批次的训练过程中，14个输入特征时，对模型贡献最低的指标为储罐、包气带土壤渗透性和地下管线，其权重分别为2.03％、1.46％和0.21％，因此将输入特征简化为另外11个特征指标，将另外11个特征指标作为下一个批次的特征指标组合用于输入，在下一个批次中对模型进行训练。如图4B所示，11个输入特征时，年降水量、主要产品和原辅材料三种特征指标对模型的贡献最低，权重分别为6.21％、4.27％和2.34％，继续将输入特征简化为其余8个特征指标，将剩余8个特征指标作为下一个批次的特征指标组合用于输入，在下一个批次中对模型进行训练。如图4C所示，8个输入特征时，对模型贡献最低的指标为硬化面积、排污和地下防渗措施，三者权重分别为7.55％、6.35％和6.53％，因此再将输入特征简化为其余5个指标，将剩下5个特征指标作为下一个批次的特征指标组合用于输入，在下一个批次中对模型进行训练。如图4D所示，5个输入特征时，每个特征指标对于模型的贡献度均较高。CatBoost模型基于不同的特征指标组合训练所得到的评价指标结果见表5。

表5不同数量输入特征下CatBoost模型的评价指标

输入特征数量	准确率	宏查准率	宏查全率	宏F1值
					14	0.778	0.805	0.776	0.790
11	0.824	0.838	0.816	0.827
					8	0.846	0.855	0.842	0.848
5	0.801	0.814	0.800	0.807

在CatBoost模型训练过程中，特征指标组合不断调整，输入特征数从14减少为8时，准确率、宏查准率、宏查全率与宏F1均得到了不同程度的优化，说明对于网格地块风险等级的分类预测，储罐、包气带土壤渗透性、地下管线、年降水量、主要产品和原辅材料这6项指标相比于其他指标贡献度较小。而输入特征数从8减少为5时，准确率和宏查全率的下降说明硬化面积、排污和地下防渗措施三种指标于网格地块风险等级的预测具有较大贡献。

经上述分析比较可知，在使用CatBoost构建污染场地风险等级的预测模型时，选取面积、硬化面积、生产经营时间、排污、地下水埋深、饱和带土壤渗透性、地下防渗措施以及高密度电阻8项特征指标作为输入特征可以取得较优的结果。

2.3不同算法结果对比

采用以上8个特征指标作为输入特征，对XGBoost、LightGBM模型分别进行训练，两种模型得到的评价指标与CatBoost模型对比结果见表6。

表6 3种模型的实验结果对比

模型	准确率	宏查准率	宏查全率	宏F1值
					CatBoost	0.846	0.855	0.842	0.848
XGBoost	0.795	0.804	0.764	0.783
					LightGBM	0.811	0.794	0.805	0.799

通过以上评价指标分析可以看出，在8个输入特征情况下，CatBoost模型在4项指标上均不同程度超过了XGBoost模型与LightGBM模型，与XGBoost模型相比，准确率提高了0.051，宏查准率提高了0.051，宏查全率提高了0.078，宏F1提高了0.065；与LightGBM模型相比，4项指标分别提高了0.035、0.061、0.037、0.049。因此，可以看出CatBoost模型对网格地块风险等级的预测整体表现优于XGBoost模型与LightGBM模型，从而建立较优的污染场地风险等级预测模型。

综上所述，本发明实施例提出了一种污染场地风险等级预测模型的训练方法，以依据场地污染行业知识从试验场地中提取计算的特征指标作为输入值，综合单因子指数法、地累积指数法与潜在生态风险指数法将重金属污染场地网格地块划分为低、中、高三种风险等级并以此作为输出值，对污染场地网格地块的风险等级进行预测。经过对比试验发现，在输入特征为面积、硬化面积、生产经营时间、排污、地下水埋深、饱和带土壤渗透性、地下防渗措施、高密度电阻时，CatBoost模型对网格地块的风险等级预测效果最佳。此外，在最佳输入特征数为8个时，CatBoost模型的评价指标均超过了XGBoost模型和LightGBM模型，说明CatBoost在该方面能够获得更加精确可靠的预测结果。因此，本发明实施例提出的CatBoost模型可在无钻孔采样数据的情况下对重金属污染地块的风险等级进行预测，从而为场地的调查提供决策依据，进而优化风险评估决策流程。

图5示出了本发明实施例提供的污染场地风险等级预测模型的训练装置的结构示意图。如图5所示，该污染场地风险等级预测模型的训练装置500，包括：地块划分模块510，用于将一个或多个污染场地划分为多个地块；输出样本集构建模块520，用于根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，基于所述多个地块的风险等级构建输出样本集；特征指标集构建模块530，用于针对所述污染场地构建特征指标集，其中，所述特征指标集包括用于指示每个地块的环境属性、污染物迁移路径和自身特性的多个特征指标；特征数据获取模块540，用于获取所述多个地块中每个地块的与所述多个特征指标相对应的多个特征数据；模型训练模块550，用于基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型。

在一些实施例中，所述输出样本集构建模块，包括：

污染指数确定子模块，用于根据所述多个地块中每个地块的污染物含量，确定每个地块的一个或多个污染指数；

风险等级确定子模块，用于根据每个地块的一个或多个污染指数，确定每个地块的风险等级。

在一些实施例中，所述风险等级确定子模块，包括：

污染等级确定单元，用于根据每个地块的每个污染指数，确定每个地块与每个污染指数相对应的污染等级；

风险等级确定单元，用于若任一个地块的全部污染指数相对应的污染等级均为轻度，则确定相应地块的风险等级为低；若任一个地块的任一个污染指数相对应的污染等级为中度，而其他污染指数相对应的污染等级在中度之下，则确定相应地块的风险等级为中；若任一个地块的任一个污染指数相对应的污染等级在中度以上，而其他污染指数相对应的污染等级为中度或中度以下，则确定相应地块的风险等级为高。

在一些实施例中，所述模型训练模块，包括：

模型训练子模块，用于根据所述多个特征指标建立由不同的特征指标所组成的多个特征指标组合，基于所述多个地块的与每个特征指标组合相对应的特征数据，构建与每个特征指标组合相对应的每个所述输入样本集；基于多个所述输入样本集和所述输出样本集，构建多个所述训练集；基于多个所述训练集分别对所述污染场地风险等级预测模型进行训练，得到多个训练完成的污染场地风险等级预测模型；

模型性能评价子模块，对所述多个训练完成的污染场地风险等级预测模型的性能进行评价，得到多个性能评价结果；

目标模型筛选子模块，用于从所述多个性能评价结果中筛选所述性能评价结果最优的一个训练完成的污染场地风险等级预测模型，作为目标模型，并将所述目标模型所使用的特征指标组合作为目标特征指标组合，所述目标模型用于对污染场地风险等级进行预测。

在一些实施例中，所述模型训练子模块，具体用于：

在一些实施例中，所述污染物为重金属污染物；所述特征指标集包括用于指示每个地块的环境属性的面积、年降水量、硬化面积、地下管线长度、主要产品年产量、原辅材料年使用量、生产时间、储罐个数和排污区域面积，用于指示每个地块的污染物迁移路径的地下水埋深、饱和带土壤渗透性、包气带土壤渗透性和地下防渗措施，以及用于指示每个地块的自身特性的岩土层高密度电阻。

在一些实施例中，所述污染场地风险等级预测模型为基于决策树的预测模型。

在一些实施例中，所述污染场地风险等级预测模型包括基于CatBoost、XGBoost或LightGBM的预测模型。

图6示出了本发明实施例提供的污染场地风险等级预测模型的训练装置的结构示意图。如图6所示，该污染场地风险等级预测装置600，包括：待预测地块划分模块610，用于将所述待预测污染场地划分为一个或多个待预测地块；待预测地块特征数据获取模块620，用于根据所述的训练完成的污染场地风险等级预测模型所使用的特征指标，获取每个待预测地块与所述特征指标相对应的特征数据；风险等级预测模块630，用于将每个待预测地块的特征数据输入至所述的训练完成的污染场地风险等级预测模型中进行处理，得到所述每个待预测地块的风险等级的预测结果。

图7示出了本发明实施例的电子设备。如图7所示，电子设备700包括：至少一个处理器710，以及与至少一个处理器710通信连接的存储器720，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行的方法。

具体地，上述存储器720和处理器710经由总线730连接在一起，能够为通用的存储器和处理器，这里不做具体限定，当处理器710运行存储器720存储的计算机程序时，能够执行本发明实施例中结合图1至图4D所描述的各项操作和功能。

在本发明实施例中，电子设备700可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、个人数字助理(PDA)、手持装置、消息收发设备、可佩带计算设备等等。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现的方法。具体实现可参见方法实施例，在此不再赘述。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该存储介质中的指令。从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的存储介质构成了本发明的一部分。

存储介质包括但不限于软盘、硬盘、磁光盘、光盘、磁带、非易失性存储卡和ROM。还可以通过通信网络从服务器计算机上或者云上下载程序代码。

需要说明的是，上述各流程和各系统结构中，不是所有的步骤和模块都是必须的，可以根据实际需要忽略某些步骤和单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中的描述的装置结构可以是物理结构，也可以是逻辑结构。某个模块或单元可能由同一物理实体实现，某个模块或单元可能由多个物理实体分别实现，某个模块或单元还可以由多个独立设备中的多个部件共同实现。

尽管本发明实施例的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明实施例并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种污染场地风险等级预测模型的训练方法，其特征在于，包括：

将一个或多个污染场地划分为多个地块；

2.如权利要求1所述的污染场地风险等级预测模型的训练方法，其特征在于，所述根据所述多个地块中每个地块的污染物含量，确定每个地块的风险等级，包括：

3.如权利要求2所述的污染场地风险等级预测模型的训练方法，其特征在于，所述根据每个地块的一个或多个污染指数，确定每个地块的风险等级，包括：

4.如权利要求1所述的污染场地风险等级预测模型的训练方法，其特征在于，所述基于所述多个地块的特征数据构建输入样本集，基于所述输入样本集和所述输出样本集构建训练集，基于所述训练集对所述污染场地风险等级预测模型进行训练，得到训练完成的污染场地风险等级预测模型，包括：

5.如权利要求4所述的污染场地风险等级预测模型的训练方法，其特征在于，所述根据所述多个特征指标建立由不同的特征指标所组成的多个特征指标组合，基于所述多个地块的与每个特征指标组合相对应的特征数据，构建与每个特征指标组合相对应的每个所述输入样本集；基于多个所述输入样本集和所述输出样本集，构建多个所述训练集；基于多个所述训练集分别对所述污染场地风险等级预测模型进行训练，得到多个训练完成的污染场地风险等级预测模型，包括：

6.如权利要求1所述的污染场地风险等级预测模型的训练方法，其特征在于，所述污染物为重金属污染物；

7.如权利要求1所述的污染场地风险等级预测模型的训练方法，其特征在于，所述污染场地风险等级预测模型为基于决策树的预测模型。

8.如权利要求7所述的污染场地风险等级预测模型的训练方法，其特征在于，所述污染场地风险等级预测模型包括基于CatBoost、XGBoost或LightGBM的预测模型。

9.一种污染场地风险等级预测模型的训练装置，其特征在于，包括：

10.一种污染场地风险等级预测方法，其特征在于，包括：

将所述待预测污染场地划分为一个或多个待预测地块；

根据如权利要求1至8中任一项所述的训练完成的污染场地风险等级预测模型所使用的特征指标，获取每个待预测地块与所述特征指标相对应的特征数据；

将每个待预测地块的特征数据输入至如权利要求1至8中任一项所述的训练完成的污染场地风险等级预测模型中进行处理，得到所述每个待预测地块的风险等级的预测结果。