CN116579128A

CN116579128A - 基于机器学习模型的工业园区地下水污染在线预测方法

Info

Publication number: CN116579128A
Application number: CN202310373799.8A
Authority: CN
Inventors: 赵梦飞; 贺玉琪; 徐征; 史中原; 徐斌; 蔡玲; 陈雳华
Original assignee: Zhejiang Environmental Technology Co ltd
Current assignee: Zhejiang Environmental Technology Co ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-08-11

Abstract

本发明公开了一种基于机器学习模型的工业园区地下水污染在线预测方法，属于地下水污染预测领域；包括以下5个步骤，步骤一：数据采集；步骤二，构建地下水水流模型；步骤三，从机器学习库中选择最优的机器学习组合模型，构建地下水质预测模型；步骤四，实现地下水水质在线预测；步骤五，预测结果可视化。

Description

基于机器学习模型的工业园区地下水污染在线预测方法

技术领域

本发明涉及地下水污染预测技术领域，具体涉及一种基于机器学习模型的工业园区地下水污染在线预测方法。

背景技术

地下水作为特殊时期地表水的补充资源，对经济社会的发展和生态环境的维护具有十分重要的意义。然而，受工农业活动影响，尤其是在工业园区化工集聚区，可能存在污水偷排、管网泄漏等情况，导致污染物通过土壤、河流进入地下水。

受限于含水介质的孔隙度等因素，地下水迁移速度慢，自净能力弱，一旦发现往往已经到达比较严重的程度。目前国内外已经逐步对地下水监测引起重视，在重点区域建设监测井进行人工监测或在线监测。但仅有水质监测数据不能满足长期的地下水污染监管，应充分利用地下水水质监测数据，预测未来的扩散趋势，从而采取措施避免更严重的污染。

公开号为CN 114184750 A的专利说明书公开了一种地下水污染物的监控方法，包括：通过获取不同区域的地下水；对地下水分别进行检测处理，得到多个水质检测数据；对水质检测数据进行分析处理，得到污染物数据；根据水质检测数据和污染物数据构建污染物检测模型；将污染物数据输入污染物检测模型进行预测，得到污染物预测结果；根据污染物预测结果对地下水中的污染物进行监控。

公开号为CN 115828704 A的专利说明书公开了一种地下水污染快速预测方法，包括以下方法：步骤一、构建概念模型；根据地下水污染的地形地貌、水文地质、水文地球化学条件，确定所模拟的区域大小；步骤二、选择数学模型；根据一维数学模型、二维数学模型和三维数学模型的概念选择水流模型、溶质运移模型、反应模型、水动力-水质耦合模型和水动力-弥散-反应耦合模型；步骤三、将数学模型进行数值化处理；利用有限单元法或有限差分法将无法用解析解求解的数学模型转化为可解的数值模型；步骤四、预测与灵敏度分析；用校正的参数值进行预测；步骤五、可执行程序编译。

目前国内外对地下水污染的空间预测方法多运用传统溶质运移模型，而这类方法对数据的利用率低，对溶质及含水介质的参数要求较高，且计算速度慢，预测精度和预测速度不能保证，也有少数研究中，将机器学习模型应用于地下水污染预测，但大多为单一模型，且很少实现模型的组合与在线更新，模型的持续性不能保证。

发明内容

本发明提供了一种基于机器学习模型的工业园区地下水污染在线预测方法，通过在工业园区建设地下水水质水位自动在线监测站，实现建模数据在线更新，从而实现预测模型的在线更新，最终实现工业园区全域内未来地下水污染物浓度的预测，减少了建设监测站的成本。在建模过程中，针对地下水污染物响应的延迟和滞后现象，对模型做适应性改进，根据预测时间和预测点位的不同，输入数据将会适应性变化。并将多类模型进行组合，通过模型训练与校验，选择最优组合模型作为默认模型，同时支持选择不同的组合方式，从而避免单一模型预测结果的片面性，也解决了传统扩散模型对参数要求高的难题。

一种基于机器学习模型的工业园区地下水污染在线预测方法，包括：

步骤一，收集工业园区基础信息及地层数据，在工业园区建立地下水在线监测站网，实时获取地下水水位在线监测数据和水质在线监测数据；

步骤二，以工业园区的地层勘探钻孔资料、水文地质参数、地下水水位数据为基础，对工业园区进行区域网格剖分，构建可实时更新的地下水在线水流模型，为步骤三和步骤四提供在线数据支撑；

步骤三，构建相对空间坐标系，获取区域网格点的建模基础数据，所需数据分为以下四类：

网格点固定数据，包括岩性、坐标；

地下水水质在线监测数据，包括监测到的污染物类型、浓度以及对应的监测时间点；

利用在线水流模型获取各网格点流场数据，包括水流流向、流速、水位；

企业污染信息，包括区域周边企业的位置、面积、排放的污染物类型、污染物年产量；

基于以上数据，利用机器学习库中的机器学习回归模型，通过模型训练与校验选择最优的模型组合方式，通过更新建模基础数据，构建可实时更新的地下水污染预测模型；

步骤四，实现工业园区内未进行水质监测的网格的在线预测，通过获取步骤三中的四类数据，利用经过训练与校验的机器学习回归模型，设置预测时长，预测各网格点未来的污染物浓度。

步骤一中，所述地下水在线监测站网包括水质监测点和水位监测点；水质监测点的点位布设采用网格布点法，兼顾监测重点污染区域和均匀分布原则，确保步骤二中每10个网格点中有一处监测井。

步骤一中，所述工业园区基础信息及地层数据包括工业园区边界范围、园区内企业边界、企业排放的污染物类型、各企业年度各类污染物排放量、园区河流分布情况、地层勘探钻孔资料、水文地质参数、降水补给参数和土地利用情况。

步骤二中，所述构建可实时更新的地下水在线水流模型具体包括步骤：

S21、构建水文地质概念模型：依据工业园区的地层勘探钻孔资料和水文地质参数，解析含水层的三维空间分布及含水介质岩性特征，建立工业园区三维地质模型；结合工业园区内水文数据以及区域地下水流场特征，确定地下水补给、径流、排泄特征，同时结合场地试验初步获取包括降雨入渗系数、给水度在内的关键水力参数，构建水文地质概念模型；

S22、模型初始条件设置：对于地下水流场的状态，选择工业园区范围内未受外部应力项显著影响的稳定状态；

S23、模型边界条件设置：根据水文地质概念模型确定地下水在线水流模型的边界条件，将工业园区边界概化为给定水头的一类边界，给定侧向径流量的二类边界或者给定侧向流量与水位关系的三类边界；

S24、模型源汇项设置：地下水水流源汇项包括地下水开采、降雨入渗补给、潜水面蒸发以及与地表水体的相互交换，通过二类边界和三类边界条件进行设置；

S25、模型参数设置：地下水在线水流模型参数包括渗透系数、储水系数、给水度、孔隙度、弥散度及化学反应参数；

S26、模型空间离散：对工业园区模拟空间进行网格剖分，采用矩形网格，网格剖分精度取决于区域面积和监测井网格数量，建模网格数量为监测井网格数量的10倍；

S27、模型校准与验证：依据实测地下水水位高程对模型进行校准，通过调整参数取值，使得模型计算值与野外观测值达到一定的精度要求，基本表征地下水流场的变化特征；校准结果评估满足模拟的流场与观测流场形态近似，要求观测井地下水水位的实际观测值与模拟计算值的拟合误差小于模拟期内水位变化范围的10％。

由于建设了地下水水位自动监测站，地下水水位数据更新后，水流模型能够依据最新的水位数据同步更新，重新计算出各网格点最新时刻的流速、流向、水位。

步骤三中，所述构建相对空间坐标系具体实现方式为：选取工业园区建模范围内的任一点为坐标原点，构建相对直角坐标系，0°方向为横轴，90°方向为纵轴，将各点的空间经纬度坐标转换为相对距离坐标，转换后某一点的坐标(x,y)表示该点位于原点以东x米、原点以北y米。

步骤三中，考虑到地下水的传输介质，相比于地表水、大气等环境要素，当发生污染物泄露后，污染物在地下水中的运输速率要慢的多，因此在构建所述可实时更新的机器学习地下水污染预测模型时考虑时间因素影响的迟滞效应，具体方法为：

设置时间范围，对所有监测井不同时期的数据进行组合，经过相关性分析，确定每个目标点位的最佳输入数据日期组合；

记目标监测井为M，除目标监测井外有N个其他监测井，分别记为J₁、J₂、J₃、……、J_N，目标监测井T时刻的污染物浓度为M_T，所有监测井最早的监测日期为T-L，监测井J₁的污染物浓度历史监测数据为{J_1,T-L，……，J_1,T-3，J_1,T-2，J_1,T-1}，监测井J₂的污染物浓度历史监测数据为{J_1,T-L，……，J_2,T-3，J_2,T-2，J_2,T-1}，……，监测井J_N的污染物浓度历史监测数据为{J_N,T-L，……，J_N,T-3，J_N,T-2，J_N,T-1}；用其他监测井的历史监测数据作为模型的输入，M_T作为模型的输出，将M_T与其他监测井的不同时刻的数据分别组合，形成数组[J_1,T1，J_2,T2，J_3,T3，……,J_N,TN，M_T]，其中T1～TN均可各自独立地从[T-1,T-2,T-3,……,T-L]中选择，按照此规则，最终形成的数据组合有L^N类；对于每个监测井，分别将其M_T和其他监测井的历史监测数据进行相关性分析，计算斯皮尔曼相关系数，相关系数越高，说明相应的时间组合对应的数据相关性越好，选择相关系数最大的组合，以此作为最优日期组合，从而构建目标监测井任一时刻污染物浓度与其他监测井最优日期组合下的历史监测数据之间的关系，并可据此准确预测未来某一时刻目标监测井的污染情况，达到提前预警的目的。

若采用传统的样本组合方法，即各站点的输入数据选择同一日期，可能会造成数据的冗余及噪音。

所述构建可实时更新的地下水污染预测模型的具体实现过程为：

选择机器学习模型：从机器学习库中选择适用于水文领域多因子预测的回归模型，模型类型不少于5类；

数据预处理：通过独热编码将包括岩性在内的离散类别信息转换为数值型数据，不同要素的数据存在极端值和较多噪音，采用中心化处理避免异常值和极端值的影响，减小误差，加快模型训练速度；

建立数据集：模型的构建需要输入数据集，包括特征值X和目标值Y，目标值Y表示特定时刻某一网格点的特定污染物的浓度大小，特征值X表示影响Y值的多维要素；

样本分割：将数据集X与Y分割为训练样本Xtr、Ytr，校验样本Xve、Yve和测试样本Xte、Yte；训练样本用于模型学习历史数据的规律；校验样本用于参数的调整和选择最优模型；测试样本用于评估模型的预测性能；训练样本和校验样本都参与了模型的构建，而测试样本对于模型是全新的数据；

组合模型：对于R类的单一机器学习回归模型，R≥5，组合方式包括选择2类、3类、……、R类进行组合的组合模型，以及R种单一模型；

训练模型：采用方差倒数加权法进行模型组合，对每一种单一模型，设置不同的参数组合，在各种参数组合和模型组合条件下，分别输入训练样本Xtr、Ytr训练组合模型；

模型校准：对于各类组合模型，将校验样本Xve分别输入各参数组合下训练好的模型，将模型的预测结果Ypre_ve与观测值Yve进行对比分析，从中选出误差最小时对应的参数组合及模型组合方式，对应的即是校验样本拟合精度最好的组合模型，作为在线预测的默认模型；

模型测试：将测试样本Xte输入校验样本选择的模型中，得出预测值Ypre_te，将Ypre_te与观测值Yte进行误差分析，从而验证模型的准确性。

基于水位在线监测数据和水质在线监测数据，可更新建模数据，选择不同时间范围的数据，重新训练、校验模型，从而更新预测模型。

步骤四中，对于已建设监测井的网格点，地下水污染物浓度在线预测过程包括以下步骤：

①地下水监测站自动采样，进行水质分析；

②产生最新水质数据后自动触发预测过程，调用步骤三构建的可实时更新的地下水污染预测模型，设置默认的预测时长；

③调取所有网格点的坐标数据、流场数据、岩性数据、企业污染信息数据，另外调取自动监测站的水质在线监测数据；

④按照步骤三的方式进行数据处理和样本重构，获取特征值X；

⑤将特征值X作为输入数据，用步骤三构建的可实时更新的地下水污染预测模型进行预测，从而预测各网格点未来时刻不同污染物的浓度值；

根据已建设监测井的网格点的污染物浓度预测值，进行克里金插值，计算未建设监测井的网格点的污染物浓度。

步骤四地下水污染物浓度在线预测过程，支持选择多个单一模型进行组合，比对不同模型组合的预测结果，同时支持选择不同的预测时长，输出园区未来不同时刻的污染物分布情况。

所述基于机器学习模型的工业园区地下水污染在线预测方法还包括：

步骤五，可视化同一时刻的污染预测结果空间分布图和同一点位的污染物变化趋势图；对于同一时刻不同点位的预测结果，以颜色区分不同浓度差异，对于同一点位不同时刻的预测结果，通过折线图呈现点位污染物浓度变化趋势，从而将污染物预测结果可视化。

步骤五所述的预测结果可视化能够用不同色阶区分浓度范围，渲染出未来工业园区某一污染指标的分布情况。另外，若要实现动态效果，可选择不同的预测步长，预测不同时刻的全局污染情况，系统支持自动播放不同节点的污染浓度分布情况，从而直观可视化呈现未来一段时间内园区的污染物扩散趋势。

本发明与现有技术相比，有益效果有：

本发明方法充分利用工业园区地下水监测数据，实时预测工业园区地下水污染扩散状况。此外，本发明方法考虑到地下水的传输介质，相比于地表水、大气等环境要素，当发生污染物泄露后，污染物在地下水中的运输速率要慢的多，因此在构建预测模型时需考虑迟滞效应，并对此进行适应性改进。对于一个点位，若要预测该目标点位的污染物浓度，输入数据为其他监测井的历史数据，但由于每个监测井和目标点位的相对空间位置不同，在空间各点分子弥散速度不同，因此目标点位受各其他监测井的影响程度存在差异，且目标点位受同一个监测井不同时期的监测数据的影响程度也存在差异，因此在输入数据的选择过程，应进行适应性改进，将时间因素考虑在内。

附图说明

图1为具体实施方式中基于机器学习模型的工业园区地下水污染在线预测方法的流程示意图。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，一种基于机器学习模型的工业园区地下水污染在线预测方法，包括：

步骤一，收集工业园区基础信息及地层数据，在工业园区建立地下水在线监测站网，实时获取地下水水位在线监测数据和水质在线监测数据。

所述地下水在线监测站网包括水质监测点和水位监测点；水质监测点的点位布设采用网格布点法，兼顾监测重点污染区域和均匀分布原则，确保步骤二中每10个网格点中有一处监测井。

所述工业园区基础信息及地层数据包括工业园区边界范围、园区内企业边界、企业排放的污染物类型、各企业年度各类污染物排放量、园区河流分布情况、地层勘探钻孔资料、水文地质参数、降水补给参数和土地利用情况。

步骤二，以工业园区的地层勘探钻孔资料、水文地质参数、地下水水位数据为基础，对工业园区进行区域网格剖分，构建可实时更新的地下水在线水流模型，为步骤三和步骤四提供在线数据支撑。

所述构建可实时更新的地下水在线水流模型具体包括步骤：

网格点固定数据，包括岩性、坐标；

基于以上数据，利用机器学习库中的机器学习回归模型，通过模型训练与校验选择最优的模型组合方式，通过更新建模基础数据，构建可实时更新的地下水污染预测模型。

所述构建相对空间坐标系具体实现方式为：选取工业园区建模范围内的任一点为坐标原点，构建相对直角坐标系，0°方向为横轴，90°方向为纵轴，将各点的空间经纬度坐标转换为相对距离坐标，转换后某一点的坐标(x,y)表示该点位于原点以东x米、原点以北y米。

考虑到地下水的传输介质，相比于地表水、大气等环境要素，当发生污染物泄露后，污染物在地下水中的运输速率要慢的多，因此在构建所述可实时更新的机器学习地下水污染预测模型时考虑时间因素影响的迟滞效应，具体方法为：

对于已建设监测井的网格点，地下水污染物浓度在线预测过程包括以下步骤：

①地下水监测站自动采样，进行水质分析；

此外应理解，在阅读了本发明的上述描述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，包括：

网格点固定数据，包括岩性、坐标；

2.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，步骤一中，所述地下水在线监测站网包括水质监测点和水位监测点；水质监测点的点位布设采用网格布点法，兼顾监测重点污染区域和均匀分布原则，确保步骤二中每10个网格点中有一处监测井。

3.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，步骤一中，所述工业园区基础信息及地层数据包括工业园区边界范围、园区内企业边界、企业排放的污染物类型、各企业年度各类污染物排放量、园区河流分布情况、地层勘探钻孔资料、水文地质参数、降水补给参数和土地利用情况。

4.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，步骤二中，所述构建可实时更新的地下水在线水流模型具体包括步骤：

5.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，步骤三中，所述构建相对空间坐标系具体实现方式为：选取工业园区建模范围内的任一点为坐标原点，构建相对直角坐标系，0°方向为横轴，90°方向为纵轴，将各点的空间经纬度坐标转换为相对距离坐标，转换后某一点的坐标(x,y)表示该点位于原点以东x米、原点以北y米。

6.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，步骤三中，在构建所述可实时更新的机器学习地下水污染预测模型时考虑时间因素影响的迟滞效应，具体方法为：

记目标监测井为M，除目标监测井外有N个其他监测井，分别记为J₁、J₂、J₃、……、J_N，目标监测井T时刻的污染物浓度为M_T，所有监测井最早的监测日期为T-L，监测井J₁的污染物浓度历史监测数据为{J_1,T-L，……，J_1,T-3，J_1,T-2，J_1,T-1}，监测井J₂的污染物浓度历史监测数据为{J_1,T-L，……，J_2,T-3，J_2,T-2，J_2,T-1}，……，监测井J_N的污染物浓度历史监测数据为{J_N,T-L，……，J_N,T-3，J_N,T-2，J_N,T-1}；用其他监测井的历史监测数据作为模型的输入，M_T作为模型的输出，将M_T与其他监测井的不同时刻的数据分别组合，形成数组[J_1,T1，J_2,T2，J_3,T3，……,J_N,TN，M_T]，其中T1～TN均可各自独立地从[T-1,T-2,T-3,……,T-L]中选择，按照此规则，最终形成的数据组合有L^N类；对于每个监测井，分别将其M_T和其他监测井的历史监测数据进行相关性分析，计算斯皮尔曼相关系数，相关系数越高，说明相应的时间组合对应的数据相关性越好，选择相关系数最大的组合，以此作为最优日期组合。

7.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，所述构建可实时更新的地下水污染预测模型的具体实现过程为：

数据预处理：通过独热编码将包括岩性在内的离散类别信息转换为数值型数据，采用中心化处理避免异常值和极端值的影响，减小误差，加快模型训练速度；

8.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，步骤四中，对于已建设监测井的网格点，地下水污染物浓度在线预测过程包括以下步骤：

①地下水监测站自动采样，进行水质分析；

9.根据权利要求1所述的基于机器学习模型的工业园区地下水污染在线预测方法，其特征在于，所述基于机器学习模型的工业园区地下水污染在线预测方法还包括：