CN112101789A

CN112101789A - 一种基于人工智能的水污染报警等级识别方法

Info

Publication number: CN112101789A
Application number: CN202010973023.6A
Authority: CN
Inventors: 程雨涵; 梁漫春; 钱益武; 李梅; 李楚; 王清泉; 曹毅; 孔美玲; 龚柳; 肖鑫鑫; 王康林
Original assignee: Anhui Zeone Safety Technology Co ltd; Beijing Chen'an Measurement And Control Technology Co ltd; Hefei Institute for Public Safety Research Tsinghua University
Current assignee: Anhui Zeone Safety Technology Co ltd; Beijing Chen'an Measurement And Control Technology Co ltd; Hefei Institute for Public Safety Research Tsinghua University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-18

Abstract

本发明提供了一种基于人工智能的水污染报警等级识别方法，包括以下步骤：步骤A：获取历史数据，对历史数据进行预处理；步骤B：人工标记历史数据的风险等级，得到风险标签数据，按比例划分为训练集和测试集；步骤C：搭建深度学习模型，将训练集数据输入深度学习模型，输出训练后的模型；步骤D：使用测试集进行测试，如果满足预设标准，则作为水污染报警等级识别模型；步骤E：对各入口节点的实时数据进行识别得到水污染报警等级。本发明的优点在于：综合考虑水体的水质和水量数据，基于人工智能深度学习技术，发现水体污染与多种参数的深度关系，对污染报警等级进行准确的判断识别。

Description

一种基于人工智能的水污染报警等级识别方法

技术领域

本发明涉及水污染分析技术领域，尤其涉及一种基于人工智能的水污染报警等级识别方法。

背景技术

对水环境进行污染情况监控时需要考虑入河排口、管网节点等位置的监控，涉及的监控因子较多，如果采用单因子指标报警，在同一时间点，存在多个监测指标的同时报警情况，产生多条报警信息，工作人员需要对多条单因子报警信息进行处理，人工判断节点排放的综合污染风险程度。依赖工作人员的工作经验，具有随机性，因人差异性，效率较低且对工作人员的专业技术有一定要求。

公开号为CN110196083A的发明专利申请公开了一种排水管网污染路径的监测识别方法，通过建立待监测区域的排水管网骨架模型，根据排水管网骨架模型，识别可能性污染传输路径和可能性污染传输路径的关键节点，按照关键节点在实际排水管网布点后，监测实际排水管网的水量和水质指标数据，在监测到水量和水质指标数据异常时，利用排水管网骨架模型从可能性污染传输路径中确定实际污染传输路径，对实际污染传输路径中的关键节点进行污染取证；通过对水质、水量的监控快速确定水质异常并确定问题节点；该方法虽然考虑了水质和水量的变化情况，但实际上的判断条件依然是单个因子是否超标，没有对多个因子进行综合评估，准确度较低。

发明内容

本发明所要解决的技术问题在于异常检测存在滞后性的情况，提供一种基于水质和水量综合判定，快速准确确认水污染报警等级的方法。

本发明是通过以下技术方案解决上述技术问题的：一种基于人工智能的水污染报警等级识别方法，包括以下步骤：

步骤A：获取水环境入口节点影响因子的历史数据，对历史数据进行异常值剔除和缺失值填充操作；

步骤B：基于时间序列标记各节点影响因子对应的风险等级，结合历史数据得到风险标签数据，将风险标签数据按比例划分为训练集和测试集；

步骤C：搭建深度学习模型，配置模型参数，将训练集数据输入深度学习模型，通过参数优化，当训练模型的准确度满足输出标准时，输出训练后的模型；

步骤D：使用测试集对训练后的深度学习模型进行测试，如果测试结果不满足预设标准，则返回步骤C，如果满足预设标准，则作为水污染报警等级识别模型；

步骤E：将各入口节点的实时数据输入水污染报警等级识别模型，得到水污染报警等级。

本发明综合考虑水体的水质和水量数据，基于人工智能深度学习技术，发现水体污染与多种参数的深度关系，对污染报警等级进行准确的判断识别；另外对每个入口节点分别配置适用的模型，提高准确度，能够在发现异常时直接确定问题节点，提高响应速度，不需要根据主通道的异常反向排查各节点的情况，处理速度更快。

优选的，所述影响因子包括水质数据和水量数据，所述水质数据包括物理指标、常规水质指标、金属含量、无机物含量、有机物含量、微生物含量、辐射量；所述水量数据包括水位、流量、流速。

优选的，步骤A中基于箱线图或三倍标准偏差法检测异常值，对极端异常值进行剔除；基于缺失值前后多个数据的平均值对缺失值进行填充。

优选的，步骤C中基于决策树搭建深度学习模型，训练方法包括以下步骤：

步骤i：调用决策树模型，选择基尼系数或信息增益作为模型的特征指标计算方法；

步骤ii：设置决策树各参数的序列值列表，包括最大深度、叶子节点最少样本数、最大叶子节点数，将风险标签数据的训练集输入决策树模型，依据序列值列表逐个更新每个参数，并保持其他参数不变，以准确率和召回率最优值对应的数值作为当前参数的最优值，依次确定每个参数的最优值，基于迭代后的最高准确率和召回率评价指标确定决策树的最佳参数组合；

步骤iii：基于最佳模型参数组合，使用测试集数据对决策树模型进行测试，并将输出结果与步骤B中标定的风险等级进行比对；如果正确率≥90％，则将该最佳参数组合对应的决策树作为水污染报警等级识别模型输出，否则返回步骤ii。

优选的，搜准确率的计算公式为：

召回率计算公式为：

其中，TP表示真实结果为A，预测结果也是A的数量，FN表示真实结果为A，预测结果不是A的数量；TN表示真实结果不是A，预测结果也不是A的数量，FN表示真实结果不是A，预测结果是A的数量。

优选的，步骤C中基于随机森林搭建深度学习模型，训练方法包括以下步骤：

步骤I：调用随机森林模型，配置参数n_estimators、max_features、max_depth、max_features、min_samples_leaf、min_samples_split、max_depth的序列值列表；

步骤II：将风险标签数据的训练集输入随机森林模型，基于序列值列表依次更新参数n_estimators、max_features、max_depth、max_features、min_samples_leaf、min_samples_split、max_depth；基于最高准确率和召回率评价指标确定随机森林的最佳参数组合；

步骤III：基于最佳模型参数组合，使用测试集数据对随机森林模型进行测试，并将输出结果与步骤B中标定的风险等级进行比对；如果正确率≥90％，则将该最佳参数组合对应的决策树作为水污染报警等级识别模型输出，否则返回步骤II。

优选的，步骤C中基于SVM搭建深度学习模型，训练方法包括以下步骤：

步骤a：调用SVM模型，初始化模型参数gamma和惩罚系数C的序列值列表；

步骤b：将风险标签数据的训练集输入SVM模型进行训练，基于序列值列表依次更新参数，以准确率最优时对应的参数作为该参数的最优值，按照该方法依次确定各参数的最优值，最终基于最高准确率确定SVM模型的最佳参数组合；

步骤c：基于最佳模型参数组合，使用测试集数据对SVM模型进行测试，并将输出结果与步骤B中标定的风险等级进行比对；如果正确率≥90％，则将该最佳参数组合对应的决策树作为水污染报警等级识别模型输出，否则返回步骤b。

优选的，步骤C中基于神经网络搭建深度学习模型，训练方法包括以下步骤：

步骤1：搭建包括输入层、隐藏层1、隐藏层2、输出层的神经网络，初始化隐藏层1、隐藏层2和输出层的权重参数w1、w2、w3，偏重参数b1、b2、b3，激活函数学习率η、损失函数、优化器函数；

步骤2：将风险标签数据的训练集输入神经网络模型进行训练，计算每轮训练后的模型分类准确率和损失，对损失函数求梯度，根据梯度、初始设定学习率对权重参数w、偏重参数b进行迭代更新，模型损失小于0.1，且模型准确率大于90％时，结束训练；

步骤3：通过学习率序列列表循环带入模型，基于模型准确率、模型损失率收敛得到最佳学习率；

步骤4：基于最佳模型参数组合，使用测试集数据对神经网络模型进行测试，并将输出结果与步骤B中标定的风险等级进行比对；如果正确率≥90％，则将该最佳参数组合对应的决策树作为水污染报警等级识别模型输出，否则返回步骤2。

优选的，所述神经网络的计算公式为：

h₁＝(w₁·X_input)+b₁

h₂＝(w₂·X_h1)+b₂

Y_output＝σ((w₃·X_h2)+b₃)

其中，h₁为该神经网络的隐藏层1输出，h₂为该神经网络的隐藏层2输出，Y_output为输出层的输出数据，即水污染报警等级；X_input表示输入层数据；σ表示激活函数，本实施例采用relu激活函数，X_h1和X_h2分别表示隐藏层1和隐藏层2的输入数据。

优选的，神经网络的权重和偏重的更新方法为：

其中，w_old、b_old为更新前的权重和偏重，w_new、b_new为更新后的权重和偏重。

本发明提供的基于人工智能的水污染报警等级识别方法的优点在于：综合考虑水体的水质和水量数据，基于人工智能深度学习技术，发现水体污染与多种参数的深度关系，对污染报警等级进行准确的判断识别；另外对每个入口节点分别配置适用的模型，提高准确度，能够在发现异常时直接确定问题节点，提高响应速度，不需要根据主通道的异常反向排查各节点的情况，处理速度更快。

附图说明

图1为本发明的实施例提供的户基于人工智能的水污染报警等级识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1所示，本实施例提供了一种基于人工智能的水污染报警等级识别方法，包括以下步骤：

所述影响因子包括水质数据和水量数据，所述水质数据包括物理指标、常规水质指标、金属含量、无机物含量、有机物含量、微生物含量、辐射量；具体的，物理指标包括水温、PH、透过率、悬浮物、浊度；常规水质指标包括溶解氧含量、高锰酸盐指数、化学需氧量、五日生化需氧量、氨氮含量、总磷含量、总氮含量；金属含量包括铜、铁、锌、汞、铬、铅；无机物含量包括氟化物、卤化物、磷酸盐类、硫化物；有机物含量包括氰化物、挥发酚、石油类、阴离子表面活性剂；微生物含量包括粪大肠杆菌群；辐射量包括总α、总β、3H、14C、90Sr活度浓度；所述水量数据包括水位、流量、流速等。

对数据进行处理前，还需要对数据进行清洗整理，可使用多表关联、时间处理等方法对数据进行整理，数据整理内容包含：监测数据表与站点基础信息表、监测指标基础表匹配，将多张数据表整理成一张表，另外将分钟级流量、液位、水温等数据进行均值、加和值等统计方法整合成与水质统一频率的数据展示形式；然后基于箱线图或三倍标准偏差法检测异常值，对极端异常值判定为设备异常，将极端异常值剔除；基于缺失值前后多个数据的平均值对缺失值进行填充，优选使用前后4—8位数据的平均值进行填充。

本步骤中通过人工判断，综合考虑各方面的影响因子，对水体数据标记风险等级。

本实施例综合考虑水体的水质和水量数据，基于人工智能深度学习技术，发现水体污染与多种参数的深度关系，对污染报警等级进行准确的判断识别；另外对每个入口节点分别配置适用的模型，提高准确度，能够在发现异常时直接确定问题节点，提高响应速度，不需要根据主通道的异常反向排查各节点的情况，处理速度更快。

其中深度学习模型可以使用决策树、随机森林、支持向量机(SVM)、BP神经网络、LSTM神经网络等模型进行构建，也可以同时训练多个模型，然后基于分类准确性选择最优的模型作为最终的水污染报警等级识别模型；本实施例以部分深度学习模型为例说明如何进行模型训练。

决策树

所述准确率的计算公式为：

召回率计算公式为：

随机森林

例如预设max_depth的序列值列表为[3,4,5,...10,…20…]，依次改变max_depth数据，保持其他参数不变，通过循环依次带入训练模型，输出不同max_depth下的模型准确率、召回率，以最优结果对应的数值作为最佳max_depth值，然后以该最优值带入模型对其他参数进行迭代优化，最终获得所有参数的最优值的组合。

所述准确率的计算公式为：

召回率计算公式为：

SVM

所述准确率的计算公式为：

神经网络

步骤1：构建包括输入层、隐藏层1、隐藏层2、输出层的神经网络，初始化隐藏层1、隐藏层2和输出层的权重参数w1、w2、w3，偏重参数b1、b2、b3，激活函数、学习率η、损失函数、优化器函数；

所述水污染报警等级识别神经网络的计算公式为：

h₁＝(w₁·X_input)+b₁

h₂＝(w₂·X_h1)+b₂

Y_output＝σ((w₃·X_h2)+b₃)

其中，h₁为该神经网络的隐藏层1输出，h₂为该神经网络的隐藏层2输出，Y_output为输出层；X_input表示输入层数据；σ表示激活函数，本实施例采用relu激活函数，X_h1和X_h2分别表示隐藏层1和隐藏层2的输入数据；

步骤2：将风险标签数据的训练集输入神经网络模型进行训练，计算每轮训练后的模型分类准确率和损失，对损失函数求梯度，根据梯度、初始设定学习率对权重参数w、偏重参数b进行更新，模型损失小于0.1，且模型准确率大于90％时，结束训练；

所述准确率的计算公式为：

其中，TP表示真实结果为A，预测结果也是A的数量，FN表示真实结果为A，预测结果不是A的数量；TN表示真实结果不是A，预测结果也不是A的数量，FN表示真实结果不是A，预测结果是A的数量；

随时函数E采用softmax_cross_entropy_with_logits多分类交叉熵函数计算预测值与标签值之间的误差；

步骤3：另外将学习率序列列表循环带入模型，基于模型准确率、模型损失收敛得到适用本模型最佳学习率；

权重和偏重的更新方法分别为：