CN114066037A

CN114066037A - 一种基于人工智能的流域污染溯源预测方法及装置

Info

Publication number: CN114066037A
Application number: CN202111329275.6A
Authority: CN
Inventors: 王国强; 薛宝林; 王溥泽; 谢刚
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-18

Abstract

本发明提供了一种基于人工智能的流域污染溯源预测方法及装置，涉及水环境信息处理及技术领域。包括：通过将水质监测指标进行交叉相关计算，将水质指标间的相关图谱作为输入基础数据，并通过关联规则算法将指标间的相关关系延深至与点源污染间的关联。最后，应用LSTM算法充挖掘水质相关图谱在时间上的潜在规律，实现对点源污染的精准预测。本发明以预测引起水质变化的主控行业点源为目标，设计了利用点源污染、水质监测数据和行业污染知识库为数据集，创新的将智能语音技术中的核心算法引入环境领域，采用交叉相关、关联规则和长短时记忆网络等算法，实现利用人工智能技术识别影响未来水质变化的主要点源污染。

Description

一种基于人工智能的流域污染溯源预测方法及装置

技术领域

本发明涉水环境信息处理及技术领域，特别是指一种基于人工智能的流域污染溯源预测方法及装置。

背景技术

数据挖掘是信息技术发展的结果，是利用各种分析工具在海量数据中寻找和发现模型和数据间关系的过程，并利用模型和关系对数据的潜在规律做出预测 (向先全等，2009)。通过对水环境信息的挖掘，逐渐量化了水环境过程的物理机制，进而构建了水环境模型，水环境过程模拟又是对水环境信息的二次挖掘。因此，水环境过程模拟是水环境信息挖掘的重要方法之一。

水环境过程综合了水循环及生物地球化学循环等自然过程，包括物理、化学和生物各要素的相互作用，极为复杂。水环境过程机理构建的水环境综合数学模型可用于揭示水环境关键过程机理、预测水环境过程演变、诊断水环境安全问题、评估治理或管理措施的影响和效益，以及辅助水环境管理决策等。美国清洁水计划和欧盟水框架指令的实施实践表明，流域水环境综合数学模型已成为流域水环境管理不可或缺的手段，健全模型是成功实现流域水环境管理的重要保障。

据此，水环境过程研究逐步从单过程向多过程转变、从单学科到多学科交叉扩展、从局部小尺度向流域尺度过渡。未来水环境模拟研究应关注流域系统人与水环境耦合模拟研究，指出如何深化自然要素和人文要素作用机理，建立模型预测未来变化是当前面临的挑战。

目前水环境模型存在时空尺度单一、限制因素繁杂、假设条件较多、机理改进缓慢和参数率定困难等问题，无法满足海量信息的提取与应用。传统水环境信息挖掘与水环境过程模拟技术已无法满足对海量信息的全面识别和分析，同时也难以深入剖析水环境过程的机制，亟需一种新的方法。

发明内容

针对现有技术中无法满足对海量信息的全面识别和分析、对点源污染的快速精准识别的问题，本发明提出了一种基于人工智能的流域污染溯源预测方法及装置。

为解决上述技术问题，本发明提供如下技术方案：

一方面，提供了一种基于人工智能的流域污染溯源预测方法，包括：

S1：对全局各流域内水质监测指标进行时间划分；

S2：对划分后的水质监测指标进行交叉计算，生成水质监测指标之间的相关图谱；

S3：将所述相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估；

S4：将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染行业的溯源，以及点源污染行业发展的预测。

可选地，步骤S1中，对全局各流域内水质监测指标进行时间划分，包括：

S11：对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进行采集；

S12：对采集到的所述水质监测数据进行数据清洗，得到水质监测指标；

S13：将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划分方式进行划分。

可选地，步骤2中，对划分后的水质监测指标进行交叉计算，生成时间层面的水质监测指标之间的相关图谱，包括：

对流域内每两个时序单元的水质监测指标进行交叉计算，生成水质监测指标之间的相关图谱。

可选地，步骤S3中，将所述相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估，确定各时序单元主要影响的行业，包括：

S31：将所述相关图谱输入预先创建的关联规则算法模型；

S32：通过关联规则算法模型，计算出每两个水质监测指标之间的相关关系；

S33：根据预设的高相关性阈值提取各时序单元的水质监测指标组合；大于所述高相关性阈值的所述水质监测指标组合即为高相关性的水质监测指标组合；

S34：对各时序单元的水质监测指标组合，以及所述行业污染知识库中的行业主要污染物数据集，进行频繁集评估，确定各时序单元主要影响的行业。

可选地，步骤S34中，对各时序单元的水质监测指标组合，以及所述行业污染知识库中的行业主要污染物数据集，进行频繁集评估，确定各时序单元主要影响的行业，包括：

S341：通过Apriori算法计算各时序单元中水质监测指标的原始频繁集；

S342：根据预设的支持度以及置信度，再次计算各时序单元的水质监测指标的新频繁集；

S343：根据所述原始频繁集以及新频繁集的交集部分，得到频繁出现的高相关性水质监测指标对；

S344：根据高相关性水质指标对确定各时序单元主要影响的行业。

可选地，高相关性水质检测指标对为：流域内点源污染与水质监测污染物具有关联性的临界阈值组合。

可选地，步骤S4中，根据所述时序单元的关联以及评估，训练点源污染的 LSTM算法溯源预测模型，包括：

S41：对所有时序单元进行随机长度组合，形成训练样本；

S42：根据样本对LSTM算法溯源预测模型进行训练学习；

S43：将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染行业的溯源，以及点源污染行业发展的预测。

可选地，随机长度组合为将各时序单元按时间顺序随机的组合，组合的时序单元个数为随机长度。

一方面，提供一种基于人工智能的流域污染溯源预测装置，装置包括：

监测指标划分模块，用于对全局各流域内水质监测指标进行时间划分；

相关图谱生成模块，用于对划分后的水质监测指标进行交叉计算，生成时间层面的水质监测指标之间的相关图谱；

关联规则模块，将相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估；

溯源预测模块，根据时序单元的关联以及评估，训练点源污染的LSTM算法溯源预测模型；将各流域内的水质监测指标作为X，流域内的点源污染行业作为 Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染的溯源，以及点源污染行业发展的预测。

可选地，监测指标划分单元包括：

数据采集子模块，用于对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进行采集；

数据清洗子模块，用于集到的水质监测数据进行数据清洗，得到水质监测指标；

时序划分子模块，用于将流域内各监测站点的水质监测指标按照3个月为1 个时序单元的划分方式进行划分。

本发明实施例的上述技术方案至少具有如下有益效果：

上述方案中，本发明以预测引起水质变化的主控行业点源为目标，设计了利用点源污染、水质监测数据和行业污染知识库为数据集，创新的将智能语音技术中的核心算法引入环境领域，采用交叉相关、关联规则和长短时记忆网络等算法，实现利用人工智能技术识别影响未来水质变化的主要点源污染。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于人工智能的流域污染溯源预测方法的流程图；

图2是本发明实施例提供的基于人工智能的流域污染溯源预测方法的流程图；

图3是本发明实施例提供的基于人工智能的流域污染溯源预测方法的山东省水质监测指标相关图谱图；

图4是本发明实施例提供的基于人工智能的流域污染溯源预测方法的海河流域水质监测指标相关图谱；

图5是本发明实施例提供的基于人工智能的流域污染溯源预测方法的小清河流域水质监测指标相关图谱；

图6是本发明实施例提供的基于人工智能的流域污染溯源预测方法的 2008—2018年CODmn和BOD5监测值；

图7是本发明实施例提供的基于人工智能的流域污染溯源预测方法的小清河流域工业类型统计图；

图8是本发明实施例提供的基于人工智能的流域污染溯源预测方法的不同流域交叉相关系数分布图；

图9是本发明实施例提供的基于人工智能的流域污染溯源预测方法的海河流域中水质监测站点的频繁集项；

图10是本发明实施例提供的基于人工智能的流域污染溯源预测方法的小清河流域中水质监测站点的频繁集项；

图11是本发明实施例提供的基于人工智能的流域污染溯源预测方法的不同流域的频繁集项数量统计图；

图12是本发明实施例提供的基于人工智能的流域污染溯源预测方法的10年监测水质指标频繁集项支持度的趋势图；

图13是本发明实施例提供的基于人工智能的流域污染溯源预测方法的 LSTM模型预测准确性的变化趋势；

图14是本发明实施例提供的基于人工智能的流域污染溯源预测装置的装置图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种基于人工智能的流域污染溯源预测方法，包括：

S101：对全局各流域内水质监测指标进行时间划分；

S102：对划分后的水质监测指标进行交叉计算，生成水质监测指标之间的相关图谱；

S103：将所述相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估；

S104：将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染行业的溯源，以及点源污染行业发展的预测。

优选地，步骤S1中，对全局各流域内水质监测指标进行时间划分，包括：

S111：对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进行采集；

S112：对采集到的所述水质监测数据进行数据清洗，得到水质监测指标；

S113：将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划分方式进行划分。

优选地，步骤2中，对划分后的水质监测指标进行交叉计算，生成时间层面的水质监测指标之间的相关图谱，包括：

优选地，步骤S3中，将所述相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估，确定各时序单元主要影响的行业，包括：

S131：将所述相关图谱输入预先创建的关联规则算法模型；

S132：通过关联规则算法模型，计算出每两个水质监测指标之间的相关关系；

S133：根据预设的高相关性阈值提取各时序单元的水质监测指标组合；大于所述高相关性阈值的所述水质监测指标组合即为高相关性的水质监测指标组合；

S134：对各时序单元的水质监测指标组合，以及所述行业污染知识库中的行业主要污染物数据集，进行频繁集评估，确定各时序单元主要影响的行业。

优选地，步骤S34中，对各时序单元的水质监测指标组合，以及所述行业污染知识库中的行业主要污染物数据集，进行频繁集评估，确定各时序单元主要影响的行业，包括：

S1341：通过Apriori算法计算各时序单元中水质监测指标的原始频繁集；

S1342：根据预设的支持度以及置信度，再次计算各时序单元的水质监测指标的新频繁集；

S1343：根据所述原始频繁集以及新频繁集的交集部分，得到频繁出现的高相关性水质监测指标对；

S1344：根据高相关性水质指标对确定各时序单元主要影响的行业。

优选地，高相关性水质检测指标对为：流域内点源污染与水质监测污染物具有关联性的临界阈值组合。

优选地，步骤S4中，根据所述时序单元的关联以及评估，训练点源污染的 LSTM算法溯源预测模型，包括：

S141：对所有时序单元进行随机长度组合，形成训练样本；

S142：根据样本对LSTM算法溯源预测模型进行训练学习；

S143：将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染行业的溯源，以及点源污染行业发展的预测。

优选地，随机长度组合为将各时序单元按时间顺序随机的组合，组合的时序单元个数为随机长度。

如图2所示，本发明实施例提供了一种基于人工智能的流域污染溯源预测方法。包括：

S201：对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进行采集；

S202：对采集到的所述水质监测数据进行数据清洗，得到水质监测指标。

一种可行的实施方式中，本发明以预测引起水质变化的主控行业点源为目标，设计了利用点源污染、水质监测数据和行业污染知识库为数据集，创新的将智能语音技术中的核心算法引入环境领域，采用交叉相关、关联规则和长短时记忆网络等算法，实现利用人工智能技术识别影响未来水质变化的主要点源污染。

本发明通过将水质监测指标进行交叉相关计算，将水质指标间的相关图谱作为输入基础数据，并通过关联规则算法将指标间的相关关系延深至与点源污染间的关联。最后，应用LSTM算法充挖掘水质相关图谱在时间上的潜在规律，实现对点源污染的精准预测。

一种可行的实施方式中，本发明运用人工智能技术对山东省138个水质监测站水质监测数据(2008年-2018年)进行训练挖掘，并结合山东省1601个点源排污口，对影响未来4个月流域水质变化的高危企业进行示警。主要功能包括：示警行业污染源、排名疑似企业、生成示警报告。

以中国山东省为研究区，山东省地处中纬度，位于黄河下游，东临渤海、黄海，地形以平原丘陵为主。山东气候属暖温带季风气候类型，气候温和，四季分明，雨热同季，年平均降水量一般在550～950mm之间，由东南向西北递减。山东境内水系发达，干流长10km以上的河流有1500多条，其中入海的有300多条，这些河流分属淮河流域、黄河流域、海河流域、小清河流域和半岛流域。

本发明利用5个主要流域138个国控(省控)地表水质监测断面的数据，在反映各流域实际水环境的同时，尽可能准确地反映了流域的水质特征。使用了19 项水质指标(常规污染物、金属污染物和其他污染物)的数据。指标如表1所示。此外，利用2008年至2018年期间各监测站每月19项水质指标的数据，为研究区建立了大型复杂的水质数据库。主要污染物排放24个主要污染行业研究区被确定使用经济活动的国际标准产业分类(联合国统计司,2006年),全国经济活动的分类行业(GB/T 4754-2017)，综合废水排放标准(GB8978-1996)，综合污水排放标准(DB37/3416.4-2018)，工业研究区域的状态。

表1

一种可行的实施方式中，水质监测数据拥有19项指标，水质指标的单位均为mg/L，指标数值范围各不相同。按照相关文献及大数据处理习惯，均需对数据进行标准化处理。但是，本技术是将交叉相关分析的结果作为后续分析计算的输入，本质也是对数据的一种标准化，所以本技术不再对原监测数据进行标准化处理。水质监测数据经常出现空值、错值和异常值等情况，这是由于监测数据受监测环境、监测设备、数据传输和操作失误等因素影响。为了避免因数据异常引起的分析误差，本研究对监测数据进行了数据清洗，有效地去除了空值、错值和异常值样本。

S203：将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划分方式进行划分。

一种可行的实施方式中，时序单元是指连续3个月的水质监测数据集，如 2008年1月至3月的水质监测数据为一个时序单元，2008年可分为四个时序单元。

优选地，

S204：对划分后的水质监测指标进行交叉计算，生成水质监测指标之间的相关图谱。

一种可行的实施方式中，对流域内每两个时序单元的水质监测指标进行交叉计算，生成水质监测指标之间的相关图谱。

一种可行的实施方式中，为了完整说明研究区点源污染与水质监测指标间的相关性，本发明从全局和局部分别进行计算分析。首先，逐年对研究区内所有水质监测指标进行交叉相关计算；其次，将水质监测站按地理位置分别划分至淮河流域、黄河流域、海河流域、小清河流域和半岛流域，并逐年对各流域内水质监测指标进行交叉相关计算。对于按照季节季度划分后的水质监测指标，分别计算流域内各季度水质数据集的交叉相关图谱。

S205：将所述相关图谱输入预先创建的关联规则算法模型；

S206：通过关联规则算法模型，计算出每两个水质监测指标之间的相关关系；

一种可行的实施方式中，如图3a为研究区2008～2018年间水质监测指标的多年交叉相关图谱，图3b-3c分别为研究区2016、2017、2018年的相关图谱。交叉相关图谱主要由各水质监测指标间的相关系数组成，图谱的x和y坐标均为水质监测指标，水质监测指标包括：DO、CODMn、N-NH4、TP、TN、BOD5、Cu、 Zn、Pb、Cd、As、Se、Hg、Cr6+、F-、挥发性酚、石油、AS、S2-。图中的45度线表示各水质指标之间的自相关系数，均为1。交叉相关图谱以45°线为对称轴，上下两部分相关系数相同。根据水质监测指标的类型，本研究将其划分为常规污染物、金属类污染物和其它污染物。

三类污染物自身的相关性从全局到流域各不相同。对常规污染物而言，研究区整体上水质相关系数整体保持在0～0.25之间，然而，N-NH4和CODMn、P-tot 和N-tot、BOD5和CODMn、BOD5和N-NH4的相关系数为明显高值，分别为 0.5、0.34、0.7和0.4。海河流域的常规污染物间的相关性与研究区整体情况基本一致，相关系数普通在0～0.21之间，高相关指标也与研究区一致，其相关系数分别0.48、0.31、0.51和0.32。淮河流域的高相关指标仍研究区基本一致，分别为 N-NH4和CODMn、P-tot和N-tot、P-tot和CODMn、P-tot和N-NH4、BOD5和 CODMn、BOD5和N-NH4，其中P-tot和CODMn、P-tot和N-NH4也出现高相关，相关系数分别为0.31、0.3。黄河流域的常规污染物间的相关性普遍偏低，在 0～0.27之间。其中高相关指标不再与研究区相同，仅有CODMn和DO、P-tot和 CODMn，其值分别为0.49和0.3。小清河流域的常规污染物间的相关性普遍为负相关，其值在-0.35～0.0之间。然而，高相关指标竟与研究区完全相同，分别为N- NH4和CODMn、P-tot和N-tot、BOD5和CODMn、BOD5和N-NH4，其值分别 0.51、0.52、0.59和0.46。半岛流域的常规污染物间的相关性普遍偏高，其值在 0.22～0.78之间。由上述结果可知，研究区常规污染物间的相关性主要受海河流域、淮河流域、小清河流域和半岛流域影响；同时，研究区除黄河流域外，其余流域的常规污染物间的高相关性均为N-NH4和CODMn、P-tot和N-tot、BOD5和 CODMn、BOD5和N-NH4，这对研究区的点源污染行业属性提供了特征指示。

金属类污染物间的相关性在研究区及各流域中普遍较低。但是，Cr6+和Hg- tot的相关性在研究区、海河流域、小清河流域和半岛流域中均出现高值，其值分别为0.41、0.32、0.57、0.6；Cd和Pb的相关性在海河流域、淮河流域、黄河流域、小清河流域和半岛流域中出现高值，其值分别为0.37、0.81、0.42、0.96、0.57； Zn和其它金属类污染物在研究区、海河流域、淮河流域、黄河流域和半岛流域的相关性均存在高值。其它污染物间的相关性在研究区及各流域中也普遍较低，相关系数在0～0.3之间，仅个别指标大于0.3。由上述结果可知，金属类污染物和其它类污染物的多年相关性均较低，仅个别水质指标间存在高值。

图3为研究区水质监测指标不同时间维度的交叉相关图谱。2016年～2018年间，研究区常规污染物间的相关性没有明显变化，CODMn和DO、N-NH4和 CODMn、P-tot和CODMn、P-tot和N-NH4、BOD5和CODMn、BOD5和DO、 BOD5和P-tot间的相关系数始终保持在大于0.3的高值。对于研究区金属类污染物间的相关性而言，Zn与Se-tot,Hg-tot,Cr6+间的相关性在2016年均为大于0.3 的高值，而在其它的年份中则有明显下降。其它污染物间的相关性在2016和2017 年趋于稳定，均处在0.15～0.35之间，但在2018年大部分指标相关系数在0.0～0.16 之间。

图4a-4b，为海河流域近三年的水质相关图谱，由图可知，常规污染物N-tot 和N-NH4、N-tot和P-tot间的相关系数逐年上升，2016年相关系数分别为0.0、 0.18，到2017年相关系数分别为0.26、0.23，2018年相关系数分别为0.48、0.41。金属类污染物Cr6+与其它金属类污染物的相关系数逐年下降，至2018年相关系数均为0.0，从原始监测数据可知，2018年海河流域所有监测站对Cr6+的监测值均为0.002mg/L。

淮海流域、黄河流域、小清河流域和半岛流域的常规污染物、金属类污染物和其它污染物间的相关性也随时间变化，这些在时空上的变化与差异可能与点源污染的行业属性及其废水排放有直接关系。

将交叉相关图谱与原始监测数据结合分析可知，相关系数的变化会表现不同的关键信息：如相关系数越大，一方面说明指标间的相互影响越密切，另一方面说明近段时间指标的监测值趋于稳定，这也说明区域内的点源污染排放稳定；相关系数越小，一方面说明指标间的相互影响稀疏，另一方面说明监测指标在近期有明显的波动，而这种波动可能是点源污染引发的。

交叉相关方法能够反映事物间关系的紧密程度，相关性高说明关系紧密，相关性低说明关系稀疏。然而，水质监测指标数据受点源污染行业类型、生产工艺和经营情况等的影响，监测数据存在3种情况：1.监测数据始终为监测设备的最小检出值，数值基本恒定；2.监测数据在不超标的情况下，波动较大；3.监测数据的波动较大，且存在超标情况。由此可知，水质指标的相关性存在以下几种情况：I.指标均处于排放量低于最低监测值，指标的监测值稳定，因此指标的相关性为高值；II.指标监测值不稳定，但受外界因素影响，指标的相关性为高值；III. 指标监测值不稳定，且没有内在关联，指标的相关性为低值。

如图3a，研究区BOD5与CODMn的相关系数为0.7。如图5，小清河流域的Cd和Pb的相关系数为0.96。上述水质指标的相关性很高，但两者有着不同的含义。图6表明四个指标在10年中的监测数据，其中，P1和P2分别代表参数1 和参数2状态，items1-items4代表频繁集1-频繁集4。由图6a可知，BOD5与 CODmn的监测值波动较大，并且存在水质超标的情况。由此说明，BOD5与 CODmn的相关性属于情况II。由图6b可知，Cd和Pb的监测值较平稳，水质指标均未超标。由此说明，Cd和Pb的相关性属于情况I。

相关性属于情况I时，说明区域内排放相应污染物的行业点源生产运行平稳，排放符合规范要求，行业发展不危害区域水质状态。如Cd和Pb多为火力发电、金属矿山、金属冶炼、石油开采、石油化工、颜料、电池和陶瓷制造等行业的主要排放物。图7表示在小清河流域内点源污染的行业类型占比，由图可知，火力发、金属冶炼、金属制造、石油化工、颜料等行业的占比分别为3.6％、2.88％、 4.32％、10.07％和5.76％，共计26.63％。由此可知，排放Cd和Pb的行业点源大约占小清河流域的1/3，这些行业多年来对Cd和Pb的排放浓度管控良好，进而可知这些行业的生产经营较为稳定。反之，当发现Cd和Pb的相关性突发下降，这种异常现象能够反映行业点源的生产经营发生了较大波动，将使政府有针对性的对这些行业点源进行管控。

相关性属于情况II时，说明区域内排放相应污染物的行业点源生产较为活跃，且运营管理波动较大，导致水质指标超标。比如BOD5和CODmn是多种行业的主要排放物，包括：焦化、石油化工、有机化学原料制造、化学原料制造业、橡胶和塑料制品业、颜料、化学纤维制造业、食品制造业、造纸和纸制品业、皮革与皮革加工等行业点源。上述行业点源在研究区内分布较广、数量较多、运营管理多样，从而造成了BOD5和CODmn之间的高相关性和波动性。同理，上述理论也解释了前文提出的：研究区除黄河流域外，其余流域的常规污染物间的高相关性均为N-NH4和CODMn、P-tot和N-tot、BOD5和CODMn、BOD5和N- NH4。

本发明将相关系数0.3作为重要的临界值，相关系数大于0.3称为高相关性，相关系数小于0.3称为低相关性。这主要是从两方面考虑：1.相关系数的总体分布情况；2.天然条件下水质监测数据的不确定性和多重影响性。图8表示不同流域中多年水质监测指标间的相关系数分布。由图可知，各流域中水质指标间的相关系数大于0.3的分布较少，其中山东省、海河流域、淮河流域、黄河流域、小清河流域和半岛流域中相关系数大于0.3的比例分别为：6.34％、8.19％，9.36％，14.0％，13.5％和25.7％。由此，从总体分布而言，临界相关系数设定为0.3是能够反映水质指标相关性的高低之分。同时，在天然情况下，水质监测数据受到多重因素的影响，非特殊情况(如，情况I)很难出现相关系数大于0.7，因此相关系数临界值设定过高，将会丢失大量潜在信息。

一种可行的实施方式中，本发明通过设定不同的高相关性阈值、支持度和置信度组合，以期找到最能反映研究区点源污染与水质监测污染物关联性的临界阈值组合。表2为设定参数组合。

表2

如图9-图10分别表示海河流域、小清河流域的水质监测站点中频繁出现的高相关性水质监测指标组合。极坐标将圆分成了19个扇形和19个同心圆，扇形按逆时针顺序从极坐标0°开始划分，同心圆按从内至外的顺序排列，分别表示 DO、CODMn、N-NH4、P-to、N-tot、BOD5、Cu、Zn、Pb、Cd、As-tot、Se-tot、 Hg-tot、Cr6+、F-、挥发酚、石油、AS、S2-。图中的水平轴上的数字分别为水质监测指标的代号。圆点表示频繁集1，三角表示频繁集2，加号表示频繁集3，叉号表示频繁集4。频繁集3表示有三个高相关性水质指标对频繁同时出现在各监测站点中，这三个指标对称为一个组合，如频繁集2和4。在频繁集2～4中，相同颜色点表示同一组合。

例如，图9为海河流域中水质监测站点的频繁集项，为采用参数1计算的关联规则频繁集项，为采用参数2计算的关联规则频繁集项，参数1与参数2。由图9可知，Hg-tot、Cr6+、Se-tot、AS、Zn为海河流域中各监测站频繁出现的高相关性水质指标，并且Hg-tot和Zn、Hg-tot和Se-tot、Cr6+和Zn、Cr6+和Cd、 Cr6+和Se-tot、Cr6+和Hg-tot、AS和Zn、AS和Se-tot,AS和Hg-tot,AS和Cr6+ 为频繁出现的高相关性水质指标对。由图9可知，当支持度参数提高到0.6时， Hg-tot、Cr6+、Se-tot、AS、Zn仍为频繁出现的高相关性水质指标，同时Hg-tot 和Zn、Cr6+和Zn、Cr6+和Hg-tot、Cr6+和Se-tot、AS和Hg-tot、AS和Se-tot、 AS和Cr6+仍为频繁出现的高相关性水质指标对。由上述结果可知，海河流域内频繁出现金属类污染物Hg-tot、Cr6+、Se-tot、Zn，和其它污染物AS。图10为小清河流域中水质监测站点的频繁集项，当在参数1状态时，Zn、Hg-tot、Cr6+、 volatile phenol、AS、N-tot、CODMn、N-NH4为频繁出现的高相关性水质指标；在参数2状态时，只有频繁集1和频繁集2满足要求，DO、P-tot、Cr6+、volatile phenol、AS为频繁出现的高相关性水质指标。

图11对不同流域的频繁集项数量进行了统计，其中P1和P2分别代表参数 1和参数2状态，items1～items4代表频繁集1～频繁集4。由图4-16可知，海河流域中频繁集项的数量最多，其中在参数1状态时，频繁集1为18个水质指标对、频繁集2为69组水质指标对、频繁集3为139组水质指标对、频繁集4为167 组水质指标对；参数2状态时，频繁集1为12个水质指标对、频繁集2为19组水质指标对、频繁集3为12组水质指标对、频繁集4为3组水质指标对。研究区中频繁集项数量的排名为海河流域>小清河流域>淮河流域>黄河流域>半岛流域。由上述结果可知，这可能是不同流域中点源污染的数量、分布不同导致的。

图12是对研究区10年监测水质指标频繁集项支持度的趋势图，支持度仅提取大于0.3的频繁集项，图12a～12d分别为频繁集1、频繁集2、频繁集3、频繁集4的支持度趋势。由图可知，随着频繁集的增加，支持度上限由0.6下降至0.4。对比了研究区在2016年和2017年的频繁集项支持度的分布。由图可知，2016年的频繁集项的支持度总体上处于低水平，其值处于0.1～0.2之间，仅个别项的支持度大于0.6；而2017年频繁集项的支持度大于0.6的数量较多。

综合所述，分析结果与点源污染的属性、分布、数量、排放污染物特点有着密切关系。

S207：通过Apriori算法计算各时序单元中水质监测指标的原始频繁集；

S208：根据预设的支持度以及置信度，再次计算各时序单元的水质监测指标的新频繁集；

S209：根据所述原始频繁集以及新频繁集的交集部分，得到频繁出现的高相

S210：根据高相关性水质指标对确定各时序单元主要影响的行业。

一种可行的实施方式中，依据点源污染行业的主要污染物数据库与研究区点源污染行业特点，本发明采用频繁集评估算法，对研究区5个流域不同时间段的影响水质变化的主导行业进行分析，石油化工、金属冶炼、焦化业及黄磷业为主要的点源污染行业。图13为LSTM模型预测准确性的变化趋势。由图13可知，经过模型100次的迭代计算，模型验证的准确性逐渐增加，其中模型在海河、淮河、黄河、小清河、半岛流域验证的准确性分别为0.98、0.95、1、0.98、0.98。由此可见，LSTM算法在水环境领域中对时序数据的预测也有良好的结果。

本发明在海河流域的水质监测站中，频繁出现的高相关性水质指标为金属类污染物，主要有Hg-tot、Cr6+、Se-tot、Zn。这些指标多出现在金属冶炼、石油化工和颜料等行业点源。那么，这些行业是否是导致流域内水质监测站检出高相关性金属类污染物的主要原因呢？本研究通过行业点源占比、行业点源分布和行业点源的产值三个角度进行讨论。金属冶炼、石油化工、颜料和化学原料和化学制品制造业等行业在海河流域中的数量占流域行业点源的比例分别为0.44％、1.33％、3.54％、15.04％，共计20.35％。同时，据《SHANDONG STATISTICAL YEARBOOK (2011-2016)》，金属冶炼、石油化工、颜料和化学原料和化学制品制造业的工业生产总值平均约占总工业生产总值的20.6％。由此可知，上述点源污染行业不管在企业数量还是在工业产值上大约均占总体的1/5，其生产中产生的污水会对流域水质造成较大的影响，而且废水中含有不易分解的金属类污染物。同时，这些点源污染行业分布在流域上游的比例较大，因此金属类污染物会在海河流域的水质监测站中频繁检出。同理，淮海流域以金属类污染物为主也是基于这一原因。

黄河流域和半岛流域中水质指标满足支持度大于0.6的频繁集项较少，其原因有两点：1.点源污染分布不均；2.点源污染行业类型多而散。如黄河流域中点源污染多集中大汶河沿线，而这些点源多为食品和造纸行业。黄河流域中存在7 个煤矿企业，它们均集中在区域的南部。金属冶炼行业仅有1个，但其位于流域的上游。由此可见，黄河流域的水质监测站中频繁出现S2-、Cr6+等污染物，是上游金属冶炼与河流沿线造纸行业影响。由此可知，水质指标在监测站的频繁出现反映了区域行业点源对水质的主导能力。

然而，从时间维度分析，山东省2016年和2017年满足支持度大于0.6的水质指标频繁集项数量差异较大，而频繁出现的污染物为金属类污染物。这种差异不是由点源污染的分布与行业类型的因素决定的，因为短时期内山东省的产业格局并不会发生较大的变化。然而，山东省金属冶炼、石油化工、颜料和化学原料制造业在2017年的产值比2016年多2327亿元，同时山东省2017年第三产业增加值34876.32亿元，增长9.1％(山东省统计局，2017)。由此可见，引起频繁集项数量差异的原因为点源污染行业生产经营的明显变化。

由此可见，水质指标对的频繁集能够反映区域点源污染行业类别、行业分布特点、行业生产经营情况，这为采用人工智能技术预测影响未来水质变化的行业点源提供了理论支撑。

优选地，根据所述时序单元的关联以及评估，训练点源污染的LSTM算法溯源预测模型，包括：

S211：对所有时序单元进行随机长度组合，形成训练样本；

S212：根据样本对LSTM算法溯源预测模型进行训练学习。

一种可行的实施方式中，本发明的预测模型样本量为1000，样本最大序列为 5。采用4层神经网络层，其中3层为LSTM层与1层全连接层(Dense)，其中 LSTM网络层的输出维度为32，激活函数采用双曲正切函数(tanh())；Dense层的激活函数为归一化指数函数Softmax()。神经网络的损失函数(Losses)为交叉熵代价函数(Categorical cross-entropy)，优化器(Optimizers)采用RMSprop，评估标准(Metrics)采用Categorical_accuracy。公式如下：

Tanh函数：

Softmax函数：

Categorical cross-entropy函数：

RMSprop函数：

213：根据所述时序单元的关联以及评估，训练点源污染的LSTM算法溯源预测模型；将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染行业的溯源，以及点源污染行业发展的预测。

一种可行的实施方式中，应用LSTM算法充挖掘水质相关图谱在时间上的潜在规律，实现对点源污染的精准预测。

如图14所示，提供一种基于人工智能的流域污染溯源预测装置300，装置包括：

监测指标划分模块301，用于对全局各流域内水质监测指标进行时间划分；

关联规则模块302，将相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估；

溯源预测模块303，根据时序单元的关联以及评估，训练点源污染的LSTM 算法溯源预测模型；将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染的溯源，以及点源污染行业发展的预测。

优选地，监测指标划分单元包括：

一种可行的实施方式中，本发明将可以语音识别的LSTM算法引入至水环境研究领域，建立了点源污染与水质监测污染物的时序预测模型，通过对模型的评估，预测的精度较高，这说明人工智能技术在水环境领域是理论上科学、应用上可行。人工智能技术把点源污染与水质监测污染物的时空联动性通过深度神经网络实现，将复杂的联动性封闭在网络中，只呈现输入与输出。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的流域污染溯源预测方法，其特征在于，包括：

S1：对全局各流域内水质监测指标进行时间划分；

2.根据权利要求1所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述步骤S1中，对全局各流域内水质监测指标进行时间划分，包括：

3.根据权利要求2所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述步骤2中，对划分后的水质监测指标进行交叉计算，生成水质监测指标之间的相关图谱，包括：

4.根据权利要求3所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述步骤S3中，将所述相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估，包括：

S31：将所述相关图谱输入预先创建的关联规则算法模型；

5.根据权利要求4所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述步骤S34中，对各时序单元的水质监测指标组合，以及所述行业污染知识库中的行业主要污染物数据集，进行频繁集评估，确定各时序单元主要影响的行业，包括：

6.根据权利要求5所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述高相关性水质检测指标对为：流域内点源污染与水质监测污染物具有关联性的临界阈值组合。

7.根据权利要求5所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述步骤S4中，将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染行业的溯源，以及点源污染行业发展的预测，包括：

S41：对所有时序单元进行随机长度组合，形成训练样本；

S42：根据样本对LSTM算法溯源预测模型进行训练学习；

8.根据权利要求7所述的基于人工智能的流域污染溯源预测方法，其特征在于，所述随机长度组合为将各时序单元按时间顺序随机的组合，组合的时序单元个数为随机长度。

9.一种基于人工智能的流域污染溯源预测装置，其特征在于，所述装置包括：

关联规则模块，将所述相关图谱作为基础数据，通过关联规则算法，对点源污染与水质监测指标进行关联以及评估；

溯源预测模块，根据所述时序单元的关联以及评估，训练点源污染的LSTM算法溯源预测模型；将各流域内的水质监测指标作为X，流域内的点源污染行业作为Y，分别输入训练好的LSTM算法溯源预测模型，完成对点源污染的溯源，以及点源污染行业发展的预测。

10.根据权利要求9所述的基于人工智能的流域污染溯源预测装置，其特征在于，所述监测指标划分单元包括：

数据清洗子模块，用于集到的所述水质监测数据进行数据清洗，得到水质监测指标；

时序划分子模块，用于将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划分方式进行划分。