CN114066037A - 一种基于人工智能的流域污染溯源预测方法及装置 - Google Patents
一种基于人工智能的流域污染溯源预测方法及装置 Download PDFInfo
- Publication number
- CN114066037A CN114066037A CN202111329275.6A CN202111329275A CN114066037A CN 114066037 A CN114066037 A CN 114066037A CN 202111329275 A CN202111329275 A CN 202111329275A CN 114066037 A CN114066037 A CN 114066037A
- Authority
- CN
- China
- Prior art keywords
- water quality
- quality monitoring
- pollution
- correlation
- point source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 41
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 261
- 238000012544 monitoring process Methods 0.000 claims abstract description 205
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 239000003344 environmental pollutant Substances 0.000 claims description 52
- 231100000719 pollutant Toxicity 0.000 claims description 52
- 238000011160 research Methods 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 238000011161 development Methods 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013461 design Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000007787 long-term memory Effects 0.000 abstract 1
- 230000006403 short-term memory Effects 0.000 abstract 1
- 239000002184 metal Substances 0.000 description 23
- 229910052751 metal Inorganic materials 0.000 description 23
- 229910001443 Cr6+ Inorganic materials 0.000 description 22
- 238000004519 manufacturing process Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 229910052793 cadmium Inorganic materials 0.000 description 10
- 229910052745 lead Inorganic materials 0.000 description 10
- 238000003723 Smelting Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 229910052725 zinc Inorganic materials 0.000 description 8
- 239000000356 contaminant Substances 0.000 description 7
- 239000000049 pigment Substances 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 239000002351 wastewater Substances 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007599 discharging Methods 0.000 description 3
- 238000009776 industrial production Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 229910021536 Zeolite Inorganic materials 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- -1 batteries Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000013064 chemical raw material Substances 0.000 description 2
- 238000004939 coking Methods 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- HNPSIPDUKPIQMN-UHFFFAOYSA-N dioxosilane;oxo(oxoalumanyloxy)alumane Chemical compound O=[Si]=O.O=[Al]O[Al]=O HNPSIPDUKPIQMN-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013277 forecasting method Methods 0.000 description 2
- 239000010985 leather Substances 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 239000010865 sewage Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000010457 zeolite Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229910052785 arsenic Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000002352 surface water Substances 0.000 description 1
- OBSZRRSYVTXPNB-UHFFFAOYSA-N tetraphosphorus Chemical compound P12P3P1P32 OBSZRRSYVTXPNB-UHFFFAOYSA-N 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于人工智能的流域污染溯源预测方法及装置,涉及水环境信息处理及技术领域。包括:通过将水质监测指标进行交叉相关计算,将水质指标间的相关图谱作为输入基础数据,并通过关联规则算法将指标间的相关关系延深至与点源污染间的关联。最后,应用LSTM算法充挖掘水质相关图谱在时间上的潜在规律,实现对点源污染的精准预测。本发明以预测引起水质变化的主控行业点源为目标,设计了利用点源污染、水质监测数据和行业污染知识库为数据集,创新的将智能语音技术中的核心算法引入环境领域,采用交叉相关、关联规则和长短时记忆网络等算法,实现利用人工智能技术识别影响未来水质变化的主要点源污染。
Description
技术领域
本发明涉水环境信息处理及技术领域,特别是指一种基于人工智能的流域污 染溯源预测方法及装置。
背景技术
数据挖掘是信息技术发展的结果,是利用各种分析工具在海量数据中寻找和 发现模型和数据间关系的过程,并利用模型和关系对数据的潜在规律做出预测 (向先全等,2009)。通过对水环境信息的挖掘,逐渐量化了水环境过程的物理机 制,进而构建了水环境模型,水环境过程模拟又是对水环境信息的二次挖掘。因 此,水环境过程模拟是水环境信息挖掘的重要方法之一。
水环境过程综合了水循环及生物地球化学循环等自然过程,包括物理、化学 和生物各要素的相互作用,极为复杂。水环境过程机理构建的水环境综合数学模 型可用于揭示水环境关键过程机理、预测水环境过程演变、诊断水环境安全问题、 评估治理或管理措施的影响和效益,以及辅助水环境管理决策等。美国清洁水计 划和欧盟水框架指令的实施实践表明,流域水环境综合数学模型已成为流域水环 境管理不可或缺的手段,健全模型是成功实现流域水环境管理的重要保障。
据此,水环境过程研究逐步从单过程向多过程转变、从单学科到多学科交叉 扩展、从局部小尺度向流域尺度过渡。未来水环境模拟研究应关注流域系统人与 水环境耦合模拟研究,指出如何深化自然要素和人文要素作用机理,建立模型预 测未来变化是当前面临的挑战。
目前水环境模型存在时空尺度单一、限制因素繁杂、假设条件较多、机理改 进缓慢和参数率定困难等问题,无法满足海量信息的提取与应用。传统水环境信 息挖掘与水环境过程模拟技术已无法满足对海量信息的全面识别和分析,同时也 难以深入剖析水环境过程的机制,亟需一种新的方法。
发明内容
针对现有技术中无法满足对海量信息的全面识别和分析、对点源污染的快速 精准识别的问题,本发明提出了一种基于人工智能的流域污染溯源预测方法及装 置。
为解决上述技术问题,本发明提供如下技术方案:
一方面,提供了一种基于人工智能的流域污染溯源预测方法,包括:
S1:对全局各流域内水质监测指标进行时间划分;
S2:对划分后的水质监测指标进行交叉计算,生成水质监测指标之间的相关 图谱;
S3:将所述相关图谱作为基础数据,通过关联规则算法,对点源污染与水质 监测指标进行关联以及评估;
S4:将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y,分 别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及点 源污染行业发展的预测。
可选地,步骤S1中,对全局各流域内水质监测指标进行时间划分,包括:
S11:对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进 行采集;
S12:对采集到的所述水质监测数据进行数据清洗,得到水质监测指标;
S13:将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划 分方式进行划分。
可选地,步骤2中,对划分后的水质监测指标进行交叉计算,生成时间层面 的水质监测指标之间的相关图谱,包括:
对流域内每两个时序单元的水质监测指标进行交叉计算,生成水质监测指标 之间的相关图谱。
可选地,步骤S3中,将所述相关图谱作为基础数据,通过关联规则算法, 对点源污染与水质监测指标进行关联以及评估,确定各时序单元主要影响的行业, 包括:
S31:将所述相关图谱输入预先创建的关联规则算法模型;
S32:通过关联规则算法模型,计算出每两个水质监测指标之间的相关关系;
S33:根据预设的高相关性阈值提取各时序单元的水质监测指标组合;大于 所述高相关性阈值的所述水质监测指标组合即为高相关性的水质监测指标组合;
S34:对各时序单元的水质监测指标组合,以及所述行业污染知识库中的行 业主要污染物数据集,进行频繁集评估,确定各时序单元主要影响的行业。
可选地,步骤S34中,对各时序单元的水质监测指标组合,以及所述行业污 染知识库中的行业主要污染物数据集,进行频繁集评估,确定各时序单元主要影 响的行业,包括:
S341:通过Apriori算法计算各时序单元中水质监测指标的原始频繁集;
S342:根据预设的支持度以及置信度,再次计算各时序单元的水质监测指标 的新频繁集;
S343:根据所述原始频繁集以及新频繁集的交集部分,得到频繁出现的高相 关性水质监测指标对;
S344:根据高相关性水质指标对确定各时序单元主要影响的行业。
可选地,高相关性水质检测指标对为:流域内点源污染与水质监测污染物具 有关联性的临界阈值组合。
可选地,步骤S4中,根据所述时序单元的关联以及评估,训练点源污染的 LSTM算法溯源预测模型,包括:
S41:对所有时序单元进行随机长度组合,形成训练样本;
S42:根据样本对LSTM算法溯源预测模型进行训练学习;
S43:将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y, 分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及 点源污染行业发展的预测。
可选地,随机长度组合为将各时序单元按时间顺序随机的组合,组合的时序 单元个数为随机长度。
一方面,提供一种基于人工智能的流域污染溯源预测装置,装置包括:
监测指标划分模块,用于对全局各流域内水质监测指标进行时间划分;
相关图谱生成模块,用于对划分后的水质监测指标进行交叉计算,生成时间 层面的水质监测指标之间的相关图谱;
关联规则模块,将相关图谱作为基础数据,通过关联规则算法,对点源污染 与水质监测指标进行关联以及评估;
溯源预测模块,根据时序单元的关联以及评估,训练点源污染的LSTM算法 溯源预测模型;将各流域内的水质监测指标作为X,流域内的点源污染行业作为 Y,分别输入训练好的LSTM算法溯源预测模型,完成对点源污染的溯源,以及 点源污染行业发展的预测。
可选地,监测指标划分单元包括:
数据采集子模块,用于对研究区内所有水质监测数据、点源污染数据以及行 业污染知识库进行采集;
数据清洗子模块,用于集到的水质监测数据进行数据清洗,得到水质监测指 标;
时序划分子模块,用于将流域内各监测站点的水质监测指标按照3个月为1 个时序单元的划分方式进行划分。
本发明实施例的上述技术方案至少具有如下有益效果:
上述方案中,本发明以预测引起水质变化的主控行业点源为目标,设计了利 用点源污染、水质监测数据和行业污染知识库为数据集,创新的将智能语音技术 中的核心算法引入环境领域,采用交叉相关、关联规则和长短时记忆网络等算法, 实现利用人工智能技术识别影响未来水质变化的主要点源污染。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可 以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于人工智能的流域污染溯源预测方法的流程 图;
图2是本发明实施例提供的基于人工智能的流域污染溯源预测方法的流程 图;
图3是本发明实施例提供的基于人工智能的流域污染溯源预测方法的山东省 水质监测指标相关图谱图;
图4是本发明实施例提供的基于人工智能的流域污染溯源预测方法的海河流 域水质监测指标相关图谱;
图5是本发明实施例提供的基于人工智能的流域污染溯源预测方法的小清河 流域水质监测指标相关图谱;
图6是本发明实施例提供的基于人工智能的流域污染溯源预测方法的 2008—2018年CODmn和BOD5监测值;
图7是本发明实施例提供的基于人工智能的流域污染溯源预测方法的小清河 流域工业类型统计图;
图8是本发明实施例提供的基于人工智能的流域污染溯源预测方法的不同流 域交叉相关系数分布图;
图9是本发明实施例提供的基于人工智能的流域污染溯源预测方法的海河流 域中水质监测站点的频繁集项;
图10是本发明实施例提供的基于人工智能的流域污染溯源预测方法的小清 河流域中水质监测站点的频繁集项;
图11是本发明实施例提供的基于人工智能的流域污染溯源预测方法的不同 流域的频繁集项数量统计图;
图12是本发明实施例提供的基于人工智能的流域污染溯源预测方法的10年 监测水质指标频繁集项支持度的趋势图;
图13是本发明实施例提供的基于人工智能的流域污染溯源预测方法的 LSTM模型预测准确性的变化趋势;
图14是本发明实施例提供的基于人工智能的流域污染溯源预测装置的装置 图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图 及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种基于人工智能的流域污染溯源预测方 法,包括:
S101:对全局各流域内水质监测指标进行时间划分;
S102:对划分后的水质监测指标进行交叉计算,生成水质监测指标之间的相 关图谱;
S103:将所述相关图谱作为基础数据,通过关联规则算法,对点源污染与水 质监测指标进行关联以及评估;
S104:将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y, 分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及 点源污染行业发展的预测。
优选地,步骤S1中,对全局各流域内水质监测指标进行时间划分,包括:
S111:对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进 行采集;
S112:对采集到的所述水质监测数据进行数据清洗,得到水质监测指标;
S113:将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划 分方式进行划分。
优选地,步骤2中,对划分后的水质监测指标进行交叉计算,生成时间层面 的水质监测指标之间的相关图谱,包括:
对流域内每两个时序单元的水质监测指标进行交叉计算,生成水质监测指标 之间的相关图谱。
优选地,步骤S3中,将所述相关图谱作为基础数据,通过关联规则算法, 对点源污染与水质监测指标进行关联以及评估,确定各时序单元主要影响的行业, 包括:
S131:将所述相关图谱输入预先创建的关联规则算法模型;
S132:通过关联规则算法模型,计算出每两个水质监测指标之间的相关关系;
S133:根据预设的高相关性阈值提取各时序单元的水质监测指标组合;大于 所述高相关性阈值的所述水质监测指标组合即为高相关性的水质监测指标组合;
S134:对各时序单元的水质监测指标组合,以及所述行业污染知识库中的行 业主要污染物数据集,进行频繁集评估,确定各时序单元主要影响的行业。
优选地,步骤S34中,对各时序单元的水质监测指标组合,以及所述行业污 染知识库中的行业主要污染物数据集,进行频繁集评估,确定各时序单元主要影 响的行业,包括:
S1341:通过Apriori算法计算各时序单元中水质监测指标的原始频繁集;
S1342:根据预设的支持度以及置信度,再次计算各时序单元的水质监测指 标的新频繁集;
S1343:根据所述原始频繁集以及新频繁集的交集部分,得到频繁出现的高 相关性水质监测指标对;
S1344:根据高相关性水质指标对确定各时序单元主要影响的行业。
优选地,高相关性水质检测指标对为:流域内点源污染与水质监测污染物具 有关联性的临界阈值组合。
优选地,步骤S4中,根据所述时序单元的关联以及评估,训练点源污染的 LSTM算法溯源预测模型,包括:
S141:对所有时序单元进行随机长度组合,形成训练样本;
S142:根据样本对LSTM算法溯源预测模型进行训练学习;
S143:将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y, 分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及 点源污染行业发展的预测。
优选地,随机长度组合为将各时序单元按时间顺序随机的组合,组合的时序 单元个数为随机长度。
如图2所示,本发明实施例提供了一种基于人工智能的流域污染溯源预测方 法。包括:
S201:对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进 行采集;
S202:对采集到的所述水质监测数据进行数据清洗,得到水质监测指标。
一种可行的实施方式中,本发明以预测引起水质变化的主控行业点源为目标, 设计了利用点源污染、水质监测数据和行业污染知识库为数据集,创新的将智能 语音技术中的核心算法引入环境领域,采用交叉相关、关联规则和长短时记忆网 络等算法,实现利用人工智能技术识别影响未来水质变化的主要点源污染。
本发明通过将水质监测指标进行交叉相关计算,将水质指标间的相关图谱作 为输入基础数据,并通过关联规则算法将指标间的相关关系延深至与点源污染间 的关联。最后,应用LSTM算法充挖掘水质相关图谱在时间上的潜在规律,实现 对点源污染的精准预测。
一种可行的实施方式中,本发明运用人工智能技术对山东省138个水质监测 站水质监测数据(2008年-2018年)进行训练挖掘,并结合山东省1601个点源排 污口,对影响未来4个月流域水质变化的高危企业进行示警。主要功能包括:示 警行业污染源、排名疑似企业、生成示警报告。
以中国山东省为研究区,山东省地处中纬度,位于黄河下游,东临渤海、黄 海,地形以平原丘陵为主。山东气候属暖温带季风气候类型,气候温和,四季分 明,雨热同季,年平均降水量一般在550~950mm之间,由东南向西北递减。山 东境内水系发达,干流长10km以上的河流有1500多条,其中入海的有300多 条,这些河流分属淮河流域、黄河流域、海河流域、小清河流域和半岛流域。
本发明利用5个主要流域138个国控(省控)地表水质监测断面的数据,在 反映各流域实际水环境的同时,尽可能准确地反映了流域的水质特征。使用了19 项水质指标(常规污染物、金属污染物和其他污染物)的数据。指标如表1所示。 此外,利用2008年至2018年期间各监测站每月19项水质指标的数据,为研究 区建立了大型复杂的水质数据库。主要污染物排放24个主要污染行业研究区被 确定使用经济活动的国际标准产业分类(联合国统计司,2006年),全国经济活动的 分类行业(GB/T 4754-2017),综合废水排放标准(GB8978-1996),综合污水排 放标准(DB37/3416.4-2018),工业研究区域的状态。
表1
一种可行的实施方式中,水质监测数据拥有19项指标,水质指标的单位均 为mg/L,指标数值范围各不相同。按照相关文献及大数据处理习惯,均需对数据 进行标准化处理。但是,本技术是将交叉相关分析的结果作为后续分析计算的输 入,本质也是对数据的一种标准化,所以本技术不再对原监测数据进行标准化处 理。水质监测数据经常出现空值、错值和异常值等情况,这是由于监测数据受监 测环境、监测设备、数据传输和操作失误等因素影响。为了避免因数据异常引起 的分析误差,本研究对监测数据进行了数据清洗,有效地去除了空值、错值和异 常值样本。
S203:将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划 分方式进行划分。
一种可行的实施方式中,时序单元是指连续3个月的水质监测数据集,如 2008年1月至3月的水质监测数据为一个时序单元,2008年可分为四个时序单 元。
优选地,
S204:对划分后的水质监测指标进行交叉计算,生成水质监测指标之间的相 关图谱。
一种可行的实施方式中,对流域内每两个时序单元的水质监测指标进行交叉 计算,生成水质监测指标之间的相关图谱。
一种可行的实施方式中,为了完整说明研究区点源污染与水质监测指标间的 相关性,本发明从全局和局部分别进行计算分析。首先,逐年对研究区内所有水 质监测指标进行交叉相关计算;其次,将水质监测站按地理位置分别划分至淮河 流域、黄河流域、海河流域、小清河流域和半岛流域,并逐年对各流域内水质监 测指标进行交叉相关计算。对于按照季节季度划分后的水质监测指标,分别计算 流域内各季度水质数据集的交叉相关图谱。
S205:将所述相关图谱输入预先创建的关联规则算法模型;
S206:通过关联规则算法模型,计算出每两个水质监测指标之间的相关关系;
一种可行的实施方式中,如图3a为研究区2008~2018年间水质监测指标的 多年交叉相关图谱,图3b-3c分别为研究区2016、2017、2018年的相关图谱。交 叉相关图谱主要由各水质监测指标间的相关系数组成,图谱的x和y坐标均为水 质监测指标,水质监测指标包括:DO、CODMn、N-NH4、TP、TN、BOD5、Cu、 Zn、Pb、Cd、As、Se、Hg、Cr6+、F-、挥发性酚、石油、AS、S2-。图中的45度 线表示各水质指标之间的自相关系数,均为1。交叉相关图谱以45°线为对称轴, 上下两部分相关系数相同。根据水质监测指标的类型,本研究将其划分为常规污 染物、金属类污染物和其它污染物。
三类污染物自身的相关性从全局到流域各不相同。对常规污染物而言,研究 区整体上水质相关系数整体保持在0~0.25之间,然而,N-NH4和CODMn、P-tot 和N-tot、BOD5和CODMn、BOD5和N-NH4的相关系数为明显高值,分别为 0.5、0.34、0.7和0.4。海河流域的常规污染物间的相关性与研究区整体情况基本 一致,相关系数普通在0~0.21之间,高相关指标也与研究区一致,其相关系数分 别0.48、0.31、0.51和0.32。淮河流域的高相关指标仍研究区基本一致,分别为 N-NH4和CODMn、P-tot和N-tot、P-tot和CODMn、P-tot和N-NH4、BOD5和 CODMn、BOD5和N-NH4,其中P-tot和CODMn、P-tot和N-NH4也出现高相 关,相关系数分别为0.31、0.3。黄河流域的常规污染物间的相关性普遍偏低,在 0~0.27之间。其中高相关指标不再与研究区相同,仅有CODMn和DO、P-tot和 CODMn,其值分别为0.49和0.3。小清河流域的常规污染物间的相关性普遍为负 相关,其值在-0.35~0.0之间。然而,高相关指标竟与研究区完全相同,分别为N- NH4和CODMn、P-tot和N-tot、BOD5和CODMn、BOD5和N-NH4,其值分别 0.51、0.52、0.59和0.46。半岛流域的常规污染物间的相关性普遍偏高,其值在 0.22~0.78之间。由上述结果可知,研究区常规污染物间的相关性主要受海河流域、 淮河流域、小清河流域和半岛流域影响;同时,研究区除黄河流域外,其余流域 的常规污染物间的高相关性均为N-NH4和CODMn、P-tot和N-tot、BOD5和 CODMn、BOD5和N-NH4,这对研究区的点源污染行业属性提供了特征指示。
金属类污染物间的相关性在研究区及各流域中普遍较低。但是,Cr6+和Hg- tot的相关性在研究区、海河流域、小清河流域和半岛流域中均出现高值,其值分 别为0.41、0.32、0.57、0.6;Cd和Pb的相关性在海河流域、淮河流域、黄河流 域、小清河流域和半岛流域中出现高值,其值分别为0.37、0.81、0.42、0.96、0.57; Zn和其它金属类污染物在研究区、海河流域、淮河流域、黄河流域和半岛流域的 相关性均存在高值。其它污染物间的相关性在研究区及各流域中也普遍较低,相 关系数在0~0.3之间,仅个别指标大于0.3。由上述结果可知,金属类污染物和其 它类污染物的多年相关性均较低,仅个别水质指标间存在高值。
图3为研究区水质监测指标不同时间维度的交叉相关图谱。2016年~2018年 间,研究区常规污染物间的相关性没有明显变化,CODMn和DO、N-NH4和 CODMn、P-tot和CODMn、P-tot和N-NH4、BOD5和CODMn、BOD5和DO、 BOD5和P-tot间的相关系数始终保持在大于0.3的高值。对于研究区金属类污染 物间的相关性而言,Zn与Se-tot,Hg-tot,Cr6+间的相关性在2016年均为大于0.3 的高值,而在其它的年份中则有明显下降。其它污染物间的相关性在2016和2017 年趋于稳定,均处在0.15~0.35之间,但在2018年大部分指标相关系数在0.0~0.16 之间。
图4a-4b,为海河流域近三年的水质相关图谱,由图可知,常规污染物N-tot 和N-NH4、N-tot和P-tot间的相关系数逐年上升,2016年相关系数分别为0.0、 0.18,到2017年相关系数分别为0.26、0.23,2018年相关系数分别为0.48、0.41。 金属类污染物Cr6+与其它金属类污染物的相关系数逐年下降,至2018年相关系 数均为0.0,从原始监测数据可知,2018年海河流域所有监测站对Cr6+的监测值 均为0.002mg/L。
淮海流域、黄河流域、小清河流域和半岛流域的常规污染物、金属类污染物 和其它污染物间的相关性也随时间变化,这些在时空上的变化与差异可能与点源 污染的行业属性及其废水排放有直接关系。
将交叉相关图谱与原始监测数据结合分析可知,相关系数的变化会表现不同 的关键信息:如相关系数越大,一方面说明指标间的相互影响越密切,另一方面 说明近段时间指标的监测值趋于稳定,这也说明区域内的点源污染排放稳定;相 关系数越小,一方面说明指标间的相互影响稀疏,另一方面说明监测指标在近期 有明显的波动,而这种波动可能是点源污染引发的。
交叉相关方法能够反映事物间关系的紧密程度,相关性高说明关系紧密,相 关性低说明关系稀疏。然而,水质监测指标数据受点源污染行业类型、生产工艺 和经营情况等的影响,监测数据存在3种情况:1.监测数据始终为监测设备的最 小检出值,数值基本恒定;2.监测数据在不超标的情况下,波动较大;3.监测数 据的波动较大,且存在超标情况。由此可知,水质指标的相关性存在以下几种情 况:I.指标均处于排放量低于最低监测值,指标的监测值稳定,因此指标的相关 性为高值;II.指标监测值不稳定,但受外界因素影响,指标的相关性为高值;III. 指标监测值不稳定,且没有内在关联,指标的相关性为低值。
如图3a,研究区BOD5与CODMn的相关系数为0.7。如图5,小清河流域 的Cd和Pb的相关系数为0.96。上述水质指标的相关性很高,但两者有着不同的 含义。图6表明四个指标在10年中的监测数据,其中,P1和P2分别代表参数1 和参数2状态,items1-items4代表频繁集1-频繁集4。由图6a可知,BOD5与 CODmn的监测值波动较大,并且存在水质超标的情况。由此说明,BOD5与 CODmn的相关性属于情况II。由图6b可知,Cd和Pb的监测值较平稳,水质指 标均未超标。由此说明,Cd和Pb的相关性属于情况I。
相关性属于情况I时,说明区域内排放相应污染物的行业点源生产运行平稳, 排放符合规范要求,行业发展不危害区域水质状态。如Cd和Pb多为火力发电、 金属矿山、金属冶炼、石油开采、石油化工、颜料、电池和陶瓷制造等行业的主 要排放物。图7表示在小清河流域内点源污染的行业类型占比,由图可知,火力 发、金属冶炼、金属制造、石油化工、颜料等行业的占比分别为3.6%、2.88%、 4.32%、10.07%和5.76%,共计26.63%。由此可知,排放Cd和Pb的行业点源大 约占小清河流域的1/3,这些行业多年来对Cd和Pb的排放浓度管控良好,进而 可知这些行业的生产经营较为稳定。反之,当发现Cd和Pb的相关性突发下降,这种异常现象能够反映行业点源的生产经营发生了较大波动,将使政府有针对性 的对这些行业点源进行管控。
相关性属于情况II时,说明区域内排放相应污染物的行业点源生产较为活 跃,且运营管理波动较大,导致水质指标超标。比如BOD5和CODmn是多种行 业的主要排放物,包括:焦化、石油化工、有机化学原料制造、化学原料制造业、 橡胶和塑料制品业、颜料、化学纤维制造业、食品制造业、造纸和纸制品业、皮 革与皮革加工等行业点源。上述行业点源在研究区内分布较广、数量较多、运营 管理多样,从而造成了BOD5和CODmn之间的高相关性和波动性。同理,上述 理论也解释了前文提出的:研究区除黄河流域外,其余流域的常规污染物间的高 相关性均为N-NH4和CODMn、P-tot和N-tot、BOD5和CODMn、BOD5和N- NH4。
本发明将相关系数0.3作为重要的临界值,相关系数大于0.3称为高相关性, 相关系数小于0.3称为低相关性。这主要是从两方面考虑:1.相关系数的总体分 布情况;2.天然条件下水质监测数据的不确定性和多重影响性。图8表示不同流 域中多年水质监测指标间的相关系数分布。由图可知,各流域中水质指标间的相 关系数大于0.3的分布较少,其中山东省、海河流域、淮河流域、黄河流域、小 清河流域和半岛流域中相关系数大于0.3的比例分别为:6.34%、8.19%,9.36%,14.0%,13.5%和25.7%。由此,从总体分布而言,临界相关系数设定为0.3是能 够反映水质指标相关性的高低之分。同时,在天然情况下,水质监测数据受到多 重因素的影响,非特殊情况(如,情况I)很难出现相关系数大于0.7,因此相关系数临界值设定过高,将会丢失大量潜在信息。
S34:对各时序单元的水质监测指标组合,以及所述行业污染知识库中的行 业主要污染物数据集,进行频繁集评估,确定各时序单元主要影响的行业。
一种可行的实施方式中,本发明通过设定不同的高相关性阈值、支持度和置 信度组合,以期找到最能反映研究区点源污染与水质监测污染物关联性的临界阈 值组合。表2为设定参数组合。
表2
如图9-图10分别表示海河流域、小清河流域的水质监测站点中频繁出现的 高相关性水质监测指标组合。极坐标将圆分成了19个扇形和19个同心圆,扇形 按逆时针顺序从极坐标0°开始划分,同心圆按从内至外的顺序排列,分别表示 DO、CODMn、N-NH4、P-to、N-tot、BOD5、Cu、Zn、Pb、Cd、As-tot、Se-tot、 Hg-tot、Cr6+、F-、挥发酚、石油、AS、S2-。图中的水平轴上的数字分别为水质 监测指标的代号。圆点表示频繁集1,三角表示频繁集2,加号表示频繁集3,叉 号表示频繁集4。频繁集3表示有三个高相关性水质指标对频繁同时出现在各监 测站点中,这三个指标对称为一个组合,如频繁集2和4。在频繁集2~4中,相 同颜色点表示同一组合。
例如,图9为海河流域中水质监测站点的频繁集项,为采用参数1计算的关 联规则频繁集项,为采用参数2计算的关联规则频繁集项,参数1与参数2。由 图9可知,Hg-tot、Cr6+、Se-tot、AS、Zn为海河流域中各监测站频繁出现的高 相关性水质指标,并且Hg-tot和Zn、Hg-tot和Se-tot、Cr6+和Zn、Cr6+和Cd、 Cr6+和Se-tot、Cr6+和Hg-tot、AS和Zn、AS和Se-tot,AS和Hg-tot,AS和Cr6+ 为频繁出现的高相关性水质指标对。由图9可知,当支持度参数提高到0.6时, Hg-tot、Cr6+、Se-tot、AS、Zn仍为频繁出现的高相关性水质指标,同时Hg-tot 和Zn、Cr6+和Zn、Cr6+和Hg-tot、Cr6+和Se-tot、AS和Hg-tot、AS和Se-tot、 AS和Cr6+仍为频繁出现的高相关性水质指标对。由上述结果可知,海河流域内 频繁出现金属类污染物Hg-tot、Cr6+、Se-tot、Zn,和其它污染物AS。图10为小 清河流域中水质监测站点的频繁集项,当在参数1状态时,Zn、Hg-tot、Cr6+、 volatile phenol、AS、N-tot、CODMn、N-NH4为频繁出现的高相关性水质指标; 在参数2状态时,只有频繁集1和频繁集2满足要求,DO、P-tot、Cr6+、volatile phenol、AS为频繁出现的高相关性水质指标。
图11对不同流域的频繁集项数量进行了统计,其中P1和P2分别代表参数 1和参数2状态,items1~items4代表频繁集1~频繁集4。由图4-16可知,海河流 域中频繁集项的数量最多,其中在参数1状态时,频繁集1为18个水质指标对、 频繁集2为69组水质指标对、频繁集3为139组水质指标对、频繁集4为167 组水质指标对;参数2状态时,频繁集1为12个水质指标对、频繁集2为19组 水质指标对、频繁集3为12组水质指标对、频繁集4为3组水质指标对。研究 区中频繁集项数量的排名为海河流域>小清河流域>淮河流域>黄河流域>半岛流 域。由上述结果可知,这可能是不同流域中点源污染的数量、分布不同导致的。
图12是对研究区10年监测水质指标频繁集项支持度的趋势图,支持度仅提 取大于0.3的频繁集项,图12a~12d分别为频繁集1、频繁集2、频繁集3、频繁 集4的支持度趋势。由图可知,随着频繁集的增加,支持度上限由0.6下降至0.4。 对比了研究区在2016年和2017年的频繁集项支持度的分布。由图可知,2016年 的频繁集项的支持度总体上处于低水平,其值处于0.1~0.2之间,仅个别项的支 持度大于0.6;而2017年频繁集项的支持度大于0.6的数量较多。
综合所述,分析结果与点源污染的属性、分布、数量、排放污染物特点有着 密切关系。
S207:通过Apriori算法计算各时序单元中水质监测指标的原始频繁集;
S208:根据预设的支持度以及置信度,再次计算各时序单元的水质监测指标 的新频繁集;
S209:根据所述原始频繁集以及新频繁集的交集部分,得到频繁出现的高相
S210:根据高相关性水质指标对确定各时序单元主要影响的行业。
优选地,高相关性水质检测指标对为:流域内点源污染与水质监测污染物具 有关联性的临界阈值组合。
一种可行的实施方式中,依据点源污染行业的主要污染物数据库与研究区点 源污染行业特点,本发明采用频繁集评估算法,对研究区5个流域不同时间段的 影响水质变化的主导行业进行分析,石油化工、金属冶炼、焦化业及黄磷业为主 要的点源污染行业。图13为LSTM模型预测准确性的变化趋势。由图13可知, 经过模型100次的迭代计算,模型验证的准确性逐渐增加,其中模型在海河、淮 河、黄河、小清河、半岛流域验证的准确性分别为0.98、0.95、1、0.98、0.98。 由此可见,LSTM算法在水环境领域中对时序数据的预测也有良好的结果。
本发明在海河流域的水质监测站中,频繁出现的高相关性水质指标为金属类 污染物,主要有Hg-tot、Cr6+、Se-tot、Zn。这些指标多出现在金属冶炼、石油化 工和颜料等行业点源。那么,这些行业是否是导致流域内水质监测站检出高相关 性金属类污染物的主要原因呢?本研究通过行业点源占比、行业点源分布和行业 点源的产值三个角度进行讨论。金属冶炼、石油化工、颜料和化学原料和化学制 品制造业等行业在海河流域中的数量占流域行业点源的比例分别为0.44%、1.33%、3.54%、15.04%,共计20.35%。同时,据《SHANDONG STATISTICAL YEARBOOK (2011-2016)》,金属冶炼、石油化工、颜料和化学原料和化学制品制造业的工业生 产总值平均约占总工业生产总值的20.6%。由此可知,上述点源污染行业不管在 企业数量还是在工业产值上大约均占总体的1/5,其生产中产生的污水会对流域 水质造成较大的影响,而且废水中含有不易分解的金属类污染物。同时,这些点源污染行业分布在流域上游的比例较大,因此金属类污染物会在海河流域的水质 监测站中频繁检出。同理,淮海流域以金属类污染物为主也是基于这一原因。
黄河流域和半岛流域中水质指标满足支持度大于0.6的频繁集项较少,其原 因有两点:1.点源污染分布不均;2.点源污染行业类型多而散。如黄河流域中点 源污染多集中大汶河沿线,而这些点源多为食品和造纸行业。黄河流域中存在7 个煤矿企业,它们均集中在区域的南部。金属冶炼行业仅有1个,但其位于流域 的上游。由此可见,黄河流域的水质监测站中频繁出现S2-、Cr6+等污染物,是 上游金属冶炼与河流沿线造纸行业影响。由此可知,水质指标在监测站的频繁出 现反映了区域行业点源对水质的主导能力。
然而,从时间维度分析,山东省2016年和2017年满足支持度大于0.6的水 质指标频繁集项数量差异较大,而频繁出现的污染物为金属类污染物。这种差异 不是由点源污染的分布与行业类型的因素决定的,因为短时期内山东省的产业格 局并不会发生较大的变化。然而,山东省金属冶炼、石油化工、颜料和化学原料 制造业在2017年的产值比2016年多2327亿元,同时山东省2017年第三产业增 加值34876.32亿元,增长9.1%(山东省统计局,2017)。由此可见,引起频繁集 项数量差异的原因为点源污染行业生产经营的明显变化。
由此可见,水质指标对的频繁集能够反映区域点源污染行业类别、行业分布 特点、行业生产经营情况,这为采用人工智能技术预测影响未来水质变化的行业 点源提供了理论支撑。
优选地,根据所述时序单元的关联以及评估,训练点源污染的LSTM算法溯 源预测模型,包括:
S211:对所有时序单元进行随机长度组合,形成训练样本;
S212:根据样本对LSTM算法溯源预测模型进行训练学习。
一种可行的实施方式中,本发明的预测模型样本量为1000,样本最大序列为 5。采用4层神经网络层,其中3层为LSTM层与1层全连接层(Dense),其中 LSTM网络层的输出维度为32,激活函数采用双曲正切函数(tanh());Dense层 的激活函数为归一化指数函数Softmax()。神经网络的损失函数(Losses)为交叉 熵代价函数(Categorical cross-entropy),优化器(Optimizers)采用RMSprop,评估 标准(Metrics)采用Categorical_accuracy。公式如下:
优选地,随机长度组合为将各时序单元按时间顺序随机的组合,组合的时序 单元个数为随机长度。
213:根据所述时序单元的关联以及评估,训练点源污染的LSTM算法溯源 预测模型;将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y, 分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及 点源污染行业发展的预测。
一种可行的实施方式中,应用LSTM算法充挖掘水质相关图谱在时间上的潜 在规律,实现对点源污染的精准预测。
如图14所示,提供一种基于人工智能的流域污染溯源预测装置300,装置包 括:
监测指标划分模块301,用于对全局各流域内水质监测指标进行时间划分;
相关图谱生成模块,用于对划分后的水质监测指标进行交叉计算,生成时间 层面的水质监测指标之间的相关图谱;
关联规则模块302,将相关图谱作为基础数据,通过关联规则算法,对点源 污染与水质监测指标进行关联以及评估;
溯源预测模块303,根据时序单元的关联以及评估,训练点源污染的LSTM 算法溯源预测模型;将各流域内的水质监测指标作为X,流域内的点源污染行业 作为Y,分别输入训练好的LSTM算法溯源预测模型,完成对点源污染的溯源, 以及点源污染行业发展的预测。
优选地,监测指标划分单元包括:
数据采集子模块,用于对研究区内所有水质监测数据、点源污染数据以及行 业污染知识库进行采集;
数据清洗子模块,用于集到的水质监测数据进行数据清洗,得到水质监测指 标;
时序划分子模块,用于将流域内各监测站点的水质监测指标按照3个月为1 个时序单元的划分方式进行划分。
一种可行的实施方式中,本发明将可以语音识别的LSTM算法引入至水环境 研究领域,建立了点源污染与水质监测污染物的时序预测模型,通过对模型的评 估,预测的精度较高,这说明人工智能技术在水环境领域是理论上科学、应用上 可行。人工智能技术把点源污染与水质监测污染物的时空联动性通过深度神经网 络实现,将复杂的联动性封闭在网络中,只呈现输入与输出。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一 种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘 等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。
Claims (10)
1.一种基于人工智能的流域污染溯源预测方法,其特征在于,包括:
S1:对全局各流域内水质监测指标进行时间划分;
S2:对划分后的水质监测指标进行交叉计算,生成水质监测指标之间的相关图谱;
S3:将所述相关图谱作为基础数据,通过关联规则算法,对点源污染与水质监测指标进行关联以及评估;
S4:将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y,分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及点源污染行业发展的预测。
2.根据权利要求1所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述步骤S1中,对全局各流域内水质监测指标进行时间划分,包括:
S11:对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进行采集;
S12:对采集到的所述水质监测数据进行数据清洗,得到水质监测指标;
S13:将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划分方式进行划分。
3.根据权利要求2所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述步骤2中,对划分后的水质监测指标进行交叉计算,生成水质监测指标之间的相关图谱,包括:
对流域内每两个时序单元的水质监测指标进行交叉计算,生成水质监测指标之间的相关图谱。
4.根据权利要求3所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述步骤S3中,将所述相关图谱作为基础数据,通过关联规则算法,对点源污染与水质监测指标进行关联以及评估,包括:
S31:将所述相关图谱输入预先创建的关联规则算法模型;
S32:通过关联规则算法模型,计算出每两个水质监测指标之间的相关关系;
S33:根据预设的高相关性阈值提取各时序单元的水质监测指标组合;大于所述高相关性阈值的所述水质监测指标组合即为高相关性的水质监测指标组合;
S34:对各时序单元的水质监测指标组合,以及所述行业污染知识库中的行业主要污染物数据集,进行频繁集评估,确定各时序单元主要影响的行业。
5.根据权利要求4所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述步骤S34中,对各时序单元的水质监测指标组合,以及所述行业污染知识库中的行业主要污染物数据集,进行频繁集评估,确定各时序单元主要影响的行业,包括:
S341:通过Apriori算法计算各时序单元中水质监测指标的原始频繁集;
S342:根据预设的支持度以及置信度,再次计算各时序单元的水质监测指标的新频繁集;
S343:根据所述原始频繁集以及新频繁集的交集部分,得到频繁出现的高相关性水质监测指标对;
S344:根据高相关性水质指标对确定各时序单元主要影响的行业。
6.根据权利要求5所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述高相关性水质检测指标对为:流域内点源污染与水质监测污染物具有关联性的临界阈值组合。
7.根据权利要求5所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述步骤S4中,将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y,分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及点源污染行业发展的预测,包括:
S41:对所有时序单元进行随机长度组合,形成训练样本;
S42:根据样本对LSTM算法溯源预测模型进行训练学习;
S43:将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y,分别输入训练好的LSTM算法溯源预测模型,完成对点源污染行业的溯源,以及点源污染行业发展的预测。
8.根据权利要求7所述的基于人工智能的流域污染溯源预测方法,其特征在于,所述随机长度组合为将各时序单元按时间顺序随机的组合,组合的时序单元个数为随机长度。
9.一种基于人工智能的流域污染溯源预测装置,其特征在于,所述装置包括:
监测指标划分模块,用于对全局各流域内水质监测指标进行时间划分;
相关图谱生成模块,用于对划分后的水质监测指标进行交叉计算,生成时间层面的水质监测指标之间的相关图谱;
关联规则模块,将所述相关图谱作为基础数据,通过关联规则算法,对点源污染与水质监测指标进行关联以及评估;
溯源预测模块,根据所述时序单元的关联以及评估,训练点源污染的LSTM算法溯源预测模型;将各流域内的水质监测指标作为X,流域内的点源污染行业作为Y,分别输入训练好的LSTM算法溯源预测模型,完成对点源污染的溯源,以及点源污染行业发展的预测。
10.根据权利要求9所述的基于人工智能的流域污染溯源预测装置,其特征在于,所述监测指标划分单元包括:
数据采集子模块,用于对研究区内所有水质监测数据、点源污染数据以及行业污染知识库进行采集;
数据清洗子模块,用于集到的所述水质监测数据进行数据清洗,得到水质监测指标;
时序划分子模块,用于将流域内各监测站点的水质监测指标按照3个月为1个时序单元的划分方式进行划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111329275.6A CN114066037A (zh) | 2021-11-10 | 2021-11-10 | 一种基于人工智能的流域污染溯源预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111329275.6A CN114066037A (zh) | 2021-11-10 | 2021-11-10 | 一种基于人工智能的流域污染溯源预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114066037A true CN114066037A (zh) | 2022-02-18 |
Family
ID=80274690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111329275.6A Pending CN114066037A (zh) | 2021-11-10 | 2021-11-10 | 一种基于人工智能的流域污染溯源预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114066037A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829172A (zh) * | 2023-02-24 | 2023-03-21 | 清华大学 | 污染预测方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512797A (zh) * | 2015-11-26 | 2016-04-20 | 浙江省环境监测中心 | 一种控制断面污染风险溯源及风险程度展示方法 |
CN111855945A (zh) * | 2020-07-28 | 2020-10-30 | 王艳捷 | 一种智慧型流域水质污染溯源的船载监测技术及方法 |
-
2021
- 2021-11-10 CN CN202111329275.6A patent/CN114066037A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512797A (zh) * | 2015-11-26 | 2016-04-20 | 浙江省环境监测中心 | 一种控制断面污染风险溯源及风险程度展示方法 |
CN111855945A (zh) * | 2020-07-28 | 2020-10-30 | 王艳捷 | 一种智慧型流域水质污染溯源的船载监测技术及方法 |
Non-Patent Citations (1)
Title |
---|
PW A 等: ""Exploring the application of artificial intelligence technology for identification of water pollution characteristics and tracing the source of water quality pollutants"", 《SCIENCE OF THE TOTAL ENVIRONMENT》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829172A (zh) * | 2023-02-24 | 2023-03-21 | 清华大学 | 污染预测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ho et al. | Towards a time and cost effective approach to water quality index class prediction | |
Zhang et al. | Accurate prediction of water quality in urban drainage network with integrated EMD-LSTM model | |
Semiromi et al. | Water quality index development using fuzzy logic: A case study of the Karoon River of Iran | |
CN112506990B (zh) | 一种基于时空信息的水文数据异常检测方法 | |
KR20180116820A (ko) | 다중 가중치 산정 및 topsis를 이용한 단위유역별 수자원 취약성 평가 방법 | |
Liu et al. | Water quality assessment and source identification of the Shuangji River (China) using multivariate statistical methods | |
Sadiq et al. | Fuzzy-based method to evaluate soil corrosivity for prediction of water main deterioration | |
Galavi et al. | Klang River–level forecasting using ARIMA and ANFIS models | |
Sancho et al. | Study of water quality in a spanish river based on statistical process control and functional data analysis | |
Pan et al. | Assessing water poverty in China using holistic and dynamic principal component analysis | |
CN115774953A (zh) | 一种基于数据处理的污染时空风险监管评估系统及方法 | |
CN111090831A (zh) | 一种湖泊面积变化关键驱动因子识别方法 | |
Bian et al. | Quantitative design and analysis of marine environmental monitoring networks in coastal waters of China | |
Singh et al. | Review on Data Mining Techniques for Prediction of Water Quality. | |
CN114066037A (zh) | 一种基于人工智能的流域污染溯源预测方法及装置 | |
CN113626929A (zh) | 多阶段多拓扑的船舶交通复杂度度量方法及系统 | |
Ahani et al. | A feature weighting and selection method for improving the homogeneity of regions in regionalization of watersheds | |
CN109190783B (zh) | 城市水网渗漏空间聚集性检测及关键影响因素识别方法 | |
Arora et al. | Use of cluster analysis-A data mining tool for improved water quality monitoring of river Satluj | |
Al-Musawi et al. | Prediction and assessment of water quality index using neural network model and GIS case study: Tigris river in Baghdad city | |
Huang et al. | A feature extraction method based on the entropy-minimal description length principle and GBDT for common surface water pollution identification | |
Zamenian et al. | Systematic approach for asset management of urban water pipeline infrastructure systems | |
CN114595631A (zh) | 一种基于efdc模型和机器学习算法的水质预测方法 | |
Moasheri et al. | ‘SAR’qualities parameter persistence by a compound method of geostatic and artificial neural network (Case study of Jiroft plain) | |
Tchórzewska-Cieślak et al. | Bayesian inference in the analysis of the failure risk of the water supply network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220218 |
|
RJ01 | Rejection of invention patent application after publication |