CN114398423A - 一种基于多源数据的河涌水质时空预测方法及系统 - Google Patents

一种基于多源数据的河涌水质时空预测方法及系统 Download PDF

Info

Publication number
CN114398423A
CN114398423A CN202111674079.2A CN202111674079A CN114398423A CN 114398423 A CN114398423 A CN 114398423A CN 202111674079 A CN202111674079 A CN 202111674079A CN 114398423 A CN114398423 A CN 114398423A
Authority
CN
China
Prior art keywords
data
monitoring
water quality
time
river
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111674079.2A
Other languages
English (en)
Inventor
叶效强
蒋鸿伟
谭成灶
胡晓辉
梁文智
李健森
吴君句
张广昕
骆大清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ctsy Environmental Technology Co ltd
Original Assignee
Guangdong Ctsy Environmental Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ctsy Environmental Technology Co ltd filed Critical Guangdong Ctsy Environmental Technology Co ltd
Priority to CN202111674079.2A priority Critical patent/CN114398423A/zh
Publication of CN114398423A publication Critical patent/CN114398423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Remote Sensing (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的目的在于提出一种基于多源数据的河涌水质时空预测方法及系统,其中基于多源数据的河涌水质时空预测方法包括步骤S1:定位的河涌类型为以生活污水为主导的河涌;步骤S2:选取河涌现有的固定监测站为中心监测站;步骤S3:建立河涌的空间坐标系;步骤S4:选取巡检设备巡航监测,获取水质分布情况;步骤S5:以温度,风速,日照、气压、湿度和降雨气象因素为特征指标,通过深度学习方法构建中心监测站的水质时间序列预测模型;步骤S6:根据巡检设备巡航监测数据,使用LSTM模型构建不同监测时段的中心监测站与任一空间坐标点的污染映射关系模型;步骤S7:结合水质时间序列预测模型与污染映射关系模型,对河涌任一监测点的水质进行时空预测。

Description

一种基于多源数据的河涌水质时空预测方法及系统
技术领域
本发明涉及水质监控技术领域,特别是一种基于多源数据的河涌水质时空预测方法及系统。
背景技术
近年来,随着水污染防治力度的加大,我国地表水水质得到显著改善。根据生态环境部公布的数据,2020年全国地表水水质优良(Ⅰ~Ⅲ类)断面比例达到83.4%,比2016年上升了15.6个百分点。十四五规划要求地表水达到或好于III类水体比例需达到85%以上,水资源治理目标进一步提高。然而,随着城市化进程的加快,城市内河涌的污染日益严峻,为了更高效的监管河涌水质及入河污染物的排放,提高河涌水污染的防治效率,环境管理部门需要更及时、更精准、更全面的了解河涌水质的时空变化特点,并对主要排放口提前采取措施,提高河涌水质优良比。
一般情况下,河涌水质既受上游来水、地表径流、沿途排放、降雨降尘等外源污染的影响,也受温度,流速,日照、气压、湿度等气象因素的影响,从而产生时间和空间分布的差异。而在现有的河涌水质预测方法中,往往是针对某一个监测点的时间序列预测,无法全面反映水质的整体空间分布特点,因此,对河涌水质进行时空预测显得非常重要。
目前,在水污染浓度的空间分布预测方法中,主要包括以下几种:
一是MIKE11AD对流扩散模型,主要用于研究河流水质的时空分布规律及扩散衰减过程。MIKE11AD模型计算污染物的扩散和衰减,是基于河流具有一定的流速,并且需要满足污染物混合均匀、污染物浓度变化线性衰减、扩散复合菲克扩散定律等假设条件。然而,大部分城市内河涌与外江之间不是直接连接,而是通过水闸对河涌水量进行调控,河涌往往具有流速较慢、污染物停留时间长、污染物混合不均匀、污染物浓度随空间呈现非线性变化等特点;另外,扩散系数、衰减系数等受不同河流水文特征的影响,具有较大的不确定性,参数的估算本身有较大的误差。MIKE11AD模型的假设条件在扩散模型中不再满足。
二是空间插值法,常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较,它包括了空间内插和外推两种算法。空间插值法应用于河涌水质空间分布预测,首先,需要在河涌中设立多个监测站点;然后,将每个时段内各站点监测值平均后,用统计学中常用的克里格空间插值方法绘制出各污染因子在整条河涌上的空间分布图,了解其空间分布变化。空间插值法需要河涌中设立多个监测站点,这意味着更高的仪器监测成本、以及运维成本,不符合实际情况。
三是移动监测。移动监测主要包括以下三种:一是移动监测车。将固定监测站的设备安装在车上,通过车将监测设备移至目标监测点,并将监测结果传回控制中心。移动监测车能够移动监测河涌的不同经纬度水质,从而了解水质整体空间分布特点。但是,无法监测同一时刻水质的空间分布状况,只能监测完一个点再移至下一个监测点。此外,移动监测车面临体积大、部署麻烦、资金和人力投入较大等问题,在实际应用中也有较大局限。二是移动监测船。将固定监测站的设备安装到船上,通过人工操作船进行移动监测。与车载方式不一样的是,移动监测船能够监测到河涌中间位置的水样。与移动监测车类似,同样面临部署、资金和人力投入等问题,极大局限了移动监测船的应用场景。三是小型无人船巡航监测。在无人船上搭载水质监测设施,对河涌水质空间分布特点进行实时监测。但是,为了确保移动监测精度,小型无人船上搭载的往往是价格昂贵的监测设备;并且,小型无人船一般需要人工现场摇控巡航,以及面临防盗、巡航电量补给的问题等。这都使得无人船仍无法实现24小时持续巡航,应用场景比较单一,目前主要在水域巡检、目标水域采样、突发污染应急监测,而无法做到水质长时间的空间分布预测。
随着深度学习法的发展,具有非线性、自组织学习等特点的神经网络被广泛应用于水质空间分布预测。因此使用深度学习法结合水质空间分布特征、时间变化特点、更全面反映水质时空变化的预测方法亟待出现。
发明内容
针对上述缺陷,本发明的目的在于提出一种基于多源数据的河涌水质时空预测方法及系统。首先选取河涌的监测站为中心监测站,并通过水深、经度、纬度建立河涌的空间坐标系;接着使用无人船巡航监测,获得各空间坐标点的水质分布情况;然后以气象因素为特征指标,通过深度学习方法构建中心监测站的水质时间序列预测模型;最后使用LSTM模型构建中心监测站与任一空间坐标点的映射关系模型,实现对河涌水质的空间预测。
为达此目的,本发明采用以下技术方案:一种基于多源数据的河涌水质时空预测方法包括以下步骤:
步骤S1:定位的河涌类型为以生活污水为主导的河涌;
步骤S2:选取河涌现有的固定监测站为中心监测站;
步骤S3:建立河涌的空间坐标系,通过经度、纬度、深度建立空间坐标系,以反映河涌任一监测点;
步骤S4:选取巡检设备巡航监测,获得各空间坐标系中任一监测点的水质分布情况;
步骤S5:以温度,风速,日照、气压、湿度和降雨气象因素为特征指标,通过深度学习方法构建中心监测站的水质时间序列预测模型;
步骤S6:根据巡检设备巡航监测数据,使用LSTM模型构建不同监测时段的中心监测站与任一空间坐标点的污染映射关系模型;
步骤S7:结合水质时间序列预测模型与污染映射关系模型,对河涌任一监测点的水质进行时空预测。
优选的,所述步骤S5的具体如下:
步骤S51:获取中心监测站数据和气象因素数据,并对数据完整性进行检查,补全报文缺失的时段,并将补全时段的监测值标记为NULL值,剔除缺失值/NULL值、值不变、负值、超量程、低于0.3%分位数的极小值以及超出99.7%分位数的极大值不符合现场监测情况的显著异常值;
步骤S52:将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除,所述监测仪器为获取中心监测站数据的工具;
步骤S53:对被剔除的数据以及缺失的数据采用均值插补法进行补充;
步骤S54:构建水质时间序列预测模型,将中心监测站前一监测时间的中心监测站数据与气象因素作为当前监测时间的特征指标,并输入到所述水质时间序列预测模型,通过监测时间的序列模型构建该时段的水质时间映射关系模型为:Ct=F(Ct-1,天气数据),其中Ct-1为中心监测站前一监测时间的中心监测站数据,所述水质时间映射关系模型输出当前时刻的中心监测站的中心监测站数据。
优选的,所述步骤S6的具体如下:
步骤S61:获取中心监测站数据和巡航监测数据,并对数据完整性进行检查,补全报文缺失的时段,并将补全时段的监测值标记为NULL值,剔除缺失值/NULL值、值不变、负值、超量程、低于0.3%分位数的极小值以及超出99.7%分位数的极大值不符合现场监测情况的显著异常值;
步骤S62:将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除,所述监测仪器为获取中心监测站数据的工具;
步骤S63:对被剔除的数据以及缺失的数据采用均值插补法进行补充;
步骤S64:构建污染映射关系模型,某一监测时间的中心监测站的中心监测站数据与待预测的监测点的经度、纬度、深度作为该监测时间的特征指标输入污染映射关系模型,通过LSTM模型构建该时段的水质空间映射关系模型为:Ht=F(Ct,x,y,z),其中Ct为中心监测站当前时刻的中心监测站数据,x、y、z分别表示监测点的经度、纬度、深度,所述污染映射关系模型输出为监测对象在某坐标中的水质分布情况数据;
步骤S65:将收集到的中心监测站数据以及对应的气象因素作为第一训练数据、将水质分布情况数据、监测点的坐标、中心监测站数据作为第二训练数据;
第一训练数据以及第二训练数据按3:1比例随机拆分训练集与测试集,使用tensorflow的keras构造LSTM模型训练框架,采用贝叶斯优化进行模型调参,并存储最优参数空间预测模型;最后,采用MAE、RMSE这2种度量方式来对预测结果进行评估,其中
Figure BDA0003450812280000051
其中yi为真实数据,
Figure BDA0003450812280000052
为通过模型得到的预测数据。
优选的,进行进行步骤S64和步骤S55前还需对水质分布情况数据、中心监测站数据、监测时间和气象因素进标准化归一处理。
优选的,所述步骤S4中巡检设备获取水质分布情况的时间确认方式为:
获取所述中心监测站对河涌的污染物进行监测的时间点并以所述时间点作为监测时间。
一种基于多源数据的河涌水质时空预测系统,使用上述一种基于多源数据的河涌水质时空预测方法包括:
对象选取模块、空间坐标建立模块、数据获取模块以及预测模型模块;
所述对象选取模块用于获取河涌排污类型,并选择排污类型为生活污水的河涌作为监测对象;
空间坐标建立模块用于立监测对象的空间坐标系,在空间坐标系中选取多个监测点;
所述数据获取模块用于在规定的监测时间内获取监测点的水质分布情况数据以及当时的气象因素,选取监测对象中现有的固定监测站为中心监测站,获取中心监测站的中心监测站数据;
所述预测模型模块用于根据所述数据获取模块获取到的数据进行训练,得出水质时间序列预测模型与污染映射关系模型。
优选的,还包监测时间确定模块,所述监测时间确定模块用于获取中心监测站的对河涌的污染物进行监测的时间点并以所述时间点作为巡检设备获取水质分布情况的时间。
优选的,所述预测模型模块包括:水质分布情况数据完整度检测模块、中心监测站数据完整度检测模块、数据补全模块、水质时间序列预测模型建立模块、污染映射关系模型建立模块以及测试模块;
所述水质分布情况数据完整度检测模块用于对水质分布情况数据、监测时间和气象因素的完整性以及有效性进行检查,将监测时间点内的空值以及不符合阈值规定的数据进行剔除;
中心监测站数据完整度检测模块用于将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除;
数据补全模块用于对被剔除的数据以及缺失的数据采用均值插补法进行补充;
水质时间序列预测模型建立模块用于构建水质时间序列预测模型,将中心监测站前一监测时间的中心监测站数据与气象因素作为当前监测时间的特征指标对水质时间序列预测模型进行训练;
污染映射关系模型建立模块用于构建污染映射关系模型,某一监测时间的中心监测站的中心监测站数据与待预测的监测点的经度、纬度、深度作为该监测时间的特征指标输入污染映射关系模型,对污染映射关系模型进行训练;
测试模块用于评估所述水质时间序列预测模型与污染映射关系模型对于预测结果的准确度。
优选的,还包括数据归一化处理模块,所述归一化处理模块用于对数据补全模块处理后的数据进标准化归一处理。
上述技术方案中的一个技术方案具有如下优点或有益效果:本申请建立了气象因素与中心监测站数据在时间上的关联模型。由于中心监测站数据是由中心监测站通过分析河涌中污染物总体浓度分析的结果,故水质分布情况数据与中心监测站数据存在一定的关联,而中心监测站数据源较为单一,通过中心监测站数据与水质分布情况训练得到模型精度较高,即可通过中心监测站数据精准预测对水质分布情况数据。同理,通过中心监测站数据与气象因素训练得到模型精度较高,能够气象因素对应预测出不同时段的中心监测站数据的时间序列预测值。即通过当前中心监测站数据与气象因素预测得出下一监测时间中的中心监测站数据,再通过下一监测时间的中心监测站数据与水质分布情况数据的关联,精准预测到下一监测时间的水质分布情况数据。大大提高了预测结果的精准度。
附图说明
图1是本发明的一个实施例的流程示意图。
图2为某河涌水质24小时污染物变化图;
图3为LSTM不同空间坐标预测值与真实值比较图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1~3所示,一种基于多源数据的河涌水质时空预测方法,包括以下步骤:
步骤S1:定位的河涌类型为以生活污水为主导的河涌;
由于工业污水的水质及排放量会收到工厂订单以及产品种类的影响,排放量以及污染物对水质的影响波动会较大。而生活污水的排放相对比较稳定、且呈现早中晚周期性变化,本发明定位的河涌类型为以生活污水为主导的河涌为监测对象,以提高水质时间序列预测模型与污染映射关系模型的精准度,更好对河涌的水质进行时空预测。
步骤S2:选取河涌现有的固定监测站为中心监测站;
步骤S3:建立河涌的空间坐标系,通过经度、纬度、深度建立空间坐标系,以反映河涌任一监测点;
在相对静止的河涌水文特征下,河涌污染物混合并不均匀,污染物浓度随空间呈现非线性变化。一般情况下,受水质扩散、降解等因素的影响,不同经度、纬度的水质存在一定差异,离主要排放口越近,污染物浓度通常越高,相反则越低。此外,在垂直方向上,水质的分布差别也较大。例如,溶解氧垂直分布的情况,表层溶解氧浓度最大,饱和度可高达200%以上;底层溶解氧较少,饱和度只有40%-80%;中层溶解氧随水深增大而急剧减少。因此,本发明通过经度(x)、纬度(y)、深度(z)建立空间坐标系(x,y,z),以反映河涌任一监测点。
步骤S4:选取巡检设备巡航监测,获得各空间坐标系中任一监测点的水质分布情况;
在监测时间内,可以使用巡航设备到对应的监测点对水质分布情况数据进行收集获得各监测时间、各空间坐标点的水质分布情况。并将巡航设备实时监测的结果以监测时间、监测点经度、监测点纬度、监测点离水面深度、水质分布情况数据为表头返回数据库中,作为污染映射关系模型的训练数据。而气象因素为在收集所述水质分布情况数据时的温度,风速,日照、气压、湿度、降雨等气象因素,并以中心监测站数据为表头收集所述气象因素返回数据库中,作为水质时间序列预测模型的训练数据。
步骤S5:以温度,风速,日照、气压、湿度和降雨气象因素为特征指标,通过深度学习方法构建中心监测站的水质时间序列预测模型;
如图2,某条以生活污水为主导的河涌,受昼夜温差、太阳辐射等气象因素影响,以及受早上、中午、晚上居民排放高峰时段的影响,其水质呈现24小时周期性变化。根据污染物的扩散复合菲克扩散定律,污染物的扩散能力与其浓度成正比,即不同排放时段因水质差别较大,水质的空间映射关系不太一样。因此,在一个实施例中选取的巡航设备监测时段为:0:00、4:00、8:00、12:00、16:00、20:00同时,尽量避开大雨、暴雨天气巡航,一方面保护无人船上的监监测仪器,另一方面避免大雨、暴雨可能对河涌水质的短暂冲击。
然后,选取无人船巡航监测的位置,对监测的污染物在垂直方向上分别安装3个传感器,以某条平均深度为2米的河涌为例,传感器离水面分别为0.5m、1m、1.5m。考虑到河涌主要排放口一般分布在河涌两岸,因此,在水平方向上巡航监测时,可沿着河涌两岸巡航监测。
步骤S6:根据巡检设备巡航监测数据,使用LSTM模型构建不同监测时段的中心监测站与任一空间坐标点的污染映射关系模型;
步骤S7:结合水质时间序列预测模型与污染映射关系模型,对河涌任一监测点的水质进行时空预测。
如果单纯使用预测时间、气象因素对水质分布情况进行预测的话,由于预测时间、气象因素以及单一一个监测点中的水质分布情况数据三者的关系为非线性关系。而监测点中不同经纬度以及深度的水质分布情况数据不同、而且气象因素包括了温度,风速,日照、气压、湿度、降雨等气象因素数据,当多个数据与多个数据进行关联时,模型处理的数据量会增多,而且两者的关联系会减弱,训练出来的模型结果预测的精准度会有所下降,无法有效准确的预测监测点的水质分布情况数据。本申请建立了气象因素与中心监测站数据在时间上的关联模型。由于中心监测站数据是由中心监测站通过分析河涌中污染物总体浓度分析的结果,故水质分布情况数据与中心监测站数据存在一定的关联,而中心监测站数据源较为单一,通过中心监测站数据与水质分布情况训练得到模型精度较高,即可通过中心监测站数据精准预测对水质分布情况数据。同理,通过中心监测站数据与气象因素训练得到模型精度较高,能够气象因素对应预测出不同时段的中心监测站数据的时间序列预测值。即通过当前中心监测站数据与气象因素预测得出下一监测时间中的中心监测站数据,再通过下一监测时间的中心监测站数据与水质分布情况数据的关联,精准预测到下一监测时间的水质分布情况数据。大大提高了预测结果的精准度,而且中心监测站为官方监测水质的单位,所述中心监测站数据的精准度与可信度较高,用于水质分布情况数据的预测能够大大提高预测结果的精准度。
优选的,所述步骤S5的具体如下:
步骤S51:获取中心监测站数据和气象因素数据,并对数据完整性进行检查,补全报文缺失的时段,并将补全时段的监测值标记为NULL值,剔除缺失值/NULL值、值不变、负值、超量程、低于0.3%分位数的极小值以及超出99.7%分位数的极大值不符合现场监测情况的显著异常值;
由于在巡检设备在获取水质分布情况数据时,有可能会收到外部环境的影响,使得收集的数据受到波动或者巡检设备未收集到水质分布情况数据,此时在时间点上无法与所述中心监测站中的中心监测站数据所对应,最终影响到做模型精准度。所以需要补全报文缺失的时段、并将补全时段的监测值标记为NULL值。
步骤S52:将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除,所述监测仪器为获取中心监测站数据的工具;
由于中心监测站的监测仪器在周期内会有人定期进行维修以保证,所述监测仪器所测出数据的准确度。同理对待缺失或者异常的中心监测站数据同样也需要进行剔除以及填补的处理。
步骤S53:对被剔除的数据以及缺失的数据采用均值插补法进行补充;
步骤S54:构建水质时间序列预测模型,将中心监测站前一监测时间的中心监测站数据与气象因素作为当前监测时间的特征指标,并输入到所述水质时间序列预测模型,通过监测时间的序列模型构建该时段的水质时间映射关系模型为:Ct=F(Ct-1,天气数据),其中Ct-1为中心监测站前一监测时间的中心监测站数据,所述水质时间映射关系模型输出当前时刻的中心监测站的中心监测站数据。
优选的,所述步骤S6的具体如下:
步骤S61:获取中心监测站数据和巡航监测数据,并对数据完整性进行检查,补全报文缺失的时段,并将补全时段的监测值标记为NULL值,剔除缺失值/NULL值、值不变、负值、超量程、低于0.3%分位数的极小值以及超出99.7%分位数的极大值不符合现场监测情况的显著异常值;
由于在巡检设备在获取水质分布情况数据时,有可能会收到外部环境的影响,使得收集的数据受到波动或者巡检设备未收集到水质分布情况数据,此时在时间点上无法与所述中心监测站中的中心监测站数据所对应,最终影响到做模型精准度。所以需要补全报文缺失的时段、并将补全时段的监测值标记为NULL值。
步骤S62:将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除,所述监测仪器为获取中心监测站数据的工具;
由于中心监测站的监测仪器在周期内会有人定期进行维修以保证,所述监测仪器所测出数据的准确度。同理对待缺失或者异常的中心监测站数据同样也需要进行剔除以及填补的处理。
步骤S63:对被剔除的数据以及缺失的数据采用均值插补法进行补充;
其中均值插补法为获取需要补充数据的前一项数据与后一项数据的平均值,使用平均值对需要补充数据进行补充,当气象因素变化不大时(没有大雨冲刷的情况发生),所述水质分布情况数据以及中心监测站数据会根据时间的变化发生会接近于线型的变化,故本申请采用均值插补法对被剔除以及空值的数据进行补充,以保证数据在全时间段的完整性。
步骤S64:构建污染映射关系模型,某一监测时间的中心监测站的中心监测站数据与待预测的监测点的经度、纬度、深度作为该监测时间的特征指标输入污染映射关系模型,通过LSTM模型构建该时段的水质空间映射关系模型为:Ht=F(Ct,x,y,z),其中Ct为中心监测站当前时刻的中心监测站数据,x、y、z分别表示监测点的经度、纬度、深度,所述污染映射关系模型输出为监测对象在某坐标中的水质分布情况数据;
在一个实施例中选取的巡航设备监测时间为:0:00、4:00、8:00、12:00、16:00、20:00。因此根据监测时间所构建的水质时间序列预测模型有6个,分别为C0:00=F(C22:00,天气数据)、C4:00=F(C0:00,天气数据)、C8:00=F(C4:00,天气数据)、C12:00=F(C8:00,天气数据)、C16:00=F(C12:00,天气数据)、C20:00=F(C16:00,天气数据)。而所述污染映射关系模型对应也有6个,分别为H0:00=F(C0:00,x,y,z)、H4:00=F(C4:00,x,y,z)、H8:00=F(C8:00,x,y,z)、H12:00=F(C12:00,x,y,z)、H16:00=F(C16:00,x,y,z)、H20:00=F(C20:00,x,y,z)。
在一个实施例中要预测12:00时刻时某一监测点的水质分布情况数据,而此时的时间为4:00。此时需要通过C8:00=F(C4:00,天气数据)模型,预测得到到8:00时刻时所述中心监测站数据。在通过预测8:00时刻时所述中心监测站数据代入到C12:00=F(C8:00,天气数据),获取得到12:00时刻时预测所述中心监测站数据,最后将监测点的坐标以及12:00时刻时预测所述中心监测站数据代入到H12:00=F(C12:00,x,y,z)模型内,即可得到12:00时刻时某一监测点的水质分布情况数据。
步骤S65:将收集到的中心监测站数据以及对应的气象因素作为第一训练数据、将水质分布情况数据、监测点的坐标、中心监测站数据作为第二训练数据;
第一训练数据以及第二训练数据按3:1比例随机拆分训练集与测试集,使用tensorflow的keras构造LSTM模型训练框架,采用贝叶斯优化进行模型调参,并存储最优参数空间预测模型;最后,采用MAE、RMSE这2种度量方式来对预测结果进行评估,其中
Figure BDA0003450812280000141
其中yi为真实数据,
Figure BDA0003450812280000142
为通过模型得到的预测数据。
当对水质时间序列预测模型进行评估时,所述yi为中心监测站数据的真实数据,
Figure BDA0003450812280000151
为通过水质时间序列预测模型得到的中心监测站数据的预测数据。
当对污染映射关系模型进行评估时,所述yi为水质分布情况的真实数据,
Figure BDA0003450812280000152
为通过水质时间序列预测模型得到的水质分布情况数据的预测数据。
如图3,在某河涌真实监测数据上进行测试,随机抽取160个不同空间坐标点NH3的LSTM预测值与真实值比较图,预测均方根误差(RMSE)为0.338,平均绝对误差率(MAE)为8.68%。各评价指标的误差率均较低,表明该方法能够较准确地刻画水质的空间映射关系。
优选的,进行步骤S64和步骤S55前还需对水质分布情况数据、中心监测站数据、监测时间和气象因素进标准化归一处理。
在机器学习建模领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
优选的,所述步骤S4中巡检设备获取水质分布情况的时间确认方式为:
获取所述中心监测站对河涌的污染物进行监测的时间点并以所述时间点作为监测时间。
为了保证水质分布情况数据与中心监测站数据在时间上的关联度,巡检设备收集数据的时间与监测站的监测时点保持一致,同时得覆盖全天不同时段,以保证任意时间段内也能够对监测点中的水质分布情况进行预测。
一种基于多源数据的河涌水质时空预测系统,使用上述一种基于多源数据的河涌水质时空预测方法包括:
对象选取模块、空间坐标建立模块、数据获取模块以及预测模型模块;
所述对象选取模块用于获取河涌排污类型,并选择排污类型为生活污水的河涌作为监测对象;
空间坐标建立模块用于立监测对象的空间坐标系,在空间坐标系中选取多个监测点;
所述数据获取模块用于在规定的监测时间内获取监测点的水质分布情况数据以及当时的气象因素,选取监测对象中现有的固定监测站为中心监测站,获取中心监测站的中心监测站数据;
所述预测模型模块用于根据所述数据获取模块获取到的数据进行训练,得出水质时间序列预测模型与污染映射关系模型。
优选的,还包监测时间确定模块,所述监测时间确定模块用于获取中心监测站的对河涌的污染物进行监测的时间点并以所述时间点作为巡检设备获取水质分布情况的时间。
优选的,所述预测模型模块包括:水质分布情况数据完整度检测模块、中心监测站数据完整度检测模块、数据补全模块、水质时间序列预测模型建立模块、污染映射关系模型建立模块以及测试模块;
所述水质分布情况数据完整度检测模块用于对水质分布情况数据、监测时间和气象因素的完整性以及有效性进行检查,将监测时间点内的空值以及不符合阈值规定的数据进行剔除;
中心监测站数据完整度检测模块用于将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除;
数据补全模块用于对被剔除的数据以及缺失的数据采用均值插补法进行补充;
水质时间序列预测模型建立模块用于构建水质时间序列预测模型,将中心监测站前一监测时间的中心监测站数据与气象因素作为当前监测时间的特征指标对水质时间序列预测模型进行训练;
污染映射关系模型建立模块用于构建污染映射关系模型,某一监测时间的中心监测站的中心监测站数据与待预测的监测点的经度、纬度、深度作为该监测时间的特征指标输入污染映射关系模型,对污染映射关系模型进行训练;
测试模块用于评估所述水质时间序列预测模型与污染映射关系模型对于预测结果的准确度。
优选的,还包括数据归一化处理模块,所述归一化处理模块用于对数据补全模块处理后的数据进标准化归一处理,
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (9)

1.一种基于多源数据的河涌水质时空预测方法,其特征在于,包括以下步骤:
步骤S1:定位的河涌类型为以生活污水为主导的河涌;
步骤S2:选取河涌现有的固定监测站为中心监测站;
步骤S3:建立河涌的空间坐标系,通过经度、纬度、深度建立空间坐标系,以反映河涌任一监测点;
步骤S4:选取巡检设备巡航监测,获得各空间坐标系中任一监测点的水质分布情况;
步骤S5:以温度,风速,日照、气压、湿度和降雨气象因素为特征指标,通过深度学习方法构建中心监测站的水质时间序列预测模型;
步骤S6:根据巡检设备巡航监测数据,使用LSTM模型构建不同监测时段的中心监测站与任一空间坐标点的污染映射关系模型;
步骤S7:结合水质时间序列预测模型与污染映射关系模型,对河涌任一监测点的水质进行时空预测。
2.根据权利要求1所述的一种基于多源数据的河涌水质时空预测方法,其特征在于,所述步骤S5的具体如下:
步骤S51:获取中心监测站数据和气象因素数据,并对数据完整性进行检查,补全报文缺失的时段,并将补全时段的监测值标记为NULL值,剔除缺失值/NULL值、值不变、负值、超量程、低于0.3%分位数的极小值以及超出99.7%分位数的极大值不符合现场监测情况的显著异常值;
步骤S52:将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除,所述监测仪器为获取中心监测站数据的工具;
步骤S53:对被剔除的数据以及缺失的数据采用均值插补法进行补充;
步骤S54:构建水质时间序列预测模型,将中心监测站前一监测时间的中心监测站数据与气象因素作为当前监测时间的特征指标,并输入到所述水质时间序列预测模型,通过监测时间的序列模型构建该时段的水质时间映射关系模型为:Ct=F(Ct-1,天气数据),其中Ct-1为中心监测站前一监测时间的中心监测站数据,所述水质时间映射关系模型输出当前时刻的中心监测站的中心监测站数据。
3.根据权利要求1所述的一种基于多源数据的河涌水质时空预测方法,其特征在于,所述步骤S6的具体如下:
步骤S61:获取中心监测站数据和巡航监测数据,并对数据完整性进行检查,补全报文缺失的时段,并将补全时段的监测值标记为NULL值,剔除缺失值/NULL值、值不变、负值、超量程、低于0.3%分位数的极小值以及超出99.7%分位数的极大值不符合现场监测情况的显著异常值;
步骤S62:将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除,所述监测仪器为获取中心监测站数据的工具;
步骤S63:对被剔除的数据以及缺失的数据采用均值插补法进行补充;
步骤S64:构建污染映射关系模型,某一监测时间的中心监测站的中心监测站数据与待预测的监测点的经度、纬度、深度作为该监测时间的特征指标输入污染映射关系模型,通过LSTM模型构建该时段的水质空间映射关系模型为:Ht=F(Ct,x,y,z),其中Ct为中心监测站当前时刻的中心监测站数据,x、y、z分别表示监测点的经度、纬度、深度,所述污染映射关系模型输出为监测对象在某坐标中的水质分布情况数据;
步骤S65:将收集到的中心监测站数据以及对应的气象因素作为第一训练数据、将水质分布情况数据、监测点的坐标、中心监测站数据作为第二训练数据;
第一训练数据以及第二训练数据按3:1比例随机拆分训练集与测试集,使用tensorflow的keras构造LSTM模型训练框架,采用贝叶斯优化进行模型调参,并存储最优参数空间预测模型;最后,采用MAE、RMSE这2种度量方式来对预测结果进行评估,其中
Figure FDA0003450812270000031
其中yi为真实数据,
Figure FDA0003450812270000032
为通过模型得到的预测数据。
4.根据权利要求3所述的一种基于多源数据的河涌水质时空预测方法,其特征在于,进行步骤S64和步骤S55前还需对水质分布情况数据、中心监测站数据、监测时间和气象因素进标准化归一处理。
5.根据权利要求1所述的一种基于多源数据的河涌水质时空预测方法,其特征在于,所述步骤S4中巡检设备获取水质分布情况的时间确认方式为:
获取所述中心监测站对河涌的污染物进行监测的时间点并以所述时间点作为监测时间。
6.一种基于多源数据的河涌水质时空预测系统,使用权利要求1~5任一项所述一种基于多源数据的河涌水质时空预测方法,其特征在于,包括:
对象选取模块、空间坐标建立模块、数据获取模块以及预测模型模块;
所述对象选取模块用于获取河涌排污类型,并选择排污类型为生活污水的河涌作为监测对象;
空间坐标建立模块用于立监测对象的空间坐标系,在空间坐标系中选取多个监测点;
所述数据获取模块用于在规定的监测时间内获取监测点的水质分布情况数据以及当时的气象因素,选取监测对象中现有的固定监测站为中心监测站,获取中心监测站的中心监测站数据;
所述预测模型模块用于根据所述数据获取模块获取到的数据进行训练,得出水质时间序列预测模型与污染映射关系模型。
7.根据权利要求6所述的一种基于多源数据的河涌水质时空预测系统,其特征在于,还包监测时间确定模块,所述监测时间确定模块用于获取中心监测站的对河涌的污染物进行监测的时间点并以所述时间点作为巡检设备获取水质分布情况的时间。
8.根据权利要求6所述的一种基于多源数据的河涌水质时空预测系统,其特征在于,所述预测模型模块包括:水质分布情况数据完整度检测模块、中心监测站数据完整度检测模块、数据补全模块、水质时间序列预测模型建立模块、污染映射关系模型建立模块以及测试模块;
所述水质分布情况数据完整度检测模块用于对水质分布情况数据、监测时间和气象因素的完整性以及有效性进行检查,将监测时间点内的空值以及不符合阈值规定的数据进行剔除;
中心监测站数据完整度检测模块用于将监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验非正常监测时段的数据予以剔除;
数据补全模块用于对被剔除的数据以及缺失的数据采用均值插补法进行补充;
水质时间序列预测模型建立模块用于构建水质时间序列预测模型,将中心监测站前一监测时间的中心监测站数据与气象因素作为当前监测时间的特征指标对水质时间序列预测模型进行训练;
污染映射关系模型建立模块用于构建污染映射关系模型,某一监测时间的中心监测站的中心监测站数据与待预测的监测点的经度、纬度、深度作为该监测时间的特征指标输入污染映射关系模型,对污染映射关系模型进行训练;
测试模块用于评估所述水质时间序列预测模型与污染映射关系模型对于预测结果的准确度。
9.根据权利要求7所述的一种基于多源数据的河涌水质时空预测系统,其特征在于,还包括数据归一化处理模块,所述归一化处理模块用于对数据补全模块处理后的数据进标准化归一处理。
CN202111674079.2A 2021-12-31 2021-12-31 一种基于多源数据的河涌水质时空预测方法及系统 Pending CN114398423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111674079.2A CN114398423A (zh) 2021-12-31 2021-12-31 一种基于多源数据的河涌水质时空预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111674079.2A CN114398423A (zh) 2021-12-31 2021-12-31 一种基于多源数据的河涌水质时空预测方法及系统

Publications (1)

Publication Number Publication Date
CN114398423A true CN114398423A (zh) 2022-04-26

Family

ID=81228189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111674079.2A Pending CN114398423A (zh) 2021-12-31 2021-12-31 一种基于多源数据的河涌水质时空预测方法及系统

Country Status (1)

Country Link
CN (1) CN114398423A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115629548A (zh) * 2022-12-19 2023-01-20 交通运输部天津水运工程科学研究所 基于大数据推演的船舶通过多级枢纽船闸控制方法及系统
CN118133134A (zh) * 2024-05-10 2024-06-04 河北先河环保科技股份有限公司 水华风险等级评估方法及装置、电子设备、可读存储介质
CN118296311A (zh) * 2024-05-31 2024-07-05 长江三峡集团实业发展(北京)有限公司 水文水质缺失数据的插补方法、装置和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115629548A (zh) * 2022-12-19 2023-01-20 交通运输部天津水运工程科学研究所 基于大数据推演的船舶通过多级枢纽船闸控制方法及系统
CN118133134A (zh) * 2024-05-10 2024-06-04 河北先河环保科技股份有限公司 水华风险等级评估方法及装置、电子设备、可读存储介质
CN118296311A (zh) * 2024-05-31 2024-07-05 长江三峡集团实业发展(北京)有限公司 水文水质缺失数据的插补方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN114398423A (zh) 一种基于多源数据的河涌水质时空预测方法及系统
CN110346517B (zh) 一种智慧城市工业大气污染可视化预警方法及其系统
CN113919231B (zh) 基于时空图神经网络的pm2.5浓度时空变化预测方法及系统
CN112883644B (zh) 一种动态水环境管理方法
CN114371260A (zh) 一种工业企业无组织VOCs网格化监测、扩散预警及溯源方法
CN114444259B (zh) 一种雨污管网溯源追踪系统及方法
CN115759488B (zh) 一种基于边缘计算的碳排放监测预警分析系统及其方法
CN112734694A (zh) 一种基于大数据的水质监测方法
CN110346518B (zh) 一种交通排放污染可视化预警方法及其系统
CN111428942B (zh) 基于变网格技术提取微地形因子的线路覆冰厚度预测方法
CN102819661A (zh) 一种运用区域空气质量模式的大气环境容量新算法
CN109784752A (zh) 一种三峡库区水体富营养化风险评估预警系统及其分析方法
Capizzi et al. Cascade feed forward neural network-based model for air pollutants evaluation of single monitoring stations in urban areas
CN103969415B (zh) 一种移动式水污染数据采集方法
CN113505471A (zh) 一种河流断面污染物浓度预测计算方法
CN112348290A (zh) 河流水质预测方法、装置、存储介质及设备
CN114295778B (zh) 一种基于火电厂烟气排放质量评价方法及评价系统
CN117010915A (zh) 一种基于物联网技术的碳排放目标识别及监测系统
CN116757303A (zh) 一种沉降预测方法、系统和设备
CN118533759A (zh) 一种基于地表水的水质指数预测系统
CN113780177A (zh) 一种非接触式实时原位水质监测方法
CN118174277A (zh) 基于误差分析校正的中长期风电光伏出力预测方法
CN114944048A (zh) 一种山洪监测与预警系统及方法
CN115694359A (zh) 一种基于人工智能的光伏电池板巡检系统及方法
CN114777030A (zh) 一种基于nb-iot技术的危化气体监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination