CN117851802A - 一种水质预测方法、装置及计算机可读存储介质 - Google Patents

一种水质预测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN117851802A
CN117851802A CN202311567095.0A CN202311567095A CN117851802A CN 117851802 A CN117851802 A CN 117851802A CN 202311567095 A CN202311567095 A CN 202311567095A CN 117851802 A CN117851802 A CN 117851802A
Authority
CN
China
Prior art keywords
time
series data
water quality
time series
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311567095.0A
Other languages
English (en)
Inventor
王进
李柯
陈浩然
谷飞
李领治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202311567095.0A priority Critical patent/CN117851802A/zh
Publication of CN117851802A publication Critical patent/CN117851802A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种水质预测方法、装置及计算机可读存储介质,属于水质检测技术领域。包括:获取待预测区域的时间序列数据集;将时间序列数据集输入至ResNet网络中,输出时间序列数据集中每个时间序列数据的空间特征向量;将每个时间序列数据的空间特征向量输入至BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;将每个时间序列数据的隐藏状态向量和时间特征向量输入至全连接层,输出各个时间序列数据对应监测站点在下一时刻的水质预测指标。本申请考虑了水质数据的时序性和空间依赖性,有效提取水质数据的空间特征和时间特征,提高了水质预测结果的准确性。

Description

一种水质预测方法、装置及计算机可读存储介质
技术领域
本发明涉及水质检测技术领域,尤其是指一种水质预测方法、装置及计算机可读存储介质。
背景技术
快速工业化和城市化对全球水污染产生了重大影响,特别是在以工业为主的发展中国家。但是,在加强水污染监测、预警和管理过程中,由于监测和报告设备薄弱导致缺乏水质数据,即使通过先进设备仍旧无法有效利用收集到的数据。因此,如何利用有限的水质信息进行水质预测,对于相关部门识别污染源并采取有效防治措施至关重要。
现有的水质预测方法通常依赖来自单个站点的历史数据,假设变量之间存在线性关系,例如向量自回归(VAR)和自回归积分移动平均(ARIMA)法,但是这类方法忽略了水质数据固有的长期依赖性和空间依赖性,即忽略了水质数据的时序性和空间性特点;为了解决这一问题,循环神经网络(RNN)及其变体,例如长短期记忆(LSTM)和门循环单元(GRU)已经被用于水质预测,这类神经网络能够关注水质数据的长期依赖性,即水质数据的时序性特点,但是忽略了外部气象因素、水文数据以及相邻监测站点之间的影响,即忽视了水质数据的空间依赖性。因此,由于未充分考虑水质数据的时序性特点和空间性特点,导致现有模型无法有效提取水质数据的时间特征和空间特征,从而使得预测得到的水质预测指标准确性较低。
综上所述,现有的水质预测方法由于没有兼顾水质数据的时间依赖性和空间依赖性特点,导致模型无法有效提取水质数据的时间特征和空间特征,使得预测得到的水质预测指标的准确性较低。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的水质预测方法由于没有兼顾水质数据的时间依赖性和空间依赖性特点,导致模型无法有效提取水质数据的时间特征和空间特征,使得预测得到的水质预测指标的准确性较低的问题。
为解决上述技术问题,本发明提供了一种水质预测方法,包括:
获取待预测区域的时间序列数据集;其中,所述时间序列数据集包含待预测区域中不同监测站点对应的多个时间序列数据,每个时间序列数据中均包含水质数据和气象数据在1至t时刻随时间变化的数据;
将所述时间序列数据集输入至训练好的水质预测模型中的ResNet网络中,输出所述时间序列数据集中每个时间序列数据的空间特征向量;
将每个时间序列数据的空间特征向量输入至训练好的水质预测模型中的BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
将每个时间序列数据的隐藏状态向量和时间特征向量输入至训练好的水质预测模型中的全连接层,输出各个时间序列数据对应监测站点在t+1时刻的水质预测指标。
在本发明的一个实施例中,将所述时间序列数据集输入至训练好的水质预测模型中的ResNet网络前还包括对所述时间序列数据集进行预处理,其具体包括:
使用差值填充法对时间序列数据集中的缺失值进行填充;
使用前后均值替换法对时间序列数据集中的异常值进行替换。
在本发明的一个实施例中,时间序列数据的空间特征向量为:
其中,Xi表示时间序列数据集中第i个时间序列数据的空间特征向量,表示空间特征向量Xi中第t个的空间特征值;
其中,表示第i个时间序列数据中第t个数据,φ表示ResNet网络的计算函数,表示ResNet网络中第n个重建单元输出的的特征值;
其中,表示第n个重建单元学习到的输入和权重参数Wc的计算函数,Wc表示的权重参数,F表示可训练非线性映射的残差函数;
其中,δ表示激活函数,W表示权重矩阵,b表示偏置。
在本发明的一个实施例中,时间序列数据的隐藏状态向量为:
其中,hi表示时间序列数据集中第i个时间序列数据的隐藏状态向量,concat表示合并函数,表示BiLSTM网络输出的第i个时间序列数据的前向序列,表示BiLSTM网络输出的第i个时间序列数据的后向序列,表示隐藏状态向量hi中第t个特征值;
时间序列数据的时间特征向量为:
其中,ci表示时间序列数据集中第i个时间序列数据的时间特征向量,t表示时间序列数据的长度,表示隐藏状态向量hi中第j个特征值,表示的注意力系数。
在本发明的一个实施例中,各个时间序列数据对应监测站点在t+1时刻的水质预测指标为:
其中,表示时间序列数据集中第i个时间序列数据对应的监测站点t+1时刻的水质预测指标,表示第一可训练参数,表示第二可训练参数,hi表示时间序列数据集中第i个时间序列数据的隐藏状态向量,ci表示时间序列数据集中第i个时间序列数据的时间特征向量,Wc i表示第三可训练参数。
在本发明的一个实施例中,所述训练好的水质预测模型的获取过程包括:
获取训练集中的时间序列数据集;其中,所述时间序列数据集中包含对应同一待预测区域中不同监测站点的多个时间序列数据;
将所述时间序列数据集输入至ResNet网络中,输出所述时间序列数据集中每个时间序列数据的空间特征向量;
将每个时间序列数据的空间特征向量输入至BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
将每个时间序列数据的隐藏状态向量和时间特征向量输入至全连接层,基于所述全连接层的输出构建损失函数;
利用训练集中的时间序列数据集对所述ResNet网络、所述BiLSTM网络和所述全连接层进行迭代训练,直到所述损失函数的值最小,得到训练好的ResNet网络、BiLSTM网络和全连接层,并基于训练好的ResNet网络、BiLSTM网络和全连接层得到训练好的水质预测模型。
在本发明的一个实施例中,所述损失函数为:
其中,loss表示损失函数,N表示时间序列数据集中的时间序列数据的数量,表示第i个时间序列数据对应的监测站点的水质预测指标,yi表示第i个时间序列数据对应的监测站点的水质真实指标。
在本发明的一个实施例中,利用训练集中的时间序列数据集对所述ResNet网络、所述BiLSTM网络和所述全连接层进行迭代训练包括:
基于每次迭代训练后损失函数的大小,采用反向传播算法将所述损失函数的值传递至所述ResNet网络、所述BiLSTM网络和所述全连接层;
利用小批量随机梯度下降法和Adam优化器基于所述损失函数的值更新所述ResNet网络、所述BiLSTM网络和所述全连接层中的参数;
重新获取训练集中的时间序列数据集对所述ResNet网络、所述BiLSTM网络和所述全连接层进行迭代训练,直到所述损失函数的值最小。
本发明还提供了一种水质预测装置,包括:
数据获取模块,用于获取待预测区域的时间序列数据集;其中,所述时间序列数据集包含待预测区域中不同监测站点对应的多个时间序列数据,每个时间序列数据中均包含水质数据和气象数据在1至t时刻随时间变化的数据;
空间特征向量提取模块,用于将所述时间序列数据集输入至训练好的水质预测模型中的ResNet网络中,输出所述时间序列数据集中每个时间序列数据的空间特征向量;
时间特征向量提取模块,用于将每个时间序列数据的空间特征向量输入至训练好的水质预测模型中的BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
水质预测模块,用于将每个时间序列数据的隐藏状态向量和时间特征向量输入至训练好的水质预测模型中的全连接层,输出各个时间序列数据对应监测站点在t+1时刻的水质预测指标。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述水质预测方法的步骤。
本发明提供的水质预测方法将待预测区域中不同监测站点对应的时间序列数据作为一个时间序列数据集输入至ResNet网络中,由于不同时间序列数据对应不同监测站点,因此,ResNet网络提取的每个时间序列数据的空间特征向量能够充分反映不同监测站点之间的影响,考虑了水质数据的空间性特点;另外,本申请还将每个时间序列数据的空间特征向量输入至BiLSTM网络以提取时间序列数据的时间特征向量,充分考虑了水质数据的时序性特点,最后将提取到的时间序列数据的时间特征向量输入至全连接层,得到待预测区域中每个监测站点的水质预测指标。除此之外,本申请使用ResNet网络和BiLSTM网络形成级联学习架构,提高了特征提取的有效性,降低了模型的复杂性。本申请提供的水质预测方法充分考虑了水质数据的时间依赖性和空间依赖性,有效提取了水质数据的空间特征和时间特征,提高了水质预测结果的准确性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1为本发明提供的水质预测方法流程图;
图2为本发明提供的训练好的水质预测模型结构示意图;
图3为本申请提供的模型与RCL-Learning模型对于重铬锰酸钾浓度的预测结果与真实结果的对比示意图;其中,图3中的(a)所示为两个模型对重铬锰酸钾浓度的预测结果与真实结果的曲线示意图,图3中的(b)所示为两个模型的预测和观测散点拟合示意图;
图4为本申请提供的模型与RCL-Learning模型对于溶解氧含量的预测结果与真实结果的对比示意图;其中,图4中的(a)所示为两个模型对溶解氧含量的预测结果与真实结果的曲线示意图,图4中的(b)所示为两个模型的预测和观测散点拟合示意图;
图5为本申请提供的模型与RCL-Learning模型对于含锑量的预测结果与真实结果的对比示意图;其中,图5中的(a)所示为两个模型对含锑量的预测结果与真实结果的曲线示意图,图5中的(b)所示为两个模型的预测和观测散点拟合示意图;
图6为本申请提供的模型与RCL-Learning模型对于氨氮量的预测结果与真实结果的对比示意图;其中,图6中的(a)所示为两个模型对氨氮量的预测结果与真实结果的曲线示意图,图6中的(b)所示为两个模型的预测和观测散点拟合示意图;
图7为本申请提供的模型与RCL-Learning模型对于氢离子浓度的预测结果与真实结果的对比示意图;其中,图7中的(a)所示为两个模型对氢离子浓度的预测结果与真实结果的曲线示意图,图7中的(b)所示为两个模型的预测和观测散点拟合示意图;
图8~图11分别为本申请提供的模型与RCL-Learning模型在待预测区域的不同监测点对于高锰酸钾指数的预测结果与真实结果的对比示意图;其中,图8~图11中的(a)均表示两个模型对高锰酸钾指数的预测浓度与真实浓度的曲线示意图,图8~图11中的(b)均表示两个模型的预测和观测散点拟合示意图;
图12为本申请提供的模型与RCL-Learning模型对于高锰酸钾指数的长期预测结果与真实结果的对比示意图;
图13为本申请提供的模型与RCL-Learning模型的预测和观测散点拟合示意图,其中,图13中的(a)为RCL-Learning模型的预测和观测散点拟合示意图,图13中的(b)为本申请提供模型的预测和观测散点拟合示意图;
图14为本申请提供的水质预测装置结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参阅图1,图1所示为本申请提供的一种水质预测方法流程图,其具体包括:
S10:获取待预测区域的时间序列数据集;其中,时间序列数据集包含待预测区域中不同监测站点对应的多个时间序列数据,每个时间序列数据中均包含水质数据和气象数据在1至t时刻随时间变化的数据;
示例地,若待预测区域中包括5个监测站点,则将每一个监测站点的水质数据和气象数据在1至t时刻随时间变化的数据作为一个时间序列数据,基于5个监测站点对应的5个时间序列数据得到时间序列数据集;
可选地,在本申请的一些实施例中,水质数据包含溶解氧含量(DO)、高锰酸钾指数(CODmn)、氨氮量(NH)、含磷量(TP)、含氮量(TN)、含锑量(Sb)、氢离子浓度(PH)、电导率(EC)和重铬酸盐指数(CODcr)。
S20:将时间序列数据集输入至训练好的水质预测模型中的ResNet网络中,输出时间序列数据集中每个时间序列数据的空间特征向量;
S30:将每个时间序列数据的空间特征向量输入至训练好的水质预测模型中的BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
S40:将每个时间序列数据的隐藏状态向量和时间特征向量输入至训练好的水质预测模型中的全连接层,输出各个时间序列数据对应监测站点在t+1时刻的水质预测指标。
本申请提供的水质预测方法将待预测区域中不同监测站点对应的时间序列数据作为一个时间序列数据集输入至ResNet网络中,由于不同时间序列数据对应不同监测站点,因此,ResNet网络提取的每个时间序列数据的空间特征向量能够充分反映不同监测站点之间的影响,考虑了水质数据的空间性特点;另外,本申请还将每个时间序列数据的空间特征向量输入至BiLSTM网络以提取时间序列数据的时间特征向量,充分考虑了水质数据的时序性特点,最后将提取到的时间序列数据的时间特征向量输入至全连接层,得到待预测区域中每个监测站点的水质预测指标。除此之外,本申请使用ResNet网络和BiLSTM网络形成级联学习架构,提高了特征提取的有效性,降低了模型的复杂性。本申请提供的水质预测方法充分考虑了水质数据的时间依赖性和空间依赖性,有效提取了水质数据的空间特征和时间特征,提高了水质预测结果的准确性。
可选地,为了使得水质预测指标更准确,本申请还对时间序列数据集进行了预处理,具体地,在本申请的一些实施例中,步骤S20前还包括:
使用差值填充法对时间序列数据集中的缺失值进行填充;
使用前后均值替换法对时间序列数据集中的异常值进行替换。
进一步地,步骤S20中提取到的各个时间序列数据的空间特征向量可以表示为:
其中,Xi表示时间序列数据集中第i个时间序列数据的空间特征向量,表示空间特征向量Xi中第t个的空间特征值;
其中,表示第i个时间序列数据中第t个数据,φ表示ResNet网络的计算函数,表示ResNet网络中第n个重建单元输出的的特征值;
其中,表示第n个重建单元学习到的输入和权重参数Wc的计算函数,Wc表示的权重参数,F表示可训练非线性映射的残差函数;
其中,δ表示激活函数,对进行非线性变换,W表示权重矩阵,b表示偏置,为常数项。
具体地,在本申请的一些实施例中,ResNet网络通过具有不同内核大小的卷积层实现,多个卷积层之间通过残差互连,增强残差单元采用尺寸为2*2和3*3的卷积滤波器,每个堆叠重建单元中的第一个增强残差单元通过卷积或步幅为2的池化进行下采样,这样的结构可以解决深度网络训练中的梯度消失和梯度爆炸问题,从而增强模型对空间特征提取的表达能力。
进一步地,利用ResNet网络提取到各个时间序列数据的空间特征向量后,使用BiLSTM网络提取各个时间序列数据的时间特征向量。
具体地,LSTM网络中具有遗忘门、输入门和输出门,每个LSTM单元输出三个输入(Xt,Ht-1,ct-1),并产生三个输出(ct,Ht,ot),状态ct充当长期记忆,积累过去和现在的信息,Ht充当短期记忆,保留更多最近的信息,LSTM的运行机制由下列方程描述:
ft=σ(Wf·[Ht-1,Xt]+bf),
it=σ(Wi·[Ht-1,Xt]+bi),
ct=ft*ct-1+it*tanh(Wc·[Ht-1,Xt]+bc),
ot=σ(Wo·[Ht-1,Xt]+bo),
Ht=ot*tanh(ct),
基于上述LSTM网络的输出状态Ht,由于在影响输出的信息不仅来自过去的状态,还包括来自预期的未来状态,因此,本申请实施例中使用双向长短期记忆网络BiLSTM,BiLSTM由前向LSTM和后向LSTM组成而成,其将前向序列Hft和后向序列Hbt,组成作为输出的隐藏状态向量。
具体地,步骤S30中各个时间序列数据的隐藏状态向量为:
其中,hi表示时间序列数据集中第i个时间序列数据的隐藏状态向量,concat表示合并函数,表示BiLSTM网络输出的第i个时间序列数据的前向序列,表示BiLSTM网络输出的第i个时间序列数据的后向序列,表示隐藏状态向量hi中第t个特征值;
时间序列数据的时间特征向量为:
其中,ci表示时间序列数据集中第i个时间序列数据的时间特征向量,t表示时间序列数据的长度,表示隐藏状态向量hi中第j个特征值,表示的注意力系数。
本申请中引入注意力机制对BiLSTM网络输出的隐藏状态向量进行加权求和,并且,隐藏状态向量中不同时间步对应的注意力系数不同,使得模型在处理时间特征向量时更多地关注不同时间步的不同部分,而不是简单地对整个向量作相同的处理。
进一步地,步骤S40中各个时间序列数据对应监测站点在t+1时刻的水质预测指标为:
其中,表示时间序列数据集中第i个时间序列数据对应的监测站点t+1时刻的水质预测指标,表示第一可训练参数,表示第二可训练参数,hi表示时间序列数据集中第i个时间序列数据的隐藏状态向量,ci表示时间序列数据集中第i个时间序列数据的时间特征向量,Wc i表示第三可训练参数。
在本申请的一些实施例中,当得到各个监测站点在t+1时刻的水质预测指标后,将得到的t+1时刻的水质预测指标作为下一次预测的输入数据,通过设置模型的参数,将每一次预测得到的水质预测指标作为下一次预测的输入,可以输出未来预设时间段的水质预测指标。
示例地,作为本申请的具体示例,可以通过设置模型参数输出未来τ个时刻的预测水质指标。
具体地,本申请中训练好的水质预测模型的获取过程包括:
步骤1:获取训练集中的时间序列数据集;其中,时间序列数据集中包含对应同一待预测区域中不同监测站点的多个时间序列数据;
步骤2:将时间序列数据集输入至ResNet网络中,输出时间序列数据集中每个时间序列数据的空间特征向量;
步骤3:将每个时间序列数据的空间特征向量输入至BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
步骤4:将每个时间序列数据的隐藏状态向量和时间特征向量输入至全连接层,基于全连接层的输出构建损失函数;
具体地,损失函数为:
其中,loss表示损失函数,N表示时间序列数据集中的时间序列数据的数量,表示第i个时间序列数据对应的监测站点的水质预测指标,yi表示第i个时间序列数据对应的监测站点的水质真实指标;
步骤5:利用训练集中的时间序列数据集对ResNet网络、BiLSTM网络和全连接层进行迭代训练,直到损失函数的值最小,得到训练好的ResNet网络、BiLSTM网络和全连接层,并基于训练好的ResNet网络、BiLSTM网络和全连接层得到训练好的水质预测模型,如图2所示为本申请提供的训练好的水质预测模型。
示例地,作为本申请的具体示例,训练集的获取过程包括:
收集多个区域中不同监测站点时间跨度5年以上的水质和气象随时间变化的时间序列数据作为数据集;其中水质随时间变化的数据至少包括:溶解氧含量(DO)、高锰酸钾指数(CODmn)、氨氮量(NH)、含磷量(TP)、含氮量(TN)、含锑量(Sb)、氢离子浓度(PH)、电导率(EC)和重铬酸盐指数(CODcr);
使用插值填充法对数据集中的缺失值进行填充,使用前后均值替换法对数据集中的异常值进行替换,使用pandas移动窗口函数rolling对数据集中的每个时间序列数据进行平滑、趋势分析和周期性分析;
利用留数法对数据集进行划分,得到训练集、测试集和验证集。
具体地,在本申请的一些实施例中,采用反向传播算法促进模型中网络的参数更新,具体地,将每次迭代训练后损失函数的值返回至ResNet网络、BiLSTM网络和全连接层;
利用小批量随机梯度下降法与Adam优化器法调整ResNet网络、BiLSTM网络和全连接层中的参数;
重新获取训练集中的时间序列数据集,对ResNet网络、BiLSTM网络和全连接层进行迭代训练,直到损失函数的值最小。
为了验证本申请提供的水质检测模型的高效性与准确性,下面提供本模型与八个基准模型的性能对比数据;其中,八个基准模型分别为:ARIMA、LSTM、AT-LSTM、BiLSTM、CNN-LSTM、ResNet-LSTM、DA-RNN、RCL-Learning。
本实施例采用四种统计指标以便全面了解各个模型在测试数据集上预测的准确性和可靠性,四种统计指标分别为:均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和准确度(Acc);
其中,每个统计指标的计算公式为:
如表2所示为本申请提供的水质预测模型(WaterPre)与八个基准模型的四种统计指标对比数据:
表2
表中τ表示对待预测区域未来τ小时的水质预测,从表2中的数据可以看出,本申请提供的水质预测模型的MAE在1.7438~1.9143之间变化,RMSE在1.8427~3.1724之间变化,与性能位于次优的RCL模型相比,本申请提供模型的RMSE的最大值和最小值分别提高了5.7%和18.7%,MAE的最大值和最小值分别提高了3.8%和28.7%。
请参阅图3,图3所示为本申请提供的模型与RCL-Learning模型对于相同待预测区域中的重铬锰酸钾(CODcr)的预测结果与真实结果的对比示意图;其中,图中的(a)所示为两个模型对重铬锰酸钾的预测浓度与真实浓度的曲线示意图,图中Ground Truth曲线表示重铬锰酸钾的真实浓度;图中的(b)所示为两个模型的预测和观测散点拟合示意图;
请参阅图4,图4所示为本申请提供的模型与RCL-Learning模型对于相同待预测区域中的溶解氧含量(DO)的预测结果与真实结果的对比示意图;其中,图中的(a)所示为两个模型对溶解氧含量的预测浓度与真实浓度的曲线示意图,图中的(b)所示为两个模型的预测和观测散点拟合示意图;
请参阅图5,图5所示为本申请提供的模型与RCL-Learning模型对于相同待预测区域中的含锑量(Sb)的预测结果与真实结果的对比示意图;其中,图中的(a)所示为两个模型对溶解氧含量的预测浓度与真实浓度的曲线示意图,图中的(b)所示为两个模型的预测和观测散点拟合示意图;
请参阅图6,图6所示为本申请提供的模型与RCL-Learning模型对于相同待预测区域中的氨氮量(NH)的预测结果与真实结果的对比示意图;其中,图中的(a)所示为两个模型对氨氮量的预测浓度与真实浓度的曲线示意图,图中的(b)所示为两个模型的预测和观测散点拟合示意图;
请参阅图7,图7所示为本申请提供的模型与RCL-Learning模型对于相同待预测区域中的氢离子浓度(PH)的预测结果与真实结果的对比示意图;其中,图中的(a)所示为两个模型对氢离子的预测浓度与真实浓度的曲线示意图,图中的(b)所示为两个模型的预测和观测散点拟合示意图;
从图3至图7中可以看出,本申请提供的模型对于重铬锰酸钾(CODcr)、溶解氧含量(DO)、含锑量(Sb)、氨氮量(NH)和氢离子浓度(PH)的浓度预测结果均更接近真实结果,且性能均优于RCL-Learning模型。
请参阅图8~图11,图8~图11所示分别为本申请提供的模型与RCL-Learning模型在待预测区域的不同监测点对于高锰酸钾指数(CODmn)的预测结果与真实结果的对比示意图;其中,图8~图11中的(a)均表示两个模型对高锰酸钾指数的预测浓度与真实浓度的曲线示意图,图8~图11中的(b)均表示两个模型的预测和观测散点拟合示意图;
从图中可以看出,本申请提供的模型在待预测区域的不同监测点上的水质预测结果的准确性仍然优于RCL-Learning模型。
请参阅图12,图12所示为本申请提供的模型与RCL-Learning模型对于高锰酸钾指数(CODmn)的长期预测结果与真实结果的对比示意图;
从图12中可以看出,即使在长期预测任务中,本申请提供的水质预测模型预测得到的水质预测结果仍然更接近于真实结果,表明本申请提供的模型在长期预测任务中仍然具有更优的性能。
请参阅图13,图13所示为本申请提供的模型与RCL-Learning模型的预测和观测散点拟合示意图,其中,图中的(a)为RCL-Learning模型的预测和观测散点拟合示意图,图中的(b)为本申请提供模型的预测和观测散点拟合示意图;
从图13中可以看出,本申请提供的模型得到的预测散点图聚合度更高,且其拟合优度R2更高,表明模型得到的预测结果更接近预期值,其所表示的自变量和因变量之间的关系和实际情况更符合。
基于上述实施例提供的水质预测方法,本申请实施例还提供了一种水质预测装置,如图14所示,其具体包括:
数据获取模块10,用于获取待预测区域的时间序列数据集;其中,时间序列数据集包含待预测区域中不同监测站点对应的多个时间序列数据,每个时间序列数据中均包含水质数据和气象数据在1至t时刻随时间变化的数据;
空间特征向量提取模块20,用于将时间序列数据集输入至训练好的水质预测模型中的ResNet网络中,输出时间序列数据集中每个时间序列数据的空间特征向量;
时间特征向量提取模块30,用于将每个时间序列数据的空间特征向量输入至训练好的水质预测模型中的BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
水质预测模块40,用于将每个时间序列数据的隐藏状态向量和时间特征向量输入至训练好的水质预测模型中的全连接层,输出各个时间序列数据对应监测站点在t+1时刻的水质预测指标。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的水质预测方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种水质预测方法,其特征在于,包括:
获取待预测区域的时间序列数据集;其中,所述时间序列数据集包含待预测区域中不同监测站点对应的多个时间序列数据,每个时间序列数据中均包含水质数据和气象数据在1至t时刻随时间变化的数据;
将所述时间序列数据集输入至训练好的水质预测模型中的ResNet网络中,输出所述时间序列数据集中每个时间序列数据的空间特征向量;
将每个时间序列数据的空间特征向量输入至训练好的水质预测模型中的BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
将每个时间序列数据的隐藏状态向量和时间特征向量输入至训练好的水质预测模型中的全连接层,输出各个时间序列数据对应监测站点在t+1时刻的水质预测指标。
2.根据权利要求1所述的水质预测方法,其特征在于,将所述时间序列数据集输入至训练好的水质预测模型中的ResNet网络前还包括对所述时间序列数据集进行预处理,其具体包括:
使用差值填充法对时间序列数据集中的缺失值进行填充;
使用前后均值替换法对时间序列数据集中的异常值进行替换。
3.根据权利要求1所述的水质预测方法,其特征在于,时间序列数据的空间特征向量为:
其中,Xi表示时间序列数据集中第i个时间序列数据的空间特征向量,表示空间特征向量Xi中第t个的空间特征值;
其中,表示第i个时间序列数据中第t个数据,φ表示ResNet网络的计算函数,表示ResNet网络中第n个重建单元输出的的特征值;
其中,表示第n个重建单元学习到的输入和权重参数Wc的计算函数,Wc表示的权重参数,F表示可训练非线性映射的残差函数;
其中,δ表示激活函数,W表示权重矩阵,b表示偏置。
4.根据权利要求1所述的水质预测方法,其特征在于,时间序列数据的隐藏状态向量为:
其中,hi表示时间序列数据集中第i个时间序列数据的隐藏状态向量,concat表示合并函数,表示BiLSTM网络输出的第i个时间序列数据的前向序列,表示BiLSTM网络输出的第i个时间序列数据的后向序列,表示隐藏状态向量hi中第t个特征值;
时间序列数据的时间特征向量为:
其中,ci表示时间序列数据集中第i个时间序列数据的时间特征向量,t表示时间序列数据的长度,表示隐藏状态向量hi中第j个特征值,表示的注意力系数。
5.根据权利要求1所述的水质预测方法,其特征在于,各个时间序列数据对应监测站点在t+1时刻的水质预测指标为:
其中,表示时间序列数据集中第i个时间序列数据对应的监测站点t+1时刻的水质预测指标,表示第一可训练参数,表示第二可训练参数,hi表示时间序列数据集中第i个时间序列数据的隐藏状态向量,ci表示时间序列数据集中第i个时间序列数据的时间特征向量,表示第三可训练参数。
6.根据权利要求1所述的水质预测方法,其特征在于,所述训练好的水质预测模型的获取过程包括:
获取训练集中的时间序列数据集;其中,所述时间序列数据集中包含对应同一待预测区域中不同监测站点的多个时间序列数据;
将所述时间序列数据集输入至ResNet网络中,输出所述时间序列数据集中每个时间序列数据的空间特征向量;
将每个时间序列数据的空间特征向量输入至BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
将每个时间序列数据的隐藏状态向量和时间特征向量输入至全连接层,基于所述全连接层的输出构建损失函数;
利用训练集中的时间序列数据集对所述ResNet网络、所述BiLSTM网络和所述全连接层进行迭代训练,直到所述损失函数的值最小,得到训练好的ResNet网络、BiLSTM网络和全连接层,并基于训练好的ResNet网络、BiLSTM网络和全连接层得到训练好的水质预测模型。
7.根据权利要求6所述的水质预测方法,其特征在于,所述损失函数为:
其中,loss表示损失函数,N表示时间序列数据集中的时间序列数据的数量,表示第i个时间序列数据对应的监测站点的水质预测指标,yi表示第i个时间序列数据对应的监测站点的水质真实指标。
8.根据权利要求6所述的水质预测方法,其特征在于,利用训练集中的时间序列数据集对所述ResNet网络、所述BiLSTM网络和所述全连接层进行迭代训练包括:
采用反向传播算法将每次迭代训练后损失函数的值传递至所述ResNet网络、所述BiLSTM网络和所述全连接层;
利用小批量随机梯度下降法和Adam优化器基于所述损失函数的值更新所述ResNet网络、所述BiLSTM网络和所述全连接层中的参数;
重新获取训练集中的时间序列数据集对所述ResNet网络、所述BiLSTM网络和所述全连接层进行迭代训练,直到所述损失函数的值最小。
9.一种水质预测装置,其特征在于,包括:
数据获取模块,用于获取待预测区域的时间序列数据集;其中,所述时间序列数据集包含待预测区域中不同监测站点对应的多个时间序列数据,每个时间序列数据中均包含水质数据和气象数据在1至t时刻随时间变化的数据;
空间特征向量提取模块,用于将所述时间序列数据集输入至训练好的水质预测模型中的ResNet网络中,输出所述时间序列数据集中每个时间序列数据的空间特征向量;
时间特征向量提取模块,用于将每个时间序列数据的空间特征向量输入至训练好的水质预测模型中的BiLSTM网络中,输出每个时间序列数据的隐藏状态向量,基于每个时间序列数据的隐藏状态向量计算每个时间序列数据的时间特征向量;
水质预测模块,用于将每个时间序列数据的隐藏状态向量和时间特征向量输入至训练好的水质预测模型中的全连接层,输出各个时间序列数据对应监测站点在t+1时刻的水质预测指标。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的水质预测方法的步骤。
CN202311567095.0A 2023-11-22 2023-11-22 一种水质预测方法、装置及计算机可读存储介质 Pending CN117851802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311567095.0A CN117851802A (zh) 2023-11-22 2023-11-22 一种水质预测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311567095.0A CN117851802A (zh) 2023-11-22 2023-11-22 一种水质预测方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117851802A true CN117851802A (zh) 2024-04-09

Family

ID=90547033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311567095.0A Pending CN117851802A (zh) 2023-11-22 2023-11-22 一种水质预测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117851802A (zh)

Similar Documents

Publication Publication Date Title
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
Wang et al. A compound framework for wind speed forecasting based on comprehensive feature selection, quantile regression incorporated into convolutional simplified long short-term memory network and residual error correction
CN111027686B (zh) 一种滑坡位移的预测方法、装置及设备
CN112598248A (zh) 负荷预测方法、装置、计算机设备和存储介质
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN113807951A (zh) 一种基于深度学习的交易数据趋势预测方法和系统
CN113988210A (zh) 结构监测传感网失真数据修复方法、装置及存储介质
CN115545334B (zh) 土地利用类型预测方法、装置、电子设备及存储介质
CN116166642A (zh) 基于引导信息的时空数据填补方法、系统、设备及介质
CN118134288A (zh) 一种基于高斯模型的群集电动车灵活性刻画方法及系统
CN116706907B (zh) 基于模糊推理的光伏发电预测方法和相关设备
CN116628444A (zh) 一种基于改进元学习的水质预警方法
CN114202110B (zh) 一种基于rf-xgboost的业务故障预测方法及装置
CN114676887A (zh) 一种基于图卷积stg-lstm的河流水质预测方法
CN117851802A (zh) 一种水质预测方法、装置及计算机可读存储介质
CN114330104A (zh) 一种航天器在轨空间环境异常风险预测方法
CN118300104B (zh) 基于图神经网络的分布式光伏功率预测方法、系统、电子设备及存储介质
Wei et al. Parameter Prediction of Marine Seawater Cooling System Based on Chaos-Elman Combined Model
CN113485986B (zh) 一种电力数据修复方法
CN116362628B (zh) 电力系统运行状态分析评估方法和装置
CN118330469B (zh) 基于时态图神经网络的锂离子电池健康状态估计方法
CN117577981B (zh) 光伏发电储能控制方法及系统
CN117526316B (zh) 一种基于GCN-CBAM-BiGRU组合模型的负荷预测方法
CN117789129A (zh) 基于马尔可夫转换场的综合能源态势感知方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination