CN113887119B - 一种基于sarima-lstm的河流水质预测方法 - Google Patents

一种基于sarima-lstm的河流水质预测方法 Download PDF

Info

Publication number
CN113887119B
CN113887119B CN202010634884.1A CN202010634884A CN113887119B CN 113887119 B CN113887119 B CN 113887119B CN 202010634884 A CN202010634884 A CN 202010634884A CN 113887119 B CN113887119 B CN 113887119B
Authority
CN
China
Prior art keywords
sequence
sarima
water quality
model
river water
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010634884.1A
Other languages
English (en)
Other versions
CN113887119A (zh
Inventor
王宁
周晓磊
胡衍坤
刘枢
姜秋俚
张楠
王继娜
金继鑫
宋春梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Computing Technology of CAS
Original Assignee
Shenyang Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Computing Technology of CAS filed Critical Shenyang Institute of Computing Technology of CAS
Priority to CN202010634884.1A priority Critical patent/CN113887119B/zh
Publication of CN113887119A publication Critical patent/CN113887119A/zh
Application granted granted Critical
Publication of CN113887119B publication Critical patent/CN113887119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于SARIMA‑LSTM的河流水质预测方法。该方法首先使用SARIMA模型对河流水质参数进行线性拟合及预测,得到预测值并计算残差。然后再使用LSTM神经网络进行残差序列的训练及预测,最后将两次的预测值相加得到最终的预测结果。河流水质监测数据具有线性特征和非线性特征,SARIMA模型能够很好的提取水质数据序列中的线性部分,从而可以加快LSTM神经网络模型训练的收敛速度,提高模型对非线性部分的预测能力以及降低出现局部收敛的可能性。本发明方法通过相关实验验证了方法的有效性。

Description

一种基于SARIMA-LSTM的河流水质预测方法
技术领域
河流为人类提供了赖以生存的水资源以及水产资源。随着工业化进程的不断加快,大量工业废水、农业废水以及生活废水排入河流,导致河流水环境受到严重破坏。水污染日益加重,已经成为制约人类社会经济发展的重要因素。由于河流水质变化与气候环境、季节更替以及人类活动密切相关,因此河流水质变化呈现出渐变性,非线性,和不确定性等特点。为了更好的了解水质情况,保护河流水资源,水质预测显得尤为重要。传统的水质预测模型主要包括神经网络模型、灰色系统理论模型、回归分析模型以及时间序列模型等。现有的河流水质预测技术存在预测精度低,泛化能力弱等问题。
SARIMA模型是在ARIMA模型的基础上添加了季节项,是经典的时间序列预测方法,能够较好的体现时间序列数据中的线性特征,主要针对具有季节性或周期性变化的时间序列进行建模,已经被广泛应用到金融、气候、医疗等领域。但是,单一的SARIMA模型对河流水质的非线性变化难以充分有效的处理,需要结合其他算法。在深度学习算法中,LSTM模型由于其特殊的网络结构,在处理时间序列问题时,比传统的神经网络更快更易收敛到最优解,非常适合处理河流水质指标这种时序数据。因此,本发明建立了SARIMA与LSTM组合模型进行河流水质预测。SARIMA模型能够很好的提取出水质数据序列中的线性部分,从而可以加快LSTM神经网络模型训练的收敛速度,提高模型对非线性部分的预测能力以及降低出现局部收敛的可能性。
发明内容
针对现有河流水质预测技术方法中存在的不足之处,本发明主要解决的技术问题是提高河流水质预测的准确度,增强模型的泛化能力。
本发明为实现上述目的所采用的技术方案是:
一种基于SARIMA-LSTM的河流水质预测方法,包括以下步骤:
1)从数据库中提取河流水质指标监测数据;
2)对河流水质指标监测数据预处理,处理数据中的异常值和缺失值,并将数据转换成时间序列Zt
3)对时间序列进行单位根检验即ADF检验,判断时间序列是否为平稳序列,如果是,则进行步骤4),否则,对时间序列进行d阶差分从而使时间序列平稳化;
4)对平稳化后的时间序列绘制自相关图和偏自相关图,并根据自相关图初始化模型参数q的初始值,根据偏自相关图初始化参数p的值,同时提取时间序列的季节效应初始化模型参数s的值;
5)通过网格搜索算法并依据AIC准则,得到SARIMA(p,d,q)×(P,D,Q)s最优的参数组合;
6)对SARIMA模型进行训练,并使用SARIMA模型中的预测函数对模型进行预测,得到时间序列的拟合预测序列X′t
7)将用于表示河流水质指标监测数据的时间序列Zt减去SARIMA模型预测序列X′t得到预测值的残差序列Et
8)将残差序列Et以滑动窗口的形式切分成N段长度为t的序列,并用LSTM模型对残差序列进行残差预测,得到预测序列E′t
9)计算X′t加E′t的和即最终预测序列Z′t
10)判断最终预测序列Z′t是否满足最大误差要求或者LSTM模型达到最大迭代次数,如果是,则输出最终预测序列Z′t,用于表示河流水质,否则调整p、q的值,重新回到步骤4)。
所述处理数据中的异常值和缺失值具体为:对数据进行离群点检测,将检测到的异常值视为缺失值,使用拉格朗日插值法对缺失值进行填补。
所述判断时间序列是否为平稳序列具体为:时间序列经ADF检验后,若得到的检验统计量的值小于阈值,则判断该时间序列为平稳序列,否则,判断该时间序列为非平稳序列。
判断最终预测序列误差为:判断最终预测序列中,预测值的均方误差、均方根误差以及平均百分比误差。
所述河流水质指标监测数据包括:化学需氧量、氨氮、PH值、高锰酸盐指数、溶解氧、总磷、氟化物中的一种。
所述SARIMA(p,d,q)×(P,D,Q)s模型中,P与p的值相同,D与d的值相同,Q与q的值相同。
步骤5)具体为:
根据步骤4)中得到的p和q的初始值,确定参数值的范围,该范围最小值为0,最大值分别为p,q值的最大值,然后使用网格搜索算法,遍历参数p和q的所有不同组合,该算法的输入为时间序列以及其中的一种参数组合,并根据每一种参数组合得出对时间序列的不同拟合值;通过AIC准则计算每一个拟合值的AIC函数值,选取令AIC函数值最小的参数组合作为最优的参数组合,从而得到SARIMA(p,d,q)×(P,D,Q)s模型。
本发明具有以下有益效果及优点:
1.本发明提供了一种新的有效的河流水质预测方法,使得河流水质预测结果更加准确,弥补了传统水质预测方法预测精度低的不足,为保护河流水环境提供了强有力的数据支持。
2.本发明结合了SARIMA模型和LSTM神经网络,能够有效的克服传统时间序列模型难以定阶和模型误差高的问题,同时可以有效解决神经网络模型局部收敛和过拟合问题,增强了模型预测的准确性,提高了模型的泛化能力。
附图说明
图1为本发明SARIMA-LSTM组合模型方法预测河流水质流程图;
图2为SARIMA模型化学需氧量拟合预测图;
图3为SARIMA-LSTM组合模型化学需氧量拟合预测图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,一种基于SARIMA-LSTM的河流水质预测方法,包括以下步骤:
步骤1:获取河流水质指标监测历史数据;
步骤2:进行数据预处理,处理数据中的异常值和缺失值,并将数据转换成时间序列数据Zt
步骤3:对原始时间序列数据进行ADF检验,判断序列是否平稳,一般当p<0.01时为平稳序列,如果序列不平稳则进行d阶差分从而使序列平稳化;
步骤4:根据原始时间序列绘制自相关(ACF)图和偏自相关(PACF)图初始化模型参数p值和q值,提取原始时间序列的季节效应初始化模型参数s的值;
步骤5:根据步骤4中得到的p和q的初始值,确定参数值的范围,该范围最小值为0,最大值为p,q值中的最大值,然后使用网格搜索算法,遍历探索参数的不同组合,该算法的输入为原始时间序列以及其中的一种参数组合,网格搜索算法会根据每一种参数组合得出对原始序列的不同拟合值。AIC准则是拟合精度和参数个数的加权函数,使得AIC函数达到最小的模型参数即为最优模型参数组合。根据AIC准则即可判断出最优的参数组合,从而可以得到最终的SARIMA(p,d,q)×(P,D,Q)s模型
步骤6:模型训练并进行预测,得到原始时间序列的拟合预测序列X′t
步骤7:用河流水质指标实际监测数据序列Zt减去SARIMA模型预测序列X′t得到预测值的残差序列Et
步骤8:将残差序列Et以滑动窗口的形式切分成N段长度为t的序列,然后用LSTM模型进行残差预测,得到预测序列E′t
步骤9:计算X′t加上E′t的和从而得到最终预测值Z′t
步骤10:判断是否满足最大误差要求或者模型达到最大迭代次数,否则调整p、q的值,重新回到步骤4。
实例分析1:
步骤1获取河流水质指标检测历史数据:为了说明本算法的有效性和准确性,下面我们以细河高台子断面2013年1月至2020年3月河流水质指标化学需氧量监测数据为例,建立SARIMA-LSTM组合模型进行预测分析。
步骤2数据预处理:首先对原始数据进行离群点检测,将异常值视为缺失值,从而使用拉格朗日插值法对缺失值进行填补,然后将原始数据转换成时间序列数据。取2013年1月至2018年12月数据作为模型的训练集,2019年1月至12月数据作为模型的测试集,2020年1月至3月数据作为模型预测的验证集。
步骤3进行ADF检验:经检测可知,检验统计量的值均小于对应的临界值,满足p<0.01的条件,说明原始时间序列为稳定序列,不需要进行差分操作。
步骤4模型定阶:绘制训练集数据自相关图和偏自相关图,观察可得初始化p值为1,q值也为1。根据从数据中提取的季节项可知,季节性周期参数s为12。
步骤5网格搜索算法确定最优参数组合:应用网格搜索算法并依据AIC准则可得SARIMA模型最优参数组合为SARIMA(1,0,1)×(1,0,1,12)。
步骤6训练SARIMA模型并进行预测,得到训练数据的拟合序列以及预测值。
步骤7用原始序列减去拟合序列得到预测的残差序列
步骤8将残差序列以滑动窗口的形式切分成长度为5的序列,得到17段序列,然后建立LSTM模型进行训练和预测,得到预测序列。
步骤9SARIMA模型的预测序列加上LSTM残差预测序列求和得到最终的预测值。
步骤10计算组合模型预测值的均方误差(MSE)、均方根误差(RMSE)以及平均百分比误差(MAPE),判断可知模型达到了误差要求。
最终单独使用SARIMA模型对上述数据进行验证测试,并计算模型的预测误差从而做对比分析,上述实验结果如图2、图3和表1所示。
表1
由表1可知,组合模型相较于单一SARIMA模型对化学需氧量的预测误差有了明显的降低,预测精度得到了有效的提高。
为了验证LSTM模型在处理经SARIMA模型处理后的时间序列时的效率,本次实验同样进行比较。表2是化学需氧量数据进行预测时的模型参数的比较
表2
由表2可知,原始河流水质数据在经过SARIMA模型处理后,LSTM模型的收敛速度变得更快。
综上可知,本发明方法可以有效的提高传统SARIMA时间序列模型的预测准确度,同时还可以提高LSTM神经网络模型训练时收敛速度,从而防止过拟合现象,提高了模型的泛化能力。

Claims (7)

1.一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,包括以下步骤:
1)从数据库中提取河流水质指标监测数据;
2)对河流水质指标监测数据预处理,处理数据中的异常值和缺失值,并将数据转换成时间序列Zt
3)对时间序列进行单位根检验即ADF检验,判断时间序列是否为平稳序列,如果是,则进行步骤4),否则,对时间序列进行d阶差分从而使时间序列平稳化;
4)对平稳化后的时间序列绘制自相关图和偏自相关图,并根据自相关图初始化模型参数q的初始值,根据偏自相关图初始化参数p的值,同时提取时间序列的季节效应初始化模型参数s的值;
5)通过网格搜索算法并依据AIC准则,得到SARIMA(p,d,q)×(P,D,Q)s最优的参数组合;
6)对SARIMA模型进行训练,并使用SARIMA模型中的预测函数对模型进行预测,得到时间序列的拟合预测序列X′t
7)将用于表示河流水质指标监测数据的时间序列Zt减去SARIMA模型预测序列X′t得到预测值的残差序列Et
8)将残差序列Et以滑动窗口的形式切分成N段长度为t的序列,并用LSTM模型对残差序列进行残差预测,得到预测序列E′t
9)计算X′t加E′t的和即最终预测序列;
10)判断最终预测序列Z′t是否满足最大误差要求或者LSTM模型达到最大迭代次数,如果是,则输出最终预测序列Z′t,用于表示河流水质,否则调整p、q的值,重新回到步骤4)。
2.根据权利要求1所述的一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,所述处理数据中的异常值和缺失值具体为:对数据进行离群点检测,将检测到的异常值视为缺失值,使用拉格朗日插值法对缺失值进行填补。
3.根据权利要求1所述的一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,所述判断时间序列是否为平稳序列具体为:时间序列经ADF检验后,若得到的检验统计量的值小于阈值,则判断该时间序列为平稳序列,否则,判断该时间序列为非平稳序列。
4.根据权利要求1所述的一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,判断最终预测序列误差为:判断最终预测序列中,预测值的均方误差、均方根误差以及平均百分比误差。
5.根据权利要求1所述的一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,所述河流水质指标监测数据包括:化学需氧量、氨氮、PH值、高锰酸盐指数、溶解氧、总磷、氟化物中的一种。
6.根据权利要求1所述的一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,所述SARIMA(p,d,q)×(P,D,Q)s模型中,P与p的值相同,D与d的值相同,Q与q的值相同。
7.根据权利要求1所述的一种基于SARIMA-LSTM的河流水质预测方法,其特征在于,步骤5)具体为:
根据步骤4)中得到的p和q的初始值,确定参数值的范围,该范围最小值为0,最大值分别为p,q值的最大值,然后使用网格搜索算法,遍历参数p和q的所有不同组合,该算法的输入为时间序列以及其中的一种参数组合,并根据每一种参数组合得出对时间序列的不同拟合值;通过AIC准则计算每一个拟合值的AIC函数值,选取令AIC函数值最小的参数组合作为最优的参数组合,从而得到SARIMA(p,d,q)×(P,D,Q)s模型。
CN202010634884.1A 2020-07-03 2020-07-03 一种基于sarima-lstm的河流水质预测方法 Active CN113887119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010634884.1A CN113887119B (zh) 2020-07-03 2020-07-03 一种基于sarima-lstm的河流水质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010634884.1A CN113887119B (zh) 2020-07-03 2020-07-03 一种基于sarima-lstm的河流水质预测方法

Publications (2)

Publication Number Publication Date
CN113887119A CN113887119A (zh) 2022-01-04
CN113887119B true CN113887119B (zh) 2024-04-12

Family

ID=79013212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010634884.1A Active CN113887119B (zh) 2020-07-03 2020-07-03 一种基于sarima-lstm的河流水质预测方法

Country Status (1)

Country Link
CN (1) CN113887119B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562471B (zh) * 2023-07-10 2023-10-24 安徽中科海奥电气股份有限公司 一种基于stl数据分解的stl-sarima-gru功率预测方法
CN117096504B (zh) * 2023-10-17 2024-01-26 厦门海辰储能科技股份有限公司 温度控制方法及装置、设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292383A (zh) * 2017-07-06 2017-10-24 郑保宁 基于深度学习算法与混合整数线性规划相结合的水质波动区间预测方法
CN108053054A (zh) * 2017-11-22 2018-05-18 中国农业大学 一种河流水质预测方法
WO2019159439A1 (ja) * 2018-02-15 2019-08-22 日立造船株式会社 情報処理装置および情報処理プログラム
CN110619418A (zh) * 2019-07-26 2019-12-27 重庆大学 一种基于混合模型组合算法的多特征水质预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292383A (zh) * 2017-07-06 2017-10-24 郑保宁 基于深度学习算法与混合整数线性规划相结合的水质波动区间预测方法
CN108053054A (zh) * 2017-11-22 2018-05-18 中国农业大学 一种河流水质预测方法
WO2019159439A1 (ja) * 2018-02-15 2019-08-22 日立造船株式会社 情報処理装置および情報処理プログラム
CN110619418A (zh) * 2019-07-26 2019-12-27 重庆大学 一种基于混合模型组合算法的多特征水质预测方法

Also Published As

Publication number Publication date
CN113887119A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN110852515B (zh) 基于混合长短时记忆神经网络的水质指标预测方法
Li et al. Concentration estimation of dissolved oxygen in Pearl River Basin using input variable selection and machine learning techniques
Yu et al. An adaptive and generalized Wiener process model with a recursive filtering algorithm for remaining useful life estimation
CN112132333B (zh) 一种基于深度学习的短期水质水量预测方法及系统
CN113887119B (zh) 一种基于sarima-lstm的河流水质预测方法
CN111310981B (zh) 一种基于时间序列的水库水位趋势预测方法
CN112418491B (zh) 一种水库剩余拦沙库容动态配置方法
CN111898831B (zh) 一种实时洪水概率预报实用化方法
CN111401529B (zh) 一种基于遥感技术的河流生态流量监管方法
CN108074015B (zh) 一种风电功率超短期预测方法及系统
CN114580260B (zh) 一种基于机器学习和概率理论的滑坡区间预测方法
CN114358435A (zh) 双阶段时空注意力机制的污染源-水质预测模型权重影响计算方法
CN109344993B (zh) 一种基于条件概率分布的河道洪峰水位预报方法
Hwang et al. Detection and correction method of erroneous data using quantile pattern and LSTM
CN112016839A (zh) 一种基于qr-bc-elm的洪涝灾害预测预警方法
CN115169702A (zh) 一种基于EEMD-LSTNet的水质参数预测方法及系统
CN116956120A (zh) 一种基于改进的tft模型对水质非平稳时间序列的预测方法
CN115755219A (zh) 基于stgcn的洪水预报误差实时校正方法及系统
CN116050595A (zh) 一种注意力机制与分解机制耦合的径流量预测方法
CN112884197B (zh) 一种基于双模型的水华预测方法和装置
CN105426991A (zh) 一种变压器缺陷率预测的方法和系统
CN115217152B (zh) 一种沉管隧道管节接头张合变形的预测方法及装置
CN117035155A (zh) 一种水质预测方法
CN115330085A (zh) 基于深度神经网络且无未来信息泄露的风速预测方法
Tran-Quang et al. Aquaculture environment prediction based on improved lstm deep learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant