CN115169702A - 一种基于EEMD-LSTNet的水质参数预测方法及系统 - Google Patents

一种基于EEMD-LSTNet的水质参数预测方法及系统 Download PDF

Info

Publication number
CN115169702A
CN115169702A CN202210813627.3A CN202210813627A CN115169702A CN 115169702 A CN115169702 A CN 115169702A CN 202210813627 A CN202210813627 A CN 202210813627A CN 115169702 A CN115169702 A CN 115169702A
Authority
CN
China
Prior art keywords
module
water quality
prediction
lstnet
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210813627.3A
Other languages
English (en)
Inventor
张�浩
孙欣
董锴龙
随亮辉
王敏
高尚兵
梁坤
孔德财
周桂良
朱红兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202210813627.3A priority Critical patent/CN115169702A/zh
Publication of CN115169702A publication Critical patent/CN115169702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Analytical Chemistry (AREA)
  • Development Economics (AREA)
  • Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Immunology (AREA)
  • Food Science & Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Biochemistry (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medicinal Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于EEMD‑LSTNet的水质参数预测方法及系统,其中方法包括以下步骤:(1)获取水质数据,对原始数据进行数据清洗,对缺失值进行填补,构建水质数据集;(2)采用灰色关联度法对预测参数进行特征选取,对数据集进行降维操作;(3)采用EEMD法将预测参数序列自适应分解为若干子分量;(4)将若干子分量与筛选出的特征组合为样本,对每一个样本进行归一化操作,并划分数据集;(5)通过LSTNet网络对每个样本进行预测,并将预测结果反归一化累加得到实际预测结果。本发明能够较好的提升水质预测的精度,具有较好的稳定性和泛化能力。

Description

一种基于EEMD-LSTNet的水质参数预测方法及系统
技术领域
本发明属于水质预测技术领域,具体涉及一种基于EEMD-LSTNet的水质参数预测方法及系统。
背景技术
近年来,随着我国城市化和工业化进程的不断加快,由于过去工业废水和生活污水未经处理就排放到水体,导致河流湖泊水体的严重污染的事时有发生。水质预测是通过历史水质数据构建模型来预测未来一段时间的水质变化趋势,有利于提前发现区域内的水环境污染问题,对保护河流水体生态环境有着至关重要的作用。各水质因子之间相互影响和作用,目前对水质多变量的预测效果不太理想,主要由于水质数据的存在高度非线性化、波动性强、数据噪声大等特点,同时水质数据不易获得导致数据体量不足,使得深度学习模型不能挖掘其中的规律,从而导致预测精度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于EEMD-LSTNet的水质参数预测方法及系统,能够有效降低数据噪声并提升预测精度,实现水质多参数预测。
技术方案:本发明提出一种基于EEMD-LSTNet的水质参数预测方法,具体包括以下步骤:
(1)对预先获取的水质数据进行数据清洗,对缺失值进行填补,构建水质数据集;
(2)采用灰色关联度分析法根据预测参数对数据集中剩余水质参数进行特征选取,对水质数据集进行降维操作得到筛选后的数据集;
(3)采用EEMD法将预测参数序列自适应分解为若干IMF分量和Res残差分量;
(4)将每一个子分量与步骤(2)筛选出的特征分别组合为样本,对每一个样本进行归一化操作,并划分为训练集与测试集;
(5)通过LSTNet模型对每个样本进行预测得到对应子分量的预测值,将预测值反归一化并线性累加得到预测实际值。
进一步地,所述步骤(1)实现过程如下:
采用线性插值法对缺失值进行填补,根据相邻两侧的最近数据点进行数据值估计来代替原始缺失数据:
Figure BDA0003741371170000021
其中,y为缺失值,a为缺失值的位置坐标;(a0,y0)和(a1,y1)分别为缺失值前、后最近数据的坐标和值。
进一步地,所述步骤(2)包括以下步骤:
(21)将预测参数序列作为参考序列x0,其它参数序列作为特征序列xi(i=1,2,…,n);计算特征序列与参考序列在第k点的关联系数ξ(xi),其公式为:
Figure BDA0003741371170000022
其中,|x0(k)-xi(k)|为参考序列与特征序列在第k点之差的绝对值;
Figure BDA0003741371170000023
Figure BDA0003741371170000024
为所有n个参考序列与特征序列在各自对应点之差的绝对值中的最小值和最大值;ρ为分辨系数,取值范围为(0,1),一般取0.5;
(22)根据关联系数ξi(k)计算出灰色关联度值,选取灰色关联度值较大的水质参数序列作为特征序列输入模型:
Figure BDA0003741371170000025
其中,ri为第i个指标对参考序列指标的关联度。
进一步地,所述步骤(3)包括以下步骤:
(31)在预测参数序列x(t)中加入一组服从正太分布的白噪声信号wi(t),得到一个新的序列:
xi(t)=x(t)+wi(t),
其中,wi(t)表示第i次添加的白噪声信号;xi(t)表示第i次添加白噪声信号后的预测参数序列;
(32)对所得含白噪声的水质参数序列xi(t)进行EMD分解,得到一组IMF分量和RES残差分量:
Figure BDA0003741371170000026
其中,imfi,n(t)为第i次加入白噪声后得到的第n个IMF分量,ri(t)为残差分量;
(33)重复m次(31)和(32),每次添加不同幅值的白噪声信号,得到m组IMF分量和RES残差分量集合:
Figure BDA0003741371170000031
(34)将上述m组同阶的IMF分量和RES残差分量进行集合平均运算,得到EEMD分解后最终的IMF分量和RES残差分量:
Figure BDA0003741371170000032
其中,Ej(t)为EEMD分解后的j个IMF分量和RES残余分量。
进一步地,所述步骤(4)所述训练集与测试集的比为8:2。
进一步地,所述步骤(5)实现过程如下:
(51)LSTNet网络的第一个模块为卷积模块,卷积模块由宽度为ω和高度为n的多个过滤器组成,第k个滤波器对输入矩阵X进行卷积操作的公式为:
hk=RELU(Wk*X+bk)
其中:hk为输出的特征向量;RELU函数为RELU(x)=max(0,x);*为卷积运算;Wk和bk表示权重矩阵和偏置;X为输入向量;卷积层的输出大小为m×n,其中m表示过滤器的数量,n表示输出向量的长度;
(52)LSTNet网络的第二个模块为循环模块,将卷积模块的输出全部输入到循环模块和循环跳跃模块中进行特征提取,循环模块在时间t时刻的隐藏单元状态计算如下:
rt=σ(xtWxr+ht-1Whr+br)
ut=σ(xtWxu+ht-1Whu+bu)
ot=σ(xtWxo+ht-1Who+bo)
Figure BDA0003741371170000035
Figure BDA0003741371170000033
Figure BDA0003741371170000034
其中,
Figure BDA0003741371170000047
为矩阵元素对应相乘;σ为sigmoid函数;xt为输入;rt为输入门;ut为遗忘门;ot为输出门;ht为隐藏层节点;ct为记忆单元;
Figure BDA00037413711700000411
表示单元状态更新值;W和b为对应的权重和偏置;
(53)LSTNet网络的第三个模块为循环跳跃模块,在循环模块的基础上引入时间序列的周期p作为跳跃步数,扩展时间跨度,解决序列周期时间较长和LSTM网络中梯度消失的问题;循环跳跃模块在时间t时刻的隐藏单元状态更新过程如下:
rt=σ(xtWxr+ht-pWhr+br)
ut=σ(xtWxu+ht-pWhu+bu)
ot=σ(xtWxo+ht-pWho+bo)
Figure BDA00037413711700000410
Figure BDA0003741371170000048
Figure BDA0003741371170000049
其中,p为跳过的隐藏单元状态的个数;该模块的输入xt为卷积层的输出;
(54)采用全连接层将循环模块和循环跳跃模块的输出组合连接作为非线性部分的预测值,计算公式如下:
Figure BDA0003741371170000041
其中,
Figure BDA0003741371170000042
为非线性部分在t时刻的预测值;R和S表示循环模块和循环跳跃模块;W为对应的权重;b为偏置向量;
(55)采用自回归模型提取时间序列的局部线性特征;自回归模块预测结果如下:
Figure BDA0003741371170000043
式中:
Figure BDA0003741371170000044
为AR模型输出的结果;
Figure BDA0003741371170000045
和bar为AR模型的参数;qar输入窗口的大小;
(56)LSTNet网络输出的最终结果由神经网络全连接层的输出和AR模块的输出叠加所得:
Figure BDA0003741371170000046
其中,
Figure BDA0003741371170000051
为t时刻的最终预测值;
(57)在LSTNet模型训练过程中,采用均方误差函数作为模型损失函数,计算公式为:
Figure BDA0003741371170000052
其中,
Figure BDA0003741371170000053
和yt分别为预测值与实际值,n为样本数量。
基于相同的发明构思,本发明还提供一种基于EEMD-LSTNet的水质参数预测系统,包括:
水质数据获取模块,用于获取水体的历史水质参数数据;
水质参数选择模块,用于通过灰色关联度法对预测参数进行相关特征选择;
水质数据分解模块,用于通过集合经验模态法对数据集的预测序列进行分量分解,得到与之对应的IMF分量和Res残差分量,并组合成样本;
水质预测模块,用于通过长短期时间序列网络对所述若干IMF分量和Res分量进行预测,并对预测结果进行累加,得到最终的水质预测结果。
进一步地,所述系统包括可视化模块和预测结果图片生成模块;所述可视化模块用于可视化显示预测结果;所述预测结果图片生成模块以图片形式导出预测结果。
有益效果:与现有技术相比,本发明的有益效果:本发明采用灰色关联度法对水质数据集进行特征选择,实现对数据集的降维操作,筛选出最优特征组合,能够有效降低模型训练难度,同时减少冗余特征对预测精度的影响;通过EEMD法对预测参数进行集合模态分解得到多个子分量,与筛选出的特征组合为多个样本;通过EEMD法提取不同频率的数据特征,降低数据原有的噪声,来提升预测精度;将每个样本输入至LSTNet模型中进行预测,得到每个子分量的预测值,将子分量预测值累加得到实际预测值;本发明能够较好预测水质参数,降低预测误差,具有较好的拟合效果。
附图说明
图1为基于EEMD-LSTNet的水质参数预测方法流程图;
图2为LSTNet模型网络结构示意图;
图3为本发明实施例使用的溶解氧参数数据图;
图4为本发明实施例中数据使用集合经验模态分解后的子分量图;
图5为本发明实施例中水质预测拟合图;
图6为本发明实施例系统的组成示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明公开了一种基于EEMD-LSTNet的水质参数预测方法,如图1所示,包括如下步骤:
S1、获取一定时间内的水质数据,对原始数据进行数据清洗,对缺失值进行填补,构建水质数据集;具体包括:
本发明的水质数据利用网络爬虫技术,从国家地表水水质自动监测系统实时爬取数据,选取上海市斜塘口监测站2021年1月至12月的水质数据,水质监测数据每4H小时更新一次,共2190组数据,每组数据包含溶解氧、氨氮、水温、总磷、总氮、ph值、浊度、电导率和高锰酸盐指数。
采用线性插值法将数据集中缺失部分的数据补充完整。线性插值法是根据相邻两侧的最近数据点进行数据值估计来代替原始缺失数据:
Figure BDA0003741371170000061
其中,y为需要填补的缺失值,a为缺失值的位置坐标;(a0,y0)和(a1,y1)分别为缺失值前、后最近数据的坐标和值。
S2、采用灰色关联度分析法根据预测参数对数据集中剩余水质参数进行特征选取,目的是对水质数据集进行降维操作得到筛选后的数据集;具体包括:
本发明选取溶解氧参数作为预测参数,预处理后的溶解氧序列如图3所示。
将溶解氧序列作为参考序列x0,其它参数序列作为特征序列xi(i=1,2,…,n);计算特征序列与溶解氧序列在第k点的关联系数ξ(xi),其公式为:
Figure BDA0003741371170000062
其中,|x0(k)-xi(k)|为溶解氧序列与特征序列在第k点之差的绝对值;
Figure BDA0003741371170000063
Figure BDA0003741371170000064
为所有n个溶解氧序列与特征序列在各自对应点之差的绝对值中的最小值和最大值;ρ为分辨系数,取值范围为(0,1),一般取0.5。
根据关联系数ξi(k)计算出灰色关联度值,选取灰色关联度值较大的水质参数序列作为特征序列输入模型:
Figure BDA0003741371170000071
其中,ri为第i个指标对参考序列指标的关联度。
灰色关联度法特征计算结果如表1所示,选择关联度前4的参数作为输入特征与预测序列组成数据集。
表1 特征关联度
Figure BDA0003741371170000072
S3、采用EEMD法将溶解氧序列自适应分解为若干IMF分量和Res残差分量;具体包括:
1)在溶解氧序列x(t)中加入一组服从正太分布的白噪声信号wi(t),得到一个新的序列:
xi(t)=x(t)+wi(t)
其中,wi(t)表示第i次添加的白噪声信号;xi(t)表示第i次添加白噪声信号后的溶解氧序列。
2)对所得含白噪声的溶解氧序列xi(t)进行EMD分解,得到一组IMF分量和RES残差分量:
Figure BDA0003741371170000073
其中,imfi,n(t)为第i次加入白噪声后得到的第n个IMF分量,ri(t)为残差分量。
3)重复m次步骤1)和步骤2),每次添加不同幅值的白噪声信号,得到m组IMF分量和RES残差分量集合:
Figure BDA0003741371170000081
4)将上述m组同阶的IMF分量和RES残差分量进行集合平均运算,得到EEMD分解后最终的IMF分量和RES残差分量:
Figure BDA0003741371170000082
其中,Ej(t)为EEMD分解后的j个IMF分量和RES残余分量。
集合经验模态分解法的分解结果如图4所示,分别为8个IMF分量和一个Res残差分量。
S4、将每一个子分量与步骤S2筛选出的特征分别组合为样本,对每一个样本进行归一化操作,并按照8:2划分训练集与测试集;具体包括:
针对EEMD分解出的每一个IMF分量和Res残差分量,与步骤S2灰色关联度法筛选出的特征分别组合为样本,对每一个样本进行归一化操作,并按照8:2划分训练集与测试集。
S5、LSTNet模型网络结构图如图2所示,本发明实施例通过LSTNet模型对每个样本进行预测得到对应子分量的预测值,将预测值反归一化并线性累加得到预测实际值。具体包括:
LSTNet网络是为多变量时间序列预测任务而设计的,该网络使用CNN来提取变量之间的短期局部关系依赖模式,使用LSTM网络来提取时间序列趋势的长期模式,同时使用具有连续时间跳跃的LSTM结构来解决时间序列较长和网络模型中梯度消失的问题,最后使用AR模型来解决神经网络模型的尺度不敏感问题。LSTNet网络的第一个模块为卷积模块,该模块能够提取时间维度中的短期特征和变量之间的局部依赖。卷积模块由宽度为ω和高度为n的多个过滤器组成,第k个滤波器对输入矩阵X进行卷积操作的公式为:
hk=RELU(Wk*X+bk)
其中:hk为输出的特征向量;RELU函数为RELU(x)=max(0,x);*为卷积运算;Wk和bk表示权重矩阵和偏置;X为输入向量;卷积层的输出大小为m×n,其中m表示过滤器的数量,n表示输出向量的长度。
LSTNet网络的第二个模块为循环模块,将卷积模块的输出全部输入到循环模块和循环跳跃模块中进行特征提取,循环模块在时间t时刻的隐藏单元状态计算如下:
rt=σ(xtWxr+ht-1Whr+br)
ut=σ(xtWxu+ht-1Whu+bu)
ot=σ(xtWxo+ht-1Who+bo)
Figure BDA0003741371170000095
Figure BDA0003741371170000091
Figure BDA0003741371170000092
其中,
Figure BDA0003741371170000097
为矩阵元素对应相乘;σ为sigmoid函数;xt为输入;rt为输入门;ut为遗忘门;ot为输出门;ht为隐藏层节点;ct为记忆单元;
Figure BDA0003741371170000098
表示单元状态更新值;W和b为对应的权重和偏置。
LSTNet网络的第三个模块为循环跳跃模块,这是一种具有连续时间跳跃的循环结构;主要解决对长时期的时间序列不能很好的捕捉其内在联系,模型在循环模块的基础上引入时间序列的周期p作为跳跃步数,来扩展时间跨度,解决序列周期时间较长和LSTM网络中梯度消失的问题;循环跳跃模块在时间t时刻的隐藏单元状态更新过程如下:
rt=σ(xtWxr+ht-pWhr+br)
ut=σ(xtWxu+ht-pWhu+bu)
ot=σ(xtWxo+ht-pWho+bo)
Figure BDA0003741371170000096
Figure BDA0003741371170000093
Figure BDA0003741371170000094
其中,p为跳过的隐藏单元状态的个数;该模块的输入xt为卷积层的输出。
采用全连接层将循环模块和循环跳跃模块的输出组合连接作为非线性部分的预测值,计算公式如下:
Figure BDA0003741371170000101
其中,
Figure BDA0003741371170000102
为非线性部分在t时刻的预测值;R和S表示循环模块和循环跳跃模块;W为对应的权重;b为偏置向量。
由于卷积模块和循环模块的非线性的性质,导致对时间序列数据中的局部线性特征提取不足,从而降低模型对非周期变化的多元水质数据的预测精度;LSTNet网络采用自回归(Autoregressive,AR)模型来提取时间序列的局部线性特征;自回归模块预测结果如下:
Figure BDA0003741371170000103
式中:
Figure BDA0003741371170000104
为AR模型输出的结果;
Figure BDA0003741371170000105
和bar为AR模型的参数;qar输入窗口的大小。
LSTNet网络输出的最终结果由神经网络全连接层的输出和AR模块的输出叠加所得:
Figure BDA0003741371170000106
其中,
Figure BDA0003741371170000107
为t时刻的最终预测值。
在模型训练过程中,采用均方误差(Mean Square Error,MSE)函数作为模型损失函数,计算公式为:
Figure BDA0003741371170000108
其中,
Figure BDA0003741371170000109
和yt分别为预测值与实际值,n为样本数量。
本实施例对2190条水质数据进行数据预处理之后,对模型进行训练后得到主要超参数为:CNN层、LSTM层、LSTM-Skip层的隐藏神经元个数分别设置为100,128、128,滑动窗口大小为10,跳过步数为5;线性部分AR层正则化系数为1;训练批次大小为64,epochs为100,优化器为Adam。通过上述方法实现的预测结果拟合图如图5所示,实验结果对照如表2所示。
表2 实验结果对比表
Figure BDA00037413711700001010
Figure BDA0003741371170000111
表2中对比可知,本发明LSTNet模型具有较好的预测精度,通过增加了EEMD模型的优化嵌入,降低了预测误差,提高了模型的预测准确度。如图5所示,EEMD-LSTNet取得较好的模型拟合效果,能够准确的反应未来水质的变化趋势。
基于相同的发明构思,本发明还提出一种基于EEMD-LSTNet的水质参数预测系统,如图6所示,包括:
水质数据获取模块1,用于获取水体的历史水质参数数据;
水质参数选择模块2,用于通过灰色关联度法对预测参数进行相关特征选择;
水质参数分解模块3,用于通过集合经验模态法对数据集的预测序列进行分量分解,得到与之对应的IMF分量和Res残差分量,并组合成样本;
水质预测模块4,用于通过长短期时间序列网络对所述若干IMF分量和Res分量进行预测,并对预测结果进行累加,得到最终的水质预测结果。
本实施例中,采用基于Web网页的客户端进行水质参数预测。此外,为了提升用户体验,还包括可视化界面5,用于可视化显示预测结果;预测结果还可以通过预测结果图片生成模块6以图片形式导出。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (8)

1.一种基于EEMD-LSTNet的水质参数预测方法,其特征在于,包括以下步骤:
(1)对预先获取的水质数据进行数据清洗,对缺失值进行填补,构建水质数据集;
(2)采用灰色关联度分析法根据预测参数对数据集中剩余水质参数进行特征选取,对水质数据集进行降维操作得到筛选后的数据集;
(3)采用EEMD法将预测参数序列自适应分解为若干IMF分量和Res残差分量;
(4)将每一个子分量与步骤(2)筛选出的特征分别组合为样本,对每一个样本进行归一化操作,并划分为训练集与测试集;
(5)通过LSTNet模型对每个样本进行预测得到对应子分量的预测值,将预测值反归一化并线性累加得到预测实际值。
2.根据权利要求1所述的基于EEMD-LSTNet的水质参数预测方法,其特征在于,所述步骤(1)实现过程如下:
采用线性插值法对缺失值进行填补,根据相邻两侧的最近数据点进行数据值估计来代替原始缺失数据:
Figure FDA0003741371160000011
其中,y为缺失值,a为缺失值的位置坐标;(a0,y0)和(a1,y1)分别为缺失值前、后最近数据的坐标和值。
3.根据权利要求1所述的基于EEMD-LSTNet的水质参数预测方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将预测参数序列作为参考序列x0,其它参数序列作为特征序列xi(i=1,2,…,n);计算特征序列与参考序列在第k点的关联系数ξ(xi),其公式为:
Figure FDA0003741371160000012
其中,|x0(k)-xi(k)|为参考序列与特征序列在第k点之差的绝对值;
Figure FDA0003741371160000013
Figure FDA0003741371160000014
为所有n个参考序列与特征序列在各自对应点之差的绝对值中的最小值和最大值;ρ为分辨系数,取值范围为(0,1),一般取0.5;
(22)根据关联系数ξi(k)计算出灰色关联度值,选取灰色关联度值较大的水质参数序列作为特征序列输入模型:
Figure FDA0003741371160000021
其中,ri为第i个指标对参考序列指标的关联度。
4.根据权利要求1所述的基于EEMD-LSTNet的水质参数预测方法,其特征在于,所述步骤(3)包括以下步骤:
(31)在预测参数序列x(t)中加入一组服从正太分布的白噪声信号wi(t),得到一个新的序列:
xi(t)=x(t)+wi(t),
其中,wi(t)表示第i次添加的白噪声信号;xi(t)表示第i次添加白噪声信号后的预测参数序列;
(32)对所得含白噪声的水质参数序列xi(t)进行EMD分解,得到一组IMF分量和RES残差分量:
Figure FDA0003741371160000022
其中,imfi,n(t)为第i次加入白噪声后得到的第n个IMF分量,ri(t)为残差分量;
(33)重复m次(31)和(32),每次添加不同幅值的白噪声信号,得到m组IMF分量和RES残差分量集合:
Figure FDA0003741371160000023
(34)将上述m组同阶的IMF分量和RES残差分量进行集合平均运算,得到EEMD分解后最终的IMF分量和RES残差分量:
Figure FDA0003741371160000024
其中,Ej(t)为EEMD分解后的j个IMF分量和RES残余分量。
5.根据权利要求1所述的基于EEMD-LSTNet的水质参数预测方法,其特征在于,所述步骤(4)所述训练集与测试集的比为8:2。
6.根据权利要求1所述的基于EEMD-LSTNet的水质参数预测方法,其特征在于,所述步骤(5)实现过程如下:
(51)LSTNet网络的第一个模块为卷积模块,卷积模块由宽度为ω和高度为n的多个过滤器组成,第k个滤波器对输入矩阵X进行卷积操作的公式为:
hk=RELU(Wk*X+bk)
其中:hk为输出的特征向量;RELU函数为RELU(x)=max(0,x);*为卷积运算;Wk和bk表示权重矩阵和偏置;X为输入向量;卷积层的输出大小为m×n,其中m表示过滤器的数量,n表示输出向量的长度;
(52)LSTNet网络的第二个模块为循环模块,将卷积模块的输出全部输入到循环模块和循环跳跃模块中进行特征提取,循环模块在时间t时刻的隐藏单元状态计算如下:
rt=σ(xtWxr+ht-1Whr+br)
ut=σ(xtWxu+ht-1Whu+bu)
ot=σ(xtWxo+ht-1Who+bo)
Figure FDA0003741371160000031
Figure FDA0003741371160000032
Figure FDA0003741371160000033
其中,
Figure FDA0003741371160000034
为矩阵元素对应相乘;σ为sigmoid函数;xt为输入;rt为输入门;ut为遗忘门;ot为输出门;ht为隐藏层节点;ct为记忆单元;
Figure FDA0003741371160000035
表示单元状态更新值;W和b为对应的权重和偏置;
(53)LSTNet网络的第三个模块为循环跳跃模块,在循环模块的基础上引入时间序列的周期p作为跳跃步数,扩展时间跨度,解决序列周期时间较长和LSTM网络中梯度消失的问题;循环跳跃模块在时间t时刻的隐藏单元状态更新过程如下:
rt=σ(xtWxr+ht-pWhr+br)
ut=σ(xtWxu+ht-pWhu+bu)
ot=σ(xtWxo+ht-pWho+bo)
Figure FDA0003741371160000036
Figure FDA0003741371160000037
Figure FDA0003741371160000041
其中,p为跳过的隐藏单元状态的个数;该模块的输入xt为卷积层的输出;
(54)采用全连接层将循环模块和循环跳跃模块的输出组合连接作为非线性部分的预测值,计算公式如下:
Figure FDA0003741371160000042
其中,
Figure FDA0003741371160000043
为非线性部分在t时刻的预测值;R和S表示循环模块和循环跳跃模块;W为对应的权重;b为偏置向量;
(55)采用自回归模型提取时间序列的局部线性特征;自回归模块预测结果如下:
Figure FDA0003741371160000044
式中:
Figure FDA0003741371160000045
为AR模型输出的结果;
Figure FDA0003741371160000046
和bar为AR模型的参数;qar输入窗口的大小;
(56)LSTNet网络输出的最终结果由神经网络全连接层的输出和AR模块的输出叠加所得:
Figure FDA0003741371160000047
其中,
Figure FDA0003741371160000048
为t时刻的最终预测值;
(57)在LSTNet模型训练过程中,采用均方误差函数作为模型损失函数,计算公式为:
Figure FDA0003741371160000049
其中,
Figure FDA00037413711600000410
和yt分别为预测值与实际值,n为样本数量。
7.一种采用如权利要求1-6任一所述方法的基于EEMD-LSTNet的水质参数预测系统,其特征在于,包括:
水质数据获取模块,用于获取水体的历史水质参数数据;
水质参数选择模块,用于通过灰色关联度法对预测参数进行相关特征选择;
水质数据分解模块,用于通过集合经验模态法对数据集的预测序列进行分量分解,得到与之对应的IMF分量和Res残差分量,并组合成样本;
水质预测模块,用于通过长短期时间序列网络对所述若干IMF分量和Res分量进行预测,并对预测结果进行累加,得到最终的水质预测结果。
8.根据权利要求7所述的基于EEMD-LSTNet的水质参数预测系统,其特征在于,所述系统包括可视化模块和预测结果图片生成模块;所述可视化模块用于可视化显示预测结果;所述预测结果图片生成模块以图片形式导出预测结果。
CN202210813627.3A 2022-07-12 2022-07-12 一种基于EEMD-LSTNet的水质参数预测方法及系统 Pending CN115169702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210813627.3A CN115169702A (zh) 2022-07-12 2022-07-12 一种基于EEMD-LSTNet的水质参数预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210813627.3A CN115169702A (zh) 2022-07-12 2022-07-12 一种基于EEMD-LSTNet的水质参数预测方法及系统

Publications (1)

Publication Number Publication Date
CN115169702A true CN115169702A (zh) 2022-10-11

Family

ID=83493229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210813627.3A Pending CN115169702A (zh) 2022-07-12 2022-07-12 一种基于EEMD-LSTNet的水质参数预测方法及系统

Country Status (1)

Country Link
CN (1) CN115169702A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195135A (zh) * 2023-11-01 2023-12-08 潍坊德瑞生物科技有限公司 一种水污染异常溯源检测方法及系统
CN117373556A (zh) * 2023-12-04 2024-01-09 山东清控生态环境产业发展有限公司 一种基于多维数据的溯源仪器及系统
CN117491585A (zh) * 2024-01-02 2024-02-02 石家庄首创水汇环境治理有限公司 基于时序网络的水生态污染监测方法及装置、系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195135A (zh) * 2023-11-01 2023-12-08 潍坊德瑞生物科技有限公司 一种水污染异常溯源检测方法及系统
CN117195135B (zh) * 2023-11-01 2024-02-27 潍坊德瑞生物科技有限公司 一种水污染异常溯源检测方法及系统
CN117373556A (zh) * 2023-12-04 2024-01-09 山东清控生态环境产业发展有限公司 一种基于多维数据的溯源仪器及系统
CN117373556B (zh) * 2023-12-04 2024-02-13 山东清控生态环境产业发展有限公司 一种基于多维数据的溯源仪器及系统
CN117491585A (zh) * 2024-01-02 2024-02-02 石家庄首创水汇环境治理有限公司 基于时序网络的水生态污染监测方法及装置、系统

Similar Documents

Publication Publication Date Title
CN115169702A (zh) 一种基于EEMD-LSTNet的水质参数预测方法及系统
CN107885951B (zh) 一种基于组合模型的水文时间序列预测方法
CN112884213B (zh) 小波分解与动态混合深度学习的燃煤锅炉NOx预测方法
CN113065703A (zh) 一种结合多种模型的时间序列预测方法
CN114252879A (zh) 基于InSAR反演与多影响因子的大范围滑坡形变预测方法
CN115758125A (zh) 基于特征结构优化和深度学习的工业污水处理软测量方法
CN114358435A (zh) 双阶段时空注意力机制的污染源-水质预测模型权重影响计算方法
CN115456245A (zh) 一种感潮河网区溶解氧预测方法
CN114897257B (zh) 基于eemd-gru模型最优时间尺度的位移阶跃型水库滑坡累计位移预测方法
CN116956120A (zh) 一种基于改进的tft模型对水质非平稳时间序列的预测方法
CN116933033A (zh) 基于arima模型的河道水位越限预测方法及系统
CN115130770A (zh) 基于张量特征重构的工业废水排放水质预测方法
Ibanez et al. Prediction of missing values and detection of ‘exceptional events’ in a chronological planktonic series: a single algorithm
CN112668606B (zh) 基于梯度提升机与二次规划的阶跃型滑坡位移预测方法
CN113887119A (zh) 一种基于sarima-lstm的河流水质预测方法
CN105426991A (zh) 一种变压器缺陷率预测的方法和系统
CN117390836A (zh) 一种基于bemd的gru区间系统惯量评估与预测方法
CN116703644A (zh) 一种基于Attention-RNN的短期电力负荷预测方法
CN115829157A (zh) 基于变分模态分解和Autoformer模型的化工水质指标预测方法
CN115689026A (zh) 一种住宅负荷短期预测方法和系统
CN115952915A (zh) 一种使用模糊熵分类的能耗预测优化方法
CN115860232A (zh) 一种蒸汽负荷预测方法、系统、电子设备及介质
CN115689014A (zh) 基于双向长短时记忆神经网络和时间注意力机制的水质指标预测方法
CN112241813B (zh) 基于小波分解的降雨预测方法及系统
Hu et al. Natural gas prediction model based on wavelet transform and BP neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination