CN115169702A

CN115169702A - 一种基于EEMD-LSTNet的水质参数预测方法及系统

Info

Publication number: CN115169702A
Application number: CN202210813627.3A
Authority: CN
Inventors: 张�浩; 孙欣; 董锴龙; 随亮辉; 王敏; 高尚兵; 梁坤; 孔德财; 周桂良; 朱红兰
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-10-11

Abstract

本发明公开了一种基于EEMD‑LSTNet的水质参数预测方法及系统，其中方法包括以下步骤：(1)获取水质数据，对原始数据进行数据清洗，对缺失值进行填补，构建水质数据集；(2)采用灰色关联度法对预测参数进行特征选取，对数据集进行降维操作；(3)采用EEMD法将预测参数序列自适应分解为若干子分量；(4)将若干子分量与筛选出的特征组合为样本，对每一个样本进行归一化操作，并划分数据集；(5)通过LSTNet网络对每个样本进行预测，并将预测结果反归一化累加得到实际预测结果。本发明能够较好的提升水质预测的精度，具有较好的稳定性和泛化能力。

Description

一种基于EEMD-LSTNet的水质参数预测方法及系统

技术领域

本发明属于水质预测技术领域，具体涉及一种基于EEMD-LSTNet的水质参数预测方法及系统。

背景技术

近年来，随着我国城市化和工业化进程的不断加快，由于过去工业废水和生活污水未经处理就排放到水体，导致河流湖泊水体的严重污染的事时有发生。水质预测是通过历史水质数据构建模型来预测未来一段时间的水质变化趋势，有利于提前发现区域内的水环境污染问题，对保护河流水体生态环境有着至关重要的作用。各水质因子之间相互影响和作用，目前对水质多变量的预测效果不太理想，主要由于水质数据的存在高度非线性化、波动性强、数据噪声大等特点，同时水质数据不易获得导致数据体量不足，使得深度学习模型不能挖掘其中的规律，从而导致预测精度不高。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于EEMD-LSTNet的水质参数预测方法及系统，能够有效降低数据噪声并提升预测精度，实现水质多参数预测。

技术方案：本发明提出一种基于EEMD-LSTNet的水质参数预测方法，具体包括以下步骤：

(1)对预先获取的水质数据进行数据清洗，对缺失值进行填补，构建水质数据集；

(2)采用灰色关联度分析法根据预测参数对数据集中剩余水质参数进行特征选取，对水质数据集进行降维操作得到筛选后的数据集；

(3)采用EEMD法将预测参数序列自适应分解为若干IMF分量和Res残差分量；

(4)将每一个子分量与步骤(2)筛选出的特征分别组合为样本，对每一个样本进行归一化操作，并划分为训练集与测试集；

(5)通过LSTNet模型对每个样本进行预测得到对应子分量的预测值，将预测值反归一化并线性累加得到预测实际值。

进一步地，所述步骤(1)实现过程如下：

采用线性插值法对缺失值进行填补，根据相邻两侧的最近数据点进行数据值估计来代替原始缺失数据：

其中，y为缺失值，a为缺失值的位置坐标；(a₀,y₀)和(a₁,y₁)分别为缺失值前、后最近数据的坐标和值。

进一步地，所述步骤(2)包括以下步骤：

(21)将预测参数序列作为参考序列x₀，其它参数序列作为特征序列x_i(i＝1,2,…,n)；计算特征序列与参考序列在第k点的关联系数ξ(x_i)，其公式为：

其中，|x₀(k)-x_i(k)|为参考序列与特征序列在第k点之差的绝对值；

和

为所有n个参考序列与特征序列在各自对应点之差的绝对值中的最小值和最大值；ρ为分辨系数，取值范围为(0,1)，一般取0.5；

(22)根据关联系数ξ_i(k)计算出灰色关联度值，选取灰色关联度值较大的水质参数序列作为特征序列输入模型：

其中，r_i为第i个指标对参考序列指标的关联度。

进一步地，所述步骤(3)包括以下步骤：

(31)在预测参数序列x(t)中加入一组服从正太分布的白噪声信号w_i(t)，得到一个新的序列：

x_i(t)＝x(t)+w_i(t),

其中，w_i(t)表示第i次添加的白噪声信号；x_i(t)表示第i次添加白噪声信号后的预测参数序列；

(32)对所得含白噪声的水质参数序列x_i(t)进行EMD分解，得到一组IMF分量和RES残差分量：

其中，imf_i,n(t)为第i次加入白噪声后得到的第n个IMF分量，r_i(t)为残差分量；

(33)重复m次(31)和(32)，每次添加不同幅值的白噪声信号，得到m组IMF分量和RES残差分量集合：

(34)将上述m组同阶的IMF分量和RES残差分量进行集合平均运算，得到EEMD分解后最终的IMF分量和RES残差分量：

其中，E_j(t)为EEMD分解后的j个IMF分量和RES残余分量。

进一步地，所述步骤(4)所述训练集与测试集的比为8:2。

进一步地，所述步骤(5)实现过程如下：

(51)LSTNet网络的第一个模块为卷积模块，卷积模块由宽度为ω和高度为n的多个过滤器组成，第k个滤波器对输入矩阵X进行卷积操作的公式为：

h_k＝RELU(W_k*X+b_k)

其中：h_k为输出的特征向量；RELU函数为RELU(x)＝max(0,x)；*为卷积运算；W_k和b_k表示权重矩阵和偏置；X为输入向量；卷积层的输出大小为m×n，其中m表示过滤器的数量，n表示输出向量的长度；

(52)LSTNet网络的第二个模块为循环模块，将卷积模块的输出全部输入到循环模块和循环跳跃模块中进行特征提取，循环模块在时间t时刻的隐藏单元状态计算如下：

r_t＝σ(x_tW_xr+h_t-1W_hr+b_r)

u_t＝σ(x_tW_xu+h_t-1W_hu+b_u)

o_t＝σ(x_tW_xo+h_t-1W_ho+b_o)

其中，

为矩阵元素对应相乘；σ为sigmoid函数；x_t为输入；r_t为输入门；u_t为遗忘门；o_t为输出门；h_t为隐藏层节点；c_t为记忆单元；

表示单元状态更新值；W和b为对应的权重和偏置；

(53)LSTNet网络的第三个模块为循环跳跃模块，在循环模块的基础上引入时间序列的周期p作为跳跃步数，扩展时间跨度，解决序列周期时间较长和LSTM网络中梯度消失的问题；循环跳跃模块在时间t时刻的隐藏单元状态更新过程如下：

r_t＝σ(x_tW_xr+h_t-pW_hr+b_r)

u_t＝σ(x_tW_xu+h_t-pW_hu+b_u)

o_t＝σ(x_tW_xo+h_t-pW_ho+b_o)

其中，p为跳过的隐藏单元状态的个数；该模块的输入x_t为卷积层的输出；

(54)采用全连接层将循环模块和循环跳跃模块的输出组合连接作为非线性部分的预测值，计算公式如下：

其中，

为非线性部分在t时刻的预测值；R和S表示循环模块和循环跳跃模块；W为对应的权重；b为偏置向量；

(55)采用自回归模型提取时间序列的局部线性特征；自回归模块预测结果如下：

式中：

为AR模型输出的结果；

和b^ar为AR模型的参数；q^ar输入窗口的大小；

(56)LSTNet网络输出的最终结果由神经网络全连接层的输出和AR模块的输出叠加所得：

其中，

为t时刻的最终预测值；

(57)在LSTNet模型训练过程中，采用均方误差函数作为模型损失函数，计算公式为：

其中，

和y_t分别为预测值与实际值，n为样本数量。

基于相同的发明构思，本发明还提供一种基于EEMD-LSTNet的水质参数预测系统，包括：

水质数据获取模块，用于获取水体的历史水质参数数据；

水质参数选择模块，用于通过灰色关联度法对预测参数进行相关特征选择；

水质数据分解模块，用于通过集合经验模态法对数据集的预测序列进行分量分解，得到与之对应的IMF分量和Res残差分量，并组合成样本；

水质预测模块，用于通过长短期时间序列网络对所述若干IMF分量和Res分量进行预测，并对预测结果进行累加，得到最终的水质预测结果。

进一步地，所述系统包括可视化模块和预测结果图片生成模块；所述可视化模块用于可视化显示预测结果；所述预测结果图片生成模块以图片形式导出预测结果。

有益效果：与现有技术相比，本发明的有益效果：本发明采用灰色关联度法对水质数据集进行特征选择，实现对数据集的降维操作，筛选出最优特征组合，能够有效降低模型训练难度，同时减少冗余特征对预测精度的影响；通过EEMD法对预测参数进行集合模态分解得到多个子分量，与筛选出的特征组合为多个样本；通过EEMD法提取不同频率的数据特征，降低数据原有的噪声，来提升预测精度；将每个样本输入至LSTNet模型中进行预测，得到每个子分量的预测值，将子分量预测值累加得到实际预测值；本发明能够较好预测水质参数，降低预测误差，具有较好的拟合效果。

附图说明

图1为基于EEMD-LSTNet的水质参数预测方法流程图；

图2为LSTNet模型网络结构示意图；

图3为本发明实施例使用的溶解氧参数数据图；

图4为本发明实施例中数据使用集合经验模态分解后的子分量图；

图5为本发明实施例中水质预测拟合图；

图6为本发明实施例系统的组成示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明公开了一种基于EEMD-LSTNet的水质参数预测方法，如图1所示，包括如下步骤：

S1、获取一定时间内的水质数据，对原始数据进行数据清洗，对缺失值进行填补，构建水质数据集；具体包括：

本发明的水质数据利用网络爬虫技术，从国家地表水水质自动监测系统实时爬取数据，选取上海市斜塘口监测站2021年1月至12月的水质数据，水质监测数据每4H小时更新一次，共2190组数据，每组数据包含溶解氧、氨氮、水温、总磷、总氮、ph值、浊度、电导率和高锰酸盐指数。

采用线性插值法将数据集中缺失部分的数据补充完整。线性插值法是根据相邻两侧的最近数据点进行数据值估计来代替原始缺失数据：

其中，y为需要填补的缺失值，a为缺失值的位置坐标；(a₀,y₀)和(a₁,y₁)分别为缺失值前、后最近数据的坐标和值。

S2、采用灰色关联度分析法根据预测参数对数据集中剩余水质参数进行特征选取，目的是对水质数据集进行降维操作得到筛选后的数据集；具体包括：

本发明选取溶解氧参数作为预测参数，预处理后的溶解氧序列如图3所示。

将溶解氧序列作为参考序列x₀，其它参数序列作为特征序列x_i(i＝1,2,…,n)；计算特征序列与溶解氧序列在第k点的关联系数ξ(x_i)，其公式为：

其中，|x₀(k)-x_i(k)|为溶解氧序列与特征序列在第k点之差的绝对值；

和

为所有n个溶解氧序列与特征序列在各自对应点之差的绝对值中的最小值和最大值；ρ为分辨系数，取值范围为(0,1)，一般取0.5。

根据关联系数ξ_i(k)计算出灰色关联度值，选取灰色关联度值较大的水质参数序列作为特征序列输入模型：

其中，r_i为第i个指标对参考序列指标的关联度。

灰色关联度法特征计算结果如表1所示，选择关联度前4的参数作为输入特征与预测序列组成数据集。

表1 特征关联度

S3、采用EEMD法将溶解氧序列自适应分解为若干IMF分量和Res残差分量；具体包括：

1)在溶解氧序列x(t)中加入一组服从正太分布的白噪声信号w_i(t)，得到一个新的序列：

x_i(t)＝x(t)+w_i(t)

其中，w_i(t)表示第i次添加的白噪声信号；x_i(t)表示第i次添加白噪声信号后的溶解氧序列。

2)对所得含白噪声的溶解氧序列x_i(t)进行EMD分解，得到一组IMF分量和RES残差分量：

其中，imf_i,n(t)为第i次加入白噪声后得到的第n个IMF分量，r_i(t)为残差分量。

3)重复m次步骤1)和步骤2)，每次添加不同幅值的白噪声信号，得到m组IMF分量和RES残差分量集合：

4)将上述m组同阶的IMF分量和RES残差分量进行集合平均运算，得到EEMD分解后最终的IMF分量和RES残差分量：

其中，E_j(t)为EEMD分解后的j个IMF分量和RES残余分量。

集合经验模态分解法的分解结果如图4所示，分别为8个IMF分量和一个Res残差分量。

S4、将每一个子分量与步骤S2筛选出的特征分别组合为样本，对每一个样本进行归一化操作，并按照8:2划分训练集与测试集；具体包括：

针对EEMD分解出的每一个IMF分量和Res残差分量，与步骤S2灰色关联度法筛选出的特征分别组合为样本，对每一个样本进行归一化操作，并按照8:2划分训练集与测试集。

S5、LSTNet模型网络结构图如图2所示，本发明实施例通过LSTNet模型对每个样本进行预测得到对应子分量的预测值，将预测值反归一化并线性累加得到预测实际值。具体包括：

LSTNet网络是为多变量时间序列预测任务而设计的，该网络使用CNN来提取变量之间的短期局部关系依赖模式，使用LSTM网络来提取时间序列趋势的长期模式，同时使用具有连续时间跳跃的LSTM结构来解决时间序列较长和网络模型中梯度消失的问题，最后使用AR模型来解决神经网络模型的尺度不敏感问题。LSTNet网络的第一个模块为卷积模块，该模块能够提取时间维度中的短期特征和变量之间的局部依赖。卷积模块由宽度为ω和高度为n的多个过滤器组成，第k个滤波器对输入矩阵X进行卷积操作的公式为：

h_k＝RELU(W_k*X+b_k)

其中：h_k为输出的特征向量；RELU函数为RELU(x)＝max(0,x)；*为卷积运算；W_k和b_k表示权重矩阵和偏置；X为输入向量；卷积层的输出大小为m×n，其中m表示过滤器的数量，n表示输出向量的长度。

LSTNet网络的第二个模块为循环模块，将卷积模块的输出全部输入到循环模块和循环跳跃模块中进行特征提取，循环模块在时间t时刻的隐藏单元状态计算如下：

r_t＝σ(x_tW_xr+h_t-1W_hr+b_r)

u_t＝σ(x_tW_xu+h_t-1W_hu+b_u)

o_t＝σ(x_tW_xo+h_t-1W_ho+b_o)

其中，

表示单元状态更新值；W和b为对应的权重和偏置。

LSTNet网络的第三个模块为循环跳跃模块，这是一种具有连续时间跳跃的循环结构；主要解决对长时期的时间序列不能很好的捕捉其内在联系，模型在循环模块的基础上引入时间序列的周期p作为跳跃步数，来扩展时间跨度，解决序列周期时间较长和LSTM网络中梯度消失的问题；循环跳跃模块在时间t时刻的隐藏单元状态更新过程如下：

r_t＝σ(x_tW_xr+h_t-pW_hr+b_r)

u_t＝σ(x_tW_xu+h_t-pW_hu+b_u)

o_t＝σ(x_tW_xo+h_t-pW_ho+b_o)

其中，p为跳过的隐藏单元状态的个数；该模块的输入x_t为卷积层的输出。

采用全连接层将循环模块和循环跳跃模块的输出组合连接作为非线性部分的预测值，计算公式如下：

其中，

为非线性部分在t时刻的预测值；R和S表示循环模块和循环跳跃模块；W为对应的权重；b为偏置向量。

由于卷积模块和循环模块的非线性的性质，导致对时间序列数据中的局部线性特征提取不足，从而降低模型对非周期变化的多元水质数据的预测精度；LSTNet网络采用自回归(Autoregressive，AR)模型来提取时间序列的局部线性特征；自回归模块预测结果如下：

式中：

为AR模型输出的结果；

和b^ar为AR模型的参数；q^ar输入窗口的大小。

LSTNet网络输出的最终结果由神经网络全连接层的输出和AR模块的输出叠加所得：

其中，

为t时刻的最终预测值。

在模型训练过程中，采用均方误差(Mean Square Error,MSE)函数作为模型损失函数，计算公式为：

其中，

和y_t分别为预测值与实际值，n为样本数量。

本实施例对2190条水质数据进行数据预处理之后，对模型进行训练后得到主要超参数为：CNN层、LSTM层、LSTM-Skip层的隐藏神经元个数分别设置为100，128、128，滑动窗口大小为10，跳过步数为5；线性部分AR层正则化系数为1；训练批次大小为64，epochs为100，优化器为Adam。通过上述方法实现的预测结果拟合图如图5所示，实验结果对照如表2所示。

表2 实验结果对比表

表2中对比可知，本发明LSTNet模型具有较好的预测精度，通过增加了EEMD模型的优化嵌入，降低了预测误差，提高了模型的预测准确度。如图5所示，EEMD-LSTNet取得较好的模型拟合效果，能够准确的反应未来水质的变化趋势。

基于相同的发明构思，本发明还提出一种基于EEMD-LSTNet的水质参数预测系统，如图6所示，包括：

水质数据获取模块1，用于获取水体的历史水质参数数据；

水质参数选择模块2，用于通过灰色关联度法对预测参数进行相关特征选择；

水质参数分解模块3，用于通过集合经验模态法对数据集的预测序列进行分量分解，得到与之对应的IMF分量和Res残差分量，并组合成样本；

水质预测模块4，用于通过长短期时间序列网络对所述若干IMF分量和Res分量进行预测，并对预测结果进行累加，得到最终的水质预测结果。

本实施例中，采用基于Web网页的客户端进行水质参数预测。此外，为了提升用户体验，还包括可视化界面5，用于可视化显示预测结果；预测结果还可以通过预测结果图片生成模块6以图片形式导出。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。