CN111898673A

CN111898673A - 一种基于emd与lstm的溶解氧含量预测方法

Info

Publication number: CN111898673A
Application number: CN202010741676.1A
Authority: CN
Inventors: 刘树波; 欧阳特; 蔡朝晖; 涂国庆
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-06

Abstract

本发明属于水文与人工智能技术领域，公开了一种基于EMD与LSTM的溶解氧含量预测方法，包括获取水质数据并进行数据清洗，采用KNN算法对水质数据中的缺失数据进行补全，采用EMD算法对水质数据中的原始溶解氧监测数据时间序列进行分解，获得包括残差和有限个本征模函数在内的多个分量，对多个子LSTM网络进行训练以及验证，利用验证通过的多个子LSTM网络，获得多个分量对应的下一个单位时间的溶解氧预测数值，将所有分量对应的预测数值进行累加，获得下一个单位时间的溶解氧预测结果。本发明解决了现有技术中对溶解氧含量预测的精度较低的问题，能够有效提高预测精度。

Description

一种基于EMD与LSTM的溶解氧含量预测方法

技术领域

本发明涉及水文与人工智能技术领域，尤其涉及一种基于EMD与LSTM的溶解氧含量预测方法。

背景技术

水体溶解氧含量是评估水体质量的重要因素。溶解氧含量预测是根据溶解氧历史监测时间序列数据，运用时间序列预测模型对未来的溶解氧含量进行预测。溶解氧含量与水质紧密相关。溶解氧预测是水质评估的基础，对生产生活用水的有效利用和污染防治有重要的工程和科学意义，在水质预警预报、输供水系统中有着关键作用。

水质测站采集的溶解氧数据是一种时间序列数据，具有时序特征。目前对溶解氧含量的预测主要采用时间序列分析、回归分析、灰色模型等理论，时间序列分析本质是对历史数据的挖掘和分析，回归分析侧重于考查某几个变量之间的定量关系，灰色模型主要用于短期预测。但因溶解氧序列具有时序性、不稳定性和强非线性等特点，并且相关因素众多，故而难以采用传统方法实现精确预测。

发明内容

本申请实施例通过提供一种基于EMD与LSTM的溶解氧含量预测方法，解决了现有技术中对溶解氧含量预测的精度较低的问题。

本申请实施例提供一种基于EMD与LSTM的溶解氧含量预测方法，包括以下步骤：

步骤1、获取水质数据，并对所述水质数据进行数据清洗；

步骤2、采用KNN算法对所述水质数据中的缺失数据进行补全；

步骤3、采用EMD算法对所述水质数据中的原始溶解氧监测数据时间序列进行分解，获得包括残差和有限个本征模函数在内的多个分量；

步骤4、对多个子LSTM网络进行训练；

每个所述子LSTM网络以一个所述分量对应的样本作为输入信息，以下一个单位时间的溶解氧预测数值作为输出信息；

所述分量对应的样本包括该分量多个连续单位时间对应的溶解氧监测数据、温度监测数据、时间标签；

步骤5、对训练后的多个子LSTM网络进行验证；

针对每个所述子LSTM网络，将下一个单位时间的溶解氧监测数值与所述子LSTM网络输出的下一个单位时间的溶解氧预测数值进行对比，若误差小于设定范围，则通过验证；

步骤6、利用验证通过的多个子LSTM网络，获得多个分量对应的下一个单位时间的溶解氧预测数值，将所有分量对应的预测数值进行累加，获得下一个单位时间的溶解氧预测结果。

优选的，所述步骤2中，对缺失数据进行补全包括以下子步骤：

步骤2.1、在所述水质数据中选取溶解氧监测数据缺失的数据记录，并编号为1～N，其余溶解氧监测数据完整的数据记录编号为1～M；

同一时刻的各类水质数据组成的一行数据称为数据记录，每一条数据记录有n类水质数据；

步骤2.2、选取一条溶解氧监测数据缺失的数据记录，计算其与其他溶解氧监测数据完整的数据记录之间的欧式距离d_ij：

式中，i为溶解氧监测数据缺失的数据记录对应的编号，j为溶解氧监测数据完整的数据记录对应的编号，x_k为溶解氧监测数据缺失的数据记录中第k类水质数据，y_k为溶解氧监测数据完整的数据记录中第k类水质数据，x_k和y_k均不包括溶解氧监测数据；

步骤2.3、选取一条溶解氧监测数据缺失的数据记录，计算其与其他溶解氧监测数据完整的数据记录之间的权重w_ij：

步骤2.4、确定一个K值，针对某一条溶解氧监测数据缺失的数据记录，选取K条与该数据记录距离最近的溶解氧监测数据完整的数据记录，并计算获得缺失值T：

式中，t_j对应溶解氧监测数据完整的数据记录中的溶解氧监测数据。

优选的，所述步骤3中，对所述原始溶解氧监测数据时间序列进行分解包括以下子步骤：

步骤3.1、获取原始溶解氧监测数据时间序列x(t)的所有极值点；

步骤3.2、根据所有极小值点形成下包络线x_min(t)，根据所有极大值点形成上包络线x_max(t)；

步骤3.3、计算所述下包络线和所述上包络线的均值m(t)，m(t)＝(x_min(t)+x_max(t))/2；

步骤3.4、将所述原始溶解氧监测数据时间序列x(t)减去所述均值m(t)，得到剩余时间序列d(t)，d(t)＝x(t)-m(t)；

步骤3.5、利用上述获得的d(t)代替原始溶解氧监测数据时间序列x(t)，重复步骤3.1至步骤3.4，不断得到新的d(t)，直到最终得到的d(t)的均值是0，此时得到的d(t)称为本征模函数IMF；

步骤3.6、将所述原始溶解氧监测数据时间序列x(t)减去本征模函数IMF，得到新的时间序列x₂(t)；

步骤3.7、利用上述获得的新的时间序列x₂(t)代替原始溶解氧监测数据时间序列x(t)，重复步骤3.1至步骤3.6，利用第i个新的时间序列x_i(t)获得新的本征模函数IMF，直到x_i(t)减去IMF得到的剩余部分r(t)为单调序列或者常值序列；

步骤3.8、所述原始溶解氧监测数据时间序列x(t)分解为一系列IMF和残差r(t)的叠加：

式中，r(t)表示残差，IMF_i(t)表示第i个本征模函数。

优选的，所述步骤4中，所述分量对应的样本输入至子LSTM网络之前，还包括对样本进行数据预处理；所述数据预处理采用以下公式：

式中，X_i为处理后的输入数据，x_i为处理前的输入数据，μ_x为输入数据的均值，б_x为输入数据的标准差；Y_i为处理后的标签数据，y_i为处理前的标签数据，μ_x为标签数据的均值，б_y为标签数据的标准差。

优选的，所述步骤4中，针对每一个分量，以该分量每天6点、12点、18点、24点分别对应的溶解氧监测数据、温度监测数据、时间标签作为所述分量对应的样本，训练子LSTM网络。

优选的，所述步骤4中，所述子LSTM网络包含1层输入层、2层隐藏层、1层输出层，每层所述隐藏层均有128个节点。

优选的，所述步骤4中，所述子LSTM网络采用relu作为激活函数：

式中，x为输入网络节点的数值。

优选的，所述步骤4中，所述子LSTM网络采用均方误差MSE作为优化的目标损失：

式中，N为数据总数，x为监测数值，

为预测数值。

优选的，所述步骤5中，所述单元时间为6小时，利用6小时后的溶解氧监测数值和6小时后的溶解氧预测数值对子LSTM网络进行检验。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本申请实施例中，提供的一种基于EMD与LSTM的溶解氧含量预测方法首先获取水质数据并进行数据清洗，然后采用KNN算法对水质数据中的缺失数据进行补全，之后采用EMD算法对水质数据中的原始溶解氧监测数据时间序列进行分解，获得包括残差和有限个本征模函数在内的多个分量，接着对多个子LSTM网络进行训练以及验证，最后利用验证通过的多个子LSTM网络，获得多个分量对应的下一个单位时间的溶解氧预测数值，将所有分量对应的预测数值进行累加，获得下一个单位时间的溶解氧预测结果。本发明采用EMD算法对数据进行分解，分解出来的各IMF分量包含了原数据的不同时间尺度的特征，降低了数据不稳定性和强非线性，与现有技术相比，由于EMD算法具备自适应性的，为进一步的预测奠定了基础，有助于提高预测精度。此外，本发明采用LSTM算法，有效避免了传统RNN算法带来的梯度爆炸问题。相对于现有算法，本发明采用KNN算法利用了更多的数据进行补全，降低了数据不足对预测的影响，提高了发明的适用范围，提高了数据补全的精确性，进而能够提高预测结果的精度。

附图说明

为了更清楚地说明本实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于EMD与LSTM的溶解氧含量预测方法的流程示意图。

具体实施方式

本发明提供一种基于EMD与LSTM的溶解氧含量预测方法，主要包括以下步骤：

步骤1、获取水质数据，并对所述水质数据进行数据清洗。

步骤2、采用KNN算法对所述水质数据中的缺失数据进行补全。

步骤3、采用EMD算法对所述水质数据中的原始溶解氧监测数据时间序列进行分解，获得包括残差和有限个本征模函数在内的多个分量。

步骤4、对多个子LSTM网络进行训练。

其中，每个所述子LSTM网络以一个所述分量对应的样本作为输入信息，以下一个单位时间的溶解氧预测数值作为输出信息。所述分量对应的样本包括该分量多个连续单位时间对应的溶解氧监测数据、温度监测数据、时间标签。

步骤5、对训练后的多个子LSTM网络进行验证。

其中，针对每个所述子LSTM网络，将下一个单位时间的溶解氧监测数值与所述子LSTM网络输出的下一个单位时间的溶解氧预测数值进行对比，若误差小于设定范围，则通过验证。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本实施例提供了一种基于EMD与LSTM的溶解氧含量预测方法，如图1所示，包括以下步骤：

步骤1、数据清洗，识别水质数据中表示监测异常的极大异常值和非数值类型的数据，并进行删除。

其中，所述水质数据包括溶解氧、温度、PH、浊度等。

异常的极大异常值包括如99999此类作为异常标记性质的异常值以及明显与同类型其他数据不在一个数量级的监测异常值。非数值类型的数据包括范围数据(如<0.05)和显示错误的文本数据(如“设备故障”)等。

步骤2、缺失数据补全，利用KNN算法(k-Nearest Neighbor，K最近邻分类算法)对监测产生的缺失数据以及步骤1清洗后产生的缺失数据进行补全。

具体的，利用KNN算法的数据补全包括以下子步骤：

步骤2.1、在水质数据中选取溶解氧监测数据缺失的数据记录，并编号为1～N，其余溶解氧监测数据完整的数据记录编号为1～M，其中同一时刻的各类水质数据组成的一行数据称为数据记录，每一条数据记录有n类水质数据。

步骤2.2、选取一条溶解氧数据缺失的数据记录，计算其与其他溶解氧监测数据完整的数据记录之间的欧式距离d_ij：

其中，i为溶解氧监测数据缺失的数据记录对应的编号，j为溶解氧监测数据完整的数据记录对应的编号，x_k为溶解氧监测数据缺失的数据记录中第k类水质数据，y_k为溶解氧监测数据完整的数据记录中第k类水质数据，x_k和y_k均不包括溶解氧监测数据。

步骤2.4、确定一个K值，针对某一条溶解氧监测数据缺失的数据记录，选取K条与该数据记录距离最近的溶解氧监测数据完整的数据记录，并计算缺失值T：

其中，t_j对应溶解氧监测数据完整的数据记录中的溶解氧监测数据。

经过测试，本发明选取的K值为10。

步骤3、溶解氧数据序列分解，采用EMD算法(Empirical Mode Decomposition，经验模态分解)对原始溶解氧监测数据时间序列进行分解，得到包括有限个本征模函数IMF(Intrinsic Mode Function)和残差在内的各个分量。

具体的，采用EMD算法对原始溶解氧监测数据时间序列进行分解包括以下子步骤：

步骤3.1、找到原始溶解氧监测数据时间序列x(t)的所有极值点；

步骤3.3、计算下包络线和上包络线的均值m(t)＝(x_min(t)+x_max(t))/2；

步骤3.4、将原溶解氧监测数据时间序列x(t)减去均值m(t)，得到剩余时间序列d(t)＝x(t)-m(t)；

步骤3.5、利用上述获得的d(t)代替原始溶解氧监测数据时间序列x(t)，重复步骤3.1至步骤3.4不断得到新的d(t)，直到d(t)的均值是0，此时得到的d(t)称为本征模函数IMF(Intrinsic Mode Function)；

步骤3.6、将原溶解氧监测数据时间序列x(t)减去IMF，得到新的时间序列x₂(t)；

步骤3.7、利用上述获得的新的时间序列x₂(t)代替原始溶解氧监测数据时间序列x(t)，重复步骤3.1至步骤3.6，利用第i个新的时间序列x_i(t)获得新的IMF，直到x_i(t)减去IMF得到的剩余部分r(t)为单调序列或者常值序列；

步骤3.8、由此原始溶解氧监测数据时间序列x(t)就分解为一系列IMF和最后的线性残差r(t)的叠加：

式中，r(t)表示残差，IMF_i(t)表示第i个本征模函数。

步骤4、在对数据进行分析后，考虑到水中溶解氧含量和温度存在密切关系，选取溶解氧监测数据、对应时间点的温度、对应时间点的时间标签(天)作为输入的特征。

步骤5、数据预处理，对输入数据进行标准化处理。

具体的，标准化处理采用的公式为：

其中，X_i为处理后的输入数据，x_i为处理前的输入数据，μ_x为输入数据的均值，б_x为输入数据的标准差；Y_i为处理后的标签数据，y_i为处理前的标签数据，μ_x为标签数据的均值，б_y为标签数据的标准差。

步骤6、训练子LSTM网络，选取步骤3经EMD分解后的其中一个分量，以该分量每天6点、12点、18点和24点的溶解氧监测数据、温度监测数据(即对应时间点的温度)和时间标签(例如6点、12点、18点、24点)作为一个样本，训练子LSTM网络，用下一个时间点(6小时后)的溶解氧含量进行检验。

具体的，LSTM神经网络包含1层输入层、2层隐藏层、1层输出层，其中两个隐藏层均有128个节点。

LSTM神经网络采用relu作为激活函数：

式中，x为输入网络节点的数值。

采用relu作为激活函数可确保计算速度和收敛速度比较快。

LSTM神经网络采用均方误差MSE作为优化的目标损失：

其中，N为数据总数；x为数据真实值，即监测数值；

为数据预测值，即预测数值。

步骤7、重复步骤6，直至包括有限个本征模函数IMF和残差在内的全部分量均训练完毕。

步骤8、溶解氧含量预测，利用训练好的各个子LSTM网络，预测各个分量，所有分量累加后得到未来6小时预测值。

综上，本发明采用KNN算法对数据进行了补全，降低了数据不足对预测的影响，提高了发明的适用范围；且考虑到实际情况，水质数据监测工作不会只获取一种类别的水质数据，往往是同时监测多类数据形成一张多维的数据表，而传统的线型插值或者是牛顿插值法只能选择一行或者一列进行插值。而KNN算法相对于上述传统算法，利用了更多的数据进行补全，提高了数据补全的精确性，进而能够提高预测结果的精度。考虑到数据以及数据采集的过程涉及到一系列现实活动，例如人为干扰、气候变化、仪器测量误差等，会导致采集到的数据具有强非线性，这给预测带来了困难，故而本发明采用EMD算法对数据进行分解，使复杂信号分解为有限个本征模函数和残差，所分解出来的各IMF分量包含了原数据的不同时间尺度的特征，降低了数据不稳定性和强非线性，与现有技术相比，由于EMD分解过程完全由自身数据所决定的，不像小波分析等方法需要事先选定一个基函数，而这个基函数在分析过程中无法更换以适应所有情况，因此EMD算法是直接的，具备自适应性的，EMD算法为进一步的预测奠定了基础，有助于提高预测精度。采用LSTM算法，有效避免了传统RNN算法带来的梯度爆炸问题，且针对性的调整了网络结构(包含1层输入层、2层隐藏层、1层输出层，其中两个隐藏层均有128个节点)可以更好地适用于水质数据预测。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于EMD与LSTM的溶解氧含量预测方法，其特征在于，包括以下步骤：

步骤1、获取水质数据，并对所述水质数据进行数据清洗；

步骤2、采用KNN算法对所述水质数据中的缺失数据进行补全；

步骤4、对多个子LSTM网络进行训练；

步骤5、对训练后的多个子LSTM网络进行验证；

2.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤2中，对缺失数据进行补全包括以下子步骤：

3.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤3中，对所述原始溶解氧监测数据时间序列进行分解包括以下子步骤：

式中，r(t)表示残差，IMF_i(t)表示第i个本征模函数。

4.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤4中，所述分量对应的样本输入至子LSTM网络之前，还包括对样本进行数据预处理；所述数据预处理采用以下公式：

5.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤4中，针对每一个分量，以该分量每天6点、12点、18点、24点分别对应的溶解氧监测数据、温度监测数据、时间标签作为所述分量对应的样本，训练子LSTM网络。

6.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤4中，所述子LSTM网络包含1层输入层、2层隐藏层、1层输出层，每层所述隐藏层均有128个节点。

7.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤4中，所述子LSTM网络采用relu作为激活函数：

式中，x为输入网络节点的数值。

8.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤4中，所述子LSTM网络采用均方误差MSE作为优化的目标损失：

式中，N为数据总数，x为监测数值，

为预测数值。

9.根据权利要求5所述的基于EMD与LSTM的溶解氧含量预测方法，其特征在于，所述步骤5中，所述单元时间为6小时，利用6小时后的溶解氧监测数值和6小时后的溶解氧预测数值对子LSTM网络进行检验。