CN111898673A - 一种基于emd与lstm的溶解氧含量预测方法 - Google Patents

一种基于emd与lstm的溶解氧含量预测方法 Download PDF

Info

Publication number
CN111898673A
CN111898673A CN202010741676.1A CN202010741676A CN111898673A CN 111898673 A CN111898673 A CN 111898673A CN 202010741676 A CN202010741676 A CN 202010741676A CN 111898673 A CN111898673 A CN 111898673A
Authority
CN
China
Prior art keywords
data
dissolved oxygen
monitoring data
lstm
oxygen monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010741676.1A
Other languages
English (en)
Inventor
刘树波
欧阳特
蔡朝晖
涂国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010741676.1A priority Critical patent/CN111898673A/zh
Publication of CN111898673A publication Critical patent/CN111898673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于水文与人工智能技术领域,公开了一种基于EMD与LSTM的溶解氧含量预测方法,包括获取水质数据并进行数据清洗,采用KNN算法对水质数据中的缺失数据进行补全,采用EMD算法对水质数据中的原始溶解氧监测数据时间序列进行分解,获得包括残差和有限个本征模函数在内的多个分量,对多个子LSTM网络进行训练以及验证,利用验证通过的多个子LSTM网络,获得多个分量对应的下一个单位时间的溶解氧预测数值,将所有分量对应的预测数值进行累加,获得下一个单位时间的溶解氧预测结果。本发明解决了现有技术中对溶解氧含量预测的精度较低的问题,能够有效提高预测精度。

Description

一种基于EMD与LSTM的溶解氧含量预测方法
技术领域
本发明涉及水文与人工智能技术领域,尤其涉及一种基于EMD与LSTM的溶解氧含量预测方法。
背景技术
水体溶解氧含量是评估水体质量的重要因素。溶解氧含量预测是根据溶解氧历史监测时间序列数据,运用时间序列预测模型对未来的溶解氧含量进行预测。溶解氧含量与水质紧密相关。溶解氧预测是水质评估的基础,对生产生活用水的有效利用和污染防治有重要的工程和科学意义,在水质预警预报、输供水系统中有着关键作用。
水质测站采集的溶解氧数据是一种时间序列数据,具有时序特征。目前对溶解氧含量的预测主要采用时间序列分析、回归分析、灰色模型等理论,时间序列分析本质是对历史数据的挖掘和分析,回归分析侧重于考查某几个变量之间的定量关系,灰色模型主要用于短期预测。但因溶解氧序列具有时序性、不稳定性和强非线性等特点,并且相关因素众多,故而难以采用传统方法实现精确预测。
发明内容
本申请实施例通过提供一种基于EMD与LSTM的溶解氧含量预测方法,解决了现有技术中对溶解氧含量预测的精度较低的问题。
本申请实施例提供一种基于EMD与LSTM的溶解氧含量预测方法,包括以下步骤:
步骤1、获取水质数据,并对所述水质数据进行数据清洗;
步骤2、采用KNN算法对所述水质数据中的缺失数据进行补全;
步骤3、采用EMD算法对所述水质数据中的原始溶解氧监测数据时间序列进行分解,获得包括残差和有限个本征模函数在内的多个分量;
步骤4、对多个子LSTM网络进行训练;
每个所述子LSTM网络以一个所述分量对应的样本作为输入信息,以下一个单位时间的溶解氧预测数值作为输出信息;
所述分量对应的样本包括该分量多个连续单位时间对应的溶解氧监测数据、温度监测数据、时间标签;
步骤5、对训练后的多个子LSTM网络进行验证;
针对每个所述子LSTM网络,将下一个单位时间的溶解氧监测数值与所述子LSTM网络输出的下一个单位时间的溶解氧预测数值进行对比,若误差小于设定范围,则通过验证;
步骤6、利用验证通过的多个子LSTM网络,获得多个分量对应的下一个单位时间的溶解氧预测数值,将所有分量对应的预测数值进行累加,获得下一个单位时间的溶解氧预测结果。
优选的,所述步骤2中,对缺失数据进行补全包括以下子步骤:
步骤2.1、在所述水质数据中选取溶解氧监测数据缺失的数据记录,并编号为1~N,其余溶解氧监测数据完整的数据记录编号为1~M;
同一时刻的各类水质数据组成的一行数据称为数据记录,每一条数据记录有n类水质数据;
步骤2.2、选取一条溶解氧监测数据缺失的数据记录,计算其与其他溶解氧监测数据完整的数据记录之间的欧式距离dij
Figure BDA0002606963910000021
式中,i为溶解氧监测数据缺失的数据记录对应的编号,j为溶解氧监测数据完整的数据记录对应的编号,xk为溶解氧监测数据缺失的数据记录中第k类水质数据,yk为溶解氧监测数据完整的数据记录中第k类水质数据,xk和yk均不包括溶解氧监测数据;
步骤2.3、选取一条溶解氧监测数据缺失的数据记录,计算其与其他溶解氧监测数据完整的数据记录之间的权重wij
Figure BDA0002606963910000031
步骤2.4、确定一个K值,针对某一条溶解氧监测数据缺失的数据记录,选取K条与该数据记录距离最近的溶解氧监测数据完整的数据记录,并计算获得缺失值T:
Figure BDA0002606963910000032
式中,tj对应溶解氧监测数据完整的数据记录中的溶解氧监测数据。
优选的,所述步骤3中,对所述原始溶解氧监测数据时间序列进行分解包括以下子步骤:
步骤3.1、获取原始溶解氧监测数据时间序列x(t)的所有极值点;
步骤3.2、根据所有极小值点形成下包络线xmin(t),根据所有极大值点形成上包络线xmax(t);
步骤3.3、计算所述下包络线和所述上包络线的均值m(t),m(t)=(xmin(t)+xmax(t))/2;
步骤3.4、将所述原始溶解氧监测数据时间序列x(t)减去所述均值m(t),得到剩余时间序列d(t),d(t)=x(t)-m(t);
步骤3.5、利用上述获得的d(t)代替原始溶解氧监测数据时间序列x(t),重复步骤3.1至步骤3.4,不断得到新的d(t),直到最终得到的d(t)的均值是0,此时得到的d(t)称为本征模函数IMF;
步骤3.6、将所述原始溶解氧监测数据时间序列x(t)减去本征模函数IMF,得到新的时间序列x2(t);
步骤3.7、利用上述获得的新的时间序列x2(t)代替原始溶解氧监测数据时间序列x(t),重复步骤3.1至步骤3.6,利用第i个新的时间序列xi(t)获得新的本征模函数IMF,直到xi(t)减去IMF得到的剩余部分r(t)为单调序列或者常值序列;
步骤3.8、所述原始溶解氧监测数据时间序列x(t)分解为一系列IMF和残差r(t)的叠加:
Figure BDA0002606963910000041
式中,r(t)表示残差,IMFi(t)表示第i个本征模函数。
优选的,所述步骤4中,所述分量对应的样本输入至子LSTM网络之前,还包括对样本进行数据预处理;所述数据预处理采用以下公式:
Figure BDA0002606963910000042
Figure BDA0002606963910000043
式中,Xi为处理后的输入数据,xi为处理前的输入数据,μx为输入数据的均值,бx为输入数据的标准差;Yi为处理后的标签数据,yi为处理前的标签数据,μx为标签数据的均值,бy为标签数据的标准差。
优选的,所述步骤4中,针对每一个分量,以该分量每天6点、12点、18点、24点分别对应的溶解氧监测数据、温度监测数据、时间标签作为所述分量对应的样本,训练子LSTM网络。
优选的,所述步骤4中,所述子LSTM网络包含1层输入层、2层隐藏层、1层输出层,每层所述隐藏层均有128个节点。
优选的,所述步骤4中,所述子LSTM网络采用relu作为激活函数:
Figure BDA0002606963910000044
式中,x为输入网络节点的数值。
优选的,所述步骤4中,所述子LSTM网络采用均方误差MSE作为优化的目标损失:
Figure BDA0002606963910000045
式中,N为数据总数,x为监测数值,
Figure BDA0002606963910000051
为预测数值。
优选的,所述步骤5中,所述单元时间为6小时,利用6小时后的溶解氧监测数值和6小时后的溶解氧预测数值对子LSTM网络进行检验。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本申请实施例中,提供的一种基于EMD与LSTM的溶解氧含量预测方法首先获取水质数据并进行数据清洗,然后采用KNN算法对水质数据中的缺失数据进行补全,之后采用EMD算法对水质数据中的原始溶解氧监测数据时间序列进行分解,获得包括残差和有限个本征模函数在内的多个分量,接着对多个子LSTM网络进行训练以及验证,最后利用验证通过的多个子LSTM网络,获得多个分量对应的下一个单位时间的溶解氧预测数值,将所有分量对应的预测数值进行累加,获得下一个单位时间的溶解氧预测结果。本发明采用EMD算法对数据进行分解,分解出来的各IMF分量包含了原数据的不同时间尺度的特征,降低了数据不稳定性和强非线性,与现有技术相比,由于EMD算法具备自适应性的,为进一步的预测奠定了基础,有助于提高预测精度。此外,本发明采用LSTM算法,有效避免了传统RNN算法带来的梯度爆炸问题。相对于现有算法,本发明采用KNN算法利用了更多的数据进行补全,降低了数据不足对预测的影响,提高了发明的适用范围,提高了数据补全的精确性,进而能够提高预测结果的精度。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于EMD与LSTM的溶解氧含量预测方法的流程示意图。
具体实施方式
本发明提供一种基于EMD与LSTM的溶解氧含量预测方法,主要包括以下步骤:
步骤1、获取水质数据,并对所述水质数据进行数据清洗。
步骤2、采用KNN算法对所述水质数据中的缺失数据进行补全。
步骤3、采用EMD算法对所述水质数据中的原始溶解氧监测数据时间序列进行分解,获得包括残差和有限个本征模函数在内的多个分量。
步骤4、对多个子LSTM网络进行训练。
其中,每个所述子LSTM网络以一个所述分量对应的样本作为输入信息,以下一个单位时间的溶解氧预测数值作为输出信息。所述分量对应的样本包括该分量多个连续单位时间对应的溶解氧监测数据、温度监测数据、时间标签。
步骤5、对训练后的多个子LSTM网络进行验证。
其中,针对每个所述子LSTM网络,将下一个单位时间的溶解氧监测数值与所述子LSTM网络输出的下一个单位时间的溶解氧预测数值进行对比,若误差小于设定范围,则通过验证。
步骤6、利用验证通过的多个子LSTM网络,获得多个分量对应的下一个单位时间的溶解氧预测数值,将所有分量对应的预测数值进行累加,获得下一个单位时间的溶解氧预测结果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本实施例提供了一种基于EMD与LSTM的溶解氧含量预测方法,如图1所示,包括以下步骤:
步骤1、数据清洗,识别水质数据中表示监测异常的极大异常值和非数值类型的数据,并进行删除。
其中,所述水质数据包括溶解氧、温度、PH、浊度等。
异常的极大异常值包括如99999此类作为异常标记性质的异常值以及明显与同类型其他数据不在一个数量级的监测异常值。非数值类型的数据包括范围数据(如<0.05)和显示错误的文本数据(如“设备故障”)等。
步骤2、缺失数据补全,利用KNN算法(k-Nearest Neighbor,K最近邻分类算法)对监测产生的缺失数据以及步骤1清洗后产生的缺失数据进行补全。
具体的,利用KNN算法的数据补全包括以下子步骤:
步骤2.1、在水质数据中选取溶解氧监测数据缺失的数据记录,并编号为1~N,其余溶解氧监测数据完整的数据记录编号为1~M,其中同一时刻的各类水质数据组成的一行数据称为数据记录,每一条数据记录有n类水质数据。
步骤2.2、选取一条溶解氧数据缺失的数据记录,计算其与其他溶解氧监测数据完整的数据记录之间的欧式距离dij
Figure BDA0002606963910000071
其中,i为溶解氧监测数据缺失的数据记录对应的编号,j为溶解氧监测数据完整的数据记录对应的编号,xk为溶解氧监测数据缺失的数据记录中第k类水质数据,yk为溶解氧监测数据完整的数据记录中第k类水质数据,xk和yk均不包括溶解氧监测数据。
步骤2.3、选取一条溶解氧监测数据缺失的数据记录,计算其与其他溶解氧监测数据完整的数据记录之间的权重wij
Figure BDA0002606963910000072
步骤2.4、确定一个K值,针对某一条溶解氧监测数据缺失的数据记录,选取K条与该数据记录距离最近的溶解氧监测数据完整的数据记录,并计算缺失值T:
Figure BDA0002606963910000081
其中,tj对应溶解氧监测数据完整的数据记录中的溶解氧监测数据。
经过测试,本发明选取的K值为10。
步骤3、溶解氧数据序列分解,采用EMD算法(Empirical Mode Decomposition,经验模态分解)对原始溶解氧监测数据时间序列进行分解,得到包括有限个本征模函数IMF(Intrinsic Mode Function)和残差在内的各个分量。
具体的,采用EMD算法对原始溶解氧监测数据时间序列进行分解包括以下子步骤:
步骤3.1、找到原始溶解氧监测数据时间序列x(t)的所有极值点;
步骤3.2、根据所有极小值点形成下包络线xmin(t),根据所有极大值点形成上包络线xmax(t);
步骤3.3、计算下包络线和上包络线的均值m(t)=(xmin(t)+xmax(t))/2;
步骤3.4、将原溶解氧监测数据时间序列x(t)减去均值m(t),得到剩余时间序列d(t)=x(t)-m(t);
步骤3.5、利用上述获得的d(t)代替原始溶解氧监测数据时间序列x(t),重复步骤3.1至步骤3.4不断得到新的d(t),直到d(t)的均值是0,此时得到的d(t)称为本征模函数IMF(Intrinsic Mode Function);
步骤3.6、将原溶解氧监测数据时间序列x(t)减去IMF,得到新的时间序列x2(t);
步骤3.7、利用上述获得的新的时间序列x2(t)代替原始溶解氧监测数据时间序列x(t),重复步骤3.1至步骤3.6,利用第i个新的时间序列xi(t)获得新的IMF,直到xi(t)减去IMF得到的剩余部分r(t)为单调序列或者常值序列;
步骤3.8、由此原始溶解氧监测数据时间序列x(t)就分解为一系列IMF和最后的线性残差r(t)的叠加:
Figure BDA0002606963910000091
式中,r(t)表示残差,IMFi(t)表示第i个本征模函数。
步骤4、在对数据进行分析后,考虑到水中溶解氧含量和温度存在密切关系,选取溶解氧监测数据、对应时间点的温度、对应时间点的时间标签(天)作为输入的特征。
步骤5、数据预处理,对输入数据进行标准化处理。
具体的,标准化处理采用的公式为:
Figure BDA0002606963910000092
Figure BDA0002606963910000093
其中,Xi为处理后的输入数据,xi为处理前的输入数据,μx为输入数据的均值,бx为输入数据的标准差;Yi为处理后的标签数据,yi为处理前的标签数据,μx为标签数据的均值,бy为标签数据的标准差。
步骤6、训练子LSTM网络,选取步骤3经EMD分解后的其中一个分量,以该分量每天6点、12点、18点和24点的溶解氧监测数据、温度监测数据(即对应时间点的温度)和时间标签(例如6点、12点、18点、24点)作为一个样本,训练子LSTM网络,用下一个时间点(6小时后)的溶解氧含量进行检验。
具体的,LSTM神经网络包含1层输入层、2层隐藏层、1层输出层,其中两个隐藏层均有128个节点。
LSTM神经网络采用relu作为激活函数:
Figure BDA0002606963910000094
式中,x为输入网络节点的数值。
采用relu作为激活函数可确保计算速度和收敛速度比较快。
LSTM神经网络采用均方误差MSE作为优化的目标损失:
Figure BDA0002606963910000101
其中,N为数据总数;x为数据真实值,即监测数值;
Figure BDA0002606963910000102
为数据预测值,即预测数值。
步骤7、重复步骤6,直至包括有限个本征模函数IMF和残差在内的全部分量均训练完毕。
步骤8、溶解氧含量预测,利用训练好的各个子LSTM网络,预测各个分量,所有分量累加后得到未来6小时预测值。
综上,本发明采用KNN算法对数据进行了补全,降低了数据不足对预测的影响,提高了发明的适用范围;且考虑到实际情况,水质数据监测工作不会只获取一种类别的水质数据,往往是同时监测多类数据形成一张多维的数据表,而传统的线型插值或者是牛顿插值法只能选择一行或者一列进行插值。而KNN算法相对于上述传统算法,利用了更多的数据进行补全,提高了数据补全的精确性,进而能够提高预测结果的精度。考虑到数据以及数据采集的过程涉及到一系列现实活动,例如人为干扰、气候变化、仪器测量误差等,会导致采集到的数据具有强非线性,这给预测带来了困难,故而本发明采用EMD算法对数据进行分解,使复杂信号分解为有限个本征模函数和残差,所分解出来的各IMF分量包含了原数据的不同时间尺度的特征,降低了数据不稳定性和强非线性,与现有技术相比,由于EMD分解过程完全由自身数据所决定的,不像小波分析等方法需要事先选定一个基函数,而这个基函数在分析过程中无法更换以适应所有情况,因此EMD算法是直接的,具备自适应性的,EMD算法为进一步的预测奠定了基础,有助于提高预测精度。采用LSTM算法,有效避免了传统RNN算法带来的梯度爆炸问题,且针对性的调整了网络结构(包含1层输入层、2层隐藏层、1层输出层,其中两个隐藏层均有128个节点)可以更好地适用于水质数据预测。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于EMD与LSTM的溶解氧含量预测方法,其特征在于,包括以下步骤:
步骤1、获取水质数据,并对所述水质数据进行数据清洗;
步骤2、采用KNN算法对所述水质数据中的缺失数据进行补全;
步骤3、采用EMD算法对所述水质数据中的原始溶解氧监测数据时间序列进行分解,获得包括残差和有限个本征模函数在内的多个分量;
步骤4、对多个子LSTM网络进行训练;
每个所述子LSTM网络以一个所述分量对应的样本作为输入信息,以下一个单位时间的溶解氧预测数值作为输出信息;
所述分量对应的样本包括该分量多个连续单位时间对应的溶解氧监测数据、温度监测数据、时间标签;
步骤5、对训练后的多个子LSTM网络进行验证;
针对每个所述子LSTM网络,将下一个单位时间的溶解氧监测数值与所述子LSTM网络输出的下一个单位时间的溶解氧预测数值进行对比,若误差小于设定范围,则通过验证;
步骤6、利用验证通过的多个子LSTM网络,获得多个分量对应的下一个单位时间的溶解氧预测数值,将所有分量对应的预测数值进行累加,获得下一个单位时间的溶解氧预测结果。
2.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤2中,对缺失数据进行补全包括以下子步骤:
步骤2.1、在所述水质数据中选取溶解氧监测数据缺失的数据记录,并编号为1~N,其余溶解氧监测数据完整的数据记录编号为1~M;
同一时刻的各类水质数据组成的一行数据称为数据记录,每一条数据记录有n类水质数据;
步骤2.2、选取一条溶解氧监测数据缺失的数据记录,计算其与其他溶解氧监测数据完整的数据记录之间的欧式距离dij
Figure FDA0002606963900000021
式中,i为溶解氧监测数据缺失的数据记录对应的编号,j为溶解氧监测数据完整的数据记录对应的编号,xk为溶解氧监测数据缺失的数据记录中第k类水质数据,yk为溶解氧监测数据完整的数据记录中第k类水质数据,xk和yk均不包括溶解氧监测数据;
步骤2.3、选取一条溶解氧监测数据缺失的数据记录,计算其与其他溶解氧监测数据完整的数据记录之间的权重wij
Figure FDA0002606963900000022
步骤2.4、确定一个K值,针对某一条溶解氧监测数据缺失的数据记录,选取K条与该数据记录距离最近的溶解氧监测数据完整的数据记录,并计算获得缺失值T:
Figure FDA0002606963900000023
式中,tj对应溶解氧监测数据完整的数据记录中的溶解氧监测数据。
3.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤3中,对所述原始溶解氧监测数据时间序列进行分解包括以下子步骤:
步骤3.1、获取原始溶解氧监测数据时间序列x(t)的所有极值点;
步骤3.2、根据所有极小值点形成下包络线xmin(t),根据所有极大值点形成上包络线xmax(t);
步骤3.3、计算所述下包络线和所述上包络线的均值m(t),m(t)=(xmin(t)+xmax(t))/2;
步骤3.4、将所述原始溶解氧监测数据时间序列x(t)减去所述均值m(t),得到剩余时间序列d(t),d(t)=x(t)-m(t);
步骤3.5、利用上述获得的d(t)代替原始溶解氧监测数据时间序列x(t),重复步骤3.1至步骤3.4,不断得到新的d(t),直到最终得到的d(t)的均值是0,此时得到的d(t)称为本征模函数IMF;
步骤3.6、将所述原始溶解氧监测数据时间序列x(t)减去本征模函数IMF,得到新的时间序列x2(t);
步骤3.7、利用上述获得的新的时间序列x2(t)代替原始溶解氧监测数据时间序列x(t),重复步骤3.1至步骤3.6,利用第i个新的时间序列xi(t)获得新的本征模函数IMF,直到xi(t)减去IMF得到的剩余部分r(t)为单调序列或者常值序列;
步骤3.8、所述原始溶解氧监测数据时间序列x(t)分解为一系列IMF和残差r(t)的叠加:
Figure FDA0002606963900000031
式中,r(t)表示残差,IMFi(t)表示第i个本征模函数。
4.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤4中,所述分量对应的样本输入至子LSTM网络之前,还包括对样本进行数据预处理;所述数据预处理采用以下公式:
Figure FDA0002606963900000032
Figure FDA0002606963900000033
式中,Xi为处理后的输入数据,xi为处理前的输入数据,μx为输入数据的均值,бx为输入数据的标准差;Yi为处理后的标签数据,yi为处理前的标签数据,μx为标签数据的均值,бy为标签数据的标准差。
5.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤4中,针对每一个分量,以该分量每天6点、12点、18点、24点分别对应的溶解氧监测数据、温度监测数据、时间标签作为所述分量对应的样本,训练子LSTM网络。
6.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤4中,所述子LSTM网络包含1层输入层、2层隐藏层、1层输出层,每层所述隐藏层均有128个节点。
7.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤4中,所述子LSTM网络采用relu作为激活函数:
Figure FDA0002606963900000041
式中,x为输入网络节点的数值。
8.根据权利要求1所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤4中,所述子LSTM网络采用均方误差MSE作为优化的目标损失:
Figure FDA0002606963900000042
式中,N为数据总数,x为监测数值,
Figure FDA0002606963900000043
为预测数值。
9.根据权利要求5所述的基于EMD与LSTM的溶解氧含量预测方法,其特征在于,所述步骤5中,所述单元时间为6小时,利用6小时后的溶解氧监测数值和6小时后的溶解氧预测数值对子LSTM网络进行检验。
CN202010741676.1A 2020-07-29 2020-07-29 一种基于emd与lstm的溶解氧含量预测方法 Pending CN111898673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010741676.1A CN111898673A (zh) 2020-07-29 2020-07-29 一种基于emd与lstm的溶解氧含量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010741676.1A CN111898673A (zh) 2020-07-29 2020-07-29 一种基于emd与lstm的溶解氧含量预测方法

Publications (1)

Publication Number Publication Date
CN111898673A true CN111898673A (zh) 2020-11-06

Family

ID=73182331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010741676.1A Pending CN111898673A (zh) 2020-07-29 2020-07-29 一种基于emd与lstm的溶解氧含量预测方法

Country Status (1)

Country Link
CN (1) CN111898673A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884249A (zh) * 2021-03-25 2021-06-01 国家海洋信息中心 一种海域表层水温预测方法和装置
CN115166176A (zh) * 2022-06-24 2022-10-11 山东科技大学 一种基于tcn模型的池塘溶解氧浓度预测方法
CN115563487A (zh) * 2022-09-23 2023-01-03 江苏安控智汇科技股份有限公司 一种基于emd和改进lstm的水质监测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609105A (zh) * 2017-09-12 2018-01-19 电子科技大学 大数据加速结构的构建方法
CN108133297A (zh) * 2018-01-26 2018-06-08 广州大学 基于长短期记忆网络的溶解氧预测方法与系统
CN111144286A (zh) * 2019-12-25 2020-05-12 北京工业大学 一种融合emd和lstm的城市pm2.5浓度预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609105A (zh) * 2017-09-12 2018-01-19 电子科技大学 大数据加速结构的构建方法
CN108133297A (zh) * 2018-01-26 2018-06-08 广州大学 基于长短期记忆网络的溶解氧预测方法与系统
CN111144286A (zh) * 2019-12-25 2020-05-12 北京工业大学 一种融合emd和lstm的城市pm2.5浓度预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
严远亭等: "构造性覆盖下不完整数据修正填充方法", 《智能系统学报》 *
杨涛等: "基于马氏距离的缺失值填充算法", 《计算机应用》 *
郝胜轩等: "基于近邻噪声处理的 KNN 缺失数据填补算法", 《计算机仿真》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884249A (zh) * 2021-03-25 2021-06-01 国家海洋信息中心 一种海域表层水温预测方法和装置
CN115166176A (zh) * 2022-06-24 2022-10-11 山东科技大学 一种基于tcn模型的池塘溶解氧浓度预测方法
CN115166176B (zh) * 2022-06-24 2024-03-26 山东科技大学 一种基于tcn模型的池塘溶解氧浓度预测方法
CN115563487A (zh) * 2022-09-23 2023-01-03 江苏安控智汇科技股份有限公司 一种基于emd和改进lstm的水质监测方法

Similar Documents

Publication Publication Date Title
CN111382542B (zh) 一种面向全寿命周期的公路机电设备寿命预测系统
CN111898673A (zh) 一种基于emd与lstm的溶解氧含量预测方法
CN112508053A (zh) 基于集成学习框架的智能诊断方法、装置、设备及介质
CN111814956B (zh) 一种基于多维度二次特征提取的多任务学习的空气质量预测方法
CN106897774B (zh) 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法
CN113516285B (zh) 自动化装配检测生产线在生产中产品质量分析预测方法
CN111079836A (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN113516310B (zh) 一种变压器故障预警方法及系统
CN108334943A (zh) 基于主动学习神经网络模型的工业过程半监督软测量建模方法
CN113342597B (zh) 一种基于高斯混合隐马尔可夫模型的系统故障预测方法
CN115358437A (zh) 基于卷积神经网络的供电负荷预测方法
CN113722308B (zh) 基于EEMD-MultiCNN-LSTM的加速度响应数据补全方法及装置
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN116386756A (zh) 一种基于集成神经网络可信度估计与加权学习的软测量建模方法
CN114818460A (zh) 基于自动机器学习的实验室设备剩余使用寿命预测方法
CN115828744A (zh) 一种白光发光二极管故障在线诊断与寿命预测方法
CN115985411A (zh) 基于高斯过程回归模型的高分子熔融指数软测量方法
CN112231849B (zh) 基于nest和sprt融合算法的轴温故障检测方法
CN115600695A (zh) 一种计量设备的故障诊断方法
CN114676887A (zh) 一种基于图卷积stg-lstm的河流水质预测方法
CN115035962A (zh) 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法
CN111062118B (zh) 一种基于神经网络预测分层的多层软测量建模系统及方法
Wang et al. Complex equipment diagnostic reasoning based on neural network algorithm
CN114841000B (zh) 一种基于模态共有特征分离的软测量建模方法
CN115808504B (zh) 一种用于浓度预测的气体传感器在线漂移补偿方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201106