CN111401599B - 一种基于相似性搜索和lstm神经网络的水位预测方法 - Google Patents

一种基于相似性搜索和lstm神经网络的水位预测方法 Download PDF

Info

Publication number
CN111401599B
CN111401599B CN201910706437.XA CN201910706437A CN111401599B CN 111401599 B CN111401599 B CN 111401599B CN 201910706437 A CN201910706437 A CN 201910706437A CN 111401599 B CN111401599 B CN 111401599B
Authority
CN
China
Prior art keywords
sequence
data
index
value
similarity search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910706437.XA
Other languages
English (en)
Other versions
CN111401599A (zh
Inventor
万定生
周金玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201910706437.XA priority Critical patent/CN111401599B/zh
Publication of CN111401599A publication Critical patent/CN111401599A/zh
Application granted granted Critical
Publication of CN111401599B publication Critical patent/CN111401599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Abstract

本发明公开一种基于相似性搜索和LSTM神经网络的水位预测方法,根据待预测日前二十日的水位与此前所有历史水位数据进行比较,利用相似性搜索找出与其相近的一系列时间序列,将其作为训练集采用LSTM网络进行预测。该方法主要包括:数据预处理,旨在查补原始数据中的缺失及错误;水文时间序列快速相似搜索,在离线过程使用滑动窗口方法划分原始时间序列,再通过改进Chameleon聚类方法、最小距离方差法和学习过滤选择法选择合适的索引参考集,最后基于约束DTW距离对原始时间序列的每个位置进行嵌入索引计算形成最终的索引空间。本发明能够提前预测水位,为防洪抗灾工作提供有效的技术支持。

Description

一种基于相似性搜索和LSTM神经网络的水位预测方法
技术领域
本发明涉及一种基于相似性搜索和LSTM神经网络预测水位技术,具体涉及对水位信息进行相似性搜索有效降低训练集的冗余以及利用LSTM神经网络进行预测的技术。
背景技术
近年来,我国水文行业从传统水文向现代水文迈进,自动水文站观测技术快速推广,从人工手动记录水文数据资料记录到当前自动站每几分钟甚至每秒钟一次的数据记录,水文数据资料覆盖愈加全面。这些水文数据拥有数量大、类别杂、时空性、更新快等特点,同时,它们受到季节气候、地貌特征、水文规律等诸多条件影响,隐藏了很多有价值的规律和信息。如何对它们进行有力的分析,从中得到有用的信息从而服务于水文预报、洪水检测等成为人们关注的焦点。传统水文行业普遍根据水文环境和过程建立物理模型再加以人工经验进行预测。
现今常用的水文时间序列预测模型存在一些缺点,基于统计学方法的时间序列预测模型需要基于一些归纳和假想情况进行模拟分析,会有不符合实际情况的可能性;灰色系统理论中,数据愈分散,准确度就愈低;最为常用的神经网络模型,BP网络易陷入局部最优解,单一ELM学习性能不稳定。近年来,深度学习研究在其他领域取得了不俗的成就,同样也可以将其引入水文时间序列预测研究中,结合时间序列相似性研究,对水文时间序列进行预测。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提高预测精度和减少预测用时,提供一种基于相似性搜索和LSTM神经网络的水位预测方法。
技术方案:本发明的一种基于相似性搜索和LSTM神经网络的水位预测方法,所述方法包括如下步骤:
(1)获取待预测日前二十日及此前历史水位数据,并对数据预处理;
(2)依据水文时间序列快速相似性搜索方法对已处理数据进行相似性搜索,得到K条与待搜索序列相似的序列组成训练集;
(3)构建基于LSTM的神经网络模型,将相似性搜索结果作为训练集,通过网络模型进行训练预测。
步骤(1)中数据预处理方法包括:填补缺失数据、修正错误数据、平滑数据、标准化数据;缺失数据填补方法缺失值计算方法如下:缺失数据为单值时,采用均值插补法,其中xmiss为缺失值,miss为缺失值在数据中所处位置的下标,公式如下:
xmiss=(xmiss-1+xmiss+1)/2, (公式1)
缺失数据为连续多值时采用线性插补法,其中xexist和xexist+m为已知值,两者中间缺失m个数据,缺失值xmiss(exist<miss<exist+m)公式如下:
Figure RE-GDA0002215873080000021
错误数据修正方法依据拉依达准则,确定数据集X,数值分布在(μ-3σ,μ+3σ) 中的概率为0.9973,μ为X的均值,σ为X的标准差,不在此范围内的数据被识别为错误数据,将其删除。
平滑数据为消除数据随机波动和错误点产生的干扰,对给定数据进行数据平滑操作。采用部分数据的加权和作为参考进行平滑处理,公式如下:
Figure RE-GDA0002215873080000022
其中,0≤λ(n)≤1为衰减函数,表示其余数据对当前值的影响因子,离xi越远的数据对xi的平滑结果影响越小。
标准化数据采用最小——最大标准化方法对原始数据进行线性变换,使结果下降到[0,1]区间内,转换函数如下:
Figure RE-GDA0002215873080000023
步骤(2)水文时间序列快速相似性搜索包括离线过程和在线过程:
离线过程的具体步骤如下:根据查询序列长度(预测日期前二十日)将历史水位数据采用滑动窗口方法进行切割;基于改进Chameleon的参考序列集选择:具体是指对分割得到的序列集先基于改进Chameleon算法进行聚类,再通过最小方差距离法挑选出每一类中最具代表性的一条序列,最后通过学习过滤选择法确定索引的最终参考集;.基于约束DTW计算索引:根据得到的最终参考集,使用约束DTW距离对原始时间序列进行索引向量计算,生成最终的索引空间。
在线过程具体步骤如下:计算查询序列的索引,具体使用约束DTW距离计算查询序列与索引参考集中每条序列间的距离,将查询序列映射到索引空间中;对查询序列与索引空间中每一个位置的向量进行欧式距离计算,取距离最小的k 个作为候选点集;对候选点集进行约束DTW计算得到最终的结果序列。
基于改进Chameleon的参考序列集选择,改进Chameleon聚类方法时,在构建K-最邻近图的阶段,采用欧几里得距离计算序列简单权值,确定一个度量阈值定义如下,稀疏图度量阈值
Figure RE-GDA0002215873080000031
将SPs中每一条序列SPi作为一个对象,计算每个对象到其他对象SPj的欧式距离作为反映对象间的相似度的权值,记为ωij
Figure RE-GDA0002215873080000032
为每个对象到所有其他对象权值的平均值。
Figure RE-GDA0002215873080000033
当ωij小于
Figure RE-GDA0002215873080000034
时,在SPi和SPj间构建带权值的边。
在Chameleon算法子簇合并阶段,定义聚类密度函数Q,当其取最大值时对应的K为最佳聚类数目。聚类密度函数Q定义如下:若将形成的加权聚类图最终划分成m个簇,定义一个m阶的矩阵M,其元素Mij为聚簇i中的顶点连接到簇j中的顶点的所有边的权重,在图G=(P,S)中,P为聚簇所有结点的集合,S 为结点间连接边的集合。ei为聚簇i中的顶点连接到的边的权重所占图中全部边权重的比例。
Figure RE-GDA0002215873080000035
Figure RE-GDA0002215873080000036
改进Chameleon聚类方法具体步骤如下:①计算切割出的序列集中每两条序列之间的欧氏距离,当其值小于稀疏图度量阈值时,构建带权边,生成K-邻近图;②对K-邻近图进行最小边割划分;③计算此时的聚类密度函数Q的值;④基于相对互联性和相对近似性合并簇;⑤重新计算聚类密度函数Q;⑥当新聚类密度函数Q小于原值时,继续执行步骤④合并聚簇;⑦当聚类密度函数Q最大时,输出分类结果。
所述最小方差距离法,通过计算所分出的N类中国每一类中时间序列之间的方差(某个序列与其他序列之间的距离数组的方差的平均值)来选出最能代表该类的一条时间序列,最后形成由N条时间序列组成的集合
所述学习过滤选择法,从原始序列中截取查询序列作为训练集,使用无监督的方法对参考序列进行判别筛选,定义训练误差函数取相似查询结束得到的位置信息和正确匹配处相异的数目作为参考序列集过滤选择的评价标准。
水文时间序列快速相似性搜索中离线过程部分步骤c)基于约束DTW计算索引中,约束DTW定义具体如下:
在DTW定义基础上,添加限定弯曲宽度w,该约束定义如下:
Di,j(Q,X)=∞if|i-j|>w (公式8)
其中Di,j(Q,X)定义如动态弯曲距离中介绍,w通常使用Sakoe-Chiba带或者Itakura平行四边形弯曲窗口来定义。
根据序列参考集对原始序列X中位置j计算索引向量的公式如下:
Figure RE-GDA0002215873080000041
其中,|Q|是参考序列的长度,|X|是原始序列的长度,d是参考序列的数量, R是序列参考集中的每条参考序列。
经过索引计算得到的向量空间索引条数等于|X|,定义一个阈值φ,从原始序列X的初始位置开始,对于每个索引向量,当它与前一位置索引向量的差值小于φ时,将其纳入当前分段。根据此原理,整个矢量序列被分成N个片段,压缩比为|X|/N。每一段的最终表示则为该段索引向量的平均值。经过以上步骤,形成最终的索引空间。
构建神经网络预测模型,其训练集的特征值X由水文时间序列快速相似性搜索得到的最终结果集组成,每条序列的长度与查询序列的长度相同;监督Y 分别取最终结果集中每条序列之后预见期内的每个值作为训练集的输出建立预测模型。
有益效果:本发明与现有技术相比,其显著优点是:1、将数据挖掘的描述型任务和预测型任务结合,通过相似性搜索在不损失对预测有效信息的情况下精炼训练集,减少数据冗余,2、使用具有记忆和遗忘的功能的LSTM神经网络,提高预测精度降低预测时间。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的数据预处理过程流程图;
图3为本发明实施例的水文时间序列快速相似性搜索流程图;
图4为本发明实施例的基于Chameleon的参考集选择方法流程图;
图5为本发明实施例的预测模型构建结构图。
具体实施方式
下面结合附图对本发明作进一步描述,
如图1所示,一种基于相似性搜索和LSTM神经网络的水位预测方法包括:
(1.1)数据预处理包括:清洗转换原始数据,包括丢失数据填充,错误信息纠正等。
(1.2)水文时间序列快速相似性搜索包括:首先根据查询序列的长度使用滑动窗口方法切割原始数据,通过改进Chameleon聚类、最小方差距离法和学习过滤选择法确定索引的参考集,根据参考集使用基于CDTW索引生成方法计算索引结构,而后根据给定序列的索引进行在线匹配,得到K条与其相似的序列组成训练集。
(1.3)构建神经网络预测模型:按照水位短期预测要求将离线过程中基于改进Chameleon的参考序列集选择取得的结果作为训练集,分别按照训练集的时间标签取训练集中每条序列预见期内(即需要预测水位的天数)内每一日的水位分别作为训练监督放入长短时记忆神经网络中构建与预见期天数相同数量的模型,并对查询序列进行预测。
如图2所示,所述数据预处理方法包括以下步骤:
(2.1)填补缺失数据:单值缺失可使用均值插补法进行填充,设缺失值为xmiss,其中miss为缺失值在数据中所处位置的下标,则xmiss=(xmiss-1+xmiss+1)/2。连续多值缺失则可使用线性插补法进行填充,假设已知xexist和xexist+m的值,两者中间缺失了m个数据,求缺失值xmiss(exist<miss<exist+m)公式如下:
Figure RE-GDA0002215873080000061
但当缺失数据数量过多,例如原始数据中包含300个数据点,连续缺失了其中200个,此种情况下应直接舍弃空缺数据。
(2.2)修正错误数据:依据统计学的拉依达准则(3σ准则),给定数据集X, 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973,μ是X的均值,σ是X的标准差,不在此范围内的数据可以被识别为错误数据。将错误数据删除,再根据A中情况适当校准。
(2.3)平滑数据:为消除数据随机波动和错误点产生的干扰,对给定数据进行数据平滑操作。使用部分数据的加权和作为参考进行平滑处理,公式如下:
Figure RE-GDA0002215873080000062
其中,0≤λ(n)≤1是衰减函数,表示其余数据对当前值的影响因子,离xi越远的数据对xi的平滑结果影响越小。
(2.4).标准化数据:采用最小——最大标准化方法对原始数据进行线性变换,使结果下降到[0,1]区间内,转换函数如公式3所示:
Figure RE-GDA0002215873080000063
如图3所示,所述水文时间序列快速相似性搜索,包括以下步骤:
(3.1)离线过程具体包括:
(3.1.1)根据查询序列长度(预测日期前二十日)将历史水位数据用滑动窗口方法进行切割;
(3.1.2).基于改进Chameleon的参考序列集选择:具体是指对所述步骤a) 中分割得到的序列集先基于改进Chameleon算法进行聚类,再通过最小方差距离法挑选出每一类中最具代表性的一条序列,最后通过学习过滤选择法确定索引的最终参考集。
(3.1.3)基于约束DTW计算索引:根据步骤b)中得到的最终参考集,使用约束DTW距离对原始时间序列进行索引向量计算,生成最终的索引空间。
(3.2)在线过程具体包括:
(3.2.1).计算查询序列的索引,具体使用约束DTW距离计算查询序列与索引参考集中每条序列间的距离,将查询序列映射到索引空间中;
(3.2.2)对查询序列与索引空间中每一个位置的向量进行欧式距离计算,取距离最小的k个作为候选点集;
(3.2.3)对候选点集进行约束DTW计算得到最终的结果序列。
如图4所示,水文时间序列快速相似性搜索中,离线过程部分步骤b)基于改进Chameleon的参考序列集选择中,具体包括:
所述改进Chameleon聚类方法中,在构建K-最邻近图的阶段,使用欧几里得距离计算序列简单权值,给定一个度量阈值定义如下,避免人工指定K值情况。
定义1:稀疏图度量阈值
Figure RE-GDA0002215873080000071
将SPs中每一条序列SPi作为一个对象,计算每个对象到其他对象SPj的欧式距离作为反映对象间的相似度的权值,记为ωij
Figure RE-GDA0002215873080000072
为每个对象到所有其他对象权值的平均值。
Figure RE-GDA0002215873080000073
当ωij小于
Figure RE-GDA0002215873080000074
时,在SPi和SPj间构建带权值的边。
在Chameleon算法子簇合并阶段,定义聚类密度函数Q,当其取最大值时对应的K是最佳聚类数目。
定义2:聚类密度函数:若将形成的加权聚类图最终划分成m个簇,定义一个m阶的矩阵M,其元素Mij为聚簇i中的顶点连接到簇j中的顶点的所有边的权重,在图G=(P,S)中,P是聚簇所有结点的集合,S是结点间连接边的集合。 ei是聚簇i中的顶点连接到的边的权重所占图中全部边权重的比例。
Figure RE-GDA0002215873080000075
Figure RE-GDA0002215873080000076
所述改进Chameleon聚类方法步骤如下:①计算切割出的序列集中每两条序列之间的欧氏距离,当其值小于稀疏图度量阈值时,构建带权边,生成K-邻近图;②对K-邻近图进行最小边割划分;③计算此时的聚类密度函数Q的值;④基于相对互联性和相对近似性合并簇;⑤重新计算聚类密度函数Q;⑥当新聚类密度函数Q小于原值时,继续执行步骤④合并聚簇;⑦当聚类密度函数Q最大时,输出分类结果。
所述最小方差距离法,通过计算所分出的N类中国每一类中时间序列之间的方差(某个序列与其他序列之间的距离数组的方差的平均值)来选出最能代表该类的一条时间序列,最后形成由N条时间序列组成的集合
所述学习过滤选择法,从原始序列中截取查询序列作为训练集,使用无监督的方法对参考序列进行判别筛选,定义训练误差函数取相似查询结束得到的位置信息和正确匹配处相异的数目作为参考序列集过滤选择的评价标准。
在水文时间序列快速相似性搜索中,离线过程部分步骤c)基于约束DTW计算索引中,约束DTW定义具体如下:
定义3:约束DTW:在DTW定义基础上,添加限定弯曲宽度w,该约束定义如下:
Di,j(Q,X)=∞if|i-j|>w (公式7)
其中Di,j(Q,X)定义如动态弯曲距离中介绍,w通常使用Sakoe-Chiba带或者Itakura平行四边形弯曲窗口来定义。
根据序列参考集对原始序列X中位置j计算索引向量的公式如下:
Figure RE-GDA0002215873080000081
其中,|Q|是参考序列的长度,|X|是原始序列的长度,d是参考序列的数量, R是序列参考集中的每条参考序列。
经过索引计算得到的向量空间索引条数等于|X|,定义一个阈值φ,从原始序列X的初始位置开始,对于每个索引向量,当它与前一位置索引向量的差值小于φ时,将其纳入当前分段。根据此原理,整个矢量序列被分成N个片段,压缩比为|X|/N。每一段的最终表示则为该段索引向量的平均值。经过以上步骤,形成最终的索引空间。
如图5所示,所述预测模型构建中,其训练集的特征值X由水文时间序列快速相似性搜索得到的最终结果集组成,每条序列的长度与查询序列的长度相同 (20天);监督Y分别取最终结果集中每条序列之后预见期(需要预测的天数) 内的每个值(每一天的值)作为训练集的输出建立预测模型。例如:建模所使用预见期为6天,则分别取最终结果集中每条序列后一天到后六天的水位值作为训练输出建立监督Y1、Y2、Y3、Y4、Y5、Y6并运用LSTM网络进行训练。即在预见期的天数内,对每一天建立一个对应的模型。此处按照短期预测最长预见期六天建立t+1到t+6六个模型进行预测。

Claims (4)

1.一种基于相似性搜索和LSTM神经网络的水位预测方法,其特征在于,所述方法包括如下步骤:
(1)获取待预测日前二十日及此前历史水位数据,并对数据预处理;
(2)依据水文时间序列快速相似性搜索方法对已处理数据进行相似性搜索,得到K条与待搜索序列相似的序列组成训练集;
(3)构建基于LSTM的神经网络模型,将相似性搜索结果作为训练集,通过网络模型进行训练预测,
步骤(2)所述水文时间序列快速相似性搜索包括离线过程和在线过程:
(2.1)离线过程的具体步骤如下:
(2.1.1)根据查询序列长度即预测日期前二十日将历史水位数据采用滑动窗口方法进行切割;
(2.1.2)基于改进Chameleon的参考序列集选择:具体是指对已经分割得到的序列集先基于改进Chameleon算法进行聚类,再通过最小方差距离法挑选出每一类中最具代表性的一条序列,最后通过学习过滤选择法确定索引的最终参考集;
(2.1.3)基于约束DTW计算索引:根据步骤得到的最终参考集,使用约束DTW距离对原始时间序列进行索引向量计算,生成最终的索引空间,
(2.2)在线过程具体步骤如下:
(2.2.1)计算查询序列的索引,具体使用约束DTW距离计算查询序列与索引参考集中每条序列间的距离,将查询序列映射到索引空间中;
(2.2.2)对查询序列与索引空间中每一个位置的向量进行欧式距离计算,取距离最小的k个作为候选点集;
(2.2.3)对候选点集进行约束DTW计算得到最终的结果序列,
所述基于改进Chameleon算法进行聚类包括:在构建K-最邻近图的阶段,采用欧几里得距离计算序列简单权值,确定一个度量阈值定义如下,稀疏图度量阈值
Figure FDA0003719893070000011
将SPs中每一条序列SPi作为一个对象,计算每个对象到其他对象SPj的欧式距离作为反映对象间的相似度的权值,记为ωij
Figure FDA0003719893070000012
为每个对象到所有其他对象权值的平均值,
Figure FDA0003719893070000021
当ωij小于
Figure FDA0003719893070000022
时,在SPi和SPj间构建带权值的边,
在Chameleon算法子簇合并阶段,定义聚类密度函数Q,当其取最大值时对应的K为最佳聚类数目,
所述聚类密度函数Q定义如下:若将形成的加权聚类图最终划分成m个簇,定义一个m阶的矩阵M,其元素Mij为聚簇i中的顶点连接到簇j中的顶点的所有边的权重,在图G=(P,S)中,P为聚簇所有结点的集合,S为结点间连接边的集合; ei为聚簇i中的顶点连接到的边的权重所占图中全部边权重的比例,
Figure FDA0003719893070000023
Figure FDA0003719893070000024
所述改进Chameleon聚类方法步骤如下:①计算切割出的序列集中每两条序列之间的欧氏距离,当其值小于稀疏图度量阈值时,构建带权边,生成K-邻近图;②对K-邻近图进行最小边割划分;③计算此时的聚类密度函数Q的值;④基于相对互联性和相对近似性合并簇;⑤重新计算聚类密度函数Q;⑥当新聚类密度函数Q小于原值时,继续执行步骤④合并聚簇;⑦当聚类密度函数Q最大时,输出分类结果,
所述最小方差距离法包括:通过计算所分出的N类中国每一类中时间序列之间的方差即某个序列与其他序列之间的距离数组的方差的平均值来选出最能代表该类的一条时间序列,最后形成由N条时间序列组成的集合,
所述学习过滤选择法包括:从原始序列中截取查询序列作为训练集,使用无监督的方法对参考序列进行判别筛选,定义训练误差函数取相似查询结束得到的位置信息和正确匹配处相异的数目作为参考序列集过滤选择的评价标准。
2.根据权利要求1所述的一种基于相似性搜索和LSTM神经网络的水位预测方法,其特征在于,步骤(1)中所述数据预处理方法包括:填补缺失数据、修正错误数据、平滑数据、标准化数据;
(1.1)所述缺失数据填补方法缺失值计算方法如下:缺失数据为单值时,采用均值插补法,其中xmiss为缺失值,miss为缺失值在数据中所处位置的下标,公式如下:
xmiss=(xmiss-1+xmiss+1)/2
缺失数据为连续多值时采用线性插补法,其中xexist和xexist+m为已知值,两者中间缺失m个数据,缺失值xmiss(exist<miss<exist+m)公式如下:
Figure FDA0003719893070000031
(1.2)所述修正错误数据方法为拉依达准则,确定数据集X,数值分布在(μ-3σ,μ+3σ)中概率为0.9973,μ为X的均值,σ为X的标准差,
(1.3)所述平滑数据方法对给定数据进行数据平滑操作,采用部分数据的加权和进行平滑处理,公式如下:
Figure FDA0003719893070000032
其中,0≤λ(n)≤1为衰减函数,表示其余数据对当前值的影响因子,
(1.4)所述标准化数据采用最小——最大标准化方法对原始数据进行线性变换,使结果下降到[0,1]区间内,转换函数如下:
Figure FDA0003719893070000033
3.根据权利要求1所述的一种基于相似性搜索和LSTM神经网络的水位预测方法,其特征在于:
所述水文时间序列快速相似性搜索中,离线过程部分步骤c)基于约束DTW计算索引中,所述约束DTW是指在DTW基础上,添加限定弯曲宽度w的约束,具体公式如下:
Di,j(Q,X)=∞if|i-j|>w
其中Di,j(Q,X)定义如动态弯曲距离中介绍,w通常使用Sakoe-Chiba带或者Itakura平行四边形弯曲窗口来定义,
根据序列参考集对原始序列X中位置j计算索引向量的公式如下:
Figure FDA0003719893070000041
其中,|Q|是参考序列的长度,|X|是原始序列的长度,d是参考序列的数量,R是序列参考集中的每条参考序列,
经过索引计算得到的向量空间索引条数等于|X|,定义一个阈值φ,从原始序列X的初始位置开始,对于每个索引向量,当它与前一位置索引向量的差值小于φ时,将其纳入当前分段; 根据此原理,整个矢量序列被分成N个片段,压缩比为|X|/N,设置每一段的索引向量的平均值做为该段的最终表示,经过以上步骤,形成最终的索引空间。
4.根据权利要求1所述的一种基于相似性搜索和LSTM神经网络的水位预测方法,其特征在于:
所述基于LSTM的神经网络模型构建过程中,其训练集的特征值X由水文时间序列快速相似性搜索得到的最终结果集组成,每条序列的长度与查询序列的长度相同;监督Y分别取最终结果集中每条序列之后预见期内的每个值作为训练集的输出建立预测模型。
CN201910706437.XA 2019-08-01 2019-08-01 一种基于相似性搜索和lstm神经网络的水位预测方法 Active CN111401599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910706437.XA CN111401599B (zh) 2019-08-01 2019-08-01 一种基于相似性搜索和lstm神经网络的水位预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910706437.XA CN111401599B (zh) 2019-08-01 2019-08-01 一种基于相似性搜索和lstm神经网络的水位预测方法

Publications (2)

Publication Number Publication Date
CN111401599A CN111401599A (zh) 2020-07-10
CN111401599B true CN111401599B (zh) 2022-08-26

Family

ID=71428340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910706437.XA Active CN111401599B (zh) 2019-08-01 2019-08-01 一种基于相似性搜索和lstm神经网络的水位预测方法

Country Status (1)

Country Link
CN (1) CN111401599B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737640B (zh) * 2020-08-17 2021-08-27 深圳江行联加智能科技有限公司 水位预测方法、装置及计算机可读存储介质
CN112561203B (zh) * 2020-12-23 2022-09-06 浙江鹏信信息科技股份有限公司 一种基于聚类和gru实现水位预警的方法及系统
CN112651455B (zh) * 2020-12-30 2022-11-01 云南大学 一种基于非负矩阵分解与动态时间规整算法的交通流缺失值填充方法
CN113344288B (zh) * 2021-06-28 2023-12-01 南京大学 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN113537651A (zh) * 2021-09-17 2021-10-22 深圳市安软科技股份有限公司 一种金融时间序列预测方法、系统及相关设备
CN115271266A (zh) * 2022-09-27 2022-11-01 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 地下水水位动态预测方法及系统
CN115729981B (zh) * 2022-11-29 2024-02-13 中国长江电力股份有限公司 一种基于编辑距离的相似水情数据挖掘方法及其应用
CN116681180B (zh) * 2023-06-19 2024-01-26 中国水利水电科学研究院 一种基于两层相似性度量的湖泊水位相似预报方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法
CN105046321A (zh) * 2015-06-25 2015-11-11 河海大学 一种基于相似性搜索的组合模型预测水位的方法
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法
CN105046321A (zh) * 2015-06-25 2015-11-11 河海大学 一种基于相似性搜索的组合模型预测水位的方法
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LSTM网络在台风路径预测中的应用;徐高扬等;《计算机与现代化》;20190515(第05期);全文 *
基于DTW的测站水位影响关系估计;李士进等;《江南大学学报(自然科学版)》;20071215(第06期);全文 *
基于嵌入式索引的水文时间序列预测模型;周金玉等;《微电子学与计算机》;20180105(第01期);全文 *

Also Published As

Publication number Publication date
CN111401599A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401599B (zh) 一种基于相似性搜索和lstm神经网络的水位预测方法
CN110263866B (zh) 一种基于深度学习的电力用户负荷区间预测方法
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
CN106485262B (zh) 一种母线负荷预测方法
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
CN111260136A (zh) 一种基于arima-lstm组合模型的楼宇短期负荷预测方法
CN110942194A (zh) 一种基于tcn的风电预测误差区间评估方法
CN111091233A (zh) 一种基于小波分析和多模型AdaBoost深度网络的风电场短期风电预测建模方法
CN112733996B (zh) 基于GA-PSO优化XGBoost的水文时间序列预测方法
CN113705877A (zh) 基于深度学习模型的实时月径流预报方法
CN112418476A (zh) 一种超短期电力负荷预测方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN115186923A (zh) 光伏发电功率的预测方法、装置及电子设备
CN114117852B (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法
CN115759389A (zh) 基于天气类型的相似日组合策略的日前光伏功率预测方法
CN110260914B (zh) 一种基于测点时空特征的工程安全监测系统区域划分方法
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN114595873A (zh) 一种基于灰色关联的da-lstm的短期电力负荷预测方法
CN114581141A (zh) 基于特征选择与lssvr的短期负荷预测方法
CN115794805B (zh) 一种中低压配网量测数据补齐方法
CN116720620A (zh) 一种基于IPSO算法优化CNN-BiGRU-Attention网络模型的储粮通风温度预测方法
CN116561569A (zh) 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法
CN115345245A (zh) 一种基于随机森林和迁移学习的热带气旋快速加强预报方法
CN114862007A (zh) 一种面向碳酸盐岩气井的短周期产气量预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant