CN111401599B

CN111401599B - 一种基于相似性搜索和lstm神经网络的水位预测方法

Info

Publication number: CN111401599B
Application number: CN201910706437.XA
Authority: CN
Inventors: 万定生; 周金玉
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-08-26
Anticipated expiration: 2039-08-01
Also published as: CN111401599A

Abstract

本发明公开一种基于相似性搜索和LSTM神经网络的水位预测方法，根据待预测日前二十日的水位与此前所有历史水位数据进行比较，利用相似性搜索找出与其相近的一系列时间序列，将其作为训练集采用LSTM网络进行预测。该方法主要包括：数据预处理，旨在查补原始数据中的缺失及错误；水文时间序列快速相似搜索，在离线过程使用滑动窗口方法划分原始时间序列，再通过改进Chameleon聚类方法、最小距离方差法和学习过滤选择法选择合适的索引参考集，最后基于约束DTW距离对原始时间序列的每个位置进行嵌入索引计算形成最终的索引空间。本发明能够提前预测水位，为防洪抗灾工作提供有效的技术支持。

Description

一种基于相似性搜索和LSTM神经网络的水位预测方法

技术领域

本发明涉及一种基于相似性搜索和LSTM神经网络预测水位技术，具体涉及对水位信息进行相似性搜索有效降低训练集的冗余以及利用LSTM神经网络进行预测的技术。

背景技术

近年来，我国水文行业从传统水文向现代水文迈进，自动水文站观测技术快速推广，从人工手动记录水文数据资料记录到当前自动站每几分钟甚至每秒钟一次的数据记录，水文数据资料覆盖愈加全面。这些水文数据拥有数量大、类别杂、时空性、更新快等特点，同时，它们受到季节气候、地貌特征、水文规律等诸多条件影响，隐藏了很多有价值的规律和信息。如何对它们进行有力的分析，从中得到有用的信息从而服务于水文预报、洪水检测等成为人们关注的焦点。传统水文行业普遍根据水文环境和过程建立物理模型再加以人工经验进行预测。

现今常用的水文时间序列预测模型存在一些缺点，基于统计学方法的时间序列预测模型需要基于一些归纳和假想情况进行模拟分析，会有不符合实际情况的可能性；灰色系统理论中，数据愈分散，准确度就愈低；最为常用的神经网络模型，BP网络易陷入局部最优解，单一ELM学习性能不稳定。近年来，深度学习研究在其他领域取得了不俗的成就，同样也可以将其引入水文时间序列预测研究中，结合时间序列相似性研究，对水文时间序列进行预测。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提高预测精度和减少预测用时，提供一种基于相似性搜索和LSTM神经网络的水位预测方法。

技术方案：本发明的一种基于相似性搜索和LSTM神经网络的水位预测方法，所述方法包括如下步骤：

(1)获取待预测日前二十日及此前历史水位数据，并对数据预处理；

(2)依据水文时间序列快速相似性搜索方法对已处理数据进行相似性搜索，得到K条与待搜索序列相似的序列组成训练集；

(3)构建基于LSTM的神经网络模型，将相似性搜索结果作为训练集，通过网络模型进行训练预测。

步骤(1)中数据预处理方法包括：填补缺失数据、修正错误数据、平滑数据、标准化数据；缺失数据填补方法缺失值计算方法如下：缺失数据为单值时，采用均值插补法，其中x_miss为缺失值，miss为缺失值在数据中所处位置的下标，公式如下：

x_miss＝(x_miss-1+x_miss+1)/2， (公式1)

缺失数据为连续多值时采用线性插补法，其中x_exist和x_exist+m为已知值，两者中间缺失m个数据，缺失值x_miss(exist＜miss＜exist+m)公式如下：

错误数据修正方法依据拉依达准则，确定数据集X,数值分布在(μ-3σ,μ+3σ) 中的概率为0.9973，μ为X的均值，σ为X的标准差，不在此范围内的数据被识别为错误数据,将其删除。

平滑数据为消除数据随机波动和错误点产生的干扰，对给定数据进行数据平滑操作。采用部分数据的加权和作为参考进行平滑处理，公式如下：

其中，0≤λ(n)≤1为衰减函数，表示其余数据对当前值的影响因子，离x_i越远的数据对x_i的平滑结果影响越小。

标准化数据采用最小——最大标准化方法对原始数据进行线性变换，使结果下降到[0,1]区间内，转换函数如下：

步骤(2)水文时间序列快速相似性搜索包括离线过程和在线过程：

离线过程的具体步骤如下：根据查询序列长度(预测日期前二十日)将历史水位数据采用滑动窗口方法进行切割；基于改进Chameleon的参考序列集选择：具体是指对分割得到的序列集先基于改进Chameleon算法进行聚类，再通过最小方差距离法挑选出每一类中最具代表性的一条序列，最后通过学习过滤选择法确定索引的最终参考集；.基于约束DTW计算索引：根据得到的最终参考集，使用约束DTW距离对原始时间序列进行索引向量计算，生成最终的索引空间。

在线过程具体步骤如下：计算查询序列的索引，具体使用约束DTW距离计算查询序列与索引参考集中每条序列间的距离，将查询序列映射到索引空间中；对查询序列与索引空间中每一个位置的向量进行欧式距离计算，取距离最小的k 个作为候选点集；对候选点集进行约束DTW计算得到最终的结果序列。

基于改进Chameleon的参考序列集选择，改进Chameleon聚类方法时，在构建K-最邻近图的阶段，采用欧几里得距离计算序列简单权值，确定一个度量阈值定义如下，稀疏图度量阈值

将SPs中每一条序列SP_i作为一个对象，计算每个对象到其他对象SP_j的欧式距离作为反映对象间的相似度的权值，记为ω_ij，

为每个对象到所有其他对象权值的平均值。

当ω_ij小于

时，在SP_i和SP_j间构建带权值的边。

在Chameleon算法子簇合并阶段，定义聚类密度函数Q，当其取最大值时对应的K为最佳聚类数目。聚类密度函数Q定义如下：若将形成的加权聚类图最终划分成m个簇，定义一个m阶的矩阵M，其元素M_ij为聚簇i中的顶点连接到簇j中的顶点的所有边的权重，在图G＝(P，S)中，P为聚簇所有结点的集合，S 为结点间连接边的集合。e_i为聚簇i中的顶点连接到的边的权重所占图中全部边权重的比例。

改进Chameleon聚类方法具体步骤如下：①计算切割出的序列集中每两条序列之间的欧氏距离，当其值小于稀疏图度量阈值时，构建带权边，生成K-邻近图；②对K-邻近图进行最小边割划分；③计算此时的聚类密度函数Q的值；④基于相对互联性和相对近似性合并簇；⑤重新计算聚类密度函数Q；⑥当新聚类密度函数Q小于原值时，继续执行步骤④合并聚簇；⑦当聚类密度函数Q最大时，输出分类结果。

所述最小方差距离法，通过计算所分出的N类中国每一类中时间序列之间的方差(某个序列与其他序列之间的距离数组的方差的平均值)来选出最能代表该类的一条时间序列，最后形成由N条时间序列组成的集合

所述学习过滤选择法，从原始序列中截取查询序列作为训练集，使用无监督的方法对参考序列进行判别筛选，定义训练误差函数取相似查询结束得到的位置信息和正确匹配处相异的数目作为参考序列集过滤选择的评价标准。

水文时间序列快速相似性搜索中离线过程部分步骤c)基于约束DTW计算索引中，约束DTW定义具体如下：

在DTW定义基础上，添加限定弯曲宽度w，该约束定义如下：

D_i,j(Q,X)＝∞if|i-j|＞w (公式8)

其中D_i,j(Q,X)定义如动态弯曲距离中介绍，w通常使用Sakoe-Chiba带或者Itakura平行四边形弯曲窗口来定义。

根据序列参考集对原始序列X中位置j计算索引向量的公式如下：

其中，|Q|是参考序列的长度，|X|是原始序列的长度，d是参考序列的数量， R是序列参考集中的每条参考序列。

经过索引计算得到的向量空间索引条数等于|X|，定义一个阈值φ，从原始序列X的初始位置开始，对于每个索引向量，当它与前一位置索引向量的差值小于φ时，将其纳入当前分段。根据此原理，整个矢量序列被分成N个片段，压缩比为|X|/N。每一段的最终表示则为该段索引向量的平均值。经过以上步骤，形成最终的索引空间。

构建神经网络预测模型，其训练集的特征值X由水文时间序列快速相似性搜索得到的最终结果集组成，每条序列的长度与查询序列的长度相同；监督Y 分别取最终结果集中每条序列之后预见期内的每个值作为训练集的输出建立预测模型。

有益效果：本发明与现有技术相比，其显著优点是：1、将数据挖掘的描述型任务和预测型任务结合，通过相似性搜索在不损失对预测有效信息的情况下精炼训练集，减少数据冗余，2、使用具有记忆和遗忘的功能的LSTM神经网络，提高预测精度降低预测时间。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的数据预处理过程流程图；

图3为本发明实施例的水文时间序列快速相似性搜索流程图；

图4为本发明实施例的基于Chameleon的参考集选择方法流程图；

图5为本发明实施例的预测模型构建结构图。

具体实施方式

下面结合附图对本发明作进一步描述，

如图1所示，一种基于相似性搜索和LSTM神经网络的水位预测方法包括：

(1.1)数据预处理包括：清洗转换原始数据，包括丢失数据填充，错误信息纠正等。

(1.2)水文时间序列快速相似性搜索包括：首先根据查询序列的长度使用滑动窗口方法切割原始数据，通过改进Chameleon聚类、最小方差距离法和学习过滤选择法确定索引的参考集，根据参考集使用基于CDTW索引生成方法计算索引结构，而后根据给定序列的索引进行在线匹配，得到K条与其相似的序列组成训练集。

(1.3)构建神经网络预测模型：按照水位短期预测要求将离线过程中基于改进Chameleon的参考序列集选择取得的结果作为训练集，分别按照训练集的时间标签取训练集中每条序列预见期内(即需要预测水位的天数)内每一日的水位分别作为训练监督放入长短时记忆神经网络中构建与预见期天数相同数量的模型，并对查询序列进行预测。

如图2所示，所述数据预处理方法包括以下步骤：

(2.1)填补缺失数据：单值缺失可使用均值插补法进行填充，设缺失值为x_miss，其中miss为缺失值在数据中所处位置的下标，则x_miss＝(x_miss-1+x_miss+1)/2。连续多值缺失则可使用线性插补法进行填充，假设已知x_exist和x_exist+m的值，两者中间缺失了m个数据，求缺失值x_miss(exist＜miss＜exist+m)公式如下：

但当缺失数据数量过多，例如原始数据中包含300个数据点，连续缺失了其中200个，此种情况下应直接舍弃空缺数据。

(2.2)修正错误数据：依据统计学的拉依达准则(3σ准则)，给定数据集X, 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973，μ是X的均值，σ是X的标准差，不在此范围内的数据可以被识别为错误数据。将错误数据删除，再根据A中情况适当校准。

(2.3)平滑数据：为消除数据随机波动和错误点产生的干扰，对给定数据进行数据平滑操作。使用部分数据的加权和作为参考进行平滑处理，公式如下：

其中，0≤λ(n)≤1是衰减函数，表示其余数据对当前值的影响因子，离x_i越远的数据对x_i的平滑结果影响越小。

(2.4).标准化数据：采用最小——最大标准化方法对原始数据进行线性变换，使结果下降到[0,1]区间内，转换函数如公式3所示：

如图3所示，所述水文时间序列快速相似性搜索,包括以下步骤：

(3.1)离线过程具体包括：

(3.1.1)根据查询序列长度(预测日期前二十日)将历史水位数据用滑动窗口方法进行切割；

(3.1.2).基于改进Chameleon的参考序列集选择：具体是指对所述步骤a) 中分割得到的序列集先基于改进Chameleon算法进行聚类，再通过最小方差距离法挑选出每一类中最具代表性的一条序列，最后通过学习过滤选择法确定索引的最终参考集。

(3.1.3)基于约束DTW计算索引：根据步骤b)中得到的最终参考集，使用约束DTW距离对原始时间序列进行索引向量计算，生成最终的索引空间。

(3.2)在线过程具体包括：

(3.2.1).计算查询序列的索引，具体使用约束DTW距离计算查询序列与索引参考集中每条序列间的距离，将查询序列映射到索引空间中；

(3.2.2)对查询序列与索引空间中每一个位置的向量进行欧式距离计算，取距离最小的k个作为候选点集；

(3.2.3)对候选点集进行约束DTW计算得到最终的结果序列。

如图4所示，水文时间序列快速相似性搜索中，离线过程部分步骤b)基于改进Chameleon的参考序列集选择中，具体包括：

所述改进Chameleon聚类方法中，在构建K-最邻近图的阶段，使用欧几里得距离计算序列简单权值，给定一个度量阈值定义如下，避免人工指定K值情况。

定义1：稀疏图度量阈值

为每个对象到所有其他对象权值的平均值。

当ω_ij小于

时，在SP_i和SP_j间构建带权值的边。

在Chameleon算法子簇合并阶段，定义聚类密度函数Q，当其取最大值时对应的K是最佳聚类数目。

定义2：聚类密度函数：若将形成的加权聚类图最终划分成m个簇，定义一个m阶的矩阵M，其元素M_ij为聚簇i中的顶点连接到簇j中的顶点的所有边的权重，在图G＝(P，S)中，P是聚簇所有结点的集合，S是结点间连接边的集合。 e_i是聚簇i中的顶点连接到的边的权重所占图中全部边权重的比例。

所述改进Chameleon聚类方法步骤如下：①计算切割出的序列集中每两条序列之间的欧氏距离，当其值小于稀疏图度量阈值时，构建带权边，生成K-邻近图；②对K-邻近图进行最小边割划分；③计算此时的聚类密度函数Q的值；④基于相对互联性和相对近似性合并簇；⑤重新计算聚类密度函数Q；⑥当新聚类密度函数Q小于原值时，继续执行步骤④合并聚簇；⑦当聚类密度函数Q最大时，输出分类结果。

在水文时间序列快速相似性搜索中，离线过程部分步骤c)基于约束DTW计算索引中，约束DTW定义具体如下：

定义3：约束DTW：在DTW定义基础上，添加限定弯曲宽度w，该约束定义如下：

D_i,j(Q,X)＝∞if|i-j|＞w (公式7)

如图5所示，所述预测模型构建中，其训练集的特征值X由水文时间序列快速相似性搜索得到的最终结果集组成，每条序列的长度与查询序列的长度相同 (20天)；监督Y分别取最终结果集中每条序列之后预见期(需要预测的天数) 内的每个值(每一天的值)作为训练集的输出建立预测模型。例如：建模所使用预见期为6天，则分别取最终结果集中每条序列后一天到后六天的水位值作为训练输出建立监督Y1、Y2、Y3、Y4、Y5、Y6并运用LSTM网络进行训练。即在预见期的天数内，对每一天建立一个对应的模型。此处按照短期预测最长预见期六天建立t+1到t+6六个模型进行预测。

Claims

1.一种基于相似性搜索和LSTM神经网络的水位预测方法，其特征在于，所述方法包括如下步骤：

(3)构建基于LSTM的神经网络模型，将相似性搜索结果作为训练集，通过网络模型进行训练预测，

步骤(2)所述水文时间序列快速相似性搜索包括离线过程和在线过程：

(2.1)离线过程的具体步骤如下：

(2.1.1)根据查询序列长度即预测日期前二十日将历史水位数据采用滑动窗口方法进行切割；

(2.1.2)基于改进Chameleon的参考序列集选择：具体是指对已经分割得到的序列集先基于改进Chameleon算法进行聚类，再通过最小方差距离法挑选出每一类中最具代表性的一条序列，最后通过学习过滤选择法确定索引的最终参考集；

(2.1.3)基于约束DTW计算索引：根据步骤得到的最终参考集，使用约束DTW距离对原始时间序列进行索引向量计算，生成最终的索引空间，

(2.2)在线过程具体步骤如下：

(2.2.1)计算查询序列的索引，具体使用约束DTW距离计算查询序列与索引参考集中每条序列间的距离，将查询序列映射到索引空间中；

(2.2.2)对查询序列与索引空间中每一个位置的向量进行欧式距离计算，取距离最小的k个作为候选点集；

(2.2.3)对候选点集进行约束DTW计算得到最终的结果序列，

所述基于改进Chameleon算法进行聚类包括：在构建K-最邻近图的阶段，采用欧几里得距离计算序列简单权值，确定一个度量阈值定义如下，稀疏图度量阈值

为每个对象到所有其他对象权值的平均值，

当ω_ij小于

时，在SP_i和SP_j间构建带权值的边，

在Chameleon算法子簇合并阶段，定义聚类密度函数Q，当其取最大值时对应的K为最佳聚类数目，

所述聚类密度函数Q定义如下：若将形成的加权聚类图最终划分成m个簇，定义一个m阶的矩阵M，其元素M_ij为聚簇i中的顶点连接到簇j中的顶点的所有边的权重，在图G＝(P，S)中，P为聚簇所有结点的集合，S为结点间连接边的集合； e_i为聚簇i中的顶点连接到的边的权重所占图中全部边权重的比例，

所述改进Chameleon聚类方法步骤如下：①计算切割出的序列集中每两条序列之间的欧氏距离，当其值小于稀疏图度量阈值时，构建带权边，生成K-邻近图；②对K-邻近图进行最小边割划分；③计算此时的聚类密度函数Q的值；④基于相对互联性和相对近似性合并簇；⑤重新计算聚类密度函数Q；⑥当新聚类密度函数Q小于原值时，继续执行步骤④合并聚簇；⑦当聚类密度函数Q最大时，输出分类结果，

所述最小方差距离法包括：通过计算所分出的N类中国每一类中时间序列之间的方差即某个序列与其他序列之间的距离数组的方差的平均值来选出最能代表该类的一条时间序列，最后形成由N条时间序列组成的集合，

所述学习过滤选择法包括：从原始序列中截取查询序列作为训练集，使用无监督的方法对参考序列进行判别筛选，定义训练误差函数取相似查询结束得到的位置信息和正确匹配处相异的数目作为参考序列集过滤选择的评价标准。

2.根据权利要求1所述的一种基于相似性搜索和LSTM神经网络的水位预测方法，其特征在于，步骤(1)中所述数据预处理方法包括：填补缺失数据、修正错误数据、平滑数据、标准化数据；

(1.1)所述缺失数据填补方法缺失值计算方法如下：缺失数据为单值时，采用均值插补法，其中x_miss为缺失值，miss为缺失值在数据中所处位置的下标，公式如下：

x_miss＝(x_miss-1+x_miss+1)/2

(1.2)所述修正错误数据方法为拉依达准则，确定数据集X，数值分布在(μ-3σ，μ+3σ)中概率为0.9973，μ为X的均值，σ为X的标准差，

(1.3)所述平滑数据方法对给定数据进行数据平滑操作，采用部分数据的加权和进行平滑处理，公式如下：

其中，0≤λ(n)≤1为衰减函数，表示其余数据对当前值的影响因子，

(1.4)所述标准化数据采用最小——最大标准化方法对原始数据进行线性变换，使结果下降到[0，1]区间内，转换函数如下：

3.根据权利要求1所述的一种基于相似性搜索和LSTM神经网络的水位预测方法，其特征在于：

所述水文时间序列快速相似性搜索中，离线过程部分步骤c)基于约束DTW计算索引中，所述约束DTW是指在DTW基础上，添加限定弯曲宽度w的约束，具体公式如下：

D_i，j(Q，X)＝∞if|i-j|＞w

其中D_i，j(Q，X)定义如动态弯曲距离中介绍，w通常使用Sakoe-Chiba带或者Itakura平行四边形弯曲窗口来定义，

其中，|Q|是参考序列的长度，|X|是原始序列的长度，d是参考序列的数量，R是序列参考集中的每条参考序列，

经过索引计算得到的向量空间索引条数等于|X|，定义一个阈值φ，从原始序列X的初始位置开始，对于每个索引向量，当它与前一位置索引向量的差值小于φ时，将其纳入当前分段；根据此原理，整个矢量序列被分成N个片段，压缩比为|X|/N，设置每一段的索引向量的平均值做为该段的最终表示，经过以上步骤，形成最终的索引空间。

4.根据权利要求1所述的一种基于相似性搜索和LSTM神经网络的水位预测方法，其特征在于：

所述基于LSTM的神经网络模型构建过程中，其训练集的特征值X由水文时间序列快速相似性搜索得到的最终结果集组成，每条序列的长度与查询序列的长度相同；监督Y分别取最终结果集中每条序列之后预见期内的每个值作为训练集的输出建立预测模型。