CN105069093B

CN105069093B - 一种基于嵌入式索引的水文时间序列相似性搜索方法

Info

Publication number: CN105069093B
Application number: CN201510475456.8A
Authority: CN
Inventors: 万定生; 肖艳; 王亚明; 余宇峰; 李士进; 张鹏程
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2018-07-24
Anticipated expiration: 2035-08-05
Also published as: CN105069093A

Abstract

本发明公开了一种基于嵌入式索引的水文时间序列相似性搜索方法，按如下步骤进行：离线准备阶段对原始时间序列中的每个位置，计算对应的嵌入式索引向量，离线准备阶段实现了水文时间序列洪峰分割，串行聚类，初始参考序列集生成，参考集训练和时间序列嵌入索引计算；在线搜索阶段利用查询序列和参考集序列进行索引向量的计算，在原始序列的嵌入式索引欧氏向量空间中搜索，找到比较相似的点作为候选点集合，对候选点精炼后进行原始DTW度量，找到最终的相似序列。本发明将相似性搜索映射到欧氏向量空间中进行搜索，很大程度上提高了搜索效率。

Description

一种基于嵌入式索引的水文时间序列相似性搜索方法

技术领域

本发明涉及一种基于嵌入式索引的水文时间序列相似性搜索方法，属于数据挖掘领域与信息技术领域。

背景技术

随着水文时间序列数据的不断增长，如何快速准确的从历史水文数据库中找出与给定时间段相似的水文过程是一个值得深入研究的课题。特别的，在防汛中经常需要在历史洪水序列中快速寻找相似洪峰过程，此时水文时间序列相似性分析更具重要的现实意义。时间序列的相似性度量是时间序列数据挖掘的基础问题，主要方法有欧式距离、动态模式匹配、动态时间弯曲(DTW)距离、斜率距离等。其中动态模式匹配能够找出相似序列的大体位置，但不能精确度量。欧式距离能够精确度量但易受噪声和时间轴上弯曲度影响，DTW距离则存在着时间复杂度过高的缺点。

发明内容

为了尽量提高相似性度量的时间效率，针对以上相似性度量存在的问题，本发明提供一种基于嵌入式索引的水文时间序列相似性搜索方法，通过嵌入索引把子序列匹配过程转换成欧式向量空间上的最近邻搜索，提高了搜索的速度。

为达到上述目的，本发明采用的技术方案如下：

一种基于嵌入式索引的水文时间序列相似性搜索方法，包括以下步骤：

1)离线准备阶段，具体包括：

1-1)对水文时间序列进行洪峰分割，具体是指根据水文时间序列的状态趋势变化关系寻找洪峰模式的起止时间点，然后采用起止时间点间的子序列代表洪峰模式，最终完成洪峰模式的提取；

1-2)串行聚类，具体是指对于所述步骤1-1)分割得到的洪峰模式子序列集分成多个组，使组内的子序列之间相似性最高而组间差异性大于某一设定值；

1-3)生成初始参考序列集；

1-4)对参考序列集进行训练；

1-5)对水文时间序列进行嵌入索引计算，具体是指把得到的参考序列集对原始序列进行嵌入索引的计算，通过参考序列把原始序列映射到欧氏向量空间中；

2)在线搜索阶段，具体包括：

2-1)查询序列索引，计算查询序列与参考序列集中每一个参考序列的DTW距离，将查询序列映射到欧氏向量空间中；

2-2)欧氏向量空间搜索，对于每一个查询序列，与嵌入式序列索引空间中的每一个向量之间进行欧氏距离的计算，取距离最小的前k个向量作为候选集；

2-3)候选集生成，根据得到的候选集，判断最初始的起始位置，根据起始位置进行匹配并不断的沿着时间序列移动位置；

2-4)候选集精炼，在候选集相邻范围内进行原始DTW的匹配；

2-5)匹配序列生成，根据匹配结果，选择相似性最高的原始序列作为最终的匹配结果。

前述的步骤1-1)中洪峰分割包括以下步骤：

1-1-1)小波平滑去噪，是指对有噪声的水文时间序列进行小波平滑去噪处理；

1-1-2)阈值粗分割，是指首先遍历水文时间序列，获取水文时间序列中的所有极值点；再次遍历水文时间序列，寻找第一个大于水位阈值的极值点，将其作为起始点，接着寻找下一个极值点，使该极值点刚好小于水位阈值，将该极值点作为终止点，以起始点和终止点间的序列作为子时间序列，对水文时间序列进行分割，直到遍历完水文时间序列；

1-1-3)洪峰选择细分割，是指对根据水位阈值粗分割得到的子时间序列再次进行分割，提取子时间序列中的所有极大值和极小值构成极大值序列和极小值序列，从极小值序列中选取第一个极小值点，再从极大值序列中选择第一个大于极小值点的极大值，然后从极小值序列中选择第一个大于选择的极大值点的极小值，以两个极小值作为分割点对子时间序列进行分割，直到遍历完子时间序列。

前述的步骤1-2)中串行聚类包括以下步骤：

1-2-1)选取凝聚点，所述凝聚点的选择包括以下几种方式：a、按实际经验选择；b、将样本数据分为k类，计算每一类的样本均值作为该类的凝聚点；c、将全部样本的均值作为第一个凝聚点，然后依次考察，若考察样本与现有凝聚点距离大于某一阈值则作为新的凝聚点；d、选择密度最大的样本点作为第一个凝聚点；

1-2-2)进行初始分类，是指样本按某种准则向凝聚点聚集，得到初始分类；

1-2-3)判断分类是否合理，如果合理，则转入步骤1-2-5)，如果不合理，则转入步骤1-2-4)；所述判断分类是否合理的规则为：评判簇内的子时间序列相似性和簇间的差异性；

1-2-4)修改分类，按照某种距离最优性规则逐步修改分类，直到分类合理为止；

1-2-5)生成最终分类。

前述的步骤1-3)中，选取最初的所有子时间序列作为初始参考序列集。

前述的步骤1-4)中，对参考序列集进行训练包括以下步骤：

1-4-1)最大方差训练，是指利用序列与剩余序列之间的距离方差来衡量序列之间的差异性，如果距离方差大于某一设定值，则表明在该参考序列集中，该序列与剩余序列之间的距离不稳定，通过最大方差训练从参考序列集中得到具有相同特征的序列；

1-4-2)最小相关性训练，是指利用统计学的相关性分析，剔除所述步骤1-4-1)中得到的距离不稳定的序列中相关性过大的序列；

1-4-3)最大过滤训练，是指利用来自同一时间序列总体中的查询序列作为训练序列集，使用无监督方法对参考序列集进行逐步判别训练，设置参考序列集对训练序列集的误差作为参考序列集训练结果的评价标准。

前述的步骤1-5)对水文时间序列进行嵌入索引计算包括以下步骤：

1-5-1)初始化索引位置，是指采用滑动窗口的形式构建索引，将原始序列映射到欧氏向量空间中，确定原始序列的长度并初始化索引的起始位置；

1-5-2)判断是否对原始序列都建立索引，如果原始序列对于所有参考序列集都建立索引并达到了原始序列的末尾，则索引结束；如果原始序列并没有都建立索引，则窗口向后移动；

1-5-3)判断对于所有参考序列是否都建立索引，是指判断是否所有的参考序列都对于原始序列建立了索引，如果所有的参考序列都对于原始序列建立了索引，则转到步骤1-5-2)，否则选择下一个参考序列并计算索引；

1-5-4)计算参考序列集与原始时间序列的DTW距离，是指对于每一个参考序列集，计算其与原始序列滑动窗口的DTW距离；

1-5-5)存储索引向量并存储索引向量对应的DTW距离，是指将索引向量以及索引向量对应的DTW距离存储到欧氏向量空间中，在线搜索则搜索此欧氏向量空间。

前述的步骤2-1)中，查询序列索引计算公式如式(1)所示：

F(Q)＝(D(R₁,Q),D(R₂,Q),...,D(R_d,Q)) (1)

其中，Q为查询序列，R₁，R₂，……，R_d为参考序列集中的参考序列，D(R_i,Q)表示参考序列集中的参考序列R_i和查询序列Q的DTW距离，i＝1,2,……,d，F(Q)为查询序列计算得到的索引。

有益效果：

与现有技术相比，本发明所提供的快速水文时间序列相似性搜索方法，在引入时间序列嵌入索引的基础上，结合水文时间序列的特点提出水文时间序列的快速搜索方法，该方法通过序列分割、聚类和参考集训练从原始序列中获取参考序列集，在此基础上通过索引计算方法，将相似性搜索过程映射到欧氏向量空间的搜索，从而提高了搜索效率。本发明还研究了符合水文时间序列特征的参考序列的选择方法和欧式索引向量空间的优化方法，提高了嵌入式索引搜索的有效性，能够满足防洪调度中快速洪水过程相似搜索的要求。

附图说明

图1为本发明的水文时间序列嵌入式索引搜索流程图；

图2为本发明实施例的时间序列洪峰分割流程图；

图3为本发明实施例的动态聚类流程图；

图4为本发明实施例的参考序列集训练流程图；

图5为本发明实施例的嵌入式索引生成流程图。

具体实施方式

现结合附图和具体实施方式对本发明作进一步详细说明。

本发明将动态时间弯曲距离应用于水文时间序列的相似性搜索中，结合海量数据和动态扩展的实际需求，提出了基于嵌入式索引的快速水文时间序列相似性搜索方法，建立了快速的时间序列搜索模型。该模型主要由两部分构成：第一部分是离线数据准备部分，该部分通过时间序列的分割、聚类、参考序列集训练从原始序列中得到参考序列集，利用参考序列集通过索引算法把原始序列映射到欧氏向量空间中。第二部分是在线搜索过程，利用参考序列集对查询序列进行映射，在欧氏索引向量空间中寻找对应的匹配候选点，最后从原始序列对应候选点邻域位置寻找相似性匹配结果。

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明的基于嵌入式索引的水文时间序列相似性搜索方法，如图1所示，包括离线准备阶段100和在线搜索阶段200。

其中离线准备阶段100是对原始时间序列中的每个位置，计算对应的嵌入式索引向量。离线准备阶段实现了水文时间序列洪峰分割110，串行聚类120，初始参考序列集生成130，参考序列集训练140和时间序列嵌入索引计算150。具体的，

时间序列洪峰分割110，由于水位数据属于连续型的时间序列，水位在不同的时间组合中表现出差异的状态：在同一个时间段(例如1年内)表现出波峰聚集出现，而在不同年份中其时间序列波形则呈现出一定的周期性。水文水资源领域将洪峰模式定义为具有相似特征的一段水位数据的集合：水位上升并超过水位阈值，到达最高点后回落至阈值水位以下的一段序列。从洪峰序列的水位变化过程可以发现，洪峰模式一般包括开始的上升时期，在汛期一直保持单个或者多个峰值的主模式，直到下降到正常水位之下，洪峰的过程一般先通过多个局部的波动到达水位最高点，然后再通过一系列的水位波动到达正常水位之下。此处正常水位是一个阈值，用来控制洪峰模式的基准点位置，该水位阈值需要人工给定，通过水位阈值可以对序列进行分割得到范围较大的洪峰过程，但是分割得到的洪峰过程时间跨度比较持久，波峰数量比较大。因此在洪峰模式提取中，不仅需要关注洪峰模式的主模式的提取，还需要关注洪峰过程中单峰的提取。

在本发明中，根据水文时间序列的状态趋势变化关系寻找洪峰模式的起止时间点，然后采用起止时间点间的子序列代表洪峰模式，最终完成洪峰模式的提取，洪峰分割如图2所示，包括小波平滑去噪111、阈值粗分割112、洪峰选择细分割113这3个步骤，其中，小波平滑去噪是对有噪声的水文时间序列进行小波平滑去噪处理。阈值粗分割是指首先遍历水文时间序列，获取水文时间序列中的所有极值点；再次遍历水文时间序列，寻找第一个大于水位阈值的极值点，将其作为起始点，接着寻找下一个极值点，使该极值点刚好小于水位阈值，将该极值点作为终止点，以起始点和终止点间的序列作为子时间序列对水文时间序列进行分割，直到遍历完水文时间序列。洪峰选择细分割是对于根据水位阈值粗分割得到的子时间序列再次进行分割，提取子时间序列中的所有极大值和极小值构成极大值序列和极小值序列，从极小值序列中选取第一个极小值点，再从极大值序列中选择第一个大于极小值点的极大值，然后从极小值序列中选择第一个大于选择的极大值点的极小值，以两个极小点作为分割点对子时间序列进行分割，直到遍历完子时间序列。

除此之外洪峰分割还应满足以下属性：(1)分割出来的子时间序列应该具有完整的波；(2)对于连续洪峰过程和单独两个洪峰过程需要有所区别。对于给定水位阈值获得的洪峰分割子时间序列集，子时间序列集中包含了所有历史洪峰模式特征，在这些序列中存在相似性比较高的序列对，需要进行对应的聚类过程来过滤相似性比较高的子时间序列。

串行聚类120是建立在聚类基础之上，目的是对于分割得到的洪峰模式序列集进行简单的相似性序列段的剔除。聚类分析根据数据之间的相互关系将给定样本数据进行分组，其目标是同一聚类簇里对象之间是相关的，非同一簇间的数据差异显著，簇内的相似性和簇间的差异性是衡量聚类结果的标准。聚类可划分为系统聚类和动态聚类。用系统聚类法聚类，样本一旦划分到某个类以后就不变了，这要求分类的方法比较精确，此外系统聚类要存储距离阵，当样本量很大时，相应的计算量也很大，往往超过计算机的内存容量。动态聚类是一种以迭代思想为理论基础的聚类，具有方法简单、计算量小的优点，尤其适用于大样本聚类问题。

本发明的串行聚类120是基于动态聚类的思想，首先随机进行初始分类，然后按照某种距离最优性规则逐步修改分类，直到分类比较合理为止，所以动态聚类又称为逐步聚类。为了得到样本的初始分类，常常设法选一批“凝聚点”，然后把样本按某种准则(如最近距离准则)向凝聚点聚集，得到初始分类。

如图3所示，串行聚类120的步骤包括：选凝聚点121、初始分类122、判断分类是否合理123、修改分类124、最终分类125这5个步骤。具体的，凝聚点的选择有几种方式：(1)按实际经验选择；(2)将数据分为k类，计算每一类的样本均值作为该类的凝聚点；(3)将全部样本的均值作为第一个凝聚点，然后依次考察，若考察样本与现有凝聚点距离过大则作为新的凝聚点；(4)选择密度最大的样本点作为第一个凝聚点。初始分类是样本按某种准则(如最近距离准则)向凝聚点聚集，得到初始分类。判断分类是否合理是通过评判簇内的相似性和簇间的差异性判断分类的结果是否合理，如果分类合理，则生成最终分类，如果分类不合理，则按照某种距离最优性规则逐步修改分类，迭代进行，直到分类合理为止。

本发明的串行聚类方法仅仅只是一个粗分类，事先并不能确定最终聚类结果的类别数，目的是对于分割出的洪峰子时间序列，将其分成多个组，使组内的子时间序列之间相似性最高而组间差异性较大。

初始参考序列集生成130是为了选择时间序列特征序列集，时间序列特征序列集(也称为参考序列集)的选择是整个嵌入式索引的关键步骤，时间序列特征序列集选取的好坏直接关系到查询结果的有效性，目前还没有一个系统的方法从原始序列中选出符合要求的参考序列集，所以在本发明中选取最初的所有子时间序列作为初始参考序列集，并经过不断的训练，得到最终的参考序列集。

参考序列集训练140是从原始序列中选出符合要求的参考序列集。由于在水文时间序列中，参考序列集选择需要遵循下面几点：(1)参考序列需要来自原始序列中的不同部分，参考序列集中各个序列之间的差异应该尽量大；(2)在统计学领域，参考序列中的各序列之间应该存在统计学上的非相关性；(3)参考序列对于来自于同一个序列中的查询序列应该尽量能得到正确的匹配位置。介于上述要求，如图4所示，本发明提出了最大方差选择141、最小相关性选择142、最大过滤训练143来对参考序列集进行训练。

其中，最大方差选择是利用序列与其他序列之间的距离方差来衡量个体与其他序列的差异性，对于方差大的序列，表明在该参考序列集中，该序列与其他序列之间的距离不稳定且具有比较大的差别，通过最大方差训练方法可以从参考序列集中得到具有类似特征的序列。

最小相关性选择是在统计学领域，相关性分析用来判别两个样本之间的相互关系，经过最大方差选择，序列已经彼此之间具有比较大的距离，相关性分析目的是剔除那些距离大但是整体具有比较大相关性的序列。

最大过滤训练是利用来自同一时间序列总体中的查询序列作为训练序列集，使用无监督方法对参考序列集进行逐步判别训练，设置参考序列集对训练序列集的误差作为参考序列集训练结果的评价标准，经过训练之后，参考序列集对来自同一总体的查询序列具有比较好的映射效果。

时间序列嵌入索引计算150是把得到的参考序列集对原始序列进行嵌入索引的计算。这是一个映射的过程，通过参考序列把原始序列映射到欧氏向量空间中。索引过程中对原始序列每个位置的计算造成了数据的冗余和搜索效率的降低，本发明提出了基于窗口的索引生成算法，如图5所示，该算法定义了原始序列中的一个窗口，包括初始化索引位置151、判断是否对原始序列都建立索引152、判断对于所有参考序列是否都建立索引153、计算参考序列集与原始时间序列的DTW距离154、存储索引向量并存储索引向量对应的DTW距离155这5个步骤。

具体的，初始化索引位置是采用滑动窗口的形式构建索引，将原始序列映射到欧氏向量空间中，确定原始序列的长度并初始化索引的起始位置。判断是否对原始序列都建立索引是判断当前构建索引的位置，原始序列是否全部映射到欧氏向量空间中，是否达到结束的条件，如果原始序列对于所有参考序列集都建立索引并达到了原始序列的末尾，则建立索引结束；如果原始序列并没有都建立索引，则窗口向后移动。判断对于所有参考序列是否都建立索引是判断是否所有的参考序列都对于原始序列建立了索引，如果所有的参考序列都对于原始序列建立了索引，则转到判断是否对原始序列都建立索引，否则选择下一个参考序列并计算索引。计算参考序列集与原始时间序列的DTW距离是对于每一个参考序列集，计算其与原始序列滑动窗口的DTW距离。存储索引向量并存储索引向量对应的DTW距离是将索引向量以及索引向量对应的DTW距离存储到欧氏向量空间中，在线搜索则搜索此欧氏向量空间。通过建立基于窗口的索引向量索引，从而降低数据的冗余，提高了索引结构的精简性，进而提高查询的效率。

如图1所示，在线搜索阶段200包括查询序列索引210、欧氏空间搜索220、候选集生成230、候选集精炼240和匹配序列生成250这5个步骤。

具体的，查询序列索引是计算查询序列与参考序列集中每一个参考序列的DTW距离，将查询序列映射到欧氏向量空间中。查询序列索引计算公式如式(1)：

F(Q)＝(D(R₁,Q),D(R₂,Q),...,D(R_d,Q)) (1)

欧氏空间搜索是对于每一个查询序列，与嵌入式序列索引空间中的每一个向量之间进行欧氏距离的计算，取距离最小的前k个向量作为候选集。候选集生成是根据得到的候选集，判断最初始的起始位置，根据起始位置进行匹配并不断的沿着时间序列移动位置。候选集精炼过程是在候选集附近范围内进行原始DTW的匹配，为了避免重复匹配提高时间复杂度，则检查候选集中是否有重复部分，如果有重复部分，则将两部分合并，重新确定范围。最后根据匹配结果，选择相似性最高的原始序列作为最终的匹配结果即匹配序列生成。本发明将相似性搜索映射到欧氏向量空间中进行搜索，很大程度上提高了搜索效率。

Claims

1.一种基于嵌入式索引的水文时间序列相似性搜索方法，其特征在于，包括以下步骤：

1)离线准备阶段，具体包括：

1-3)生成初始参考序列集；

1-4)对参考序列集进行训练；

1-5)对水文时间序列进行嵌入索引计算，具体是指把得到的参考序列集对原始序列进行嵌入索引的计算，通过参考序列把原始序列映射到欧氏向量空间中，包括以下步骤：

1-5-5)存储索引向量并存储索引向量对应的DTW距离，是指将索引向量以及索引向量对应的DTW距离存储到欧氏向量空间中，在线搜索则搜索此欧氏向量空间；

2)在线搜索阶段，具体包括：

2-4)候选集精炼，在候选集相邻范围内进行原始DTW的匹配；

2.根据权利要求1所述的一种基于嵌入式索引的水文时间序列相似性搜索方法，其特征在于，所述步骤1-1)中洪峰分割包括以下步骤：

3.根据权利要求1所述的一种基于嵌入式索引的水文时间序列相似性搜索方法，其特征在于，所述步骤1-2)中串行聚类包括以下步骤：

1-2-1)选取凝聚点，所述凝聚点的选择包括以下几种方式：a、按实际经验选择；b、将样本数据分为k类，计算每一类的样本均值作为该类的凝聚点；c、将全部样本的均值作为第一个凝聚点，然后依次考察，若考察样本与现有凝聚点距离大于某一阈值则作为新的凝聚点；

d、选择密度最大的样本点作为第一个凝聚点；

1-2-5)生成最终分类。

4.根据权利要求1所述的一种基于嵌入式索引的水文时间序列相似性搜索方法，其特征在于，所述步骤1-3)中，选取最初的所有子时间序列作为初始参考序列集。

5.根据权利要求1所述的一种基于嵌入式索引的水文时间序列相似性搜索方法，其特征在于，所述步骤1-4)中，对参考序列集进行训练包括以下步骤：

6.根据权利要求1所述的一种基于嵌入式索引的水文时间序列相似性搜索方法，其特征在于，所述步骤2-1)中，查询序列索引计算公式如式(1)所示：

F(Q)＝(D(R₁,Q),D(R₂,Q),...,D(R_d,Q)) (1)