CN114647679A

CN114647679A - 一种基于数值特征聚类的水文时间序列模体挖掘方法

Info

Publication number: CN114647679A
Application number: CN202210247765.XA
Authority: CN
Inventors: 冯钧; 陈泽华; 陆佳民; 巫义锐; 王云峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-21

Abstract

本发明公开了一种基于数值特征聚类的水文时间序列模体挖掘方法，包括时间序列聚类过程和时间序列模体挖掘过程；在时间序列模体挖掘过程中，首先以类为单位，将每个类中时间序列进行全连接并计算全局距离矩阵；其次，使用可变尺寸二维窗口以一定规则和约束在全局矩阵上滑动；然后对每个窗口内的局部矩阵进行最短路径的计算；最后根据计算结果构造候选模体列表，并针对不同领域应用选择合适的模体。本发明从水文领域关注的时间序列数值特征以及实际应用中难以确定模体长度的两个角度出发，将基于时间序列数值特征的聚类方法和解决非等长时间序列距离计算的DTW算法引入到现有的模体挖掘方法中，实现高效、准确的挖掘效果。

Description

一种基于数值特征聚类的水文时间序列模体挖掘方法

技术领域

本发明属于水文数据处理技术领域，具体涉及一种基于数值特征聚类的水文时间序列模体挖掘方法。

背景技术

随着物联网技术的迅速发展，各种传感设备记录了随时间变化的海量数据，即时间序列。时间序列分析领域一个重要的研究点就是模体挖掘，这对于发现时间序列中的特征具有重要意义。模体指的是时间序列中重复的子片段或频繁出现的趋势。如今，模体挖掘已被广泛应用于气象、地震和昆虫行为分析等众多领域。

时间序列模体挖掘方法可以分为近似模体挖掘和精确模体挖掘，且时序数据可以是一维数据或者多维数据。在时间序列模体挖掘领域有许多经典方法。Patel等人提出了一种高效的固定长度模体发现算法，他们首次使用暴力算法定位模体对。Shasha和Wang等人通过使用近似距离图(ADM)对暴力算法进行优化，并提出了矩阵近似法(EMMA)。尽管如此，实际场景中的模体发现过程并不允许这么高的时间计算。因此，人们在效率提高方面做出了许多努力。Chiu等人使用了符号聚合近似(SAX)对时序数据进行降维处理，提出了随机投影(RP)算法。这种方法在数据压缩的同时降低了挖掘精度。Mueen团队首创了MatrixProfile算法，将子序列间的距离体现在距离矩阵上，并对此完成了一些剪枝方法的设计，如排除重复子序列对(trivial match)等。此后，基于MP的方法一直在持续改进，精度和效率也在逐渐提升，其中最为典型的就是Zhu等人提出的STOMP和STAMP方法。

然而在水文应用领域中，用户难以在一开始就确定好模体的长度。另一方面，成对出现的模体未必是严格等长的两个子序列。不等长的子序列同样可以体现相似的水文特征。因此，可变长的模体发现就显得尤为重要。Linardi等人基于MP提出了可变长模体发现(VALMOD)方法。这种方法在给定范围中搜索所有可能的模体。另一种可行的方法是基于动态时间规整(DTW)算法的，它可以计算不等长序列之间的距离。Alaee等人基于此提出了SWAMP算法。但以上方法仍然未解决动态长度模体的挖掘。

此外，由于水文学的领域特殊性，水文时间序列具有严格的解释意义，即可根据领域知识进行单位划分。一段时间内的水文时间序列即可反应一个事件甚至描述一个单一场景。现有模体挖掘方法大多基于长段时间序列，难以处理水文领域多特征且时间跨度广的时间序列，一种可行的解决方法是将水文时间序列预先进行相关数值特征聚类，在聚类集合中挖掘具有水文可解释特征的模体。Zhou等人提出了IF2CNN框架，该框架集成了迭代过滤(IF)方法和卷积神经网络(CNNs)，用于时间序列的自动特征学习。但是，CNN特征提取过程主要服务于具体预测任务，难以提取时态特征外的其他重要特征。Tiano等人提出了一种基于特征的半监督聚类框架(FeatTS)，该算法依赖于时间序列标签自适应地调整适合时间序列的关键特征，并基于现有聚类方法实现时间序列的聚类。然而，该监督方法需要部分时间序列标签，在部分应用中较难满足，且社区检测和相关度计算步骤分离，涉及的过多参数可以考虑进一步融合。

发明内容

发明目的：为克服以上现有技术的不足，本发明一种基于数值特征聚类的水文时间序列模体挖掘方法，实现实时的、准确的、高效的模体挖掘。

技术方案：本发明提供一种基于数值特征聚类的水文时间序列模体挖掘方法，包括以下步骤：

(1)提取多个水文时间序列的数值特征，根据时间序列标签选择与时间序列标签高度关联的特征，并在此基础上选择大于覆盖率阈值的最小数量特征；

(2)以最小数量特征为基本单位构建边加权图，根据加权边筛选比例确定保留的距离阈值，对每个特征的加权图进行初始的社区检测；

(3)根据每个加权图的社区数量与预定义聚类个数计算特征权值，构建加权共现矩阵；在共现矩阵中计算行向量之间的相似度，实现时间序列聚类集合；

(4)以步骤(3)的每个聚类集合为基本单位，对集合内时间序列进行全连接形成完整时间序列，与自身比较形成全局距离矩阵；

(5)使用可变尺寸的滑动窗口在全局距离矩阵上滑动，每次滑动过程中同时计算窗口内局部距离矩阵的最短路径距离；

(6)基于最短路径距离构建子序列对三元组集合，并筛选形成候选模体列表，根据实际应用选择预定义数量的模体。

进一步地，所述步骤(1)包括以下步骤：

(11)根据水文领域关注的时间序列的持续时间、振幅和趋势等特征形成相关的数值特征；

(12)根据时间序列的标签计算特征的相关程度，即p值，按p值排序后选择前top_f个特征；为减少特征冗余，选择满足覆盖率δ的最小数量特征。

进一步地，所述步骤(2)包括以下步骤：

(21)构建边加权图G^w：对于一个特征f_i和时间序列集合TSS＝{TS₁,TS₂,…,TS_m}，每个时间序列TS_p为边加权图

的顶点集合V的一个结点v_p；加权边集合E中每条边e_p,q对应一个权值

保留小于距离阈值ζ的边；

(22)应用社区检测算法在每个加权图中将若干节点分配到不同的社区中，社区检测算法利用图的连接结构统一时间序列聚类的不同表示。

进一步地，所述步骤(3)包括以下步骤：

(31)计算用户预定义聚类个数与社区个数之间比例确定每个特征的权重，具体计算方式为：

其中，C表示预定义的聚类个数，O_i表示加权图

中的社区数量；

(32)统计每一对时间序列出现在同一个社区的次数，并填入共现加权矩阵

具体方法为：

其中，

为共现带权矩阵，

表示时间序列TS_i和时间序列TS_j之间的加权共现比率；计算公式为：

其中，w_k表示任一特征对应的权值，w_k'表示TS_i和TS_j共同出现在一个社区的任一特征对应的权值，m和m'分别表示特征总数和TS_i和TS_j共同出现在一个社区的总次数；

(33)对

的行与行进行距离计算，并利用聚类算法形成最终聚类集合。

进一步地，步骤(4)所述距离矩阵为：

在单个聚类集合cs_i中，将集合内所有时间序列按照时间顺序排列构成完整时间序列TS_glob＝{ts₁,ts₂,…,ts_m}；完整时间序列TS_glob中每个元素与TS_glob中每个元素计算欧式距离，初始化全局距离矩阵Mat_{dis_glob}：

其中，

表示时间序列在i时刻和j时刻的序列值之间的距离，n表示为时间序列长度。

进一步地，所述步骤(5)包括以下步骤：

(51)使用不同面积大小、不同边长比例的窗口以一定的步长st在全局距离矩阵上滑动；

(52)在一次滑动过程中，计算滑动窗口内的局部距离矩阵Mat_{dis_local}的规整路径距离，即最短路径距离d_sp：

d_sp＝Min{DisWarping(Mat_{dis_local})}

(53)按照边长比例和面积设置，逐渐缩小滑动窗口大小，并重复步骤(51)和步骤(52)；

(54)对步骤(52)和步骤(53)中每个窗口内构成的局部距离矩阵Mat_{dis_local}计算最短路径的距离d_sp；最短路径的距离使用最短路径距离计算优化方法，即复用前序大窗口内累积矩阵元素的累积距离和复用前序邻居窗口内矩阵的局部最短路径；最短路径的距离d_sp需要根据子序列对长度归一化处理。

进一步地，所述步骤(6)包括以下步骤：

(61)构建子序列对三元组SPT＝<(idx₁,len₁),(idx₂,len₂),d_sp>；其中，(idx,len)分别表示子序列的起始索引和长度，d_sp为子序列对间的DTW距离；

(62)根据预定义的候选模体相似度阈值τ对子序列对三元组筛选，形成候选模体三元组CMT，即归一化的最短路径距离sim(d_sp)≥τ；其中，sim为相似度求解函数，相似度与DTW距离成反比；

(63)在候选模体三元组CMT中依次选择子序列元素加入候选模体列表CML中；

(64)候选模体列表CML的每个元素(cmidx_i,cmlen_i)关联一条单向链表simlinklist_i，链表中每个元素为候选模体三元组CMT中与(cmidx_i,cmlen_i)相似的子序列，即满足

其中，

为单向链表的任意元素；

(65)按照单向链表的长度排序，根据用户定义的模体个数K，选择排序后的候选模体列表CML的前K个元素，即为K-模体。

进一步地，步骤(54)所述的最短路径距离计算优化方法包括以下步骤：

(541)按照DTW算法最短路径求解过程计算划定的计算域Mat_{dis_local}[,:r+1]内所有元素的累积距离；

(542)复用域Mat_{dis_local}[,N-st-1:N-st]内所有元素的累积距离求解，复用前序距离矩阵从计算域Mat_{dis_local}[,:r+1]到该元素的累积距离之差，即

其中

和

分别表示前序累积距离矩阵和当前累积距离矩阵；(i,j)和(p,q)分别位于前序累积矩阵的计算域和重用域；

(543)根据DTW最短路径求解过程和步骤(542)已知的复用域内所有元素累积距离，计算划定的计算域Mat_{dis_local}[,N-st:]内所有元素的累积距离，Mat_{dis_local}第M行、第N列元素的累积距离即为该矩阵的最短路径距离d_sp。

有益效果：与现有技术相比，本发明的有益效果：本发明利用可变尺寸窗口在DTW生成的全局距离矩阵上滑动，实现了将一维时间序列的子序列对的相似度计算，映射到二维滑动窗口内部的局部矩阵的最短路径求解；局部距离矩阵计算过程采用了优化算法，简化了最短路径的求解，因此可以实现实时的、准确的、高效的模体挖掘；同时，本方法在水文领域中具有实际应用价值。

附图说明

图1是本发明的流程图；

图2为本发明时间序列各特征的社区检测结果示意图；

图3为本发明完整时间序列构建全局距离矩阵示意图；

图4为本发明局部距离矩阵的复用域和计算域划分示意图；

图5为本发明候选模体列表示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于数值特征聚类的水文时间序列模体挖掘方法，如图1所示，具体包括以下步骤：

步骤1：提取多个水文时间序列的数值特征，根据时间序列标签选择与时间序列标签高度关联的特征，并在此基础上选择大于覆盖率阈值的最小数量特征。

在时间序列集合TSS＝{TS₁,TS₂,…,TS_m}中使用tsfresh库提取特征，每个时间序列TS_i对应一个特征向量F_i＝{f₁,f₂,…,f_n}；将时间序列的特征向量与对应的分类标签共同组成m×(n+1)的二维矩阵，其中m表示时间序列总数，n表示特征总数。使用Benjamini-Yekutieli程序根据类别标签量化每个特征的重要性，即p值。在相关度排序中，选择前top_f个特征，top_f为预定义参数。使用主特征分析(PFA)算法将top_f个特征筛选，满足筛选后特征的方差之和可以覆盖其余特征的大部分信息。其中，覆盖率δ需要预先定义，top_f个特征经过筛选后个数为top_δ。

步骤2：以最小数量特征为基本单位构建边加权图，根据加权边筛选比例确定保留的距离阈值，对每个特征的加权图进行初始的社区检测。

构建边加权图G^w，对于一个特征f_i和时间序列集合TSS＝{TS₁,TS₂,…,TS_m}，每个时间序列TS_p为边加权图

的顶点集合V的一个结点v_p。加权边集合E中每条边e_p,q对应一个权值

保留小于距离阈值ζ的边。使用NetworkX库的贪心模块化算法对每个加权图进行社区检测，以搜索密集连接成社区的结点组合，如图2所示。

步骤3：根据每个加权图的社区数量与预定义聚类个数计算特征权值，构建加权共现矩阵；在共现矩阵中计算行向量之间的相似度，实现时间序列聚类集合。

根据社区检测算法从图

中导出的社区数量O_i和预定义的聚类个数C，为每个特征f_i分配一个近似的权重w_i：

统计每一对时间序列出现在同一个社区中的次数，并代入权重w_i，构建加权共现矩阵

具体方法为：

其中，第i行、第j列元素

计算方法为：

其中，w_k表示任一特征对应的权值，w_k'表示TS_i和TS_j共同出现在一个社区的任一特征对应的权值，m和m'分别表示特征总数和TS_i和TS_j共同出现在一个社区的总次数。

将加权共现矩阵

的各行向量之间计算欧式距离。利用K-Medoid算法将相似时间序列聚类，生成最终聚类集合CS。

步骤4：以步骤3的每个聚类集合为基本单位，对集合内时间序列进行全连接形成完整时间序列，与自身比较形成全局距离矩阵，如图3所示。

将聚类集合CS中的每一个时间序列集合c_i＝{TS₁,TS₂,…,TS_n}内的所有时间序列全连接，形成完整时间序列TS_glob＝{ts₁,ts₂,…,ts_m}。

将完整时间序列TS_glob中每个元素与TS_glob中每个元素计算欧式距离，构造全局距离矩阵Mat_{dis_glob}。构造全局距离矩阵Mat_{dis_glob}的具体方法为：

其中，

表示时间序列在i时刻和j时刻的序列值之间的欧式距离，即d(i,j)＝|ts_i-ts_j|；n表示为时间序列长度。

步骤5：使用可变尺寸的滑动窗口在全局距离矩阵上滑动，每次滑动过程中同时计算窗口内局部距离矩阵的最短路径距离。

(5.1)使用不同面积大小、不同边长比例的窗口在全局距离矩阵上滑动。以窗口的左上角为参考点，面积采用从大到小的方式，方向采用从左到右、由上及下的方式。为提高时间效率，根据一定的步长st进行滑动；

(5.2)在一次滑动过程中，计算滑动窗口内的局部距离矩阵Mat_{dis_local}的规整路径距离，即最短路径距离d_sp。计算方式采用DTW算法中最短路径求解方式：

d_sp＝Min{DisWarping(Mat_{dis_local})}

(5.3)重复以上步骤(5.1)和步骤(5.2)。在左右相邻矩阵间滑动过程中，采用距离矩阵计算优化策略。如图4所示，将局部距离矩阵

分为复用域和计算域。复用域为第(N-st)列元素。计算域为fastDTW算法定义的前(r+1)列元素，以及最后st列元素，复用和计算过程基于以上划定区域执行。

上下相邻矩阵间滑动同理；

(5.4)重复以上步骤(5.1)、步骤(5.2)和步骤(5.3)。在窗口尺寸由大及小过程中，较小局部距离矩阵的最短路径距离可以复用较大局部距离矩阵的距离，即

其中,cum^large(i,j)为较大距离矩阵计算最短路径时累积距离矩阵的第i行、第j列的元素。i和j为较小局部距离矩阵的行数和列数。

最短路径的复用和计算过程包括以下步骤：

1)按照DTW算法最短路径求解过程计算划定的计算Mat_{dis_local}[,:r+1]内所有元素的累积距离；

2)复用域Mat_{dis_local}[,N-st-1:N-st]内所有元素的累积距离求解，复用前序距离矩阵从计算域Mat_{dis_local}[,:r+1]到该元素的累积距离之差，即

其中

和

分别表示前序累积距离矩阵和当前累积距离矩阵。(i,j)和(p,q)分别位于前序累积矩阵的计算域和重用域；

3)根据DTW最短路径求解过程和步骤(532)已知的复用域内所有元素累积距离，计算划定的计算域Mat_{dis_local}[,N-st:]内所有元素的累积距离。Mat_{dis_local}第M行、第N列元素的累积距离即为该矩阵的最短路径距离d_sp。

步骤6：基于最短路径距离构建子序列对三元组集合，并筛选形成候选模体列表，根据实际应用选择预定义数量的模体。

(6.1)构建子序列对三元组SPT＝<(idx₁,len₁),(idx₂,len₂),d_sp>。其中，(idx,len)分别表示子序列的起始索引和长度，d_sp为子序列对间的DTW距离；

(6.2)根据预定义的候选模体相似度阈值τ对子序列对三元组筛选，形成候选模体三元组CMT，即归一化的最短路径距离sim(d_sp)≥τ。其中，sim为相似度求解函数，相似度与DTW距离成反比；

(6.3)在候选模体三元组CMT中依次选择子序列元素加入候选模体列表CML中，如图5所示。由于候选模体三元组CMT存在二元对称性，(idx₁,len₁)和(idx₂,len₂)都需要添加在CML中；

(6.4)候选模体列表CML的每个元素(cmidx_i,cmlen_i)关联一条单向链表simlinklist_i，链表中每个元素为候选模体三元组CMT中与(cmidx_i,cmlen_i)相似的子序列，即满足

其中，

为单向链表的任意元素；

(6.5)按照单向链表的长度排序。根据用户定义的模体个数K，选择排序后的候选模体列表CML的前K个元素，即为K-模体。

以水文领域的洪水预报应用中的主导因素降雨为例，具体如下：

选择昌化流域从1998年到2010年内共31条洪水数据集，主要包括七个雨量站监测点的降雨数据和出口流量值。七个雨量站监测点为：岛石坞、桃花村、龙门寺、双石、岭下、昱岭关和昌化。监测频率为一小时一条。根据七个站点空间分布占比计算昌化流域的面平均雨量，获得31条面平均降雨时间序列数据集TSS＝{TS₁,TS₂,…,TS₃₁}。其中，面平均降雨时间序列TS_i上每个数据点

的计算公式为：

其中，

表示监测站测量的小时降雨量。rtⁱ表示监测站所在子流域面积与总流域面积比率。

使用tsfresh库提取降雨时间序列数据集TSS＝{TS₁,TS₂,…,TS₃₁}的特征集合

使用Benjamini-Yekutieli方法计算特征集合F的p值，根据实证研究，按相关性排序的前20个特征足以获得高质量的聚类。因此选择前20个特征

使用PFA算法将特征集合F筛选。根据各种阈值实验，覆盖率选择90％。因此选择最小数量的特征，其方差之和覆盖其余特征产生的90％信息。筛选后的特征集合

的三个特征为quantile、trend_stderr和trend_rvalue。

构建边加权图

每个边加权图

中顶点集合V＝{v₁,v₂,…,v₃₁}对应降雨时间序列数据集TSS＝{TS₁,TS₂,…,TS₃₁}。加权边集合E＝{e_1,2,e_1,3,…,e_30,31}的每条边上的权值计算方式为：

保留小于距离阈值ζ的加权边。在实证评估中，使用80％的阈值在实际场景中效果很好。筛选后的加权边集合为E＝{e₁,e₂,…,e₉₃}；使用贪心模块化算法进行社区检测。对于边加权图

检测后的社区

记录31条降雨时间序列在三个边加权图

中社区共现情况。其中：

确定特征集合F中每个特征的权值w_i。根据国标GB/T 28592-2012，降雨类别主要分为：微量降雨、小雨、中雨、大雨、暴雨、大暴雨和特大暴雨。结合洪水相关领域知识，导致洪水主要降雨集中在中雨到大暴雨范围。因此聚类个数C预定义为4。根据技术方案中公式，w₁＝0.66，w₂＝1，w₃＝0.5。构建加权共现矩阵

以时间序列TS₁和TS₃为例，

计算加权共现矩阵行向量间的欧式距离，即

使用K-Medoid算法将相似时间序列聚类，生成最终聚类集合CS＝{cs₁,cs₂,cs₃,cs₄}。

以降雨时间序列簇cs₁＝{TS₁,TS₃,TS₈,TS₁₅,TS₂₃,TS₂₄}为例，将6条降雨时间序列全连接，相邻时间序列之间进行标注FL＝{fl₁,fl₂,fl₃,fl₄,fl₅}，形成簇cs₁的完整降雨时间序列TS_glob＝{ts₁,ts₂,…,ts₂₇₃}。生成完整降雨时间序列TS_glob与TS_glob的DTW距离矩阵

矩阵的每个元素为数值之间的欧式距离。

根据区域生成网络(RPN)的相关实验证明，滑动窗口选择1:1、1:2和2:1的边长比例可以较快地检测到目标位置。参照国标GB/T 28592-2012，降雨等级均按照12h降雨和24h降雨划分。因此，滑动窗口尺寸选择{48×48,48×24,24×48,24×24,24×12,12×24,12×12,12×6,6×12}。以窗口左上角为参考点，方向由上而下、由左及右。根据参数灵敏度实验，滑动步长st选择5。在一次滑动过程中，计算窗口内局部矩阵Mat_{dis_local}的最短路径距离d_sp。以采用尺寸为24×12的窗口左右滑动为例，当前局部距离矩阵

的复用域为第7列元素

计算域为前28列重合区域

和最后5列元素

上下滑动区域分配同理。利用DTW算法计算区域

内元素的累积距离。复用前序局部距离矩阵

的部分局部最短路径，获得区域

内元素的累积距离。继续利用DTW算法计算区域

内元素的累积距离。以滑动窗口尺寸由48×48缩小至48×24为例，对于同一位置(即左上角参考点一致)的滑动窗口，

以子序列对TS_27,48和TS_91,24之间的归一化DTW距离为1.266为例，子序列对三元组为SPT＝<(27,48),(91,24),1.266>。根据水文领域知识，相似度阈值τ设置为0.75。DTW距离为1.266转化为相似度约为0.79。因此，该三元组可作为模体候选三元组CMT。以S601候选模体三元组CMT＝<(27,48),(91,24),1.266>为例，候选模体列表CML需要同时添加(27,48)和(91,24)。且分别以(27,48)和(91,24)为链表头节点，各在当前链表尾节点处插入(91,24)和(27,48)。若不存在单链表，则直接创建并在头节点后添加。按照所有链表simlinklist_i的长度排序，选择排序后的候选模体列表CML的前3个候选模体作为最终模体。因此，在聚类集合CS中共有12个最终模体，12个模体具有不同的水文特征。此处，模体数量K可根据用户需求修改。