CN114647679A - 一种基于数值特征聚类的水文时间序列模体挖掘方法 - Google Patents

一种基于数值特征聚类的水文时间序列模体挖掘方法 Download PDF

Info

Publication number
CN114647679A
CN114647679A CN202210247765.XA CN202210247765A CN114647679A CN 114647679 A CN114647679 A CN 114647679A CN 202210247765 A CN202210247765 A CN 202210247765A CN 114647679 A CN114647679 A CN 114647679A
Authority
CN
China
Prior art keywords
distance
time series
matrix
local
shortest path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210247765.XA
Other languages
English (en)
Inventor
冯钧
陈泽华
陆佳民
巫义锐
王云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210247765.XA priority Critical patent/CN114647679A/zh
Publication of CN114647679A publication Critical patent/CN114647679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数值特征聚类的水文时间序列模体挖掘方法,包括时间序列聚类过程和时间序列模体挖掘过程;在时间序列模体挖掘过程中,首先以类为单位,将每个类中时间序列进行全连接并计算全局距离矩阵;其次,使用可变尺寸二维窗口以一定规则和约束在全局矩阵上滑动;然后对每个窗口内的局部矩阵进行最短路径的计算;最后根据计算结果构造候选模体列表,并针对不同领域应用选择合适的模体。本发明从水文领域关注的时间序列数值特征以及实际应用中难以确定模体长度的两个角度出发,将基于时间序列数值特征的聚类方法和解决非等长时间序列距离计算的DTW算法引入到现有的模体挖掘方法中,实现高效、准确的挖掘效果。

Description

一种基于数值特征聚类的水文时间序列模体挖掘方法
技术领域
本发明属于水文数据处理技术领域,具体涉及一种基于数值特征聚类的水文时间序列模体挖掘方法。
背景技术
随着物联网技术的迅速发展,各种传感设备记录了随时间变化的海量数据,即时间序列。时间序列分析领域一个重要的研究点就是模体挖掘,这对于发现时间序列中的特征具有重要意义。模体指的是时间序列中重复的子片段或频繁出现的趋势。如今,模体挖掘已被广泛应用于气象、地震和昆虫行为分析等众多领域。
时间序列模体挖掘方法可以分为近似模体挖掘和精确模体挖掘,且时序数据可以是一维数据或者多维数据。在时间序列模体挖掘领域有许多经典方法。Patel等人提出了一种高效的固定长度模体发现算法,他们首次使用暴力算法定位模体对。Shasha和Wang等人通过使用近似距离图(ADM)对暴力算法进行优化,并提出了矩阵近似法(EMMA)。尽管如此,实际场景中的模体发现过程并不允许这么高的时间计算。因此,人们在效率提高方面做出了许多努力。Chiu等人使用了符号聚合近似(SAX)对时序数据进行降维处理,提出了随机投影(RP)算法。这种方法在数据压缩的同时降低了挖掘精度。Mueen团队首创了MatrixProfile算法,将子序列间的距离体现在距离矩阵上,并对此完成了一些剪枝方法的设计,如排除重复子序列对(trivial match)等。此后,基于MP的方法一直在持续改进,精度和效率也在逐渐提升,其中最为典型的就是Zhu等人提出的STOMP和STAMP方法。
然而在水文应用领域中,用户难以在一开始就确定好模体的长度。另一方面,成对出现的模体未必是严格等长的两个子序列。不等长的子序列同样可以体现相似的水文特征。因此,可变长的模体发现就显得尤为重要。Linardi等人基于MP提出了可变长模体发现(VALMOD)方法。这种方法在给定范围中搜索所有可能的模体。另一种可行的方法是基于动态时间规整(DTW)算法的,它可以计算不等长序列之间的距离。Alaee等人基于此提出了SWAMP算法。但以上方法仍然未解决动态长度模体的挖掘。
此外,由于水文学的领域特殊性,水文时间序列具有严格的解释意义,即可根据领域知识进行单位划分。一段时间内的水文时间序列即可反应一个事件甚至描述一个单一场景。现有模体挖掘方法大多基于长段时间序列,难以处理水文领域多特征且时间跨度广的时间序列,一种可行的解决方法是将水文时间序列预先进行相关数值特征聚类,在聚类集合中挖掘具有水文可解释特征的模体。Zhou等人提出了IF2CNN框架,该框架集成了迭代过滤(IF)方法和卷积神经网络(CNNs),用于时间序列的自动特征学习。但是,CNN特征提取过程主要服务于具体预测任务,难以提取时态特征外的其他重要特征。Tiano等人提出了一种基于特征的半监督聚类框架(FeatTS),该算法依赖于时间序列标签自适应地调整适合时间序列的关键特征,并基于现有聚类方法实现时间序列的聚类。然而,该监督方法需要部分时间序列标签,在部分应用中较难满足,且社区检测和相关度计算步骤分离,涉及的过多参数可以考虑进一步融合。
发明内容
发明目的:为克服以上现有技术的不足,本发明一种基于数值特征聚类的水文时间序列模体挖掘方法,实现实时的、准确的、高效的模体挖掘。
技术方案:本发明提供一种基于数值特征聚类的水文时间序列模体挖掘方法,包括以下步骤:
(1)提取多个水文时间序列的数值特征,根据时间序列标签选择与时间序列标签高度关联的特征,并在此基础上选择大于覆盖率阈值的最小数量特征;
(2)以最小数量特征为基本单位构建边加权图,根据加权边筛选比例确定保留的距离阈值,对每个特征的加权图进行初始的社区检测;
(3)根据每个加权图的社区数量与预定义聚类个数计算特征权值,构建加权共现矩阵;在共现矩阵中计算行向量之间的相似度,实现时间序列聚类集合;
(4)以步骤(3)的每个聚类集合为基本单位,对集合内时间序列进行全连接形成完整时间序列,与自身比较形成全局距离矩阵;
(5)使用可变尺寸的滑动窗口在全局距离矩阵上滑动,每次滑动过程中同时计算窗口内局部距离矩阵的最短路径距离;
(6)基于最短路径距离构建子序列对三元组集合,并筛选形成候选模体列表,根据实际应用选择预定义数量的模体。
进一步地,所述步骤(1)包括以下步骤:
(11)根据水文领域关注的时间序列的持续时间、振幅和趋势等特征形成相关的数值特征;
(12)根据时间序列的标签计算特征的相关程度,即p值,按p值排序后选择前topf个特征;为减少特征冗余,选择满足覆盖率δ的最小数量特征。
进一步地,所述步骤(2)包括以下步骤:
(21)构建边加权图Gw:对于一个特征fi和时间序列集合TSS={TS1,TS2,…,TSm},每个时间序列TSp为边加权图
Figure BDA0003545566510000039
的顶点集合V的一个结点vp;加权边集合E中每条边ep,q对应一个权值
Figure BDA0003545566510000031
保留小于距离阈值ζ的边;
(22)应用社区检测算法在每个加权图中将若干节点分配到不同的社区中,社区检测算法利用图的连接结构统一时间序列聚类的不同表示。
进一步地,所述步骤(3)包括以下步骤:
(31)计算用户预定义聚类个数与社区个数之间比例确定每个特征的权重,具体计算方式为:
Figure BDA0003545566510000032
其中,C表示预定义的聚类个数,Oi表示加权图
Figure BDA0003545566510000033
中的社区数量;
(32)统计每一对时间序列出现在同一个社区的次数,并填入共现加权矩阵
Figure BDA0003545566510000034
具体方法为:
Figure BDA0003545566510000035
其中,
Figure BDA0003545566510000036
为共现带权矩阵,
Figure BDA0003545566510000037
表示时间序列TSi和时间序列TSj之间的加权共现比率;计算公式为:
Figure BDA0003545566510000038
其中,wk表示任一特征对应的权值,wk'表示TSi和TSj共同出现在一个社区的任一特征对应的权值,m和m'分别表示特征总数和TSi和TSj共同出现在一个社区的总次数;
(33)对
Figure BDA0003545566510000041
的行与行进行距离计算,并利用聚类算法形成最终聚类集合。
进一步地,步骤(4)所述距离矩阵为:
在单个聚类集合csi中,将集合内所有时间序列按照时间顺序排列构成完整时间序列TSglob={ts1,ts2,…,tsm};完整时间序列TSglob中每个元素与TSglob中每个元素计算欧式距离,初始化全局距离矩阵Matdis_glob
Figure BDA0003545566510000042
其中,
Figure BDA0003545566510000043
表示时间序列在i时刻和j时刻的序列值之间的距离,n表示为时间序列长度。
进一步地,所述步骤(5)包括以下步骤:
(51)使用不同面积大小、不同边长比例的窗口以一定的步长st在全局距离矩阵上滑动;
(52)在一次滑动过程中,计算滑动窗口内的局部距离矩阵Matdis_local的规整路径距离,即最短路径距离dsp
dsp=Min{DisWarping(Matdis_local)}
(53)按照边长比例和面积设置,逐渐缩小滑动窗口大小,并重复步骤(51)和步骤(52);
(54)对步骤(52)和步骤(53)中每个窗口内构成的局部距离矩阵Matdis_local计算最短路径的距离dsp;最短路径的距离使用最短路径距离计算优化方法,即复用前序大窗口内累积矩阵元素的累积距离和复用前序邻居窗口内矩阵的局部最短路径;最短路径的距离dsp需要根据子序列对长度归一化处理。
进一步地,所述步骤(6)包括以下步骤:
(61)构建子序列对三元组SPT=<(idx1,len1),(idx2,len2),dsp>;其中,(idx,len)分别表示子序列的起始索引和长度,dsp为子序列对间的DTW距离;
(62)根据预定义的候选模体相似度阈值τ对子序列对三元组筛选,形成候选模体三元组CMT,即归一化的最短路径距离sim(dsp)≥τ;其中,sim为相似度求解函数,相似度与DTW距离成反比;
(63)在候选模体三元组CMT中依次选择子序列元素加入候选模体列表CML中;
(64)候选模体列表CML的每个元素(cmidxi,cmleni)关联一条单向链表simlinklisti,链表中每个元素为候选模体三元组CMT中与(cmidxi,cmleni)相似的子序列,即满足
Figure BDA0003545566510000051
其中,
Figure BDA0003545566510000052
为单向链表的任意元素;
(65)按照单向链表的长度排序,根据用户定义的模体个数K,选择排序后的候选模体列表CML的前K个元素,即为K-模体。
进一步地,步骤(54)所述的最短路径距离计算优化方法包括以下步骤:
(541)按照DTW算法最短路径求解过程计算划定的计算域Matdis_local[,:r+1]内所有元素的累积距离;
(542)复用域Matdis_local[,N-st-1:N-st]内所有元素的累积距离求解,复用前序距离矩阵从计算域Matdis_local[,:r+1]到该元素的累积距离之差,即
Figure BDA0003545566510000053
其中
Figure BDA0003545566510000054
Figure BDA0003545566510000055
分别表示前序累积距离矩阵和当前累积距离矩阵;(i,j)和(p,q)分别位于前序累积矩阵的计算域和重用域;
(543)根据DTW最短路径求解过程和步骤(542)已知的复用域内所有元素累积距离,计算划定的计算域Matdis_local[,N-st:]内所有元素的累积距离,Matdis_local第M行、第N列元素的累积距离即为该矩阵的最短路径距离dsp
有益效果:与现有技术相比,本发明的有益效果:本发明利用可变尺寸窗口在DTW生成的全局距离矩阵上滑动,实现了将一维时间序列的子序列对的相似度计算,映射到二维滑动窗口内部的局部矩阵的最短路径求解;局部距离矩阵计算过程采用了优化算法,简化了最短路径的求解,因此可以实现实时的、准确的、高效的模体挖掘;同时,本方法在水文领域中具有实际应用价值。
附图说明
图1是本发明的流程图;
图2为本发明时间序列各特征的社区检测结果示意图;
图3为本发明完整时间序列构建全局距离矩阵示意图;
图4为本发明局部距离矩阵的复用域和计算域划分示意图;
图5为本发明候选模体列表示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种基于数值特征聚类的水文时间序列模体挖掘方法,如图1所示,具体包括以下步骤:
步骤1:提取多个水文时间序列的数值特征,根据时间序列标签选择与时间序列标签高度关联的特征,并在此基础上选择大于覆盖率阈值的最小数量特征。
在时间序列集合TSS={TS1,TS2,…,TSm}中使用tsfresh库提取特征,每个时间序列TSi对应一个特征向量Fi={f1,f2,…,fn};将时间序列的特征向量与对应的分类标签共同组成m×(n+1)的二维矩阵,其中m表示时间序列总数,n表示特征总数。使用Benjamini-Yekutieli程序根据类别标签量化每个特征的重要性,即p值。在相关度排序中,选择前topf个特征,topf为预定义参数。使用主特征分析(PFA)算法将topf个特征筛选,满足筛选后特征的方差之和可以覆盖其余特征的大部分信息。其中,覆盖率δ需要预先定义,topf个特征经过筛选后个数为topδ
步骤2:以最小数量特征为基本单位构建边加权图,根据加权边筛选比例确定保留的距离阈值,对每个特征的加权图进行初始的社区检测。
构建边加权图Gw,对于一个特征fi和时间序列集合TSS={TS1,TS2,…,TSm},每个时间序列TSp为边加权图
Figure BDA0003545566510000061
的顶点集合V的一个结点vp。加权边集合E中每条边ep,q对应一个权值
Figure BDA0003545566510000062
保留小于距离阈值ζ的边。使用NetworkX库的贪心模块化算法对每个加权图进行社区检测,以搜索密集连接成社区的结点组合,如图2所示。
步骤3:根据每个加权图的社区数量与预定义聚类个数计算特征权值,构建加权共现矩阵;在共现矩阵中计算行向量之间的相似度,实现时间序列聚类集合。
根据社区检测算法从图
Figure BDA0003545566510000071
中导出的社区数量Oi和预定义的聚类个数C,为每个特征fi分配一个近似的权重wi
Figure BDA0003545566510000072
统计每一对时间序列出现在同一个社区中的次数,并代入权重wi,构建加权共现矩阵
Figure BDA0003545566510000073
具体方法为:
Figure BDA0003545566510000074
其中,第i行、第j列元素
Figure BDA0003545566510000075
计算方法为:
Figure BDA0003545566510000076
其中,wk表示任一特征对应的权值,wk'表示TSi和TSj共同出现在一个社区的任一特征对应的权值,m和m'分别表示特征总数和TSi和TSj共同出现在一个社区的总次数。
将加权共现矩阵
Figure BDA0003545566510000077
的各行向量之间计算欧式距离。利用K-Medoid算法将相似时间序列聚类,生成最终聚类集合CS。
步骤4:以步骤3的每个聚类集合为基本单位,对集合内时间序列进行全连接形成完整时间序列,与自身比较形成全局距离矩阵,如图3所示。
将聚类集合CS中的每一个时间序列集合ci={TS1,TS2,…,TSn}内的所有时间序列全连接,形成完整时间序列TSglob={ts1,ts2,…,tsm}。
将完整时间序列TSglob中每个元素与TSglob中每个元素计算欧式距离,构造全局距离矩阵Matdis_glob。构造全局距离矩阵Matdis_glob的具体方法为:
Figure BDA0003545566510000078
其中,
Figure BDA0003545566510000081
表示时间序列在i时刻和j时刻的序列值之间的欧式距离,即d(i,j)=|tsi-tsj|;n表示为时间序列长度。
步骤5:使用可变尺寸的滑动窗口在全局距离矩阵上滑动,每次滑动过程中同时计算窗口内局部距离矩阵的最短路径距离。
(5.1)使用不同面积大小、不同边长比例的窗口在全局距离矩阵上滑动。以窗口的左上角为参考点,面积采用从大到小的方式,方向采用从左到右、由上及下的方式。为提高时间效率,根据一定的步长st进行滑动;
(5.2)在一次滑动过程中,计算滑动窗口内的局部距离矩阵Matdis_local的规整路径距离,即最短路径距离dsp。计算方式采用DTW算法中最短路径求解方式:
dsp=Min{DisWarping(Matdis_local)}
(5.3)重复以上步骤(5.1)和步骤(5.2)。在左右相邻矩阵间滑动过程中,采用距离矩阵计算优化策略。如图4所示,将局部距离矩阵
Figure BDA0003545566510000082
分为复用域和计算域。复用域为第(N-st)列元素。计算域为fastDTW算法定义的前(r+1)列元素,以及最后st列元素,复用和计算过程基于以上划定区域执行。
上下相邻矩阵间滑动同理;
(5.4)重复以上步骤(5.1)、步骤(5.2)和步骤(5.3)。在窗口尺寸由大及小过程中,较小局部距离矩阵的最短路径距离可以复用较大局部距离矩阵的距离,即
Figure BDA0003545566510000083
其中,cumlarge(i,j)为较大距离矩阵计算最短路径时累积距离矩阵的第i行、第j列的元素。i和j为较小局部距离矩阵的行数和列数。
最短路径的复用和计算过程包括以下步骤:
1)按照DTW算法最短路径求解过程计算划定的计算Matdis_local[,:r+1]内所有元素的累积距离;
2)复用域Matdis_local[,N-st-1:N-st]内所有元素的累积距离求解,复用前序距离矩阵从计算域Matdis_local[,:r+1]到该元素的累积距离之差,即
Figure BDA0003545566510000084
其中
Figure BDA0003545566510000085
Figure BDA0003545566510000086
分别表示前序累积距离矩阵和当前累积距离矩阵。(i,j)和(p,q)分别位于前序累积矩阵的计算域和重用域;
3)根据DTW最短路径求解过程和步骤(532)已知的复用域内所有元素累积距离,计算划定的计算域Matdis_local[,N-st:]内所有元素的累积距离。Matdis_local第M行、第N列元素的累积距离即为该矩阵的最短路径距离dsp
步骤6:基于最短路径距离构建子序列对三元组集合,并筛选形成候选模体列表,根据实际应用选择预定义数量的模体。
(6.1)构建子序列对三元组SPT=<(idx1,len1),(idx2,len2),dsp>。其中,(idx,len)分别表示子序列的起始索引和长度,dsp为子序列对间的DTW距离;
(6.2)根据预定义的候选模体相似度阈值τ对子序列对三元组筛选,形成候选模体三元组CMT,即归一化的最短路径距离sim(dsp)≥τ。其中,sim为相似度求解函数,相似度与DTW距离成反比;
(6.3)在候选模体三元组CMT中依次选择子序列元素加入候选模体列表CML中,如图5所示。由于候选模体三元组CMT存在二元对称性,(idx1,len1)和(idx2,len2)都需要添加在CML中;
(6.4)候选模体列表CML的每个元素(cmidxi,cmleni)关联一条单向链表simlinklisti,链表中每个元素为候选模体三元组CMT中与(cmidxi,cmleni)相似的子序列,即满足
Figure BDA0003545566510000091
其中,
Figure BDA0003545566510000092
为单向链表的任意元素;
(6.5)按照单向链表的长度排序。根据用户定义的模体个数K,选择排序后的候选模体列表CML的前K个元素,即为K-模体。
以水文领域的洪水预报应用中的主导因素降雨为例,具体如下:
选择昌化流域从1998年到2010年内共31条洪水数据集,主要包括七个雨量站监测点的降雨数据和出口流量值。七个雨量站监测点为:岛石坞、桃花村、龙门寺、双石、岭下、昱岭关和昌化。监测频率为一小时一条。根据七个站点空间分布占比计算昌化流域的面平均雨量,获得31条面平均降雨时间序列数据集TSS={TS1,TS2,…,TS31}。其中,面平均降雨时间序列TSi上每个数据点
Figure BDA0003545566510000093
的计算公式为:
Figure BDA0003545566510000101
其中,
Figure BDA0003545566510000102
表示监测站测量的小时降雨量。rti表示监测站所在子流域面积与总流域面积比率。
使用tsfresh库提取降雨时间序列数据集TSS={TS1,TS2,…,TS31}的特征集合
Figure BDA0003545566510000103
使用Benjamini-Yekutieli方法计算特征集合F的p值,根据实证研究,按相关性排序的前20个特征足以获得高质量的聚类。因此选择前20个特征
Figure BDA0003545566510000104
使用PFA算法将特征集合F筛选。根据各种阈值实验,覆盖率选择90%。因此选择最小数量的特征,其方差之和覆盖其余特征产生的90%信息。筛选后的特征集合
Figure BDA0003545566510000105
的三个特征为quantile、trend_stderr和trend_rvalue。
构建边加权图
Figure BDA0003545566510000106
每个边加权图
Figure BDA0003545566510000107
中顶点集合V={v1,v2,…,v31}对应降雨时间序列数据集TSS={TS1,TS2,…,TS31}。加权边集合E={e1,2,e1,3,…,e30,31}的每条边上的权值计算方式为:
Figure BDA0003545566510000108
保留小于距离阈值ζ的加权边。在实证评估中,使用80%的阈值在实际场景中效果很好。筛选后的加权边集合为E={e1,e2,…,e93};使用贪心模块化算法进行社区检测。对于边加权图
Figure BDA0003545566510000109
检测后的社区
Figure BDA00035455665100001017
记录31条降雨时间序列在三个边加权图
Figure BDA00035455665100001010
中社区共现情况。其中:
Figure BDA00035455665100001011
Figure BDA00035455665100001012
Figure BDA00035455665100001013
确定特征集合F中每个特征的权值wi。根据国标GB/T 28592-2012,降雨类别主要分为:微量降雨、小雨、中雨、大雨、暴雨、大暴雨和特大暴雨。结合洪水相关领域知识,导致洪水主要降雨集中在中雨到大暴雨范围。因此聚类个数C预定义为4。根据技术方案中公式,w1=0.66,w2=1,w3=0.5。构建加权共现矩阵
Figure BDA00035455665100001014
以时间序列TS1和TS3为例,
Figure BDA00035455665100001015
计算加权共现矩阵行向量间的欧式距离,即
Figure BDA00035455665100001016
使用K-Medoid算法将相似时间序列聚类,生成最终聚类集合CS={cs1,cs2,cs3,cs4}。
以降雨时间序列簇cs1={TS1,TS3,TS8,TS15,TS23,TS24}为例,将6条降雨时间序列全连接,相邻时间序列之间进行标注FL={fl1,fl2,fl3,fl4,fl5},形成簇cs1的完整降雨时间序列TSglob={ts1,ts2,…,ts273}。生成完整降雨时间序列TSglob与TSglob的DTW距离矩阵
Figure BDA0003545566510000111
矩阵的每个元素为数值之间的欧式距离。
根据区域生成网络(RPN)的相关实验证明,滑动窗口选择1:1、1:2和2:1的边长比例可以较快地检测到目标位置。参照国标GB/T 28592-2012,降雨等级均按照12h降雨和24h降雨划分。因此,滑动窗口尺寸选择{48×48,48×24,24×48,24×24,24×12,12×24,12×12,12×6,6×12}。以窗口左上角为参考点,方向由上而下、由左及右。根据参数灵敏度实验,滑动步长st选择5。在一次滑动过程中,计算窗口内局部矩阵Matdis_local的最短路径距离dsp。以采用尺寸为24×12的窗口左右滑动为例,当前局部距离矩阵
Figure BDA0003545566510000112
的复用域为第7列元素
Figure BDA0003545566510000113
计算域为前28列重合区域
Figure BDA0003545566510000114
和最后5列元素
Figure BDA0003545566510000115
上下滑动区域分配同理。利用DTW算法计算区域
Figure BDA0003545566510000116
内元素的累积距离。复用前序局部距离矩阵
Figure BDA0003545566510000117
的部分局部最短路径,获得区域
Figure BDA0003545566510000118
内元素的累积距离。继续利用DTW算法计算区域
Figure BDA0003545566510000119
内元素的累积距离。以滑动窗口尺寸由48×48缩小至48×24为例,对于同一位置(即左上角参考点一致)的滑动窗口,
Figure BDA00035455665100001110
Figure BDA00035455665100001111
以子序列对TS27,48和TS91,24之间的归一化DTW距离为1.266为例,子序列对三元组为SPT=<(27,48),(91,24),1.266>。根据水文领域知识,相似度阈值τ设置为0.75。DTW距离为1.266转化为相似度约为0.79。因此,该三元组可作为模体候选三元组CMT。以S601候选模体三元组CMT=<(27,48),(91,24),1.266>为例,候选模体列表CML需要同时添加(27,48)和(91,24)。且分别以(27,48)和(91,24)为链表头节点,各在当前链表尾节点处插入(91,24)和(27,48)。若不存在单链表,则直接创建并在头节点后添加。按照所有链表simlinklisti的长度排序,选择排序后的候选模体列表CML的前3个候选模体作为最终模体。因此,在聚类集合CS中共有12个最终模体,12个模体具有不同的水文特征。此处,模体数量K可根据用户需求修改。

Claims (8)

1.一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,包括以下步骤:
(1)提取多个水文时间序列的数值特征,根据时间序列标签选择与时间序列标签高度关联的特征,并在此基础上选择大于覆盖率阈值的最小数量特征;
(2)以最小数量特征为基本单位构建边加权图,根据加权边筛选比例确定保留的距离阈值,对每个特征的加权图进行初始的社区检测;
(3)根据每个加权图的社区数量与预定义聚类个数计算特征权值,构建加权共现矩阵;在共现矩阵中计算行向量之间的相似度,实现时间序列聚类集合;
(4)以步骤(3)的每个聚类集合为基本单位,对集合内时间序列进行全连接形成完整时间序列,与自身比较形成全局距离矩阵;
(5)使用可变尺寸的滑动窗口在全局距离矩阵上滑动,每次滑动过程中同时计算窗口内局部距离矩阵的最短路径距离;
(6)基于最短路径距离构建子序列对三元组集合,并筛选形成候选模体列表,根据实际应用选择预定义数量的模体。
2.根据权利要求1所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,所述步骤(1)包括以下步骤:
(11)根据水文领域关注的时间序列的持续时间、振幅和趋势等特征形成相关的数值特征;
(12)根据时间序列的标签计算特征的相关程度,即p值,按p值排序后选择前topf个特征;为减少特征冗余,选择满足覆盖率δ的最小数量特征。
3.根据权利要求1所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,所述步骤(2)包括以下步骤:
(21)构建边加权图Gw:对于一个特征fi和时间序列集合TSS={TS1,TS2,...,TSm},每个时间序列TSp为边加权图
Figure FDA0003545566500000011
的顶点集合V的一个结点vp;加权边集合E中每条边ep,q对应一个权值
Figure FDA0003545566500000012
保留小于距离阈值ζ的边;
(22)应用社区检测算法在每个加权图中将若干节点分配到不同的社区中,社区检测算法利用图的连接结构统一时间序列聚类的不同表示。
4.根据权利要求1所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,所述步骤(3)包括以下步骤:
(31)计算用户预定义聚类个数与社区个数之间比例确定每个特征的权重,具体计算方式为:
Figure FDA0003545566500000021
其中,C表示预定义的聚类个数,Oi表示加权图
Figure FDA0003545566500000022
中的社区数量;
(32)统计每一对时间序列出现在同一个社区的次数,并填入共现加权矩阵
Figure FDA0003545566500000023
具体方法为:
Figure FDA0003545566500000024
其中,
Figure FDA0003545566500000025
为共现带权矩阵,
Figure FDA0003545566500000026
表示时间序列TSi和时间序列TSj之间的加权共现比率;计算公式为:
Figure FDA0003545566500000027
其中,wk表示任一特征对应的权值,wk′表示TSi和TSj共同出现在一个社区的任一特征对应的权值,m和m′分别表示特征总数和TSi和TSj共同出现在一个社区的总次数;
(33)对
Figure FDA0003545566500000028
的行与行进行距离计算,并利用聚类算法形成最终聚类集合。
5.根据权利要求1所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,步骤(4)所述距离矩阵为:
在单个聚类集合csi中,将集合内所有时间序列按照时间顺序排列构成完整时间序列TSglob={ts1,ts2,...,tsm};完整时间序列TSglob中每个元素与TSglob中每个元素计算欧式距离,初始化全局距离矩阵Matdis_glob
Figure FDA0003545566500000029
其中,
Figure FDA00035455665000000210
表示时间序列在i时刻和j时刻的序列值之间的距离,n表示为时间序列长度。
6.根据权利要求1所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,所述步骤(5)包括以下步骤:
(51)使用不同面积大小、不同边长比例的窗口以一定的步长st在全局距离矩阵上滑动;
(52)在一次滑动过程中,计算滑动窗口内的局部距离矩阵Matdis_local的规整路径距离,即最短路径距离dsp
dsp=Min{DisWarping(Matdis_local)}
(53)按照边长比例和面积设置,逐渐缩小滑动窗口大小,并重复步骤(51)和步骤(52);
(54)对步骤(52)和步骤(53)中每个窗口内构成的局部距离矩阵Matdis_local计算最短路径的距离dsp;最短路径的距离使用最短路径距离计算优化方法,即复用前序大窗口内累积矩阵元素的累积距离和复用前序邻居窗口内矩阵的局部最短路径;最短路径的距离dsp需要根据子序列对长度归一化处理。
7.根据权利要求1所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,所述步骤(6)包括以下步骤:
(61)构建子序列对三元组SPT=<(idx1,len1),(idx2,len2),dsp>;其中,(idx,len)分别表示子序列的起始索引和长度,dsp为子序列对间的DTW距离;
(62)根据预定义的候选模体相似度阈值τ对子序列对三元组筛选,形成候选模体三元组CMT,即归一化的最短路径距离sim(dsp)≥τ;其中,sim为相似度求解函数,相似度与DTW距离成反比;
(63)在候选模体三元组CMT中依次选择子序列元素加入候选模体列表CML中;
(64)候选模体列表CML的每个元素(cmidxi,cmleni)关联一条单向链表simlinklisti,链表中每个元素为候选模体三元组CMT中与(cmidxi,cmleni)相似的子序列,即满足
Figure FDA0003545566500000031
其中,
Figure FDA0003545566500000032
为单向链表的任意元素;
(65)按照单向链表的长度排序,根据用户定义的模体个数K,选择排序后的候选模体列表CML的前K个元素,即为K-模体。
8.根据权利要求6所述的一种基于数值特征聚类的水文时间序列模体挖掘方法,其特征在于,步骤(54)所述的最短路径距离计算优化方法包括以下步骤:
(541)按照DTW算法最短路径求解过程计算划定的计算域Matdis_local[,:r+1]内所有元素的累积距离;
(542)复用域Matdis_local[,N-st-1:N-st]内所有元素的累积距离求解,复用前序距离矩阵从计算域Matdis_local[,:r+1]到该元素的累积距离之差,即
Figure FDA0003545566500000041
其中
Figure FDA0003545566500000042
Figure FDA0003545566500000043
分别表示前序累积距离矩阵和当前累积距离矩阵;(i,j)和(p,q)分别位于前序累积矩阵的计算域和重用域;
(543)根据DTW最短路径求解过程和步骤(542)已知的复用域内所有元素累积距离,计算划定的计算域Matdis_local[,N-st:]内所有元素的累积距离,Matdis_local第M行、第N列元素的累积距离即为该矩阵的最短路径距离dsp
CN202210247765.XA 2022-03-14 2022-03-14 一种基于数值特征聚类的水文时间序列模体挖掘方法 Pending CN114647679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210247765.XA CN114647679A (zh) 2022-03-14 2022-03-14 一种基于数值特征聚类的水文时间序列模体挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210247765.XA CN114647679A (zh) 2022-03-14 2022-03-14 一种基于数值特征聚类的水文时间序列模体挖掘方法

Publications (1)

Publication Number Publication Date
CN114647679A true CN114647679A (zh) 2022-06-21

Family

ID=81994283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210247765.XA Pending CN114647679A (zh) 2022-03-14 2022-03-14 一种基于数值特征聚类的水文时间序列模体挖掘方法

Country Status (1)

Country Link
CN (1) CN114647679A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357716A (zh) * 2022-08-30 2022-11-18 中南民族大学 一种融合词袋模型和图嵌入的时序数据表示学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224356A1 (en) * 2005-03-31 2006-10-05 Ibm Corporation Systems and methods for structural clustering of time sequences
CN102262679A (zh) * 2011-08-17 2011-11-30 河海大学 一种水文时间序列模体挖掘方法
CN113128582A (zh) * 2021-04-14 2021-07-16 河海大学 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN113902003A (zh) * 2021-09-30 2022-01-07 河海大学 一种基于MITree的多维时间序列在线模体发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224356A1 (en) * 2005-03-31 2006-10-05 Ibm Corporation Systems and methods for structural clustering of time sequences
CN102262679A (zh) * 2011-08-17 2011-11-30 河海大学 一种水文时间序列模体挖掘方法
CN113128582A (zh) * 2021-04-14 2021-07-16 河海大学 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN113902003A (zh) * 2021-09-30 2022-01-07 河海大学 一种基于MITree的多维时间序列在线模体发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. E. REUSSER 等: "Analysing the temporal dynamics of model performance for hydrological models", HYDROL. EARTH SYST. SCI., 31 December 2009 (2009-12-31), pages 1 - 20 *
朱跃龙 等: "水文时间序列模体挖掘", 水利学报, vol. 43, no. 12, 31 December 2012 (2012-12-31), pages 1 - 9 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357716A (zh) * 2022-08-30 2022-11-18 中南民族大学 一种融合词袋模型和图嵌入的时序数据表示学习方法
CN115357716B (zh) * 2022-08-30 2023-07-04 中南民族大学 融合词袋模型和图嵌入的学习时间序列数据分类方法

Similar Documents

Publication Publication Date Title
Sun et al. Predicting citywide crowd flows in irregular regions using multi-view graph convolutional networks
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
CN107092812B (zh) 一种在ppi网络中基于遗传算法识别关键蛋白质的方法
CN109671102A (zh) 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN103116766A (zh) 一种基于增量神经网络和子图编码的图像分类方法
CN107977734A (zh) 一种时空大数据下基于移动马尔可夫模型的预测方法
CN114565124A (zh) 一种基于改进图卷积神经网络的船舶交通流预测方法
CN112489420B (zh) 一种公路交通状态预测方法、系统、终端以及存储介质
Tsai et al. Decision tree–based classifier combined with neural-based predictor for water-stage forecasts in a river basin during typhoons: a case study in taiwan
CN110838072A (zh) 一种基于社区发现的社交网络影响力最大化方法及系统
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN114169649A (zh) 一种基于时空数据嵌入的交通流量预测方法
CN115544239A (zh) 一种基于深度学习模型的布局偏好预测方法
CN113010705A (zh) 标签预测方法、装置、设备及存储介质
CN113822419A (zh) 一种基于结构信息的自监督图表示学习运行方法
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN114647679A (zh) 一种基于数值特征聚类的水文时间序列模体挖掘方法
Kim et al. A daily tourism demand prediction framework based on multi-head attention CNN: The case of the foreign entrant in South Korea
CN105279524A (zh) 基于无权超图分割的高维数据聚类方法
Ozyirmidokuz et al. A data mining based approach to a firm's marketing channel
Zahraie et al. SST clustering for winter precipitation prediction in southeast of Iran: Comparison between modified K-means and genetic algorithm-based clustering methods
CN113378842A (zh) 基于分割图像特征提取的推荐方法
CN117272130A (zh) 一种基于特征选择去偏的推荐系统点击预测的方法
Wang et al. Structural segmentation with the variable markov oracle and boundary adjustment
CN115730248A (zh) 一种机器账号检测方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination