CN113657533B - 一种面向时空场景构建的多元时间序列分割聚类方法 - Google Patents
一种面向时空场景构建的多元时间序列分割聚类方法 Download PDFInfo
- Publication number
- CN113657533B CN113657533B CN202110974460.4A CN202110974460A CN113657533B CN 113657533 B CN113657533 B CN 113657533B CN 202110974460 A CN202110974460 A CN 202110974460A CN 113657533 B CN113657533 B CN 113657533B
- Authority
- CN
- China
- Prior art keywords
- time
- data
- segmentation
- time sequence
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000012952 Resampling Methods 0.000 claims description 15
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010187 selection method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 4
- 229910052757 nitrogen Inorganic materials 0.000 claims description 4
- 229910052698 phosphorus Inorganic materials 0.000 claims description 4
- 239000011574 phosphorus Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 10
- 238000007619 statistical method Methods 0.000 claims 2
- 238000009499 grossing Methods 0.000 claims 1
- 238000000691 measurement method Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 claims 1
- 230000036962 time dependent Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 21
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000012851 eutrophication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000002352 surface water Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向时空场景构建的多元时间序列分割聚类的方法,属于数据挖掘技术的应用,构建Bi‑LG‑LSTM神经网络模型,运用交叉实验的方法训练模型,最终得到多元时间序列中每一个变量的分割结果,根据分割段的时间信息,对多变量上的分割结果进行时间关联,最终获得了基于时间的关联分割结果;利用滑动窗口技术,采用DTWCorr距离度量和多段图最短路径算法;获取场景聚类簇;对每一个聚类簇中的多元时间序列数据进行时空特征提取;根据时空特征对每一个聚类簇中的数据进行再次聚类,获取的每一个聚类簇作为时空场景。本发明能够实现高效地针对海量多元数据提取对应的事件数据,并且实现多元时间序列的异步分割,最终获得精确的时空场景。
Description
技术领域
本发明属于数据挖掘技术的应用,具体的涉及一种面向时空场景构建的多元时间序列分割聚类的方法。
背景技术
随着流域水资源管理精细化和综合决策需求的不断提高,以及大数据分析和人工智能技术快速发展,急需开展大数据驱动的流域智能管理与决策技术研究。在水文领域中,每年都会监测到大量时序数据,如总氮含量(TN)、总磷含量(TP) 等。在这些数量巨大的水文时间序列中,如何挖掘水质富营养化以及洪水等事件发生时所对应的数据和潜在规律,成为人们关心的课题。为了更高效地利用时间序列中的信息,更全方面地对水文时间序列数据进行智能管理,需要从原始多元时间序列数据中较为准确地挖掘出事件所对应的时空数据。
借鉴于计算机视觉领域中的场景(包含大量信息对象数据)以及音频分析领域中音频场景(一些相互关联的声音事件组成)等概念,本文将事件所对应的时空数据称之为时空场景,其中一个时空场景往往是由一些相互关联且可能属于同一个事件发生时的时空数据组成,时空数据中包含数值信息、时间信息以及空间信息。针对水质富营养化以及洪水等事件,构建相应的时空场景,为后续时间序列分析、检索、相似性匹配以及预测等应用提供坚实的数据基础。
在时空场景构建过程中,时间序列分割技术以及时间序列聚类技术是不可避免的,同时也是数据挖掘研究中的重要方向之一。时间序列分割技术将时间序列分解成具有同性质的多个小的时间序列片段,去除细节干扰,有利于提高时间序列查询的效率和准确性,从而显示整个时间序列的特征形态并挖掘其内部的性质。时间序列数据聚类技术则主要是根据相关性度量方式将数据集划分为不同的集群,旨在尽量减少不同聚类簇之间的相关性,确保聚类簇内部具有更高的关联度。对时间序列数据进行聚类分析,可以发现其中的常见或罕见模式,获得数据之间的关联关系等信息。
目前时间序列分割技术和时间序列聚类技术难以满足时空场景构建过程中的需求,尤其在性能和效率上仍然不够完善。在时间序列分割技术方面,目前一元时序分割技术难以识别出事件数据(如水质富营养化等)以及较为准确地分割出事件数据,尽管借鉴于视频分割等领域中神经网络技术,也难以直接对水文时间序列数据进行分割;由于水文数据中各变量数据间具有时滞性,需要挖掘各变量数据间关系紧密相关的异步分割段(同一个分割段中各变量上的分割点位置不同),但目前多元时间序列分割技术的结果为同步分割段(同一个分割段中的各变量上分割点位置相同),无法挖掘事件发生时所对应的异步分割段;在多元时序聚类技术方面,时空场景构建过程中具有大量非等长时间序列数据,目前大多数聚类方法难以直接使用,虽然基于谱聚类和密度聚类等方法可以对非等长时间序列数据进行,但是聚类运行效率以及效果难以满足构建时空场景时的需求。
因此,设计一种新的面向时空场景构建的多元时间序列分割聚类的方法是必然需要的。
发明内容
发明目的:为克服上述现有技术的不足,本发明的第一目的是提供一种基于特征点窗口分割和Bi-LG-LSTM神经网络方法完成对一元时间序列的分割。本发明的第二目的是在此基础上提出一种面向时空场景构建的多元时间序列分割聚类的方法。
技术方案:一种面向时空场景构建的多元时间序列分割聚类的方法,包括以下步骤:
(1)对多元时间序列中所有的一元时间序列提取时间特征,然后将特征点作为窗口的中心分割出固定窗口的初始分割数据;
(2)对初始分割数据进行人工标注,构建Bi-LG-LSTM神经网络模型,将人工标注的数据对模型进行训练,然后使用该神经网络对初始分割数据进行分割,获取精细化的分割数据;
(3)根据分割数据中的时间信息,对多个变量上的分割结果时间关联,获取时间关联分割结果;
(4)采用滑动窗口技术,对每一个时间关联分割结果上每一变量分割段进行重采样,获得每一个时间关联数据所对应的滑动窗口重采样数据;
(5)采用DTWCorr距离度量和多段图最短路径算法从滑动窗口重采样数据中的每一变量上获取一个分割段进行组合,使得该组合在采样数据集合中代价函数最小,获得多元时间序列异步分割结果;
(6)对具有非等长特征的异步分割结果使用基于混合特征提取与特征选择的模糊聚类算法,根据多元时间序列数据的特点,获取场景聚类簇;
(7)对每一个聚类簇中的多元时间序列数据进行时空特征提取,然后根据时空特征,对每一个聚类簇中的数据进行再次聚类,获得的每一个聚类簇作为时空场景。
进一步的,步骤(1)针对一元时间序列的基于特征点窗口分割的方法包括以下步骤:
步骤11:遍历一元时间序列,判断数据点是否为特征点;
步骤12:对符合特征点定义的数据点,以该点为窗口中心,将窗口作为一个分割段。
更进一步的,步骤(11)中,判断数据点是否为特征点有以下的定义:
能够反应事件特征性质的数据,为超过(或低于)某阈值的极值点。给定一元时间序列x={x1,x2,…,xn}中的特征点为xk,则具有以下形式:
超过阈值的极大值点:
低于阈值的极小值点:
进一步的,步骤(2)中构建Bi-LG-LSTM神经网络模型,将人工标注的数据对模型进行训练,然后使用该神经网络对初始分割数据进行分割,获取精细化的分割数据具体如下:
步骤21:设置全局输入门git控制输入数据通过、全局输入调制门ggt计算当前输入产生的信息量、全局遗忘门gft控制当前记忆单元应该遗忘过去的信息量和全局记忆单元gct,设置输出门ot控制当前记忆单元的信息确定此次处理的最终输出;
步骤22:设置局部记忆窗口大小为k,设置局部记忆单元lct;
步骤23:输入一元时间序列数据:x={x1,x2,…,xn}、人工标注的结果: Y={Y1,Y2,…,Yn};
步骤24:LG-LSTM单元公式如下:
全局输入门:git=σ(Wxixt+Wi t-1+bi)
全局输入调制门:ggt=tanh(Wxcxt+Wc t-1+bc)
全局遗忘门:gft=σ(Wxfxt+Wf t-1+bf)
输出门:ot=σ(Wxoxt+Wo t-1+bo)
全局记忆单元:gct=gft×gct-1+git×ggt
局部记忆单元:lct=σ(istt·[wlk,wlk-1,…,wl1])
最终记忆单元:ct=α·gct+(1-α)·lct
模型输出:t=ot×tanh(ct)
其中,t表示当前时刻的时序位置,t-1表示上一时刻的输出,xt表示当前的真实输入数据,istt=[xt-1,xt-2,…,xt-k],[wlk,wlk-1,…,wl1]为输入数据的权重参数,σ表示Sigmoid函数,tanh为激活函数,Wxi、Wxc、Wxf、Wxo分别为全局输入门、全局输入调制门、全局遗忘门、输出门与隐藏层之间的权重矩阵,同样的,Wi、Wc、Wf、Wo分别为全局输入门、全局输入调制门、全局遗忘门、输出门之间的权重矩阵,bi、bc、bf、bo分别为全局输入门、全局输入调制门、全局遗忘门、输出门的偏置向量,α为全局记忆单元占最终记忆单元的比重;
步骤25:使用两个LG-LSTM神经网络模型,分别处理时间序列的正向和反向序列,最后将两个结果综合输出,这样就构造出Bi-LG-LSTM神经网络模型; Bi-LG-LSTM神经网络模型输出公式为:其中/>是正向序列输出,/>是反向序列输出,/>是前向与反向序列输出的权重矩阵, bt是最终输出的偏置向量。Yt则表示t时刻数据的输出,其数值范围为[0,1];当Yt小于0.5时,则代表该时刻数据为非事件数据,当Yt大于等于0.5时,则代表该时刻数据为事件数据。
步骤26:根据人工标注的标签数据Y和神经网络获得的标签数据Y′,建立目标损失函数Loss(Y,Y′)=|Y-Y′|;其中Y′=[Y′1,Y′2,…,Y′n],Y′j∈{0,1}。最终通过对该目标函数进行最优化处理,对Bi-LG-LSTM神经网络中的参数进行反向传播更新。
步骤27:利用训练完毕的Bi-LG-LSTM神经网络模型对多元时间序列的所有变量进行分割,获取精细化的时序分割结果。
进一步的,步骤(3)中根据分割数据中的时间信息,对多个变量上的分割结果时间关联,获取时间关联分割结果;具体步骤如下:
步骤31:输入数据为多元时间序列上各变量上一元时间序列分割结果其中Ni为第i变量上的分割段个数;
步骤32:依次选择变量i中的分割段,进行和变量i+1中的分割段进行时间上关联,关联方法为下面的公式:
其中ti,m为第i变量上第m个分割段,ti+1,n为第i+1变量上第n个分割段, ti,m∩ti+1,n表示两个分割段时间重合区域。
步骤33:在已关联的分割段的基础上,和下一个变量的分割段进行关联,直到最后一个变量的分割段被关联,获得的关联分割段组合作为基于时间的关联分割结果;获得时间关联分割结果为T={T1,T2,…,TN},Ti={t′1,i,t′2,i,…,t′k,i},其中Ti为第i个时间关联分割段,t′i,j为具有时间相关的分割段区间的合并。
进一步的,步骤(4)中,采用滑动窗口技术,对每一个时间关联分割结果上每一变量分割段进行重采样,获得每一个时间关联数据所对应的滑动窗口重采样数据;具体包括以下步骤:
步骤41:设置滑动窗口大小集合SW={sw1,sw2,…,swn1}和滑动步长step;
步骤42:对第i个多元时间关联分割片段Ti进行滑动窗口采样,输出数据为第i个滑动窗口采样的多元时间序列分割数据SegSTi={ts1,i,ts2,i,…,tsk,i}, 其中tsi,j为第i个多元时间关联段中第j个变量上的滑动窗口采样数据集,mi,j表示第i个多元时间关联段第j个变量上的滑动窗口采样数据个数。
进一步的,步骤(5)采用DTWCorr距离度量和多段图最短路径算法从滑动窗口重采样数据中的每一变量上获取一个分割段进行组合,使得该组合在采样数据集合中代价函数最小,获得多元时间序列异步分割结果;具体包括以下步骤:
步骤51:首先定义多元时间序列异步分割的代价函数:
其中代表第j个多元时序分割段上第i变量数据,/>代表第j个多元时序分割段上第i变量理想分割数据,dist1(*)度量分割结果的准确性,dist2(*) 度量多元时间序列中各元数据间的紧密性。寻找最优组合,使得代价函数最小。
步骤52:给定第i个滑动窗口采样的多元时间序列分割数据SegSTi= {ts1,i,ts2,i,…,tsk,i},代表第j个变量上采样数据,mj,i为该变量上的采样数据个数;
步骤53:建立初始化的状态距离矩阵,将每个分割段写入状态距离矩阵,状态矩阵中的每一行相当于同一个变量上使用滑动窗口采样算法获得的分割段集,而每行之间点的权重则代表不同变量上的分割段之间的关联关系;
步骤54:初始化路径存储矩阵,从第一个变量(即状态距离矩阵的第一行) 开始记录路径距离,遍历状态距离矩阵,寻找到组合使得代价函数最小,这一过程相当于动态规划,故定义状态转移方程:
其中则代表从第一个变量上分割段到第j个变量上第k个分割段的最优路径,也是关联最大的分割段组合。/>则表示第i个窗口采样数据中第j个变量上第u个采样数据。最终获得最优组合,作为多元时间序列异步分割结果。
进一步的,所述的步骤(6)中,特征选择的模糊聚类算法中,采用LVW+k-NN 特征选择算法,具体定义如下:拉斯维加斯方法(LVW)是包裹式特征选择方法的一种特征选择框架,符合无监督特征选择方法;所以本特征选择算法以LVM 方法为基础,使用基于k-NN的评估方法(Evaluation Method Based on k-NN, EKNN)进行评估,提出基于k-NN评估方法的拉斯维加斯算法(LVW+k-NN);LVW算法中的特征子集是随机产生的,使用递归式特征消除法产生特征,使得算法具有稳定性;使用LVW+k-NN特征选择算法,最终得到非等长的多元时间序列模糊聚类结果,也就是场景聚类簇。
步骤(6)对具有非等长特征的异步分割结果使用基于混合特征提取与特征选择的模糊聚类算法,根据多元时间序列数据的特点,获取场景聚类簇;具体包括以下步骤:
步骤61:输入数据多元时间序列数据集:
E={X1,X2,…,Xn},Xi={Xi,1,Xi,2,…,Xi,k}
步骤62:提取多元时间序列各维数据,并且在各维数据尾端进行补零操作,使得各维数据的长度相等。
步骤63:使用自动编码器对每个变量数据进行特征提取,获取每个变量所在维度的特征数据。
步骤64:从第一个分割段开始,依次遍历所有的变量;首先在多元时间序列第j变量数据上的统计特征提取,然后基于离散傅里叶变换的统计特征提取;最后对变量数据上的三种特征进行混合。
步骤65:获得多元时间序列集合所对应的混合特征数据集合MF。
步骤66:设置特征评估算法:EKNN;停止条件控制参数:T;k-NN参数:K;
步骤67:从特征数据集MF中获取特征集F,递归式消除F中的一个特征,产生特征子集F′,根据特征子集F′和特征数据集MF获取特征子集数据集MF′;
步骤68:基于k-NN的评估方法计算评估误差,最终获得非等长的多元时间序列模糊聚类结果,即为场景聚类簇。
更进一步的,步骤(68)中,基于k-NN的评估方法有以下的步骤:
步骤681:输入多元时间序列事件数据集:E={X1,X2,…,Xn};多元时间序列特征集:MF′={MF′1,MF′2,…,MF′n};k-NN参数:K。
步骤682:初始化误差Err=0,依次遍历多有变量的特征集,计算除特征数据MF′i的样本事件特征数据集中与特征数据MF′i最近的K个近邻数据集。
步骤683:遍历获取的K个近邻数据集,使用DTW计算各个数据与特征子集空间中最近邻的值,将值的倒数作为误差,累加至Err中。
步骤684:获得最终的误差值Err。
进一步的,采用时空场景构建算法,具体定义如下:
对非等长多元时间序列数据使用基于混合特征提取与特征选择的模糊聚类算法得到的场景聚类簇,现在对每一个聚类簇中的多元时间序列数据进行时空特征提取,然后根据时空特征,对每一个聚类簇中的数据进行再次聚类,获得的每一个聚类簇作为时空场景。
步骤(7)对每一个聚类簇中的多元时间序列数据进行时空特征提取,然后根据时空特征,对每一个聚类簇中的数据进行再次聚类,获得的每一个聚类簇作为时空场景;具体包括以下步骤:
步骤71:输入多元时间序列分割段数据集:E={X1,X2,…,Xm};聚类簇个数:k;第六步中基于特征提取和特征选择的模糊聚类τ=FCHFEFS(E,k), 其中τ={C1,C2,…,Ck}
步骤72:初始化场景集合SceneSet,遍历每一个聚类簇中的每一变量中的数据Xj,对数据Xj进行时空特征提取,组成特征向量STFj。
步骤73:对时空特征数据进行聚类,再次获取其聚类簇。
步骤74:遍历获得聚类簇,获取时空特征数据所对应的原始事件数据、时间特征以及空间特征数据,将数据组合成定义的时空场景格式,存入场景集合中。
步骤75:获得最终的时空场景集合:SceneSet={Scene1,Scene2,…,Scenen}。
更进一步的,步骤(72)中,时空场景有以下的定义:
其中Xi为第i个事件数据,为第i个的空间特征数据,/>为第i个时间特征数据,代表/>事件数据属于第i个场景,而li则表示第i个场景中事件数据的个数。
更进一步的,步骤(72)中,时空特征有以下的定义:
空间特征提取:fs=[sx,sy]其中sx是测站的经度值,sy是测站的纬度值。
时间特征提取:ft=[tstart,tend]其中tstart是该变量时序数据的起始时间,tend是结束时间。
有益效果:与现有技术相比,本发明实现了面向时空场景构建的多元时间序列分割聚类的方法,首先本发明提出的Bi-LG-LSTM神经网络,充分考虑时序全局信息和局部信息,有效地提高时序数据分割的精度和效果;然后在一元时间序列分割结果上,进行时间关联分割,利用滑动窗口采样技术对一元时间序列分割结果进行数据预处理,充分考虑时间序列之间的相似性和相关性,使用 DTWCorr度量方式挖掘数据段之间关系,使用多段图最短路径算法进行时间序列分割段关联,获取多元时间序列异步分割结果。最后充分考虑时域统计特征提取、频域统计特征和自动编码器特征提取技术的优点,构建一种混合特征提取技术,利用LVM+k-NN特征选择方式剔除冗余特征数据,进行模糊聚类,从而提高聚类效果以及聚类效率。
附图说明
图1是本发明所述方法的框架示意图;
图2为本发明面向时空场景构建的多元时间序列分割聚类方法的流程图。
具体实施例方式
为了详细的说明本发明所公开的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。表1为本发明基于特征点窗口分割和Bi-LG-LSTM神经网络的时序分割算法;表2为本发明基于滑动窗口采样技术和DTWCorr距离的多元时间序列分割算法;表3为本发明基于混合特征提取和选择的模糊聚类算法;表4为本发明时空场景构建算法。
本发明所提供的一种面向时空场景构建的多元时间序列分割聚类的方法,其整系统架构与实现方法如图1-图2,本实施例以水文领域的水质数据为例,其中包括了21个测站的数据,每个测站数据包括总磷含量(TP)、总氮含量(TN) 和透明度,方法具体实现步骤如下:
(1)对多元时间序列中所有的一元时间序列提取时间特征,然后将特征点作为窗口的中心分割出固定窗口的初始分割数据;
(2)对初始分割数据进行人工标注,构建Bi-LG-LSTM神经网络模型,将人工标注的数据对模型进行训练,然后使用该神经网络对初始分割数据进行分割,获取精细化的分割数据;
(3)根据分割数据中的时间信息,对多个变量上的分割结果时间关联,获取时间关联分割结果;
(4)采用滑动窗口技术,对每一个时间关联分割结果上每一变量分割段进行重采样,获得每一个时间关联数据所对应的滑动窗口重采样数据;
(5)采用DTWCorr距离度量和多段图最短路径算法从滑动窗口重采样数据中的每一变量上获取一个分割段进行组合,使得该组合在采样数据集合中代价函数最小,获得多元时间序列异步分割结果;
(6)对具有非等长特征的异步分割结果使用基于混合特征提取与特征选择的模糊聚类算法,根据多元时间序列数据的特点,获取场景聚类簇;
(7)对每一个聚类簇中的多元时间序列数据进行时空特征提取,然后根据时空特征,对每一个聚类簇中的数据进行再次聚类,获得的每一个聚类簇作为时空场景。
其中,在步骤1-2中,针对单元时间序列的数据分割,得到精细化的分割记过包括以下步骤:
S11:水质数据中包含了总磷含量(TP)、总氮含量(TN)和透明度,这三个指标分别对应了三个一元时间序列;根据地表水环境质量标准基本项目限值,对三个水质指标以IV水的数值作为特征值阈值,结合根据极大值的定义,对这三个指标超过设定的阈值且满足极大值的定义设置为特征值,下面是极大值的定义:
给定一元时间序列x={x1,x2,…,xn}中的特征点为xk,则具有以下形式:
超过阈值的极大值点:
S12:对时间序列中的极大值点,设置为固定窗口的中心点,窗口里的数据点就是一个分割段,这样就得到了粗糙的时间序列的分割段结果。
S13:构建Bi-LG-LSTM神经网络模型,将人工标注的数据对模型进行训练,然后使用该神经网络对初始分割数据进行分割,获取精细化的分割数据。
基于特征点窗口分割和Bi-LG-LSTM神经网络的时序分割算法如表1所示:
表1
其中,在3-5中,对多元时间序列中所有经过于特征点窗口分割和 Bi-LG-LSTM神经网络的时序分割算法的一元时间序列,由于每一个变量分割段对其他变量的分割段都是没有关联,这里需要对多元时间序列采取异步分割,包括以下步骤:
S21:对多元时间序列数据中的每个变量数据进行一元时间序列分割,获取多个单变量数据上的分割结果;
S22:根据分割段的时间信息,对多个变量上分割结果进行时间关联,获取时间关联分割结果;
S23:构针对数据冗余和缺失问题,采用滑动窗口采样技术,对每一个时间关联分割结果上每一变量分割段进行重采样,获得重采样数据;
S24:采用DTWCorr距离度量挖掘分割段之间的关联关系,使用多段图最短路径算法得到多元时序异步分割结果。
基于滑动窗口采样技术和DTWCorr距离的多元时间序列分割算法如表2:
表2
其中,在6-7中,针对水文领域中所获取的多元时间序列数据中包含大量事件(如水质富营养化、洪水等事件)数据,需要挖掘事件发生时所对应的时空场景数据,在进行时空场景构建中,输入异步分割数据,该数据为多元时间序列非等长数据,因而需要对非等长的多元时间序列数据进行聚类构建,包括以下步骤:
S31:首先使用多种特征提取方法对多元时间序列分割段进行特征提取,获取混合特征;
S32:然后使用LVW+k-NN特征选择方法,从混合特征中剔除冗余特征,从而获取到高效有用的特征;
S33:对所获的特征数据进行模糊聚类,获取聚类簇;
S34:最后再对每一个聚类簇中的数据进行时空特征提取,基于时空特征数据基础上进行二次模糊聚类,从而构建时空场景。
基于混合特征提取和选择的模糊聚类算法如表3所示:
表3
采用基于混合特征提取与特征选择的模糊聚类算法对数据集聚类,获取聚类结果τ={C1,C2,…,Ck};然后对每一个聚类簇中的事件数据进行时间特征和空间特征提取,如第i个事件数据Xi的空间特征数据为和时间特征数据为/>最后对每一个聚类簇中的所有事件数据、空间特征数据以及时间特征数据进行聚类,再次获取的每一个聚类簇为一个时空场景,最后获得n个场景 {Scene1,Scene2,…,Scenen},其中第i个场景为:
其中代表/>事件数据属于第i个场景,而li则表示第i个场景中事件数据的个数。
时空场景构建算法如表4所示:
表4
/>
以上所述仅是本发明的实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种面向时空场景构建的多元时间序列分割聚类的方法,其特征在于,采集若干个测站的水文领域的水质数据,每个测站的数据均包括总磷含量、总氮含量和透明度指标,三个所述指标分别对应三个一元时间序列;包括以下步骤:
(1)对多元时间序列中所有的一元时间序列提取时间特征,然后将特征点作为窗口的中心分割出固定窗口的初始分割数据;
(2)对初始分割数据进行人工标注,构建Bi-LG-LSTM神经网络模型,将人工标注的数据对模型进行训练,然后使用该神经网络对初始分割数据进行分割,获取精细化的分割数据;
(3)根据分割数据中的时间信息,对多个变量上的分割结果采用时间关联分割算法,获取时间关联分割结果;
(4)采用滑动窗口重采样算法,对每一个时间关联分割结果上每一变量分割段进行重采样,获得每一个时间关联数据所对应的滑动窗口重采样数据;
(5)采用DTWCorr距离度量和多段图最短路径算法从滑动窗口重采样数据中的每一变量上获取一个分割段进行组合,使得该组合在采样数据集合中代价函数最小,获得多元时间序列异步分割结果;
(6)对具有非等长特征的异步分割结果使用基于混合特征提取与特征选择的模糊聚类算法,根据多元时间序列数据的特点,获取场景聚类簇;
(7)对每一个聚类簇中的多元时间序列数据进行时空特征提取,然后根据时空特征,对每一个聚类簇中的数据进行再次聚类,获得的每一个聚类簇作为时空场景。
2.根据权利要求1所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于:所述的步骤(1)中,定义所述的特征点:
反应事件特征性质的数据,为超过(或低于)某阈值的极值点;给定一元时间序列x={x1,x2,…,xn}中的特征点为xk,则具有以下形式:
超过阈值的极大值点:
低于阈值的极小值点:
3.根据权利要求2所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于:基于所述的特征点窗口分割的方法,步骤如下:
步骤11:遍历一元时间序列,判断数据点是否为特征点;
步骤12:对符合特征点定义的数据点,以该点为窗口中心,将窗口作为一个分割段。
4.根根据权利要求3所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于:所述的步骤(2)中,构建Bi-LG-LSTM神经网络模型,步骤如下:
步骤21:设置全局输入门git控制输入数据通过、全局输入调制门ggt计算当前输入产生的信息量、全局遗忘门gft控制当前记忆单元应该遗忘过去的信息量和全局记忆单元gct,设置输出门ot控制当前记忆单元的信息确定此次处理的最终输出;
步骤22:设置局部记忆窗口大小为k,设置局部记忆单元lct;
步骤23:输入一元时间序列数据:x={x1,x2,…,xn}、人工标注的结果:Y={Y1,Y2,…,Yn};
步骤24:LG-LSTM单元公式如下:
全局输入门:git=σ(Wxixt+Whiht-1+bi)
全局输入调制门:ggt=tanh(Wxcxt+Whcht-1+bc)
全局遗忘门:gft=σ(Wxfxt+Whfht-1+bf)
输出门:ot=σ(wxoxt+Whoht-1+bo)
全局记忆单元:gct=gft×gct-1+git×ggt
局部记忆单元:lct=σ(histt·[wlk,wlk-1,…,wl1])
最终记忆单元:ct=α·gct+(1-α)·lct
模型输出:ht=ot×tanh(ct)
其中,t表示当前时刻的时序位置,ht-1表示上一时刻的输出,xt表示当前的真实输入数据,histt=[xt-1,xt-2,…,xt-k],[wlk,wlk-1,…,wl1]为输入数据的权重参数,σ表示Sigmoid函数,tanh为激活函数,Wxi、Wxc、Wxf、Wxo分别为全局输入门、全局输入调制门、全局遗忘门、输出门与隐藏层之间的权重矩阵,同样的,Whi、Whc、Whf、Who分别为全局输入门、全局输入调制门、全局遗忘门、输出门之间的权重矩阵,bi、bc、bf、bo分别为全局输入门、全局输入调制门、全局遗忘门、输出门的偏置向量,α为全局记忆单元占最终记忆单元的比重;
步骤25:使用两个LG-LSTM神经网络模型,分别处理时间序列的正向和反向序列,最后将两个结果综合输出,这样就构造出Bi-LG-LSTM神经网络模型;Bi-LG-LSTM神经网络模型输出公式为:其中/>是正向序列输出,/>是反向序列输出,是前向与反向序列输出的权重矩阵,bt是最终输出的偏置向量;Yt则表示t时刻数据的输出,其数值范围为[0,1];当Yt小于0.5时,则代表该时刻数据为非事件数据,当Yt大于等于0.5时,则代表该时刻数据为事件数据;
步骤26:根据人工标注的标签数据Y和神经网络获得的标签数据Y′,建立目标损失函数Loss(Y,Y′)=|Y-Y′|;其中Y′=[Y′1,Y′2,…,Y′n],Y′j∈{0,1};最终通过对该目标损失函数进行最优化处理,对Bi-LG-LSTM神经网络中的参数进行反向传播更新;
步骤27:利用训练完毕的Bi-LG-LSTM神经网络模型对多元时间序列的所有变量进行分割,获取精细化的时序分割结果。
5.根据权利要求1所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于,所述的步骤(3)中,时间关联分割算法,具体步骤如下:
步骤31:输入数据为多元时间序列上各变量上一元时间序列分割结果t={t1,t2,…,tk},其中Ni为第i变量上的分割段个数;
步骤32:依次选择变量i中的分割段,进行和变量i+1中的分割段进行时间上关联,关联方法为下面的公式:
其中ti,m为第i变量上第m个分割段,ti+1,n为第i+1变量上第n个分割段,ti,m∩ti+1,n表示两个分割段时间重合区域;
步骤33:在已关联的分割段的基础上,和下一个变量的分割段进行关联,直到最后一个变量的分割段被关联,获得的关联分割段组合作为基于时间的关联分割结果;获得时间关联分割结果为T={T1,T2,…,TN},Ti={t′1,i,t′2,i,…,t′k,i},其中Ti为第i个时间关联分割段,t′i,j为具有时间相关的分割段区间的合并。
6.根据权利要求5所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于,所述的步骤(4)中,滑动窗口重采样算法,具体步骤如下:
步骤41:设置滑动窗口大小集合SW={sw1,sw2,…,swn1}和滑动步长step;
步骤42:对第i个多元时间关联分割片段Ti进行滑动窗口采样,输出数据为第i个滑动窗口采样的多元时间序列分割数据SegSTi={ts1,i,ts2,i,…,tsk,i}, 其中tsi,j为第i个多元时间关联段中第j个变量上的滑动窗口采样数据集,mi,j表示第i个多元时间关联段第j个变量上的滑动窗口采样数据个数。
7.根据权利要求6所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于,所述的步骤(5)中,DTWCorr距离度量的方法,具体定义如下:
给定两个时间序列分别为x={x1,x2,…,xn}和y={y1,y2,…,yn},则公式如下:
式子分子部分为DTW度量方法,由于考虑到时间序列数据成负相关关系,因而对其中的一个时间序列y进行以期望值为对称轴,进行轴对称变换;分母为皮尔森相关系数,为了防止分母为零,进行平滑处理;
由于时间序列之间非等长,对较长时间序列按照较短时序长度进行分割,获得分割段集合,求得分割段集合中的时间序列与较短时间序列的相关系数值,从中选择最大的值ρmax(x,y)作为相关系数,其计算方式如公式:
其中m=len(x);n=len(y)。
8.根据权利要求7所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于,所述的步骤(5)中,还包括基于多段图最短路径的多元时间序列关联算法,具体步骤如下:
步骤51:首先定义多元时间序列异步分割的代价函数:
其中代表第j个多元时序分割段上第i变量数据,/>代表第j个多元时序分割段上第i变量理想分割数据,dist1(*)度量分割结果的准确性,dist2(*)度量多元时间序列中各元数据间的紧密性;寻找最优组合,使得代价函数最小;
步骤52:给定第i个滑动窗口采样的多元时间序列分割数据SegSTi={ts1,i,ts2,i,…,tsk,i},代表第j个变量上采样数据,mj,i为该变量上的采样数据个数;
步骤53:建立初始化的状态距离矩阵,将每个分割段写入状态距离矩阵,状态矩阵中的每一行相当于同一个变量上使用滑动窗口采样算法获得的分割段集,而每行之间点的权重则代表不同变量上的分割段之间的关联关系;
步骤54:初始化路径存储矩阵,从第一个变量(即状态距离矩阵的第一行)开始记录路径距离,遍历状态距离矩阵,寻找到组合使得代价函数最小,这一过程相当于动态规划,故定义状态转移方程:
其中则代表从第一个变量上分割段到第j个变量上第h个分割段的最优路径,也是关联最大的分割段组合;/>则表示第i个窗口采样数据中第j个变量上第u个采样数据;最终获得最优组合,作为多元时间序列异步分割结果。
9.根据权利要求8所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于:所述的步骤(6)中,所述的混合特征提取,具体定义如下:
基于时域统计的特征提取:使用统计方法直接对原始时序数据进行统计特征提取;
基于频域统计的特征提取:对原始时序数据进行离散傅里叶变换,获取幅度值,然后使用统计方法提取统计特征;
基于神经网路的隐含特征提取方法:对原始时序数据进行预处理,变成等长时序数据,再使用自动编码器进行隐含特征提取;
综合以上三种特征提取的方法,对分割段进行混合特征提取;
所述的步骤(6)中,特征选择的模糊聚类算法中,采用LVW+k-NN特征选择算法,具体定义如下:拉斯维加斯方法是包裹式特征选择方法的一种特征选择框架,符合无监督特征选择方法;所以本特征选择算法以LVM方法为基础,使用基于k-NN的评估方法进行评估,提出基于k-NN评估方法的拉斯维加斯算法;LVW算法中的特征子集是随机产生的,使用递归式特征消除法产生特征,使得算法具有稳定性;使用LVW+k-NN特征选择算法,最终得到非等长的多元时间序列模糊聚类结果,也就是场景聚类簇。
10.根据权利要求9所述的面向时空场景构建的多元时间序列分割聚类的方法,其特征在于:所述的步骤(7)中,采用时空场景构建算法,具体定义如下:
对非等长多元时间序列数据使用基于混合特征提取与特征选择的模糊聚类算法得到的场景聚类簇,现在对每一个聚类簇中的多元时间序列数据进行时空特征提取,然后根据时空特征,对每一个聚类簇中的数据进行再次聚类,获得的每一个聚类簇作为时空场景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110974460.4A CN113657533B (zh) | 2021-08-24 | 2021-08-24 | 一种面向时空场景构建的多元时间序列分割聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110974460.4A CN113657533B (zh) | 2021-08-24 | 2021-08-24 | 一种面向时空场景构建的多元时间序列分割聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657533A CN113657533A (zh) | 2021-11-16 |
CN113657533B true CN113657533B (zh) | 2023-11-14 |
Family
ID=78492686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110974460.4A Active CN113657533B (zh) | 2021-08-24 | 2021-08-24 | 一种面向时空场景构建的多元时间序列分割聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657533B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114415507B (zh) * | 2022-01-07 | 2024-05-28 | 浙江工业大学 | 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013175108A (ja) * | 2012-02-27 | 2013-09-05 | Mitsubishi Electric Corp | クラスタリング装置及びクラスタリングプログラム |
CN104732092A (zh) * | 2015-03-25 | 2015-06-24 | 河海大学 | 一种基于聚类的水文降雨一致区分析方法 |
CN110570428A (zh) * | 2019-08-09 | 2019-12-13 | 浙江合信地理信息技术有限公司 | 一种从大规模影像密集匹配点云分割建筑物屋顶面片的方法及系统 |
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
WO2021093012A1 (zh) * | 2019-11-13 | 2021-05-20 | 深圳大学 | 时间序列数据组成模式的提取方法、装置及终端设备 |
CN112949902A (zh) * | 2021-01-25 | 2021-06-11 | 西北工业大学 | 一种基于lstm多状态向量序列到序列模型的径流预测方法 |
-
2021
- 2021-08-24 CN CN202110974460.4A patent/CN113657533B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013175108A (ja) * | 2012-02-27 | 2013-09-05 | Mitsubishi Electric Corp | クラスタリング装置及びクラスタリングプログラム |
CN104732092A (zh) * | 2015-03-25 | 2015-06-24 | 河海大学 | 一种基于聚类的水文降雨一致区分析方法 |
CN110570428A (zh) * | 2019-08-09 | 2019-12-13 | 浙江合信地理信息技术有限公司 | 一种从大规模影像密集匹配点云分割建筑物屋顶面片的方法及系统 |
WO2021093012A1 (zh) * | 2019-11-13 | 2021-05-20 | 深圳大学 | 时间序列数据组成模式的提取方法、装置及终端设备 |
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
CN112949902A (zh) * | 2021-01-25 | 2021-06-11 | 西北工业大学 | 一种基于lstm多状态向量序列到序列模型的径流预测方法 |
Non-Patent Citations (2)
Title |
---|
基于多元时间序列分割聚类的异常值检测方法;邓春宇;吴克河;谈元鹏;胡杰;计算机工程与设计;第41卷(第011期);3123-3128 * |
时空多特征流域场景模式库构建方法;巫义锐;汪浩航;魏大保;冯钧;河海大学学报(自然科学版)(第006期);514-520 * |
Also Published As
Publication number | Publication date |
---|---|
CN113657533A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928993B (zh) | 基于深度循环神经网络的用户位置预测方法及系统 | |
CN111612206B (zh) | 一种基于时空图卷积神经网络的街区人流预测方法及系统 | |
CN108629978B (zh) | 一种基于高维路网和循环神经网络的交通轨迹预测方法 | |
CN107977734B (zh) | 一种时空大数据下基于移动马尔可夫模型的预测方法 | |
CN110570035B (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测系统 | |
CN112949828A (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN111859264A (zh) | 一种基于贝叶斯优化及小波分解的时序预测方法及装置 | |
CN113570859A (zh) | 一种基于异步时空膨胀图卷积网络的交通流量预测方法 | |
CN113657533B (zh) | 一种面向时空场景构建的多元时间序列分割聚类方法 | |
CN111222847A (zh) | 基于深度学习与非监督聚类的开源社区开发者推荐方法 | |
CN115828990A (zh) | 融合自适应图扩散卷积网络的时空图节点属性预测方法 | |
CN114842553A (zh) | 基于残差收缩结构和非局部注意力的行为检测方法 | |
Bermingham et al. | Mining place-matching patterns from spatio-temporal trajectories using complex real-world places | |
Wang et al. | Multivariate time series prediction based on optimized temporal convolutional networks with stacked auto-encoders | |
Sun et al. | Trajectory-user link with attention recurrent networks | |
Kim et al. | A daily tourism demand prediction framework based on multi-head attention CNN: The case of the foreign entrant in South Korea | |
Li et al. | Indoor mobility semantics annotation using coupled conditional Markov networks | |
CN112884222B (zh) | 一种面向时间段的lstm交通流密度预测方法 | |
CN114596726A (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN108153519A (zh) | 一种目标智能跟踪方法通用设计框架 | |
CN116304213A (zh) | 基于图神经网络的rdf图数据库子图匹配查询优化方法 | |
CN112667763B (zh) | 一种基于自适应时间戳与多尺度特征提取的轨迹预测方法 | |
CN115841753A (zh) | 一种考虑动态空间关系的交通流预测方法 | |
Zhao et al. | Soft-Median Selection: An adaptive feature smoothening method for sound event detection | |
CN112989105A (zh) | 一种音乐结构的分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |