CN108830310B - 基于多关系网络的mnmf聚类多变量时间序列的方法 - Google Patents
基于多关系网络的mnmf聚类多变量时间序列的方法 Download PDFInfo
- Publication number
- CN108830310B CN108830310B CN201810554765.8A CN201810554765A CN108830310B CN 108830310 B CN108830310 B CN 108830310B CN 201810554765 A CN201810554765 A CN 201810554765A CN 108830310 B CN108830310 B CN 108830310B
- Authority
- CN
- China
- Prior art keywords
- matrix
- time series
- clustering
- mnmf
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多关系网络的MNMF聚类多变量时间序列的方法,将多变量时间序列转为多关系网络G;通过MNMF联合分解多关系网络G来获得多变量时间序列的聚类结果。本发明的方法将变量内部及变量之间的复杂关系有效融入到聚类过程中,提高了聚类性能。
Description
技术领域
本发明属于数据挖掘中时序聚类技术领域,涉及多变量时间序列到多关系网络的转换及多关系网络中多个非负矩阵分解(MNMF)。
背景技术
随着数字信息来源的迅速增长,大量的时间序列数据,如个人健康轨迹,气候数据,社会经济指标等正在不断地生成并收集。挖掘这些数据有助于发现隐藏的知识和信息,如时间关联,社区行为模式等。近年来时序数据的挖掘得到许多研究者的关注。
时间序列聚类是将时间序列划分成若干个簇,同一簇中的序列高度相似,不同簇中的序列相似度低。这是时间序列数据挖掘的一项基本任务。这项任务已被广泛研究,并提出了很多方法。目前公知的时间序列聚类方法主要有基于特征的方法和基于变换的方法。基于特征的方法首先从输入的时间序列中提取一些特征,然后应用传统的聚类算法来对提取的特征进行聚类。例如,Maharaj和D'Urso(Information Sciences,2011)使用cepstrum(谱密度函数的对数谱)作为时间序列的特征,并且基于估计的cepstrum提出了用于时间序列的模糊聚类方法。Zakaria等人(ICDM,2012)从未标记的时间序列中学习了shapelets(时间序列的局部模式),并使用k-均值算法对shapelet进行聚类。这种方法可以对有噪声和不同长度的时间序列进行聚类,因为它只使用了一些局部模式并故意忽略其余数据。Nakashima等人(ICIEV,2016)提出了一种用于对时间序列数据进行聚类的两阶段技术。首先,通过将原始时间序列数据划分为子序列来产生初始聚类,并将得到的簇用作将时间序列数据转换为数字向量的特征。然后,对转换后的数值向量进行聚类生成最终的聚类结果。Huang等人(Knowledge Based System,2016)针对时间序列数据提出了一种新的k-均值类型平滑子空间聚类算法(TSkmeans),其中平滑子空间由加权时间戳表示。TSkmeans算法可以有效利用时间序列数据集的固有子空间信息,从而提高了聚类性能。基于变换的方法将时间序列数据转换为其他模型,然后在变换模型上执行聚类。Ferreiraa&Zhao(Information Sciences,2016)认为,时间序列聚类不仅需要局部信息,还需要掌握形成给定时间序列模式的全局知识,但通常只有邻近数据样本之间的局部关系容易识别,而长距离的全局关系隐藏在时间序列的原始形式中,难以察觉。为了将全局知识用于时间序列聚类,他们提出了一种基于网络的方法。这种方法使用距离函数将时间序列集合转换成网络,并用图表示,其中每个时间序列由一个节点表示并且最相似序列之间用边连接,然后应用社区发现算法来识别连接紧密的节点群,并因此识别时间序列的簇。这种基于网络的聚类技术可以捕获任意形状的簇,因为网络能够表征节点之间的局部和全局关系,并且将时间序列从时域转换到拓扑域可以利用社区发现算法能够识别在欧几里德空间中可以是任意形状的连接模式的能力。
基于网络的方法和其他大多数公知的用于聚类时间序列的方法只能处理单变量时间序列。实际上,多变量时间序列在许多应用领域中很常见,尤其是在工业过程中,为了监控过程和控制而安装了大量传感器。通常,多变量时间序列包含了个体序列之间的复杂关系,因此聚类多变量时间序列比聚类单变量时间序列面临更多的挑战。现有的单变量时间序列的聚类方法不能直接应用于处理多变量时间序列。尽管Ghassempour等人(International journal of environmental research and public health,2014)提出的基于隐马尔可夫模型(HMM)的方法虽然能够聚类多变量时间序列,但是HMM表示需要假定概率分布,并且聚类质量严重依赖于大量的参数估计。因此,研究能够使用较少参数刻画多变量时间序列中个体序列之间复杂关系,并且保证聚类质量的多变量时序聚类算法是必要的。多变量时间序列由于普遍存在于过程监测及控制等许多应用领域而成为一种重要的数据挖掘对象,但是多变量时间序列中个体序列之间存在的复杂关系使得多变量时间序列聚类面临挑战。
发明内容
为实现上述目的,本发明提供一种基于多关系网络的MNMF聚类多变量时间序列的方法,解决了现有技术中过程监测及控制的多变量时间序列中个体序列之间存在的复杂关系使得多变量时间序列聚类效果不好的问题。
本发明所采用的技术方案是,基于多关系网络的MNMF聚类多变量时间序列的方法,具体按照以下步骤进行:
步骤S1、在时间点t=1,...,n监测到的n个有序的实数值为一个单变量时间序列,r×n个观察值组成一个r变量的时间序列Xi,设X={X1,X2,...,Xm}代表一个包含m个多变量时间序列的集合,任意一个多变量序列Xi∈X,其中,i=1,...,m,Xi共有r×n个观测值,为X={X1,X2,...,Xm}的第j个变量对应的m个时间序列的集合;每个时间序列表示为一个节点,所以为节点集,如果时间序列与时间序列相似,则将Ej表示为边集,表示相同变量对应的时间序列之间的交互,一个多关系网络可表示为多个单关系图,每个单关系图反映同一种变量的时间序列之间的交互,节点集和边集Ej组成的单关系图Gj=(Xj,Ej)为一个单关系网络,设Aj是Gj的邻接矩阵,如果则否则为0;G={G1,G2,...,Gr}为转换包含r个变量时间序列集合X={X1,X2,...,Xm}获得的多关系网络,G={G1,G2,...,Gr}也表示为G=(X,E),其中E是各个单关系网络的边集的集合,即
所述步骤S1中多变量时间序列X为聚类对象,变量为对象的描述属性,当根据气候条件对多个地区进行聚类分析时,聚类对象X为地区,m为地区的编号,多变量r为表征一个地区环境的气候条件,包括温度、气压、日照、降水、湿度、二氧化碳浓度、风速;
当对人体活动进行聚类分析时,聚类对象X为人,m为人的编号,多变量r为监测人体活动状态的传感器变量,包括心率监测仪、测速器;
所述得到多关系网络G的过程如下:
步骤S25、重复步骤S23和步骤S24,直至每个时间序列的邻近关系确定,连接近邻,得到多关系网络G;
步骤S3、利用MNMF联合分解步骤S2中的多关系网络G,根据分解结果获得多变量时间序列的聚类结果;
所述步骤S3包括以下过程:
步骤S31、基于多关系网络的邻接矩阵集A={A1,A2,...,Ar},利用MNMF找到一个非负矩阵P和非负矩阵集Q={Q1,Q2,...,Qj,...,Qr},首先随机选择P,Q1,...,Qr,其中,矩阵P是一个m×c的成员矩阵,表示每个节点属于一个簇的可能性,c是一个常量,表示簇的数目,连通矩阵Qj也是一个m×c的矩阵,其中,j=1,...,r,表示每个簇内m个节点关于第j种关系的连通性,
其中,(Qj)kl表示矩阵Qj的第k行的第l列元素;
其中,Pik表示矩阵P的第i行的第k列元素;
步骤S34、重复步骤S32-步骤S33直至成员矩阵P和连通矩阵Qj都不再变化,此时的P和Qj记为P*和Qj *,P*和Qj *是使公式(3)中MNMF目标函数最小化的最优参数,其中,矩阵P*是一个m×c的成员矩阵,包含了每个节点所属簇的隶属信息,即P*中元素Pik的值表示节点即时间序列Xi属于第k个簇的可能性,评估聚类结果时,将节点分配给可能性最大的簇,连通矩阵Qj *也是一个m×c的矩阵,其中,j=1,...,r,表示每个簇内m个节点关于第j种关系的连通性。
本发明的有益效果是,本发明基于多关系网络的方法来聚类多变量时间序列数据。本发明使用距离函数(如欧式距离或动态时间规整(Dynamic Time Warping,DTW))将多地区的多变量时间序列转换为多关系网络,该网络被建模为多个单关系图,每种关系对应于气候条件中的一个变量,每个节点代表一个时间序列,并且每个单关系图中最相似的节点相互连接。多关系网络意味着序列通过各种异质关系类型相互关联,共同影响序列的属性。与单关系网络相比,多关系网络包含更丰富的结构和语义信息。将序列转换为多关系网络后,使用多个非负矩阵分解(MNMF)联合分解多个关系矩阵来获得聚类。
本发明中将时间序列从时域转换到拓扑域的目的是为了利用网络能够同时刻画数据样本中局部和全局关系的能力,使用MNMF的目的是为了充分揭示个体序列之间的复杂关系并保留多变量信息的多路特性,从而提高聚类质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于多关系网络的MNMF聚类多变量时间序列的流程图;
图2是实施例图;
图3是实施例多关系网络的MNMF分解图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
表1给出了12个地区的温度、气压、湿度组成的3变量时间序列数据,每个变量包含8个观测值。12个地区的3变量时间序列{X1,X2,...,X12}分为三个簇,第一个簇包含{X1,X2,X3,X4},第二个簇包含{X5,X6,X7,X8},第三个簇包含{X9,X10,X11,X12}。表1中的分别表示i地区的温度、气压和湿度。
表1. 12个地区的3变量时间序列数据及其簇标签
取ε1=1.4,ε2=0.8,ε3=1.6,则根据Dj,j=1,2,3可获得三个单关系网络的邻接矩阵Aj,j=1,2,3:如果则根据Aj,j=1,2,3,可画出单关系网络图(图中不存在自环),如图2所示。图2中的12个节点表示12个时间序列,图2(a)、2(b)和2(c)分别表示与三个变量对应的3个单关系网络。随机初始化P及Qj,j=1,2,3,然后根据Qj的更新规则和P的更新规则更新P及Qj,j=1,2,3直至P及Qj,j=1,2,3不再变化。Aj,j=1,2,3及P*和Qj *,j=1,2,3,如图3所示。根据矩阵P*中元素的值将节点分配给可能性最大的簇。12个地区的聚类结果示于图2(d),图中同簇内的节点用相同的灰度表示,不同的灰度表示不同的簇。由图2(d)可见,属于同一个簇的时间序列被聚在了一起,使用本文的方法得到的12个地区的聚类结果与12个地区的时间序列的真实类别一致,表明本发明所提的多变量聚类方法是有效的。
聚类结果也可以使用兰德指数RI及纯度Purity指标定量度量。
兰德指数RI:
公式(4)中,TP代表真实簇标签和聚类结果中都属于同一簇的时间序列对数,TN表示真实簇标签与聚类结果中不属于同一类别的时间序列对数,m表示m个地区,m(m-1)/2表示地区的可能组合对。兰德指数RI的值越大,表示聚类的结果越好。
纯度Purity:
公式(5)中,其中c是簇的数目,m表示m个地区,ni是第i个簇包含的时间序列的数目,nij是第i个簇中属于第j个簇的时间序列个数。纯度越大,表示聚类的结果越好。
在本实施例中,基于12个地区的温度、气压、湿度组成的3变量时间序列的真实类别与聚类结果计算出兰德指数RI为1,纯度Purity为1,也说明了本发明的方法应用在不同地区气候条件聚类的有效性。
本发明将多变量时间序列从时域转换到拓扑域,利用网络能够同时刻画数据样本中局部和全局关系的能力,从而识别任意形状的簇;使用多个非负矩阵分解(MNMF)联合分解多个关系矩阵来获得聚类的方法利用了MNMF可以充分揭示个体序列之间的复杂关系并保留多变量信息多路特性的优点,从而将不同地区的各个变量之间的复杂关系有效融入到聚类过程中,提高了聚类性能。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (1)
1.基于多关系网络的MNMF聚类多变量时间序列的方法,其特征在于,具体按照以下步骤进行:
步骤S1、在时间点t=1,...,n监测到的n个有序的实数值为一个单变量时间序列,r×n个观察值组成一个r变量的时间序列Xi,设X={X1,X2,...,Xm}代表一个包含m个多变量时间序列的集合,任意一个多变量序列Xi∈X,其中,i=1,...,m,Xi共有r×n个观测值,为X={X1,X2,...,Xm}的第j个变量对应的m个时间序列的集合;每个时间序列表示为一个节点,所以为节点集,如果时间序列与时间序列相似,则将Ej表示为边集,表示相同变量对应的时间序列之间的交互,一个多关系网络可表示为多个单关系图,每个单关系图反映同一种变量的时间序列之间的交互,节点集和边集Ej组成的单关系图Gj=(Xj,Ej)为一个单关系网络,设Aj是Gj的邻接矩阵,如果则否则为0;G={G1,G2,...,Gr}为转换包含r个变量时间序列集合X={X1,X2,...,Xm}获得的多关系网络,G={G1,G2,...,Gr}也表示为G=(X,E),其中E是各个单关系网络的边集的集合,即
所述步骤S1中多变量时间序列X为聚类对象,变量为对象的描述属性,当根据气候条件对多个地区进行聚类分析时,聚类对象X为地区,m为地区的编号,多变量r为表征一个地区环境的气候条件,包括温度、气压、日照、降水、湿度、二氧化碳浓度、风速;
当对人体活动进行聚类分析时,聚类对象X为人,m为人的编号,多变量r为监测人体活动状态的传感器变量,包括心率监测仪、测速器;
所述得到多关系网络G的过程如下:
步骤S25、重复步骤S23和步骤S24,直至每个时间序列的邻近关系确定,连接近邻,得到多关系网络G;
步骤S3、利用MNMF联合分解步骤S2中的多关系网络G,根据分解结果获得多变量时间序列的聚类结果;
所述步骤S3包括以下过程:
步骤S31、基于多关系网络的邻接矩阵集A={A1,A2,...,Ar},利用MNMF找到一个非负矩阵P和非负矩阵集Q={Q1,Q2,...,Qj,...,Qr},首先随机选择P,Q1,...,Qr,其中,矩阵P是一个m×c的成员矩阵,表示每个节点属于一个簇的可能性,c是一个常量,表示簇的数目,连通矩阵Qj也是一个m×c的矩阵,其中,j=1,...,r,表示每个簇内m个节点关于第j种关系的连通性,
其中,(Qj)kl表示矩阵Qj的第k行的第l列元素;
其中,Pik表示矩阵P的第i行的第k列元素;
步骤S34、重复步骤S32-步骤S33直至成员矩阵P和连通矩阵Qj都不再变化,此时的P和Qj记为P*和Qj *,P*和Qj *是使公式(3)中MNMF目标函数最小化的最优参数,其中,矩阵P*是一个m×c的成员矩阵,包含了每个节点所属簇的隶属信息,即P*中元素Pik的值表示节点即时间序列Xi属于第k个簇的可能性,评估聚类结果时,将节点分配给可能性最大的簇,连通矩阵Qj *也是一个m×c的矩阵,其中,j=1,...,r,表示每个簇内m个节点关于第j种关系的连通性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554765.8A CN108830310B (zh) | 2018-06-01 | 2018-06-01 | 基于多关系网络的mnmf聚类多变量时间序列的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554765.8A CN108830310B (zh) | 2018-06-01 | 2018-06-01 | 基于多关系网络的mnmf聚类多变量时间序列的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108830310A CN108830310A (zh) | 2018-11-16 |
CN108830310B true CN108830310B (zh) | 2020-05-05 |
Family
ID=64147050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810554765.8A Active CN108830310B (zh) | 2018-06-01 | 2018-06-01 | 基于多关系网络的mnmf聚类多变量时间序列的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108830310B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667339B (zh) * | 2020-05-26 | 2022-05-27 | 吉林大学 | 一种基于改进递归神经网络的诽谤性恶意用户检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957850A (zh) * | 2010-09-25 | 2011-01-26 | 浙江大学 | 动态数据聚类算法 |
US8909643B2 (en) * | 2011-12-09 | 2014-12-09 | International Business Machines Corporation | Inferring emerging and evolving topics in streaming text |
US10304008B2 (en) * | 2015-03-20 | 2019-05-28 | Nec Corporation | Fast distributed nonnegative matrix factorization and completion for big data analytics |
CN106295690A (zh) * | 2016-08-03 | 2017-01-04 | 哈尔滨工业大学深圳研究生院 | 基于非负矩阵分解的时间序列数据聚类方法及系统 |
-
2018
- 2018-06-01 CN CN201810554765.8A patent/CN108830310B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108830310A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Hidden Markov models based approaches to long-term prediction for granular time series | |
CN109612513B (zh) | 一种面向大规模高维传感器数据的在线式异常检测方法 | |
Yuan et al. | Occupancy estimation in buildings based on infrared array sensors detection | |
Zhou et al. | A novel model based on multi-grained cascade forests with wavelet denoising for indoor occupancy estimation | |
Chen et al. | Environmental sensors-based occupancy estimation in buildings via IHMM-MLR | |
Zhang et al. | A novel gas recognition and concentration detection algorithm for artificial olfaction | |
Hara et al. | Detection of unusual human behavior in intelligent house | |
Mittal et al. | Application of Bayesian Belief Networks for context extraction from wireless sensors data | |
CN111209968A (zh) | 基于深度学习的多气象因子模式预报温度订正方法及系统 | |
CN111060316A (zh) | 基于卷积神经网络模型的滚动轴承状态监测方法和系统 | |
Fakhruddin et al. | Improving pir sensor network-based activity recognition with pca and knn | |
Mulia et al. | A review on building occupancy estimation methods | |
Zamzami et al. | Online clustering for estimating occupancy in an office setting | |
CN108830310B (zh) | 基于多关系网络的mnmf聚类多变量时间序列的方法 | |
Duin et al. | Open issues in pattern recognition | |
Atashgahi et al. | Memory-free online change-point detection: A novel neural network approach | |
CN110766140A (zh) | 一种基于XGBoost与LSTM的多传感器实时威胁等级分类方法 | |
Wang et al. | Trajectory-based multi-dimensional outlier detection in wireless sensor networks using Hidden Markov Models | |
CN114661783B (zh) | 一种基于用电行为的生活状态检测方法 | |
CN115062764A (zh) | 光照度智能调节与环境参数物联网大数据系统 | |
Amayri et al. | A statistical process control chart approach for occupancy estimation in smart buildings | |
Wu et al. | Mining spatio-temporal patterns in multivariate spatial time series | |
Pasha et al. | Topology identification of dynamic point process networks | |
Ishola et al. | Identifying extreme cold events using phase space reconstruction | |
Meng et al. | GrapHAR: A Lightweight Human Activity Recognition Model by Exploring the Sub-carrier Correlations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |