CN108830310B

CN108830310B - 基于多关系网络的mnmf聚类多变量时间序列的方法

Info

Publication number: CN108830310B
Application number: CN201810554765.8A
Authority: CN
Inventors: 周丽华; 杜国王; 赵丽红; 王丽珍; 陈红梅
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2020-05-05
Anticipated expiration: 2038-06-01
Also published as: CN108830310A

Abstract

本发明公开了一种基于多关系网络的MNMF聚类多变量时间序列的方法，将多变量时间序列转为多关系网络G；通过MNMF联合分解多关系网络G来获得多变量时间序列的聚类结果。本发明的方法将变量内部及变量之间的复杂关系有效融入到聚类过程中，提高了聚类性能。

Description

基于多关系网络的MNMF聚类多变量时间序列的方法

技术领域

本发明属于数据挖掘中时序聚类技术领域，涉及多变量时间序列到多关系网络的转换及多关系网络中多个非负矩阵分解(MNMF)。

背景技术

随着数字信息来源的迅速增长，大量的时间序列数据，如个人健康轨迹，气候数据，社会经济指标等正在不断地生成并收集。挖掘这些数据有助于发现隐藏的知识和信息，如时间关联，社区行为模式等。近年来时序数据的挖掘得到许多研究者的关注。

时间序列聚类是将时间序列划分成若干个簇，同一簇中的序列高度相似，不同簇中的序列相似度低。这是时间序列数据挖掘的一项基本任务。这项任务已被广泛研究，并提出了很多方法。目前公知的时间序列聚类方法主要有基于特征的方法和基于变换的方法。基于特征的方法首先从输入的时间序列中提取一些特征，然后应用传统的聚类算法来对提取的特征进行聚类。例如，Maharaj和D'Urso(Information Sciences，2011)使用cepstrum(谱密度函数的对数谱)作为时间序列的特征，并且基于估计的cepstrum提出了用于时间序列的模糊聚类方法。Zakaria等人(ICDM，2012)从未标记的时间序列中学习了shapelets(时间序列的局部模式)，并使用k-均值算法对shapelet进行聚类。这种方法可以对有噪声和不同长度的时间序列进行聚类，因为它只使用了一些局部模式并故意忽略其余数据。Nakashima等人(ICIEV，2016)提出了一种用于对时间序列数据进行聚类的两阶段技术。首先，通过将原始时间序列数据划分为子序列来产生初始聚类，并将得到的簇用作将时间序列数据转换为数字向量的特征。然后，对转换后的数值向量进行聚类生成最终的聚类结果。Huang等人(Knowledge Based System，2016)针对时间序列数据提出了一种新的k-均值类型平滑子空间聚类算法(TSkmeans)，其中平滑子空间由加权时间戳表示。TSkmeans算法可以有效利用时间序列数据集的固有子空间信息，从而提高了聚类性能。基于变换的方法将时间序列数据转换为其他模型，然后在变换模型上执行聚类。Ferreiraa&Zhao(Information Sciences，2016)认为，时间序列聚类不仅需要局部信息，还需要掌握形成给定时间序列模式的全局知识，但通常只有邻近数据样本之间的局部关系容易识别，而长距离的全局关系隐藏在时间序列的原始形式中，难以察觉。为了将全局知识用于时间序列聚类，他们提出了一种基于网络的方法。这种方法使用距离函数将时间序列集合转换成网络，并用图表示，其中每个时间序列由一个节点表示并且最相似序列之间用边连接，然后应用社区发现算法来识别连接紧密的节点群，并因此识别时间序列的簇。这种基于网络的聚类技术可以捕获任意形状的簇，因为网络能够表征节点之间的局部和全局关系，并且将时间序列从时域转换到拓扑域可以利用社区发现算法能够识别在欧几里德空间中可以是任意形状的连接模式的能力。

基于网络的方法和其他大多数公知的用于聚类时间序列的方法只能处理单变量时间序列。实际上，多变量时间序列在许多应用领域中很常见，尤其是在工业过程中，为了监控过程和控制而安装了大量传感器。通常，多变量时间序列包含了个体序列之间的复杂关系，因此聚类多变量时间序列比聚类单变量时间序列面临更多的挑战。现有的单变量时间序列的聚类方法不能直接应用于处理多变量时间序列。尽管Ghassempour等人(International journal of environmental research and public health，2014)提出的基于隐马尔可夫模型(HMM)的方法虽然能够聚类多变量时间序列，但是HMM表示需要假定概率分布，并且聚类质量严重依赖于大量的参数估计。因此，研究能够使用较少参数刻画多变量时间序列中个体序列之间复杂关系，并且保证聚类质量的多变量时序聚类算法是必要的。多变量时间序列由于普遍存在于过程监测及控制等许多应用领域而成为一种重要的数据挖掘对象，但是多变量时间序列中个体序列之间存在的复杂关系使得多变量时间序列聚类面临挑战。

发明内容

为实现上述目的，本发明提供一种基于多关系网络的MNMF聚类多变量时间序列的方法，解决了现有技术中过程监测及控制的多变量时间序列中个体序列之间存在的复杂关系使得多变量时间序列聚类效果不好的问题。

本发明所采用的技术方案是，基于多关系网络的MNMF聚类多变量时间序列的方法，具体按照以下步骤进行：

步骤S1、在时间点t＝1,...,n监测到的n个有序的实数值为一个单变量时间序列，r×n个观察值组成一个r变量的时间序列Xⁱ，设X＝{X¹，X²，...，X^m}代表一个包含m个多变量时间序列的集合，任意一个多变量序列Xⁱ∈X，其中，i＝1,...,m，Xⁱ共有r×n个观测值，

为X＝{X¹,X²,...,X^m}的第j个变量对应的m个时间序列的集合；每个时间序列

表示为一个节点，所以

为节点集，如果时间序列

与时间序列

相似，则

将E_j表示为边集，表示相同变量对应的时间序列之间的交互，一个多关系网络可表示为多个单关系图，每个单关系图反映同一种变量的时间序列之间的交互，节点集

和边集E_j组成的单关系图G_j＝(X_j,E_j)为一个单关系网络，设A_j是G_j的邻接矩阵，如果

则

否则为0；G＝{G₁,G₂,...,G_r}为转换包含r个变量时间序列集合X＝{X¹,X²,...,X^m}获得的多关系网络，G＝{G₁,G₂,...,G_r}也表示为G＝(X,E)，其中E是各个单关系网络的边集的集合，即

所述步骤S1中多变量时间序列X为聚类对象，变量为对象的描述属性，当根据气候条件对多个地区进行聚类分析时，聚类对象X为地区，m为地区的编号，多变量r为表征一个地区环境的气候条件，包括温度、气压、日照、降水、湿度、二氧化碳浓度、风速；

当对人体活动进行聚类分析时，聚类对象X为人，m为人的编号，多变量r为监测人体活动状态的传感器变量，包括心率监测仪、测速器；

步骤S2、对

进行规范化，并计算

和

的初始距离，寻找

的ε近邻，连接近邻，得到多关系网络G；

所述得到多关系网络G的过程如下：

步骤S21、将

规范化为

以消除量纲的影响，

中的元素

按公式(1)进行计算：

步骤S22、计算第j个变量即第j种关系中时间序列

与

之间的欧式或DTW距离

步骤S23、寻找时间序列

的ε近邻，

i＝1,...,m；其中，ε为阈值；

步骤S24、如果

则时间序列

与时间序列

相似，

步骤S25、重复步骤S23和步骤S24，直至每个时间序列的邻近关系确定，连接近邻，得到多关系网络G；

步骤S3、利用MNMF联合分解步骤S2中的多关系网络G，根据分解结果获得多变量时间序列的聚类结果；

所述步骤S3包括以下过程：

步骤S31、基于多关系网络的邻接矩阵集A＝{A₁，A₂，...，A_r}，利用MNMF找到一个非负矩阵P和非负矩阵集Q＝{Q₁,Q₂,...,Q_j,...,Q_r}，首先随机选择P,Q₁,...,Q_r，其中，矩阵P是一个m×c的成员矩阵，表示每个节点

属于一个簇的可能性，c是一个常量，表示簇的数目，连通矩阵Q_j也是一个m×c的矩阵，其中，j＝1,...,r，表示每个簇内m个节点关于第j种关系的连通性，

MNMF的目标函数定义为：

公式(3)中的F为Frobenius范数，P＞0和Q_j＞0，

表示成员矩阵P和连通矩阵Q_j均为非负矩阵；

步骤S32、固定P,Q₁,Q₂,...,Q_j-1,Q_j+1,...,Q_r，使用随机梯度下降法学习能使公式(3)中MNMF目标函数减小的Q_j的更新规则为：新的(Q_j)_kl等于

其中，(Q_j)_kl表示矩阵Q_j的第k行的第l列元素；

步骤S33、固定Q₁,...,Q_r，使用随机梯度下降法学习能使公式(3)中MNMF目标函数减小的P的更新规则为：新的P_ik等于

其中，P_ik表示矩阵P的第i行的第k列元素；

步骤S34、重复步骤S32-步骤S33直至成员矩阵P和连通矩阵Q_j都不再变化，此时的P和Q_j记为P^*和Q_j ^*，P^*和Q_j ^*是使公式(3)中MNMF目标函数最小化的最优参数，其中，矩阵P^*是一个m×c的成员矩阵，包含了每个节点所属簇的隶属信息，即P^*中元素P_ik的值表示节点即时间序列Xⁱ属于第k个簇的可能性，评估聚类结果时，将节点分配给可能性最大的簇，连通矩阵Q_j ^*也是一个m×c的矩阵，其中，j＝1,...,r，表示每个簇内m个节点关于第j种关系的连通性。

本发明的有益效果是，本发明基于多关系网络的方法来聚类多变量时间序列数据。本发明使用距离函数(如欧式距离或动态时间规整(Dynamic Time Warping，DTW))将多地区的多变量时间序列转换为多关系网络，该网络被建模为多个单关系图，每种关系对应于气候条件中的一个变量，每个节点代表一个时间序列，并且每个单关系图中最相似的节点相互连接。多关系网络意味着序列通过各种异质关系类型相互关联，共同影响序列的属性。与单关系网络相比，多关系网络包含更丰富的结构和语义信息。将序列转换为多关系网络后，使用多个非负矩阵分解(MNMF)联合分解多个关系矩阵来获得聚类。

本发明中将时间序列从时域转换到拓扑域的目的是为了利用网络能够同时刻画数据样本中局部和全局关系的能力，使用MNMF的目的是为了充分揭示个体序列之间的复杂关系并保留多变量信息的多路特性，从而提高聚类质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于多关系网络的MNMF聚类多变量时间序列的流程图；

图2是实施例图；

图3是实施例多关系网络的MNMF分解图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

表1给出了12个地区的温度、气压、湿度组成的3变量时间序列数据，每个变量包含8个观测值。12个地区的3变量时间序列{X¹,X²,...,X¹²}分为三个簇，第一个簇包含{X¹,X²,X³,X⁴}，第二个簇包含{X⁵,X⁶,X⁷,X⁸}，第三个簇包含{X⁹,X¹⁰,X¹¹,X¹²}。表1中的

分别表示i地区的温度、气压和湿度。

表1. 12个地区的3变量时间序列数据及其簇标签

为了对12个地区的3变量时间序列{X¹，X²，...，X¹²}聚类，首先规范化

为

然后针对不同的变量计算时间序列间的欧式距离D_j,j＝1,2,3，结果如下：

取ε₁＝1.4,ε₂＝0.8,ε₃＝1.6，则根据D_j,j＝1,2,3可获得三个单关系网络的邻接矩阵A_j,j＝1,2,3：如果

则

根据A_j,j＝1,2,3，可画出单关系网络图(图中不存在自环)，如图2所示。图2中的12个节点表示12个时间序列，图2(a)、2(b)和2(c)分别表示与三个变量对应的3个单关系网络。随机初始化P及Q_j,j＝1,2,3，然后根据Q_j的更新规则和P的更新规则更新P及Q_j,j＝1,2,3直至P及Q_j,j＝1,2,3不再变化。A_j,j＝1,2,3及P^*和Q_j ^*，j＝1,2,3，如图3所示。根据矩阵P^*中元素的值将节点分配给可能性最大的簇。12个地区的聚类结果示于图2(d)，图中同簇内的节点用相同的灰度表示，不同的灰度表示不同的簇。由图2(d)可见，属于同一个簇的时间序列被聚在了一起，使用本文的方法得到的12个地区的聚类结果与12个地区的时间序列的真实类别一致，表明本发明所提的多变量聚类方法是有效的。

聚类结果也可以使用兰德指数RI及纯度Purity指标定量度量。

兰德指数RI：

公式(4)中，TP代表真实簇标签和聚类结果中都属于同一簇的时间序列对数，TN表示真实簇标签与聚类结果中不属于同一类别的时间序列对数，m表示m个地区，m(m-1)/2表示地区的可能组合对。兰德指数RI的值越大，表示聚类的结果越好。

纯度Purity：

公式(5)中，其中c是簇的数目，m表示m个地区，n_i是第i个簇包含的时间序列的数目，n_ij是第i个簇中属于第j个簇的时间序列个数。纯度越大，表示聚类的结果越好。

在本实施例中，基于12个地区的温度、气压、湿度组成的3变量时间序列的真实类别与聚类结果计算出兰德指数RI为1，纯度Purity为1，也说明了本发明的方法应用在不同地区气候条件聚类的有效性。

本发明将多变量时间序列从时域转换到拓扑域，利用网络能够同时刻画数据样本中局部和全局关系的能力，从而识别任意形状的簇；使用多个非负矩阵分解(MNMF)联合分解多个关系矩阵来获得聚类的方法利用了MNMF可以充分揭示个体序列之间的复杂关系并保留多变量信息多路特性的优点，从而将不同地区的各个变量之间的复杂关系有效融入到聚类过程中，提高了聚类性能。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。