CN106778824A

CN106778824A - 一种面向时间序列数据的增量模糊c中心点聚类方法

Info

Publication number: CN106778824A
Application number: CN201611058968.5A
Authority: CN
Inventors: 刘永利; 武帅; 郭倩倩; 刘静; 韩秀娟
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-05-31

Abstract

本发明提出了一种面向时间序列数据的增量模糊c中心点聚类方法，该方法采用了改进的时间动态规整距离，同时与模糊c中心点技术和单通道增量方法相结合。使用该方法后，可以处理大规模时间序列数据集和时间序列数据数据流，加快处理速度，同时提高对时间序列数据的聚类精度。

Description

一种面向时间序列数据的增量模糊c中心点聚类方法

技术领域

本发明涉及一种聚类方法，具体地，涉及一种面向时间序列数据的增量模糊c中心点聚类方法，属于数据挖掘领域。

背景技术

时间序列数据广泛存在于生活和生产的各个领域，例如：金融，商业，医学，环境科学等等。这些数据中蕴含着大量有价值的信息。因此，针对时间序列数据的数据挖掘方法发展迅速。其中，聚类是最常用也是最有效的分析方法。

聚类分为硬聚类和模糊聚类两种。相对于硬聚类，模糊聚类建立了数据样本对数据类别的不确定性描述，可对类间有交叉的数据集作有效聚类，拥有更好的数据表达能力及聚类效果，其聚类结果明显优于硬聚类。在模糊聚类方法中，目前最有代表性的两种方法为模糊c中心点方法(FCMdd)和模糊c均值方法(FCM)。在这两种方法中，其目的都是找到几个聚类中心，根据聚类中心将数据点分为数个类。其中FCMdd所选取的中心点是数据集中已存在的数据点。相对于FCM方法，当存在噪声和孤立点时，FCMdd更加健壮，这是因为中心点不像平均值那样容易受极端数据影响，但FCMdd方法比FCM方法执行代价高。

使用恰当的距离函数衡量时间序列数据的相似性会对聚类结果产生相当大的影响。欧式距离是广泛使用的度量相似性的函数。但欧式距离不能应对时间序列的线性漂移和时间弯曲。而本发明使用的快速动态时间弯曲(Fast Dynamic Time Warping,FDTW)距离是一种经过改进的，通过拉伸或压缩时间序列数据的一部分匹配两个时间序列数据，可以有效评估时间序列数据的形状信息的相似性距离。但使用FDTW距离的缺点在于其时间复杂度较高。

虽然使用FDTW的FCMdd可以很好地对时间序列数据进行聚类分析，但是它只能处理数据量不是特别大的、固定的时间序列数据集。随着计算机技术的发展，(1)时间序列数据的存储量急剧增大，其数据量不能完全存储在内存中；(2)对处理数据流产生迫切需求求。

FCMdd不能解决的这样的问题，因此本发明提出了一种新的基于FDTW距离的WFCMdd的增量方法。新方法通过将数据分为连续的数据块，并按顺序进行处理，使本发明可以处理大型数据和数据流。同时，使用基于FDTW距离的WFCMdd提高了对时间序列数据的聚类精确度。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种面向时间序列数据的增量模糊c中心点聚类方法，具体地，该方法包括以下步骤：

(1)将整个数据集进行分块处理，并为每块数据中的每个数据点分配权重1；

(2)初始化中心点，从数据块中找到一个数据点，使得此数据点到整个数据块中其他数据点的距离之和最小，之后在数据块中的其他数据点找到另一个数据点，与第一个数据点的距离最大，作为第二个中心点，然后在数据块中的其他数据点找到一个数据点，与已找到的中心点距离之和最大，以此类推，直到找到所有的中心点；

(3)对每个数据块进行聚类处理，聚类过程中，快速动态时间弯曲距离采用动态规划方法，通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据，

(4)当中心点不再变化时停止迭代；

(5)迭代结束后得到聚类结果[U₁₁,U₁₂,...,U_1t,...,U_1c]和聚类中心点[v₁₁,v₁₂,...,v_1t,...,v_1c]；

(6)当处理完第i-1个数据块后，为i-1个数据块的中心点[v_(i-1)1,v_(i-1)2,...,v_(i-1)t,...,v_(i-1)c]中的每一个中心点赋予权重值w_t，w_t为整个数据块中的数据点隶属于聚类U_(i-1)t的隶属度之和；将新得到的第i个数据块中的每个数据点赋予权重1，将赋过权重的第i-1个数据块的中心点和第i个数据块中的数据点组成新的数据块，对新数据块重新进行步骤(2)～(5)的操作，得到聚类结果[U_i1,U_i2,...,U_it,...,U_ic]和聚类中心点[v_i1,v_i2,...,v_it,...,v_ic]，依次找到第i-1次聚类得到的中心点所在的聚类U_it，则类U_(i-1)t中所有数据点都属于类U_it；

(7)循环执行步骤(6)，处理完最后一个数据块，即可得到就是最终的中心点和聚类结果。

更具体地，在步骤(3)中，聚类处理时的目标函数为其中w_k是第k个数据点被赋予的权重值,u_ik为数据点x_k对聚类i的隶属度,且v_i代表一个聚类的中心点，且FDTW_ik(x_k,v_i)表示数据点x_k和中心点v_i之间的快速动态时间弯曲距离,c为聚类个数,n为数据点个数,m(m>1)是隶属度指数,v_l为第l个聚类的中心点。

更具体地，在步骤(3)中，FDTW_ik(x_k,v_i)表示数据点x_k和中心点v_i之间的快速动态时间弯曲距离，S＝[a₁,a₂,a₃,…,a_m]和Q＝[b₁,b₂,b₃,…,b_m]是两个时间序列数据，构造一个m×n的矩阵K，其中K[0][0]＝d₁₁，其中d_ik为a_i到b_k的欧式距离，即d_ik＝(a_i-b_k)²，则K[0][j]＝K[0][j-1]+d_1(j+1)，K[j][0]＝K[j-1][0]+d_(j+1)1，K[i][j]＝min(K[i-1][j],K[i][j-1],K[i-1][j-1])+d_(i+1)(j+1)，则FDTW＝K[m-1][n-1]，其中i,j满足以下约束条件：

采用该方法后，可用于处理大规模的，不能存入内存中的时间序列数据集或时间序列数据的数据流。为了更好地处理时间序列数据，使用了快速动态时间弯曲距离。同时，为了能够处理大规模数据和数据流，提出了增量方法，不但可以明显提高处理速度，而且不会影响聚类的精确度。与现有方法相比，本发明新提出的方法可以更快更精确的处理大规模时间序列数据和时间序列数据的数据流，其次方法中采用了计算初始中心点的方法，在保证聚类结果精确度的同时，使方法更加稳定。

具体实施方式

一种面向时间序列数据的增量模糊c中心点聚类方法，其特征在于：该方法包括以下步骤：

(4)当中心点不再变化时停止迭代；

(6)当处理完第i-1个数据块后，为第i-1个数据块的中心点[v_(i-1)1,v_(i-1)2,...,v_(i-1)t,...,v_(i-1)c]中的每一个中心点赋予权重值w_t，w_t为整个数据块中的数据点隶属于聚类U_(i-1)t的隶属度之和；将新得到的第i个数据块中的每个数据点赋予权重1，将赋过权重的第i-1个数据块的中心点和第i个数据块中的数据点组成新的数据块，对这些新数据块重新进行步骤(2)～(5)的操作，得到聚类结果[U_i1,U_i2,...,U_it,...,U_ic]和聚类中心点[v_i1,v_i2,...,v_it,...,v_ic]，依次找到第i-1次聚类得到的中心点所在的聚类U_it，则类U_(i-1)t中所有数据点都属于类U_it；

为中心点赋予权重，可以使中心点能够代表更多的信息，同时使本发明使用到的增量方法更加有效精确。

快速时间动态弯曲距离(FDTW)是一种对时间序列数据进行匹配的计算距离的非常有效的方法。由于时间序列数据的时间拥有时间漂移的特点，普遍使用的欧式距离等计算相似度的方法已不再适用，而快速时间动态弯曲距离却可以很好地计算时间序列数据数据的相似度。通过拉伸或压缩数据段，FDTW确定任何两个时间序列之间的最佳匹配。在这种方式中，时间序列表现出类似的模式发生在不同的时间段，被认为是相似的。同时增加约束条件，提高计算效率。

为了在有限的内存下处理庞大的数据量和数据流，可以将数据分为较小的数据块分别进行处理。

在本发明提出的增量方法中，特大型数据集或数据流被分为连续的数据块，每一个数据块包含整个数据集的一部分。例如：在时间t₁时有n₁个数据点可处理，在时间t₂时有n₂个数据点可处理，等等。对每一个数据块都按照本发明提出的新的基于FDTW距离的聚类方法进行聚类分析。

FDTW距离运用了动态规划方法，通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据，因此在时间序列数据中，相同的形状信息即便发生在不同的时间也被认为是相似的。按照FDTW的计算方法，当两个时间序列数据形状越相似，其值越小。反之越大。

基于FDTW距离的加权模糊c中心点方法在对数据处理之前，为每一个数据点都赋予了一个权重值w_k＞0。权重值越高说明数据点越具有代表性，也越可能成为中心点。在本发明中，全部使用FDTW距离。本发明处理的数据为时间序列数据，相比较于其他距离计算方法，FDTW更能有效评估时间序列数据之间的相似性。

初始化中心点的方法有多种，一般初始化中心点方法选用的都是随机选取的方法，即从数据块中随机选取数个数据点作为中心点。这种方法简单、速度快。但可能不会提供一个最终分类结果。本发明采用的方法对于初始化中心点是敏感的，因此，本发明不通过常用的随机选取获取初始中心点。本发明选用如下方法来获取初始中心点：

首先，从数据块中找到一个数据点，此数据点到整个数据块中其他数据点的距离之和是最小的。然后，在数据块中的其他数据点找到一个数据点，与第一个数据点的距离最大，作为第二个中心点。第三步，在数据块中的其他数据点找到一个数据点，与已找到的中心点距离之和最大。按照这种方法直到找到所有的中心点。按照这种初始化中心点的方法，虽然得到的结果可能不是最好的，但也接近于最好的结果，并且聚类结果稳定。

迭代结束条件一般情况下有两种：第一是设置最大迭代次数。即当迭代次数达到设置的最大值时，停止迭代。第二是当中心点不再变化时停止迭代。第一种方法保证方法不会出现太长时间的迭代，但同时可能会在方法没有得到最优结果前停止迭代。第二种方法可以得到当前初始化中心下的最优聚类结果，但再得到最优聚类结果前可能会迭代较多次，造成执行时间过长，影响方法效率。由于本发明提出的方法每个数据块不会太大，同时收敛速度较快，一般不会出现迭代次数较多的现象。因此，在本发明中迭代结束条件选取了第二种方法，即保证精确度同时效率又不会太低。

本发明采用的增量方法主要处理对象是时间序列数据的流数据和时间序列数据的大型数据集。由于内存有限或者对数据流要求实时处理，数据被分块处理。对于数据流，对数据按照到达时间进行分块和处理，例如，有n₁个数据点在时间段t₁内到达，有n₂个数据点在时间段t₂内到达，等等，那么依次处理数据块n₁和处理数据块n₂等等。

更具体地，本发明采用的是单通道处理方式，它对一个数据块按照上述方法进行处理，得到相应的中心点和聚类结果，并将中心点赋一个权重值后添加到下一个数据块中，然后对下一个数据块按照基于FDTW的聚类方法进行处理，直到处理完所有数据块，得到最终的中心点和聚类结果。

Claims

1.一种面向时间序列数据的增量模糊c中心点聚类方法，其特征在于：该方法包括以下步骤：

(3)对每个数据块进行聚类处理，聚类过程中，快速动态时间弯曲距离采用动态规划方法，通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据，(4)当中心点不再变化时停止迭代；

(6)当处理完第i-1个数据块后，为第i-1个数据块的中心点[v_(i-1)1,v₍i_-1)2,...,v_(i-1)t,...,v_(i-1)c]中的每一个中心点赋予权重值w_t，w_t为整个数据块中的数据点隶属于聚类U_(i-1)t的隶属度之和；将新得到的第i个数据块中的每个数据点赋予权重1，将赋过权重的第i-1个数据块的中心点和第i个数据块中的数据点组成新的数据块，对新数据块重新进行步骤(2)～(5)的操作，得到聚类结果[U_i1,U_i2,...,U_it,...,U_ic]和聚类中心点[v_i1,v_i2,...,v_it,...,v_ic]，依次找到第i-1次聚类得到的中心点所在的聚类U_it，则类U_(i-1)t中所有数据点都属于类U_it；

2.基于权利要求1的一种面向时间序列数据的增量模糊c中心点聚类方法，其特征在于：在步骤(3)中，聚类处理时的目标函数为其中w_k是第k个数据点被赋予的权重值,u_ik为数据点x_k对聚类i的隶属度,，且v_i代表一个聚类的中心点，且FDTW_ik(x_k,v_i)表示数据点x_k和中心点v_i之间的快速动态时间弯曲距离,c为聚类个数,n为数据点个数,m是隶属度指数，且m>1,v_l为第l个聚类的中心点。

3.基于权利要求3的一种面向时间序列数据的增量模糊c中心点聚类方法，其特征在于：在步骤(3)中，FDTW_ik(x_k,v_i)表示数据点x_k和中心点v_i之间的快速动态时间弯曲距离，S＝[a₁,a₂,a₃,…,a_m]和Q＝[b₁,b₂,b₃,…,b_m]是两个时间序列数据，构造一个m×n的矩阵K，其中K[0][0]＝d₁₁，其中d_ik为a_i到b_k的欧式距离，即d_ik＝(a_i-b_k)²，则K[0][j]＝K[0][j-1]+d_1(j+1)，K[j][0]＝K[j-1][0]+d_(j+1)1，K[i][j]＝min(K[i-1][j],K[i][j-1],K[i-1][j-1])+d_(i+1)(j+1)，则FDTW＝K[m-1][n-1]，其中i,j满足以下约束条件：