CN106778824A - 一种面向时间序列数据的增量模糊c中心点聚类方法 - Google Patents

一种面向时间序列数据的增量模糊c中心点聚类方法 Download PDF

Info

Publication number
CN106778824A
CN106778824A CN201611058968.5A CN201611058968A CN106778824A CN 106778824 A CN106778824 A CN 106778824A CN 201611058968 A CN201611058968 A CN 201611058968A CN 106778824 A CN106778824 A CN 106778824A
Authority
CN
China
Prior art keywords
data
point
central point
data block
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611058968.5A
Other languages
English (en)
Inventor
刘永利
武帅
郭倩倩
刘静
韩秀娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201611058968.5A priority Critical patent/CN106778824A/zh
Publication of CN106778824A publication Critical patent/CN106778824A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种面向时间序列数据的增量模糊c中心点聚类方法,该方法采用了改进的时间动态规整距离,同时与模糊c中心点技术和单通道增量方法相结合。使用该方法后,可以处理大规模时间序列数据集和时间序列数据数据流,加快处理速度,同时提高对时间序列数据的聚类精度。

Description

一种面向时间序列数据的增量模糊c中心点聚类方法
技术领域
本发明涉及一种聚类方法,具体地,涉及一种面向时间序列数据的增量模糊c中心点聚类方法,属于数据挖掘领域。
背景技术
时间序列数据广泛存在于生活和生产的各个领域,例如:金融,商业,医学,环境科学等等。这些数据中蕴含着大量有价值的信息。因此,针对时间序列数据的数据挖掘方法发展迅速。其中,聚类是最常用也是最有效的分析方法。
聚类分为硬聚类和模糊聚类两种。相对于硬聚类,模糊聚类建立了数据样本对数据类别的不确定性描述,可对类间有交叉的数据集作有效聚类,拥有更好的数据表达能力及聚类效果,其聚类结果明显优于硬聚类。在模糊聚类方法中,目前最有代表性的两种方法为模糊c中心点方法(FCMdd)和模糊c均值方法(FCM)。在这两种方法中,其目的都是找到几个聚类中心,根据聚类中心将数据点分为数个类。其中FCMdd所选取的中心点是数据集中已存在的数据点。相对于FCM方法,当存在噪声和孤立点时,FCMdd更加健壮,这是因为中心点不像平均值那样容易受极端数据影响,但FCMdd方法比FCM方法执行代价高。
使用恰当的距离函数衡量时间序列数据的相似性会对聚类结果产生相当大的影响。欧式距离是广泛使用的度量相似性的函数。但欧式距离不能应对时间序列的线性漂移和时间弯曲。而本发明使用的快速动态时间弯曲(Fast Dynamic Time Warping,FDTW)距离是一种经过改进的,通过拉伸或压缩时间序列数据的一部分匹配两个时间序列数据,可以有效评估时间序列数据的形状信息的相似性距离。但使用FDTW距离的缺点在于其时间复杂度较高。
虽然使用FDTW的FCMdd可以很好地对时间序列数据进行聚类分析,但是它只能处理数据量不是特别大的、固定的时间序列数据集。随着计算机技术的发展,(1)时间序列数据的存储量急剧增大,其数据量不能完全存储在内存中;(2)对处理数据流产生迫切需求求。
FCMdd不能解决的这样的问题,因此本发明提出了一种新的基于FDTW距离的WFCMdd的增量方法。新方法通过将数据分为连续的数据块,并按顺序进行处理,使本发明可以处理大型数据和数据流。同时,使用基于FDTW距离的WFCMdd提高了对时间序列数据的聚类精确度。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种面向时间序列数据的增量模糊c中心点聚类方法,具体地,该方法包括以下步骤:
(1)将整个数据集进行分块处理,并为每块数据中的每个数据点分配权重1;
(2)初始化中心点,从数据块中找到一个数据点,使得此数据点到整个数据块中其他数据点的距离之和最小,之后在数据块中的其他数据点找到另一个数据点,与第一个数据点的距离最大,作为第二个中心点,然后在数据块中的其他数据点找到一个数据点,与已找到的中心点距离之和最大,以此类推,直到找到所有的中心点;
(3)对每个数据块进行聚类处理,聚类过程中,快速动态时间弯曲距离采用动态规划方法,通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据,
(4)当中心点不再变化时停止迭代;
(5)迭代结束后得到聚类结果[U11,U12,...,U1t,...,U1c]和聚类中心点[v11,v12,...,v1t,...,v1c];
(6)当处理完第i-1个数据块后,为i-1个数据块的中心点[v(i-1)1,v(i-1)2,...,v(i-1)t,...,v(i-1)c]中的每一个中心点赋予权重值wt,wt为整个数据块中的数据点隶属于聚类U(i-1)t的隶属度之和;将新得到的第i个数据块中的每个数据点赋予权重1,将赋过权重的第i-1个数据块的中心点和第i个数据块中的数据点组成新的数据块,对新数据块重新进行步骤(2)~(5)的操作,得到聚类结果[Ui1,Ui2,...,Uit,...,Uic]和聚类中心点[vi1,vi2,...,vit,...,vic],依次找到第i-1次聚类得到的中心点所在的聚类Uit,则类U(i-1)t中所有数据点都属于类Uit
(7)循环执行步骤(6),处理完最后一个数据块,即可得到就是最终的中心点和聚类结果。
更具体地,在步骤(3)中,聚类处理时的目标函数为其中wk是第k个数据点被赋予的权重值,uik为数据点xk对聚类i的隶属度,且vi代表一个聚类的中心点,且FDTWik(xk,vi)表示数据点xk和中心点vi之间的快速动态时间弯曲距离,c为聚类个数,n为数据点个数,m(m>1)是隶属度指数,vl为第l个聚类的中心点。
更具体地,在步骤(3)中,FDTWik(xk,vi)表示数据点xk和中心点vi之间的快速动态时间弯曲距离,S=[a1,a2,a3,…,am]和Q=[b1,b2,b3,…,bm]是两个时间序列数据,构造一个m×n的矩阵K,其中K[0][0]=d11,其中dik为ai到bk的欧式距离,即dik=(ai-bk)2,则K[0][j]=K[0][j-1]+d1(j+1),K[j][0]=K[j-1][0]+d(j+1)1,K[i][j]=min(K[i-1][j],K[i][j-1],K[i-1][j-1])+d(i+1)(j+1),则FDTW=K[m-1][n-1],其中i,j满足以下约束条件:
采用该方法后,可用于处理大规模的,不能存入内存中的时间序列数据集或时间序列数据的数据流。为了更好地处理时间序列数据,使用了快速动态时间弯曲距离。同时,为了能够处理大规模数据和数据流,提出了增量方法,不但可以明显提高处理速度,而且不会影响聚类的精确度。与现有方法相比,本发明新提出的方法可以更快更精确的处理大规模时间序列数据和时间序列数据的数据流,其次方法中采用了计算初始中心点的方法,在保证聚类结果精确度的同时,使方法更加稳定。
具体实施方式
一种面向时间序列数据的增量模糊c中心点聚类方法,其特征在于:该方法包括以下步骤:
(1)将整个数据集进行分块处理,并为每块数据中的每个数据点分配权重1;
(2)初始化中心点,从数据块中找到一个数据点,使得此数据点到整个数据块中其他数据点的距离之和最小,之后在数据块中的其他数据点找到另一个数据点,与第一个数据点的距离最大,作为第二个中心点,然后在数据块中的其他数据点找到一个数据点,与已找到的中心点距离之和最大,以此类推,直到找到所有的中心点;
(3)对每个数据块进行聚类处理,聚类过程中,快速动态时间弯曲距离采用动态规划方法,通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据,
(4)当中心点不再变化时停止迭代;
(5)迭代结束后得到聚类结果[U11,U12,...,U1t,...,U1c]和聚类中心点[v11,v12,...,v1t,...,v1c];
(6)当处理完第i-1个数据块后,为第i-1个数据块的中心点[v(i-1)1,v(i-1)2,...,v(i-1)t,...,v(i-1)c]中的每一个中心点赋予权重值wt,wt为整个数据块中的数据点隶属于聚类U(i-1)t的隶属度之和;将新得到的第i个数据块中的每个数据点赋予权重1,将赋过权重的第i-1个数据块的中心点和第i个数据块中的数据点组成新的数据块,对这些新数据块重新进行步骤(2)~(5)的操作,得到聚类结果[Ui1,Ui2,...,Uit,...,Uic]和聚类中心点[vi1,vi2,...,vit,...,vic],依次找到第i-1次聚类得到的中心点所在的聚类Uit,则类U(i-1)t中所有数据点都属于类Uit
(7)循环执行步骤(6),处理完最后一个数据块,即可得到就是最终的中心点和聚类结果。
更具体地,在步骤(3)中,聚类处理时的目标函数为其中wk是第k个数据点被赋予的权重值,uik为数据点xk对聚类i的隶属度,且vi代表一个聚类的中心点,且FDTWik(xk,vi)表示数据点xk和中心点vi之间的快速动态时间弯曲距离,c为聚类个数,n为数据点个数,m(m>1)是隶属度指数,vl为第l个聚类的中心点。
更具体地,在步骤(3)中,FDTWik(xk,vi)表示数据点xk和中心点vi之间的快速动态时间弯曲距离,S=[a1,a2,a3,…,am]和Q=[b1,b2,b3,…,bm]是两个时间序列数据,构造一个m×n的矩阵K,其中K[0][0]=d11,其中dik为ai到bk的欧式距离,即dik=(ai-bk)2,则K[0][j]=K[0][j-1]+d1(j+1),K[j][0]=K[j-1][0]+d(j+1)1,K[i][j]=min(K[i-1][j],K[i][j-1],K[i-1][j-1])+d(i+1)(j+1),则FDTW=K[m-1][n-1],其中i,j满足以下约束条件:
为中心点赋予权重,可以使中心点能够代表更多的信息,同时使本发明使用到的增量方法更加有效精确。
快速时间动态弯曲距离(FDTW)是一种对时间序列数据进行匹配的计算距离的非常有效的方法。由于时间序列数据的时间拥有时间漂移的特点,普遍使用的欧式距离等计算相似度的方法已不再适用,而快速时间动态弯曲距离却可以很好地计算时间序列数据数据的相似度。通过拉伸或压缩数据段,FDTW确定任何两个时间序列之间的最佳匹配。在这种方式中,时间序列表现出类似的模式发生在不同的时间段,被认为是相似的。同时增加约束条件,提高计算效率。
为了在有限的内存下处理庞大的数据量和数据流,可以将数据分为较小的数据块分别进行处理。
在本发明提出的增量方法中,特大型数据集或数据流被分为连续的数据块,每一个数据块包含整个数据集的一部分。例如:在时间t1时有n1个数据点可处理,在时间t2时有n2个数据点可处理,等等。对每一个数据块都按照本发明提出的新的基于FDTW距离的聚类方法进行聚类分析。
FDTW距离运用了动态规划方法,通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据,因此在时间序列数据中,相同的形状信息即便发生在不同的时间也被认为是相似的。按照FDTW的计算方法,当两个时间序列数据形状越相似,其值越小。反之越大。
基于FDTW距离的加权模糊c中心点方法在对数据处理之前,为每一个数据点都赋予了一个权重值wk>0。权重值越高说明数据点越具有代表性,也越可能成为中心点。在本发明中,全部使用FDTW距离。本发明处理的数据为时间序列数据,相比较于其他距离计算方法,FDTW更能有效评估时间序列数据之间的相似性。
初始化中心点的方法有多种,一般初始化中心点方法选用的都是随机选取的方法,即从数据块中随机选取数个数据点作为中心点。这种方法简单、速度快。但可能不会提供一个最终分类结果。本发明采用的方法对于初始化中心点是敏感的,因此,本发明不通过常用的随机选取获取初始中心点。本发明选用如下方法来获取初始中心点:
首先,从数据块中找到一个数据点,此数据点到整个数据块中其他数据点的距离之和是最小的。然后,在数据块中的其他数据点找到一个数据点,与第一个数据点的距离最大,作为第二个中心点。第三步,在数据块中的其他数据点找到一个数据点,与已找到的中心点距离之和最大。按照这种方法直到找到所有的中心点。按照这种初始化中心点的方法,虽然得到的结果可能不是最好的,但也接近于最好的结果,并且聚类结果稳定。
迭代结束条件一般情况下有两种:第一是设置最大迭代次数。即当迭代次数达到设置的最大值时,停止迭代。第二是当中心点不再变化时停止迭代。第一种方法保证方法不会出现太长时间的迭代,但同时可能会在方法没有得到最优结果前停止迭代。第二种方法可以得到当前初始化中心下的最优聚类结果,但再得到最优聚类结果前可能会迭代较多次,造成执行时间过长,影响方法效率。由于本发明提出的方法每个数据块不会太大,同时收敛速度较快,一般不会出现迭代次数较多的现象。因此,在本发明中迭代结束条件选取了第二种方法,即保证精确度同时效率又不会太低。
本发明采用的增量方法主要处理对象是时间序列数据的流数据和时间序列数据的大型数据集。由于内存有限或者对数据流要求实时处理,数据被分块处理。对于数据流,对数据按照到达时间进行分块和处理,例如,有n1个数据点在时间段t1内到达,有n2个数据点在时间段t2内到达,等等,那么依次处理数据块n1和处理数据块n2等等。
更具体地,本发明采用的是单通道处理方式,它对一个数据块按照上述方法进行处理,得到相应的中心点和聚类结果,并将中心点赋一个权重值后添加到下一个数据块中,然后对下一个数据块按照基于FDTW的聚类方法进行处理,直到处理完所有数据块,得到最终的中心点和聚类结果。

Claims (3)

1.一种面向时间序列数据的增量模糊c中心点聚类方法,其特征在于:该方法包括以下步骤:
(1)将整个数据集进行分块处理,并为每块数据中的每个数据点分配权重1;
(2)初始化中心点,从数据块中找到一个数据点,使得此数据点到整个数据块中其他数据点的距离之和最小,之后在数据块中的其他数据点找到另一个数据点,与第一个数据点的距离最大,作为第二个中心点,然后在数据块中的其他数据点找到一个数据点,与已找到的中心点距离之和最大,以此类推,直到找到所有的中心点;
(3)对每个数据块进行聚类处理,聚类过程中,快速动态时间弯曲距离采用动态规划方法,通过拉伸或压缩一部分时间序列数据匹配两个时间序列数据,(4)当中心点不再变化时停止迭代;
(5)迭代结束后得到聚类结果[U11,U12,...,U1t,...,U1c]和聚类中心点[v11,v12,...,v1t,...,v1c];
(6)当处理完第i-1个数据块后,为第i-1个数据块的中心点[v(i-1)1,v(i-1)2,...,v(i-1)t,...,v(i-1)c]中的每一个中心点赋予权重值wt,wt为整个数据块中的数据点隶属于聚类U(i-1)t的隶属度之和;将新得到的第i个数据块中的每个数据点赋予权重1,将赋过权重的第i-1个数据块的中心点和第i个数据块中的数据点组成新的数据块,对新数据块重新进行步骤(2)~(5)的操作,得到聚类结果[Ui1,Ui2,...,Uit,...,Uic]和聚类中心点[vi1,vi2,...,vit,...,vic],依次找到第i-1次聚类得到的中心点所在的聚类Uit,则类U(i-1)t中所有数据点都属于类Uit
(7)循环执行步骤(6),处理完最后一个数据块,即可得到就是最终的中心点和聚类结果。
2.基于权利要求1的一种面向时间序列数据的增量模糊c中心点聚类方法,其特征在于:在步骤(3)中,聚类处理时的目标函数为其中wk是第k个数据点被赋予的权重值,uik为数据点xk对聚类i的隶属度,,且vi代表一个聚类的中心点,且FDTWik(xk,vi)表示数据点xk和中心点vi之间的快速动态时间弯曲距离,c为聚类个数,n为数据点个数,m是隶属度指数,且m>1,vl为第l个聚类的中心点。
3.基于权利要求3的一种面向时间序列数据的增量模糊c中心点聚类方法,其特征在于:在步骤(3)中,FDTWik(xk,vi)表示数据点xk和中心点vi之间的快速动态时间弯曲距离,S=[a1,a2,a3,…,am]和Q=[b1,b2,b3,…,bm]是两个时间序列数据,构造一个m×n的矩阵K,其中K[0][0]=d11,其中dik为ai到bk的欧式距离,即dik=(ai-bk)2,则K[0][j]=K[0][j-1]+d1(j+1),K[j][0]=K[j-1][0]+d(j+1)1,K[i][j]=min(K[i-1][j],K[i][j-1],K[i-1][j-1])+d(i+1)(j+1),则FDTW=K[m-1][n-1],其中i,j满足以下约束条件:
CN201611058968.5A 2016-11-24 2016-11-24 一种面向时间序列数据的增量模糊c中心点聚类方法 Pending CN106778824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611058968.5A CN106778824A (zh) 2016-11-24 2016-11-24 一种面向时间序列数据的增量模糊c中心点聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611058968.5A CN106778824A (zh) 2016-11-24 2016-11-24 一种面向时间序列数据的增量模糊c中心点聚类方法

Publications (1)

Publication Number Publication Date
CN106778824A true CN106778824A (zh) 2017-05-31

Family

ID=58912704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611058968.5A Pending CN106778824A (zh) 2016-11-24 2016-11-24 一种面向时间序列数据的增量模糊c中心点聚类方法

Country Status (1)

Country Link
CN (1) CN106778824A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056753A1 (zh) * 2017-09-20 2019-03-28 东南大学 一种分布式光伏电站集群的动态等值建模方法
US20210132253A1 (en) * 2019-11-01 2021-05-06 Saudi Arabian Oil Company Automatic geological formations tops picking using dynamic time warping (dtw)
CN116703485A (zh) * 2023-08-04 2023-09-05 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056753A1 (zh) * 2017-09-20 2019-03-28 东南大学 一种分布式光伏电站集群的动态等值建模方法
US20210132253A1 (en) * 2019-11-01 2021-05-06 Saudi Arabian Oil Company Automatic geological formations tops picking using dynamic time warping (dtw)
US11914099B2 (en) * 2019-11-01 2024-02-27 Saudi Arabian Oil Company Automatic geological formations tops picking using dynamic time warping (DTW)
CN116703485A (zh) * 2023-08-04 2023-09-05 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及系统
CN116703485B (zh) * 2023-08-04 2023-10-20 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及系统

Similar Documents

Publication Publication Date Title
CN108389211B (zh) 基于改进鲸鱼优化模糊聚类的图像分割方法
CN100557626C (zh) 基于免疫谱聚类的图像分割方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN107203785A (zh) 多路径高斯核模糊c均值聚类算法
CN103888541B (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN108154158B (zh) 一种面向增强现实应用的建筑物图像分割方法
CN108615229B (zh) 基于曲率点聚类及决策树的碰撞检测优化方法
CN106778824A (zh) 一种面向时间序列数据的增量模糊c中心点聚类方法
CN104318271B (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
CN109740631A (zh) 基于对象的obia-svm-cnn遥感影像分类方法
CN109035289A (zh) 基于切比雪夫不等式h阈值的紫色土图像分割提取方法
CN111062425A (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN110390358A (zh) 一种基于特征聚类的深度学习方法
CN110738662A (zh) 基于细粒度医学图像分割与真值发现数据扩增的垂体瘤质地影像分级方法
CN107451617B (zh) 一种图转导半监督分类方法
CN111798526B (zh) 基于聚类空间映射的彩色图像主色快速提取方法及系统
CN104794732A (zh) 基于人工免疫网络聚类的灰度图像分割方法
CN108596186A (zh) 一种三维模型检索方法
CN115116139A (zh) 基于图卷积网络的多粒度人体动作分类方法
CN104574368B (zh) 一种自适应的核聚类图像分割方法
CN108510010A (zh) 一种基于预筛选的密度峰值聚类方法及系统
CN107798331A (zh) 离变焦图像序列特征提取方法和装置
Li et al. Ensemble of the deep convolutional network for multiclass of plant disease classification using leaf images
CN112509017A (zh) 一种基于可学习差分算法的遥感影像变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531