CN105404892A - 一种用于序列数据分割的有序模糊c均值聚类方法 - Google Patents

一种用于序列数据分割的有序模糊c均值聚类方法 Download PDF

Info

Publication number
CN105404892A
CN105404892A CN201510702441.0A CN201510702441A CN105404892A CN 105404892 A CN105404892 A CN 105404892A CN 201510702441 A CN201510702441 A CN 201510702441A CN 105404892 A CN105404892 A CN 105404892A
Authority
CN
China
Prior art keywords
data segment
sample point
data
degree
repartition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510702441.0A
Other languages
English (en)
Other versions
CN105404892B (zh
Inventor
罗利佳
包士毅
毛剑峰
唐迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201510702441.0A priority Critical patent/CN105404892B/zh
Publication of CN105404892A publication Critical patent/CN105404892A/zh
Application granted granted Critical
Publication of CN105404892B publication Critical patent/CN105404892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于序列数据分割的有序模糊C均值聚类方法,包括以下步骤:(1)输入有序数据集;(2)选定聚类数目,对有序数据集进行初始分割,获得各数据段的初始聚类中心和伪边界以及样本点的初始隶属矩阵;(3)构造目标函数,在满足严格序列性约束的前提下,逐点对各数据段中前半段和后半段内样本点进行重新划分,并计算样本点重新划分后的隶属度;(4)迭代进行步骤(3)直至没有任何样本点的重新划分被接收;(5)输出最终的隶属度矩阵以及各数据段的聚类中心,完成序列数据分割。

Description

一种用于序列数据分割的有序模糊C均值聚类方法
技术领域
本发明涉及数据挖掘领域,是一种用于序列数据分割的有序模糊C均值聚类方法。
背景技术
随着大数据时代的来临,各行各业所产生的海量数据已成为一种宝贵的资源。深入挖掘海量数据中所隐藏的知识和信息,已经成为诸多领域共同的需求,这也促使了数据挖掘技术的产生。序列数据,或称轨迹数据,是一种特殊的数据存在形式。在序列数据中,各样本点按照一定的时空关系(轨迹)顺序生成,前面的样本点会影响到后面的样本点,因而各样本点之间并不相互独立。日常生产生活中的很多设备都会产生序列数据,如运动传感器、GPS、摄像机、电子笔、各类工业传感器等。为了挖掘序列数据中蕴含的数据模式,从而对其数据特征进行深入细致的分析,首先需要对序列数据进行分割或聚类,即依照某种规则将各样本点划分到不同的数据段或数据类,每个数据段内的样本点具有相似的特性,不同数据段之间的数据特征各不相同。
由于序列数据具有特定的序列性,其分割结果需满足以下两个条件才有物理意义:(1)分割后各样本点仍保持原来的顺序;(2)一个样本点只能归属于一个数据段或两个相邻的数据段。虽然传统的K均值聚类、模糊C均值聚类等方法可用于对序列数据进行分割,但由于这些传统聚类方法并不能处理数据的序列性,因而很可能将在序列上不相邻的样本点划分到同一数据段,从而打乱原始数据的序列结构,导致序列分割效果并不理想。在这种情况下,需对序列分割结果进行后处理以保持数据原始的序列性,效率低下。此外,K均值聚类方法对数据的分割是硬性的,不适合处理存在数据段边界重叠的情况。模糊C均值聚类方法虽以隶属度的方式将各样本点柔性地划分到多个数据段,但在处理序列数据时,并不能保证只将一个样本点划分到一个数据段或两个相邻的数据段,导致序列分割结果的物理意义难以解释。近年来,随着序列数据在各领域的大量涌现,为了便于分析这些序列数据的数据特征和数据模式,迫切需要有一种能够直接有效地对序列数据进行分割的方法。
发明内容
为了克服现有的聚类方法在对序列数据进行分割或聚类时存在分割效果不好、效率低、结果难以解释等不足,本发明提供了一种可应对序列数据的序列结构,效率高且分割效果好的有序模糊C均值聚类方法。该方法考虑到序列数据的序列性特点,通过对传统的模糊C均值聚类算法进行改进,在每个聚类步中施加序列性约束,聚类的同时保持样本点的原始顺序不变,并采用样本点逐个迭代优化策略,实现对序列数据最优的模糊分割。
本发明所采用的技术方案为:
一种用于序列数据分割的有序模糊C均值聚类方法,包括以下步骤:
(1)输入有序数据集;
(2)选定聚类数目,对有序数据集进行初始分割或聚类,获得各数据段的初始聚类中心和伪边界以及样本点的初始隶属度矩阵;
(3)构造目标函数,在满足严格序列性约束的前提下,逐点对各数据段中前半段和后半段内样本点进行重新划分,并计算样本点重新划分后的隶属度,如果由该样本点隶属度变化所引起的目标函数变化为负,接收这一重新划分,并更新该样本点的隶属度以及各数据段的聚类中心,继续重新划分当前数据段的下一个样本点,否则拒绝这一重新划分,跳转到下一数据段逐点进行重新划分;
(4)迭代进行步骤(3)直至没有任何样本点的重新划分被接收;
(5)输出最终的隶属度矩阵以及各数据段的聚类中心,完成序列数据分割。
其中,步骤(1)中所述的有序数据集为X={X1,X2,…,Xn},由依序产生的n个样本点Xj,j=1,…,n构成,样本点的形式可以是点、向量、矩阵或者高阶张量数据。
其中,步骤(2)中所述的聚类数目为c,对有序数据集X进行初始分割的方法如下:
①利用式(1)计算序列数据的累积长度Lj
Lj=Lj-1+||Xj-Xj-1||(1)
式中j(j=2,…,n)为样本点的索引,L1=0,||Xj-Xj-1||表示样本点Xj与样本点Xj-1之间的欧几里得距离;
②计算c个数据段的平均长度:λ=Ln/c;
③设定第一个数据段的伪左边界为b1=1;
④对于第i(i=2,…,c)个数据段,依次比较λ(i-1)与Lj(j=1,…,n)的大小,找到第一个满足λ(i-1)≤Lj的j,将第i个数据段的伪左边界设定为bi=j;
⑤利用式(2)确定第j个样本点Xj在第i个数据段中的初始隶属度uij(0≤uij≤1):
各样本点的隶属度需满足下列条件:
⑥计算各数据段的初始聚类中心mi
m i = Σ j = 1 n u i j s X j Σ j = 1 n u i j s
⑦所有样本点的隶属度uij构成c×n维的初始隶属度矩阵U。
其中,步骤(3)中所述的目标函数为:
J ( U , m 1 , ... , m c ) = Σ i = 1 c J i ( u i , m i ) = Σ i = 1 c Σ j = 1 n u i j s d i j 2 = Σ i = 1 c Σ j = 1 n u i j s | | X j - m i | | 2 - - - ( 3 )
式中Ji(ui,mi)为对应于第i(i=1,…,c)个数据段的子目标函数,ui为隶属度矩阵U的第i行,mi为第i个数据段的聚类中心,uij为样本Xj(j=1,…,n)在第i个数据段的隶属度,dij=||Xj-mi||为样本Xj与第i个聚类中心mi之间的欧几里德距离,s∈[1,∞)是一个加权指数。
其中,步骤(3)中所述的第i个数据段中前半段内的样本点是指样本索引j满足j∈[bi,bi+ni/2)的样本点,其中bi为第i个数据段的伪左边界,ni为第i个数据段内样本点的伪数目,对于i=1到c-1,ni的计算公式为:ni=bi+1-bi;对于i=c,nc的计算公式为:nc=n-bc,式中n为样本点的总数。第i(i<c)个数据段中后半段内的样本点是指样本索引j满足j∈[bi+ni/2,bi+1-1]的样本点,第c个数据段中后半段内的样本点是指样本索引j满足j∈[bc+nc/2,n]的样本点。
其中,步骤(3)中所述的严格序列性约束是指在对各数据段内的样本点逐点进行重新划分时,各数据段中前半段内从段首开始逐点重新划分,每个样本点只能重新划分到本数据段及其前一数据段,而各数据段中后半段内从段尾开始逐点重新划分,每个样本点只能重新划分到本数据段及其后一数据段。该序列性约束可以保证序列分割后各样本点的原始顺序保持不变。
其中,步骤(3)中所述的样本点重新划分后的隶属度的计算方法如下:
假设第j(j=1,…,n)个样本点Xj当前的隶属度为uij,与当前各数据段聚类中心mi(i=1,…,c)间的欧几里德距离为dij=||Xj-mi||,样本点Xj按照如下三种情况进行重新划分:
①如果Xj位于第1个数据段的前半段或第c个数据段的后半段,则Xj不会被重新划分;
②如果Xj位于第i(i≠1)个数据段的前半段,则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度为:
式中s为式(3)中定义的加权指数;
③如果Xj位于第i(i≠c)个数据段的后半段,则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度为:
式中s为式(3)中定义的加权指数。
其中,步骤(3)中所述的由样本点隶属度变化所引起的目标函数变化量的计算方法如下:
由样本点Xj隶属度变化所引起的各数据段的子目标函数Ji(ui,mi)(i=1,…,c)的变化量ΔJij为:
&Delta;J i j = ( 2 ( u ^ i j s - u i j s ) u i j s &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s + &Sigma; k = 1 , k &NotEqual; j n u i j s ( u ^ i j s - u i j s ) 2 + u ^ i j s ( &Sigma; k = 1 n u i k s ) 2 ( &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s ) - u i j s ) | | X j - m i | | 2 - - - ( 4 )
式中s为式(3)中定义的加权指数,uij为Xj重新划分之前在第i个数据段的隶属度,为Xj重新划分之后在第i个数据段的隶属度。当Xj按照上述第②种情况进行划分时,如果ΔJ(i-1)j+ΔJij≥0,拒绝Xj的重新划分;如果ΔJ(i-1)j+ΔJij<0,则接受Xj的重新划分以及Xj新的隶属度,并利用式(5)和式(6)更新各数据段的聚类中心(i=1,…,c)和第i个数据段的伪左边界
m ^ i = &Sigma; k = 1 , k &NotEqual; j n u i k s X k + u ^ i j s X j &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s - - - ( 5 )
b ^ i = b i + 1 - - - ( 6 )
当Xj按照上述第③种情况进行划分时,如果ΔJij+ΔJ(i+1)j≥0,拒绝Xj的重新划分;如果ΔJij+ΔJ(i+1)j<0,则接受Xj的重新划分以及Xj新的隶属度,并利用式(5)和式(7)更新各数据段的聚类中心(i=1,…,c)和第i+1个数据段的伪左边界
b ^ i + 1 = b i + 1 - 1 - - - ( 7 )
其中,步骤(5)中所述的最终的隶属度矩阵以及各数据段的聚类中心是指反复迭代步骤(3)直至没有任何样本点的重新划分被接收之前最后一步迭代所得的隶属度矩阵和各数据段的聚类中心。
本发明的有益效果在于:(1)可对序列数据进行模糊分割或聚类,实施简单,且分割效果好、效率高;(2)通过在每个聚类步中施加严格序列性约束,序列分割的同时保持样本点的原始顺序不变,无需对分割结果进行后处理;(3)采用样本点逐个迭代优化策略,实现对序列数据的最优模糊分割。
附图说明
图1是本发明以青霉素发酵过程的操作阶段划分问题为例进行实施的实施流程图;
图2是青霉素发酵过程操作阶段划分的结果图。
具体实施方式
下面结合附图对本发明的实施例作详细描述:
为了说明本方法对于多阶段间歇过程中操作阶段划分问题的有效性,本实施例以青霉素发酵过程的操作阶段划分为例进行实施。青霉素发酵过程的样本集由80个正常批次的发酵数据构成,每个批次包含13个过程变量,发酵周期为400小时,采样间隔为1小时。该样本集可表示为X={X1,X2,…,X400},其中每个样本点为Xj(80×13),j=1,…,400。如图1所示,具体划分步骤包括:
(1)输入间歇过程的样本集X
(2)选定间歇过程的操作阶段总数为c=6,对样本集X进行初始分割,获得各数据段,即操作阶段,的初始聚类中心mi和伪边界bi以及样本点的初始隶属度矩阵U,具体实现过程如下:
①计算序列数据的累积长度Lj
Lj=Lj-1+||Xj-Xj-1||
式中j(j=2,…,400)为样本点的索引,L1=0,||Xj-Xj-1||表示样本点Xj与样本点Xj-1之间的欧几里得距离;
②计算c个数据段的平均长度:λ=Ln/c;
③设定第一个数据段的伪左边界为b1=1;
④对于第i(i=2,…,c)个数据段,依次比较λ(i-1)与Lj(j=1,…,n)的大小,找到第一个满足λ(i-1)≤Lj的j,将第i个数据段的伪左边界设定为bi=j;
⑤确定第j个样本点Xj在第i个数据段中的初始隶属度uij(0≤uij≤1):
各样本点的隶属度需满足下列条件:
⑥计算各数据段的初始聚类中心mi
m i = &Sigma; j = 1 n u i j s X j &Sigma; j = 1 n u i j s
⑦所有样本点的隶属度uij构成c×n维的初始隶属度矩阵U。
(3)建立如下目标函数:
J ( U , m 1 , ... , m c ) = &Sigma; i = 1 c J i ( u i , m i ) = &Sigma; i = 1 c &Sigma; j = 1 n u i j s d i j 2 = &Sigma; i = 1 c &Sigma; j = 1 n u i j s | | X j - m i | | 2
式中Ji(ui,mi)为对应于第i(i=1,…,c)个数据段的子目标函数,ui为隶属度矩阵U的第i行,mi为第i个数据段的聚类中心,uij为样本Xj(j=1,…,n)在第i个数据段的隶属度,dij=||Xj-mi||为样本Xj与第i个聚类中心mi之间的欧几里德距离,s∈[1,∞)是一个加权指数。
逐点对各数据段中前半段和后半段内的样本点进行重新划分,其中各数据段中前半段内从段首开始逐点重新划分,每个样本点只能重新划分到本数据段及其前一数据段,而各数据段中后半段内从段尾开始逐点重新划分,每个样本点只能重新划分到本数据段及其后一数据段。计算样本点重新划分后的隶属度,如果由该样本点隶属度变化所引起的目标函数变化为负,接收这一重新划分,并更新该样本点的隶属度以及各数据段的聚类中心,继续重新划分当前数据段的下一个样本点,否则拒绝这一重新划分,跳转到下一数据段逐点进行重新划分,具体实现过程如下:
根据以下三种情况对样本点Xj进行重新划分:
①如果Xj位于第1个数据段的前半段或第c个数据段的后半段,则Xj不会被重新划分;
②如果Xj位于第i(i≠1)个数据段的前半段(即样本索引j满足j∈[bi,bi+ni/2),其中bi为第i个数据段的伪左边界,ni为第i个数据段内样本点的伪数目,对于i=2到c-1,ni的计算公式为:ni=bi+1-bi;对于i=c,nc的计算公式为:nc=n-bc,式中n为样本点的总数),则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度为:
式中dij=||Xj-mi||为样本点Xj与第i个聚类中心mi之间的欧几里德距离,s∈[1,∞)是一个加权指数;
③如果Xj位于第i(i≠c)个数据段的后半段(即样本索引j满足j∈[bi+ni/2,bi+1-1],其中bi为第i个数据段的伪左边界,ni=bi+1-bi为第i个数据段内样本点的伪数目),则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度为:
式中dij=||Xj-mi||为样本点Xj与第i个聚类中心mi之间的欧几里德距离,s∈[1,∞)是一个加权指数。
计算由样本点Xj重新划分所引起的各数据段的子目标函数Ji(ui,mi)(i=1,…,c)的变化量ΔJij
&Delta;J i j = ( 2 ( u ^ i j s - u i j s ) u i j s &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s + &Sigma; k = 1 , k &NotEqual; j n u i j s ( u ^ i j s - u i j s ) 2 + u ^ i j s ( &Sigma; k = 1 n u i k s ) 2 ( &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s ) - u i j s ) | | X j - m i | | 2
式中s∈[1,∞)是一个加权指数,uij为Xj重新划分之前在第i个数据段的隶属度,为Xj重新划分之后在第i个数据段的隶属度。当Xj按照上述第②种情况进行划分时,如果ΔJ(i-1)j+ΔJij≥0,拒绝Xj的重新划分;如果ΔJ(i-1)j+ΔJij<0,则接受Xj的重新划分以及Xj新的隶属度,并更新各数据段的聚类中心(i=1,…,c)和第i个数据段的伪左边界
m ^ i = &Sigma; k = 1 , k &NotEqual; j n u i k s X k + u ^ i j s X j &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s
b ^ i = b i + 1
当Xj按照上述第③种情况进行划分时,如果ΔJij+ΔJ(i+1)j≥0,拒绝Xj的重新划分;如果ΔJij+ΔJ(i+1)j<0,则接受Xj的重新划分以及Xj新的隶属度,并更新各数据段的聚类中心(i=1,…,c)和第i+1个数据段的伪左边界
m ^ i = &Sigma; k = 1 , k &NotEqual; j n u i k s X k + u ^ i j s X j &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s
b ^ i + 1 = b i + 1 - 1
(4)迭代进行步骤(3)直至没有任何样本点的重新划分被接收;
(5)输出步骤(4)中最后一次迭代所得的隶属度矩阵以及各数据段的聚类中心,完成青霉素发酵过程的操作阶段划分。
图2给出了青霉素发酵过程的操作阶段划分结果。可以看出采用本发明中的有序模糊C均值聚类方法可成功地将青霉素发酵过程划分为6个模糊操作阶段,它们沿发酵时间依次分布。操作阶段之间在首尾两端的重叠部分为操作阶段之间的过度区。在过度区内,青霉素发酵过程逐渐从一个操作模式过渡到另一个操作模式。

Claims (10)

1.一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:包括以下步骤:
(1)输入有序数据集;
(2)选定聚类数目,对有序数据集进行初始分割,获得各数据段的初始聚类中心和伪边界以及样本点的初始隶属度矩阵;
(3)构造目标函数,在满足严格序列性约束的前提下,逐点对各数据段中前半段和后半段内样本点进行重新划分,并计算样本点重新划分后的隶属度,如果由该样本点隶属度变化所引起的目标函数变化为负,接收这一重新划分,并更新该样本点的隶属度以及各数据段的聚类中心,继续重新划分当前数据段的下一个样本点,否则拒绝这一重新划分,跳转到下一数据段逐点进行重新划分;
(4)迭代进行步骤(3)直至没有任何样本点的重新划分被接收;
(5)输出最终的隶属度矩阵以及各数据段的聚类中心,完成序列数据分割。
2.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(1)中有序数据集为X={X1,X2,…,Xn},由依序产生的n个样本点Xj,j=1,…,n构成,样本点的形式可以是点、向量、矩阵或者高阶张量数据。
3.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(2)中选定的聚类数目为c,对有序数据集X进行初始分割的具体过程如下:
21.利用式(1)计算序列数据的累积长度Lj
Lj=Lj-1+||Xj-Xj-1||(1)
式中j(j=2,…,n)为样本点的索引,L1=0,||Xj-Xj-1||表示样本点Xj与样本点Xj-1之间的欧几里得距离;
22.计算c个数据段的平均长度:λ=Ln/c;
23.设定第一个数据段的伪左边界为b1=1;
24.对于第i(i=2,…,c)个数据段,依次比较λ(i-1)与Lj(j=1,…,n)的大小,找到第一个满足λ(i-1)≤Lj的j,将第i个数据段的伪左边界设定为bi=j;
25.利用式(2)确定第j个样本点Xj在第i个数据段中的初始隶属度uij(0≤uij≤1):
各样本点的隶属度需满足下列条件:
26.计算各数据段的初始聚类中心mi
m i = &Sigma; j = 1 n u i j s X j &Sigma; j = 1 n u i j s
27.所有样本点的隶属度uij构成c×n维的初始隶属度矩阵U。
4.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中的目标函数为:
J ( U , m 1 , ... , m c ) = &Sigma; i = 1 c J i ( u i , m i ) = &Sigma; i = 1 c &Sigma; j = 1 n u i j s d i j 2 = &Sigma; i = 1 c &Sigma; j = 1 n u i j s | | X j - m i | | 2 - - - ( 3 )
式中Ji(ui,mi)为对应于第i(i=1,…,c)个数据段的子目标函数,ui为隶属度矩阵U的第i行,mi为第i个数据段的聚类中心,uij为样本Xj(j=1,…,n)在第i个数据段的隶属度,dij=||Xj-mi||为样本Xj与第i个聚类中心mi之间的欧几里德距离,s∈[1,∞)是一个加权指数。
5.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中严格序列性约束是指在对各数据段内的样本点逐点进行重新划分时,各数据段中前半段内从段首开始逐点重新划分,每个样本点只能重新划分到本数据段及其前一数据段,而各数据段中后半段内从段尾开始逐点重新划分,每个样本点只能重新划分到本数据段及其后一数据段。
6.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中第i个数据段中前半段内的样本点是指样本索引j满足j∈[bi,bi+ni/2)的样本点,其中bi为第i个数据段的伪左边界,ni为第i个数据段内样本点的伪数目,对于i=1到c-1,ni的计算公式为:ni=bi+1-bi;对于i=c,nc的计算公式为:nc=n-bc,式中n为样本点的总数;第i(i<c)个数据段中后半段内的样本点是指样本索引j满足j∈[bi+ni/2,bi+1-1]的样本点,第c个数据段中后半段内的样本点是指样本索引j满足j∈[bc+nc/2,n]的样本点。
7.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中样本点重新划分后隶属度的计算方法如下:
假设第j(j=1,…,n)个样本点Xj当前的隶属度为uij,与当前各数据段聚类中心mi(i=1,…,c)间的欧几里德距离为dij=||Xj-mi||,样本点Xj按照如下三种情况进行重新划分:
31.如果Xj位于第1个数据段的前半段或第c个数据段的后半段,则Xj不会被重新划分;
32.如果Xj位于第i(i≠1)个数据段的前半段,则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度为:
式中s为式(3)中定义的加权指数;
33.如果Xj位于第i(i≠c)个数据段的后半段,则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度为:
式中s为式(3)中定义的加权指数。
8.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中由样本点隶属度变化所引起目标函数的变化量的计算方法如下:
由样本点Xj隶属度变化所引起的各数据段的子目标函数Ji(ui,mi)(i=1,…,c)的变化量ΔJij为:
&Delta;J i j = ( 2 ( u ^ i j s - u i j s ) u i j s &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s + &Sigma; k = 1 , k &NotEqual; j n u i k s ( u ^ i j s - u i j s ) 2 + u ^ i j s ( &Sigma; k = 1 n u i k s ) 2 ( &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s ) 2 - u i j s ) | | X j - m i | | 2 - - - ( 4 )
式中s为式(3)中定义的加权指数,uij为Xj重新划分之前在第i个数据段的隶属度,为Xj重新划分之后在第i个数据段的隶属度。
9.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中如果由该样本点隶属度变化所引起的目标函数变化为负,接收这一重新划分,继续重新划分当前数据段的下一个样本点,否则拒绝这一重新划分,跳转到下一数据段逐点进行重新划分,具体为:
当Xj按照上述第②种情况进行划分时,如果由式(4)计算得到的第i-1个和第i个数据段的子目标函数变化量之和满足ΔJ(i-1)j+ΔJij≥0,拒绝Xj的重新划分;如果ΔJ(i-1)j+ΔJij<0,则接受Xj的重新划分以及Xj新的隶属度,并利用式(5)和式(6)更新各数据段的聚类中心(i=1,…,c)和第i个数据段的伪左边界
m ^ i = &Sigma; k = 1 , k &NotEqual; j n u i k s X k + u ^ i j s X j &Sigma; k = 1 , k &NotEqual; j n u i k s + u ^ i j s - - - ( 5 )
b ^ i = b i + 1 - - - ( 6 )
当Xj按照上述第③种情况进行划分时,如果由式(4)计算得到的第i个和第i+1个数据段的子目标函数变化量之和ΔJij+ΔJ(i+1)j≥0,拒绝Xj的重新划分;如果ΔJij+ΔJ(i+1)j<0,则接受Xj的重新划分以及Xj新的隶属度,并利用式(5)和式(7)更新各数据段的聚类中心(i=1,…,c)和第i+1个数据段的伪左边界
b ^ i + 1 = b i + 1 - 1 - - - ( 7 ) .
10.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(5)中最终的隶属度矩阵以及各数据段的聚类中心是指反复迭代步骤(3)直至没有任何样本点的重新划分被接收之前最后一步迭代所得的隶属度矩阵和各数据段的聚类中心。
CN201510702441.0A 2015-10-23 2015-10-23 基于有序模糊c均值聚类的青霉素发酵过程阶段划分方法 Active CN105404892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510702441.0A CN105404892B (zh) 2015-10-23 2015-10-23 基于有序模糊c均值聚类的青霉素发酵过程阶段划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510702441.0A CN105404892B (zh) 2015-10-23 2015-10-23 基于有序模糊c均值聚类的青霉素发酵过程阶段划分方法

Publications (2)

Publication Number Publication Date
CN105404892A true CN105404892A (zh) 2016-03-16
CN105404892B CN105404892B (zh) 2019-10-29

Family

ID=55470367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510702441.0A Active CN105404892B (zh) 2015-10-23 2015-10-23 基于有序模糊c均值聚类的青霉素发酵过程阶段划分方法

Country Status (1)

Country Link
CN (1) CN105404892B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754010A (zh) * 2018-12-29 2019-05-14 北京化工大学 一种时序约束模糊聚类的间歇过程多模态划分方法
CN113695064A (zh) * 2021-10-28 2021-11-26 南通金驰机电有限公司 带有冷凝器的智能粉碎方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630376A (zh) * 2009-08-12 2010-01-20 江苏大学 多模型神经网络的生物发酵过程软测量建模方法及软仪表
US20130077837A1 (en) * 2010-03-29 2013-03-28 Galderma Research & Development Snc Fuzzy clustering algorithm and its application on carcinoma tissue
CN103970092A (zh) * 2014-04-13 2014-08-06 北京工业大学 一种基于自适应fcm的多阶段发酵过程故障监测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630376A (zh) * 2009-08-12 2010-01-20 江苏大学 多模型神经网络的生物发酵过程软测量建模方法及软仪表
US20130077837A1 (en) * 2010-03-29 2013-03-28 Galderma Research & Development Snc Fuzzy clustering algorithm and its application on carcinoma tissue
CN103970092A (zh) * 2014-04-13 2014-08-06 北京工业大学 一种基于自适应fcm的多阶段发酵过程故障监测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴家鑫: "基于主元分析-模糊C均值聚类优化黄霉素发酵过程", 《化学工程》 *
梁小凡等: "基于F C M 的青霉素发酵分时段统计建模及监控", 《计算机与应用化学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754010A (zh) * 2018-12-29 2019-05-14 北京化工大学 一种时序约束模糊聚类的间歇过程多模态划分方法
CN113695064A (zh) * 2021-10-28 2021-11-26 南通金驰机电有限公司 带有冷凝器的智能粉碎方法
CN113695064B (zh) * 2021-10-28 2021-12-28 南通金驰机电有限公司 带有冷凝器的智能粉碎方法

Also Published As

Publication number Publication date
CN105404892B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN109766950B (zh) 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法
CN101859383A (zh) 基于时间序列重要点分析的高光谱遥感图像波段选择方法
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN101980211A (zh) 一种机器学习模型及其建立方法
CN110442143B (zh) 一种基于组合多目标鸽群优化的无人机态势数据聚类方法
CN104732545A (zh) 结合稀疏近邻传播和快速谱聚类的纹理图像分割方法
CN107403239B (zh) 一种用于电力系统中控制设备的参数分析方法
CN102096672A (zh) 一种基于模糊粗糙模型的分类规则提取方法
CN106340004A (zh) 一种基于模糊聚类预处理云系的并行云迹风反演方法
CN108875826B (zh) 一种基于粗细粒度复合卷积的多分支对象检测方法
CN103995873A (zh) 一种数据挖掘方法及数据挖掘系统
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
CN105631465A (zh) 一种基于密度峰值的高效层次聚类方法
CN107133877B (zh) 网络中重叠社团的挖掘方法
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN105404892A (zh) 一种用于序列数据分割的有序模糊c均值聚类方法
Chaturvedi et al. An improvement in K-mean clustering algorithm using better time and accuracy
CN103605493A (zh) 基于图形处理单元的并行排序学习方法及系统
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
CN113378998A (zh) 一种基于机器学习的地层岩性随钻识别方法
CN103577589A (zh) 一种基于支持张量数据描述的离群数据检测方法
CN106874927A (zh) 一种随机强分类器的构建方法和系统
CN111310121A (zh) 一种新能源出力概率预测方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant