CN105139035A - 基于密度的聚类中心自动确定的混合属性数据流聚类方法 - Google Patents

基于密度的聚类中心自动确定的混合属性数据流聚类方法 Download PDF

Info

Publication number
CN105139035A
CN105139035A CN201510549212.XA CN201510549212A CN105139035A CN 105139035 A CN105139035 A CN 105139035A CN 201510549212 A CN201510549212 A CN 201510549212A CN 105139035 A CN105139035 A CN 105139035A
Authority
CN
China
Prior art keywords
bunch
micro
density
intensive
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510549212.XA
Other languages
English (en)
Inventor
陈晋音
何辉豪
陈军敢
杨东勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201510549212.XA priority Critical patent/CN105139035A/zh
Publication of CN105139035A publication Critical patent/CN105139035A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于密度的聚类中心自动确定的混合属性数据流聚类方法,包括以下步骤:1)初始化,对数据流中最初的Ninit个数据对象运用New-FSFDP算法进行聚类,生成最初的密集微簇,以初始化整个在线处理过程,将生成的所有密集微簇的平均半径作为最初的ε;2)在线维护过程;3)离线聚类过程。本发明提供一种精度较高、处理离群点能力良好的基于密度的聚类中心自动确定的混合属性数据流聚类方法。

Description

基于密度的聚类中心自动确定的混合属性数据流聚类方法
技术领域
本发明涉及一种数据聚类方法。
背景技术
随着通信技术和硬件设备的不断发展,数据流挖掘技术在实时监控系统、气象卫星遥感、网络通信量监测等方面有着巨大应用前景,针对数据流快速连续到达、持续增长的特点,传统聚类算法无法适用于数据流对象,数据流对聚类算法提出了如下新的要求:1.对自然簇个数无须假设;2.能够发现任意形状的簇;3.具有处理离群点的能力。而且面对现实中的大部分数据流都是混合属性数据流,其中既包含了数值属性数据和分类属性数据,如何有效的从这种混合属性的数据流中挖掘出具有价值的信息已显得尤为重要。
近年来数据聚类研究工作广泛展开,但现有的数据流聚类算法大部分局限于处理只具有数值属性的数据流,另外有少量算法局限于处理只有分类属性的数据流,针对混合属性数据流的算法较少。Aggarwal提出了进化数据流聚类框架CluStream,该算法首次采用了两阶段处理框架:在线的微聚类和离线的宏聚类。在线阶段算法提出了微簇的结构,不断对到达的数据点进行维护,生成概要信息。离线阶段算法负责相应的用户请求,根据概要数据生成最终聚类结果。该算法灵活的扩展性得到了广大的关注。但是CluStream算法也存在一些缺点:首先该算法不能处理任意形状的簇;其次对于噪声的适应性较差;并且需要人为指定聚类微簇的数量,严重影响了原始数据聚类的形状分布。曹峰提出了Den-Stream算法,该算法沿用了CluStream的两阶段处理框架,并将微簇分为潜在核心微簇和孤立点微簇结构,能够支持任意形状的聚类。但是由于Den-Stream算法采用全局一致的绝对密度作为参数,所以使得聚类结果对参数的选择非常敏感。针对Den-Stream算法问题,Tang[]提出了一种改进DenStream算法DenStream2,引入重叠因子的概念,有效解决了交叠微簇的归属问题。Zhang在顶级会议PKDD上首次提出了StrAP算法,该算法在AP算法的基础上改进,使之面向数据流对象,该算法将新到达的数据对象与当前模型匹配,匹配成功则更新微簇,否则将其视为噪声点放入暂存盒中。张建朋提出了StrDenAP算法,该算法在StrAP算法的基础上,借鉴了CluStream的两阶段框架,采用近邻传播算法,考虑数据到达时间对聚类结果的影响,算法能够取得较好的聚类效果。
鉴于现实中大部分数据流都是混合属性数据流,针对这一问题,杨春宇提出了HCluSteam算法,该算法采用CluStream提出的两层框架,对混合属性的分类属性部分,提出了微聚类的直方图表示方法,并利用泊松过程对样本到达的时间进行建模,能够处理混合属性数据,但该算法不能有效处理任意形状的簇,在线聚类由于维护分类属性频度直方图需要耗费大量时间。黄德才在HCluStream的基础上提出了MCStream算法,该算法使用两阶段框架,在在线微聚类中使用面向维度的距离来度量对象之间的相似度,宏聚类中使用改进的M-DBSCAN密度聚类算法进行最终聚类。该算法能够处理任意形状的簇,但由于面向维度的距离的参数是用户给出,且需要的参数较多,存在一定的局限性。
发明内容
为了克服已有混合属性数据流聚类算法聚类精度不高、处理离群点能力差的不足,本发明提供一种精度较高、处理离群点能力良好的基于密度的聚类中心自动确定的混合属性数据流聚类方法。
本发明解决其技术问题所采用的技术方案是:
一种基于密度的聚类中心自动确定的混合属性数据流聚类方法,所述聚类方法包括以下步骤:
1)初始化,对数据流中最初的Ninit个数据对象运用New-FSFDP算法进行聚类,生成最初的密集微簇,以初始化整个在线处理过程,将生成的所有密集微簇的平均半径作为最初的ε;
1.1根据混合属性占有分析结果对数据D确定相应的距离计算方式,以式ρi=Σjf(dij-dc)和式计算每个数据对象i的ρi和δi;其中ρi和δi分别代表数据对象i的密度和最小距离,dij表示数据对象di与数据对象dj之间的距离,dc为截断距离;
1.2得到ρi和δi的函数关系δi=f(ρi),根据回归分析中逆函数y=b0+b1/x来拟合此函数关系,令则y=b0+b1×x',则利用线性回归模型得到拟合δi=f(ρi)曲线;其中x是自变量,y是自变量x的函数,b1>0时,图像在一、三象限;b1<0时,图像在二、四象限;b0表示在y=b1/x的基础上,上移或下移的幅度;
1.3采用残差分析计算拟合函数的各残差分布特征,并求得k个奇异点集合(c1,c2,...,ck);
1.4将除簇类中心点外的其他点的类别标签与高于当前对象局部密度的最近邻对象的标签一致,从而对所有对象的类别进行标定;
1.5获得最初的密集微簇,并将所有密集微簇的平均半径作为最初的ε;
2)在线维护过程
2.1当新数据对象Xt到达时,则计算新数据对象到现有密集微簇dmc之间的距离,若d(Xt,dmc)<ε,则将该数据对象加入到该密集微簇dmc中,若新数据对象不能被现有的密集微簇所吸收,则计算新数据对象到现有的稀疏微簇smc之间的距离,若d(Xt,smc)<ε,则将该数据对象加入到该稀疏微簇smc中;若新到达的数据对象均不能被现有的密集微簇和稀疏微簇所吸收,则新建一个稀疏微簇,将该新数据对象加入到该稀疏微簇中;
2.2当新到达的对象被加入到相应的密集微簇或稀疏微簇中,则对相应的微簇特征向量进行更新;若新数据对象加入的微簇为稀疏微簇,则判断该稀疏微簇smc的密度值,若D(smc,t)>Dthred,说明该稀疏微簇smc已经发展成为一个密集微簇,从稀疏微簇集合中删除该smc,并加入到密集微簇集合中;
2.3将一个密集微簇衰减为稀疏微簇的最小时间作为检测的时间间隔,设置其检测时间TimeGap如下:
T i m e G a p = 1 &lambda; l o g ( D i h r e d D i h r e d - 1 ) - - - ( 1 )
其中Dthred是密度阈值,λ是衰减因子;
每隔TimeGap时间,对所有微簇进行检测,若密集微簇的密度不断衰减,而使得其密度值小于权值,即D(mc,Tc)<Dthred,则意味着该密集微簇已经退化为离群点噪声,将其删除释放空间来存储新的微簇;
3)离线聚类过程
3.1从在线部分存储的微簇汇总信息中寻找到一个密集微簇mc,以该微簇作为本次聚类的起始点开始聚类过程;
3.2按照广度优先搜索原则,寻找到密集微簇mc直接密度可达的微簇mci,然后对mci中的密集微簇继续进行广度优化搜索,直到所有到微簇mc密度可达的微簇都被搜索为止;
3.3当一次聚类过程结束时,从剩余的未聚类微簇中找出新的密集微簇,则重复3.1-3.2步骤继续聚类,若不存在任何未被聚类密集微簇,则跳到步骤3.4;
3.4输出离线聚类的最终结果,输出结果并结束。
进一步,所述步骤2.3中,对稀疏微簇的密度检测策略为:陈旧的微簇表明该聚类代表的模式已经过时,不能描述当前数据,即如果时,其中Tc表示当前时间,T0表示微簇创建时间,Tl表示微簇最后一次更新的时间,那么该微簇属于过期稀疏微簇,应当删除,θ是截断阈值。
或者是:所述步骤2.3中,对稀疏微簇的密度检测策略为:删除密度值过小的稀疏微簇,表明该稀疏微簇很可能是由噪声或野值引入的,不是主要模式,即如果稀疏微簇的密度D(mc,Tc)<ξ(Tc,T0),其中Tc表示当前时间,T0表示微簇创建时间,则该微簇是密度值过小的微簇,其中其中Tc表示当前时间,T0表示微簇创建时间,λ表示衰减因子,TimeGap表示检测时间间隔。
本发明的有益效果主要表现在:能够处理包含数值型和分类型属性的数据流,并且满足数据流符合任意形状分布,采用快速聚类的算法实现聚类中心自动确定,降低了聚类方法的参数敏感性问题。在真实数据集上的实验结果表明,该算法具有良好的适用性和可扩展性,能够有效的处理混合属性数据流,取得较好的聚类效果。
附图说明
图1是Str-FSDFP数据流聚类模型的示意图。
图2是样本数据分布与ρ和δ的分布图映射关系图。
图3是ACC算法整体框架图。
图4是New-FSFDP算法的流程图。
图5是对新到达的数据点维护流程图。
图6是删除策略流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图6,一种基于密度的聚类中心自动确定的混合属性数据流聚类方法,一种基于密度的聚类中心自动确定的混合属性数据流聚类方法,包括以下步骤:
1)初始化,对数据流中最初的Ninit个数据对象运用New-FSFDP算法进行聚类,生成最初的密集微簇,以初始化整个在线处理过程。将生成的所有密集微簇的平均半径作为最初的ε;
1.1根据混合属性占有分析结果对数据D确定相应的距离计算方式,以式ρi=Σjf(dij-dc)和式计算每个数据对象i的ρi和δi;其中ρi和δi分别代表数据对象i的密度和最小距离,dij表示数据对象di与数据对象dj之间的距离,dc为截断距离;
1.2得到ρi和δi的函数关系δi=f(ρi),根据回归分析中逆函数y=b0+b1/x来拟合此函数关系,令则y=b0+b1×x',则利用线性回归模型得到拟合δi=f(ρi)曲线;其中x是自变量,y是自变量x的函数,b1>0时,图像在一、三象限;b1<0时,图像在二、四象限;b0表示在y=b1/x的基础上,上移或下移的幅度;
1.3采用残差分析计算拟合函数的各残差分布特征,并求得k个奇异点集合(c1,c2,...,ck);
1.4将除簇类中心点外的其他点的类别标签与高于当前对象局部密度的最近邻对象的标签一致,从而对所有对象的类别进行标定;
1.5获得最初的密集微簇,并将所有密集微簇的平均半径作为最初的ε;
2)在线维护过程
2.1当新数据对象Xt到达时,则计算新数据对象到现有密集微簇dmc之间的距离,若d(Xt,dmc)<ε,则将该数据对象加入到该密集微簇dmc中,若新数据对象不能被现有的密集微簇所吸收,则计算新数据对象到现有的稀疏微簇smc之间的距离,若d(Xt,smc)<ε,则将该数据对象加入到该稀疏微簇smc中;若新到达的数据对象均不能被现有的密集微簇和稀疏微簇所吸收,则新建一个稀疏微簇,将该新数据对象加入到该稀疏微簇中;
2.2当新到达的对象被加入到相应的密集微簇或稀疏微簇中,则对相应的微簇特征向量进行更新。若新数据对象加入的微簇为稀疏微簇,则判断该稀疏微簇smc的密度值,若D(smc,t)>Dthred,说明该稀疏微簇smc已经发展成为一个密集微簇,从稀疏微簇集合中删除该smc,并加入到密集微簇集合中。
2.3将一个密集微簇衰减为稀疏微簇的最小时间作为检测的时间间隔,设置其检测时间TimeGap如下:
T i m e G a p = 1 &lambda; l o g ( D i h r e d D i h r e d - 1 ) - - - ( 2 )
其中Dthred是密度阈值,λ是衰减因子。
因此算法每隔TimeGap时间,对所有微簇进行检测。若密集微簇的密度不断衰减,而使得其密度值小于权值,即D(mc,Tc)<Dthred,则意味着该密集微簇已经退化为离群点噪声,算法将其删除释放空间来存储新的微簇,对稀疏微簇的密度检测策略分为两种情况:一种是陈旧的微簇,表明该聚类代表的模式已经过时,不能描述当前数据,即如果时,其中Tc表示当前时间,T0表示微簇创建时间,Tl表示微簇最后一次更新的时间。,那么该微簇属于过期稀疏微簇,应当删除。θ是截断阈值,经验设定为θ=ln(0.001)≈7。另一种情况为删除密度值过小的稀疏微簇,表明该稀疏微簇很可能是由噪声或野值引入的,不是主要模式,即如果稀疏微簇的密度D(mc,Tc)<ξ(Tc,T0),其中Tc表示当前时间,T0表示微簇创建时间,则该微簇是密度值过小的微簇,其中其中Tc表示当前时间,T0表示微簇创建时间,λ表示衰减因子,TimeGap表示检测时间间隔。
3)离线聚类过程
3.1从在线部分存储的微簇汇总信息中寻找到一个密集微簇mc,以该微簇作为本次聚类的起始点开始聚类过程;
3.2按照广度优先搜索原则,寻找到密集微簇mc直接密度可达的微簇mci,然后对mci中的密集微簇继续进行广度优化搜索,直到所有到微簇mc密度可达的微簇都被搜索为止;
3.3当一次聚类过程结束时,从剩余的未聚类微簇中找出新的密集微簇,则重复3.1-3.2步骤继续聚类,若不存在任何未被聚类密集微簇,则跳到步骤3.4。
3.4输出离线聚类的最终结果,输出结果并结束。
本实施例,首先定义本发明中使用的若干符号,待处理数据流是一个数据集D={X1,X2,…,Xi,…,}其中样本的到达时刻分别为T1,T2,…,Ti,….每一个样本具有d维属性,其中c维数值属性与b维分类属性,表示为其中Ci是由c维数值属性构成的向量,Bi是由b维分类属性构成的向量。
Str-FSFDP算法主要分为初始化、在线处理和离线聚类三个过程。初始化部分利用最初到达的数据对象,采用改进的FSFDP算法获得最初的微簇,初始化在线处理过程。在线部分动态更新微簇信息,利用衰减函数和微簇删除机制实时检测数据流变化。离线过程由用户调用,将某一时刻在线汇总信息进行聚类,针对用户查询给出相应聚类结果。通过在线/离线两个协调运作实现动态、快速地处理流型数据,很好的满足用户对数据流分析的需求。挖掘模型如图1所示。
定义1(数据密度)对于任意数据对象x,其到达时间戳为tc,则T(x)=tc。该数据对象的密度值D(x,t)定义如下:
D ( x , t ) = 2 - &lambda; ( t - T ( x ) ) = 2 - &lambda; ( t - t c ) - - - ( 3 )
其中λ∈(0,1)是衰减因子,控制历史数据的衰减程度。
定义2(微簇密度)对于任意微簇mc,假设在一个给定的时间t时刻,令E(mc,t)为在t时刻或t时刻之前被吸收到该微簇mc中的数据对象集合。则该微簇的密度D(mc,t)被定义为被吸收到微簇mc中的所有数据点的密度值之和。
D ( m c , t ) = &Sigma; x &Element; E ( m c , t ) D ( x , t ) - - - ( 4 )
定理1:假设微簇mc在时刻tn接收到一个新到达的数据对象,该微簇上一次接收到数据对象的时刻为tl(tl<tn),则此微簇的密度看可以由下面公式进行更新:
D ( m c , t n ) = 2 - 1 ( t n - t 1 ) D ( m c , t 1 ) + 1 - - - ( 5 )
由于微簇的密度不断变化,该定理使得微簇不必每时每刻对其密度值进行更新,仅在吸收新数据时更新其密度值,同时不必过多的存储单元中数据到达时刻的相关信息,很大程度上增加了算法的执行效率并减少了算法运行时间。
定理2.假设X(t)是从0时刻到t时刻到达的所有数据对象,可知所有数据对象的密度值之和不会超过则每个微簇的平均密度值不会超过其中N表示当前微簇的数目。
定义3(密集微簇和稀疏微簇)在t时刻,假设微簇mc中已经包含一个到达时间为Til,...,Tin的数据对象集合Xil,...,Xin,D(mc,t)是该微簇mc的密度值。对于给定的密度阈值μ(μ>1),若:
D ( m c , t ) &GreaterEqual; &mu; N ( 1 - 2 - &lambda; ) = D t h r e d - - - ( 6 )
则认为该微簇为密集微簇;否则,为稀疏微簇
定义4(微簇特征向量)微簇的特征由一个八元组(CF1,CF2,CF3,H(t),T0,Tl,D,Status)来表示,其中为数据对象数值属性的线性和。为数据对象数值属性的二阶线性和。为数据对象到微簇中心之间的分类属性部分距离之和。H(t)为分类属性的频度直方图,来保存分类属性的频度信息。T0记录微簇创建的时间,Tl记录微簇最后一次更新的时间。D为微簇最后一次更新的密度值。Status={Dense,Sparse}用来标记微簇是否为密集微簇。
微簇的中心由数值属性部分和分类属性部分组成,数值部分的中心由各维数值属性的均值表示,同时分类属性的中心由各维属性取值的频度最大值表示。因此可以通过得到数值属性部分的半径,而分类属性部分的半径由计算得到,最终微簇的半径R=R1+R2
定义5:数据对象到微簇间的数值属性部分距离定义如下:
d ( K , m c ) n = &Sigma; p = 1 r ( X i n p - C n p ) 2 - - - ( 7 )
其中C表示微簇数值属性部分的中心
定义6:任意数据点对象Xi的分类属性部分每一维的距离则采用二元化的方法,即Xi的第p维与微簇分类属性部分的中心的距离为:
d ( X i c p , C c p ) = 0 X i c p = C c p 1 X i c p &NotEqual; C c p - - - ( 8 )
则分类属性部分的距离为:
d ( X i , m c ) c = &Sigma; p = 1 q d ( X i c p , C n p ) - - - ( 9 )
混合属性数据流的初始化聚类:初始化算法根据规律:1.簇类中心被具有较低密度的邻居点包围,且与具有更高密度的其它数据对象有相对较大的距离。2.噪声点具有相对较小的密度,且与密度较高的数据对象有相对较大的距离。计算每个数据对象的密度和距离值,作出密度与距离的分布图,并从中确定数据的聚类中心,不需要预先设置聚类中心的数量,同时能够自动聚类中心的位置。等聚类中心确定后,将其余点按到最近邻的更高密度对象的最小距离进行划分,只需要一次划分就可以完成整个聚类过程,不需要迭代运算。本文的算法复杂度较低,同时算法借鉴σ值优化算法来确定σ的值,进而对本文σ值进行整定,使得算法具备一定的参数自适应性,不需要输入另外的参数。
算法对数据流中最初的Ninit个数据对象运用改进的FSFDP算法进行聚类,生成最初的密集微簇,以初始化整个在线处理过程。将生成的所有密集微簇的平均半径作为最初的ε。
New-FSFDP算法主要基于以下思想:
1.簇类中心被具有较低局部密度的邻居点包围,且与具有更高局部密度的其他数据对象有相对较大的距离。
2.噪声点具有较大的距离δ和相对较小的局部密度ρ。
对于任意一个数据数据对象i,需要计算两个量:数据对象的局部密度ρi和到具有更高局部密度的其他点的最小距离δi。局部密度和最小距离的计算依赖于预设的截断距离参数dc
定义7:对于任意数据对象i,其局部密度ρi的计算方式如下:
ρi=Σjf(dij-dc)(10)
f ( x ) = 1 x = d i j - d c < 0 0 e l s e - - - ( 11 )
局部密度ρi等价于数据对象i的dc领域内的数据对象个数。
定义8:对于任意数据对象i,其到具有更高局部密度的其他数据对象的最小距离定义δi如下:
&delta; i = min j : &rho; j > &rho; i ( d i j ) - - - ( 12 )
其中对于最优最高局部密度的数据点,定义它的
存在样本数据集DataSet2,其二维空间内数据分布如图2左图所示。计算样本数据集中每个数据对象i的局部密度ρi和到具有更高局部密度的其他点的最小距离δi,作出ρ和δ的分布图如图2右图所示。
数据集数据分布与数据对象ρ和δ分布存在如下映射关系:
图2左图中3个红点A1、A2、A3是原始数据分布中的三个簇的簇类中心,其在图2右图中分布具有较大的密度ρ和较大的距离δ。图2左图中三个黑点B1、B2、B3是远离簇的数据点,即离群点,其在图2右图中分布具有较大的距离δ和较小的密度ρ。而其他点称为边界点,均属于某个簇类,具有较小距离δ的性质。
根据上述映射关系,算法采用非线性函数y=b0+b1/x转换为线性函数去拟合,令则y=b0+b1*x′,利用线性函数模型拟合所有数据局部密度ρi和距离δi的函数关系使用残差分析确定ρ和δ的分布图中奇异点信息,其中奇异点为远离拟合曲线的点,即是聚类的簇中心,奇异点个数是聚类的簇个数。
ACC算法整体框架如图3所示。
回归分析确定聚类中心:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。线性回归模型建立基于以下前提假设:
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、随机误差项服从正态分布。
线性回归模型的前提假设符合高斯-马尔科夫定理,即求得的线性回归模型回归系数的最佳线性无偏估计就是最小方差估计
高斯-马尔科夫定理:在误差零均值,同方差,且互不相关的线性回归模型中,回归系数的最佳线性无偏估计(BLUE)就是最小方差估计。
推论1:令线性模型δ*=b0+b1的残差服从N(0,σ2)正态分布。
推论2:标准化残差服从N(0,1)标准正态分布。
定理1:对于任意残差均有一个置信度为1-α的置信区间[εi-σ*Zα/2,εi+σ*Zα/2],若残差εi在置信区间外,则对应的数据对象为奇异点,即为算法期望聚类中心。
证明:设残差为εi,其服从N(0,σ2)正态分布。
P = { | X &OverBar; - &mu; &sigma; 2 n | &le; Z &alpha; 2 } = 1 - &alpha;
P { - Z &alpha; 2 &le; X &OverBar; - &mu; &sigma; 2 n &le; Z &alpha; 2 } = 1 - &alpha;
P { - &sigma; n Z &alpha; 2 &le; X &OverBar; - &mu; &le; &sigma; n Z &alpha; 2 } = 1 - &alpha;
P { X &OverBar; - &sigma; n Z &alpha; 2 &le; &mu; &le; X &OverBar; + &sigma; n Z &alpha; 2 } = 1 - &alpha;
对于任意一个普通残差εi,则且n=1,得到:
P { &epsiv; i - &sigma; * Z &alpha; 2 &le; &mu; &le; &epsiv; i + &sigma; * Z &alpha; 2 } = 1 - &alpha;
则对于任意一个残差εi,认为其落在区间[εi-σ*Zα/2,εi+σ*Zα/2]内的可信度为(1-α)*100%。
若残差εi不在置信度为1-α的置信区间内,则认为对应的对象点为奇异点,即为算法期望的簇类中心。
α的设置影响置信区间的范围大小,α值越大,则置信度越小,置信区间越小,反之,则置信区间越大。由于聚类中心的密度和到更高密度点之间的最小距离相比其他数据点均较大,参考一般置信区间的精度要求和检验要求,置信区间的参数置信因子α的设置为0.05即可满足检验要求,若聚类中心与其簇中数据点的差异较小,则可以适当增大α的取值来获得准确的聚类中心。
New-FSFDP算法的流程图如图4所示。
在线微簇维护:由于数据流不断进化的特性,新的微簇不断出现,而旧微簇不断的衰减消亡。当前的数据对象到达时,将其优先加入到现有的密集微簇或稀疏微簇中,若新到的数据对象不能够被现有的微簇吸收,则新建一个稀疏微簇,将数据对象放入其中。
当新数据对象Xt到达时,则计算新数据对象到现有密集微簇dmc之间的距离,若d(Xt,dmc)<ε,则将该数据对象加入到该密集微簇dmc中,若新数据对象不能被现有的密集微簇所吸收,则计算新数据对象到现有的稀疏微簇smc之间的距离,若d(Xt,smc)<ε,则将该数据对象加入到该稀疏微簇smc中,并判断该稀疏微簇smc的密度值,若D(smc,t)>Dthred,说明该稀疏微簇smc已经发展成为一个密集微簇,从稀疏微簇集合中删除该smc,并加入到密集微簇集合中。若新到达的数据对象均不能被现有的密集微簇和稀疏微簇所吸收,则新建一个稀疏微簇,将该新数据对象加入到该稀疏微簇中。
对新到达的数据点维护流程图如5所示。
随着时间的推移,微簇数量会越来越多而消耗大量的内存空间,同时增大计算每个新到数据对象的时间消耗。因此,需要一种微簇删除机制来对微簇进行维护。
定理3:对于任意密集微簇退化为稀疏微簇的最短时间跨度为:
T i m e G a p = 1 &lambda; l o g ( D i h r e d D i h r e d - 1 ) - - - ( 13 )
因此,算法每隔TimeGap时间,对所有微簇进行检测。若密集微簇的密度不断衰减,而使得其密度值小于权值,则意味着该密集微簇已经退化为离群点噪声,算法将其删除释放空间来存储新的微簇。
删除策略主要考虑两种情况:一种是陈旧的微簇,表明该聚类代表的模式已经过时,不能描述当前的数据。另一种为密度值过小的微簇,表明该微簇很可能是由噪声或者野值引入的,不是主要模式。
算法每隔TimeGap时间,对所有微簇进行检测。若密集微簇的密度不断衰减,而使得其密度值小于权值,即D(g,Tc)<Dthred,则意味着该密集微簇已经退化为离群点噪声,算法将其删除释放空间来存储新的微簇。对稀疏微簇的密度检测策略分为两种情况:一种是陈旧的微簇,,即如果T-Tl>θ(Tl-T0)/D(g,Tl)时,那么该微簇属于过期稀疏微簇,应当删除。θ是截断阈值,经验设定为θ=ln(0.001)≈7。另一种情况为删除密度值过小的稀疏微簇,表明该稀疏微簇很可能是由噪声或野值引入的,不是主要模式,即如果稀疏微簇的密度D(g,Tc)<ξ(Tc,T0),则该微簇是密度值过小的微簇,其中
删除策略流程图如图6所示。
离线部分:根据某一时刻在线部分存储的微簇汇总信息,将每个微簇当做一个虚拟的点,利用改进的DBSCAN算法,从任意微簇出发遍历找到与其密度相连的微簇,将其聚成一类。
每一次离线聚类首次从在线部分储存的微簇汇总信息中寻找到一个密集微簇mc,以该密集微簇作为为本次聚类的起始点开始聚类,按照广度优先搜索原则,寻找到密集微簇直接密度可达的微簇,然后从这些微簇中搜索密集微簇,并继续进行广度优化搜索,直到所有到微簇mc密度可达的微簇到被搜索为止。当一次聚类过程结束时,从剩余的未聚类微簇中找出新的密集微簇,继续聚类,重复上面的步骤,直到剩余的微簇中不包含密集微簇为止。
Str-FSDFP算法整体流程:记动态数据流为DS,衰减系数为λ,密度阈值为Dthred,检测周期为TimeGap,聚类算法描述如下:
1)初始化微簇;应用新的FSFDP算法初始化在线聚类过程,得到初始的密集微簇;
当新的数据对象到达时,将其归类到当前微簇中;
2)更新微簇;执行算法1Process();
3)微簇衰减;一段时间内没有新的数据点到达时,其特征按照衰减函数衰减,否则更新微簇特征;
4)动态微簇维护;执行算法2Update();
5)若收到用户聚类请求,则转到6),否则转向2)重复执行;
6)离线聚类;执行离线聚类算法。

Claims (3)

1.一种基于密度的聚类中心自动确定的混合属性数据流聚类方法,其特征在于:所述聚类方法包括以下步骤:
1)初始化,对数据流中最初的Ninit个数据对象运用New-FSFDP算法进行聚类,生成最初的密集微簇,以初始化整个在线处理过程,将生成的所有密集微簇的平均半径作为最初的ε;
1.1根据混合属性占有分析结果对数据D确定相应的距离计算方式,以式ρi=Σjf(dij-dc)和式计算每个数据对象i的ρi和δi;其中ρi和δi分别代表数据对象i的密度和最小距离,dij表示数据对象di与数据对象dj之间的距离,dc为截断距离;
1.2得到ρi和δi的函数关系δi=f(ρi),根据回归分析中逆函数y=b0+b1/x来拟合此函数关系,令则y=b0+b1×x',则利用线性回归模型得到拟合δi=f(ρi)曲线;其中x是自变量,y是自变量x的函数,b1>0时,图像在一、三象限;b1<0时,图像在二、四象限;b0表示在y=b1/x的基础上,上移或下移的幅度;
1.3采用残差分析计算拟合函数的各残差分布特征,并求得k个奇异点集合(c1,c2,...,ck);
1.4将除簇类中心点外的其他点的类别标签与高于当前对象局部密度的最近邻对象的标签一致,从而对所有对象的类别进行标定;
1.5获得最初的密集微簇,并将所有密集微簇的平均半径作为最初的ε;
2)在线维护过程
2.1当新数据对象Xt到达时,则计算新数据对象到现有密集微簇dmc之间的距离,若d(Xt,dmc)<ε,则将该数据对象加入到该密集微簇dmc中,若新数据对象不能被现有的密集微簇所吸收,则计算新数据对象到现有的稀疏微簇smc之间的距离,若d(Xt,smc)<ε,则将该数据对象加入到该稀疏微簇smc中;若新到达的数据对象均不能被现有的密集微簇和稀疏微簇所吸收,则新建一个稀疏微簇,将该新数据对象加入到该稀疏微簇中;
2.2当新到达的对象被加入到相应的密集微簇或稀疏微簇中,则对相应的微簇特征向量进行更新;若新数据对象加入的微簇为稀疏微簇,则判断该稀疏微簇smc的密度值,若D(smc,t)>Dthred,说明该稀疏微簇smc已经发展成为一个密集微簇,从稀疏微簇集合中删除该smc,并加入到密集微簇集合中;
2.3将一个密集微簇衰减为稀疏微簇的最小时间作为检测的时间间隔,设置其检测时间TimeGap如下:
T i m e G a p = 1 &lambda; l o g ( D t h r e d D t h r e d - 1 ) - - - ( 11 )
其中Dthred是密度阈值,λ是衰减因子;
每隔TimeGap时间,对所有微簇进行检测,若密集微簇的密度不断衰减,而使得其密度值小于权值,即D(mc,Tc)<Dthred,则意味着该密集微簇已经退化为离群点噪声,将其删除释放空间来存储新的微簇;
3)离线聚类过程
3.1从在线部分存储的微簇汇总信息中寻找到一个密集微簇mc,以该微簇作为本次聚类的起始点开始聚类过程;
3.2按照广度优先搜索原则,寻找到密集微簇mc直接密度可达的微簇mci,然后对mci中的密集微簇继续进行广度优化搜索,直到所有到微簇mc密度可达的微簇都被搜索为止;
3.3当一次聚类过程结束时,从剩余的未聚类微簇中找出新的密集微簇,则重复3.1-3.2步骤继续聚类,若不存在任何未被聚类密集微簇,则跳到步骤3.4;
3.4输出离线聚类的最终结果,输出结果并结束。
2.如权利要求1所述的基于密度的聚类中心自动确定的混合属性数据流聚类方法,其特征在于:所述步骤2.3中,对稀疏微簇的密度检测策略为:陈旧的微簇表明该聚类代表的模式已经过时,不能描述当前数据,即如果时,其中Tc表示当前时间,T0表示微簇创建时间,Tl表示微簇最后一次更新的时间,那么该微簇属于过期稀疏微簇,应当删除,θ是截断阈值。
3.如权利要求1所述的基于密度的聚类中心自动确定的混合属性数据流聚类方法,其特征在于:所述步骤2.3中,对稀疏微簇的密度检测策略为:删除密度值过小的稀疏微簇,表明该稀疏微簇很可能是由噪声或野值引入的,不是主要模式,即如果稀疏微簇的密度D(mc,Tc)<ξ(Tc,T0),其中Tc表示当前时间,T0表示微簇创建时间,则该微簇是密度值过小的微簇,其中其中Tc表示当前时间,T0表示微簇创建时间,λ表示衰减因子,TimeGap表示检测时间间隔。
CN201510549212.XA 2015-08-31 2015-08-31 基于密度的聚类中心自动确定的混合属性数据流聚类方法 Pending CN105139035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510549212.XA CN105139035A (zh) 2015-08-31 2015-08-31 基于密度的聚类中心自动确定的混合属性数据流聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510549212.XA CN105139035A (zh) 2015-08-31 2015-08-31 基于密度的聚类中心自动确定的混合属性数据流聚类方法

Publications (1)

Publication Number Publication Date
CN105139035A true CN105139035A (zh) 2015-12-09

Family

ID=54724378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510549212.XA Pending CN105139035A (zh) 2015-08-31 2015-08-31 基于密度的聚类中心自动确定的混合属性数据流聚类方法

Country Status (1)

Country Link
CN (1) CN105139035A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976140A (zh) * 2016-04-27 2016-09-28 大连海事大学 大规模流式数据环境下的车货实时匹配方法
CN106093771A (zh) * 2016-08-16 2016-11-09 国网天津市电力公司 一种断路器分合闸线圈电流信号识别方法
CN107301328A (zh) * 2017-05-19 2017-10-27 浙江工业大学 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN107844408A (zh) * 2016-09-18 2018-03-27 中国矿业大学 一种基于层次聚类的相似执行路径生成方法
CN109255368A (zh) * 2018-08-07 2019-01-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109995611A (zh) * 2019-03-18 2019-07-09 新华三信息安全技术有限公司 流量分类模型建立及流量分类方法、装置、设备和服务器
CN110163255A (zh) * 2019-04-22 2019-08-23 济南大学 一种基于密度峰值的数据流聚类方法及装置
CN110852392A (zh) * 2019-11-13 2020-02-28 中国建设银行股份有限公司 一种用户分群方法、装置、设备和介质
CN111626321A (zh) * 2020-04-03 2020-09-04 河南师范大学 一种图像数据的聚类方法及装置
CN112633391A (zh) * 2020-12-29 2021-04-09 重庆电子工程职业学院 一种多分辨率数据聚类分析方法
CN113899971A (zh) * 2021-09-30 2022-01-07 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法
CN114648711A (zh) * 2022-04-11 2022-06-21 成都信息工程大学 一种基于聚类的云微粒子图像虚假目标滤除方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976140A (zh) * 2016-04-27 2016-09-28 大连海事大学 大规模流式数据环境下的车货实时匹配方法
CN105976140B (zh) * 2016-04-27 2019-10-11 大连海事大学 大规模流式数据环境下的车货实时匹配方法
CN106093771A (zh) * 2016-08-16 2016-11-09 国网天津市电力公司 一种断路器分合闸线圈电流信号识别方法
CN106093771B (zh) * 2016-08-16 2019-03-22 国网天津市电力公司 一种断路器分合闸线圈电流信号识别方法
CN107844408A (zh) * 2016-09-18 2018-03-27 中国矿业大学 一种基于层次聚类的相似执行路径生成方法
CN107301328A (zh) * 2017-05-19 2017-10-27 浙江工业大学 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN107301328B (zh) * 2017-05-19 2021-04-06 浙江工业大学 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN109255368A (zh) * 2018-08-07 2019-01-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109255368B (zh) * 2018-08-07 2023-12-22 平安科技(深圳)有限公司 随机选取特征的方法、装置、电子设备及存储介质
CN109995611A (zh) * 2019-03-18 2019-07-09 新华三信息安全技术有限公司 流量分类模型建立及流量分类方法、装置、设备和服务器
CN109995611B (zh) * 2019-03-18 2021-06-25 新华三信息安全技术有限公司 流量分类模型建立及流量分类方法、装置、设备和服务器
CN110163255A (zh) * 2019-04-22 2019-08-23 济南大学 一种基于密度峰值的数据流聚类方法及装置
CN110163255B (zh) * 2019-04-22 2021-11-16 济南大学 一种基于密度峰值的数据流聚类方法及装置
CN110852392A (zh) * 2019-11-13 2020-02-28 中国建设银行股份有限公司 一种用户分群方法、装置、设备和介质
CN111626321A (zh) * 2020-04-03 2020-09-04 河南师范大学 一种图像数据的聚类方法及装置
CN111626321B (zh) * 2020-04-03 2023-06-06 河南师范大学 一种图像数据的聚类方法及装置
CN112633391B (zh) * 2020-12-29 2023-09-29 重庆电子工程职业学院 一种多分辨率数据聚类分析方法
CN112633391A (zh) * 2020-12-29 2021-04-09 重庆电子工程职业学院 一种多分辨率数据聚类分析方法
CN113899971A (zh) * 2021-09-30 2022-01-07 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法
CN113899971B (zh) * 2021-09-30 2023-11-14 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法
CN114648711A (zh) * 2022-04-11 2022-06-21 成都信息工程大学 一种基于聚类的云微粒子图像虚假目标滤除方法
CN114648711B (zh) * 2022-04-11 2023-03-10 成都信息工程大学 一种基于聚类的云微粒子图像虚假目标滤除方法

Similar Documents

Publication Publication Date Title
CN105139035A (zh) 基于密度的聚类中心自动确定的混合属性数据流聚类方法
CN104914807B (zh) 在过程中确定过程元素和测量值的关联关系和定线
WO2019149147A1 (zh) 一种基于煤炭资源开发的生态地质环境类型划分方法
CN106651188A (zh) 一种输变电设备多源状态评估数据处理方法及其应用
CN108228724A (zh) 基于图数据库的电网gis拓扑分析方法及存储介质
CN106251625A (zh) 大数据环境下立体城市交通路网全局状态预测方法
CN102945516B (zh) 多级网络计划的进度分析方法
CN103678671A (zh) 一种社交网络中的动态社区检测方法
CN108051035A (zh) 基于门控循环单元的神经网络模型的管网漏损识别方法
CN109358582A (zh) 基于大数据的大采高综采工作面多设备协同作业控制方法
CN105574541A (zh) 一种基于紧密度排序的网络社区发现方法
CN107330589A (zh) 卫星网络协调风险的定量化评估方法及系统
CN115860529A (zh) 基于工业互联网的供应链碳核算系统
CN104636834B (zh) 一种改进的联合概率规划模型系统优化方法
CN109194534A (zh) 面向物联网设备群体的调度与管理方法
Samantaray et al. Modelling response of infiltration loss toward water table depth using RBFN, RNN, ANFIS techniques
CN114429053A (zh) 流域尺度wefe系统适配性模拟优化方法
CN104219088A (zh) 一种基于Hive的网络告警信息OLAP方法
CN108182382A (zh) 基于图相似的行为识别方法及系统
Bajracharya et al. Hydrologic similarity based on width function and hypsometry: An unsupervised learning approach
Li et al. Prediction of grain yield in Henan Province based on grey BP neural network model
Wang et al. Discussion on the prediction of engineering cost based on improved BP neural network algorithm
Ghesmoune et al. G-stream: Growing neural gas over data stream
CN113282797B (zh) 一种采用并行排序构建水库调度网络节点拓扑关系的方法
CN103905993A (zh) 一种基于室内定位的区域误判解决方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209

RJ01 Rejection of invention patent application after publication