CN106056136A - 一种聚类中心快速确定的数据聚类方法 - Google Patents

一种聚类中心快速确定的数据聚类方法 Download PDF

Info

Publication number
CN106056136A
CN106056136A CN201610343213.3A CN201610343213A CN106056136A CN 106056136 A CN106056136 A CN 106056136A CN 201610343213 A CN201610343213 A CN 201610343213A CN 106056136 A CN106056136 A CN 106056136A
Authority
CN
China
Prior art keywords
value
data
point
data set
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610343213.3A
Other languages
English (en)
Inventor
陈晋音
林翔
郑海斌
保星彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610343213.3A priority Critical patent/CN106056136A/zh
Publication of CN106056136A publication Critical patent/CN106056136A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Abstract

一种聚类中心快速确定的聚类方法,包括以下步骤:1)读取原始数据集,通过占优分析选取相应的距离计算方法,求出整个数据集的距离矩阵;2)快速确定聚类中心;3)最优dc的选取,过程如下:3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,通过设定percent的值来计算出当前的dc值;3.2当dc被选定并得到聚类结果后,设计Fitness函数作为评价指标;3.3采用爬山算法选取最优dc;3.4输出最优dc以及最优dc时的聚类结果。本发明具有较高准确率、不同数据集聚类效果差异性较小和参数依赖性较小。

Description

一种聚类中心快速确定的数据聚类方法
技术领域
本发明属于数据分析技术,尤其涉及一种数据聚类方法。
背景技术
大数据技术的发展,随之产生的数据量高速增加,聚类分析作为对各种数据的分析的重要技术再次成为研究热点。聚类分析在金融、市场营销、信息检索、信息过滤、科学观测与工程等各个领域广泛应用。传统的聚类算法包括:基于划分的算法、基于层次的算法、基于密度的算法等。
基于划分的算法有k-means算法和PAM算法。其中k-means算法的相似度计算是根据一个簇中对象的平均值来进行。该算法的目标是根据输入参数k,将数据集划分成k个簇。算法采用迭代更新的方法:在每一轮中,依据k个参照点将其周围的点分别组成k个簇,而每个簇的质心将被作为下一轮迭代的参照点。迭代使得选取的参照点越来越接近真实的簇质心,所以聚类效果越来越好。PAM算法对所有的对象进行分析,把每个类中的一个对象看作中心点。对各种可能的组合,估算聚类结果的质量。PAM方法在小数据集上可以工作的很好,但是对于大数据集合处理效果并不理想。
基于层次的算法如BIRCH算法、CURE算法、ROCK算法等。BIRCH聚类算法是一个综合的层次聚类方法。它首先将数据集以一种紧凑的压缩格式存放,然后直接在压缩的数据集(而不是原始的数据集)上进行聚类,其I/O成本与数据集的大小呈线性关系。BIRCH特别适合大数据集,且支持增量聚类或动态聚类。算法扫描数据集一遍就可生成较好的聚类,增加扫描次数可用来进一步改进聚类质量。实验显示该算法具有对对象数目的线性伸缩性,及较好的聚类质量。但是如果簇不是球形的,BIRCH就不能很好地工作,因为它用了半径或直径的概念来控制聚类的边界。CURE算法采用了一种新颖的分层聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不是用单个质心或对象来代表一个簇,而是选择数据空间中多个具有代表性的点(代表点)来表示一个簇,并以一个收缩因子使它们向簇中心收缩,因而可以识别非球形及规模相差较大的簇,并有效抑制孤立点。
基于密度的算法有DBSCAN算法和PTICS算法。DBSCAN算法是基于密度聚类方法中的一个典型,它通过引入密度可达的概念,将大于某一密度的点定义为核心点。相邻核心点相互直接可达,所有相互可达的点形成一个聚类,而不属于任一类的点视为噪声数据。DBSCAN算法不进行任何的预处理而直接对整个数据集进行聚类操作。当数据量非常大时,就必须有大量内存支持,I/O消耗也非常大。其时间复杂度较高,聚类过程的大部分时间用在区域查询操作上。DBSCAN算法对参数Eps及Minpts非常敏感,且这两个参数很难确定。OPTICS算法是DBSCAN算法的一个扩展,它并不明确产生一个数据集的聚类,而是生成代表基于密度的聚类结构的一个参数化的数据库的排序。它包含的信息,等同于从一个宽广的参数设置范围所获得的基于密度的聚类,并且是自动聚类分析与交互聚类分析的基础。聚类的结果可以用图或者其他可视化技术来表示。
发明内容
针对现有的数据聚类方法存在的聚类中心需要人工确定、聚类准确率低、不同数据集聚类效果差异性大和参数依赖性大的不足,本发明提出了一种基于密度的聚类中心快速确定、具有较高准确率、不同数据集聚类效果差异性较小和参数依赖性较小的聚类中心快速确定的数据聚类方法。
本发明解决其技术问题所采用的技术方案是:
一种聚类中心快速确定的聚类方法,所述聚类方法包括以下步骤:
1)读取原始数据集,对数据集进行占优分析,通过占优分析选取相应的距离计算方法,使用该种距离计算方法求出整个数据集的距离矩阵,过程如下:
1.1若输入的数据集有p维数值属性的数据和q维分类属性的数据,则通过比较p和q的大小,将数据集分成数值占优型数据集和分类占优型数据集;
1.2根据占优分析得到的结果,采用相应的距离计算公式对该数据集进行计算,得到数据集的相似度距离矩阵;
2)快速确定聚类中心,过程如下:
2.1对于任意数据点i,通过公式ρi=∑f(dij-dc)和式δi=min(dij)(ρj≥ρi)计算出该数据点对象的ρi和δi,再根据公式γi=ρii计算出数据点的γi
2.2根据每个数据点的γ值做出关于γ的密度分布图,计算出γ的样本均值和样本方差,采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ2
2.3做出服从均值为μ,方差为σ2的正态分布曲线,用该曲线拟合γ的概率密度曲线,并根据正态分布的5σ原则划定置信区间;
2.4根据划定的置信区间筛选出落于置信区间外的奇异点,对这些点的ρ和δ进行归一化处理,得到ρ*和δ*,设置参数k,若对于奇异点i,存在则将该奇异点选为聚类中心点;
2.5根据求得的聚类中心点,采用将数据点i与密度高于它且离它最近的数据点归于一类的方法,将所有的数据点进行聚类划分,最终得到聚类结果;
3)最优dc的选取,过程如下:
3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,采用公式dc=dmin+(dmax-dmin)*percent/100,通过设定percent的值来计算出当前的dc值;
3.2当dc被选定并得到聚类结果后,为比较对于不同dc时聚类效果的好坏,设计Fitness函数作为评价指标;
Fitness由两部分组成:
F i t n e s s 1 = Σ j = 1 m [ Σ x i ∈ C j d ( x i , C j ) / | C j | ] m
F i t n e s s 2 = Σ j = 1 m [ Σ i = 1 , i ≠ j m d ( C i , C j ) / ( m - 1 ) ] m
其中,m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数;
Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离,根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令
F i t n e s s = F i t n e s s 2 F i t n e s s 1
对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好;
3.3采用爬山算法选取最优dc,设定percent的初始值和迭代次数,对当前的percent值进行3.1~3.2的操作,通过比较不同percent下的Fitness函数值来对当前的percent值进行更新,若满足迭代次数,则跳至3.4
3.4输出最优dc以及最优dc时的聚类结果。
进一步,所述步骤2.2中,对于μ和σ的计算作如下调整:
先求出样本均值为修正因数据缺失对μ和σ求取的偏差,引入参数n,设定阈值对于任意一个数据点i,若其值γi大于阈值,则将该数据点从μ和σ的计算中剔除;
对于所有的数据点进行筛选后,对剩余的数据点进行均值和方差的求取,记作和S,再利用矩估计计算出样本的μ和σ值;
根据对称性原则,在这里令n=2,即只选取区间内的点进行μ和σ的计算。
本发明的有益效果主要表现在:能够处理包含数值型和分类型属性的数据集,并且能识别出任意形状的类簇,采用快速聚类的算法实现聚类中心自动确定,降低了聚类方法的参数敏感性问题。在真实数据集上的实验结果表明,该算法具有良好的适用性和可扩展性,能够有效的处理相关的数据集,取得较好的聚类效果。
附图说明
图1是DataSet1的数据分布图与ρ和δ分布图,其中,左半部分为数据分布图,右半部分为数据对象的ρ和δ分布图。
图2是DataSet1确定聚类中心顺序图,其中,(a)为γ值密度分布图,(b)为对γ值拟合后的正态分布曲线;(c)为落于置信区间外的奇异点;(d)为决策图中的聚类中心。
图3是CCFD算法流程图。
图4是寻找最优dc方法流程图。
图5是CH-CCFDAC算法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图5,一种聚类中心快速确定的聚类方法,包括以下步骤:
1)读取原始数据集,对数据集进行占优分析,通过占优分析选取相应的距离计算方法,使用该种距离计算方法求出整个数据集的距离矩阵,过程如下:
1.1若输入的数据集有p维数值属性的数据和q维分类属性的数据,则通过比较p和q的大小,将数据集分成数值占优型数据集和分类占优型数据集。
1.2根据占优分析得到的结果,采用相应的距离计算公式对该数据集进行计算,得到数据集的相似度距离矩阵。
2)快速确定聚类中心,过程如下:
2.1对于任意数据点i,通过公式ρi=∑f(dij-dc)和式δi=min(dij)(ρj≥ρi)计算出该数据点对象的ρi和δi,再根据公式γi=ρii计算出数据点的γi
2.2根据每个数据点的γ值做出关于γ的密度分布图。计算出γ的样本均值和样本方差,采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ2
2.3做出服从均值为μ,方差为σ2的正态分布曲线,用该曲线拟合γ的概率密度曲线,并根据正态分布的5σ原则划定置信区间。
2.4根据划定的置信区间筛选出落于置信区间外的奇异点,对这些点的ρ和δ进行归一化处理,得到ρ*和δ*,设置参数k,若对于奇异点i,存在则将该奇异点选为聚类中心点。
2.5根据求得的聚类中心点,采用将数据点i与密度高于它且离它最近的数据点归于一类的方法,将所有的数据点进行聚类划分,最终得到聚类结果。
3)最优dc的选取
3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,采用公式dc=dmin+(dmax-dmin)*percent/100,通过设定percent的值来计算出当前的dc值。
3.2当dc被选定并得到聚类结果后,为比较对于不同dc时聚类效果的好坏,我们设计了一个Fitness函数作为评价指标。
Fitness由两部分组成:
F i t n e s s 1 = Σ j = 1 m [ Σ x i ∈ C j d ( x i , C j ) / | C j | ] m
F i t n e s s 2 = Σ j = 1 m [ Σ i = 1 , i ≠ j m d ( C i , C j ) / ( m - 1 ) ] m
其中m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数。
从上面两个公式可以看出,Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离。根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令
F i t n e s s = F i t n e s s 2 F i t n e s s 1
对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好。
3.3采用爬山算法选取最优dc。设定percent的初始值和迭代次数,对当前的percent值进行3.1~3.2的操作,通过比较不同percent下的Fitness函数值来对当前的percent值进行更新,若满足迭代次数,则跳至3.4。
3.4输出最优dc以及最优dc时的聚类结果。
所述步骤2.2中,对于一个数据集的γ密度分布图进一步分析,可以发现所有数据的γ值均为非负。在这一点上说明对于任意数据点i,其γ值的分布并非严格的正态分布,因为在γ值为负的区间内存在数据点的缺失。这将会对μ和σ的计算结果造成较大的影响。为能够准确地求取μ和σ,现对于μ和σ的计算作如下调整:
先求出样本均值为修正因数据缺失对μ和σ求取的偏差,引入参数n,设定阈值对于任意一个数据点i,若其值γi大于阈值,则将该数据点从μ和σ的计算中剔除。对于所有的数据点进行筛选后,对剩余的数据点进行均值和方差的求取,记作和S,再利用矩估计计算出样本的μ和σ值。根据对称性原则,在这里令n=2,即只选取区间内的点进行μ和σ的计算,从而有效地提高了μ值和σ值的准确性。
CH-CCFDAC主要分为相似度距离的计算,快速确定聚类中心的方法和寻找最优dc三个部分。相似度距离计算中,先根据数据集本身的数据性质将数据集分成分类占优型数据集和数值占优型数据集,再采用相应的距离公式计算出数据集的相似度距离矩阵。快速确定聚类中心时,用一条正态分布曲线对数据集γ值的概率密度函数进行拟合,并给定置信区间找出落于置信区间外的奇异点,再通过设定参数k剔除这些点中ρ和δ相对值相差过大的点,最终找出聚类中心并完成对所有数据点的聚类划分。计算最优dc时,使用爬山算法对不同的dc值进行迭代,在满足迭代次数时输出寻得的最优dc和该dc下的聚类结果。
对于给定的一个含n个数据的数据集D,其每个样本具有d维属性,其中包含p维数值属性和q维分类属性,容易得到d=p+q。现根据p和q的大小对数据集进行占优分析。
1)若p>q,则该数据集为数值占优数据集。
2)若p<q,则该数据集为分类占优数据集。
3)若p=q,则该数据集为均衡属性数据集。
对于占优分析结果不同的数据集,我们采用不同的相似度计算方法来求取数据之间的距离。
对于一个包含n条数据的数据集D={A1,A2,…,An},其样本Ai具有d维属性用d(Ai,Aj)n表示数值属性部分的距离,用d(Ai,Aj)c表示分类属性部分的距离,则:
1)若数据集D是数值属性占优数据集,则对于任意两个对象Ai和Aj有:
d ( A i , A j ) n = &Sigma; k = 1 p ( A i k - A j k ) 2 - - - ( 1 )
对于分类属性每一维的距离采用二元化方法,如对于Ai和Aj的第k维分类属性,有:
d ( A i k , A j k ) = 0 , ( A i k = A j k ) 1 , ( A i k &NotEqual; A j k ) - - - ( 2 )
分类属性的总距离为:
d ( A i , A j ) c = &Sigma; k = 1 q d ( A i k , A j k ) - - - ( 3 )
2)若数据集D是分类属性占优数据集,则对于第k维的数值属性,有:
d ( A i k , A j k ) = | A i k - A j k A max k - A m i n k | - - - ( 4 )
其中分别表示该维样本数据的最大值和最小值。
数值属性的总距离为:
d ( A i , A j ) n = &Sigma; k = 1 p d ( A i k , A j k ) - - - ( 5 )
其分类属性的计算距离方式和数值型占优数据集中分类属性的计算距离方式相同。
3)若数据集D是均衡属性数据集,则对不同维度的数据进行权重分析,最终划分至数值属性占优数据集或分类属性占优数据集,再按上述距离计算公式进行距离的计算。
对于数值属性占优数据集,当数值属性维度的样本值较大时,可以有效减少分类属性距离对总体相似度计算的影响;而对于分类属性占优数据集,任何数值属性维度上的距离均被限制在区间[0,1]内,防止了一些数值属性维度的样本值过大而导致分类属性距离被忽略,使计算结果更加合理准确。
定义1:对于任意数据对象i,其局部密度计算方法为
ρi=∑f(dij-dc) (6)
f ( x ) = { 1 x = d i j - d c < 0 0 x = d i j - d c > 0 - - - ( 7 )
其中,dij表示点i和j之间的距离。
定义2:对于任意对象,其到局部密度比它大的点的最近距离
δi=min(dij) (ρj≥ρi) (8)
对于ρ值最大的点,存在
δi=max(δj) (i≠j) (9)
参照图1,设计一个横坐标为ρ,纵坐标为δ的二维坐标系,根据每个点的ρi和δi做出一张二维的ρ-δ分布图。例如,对于样本数据对象DataSet1,其分布图如图1左半部分所示,其相应的ρ-δ图如图1右半部分所示。其中,A1、A2、A3是图1左半部分中的三个聚类中心,他们在图1左半部分的ρ-δ图中表现出了较大的ρ值和δ值;B1、B2、B3是图1左半部分中的三个噪声点,其在图1右半部分中对应密度ρ较小而距离δ较大的点;对于其他点,称其为边界点,它们均属于某一个类簇,但表现出较小的δ值。
基于以上对ρ-δ图的分析,本专利引入变量γ,对于任意一个数据点i,其γ定义为:
γi=ρii (10)
根据γ的概率分布情况,对于该γ的分布进行曲线的拟合,发现其图形的拟合曲线形状类似于一条正态分布曲线。现利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息,此处奇异点表示落在置信区间以外的点,即是聚类的聚类中心,奇异点的个数代表了聚类中心的个数。
定义:若随机变量X服从一个数学期望为μ、方差为σ2的高斯分布,记为N(μ,σ2)。其概率密度函数为正态分布函数。
实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。比例轴与正态曲线之间的面积恒等于1,不同范围内正态曲线下的面积可用公式计算。正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-2σ,μ+2σ)内的面积为95.449974%,横轴区间(μ-3σ,μ+3σ)内的面积为99.730020%,横轴区间(μ-5σ,μ+5σ)内的面积为99.99999999%≈1。在样本容量满足不是充分大的条件下,可认为随机变量的X的所有取值包含在区间(μ-5σ,μ+5σ)内,将该区间称为置信区间,未落在该区间内的点即为不服从该正态分布的奇异点。
定理1:对于任意一条正态分布曲线,存在一个置信区间(μ-5σ,μ+5σ),在样本不是充分大时,若数据点落于该区间外,则认为该数据点为奇异点,即可将该数据点视为算法所提取出的聚类中心。
对于任意数据点i,现假设其对应的γi均是服从均值为μ,标准差为σ的随机正态分布,记作γi~N(μ,σ2)。首先计算出样本均值和样本方差S,再根据矩估计原理,则可得:
&mu; = x &OverBar; , &sigma; = N - 1 N s - - - ( 11 )
对于一个数据集的γ密度分布图进一步分析,可以发现所有数据的γ值均为非负。在这一点上说明对于任意数据点i,其γ值的分布并非严格的正态分布,因为在γ值为负的区间内存在数据点的缺失。这将会对公式(11)的结果造成较大的影响。为能够准确地求取μ和σ,现对于μ和σ的计算作如下调整:
先求出样本均值为修正因数据缺失对μ和σ求取的偏差,引入参数n,设定阈值对于任意一个数据点i,若其值γi大于阈值,则将该数据点从μ和σ的计算中剔除。对于所有的数据点进行筛选后,对剩余的数据点进行均值和方差的求取,记作和S,再利用公式(11)计算出样本的μ和σ值。
上述方法通设定参数n来剔除一些γ值较大的点,目的是为了解决因为γ<0区间上数据点的缺失而对原本的μ和σ值造成影响的问题。根据对称性原则,在这里令n=2,即只选取区间内的点进行μ和σ的计算,从而有效地提高了μ值和σ值的准确性。
求出μ和σ的值后,我们就能得到一条正态分布曲线,现在根据正态分布的5σ原则选取置信区间以找出奇异点。具体方法为:
设置边界值Wide=μ+5σ,将数据集中所有点的γ值与Wide进行比较。对于数据点i,若γi>Wide,则标记i为奇异点。
考虑到奇异点中可能存在ρ和δ的相对指标相差较大的点,故在
此还需对奇异点进行一次筛选以确定最终的聚类中心个数。筛选方法为:
将奇异点的ρ和δ做归一化处理得到ρ*和δ*,设置参数k,若对于奇异点i,存在则将该奇异点选为聚类中心点。
以DataSet1数据集为例,图2展示了运用CCFD算法自动确定聚类中心的主要流程。首先根据每个数据点的γ值做出数据集关于γ的密度分布图(图2(a));接着按照上文所述方法求出用于拟合γ密度分布的正态分布曲线,并根据正态分布曲线确定置信区间(图2(b));通过置信区间从密度分布图中筛选出落在置信区间以外的奇异点A1,A2,A3(图2(c));最后在决策图中,做出斜率分别为k和1/k的两条直线,选取落在两条直线之间的奇异点作为真正的聚类中心(图2(d))。此处k=3,通过实验数据集分析,一般k=3时能有效排除奇异点中的干扰信息,较为准确地选出真正的聚类中心。
CCFD算法的具体流程图如图3所示。
当参数dc确定时,通过采取自动聚类中心的方法就能有效地提取出聚类中心并进行聚类。因此最优dc的选取显得十分重要。为选取合适的dc,我们先从所有数据点间的距离中选出最大距离dmax和最小距离dmin,引入参数percent,令
dc=dmin+(dmax-dmin)*percent/100 (12)
Dc确定后,利用CCFD算法自动选取聚类中心,并根据每个点的ρ和δ值,将数据点按照将其与ρ值大于该数据点且与该数据点的δ值最小的数据点归于一类的原则进行划分聚类,从而得到聚类结果。
得到聚类结果后,为比较对于不同dc时聚类效果的好坏,我们设计了一个Fitness函数作为评价指标。
Fitness由两部分组成:
F i t n e s s 1 = &Sigma; j = 1 m &lsqb; &Sigma; x i &Element; C j d ( x i , C j ) / | C j | &rsqb; m - - - ( 13 )
F i t n e s s 2 = &Sigma; j = 1 m &lsqb; &Sigma; i = 1 , i &NotEqual; j m d ( C i , C j ) / ( m - 1 ) &rsqb; m - - - ( 14 )
其中m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数。
从公式(13)和公式(14)可以看出,Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离。根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令
F i t n e s s = F i t n e s s 2 F i t n e s s 1 - - - ( 15 )
对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好。
将dc的设定转化为percent的取值,且percent的取值范围为1%~20%。现利用爬山算法在该范围内寻找出最优dc。方法的流程图如图4所示。具体的步骤描述为:
Step1:读取数据集的相似度距离矩阵;
Step2:设置percent的初始值Po和迭代半径r,计算出此时的dc值;
Step3:计算出percent为Po、Po+r和Po-r时各自的Fitness值;
Step4:选取Fitness值最大的percent作为临时的最优percent,记为Ptbest,并使迭代半径减小0.5%(r=r-0.5);
Step5:判断r是否为0,若r≠0,则跳到Step2,用Ptbest代替Po进行计算;若r=0,则停止迭代,此时令全局最优半径Pbest=Ptbest,即得到最优dc
其具体流程图如图4所示。
该方法的迭代次数ξ的计算公式为:
&xi; = r 0.5 * 2 + 1 - - - ( 16 )
循环次数ζ为:
&zeta; = r 0.5 + 1 - - - ( 17 )
CH-CCFDAC的主要思想是:首先对参与聚类的数据集进行处理,得到了不同数据点之间的相似度距离,构成了数据集的相似度距离矩阵;然后调用CCFD算法,在给定参数dc时进行聚类中心的自动选取,并以聚类中心为起点对其他所有的数据点进行划分聚类;为衡量数据集在给定dc状态下的聚类质量,我们设计了Fitness函数作为聚类效果好坏的评价指标,采用爬山算法对dc进行迭代,选取使Fitness取得最大值时的dc作为最优dc,最终输出最优dc下的聚类结果。
CH-CCFDAC总体的算法流程图如图5所示,其具体步骤为:
步骤1:对输入的数据集进行占优分析,并根据占优分析的结果使用相应的相似度计算公式计算出数据集的相似度距离矩阵。
步骤2:设定dc的初始值,并调用CCFD算法进行第一次快速聚类。
步骤3:调用爬山算法对dc进行迭代,通过公式(13-15)计算出每个dc对应的Fitness函数值,通过比较Fitness函数值的大小对最优dc进行更新。
步骤4:获得最优dc,输出最优dc下的最终聚类结果。

Claims (2)

1.一种聚类中心快速确定的聚类方法,其特征在于:所述聚类方法包括以下步骤:
1)读取原始数据集,对数据集进行占优分析,通过占优分析选取相应的距离计算方法,使用该种距离计算方法求出整个数据集的距离矩阵,过程如下:
1.1若输入的数据集有p维数值属性的数据和q维分类属性的数据,则通过比较p和q的大小,将数据集分成数值占优型数据集和分类占优型数据集;
1.2根据占优分析得到的结果,采用相应的距离计算公式对该数据集进行计算,得到数据集的相似度距离矩阵;
2)快速确定聚类中心,过程如下:
2.1对于任意数据点i,通过公式ρi=∑f(dij-dc)和式δi=min(dij)(ρj≥ρi)计算出该数据点对象的ρi和δi,再根据公式γi=ρii计算出数据点的γi
2.2根据每个数据点的γ值做出关于γ的密度分布图,计算出γ的样本均值和样本方差,采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ2
2.3做出服从均值为μ,方差为σ2的正态分布曲线,用该曲线拟合γ的概率密度曲线,并根据正态分布的5σ原则划定置信区间;
2.4根据划定的置信区间筛选出落于置信区间外的奇异点,对这些点的ρ和δ进行归一化处理,得到ρ*和δ*,设置参数k,若对于奇异点i,存在则将该奇异点选为聚类中心点;
2.5根据求得的聚类中心点,采用将数据点i与密度高于它且离它最近的数据点归于一类的方法,将所有的数据点进行聚类划分,最终得到聚类结果;
3)最优dc的选取,过程如下:
3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,采用公式dc=dmin+(dmax-dmin)*percent/100,通过设定percent的值来计算出当前的dc值;
3.2当dc被选定并得到聚类结果后,为比较对于不同dc时聚类效果的好坏,设计Fitness函数作为评价指标;
Fitness由两部分组成:
F i t n e s s 1 = &Sigma; j = 1 m &lsqb; &Sigma; x i &Element; C j d ( x i , C j ) / | C j | &rsqb; m
F i t n e s s 2 = &Sigma; j = 1 m &lsqb; &Sigma; i = 1 , i &NotEqual; j m d ( C i , C j ) / ( m - 1 ) &rsqb; m
其中,m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数;
Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离,根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令
F i t n e s s = F i t n e s s 2 F i t n e s s 1
对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好;
3.3采用爬山算法选取最优dc,设定percent的初始值和迭代次数,对当前的percent值进行3.1~3.2的操作,通过比较不同percent下的Fitness函数值来对当前的percent值进行更新,若满足迭代次数,则跳至3.4
3.4输出最优dc以及最优dc时的聚类结果。
2.如权利要求1所述的一种聚类中心快速确定的聚类方法,其特征在于:所述步骤2.2中,对于μ和σ的计算作如下调整:
先求出样本均值为修正因数据缺失对μ和σ求取的偏差,引入参数n,设定阈值对于任意一个数据点i,若其值γi大于阈值,则将该数据点从μ和σ的计算中剔除;
对于所有的数据点进行筛选后,对剩余的数据点进行均值和方差的求取,记作和S,再利用矩估计计算出样本的μ和σ值;
根据对称性原则,在这里令n=2,即只选取区间内的点进行μ和σ的计算。
CN201610343213.3A 2016-05-20 2016-05-20 一种聚类中心快速确定的数据聚类方法 Pending CN106056136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610343213.3A CN106056136A (zh) 2016-05-20 2016-05-20 一种聚类中心快速确定的数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610343213.3A CN106056136A (zh) 2016-05-20 2016-05-20 一种聚类中心快速确定的数据聚类方法

Publications (1)

Publication Number Publication Date
CN106056136A true CN106056136A (zh) 2016-10-26

Family

ID=57177631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610343213.3A Pending CN106056136A (zh) 2016-05-20 2016-05-20 一种聚类中心快速确定的数据聚类方法

Country Status (1)

Country Link
CN (1) CN106056136A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273915A (zh) * 2017-05-17 2017-10-20 西北工业大学 一种局部信息与全局信息融合的目标分类识别方法
CN107291873A (zh) * 2017-06-16 2017-10-24 晶赞广告(上海)有限公司 地理位置聚类方法
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN108229419A (zh) * 2018-01-22 2018-06-29 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108446738A (zh) * 2018-03-23 2018-08-24 联想(北京)有限公司 一种聚类方法、装置及电子设备
CN108984702A (zh) * 2018-07-06 2018-12-11 深圳市卓帆技术有限公司 试题比对方法及系统
CN109962982A (zh) * 2019-03-29 2019-07-02 中海生态环境科技有限公司 一种基于物联网的河湖水生态环境监控系统
CN110544047A (zh) * 2019-09-10 2019-12-06 东北电力大学 一种不良数据辨识方法
CN110826623A (zh) * 2019-11-04 2020-02-21 深圳雷霆应急科技有限公司 基于气象数据的分类方法、装置、计算机设备及存储介质
CN112215297A (zh) * 2020-10-21 2021-01-12 山东纬横数据科技有限公司 基于因子分析的生产制造数据分层聚类方法
CN112488196A (zh) * 2020-11-30 2021-03-12 青岛科技大学 一种轨迹数据参数自适应的聚类方法
CN113258567A (zh) * 2021-06-03 2021-08-13 安徽新力电业科技咨询有限责任公司 基于混合聚类算法的电网关键输电断面确定方法及系统
CN113288122A (zh) * 2021-05-21 2021-08-24 河南理工大学 一种可穿戴坐姿监测装置和坐姿监测方法
CN113918785A (zh) * 2021-10-11 2022-01-11 广东工业大学 一种基于聚类集成学习的企业数据分析方法
CN114079997A (zh) * 2021-11-17 2022-02-22 电子科技大学 一种基于wsn改进路由协议的高性能通信方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273915A (zh) * 2017-05-17 2017-10-20 西北工业大学 一种局部信息与全局信息融合的目标分类识别方法
CN107273915B (zh) * 2017-05-17 2019-10-29 西北工业大学 一种局部信息与全局信息融合的目标分类识别方法
CN107291873A (zh) * 2017-06-16 2017-10-24 晶赞广告(上海)有限公司 地理位置聚类方法
CN107291873B (zh) * 2017-06-16 2020-02-18 晶赞广告(上海)有限公司 地理位置聚类方法
CN107506480B (zh) * 2017-09-13 2020-05-05 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN108229419A (zh) * 2018-01-22 2018-06-29 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108229419B (zh) * 2018-01-22 2022-03-04 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108446738A (zh) * 2018-03-23 2018-08-24 联想(北京)有限公司 一种聚类方法、装置及电子设备
CN108984702A (zh) * 2018-07-06 2018-12-11 深圳市卓帆技术有限公司 试题比对方法及系统
CN109962982A (zh) * 2019-03-29 2019-07-02 中海生态环境科技有限公司 一种基于物联网的河湖水生态环境监控系统
CN110544047A (zh) * 2019-09-10 2019-12-06 东北电力大学 一种不良数据辨识方法
CN110826623A (zh) * 2019-11-04 2020-02-21 深圳雷霆应急科技有限公司 基于气象数据的分类方法、装置、计算机设备及存储介质
CN110826623B (zh) * 2019-11-04 2023-09-01 深圳雷霆应急科技有限公司 基于气象数据的分类方法、装置、计算机设备及存储介质
CN112215297A (zh) * 2020-10-21 2021-01-12 山东纬横数据科技有限公司 基于因子分析的生产制造数据分层聚类方法
CN112488196B (zh) * 2020-11-30 2022-07-29 青岛科技大学 一种轨迹数据参数自适应的聚类方法
CN112488196A (zh) * 2020-11-30 2021-03-12 青岛科技大学 一种轨迹数据参数自适应的聚类方法
CN113288122A (zh) * 2021-05-21 2021-08-24 河南理工大学 一种可穿戴坐姿监测装置和坐姿监测方法
CN113288122B (zh) * 2021-05-21 2023-12-19 河南理工大学 一种可穿戴坐姿监测装置和坐姿监测方法
CN113258567A (zh) * 2021-06-03 2021-08-13 安徽新力电业科技咨询有限责任公司 基于混合聚类算法的电网关键输电断面确定方法及系统
CN113258567B (zh) * 2021-06-03 2022-12-02 安徽新力电业科技咨询有限责任公司 基于混合聚类算法的电网关键输电断面确定方法及系统
CN113918785A (zh) * 2021-10-11 2022-01-11 广东工业大学 一种基于聚类集成学习的企业数据分析方法
CN114079997B (zh) * 2021-11-17 2022-06-03 电子科技大学 一种基于wsn改进路由协议的高性能通信方法
CN114079997A (zh) * 2021-11-17 2022-02-22 电子科技大学 一种基于wsn改进路由协议的高性能通信方法

Similar Documents

Publication Publication Date Title
CN106056136A (zh) 一种聚类中心快速确定的数据聚类方法
CN108898479B (zh) 信用评价模型的构建方法及装置
CN106485262B (zh) 一种母线负荷预测方法
CN104933156A (zh) 一种基于共享近邻聚类的协同过滤方法
CN106355192A (zh) 一种基于混沌灰狼优化的支持向量机方法
CN110059852A (zh) 一种基于改进随机森林算法的股票收益率预测方法
CN101807254A (zh) 面向数据特点的合成核支持向量机的实现方法
CN103049651A (zh) 一种用于电力负荷聚类的方法及装置
CN109117380A (zh) 一种软件质量评价方法、装置、设备及可读存储介质
CN106326913A (zh) 一种洗钱账户的确定方法及装置
CN109635010A (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN110147808A (zh) 一种新型电池成组筛选方法
CN106934417A (zh) 一种面向混合属性的数据流自适应聚类方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN106202388B (zh) 一种用户等级自动划分方法及系统
CN106156795A (zh) 一种可疑洗钱账户的确定方法及装置
CN112001788A (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN113239199B (zh) 一种基于多方数据集的信用分类方法
CN111027841A (zh) 一种基于梯度提升决策树的低压台区线损计算方法
Zhang et al. Research on borrower's credit classification of P2P network loan based on LightGBM algorithm
CN110196797B (zh) 适于信用评分卡系统的自动优化方法和系统
CN107562793A (zh) 一种大数据挖掘方法
CN108388911A (zh) 一种面向混合属性的移动用户动态模糊聚类方法
CN115641177A (zh) 一种基于机器学习的防秒杀预判系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication