CN110222747A - 一种优化的聚类方法 - Google Patents

一种优化的聚类方法 Download PDF

Info

Publication number
CN110222747A
CN110222747A CN201910439344.5A CN201910439344A CN110222747A CN 110222747 A CN110222747 A CN 110222747A CN 201910439344 A CN201910439344 A CN 201910439344A CN 110222747 A CN110222747 A CN 110222747A
Authority
CN
China
Prior art keywords
pixel
cluster
value
maximum similarity
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910439344.5A
Other languages
English (en)
Other versions
CN110222747B (zh
Inventor
王鑫
张香梁
吕国芳
宁晨
马贞立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201910439344.5A priority Critical patent/CN110222747B/zh
Publication of CN110222747A publication Critical patent/CN110222747A/zh
Application granted granted Critical
Publication of CN110222747B publication Critical patent/CN110222747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种优化的聚类方法,具体包括如下步骤:S1:选取数据集中的像素点,组建密集点集合Y;S2:从密集点集合Y中选取像素点组建集合Q;S3:在数据集中选取m个像素点,组建备选的初始聚类中心点集C;S4:将密集点集合Y中的像素点划分到集合Q中的各初始聚类中心所在的类中,获取第一次聚类的平均最大相似度;S5:获取最小聚类平均最大相似度;S6:将最小聚类平均最大相似度对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心,进行kmeans聚类,获取聚类结果。本发明为了减小噪声对于数据的干扰,使用密度分布函数排除密度稀疏点,剔除一些噪声干扰点和异常点,选出最优的初始聚类中心,从而确定出最优聚类的数目k值,提高聚类精度。

Description

一种优化的聚类方法
技术领域
本发明涉及信号与信息处理技术领域,尤其涉及一种优化的聚类方法。
背景技术
随着人工智能、互联网的发展,获取大规模数据变得越来越容易,各种数据平台的快速发展逐渐奠定了当代大数据应用的基础。同时在对大量数据进行初步加工的过程中,往往要求将某些相似的数据进行分类,而聚类就是其中一种利用数据的分布特点进行数据加工的常用技术。聚类是一种无监督的学习,它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象,簇内的对象越相似,聚类的效果就越好。
Kmeans算法是著名的聚类算法,因为实现起来比较简单,所以是应用最广研究最多的聚类算法之一。Kmeans算法中的k表示的是聚类为k个簇,means代表取每一个聚类中数据值的均值作为该簇的中心,或者称为质心,即用每一个的类的质心对该簇进行描述。Kmeans算法收敛速度快,聚类效果较优,主要需要调参的参数仅仅是簇数k。但是kmeans算法对噪音和异常点比较的敏感,k值的选取不好把握,随机选择聚类中心等缺点都会影响聚类效果。
发明内容
发明目的:针对在现有聚类方法中,最优聚类的数目k值不易选取的问题,本发明提出一种优化的聚类方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种优化的聚类方法,所述方法具体包括如下步骤:
S1:将图像中所有的像素点集中在一个数据集中,计算所述数据集中每个像素点的密度函数值,选出所述数据集中密度函数值不小于数据集的平均密度函数值的像素点,由所述不小于平均密度函数值的像素点组建密集点集合Y;
S2:从所述密集点集合Y中选取两个像素点,组建集合Q;
S3:在所述数据集中通过焦点统计方法选取m个像素点,由所述选取出的m个像素点组建备选的初始聚类中心点集C,其中选取出的像素点的个数,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合中Y元素的个数;
S4:将所述密集点集合Y中的像素点划分到集合Q中的各个初始聚类中心所在的类中,获取第一次聚类的平均最大相似度;
S5:从所述备选的初始聚类中心点集C中选择一个像素点,添加至所述集合Q中,作为所述集合Q中的一个新初始聚类中心,并将所述像素点在备选的初始聚类中心点集C中删除,重复步骤S4-步骤S5,将每次聚类的平均最大相似度进行比较,选出聚类平均最大相似度的最小值;
S6:将所述聚类平均最大相似度最小值对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心,进行kmeans聚类,获取聚类结果。
进一步地讲,所述步骤S1由不小于平均密度值的像素点组建密集点集合Y,具体如下:
S1.1:在所述数据集中,以所述数据集中的像素点为圆心,通过预设半径画圆,由在所述圆内的其他像素点,组建所述像素点的最近邻集合Gb(xi);
S1.2:根据所述像素点和像素点的最近邻集合Gb(xi),获取所述像素点和最近邻集合Gb(xi)中各个最近邻点之间的距离,确定像素点的密度函数值,具体为:
其中:DF(xi)为像素点的密度函数值,b为像素点的最近邻集合Gb(xi)中的最近邻点的个数,d(xi,gf)为像素点和最近邻点之间的距离,δ为邻域半径;
S1.3:通过所述像素点的密度函数值,获取所述数据集的平均密度函数值,在所述数据集中选出密度函数值不小于数据集的平均密度函数值的像素点,组建密集点集合Y,其中密度函数值不小于平均密度函数值的像素点的密度函数值,具体为:
其中:DF(xβ)为像素点的密度函数值,为平均密度函数值,n为数据集中像素点的数目。
进一步地讲,所述步骤S2组建集合Q,具体如下:
S2.1:在所述密集点集合Y中,将所有像素点的密度函数值进行比较,选出最大密度函数值对应的像素点,作为第一个初始聚类中心;
S2.2:在所述密集点集合Y中,选出距离所述第一个初始聚类中心最远的像素点,作为第二个初始聚类中心;
S2.3:由所述第一个初始聚类中心和第二个初始聚类中心,组建集合Q。
进一步地讲,所述步骤S3由选取出的m个像素点组建备选的初始聚类中心点集C,具体如下:
S3.1:将所述数据集均分为m等分,其中所述等分的个数,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合Y中元素的个数;
S3.2:在每个所述等分中,比较所有像素点对应的密度函数值,选出所述等分中最大密度函数值对应的像素点,通过每个所述等分中选取出的像素点,组建备选的初始聚类中心点集C。
进一步地讲,所述步骤S4获取第一次聚类的平均最大相似度和标准相似度,具体如下:
S4.1:获取所述密集点集合Y中的各个像素点的像素值,与集合Q中的各个初始聚类中心的像素值之间的像素值差的大小,通过所述像素值差的比较,将所述像素点划分到像素值差最小的初始聚类中心所在的类中;
S4.2:根据所述分类,获取第一次聚类的平均最大相似度,具体为:
其中:
AS1为第一次聚类的平均最大相似度,sj为除si对应的类之外的其他类中每个数据点到其聚类中心之间距离的均值,q为集合Q中初始聚类中心的个数,|Qi|为类Qi中数据点的个数,||y-qi||为类Qi中的数据点与类Qi中初始聚类中心之间的距离,si,j为集合Q中初始聚类中心之间的距离,i为si对应的类,j为sj对应的类。
进一步地讲,所述步骤S5选出聚类平均最大相似度的最小值,具体如下:
S5.1:从所述备选的初始聚类中心点集C中选择一个像素点,添加至所述集合Q中,作为所述集合Q中的一个新初始聚类中心,并将所述像素点在备选的初始聚类中心点集C中删除,重复步骤S4,获取第二次聚类的平均最大相似度;
S5.2:将所述第二次聚类的平均最大相似度与第一次聚类的平均最大相似度进行比较,当所述第二次聚类的平均最大相似度大于第一次聚类的平均最大相似度时,所述第一次聚类的平均最大相似度为聚类平均最大相似度的最小值;
当所述第二次聚类的平均最大相似度不大于第一次聚类的平均最大相似度时,重复步骤S5.1-S5.2,获取下一次聚类的平均最大相似度,直至第n次聚类的平均最大相似度大于第n-1次聚类的平均最大相似度,确定所述第n-1次聚类的平均最大相似度为聚类平均最大相似度的最小值。
进一步地讲,在所述备选初始聚类中心点集C中选取像素点,具体为:先计算所述备选初始聚类中心点集C中每个像素点的像素值与集合Q中各个初始聚类中心的像素值之间的像素值差大小,再将所述像素点与集合Q中各个初始聚类中心之间的像素值差进行相加,获取像素值差之和,最后将所述备选初始聚类中心点集C中每个像素点对应的像素值差之和进行比较,选择其中最大像素值差之和对应的像素点作为选取的像素点。
进一步地讲,所述步骤S6获取聚类结果,具体如下:
S6.1:根据所述密集点集合Y中的各个像素点的像素值,与所述聚类平均最大相似度最小值对应的集合Q中的各个聚类中心的像素值之间的像素值差大小,将所述密集点集合Y中的各个像素点,划分到像素值差最小的初始聚类中心所在的类中;
S6.2:根据所述划分的各个类,计算各类中所有像素点像素值的平均值,具体为:
其中:q'i为类Qi中所有像素点像素值的平均值,|Qi|为类Qi中像素点的个数,y为类Qi中像素点的像素值;
S6.3:将所述各类中所有像素点像素值的平均值,与对应类中的聚类中心的像素值进行比较,当两者相等时,根据所述聚类平均最大相似度最小值对应的集合Q中的各个聚类中心,进行聚类的结果为输出结果;反之,将所述各类中聚类中心的像素值更改为各类中所有像素点像素值的平均值,重复步骤S6.1-步骤S6.3,直至所述各类中所有像素点像素值的平均值,与对应类中的聚类中心的像素值相等,此时获取的聚类结果为输出结果。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明为了减小噪声对于数据的干扰,使用密度分布函数排除密度稀疏点,剔除一些噪声干扰点和异常点,即通过计算每个像素点的密度函数值来剔除异常点,在选出备选初始聚类中心后,计算数据划分后的平均最大相似度AS值,选出最优的初始聚类中心,从而确定出最优聚类的数目k值,提高聚类精度。
附图说明
图1是本发明的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。其中,所描述的实施例是本发明一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。
实施例1
参考图1,本实施例提供了一种优化的聚类方法,在获取图像的数据集后,先计算数据集中每个像素点的密度函数值,去除数据集中异常的像素点。并选出两个密度函数值最大的像素点作为初始聚类中心,放入点集D中,同时选出备选初始聚类中心点集C。像素点根据选择出的聚类中心进行迭代划分,计算此时的平均最大相似度AS值。当平均最大相似度AS值小于之前或者给定的平均最大相似度AS值时,从备选初始聚类中心中选择一个样本点放入点集Q,选择平均最大相似度AS值最小时的点集Q作为初始聚类中心,进行kmeans聚类,输出结果。具体步骤如下:
步骤S1:将图像中的所有像素点集中在一个数据集中,也就是说,图像的数据集是由图像的所有像素点组合而成。在图像的数据集中,对数据集中的每个像素点进行计算,得到每个像素点的密度函数值,然后在数据集中将所有密度函数值小于数据集的平均密度函数值的像素点,进行删除。由所有密度函数值不小于平均密度函数值的像素点,组建密集点集合Y,其中图像的数据集,具体为:
X={x1,x2,...,xn}
其中:X为图像的数据集,xn为像素点。
在本实施例中,由所有密度函数值不小于平均密度函数值的像素点,组建密集点集合Y,具体如下:
步骤S1.1:在图像的数据集X中,以数据集中的任意一个像素点为圆心,通过预设半径画圆,则在该圆内的其他像素点,可以共同组建为该像素点的最近邻集合Gb(xi)。
在本实施例中,是以像素点xi为圆心,以领域半径δ=0.5画圆,在半径为0.5的圆内的其他像素点,组建了像素点xi的最近邻集合Gb(xi),且在最近邻集合Gb(xi)中的任意最近邻点和像素点xi之间的距离都不会大于领域半径δ的大小,具体为:
d(xi,gf)≤δ且gf∈Gb(xi)
其中:d(xi,gf)为像素点和最近邻点之间的距离,δ为邻域半径,Gb(xi)为最近邻集合,gf为最近邻集合中的最近邻点。
步骤S1.2:根据像素点xi和像素点的最近邻集合Gb(xi),获取在像素点xi的领域半径δ范围内所有最近邻点对该像素点xi影响的函数之和,即像素点xi的密度函数值DF(xi),具体为:
其中:DF(xi)为像素点的密度函数值,b为像素点的最近邻集合Gb(xi)中的最近邻点的个数,d(xi,gf)为像素点和最近邻点之间的距离,δ为邻域半径。
步骤S1.3:通过像素点xi的密度函数值DF(xi)和数据集X中所有像素点的数目,可以获取数据集X的平均密度函数值,通过每个像素点的密度函数值和数据集X的平均密度函数值之间的比较,可以将其中密度函数值小于平均密度函数值的像素点,在数据集X中删除,在数据集X中剩下的像素点,将组建密集点集合Y,从而在密集点集合Y中,将图像的数据集X中被噪声干扰的稀疏数据后的像素点进行了删除。
其中密度函数值不小于平均密度函数值的像素点,具体为:
其中:DF(xβ)为像素点的密度函数值,为平均密度函数值,n为数据集中像素点的数目。
步骤S2:从密集点集合Y中选出两个像素点,作为第一个初始聚类中心q1和第二个初始聚类中心q2,并将第一个初始聚类中心q1和第二个初始聚类中心q2放在同一个集合中,即集合Q,从而组建了集合Q,具体如下:
步骤S2.1:将密集点集合Y中所有像素点的密度函数值进行比较,选出其中密度函数值最大时对应的像素点,将该像素点作为第一个初始聚类中心q1
步骤S2.2:选出第一个初始聚类中心q1后,从密集点集合Y的所有像素点中,选出距离第一个初始聚类中心q1最远的像素点,将其作为第二个初始聚类中心q2
步骤S2.3:将第一个初始聚类中心q1和第二个初始聚类中心q2放在同一个集合中,从而组建了集合Q。
步骤S3:在数据集X中通过焦点统计的方法,选出m个像素点,并用选出的m个像素点,组建备选的初始聚类中心点集C,其中选取出的像素点的个数,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合Y中元素的个数。
在本实施例中,组建备选的初始聚类中心点集C,具体如下:
步骤S3.1:将数据集X中所有的像素点平均分为m等分,其中m的大小,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合Y中元素的个数。
步骤S3.2:在每个均分的每个等分中,将在该等分中的所有像素点的密度函数值进行比较,从中选取出该等分中最大密度函数值对应的像素点。也就是说,从均分的m等分中,可以获取m个像素点。用选取出的m个像素点,可以组建备选的初始聚类中心点集C。
步骤S4:将密集点集合Y中的所有像素点,分别划分到集合Q中的各个初始聚类中心所在的类中,划分的原则是数值就近原则,也就是像素点的像素值与哪个初始聚类中心的像素值之间的像素值差最小,则像素点就划分到该初始聚类中心所在的类中。同时确定出第一次聚类的平均最大相似度。具体如下:
步骤S4.1:在第一次聚类中,集合Q中初始聚类中心只有两个,即第一个初始聚类中心q1和第二个初始聚类中心q2。获取密集点集合Y中的每个像素点的像素值与第一个初始聚类中心q1的像素值之间的像素值差大小,还需要获取密集点集合Y中的每个像素点的像素值与第二个初始聚类中心q2的像素值之间的像素值差大小。当像素点与第一个初始聚类中心q1之间的像素值差大于像素点与第二个初始聚类中心q2之间的像素值差时,该像素点则划分到第二个初始聚类中心q2所在的类Q2中。同样地,当像素点与第一个初始聚类中心q1之间的像素值差小于像素点与第二个初始聚类中心q2之间的像素值差时,该像素点则划分到第一个初始聚类中心q1所在的类Q1中。
在本实施例中,当像素点与第一个初始聚类中心q1之间的像素值差等于像素点与第二个初始聚类中心q2之间的像素值差时,则该像素点既可以划分到第一个初始聚类中心q1所在的类Q1中,也可以划分到第二个初始聚类中心q2所在的类Q2中,可以根据自身的需求,划分到其中的一个类中。
步骤S4.2:当密集点集合Y中的每个像素点都划分到对应的类后,可以获取到第一次聚类的平均最大相似度,也就是一个类与其他类的相似度大小,具体为:
其中:
AS1为第一次聚类的平均最大相似度,sj为除si对应的类之外的其他类中每个像素点到其聚类中心之间距离的均值,q为集合Q中初始聚类中心的个数,|Qi|为类Qi中像素点的个数,||y-qi||为类Qi中的像素点与类Qi中初始聚类中心之间的距离,si,j为集合Q中初始聚类中心之间的距离,i为si对应的类,j为sj对应的类。
步骤S5:从步骤S3中组建的备选初始聚类中心点集C中选择出一个像素点,并将该像素点添加到集合Q中,然后在备选初始聚类中心点集C中将该像素点删除。然后重复步骤S4,获取得到第二次聚类的平均最大相似度。最后将第二次聚类的平均最大相似度和第一次聚类的平均最大相似度进行比较,根据比较结果,决定是否需要获取第三次聚类的平均最大相似度、第四次聚类的平均最大相似度,甚至第n次聚类的平均最大相似度,直至能够选择出最小的聚类平均最大相似度。同样地,在对同一数据集的聚类平均最大相似度进行比较的过程中,可以知晓,同一数据集的聚类平均最大相似度是存在有最小值的,且所有聚类的平均最大相似度,在同一坐标轴上时,可以描绘为开口向上的抛物线。具体如下:
步骤S5.1:从步骤S3中组建的备选初始聚类中心点集C中选择出一个像素点,并将该像素点添加到集合Q中,然后在备选初始聚类中心点集C中将该像素点删除。然后重复步骤S4,获取得到第二次聚类的平均最大相似度。
在本实施例中,具体地讲,在备选初始聚类中心点集C中选出的像素点,具体如下:
计算每个像素点分别与集合Q中各个初始聚类中心之间的数值差大小,并将与集合Q中各个初始聚类中心之间的数值差进行相加,得到数值差之和。再将所有像素点与集合Q中各个初始聚类中心之间的数值差之和进行比较,选出其中最大数值差之和对应的像素点,该像素点就是在备选初始聚类中心点集C中选出的像素点。
步骤S5.2:将第二次聚类的平均最大相似度与第一次聚类的平均最大相似度进行比较,当第二次聚类的平均最大相似度大于第一次聚类的平均最大相似度时,则第一次聚类的平均最大相似度为最小的聚类平均最大相似度。当第二次聚类的平均最大相似度不大于第一次聚类的平均最大相似度时,则重复步骤S5.1-步骤S5.2,获取下一次聚类的平均最大相似度,直至第n次聚类的平均最大相似度大于第n-1次聚类的平均最大相似度,即确定出第n-1次聚类的平均最大相似度为最小的聚类平均最大相似度。
步骤S6:根据确定出的最小的聚类平均最大相似度,将最小聚类平均最大相似度对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心,进行kmeans聚类,输出结果。具体如下:
步骤S6.1:根据确定出的最小的聚类平均最大相似度,可以确定出最小聚类平均最大相似度对应的集合Q中的聚类中心的数目,也就可以知道本次聚类过程中,类的数目。其中类的数目与聚类中心的数目相同。
然后按照数值就近原则将数据集中的像素点划分到其对应的类中。也就是说,通过比较像素点的像素值与各个聚类中心的像素值之间的像素值差大小,将像素点划分到与其像素值差最小的聚类中心所在的类中。若像素点到各个聚类中心之间的像素值差相同时,可以根据实际情况,任意划分到其中的一个类中。
步骤S6.2:根据划分的各个类,计算出各个类中所有像素点像素值的平均值,具体为:
其中:q'i为类Qi中所有像素点像素值的平均值,|Qi|为类Qi中像素点的个数,y为类Qi中像素点的像素值。
步骤S6.3:将步骤S6.2中计算出的各个类中所有像素点像素值的平均值,与其对应类中的聚类中心的像素值,进行比较。当该类中的聚类中心的像素值大小,与该类中计算得到的所有像素点像素值的平均值相等时,则此时的聚类结果为输出结果。
当该类中的聚类中心的像素值大小,与该类中计算得到的所有像素点像素值的平均值不相等时,将各类中聚类中心的像素值大小,更改为该类计算得到的所有像素点像素值的平均值,然后重复步骤S6.1-步骤S6.3,直至各类计算出的所有像素点像素值的平均值与各类中聚类中心的像素值大小相等。此时获取的聚类结果即为输出结果。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构和方法并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均属于本发明的保护范围。

Claims (8)

1.一种优化的聚类方法,其特征在于,所述方法具体包括如下步骤:
S1:将图像中所有的像素点集中在一个数据集中,计算所述数据集中每个像素点的密度函数值,选出所述数据集中密度函数值不小于数据集的平均密度函数值的像素点,由所述不小于平均密度函数值的像素点组建密集点集合Y;
S2:从所述密集点集合Y中选取两个像素点,组建集合Q;
S3:在所述数据集中通过焦点统计方法选取m个像素点,由所述选取出的m个像素点组建备选的初始聚类中心点集C,其中选取出的像素点的个数,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合中Y元素的个数;
S4:将所述密集点集合Y中的像素点划分到集合Q中的各个初始聚类中心所在的类中,获取第一次聚类的平均最大相似度;
S5:从所述备选的初始聚类中心点集C中选择一个像素点,添加至所述集合Q中,作为所述集合Q中的一个新初始聚类中心,并将所述像素点在备选的初始聚类中心点集C中删除,重复步骤S4-步骤S5,将每次聚类的平均最大相似度进行比较,选出聚类平均最大相似度的最小值;
S6:将所述聚类平均最大相似度最小值对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心,进行kmeans聚类,获取聚类结果。
2.根据权利要求1所述的一种优化的聚类方法,其特征在于,所述步骤S1由不小于平均密度值的像素点组建密集点集合Y,具体如下:
S1.1:在所述数据集中,以所述数据集中的像素点为圆心,通过预设半径画圆,由在所述圆内的其他像素点,组建所述像素点的最近邻集合Gb(xi);
S1.2:根据所述像素点和像素点的最近邻集合Gb(xi),获取所述像素点和最近邻集合Gb(xi)中各个最近邻点之间的距离,确定像素点的密度函数值,具体为:
其中:DF(xi)为像素点的密度函数值,b为像素点的最近邻集合Gb(xi)中的最近邻点的个数,d(xi,gf)为像素点和最近邻点之间的距离,δ为邻域半径;
S1.3:通过所述像素点的密度函数值,获取所述数据集的平均密度函数值,在所述数据集中选出密度函数值不小于数据集的平均密度函数值的像素点,组建密集点集合Y,其中密度函数值不小于平均密度函数值的像素点的密度函数值,具体为:
其中:DF(xβ)为像素点的密度函数值,为平均密度函数值,n为数据集中像素点的数目。
3.根据权利要求1或2所述的一种优化的聚类方法,其特征在于,所述步骤S2组建集合Q,具体如下:
S2.1:在所述密集点集合Y中,将所有像素点的密度函数值进行比较,选出最大密度函数值对应的像素点,作为第一个初始聚类中心;
S2.2:在所述密集点集合Y中,选出距离所述第一个初始聚类中心最远的像素点,作为第二个初始聚类中心;
S2.3:由所述第一个初始聚类中心和第二个初始聚类中心,组建集合Q。
4.根据权利要求3所述的一种优化的聚类方法,其特征在于,所述步骤S3由选取出的m个像素点组建备选的初始聚类中心点集C,具体如下:
S3.1:将所述数据集均分为m等分,其中所述等分的个数,具体为:
m=η/2
其中:m为选取出的像素点的个数,η为密集点集合Y中元素的个数;
S3.2:在每个所述等分中,比较所有像素点对应的密度函数值,选出所述等分中最大密度函数值对应的像素点,通过每个所述等分中选取出的像素点,组建备选的初始聚类中心点集C。
5.根据权利要求4所述的一种优化的聚类方法,其特征在于,所述步骤S4获取第一次聚类的平均最大相似度和标准相似度,具体如下:
S4.1:获取所述密集点集合Y中的各个像素点的像素值,与集合Q中的各个初始聚类中心的像素值之间的像素值差的大小,通过所述像素值差的比较,将所述像素点划分到像素值差最小的初始聚类中心所在的类中;
S4.2:根据所述分类,获取第一次聚类的平均最大相似度,具体为:
且i≠j
其中:
AS1为第一次聚类的平均最大相似度,sj为除si对应的类之外的其他类中每个数据点到其聚类中心之间距离的均值,q为集合Q中初始聚类中心的个数,|Qi|为类Qi中数据点的个数,||y-qi||为类Qi中的数据点与类Qi中初始聚类中心之间的距离,si,j为集合Q中初始聚类中心之间的距离,i为si对应的类,j为sj对应的类。
6.根据权利要求5所述的一种优化的聚类方法,其特征在于,所述步骤S5选出聚类平均最大相似度的最小值,具体如下:
S5.1:从所述备选的初始聚类中心点集C中选择一个像素点,添加至所述集合Q中,作为所述集合Q中的一个新初始聚类中心,并将所述像素点在备选的初始聚类中心点集C中删除,重复步骤S4,获取第二次聚类的平均最大相似度;
S5.2:将所述第二次聚类的平均最大相似度与第一次聚类的平均最大相似度进行比较,当所述第二次聚类的平均最大相似度大于第一次聚类的平均最大相似度时,所述第一次聚类的平均最大相似度为聚类平均最大相似度的最小值;
当所述第二次聚类的平均最大相似度不大于第一次聚类的平均最大相似度时,重复步骤S5.1-S5.2,获取下一次聚类的平均最大相似度,直至第n次聚类的平均最大相似度大于第n-1次聚类的平均最大相似度,确定所述第n-1次聚类的平均最大相似度为聚类平均最大相似度的最小值。
7.根据权利要求6所述的一种优化的聚类方法,其特征在于,在所述备选初始聚类中心点集C中选取像素点,具体为:先计算所述备选初始聚类中心点集C中每个像素点的像素值与集合Q中各个初始聚类中心的像素值之间的像素值差大小,再将所述像素点与集合Q中各个初始聚类中心之间的像素值差进行相加,获取像素值差之和,最后将所述备选初始聚类中心点集C中每个像素点对应的像素值差之和进行比较,选择其中最大像素值差之和对应的像素点作为选取的像素点。
8.根据权利要求6所述的一种优化的聚类方法,其特征在于,所述步骤S6获取聚类结果,具体如下:
S6.1:根据所述密集点集合Y中的各个像素点的像素值,与所述聚类平均最大相似度最小值对应的集合Q中的各个聚类中心的像素值之间的像素值差大小,将所述密集点集合Y中的各个像素点,划分到像素值差最小的初始聚类中心所在的类中;
S6.2:根据所述划分的各个类,计算各类中所有像素点像素值的平均值,具体为:
其中:q′i为类Qi中所有像素点像素值的平均值,|Qi|为类Qi中像素点的个数,y为类Qi中像素点的像素值;
S6.3:将所述各类中所有像素点像素值的平均值,与对应类中的聚类中心的像素值进行比较,当两者相等时,根据所述聚类平均最大相似度最小值对应的集合Q中的各个聚类中心,进行聚类的结果为输出结果;反之,将所述各类中聚类中心的像素值更改为各类中所有像素点像素值的平均值,重复步骤S6.1-步骤S6.3,直至所述各类中所有像素点像素值的平均值,与对应类中的聚类中心的像素值相等,此时获取的聚类结果为输出结果。
CN201910439344.5A 2019-05-24 2019-05-24 一种优化的聚类方法 Active CN110222747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910439344.5A CN110222747B (zh) 2019-05-24 2019-05-24 一种优化的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910439344.5A CN110222747B (zh) 2019-05-24 2019-05-24 一种优化的聚类方法

Publications (2)

Publication Number Publication Date
CN110222747A true CN110222747A (zh) 2019-09-10
CN110222747B CN110222747B (zh) 2022-08-16

Family

ID=67818140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910439344.5A Active CN110222747B (zh) 2019-05-24 2019-05-24 一种优化的聚类方法

Country Status (1)

Country Link
CN (1) CN110222747B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750127A (zh) * 2021-02-04 2021-05-04 深圳市泽峰光电科技有限公司 一种用于原木端面测量的图像处理方法
CN113205042A (zh) * 2021-04-30 2021-08-03 武汉大学 一种城市多层次边界的识别方法及系统
CN113485878A (zh) * 2021-07-06 2021-10-08 国网江苏省电力有限公司信息通信分公司 一种多数据中心故障检测方法
CN113758579A (zh) * 2021-09-26 2021-12-07 中国纺织科学研究院有限公司 一种用于检测纺丝组件温度的方法及纺丝设备
CN113899971A (zh) * 2021-09-30 2022-01-07 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731916A (zh) * 2015-03-24 2015-06-24 无锡中科泛在信息技术研发中心有限公司 数据挖掘中基于密度优化初始中心的k均值聚类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN108197837A (zh) * 2018-02-07 2018-06-22 沈阳工业大学 基于KMeans聚类的光伏发电预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731916A (zh) * 2015-03-24 2015-06-24 无锡中科泛在信息技术研发中心有限公司 数据挖掘中基于密度优化初始中心的k均值聚类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN108197837A (zh) * 2018-02-07 2018-06-22 沈阳工业大学 基于KMeans聚类的光伏发电预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢娟英等: "一种新的密度加权粗糙K-均值聚类算法", 《山东大学学报(理学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750127A (zh) * 2021-02-04 2021-05-04 深圳市泽峰光电科技有限公司 一种用于原木端面测量的图像处理方法
CN113205042A (zh) * 2021-04-30 2021-08-03 武汉大学 一种城市多层次边界的识别方法及系统
CN113485878A (zh) * 2021-07-06 2021-10-08 国网江苏省电力有限公司信息通信分公司 一种多数据中心故障检测方法
CN113485878B (zh) * 2021-07-06 2022-11-11 国网江苏省电力有限公司信息通信分公司 一种多数据中心故障检测方法
CN113758579A (zh) * 2021-09-26 2021-12-07 中国纺织科学研究院有限公司 一种用于检测纺丝组件温度的方法及纺丝设备
CN113758579B (zh) * 2021-09-26 2024-01-09 中国纺织科学研究院有限公司 一种用于检测纺丝组件温度的方法及纺丝设备
CN113899971A (zh) * 2021-09-30 2022-01-07 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法
CN113899971B (zh) * 2021-09-30 2023-11-14 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法

Also Published As

Publication number Publication date
CN110222747B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110222747A (zh) 一种优化的聚类方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN108898479B (zh) 信用评价模型的构建方法及装置
JP5045371B2 (ja) 動画像の各画素の前景背景分類装置、方法及びプログラム
CN109522926A (zh) 基于信息熵聚类的异常检测方法
CN108509834B (zh) 基于多元对数高斯分布下视频特征的图结构规约方法
CN108734677B (zh) 一种基于深度学习的盲去模糊方法及系统
CN111062278A (zh) 基于改进残差网络的异常行为识别方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN110659745A (zh) 一种具有动态学习速率边界的分布式自适应矩估计方法
CN108256550A (zh) 一种木材类别更新方法和装置
CN109583519A (zh) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
CN113963410A (zh) 一种基于改进遗传算法的人脸识别优化方法
CN111931853A (zh) 基于层次聚类和改进smote的过采样方法
CN115309985A (zh) 推荐算法的公平性评估方法及ai模型选择方法
CN112699936B (zh) 一种电力cps广义虚假数据注入攻击识别方法
CN110399917A (zh) 一种基于超参数优化cnn的图像分类方法
CN112215287B (zh) 基于距离的多节聚类方法和装置、存储介质及电子装置
CN108763283A (zh) 一种不平衡数据集过采样方法
KR102102517B1 (ko) 최적화 계산 장치 및 방법
Cui et al. Weighted particle swarm clustering algorithm for self-organizing maps
CN116227574A (zh) 一种基于深度学习的模型剪枝方法
CN104021563B (zh) 基于多目标模糊聚类和反对学习的噪声图像分割方法
Suciningtyas et al. Activation Function Comparison On Potato Leaf Disease Classification Performance
CN114550283A (zh) 基于改进支持向量机的无线网信号动作识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant