CN109472300A - 一种面向k均值聚类算法的质心以及质心个数初始化方法 - Google Patents

一种面向k均值聚类算法的质心以及质心个数初始化方法 Download PDF

Info

Publication number
CN109472300A
CN109472300A CN201811245231.3A CN201811245231A CN109472300A CN 109472300 A CN109472300 A CN 109472300A CN 201811245231 A CN201811245231 A CN 201811245231A CN 109472300 A CN109472300 A CN 109472300A
Authority
CN
China
Prior art keywords
data
cluster
mass center
mean
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811245231.3A
Other languages
English (en)
Inventor
徐小龙
徐浩严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201811245231.3A priority Critical patent/CN109472300A/zh
Publication of CN109472300A publication Critical patent/CN109472300A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种面向K均值聚类算法的质心以及质心个数初始化方法,包括:将数据离散后,计算每一维度数据的信息熵;根据信息熵排序选出两个混乱程度最低的数据,通过降维找出特征最小的方向作为X轴重新建立坐标系,生成新的两维数据;通过Y轴数据绘制密度曲线,将已有数据分为若干簇;Y轴数据代替原来两个信息熵较低的数据继续进行计算,直到所有维度数据都参与运算;最终得到若干簇,通过原数据计算质心。本发明无需提供K值,对于未知簇个数的数据可以得到准确的K值,并且初始化质心后可以减少迭代次数,快速收敛,同时提高K均值算法的稳定性,满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。

Description

一种面向K均值聚类算法的质心以及质心个数初始化方法
技术领域
本发明涉及一种数据聚类方法,属于机器学习领域,主要用于实现初始化K均值聚类的K值以及质心,具体为一种面向K均值聚类算法的质心以及质心个数初始化方法。
背景技术
K均值算法(Lloyod,1982)是简单而又有效的统计聚类算法,使机器能够将具有相同属性的样本归置到一块儿。与分类不同,对于一个分类器,通常需要告诉它“这个样本被分成哪些类”这样一些标签,在最理想情况下,一个分类器会从所得到的训练集中进行“学习”,我们将这种提供训练的过程称为“监督学习”。但是在聚类下,我们并不关心某一类是什么,我们的目的是想将相似的样本归置在一起,这样,一个聚类算法通常只要知道该如何计算样本间的相似度并将相似样本归并到一起就可以操作了,因此聚类通常并不需要使用训练数据进行学习,这在机器学习中被称作“无监督学习”。K均值算法就是这种用于统计的无监督聚类技术。
K均值算法操作简单、运算速度较快,能够有效处理中小型数据集。但同时K均值算法也有不足之处,包含以下几点:
(1)聚类结果不确定
K均值算法初始聚类中心是随机选择的,初始中心点选取的好坏会导致最终聚类效果。选取不同初始聚类中心,会使得最终聚类得到的类簇发生变化。除此之外,K均值算法一般采用准则函数为目标函数,准则函数中只存在一个全局最小值和N个极小值,这使得算法运算过程中,会陷入局部极小值,导致最终得到的不是全局最优解。
(2)聚类个数不确定
K均值算法中K表示聚簇个数,K的取值决定聚类结果。K值的选取需要根据实际的需求来确定,但通常情况下我们并不知道需将数据集聚为多少个类簇最合适,所以针对K值的选取依然有待解决。
(3)数据量大、算法时间复杂度较高
K均值算法的计算过程是一个不断迭代的过程,为寻找合适的聚类中心,需要不断的计算和调整才能对数据对象进行有效的聚类。这个过程中反复进行大量的对象间距离的计算,所以K均值聚类过程会消耗大量时间,降低聚类运算效率。
为了解决K值初始化问题,目前采用的方式是手肘法与轮廓系数法。这两种方法都需要对数据进行多次聚类得到每次的聚类结果,再通过不同的评估标准来选取最优的K值。这两种方法需要进行多次不同K值的K均值聚类,这使得算法开销较大。
为了解决K值初始化问题,目前采用的方式是进行基于密度的聚类,根据密度的到簇,在求得质心作为K均值的初始质心。从层次聚类中提取K个簇,并用这些簇的质心作为初始质心。该方法通常很有效,但仅对下列情况有效,样本相对较小,例如数百到数千(层次聚类开销较大),K相对于样本大小较小。
本发明针对目前初始化K值与质心存在的问题,给出了一种开销较小的初始化方法。
发明内容
针对现有技术的不足,本发明提供一种面向K均值聚类算法的质心以及质心个数初始化方法。相比传统K均值聚类算法,本发明的算法无需提供K值,对于未知簇个数的数据可以得到准确的K值,满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。
本发明采用的技术方案如下:
一种面向K均值聚类算法的质心以及质心个数初始化方法,包括以下步骤:
步骤1:对数据集中的数据进行聚类特征提取,将数据提取出新的特征,其中,聚类特征提取是指将一个二维数据映射到数据最密集的方向上;
步骤2:利用提取出的新的特征绘制密度曲线,将密度曲线极大值处的数据密度初始化为这一维数据的质心,根据获得的质心将当前这一维数据划分为若干簇,再根据所得的簇将数据集划分为若干簇,其中,密度曲线描述数据在所处位置处的密集程度;
步骤3:利用叠加式簇的划分将高维数据划分为若干簇,其中,叠加式簇的划分是指通过每一维数据的叠加将数据划分为若干簇;最终得到的簇的个数初始化为K均值聚类的初值,再求取每个簇元素的平均值初始化为K均值聚类的质心。
优选地,步骤一中,对数据进行聚类特征提取的步骤进一步包括以下步骤:
步骤1.1:将数据离散化,这里采用等距离散化,通过预先设置好的阈值N,将数据最大值与最小值之间的距离等分为N个区间,其中,N为区间个数;
步骤1.2:先计算数据出现在第i(i=1,2,...,N)个区间的概率pi,然后计算出N个区间的信息熵H(U),H(U)表示描述数据的混乱程度的量,其中U为N个区间的集合,表示出现在这些区间中的数据的信息熵,将每一维数据按照信息熵由小到大进行排序,信息熵越小,数据的混乱程度越小,聚类的特征越明显,其中,信息熵H(U)的计算式为:
步骤1.3:对于有n条数据m个属性的数据集,用x1,x2,x3,...xm来表示每一维的属性,选取x1和x2分别作为X轴与Y轴坐标,这里用x和y来表示,首先从数据集中提取两维信息熵较小的数据进行处理,有利于在开始时能够进行准确的簇的划分;
步骤1.4:求出平面的中心点其中为一个点对应着步骤1.3中两维数据的均值,其中,xi表示步骤1.3中两维数据的组成的点,n表示共有n个数据,求出平面的中心点的计算式为:
步骤1.5:其中S表示原始数据的协方差矩阵,假设投影向量为u,u为变量,通过u表示出转置后的方差有利于之后问题的求解,则投影后的方差为:
步骤1.6:对(3)式等号右边使用拉格朗日乘子法进行计算,将该投影后方差最小化,这是一个典型的有约束优化问题,利用拉格朗日乘子法,设定乘子为λ1,S表示原始数据的协方差矩阵,u为投影向量,则优化问题转换为:
uTSu=uTSu+λ1(1-uTu) (4);
步骤1.7:对(4)式求导并且使之为0,计算出方差的极大值点与极小值点,得到等式:
Su=λ1u (5)
在极小值点求出此时的u向量,再求出u的正交向量r,将数据分别映射到u向量和r向量上,得到数据分别为k1和k2,此时映射在u向量上的数据方差最小,从而得到新的坐标系,同时将两个维度的数据更新得到数据k1和k2,分别对应X轴与Y轴坐标,其中,k1=[uX1,uX2,uX3,…,uXi,…,uXn],k2=[rX1,rX2,rX3,…,rXi,…,rXn],Xi为步骤1.4中数据,n为步骤1.3中数据,λ1为乘子,S表示原始数据的协方差矩阵,u为投影向量。
优选地,步骤二中,利用提取出的新的特征绘制密度曲线的步骤包括以下步骤:
步骤2.1:将k1中元素进行升序排序,其中k1为步骤1.7中所得数据,得到k1,1,k1,2,k1,3,...k1,m,求出两两数据之间的距离得到新的一维数据d1,d2,d3,...,dm-1,其中di=k1,i+1-k1,i,di表示为每两个相邻数据之间的距离,其中k1为步骤1.7中所得的数据;
步骤2.2:通过数据之间的距离来表示密度,将求得的每两个相邻数据之间的距离di放入如下函数中,得到:
将yi作为对应Y轴的数据,k1的位置作为X轴数据,绘制出密度曲线图,密度曲线表示一维数据所处位置的数据密度,值越大表示密度越大;
步骤2.3:步骤2得到的密度曲线图波动较大,对曲线进行滤波处理,使曲线变得平滑,如(7)所示,再通过调整滤波的次数得到合适的密度曲线,通过所述密度曲线能够得到若干极大值点,
Y1=y1
Y2=(y1+y2+y3)/3
Y3=(y1+y2+y3+y4+y5)/5
Y4=(y2+y3+y4+y5+y6)/5
......
Yi=(yi-2+yi-1+yi+yi+1+yi+2)/5 (7)
其中,yi为步骤2.2所得的数据,Yi为yi滤波之后所得的数据。
优选地,步骤三中,利用叠加式簇的划分将高维数据划分为若干簇的步骤进一步包括以下步骤:
步骤3.1:在密度曲线中找出极大值点,将极大值点作为一维数据k1的质心,将距离同一质心较近的数据划分为一个簇,将数据分为若干个簇,每个簇形成新的数据集,将簇中删去x1,x2这两个属性,将之前提取新的特征所得的数据k2存入数据集中;其中k1,k2为步骤1.7所得的数据;
步骤3.2:形成新的若干簇之后,将每一个簇中的数据都作为新的数据集都执行上述步骤1至步骤3.1,直到数据集中只剩下一维数据,最后根据这一维数据继续绘制密度曲线,完成最终簇的划分;
步骤3.3:将最终所得的簇对应到原始数据中,求出每个簇中元素的平均值,最终所得数据作为K均值聚类的初始化质心,同时簇的个数确定为K均值聚类的K值,完成K均值聚类的初始化。
与现有技术相比,本发明的有益效果在于:
(1)确定K值:K均值算法中K表示聚簇个数,K的取值决定聚类结果,K值的选取需要根据实际的需求来确定,但通常情况下我们并不知道需将数据集聚为多少个类簇最合适,因此相比现有的手肘法与轮廓系数法需要进行多次聚类而言,本发明针对K值的选取提供了一种开销较小的方法;
(2)算法稳定性更高:K均值算法初始聚类中心是随机选择的,初始中心点选取的好坏会导致最终聚类效果,选取不同初始聚类中心,会使得最终聚类得到的类簇发生变化,本发明算法在初始化质心之后,可以使得算法所得结果更加稳定,使得最终聚类的簇不会发生变化;
(3)减少开销:K均值算法的计算过程是一个不断迭代的过程,为寻找合适的聚类中心,需要不断的计算和调整才能对数据对象进行有效的聚类,这个过程中反复进行大量的对象间距离的计算,所以K均值聚类过程每一次迭代都会消耗大量时间,影响聚类的效率,本发明算法初始化质心后可以大致确定质心的位置,可以减少迭代次数,减少算法开销。
附图说明
图1为本发明的算法的流程示意图;
图2为本发明的聚类特征提取示意图;
图3为本发明的密度曲线效果图;
图4为本发明的叠加式簇的划分示意图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的思路是从集数据的特征与数据的密度等方面来考虑,通过初始化K均值聚类的K值和质心来提高算法的稳定性和减少初始化后K均值聚类迭代的次数。
如图1所示,图1为本发明的算法的流程示意图。本发明提供的一种面向K均值聚类算法的质心以及质心个数初始化方法主要包括三个步骤,首先对数据聚类特征的提取,将新提取的特征绘制出密度曲线,根据密度曲线来划分簇,再通过叠加式簇的划分来处理高维数据簇的划分。
具体地,一种面向K均值聚类算法的质心以及质心个数初始化方法,包括以下步骤:
步骤1:对数据集中的数据进行聚类特征提取,将数据提取出新的特征,其中,聚类特征提取是指将一个二维数据映射到数据最密集的方向上;
步骤2:利用提取出的新的特征绘制密度曲线,将密度曲线极大值处的数据密度初始化为这一维数据的质心,根据获得的质心将当前这一维数据划分为若干簇,再根据所得的簇将数据集划分为若干簇,其中,密度曲线描述数据在所处位置处的密集程度;
步骤3:利用叠加式簇的划分将高维数据划分为若干簇,其中,叠加式簇的划分是指通过每一维数据的叠加将数据划分为若干簇;最终得到的簇的个数初始化为K均值聚类的初值,再求取每个簇元素的平均值初始化为K均值聚类的质心。
具体地,步骤1中,对数据进行聚类特征提取,将数据提取出新的特征,如图2所示。提取的新的数据特征可以使得数据的聚类数据尽可能的密集,而使聚类数据尽可能的密集是叠加式簇的划分的前提。
步骤1进一步包括以下步骤:
步骤1.1:将数据离散化,这里采用等距离散化,通过预先设置好的阈值N(N为划分的区间个数),将数据最大值与最小值之间的距离等分为N个区间。这里通过数据离散化将相近的数据模糊处理,可以有效地对精度不同的数据计算信息熵。
步骤1.2:计算数据出现在这些区间的概率pi(pi表示数据出现在第i个区间的概率,i=1,2,...,N),然后计算出这些区间的信息熵H(U)(H(U)表示描述数据的混乱程度的量,其中U为N个区间的集合,表示出现在这些区间中的数据的信息熵),将每一维数据按照信息熵由小到大排序。这使得数据的混乱程度也是由小到大进行排序,数据的混乱程度越小那么聚类的特征就越明显。
步骤1.3:有n条数据m个属性的数据集,将每一维的属性用x1,x2,x3,...xm来表示。首先选取x1和x2分别作为X轴与Y轴坐标,这里用x和y来表示。首先从数据集中提取两维信息熵较小的数据进行处理,这样有利于在开始时能够进行准确的簇的划分。
步骤1.4:求出平面的中心点(两维数据的平均值),xi表示第i个数据,n表示共有n个数据,求出两维数据的均值:
步骤1.5:其中S表示原始数据的协方差矩阵,假设投影向量为u(u为数据投影的方向向量),这里的u为变量,通过u表示出转置后的方差有利于之后问题的求解,则投影后的方差为:
步骤1.6:将(3)式等号右边使用拉格朗日乘子法计算,下面我们需要最小化这个方差。这是一个典型的有约束优化问题,利用拉格朗日乘子法,假设乘子为λ1,那么优化问题可以成为:
uTSu=uTSu+λ1(1-uTu) (4)
步骤1.7:将(4)式求导并且使之为0,可以求出方差的极大值点与极小值点,得到等式:
Su=λ1u (5)
在极小值点求出此时的u向量,再求出u的正交向量r,将数据分别映射到u向量和r向量上。得到数据分别为k1和k2,此时映射在u向量上的数据方差最小。这样可以得到新的坐标系,同时将两个维度的数据更新得到数据k1和k2,分别对应X轴与Y轴坐标,其中,k1=[uX1,uX2,uX3,…,uXi,…,uXn],k2=[rX1,rX2,rX3,…,rXi,…,rXn],Xi为步骤1.4中数据,n为步骤1.3中数据,λ1为乘子,S表示原始数据的协方差矩阵,u为投影向量。
步骤2中,将这这些特征绘制密度曲线,效果图如图3所示,将密度曲线极大值处的数据密度初始化为这一维数据的质心,根据获得的质心将当前这一维数据划分为若干簇,再根据所得的簇将数据集划分为若干簇。
步骤2进一步包括以下步骤:
步骤2.1:绘制密度曲线,将k1中元素进行升序排序,其中k1为步骤1.7中所得数据,得到k1,1,k1,2,k1,3,...k1,m,再求出两两数据之间的距离得到新的一维数据d1,d2,d3,...,dm-1,其中di=k1,i+1-k1,i。di表示为每两个相邻数据之间的距离。
步骤2.2:通过数据之间的距离来表示密度。将求得的距离之间的数据放入函数中
则将yi作为对应Y轴的数据,k1的位置作为X轴数据,绘制出曲线图。
步骤2.3:此时的曲线图波动会比较大。将曲线进行滤波处理,使得曲线变得平滑,如(7)式所示,
Y1=y1
Y2=(y1+y2+y3)/3
Y3=(y1+y2+y3+y4+y5)/5
Y4=(y2+y3+y4+y5+y6)/5
......
Yi=(yi-2+yi-1+yi+yi+1+yi+2)/5 (7)
其中,yi为步骤2.2所得的数据,Yi为yi滤波之后所得的数据。再通过调整滤波的次数得到合适的曲线,该曲线表示的含义为在这个一维数据的位置的数据密度,值越大表示密度越大,反之表示密度越小。此时可以得到若干极大值点。
步骤3中,将高维数据通过叠加式簇的划分,将数据划分为若干簇。最终得到的簇的个数初始化为K均值聚类的初值,再求取每个簇元素的平均值初始化为K均值聚类的质心。
如图4所示,步骤3进一步包括以下步骤:
步骤3.1:进行叠加式簇的划分,在密度曲线中找出极大值点,将极大值点作为一维数据k1的质心,将距离同一质心较近的数据划分为一个簇,将数据分为若干个簇。每个簇成新的数据集,将簇中删去x1,x2这两个属性。将之前提取特征所得的数据k2存入数据集中;其中k1,k2为步骤1.7所得的数据。
步骤3.2:形成新的若干簇之后,将每一个簇都作为新的数据集都执行上述步骤1至步骤3.1,直到数据集中只剩下一维数据。最后根据这一维数据继续绘制密度曲线,完成簇的划分。
步骤3.3:将最终所得的簇对应到原始数据中,求出每个簇中元素的平均值,最终所得数据作为K均值聚类的初始化质心,同时簇的个数确定为K均值聚类的K值。最终完成K均值聚类的初始化。
本发明充分考虑了数据的维度、分布以及数据的特征。将数据离散后,计算每一维度数据的信息熵。根据信息熵排序选出两个混乱数据程度最低的数据,通过降维找出特征最小的方向作为X轴重新建立坐标系,生成新的两维数据。通过X轴数据绘制密度曲线,将已有数据分为若干簇。Y轴数据代替原来两个信息熵较低的数据继续进行计算,直到所有维度数据都参与运算。最终得到若干簇,通过原数据计算质心。最后通过传统K均值聚类使得质心更加精准。相比传统K均值聚类算法,该算法无需提供K值,其中K值为K均值聚类中质心的个数,对于未知簇个数的数据可以得到准确的K值。并且初始化质心后可以减少迭代次数,快速收敛。同时提高K均值算法的稳定性,使得聚类之后的结果不会因为随机质心而产生影响。本发明满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种面向K均值聚类算法的质心以及质心个数初始化方法,其特征在于,包括以下步骤:
步骤1:对数据集中的数据进行聚类特征提取,将数据提取出新的特征,其中,聚类特征提取是指将一个二维数据映射到数据最密集的方向上;
步骤2:利用提取出的新的特征绘制密度曲线,将密度曲线极大值处的数据密度初始化为这一维数据的质心,根据获得的质心将当前这一维数据划分为若干簇,再根据所得的簇将数据集划分为若干簇,其中,密度曲线描述数据在所处位置处的密集程度;
步骤3:利用叠加式簇的划分将高维数据划分为若干簇,其中,叠加式簇的划分是指通过每一维数据的叠加将数据划分为若干簇;最终得到的簇的个数初始化为K均值聚类的初值,再求取每个簇元素的平均值初始化为K均值聚类的质心。
2.根据权利要求1所述的一种面向K均值聚类算法的质心以及质心个数初始化方法,其特征在于,步骤一中,对数据进行聚类特征提取的步骤进一步包括以下步骤:
步骤1.1:将数据离散化,这里采用等距离散化,通过预先设置好的阈值N,将数据最大值与最小值之间的距离等分为N个区间,其中,N为区间个数;
步骤1.2:先计算数据出现在第i(i=1,2,...,N)个区间的概率pi,然后计算出N个区间的信息熵H(U),H(U)表示描述数据的混乱程度的量,其中U为N个区间的集合,表示出现在这些区间中的数据的信息熵,将每一维数据按照信息熵由小到大进行排序,信息熵越小,数据的混乱程度越小,聚类的特征越明显,其中,信息熵H(U)的计算式为:
步骤1.3:对于有n条数据m个属性的数据集,用x1,x2,x3,...xm来表示每一维的属性,选取x1和x2分别作为X轴与Y轴坐标,这里用x和y来表示,首先从数据集中提取两维信息熵较小的数据进行处理,有利于在开始时能够进行准确的簇的划分;
步骤1.4:求出平面的中心点其中为一个点对应着步骤1.3中两维数据的均值,其中,xi表示步骤1.3中两维数据的组成的点,n表示共有n条数据,求出平面的中心点的计算式为:
步骤1.5:其中S表示原始数据的协方差矩阵,假设投影向量为u,u为变量,通过u表示出转置后的方差有利于之后问题的求解,则投影后的方差为:
步骤1.6:对(3)式等号右边使用拉格朗日乘子法进行计算,将该投影后方差最小化,这是一个典型的有约束优化问题,利用拉格朗日乘子法,设定乘子为λ1,S表示原始数据的协方差矩阵,u为投影向量,则优化问题转换为:
uTSu=uTSu+λ1(1-uTu) (4);
步骤1.7:对(4)式求导并且使之为0,计算出方差的极大值点与极小值点,得到等式:
Su=λ1u (5)
在极小值点求出此时的u向量,再求出u的正交向量r,将数据分别映射到u向量和r向量上,得到数据分别为k1和k2,此时映射在u向量上的数据方差最小,从而得到新的坐标系,同时将两个维度的数据更新得到数据k1和k2,分别对应X轴与Y轴坐标,其中,k1=[uX1,uX2,uX3,…,uXi,…,uXn],k2=[rX1,rX2,rX3,…,rXi,…,rXn],Xi为步骤1.4中数据,n为步骤1.3中数据,λ1为乘子,S表示原始数据的协方差矩阵,u为投影向量。
3.根据权利要求2所述的一种面向K均值聚类算法的质心以及质心个数初始化方法,其特征在于,步骤二中,利用提取出的新的特征绘制密度曲线的步骤包括以下步骤:
步骤2.1:将k1中元素进行升序排序,其中k1为步骤1.7中所得数据,得到k1,1,k1,2,k1,3,...k1,m,求出两两数据之间的距离得到新的一维数据d1,d2,d3,...,dm-1,其中di=k1,i+1-k1,i,di表示为每两个相邻数据之间的距离,其中k1为步骤1.7中所得的数据;
步骤2.2:通过数据之间的距离来表示密度,将求得的每两个相邻数据之间的距离di放入如下函数中,得到:
将yi作为对应Y轴的数据,k1的位置作为X轴数据,绘制出密度曲线图,密度曲线表示一维数据所处位置的数据密度,值越大表示密度越大;
步骤2.3:步骤2得到的密度曲线图波动较大,对曲线进行滤波处理,使曲线变得平滑,如(7)所示,再通过调整滤波的次数得到合适的密度曲线,通过所述密度曲线能够得到若干极大值点,
Y1=y1
Y2=(y1+y2+y3)/3
Y3=(y1+y2+y3+y4+y5)/5
Y4=(y2+y3+y4+y5+y6)/5
......
Yi=(yi-2+yi-1+yi+yi+1+yi+2)/5 (7)
其中,yi为步骤2.2所得的数据,Yi为yi滤波之后所得的数据。
4.根据权利要求3所述的一种面向K均值聚类算法的质心以及质心个数初始化方法,其特征在于,步骤三中,利用叠加式簇的划分将高维数据划分为若干簇的步骤进一步包括以下步骤:
步骤3.1:在密度曲线中找出极大值点,将极大值点作为一维数据k1的质心,将距离同一质心较近的数据划分为一个簇,将数据分为若干个簇,每个簇形成新的数据集,将簇中删去x1,x2这两个属性,将之前提取新的特征所得的数据k2存入数据集中;其中k1,k2为步骤1.7所得的数据;
步骤3.2:形成新的若干簇之后,将每一个簇中的数据都作为新的数据集都执行上述步骤1至步骤3.1,直到数据集中只剩下一维数据,最后根据这一维数据继续绘制密度曲线,完成最终簇的划分;
步骤3.3:将最终所得的簇对应到原始数据中,求出每个簇中元素的平均值,最终所得数据作为K均值聚类的初始化质心,同时簇的个数确定为K均值聚类的K值,完成K均值聚类的初始化。
CN201811245231.3A 2018-10-24 2018-10-24 一种面向k均值聚类算法的质心以及质心个数初始化方法 Pending CN109472300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811245231.3A CN109472300A (zh) 2018-10-24 2018-10-24 一种面向k均值聚类算法的质心以及质心个数初始化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811245231.3A CN109472300A (zh) 2018-10-24 2018-10-24 一种面向k均值聚类算法的质心以及质心个数初始化方法

Publications (1)

Publication Number Publication Date
CN109472300A true CN109472300A (zh) 2019-03-15

Family

ID=65664083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811245231.3A Pending CN109472300A (zh) 2018-10-24 2018-10-24 一种面向k均值聚类算法的质心以及质心个数初始化方法

Country Status (1)

Country Link
CN (1) CN109472300A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276449A (zh) * 2019-06-24 2019-09-24 深圳前海微众银行股份有限公司 一种无监督学习方法及装置
CN110705602A (zh) * 2019-09-06 2020-01-17 平安科技(深圳)有限公司 大规模数据聚类方法、装置及计算机可读存储介质
CN111141418A (zh) * 2019-12-30 2020-05-12 深圳数联天下智能科技有限公司 睡眠温度曲线的确定方法、装置及计算设备
CN113010597A (zh) * 2021-04-06 2021-06-22 东北大学 一种面向海洋大数据的并行关联规则挖掘方法
CN113283502A (zh) * 2021-05-24 2021-08-20 平安国际融资租赁有限公司 基于聚类的设备状态阈值确定方法和装置
WO2023160778A1 (en) * 2022-02-23 2023-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Initialization of k-means clustering technique for anomaly detection in communication network monitoring data
CN117454671A (zh) * 2023-12-22 2024-01-26 广东力宏微电子有限公司 基于人工智能的场效应管寿命评估方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276449A (zh) * 2019-06-24 2019-09-24 深圳前海微众银行股份有限公司 一种无监督学习方法及装置
CN110276449B (zh) * 2019-06-24 2021-06-04 深圳前海微众银行股份有限公司 一种基于无监督学习的数据处理方法及装置
CN110705602A (zh) * 2019-09-06 2020-01-17 平安科技(深圳)有限公司 大规模数据聚类方法、装置及计算机可读存储介质
CN111141418A (zh) * 2019-12-30 2020-05-12 深圳数联天下智能科技有限公司 睡眠温度曲线的确定方法、装置及计算设备
CN111141418B (zh) * 2019-12-30 2021-07-16 深圳数联天下智能科技有限公司 睡眠温度曲线的确定方法、装置及计算设备
CN113010597A (zh) * 2021-04-06 2021-06-22 东北大学 一种面向海洋大数据的并行关联规则挖掘方法
CN113010597B (zh) * 2021-04-06 2023-08-01 东北大学 一种面向海洋大数据的并行关联规则挖掘方法
CN113283502A (zh) * 2021-05-24 2021-08-20 平安国际融资租赁有限公司 基于聚类的设备状态阈值确定方法和装置
CN113283502B (zh) * 2021-05-24 2023-04-28 平安国际融资租赁有限公司 基于聚类的设备状态阈值确定方法和装置
WO2023160778A1 (en) * 2022-02-23 2023-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Initialization of k-means clustering technique for anomaly detection in communication network monitoring data
CN117454671A (zh) * 2023-12-22 2024-01-26 广东力宏微电子有限公司 基于人工智能的场效应管寿命评估方法
CN117454671B (zh) * 2023-12-22 2024-04-12 广东力宏微电子有限公司 基于人工智能的场效应管寿命评估方法

Similar Documents

Publication Publication Date Title
CN109472300A (zh) 一种面向k均值聚类算法的质心以及质心个数初始化方法
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
Singh et al. Svm-bdt pnn and fourier moment technique for classification of leaf shape
Srivastava et al. A review: color feature extraction methods for content based image retrieval
CN103207879A (zh) 图像索引的生成方法及设备
Chen et al. Cf-vit: A general coarse-to-fine method for vision transformer
CN104112018B (zh) 一种大规模图像检索方法
CN103136751A (zh) 一种改进型sift图像特征匹配算法
CN108595688A (zh) 基于在线学习的潜在语义跨媒体哈希检索方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN102663447A (zh) 基于判别相关分析的跨媒体检索方法
Wang et al. Geometric VLAD for large scale image search
CN103839074A (zh) 一种基于素描线段信息和空间金字塔匹配的图像分类方法
CN103761503A (zh) 用于相关反馈图像检索的自适应训练样本选取方法
Zhang et al. Improvement of K-means algorithm based on density
Keyvanpour et al. Feature weighting for improving document image retrieval system performance
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
CN108549915A (zh) 基于二值权重的图像哈希码训练模型算法及分类学习方法
Xia et al. Granular-ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method
CN109919057B (zh) 一种基于高效卷积神经网络的多模态融合手势识别方法
CN108805886B (zh) 一种多融合物理签名的持久性聚类分割方法
CN106384127B (zh) 为图像特征点确定比较点对及二进制描述子的方法及系统
Zou et al. A 3D model feature extraction method using curvature-based shape distribution
CN110413777A (zh) 一种对长文本生成特征向量实现分类的系统
CN113225300B (zh) 一种基于图像的大数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315