CN110222747A

CN110222747A - 一种优化的聚类方法

Info

Publication number: CN110222747A
Application number: CN201910439344.5A
Authority: CN
Inventors: 王鑫; 张香梁; 吕国芳; 宁晨; 马贞立
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-10
Anticipated expiration: 2039-05-24
Also published as: CN110222747B

Abstract

本发明公开了一种优化的聚类方法，具体包括如下步骤：S1：选取数据集中的像素点，组建密集点集合Y；S2：从密集点集合Y中选取像素点组建集合Q；S3：在数据集中选取m个像素点，组建备选的初始聚类中心点集C；S4：将密集点集合Y中的像素点划分到集合Q中的各初始聚类中心所在的类中，获取第一次聚类的平均最大相似度；S5：获取最小聚类平均最大相似度；S6：将最小聚类平均最大相似度对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心，进行kmeans聚类，获取聚类结果。本发明为了减小噪声对于数据的干扰，使用密度分布函数排除密度稀疏点，剔除一些噪声干扰点和异常点，选出最优的初始聚类中心，从而确定出最优聚类的数目k值，提高聚类精度。

Description

一种优化的聚类方法

技术领域

本发明涉及信号与信息处理技术领域，尤其涉及一种优化的聚类方法。

背景技术

随着人工智能、互联网的发展，获取大规模数据变得越来越容易，各种数据平台的快速发展逐渐奠定了当代大数据应用的基础。同时在对大量数据进行初步加工的过程中，往往要求将某些相似的数据进行分类，而聚类就是其中一种利用数据的分布特点进行数据加工的常用技术。聚类是一种无监督的学习，它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象，簇内的对象越相似，聚类的效果就越好。

Kmeans算法是著名的聚类算法，因为实现起来比较简单，所以是应用最广研究最多的聚类算法之一。Kmeans算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。Kmeans算法收敛速度快，聚类效果较优，主要需要调参的参数仅仅是簇数k。但是kmeans算法对噪音和异常点比较的敏感，k值的选取不好把握，随机选择聚类中心等缺点都会影响聚类效果。

发明内容

发明目的：针对在现有聚类方法中，最优聚类的数目k值不易选取的问题，本发明提出一种优化的聚类方法。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

一种优化的聚类方法，所述方法具体包括如下步骤：

S1：将图像中所有的像素点集中在一个数据集中，计算所述数据集中每个像素点的密度函数值，选出所述数据集中密度函数值不小于数据集的平均密度函数值的像素点，由所述不小于平均密度函数值的像素点组建密集点集合Y；

S2：从所述密集点集合Y中选取两个像素点，组建集合Q；

S3：在所述数据集中通过焦点统计方法选取m个像素点，由所述选取出的m个像素点组建备选的初始聚类中心点集C，其中选取出的像素点的个数，具体为：

m＝η/2

其中：m为选取出的像素点的个数，η为密集点集合中Y元素的个数；

S4：将所述密集点集合Y中的像素点划分到集合Q中的各个初始聚类中心所在的类中，获取第一次聚类的平均最大相似度；

S5：从所述备选的初始聚类中心点集C中选择一个像素点，添加至所述集合Q中，作为所述集合Q中的一个新初始聚类中心，并将所述像素点在备选的初始聚类中心点集C中删除，重复步骤S4-步骤S5，将每次聚类的平均最大相似度进行比较，选出聚类平均最大相似度的最小值；

S6：将所述聚类平均最大相似度最小值对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心，进行kmeans聚类，获取聚类结果。

进一步地讲，所述步骤S1由不小于平均密度值的像素点组建密集点集合Y，具体如下：

S1.1：在所述数据集中，以所述数据集中的像素点为圆心，通过预设半径画圆，由在所述圆内的其他像素点，组建所述像素点的最近邻集合G_b(x_i)；

S1.2：根据所述像素点和像素点的最近邻集合G_b(x_i)，获取所述像素点和最近邻集合G_b(x_i)中各个最近邻点之间的距离，确定像素点的密度函数值，具体为：

其中：DF(x_i)为像素点的密度函数值，b为像素点的最近邻集合G_b(x_i)中的最近邻点的个数，d(x_i,g_f)为像素点和最近邻点之间的距离，δ为邻域半径；

S1.3：通过所述像素点的密度函数值，获取所述数据集的平均密度函数值，在所述数据集中选出密度函数值不小于数据集的平均密度函数值的像素点，组建密集点集合Y，其中密度函数值不小于平均密度函数值的像素点的密度函数值，具体为：

其中：DF(x_β)为像素点的密度函数值，为平均密度函数值，n为数据集中像素点的数目。

进一步地讲，所述步骤S2组建集合Q，具体如下：

S2.1：在所述密集点集合Y中，将所有像素点的密度函数值进行比较，选出最大密度函数值对应的像素点，作为第一个初始聚类中心；

S2.2：在所述密集点集合Y中，选出距离所述第一个初始聚类中心最远的像素点，作为第二个初始聚类中心；

S2.3：由所述第一个初始聚类中心和第二个初始聚类中心，组建集合Q。

进一步地讲，所述步骤S3由选取出的m个像素点组建备选的初始聚类中心点集C，具体如下：

S3.1：将所述数据集均分为m等分，其中所述等分的个数，具体为：

m＝η/2

其中：m为选取出的像素点的个数，η为密集点集合Y中元素的个数；

S3.2：在每个所述等分中，比较所有像素点对应的密度函数值，选出所述等分中最大密度函数值对应的像素点，通过每个所述等分中选取出的像素点，组建备选的初始聚类中心点集C。

进一步地讲，所述步骤S4获取第一次聚类的平均最大相似度和标准相似度，具体如下：

S4.1：获取所述密集点集合Y中的各个像素点的像素值，与集合Q中的各个初始聚类中心的像素值之间的像素值差的大小，通过所述像素值差的比较，将所述像素点划分到像素值差最小的初始聚类中心所在的类中；

S4.2：根据所述分类，获取第一次聚类的平均最大相似度，具体为：

其中：

AS₁为第一次聚类的平均最大相似度，s_j为除s_i对应的类之外的其他类中每个数据点到其聚类中心之间距离的均值，q为集合Q中初始聚类中心的个数，|Q_i|为类Q_i中数据点的个数，||y-q_i||为类Q_i中的数据点与类Q_i中初始聚类中心之间的距离，s_i,j为集合Q中初始聚类中心之间的距离，i为s_i对应的类，j为s_j对应的类。

进一步地讲，所述步骤S5选出聚类平均最大相似度的最小值，具体如下：

S5.1：从所述备选的初始聚类中心点集C中选择一个像素点，添加至所述集合Q中，作为所述集合Q中的一个新初始聚类中心，并将所述像素点在备选的初始聚类中心点集C中删除，重复步骤S4，获取第二次聚类的平均最大相似度；

S5.2：将所述第二次聚类的平均最大相似度与第一次聚类的平均最大相似度进行比较，当所述第二次聚类的平均最大相似度大于第一次聚类的平均最大相似度时，所述第一次聚类的平均最大相似度为聚类平均最大相似度的最小值；

当所述第二次聚类的平均最大相似度不大于第一次聚类的平均最大相似度时，重复步骤S5.1-S5.2，获取下一次聚类的平均最大相似度，直至第n次聚类的平均最大相似度大于第n-1次聚类的平均最大相似度，确定所述第n-1次聚类的平均最大相似度为聚类平均最大相似度的最小值。

进一步地讲，在所述备选初始聚类中心点集C中选取像素点，具体为：先计算所述备选初始聚类中心点集C中每个像素点的像素值与集合Q中各个初始聚类中心的像素值之间的像素值差大小，再将所述像素点与集合Q中各个初始聚类中心之间的像素值差进行相加，获取像素值差之和，最后将所述备选初始聚类中心点集C中每个像素点对应的像素值差之和进行比较，选择其中最大像素值差之和对应的像素点作为选取的像素点。

进一步地讲，所述步骤S6获取聚类结果，具体如下：

S6.1：根据所述密集点集合Y中的各个像素点的像素值，与所述聚类平均最大相似度最小值对应的集合Q中的各个聚类中心的像素值之间的像素值差大小，将所述密集点集合Y中的各个像素点，划分到像素值差最小的初始聚类中心所在的类中；

S6.2：根据所述划分的各个类，计算各类中所有像素点像素值的平均值，具体为：

其中：q'_i为类Q_i中所有像素点像素值的平均值，|Q_i|为类Q_i中像素点的个数，y为类Q_i中像素点的像素值；

S6.3：将所述各类中所有像素点像素值的平均值，与对应类中的聚类中心的像素值进行比较，当两者相等时，根据所述聚类平均最大相似度最小值对应的集合Q中的各个聚类中心，进行聚类的结果为输出结果；反之，将所述各类中聚类中心的像素值更改为各类中所有像素点像素值的平均值，重复步骤S6.1-步骤S6.3，直至所述各类中所有像素点像素值的平均值，与对应类中的聚类中心的像素值相等，此时获取的聚类结果为输出结果。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

本发明为了减小噪声对于数据的干扰，使用密度分布函数排除密度稀疏点，剔除一些噪声干扰点和异常点，即通过计算每个像素点的密度函数值来剔除异常点，在选出备选初始聚类中心后，计算数据划分后的平均最大相似度AS值，选出最优的初始聚类中心，从而确定出最优聚类的数目k值，提高聚类精度。

附图说明

图1是本发明的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。

实施例1

参考图1，本实施例提供了一种优化的聚类方法，在获取图像的数据集后，先计算数据集中每个像素点的密度函数值，去除数据集中异常的像素点。并选出两个密度函数值最大的像素点作为初始聚类中心，放入点集D中，同时选出备选初始聚类中心点集C。像素点根据选择出的聚类中心进行迭代划分，计算此时的平均最大相似度AS值。当平均最大相似度AS值小于之前或者给定的平均最大相似度AS值时，从备选初始聚类中心中选择一个样本点放入点集Q，选择平均最大相似度AS值最小时的点集Q作为初始聚类中心，进行kmeans聚类，输出结果。具体步骤如下：

步骤S1：将图像中的所有像素点集中在一个数据集中，也就是说，图像的数据集是由图像的所有像素点组合而成。在图像的数据集中，对数据集中的每个像素点进行计算，得到每个像素点的密度函数值，然后在数据集中将所有密度函数值小于数据集的平均密度函数值的像素点，进行删除。由所有密度函数值不小于平均密度函数值的像素点，组建密集点集合Y，其中图像的数据集，具体为：

X＝{x₁,x₂,...,x_n}

其中：X为图像的数据集，x_n为像素点。

在本实施例中，由所有密度函数值不小于平均密度函数值的像素点，组建密集点集合Y，具体如下：

步骤S1.1：在图像的数据集X中，以数据集中的任意一个像素点为圆心，通过预设半径画圆，则在该圆内的其他像素点，可以共同组建为该像素点的最近邻集合G_b(x_i)。

在本实施例中，是以像素点x_i为圆心，以领域半径δ＝0.5画圆，在半径为0.5的圆内的其他像素点，组建了像素点x_i的最近邻集合G_b(x_i)，且在最近邻集合G_b(x_i)中的任意最近邻点和像素点x_i之间的距离都不会大于领域半径δ的大小，具体为：

d(x_i,g_f)≤δ且g_f∈G_b(x_i)

其中：d(x_i,g_f)为像素点和最近邻点之间的距离，δ为邻域半径，G_b(x_i)为最近邻集合，g_f为最近邻集合中的最近邻点。

步骤S1.2：根据像素点x_i和像素点的最近邻集合G_b(x_i)，获取在像素点x_i的领域半径δ范围内所有最近邻点对该像素点x_i影响的函数之和，即像素点x_i的密度函数值DF(x_i)，具体为：

其中：DF(x_i)为像素点的密度函数值，b为像素点的最近邻集合G_b(x_i)中的最近邻点的个数，d(x_i,g_f)为像素点和最近邻点之间的距离，δ为邻域半径。

步骤S1.3：通过像素点x_i的密度函数值DF(x_i)和数据集X中所有像素点的数目，可以获取数据集X的平均密度函数值，通过每个像素点的密度函数值和数据集X的平均密度函数值之间的比较，可以将其中密度函数值小于平均密度函数值的像素点，在数据集X中删除，在数据集X中剩下的像素点，将组建密集点集合Y，从而在密集点集合Y中，将图像的数据集X中被噪声干扰的稀疏数据后的像素点进行了删除。

其中密度函数值不小于平均密度函数值的像素点，具体为：

步骤S2：从密集点集合Y中选出两个像素点，作为第一个初始聚类中心q₁和第二个初始聚类中心q₂，并将第一个初始聚类中心q₁和第二个初始聚类中心q₂放在同一个集合中，即集合Q，从而组建了集合Q，具体如下：

步骤S2.1：将密集点集合Y中所有像素点的密度函数值进行比较，选出其中密度函数值最大时对应的像素点，将该像素点作为第一个初始聚类中心q₁。

步骤S2.2：选出第一个初始聚类中心q₁后，从密集点集合Y的所有像素点中，选出距离第一个初始聚类中心q₁最远的像素点，将其作为第二个初始聚类中心q₂。

步骤S2.3：将第一个初始聚类中心q₁和第二个初始聚类中心q₂放在同一个集合中，从而组建了集合Q。

步骤S3：在数据集X中通过焦点统计的方法，选出m个像素点，并用选出的m个像素点，组建备选的初始聚类中心点集C，其中选取出的像素点的个数，具体为：

m＝η/2

其中：m为选取出的像素点的个数，η为密集点集合Y中元素的个数。

在本实施例中，组建备选的初始聚类中心点集C，具体如下：

步骤S3.1：将数据集X中所有的像素点平均分为m等分，其中m的大小，具体为：

m＝η/2

步骤S3.2：在每个均分的每个等分中，将在该等分中的所有像素点的密度函数值进行比较，从中选取出该等分中最大密度函数值对应的像素点。也就是说，从均分的m等分中，可以获取m个像素点。用选取出的m个像素点，可以组建备选的初始聚类中心点集C。

步骤S4：将密集点集合Y中的所有像素点，分别划分到集合Q中的各个初始聚类中心所在的类中，划分的原则是数值就近原则，也就是像素点的像素值与哪个初始聚类中心的像素值之间的像素值差最小，则像素点就划分到该初始聚类中心所在的类中。同时确定出第一次聚类的平均最大相似度。具体如下：

步骤S4.1：在第一次聚类中，集合Q中初始聚类中心只有两个，即第一个初始聚类中心q₁和第二个初始聚类中心q₂。获取密集点集合Y中的每个像素点的像素值与第一个初始聚类中心q₁的像素值之间的像素值差大小，还需要获取密集点集合Y中的每个像素点的像素值与第二个初始聚类中心q₂的像素值之间的像素值差大小。当像素点与第一个初始聚类中心q₁之间的像素值差大于像素点与第二个初始聚类中心q₂之间的像素值差时，该像素点则划分到第二个初始聚类中心q₂所在的类Q₂中。同样地，当像素点与第一个初始聚类中心q₁之间的像素值差小于像素点与第二个初始聚类中心q₂之间的像素值差时，该像素点则划分到第一个初始聚类中心q₁所在的类Q₁中。

在本实施例中，当像素点与第一个初始聚类中心q₁之间的像素值差等于像素点与第二个初始聚类中心q₂之间的像素值差时，则该像素点既可以划分到第一个初始聚类中心q₁所在的类Q₁中，也可以划分到第二个初始聚类中心q₂所在的类Q₂中，可以根据自身的需求，划分到其中的一个类中。

步骤S4.2：当密集点集合Y中的每个像素点都划分到对应的类后，可以获取到第一次聚类的平均最大相似度，也就是一个类与其他类的相似度大小，具体为：

其中：

AS₁为第一次聚类的平均最大相似度，s_j为除s_i对应的类之外的其他类中每个像素点到其聚类中心之间距离的均值，q为集合Q中初始聚类中心的个数，|Q_i|为类Q_i中像素点的个数，||y-q_i||为类Q_i中的像素点与类Q_i中初始聚类中心之间的距离，s_i,j为集合Q中初始聚类中心之间的距离，i为s_i对应的类，j为s_j对应的类。

步骤S5：从步骤S3中组建的备选初始聚类中心点集C中选择出一个像素点，并将该像素点添加到集合Q中，然后在备选初始聚类中心点集C中将该像素点删除。然后重复步骤S4，获取得到第二次聚类的平均最大相似度。最后将第二次聚类的平均最大相似度和第一次聚类的平均最大相似度进行比较，根据比较结果，决定是否需要获取第三次聚类的平均最大相似度、第四次聚类的平均最大相似度，甚至第n次聚类的平均最大相似度，直至能够选择出最小的聚类平均最大相似度。同样地，在对同一数据集的聚类平均最大相似度进行比较的过程中，可以知晓，同一数据集的聚类平均最大相似度是存在有最小值的，且所有聚类的平均最大相似度，在同一坐标轴上时，可以描绘为开口向上的抛物线。具体如下：

步骤S5.1：从步骤S3中组建的备选初始聚类中心点集C中选择出一个像素点，并将该像素点添加到集合Q中，然后在备选初始聚类中心点集C中将该像素点删除。然后重复步骤S4，获取得到第二次聚类的平均最大相似度。

在本实施例中，具体地讲，在备选初始聚类中心点集C中选出的像素点，具体如下：

计算每个像素点分别与集合Q中各个初始聚类中心之间的数值差大小，并将与集合Q中各个初始聚类中心之间的数值差进行相加，得到数值差之和。再将所有像素点与集合Q中各个初始聚类中心之间的数值差之和进行比较，选出其中最大数值差之和对应的像素点，该像素点就是在备选初始聚类中心点集C中选出的像素点。

步骤S5.2：将第二次聚类的平均最大相似度与第一次聚类的平均最大相似度进行比较，当第二次聚类的平均最大相似度大于第一次聚类的平均最大相似度时，则第一次聚类的平均最大相似度为最小的聚类平均最大相似度。当第二次聚类的平均最大相似度不大于第一次聚类的平均最大相似度时，则重复步骤S5.1-步骤S5.2，获取下一次聚类的平均最大相似度，直至第n次聚类的平均最大相似度大于第n-1次聚类的平均最大相似度，即确定出第n-1次聚类的平均最大相似度为最小的聚类平均最大相似度。

步骤S6：根据确定出的最小的聚类平均最大相似度，将最小聚类平均最大相似度对应的集合Q中的聚类中心作为最优kmeans聚类的初始聚类中心，进行kmeans聚类，输出结果。具体如下：

步骤S6.1：根据确定出的最小的聚类平均最大相似度，可以确定出最小聚类平均最大相似度对应的集合Q中的聚类中心的数目，也就可以知道本次聚类过程中，类的数目。其中类的数目与聚类中心的数目相同。

然后按照数值就近原则将数据集中的像素点划分到其对应的类中。也就是说，通过比较像素点的像素值与各个聚类中心的像素值之间的像素值差大小，将像素点划分到与其像素值差最小的聚类中心所在的类中。若像素点到各个聚类中心之间的像素值差相同时，可以根据实际情况，任意划分到其中的一个类中。

步骤S6.2：根据划分的各个类，计算出各个类中所有像素点像素值的平均值，具体为：

其中：q'_i为类Q_i中所有像素点像素值的平均值，|Q_i|为类Q_i中像素点的个数，y为类Q_i中像素点的像素值。

步骤S6.3：将步骤S6.2中计算出的各个类中所有像素点像素值的平均值，与其对应类中的聚类中心的像素值，进行比较。当该类中的聚类中心的像素值大小，与该类中计算得到的所有像素点像素值的平均值相等时，则此时的聚类结果为输出结果。

当该类中的聚类中心的像素值大小，与该类中计算得到的所有像素点像素值的平均值不相等时，将各类中聚类中心的像素值大小，更改为该类计算得到的所有像素点像素值的平均值，然后重复步骤S6.1-步骤S6.3，直至各类计算出的所有像素点像素值的平均值与各类中聚类中心的像素值大小相等。此时获取的聚类结果即为输出结果。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构和方法并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均属于本发明的保护范围。

Claims

1.一种优化的聚类方法，其特征在于，所述方法具体包括如下步骤：

S2：从所述密集点集合Y中选取两个像素点，组建集合Q；

m＝η/2

2.根据权利要求1所述的一种优化的聚类方法，其特征在于，所述步骤S1由不小于平均密度值的像素点组建密集点集合Y，具体如下：

3.根据权利要求1或2所述的一种优化的聚类方法，其特征在于，所述步骤S2组建集合Q，具体如下：

4.根据权利要求3所述的一种优化的聚类方法，其特征在于，所述步骤S3由选取出的m个像素点组建备选的初始聚类中心点集C，具体如下：

m＝η/2

5.根据权利要求4所述的一种优化的聚类方法，其特征在于，所述步骤S4获取第一次聚类的平均最大相似度和标准相似度，具体如下：

且i≠j

其中：

6.根据权利要求5所述的一种优化的聚类方法，其特征在于，所述步骤S5选出聚类平均最大相似度的最小值，具体如下：

7.根据权利要求6所述的一种优化的聚类方法，其特征在于，在所述备选初始聚类中心点集C中选取像素点，具体为：先计算所述备选初始聚类中心点集C中每个像素点的像素值与集合Q中各个初始聚类中心的像素值之间的像素值差大小，再将所述像素点与集合Q中各个初始聚类中心之间的像素值差进行相加，获取像素值差之和，最后将所述备选初始聚类中心点集C中每个像素点对应的像素值差之和进行比较，选择其中最大像素值差之和对应的像素点作为选取的像素点。

8.根据权利要求6所述的一种优化的聚类方法，其特征在于，所述步骤S6获取聚类结果，具体如下：

其中：q′_i为类Q_i中所有像素点像素值的平均值，|Q_i|为类Q_i中像素点的个数，y为类Q_i中像素点的像素值；