CN112308160A

CN112308160A - 一种k—均值聚类人工智能优化算法

Info

Publication number: CN112308160A
Application number: CN202011228161.8A
Authority: CN
Inventors: 孙艺; 王天棋; 姜堃; 孙学慧; 张长波
Original assignee: Hantang Zhihua Shenzhen Technology Development Co ltd
Current assignee: Hantang Zhihua Shenzhen Technology Development Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-02

Abstract

本发明提供一种K—均值聚类人工智能优化算法，包括：S1、输入数据集、聚类数目和初始阈值；S2、确定初始聚类点；在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心；S3、针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径；S4、根据聚类中心，对所述数据集中的数据对象进行划分；对所述数据集中的数据对象寻找距离最近的类心，更新阈值，根据阈值判定所述数据对象属于第k类的下近似或边界区域；S5、更新每个类的均值；S6、重复执行S3—S5，直至迭代满足结束迭代条件或者达到设定迭代次数上限，则输出结果。本发明给出了一种K—均值聚类人工智能优化算法，实现了对多维数据的粗糙集聚类，具有更高的自适应性和稳定性。

Description

一种K—均值聚类人工智能优化算法

技术领域

本发明涉及数据统计技术领域，特别涉及一种K—均值聚类人工智能优化算法。

背景技术

数据统计，是互联网传媒行业或其他操作流程的数据统计的统称，通过时间序列分析、聚类分析、主成分分析、回归分析、判别分析等方法从海量数据中精准快速的查找、分类和分析，挖掘到有用的知识，而聚类分析是数据统计方法中一种典型的方法。所谓聚类(Clustering)就是根据观测指标将相似程度高的样本分到同一簇(Cluster)中，而相似程度低的样本分到另一簇中，使簇内部的相似性最大化而簇之间的相似性最小化。目前用于聚类的方法主要有二阶聚类、K—均值聚类和系统聚类。其中K—均值聚类是一种经典的聚类算法，它由Mac Queen在1967提出，至今被广泛应用于各领域中，是一种简单实用而又容易实现的算法。

目前现有的K—均值聚类算法以数据的内在属性，通过对象之间彼此相似和相异，划分出不同的类别，达到实现数据分类的目的，但是，聚类中心选择的敏感度过高，易陷入局部最优程度变大，处理数据的类型覆盖面过窄等问题频繁出现，不但直接导致算法处理数据效率低下，而且结果偏差较大。

因此，本发明提出了一种K—均值聚类人工智能优化算法，通过衡量处罚方式的程度控制算法迭代方式，以计算所得簇的平均误差的数值为依据，计算簇分配权值的大小，用加权准则函数计算簇集中的加权距离，取值最小的簇作为样本点，筛选掉平均误差较大的簇，提高算法的效率，解决了现有技术方案中存在的问题。

发明内容

本发明提供了一种K—均值聚类人工智能优化算法，通过衡量处罚方式的程度控制算法迭代方式，以计算所得簇的平均误差的数值为依据，计算簇分配权值的大小，用加权准则函数计算簇集中的加权距离，取值最小的簇作为样本点，筛选掉平均误差较大的簇，提高算法的效率，解决了现有技术方案中存在的问题。

本发明提供一种K—均值聚类人工智能优化算法，包括：

S1、输入数据集、聚类数目和初始阈值；

S2、确定初始聚类点；在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心；

S3、针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径；

S4、根据聚类中心，对所述数据集中的数据对象进行划分；对所述数据集中的数据对象寻找距离最近的聚类中心，更新阈值，根据阈值判定所述数据对象属于第k类的下近似或边界区域；

S5、更新每个类的均值；

S6、重复执行S3—S5，直至迭代满足结束迭代条件或者达到设定迭代次数上限，则输出结果。

进一步地，所述S1中，所述数据集是一个论域；

所述聚类数目K根据下述公式确定：

上述公式中，C为条件属性的集合，D为决策属性的集合；

所述初始阈值取值为0.3。

进一步地，所述S3中，计算初始聚类点邻域的有效半径的公式如下：

上述公式中，δ_k表示第k个聚类中心邻域的有效半径，N表示数据对象在数据集中的数据量，L表示数据集的维度，x_id代表第i个数据对象在d维度上的数据分量，x_kd表示第k个聚类中心在d维度上的数据分量。

进一步地，所述S4中，更新阈值是根据迭代次数进行调整，其更新公式如下：

其中，ε′表示更新后的阈值，ε表示更新前的阈值，t为迭代次数。

进一步地，所述S4中，对所述数据集中的数据对象寻找距离最近的聚类中心包括：

计算所述数据集中数据对象与所述聚类中心的距离；

根据所述距离确定所述数据对象距离最近的聚类中心。

进一步地，所述计算所述数据集中数据对象与所述初始聚类中心的距离通过欧式距离公式计算获得，所述欧式距离公式表示为：

上述公式中，d_ik表示第i个数据对象与第k个聚类中心之间的距离，x_id表示第i个数据对象在d维度上的位置信息分量，x_kd表示第k个聚类中心在d维度上的位置信息分量，L表示数据集的维度数，ω_kdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度。

进一步地，所述欧式距离公式中，第i个数据对象对第k个聚类中心在d维度上的重要程度ω_kdi的确定过程包括：

确定数据对象的密度函数；

引入Fisher线性判别率；

根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度。

进一步地，所述根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度的公式表示如下：

上述公式中，ω_kdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度，J_fisher表示每一个特征属性的Fisher判别率，K表示聚类数目，即聚类后的簇数目，f_i表示数据对象的密度函数，C_k 表示聚类后第k簇聚类的下逼近集合，

表示

表示聚类后第k簇聚类的上逼近集合；

其中，所述数据对象的密度函数f_i具体表示为：

上述公式中，x_i表示第i个数据对象的数据信息，x_k表示第k类聚类中心的数据信息，δ_k表示第k个聚类中心邻域的有效半径，K表示聚类数目；

所述每一个特征属性的Fisher判别率J_fisher具体表示为：

上述公式中，z表示聚类中数据对象的数据量，

表示第k聚类中数据对象的均值，

表示第k聚类中第p个数据对象的均值，

表示第k聚类中数据对象的方差，

表示第k聚类中第p个数据对象的方差。

进一步地，所述S5中，更新每个类的均值，其中均值的计算公式如下：

上述公式中，m_k表示第k类的均值，C_k 表示聚类后第k簇C_k的下逼近集合，

表示聚类后第k簇C_k的上逼近集合，u^k代表第k个数据对象聚类的均值，X_i表示数据集中的第i个数据对象，φ为数据集中的一个基本集，

表示

进一步地，所述输出结果包括目标函数A和聚类结果C_K；

所述目标函数A具体表示为：

上述公式中，

表示第t次迭代中第k簇所占的权重值，ω_kdi表示迭代时第k簇第i个数据对象在d维度中自身的权重，d(c_k,d,x_i,d)表示第i个数据对象x_i与第k簇聚类的聚类中心在第d维变量上的距离，c_k,d表示第k簇聚类的聚类中心在第d维变量上的位置信息，x_i,d表示第i个数据对象在第d维变量上的位置信息，L代表维度总数，N代表数据集包含数据对象的数量，K代表聚类簇的数目，即聚类数目；

其中，第t次迭代中第k簇所占的权重值

通过下述公式确定：

上述公式中，α表示记忆因子，

表示第t-1次迭代中第k簇聚类所占的权重值，

表示第t-1次迭代中第k簇聚类中的数据对象数目，

表示数据对象X_i与第t-1次迭代中第k簇聚类的聚类中心的距离，

表示第t次迭代时第k簇的处罚因子，其具体表示为：

其中，

表示第t-1次迭代中第k簇聚类的误差，

表示第t-1次迭代中聚类的平均误差；

第i个数据对象x_i与第k簇的中心C_k在第d维变量上的距离d(c_k,d,x_i,d)表示为：

d(c_k,d,x_i,d)＝(x_i,d-c_k,d)²。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的一种K—均值聚类人工智能优化算法的流程图。

图2为传统K—均值聚类算法的聚类结果效果图。

图3为本发明提供的K—均值聚类人工智能优化算法的聚类结果效果图。

图4为传统K—均值聚类算法采用MCR指标判定聚类实验效果图。

图5为本发明提供的K—均值聚类人工智能优化算法采用MCR指标判定聚类实验效果图。

图6为以0.33为尺度参数，聚类数目为4时传统K—均值聚类算法的四组二维数据仿真聚类结果图。

图7为以0.33为尺度参数，聚类数目为4时本发明提供的K—均值聚类人工智能优化算法的四组二维数据仿真聚类结果图。

图8为以1.6为尺度参数，聚类数目为4时传统K—均值聚类算法的四组二维数据仿真聚类结果图。

图9为以1.6为尺度参数，聚类数目为4时的本发明提供的K—均值聚类人工智能优化算法的四组二维数据仿真聚类结果图。

图10为以0.33为尺度参数，聚类数目为5时传统K—均值聚类算法的四组三维数据仿真聚类结果图。

图11以0.33为尺度参数，聚类数目为5时本发明提供的K—均值聚类人工智能优化算法的四组三维数据仿真聚类结果图。

图12为以0.33为尺度参数，聚类数目为3时传统K—均值聚类算法的三组三维数据仿真聚类结果图。

图13以0.33为尺度参数，聚类数目为3时本发明提供的K—均值聚类人工智能优化算法的三组三维数据仿真聚类结果图。

图14为以0.33为尺度参数，聚类数目为2时传统K—均值聚类算法的四组四维数据仿真聚类结果图。

图15以0.33为尺度参数，聚类数目为2时本发明提供的K—均值聚类人工智能优化算法的四组四维仿真数据聚类结果图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种K—均值聚类人工智能优化算法，包括：

S1、输入数据集、聚类数目和初始阈值；

S5、更新每个类的均值；

上述技术方案的原理：上述技术方案中，进行K—均值聚类，首先输入数据集、聚类数目和初始阈值，然后确定初始聚类点；在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心；接着多次循环进行一下步骤：针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径；根据聚类中心，对所述数据集中的数据对象进行划分；对所述数据集中的数据对象寻找距离最近的类心，更新阈值，根据阈值判定所述数据对象属于第k类的下近似或边界区域；更新每个类的均值；直至迭代满足结束迭代条件或者达到设定迭代次数上限，则输出结果。

上述技术方案的有益效果：上述技术方案实现K—均值聚类，通过具有自适应性的阈值实现对数据集的粗糙集聚类，具有较高的自适应性和稳定性，而且，初始聚类中心是任意取的，通过迭代逐渐优化聚类中心，直到类心不再发生变化时输出结果，或者迭代次数已经达到设定的迭代次数上限后，输出最后一下迭代对应的结果作为输出结果，此时的输出结果即为较优的聚类结果，但是是设定迭代次数中最优的聚类结果；此外，如图2和图3所示，传统的K—均值聚类算法中的聚类中心往往是数据对象密集的中心，通过会忽略数据对象分散的部分，而本发明提供的K—均值聚类人工智能优化算法得到的数据中心充分考虑了分散的数据对象的影响，使得聚类中心未必一定是数据对象密集分布的数据中心；MCR指标即欧式距离之和与被聚类数据量的比值，MCR指标数值越小，则代表使用的K—均值聚类算法的有效性越高，如图4和图5所示，本发明提供的K—均值聚类人工智能优化算法相较于传统的K—均值聚类算法有效性大大提高，聚类效果明显提升。

本发明提供的一个实施例中，所述S1中，所述数据集是一个论域；

所述聚类数目K根据下述公式确定：

上述公式中，C为条件属性的集合，D为决策属性的集合；

所述初始阈值取值为0.3。

上述技术方案的原理：上述技术方案中，输入的数据集U是一个论域，聚类数目是根据条件属性和决策属性确定的，初始阈值的初始取值为0.3。

上述技术方案的有益效果：通过上述技术方案，本发明所述的算法输入的数集是论域中，解决了传统方案中处理的数据类型单一化的弊端，而且聚类数目是根据条件属性和决策属性确定的，并且初始阈值ε取值为0.3，便于在迭代中用于判定数据对象属于第k类的下近似或边界区域。

本发明提供的一个实施例中，所述S3中，计算初始聚类点邻域的有效半径的公式如下：

上述技术方案的原理：上述技术方案中，初始聚类点邻域的有效半径通过公式

确定。

上述技术方案的有益效果：通过上述技术方案确定初始聚类点邻域的有效半径可以得出对于属于数据集的任意数据对象，相邻数据对象的密集程度越高，代表邻域半径δ的值就会越小，随之所述数据对象的密度函数值会越大。

本发明提供的一个实施例中，所述S4中，更新阈值是根据迭代次数进行调整，其更新公式如下：

上述技术方案的原理：上述技术方案中，根据迭代的次数进行阈值更新，每更新一次，阈值都减少迭代次数三次方之一。

上述技术方案的有益效果：通过上述技术方案，在每次更新阈值时，目前的阈值作为更新前的阈值ε，通过更新公式得到的更新后的阈值ε′作为新的阈值用于确定相应簇的上、下近似集，随着迭代过程的增加，阈值会自适应更新调整下一次的聚类精度，对样本个体的划分应该更为精细，对数据对象的聚类结果就越发的精准，算法收敛速度也推得到提高。

本发明提供的一个实施例中，所述S4中，对所述数据集中的数据对象寻找距离最近的聚类中心包括：

计算所述数据集中数据对象与所述聚类中心的距离；

根据所述距离确定所述数据对象距离最近的聚类中心。

上述技术方案的原理：上述技术方案中，通过计算所述数据集中数据对象与所述聚类中心的距离；和根据所述距离确定所述数据对象距离最近的聚类中心，从而达到对所述数据集中的数据对象寻找距离最近的类心的目的。

上述技术方案的有益效果：通过上述技术方案对所述数据集中的数据对象寻找距离最近的类心，不仅能够直观的根据距离得到数据对象距离较近的聚类中心，而且还能够体现数据的密集稀疏状况分布。

本发明提供的一个实施例中，所述计算所述数据集中数据对象与所述初始聚类中心的距离通过欧式距离公式计算获得，所述欧式距离公式表示为：

上述技术方案的原理：上述技术方案中，在计算所述数据集中数据对象与所述初始聚类中心的距离时，通过欧式距离计算公式计算所述数据集中数据对象与所述初始聚类中心的距离。

上述技术方案的有益效果：通过上述技术方案，在通过上述技术方案所述的欧式距离计算公式计算所述数据集中数据对象与所述初始聚类中心的距离时，引入ω_kdi，考虑到了数据对象对不同聚类中心在不同维度上的重要程度，从而使得得到的所述数据集中数据对象与所述初始聚类中心的距离相较于传统距离计算公式得到的所述数据集中数据对象与所述初始聚类中心的距离更加准确。

本发明提供的一个实施例中，所述欧式距离公式中，第i个数据对象对第k个聚类中心在d维度上的重要程度ω_kdi的确定过程包括：

确定数据对象的密度函数；

引入Fisher线性判别率；

上述技术方案的原理：在上述技术方案中，确定数据对象对不同聚类中心在不同维度上的重要程度ω_kdi，首先，确定数据对象的密度函数；然后，引入Fisher线性判别率；最后，根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度。

上述技术方案的有益效果：通过上述技术方案确定的维度对象属性的重要程度不仅具有自适应性，而且引入Fisher线性判别法，通过计算每个特征数据值在聚类中的贡献度，表征数据的重要程度，借此来重新评判每个数据对象，在新的迭代循环中应该调整的权重属性，并且在使用过程中不再引入其他参数，不但节省了调参时间，不但确保偏远信息不会在较大程度上影响最终的聚类效果，而且在一定程度上提高算法的稳定性。

本发明提供的一个实施例中，所述根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度的公式表示如下：

表示

表示聚类后第k簇聚类的上逼近集合；

其中，所述数据对象的密度函数f_i具体表示为：

所述每一个特征属性的Fisher判别率J_fisher具体表示为：

上述公式中，z表示聚类中数据对象的数据量，

表示第k聚类中数据对象的均值，

表示第k聚类中第p个数据对象的均值，

表示第k聚类中数据对象的方差，

表示第k聚类中第p个数据对象的方差。

上述技术方案的原理：通过引入每一个特征属性的Fisher判别率为Jfisher得到具有自适应性质的每维对象属性的重要程度。

上述技术方案的有益效果：通过上述技术方案相较于传统计算公式：

引入Fisher线性判别法，通过计算每个特征数据值在聚类中的贡献度，表征数据的重要程度，借此来重新评判每个数据对象，在新的迭代循环中应该调整的权重属性，并且在使用过程中不再引入其他参数，不但节省了调参时间，不但确保偏远信息不会在较大程度上影响最终的聚类效果，而且在一定程度上提高算法的稳定性。

本发明提供的一个实施例中，所述S5中，更新每个类的均值，其中均值的计算公式如下：

表示

上述技术方案的原理：上述技术方案中，在传统均值计算公式：

中，引入f₁和f₂的相对权重分别作为传统均值计算公式中的权重因子w1和wb，其中，

进而将

和

分别替代传统均值计算公式中的w1和wb即可得到本发明中的均值计算公式。

上述技术方案的有益效果：通过上述技术方案，引入边界影响因子和下近似影响因子，得到基于密度加权的均值计算公式表示的质心的自适应程度，以满足迭代过程中上近似和下近似的变化，有效避免了位于数据稀疏区和密集区的数据对象对聚类结果的几乎没有影响的弊端，从而提高了算法的准确性。根据根据密度划分结果，计算上下近似权重，通过计算划分精确的边界区域，由于数据对象被错误分类的情况被降低，可以避免对固定经验权重的依赖。

本发明提供的一个实施例中，所述输出结果包括目标函数A和聚类结果C_K；

所述目标函数A具体表示为：

上述公式中，

其中，第t次迭代中第k簇所占的权重值

通过下述公式确定：

上述公式中，α表示记忆因子，

表示第t-1次迭代中第k簇聚类所占的权重值，

表示第t-1次迭代中第k簇聚类中的数据对象数目，

表示第t次迭代时第k簇的处罚因子，其具体表示为：

其中，

表示第t-1次迭代中第k簇聚类的误差，

表示第t-1次迭代中聚类的平均误差；

d(c_k,d,x_i,d)＝(x_i,d-c_k,d)²。

上述技术方案的原理：在输出结果时，不仅输出聚类结果，还输出目标函数，而且目标函数是根据第t次迭代中簇k所占的权重值和迭代时第k簇第i个数据对象在d维度中自身的权重两个变量确定的。

上述技术方案的有益效果：通过上述技术方案不仅能够输出聚类结果而且还能够输出目标函数，所述目标函数中的变量

和变量ω_kdi均为具有自适应性的变量，在迭代过程中在适应聚类中心变化的同时兼顾了算法的整体稳定性；针对多维度不同聚类中心数的k—均值聚类，如图6和图7所示，优化后的算法相比于传统的k—均值聚类算法精确度更高，平均欧氏距离更小，更容易使数据归类到正确的聚类中，同时，优化后的算法在一定程度上提高了算法的稳定性和可行性；如图8和图9所示，与如图6和图7所示相比较，优化后的算法对尺度参数较小的数据集聚类效果的提升更为显著，而且改进的粗糙k—均值算法在保证聚类结果稳定性的同时减少了迭代次数；如图10和图11所示，优化后的k均值聚类算法在聚类效果、迭代次数和算法结果稳定性等方面均具备可行性和有效性，算法性能提升；如图12和图13所示，相比二维数据的MCR值折线图，改进粗糙k—均值对三维数据的聚类效果更佳明显；如图14和图15所示，结合如图12和图13所示以及如图10和图11所示，优化后的k—均值聚类算法在多维数据的聚类方面由明显的优化，聚类算法的可行性、有效性和稳定性明显提升。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。