CN112308160A - 一种k—均值聚类人工智能优化算法 - Google Patents

一种k—均值聚类人工智能优化算法 Download PDF

Info

Publication number
CN112308160A
CN112308160A CN202011228161.8A CN202011228161A CN112308160A CN 112308160 A CN112308160 A CN 112308160A CN 202011228161 A CN202011228161 A CN 202011228161A CN 112308160 A CN112308160 A CN 112308160A
Authority
CN
China
Prior art keywords
cluster
data
clustering
representing
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011228161.8A
Other languages
English (en)
Inventor
孙艺
王天棋
姜堃
孙学慧
张长波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hantang Zhihua Shenzhen Technology Development Co ltd
Original Assignee
Hantang Zhihua Shenzhen Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hantang Zhihua Shenzhen Technology Development Co ltd filed Critical Hantang Zhihua Shenzhen Technology Development Co ltd
Priority to CN202011228161.8A priority Critical patent/CN112308160A/zh
Publication of CN112308160A publication Critical patent/CN112308160A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种K—均值聚类人工智能优化算法,包括:S1、输入数据集、聚类数目和初始阈值;S2、确定初始聚类点;在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心;S3、针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径;S4、根据聚类中心,对所述数据集中的数据对象进行划分;对所述数据集中的数据对象寻找距离最近的类心,更新阈值,根据阈值判定所述数据对象属于第k类的下近似或边界区域;S5、更新每个类的均值;S6、重复执行S3—S5,直至迭代满足结束迭代条件或者达到设定迭代次数上限,则输出结果。本发明给出了一种K—均值聚类人工智能优化算法,实现了对多维数据的粗糙集聚类,具有更高的自适应性和稳定性。

Description

一种K—均值聚类人工智能优化算法
技术领域
本发明涉及数据统计技术领域,特别涉及一种K—均值聚类人工智能优化算法。
背景技术
数据统计,是互联网传媒行业或其他操作流程的数据统计的统称,通过时间序列分析、聚类分析、主成分分析、回归分析、判别分析等方法从海量数据中精准快速的查找、分类和分析,挖掘到有用的知识,而聚类分析是数据统计方法中一种典型的方法。所谓聚类(Clustering)就是根据观测指标将相似程度高的样本分到同一簇(Cluster)中,而相似程度低的样本分到另一簇中,使簇内部的相似性最大化而簇之间的相似性最小化。目前用于聚类的方法主要有二阶聚类、K—均值聚类和系统聚类。其中K—均值聚类是一种经典的聚类算法,它由Mac Queen在1967提出,至今被广泛应用于各领域中,是一种简单实用而又容易实现的算法。
目前现有的K—均值聚类算法以数据的内在属性,通过对象之间彼此相似和相异,划分出不同的类别,达到实现数据分类的目的,但是,聚类中心选择的敏感度过高,易陷入局部最优程度变大,处理数据的类型覆盖面过窄等问题频繁出现,不但直接导致算法处理数据效率低下,而且结果偏差较大。
因此,本发明提出了一种K—均值聚类人工智能优化算法,通过衡量处罚方式的程度控制算法迭代方式,以计算所得簇的平均误差的数值为依据,计算簇分配权值的大小,用加权准则函数计算簇集中的加权距离,取值最小的簇作为样本点,筛选掉平均误差较大的簇,提高算法的效率,解决了现有技术方案中存在的问题。
发明内容
本发明提供了一种K—均值聚类人工智能优化算法,通过衡量处罚方式的程度控制算法迭代方式,以计算所得簇的平均误差的数值为依据,计算簇分配权值的大小,用加权准则函数计算簇集中的加权距离,取值最小的簇作为样本点,筛选掉平均误差较大的簇,提高算法的效率,解决了现有技术方案中存在的问题。
本发明提供一种K—均值聚类人工智能优化算法,包括:
S1、输入数据集、聚类数目和初始阈值;
S2、确定初始聚类点;在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心;
S3、针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径;
S4、根据聚类中心,对所述数据集中的数据对象进行划分;对所述数据集中的数据对象寻找距离最近的聚类中心,更新阈值,根据阈值判定所述数据对象属于第k类的下近似或边界区域;
S5、更新每个类的均值;
S6、重复执行S3—S5,直至迭代满足结束迭代条件或者达到设定迭代次数上限,则输出结果。
进一步地,所述S1中,所述数据集是一个论域;
所述聚类数目K根据下述公式确定:
Figure BDA0002764283110000021
上述公式中,C为条件属性的集合,D为决策属性的集合;
所述初始阈值取值为0.3。
进一步地,所述S3中,计算初始聚类点邻域的有效半径的公式如下:
Figure BDA0002764283110000022
上述公式中,δk表示第k个聚类中心邻域的有效半径,N表示数据对象在数据集中的数据量,L表示数据集的维度,xid代表第i个数据对象在d维度上的数据分量,xkd表示第k个聚类中心在d维度上的数据分量。
进一步地,所述S4中,更新阈值是根据迭代次数进行调整,其更新公式如下:
Figure BDA0002764283110000023
其中,ε′表示更新后的阈值,ε表示更新前的阈值,t为迭代次数。
进一步地,所述S4中,对所述数据集中的数据对象寻找距离最近的聚类中心包括:
计算所述数据集中数据对象与所述聚类中心的距离;
根据所述距离确定所述数据对象距离最近的聚类中心。
进一步地,所述计算所述数据集中数据对象与所述初始聚类中心的距离通过欧式距离公式计算获得,所述欧式距离公式表示为:
Figure BDA0002764283110000024
上述公式中,dik表示第i个数据对象与第k个聚类中心之间的距离,xid表示第i个数据对象在d维度上的位置信息分量,xkd表示第k个聚类中心在d维度上的位置信息分量,L表示数据集的维度数,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度。
进一步地,所述欧式距离公式中,第i个数据对象对第k个聚类中心在d维度上的重要程度ωkdi的确定过程包括:
确定数据对象的密度函数;
引入Fisher线性判别率;
根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度。
进一步地,所述根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度的公式表示如下:
Figure BDA0002764283110000031
上述公式中,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度,Jfisher表示每一个特征属性的Fisher判别率,K表示聚类数目,即聚类后的簇数目,fi表示数据对象的密度函数,Ck 表示聚类后第k簇聚类的下逼近集合,
Figure BDA0002764283110000032
表示
Figure BDA0002764283110000033
Figure BDA0002764283110000034
表示聚类后第k簇聚类的上逼近集合;
其中,所述数据对象的密度函数fi具体表示为:
Figure BDA0002764283110000035
上述公式中,xi表示第i个数据对象的数据信息,xk表示第k类聚类中心的数据信息,δk表示第k个聚类中心邻域的有效半径,K表示聚类数目;
所述每一个特征属性的Fisher判别率Jfisher具体表示为:
Figure BDA0002764283110000036
上述公式中,z表示聚类中数据对象的数据量,
Figure BDA0002764283110000037
表示第k聚类中数据对象的均值,
Figure BDA0002764283110000038
表示第k聚类中第p个数据对象的均值,
Figure BDA0002764283110000039
表示第k聚类中数据对象的方差,
Figure BDA00027642831100000310
表示第k聚类中第p个数据对象的方差。
进一步地,所述S5中,更新每个类的均值,其中均值的计算公式如下:
Figure BDA0002764283110000041
上述公式中,mk表示第k类的均值,Ck 表示聚类后第k簇Ck的下逼近集合,
Figure BDA0002764283110000042
表示聚类后第k簇Ck的上逼近集合,uk代表第k个数据对象聚类的均值,Xi表示数据集中的第i个数据对象,φ为数据集中的一个基本集,
Figure BDA0002764283110000043
表示
Figure BDA0002764283110000044
进一步地,所述输出结果包括目标函数A和聚类结果CK
所述目标函数A具体表示为:
Figure BDA0002764283110000045
上述公式中,
Figure BDA0002764283110000046
表示第t次迭代中第k簇所占的权重值,ωkdi表示迭代时第k簇第i个数据对象在d维度中自身的权重,d(ck,d,xi,d)表示第i个数据对象xi与第k簇聚类的聚类中心在第d维变量上的距离,ck,d表示第k簇聚类的聚类中心在第d维变量上的位置信息,xi,d表示第i个数据对象在第d维变量上的位置信息,L代表维度总数,N代表数据集包含数据对象的数量,K代表聚类簇的数目,即聚类数目;
其中,第t次迭代中第k簇所占的权重值
Figure BDA0002764283110000047
通过下述公式确定:
Figure BDA0002764283110000048
上述公式中,α表示记忆因子,
Figure BDA0002764283110000049
表示第t-1次迭代中第k簇聚类所占的权重值,
Figure BDA00027642831100000410
表示第t-1次迭代中第k簇聚类中的数据对象数目,
Figure BDA00027642831100000411
表示数据对象Xi与第t-1次迭代中第k簇聚类的聚类中心的距离,
Figure BDA00027642831100000412
表示第t次迭代时第k簇的处罚因子,其具体表示为:
Figure BDA00027642831100000413
其中,
Figure BDA00027642831100000414
表示第t-1次迭代中第k簇聚类的误差,
Figure BDA00027642831100000415
表示第t-1次迭代中聚类的平均误差;
第i个数据对象xi与第k簇的中心Ck在第d维变量上的距离d(ck,d,xi,d)表示为:
d(ck,d,xi,d)=(xi,d-ck,d)2
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种K—均值聚类人工智能优化算法的流程图。
图2为传统K—均值聚类算法的聚类结果效果图。
图3为本发明提供的K—均值聚类人工智能优化算法的聚类结果效果图。
图4为传统K—均值聚类算法采用MCR指标判定聚类实验效果图。
图5为本发明提供的K—均值聚类人工智能优化算法采用MCR指标判定聚类实验效果图。
图6为以0.33为尺度参数,聚类数目为4时传统K—均值聚类算法的四组二维数据仿真聚类结果图。
图7为以0.33为尺度参数,聚类数目为4时本发明提供的K—均值聚类人工智能优化算法的四组二维数据仿真聚类结果图。
图8为以1.6为尺度参数,聚类数目为4时传统K—均值聚类算法的四组二维数据仿真聚类结果图。
图9为以1.6为尺度参数,聚类数目为4时的本发明提供的K—均值聚类人工智能优化算法的四组二维数据仿真聚类结果图。
图10为以0.33为尺度参数,聚类数目为5时传统K—均值聚类算法的四组三维数据仿真聚类结果图。
图11以0.33为尺度参数,聚类数目为5时本发明提供的K—均值聚类人工智能优化算法的四组三维数据仿真聚类结果图。
图12为以0.33为尺度参数,聚类数目为3时传统K—均值聚类算法的三组三维数据仿真聚类结果图。
图13以0.33为尺度参数,聚类数目为3时本发明提供的K—均值聚类人工智能优化算法的三组三维数据仿真聚类结果图。
图14为以0.33为尺度参数,聚类数目为2时传统K—均值聚类算法的四组四维数据仿真聚类结果图。
图15以0.33为尺度参数,聚类数目为2时本发明提供的K—均值聚类人工智能优化算法的四组四维仿真数据聚类结果图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种K—均值聚类人工智能优化算法,包括:
S1、输入数据集、聚类数目和初始阈值;
S2、确定初始聚类点;在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心;
S3、针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径;
S4、根据聚类中心,对所述数据集中的数据对象进行划分;对所述数据集中的数据对象寻找距离最近的聚类中心,更新阈值,根据阈值判定所述数据对象属于第k类的下近似或边界区域;
S5、更新每个类的均值;
S6、重复执行S3—S5,直至迭代满足结束迭代条件或者达到设定迭代次数上限,则输出结果。
上述技术方案的原理:上述技术方案中,进行K—均值聚类,首先输入数据集、聚类数目和初始阈值,然后确定初始聚类点;在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心;接着多次循环进行一下步骤:针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径;根据聚类中心,对所述数据集中的数据对象进行划分;对所述数据集中的数据对象寻找距离最近的类心,更新阈值,根据阈值判定所述数据对象属于第k类的下近似或边界区域;更新每个类的均值;直至迭代满足结束迭代条件或者达到设定迭代次数上限,则输出结果。
上述技术方案的有益效果:上述技术方案实现K—均值聚类,通过具有自适应性的阈值实现对数据集的粗糙集聚类,具有较高的自适应性和稳定性,而且,初始聚类中心是任意取的,通过迭代逐渐优化聚类中心,直到类心不再发生变化时输出结果,或者迭代次数已经达到设定的迭代次数上限后,输出最后一下迭代对应的结果作为输出结果,此时的输出结果即为较优的聚类结果,但是是设定迭代次数中最优的聚类结果;此外,如图2和图3所示,传统的K—均值聚类算法中的聚类中心往往是数据对象密集的中心,通过会忽略数据对象分散的部分,而本发明提供的K—均值聚类人工智能优化算法得到的数据中心充分考虑了分散的数据对象的影响,使得聚类中心未必一定是数据对象密集分布的数据中心;MCR指标即欧式距离之和与被聚类数据量的比值,MCR指标数值越小,则代表使用的K—均值聚类算法的有效性越高,如图4和图5所示,本发明提供的K—均值聚类人工智能优化算法相较于传统的K—均值聚类算法有效性大大提高,聚类效果明显提升。
本发明提供的一个实施例中,所述S1中,所述数据集是一个论域;
所述聚类数目K根据下述公式确定:
Figure BDA0002764283110000071
上述公式中,C为条件属性的集合,D为决策属性的集合;
所述初始阈值取值为0.3。
上述技术方案的原理:上述技术方案中,输入的数据集U是一个论域,聚类数目是根据条件属性和决策属性确定的,初始阈值的初始取值为0.3。
上述技术方案的有益效果:通过上述技术方案,本发明所述的算法输入的数集是论域中,解决了传统方案中处理的数据类型单一化的弊端,而且聚类数目是根据条件属性和决策属性确定的,并且初始阈值ε取值为0.3,便于在迭代中用于判定数据对象属于第k类的下近似或边界区域。
本发明提供的一个实施例中,所述S3中,计算初始聚类点邻域的有效半径的公式如下:
Figure BDA0002764283110000072
上述公式中,δk表示第k个聚类中心邻域的有效半径,N表示数据对象在数据集中的数据量,L表示数据集的维度,xid代表第i个数据对象在d维度上的数据分量,xkd表示第k个聚类中心在d维度上的数据分量。
上述技术方案的原理:上述技术方案中,初始聚类点邻域的有效半径通过公式
Figure BDA0002764283110000073
确定。
上述技术方案的有益效果:通过上述技术方案确定初始聚类点邻域的有效半径可以得出对于属于数据集的任意数据对象,相邻数据对象的密集程度越高,代表邻域半径δ的值就会越小,随之所述数据对象的密度函数值会越大。
本发明提供的一个实施例中,所述S4中,更新阈值是根据迭代次数进行调整,其更新公式如下:
Figure BDA0002764283110000081
其中,ε′表示更新后的阈值,ε表示更新前的阈值,t为迭代次数。
上述技术方案的原理:上述技术方案中,根据迭代的次数进行阈值更新,每更新一次,阈值都减少迭代次数三次方之一。
上述技术方案的有益效果:通过上述技术方案,在每次更新阈值时,目前的阈值作为更新前的阈值ε,通过更新公式得到的更新后的阈值ε′作为新的阈值用于确定相应簇的上、下近似集,随着迭代过程的增加,阈值会自适应更新调整下一次的聚类精度,对样本个体的划分应该更为精细,对数据对象的聚类结果就越发的精准,算法收敛速度也推得到提高。
本发明提供的一个实施例中,所述S4中,对所述数据集中的数据对象寻找距离最近的聚类中心包括:
计算所述数据集中数据对象与所述聚类中心的距离;
根据所述距离确定所述数据对象距离最近的聚类中心。
上述技术方案的原理:上述技术方案中,通过计算所述数据集中数据对象与所述聚类中心的距离;和根据所述距离确定所述数据对象距离最近的聚类中心,从而达到对所述数据集中的数据对象寻找距离最近的类心的目的。
上述技术方案的有益效果:通过上述技术方案对所述数据集中的数据对象寻找距离最近的类心,不仅能够直观的根据距离得到数据对象距离较近的聚类中心,而且还能够体现数据的密集稀疏状况分布。
本发明提供的一个实施例中,所述计算所述数据集中数据对象与所述初始聚类中心的距离通过欧式距离公式计算获得,所述欧式距离公式表示为:
Figure BDA0002764283110000082
上述公式中,dik表示第i个数据对象与第k个聚类中心之间的距离,xid表示第i个数据对象在d维度上的位置信息分量,xkd表示第k个聚类中心在d维度上的位置信息分量,L表示数据集的维度数,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度。
上述技术方案的原理:上述技术方案中,在计算所述数据集中数据对象与所述初始聚类中心的距离时,通过欧式距离计算公式计算所述数据集中数据对象与所述初始聚类中心的距离。
上述技术方案的有益效果:通过上述技术方案,在通过上述技术方案所述的欧式距离计算公式计算所述数据集中数据对象与所述初始聚类中心的距离时,引入ωkdi,考虑到了数据对象对不同聚类中心在不同维度上的重要程度,从而使得得到的所述数据集中数据对象与所述初始聚类中心的距离相较于传统距离计算公式得到的所述数据集中数据对象与所述初始聚类中心的距离更加准确。
本发明提供的一个实施例中,所述欧式距离公式中,第i个数据对象对第k个聚类中心在d维度上的重要程度ωkdi的确定过程包括:
确定数据对象的密度函数;
引入Fisher线性判别率;
根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度。
上述技术方案的原理:在上述技术方案中,确定数据对象对不同聚类中心在不同维度上的重要程度ωkdi,首先,确定数据对象的密度函数;然后,引入Fisher线性判别率;最后,根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度。
上述技术方案的有益效果:通过上述技术方案确定的维度对象属性的重要程度不仅具有自适应性,而且引入Fisher线性判别法,通过计算每个特征数据值在聚类中的贡献度,表征数据的重要程度,借此来重新评判每个数据对象,在新的迭代循环中应该调整的权重属性,并且在使用过程中不再引入其他参数,不但节省了调参时间,不但确保偏远信息不会在较大程度上影响最终的聚类效果,而且在一定程度上提高算法的稳定性。
本发明提供的一个实施例中,所述根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度的公式表示如下:
Figure BDA0002764283110000091
上述公式中,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度,Jfisher表示每一个特征属性的Fisher判别率,K表示聚类数目,即聚类后的簇数目,fi表示数据对象的密度函数,Ck 表示聚类后第k簇聚类的下逼近集合,
Figure BDA0002764283110000092
表示
Figure BDA0002764283110000093
Figure BDA0002764283110000094
表示聚类后第k簇聚类的上逼近集合;
其中,所述数据对象的密度函数fi具体表示为:
Figure BDA0002764283110000101
上述公式中,xi表示第i个数据对象的数据信息,xk表示第k类聚类中心的数据信息,δk表示第k个聚类中心邻域的有效半径,K表示聚类数目;
所述每一个特征属性的Fisher判别率Jfisher具体表示为:
Figure BDA0002764283110000102
上述公式中,z表示聚类中数据对象的数据量,
Figure BDA0002764283110000103
表示第k聚类中数据对象的均值,
Figure BDA0002764283110000104
表示第k聚类中第p个数据对象的均值,
Figure BDA0002764283110000105
表示第k聚类中数据对象的方差,
Figure BDA0002764283110000106
表示第k聚类中第p个数据对象的方差。
上述技术方案的原理:通过引入每一个特征属性的Fisher判别率为Jfisher得到具有自适应性质的每维对象属性的重要程度。
上述技术方案的有益效果:通过上述技术方案相较于传统计算公式:
Figure BDA0002764283110000107
引入Fisher线性判别法,通过计算每个特征数据值在聚类中的贡献度,表征数据的重要程度,借此来重新评判每个数据对象,在新的迭代循环中应该调整的权重属性,并且在使用过程中不再引入其他参数,不但节省了调参时间,不但确保偏远信息不会在较大程度上影响最终的聚类效果,而且在一定程度上提高算法的稳定性。
本发明提供的一个实施例中,所述S5中,更新每个类的均值,其中均值的计算公式如下:
Figure BDA0002764283110000108
上述公式中,mk表示第k类的均值,Ck 表示聚类后第k簇Ck的下逼近集合,
Figure BDA0002764283110000109
表示聚类后第k簇Ck的上逼近集合,uk代表第k个数据对象聚类的均值,Xi表示数据集中的第i个数据对象,φ为数据集中的一个基本集,
Figure BDA0002764283110000111
表示
Figure BDA0002764283110000112
上述技术方案的原理:上述技术方案中,在传统均值计算公式:
Figure BDA0002764283110000113
中,引入f1和f2的相对权重分别作为传统均值计算公式中的权重因子w1和wb,其中,
Figure BDA0002764283110000114
Figure BDA0002764283110000115
进而将
Figure BDA0002764283110000116
Figure BDA0002764283110000117
分别替代传统均值计算公式中的w1和wb即可得到本发明中的均值计算公式。
上述技术方案的有益效果:通过上述技术方案,引入边界影响因子和下近似影响因子,得到基于密度加权的均值计算公式表示的质心的自适应程度,以满足迭代过程中上近似和下近似的变化,有效避免了位于数据稀疏区和密集区的数据对象对聚类结果的几乎没有影响的弊端,从而提高了算法的准确性。根据根据密度划分结果,计算上下近似权重,通过计算划分精确的边界区域,由于数据对象被错误分类的情况被降低,可以避免对固定经验权重的依赖。
本发明提供的一个实施例中,所述输出结果包括目标函数A和聚类结果CK
所述目标函数A具体表示为:
Figure BDA0002764283110000118
上述公式中,
Figure BDA0002764283110000119
表示第t次迭代中第k簇所占的权重值,ωkdi表示迭代时第k簇第i个数据对象在d维度中自身的权重,d(ck,d,xi,d)表示第i个数据对象xi与第k簇聚类的聚类中心在第d维变量上的距离,ck,d表示第k簇聚类的聚类中心在第d维变量上的位置信息,xi,d表示第i个数据对象在第d维变量上的位置信息,L代表维度总数,N代表数据集包含数据对象的数量,K代表聚类簇的数目,即聚类数目;
其中,第t次迭代中第k簇所占的权重值
Figure BDA0002764283110000121
通过下述公式确定:
Figure BDA0002764283110000122
上述公式中,α表示记忆因子,
Figure BDA0002764283110000123
表示第t-1次迭代中第k簇聚类所占的权重值,
Figure BDA0002764283110000124
表示第t-1次迭代中第k簇聚类中的数据对象数目,
Figure BDA0002764283110000125
表示数据对象Xi与第t-1次迭代中第k簇聚类的聚类中心的距离,
Figure BDA0002764283110000126
表示第t次迭代时第k簇的处罚因子,其具体表示为:
Figure BDA0002764283110000127
其中,
Figure BDA0002764283110000128
表示第t-1次迭代中第k簇聚类的误差,
Figure BDA0002764283110000129
表示第t-1次迭代中聚类的平均误差;
第i个数据对象xi与第k簇的中心Ck在第d维变量上的距离d(ck,d,xi,d)表示为:
d(ck,d,xi,d)=(xi,d-ck,d)2
上述技术方案的原理:在输出结果时,不仅输出聚类结果,还输出目标函数,而且目标函数是根据第t次迭代中簇k所占的权重值和迭代时第k簇第i个数据对象在d维度中自身的权重两个变量确定的。
上述技术方案的有益效果:通过上述技术方案不仅能够输出聚类结果而且还能够输出目标函数,所述目标函数中的变量
Figure BDA00027642831100001210
和变量ωkdi均为具有自适应性的变量,在迭代过程中在适应聚类中心变化的同时兼顾了算法的整体稳定性;针对多维度不同聚类中心数的k—均值聚类,如图6和图7所示,优化后的算法相比于传统的k—均值聚类算法精确度更高,平均欧氏距离更小,更容易使数据归类到正确的聚类中,同时,优化后的算法在一定程度上提高了算法的稳定性和可行性;如图8和图9所示,与如图6和图7所示相比较,优化后的算法对尺度参数较小的数据集聚类效果的提升更为显著,而且改进的粗糙k—均值算法在保证聚类结果稳定性的同时减少了迭代次数;如图10和图11所示,优化后的k均值聚类算法在聚类效果、迭代次数和算法结果稳定性等方面均具备可行性和有效性,算法性能提升;如图12和图13所示,相比二维数据的MCR值折线图,改进粗糙k—均值对三维数据的聚类效果更佳明显;如图14和图15所示,结合如图12和图13所示以及如图10和图11所示,优化后的k—均值聚类算法在多维数据的聚类方面由明显的优化,聚类算法的可行性、有效性和稳定性明显提升。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种K—均值聚类人工智能优化算法,其特征在于,包括:
S1、输入数据集、聚类数目和初始阈值;
S2、确定初始聚类点;在数据集中取与聚类数目相等数量的点作为每个类的初始聚类中心;
S3、针对所述数据集中的每个数据对象计算初始聚类点邻域的有效半径;
S4、根据聚类中心,对所述数据集中的数据对象进行划分;对所述数据集中的数据对象寻找距离最近的聚类中心,更新阈值,根据阈值判定所述数据对象属于第k类的下近似或边界区域;
S5、更新每个类的均值;
S6、重复执行S3—S5,直至迭代满足结束迭代条件或者达到设定迭代次数上限,则输出结果。
2.根据权利要求1所述的K—均值聚类人工智能优化算法,其特征在于,
所述S1中,所述数据集是一个论域;
所述聚类数目K根据下述公式确定:
Figure FDA0002764283100000011
上述公式中,C为条件属性的集合,D为决策属性的集合;
所述初始阈值取值为0.3。
3.根据权利要求1所述的K—均值聚类人工智能优化算法,其特征在于,
所述S3中,计算初始聚类点邻域的有效半径的公式如下:
Figure FDA0002764283100000012
上述公式中,δk表示第k个聚类中心邻域的有效半径,N表示数据对象在数据集中的数据量,L表示数据集的维度,xid代表第i个数据对象在d维度上的数据分量,xkd表示第k个聚类中心在d维度上的数据分量。
4.根据权利要求1所述的K—均值聚类人工智能优化算法,其特征在于,
所述S4中,更新阈值是根据迭代次数进行调整,其更新公式如下:
Figure FDA0002764283100000013
其中,ε′表示更新后的阈值,ε表示更新前的阈值,t为迭代次数。
5.根据权利要求1所述的K—均值聚类人工智能优化算法,其特征在于,
所述S4中,对所述数据集中的数据对象寻找距离最近的聚类中心包括:
计算所述数据集中数据对象与所述聚类中心的距离;
根据所述距离确定所述数据对象距离最近的聚类中心。
6.根据权利要求5所述的K—均值聚类人工智能优化算法,其特征在于,
所述计算所述数据集中数据对象与所述初始聚类中心的距离通过欧式距离公式计算获得,所述欧式距离公式表示为:
Figure FDA0002764283100000021
上述公式中,dik表示第i个数据对象与第k个聚类中心之间的距离,xid表示第i个数据对象在d维度上的位置信息分量,xkd表示第k个聚类中心在d维度上的位置信息分量,L表示数据集的维度数,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度。
7.根据权利要求6所述的K—均值聚类人工智能优化算法,其特征在于,
所述欧式距离公式中,第i个数据对象对第k个聚类中心在d维度上的重要程度ωkdi的确定过程包括:
确定数据对象的密度函数;
引入Fisher线性判别率;
根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度。
8.根据权利要求7所述的K—均值聚类人工智能优化算法,其特征在于,
所述根据所述密度函数和所述Fisher线性判别率得到维度对象属性的重要程度的公式表示如下:
Figure FDA0002764283100000022
上述公式中,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度,Jfisher表示每一个特征属性的Fisher判别率,K表示聚类数目,即聚类后的簇数目,fi表示数据对象的密度函数,Ck 表示聚类后第k簇聚类的下逼近集合,
Figure FDA0002764283100000023
表示
Figure FDA0002764283100000024
Figure FDA0002764283100000025
表示聚类后第k簇聚类的上逼近集合;
其中,所述数据对象的密度函数fi具体表示为:
Figure FDA0002764283100000031
上述公式中,xi表示第i个数据对象的数据信息,xk表示第k类聚类中心的数据信息,δk表示第k个聚类中心邻域的有效半径,K表示聚类数目;
所述每一个特征属性的Fisher判别率Jfisher具体表示为:
Figure FDA0002764283100000032
上述公式中,z表示聚类中数据对象的数据量,
Figure FDA0002764283100000033
表示第k聚类中数据对象的均值,
Figure FDA0002764283100000034
表示第k聚类中第p个数据对象的均值,
Figure FDA0002764283100000035
表示第k聚类中数据对象的方差,
Figure FDA0002764283100000036
表示第k聚类中第p个数据对象的方差。
9.根据权利要求1所述的K—均值聚类人工智能优化算法,其特征在于,
所述S5中,更新每个类的均值,其中均值的计算公式如下:
Figure FDA0002764283100000037
上述公式中,mk表示第k簇聚类的均值,Ck 表示聚类后第k簇聚类的下逼近集合,
Figure FDA0002764283100000038
表示聚类后第k簇聚类的上逼近集合,uk代表第k簇聚类的均值,Xi表示数据集中的第i个数据对象,φ为数据集中的一个基本集,
Figure FDA0002764283100000039
表示
Figure FDA00027642831000000310
10.根据权利要求1所述的K—均值聚类人工智能优化算法,其特征在于,
所述输出结果包括目标函数A和聚类结果CK
所述目标函数A具体表示为:
Figure FDA00027642831000000311
上述公式中,
Figure FDA00027642831000000312
表示第t次迭代中第k簇所占的权重值,ωkdi表示迭代时第k簇第i个数据对象在d维度中自身的权重,d(ck,d,xi,d)表示第i个数据对象xi与第k簇聚类的聚类中心在第d维变量上的距离,ck,d表示第k簇聚类的聚类中心在第d维变量上的位置信息,xi,d表示第i个数据对象在第d维变量上的位置信息,L代表维度总数,N代表数据集包含数据对象的数量,K代表聚类簇的数目,即聚类数目;
其中,第t次迭代中第k簇所占的权重值
Figure FDA0002764283100000041
通过下述公式确定:
Figure FDA0002764283100000042
上述公式中,α表示记忆因子,
Figure FDA0002764283100000043
表示第t-1次迭代中第k簇聚类所占的权重值,
Figure FDA0002764283100000044
表示第t-1次迭代中第k簇聚类中的数据对象数目,
Figure FDA0002764283100000045
表示数据对象Xi与第t-1次迭代中第k簇聚类的聚类中心的距离,
Figure FDA0002764283100000046
表示第t次迭代时第k簇的处罚因子,其具体表示为:
Figure FDA0002764283100000047
其中,
Figure FDA0002764283100000048
表示第t-1次迭代中第k簇聚类的误差,
Figure FDA0002764283100000049
表示第t-1次迭代中聚类的平均误差;
第i个数据对象xi与第k簇的中心Ck在第d维变量上的距离d(ck,d,xi,d)表示为:
d(ck,d,xi,d)=(xi,d-ck,d)2
CN202011228161.8A 2020-11-06 2020-11-06 一种k—均值聚类人工智能优化算法 Pending CN112308160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011228161.8A CN112308160A (zh) 2020-11-06 2020-11-06 一种k—均值聚类人工智能优化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011228161.8A CN112308160A (zh) 2020-11-06 2020-11-06 一种k—均值聚类人工智能优化算法

Publications (1)

Publication Number Publication Date
CN112308160A true CN112308160A (zh) 2021-02-02

Family

ID=74326312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011228161.8A Pending CN112308160A (zh) 2020-11-06 2020-11-06 一种k—均值聚类人工智能优化算法

Country Status (1)

Country Link
CN (1) CN112308160A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516105A (zh) * 2021-09-07 2021-10-19 腾讯科技(深圳)有限公司 一种车道检测方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516105A (zh) * 2021-09-07 2021-10-19 腾讯科技(深圳)有限公司 一种车道检测方法、装置及计算机可读存储介质
CN113516105B (zh) * 2021-09-07 2021-12-17 腾讯科技(深圳)有限公司 一种车道检测方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN106371610B (zh) 一种基于脑电信号的驾驶疲劳的检测方法
CN106570178B (zh) 一种基于图聚类的高维文本数据特征选择方法
Lenz et al. Scalable approximate FRNN-OWA classification
CN112926635B (zh) 一种基于迭代自适应近邻传播算法的目标聚类方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
Nayini et al. A novel threshold-based clustering method to solve K-means weaknesses
CN115374851A (zh) 一种燃气数据异常检测方法及装置
CN113435108A (zh) 一种基于改进的鲸鱼优化算法的战场目标分群方法
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
CN113378998A (zh) 一种基于机器学习的地层岩性随钻识别方法
CN117407732A (zh) 一种基于对抗神经网络的非常规储层气井产量预测方法
Mir et al. Improving data clustering using fuzzy logic and PSO algorithm
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
CN114444614A (zh) 一种自适应多均值两步聚类方法
CN114117876A (zh) 基于改进哈里斯鹰算法的特征选择方法
CN110782950B (zh) 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
Rashed et al. Multi-objective clustering algorithm using particle swarm optimization with crowding distance (MCPSO-CD)
Tareq et al. A new density-based method for clustering data stream using genetic algorithm
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Khanchouch et al. A comparative study of multi-SOM algorithms for determining the optimal number of clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication