CN115690476A - 一种基于改进和声搜索算法的数据自动聚类方法 - Google Patents

一种基于改进和声搜索算法的数据自动聚类方法 Download PDF

Info

Publication number
CN115690476A
CN115690476A CN202211435981.3A CN202211435981A CN115690476A CN 115690476 A CN115690476 A CN 115690476A CN 202211435981 A CN202211435981 A CN 202211435981A CN 115690476 A CN115690476 A CN 115690476A
Authority
CN
China
Prior art keywords
harmony
clustering
data
vector
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211435981.3A
Other languages
English (en)
Inventor
唐相猛
潘为刚
李正磊
胡浩
王宁
虢力源
赵钰钰
刘子阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jiaotong University
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN202211435981.3A priority Critical patent/CN115690476A/zh
Publication of CN115690476A publication Critical patent/CN115690476A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的基于改进和声搜索算法的数据自动聚类方法,包括:a).待聚类数据初始化;b).和声记忆库的建立与初始化;c).确定适应度函数;d).更新和声记忆库,从和声记忆库中随机选择一个聚类数目为k的和声矢量,生成新的和声矢量,在新生成和声矢量的适应度优于原和声矢量的适应度的情况下,利用新的和声矢量替换原和声矢量;e).输出聚类结果。本发明的数据自动聚类方法,整个数据聚类过程中,即避免了优化截止阈值的设定,又可防范出现聚类数小于2的情形,提高了聚类性能,并具有可调参数少,操作简单,聚类精度更高的优点。

Description

一种基于改进和声搜索算法的数据自动聚类方法
技术领域
本发明涉及一种数据自动聚类方法,更具体的说,尤其涉及一种基于改进和声搜索算法的数据自动聚类方法。
背景技术
聚类在机器学习、数据挖掘和数据探索性分析中发挥着重要的基础性作用。聚类旨在寻找给定数据集的潜在分布并将其分为互不交叉的组,使得同一组内的元素属性比不同组间的元素属性更相似。各种聚类工具已广泛运用到图像处理、网络信息、医学、工程等领域。
根据聚类特征不同,聚类算法通常可分为划分式聚类、层次式聚类、基于密度的聚类、基于网格的聚类以及其它类型聚类。其中,划分式聚类是最常见的一种聚类形式。划分式聚类指在聚类数目或聚类中心预知前提下,通过迭代方式改变分组,使得目标函数误差值逐渐减小直至收敛,从而得到相对最优的聚类结果。
作为经典的划分式聚类算法,K-means由于简洁性和高效性,得到了广泛应用。然而,包括K-means在内的划分式聚类算法需要预先指定聚类数目或聚类中心点,但用户通常难以预知此信息。因此,如何自动获取聚类中心点,实现数据集的划分具有重要研究意义。
基于启发式优化算法的自动聚类,是将聚类中心作为决策变量,但由于聚类数目未知,变量的优化机会通常根据激活阈值和截止阈值来决定,而截止阈值需要用户合理设置,从而增加算法的不确定性,此外聚类的优化性能还有待提高。
和声搜索(HS)作为相对流行的启发式优化算法具有较高的优化效率和较强的全局搜寻能力,它在解决数据聚类问题研究中表现出了良好性能和潜力。但是,和声搜索算法易受参数设置的影响,存在过早收敛、缺乏多样性和易陷入局部最优等问题。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种基于改进和声搜索算法的数据自动聚类方法。
本发明的基于改进和声搜索算法的数据自动聚类方法,其特征在于,通过以下步骤来实现:
a).待聚类数据初始化,将待聚类的数据存储在集合X中,形成数据集X,记为X={x1,x2,...,xi,...,xn};xi为待聚类的第i个数据;
b).和声记忆库的建立与初始化,设最小聚类数目为Kmin,Kmin≥2,最大聚类数目为Kmax,Kmax>Kmin;建立有效聚类数目分别为Kmin、Kmin+1、…、Kmax的矩阵式和声记忆库,代表不同聚类数目的数据成一行存放,从集合X中随机选取Kmax·(Kmax-Kmin+1)个数据用于和声记忆库的初始化,每一行初始化Kmax个数据;对于代表聚类数目为k的一行数据用和声矢量
Figure BDA0003946691000000021
表示,其前k个数据为聚类中心的有效解,其余变量为无效解,Kmin≤k≤Kmax
c).确定适应度函数,选择内部聚类评价指标PBM作为评判聚类质量的适应度函数,用于计算和声记忆库中每个和声矢量的适应度值;
d).更新和声记忆库,首先判断是否满足所需的迭代次数NI,否则从和声记忆库中随机选择一个聚类数目为k的和声矢量
Figure BDA0003946691000000022
采用和声搜索算法生成新的和声矢量
Figure BDA0003946691000000023
在新生成和声矢量
Figure BDA0003946691000000024
的适应度优于原和声矢量
Figure BDA0003946691000000025
的适应度的情况下,利用和声矢量
Figure BDA0003946691000000026
替换
Figure BDA0003946691000000027
实现和声记忆库的更新;直至迭代次数达到NI;
e).输出聚类结果,迭代结束后,从适应度最优的和声矢量中获得聚类数目和聚类中心点,按照最近距离原则实现数据集X中数据的划分。
本发明的基于改进和声搜索算法的数据自动聚类方法,步骤c)中所确定的适应度函数为:
Figure BDA0003946691000000028
其中,k表示聚类数目,ET为数据集X中所有点到整个数据集中心的距离之和,EW为类簇内所有点到质心的距离之和,DB为数据集中类簇质心间的最大距离;PBM越大表明聚类效果越好;
ET、EW和DB通过如下公式进行求取:
Figure BDA0003946691000000031
其中,c为整个数据集的中心,cj、cj′为不同类簇的质心,Ij表示j类簇中所有对象的标号集。
本发明的基于改进和声搜索算法的数据自动聚类方法,步骤d)中所述的更新和声记忆库具体通过以下步骤来实现:
d-1).选择优化目标,在正整数区间[Kmin,Kmax]中随机生成一个正整数k,然后从声记忆库中选取代表聚类数目为k的和声矢量
Figure BDA0003946691000000032
为当前优化目标;
d-2).在区间(0,1)内随机生成一实数rand1,然后判断rand1小于声记忆库取值概率HMCR是否成立,HMCR∈(0,1),如果不成立,则执行步骤d-3);如果成立,则执行步骤d-4);
d-3).从数据集X中随机选取k个数据作为当前和声记忆库中新的和声矢量
Figure BDA0003946691000000033
执行步骤d-7);
d-4).按照从前至后的排序,从当前和声矢量
Figure BDA0003946691000000034
中找出待生成的数据xk,j,xk,j表示当前和声矢量
Figure BDA0003946691000000035
中第j个数据,j∈[1,…,k];
d-5).在区间(0,1)内随机生成一实数rand2,然后判断rand2小于节距调节概率PAR是否成立,PAR∈(0,1),如果不成立,则执行步骤d-7);如果成立,则执行步骤d-6);
d-6).利用公式(3)所示的节距调整函数生成xnew,j
xnew,j=χ×[xbest,j+rand3×(xr1,j-xr2,j+xr3,j-xr4,j)] (3)
其中,xr1,j、xr2,j、xr3,j、xr4,j为从和声记忆库中随机选取4个标号不同的和声矢量的第j个变量值,xbest,j为和声记忆库中具有最佳适应度的和声矢量的第j个变量值,χ和rand3均为介于0和1之间的随机实数;
并将生成的xnew,j替换xk,j;执行步骤d-7);
d-7).判断是否生成了新的和声矢量
Figure BDA0003946691000000041
如果判断为是,则执行步骤d-8);如果判断为否,则执行步骤d-2);
d-8).根据公式(1)分别计算出新的和声矢量
Figure BDA0003946691000000042
当前和声矢量
Figure BDA0003946691000000043
的适应度,并判断
Figure BDA0003946691000000044
的适应度是否优于
Figure BDA0003946691000000045
的适应度,如果优于,则执行步骤d-10);如果不优于,则执行步骤d-9);
d-9).根据K-means质心求解公式更新当前和声矢量
Figure BDA0003946691000000046
中的k个数据,来获取
Figure BDA0003946691000000047
执行步骤d-10);
d-10).利用
Figure BDA0003946691000000048
替换
Figure BDA0003946691000000049
来实现和声记忆库的更新;执行步骤d-11);
d-11).判断当前迭代次数是否达到了设定的迭代次数NI,如果达到,则和声记忆库的更新结束,如果没有达到,则执行步骤d-1)。
本发明的基于改进和声搜索算法的数据自动聚类方法,步骤d-2)中所述的和声记忆库取值概率HMCR通过公式(4)进行求取:
Figure BDA00039466910000000410
其中,gn为当前迭代次数,NI为设定的所需达到的迭代次数;
步骤d-5)中所述的节距调节概率PAR通过公式(5)进行求取:
Figure BDA00039466910000000411
其中,gn为当前迭代次数,NI为设定的所需达到的迭代次数。
本发明的基于改进和声搜索算法的数据自动聚类方法,步骤d-9)中根据K-means质心求解公式更新当前和声矢量
Figure BDA00039466910000000412
中k个数据的公式如下:
Figure BDA00039466910000000413
其中,cj为更新后的聚类中心点,xi表示聚类对象,xi∈cj表示聚类对象xi归属cj类簇。
本发明的基于改进和声搜索算法的数据自动聚类方法,优选地,Kmin=2。
本发明的有益效果是:本发明的基于改进和声搜索算法的数据自动聚类方法,首先建立聚类数目从Kmin到Kmax的和声记忆库,并确定适应度函数,然后采用和声搜索算法来更新和声记忆库,通过足够次数的迭代更新,自适应度最优的和声矢量中有效数据和有效数据个数分别作为聚类中心点、聚类数目,即可实现数据的聚类划分;整个数据聚类过程中,即避免了优化截止阈值的设定,又可防范出现聚类数小于2的情形,提高了聚类性能,并具有可调参数少,操作简单,聚类精度更高的优点。
进一步地,选择PBM聚类评价指标作为适应度函数来计算和声矢量的适应度值,通过该评价函数,能够得到相对更好的聚类结果。
进一步地,声记忆库取值概率HMCR被设置为随迭代次数在区间(0,1)中递增的数值函数,这样,在算法早期优化阶段,较小HMCR值有利于增加解向量的多样性,避免陷入局部最优,随着迭代寻优,局部最优风险逐渐降低,HMCR值应随之增大以加强和声矢量的集约化水平。
进一步地,节距调节概率PAR被设置为随迭代次数在区间(0,1)中递减的数值函数,这样,在优化前期,较高的PAR概率值有助于多样性搜寻,而在优化后期,降低PAR值有利于平衡和声记忆库中各和声矢量表现,从而充分发挥和声记忆库的平台优势,进一步提高优化精度。
附图说明
图1为本发明的基于改进和声搜索算法的数据自动聚类方法的流程图;
图2为本发明中所建立的和声记忆库的示意图;
图3为本发明中声记忆库取值概率HMCR、节距调节概率PAR与迭代次数NI的关系曲线图;
图4为三组人工数据集用于聚类对比实验以确定聚类评价指标;;
图5为不同聚类方法在各个数据集上的优化收敛曲线;
图6为4幅常见的灰度基准图像,分别是Lena、Mandrill、Jet和Peppers。
图7为图6中4幅灰度基准图像经本发明的数据自动聚类方法处理后的图像。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,给出了本发明的基于改进和声搜索算法的数据自动聚类方法的流程图,其通过以下步骤来实现:
a).待聚类数据初始化,将待聚类的数据存储在集合X中,形成数据集X,记为X={x1,x2,...,xi,...,xn};xi为待聚类的第i个数据;
b).和声记忆库的建立与初始化,设最小聚类数目为Kmin,Kmin≥2,最大聚类数目为Kmax,Kmax>Kmin;建立有效聚类数目分别为Kmin、Kmin+1、…、Kmax的矩阵式和声记忆库,代表不同聚类数目的数据成一行存放,从集合X中随机选取Kmax·(Kmax-Kmin+1)个数据用于和声记忆库的初始化,每一行初始化Kmax个数据;对于代表聚类数目为k的一行数据用和声矢量
Figure BDA0003946691000000061
表示,其前k个数据为聚类中心的有效解,而其余变量为无效解,(Kmin≤k≤Kmax);
如图2所示,给出了本发明中所建立的和声记忆库的示意图,存储在和声记忆库的和声矢量被编码为实数值字符串,并分别代表具有Kmin到Kmax之间特定数目的聚类中心点。因此,和声记忆库的大小HMS为:Kmax-Kmin+1。除非另有规定,否则Kmin通常选择数值“2”。假设聚类数据集的维度为d,则和声矢量长度为:Kmax×d。图2展示了和声记忆库的表现形式,对于代表特定聚类数目k(k∈[2,Kmax])的和声矢量,其前面k个项目为有效解,并表示为聚类中心点,用符号“●”标注,剩余变量为无效解,用符号“○”标注。
c).确定适应度函数,选择内部聚类评价指标PBM作为判评聚类质量的适应度函数,用于计算和声记忆库中每个和声矢量的适应度值;
该步骤中,所确定的适应度函数为:
Figure BDA0003946691000000062
其中,k表示聚类数目,ET为数据集X中所有点到整个数据集中心的距离之和,EW为类簇内所有点到质心的距离之和,DB为数据集中类簇质心间的最大距离;PBM越大表明聚类效果越好;
ET、EW和DB通过如下公式进行求取:
Figure BDA0003946691000000071
其中,c为整个数据集的中心,cj、cj′为不同类簇的质心,Ij表示j类簇中所有对象的标号集。
d).更新和声记忆库,首先判断是否满足所需的迭代次数NI,否则从和声记忆库中随机选择一个聚类数目为k的和声矢量
Figure BDA0003946691000000072
采用和声搜索算法生成新的和声矢量
Figure BDA0003946691000000073
在新生成和声矢量
Figure BDA0003946691000000074
的适应度优于原和声矢量
Figure BDA0003946691000000075
的适应度的情况下,利用和声矢量
Figure BDA0003946691000000076
替换
Figure BDA0003946691000000077
实现和声记忆库的更新;直至迭代次数达到NI;
该步骤中,所述的更新和声记忆库具体通过以下步骤来实现:
d-1).选择优化目标,在正整数区间[Kmin,Kmax]中随机生成一个正整数k,然后从声记忆库中选取代表聚类数目为k的和声矢量
Figure BDA0003946691000000078
为当前优化目标;
d-2).在区间(0,1)内随机生成一实数rand1,然后判断rand1小于声记忆库取值概率HMCR是否成立,HMCR∈(0,1),如果不成立,则执行步骤d-3);如果成立,则执行步骤d-4);
在和声搜索算法中,多样化和集约化受参数HMCR(声记忆库取值概率)和PAR(节距调整概率)的合作与协调。对于目前多数和声搜索算法研究,其核心参数仍需要人工设置,算法操作繁琐,自适应性不强,尤其对于新手用户。在(1-HMCR)概率下,算法通过初始解空间随机生成新的和声矢量。因此,在算法早期优化阶段,较小HMCR值有利于增加解向量的多样性,避免陷入局部最优。随着迭代寻优,局部最优风险逐渐降低,HMCR值应随之增大以加强和声矢量的集约化水平,将HMCR修改为随迭代次数非线性增加的动态量。
该步骤中,所述的和声记忆库取值概率HMCR通过公式(4)进行求取:
Figure BDA0003946691000000081
其中,gn为当前迭代次数,NI为设定的所需达到的迭代次数。
d-3).从数据集X中随机选取k个数据作为当前和声记忆库中新的和声矢量
Figure BDA0003946691000000082
执行步骤d-7);
d-4).按照从前至后的排序,从当前和声矢量
Figure BDA0003946691000000083
中找出待生成的数据xk,j,xk,j表示当前和声矢量
Figure BDA0003946691000000084
中第j个数据,j∈[1,…,k];
d-5).在区间(0,1)内随机生成一实数rand2,然后判断rand2小于节距调节概率PAR是否成立,PAR∈(0,1),如果不成立,则执行步骤d-7);如果成立,则执行步骤d-6);
该步骤中,改进和声搜索算法的节距参数,在优化前期有助于多样性搜寻,则节距调整概率(PAR)需要设置较大的初始值。而在优化后期,较大PAR值会过分强调数值的微调作用,难以平衡和声记忆库中各和声矢量表现,容易出现“短板效应”,无法充分发挥和声记忆库的平台优势。但如果PAR值太小,则缺乏足够的局部扰动,影响优化精度。优选利用指数函数将算法的PAR值从1降至0.3左右。
所述的节距调节概率PAR通过公式(5)进行求取:
Figure BDA0003946691000000085
其中,gn为当前迭代次数,NI为设定的所需达到的迭代次数。
d-6).利用公式(3)所示的节距调整函数生成xnew,j
xnew,j=χ[xbest,j+rand3×(xr1,j-xr2,j+xr3,j-xr4,j)] (3)
其中,xr1,j、xr2,j、xr3,j、xr4,j为从和声记忆库中随机选取4个标号不同的和声矢量的第j个变量值,xbest,j为和声记忆库中具有最佳适应度的和声矢量的第j个变量值,χ和rand3均为介于0和1之间的随机实数;
并将生成的xnew,j替换xk,j;执行步骤d-7);
该步骤中,受差分进化算法中变异形式的启发,提出了和声搜索算法的节距参数新方案,即和声记忆库中不同随机变量间的数值差。此外,为提高解的多样性,以平衡探索-开发的矛盾为目标,通过更多扰动以增强全局搜寻功能,在节距调整函数中引入随机数作为收缩因子χ。
d-7).判断是否生成了新的和声矢量
Figure BDA0003946691000000091
如果判断为是,则执行步骤d-8);如果判断为否,则执行步骤d-2);
d-8).根据公式(1)分别计算出新的和声矢量
Figure BDA0003946691000000092
当前和声矢量
Figure BDA0003946691000000093
的适应度,并判断
Figure BDA0003946691000000094
的适应度是否优于
Figure BDA0003946691000000095
的适应度,如果优于,则执行步骤d-10);如果不优于,则执行步骤d-9);
d-9).根据K-means质心求解公式更新当前和声矢量
Figure BDA0003946691000000096
中的k个数据,来获取
Figure BDA0003946691000000097
执行步骤d-10);
该步骤中,根据K-means质心求解公式更新当前和声矢量
Figure BDA0003946691000000098
中k个数据的公式如下:
Figure BDA0003946691000000099
其中,cj为更新后的聚类中心点,xi表示聚类对象,xiχcj表示聚类对象xi归属cj类簇。
d-10).利用
Figure BDA00039466910000000910
替换
Figure BDA00039466910000000911
来实现和声记忆库的更新;执行步骤d-11);
d-11).判断当前迭代次数是否达到了设定的迭代次数NI,如果达到,则和声记忆库的更新结束,如果没有达到,则执行步骤d-1)。
e).输出聚类结果,迭代结束后,从适应度最优的和声矢量中获得聚类数目和聚类中心点,按照最近距离原则实现数据集X中数据的划分。
在和声记忆库中,适应度函数表现最好的一组和声矢量,其所包含的前k个项目为有效解,并分别表示为聚类中心点。通过计算数据集与各聚类中心的距离,将其分配给相似度最近的类簇,从而完成簇的划分。
优选地,Kmin=2。
聚类有效性指标用于评价聚类划分性能,通常分为内部评价指标和外部评价指标。当数据的原始划分未知时,需要采用内部评价指标。内部评价指标是基于数据集本身的自然分布特征来对聚类结果进行评价。内部评价指标也称为聚类无监督方法,不仅能有效度量聚类质量,而且还可用来确定数据集的类簇数。
本发明所提出的基于改进和声搜索算法的数据自动聚类方法是在聚类先验信息未知情况下,自动确定合适的聚类数,因此,聚类算法的适应度函数应选用内部评价指标。在众多内部聚类评价标准中,DB(Davies-Boldin)指标,XB(Xie-Beni)指标和PBM指标是三种常见的形式。
对于上述三种聚类指标,本发明为验证哪个指标更适合作为算法适应度函数,同时确定当和声记忆库的大小,即参数HMS(对应最大聚类数Kmax减1)为何值时,算法的自动聚类性能表现最佳。图4给出了三组人工数据集用于聚类对比实验,其特征信息如表1所示。
表1
Figure BDA0003946691000000101
将DB、XB、PBM三种有效性指标作为自动聚类算法的适应度函数,参数HMS值分别设置为5、10、15、20和25等。算法的适应度函数评估次数为200,并在每组实验数据集上独立执行20次操作。结果表明,PBM作为自动聚类算法的适应度函数能够获得更好聚类数目的均值和标准差。
在以PBM指标为适应度函数条件下,当参数HMS值为5、10和15时,算法在三组数据集上均能获得准确且稳定的聚类数目。但当该数值继续变大时,聚类结果随之变差,且算法运行时间也变长。考虑HMS=Kmax-1,在满足聚类要求前提下,为使自动聚类算法具有更广的应用范围,其最大聚类数目Kmax应尽可能高。因此,将参数HMS值设定为15,考虑HMS=Kmax-1,则自动聚类算法的最大聚类数为Kmax=16。
为评估本发明所提自动聚类方法的优越性,利用真实数据集进行综合对比实验:一是验证改进和声搜索算法用于自动聚类是否优于其它和声搜索算法;二是对比本发明的自动聚类方法是否优于其它不同类型的聚类方法。
首先验证本发明的改进和声搜索在自动聚类中是否优于其它和声搜索算法类型,包括基本和声搜索(HS)、改善和声搜索(LHS)、混合和声搜索(HHS)、参数自适应和声搜索(PAHS)。通过参考每种算法的原始文献,设置它们最佳参数。为了实验公平性,每种和声搜索算法的和声记忆库大小(HMS),也表示最大聚类数Kmax减1,均取值15。所有算法的适应度评估次数为200,并分别在每组数据集上独立执行40次操作,统计获得聚类数的均值和标准差。
实验结果表明,本发明提出的自动聚类算法在多数场合下能够获得更接近实际数目的聚类值,且标准差也相对偏低。此外,图5展示了不同算法在各个数据集上的优化收敛曲线,曲线来源于适应度函数PBM均值,图中的DPHS代表本发明所提出的用于数据自动聚类的改进和声搜索算法。从图中看出,相比其它和声搜索算法,本发明中改进和声搜索用于自动聚类普遍获得更高的PBM指标值。
其次,对比本发明的自动聚类方法与其它聚类方法,包括K-means、Robust K-means以及基于不同优化算法的自动聚类方法,包括基于改进差分进化算法的自动聚类(ACDE)、基于粒子群优化的动态聚类(DCPSO)、极易遗传进化的自动聚类(GCUK)、基于膜计算的聚类算法(Membrane systems)等。为了实验公平性,遵循各对比算法的参数设置要求,适应度函数评估次数为300,最大聚类数为15,对各组数据集分别进行50次独立运算。
实验结果表明,相比其它自动聚类方法,本发明提出的自动聚类算法在聚类应用中有了进一步提高,能够获得性能稳定且更符合实际要求的聚类数目。
本发明还尝试将提出的自动聚类算法用于二维灰度图像分割。图像分割也可以视为一种聚类问题,其中的像素点代表聚类对象,每个区域对应一个类簇。
该实验选用4幅常见的灰度基准图像,分别是Lena、Mandrill、Jet和Peppers,如图6所示。图像尺寸大小均为512*512,像素点总数为262144。
但是,在利用聚类进行图像分割时,由于聚类特征是像素数值而非距离模式,有效性指标PBM作为适应度函数会倾向于聚类数的增加。为了应对这种偏见,在PBM中引入了惩罚系数
Figure BDA0003946691000000125
则改进后的PBM表示形式为:
Figure BDA0003946691000000121
Figure BDA0003946691000000124
为惩罚系数,其定义式为:
Figure BDA0003946691000000122
其中,Kmax和Kmin分别为最大、最小聚类数,K为当前聚类簇值。
为充分发挥算法的聚类性能,算法适应度函数的评估次数设置为10000,并分别对每幅图像独立执行30次操作。实验结果表明,本发明提出基于改进和声搜索算法的数据自动聚类方法能够获得接近灰度图像的基准分类数。表2给出了基于改进和声搜索算法的数据自动聚类方法所获得相对最优聚类中心点。
表2
Figure BDA0003946691000000123
根据聚类中心点,得到图像的分割效果,见图7。从分割结果看出,不同物体对象之间具有可辨识性。虽然分割效果仍难以达到最佳状态,但相对较好的实验结果也为该研究领域提供了良好参考价值和指导意义。

Claims (6)

1.一种基于改进和声搜索算法的数据自动聚类方法,其特征在于,通过以下步骤来实现:
a).待聚类数据初始化,将待聚类的数据存储在集合X中,形成数据集X,记为X={x1,x2,...,xi,...,xn};xi为待聚类的第i个数据;
b).和声记忆库的建立与初始化,设最小聚类数目为Kmin,Kmin≥2,最大聚类数目为Kmax,Kmax>Kmin;建立有效聚类数目分别为Kmin、Kmin+1、…、Kmax的矩阵式和声记忆库,代表不同聚类数目的数据成一行存放,从集合X中随机选取Kmax·(Kmax-Kmin+1)个数据用于和声记忆库的初始化,每一行初始化Kmax个数据;对于代表聚类数目为k的一行数据用和声矢量
Figure FDA0003946690990000011
表示,其前k个数据为聚类中心的有效解,其余变量为无效解,Kmin≤k≤Kmax
c).确定适应度函数,选择内部聚类评价指标PBM作为评判聚类质量的适应度函数,用于计算和声记忆库中每个和声矢量的适应度值;
d).更新和声记忆库,首先判断是否满足所需的迭代次数NI,否则从和声记忆库中随机选择一个聚类数目为k的和声矢量
Figure FDA0003946690990000012
采用和声搜索算法生成新的和声矢量
Figure FDA0003946690990000013
在新生成和声矢量
Figure FDA0003946690990000014
的适应度优于原和声矢量
Figure FDA0003946690990000015
的适应度的情况下,利用和声矢量
Figure FDA0003946690990000016
替换
Figure FDA0003946690990000017
实现和声记忆库的更新;直至迭代次数达到NI;
e).输出聚类结果,迭代结束后,从适应度最优的和声矢量中获得聚类数目和聚类中心点,按照最近距离原则实现数据集X中数据的划分。
2.根据权利要求1所述的基于改进和声搜索算法的数据自动聚类方法,其特征在于,步骤c)中所确定的适应度函数为:
Figure FDA0003946690990000018
其中,k表示聚类数目,ET为数据集X中所有点到整个数据集中心的距离之和,EW为类簇内所有点到质心的距离之和,DB为数据集中类簇质心间的最大距离;PBM越大表明聚类效果越好;
ET、EW和DB通过如下公式进行求取:
Figure FDA0003946690990000021
其中,c为整个数据集的中心,cj、cj′为不同类簇的质心,Ij表示j类簇中所有对象的标号集。
3.根据权利要求2所述的基于改进和声搜索算法的数据自动聚类方法,其特征在于,步骤d)中所述的更新和声记忆库具体通过以下步骤来实现:
d-1).选择优化目标,在正整数区间[Kmin,Kmax]中随机生成一个正整数k,然后从声记忆库中选取代表聚类数目为k的和声矢量
Figure FDA0003946690990000022
为当前优化目标;
d-2).在区间(0,1)内随机生成一实数rand1,然后判断rand1小于声记忆库取值概率HMCR是否成立,HMCR∈(0,1),如果不成立,则执行步骤d-3);如果成立,则执行步骤d-4);
d-3).从数据集X中随机选取k个数据作为当前和声记忆库中新的和声矢量
Figure FDA0003946690990000023
执行步骤d-7);
d-4).按照从前至后的排序,从当前和声矢量
Figure FDA0003946690990000024
中找出待生成的数据xk,j,xk,j表示当前和声矢量
Figure FDA0003946690990000025
中第j个数据,j∈[1,…,k];
d-5).在区间(0,1)内随机生成一实数rand2,然后判断rand2小于节距调节概率PAR是否成立,PAR∈(0,1),如果不成立,则执行步骤d-7);如果成立,则执行步骤d-6);
d-6).利用公式(3)所示的节距调整函数生成xnew,j
xnew,j=χ×[xbest,j+rand3×(xr1,j-xr2,j+xr3,j-xr4,j)] (3)
其中,xr1,j、xr2,j、xr3,j、xr4,j为从和声记忆库中随机选取4个标号不同的和声矢量的第j个变量值,xbest,j为和声记忆库中具有最佳适应度的和声矢量的第j个变量值,χ和rand3均为介于0和1之间的随机实数;
并将生成的xnew,j替换xk,j;执行步骤d-7);
d-7).判断是否生成了新的和声矢量
Figure FDA0003946690990000031
如果判断为是,则执行步骤d-8);如果判断为否,则执行步骤d-2);
d-8).根据公式(1)分别计算出新的和声矢量
Figure FDA0003946690990000032
当前和声矢量
Figure FDA0003946690990000033
的适应度,并判断
Figure FDA0003946690990000034
的适应度是否优于
Figure FDA0003946690990000035
的适应度,如果优于,则执行步骤d-10);如果不优于,则执行步骤d-9);
d-9).根据K-means质心求解公式更新当前和声矢量
Figure FDA0003946690990000036
中的k个数据,来获取
Figure FDA0003946690990000037
执行步骤d-10);
d-10).利用
Figure FDA0003946690990000038
替换
Figure FDA0003946690990000039
来实现和声记忆库的更新;执行步骤d-11);
d-11).判断当前迭代次数是否达到了设定的迭代次数NI,如果达到,则和声记忆库的更新结束,如果没有达到,则执行步骤d-1)。
4.根据权利要求3所述的基于改进和声搜索算法的数据自动聚类方法,其特征在于,步骤d-2)中所述的和声记忆库取值概率HMCR通过公式(4)进行求取:
Figure FDA00039466909900000310
其中,gn为当前迭代次数,NI为设定的所需达到的迭代次数;
步骤d-5)中所述的节距调节概率PAR通过公式(5)进行求取:
Figure FDA00039466909900000311
其中,gn为当前迭代次数,NI为设定的所需达到的迭代次数。
5.根据权利要求3或4所述的基于改进和声搜索算法的数据自动聚类方法,其特征在于,步骤d-9)中根据K-means质心求解公式更新当前和声矢量
Figure FDA00039466909900000312
中k个数据的公式如下:
Figure FDA00039466909900000313
其中,cj为更新后的聚类中心点,xi表示聚类对象,xi∈cj表示聚类对象xi归属cj类簇。
6.根据权利要求3或4所述的基于改进和声搜索算法的数据自动聚类方法,其特征在于,优选地,Kmin=2。
CN202211435981.3A 2022-11-16 2022-11-16 一种基于改进和声搜索算法的数据自动聚类方法 Pending CN115690476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211435981.3A CN115690476A (zh) 2022-11-16 2022-11-16 一种基于改进和声搜索算法的数据自动聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211435981.3A CN115690476A (zh) 2022-11-16 2022-11-16 一种基于改进和声搜索算法的数据自动聚类方法

Publications (1)

Publication Number Publication Date
CN115690476A true CN115690476A (zh) 2023-02-03

Family

ID=85054150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211435981.3A Pending CN115690476A (zh) 2022-11-16 2022-11-16 一种基于改进和声搜索算法的数据自动聚类方法

Country Status (1)

Country Link
CN (1) CN115690476A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828120A (zh) * 2023-02-17 2023-03-21 山东科技大学 船舶交通行为模式自适应识别方法、系统及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828120A (zh) * 2023-02-17 2023-03-21 山东科技大学 船舶交通行为模式自适应识别方法、系统及计算机设备

Similar Documents

Publication Publication Date Title
CN108280491B (zh) 一种面向差分隐私保护的k均值聚类方法
CN112464005B (zh) 一种深度强化图像聚类方法
CN111814897A (zh) 一种基于多层次shapelet的时间序列数据分类方法
Li et al. A self-adaptive mating restriction strategy based on survival length for evolutionary multiobjective optimization
CN115840900A (zh) 一种基于自适应聚类分层的个性化联邦学习方法及系统
Li et al. A binary individual search strategy-based bi-objective evolutionary algorithm for high-dimensional feature selection
CN108153918B (zh) 基于自适应正交交叉的多目标优化算法的个性化电影推荐方法
CN116883672B (zh) 基于聚类划分的差分进化算法和otsu算法的图像分割方法
CN115690476A (zh) 一种基于改进和声搜索算法的数据自动聚类方法
CN117290721A (zh) 数字孪生建模方法、装置、设备及介质
CN107578101B (zh) 一种数据流负载预测方法
CN111832817A (zh) 基于mcp罚函数的小世界回声状态网络时间序列预测方法
CN116596021A (zh) 基于改进的麻雀搜索算法的模型参数优化方法、装置
CN112348571A (zh) 基于销售预测系统的组合模型销售预测方法
CN115809719A (zh) 一种基于形态聚类的短期负荷预测修正方法
CN112132180A (zh) 一种基于改进鲸鱼算法优化的模糊c核均值聚类分割方法
CN114417095A (zh) 一种数据集划分方法及装置
CN111813669B (zh) 基于多目标群体智能的适应性随机测试用例生成方法
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
CN112232401A (zh) 一种基于差分隐私及随机梯度下降的数据分类方法
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
CN110837853A (zh) 一种快速分类模型构建方法
CN114444614A (zh) 一种自适应多均值两步聚类方法
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
CN110728293B (zh) 一种游客去向数据分级聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination