CN114970728A - Dhssa优化的k均值互补迭代车型信息数据聚类方法 - Google Patents

Dhssa优化的k均值互补迭代车型信息数据聚类方法 Download PDF

Info

Publication number
CN114970728A
CN114970728A CN202210609137.1A CN202210609137A CN114970728A CN 114970728 A CN114970728 A CN 114970728A CN 202210609137 A CN202210609137 A CN 202210609137A CN 114970728 A CN114970728 A CN 114970728A
Authority
CN
China
Prior art keywords
center
dhssa
fitness
distance
type information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210609137.1A
Other languages
English (en)
Inventor
惠晓滨
黄莺
李文龙
黄鹤
梁浩锋
崔颢
罗望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Huizhi Information Technology Co ltd
Original Assignee
Xi'an Huizhi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Huizhi Information Technology Co ltd filed Critical Xi'an Huizhi Information Technology Co ltd
Priority to CN202210609137.1A priority Critical patent/CN114970728A/zh
Publication of CN114970728A publication Critical patent/CN114970728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供DHSSA优化的K均值互补迭代车型信息数据聚类方法,输入标准数据集,根据其类别的个数确定标准数据集中类的个数;对获得的数据集利用SMMP初始化中心点;计算获得的每个数据样本对获得的初始化中心点的欧式距离,将样本点所属类别归于最小欧式距离的聚类中心;对获得的每个类别采用DHSSA进行寻优操作,得到新聚类中心,通过适应度函数公式计算每个类别的适应度值;对获得的新聚类中心使用KMC重新确定每个样本的新类别;对获得的新类别进行适应度值计算;判断得到的适应度值是否小于前述得到的适应度值,若小于,则更新聚类中心并继续下一步;否则,继续下一步;判断是否达到最大迭代次数,若是,则输出数据聚类结果;若否,则回转计算欧式距离。

Description

DHSSA优化的K均值互补迭代车型信息数据聚类方法
技术领域
本发明涉及聚类技术领域,特别涉及DHSSA优化的K均值互补迭代车型信息数据聚类方法。
背景技术
聚类分析是统计学习领域的常用方法,可以根据不同对象数据之间的内在特征,将相似度较大的数据样本划分到同一簇,已经应用于许多领域,诸如车辆数据、车辆检测、车辆轨迹等等。K-means聚类(KMC)是使用最广泛的聚类算法之一,具有速度快、效果好、思想简单的特点。但是在实际的车型数据聚类过程中会因为初始点选取不当而导致误差较大,K-means++、山峰聚类等在一定程度上解决了KMC初始化方面的缺陷,但优化路径过于简单,存在受异常点影响大,算法早熟的问题。近年来利用群智能优化算法来寻找聚类中心,解决早熟问题成为研究热点,广受研究学者的关注。Das P等人将人工蜂群算法与KMC杂交迭代,解决了早熟的问题,验证了群智能改进KMC的有效性,但是利用改进蜂群算法改进KMC存在处理高维数据集存在能力不足,以及迭代速度慢的问题;陈小雪等人利用萤火虫算法优化KMC的中心初始化问题,克服了初始聚类中心难选取和噪声点的影响,但不适合处理大数据集;黄小莉等人设计了一种准确率较高的IFOA-K-means算法,横向的探索能力增强,但忽略了纵向的挖掘能力;黄鹤等人将改进飞蛾扑火算法与KMC算法交叉迭代实现聚类,优化寻优结果,但飞蛾的更新机制使得算法的耗时较长。麻雀搜索算法(Sparrow SearchAlgorithm,SSA)是2020年由XUE提出的一种新的群智能优化算法,模拟了麻雀觅食的过程,具有收敛速度快,适应性强,模型易修改等特点,适合用于优化聚类,但以上方法均无法同时保证较高的聚类精度与较快的迭代速度。
发明内容
为了解决现有技术中存在的问题,本发明提供一种DHSSA优化的K均值互补迭代车型信息数据聚类方法,基于扰动因子-领头雀的SSA优化方法(DHSSA),与KMC算法互补迭代,有效提高了车型数据的聚类精度与迭代速度,且本发明在面对不同的数据集时具有更高的搜索精度、收敛速度以及更低的聚类代价。
为实现上述目的,本发明提供如下技术方案:
DHSSA优化的K均值互补迭代车型信息数据聚类方法,包括以下步骤:
步骤1:输入车型信息数据集Data,根据手肘法确定车型信息数据集中类的个数k;
步骤2:对步骤1中车型信息数据集利用SMMP初始化中心点;
步骤3:计算步骤1车型信息数据集中每个数据样本对步骤2获得的初始化中心点的欧式距离,将样本点所属类别归于最小欧式距离的聚类中心,确定每个样本的初始类别;
步骤4:对步骤3获得的每个类别采用DHSSA进行寻优操作,得到新聚类中心,通过适应度函数公式计算每个类别的适应度值;
步骤5:对步骤4获得的新聚类中心使用KMC重新确定每个样本的新类别;
步骤6:对步骤5得到的新类别利用适应度函数公式计算适应度值,并判断是否小于上一次迭代利用步骤4得到的适应度值;若小于,则更新类中心并继续下一步;否则,继续下一步;
步骤7:判断是否达到DHSSA-KMC最大迭代次数itermax1,若是,则输出数据聚类结果即最优聚类中心;若否,则回转执行步骤4。
进一步地,步骤2中利用SMMP初始化中心点具体处理为:计算车型信息数据集每个数据样本之间的距离,建立距离矩阵Temp,然后求出数据样本中距离所有点的距离和最小的点,将该点作为第一个中心点C1,再建立一个数值全为-1的标记矩阵Clust,每选出一个中心,将距离中心的前n/k个点归于对应的中心,其中,n为样本数,k为类的个数,并且在Clust矩阵中标记出来,之后计算的中心只会在Clust矩阵中标记为-1的元素中得到,数据样本之间距离的计算公式为:
Figure BDA0003672516900000031
式中,d_xixm表示第i个元素到第m个元素的距离,i=1,2,…,n,m=1,2,…,n,j=1,2...d,d表示数据维度,计算所有样本点之间距离建立n*n距离矩阵Temp:
Figure BDA0003672516900000032
进一步地,步骤2中利用SMMP初始化中心点,具体步骤为:
步骤2.1:计算车型信息数据集Data中所有数据样本之间的距离,建立Temp,从Temp中选取距离所有点距离和最短的点作为第一个初始中心点C1,加入集合C,新建n×1的数值全为-1的标记矩阵Clust,在标记矩阵Clust中标记第一个初始中心点C1周围距离大小为前n/k的点为1;
步骤2.2:选取距离第一个初始中心点C1最大且在标记矩阵Clust中标记为-1的元素为C2
步骤2.3:将C2加入集合C,在标记矩阵Clust中标记C2周围距离大小为前n/k的点为2;
步骤2.4:分别统计数据集Data中标记矩阵Clust标记为-1的元素到C中各个元素的距离,并存入临时距离矩阵Temp1中;
步骤2.5:找出数据集Data中标记矩阵Clust标记为-1的元素对应Temp1中的最大距离和最小距离值,求其乘积,并将最大乘积值对应的元素作为中心Cp,加入集合C,在标记矩阵Clust中标记Cp周围距离大小为前n/k的点为p,若集合C中元素个数小于k,转到步骤2.4;若集合C中元素个数大于k,则初始中心选取结束,输出包含k个初始点的集合C,即是得到的初始中心。
进一步地,步骤4中采用DHSSA进行寻优操作,得到新聚类中心,所采用的DHSSA算法包括步骤如下:
步骤4.1:将步骤3获得的每个类初始别的数据样本定义为麻雀初始种群,计算种群适应度并排序选出最优和最差个体;
步骤4.2:开始迭代更新;
步骤4.3:发现者根据头雀策略更新坐标位置,加入者和警戒者利用SSA更新位置;
步骤4.4:利用扰动因子t增加扰动种群多样性,根据贪婪原则决定是否替换原种群个体;
步骤4.5:判断最优适应度是否小于上次最优适应度,小于则替换最优个体,否则继续;
步骤4.6:判断是否达到最大迭代次数itermax2,若是,则输出最优个体即新的聚类中心,若否,则回转执行步骤4.3。
进一步地,步骤4.3中所述发现者为适应度排前20%的个体,根据头雀策略更新发现者坐标位置的公式为:
Figure BDA0003672516900000051
式中,
Figure BDA0003672516900000052
表示种群中第t代中第i个个体,
Figure BDA0003672516900000053
表示种群中第t代中最优个体,α为[0,1]的均匀随机数,itermax为最大迭代次数,Q为一个标准正态分布随机数,L是一行多维的全一矩阵,R2为[0,1]的均匀随机数,ST为警戒阈值,ω为权重因子,更新公式如下:
Figure BDA0003672516900000054
式中,ωmax和ωmin分别为权重因子的最大值和最小值,取1和0.01。
进一步地,步骤4.3中加入者和警戒者利用SSA更新位置,具体为:
其中,加入者为除去发现者适应度排后80%的个体,设计位置更新公式如下:
Figure BDA0003672516900000055
式中,
Figure BDA0003672516900000056
是第t代种群发现者占据的最佳位置,
Figure BDA0003672516900000057
表示当前全局最差位置,A为只含1或-1元素(1×d)的矩阵,定义矩阵运算A+的计算方式如下:
A+=AT(AAT)-1
在麻雀种群随机选取任意比例的个体作为警戒者,则这些个体对全体的影响如下:
Figure BDA0003672516900000058
式中,
Figure BDA0003672516900000059
表示当前全局最优位置;β是符合正态分布的步长控制参数,均值为0,方差为1;k是[-1,1]的随机数;fi表示麻雀当前位置的适应度;fg与fw分别为全局最优和最差适应度;ε为不为零的极小值。
进一步地,步骤4.4中利用扰动因子t增加扰动种群多样性,具体为增加扰动种群xi,new,计算公式为:
xi,new=xi+xi×t(iter)
式中,iter为SSA当前迭代次数,t(iter)是自由度参数为iter的t分布;采用扰动因子t求取新解之后,根据贪婪原则更新得到的新种群,计算公式为:
Figure BDA0003672516900000061
式中,f(xi)为xi的适应度,f(xi,new)为xi,new的适应度。
进一步地,步骤4中所述适应度函数公式如下:
Figure BDA0003672516900000062
式中,p是种群的类别数,d(xi,cp)表示第p类内的对象到该类的聚类中心点的距离和,np为第p类中的种群数量。
进一步地,步骤5中对新聚类中心使用KMC重新确定每个样本的新类别,具体为:
计算每个数据样本到各个新聚类中心的欧式距离,根据距离最小原则重新分类数据。
进一步地,步骤6中判断步骤4得到的适应度值是否小于上一次迭代步骤4得到的适应度值;若小于,则更新类中心并继续下一步;否则,继续下一步,其中适应度值判断公式为:
Figure BDA0003672516900000071
式中,t是DHSSA-KMC当前迭代次数。
与现有技术相比,本发明具有以下有益效果:
本发明提供DHSSA优化的K均值互补迭代车型信息数据聚类方法,改善了传统方法在车型信息数据聚类过程中受初始化中心点的影响较大导致聚类精度低,鲁棒性差,以及在迭代过程中求取均值选择聚类中心受离群点影响大的问题。
首先,为了解决多个中心出现在一个簇中的问题,本发明设计了基于筛选最大最小距离积方法SMMP优化聚类中心的初始化,使初始化的中心尽可能更均匀地分布在每个簇中,从而避免第一个中心的盲目选择问题,通过计算得到的中心大概率不会落在同一个簇中,采用SMMP初始化算法可以有效减小车型信息数据之间相互影响和密集程度。
其次,针对SSA算法中发现者位置更新不足和种群多样性不足的问题,设计了一种扰动因子-领头雀优化策略,通过自适应领头雀策略加强了最优个体的影响力,利用扰动因子扩大搜索空间,提升了寻找聚类中心的准确率。
进一步地,本发明设计了一种自适应领头雀引导策略来完善SSA算法,使得迭代更新不仅受父代的影响,还受到领头雀的影响。加入领头雀引导在前期会不利于种群全局探索能力的提升,为同时增加算法的前期全局探索和后期局部寻优能力,在最优个体(领头雀)引导策略的基础上添加自适应权重;自适应权重在前中期设计得变化减小较为缓慢,使得发现者的更新受父代的影响较大,降低算法早熟的可能性;后期减小很迅速,受领头雀的影响较大,提高了算法精度,加快聚类迭代的完成。
进一步地,本发明中采用分布扰动因子t对麻雀个体变异,根据参数自由度的大小表现不同,t在自由度较小时表现为柯西分布,在自由度较大表现为高斯分布。将t分布的自由度参数设为麻雀搜索算法迭代次数,前期表现为柯西分布,随着迭代次数的增加,后期表现高斯分布,加强局部探索能力。通过t扰动得到的位置既有利于增加种群多样性,即寻得聚类中心的可能性增加,又可以增加聚类的迭代速度。
最后,融合DHSSA和SMMP来优化K均值互补迭代,在减小迭代次数的同时增加搜索效率,得到较好的聚类结果。利用多种数据集进行测试,通过实验结果中的收敛曲线和性能指标可以看出,提出的DHSSA-KMC方法具有更高的搜索精度、收敛速度以及更低的聚类代价,并且耗时相对有所减少,证明了算法的有效性和优越性。
本发明DHSSA优化的K均值互补迭代车型信息数据聚类方法可以应用在车型信息数据中,在车型信息数据处理过程中,DHSSA-KMC可以高效聚类生成竞品车型供消费者选择,应用价值明显。
附图说明
图1是本发明的流程示意图;
图2(a)为Aggregation数据集初始化效果对比图;
图2(b)为Aggregation数据集KMC聚类曲线图;
图3(a)为Wine数据集运行结果图;
图3(b)为Ionosphere数据集运行结果图;
图3(c)为Aggregation数据集运行结果图;
图3(d)为Vowel数据集运行结果图;
图3(e)为Glass数据集运行结果图;
图3(f)为Ecoli数据集运行结果图;
图4为不同算法在车型信息数据集上的运行结果对比图。
具体实施方式
下面结合说明书附图及具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
具体实施方式:
参见图1,本发明提供DHSSA优化的K均值互补迭代车型信息数据聚类方法及应用,主要工作体现在以下几点:针对SSA算法中的问题,设计了一种扰动因子-领头雀优化策略,通过自适应领头雀策略加强了最优个体的影响力,利用扰动因子扩大搜索空间,提升了寻找聚类中心的准确率;设计了基于筛选最大最小距离积方法SMMP优化聚类中心的初始化;融合DHSSA和SMMP来优化K均值互补迭代,在减小迭代次数的同时增加搜索效率,得到较好的聚类结果。
DHSSA优化的K均值互补迭代车型信息数据聚类方法,包括以下步骤:
步骤1:输入车型信息数据集Data,根据其类别的个数确定数据集中类的个数k;
步骤2:对步骤1所述数据集利用SMMP初始化中心点;
SMMP全称为筛选最大最小距离积初始化,方法是计算所有点之间的距离,建立距离矩阵Temp,然后求出该样本中距离所有点的距离和最小的点,将该点作为第一个中心点C1,避免第一个中心的盲目选择问题。每个数据集分为k类,说明有k个簇。为了解决多个中心出现在一个簇中的问题,建立一个数值全为-1的标记矩阵Clust,每选出一个中心,将距离中心的前n/k个点归于对应的中心,其中,n为样本数,并且在Clust矩阵中标记出来,之后计算的中心只会在Clust矩阵中标记为-1的元素中得到。这样计算得到的中心大概率不会落在同一个簇中,SMMP初始化算法可以有效减小车型信息数据之间相互影响和密集程度。
数据样本之间距离的计算公式为:
Figure BDA0003672516900000101
式中,d_xixm表示第i个元素到第m个元素的距离,i=1,2,…,n,m=1,2,…,n,j=1,2...d,d表示数据维度。计算所有样本点之间距离建立距离矩阵Temp。
Figure BDA0003672516900000102
对Temp求取每行元素的距离和,即可得到第一个中心。
采用SMMP对数据集初始化中心点步骤如下:
步骤2.1:计算数据集Data中所有数据样本之间的距离,建立Temp,从中选取距离所有点距离和最短的点作为第一个初始中心点C1,加入集合C,新建n×1的数值全为-1的标记矩阵Clust,在Clust中标记C1周围距离大小为前n/k的点为1;
步骤2.2:选取距离C1最大且在Clust中标记为-1的元素为C2
步骤2.3:将C2加入集合C,在Clust中标记C2周围距离大小为前n/k的点为2;
步骤2.4:分别统计Data中Clust标记为-1的元素到C中各个元素的距离,并存入临时距离矩阵Temp1中;
步骤2.5:找出Data中Clust标记为-1的元素对应Temp1中的最大距离和最小距离值,求其乘积,并将最大乘积值对应的元素作为中心Cp,加入集合C,在Clust中标记Cp周围距离大小为前n/k的点为p。若C中元素个数小于k,转到步骤(4);若C中元素个数大于k,则初始中心选取结束,输出包含k个初始点集合C,即是得到的初始中心。
步骤3:计算步骤1中的每个数据样本对步骤2获得的初始化中心点的欧式距离,将样本点所属类别归于最小欧式距离的聚类中心,聚类中心Cp与样本数据xi的欧式距离d(xi,Cp)计算公式如下:
Figure BDA0003672516900000111
式中,j=1,2...d,d表示数据维度;
步骤4:对步骤3获得的每个类别采用DHSSA算法进行寻优操作,得到新聚类中心,通过适应度函数公式计算每个类别的适应度值;
适应度函数决定了优化麻雀群体进化的方向,直接影响种群算法的优化效果和解的质量,且是DHSSA与KMC算法的唯一接口。KMC以每个类别中个体到中心的距离和或个体总数为适应度函数,距离或点个数相等时,会存在辨识能力不足影响更新的问题。利用DHSSA优化聚类中心,结合距离与个数,采用的适应度函数如下:
Figure BDA0003672516900000112
式中,p是种群的类别数,d(xi,cp)表示第p类内的对象到该类的聚类中心点的距离和,np为第p类中的种群数量。
DHSSA算法包括步骤如下:
步骤4.1:步骤3确定了车型信息数据集每个数据样本的初始类别,将步骤3获得的每个初始类别的数据样本定义为麻雀初始种群,计算种群适应度并排序选出最优和最差个体;
步骤4.2:开始迭代更新;
步骤4.3:发现者根据头雀策略更新坐标位置,加入者和警戒者利用SSA更新位置,发现者更新公式为:
Figure BDA0003672516900000121
式中,
Figure BDA0003672516900000122
表示种群中第t代中最优个体,ω为权重因子,
Figure BDA0003672516900000123
表示种群中第t代中第i个个体,α为(0,1)中的均匀随机数,itermax为最大迭代次数,Q为一个标准正态分布随机数,L是一行多维的全一矩阵。R2为[0,1]中的均匀随机数,ST为警戒阈值,取值为0.6。更新公式如下:
Figure BDA0003672516900000124
式中,ωmax和ωmin分别为最大和最小值,取1和0.01。ω在前中期设计得变化减小较为缓慢,使得发现者的更新受父代的影响较大,降低算法早熟的可能性;后期减小很迅速,受领头雀的影响较大,提高了算法精度,加快聚类迭代的完成。
加入者更新公式如下:
Figure BDA0003672516900000125
式中,
Figure BDA0003672516900000126
是第t代种群发现者占据的最佳位置,
Figure BDA0003672516900000127
表示当前全局最差位置,A为只含1或-1元素(1×d)的矩阵,定义矩阵运算A+的计算方式如下:
A+=AT(AAT)-1
在麻雀种群随机选取20%的个体作为警戒者,更新公式如下:
Figure BDA0003672516900000131
式中,
Figure BDA0003672516900000132
表示当前全局最优位置;β是符合正态分布的步长控制参数,均值为0,方差为1;k是[-1,1]的随机数;fi表示麻雀当前位置的适应度;fg与fw分别为全局最优和最差适应度;ε为不为零的极小值,设置为1-8,防止分母为0。
本方法中发现者根据头雀策略更新坐标位置的具体操作为:设计了一种自适应领头雀引导策略来完善SSA算法,使得迭代更新不仅受父代的影响,还受到领头雀的影响。加入领头雀引导在前期会不利于种群全局探索能力的提升,为同时增加算法的前期全局探索和后期局部寻优能力,在上述最优个体(领头雀)引导策略的基础上添加自适应权重。
步骤4.4:利用扰动因子t增加扰动种群多样性,根据贪婪原则决定是否替换原种群个体;
扰动种群xi,new的计算公式为:
xi,new=xi+xi×t(iter)
式中,iter为当前迭代次数,t(iter)是自由度参数为iter的t分布。采用扰动因子t求取新解之后,根据贪婪原则更新得到的新种群。
Figure BDA0003672516900000133
式中,f(xi)为xi的适应度,f(xi,new)为xi,new的适应度。
这里利用扰动因子t增加种群多样性,根据贪婪原则决定是否替换原种群个体的具体操作为:采用分布扰动因子t对麻雀个体变异,根据参数自由度的大小表现不同,t在自由度较小时表现为柯西分布,在自由度较大表现为高斯分布。将t分布的自由度参数设为麻雀搜索算法迭代次数,前期表现为柯西分布,随着迭代次数的增加,后期表现高斯分布,加强局部探索能力。通过t扰动得到的位置既有利于增加种群多样性,即寻得聚类中心的可能性增加,又可以增加聚类的迭代速度。
步骤4.5:判断最优适应度是否小于迭代上次最优适应度,小于则替换最优个体,否则继续;
步骤4.6:判断是否达到最大迭代次数itermax2,若是则输出最优个体即新的聚类中心,若否则回转执行步骤4.3。
步骤5:对步骤4获得的新聚类中心使用KMC重新确定每个样本的新类别,具体包括如下步骤:
步骤5.1获取步骤4输出最优个体即新的聚类中心,
步骤5.2计算每个数据样本到各个新聚类中心的欧式距离,根据距离最小原则重新分类数据;
步骤6:判断步骤4得到的适应度值是否小于上一次迭代步骤4得到的适应度值;若小于,则更新类中心并继续下一步;否则,继续下一步;
适应度值判断公式为:
Figure BDA0003672516900000141
式中,t是DHSSA-KMC当前迭代次数。
步骤7:判断是否达到DHSSA-KMC最大迭代次数itermax1,即t是否小于itermax1,若是,则输出数据聚类结果即最优聚类中心;若否,则回转执行步骤4。
结合附图对本发明带来的效果作进一步地解释说明:
如图2(a),*为在Aggregation数据集上随机选取的聚类中心,初始化中心分布不规律,且大概率多中心落在同一个簇中;圆圈代表MMP初始化得到的聚类中心,在左上角的簇中有两个聚类中心;+代表SMMP得到的初始化中心,每个中心均匀的分布在相应的簇中。如图2(b),SMMP初始化相比MMP和随机初始化迭代速度更快,最优适应度更小。
DHSSA-KMC在聚类精度和收敛速度方面都优于其他四种算法。在数据集Wine的测试中,如图3(a),DHSSA-KMC的适应度<IMFO-KMC<SSA-KMC<KMC++<KMC;如图3(b),在数据集Ionosphere的测试中,DHSSA-KMC的适应度<SSA-KMC<IMFO-KMC=KMC++=KMC;在数据集Aggregation和Vowel测试中,如图3(c)与图3(d),DHSSA-KMC的适应度<IMFO-KMC<KMC++=KMC<SSA-KMC;如图3(e),在数据集Glass测试上,DHSSA-KMC的适应度<SSA-KMC<KMC<KMC++<IMFO-KMC;如图3(f),在数据集Ecoli测试中,DHSSA-KMC的适应度<IMFO-KMC<SSA-KMC<KMC<KMC++。
可以看出,在Ionosphere、Aggregation、Vowel数据集上,KMC和KMC++的适应度曲线重合,证明SMMP初始化方法和KMC++的初始化方法效果相同;在Glass、Ecoli数据集上,KMC在初始和聚类完成的适应度均优于KMC++,说明在处理复杂数据上SMMP初始化方法优于KMC++的初始化方法。
根据图4可以看出,本发明提供的算法对于车型信息数据集的聚类效果是最佳的。
本发明提供的方法用于解决传统方法在车型信息数据聚类过程中受初始化中心点的影响较大导致聚类精度低,鲁棒性差,以及在迭代过程中求取均值选择聚类中心受离群点影响大的问题。首先,针对SSA算法中发现者位置更新不足和种群多样性不足的问题,设计了一种扰动因子-领头雀优化策略,通过自适应领头雀策略加强了最优个体的影响力,利用扰动因子扩大搜索空间,提升了寻找聚类中心的准确率;其次,设计了基于筛选最大最小距离积方法SMMP优化聚类中心的初始化,在MMP基础上增加了筛选机制,使初始化的中心尽可能更均匀地分布在每个簇中;最后,融合DHSSA和SMMP来优化K均值互补迭代,在减小迭代次数的同时增加搜索效率,得到较好的聚类结果。利用多种数据集进行测试,通过实验结果中的收敛曲线和性能指标可以看出,提出的DHSSA-KMC方法相对于SSA-KMC、IMFO-KMC、KMC和KMC++具有更高的搜索精度、收敛速度以及更低的聚类代价,并且耗时相对于SSA-KMC和IMFO-KMC有所减少,证明了算法的有效性和优越性。在车型信息数据处理过程中,DHSSA-KMC可以高效聚类生成竞品车型供消费者选择,应用价值明显。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上做出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,包括以下步骤:
步骤1:输入车型信息数据集Data,根据手肘法确定车型信息数据集中类的个数k;
步骤2:对步骤1中车型信息数据集利用SMMP初始化中心点;
步骤3:计算步骤1车型信息数据集中每个数据样本对步骤2获得的初始化中心点的欧式距离,将样本点所属类别归于最小欧式距离的聚类中心,确定每个样本的初始类别;
步骤4:对步骤3获得的每个类别采用DHSSA进行寻优操作,得到新聚类中心,通过适应度函数公式计算每个类别的适应度值;
步骤5:对步骤4获得的新聚类中心使用KMC重新确定每个样本的新类别;
步骤6:对步骤5得到的新类别利用适应度函数公式计算适应度值,并判断是否小于上一次迭代利用步骤4得到的适应度值;若小于,则更新类中心并继续下一步;否则,继续下一步;
步骤7:判断是否达到DHSSA-KMC最大迭代次数itermax1,若是,则输出数据聚类结果即最优聚类中心;若否,则回转执行步骤4。
2.根据权利要求1所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤2中利用SMMP初始化中心点具体处理为:计算车型信息数据集每个数据样本之间的距离,建立距离矩阵Temp,然后求出数据样本中距离所有点的距离和最小的点,将该点作为第一个中心点C1,再建立一个数值全为-1的标记矩阵Clust,每选出一个中心,将距离中心的前n/k个点归于对应的中心,其中,n为样本数,k为类的个数,并且在Clust矩阵中标记出来,之后计算的中心只会在Clust矩阵中标记为-1的元素中得到,数据样本之间距离的计算公式为:
Figure FDA0003672516890000021
式中,d_xixm表示第i个元素到第m个元素的距离,i=1,2,…,n,m=1,2,…,n,j=1,2...d,d表示数据维度,计算所有样本点之间距离建立n*n距离矩阵Temp:
Figure FDA0003672516890000022
3.根据权利要求1所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤2中利用SMMP初始化中心点,具体步骤为:
步骤2.1:计算车型信息数据集Data中所有数据样本之间的距离,建立Temp,从Temp中选取距离所有点距离和最短的点作为第一个初始中心点C1,加入集合C,新建n×1的数值全为-1的标记矩阵Clust,在标记矩阵Clust中标记第一个初始中心点C1周围距离大小为前n/k的点为1;
步骤2.2:选取距离第一个初始中心点C1最大且在标记矩阵Clust中标记为-1的元素为C2
步骤2.3:将C2加入集合C,在标记矩阵Clust中标记C2周围距离大小为前n/k的点为2;
步骤2.4:分别统计数据集Data中标记矩阵Clust标记为-1的元素到C中各个元素的距离,并存入临时距离矩阵Temp1中;
步骤2.5:找出数据集Data中标记矩阵Clust标记为-1的元素对应Temp1中的最大距离和最小距离值,求其乘积,并将最大乘积值对应的元素作为中心Cp,加入集合C,在标记矩阵Clust中标记Cp周围距离大小为前n/k的点为p,若集合C中元素个数小于k,转到步骤2.4;若集合C中元素个数大于k,则初始中心选取结束,输出包含k个初始点的集合C,即是得到的初始中心。
4.根据权利要求1所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤4中采用DHSSA进行寻优操作,得到新聚类中心,所采用的DHSSA算法包括步骤如下:
步骤4.1:将步骤3获得的每个类初始别的数据样本定义为麻雀初始种群,计算种群适应度并排序选出最优和最差个体;
步骤4.2:开始迭代更新;
步骤4.3:发现者根据头雀策略更新坐标位置,加入者和警戒者利用SSA更新位置;
步骤4.4:利用扰动因子t增加扰动种群多样性,根据贪婪原则决定是否替换原种群个体;
步骤4.5:判断最优适应度是否小于上次最优适应度,小于则替换最优个体,否则继续;
步骤4.6:判断是否达到最大迭代次数itermax2,若是,则输出最优个体即新的聚类中心,若否,则回转执行步骤4.3。
5.根据权利要求4所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤4.3中所述发现者为适应度排前20%的个体,根据头雀策略更新发现者坐标位置的公式为:
Figure FDA0003672516890000031
式中,
Figure FDA0003672516890000032
表示种群中第t代中第i个个体,
Figure FDA0003672516890000033
表示种群中第t代中最优个体,α为[0,1]的均匀随机数,itermax为最大迭代次数,Q为一个标准正态分布随机数,L是一行多维的全一矩阵,R2为[0,1]的均匀随机数,ST为警戒阈值,ω为权重因子,更新公式如下:
Figure FDA0003672516890000041
式中,ωmax和ωmin分别为权重因子的最大值和最小值,取1和0.01。
6.根据权利要求5所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤4.3中加入者和警戒者利用SSA更新位置,具体为:
其中,加入者为除去发现者适应度排后80%的个体,设计位置更新公式如下:
Figure FDA0003672516890000042
式中,
Figure FDA0003672516890000043
是第t代种群发现者占据的最佳位置,
Figure FDA0003672516890000044
表示当前全局最差位置,A为只含1或-1元素(1×d)的矩阵,定义矩阵运算A+的计算方式如下:
A+=AT(AAT)-1
在麻雀种群随机选取任意比例的个体作为警戒者,则这些个体对全体的影响如下:
Figure FDA0003672516890000045
式中,
Figure FDA0003672516890000046
表示当前全局最优位置;β是符合正态分布的步长控制参数,均值为0,方差为1;k是[-1,1]的随机数;fi表示麻雀当前位置的适应度;fg与fw分别为全局最优和最差适应度;ε为不为零的极小值。
7.根据权利要求6所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤4.4中利用扰动因子t增加扰动种群多样性,具体为增加扰动种群xi,new,计算公式为:
xi,new=xi+xi×t(iter)
式中,iter为SSA当前迭代次数,t(iter)是自由度参数为iter的t分布;采用扰动因子t求取新解之后,根据贪婪原则更新得到的新种群,计算公式为:
Figure FDA0003672516890000051
式中,f(xi)为xi的适应度,f(xi,new)为xi,new的适应度。
8.根据权利要求4所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤4中所述适应度函数公式如下:
Figure FDA0003672516890000052
式中,p是种群的类别数,d(xi,cp)表示第p类内的对象到该类的聚类中心点的距离和,np为第p类中的种群数量。
9.根据权利要求1所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤5中对新聚类中心使用KMC重新确定每个样本的新类别,具体为:
计算每个数据样本到各个新聚类中心的欧式距离,根据距离最小原则重新分类数据。
10.根据权利要求1所述的DHSSA优化的K均值互补迭代车型信息数据聚类方法,其特征在于,步骤6中判断步骤4得到的适应度值是否小于上一次迭代步骤4得到的适应度值;若小于,则更新类中心并继续下一步;否则,继续下一步,其中适应度值判断公式为:
Figure FDA0003672516890000061
式中,t是DHSSA-KMC当前迭代次数。
CN202210609137.1A 2022-05-31 2022-05-31 Dhssa优化的k均值互补迭代车型信息数据聚类方法 Pending CN114970728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210609137.1A CN114970728A (zh) 2022-05-31 2022-05-31 Dhssa优化的k均值互补迭代车型信息数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210609137.1A CN114970728A (zh) 2022-05-31 2022-05-31 Dhssa优化的k均值互补迭代车型信息数据聚类方法

Publications (1)

Publication Number Publication Date
CN114970728A true CN114970728A (zh) 2022-08-30

Family

ID=82957971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210609137.1A Pending CN114970728A (zh) 2022-05-31 2022-05-31 Dhssa优化的k均值互补迭代车型信息数据聚类方法

Country Status (1)

Country Link
CN (1) CN114970728A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115371623A (zh) * 2022-08-25 2022-11-22 重庆大学 基于改进麻雀优化算法的轴直线度误差评定方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115371623A (zh) * 2022-08-25 2022-11-22 重庆大学 基于改进麻雀优化算法的轴直线度误差评定方法及系统

Similar Documents

Publication Publication Date Title
Alswaitti et al. Density-based particle swarm optimization algorithm for data clustering
CN108389211B (zh) 基于改进鲸鱼优化模糊聚类的图像分割方法
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及系统
JP4790590B2 (ja) 収束基準を利用する多目的最適化のためのモデルベースおよび遺伝ベースの子孫生成の組み合わせ
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN109949314B (zh) 一种基于半监督学习和直方图统计的多目标快速模糊聚类彩色图像分割方法
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN107783998A (zh) 一种数据处理的方法以及装置
Chatterjee et al. Clustering ensemble: a multiobjective genetic algorithm based approach
CN115374851A (zh) 一种燃气数据异常检测方法及装置
CN113435108A (zh) 一种基于改进的鲸鱼优化算法的战场目标分群方法
CN112270398A (zh) 一种基于基因编程的集群行为学习方法
CN114970728A (zh) Dhssa优化的k均值互补迭代车型信息数据聚类方法
Chen et al. A network community-based differential evolution for multimodal optimization problems
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
CN110245666B (zh) 基于双隶属度驱动的多目标区间值模糊聚类图像分割方法
CN111128292A (zh) 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
CN112817959B (zh) 基于多度量指标权重的古生物形态系统发育树构建方法
Saha et al. A fuzzy genetic clustering technique using a new symmetry based distance for automatic evolution of clusters
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
Saha et al. Unsupervised and supervised learning approaches together for microarray analysis
Murthy Genetic Algorithms: Basic principles and applications
Mukhopadhyay Interactive approach to multiobjective genetic fuzzy clustering for satellite image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination