CN109685122A - 一种基于密度峰和引力影响的半监督游客画像数据聚类方法 - Google Patents

一种基于密度峰和引力影响的半监督游客画像数据聚类方法 Download PDF

Info

Publication number
CN109685122A
CN109685122A CN201811515942.8A CN201811515942A CN109685122A CN 109685122 A CN109685122 A CN 109685122A CN 201811515942 A CN201811515942 A CN 201811515942A CN 109685122 A CN109685122 A CN 109685122A
Authority
CN
China
Prior art keywords
data
point
seed
cluster
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811515942.8A
Other languages
English (en)
Other versions
CN109685122B (zh
Inventor
李胜
李唱
何熊熊
常丽萍
姜倩茹
程铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811515942.8A priority Critical patent/CN109685122B/zh
Publication of CN109685122A publication Critical patent/CN109685122A/zh
Application granted granted Critical
Publication of CN109685122B publication Critical patent/CN109685122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于密度峰和引力影响的半监督游客画像数据聚类方法,通过密度峰算法计算游客画像数据各点的密度值和距离值,寻找到所有可能的聚类中心点;利用提供的游客画像种子点计算与可能的聚类中心点间的距离,投票筛选出精确的聚类中心点,并且利用种子标签信息给对应的聚类中心点贴上聚类标签;从全部的种子数据中随机选取一定比例的种子数据子集,通过引用万有引力定律的理念,计算种子数据子集与各个无标签数据点间的引力影响,从而对所有无标签数据进行聚类并为无标签数据贴上相应的簇标签;通过多次随机选取种子数据子集给无标签数据贴上相应的决策簇标签,投票选出最终各个无标签数据的簇标签信息。本发明聚类效果较好、精确度较高。

Description

一种基于密度峰和引力影响的半监督游客画像数据聚类方法
技术领域
本发明涉及一种基于密度峰和引力影响的半监督游客画像数据聚类方法,特别是指一种在密度峰和引力影响的基础上融合游客画像种子标签信息的半监督游客画像数据聚类方法。
背景技术
所谓聚类,就是把相似的事物聚集在一起,而将相异的事物划分到不同的类别的过程。在无监督学习中,聚类是一种极其重要的学习方法。作为统计学的一个分支,聚类学习广泛应用于各种行业领域,在这些领域甚至包括机器学习、数据挖掘、图像处理、智慧旅游、模式识别分析等当前热门领域。正是由于聚类学习是一种极其重要的学习方法,在过去的几十年里相关学者提出了大量的聚类算法,包括K均值聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类、图团体检测等聚类方法。2014年在《Science》上发表的DPC密度峰聚类算法,该算法简单高效,不需像k-means聚类算法对聚类过程不断迭代,也无需如DBSCAN聚类算法引入敏感的参数,可以自动寻找出聚类中心。
半监督聚类是在无监督聚类的基础上融合部分已知的标签信息。半监督聚类的目的在于利用部分的先验知识(例如种子标签数据)找到数据集的适当结构。它的一个显著特点可以使用初始种子标签数据和无标签数据的簇别对数据进行分组,以便修改反馈数据中整个规则的现有簇别集,提高整体数据的聚类精确度。
万有引力定律是物体间相互作用的一条定律。任何物体之间都有相互吸引力,这个力的大小与各个物体间的质量成正比,而与它们之间的距离成反比。如果用m1、m2分别表示物体1与物体2的质量,r表示这两个物体之间的距离,则物体1和物体2之间的相互吸引力F表示为F=(Gm1m2)/r2,其中G称为万有引力常数。
发明内容
为了克服现有DPC密度峰聚类方法的需要人为的通过决策图选取相关聚类中心点的不足,人工选取的聚类中心点无法准确铺捉到精确的聚类中心,对于每个簇只存在唯一的密度峰有效,相反对于簇中存在多个密度峰时聚类的效果很差;现有DPC密度峰聚类算法的聚类方差为零,在某一个数据点被分错簇别的情况下,其它跟随的它的数据点也会被分错簇别,进而产生了多米诺骨牌效应,降低聚类的精确度,本发明提供一种聚类效果较好、精确度较高的基于密度峰和引力影响的半监督游客画像数据聚类方法,在实际应用场景即旅游景区提供的游客画像数据中存在部分已知的相关聚类信息,充分利用已知游客画像种子簇标签信息求解未知游客画像数据的簇标签信息。
为了解决上述技术问题提出的技术方案如下:
一种基于密度峰和引力影响的半监督游客画像数据聚类方法,所述方法包括以下步骤:
步骤1,通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D,计算数据集D中各个数据点的局部密度值、与高密度点之间距离值,寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M,过程如下:
1.1通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρi、与高密度点之间的距离值δi的表达形式为
其中,式(1)中dc是截断距离,i、j都表示为数据集D中任意一个数据点的标号,即数据集D中第i个数据点、第j个数据点,w表示数据集D的所有数据点个数,dij是数据集D中第i个数据点和第j个数据点之间的距离,ρi表示在数据集D中所有与第i个数据点之间的距离小于截断距离dc的数据点的个数;式(2)中,δi表示在所有比第i个数据点的局部密度都大的数据点中,与第i个数据点之间距离最小的距离值;
1.2在数据集D中可能为聚类中心的数据点集M的特征表达形式为
γi=ρiδi (3)
其中,γi是第i个数据点作为聚类中心点的新选择标准,γi值越大表示第i个数据点作为聚类中心点的可能性越大;
步骤2,利用用户提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离,投票筛选出最终精确的聚类中心点集合C,过程如下:
2.1计算种子标签数据各点到数据集M中任意一点的距离,其距离表示为
其中,式(4)中s表示种子标签数据集中任意一个种子数据点;m表示由步骤1得到的初始聚类中心数据点集M中任意一个疑存聚类中心点;d(s,m)表示种子数据点s与初始聚类中心数据点m之间的欧式距离;n是单个数据的维度;t表示数据维度中的第t维特征值;
2.2根据式(4)计算出来的所有种子数据点与疑存聚类中心数据点间距离值d(s,m),寻找出到数据集M中每一个疑存聚类中心点m距离最小的种子数据点s,并把当前的种子数据点s的簇标签cl赋给当前的聚类中心点m,通过投票筛选出最终精确的聚类中心点集合C;
步骤3,从所有种子标签数据点中随机选取一定比例的种子数据子集,引入万有引力定律的理念计算种子数据子集与无标签数据中各个数据点间的引力影响度,对所有无标签数据中各点贴上相应的簇标签cl,过程如下:
3.1从所有种子标签数据点中按70%比例随机50次选取种子数据子集S,第i次随机选取的种子子集结果计作Si
3.2种子标签数据点与无标签数据点间的引力影响度分别表示为
其中,s是种子数据子集S中的任意一个种子数据点;u是无标签数据中任意一个无标签数据点;式(5)中,k为引力影响度系数取值为1,ρs是种子数据点s的局部密度,ρu是无标签数据u的局部密度,d(s,u)2代表数据点s与数据点u之间的欧氏距离二次方;式(6)中,n表示数据的维度即n维数据,st表示数据点s的第t维数据值,ut表示数据点u的第t维数据值;
3.3根据步骤3.2中式(5)、式(6)计算出来的每一个无标签数据点与每一个种子数据点间的引力影响度,计算同簇的种子点对每一个无标签数据点的综合引力影响度,具体表达形式如下
其中,式(7)中ci是由步骤2得到的精确聚类中心集合C中的第i个簇中心,s∈ci表示在种子数据子集S中与聚类中心点ci属于同一簇的全部种子数据,G(u,ci)表示在数据子集S中所有与聚类中心点ci同簇的种子点对无标签数据点u的综合引力影响度;
步骤4,通过多次随机选取种子数据子集S,重复步骤3.2、步骤3.3给无标签数据点贴上相应的决策簇标签cl,投票选出得票数最多的簇标签cl最终赋给各个无标签数据。
本发明考虑实际应用中部分已知游客画像种子数据簇标签信息情况,设计一种新型的基于密度峰和引力影响的半监督游客画像数据聚类方法,有效解决DPC密度峰聚类算法通过决策图选取中心点不精确的问题,并且引用万有引力的理念通过投票决策的操作解决DPC密度峰聚类的多米诺骨牌效应,实现半监督游客画像数据聚类。
本发明的技术构思为:通过DPC密度峰算法对所有游客画像无标签数据和种子标签数据计算各点的局部密度值和距离值,利用人工决策图寻找到所有可能的聚类中心点;利用旅游景点提供的游客画像种子标签信息计算与可能的聚类中心点间的距离,投票筛选出精确的聚类中心点,并且利用种子标签信息给对应的聚类中心点贴上相应的聚类标签;从全部的种子数据中随机选取一定比例的种子数据子集,通过引用万有引力定律的理念,计算种子数据子集与各个无标签数据点间的引力影响,从而对所有无标签数据进行聚类并为无标签数据贴上相应的簇标签;通过多次随机选取种子数据子集给无标签数据贴上相应的决策簇标签,投票选出最终各个游客画像的无标签数据点的簇标签信息。
本发明的有益效果为:对利用DPC密度峰算法通过决策图寻找到的聚类中心点进行筛选归类,提高每个簇聚类中心的精确性;通过引入引力影响度改变数据点簇别的划分方式,解决DPC密度峰聚类算法聚类过程中多米诺骨牌效应问题;充分利用景区景点提供的游客画像中已知的种子簇标签信息,通过部分的先验知识即种子标签数据找到数据集的适当结构,修改反馈游客画像数据中整个规则的现有簇别集,提高整体游客画像数据的聚类精确度;融合万有引力的理念、各个数据点的局部密度和与高密度点之间距离、种子簇标签信息,通过多次投票筛选得出各个游客画像数据点簇标签,使得聚类效果更优化,聚类的各个指标相对现有的聚类算法都有较大的提高和改善。
附图说明
图1为基于密度峰和引力影响的半监督游客画像数据聚类方法流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1,一种基于密度峰和引力影响的半监督游客画像数据聚类方法,包括以下步骤:
步骤1,通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D,计算数据集D中各个数据点的局部密度值、与高密度点之间距离值,寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M,过程如下:
1.2通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρi、与高密度点之间的距离值δi的表达形式为
其中,式(1)中dc是截断距离,i、j都表示为数据集D中任意一个数据点的标号,即数据集D中第i个数据点、第j个数据点,w表示数据集D的所有数据点个数,dij是数据集D中第i个数据点和第j个数据点之间的距离,ρi表示在数据集D中所有与第i个数据点之间的距离小于截断距离dc的数据点的个数;式(2)中,δi表示在所有比第i个数据点的局部密度都大的数据点中,与第i个数据点之间距离最小的距离值;
1.2在数据集D中可能为聚类中心的数据点集M的特征表达形式为
γi=ρiδi (3)
其中,γi是第i个数据点作为聚类中心点的新选择标准,γi值越大表示第i个数据点作为聚类中心点的可能性越大;
步骤2,利用用户提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离,投票筛选出最终精确的聚类中心点集合C,过程如下:
2.1计算种子标签数据各点到数据集M中任意一点的距离,其距离表示为
其中,式(4)中s表示种子标签数据集中任意一个种子数据点;m表示由步骤1得到的初始聚类中心数据点集M中任意一个疑存聚类中心点;d(s,m)表示种子数据点s与初始聚类中心数据点m之间的欧式距离;n是单个数据的维度;t表示数据维度中的第t维特征值;
2.2根据式(4)计算出来的所有种子数据点与疑存聚类中心数据点间距离值d(s,m),寻找出到数据集M中每一个疑存聚类中心点m距离最小的种子数据点s,并把当前的种子数据点s的簇标签cl赋给当前的聚类中心点m,通过投票筛选出最终精确的聚类中心点集合C;
步骤3,从所有种子标签数据点中随机选取一定比例的种子数据子集,引入万有引力定律的理念计算种子数据子集与无标签数据中各个数据点间的引力影响度,对所有无标签数据中各点贴上相应的簇标签cl,过程如下:
3.1从所有种子标签数据点中按70%比例随机50次选取种子数据子集S,第i次随机选取的种子子集结果计作Si
3.2种子标签数据点与无标签数据点间的引力影响度分别表示为
其中,s是种子数据子集S中的任意一个种子数据点;u是无标签数据中任意一个无标签数据点;式(5)中,k为引力影响度系数取值为1,ρs是种子数据点s的局部密度,ρu是无标签数据u的局部密度,d(s,u)2代表数据点s与数据点u之间的欧氏距离二次方;式(6)中,n表示数据的维度即n维数据,st表示数据点s的第t维数据值,ut表示数据点u的第t维数据值;
3.3根据步骤3.2中式(5)、式(6)计算出来的每一个无标签数据点与每一个种子数据点间的引力影响度,计算同簇的种子点对每一个无标签数据点的综合引力影响度,具体表达形式如下
其中,式(7)中ci是由步骤2得到的精确聚类中心集合C中的第i个簇中心,s∈ci表示在种子数据子集S中与聚类中心点ci属于同一簇的全部种子数据,G(u,ci)表示在数据子集S中所有与聚类中心点ci同簇的种子点对无标签数据点u的综合引力影响度;
步骤4,通过多次随机选取种子数据子集S,重复步骤3.2、步骤3.3给无标签数据点贴上相应的决策簇标签cl,投票选出得票数最多的簇标签cl最终赋给各个无标签数据。
为验证所提半监督游客画像数据聚类算法的有效性,本发明针对UCI数据集中flame数据集、Wine数据集、Iris数据集、seed数据集为测试数据集进行半监督聚类。聚类的评价指标选取聚类准确度ACC、调整兰德指数ARI、标准互信息NMI、F值FMeasure。其中准确度ACC、调整兰德指数ARI取值范围为[0,100],值越大意味着聚类结果与真实情况越吻合。标准互信息NMI、F值FMeasure取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。对比算法选取两大类,一类为经常使用的无监督聚类算法k-means算法、DPC密度峰算法,另一类为半监督聚类算法seed-kmeans算法。
根据表1、表2、表3、表4分析可知,表1是本发明以UCI数据集中的flame数据集为标准测试数据集的实验结果;表2是本发明以UCI数据集中的Wine数据集为标准测试数据集的实验结果;表3是本发明以UCI数据集中的Iris数据集为标准测试数据集的实验结果;表4是本发明以UCI数据集中的seed数据集为标准测试数据集的实验结果;
flame ACC ARI NMI FMeasure
k-means 83.7500 45.3413 0.3988 0.8406
dpc 78.7500 32.6935 0.4131 0.7903
seed-kmeans 88.0974 55.3643 0.4793 0.8897
ssdpc 88.4259 58.4757 0.4232 0.8903
表1
wine ACC ARI NMI FMeasure
k-means 70.2247 37.1114 0.4288 0.7148
dpc 70.7865 37.1500 0.4193 0.7190
seed-kmeans 70.6250 36.1614 0.4099 0.7170
ssdpc 74.7191 43.5047 0.4158 0.7384
表2
Iris ACC ARI NMI FMeasure
k-means 89.3333 73.0238 0.7582 0.8918
dpc 90.6667 75.9199 0.8057 0.9048
seed-kmeans 92.5926 79.8486 0.8092 0.9253
ssdpc 96.2963 89.3554 0.8759 0.9629
表3
seed ACC ARI NMI FMeasure
k-means 77.6190 61.8519 0.6446 0.8443
dpc 88.5714 70.2650 0.6982 0.8822
seed-kmeans 88.8889 70.2241 0.6621 0.8879
ssdpc 90.9524 75.3331 0.7159 0.9086
表4
本发明提出的基于密度峰和引力影响的半监督游客画像聚类方法,在相同的测试集、相同的簇别数、相同的种子簇标签信息的前提下,聚类效果相比k-means算法、DPC密度峰算法、seed-kmeans算法均有较大的提高。
以上阐述的是本发明给出的一个实施例表现出的优良优化效果,显然本发明不只是限于上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及范围的前提下对其可作种种变形加以实施。

Claims (1)

1.一种基于密度峰和引力影响的半监督游客画像数据聚类方法,其特征在于,所述方法包括以下步骤:
步骤1,通过DPC密度峰聚类算法对由所有游客画像种子标签数据点和无标签数据点组成的全部数据集D,计算数据集D中各个数据点的局部密度值、与高密度点之间距离值,寻找到数据集D中可能为聚类中心的初始聚类中心数据点集M,过程如下:
1.1通过DPC密度峰聚类算法计算数据集D中各数据点的局部密度值ρi、与高密度点之间的距离值δi的表达形式为
其中,式(1)中dc是截断距离,i、j都表示为数据集D中任意一个数据点的标号,即数据集D中第i个数据点、第j个数据点,w表示数据集D的所有数据点个数,dij是数据集D中第i个数据点和第j个数据点之间的距离,ρi表示在数据集D中所有与第i个数据点之间的距离小于截断距离dc的数据点的个数;式(2)中,δi表示在所有比第i个数据点的局部密度都大的数据点中,与第i个数据点之间距离最小的距离值;
1.2在数据集D中可能为聚类中心的数据点集M的特征表达形式为
γi=ρiδi (3)
其中,γi是第i个数据点作为聚类中心点的新选择标准,γi值越大表示第i个数据点作为聚类中心点的可能性越大;
步骤2,利用旅游景点提供的种子标签数据信息计算与步骤1中得到的初始聚类中心数据点集M之间的点点间距离,投票筛选出最终精确的聚类中心点集合C,过程如下:
2.1计算种子标签数据各点到数据集M中任意一点的距离,其距离表示为
其中,式(4)中s表示种子标签数据集中任意一个种子数据点;m表示由步骤1得到的初始聚类中心数据点集M中任意一个疑存聚类中心点;d(s,m)表示种子数据点s与初始聚类中心数据点m之间的欧式距离;n是单个数据的维度;t表示数据维度中的第t维特征值;
2.2根据式(4)计算出来的所有种子数据点与疑存聚类中心数据点间距离值d(s,m),寻找出到数据集M中每一个疑存聚类中心点m距离最小的种子数据点s,并把当前的种子数据点s的簇标签cl赋给当前的聚类中心点m,通过投票筛选出最终精确的聚类中心点集合C;
步骤3,从所有种子标签数据点中随机选取一定比例的种子数据子集,引入万有引力定律的理念计算种子数据子集与无标签数据中各个数据点间的引力影响度,对所有无标签数据中各点贴上相应的簇标签cl,过程如下:
3.1从所有种子标签数据点中按70%比例随机50次选取种子数据子集S,第i次随机选取的种子子集结果计作Si
3.2种子标签数据点与无标签数据点间的引力影响度分别表示为
其中,s是种子数据子集S中的任意一个种子数据点;u是无标签数据中任意一个无标签数据点;式(5)中,k为引力影响度系数取值为1,ρs是种子数据点s的局部密度,ρu是无标签数据u的局部密度,d(s,u)2代表数据点s与数据点u之间的欧氏距离二次方;式(6)中,n表示数据的维度即n维数据,st表示数据点s的第t维数据值,ut表示数据点u的第t维数据值;
3.3根据步骤3.2中式(5)、式(6)计算出来的每一个无标签数据点与每一个种子数据点间的引力影响度,计算同簇的种子点对每一个无标签数据点的综合引力影响度,具体表达形式如下
其中,式(7)中ci是由步骤2得到的精确聚类中心集合C中的第i个簇中心,s∈ci表示在种子数据子集S中与聚类中心点ci属于同一簇的全部种子数据,G(u,ci)表示在数据子集S中所有与聚类中心点ci同簇的种子点对无标签数据点u的综合引力影响度;
步骤4,通过多次随机选取种子数据子集S,重复步骤3.2、步骤3.3给无标签数据点贴上相应的决策簇标签cl,投票选出得票数最多的簇标签cl最终赋给各个无标签数据。
CN201811515942.8A 2018-12-12 2018-12-12 一种基于密度峰和引力影响的半监督游客画像数据聚类方法 Active CN109685122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811515942.8A CN109685122B (zh) 2018-12-12 2018-12-12 一种基于密度峰和引力影响的半监督游客画像数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811515942.8A CN109685122B (zh) 2018-12-12 2018-12-12 一种基于密度峰和引力影响的半监督游客画像数据聚类方法

Publications (2)

Publication Number Publication Date
CN109685122A true CN109685122A (zh) 2019-04-26
CN109685122B CN109685122B (zh) 2020-12-01

Family

ID=66187359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811515942.8A Active CN109685122B (zh) 2018-12-12 2018-12-12 一种基于密度峰和引力影响的半监督游客画像数据聚类方法

Country Status (1)

Country Link
CN (1) CN109685122B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法
CN112668612A (zh) * 2020-12-09 2021-04-16 重庆邮电大学 一种基于网格的局部放电信号聚类分析方法
CN113421176A (zh) * 2021-07-16 2021-09-21 昆明学院 一种异常数据智能筛选方法
CN114092729A (zh) * 2021-09-10 2022-02-25 南方电网数字电网研究院有限公司 基于聚类匿名化与差分隐私保护的异构用电数据发布方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649877A (zh) * 2017-01-06 2017-05-10 广东工业大学 一种基于密度峰值的大数据挖掘方法及装置
CN107122803A (zh) * 2017-05-05 2017-09-01 安徽师范大学 一种基于数据安全的混合聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649877A (zh) * 2017-01-06 2017-05-10 广东工业大学 一种基于密度峰值的大数据挖掘方法及装置
CN107122803A (zh) * 2017-05-05 2017-09-01 安徽师范大学 一种基于数据安全的混合聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANHUA JIANG 等: "GDPC:Gravitation-based Density Peaks Clustering algorithm", 《PHYSICA A-STATISTICAL MECHANICS AND ITS APPLICATIONS》 *
LIMIN WANG 等: "Gravity Theory-Based Affinity Propagation Clustering Algorithm and Its Applications", 《TEHNICKI VJESNIK-TECHNICAL GAZETTE》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法
CN112668612A (zh) * 2020-12-09 2021-04-16 重庆邮电大学 一种基于网格的局部放电信号聚类分析方法
CN113421176A (zh) * 2021-07-16 2021-09-21 昆明学院 一种异常数据智能筛选方法
CN113421176B (zh) * 2021-07-16 2022-11-01 昆明学院 一种学生成绩分数中异常数据智能筛选方法
CN114092729A (zh) * 2021-09-10 2022-02-25 南方电网数字电网研究院有限公司 基于聚类匿名化与差分隐私保护的异构用电数据发布方法

Also Published As

Publication number Publication date
CN109685122B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN109685122A (zh) 一种基于密度峰和引力影响的半监督游客画像数据聚类方法
CN105045858B (zh) 基于投票的出租车载客点推荐方法
CN103810299B (zh) 基于多特征融合的图像检索方法
CN106339416B (zh) 基于网格快速搜寻密度峰值的教育数据聚类方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN107506703A (zh) 一种基于无监督局部度量学习和重排序的行人再识别方法
CN102262642B (zh) 一种Web图像搜索引擎及其实现方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN103886330A (zh) 基于半监督svm集成学习的分类方法
CN106909946A (zh) 一种多模态融合的商品分类系统
CN102324038A (zh) 一种基于数字图像的植物种类识别方法
CN108647595A (zh) 基于多属性深度特征的车辆重识别方法
CN101196564A (zh) 拉普拉斯正则化最小二乘合成孔径雷达自动目标识别方法
CN102122353A (zh) 利用增量字典学习与稀疏表示进行图像分割的方法
CN108388639B (zh) 一种基于子空间学习与半监督正则化的跨媒体检索方法
CN109815357A (zh) 一种基于非线性降维及稀疏表示的遥感图像检索方法
CN109003266A (zh) 一种基于模糊聚类统计图像质量主观评价结果的方法
CN105808665A (zh) 一种新的基于手绘草图的图像检索方法
CN102663447A (zh) 基于判别相关分析的跨媒体检索方法
CN102902976A (zh) 一种基于目标及其空间关系特性的图像场景分类方法
CN103440508A (zh) 基于视觉词袋模型的遥感图像目标识别方法
CN101655909A (zh) 匹配程度计算装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant