CN110232414A - 基于k近邻与共享近邻的密度峰值聚类算法 - Google Patents

基于k近邻与共享近邻的密度峰值聚类算法 Download PDF

Info

Publication number
CN110232414A
CN110232414A CN201910501077.XA CN201910501077A CN110232414A CN 110232414 A CN110232414 A CN 110232414A CN 201910501077 A CN201910501077 A CN 201910501077A CN 110232414 A CN110232414 A CN 110232414A
Authority
CN
China
Prior art keywords
sample
data
nearest neighbor
class cluster
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910501077.XA
Other languages
English (en)
Inventor
殷茗
王文杰
马怀宇
姜继娇
孟丹荔
张煊宇
马子琛
芦菲娅
杨益
王一博
周翔
熊敏光
李欣
吴瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910501077.XA priority Critical patent/CN110232414A/zh
Publication of CN110232414A publication Critical patent/CN110232414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于K近邻与共享近邻的密度峰值聚类算法,用于解决现有密度峰值聚类算法聚类效果差的技术问题。技术方案是基于K‑近邻和共享近邻相似度对DPC算法进行改进,每个数据样本点的归属由KNN分布信息及SNN共享近邻相似度决定,若i的KNN(i)中属于某个类簇的点越多,且与i的欧式距离越近,则两个样本点之间的相似度越大,样本i关于KNN(i)所属类簇的归属度值就越大,此时样本点i被分配到这个类簇的概率就越大。聚类中心出现在局部密度较高的区域。本发明算法避免了DPC算法度量样本密度的缺陷、及其分配样本时产生的类似“多米诺骨牌效应”的连带分配错误,聚类效果好。

Description

基于K近邻与共享近邻的密度峰值聚类算法
技术领域
本发明涉及一种密度峰值聚类算法,特别涉及一种基于K近邻与共享近邻的密度峰值聚类算法。
背景技术
聚类分析是研究分类问题的一种统计分析方法,是数据挖掘的重要技术,以无监督的方式对数据样本和对象集进行分类,广泛用于数据挖掘、模式识别、文档检索以及图像分割等领域。尤其大数据背景下,海量和多样数据的存在,使得具有自动理解、处理和概括数据的聚类算法研究得到广泛的关注。聚类的主要目的是将给定的群体划分为具有共同特征的群组或群集,使得组内的数据相似性较高,而组间差异性较为明显。
文献“Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492-1496.”提出一种基于密度和距离的密度峰值聚类算法(DensityPeaks Clustering,DPC)。该算法能够快速发现任意形状数据集的密度峰值点,即类簇中心点,并高效进行数据样本点分配和剔除离群点,所需有关数据集的先验知识也较少,适用于大规模数据集的聚类分析。然而,DPC算法存在以下问题:一,在样本密度的度量方面,没有采用统一的计算方式,而是针对数据集规模大小采用不同的度量准则,样本较小时,截断距离dc对聚类结果影响较大;二,在样本分配策略方面,采用一步分配策略,将数据样本对象分配到距离其最近且密度比它大的样本所在的类簇,这样会造成连带反应,一旦某个样本分配错误,就会导致一连串的样本分配错误,造成错误的聚类结果。
发明内容
为了克服现有密度峰值聚类算法聚类效果差的不足,本发明提供一种基于K近邻与共享近邻的密度峰值聚类算法。该方法基于K-近邻(KNN)和共享近邻相似度(SNN)对DPC算法进行改进,每个数据样本点的归属由KNN分布信息及SNN共享近邻相似度决定,若i的KNN(i)中属于某个类簇的点越多,且与i的欧式距离越近,则两个样本点之间的相似度越大,样本i关于KNN(i)所属类簇的归属度值就越大,此时样本点i被分配到这个类簇的概率就越大。聚类中心出现在局部密度较高的区域,所以将各聚类中心某近邻区域内的点看作簇中心集合C,将其它样本点看作非中心点,即未扩展点。本发明算法避免了DPC算法度量样本密度的缺陷,及其分配样本时产生的类似“多米诺骨牌效应”的连带分配错误,聚类效果好。
本发明解决其技术问题所采用的技术方案:一种基于K近邻与共享近邻的密度峰值聚类算法,其特点是包括以下步骤:
步骤一、输入要聚类处理的数据Data、近邻参数K以及相近邻域半径r;
步骤二、对输入的数据进行处理,包括缺失值的填充和数据归一化;
步骤三、计算数据样本之间的距离,根据式(1)、(2)、(3)计算每个数据样本点的ρ和δ;
其中,dc为截断距离,dij为样本i与样本j之间的欧式距离。
其中,dij为样本i与样本j之间的欧式距离,p为样本点局部密度。
步骤四、根据ρ和δ值构建决策图,并选出每个类簇中心组成的集合C;
步骤五、根据式(4)至(5)识别离群的异常数据样本;
Outliters={θ|Kdist(θ)>τ} (5)
其中,Kdist为数据样本的K-近邻距离。
步骤六、按照分配策略一,分配排除异常样本后的非簇中心样本点;
步骤七、对分配策略一未分配的样本,采用策略二进行分配;
步骤八、对于剩余未分配的数据样本点,将其分配到与自己相似度最高且已分配的样本所在的簇。
其中,ρ为局部密度,δ为该样本到密度比它大的样本的最小距离。
改进后的DPC聚类算法数据样本分配策略如下:
数据样本分配策略一:
步骤(a)、从类簇中心集合C中选出未被分配的样本点Ci,作为新类簇的中心,将其标记设置为已分配;
步骤(b)、将Ci样本点的相似K近邻集合KNN(Ci)分配到Ci所在的簇,并初始化扩展队列Tq,将KNN(Ci)中样本点依次并入Tq队尾;
步骤(c)、取扩展队列Tq中的队首样本q,对于样本q的相似K近邻集合KNN(q)中的每个样本p,若满足以下条件:尚未被分配;Sqp≤mean({Spj|j∈KNN(p)});非异常点;则p为可分配样本,将p归于所q属类簇,并加入Tq队尾;
步骤(d)、若队列Tq不为空,则继续步骤(c);
步骤(e)、若集合C中还有未分配的样本,则继续步骤(a),否则结束操作。
数据样本分配策略二:
步骤(f)、计算每个样本归属每个类簇的归属度组成一个n*|C|的归属度矩阵,C为类簇中心数目;
步骤(g)、构建长度为n的向量VA,用于存储每个未被分配样本的归属度最大值,再用相同长度向量VP存储使样本达到归属度最大值的类簇的标记;
步骤(h)、遍历VA,找出使归属度达到最大值的样本点r,并将其分配到最可能在测类簇,若未能找到则退出分配策略二;
步骤(i)、更新样本r相似KNN(r)集合中的每一个样本q的归属度,此时的归属度值为、
步骤(j)、若剩余样本分配完,则结束该分配策略,否则继续步骤(c)。
其中,i表示所选样本,C表示类簇中心集合,S表示数据样本关于类簇的归属度,P表示每个样本归属每个类簇的归属度。
本发明的有益效果是:该方法基于K-近邻(KNN)和共享近邻相似度(SNN)对DPC算法进行改进,每个数据样本点的归属由KNN分布信息及SNN共享近邻相似度决定,若i的KNN(i)中属于某个类簇的点越多,且与i的欧式距离越近,则两个样本点之间的相似度越大,样本i关于KNN(i)所属类簇的归属度值就越大,此时样本点i被分配到这个类簇的概率就越大。聚类中心出现在局部密度较高的区域,所以将各聚类中心某近邻区域内的点看作簇中心集合C,将其它样本点看作非中心点,即未扩展点。本发明算法避免了DPC算法度量样本密度的缺陷,及其分配样本时产生的类似“多米诺骨牌效应”的连带分配错误,聚类效果好。
实验采用UCI真实数据集对比背景技术DPC算法和本发明算法,分别对Aggregation数据样本进行聚类处理,聚类结果如图1、2所示。从聚类结果可以看出,DPC算法和本发明算法都可以实现正确的聚类结果,在一定程度上说明本发明算法的有效性。
其次,采用背景技术DPC算法和本发明算法,分别对数据样本点比较稀疏,每个类簇间距离相对较远,且含有大量噪声点的真实数据集compound和Enzyme-Drug进行聚类处理,结果如图3-6所示。可以看出,背景技术DPC聚类算法在噪声点的影响下,会进行错误的归类,而本发明算法则会好的处理噪声点,聚类结果更加准确。
经过实验处理UCI真实数据集,实验结果表明本发明算法拥有较好的性能,可以更准确地发现类簇中心,并分配样本到合适的类簇,是一种非常有效的自适应聚类算法,更能识别任意形状的类簇,可以用于任意维度和规模的数据集,即使处理有噪声的数据,也能得到准确的聚类结果,具有较强的鲁棒性。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明密度峰值聚类算法处理Aggregation数据样本结果图。
图2是背景技术密度峰值聚类算法处理Aggregation数据样本结果图。
图3是本发明密度峰值聚类算法处理compound数据集效果图。
图4是背景技术密度峰值聚类算法处理compound数据集效果图。。
图5是本发明密度峰值聚类算法处理Enzyme-Drug数据集效果图。
图6是背景技术密度峰值聚类算法处理Enzyme-Drug数据集效果图。
具体实施方式
参照图1-6。本发明基于K近邻与共享近邻的密度峰值聚类算法具体步骤如下:
步骤一、输入要聚类处理的数据Data、近邻参数K以及相近邻域半径r;
步骤二、对数据进行处理,包括缺失值的填充和数据归一化;
步骤三、计算数据样本之间的距离,根据式(1)、(2)、(3)计算每个数据样本点的ρ和δ;
其中,式(1)和(2)中dc为截断距离,dij为样本i与样本j之间的欧式距离。
其中,dij为样本i与样本j之间的欧式距离,p为样本点局部密度。
步骤四、根据ρ和δ值构建决策图,并选出每个类簇中心组成的集合C;
步骤五、根据式(4)至(5)识别离群的异常数据样本;
Outliters={θ|Kdist(θ)>τ} (5)
其中,Kdist为数据样本的K-近邻距离。
步骤六、按照分配策略一,分配排除异常样本后的非簇中心样本点;
步骤七、对分配策略一未分配的样本,采用策略二进行分配;
步骤八、对于剩余未分配的数据样本点,将其分配到与自己相似度最高且已分配的样本所在的簇。
其中,ρ为局部密度,δ为该样本到密度比它大的样本的最小距离。
改进后的DPC聚类算法数据样本分配策略如下:
数据样本分配策略一:
步骤(a)、从类簇中心集合C中选出未被分配的样本点Ci,作为新类簇的中心,将其标记设置为已分配;
步骤(b)、将Ci样本点的相似K近邻集合KNN(Ci)分配到Ci所在的簇,并初始化扩展队列Tq,将KNN(Ci)中样本点依次并入Tq队尾;
步骤(c)、取扩展队列Tq中的队首样本q,对于样本q的相似K近邻集合KNN(q)中的每个样本p,若满足以下条件:尚未被分配;Sqp≤mean({Spj|j∈KNN(p)});非异常点;则p为可分配样本,将p归于所q属类簇,并加入Tq队尾;
步骤(d)、若队列Tq不为空,则继续步骤(c);
步骤(e)、若集合C中还有未分配的样本,则继续步骤(a),否则结束操作。
数据样本分配策略二:
步骤(f)、计算每个样本归属每个类簇的归属度组成一个n*|C|的归属度矩阵,C为类簇中心数目;
步骤(g)、构建长度为n的向量VA,用于存储每个未被分配样本的归属度最大值,再用相同长度向量VP存储使样本达到归属度最大值的类簇的标记;
步骤(h)、遍历VA,找出使归属度达到最大值的样本点r,并将其分配到最可能在测类簇,若未能找到则退出分配策略二;
步骤(i)、更新样本r相似KNN(r)集合中的每一个样本q的归属度,此时的归属度值为、
步骤(j)、若剩余样本分配完,则结束该分配策略,否则继续步骤(c)。
其中,i表示所选样本,C表示类簇中心集合,S表示数据样本关于类簇的归属度,P表示每个样本归属每个类簇的归属度。
计算数据样本之间的距离:
计算数据样本的局部密度ρ:
计算数据样本的K-近邻距离:
获取异常数据样本点集合:
数据样本分配策略一:
数据样本分配策略二:

Claims (1)

1.一种基于K近邻与共享近邻的密度峰值聚类算法,其特征在于包括以下步骤:
步骤一、输入要聚类处理的数据Data、近邻参数K以及相近邻域半径r;
步骤二、对输入的数据进行处理,包括缺失值的填充和数据归一化;
步骤三、计算数据样本之间的距离,根据式(1)、(2)、(3)计算每个数据样本点的ρ和δ;
其中,dc为截断距离,dij为样本i与样本j之间的欧式距离;
其中,dij为样本i与样本j之间的欧式距离,p为样本点局部密度;
步骤四、根据ρ和δ值构建决策图,并选出每个类簇中心组成的集合C;
步骤五、根据式(4)至(5)识别离群的异常数据样本;
Outliters={θ|Kdist(θ)>τ} (5)
其中,Kdist为数据样本的K-近邻距离;
步骤六、按照分配策略一,分配排除异常样本后的非簇中心样本点;
步骤七、对分配策略一未分配的样本,采用策略二进行分配;
步骤八、对于剩余未分配的数据样本点,将其分配到与自己相似度最高且已分配的样本所在的簇;
其中,ρ为局部密度,δ为该样本到密度比它大的样本的最小距离;
改进后的DPC聚类算法数据样本分配策略如下:
数据样本分配策略一:
步骤(a)、从类簇中心集合C中选出未被分配的样本点Ci,作为新类簇的中心,将其标记设置为已分配;
步骤(b)、将Ci样本点的相似K近邻集合KNN(Ci)分配到Ci所在的簇,并初始化扩展队列Tq,将KNN(Ci)中样本点依次并入Tq队尾;
步骤(c)、取扩展队列Tq中的队首样本q,对于样本q的相似K近邻集合KNN(q)中的每个样本p,若满足以下条件:尚未被分配;Sqp≤mean({Spj|j∈KNN(p)});非异常点;则p为可分配样本,将p归于所q属类簇,并加入Tq队尾;
步骤(d)、若队列Tq不为空,则继续步骤(c);
步骤(e)、若集合C中还有未分配的样本,则继续步骤(a),否则结束操作;
数据样本分配策略二:
步骤(f)、计算每个样本归属每个类簇的归属度组成一个n*|C|的归属度矩阵,C为类簇中心数目;
步骤(g)、构建长度为n的向量VA,用于存储每个未被分配样本的归属度最大值,再用相同长度向量VP存储使样本达到归属度最大值的类簇的标记;
步骤(h)、遍历VA,找出使归属度达到最大值的样本点r,并将其分配到最可能在测类簇,若未能找到则退出分配策略二;
步骤(i)、更新样本r相似KNN(r)集合中的每一个样本q的归属度,此时的归属度值为、
步骤(j)、若剩余样本分配完,则结束该分配策略,否则继续步骤(c);
其中,i表示所选样本,C表示类簇中心集合,S表示数据样本关于类簇的归属度,P表示每个样本归属每个类簇的归属度。
CN201910501077.XA 2019-06-11 2019-06-11 基于k近邻与共享近邻的密度峰值聚类算法 Pending CN110232414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910501077.XA CN110232414A (zh) 2019-06-11 2019-06-11 基于k近邻与共享近邻的密度峰值聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910501077.XA CN110232414A (zh) 2019-06-11 2019-06-11 基于k近邻与共享近邻的密度峰值聚类算法

Publications (1)

Publication Number Publication Date
CN110232414A true CN110232414A (zh) 2019-09-13

Family

ID=67858782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910501077.XA Pending CN110232414A (zh) 2019-06-11 2019-06-11 基于k近邻与共享近邻的密度峰值聚类算法

Country Status (1)

Country Link
CN (1) CN110232414A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563630A (zh) * 2020-05-11 2020-08-21 圆通速递有限公司 基于地址经纬度聚类的物流服务网点布局方法和系统
CN111678992A (zh) * 2020-05-20 2020-09-18 江苏禹治流域管理技术研究院有限公司 一种用于识别混凝土结构损伤类型的无损检测方法
CN111708853A (zh) * 2020-05-25 2020-09-25 安徽师范大学 特征化密度峰聚类的出租车热点区域提取方法
CN112183281A (zh) * 2020-09-21 2021-01-05 中国人民解放军国防科技大学 基于改进密度峰值算法的通信辐射源个体识别方法
CN112418325A (zh) * 2020-11-25 2021-02-26 武汉大学 一种基于变量加权的软子空间聚类方法
CN113128789A (zh) * 2021-05-18 2021-07-16 重庆大学 一种基于概率预测的城市路面塌陷预防方法、系统及存储介质
CN113255288A (zh) * 2021-07-15 2021-08-13 成都威频通讯技术有限公司 一种基于快速密度峰值聚类的电子元器件聚类方法
CN113591943A (zh) * 2021-07-13 2021-11-02 北京淇瑀信息科技有限公司 对新增渠道的用户进行快速认证方法、装置和电子设备
CN113780331A (zh) * 2020-05-22 2021-12-10 丰田自动车株式会社 由计算机实施的训练方法、分类方法及系统和计算机可读记录介质
CN113963808A (zh) * 2021-10-29 2022-01-21 山东省科学院自动化研究所 一种基于聚类的中药鉴别方法及系统
CN114417970A (zh) * 2021-12-17 2022-04-29 国网江西省电力有限公司南昌供电分公司 一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法
CN114662607A (zh) * 2022-03-31 2022-06-24 北京百度网讯科技有限公司 基于人工智能的数据标注方法、装置、设备以及存储介质
CN115374855A (zh) * 2022-08-23 2022-11-22 北京交通大学 一种基于聚类的对铁路突发事件进行分级的方法
CN115563522A (zh) * 2022-12-02 2023-01-03 湖南工商大学 交通数据的聚类方法、装置、设备及介质
CN116385811A (zh) * 2023-06-06 2023-07-04 深圳市诚王创硕科技有限公司 一种基于多方协同图像数据分析方法和系统
CN116662837A (zh) * 2023-06-06 2023-08-29 国网江苏省电力有限公司信息通信分公司 一种基于混合云的电力数据管理方法及系统
CN117152543A (zh) * 2023-10-30 2023-12-01 山东浪潮科学研究院有限公司 一种图像分类方法、装置、设备及存储介质
CN118337525A (zh) * 2024-06-07 2024-07-12 蓝海睿创科技(山东)有限责任公司 一种基于大数据的云资产安全管理系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563630A (zh) * 2020-05-11 2020-08-21 圆通速递有限公司 基于地址经纬度聚类的物流服务网点布局方法和系统
CN111678992A (zh) * 2020-05-20 2020-09-18 江苏禹治流域管理技术研究院有限公司 一种用于识别混凝土结构损伤类型的无损检测方法
CN113780331A (zh) * 2020-05-22 2021-12-10 丰田自动车株式会社 由计算机实施的训练方法、分类方法及系统和计算机可读记录介质
CN111708853B (zh) * 2020-05-25 2022-08-30 安徽师范大学 特征化密度峰聚类的出租车热点区域提取方法
CN111708853A (zh) * 2020-05-25 2020-09-25 安徽师范大学 特征化密度峰聚类的出租车热点区域提取方法
CN112183281A (zh) * 2020-09-21 2021-01-05 中国人民解放军国防科技大学 基于改进密度峰值算法的通信辐射源个体识别方法
CN112418325A (zh) * 2020-11-25 2021-02-26 武汉大学 一种基于变量加权的软子空间聚类方法
CN113128789A (zh) * 2021-05-18 2021-07-16 重庆大学 一种基于概率预测的城市路面塌陷预防方法、系统及存储介质
CN113128789B (zh) * 2021-05-18 2023-08-08 重庆大学 一种基于概率预测的城市路面塌陷预防方法、系统及存储介质
CN113591943A (zh) * 2021-07-13 2021-11-02 北京淇瑀信息科技有限公司 对新增渠道的用户进行快速认证方法、装置和电子设备
CN113255288A (zh) * 2021-07-15 2021-08-13 成都威频通讯技术有限公司 一种基于快速密度峰值聚类的电子元器件聚类方法
CN113963808A (zh) * 2021-10-29 2022-01-21 山东省科学院自动化研究所 一种基于聚类的中药鉴别方法及系统
CN114417970A (zh) * 2021-12-17 2022-04-29 国网江西省电力有限公司南昌供电分公司 一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法
CN114662607A (zh) * 2022-03-31 2022-06-24 北京百度网讯科技有限公司 基于人工智能的数据标注方法、装置、设备以及存储介质
CN115374855A (zh) * 2022-08-23 2022-11-22 北京交通大学 一种基于聚类的对铁路突发事件进行分级的方法
CN115374855B (zh) * 2022-08-23 2024-05-14 北京交通大学 一种基于聚类的对铁路突发事件进行分级的方法
CN115563522A (zh) * 2022-12-02 2023-01-03 湖南工商大学 交通数据的聚类方法、装置、设备及介质
CN115563522B (zh) * 2022-12-02 2023-04-07 湖南工商大学 交通数据的聚类方法、装置、设备及介质
CN116385811A (zh) * 2023-06-06 2023-07-04 深圳市诚王创硕科技有限公司 一种基于多方协同图像数据分析方法和系统
CN116662837A (zh) * 2023-06-06 2023-08-29 国网江苏省电力有限公司信息通信分公司 一种基于混合云的电力数据管理方法及系统
CN117152543A (zh) * 2023-10-30 2023-12-01 山东浪潮科学研究院有限公司 一种图像分类方法、装置、设备及存储介质
CN117152543B (zh) * 2023-10-30 2024-06-07 山东浪潮科学研究院有限公司 一种图像分类方法、装置、设备及存储介质
CN118337525A (zh) * 2024-06-07 2024-07-12 蓝海睿创科技(山东)有限责任公司 一种基于大数据的云资产安全管理系统

Similar Documents

Publication Publication Date Title
CN110232414A (zh) 基于k近邻与共享近邻的密度峰值聚类算法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN110084325A (zh) 基于区域选取初始聚类中心的K-Means改进算法
WO2020048145A1 (zh) 数据检索的方法和装置
CN110781295B (zh) 一种多标记数据的特征选择方法及装置
CN113075129B (zh) 一种基于近邻子空间划分高光谱影像波段选择方法及系统
CN111428764B (zh) 一种用于图像类别识别的图像聚类方法
CN115496138A (zh) 一种基于自然邻居的自适应密度峰值聚类方法
Sewisy et al. Fast efficient clustering algorithm for balanced data
Ahlawat et al. A genetic algorithm based feature selection for handwritten digit recognition
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN103119606A (zh) 一种大规模图像数据的聚类方法及装置
Verikas et al. Fusing neural networks through space partitioning and fuzzy integration
Chang et al. A Modified Editing k-nearest Neighbor Rule.
CN116595197B (zh) 一种专利分类号关联知识图谱的链路预测方法及系统
CN115292303A (zh) 数据处理方法及装置
CN115510959A (zh) 基于自然最近邻和多簇合并的密度峰值聚类方法
CN113837248A (zh) 一种以近邻熵为查询策略的主动学习方法
Mahfouz RFKNN: ROUGH-FUZZY KNN FOR BIG DATA CLASSIFICATION.
CN109379282B (zh) 基于多标签传播的网络社区检测方法
Yu et al. Cancer classification by a hybrid method using microarray gene expression data
Chen et al. A domain density peak clustering algorithm based on natural neighbor
Lu Dynamic matrix clustering method based on time series
CN110472657B (zh) 基于信任函数理论的图像分类方法
Lu et al. Systematic identification of multiple tumor types in microarray data based on hybrid differential evolution algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190913