CN105930862A - 一种基于密度自适应距离的密度峰聚类算法 - Google Patents
一种基于密度自适应距离的密度峰聚类算法 Download PDFInfo
- Publication number
- CN105930862A CN105930862A CN201610228374.8A CN201610228374A CN105930862A CN 105930862 A CN105930862 A CN 105930862A CN 201610228374 A CN201610228374 A CN 201610228374A CN 105930862 A CN105930862 A CN 105930862A
- Authority
- CN
- China
- Prior art keywords
- distance
- density
- point
- data
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于密度自适应距离的密度峰聚类算法,主要解决基于欧氏距离的密度峰聚类算法无法有效处理复杂结构数据集的问题。实现过程为:(1)基于欧氏距离和自适应相似度计算密度自适应距离,以更好地描述数据空间分布结构;(2)基于密度自适应距离,根据数据点的邻居点总数占数据集样本总数的比例值计算算法的输入参数,即截断距离;(3)根据截断距离和密度自适应距离计算每个数据点的局部密度和该点到具有更高局部密度点的最短距离,绘制决策图,选取聚类中心;(4)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇,得到聚类结果。在人工数据集和UCI真实数据集上的实验表明,与基于欧氏距离的密度峰聚类算法相比,本发明不仅能够有效处理复杂结构数据集,而且具有更高的准确率。
Description
技术领域
本发明属于聚类分析技术领域,主要为密度峰聚类算法的改进优化。具体为一种基于密度自适应距离的聚类算法,可应用于模式识别、数据挖掘及图像处理等领域。
背景技术
聚类作为一种重要的无监督的数据分析方法,既可以作为一个独立工具用于发现数据隐含信息,也可以作为其他数据分析算法的一个预处理步骤,在机器学习、模式识别、数据挖掘、图像处理等领域已经得到了广泛研究和应用。
聚类是根据数据对象相似度,把未知分类的数据集分割成不同的类或簇,使同一簇内的数据对象具有最大相似性,不同簇间的数据对象具有最小相似性。目前,许多聚类算法已被提出,如基于划分方法的K-means、K-medoids等算法;基于层次方法的CURE等算法;基于网格的STING、WAVECLUSTER等算法;基于模型的统计学聚类和神经网络聚类等算法;基于密度的DBSCAN、OPTICS等算法,等等。
2014年,Alex Rodriguez等人在《Science》上提出了一种新的基于密度的密度峰聚类算法:DPC(Clustering by fast search and find of Density Peaks)算法。DPC算法简洁高效,主要分为两步:首先根据决策图选取密度峰,也即聚类中心;其次分配剩余数据点,得到聚类结果。算法只有一个输入参数,不需预先指定聚类数目,能够发现一些非球形簇,不需考虑概率分布函数或将数据映射到向量空间,性能不受数据空间维度影响。
DPC算法基于如下假设:聚类中心被具有相对较低局部密度的邻居点包围,且与其它具有更高局部密度的数据点具有相对较大的距离。对于每个数据点i,只需计算点i的局部密度ρi及点i到具有更高局部密度的点j的最短距离δi。其中,ρi定义为
当x<0时χ(x)=1,否则χ(x)=0。dij是数据点之间的距离;dc是截断距离。δi定义为
对于具有全局最高密度的数据点,有算法将同时具有较大ρi及δi的点视为聚类中心。聚类中心通过决策图选取,决策图为δi关于ρi的函数关系图。
聚类中心确定后,算法将剩下的每个数据点分配到最近且具有更高密度的数据点所属的簇。为了识别噪声点,DPC算法为每个簇定义边界区域密度ρb:属于某个簇并且与属于其他簇的数据点之间的距离小于dc的数据点总数。密度高于ρb的点被视为核心点,否则为噪声点。
在欧氏距离测度下,DPC算法仅能够有效处理每个簇内具有唯一密度峰或明显高密度区域的数据集,因为此时不仅容易从决策图上选取聚类中心,而且对簇内的非聚类中心点i而言,局部密度更高的最近点j通常分布在同一簇内距点i较近的区域或聚类中心周围,因而将点i和点j视为同一类时相对比较合理,出错的几率也较小。然而,对于那些复杂结构数据集,由于不同簇间密度差异较大,或同一簇内同时具有多个高密度区域,或同一簇的密度分布相对均匀,从而导致DPC算法容易出现以下两种问题:(1)聚类中心有时易被错选,甚至无法选取;(2)即使成功选取聚类中心却依然无法得到理想聚类结果。
发明内容
为了解决上述背景技术中密度峰算法存在的问题,本发明提出一种基于密度自适应距离的聚类算法。首先,基于欧氏距离和自适应相似度定义密度自适应距离,以更好地描述数据空间分布结构;其次,将密度自适应距离应用到密度峰聚类,得到新算法。在人工数据集和UCI真实数据集上的实验表明,新算法不仅能够有效处理复杂结构数据集,而且具有更高的准确率。具体实现步骤包括如下:
(1)输入数据集X={x1,x2,…,xn}∈RD,数据点的邻居点总数占数据集样本总数的比例值p,距离调节因子α;其中,n表示样本个数,D表示样本维数;
(2)首先计算数据点xi与xj之间的欧氏距离:
得到欧氏距离矩阵d;其次计算点xi与xj之间的自适应相似度:
得到相似度矩阵S。其中,局部尺度参数σi定义为σi=d(xi,xkn);σi表示点xi与其第kn个近邻点xkn的欧氏距离,取kn=6。
(3)基于自适应相似度S和欧氏距离矩阵d定义局部密度自适应距离LD(xi,xj):
其中,α∈(1,10]是距离调节因子,默认值为2;Nk(xi)表示点i基于欧氏距离测度的前k个近邻点构成的集合,取k=5为默认常量;w(xi,xj)作为距离调节权重因子,仅作用于为k近邻关系的点xi与xj之间的距离调节,其定义如下:
w(xi,xj)=1-S(xi,xj)
(4)基于局部密度自适应距离,将数据集构造为加权无向图G,p为图G上一条连接点xi与xj的路径,pij表示连接点xi与xj的所有路径的集合,|p|表示p的长度,定义全局密度自适应距离如下:
(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc:首先对n个样本点的m=n(n-1)/2个全局密度自适应距离进行排序,设按升序排序后的距离有gd1≤gd2≤…≤gdm,则其中,表示对pm/100向上取整。
(6)基于全局密度自适应距离和截断距离计算每个点xi的局部密度ρi和点i到具有更高局部密度点的最短距离δi,绘制决策图,选取聚类中心。
(7)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇。
(8)输出聚类结果C={C1,C2,…,Ck},k为簇数。
本发明具有以下优点:
(1)与欧氏距离相比,密度自适应距离可以更好得描述数据空间分布结构,能够有效缩小同一簇内数据点之间的差异,放大不同簇间的差异,从而使得算法在聚类时更易区分不同簇、发现复杂结构簇,有利于得到理想聚类结果。
(2)与基于欧氏距离的DPC算法相比,在人工数据集和真实数据集上的实验表明,本发明算法不仅更易选取聚类中心,而且具有更高的准确率和更优的结果。
附图说明
图1是本发明的实现流程图;
图2是DPC算法在Jain数据集上错误聚类结果,2个类;
图3是本发明算法在Jain数据集上理想聚类结果,2个类;
图4是DPC算法在Circlebloc数据集上错误聚类结果,2个类;
图5是本发明算法在Circlebloc数据集上理想聚类结果,2个类;
图6是DPC算法在Lineblocks数据集上错误聚类结果,3个类;
图7是本发明算法在Lineblocks数据集上理想聚类结果,3个类;
图8是DPC算法在3circles数据集上错误聚类结果,7个类;
图9是本发明算法在3circles数据集上理想聚类结果,3个类;
图10是p取不同值时,本发明算法与DPC算法分别在Jain和Seeds数据集上ARI指标;
图11是α取不同值时,本发明算法在Jain和Seeds数据集上ARI指标;
另外,在附图2~图9中,聚类中心由加粗实心圆点表示,不同类别由不同形状符号表示。
具体实施方式
为了阐明本发明的目的、技术方案和优点,以下结合具体实施例及附图,对本发明做进一步详细说明。
参照图1,本发明的具体实施过程包括以下步骤:
(1)输入数据集X={x1,x2,…,xn}∈RD,数据点的邻居点总数占数据集样本总数的比例值p,距离调节因子α;其中,n表示样本个数,D表示样本维数。
(2)首先计算数据点xi与xj之间的欧氏距离:
得到欧氏距离矩阵dn×n;其次计算点xi与xj之间的自适应相似度:
得到相似度矩阵Sn×n。其中,局部尺度参数σi定义为σi=d(xi,xkn);σi表示点xi与其第kn个近邻点xkn的欧氏距离,取kn=6。自适应相似度考虑了数据点自身所处邻域环境对相似度的影响,能够更好地度量不同密度簇内点的相似度,特别是能够加大低密度簇内数据点间的相似度,从而有利于算法发现低密度簇。
(3)基于欧氏距离矩阵dn×n和自适应相似度Sn×n定义局部密度自适应距离
其中,α∈(1,10]是距离调节因子,默认值为2;Nk(xi)表示点i基于欧氏距离测度的前k个近邻点构成的集合,取k=5为默认常量;w(xi,xj)作为距离调节权重因子,仅作用于为k近邻关系的点xi与xj之间的距离调节,其定义如下:
w(xi,xj)=1-S(xi,xj)
(4)然而,局部密度自适应距离只能一定程度上对局部区域进行距离调节,尚不能从全局角度有效度量复杂结构簇。为了解决这一问题,在局部密度自适应距离的基础上定义全局密度自适应距离。将数据集构造为加权无向图G,p为图G上一条连接点xi与xj的路径,pij表示连接点xi与xj的所有路径的集合,|p|表示p的长度。定义全局密度自适应距离如下:
(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc:首先对n个样本点的m=n(n-1)/2个全局密度自适应距离快速排序,设按降序排序后的距离有gd1≤gd2≤…≤gdm,则
(6)基于全局密度自适应距离和截断距离计算每个点xi的局部密度ρi和点i到具有更高局部密度点的最短距离δi。其中,
然后绘制δi关于ρi的函数关系图,称为决策图,根据决策图选取聚类中心。
(7)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇。
(8)输出聚类结果C={C1,C2,…,Ck},k为簇数。
本发明的效果可通过以下仿真实验进一步说明。
1.仿真条件
为了验证本发明算法的性能,分别在人工数据集和UCI真实数据集上进行实验,实验所用数据集信息分别如表1和表2所示。仿真实验在同一PC机(Windows10 64位操作系统、Intel Core i7 2.5GHz CPU、4G内存)、MATLAB R2013a上编程及运行。
表1人工数据集
表2UCI真实数据集
2.仿真结果
实验1本发明方法与DPC方法在人工数据集上的对比实验
实验结果如附图2-图9所示。由于Jain数据集的两个不同密度簇相互缠绕,直接导致基于欧氏距离的DPC算法不仅容易错选聚类中心,而且易将两个簇相近的部分点错误合并,如图2所示。Circleblock数据集由一个密度分布不均匀的、具有多个高密度区域的环状簇和一个被环状簇包围的块状簇构成;由于环状簇内存在多个密度峰,因而导致DPC算法不仅容易错选聚类中心,而且即使选对了聚类中心也只能得到错误聚类结果,如图4所示。对于Lineblocks数据集,由于流形结构簇围绕着另两个块状簇,且流形结构簇的两端距另两个簇比较近,导致无论p取何值,DPC算法都无法准确区分三个簇,如图6所示。3circles数据集由两个密度分布相对均匀的圆形簇及一个团状簇构成,虽然三个簇之间都有明显的间隔区域,但由于两个圆形簇内的数据点分布相对均匀、没有明显的高密度区域,从而导致DPC算法极易错选7个而非正确的3个聚类中心,如图8所示。反之,本发明算法不仅降低了在上述4个数据集上准确选取聚类中心的难度,而且都能得到理想聚类结果,实验结果分别如图3、图5、图7、图9所示。上述实验表明,与DPC算法相比,本发明算法不仅更易选取聚类中心,而且具有更优的结果。
实验2本发明算法与DPC方法在UCI真实数据集上的对比实验
为了进一步验证本发明算法在真实数据集上的性能,使用表2中6个常用UCI数据集进行实验,并采用常用的F-measure与ARI(Adjusted Rand Index)指标评价聚类结果。其中,F-measure指标取值范围为[0,1],ARI指标取值范围为[-1,1],值越大表明聚类效果越好。
在最佳参数值下,DPC算法与本发明算法在表2数据集上聚类所得F-measure与ARI指标值见表3。表3表明,除了在处理Glass数据集时本发明算法的ARI指标值比DPC算法的低,在其他5个数据集上,本发明算法的两个指标值均比DPC算法的更优。特别是在Iris、Breast、Ecoli三个数据集上,两个指标值均得到了明显提高。整体而言,本发明算法能够得到更优的聚类结果,具有更高的准确度。
表3两种算法的F-measure与ARI指标值对比
实验3算法输入参数分析实验
与DPC算法相比,除了参数p,本发明算法引入了一个新参数:距离调节因子α。为了简要分析两个参数对算法的影响,采用人工数据集Jain和UCI真实数据集Seeds进行实验。图10为p取不同值时,两种算法在两个数据集上的ARI指标值。对于Jain数据集,p∈[0.5,15]时,DPC算法的指标值在[-0.0341,0.7055]之间变动,特别是当p∈[0.5,6]时曲线波动较大;而本发明算法的指标值则始终为1,表明结果正确且稳定。另外,在结构相对复杂的Seeds数据集上,虽然p∈[4.5,9.5]时DPC算法的指标值比本发明算法的稍高,但在其他区间,本发明算法的指标值则都高于DPC算法且在p∈[0.5,2.5]时能够取得最优值,而且本发明算法的曲线整体波动较小,在p≥4.5时能够趋于稳定。图11为p不变、α取不同值时,本发明算法在两个数据集上的ARI指标值。当α∈[1.5,10]时,对于Jain数据集,本发明算法的指标值始终为1,表明结果正确且稳定;对于Seeds数据集,当α∈[1.5,9]时,本发明算法的指标值相对较优且曲线只有小幅度波动。综上所述并结合其他实验,参数p和α建议取值:p∈[1,10],α∈[2,10]。整体而言,算法对参数p或α不太敏感,二者的细微变化对聚类结果没有大的影响。
Claims (2)
1.一种基于密度自适应距离的密度峰聚类算法,包括以下步骤:
(1)输入数据集X={x1,x2,…,xn}∈RD,数据点的邻居点总数占数据集样本总数的比例值p,距离调节因子α;其中,n表示样本个数,D表示样本维数;
(2)首先,计算数据点xi与xj之间的欧氏距离:
得到欧氏距离矩阵dn × n。其次,计算点xi与xj之间的自适应相似度:
得到相似度矩阵Sn × n。其中,局部尺度参数σi定义为σi=d(xi,xkn);σi表示点xi与其第kn个近邻点xkn的欧氏距离,取kn=6;
(3)基于自适应相似度Sn × n和欧氏距离矩阵dn × n定义局部密度自适应距离LD(xi,xj);
(4)基于局部密度自适应距离,将数据集构造为加权无向图G,设p为图G上一条连接点xi与xj的路径,|p|表示路径p的长度,pij表示连接点xi与xj的所有路径的集合,全局密度自适应距离定义为:
(5)根据数据点的邻居点总数占数据集样本总数的比例值p计算截断距离dc:首先对n个样本点的m=n(n-1)/2个全局密度自适应距离进行快速排序,设按升序排序后的距离有gd1≤gd2≤…≤gdm,则其中,表示对pm/100向上取整;
(6)基于全局密度自适应距离和截断距离计算每个点i的局部密度ρi和点i到具有更高局部密度点的最短距离δi,绘制决策图,选取聚类中心;其中,
(7)将剩下的每个点分配到具有更高局部密度的最近邻点所属的簇;
(8)输出聚类结果C={C1,C2,…,Ck},k为簇数。
2.根据权利要求1所述的聚类算法,步骤(3)按如下过程进行:
其中,α∈(1,10]是距离调节因子,默认值为2;Nk(xi)表示点i基于欧氏距离测度的前k个近邻点构成的集合,取k=5为默认常量;w(xi,xj)作为距离调节权重因子,仅作用于为k近邻关 系的点xi与xj之间的距离调节,其定义如下:
w(xi,xj)=1-S(xi,xj)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610228374.8A CN105930862A (zh) | 2016-04-13 | 2016-04-13 | 一种基于密度自适应距离的密度峰聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610228374.8A CN105930862A (zh) | 2016-04-13 | 2016-04-13 | 一种基于密度自适应距离的密度峰聚类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105930862A true CN105930862A (zh) | 2016-09-07 |
Family
ID=56838029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610228374.8A Withdrawn CN105930862A (zh) | 2016-04-13 | 2016-04-13 | 一种基于密度自适应距离的密度峰聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105930862A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447676A (zh) * | 2016-10-12 | 2017-02-22 | 浙江工业大学 | 一种基于快速密度聚类算法的图像分割方法 |
CN107122803A (zh) * | 2017-05-05 | 2017-09-01 | 安徽师范大学 | 一种基于数据安全的混合聚类方法 |
CN107132500A (zh) * | 2017-03-14 | 2017-09-05 | 国家电网公司 | 一种同步相量测量单元在线校准方法与装置 |
CN107341514A (zh) * | 2017-07-07 | 2017-11-10 | 成都信息工程大学 | 一种基于联合密度与角度的异常点和边缘点检测方法 |
CN107402998A (zh) * | 2017-07-20 | 2017-11-28 | 山东师范大学 | 一种基于网址结构的网络论坛页面聚类方法及设备 |
CN107491783A (zh) * | 2017-07-31 | 2017-12-19 | 广东电网有限责任公司惠州供电局 | 基于改进密度峰值聚类算法的变压器故障类型分类方法 |
CN108537249A (zh) * | 2018-03-15 | 2018-09-14 | 华中科技大学 | 一种密度峰值聚类的工业过程数据聚类方法 |
CN109000940A (zh) * | 2018-05-04 | 2018-12-14 | 中车青岛四方机车车辆股份有限公司 | 一种机车车辆异常轴温诊断方法及系统 |
CN109239553A (zh) * | 2018-09-17 | 2019-01-18 | 云南电网有限责任公司昆明供电局 | 一种基于局部放电脉冲局部密度的聚类方法 |
CN109389140A (zh) * | 2017-08-14 | 2019-02-26 | 中国科学院计算技术研究所 | 基于Spark的快速寻找聚类中心的方法和系统 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN110008994A (zh) * | 2019-03-04 | 2019-07-12 | 华南理工大学 | 基于Spark平台运行的P-CFSFDP密度聚类方法 |
CN110348488A (zh) * | 2019-06-19 | 2019-10-18 | 华中科技大学 | 一种基于局部密度峰值聚类的模态辨识方法 |
CN110991514A (zh) * | 2019-11-27 | 2020-04-10 | 深圳市商汤科技有限公司 | 图像聚类方法及装置、电子设备和存储介质 |
CN111079789A (zh) * | 2019-11-18 | 2020-04-28 | 中国人民解放军63850部队 | 一种故障数据标记方法及故障识别装置 |
WO2020191876A1 (zh) * | 2019-03-26 | 2020-10-01 | 中国电子科技集团公司第二十八研究所 | 一种基于密度聚类的热点路径分析方法 |
WO2020198942A1 (zh) * | 2019-03-29 | 2020-10-08 | 中国科学技术大学 | 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统 |
CN111755071A (zh) * | 2019-03-29 | 2020-10-09 | 中国科学技术大学 | 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统 |
CN112070109A (zh) * | 2020-07-21 | 2020-12-11 | 广东工业大学 | 一种基于改进密度峰值聚类的马蹄窑能耗异常检测方法 |
CN112163623A (zh) * | 2020-09-30 | 2021-01-01 | 广东工业大学 | 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质 |
CN112183281A (zh) * | 2020-09-21 | 2021-01-05 | 中国人民解放军国防科技大学 | 基于改进密度峰值算法的通信辐射源个体识别方法 |
CN112418325A (zh) * | 2020-11-25 | 2021-02-26 | 武汉大学 | 一种基于变量加权的软子空间聚类方法 |
US20210080976A1 (en) * | 2018-02-08 | 2021-03-18 | Nec Corporation | Transport operation control device, transport system, transport operation control method, and recording medium |
CN113158817A (zh) * | 2021-03-29 | 2021-07-23 | 南京信息工程大学 | 一种基于快速密度峰聚类的客观天气分型方法 |
CN116012539A (zh) * | 2023-03-27 | 2023-04-25 | 埃尔法(山东)仪器有限公司 | 一种无人机与激光检测结合对气团三维成像的计算方法 |
CN116434950A (zh) * | 2023-06-05 | 2023-07-14 | 山东建筑大学 | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 |
-
2016
- 2016-04-13 CN CN201610228374.8A patent/CN105930862A/zh not_active Withdrawn
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447676B (zh) * | 2016-10-12 | 2019-01-22 | 浙江工业大学 | 一种基于快速密度聚类算法的图像分割方法 |
CN106447676A (zh) * | 2016-10-12 | 2017-02-22 | 浙江工业大学 | 一种基于快速密度聚类算法的图像分割方法 |
CN107132500A (zh) * | 2017-03-14 | 2017-09-05 | 国家电网公司 | 一种同步相量测量单元在线校准方法与装置 |
CN107132500B (zh) * | 2017-03-14 | 2019-10-15 | 国家电网公司 | 一种同步相量测量单元在线校准方法与装置 |
CN107122803A (zh) * | 2017-05-05 | 2017-09-01 | 安徽师范大学 | 一种基于数据安全的混合聚类方法 |
CN107122803B (zh) * | 2017-05-05 | 2019-11-26 | 安徽师范大学 | 一种基于数据安全的混合聚类方法 |
CN107341514A (zh) * | 2017-07-07 | 2017-11-10 | 成都信息工程大学 | 一种基于联合密度与角度的异常点和边缘点检测方法 |
CN107341514B (zh) * | 2017-07-07 | 2020-07-21 | 成都信息工程大学 | 一种基于联合密度及角度的异常点和边缘点检测方法 |
CN107402998A (zh) * | 2017-07-20 | 2017-11-28 | 山东师范大学 | 一种基于网址结构的网络论坛页面聚类方法及设备 |
CN107402998B (zh) * | 2017-07-20 | 2020-01-31 | 山东师范大学 | 一种基于网址结构的网络论坛页面聚类方法及设备 |
CN107491783A (zh) * | 2017-07-31 | 2017-12-19 | 广东电网有限责任公司惠州供电局 | 基于改进密度峰值聚类算法的变压器故障类型分类方法 |
CN107491783B (zh) * | 2017-07-31 | 2020-07-21 | 广东电网有限责任公司惠州供电局 | 基于改进密度峰值聚类算法的变压器故障类型分类方法 |
CN109389140A (zh) * | 2017-08-14 | 2019-02-26 | 中国科学院计算技术研究所 | 基于Spark的快速寻找聚类中心的方法和系统 |
US20210080976A1 (en) * | 2018-02-08 | 2021-03-18 | Nec Corporation | Transport operation control device, transport system, transport operation control method, and recording medium |
US12019455B2 (en) * | 2018-02-08 | 2024-06-25 | Nec Corporation | Transport operation control device, transport system, transport operation control method, and recording medium |
CN108537249A (zh) * | 2018-03-15 | 2018-09-14 | 华中科技大学 | 一种密度峰值聚类的工业过程数据聚类方法 |
CN108537249B (zh) * | 2018-03-15 | 2020-05-19 | 华中科技大学 | 一种密度峰值聚类的工业过程数据聚类方法 |
CN109000940B (zh) * | 2018-05-04 | 2020-05-19 | 中车青岛四方机车车辆股份有限公司 | 一种机车车辆异常轴温诊断方法及系统 |
CN109000940A (zh) * | 2018-05-04 | 2018-12-14 | 中车青岛四方机车车辆股份有限公司 | 一种机车车辆异常轴温诊断方法及系统 |
CN109239553A (zh) * | 2018-09-17 | 2019-01-18 | 云南电网有限责任公司昆明供电局 | 一种基于局部放电脉冲局部密度的聚类方法 |
CN109446520B (zh) * | 2018-10-17 | 2023-08-15 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN110008994A (zh) * | 2019-03-04 | 2019-07-12 | 华南理工大学 | 基于Spark平台运行的P-CFSFDP密度聚类方法 |
WO2020191876A1 (zh) * | 2019-03-26 | 2020-10-01 | 中国电子科技集团公司第二十八研究所 | 一种基于密度聚类的热点路径分析方法 |
WO2020198942A1 (zh) * | 2019-03-29 | 2020-10-08 | 中国科学技术大学 | 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统 |
CN111755071A (zh) * | 2019-03-29 | 2020-10-09 | 中国科学技术大学 | 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统 |
CN110348488A (zh) * | 2019-06-19 | 2019-10-18 | 华中科技大学 | 一种基于局部密度峰值聚类的模态辨识方法 |
CN110348488B (zh) * | 2019-06-19 | 2021-07-27 | 华中科技大学 | 一种基于局部密度峰值聚类的模态辨识方法 |
CN111079789B (zh) * | 2019-11-18 | 2023-06-30 | 中国人民解放军63850部队 | 一种故障数据标记方法及故障识别装置 |
CN111079789A (zh) * | 2019-11-18 | 2020-04-28 | 中国人民解放军63850部队 | 一种故障数据标记方法及故障识别装置 |
CN110991514A (zh) * | 2019-11-27 | 2020-04-10 | 深圳市商汤科技有限公司 | 图像聚类方法及装置、电子设备和存储介质 |
CN110991514B (zh) * | 2019-11-27 | 2024-05-17 | 深圳市商汤科技有限公司 | 图像聚类方法及装置、电子设备和存储介质 |
CN112070109A (zh) * | 2020-07-21 | 2020-12-11 | 广东工业大学 | 一种基于改进密度峰值聚类的马蹄窑能耗异常检测方法 |
CN112183281A (zh) * | 2020-09-21 | 2021-01-05 | 中国人民解放军国防科技大学 | 基于改进密度峰值算法的通信辐射源个体识别方法 |
CN112163623B (zh) * | 2020-09-30 | 2022-03-04 | 广东工业大学 | 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质 |
CN112163623A (zh) * | 2020-09-30 | 2021-01-01 | 广东工业大学 | 一种基于密度子图估计的快速聚类方法、计算机设备及存储介质 |
CN112418325A (zh) * | 2020-11-25 | 2021-02-26 | 武汉大学 | 一种基于变量加权的软子空间聚类方法 |
CN113158817B (zh) * | 2021-03-29 | 2023-07-18 | 南京信息工程大学 | 一种基于快速密度峰聚类的客观天气分型方法 |
CN113158817A (zh) * | 2021-03-29 | 2021-07-23 | 南京信息工程大学 | 一种基于快速密度峰聚类的客观天气分型方法 |
CN116012539A (zh) * | 2023-03-27 | 2023-04-25 | 埃尔法(山东)仪器有限公司 | 一种无人机与激光检测结合对气团三维成像的计算方法 |
CN116434950A (zh) * | 2023-06-05 | 2023-07-14 | 山东建筑大学 | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 |
CN116434950B (zh) * | 2023-06-05 | 2023-08-29 | 山东建筑大学 | 基于数据分簇和集成学习的孤独症谱系障碍的诊断系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
Tan et al. | Data mining cluster analysis: basic concepts and algorithms | |
Wang et al. | Locality sensitive outlier detection: A ranking driven approach | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN104731916A (zh) | 数据挖掘中基于密度优化初始中心的k均值聚类方法 | |
CN103279556A (zh) | 基于自适应子空间学习的迭代文本聚类方法 | |
Ding et al. | Intelligent optimization methods for high-dimensional data classification for support vector machines | |
CN109800790B (zh) | 一种面向高维数据的特征选择方法 | |
CN106599924A (zh) | 一种基于三支决策的分类器构建方法 | |
Hruschka et al. | Improving the efficiency of a clustering genetic algorithm | |
CN105046323A (zh) | 一种正则化rbf网络多标签分类方法 | |
Bruzzese et al. | DESPOTA: DEndrogram slicing through a pemutation test approach | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
Guo et al. | An improved oversampling method for imbalanced data–SMOTE based on Canopy and K-means | |
CN114861760A (zh) | 一种基于密度峰值聚类算法的改进研究 | |
CN110781943A (zh) | 一种基于毗邻网格搜索的聚类方法 | |
Yin et al. | Finding the informative and concise set through approximate skyline queries | |
Badase et al. | Classification and analysis of clustering algorithms for large datasets | |
CN106203515A (zh) | 多准则融合应用于高维小样本数据特征选择的方法 | |
US11048730B2 (en) | Data clustering apparatus and method based on range query using CF tree | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
Wedashwara et al. | Combination of genetic network programming and knapsack problem to support record clustering on distributed databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160907 |
|
WW01 | Invention patent application withdrawn after publication |