CN110909792A - 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法 - Google Patents

一种基于改进K-means算法和新聚类有效性指标的聚类分析方法 Download PDF

Info

Publication number
CN110909792A
CN110909792A CN201911146579.1A CN201911146579A CN110909792A CN 110909792 A CN110909792 A CN 110909792A CN 201911146579 A CN201911146579 A CN 201911146579A CN 110909792 A CN110909792 A CN 110909792A
Authority
CN
China
Prior art keywords
clustering
data
point
cluster
center point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911146579.1A
Other languages
English (en)
Inventor
朱二周
高新
刘锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201911146579.1A priority Critical patent/CN110909792A/zh
Publication of CN110909792A publication Critical patent/CN110909792A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进K‑means算法和新聚类有效性指标的聚类分析方法,首先通过密度信息获取高密度初始聚类中心点,按照初始聚类中心点进行K‑means算法聚类;不断迭代聚类中心点;计算聚类有效性指标的值并将最小的聚类有效性指标对应的簇数作为数据集的最佳聚类数并输出最佳聚类结果。本发明可以有效的降低K‑means聚类算法的迭代次数,减少聚类时间消耗,提升聚类效率;高密度初始中心点和中心点替换方法的结合降低了K‑means聚类算法陷入局部最优解的可能性;聚类结果稳定精确。

Description

一种基于改进K-means算法和新聚类有效性指标的聚类分析 方法
技术领域
本发明属于数据挖掘聚类分析领域,尤其涉及一种基于密度参数计算初始聚类中心和中心点替换方法的改进K-means算法和新聚类有效性指标的聚类分析方法。
背景技术
聚类分析是研究分类问题的一种统计分析方法也是数据挖掘的一个重要方法。聚类分析的研究主要包括两个方面,即聚类算法的研究和聚类有效性指标的研究。聚类算法将待分析的数据集分为多个类,使得同一个类内的数据具有更高的相似性,不同类之间的数据具有更高的差异性。作为无监督学习方式,聚类算法产生的结果的优劣通常用聚类有效性指标来衡量或者评价。
当前,已有许多聚类算法被提出来并用于对各种类型的数据集进行处理。总体来讲,这些聚类算法可以分为基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法以及基于模型的聚类算法。K-means算法是一种基于划分的聚类算法。由于K-means算法具有实现简单,准确率高等特点,因此被广泛应用于解决各种领域的数据划分问题。然而,初始聚类中心点的随机选取,会导致传统的K-means聚类算法存在聚类结果不稳定、聚类效率低下、容易出现局部最优解等问题。
聚类有效性是指度量聚类算法产生的聚类结果的有效性。聚类有效性的评价通常由聚类有效性指标来完成。当前,已有的聚类有效性指标可以大体分为三类,即内部有效性指标、外部有效性指标和相对有效性指标。目前常用的有效性指标包含J.C.Dunn于1973年提出的Dunn指标,Tadeusz Caliński等人于1974年提出的CH指标,David L.Davies等人于1979年提出的DBI指标等。这些指标被广泛应用于聚类算法聚类有效性的评估中。然而现有的聚类有效性指标普遍存在计算复杂,适用数据集类型范围狭窄等缺点。
发明内容
发明目的:为了解决现有技术中使用K-means聚类法处理数据不稳定的问题,本发明提供一种基于改进K-means算法和新聚类有效性指标的聚类分析方法。
技术方案:本发明提供一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,包括以下步骤:
(1)输入数据集,所述数据集包含n个数据点,每个数据点包含m维的数值型属性,设定数据集待聚类的簇数上限Kmax,Kmax为不大于
Figure BDA0002282374140000011
的最大正整数;
(2)计算每两个数据点之间的欧几里得距离;
(3)寻找欧几里得距离中的最大值和最小值,分别记为Dmax与Dmin
(4)根据Dmax与Dmin确定阈值;
(5)统计与各数据点的欧几里得距离小于阈值的数据点个数,作为数据点的密度信息;
(6)标记密度信息为0的点为离群点;(7)定义第一集合,第一集合中包含密度信息不为0的数据点及数据点对应的密度信息;
(8)定义第二集合,从第一集合中选取密度信息最大的数据点和第二大的数据点放入第二集合;从第一集合中移除该两个数据点;
(9)将步骤(8)得到的第二集合中的数据点作为初始的中心点进行K-means聚类;
(10)分别计算数据集中的每个数据点与两个初始聚类中心点的欧几里得距离,选择聚类较近的聚类中心点作为该数据点的中心点类别,并将每个数据点的类标签标记为该中心点类别;
(11)对每个类别内的数据,设置虚拟中心点类标签为类内数据类别,虚拟中心点各维度的坐标信息为类内数据不包含密度信息的各维度坐标信息算术平均值;
(12)若虚拟中心点与真实的数据点重合,则更新该类别的聚类中心点为该虚拟中心点;若虚拟中心点与数据点不重合,则更新该类别的聚类中心点为类内距离虚拟中心点最近且距离离群点最远的点;
(13)计算更新后的聚类中心点与更新前的聚类中心点之间的欧几里得距离,若为0则聚类完成,执行步骤(14);若不为0跳转执行步骤(10);
(14)根据聚类结果计算聚类有效性指标的值;
(15)统计第二集合中的聚类中心点个数,若聚类中心点个数小于Kmax,则从第一集合中选取密度信息最大的数据点放入第二集合,作为新的聚类中心点,然后从第一集合中移除该数据点并跳转步骤(9);否则执行步骤(16);
(16)输出在聚类有效性指标最佳时的聚类结果。
进一步的,步骤(1)中,每个数据点具有m维属性,记数据集为D={x1,x2,…,xn},xi表示第i个数据点;记数据点为xi=(xi1,xi2,…,xim),xij表示第i个数据点的第j维属性。
进一步的,步骤(2)中,第i个数据点xi与第j个数据点xj之间的欧几里得距离d(xi,xj)的计算方法为:
Figure BDA0002282374140000021
进一步的,步骤(4)中,设阈值为ε,根据Dmax与Dmin确定阈值ε的方法为:
ε=(Dmax+Dmax)/(2*Kmax)
其中Kmax为数据集待聚类的簇数上限。
进一步的,步骤(5)中,数据点xi的密度信息ρ(xi)为:
Figure BDA0002282374140000031
Figure BDA0002282374140000032
进一步的,步骤(10)中,数据点xi的类标签的确定方法为:计算数据点xi与第二集合中每个聚类中心点si的欧几里得距离,首先计算xi与第一个聚类中心点s1的欧几里得距离,记为D(xi,s1),并设Dmin(xi,S)=d(xi,s1),将xi的类标签设为s1的标签,依次计算数据点xi与第二集合中余下K-1个聚类中心点的欧几里得距离,若欧氏距离D(xi,sj)小于Dmin(xi,S),则更新Dmin(xi,S)=D(xi,sj),并将xi的类标签设为sj的标签,否则保持Dmin(xi,S)与xi的类标签不发生变化直到计算完第二集合中所有的聚类中心点。
进一步的,步骤(12)中,设虚拟中心点为si',若虚拟中心点与数据点不重合,将类标签与虚拟中心点相同的数据点按照欧几里得距离D(xi,si')大小进行排序获得数组Din(xi,si'),依次选取数组Din(xi,si')中的点,若该点与离群点xj最小距离Dminout(xi,xj)小于虚拟中心点与离群点xn最小距离Dminout(si',xn),则选取该点作为新的聚类中心点,否则选取数组Din(xi,si')内下一个距离虚拟中心点最近的点重复此过程。
进一步的,步骤(14)具体包括:设在更新前的第二集合为Si,设在更新后的第二集合为Sj,集合Si与集合Sj均包含Q个数据点,每个数据点包含m个属性值,则对应的两次迭代聚类中心点的集合的欧氏距离为:
Figure BDA0002282374140000033
若欧氏距离为0,则表示两次迭代聚类中心点未发生变化,停止迭代;否则重复执行步骤(10)。
进一步的,步骤(14)中,根据聚类结果计算聚类有效性指标的计算方法为:将数据集划分成K个类C={C1,C2,…,CK},其中第k个类包含的样本点个数为|Ck|,该类的聚类中心点为ck,则第k个类的类内相似度为:
Figure BDA0002282374140000034
数据集的全局类内相似度为:
Figure BDA0002282374140000035
数据集的全局类间分离度为:
Figure BDA0002282374140000036
聚类有效性指标函数DCVI(K)为:
Figure BDA0002282374140000041
进一步的,步骤(16)中聚类有效性指标最佳指聚类有效性指标函数值最小。有益效果:本发明提供一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,相比较现有技术,存在以下优点:
(1)高密度初始中心点的选取降低了K-means聚类算法的迭代次数,从而减少了聚类算法的时间消耗,提升了聚类效率。
(2)高密度初始中心点的选取和中心点替换方法的结合降低了K-means聚类算法陷入局部最优解的可能性。
(3)本方法不会受随机因素影响,聚类结果稳定。
(4)新的聚类有效性指标综合考量聚类结果类内相似度与类间分离度,能够很好地评价聚类算法的聚类结果,使得到的聚类结果更准确。
附图说明
图1为本发明的整体流程图;
图2为本发明获取数据点密度信息流程图;
图3为本发明中改进K-means算法执行流程图。
具体实施方式
下面结合具体实施例和附图对本发明作进一步说明。
如图1所示,一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,包括以下步骤:
(1)输入数据集D,确定数据集待聚类的簇数上限Kmax,所述数据集D包含n个数据点。每个数据点具有m维属性且各维属性都是数值型数据,记数据集为D={x1,x2,…,xn},xi表示第i个数据点;记数据点为xi=(xi1,xi2,…,xim),xij表示第i个数据点的第j维属性。聚类簇数上限Kmax为不大于
Figure BDA0002282374140000042
的最大正整数。
(2)计算数据集D中的每两个数据点之间的欧几里得距离,即欧氏距离。若数据集D中的数据包含m个属性,则对于数据集D中的样本点xi与xj,二者之间的欧几里得距离的计算公式为:
Figure BDA0002282374140000043
(3)寻找欧几里得距离中的最大值和最小值,分别记为Dmax与Dmin,即
Figure BDA0002282374140000044
Figure BDA0002282374140000045
(4)根据Dmax与Dmin确定阈值ε,用于统计样本点密度信息,阈值ε计算公式为:
ε=(Dmax+Dmin)/(2*Kmax);
(5)如图2,统计与各数据点的欧几里得距离小于阈值的数据点个数,作为数据点的密度信息;计算数据点xi与第二集合S中每个数据点si的距离,若距离D(xi,si)小于之前的最小距离,则更新最小距离并将数据点xi的标签设为si的标签。数据点的密度信息的计算公式为:
Figure BDA0002282374140000051
Figure BDA0002282374140000052
(6)标记密度信息为0的点为离群点。
(7)定义空的第一集合T,将数据集D中密度信息不为0的的数据点与对应数据点的密度信息放入第一集合T;
(8)定义空的第二集合S,从第一集合中选取密度信息最大的数据点和第二大的数据点放入第二集合,作为初始聚类中心点;并从第一集合中移除该两个数据点;
(9)将步骤(8)得到的第二集合中的数据点作为初始的中心点进行K-means聚类;
如下为改进的K-means聚类算法,利用了K-means算法高质量的初始中心点能降低聚类算法迭代次数的优点,减少了聚类算法的时间消耗;基于密度参数计算初始聚类中心和中心点替换方法的引入提高了K-means算法的聚类准确度;提出的新聚类有效性指标DCVI综合考量了聚类结果类内相似度与类间分离度,能够很好地评价聚类算法的聚类结果。因此本发明能获得准确且稳定的聚类结果。具体参见图3流程图。
(10)计算数据点xi与第二集合S中每个聚类中心点si的距离,首先计算xi与第一个中心点s1的距离,记为D(xi,s1),并设Dmin(xi,S)=D(xi,s1),将xi的类标签设为s1的标签。依次计算数据点xi与第二集合S中余下k-1个聚类中心点的欧氏距离,若欧氏距离D(xi,sj)小于Dmin(xi,S),则更新Dmin(xi,S)=D(xi,sj),并将xi的类标签设为sj的标签,否则保持Dmin(xi,S)与xi的类标签不发生变化;
(11)统计数据集D中与si标签相同的数据点信息,对获取的数据点信息求平均,获得的数据信息即为新的虚拟中心点si'的信息。K-means聚类算法中对象的属性值为数值型(连续性)数据,则均值
Figure BDA0002282374140000053
其中n为属于该类的记录总数,Bi为属性值;
(12)若得到的虚拟中心点与真实的样本点重合,则该点即为该类的聚类中心,否则将类标签与si'相同的点按照距离D(xi,si')进行升序排序获得数组Din(xi,si'),依次选取数组Din(xi,si')中的点,若该点与离群点xj最小距离Dminout(xi,xj)小于虚拟中心点si'与离群点xn最小距离Dminout(si',xn),则选取该点作为新的聚类中心点si,否则选取数组Din(xi,si')内下一个距离虚拟中心点最近的点重复此过程直到获取所有新的聚类中心点。
(13)计算新的聚类中心点与前一次迭代的聚类中心点之间的欧氏距离,即:
Figure BDA0002282374140000061
若欧氏距离为0则停止迭代,否则跳转到步骤(10);
(14)根据聚类结果计算聚类有效性指标的值。
若改进K-means聚类算法将目标数据集划分成K个类C={C1,C2,…,CK},其中第k个类包含的样本点个数为|Ck|,该类的聚类中心点为ck,则第k个类的类内相似度为:
Figure BDA0002282374140000062
数据集的全局类内相似度为:
Figure BDA0002282374140000063
数据集的全局类间分离度为
Figure BDA0002282374140000064
聚类有效性指标函数DCVI(K)为:
Figure BDA0002282374140000065
(15)统计第二集合中的聚类中心点个数,若聚类中心点个数小于Kmax,则从第一集合中选取密度信息最大的数据点放入第二集合,作为新的聚类中心点,然后从第一集合中移除该数据点并跳转步骤(9);否则执行步骤(16);
(16)聚类有效性指标函数值最小时的聚类结果为最佳聚类结果,最佳聚类数(Kopt)的确定方法为:
Figure BDA0002282374140000066

Claims (10)

1.一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,包括以下步骤:
(1)输入数据集,所述数据集包含n个数据点,每个数据点包含m维的数值型属性,设定数据集待聚类的聚类簇数上限Kmax,Kmax为不大于
Figure FDA0002282374130000011
的最大正整数;
(2)计算每两个数据点之间的欧几里得距离;
(3)寻找欧几里得距离中的最大值和最小值,分别记为Dmax与Dmin
(4)根据Dmax与Dmin确定阈值;
(5)统计与各数据点的欧几里得距离小于阈值的数据点个数,作为数据点的密度信息;
(6)标记密度信息为0的点为离群点;
(7)定义第一集合,第一集合中包含密度信息不为0的数据点及数据点对应的密度信息;
(8)定义第二集合,从第一集合中选取密度信息最大的数据点和第二大的数据点放入第二集合;从第一集合中移除该两个数据点;
(9)将步骤(8)得到的第二集合中的数据点作为初始的中心点进行K-means聚类;
(10)分别计算第一集合中的每个数据点与两个初始聚类中心点的欧几里得距离,选择聚类较近的聚类中心点作为该数据点的中心点类别,并将每个数据点的类标签标记为该中心点类别;
(11)对每个类别内的数据,设置虚拟中心点类标签为类内数据类别,虚拟中心点各维度的坐标信息为类内数据不包含密度信息的各维度坐标信息算术平均值;
(12)若虚拟中心点与真实的数据点重合,则更新该类别的聚类中心点为该虚拟中心点;若虚拟中心点与数据点不重合,则更新该类别的聚类中心点为类内距离虚拟中心点最近且距离离群点最远的点;
(13)计算更新后的聚类中心点与更新前的聚类中心点之间的欧几里得距离,若为0则聚类完成,执行步骤(14);若不为0跳转执行步骤(10);
(14)根据聚类结果计算聚类有效性指标的值;
(15)统计第二集合中的聚类中心点个数,若聚类中心点个数小于Kmax,则从第一集合中选取密度信息最大的数据点放入第二集合,作为新的聚类中心点,然后从第一集合中移除该数据点并跳转步骤(9);否则执行步骤(16);
(16)输出在聚类有效性指标最佳时的聚类结果。
2.根据权利要求1所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(1)中,每个数据点具有m维属性,记数据集为D={x1,x2,…,xn},xi表示第i个数据点;记数据点为xi=(xi1,xi2,…,xim),xij表示第i个数据点的第j维属性。
3.根据权利要求2所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(2)中,第i个数据点xi与第j个数据点xj之间的欧几里得距离d(xi,xj)的计算方法为:
Figure FDA0002282374130000021
4.根据权利要求1至3任一所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(4)中,设阈值为ε,根据Dmax与Dmin确定阈值ε的方法为:
ε=(Dmax+Dmax)/(2*Kmax)
其中KmaxK为数据集待聚类的簇数上限。
5.根据权利要求4所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(5)中,数据点xi的密度信息ρ(xi)为:
Figure FDA0002282374130000022
Figure FDA0002282374130000023
6.根据权利要求2或3所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(10)中,数据点xi的类标签的确定方法为:计算数据点xi与第二集合中每个聚类中心点si的欧几里得距离,首先计算xi与第一个聚类中心点s1的欧几里得距离,记为D(xi,s1),并设Dmin(xi,S)=d(xi,s1),将xi的类标签设为s1的标签,依次计算数据点xi与第二集合中余下K-1个聚类中心点的欧几里得距离,若欧氏距离D(xi,sj)小于Dmin(xi,S),则更新Dmin(xi,S)=D(xi,sj),并将xi的类标签设为sj的标签,否则保持Dmin(xi,S)与xi的类标签不发生变化直到计算完第二集合中所有的聚类中心点。
7.根据权利要求2或3所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(12)中,设虚拟中心点为si',若虚拟中心点与数据点不重合,将类标签与虚拟中心点相同的数据点按照欧几里得距离D(xi,si')大小进行排序获得数组Din(xi,si'),依次选取数组Din(xi,si')中的点,若该点与离群点xj最小距离Dminout(xi,xj)小于虚拟中心点与离群点xn最小距离Dminout(si',xn),则选取该点作为新的聚类中心点,否则选取数组Din(xi,si')内下一个距离虚拟中心点最近的点重复此过程。
8.根据权利要求2或3所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(14)具体包括:设在更新前的第二集合为Si,设在更新后的第二集合为Sj,集合Si与集合Sj均包含Q个数据点,每个数据点包含m个属性值,则对应的两次迭代聚类中心点的集合的欧氏距离为:
Figure FDA0002282374130000031
若欧氏距离为0,则表示两次迭代聚类中心点未发生变化,停止迭代;否则重复执行步骤(10)。
9.根据权利要求1至3任一所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(14)中,根据聚类结果计算聚类有效性指标的计算方法为:将数据集划分成K个类C={C1,C2,…,CK},其中第k个类包含的样本点个数为|Ck|,该类的聚类中心点为ck,则第k个类的类内相似度为:
Figure FDA0002282374130000032
数据集的全局类内相似度为:
Figure FDA0002282374130000033
数据集的全局类间分离度为:
Figure FDA0002282374130000034
聚类有效性指标函数DCVI(K)为:
Figure FDA0002282374130000035
10.根据权利要求9所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(16)中聚类有效性指标最佳指聚类有效性指标函数值最小。
CN201911146579.1A 2019-11-21 2019-11-21 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法 Pending CN110909792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911146579.1A CN110909792A (zh) 2019-11-21 2019-11-21 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146579.1A CN110909792A (zh) 2019-11-21 2019-11-21 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法

Publications (1)

Publication Number Publication Date
CN110909792A true CN110909792A (zh) 2020-03-24

Family

ID=69818399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146579.1A Pending CN110909792A (zh) 2019-11-21 2019-11-21 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法

Country Status (1)

Country Link
CN (1) CN110909792A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286989A (zh) * 2020-10-28 2021-01-29 上海电机学院 一种大数据聚类挖掘方法、平台
CN114462533A (zh) * 2022-02-08 2022-05-10 南京甄视智能科技有限公司 一种群聚性物体聚类方法
CN117408829A (zh) * 2023-10-27 2024-01-16 东北农业大学 耕地保护分区及特征自动归纳、障碍因子诊断方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286989A (zh) * 2020-10-28 2021-01-29 上海电机学院 一种大数据聚类挖掘方法、平台
CN114462533A (zh) * 2022-02-08 2022-05-10 南京甄视智能科技有限公司 一种群聚性物体聚类方法
CN117408829A (zh) * 2023-10-27 2024-01-16 东北农业大学 耕地保护分区及特征自动归纳、障碍因子诊断方法

Similar Documents

Publication Publication Date Title
CN106371610B (zh) 一种基于脑电信号的驾驶疲劳的检测方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN106572493B (zh) Lte网络中的异常值检测方法及系统
Zhu et al. Fast and stable clustering analysis based on Grid-mapping K-means algorithm and new clustering validity index
CN110909792A (zh) 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN109960808B (zh) 一种文本识别方法、装置、设备及计算机可读存储介质
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
Witten et al. Supervised multidimensional scaling for visualization, classification, and bipartite ranking
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
Yang et al. A feature-metric-based affinity propagation technique for feature selection in hyperspectral image classification
CN109359135B (zh) 一种基于分段权重的时间序列相似性搜索方法
CN116523320B (zh) 基于互联网大数据的知识产权风险智能分析方法
CN111562571B (zh) 一种未知新生强度的机动多目标跟踪与航迹维持方法
CN104598774A (zh) 基于logistic与相关信息熵的特征基因选择方法
CN111275127B (zh) 基于条件互信息的动态特征选择方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN105160598B (zh) 一种基于改进em算法的电网业务分类方法
CN108846845B (zh) 基于缩略图与分层模糊聚类的sar图像分割方法
CN112465016A (zh) 基于最优劣距的部分多标记学习方法
CN115392375A (zh) 一种多源数据融合度智能评估方法及其系统
CN111985823B (zh) 一种用于滚磨机定向仪的晶棒质量评估方法
CN114492830A (zh) 基于个体歧视实例对生成的深度学习模型去偏方法及其装置
CN110377798B (zh) 基于角度熵的离群点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200324

WD01 Invention patent application deemed withdrawn after publication