CN116796214B - 一种基于差分特征的数据聚类方法 - Google Patents

一种基于差分特征的数据聚类方法 Download PDF

Info

Publication number
CN116796214B
CN116796214B CN202310665159.4A CN202310665159A CN116796214B CN 116796214 B CN116796214 B CN 116796214B CN 202310665159 A CN202310665159 A CN 202310665159A CN 116796214 B CN116796214 B CN 116796214B
Authority
CN
China
Prior art keywords
clustering
differential
center points
points
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310665159.4A
Other languages
English (en)
Other versions
CN116796214A (zh
Inventor
陈丽
刘玉华
李�荣
曹晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aurora Biotechnology Co ltd
Original Assignee
Nanjing Aurora Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aurora Biotechnology Co ltd filed Critical Nanjing Aurora Biotechnology Co ltd
Priority to CN202310665159.4A priority Critical patent/CN116796214B/zh
Publication of CN116796214A publication Critical patent/CN116796214A/zh
Application granted granted Critical
Publication of CN116796214B publication Critical patent/CN116796214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种基于差分特征的数据聚类方法。一种基于差分特征的数据聚类方法,包括:对样本数据进行聚类得到K个第一类簇和K个第二类簇,确定K个第三聚类中心点,得到一阶差分特征和二阶差分特征,筛选得到M个第一目标聚类中心点;获取第三聚类中心点的样本点分析图,筛选得到第二目标聚类中心点,对样本数据进行聚类分析,得到聚类结果。本申请通过对初期聚类过程得到的聚类结果进行差分分析得到差分特征,对初始设定的聚类中心进行初次筛选,获取初次筛选得到的聚类中心对应的样本点分析图,对样本点分析图进行差分分析,对初次筛选得到的聚类中心进行再次筛选,作为最终的聚类中心对样本数据进行数据聚类,增强聚类效果。

Description

一种基于差分特征的数据聚类方法
技术领域
本申请涉及数据挖掘技术领域,特别地涉及一种基于差分特征的数据聚类方法。
背景技术
随着大数据技术和计算机技术的发展,大量的数据被计算机处理,在数据处理过程中通过聚类分析从大量的数据中发现潜在的内容,目前聚类分析已被广泛应用于图像处理、机器学习等领域。
K均值聚类算法是常用的聚类算法之一,有着简单、快速的优点,在具体的聚类过程中,需要预先设定K个聚类中心,基于各个样本点与K个聚类中心之间的距离对样本数据进行迭代聚类,得到聚类结果。其中,K个聚类中心的设置会对最终的聚类结果产生影响,导致聚类效果不影响。
发明内容
针对上述问题,本申请提供一种基于差分特征的数据聚类方法,在聚类的初期基于差分分析方法对聚类得到的部分信息进行分析处理,基于得到的分析结果对聚类过程进行调整,以增强聚类效果。
本申请的技术方案为:一种基于差分特征的数据聚类方法,包括:
获取待处理数据,待处理数据为基于大数据获取到的文本数据、图像数据或者视频数据中的任一项,对所述待处理数据进行归一化处理,得到样本数据;
预设K个第一聚类中心点,遍历所述样本数据中的所有样本点,基于K个第一聚类中心点将所述样本数据中的所有样本点进行聚类得到K个第一类簇,分别对K个第一类簇进行重新选取聚类中心,得到K个第二聚类中心点,基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;
遍历K个第一类簇中的所有样本点,基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,分别对K个第二类簇进行重新选取聚类中心,得到K个第三聚类中心点,基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;
基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;
对于M个第一目标聚类中心点对应的M个第三聚类中心点,分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果。
进一步地,所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征,包括:
分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,得到所述一阶差分特征;
所述基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征,包括:
分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,得到所述二阶差分特征。
进一步地,所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,包括:
基于所述一阶差分特征和所述二阶差分特征得到K个参考集合,每个参考集合包括分别来源于所述一阶差分特征和所述二阶差分特征的两个欧氏距离值,两个欧氏距离值关联同一个第二聚类中心点;
分别计算K个参考集合中,来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值,得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值。
进一步地,所述根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点包括:
筛除K个第一聚类中心点中,对应参考值小于所述第一预设参考值的第一聚类中心点,对于K个第一聚类中心点中剩余的第一聚类中心点,按照对应参考值从大到小的顺序选取M个第一目标聚类中心点。
进一步地,所述获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
遍历K个第二类簇中的所有样本点,基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇;
基于M个第三聚类中心点和M个第三类簇分析得到M个第三聚类中心点中每个第三聚类中心点对应的样本点总量随距离变化的样本点分析图,以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征。
进一步地,所述以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
对于M个样本点分析图中的任一样本点分析图,基于所述预设差分步长确定多个距离参考点,每两个相邻距离参考点之间的间距等于所述预设差分步长,对每相邻的两个距离参考点进行差分分析,用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值,得到样本点分析图对应的差分值集合,基于预设临界值对差分值集合进行偏离分析,D=(Q﹒Pmin)/P,其中,D为偏离值,Q为差分值集合中小于所述预设临界值的差分值的总数,Pmin为差分值集合中的差分值最小值,P为差分值集合中的差分值的总数,将偏离值作为任一样本点分析图对应的所述目标差分特征,计算得到M个所述目标差分特征。
进一步地,所述基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点包括:
筛选出M个第一目标聚类中心点中所述目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点。
进一步地,所述基于第二目标聚类中心点对样本数据进行聚类分析包括:
基于K均值聚类算法和第二目标聚类中心点对样本数据进行聚类分析。
本申请具有以下优点:
本申请通过对K均值聚类算法初期聚类过程得到的聚类结果进行差分分析得到差分特征,根据差分特征对初始设定的聚类中心进行初次筛选,获取初次筛选得到的聚类中心对应的样本点分析图,对样本点分析图再进行差分分析,根据分析结果对初次筛选得到的聚类中心进行再次筛选,作为最终的聚类中心进行数据聚类,增强聚类效果,减少时间和计算资源的浪费。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本申请实施例中提供的一种基于差分特征的数据聚类方法的流程示意图。
实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请部分实施例进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。然而,本领域的普通技术人员可以理解,在本申请的各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
图1为本申请实施例中提供的一种基于差分特征的数据聚类方法,请参见图1,本方法可具体应用于相关的聚类装置或设备,聚类装置或设备上存储有对应的执行程序,可以想到的是,执行主体也可以有其它的选择,此处不以此为限。
请参见图1,一种基于差分特征的数据聚类方法,包括:
S1、获取待处理数据,对待处理数据进行归一化处理,得到样本数据;
值得说明的是,待处理数据具体可以是需要进行聚类的数据,例如基于大数据技术获取到的与用户相关的文本数据,基于摄像设备拍摄得到的图像数据或视频数据等,通过对待处理数据进行归一化处理得到样本数据,便于后续对数据的使用。
S2、预设K个第一聚类中心点,基于K个第一聚类中心点将样本数据进行聚类得到K个第一类簇,对K个第一类簇重新选取聚类中心得到K个第二聚类中心点;
值得说明的是,在得到样本数据后,基于K均值聚类算法设定K个第一聚类中心点,其中,第一聚类中心点可以根据经验知识和精度需要而进行设定,为了提升精度,可在实际需要达到的精度上适当提升数量,具体作用在下文中进行陈述,在设定K个第一聚类中心点后,分别用K个第一聚类中心点遍历样本数据中的所有样本点,对样本数据进行第一次聚类得到K个第一类簇,对K个第一类簇重新选取得到K个第二聚类中心点。
S3、基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;
值得说明的是,对K个第一聚类中心点进行差分处理具体为,根据每个第一聚类中心点和对应第二聚类中心点的位置信息,分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,从而得到一阶差分特征。
S4、基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,对K个第二类簇重新选取聚类中心得到K个第三聚类中心点;
值得说明的是,采用前述的方法基于K个第二聚类中心点对K个第一类簇对应的数据进行聚类处理,对K个第一类簇中的所有样本点,即样本数据进行第二次聚类,得到K个第二类簇,对K个第二类簇重新聚类中心,得到K个第二聚类中心点。
S5、基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;
值得说明的是,分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,从而得到二阶差分特征。
S6、基于一阶差分特征和二阶差分特征分别分析K个第一聚类中心点的参考值,对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;
值得说明的是,在该步骤中,参考值的计算过程包括:
根据一阶差分特征和二阶差分特征之间的关联关系建立得到K个参考集合,每个参考集合包括两个欧式距离值,分别来源于一阶差分特征和二阶差分特征的两个欧氏距离值,两个欧氏距离值之间以同一个第二聚类中心点作为关联;
通过下述方式计算得到K个第一聚类中心点的参考值,以任意一个参考集合为例,计算该参考集合中,来源于二阶差分特征的欧氏距离值与来源于一阶差分特征的欧氏距离值的比值,将计算得到的比值作为该参考集合对应的第一聚类中心点对应的参考值,计算得到K个第一聚类中心点的参考值。
根据第一预设参考值和第一聚类中心点对应的参考值从K个第一聚类中心点中筛选得到M个第一目标聚类中心点,对于步骤S2中第一聚类中心点的设定过程,为了提高聚类效果和精度,适当提升设定的第一聚类中心点的数量,在该步骤中对第一聚类中心点进行第一次筛选,提升用于聚类的中心点的价值。
在一种可选的实施方案中,从K个第一聚类中心点中选取得到M个第一目标聚类中心点具体包括:
通过第一预设参考值对K个第一聚类中心点进行初筛,舍去对应参考值小于第一预设参考值的第一聚类中心点,根据参考值从大到小的方式对初筛得到的第一聚类中心点进行排序,对排序好的第一聚类中心点按照对应参考值从大到小的顺序选取得到M个第一目标聚类中心点。
S7、获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,对M个样本点分析图进行差分分析,得到M个目标差分特征;
具体地,遍历K个第二类簇中的所有样本点,基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇;
值得说明的是,以任意一个第三聚类中心点为例,样本点分析图具体为,以该第三聚类中心点为中心,对于该第三聚类中心点内的所有样本点,随着距离的增大,满足与该第三聚类中心点的距离不大于当前距离的样本点的总量变化关系图。
S8、基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果;
值得说明的是,对M个第一目标聚类中心点进行筛选的方式为,从M个第一目标聚类中心点中筛选出目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点,得到多个第二目标聚类中心点。
在筛选得到多个第二目标聚类中心点后,以多个第二目标聚类中心点作为初始设定的聚类中心点,以K均值聚类算法对样本数据进行聚类分析,得到聚类结果。
在一种可选的实施方案中,对于步骤S7,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
以M个样本点分析图中的任一样本点分析图为例,基于预设差分步长和样本点分析图中的距离范围确定多个距离参考点,具体地,多个距离参考点中每两个相邻的距离参考点之间的间距等于预设差分步长,对于每相邻的两个距离参考点进行差分分析,具体为用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值,得到每相邻的两个距离参考点对应的差分值;
建立差分值集合,每个样本点分析图对应一个样本点分析图,基于预设临界值对样本点分析图对应的差分值集合进行偏离分析,在本实施例中,以0作为预设临界值,通过如下公式对差分值集合进行偏离分析,得到偏离值:
D=(Q﹒Pmin)/P
式中,D为偏离值,Q为差分值集合中小于预设临界值的差分值的总数,Pmin为差分值集合中的差分值最小值,P为差分值集合中的差分值的总数;
通过上述方式计算出每个样本点分析图对应的目标差分特征,得到M个目标差分特征。
值得说明的是,K均值聚类算法对一些非凸状类簇的聚类效果较差,聚类中心选取不合适的情况下容易导致剧烈效果不理想,通过获取样本点分析图并分析出目标差分特征,可以对初期的聚类中心选取效果就行衡量,从而获得更优质的聚类中心。
在一种更优的实施方案中,在具体使用本申请的过程中,若筛选得到的第二目标聚类中心点的数量不满足预期,即筛选得到的第二目标聚类中心点的数量较少,表示初始设定的第一聚类中心的位置不合适,在这种情况下为了提升聚类效果,可基于经验知识重新选取聚类中心,以免继续使用筛选得到的第二目标聚类中心点进行聚类导致最终的聚类效果不理想,造成时间和计算资源的浪费。
在使用K均值聚类算法进行数据聚类的过程中,初始聚类中心的设定对后续的聚类结果有着较大的影响,可能导致聚类结果为局部最优而不是全局最优,在这种情况下,本申请实施例提供的一种基于差分特征的数据聚类方法,通过对前几次聚类过程得到的聚类结果进行差分分析,根据分析得到的结果对初始设定的聚类中心进行初次筛选,获取初次筛选得到的聚类中心对应的样本点分析图,对样本点分析图进行差分分析,根据分析结果对初次筛选得到的聚类中心进行再次筛选,作为最终的聚类中心进行数据聚类,增强聚类效果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本申请所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。

Claims (5)

1.一种基于差分特征的数据聚类方法,其特征在于,包括:
获取待处理数据,待处理数据为基于大数据获取到的文本数据、图像数据或者视频数据中的任一项,对所述待处理数据进行归一化处理,得到样本数据;
预设K个第一聚类中心点,遍历所述样本数据中的所有样本点,基于K个第一聚类中心点将所述样本数据中的所有样本点进行聚类得到K个第一类簇,分别对K个第一类簇进行重新选取聚类中心,得到K个第二聚类中心点,基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;
遍历K个第一类簇中的所有样本点,基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,分别对K个第二类簇进行重新选取聚类中心,得到K个第三聚类中心点,基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;
基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;
对于M个第一目标聚类中心点对应的M个第三聚类中心点,分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果;
所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,包括:
基于所述一阶差分特征和所述二阶差分特征得到K个参考集合,每个参考集合包括分别来源于所述一阶差分特征和所述二阶差分特征的两个欧氏距离值,两个欧氏距离值关联同一个第二聚类中心点;
分别计算K个参考集合中,来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值,得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值;
所述获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
遍历K个第二类簇中的所有样本点,基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇;
基于M个第三聚类中心点和M个第三类簇分析得到M个第三聚类中心点中每个第三聚类中心点对应的样本点总量随距离变化的样本点分析图,以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征;
所述以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
对于M个样本点分析图中的任一样本点分析图,基于所述预设差分步长确定多个距离参考点,每两个相邻的距离参考点之间的间距等于所述预设差分步长,对每相邻的两个距离参考点进行差分分析,用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值,得到样本点分析图对应的差分值集合,基于预设临界值对差分值集合进行偏离分析,D=(Q﹒Pmin)/P,其中,D为偏离值,Q为差分值集合中小于所述预设临界值的差分值的总数,Pmin为差分值集合中的差分值最小值,P总为差分值集合中的差分值的总数,将偏离值作为任一样本点分析图对应的所述目标差分特征,计算得到M个所述目标差分特征。
2.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征,包括:
分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,得到所述一阶差分特征;
所述基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征,包括:
分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,得到所述二阶差分特征。
3.如权利要求2所述的一种基于差分特征的数据聚类方法,其特征在于,所述根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点包括:
筛除K个第一聚类中心点中,对应参考值小于所述第一预设参考值的第一聚类中心点,对于K个第一聚类中心点中剩余的第一聚类中心点,按照对应参考值从大到小的顺序选取M个第一目标聚类中心点。
4.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点包括:
筛选出M个第一目标聚类中心点中所述目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点。
5.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于第二目标聚类中心点对样本数据进行聚类分析包括:
基于K均值聚类算法和第二目标聚类中心点对样本数据进行聚类分析。
CN202310665159.4A 2023-06-07 2023-06-07 一种基于差分特征的数据聚类方法 Active CN116796214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310665159.4A CN116796214B (zh) 2023-06-07 2023-06-07 一种基于差分特征的数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310665159.4A CN116796214B (zh) 2023-06-07 2023-06-07 一种基于差分特征的数据聚类方法

Publications (2)

Publication Number Publication Date
CN116796214A CN116796214A (zh) 2023-09-22
CN116796214B true CN116796214B (zh) 2024-01-30

Family

ID=88043055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310665159.4A Active CN116796214B (zh) 2023-06-07 2023-06-07 一种基于差分特征的数据聚类方法

Country Status (1)

Country Link
CN (1) CN116796214B (zh)

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103292741A (zh) * 2013-05-29 2013-09-11 哈尔滨工程大学 一种基于k均值颜色聚类的物体表面三维轮廓的结构光视觉测量方法
CN103683198A (zh) * 2013-12-03 2014-03-26 昆明理工大学 一种基于差动电流相邻阶次差分构成的平面上相邻点距离的励磁涌流快速识别方法
CN106384119A (zh) * 2016-08-23 2017-02-08 重庆大学 一种利用方差分析确定k值的k‑均值聚类改进算法
CN107240082A (zh) * 2017-06-23 2017-10-10 微鲸科技有限公司 一种拼接线优化方法及设备
CN108121781A (zh) * 2017-12-18 2018-06-05 辽宁师范大学 基于高效样本选取与参数优化的相关反馈图像检索方法
CN109711439A (zh) * 2018-12-12 2019-05-03 浙江工业大学 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
CN109871412A (zh) * 2018-12-26 2019-06-11 航天科工广信智能技术有限公司 基于K-Means聚类的车道流量分析方法
CN109886334A (zh) * 2019-02-20 2019-06-14 安徽师范大学 一种隐私保护的共享近邻密度峰聚类方法
WO2019161592A1 (zh) * 2018-02-26 2019-08-29 大连理工大学 一种利用聚类自动提取结构模态参数的方法
CN110995508A (zh) * 2019-12-23 2020-04-10 中国人民解放军国防科技大学 基于kpi突变的自适应无监督在线网络异常检测方法
CN111274388A (zh) * 2020-01-14 2020-06-12 平安科技(深圳)有限公司 一种文本聚类的方法及装置
CN111415049A (zh) * 2020-04-27 2020-07-14 国网河北能源技术服务有限公司 一种基于神经网络及聚类的停电敏感性分析方法
CN111461185A (zh) * 2020-03-19 2020-07-28 哈尔滨工程大学 一种基于改进K-means的驾驶行为分析方法
WO2020155756A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 基于聚类和sse的异常点比例优化方法及装置
CN112446559A (zh) * 2021-02-01 2021-03-05 中国测绘科学研究院 一种基于深度学习的大范围地面沉降时空预测方法和系统
CN113867342A (zh) * 2021-09-18 2021-12-31 中国人民解放军海军工程大学 一种基于Hough变换和优化K均值聚类的反舰导弹编队识别目标选择系统
WO2022016884A1 (zh) * 2020-07-22 2022-01-27 江苏科技大学 一种基于K-means聚类算法的海面风速方法
CN114358166A (zh) * 2021-12-29 2022-04-15 青岛星科瑞升信息科技有限公司 一种基于自适应k均值聚类的多目标定位方法
WO2022126971A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 基于密度的文本聚类方法、装置、设备及存储介质
CN114999564A (zh) * 2022-06-10 2022-09-02 江苏品生医疗科技集团有限公司 蛋白质数据处理方法、装置、电子设备以及存储介质
WO2022252505A1 (zh) * 2021-06-02 2022-12-08 杭州安脉盛智能技术有限公司 一种基于多指标集群分析的设备状态监测方法
CN115579065A (zh) * 2022-12-09 2023-01-06 百图生科(苏州)智能科技有限公司 数据的聚类处理方法、装置、电子设备和存储介质
CN115935775A (zh) * 2021-09-27 2023-04-07 中国移动通信有限公司研究院 神经网络模型训练方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014080447A1 (ja) * 2012-11-20 2014-05-30 株式会社日立製作所 データ解析装置、データ解析方法

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103292741A (zh) * 2013-05-29 2013-09-11 哈尔滨工程大学 一种基于k均值颜色聚类的物体表面三维轮廓的结构光视觉测量方法
CN103683198A (zh) * 2013-12-03 2014-03-26 昆明理工大学 一种基于差动电流相邻阶次差分构成的平面上相邻点距离的励磁涌流快速识别方法
CN106384119A (zh) * 2016-08-23 2017-02-08 重庆大学 一种利用方差分析确定k值的k‑均值聚类改进算法
CN107240082A (zh) * 2017-06-23 2017-10-10 微鲸科技有限公司 一种拼接线优化方法及设备
CN108121781A (zh) * 2017-12-18 2018-06-05 辽宁师范大学 基于高效样本选取与参数优化的相关反馈图像检索方法
WO2019161592A1 (zh) * 2018-02-26 2019-08-29 大连理工大学 一种利用聚类自动提取结构模态参数的方法
CN109711439A (zh) * 2018-12-12 2019-05-03 浙江工业大学 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
CN109871412A (zh) * 2018-12-26 2019-06-11 航天科工广信智能技术有限公司 基于K-Means聚类的车道流量分析方法
WO2020155756A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 基于聚类和sse的异常点比例优化方法及装置
CN109886334A (zh) * 2019-02-20 2019-06-14 安徽师范大学 一种隐私保护的共享近邻密度峰聚类方法
CN110995508A (zh) * 2019-12-23 2020-04-10 中国人民解放军国防科技大学 基于kpi突变的自适应无监督在线网络异常检测方法
CN111274388A (zh) * 2020-01-14 2020-06-12 平安科技(深圳)有限公司 一种文本聚类的方法及装置
CN111461185A (zh) * 2020-03-19 2020-07-28 哈尔滨工程大学 一种基于改进K-means的驾驶行为分析方法
CN111415049A (zh) * 2020-04-27 2020-07-14 国网河北能源技术服务有限公司 一种基于神经网络及聚类的停电敏感性分析方法
WO2022016884A1 (zh) * 2020-07-22 2022-01-27 江苏科技大学 一种基于K-means聚类算法的海面风速方法
WO2022126971A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 基于密度的文本聚类方法、装置、设备及存储介质
CN112446559A (zh) * 2021-02-01 2021-03-05 中国测绘科学研究院 一种基于深度学习的大范围地面沉降时空预测方法和系统
WO2022252505A1 (zh) * 2021-06-02 2022-12-08 杭州安脉盛智能技术有限公司 一种基于多指标集群分析的设备状态监测方法
CN113867342A (zh) * 2021-09-18 2021-12-31 中国人民解放军海军工程大学 一种基于Hough变换和优化K均值聚类的反舰导弹编队识别目标选择系统
CN115935775A (zh) * 2021-09-27 2023-04-07 中国移动通信有限公司研究院 神经网络模型训练方法、装置、设备及存储介质
CN114358166A (zh) * 2021-12-29 2022-04-15 青岛星科瑞升信息科技有限公司 一种基于自适应k均值聚类的多目标定位方法
CN114999564A (zh) * 2022-06-10 2022-09-02 江苏品生医疗科技集团有限公司 蛋白质数据处理方法、装置、电子设备以及存储介质
CN115579065A (zh) * 2022-12-09 2023-01-06 百图生科(苏州)智能科技有限公司 数据的聚类处理方法、装置、电子设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"An enhanced method of initial cluster center selection for K-means algorithm";Zillur Rahman;《arxiv》;第1-6 页 *
"基于优化初始聚类中心和轮廓系数的K-means聚类算法";孙林等;《模糊系统与数学》;第36卷(第1期);第47-65页 *
"基于差分进化算法的K-means算法改进";刘莉莉等;《计算机技术与发展》;第25卷(第10期);第88-92页 *
"基于改进的K-means入侵检测算法";季赛花等;《计算机与数字工程。;第49卷(第11期);第2184-2188页 *
Jianming Liu等."Improved K-Means Algorithm for Optimizing Initial Centers".《Advances in 3D Imgae and Graphics Representation,Analysis,Computing and Information Technology》.2020,第213-219页. *

Also Published As

Publication number Publication date
CN116796214A (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN111291777B (zh) 一种基于多组学集成的癌症亚型分类方法
Dai et al. Neighbor inconsistent pair selection for attribute reduction by rough set approach
JP6285640B2 (ja) 自動及び手動欠陥分類の統合
Ma et al. Estimation of large dimensional factor models with an unknown number of breaks
Barla et al. Machine learning methods for predictive proteomics
CN108287816B (zh) 兴趣点在线检测、机器学习分类器训练方法和装置
EP4198775A1 (en) Abnormal user auditing method and apparatus, electronic device, and storage medium
CN109189876B (zh) 一种数据处理方法及装置
CN108717547B (zh) 样本数据生成方法及装置、训练模型的方法及装置
CN115601368B (zh) 一种建材装备钣金件缺陷检测方法
CN109167753A (zh) 一种网络入侵流量的检测方法及装置
Liu et al. A unified data-adaptive framework for high dimensional change point detection
Bashir et al. Post-processing posteriors over precision matrices to produce sparse graph estimates
CN116796214B (zh) 一种基于差分特征的数据聚类方法
CN110796164A (zh) 数据聚类的簇数确定方法、系统、电子设备及存储介质
CN107193979B (zh) 一种同源图片检索的方法
Vega et al. Accurate and reliable image classification by using conformal predictors in the TJ-II Thomson scattering
CN111949530A (zh) 测试结果的预测方法、装置、计算机设备及存储介质
CN114462581A (zh) 网络结构搜索方法和装置
EP4207006A1 (en) Model generation program, model generation method, and model generation device
CN110728665B (zh) 基于并行概率神经网络的sar图像变化检测方法
CN111835541B (zh) 一种流量识别模型老化检测方法、装置、设备及系统
CN114694771A (zh) 样品分类方法、分类器的训练方法、设备和介质
US11210605B1 (en) Dataset suitability check for machine learning
EP2993643A1 (en) Image processing device, image processing method, and image processing program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant