CN116796214B

CN116796214B - 一种基于差分特征的数据聚类方法

Info

Publication number: CN116796214B
Application number: CN202310665159.4A
Authority: CN
Inventors: 陈丽; 刘玉华; 李�荣; 曹晓东
Original assignee: Nanjing Aurora Biotechnology Co ltd
Current assignee: Nanjing Aurora Biotechnology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2024-01-30
Anticipated expiration: 2043-06-07
Also published as: CN116796214A

Abstract

本申请提供一种基于差分特征的数据聚类方法。一种基于差分特征的数据聚类方法，包括：对样本数据进行聚类得到K个第一类簇和K个第二类簇，确定K个第三聚类中心点，得到一阶差分特征和二阶差分特征，筛选得到M个第一目标聚类中心点；获取第三聚类中心点的样本点分析图，筛选得到第二目标聚类中心点，对样本数据进行聚类分析，得到聚类结果。本申请通过对初期聚类过程得到的聚类结果进行差分分析得到差分特征，对初始设定的聚类中心进行初次筛选，获取初次筛选得到的聚类中心对应的样本点分析图，对样本点分析图进行差分分析，对初次筛选得到的聚类中心进行再次筛选，作为最终的聚类中心对样本数据进行数据聚类，增强聚类效果。

Description

一种基于差分特征的数据聚类方法

技术领域

本申请涉及数据挖掘技术领域，特别地涉及一种基于差分特征的数据聚类方法。

背景技术

随着大数据技术和计算机技术的发展，大量的数据被计算机处理，在数据处理过程中通过聚类分析从大量的数据中发现潜在的内容，目前聚类分析已被广泛应用于图像处理、机器学习等领域。

K均值聚类算法是常用的聚类算法之一，有着简单、快速的优点，在具体的聚类过程中，需要预先设定K个聚类中心，基于各个样本点与K个聚类中心之间的距离对样本数据进行迭代聚类，得到聚类结果。其中，K个聚类中心的设置会对最终的聚类结果产生影响，导致聚类效果不影响。

发明内容

针对上述问题，本申请提供一种基于差分特征的数据聚类方法，在聚类的初期基于差分分析方法对聚类得到的部分信息进行分析处理，基于得到的分析结果对聚类过程进行调整，以增强聚类效果。

本申请的技术方案为：一种基于差分特征的数据聚类方法，包括：

获取待处理数据，待处理数据为基于大数据获取到的文本数据、图像数据或者视频数据中的任一项，对所述待处理数据进行归一化处理，得到样本数据；

预设K个第一聚类中心点，遍历所述样本数据中的所有样本点，基于K个第一聚类中心点将所述样本数据中的所有样本点进行聚类得到K个第一类簇，分别对K个第一类簇进行重新选取聚类中心，得到K个第二聚类中心点，基于K个第二聚类中心点对K个第一聚类中心点进行差分处理，得到一阶差分特征；

遍历K个第一类簇中的所有样本点，基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇，分别对K个第二类簇进行重新选取聚类中心，得到K个第三聚类中心点，基于K个第三聚类中心点对K个第二聚类中心点进行差分处理，得到二阶差分特征；

基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值，根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选，得到M个第一目标聚类中心点；

对于M个第一目标聚类中心点对应的M个第三聚类中心点，分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图，分别对M个样本点分析图进行差分分析，得到M个目标差分特征，基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点，基于第二目标聚类中心点对样本数据进行聚类分析，得到聚类结果。

进一步地，所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理，得到一阶差分特征，包括：

分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离，得到所述一阶差分特征；

所述基于K个第三聚类中心点对K个第二聚类中心点进行差分处理，得到二阶差分特征，包括：

分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离，得到所述二阶差分特征。

进一步地，所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值，包括：

基于所述一阶差分特征和所述二阶差分特征得到K个参考集合，每个参考集合包括分别来源于所述一阶差分特征和所述二阶差分特征的两个欧氏距离值，两个欧氏距离值关联同一个第二聚类中心点；

分别计算K个参考集合中，来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值，得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值。

进一步地，所述根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选，得到M个第一目标聚类中心点包括：

筛除K个第一聚类中心点中，对应参考值小于所述第一预设参考值的第一聚类中心点，对于K个第一聚类中心点中剩余的第一聚类中心点，按照对应参考值从大到小的顺序选取M个第一目标聚类中心点。

进一步地，所述获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图，分别对M个样本点分析图进行差分分析，得到M个目标差分特征，包括：

遍历K个第二类簇中的所有样本点，基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇；

基于M个第三聚类中心点和M个第三类簇分析得到M个第三聚类中心点中每个第三聚类中心点对应的样本点总量随距离变化的样本点分析图，以预设差分步长分别对M个样本点分析图进行差分分析，得到M个目标差分特征。

进一步地，所述以预设差分步长分别对M个样本点分析图进行差分分析，得到M个目标差分特征，包括：

对于M个样本点分析图中的任一样本点分析图，基于所述预设差分步长确定多个距离参考点，每两个相邻距离参考点之间的间距等于所述预设差分步长，对每相邻的两个距离参考点进行差分分析，用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值，得到样本点分析图对应的差分值集合，基于预设临界值对差分值集合进行偏离分析，D=(Q﹒P_min)/P_总，其中，D为偏离值，Q为差分值集合中小于所述预设临界值的差分值的总数，P_min为差分值集合中的差分值最小值，P_总为差分值集合中的差分值的总数，将偏离值作为任一样本点分析图对应的所述目标差分特征，计算得到M个所述目标差分特征。

进一步地，所述基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点包括：

筛选出M个第一目标聚类中心点中所述目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点。

进一步地，所述基于第二目标聚类中心点对样本数据进行聚类分析包括：

基于K均值聚类算法和第二目标聚类中心点对样本数据进行聚类分析。

本申请具有以下优点：

本申请通过对K均值聚类算法初期聚类过程得到的聚类结果进行差分分析得到差分特征，根据差分特征对初始设定的聚类中心进行初次筛选，获取初次筛选得到的聚类中心对应的样本点分析图，对样本点分析图再进行差分分析，根据分析结果对初次筛选得到的聚类中心进行再次筛选，作为最终的聚类中心进行数据聚类，增强聚类效果，减少时间和计算资源的浪费。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本申请实施例中提供的一种基于差分特征的数据聚类方法的流程示意图。

实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请部分实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。然而，本领域的普通技术人员可以理解，在本申请的各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

图1为本申请实施例中提供的一种基于差分特征的数据聚类方法，请参见图1，本方法可具体应用于相关的聚类装置或设备，聚类装置或设备上存储有对应的执行程序，可以想到的是，执行主体也可以有其它的选择，此处不以此为限。

请参见图1，一种基于差分特征的数据聚类方法，包括：

S1、获取待处理数据，对待处理数据进行归一化处理，得到样本数据；

值得说明的是，待处理数据具体可以是需要进行聚类的数据，例如基于大数据技术获取到的与用户相关的文本数据，基于摄像设备拍摄得到的图像数据或视频数据等，通过对待处理数据进行归一化处理得到样本数据，便于后续对数据的使用。

S2、预设K个第一聚类中心点，基于K个第一聚类中心点将样本数据进行聚类得到K个第一类簇，对K个第一类簇重新选取聚类中心得到K个第二聚类中心点；

值得说明的是，在得到样本数据后，基于K均值聚类算法设定K个第一聚类中心点，其中，第一聚类中心点可以根据经验知识和精度需要而进行设定，为了提升精度，可在实际需要达到的精度上适当提升数量，具体作用在下文中进行陈述，在设定K个第一聚类中心点后，分别用K个第一聚类中心点遍历样本数据中的所有样本点，对样本数据进行第一次聚类得到K个第一类簇，对K个第一类簇重新选取得到K个第二聚类中心点。

S3、基于K个第二聚类中心点对K个第一聚类中心点进行差分处理，得到一阶差分特征；

值得说明的是，对K个第一聚类中心点进行差分处理具体为，根据每个第一聚类中心点和对应第二聚类中心点的位置信息，分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离，从而得到一阶差分特征。

S4、基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇，对K个第二类簇重新选取聚类中心得到K个第三聚类中心点；

值得说明的是，采用前述的方法基于K个第二聚类中心点对K个第一类簇对应的数据进行聚类处理，对K个第一类簇中的所有样本点，即样本数据进行第二次聚类，得到K个第二类簇，对K个第二类簇重新聚类中心，得到K个第二聚类中心点。

S5、基于K个第三聚类中心点对K个第二聚类中心点进行差分处理，得到二阶差分特征；

值得说明的是，分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离，从而得到二阶差分特征。

S6、基于一阶差分特征和二阶差分特征分别分析K个第一聚类中心点的参考值，对K个第一聚类中心点进行筛选，得到M个第一目标聚类中心点；

值得说明的是，在该步骤中，参考值的计算过程包括：

根据一阶差分特征和二阶差分特征之间的关联关系建立得到K个参考集合，每个参考集合包括两个欧式距离值，分别来源于一阶差分特征和二阶差分特征的两个欧氏距离值，两个欧氏距离值之间以同一个第二聚类中心点作为关联；

通过下述方式计算得到K个第一聚类中心点的参考值，以任意一个参考集合为例，计算该参考集合中，来源于二阶差分特征的欧氏距离值与来源于一阶差分特征的欧氏距离值的比值，将计算得到的比值作为该参考集合对应的第一聚类中心点对应的参考值，计算得到K个第一聚类中心点的参考值。

根据第一预设参考值和第一聚类中心点对应的参考值从K个第一聚类中心点中筛选得到M个第一目标聚类中心点，对于步骤S2中第一聚类中心点的设定过程，为了提高聚类效果和精度，适当提升设定的第一聚类中心点的数量，在该步骤中对第一聚类中心点进行第一次筛选，提升用于聚类的中心点的价值。

在一种可选的实施方案中，从K个第一聚类中心点中选取得到M个第一目标聚类中心点具体包括：

通过第一预设参考值对K个第一聚类中心点进行初筛，舍去对应参考值小于第一预设参考值的第一聚类中心点，根据参考值从大到小的方式对初筛得到的第一聚类中心点进行排序，对排序好的第一聚类中心点按照对应参考值从大到小的顺序选取得到M个第一目标聚类中心点。

S7、获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图，对M个样本点分析图进行差分分析，得到M个目标差分特征；

具体地，遍历K个第二类簇中的所有样本点，基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇；

值得说明的是，以任意一个第三聚类中心点为例，样本点分析图具体为，以该第三聚类中心点为中心，对于该第三聚类中心点内的所有样本点，随着距离的增大，满足与该第三聚类中心点的距离不大于当前距离的样本点的总量变化关系图。

S8、基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点，基于第二目标聚类中心点对样本数据进行聚类分析，得到聚类结果；

值得说明的是，对M个第一目标聚类中心点进行筛选的方式为，从M个第一目标聚类中心点中筛选出目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点，得到多个第二目标聚类中心点。

在筛选得到多个第二目标聚类中心点后，以多个第二目标聚类中心点作为初始设定的聚类中心点，以K均值聚类算法对样本数据进行聚类分析，得到聚类结果。

在一种可选的实施方案中，对于步骤S7，分别对M个样本点分析图进行差分分析，得到M个目标差分特征，包括：

以M个样本点分析图中的任一样本点分析图为例，基于预设差分步长和样本点分析图中的距离范围确定多个距离参考点，具体地，多个距离参考点中每两个相邻的距离参考点之间的间距等于预设差分步长，对于每相邻的两个距离参考点进行差分分析，具体为用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值，得到每相邻的两个距离参考点对应的差分值；

建立差分值集合，每个样本点分析图对应一个样本点分析图，基于预设临界值对样本点分析图对应的差分值集合进行偏离分析，在本实施例中，以0作为预设临界值，通过如下公式对差分值集合进行偏离分析，得到偏离值：

D=(Q﹒P_min)/P_总；

式中，D为偏离值，Q为差分值集合中小于预设临界值的差分值的总数，P_min为差分值集合中的差分值最小值，P_总为差分值集合中的差分值的总数；

通过上述方式计算出每个样本点分析图对应的目标差分特征，得到M个目标差分特征。

值得说明的是，K均值聚类算法对一些非凸状类簇的聚类效果较差，聚类中心选取不合适的情况下容易导致剧烈效果不理想，通过获取样本点分析图并分析出目标差分特征，可以对初期的聚类中心选取效果就行衡量，从而获得更优质的聚类中心。

在一种更优的实施方案中，在具体使用本申请的过程中，若筛选得到的第二目标聚类中心点的数量不满足预期，即筛选得到的第二目标聚类中心点的数量较少，表示初始设定的第一聚类中心的位置不合适，在这种情况下为了提升聚类效果，可基于经验知识重新选取聚类中心，以免继续使用筛选得到的第二目标聚类中心点进行聚类导致最终的聚类效果不理想，造成时间和计算资源的浪费。

在使用K均值聚类算法进行数据聚类的过程中，初始聚类中心的设定对后续的聚类结果有着较大的影响，可能导致聚类结果为局部最优而不是全局最优，在这种情况下，本申请实施例提供的一种基于差分特征的数据聚类方法，通过对前几次聚类过程得到的聚类结果进行差分分析，根据分析得到的结果对初始设定的聚类中心进行初次筛选，获取初次筛选得到的聚类中心对应的样本点分析图，对样本点分析图进行差分分析，根据分析结果对初次筛选得到的聚类中心进行再次筛选，作为最终的聚类中心进行数据聚类，增强聚类效果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本申请所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于差分特征的数据聚类方法，其特征在于，包括：

对于M个第一目标聚类中心点对应的M个第三聚类中心点，分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图，分别对M个样本点分析图进行差分分析，得到M个目标差分特征，基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点，基于第二目标聚类中心点对样本数据进行聚类分析，得到聚类结果；

所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值，包括：

分别计算K个参考集合中，来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值，得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值；

所述获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图，分别对M个样本点分析图进行差分分析，得到M个目标差分特征，包括：

基于M个第三聚类中心点和M个第三类簇分析得到M个第三聚类中心点中每个第三聚类中心点对应的样本点总量随距离变化的样本点分析图，以预设差分步长分别对M个样本点分析图进行差分分析，得到M个目标差分特征；

所述以预设差分步长分别对M个样本点分析图进行差分分析，得到M个目标差分特征，包括：

对于M个样本点分析图中的任一样本点分析图，基于所述预设差分步长确定多个距离参考点，每两个相邻的距离参考点之间的间距等于所述预设差分步长，对每相邻的两个距离参考点进行差分分析，用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值，得到样本点分析图对应的差分值集合，基于预设临界值对差分值集合进行偏离分析，D=(Q﹒P_min)/P_总，其中，D为偏离值，Q为差分值集合中小于所述预设临界值的差分值的总数，P_min为差分值集合中的差分值最小值，P_总为差分值集合中的差分值的总数，将偏离值作为任一样本点分析图对应的所述目标差分特征，计算得到M个所述目标差分特征。

2.如权利要求1所述的一种基于差分特征的数据聚类方法，其特征在于，所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理，得到一阶差分特征，包括：

3.如权利要求2所述的一种基于差分特征的数据聚类方法，其特征在于，所述根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选，得到M个第一目标聚类中心点包括：

4.如权利要求1所述的一种基于差分特征的数据聚类方法，其特征在于，所述基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点包括：

5.如权利要求1所述的一种基于差分特征的数据聚类方法，其特征在于，所述基于第二目标聚类中心点对样本数据进行聚类分析包括：