CN115618254A

CN115618254A - 一种基于样本相似度的三支聚类方法

Info

Publication number: CN115618254A
Application number: CN202211302581.5A
Authority: CN
Inventors: 李刘万; 王平心; 徐天杰; 凡嘉琛; 吴婷凤
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-17

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于样本相似度的三支聚类方法；本发明所提供的方法，通过随机选择样本部分特征的方法随机生成一组基聚类成员，以此构造样本相似度，然后在样本相似度的基础了定义了划分有效性指标，用来自动计算最优阈值，最后，使用投票法对基聚类成员集成得到初步的聚类结果，再利用最优阈值对其划分，得到最终的核心域集合和边界域集合。所提供的方法具有优异的有效性。

Description

一种基于样本相似度的三支聚类方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于样本相似度的三支聚类方法。

背景技术

聚类是一个把数据对象划分为若干类簇的过程，使得类簇中的对象彼此相似，与其它类簇中的对象不相似。聚类是一个无监督的学习过程，现实中存在大量的无标签数据，需要无监督算法去学习和发现这些无标签数据的潜在模式与规律，多年来，聚类已在目标检索、数据挖掘、生物医学等研究领域得到广泛应用。

三支聚类是三支决策理论的重要应用，可以有效解决传统二支聚类算法中因信息不完整或者数据不足而导致分区不准确的问题。与二支聚类算法相比，三支聚类引入了不确定样本的边缘区域的概念，聚类结果主要受聚类数量和阈值的影响，在现有的工作中，人们通常根据专家意见选择合适的类簇数量，并在三支决策的迭代中为所有数据选择相同的常数阈值，然而这种固定阈值和类簇数量的选择并不能很好地表明类簇与数据集之间的差异，尤其是对于不同大小和密度的数据集。

综上所述，研发一种基于样本相似度的三支聚类方法，是数据处理技术领域中急需解决的关键问题。

发明内容

针对现有技术所存在的上述缺点，本发明在于提供一种基于样本相似度的三支聚类方法，所提供的方法具有优异的有效性。

为实现上述目的，本发明提供了如下技术方案：

本发明提供了一种基于样本相似度的三支聚类方法，包括以下步骤：

(1)通过随机选择样本部分特征的方式，随机生成一组基聚类成员，以此构造样本相似度；

(2)在样本相似度的基础了定义划分有效性指标，用划分有效性指标来自动计算最优阈值；

(3)使用投票法对基聚类成员集成得到初步的聚类结果，再利用最优阈值对其划分，得到最终的核心域集合和边界域集合。

本发明进一步的设置为：在步骤(1)中，构造样本相似度的过程如下：

假设U＝{x₁，x₂，x₃，...，x_n}表示数据有n个样本，使用k-means聚类方法，通过每次随机选择部分属性来进行聚类，得到一组聚类结果Π＝{C₁，C₂，C₃，...，C_n}；

以此聚类结果构建关系矩阵，即样本相似度：

式中，L表示不同的聚类结果，x_i和y_i表示样本中的两个点，C_l(x_i)表示第l个聚类结果中的点x_i所在的类簇编号，其中，

本发明进一步的设置为：在步骤(2)中，划分有效性指标的定义过程如下：

假设U＝{x₁，x₂，x₃，...，x_n}，对于一个样本子集

它的划分有效性指标为：

式中，

表示属于目标子集X及其边界域内的样本数与X中的样本数之比。

本发明进一步的设置为：在步骤(2)中，用划分有效性指标来自动计算最优阈值的过程如下：

计算样本相似度，步长为Δ的最小值S_min和最大值S_man构成候选阈值空间；

对于每个候选阈值，计算目标子集X对应的核心域和边界域，得到当前的划分有效性指标PVI；

输出当前达到最大PVI值的阈值作为最优阈值。

本发明进一步的设置为：在步骤(3)中，使用投票法对基聚类成员集成得到初步的聚类结果，再利用最优阈值对其划分，得到最终的核心域集合和边界域集合，其具体过程如下：

假设基聚类成员

其中，1≤i，j≤H，将两个划分中每一个类簇

其中1≤k₁，k₁≤k₂所覆盖的相同对象的个数记录在K×K的OVERLAP矩阵中；

选择其中覆盖相同对象个数最大的类簇标签建立对应关系，并将结果从OVERLAP矩阵中移除；

重复以上过程，直到所有的类簇标签都建立了对应关系为止；

再标签匹配，并使用投票法对基聚类结果集成，从而得到初步的聚类结果；

在得到初步聚类结果的每一个样本子集上应用公式

从而找到一组最佳阈值；

以此划分找出每个样本子集的核心域和边界域即最终的聚类结果。

本发明进一步的设置为：所述标签匹配是指当存在两个及以上类簇标签对应时，则随机选取某个类簇标签作为匹配。

有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

本发明所提供的方法，通过随机选择样本部分特征的方法随机生成一组基聚类成员，以此构造样本相似度，然后在样本相似度的基础了定义了划分有效性指标，用来自动计算最优阈值，最后，使用投票法对基聚类成员集成得到初步的聚类结果，再利用最优阈值对其划分，得到最终的核心域集合和边界域集合。所提供的方法具有优异的有效性。

附图说明

图1为本发明一种基于样本相似度的三支聚类方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例：

如图1所示，本发明提供了一种基于样本相似度的三支聚类方法，包括以下步骤：

(1)通过随机选择样本部分特征的方式，随机生成一组基聚类成员，以此构造样本相似度。

进一步的，构造样本相似度的过程如下：

以此聚类结果构建关系矩阵，即样本相似度：

在本步骤中，需要说明的是，如上所述，样本相似度是样本之间相似程度的指标值越大，两个样本就越相似。

(2)在样本相似度的基础了定义划分有效性指标，用划分有效性指标来自动计算最优阈值。

进一步的，划分有效性指标的定义过程如下：

假设U＝{x₁，x₂，x₃，...，x_n}，对于一个样本子集

它的划分有效性指标为：

式中，

其中，用划分有效性指标来自动计算最优阈值的过程如下：

输出当前达到最大PVI值的阈值作为最优阈值。

在本步骤中，需要说明的是，在三支聚类问题中，更倾向于得到一个分类误差较低的分区，并将不确定性样本放在边界域来进行延迟决策，这样在增加边界域的同时也带来了增加粗糙度的问题，因此可以通过最小化粗糙度来限制边界域太大，对于划分有效性指标，无论是边界域最大化还是粗糙度最小，其值都趋于0，因此选择最大的值作为粗糙度和边界域大小之间的平衡点，以此达到更好的聚类效果。因此，可以把此问题转化为阈值选择的优化问题，其中最大的由最优阈值决定。

进一步的，使用投票法对基聚类成员集成得到初步的聚类结果，再利用最优阈值对其划分，得到最终的核心域集合和边界域集合，其具体过程如下：

假设基聚类成员

其中，1≤i，j≤H，将两个划分中每一个类簇

在得到初步聚类结果的每一个样本子集上应用公式

从而找到一组最佳阈值；

更进一步的，标签匹配是指当存在两个及以上类簇标签对应时，则随机选取某个类簇标签作为匹配。

在本步骤中，本发明所提出的算法使用样本的部分特征来获得基聚类结果，对于一个给定的具有m个特征的数据集，随机抽取部分特征，使用传统的聚类算法得到聚类结果，不同的特征会导致不同的聚类结果，重复上述过程t次，得到基聚类成员C′₁，C′₂，...，C′_t。

不同的基聚类成员得到的数据划分结果，一般会存在这样的情形，比如：[1,1,2,2,3,3],[2,2,3,3,1,1],[3,3,2,2,1,1]，虽然这三个基聚类成员的划分结果不一样，但是它们所表征的聚类结果是一样的,具有对应关系的两个类簇所覆盖的共同元素的数量应该是最大的，因此，需要采用上述方法对基聚类结果进行标签匹配。

性能检测：

聚类性能评价指标：

(一)准确率(ACC)：是一种常见的评价聚类结果好坏的外部指标，根据预测的结果与真实值做对比，此值越高说明聚类效果越好。其公式为：

式中，N表示总样本个数，C_i表示正确划分到类i的样本个数，k表示聚类数，本发明的三支聚类算法实验所计算的是使用核心域的对象来计算的。

(二)标准化互信息(NMI)：互信息和熵是信息论的两个核心概念，互信息用于衡量两个信息之间的相关性，此值越高说明聚类效果越好。

式中，X是测试标签，Y是真实标签，H(X)和H(Y)分别代表X和Y的熵，I(X，Y)是X和Y之间的互信息。

(三)调整兰德指数(ARI)：

式中，a表示属于同一类的样本最后被分到同一类中的样本总数；b表示不属于同一类的样本并且最后没有分到同一类中的样本总数；c表示属于同一类但最后没有被分到同一类的样本总数；d表示不属于同一类但最后被分到同一类的样本总数。此值越高说明聚类效果越好。

选取8组常见的UCI数据集，数据集的具体描述如表1所示。

表1：数据集描述

采用k-means算法、FCM算法、TWC算法与本发明所提供的算法进行比较。对每组数据集进行50次聚类集成，每次聚类时随机提取特征的百分比设置为70％，最后的实验结果如表2所示。

表2：UCI数据集上的结果

从表2的实验结果可以看出，与k-means算法、FCM算法和TWC算法相比，本发明所提供的算法明显提高了ACC、NMI和ARI的值。因此，本发明所提出的算法能有效提高聚类精度更好，更好地显示聚类结果。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。