CN115618254A - 一种基于样本相似度的三支聚类方法 - Google Patents

一种基于样本相似度的三支聚类方法 Download PDF

Info

Publication number
CN115618254A
CN115618254A CN202211302581.5A CN202211302581A CN115618254A CN 115618254 A CN115618254 A CN 115618254A CN 202211302581 A CN202211302581 A CN 202211302581A CN 115618254 A CN115618254 A CN 115618254A
Authority
CN
China
Prior art keywords
clustering
sample similarity
sample
threshold value
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211302581.5A
Other languages
English (en)
Inventor
李刘万
王平心
徐天杰
凡嘉琛
吴婷凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202211302581.5A priority Critical patent/CN115618254A/zh
Publication of CN115618254A publication Critical patent/CN115618254A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于样本相似度的三支聚类方法;本发明所提供的方法,通过随机选择样本部分特征的方法随机生成一组基聚类成员,以此构造样本相似度,然后在样本相似度的基础了定义了划分有效性指标,用来自动计算最优阈值,最后,使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合。所提供的方法具有优异的有效性。

Description

一种基于样本相似度的三支聚类方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于样本相似度的三支聚类方法。
背景技术
聚类是一个把数据对象划分为若干类簇的过程,使得类簇中的对象彼此相似,与其它类簇中的对象不相似。聚类是一个无监督的学习过程,现实中存在大量的无标签数据,需要无监督算法去学习和发现这些无标签数据的潜在模式与规律,多年来,聚类已在目标检索、数据挖掘、生物医学等研究领域得到广泛应用。
三支聚类是三支决策理论的重要应用,可以有效解决传统二支聚类算法中因信息不完整或者数据不足而导致分区不准确的问题。与二支聚类算法相比,三支聚类引入了不确定样本的边缘区域的概念,聚类结果主要受聚类数量和阈值的影响,在现有的工作中,人们通常根据专家意见选择合适的类簇数量,并在三支决策的迭代中为所有数据选择相同的常数阈值,然而这种固定阈值和类簇数量的选择并不能很好地表明类簇与数据集之间的差异,尤其是对于不同大小和密度的数据集。
综上所述,研发一种基于样本相似度的三支聚类方法,是数据处理技术领域中急需解决的关键问题。
发明内容
针对现有技术所存在的上述缺点,本发明在于提供一种基于样本相似度的三支聚类方法,所提供的方法具有优异的有效性。
为实现上述目的,本发明提供了如下技术方案:
本发明提供了一种基于样本相似度的三支聚类方法,包括以下步骤:
(1)通过随机选择样本部分特征的方式,随机生成一组基聚类成员,以此构造样本相似度;
(2)在样本相似度的基础了定义划分有效性指标,用划分有效性指标来自动计算最优阈值;
(3)使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合。
本发明进一步的设置为:在步骤(1)中,构造样本相似度的过程如下:
假设U={x1,x2,x3,...,xn}表示数据有n个样本,使用k-means聚类方法,通过每次随机选择部分属性来进行聚类,得到一组聚类结果Π={C1,C2,C3,...,Cn};
以此聚类结果构建关系矩阵,即样本相似度:
Figure BDA0003904621260000021
式中,L表示不同的聚类结果,xi和yi表示样本中的两个点,Cl(xi)表示第l个聚类结果中的点xi所在的类簇编号,其中,
Figure BDA0003904621260000022
本发明进一步的设置为:在步骤(2)中,划分有效性指标的定义过程如下:
假设U={x1,x2,x3,...,xn},对于一个样本子集
Figure BDA0003904621260000035
它的划分有效性指标为:
Figure BDA0003904621260000031
式中,
Figure BDA0003904621260000032
表示属于目标子集X及其边界域内的样本数与X中的样本数之比。
本发明进一步的设置为:在步骤(2)中,用划分有效性指标来自动计算最优阈值的过程如下:
计算样本相似度,步长为Δ的最小值Smin和最大值Sman构成候选阈值空间;
对于每个候选阈值,计算目标子集X对应的核心域和边界域,得到当前的划分有效性指标PVI;
输出当前达到最大PVI值的阈值作为最优阈值。
本发明进一步的设置为:在步骤(3)中,使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合,其具体过程如下:
假设基聚类成员
Figure BDA0003904621260000033
其中,1≤i,j≤H,将两个划分中每一个类簇
Figure BDA0003904621260000034
其中1≤k1,k1≤k2所覆盖的相同对象的个数记录在K×K的OVERLAP矩阵中;
选择其中覆盖相同对象个数最大的类簇标签建立对应关系,并将结果从OVERLAP矩阵中移除;
重复以上过程,直到所有的类簇标签都建立了对应关系为止;
再标签匹配,并使用投票法对基聚类结果集成,从而得到初步的聚类结果;
在得到初步聚类结果的每一个样本子集上应用公式
Figure BDA0003904621260000041
从而找到一组最佳阈值;
以此划分找出每个样本子集的核心域和边界域即最终的聚类结果。
本发明进一步的设置为:所述标签匹配是指当存在两个及以上类簇标签对应时,则随机选取某个类簇标签作为匹配。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
本发明所提供的方法,通过随机选择样本部分特征的方法随机生成一组基聚类成员,以此构造样本相似度,然后在样本相似度的基础了定义了划分有效性指标,用来自动计算最优阈值,最后,使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合。所提供的方法具有优异的有效性。
附图说明
图1为本发明一种基于样本相似度的三支聚类方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例:
如图1所示,本发明提供了一种基于样本相似度的三支聚类方法,包括以下步骤:
(1)通过随机选择样本部分特征的方式,随机生成一组基聚类成员,以此构造样本相似度。
进一步的,构造样本相似度的过程如下:
假设U={x1,x2,x3,...,xn}表示数据有n个样本,使用k-means聚类方法,通过每次随机选择部分属性来进行聚类,得到一组聚类结果Π={C1,C2,C3,...,Cn};
以此聚类结果构建关系矩阵,即样本相似度:
Figure BDA0003904621260000051
式中,L表示不同的聚类结果,xi和yi表示样本中的两个点,Cl(xi)表示第l个聚类结果中的点xi所在的类簇编号,其中,
Figure BDA0003904621260000052
在本步骤中,需要说明的是,如上所述,样本相似度是样本之间相似程度的指标值越大,两个样本就越相似。
(2)在样本相似度的基础了定义划分有效性指标,用划分有效性指标来自动计算最优阈值。
进一步的,划分有效性指标的定义过程如下:
假设U={x1,x2,x3,...,xn},对于一个样本子集
Figure BDA0003904621260000063
它的划分有效性指标为:
Figure BDA0003904621260000061
式中,
Figure BDA0003904621260000062
表示属于目标子集X及其边界域内的样本数与X中的样本数之比。
其中,用划分有效性指标来自动计算最优阈值的过程如下:
计算样本相似度,步长为Δ的最小值Smin和最大值Sman构成候选阈值空间;
对于每个候选阈值,计算目标子集X对应的核心域和边界域,得到当前的划分有效性指标PVI;
输出当前达到最大PVI值的阈值作为最优阈值。
在本步骤中,需要说明的是,在三支聚类问题中,更倾向于得到一个分类误差较低的分区,并将不确定性样本放在边界域来进行延迟决策,这样在增加边界域的同时也带来了增加粗糙度的问题,因此可以通过最小化粗糙度来限制边界域太大,对于划分有效性指标,无论是边界域最大化还是粗糙度最小,其值都趋于0,因此选择最大的值作为粗糙度和边界域大小之间的平衡点,以此达到更好的聚类效果。因此,可以把此问题转化为阈值选择的优化问题,其中最大的由最优阈值决定。
(3)使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合。
进一步的,使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合,其具体过程如下:
假设基聚类成员
Figure BDA0003904621260000071
其中,1≤i,j≤H,将两个划分中每一个类簇
Figure BDA0003904621260000072
其中1≤k1,k1≤k2所覆盖的相同对象的个数记录在K×K的OVERLAP矩阵中;
选择其中覆盖相同对象个数最大的类簇标签建立对应关系,并将结果从OVERLAP矩阵中移除;
重复以上过程,直到所有的类簇标签都建立了对应关系为止;
再标签匹配,并使用投票法对基聚类结果集成,从而得到初步的聚类结果;
在得到初步聚类结果的每一个样本子集上应用公式
Figure BDA0003904621260000073
从而找到一组最佳阈值;
以此划分找出每个样本子集的核心域和边界域即最终的聚类结果。
更进一步的,标签匹配是指当存在两个及以上类簇标签对应时,则随机选取某个类簇标签作为匹配。
在本步骤中,本发明所提出的算法使用样本的部分特征来获得基聚类结果,对于一个给定的具有m个特征的数据集,随机抽取部分特征,使用传统的聚类算法得到聚类结果,不同的特征会导致不同的聚类结果,重复上述过程t次,得到基聚类成员C′1,C′2,...,C′t
不同的基聚类成员得到的数据划分结果,一般会存在这样的情形,比如:[1,1,2,2,3,3],[2,2,3,3,1,1],[3,3,2,2,1,1],虽然这三个基聚类成员的划分结果不一样,但是它们所表征的聚类结果是一样的,具有对应关系的两个类簇所覆盖的共同元素的数量应该是最大的,因此,需要采用上述方法对基聚类结果进行标签匹配。
性能检测:
聚类性能评价指标:
(一)准确率(ACC):是一种常见的评价聚类结果好坏的外部指标,根据预测的结果与真实值做对比,此值越高说明聚类效果越好。其公式为:
Figure BDA0003904621260000081
式中,N表示总样本个数,Ci表示正确划分到类i的样本个数,k表示聚类数,本发明的三支聚类算法实验所计算的是使用核心域的对象来计算的。
(二)标准化互信息(NMI):互信息和熵是信息论的两个核心概念,互信息用于衡量两个信息之间的相关性,此值越高说明聚类效果越好。
Figure BDA0003904621260000082
式中,X是测试标签,Y是真实标签,H(X)和H(Y)分别代表X和Y的熵,I(X,Y)是X和Y之间的互信息。
(三)调整兰德指数(ARI):
Figure BDA0003904621260000083
式中,a表示属于同一类的样本最后被分到同一类中的样本总数;b表示不属于同一类的样本并且最后没有分到同一类中的样本总数;c表示属于同一类但最后没有被分到同一类的样本总数;d表示不属于同一类但最后被分到同一类的样本总数。此值越高说明聚类效果越好。
选取8组常见的UCI数据集,数据集的具体描述如表1所示。
表1:数据集描述
Figure BDA0003904621260000091
采用k-means算法、FCM算法、TWC算法与本发明所提供的算法进行比较。对每组数据集进行50次聚类集成,每次聚类时随机提取特征的百分比设置为70%,最后的实验结果如表2所示。
表2:UCI数据集上的结果
Figure BDA0003904621260000092
Figure BDA0003904621260000101
从表2的实验结果可以看出,与k-means算法、FCM算法和TWC算法相比,本发明所提供的算法明显提高了ACC、NMI和ARI的值。因此,本发明所提出的算法能有效提高聚类精度更好,更好地显示聚类结果。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于样本相似度的三支聚类方法,其特征在于,包括以下步骤:
(1)通过随机选择样本部分特征的方式,随机生成一组基聚类成员,以此构造样本相似度;
(2)在样本相似度的基础了定义划分有效性指标,用划分有效性指标来自动计算最优阈值;
(3)使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合。
2.根据权利要求1所述的一种基于样本相似度的三支聚类方法,其特征在于,在步骤(1)中,构造样本相似度的过程如下:
假设U={x1,x2,x3,...,xn}表示数据有n个样本,使用k-means聚类方法,通过每次随机选择部分属性来进行聚类,得到一组聚类结果Π={C1,C2,C3,...,Cn};
以此聚类结果构建关系矩阵,即样本相似度:
Figure FDA0003904621250000011
式中,L表示不同的聚类结果,xi和yi表示样本中的两个点,Cl(xi)表示第l个聚类结果中的点xi所在的类簇编号,其中,
Figure FDA0003904621250000012
3.根据权利要求1所述的一种基于样本相似度的三支聚类方法,其特征在于,在步骤(2)中,划分有效性指标的定义过程如下:
假设U={x1,x2,x3,...,xn},对于一个样本子集
Figure FDA0003904621250000013
它的划分有效性指标为:
Figure FDA0003904621250000021
式中,0≤PVIα(X)≤1,
Figure FDA0003904621250000022
表示属于目标子集X及其边界域内的样本数与X中的样本数之比。
4.根据权利要求1所述的一种基于样本相似度的三支聚类方法,其特征在于,在步骤(2)中,用划分有效性指标来自动计算最优阈值的过程如下:
计算样本相似度,步长为Δ的最小值Smin和最大值Sman构成候选阈值空间;
对于每个候选阈值,计算目标子集X对应的核心域和边界域,得到当前的划分有效性指标PVI;
输出当前达到最大PVI值的阈值作为最优阈值。
5.根据权利要求1所述的一种基于样本相似度的三支聚类方法,其特征在于,在步骤(3)中,使用投票法对基聚类成员集成得到初步的聚类结果,再利用最优阈值对其划分,得到最终的核心域集合和边界域集合,其具体过程如下:
假设基聚类成员
Figure FDA0003904621250000023
其中,1≤i,j≤H,将两个划分中每一个类簇
Figure FDA0003904621250000024
其中1≤k1,k1≤k2所覆盖的相同对象的个数记录在K×K的OVERLAP矩阵中;
选择其中覆盖相同对象个数最大的类簇标签建立对应关系,并将结果从OVERLAP矩阵中移除;
重复以上过程,直到所有的类簇标签都建立了对应关系为止;
再标签匹配,并使用投票法对基聚类结果集成,从而得到初步的聚类结果;
在得到初步聚类结果的每一个样本子集上应用公式
Figure FDA0003904621250000031
从而找到一组最佳阈值;
以此划分找出每个样本子集的核心域和边界域即最终的聚类结果。
6.根据权利要求5所述的一种基于样本相似度的三支聚类方法,其特征在于,所述标签匹配是指当存在两个及以上类簇标签对应时,则随机选取某个类簇标签作为匹配。
CN202211302581.5A 2022-10-24 2022-10-24 一种基于样本相似度的三支聚类方法 Withdrawn CN115618254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211302581.5A CN115618254A (zh) 2022-10-24 2022-10-24 一种基于样本相似度的三支聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211302581.5A CN115618254A (zh) 2022-10-24 2022-10-24 一种基于样本相似度的三支聚类方法

Publications (1)

Publication Number Publication Date
CN115618254A true CN115618254A (zh) 2023-01-17

Family

ID=84864377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211302581.5A Withdrawn CN115618254A (zh) 2022-10-24 2022-10-24 一种基于样本相似度的三支聚类方法

Country Status (1)

Country Link
CN (1) CN115618254A (zh)

Similar Documents

Publication Publication Date Title
Chen et al. KNN-BLOCK DBSCAN: Fast clustering for large-scale data
Unnikrishnan et al. Toward objective evaluation of image segmentation algorithms
CN106570178B (zh) 一种基于图聚类的高维文本数据特征选择方法
CN103942562B (zh) 基于多分类器组合的高光谱图像分类方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN109934278B (zh) 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN115410026A (zh) 基于标签传播对比半监督学习的图像分类方法与系统
Cord et al. Feature selection in robust clustering based on Laplace mixture
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN113298184B (zh) 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
KR101584883B1 (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
Suresh et al. Data clustering using multi-objective differential evolution algorithms
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
Islam et al. Automatic categorization of image regions using dominant color based vector quantization
CN115618254A (zh) 一种基于样本相似度的三支聚类方法
Jena et al. Elitist TLBO for identification and verification of plant diseases
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
Bai et al. A Graph-based Approach to Estimating the Number of Clusters
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法
CN113722607B (zh) 一种基于改进聚类的托攻击检测方法
Nikbakhsh et al. A new fast method of image segmentation fusion using maximum mutual information
Zhang et al. Distributed dimensionality reduction of industrial data based on clustering
CN110298382B (zh) 一种基于ifcm、knn和数据字典的集成tsk模糊分类器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230117