CN110097072A - 一种基于二分模块度的模糊聚类评价方法 - Google Patents

一种基于二分模块度的模糊聚类评价方法 Download PDF

Info

Publication number
CN110097072A
CN110097072A CN201910205966.1A CN201910205966A CN110097072A CN 110097072 A CN110097072 A CN 110097072A CN 201910205966 A CN201910205966 A CN 201910205966A CN 110097072 A CN110097072 A CN 110097072A
Authority
CN
China
Prior art keywords
cluster
degree
sub
membership
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910205966.1A
Other languages
English (en)
Other versions
CN110097072B (zh
Inventor
刘永利
韩光伟
郭倩倩
陈敬丽
杨合超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN201910205966.1A priority Critical patent/CN110097072B/zh
Publication of CN110097072A publication Critical patent/CN110097072A/zh
Application granted granted Critical
Publication of CN110097072B publication Critical patent/CN110097072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于二分模块度的模糊聚类评价方法,将类内紧致性、类间分离性与二分模块度融合在一起,用于确定模糊C均值聚类算法的最优分类结果。该指标结合类内紧致性与类间分离性,增强了指标的鲁棒性,且能够准确检测最佳类簇数目,提高了评估聚类结果的准确率。

Description

一种基于二分模块度的模糊聚类评价方法
技术领域
本发明涉及一种聚类评价方法,具体地,涉及一种基于二分模块度的模糊聚类评价方法,属于数据挖掘领域。
背景技术
作为数据挖掘的关键技术之一,聚类能够将一组样本划分为多个簇,使得同簇内元素之间的相似度尽可能高,而不同簇元素之间的相似度尽可能低。
以FCM(Fuzzy C Means)算法为代表的模糊聚类将隶属度的取值模糊化,允许一个样本以不同概率隶属于多个簇,更符合人们对样本分布规律的认知,因此模糊聚类研究历久弥新。迄今为止,为数众多的模糊聚类算法在准确率、效率、鲁棒性等方面不断取得进步,有效促进了数据挖掘研究的发展;与此同时,用以评估模糊聚类质量或性能的有效性指标在算法研究中不可或缺,其重要性日益凸显。
迄今为止,关于聚类有效性指标的研究成果较为丰富。广泛使用的一些有效性指标如PC、PE和MPC等过于依赖于FCM算法产生的隶属度,且由于FCM算法本身对噪声点和离群值较为敏感,因此旨在增强鲁棒性的有效性指标相继被提出,但在准确率方面还有待提高。
发明内容
为解决现有技术中存在的问题,本发明提出了一种基于二分模块度的模糊聚类评价方法,具体地,该方法包括以下步骤:
(1)将FCM算法在给定数据集上运行,得到第i个数据点对第c个簇的隶属度uci,i=1,2…,N,c=1,2…C,N为样本个数,C为簇数;
(2)计算类内紧致性,对每个数据点,计算其对所有簇隶属度的平方和比较所有数据点的结果,得到最大值umax;对每个数据点,计算所有数据点对所有簇隶属度的平方和与最大值的比值;
(3)计算类间分离性,对每个数据点和其属于两个不同簇的隶属度,设置阈值To排除噪声点和簇边界上的离群值;运行FCM算法获得模糊隶属度矩阵,计算所有数据点对所有簇的分离度之和;
(4)计算二分模块度,利用FCM算法得到的C个聚类中心和原始数据点构建一个加权二分网络,模糊隶属度uci表示其加权边的权值;
(5)在划分系数PC(Partition Coefficient)的基础上,比较N个样本属于各个簇的隶属度平方之和得出其最大值umax,再计算与umax的比值得类内紧致性,根据属于不同模糊簇的隶属度uci与阈值To的关系计算任意两个簇之间的类间分离性,将二者与二分模块度进行适当的加减运算,得到新指标,且新指标的值越大,表示聚类结果越好。
尤其在步骤(2)中,类内紧致性为uci表示第i个数据点对第c个簇的隶属度,N和C分别代表数据点和聚类结果簇的个数。
进一步地,在步骤(3)中,类间分离性为a和b分别代表两个不同的簇,用于排除噪声点和簇边界上的离群值。
进一步地,在步骤(4)中,应用于二分网络中的二分模块度为 分别表示两个不同方向VX→VY和VY→VX上连接Vl和Vp两种类型顶点的所有边数,分别表示的行和。
进一步地,在步骤(5)中,新的模糊聚类评价方法的目标函数为:CSBM=(C-1)1/C×(NC-SEP+QB)/2。
本发明基于二分模块度,结合类内紧致性和类间分离性,提出一种新的模糊聚类评价方法,既增强了指标的鲁棒性,又提高了确定最优分类数的准确率,即提高了评估聚类结果的准确率。
具体实施方式
一种基于二分模块度的模糊聚类评价方法,包括以下步骤:
(1)将FCM算法在一个数据点个数为N的数据集上运行,得到C个聚类结果簇和第i个数据点对第c个簇的隶属度矩阵uci(i=1,2…,N;c=1,2…C);
(2)计算类内紧致性,对每个数据点,计算其对所有簇隶属度的平方和uc 2 i,比较所有数据点的结果,得到最大值umax。对所有数据点,计算其对所有簇隶属度的平方和与最大值的比值;
(3)计算类间分离性,利用每个数据点对两个不同簇的隶属度,设置阈值To排除噪声点和簇边界上的离群值。运行FCM算法获得的模糊隶属度矩阵中,所有数据点对所有簇的分离度之和;
(4)计算二分模块度,利用FCM算法得到的C个聚类中心和原始数据集构建一个加权二分网络,模糊隶属度uci表示其加权边的权值。将该二分网络划分为LX个X顶点社区VX和LY个Y顶点社区VY,其中的每条边都连接两个不同类型的顶点Vl和Vp,即(Vl∈VX∧Vp∈VY)∨(Vl∈VY∧Vp∈VX),则该二分网络的二分模块度可表示为两个方向上二分模块度之和,即
(5)将类内紧致性、类间分离性和二分模块度结合在一起,得到新指标的值。
在步骤(5)中,新的模糊聚类有效性指标的目标函数为:CSBM=(C-1)1/C×(NC-SEP+QB)/2,其中代表类内紧致性,uci表示第i个数据点对第c个簇的隶属度,N和C分别代表数据点和聚类结果簇的个数。代表类间分离性,a和b分别代表两个不同的簇,用于排除噪声点和簇边界上的离群值。表示应用于二分网络中的二分模块度,分别表示两个不同方向VX→VY和VY→VX上连接Vl和Vp两种类型顶点的所有边数,分别表示的行和。
类内紧致性由运行FCM算法得到的模糊隶属度矩阵和簇心定义,其值越大,表示类内数据点的相似度越高,划分效果越好;类间分离性由不同模糊集之间的距离定义,其值越小,表示不同簇中数据点的相似度越低,划分效果越好。
模块度最初用于评价单部网络中社区划分的质量,而现实世界中事物之间的联系多以二分网络的形式存在,且不同于单部网络中顶点之间的一对一关系,复杂二分网络比如作者-论文网络、演员-电影网络等,其顶点之间的关系更倾向于一对多或多对多,评价此类二分网络的社区划分结果则需用二分模块度。
本发明使用Murata改进过的二分模块度,将二分网络中所有顶点划分成两种不同类型的顶点集合VX和VY,应用于FCM算法中分别对应簇心和样本点。对于分别来自两个集合的点Vl和Vp,从两个方向上(Vl∈VX∧Vp∈VY)∨(Vl∈VY∧Vp∈VX)计算二分模块度,使社区划分结果更加准确。
本发明在数据集上运行FCM算法,利用得到的簇心和原始数据点构建加权二分网络,权值由隶属度表示,计算二分模块度,并结合类内紧致性和类间分离性,提出一种新的有效的模糊聚类评价方法,并在每个数据集中均加入10%比例的噪声数据进行实验,结果证明,该指标在预测类簇数目的准确率以及鲁棒性方面表现最优。

Claims (5)

1.一种基于二分模块度的模糊聚类评价方法,其特征在于:该方法包括以下步骤:
(1)将FCM算法在给定数据集上运行,得到第i个数据点对第c个簇的隶属度uci,i=1,2…,N,c=1,2…C,N为样本个数,C为簇数;
(2)计算类内紧致性,对每个数据点,计算其对所有簇隶属度的平方和uc 2 i,比较所有数据点的结果,得到最大值umax;对每个数据点,计算所有数据点对所有簇隶属度的平方和与最大值的比值;
(3)计算类间分离性,对每个数据点和其属于两个不同簇的隶属度,设置阈值To排除噪声点和簇边界上的离群值;运行FCM算法获得模糊隶属度矩阵,计算所有数据点对所有簇的分离度之和;
(4)计算二分模块度,利用FCM算法得到的C个聚类中心和原始数据点构建一个加权二分网络,模糊隶属度uci表示其加权边的权值;
(5)在划分系数PC的基础上,比较N个样本属于各个簇的隶属度平方之和得出其最大值umax,再计算与umax的比值得类内紧致性,根据属于不同模糊簇的隶属度uci与阈值To的关系计算任意两个簇之间的类间分离性,将二者与二分模块度进行适当的加减运算,得到新指标,且新指标的值越大,表示聚类结果越好。
2.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(2)中,类内紧致性为uci表示第i个数据点对第c个簇的隶属度,N和C分别代表数据点和聚类结果簇的个数。
3.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(3)中,类间分离性为a和b分别代表两个不同的簇,用于排除噪声点和簇边界上的离群值。
4.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(4),应用于二分网络中的二分模块度为 分别表示两个不同方向VX→VY和VY→VX上连接Vl和Vp两种类型顶点的所有边数,分别表示的行和。
5.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(5)中,新的模糊聚类评价方法的目标函数为:CSBM=(C-1)1/C×(NC-SEP+QB)/2。
CN201910205966.1A 2019-03-19 2019-03-19 一种基于二分模块度的模糊聚类评价方法 Active CN110097072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910205966.1A CN110097072B (zh) 2019-03-19 2019-03-19 一种基于二分模块度的模糊聚类评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910205966.1A CN110097072B (zh) 2019-03-19 2019-03-19 一种基于二分模块度的模糊聚类评价方法

Publications (2)

Publication Number Publication Date
CN110097072A true CN110097072A (zh) 2019-08-06
CN110097072B CN110097072B (zh) 2022-10-04

Family

ID=67443255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910205966.1A Active CN110097072B (zh) 2019-03-19 2019-03-19 一种基于二分模块度的模糊聚类评价方法

Country Status (1)

Country Link
CN (1) CN110097072B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680719A (zh) * 2020-05-15 2020-09-18 南昌大学 一种基于距离平方和差值比的聚类有效性评估方法
CN112750502A (zh) * 2021-01-18 2021-05-04 中南大学 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US6049797A (en) * 1998-04-07 2000-04-11 Lucent Technologies, Inc. Method, apparatus and programmed medium for clustering databases with categorical attributes
CN105868791A (zh) * 2016-04-15 2016-08-17 上海交通大学 基于模糊聚类的多分辨率社区发现方法
CN107220977A (zh) * 2017-06-06 2017-09-29 合肥工业大学 基于模糊聚类的有效性指标的图像分割方法
CN107330442A (zh) * 2017-05-25 2017-11-07 河南理工大学 一种结合类内紧致性和类间分离性的增量模糊聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US6049797A (en) * 1998-04-07 2000-04-11 Lucent Technologies, Inc. Method, apparatus and programmed medium for clustering databases with categorical attributes
CN105868791A (zh) * 2016-04-15 2016-08-17 上海交通大学 基于模糊聚类的多分辨率社区发现方法
CN107330442A (zh) * 2017-05-25 2017-11-07 河南理工大学 一种结合类内紧致性和类间分离性的增量模糊聚类方法
CN107220977A (zh) * 2017-06-06 2017-09-29 合肥工业大学 基于模糊聚类的有效性指标的图像分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟令奎等: "基于模糊划分测度的聚类有效性指标", 《计算机工程》 *
蒋盛益等: "基于二阶段聚类的重叠社区发现算法", 《模式识别与人工智能》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680719A (zh) * 2020-05-15 2020-09-18 南昌大学 一种基于距离平方和差值比的聚类有效性评估方法
CN112750502A (zh) * 2021-01-18 2021-05-04 中南大学 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法

Also Published As

Publication number Publication date
CN110097072B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN108304668B (zh) 一种结合水文过程数据和历史先验数据的洪水预测方法
CN105528588B (zh) 一种车道线识别方法及装置
CN109800778A (zh) 一种基于难分样本挖掘的Faster RCNN目标检测方法
CN103888541B (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN102413029B (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
CN105740651B (zh) 一种特定癌症差异表达基因调控网络的构建方法
CN103473786B (zh) 基于多目标模糊聚类的灰度图像分割方法
CN101923652B (zh) 一种基于肤色和特征部位联合检测的色情图片识别方法
CN105138970B (zh) 基于空间信息的极化sar图像分类方法
CN103488993B (zh) 一种基于fast的人群异常行为识别方法
CN102956023B (zh) 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法
CN110992341A (zh) 一种基于分割的机载LiDAR点云建筑物提取方法
CN105957076A (zh) 一种基于聚类的点云分割方法及系统
CN110322453A (zh) 基于位置注意力和辅助网络的3d点云语义分割方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN110097072A (zh) 一种基于二分模块度的模糊聚类评价方法
CN107169871B (zh) 一种基于关系组合优化和种子扩张的多关系社区发现方法
CN111291822B (zh) 基于模糊聚类最优k值选择算法的设备运行状态判断方法
CN111046968B (zh) 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN104268532B (zh) 网络环境下大规模图像与视频数据高效处理的方法
CN102044073A (zh) 判断图像中人群密度的方法及系统
CN110781953B (zh) 基于多尺度金字塔卷积神经网络的肺癌病理切片分类方法
CN105306296A (zh) 一种基于lte信令的数据过滤处理方法
CN102542285B (zh) 基于谱图分析的图像集合的场景分类方法及装置
CN110826623B (zh) 基于气象数据的分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant