CN110097072A - 一种基于二分模块度的模糊聚类评价方法 - Google Patents
一种基于二分模块度的模糊聚类评价方法 Download PDFInfo
- Publication number
- CN110097072A CN110097072A CN201910205966.1A CN201910205966A CN110097072A CN 110097072 A CN110097072 A CN 110097072A CN 201910205966 A CN201910205966 A CN 201910205966A CN 110097072 A CN110097072 A CN 110097072A
- Authority
- CN
- China
- Prior art keywords
- cluster
- degree
- sub
- membership
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于二分模块度的模糊聚类评价方法,将类内紧致性、类间分离性与二分模块度融合在一起,用于确定模糊C均值聚类算法的最优分类结果。该指标结合类内紧致性与类间分离性,增强了指标的鲁棒性,且能够准确检测最佳类簇数目,提高了评估聚类结果的准确率。
Description
技术领域
本发明涉及一种聚类评价方法,具体地,涉及一种基于二分模块度的模糊聚类评价方法,属于数据挖掘领域。
背景技术
作为数据挖掘的关键技术之一,聚类能够将一组样本划分为多个簇,使得同簇内元素之间的相似度尽可能高,而不同簇元素之间的相似度尽可能低。
以FCM(Fuzzy C Means)算法为代表的模糊聚类将隶属度的取值模糊化,允许一个样本以不同概率隶属于多个簇,更符合人们对样本分布规律的认知,因此模糊聚类研究历久弥新。迄今为止,为数众多的模糊聚类算法在准确率、效率、鲁棒性等方面不断取得进步,有效促进了数据挖掘研究的发展;与此同时,用以评估模糊聚类质量或性能的有效性指标在算法研究中不可或缺,其重要性日益凸显。
迄今为止,关于聚类有效性指标的研究成果较为丰富。广泛使用的一些有效性指标如PC、PE和MPC等过于依赖于FCM算法产生的隶属度,且由于FCM算法本身对噪声点和离群值较为敏感,因此旨在增强鲁棒性的有效性指标相继被提出,但在准确率方面还有待提高。
发明内容
为解决现有技术中存在的问题,本发明提出了一种基于二分模块度的模糊聚类评价方法,具体地,该方法包括以下步骤:
(1)将FCM算法在给定数据集上运行,得到第i个数据点对第c个簇的隶属度uci,i=1,2…,N,c=1,2…C,N为样本个数,C为簇数;
(2)计算类内紧致性,对每个数据点,计算其对所有簇隶属度的平方和比较所有数据点的结果,得到最大值umax;对每个数据点,计算所有数据点对所有簇隶属度的平方和与最大值的比值;
(3)计算类间分离性,对每个数据点和其属于两个不同簇的隶属度,设置阈值To排除噪声点和簇边界上的离群值;运行FCM算法获得模糊隶属度矩阵,计算所有数据点对所有簇的分离度之和;
(4)计算二分模块度,利用FCM算法得到的C个聚类中心和原始数据点构建一个加权二分网络,模糊隶属度uci表示其加权边的权值;
(5)在划分系数PC(Partition Coefficient)的基础上,比较N个样本属于各个簇的隶属度平方之和得出其最大值umax,再计算与umax的比值得类内紧致性,根据属于不同模糊簇的隶属度uci与阈值To的关系计算任意两个簇之间的类间分离性,将二者与二分模块度进行适当的加减运算,得到新指标,且新指标的值越大,表示聚类结果越好。
尤其在步骤(2)中,类内紧致性为uci表示第i个数据点对第c个簇的隶属度,N和C分别代表数据点和聚类结果簇的个数。
进一步地,在步骤(3)中,类间分离性为a和b分别代表两个不同的簇,用于排除噪声点和簇边界上的离群值。
进一步地,在步骤(4)中,应用于二分网络中的二分模块度为 和分别表示两个不同方向VX→VY和VY→VX上连接Vl和Vp两种类型顶点的所有边数,和分别表示和的行和。
进一步地,在步骤(5)中,新的模糊聚类评价方法的目标函数为:CSBM=(C-1)1/C×(NC-SEP+QB)/2。
本发明基于二分模块度,结合类内紧致性和类间分离性,提出一种新的模糊聚类评价方法,既增强了指标的鲁棒性,又提高了确定最优分类数的准确率,即提高了评估聚类结果的准确率。
具体实施方式
一种基于二分模块度的模糊聚类评价方法,包括以下步骤:
(1)将FCM算法在一个数据点个数为N的数据集上运行,得到C个聚类结果簇和第i个数据点对第c个簇的隶属度矩阵uci(i=1,2…,N;c=1,2…C);
(2)计算类内紧致性,对每个数据点,计算其对所有簇隶属度的平方和uc 2 i,比较所有数据点的结果,得到最大值umax。对所有数据点,计算其对所有簇隶属度的平方和与最大值的比值;
(3)计算类间分离性,利用每个数据点对两个不同簇的隶属度,设置阈值To排除噪声点和簇边界上的离群值。运行FCM算法获得的模糊隶属度矩阵中,所有数据点对所有簇的分离度之和;
(4)计算二分模块度,利用FCM算法得到的C个聚类中心和原始数据集构建一个加权二分网络,模糊隶属度uci表示其加权边的权值。将该二分网络划分为LX个X顶点社区VX和LY个Y顶点社区VY,其中的每条边都连接两个不同类型的顶点Vl和Vp,即(Vl∈VX∧Vp∈VY)∨(Vl∈VY∧Vp∈VX),则该二分网络的二分模块度可表示为两个方向上二分模块度之和,即
(5)将类内紧致性、类间分离性和二分模块度结合在一起,得到新指标的值。
在步骤(5)中,新的模糊聚类有效性指标的目标函数为:CSBM=(C-1)1/C×(NC-SEP+QB)/2,其中代表类内紧致性,uci表示第i个数据点对第c个簇的隶属度,N和C分别代表数据点和聚类结果簇的个数。代表类间分离性,a和b分别代表两个不同的簇,用于排除噪声点和簇边界上的离群值。表示应用于二分网络中的二分模块度,和分别表示两个不同方向VX→VY和VY→VX上连接Vl和Vp两种类型顶点的所有边数,和分别表示和的行和。
类内紧致性由运行FCM算法得到的模糊隶属度矩阵和簇心定义,其值越大,表示类内数据点的相似度越高,划分效果越好;类间分离性由不同模糊集之间的距离定义,其值越小,表示不同簇中数据点的相似度越低,划分效果越好。
模块度最初用于评价单部网络中社区划分的质量,而现实世界中事物之间的联系多以二分网络的形式存在,且不同于单部网络中顶点之间的一对一关系,复杂二分网络比如作者-论文网络、演员-电影网络等,其顶点之间的关系更倾向于一对多或多对多,评价此类二分网络的社区划分结果则需用二分模块度。
本发明使用Murata改进过的二分模块度,将二分网络中所有顶点划分成两种不同类型的顶点集合VX和VY,应用于FCM算法中分别对应簇心和样本点。对于分别来自两个集合的点Vl和Vp,从两个方向上(Vl∈VX∧Vp∈VY)∨(Vl∈VY∧Vp∈VX)计算二分模块度,使社区划分结果更加准确。
本发明在数据集上运行FCM算法,利用得到的簇心和原始数据点构建加权二分网络,权值由隶属度表示,计算二分模块度,并结合类内紧致性和类间分离性,提出一种新的有效的模糊聚类评价方法,并在每个数据集中均加入10%比例的噪声数据进行实验,结果证明,该指标在预测类簇数目的准确率以及鲁棒性方面表现最优。
Claims (5)
1.一种基于二分模块度的模糊聚类评价方法,其特征在于:该方法包括以下步骤:
(1)将FCM算法在给定数据集上运行,得到第i个数据点对第c个簇的隶属度uci,i=1,2…,N,c=1,2…C,N为样本个数,C为簇数;
(2)计算类内紧致性,对每个数据点,计算其对所有簇隶属度的平方和uc 2 i,比较所有数据点的结果,得到最大值umax;对每个数据点,计算所有数据点对所有簇隶属度的平方和与最大值的比值;
(3)计算类间分离性,对每个数据点和其属于两个不同簇的隶属度,设置阈值To排除噪声点和簇边界上的离群值;运行FCM算法获得模糊隶属度矩阵,计算所有数据点对所有簇的分离度之和;
(4)计算二分模块度,利用FCM算法得到的C个聚类中心和原始数据点构建一个加权二分网络,模糊隶属度uci表示其加权边的权值;
(5)在划分系数PC的基础上,比较N个样本属于各个簇的隶属度平方之和得出其最大值umax,再计算与umax的比值得类内紧致性,根据属于不同模糊簇的隶属度uci与阈值To的关系计算任意两个簇之间的类间分离性,将二者与二分模块度进行适当的加减运算,得到新指标,且新指标的值越大,表示聚类结果越好。
2.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(2)中,类内紧致性为uci表示第i个数据点对第c个簇的隶属度,N和C分别代表数据点和聚类结果簇的个数。
3.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(3)中,类间分离性为a和b分别代表两个不同的簇,用于排除噪声点和簇边界上的离群值。
4.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(4),应用于二分网络中的二分模块度为 和分别表示两个不同方向VX→VY和VY→VX上连接Vl和Vp两种类型顶点的所有边数,和分别表示和的行和。
5.基于权利要求1的一种基于二分模块度的模糊聚类评价方法,其特征在于:在步骤(5)中,新的模糊聚类评价方法的目标函数为:CSBM=(C-1)1/C×(NC-SEP+QB)/2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910205966.1A CN110097072B (zh) | 2019-03-19 | 2019-03-19 | 一种基于二分模块度的模糊聚类评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910205966.1A CN110097072B (zh) | 2019-03-19 | 2019-03-19 | 一种基于二分模块度的模糊聚类评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110097072A true CN110097072A (zh) | 2019-08-06 |
CN110097072B CN110097072B (zh) | 2022-10-04 |
Family
ID=67443255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910205966.1A Active CN110097072B (zh) | 2019-03-19 | 2019-03-19 | 一种基于二分模块度的模糊聚类评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097072B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680719A (zh) * | 2020-05-15 | 2020-09-18 | 南昌大学 | 一种基于距离平方和差值比的聚类有效性评估方法 |
CN112750502A (zh) * | 2021-01-18 | 2021-05-04 | 中南大学 | 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5263120A (en) * | 1991-04-29 | 1993-11-16 | Bickel Michael A | Adaptive fast fuzzy clustering system |
US6049797A (en) * | 1998-04-07 | 2000-04-11 | Lucent Technologies, Inc. | Method, apparatus and programmed medium for clustering databases with categorical attributes |
CN105868791A (zh) * | 2016-04-15 | 2016-08-17 | 上海交通大学 | 基于模糊聚类的多分辨率社区发现方法 |
CN107220977A (zh) * | 2017-06-06 | 2017-09-29 | 合肥工业大学 | 基于模糊聚类的有效性指标的图像分割方法 |
CN107330442A (zh) * | 2017-05-25 | 2017-11-07 | 河南理工大学 | 一种结合类内紧致性和类间分离性的增量模糊聚类方法 |
-
2019
- 2019-03-19 CN CN201910205966.1A patent/CN110097072B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5263120A (en) * | 1991-04-29 | 1993-11-16 | Bickel Michael A | Adaptive fast fuzzy clustering system |
US6049797A (en) * | 1998-04-07 | 2000-04-11 | Lucent Technologies, Inc. | Method, apparatus and programmed medium for clustering databases with categorical attributes |
CN105868791A (zh) * | 2016-04-15 | 2016-08-17 | 上海交通大学 | 基于模糊聚类的多分辨率社区发现方法 |
CN107330442A (zh) * | 2017-05-25 | 2017-11-07 | 河南理工大学 | 一种结合类内紧致性和类间分离性的增量模糊聚类方法 |
CN107220977A (zh) * | 2017-06-06 | 2017-09-29 | 合肥工业大学 | 基于模糊聚类的有效性指标的图像分割方法 |
Non-Patent Citations (2)
Title |
---|
孟令奎等: "基于模糊划分测度的聚类有效性指标", 《计算机工程》 * |
蒋盛益等: "基于二阶段聚类的重叠社区发现算法", 《模式识别与人工智能》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680719A (zh) * | 2020-05-15 | 2020-09-18 | 南昌大学 | 一种基于距离平方和差值比的聚类有效性评估方法 |
CN112750502A (zh) * | 2021-01-18 | 2021-05-04 | 中南大学 | 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110097072B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304668B (zh) | 一种结合水文过程数据和历史先验数据的洪水预测方法 | |
CN105528588B (zh) | 一种车道线识别方法及装置 | |
CN109800778A (zh) | 一种基于难分样本挖掘的Faster RCNN目标检测方法 | |
CN103888541B (zh) | 一种融合拓扑势和谱聚类的社区发现方法及系统 | |
CN102413029B (zh) | 基于分解的局部搜索多目标复杂动态网络社区划分方法 | |
CN105740651B (zh) | 一种特定癌症差异表达基因调控网络的构建方法 | |
CN103473786B (zh) | 基于多目标模糊聚类的灰度图像分割方法 | |
CN101923652B (zh) | 一种基于肤色和特征部位联合检测的色情图片识别方法 | |
CN105138970B (zh) | 基于空间信息的极化sar图像分类方法 | |
CN103488993B (zh) | 一种基于fast的人群异常行为识别方法 | |
CN102956023B (zh) | 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法 | |
CN110992341A (zh) | 一种基于分割的机载LiDAR点云建筑物提取方法 | |
CN105957076A (zh) | 一种基于聚类的点云分割方法及系统 | |
CN110322453A (zh) | 基于位置注意力和辅助网络的3d点云语义分割方法 | |
CN108764366A (zh) | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 | |
CN110097072A (zh) | 一种基于二分模块度的模糊聚类评价方法 | |
CN107169871B (zh) | 一种基于关系组合优化和种子扩张的多关系社区发现方法 | |
CN111291822B (zh) | 基于模糊聚类最优k值选择算法的设备运行状态判断方法 | |
CN111046968B (zh) | 一种基于改进dpc算法的道路网络轨迹聚类分析方法 | |
CN104268532B (zh) | 网络环境下大规模图像与视频数据高效处理的方法 | |
CN102044073A (zh) | 判断图像中人群密度的方法及系统 | |
CN110781953B (zh) | 基于多尺度金字塔卷积神经网络的肺癌病理切片分类方法 | |
CN105306296A (zh) | 一种基于lte信令的数据过滤处理方法 | |
CN102542285B (zh) | 基于谱图分析的图像集合的场景分类方法及装置 | |
CN110826623B (zh) | 基于气象数据的分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |