CN106055580A - 一种基于Radviz的模糊聚类结果可视化方法 - Google Patents
一种基于Radviz的模糊聚类结果可视化方法 Download PDFInfo
- Publication number
- CN106055580A CN106055580A CN201610341872.3A CN201610341872A CN106055580A CN 106055580 A CN106055580 A CN 106055580A CN 201610341872 A CN201610341872 A CN 201610341872A CN 106055580 A CN106055580 A CN 106055580A
- Authority
- CN
- China
- Prior art keywords
- radviz
- membership
- clustering cluster
- degree
- subordinated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007794 visualization technique Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 5
- 238000004040 coloring Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000000205 computational method Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000004064 recycling Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 abstract 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000007418 data mining Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- IXSZQYVWNJNRAL-UHFFFAOYSA-N etoxazole Chemical group CCOC1=CC(C(C)(C)C)=CC=C1C1N=C(C=2C(=CC=CC=2F)F)OC1 IXSZQYVWNJNRAL-UHFFFAOYSA-N 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于Radviz的模糊聚类结果可视化方法,其步骤为:1)对模糊聚类算法的结果进行数据预处理;2)为RadViz圆周设计合理的聚类簇维度锚点布局;3)将数据样本以圆点模式或饼图模式投影到Radviz内部;4)将维度锚点扩展为维度圆环,实现Radviz圆环的可视编码;5)将隶属度分布信息融合到Radviz主视图中;6)提取聚类间的共存关联关系,并使用弦线映射共存关系。本发明基于Radviz对模糊聚类算法得到的模糊隶属度矩阵进行展示,不但为用户提供了尽可能多的模糊聚类信息,而且允许研究人员自由探索数据属性、隶属度矩阵和聚类簇等信息,从而使用户进行更加快速、直观、准确的决策。
Description
技术领域
本发明属于计算机信息处理技术领域,涉及到一种基于Radviz的模糊聚类结果可视化方法。
背景技术
模糊聚类是一种重叠聚类方法,它允许数据对象属于多个聚类簇。在模糊聚类中,数据点在每个聚类簇上都对应一个隶属度,它反映了数据点属于该类别的不确定性程度,模糊聚类的结果也就是数据点属于每个聚类簇的隶属度矩阵。由于在真实世界中很难准确判定聚类簇边界,所以模糊聚类的部分划分显得更为合理,能更加客观地反映现实世界。但是当聚类算法得到的聚类较多、数据中包含海量节点时,隶属度矩阵为结构复杂的高维数据,研究人员在分析模糊聚类结果时会面临以下两方面的问题:
一方面,模糊聚类算法得到的隶属度描述了样本从属于各个聚类的概率,对应的判决方式为软判决。但在实际应用过程中,研究人员将根据需要利用某种原则把模糊隶属度矩阵这种软判决转化为硬判决,常用的原则包括最大隶属度原则、阈值原则、贴近原则等。把模糊隶属度转化成硬判决的过程存在某些固有的缺陷,如信息丢失过多,可能出现比较大的误差,甚至得到相反的结果等。
另一方面,隶属度矩阵存储了数据点被划分到各个聚类的隶属度,它可以帮助我们直观地判断数据点相对而言最应该被划分到哪个聚类,但是并不允许我们获得更多更有意义的信息,如多个聚类簇之间的关系、各个聚类的大小等。
这些问题将导致用户难以全面、准确地理解模糊聚类结果,在一定程度上削弱了模糊聚类分析在实际领域应用中的易用性。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于Radviz的模糊聚类算法结果可视化方法,为用户展示了模糊聚类算法得到的模糊隶属度矩阵,帮助用户以清晰直观的方式观察、探索难以理解的模糊聚类结果,并从中 获得信息进行更加精准有效的数据挖掘及其后续应用。
本发明所提供的技术方案为:
一种基于Radviz的模糊聚类结果可视化方法,包含以下步骤:
步骤1):对模糊聚类算法结果进行数据预处理,得到隶属度矩阵M,隶属度矩阵M中数据点Pi对应的行向量为数据点Pi从属于各个聚类簇的隶属度向量Vi,每个数据点从属于各个聚类簇的隶属度向量V=[V1,V2,…,Vi,…,Vn]T,0≤i≤n,n为数据点的总个数;隶属度矩阵M中聚类簇Cj对应的列向量为聚类簇Cj中各个数据点从属于该聚类簇的隶属度向量Uj,每个聚类簇中各个数据点从属于该聚类簇的隶属度向量U=[U1,U2,…,Uj,…,Um],0≤j≤m,m为聚类簇的个数;聚类簇的大小记为Size(C),其中Size(Cj)表示第j个聚类簇Cj的大小;聚类簇的权重记为Weight(C),Weight(Cj)表示第j个聚类簇Cj的权重;
步骤2):根据步骤1)得到的隶属度向量U,计算出聚类簇两两之间的相似性,然后以各个聚类簇为节点,聚类簇之间的相似性作为节点间边的权值构造一个加权连通图,再利用prim算法在加权连通图里搜索最小生成树,将节点映射到Radviz圆周上作为Radviz维度锚点,将节点被添加到最小生成树的顺序作为Radviz维度锚点的排序t,最后根据得到的聚类簇对两两之间的相似性和Radviz维度锚点的排布顺序t,计算出每个Radviz维度锚点在Radviz圆周上的弧度,进一步计算得到Radviz维度锚点在Radviz圆周上的位置;
步骤3):根据步骤2)得到的Radviz维度锚点排布顺序t和Radviz维度锚点在Radviz圆周上的位置,将所有的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于数据点从属于聚类簇的隶属度;并根据步骤1)得到的每个数据点从属于各个聚类簇的隶属度向量V对数据点进行不同的着色;
步骤4):根据步骤2)得到的Radviz维度锚点排布顺序t和每个Radviz维度锚点在Radviz圆周上的弧度,将Radviz维度锚点扩展为维度圆环,并根据 Radviz维度锚点对应的聚类簇给维度圆环进行不同的着色,根据步骤1)得到的每个聚类簇的大小和每个聚类簇的权重,使用维度环的厚度来映射聚类簇的大小或权重;
步骤5):根据步骤1)得到的隶属度矩阵,把隶属度范围[0,1]划分为N个等分的块,N取10至100中的整数;统计各个聚类中隶属度取值落在各个块中的比例,以此得到整个聚类的隶属度分布直方图,并将其映射为折线图;
步骤6):根据步骤1)得到的隶属度矩阵,计算两两聚类簇间的共存关系,并使用Radviz维度锚点之间的弦线来表示相应聚类间的共存关系,弦线越粗、不透明度越高则表示以大概率同时从属于这两个聚类簇的节点越多,反之则越少。
所述步骤1)包括以下步骤:
步骤1.1):根据模糊聚类算法的结果得到n个数据点被聚类成m类的隶属度矩阵M,其中0≤Mij≤1,0≤i≤n,0≤j≤m,即矩阵的每一行表示一个数据点从属于各个聚类簇的隶属度向量,矩阵的每一列表示一个聚类簇中所有的数据点从属于该聚类簇的隶属度向量;
步骤1.2):根据步骤1.1)得到的隶属度矩阵M,得到每个数据点从属于各个聚类簇的隶属度向量V,其中第i个数据点Pi从属于各个聚类簇的隶属度向量记为Vi={Vi[1],Vi[2],...,Vi[j],...,Vi[m]},其中0≤Vi[j]≤1;
步骤1.3):根据步骤1.1)得到的隶属度矩阵M,得到每个聚类簇中各个数据点从属于该聚类簇的隶属度向量U,其中第j个聚类簇Cj中各个数据点从属于该聚类簇的隶属度向量记为Uj={Uj[1],Uj[2],...,Uj[i],...,Uj[n]},其中0≤Uj[i]≤1;
步骤1.4):根据步骤1.1)得到的隶属度矩阵M和步骤1.2)得到的每个数据点从属于各个聚类簇的隶属度向量V,计算出每个聚类簇的大小Size(C),其中聚类簇Cj大小的计算公式为:Size(Cj)=Count[Mij=max(Vi)],即判断聚类簇 Cj中以最大隶属度从属于该聚类簇的数据点的数目,其中Count[·]为计数函数,max(·)为求最大值函数;
步骤1.5):根据步骤1.3)得到的每个聚类簇对应的隶属度向量U,计算出每个聚类簇的权重Weight(C),其中聚类簇Cj的权重Weight(Cj)的计算公式为: 即聚类簇Cj对应的隶属度向量Uj中所有隶属度之和。
所述步骤2)中,通过以下方法计算聚类簇对两两之间的相似性:根据步骤1)得到的每个聚类簇对应的隶属度向量U,计算任意两个聚类簇对应的隶属度向量Ua,Ub之间的欧式距离dis tan ceab: 其中,0≤a,b≤m,令聚类簇对Ca和Cb之间的相似性Sab等于distanceab,聚类簇对应的隶属度向量之间的欧式距离越小则聚类簇之间越相似,距离越大则聚类簇之间越不相似;
然后,根据得到的聚类簇对两两之间的相似性和Radviz维度锚点的排布顺序t,计算出每个Radviz维度锚点在Radviz圆周上的弧度,第j个维度锚点的弧度为其中,tj表示Radviz维度锚点的排布顺序中第j个维度锚点,表示Radviz维度锚点tj和t(j+1)mod m对应的聚类簇和 之间的相似性,(j+1)mod m表示对t(j+1)的下标(j+1)进行取余操作;S为维度锚点排布序列t中任意两个相邻的维度锚点之间的相似性之和,即 在计算时,用到的两个维度锚点之间的相似性是排布序列t中两个相邻的维度锚点之间的相似性;为了计算维度锚点排布顺序t中最后一个维度锚点t(c-1)和第一个维度锚点t0之间的相似性,对t(j+1)的下标(j+1)进行取余操作;
最后,计算出每个Radviz维度锚点DA在Radviz圆周上的位置,第j个Radviz维度锚点记为DA(j),计算DA(j)在圆周上的坐标的公式为: 其中,DA(j)x为DA(j)的横坐标,DA(j)y为DA(j)的纵坐标,直角坐标系以Radviz圆周的圆心为原点,分别以Radviz圆周两条相互垂直的直径所在直线为横轴和纵轴,R为Radviz圆周半径。
所述的步骤3)中,Radviz内部的数据点使用圆点或饼图表示。
所述步骤3)中,在Radviz内部使用圆点表示数据点,并从步骤1)得到的每个数据点从属于各个聚类簇的隶属度向量V中找到每个数据点的最大隶属度,根据最大隶属度对应的聚类簇给圆点着色,根据最大隶属度的值设置圆点的不透明度。
所述步骤3)中,在Radviz内部使用饼图表示数据点,并从步骤1)得到的每个数据点从属于各个聚类簇的隶属度向量V中找到每个数据点的第二大和第三大隶属度,饼图的颜色由第二大和第三大隶属度对应的聚类簇共同确定,并根据第二大隶属度和第三大隶属度在这两个隶属度之和中所占的比例确定两种颜色在饼图中所占的比例。
所述步骤4)包括以下步骤:
步骤4.1):根据步骤2)得到的Radviz维度锚点的排布顺序t和每个Radviz维度锚点在Radviz圆周上的弧度,计算出每个维度锚点扩展为维度圆环的起始弧度和终止弧度,若prim算法得到维度锚点排序为{...,a,j,b,...},则第j个聚类簇起始弧度StartAngle(j)、终止弧度EndAngle(j)的计算公式为:
步骤4.2):根据维度圆环对应的聚类簇给维度圆环进行着色;
步骤4.3):根据步骤1)得到的每个聚类簇大小Size(C)或权重Weight(C)给每个维度圆环设置厚度,维度圆环厚度越大表示该聚类簇大小或权重越大,反之越小。
可由用户自由选择使用维度圆环的厚度来映射聚类簇的大小或聚类簇的权重信息。
所述步骤5)包括以下步骤:
步骤5.1):将隶属度取值范围[0,1]划分为50个等分的块;
步骤5.2):根据步骤1)得到的隶属度矩阵M,统计各个聚类簇对应的隶属度中取值落在各个块中的数量,计算出每个聚类簇对应的隶属度在各个块中的比例,以此得到整个聚类的隶属度分布直方图,横轴为隶属度范围,纵轴为落在相应隶属度区间的数据点比例;
步骤5.3):将步骤5.2)得到的隶属度分布直方图映射为折线图,横轴为隶属度区间范围,纵轴为落在相应隶属度区间的数据点比例。
所述步骤6)中,计算两两聚类簇间的共存关系计算方法为:
根据步骤1)得到的每个数据点的隶属度向量Vi,计算出任意两个聚类簇Cj、Ck之间的共存关系Relation(Cj,Ck),其计算公式为: 表示所有以最大隶属度从属于Cj聚类簇的数据点从属于聚类Ck的隶属度累加和,表示所有以最大隶属度从属于Ck聚类簇的数据点从属于聚类Cj的隶属度累加和,所以两个聚类簇Cj、Ck间的共存关系Relation(Cj,Ck)表示以最大隶属度从属于聚类Cj/Ck的节点同时从属于聚类Ck/Cj的隶属度之和。
有益效果:
本发明提供了一种基于Radviz的模糊聚类结果可视化方法,Radviz(radialvisualization,径向可视化)作为一个经典的多维数据可视化方法,它可以将多维数据投影到二维平面上且能较好地保留数据之间的原始特性,因此基于Radviz的模糊聚类结果可视化方法,将模糊聚类算法得到的隶属度矩阵投影到Radviz中,并将隶属度的分布、聚类簇的大小、聚类簇之间的关系等信息融合到Radviz主视图中,可以帮助用户以清晰直观的方式观察、感知难以理解的模糊聚类结果,并从中得到信息进行更加精准有效的数据挖掘及其后续应用。
附图说明
图1是本发明所述方法流程图;
图2是聚类簇维度锚点布局流程图;
图3是对数据点的可视编码,图3(a)为圆点模式,图3(b)为饼图模式;
图4是对圆环的可视编码;
图5是聚类隶属度分布信息的融合;
图6是聚类簇间关系的可视编码。
具体实施方式
为使本发明的目的、设计思路和优点更加清楚,以下结合具体实例,并参照附图,对本发明作进一步详细说明。
本发明提供了一种基于Radviz的模糊聚类结果可视化方法(标题),如图1所示,包括六个主要步骤:对模糊聚类算法结果进行数据预处理;为Radviz圆周设计合理的聚类簇维度锚点布局;将数据样本以圆点模式或饼图模式投影到Radviz内部;将维度锚点扩展为维度圆环,实现Radviz圆环的可视编码;将隶属度分布信息融合到Radviz主视图中;提取聚类间的共存关联关系,并使用弦线映射共存关系。
下面对本发明的方法涉及的关键步骤进行逐一详细说明,具体步骤如下所示:
步骤一,对给定的模糊聚类算法的结果进行数据预处理,其中包括五项工作:
(1)构建517个数据样本点被聚类成10类的隶属度矩阵M,该矩阵的每一行表示每个数据点从属于各个聚类簇的隶属度向量,矩阵的每一列表示每个聚类簇中所有的数据点从属于该聚类簇的隶属度向量;(2)从隶属度矩阵M中提取出每个行向量,作为每个数据点的隶属度向量V;(3)从隶属度矩阵M中提取出每个列向量,作为每个聚类簇的隶属度向量U;(4)通过统计每个聚类簇中以最大隶属度属于该聚类簇的数据点的数目,得到每个聚类簇的大小Size(C);(5)通过计算每个聚类簇的隶属度向量U的所有隶属度之和,得到每个聚类簇的权重Weight(C)。
步骤二,为Radviz圆周设计合理的聚类簇维度锚点布局,如图2所示,主要包括三个步骤:首先根据数据预处理得到的每个聚类簇的隶属度向量U,计算任意两个聚类簇Ca,Cb的隶属度向量Ua,Ub之间的欧式距离: 并将聚类簇之间的欧式距离作为聚类簇之间相似性的度量方式,距离越小则越相似,距离越大则越不相似,得到了聚类簇对两两之间的相似性;其次将聚类簇(C1,C2,C3,...,C10)作为节点,聚类簇之间的相似性作为权值构造出一个加权连通图,使用prim算法对该连通图进行处理,利用prim算法添加节点到最小生成树的顺序作为Radviz维度锚点的排布排序,可以得到合理的Radviz维度锚点排布顺序t;然后,根据得到的聚类簇对两两之间的相似性和Radviz维度锚点的排布顺序t,计算出每个Radviz维度锚点在Radviz圆周上的弧度,第j个维度锚点的弧度为其中,tj表示Radviz维度锚点的排布顺序中第j个维度锚点,表示Radviz维度锚点tj和t(j+1)mod m对应的聚类簇和 之间的相似性,(j+1)mod m表示对t(j+1)的下标(j+1)进行取余操作,S为维度锚点排布序列t中任意两个相邻的维度锚点之间的相似性之和,即 在计算时,用到的两个维度锚点之间的 相似性是排布序列t中两个相邻的维度锚点之间的相似性,为了计算维度锚点排布顺序t中最后一个维度锚点t(c-1)和第一个维度锚点t0之间的相似性,对t(j+1)的下标(j+1)进行取余操作;最后,计算出每个Radviz维度锚点DA在Radviz圆周上的位置,第j个Radviz维度锚点记为DA(j),计算DA(j)在圆周上的坐标的公式为:其中,DA(j)x为DA(j)的横坐标,DA(j)y为DA(j)的纵坐标,直角坐标系以Radviz圆周的圆心为原点,分别以Radviz圆周两条相互垂直的直径所在直线为横轴和纵轴,R为Radviz圆周半径。
步骤三,将数据样本以圆点模式或饼图模式投影到Radviz内部,如图3所示。根据步骤二得到的Radviz维度锚点的排布顺序t,将步骤一得到的各个数据点的隶属度向量V在所有维度锚点的弹簧拉力作用下投影到Radviz内部,拉力大小正比于数据点从属于聚类簇的隶属度。
Radviz中的数据点可以使用圆点模式表示,如图3(a)所示,从步骤一得到的每个数据点的隶属度向量V中找到每个数据点的最大隶属度,使用最大隶属度对应的聚类给圆点着色,并使用最大隶属度的值设置圆点的不透明度;
Radviz中的数据点还可以使用饼图模式表示,如图3(b)所示,从步骤一得到的每个数据点的隶属度向量V中找到每个数据点的第二大和第三大隶属度,饼图的颜色由第二大和第三大隶属度对应的聚类簇共同决定,并根据第二大隶属度和第三大隶属度在这两个隶属度之和中所占的比例决定两种颜色在饼图中所占的比例。
Radviz中数据点的表示模式由用户任意选择。
步骤四,将维度锚点扩展为维度圆环,实现Radviz圆环的可视编码,如图4所示。该部分具体需要完成五项工作:(1)根据步骤二得到的Radviz维度锚点的排布顺序t和每个Radviz维度锚点在Radviz圆周上的弧度,计算出每个维度锚点扩展为维度圆环的起始弧度和终止弧度,若Prim算法得到维度锚点排序为{...,a,j,b,...},则各聚类簇起始弧度和终止弧度的计算公式为: (2)根据维度圆环对应的聚类簇给维度圆环进行着色;(3)根据步骤一得到的每个聚类簇大小Size(C)给每个维度圆环设置厚度,维度圆环厚度越大表示该聚类簇大小越大,反之越小;(4)根据步骤一得到的每个聚类簇权重Weight(C)给每个维度圆环设置厚度,维度圆环厚度越大表示该聚类簇权重越大,反之越小。
维度圆环厚度映射的信息由用户任意选择。
步骤五,为了将隶属度分布信息融合到Radviz主视图中,如图5所示。首先将隶属度取值范围[0,1]划分为50个等分的块(Bin);其次根据步骤一得到的隶属度矩阵M,统计各个聚类簇的隶属度中取值落在各个块中的数量,计算出每个聚类簇的隶属度在各个块中的比例,以此得到整个聚类的隶属度分布直方图,直方图的横轴为隶属度范围,纵轴为落在相应隶属度区间的样本比例;最后将隶属度分布直方图映射为折线图,折线图的横轴为隶属度范围,纵轴为落在相应隶属度区间的样本比例。
步骤六,提取聚类间的共存关联关系,并使用弦线映射共存关系,如图6所示。首先根据步骤一得到的每个数据点从属于各个聚类簇的隶属度向量V,计算出任意两个聚类簇Cj、Ck间的共存关系Relation(Cj,Ck),其计算公式为: 表示所有以最大隶属度属于聚类簇Cj的数据点从属于聚类Ck的隶属度累加和,表示所有以最大隶属度属于聚类簇Ck的数据点从属于聚类Cj的隶属度累加和,所以两个聚类簇Cj、Ck间的共存关系Relation(Cj,Ck)表示以最大隶属度从属于聚类Cj/Ck的节点同时从属于聚类Ck/Cj的隶属度之和;然后将Radviz圆周上的Radviz维度锚点使用弦线连接,来映射两两聚类簇之间的共存关系,弦线越粗、不透明度越高则表示以大概率同时属于这两个聚类的节点越多,反之则越少。
Claims (9)
1.一种基于Radviz的模糊聚类结果可视化方法,其特征在于,包含以下步骤:
步骤1):对模糊聚类算法结果进行数据预处理,得到隶属度矩阵M,隶属度矩阵M中数据点Pi对应的行向量为数据点Pi从属于各个聚类簇的隶属度向量Vi,每个数据点从属于各个聚类簇的隶属度向量V=[V1,V2,…,Vi,…,Vn]T,0≤i≤n,n为数据点的总个数;隶属度矩阵M中聚类簇Cj对应的列向量为聚类簇Cj中各个数据点从属于该聚类簇的隶属度向量Uj,每个聚类簇中各个数据点从属于该聚类簇的隶属度向量U=[U1,U2,…,Uj,…,Um],0≤j≤m,m为聚类簇的个数;聚类簇的大小记为Size(C),其中Size(Cj)表示第j个聚类簇Cj的大小;聚类簇的权重记为Weight(C),Weight(Cj)表示第j个聚类簇Cj的权重;
步骤2):根据步骤1)得到的隶属度向量U,计算出聚类簇两两之间的相似性,然后以各个聚类簇为节点,聚类簇之间的相似性作为节点间边的权值构造一个加权连通图,再利用prim算法在加权连通图里搜索最小生成树,将节点映射到Radviz圆周上作为Radviz维度锚点,将节点被添加到最小生成树的顺序作为Radviz维度锚点的排序t,最后根据得到的聚类簇对两两之间的相似性和Radviz维度锚点的排布顺序t,计算出每个Radviz维度锚点在Radviz圆周上的弧度,进一步计算得到Radviz维度锚点在Radviz圆周上的位置;
步骤3):根据步骤2)得到的Radviz维度锚点排布顺序t和Radviz维度锚点在Radviz圆周上的位置,将所有的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于数据点从属于聚类簇的隶属度;并根据步骤1)得到的每个数据点从属于各个聚类簇的隶属度向量V对数据点进行不同的着色;
步骤4):根据步骤2)得到的Radviz维度锚点排布顺序t和每个Radviz维度锚点在Radviz圆周上的弧度,将Radviz维度锚点扩展为维度圆环,并根据Radviz维度锚点对应的聚类簇给维度圆环进行不同的着色,根据步骤1)得到的每个聚类簇的大小和每个聚类簇的权重,使用维度环的厚度来映射聚类簇的大小或权重;
步骤5):根据步骤1)得到的隶属度矩阵,把隶属度范围[0,1]划分为N个等分的块,N取10至100中的整数;统计各个聚类中隶属度取值落在各个块中的比例,以此得到整个聚类的隶属度分布直方图,并将其映射为折线图;
步骤6):根据步骤1)得到的隶属度矩阵,计算两两聚类簇间的共存关系,并使用Radviz维度锚点之间的弦线来表示相应聚类间的共存关系,弦线越粗、不透明度越高则表示以大概率同时从属于这两个聚类簇的节点越多,反之则越少。
2.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤1)包括以下步骤:
步骤1.1):根据模糊聚类算法的结果得到n个数据点被聚类成m类的隶属度矩阵M,其中0≤Mij≤1,0≤i≤n,0≤j≤m,即矩阵的每一行表示一个数据点从属于各个聚类簇的隶属度向量,矩阵的每一列表示一个聚类簇中所有的数据点从属于该聚类簇的隶属度向量;
步骤1.2):根据步骤1.1)得到的隶属度矩阵M,得到每个数据点从属于各个聚类簇的隶属度向量V,其中第i个数据点Pi从属于各个聚类簇的隶属度向量记为Vi={Vi[1],Vi[2],...,Vi[j],...,Vi[m]},其中0≤Vi[j]≤1;
步骤1.3):根据步骤1.1)得到的隶属度矩阵M,得到每个聚类簇中各个数据点从属于该聚类簇的隶属度向量U,其中第j个聚类簇Cj中各个数据点从属于该聚类簇的隶属度向量记为Uj={Uj[1],Uj[2],...,Uj[i],...,Uj[n]},其中0≤Uj[i]≤1;
步骤1.4):根据步骤1.1)得到的隶属度矩阵M和步骤1.2)得到的每个数据点从属于各个聚类簇的隶属度向量V,计算出每个聚类簇的大小Size(C),其中聚类簇Cj大小的计算公式为:Size(Cj)=Count[Mij=max(Vi)],即判断聚类簇Cj中以最大隶属度从属于该聚类簇的数据点的数目,其中Count[·]为计数函数,max(·)为求最大值函数;
步骤1.5):根据步骤1.3)得到的每个聚类簇对应的隶属度向量U,计算出每个聚类簇的权重Weight(C),其中聚类簇Cj的权重Weight(Cj)的计算公式为:即聚类簇Cj对应的隶属度向量Uj中所有隶属度之和。
3.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤2)中,首先通过以下方法计算聚类簇对两两之间的相似性:根据步骤1)得到的每个聚类簇对应的隶属度向量U,计算任意两个聚类簇对应的隶属度向量Ua,Ub之间的欧式距离dis tan ceab:其中,0≤a,b≤m,令聚类簇对Ca和Cb之间的相似性Sab等于dis tan ceab;
然后,根据得到的聚类簇对两两之间的相似性和Radviz维度锚点的排布顺序t,计算出每个Radviz维度锚点在Radviz圆周上的弧度,第j个维度锚点的弧度为其中,tj表示Radviz维度锚点的排布顺序中第j个维度锚点,表示Radviz维度锚点tj和t(j+1)mod m对应的聚类簇和之间的相似性,(j+1)mod m表示对t(j+1)的下标(j+1)进行取余操作;S为维度锚点排布序列t中任意两个相邻的维度锚点之间的相似性之和,即
最后,计算出每个Radviz维度锚点DA在Radviz圆周上的位置,第j个Radviz维度锚点记为DA(j),计算DA(j)在圆周上的坐标的公式为:其中,DA(j)x为DA(j)的横坐标,DA(j)y为DA(j)的纵坐标,直角坐标系以Radviz圆周的圆心为原点,分别以Radviz圆周两条相互垂直的直径所在直线为横轴和纵轴,R为Radviz圆周半径。
4.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述的步骤3)中,Radviz内部的数据点使用圆点或饼图表示。
5.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤3)中,在Radviz内部使用圆点表示数据点,并从步骤1)得到的每个数据点从属于各个聚类簇的隶属度向量V中找到每个数据点的最大隶属度,根据最大隶属度对应的聚类簇给圆点着色,根据最大隶属度的值设置圆点的不透明度。
6.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤3)中,在Radviz内部使用饼图表示数据点,并从步骤1)得到的每个数据点从属于各个聚类簇的隶属度向量V中找到每个数据点的第二大和第三大隶属度,饼图的颜色由第二大和第三大隶属度对应的聚类簇共同确定,并根据第二大隶属度和第三大隶属度在这两个隶属度之和中所占的比例确定两种颜色在饼图中所占的比例。
7.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤4)包括以下步骤:
步骤4.1):根据步骤2)得到的Radviz维度锚点的排布顺序t和每个Radviz维度锚点在Radviz圆周上的弧度,计算出每个维度锚点扩展为维度圆环的起始弧度和终止弧度,若prim算法得到维度锚点排序为{...,a,j,b,...},则第j个聚类簇起始弧度StartAngle(j)、终止弧度EndAngle(j)的计算公式为:
步骤4.2):根据维度圆环对应的聚类簇给维度圆环进行着色;
步骤4.3):根据步骤1)得到的每个聚类簇大小Size(C)或权重Weight(C)给每个维度圆环设置厚度,维度圆环厚度越大表示该聚类簇大小或权重越大,反之越小。
8.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤5)包括以下步骤:
步骤5.1):将隶属度取值范围[0,1]划分为50个等分的块;
步骤5.2):根据步骤1)得到的隶属度矩阵M,统计各个聚类簇对应的隶属度中取值落在各个块中的数量,计算出每个聚类簇对应的隶属度在各个块中的比例,以此得到整个聚类的隶属度分布直方图,横轴为隶属度范围,纵轴为落在相应隶属度区间的数据点比例;
步骤5.3):将步骤5.2)得到的隶属度分布直方图映射为折线图,横轴为隶属度区间范围,纵轴为落在相应隶属度区间的数据点比例。
9.根据权利要求1所述的一种基于Radviz的模糊聚类结果可视化方法,其特征在于,所述步骤6)中,计算两两聚类簇间的共存关系计算方法为:
根据步骤1)得到的每个数据点的隶属度向量Vi,计算出任意两个聚类簇Cj、Ck之间的共存关系Relation(Cj,Ck),其计算公式为: 表示所有以最大隶属度从属于Cj聚类簇的数据点从属于聚类Ck的隶属度累加和,表示所有以最大隶属度从属于Ck聚类簇的数据点从属于聚类Cj的隶属度累加和,所以两个聚类簇Cj、Ck间的共存关系Relation(Cj,Ck)表示以最大隶属度从属于聚类Cj/Ck的节点同时从属于聚类Ck/Cj的隶属度之和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610341872.3A CN106055580B (zh) | 2016-05-23 | 2016-05-23 | 一种基于Radviz的模糊聚类结果可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610341872.3A CN106055580B (zh) | 2016-05-23 | 2016-05-23 | 一种基于Radviz的模糊聚类结果可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106055580A true CN106055580A (zh) | 2016-10-26 |
CN106055580B CN106055580B (zh) | 2019-02-05 |
Family
ID=57177446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610341872.3A Expired - Fee Related CN106055580B (zh) | 2016-05-23 | 2016-05-23 | 一种基于Radviz的模糊聚类结果可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106055580B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764676A (zh) * | 2018-05-17 | 2018-11-06 | 南昌航空大学 | 一种高维多目标评价方法及系统 |
CN109272378A (zh) * | 2018-08-23 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 一种风险群组的发现方法和装置 |
CN109685158A (zh) * | 2019-01-08 | 2019-04-26 | 东北大学 | 一种基于强项集的聚类结果语义特征提取与可视化方法 |
CN110209745A (zh) * | 2019-05-29 | 2019-09-06 | 电子科技大学 | 基于Radviz的智能电网数据聚类可视化方法 |
CN111192213A (zh) * | 2019-12-27 | 2020-05-22 | 杭州雄迈集成电路技术股份有限公司 | 图像去雾自适应参数的计算方法、图像去雾方法及系统 |
CN111709478A (zh) * | 2020-06-17 | 2020-09-25 | 广东工业大学 | 一种基于锚图的模糊聚类方法及装置 |
CN115952432A (zh) * | 2022-12-21 | 2023-04-11 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103399870A (zh) * | 2013-07-08 | 2013-11-20 | 华中科技大学 | 一种基于分类驱动的可视化词袋特征权重化方法和系统 |
CN104394021A (zh) * | 2014-12-09 | 2015-03-04 | 中南大学 | 基于可视化聚类的网络流量异常分析方法 |
CN105354720A (zh) * | 2014-09-18 | 2016-02-24 | 中南大学 | 一种基于可视聚类对消费地点进行混合推荐的方法 |
-
2016
- 2016-05-23 CN CN201610341872.3A patent/CN106055580B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103399870A (zh) * | 2013-07-08 | 2013-11-20 | 华中科技大学 | 一种基于分类驱动的可视化词袋特征权重化方法和系统 |
CN105354720A (zh) * | 2014-09-18 | 2016-02-24 | 中南大学 | 一种基于可视聚类对消费地点进行混合推荐的方法 |
CN104394021A (zh) * | 2014-12-09 | 2015-03-04 | 中南大学 | 基于可视化聚类的网络流量异常分析方法 |
Non-Patent Citations (2)
Title |
---|
MANUEL RUBIO-SANCHEZ 等: "A comparative study between RadViz and Star Coordinates", 《 IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 * |
范丽民 等: "基于三角网格和模糊聚类的海洋牧场温度可视化", 《计算机应用与软件》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764676A (zh) * | 2018-05-17 | 2018-11-06 | 南昌航空大学 | 一种高维多目标评价方法及系统 |
CN108764676B (zh) * | 2018-05-17 | 2020-10-30 | 南昌航空大学 | 一种高维多目标评价方法及系统 |
CN109272378A (zh) * | 2018-08-23 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 一种风险群组的发现方法和装置 |
CN109685158B (zh) * | 2019-01-08 | 2020-10-16 | 东北大学 | 一种基于强项集的聚类结果语义特征提取与可视化方法 |
CN109685158A (zh) * | 2019-01-08 | 2019-04-26 | 东北大学 | 一种基于强项集的聚类结果语义特征提取与可视化方法 |
CN110209745A (zh) * | 2019-05-29 | 2019-09-06 | 电子科技大学 | 基于Radviz的智能电网数据聚类可视化方法 |
CN110209745B (zh) * | 2019-05-29 | 2021-12-10 | 电子科技大学 | 基于Radviz的智能电网数据聚类可视化方法 |
CN111192213A (zh) * | 2019-12-27 | 2020-05-22 | 杭州雄迈集成电路技术股份有限公司 | 图像去雾自适应参数的计算方法、图像去雾方法及系统 |
CN111192213B (zh) * | 2019-12-27 | 2023-11-14 | 浙江芯劢微电子股份有限公司 | 图像去雾自适应参数的计算方法、图像去雾方法及系统 |
CN111709478A (zh) * | 2020-06-17 | 2020-09-25 | 广东工业大学 | 一种基于锚图的模糊聚类方法及装置 |
CN111709478B (zh) * | 2020-06-17 | 2022-06-24 | 广东工业大学 | 一种基于锚图的模糊聚类方法及装置 |
CN115952432A (zh) * | 2022-12-21 | 2023-04-11 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
CN115952432B (zh) * | 2022-12-21 | 2024-03-12 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106055580B (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106055580A (zh) | 一种基于Radviz的模糊聚类结果可视化方法 | |
CN108363797B (zh) | 一种基于变换的关联图可视分析方法及其系统 | |
CN106503148B (zh) | 一种基于多知识库的表格实体链接方法 | |
CN105354593B (zh) | 一种基于nmf的三维模型分类方法 | |
CN104167013B (zh) | 一种用于突出显示体数据中目标区域的体绘制方法 | |
CN106991446A (zh) | 一种互信息的组策略嵌入式动态特征选择方法 | |
CN104268629B (zh) | 一种基于先验信息和网络固有信息的复杂网络社区检测方法 | |
CN110084211A (zh) | 一种动作识别方法 | |
CN111639243A (zh) | 时空数据渐进式多维模式提取与异常检测可视分析方法 | |
CN105512218A (zh) | 一种关联层次数据的可视化方法和应用 | |
CN105930461A (zh) | 实现关联信息节点可视化追踪的数据处理方法 | |
CN105957124A (zh) | 具有重复场景元素的自然图像颜色编辑方法及装置 | |
CN113628336A (zh) | 一种道路交通安全隐患点可视化鉴别方法 | |
CN113469755B (zh) | 一种基于广告推送的智能精准营销管理系统 | |
CN108804635A (zh) | 一种基于属性选择的相似性度量方法 | |
CN108647772A (zh) | 一种用于边坡监测数据粗差剔除的方法 | |
CN107451617A (zh) | 一种图转导半监督分类方法 | |
CN107392249A (zh) | 一种k近邻相似度优化的密度峰聚类方法 | |
CN113327079B (zh) | 一种基于网约车轨迹的路径选择潜在因素可视分析方法 | |
CN106960004A (zh) | 一种多维数据的分析方法 | |
CN110111561A (zh) | 一种基于som-pam聚类算法的路网动态划分方法 | |
CN104537254B (zh) | 一种基于社会统计数据的精细化制图方法 | |
CN109740504A (zh) | 一种基于遥感影像提取海域资源的方法 | |
Liu et al. | Automated road extraction from satellite imagery using hybrid genetic algorithms and cluster analysis | |
CN109783586A (zh) | 基于聚类重采样的水军评论检测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190205 |