CN106203516A - 一种基于维度相关性的子空间聚类可视分析方法 - Google Patents

一种基于维度相关性的子空间聚类可视分析方法 Download PDF

Info

Publication number
CN106203516A
CN106203516A CN201610550993.9A CN201610550993A CN106203516A CN 106203516 A CN106203516 A CN 106203516A CN 201610550993 A CN201610550993 A CN 201610550993A CN 106203516 A CN106203516 A CN 106203516A
Authority
CN
China
Prior art keywords
dimension
point
data
view
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610550993.9A
Other languages
English (en)
Other versions
CN106203516B (zh
Inventor
夏佳志
蒋广
奎晓燕
张宇鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610550993.9A priority Critical patent/CN106203516B/zh
Publication of CN106203516A publication Critical patent/CN106203516A/zh
Application granted granted Critical
Publication of CN106203516B publication Critical patent/CN106203516B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于维度相关性的子空间聚类的可视分析方法,建立基于聚类显著性的维度相关性度量方法;建立子空间聚类复杂结构的有效可视化方法;建立基于维度相关性的可视分析框架。在交互式、可视化的数据探索过程中,给予用户有效的引导信息,指导用户快速发现有价值的子空间和对应的聚类。

Description

一种基于维度相关性的子空间聚类可视分析方法
技术领域
本发明属于数据挖掘与可视分析技术领域,涉及一种基于维度相关性的子空间聚类的可视分析方法。
背景技术
聚类分析是数据挖掘领域中的关键技术之一。子空间聚类是对传统聚类方法在高维数据空间中的扩展,其思想是将搜索局部化在相关维中进行。
传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。1、高维数据集中存在大量无关的属性使得在所有维中存在聚类的可能性几乎为零;2、高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建聚类。
为了解决这些问题,数据挖掘的研究者们提出了子空间聚类技术,尝试在数据集的不同子空间上发现聚类。根据搜索方向的不同,可以将子空间聚类方法分成两大类:自顶向下的搜索策略,包括PROCLUS等;以及自底向上的搜索策略,包括CLIQUE等。
但自动化的子空间聚类方法往往得到数量庞大的冗余结果,其聚类结果难以理解和解释。为此,数据挖掘和可视化领域提出了一系列的可视化方法,例如Assent等人的“Visual subspace clustering analysis,SIGKDD Explor.Newsl.9(2):5-12.2007.”,Tatu等人的"Subspace search and visualization to make sense of alternativeclusterings in high-dimensional data,IEEE VAST,pages.63-72,2012"方法等。但这些方法仅限于对自动化子空间聚类方法的结果进行可视化,用户无法进行交互式的可视分析。
与本发明方法最接近的方法是袁晓如等人提出的"Dimension projectionmatrix/tree:Interactive subspace visual exploration and analysis of highdimensional data.IEEE TVCG,19(12):2625-2633,2013",但其维度之间的距离基于皮尔逊相关系数,仅可用于特征选择,缺乏聚类上的意义。此外,对于子空间聚类的复杂结构,如不同子空间在维度上的重叠,不同聚类在数据上的重叠等,以上可视化方法都没有给出良好的解决方案。
发明内容
本发明旨在针对上述现有方法存在的问题,提供一种基于维度相关性的子空间聚类可视分析方法,在交互式、可视化的数据探索过程中,给予用户有效的引导信息,指导 用户快速发现有价值的子空间和对应的聚类。
本发明所采用的技术方案是,一种基于维度相关性的子空间聚类可视分析方法,按照以下步骤进行:
步骤一、建立基于聚类显著性的维度相关性度量方法;
步骤二、建立子空间聚类复杂结构的有效可视化方法;
步骤三、建立基于维度相关性的可视分析框架。
进一步的,所述步骤一中,维度相关性度量方法包括以下步骤:
步骤a,定义维度间的相似性:
p ( p , d i ) = k - 1 m a x ( m a x ( k N N ( p , d i ) ) - min ( k N N ( p , d i ) ) , ϵ ) - - - ( 1 )
r ( d i , d j ) = Σ p ∈ D B min ( p ( p , d i ) , p ( p , d j ) ) | D B | 2 - - - ( 2 )
r ( d 1 , d 2 , ..... , d m ) = Σ p ∈ D B m i n ( p ( p , d 1 ) , p ( p , d 2 ) ....... , p ( p , d m ) ) | D B | 2 - - - ( 3 )
其中表达式(1)中p(p,di)描述的是数据在维度di上、点p位置处的密度;kNN是指k最近邻;kNN(p,di)指在维度di上离p点最近的k个点;max(kNN(p,di))指kNN(p,di)中坐标值最大的点,min(kNN(p,di))指kNN(p,di)中坐标值最小的点;DB代表了数据集,|DB|为数据集中数据点的个数;ε=1/|DB|(ε是一个足够小的数,防止表达式(1)的分母为0);
表达式(2)中r(di,dj)定义了维度i和j之间的相似性;
表达式(3)中r(d1,d2,......,dm)定义了维度集合d1,d2,.....,dm之间的相似性;
步骤b,定义维度间的距离:
维度间的距离基于维度间的相似性得到,具体表达式如下:
d i s t ( d i , d j ) = e ( - ( r ( d i , d j ) - 1 ) )
( 4 )
d i s t ( d m + 1 , S ) = e ( - ( r ( d 1 , d 2 , ..... d m , d m + 1 ) - 1 ) ) - - - ( 5 )
其中表达式(4)中dist(di,dj)定义了两个维度di,dj之间的距离,r(di,dj)为维度i和j之间的相似性,由表达式(2)给出;表达式(5)中dist(dm+1,S)定义了维度dm+1和维度集合S之间的距离,其中r(d1,d2,.....dm,dm+1)为维度集合S和维度dm+1之间的相似性。
进一步的,所述步骤二中,建立子空间聚类复杂结构的有效可视化方法包括以下步骤:
使用超图描述子空间结构,超图的数据结构由节点和边组成,其中节点表示维度,边表示维度的子集,即一个子空间;一条边可以连接多个节点,一条边连接的维度节点张成一个子空间;
然后采用星形结构来可视化超图数据结构,具体表示过程为:
步骤a,找到需要用星形结构包围起来点集的最小包围圆,记包围圆的圆心为点C;
步骤b,将点集中的其它点与C点连接起来,组成星形结构的初始骨架;
步骤c,每个骨架选取5个以上的点做为控制点,选取的控制点分布均匀,并能够将骨架包围起来;
步骤d,将两个相邻骨架的重叠区域中的控制点删除;
步骤e,以控制点做为参考点,以逆时针为方向用一条b样条曲线绘制出一个封闭的区域,此区域就是所需要的星形凸包结构。
进一步的,所述步骤三中,基于维度相关性的可视分析框架;包括维度视图和数据视图;
所述维度视图包括维度点,超图边,圆形工作区,如图1维度视图。其中维度点是指代表维度的点,超图边代表维度子集,即一个子空间,用星形结构来可视表达,圆形工作区包括内圆和外圆,其中内圆中指编辑区域(如图1维度视图中的编辑区域)(编辑区域是用来展现当前被选中的点集,点集中的点按被选中顺序,呈螺旋状从内到外分布),外圆和内圆之间的区域(如图1维度视图中的内圆与外圆之间的区域)分布着未选中的维度点。维度点的布局包含初始布局和动态布局。
维度点的初始布局为:用户没有进行任何操作前,维度视图的分布情况。维度点的初始布局由MDS算法给出;
所述由MDS算法得到维度点的初始布局步骤为:
步骤a,得到维度点距离矩阵:距离矩阵为各个维度与其余维度之间的距离组成,维度之间的距离由表达式(4)给出;
步骤b,得到维度点的布局信息:将距离矩阵作为MDS算法的输入,将算法得到的结果做为维度点在维度视图中的坐标信息;
维度点动态布局为:即维度视图更新时使用的布局。维度点距离维度视图中心的距离,会根据维度点与当前正在编辑的子空间的距离进行动态调整;当编辑区域中的维度点集发生变化时,对每个不在编辑区域中的维度点做以下操作:
步骤a,运用表达式(5)得到当前维度点与正在编辑的子空间的距离d,0≤d≤1;
步骤b,将距离d映射到[a,b]范围中,映射函数由表达式(6)给出。其中a代表小圆半径,b代表大圆半径,f代表映射的结果;
f=a+d*(b-a) (6)
步骤c,在当前点与维度视图中心点连线的方向上,将当前点的距离调整为距离维度视图中心为f的位置处;
在维度视图中包含以下交互功能:
1),鼠标点击一个点/星形结构:如果该点/星形结构位于编辑区域,则将该点/星形结构移出编辑区域;如果该点/星形结构不位于编辑区域,则将其放置到编辑区域内,最后更新维度视图和数据视图;
2),鼠标悬停在点/星形结构上:当鼠标悬在该点/星形结构时,维度视图的分布更新为鼠标点击该点/星形结构后的情况;当鼠标移开时,维度视图的分布还原到悬停前的样子;
3),鼠标圈选操作:圈选是在维度视图上用鼠标绘制一个多边形,所有位于这个多边形内部的点集都将被赋予以下操作,如果该点位于编辑区域,则将该点移出编辑区域;如果该点不位于编辑区域,则将其放置到编辑区域内,最后更新维度视图和数据视图;
所述数据视图为一系列的数据点组成,数据点的布局情况由MDS算法给出。
由MDS算法得到数据点的布局步骤为:
步骤a,得到距离矩阵:距离矩阵是数据点中每个数据点与其余的数据点之间的距离组成的一个矩阵;数据点与数据点之间的距离由表达式(7)给出,其中pi,pj代表的是第i个点和第j个数据点,dist(pi,pj)为数据点pi,pj之间的距离,S为输入的子空间维度集, 即维度视图的编辑区域中包含的维度子集,S随维度视图中的编辑操作即时更新;d是指S中的某一个维度;pi(d),pj(d)分别代表的是pi,pj点在维度d上的值;
d i s t ( p i , p j ) = Σ d ∈ S ( p i ( d ) - p j ( d ) ) 2 - - - ( 7 )
步骤b,得到数据点在数据中视图中的分布:将距离矩阵作为MDS算法的输入,将算法得到的结果做为数据点在数据视图中的坐标信息。
在数据视图中包含以下操作:
1)圈选标记颜色:圈选是在维度视图上用鼠标绘制一个多边形,所有在这个多边形内部的点集都将被标记为当前指定的颜色;
本发明的有益效果是,提出了一种度量维度之间存在聚类的显著性的一种方法。并且我们有了一个特殊的数据结构去表达子空间结构,并将其直观的呈现出来。最后,我们提出了一个高效的子空间聚类的可视化分析方法。总之,本发明是交互式可视分析的一种方法,并在交互式的可视分析过程中,给予用户明确的信息来指导用户查找存在有价值聚类特征的子空间,提高了子空间聚类的查找效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于子空间聚类的可视化分析框架图。
其中图的左半部分为维度视图,右半部分为数据视图。在维度视图中,点代表的是一个维度。星形结构是超图中的一条边,代表一个子空间。中间部分为正在编辑的子空间。数据视图为数据点在正在编辑的子空间下的分布情况。
图2是星形凸包结构的绘制步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明包括基于聚类显著性的维度相关性度量方法,子空间聚类复杂结构的有效可视化方法,以及基于维度相关性的可视分析框架。
本实例中采用一台高性能的电脑,电脑上的内存应该在8G以上。
一种基于维度相关性的子空间聚类可视分析方法,包含以下内容:
内容1:基于聚类显著性的维度相关性度量方法;维度相关性度量方法包含以下步骤:
步骤1,定义维度间的相似性:维度之间的相似性由以下表达式给出。
其中表达式(1)中p(p,di)描述的是数据在维度di上、点p位置处的密度。
kNN(k-Nearest-Neighbors)是指k最近邻。kNN(p,di)指在维度di上离p点最近的k个点。max(kNN(p,di))指kNN(p,di)中坐标值最大的点,min(kNN(p,di))指kNN(p,di)中坐标值最小的点。DB代表了数据集,|DB|为数据集中数据点的个数。ε=1/|DB|(ε是一个足够小的数,防止表达式(1)的分母为0)。
表达式(2)中r(di,dj)定义了维度i和j之间的相似性。
表达式(3)中r(d1,d2,......,dm)定义了维度集合d1,d2,.....,dm之间的相似性。
p ( p , d i ) = k - 1 m a x ( m a x ( k N N ( p , d i ) ) - min ( k N N ( p , d i ) ) , ϵ ) - - - ( 1 )
r ( d i , d j ) = Σ p ∈ D B min ( p ( p , d i ) , p ( p , d j ) ) | D B | 2 - - - ( 2 )
r ( d 1 , d 2 , ..... , d m ) = Σ p ∈ D B m i n ( p ( p , d 1 ) , p ( p , d 2 ) ....... , p ( p , d m ) ) | D B | 2 - - - ( 3 )
步骤2,定义维度间的距离:维度间的距离基于维度间的相似性得到,具体表达式如下:
其中表达式(4)中dist(di,dj)定义了两个维度di,dj之间的距离,r(di,dj)为维度i和j之间的相似性,由表达式(2)给出。表达式(5)中dist(dm+1,S)定义了维度dm+1和维度集合S之间的距离。其中r(d1,d2,.....dm,dm+1)为维度集合S和维度dm+1之间的相似性。
d i s t ( d i , d j ) = e ( - ( r ( d i , d j ) - 1 ) ) - - - ( 4 )
d i s t ( d m + 1 , S ) = e ( - ( r ( d 1 , d 2 , ..... d m , d m + 1 ) - 1 ) ) - - - ( 5 )
内容2:子空间聚类复杂结构的有效可视化方法;在本发明中使用超图描述子空间结构。超图的数据结构由节点和边组成。其中节点表示维度,边表示维度的子集(即一个子空间)。一条边可以连接多个节点。一条边连接的维度节点张成一个子空间。在本发明中,提出了一种星形结构来可视化超图数据结构。
星形结构的表示过程为:
步骤1,找到需要用星形结构包围起来点集的最小包围圆,记包围圆的圆心为点C;如图2a;
步骤2,将点集中的其它点与C点连接起来,组成星形结构的初始骨架;
步骤3,通常为每个骨架选取5个以上的点做为控制点,选取的控制点应该尽量均匀,并能够将骨架包围起来(如图2b);
步骤4,将两个相邻骨架的重叠区域中的控制点删除(如图2c中的空心圆);
步骤5,以控制点做为参考点,以逆时针为方向用一条b样条曲线绘制出一个封闭的区域。此区域就是所需要的星形凸包结构(如图2d);
其中b样条曲线是样条曲线的一种,样条曲线是指给定一组控制点而得到一条曲线,曲线的大致形状由这些控制点予以控制。
内容3:基于维度相关性的可视分析框架;包括维度视图和数据视图。
所述维度视图包括维度点,超图边,圆形工作区,如图1维度视图。其中维度点是指代表维度的点,超图边代表维度子集,即一个子空间,用星形结构来可视表达,圆形工作区包括内圆和外圆,其中内圆中指编辑区域(如图1维度视图中的编辑区域)(编辑区域是用来展现当前被选中的点集,点集中的点按被选中顺序,呈螺旋状从内到外分布),外圆和内圆之间的区域(如图1维度视图中的内圆与外圆之间的区域)分布着未选中的维度点。维度点的布局包含初始布局和动态布局。
维度点的初始布局为:用户没有进行任何操作前,维度视图的分布情况。维度点的初始布局由MDS算法给出;
所述由MDS算法得到维度点的初始布局步骤为:
步骤a,得到维度点距离矩阵:距离矩阵为各个维度与其余维度之间的距离组成,维度之间的距离由表达式(4)给出;
步骤b,得到维度点的布局信息:将距离矩阵作为MDS算法的输入,将算法得到的结果做为维度点在维度视图中的坐标信息;
维度点动态布局为:即维度视图更新时使用的布局。维度点距离维度视图中心的距离,会根据维度点与当前正在编辑的子空间的距离进行动态调整;当编辑区域中的维度点集发生变化时,对每个不在编辑区域中的维度点做以下操作:
步骤a,运用表达式(5)得到当前维度点与正在编辑的子空间的距离d,0≤d≤1;
步骤b,将距离d映射到[a,b]范围中,映射函数由表达式(6)给出。其中a代表小圆半径,b代表大圆半径,f代表映射的结果;
f=a+d*(b-a) (6)
步骤c,在当前点与维度视图中心点连线的方向上,将当前点的距离调整为距离维度视图中心为f的位置处;
在维度视图中包含以下交互功能:
1),鼠标点击一个点/星形结构:如果该点/星形结构位于编辑区域,则将该点/星形结构移出编辑区域;如果该点/星形结构不位于编辑区域,则将其放置到编辑区域内,最后更新维度视图和数据视图;
2),鼠标悬停在点/星形结构上:当鼠标悬在该点/星形结构时,维度视图的分布更新为鼠标点击该点/星形结构后的情况;当鼠标移开时,维度视图的分布还原到悬停前的样子;
3),鼠标圈选操作:圈选是在维度视图上用鼠标绘制一个多边形,所有位于这个多边形内部的点集都将被赋予以下操作,如果该点位于编辑区域,则将该点移出编辑区域;如果该点不位于编辑区域,则将其放置到编辑区域内,最后更新维度视图和数据视图;
所述数据视图为一系列的数据点组成,数据点的布局情况由MDS算法给出。
由MDS算法得到数据点的布局步骤为:
步骤a,得到距离矩阵:距离矩阵是数据点中每个数据点与其余的数据点之间的距离组成的一个矩阵;数据点与数据点之间的距离由表达式(7)给出,其中pi,pj代表的是第i个点和第j个数据点,dist(pi,pj)为数据点pi,pj之间的距离,S为输入的子空间维度集,即维度视图的编辑区域中包含的维度子集,S随维度视图中的编辑操作即时更新;d是指S中的某一个维度;pi(d),pj(d)分别代表的是pi,pj点在维度d上的值;
d i s t ( p i , p j ) = Σ d ∈ S ( p i ( d ) - p j ( d ) ) 2 - - - ( 7 )
步骤b,得到数据点在数据中视图中的分布:将距离矩阵作为MDS算法的输入,将算法得到的结果做为数据点在数据视图中的坐标信息。
在数据视图中包含以下操作:
1)圈选标记颜色:圈选是在维度视图上用鼠标绘制一个多边形,所有在这个多边形内部的点集都将被标记为当前指定的颜色;
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (4)

1.一种基于维度相关性的子空间聚类的可视分析方法,其特征在于,按照以下步骤进行:
步骤一、建立基于聚类显著性的维度相关性度量方法;
步骤二、建立子空间聚类复杂结构的有效可视化方法;
步骤三、建立基于维度相关性的可视分析框架。
2.根据权利要求1所述的基于维度相关性的子空间聚类的可视分析方法,其特征在于,所述步骤一中,维度相关性度量方法包括以下步骤:
步骤a,定义维度间的相似性:
其中表达式(1)中p(p,di)描述的是数据在维度di上、点p位置处的密度;kNN是指k最近邻;kNN(p,di)指在维度di上离p点最近的k个点;max(kNN(p,di))指kNN(p,di)中坐标值最大的点,min(kNN(p,di))指kNN(p,di)中坐标值最小的点;DB代表了数据集,|DB|为数据集中数据点的个数;ε=1/|DB|;
表达式(2)中r(di,dj)定义了维度i和j之间的相似性;
表达式(3)中r(d1,d2,......,dm)定义了维度集合d1,d2,.....,dm之间的相似性;
步骤b,定义维度间的距离:
维度间的距离基于维度间的相似性得到,具体表达式如下:
其中表达式(4)中dist(di,dj)定义了两个维度di,dj之间的距离,r(di,dj)为维度i和j之间的相似性,由表达式(2)给出;表达式(5)中dist(dm+1,S)定义了维度dm+1和维度集合S之间的距离,其中r(d1,d2,.....dm,dm+1)为维度集合S和维度dm+1之间的相似性。
3.根据权利要求2所述的基于维度相关性的子空间聚类的可视分析方法,其特征在于,所述步骤二中,建立子空间聚类复杂结构的有效可视化方法包括以下步骤:
使用超图描述子空间结构,超图的数据结构由节点和边组成,其中节点表示维度,边表示维度的子集,即一个子空间;一条边可以连接多个节点,一条边连接的维度节点张成一个子空间;
然后采用星形结构来可视化超图数据结构,具体表示过程为:
步骤a,找到需要用星形结构包围起来点集的最小包围圆,记包围圆的圆心为点C;
步骤b,将点集中的其它点与C点连接起来,组成星形结构的初始骨架;
步骤c,每个骨架选取5个以上的点做为控制点,选取的控制点分布均匀,并能够将骨架包围起来;
步骤d,将两个相邻骨架的重叠区域中的控制点删除;
步骤e,以控制点做为参考点,以逆时针为方向用一条b样条曲线绘制出一个封闭的区域,此区域就是所需要的星形凸包结构。
4.根据权利要求3所述的基于维度相关性的子空间聚类的可视分析方法,其特征在于,所述步骤三中,基于维度相关性的可视分析框架;包括维度视图和数据视图;
所述维度视图包括维度点、超图边、圆形工作区;所述维度点是指代表维度的点;所述超图边代表维度子集,即一个子空间,用星形结构来可视表达;所述圆形工作区包括内圆和外圆,其中内圆中指编辑区域,编辑区域是用来展现当前被选中的点集,点集中的点按被选中顺序,呈螺旋状从内到外分布;外圆和内圆之间的区域分布着未选中的维度点,维度点的布局包含初始布局和动态布局;
所述维度点的初始布局为:用户没有进行任何操作前,维度视图的分布情况,维度点的初始布局由MDS算法给出;
所述由MDS算法得到维度点的初始布局步骤为:
步骤a,得到维度点距离矩阵:距离矩阵为各个维度与其余维度之间的距离组成,维 度之间的距离由表达式(4)给出;
步骤b,得到维度点的布局信息:将距离矩阵作为MDS算法的输入,将算法得到的结果做为维度点在维度视图中的坐标信息;
所述维度点动态布局为:即维度视图更新时使用的布局;维度点距离维度视图中心的距离,会根据维度点与当前正在编辑的子空间的距离进行动态调整;当编辑区域中的维度点集发生变化时,对每个不在编辑区域中的维度点做以下操作:
步骤a,运用表达式(5)得到当前维度点与正在编辑的子空间的距离d,0≤d≤1;
步骤b,将距离d映射到[a,b]范围中,映射函数由表达式(6)给出,其中a代表小圆半径,b代表大圆半径,f代表映射的结果;
f=a+d*(b-a) (6)
步骤c,在当前点与维度视图中心点连线的方向上,将当前点的距离调整为距离维度视图中心为f的位置处;
在维度视图中包含以下交互功能:
1),鼠标点击一个点/星形结构:如果该点/星形结构位于编辑区域,则将该点/星形结构移出编辑区域;如果该点/星形结构不位于编辑区域,则将其放置到编辑区域内,最后更新维度视图和数据视图;
2),鼠标悬停在点/星形结构上:当鼠标悬在该点/星形结构时,维度视图的分布更新为鼠标点击该点/星形结构后的情况;当鼠标移开时,维度视图的分布还原到悬停前的样子;
3),鼠标圈选操作:圈选是在维度视图上用鼠标绘制一个多边形,所有位于这个多边形内部的点集都将被赋予以下操作,如果该点位于编辑区域,则将该点移出编辑区域;如果该点不位于编辑区域,则将其放置到编辑区域内,最后更新维度视图和数据视图;
所述数据视图为一系列的数据点组成,数据点的布局情况由MDS算法给出;
由MDS算法得到数据点的布局步骤为:
步骤a,得到距离矩阵:距离矩阵是数据点中每个数据点与其余的数据点之间的距离组成的一个矩阵;数据点与数据点之间的距离由表达式(7)给出,其中pi,pj代表的是第i个点和第j个数据点,dist(pi,pj)为数据点pi,pj之间的距离,S为输入的子空间维度集,即维度视图的编辑区域中包含的维度子集,S随维度视图中的编辑操作即时更新;d是指 S中的某一个维度;pi(d),pj(d)分别代表的是pi,pj点在维度d上的值;
步骤b,得到数据点在数据中视图中的分布:将距离矩阵作为MDS算法的输入,将算法得到的结果做为数据点在数据视图中的坐标信息。
在数据视图中包含以下操作:
1)圈选标记颜色:圈选是在维度视图上用鼠标绘制一个多边形,所有在这个多边形内部的点集都将被标记为当前指定的颜色。
CN201610550993.9A 2016-07-13 2016-07-13 一种基于维度相关性的子空间聚类可视分析方法 Expired - Fee Related CN106203516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610550993.9A CN106203516B (zh) 2016-07-13 2016-07-13 一种基于维度相关性的子空间聚类可视分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610550993.9A CN106203516B (zh) 2016-07-13 2016-07-13 一种基于维度相关性的子空间聚类可视分析方法

Publications (2)

Publication Number Publication Date
CN106203516A true CN106203516A (zh) 2016-12-07
CN106203516B CN106203516B (zh) 2019-04-09

Family

ID=57476621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610550993.9A Expired - Fee Related CN106203516B (zh) 2016-07-13 2016-07-13 一种基于维度相关性的子空间聚类可视分析方法

Country Status (1)

Country Link
CN (1) CN106203516B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368599A (zh) * 2017-07-26 2017-11-21 中南大学 高维数据的可视化分析方法及其分析系统
CN107451238A (zh) * 2017-07-26 2017-12-08 中南大学 探索高维数据的内在低维结构的可视化分析方法及其系统
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN109658489A (zh) * 2018-12-17 2019-04-19 清华大学 一种基于神经网络的立体网格数据处理方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989178A (zh) * 2010-11-05 2011-03-23 北京航空航天大学 多叉树数据结构的立体环状可视化方法
CN102855662A (zh) * 2012-07-25 2013-01-02 中国科学院对地观测与数字地球科学中心 海洋环境的可视化方法
CN104090957A (zh) * 2014-03-10 2014-10-08 中国科学院软件研究所 一种异构网络可交互可视化方法
CN104820708A (zh) * 2015-05-15 2015-08-05 成都睿峰科技有限公司 一种基于云计算平台的大数据聚类方法和装置
CN105094516A (zh) * 2014-05-12 2015-11-25 Sap欧洲公司 针对多维分层数据的可视化和导航
US20160042252A1 (en) * 2014-08-05 2016-02-11 Sri International Multi-Dimensional Realization of Visual Content of an Image Collection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989178A (zh) * 2010-11-05 2011-03-23 北京航空航天大学 多叉树数据结构的立体环状可视化方法
CN102855662A (zh) * 2012-07-25 2013-01-02 中国科学院对地观测与数字地球科学中心 海洋环境的可视化方法
CN104090957A (zh) * 2014-03-10 2014-10-08 中国科学院软件研究所 一种异构网络可交互可视化方法
CN105094516A (zh) * 2014-05-12 2015-11-25 Sap欧洲公司 针对多维分层数据的可视化和导航
US20160042252A1 (en) * 2014-08-05 2016-02-11 Sri International Multi-Dimensional Realization of Visual Content of an Image Collection
CN104820708A (zh) * 2015-05-15 2015-08-05 成都睿峰科技有限公司 一种基于云计算平台的大数据聚类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. TATU等: "Subspace search and visualization to make sense of alternative clusterings in high-dimensional data", 《2012 IEEE CONFERENCE ON VISUAL ANALYTICS SCIENCE AND TECHNOLOGY (VAST)》 *
张洋,王辰: "基于聚类的空间数据可视化方法", 《计算机应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368599A (zh) * 2017-07-26 2017-11-21 中南大学 高维数据的可视化分析方法及其分析系统
CN107451238A (zh) * 2017-07-26 2017-12-08 中南大学 探索高维数据的内在低维结构的可视化分析方法及其系统
CN107368599B (zh) * 2017-07-26 2020-06-23 中南大学 高维数据的可视化分析方法及其分析系统
CN107451238B (zh) * 2017-07-26 2020-08-04 中南大学 探索高维数据的内在低维结构的可视化分析方法及其系统
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN108021664B (zh) * 2017-12-04 2020-05-05 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN109658489A (zh) * 2018-12-17 2019-04-19 清华大学 一种基于神经网络的立体网格数据处理方法和系统
CN109658489B (zh) * 2018-12-17 2023-06-30 清华大学 一种基于神经网络的立体网格数据处理方法和系统

Also Published As

Publication number Publication date
CN106203516B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
US6990238B1 (en) Data processing, analysis, and visualization system for use with disparate data types
CN103473283B (zh) 一种文本案例匹配方法
CN105893551B (zh) 数据的处理方法及装置、知识图谱
US20170046617A1 (en) Computer-Implemented System and Method for Providing Classification Suggestions via Concept Injection
Stockwell et al. Use of an automatic content analysis tool: A technique for seeing both local and global scope
Teoh et al. PaintingClass: interactive construction, visualization and exploration of decision trees
CN106203516A (zh) 一种基于维度相关性的子空间聚类可视分析方法
CN106919689A (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN106991446A (zh) 一种互信息的组策略嵌入式动态特征选择方法
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
JP2024502730A (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN105354593A (zh) 一种基于nmf的三维模型分类方法
CN110377659A (zh) 一种智能图表推荐系统及方法
CN100535913C (zh) 一种用于芯片数据分析的可视化分析和展示方法
An et al. Classification method of teaching resources based on improved KNN algorithm
CN108304519A (zh) 一种基于图数据库的知识森林构建方法
Aurisano et al. Visual Analytics for Ontology Matching Using Multi-linked Views.
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
Setiadi et al. A model of geographic information system using graph clustering methods
Mostafa et al. Review of data mining concept and its techniques
Matsushita et al. An interactive visualization method of numerical data based on natural language requirements
Ibrahim et al. Exquisite: explaining quantities in text
CN105717420A (zh) 电力电缆的合成聚类方法
CN105426460A (zh) 科研信息管理方法
Dong et al. Fuzzy hierarchical clustering algorithm facing large databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190409

CF01 Termination of patent right due to non-payment of annual fee