一种基于类属性的平行坐标可视化曲线绑定方法
技术领域
本发明涉及信息可视化领域,特别是一种基于类属性的平行坐标可视化曲线绑定方法。
背景技术
在互联网时代,信息的产生和传播速度得到飞速的发展,特别是随着大数据时代的到来,数据越来越呈现出高维度、大容量的趋势。人们在直接面对大量的数据时,通常难以抓取其中有价值的信息,从而做出新的决策来指导生产生活。随着可视化技术的不断发展,人们可以借助于图形图像和人机交互的方式,方便直观地对数据进行分析和探索。目前,可视化技术已在生物、医学、物理、化学等众多领域发挥着重要的作用,并且越来越多地受到人们的关注。
现实生活中,人们通常只能感知到三维的世界,而人眼每个时刻仅能观察到二维的画面。因此在对高维数据进行可视化时,需要将数据投影到二维或三维空间中,再绘制成图形图像呈现给用户。现有的高维数据可视化方法有平行坐标(Parallel Coordinates)、雷达图(RadViz)、3D视图(Viz3D)等。
平行坐标是一种高维数据可视化方法,它由Inselberg于1985年提出。平行坐标首先将各个维度属性依次投影到二维平面中,形成一列列方向一致、长度相等的平行坐标轴,每一个轴表示数据的一个维度属性。其次,将数据集在每个维度上的变化范围均匀地映射到相应的平行坐标轴上,使其具有对应的坐标刻度值。最后,通过将样本各维度数据投影到对应的坐标轴上,并依次连接起来,即得到该样本的平行坐标曲线。因为简单易用、表现直观、扩展性好等诸多优点,在近30多年来,平行坐标已经发展为最为流行的高维数据可视化方法之一。
平行坐标具备良好的维度扩展性,可以展示任意多维的数据,当数据集的属性维度发生变化时,只须在两侧增加或减少相应的属性轴即可。但随着数据集样本容量不断增大时,数据轴线间的交叉、重叠等杂乱现象将会越来越明显,导致可视化效果变差,严重时数据曲线将会完全覆盖整个平面,数据间变得不可分、不可读,使可视化失去意义。尽管借助于人机交互的方式人们可以对数据进行筛选过滤等展示局部数据的操作,但用户将无法从数据的原始平行坐标可视化图像中获取数据整体的变化趋势和其他有价值的信息。
发明内容
鉴于现在的平行坐标可视化在展示大量数据时存在视觉杂乱的问题,本发明的目的是提供一种将数据集中同类别样本绘制成束的平行坐标曲线绑定方法。
实现本发明目的的技术方案为:
一种基于类属性的平行坐标可视化曲线绑定方法,包括
步骤1:输入数据集D={d1,d2,…,dm},其中,m为样本数量,样本di=(di,1,di,2,…,di,n),1≤i≤m,n为属性维数,属性集为A={A1,A2,…,An};
步骤2:若n维属性中包含类别属性则将该属性记为Aclass,若不包含类别属性则采用聚类方法获得样本类别属性并将其记为Aclass,类属性集Aclass={C1,C2,…,Cl},其中l为类别的数量,class为类别属性所在的维度;
步骤3:分别计算不同类别属性的样本在其余属性A
j上的均值
C
k∈A
class,1≤j≤n且j≠class,并计算其在对应属性轴上的纵坐标位置
步骤4:根据吸引系数β得到样本d
i在对应属性A
j上向其类中心点即
偏移后的纵坐标位置
其中吸引系数β表示样本向其类中心点偏移的程度,0≤β≤1,β=0表示不偏移,β=1表示完全偏移;
步骤5:在相邻属性轴Aj和Aj+1间设置绑定控制点,并绘制样本di在此区间内的绑定曲线,具体步骤如下:
步骤5.1:根据可调节参数α,在两相邻属性轴A
j和A
j+1中间,距离其α*BandWidth的位置分别设置相应的虚拟绑定轴
和
其中α表示曲线在轴两端开始绑定的位置比例,0≤α≤0.5,α=0表示从属性轴开始绑定,α=0.5表示只在区间中心绑定,BandWidth为相邻属性轴A
j和A
j+1之间的宽度,虚拟绑定轴具有与对应属性轴相同的比例刻度;
步骤5.2:在虚拟绑定轴
和
上的
和
位置分别设置一虚拟绑定控制点,记为
和
和
分别为虚拟绑定轴
和
的横坐标;
步骤5.4:顺序经过点
绘制一段B样条曲线,得到样本d
i在属性轴A
j和A
j+1之间的绑定曲线,其中
和
分别为d
i在属性轴A
j和A
j+1上的位置;
步骤6:依次在所有相邻属性轴间绘制样本di的各段绑定曲线,并将得到的曲线连接起来即获得样本di的完整绑定曲线;
步骤7:对D中所有样本执行绑定操作,得到该数据集具有绑定效果的平行坐标可视化视图。
为了减少平行坐标在展示大量数据时所产生的视觉杂乱,提升数据可视化的质量,本发明根据样本类别属性的差异,为样本设置偏向其类中心位置的绑定控制点,将同类样本的平行坐标曲线绘制在一起,不同类别的样本因类别固有属性的不同而产生一定程度的分离,从而形成一束束有差异的绑定曲线,降低不同类别样本间因交叉堆叠而引起的视觉杂乱。
与现有技术相比,本发明的积极效果是:
一、区别于传统的平行坐标可视化,本发明有效降低了可视化的视觉杂乱。
传统的平行坐标可视化直接用直线将数据样本在各属性轴上的坐标点相连接,容易出现相互交叉或重叠的现象,本发明通过利用数据的类别信息,将同类别的样本绘制到一起,以减小同一类别的样本曲线所占用的视觉空间,从而降低在绘制大量曲线时所产生的视觉杂乱。同时,本发明采用B样条曲线绘制绑定的曲线,相对于传统的直线段而言,绑定曲线更光滑、更具有视觉美感。
二、区别于以往主要针对曲线中部进行绑定的方法,本发明同时保证了曲线两端的视觉效果。目前已有的方法大多只对曲线中部进行绑定而忽略曲线两端的杂乱,或曲线两端在绑定后仍然存在明显的杂乱情况,本发明在保证曲线中部和曲线两端均被绑定约束的情况下,能够在一定程度使曲线未绑定的端点部分保留原曲线的趋势,从而更易于在轴间实现对曲线的追踪。
附图说明
图1是虚拟绑定轴示意图。
图2是控制点设置示意图。
图3是绑定曲线示意图。
图4是不同参数下的绑定曲线示例图。
图5是本发明在实验数据集上的效果图。
图6是实验数据集的原始平行坐标可视化效果图。
图7、图8是现有曲线绑定方法效果对比图。
具体实施方式
本发明的具体实施步骤如下所示:
步骤1:输入数据集D={d1,d2,…,dm},其中,m为样本数量,di=(di,1,di,2,…,di,n),1≤i≤m,n为属性维数,属性集为A={A1,A2,…,An};
步骤2:若n维属性中包含类别属性则将该属性记为Aclass,若数据不包含类别属性则采用聚类方法获得样本类别属性并将其记为Aclass,类属性集Aclass={C1,C2,…,Cl},其中l为类别的数量,class为类别属性所在的维度;聚类可以采用任意一种适用于数据集的聚类算法,类别的数量可以根据用户的需要或可视化的视觉效果来进行个性化的调整;
步骤3:分别计算不同类别属性的样本在其余属性A
j(1≤j≤n且j≠class)上的均值
并计算均值点在对应属性轴上的纵坐标位置
计算公式如下:
其中,height为属性轴的长度。
步骤4:根据吸引系数β(0≤β≤1)得到样本
在对应属性A
j上向其类中心点
偏移后的纵坐标
吸引系数β表示样本向类中心点偏移的程度,β=0表示不偏移,β=1表示完全偏移,
为样本d
i在属性轴A
j上的纵坐标,样本与类中心点的纵坐标距离记为
即
步骤5:在相邻属性轴A
j和A
j+1间设置绑定控制点,并绘制样本d
i在此区间内的绑定曲线,具体步骤如下:
步骤5.1:根据可调节参数α(0≤α≤0.5),在两相邻属性轴A
j和A
j+1中间,距离其α*BandWidth的位置分别设置相应的虚拟绑定轴
和
其中α表示曲线在轴两端开始绑定的位置比例,α=0表示从属性轴开始绑定,α=0.5表示只在区间中心绑定,BandWidth为相邻属性轴A
j和A
j+1之间的宽度,虚拟绑定轴具有与对应属性轴相同的比例刻度;
步骤5.2:在虚拟绑定轴
和
上的
和
位置分别设置一虚拟绑定控制点,记为
和
和
分别为虚拟绑定轴
和
的横坐标;
步骤5.4:顺序经过点
绘制一段B样条曲线,得到样本d
i在属性轴A
j和A
j+1之间的绑定曲线,其中
和
分别为d
i在属性轴A
j和A
j+1上的位置;
步骤6:依次在所有相邻属性轴间绘制样本di的各段绑定曲线,并将得到的曲线连接起来即获得样本di的完整绑定曲线;
步骤7:对D中所有样本执行绑定操作,得到该数据集具有绑定效果的平行坐标可视化视图。
本发明设计了一种根据数据类属性对平行坐标曲线进行绑定的方法,通过计算各类样本在属性轴上的类中心,并设置绑定控制点,使同类样本的曲线向类中心偏移,形成一束束不同类别的绑定曲线。本发明可以有效地降低平行坐标在展示大量数据时,不同类别曲线之间出现的交叉重叠等视觉杂乱,提升平行坐标可视化的质量,为用户感知和分析数据提供更直观更便利的途径。
为了验证本发明的有效性,将本发明的方法应用于真实数据集Iris中(数据集来源http://archive.ics.uci.edu/ml/datasets/Iris),根据数据集提供的类别属性对数据进行划分并用不同的颜色绘制加以区分,得到如图5所示具有曲线绑定效果的平行坐标可视化图(参数α=0.15,β=0.85)。
试验一
为验证本发明曲线绑定结果的有效性,在原始平行坐标上展示Iris数据集,得到如图6效果图。对比图5和图6可以看出,若不借助颜色对样本进行标记,则其中两个类别的样本几乎无法直接用肉眼进行分辨,而经过绑定的曲线在不同类之间则更容易区分,并且数据的整体变化趋势也表现得更为明显。
试验二
为验证本发明的方法在曲线两端的视觉效果及易追踪性,分别与Yuan Luo等在2008年提出的平行坐标曲线绑定方法,以及Gregorio Palmas等在2014年提出的方法进行对比试验,其方法效果图分别如图7、图8所示。从图7中可以看出,虽然Yuan Luo等在平行坐标轴区间中部对曲线进行了绑定,但区间两侧仍然存在大量杂乱的情况。从图8中可以看出,Gregorio Palmas等利用三段曲线分别在区间中部和两端进行了绑定,但由于曲线绘制方法的原因,曲线在两端进行汇聚时其形状极为相似,特别地,当曲线偏移量较大时,曲线间将出现相互重叠遮掩的情况,使曲线难以分辨,进而导致难以在轴间对曲线进行追踪。此外,分段绘制的曲线在连接处容易出现转折现象,从而降低曲线的光滑程度,影响视觉美感。从图5可以看出,本发明在对曲线中部和两侧都进行一定程度绑定的前提下,通过一段完整的样条曲线来有效地保证了曲线的光滑性和原有的变化趋势,使得曲线在区间两侧的差异更明显,更易于在轴间实现对曲线的追踪。