CN105404643B - 针对具有多维属性的层次结构数据的可视化方法和应用 - Google Patents
针对具有多维属性的层次结构数据的可视化方法和应用 Download PDFInfo
- Publication number
- CN105404643B CN105404643B CN201510706033.2A CN201510706033A CN105404643B CN 105404643 B CN105404643 B CN 105404643B CN 201510706033 A CN201510706033 A CN 201510706033A CN 105404643 B CN105404643 B CN 105404643B
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- property
- multidimensional
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种针对具有多维属性的层次结构数据的可视化方法MCT,MCT方法针对层次结构中多维属性数据,选择一组层次结构关系互相关联的四维属性数据作为待显示的数据集,将平行坐标结合树图布局矩形填充方法,利用基数样条曲线进行属性连接,将直线优化为中间收缩的曲线,从而利用有限的可视化空间同时展示数据层次结构和多维属性信息。将MCT应用于农残数据,针对具有层次、多维、时空特征的农药残留侦测复杂数据,用树图来表示农产品分类、农药分类和地域的层次结构,用矩形节点中的多维坐标表示农产品、农药、残留量、限量标准值等多维属性,取得良好的可视化分析效果。
Description
技术领域
本发明属于信息可视化领域,具体涉及一种针对具有多维属性的层次结构数据的可视化方法和应用。
背景技术
随着数据采集技术的革新与进步,经济社会各领域获得的数据体量和复杂性不断激增,为数据分析提出了极大的挑战。信息可视化与可视分析作为一种大数据分析的有效方法已逐渐显示出其强大的生命力。在可视分析领域中,分析研究的数据对象通常包括具有多维属性的多维数据、具有层次结构的层次数据、具有网络关系的网络数据和具有时间空间特征的时空数据等等,针对这些类型的数据,人们也提出了相应的可视化方法。
层次数据的可视化算法主要有结点-链接法和空间填充法2种。结点-链接法采用不同形状的点表示对象(内容信息),点之间的连线表示对象间的关系(结构信息)。其优点为就是层次结构表现清晰,但其缺点为空间利用率低,展现层次和节点数目有限,通常不能表现属性值的大小等。空间填充法则利用空间嵌套形式表示层次结构,利用多边形面积表示对象属性值的大小。其优点是空间利用率高,展现的层次和节点数较节点-链接法多,且可展现节点权值的大小;其缺点是层次结构展现没有节点-链接法清晰。多维数据的可视化方法主要有散点图、散点图矩阵、平行坐标、雷达图、堆叠图等,其目的将多维数据从抽象的高维空间上映射到可视的二维或三维空间上,便于人们理解数据和发现其中的信息。
而在实际应用领域中,数据的组成不断趋于复杂,大部分数据不仅仅具有单一的数据特征,而是同时具有多种数据特征,本文称其为复杂数据,如农药残留侦测数据、股票数据和网络安全数据就都具有多种数据特征。对于这类复杂数据,现有针对单一数据特征的可视化和可视分析方法已不能满足对其分析的需求,一般采用由2种或以上的可视化方法结合而成,例如Newsmap、Elastic Hierarchies和TreemapBar等。
树图是一种典型的层次数据可视化方法之一,近年来人们对其布局算法进行了大量研究。Johnson等于1991年提出了一种树图布局算法,命名为Slice and Dice。该布局算法容易出现长宽比恶劣(长宽比与1相差很多)的矩形,导致矩形难以识别,不利于交互,影响算法可应用的范围。Bruls等针对该缺点于1999年提出了Squarified布局算法,确保填充的矩形更接近正方形,易于人眼对矩形的识别。为了使无序的Squarified布局算法部分有序,陈谊等于2013年提出一种分块排序的正方化树图布局算法。Shneiderman等采用轴的思想于2001年提出了Pivot布局算法,Bederson等于2002年提出了以带状形式进行矩形填充的Strip算法,Tu等于2007年提出了以螺旋状进行矩形填充的Spiral算法。这3种算法在保证树图布局矩形的平均长宽比的情况下,追求更高的连续性和可读性。针对具有地理位置属性的特殊层次结构的数据,Wood等于2008年提出了Ordered-Squarified和SpatiallyOrdered 2种算法。胡海云等于2014年针对结点权值值差异大的层次数据,提出了一种有序的正方化树图布局算法SOTLA,在保证平均长宽比的情况下兼顾了连续性。Thomas等于2012年将树图布局算法的决定因素归纳为Order、Size、Chunk、Recurse和Phrase,用户可以通过对该5项属性的自定义设置可以实现不同形式的树图布局。
TimeWheel由Tominski等提出,将6个属性轴以六边形的形式围绕时间轴,以不同的颜色连线代表不同的属性与时间轴的映射关系。Jarry等人提出一种灵活连接坐标。通过改造平行坐标的轴,可帮助用户自定义不同的形状的坐标轴表示不同属性。
树图布局算法可以很好地应用于层次数据的可视分析。对于较为复杂的数据,单一的树图布局无法满足其所有属性可视化的需求。选用混合布局算法将能实现可视化算法之间的互补,更好地显示数据的复杂特征。根据树图布局的矩形布局特点,结点通过与结点链接、标签云和柱状图等可视化方法相结合,可以形成新的混合布局算法。
发明内容
为了克服上述现有技术的不足,本发明提供一种树图中的多维坐标布局算法MCT(Multi-Coordinates Treemap),该算法将平行坐标的思想应用于树图布局之中,充分结合树图布局矩形填充的特点,利用有限的可视化空间,同时展示数据的层次结构和多维属性信息,帮助领域可视分析。
本发明提供的技术方案是:
一种针对具有多维属性的层次结构数据的可视化方法,所述方法是一种树图中的多维坐标布局方法,针对层次结构中多维属性数据,选择一组通过层次结构关系互相关联的四维属性数据作为待显示的数据集,将平行坐标的思想结合树图布局矩形填充方法,利用有限的可视化空间同时展示数据的层次结构和多维属性信息;针对待显示的数据集进行可视化的操作步骤如下:
A,通过树图布局方法,将待显示的数据集中的每个数据结点表示为一个矩形,矩形的四条边分别用于表示待显示的数据集中的每个数据结点的四维属性;
B,以矩形的最上边开始以顺时针方向依次排列属性一至属性四,可通过设置刻度缩进q,使得数据结点的每个属性的属性值根据从小到大的方向分别为从左至右或从上至下排列在矩形的四条边,从而实现四维属性从平行坐标到多维坐标的映射;
C,利用基数样条曲线方法进行属性连接,通过收缩系数r和张力系数g将直线优化为中间收缩的曲线,从而得到待显示的数据集的四维属性数据的多维坐标布局。
上述针对具有多维属性的层次结构数据的可视化方法中,步骤A所述树图布局方法为Squarifeid方法或Strip方法。
上述针对具有多维属性的层次结构数据的可视化方法中,步骤B所述数据结点的每个属性的属性值分为连续属性值和离散属性值;所述属性值根据从小到大的方向分别为从左至右或从上至下排列在矩形的四条边,包括连续属性值和离散属性值排列方法;具体为:
情况1:连续属性值的映射;
B1.a:根据属性值的最小值Mn和最大值Mx确定矩形中属性值在该矩形边上的映射位置;
B1.b:设定位置Pn和Px分别对应属性值的最小值Mn和最大值Mx;
B1.c:属性值为Va的点在矩形边上的对应位置Pa可根据公式1计算得到:
B1.d:当相邻属性分别为属性值的最大值和最小值时,若直接将矩形边的两端设为Pn和Px,若连线与矩形边重叠,属性值的点处于矩形两条边相交的顶点处,会影响该点的归属判定,则步骤B1.b对边的有效位置进行重新设定,具体为:
采取百分比缩进的方法重新设定矩形边位置Pn和Px,为每一条的两端留出空白位置,作为临界区域不进行使用;所述百分比缩进的方法是:设属性映射的矩形边长为L,缩进百分比为q,Pn和Px的取值分别通过公式2和公式3计算得到:
Px=L×(1-q/2) (式3)
情况2:离散属性值的映射:
B2.a:设A属性具有离散值X{x1,x2,……,xs},总计共有s个值,计算其去重后的离散值为Y{y1,y2,……,yu},共计u个;
B2.b:设属性对应的矩形边边长为L,则计算两个离散属性值之间的间隔距离为d=L/u;
B2.c:设定每个离散属性值在矩形边的开始端位置为D{d/2,d/2+d,……,d/2+(u-1)d},分别对应属性值{y1,y2,……,yu};
B2.d:为了防止某一离散刻度上的线过于密集,对不同属性值对应的相同的离散刻度进行位置偏移;首先通过c=d/s计算得到每个点位移的位置;然后,具有相同离散值的点在矩形边上的位置是以D[i]为中心,按照顺序依次从左向右或从上至下进行位置映射。
上述针对具有多维属性的层次结构数据的可视化方法中,步骤C所述通过基数样条曲线方法进行属性连接,将直线优化为中间收缩的曲线,具体包括如下步骤:
C1:取矩形的最上边和最右边的属性之间的连接线,设最上边的属性的最小值和最大值坐标分别对应P1n和P1x,设最右边的属性的最小值和最大值坐标分别对应P2n和P2x。则4个点形成的不规则四边形为P1nP1xP2xP2n;
C2:取P1nP2x和P1xP2n的中点Ma和Mb,根据用户设定的收缩系数r,以Ma和Mb的中点对线段MaMb进行长度的收缩,使得式4成立:
M′b-M′a=(Mb-Ma)×r (式4)
式4中,Ma’与Mb’为收缩后的对应Ma和Mb的点;
C3:与属性i和属性i+1相对应的两点Pie和P(i+1)e分别与P2x与P1x存在连线,假设这两条连线与线段MaMb的交点为a、b,经过缩放系数r改变后的交点位置为a’、b’,则a’、b’通过式5和式6计算得到:
通过式5和式6分别确定好a’、b’点的位置后,根据基数样条函数过点Pie和P2x画曲线PieP2x,过点P1x和P(i+1)e画曲线P1xP(i+1)e;
C4:步骤C3所述曲线是由两个曲线顶点和基础函数组所确定,具体过程如下:
用于计算的点包括曲线顶点Pa、Pb,两个张力相关的变量T1和T2,其中
式7中,g∈(0,1)为用户设定的张力系数;当Pi+1或Pi-1不存在时,设定其值等于0;
C5:T1和T2分别作用于点Pa和Pb上;基础函数组为式8:
式8中,s∈[0,1];
将点Pa,Pb和中间的任意一个点Pab代入式9,计算得到每一个结点的位置:
ps=h1(s)×Pa+h2(s)×Pb+h3(s)×T1+h4(s)×T2 (式9)
曲线上的每一个结点ps的位置都符合式9。
上述针对具有多维属性的层次结构数据的可视化方法中,所述步骤C通过基数样条曲线对数据进行可视化布局之后,用户可根据曲线的密集程度,进行可视化交互方式进行收缩系数r和张力系数g的自定义设置,从而达到曲线弯曲程度更加适用于当前结果视图的目的。
本发明还同时提供将权利要求1~5任一所述针对具有多维属性的层次结构数据的可视化方法应用于农药残留数据的展示分析,具体是,针对具有地理区域层次特征和多维特征的农药残留数据,选择一组通过层次结构关系互相关联的四维属性数据作为待显示的数据集;根据地理区域对数据集进行层次划分,采用树图布局方法进行布局;选择农产品、农药、农药残留检出量、中国MRL标准判定结果作为四项属性进行可视化分析;通过设置刻度缩进s,以矩形的最上边开始以顺时针方向依次排列属性一至属性四,使得数据结点的每个属性的属性值根据从小到大的方向分别为从左至右或从上至下排列在矩形的四条边,从而实现四维属性从平行坐标到多维坐标的映射;利用基数样条曲线方法进行属性连接,通过收缩系数r和张力系数g将直线优化为中间收缩的曲线;得到所述四维属性数据的多维坐标布局;通过四种颜色分别代表所述四维属性之间的连线,通过矩形颜色的深浅代表数据存储顺序;再通过交互方式进行收缩系数r和张力系数g的自定义设置,从而达到所述的弯曲程度更加适用于区分可视化当前结果视图的目的。
上述针对具有多维属性的层次结构数据的可视化方法应用于农药残留数据的展示分析,进一步地,所述刻度缩进s=0.8,收缩系数r=0.2,张力系数g=0.5。
上述针对具有多维属性的层次结构数据的可视化方法应用于农药残留数据的展示分析,进一步地,在本发明实施例中,所述应用借助柱形图辅助进行可视化分析。
与现有技术相比,本发明的有益效果:
在实际应用领域中,数据的组成不断趋于复杂,大部分数据不仅仅具有单一的数据特征,而是同时具有多种数据特征,本发明称其为复杂数据,如农药残留侦测数据、股票数据和网络安全数据就都具有多种数据特征。对于这类复杂数据,现有针对单一数据特征的可视化和可视分析方法已不能满足对其分析的需求。
本发明提供一种树图中的多维坐标布局算法MCT(Multi-Coordinates Treemap),该算法将平行坐标的思想应用于树图布局之中,充分结合树图布局矩形填充的特点,利用有限的可视化空间,同时展示数据的层次结构和多维属性信息,帮助领域可视分析。本发明提供的针对具有多维属性的层次结构数据的可视化方法是一种树图中的多维坐标布局方法,针对层次结构中多维属性数据,选择一组通过层次结构关系互相关联的四维属性数据作为待显示的数据集,将平行坐标的思想结合树图布局矩形填充方法,利用有限的可视化空间同时展示数据的层次结构和多维属性信息。将MCT算法应用于农药残留侦测数据,针对具有层次、多维、时空特征的农药残留侦测复杂数据,用树图来表示农产品分类、农药分类和地域的层次结构,用矩形节点中的多维坐标表示农产品、农药、残留量、限量标准值等多维属性,,取得良好的可视化分析效果。
附图说明
图1是本发明提供的针对具有多维属性的层次结构数据的可视化方法的流程框图。
图2为步骤A中的平行坐标到多维坐标的映射示意图;
其中,(a)为基于平行坐标属性值的连接效果图;
(b)为基于多维坐标属性值的连接效果图。
图3为步骤B中对连续属性值的操作,连续属性值刻度设定与连线示意图;
其中,(a)为属性连线与矩形边重叠情况效果图;
(b)为MCT算法中连续属性值刻度设定效果图。
图4为步骤B中对离散属性值的操作,离散属性值刻度设定示意图。
图5为步骤C中不同属性值之间的曲线连接处理过程图;
其中,(a)为直线链接效果图;
(b)为收缩后直线链接效果图;
(c)为收缩后曲线链接效果图。
图6为步骤D中曲线的拟合过程示意图。
图7为步骤D中不同缩放系数和张力系数下的曲线拟合效果图;
其中,(a)为收缩系数为1和张力系数为0或者收缩系数为1和张力系数为1的效果图;
(b)为收缩系数为0.5和张力系数为0的效果图;
(c)为收缩系数为0.5和张力系数为0.5的效果图;
(d)为收缩系数为0.2和张力系数为0.6的效果图;
(e)为收缩系数为0和张力系数为0.3的效果图。
图8为本发明实施例采用的可视化方法的总体流程框图。
图9为针对模拟的农残数据,使用MCT算法与Squarified树图算法结合布局的可视化效果图:
其中,(a)为属性轴定义效果图;
(b)为选中样品为不超标的具体情况效果图;
(c)为选中样品为超标的具体情况效果图;
(d)为用MCT技术对某城市8个地区(A、B、…H)中各市场检出农药残留情况的可视化布局效果图。
图10为针对模拟的农残数据,使用MCT算法与Strip树图算法结合布局对某地区11个市场中所有被检水果中检出农药残留超标情况的可视化效果图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种针对具有多维属性的层次结构数据的可视化方法,该方法是一种树图中的多维坐标布局方法(MCT,Multi-Coordinates Treemap),将平行坐标的思想应用于树图布局之中,充分结合树图布局矩形填充的特点,利用有限的可视化空间,同时展示数据的层次结构和多维属性信息,帮助领域可视分析。
图1是本发明提供的针对具有多维属性的层次结构数据的可视化方法的流程框图。本发明针对层次结构中多维属性数据,对待显示的数据集进行可视化处理,本发明实施案例中,待显示的数据集是一组通过层次结构关系互相关联的4维属性数据,针对待显示的数据集进行可视化的操作步骤如下:
A,使用树图布局算法,将每个数据结点表示为一个个矩形,矩形的四条边分别表示为4个属性。图2为步骤A中的平行坐标到多维坐标的映射示意图;其中,(a)为基于平行坐标属性值的连接效果图;(b)为基于多维坐标属性值的连接效果图
B,以矩形的最上边开始以顺时针方向依次排列属性1至属性4,属性值从小到大的方向分别为从左至右和从上至下。
图3为步骤B中对连续属性值的操作,连续属性值刻度设定与连线示意图;其中,(a)为属性连线与矩形边重叠情况效果图;(b)为MCT算法中连续属性值刻度设定效果图。图4为步骤B中对离散属性值的操作,离散属性值刻度设定示意图。
C,进行属性连接时,由于不同属性之间的连线有可能出现交叉的情况,采取基数样条曲线的算法,将直线优化为中间收缩的曲线。
图5为步骤C中不同属性值之间的曲线连接处理过程图;其中,(a)为直线链接效果图;(b)为收缩后直线链接效果图;(c)为收缩后曲线链接效果图。
D,为了对当前结果图的进行更好的可视分析,需要进行曲线间的拟合,步骤C对数据进行可视化布局后,可根据曲线的密集程度进行收缩系数r和张力系数g的自定义设置。
将上述MCT方法应用于农药残留侦测数据,利用该方法对农残数据进行可视化分析,针对具有层次特征、多维特征、时空特征的农药残留侦测复杂数据,用树图来表示农产品分类、农药分类和地域的层次结构,用矩形节点中的多维坐标表示农产品、农药、残留量、限量标准值等多维属性,取得较好效果。
本实施例中的农残数据包括农药毒性层次数据、蔬菜关系层次数据以及农产品信息与农药信息关联关系;其中,农药毒性包括低毒、中毒、高毒和剧毒,其下包括多种具体的农药;蔬菜关系层次包括芸薹属类蔬菜、茄果类蔬菜、瓜类蔬菜、叶菜类蔬菜等,其下包括多种具体的蔬菜;农产品信息与农药信息关联关系为具体蔬菜中检出的具体农药;数据的表示形式如表1、表2和表3所示。
表1农药毒性层次数据(农药毒性分类信息表)
表2某市蔬菜关系层次数据
表3农产品信息与农药信息关联关系表(以冬瓜为例)
农残数据具有多维属性特征,针对其层次结构,我们采用现有的方法,Squarifeid算法和Strip算法进行树图布局,分别突出检出频次的多少和数据的顺序特性。
对待显示的农残数据集进行可视化处理,MCT算法的具体操作步骤如下:
A,使用树图布局MCT算法,使每个数据结点对应为一个矩形,矩形的四条边分别表示为农产品、农药、残留量、限量标准值等4个属性;
具体操作步骤为:
A1.矩形框的四条边为直线线段,参照平行坐标的思想,可将每一条矩形边类比为平行坐标中的一个纵轴;
A2.在一个代表结点的矩形中,可以将四条边分别表示为4个属性。
经过A1和A2的操作,可以实现具有4维属性的平行坐标到多维坐标的映射;
B,以矩形的最上边开始以顺时针方向依次排列属性1至属性4,属性值从小到大的方向分别为从左至右和从上至下;
数据结点的属性值分为连续属性值和离散属性值,需分成两种情况进行属性值的映射:
情况1:连续属性值的映射;
B1.a:根据属性值的最小值Mn和最大值Mx确定矩形中属性值在该矩形边上的映射位置;
B1.b:设位置Pn和Px分别对应属性值的最小值Mn和最大值Mx;
B1.c:属性值为Va的点在矩形边上的对应位置Pa可根据公式1计算得到:
B1.d:如果直接将矩形边的两端设为Pn和Px,当相邻属性处于最大点或最小点时,属性值的点将会处于矩形2边相交的顶点处,会影响该点的归属判定;当相邻属性分别取最大值和最小值时,连线有可能与矩形边重叠,因此需要对边的有效位置进行重新设定。
采取百分比缩进的方式重新设定矩形边位置Pn和Px,为每一条的两端留出空白位置,作为临界区域不进行使用。设属性映射的矩形边长为L,缩进百分比为q,Pn和Px的取值分别通过公式2和公式3计算得到:
Px=L×(1-q/2) (式3)
通过将点布局的位置进行前后两端的缩进,避免了属性值点归属不清和不同属性之间的连线与矩形边重合的问题;
经过对B中情况1的操作,可以实现对连续属性值的映射。
情况2:离散属性值的映射:
B2.a:设A属性具有离散值X{x1,x2,……,xv},总计共有v个,计算其去重后的离散值为Y{y1,y2,……,yu},共计u个。
B2.b:设属性对应的矩形边边长为L,则计算2个离散属性值之间的间隔距离为d=L/u;
B2.c:每个离散属性值在矩形边的开始端位置为D{d/2,d/2+d,……,d/2+(u-1)d},分别对应属性值{y1,y2,……,yu}。
B2.d:为了防止某一离散刻度上的线过于密集,对不同属性值对应的相同的离散刻度需要进行位置偏移。
首先计算每个点位移的位置为c=d/v。具有相同离散值的点,其在矩形边上的位置以中间那个离散值对应的点为中心,按照顺序依次从左向右或从上至下进行位置映射。以第三个刻度为例,若有五条线对应5d/2这个刻度,则开始以第5d/2-2c点的位置的基础,逐条直线的连接点向右偏移c,最后一条直线的连接点为5d/2+2c。
经过对B中情况2的操作,可以实现对离散属性值的映射。
C,进行属性连接时,由于不同属性之间的连线有可能出现交叉的情况,采取基数样条曲线的算法,将直线优化为中间收缩的曲线;
具体操作步骤为:
C1:取矩形的最上边和最右边的属性之间的连接线,设最上边的属性的最小值和最大值坐标分别对应P1n和P1x,设最右边的属性的最小值和最大值坐标分别对应P2n和P2x。则4个点形成的不规则四边形P1nP1xP2xP2n。
C2:取P1nP2x和P1xP2n中点Ma和Mb,根据用户自定义的收缩系数r,r的取值范围是0<r<1,Ma和Mb的中点对线段MaMb进行长度的收缩,使得式4成立:
M′b-M′a=(Mb-Ma)×r (式4)
式4中,Ma’与Mb’为收缩后的对应Ma和Mb的点。
C3:与属性i和属性i+1相对应的2点Pie和P(i+1)e分别与P2x与P1x存在连线,这两条连线与线段MaMb的交点为a,b,则经过缩放系数r改变后的交点位置为a’,b’,其中:
通过式5和式6分别确定好a’,b’点的位置后,根据基数样条函数过点Pie和P2x画曲线PieP2x,过点P1x和P(i+1)e画曲线P1xP(i+1)e。
C4:曲线是由3个点和基础函数组所确定的。
用于计算的点包括两个曲线顶点和当中的一个点(这个点为收缩后的中线交点),曲线顶点用Pi-1和Pi+1表示,当中的那个点用Pi表示,2个张力相关的变量,用T1和T2表示,其中:
而g∈(0,1)为用户自定义的张力系数。
C5:T1和T2分别作用于点Pi-1和Pi。基础函数组为公式组(式8),将点Pi-1,Pi中间的任意一个点Ps带入公式(式9)中,计算每一个结点的位置。
其中参数s∈[0,1]。根据描述基数样条曲线的方程组公式(式8),并保证曲线上的每一个点ps都符合公式(式9)。
ps=h1(s)×Pi-1+h2(s)×Pi+h3(s)×T1+h4(s)×T2 (式9)
C6:将直线分割为np段,当np趋近于无穷大时,点与点之间的连线无限趋近于曲线,连线的具体过程如下伪代码所示:
经过步骤C的操作,可以实现进行属性连接,连接属性的连接线为中间收缩的曲线;
D:为了对当前结果图的进行更好的可视分析,需要进行曲线间的拟合:
以上图中PieP2x连线为例,分别代表属性i取值的点Pie和属性i+1取值的点P2x,以及其收缩后中线交点a′,(这个点即为当中的那个点,此处用a′表示)组成结点向量S(Pie,a′,P2x),对每一条曲线的结点向量依次绘制2点之间的曲线,绘制过程如图6。
使用MCT算法对数据进行可视化布局后,用户可以根据曲线的密集程度,通过可视化的交互方式进行收缩系数r和张力系数g的自定义设置,使曲线的弯曲程度更加适用于当前结果图的可视分析,布局后的可视化效果如图7所示。
下面结合附图和实施例,对本发明技术方案作进一步的说明。
图8为本发明实施例采用的可视化方法的总体流程框图。本实例中利用MCT算法对农药残留数据进行可视化分析。农残数据具有多维特征,比如:样品名称、样品分类、样品编号、采样时间、采样地点(包括采样的区域、省、市和区县)、样品来源、检测项目、检测方法、检测最低限、检测最高限以及检测结果(包括定量结果和定性结果)等。此外,农残数据还具有层次结构特征,全国各个地区农药检测结果数据作为数据集,根据全国各大区域对数据集进行层次划分,数据的层次关系采用检测地点从大区域向小区域详细划分,针对其层次结构,采用树图布局算法进行布局,分别突出检出频次的多少和数据的顺序特性。
图9为实施例中针对模拟的农残数据,使用结合Squarified树图算法的MCT布局方法的可视化效果图。模拟的农残数据为某城市8个地区(A、B、…H)中各市场检出农药残留情况。图9为该实施例的可视化效果图。其中,树图采用squarified布局算法生成,使用MCT算法产生树图结点及节点内属性值的曲线链接,每一个树图结点表示一个超市中各水果样品中农药残留的检出情况,包括水果名称、检出农药名称、检出量和参照中国MRL标准的判定结果4种属性。
该实施例的数据集具有典型的地理区域层次特征。数据源X为连锁超市,在Y城市8个区所有分店的抽样检测结果,每个结点矩形的边依顺时针分别对应20种水果名称(离散值),18种农药名称(离散值),农药残留检出量(连续值),中国MRL标准判定结果(离散值)4项属性进行可视化分析,如图9(a)。其中中国MRL标准判定结果由未超标和超标组成,对应矩形的右侧边点从上至下为未超标和超标。对于超标的数据,采用红色线条连接。刻度缩进q=0.8,收缩系数r=0.2,张力系数g=0.5。4种颜色分别代表不同属性之间的连线,矩形颜色的深浅代表结点的存储顺序,整体的布局效果图如9(b)和9(c),图9(d)分别展示了当选中不同超市的样品时,样品超标和不超标的具体情况。以超市B1和D1为例,选中曲线高亮显示。
根据布局效果,由图9可以分析出,B区的检出的农药超标频次最多,而E区的检出频次最少。由于每个超市检出检测的水果种类和农药种类都不一定都有检出,因此存在抽样不完全或者农药未检出的情况。从图中可以看出,每种水果对应的检出农药超标结果数据较为平衡,而农药存在相对于集中于某1-2个农药中。通过查看灰色圈中线条的原始数据,可以发现其对应的农药为多菌灵和嘧霉胺,均为杀菌剂。通过观察各矩形右侧边的交点,根据MCT算法可以推断出来线条密集区域为未超标的数据,则可以推断出大部分抽样结果属于未超标范围,仅有少量的农产品检测结果超标,部分超市的采样样品不存在农药超标的情况。同时也可以看出所有区域都都存在所有农产品均检测合格的超市。图中区域G中左上角第一家超市,虽然检测的数据量较大,但是整体检测效果良好,不存在超标的检测数据。
为了更加详细分析数据的特征,本发明还可借助柱形图辅助MCT算法进行可视化分析。对比中国、欧盟和日本的MRL标准,图10为采用了模拟的农残数据,在结合Strip树图算法的MCT布局的可视化效果图。采用数据的水果种类作为层次关系,数据源为某市某区11个超市的12种水果抽样检测得到的农药残留超标结果情况。其中的树图采用strip布局算法生成,使用MCT算法产生树图结点及节点内属性值的曲线链接,每一个树图结点表示一种被检水果样品中农药残留的超标情况,包括水果名称、参照中国、欧盟和日本MRL标准的判定结果4种属性。4个多维属性依顺时针对应40种农药名称,中国MRL,欧盟MRL和日本MRL标准判定结果。刻度缩进q=0.8,收缩系数r=0.4,张力系数g=0.6。4种颜色分别代表不同属性之间的连线,矩形颜色的深浅代表结点的存储顺序。按顺时针的顺序,红线的末端连接的点,表示该条数据在该点的值存在超标,其中该条数据在任何一个国家的MRL标准中判定为超标,则末端连接该超标农药名的线条将为红色。通过选择其中一条曲线,曲线则会蓝色高亮显示,同时与其相关四个的属性值都会有相应标记,如图10所示。
由图10可以分析出,不是每个超市都有对12种水果进行采样,采样的水果品种数并不相等。面积大的矩形即检出农药频次多的超市不一定存在超标样品数据,如超市B1、B3,而面积小的矩形即检出农药频次少的超市却可能存在超标样品数据,如超市H2和H3。由此证明每个超市的超标样品数量与样品数量没有必然的联系。
针对超标的数据进行分析,分别查看在中国、欧盟和日本MRL标准下的检测判定情况。通过分析柱状图可以发现,按照中国MRL标准,本批检测样品的合格率达95%以上,日本MRL标准判定较为严格,但可以看出检测区域的农产品也可以达到86%以上的合格率。这证明我国水果中农药超标情况仍在控制范围。通过对比三个国家的柱状图,可以发现MRL标准的严格程度的顺序为日本>欧盟>中国。从树图中查看每一个超标数据在4个属性之间的连线,可以发现在中国MRL标准下属于超标的农药残留量检测结果数据,在欧盟MRL和日本的MRL标准下也属于超标,反之不然,如图10的超市1。同时欧盟与日本的MRL标准也存在类似的情况。可以分析出,就MRL评价标准的严格而言,再次证明了日本MRL标准最为严格,其次为欧盟MRL标准,中国MRL标准相对比较宽松,这说明我国的食品安全检测标准还需要加强。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (8)
1.一种针对具有多维属性的层次结构数据的可视化方法,所述方法是一种树图中的多维坐标布局方法,针对层次结构中多维属性数据,选择一组层次结构关系互相关联的四维属性数据作为待显示的数据集,将平行坐标的思想结合树图布局矩形填充方法,利用有限的可视化空间同时展示数据的层次结构和多维属性信息;针对待显示的数据集进行可视化的操作步骤如下:
A,通过树图布局方法,将待显示的数据集中的每个数据结点表示为一个矩形,矩形的四条边分别用于表示待显示的数据集中的每个数据结点的四维属性;
B,以矩形的最上边开始以顺时针方向依次排列属性一至属性四,可通过刻度缩进,使得数据结点的每个属性的属性值根据从小到大的方向分别为从左至右或从上至下排列在矩形的四条边,从而实现四维属性从平行坐标到多维坐标的映射;
C,利用基数样条曲线方法进行属性连接,通过收缩系数r和张力系数g将直线优化为中间收缩的曲线,从而得到待显示的数据集的四维属性数据的多维坐标布局。
2.如权利要求1所述针对具有多维属性的层次结构数据的可视化方法,其特征是,步骤A所述树图布局方法为Squarifeid方法或Strip方法。
3.如权利要求1所述针对具有多维属性的层次结构数据的可视化方法,其特征是,步骤B所述数据结点的每个属性的属性值分为连续属性值和离散属性值;所述属性值根据从小到大的方向分别为从左至右或从上至下排列在矩形的四条边,包括连续属性值和离散属性值排列方法;具体为:
情况1:连续属性值的映射;
B1.a:根据属性值的最小值Mn和最大值Mx确定矩形中属性值在该矩形边上的映射位置;
B1.b:设定位置Pn和Px分别对应属性值的最小值Mn和最大值Mx;
B1.c:属性值为Va的点在矩形边上的对应位置Pa可根据公式1计算得到:
B1.d:当相邻属性分别为属性值的最大值和最小值时,若直接将矩形边的两端设为Pn和Px,若连线与矩形边重叠,属性值的点处于矩形两条边相交的顶点处,会影响该点的归属判定,则步骤B1.b对边的有效位置进行重新设定,具体为:
采取百分比缩进的方法重新设定矩形边位置Pn和Px,为每一条的两端留出空白位置,作为临界区域不进行使用;所述百分比缩进的方法是:设属性映射的矩形边长为L,缩进百分比为q,Pn和Px的取值分别通过公式2和公式3计算得到:
Px=L×(1-q/2) (式3)
情况2:离散属性值的映射:
B2.a:设A属性具有离散值X{x1,x2,……,xv},总计共有v个值,计算其去重后的离散值为Y{y1,y2,……,yu},共计u个;
B2.b:设属性对应的矩形边边长为L,则计算两个离散属性值之间的间隔距离为d=L/u;
B2.c:设定每个离散属性值在矩形边的开始端位置为D{d/2,d/2+d,……,d/2+(u-1)d},分别对应属性值{y1,y2,……,yu};
B2.d:为了防止某一离散刻度上的线过于密集,对不同属性值对应的相同的离散刻度进行位置偏移;首先通过c=d/v计算得到每个点位移的位置;然后,具有相同离散值的点在矩形边上的位置是以中间离散值对应的点为中心,按照顺序依次从左向右或从上至下进行位置映射。
4.如权利要求1所述针对具有多维属性的层次结构数据的可视化方法,其特征是,步骤C所述通过基数样条曲线方法进行属性连接,将直线优化为中间收缩的曲线,具体包括如下步骤:
C1:取矩形的最上边和最右边的属性之间的连接线,设最上边的属性的最小值和最大值坐标分别对应P1n和P1x,设最右边的属性的最小值和最大值坐标分别对应P2n和P2x, 则4个点形成的不规则四边形为P1nP1xP2xP2n;
C2:取P1nP2x和P1xP2n的中点Ma和Mb,根据用户设定的收缩系数r,以Ma和Mb的中点对线段MaMb进行长度的收缩,使得式4成立:
M′b-M′a=(Mb-Ma)×r (式4)
式4中,Ma’与Mb’为收缩后的对应Ma和Mb的点;
C3:与属性i和属性i+1相对应的两点Pie和P(i+1)e分别与P2x与P1x存在连线,假设这两条连线与线段MaMb的交点为a、b,经过缩放系数r改变后的交点位置为a’、b’,则a’、b’通过式5和式6计算得到:
通过式5和式6分别确定好a’、b’点的位置后,根据基数样条函数过点Pie和P2x画曲线PieP2x,过点P1x和P(i+1)e画曲线P1xP(i+1)e;
C4:步骤C3所述曲线是由两个曲线顶点和基础函数组所确定,具体过程如下:
用于计算的点包括曲线顶点Pi,Pi+1,Pi-1,两个张力相关的变量T1和T2,其中
式7中,g∈(0,1)为用户设定的张力系数;当Pi+1或Pi-1不存在时,相应地,Pi+1或Pi-1取值为0;
C5:T1和T2分别作用于点Pi-1和Pi上;基础函数组为式8:
式8中,其中s∈[0,1],这里的s只是一个参数,没有实际意义;
将点Pi-1,Pi中间的任意一个点Ps带入公式(式9)中,计算得到每一个结点的位置:
Ps=h1(s)×Pi-1+h2(s)×Pi+h3(s)×T1+h4(s)×T2 (式9)
曲线上的每一个结点Ps的位置都符合式9。
5.如权利要求1所述针对具有多维属性的层次结构数据的可视化方法,其特征是,所述步骤C通过基数样条曲线对数据进行可视化布局之后,用户可根据曲线的密集程度,进行可视化交互方式进行收缩系数r和张力系数g的自定义设置,从而达到曲线弯曲程度更加适用于当前结果视图的目的。
6.将权利要求1~5任一所述针对具有多维属性的层次结构数据的可视化方法应用于农药残留数据的展示分析,其特征是,针对具有地理区域层次特征和多维特征的农药残留数据,选择一组通过层次结构关系互相关联的四维属性数据作为待显示的数据集;根据地理区域对数据集进行层次划分,采用树图布局方法进行布局;选择农产品、农药、农药残留检出量、中国MRL标准判定结果作为四项属性进行可视化分析;通过设置刻度缩进s,以矩形的最上边开始以顺时针方向依次排列属性一至属性四,使得数据结点的每个属性的属性值根据从小到大的方向分别为从左至右或从上至下排列在矩形的四条边,从而实现四维属性从平行坐标到多维坐标的映射;利用基数样条曲线方法进行属性连接,通过收缩系数r和张力系数g将直线优化为中间收缩的曲线;得到所述四维属性数据的多维坐标布局;通过四种颜色分别代表所述四维属性之间的连线,通过矩形颜色的深浅代表数据存储顺序;再通过交互方式进行收缩系数r和张力系数g的自定义设置,从而达到所述的弯曲程度更加适用于区分可视化当前结果视图的目的。
7.如权利要求6所述针对具有多维属性的层次结构数据的可视化方法应用于农药残留数据的展示分析,其特征是,所述刻度缩进q=0.8,收缩系数r=0.2,张力系数g=0.5。
8.如权利要求6所述针对具有多维属性的层次结构数据的可视化方法应用于农药残留数据的展示分析,其特征是,所述应用借助柱形图辅助进行可视化分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510706033.2A CN105404643B (zh) | 2015-10-27 | 2015-10-27 | 针对具有多维属性的层次结构数据的可视化方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510706033.2A CN105404643B (zh) | 2015-10-27 | 2015-10-27 | 针对具有多维属性的层次结构数据的可视化方法和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105404643A CN105404643A (zh) | 2016-03-16 |
CN105404643B true CN105404643B (zh) | 2018-06-12 |
Family
ID=55470133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510706033.2A Active CN105404643B (zh) | 2015-10-27 | 2015-10-27 | 针对具有多维属性的层次结构数据的可视化方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105404643B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354760B (zh) * | 2016-08-18 | 2018-12-11 | 北京工商大学 | 基于变形统计地图的多视图时空数据可视化方法与应用 |
CN106776844B (zh) * | 2016-11-28 | 2019-10-25 | 河南科技大学 | 一种复杂节点连接图的模拟力场集束捆绑方法 |
CN107103571B (zh) * | 2017-04-17 | 2018-07-31 | 中国检验检疫科学研究院 | 基于高分辨质谱、互联网和数据科学的农药残留侦测数据平台及侦测报告自动生成方法 |
CN107180076B (zh) * | 2017-04-18 | 2018-08-24 | 中国检验检疫科学研究院 | 基于高分辨质谱+互联网+地理信息的农药残留可视方法 |
CN108052580B (zh) * | 2017-12-08 | 2020-03-31 | 西南交通大学 | 一种基于多层关联网络的时空数据沉浸式可视分析方法 |
CN108241750B (zh) * | 2018-01-22 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 网络图中连接线的优化方法、装置、存储介质及终端 |
CN109885603B (zh) * | 2019-01-11 | 2022-08-26 | 西南交通大学 | 一种平行坐标可视化边绑定方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629271A (zh) * | 2012-03-13 | 2012-08-08 | 北京工商大学 | 一种基于堆叠树图的复杂数据可视化方法及设备 |
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
CN104462204A (zh) * | 2014-08-27 | 2015-03-25 | 北京工商大学 | 一种两类关联层次数据的可视化方法 |
-
2015
- 2015-10-27 CN CN201510706033.2A patent/CN105404643B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629271A (zh) * | 2012-03-13 | 2012-08-08 | 北京工商大学 | 一种基于堆叠树图的复杂数据可视化方法及设备 |
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
CN104462204A (zh) * | 2014-08-27 | 2015-03-25 | 北京工商大学 | 一种两类关联层次数据的可视化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105404643A (zh) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105404643B (zh) | 针对具有多维属性的层次结构数据的可视化方法和应用 | |
Lespinats et al. | CheckViz: Sanity Check and Topological Clues for Linear and Non‐Linear Mappings | |
CN107180076B (zh) | 基于高分辨质谱+互联网+地理信息的农药残留可视方法 | |
CN106354760B (zh) | 基于变形统计地图的多视图时空数据可视化方法与应用 | |
Bonham | Measurements for terrestrial vegetation | |
CN105512218B (zh) | 一种关联层次数据的可视化方法和应用 | |
De Oliveira et al. | From visual data exploration to visual data mining: A survey | |
Martins et al. | Visual analysis of dimensionality reduction quality for parameterized projections | |
Li et al. | Automated building generalization based on urban morphology and Gestalt theory | |
CN102629271B (zh) | 一种基于堆叠树图的复杂数据可视化方法及设备 | |
Burch et al. | A matrix-based visualization for exploring dynamic compound digraphs | |
CN106055580B (zh) | 一种基于Radviz的模糊聚类结果可视化方法 | |
Wang et al. | Unsupervised segmentation parameter selection using the local spatial statistics for remote sensing image segmentation | |
Li et al. | Polygon-based approach for extracting multilane roads from OpenStreetMap urban road networks | |
CN111177497B (zh) | 层次数据的关联关系可视化处理方法、服务器及存储介质 | |
Praveen et al. | An efficient clustering algorithm of minimum Spanning Tree | |
Hu et al. | Hierarchy in industrial structure: The cases of China and the USA | |
Frenkel et al. | An assessment of the usefulness of phytosociological and numerical classificatory methods for the community biogeographer | |
CN108022244A (zh) | 一种基于前景和背景种子用于显著目标检测的超图优化方法 | |
Regnauld* et al. | Creating a hydrographic network from its cartographic representation: a case study using Ordnance Survey MasterMap data | |
Hoi et al. | Data. Information and Knowledge Visualization for Frequent Patterns | |
Hussain | Outlier detection using graphical and nongraphical functional methods in hydrology | |
Zhang et al. | VDM-RS: A visual data mining system for exploring and classifying remotely sensed images | |
CN110008279A (zh) | 一种基于“关系-权值”有序矩阵的可视分析方法与应用 | |
Graham et al. | Extending taxonomic visualisation to incorporate synonymy and structural markers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |