CN104008179B

CN104008179B - 一种基于动态区域组合的多维数据表达方法

Info

Publication number: CN104008179B
Application number: CN201410253126.XA
Authority: CN
Inventors: 李永昊
Original assignee: Information Technology Co Ltd Is Exerted By Beijing Optibase
Current assignee: Beijing Ounomei Pharmaceutical Technology Co.,Ltd.
Priority date: 2014-06-09
Filing date: 2014-06-09
Publication date: 2017-08-25
Anticipated expiration: 2034-06-09
Also published as: CN104008179A

Abstract

一种基于动态区域组合的多维数据表达方法，在一个二维平面上表达的多种分组组合；并且各分组内所包括的数据变化时，分组之间平滑转变的；相邻各分组用不同颜色表达；在二维平面上的有限空间内准备有序表达数据的自然顺序及聚类，并且，在二维平面图上快速查询到想要查看的分组的详细信息；在二维平面上用多边形表达多种分组组合，按照各分组权重的比例来分配各自所在多边形的尺寸，各分组之间是无缝组合，在可视化时，按照所要求的级别来显示分组。

Description

一种基于动态区域组合的多维数据表达方法

技术领域

本发明涉及一种基于动态区域组合的多维数据表达方法，属于计算机程序技术领域。

背景技术

图表是人们认识客观事物，了解相关知识的重要辅助工具。它形象直观地反映了事物的发展变化、演变趋势或者是事物之间的相互关系。尤其是动态图表可以对系统行为的某些方面做出更为详细、清晰的描述，以便让观测者根据图表的结果对所关心的事物做出前期的预测。随着网络和图形图像的广泛发展，人们希望在实时查看数据或者实现数据共享的同时，能够以不同的方式来呈现和分析数据，如排序方式、分类方式、图表方式等等。

统计图是根据统计数字，用几何图形、事物形象和地图等绘制的各种图形，它的主要作用是比较直观地用图形来表示数据的对比关系和发展趋势，它是统计数据分析的一种方法。它具有直观、形象、生动、具体等特点。统计图可以使复杂的统计数字简单化、通俗化、形象化，使人一目了然，便于理解和比较，而且易于记忆。因此，统计图在统计资料整理与分析中占有重要地位，并得到广泛应用。

常见的统计图有线状图、直条图、饼状图和散点图。

线状图是以坐标系中曲线的形状、斜率变化，位置高低等来表现统计资料。线状图可以形象、直观地显示出事物的变化发展趋势。研究对象中不同的各组可以用不同颜色或线型的线条表示。它的特点是对各个时期数列的数据的运动轨迹以及发展趋势有较强的指示作用。例如，拆线统计图是用一个单位长度表示一定的数量，根据数量的多少，描出各点，然后把各点用线段顺次连接起来，折线统计图不但可以表示出数量的多少，而且能够清楚地表示数量增减变化的情况。

直条图是在直角坐标系中，用相同宽度长条的不同长短来表示数据资料的多少，还可在同一张图表中用不同颜色或阴影的条形表示研究对象中不同的各组，能直观地进行数量多少的对比。如果用柱形代替条形就得到柱形图，其原理与直条图相同。统计数量刻度比例要合适，并在适当位置作必要说明，如图例、单位等。它的特点是对各个时期数列的数据的运动轨迹以及发展趋势有较强的指示作用。

饼状图是以圆形代表研究对象的整体，用以圆心为共同顶点的各个不同扇形显示各组成部分在整体中所占的比例，要注明各扇形所代表的项目的名称(可用图例表示)及其所占百分比。它的特点是:用整个圆面积表示总数，用圆内的扇形面积表示各部分占总数的百分数,对数据中的各个分组的大小和结构有明显的比较作用。它的作用是从图中能清楚地看出各部分占总数的百分比，以及部分与部分之间的关系。

散点图是在坐标系中点出各个分析数据的相关位置，直观地显示出一组数据的分布情况。

这些统计图除了以上的特点之外，他们都有一个共性，就是都只是能够很好地表达二维的数据。但是在现实社会中，大量的数据是多维的，因此需要开发新的方法来表达多维数据。

发明内容

为了克服现有技术的不足,本发明提供一种基于动态区域组合的多维数据表达方法。

一种基于动态区域组合的多维数据表达方法，含有以下步骤；

在一个二维平面上表达的多种分组组合；并且各分组内所包括的数据变化时，分组之间平滑转变的；相邻各分组用不同颜色表达；在二维平面上的有限空间内准备有序表达数据的自然顺序及聚类，并且，在二维平面图上快速查询到想要查看的分组的详细信息；

在二维平面上用多边形表达多种分组组合，按照各分组权重的比例来分配各自所在多边形的尺寸，各分组之间是无缝组合，在可视化时，按照所要求的级别来显示分组；

各分组内所包括的数据变化时，分组之间平滑转变的；

设定了两个度量标准来衡量平滑转变；两个标准分别是：

1)分组区域的平均高宽比，

2)区域组合的距离变化函数，即分组转变时，数据更新的量化；

要达到平滑转变，这两个标准应该遵循的规则是：

1)较低的平均高宽比，

2)数据更新时，距离的变化尽可能地小；

相邻各分组用不同颜色表达；在对多维数据进行区域组合时，为了使用户更好地区分相邻分组，对相邻分组用不同的颜色表达；分配颜色的时候，通过计算两个相邻分组之间的颜色差别量来进行，分配颜色差别量尽可能大的两个颜色；

准确有序表达数据的自然顺序及聚类；数据在平面图形上表达的时候，按照数据的原始顺序排列表达各数据所在多边形的顺序。

在可视化时，按照所要求的级别来显示分组，具体步骤如下：

(1)先给级别最高的父类结点分配权重，权重大小的分配按照每个结点与各自的同级结点之间的比例来分配；

(2)分配完成后，每个结点都用一个多边形来表达，各个多边形之间是互不交叉且无缝组合的，并且相邻多边形可用不同的颜色来区分；

(3)每个分组按照自己的一级子类结点的特性再分组，依次循环分组，直到产生最小子类的分组；

其中，权重是为了表达每个分组的大小来定义的一个概念；这个方法中，在分组时，遵守的特性是：1)两个结点中，如果一个结点是另外一个结点的父类，则子类结点包括在父类中；2)结点所占区域直接与权重成正比；3)任何一个父类结点的权重都大于等于其所有子类结点的权重之和。

本发明的优点是搜索结果能够直观的显示出其层次信息、所属类别；帮助用户找到合适的内容。

附图说明

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，如图其中：

图1为本发明的以四边形为例划分区域示意图。

图2为以‘information visualization’做为查询条件，系统返回了的结果是经过排序的示意图。

图3为图2中的局部放大示意图。

图4为本发明的程序流程示意图。

图5为本发明的程序流程示意图。

下面结合附图和实施例对本发明进一步说明。

具体实施方式

显然，本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。、

实施例1：如图1、图2、图3、图4、图5所示，

在二维平面上表达多种分组组合；

各分组的数据在变化时，在区域组合中是平滑转变的；

相邻各分组用不同颜色表达的组色方法；

准确有序表达数据的自然顺序及聚类；

存储数据的详细信息并分别对应于各分组，且可单独放大分组数据信息。

根据本方法的一个方面，特性A中包括以下特性：在二维平面上用多边形表达多种分组组合，用嵌套多边形表达多维数据，按照各分组权重的比例来分配各自所在多边形的尺寸，并且各分组之间是无缝组合，在可视化时，可以按照所要求的级别来显示分组，具体步骤如下：

(3)每个分组按照自己的一级子类结点的特性再分组，依次循环分组，直到产生最小子类的分组。

其中，权重是为了表达每个分组的大小来定义的一个概念。这个方法中，在分组时，还必须遵守的特性是：1)两个结点中，如果一个结点是另外一个结点的父类，则子类结点包括在父类中；2)结点所占区域直接与权重成正比；3)任何一个父类结点的权重都大于等于其所有子类结点的权重之和。

根据本方法的一个方面,特性B中包括:各分组的数据在变化时，在区域组合中表达出来的结果是，给人的视觉上是平滑转变的。原理如下:

在本方法中，设定了两个度量标准来衡量平滑转变。两个标准分别是：1)分组区域的平均高宽比，2)区域组合的距离变化函数，即分组转变时，数据更新的量化。要达到平滑转变，这两个标准应该遵循的规则是：1)较低的平均高宽比，2)数据更新时，距离的变化尽可能地小。

定义区域组合的平均高宽比为所有分组的高宽比的未加权算数平均数，那么，平均高宽比应该是1.0，这意味着所有的多边形是都是等边形。尽管这是很难实现的，但是这是要尽可能达到的趋向。

另外一种方法是用加权平均数，这在较大的区域组合中发挥着更重要的作用。因此，这为观测者的整体视觉印象做出了很大的贡献。

区域组合的距离变化函数是用来衡量变化前后，两种区域组合之间的差别，并且，使用一个给定的算法产生的区域组合的变化快慢对应于数据更新的快慢。为了定义距离变化函数，在多边形中定义一个简单的度量标准，即在区域组合中，两个同级的多边形之间的距离。

在这里，以四边形为例来表达一下。本方法中，使用欧几里德度量，例如，如果四边形R₁和R₂分别定义为(X₁,Y₁,W₁,H₁)和(X₂,Y₂,W₂,H₂)，则R₁和R₂之间的距离为：

根据本方法的一个方面,特性C中包括:相邻各分组用不同颜色填充的组色方法，便于观测者区分各分组。原理如下:

颜色特征是在图像应用中最为广泛的视觉特征，主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外，与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较高的直观性。在对多维数据进行区域组合时，为了使用户更好地区分相邻分组，本方法中对相邻分组用不同的颜色表达。分配颜色的时候，可通过计算两个相邻分组之间的颜色差别量来进行，分配颜色差别量尽可能大的两个颜色。

颜色差别量，即色差，是指用数值的方法表示两种颜色以给人色彩感觉上的差别。若两个色样样品都按L*、a*、b*标定颜色，则两者之间的总色差△E*ab以及各项单项色差可用下列公式计算：

明度差：△L*＝L*1-L*2

色度差：△a*＝a*1-a*2 △b*＝b*1-b*2

总色差：ΔE*ab＝[(ΔL*)²+(Δa*)²+(Δb*)²]^1/2.

根据本方法的一个方面,特性D中包括:能够准确有序表达数据的自然顺序及聚类。数据在二维平面图形上表达的时候，按照数据的原始顺序排列表达各数据的多边形的顺序，这可以给使用者造成一个很好的直观的视觉印象。

以四边形为例，图示为图1，算法的具体实现步骤如下：

(1)设所要划分的多边形为R，首先选择一个特殊点R_P。如果第一级分组数小于等于4，则可以把任何一个分组分配给R_P，并且选择高宽比为1的分组；

(2)设R_P为所有分组中最大的；

(3)如果R的宽度大于或者等于其高度，把R分为四个矩形，R₁，R_P，R₂，和R₃。(如果高度大于宽度，用同样的方法分配，但是沿着线直线y＝x进行翻转)；

(4)把P放到多边形R_P中，它的精确大小和位置由第5步来确定；

(5)在划分时，除了P，其余的划分为三个分组，把数据L₁，L₂和L₃对应于分组R₁，R₂，R₃中。其中，L₁，L₂和L₃都有可能是空的。这三组数据完全决定了图1中多边形的位置。设L₁由所有的数据组成，在地位上，这些数据低于P。在设计L₂和L₃时，L₂中所有数据的地位低于L₃中的数据，R_P的高宽比要尽可能地接近于1。

(6)如果L₁，L₂和L₃中任何一个不是空的，则从第1步开始重复分配数据L₁，L₂和L₃到分组R₁，R₂，R₃中。

根据本方法的一个方面,特性E中包括:算法效率提高；每个多边形都是按照数据的比例划分的，并且，可以单独放大想要查看的多边形以便查询详细数据信息。原理如下：

在特性E中讲解了准确有序表达数据的自然顺序及聚类的方法，这样可以使用户很快地按照顺序浏览整个区域组合。把每个分组内的数据详细信息都分别保存起来，并且对应于各自所在的分组，在选中单个的分组时，此分组内的数据信息就自动展开，可以快速查看到本分组内的详细数据信息。

实施例2：如图1、图2、图3、图4、图5所示，下面结合附图和实施例对本发明进一步说明。

图3为图2中第一方块22的放大图，

以建立一个数字图书馆为例，其中，每一个结点在区域组合中表示一个独立的文档，并且给相邻分组分配不同的颜色来区别不同的类型(第三方块9、第四方块10、第五方块11、第六方块12、第七方块13、第八方块14、第九方块15和第十方块16，还包括第十七方块17、第十八方块18和第十九方块19、第二十方块20)。

使用ResultMaps以增强标准查询/结果响应的搜索引擎的范例。

图2以‘information visualization’做为查询条件，系统返回了的结果是经过排序的。右边底部的区域显示了符合查询条件的其他的层次的部分。是上面那图的缩略图。在右边的顶部的图片显示了当前页面显示的搜索结果相关的分层。中间部分是显示的是文档搜索结果的有序列表。上图显示的是100个搜索结果中的10个搜索结果。

图3显示的是RsetulMap摘要的大版本(就是对ResultMap结果的总结的版本)。

每一个文档都是一个叶节点(leaf node),系统并不计算每个节点的权重。上图中所涉及的文档仅为当前页面显示的文档(蓝框内的10个文档是显示在页面中的10个返回结果)，不涉及搜索引擎返回的结果中的所有文档。上图中的节点颜色与文档的性质有关(不是文档的文件属性)。图片的下面显示的是文档的性质。那些不在结果的文档会被显示为不同程度的灰色。灰色的黑暗程度根据文档在层次中的位置决定，位置越低的颜色越深。以此实现层次的构架。

更小的框架区分子类和父类。图片的限制大小为350X233像素。

the search result set：表示搜索引擎返回的并被显示在页面上的条目，在上述例子中是搜索结果的前十个条目。

上述的例子是一某大学的电子图书馆为例。电子图书馆有8个大类。搜索关键字为“Information visualization”。第一页显示搜索结果中的前10个，并且根据其文档的属性(第三方块9、第四方块10、第五方块11、第六方块12、第七方块13、第八方块14、第九方块15和第十方块16，还包括第十七方块17、第十八方块18和第十九方块19、第二十方块20)被标上相应的颜色。

图3中第二方块8是标记为HCC Topics and Applications功能块；

第十一方块1是标记为HCI Design功能块；

第十二方块2是标记为Introduction/General功能块；

第十三方块3是标记为Human Capabilites功能块；

第十四方块4是标记为U1功能块；

第十五方块5是标记为Requirements功能块；

第十六方块6是标记为User Interface功能块；

第二十七方块7是标记为Evalution menthods功能块；

第二方块8中有第三方块9、第四方块10、第五方块11、第六方块12；第七方块13、第八方块14、第九方块15和第十方块16；

第十六方块6中有第二十方块20；

第十三方块3中有第十七方块17、第十八方块18和第十九方块19；

图3中被蓝色框住的10个色块表示页面中显示的10个返回结果。这10个文档都来自于一个父类就是HCC Topics and Applications.

图片上的交互动作：当鼠标进入任何被高亮的节点边界内，3个事件被激活。

1鼠标停留的位置会显示文档的题目。

2与文档相对应的性质的字会变为红色并且有下划线。(鼠标移动到蓝色节点上，蓝色所表示的是”Web Lecture”，这个词组会变成红色并且有下划线。)

3在页面中间显示搜索结果的部分，和鼠标所在位置的节点相应的背景颜色会变成亮灰白色。

点击有颜色的节点会出现一下情况：在页面中央部分，相对应的条目会被扩展开，现实的内容为文本的大纲。比较适合页面显示结果为10个到100个的情况。它对全部的文档空间提供了总揽，并且对搜索结果有一目了然的展示法。ResultMaps使产生集群和异常点检测直接了当的(或者简单的易懂的)。特别过关注孤立点(Outlier detection)检测，因为这些内容(或者是项目itmes)通常来说是有趣的或者无趣的。通过搜索查询反复接触文档库也会让文档库更能精通用户的兴趣(能根据用户的查询条件返回更准确地结果)，会增加用户的使用量。

还应该注明ResultMap系统继承了普通的treemap技术的版面布局的不稳定性。新加入的节点或者重新配置已经存在的节点在层级中会导致节点位置的巨大变动。这暗示了如果文本库的内容发生变化会导致意味深长的不同的版面规划。图2中的显示会改变。不同的treemap版面显示算法有不同的稳定性属性：使用squarified layout，它是被用来创造低纵横比的长方形，但是拥有中等程度的稳定性。它比较适合的系统，因为当文本库内容发生变动时，版面布局也会变动，这样可以保证版面布局(layout)的稳定性。由于工具效用是基于的ResultMap的内容进行搜索采样数的背景下的模式，所以不期待线程之间的变化对用户有影响。

系统地实现：

搜索引擎的实现(索引和适当的计分indices and relevance scores)是使用了Lucene open-source search engine。Apache/Tomcat JSP engine实现对用户显示结果。

Lucene将所有存储在文本库的元数据领域(metadata fields)编入索引，同时还有全文和任意基于文本的文档。

使用prefuse infovis toolkit实现ResultMap图片。图片格式为JPEG.使用imagesmap HTML元素和JavaScripte事件处理机制去实现图片和用户的交互功能。通过预先生成和缓存一些页面的元素来提高效率。这样的好处是只需生成一个单一的图片就可以应用在所有的搜索请求。

这种执行方式允许有效率的互动在ResultMap(图2本段下同)与页面的其他部分(比如说突出搜索结果的文本在鼠标悬停的地方)，但是阻止了从页面的其他部分到ResultMap的交互作用(突出搜索结果的节点在ResultMap中，当鼠标悬停在页面中间的搜索结果上)。

解释：页面的中间部分是搜索结果，显示的文本格式的信息。ResulrMap是图2中的图片。当鼠标悬停在图2中的某个节点上，页面中间部分的搜索结果中与节点相对应的文档会被突出出来。但是反之，如果鼠标悬停在页面中间部分的某个文本文档上，图2中的相对应的节点是不会被突出出来的。

这是一个比较重要的不足之处，就像Kules指出的紧密地联合在表现和文本之间是重要的设计原理。幸运的是这个技术上的限制是可以修正的：原型指出DHTML元素是一个可行的替代品对于的基于图片的方法。(DHTML可以实现页面动画)

好处：搜索结果能够直观的显示出其层次信息，所属类别。帮助用户找到合适的内容。

如上所述，对本发明的实施例进行了详细地说明，但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形，这对本领域的技术人员来说是显而易见的。因此，这样的变形例也全部包含在本发明的保护范围之内。

Claims

1.一种基于动态区域组合的多维数据表达方法，其特征是：

各分组内所包括的数据变化时，分组之间平滑转变的；

设定了两个度量标准来衡量平滑转变；两个标准分别是：

1)分组区域的平均高宽比，

要达到平滑转变，这两个标准应该遵循的规则是：

1)较低的平均高宽比，

2)数据更新时，距离的变化尽可能地小；

准确有序表达数据的自然顺序及聚类；数据在平面图形上表达的时候，按照数据的原始顺序排列表达各数据所在多边形的顺序；

其中，权重是为了表达每个分组的大小来定义的一个概念；这个方法中，在分组时，遵守的特性是：1)两个结点中，如果一个结点是另外一个结点的父类，则子类结点包括在父类中；2)结点所占区域直接与权重成正比；3)任何一个父类结点的权重都大于等于其所有子类结点的权重之和；

还包括如下步骤：

用嵌套多边形表达多维数据，按照各分组权重的比例来分配各自所在多边形的尺寸，并且各分组之间是无缝组合，

各分组的数据在变化时，在区域组合中表达出来的结果是，给人的视觉上是平滑转变的；

定义区域组合的平均高宽比为所有分组的高宽比的未加权算数平均数，平均高宽是1.0，所有的多边形是都是等边形；

区域组合的距离变化函数是用来衡量变化前后，两种区域组合之间的差别，并且，使用一个给定的算法产生的区域组合的变化快慢对应于数据更新的快慢；为了定义距离变化函数，在多边形中定义一个简单的度量标准，即在区域组合中，两个同级的多边形之间的距离；

在这里，以四边形为例来表达一下，使用欧几里德度量，四边形R₁和R₂分别定义为(X₁,Y₁,W₁,H₁)和(X₂,Y₂,W₂,H₂)，则R₁和R₂之间的距离为：

相邻各分组用不同颜色填充的组色方法，便于观测者区分各分组；

颜色差别量，即色差，是指用数值的方法表示两种颜色以给人色彩感觉上的差别；两个色样样品都按L^*、a^*、b^＊标定颜色，则两者之间的总色差△E^＊ab以及各项单项色差可用下列公式计算：

明度差：△L^＊＝L^＊1-L^＊2

色度差：△a^＊＝a^＊1-a^＊2△b^＊＝b^＊1-b^＊2

总色差：ΔE^* _ab＝[(ΔL^*)²+(Δa^*)²+(Δb^*)²]^1/2；

准确有序表达数据的自然顺序及聚类；数据在二维平面图形上表达的时候，按照数据的原始顺序排列表达各数据的多边形的顺序；

四边形算法的具体实现步骤如下：

(1)设所要划分的多边形为R，首先选择一个特殊点R_P；如果第一级分组数小于等于4，则可以把任何一个分组分配给R_P，并且选择高宽比为1的分组；

(2)设R_P为所有分组中最大的；

(3)如果R的宽度大于或者等于其高度，把R分为四个矩形，R₁，R_P，R₂，和R₃；如果高度大于宽度，用同样的方法分配，但是沿着线直线y＝x进行翻转；

(5)在划分时，除了P，其余的划分为三个分组，把数据L₁，L₂和L₃对应于分组R₁，R₂，R₃中；其中，L₁，L₂和L₃都有可能是空的；这三组数据完全决定了图1中多边形的位置；设L₁由所有的数据组成，在地位上，这些数据低于P；在设计L₂和L₃时，L₂中所有数据的地位低于L₃中的数据，R_P的高宽比要尽可能地接近于1；