CN102053988A

CN102053988A - 数据集的可视化方法和系统

Info

Publication number: CN102053988A
Application number: CN2009102113130A
Authority: CN
Inventors: 曹楠; 时磊; 孙冀萌; 钱伟江; 刘世霞
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2011-05-11
Also published as: US9087117B2; US20140082024A1

Abstract

本发明提供一种数据集的可视化方法和系统，该方法包括：将数据集基于不同信息维度划分为多个信息层；以及分别将基于不同信息维度的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。在本发明中，通过分别从数据集的不同信息维度呈现数据集的不同概况来可视化数据集，在确保向数据集分析人员呈递数据集的全面信息的同时，防止呈现内容的失真以及视觉混乱。

Description

数据集的可视化方法和系统

技术领域

本发明涉及数据处理领域，具体地，涉及数据集的可视化方法和系统。

背景技术

社会网络是由多个节点(通常代表个人或组织)构成的社会结构，其中的节点相互之间通过一种或多种特定类型的依赖关系联结起来。节点之间的依赖关系例如是金融关系、人际关系、社会关系等。社会网络，作为自然结构出现在我们的日常生活中，节点之间的关系能够揭示关于该结构的诸多信息。

1964年以来，社会网络分析便成为一个重要的研究方向，目前已经发展成为具有其自身的理论说明、方法、社会网络分析软件及研究人员等的范型。

对于社会网络分析来说，可视化是能够提供极大便利的重要技术。目前，社会网络的可视化主要分为两种类型：第一种类型是如图1(a)所示的节点链接图那样仅呈现节点之间的依赖关系而忽视了节点的背景信息的可视化方法，第二种类型是如图1(b)所示的那样不仅呈现了节点之间的依赖关系而且还呈现了节点的背景信息的可视化方法。

在社会网络分析中，分析人员对于社会网络的研究不仅专注于社会网络的拓扑，而且还要考虑社会网络中各个节点背后的背景信息。

因此，上述第一种类型的社会网络的可视化方法，由于不能够呈现节点背后的背景信息，所以存在着不利于社会网络分析的顺利开展的问题。

此外，在上述第二种类型的社会网络的可视化方法中，即使呈现了节点的背景信息，但是也会由于呈现方式的混乱，而存在着不能够有效地引导社会网络分析的顺利开展的问题。例如就图1(b)所示的可视化方法而言，可以看出，由于呈现方式的不适当，在单个视图上同时呈现了大量节点的多种背景信息，引起了极度的视觉混乱。

此外，网络的数据集通常是多维的，即包含多种属性的信息，但在上述第二种类型的可视化方法中，除了可能出现图1(b)所示的呈现方式混乱的情况之外，还存在着将高维度(多种属性)的背景信息压缩为低维度(少数一种或几种属性)的背景信息的情况。在此情况下，由于节点的大部分背景信息的省略，将引起呈现内容的失真。

上述这些问题不仅仅存在于社会网络的可视化的情况，而且还存在于其他诸如SMS(Short Message Service，短消息服务)网络、互联网等基于内容的网络的可视化情况。

发明内容

鉴于上述问题，本发明提供一种数据集的可视化方法和系统，以便通过分别从数据集的不同信息维度呈现数据集的不同概况来可视化数据集，在确保向数据集分析人员呈递数据集的全面信息的同时，防止呈现内容的失真以及视觉混乱。

根据本发明的一个方面，提供了一种数据集的可视化方法，包括：将数据集基于不同信息维度划分为多个信息层；以及分别将基于不同信息维度划分的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。

根据本发明的另一个方面，提供了一种数据集的可视化系统，包括：分层单元，其将数据集基于不同信息维度划分为多个信息层；以及可视化单元，其分别将基于不同信息维度的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。

如果采用本发明，则通过分别从数据集的不同信息维度呈现数据集的不同概况来可视化数据集，使数据集分析人员能够根据自身的需要从不同的角度获得关于数据集的不同信息，从而有助于数据集分析的开展。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是现有的社会网络的可视化方法的图示说明；

图2是根据本发明实施例的网络的可视化方法的流程图；

图3是图2中的步骤205的图示说明；

图4是图2中的步骤210的图示说明；

图5是图2中的步骤210的详细流程图；

图6是图5中的步骤510的详细流程图；

图7是图6中的步骤605的详细流程图；

图8是图5中的步骤515的详细流程图；以及

图9是根据本发明实施例的网络的可视化系统的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细说明。

图2是根据本发明实施例的网络的可视化方法的流程图。

如图2所示，本实施例的网络的可视化方法，在步骤205，将网络的数据集基于不同信息维度划分为多个信息层。其中，每一信息维度的信息层是由上述网络的数据集中该信息维度的数据组成的。

在本步骤中，可以根据网络的数据集中所包含的任何信息维度，来对网络进行信息层的划分。例如，在一个与论文有关的网络的情况下，可以理解，论文数据集中将会包含诸如论文信息、作者、会议等多种维度的信息。在此情况下，可以如图3(a)所示，将与论文有关的网络划分为基于论文信息维度的信息层、基于作者维度的信息层和基于会议维度的信息层。

此外，在一个实施例中，在网络的数据集中包含较少的信息维度时，在本步骤中，也可以如图3(b)所示，简单地将网络划分为基于网络拓扑的信息层和在网络拓扑的基础上附加了背景信息的信息层。其中，基于网络拓扑的信息层仅包含与网络拓扑有关的信息，即网络中的各个节点以及各个节点之间的链接关系。此外，在网络拓扑的基础上附加了背景信息的信息层，则除了包含与网络拓扑有关的信息之外，还包含该网络中的多个节点的属性描述。

此外，在本步骤中，也可以基于网络的数据集中隐含而非直接存在的信息维度来生成信息层。例如，在与文档有关的网络的情况下，可以根据文档中所隐含的关键字，生成基于关键字维度的信息层。在此情况下，如果与文档有关的网络的数据集仅给出文档而并没有直接给出文档中所包含的关键字，则在本步骤中，需要首先采用适合的内容提取模型、诸如TF-IDF和LDA等，从各个文档中提取出关键字信息，然后再根据所提取的关键字信息，划分成基于关键字维度的信息层。

在步骤210，分别对基于不同信息维度的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。

在本步骤中，可以采用本领域中任何一种已有的可视化方法来分别为上述多个信息层生成视图。例如，可以采用等高线图生成方法来分别生成上述多个信息层的等高线图。

此外，在分别将上述多个信息层可视化时，该多个信息层的各自的视图的呈现方式也可以是多种的。

例如在一个实施例中，可以将该多个信息层的各自的视图组合为一个视图，来呈现给分析人员，并且使得分析人员能够在上述多个信息层的各自的视图之间进行切换。

在此情况下，可以利用alpha bending(透明色处理)技术，来进行多个信息层的视图的组合。具体地，当分析人员聚焦于整个网络时，调整各个信息层的色彩alpha值，被聚焦的信息层采用较大的alpha值，而其他信息层采用较小的alpha值，从而使各个信息层能够重叠在一起，而在分析人员希望聚焦于多个信息层中的某一个信息层从而切换到该信息层时，改变该信息层的视图的色彩alpha值，将其设置为非透明，同时将其他信息层的视图设置为背景视图而不可见。

此外，关于该多个信息层的视图之间的切换，可以通过提供切换按钮或菜单来实现瞬时切换，也可以通过提供滚动条，采用过渡的色彩alpha值的平滑方式来实现。通过提供滚动条，能够实现多个信息层的视图之间的平滑切换。

此外，在另一个实施例中，在本步骤中，也可以将上述多个信息层的视图作为单独的视图呈现给分析人员，使分析人员无需切换便能够同时观看到网络的不同信息层的视图。

此外，在本步骤中，除了能够采用本领域中任何一种已有的可视化方法来分别为上述多个信息层生成视图之外，也可以采用根据本发明一个实施例的基于密度的等高线图生成方法，来为上述多个信息层中的至少一个生成基于密度的等高线图。

关于根据本发明一个实施例的基于密度的等高线图生成方法，为了能够直观地理解，图4(a)～(c)分别示出了对于某一与论文有关的网络，在将该网络分别划分为基于会议维度的信息层、基于作者维度的信息层和基于关键字维度的信息层的情况下，采用根据本发明一个实施例的该基于密度的等高线图生成方法，分别将各个信息层可视化而得到的示例性视图。如上所述，这些视图可以利用alpha bending技术进行处理，组合为一个视图，并使分析人员能够通过切换来观看各个视图。此外，这些视图也可以作为单独的视图分别呈现给分析人员。

此外，图4(d)～(e)示出了对于某一网络，在简单地将该网络划分为基于网络拓扑的信息层和在网络拓扑的基础上附加了背景信息的信息层的情况下，采用根据本发明一个实施例的该基于密度的等高线图生成方法分别将各个信息层可视化而得到的示例性视图。同样，这些视图可以组合地呈现，也可以单独地呈现。

在根据本发明一个实施例的该基于密度的等高线图生成方法中，采用等高线以及颜色的结合来表示节点之间的关系。具体地，在该方法中，仅提取并布局重要的节点，并且利用等高线来表示未提取出的潜在节点及其之间的关系，而等高线内的填充颜色则用于表示节点之间的不同等级的关系。例如，等高线内的填充颜色越深，表示该等高线内的节点之间的关系越紧密。此外，等高线内的填充颜色还用于表示等高线内的信息密度，该信息密度是利用等高线内围绕着被布局的重要节点的、其他未呈现节点计算出的。

下面关于根据本发明一个实施例的该基于密度的等高线图生成方法，结合图5-8进行详细描述。图5-8是示出在图1的步骤210中采用根据本发明一个实施例的该基于密度的等高线图生成方法将上述基于不同信息维度的多个信息层中的至少一个可视化的过程的详细流程图。

具体地，如图5所示，首先在步骤505，从上述基于不同信息维度的多个信息层中，选择主信息层。

在本步骤中，可以采用本领域中任何一种已有的布局方法，对于上述多个信息层的每一个，分别根据该信息层所包含的数据集，生成视图，进而根据所生成的视图选择出能够得到最佳布局效果的视图的信息层，作为主信息层。具体地，可以根据以下条件来衡量视图的布局效果：

a)具有较佳的拓扑结构，能够清晰地划分为几个部分；

b)具有良好的对称结构，所谓良好的对称结构，是这样来评价的：选择视图的中心点(到视图的四周距离都相同或近似的节点)，以该中心点为中心画一个十字，将视图分成四份，如果每一份中节点的数量都相同，那么视图就具有良好的对称结构；

c)平均路径长度短，所谓平均路径长度，是这样计算得到的：在视图中选择任意两个节点组成一个节点对，计算它们之间的最短距离，进而计算视图中所存在的所有节点对的最短距离的平均值；

d)视图的规模较小，即视图中所包含的节点的数目较少。

在步骤510，对上述主信息层所包含的数据集进行概括，以构成包含中心节点及其之间的链接关系的样本数据集。该样本数据集，用作为在为各个信息层生成视图时的布局样本。

一般而言，网络的数据集的信息量都是非常大的，进而根据网络的数据集所得到的各个信息层的信息量也都是非常大的，这样，如果将各个信息层的所有信息都直接呈现在视图上，则会造成视觉混乱。所以，在本步骤中，在生成视图之前，对作为各个信息层的视图的布局样本的主信息层的数据集进行采样。当然，采样后的样本数据集，应该由能够体现原主信息层的数据集概况的典型数据、即重要的节点及其之间的链接构成。

关于该步骤，结合图6进行详细描述。

如图6所示，首先，在步骤605，对上述主信息层的数据集进行节点概括，以获得包含多个中心节点的中心节点集。

在一个实施例中，在本步骤中，根据节点的中心度对上述主信息层的数据集进行节点概括。也就是说，从该主信息层的数据集中提取出多个分别处于其他节点所包围的中心的中心节点，构成中心节点集。

具体地，首先，根据节点的中心度，确定一个最重要的节点，然后以该最重要的节点为基准，计算节点之间的最短距离，来选择相互之间距离最远的多个节点，将这些节点作为中心节点。也就是说，可以认为相互之间距离最远的多个节点是均匀地分布在视图的不同部分上的，所以通过提取这些节点作为中心节点，不会导致某一部分信息的丢失，从而不会导致所生成的视图的极大失真。本领域技术人员可以理解，上述节点的中心度，可以是等级(degree)中心度、接近性(closeness)中心度、中间性(betweenness)中心度等。

关于该步骤，可以利用图7所示的过程来实现。在图7所示的过程中，假设需要从上述主信息层的数据集V中概括出包含m个中心节点的中心节点集P。

如图7所示，首先在步骤705，根据节点的中心度，从上述主信息层的数据集V中选择出一个最重要的节点p₁，将其移动到中心节点集P中。

接着，在步骤710，对于中心节点集P中的中心节点p_i，计算其与当前主信息层的数据集V中的各个节点的最短距离向量d_i[1，...n]，其中n是当前主信息层的数据集V中的节点数量。

在此，在各个中心节点p_i的最短距离向量d_i[1，...n]中，分别保存了该中心节点p_i到数据集V中的各个节点的最短距离，即d_i[1]保存了p_i到数据集V中的第1个节点的最短距离，d_i[2]保存了p_i到数据集V中的第2个节点的最短距离，等等。

在步骤715，在中心节点集P中的所有中心节点相互之间，进行最短距离向量的比较，以从当前主信息层的数据集V中选择出一个节点，将其从V移动到P中，该选择的节点到中心节点集P中的中心节点的最短距离大于数据集V中的其他节点。

具体而言，首先针对中心节点集P中的各个中心节点p_i，根据其最短距离向量d_i[1，...n]，在数据集V中确定一个距离该中心节点p_i最远的节点x，即与p_i的最短距离d_i[x]最大的节点，进而在各个中心节点p_i的最远节点x相互之间，进行最短距离d_i[x]的比较，从而最终确定出一个最短距离d_i[x]最大的节点x，将其从数据集V移动到P中。

例如，假设中心节点集P中存在a和b两个节点，则首先根据节点a、b的最短距离向量，在数据集V中为节点a确定一个最远的节点a1，为节点b确定一个最远的节点b1，然后对节点a、a1之间的距离与节点b、b1之间的距离进行比较，选择其中较大的距离所对应的那个节点(a1或b1)，将其从数据集V移动到中心节点集P中。

在步骤720，判断中心节点集P中的中心节点数是否达到m，如果是，则该过程结束，否则返回到步骤710。

以上图7的过程就是对图6中的步骤605的进一步详细化。

接着，返回到图6，在步骤610，根据主信息层的原始数据集，为中心节点集中的各个中心节点进行链接概括，以获得包含中心节点之间的链接关系的中心节点链接集。

由于通过步骤605中的节点的概括，使中心节点集中的中心节点作为与其相关的周围节点的代表而被选择出，所以也应该将这些相关的周围节点之间的链接概括并绑定到其相应的中心节点上。

具体地，在本步骤中，对于中心节点集中的任意两个中心节点p₁和p₂，利用广度优先搜索(Breadth-First-Search，BFS)算法在上述主信息层的原始数据集中寻找所有连接这两个中心节点的路径、即边，并且对这些边中长度小于预定的最大长度λ的边进行加权合并，作为直接连接中心节点集中的这两个中心节点p₁和p₂的边，添加到中心节点链接集中。例如，假设中心节点p1、p2之间有10条边e1，e2，...en，每条边的权值为w1，w2，...wn，则利用一条权值为w1+w2...+wn的边e来代替这10条边，将该边e添加到中心节点链接集中，同时将上述10条边e1，e2，...en从主信息层的原始数据集中删除。

并且，在获得了中心节点链接集之后，该中心节点链接集与上述的中心节点集一起构成了样本数据集。

以上图6的过程就是对图5中的步骤510的进一步详细化。

接着，返回到图5，在步骤515，以上述概括出的样本数据集为布局样本，为上述主信息层生成基于密度的等高线图。

关于该步骤，下面结合图8进行详细描述。

如图8所示，首先在步骤805，计算生成等高线图所需的高度矩阵的维数。

高度矩阵是任何一种等高线生成算法都需要的输入。为了生成N×N维高度矩阵，在本步骤中，根据屏幕的尺寸，基于下式(1)来计算高度矩阵的维数N：

N = \frac{\sqrt{width * height}}{ratio} - - - (1)

其中，width和height分别是屏幕的宽度和高度，ratio是常量。

考虑到高度矩阵的维数N越大，所生成的等高线越平滑，但所花费的计算时间也越多这一事实，根据本发明的发明人的经验，将上面的常量ratio设置为10是适宜的。

接着，在步骤810，将上述样本数据集中的各个中心节点布局到屏幕上。也就是说，根据样本数据集中所包含的中心节点和中心节点之间的链接关系，确定各个中心节点在屏幕上的布局。

在该步骤中，可以采用本领域中任何一种已有的布局方法将上述样本数据集中的中心节点布局到屏幕上。

在步骤815，为上述样本数据集中的各个中心节点，以其周围未被选择到上述样本数据集中的节点的数量作为该中心节点的质量，计算该中心节点的密度分布。

由于样本数据集中的各个中心节点是从原始的主信息层的数据集中、作为其周围节点的代表被概括出来的，所以在本步骤中，将围绕着中心节点的周围节点的数量作为中心节点的质量，计算出中心节点的密度分布，以便将周围节点体现在中心节点的密度分布中。

具体地，将主信息层的数据集中未被选择到样本数据集中的各个节点分别指派给距离该节点最近的中心节点，在此，假设主信息层的数据集中指派给中心节点i的未选择节点的数量为m_i，则利用下式(2)来计算中心节点i的密度分布f(x)：

f (x) = \frac{1}{n} Σ_{i = 1}^{m} \frac{m_{i}}{h} K (\frac{x - X_{i}}{h}) - - - (2)

其中，x表示屏幕上的某个位置的二维坐标，X_i表示中心节点i在屏幕上的二维坐标，n是原始的主信息层中的总节点数，m是样本数据集中的中心节点数，h是带宽，K()是核函数。

对于上式(2)中的核函数K()，可以使用本领域中已有的分布函数，例如具有0平均数和最小的整数变量的高斯分布函数，即N(0，1)。

此外，上式(2)中的带宽h，是用于控制所获得的密度分布f(x)的平滑程度的常量。h越小，所得到的分布f(x)越将出现窄而陡峭的波峰，h越大，f(x)的分布越均匀及平滑。对于带宽h，可以通过交叉验证来得到。

在此，在优选实施例中，根据下式(3)所示的评估器，通过弃一法交叉验证来评估出带宽h的最佳值：

\hat{J} (h) \approx \frac{1}{{hn}^{2}} \underset{i}{Σ} \underset{j}{Σ} K^{*} (\frac{X_{i} - X_{j}}{h}) + \frac{2}{hn} K (0) - - - (3)

其中，K^*(x)＝K⁽²⁾(x)-2K(x)，K⁽²⁾(x)＝∫K(x-y)K(y)dy，K(x)为高斯分布函数N(0，1)，K⁽²⁾(x)为高斯分布函数N(0，2)。也就是说，根据上式(3)，利用弃一法交叉验证获得使

最小的h值，作为上述带宽常量h。

为了便于理解，下面说明用于评估出最佳带宽h的上式(3)的推导过程。

首先，定义密度分布f(x)与其评估器

之间的损失函数如下：

L (h) = &Integral; {(f (x) - \hat{f} (x))}^{2} dx = &Integral; f^{2} (x) dx + &Integral; {\hat{f}}^{2} (x) dx - 2 &Integral; f (x) \hat{f} (x) dx - - - (4)

其中，评估器是正态分布，其定义为：

\frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}}

也就是说，正态分布密度函数

是本发明中的密度分布f(x)的理想目标，因为本发明中的密度分布f(x)是基于所概括出的中心节点并且在考虑了中心节点的周围节点的情况下而获得的，所以其并不满足正态分布，但是因为正态分布密度函数曲线的形状是完美的发散对称形的，是可视化的追求目标，所以应该使本发明中的密度分布f(x)尽可能逼近于正态分布。

从而，评估出带宽h的最佳值也就是评估出使本发明中的密度分布f(x)尽可能逼近于正态分布密度函数的最佳h值。

上述损失函数通过求取

的、关于带宽h的一阶导数，来获得使

最小化的最佳h值。在上式(4)中，由于右侧的第一项∫f²(x)dx与带宽h无关，所以可以不考虑这一项，从而简化得到下式(5)，以通过最小化下式(5)来评估出最佳带宽h。

J (h) = &Integral; {\hat{f}}^{2} (x) dx - 2 &Integral; f (x) \hat{f} (x) dx - - - (5)

进而，在上式(5)的基础上，为了加快求解速度，将积分离散化，从而得到上式(3)的评估器来评估出最佳带宽h。

接着，在步骤820，对上述样本数据集中的各个中心节点的密度分布进行合成，以生成高度矩阵的每一坐标处的合成密度分布，结合在高度矩阵中。

具体地，在本步骤中，根据下式(6)来进行各个中心节点的密度分布的合成：

其中，G表示样本数据集，p_s表示样本数据集G中的某个中心节点，f_s(x)是中心节点p_s的密度分布。

也就是说，在上式(6)中，对于屏幕上的某个位置x(x表示该位置的二维坐标)，由于各个中心节点在该位置处都可能有密度分布，所以通过合并各个中心节点在该位置处的密度分布来得到该位置处的合成密度分布。

此外，关于合成密度分布与高度矩阵的结合进行描述。如本领域技术人员所公知的，高度矩阵是由多个具有二维坐标的小格子构成的，所以合成密度分布与高度矩阵的结合，就是指将高度矩阵中的各个小格子所具有的二维坐标代入上式(6)中，从而为各个小格子计算出其二维坐标的位置处的合成密度分布值，并存储到相应的小格子中。

接着，在步骤825，利用所生成的高度矩阵，为上述样本数据集中已经布局在了屏幕上的各个中心节点生成等高线，并填充颜色，以为主信息层生成基于密度的等高线图。

考虑到所生成的等高线要体现出各个中心节点的基于密度的形状，所以在本步骤中，优选使用在http://members.bellatlantic.net/～vze2vrva/thesis.html处公开的已有跟踪算法来生成等高线。

在步骤830，将主信息层中与上述中心节点相对应的背景信息布局到上述基于密度的等高线图上。

在该步骤中，优选采用力矢量布局模型(force directed model)，来将相应的背景信息布局到上述基于密度的等高线图上，同时避免背景信息与中心节点的重叠。

返回到图5，还包括可选的步骤520。在可选的步骤520，通过在上述主信息层的基于密度的等高线图上改变相应的背景信息，为上述多个信息层中上述主信息层之外的至少一个信息层生成基于密度的等高线图。

也就是说，在该可选的步骤520，将非主信息层中与上述主信息层中的中心节点的背景信息对应的信息布局到非主信息层的等高线图上，其中非主信息层的等高线图与主信息层的等高线图一致。

在此，由于上述多个信息层都是用于表示同一网络的，并且其中的主信息层是能够生成良好布局的视图的信息层，所以可以考虑将根据主信息层的数据集生成的基于密度的等高线图的布局直接用于其他的信息层，这样既能够保证各个信息层的视图对网络概况的忠实呈现，又能够保证各个信息层的视图都成为良好布局的视图。这样，对于不同的信息层而言，由于其呈递的网络的背景信息是不同的，所以只需要在主信息层的基于密度的等高线图上改变相应的背景信息即可。

但是，各个信息层的节点以及背景信息并不是一一对应的，例如在与论文有关的网络的情况下，基于会议维度的信息层中的一个节点(一个背景信息)可能对应着论文信息维度的信息层中的多个节点(多个背景信息)，这样，就需要以主信息层为基准，进行背景信息的对应和提取。本领域技术人员可以理解，可以采用本领域中的多种方法来实现多个信息层之间的背景信息的对应和提取，例如当把会议维度作为主信息层，把作者维度作为非主信息层时，主信息层中的一个节点，即一个会议可能与多个会议论文的作者相对应，这时限于布局的要求可能需要从众多的作者中选择出有代表性的作者布局到非主信息层中。选择的策略可以有很多种方式，包括按照作者的出现频率；按照作者的重要程度，如被引用的次数；按照作者的顺序，如是否是第一作者等。

以上就是对本实施例的数据集的可视化方法的详细描述。在本实施例中，通过分别从网络的不同信息维度呈现网络的不同概况来可视化网络，在确保向网络分析人员呈递网络的全面信息的同时，能够防止呈现内容的失真以及视觉混乱，使网络的分析人员能够根据自身的需要从不同的角度清晰地获得关于网络的不同信息，从而获得网络分析的极大便利。此外，在本实施例中，对于网络的基于不同信息维度的各个信息层，通过基于从主信息层的数据集中概括出的少量重要节点，生成基于密度分布的等高线图，能够在不失真的情况下极大地简化所生成的视图的整体布局。

在同一发明构思下，本发明提供一种网络的可视化系统。下面结合附图对其进行描述。

图9是根据本发明实施例的网络的可视化系统的方框图。如图9所示，本实施例的网络的可视化系统90包括：分层单元91、可视化单元92。

具体地，分层单元91将网络的数据集基于不同信息维度划分为多个信息层。其中，每一信息维度的信息层是由网络的数据集中该信息维度的数据组成的。

可视化单元92分别对基于不同信息维度的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。在一个实施例中，可视化单元92利用透明色处理技术对该多个信息层的各自的视图进行处理，以将其组合为一个视图，并且使得上述多个信息层的各自的视图之间能够进行切换。

如图9所示，可视化单元92可进一步包括：主信息层选择单元921、数据集概括单元922和视图生成单元923。

主信息层选择单元921从上述基于不同信息维度的多个信息层中，选择能够生成良好布局的视图的信息层，作为主信息层。

数据集概括单元922对上述主信息层所包含的数据集进行概括，以构成包含中心节点及其之间的链接关系的样本数据集。

如图9所示，数据集概括单元922可进一步包括：节点概括单元9221和链接概括单元9222。

节点概括单元9221对上述主信息层的数据集进行节点概括，以获得包含多个中心节点的中心节点集。具体地，节点概括单元9221从上述主信息层的数据集中，根据节点的中心度，选择出一个最重要的节点，将其移动到中心节点集中，并且依次进行以下处理，直到中心节点集中的中心节点数达到预定的值：对于中心节点集中的各个中心节点，计算其与上述主信息层的数据集中未被选择到中心节点集中的节点之间的最短距离向量；以及从主信息层的数据集中未被选择到中心节点集中的节点中选择出一个与中心节点的最短距离是最短的这样的节点，移动到中心节点集中。

链接概括单元9222根据上述主信息层的数据集，为上述中心节点集中的中心节点进行链接概括，以获得包含中心节点之间的链接关系的中心节点链接集。具体地，链接概括单元9222对于上述中心节点集中的任意两个中心节点：利用广度优先搜索算法在主信息层的数据集中寻找所有连接这两个中心节点的路径；以及对上述路径中长度小于预定的最大长度的路径进行加权合并，作为直接连接上述任意两个中心节点的链接，添加到中心节点链接集中。

接着，视图生成单元923以上述样本数据集为布局样本，为上述主信息层生成基于密度的等高线图。

如图9所示，视图生成单元923可进一步包括：节点布局单元9231、高度矩阵生成单元9232、密度分布计算单元9233、密度分布结合单元9234、等高线生成单元9235、信息布局单元9236。

节点布局单元9231将上述样本数据集中的各个中心节点布局到屏幕上。

高度矩阵生成单元9232生成在等高线的生成中所用的高度矩阵。

密度分布计算单元9233为上述样本数据集中的、被布局到了屏幕上的各个中心节点，以其周围的未被选择到上述样本数据集中的节点的数量作为该中心节点的质量，计算该中心节点的密度分布。具体地，密度分布计算单元9233对于上述样本数据集中的、被布局到了屏幕上的各个中心节点，根据上式(2)计算密度分布。

密度分布结合单元9234将密度分布计算单元9233所计算出的各个中心节点的密度分布结合到用于生成等高线的高度矩阵中。具体地，密度分布结合单元9234根据上式(6)对上述样本数据集中的各个中心节点的密度分布进行合成，以生成高度矩阵的每一坐标处的合成密度分布。

等高线生成单元9235利用上述高度矩阵，为上述被布局到了屏幕上的各个中心节点生成等高线并填充颜色，以为上述主信息层生成基于密度的等高线图。

信息布局单元9236将上述主信息层中与上述各个中心节点相对应的背景信息布局到上述基于密度的等高线图上。

视图生成单元923，还通过在主信息层的基于密度的等高线图上改变相应的背景信息，为上述多个信息层中上述主信息层之外的至少一个非主信息层生成基于密度的等高线图。具体而言，上述视图生成单元923将非主信息层中与主信息层中的中心节点的背景信息对应的信息布局到非主信息层的等高线图上，其中非主信息层的等高线图与主信息层的等高线图一致。

以上就是对本发明的网络的可视化系统的详细描述。其中，该系统及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。

以上虽然通过一些示例性的实施例对本发明的数据集的可视化方法和系统进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅以所附权利要求为准。

Claims

1.一种数据集的可视化方法，包括：

将数据集基于不同信息维度划分为多个信息层；以及

分别对基于不同信息维度的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。

2.根据权利要求1所述的方法，其中进行可视化处理的步骤进一步包括：

利用透明色处理技术对上述多个信息层的各自的视图进行处理，以将其组合为一个视图，并且使得上述多个信息层的各自的视图之间能够进行切换。

3.根据权利要求1所述的方法，其中进行可视化处理的步骤进一步包括：

从上述基于不同信息维度的多个信息层中，选择主信息层；

对上述主信息层所包含的数据集进行概括，以构成包含中心节点及其之间的链接关系的样本数据集；以及

以上述样本数据集为布局样本，为上述主信息层生成基于密度的等高线图。

4.根据权利要求3所述的方法，其中上述概括的步骤进一步包括：

对上述主信息层的数据集进行节点概括，以获得包含多个中心节点的中心节点集；以及

根据上述主信息层的数据集，为上述中心节点集中的中心节点进行链接概括，以获得包含中心节点之间的链接关系的中心节点链接集。

5.根据权利要求4所述的方法，其中对上述主信息层的数据集进行节点概括的步骤进一步包括：

从上述主信息层的数据集中，根据节点的中心度，选择出一个最重要的节点，将其移动到中心节点集中；

依次执行以下步骤，直到中心节点集中的中心节点数达到预定的值：

对于中心节点集中的各个中心节点，计算其与上述主信息层的数据集中未被选择到中心节点集中的节点之间的最短距离向量；以及

从主信息层的数据集中未被选择到中心节点集中的节点中选择出一个与中心节点的最短距离是最短的这样的节点，移动到中心节点集中。

6.根据权利要求4所述的方法，其中为上述中心节点集中的中心节点进行链接概括的步骤进一步包括：

对于上述中心节点集中的任意两个中心节点：

利用广度优先搜索算法在主信息层的数据集中寻找所有连接这两个中心节点的路径；以及

对上述路径中长度小于预定的最大长度的路径进行加权合并，作为直接连接上述任意两个中心节点的链接，添加到上述中心节点链接集中。

7.根据权利要求3所述的方法，其中为上述主信息层生成基于密度的等高线图的步骤进一步包括：

为上述样本数据集中的各个中心节点，以其周围的未被选择到上述样本数据集中的节点的数量作为该中心节点的质量，计算该中心节点的密度分布；

将上述样本数据集中的各个中心节点的密度分布结合到用于生成等高线的高度矩阵中；

利用上述高度矩阵，为上述各个中心节点生成等高线并填充颜色，以为上述主信息层生成基于密度的等高线图；以及

将上述主信息层中、与上述各个中心节点相对应的背景信息布局到上述基于密度的等高线图上。

8.根据权利要求3所述的方法，其中进行可视化处理的步骤还包括：

将非主信息层中与上述主信息层中的中心节点的背景信息对应的信息布局到非主信息层的等高线图上，其中非主信息层的等高线图与主信息层的等高线图一致。

9.根据权利要求7所述的方法，其中上述计算中心节点的密度分布的步骤进一步包括：

对于上述样本数据集中的各个中心节点，根据下式计算密度分布：

f (x) = \frac{1}{n} Σ_{i = 1}^{m} \frac{m_{i}}{h} K (\frac{x - X_{i}}{h})

其中，x表示屏幕上的某个位置的二维坐标，X_i表示中心节点i在屏幕上的二维坐标，n是上述主信息层中的总节点数，m是上述样本数据集中的中心节点数，m_i是上述主信息层中未被选择到样本数据集中的、中心节点i的周围节点的数量，h是带宽，K()是核函数。

10.根据权利要求9所述的方法，其中上述带宽h是通过交叉验证而得到的、使下式的结果最小的值：

\hat{J} (h) \approx \frac{1}{{hn}^{2}} \underset{i}{Σ} \underset{j}{Σ} K^{*} (\frac{X_{i} - X_{j}}{h}) + \frac{2}{hn} K (0)

其中，K^*(x)＝K⁽²⁾(x)-2K(x)，K⁽²⁾(x)＝∫K(x-y)K(y)dy，K(x)为高斯分布函数N(0，1)，K⁽²⁾(x)为高斯分布函数N(0，2)。

11.根据权利要求9所述的方法，其中上述密度分布结合步骤进一步包括：

根据下式对上述样本数据集中的各个中心节点的密度分布进行合成，以生成高度矩阵的每一坐标处的合成密度分布：

其中，G表示上述样本数据集，p_s表示样本数据集G中的某个中心节点，f_s(x)是中心节点p_s的密度分布。

12.一种数据集的可视化系统，包括：

分层单元，其将数据集基于不同信息维度划分为多个信息层；以及

可视化单元，其分别对基于不同信息维度的上述多个信息层进行可视化处理，以用于呈现该多个信息层的各自的视图。

13.根据权利要求12所述的系统，其中上述可视化单元，利用透明色处理技术对该多个信息层的各自的视图进行处理，以将其组合为一个视图，并且使得上述多个信息层的各自的视图之间能够进行切换。

14.根据权利要求12所述的系统，其中上述可视化单元进一步包括：

主信息层选择单元，其从上述基于不同信息维度的多个信息层中，选择主信息层；

数据集概括单元，其对上述主信息层所包含的数据集进行概括，以构成包含中心节点及其之间的链接关系的样本数据集；以及

视图生成单元，其以上述样本数据集为布局样本，为上述主信息层生成基于密度的等高线图。

15.根据权利要求14所述的系统，其中上述数据集概括单元进一步包括：

节点概括单元，其对上述主信息层的数据集进行节点概括，以获得包含多个中心节点的中心节点集；以及

链接概括单元，其根据上述主信息层的数据集，为上述中心节点集中的中心节点进行链接概括，以获得包含中心节点之间的链接关系的中心节点链接集。

16.根据权利要求15所述的系统，其中上述节点概括单元：

依次进行以下处理，直到中心节点集中的中心节点数达到预定的值：

17.根据权利要求15所述的系统，其中上述链接概括单元对于上述中心节点集中的任意两个中心节点：

18.根据权利要求14所述的系统，其中上述视图生成单元进一步包括：

密度分布计算单元，其为上述样本数据集中的各个中心节点，以其周围的未被选择到上述样本数据集中的节点的数量作为该中心节点的质量，计算该中心节点的密度分布；

密度分布结合单元，其将上述密度分布计算单元所计算出的各个中心节点的密度分布结合到用于生成等高线的高度矩阵中；

等高线生成单元，其利用上述高度矩阵，为上述各个中心节点生成等高线并填充颜色，以为上述主信息层生成基于密度的等高线图；以及

信息布局单元，其将上述主信息层中与上述各个中心节点相对应的背景信息布局到上述基于密度的等高线图上。

19.根据权利要求14所述的系统，其中上述视图生成单元，将非主信息层中与上述主信息层中的中心节点的背景信息对应的信息布局到非主信息层的等高线图上，其中非主信息层的等高线图与主信息层的等高线图一致。

20.根据权利要求18所述的系统，其中上述密度分布计算单元，对于上述样本数据集中的各个中心节点，根据下式计算密度分布：

f (x) = \frac{1}{n} Σ_{i = 1}^{m} \frac{m_{i}}{h} K (\frac{x - X_{i}}{h})

21.根据权利要求20所述的系统，其中上述带宽h是通过交叉验证而得到的、使下式的结果最小的值：

\hat{J} (h) \approx \frac{1}{{hn}^{2}} \underset{i}{Σ} \underset{j}{Σ} K^{*} (\frac{X_{i} - X_{j}}{h}) + \frac{2}{hn} K (0)

22.根据权利要求20所述的系统，其中上述密度分布结合单元根据下式对上述样本数据集中的各个中心节点的密度分布进行合成，以生成高度矩阵的每一坐标处的合成密度分布：