CN109766478B

CN109766478B - 语义增强的大规模多元图简化可视化方法

Info

Publication number: CN109766478B
Application number: CN201910017270.6A
Authority: CN
Inventors: 周志光
Original assignee: Zhejiang University of Finance and Economics
Current assignee: Zhejiang University of Finance and Economics
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2021-06-29
Anticipated expiration: 2039-01-08
Also published as: CN109766478A

Abstract

本发明公开一种语义增强的大规模多元图简化可视化方法，包括：建立大规模多元图，提取大规模多元图的层次结构；利用大规模多元图的属性，根据大规模多元图的层次结构构造多尺度的社团集合，所述大规模多元图的属性包括模块度和多维属性信息熵；按照大规模多元图的层次结构对多尺度的社团集合构造多级力引导布局，通过映射显示社团的语义表达；使用映射显示后的社团得到层次视图和属性桑基视图，利用多级力引导布局、层次视图和属性桑基视图对所述大规模多元图进行可视分析。本发明能够有效简化大规模多元图的视觉表达，可以快速分析不同应用领域大规模多元图的关联结构与语义构成，具有较强的实用性。

Description

语义增强的大规模多元图简化可视化方法

技术领域

本发明涉及一种大规模多元图简化可视分析方法，属于图可视化领域。

背景技术

网络图可视化可以有效展示网络节点之间的连接关系，广泛应用于诸多领域，如社交网络、知识图谱、生物基因网络等。随着网络数据规模的不断增加，如何简化表达大规模网络图结构已成为图可视化领域中的研究热点。经典的网络图简化可视化方法主要包括图采样、边绑定和图聚类等技术，在减少大量点线交叉造成的视觉紊乱的基础上，提高用户对大规模网络结构的探索和认知效率。然而，上述方法主要侧重于网络图中的拓扑结构，却较少考虑和利用多元图节点的多维属性特征，难以有效提取和表达语义信息，帮助用户理解大规模多元网络的拓扑结构与多维属性之间的内在关联，为大规模多元图的认知和理解带来困难。

网络图经常用于抽象表达实体与实体之间的关系。例如，社交网络(socialnetwork)中，节点代表社交媒体用户，边代表用户之间的好友关系；引文网络(citationnetwork)中，节点代表论文，边代表论文之间的引用关系；在蛋白质网络(protein-proteininteraction networks)中，节点代表蛋白质，边代表两个蛋白质在表达生物功能时的相互作用。因此，研究者们广泛利用网络图分析各自领域(包括社会学、生物学、交通地理学等)的实体关系结构，探索和洞察网络的结构特性。网络图可视化充分利用人类的视觉感知能力和信息处理能力，以其直观、易于理解的优点逐渐成为网络图分析的重要手段，其中以点线链接式的网络图可视化方法为代表，应用最为广泛。

随着数据规模的不断增加，节点的数量越来越多，关系结构越来越复杂。传统的点线链接图出现大量的点线交叉和重叠，给用户造成严重的视觉紊乱和混淆，增加了网络结构的理解难度。因此，大量研究提出多种大规模网络图简化方法，如图采样、边绑定和图聚类等技术，一定程度上降低了用户对大规模网络图的认知负担，提高了探索效率。大规模网络图不仅具有复杂的拓扑结构，而且具有多元属性描述。例如，社交网络中，每个用户节点都有丰富的个人资料描述，包括性别、年龄、职业、地域等；引文网络中，每个论文节点具有相应的发表时间、研究主题、引用次数、所属会议或者期刊等信息。多元属性信息能够从不同方面反映实体之间语义关联结构的内聚特性，以及更高层次的聚类之间的耦合特性。然而，传统的大规模网络图简化可视化方法，难以充分利用网络节点的多维属性信息，提取有效的语义知识，从而无法帮助用户更好地理解拓扑结构与多维属性的语义关联，不能深入探索网络特性等。

发明内容

本发明的目的是提供一种语义增强的大规模多元图简化可视化方法。

为实现上述目的，本发明所采取的技术方案是：

本发语义增强的大规模多元图简化可视化方法包括如下步骤：

(1)建立大规模多元图，提取大规模多元图的层次结构；

(2)利用大规模多元图的属性，根据大规模多元图的层次结构构造多尺度的社团集合，所述大规模多元图的属性包括模块度和多维属性信息熵；

(3)按照大规模多元图的层次结构对多尺度的社团集合构造多级力引导布局，通过映射显示社团的语义表达；

(4)使用映射显示后的社团得到层次视图和属性桑基视图，利用多级力引导布局、层次视图和属性桑基视图对所述大规模多元图进行可视分析。

进一步，本发明在所述步骤(2)中，对多尺度的社团集合中的每个社团标记最优属性值。

进一步，本发明利用多尺度的社团集合中的每个社团所标记的最优属性值对社团进行颜色映射显示。

进一步，本发明在步骤(3)中，按以下方法构造多级力引导布局：

1)从大规模多元图中根据多元图聚类算法抽象出新的多元图，将大规模多元图中处在不同层级的所有社团标记为活跃状态；将大规模多元图中的第一级社团利用考虑节点大小的力引导算法进行布局，布局后的大规模多元图中的每个社团用圆来表示，圆的半径与圆内所含最底层的节点数量成正比；

2)逐级对布局后的大规模多元图的所有社团执行以下内容，以对所述新的多元图进行重新布局：

判断目标社团是否为活跃状态：若不是，则将目标社团包含的下一级的子社团标记为非活跃状态；若是，则继续判断目标社团是否在所述新的多元图中：若不在，则在目标社团对应的圆内利用考虑节点大小的力引导算法对目标社团的下一级社团进行布局；若在，则将目标社团标记为非活跃状态；

3)在重新布局后的多元图中，将最底层有节点相连的社团两两相连，连线的宽度与该连线所连接的两个社团内的最底层节点的连接数量之和成正比。

与现有技术相比，本发明的有益效果是：能够有效简化大规模多元图的视觉表达，可以快速分析不同应用领域大规模多元图的关联结构与语义构成，在减少大量点线交叉造成的视觉紊乱的基础上，提高用户对大规模网络结构的探索和认知效率，有效提取和表达语义信息，帮助用户理解大规模多元网络的拓扑结构与多维属性之间的内在关联，深入探索网络特征，为大规模多元图的认知和理解带来便利，具有较强的实用性。

附图说明

图1是大规模多元图；

图2是重新布局后的多元图；

图3是利用本发明方法处理后的多元图。

具体实施方式

下面结合附图，对本发明语义增强的大规模多元图简化可视化方法进行详细的说明，具体包括如下步骤：

(1)建立大规模多元图(如图1所示)，在基于模块度的图聚类算法基础上，按节点的不同属性作为划分标准使用基于模块度优化的图聚类检测算法Blondel算法提取出大规模多元图的层次结构。

(2)作为本发明的优选实施方式，可标记各社团的最优属性值。最优属性值可按以下方法标记：设置两个阈值ε1和ε2(0.0<ε1<ε2)。ε1用于在大规模多元图上判断某个属性的聚集程度是否过高，例如，某个属性在整个网络上的信息熵小于ε1，则认为该属性的聚集程度异常较高，将在后面的社团查找过程中忽略该属性。ε2表示对社团在属性聚集程度上的容忍下限，如果某个属性在一个社团上的信息熵小于ε2,则认为该社团在当前属性上具有明显的聚集特征，那么这个社团将在所处的层级保留。如果出现多个属性值的信息熵都小于ε2，本发明将选用信息熵最小的属性并且其中占比最大的属性值标记该社团。如果没有属性满足信息熵小于ε2，那么用同样的方法依次检测它的下一级所有社团，直至遍历至底层子节点为止。

带有最优属性值的社团具有明显的聚集特征，只有带有明显聚集特征的社团才能避免该属性中不出现某个值占比过大的情况，若不避免上述情况，则会出现某一属性出现绝大部分集中在某一个值上的情况，即当前属性对节点的判别价值降低，失去了探索属性对网络结构影响的意义。

定义一个社团C_x,y为处在第x层的第y个社团，用多维属性信息熵来衡量社团内部所有底层节点的属性聚集度，例如C_x,y在属性a_i的聚集度计算公式如下：

其中，q_i表示第i个属性的取值范围大小，即不同取值的数量，p(d_i,k)表示社团C_x,y中第i维属性值等于d_i,k的底层节点数量占比。

基于上述公式，利用大规模多元图的模块度和多维属性信息熵构造多尺度的社团集合，具体步骤如下：

1)对属性集A＝{a₁,a₂…a_n}中的每个属性a_i，依次计算其在根节点C_N,0上的信息熵，如果根结点在属性a_i的聚集度IE(C_N,0,a_i)<ε1，则从属性集中移除a_i；

2)设置社团检测队列Q和社团存储集合S，初始化Q和S都为空；

3)一个大规模多元图形成的层次聚类结构可以表示成一系列的图G₀,G₁,G₂…G_N-1。其中G₀是最底层的图，而G_N-1是抽象最高的图。将G_N-1上的所有社团压入队列Q；

4)如果队列Q为空，则结束，否则从队列Q中出队一个待检测社团，依次计算属性集A中保留的每个属性在该社团上的信息熵，并按照升序排列，筛选出信息熵值小于ε2的前L个属性；

5)如果L≥1，则选择信息熵最小的属性，并用其在该社团中占比最大的属性值标记该社团，将该社团存入集合S并返回执行步骤(4)；

6)如果L＝0，则将当前社团的所有下一级子社团压入队列Q，返回执行步骤4)。

社团存储集合S记录的K个社团{C_x1,y1，C_x2,y2…C_xK,yK}，也就是需要查找的符合在结构和属性上都具有较好聚集特性的社团。属性集包含属性数量的多少决定了该算法既适用于多维属性，也适用于单维属性。

(3)按照大规模多元图的层次结构对多尺度的社团集合构造多级力引导布局，利用多级力引导布局展示社团之间的拓扑关系，通过映射显示社团的语义表达。

在本发明中，可按以下优选方法构造多级力引导布局，该方法在维持多元图整体拓扑结构的基础上，结合多维属性信息构造多尺度的社团关系布局，在简化多元图的同时，帮助用户快速探索多元图的语义构成。本步骤执行完毕后得到的重新布局后的多元图如图2所示，图2所示的社团已构成多尺度的社团集合，此时，大规模多元图已得到初步简化。具体方法如下：

遍历大规模多元图中的社团，以当前遍历到的社团作为目标社团，判断目标社团是否为活跃状态：若不是，则将目标社团包含的下一级的子社团标记为非活跃状态；若是，则继续判断目标社团是否在所述新的多元图中：若不在，则在目标社团对应的圆内利用考虑节点大小的力引导算法对目标社团的下一级社团进行布局；若在，则将目标社团标记为非活跃状态；

以下以具体的实施例来进一步说明：

假设第一级社团为社团A、社团B，第二级社团分别有社团A1、社团A2、社团A3、社团A4、社团B1、社团B2、社团B3，最底层节点为：社团A中的节点A11、节点A12，节点A21，节点A31、节点A32、节点A41、节点A51，社团B中的节点B11、节点B21、节点B31、节点B41、节点B51、节点B52、节点B61，其中，节点A11与节点B31相连，节点A32与节点B51相连，则在第一级社团中连接社团A与社团B，在第二级社团中连接社团A1与社团B3，社团A3与社团B5，假设社团A1与社团B3的连线宽度为1mm，社团A3与社团B5的连线宽度为1mm，那么，因社团A1与社团B3，社团A3与社团B5的最底层节点连接数量分别为1，社团A与社团B最底层节点的连线数量为2，社团A与社团B的连线宽度为2mm。

(4)利用多尺度的社团集合中的每个社团所标记的最优属性值对社团进行颜色映射显示，使用映射显示后的社团得到层次视图和属性桑基视图，利用多级力引导布局、层次视图和属性桑基视图对大规模多元图进行可视分析，得到的多元图如图3所示。图3通过映射显示社团的语义表达，已完成达到了有效简化大规模多元图的视觉表达，快速分析不同应用领域大规模多元图的关联结构与语义构成的目的。

Claims

1.一种语义增强的大规模多元图简化可视化方法，其特征在于，包括如下步骤：

（1）建立大规模多元图，提取大规模多元图的层次结构；

（2）利用大规模多元图的属性，根据大规模多元图的层次结构构造多尺度的社团集合，所述大规模多元图的属性包括模块度和多维属性信息熵；

（3）按照大规模多元图的层次结构对多尺度的社团集合构造多级力引导布局，通过映射显示社团的语义表达；

（4）使用映射显示后的社团得到层次视图和属性桑基视图，利用多级力引导布局、层次视图和属性桑基视图对所述大规模多元图进行可视分析。

2.根据权利要求1所述的语义增强的大规模多元图简化可视化方法，其特征在于：在所述步骤（2）中，对多尺度的社团集合中的每个社团标记最优属性值。

3.根据权利要求2所述的语义增强的大规模多元图简化可视化方法，其特征在于：利用多尺度的社团集合中的每个社团所标记的最优属性值对社团进行颜色映射显示。

4.根据权利要求1至3中任一项所述的语义增强的大规模多元图简化可视化方法，其特征在于：在步骤（3）中，按以下方法构造多级力引导布局：

1）从大规模多元图中根据多元图聚类算法抽象出新的多元图，将大规模多元图中处在不同层级的所有社团标记为活跃状态；将大规模多元图中的第一级社团利用考虑节点大小的力引导算法进行布局，布局后的大规模多元图中的每个社团用圆来表示，圆的半径与圆内所含最底层的节点数量成正比；

2）逐级对布局后的大规模多元图的所有社团执行以下内容，以对所述新的多元图进行重新布局：

3）在重新布局后的多元图中，将最底层有节点相连的社团两两相连，连线的宽度与该连线所连接的两个社团内的最底层节点的连接数量之和成正比。