CN108090145B

CN108090145B - 一种动态网络边采样及其可视化方法

Info

Publication number: CN108090145B
Application number: CN201711282520.6A
Authority: CN
Inventors: 赵颖; 盛英帅; 刘俊荣; 江钧; 佘燕敏; 陈文江; 周芳芳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2021-11-02
Anticipated expiration: 2037-12-07
Also published as: CN108090145A

Abstract

本发明提供一种动态网络边采样及其可视化方法，包含以下步骤：1)选取动态网络中任意一组节点对，利用核密度估计方法计算该对节点间边的概率密度函数；2)根据节点对的边的概率密度函数构建合适的参考分布函数，近似表示真实的概率密度分布；3)针对目标节点对的每一条边，使用0‑1均匀分布分别获得一个随机值，并计算该边所处时刻概率密度与第二步构建的参考分布函数值的比值，比较该比值与随机值的大小关系，判断是否接受该样本；4)遍历动态网络中的所有节点对，重复步骤1)～3)，获得动态网络经采样后的边样本集。本发明能够在降低动态网络的规模的同时，还能基本保持原始动态网络的结构特征。

Description

一种动态网络边采样及其可视化方法

技术领域

本发明涉及动态网络可视化中可视优化领域，特别涉及一种动态网络边采样及其可视化方法。

背景技术

网络(Network)也称作图(Graph)，是一个人们耳熟能详的用来描述实体之间关系的数据结构，通常一切具有关系的实体都可以抽象成一个网络(图)，即实体被抽象成节点，实体之间的关系被抽象成边。根据网络是否会随着时间发生变化，可分为静态网络和动态网络。

动态网络主要用来表示网络中的节点及节点间关系随时间变化的情况。要高效、直观地帮助人们实现对动态网络中结构信息、时序模式的获取，常见的做法是通过可视化技术对动态网络中数据实现符合美学标准的视觉映射和布局设计。而动态网络可视化方法主要分为两大类：基于动画(Animation-based)的与基于时间轴的方式(Timeline-based)。动画是人们最熟悉且喜闻乐见的动态方法，它通过类似于播放电影的方法，将每个时间片的网络可视化视图按照时间的先后顺序逐一播放，让人们观察动态网络中节点或者边的变化；基于时间轴的方式是将整个动态网络划分成若干个时间片，对每个时间片分别进行可视化，然后将各个时间片以静态的方式展现在屏幕空间上，动画的方式虽然很直观，但由于人类的短期记忆能力有限，用户很难在短时间内捕捉到大量的网络变化信息。因此，人们更多地还是选择使用基于时间轴的方式对动态网络进行可视化，这种方法将动态网络绘制在一个时间-空间映射的时间轴上，所有时间片的视图都被展示在一个静态图片上，因而可以给用户一个更好的时间概览，但是这种方法也有一个缺点，那就是当时间片过多或节点规模较大、节点间关系复杂时，由于分配给每个时间片的空间有限，使得可视化结果较差，视图结构复杂、图形元素重叠严重、视觉紊乱，造成人们对动态网络时序模式、结构信息获取困难。为克服这些困难，常见的手段是对动态网络节点或边进行排序、聚类、采样等处理，而在实际应用中，关于动态网络节点或边排序、聚类的研究成果较多，关于采样方法的研究成果较少。一些应用较为广泛的采样方法例如随机采样、均匀采样等，在动态网络中的采样效果并不理想，在一些极端情况下，还会破坏原始动态网络的结构特征，进而导致研究者无法获取正确的动态网络结构信息。因此，有必要设计一种新的动态网络边采样方法。

发明内容

本发明所解决的技术问题为，提供一种动态网络边采样及其可视化方法，能够保有原始动态网络节点、节点关系的分布规律，尽可能保留了原始动态网络的结构信息，利用采样得到的边生成的网络可视化视图，能够降低视觉紊乱。

本发明为解决上述问题所采用的技术方案为：

一种动态网络边采样方法，包括以下步骤：

步骤1)：选取动态网络中任意节点对(v_p,v_q）作为目标节点对，获取它们之间的边集E（p,q）以及边集内所有边的出现时间，E（p,q）＝{e∈E|(e_a＝v_p∧e_b＝v_q)∨(e_a＝v_q∧e_b＝v_p)}，∧、∨表示“逻辑与”和“逻辑或”操作，e_a和e_b分别表示边e的起点和终点v_p和v_q表示动态网络中的一对节点；采用核密度估计方法计算边集E（p,q）关于时间t的概率密度函数f（v_p,v_q,t），f（v_p,v_q,t)表示时间t节点v_p,v_q间存在边的概率密度；

步骤2)：计算目标节点对之间的边集E(p,q)中每条边出现的时间的概率密度函数值f(v_p,v_q,t_i)，确定这些值中的峰值点，即概率密度函数f(v_p,v_q,t)函数的峰值点，其中t_i为边集E(p,q)中某条边出现的时间；顺序连接这些值中的峰值点，得到一个峰值分段函数g(v_p,v_q,t)；计算使得f(v_p,v_q,t)≤Fg(v_p,v_q,t)对所有边集E(p,q)中所有边的都成立的参数F的取值，选择F的取值中的最小非负值，构建参考分布函数q(v_p,v_q,t)＝Fg(v_p,v_q,t)；

步骤3)：根据蒙特卡洛拒绝-接受采样思想，针对E(p,q)中的每一条边进行以下操作：利用均匀分布u～U(0,1)获得一个随机数u，并计算该边出现的时间的参考分布函数值q(v_p,v_q,t_i)，若u≤f(v_p,v_q,t_i)/q(v_p,v_q,t_i)，则接受当前边作为采样样本，否则拒绝当前边作为采样样本；

步骤4)：遍历动态网络中的所有节点对，重复步骤1)～3)，最终获得所有采样样本，即动态网络经采样后的边集。

进一步地，所述步骤1)中，首先用流式模型对动态网络原始数据进行处理(流式模型是处理动态网络数据的一种典型策略，它将动态网络看作连续的流式的网络连接数据集。在该种模型下，动态网络被描述成一个有向图)，将动态网络描述成一个有向图G＝(V,E)，V表示动态网络的节点集，E表示动态网络的边集；再从节点集V中选取节点对作为目标节点对，由边集获取目标节点对之间的边集E(p,q)以及边集内所有边的出现时间。

进一步地，用流式模型对动态网络原始数据进行处理，将动态网络描述成一个有向图G＝(V,E)包括以下步骤：

步骤1.1)根据动态网络原始数据中出现的所有节点记录，构建一个节点集合V，V包含了动态网络中所有不重复的节点；

步骤1.2)根据步骤1.1)中的节点集合V，以及动态网络原始数据中任意节点间的边的出现时间的集合T，构建边集合E，

该边集合E中的元素表示为(v_a,v_b,t)，v_a和v_b分别表示这条边的两个端点，t表示这条边出现的时间。

进一步地，所述步骤1)中，采用核密度估计方法计算边集E(p,q)关于时间t的概率密度函数f(v_p,v_q,t)，包括以下步骤：

步骤2.1)：将集合E(p,q)内的边按照其出现时间t∈[t_min,t_max]从小到大排列，记为排序后的边集{(v_p,v_q,t₁),(v_p,v_q,t₂),(v_p,v_q,t₃),…,(v_p,v_q,t_n)},其中t_i≤t_i+1,i＝1,2,…,n-1；n为节点v_p和v_q之间的边的总数；{t₁,t₂,t₃,…,t_n}为节点v_p和v_q之间所有边出现时间；

步骤2.2)：采用以下核密度估计函数计算边集E(p,q)关于时间t的概率密度函数f(v_p,v_q,t)：

其中，f(v_p,v_q,t)表示时间t节点v_p和v_q之间存在边的概率密度，t_i∈{t₁,t₂,…,t_n}，K(·)是一个非负的核函数，h>0表示核函数的带宽，也叫窗口，是一个平滑参数，h越大，核函数越光滑，但与真实数据概率密度分布的偏差越大；

为缩放核函数；

进一步地，选择高斯函数作为缩放核函数：

其中σ表示高斯函数的带宽；边集E(p,q)关于时间t的概率密度函数为：

此概率密度函数为下一步参考分布函数构建提供重要依据。

本发明还提供一种动态网络可视化方法，首先采用上述的动态网络边采样方法对动态网络中的边进行采样，再利用采样得到的边集生成动态网络可视化视图。

有益效果：

本发明提供的动态网络边采样方法，在规模较大、结构复杂的动态网络中，能够在实现动态网络采样的目的——降低动态网络的规模的同时，还能基本保持原始动态网络的结构特征，便于后续研究人员对动态网络结构特征、模式发现的分析处理。本发明提供的动态网络可视化方法，首先采用上述的动态网络边采样方法对动态网络中的边进行采样，再利用采样得到的边集生成动态网络可视化视图，采样后生成的可视化视图能够降低视觉紊乱。

本发明将蒙特卡洛拒绝-接受采样应用于动态网络边集的采样中，避免了传统采样算法难以还原甚至破坏原始动态网络结构的弊端，通过基于时间轴的动态网络可视化方法比较采样前与采样后的动态网络结构，可以直观、清晰地观察到采样后的动态网络的视觉紊乱问题有了一定程度的缓解，一些原本难以发现的结构特征、时序模式也暴露了出来。

附图说明

图1是本发明流程图；

图2是原始未采样的动态网络的大规模序列视图；

图3是经本发明方法采样后的动态网络的大规模序列视图

具体实施方式

为使本发明的目的、设计思路和优点更加清楚，以下结合具体实例，并参照附图，对本发明作进一步详细说明。

本发明提供了一种动态网络边采样及其可视化方法，包括以下步骤：1)对动态网络数据用流式模型处理获得流式的网络连接数据集；2)选取其中任意一组节点对，利用核密度估计方法计算该对节点间边的概率密度函数；3)根据节点对的边的概率密度函数构建合适的参考分布函数，近似表示真实的概率密度分布；4)针对目标节点对之间的每一条边，使用0-1均匀分布分别获得一个随机值，并计算该边所处时刻的概率密度函数值与步骤3)构建的参考分布函数值的比值，比较该比值与随机值的大小关系，判断是否接受该边作为采样样本；5)遍历动态网络中的所有节点对，重复步骤2、3、4，获得动态网络经采样后的边样本集。进行边采样后，即可利用采样得到的边集生成动态网络可视化视图。

下面对本发明的方法涉及的关键步骤进行逐一详细说明，具体步骤如下所示：

步骤一，对动态网络数据用流式模型处理获得流式的网络连接数据集，主要包含以下工作：构建一个包含75个节点，10636条边的动态网络数据。根据流式模型的定义，将动态网络描述成一个有向图G＝(V,E)，V表示动态网络的节点集，

表示该动态网络的边集，(v_a,v_b,t)表示该边集中的一条边，在每条边中分别指定了两个端点v_a，v_b及该条边出现的时间t。直接对该未采样处理的数据集用MSV可视化技术展现，得到的效果图如图2。MSV(massive sequence views)，大规模序列视图，是一种典型的基于时间轴的动态网络可视化方法。在MSV中，水平轴表示时间，纵轴等距离地放置动态网络中的节点，若某个时刻某两个节点间出现一条边，则在对应时刻用直线连接两个节点。

步骤二，对其中任意节点对的边集E(p,q)用核密度估计方法计算其概率密度函数，具体方法如下：(1)E(p,q)每条边用向量(v_p,v_q,t)表示，v_p,v_q表示边的两个端点，t表示边出现的时间。该边集中所有边的头、尾节点均相同，根据边出现的时间t的先后顺序对边集中的所有边重新排序，重新排序后的边集E(p,q)为{(v_p,v_q,t₁),(v_p,v_q,t₂),(v_p,v_q,t₃),…,(v_p,v_q,t_n)},t_i≤t_i+1,i＝1,2,…,n-1。(2)根据边集E(p,q)中每条边出现的时间t的值做核密度估计，其核密度估计函数为：

其中，f(v_p,v_q,t)表示时间t节点v_p和v_q之间存在边的概率密度，K(·)是一个非负的核函数，h>0表示带宽，是一个平滑参数，h越大，核函数越光滑。核函数的类型有很多，考虑到高斯核函数方便、良好的数学特性，本发明选用高斯函数作为核密度估计的核函数：

代入核密度估计函数中，高斯函数的自变量x对应核密度估计函数的t变量，σ即对应带宽h，得到边集E(p,q)的概率密度函数为：

步骤三，根据计算所得的概率密度函数，构建其参考分布函数，操作如下：(1)由于边集E(p,q)中边元素的出现时间t并不是连续的，根据步骤二中得到概率密度函数，可以计算出每条边出现时刻的概率密度函数值，f(v_p,v_q,t₁),f(v_p,v_q,t₂),f(v_p,v_q,t₃),…f(v_p,v_q,t_n)；(2)连接这些值中的峰值，构建一个基于峰值的分段函数g(v_p,v_q,t)；(3)计算参数F，使参数F对边集中所有边都满足f(v_p,v_q,t)≤Fg(v_p,v_q,t)，取满足条件的F的最小非负值构建参考分布函数q(v_p,v_q,t)＝Fg(v_p,v_q,t)。

步骤四，对步骤二中选取的目标节点对的所有边样本，每次选取其中一个边样本，使用0-1均匀分布获得一个随机值，并计算该边所处时刻概率密度函数与第二步构建的参考分布函数的比值，比较该比值与随机值的大小关系，判断是否接受该样本。详细实施步骤为：根据拒绝-接受采样思想，取E(p,q)中的任意一条边的时间e_t作为样本点，利用均匀分布采样u～U(0,1)产生一个随机数u，若u≤f(p,q,e_t)/Fg(p,q,e_t)，则接受该样本，否则拒绝该样本。

步骤五，遍历动态网络中的所有节点对，重复2、3步骤，最终获得动态网络经采样后的边样本集，得到效果图如图3。

Claims

1.一种动态网络可视化方法，首先动态网络边采样方法对动态网络中的边进行采样，再利用采样得到的边集生成动态网络可视化视图；

所述采用动态网络边采样方法对动态网络中的边进行采样的方法包括以下步骤：

步骤1)：选取动态网络中任意节点对(v_p，v_q)作为目标节点对，获取它们之间的边集E(p，q)以及边集内所有边的出现时间，采用核密度估计方法计算边集E(p，q)关于时间t的概率密度函数f(v_p，v_q，t)，f(v_p，v_q，t)表示时间t节点v_p，v_q间存在边的概率密度；

步骤2)：计算目标节点对之间的边集E(p，q)中每条边出现的时间的概率密度函数值f(v_p，v_q，t_i)，确定这些值中的峰值点，其中t_i为边集E(p，q)中某条边出现的时间；顺序连接这些值中的峰值点，得到一个峰值分段函数g(v_p，v_q，t)；计算使得f(v_p，v_q，t)≤F_g(v_p，v_q，t)对所有边集E(p，q)中所有边的都成立的参数F的取值，选择F的取值中的最小非负值，构建参考分布函数q(v_p，v_q，t)＝F_g(v_p，v_q，t)；

步骤3)：根据蒙特卡洛拒绝-接受采样思想，针对E(p，q)中的每一条边进行以下操作：利用均匀分布u～U(0，1)获得一个随机数u，并计算该边出现的时间的参考分布函数值q(v_p，v_q，t_i)，若u≤f(v_p，v_q，t_i)/q(v_p，v_q，t_i)，则接受当前边作为采样样本，否则拒绝当前边作为采样样本；

2.根据权利要求1所述的动态网络可视化方法，其特征在于，所述步骤1)中，首先用流式模型对动态网络原始数据进行处理，将动态网络描述成一个有向图G＝(V，E)，V表示动态网络的节点集，E表示动态网络的边集；再从节点集V中选取节点对作为目标节点对，由边集获取目标节点对之间的边集E(p，q)以及边集内所有边的出现时间。

3.根据权利要求2所述的动态网络可视化方法，其特征在于，用流式模型对动态网络原始数据进行处理，将动态网络描述成一个有向图G＝(V，E)包括以下步骤：

该边集合E中的元素表示为(v_a，v_b，t)，v_a和v_b分别表示这条边的两个端点，t表示这条边出现的时间。

4.根据权利要求3所述的动态网络可视化方法，其特征在于，所述步骤1)中，采用核密度估计方法计算边集E(p，q)关于时间t的概率密度函数f(v_p，v_q，t)，包括以下步骤：

步骤2.1)：将集合E(p，q)内的边按照其出现时间从小到大排列，记为排序后的边集{(v_p，v_q，t₁)，(v_p，v_q，t₂)，(v_p，v_q，t₃)，...，(v_p，v_q，t_n)}，其中t_i≤t_i+1，i＝1，2，...，n-1，n为节点v_p和v_q之间的边的总数，{t₁，t₂，t₃，...，t_n}为节点v_p和v_q之间所有边出现时间；

步骤2.2)：采用以下核密度估计函数计算边集E(p，q)关于时间t的概率密度函数f(v_p，v_q，t)：

其中，t_i∈{t₁，t₂，...，t_n}，K(·)是一个非负的核函数，h＞0表示核函数的带宽；

为缩放核函数。

5.根据权利要求4所述的动态网络可视化方法，其特征在于，选择高斯函数作为缩放核函数：

则边集E(p，q)关于时间t的概率密度函数为：

其中σ表示高斯函数的带宽。