CN103338460B

CN103338460B - 用于动态网络环境的节点中心度的计算方法

Info

Publication number: CN103338460B
Application number: CN201310238265.0A
Authority: CN
Inventors: 马华东; 袁培燕
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-06-17
Filing date: 2013-06-17
Publication date: 2016-03-30
Anticipated expiration: 2033-06-17
Also published as: CN103338460A

Abstract

一种用于动态网络环境的节点中心度的计算方法，是根据每个节点的移动模式，以及对每个节点移动模式进行聚合分析所形成的系统的移动模式两者之间的相似情况，判断每个节点在网络中的重要程度，作为该节点中心度。其操作步骤为：（1）挖掘与识别节点的移动模式，（2）计算节点中心度，（3）对节点中心度的计算方法进行优化。本发明利用节点的移动模式与系统的移动模式之间的相对熵，据此对每个节点在系统内所处的地位或作用进行量化。该方法不仅能适应复杂多变的网络环境，同时也有效降低了原有算法的计算复杂度，使得操作步骤简单、便利的该方法具有良好的推广应用前景。

Description

用于动态网络环境的节点中心度的计算方法

技术领域

本发明涉及一种网络分析技术，确切的说，涉及一种用于动态网络环境中节点中心度的计算方法，属于社会网络、移动自组织网络、车载网络或复杂网络的分析或应用的技术领域。

背景技术

目前，基于节点中心度的社会化网络分析方法是研究复杂网络结构及其属性的一种重要技术手段。节点中心度反映了单个节点在整个社会网络中所处的地位和作用，在计算机病毒传播、舆情处理和网络故障源诊断等方面，节点中心度都具有非常重要的应用价值。当前，常用的节点中心度的量化或计算方法有三种：节点的度，接近中心度和中介中心度。

节点的度是节点一跳邻居的个数，即与该节点直接连接的节点数。节点的度越大，说明该节点在网络中的地位越高。节点度的定义为：式中，i和j分别为两个不同节点的序号或标识，N为网络中节点的总数，布尔函数p_ij表示节点之间的邻接关系：如果节点i和j为邻居，则p_ij=1；否则，p_ij=0。

接近中心度是节点到其所有可达节点的最短距离之和的倒数，该值越小，说明节点在网络中的重要性越高。节点接近中心度的定义为：式中，d(i,j)表示节点对(i,j)之间的最短距离。

中介中心度是节点在网络中所有节点对的最短路径上出现的次数。考虑到网络中数据的传输是沿着最短路径进行的，所以某个节点的中介中心度越高，就说明该节点在数据传输过程中发挥的作用越大。节点中介中心度的定义为：其中，j和k为两个不同节点，g_jk表示网络中所有节点对之间的最短路径的条数，g_jk(i)表示在这些最短路径中包含节点i的路径条数。

需要指出的是：上述三种节点中心度的计算方法都只能够适用于静态的网络场景，例如，无线传感网络、无线网格网络等。然而，在动态网络环境下（例如：在线社交网络，移动自组织网络，移动车载网络等等），因为其节点的邻居个数是时变的，节点之间的最短路径也是时断时续的，甚至有可能是不存在的。这样，上述三种节点中心度的计算方法都无法使用。

此外，用来计算接近中心度和中介中心度的相关算法的复杂度也比较高，无法有效地解决网络的可扩展性问题，限制了节点中心度的应用领域。

因此，迫切需要一种新的方法来量化或计算动态环境下的节点中心度。

发明内容

有鉴于此，本发明的目的是提供一种用于动态网络环境的节点中心度的计算方法，该方法解决了在动态网络环境下，传统的社会化网络分析方法不能很好地描述或计算节点中心度的缺陷，本发明能够有效地适应动态的网络环境，并且，操作步骤简单，具有较低的复杂度及良好的可扩展性。

为了达到上述目的，本发明提供了一种用于动态网络环境的节点中心度的计算方法，其特征在于：根据每个节点的移动模式，以及对每个节点移动模式进行聚合分析所形成的系统的移动模式两者之间的相似情况，判断每个节点在网络中的重要程度，作为该节点中心度；所述方法包括下列操作步骤：

（1）挖掘与识别节点的移动模式：因节点的移动模式取决于该节点频繁访问、即经常出现的前k个地理位置和访问这些地理位置的频率，其计算公式为：节点的移动模式，式中，二元组表示某个节点i访问的第r个子区域及其访问频率，自然数i和r分别为系统内的节点序号和子区域的序号，r的最大值、即子区域的总数为K；因此，节点的移动模式受到下述两种因素影响：子区域面积的划分和节点访问每个子区域的频率，据此挖掘与识别节点的移动模式；

（2）计算节点中心度：采用相对熵的计算公式计算节点的移动模式与系统的移动模式之间的相似程度，并作为节点中心度；

（3）对节点中心度的计算方法进行优化：因为只需选取若干个权重最高的子区域就足以代表整个系统或每个节点的移动模式，故据此对步骤（2）的节点中心度的计算方法实现优化。

与现有技术相比，本发明的优点和效果是：

目前基于经典的节点中心度的计算方法存在两个缺陷：一是计算复杂度过高，导致算法的可扩展性差，二是不能用于动态的网络环境（例如移动社交网络和车载网络等），现有的这些方法都不能很好地描述或计算节点的中心度。本发明是利用节点的移动模式与系统的移动模式之间的相对熵，据此量化每个节点在系统内所处的地位或作用，该方法不仅能适应复杂多变的网络环境，同时也有效降低了原有算法的复杂度，使得操作步骤简单、便利的该方法具有良好的推广应用前景。

附图说明

图1是本发明用于动态网络环境的节点中心度的计算方法操作步骤流程图。

图2是本发明实施例：对韩国科学院（KAIST）地区的区域划分情况以及与之对应的每个区域的权重情况示意图。

图3是本发明另一实施例：对美国北卡罗来纳州立大学（NCSU）地区的区域划分情况以及与之对应的每个区域的权重情况示意图。

图4是本发明动态网络环境的节点中心度的计算方法操作步骤细化流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明作进一步的详细描述。

本发明用于动态网络环境的节点中心度的计算方法，该方法是根据每个节点的移动模式，以及对每个节点移动模式进行聚合分析所形成的系统的移动模式两者之间的相似情况，判断每个节点在网络中的重要程度，并将其作为该节点中心度。

本发明的动态网络环境是：在包括在线社交网络，移动自组织网络或移动车载网络中，每个节点的邻居个数是时变的，节点之间的最短路径也是时断时续的，甚至可能是不存在的网络系统。

参见图1，介绍本发明方法的下述操作步骤：

步骤1，挖掘与识别节点的移动模式：

因为节点的移动模式取决于该节点频繁访问、即经常出现的前k个地理位置和访问这些地理位置的频率，节点的移动模式计算公式为：，式中，二元组为第i个节点访问的第r个子区域及其访问频率，自然数i和r分别为系统内的节点序号和子区域的序号，r的最大值、即系统内的子区域总数为K；因此，节点的移动模式受到下述两个因素影响：子区域划分的面积和节点访问每个子区域的频率，据此挖掘与识别节点移动模式。

该步骤1包括下列操作内容：

（11）划分节点活动的子区域：因子区域的面积大小对于计算节点出现在每个子区域的次数、即节点移动模式有直接影响。如果每个子区域划分的面积过大，则节点出现在该区域的次数就会增多；反之，如果每个区域划分的面积过小，则节点出现在该区域的次数就随之减少。这两种情况都会影响节点的移动模式。故必须选择一种适宜的子区域面积判定方法、本发明采用迭代的聚类方差法来划分每个子区域的面积。该步骤（11）包括下列操作内容：

（a）先将网络划分为多个面积为d×d的子区域，d为每个子区域的边长。

（b）计算每个子区域的权重（即网络中所有节点出现在每个子区域的次数与所有节点出现在整个网络内的总次数的比值）。

（c）计算这些子区域权重所构成的随机序列的聚类方差：将步骤（b）得到的每个子区域的权重构成一个随机序列，并将该随机序列划分为多个数量相等（均为m）的块段，并计算每个块段的平均值，再计算由该m个平均值所组成的块段序列的方差；然后，增大m的数值，重复执行上述操作，直到m等于K时，才结束该步骤；其中，变量m的取值公式为：m=2^j，式中，幂指数j=0,1,2,...,log₂K。

（d）采用一种用于曲线拟合的最小二乘法对步骤（c）得到的（log₂K+1）个方差组成的序列进行曲线拟合，并计算拟合后的曲线斜率β。该步骤目的是将一个设定的离散序列拟合为一条曲线；其判断准则是曲线与原来离散序列之间的距离的平方和是否为最小，如果是，则认为该曲线是原离散序列的最佳拟合。

（e）计算Hurst参数，即该Hurst参数是用于判断节点移动自相似性的技术指标，若Hurst参数的值大于0.5，则该节点的移动具有自相似性，即节点经常往返于一些区域之间。

（f）设置每个子区域的边长d增加其步长Δd=step后，返回执行上述步骤（a）～（e），直到d等于该系统的半径时，完成该操作流程后，执行步骤（g）。

（g）计算上述各个Hurst参数中的最大值，得到该最大值对应的区域半径d_max；再用该数值d_max作为各个子区域的边长。

图2和图3分别显示了利用本发明上述方法对两个不同地区的子区域的划分以及与其对应的每个区域的权重情况。图2中KAIST为韩国科学院，图3中的NCSU为美国北卡罗来纳州立大学。

（12）划分节点活动的区域后，对每个节点的移动模式进行聚集处理。

（13）统计和识别系统的移动模式：将整个系统视为一个超级节点后，采用计数过程识别该系统的移动模式。该步骤（13）包括下列操作内容：

（a）先统计整个系统内所有节点在设定时间内停留于该动态网络的总次数，再针对每个子区域，统计在设定时间内所有节点在该子区域的停留次数n_r，再统计系统内所有节点在设定时间内停留于该整个动态网络的总次数然后，利用该两者之比作为系统内第r个子区域的权重：并将该类子区域称为系统的公共热区；

（b）计算在设定时间内每个节点访问每个子区域、即该节点的个人热区的频率，得到每个节点在每个子区域内的权重为：其中，为在设定时间内第i个节点停留在第r个区域内的次数；

（c）计算出系统内每个子区域的权重和每个节点在每个子区域出现的频率后，按照下述公式分别计算系统的移动模式：y={(r,w_r)|1≤r≤K}和每个节点i的移动模式。

步骤2，计算节点中心度：采用相对熵的计算公式计算节点的移动模式与系统的移动模式之间的相似程度，并作为节点中心度。

相对熵又称为信息散度，是一种用于计算两种分布之间的相对距离的方法。如果将系统的公共热区的权重视为一种分布，将节点的个人热区的权重视为另一种分布，显而易见，某个节点的个人热区与系统的公共热区越相似，则说明该节点经常往返于系统的公共热区之间，自然地，该节点可以接触到更多的其它节点，那么该节点在网络中的社会地位就较高，显然这与节点中心度的含义在本质上是一致的。由相对熵的定义及其计算公式，得到基于节点移动模式的第i个节点的节点中心度的计算公式为：其中，C_i表示节点i的中心度，为第i个节点的第r个个人热区的权重，w_r为系统的第r个公共热区的权重（即该区域被所有节点访问的频率之和）。

比较本发明背景技术中常用的节点的度，接近中心度和中介中心度的三种量化方法与本发明步骤2提出的节点中心度计算公式可知：步骤2的公式算法复杂度为Θ(K)，其仅取决于系统内的热区数，而与网络内节点数无关。节点的度计算公式要对网络内所有节点分别计算每个节点的邻居个数，其算法复杂度为Θ(N²)。后两种计算公式都要计算任意节点对（复杂度为Θ(N²)）的最短距离，而最短距离算法的计算复杂度为Θ(N³)；故其算法的总复杂度为Θ(N⁵)。总之，这些计算方法的算法复杂度过高，可扩展性不好，也不适合于动态的网络环境。

步骤3，因在实际操作中发现，只需利用若干个子区域、即选取若干个权重最高的子区域就能准确描述整个系统或每个节点的移动模式，故据此对步骤2的节点中心度的计算方法实现优化：

选取前k个权重最高的子区域就足以表示整个系统或每个节点的移动模式，这样优化后的节点中心度的计算公式为：

式中，自然数k为系统内位于权重最高的多个子区域的总数，其数值的取值范围为K的5%-10%。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于动态网络环境的节点中心度的计算方法，其特征在于：根据每个节点的移动模式，以及对每个节点移动模式进行聚合分析所形成的系统的移动模式两者之间的相似情况，判断每个节点在网络中的重要程度，作为该节点中心度；所述方法包括下列操作步骤：

(1)挖掘与识别节点的移动模式：因节点的移动模式取决于该节点频繁访问、即经常出现的前k个地理位置和访问这些地理位置的频率，其计算公式为：节点的移动模式式中，二元组表示某个节点i访问的第r个子区域及其访问频率，自然数i和r分别为系统内的节点序号和子区域的序号，r的最大值、即子区域的总数为K；因此，节点的移动模式受到下述两种因素影响：子区域面积的划分和节点访问每个子区域的频率，据此挖掘与识别节点的移动模式；

(2)计算节点中心度：采用相对熵的计算公式计算节点的移动模式与系统的移动模式之间的相似程度，并作为节点中心度；

(3)对节点中心度的计算方法进行优化：因为只需选取若干个权重最高的子区域就足以代表整个系统或每个节点的移动模式，故据此对步骤(2)的节点中心度的计算方法实现优化。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)包括下列操作内容：

(11)划分节点活动的子区域：因子区域的面积大小对于计算节点出现在每个子区域的次数、即节点移动模式有直接影响，故必须选择一种适宜的子区域面积判定方法、即迭代的聚类方差法来划分每个子区域的面积；

(12)对每个节点的移动模式进行聚集处理；

(13)统计和识别系统的移动模式：将整个系统视为一个超级节点后，采用计数过程识别该系统的移动模式。

3.根据权利要求2所述的方法，其特征在于，所述步骤(11)包括下列操作内容：

(11a)先将整个网络划分为多个面积为d×d的子区域，d为每个子区域的边长；

(11b)计算每个子区域的权重，即网络中所有节点出现在每个子区域的次数与所有节点出现在整个网络内的总次数的比值；

(11c)计算这些子区域权重所构成的随机序列的聚类方差：将步骤(11b)得到的每个子区域的权重构成一个随机序列，并将该随机序列划分为多个数量相等、均为m的块段，并计算每个块段的平均值，再计算由该m个平均值所组成的块段序列的方差；然后，增大m的数值，重复执行上述操作，直到m等于K时，才结束该步骤；其中，变量m的取值公式为：m＝2^j，式中，幂指数j＝0,1,2,...,log₂K；

(11d)采用最小二乘法对步骤(11c)得到的(log₂K+1)个方差组成的序列进行曲线拟合，并计算拟合后的曲线斜率β；

(11e)计算Hurst参数，即该Hurst参数是用于判断节点移动自相似性的技术指标，若Hurst参数的值大于0.5，则该节点的移动具有自相似性，即节点经常往返于一些区域之间；

(11f)设置每个子区域的边长d增加其步长Δd＝step后，返回执行上述步骤(11a)～(11e)，直到d等于该系统的半径时，完成该操作流程后，执行后续步骤(11g)：

(11g)计算上述各个Hurst参数中的最大值，得到该最大值对应的区域半径d_max；再用该数值d_max作为各个子区域的边长。

4.根据权利要求3所述的方法，其特征在于：所述最小二乘法是一种用于曲线拟合的方法，目的是将一个设定的离散序列拟合为一条曲线；其判断准则是该曲线与原来离散序列之间的距离的平方和是否为最小，如果是，则认为该曲线是原离散序列的最佳拟合。

5.根据权利要求2所述的方法，其特征在于，所述步骤(13)包括下列操作内容：

(13a)先针对每个子区域，统计在设定时间内所有节点在该子区域的停留次数n_r，再统计系统内所有节点在设定时间内停留于整个动态网络的总次数然后，用该两者之比作为系统内第r个子区域的权重：并将该类子区域称为系统的公共热区；

(13b)计算在设定时间内每个节点访问每个子区域、即该节点的个人热区的频率，得到每个节点在每个子区域内的权重其中，为在设定时间内第i个节点停留在第r个区域内的次数；

(13c)按照下述公式分别计算系统的移动模式：y＝{(r,w_r)|1≤r≤K}和每个节点i的移动模式

x_{i} = {(r, w_{i}^{r}) | 1 \leq r \leq K} .

6.根据权利要求5所述的方法，其特征在于：所述相对熵又称为信息散度，用于计算两种分布之间的相对距离；由相对熵的定义及其计算公式，得到基于节点移动模式的第i个节点的节点中心度的计算公式为：

7.根据权利要求1所述的方法，其特征在于：因在实际操作中发现，只需利用若干个子区域就能准确描述整个系统的总体特征，故选取前k个权重最高的子区域，就足以代表整个系统或每个节点的移动模式，这样优化后的节点中心度的计算公式为：

式中，自然数k为系统内位于权重最高的多个子区域的总数，其数值的取值范围为K的5％-10％。

8.根据权利要求1所述的方法，其特征在于：所述动态网络环境是在包括在线社交网络，移动自组织网络或移动车载网络中，每个节点的邻居个数是时变的，节点之间的最短路径也是时断时续的，甚至可能是不存在的网络系统。