CN107357886A

CN107357886A - 一种基于局部h‑index的信息传播关键节点识别方法

Info

Publication number: CN107357886A
Application number: CN201710557596.9A
Authority: CN
Inventors: 刘强; 贾焰; 周斌; 杨树强; 韩伟红; 李爱平; 黄九鸣; 江荣; 朱湘; 全拥; 邓璐; 张涛; 张良; 宋怡晨; 刘心; 胡玥; 童咏之
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2017-11-17

Abstract

本发明属于数据挖掘领域，具体涉及一种基于局部h‑index的信息传播关键节点识别方法。该方法包括步骤：(S1)获取网络中各节点的h‑index值；(S2)分别计算各节点对应的所有邻居节点的h‑index值之和；(S3)将节点的h‑index值与该节点对应的所有邻居节点的h‑index值相加求和，得到节点的lh‑index值；(S4)对所有节点的lh‑index值按大小进行排序，得到排序列表L₁，从排序列表L₁中从前往后挑选出k个较大lh‑index值的节点作为信息传播关键节点。本发明解决了h‑index中心性方法的分辨率限制问题，能够有效识别网络中的关键节点；对网络中节点的度信息的微小变化不敏感，有利于客观的评价节点的真实影响力水平，适合于大规模在线社交网络数据。

Description

一种基于局部h-index的信息传播关键节点识别方法

技术领域

本发明属于数据挖掘领域，涉及包括社会网络在内的复杂网络分析技术，具体涉及一种基于局部h-index的信息传播关键节点识别方法。

背景技术

在网络科学中，信息传播中关键节点的探测问题，一直以来都得到广大研究者的许多关注。传统的关键节点探测方法主要有：度中心性、介数中心性、紧密度中心性以及核中心性。这些方法在探测网络中节点的影响力时，或多或少的存在一些局限性。比如说，度中心性未考虑节点的位置信息，核中心性需要获取网络的全局结构信息等等。

最近，有学者提出了一种新的度量网络中关键节点的新方法，称为h-index中心性方法。h-index最先是由Hirsch于2005年提出来的，原本是用来评价一个学者或科学家的学术成就的，自从该方法提出以来，在学术界得到了广泛的应用，但在其它领域应用的很少。Korn和Lü等近年来将该方法(h-index中心性方法)引入到网络科学中，根据网络结构的特点，对其进行了重新定义，并在许多真实网络中进行了验证，证明了其在探测网络中关键节点方面的有效性。然而，该方法在评估节点的传播能力时，赋予大量节点相同的h-index值，从而导致了h-index中心性方法在判断节点传播能力时的分辨率限制问题，以至于不能区别具有相同h-index值节点的真实影响力水平。

发明内容

针对上述h-index中心性方法在判断关键节点时的分辨率限制问题的技术问题，本发明提出了一种基于局部h-index(local h-index，缩写：lh-index)的信息传播关键节点识别方法，并在真实网络和人工合成网络上进行了相关实验，验证了其有效性。具体技术方案如下：

一种基于局部h-index的信息传播关键节点识别方法，包括以下步骤：

(S1)定义节点的h-index值，并获取网络中各节点的h-index值；设在网络结构中，定义节点的h-index值为：

对于节点i，将所有与节点i直接相连的邻居节点的度数值按照从大到小进行排序，得到一个列表L；按照从前往后的顺序遍历列表L中的各个元素，直到出现某个元素在列表L中的序号值大于该元素，该元素的序号值减1即为节点的h-index值；

(S2)分别计算各节点对应的所有邻居节点的h-index值之和，计算公式如下：

其中，N(i)为节点i的邻居节点集合，v表示邻居节点集合中的任一元素，Neighbors_h-index(i)表示节点i所有邻居节点的h-index值之和。

(S3)将节点i的h-index值与步骤(S2)计算所得的Neighbors_h-index(i)相加，得到节点i的lh-index值；分别计算网络中所有节点的lh-index值，并对所有节点的lh-index值按大小进行排序，得到排序列表L₁；

(S4)根据用户的需求，从排序列表L₁中挑选出前k个lh-index值对应的节点作为信息传播关键节点，k取整数。

采用本发明获得的有益效果：本发明基于lh-index的关键节点识别方法解决了h-index中心性方法的分辨率限制问题，能够有效识别网络中的关键节点；对网络中节点的度信息的微小变化不敏感，有利于客观的评价节点的真实影响力水平。本发明方法适合于大规模在线社交网络数据。

附图说明

图1为本发明方法流程示意图；

图2为一个简单的网络示意图；

图3为Blogs网络结构图；

图4为在Blogs网络上，h-index中心性方法和本发明方法对节点的影响力水平判定与节点真实传播能力之间的相关性；

图5为本发明基于局部h-index方法与其它中心性方法在Blogs网络上效果的对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示，本发明方法流程示意图，一种基于局部h-index的信息传播关键节点识别方法，包括以下步骤：

(S1)定义节点的h-index值，并获取网络中各节点的h-index值；在网络结构中，节点的度数值为：与该节点直接相邻的邻居节点个数。定义节点的h-index值为：该节点至少有h个邻居节点，这些邻居节点的度数值至少为h。对于节点i，将所有与节点i直接相连的邻居节点的度数值按照从大到小进行排序，得到一个列表L；按照从前往后的顺序遍历列表L中的各个元素，直到出现某个元素在列表L中的序号值大于该元素，该元素的序号值减1即为节点的h-index值。

如图2在一个简单的网络示意图中，对节点1而言，首先，对与其直接相连的邻居节点2,4,7,9,13的度数值按照从大到小排序，得到一个列表[5,4,3,3,2]。其次，遍历该列表中各个元素，当遍历到第四个元素3时，该元素对应的序号值为4，大于该元素，所以节点1的h-index值为3。也就是说，节点1的周围有3个邻居节点的度数值至少为3。

相对于现有技术中的其它节点中心性方法，例如，与k-core分解方法相比，本发明方法不需要获取网络的全局结构信息，仅需要获取与该节点相邻的邻居节点的信息。实际上，h-index中心性方法通过计算与一个节点相邻的节点中具有高质量的节点数目，来度量一个节点的影响力水平，且只需要网络的局部结构信息。

另外，h-index中心性方法相对于目前使用较为广泛的节点中心性方法，如度中心性，k-core中心性等方法，具有对节点的度值信息微小变化不敏感的特性，这有利于对一些边链接信息出现少量缺失或链接错误的网络进行关键节点的挖掘与探测问题的研究。实际上，在现实世界中，很难保证收集到的网络结构数据是完备的，且不存在边的链接信息丢失或错误的情况，而h-index中心性方法作为一种可以度量节点中心性的方法，在一定程度上能够解决这一问题。这是因为一个节点的h-index值考虑了其邻居节点中的高质量节点的度信息，少量其它节点的度信息变化不会影响到该节点的总的传播能力。其它一些中心性方法，如度中心性，介数中心性等等，少量节点之间的链接信息缺失或错误将直接导致这些节点的影响力水平。

其中，N(i)为节点i的邻居节点集合，v表示邻居节点集合中的任一元素，h-index(v)表示节点v的h-index值；Neighbors_h-index(i)表示节点i所有邻居节点的h-index值之和。

虽然h-index中心性方法在评估节点的影响力方面具有优点，但许多在网络中具有不同连接模式的节点具有相同的h-index值，从而导致了h-index中心性方法在区分节点影响力时的分辨率限制问题。例如，对于图1所示，节点1和节点9具有相同的h-index值，但它们与周围节点存在不同的连接模式，由此可见h-index方法在衡量节点的影响力水平时粒度较粗。因此，有必要考虑邻居节点的h-index值。也就是说，对于两个节点i和j，如果它们的h-index值相等，则如果节点i的邻居节点中具有较高h-index值的节点数目越多，该节点的影响力水平就高于节点j。

(S3)将节点i的h-index值与步骤(S2)计算所得的Neighborsh_-index(i)相加，得到节点i的lh-index值；分别计算网络中所有节点的lh-index值，并对所有节点的lh-index值按大小进行排序，得到排序列表L₁。

根据上述内容，节点i的lh-index值定义如下：

其中，lh-index(i)表示节点i的lh-index值，h-index(i)表示节点i的h-index值，Neighbors_h-index(i)表示节点i所有邻居节点的h-index值之和。

lh-index值同时考虑了节点本身的h-index值的大小以及与其相邻的所有邻居节点的h-index值的大小，从而能够更好的评估节点的影响力水平。节点的lh-index值一共有两部分组成：第一部分是节点自身的h-index值，考虑了其邻居节点中高质量的邻居节点数量。就科学引文网络而言，该类型网络中节点的h-index值表示一名学者发表的论文中有h篇论文被引用的次数至少为h次，也就是说高水平文章的数量，然而，仅仅考虑该学者的h-index值会导致作出许多学者具有相同影响力水平的错误判断。实际上，h-index值只考虑了该名学者所发表高质量文献的直接引用次数，但这些文献的间接引用次数也很重要。因此，我们同时考虑了邻居节点的h-index值信息。也就是说，如果一个节点的邻居节点中h-index值较大的节点数目越多，该节点的影响力水平就越高。

实施例以Blogs网络为例进行说明。设该网络共有3982个节点，6803条边。具体的网络结构特征如图3所示。通过上述方法，计算各节点的lh-index值大小，并评估其性能。具体性能如图3和图4所示。

为了评估本发明方法与现有技术中的各中心性方法之间的性能，我们利用Kendall相关系数τ来衡量中心性方法对节点的排序列表与各节点的真实影响力水平之间的相关性。中心性方法对节点的排序列表表示了该方法认定的节点影响力的强弱。节点真实影响力水平是通过该节点在随机SIR模型上模拟信息传播的过程而得到网络上最终受感染节点的数目而得出来的，反映了该节点的真实影响力水平大小。通过将这两者之间的关系进行对比分析，可以较好的衡量中心性方法的优劣。如果τ的值越接近于1，说明中心性方法所得的排序列表对节点影响力的判定与节点在网络中的真实影响力水平越一致。

在Blogs网络上，利用随机SIR模型上模拟各节点的信息传播的过程，得到随传播概率β变化对应的各中心性方法的Kendall相关系数τ的值。图4展示了在Blogs网络上，h-index和lh-index中心性方法(本发明)对节点的影响力水平的判定与通过SIR模型测试节点真实传播能力之间的相关性。图4(a)和图4(b)的横坐标分别为节点的h-index值和lh-index值的大小，纵坐标表示该中心性方法通过SIR所影响的的真实节点数目(InfectedNums)。通过图4(a)可以看出，h-index中心性方法中大多数节点具有相同的h-index值，但这些节点所影响的真实节点的数目是不同的。通过图4(b)可以看出,本发明方法与节点的实际影响力水平之间的相关性较好，明显优于图4(a)中的h-index中心性方法。

图5展示了在Blogs网络上，不同传播概率β下，各种中心性方法，包括度中心性(DC)，介数中心性(BC)，紧密度中心性(CC)，k-core中心性，h-index中心性以及lh-index中心性方法(本发明)，在随机SIR模型上运行100次所得的τ的均值的变化情况。可以看出，上述各个中心性方法的τ的值随着传播概率β的值的增加而发生着变化。当β较小的时，DC方法所得τ值在所有方法中最大，这说明当传播概率较小时，DC对节点中心性的度量与节点的实际传播能力符合程度较高。随着β的增加，DC方法所得τ值开始下降。而对于lh-index方法，在传播概率β值大部分变化范围内，该方法对节点影响力大小的评估与节点的实际影响力水平基本一致，在所有方法中表现最好，说明提出的lh-index方法能够影响更远范围内的节点，节点的lh-index值越大，该节点的传播能力越强，从而说明lh-index方法能较好的评估节点的影响力水平大小。

虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于局部h-index的信息传播关键节点识别方法，其特征在于，包括以下步骤：

<mrow> <msub> <mi>Neighbors</mi> <mrow> <mi>h</mi> <mo>-</mo> <mi>i</mi> <mi>n</mi> <mi>d</mi> <mi>e</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </munder> <mi>h</mi> <mo>-</mo> <mi>i</mi> <mi>n</mi> <mi>d</mi> <mi>e</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow>

其中，N(i)为节点i的邻居节点集合，v表示邻居节点集合中的任一元素，Neighbors_h-index(i)表示节点i所有邻居节点的h-index值之和；

(S4)从排序列表L₁中挑选出前k个lh-index值对应的节点作为信息传播关键节点，k取整数。