CN115664976A

CN115664976A - 一种基于网络广义能量和信息熵的关键节点识别方法

Info

Publication number: CN115664976A
Application number: CN202211284469.3A
Authority: CN
Inventors: 卢鹏丽; 刘文智; 张腾; 杨君霞; 高家杰; 李玲; 田佳龙
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-31

Abstract

本发明公开了一种基于网络广义能量和信息熵的关键节点识别方法，包括步骤：数据标准化；节点影响力评分；节点排序，按照节点的评分进行降序排列。与现有技术相比，本发明创造性的将网络能量和信息熵理论结合起来，即考虑了网络节点的局部能量熵属性，又考虑了节点的一阶邻居和二阶邻居的能量熵，能有效提高关键节点的识别准确性；通过将网络广义能量转化为网络拓扑指标来降低计算的时间复杂度，提高关键节点的识别有效性。

Description

一种基于网络广义能量和信息熵的关键节点识别方法

技术领域

本发明涉及计算机网络领域，尤其涉及一种基于网络广义能量和信息熵的关键节点识别方法。

背景技术

复杂网络的关键节点是指相比网络其他节点而言，能够在更大程度上影响网络的结构与功能的一些特殊节点。近年来，节点重要性排序研究受到越来越广泛的关注，不仅因为其重大的理论研究意义，更因为其广泛的实际应用价值。几乎所有的复杂系统(比如社会、生物、信息、技术、交通运输系统)都可以自然地表示为网络。其中，节点代表系统的各种构成要素，节点间的连边表示要素之间的联系。应用复杂网络的理论和方法能够帮助我们更好地理解这些复杂系统的特征，并对其进行更好地预测和控制。重要节点一般数量非常少，但其影响却可以快速地波及到网络中大部分节点。例如，在对一个无标度网络的蓄意攻击中，少量最重要节点被攻击就会导致整个网络瓦解；微博中最有影响力的几个用户所发的微博很快就能传遍整个网络；仅仅1％的公司却控制着40％的全球经济。可见重要节点对网络的结构和功能有着巨大的影响，节点重要性的排序和重要节点的挖掘意义重大。

迄今为止，学者们已经提出了一系列经典的方法来识别复杂网络的关键节点，然而，这些现有的方法在不同程度上都存在一些缺陷。例如度中心性(degree centrality,DC)，它只考虑有关网络节点的局部信息；接近中心性(closeness centrality,CC)和介数中心性(betweenness centrality,BC)，它们关注最短路径，具有较高的计算复杂性，如果大多数信息不是通过最短路径传输的，则它们的性能很差；特征向量中心性(eigenvectorcentrality,EC)，它在处理大规模、不对称和异构网络方面面临限制；K-shell算法，它在区分具有相同度值的节点方面表现不佳。

发明内容

为克服现有技术的不足，本发明提出一种基于网络广义能量和信息熵的关键节点识别方法。

本发明的技术方案是这样实现的，一种基于网络广义能量和信息熵的关键节点识别方法，包括步骤

S1：数据标准化，将选取的网络数据集抽象成为网络图并计算出邻接矩阵A(G)、度矩阵D(G)和广义矩阵A_α(G)；

S2：节点影响力评分，包括步骤

S21：计算网络整体的广义能量，所述网络整体的广义能量的计算公式为

其中d_i为网络节点v_i的度，α∈[0,1]为广义矩阵的可调参数；

S22：计算网络节点的广义能量，网络节点v_i的广义能量计算公式为

其中N_i是节点v_i的邻居集合，d_i为网络节点v_i的度，α∈[0,1]为广义矩阵的可调参数；

S23：计算网络节点的一阶和二阶广义能量，网络节点v_i的一阶广义能量和二阶广义能量的计算公式分别为

和

其中N_i是节点v_i的邻居集合；

S24：根据信息熵构建网络节点的一阶和二阶广义能量概率集，网络节点v_i的一阶广义能量概率和二阶广义能量概率公式分别为

和

其中N_i是节点v_i的邻居集合；

S25：计算网络节点的一阶广义能量熵和二阶广义能量熵，网络节点v_i的一阶广义能量熵和二阶广义能量熵公式分别为

和

其中N_i是节点v_i的邻居集合；

S26：计算网络节点的广义能量熵，网络节点v_i的广义能量熵为GEE(v_i)＝GEE₁(v_i)+λ_iGEE₂(v_i)，其中

S27：计算网络节点的传播能力，将节点v_i的邻居节点的GEE值进行求和，即

其中N_i是节点v_i的邻居集合；

S28：将网络节点的广义能量熵中心性定义为

其中N_i是节点v_i的邻居集合；

S3：将步骤2中求得的网络中各网络节点的GEEC值进行降序排列，排序后的结果用GEEC序列R＝{R₁,R₂,...,R_n}表示，其中，r₁表示的是网络中GEEC值最大的节点的数值，r_n表示的是网络中GEEC值最小的节点的数值。

进一步地，所述基于网络广义能量和信息熵的关键节点识别方法，还包括步骤S4：精准性分析，包括步骤

S41：使用SIR传播模型来衡量网络节点的真实传播能力，生成生成一个SIR模型的序列σ＝{σ₁,σ₂,...,σ_n}；

S42：获取由不同度量方式所得的节点序列R，使用Kendall相关系数来表示序列σ和序列R的相关性，Kendall相关系数的定义为

其中，n_c是两个序列中一致元素对的数目，n_d是两个序列中不一致元素对的数目，n是两个元素对的规模；

S43：通过单调性函数检验各中心性度量方式区分节点传播效率的能力，单调性(M)的定义为：

其中，n是序列R中元素的个数，N_r是在第r个等级中元素的个数；

S44：使用排名相似性函数

表征序列σ和R的前L项排名的相关性，其中σ(L)和R(L)分别代表σ和R的前L项排名；

S45：结果分析。

更进一步地，在S42中获取由6种度量方式所得的节点序列R。

本发明的有益效果在于，与现有技术相比，本发明将网络能量和信息熵理论结合起来，一方面，即考虑了网络节点的局部能量熵属性，又考虑了节点的一阶邻居和二阶邻居的能量熵，能有效提高关键节点的识别准确性；另一方面，通过将网络广义能量转化为网络拓扑指标来降低计算的时间复杂度，提高关键节点的识别有效性。

附图说明

图1是本发明基于网络广义能量和信息熵的关键节点识别方法一个实施例流程图；

图2是基于网络广义能量和信息熵的关键节点识别方法原理图；

图3是采用本发明方法与6种中心性测度DC、BC、CC、CLD、CNC、LEC方法得到的关键节点识别准确性在Jazz网络中的Kendall相关系数对比图；

图4是采用本发明方法与6种中心性测度DC、BC、CC、CLD、CNC、LEC方法得到的关键节点识别准确性在USAir网络上的F(L)对比图；

图5是采用本发明方法与6种中心性测度DC、BC、CC、CLD、CNC、LEC方法得到的关键节点识别准确性在9个真实网络上单调性对比表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1和图2，本发明提供的基于网络广义能量和信息熵的关键节点识别方法具体包括：

步骤1，数据标准化，将选取的网络数据集抽象成为网络图并计算出邻接矩阵，度矩阵和广义矩阵；

S11：根据网络结构将其转化为可处理的数据，邻接矩阵A(G)，度矩阵D(G)和广义矩阵A_α(G)，实现数据标准化。网络G中的节点代表实体，实体之间的联系抽象为一条边，如果节点及其连边关系用邻接矩阵A＝(a_ij)_n×n来表示，其中，n表示网络中节点的数量，a_ij表示网络中任意两个节点i和j间的关系。度矩阵D(G)＝diag(d₁,d₂,…,d_n)，其中d_i表示节点v_i的度，即节点v_i邻居节点的个数。广义矩阵D_α(G)＝αD(G)+(1-α)A(G)，其中α为邻接矩阵和度矩阵的调节参数。

步骤2，节点评分，结合广义能量理论和信息熵理论提出广义能量熵中心性(GEEC)，将网络拓扑结构数值化并计算所有节点的GEEC值，即节点影响力评分。

S21：计算网络整体的广义能量；网络的广义能量计算公式为

其中μ_i为网络广义矩阵对应的特征值，我们通过矩阵理论和图谱理论相关知识将广义能量的计算转化为网络拓扑指标的计算，显著降低了计算的时间复杂度，即

其中d_i为网络节点v_i的度，α∈[0,1]为广义矩阵的可调参数，。

S22：根据步骤S21推导网络节点的广义能量公式；节点的广义能量可以通过删除节点后网络广义能量的变化来反映，即

则节点v_i的广义能量计算公式为

其中N_i是节点v_i的邻居集合。

S23：计算网络节点的一阶和二阶广义能量；一阶是指节点的邻居集合，二阶是指节点的邻居的邻居集合，节点v_i的广义能量用E_i来简记，则节点v_i的一阶广义能量和二阶广义能量的计算公式分别为

和

其中N_i是节点v_i的邻居集合。

S24：根据信息熵构建网络节点的一阶和二阶广义能量概率集；节点v_i的一阶广义能量概率和二阶广义能量概率公式分别为

和

其中N_i是节点v_i的邻居集合。

S25：计算网络节点的一阶广义能量熵和二阶广义能量熵；根据信息熵的定义，一阶广义能量熵和二阶广义能量熵公式分别为

和

其中N_i是节点v_i的邻居集合。

S26：结合节点的一阶和二阶广义能量熵信息计算广义能量熵；考虑到节点v_i的传播影响主要由一阶和二阶邻居决定，且一阶邻居的贡献大于二阶邻居。因此，一阶广义能量熵的系数默认为1，二阶广义能量熵值的系数用λ_i表示。则节点v_i的广义能量熵表示为GEE(v_i)＝GEE₁(v_i)+λ_iGEE₂(v_i)，其中

S27：通过节点的邻居信息计算网络节点的传播能力，将节点v_i的邻居节点的GEE值进行求和，即

其中N_i是节点v_i的邻居集合。

S28：最终网络节点的广义能量熵中心性定义为

其中N_i是节点v_i的邻居集合。

S29：通过本发明的主要方法GEEC计算可得网络每个节点的重要性评分，评分越高，意味着节点关键。

步骤3，将步骤2中求得的网络中各节点的GEEC值进行降序排列，排序后的结果用GEEC序列R＝{R₁,R₂,...,R_n}表示，其中，r₁表示的是网络中GEEC值最大的节点的数值，r_n表示的是网络中GEEC值最小的节点的数值；

步骤4，精准性分析，利用SIR模型对节点的真实传播能力进行评估，进而对比分析本发明的精准性和有效性。

S41：SIR传播模型被用来衡量节点的真实传播能力。在SIR模型中，网络节点的状态被划分为三类，易感(S)、感染(I)和恢复(R)。起初，假设只有一个节点v_i处于感染状态，其他节点处于易感状态，受感染的节点以概率β感染易感状态的邻居节点，类似地，感染状态的节点以概率γ转变为恢复状态，重复此过程，直到网络中没有处于感染状态的节点，此时网络中恢复状态的节点数被认为是节点v_i的真实传播能力。最终，得到网络中的每个节点的真实传播能力，并生成一个SIR模型的序列σ＝{σ₁,σ₂,...,σ_n}。

S42：Kendall相关系数：S41步骤计算完节点的传播能力并生成序列σ之后，再获取由不同度量方式所得的节点序列R。两个列表的相关性越高，说明对应方法在评估节点扩展能力方面的准确性越高，可以使用Kendall相关系数来表示两个列表的相关性。

假设{(σ₁,R₁),(σ₂,R₂),...,(σ_n,R_n)}是由序列σ和序列R构成的一组有序对，对于其中的任意两个元素对(σ_i,R_i)和(σ_j,R_j)，当σ_i＞σ_j且R_i＞R_j或σ_i＜σ_j且R_i＜R_j时，则认为这两个元素对是一致的；当σ_i＞σ_j且R_i＜R_j或σ_i＞σ_j且R_i＜R_j时，则认为这两个元素对不是一致的；当σ_i＝σ_j或R_i＝R_j时，则这两个元素对被认为既不是一致的也不是不一致的。

Kendall相关系数的定义如下：

其中，n_c是两个序列中一致元素对的数目，n_d是两个序列中不一致元素对的数目，n是两个元素对的规模。

S43：单调性(Monotonicity)函数被用于检验各中心性度量方式区分节点传播效率的能力。单调性(M)的定义如下所示：

其中，n是序列R中元素的个数，N_r是在第r个等级中元素的个数。M的值始终是范围[0,1]内的一个数字，M值越大，则意味着该度量方式对于网络中的节点判别能力越强。

S44：众所周知，影响力越大的节点排名越高，但Kendall相关系数考虑了序列σ和R中的所有排名，为了说明关键节点的排名准确性，使用排名相似性函数

表征序列σ和R的前L项排名的相关性，其中σ(L)和R(L)分别代表σ和R的前L项排名。

S45：请参见图3、图4和图5，将步骤2中求得的GEEC序列，6种经典方法得到的序列R＝{R₁,R₂,...,R_n}与步骤S41的SIR模型的序列σ＝{σ₁,σ₂,...,σ_n}进行对比发现，GEEC方法和SIR模型的相关性最高，即Kendall相关系数最大。进一步的，GEEC的单调性(M)值在9个实际网络中是最接近于1的，说明GEEC方法对网络节点的识别能力是最强的。对网络的关键节点排名分析发现，GEEC方法与关键节点的真实传播能力是最相关的，即该方法能准确的识别网络中的关键节点，对于网络的演变和管控具有非常大的意义。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。