CN113378339B

CN113378339B - 社交网络节点的排序方法

Info

Publication number: CN113378339B
Application number: CN202110731390.XA
Authority: CN
Inventors: 艾达; 方越洋; 康文哲
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2021-05-19
Filing date: 2021-06-30
Publication date: 2023-01-31
Anticipated expiration: 2041-06-30
Also published as: CN113378339A

Abstract

一种社交网络节点的排序方法，由输入邻接矩阵、确定节点的紧密中心度值、确定佩奇排序值、确定节点的信息熵值、对节点重要度排序步骤组成。本发明采用了紧密中心度作佩奇排序方法初始化值，解决了佩奇排序方法初始化值平均分配带来的排序不准确的问题，通过动态排序的方式，依次删除最重要节点再重复排序，消除了信息难以传播到整个网络对节点重要度排序的影响，对节点重要度进行识别和排序。与现有的方法相比，采用本发明方法得到的节点排序影响力更高，效果最好，排序准确，能更准确地对网络重要节点进行识别和排序。

Description

社交网络节点的排序方法

技术领域

本发明属于网络评估方法技术领域，具体涉及一种社交网络节点的排序方法。

背景技术

社交网络可以看作是个人或组织作为节点，按照一定社会关系构成的社交网络结构。网络节点重要性进行评估可以使广告投放、舆情控制、疾病防控等更为有效，因此节点重要性评估一直是社交网络研究中的基本问题。近年来该领域研究者提出了多种排序方法。有的方法考虑节点的局部信息，如度中心性以及其扩展度量。在混合分解过程中，还有基于路径的方法来量化节点的重要性，如偏心中心性、紧密中心性、介数中心性和Katz中心性。此外，还提出了基于特征向量的排序方法，如PR(PageRank，佩奇排序)方法，该算法认为每一个节点的重要性取决于指向它的其他节点的数量和质量。在影响力排序过程中为了捕捉更广泛和更丰富的信息，邻居节点的贡献度也被研究者加入考虑。同时信息熵也被作为衡量节点重要性的指标使用。

PR算法在计算节点的重要性排序时，初始化的节点重要度是平均分配PR值，节点本身的重要性未被考虑。这种平均分配初始化PR值的方法，在一定程度上影响了节点重要性的排序质量。另一方面现有大多数节点重要性算法研究只是以静态方式进行排序，没有消除“富人俱乐部现象”对节点影响力排序结果的影响。即高影响力节点在社交网络中通常在同一个社区中紧密相连，信息难以大量的传播到整个网络。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的不足，提供一种排序准确排序效果好的社交网络节点的排序方法。

解决上述技术问题所采用的技术方案由下属步骤组成：

(1)输入邻接矩阵

将社交网络图转换成邻接矩阵A:

A＝[a_ij]_N×N (1)

式中N为社交网络图所包含的节点数，N为有限的正整数，i和j表示社交网络图中不同节点、为有限的正整数，a_ij为1、表示节点i和节点j在社交网络图中有连接，a_ij为0表示无连接。

(2)确定节点的紧密中心度值

按下式确定节点的紧密中心度值CC_i：

式中v表示社交网络图中除节点i外其余任意节点，d(i,v)表示社交网络图中节点i和节点v之间最短路径的边数。

(3)确定佩奇排序值

按下式确定节点的佩奇排序值CCPR_i:

式中d是规范化因子，d取值为0.5～0.9，n表示节点i的相邻节点、且n＜i，n取值为有限的正整数，M是节点i的相邻节点数，M取值为有限的正整数，C_n是节点i的相邻节点n的相邻节点数，CC_n是节点n的紧密中心度值。

(4)确定节点的信息熵值

按下式确定社交网络图中所有节点的信息熵值E_i：

式中CCPR_n是节点n的佩奇排序值；

(5)对节点重要度排序

采用删除方法将信息熵值最大的节点删除，再重复上述(1)～(4)步骤，将信息熵值最大的节点删除，直至社交网络图中无节点相连接，按删除节点的先后次序排序，得到对应节点的排序。

本发明的(3)确定佩奇排序步骤为：

按下式确定节点改进的佩奇排序值CCPR_i:

式中d是规范化因子，d取值最佳为0.85,n表示i的相邻节点、且n＜i，n取值为有限的正整数，M是节点i的相邻节点数，M取值为有限的正整数，C_n是节点n的相邻节点数，CC_n是节点n的紧密中心度值。

本发明提供一种社交网络节点的排序方法，使用紧密中心度作佩奇排序算法初始化值，解决了佩奇排序方法初始化值平均分配带来的问题，通过动态排序的方式，依次删除最重要节点再重复排序，消除了信息难以传播到整个网络对节点重要度排序的影响，对节点重要度进行识别和排序。

本发明的优点在于：

1.本发明使用紧密中心度作佩奇排序初始化值，解决了佩奇排序初始化值平均分配带来的问题，将紧密中心度作为佩奇排序中的初始化值，更好地分析了每个节点在网络中的重要性。

2.本发明的信息熵值采用了网络结构信息，通过动态排序的方式，依次删除最重要节点再重复排序，消除了信息难以传播到整个网络对节点重要度排序的影响。

3.采用本发明方法与现有的佩奇排序、Mapping Entropy、EnRenew、随机选择方法进行了对比仿真模拟实验，实验结果表明，与对比实验方法相比，采用本发明方法得到的节点排序影响力更高，效果最好，排序准确，能更准确地对网络重要节点进行识别和排序。

附图说明

图1是本发明实施例1的流程图。

图2是犯罪网络中被影响的节点数量随影响力传播节点规模的变化图。

图3是在线户之间的社交网络中被影响的节点数量随影响力传播节点规模的变化图。

图4是论文的合著者网络中被影响的节点数量随影响力传播节点规模的变化图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明，但本发明不限于下述的实施方式。

实施例1

本实施例的社交网络节点的排序方法由下述步骤组成(参见图1)：

(1)输入邻接矩阵

将社交网络图转换成邻接矩阵A:

A＝[a_ij]_N×N (1)

(2)确定节点的紧密中心度值

按下式确定节点的紧密中心度值CC_i：

(3)确定佩奇排序值

按下式确定节点的佩奇排序值CCPR_i:

式中d是规范化因子，d取值为0.5～0.9，本实施例的d取值为0.85，n表示i的相邻节点，n取值为有限的正整数、且n＜i，M是节点i的相邻节点数，M取值为有限的正整数，C_n是节点n的相邻节点数，CC_n是节点n的紧密中心度值。

(4)确定节点的信息熵值

按下式确定社交网络图中所有节点的信息熵值E_i：

式中CCPR_n是节点n的佩奇排序值。

(5)对节点重要度排序

采用删除方法将信息熵值最大的节点删除，再重复上述(1)～(4)步骤，将信息熵值最大的节点删除，直至社交网络图中无节点相连接，按删除节点的先后次序排序，得到对应节点的排序。完成社交网络节点的排序方法。

实施例2

本实施例的社交网络节点的排序方法由下述步骤组成：

(1)输入邻接矩阵

该步骤与实施例1相同。

(2)确定节点的紧密中心度值

该步骤与实施例1相同。

(3)确定佩奇排序值

按下式确定节点的佩奇排序值CCPR_i:

式中d是规范化因子，d取值为0.5～0.9，本实施例的d取值为0.5，n表示i的相邻节点，n取值为有限的正整数、且n＜i，M是节点i的相邻节点数，M取值为有限的正整数，C_n是节点n的相邻节点数，CC_n是节点n的紧密中心度值。

其它步骤与实施例1相同。完成社交网络节点的排序方法。

实施例3

本实施例的社交网络节点的排序方法由下述步骤组成：

(1)输入邻接矩阵

该步骤与实施例1相同。

(2)确定节点的紧密中心度值

该步骤与实施例1相同。

(3)确定佩奇排序值

按下式确定节点的佩奇排序值CCPR_i:

式中d是规范化因子，d取值为0.5～0.9，本实施例的d取值为0.9，n表示i的相邻节点，n取值为有限的正整数、且n＜i，M是节点i的相邻节点数，M取值为有限的正整数，C_n是节点n的相邻节点数，CC_n是节点n的紧密中心度值。

其它步骤与实施例1相同。完成社交网络节点的排序方法。

为了验证本发明的有益效果，发明人采用本发明实施例1的社交网络节点的排序方法(简写为CCPE)与现有的佩奇排序(pagerank)、Mapping Entropy(简写ME)、EnRenew、随机选择方法(random)进行了对比仿真模拟实验，实验时将实验结果输入线性阈值模型(LTM)中得到的实验结果如表1、图2～图4。

表1实施例1的方法与random、pagerank、ME、EnRenew方法的对比试验结果

由表1所示，图2～4是5种方法在线性阈值模型(LTM)下根据排序结果选定排名在前的节点，作为影响力传播节点在犯罪网络(Crime)、在线用户之间的社交网络(Hamsterster)、论文的合著者网络(Scientific Collabora)中的影响力传播效果。实验结果中，最大值显示了影响力传播的最大值，最大值越大表示该方法最终在网络中的最终影响范围越广泛，平均值是评价方法在网络中的整体影响力性能，平均值越大表明该方法排序的影响力传播节点的累积影响力越高，标准差越大，说明随着影响力传播节点数增加影响力增长性越大，能清楚地区分出高影响力节点。实施例1的方法排序得到的节点排序，在传播模型中被影响节点数量的最大值、平均值、标准差值都高于对比方法，与对比实验方法相比，采用实施例1方法得到的节点排序影响力更高，效果最好。

图2～4展示5种方法在不同网络中实验结果。横坐标表示初始影响力传播节点数(Seed set size)，纵坐标是被影响的节点数量(Influence Spread)。按照5种方法的实验结果，选定排名在前的节点作为影响力传播节点。在LTM中将每个节点的传播阈值设置为相同的值0.5，认为该节点的每个邻居节点的影响都相同。最终结果通过100次独立运行取平均值。随着影响力传播节点数的增加，被影响的节点数量(Influence Spread)也随之扩展。在3个网络上，随着影响力传播节点数的增加，实施例1方法筛选出的节点影响力范围超过了对比实验方法。与对比实验方法相比，实施例1方法的排序结果更合理，节点排序影响力更高，效果最好。