CN108596220A

CN108596220A - 一种基于超图熵的桥节点识别方法

Info

Publication number: CN108596220A
Application number: CN201810315248.5A
Authority: CN
Inventors: 宁兆龙; 刘长安; 张凯源; 于硕; 夏锋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-09-28

Abstract

本发明属于网络分析技术领域，涉及一种基于超图熵的桥节点识别方法，使用较为稳定的三角元构建超边，进而用超边表示整个网络。该算法考虑了超图熵、杰卡德相似系数等因素，前者提供了一种衡量社团划分的好坏的依据，该值考虑了社团内部和社团之间的连接关系，超图熵越小，说明社团之间联系越松散，而社团内部联系较为紧密，说明社团识别结果较为理想。在算法迭代过程中，当删除或添加“候选超边”时，会根据是否能够减小超图熵来决定是否删除或添加；后者使得我们识别出的社团相似度不会过大，当两社团相似度大于平均相似度时就会合并，使得识别社团的“准确性”大大增加。最终通过识别社团之间的交集，得出桥节点。

Description

一种基于超图熵的桥节点识别方法

技术领域

本发明属于网络分析技术领域，涉及一种基于超图熵的桥节点识别方法，是一种将熵、杰卡德(Jaccard)相似系数和超网络相结合的桥节点识别方法。

背景技术

近年来，在诸多不同领域，如社会学、生物学、计算机科学，关于大规模复杂网络分析、可视化的研究越来越普遍。通常，这些网络与一些复杂系统的建模有关。这个新的研究领域旨在刻画复杂网络的一些重要性质。虽然这些网络来自不同的学科，但是它们有共同的统计和结构特性：小世界、无标度和社团结构。其中社团结构是指网格中的顶点可以分成若干组，每个组内的顶点连接比较稠密，而组间的顶点连接比较稀疏。

然而一般的网络并不能有效的反映真实网络的结构。比如在科研合作网络中，一般的简单图可以表示两个作者之间是否存在合作关系，但是却不能表示三个或者更多的作者是否存在合作关系。所以我们使用超网络来更加准确地描述这些复杂系统的结构。传统的团队识别不能够存在不能识别overlap(社团重叠)的问题。我们提出的基于超图熵的桥节点识别方法可以有效地解决这一问题，即一个节点可以属于团队A，同时也可以属于团队B，这样的节点我们称之为桥节点。

发明内容

本发明的目的主要针对上述现有研究的一些不足之处，提出基于超图熵的桥节点识别方法，通过对合作网络进行分析，提出一种基于超图熵的桥节点识别算法，该算法以超边作为计算单位，同时加入了对热力学中的熵的考量，超图熵较小，表明社团内的顶点相互连接紧密而社团之间的顶点连接稀疏，社团划分较为理想。

本发明的技术方案：

一种基于超图熵的桥节点识别方法，步骤如下：

步骤1)：通过超合作网络中的割点建立超边集

割点是指在一个无向图中，如果有一个顶点，删除这个顶点以及与该顶点相关联的边以后，图的联通分量增多，称这个顶点是割点；

对于每一个割点，计算包含它的最大派系；派系是一个无向图节点集的子集，在子集中每两个节点间都相连，子集是一个完全图；最大派系是在包含割点的所有派系中节点个数最多的一个；

三角元关系，即三个节点之间互有合作关系，是理想的超边结构，三角元关系是一种弱关系，稳固不易受外界影响；

超边集由三部分组成：

1)最大派系内与割点构成三角元关系的三个节点构成的超边；

2)派系外与派系内任意两节点构成三角关系的三个节点构成的超边；

3)至此仍未包含在超边集内的节点与其邻居构成的超边；

步骤2)：将超图熵作为衡量社团划分质量的标准

设H(V,F)是一个超图，V'是V的一个非空真子集，v是超图中的一个顶点，f是超图中的一条超边，d_H(v)表示超图H中与顶点v相关联的超边的数目，则表示超图H中与顶点v相关联的超边构成的集合；

那么与顶点v相关的超边f在社团中的概率就表示为

不在社团中的概率表示为

其中，取值在0-1之间，取值为1当且仅当在不考虑v的情况下f中所有的顶点都在V'中；由此，定义超图中的顶点熵为

超图熵表达式为：

超图熵用于有效地评估超网络中的社团划分质量，其值越大，表明社团之间的联系松散，而社团内部的联系紧密；

步骤3)：通过合理删除内边界上的超边和增加外边界上的超边来识别社团

通过分析超图网络的特点，将步骤1)中的超边集进行合并，将步骤2)超图熵作为衡量社团划分的依据，通过找种子作为初始社团，删除内边界上的超边，添加外边界上的超边来识划分社团；

设IB(C_i)为内边界上的超边集，OB(C_i)为外边界上的超边集，C_i为当前社团，F(C_i)为在当前社团中的超边集，N_H(f)为H中与f相关联的顶点，V(C_i)为当前社团的节点集，Φ表示空集；

内边界上的超边，该超边在社团内并且与社团外的某些超边相邻，即IB(C_i)＝{f|f∈F(C_i),N_H(f)\V(C_i)≠Φ}；同理，外边界上的超边在社团外且与社团内的某些超边相邻，即在超图H中，如果顶点v在超边f中，则称v与f相关联；如果超边f₁与f₂至少有一个公共顶点，则称f₁和f₂相邻；

3.1)选取一条超边作为种子，把该超边包含的顶点和所有与其相邻的超边中的顶点作为初始社团；

3.2)依次从社团中删除内边界上的使超图熵e^*(H)减小的超边，直至e^*(H)达到最小；

3.3)依次从社团中添加外边界上的使超图熵e^*(H)减小的超边，直到e^*(H)减到最小；

3.4)输出该社团，并重复步骤3.1)至3.4)，完成一次迭代后，已得到的社团中超边就不在所选择的种子范围；

步骤4)：通过计算Jaccard相似系数合并相关社团，并识别出桥节点

将步骤3)得到的社团的信息进行分析，通过计算Jaccard相似系数合并相关社团，并识别出桥节点；Jaccard相似系数用来比较有限样本集之间的相似性和差异性，将Jaccard相似系数大于平均相似系数的社团合并，两个社团之间的交集就是要识别的桥节点；

Jaccard相似系数用来比较有限样本集之间的相似性和差异性，将Jaccard相似系数大于平均相似系数的社团合并；设A,B为两有限集合，Jaccard相似系数定义如下：

当集合A和集合B都为空时，J(A,B)定义为1；

最终，两个团队之间的交集就是桥节点。

本发明的有益效果：识别桥节点的方法是一种基于超图熵的算法。该算法考虑了“社团重叠”，“超图熵”，“社团相似系数”，“三元结构”等因素。“社团重叠”使得识别出的社团不是彼此孤立的，更加接近于真实情况。“超图熵”使得评价社团划分质量的依据的可靠性大大增加，在算法迭代时，该指数提供了重要参考。“社团相似系数”使得合并社团有了一定的依据，避免社团之间重叠度过大。“三元结构”稳定性的使得我们建立较为准确，合理的超边集。

附图说明

图1为电影演员网络示意图；

图2为Hamster网站用户网络图。

图3为算法流程图。

图4为电影演员网络模块化分布图。

图5为Hamster网站用户模块化分布图。

图6为电影演员网络度分布图。

图7为Hamster用户网络度分布图。

图8为电影演员网络所识别社团节点出现频率和次数。

图9为Hamster用户网络所识别社团节点出现频率和次数。

图10是电影演员网络识别出的桥节点代表“章子怡”所在社团情况示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

本发明实施例提供了一种基于超图熵的桥节点识别方法，该方法包括：

步骤1：选取豆瓣Top250电影导演所导电影数据集和Hamster用户朋友关系数据集作为本方法的实验数据集，对豆瓣Top250电影导演所有电影数据集和Hamster用户朋友关系数据集进行预处理，得出边集文件。图1、图2给出了两个数据集的实际网络图，其中，较大的节点表示该节点的度比较大，不同颜色的节点表示节点的模块不同，可以看出，两个网络都出现分类聚集现象。图3给出了对数据集进行处理的流程图。图4和图5分别给出了两个网络的模块度分布，表示属于某模块的节点个数。图6和图7分别给出了两个网络的度分布，表示拥有某度的节点的个数。

预处理后两个数据集的信息分别如下：

表1豆瓣top250导演电影数据集

表2 Hamster网站用户朋友关系数据集

从表格中可以看出豆瓣Top250电影导演所有电影数据集中节点的数量要明显大于Hamster用户朋友关系数据集节点的数量，本发明将豆瓣Top250电影导演所有电影数据集作为“主”数据集，把Hamster用户朋友关系数据集作为“对比”数据集。

步骤2：本发明的算法实现部分采用了2个数据集，分别是豆瓣Top250电影导演所有电影数据集、Hamster用户朋友关系数据集。在这两个数据集上分别应用了基于超图熵的桥节点识别方法。

与v相关的超边在社团中的概率表达式为：

超图中的顶点熵表达式为：

超图熵表达式为：

步骤3：将步骤2)中得到的结果采用杰卡德相似系数进行计算并把相似系数大于平均相似系数的社团合并，得到更合理的社团，社团之间的重叠部分即为要识别的桥节点。图8和图9中，X轴表示各个节点在识别出的社团中出现的频率，(一个节点在一个社团中只出现一次)，Y轴表示这个频率出现的次数，可以看出出现频率高的节点数目较少。

设A,B为两个有限集合，Jaccard相似系数表达式为：

图10给出了用“豆瓣Top250电影导演所有电影数据集”识别出的桥节点代表“章子怡”以及她所在的社团情况，可以看出“章子怡”在社团之间起到了非常重要的连接作用，实验结果与实际相符。

表3和表4分别给出豆瓣Top250电影导演所有电影数据集和Hamster用户朋友关系网络数据集识别出的Top 40桥节点在识别出的社团中出现的频率和他们的度之间的对比，可以看出，总体来说，出现频率越高，它的度就越大，即出现频率和度之间呈正相关，实验结果与实际相符。

表3电影演员网络Top40桥学者出现频率与度

表4 Hamster网络Top40桥学者出现频率与度

Claims

1.一种基于超图熵的桥节点识别方法，其特征在于，步骤如下：

步骤1)：通过超合作网络中的割点建立超边集

超边集由三部分组成：

3)至此仍未包含在超边集内的节点与其邻居构成的超边；

步骤2)：将超图熵作为衡量社团划分质量的标准

那么与顶点v相关的超边f在社团中的概率就表示为

不在社团中的概率表示为

超图熵表达式为：

当集合A和集合B都为空时，J(A,B)定义为1；

最终，两个团队之间的交集就是桥节点。