CN107705213B

CN107705213B - 一种静态社交网络的重叠社团发现方法

Info

Publication number: CN107705213B
Application number: CN201710579248.1A
Authority: CN
Inventors: 刘雪芳; 李国伟; 杨清海
Original assignee: Xidian University; Xian Cetc Xidian University Radar Technology Collaborative Innovation Research Institute Co Ltd
Current assignee: Xidian University; Xian Cetc Xidian University Radar Technology Collaborative Innovation Research Institute Co Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2022-01-28
Anticipated expiration: 2037-07-17
Also published as: CN107705213A

Abstract

本发明属于计算机应用技术领域，公开了一种静态社交网络的重叠社团发现方法，将原始网络图转化为边图，利用边的社团归属唯一性的特性，将原图中的边当作研究对象，将边转化为节点，节点转化为边；由于社团发现和文本当中的主题发现有很高的相似性；本发明采用主题发现模型，将得到的边图作为模型的输入；为了得到可调重叠程度的社团结构，采用重叠社团划分策略，可以得到不同重叠程度的社团划分结果。本发明的可以根据具体的实验数据得到不同重叠程度的重叠社团划分结果，比起现有的社团划分方法有着更高的实用价值。

Description

一种静态社交网络的重叠社团发现方法

技术领域

本发明属于计算机应用技术领域，尤其涉及一种静态社交网络的重叠社团发现方法。

背景技术

在社交网络中，网络往往具有分簇的形态，簇内中的社交成员联系紧密，簇间的社交成员联系稀疏，把这种簇叫作社团或是社群，挖掘社团的过程叫做社团发现。在社交网络中，将社交成员当成节点，社交成员之间的联系用节点之间的连线表示，这样就形成了图网络。Ahn等人在2010年《Nature》杂志发表了文章“Link communities reveal multiscalecomplexity in networks”首次提出边图概念，而且利用边图进行社团发现，边图的概念在后来被人们多次使用，本发明所进行的社团发现也是以边图为基础的，该文章所提出的方法复杂度较高，不适合大规模社交网络。Zhang在2007年IEEE in intelligence andsecurity informatics的文章“An LDA-based community structure discoveryapproach for large-scale social networks”中利用LDA方法，但是他是以节点为LDA模型的输入数据。于乐等在2014年ASONAM 2014会议上发表了“overlapping communitydetection in large networks from a data fusion view”，文章在边图下利用LDA模型，然而在设计重叠划分准则时过于简单。

综上所述，现有技术存在的问题是：针对大规模社交网络，利用边图进行社团发现的算法效率低下，而且重叠程度固定不可调。对于于乐等人提出的方法，重叠划分准则只考虑了边的归属概率值大小，本发明指出这样的准则是不准确的，本发明提出了一种更加准确的划分准则方法。

发明内容

针对现有技术存在的问题，本发明提供了一种静态社交网络的重叠社团发现方法。

本发明是这样实现的，一种静态社交网络的重叠社团发现方法，所述静态社交网络的重叠社团发现方法包括以下步骤：

第一步，对社交网络进行边图转化；

第二步，将边图和主题发现模型进行映射，得到边的归属情况；

第三步，利用划分准则对边的归属概率矩阵进行重叠划分。

进一步，所述静态社交网络的重叠社团发现方法包括以下步骤：

步骤一，将原图转化为边图，对边图进行网络量化编码；

步骤二，边图结构与主题发现模型的映射；

步骤三，重叠社团划分。

进一步，所述步骤一具体包括：

(a)给定网络G＝(V,E)，其中顶点集为V＝(v₁,…,v_n)，边集为E＝(e₁,…e_m)，构建边图将原图G中的边e_i看作边图中的节点，边图中的两节点是否有边连接是看在原图G中是否两条边是否存在公共节点；

边图LG的节点原图G中边映射为边图中的节点，边图中的节点表示为V(LG)＝E(G)；

边图LG的边边图中的边取决于在原图中两条边是否存在公共节点，对于e∈E(G)，用EP(e)表示原图G中边的两个端点，于是边图LG中的边即原图中两条边是否存在公共节点表示为：

边图LG边的权重定义边图中边的权重，建立G的关联矩阵A：

通过关联矩阵A得到边的权重：

其中，D(v_m)表示原图G节点v_m的度；

(b)对边图进行网络量化编码

对于图G＝(V,E)，按照定义先转化为边图LG，定义边图的邻接矩阵H_E×E，而且H(i,j)＝W_i,j。

进一步，所述步骤二具体包括：

(1)LDA模型文档和主题之间服从参数为

的多项式分布，主题和词语之间服从参数为

多项式分布，利用贝叶斯学派的思想假设

和

服从超参数分别为

和

的Dirichlet分布；

(2)文档和主题、主题和词语之间通过主题联系。

进一步，所述步骤三具体包括：

定义归属概率计算方法：

其中，pr^*(i,j)＝max{Pr(i,:)}，count{pr^*(i,j)}表示第i条边划分到第j个社团的次数，α和β为权重系数；得到节点的归属概率值后，可调重叠的策略；

社团重叠程度的方法：

其中，γ∈(0,1)是重叠因子。

本发明的另一目的在于提供一种应用所述静态社交网络的重叠社团发现方法的社区网络。

本发明的优点及积极效果为：提出门限准则来控制社团的重叠程度，可以得到不同重叠程度的社团发现结果。社团划分结果可以提高对社团内用户行为分析的准确性，而且还可以进行重要用户的挖掘和潜在好友的推荐。在本发明中，以这种图网络作为对象；在早期的社团发现中，人们只关注如何将网络结构划分成非重叠社团。然而在实际的社交网络中，社团之间往往是重叠的，某些社交成员往往属于多个社团，本发明把这种社团发现叫做重叠社团发现(也叫模糊社团发现)。

本发明采用对边图编码的数据，利用主题发现模型进行社团发现；边图的编码降低了原图中度数较大节点对社团发现的影响，采用文本主题发现模型中采样过程降低了社团发现中个别干扰边对社团的整体划分，重叠准则的设计，提高了社团重叠结构的准确性，并且使得重叠程度可控。

附图说明

图1是本发明实施例提供的静态社交网络的重叠社团发现方法流程图。

图2是本发明实施例提供的边图示意图。

图3是本发明实施例提供的边社团采样示意图。

图4是本发明实施例提供的LDA模型的过程示意图。

图5是本发明实施例提供的社区发现重要节点示意图。

图6是本发明实施例提供的与(Me)和OSLOM、ABL方法示意图；

图中：(a)μ＝0.1；(b)μ＝0.4。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的静态社交网络的重叠社团发现方法包括以下步骤：

S101：对社交网络进行边图转化；

S102：将边图和主题发现模型进行映射，得到边的归属情况；

S103：利用划分准则对边的归属概率矩阵进行重叠划分。

下面结合附图对本发明的应用原理作进一步的描述。

本发明实施例提供的静态社交网络的重叠社团发现方法具体包括以下步骤：

步骤1：将原图转化为边图，然后对边图进行网络量化编码。

(1a)给定网络G＝(V,E)，其中顶点集为V＝(v₁,…,v_n)，边集为E＝(e₁,…e_m)。构建边图(Line graph)的方法是将原图G中的边e_i看作边图中的节点，而边图中的两节点是否有边连接是看在原图G中是否两条边是否存在公共节点。

定义1-1边图LG的节点原图G中边映射为边图中的节点，那么边图中的节点可以表示为V(LG)＝E(G)。

定义1-2边图LG的边边图中的边取决于在原图中两条边是否存在公共节点。对于e∈E(G)，用EP(e)表示原图G中边的两个端点，于是边图LG中的边即原图中两条边是否存在公共节点可以表示为：

定义1-3边图LG边的权重定义边图中边的权重，首先建立G的关联矩阵A：

通过关联矩阵A可以得到边的权重。一种常用的边权重计算方式为(实际应用中计算方式可以根据需求进行调整)：

其中，D(v_m)表示原图G节点v_m的度。

(1b)对边图进行网络量化编码

对于图G＝(V,E)，按照定义先转化为边图LG。定义边图的邻接矩阵H_E×E，而且H(i,j)＝W_i,j(根据边图中连接边权重定义)。

如图2，以3号边为例，与3号边相连的临边有1、2、5、6号边，组成了3号的临边集。于是，H的第三行H(3,:)＝(W_3,1W_3,200W_3,5W_3,600)。考虑到实际情况，矩阵中会出现大量的零元素，在实际应用的时候采用稀疏矩阵存储数据。

步骤2：边图结构与主题发现模型的映射。

下面具体以LDA模型为例介绍具体过程。边图结构与LDA模型映射，把网络编码的结果作为模型的输入数据，利用LDA–GibbsSampling得到边的归属概率矩阵。

(2a)LDA模型假设doc-topic(文档和主题之间)服从参数为

的多项式分布，topic-word(主题和词语之间)服从参数为

多项式分布，由于参数是随机变量，LDA模型利用贝叶斯学派的思想假设

和

服从超参数分别为

和

的Dirichlet分布。

使用概率图模型表示，LDA模型的过程如下图3所示：

(2b)“doc”-“topic”“topic”-“word”之间通过主题联系的，采用LDA模型进行社团发现的核心思想是，“doc”与边的映射，“word”与临边集的映射，“topic”与社团的映射。

如图4，z₁₁表示边e₁的临边集w₁₁所属的社团。在边社团采样中，边作为采样对象，采样结果是记录每条边及边地临边集被划分到每个社团的次数，这里只关注

隐含分布变量，用N_ik标记边e_i及其临边集被划分到社团k的次数，N_i标记边e_i及其临边集被划分到社团中的总次数，对于LDA模型可以得到边社团划分概率：

于是，将得到一个边划分的归属概率矩阵Pr＝[p(z_i＝k|e_i)]_mk。利用其它的主题发现模型同样可以得到边的归属概率，实际应用中可以根据不同的需要选择合适的主题发现模型。

步骤3：重叠社团划分准则

(3)如图5，像α这种节点在实际社团发现中是非常重要的，它是连接两个社团的重要节点。进行重叠社团发现的目的就是将类似这样的节点找出来。如果它属于A和B社团的概率接近，应该即把它划分到A中，也划分到B中，从而提高社团划分的准确性。

在实际应用中，可以设计具体的重叠划分准则，根据不同的需求，划分方式可以有细微的差异。例如式本发明定义了一种的归属概率计算方法：

其中，pr^*(i,j)＝max{Pr(i,:)}，count{pr^*(i,j)}表示第i条边划分到第j个社团的次数，α和β为权重系数。当本发明得到节点的归属概率值后，设计可调重叠的策略。例如式，本发明给出了一种具体的社团重叠程度的方法：

其中，γ∈(0,1)是重叠因子。本发明可以通过调节γ来控制节点的重叠程度，提高社团发现的准确性。真实网络的社团结构往往是未知的，重叠程度更是无从知晓，在实际应用中本发明只有通过调节参数，加上其它外在条件才能得到更加准确的社团结构。

下面结合具体的应用对本发明的应用原理作进一步的描述。

LFR网络生成数据的应用，LFR是由Lancichinetti等人在New Journal ofPhysics发表的文章“Detecting the overlapping and hierarchical communitystructure in complex networks”提出的人为可控的网络生成程序。本发明可以通过该程序生成不同大小、不同重叠程度的人造网络，而且程序会给出标准的社团划分结构，一般本发明都会结合NMI准则来验证社团发现结果的准确率。归一化互信息(Normalized MutualInformation，NMI)是计算两个社团之间的互信息量的，两个社团结构越相似，NMI的值就越大，NMI的取值范围为0～1。

这里本发明生成节点数(1000)，最大的节点度数(30)，平均度数(10)，最小社团数(10)，最大社团数(20)，重叠节点数(50)，重叠节点所在社团数目(2)的参数下的网络数据。

下面结合对比对本发明的应用效果作详细的描述。

本发明和OSLOM(A.LANCICHINETTI,F.RADICCHI,J.RAMASCO.Findingstatistically significant communities in networks[J].PloS one,2011,6(4):el8961.)方法、ABL(Y.AHN,J.BAGROW,S.LEHMANN.Link communities reveal multiscalecomplexity in networks[J].Nature,2010,466(7307):761-764.)方法进行比较，比较了在不同的μ(混合参数)下的NMI性能。

如图6，比较了本发明提出的方法(Me)和OSLOM、ABL方法，从图中本发明可以看出，本发明提出的方法的NMI性能明显优于OSLOM和ABL方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。