CN111652751A - 一种基于社区熵的多目标优化动态网络社区发现方法 - Google Patents

一种基于社区熵的多目标优化动态网络社区发现方法 Download PDF

Info

Publication number
CN111652751A
CN111652751A CN202010499542.3A CN202010499542A CN111652751A CN 111652751 A CN111652751 A CN 111652751A CN 202010499542 A CN202010499542 A CN 202010499542A CN 111652751 A CN111652751 A CN 111652751A
Authority
CN
China
Prior art keywords
community
entropy
scheme
dynamic network
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010499542.3A
Other languages
English (en)
Inventor
李卫民
范钰婷
刘炜
戴东波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202010499542.3A priority Critical patent/CN111652751A/zh
Publication of CN111652751A publication Critical patent/CN111652751A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于社区熵的多目标优化动态网络社区发现方法,包括将社交关系动态网络G初始化为方案集;通过解码方案集得到在时间步t时的社交关系动态网络G中不同社区的划分方案集合;计算每个划分方案的多目标最大化值得到目标函数结果集合,进而得出帕累托最优解集合;预先设定迭代次数,进行迭代操作,迭代过程中,生成规模为N的新方案集合,遍历新方案集合里的每一个方案,从帕累托最优解集中随机选择一个作为初始最佳值复制给新方案;进行局部优化;将原方案集和新方案集合并,得到新的帕累托最优解和相应的帕累托前沿;新的帕累托最优解作为下一次迭代的初始最佳值的候选解。

Description

一种基于社区熵的多目标优化动态网络社区发现方法
技术领域
本发明涉及动态社区发现技术领域,特别是涉及一种基于社区熵的多目标优化动态网络社区发现方法。
背景技术
社交网络以图的形式表示人们的社交关系,交互情况等。社区发现是社交网络重要的研究内容之一。传统的社交网络分析假定网络图是静态的,静态图只能反映一个时刻的个体及其互动的快照或者一个时间段内所有个体及其互动汇总的快照。但是,许多现实世界的网络中,个体以及个体之间的关系会随着时间不断发生变化。静态网络图无法体现网络的变化,因此无法检测网络以及社区随时间发生的演变,从而无法找到社区在演变过程中潜在的价值信息。因此,在动态网络中检测社区以及发现社区的演变成为一项重要且不可或缺的任务。
动态网络社区检测是在动态网络上聚类结构的问题。Chakrabarti等人首次提出进化聚类的概念用于在动态网络中同时检测社区及其演化。进化聚类也可称为时间平滑性框架,可概括为在当前时间步的社区检测结果也受前一个时间步社区划分结果的影响。其框架可分为两个目标:快照质量Sq和时间成本Tc。方法需要解决的问题是提出各种可行的方法尽可能同时使这两个目标结果达到最高值。一些多目标进化方法被用于解决动态社区发现的问题时,它们避免了进化聚类两个目标的参数权重设置问题以及社区的数量需要预先给出的问题。但是方法中群体初始化的随机性,以及迭代过程中不适合社区发现的操作方法,使得方法需要进行大量的迭代才能得到较好的检测结果。在较少次数的迭代情况下,无法取得令人满意的结果,会出现计算效率以及计算准确率较低的情况。已经出现在多目标进化方法的基础上修改群体初始化,例如使用均值漂移方法或者标签传播方法初始化社区。但是这些方法只适用于直接编码的表示方式,并不适用于基于轨迹的邻接表示。并且,有研究者指出标签传播方法在传播标签的过程中存在不确定性和随机性的问题,一定程度影响了初始分区的准确性和稳定性,可能使结果陷入局部最优。
发明内容
本发明的目的是提供一种基于社区熵的多目标优化动态网络社区发现方法,以解决上述现有技术存在的问题,能够在动态网络中检测社区以及发现社区的演变。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于社区熵的多目标优化动态网络社区发现方法,内容如下:
将社交关系动态网络G表示为G={G1,G2,...,Gt,...,GT},其中,T表示总的时间步长,Gt=(Vt,Et)表示所述社交关系动态网络G在时间步t的快照图,Vt表示在时间步t的节点集,Et表示在时间步t的边集;
将所述社交关系动态网络G初始化为一组规模为N的方案集X={χ1,...,χN};通过解码所述方案集X得到在时间步t时的所述社交关系动态网络G中不同社区的划分方案集合;计算每个划分方案的社区结构优质性和社区演化连续性的多目标最大化值得到目标函数结果集合,进而得出帕累托最优解集合;预先设定迭代次数,进行迭代操作,迭代过程中,生成规模为N的新方案集合,遍历所述新方案集合里的每一个方案,从帕累托最优解集中随机选择一个作为初始最佳值复制给新方案,每个方案根据随机生成的值与预先设定的阈值比较,根据比较结果从邻居选择策略中选择进行邻居多样策略或者邻居从众策略;进行邻居选择策略操作后,使用基于社区熵的局部搜索方法进行局部优化;将原方案集和新方案集合并,得到新的帕累托最优解和相应的帕累托前沿;所述新的帕累托最优解作为下一次迭代的初始最佳值的候选解,本次迭代到此结束,在每个时间步结束时,返回帕累托最优解集中包含的所有解决方案P={P1,P2,...,PT}。
优选地,所述社交关系动态网络G初始化过程中,需使用异点熵选出所述动态网络G中的异点;其中异点的表示如下:社区中存在一些节点,处于社区中心或者内部的位置,并且与社区内部节点的连接紧密,是识别和确定社区的重要因素,这些节点表示为异点。
优选地,所述异点熵表示如下:
SE(i)=-∑j∈nei(i)SijIn(Sij)+(1-Sij)In(1-Sij)
其中Sij为节点i与节点j联系的紧密程度,具体表示如下:
Figure BDA0002524187390000031
优选地,通过所述社交关系动态网络G中单个节点的熵值表示社区熵,其中单个节点的熵值表示如下:
Figure BDA0002524187390000032
其中
Figure BDA0002524187390000034
表示为边(υij)的权重;nei(i)={j∈V|(vi,vj)∈E},nei(i)为节点i邻居节点的集合;|nei(i)|为邻居节点集合的规模;社区C的节点熵的总和称为社区熵,即:
Figure BDA0002524187390000033
优选地,帕累托最优理论通过比较一系列解之间的支配关系找到一组最优解:在时间步t中,当前网络两个可能的分区结果分别为
Figure BDA0002524187390000041
Figure BDA0002524187390000042
分区
Figure BDA0002524187390000043
被认为支配另一个分区
Figure BDA0002524187390000044
当且仅当满足下式约束:
Figure BDA0002524187390000045
如果不存在另一个P使得P*支配,那么P*∈Ω是一个帕累托最优解或者非支配解;帕累托最优理论获得一组P*的集合ξ,ξ中的元素互相都是非支配的关系;ξ称为帕累托最优解集,表示为:
Figure BDA0002524187390000046
将这些帕累托最优解集映射到目标对象空间获得如下式表示的帕累托前沿PF:
PF={F(P*)|P*∈ζ}。
优选地,多目标最大化方法即满足下式约束:
max:F(Pt)=[fi(Pt)],i=1,...,h s.t. Pt∈Ω
其中fi(Pt)为第i个目标函数,h为目标函数的数量,F(Pt)为h个目标函数组成而成;
Figure BDA0002524187390000047
表示为在时间步t时,当前网络所有可能的分区集合。
本发明公开了以下技术效果:
(1)本发明提出了基于社区熵的多目标优化动态网络社区发现方法EBMOA,结合熵对网络中的结构信息进行度量,提出了异点熵和社区熵。
(2)本发明在方案集初始化时,使用异点熵选出网络中的异点,同时,在编码每个方案时,提出异点的轨迹邻接表示,区别于一般的表示方式。并且制定异点在初始化时的编码方式,使得方法在初始化时生成高质量的方案。
(3)本发明引入基于社区熵的局部搜索方法,提出的社区熵在局部搜索时度量当前网络划分的每个社区的相对质量,根据其质量选出需要局部优化的社区,通过改变这些社区中处于边缘的节点来达到局部优化的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为网络编码和解码示例;其中(a)表示网络图,(b)表示编码,(c)表示解码后的社区划分结果;
图2为当前网络每个社区的社区熵值。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-2,本发明提供一种基于社区熵的多目标优化动态网络社区发现方法,下面首先对本发明所用到的相关概念进行形式化表示,以使本申请用到的相关术语含义明确且无歧义。
本实施例首先介绍动态网络社区的表示形式和多目标优化的相关概念,然后介绍了本实施例提出的改进熵度量,分别为异点熵和社区熵。
将动态网络G表示为G={G1,G2,...,Gt,...,GT},下标t代表动态网络G在时间步t的快照图Gt=(Vt,Et)。Gt=(Vt,Et)由在时间步t的节点集Vt和在时间步t的边集Et组合而成。其中,每一个节点vi∈Vt代表一个个体,每一条边e=(vi,vj)∈Vt代表节点vi和vj之间的关系或交互。在时间步t时将Gt划分为K个社区可表示为
Figure BDA0002524187390000061
其中
Figure BDA0002524187390000062
因为本实施例假设社区之间是不相互重叠的,因此
Figure BDA0002524187390000063
多目标优化方法
为了更方便地解决多目标优化问题,首先将多目标优化问题统一为多目标最大化或者多目标最小化问题。本实施例采用的结构演化自适应模型分为社区结构优质性和社区演化连续性两部分。从评估这两部分的目标函数来看,大部分为当目标函数值越高时,该目标的质量越高。因此,这里统一为多目标最大化问题,同时为了方便表述,表示如下:
max:F(Pt)=[fi(Pt)],i=1,...,h s.t. Pt∈Ω
其中fi(Pt)为第i个目标函数,h为目标函数的数量,F(Pt)为h个目标函数组成而成。
Figure BDA0002524187390000064
表示为在时间步t时,当前网络所有可能的分区集合。
在解决单目标优化问题时,总可以在所有可能的解中找到唯一的最优解。当解决多目标优化问题时,因为这些目标之间可能存在相互制约或者相互冲突的情况,所以无法从所有可能的情况中找到唯一的最优解。有一种方法可以从中找到一组最优解,它被称为帕累托最优理论。帕累托最优理论通过比较一系列解之间的支配关系找到一组最优解。
在时间步t中,提供了当前网络两个可能的分区结果分别为
Figure BDA0002524187390000071
Figure BDA0002524187390000072
分区
Figure BDA0002524187390000073
被认为支配另一个分区
Figure BDA0002524187390000074
(写为
Figure BDA0002524187390000075
)当且仅当:
Figure BDA0002524187390000076
如果不存在另一个P使得P支配
Figure BDA0002524187390000078
那么P*∈Ω是一个帕累托最优解或者非支配解。帕累托最优理论会获得一组P*的集合ξ,ξ中的元素互相都是非支配的关系。ζ称为非支配解集或者帕累托最优解集。表示为:
Figure BDA0002524187390000077
通过将这些非支配解决方案映射到目标对象空间来获得帕累托前沿PF:
PF={F(P*)|P*∈ζ}
本实施例提出在多目标优化的基础上,结合熵对动态网络社区发现的相关问题进行研究。在信息论中,香农熵用来计算集合中包含的信息的预期平均值。集合无序程度越高,信息熵的值越大。在数据挖掘领域中,通过计算一个组中每个元素的信息熵之和来度量组中元素的相似程度。一般来说,组中元素越相似,熵值越小,即该组中的元素更有序;反之,组中元素越不相似,熵值越大,该组中的元素更无序。
社区中存在一些节点,处于社区中心或者内部的位置,区别于社区边缘的节点,作为社区中重要的组成部分,与社区内部节点的连接和其他节点相比较也更为紧密,也是识别和确定社区的重要因素。在编码方案时,当每个节点的社区连接键选择其邻居之一作为社区连接值时,对于这类节点上述的结构性质,可以拥有多个值,因此将其表示为异点。结合熵和异点的性质提出异点熵,来评估网络中节点作为异点的可能性。公式如下:
SE(i)=-∑j∈nei(i)SijIn(Sij)+(1-Sij)In(1-Sij)
其中Sij为节点i与节点j联系的紧密程度,值越大他们的联系越紧密:
Figure BDA0002524187390000081
SE(i)也可理解为节点i与其邻居紧密程度的熵值之和。SE(i)的值越小,节点i与周围的节点联系越紧密,越有可能作为异点。
社区熵
社区边缘的节点可以随着社区的边移动到其他社区,如果节点存在多个邻居节点并且与该节点在不同的社区,那么该节点可能分配给这些社区。单个节点熵值表示如下:
Figure BDA0002524187390000083
其中
Figure BDA0002524187390000084
表示为边(vi,vj)的权重。nei(i)={j∈V|(vi,vj)∈E},nei(i)为节点i邻居节点的集合。|nei(i)|为邻居节点集合的规模。
社区C的节点熵的总和称为社区熵。表示为:
Figure BDA0002524187390000082
社区熵用于对方案进行局部搜索时度量当前社区的质量。社区熵值越大,说明当前社区的质量越高。因此当社区熵结果达到最优的情况下,不论是节点的增加还是减少,都可能带来社区质量下降即社区熵值减小的情况。
边的权重
Figure BDA0002524187390000091
表示两点之间的相似程度,也可表示为进行交互的可能性,而
Figure BDA0002524187390000092
的倒数1/
Figure BDA0002524187390000093
即可理解为两点间的距离。
Figure BDA0002524187390000094
越大,那么两点间的距离越小。两点间的距离可用电阻距离表示,那么电阻距离就表示为边的权重的倒数,即
Figure BDA0002524187390000095
其中rij表示节点i与节点j间的电阻距离。电阻距离的优点是考虑了网络的全局信息,比只考虑局部信息的距离计算方法更准确。
两个节点间的电阻距离由图矩阵计算表示和求解。由图的拉普拉斯矩阵L求其Moore-Penrose伪逆矩阵L+后,计算电阻矩阵R的每个元素得出。那么关于网络图所有边的权重集合表示为权重矩阵I,权重矩阵I等于电阻矩阵R每个元素的倒数:
Figure BDA0002524187390000096
Figure BDA0002524187390000098
的取值范围为(0,1],因此权重矩阵I的元素需要进行归一化处理。归一化处理后的归一权重矩阵Inor的每个元素为:
Figure BDA0002524187390000097
局部搜索方法用于迭代过程中全局搜索结束后对方案进行局部优化。在局部搜索过程中,节点的社区连接键值的改变从社区熵值较低的社区间执行。两个不同的社区C1和C2,假设结果得出CE(C1)<CE(C2)。那么找到连接C2,C1的边(vi,vj),其中节点i属于C2,节点j属于C1。节点i沿着边(vi,vj)进入到C1,即节点i的社区连接键yi值为j,写为yi=j。重新计算分区,计算模块度,选择模块度最大的新分区作为局部搜索的结果。
基于社区熵的多目标动态网络社区发现方法:
按照基于轨迹的邻接表示,初始化,邻居选择策略,基于社区熵的局部搜索方法以及结构演化自适应模型的顺序进行介绍。最后,IEBMO方法流程介绍整个方法的详细实施步骤。
方法在初始化时需要生成指定规模的方案集,在此之前,需要确定方案中节点的编码表示方式。在本实施例中,一般节点采用基于轨迹的邻接表示,异点采用本实施例提出的异点轨迹邻接表示。初始化介绍当编码时,生成不同方案的方法。本实施例中一般节点和异点分别以不同的生成方式组成方案。在迭代步骤中,在执行邻居选择策略后执行基于社区熵的局部搜索方法。然后,介绍本实施例采用的结构演化自适应模型,用来统一表述动态网络的结构信息。
基于轨迹的邻接表示
本实施例方法的方案使用基于轨迹的邻接表示方式。本实施例方法在原有的表示基础上,增加了异点的表示方式。因此每个方案中编码方式分为异点部分和一般节点部分。方案的表示为,每个方案由n个社区连接键(community connected key)y1,...,yn组成,表示为χ={y1,...,yn},其中n是节点的数量,并且n=c+s,c为普通节点的数量,s为异点的数量。
关于一般节点的表示方式为,节点i的社区连接键yi可以从其邻居集合nei(i)中选择一个节点j作为它的社区连接值,即yi=j s.t.j∈nei(i),这个过程称为编码。
异点的表示方式中,与一般节点不同的是,节点i的社区连接键yi可以从其邻居集合nei(i)中选择多个节点作为它的社区连接值,即选择一个邻居子集ε,
Figure BDA0002524187390000101
在解码步骤中,一般节点中yi=j解释为节点集V中的节点i和j之间使用边进行连接,异点中yi=ε表示节点i分别与ε集合中的每个节点之间使用边进行连接。同时,节点在社区划分过程中,节点i和节点j将在同一个社区中,节点i和ε集合中的每个节点在同一个社区中。因此,解码步骤通过识别相互没有边连接的聚类识别该图的每一个社区,即相互独立的聚类确定为一个社区。图1显示了当前网络中一个方案的编码和解码步骤,在该图中设置节点2,8和9为异点,其余为一般节点。基于轨迹的邻接表示的优点在于社区的数量可在解码步骤根据解码后的图自动确定。
方法在初始化时,生成方案个数为N的方案集,每一个方案包含当前网络的每个节点的社区连接键值对集合。在方法初始化时,每个节点的社区连接键值对的决定根据概率选择方法。第i个节点的键yi在从其邻居集合nei(i)中选择一个节点j作为其值时,根据节点i与其邻居节点j之间的相似程度。与其他邻居节点相比,节点i与节点j相似度越高,越容易作为yi的值。首先计算节点i与所有邻居节点的相似度,节点i选择节点j的概率为节点i和节点j的相似度与节点i与所有邻居节点的相似度之和的比值。这样,概率选择方法在生成不同的方案,以保持结果的多样性的同时,生成的方案比完全随机选择其邻居节点而生成的方案质量更优,提高了方法的效率。
选择网络中的异点,根据网络中每个节点的异点熵值以及该网络节点的个数。首先根据公式计算网络中每个节点的异点熵值,将网络中的节点按其异点熵值排序,异点熵值越小的节点,那么这个节点与它邻居节点邻居越紧密,越有可能作为网络的异点。这里设置为选择网络中异点熵较小的n/10个节点作为异点,网络中的异点可以拥有多个,但是规模不能过大,以免选择了处于社区边缘的节点。选出异点后,在初始化中编码方案时,异点能够拥有的社区连接值的数量根据其邻居的规模以及其和邻居节点的相似度决定。每个异点可以选择相似度较高的前1/3的邻居节点作为其社区连接键的值。选出异点后,网络中剩下的节点为一般节点。每个一般节点的社区连接键值对的选择根据概率选择方法。
初始化方案集时,编码方案时,异点的社区连接键的值是相同的,因此每个方案的异点的社区连接键值是相同的。在方法初始化时,先对网络中的异点进行编码,而后编码每个方案中的一般节点。每个方案中的异点社区连接键值对作为多目标优化方法中已经固定识别的一部分,成为社区结构的一部分雏形。在迭代时,也不受邻居选择策略的影响,只更新一般节点的社区连接键值,减少了迭代的规模。邻居选择策略
本实施例方法采取了两种不同的邻居选择策略,分别为邻居从众策略和邻居多样策略。根据生成的随机值与阈值比较选择不同的策略。
邻居从众策略如表1中方法1所示。邻居从众策略根据节点倾向于和大多数邻居在同一个社区的特性。同时当节点与大多数邻居在一个社区时,不改变其yi的值,该设置避免了不必要的频繁变化。
邻居多样策略如表1中方法2所示。对于每个节点i在满足随机数rand<0.2s.t.rand∈[0,1]时,随机地将社区连接键yi的值改为节点i的邻居之一(选择范围不包括当前值)。否则,yi的值保持不变。邻居多样策略增加了社区连接键值的选择范围,避免了方法因为初始化的概率选择方法和邻居从众策略进入局部最优,保持方案的多样性。基于社区熵的局部搜索方法
邻居从众策略和邻居多样策略属于全局搜索方法,对每个方案的每个社区连接键都会遍历并对其社区连接值进行相应的改变。局部搜索每次只搜索部分区域并进行局部修改。本实施例局部搜索在邻居从众策略和邻居多样策略后执行,对每个方案进行部分修改。
首先使用社区熵用于方案解码后度量当前分区结果中每个社区质量的好坏。在本实施例的制定规则下,社区熵值越大,说明当前社区的质量越优。当社区熵结果达到最优的情况下,表明当前社区内节点之间的连接达到最优,不论是节点的增加和减少,社区内的最优连接因此改变,都可能带来社区质量下降即社区熵值减小的情况。因此,在当前划分中,社区熵值最优的结果是正确的社区划分或者是最接近正确的社区。当社区外边与内边比例越高时,社区的熵值越小,如图2所示,社区3外边比例最高,内外边比达到1:1,其社区熵最小。在考虑计算效率的前提下,改变质量较差的社区有可能较大幅度提高当前整体划分的质量。故我们选择社区熵最小的社区CEmin和随机选择一个社区CEran。得到并遍历这两个社区之间的边,将属于社区CEran边缘的节点的社区连接键值改为CEmin的边缘的节点。可以理解为将前一个社区的节点向后面一个社区移动,从中选择模块度最大的方案作为局部搜索的结果输出。
结构演化自适应模型
结构演化自适应模型由进化聚类思想结合动态网络属性的进一步概括形成。该模型分为社区结构优质性和社区演化连续性两部分。每个部分分别使用不同的目标函数评估其性能。
社区结构优质性用来评估在时间步t的网络分区结果的质量,因此需要最大化每个社区内的边的数量,同时最小化两两社区之间的边。本实施例采用了社区发现中普遍采用的评估函数——模块度Q[4]来评估社区结构优质性。模块度可以理解为在一个网络社区结构中,社区内连边数与随机期望的一个差值。模块度如下所示:
Figure BDA0002524187390000141
其中m是网络边的个数,ki是节点i的度数,kikj/2m是节点i与节点j之间的连通概率,δ为克罗内克(kronecker)函数,如果ci=cj,则δ(ci,cj)=1;如果δ(ci,cj)=0,则δ(ci,cj)。由模块度的公式可得出模块度的取值区间为[-0.5,1]。模块度值越大,表明社区结构质量越好。
第一个时间步没有前一个时间步的信息。因此在第一个时间步中,本实施例用另一个评估社区结构优质性的函数silhouette度量与模块度构成多目标的条件。Silhouette度量借鉴于图形显示中的同一簇内的像素点值相似的观点来度量网络社区质量。
Figure BDA0002524187390000142
其中
Figure BDA0002524187390000143
表示社区Vl内节点i与当前社区中其他节点的平均相似度,
Figure BDA0002524187390000144
表示社区Vl内节点i与其他社区邻居节点的最大相似度。Silhouette取值范围为[0,1]。Silhouette值越接近1,那么当前社区结构质量越好。
社区演化连续性用来评估相邻时间步网络社区的连续性,即度量当前社区结构Pt与先前社区结构Pt-1的相似程度。标准化互信息NMI用来度量当前网络真实社区结构与该实验中社区划分结果的相似程度。同时也被用来度量不同网络之间社区结构的相似性。给定的两个网络的不同分区A={A1,...,Aα}和B={B1,...,Bb},C为混合矩阵,其元素cij是同时在社区Ai∈A和社区Bj∈B的节点的数量。NMI(A,B)的表示为:
Figure BDA0002524187390000145
其中CA(CB)是分区A(B)中的组数,Ci(Cj)是行i(列j)中C的元素之和,N是节点数。如果A=B,即分区A和B完全一样,那么NMI(A,B)=1。如果A和B完全不同,则NMI(A,B)=0
为了能更准确地度量不同网络之间的相似度,这里使用动态社区演化连续性度量(Dynamic Community Evolution Continuity,DCEC),表示为:
Figure BDA0002524187390000151
其中NA(NB)为分区A(B)的节点数,NA∩B为分区A和B共同拥有的节点的数量,NA∪B为在分区A或者在分区B的节点的数量。
本发明方法具体伪代码如表1所示:
表1
Figure BDA0002524187390000152
Figure BDA0002524187390000162
本发明提出了基于社区熵的多目标优化动态网络社区发现方法EBMOA,结合熵对网络中的结构信息进行度量,提出了异点熵和社区熵。本发明在方案集初始化时,使用异点熵选出网络中的异点,同时,在编码每个方案时,提出异点的轨迹邻接表示,区别于一般的表示方式。并且制定异点在初始化时的编码方式,使得方法在初始化时生成高质量的方案。本发明引入基于社区熵的局部搜索方法,提出的社区熵在局部搜索时度量当前网络划分的每个社区的相对质量,根据其质量选出需要局部优化的社区,通过改变这些社区中处于边缘的节点来达到局部优化的效果。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明保护范围。

Claims (6)

1.一种基于社区熵的多目标优化动态网络社区发现方法,其特征在于,包括如下内容:将社交关系动态网络G表示为G={G1,G2,...,Gt,...,GT},其中,T表示总的时间步长,Gt=(Vt,Et)表示所述社交关系动态网络G在时间步t的快照图,Vt表示在时间步t的节点集,Et表示在时间步t的边集;
将所述社交关系动态网络G初始化为一组规模为N的方案集X={χ1,...,χN};通过解码所述方案集X得到在时间步t时的所述社交关系动态网络G中不同社区的划分方案集合;计算每个划分方案的社区结构优质性和社区演化连续性的多目标最大化值得到目标函数结果集合,进而得出帕累托最优解集合;预先设定迭代次数,进行迭代操作,迭代过程中,生成规模为N的新方案集合,遍历所述新方案集合里的每一个方案,从帕累托最优解集中随机选择一个作为初始最佳值复制给新方案,每个方案根据随机生成的值与预先设定的阈值比较,根据比较结果从邻居选择策略中选择进行邻居多样策略或者邻居从众策略;进行邻居选择策略操作后,使用基于社区熵的局部搜索方法进行局部优化;将原方案集和新方案集合并,得到新的帕累托最优解和相应的帕累托前沿;所述新的帕累托最优解作为下一次迭代的初始最佳值的候选解,本次迭代到此结束,在每个时间步结束时,返回帕累托最优解集中包含的所有解决方案P={P1,P2,...,PT}。
2.根据权利要求1所述的基于社区熵的多目标优化动态网络社区发现方法,其特征在于,所述社交关系动态网络G初始化过程中,需使用异点熵选出所述动态网络G中的异点;其中异点的表示如下:社区中存在一些节点,处于社区中心或者内部的位置,并且与社区内部节点的连接紧密,是识别和确定社区的重要因素,这些节点表示为异点。
3.根据权利要求2所述的基于社区熵的多目标优化动态网络社区发现方法,其特征在于,所述异点熵表示如下:
SE(i)=-∑j∈nei(i)SijIn(Sij)+(1-Sij)In(1-Sij)
其中Sij为节点i与节点j联系的紧密程度,具体表示如下:
Figure FDA0002524187380000021
4.根据权利要求1所述的基于社区熵的多目标优化动态网络社区发现方法,其特征在于,通过所述社交关系动态网络G中单个节点的熵值表示社区熵,其中单个节点的熵值表示如下:
Figure FDA0002524187380000022
其中
Figure FDA0002524187380000023
表示为边(υij)的权重;nei(i)={j∈V|(vi,vj)∈E},nei(i)为节点i邻居节点的集合;|nei(i)|为邻居节点集合的规模;社区C的节点熵的总和称为社区熵,即:
Figure FDA0002524187380000024
5.根据权利要求1所述的基于社区熵的多目标优化动态网络社区发现方法,其特征在于,帕累托最优理论通过比较一系列解之间的支配关系找到一组最优解:在时间步t中,当前网络两个可能的分区结果分别为Pt A和Pt B;分区Pt A被认为支配另一个分区Pt B当且仅当满足下式约束:
Figure FDA0002524187380000025
如果不存在另一个P使得P*支配,那么P*∈Ω是一个帕累托最优解或者非支配解;帕累托最优理论获得一组P*的集合ξ,ξ中的元素互相都是非支配的关系;ξ称为帕累托最优解集,表示为:
Figure FDA0002524187380000031
将这些帕累托最优解集映射到目标对象空间获得如下式表示的帕累托前沿PF:
PF={F(P*)|P*∈ζ}。
6.根据权利要求1所述的基于社区熵的多目标优化动态网络社区发现方法,其特征在于,多目标最大化方法即满足下式约束:
max:F(Pt)=[fi(Pt)],i=1,...,h s.t.Pt∈Ω
其中fi(Pt)为第i个目标函数,h为目标函数的数量,F(Pt)为h个目标函数组成而成;
Figure FDA0002524187380000032
表示为在时间步t时,当前网络所有可能的分区集合。
CN202010499542.3A 2020-06-04 2020-06-04 一种基于社区熵的多目标优化动态网络社区发现方法 Pending CN111652751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010499542.3A CN111652751A (zh) 2020-06-04 2020-06-04 一种基于社区熵的多目标优化动态网络社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010499542.3A CN111652751A (zh) 2020-06-04 2020-06-04 一种基于社区熵的多目标优化动态网络社区发现方法

Publications (1)

Publication Number Publication Date
CN111652751A true CN111652751A (zh) 2020-09-11

Family

ID=72348589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010499542.3A Pending CN111652751A (zh) 2020-06-04 2020-06-04 一种基于社区熵的多目标优化动态网络社区发现方法

Country Status (1)

Country Link
CN (1) CN111652751A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800345A (zh) * 2021-02-03 2021-05-14 安徽大学 一种社区角色感知的用户需求主动预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800345A (zh) * 2021-02-03 2021-05-14 安徽大学 一种社区角色感知的用户需求主动预测方法及系统
CN112800345B (zh) * 2021-02-03 2022-09-30 安徽大学 一种社区角色感知的用户需求主动预测方法及系统

Similar Documents

Publication Publication Date Title
Shi et al. A link clustering based overlapping community detection algorithm
Jiang et al. An efficient evolutionary user interest community discovery model in dynamic social networks for internet of people
Gupta et al. Local learning for mining outlier subgraphs from network datasets
Zhang et al. Local community detection based on network motifs
Cao et al. An improved collaborative filtering recommendation algorithm based on community detection in social networks
Ding et al. Community detection by propagating the label of center
Chen et al. Unsupervised adversarial graph alignment with graph embedding
Mei et al. Fuzzy relational clustering around medoids: A unified view
CN111861771A (zh) 基于动态社交网络属性的多目标优化社区发现系统及方法
Kumar et al. Overlapping community detection using multiobjective genetic algorithm
Sun et al. Density-peak-based overlapping community detection algorithm
CN107240028B (zh) 一种Fedora系统组件复杂网络中的重叠社区检测方法
CN111652751A (zh) 一种基于社区熵的多目标优化动态网络社区发现方法
Zhang et al. Hierarchical community detection based on partial matrix convergence using random walks
CN116681104A (zh) 分布式空间图神经网络的模型建立及实现方法
Gajawada et al. Optimal clustering method based on genetic algorithm
Zheng et al. Jora: Weakly supervised user identity linkage via jointly learning to represent and align
CN110910261A (zh) 一种基于多目标优化的网络社团检测对抗增强方法
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Xiao et al. Fuzzy community detection based on elite symbiotic organisms search and node neighborhood information
Lu et al. From Comparing Clusterings to Combining Clusterings.
Radicchi et al. Combinatorial approach to modularity
Cheng et al. Community Detection Based on Density Peak Clustering Model and Multiple Attribute Decision‐Making Strategy TOPSIS
Bei et al. Summarizing scale-free networks based on virtual and real links
Luo et al. A reduced mixed representation based multi-objective evolutionary algorithm for large-scale overlapping community detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911