CN106789285B - 一种在线社会网络多尺度社区发现方法 - Google Patents
一种在线社会网络多尺度社区发现方法 Download PDFInfo
- Publication number
- CN106789285B CN106789285B CN201611236469.0A CN201611236469A CN106789285B CN 106789285 B CN106789285 B CN 106789285B CN 201611236469 A CN201611236469 A CN 201611236469A CN 106789285 B CN106789285 B CN 106789285B
- Authority
- CN
- China
- Prior art keywords
- node
- community
- network
- nodes
- coarsening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
针对大尺度在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素,本发明提出了一种在线社会网络多尺度社区发现方法,该方法的一个重要特点是融合了用户兴趣和内聚度,该挖掘方法主要包括3个步骤:1)网络粗化过程,2)粗化网络上基于概率模型的社区标签初始化,3)基于图上半监督学习的社区标签的估计。该方法的优点在于通过粗化过程极大地降低了网络的大小,使得用于社区检测概率模型具有很小的参数空间,大大增大了寻找全局最优解的可能性并降低了计算复杂度;其次,结合了用户兴趣和内聚度能够全面地对社区进行定义,本发明的贡献在于提出了一种基于多层次的社区挖掘方法。
Description
技术领域
本发明属于计算机应用技术领域,涉及数据挖掘、在线社会网络以及机器学习,特别涉及一种在线社会网络多尺度社区发现方法。
背景技术
在线社交网络中蕴含着大量潜在的社区结构,这些社区内的结点具有相似的特性,在网络中扮演相似的角色,以其为单位的粗粒度网络描述,可简化对整个网络的功能、交互及其演化的研究。因此,识别社区结构有助于我们更深入地了解网络的本质,认识网络结构与其功能之间的关系。社区检测通常是指将网络结点和边划分至不同的集合。社区发现的关键是社区定义,不同社区结构的定义导致不同的社区发现方法。传统意义上,人们将社区定义为团内结点连接稠密、团间结点连接稀疏的结构。然而在实际网络中还存在这样的结点集,它们具有相似的链接模式,但它们之间是否存在稠密链接不确定,此类有相似链接模式的结构称为广义社区(兼容传统社区)。
传统的社区发现方法,如谱平分法、分层聚类、Girvan–Newman(GN)算法、派系过滤等,采用启发式的度量衡量传统社区结构的优劣,缺乏严格的理论基础;同时,此类方法在处理具有重叠的社区问题上,也缺乏活力。近年来,出现了一些基于统计推理的社区发现方法。该类方法可识别网络中结构对等和规律对等的结构,利用生成模型拟合观测到的网络来获得结点的划分及网络的结构,具有完备的概率理论基础和解释,能更好地满足社区发现算法的标准。与此同时,基于统计推理的社区发现方法,能准确地处理具有重叠(overlap)的社区发现问题。
Hastings等人采用的物理种植分区模型是一种特殊的统计块模型(SBM),将社区划分问题转化为统计推理问题;随后,Hoffman等人采用贝叶斯方法处理该模型。Newman和Leieht用混合概率模型发现网络的结构,不仅能识别传统意义的协调匹配社区,还能发现有相似链接模式的非协调匹配社区。基于Blei的著名LDA混合隶属度模型,Airoldi和Blei将混合隶属度模型和随机块模型结合,建立了混合隶属度随机块模型。Karrer和newman等人在随机块模型中融入结点度信息,得到了更好的社区结构,也证明了其比相似的模块社区发现算法有更可靠的解释、更优的结果。此外,Ball等基于链接社区的思想设计了一个融人边分布的随机块模型。虽然基于统计推理模型的方法能够准确地在有向或无向网络中发现重叠的传统社区,而且具有坚实的理论基础,但是,由于推理过程中不可避免的迭代过程,此类方法往往具有很高的复杂度。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种在线社会网络多尺度社区发现方法,针对大尺度的在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素,融合用户兴趣和内聚度,同时通过多层次、多尺度的方法减小了原始网络的大小。
为了实现上述目的,本发明采用的技术方案是:
1)基于连接密度与连接模式的在线社会网络的粗化。针对在线社会网络中同一社区的结点通常具有相似的兴趣和较频繁的交互行为,定义了结合连接密度和连接模式的相似度;定义了k-阶的结点合并策略,在算法效率和准确度方面进行了权衡;提出了贪婪的k-阶结点合并算法,将输入的在线社会网络通过逐层粗化的方式得到粗化网络其中L表示粗化的最大层数。
2)粗化网络上的社区发现初始化。基于NMM算法对最上层的粗化网络进行社区发现初始化,得到粗略的社区发现结果QL。方法该技术环节带来的好处是:极大的减少了网络的大小,大大加快了NMM算法求解过程,提高了效率;明显降低了NMM算法中的参数空间大小,使得该算法在优化过程中更有可能收敛到全局最优解。
3)考虑光滑性假设的社区发现。本技术环节将粗化网络上得到的社区发现初始结果QL通过逐层计算来得到大尺度输入网络上的社区检测结果Q0。主要包括两个步骤:第一,将上层网络中的社区发现结果Ql+1映射至下层网络第二,基于光滑性假设,构建优化函数,通过图上的学习方法推理出上的社区检测结果Ql。通过逐层推理,最终得到输入的在线社会网络上的社区检测结果Q0。
与现有技术相比,本发明的有益效果是:通过粗化过程极大地降低了网络的大小,使得用于社区检测概率模型具有很小的参数空间,大大增大了寻找全局最优解的可能性并降低了计算复杂度;其次,结合了用户兴趣和内聚度能够全面地对社区进行定义。
附图说明
图1是本发明实施例中一个3层粗化的社区发现过程示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
步骤1:
定义
表示连接模式,反映结点vi与vj之间的连接规律。其中wij表示结点vi到vj的边的权值,表示结点vi的出度。则pi=(βi,j)n×1反映了结点vi与网络内所有结点的连接规律。基于连接模式的vi,vj之间的相似度定义如下:
PairSimc(vi,vj)=sig(cos(∠(pi,pj))) (2)
sig(·)表示sigmoid函数,将相似度映射至(0,1)范围内。进一步地,基于连接模式的结点v和结点集合U之间的相似度定义如下:
基于连接密度的相似性度量:
step1:随机选取没有合并过的结点v,以v为初始结点构建结点集合step2:从v的邻域结点中随机选择结点u,若δ为提前设定的阈值,则根据此做法不断扩充直到或者结点v的邻域结点被选择完毕,则终止的合并,将其用中的超结点代表;
step3:重新跳至step1,或者所有结点均被合并完毕,则跳至下一步;
步骤2:
在最上层的粗化网络采用NMM算法进行社区检测,并作为步骤3的初始结果,具有如下优点:极大的减少了网络的大小,大大加快了NMM算法求解过程,提高了效率;明显降低了NMM算法中的参数空间大小,使得该算法在优化过程中更有可能收敛到全局最优解。在粗化网络上实现NMM算法的过程如下:
给定其中和L分别表示所有结点、边的集合,表示结点之间的连接矩阵。定义为社区g中结点数量所占的比例(或随机选取一个结点,隶属于社区g的概率);为社区g中任意结点有边连接到结点j的概率,且满足其中C为社区数目,nL为结点数目。上的社区检测问题转化为如下最大似然问题:
采用期望最大化算法进行推理,按照如下推理公式进行迭代计算,最终得到最终结果。
步骤3:
当得到粗化网络上的社区发现初始化的结果之后,需要逐层估计网络上的社区检测结果。社区检测包括两步。首先,将网络上的社区检测结果映射至层。具体而言,如果中的一个超结点是由中的若干结点聚合而成,则的社区标签向量跟一致。其次,针对第一步得到的标签估计结果进行优化。本发明采用图上的学习方法对其社区类别标签进行估计。针对网络基于步骤1中的相似度定义来构造对应的相似矩阵具体形式如下:
一般地,在线社会网络具有如下现象,此处称之为光滑性假设,即若两个结点具有高的相似度值相似度的结点具有的社区类别标签和也趋向于相似。因此这里采用图上的半监督学习方法来估计社区标签向量。网络上的标签估计问题可以通过最小化如下函数来获得:
其中
上式第一项表示光滑项,即标签向量与相邻结点的标签向量之间的差别,第二项表示误差项。是结点在上一时刻的社区标签估计值,为结点在网络中形成的超结点对应的类别标签向量,λ为控制参数,用来平衡光滑项和误差项之间的重要性。上式的最小化可以通过独立地最小化每个结点对应的代价函数来完成。最终的求解结果可以通过迭代计算下式而完成:
通常可以设置λ=1。一般迭代10次左右可以使得迭代计算收敛。
Claims (1)
1.一种在线社会网络多尺度社区发现方法,其特征在于,包括如下步骤:
1)基于连接密度与连接模式的在线社会网络的粗化
基于贪婪的-阶结点合并算法,将输入的在线社会网络通过逐层粗化的方式得到粗化网络其中L表示粗化的最大层数;在网络粗化过程中,采用阶合并策略:在一次粗化过程中,对于 中的每一个超结点由中不超过个结点结合而成,给定网络按如下步骤进行粗化:
step3:重新跳至step1,或者所有结点均被合并完毕,则跳至下一步;
Sim(u,U)定义为结合连接密度和连接模式的相似度:
PairSimc(u,ui)表示基于连接模式的结点u和结点ui之间的相似度,参照公式PairSimc(vi,vj)=sig(cos(∠(pi,pj)))进行计算,sig(·)表示sigmoid函数,将相似度映射至(0,1)范围内,令n表示网络中的结点总量,pi=(βi,j)1×n,反映了结点vi与网络内所有结点的连接规律,表示连接模式,反映结点vi与结点vj之间的连接规律,其中wij表示结点vi到vj的边的权值,表示结点vi的出度;
2)粗化网络上的社区发现初始化
3)考虑光滑性假设的社区发现
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611236469.0A CN106789285B (zh) | 2016-12-28 | 2016-12-28 | 一种在线社会网络多尺度社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611236469.0A CN106789285B (zh) | 2016-12-28 | 2016-12-28 | 一种在线社会网络多尺度社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106789285A CN106789285A (zh) | 2017-05-31 |
CN106789285B true CN106789285B (zh) | 2020-08-14 |
Family
ID=58925273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611236469.0A Active CN106789285B (zh) | 2016-12-28 | 2016-12-28 | 一种在线社会网络多尺度社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106789285B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047453A (zh) * | 2019-12-04 | 2020-04-21 | 兰州交通大学 | 基于高阶张量分解大规模社交网络社区的检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324937A (zh) * | 2007-06-15 | 2008-12-17 | 国际商业机器公司 | 用于粗化图的系统和方法 |
CN103699617A (zh) * | 2013-12-16 | 2014-04-02 | 西安交通大学 | 一种基于随机游走的社区发现方法 |
CN103747033A (zh) * | 2013-12-17 | 2014-04-23 | 西安交通大学 | 一种社区发现的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8000262B2 (en) * | 2008-04-18 | 2011-08-16 | Bonnie Berger Leighton | Method for identifying network similarity by matching neighborhood topology |
CN102571431B (zh) * | 2011-12-02 | 2014-06-18 | 北京航空航天大学 | 针对复杂网络的基于群思想改进的Fast-Newman聚类方法 |
CN102810113B (zh) * | 2012-06-06 | 2015-09-09 | 北京航空航天大学 | 一种针对复杂网络的混合型聚类方法 |
CN103942308B (zh) * | 2014-04-18 | 2017-04-05 | 中国科学院信息工程研究所 | 大规模社交网络社区的检测方法及装置 |
-
2016
- 2016-12-28 CN CN201611236469.0A patent/CN106789285B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324937A (zh) * | 2007-06-15 | 2008-12-17 | 国际商业机器公司 | 用于粗化图的系统和方法 |
CN103699617A (zh) * | 2013-12-16 | 2014-04-02 | 西安交通大学 | 一种基于随机游走的社区发现方法 |
CN103747033A (zh) * | 2013-12-17 | 2014-04-23 | 西安交通大学 | 一种社区发现的方法 |
Non-Patent Citations (2)
Title |
---|
一种面向大规模社会信息网络的多层社区发现算法;康颖等;《计算机学报》;20160131;正文第1-5章 * |
基于流形约束的重叠社区发现模型研究;陈昊;《中国优秀硕士学位论文全文数据库(电子期刊)》;20160331;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106789285A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
Ma et al. | Adaptive-step graph meta-learner for few-shot graph classification | |
CN107391512B (zh) | 知识图谱预测的方法和装置 | |
CN103942308A (zh) | 大规模社交网络社区的检测方法及装置 | |
CN103838803A (zh) | 一种基于节点Jaccard相似度的社交网络社团发现方法 | |
CN109740106A (zh) | 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质 | |
Liu et al. | Dynamic local search based immune automatic clustering algorithm and its applications | |
CN112417289A (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN115688913A (zh) | 一种云边端协同个性化联邦学习方法、系统、设备及介质 | |
CN113962358A (zh) | 一种基于时序超图注意力神经网络的信息扩散预测方法 | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN114723037A (zh) | 一种聚合高阶邻居节点的异构图神经网络计算方法 | |
CN106789285B (zh) | 一种在线社会网络多尺度社区发现方法 | |
Dalvand et al. | Flooding region growing: a new parallel image segmentation model based on membrane computing | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
CN105159911A (zh) | 基于主题交互的社区发现方法 | |
CN104463864B (zh) | 多级并行关键帧云提取方法及系统 | |
CN108614932B (zh) | 基于边图的线性流重叠社区发现方法、系统及存储介质 | |
Pan et al. | Lumos: Heterogeneity-aware federated graph learning over decentralized devices | |
Mei et al. | Geodesic‐based probability propagation for efficient optical flow | |
Zou et al. | Parallel in situ detection of connected components in adaptive mesh refinement data | |
CN115544307A (zh) | 基于关联矩阵的有向图数据特征提取与表达方法和系统 | |
Hu et al. | IMMAT: Mesh reconstruction from single view images by medial axis transform prediction | |
CN115730248A (zh) | 一种机器账号检测方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |