CN106991614A - Spark下基于标签传播的并行重叠社区发现方法 - Google Patents
Spark下基于标签传播的并行重叠社区发现方法 Download PDFInfo
- Publication number
- CN106991614A CN106991614A CN201710121328.2A CN201710121328A CN106991614A CN 106991614 A CN106991614 A CN 106991614A CN 201710121328 A CN201710121328 A CN 201710121328A CN 106991614 A CN106991614 A CN 106991614A
- Authority
- CN
- China
- Prior art keywords
- node
- label
- network
- weight
- complete subgraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000000644 propagated effect Effects 0.000 title claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 230000007480 spreading Effects 0.000 claims abstract description 7
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- FBOUIAKEJMZPQG-AWNIVKPZSA-N (1E)-1-(2,4-dichlorophenyl)-4,4-dimethyl-2-(1,2,4-triazol-1-yl)pent-1-en-3-ol Chemical compound C1=NC=NN1/C(C(O)C(C)(C)C)=C/C1=CC=C(Cl)C=C1Cl FBOUIAKEJMZPQG-AWNIVKPZSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种Spark下基于标签传播的并行社区发现方法,涉及数据挖掘领域。本发明在网络中寻找完全子图,将完全子图中的节点赋予相同的标签,以此来减少初始化阶段标签过多的缺点,提高了算法的执行效率;其次根据节点的权重计算网络中节点的传播概率,在标签选择阶段综合考虑了标签传播概率以及节点间的相似性,提高了标签选择阶段的准确度;整个算法是在Spark框架下执行的,对于海量数据具有很好的可扩展性,本发明在执行效率以及准确度都有明显的提高,社区发现的质量也有很大的提升。
Description
技术领域
本发明属于数据挖掘领域,具体涉及的是一种利用标签传播思想挖掘网络中社区的并行重叠社区发现方法。
背景技术
随着Internet的高速发展使得社交网络迅速进入人们的生活,导致了在线个人信息量的大量增加,并引起研究者对它的极大关注。简单的来看,社会网络所完成的就是把人们日常生活中的一部分内容转移到了网络平台中。在社会网络中,用户可以结交新的朋友,也可以交流自己的思想,分享自己遇到的趣事等等。这些个人信息囊括了他们的活动,与个人或群体之间的联系,他们发表的意见和想法随着在线社交网络的出现并快速流行开来,诸如新浪微博,微信朋友圈,Facebook,Twitter等越来越受欢迎,使得社交网络作为一个新生的产物,吸引了众多领域学者对其数据进行挖掘分析的广泛关注,包括人际关系学、行为学、化学、生物学、遗传学、计算机学等诸多领域。随着这些用户信息的急剧增加,人类社会快速步入的“大数据”时代,在面对海量数据的情况下,出现了“信息爆炸而知识匮乏”的现象。我们如何能在这些海量数据中挖掘出有用的信息或者模式对当今的研究者来说是一个巨大的挑战。19世纪90年代第一次提出知识发现(Knowledge Discovery in Databases,KDD)的概念,以韩家炜《数据挖掘:概念与技术》一书中提出的概念为例:“数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程”。数据挖掘技术通过分析海量数据以挖掘出潜在的有效的模式,是研究社交网络的一件利器。
现实中的很多系统都可以抽象为节点和边,即用节点表示实体,用边表示各个实体之间的联系,这样的节点和边就构成了一个网络。关于社交网络的研究已经持续了很长的时间。在很多网络系统,如生物学,计算机科学,工程学,生态学等中都有社区的概念。例如:在生物学领域的蛋白质交互网络中,位于同一个社区中的蛋白质通常起着相似的功能,通过把蛋白质当做节点以及他们之间的联系当做边来研究与生命活动,以了解生物构造和功能之间的关系。在信息领域的万维网中,通过社区发现,可以在不知道网页文本内容的情况下得到相关或相似主题的页面,从而改善搜索引擎的性能。在实际应用中,一个微信用户,当其在朋友圈中关注、发表、晒图等有关足球方面内容相对频繁的时候,可以会对该用户的行为进行分析,并将其划分为体育甚至更为准确的足球爱好者这一社区,那么以后就可以为该用户提供一些足球方面的商品、球赛信息,减少用户自己花时间进行搜索的同时又能实现类似于百度推广的信息推广,从而实现互利互赢。
标签传播算法基本思想是利用网络的传播特性,对网络中节点的标签信息进行传播,从而发现潜在的社区结构。首先为每个节点分配一个标签,随着标签的传播对节点标签进行更新,最后具有相同标签的节点就属于同一个社区。该算法思想简单,易于理解和操作,并且时间复杂度很低,因此得到国内外学者的关注。很多学者虽然都针对不同的问题进行优化改进,在一定程度上提高标签传播的稳定性和准确率,但是大都或多或少地带来增加计算开销等问题,并没有达到十分理想的效果。
本发明考虑网络结构中存在的完全子图中的节点在算法停止迭代的时候都会被划分在同一个社区中,因此这些节点可以在初始化阶段就划分在同一个社区中,即标注为相同的标签。综合节点间标签传播的概率,节点间的相似度,改进标签选择的方法。最后,将改进后的算法在Spark平台上实现并行化,以适应海量数据的社区发现。
发明内容
本发明所要解决的技术问题是Spark下基于标签传播的并行重叠社区发现问题。通过寻找完全子图减少初始化标签数目;综合考虑节点间标签传播概率以及节点间的相似度确定节点选择的标签;最终将其应用于Spark并行计算框架下。本发明能提高算法的准确性以及稳定性,同时在面对海量数据时能展现出良好的可扩展性。
技术方案如下:
Spark下基于标签传播的并行重叠社区发现方法,包括以下步骤:
步骤1),由网络数据集,设计map和reduce函数,得到节点的邻接列表,计算节点的度并降序排列。
步骤2),由步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签。
步骤3),根据步骤2)得到的完全子图,计算网络中节点的权重。首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重d为节点的度数,dmax为网络中节点的最大度数;综合这3个权重,计算网络中节点的权重。
步骤4),根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤3)得到的节点的权重计算节点间标签传播的概率。每个节点得到一个邻接节点概率列表。
步骤5),根据步骤4)得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签列表。当网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
进一步的,本发明的Spark下基于标签传播的并行重叠社区发现方法,步骤1)由网络数据集,设计map和reduce函数,这里的map函数将边映射为一个二元组(a,b),代表节点a与节点b之间有一条边相连;reduce函数将二元组的第一个元素作为key进行规约,最终得到节点的邻接列表,并以此计算节点的度并降序排列。
进一步的,本发明的Spark下基于标签传播的并行重叠社区发现方法,步骤2)根据步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签。
进一步的,本发明的Spark下基于标签传播的并行重叠社区发现方法,步骤3)根据步骤2)得到的完全子图,计算网络中节点的权重。首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重d为节点的度,dmax为网络中节点的最大度;综合这3个权重,计算网络中节点的权重。计算的公式如下:
W=λ/3(W1+W2+W3)
其中λ为放大因子,是一个可调参数,节点的权重取值范围为(0,λ]。
进一步的,本发明的Spark下基于标签传播的并行重叠社区发现方法,步骤4)根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤3)得到的节点的权重计算节点间标签传播的概率。节点之间标签传播的概率计算公式如下:
其中Wi和Wj分别代表节点i和节点j的权重,Pij代表节点i将自己的标签传播给节点j的概率,Pji代表节点j将自己的标签传播给节点i的概率。计算结束后每个节点得到一个邻接节点概率列表。如节点i的邻接节点概率列表为PListi={(j,Pij),(k,Pik),…},其中j,k,…为节点i的邻居节点。
进一步的,本发明的Spark下基于标签传播的并行重叠社区发现方法,步骤5),根据步骤4)得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签集合。节点间的相似度计算公式为:
其中N(i)和N(j)分别表示节点i和节点j邻居节点的集合;Attrik和Attrjk分别代表节点i和节点j的第k个属性,函数ζ用来判断两个节点属性值是否相等,相等为1,不等为0;|A|代表节点属性的个数。在每一次迭代过程中,节点i的标签集合计算公式为:
其中,LabelListi代表第i个节点的标签集合,例如LabelListi={(1,0.5),(2,0.3),(3,0.2)},说明节点i拥有标签1的概率为0.5,拥有标签2的概率为0.3,拥有标签3的概率为0.2;节点k∈N(i)并且节点k是N(i)中与节点i相似度最高的节点;β为可调参数,这里β=0.5。此外,为了避免节点拥有过多的标签,使用一个自适应阈值|N|代表节点的邻居节点个数,将标签概率低于的标签删除。每个节点都更新了自己的标签后进行下一次迭代,如此循环,直到网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
有益效果
本发明考虑网络结构中存在的完全子图中的节点在算法停止迭代的时候都会被划分在同一个社区中,因此这些节点可以在初始化阶段就划分在同一个社区中,即标注为相同的标签,以此减少初始化时标签的个数,提高算法执行的效率。综合节点间标签传播的概率,节点间的相似度,改进标签选择的方法,提高了算法执行的精度。最后,将改进后的算法在Spark平台上实现并行化,以适应海量数据的社区发现。
附图说明
图1是Spark下基于标签传播的并行重叠社区发现方法的流程图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述:
结合流程图及实施案例对本发明所述的Spark下基于标签传播的并行重叠社区发现方法作进一步的详细描述。
本实施案例在Spark框架下采用完全子图减少初始化标签,提高算法执行的效率、改进标签选择的方法,进而提高算法的精确度。如图1所示,本方法包含如下步骤:
步骤10,由网络数据集,设计map和reduce函数,这里的map函数将边映射为一个二元组(a,b),代表节点a与节点b之间有一条边相连;reduce函数将二元组的第一个元素作为key进行规约,最终得到节点的邻接列表,例如节点i的邻接列表为NListi=N(i),N(i)代表节点i的邻居节点集合。
步骤101,根据步骤10得到的邻接列表,统计每一个节点邻居节点的个数,即节点的度,以此得到度降序排列的节点列表DescList。
步骤20,根据步骤101得到的由节点的度降序排列的列表DescList,在DescList中依次选取节点作为开始节点,假设第一次拿到的节点是A,然后选取节点A邻居节点中度数最大的节点B,从节点A和B出发,寻找网络中的完全子图(完全子图中的节点两两相连),将标签1赋予这个完全子图中的每一个节点;第二次拿到节点未赋予标签的节点C,选取节点C邻居节点中度数最大的节点D,从C和D出发寻找完全子图,并将标签2赋予这个子图中的每一个节点;以此类推,最终得到k个完全子图g1,g2,…gk,这k个完全子图中的节点标签分别为1,2,3,…。
步骤201,将网络中其余节点赋予一个唯一的标签。
步骤30,根据步骤20得到的完全子图g1,g2,…gk,计算网络中节点的权重。权重由3部分组成。首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重d为节点的度数,dmax为网络中节点的最大度数;综合这3个权重,计算网络中节点的权重。计算的公式如下:
W=λ/3(W1+W2+W3)
其中λ为放大因子,是一个可调参数,这里我们选取λ=5,节点的权重取值范围为(0,λ]。
步骤40,根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤30得到的节点的权重计算节点间标签传播的概率。节点之间标签传播的概率计算公式如下:
其中Wi和Wj分别代表节点i和节点j的权重,Pij代表节点i将自己的标签传播给节点j的概率,Pji代表节点j将自己的标签传播给节点i的概率。计算结束后每个节点得到一个邻接节点概率列表。如节点i的邻接节点概率列表为PListi={(j,Pij),(k,Pik),…},其中j,k,…为节点i的邻居节点。
步骤50,根据步骤40得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签集合。节点间相似度越高,节点的标签相同的可能性就越大,即节点属于同一个社区的可能性就越大。节点间的相似度计算公式为:
其中N(i)和N(j)分别表示节点i和节点j邻居节点的集合;Attrik和Attrjk分别代表节点i和节点j的第k个属性,函数ζ用来判断两个节点属性值是否相等,相等为1,不等为0;|A|代表节点属性的个数。
步骤501,在每一次迭代过程中,节点i的标签集合计算公式为:
其中,LabelListi代表第i个节点的标签集合,集合中存放的是一个二元组(label,prob),label代表节点拥有的标签,prob代表拥有该标签的概率。节点k∈N(i)并且节点k是N(i)中与节点i相似度最高的节点;β为可调参数,这里β=0.5。这里举个最简单的例子,假设节点i只有一个邻居节点j,那么j必然是i邻居节点中与i相似度最高的节点,如果LabelListj={(1,0.5),(2,0.3),(3,0.2)},那么LabelListi=0.5*Pji*LabelListj+(1-0.5)*LabelListj={(1,0.25*Pji),(2,0.15*Pji),(3,0.1*Pji)}+{(1,0.25),(2,0.15),(3,0.1)}={(1,0.25*(Pji+1)),(2,0.25*(Pji+1)),(3,0.25*(Pji+1))}。
步骤502,为了避免节点拥有过多的标签,使用一个自适应阈值|N|代表节点的邻居节点个数,将标签概率低于的标签删除。
步骤503,归一化每个节点的标签集合,使标签概率之和为1,例如LabelListi={(1,2),(2,1),(3,1)},归一化后的标签集合为LabelListi={(1,0.5),(2,0.25),(3,0.25)},说明节点i拥有标签1的概率为0.5,拥有标签2的概率为0,25,拥有标签3的概率为0.25;
步骤504,每个节点都更新了自己的标签后进行下一次迭代,每一次迭代就是一次mapreduce,如此循环,直到网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
以上所述的具体实施方案,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施方案而已,并非用以限定本发明的范围,任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所做出的等同变化与修改,均应属于本发明保护的范围。
Claims (6)
1.Spark下基于标签传播的并行重叠社区发现方法,其特征在于,包括以下步骤:
步骤1)由网络数据集,设计map和reduce函数,得到节点的邻接列表,计算节点的度并降序排列;
步骤2)由步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签;
步骤3)根据步骤2)得到的完全子图,计算网络中节点的权重;首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重d为节点的度数,dmax为网络中节点的最大度数;综合这3个权重,计算网络中节点的权重;
步骤4)根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤3)得到的节点的权重计算节点间标签传播的概率;每个节点得到一个邻接节点概率列表;
步骤5)根据步骤4)得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签列表;当网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
2.根据权利要求1所述的方法,其特征在于,步骤1)由网络数据集,设计map和reduce函数,这里的map函数将边映射为一个二元组(a,b),代表节点a与节点b之间有一条边相连;reduce函数将二元组的第一个元素作为key进行规约,最终得到节点的邻接列表,并以此计算节点的度并降序排列。
3.根据权利要求1所述的方法,其特征在于,步骤2)根据步骤1)得到的由节点的度降序排列的列表,依次选取节点,在网络中寻找完全子图,最终得到k个完全子图g1,g2,…gk,将每个完全子图中的节点都分配一个相同的标签,网络中剩下的节点分配一个唯一的标签。
4.根据权利要求1所述的方法,其特征在于,步骤3)根据步骤2)得到的完全子图,计算网络中节点的权重;首先为网络中的节点分配一个初始权重W1=1;其次计算节点与完全子图的距离,处于完全子图中的节点距离D=0,不属于完全子图并且与完全子图中节点有边相连的节点距离D=1,依次类推,计算权重W2=2D;最后计算节点自身的权重 d为节点的度,dmax为网络中节点的最大度;综合这3个权重,计算网络中节点的权重;计算的公式如下:
W=λ/3(W1+W2+W3)
其中λ为放大因子,是一个可调参数,节点的权重取值范围为(0,λ]。
5.根据权利要求1所述的方法,其特征在于,步骤4)根据网络中的传播特性,即越重要的节点越容易将自己的标签传播给周围的节点,由步骤3)得到的节点的权重计算节点间标签传播的概率;节点之间标签传播的概率计算公式如下:
其中Wi和Wj分别代表节点i和节点j的权重,Pij代表节点i将自己的标签传播给节点j的概率,Pji代表节点j将自己的标签传播给节点i的概率;计算结束后每个节点得到一个邻接节点概率列表;如节点i的邻接节点概率列表为PListi={(j,Pij),(k,Pik),…},其中j,k,…为节点i的邻居节点。
6.根据权利要求1所述的方法,其特征在于,步骤5),根据步骤4)得到的节点间标签传播概率列表,结合节点间的相似度,确定节点选择的标签集合;节点间的相似度计算公式为:
其中N(i)和N(j)分别表示节点i和节点j邻居节点的集合;Attrik和Attrjk分别代表节点i和节点j的第k个属性,函数ζ用来判断两个节点属性值是否相等,相等为1,不等为0;|A|代表节点属性的个数;在每一次迭代过程中,节点i的标签集合计算公式为:
其中,LabelListi代表第i个节点的标签集合,集合中存放的是一个二元组(label,prob),label代表节点拥有的标签,prob代表拥有该标签的概率;节点k∈N(i)并且节点k是N(i)中与节点i相似度最高的节点;β为可调参数,这里β=0.5;此外,为了避免节点拥有过多的标签,使用一个自适应阈值|N|代表节点的邻居节点个数,将标签概率低于的标签删除;每个节点都更新了自己的标签后进行下一次迭代,如此循环,直到网络中的标签数目不再发生变化时停止迭代,此时,每个节点拥有的标签就是它们所属的社区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710121328.2A CN106991614A (zh) | 2017-03-02 | 2017-03-02 | Spark下基于标签传播的并行重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710121328.2A CN106991614A (zh) | 2017-03-02 | 2017-03-02 | Spark下基于标签传播的并行重叠社区发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106991614A true CN106991614A (zh) | 2017-07-28 |
Family
ID=59411509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710121328.2A Pending CN106991614A (zh) | 2017-03-02 | 2017-03-02 | Spark下基于标签传播的并行重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106991614A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804582A (zh) * | 2018-05-24 | 2018-11-13 | 天津大学 | 基于大数据间复杂关系的图数据库优化的方法 |
CN109635134A (zh) * | 2018-12-30 | 2019-04-16 | 南京邮电大学盐城大数据研究院有限公司 | 一种用于大规模动态图数据的高效处理流程方法 |
CN110392314A (zh) * | 2018-04-18 | 2019-10-29 | 武汉斗鱼网络科技有限公司 | 直播间内容标签扩散算法、存储介质、电子设备及系统 |
CN110719224A (zh) * | 2019-09-26 | 2020-01-21 | 西安理工大学 | 一种基于标签传播的拓扑势社区检测方法 |
CN110751161A (zh) * | 2018-07-23 | 2020-02-04 | 优视科技(中国)有限公司 | 基于Spark的节点相似度计算方法、装置及终端 |
CN111274485A (zh) * | 2020-01-20 | 2020-06-12 | 北京工业大学 | 一种基于社区发现的个性化推荐方法 |
CN112967146A (zh) * | 2021-02-03 | 2021-06-15 | 北京航空航天大学 | 一种基于标签传播的科研社区发现方法及装置 |
WO2024109454A1 (zh) * | 2022-11-25 | 2024-05-30 | 中国银联股份有限公司 | 一种关联网络的标签传播方法、装置及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN105069039A (zh) * | 2015-07-22 | 2015-11-18 | 山东大学 | 一种基于spark平台的内存迭代的重叠社区并行发现方法 |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
CN105678626A (zh) * | 2015-12-30 | 2016-06-15 | 南京理工大学 | 重叠社区挖掘方法与装置 |
-
2017
- 2017-03-02 CN CN201710121328.2A patent/CN106991614A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN105069039A (zh) * | 2015-07-22 | 2015-11-18 | 山东大学 | 一种基于spark平台的内存迭代的重叠社区并行发现方法 |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
CN105678626A (zh) * | 2015-12-30 | 2016-06-15 | 南京理工大学 | 重叠社区挖掘方法与装置 |
Non-Patent Citations (3)
Title |
---|
刘世超 等: "基于标签传播概率的重叠社区发现算法", 《计算机学报》 * |
赵宝峰 等: "一种稳定的标签传播社区发现算法", 《太原理工大学学报》 * |
闫永刚 等: "KNN分类算法的MapReduce并行化实现", 《南京航空航天大学学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392314A (zh) * | 2018-04-18 | 2019-10-29 | 武汉斗鱼网络科技有限公司 | 直播间内容标签扩散算法、存储介质、电子设备及系统 |
CN110392314B (zh) * | 2018-04-18 | 2021-10-15 | 武汉斗鱼网络科技有限公司 | 直播间内容标签扩散方法、存储介质、电子设备及系统 |
CN108804582A (zh) * | 2018-05-24 | 2018-11-13 | 天津大学 | 基于大数据间复杂关系的图数据库优化的方法 |
CN110751161A (zh) * | 2018-07-23 | 2020-02-04 | 优视科技(中国)有限公司 | 基于Spark的节点相似度计算方法、装置及终端 |
CN110751161B (zh) * | 2018-07-23 | 2023-08-22 | 阿里巴巴(中国)有限公司 | 基于Spark的节点相似度计算方法、装置及终端 |
CN109635134A (zh) * | 2018-12-30 | 2019-04-16 | 南京邮电大学盐城大数据研究院有限公司 | 一种用于大规模动态图数据的高效处理流程方法 |
CN109635134B (zh) * | 2018-12-30 | 2023-06-13 | 南京邮电大学盐城大数据研究院有限公司 | 一种用于大规模动态图数据的高效处理流程方法 |
CN110719224A (zh) * | 2019-09-26 | 2020-01-21 | 西安理工大学 | 一种基于标签传播的拓扑势社区检测方法 |
CN110719224B (zh) * | 2019-09-26 | 2021-08-06 | 西安理工大学 | 一种基于标签传播的拓扑势社区检测方法 |
CN111274485B (zh) * | 2020-01-20 | 2023-05-02 | 北京工业大学 | 一种基于社区发现的个性化推荐方法 |
CN111274485A (zh) * | 2020-01-20 | 2020-06-12 | 北京工业大学 | 一种基于社区发现的个性化推荐方法 |
CN112967146A (zh) * | 2021-02-03 | 2021-06-15 | 北京航空航天大学 | 一种基于标签传播的科研社区发现方法及装置 |
WO2024109454A1 (zh) * | 2022-11-25 | 2024-05-30 | 中国银联股份有限公司 | 一种关联网络的标签传播方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Community-based seeds selection algorithm for location aware influence maximization | |
CN106991614A (zh) | Spark下基于标签传播的并行重叠社区发现方法 | |
Zhang et al. | Shne: Representation learning for semantic-associated heterogeneous networks | |
Zhang et al. | Event detection and popularity prediction in microblogging | |
Ji et al. | Recommendation based on review texts and social communities: a hybrid model | |
Ma et al. | LED: A fast overlapping communities detection algorithm based on structural clustering | |
Jiang et al. | An efficient evolutionary user interest community discovery model in dynamic social networks for internet of people | |
Xiaomei et al. | Microblog sentiment analysis with weak dependency connections | |
Kundu et al. | Fuzzy-rough community in social networks | |
Liu et al. | A framework for community detection in heterogeneous multi-relational networks | |
Zhang et al. | Identifying influential nodes in social networks via community structure and influence distribution difference | |
Zhou et al. | Social influence based clustering and optimization over heterogeneous information networks | |
Sun et al. | Community detection based on the Matthew effect | |
CN109949174B (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
Huang et al. | Information fusion oriented heterogeneous social network for friend recommendation via community detection | |
Zhiyuli et al. | Modeling large-scale dynamic social networks via node embeddings | |
Li et al. | Efficient community detection with additive constrains on large networks | |
Huang et al. | Identifying influential individuals in microblogging networks using graph partitioning | |
Mehrotra et al. | Comparative analysis of K-Means with other clustering algorithms to improve search result | |
Ye et al. | An End‐to‐End Rumor Detection Model Based on Feature Aggregation | |
Teng et al. | A synchronous feature learning method for multiplex network embedding | |
Seyfosadat et al. | Systematic literature review on identifying influencers in social networks | |
Cheng et al. | A Seed‐Expanding Method Based on TOPSIS for Community Detection in Complex Networks | |
Li et al. | Enhancing link prediction using gradient boosting features | |
Wang et al. | Research on semi‐supervised community discovery algorithm based on new annealing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170728 |