CN105069039A - 一种基于spark平台的内存迭代的重叠社区并行发现方法 - Google Patents

一种基于spark平台的内存迭代的重叠社区并行发现方法 Download PDF

Info

Publication number
CN105069039A
CN105069039A CN201510435886.7A CN201510435886A CN105069039A CN 105069039 A CN105069039 A CN 105069039A CN 201510435886 A CN201510435886 A CN 201510435886A CN 105069039 A CN105069039 A CN 105069039A
Authority
CN
China
Prior art keywords
community
summit
limit
rdd
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510435886.7A
Other languages
English (en)
Other versions
CN105069039B (zh
Inventor
郭山清
鲁宗飞
崔立真
许信顺
刘士军
王昌圆
杨伯宇
陶立冬
田燕琛
李文哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Municipal Public Security Bureau
Shandong University
Original Assignee
Jinan Municipal Public Security Bureau
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Municipal Public Security Bureau, Shandong University filed Critical Jinan Municipal Public Security Bureau
Priority to CN201510435886.7A priority Critical patent/CN105069039B/zh
Publication of CN105069039A publication Critical patent/CN105069039A/zh
Application granted granted Critical
Publication of CN105069039B publication Critical patent/CN105069039B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于spark平台的内存迭代的重叠社区并行发现方法,步骤如下:在配置有spark环境的计算集群上,通过GraphX读取原始社区网络数据,构造图实例;通过GraphX并行计算出图实例中每个顶点的邻居节点的集合,作为图实例中每个顶点的属性;将图实例的每条边初始为一个社区,根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度;寻找相似度最大的两个社区,将这两个社区合并为新的社区;更新社区相似度集合;使用分割密度公式计算此次社区划分的分割质量;判断目前社区数量是大于1还是等于1,如果等于1,就获得分割质量最大的社区划分。

Description

一种基于spark平台的内存迭代的重叠社区并行发现方法
技术领域
本发明用来发现网络中的社区结果,具体涉及一种基于spark平台的内存迭代的重叠社区并行发现方法。
背景技术
复杂网络是复制系统的抽象,现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。网络中的节点表示系统中的个体,边表示个体之间的关系,如社会关系网络,电力网等。
社区是复杂网络的一个子图,同一社区内的节点与节点之间连接很紧密,而社区与社区之间的连接比较稀疏。
所谓社区发现是将图划分为多个确定数量的社区的集合。若任意两个社区的顶点集合的交集均为空,则称此集合为非重叠社区,否则称为重叠社区。
早期的社区发现算法主要是针对非重叠社区。但是在现实的很多复杂系统中是存在一个个体属于多个社区的情况,这些算法会将网络中属于多个社区的节点归结到一个社区中。所以这些算法适应范围不广。
在重叠社区发现算法中,很多算法需要通过多次计算来获得最佳的社区数,计算开销过大。通过将传统串行算法改造设计成高效并行算法,可以大幅提高效率。
可以通过hadoopMapReduce框架实现并行计算。但hadoop存在一些不足。Hadoop的MapReduce模型并不适合描述复杂的数据处理过程。其次hadoop不支持内存迭代计算。一次MapReduce过程结束将结果写到磁盘,迭代过程时,下一次输入数据需要再次从磁盘中取出数据。
Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析,Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀。SparkGraphX是Spark中用于图和图并行计算的API,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
发明内容
本发明的目的就是为了解决上述问题,提供一种基于spark平台的内存迭代的重叠社区并行发现方法,它可以解决大规模数据在单机上的计算瓶颈。
为了实现上述目的,本发明采用如下技术方案:
一种基于spark平台的内存迭代的重叠社区并行发现方法,包括如下步骤:
步骤(1):在配置有spark环境的计算集群上,通过GraphX读取原始社区网络数据,构造图实例;
步骤(2):通过GraphX并行计算出图实例中每个顶点的邻居节点的集合,作为图实例中每个顶点的属性;
步骤(3):将图实例的每条边初始为一个社区,根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度;
步骤(4):寻找相似度最大的两个社区,将这两个社区合并为新的社区;
步骤(5):更新社区相似度集合;
步骤(6):使用分割密度公式计算此次社区划分的分割质量;
步骤(7):判断目前社区数量是大于1还是等于1,若划分后的社区数量大于1,继续步骤(4),如果等于1,就获得分割质量最大的社区划分。
所述步骤(1)步骤为:
在spark中,从Hadoop分布式文件系统中读入形式为边对的数据,例如每行数据为ab,a和b代表两个节点,sparkgraphx接口根据边对构造对应的图实例graph,并保存在内存中。
所述步骤(2)中,使用GraphX的mapReduceTriplets函数并行计算每个顶点的邻居节点,所述mapReduceTriplets函数将用户定义的map函数作为输入,map输出为一个迭代器,迭代器元素为key-value对,key值为对应的顶点id,value值自定义,并且将map作用到每个triplet,并可以得到triplet上所有的顶点(或者两个,或者空)的信息。
步骤为:
步骤(21):每个Triplet并行计算用户定义的Map函数,Map函数参数为对应Triplet的EdgeTriplet对象,Map函数计算生成一个迭代器,所述迭代器有两个元素,分别为(a,b)和(b,a);a和b分别代表Triplet中的两个顶点;
步骤(22):每个Triplet并行将对应迭代器的元素发送到该元素第一个属性设定的顶点;
步骤(23):每个顶点并行接收信息,对收到的信息集合使用Reduce函数统计信息,从而计算出每个顶点的邻居节点集。
所述步骤(3)步骤为:
步骤(31):调用mapReduceTriplets函数,其中Map函数生成的迭代器中元素为(a,(b,d))和(b,(a,c)),(a,(b,d))中a代表顶点ID,b为顶点ID相邻的顶点,d为顶点b的属性,即步骤(2)计算的顶点的邻居节点集。Reduce函数为收集收到的信息。
步骤(32):此时每个顶点的属性为二元组集合,二元组由顶点的一个相邻顶点和此相邻顶点的邻居节点集组成。Graph的顶点集合以RDD(ResilientDistributedDatasets,即弹性分布数据集)的形式存于内存中,调用RDD的map函数,对每个顶点并行计算通过map函数的参数传入的函数。对顶点的属性二元组集合进行笛卡儿积计算,例如顶点a的属性包括(a,(b,d)),(a,(c,e)),笛卡尔积后的结果为(a,b,a,c,e),e为边(a,b)和边(a,c)的相似度。
(a,b):e1代表由顶点a和b组成的边e1,(a,c):e2代表由顶点a和c组成的边e2,e代表计算的边相似度。
步骤(33):获得顶点RDD中的笛卡儿积结果,保存为新的RDD,新的RDD元素形式为步骤(32)的(a,b,a,c,e)类型。
至此,获得了所有存在公共顶点的边之间的相似度。
所述步骤(4)步骤为:
并行遍历步骤(3)生成的新RDD,获取新RDD中相似度最大的元素集合,集合个数大于等于1;将集合中每个元素(a,b,a,c,e)中所代表的两条边合并为新的社区。
所述步骤(5)步骤为:
步骤(51):并行遍历步骤(3)生成的边相似度RDD,过滤出边相似度RDD中需要更新的元素集合,组成子RDD。过滤策略为若RDD中元素中某条边等于步骤(4)的元素集合中某个元素的一条边,则保留此元素,否则过滤掉。
步骤(52):更新步骤(51)生成的子RDD的每个元素的相似度。
所述步骤(6)步骤为:计算每个社区的分割密度;对以社区为元素组成的RDD使用map框架,然后计算整个网络的分割密度
步骤(32)的计算边相似度函数为
其中,eik代表顶点分别为i和k的一条边,ejk代表顶点分别为j和k的一条边,n+(i)代表顶点i的邻居节点集合,n+(j)代表顶点j的邻居节点集合。
步骤(52)的更新边相似度函数为:
Gj1和Gj2为步骤(4)中找到的需要合并的两个社区;
Gj为两个社区合并后生成的新社区;
Gi代表一个社区;
m是对应下标的社区的边个数;
mj1为社区Gj1的边个数,mj2为社区Gj2的边个数;
步骤(6)的计算每个社区的分割密度公式为:
网络G中子图Gc有mc条边,mc=|Gc|,nc为子图,Gc中顶点个数。
步骤(6)的计算整个网络的分割密度的公式为:
整个网络社区分割为{G1,G2,...,Gc},此分割的分割密度D是对所有子图的分割密度根据边的加权平均值。
本发明的有益效果:
1.算法并行化:可以解决大规模数据在单机上的计算瓶颈。
2.内存迭代:使用spark内存计算模型代替hadoop的MapReduce等传统计算模型,大幅提高迭代算法的速度。
3.大规模网络的重叠社区发现:算法可以有效的发现网络中一个节点属于的多个社区。
附图说明
图1为本发明的结构示意图;
图2为本发明计算邻居节点集的过程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
图1为本发明的算法流程图,结合该流程图,下面对本算法实施以及具体细节做进一步说明。
一种基于spark平台的内存迭代的重叠社区并行发现算法,该方法的步骤如下:
步骤(1):在配置有spark环境的计算集群上通过graphx读取原始社区网络数据,构造graph
步骤(2):通过graphx,并行计算出graph每个顶点的邻居节点集,并作为graph每个顶点的属性
步骤(3):每条边初始为一个社区,计算graph中所有存在公共顶点的两条边之间的相似度,
步骤(4):寻找相似度最大的两个社区,将这两个社区合并为新的社区。
步骤(5):更新社区相似度集合
步骤(6):使用分割密度公式计算此次社区划分的分割质量
步骤(7):若划分后的社区数量大于1,继续步骤(4)。否则获得分割密度公式结果最大的社区划分。
所述步骤(1)中,具体步骤为
在spark中,从HDFS或者RDD中读入形式为边对的数据,使用sparkgraphx接口根据边对构造对应的图,并保存在内存中。HDFS中数据可以以文本文件存储,每行格式为:vertexID,vertexID,代表一条边的两个顶点,读取后以RDD类型保存在内存中。通过使用sparkgraphx的fromEdges函数,构造得到对应的图。
所述步骤(2)中,使用graphx的mapReduceTriplets函数并行计算每个顶点的邻居顶点。
mapReduceTriplets函数接收两个函数参数,称为map函数和reduce函数。然后对graph的每一个Triplet并行进行处理,
具体步骤为
步骤(21):如图2所示,每个Triplet并行计算Map函数,Map函数的参数为对应Triplet的EdgeTriplet对象,Map函数过程为计算生成一个迭代器,此迭代器有两个元素。分别为(a,b)和(b,a)。a和b分别代表Triplet中的两个顶点。
步骤(22):每个Triplet并行将对应迭代器的元素发送到与元素第一个属性指定的顶点。
步骤(23):每个顶点并行接收收到的信息。对收到的信息集合使用Reduce函数,Reduce函数统计信息,从而计算出每个顶点的邻居节点集。
所述步骤(3)中,具体步骤为
步骤(31):每个顶点聚合其邻居顶点的属性,即顶点的邻居节点集。具体步骤为:对位于内存中更新后的每个顶点的属性为步骤(2)计算出的邻居节点集的graph,调用mapReduceTriplets函数,其中Map函数生成的迭代器中元素为(a,(b,d))和(b,(a,c)),其中a和b代表此Triplet的顶点ID,d和c分别代表a顶点和b顶点的属性,即步骤(2)计算的顶点相邻顶点集。Reduce函数为收集收到的信息。
步骤(32):此时graph通过步骤(31)更新后,每个顶点的属性为二元组集合,元组由顶点的一个相邻顶点和此相邻顶点的相邻顶点集组成。Graph的顶点集合以RDD的形式存于内存中,调用RDD的map函数,对每个顶点并行计算map函数参数传入的函数,此函数实现的功能为对顶点的属性二元组集合进行笛卡儿积计算,结果形式为(a,b,a,c,e)
其中a,b,c为三个顶点,(a,b):e1和(a,c):e2代表由两个顶点组成的两条边,e代表使用公式S计算的边相似度。例如若顶点a的属性为{(b,n+(b)),(c,n+(c))},
则map的结果为(a,b,a,c,s(eab,eac))。
其中eik代表一条边,边的两个顶点为i和k。n+(i)和n+(j)分别代表顶点i和顶点j的邻居节点集合。
步骤(33):获得顶点RDD中的笛卡儿积结果,保存为新的RDD,RDD元素为步骤(32)所述的(a,b,c,d,e)类型。
至此,获得了所有存在公共顶点的边之间的相似度。
所述步骤(4)中,
具体步骤为并行遍历步骤(3)生成的RDD,获取此RDD中相似度最大的元素集合,集合个数大于等于1。
获取此RDD中相似度最大的元素集合的具体方法为使用RDD的reduce函数,获得最大的相似度值,然后使用RDD的filter函数过滤出RDD中元素的相似度值和最大相似度值一样的元素。
所述步骤(5)中,具体步骤为
步骤(51):并行遍历步骤(3)生成的边相似度RDD,过滤出RDD中需要更新的元素集合,组成子RDD。过滤策略为RDD中元素中某条边或者某个社区是否等于步骤(4)的生成的相似度最大元素集合中某个元素的一条边或者一个社区。例如步骤(4)结果中包含(a,b,c,d,e),若步骤(3)生成地RDD中存在(a,b,*,*,*),
(c,d,*,*,*),(*,*,a,b,*),(*,*,c,d,*)形式元素,则这些元素符合过滤条件。*:代表任意值。
步骤(52):使用公式f更新步骤(51)生成的子RDD的每个元素的相似度。
Gj1和Gj2为步骤(4)中找到的需要合并的两个社区。Gj两个社区合并后生成的新社区。m是对应下标的社区的边个数。
例如需要合并社区Gj2和Gj1为新社区Gj。(Gi,Gi,Gj1,Gj1,s1)和(Gi,Gi,Gj2,Gj2,s1)位于步骤(52)过滤后的结果中,代表了社区Gj和Gj1以及社区Gj和Gj2的相似度。根据元素前两个属性为key,后3个属性为value,调用RDD类型的reduceby函数,两个元素合并为(Gi,GiGj,Gj,f(GiGj))。
所述步骤(6)中,
具体步骤为使用公式dc计算每个社区的分割密度。对以社区为元素组成的RDD使用map框架,map参数为公式d,计算整个网络的分割密度。
所述计算每个社区的分割密度公式dc
网络G中子图Gc有mc=|Gc|条边,nc为子图Gc中顶点个数
所述计算整个网络的分割密度的公式d为
整个网络社区分割为{G1,G2,...,Gc},此分割的分割密度D是对所有子图的分割密度根据边的加权平均值。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,包括如下步骤:
步骤(1):在配置有spark环境的计算集群上,通过GraphX读取原始社区网络数据,构造图实例;
步骤(2):通过GraphX并行计算出图实例中每个顶点的邻居节点的集合,作为图实例中每个顶点的属性;
步骤(3):将图实例的每条边初始为一个社区,根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度;
步骤(4):寻找相似度最大的两个社区,将这两个社区合并为新的社区;
步骤(5):更新社区相似度集合;
步骤(6):使用分割密度公式计算此次社区划分的分割质量;
步骤(7):判断目前社区数量是大于1还是等于1,若划分后的社区数量大于1,继续步骤(4),如果等于1,就获得分割质量最大的社区划分。
2.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,所述步骤(1)步骤为:
在spark中,从Hadoop分布式文件系统中读入形式为边对的数据,sparkgraphx接口根据边对构造对应的图实例graph,并保存在内存中。
3.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,所述步骤(2)中,使用GraphX的mapReduceTriplets函数并行计算每个顶点的邻居节点,步骤为:
步骤(21):每个Triplet并行计算Map函数,Map函数参数为对应Triplet的EdgeTriplet对象,Map函数计算生成一个迭代器,所述迭代器有两个元素,分别为(a,b)和(b,a);a和b分别代表Triplet中的两个顶点;
步骤(22):每个Triplet并行将对应迭代器的元素发送到该元素第一个属性设定的顶点;
步骤(23):每个顶点并行接收信息,对收到的信息集合使用Reduce函数统计信息,从而计算出每个顶点的邻居节点集。
4.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,所述步骤(3)步骤为:
步骤(31):调用mapReduceTriplets函数,其中Map函数生成的迭代器中元素为(a,(b,d))和(b,(a,c)),(a,(b,d))中a代表顶点ID,b为顶点ID相邻的顶点,d为顶点b的属性,即步骤(2)计算的顶点的邻居节点集;Reduce函数为收集到的信息;
步骤(32):此时每个顶点的属性为二元组集合,二元组由顶点的一个相邻顶点和此相邻顶点的邻居节点集组成;Graph的顶点集合以弹性分布数据集RDD,ResilientDistributedDatasets的形式存于内存中,调用RDD的map函数,对每个顶点并行计算通过map函数的参数传入的函数;对顶点的属性二元组集合进行笛卡儿积计算;
步骤(33):获得顶点RDD中的笛卡儿积结果,保存为新的RDD;至此,获得了所有存在公共顶点的边之间的相似度。
5.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,所述步骤(4)步骤为:
并行遍历步骤(3)生成的新RDD,获取新RDD中相似度最大的元素集合,集合个数大于等于1;将集合中每个元素所代表的两条边合并为新的社区。
6.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,所述步骤(5)步骤为:
步骤(51):并行遍历步骤(3)生成的边相似度RDD,过滤出边相似度RDD中需要更新的元素集合,组成子RDD;过滤策略为若RDD中元素中某条边等于步骤(4)的元素集合中某个元素的一条边,则保留此元素,否则过滤掉;
步骤(52):更新步骤(51)生成的子RDD的每个元素的相似度。
7.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,所述步骤(6)步骤为:计算每个社区的分割密度;对以社区为元素组成的RDD使用map框架,然后计算整个网络的分割密度。
8.如权利要求4所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,步骤(32)的计算边相似度函数为
s ( e i k , e j k ) = | n + ( i ) ∩ n + ( j ) | | n + ( i ) ∪ n + ( j ) | - - - ( 1 )
其中,eik代表顶点分别为i和k的一条边,ejk代表顶点分别为j和k的一条边,n+(i)代表顶点i的邻居节点集合,n+(j)代表顶点j的邻居节点集合。
9.如权利要求6所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,步骤(52)的更新边相似度函数为:
f ( G i , G j ) = m j 1 f ( G i , G j 1 ) + m j 2 f ( G i , G j 2 ) m j 1 + m j 2 - - - ( 2 )
Gj1和Gj2为步骤(4)中找到的需要合并的两个社区;Gj为两个社区合并后生成的新社区;Gi代表一个社区;m是对应下标的社区的边个数;mj1为社区Gj1的边个数,mj2为社区Gj2的边个数。
10.如权利要求7所述的一种基于spark平台的内存迭代的重叠社区并行发现方法,其特征是,步骤(6)的计算每个社区的分割密度公式为:
D c = m c - ( n c - 1 ) n c ( n c - 1 ) / 2 - ( n c - 1 ) - - - ( 3 )
网络G中子图Gc有mc条边,mc=|Gc|,nc为子图,Gc中顶点个数;
步骤(6)的计算整个网络的分割密度的公式为:
D = 2 M Σm c m c - ( n c - 1 ) ( n c - 2 ) ( n c - 1 ) - - - ( 4 )
整个网络社区分割为{G1,G2,...,Gc},此分割的分割密度D是对所有子图的分割密度根据边的加权平均值。
CN201510435886.7A 2015-07-22 2015-07-22 一种基于spark平台的内存迭代的重叠社区并行发现方法 Expired - Fee Related CN105069039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510435886.7A CN105069039B (zh) 2015-07-22 2015-07-22 一种基于spark平台的内存迭代的重叠社区并行发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510435886.7A CN105069039B (zh) 2015-07-22 2015-07-22 一种基于spark平台的内存迭代的重叠社区并行发现方法

Publications (2)

Publication Number Publication Date
CN105069039A true CN105069039A (zh) 2015-11-18
CN105069039B CN105069039B (zh) 2018-05-18

Family

ID=54498411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510435886.7A Expired - Fee Related CN105069039B (zh) 2015-07-22 2015-07-22 一种基于spark平台的内存迭代的重叠社区并行发现方法

Country Status (1)

Country Link
CN (1) CN105069039B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786980A (zh) * 2016-02-14 2016-07-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN106991614A (zh) * 2017-03-02 2017-07-28 南京信息工程大学 Spark下基于标签传播的并行重叠社区发现方法
CN107070795A (zh) * 2016-01-14 2017-08-18 赛灵思公司 多通道交换网络中的通道选择
CN107276843A (zh) * 2017-05-19 2017-10-20 西安电子科技大学 一种基于Spark平台的多目标进化社区检测方法
CN107480685A (zh) * 2016-06-08 2017-12-15 国家计算机网络与信息安全管理中心 一种基于GraphX的分布式幂迭代聚类方法和装置
CN107784356A (zh) * 2017-10-27 2018-03-09 天津理工大学 一种基于蚁群和信号传递的重叠社区发现方法
CN108846543A (zh) * 2018-04-26 2018-11-20 深圳大学 一种非重叠社区集合质量度量指标的计算方法及装置
CN108898264A (zh) * 2018-04-26 2018-11-27 深圳大学 一种重叠社区集合质量度量指标的计算方法及装置
CN109559230A (zh) * 2018-12-13 2019-04-02 中科曙光南京研究院有限公司 基于重叠社区发现算法的银行交易群体发现方法和系统
CN109656898A (zh) * 2018-12-14 2019-04-19 中国人民解放军国防科技大学 基于节点度的分布式大规模复杂社团探测方法及装置
CN110325984A (zh) * 2017-05-29 2019-10-11 华为技术有限公司 在图形中进行层次社区检测的系统和方法
CN110442800A (zh) * 2019-07-22 2019-11-12 哈尔滨工程大学 一种融合节点属性和图结构的半监督社区发现方法
CN111309976A (zh) * 2020-02-24 2020-06-19 北京工业大学 一种面向收敛型图应用的GraphX数据缓存方法
CN112395365A (zh) * 2019-08-14 2021-02-23 北京海致星图科技有限公司 一种知识图谱批量离线查询解决方案

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置
TW201232440A (en) * 2011-01-18 2012-08-01 Tencent Tech Shenzhen Co Ltd Method and system for recommending friends in social networking service (SNS) community
CN102682162A (zh) * 2012-04-24 2012-09-19 河海大学 基于复杂网络社区发现的层次重叠核心药群发现方法
US20130006880A1 (en) * 2011-06-29 2013-01-03 International Business Machines Corporation Method for finding actionable communities within social networks
CN103413027A (zh) * 2013-07-22 2013-11-27 北京航空航天大学 一种社会网络重叠社区发现方法的评价方法
CN103425737A (zh) * 2013-07-03 2013-12-04 西安理工大学 面向网络的重叠社区发现方法
CN103729475A (zh) * 2014-01-24 2014-04-16 福州大学 一种社交网络中的多标签传播重叠社区发现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置
TW201232440A (en) * 2011-01-18 2012-08-01 Tencent Tech Shenzhen Co Ltd Method and system for recommending friends in social networking service (SNS) community
US20130006880A1 (en) * 2011-06-29 2013-01-03 International Business Machines Corporation Method for finding actionable communities within social networks
CN102682162A (zh) * 2012-04-24 2012-09-19 河海大学 基于复杂网络社区发现的层次重叠核心药群发现方法
CN103425737A (zh) * 2013-07-03 2013-12-04 西安理工大学 面向网络的重叠社区发现方法
CN103413027A (zh) * 2013-07-22 2013-11-27 北京航空航天大学 一种社会网络重叠社区发现方法的评价方法
CN103729475A (zh) * 2014-01-24 2014-04-16 福州大学 一种社交网络中的多标签传播重叠社区发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李凯: "面向微博的社区发现研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邓永国: "社会网络中的重叠社区发现算法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070795A (zh) * 2016-01-14 2017-08-18 赛灵思公司 多通道交换网络中的通道选择
CN107070795B (zh) * 2016-01-14 2021-01-29 赛灵思公司 多通道交换网络中的通道选择
CN105786980A (zh) * 2016-02-14 2016-07-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN105786980B (zh) * 2016-02-14 2019-12-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN107480685A (zh) * 2016-06-08 2017-12-15 国家计算机网络与信息安全管理中心 一种基于GraphX的分布式幂迭代聚类方法和装置
CN106991614A (zh) * 2017-03-02 2017-07-28 南京信息工程大学 Spark下基于标签传播的并行重叠社区发现方法
CN107276843A (zh) * 2017-05-19 2017-10-20 西安电子科技大学 一种基于Spark平台的多目标进化社区检测方法
CN107276843B (zh) * 2017-05-19 2020-02-07 西安电子科技大学 一种基于Spark平台的多目标进化社区检测方法
CN110325984A (zh) * 2017-05-29 2019-10-11 华为技术有限公司 在图形中进行层次社区检测的系统和方法
CN110325984B (zh) * 2017-05-29 2021-12-03 华为技术有限公司 在图形中进行层次社区检测的系统和方法
CN107784356A (zh) * 2017-10-27 2018-03-09 天津理工大学 一种基于蚁群和信号传递的重叠社区发现方法
CN108898264A (zh) * 2018-04-26 2018-11-27 深圳大学 一种重叠社区集合质量度量指标的计算方法及装置
CN108846543A (zh) * 2018-04-26 2018-11-20 深圳大学 一种非重叠社区集合质量度量指标的计算方法及装置
CN108846543B (zh) * 2018-04-26 2021-10-29 深圳大学 一种非重叠社区集合质量度量指标的计算方法及装置
CN108898264B (zh) * 2018-04-26 2021-10-29 深圳大学 一种重叠社区集合质量度量指标的计算方法及装置
CN109559230B (zh) * 2018-12-13 2021-03-30 中科曙光南京研究院有限公司 基于重叠社区发现算法的银行交易群体发现方法和系统
CN109559230A (zh) * 2018-12-13 2019-04-02 中科曙光南京研究院有限公司 基于重叠社区发现算法的银行交易群体发现方法和系统
CN109656898A (zh) * 2018-12-14 2019-04-19 中国人民解放军国防科技大学 基于节点度的分布式大规模复杂社团探测方法及装置
CN110442800A (zh) * 2019-07-22 2019-11-12 哈尔滨工程大学 一种融合节点属性和图结构的半监督社区发现方法
CN110442800B (zh) * 2019-07-22 2022-05-20 哈尔滨工程大学 一种融合节点属性和图结构的半监督社区发现方法
CN112395365A (zh) * 2019-08-14 2021-02-23 北京海致星图科技有限公司 一种知识图谱批量离线查询解决方案
CN111309976A (zh) * 2020-02-24 2020-06-19 北京工业大学 一种面向收敛型图应用的GraphX数据缓存方法
CN111309976B (zh) * 2020-02-24 2021-06-25 北京工业大学 一种面向收敛型图应用的GraphX数据缓存方法

Also Published As

Publication number Publication date
CN105069039B (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN105069039A (zh) 一种基于spark平台的内存迭代的重叠社区并行发现方法
Anchalia et al. MapReduce design of K-means clustering algorithm
CN102222092B (zh) 一种MapReduce平台上的海量高维数据聚类方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN103699606A (zh) 一种基于顶点切割与社区聚集的大规模图划分方法
CN103838617A (zh) 大数据环境下的数据挖掘平台的构建方法
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
CN103116625A (zh) 一种基于Hadoop的海量RDF数据分布式查询处理方法
CN106209989A (zh) 基于spark平台的空间数据并行计算系统及其方法
CN103646079A (zh) 一种用于图数据库搜索的分布式索引及其并行生成方法
CN113807520A (zh) 基于图神经网络的知识图谱对齐模型的训练方法
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN105335438A (zh) 一种基于局部最短回路的社会网络群体划分方法
WO2021027331A1 (zh) 基于图数据的全量关系计算方法、装置、设备及存储介质
CN102902742A (zh) 一种云环境下的空间数据划分方法
US20200104425A1 (en) Techniques for lossless and lossy large-scale graph summarization
CN104462095A (zh) 一种查询语句公共部分的提取方法及装置
CN107276807B (zh) 一种基于社区动态紧密度的层次化网络社区树剪枝方法
WO2021027745A1 (zh) 一种图重构方法及装置
CN111709102B (zh) 一种基于层次聚类的供水管网分区方法
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
CN103870342B (zh) 云计算环境中的基于结点属性函数的任务核值计算方法
Yang et al. A spiderweb model for community detection in dynamic networks
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
CN103425787A (zh) 一种渐进最优的三角网格重复顶点快速去除方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180518

Termination date: 20190722

CF01 Termination of patent right due to non-payment of annual fee