CN110232638A - 一种基于节点重要性与局部扩展的重叠社区发现方法 - Google Patents
一种基于节点重要性与局部扩展的重叠社区发现方法 Download PDFInfo
- Publication number
- CN110232638A CN110232638A CN201910521883.3A CN201910521883A CN110232638A CN 110232638 A CN110232638 A CN 110232638A CN 201910521883 A CN201910521883 A CN 201910521883A CN 110232638 A CN110232638 A CN 110232638A
- Authority
- CN
- China
- Prior art keywords
- node
- community
- importance
- similarity
- overlapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims description 16
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 235000005156 Brassica carinata Nutrition 0.000 description 1
- 244000257790 Brassica carinata Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种基于节点重要性与局部扩展优化的重叠社区识别方法,包括下列主要步骤:S1,首先通过改进的聚类系数方法得到社区网络的种子节点,根据聚类系数结果进行重要性排序,将满足阈值条件的节点作为核心节点;S2,选择完核心节点后,采取节点与社区的相似度办法选取其邻居节点组成初始核心社区;S3,然后利用自适应函数进行初始核心社区的局部扩充;S4,最后,对于自由节点和相似度较高的社区进行一个全局的社区优化,最终得到划分较好的重叠社区。S5,对划分的重叠社区进行模块度计算以评估社区划分的质量。本发明能在稀疏程度不同的网络上准确发现重叠节点和对应的重叠社区、算法的时间复杂度和空间复杂度较低以及有更高的划分质量。
Description
技术领域
本发明属于属于数据挖掘领域,特别是涉及一种基于节点重要性与局部扩展的重叠社区发现方法。
背景技术
复杂网络是现实世界中复杂系统的高度抽象,如生物系统中的新陈代谢网、蛋白质相互作用网,科技系统中的因特网、万维网,社会系统中的科学家协作网、电子邮件网等。除了小世界特性和无标度特性外,社区结构是复杂网络最重要的拓扑结构特征之一,已成为多学科交叉研究的热点早一。挖掘复杂网络的社区结构,对分析网络的拓扑结构、理解网络的功能及预测网络的行为等具有重要的理论意义和实用价值。
复杂网络中的社区结构通常表现为社区内的点连接紧密,而社区间的点连接稀疏,社区发现就是研究复杂网络结构的关键技术之一。目前,社区发现的研究成果可以被应用于网络舆情监控、个性化兴趣推荐、蛋白质功能预测等诸多领域。
社区发现技术不仅在学术界引起了广泛的关注,在工业界同样有着广泛地应用。比如,在标签系统中,往往都存在“歧义标签”,即一个标签可以表示多种语义,而使用社区发现技术能够定位歧义标签所处的语境,从而帮助系统正确地理解标签。在推荐系统中,社区发现能够帮助提高系统推荐的准确性以及应对推荐系统的冷启动问题。在社交网络中,社区发现技术能够有效地发现朋友圈。在信息网络中进行社区发现,能够帮助更好地理解信息的流向,在此基础之上便可以进行广告定向投放等商业活动。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于节点重要性与局部扩展的重叠社区发现方法。本发明的技术方案如下:
一种基于节点重要性与局部扩展的重叠社区发现方法,其包括以下步骤:
S1,首先通过改进的聚类系数方法得到社区网络的种子节点,改进的聚类系数方法改进主要在于结合了原有的聚类系数共和和Jaccard公式,根据改进的聚类系数结果进行重要性排序,将满足阈值条件的节点作为核心节点,该阈值范围设置在0到1之间,并根据模块度函数进行不断调整;
S2,选择完核心节点后,采用节点与社区的相似度公式选取邻居节点组成初始核心社区;
S3,然后利用自适应函数进行初始核心社区的局部扩展;
S4,最后,对于自由节点和相似度较高的社区进行一个全局的社区优化,最终得到划分较好的重叠社区;
S5,对划分的重叠社区进行模块度计算以评估社区划分的质量。
进一步的,所述步骤S1根据聚类系数结果进行重要性排序,将满足阈值条件的节点作为核心节点,具体包括以下步骤:
读取输入的没有加权无向图的数据,将无向图的数据转为邻接矩阵的方式存储起来,形成一个M×N的邻接矩阵,其中,1代表的是两个节点之间是有边直接相连的,0代表节点之间是无直接相连的,对每个节点进行标号处理,并将其放入改进的聚类系数公式中,计算每个节点在当前网络的重要性程度值Ik;将得出的重要性值IK存储在字典类型的数据中,表示为{“k”:Ik},并且通过进行排序工作,将重要性节点按标号进行排序,最后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
进一步的,所述步骤S1中社区核心节点的选取包括步骤:
(1)根据复杂网络数据构建无向图的邻接矩阵;
(2)改进的聚类系数公式来确定每个节点的重要性程度:
其中,i,j是节点k的邻居节点,eij表示节点i与节点k所连接的边表示,N(k),N(m)分别是k,m的邻居集合,d(k)为节点k的度数,Ik代表了节点k的重要性程度,如果节点的重要性越高其值越大;
(3)将计算出的每个节点k的重要性数值进行排序,并将其保存为字典的数据类型,字典是python的一种数据类型;
(4)然后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
进一步的,所述步骤S2中初始核心社区选取的方法包括步骤:
计算出核心社区节点,将其设置为初始社区的第一个节点,使用节点与社区的相似度公式,计算其周围邻居节点与核心节点的相似度,如果相似度满足所设置的阈值条件,就将该节点加入原先的初始社区;
其中,Skc(k,C)就是节点与社区的相似度值,Ns(C)是表示与社区C有直接连接边的节点集合,Skc(k,C)的值反映了节点与社区的相似程度。其值越大,表明该节点与社区的相似度越大。
进一步的,所述步骤S3中核心社区的局部扩展的方法包括步骤:
根据相似度公式来选取候选节点,如果候选节点加入社区后满足自适应函数的公式,则将节点加入该社区中,否则该节点为自由节点,每完成一轮节点
其中,CQ就是自适应函数的表示,Cin和Cout分别代表社区内部的度数总和与社区外部的度数总和,参数ɑ是一个正实数,用来控制社区发现的规模,CQ的值越大,说明社区内部节点之间的紧密的越高。
进一步的,所述步骤S4中社区优化的方法包括步骤:
在社区扩展过程中,网络中可能还会存在未属于任何社区的自由节点,而且社区集合中还会出现相似度高的社区,因此,需要对社区进行优化,即对自由节点进行节点相似度社区分配或让其独立形成一个社区,该过程结束后检测是否有社区与社区之间有较高的相似度,如果存在则将满足相似社区阈值的社区进行合并;
其中,Scc(Cm,Cn)表示社区m与社区n之间的相似度值表示,Scc(Cm,Cn)的值越大,说明社区Cm与社区Cn的相似度越大,如果满足设定的阈值范围就将其合并。
进一步的,所述步骤S5对划分的重叠社区进行模块度计算包括步骤:
对划分好的重叠社区OverC进行一个质量函数的评估,质量函数的评估公式是目前重叠社区划分作评估函数运用较普遍的函数,将社区的编号nc,社区的的邻接矩阵表达式Adj,节点的数目num,每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式,得出社区划分的质量数值,其值越高,说明划分的质量越高。
进一步的,对划分的社区进行模块度EQ计算,根据此数值的大小来判定重叠社区划分的质量,质量函数的评估公式EQ如下:
其中,m为网络中边的总数;c为划分得到的社区的数目;O为节点i所属的社区个数;ki为节点i的度;Aij用于判断节点i和节点j之间是否存在连接,若存在连接则Aij为1,否则为0。
本发明的优点及有益效果如下:
1.本发明将局部扩展的方法融入到社区发现的算法之中,一方面,算法在用影响力方式得到紧密的种子社区之后,对相似度较高的种子社区进行合并,从而提高了发现高质量的社区的能力。接着再利用相似度以及优化CQ函数扩展不同的种子社区,启发式的发现网络中的重叠节点,另一方面,与现有的基于局部扩展的代表性重叠社区发现算法相比,所提算法能在稀疏程度不同的网络上准确发现重叠节点和对应的重叠社区。
2.本章改进后的重叠社区发现算法主要分两个步骤:初始化,构建节点重要度集合NodeI,构建核心社区,该部分的时间复杂度是O(n);依据归属度对核心社区进行扩展,该部分的时间复杂度是O(cn),其中c是社区的分区数量。由于c的数量和n相比是微不足道的,因此,本章所提出来的社区划分算法;最终的时间复杂度为O(n2)。空间复杂度,使用NodeI集合存放了所有节点的重要度。该集合的大小为n,其中n是节点的数量。使用m个边构建成了网络图。因此,本章所提出来的算法最终的空间复杂度为:Space=0(max{m,n})=O(m)。
3.通过计算社区划分的EQ评估值,与其他算法相比较有更高的社区划分质量。
附图说明
图1是本发明提供优选实施例社区核心节点示意图;
图2为项目邻接矩阵示意图;
图3为项目初始核心社区示意图;
图4为局部扩展社区的示意图;
图5为社区优化后的示意图;
图6表示社区划分的质量函数结果示意图;
图7为本发明提供优选实施例的一种基于节点重要性与局部扩展的重叠社区发现方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
一种基于节点重要性与局部扩展的重叠社区发现方法,其包括以下步骤:
S1,读取输入的无向图的数据,这里用的是没有加权的无向图,将无向图的数据转为邻接矩阵的方式存储起来,形成一个M×N的邻接矩阵。其中,1代表的是两个节点之间是有边直接相连的,0代表节点之间是无直接相连的。对每个节点进行标号处理,并将其放入改进的聚类系数公式中,计算每个节点在当前网络的重要性程度值Ik;将得出的重要性值IK存储在字典类型的数据中,一般表示为{“k”:Ik},并且通过进行排序工作,将重要性节点按标号进行排序。最后然后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
S2,通过计算出核心种子节点,选取核心种子节点及其周围的邻居节点作为初始核心社区,通过计算节点与社区之间的相似度函数SKC来确定节点k能否加入该社区。相似度的程度是根据后期整个网络的模块度的大小来进行设置阈值,如果满足该阈值的要求,节点k就加入该社区。这样就完成了初始核心社区的建立。
S3,确定好初始核心社区Sseeds之后,根据节点与社区的相似度公式SKC来选取候选节点,如果候选节点加入社区后满足自适应函数公式CQ,则将节点加入该社区中,否则该节点为自由节点f。在此过程中,每完成一轮节点的加入之后,要重新计算节点的邻居节点集合,直到集合为空停止。
S4,在社区扩展过程完成之后,网络中可能还会存在未属于任何社区的自由节点f,而且社区集合中还会出现相似度高的社区SC。因此,需要对社区进行优化。将自由节点单独保存在一个数组F中,即对自由节点进行节点相似度社区分配或让其独立形成一个社区,该过程结束后检测是否有社区与社区之间有较高的相似度,如果存在则将满足相似社区阈值SCC大于某个值的社区进行合并,最后输出划分好的重叠社区及其对应的节点。
S5,对划分好的重叠社区OverC进行一个质量函数的评估,该公式是目前重叠社区划分作评估函数运用较普遍的函数。将社区的编号nc,社区的的邻接矩阵表达式Adj,节点的数目num,每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式,得出社区划分的质量数值,其值越高,说明划分的质量越高。
进一步的,所述步骤S1中社区核心节点的选取包括步骤:
(1)根据复杂网络数据构建无向图的邻接矩阵;
(2)改进的聚类系数公式来确定每个节点的重要性程度:
其中,i,j是节点k的邻居节点,N(k),N(m)分别是k,m的邻居集合,d(k)为节点k的度数。Ik代表了节点k的重要性程度,如果节点的重要性越高其值越大。
(3)将计算出的每个节点k的重要性数值进行排序,并将其保存为字典的数据类型。
(4)然后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
进一步的,所述步骤S2中初始核心社区选取的方法包括步骤:
计算出核心社区节点,将其设置为初始社区的第一个节点,使用节点与社区的相似度公式,计算其周围邻居节点与核心节点的相似度,如果相似度满足所设置的阈值条件,就将该节点加入原先的初始社区。
其中,Ns(C)是表示与社区C有直接连接边的节点集合,Skc(k,C)的值反映了节点与社区的相似程度。其值越大,表明该节点与社区的相似度越大。
进一步的,所述步骤S3中核心社区的局部扩展的方法包括步骤:
根据相似度公式来选取候选节点,如果候选节点加入社区后满足自适应函数的公式,则将节点加入该社区中,否则该节点为自由节点。
其中,Cin和Cout分别代表社区内部的度数总和与社区外部的度数总和,参数ɑ是一个正实数,用来控制社区发现的规模。CQ的值越大,说明社区内部节点之间的紧密的越高。
进一步的,所述步骤S4中社区优化的方法包括步骤:
在社区扩展过程中,网络中可能还会存在未属于任何社区的自由节点,而且社区集合中还会出现相似度高的社区。因此,需要对社区进行优化。即对自由节点进行节点相似度社区分配或让其独立形成一个社区,该过程结束后检测是否有社区与社区之间有较高的相似度,如果存在则将满足相似社区阈值的社区进行合并。
其中,Scc(Cm,Cn)的值越大,说明社区Cm与社区Cn的相似度越大,如果满足设定的阈值范围就将其合并。
进一步的,所述步骤S5中社区优化的方法包括步骤:
对划分的社区进行模块度EQ计算,根据此数值的大小来判定重叠社区划分的质量。
其中,m为网络中边的总数;c为划分得到的社区的数目;O为节点i所属的社区个数;ki为节点i的度;Aij用于判断节点i和节点j之间是否存在连接,若存在连接则Aij为1,否则为0。
优选的,本发明具体实施例为:一种基于节点重要性与局部扩展的重叠社区发现算法,包括以下步骤:
第一步,构建网络社区的核心节点。如图1所示,获取网络社区的节点,将社区的节点转化为邻接矩阵的表示形式,在本实施方式中使用karate数据集的输入,一共有34个节点,77条边,将其转化为34×34的邻接矩阵,如图2所示,然后根据改进的聚类系数,对每个编号为k的节点计算其重要性系数Ik,将计算出的每个节点k的重要性数值进行排序,并将其保存为字典的数据类型,其表示形式为{“k”:Ik}。
然后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
例如在本实施方式中编号为6的节点,其邻居数目为3,该节点的重要性比其周围2个节点的重要性大,值Ik=2/3,如果社区的阈值为0.5,则6号节点就会被推荐为核心节点。
第二步,构建初始核心社区。如图3所示,将构建好的核心节点存储在集合中,通过计算每个节点与其周围邻居节点的相似度。
在本实施方式中计算节点6号的相似度,根据划分好的核心节点组成的社区,分别计算其周围的直接相连的节点总数N1,再计算以6号节点为中心的其周围的邻居节点的总数N2。根据节点与社区的相似度公式,先计算两种N1与N2的交集,再计算N1与N2的并集,两者的比值就是6号节点相对于某个社区的相似度值。可以初始设置一个以0.5为大小的数值作为相似度的阈值,如果计算得出的相似度阈值大于这个阈值,就将6号节点放入对应的社区,如果不是,就舍弃,再看其与其他社区的相似度。整个过程遍历下来就组成了初始的核心社区。
第三步,局部扩展的社区发现方法。如图4所示,通过前两个步骤,得到初始社区后,再根据自适应函数来进行社区的扩展。
在本实施方式中,计算以[24,4,26,28,30,33,34]为初始社区的集合扩展,先计算该社区的邻居集合,将邻居节点存储起来,其计算结果为[1,3,8,14,17,18,20,22]],通过遍历每个节点与该社区的相似度,选出较高相似度的作为备选加入的节点并将其存为集合形式。再根据自适应函数公式来确定是否该节点可以加入或者舍去,如果将备选节点加入后CQ的值大于原来的数值,就将该节点k加入社区中,否则将其在邻居集合中舍去。一轮遍历完成之后,重新计算社区的邻居集合,在进行上述操作。可以得到结果为[6,7,11,17,5,12,1]的一个扩展社区。
第四步,社区优化的结果。如图5所示,在社区扩展过程中,网络中可能还会存在未属于任何社区的自由节点,而且社区集合中还会出现相似度高的社区。因此,需要对社区进行优化,即对自由节点进行社区分配或让其独立形成一个社区,然后合并相似度较高的社区。
在本实施方式中,优化主要分为两个步骤:第一步,计算节点与各个社区的相似度S,当S大于阈值ε时就把节点加入该社区,否则就让其形成一个单独社区;第二步,计算社区与社区之间的相似度S,当S大于阈值ε时,将社区进行合并。最后得到网络社区划分的结果
第五步,计算社区划分后的评估值。如图6所示,将划分好的社区,将社区的编号nc,社区的的邻接矩阵表达式Adj,节点的数目num,每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式,得出社区划分的质量数值,其值越高,说明划分的质量越高。
该基于节点重要性与局部扩展的重叠社区划分算法,不仅能较为准确的得到社区划分的结果;还能在较大数据集的情况下快速完成实验的结果。这为以后大数据社区网络情况下的社区划分提供了一种更加高效的选着方法。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,包括以下步骤:
S1,首先通过改进的聚类系数方法得到社区网络的种子节点,改进的聚类系数方法改进主要在于结合了原有的聚类系数共和和Jaccard公式,根据改进的聚类系数结果进行重要性排序,将满足阈值条件的节点作为核心节点,该阈值范围设置在0到1之间,并根据模块度函数进行不断调整;
S2,选择完核心节点后,采用节点与社区的相似度公式选取邻居节点组成初始核心社区;
S3,然后利用自适应函数进行初始核心社区的局部扩展;
S4,最后,对于自由节点和相似度较高的社区进行一个全局的社区优化,最终得到划分较好的重叠社区;
S5,对划分的重叠社区进行模块度计算以评估社区划分的质量。
2.根据权利要求1所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,所述步骤S1根据聚类系数结果进行重要性排序,将满足阈值条件的节点作为核心节点,具体包括以下步骤:
读取输入的没有加权无向图的数据,将无向图的数据转为邻接矩阵的方式存储起来,形成一个M×N的邻接矩阵,其中,1代表的是两个节点之间是有边直接相连的,0代表节点之间是无直接相连的,对每个节点进行标号处理,并将其放入改进的聚类系数公式中,计算每个节点在当前网络的重要性程度值Ik;将得出的重要性值IK存储在字典类型的数据中,表示为{“k”:Ik},并且通过进行排序工作,将重要性节点按标号进行排序,最后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
3.根据权利要求2所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,所述步骤S1中社区核心节点的选取包括步骤:
(1)根据复杂网络数据构建无向图的邻接矩阵;
(2)改进的聚类系数公式来确定每个节点的重要性程度:
其中,i,j是节点k的邻居节点,eij表示节点i与节点k所连接的边表示,N(k),N(m)分别是k,m的邻居集合,d(k)为节点k的度数,Ik代表了节点k的重要性程度,如果节点的重要性越高其值越大;
(3)将计算出的每个节点k的重要性数值进行排序,并将其保存为字典的数据类型,字典是python的一种数据类型;
(4)然后统计每个节点k的重要性值Ik大于其邻居节点重要性值的个数num1,若num1与节点k邻居节点个数num2的比值大于阈值ρ,则将节点k定义为核心种子节点。
4.根据权利要求3所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,所述步骤S2中初始核心社区选取的方法包括步骤:
计算出核心社区节点,将其设置为初始社区的第一个节点,使用节点与社区的相似度公式,计算其周围邻居节点与核心节点的相似度,如果相似度满足所设置的阈值条件,就将该节点加入原先的初始社区;
其中,Skc(k,C)就是节点与社区的相似度值,Ns(C)是表示与社区C有直接连接边的节点集合,Skc(k,C)的值反映了节点与社区的相似程度。其值越大,表明该节点与社区的相似度越大。
5.根据权利要求4所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,所述步骤S3中核心社区的局部扩展的方法包括步骤:
根据相似度公式来选取候选节点,如果候选节点加入社区后满足自适应函数的公式,则将节点加入该社区中,否则该节点为自由节点,每完成一轮节点的加入之后,要重新计算节点的邻居节点集合,直到集合为空停止;
其中,CQ就是自适应函数的表示,Cin和Cout分别代表社区内部的度数总和与社区外部的度数总和,参数ɑ是一个正实数,用来控制社区发现的规模,CQ的值越大,说明社区内部节点之间的紧密的越高。
6.根据权利要求5所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,所述步骤S4中社区优化的方法包括步骤:
在社区扩展过程中,网络中可能还会存在未属于任何社区的自由节点,而且社区集合中还会出现相似度高的社区,因此,需要对社区进行优化,即对自由节点进行节点相似度社区分配或让其独立形成一个社区,该过程结束后检测是否有社区与社区之间有较高的相似度,如果存在则将满足相似社区阈值的社区进行合并;
其中,Scc(Cm,Cn)表示社区m与社区n之间的相似度值表示,Scc(Cm,Cn)的值越大,说明社区Cm与社区Cn的相似度越大,如果满足设定的阈值范围就将其合并。
7.根据权利要求6所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,所述步骤S5对划分的重叠社区进行模块度计算包括步骤:
对划分好的重叠社区OverC进行一个质量函数的评估,质量函数的评估公式是目前重叠社区划分作评估函数运用较普遍的函数,将社区的编号nc,社区的的邻接矩阵表达式Adj,节点的数目num,每个几点的度degree以及每个节点所属的社区个数t带入EQ计算表达式,得出社区划分的质量数值,其值越高,说明划分的质量越高。
8.根据权利要求7所述的一种基于节点重要性与局部扩展的重叠社区发现方法,其特征在于,对划分的社区进行模块度EQ计算,根据此数值的大小来判定重叠社区划分的质量,质量函数的评估公式EQ如下:
其中,m为网络中边的总数;c为划分得到的社区的数目;O为节点i所属的社区个数;ki为节点i的度;Aij用于判断节点i和节点j之间是否存在连接,若存在连接则Aij为1,否则为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521883.3A CN110232638A (zh) | 2019-06-17 | 2019-06-17 | 一种基于节点重要性与局部扩展的重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521883.3A CN110232638A (zh) | 2019-06-17 | 2019-06-17 | 一种基于节点重要性与局部扩展的重叠社区发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232638A true CN110232638A (zh) | 2019-09-13 |
Family
ID=67860047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910521883.3A Pending CN110232638A (zh) | 2019-06-17 | 2019-06-17 | 一种基于节点重要性与局部扩展的重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232638A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506620A (zh) * | 2020-03-31 | 2020-08-07 | 上海氪信信息技术有限公司 | 局部社区的挖掘与合并方法及其装置、芯片、存储介质 |
CN112214684A (zh) * | 2020-09-24 | 2021-01-12 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
CN112291827A (zh) * | 2020-10-29 | 2021-01-29 | 王程 | 社会属性驱动的容迟网络路由改良算法 |
CN114329099A (zh) * | 2021-11-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 重叠社区识别方法、装置、设备、存储介质及程序产品 |
CN114357311A (zh) * | 2022-01-12 | 2022-04-15 | 东北大学 | 一种基于社区发现与聚类优化的力导向图布局方法 |
CN114461923A (zh) * | 2022-01-19 | 2022-05-10 | 北京百度网讯科技有限公司 | 社群发现方法、装置、电子设备和存储介质 |
CN117933762A (zh) * | 2024-03-22 | 2024-04-26 | 西安道法数器信息科技有限公司 | 基于能源互联网营销服务系统的数据采集方法 |
-
2019
- 2019-06-17 CN CN201910521883.3A patent/CN110232638A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506620A (zh) * | 2020-03-31 | 2020-08-07 | 上海氪信信息技术有限公司 | 局部社区的挖掘与合并方法及其装置、芯片、存储介质 |
CN111506620B (zh) * | 2020-03-31 | 2023-04-25 | 上海氪信信息技术有限公司 | 局部社区的挖掘与合并方法及其装置、芯片、存储介质 |
CN112214684A (zh) * | 2020-09-24 | 2021-01-12 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
CN112214684B (zh) * | 2020-09-24 | 2024-01-26 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
CN112291827A (zh) * | 2020-10-29 | 2021-01-29 | 王程 | 社会属性驱动的容迟网络路由改良算法 |
CN114329099A (zh) * | 2021-11-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 重叠社区识别方法、装置、设备、存储介质及程序产品 |
CN114357311A (zh) * | 2022-01-12 | 2022-04-15 | 东北大学 | 一种基于社区发现与聚类优化的力导向图布局方法 |
CN114461923A (zh) * | 2022-01-19 | 2022-05-10 | 北京百度网讯科技有限公司 | 社群发现方法、装置、电子设备和存储介质 |
CN114461923B (zh) * | 2022-01-19 | 2024-02-27 | 北京百度网讯科技有限公司 | 社群发现方法、装置、电子设备和存储介质 |
US12038989B2 (en) | 2022-01-19 | 2024-07-16 | Beijing Baidu Netcom Science Technology Co., Ltd. | Methods for community search, method for training community search model, and electronic device |
CN117933762A (zh) * | 2024-03-22 | 2024-04-26 | 西安道法数器信息科技有限公司 | 基于能源互联网营销服务系统的数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232638A (zh) | 一种基于节点重要性与局部扩展的重叠社区发现方法 | |
CN111444395B (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
CN107330115B (zh) | 一种信息推荐方法及装置 | |
CN111444394B (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
CN106326585B (zh) | 基于贝叶斯网络推理的预测分析方法以及装置 | |
CN105991397B (zh) | 信息传播方法和装置 | |
Lu et al. | GLR: A graph-based latent representation model for successive POI recommendation | |
Li et al. | Social influence based community detection in event-based social networks | |
Grošelj et al. | Evaluation of several approaches for deriving weights in fuzzy group analytic hierarchy process | |
CN109921921B (zh) | 一种时变网络中时效稳定社团的检测方法和装置 | |
CN108829761A (zh) | 一种兴趣点推荐方法、系统、介质及设备 | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及系统 | |
US20170236226A1 (en) | Computerized systems, processes, and user interfaces for globalized score for a set of real-estate assets | |
Wu et al. | Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis | |
Sivaramakrishnan et al. | An effective user clustering-based collaborative filtering recommender system with grey wolf optimisation | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN110119478A (zh) | 一种结合多种用户反馈数据的基于相似度的物品推荐方法 | |
Doan et al. | Mining business competitiveness from user visitation data | |
CN108984551A (zh) | 一种基于多类别联合软聚类的推荐方法及系统 | |
Huang et al. | Community detection algorithm for social network based on node intimacy and graph embedding model | |
CN111768223A (zh) | 一种基于联合学习模型的展示广告点击率预测方法 | |
CN110633890A (zh) | 一种土地利用效率判断方法和系统 | |
CN115730248A (zh) | 一种机器账号检测方法、系统、设备及存储介质 | |
Chandusha et al. | An empirical study on community detection algorithms | |
Chen et al. | KGCF: Social relationship-aware graph collaborative filtering for recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190913 |
|
RJ01 | Rejection of invention patent application after publication |