CN117808616A - 一种基于图嵌入和节点亲密度的社区发现方法及系统 - Google Patents
一种基于图嵌入和节点亲密度的社区发现方法及系统 Download PDFInfo
- Publication number
- CN117808616A CN117808616A CN202410222037.2A CN202410222037A CN117808616A CN 117808616 A CN117808616 A CN 117808616A CN 202410222037 A CN202410222037 A CN 202410222037A CN 117808616 A CN117808616 A CN 117808616A
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- community
- samples
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 235000013162 Cocos nucifera Nutrition 0.000 description 1
- 244000060011 Cocos nucifera Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图嵌入和节点亲密度的社区发现方法及系统,涉及网络科学计算领域。该方法包括基于社交网络中的节点样本集、社交网络中两节点之间相交边、以及相交边的权重构建的图数据网络;相交边的权重为无向图中两节点度值的乘积;采用图嵌入方法,将图数据网络转化为欧式空间中d维向量表征的嵌入数据点;欧式空间通过训练好的图嵌入模型得到各节点的向量;基于同一社区两节点的共有邻居节点数量计算相似度;根据间的相似度和向量计算亲密度;找出每个社区中最大亲密度的两节点;利用聚类算法基于亲密度将各节点进行迭代划分;利用向量获取对应簇的社交网络数据。本发明能够使节点表示真实准确,提高社区检测的准确性。
Description
技术领域
本发明涉及网络科学计算领域,具体涉及一种基于图嵌入和节点亲密度的社区发现方法及系统。
背景技术
近年来,随着电子通信技术、社交媒体等新技术的快速发展,大量社交媒体网络平台应运而生,为人们提供了多样化的虚拟交互环境和丰富的信息资源,产生了复杂多样的网络大数据。这些网络数据具有规模大、内容标签丰富、信息异构等特点。社交网络(socialnetwork)改变了人们生产、传播和使用信息的方式。与此同时,社交网络中的用户规模和产生的信息量也在快速增长。网络社区结构尤其显示了网络的基本功能组成部分,在网络中至关重要。因此,社区发现在社交网络分析和行为数据挖掘中具有巨大的价值。这一特性使社区能够开发出更好的方法来分析复杂的社交网络,并提取有用的信息,用于文本分析、个性推荐系统、用户识别、流行病传播和行为预测等多个领域。
在过去人们提出了许多检测社群的方法。大量研究人员将图论理论和方法用于关联结构检测,主要包括 (1) 图分割方法,如 GN(Girvan-Newman)算法;(2) 模块化优化方法,如 Fast Newman、FN 算法、Luovain 算法、Simulated。 (3) 标签传播方法,如标签传播算法(Label Propagation Algorithm,LPA)、基于 hubs 的算法、Copra 算法等;(4) 动态方法,如寻找和提取社群(Finding And Extracting Communities,FEC)等。ExtractingCommunities(FEC)算法、Infomap算法、RN(Ronhovide-Nussinov)算法等。除网络拓扑结构外,网络节点通常还与一组内容(尤其是节点属性)相关联。节点内容可以捕捉到有关社区性质的深入知识,与结构信息是正交和互补的。因此,网络的拓扑结构和网络中节点的属性都有助于提高社群检测的性能。启发式优化(多目标)、非负矩阵因式分解(NMF)、图嵌入和基于深度学习的方法(例如,基于图卷积、生成对抗和自动编码器的方法)都是流行的方法。
但是,这些方法并没有充分考虑节点相似性和结构相似性,而这两者可能会提供一些丰富的网络信息。近年来,一些学者开始考虑将网络节点的属性信息纳入关联发现。Steinhaeuser等人提出了一种用于边缘加权的节点属性相似性(NAS)方法,然后将其与传统的随机游走方法相结合。Kewalramani提出利用多个属性的相似性和传统聚类方法发现Twitter关联。这些方法在一定程度上提高了社群发现的准确性和效率。然而,仍然存在一些问题。首先,在社交网络中,存在大量无权无向网络,节点间的边权重值是反映节点间视线关系的指标之一。换句话说,社区结构信息与主题群内容信息相对应。其次,在真实的用户社交网络中,同一组节点可能属于不同的社区。例如,一些用户(Twitter、Facebook等)可能会在体育话题社区和音乐话题社区发布相应的内容。第三,现有技术将拓扑结构和节点内容分开,因此很难平衡两者对社区检测的影响。
针对上述问题,目前需要一种社区发现方法,能够使节点在低维空间的表示真实准确,并且提高社区检测的准确性。
发明内容
本发明所要解决的技术问题是在社交网络中存在的大量无权无向网络,不同社区的同一组节点,以及拓扑结构和节点内容的两者关系,使得节点描述不准确造成社区检测的影响;目的在于提供一种基于图嵌入和节点亲密度的社区发现方法及系统,通过图数据对每个节点的社区属性进行社区检测,能够在无向、无权重社交网络中计算权重的方法,增加网络节点间的信息含量,解决了社区检测效果不好的问题。
本发明通过下述技术方案实现:
一种基于图嵌入和节点亲密度的社区发现方法,包括:获取基于社交网络中的节点样本集、社交网络中两节点样本之间相交边、以及相交边的权重构建的图数据网络;其中,相交边的权重为无向图中两节点样本度值的乘积;采用图嵌入方法,将上述图数据网络转化为欧式空间中d维向量表征的嵌入数据点;上述图数据网络转化后,通过训练好的图嵌入模型得到各节点样本的节点嵌入向量;基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度;根据两节点样本间的相似度和上述节点嵌入向量计算亲密度;找出每个社区中最大亲密度的两节点样本;每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于上述亲密度将各节点进行迭代划分,得到不同簇集的节点;利用聚类后的上述节点嵌入向量获取对应聚类簇的社交网络的数据。
上述获取基于社交网络中的节点样本集、社交网络中两节点样本之间的相交边、以及相交边的权重构建的图数据网络,其中,上述相交边的权重通过相交边的权重矩阵计算,包括:构建相交边的权重矩阵,提出权重矩阵算法计算无向图中两节点样本的乘积,得到相交边的权重。
上述提出权重矩阵算法计算无向图中两节点样本的乘积,包括:初始化无向图,设置权重初始值;计算取得每个节点样本的编号和相应的度值;获取每条相交边,计算节点的度并对图中每条边进行权重赋值。
上述基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度,包括:利用基于社交网络中同一社区的两节点样本的共有邻居节点数量,在两节点样本的所有邻居节点数量中的占比,计算两节点样本间的相似度。
上述利用基于社交网络中同一社区的两节点样本的共有邻居节点数量,在两节点样本的所有邻居节点数量中的占比,计算两节点样本间的相似度,表示为:
;
式中,,代表社交网络中同一社区的两节点样本;代表节点样本的邻居
节点,代表节点样本的邻居节点,代表节点样本,间的相似度。
上述每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于上述亲密度将各节点进行迭代划分,采用模糊C均值聚类算法基于上述亲密度将各节点进行迭代划分,包括:定义聚类簇的个数,并随机选取k个初始簇中心点;计算各节点样本与k个簇中心点的隶属度,把各节点样本划分到隶属度最大的簇中心所在的簇中;重复更新聚类簇中心点,计算各节点样本与k个簇中心点的隶属度,把各节点样本划分到隶属度最大的簇中心所在的簇中的步骤,直至完成迭代划分。
上述完成迭代划分的判断依据为:达到最大迭代次数或节点与簇中心的距离不再发生改变;
上述节点与簇中心的距离不再发生改变,包括:
各节点样本属于一个或多个簇集,定义一个隶属度来衡量各节点样本属于每个聚类簇的程度,隶属度的大小范围为[0,1],所有节点样本集的隶属度满足和为1,表示为:
;
式中,代表节点样本/>与第/>个簇中心的隶属度;
定义非相似性指标的目标函数:
;
式中,代表节点样本/>到第/>个簇中心的目标欧式距离;/>代表第/>个节点样本;/>代表第/>个簇中心;/>为模糊系数;
当达到预设目标阈值时,代表节点与簇中心的距离不再发生改变。
上述更新聚类簇中心点,上述聚类簇中心点的计算公式为:
;
式中,代表第/>个簇中心;/>为模糊系数;/>为所述节点样本集的节点样本数量;/>代表节点样本/>与/>的隶属度矩阵;/>代表第/>个节点样本。
上述计算各节点样本与k个簇中心点的隶属度,表示为:
;
式中,代表节点样本与第个簇中心的隶属度;代表节点样本的初始簇
中心点;代表节点样本的第k个簇中心。
一种基于图嵌入和节点亲密度的社区发现系统,包括:图数据构建模块:用于获取基于社交网络中的节点样本集、社交网络中两节点样本之间相交边、以及相交边的权重构建的图数据网络;其中,相交边的权重为无向图中两节点样本度值的乘积;图数据转换模块:用于采用图嵌入方法,将上述图数据网络转化为欧式空间中d维向量表征的嵌入数据点;嵌入向量模块:用于上述图数据网络转化后,通过训练好的图嵌入模型得到各节点样本的节点嵌入向量;节点相似计算模块:用于基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度;亲密度计算模块:用于根据两节点样本间的相似度和上述节点嵌入向量计算亲密度;找出每个社区中最大亲密度的两节点样本;节点聚类模块:用于每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于上述亲密度将各节点进行迭代划分,得到不同簇集的节点;社交获取模块:用于利用聚类后的上述节点嵌入向量获取对应聚类簇的社交网络的数据。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明采用了图嵌入模型与权重矩阵相结合,并对图网络进行低维向量表示,然后使用改进后的聚类算法实现社区发现。本发明提出了计算无向无权网络权重的算法,增加了网络节点间的信息含量,使节点在低维空间的表示真实准确;然后将权重矩阵引入图嵌入模型,并根据权重信息和网络结构学习社交网络的表示,得到每个节点的低维向量表示。通过计算低维网络向量中节点的亲密度,找出包含两个亲密度较高的节点,并计算它们的聚类中心。最后,根据聚类中心,在真实数据集网络或人工网络中实现社区划分,取得良好的效果。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为实施例1一种基于图嵌入和节点亲密度的社区发现方法的流程图;
图2为实施例2一种基于图嵌入和节点亲密度的社区发现系统的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本申请实施例提供一种基于图嵌入和节点亲密度的社区发现方法,包括:获取基于社交网络中的节点样本集、社交网络中两节点样本之间相交边、以及相交边的权重构建的图数据网络;其中,相交边的权重为无向图中两节点样本度值的乘积;采用图嵌入方法,将上述图数据网络转化为欧式空间中d维向量表征的嵌入数据点;上述图数据网络转化后,通过训练好的图嵌入模型得到各节点样本的节点嵌入向量;基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度;根据两节点样本间的相似度和上述节点嵌入向量计算亲密度;找出每个社区中最大亲密度的两节点样本;每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于上述亲密度将各节点进行迭代划分,得到不同簇集的节点;利用聚类后的上述节点嵌入向量获取对应聚类簇的社交网络的数据。
上述获取基于社交网络中的节点样本集、社交网络中两节点样本之间的相交边、以及相交边的权重构建的图数据网络,其中,上述相交边的权重通过相交边的权重矩阵计算,包括:构建相交边的权重矩阵,提出权重矩阵算法计算无向图中两节点样本的乘积,得到相交边的权重。
上述提出权重矩阵算法计算无向图中两节点样本的乘积,包括:初始化无向图,设置权重初始值;计算取得每个节点样本的编号和相应的度值;获取每条相交边,计算节点的度并对图中每条边进行权重赋值。
上述基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度,包括:利用基于社交网络中同一社区的两节点样本的共有邻居节点数量,在两节点样本的所有邻居节点数量中的占比,计算两节点样本间的相似度。
上述利用基于社交网络中同一社区的两节点样本的共有邻居节点数量,在两节点样本的所有邻居节点数量中的占比,计算两节点样本间的相似度,表示为:
;
式中,,代表社交网络中同一社区的两节点样本;代表节点样本的邻居
节点,代表节点样本的邻居节点,代表节点样本,间的相似度。
上述每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于上述亲密度将各节点进行迭代划分,采用模糊C均值聚类算法基于上述亲密度将各节点进行迭代划分,包括:定义聚类簇的个数,并随机选取k个初始簇中心点;计算各节点样本与k个簇中心点的隶属度,把各节点样本划分到隶属度最大的簇中心所在的簇中;重复更新聚类簇中心点,计算各节点样本与k个簇中心点的隶属度,把各节点样本划分到隶属度最大的簇中心所在的簇中的步骤,直至完成迭代划分。
上述完成迭代划分的判断依据为:达到最大迭代次数或节点与簇中心的距离不再发生改变;
上述节点与簇中心的距离不再发生改变,包括:
各节点样本属于一个或多个簇集,定义一个隶属度来衡量各节点样本属于每个聚类簇的程度,隶属度的大小范围为[0,1],所有节点样本集的隶属度满足和为1,表示为:
;
式中,代表节点样本/>与第/>个簇中心的隶属度;
定义非相似性指标的目标函数:
;
式中,代表节点样本/>到第/>个簇中心的目标欧式距离;/>代表第/>个节点样本;/>代表第/>个簇中心;/>为模糊系数;
当达到预设目标阈值时,代表节点与簇中心的距离不再发生改变。
上述更新聚类簇中心点,上述聚类簇中心点的计算公式为:
;
式中,代表第/>个簇中心;/>为模糊系数;/>为所述节点样本集的节点样本数量;/>代表节点样本/>与/>的隶属度矩阵;/>代表第/>个节点样本。
上述计算各节点样本与k个簇中心点的隶属度,表示为:
;
式中,代表节点样本与第个簇中心的隶属度;代表节点样本的初始簇
中心点;代表节点样本的第k个簇中心。
应用时,搜寻或者构建图数据网络,表示为:G=(V, E, W);其中,V表示节点的集合,E表示网络中两个节点间相交的边,可以表示用户间交流的方式。W表示网络中边的权重,用来表示边两端的节点之间相互关系的强弱,值的大小可以体现两节点间一定的亲密程度,值越大可表示用户间互动交流越强。
首先,构建权重W矩阵,并初始化为1,其次,提出权重矩阵计算算法计算社交网络中节点间边的权重,具体算法如下所示:
Input: Graph: G=(VE)
Onput: Degree Weighted: W
Initialization: G = (VE) W <- 0
2Function: GetEdgeWeights
degree <- GET DEGREE LIST OF G
for i from 1 to edges do
w<- edge to list
APPEND w to edgelist
end for
for j from 1 to edgelist do
edge[0] <- degree[edge[0]][1]
edge[1] <- degreeledge[1]][1]
end for
forkfrom 1 to edgelist
W <- 0
if weight[1] > weight[0]
w <- weight[0]
else
w <- weight[1]
APPEND w to weightslist
end for
w <- weightslist
return W
上述算法是利用无向图中两节点度乘积的计算方法为网络的边赋予权重,从而使得社交网络在实际情况下进行社区划分,得到确切真实的划分数据。我们提出的算法是输入图结构在经过计算后输出每条边的权重值。具体流程为:初始化图,设置权重W初始值0(Lines1)。在计算权重函数中(Lines2),首先计算取得每个节点的编号和相应的度值,存储在列表中(Lines3)。接着获取每条边,并生成边列表,计算节点的度(Lines4-7)并对图中每条边进行赋值(Lines8-11),最后生成每条边对应的权重列表完成算法的流程。(Lines12-20)。
图嵌入方法可以采用Node2vec图嵌入模型,dimensions尺寸维度设定为40,num_walks随机游走最大长度为20,每个节点作为起始节点生成的随机游走序列个数num_walks为8。可选地,图网络的网络节点返回参数p设置为20,进出参数q设置为8。将包含权重的N个节点图数据网络G=(V,E,W)转化为欧式空间中N个d维向量表征的embeddings嵌入数据点。
对Node2vec模型进行训练,其中参数部分,窗口参数windows设置为10(参数大小可以根据网络大小进行调节),出现次数低于此阈值的节点(词)min_count设置为2,每个线程处理的数据量batch_words设置为4。在设置好参数后,经过训练,得到embeddings嵌入向量。
在社交网络中,处在同一社区的两个节点会比处于不同社区的两个节点拥有更多
相同的邻居节点,所以节点的亲密程度是从两个节点的共同朋友的相似度来考虑的。假设:表示节点的邻居节点,表示节点的邻居节点,表示节点间的相似度,计
算节点间的相似度公式为:
(1),又称为Jaccard公式。从公式(1)可以看出,两个节点间共有朋友的数量在它们所有朋友占用的比例越高,则他们的亲密度越大,相似性越强。所以,根据公式 (1) 和节点表征向量计算在每个初始划分区域中互为邻居节点的亲密度,并计算找出每个区域的最大亲密度节点。
模糊C均值聚类算法(Fuzzy C-Means,FCM)算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。相比K-means的硬聚类确定分明的划分,数据集中的样本只能隶属于其中的一个簇集,且每个样本对象只有 0 和 1 两种状态,若样本没有被划分到该簇集中用0 表示,若样本完全属于该簇集则用 1表示。FCM聚类则柔和很多,算法隶属度取值在[0,1]之。对于现实生活社交网络的重叠多属性用户社区(即一个用户属于两个不用类型的社区),FCM聚类可以明显和精确地划分重叠社区的情况。
FCM算法的基本思想是:在聚类之前人为的指定类簇的个数k,并随机的选取k个初始簇中心点。将样本集中的其他对象根据一定相似性度量函数计算与k个簇中心点的隶属度,把对象划分到隶属度最大的簇中心所在的簇中。然后更新其新生成的类簇中心点,不断地迭代,直至达到最大迭代次数或初始簇中心不再发生改变。此时,划分到相同簇集内的样本点之间彼此相似,而不同簇集的样本点之间彼此相异。
其中,判定不同簇集的非相似性指标的目标函数,定义为:
(2);
其中,为模糊系数,/>代表第/>个簇中心,/>代表/>到/>距离。在FCM算法中,样本能够同时属于多个簇集,并且有不同的隶属程度。定义一个隶属度来衡量样本属于每个类簇的程度,隶属度的大小在[0,1]之间取值, 并且样本集的隶属度满足和为1,即隶属度满足以下条件:
(3)。
利用隶属度权重评价距离簇中心的值,从而得到合适的迭代次数,获得相应节点聚类结果。聚类中心和隶属度是影响到聚类准确性的重要指标,公式(1)中,节点亲密度对模糊聚类中隶属度的确定,有效确定了节点在社区中的隶属度,提高聚类的准确性。
其中,将每个计算好的聚类簇的中心点作为Fuzzy C-Means算法(FCM)的聚类中心,将聚类簇的个数作为FCM算法的聚类数,然后设定算法迭代的次数对数据进行聚类操作。如果在有明确聚类结果的标签时,n_clusters聚类数目可以明确设定,max_iter最大迭代轮次可以根据数据复杂度进行设定。
在聚类后的向量对应社交网络的数据,得到社区发现的结果,并输出划分结果图和带有社区标签的数据。最后,可以通过模块度(Q值)、互信息(NMI值)、调整互信息(ARI值)对算法进行评价,从而得知算法对网络划分的准确度。
实施例2
如图2所示,本申请实施例提供一种基于图嵌入和节点亲密度的社区发现系统,包括:图数据构建模块:用于获取基于社交网络中的节点样本集、社交网络中两节点样本之间相交边、以及相交边的权重构建的图数据网络;其中,相交边的权重为无向图中两节点样本度值的乘积;图数据转换模块:用于采用图嵌入方法,将上述图数据网络转化为欧式空间中d维向量表征的嵌入数据点;嵌入向量模块:用于上述图数据网络转化后,通过训练好的图嵌入模型得到各节点样本的节点嵌入向量;节点相似计算模块:用于基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度;亲密度计算模块:用于根据两节点样本间的相似度和上述节点嵌入向量计算亲密度;找出每个社区中最大亲密度的两节点样本;节点聚类模块:用于每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于上述亲密度将各节点进行迭代划分,得到不同簇集的节点;社交获取模块:用于利用聚类后的上述节点嵌入向量获取对应聚类簇的社交网络的数据。
综上,本申请实施例提供一种基于图嵌入和节点亲密度的社区发现方法及系统:
(1)本申请实施例提出了一种在无向、无权重社交网络中计算权重的方法,它不仅代表了真实网络中两点之间的连接关系,反映了网络连接内容的信息,而且解决了Node2vec算法中权重默认值的问题。
(2)本申请实施例提出了一种高效的社区检测算法Node2vecWeight-FCM(NWFCM),它将图嵌入与权重矩阵相结合,提高了社区检测的准确性,增强了现实中社会网络探索的广度。
(3)本申请实施例在不同类型的合成网络和现实网络上对所提出的Node2vecWeight-FCM(NWFCM算法的有效性进行了实证评估。
以上具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,包括:
获取基于社交网络中的节点样本集、社交网络中两节点样本之间相交边、以及相交边的权重构建的图数据网络;其中,相交边的权重为无向图中两节点样本度值的乘积;
采用图嵌入方法,将所述图数据网络转化为欧式空间中d维向量表征的嵌入数据点;
所述图数据网络转化后,通过训练好的图嵌入模型得到各节点样本的节点嵌入向量;
基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度;
根据两节点样本间的相似度和所述节点嵌入向量计算亲密度;找出每个社区中最大亲密度的两节点样本;
每个社区中最大亲密度的两节点样本作为每个簇的聚类中心点,每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于所述亲密度将各节点进行迭代划分,得到不同簇集的节点;
利用聚类后的所述节点嵌入向量获取对应聚类簇的社交网络的数据。
2.根据权利要求1所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述获取基于社交网络中的节点样本集、社交网络中两节点样本之间的相交边、以及相交边的权重构建的图数据网络,其中,所述相交边的权重通过相交边的权重矩阵计算,包括:构建相交边的权重矩阵,提出权重矩阵算法计算无向图中两节点样本的乘积,得到相交边的权重。
3.根据权利要求2所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述提出权重矩阵算法计算无向图中两节点样本的乘积,包括:初始化无向图,设置权重初始值;计算取得每个节点样本的编号和相应的度值;获取每条相交边,计算节点的度并对图中每条边进行权重赋值。
4.根据权利要求1所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度,包括:利用基于社交网络中同一社区的两节点样本的共有邻居节点数量,在两节点样本的所有邻居节点数量中的占比,计算两节点样本间的相似度。
5.根据权利要求4所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述利用基于社交网络中同一社区的两节点样本的共有邻居节点数量,在两节点样本的所有邻居节点数量中的占比,计算两节点样本间的相似度,表示为:
;
式中,,/>代表社交网络中同一社区的两节点样本;/>代表节点样本/>的邻居节点,代表节点样本/>的邻居节点,/>代表节点样本/>,/>间的相似度。
6.根据权利要求1所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于所述亲密度将各节点进行迭代划分,采用模糊C均值聚类算法基于所述亲密度将各节点进行迭代划分,包括:定义聚类簇的个数,并随机选取k个初始簇中心点;计算各节点样本与k个簇中心点的隶属度,把各节点样本划分到隶属度最大的簇中心所在的簇中;重复更新聚类簇中心点,计算各节点样本与k个簇中心点的隶属度,把各节点样本划分到隶属度最大的簇中心所在的簇中的步骤,直至完成迭代划分。
7.根据权利要求6所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述完成迭代划分的判断依据为:达到最大迭代次数或节点与簇中心的距离不再发生改变;
所述节点与簇中心的距离不再发生改变,包括:
各节点样本属于一个或多个簇集,定义一个隶属度来衡量各节点样本属于每个聚类簇的程度,隶属度的大小范围为[0,1],所有节点样本集的隶属度满足和为1,表示为:
;
式中,代表节点样本/>与第/>个簇中心的隶属度;
定义非相似性指标的目标函数:
;
式中,代表节点样本/>到第/>个簇中心的目标欧式距离;/>代表第/>个节点样本;代表第/>个簇中心;/>为模糊系数;
当达到预设目标阈值时,代表节点与簇中心的距离不再发生改变。
8.根据权利要求6所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述更新聚类簇中心点,所述聚类簇中心点的计算公式为:
;
式中,代表第/>个簇中心;/>为模糊系数;/>为所述节点样本集的节点样本数量;代表节点样本/>与/>的隶属度矩阵;/>代表第/>个节点样本。
9.根据权利要求6所述的一种基于图嵌入和节点亲密度的社区发现方法,其特征在于,所述计算各节点样本与k个簇中心点的隶属度,表示为:
;
式中,代表节点样本/>与第/>个簇中心的隶属度;/>代表节点样本/>的初始簇中心点;/>代表节点样本/>的第k个簇中心。
10.一种基于图嵌入和节点亲密度的社区发现系统,其特征在于,包括:
图数据构建模块:用于获取基于社交网络中的节点样本集、社交网络中两节点样本之间相交边、以及相交边的权重构建的图数据网络;其中,相交边的权重为无向图中两节点样本度值的乘积;
图数据转换模块:用于采用图嵌入方法,将所述图数据网络转化为欧式空间中d维向量表征的嵌入数据点;
嵌入向量模块:用于所述图数据网络转化后,通过训练好的图嵌入模型得到各节点样本的节点嵌入向量;
节点相似计算模块:用于基于社交网络中同一社区的两节点样本的共有邻居节点数量计算两节点样本间的相似度;
亲密度计算模块:用于根据两节点样本间的相似度和所述节点嵌入向量计算亲密度;找出每个社区中最大亲密度的两节点样本;
节点聚类模块:用于每个社区中最大亲密度的两节点样本作为每个簇的初始聚类中心点,利用聚类算法基于所述亲密度将各节点进行迭代划分,得到不同簇集的节点;
社交获取模块:用于利用聚类后的所述节点嵌入向量获取对应聚类簇的社交网络的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410222037.2A CN117808616A (zh) | 2024-02-28 | 2024-02-28 | 一种基于图嵌入和节点亲密度的社区发现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410222037.2A CN117808616A (zh) | 2024-02-28 | 2024-02-28 | 一种基于图嵌入和节点亲密度的社区发现方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117808616A true CN117808616A (zh) | 2024-04-02 |
Family
ID=90422176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410222037.2A Pending CN117808616A (zh) | 2024-02-28 | 2024-02-28 | 一种基于图嵌入和节点亲密度的社区发现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808616A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN103853726A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种挖掘社区用户的方法及装置 |
CN105243593A (zh) * | 2015-08-04 | 2016-01-13 | 电子科技大学 | 基于混合测度的加权网络社区聚类方法 |
CN108833158A (zh) * | 2018-06-08 | 2018-11-16 | 成都理工大学 | 一种基于k-means的相似性社区发现方法 |
CN112149000A (zh) * | 2020-09-09 | 2020-12-29 | 浙江工业大学 | 一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法 |
WO2022056955A1 (zh) * | 2020-09-16 | 2022-03-24 | 山东大学 | 一种基于不确定图的社区发现方法 |
CN114817653A (zh) * | 2021-01-29 | 2022-07-29 | 太原理工大学 | 一种基于中心节点图卷积网络的无监督社区发现方法 |
WO2023207013A1 (zh) * | 2022-04-26 | 2023-11-02 | 广州广电运通金融电子股份有限公司 | 一种基于图嵌入的关系图谱关键人员分析方法及系统 |
CN117056763A (zh) * | 2023-08-04 | 2023-11-14 | 南通大学 | 基于变分图嵌入的社区发现方法 |
CN117495511A (zh) * | 2023-12-08 | 2024-02-02 | 福州大学 | 一种基于对比学习和社区感知的商品推荐系统及方法 |
-
2024
- 2024-02-28 CN CN202410222037.2A patent/CN117808616A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853726A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种挖掘社区用户的方法及装置 |
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN105243593A (zh) * | 2015-08-04 | 2016-01-13 | 电子科技大学 | 基于混合测度的加权网络社区聚类方法 |
CN108833158A (zh) * | 2018-06-08 | 2018-11-16 | 成都理工大学 | 一种基于k-means的相似性社区发现方法 |
CN112149000A (zh) * | 2020-09-09 | 2020-12-29 | 浙江工业大学 | 一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法 |
WO2022056955A1 (zh) * | 2020-09-16 | 2022-03-24 | 山东大学 | 一种基于不确定图的社区发现方法 |
CN114817653A (zh) * | 2021-01-29 | 2022-07-29 | 太原理工大学 | 一种基于中心节点图卷积网络的无监督社区发现方法 |
WO2023207013A1 (zh) * | 2022-04-26 | 2023-11-02 | 广州广电运通金融电子股份有限公司 | 一种基于图嵌入的关系图谱关键人员分析方法及系统 |
CN117056763A (zh) * | 2023-08-04 | 2023-11-14 | 南通大学 | 基于变分图嵌入的社区发现方法 |
CN117495511A (zh) * | 2023-12-08 | 2024-02-02 | 福州大学 | 一种基于对比学习和社区感知的商品推荐系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN109686402B (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN109960755B (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
CN111611801B (zh) | 一种识别文本地域属性的方法、装置、服务器及存储介质 | |
CN112214689A (zh) | 基于社交网络中群体的影响力最大化方法及系统 | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
CN109948242A (zh) | 基于特征哈希的网络表示学习方法 | |
CN110704665A (zh) | 一种基于视觉注意力机制的图像特征表达方法及系统 | |
CN112148994B (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN112800111A (zh) | 一种基于训练数据挖掘的位置预测方法 | |
CN110442800B (zh) | 一种融合节点属性和图结构的半监督社区发现方法 | |
CN112925991A (zh) | 社交网络中基于节点间相似度的社区检测方法 | |
CN116932923A (zh) | 一种结合行为特征与三角协作度量的项目推荐方法 | |
CN112183580A (zh) | 一种基于动态知识路径学习的小样本分类方法 | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
CN109857886B (zh) | 一种基于极小极大值博弈理论视图逼近的三维模型检索方法 | |
CN117808616A (zh) | 一种基于图嵌入和节点亲密度的社区发现方法及系统 | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 | |
CN111476321B (zh) | 基于特征加权贝叶斯优化算法的空中飞行物识别方法 | |
CN114021011A (zh) | 一种基于自注意力机制的下一个兴趣点推荐方法 | |
Huang et al. | Community detection algorithm for social network based on node intimacy and graph embedding model | |
CN114202669A (zh) | 一种用于医疗图像分割的神经网络搜索方法 | |
CN111726279A (zh) | 一种电子邮件网络的社区结构发现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |