CN107153713A - 社交网络中基于节点间相似性的重叠社区检测方法及系统 - Google Patents
社交网络中基于节点间相似性的重叠社区检测方法及系统 Download PDFInfo
- Publication number
- CN107153713A CN107153713A CN201710393283.4A CN201710393283A CN107153713A CN 107153713 A CN107153713 A CN 107153713A CN 201710393283 A CN201710393283 A CN 201710393283A CN 107153713 A CN107153713 A CN 107153713A
- Authority
- CN
- China
- Prior art keywords
- node
- similarity
- social networks
- community
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000000205 computational method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000011524 similarity measure Methods 0.000 claims description 9
- 238000005381 potential energy Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 40
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 102400000832 Antiplasmin-cleaving enzyme FAP, soluble form Human genes 0.000 description 3
- 101800000492 Antiplasmin-cleaving enzyme FAP, soluble form Proteins 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交网络中基于节点间相似性的重叠社区检测方法及系统该方法包括:接收待检测的社交网络;计算所述待检测社交网络中节点间的相似程度;基于所述节点间的相似程度,检测所述社交网络的重叠社区;输出检测的重叠社区的结构。本发明的社交网络中基于节点间相似性的重叠社区检测方法,在社交网络环境中融合了网络结构信息与节点属性信息的相似性计算方法,然后在此基础之上提出了融合节点相似性的重叠社区发现算法,以得到网络结构与节点偏好双内聚的高质量社区。
Description
技术领域
本发明涉及网络数据处理技术领域,尤其涉及一种社交网络中基于节点间相似性的重叠社区检测方法及系统。
背景技术
现实世界中存在的许多复杂系统大多可以用复杂网络进行描述。例如:新陈代谢网,蛋白质交互网,基因网络,科学家合著网络,电力网,航空网以及社交网络等等。一直以来人们对于复杂网络的研究从未间断,近些年来,由于互联网的快速发展使得人们越来越关注复杂网络,尤其是社交网络,并进行了大量的研究工作。
一般而言,复杂网络由于自身内部结构较为复杂,直接对整个网络进行研究是一件十分困难的事,因此人们一般通过研究网络的社区结构从而更好地理解整个网络。所谓社区,是节点的集合,在社区内部节点连接很紧密,但是属于不同社区的节点连接则比较稀疏。社区结构普遍存在于复杂网络中,社交网络作为复杂网络的一类也已被证明网络内部具有社区结构,很多用于复杂网络的社区发现算法也可用于社交网络。
现有的关于社区发现问题的处理方法主要分为了以下三类。一为基于节点连边的方式,即通过提取网络中节点之间的连边,将社区发现问题转化为图论等问题进行处理。此类方法没有考虑到社交网络中环境中节点所具有的属性信息和潜在的兴趣特征。一为基于节点内容的方式,通过提取网络中节点的自身属性信息和潜在的兴趣特征,将社区发现问题转化为节点聚类等问题进行处理。此类方法忽略了网络中极为重要的结构拓扑信息。还有一种综合方法,将网络结构与节点信息相结合,分别基于网络结构和节点信息对同一网络进行社区发现,从而得到两种不同的社区结构,在此基础之上使用一些特定的方法将两种社区进行融合,最终得到结构与内容双内聚的社区。此类方法需要进行两次的社区发现,在规模较大的社交网络中,其算法的效率较低。
发明内容
基于上述问题,本发明提供一种社交网络中基于节点间相似性的重叠社区检测方法及系统,在社交网络环境中融合了网络结构信息与节点属性信息的相似性计算方法,然后在此基础之上提出了融合节点相似性的重叠社区发现算法,以得到网络结构与节点偏好双内聚的高质量社区。
为解决上述问题,本发明提供了一种社交网络中基于节点间相似性的重叠社区检测方法,具体包括:
S1、接收待检测的社交网络;
S2、计算待检测社交网络中节点间的相似程度;
S3、基于节点间的相似程度,检测社交网络的重叠社区;
S4、输出检测的重叠社区的结构。
其中,计算所述待检测社交网络中节点间的相似程度,具体包括:
根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;
根据节点的属性计算属性相似度,得到节点间的属性相似度;
根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。
其中,根据节点的属性计算属性相似度,得到节点间的属性相似度,具体包括:
判断节点的属性是离散型属性还是文本型属性;
当节点的属性为离散型属性时,节点间的属性相似度为两个节点的属性是否相等,是则判定两个节点的属性相似;
当节点的属性为文本型属性时,计算节点间的属性相似度具体如下:
输入节点的文本属性值;
运用字符匹配的方式对属性文本进行分词处理,并对分词后的词组进行词性标注;
将分词处理后的属性文本进行去除停用词处理;
对去除停用词处理后的属性文本进行关键词提取,得到节点的关键词;
构建节点-关键词矩阵;
基于节点-关键词矩阵,计算节点间的关键词相似度作为节点间的属性相似度。
其中,基于所述节点间的相似程度,检测所述社交网络的重叠社区,具体包括:
根据所述节点间的相似程度,计算所述社交网络中的每个节点的相似势,所述节点的相似势为该节点在节点相似度中的相似影响力;
根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心;
根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构;
通过社区合并的方式对所述初始重叠社区结构进行优化;
输出最优重叠社区结构。
其中,根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心,具体包括:
S21、选取社交网络中任一个未被标记的节点vi并获取其邻居节点集合N(vi),计算邻居节点集合中所有节点的相似势;
S22、若p(vj)≤p(vi),则进入步骤S23;否则若p(vj)>p(vi)且vj尚未被标记,则使用vj代替vi后重新执行步骤S21,其中,vj为邻居节点集合N(vi)中的一个节点;
S23、将节点vi进行标记后添加至初始聚类中心集合U;
S24、若社交网络中仍存在未被标记得节点,则执行步骤S21;否则,执行步骤S25;
S25、输出初始聚类中心集合U。
其中,根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构,具体包括:
S31、设定社交网络G(V,E)的粗糙聚类的上近似权重wup和下近似权重wlow;
S32、对于计算p(vi,ui),其中p(ui,vi)为中心节点ui在节点vi处产生的相似势;
S3、将节点vi划分至最强簇Cl,且
p(vi,Cl)=max{p(v1,ui),p(v2,ui),…,p(v2,ui)};
S34、对于计算势能差δ=p(vi,Cl)-p(vi,Cj)。若δ≤α,则将vi划分至Cl与Cj上近似集合的交集中,即否则,将vi划分至Cl的下近似中,即vi∈Cl ;
S35、对于若即节点vi处于两个簇的边界区域,则重新计算节点在簇中的势能,并设置p(vi,Cl)=max{p(vi,Cm),p(vi,Cn)},p(vi,Cj)=min{p(vi,Cm),p(vi,Cn)};
S36、重新计算簇中心;
S37、当所有的簇中心趋于稳定时,执行步骤S38;否则返回步骤S34;
S38、输出所得到的簇,即社交网络的初始重叠社区结构。
其中,通过社区合并的方式对所述初始重叠社区结构进行优化,具体包括:
S41、给定社交网络的社区划分C={C1,C2,…,Ck},重叠度阈值Q;
S42、选取计算其重叠度over(Cx,Cy)。若over(Cx,Cy)>Q,
则执行S43;否则执行S44;
S43、将Cy合并至Cx并更新集合C,继续执行步骤S42;
S44、当社交前网络中的社区两两之间的重叠度均小于Q,则输出当前社区集合C。
其中,所述重叠度的计算方法为:
对于两个簇Ci和Cj,其簇重叠度的计算方法定义如下
式中min{|Ci|,|Cj|}表示取簇Ci与Cj中节点最小的簇的节点数目。
本发明的另一个方面,提供一种社交网络中基于节点间相似性的重叠社区检测系统,其特征在于,包括:
接收单元,用于接收待检测的社交网络;
相似度计算单元,用于计算所述待检测社交网络中节点间的相似程度;
重叠社区检测单元,用于基于所述节点间的相似程度,检测所述社交网络的重叠社区;
输出单元,用于输出检测的重叠社区的结构。
其中,所述相似度计算单元,具体包括:
社交相似度计算子单元,用于根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;
属性相似度计算子单元,用于根据节点的属性计算属性相似度,得到节点间的属性相似度;
相似度计算子单元,用于根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。
本发明的社交网络中基于节点间相似性的重叠社区检测方法及系统,充分利用了网络中的局部拓扑结构信息和节点自身信息,通过使用社交相似性和属性相似性来较为全面地完成了社交网络中节点之间的关系描述。
此外,本发明使用了粗糙K-Mediods聚类,从而简单高效地完成了重叠社区发现工作。并且,可以通过调节聚类过程中的相关参数,得到不同尺度的重叠社区。
附图说明
图1示出了本发明的一种社交网络中基于节点间相似性的重叠社区检测方法的流程图。
图2a-2c示出了本法的节点-关键词二部网络示意图。
图3示出了本发明的一种社交网络中基于节点间相似性的重叠社区检测系统的结构框图。
图4示出了本发明一个实施例中SLCDA算法与其它两种算法所得到的前15个最大社区的EQ值对比示意图。
图5示出了本发明的一个实施例中SLCDA算法与其它两种算法所得到的前15个最大社区的平均偏好内聚指数APCE对比示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明的一种社交网络中基于节点间相似性的重叠社区检测方法的流程图。
参照图1,本发明的社交网络中基于节点间相似性的重叠社区检测方法,具体包括以下步骤:
一种社交网络中基于节点间相似性的重叠社区检测方法,其特征在于,包括:
接收待检测的社交网络;
计算所述待检测社交网络中节点间的相似程度;
基于所述节点间的相似程度,检测所述社交网络的重叠社区;
输出检测的重叠社区的结构。
在一个实施例中,对于社交网络中节点相似度的计算,将从社交信息与属性信息两个维度展开。
在网络G(V,E)中,对于任意的节点u,v∈V,节点u对节点v的相似相似度的计算方法定义如下:
S(u,v)=αS_S(u,v)+(1-α)S_A(u,v)
式中S(u,v)为节点u与v之间的相似性,S_S(u,v)和S_A(u,v)分别表示节点u与v之间社交相似性和属性相似性,α表示两部分相似相似所占的权重。
下面通过具体实施例,详细介绍整个相似度计算流程中的相关概念与计算方法。
在社交网络中,对于相邻的两个节点,其邻里重叠度越大,两个节点的相似程度越高。因此,本实施例通过不同节点的邻里重叠度来度量节点间的社交相似性。
对于社交网络中的节点u和v,其邻居节点集合记为Γ(u)和Γ(v),D(t)为节点t的度,则社交相似度的计算方法定义如下:
对于社交网络中的节点u和v,属性相似度由节点u和v每一个属性相似度加权累加得到,计算方法定义如下:
式中|M|表示属性的个数。
节点的属性通常可以分为两类:离散型属性和文本型属性。对于不同类型的属性,其计算方法不同。对于离散型属性,在计算属性相似度时,基本思想就是判断当前属性的值是否相等即可。对于节点u和v,在离散型属性αm下的取值为value1和value2,则u和v在属性αm下的相似度计算方法如下:
需要说明的是,当前离散型属性相似性计算采用的是一种通用的方法。在实际的使用情景中,需要根据离散型属性的具体含义,对上述通用的离散型属性相似性计算方法做出调整。对于非结构化的文本型属性,其相似性计算过程为:
第一步,输入需要对比的两个文本型属性的值,包括长文本或短文本;
第二步,在大规模公开词典的基础之上,运用字符匹配的方式对属性文本进行分词处理,并对分词后的词组进行词性标注;
第三步,去掉分词后的结果中除了名词、动词、形容词和副词之外的词组,完成去除停用词处理;
第四步,使用TextRank算法完成属性文本中的关键词提取工作;
第五步,构建节点—关键词矩阵;
第六步,基于节点—关键词矩阵完成节点的关键词相似性的计算。需要说明的是,当网络中的节点本身具有关键词信息(如微博网络中的节点标签),则文本型属性相似度计算流程中的第二步、第三步和第四步就可以直接省略。
在提取完所有节点的关键词信息后,构建N×K维节点—关键词矩阵M,其中N为网络中节点的个数,K为提取节点关键词的个数,Mij=1则表示第i个节点具有第j个关键词信息。至此,本实施例通过节点与对应的关键词构建了二部网络Gk,其中网络中的节点包括:原有网络的用户节点和对应的关键词节点,当用户节点具有某一个关键词信息时,就添加一条由用户节点指向该关键词节点的有向边。如图2(a)所示,V1、V2、V3和V4四个节点组成基本网络G,这4个节点一共具有两个关键词信息:DM和SNA,继而构建如图2(b)所示的节点—关键词矩阵M,并在此基础之上得到如图2(c)所示的节点—关键词二部有向网络Gk。
对于由关键词信息来计算节点之间的相似性,现有的方法就是计算两个节点之间所拥有的共同的关键词个数。但是本发明的实施例中,为了更好地解决社会网络中的社区发现问题,使得节点的关键词信息能够对网络中的节点有着很好的区分度。因此,本发明的实施例中,为每一个关键词赋予对应的权重,用于区分不同关键词对人群的区分度。
至此,在网络G中,通过上述的一系列文本处理操作,得到节点—关键词矩阵M,并在此基础之上构建节点—关键词二部网络Gk。对于Gk中的两个节点u和v,在文本型属性αm上的相似度计算定义如下:
式中Din(k)表示第k在二部网络Gk中的入度,其含义为使用了第k个关键词的节点个数。
基于上述计算社交网络的节点间的相似度,检测社交网络的重叠社区,其具体过程如下所述。
本发明的实施例的基于社交网络的节点间的相似度检测重叠社区的方法,具体为局部重叠社区发现算法SLCDA(Similarity-Based Local Overlapping-CommunityDetection Algorithm)。
SLCDA算法的步骤描述如下:
首先计算网络中节点之间的相似度,并在此基础之上计算网络中每一个节点的相似势;然后,依据节点的相似势得到网络中的局部高势点,从而确定粗糙聚类的初始聚类中心;接下来,将网络中的其它节点根据节点间的相似势划分至聚类簇的上近似与下近似中,通过计算聚类簇的上近似与下近似后重新选择聚类中心,直至聚类中心不再发生变化,从而完成网络节点的粗糙K-Mediods聚类;最后,通过不断合并重叠度较大的簇,得到最优的重叠社区结构。
以下通过具体实施例进行具体描述。
在社交网络中,相似的节点具有相互联系的倾向,同时社交网络通常会呈现出较为明显的局部特征,因从使得网络中节点的相似性影响范围也存在着局域特性,其总体上会随着距离的增大而减小,并且会在节点相似影响力的边界位置会下降为0。根据相似影响力的特征,本实施例提出使用相似势来描述网络中节点的相似影响力,并通过高斯势函数进行描述。
一个具体的实施例中,对于网络G(V,E),选取任意一个节点vi∈V为场源,以节点vi为中心构建出作用场U(vi)={v1,v2,…,vn},则节点vi在节点vj处产生的相似势可以表示为:
式中表示节点vj的固有属性。在实际的应用中,有着非常丰富的物理意义,如节点的属性特征、活跃度等,在本实施例中忽略节点的固有属性;S(vj,vi)表示节点vj对节点vi的相似度;节点的作用场范围通过参数σ进行控制。在此基础上节点vi的相似势可以表示为:
由于社交网络具有明显的局域特性,而基于相似势的社区发现本质上就是通过网络中具有代表性的高相似势节点来挖掘出局部高势区,进而实现网络社区的发现。因此,本实施例使用社交网络的局部高势点作为聚类中心进行聚类。
在一个具体的实施例中,在网络G(V,E)中,存在vi∈V,其邻居节点为N(vi)={v1,v2,…,vn},若节点vi满足p(vi)≥max{p(vi,v1),p(vi,v2),…,p(vi,vn)},则节点vi为当前网络的一个局部高势点。
本实施例中,构建初始聚类中心集合的具体步骤描述如下:
S21、选取社交网络中任一个未被标记的节点vi并获取其邻居节点集合N(vi),计算邻居节点集合中所有节点的相似势;
S22、若p(vj)≤p(vi),则进入步骤S23;否则若p(vj)>p(vi)且vj尚未被标记,则使用vj代替vi后重新执行步骤S21,其中,vj为邻居节点集合N(vi)中的一个节点;
S23、将节点vi进行标记后添加至初始聚类中心集合U;
S24、若社交网络G中仍存在未被标记得节点,则执行步骤S21;否则,执行步骤S25;
S25、输出初始聚类中心集合U。
在选定初始聚类中心后,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构。
一个实施例中,对于聚类簇Ci,对任意一个节点ui∈Ci,则当ui为簇Ci的中心节点时,Ci的相似紧密度计算公式定义如下:
式中CT(Ci,ui)表示ui为中心点时簇Ci的相似紧密度,wlow与wup分别表示聚类簇Ci的下近似与上近似集合中节点的权重且满足wlow+wup=1,。在此基础上给出簇中心的更新公式定义如下:
通过粗糙K-Mediods聚类得到初始重叠社区结构的步骤描述如下:
S31、设定社交网络G(V,E)的粗糙聚类的上近似权重wup和下近似权重wlow;
S32、对于计算p(vi,ui),其中p(ui,vi)为中心节点ui在节点vi处产生的相似势;
S3、将节点vi划分至最强簇Cl,且
p(vi,Cl)=max{p(v1,ui),p(v2,ui),…,p(v2,ui)};
S34、对于计算势能差δ=p(vi,Cl)-p(vi,Cj)。若δ≤α,则将vi划分至Cl与Cj上近似集合的交集中,即否则,将vi划分至Cl的下近似中,即vi∈Cl ;
S35、对于若即节点vi处于两个簇的边界区域,则重新计算节点在簇中的势能,并设置p(vi,Cl)=max{p(vi,Cm),p(vi,Cn)},p(vi,Cj)=min{p(vi,Cm),p(vi,Cn)};
S36、重新计算簇中心;
S37、当所有的簇中心趋于稳定时,执行步骤S38;否则返回步骤S34;
S38、输出所得到的簇,即社交网络的初始重叠社区结构。
在得到社交网络的初始重叠社区结构后,通过社区合并的方式对所述初始重叠社区结构进行优化。
通过对初始的重叠社区结构以社区合并的方式进行优化,有助于提升社区结构的模块度Q,并呈现出更为清晰的社区层次结构。基于此,本实施例通过簇重叠度来衡量不同簇之间的重叠程度,并通过簇合并方式来完成。
在一个具体的实施例中,对于两个簇Ci和Cj,其簇重叠度的计算方法定义如下:
式中min{|Ci|,|Cj|}表示取簇Ci与Cj中节点最小的簇的节点数目。重叠社区结构优化步骤描述如下:
S41、给定社交网络的社区划分C={C1,C2,…,Ck},重叠度阈值Q;
S42、选取计算其重叠度over(Cx,Cy)。若over(Cx,Cy)>Q,则执行S43;否则执行S44;
S43、将Cy合并至Cx并更新集合C,继续执行步骤S42;
S44、当社交前网络中的社区两两之间的重叠度均小于Q,则输出当前社区集合C。
在本发明的又一个实施例中,提供一种社交网络中基于节点间相似性的重叠社区检测系统,如图3所示,具体包括:
接收单元10,用于接收待检测的社交网络;
相似度计算单元20,用于计算所述待检测社交网络中节点间的相似程度;
重叠社区检测单元30,用于基于所述节点间的相似程度,检测所述社交网络的重叠社区;
输出单元40,用于输出检测的重叠社区的结构。
在一个实施例中,上述相似度计算单元20,具体包括:
社交相似度计算子单元201,用于根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;
属性相似度计算子单元202,用于根据节点的属性计算属性相似度,得到节点间的属性相似度;
相似度计算子单元203,用于根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。
本发明的社交网络中基于节点间相似性的重叠社区检测方法及系统,充分利用了网络中的局部拓扑结构信息和节点自身信息,通过使用社交相似性和属性相似性来较为全面地完成了社交网络中节点之间的关系描述。
此外,本发明使用了粗糙K-Mediods聚类,从而简单高效地完成了重叠社区发现工作。并且,可以通过调节聚类过程中的相关参数,得到不同尺度的重叠社区。
以下通过具体实施例详细说明本法的社交网络中基于节点间相似性的重叠社区检测方法。
本发明使用用户的ID来代表用户。选取ID为1000080335用户,依靠用户的关注关系通过广度遍历的方式来获取微博用户的数据。采集的微博用户的信息包括:用户的关系列表(粉丝、关注)、用户的个人属性信息(用户ID、昵称、位置、性别、个人描述和标签、用户类型)和用户发布的微博信息(微博ID、用户ID、发布时间、微博内容)。
在数据处理完成后,本实施例基于微博用户之间的关注关系构建了微博网络,网络的基本统计信息如下:节点个数5731,连边个数46871,节点平均度8.179,网络直径9,平均路径长度3.573。
对于结构内聚性的评价,选取扩展模块度作为评价指标。对于网络G(V,E),|E|=m,进过社区发现后得到了k个社区,对于任意的一个节点其节点度为di,节点vi归属的社区个数为Oi,则扩展模块度的计算方法定义如下:
式中Ai,j为当前网络G的邻接矩阵,当节点i与节点j之间存在一条连边,则Ai,j的值为1,反之Ai,j的值为0。
除了社区结构的内聚性外,需要更关注社区内部节点之间在偏好方面的相似性。因此提出偏好内聚指数来描述偏好的内聚程度。
对于一个网络G,其社区划分的结果为C={C1,C2,C3,…Cn},则当前社区的偏好内聚指数计算方法定义如下:
式中PCE表示当前所得到社区的偏好内聚指数且PCE∈(0,1],pref(u,v)表示节点u和v之间的偏好相似性,分子和分母分别表示的是所有社区内节点对之间的偏好相似性的总和与整个网络中所有节点对之间的偏好相似性的总和。PCE反映的只是一个网络中所有社区的总体偏好内聚程度,却无法真实反映某一个具体社区的偏好内聚程度。
对于一个网络G,其社区划分的结果为C={C1,C2,C3,…Cn},取任意社区Ci∈C,则社区Ci的平均偏好内聚指数APCE计算方法定义如下:
式中APCE表示当前某一个社区的平均偏好内聚指数,|Ci|为社区Ci的节点个数。当APCE的值越大时,表明当前的社区具有越好的的信任内聚性。
在计算节点之间的属性相似信任时,本实施例选取数值型位置信息和文本型的标签信息两种属性。对于位置属性信息,其相似性的规则为:若province与city的ID相同,则位置属性的相似性为1;若province的ID相同,city的ID不同,则位置属性的相似性为2/3;若province与city的ID均不同,则位置属性的相似性为0。对于标签属性信息,通过对所采集微博数据进行预处理,从而得到用户的标签关键词数据,在此基础之上构建“用户—标签”二部网络并计算标签属性相似性。
选取了两个经典的社区发现算法进行对比,其中包括Newman算法和Infomap算法。表1给出了在上近似权重参数wup=0.1时,TLCDA算法所得到的社区结构EQ值与其它两种算法的对比。
表1微博网络中三种算法的EQ值比较
通过表1可以看到,SLCDA算法所得到的社区结构EQ值整体上低于Newman算法,高于Infomap算法。并且,相比于其它两种算法,SLCDA算法能够发掘出网络中更大规模的社区。
图4是上近似权重和社交相似权重分别为0.1和0.8时,SLCDA算法与其它两种算法所得到的前15个最大社区的EQ值对比,其中横坐标为三种算法前15个最大的社区,纵坐标为社区结构内聚性评价指标EQ。可以看到,TLCDA算法所得到的社区,在模块度贡献值方面显著高于Infomap算法。
通过与经典的社区发现算法进行对比分析后,可以看到本文TLCDA算法所得到的社区基本能够达到结构内聚性的要求。
在电子商务个性化推荐的研究中,通常根据用户购买商品的性质或类型来判定用户之间偏好的相似性。借鉴这一做法,本文将微博网络中用户发布的微博视作其购买的“产品”,通过所发微博的主题来判定用户的偏好。由此,给出微博网络中用户之间偏好相似性的定义。
在微博网络G(V,E)中,对于任意两个节点其所发微博的主题词集合分别为Ti={t1,t2…,tm}和Tj={t1,t2…,tn},则节点vi与vj之间偏好相似性的计算方法定义如下:
式中pref(vi,vj)节点vi与vj之间的偏好相似性,dis(ti,tj)为两个微博主题词之间的语义距离,exp(-dis(ti,tj))表示以e为底数、以微博主题词之间语义距离的负数为指数的函数。
表2给出了在上近似权重参数wup=0.1时,SLCDA算法所得到的社区结构PCE值与其它两种算法的对比。通过表2可以看到,在偏好内聚性方面,SLCDA算法的表现明显优于其它两种算法。
表2微博网络中三种算法的PCE值比较
图5是上近似权重和社交相似权重分别为0.1和0.4时,SLCDA算法与其它两种算法所得到的前15个最大社区的平均偏好内聚指数APCE对比,其中横坐标为三种算法前15个最大的社区,纵坐标为评价指标APCE。可以看到,SLCDA算法所得到的单个社区在平均偏好内聚指数上的表现均优于其它两种算法。
通过上述关于结构内聚和偏好内聚两方面的实验表明,本文所提出的融合节点相似性的SLCDA算法在保证社区结构内聚性的要求之上,可以发掘出偏好内聚程度更高的潜在社区。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种社交网络中基于节点间相似性的重叠社区检测方法,其特征在于,包括:
接收待检测的社交网络;
计算所述待检测社交网络中节点间的相似程度;
基于所述节点间的相似程度,检测所述社交网络的重叠社区;
输出检测的重叠社区的结构。
2.如权利要求1所述的方法,其特征在于,计算所述待检测社交网络中节点间的相似程度,具体包括:
根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;
根据节点的属性计算属性相似度,得到节点间的属性相似度;
根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。
3.如权利要求2所述的方法,其特征在于,根据节点的属性计算属性相似度,得到节点间的属性相似度,具体包括:
判断节点的属性是离散型属性还是文本型属性;
当节点的属性为离散型属性时,节点间的属性相似度为两个节点的属性是否相等,是则判定两个节点的属性相似;
当节点的属性为文本型属性时,计算节点间的属性相似度具体如下:
输入节点的文本属性值;
运用字符匹配的方式对属性文本进行分词处理,并对分词后的词组进行词性标注;
将分词处理后的属性文本进行去除停用词处理;
对去除停用词处理后的属性文本进行关键词提取,得到节点的关键词;
构建节点-关键词矩阵;
基于节点-关键词矩阵,计算节点间的关键词相似度作为节点间的属性相似度。
4.如权利要求1所述的方法,其特征在于,基于所述节点间的相似程度,检测所述社交网络的重叠社区,具体包括:
根据所述节点间的相似程度,计算所述社交网络中的每一个节点的相似势,所述节点的相似势为该节点在节点相似度中的相似影响力;
根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心;
根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构;
通过社区合并的方式对所述初始重叠社区结构进行优化;
输出最优重叠社区结构。
5.如权利要求4所述的方法,其特征在于,根据所述每个节点的相似势,设定所述社交网络的局部高势点,并将所述局部高势点作为粗糙聚类的初始聚类中心,具体包括:
S21、选取社交网络中任一个未被标记的节点vi并获取其邻居节点集合N(vi),计算邻居节点集合中所有节点的相似势;
S22、若p(vj)≤p(vi),则进入步骤S23;否则若p(vj)>p(vi)且vj尚未被标记,则使用vj代替vi后重新执行步骤S21,其中,vj为邻居节点集合N(vi)中的一个节点;
S23、将节点vi进行标记后添加至初始聚类中心集合U;
S24、若社交网络中仍存在未被标记得节点,则执行步骤S21;否则,执行步骤S25;
S25、输出初始聚类中心集合U。
6.如权利要求4所述的方法,其特征在于,根据所述粗糙聚类的初始聚类中心,对所述社交网络的节点进行粗糙K-Mediods聚类,得到社交网络的初始重叠社区结构,具体包括:
S31、设定社交网络G(V,E)的粗糙聚类的上近似权重wup和下近似权重wlow;
S32、对于ui∈U,计算p(vi,ui),其中p(ui,vi)为中心节点ui在节点vi处产生的相似势;
S3、将节点vi划分至最强簇Cl,且
p(vi,Cl)=max{p(v1,ui),p(v2,ui),…,p(v2,ui)};
S34、对于Cj∈C,计算势能差δ=p(vi,Cl)-p(vi,Cj)。若δ≤α,则将vi划分至Cl与Cj上近似集合的交集中,即否则,将vi划分至Cl的下近似中,即vi∈Cl;
S35、对于Cn∈C,若即节点vi处于两个簇的边界区域,则重新计算节点在簇中的势能,并设置p(vi,Cl)=max{p(vi,Cm),p(vi,Cn)},p(vi,Cj)=min{p(vi,Cm),p(vi,Cn)};
S36、重新计算簇中心;
S37、当所有的簇中心趋于稳定时,执行步骤S38;否则返回步骤S34;
S38、输出所得到的簇,即社交网络的初始重叠社区结构。
7.如权利要求4所述的方法,其特征在于,通过社区合并的方式对所述初始重叠社区结构进行优化,具体包括:
S41、给定社交网络的社区划分C={C1,C2,…,Ck},重叠度阈值Q;
S42、选取Cy∈C,计算其重叠度over(Cx,Cy)。若over(Cx,Cy)>Q,则执行S43;否则执行S44;
S43、将Cy合并至Cx并更新集合C,继续执行步骤S42;
S44、当社交前网络中的社区两两之间的重叠度均小于Q,则输出当前社区集合C。
8.如权利要求7所述的方法,其特征在于,所述重叠度的计算方法为:
对于两个簇Ci和Cj,其簇重叠度的计算方法定义如下
<mrow>
<mi>O</mi>
<mi>v</mi>
<mi>e</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>&cap;</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
</mrow>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mo>{</mo>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mo>,</mo>
<mo>|</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<mo>}</mo>
</mrow>
</mfrac>
</mrow>
式中min{|Ci|,|Cj|}表示取簇Ci与Cj中节点最小的簇的节点数目。
9.一种社交网络中基于节点间相似性的重叠社区检测系统,其特征在于,包括:
接收单元,用于接收待检测的社交网络;
相似度计算单元,用于计算所述待检测社交网络中节点间的相似程度;
重叠社区检测单元,用于基于所述节点间的相似程度,检测所述社交网络的重叠社区;
输出单元,用于输出检测的重叠社区的结构。
10.如权利要求9所述的系统,其特征在于,所述相似度计算单元,具体包括:
社交相似度计算子单元,用于根据节点的邻居节点计算社交相似度,得到节点间的社交相似度;
属性相似度计算子单元,用于根据节点的属性计算属性相似度,得到节点间的属性相似度;
相似度计算子单元,用于根据所述社交相似度与所述节点间的属性相似度,得到所述社交网络中节点间的相似程度。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710393283.4A CN107153713B (zh) | 2017-05-27 | 2017-05-27 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
US15/892,279 US20180341696A1 (en) | 2017-05-27 | 2018-02-08 | Method and system for detecting overlapping communities based on similarity between nodes in social network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710393283.4A CN107153713B (zh) | 2017-05-27 | 2017-05-27 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107153713A true CN107153713A (zh) | 2017-09-12 |
CN107153713B CN107153713B (zh) | 2018-02-23 |
Family
ID=59794812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710393283.4A Active CN107153713B (zh) | 2017-05-27 | 2017-05-27 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180341696A1 (zh) |
CN (1) | CN107153713B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895326A (zh) * | 2017-11-29 | 2018-04-10 | 四川无声信息技术有限公司 | 一种社区构建方法和装置 |
CN108833156A (zh) * | 2018-06-08 | 2018-11-16 | 中国电力科学研究院有限公司 | 一种针对电力通信网的仿真性能指标的评估方法及系统 |
CN109272228A (zh) * | 2018-09-12 | 2019-01-25 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN110427569A (zh) * | 2019-07-30 | 2019-11-08 | 西南交通大学 | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 |
CN110874607A (zh) * | 2018-08-31 | 2020-03-10 | 浙江大学 | 一种网络节点的聚类方法及装置 |
CN111008338A (zh) * | 2019-11-11 | 2020-04-14 | 重庆邮电大学 | 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质 |
CN111047453A (zh) * | 2019-12-04 | 2020-04-21 | 兰州交通大学 | 基于高阶张量分解大规模社交网络社区的检测方法及装置 |
CN111552797A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 名称预测模型的训练方法、装置、电子设备及存储介质 |
CN112488767A (zh) * | 2020-12-10 | 2021-03-12 | 吉林亿联银行股份有限公司 | 一种客户群体划分方法及装置 |
CN112800345A (zh) * | 2021-02-03 | 2021-05-14 | 安徽大学 | 一种社区角色感知的用户需求主动预测方法及系统 |
CN112819048A (zh) * | 2021-01-22 | 2021-05-18 | 中国空间技术研究院 | 用于星间动态网络的分布式社区检测方法 |
CN115169501A (zh) * | 2022-08-05 | 2022-10-11 | 东北电力大学 | 基于公共邻居节点聚类熵紧密相似性的社区检测方法 |
CN115423639A (zh) * | 2022-09-07 | 2022-12-02 | 四川大学 | 一种面向社交网络的安全社区发现方法 |
CN115964626A (zh) * | 2022-10-27 | 2023-04-14 | 河南大学 | 一种基于动态多尺度特征融合网络的社区检测方法 |
CN116977034A (zh) * | 2023-09-22 | 2023-10-31 | 北京世纪飞讯科技有限公司 | 一种基于大数据的互联网品牌用户管理方法及系统 |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN111401392B (zh) * | 2019-01-02 | 2023-05-09 | 中国移动通信有限公司研究院 | 聚类集成方法及装置、电子设备及存储介质 |
CN109949174B (zh) * | 2019-03-14 | 2023-06-09 | 哈尔滨工程大学 | 一种异构社交网络用户实体锚链接识别方法 |
CN110136015B (zh) * | 2019-03-27 | 2023-07-28 | 西北大学 | 一种在线社交网络中节点相似性与凝聚力并重的信息传播方法 |
CN110163379B (zh) * | 2019-05-30 | 2023-04-07 | 长沙医学院 | 一种改进的基于Surprise优化的网络模块识别方法 |
CN110347933B (zh) * | 2019-06-12 | 2022-04-22 | 西安交通大学 | 一种ego网络社交圈子识别方法 |
CN110766557B (zh) * | 2019-09-16 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于图分析的数据异常解析方法、系统和计算机设备 |
CN110968668B (zh) * | 2019-11-29 | 2023-03-14 | 中国农业科学院农业信息研究所 | 一种基于超网络的网络舆情主题相似度计算方法及装置 |
CN111030854A (zh) * | 2019-12-04 | 2020-04-17 | 兰州交通大学 | 一种Spark云服务环境下面的复杂网络社团发现方法 |
CN111026976B (zh) * | 2019-12-13 | 2024-01-09 | 北京信息科技大学 | 微博特定事件关注群体识别方法 |
CN111242218B (zh) * | 2020-01-13 | 2023-04-07 | 河南科技大学 | 融合用户多属性信息的跨社交网络用户身份识别方法 |
CN111343012B (zh) * | 2020-02-17 | 2022-08-02 | 平安科技(深圳)有限公司 | 云平台的缓存服务器部署方法、装置和计算机设备 |
CN111414744B (zh) * | 2020-03-25 | 2023-04-07 | 上海擎创信息技术有限公司 | 一种基于社区检测的运维告警场景生成方法 |
CN112445939A (zh) * | 2020-03-26 | 2021-03-05 | 西安交通大学 | 一种社交网络群体发现系统、方法及存储介质 |
CN111610417B (zh) * | 2020-05-28 | 2022-03-15 | 华乘电气科技股份有限公司 | 一种基于社区发现的放电信号源分离方法 |
CN111626890B (zh) * | 2020-06-03 | 2023-08-01 | 四川大学 | 一种基于销售信息网络的显著社团发现方法 |
CN111667373B (zh) * | 2020-06-08 | 2023-08-11 | 上海大学 | 基于邻居子图社交网络动态增量的演化社区发现方法 |
CN111861122B (zh) * | 2020-06-18 | 2022-10-18 | 北京航空航天大学 | 一种基于传播属性相似性的社交网络信息可信度评估方法 |
CN111898039B (zh) * | 2020-07-03 | 2023-12-19 | 哈尔滨工程大学 | 一种融合隐藏关系的属性社区搜索方法 |
CN112084418B (zh) * | 2020-07-29 | 2023-07-28 | 浙江工业大学 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
CN112069896B (zh) * | 2020-08-04 | 2022-12-02 | 河南科技大学 | 一种基于孪生网络融合多模板特征的视频目标跟踪方法 |
CN112035545B (zh) * | 2020-08-30 | 2023-12-19 | 哈尔滨工程大学 | 一种考虑非活跃节点和社区边界的竞争影响力最大化方法 |
CN112086969A (zh) * | 2020-09-18 | 2020-12-15 | 国网江苏省电力有限公司电力科学研究院 | 基于Infomap算法的配电网边缘划分方法和装置 |
CN112214684B (zh) * | 2020-09-24 | 2024-01-26 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
CN112214567A (zh) * | 2020-10-28 | 2021-01-12 | 兰州交通大学 | 复杂图论支持下的城市空间结构发现设计方案 |
CN112329460B (zh) * | 2020-11-02 | 2023-07-28 | 中国平安人寿保险股份有限公司 | 文本的主题聚类方法、装置、设备及存储介质 |
CN112487110A (zh) * | 2020-12-07 | 2021-03-12 | 中国船舶重工集团公司第七一六研究所 | 基于网络结构和节点内容的重叠社区演化分析方法及系统 |
CN112633388B (zh) * | 2020-12-28 | 2022-07-29 | 中国科学院软件研究所 | 一种面向社交网络的分布式用户聚类方法 |
CN113822768B (zh) * | 2020-12-29 | 2024-04-16 | 京东科技控股股份有限公司 | 社区网络的处理方法、装置、设备及存储介质 |
CN112801499B (zh) * | 2021-01-26 | 2023-10-27 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种适用于水-能源-粮食社会经济复杂网络系统的降维分析方法及系统 |
CN112925989B (zh) * | 2021-01-29 | 2022-04-26 | 中国计量大学 | 一种属性网络的群体发现方法及系统 |
CN112967146B (zh) * | 2021-02-03 | 2023-08-04 | 北京航空航天大学 | 一种基于标签传播的科研社区发现方法及装置 |
CN112508691B (zh) * | 2021-02-04 | 2021-05-14 | 北京淇瑀信息科技有限公司 | 基于关系网标签化和图神经网络的风险预测方法及装置 |
CN112994933B (zh) * | 2021-02-07 | 2022-09-06 | 河北师范大学 | 一种复杂网络的广义社区发现方法 |
CN112929445B (zh) * | 2021-02-20 | 2022-06-07 | 山东英信计算机技术有限公司 | 一种面向推荐系统的链路预测方法、系统及介质 |
CN113254662B (zh) * | 2021-04-20 | 2022-06-17 | 浙江工业大学 | 一种基于修剪图谱聚类的学术团队划分方法 |
WO2022236760A1 (zh) * | 2021-05-13 | 2022-11-17 | 清华大学 | 基于时间跨度优化的短时社区搜索方法 |
CN113411691B (zh) * | 2021-06-18 | 2022-03-11 | 东北电力大学 | 一种电力光纤网社团划分方法 |
CN113269653B (zh) * | 2021-06-18 | 2024-03-29 | 北京市科学技术情报研究所 | 一种基于圈层化思想的社交网络管理方法及系统 |
CN113626723B (zh) * | 2021-07-09 | 2024-06-14 | 中国科学院信息工程研究所 | 一种基于表示学习的属性图社区搜索方法和系统 |
CN113627732B (zh) * | 2021-07-13 | 2024-08-20 | 广西电网有限责任公司 | 一种停电检修自动识别重叠检修预估风险方法 |
CN113553357B (zh) * | 2021-07-26 | 2022-11-11 | 中国电子科技集团公司第五十四研究所 | 一种基于HW-Louvain的城市公交网络划分性空间社团探测方法 |
CN113780656B (zh) * | 2021-09-09 | 2023-09-22 | 中国矿业大学 | 基于聚类解耦的复杂产品多源变更传播影响力预测方法 |
CN113744073B (zh) * | 2021-09-10 | 2023-07-25 | 太原理工大学 | 一种基于节点簇的社交网络的社区划分方法 |
CN114186691B (zh) * | 2021-12-14 | 2024-09-20 | 南京航空航天大学 | 一种网络社区挖掘方法及其在零件加工区域识别中的应用 |
CN114201690A (zh) * | 2021-12-16 | 2022-03-18 | 安徽大学 | 一种融合局部信息和社团信息的社交网络好友预测方法 |
CN114357311B (zh) * | 2022-01-12 | 2024-08-20 | 东北大学 | 一种基于社区发现与聚类优化的力导向图布局方法 |
CN114513426B (zh) * | 2022-03-02 | 2023-09-15 | 郑州轻工业大学 | 基于节点相似度和影响力的ccn社区划分方法 |
CN114936892B (zh) * | 2022-04-24 | 2024-06-18 | 福州大学 | 基于联邦迁移学习标签传播的线下商品推荐系统及方法 |
CN114817762B (zh) * | 2022-05-12 | 2024-07-12 | 东南大学 | 微博中针对大宗商品舆情信息的恶意主体识别方法 |
CN114896520B (zh) * | 2022-06-10 | 2024-08-02 | 兰州大学 | 一种基于元社区一致性的集成社区检测方法及系统 |
CN115080871B (zh) * | 2022-07-07 | 2024-05-17 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
CN115086179B (zh) * | 2022-08-19 | 2022-12-09 | 北京科技大学 | 一种社交网络中社区结构的检测方法 |
CN115878906B (zh) * | 2022-12-13 | 2023-10-10 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
CN116308860B (zh) * | 2023-03-21 | 2024-01-12 | 东北电力大学 | 基于分配与分裂的动态社区检测方法 |
CN116346712B (zh) * | 2023-03-24 | 2024-04-12 | 湖南科技大学 | 一种基于种子扩展和标签传播的社区发现方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102611588A (zh) * | 2012-03-28 | 2012-07-25 | 西安电子科技大学 | 基于自动相转换聚类的重叠社区网络检测方法 |
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
US8620964B2 (en) * | 2011-11-21 | 2013-12-31 | Motorola Mobility Llc | Ontology construction |
CN104715034A (zh) * | 2015-03-16 | 2015-06-17 | 北京航空航天大学 | 基于中心人物的有权图重叠社区发现方法 |
CN105608624A (zh) * | 2015-12-29 | 2016-05-25 | 武汉理工大学 | 基于用户体验的微博大数据兴趣社区分析优化方法 |
CN106296426A (zh) * | 2016-08-01 | 2017-01-04 | 温州医科大学附属第医院 | 一种重叠社区确定方法及装置 |
-
2017
- 2017-05-27 CN CN201710393283.4A patent/CN107153713B/zh active Active
-
2018
- 2018-02-08 US US15/892,279 patent/US20180341696A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620964B2 (en) * | 2011-11-21 | 2013-12-31 | Motorola Mobility Llc | Ontology construction |
CN102611588A (zh) * | 2012-03-28 | 2012-07-25 | 西安电子科技大学 | 基于自动相转换聚类的重叠社区网络检测方法 |
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN104715034A (zh) * | 2015-03-16 | 2015-06-17 | 北京航空航天大学 | 基于中心人物的有权图重叠社区发现方法 |
CN105608624A (zh) * | 2015-12-29 | 2016-05-25 | 武汉理工大学 | 基于用户体验的微博大数据兴趣社区分析优化方法 |
CN106296426A (zh) * | 2016-08-01 | 2017-01-04 | 温州医科大学附属第医院 | 一种重叠社区确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
孙怡帆 等: "基于相似度的微博社交网络的社区发现方法", 《计算机研究与发展》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895326A (zh) * | 2017-11-29 | 2018-04-10 | 四川无声信息技术有限公司 | 一种社区构建方法和装置 |
CN108833156A (zh) * | 2018-06-08 | 2018-11-16 | 中国电力科学研究院有限公司 | 一种针对电力通信网的仿真性能指标的评估方法及系统 |
CN108833156B (zh) * | 2018-06-08 | 2022-08-30 | 中国电力科学研究院有限公司 | 一种针对电力通信网的仿真性能指标的评估方法及系统 |
CN110874607A (zh) * | 2018-08-31 | 2020-03-10 | 浙江大学 | 一种网络节点的聚类方法及装置 |
CN109272228A (zh) * | 2018-09-12 | 2019-01-25 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN109272228B (zh) * | 2018-09-12 | 2022-03-15 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN110427569A (zh) * | 2019-07-30 | 2019-11-08 | 西南交通大学 | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 |
CN110427569B (zh) * | 2019-07-30 | 2021-09-24 | 西南交通大学 | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 |
CN111008338A (zh) * | 2019-11-11 | 2020-04-14 | 重庆邮电大学 | 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质 |
CN111047453A (zh) * | 2019-12-04 | 2020-04-21 | 兰州交通大学 | 基于高阶张量分解大规模社交网络社区的检测方法及装置 |
CN111552797B (zh) * | 2020-04-30 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 名称预测模型的训练方法、装置、电子设备及存储介质 |
CN111552797A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 名称预测模型的训练方法、装置、电子设备及存储介质 |
CN112488767B (zh) * | 2020-12-10 | 2024-02-02 | 吉林亿联银行股份有限公司 | 一种客户群体划分方法及装置 |
CN112488767A (zh) * | 2020-12-10 | 2021-03-12 | 吉林亿联银行股份有限公司 | 一种客户群体划分方法及装置 |
CN112819048A (zh) * | 2021-01-22 | 2021-05-18 | 中国空间技术研究院 | 用于星间动态网络的分布式社区检测方法 |
CN112819048B (zh) * | 2021-01-22 | 2024-03-29 | 中国空间技术研究院 | 用于星间动态网络的分布式社区检测方法 |
CN112800345B (zh) * | 2021-02-03 | 2022-09-30 | 安徽大学 | 一种社区角色感知的用户需求主动预测方法及系统 |
CN112800345A (zh) * | 2021-02-03 | 2021-05-14 | 安徽大学 | 一种社区角色感知的用户需求主动预测方法及系统 |
CN115169501A (zh) * | 2022-08-05 | 2022-10-11 | 东北电力大学 | 基于公共邻居节点聚类熵紧密相似性的社区检测方法 |
CN115423639A (zh) * | 2022-09-07 | 2022-12-02 | 四川大学 | 一种面向社交网络的安全社区发现方法 |
CN115964626A (zh) * | 2022-10-27 | 2023-04-14 | 河南大学 | 一种基于动态多尺度特征融合网络的社区检测方法 |
CN116977034A (zh) * | 2023-09-22 | 2023-10-31 | 北京世纪飞讯科技有限公司 | 一种基于大数据的互联网品牌用户管理方法及系统 |
CN116977034B (zh) * | 2023-09-22 | 2023-12-08 | 北京世纪飞讯科技有限公司 | 一种基于大数据的互联网品牌用户管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107153713B (zh) | 2018-02-23 |
US20180341696A1 (en) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107153713A (zh) | 社交网络中基于节点间相似性的重叠社区检测方法及系统 | |
JP7468929B2 (ja) | 地理知識取得方法 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN106503148B (zh) | 一种基于多知识库的表格实体链接方法 | |
CN103544242B (zh) | 面向微博的情感实体搜索系统 | |
US20190073357A1 (en) | Hybrid classifier for assigning natural language processing (nlp) inputs to domains in real-time | |
Ding et al. | Leveraging frequent query substructures to generate formal queries for complex question answering | |
CN108388651A (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN107729493A (zh) | 旅行知识图谱的构建方法、装置及旅行问答方法、装置 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
CN106682172A (zh) | 一种基于关键词的文献研究热点推荐方法 | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN105095433A (zh) | 实体推荐方法及装置 | |
CN105719191A (zh) | 多尺度空间下不确定行为语义的社交群体发现系统及方法 | |
CN105654144A (zh) | 一种基于机器学习的社交网络本体构建方法 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN105630884A (zh) | 一种微博热点事件的地理位置发现方法 | |
CN106599037A (zh) | 一种基于标签语义规范化推荐方法 | |
CN109522420A (zh) | 一种获取学习需求的方法及系统 | |
CN114996488A (zh) | 一种天网大数据决策级融合方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN109508385A (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
Zhang et al. | Hierarchical scene parsing by weakly supervised learning with image descriptions | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN108021682A (zh) | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |