CN111241414A - 一种融合兴趣主题与局部密度的重叠社区检测方法 - Google Patents
一种融合兴趣主题与局部密度的重叠社区检测方法 Download PDFInfo
- Publication number
- CN111241414A CN111241414A CN201911215120.2A CN201911215120A CN111241414A CN 111241414 A CN111241414 A CN 111241414A CN 201911215120 A CN201911215120 A CN 201911215120A CN 111241414 A CN111241414 A CN 111241414A
- Authority
- CN
- China
- Prior art keywords
- interest
- density
- users
- community
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012152 algorithmic method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- ZIMKJLALTRLXJO-UHFFFAOYSA-N hioc Chemical compound C12=CC(O)=CC=C2NC=C1CCNC(=O)C1CCCNC1=O ZIMKJLALTRLXJO-UHFFFAOYSA-N 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了重叠社区检测算法领域领域的一种融合兴趣主题与局部密度的重叠社区检测方法,包含以下步骤,首先通过本体知识库构建用户层次兴趣模型;然后根据用户的层次兴趣模型,构造异类超图;最后根据异类超图,计算了每个节点的兴趣密度,基于节点的兴趣密度,通过选择社区核心,通过计算局部密度实现重叠社区检测,该方案确定了具有相似语义兴趣的群体,从而可以为目标用户提供多粒度的语义相关主题,在精度和召回率方面优于经典的重叠社区检测算法。
Description
技术领域
本发明涉及重叠社区检测算法领域,具体为一种融合兴趣主题与局部密 度的重叠社区检测方法。
背景技术
近年来,各类社交媒体网站已成为提供热门服务的重要信息平台。然而, 微博场景中的短文本特征使得捕获有效偏好变得困难,从而降低了信息服务 的质量。在浏览内容时,人们可以与其他人互动,满足他们在人际关系方面 的众多需求。这些潜在的关系反映了用户的兴趣倾向和品味。因此,通过用 户的兴趣主题对于发现兴趣重叠社区至关重要。
一般来说,用户的兴趣是多维度和多粒度的。例如,一些用户可能对“运 动”等粗粒度的感兴趣,而其他一些用户则更喜欢“篮球”和“足球”等更 细粒度的主题。在计算用户相似性时,传统的方法主要是文本距离或本体概 念距离,忽略了兴趣结构和多层语义结构关系。对于两个对“运动”感兴趣 的用户来说,一个喜欢“篮球”,另一个想要“足球”,他们的相似性不仅 考虑了主题“运动”的相似性,还考虑了其结构的语义紧密性。综合结构相 似性计算考虑了主题的多层次,反映了用户之间的语义结构关系。相似性可 用于确定潜在的亲密用户并进行社区检测。据知,已有的重叠社区检测算法 很少从多颗粒主题的角度进行社区发现。在本研究中,通过对用户之间的多 粒度语义兴趣关系进行建模,结合社区的局部密度分析,从而解决重叠社区 检测的问题。
发明内容
本发明的目的在于提供一种融合兴趣主题与局部密度的重叠社区检测方 法,以解决上述背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种融合兴趣主题与局部 密度的重叠社区检测方法,包含以下步骤:
S1:通过本体知识库构建用户层次兴趣模型;
S2:根据用户的层次兴趣模型,构造异类超图;
S3:根据异类超图,计算了每个节点的兴趣密度,基于节点的兴趣密度, 通过选择社区核心,通过计算局部密度实现重叠社区检测。
其中,S1的内容如下:
在现有微博网站上,提取重要的名词实体,计算词频和词频的权重,根 据本体知识库,根据TF-IDF机制,用层次兴趣主体及其相应权重对用户进行 建模;基于本体的用户建模方法可以有效表示用户的各种偏好,以便通过一 个多粒度的相似性模型来识别兴趣社区;
具体的是,在微博场景中,用户发布的消息通常包含不同的主题,使用 主题特性来分析用户的兴趣,为了使建模更有效,首先进行停用词的去除工 作,之后通过提取主题,每个消息可以形式化表示为m=(t1,W1m),(t2,W2m),..., (tp,Wpm),每个向量都是由属性值对构成;
这里,Wtm表示单词t在消息m中的相对重要性,即词的权重;Wtm由TF-IDF 加权项计算得到,其计算方法定义如下:
其中freqtm表示微博m中t的原始词频,maxl(freqtm)表示m中具有最大频 率的词条l的频率,Nm表示微博总数,nt表示包含单词t的微博数量,权重可 以描述任意单词在描述消息时的重要性程度。
其中,S2的内容如下:
对于个性化的本体用户,层次主题可以描述用户的兴趣结构,首先,计 算每个主题的用户相似性,根据本体论的概念,对于第k层,可以推断出用 户在细粒度主题中可能比粗粒主题中更相似,即,较低层次的主题比上层主 题能反映出更多的相似性,因此,可以从主题深度来考虑语义效应,为了区 分用户之间的兴趣差异,令其中layer是由S1中本体知 识库构建出来的本体层的总数,而λ>0是一个实数,表示语义效果在结构深度 方面的衰减,给定第k层sek(s)中主题s的语义效果,可以将用户之间的主题相似度定义如下:
其中,sims(ui,uj)表示用户相似性,本申请采用经典的余弦相似度进行计算;
微博中的跟帖行为可以反映用户的兴趣倾向,相互跟贴的用户可能更熟 悉彼此,在微博场景中,令ui和uj表示两个用户,他们在微博中的跟贴集 合分别用Fui和Fuj表示,可将用户之间的跟随相似度定义如下:
由于相互跟随行为的不同,相似性simf(ui,uj)不同于simf(uj,ui),simf是一种面向社会网络的有向认知机制;
可以将每一层的主题相似度simd s(ui,uj)和跟随相似度simf(ui,uj)结合起 来,生成一个顶点和带权值的边构成的异类超图;可以将异类超图形式化表 示为G(V,E,W),其中V是用户顶点集,E是表示跟随关系或主题关系的超 边集合,W表示权重集合,已由式(1)给出;异类超图是一个复杂的有向连 接图,对于顶点u∈V,可以将用户u的度d(u)定义为d(u)=∑e∈Eh(u,e), 这里h(u,e)=1,如果顶点u或其所属主题有入边e所指向;否则h(u,e)=0;
根据相邻两个顶点共有的跟随相似度和主题相似度可以计算用户之间的 不熟悉程度,不熟悉程度越低说明用户属于同一社区的可能性会越大;本申 请将这种用户之间的不熟悉程度定义为异类度;用户vi和vj的加权异类度可 通过下式求解:
其中,异类度d(vi,vj)=1-w(vi,vj);为了保证结果在[0,1]之间,需要对 上式进行标准化,标准化后的加权异类度表示如下:
这里标准化的目的是解决多粒度主题相似性的不平衡性,从而将d-值转 化为0到1之间;为了控制d-(vi,vj)的取值规模,为每个用户对只考虑前20 个主题的相似关系。
其中,S3中,关于节点的兴趣密度计算的具体内容如下:
在异类超图中,顶点之间的链接数不均匀,这也反映了用户不同的兴趣 链接密度;每个顶点的密度各不相同,表明社会网络中的活跃度也不同;本 申请使用的方法是将目标主体分配到局部密度最大的类别中,该方法有一个 基本假设,即聚类中心一般都具有一个相对较高的局部链路密度,并且与任 何一个局部密度较高的点都有较大的距离,在本申请中使用密度峰值思想来 确定超图的核心,从而实现重叠社区的检测;
定义1(局部密度)设G(V,E,W)为超图,令V={v1,v2,……,vn}表 示一组顶点对象,的相邻顶点集为A(vi),A+(vi)=A(vi)∪{vi},对象 vi的局部密度可由公式(6)和(7)计算得到:
其中,ε是一个控制密度规模的预先定义的阈值,局部密度ρ(vi)反映了比 阈值ε到vi更接近的目标主体的数量,
定义2(密度异类度)设G(V,E,W)为超图,令V={v1,v2,……,vn} 表示一组顶点对象,的相邻顶点集为A(vi),A+(vi)=A(vi)∪{vi},根据 式(8)可以确定对象vi的密度异类度δ(vi),
δ(vi)的值表示用户vi和任何其他具有较高密度用户之间的最小异类度,
ρ(G)的值反映了整个超图中的平均兴趣链接强度。
其中,S3中,关于重叠社区检测的具体内容如下:
1)、根据顶点的密度ρ(·)和δ(·)选择几个局部密度峰值节点,首先 将这些密度峰值节点初始化为初始社区核心,然后将超图划分为几个密集子 图;算法1给出了初始的社区核心的生成算法;
算法1:社区核心的选择算法
输入:
超图G(V,E,W),初始化核心集C=φ
输出:
社区核心集C
1:while|V|>0 do
2:for V集合中的每个元素vi,do计算并降序排列ρ(vi)
3:从V中选择节点s进入临时中心CT,最大值为ρ(v);
4:if|CT|>1,then
6:C=C∪{vi};
7:V=V/A+(vi);
8:else
9:C=C∪{v};
10:V=V/A+(vi);
11:end if
12:end for
13:end while
14:返回C。
2)、根据选定的核心,可以从相邻顶点找到密度相似的节点,并通过适 应度来控制社区的规模,社区是由多个超图中顶点的子集组成,社区子图的 适应度度量子图中节点的内部边缘和具有其他节点的外部边缘的贡献,社区 适应度f(G)可以下式计算得到:
式中,degin G和degout G分别是图G节点的内部和外部总度数,
3)、根据兴趣密度特性,我们的兴趣社区检测方法的详细步骤如算法2 所示;
算法2:社区检测算法
输入:
社区核心集C
输出:
社区G(c)
1:在所有相邻顶点A(C)上执行循环;
3:计算G(c)的每个顶点的密度-适合度;
4:if在G(c)中存在满足f(G)<0的ρ,then
5:删除ρ,生成一个新的子图G’(c);
6:end if
7:if步骤B4发生,then
8:重复步骤B3;
9:else
10:对子图G’(c)重复步骤1;
11:end if。
4)、当当步骤1中计算的顶点的适应度都为负值时,迭代过程停止。第 二步确保将紧密连接的顶点加入到C,然后,输出具有核心C的社区G(C)。 如果检测到的社区无法覆盖超图G中的所有顶点节点,那么需要通过实施算 法1和2为其余顶点查找新的核心并检测新的社区,直到G中的所有顶点都 包含在至少一个社区中。通过检测超图中顶点的覆盖,可以发现每个节点的 自然社区。算法3显示了重叠社区检测的过程。
算法3:重叠社区检测算法
输入:
超图G(V,E,W),社区核心集C
输出:
重叠社区G’
2:用算法1求出V的核心集C
3:for C集合中的每个元素c,do
4:用算法2检测核心C的社区G(c);
5:S=S∪G(c);
6:if在S中存在ρ并且ρ也在C中,then
7:从C中删除ρ;
8:end if
9:end for
10:V=V/S;
11:end while
12:G’=S。
与现有技术相比,本发明的有益效果是:本发明基于本体知识库构建用 户层次兴趣模型,用于来度量用户的多粒度主题相似性,然后,利用多粒度 主题相似度和用户的跟随相似度构造一个异类超图来表示兴趣网络,利用兴 趣密度峰值机制,采用社区检测方法对兴趣社区进行识别,该方案确定了具 有相似语义兴趣的群体,从而可以为目标用户提供多粒度的语义相关主题, 在精度和召回率方面优于经典的重叠社区检测算法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其他的附图。
图1为SW数据集中社区检测算法的比较;
图2为TW数据集中社区检测算法的比较;
图3为SW数据集上不同阈值ε下本申请算法模块度值;
图4为TW数据集上不同局部阈值ε下本申请算法模块度值。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
将本申请中的社区检测方法在现实网络上进行实验,以测试本申请中社 区检测算法的性能,并提供了一个实验评估,以证明本申请中社区检测算法 的有效性。
第一步、选择几种方法与社区检测方法进行比较。这些方法包括标签传 播算法(LPA)、派系过滤算法CPM[、以及由Lancichinetti提出的LFM,实 验在四个标记的网络上重复10次以上,用于验证社区检测的平均性能。下载 后的网络统计数据在表1中列出。此外,还采用了两个真实的微博网络对检 测实验进行了测试。在微博平台上,从2013年4月10日至2013年4月29 日对514个用户的13722个微博和5017个后续行为进行了爬虫,获取的数据将其命名为SW数据集。在腾讯微博平台上,1296名用户被用来收集他们转 发的76176个微博,并于2015年6月对6809个用户之间的追随者关系进行 了追踪,这有助于模拟所有用户的兴趣网络和进行社区检测,记为TW数据 集。两个数据集的具体信息如表2所示。
数据集 | 顶点 | 边 | 社区 |
Polbooks | 105 | 441 | 3 |
Polblogs | 1490 | 16,718 | 2 |
Football | 115 | 613 | 12 |
Email-Eu-core | 1005 | 25,571 | 42 |
表1用于社区检测的标记网络数据集
数据集 | 用户数 | 跟踪者的行为 | 培训的微博数 | 测试的微博数 |
SW | 514 | 5017 | 7424 | 6298 |
TW | 1296 | 6809 | 36,794 | 39,382 |
表2用于社区检测的微博网络数据集
第二步、采用三个指标来评估社区检测方法的质量。
(1)标准化互信息指标(NMI)
给定一组有n个节点的v和两个分区的GA,GB,构造一个混淆矩阵n,其 中行对应于“真实””的社区GA,列对应于“检测”的社区GB。Nij是GA中真 实社区i和GB中检测到的社区j之间重叠的节点数。Ni是矩阵n第i行的和, Nj是矩阵n第j列的和。规范化互信息(NMI)[23]可通过式(11)估算。
(2)调整后的兰德指数(ARI)
调整后的兰德指数[24]可定义如下:
ARI和NMI值越大,检测结果越好。
(3)模块度
Newman的模块度[25,26](QN)函数是社区检测领域中一个最普遍使用的 评估指标,计算如下:
其中,n是社区数,Li是社区i内顶点之间的边数,Di是社区i内顶点度 数之和,TL是网络的边总数。
社区检测结果越准确,模块度的价值就越大。
4.3实验结果
(1)标记网络
在四个标记网络中运行了HIOC算法用于社区精度检测,并将其性能与 LPA、CPM、LFM进行了比较。实验中采用NMI和ARI值来判断检测的准确性。 表3显示了四种算法在四个数据集上的实验检测结果。结果表明,在NMI和 ARI指标方面,本申请方法与其他算法有明显的差异。具体来说,在波尔数据 集上,本申请算法方法的ARI和NMI优于其他方法。在足球、波尔的博客和 电子邮件等欧盟核心数据集上,本申请算法方法的索引接近于其他算法的最 佳结果。这是因为本申请算法算法首先根据网络密度选择社区核心,然后根 据密度贡献检测社区。从网络中节点的密度和距离来看,可以生成相对合适 数量的核,并获得密度相似的稳定社区。因此,尽管本申请算法方法不能在 全部数据集的ARI和NMI索引上提供最佳性能,但实验结果可以说明所提出 的本申请算法方法在检测这些复杂网络的社区方面的有效应用。
表3六种算法在四标记网络上的实验结果
(2)未标记的网络
将所提出的本申请算法应用于表2中的两个现实的微博社交网络,并从 模块度QN的角度对其性能进行了比较。对于软件数据集,根据下面的操作和 用户的主题相似性,选择2996个节点和48105个兴趣边缘来构建超图。同样, TW数据集包含3324个节点和84423个边。然后,设置阈值ε=0.15来控制一 个节点的相似边的比例和一个社区的兴趣密度。对于两个未标记的网络,采 用模块度QN值来观察本申请算法方法的性能。图1和2显示了本申请算法算 法和LPA、LFM、CPM、龙的方法[27]和黄的方法[28]在两个数据集上的实验结果。 从图中可以看出,本申请算法算法比其他算法有更好的性能,说明基于密度 峰值的核心算法可以选择一个稳定的社区结构。例如,对于软件数据集,与 LPA、LFM、CPM、龙和黄算法相比,本申请算法算法将模块性提高了20.50%、 5.20%、8.51%和3.26%。在TW数据集中,用户与其他用户有较多的行为或兴 趣交互,他们将形成大量的兴趣社区。TW数据集的QN小于SW数据集的QN。
等式(6)中的参数Ε可以影响用户的局部密度,从而导致社区检测结果 的变化。通过改变阈值,对两个数据集使用本申请算法方法进行社区检测, 并观察图3、4所示的不同结果。对于SW数据集,本申请算法方法的模块度 的值首先是弱增长,然后随着阈值Ε的增加而弱下降。在TW数据集的模块度 值中可以发现类似的趋势。正如预期的那样,一个小的Ε可以引起一个小的 兴趣密度,从而产生许多社区。一个大的Ε可以检测到少数社区。在图中, 模块度取值的变化验证了不同阈值Ε下社区检测结果的变化。因此,得出结 论,无论是太大还是太小的一个阈值都不能达到最好的社区检测结果。在Ε =0.15时算法性能最好,因此参数Ε的取值为0.15。在图中,还可以看出在 不同阈值下的本申请算法方法的QN值很接近,这验证了算法的稳定性。
5结论
在本申请中,提出了一个融合层次兴趣模型和局部密度的重叠社区检测 模型。与以往的相似性研究者不同,利用本体用户模型的兴趣结构来计算用 户之间的内容兴趣接近度和语义兴趣接近度。针对层次主题,将多粒度主题 相似性与用户相似性相结合,计算节点的兴趣链密度,进行社区检测。该方 案确定了具有相似语义兴趣的群体,从而可以为目标用户提供多粒度的语义 相关主题。评估结果表明,与经典方法相比,本申请提出的算法在重叠社区 发现的准确率上表现出更好的性能。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示 例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的 示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结 构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结 合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并 没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然, 根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这 些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领 域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范 围和等效物的限制。
Claims (5)
1.一种融合兴趣主题与局部密度的重叠社区检测方法,其特征在于:包含以下步骤:
S1:通过本体知识库构建用户层次兴趣模型;
S2:根据用户的层次兴趣模型,构造异类超图;
S3:根据异类超图,计算了每个节点的兴趣密度,基于节点的兴趣密度,通过选择社区核心,通过计算局部密度实现重叠社区检测。
2.根据权利要求1所述的一种融合兴趣主题与局部密度的重叠社区检测方法,其特征在于,其中,S1的内容如下:
在现有微博网站上,提取重要的名词实体,计算词频和词频的权重,根据本体知识库,根据TF-IDF机制,用层次兴趣主体及其相应权重对用户进行建模;基于本体的用户建模方法能够有效表示用户的各种偏好,以便通过一个多粒度的相似性模型来识别兴趣社区。
3.根据权利要求2所述的一种融合兴趣主题与局部密度的重叠社区检测方法,其特征在于,其中,S2的内容如下:
1)、对于个性化的本体用户,层次主题用于描述用户的兴趣结构,计算每个主题的用户相似性,根据本体论的概念,能够推断出用户在细粒度主题中可能比粗粒主题中更相似,即,较低层次的主题比上层主题能反映出更多的相似性,因此,选择从主题深度来考虑语义效应,为了区分用户之间的兴趣差异,可将用户之间的主题相似度采用经典的余弦相似度进行计算;
2)、微博中的跟帖行为反映用户的兴趣倾向,相互跟贴的用户可能更熟悉彼此,在微博场景中,可将用户之间的跟随相似度形式化表示为公式;然后,将每一层的主题相似度和跟随相似度结合起来,生成一个顶点和带权值的边构成的异类超图;
3)、根据相邻两个顶点共有的跟随相似度和主题相似度计算用户之间的不熟悉程度,不熟悉程度越低说明用户属于同一社区的可能性会越大;本申请将这种用户之间的不熟悉程度定义为异类度;不同用户之间的加权异类度通过设计公式求解。
4.根据权利要求1所述的一种融合兴趣主题与局部密度的重叠社区检测方法,其特征在于,其中,S3中,关于节点的兴趣密度计算的具体内容如下:
在异类超图中,顶点之间的链接数不均匀,这也反映了用户不同的兴趣链接密度;每个顶点的密度各不相同,表明社会网络中的活跃度也不同;本申请使用的方法是将目标主体分配到局部密度最大的类别中,该方法有一个基本假设,即聚类中心一般都具有一个相对较高的局部链路密度,并且与任何一个局部密度较高的点都有较大的距离,在本申请中使用密度峰值思想来确定超图的核心,并分别定义局部密度、密度异类度和图平均密度的三计算公式;其中,局部密度反映了比阈值更接近的目标主体的数量;密度异类度表示用户和任何其他具有较高密度用户之间的最小异类度;图平均密度反映了整个超图中的平均兴趣链接强度;根据顶点的三种密度,选择几个局部密度峰值节点。
5.根据权利要求4所述的一种融合兴趣主题与局部密度的重叠社区检测方法,其特征在于,其中,S3中,关于重叠社区检测的具体内容如下:
1)、设计社区核心的生成算法,并将这些密度峰值节点初始化为初始社区核心,然后将超图划分为几个密集子图;
2)、根据选定的核心,从相邻顶点找到密度相似的节点,并通过适应度来控制社区的规模,社区是由多个超图中顶点的子集组成;通过公式计算社区子图的适应度,用于度量子图中节点的内部边缘和具有其他节点的外部边缘的贡献;
3)、根据兴趣密度特性,设计相应的兴趣社区检测算法,进行兴趣社区检测;
4)、通过检测超图中顶点的覆盖,可以发现每个节点的自然社区;并设计重叠社区检测算法;通过重叠社区检测算法进行重叠社区的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911215120.2A CN111241414A (zh) | 2019-12-02 | 2019-12-02 | 一种融合兴趣主题与局部密度的重叠社区检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911215120.2A CN111241414A (zh) | 2019-12-02 | 2019-12-02 | 一种融合兴趣主题与局部密度的重叠社区检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241414A true CN111241414A (zh) | 2020-06-05 |
Family
ID=70878130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911215120.2A Pending CN111241414A (zh) | 2019-12-02 | 2019-12-02 | 一种融合兴趣主题与局部密度的重叠社区检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241414A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678626A (zh) * | 2015-12-30 | 2016-06-15 | 南京理工大学 | 重叠社区挖掘方法与装置 |
CN109345403A (zh) * | 2018-09-04 | 2019-02-15 | 河海大学 | 一种基于局部模块度的层次重叠社区发现方法 |
-
2019
- 2019-12-02 CN CN201911215120.2A patent/CN111241414A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678626A (zh) * | 2015-12-30 | 2016-06-15 | 南京理工大学 | 重叠社区挖掘方法与装置 |
CN109345403A (zh) * | 2018-09-04 | 2019-02-15 | 河海大学 | 一种基于局部模块度的层次重叠社区发现方法 |
Non-Patent Citations (2)
Title |
---|
李致远;陈汝龙;王汝传;: "基于兴趣和行为预测的移动社交网络动态资源发现机制" * |
杜航原等: "基于网络节点中心性度量的重叠社区发现算法" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Spatial-temporal data-driven service recommendation with privacy-preservation | |
Bedi et al. | Community detection in social networks | |
Peng et al. | Mining event-oriented topics in microblog stream with unsupervised multi-view hierarchical embedding | |
CN107330115A (zh) | 一种信息推荐方法及装置 | |
Huang et al. | Overlapping community detection for multimedia social networks | |
CN108647800B (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN112418525B (zh) | 社交话题群体行为的预测方法、装置及计算机存储介质 | |
Cruz et al. | Community detection and visualization in social networks: Integrating structural and semantic information | |
CN113918832B (zh) | 基于社交关系的图卷积协同过滤推荐系统 | |
Xu et al. | Finding overlapping community from social networks based on community forest model | |
Yu et al. | Profitleader: identifying leaders in networks with profit capacity | |
CN113918834B (zh) | 融合社交关系的图卷积协同过滤推荐方法 | |
Kim et al. | LinkBlackHole $^{*} $*: Robust Overlapping Community Detection Using Link Embedding | |
CN112417313A (zh) | 一种基于知识图卷积网络的模型混合推荐方法 | |
Zhang et al. | Reverse attack: Black-box attacks on collaborative recommendation | |
CN113918833A (zh) | 通过社交网络关系的图卷积协同过滤实现的产品推荐方法 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
Cécillon et al. | Graph embeddings for abusive language detection | |
Skibski et al. | Enumerating connected subgraphs and computing the Myerson and Shapley values in graph-restricted games | |
CN107247774A (zh) | 一种面向群智多模态数据的处理方法及系统 | |
Beretta et al. | How can ontologies give you clue for truth-discovery? an exploratory study | |
Zhang et al. | An interpretable and scalable recommendation method based on network embedding | |
Li et al. | Self-falsifiable hierarchical detection of overlapping communities on social networks | |
Das et al. | Attribute driven temporal active online community search | |
Helal et al. | Leader‐based community detection algorithm for social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |
|
RJ01 | Rejection of invention patent application after publication |