CN111241414A

CN111241414A - 一种融合兴趣主题与局部密度的重叠社区检测方法

Info

Publication number: CN111241414A
Application number: CN201911215120.2A
Authority: CN
Inventors: 李慧; 张舒; 高超; 施珺; 戴红伟; 樊宁; 王霞
Original assignee: Jiangsu Ocean University
Current assignee: Jiangsu Ocean University
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-06-05

Abstract

本发明公开了重叠社区检测算法领域领域的一种融合兴趣主题与局部密度的重叠社区检测方法，包含以下步骤，首先通过本体知识库构建用户层次兴趣模型；然后根据用户的层次兴趣模型，构造异类超图；最后根据异类超图，计算了每个节点的兴趣密度，基于节点的兴趣密度，通过选择社区核心，通过计算局部密度实现重叠社区检测，该方案确定了具有相似语义兴趣的群体，从而可以为目标用户提供多粒度的语义相关主题，在精度和召回率方面优于经典的重叠社区检测算法。

Description

一种融合兴趣主题与局部密度的重叠社区检测方法

技术领域

本发明涉及重叠社区检测算法领域，具体为一种融合兴趣主题与局部密度的重叠社区检测方法。

背景技术

近年来，各类社交媒体网站已成为提供热门服务的重要信息平台。然而，微博场景中的短文本特征使得捕获有效偏好变得困难，从而降低了信息服务的质量。在浏览内容时，人们可以与其他人互动，满足他们在人际关系方面的众多需求。这些潜在的关系反映了用户的兴趣倾向和品味。因此，通过用户的兴趣主题对于发现兴趣重叠社区至关重要。

一般来说，用户的兴趣是多维度和多粒度的。例如，一些用户可能对“运动”等粗粒度的感兴趣，而其他一些用户则更喜欢“篮球”和“足球”等更细粒度的主题。在计算用户相似性时，传统的方法主要是文本距离或本体概念距离，忽略了兴趣结构和多层语义结构关系。对于两个对“运动”感兴趣的用户来说，一个喜欢“篮球”，另一个想要“足球”，他们的相似性不仅考虑了主题“运动”的相似性，还考虑了其结构的语义紧密性。综合结构相似性计算考虑了主题的多层次，反映了用户之间的语义结构关系。相似性可用于确定潜在的亲密用户并进行社区检测。据知，已有的重叠社区检测算法很少从多颗粒主题的角度进行社区发现。在本研究中，通过对用户之间的多粒度语义兴趣关系进行建模，结合社区的局部密度分析，从而解决重叠社区检测的问题。

发明内容

本发明的目的在于提供一种融合兴趣主题与局部密度的重叠社区检测方法，以解决上述背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种融合兴趣主题与局部密度的重叠社区检测方法，包含以下步骤：

S1：通过本体知识库构建用户层次兴趣模型；

S2：根据用户的层次兴趣模型，构造异类超图；

S3：根据异类超图，计算了每个节点的兴趣密度，基于节点的兴趣密度，通过选择社区核心，通过计算局部密度实现重叠社区检测。

其中，S1的内容如下：

在现有微博网站上，提取重要的名词实体，计算词频和词频的权重，根据本体知识库，根据TF-IDF机制，用层次兴趣主体及其相应权重对用户进行建模；基于本体的用户建模方法可以有效表示用户的各种偏好，以便通过一个多粒度的相似性模型来识别兴趣社区；

具体的是，在微博场景中，用户发布的消息通常包含不同的主题，使用主题特性来分析用户的兴趣，为了使建模更有效，首先进行停用词的去除工作，之后通过提取主题，每个消息可以形式化表示为m＝(t₁，W_1m)，(t₂，W_2m)，...， (t_p，W_pm)，每个向量都是由属性值对构成；

这里，W_tm表示单词t在消息m中的相对重要性，即词的权重；W_tm由TF-IDF 加权项计算得到，其计算方法定义如下：

其中freq_tm表示微博m中t的原始词频，max_l(freq_tm)表示m中具有最大频率的词条l的频率，N_m表示微博总数，n_t表示包含单词t的微博数量，权重可以描述任意单词在描述消息时的重要性程度。

其中，S2的内容如下：

对于个性化的本体用户，层次主题可以描述用户的兴趣结构，首先，计算每个主题的用户相似性，根据本体论的概念，对于第k层，可以推断出用户在细粒度主题中可能比粗粒主题中更相似，即，较低层次的主题比上层主题能反映出更多的相似性，因此，可以从主题深度来考虑语义效应，为了区分用户之间的兴趣差异，令

其中layer是由S1中本体知识库构建出来的本体层的总数，而λ>0是一个实数，表示语义效果在结构深度方面的衰减，给定第k层se_k(s)中主题s的语义效果，可以将用户之间的主题相似度定义如下：

其中，sim_s(u_i,u_j)表示用户相似性，本申请采用经典的余弦相似度进行计算；

微博中的跟帖行为可以反映用户的兴趣倾向，相互跟贴的用户可能更熟悉彼此，在微博场景中，令ui和uj表示两个用户，他们在微博中的跟贴集合分别用Fui和Fuj表示，可将用户之间的跟随相似度定义如下：

由于相互跟随行为的不同，相似性sim^f(ui，uj)不同于sim^f(u_j，u_i)，sim^f是一种面向社会网络的有向认知机制；

可以将每一层的主题相似度sim^d _s(ui，uj)和跟随相似度sim^f(ui，uj)结合起来，生成一个顶点和带权值的边构成的异类超图；可以将异类超图形式化表示为G(V，E，W)，其中V是用户顶点集，E是表示跟随关系或主题关系的超边集合，W表示权重集合，已由式(1)给出；异类超图是一个复杂的有向连接图，对于顶点u∈V，可以将用户u的度d(u)定义为d(u)＝∑_e∈Eh(u，e)，这里h(u，e)＝1，如果顶点u或其所属主题有入边e所指向；否则h(u，e)＝0；

根据相邻两个顶点共有的跟随相似度和主题相似度可以计算用户之间的不熟悉程度，不熟悉程度越低说明用户属于同一社区的可能性会越大；本申请将这种用户之间的不熟悉程度定义为异类度；用户v_i和v_j的加权异类度可通过下式求解：

其中，异类度d(v_i，v_j)＝1-w(v_i，v_j)；为了保证结果在[0，1]之间，需要对上式进行标准化，标准化后的加权异类度表示如下：

这里标准化的目的是解决多粒度主题相似性的不平衡性，从而将d^-值转化为0到1之间；为了控制d^-(v_i，v_j)的取值规模，为每个用户对只考虑前20 个主题的相似关系。

其中，S3中，关于节点的兴趣密度计算的具体内容如下：

在异类超图中，顶点之间的链接数不均匀，这也反映了用户不同的兴趣链接密度；每个顶点的密度各不相同，表明社会网络中的活跃度也不同；本申请使用的方法是将目标主体分配到局部密度最大的类别中，该方法有一个基本假设，即聚类中心一般都具有一个相对较高的局部链路密度，并且与任何一个局部密度较高的点都有较大的距离，在本申请中使用密度峰值思想来确定超图的核心，从而实现重叠社区的检测；

定义1(局部密度)设G(V，E，W)为超图，令V＝{v₁，v₂，……，v_n}表示一组顶点对象，

的相邻顶点集为A(v_i)，A⁺(v_i)＝A(v_i)∪{v_i}，对象 v_i的局部密度可由公式(6)和(7)计算得到：

其中，ε是一个控制密度规模的预先定义的阈值，局部密度ρ(v_i)反映了比阈值ε到v_i更接近的目标主体的数量，

定义2(密度异类度)设G(V，E，W)为超图，令V＝{v₁，v₂，……，v_n} 表示一组顶点对象，

的相邻顶点集为A(v_i)，A⁺(v_i)＝A(v_i)∪{v_i}，根据式(8)可以确定对象vi的密度异类度δ(v_i)，

δ(v_i)的值表示用户v_i和任何其他具有较高密度用户之间的最小异类度，

定义3(图平均密度)设G(v，e，w)为超图，V＝{v₁，v₂，……，v_n} 表示一组顶点对象，

的局部密度为ρ(v_i)，图的平均密度ρ(G)可根据式 (8)来确定，

ρ(G)的值反映了整个超图中的平均兴趣链接强度。

其中，S3中，关于重叠社区检测的具体内容如下：

1)、根据顶点的密度ρ(·)和δ(·)选择几个局部密度峰值节点，首先将这些密度峰值节点初始化为初始社区核心，然后将超图划分为几个密集子图；算法1给出了初始的社区核心的生成算法；

算法1：社区核心的选择算法

输入：

超图G(V，E，W)，初始化核心集C＝φ

输出：

社区核心集C

1:while|V|>0 do

2:for V集合中的每个元素v_i，do计算并降序排列ρ(v_i)

3:从V中选择节点s进入临时中心C^T，最大值为ρ(v)；

4:if|C^T|>1，then

5:从C^T中选择一个满足的

节点v_i；

6:C＝C∪{v_i}；

7:V＝V/A⁺(v_i)；

8:else

9:C＝C∪{v}；

10:V＝V/A⁺(v_i)；

11:end if

12:end for

13:end while

14:返回C。

2)、根据选定的核心，可以从相邻顶点找到密度相似的节点，并通过适应度来控制社区的规模，社区是由多个超图中顶点的子集组成，社区子图的适应度度量子图中节点的内部边缘和具有其他节点的外部边缘的贡献，社区适应度f(G)可以下式计算得到：

式中，deg_in ^G和deg_out ^G分别是图G节点的内部和外部总度数，

3)、根据兴趣密度特性，我们的兴趣社区检测方法的详细步骤如算法2 所示；

算法2：社区检测算法

输入：

社区核心集C

输出：

社区G(c)

1:在所有相邻顶点A(C)上执行循环；

2:将A(C)的相邻顶点v_k添加到核心集C中，其中

生成子图G(c)；

3:计算G(c)的每个顶点的密度-适合度；

4:if在G(c)中存在满足f(G)＜0的ρ，then

5:删除ρ，生成一个新的子图G’(c)；

6:end if

7:if步骤B4发生，then

8:重复步骤B3；

9:else

10:对子图G’(c)重复步骤1；

11:end if。

4)、当当步骤1中计算的顶点的适应度都为负值时，迭代过程停止。第二步确保将紧密连接的顶点加入到C，然后，输出具有核心C的社区G(C)。如果检测到的社区无法覆盖超图G中的所有顶点节点，那么需要通过实施算法1和2为其余顶点查找新的核心并检测新的社区，直到G中的所有顶点都包含在至少一个社区中。通过检测超图中顶点的覆盖，可以发现每个节点的自然社区。算法3显示了重叠社区检测的过程。

算法3：重叠社区检测算法

输入：

超图G(V，E，W)，社区核心集C

输出：

重叠社区G’

1:while

then

2:用算法1求出V的核心集C

3:for C集合中的每个元素c，do

4:用算法2检测核心C的社区G(c)；

5:S＝S∪G(c)；

6:if在S中存在ρ并且ρ也在C中，then

7:从C中删除ρ；

8:end if

9:end for

10:V＝V/S；

11:end while

12:G’＝S。

与现有技术相比，本发明的有益效果是：本发明基于本体知识库构建用户层次兴趣模型，用于来度量用户的多粒度主题相似性，然后，利用多粒度主题相似度和用户的跟随相似度构造一个异类超图来表示兴趣网络，利用兴趣密度峰值机制，采用社区检测方法对兴趣社区进行识别，该方案确定了具有相似语义兴趣的群体，从而可以为目标用户提供多粒度的语义相关主题，在精度和召回率方面优于经典的重叠社区检测算法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为SW数据集中社区检测算法的比较；

图2为TW数据集中社区检测算法的比较；

图3为SW数据集上不同阈值ε下本申请算法模块度值；

图4为TW数据集上不同局部阈值ε下本申请算法模块度值。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

将本申请中的社区检测方法在现实网络上进行实验，以测试本申请中社区检测算法的性能，并提供了一个实验评估，以证明本申请中社区检测算法的有效性。

第一步、选择几种方法与社区检测方法进行比较。这些方法包括标签传播算法(LPA)、派系过滤算法CPM[、以及由Lancichinetti提出的LFM，实验在四个标记的网络上重复10次以上，用于验证社区检测的平均性能。下载后的网络统计数据在表1中列出。此外，还采用了两个真实的微博网络对检测实验进行了测试。在微博平台上，从2013年4月10日至2013年4月29 日对514个用户的13722个微博和5017个后续行为进行了爬虫，获取的数据将其命名为SW数据集。在腾讯微博平台上，1296名用户被用来收集他们转发的76176个微博，并于2015年6月对6809个用户之间的追随者关系进行了追踪，这有助于模拟所有用户的兴趣网络和进行社区检测，记为TW数据集。两个数据集的具体信息如表2所示。

数据集	顶点	边	社区
				Polbooks	105	441	3
Polblogs	1490	16,718	2
				Football	115	613	12
Email-Eu-core	1005	25,571	42

表1用于社区检测的标记网络数据集

数据集	用户数	跟踪者的行为	培训的微博数	测试的微博数
					SW	514	5017	7424	6298
TW	1296	6809	36,794	39,382

表2用于社区检测的微博网络数据集

第二步、采用三个指标来评估社区检测方法的质量。

(1)标准化互信息指标(NMI)

给定一组有n个节点的v和两个分区的G_A，G_B，构造一个混淆矩阵n，其中行对应于“真实””的社区G_A，列对应于“检测”的社区G_B。N_ij是G_A中真实社区i和G_B中检测到的社区j之间重叠的节点数。N_i是矩阵n第i行的和， N_j是矩阵n第j列的和。规范化互信息(NMI)[23]可通过式(11)估算。

(2)调整后的兰德指数(ARI)

调整后的兰德指数[24]可定义如下：

ARI和NMI值越大，检测结果越好。

(3)模块度

Newman的模块度[25,26](Q_N)函数是社区检测领域中一个最普遍使用的评估指标，计算如下：

其中，n是社区数，L_i是社区i内顶点之间的边数，D_i是社区i内顶点度数之和，TL是网络的边总数。

社区检测结果越准确，模块度的价值就越大。

4.3实验结果

(1)标记网络

在四个标记网络中运行了HIOC算法用于社区精度检测，并将其性能与 LPA、CPM、LFM进行了比较。实验中采用NMI和ARI值来判断检测的准确性。表3显示了四种算法在四个数据集上的实验检测结果。结果表明，在NMI和 ARI指标方面，本申请方法与其他算法有明显的差异。具体来说，在波尔数据集上，本申请算法方法的ARI和NMI优于其他方法。在足球、波尔的博客和电子邮件等欧盟核心数据集上，本申请算法方法的索引接近于其他算法的最佳结果。这是因为本申请算法算法首先根据网络密度选择社区核心，然后根据密度贡献检测社区。从网络中节点的密度和距离来看，可以生成相对合适数量的核，并获得密度相似的稳定社区。因此，尽管本申请算法方法不能在全部数据集的ARI和NMI索引上提供最佳性能，但实验结果可以说明所提出的本申请算法方法在检测这些复杂网络的社区方面的有效应用。

表3六种算法在四标记网络上的实验结果

(2)未标记的网络

将所提出的本申请算法应用于表2中的两个现实的微博社交网络，并从模块度Q_N的角度对其性能进行了比较。对于软件数据集，根据下面的操作和用户的主题相似性，选择2996个节点和48105个兴趣边缘来构建超图。同样， TW数据集包含3324个节点和84423个边。然后，设置阈值ε＝0.15来控制一个节点的相似边的比例和一个社区的兴趣密度。对于两个未标记的网络，采用模块度Q_N值来观察本申请算法方法的性能。图1和2显示了本申请算法算法和LPA、LFM、CPM、龙的方法^[27]和黄的方法^[28]在两个数据集上的实验结果。从图中可以看出，本申请算法算法比其他算法有更好的性能，说明基于密度峰值的核心算法可以选择一个稳定的社区结构。例如，对于软件数据集，与 LPA、LFM、CPM、龙和黄算法相比，本申请算法算法将模块性提高了20.50％、 5.20％、8.51％和3.26％。在TW数据集中，用户与其他用户有较多的行为或兴趣交互，他们将形成大量的兴趣社区。TW数据集的Q_N小于SW数据集的Q_N。

等式(6)中的参数Ε可以影响用户的局部密度,从而导致社区检测结果的变化。通过改变阈值，对两个数据集使用本申请算法方法进行社区检测，并观察图3、4所示的不同结果。对于SW数据集，本申请算法方法的模块度的值首先是弱增长，然后随着阈值Ε的增加而弱下降。在TW数据集的模块度值中可以发现类似的趋势。正如预期的那样，一个小的Ε可以引起一个小的兴趣密度，从而产生许多社区。一个大的Ε可以检测到少数社区。在图中，模块度取值的变化验证了不同阈值Ε下社区检测结果的变化。因此，得出结论，无论是太大还是太小的一个阈值都不能达到最好的社区检测结果。在Ε ＝0.15时算法性能最好，因此参数Ε的取值为0.15。在图中，还可以看出在不同阈值下的本申请算法方法的QN值很接近，这验证了算法的稳定性。

5结论

在本申请中，提出了一个融合层次兴趣模型和局部密度的重叠社区检测模型。与以往的相似性研究者不同，利用本体用户模型的兴趣结构来计算用户之间的内容兴趣接近度和语义兴趣接近度。针对层次主题，将多粒度主题相似性与用户相似性相结合，计算节点的兴趣链密度，进行社区检测。该方案确定了具有相似语义兴趣的群体，从而可以为目标用户提供多粒度的语义相关主题。评估结果表明，与经典方法相比，本申请提出的算法在重叠社区发现的准确率上表现出更好的性能。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种融合兴趣主题与局部密度的重叠社区检测方法，其特征在于：包含以下步骤：

S1：通过本体知识库构建用户层次兴趣模型；

S2：根据用户的层次兴趣模型，构造异类超图；

2.根据权利要求1所述的一种融合兴趣主题与局部密度的重叠社区检测方法，其特征在于，其中，S1的内容如下：

在现有微博网站上，提取重要的名词实体，计算词频和词频的权重，根据本体知识库，根据TF-IDF机制，用层次兴趣主体及其相应权重对用户进行建模；基于本体的用户建模方法能够有效表示用户的各种偏好，以便通过一个多粒度的相似性模型来识别兴趣社区。

3.根据权利要求2所述的一种融合兴趣主题与局部密度的重叠社区检测方法，其特征在于，其中，S2的内容如下：

1)、对于个性化的本体用户，层次主题用于描述用户的兴趣结构，计算每个主题的用户相似性，根据本体论的概念，能够推断出用户在细粒度主题中可能比粗粒主题中更相似，即，较低层次的主题比上层主题能反映出更多的相似性，因此，选择从主题深度来考虑语义效应，为了区分用户之间的兴趣差异，可将用户之间的主题相似度采用经典的余弦相似度进行计算；

2)、微博中的跟帖行为反映用户的兴趣倾向，相互跟贴的用户可能更熟悉彼此，在微博场景中，可将用户之间的跟随相似度形式化表示为公式；然后，将每一层的主题相似度和跟随相似度结合起来，生成一个顶点和带权值的边构成的异类超图；

3)、根据相邻两个顶点共有的跟随相似度和主题相似度计算用户之间的不熟悉程度，不熟悉程度越低说明用户属于同一社区的可能性会越大；本申请将这种用户之间的不熟悉程度定义为异类度；不同用户之间的加权异类度通过设计公式求解。

4.根据权利要求1所述的一种融合兴趣主题与局部密度的重叠社区检测方法，其特征在于，其中，S3中，关于节点的兴趣密度计算的具体内容如下：

在异类超图中，顶点之间的链接数不均匀，这也反映了用户不同的兴趣链接密度；每个顶点的密度各不相同，表明社会网络中的活跃度也不同；本申请使用的方法是将目标主体分配到局部密度最大的类别中，该方法有一个基本假设，即聚类中心一般都具有一个相对较高的局部链路密度，并且与任何一个局部密度较高的点都有较大的距离，在本申请中使用密度峰值思想来确定超图的核心，并分别定义局部密度、密度异类度和图平均密度的三计算公式；其中，局部密度反映了比阈值更接近的目标主体的数量；密度异类度表示用户和任何其他具有较高密度用户之间的最小异类度；图平均密度反映了整个超图中的平均兴趣链接强度；根据顶点的三种密度，选择几个局部密度峰值节点。

5.根据权利要求4所述的一种融合兴趣主题与局部密度的重叠社区检测方法，其特征在于，其中，S3中，关于重叠社区检测的具体内容如下：

1)、设计社区核心的生成算法，并将这些密度峰值节点初始化为初始社区核心，然后将超图划分为几个密集子图；

2)、根据选定的核心，从相邻顶点找到密度相似的节点，并通过适应度来控制社区的规模，社区是由多个超图中顶点的子集组成；通过公式计算社区子图的适应度，用于度量子图中节点的内部边缘和具有其他节点的外部边缘的贡献；

3)、根据兴趣密度特性，设计相应的兴趣社区检测算法，进行兴趣社区检测；

4)、通过检测超图中顶点的覆盖，可以发现每个节点的自然社区；并设计重叠社区检测算法；通过重叠社区检测算法进行重叠社区的检测。