CN103488637B

CN103488637B - 一种基于动态社区挖掘进行专家检索的方法

Info

Publication number: CN103488637B
Application number: CN201210191968.8A
Authority: CN
Inventors: 闫秋玲; 陈薇; 王腾蛟; 杨冬青
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-06-11
Filing date: 2012-06-11
Publication date: 2016-12-14
Anticipated expiration: 2032-06-11
Also published as: CN103488637A

Abstract

本发明提供一种基于动态社区挖掘进行专家检索的方法，针对动态网络环境，同时利用链接结构和内容信息挖掘社区，将链接结构和内容表达为矩阵形式，综合历史社区划分结果，使用非负矩阵分解方法进行社区划分,并对社区划分代价进行迭代处理，使其结果局部最优化，以使社区结果在反映网络的链接特征的同时，还反映话题、兴趣等语义层面的特征，通过利用社区划分结果和社区话题，进行专家搜索，从而实现不同时刻的专家检索。本发明的方法不仅能反映社区成员、规模的变化，还能反映社区的话题分布及其随时间的变化，从而可以将社区挖掘结果直接专家搜索。

Description

一种基于动态社区挖掘进行专家检索的方法

技术领域

本发明涉及网络信息处理技术领域，具体是在动态网络环境下进行社区挖掘，进而利用社区划分结果检索专家。

背景技术

专家检索是指找出一组具有与特定查询条件相关的专业知识的人。现有方法可大致分为三类：第一类是基于候选人的方法，通过将与候选人相关的文档进行组合，形成候选人的专业描述，针对特定查询，专业描述越与查询相关，候选人排名越高。第二类是基于文档的方法。通过比较每一个文档与查询的相关性，对文档相应的候选人进行排名。第三类是利用社会网络进行专家检索。

本发明属于第三类，思路是利用社区划分结果和社区话题，进行专家搜索。与现有工作不同的是，本发明通过利用动态社区挖掘结果，可以在不同时刻进行专家检索。下面介绍动态社区挖掘的相关工作。现实中或互联网上的个体有不同形式的交互关系，从而形成了各种社会网络，如引文网络、朋友网络、邮件互动网络等。对这些社会网络进行分析目的是对社会网络中的个体按照其相似程度进行划分，从而发现在特定方面相似性很高的个体所组成的社区，在社区内部个体的相似性很高，社区间的个体相似性很低。

社会网络随时间在变化，例如，在合作关系网络中，合作关系随时间在变化；在线社交网络中，朋友关系和浏览关系随时间在变化；微博平台中由关注与被关注、转发与评论所形成的弱关系网络也在不断更新。因此，社区挖掘方法应该能适应动态网络环境。针对动态网络环境的社区挖掘不仅能够揭示社区的演化规律，还能预测未来的演化趋势，因此具有极强的应用价值。目前，针对动态网络的社区挖掘方法（简称动态社区挖掘）又分为两类。第一类方法是对动态网络的每一个快照分别进行社区挖掘，再对比不同时间的社区挖掘结果（J.Hopcroft,O.Khan,B.Kulis,and B.Selman,″Tracking evolving communities inlarge linked networks,″presented at the Proc.Natl.Acad.Sci.,2004.）。第二类方法则假设相邻时间的社区挖掘结果应该相似，因此，对每一个快照挖掘社区时，不仅依据当前快照的网络结构，还依据前一时间的社区挖掘结果（D.Chakrabarti,Kumar,R.,& Tomkins,A.,″Evolutionary clustering,″presented at the In Proceedings of the 12th ACMSIGKDD conference,2006.）、（Y.C.Y.Lin,S.Zhu,H.Sundaram,B.Tseng,″FacetNet:AFramework for Analyzing Communities and Their Evolutions in DynamicNetworks,″presented at the WWW 2008.）

无论是第一类方法还是第二类方法都只依据网络的拓扑结构，而忽视了网络中丰富的内容信息。社区挖掘结果也只揭示网络的链接密集情况及其演变，从而限制了应用范围。由于内容信息，比如博客、论文、评论等等，表现了社会网络的语义层面的特征，如个体的兴趣、角色、观点等，在社区挖掘方法中考虑内容因素能够揭示出社区在语义层面的特征，如不同的社区侧重不同的话题。而动态社会网络中，不仅有节点和链接的变化，内容也在变化。例如，在合作网络中，一个研究者会从一个研究方向转移到另一个研究方向，在线社会网络中发布的日志内容在变化，邮件网络中两个人的来往邮件在不同时刻所讨论的内容会不断变化。因此，在动态网络环境中，如果同时利用链接结构和内容信息挖掘社区，不仅能够揭示社区本身随时间的演化过程，还能揭示社区与哪些话题相关联，以及社区的话题随时间的变化过程。

发明内容

本发明针对专家检索给出了针对性的社区划分方法。由于社区本身具有成员分布和话题分布，本发明在专家检索时，利用社区的这两个分布对社区成员进行排名，通过利用社区划分结果和社区话题，进行专家搜索，从而实现不同时刻的专家检索。

本发明针对动态网络，在挖掘动态社区的同时，找出与社区相关的话题。由于社区划分采用的是软分类（以概率形式表示社区划分结果以及社区的话题分布），使得社区划分结果可以直接应用于专家检索。因此，本发明的关键点在于挖掘动态社区。针对动态网络环境，利用链接结构和内容信息挖掘社区，计算拓扑结构代价和内容信息代价，使得结果不仅反映社区规模的变化，还能反映社区的话题分布及其随时间的变化，从而可以将社区挖掘结果直接专家搜索。

本发明提供一种利用动态社区挖掘结果进行专家检索的方法，其步骤包括：

（1）从目标网络获取数据集，按时间段划分成多个子数据集，每个子数据集包括一系列网络快照（G₁,G₂,…,G_T）。时间跨度依具体网络而定，对于更新周期较慢的网络如论文合作网络，由于论文的发表按年份进行统计，因此，时间跨度以年份为单位。而对于更新很快的网络，如微博系统，由于网络每天都有更新，时间跨度应以天为单位；

（2）对每个子数据集使用矩阵分解方法进行社区划分，所述矩阵分解方法的步骤包括：

a)针对每一个网络快照G_t，根据网络节点间的转移概率建立节点相似矩阵W，根据网络节点和文本中的单词间的转移概率建立内容信息矩阵C。节点间的相似性依据特定问题来确定，如节点间的链接次数、邻域的重叠度等等。内容信息矩阵C的构建过程是，对网络中的每一个节点，将与其相关的文本内容合并为一个文本，并表示为词频向量。网络中的所有个体对应的词频向量组成了矩阵C，行和列分别对应网络节点集合和单词集合；

b)根据节点相似矩阵W计算拓扑结构代价cost_w；

c)根据内容信息矩阵C计算内容信息代价cost_c；

d)根据cost_w和cost_c计算社区划分代价cost_total；

e)将社区划分代价近似的网络节点的集合作为一个社区；让F^L＝XU， F^L就是社区划分结果。由于在分解时要求∑_ix_ir=1，即每一个节点的社区成员身份用概率表示，因此一个节点可以属于多个社区；F^C=VU， F^C正是话题在社区上的概率分布，一个话题可以与多个社区有关联，只是关联程度不同；则对应于社区规模；通过匹配相邻时间的社区划分结果，可以找出一个社区在不同时间的成员分布、话题分布，进而分析社区规模、社区的话题随时间的演变情况。匹配社区有多种方法，如欧几里德距离、标准化互信息、相对重叠度等。对于一个社区r，将其成员按x_ir排序，可以找出该社区的核心成员。按话题概率v_jr排序，则可以分析社区相关联的话题。

（3）利用社区划分结果进行专家排名。

下面具体分析动态社区挖掘中的拓扑结构代价、内容信息代价和社区划分代价。

1、拓扑结构代价

对于节点相似矩阵W，如果将w_ij看做节点i到节点j的转移概率，那么其中，p_r是第r个社区的先验概率，p_ir是节点i属于第r个社区的概率，p_jr是节点j属于第r个社区的概率。由于这个混合模型中节点与社区的关系用概率表示，因此，一个节点可以属于多个社区。这个模型表达为矩阵形式，则是W≈XUX^T，其中， k是社区个数，∑_ix_ir=1，x_ir=p_ir；是对角矩阵；u_rr=p_r，∑_ru_rr=1。因此，通过对矩阵W进行分解，可以求得利用矩阵分解结果表达的社区划分结果F^L＝XU，是第i个成员属于社区r的可能性。W与分解结果XUX^T的距离为D(W‖XUX^T)。D(A‖B)是矩阵A、 B的KL距离（Kullback-Leibler Divergence），计算公式是

假设t-1时刻的分解结果是那么链接结构代价可用矩阵的分解形式表示为：

{\cos t}_{w} = &PartialD; \cdot D (W | | {XUX}^{T}) + (1 - &PartialD;) \cdot D (L | | {XUX}^{T}) - - - (1)

其中为时间平滑参数。

2、内容信息代价

社会网络的内容信息在本发明中指文本信息，例如博客文本、邮件文本、Web网页文本等。实际的动态社会网络的拓扑结构是相对稳定的，即在短时间内一般不会剧烈变化，而动态网络中的内容则随着时间在不断变化，有些网络如在线社交网络或微博网络中的内容更新会更快，所以，用一个时间的内容限制另一个时间的内容不符合真实的网络情况，因此我们不考虑历史的内容信息代价。

对于一个网络快照G_t，网络中的各个节点都与某些文本相关联，例如邮件网络中用户发送、接收的邮件、引文网络中研究者所发表或引用的文章等，为了使用矩阵分解方法进行社区划分，我们将内容信息表达为矩阵形式。具体方法是，对于快照G_t中的每一个节点，将与该节点关联的所有文本合并，并表示为词频向量，所有用户对应的词频向量组成内容信息矩阵C_t，行和列分别对应节点集合和单词集合。因此可将G_t表示为（W_t，C_t）。在没有混淆的情况下，下面的篇幅中用（W，C）表示（W_t，C_t）。

对于内容信息矩阵 m和n分别是网络节点个数和单词个数，如果将单词视为另一种节点，可以采用类似于在拓扑结构代价中对W的分解思想，将c_id看做节点i（网络个体）到节点d（单词）的转移概率，其中，p_r是第r个社区的先验概率，p_ir是节点i属于第r个社区的概率，p_dr是单词d和社区r的关联概率。用矩阵形式表达，则为C≈XUV^T，其中， X、U是对W和C分解的共同因子。让F^C=VU，其中是是社区r与第i个话题的关联概率，因此，F^C正是话题在社区上的概率分布。

所以，对C分解的内容信息代价是

cost_C=D(C‖XUV^T)（2）

其中，D(C‖XUV^T)是KL距离，

3、社区划分代价

将链接结构代价和内容信息代价合并，总代价即为社区划分代价，公式为：

{\cos t}_{total} = &PartialD; \cdot D (W | | {XUX}^{T}) + D (C | | {XUV}^{T}) + (1 - &PartialD;) \cdot D (L | | {XUX}^{T}) - - - (3)

其中， k是社区个数，∑_ix_ir=1；是对角矩阵，∑_ru_rr＝1； ∑_jv_jr＝1。L是t-1时刻对W_t-1的分解结果，

为了让结果更优化，对于公式3，采用下面的公式迭代计算X、U、V。

x_{ir} = 2 \cdot Σ_{j} \frac{x_{ir} u_{rr} x_{jr}}{{({XUX}^{T})}_{ij}} (&PartialD; \cdot w_{ij} + (1 - &PartialD;) l_{ij}) + Σ_{n} \frac{x_{ir} u_{rr} v_{nr}}{{({XUV}^{T})}_{in}} c_{in} - - - (4)

其中c_in为矩阵元素。将x_ir标准化，使得∑_ix_ir=1。

u_{rr} = Σ_{ij} \frac{x_{ir} u_{rr} x_{jr}}{{({XUX}^{T})}_{ij}} (&PartialD; \cdot w_{ij} + (1 - &PartialD;) l_{ij}) + Σ_{in} \frac{x_{ir} u_{rr} v_{nr}}{{({XUV}^{T})}_{in}} c_{in} - - - (5)

将u_rr标准化，使得∑_ru_rr=1。

v_{nr} = Σ_{i} \frac{x_{ir} u_{rr} v_{nr}}{{({XUV}^{T})}_{in}} c_{in} - - - (6)

将v_nr标准化，使得∑_nv_nr=1。

其中，x_ir、u_rr、v_nr是前次迭代结果。

采用公式4、5、6将使公式3的矩阵分解结果收敛到局部最优解。

对于上述社区划分代价的高效性，可以通过计算其时间复杂度来说明。本发明的迭代公式的时间复杂度是O(max(m²k，mnk))。如果社区个数k是固定的，时间复杂度为O(max(m²,mn))。当矩阵W、C都是稀疏矩阵时，在更新X、U、V时，只需考虑W和C中不为零的项。假设W和C中的非零项分别有r和q个，r＜＜m，q＜＜n，则时间复杂度是O(max(mr,mq))。

与现有的社区划分技术相比，本发明的有益效果在于：1、所挖掘的社区由链接密集又具有相似内容的成员组成。只使用链接结构的挖掘方法所得的社区只反映了成员的链接相似性，而一个社区的内容则具有多样性。同一个社区中的成员间在兴趣、所关注的话题上也许完全不同，因此，话题无法代表社区。而本发明所得的社区综合了链接结构和内容，一个社区内的成员不仅在链接结构上相似，在内容上也相似，特定社区与特定话题相关联。2、能够揭示社区规模的变化；各个时间社区规模的大小可由方法本身计算得出。3、能够揭示社区话题的分布及随时间的变化。

附图说明

图1为专家检索流程图；

图2为 k=4时，Enron数据集的社区规模的演变情况；

图3为当k＝4时，Enron数据集上社区的话题变化情况。

具体实施方式举例

下面以Enron数据集和Digg数据集为例，结合附图对本发明中的具体实施例作进一步详细说明。

如图1所示，本发明进行专家检索时，首先对网络快照进行分类并排序，然后对同一类的网络快照进行拓扑结构矩阵和内容信息矩阵计算，根据所得的计算结构进行动态社区划分，最终由动态社区划分结果获得专家检索指向。

Enron数据集共1.32GB，包含邮件50万封。邮件大多出自150个用户，他们是Enron公司的高级管理者。我们将Enron数据集按邮件的发送年份划分成四个子数据集，划分的时间段分别是1999年之前、1999年—2000年、2000年—2001年、2001—2002年。对每一个子数据集，按邮件来往关系抽取了由150个用户组成的网络，网络中边的权值设为两个用户间的邮件交互次数，以此建立邻接矩阵；同时，针对每一个用户，将该用户接收、发送的所有邮件合并为一个文档，将所有文档集合预处理（过滤掉停用词、标点等）后，按照“用户-单词”形式构建了内容信息矩阵。

Digg数据集来源于Digg网站，这是一个为用户提供发布新闻、投票、评论功能的社交网站。我们所使用的Digg数据集时间跨度是2008年8月1日到2008年8月15日，包含9583个用户。我们将数据集划分成5个子集，每3天为一个子集。再按照用户间的联系构建网络，并使用了“用户-话题”矩阵序列模型（J.S.Yu-Ru Lin,Paul Castro,Ravi Konuru,HariSundaram,AislingKelliher″MetaFac:community discovery via relationalhypergraph factorization,″presented at the KDD,2009.）作为内容信息矩阵，其中共含51个话题。

对于数据集的第一个时间段，在社区划分时并没有可参考的历史代价，因此，均设为1。后面的各时间段则依据要求设置

下面分别从社区演变、社区话题分布等角度分析本发明的功能。

1、时间平滑参数

时间平滑参数控制代价中的历史代价比重。当为1时，不考虑历史结果，越小，表明历史结果所占比重越大。将社区个数固定为4，让分别取值1、0.8、0.5、0.2。我们对两个数据集分别进行了社区划分，称为全局社区划分，并以此作为基准，以对比取不同值时的结果。实验结果表明，当为0.8时，各个时间的社区划分结果比较接近全局划分结果。

2、社区演变

各个快照G_t所对应的社区划分结果是矩阵X_t，U_t，T_t。X_tU_t对应于网络节点的社区划分结果，U_t是t时刻各个社区的出现概率，T_tU_t是对单词的社区划分结果。由于节点的社区身份表示为概率，而非0或1的标记，为了匹配不同时间的社区，我们采用欧几里德距离衡量两个社区的距离，并用Ut衡量社区规模。图2是当 k=4时，Enron数据集的社区规模的演变情况，其中C1、C2、C3、C4为不同的社区。由于本发明假设动态网络的内容不断变化，并不考虑内容的历史信息，不同时间内容的变化导致了社区规模的起伏；也使得社区挖掘更依赖于当前网络，而非历史信息，正如图2所示，各个社区的规模随时间均有所起伏。

为了分析社区的话题随时间的变化情况，在进行社区匹配后，我们将同一社区在相邻时间的话题进行了对比。矩阵T是社区的话题分布，话题差异是通过计算相邻时间的T_t-1U_t、T_tU_t的相应列的欧几里德距离得出的。图3是当 k＝4时，Enron数据集上社区的话题变化情况。图3中，在t∈(0,2)的时间段中，社区C1的话题差异为0.13，社区C2的话题差异为0.175，社区C3的话题差异为0.07，社区C4的话题差异为0.1；可见，社区C3、C4的话题更集中，而社区C1、C2的话题较为分散；进一步分析C3、C4，在t∈(2,3)这个时间段内，社区C3呈现的斜率几乎为0，说明社区C3内关注的话题在这个时间基本稳定；而社区C4在这个时间段内变化比较大，说明社区C4内成员关注了新话题；在t∈(3,4)时间段内，社区C3内的成员也开始关注新话题了。图3的结果说明，我们可以利用社区划分结果判断各个社区内是否产生或关注了新话题、对老话题的关注度是否在减弱，并利用社区的话题分布矩阵T查找一个社区在某一时间的热门话题。

3、话题

针对Digg数据集，我们抽取了整个网络拓扑信息和内容信息，之后进行社区划分，以分析社区的话题分布情况。

表1列出了Digg数据集中，各个社区的前8个话题词语以及它们在对应社区中的分布概率。可以看出，这四个社区所关注的话题各有侧重，都围绕特定主题。社区C1偏于娱乐话题（如奥林匹克、电影、音乐等），社区C2偏于政治话题（如美国2008年大选、政治观念等），而C3更关注技术方面的话题（如科技新闻、苹果产品、普通科学等），C4则侧重于公共事务方面的话题（如国际新闻、健康、教育等）。

表1 Digg上各个社区的top10话题分布

4、专家搜索

专家搜索的目的是根据查询内容，找出具有相关经验或兴趣背景的人。传统的方法之一是使用语言模型进行专家排名。现有技术中有提出使用社区信息进行专家排名（I.K.Hongbo Deng,Michael R.Lyu,″Enhancing Expertise Retrieval UsingCommunity-aware Strategies,″presented at the CIKM,2009.），给定查询q、社区划分结果以及用户集合用户a_i与q的关系用下面两个公式计算：

p(O_r|q)=p(O_r)∏_s∈qp(s|O_r)（7）

p(a_i|q)=∑_rp(a_i|O_r)p(O_r|q)（8）

我们根据公式7、8，利用迭代公式4、5、6计算出的X、U、V，针对查询进行专家排名。这里，p(O_r)=u_rr；p(s|O_r)=[VU]_jr，j是s在V中的行索引；p(a_i|O_r)=[XU]_ir。。

下面针对Enron数据集在各个时间段的社区划分结果，根据具体的查询，找出对应的专家。表2是搜索结果。可以看出，在时间段1，eric.bass和电力、运输最相关；在时间段3，在天然气、能源领域，louise.kitchen最相关。有意思的是，在三个时间段查询市场方面的专家时，所得结果不同。这从一个侧面反映了Enron公司在几年内的人事变动。

表2在Enron数据集上的专家搜索

Claims

1.一种利用动态社区挖掘结果进行专家检索的方法，其步骤包括：

(1)从目标网络获取数据集，按时间段划分成多个子数据集，每个子数据集包括一系列网络快照，对每个子数据集使用矩阵分解方法进行社区划分，所述矩阵分解方法的步骤包括：

(a)对每一网络快照，根据网络节点间的转移概率建立节点相似矩阵W，根据网络节点和文本中的单词间的转移概率建立内容信息矩阵C；

(b)根据节点相似矩阵W计算拓扑结构代价cost_w；

{cost}_{w} = \partial \cdot D (W | | {XUX}^{T}) + (1 - \partial) \cdot D (L | | {XUX}^{T})

(c)根据内容信息矩阵C计算内容信息代价cost_c；

cost_C＝D(C||XUV^T)

(d)根据cost和cost_c计算社区划分代价cost_total，并进行迭代优化；

{cost}_{t o t a l} = \partial \cdot D (W | | {XUX}^{T}) + D (C | | {XUV}^{T}) + (1 - \partial) \cdot D (L | | {XUX}^{T})

(e)将社区划分代价近似的网络节点的集合作为一个社区；

其中：L为t-1时刻对W_t-1的分解结果，为时间平滑参数，k为社区个数，m为网络节点个数，n为单词个数，t为时刻；D为表示计算两个矩阵的KL距离的函数；

(2)通过匹配相邻时间的社区划分结果，按概率排序，得到专家排名，完成专家检索。

2.如权利要求1所述的方法，其特征在于，所述节点间的相似性依据特定问题来确定，包括节点间的链接次数、邻域的重叠度。

3.如权利要求1所述的方法，其特征在于，所述内容信息包括博客文本、邮件文本、Web网页文本在内的文本信息。

4.如权利要求1所述的方法，其特征在于，所述内容信息代价cost_c不考虑历史的内容信息代价。

5.如权利要求1所述的方法，其特征在于，所述内容信息矩阵C的构建过程是对网络中的每一个节点，将与其相关的文本内容合并为一个文本，并表示为词频向量；网络中的所有个体对应的词频向量组成矩阵C，行和列分别对应网络节点集合和单词集合。

6.如权利要求1所述的方法，其特征在于，所述节点相似矩阵为转移概率矩阵，w_ij为节点i到节点j的转移概率，

其中，p_r是第r个社区的先验概率，p_ir，是节点i属于第r个社区的概率，p_jr是节点j属于第r个社区的概率。

7.如权利要求1所述的方法，其特征在于，所述内容信息矩阵为转移概率矩阵，c_id为网络个体i到单词d的转移概率，

其中，p_r是第r个社区的先验概率，p_ir是节点i属于第r个社区的概率，p_dr是单词d和社区r的关联概率。

8.如权利要求1所述的方法，其特征在于，所述匹配结果按成员概率排序，得到该社区的核心成员；按话题概率排序，得到与社区相关联的话题。

9.如权利要求1所述的方法，其特征在于，所述匹配社区的方法包括根据欧几里德距离或标准化互信息或相对重叠度进行匹配。

10.如权利要求1所述的方法，其特征在于，步骤(d)对X、U、V进行迭代计算；

其中：

u_{r r} = \underset{i j}{Σ} \frac{\overset{\cdot}{x_{i r}} \overset{\cdot}{u_{r r}} \overset{\cdot}{x_{j r}}}{{(\overset{\cdot}{X} \overset{\cdot}{U} \overset{\cdot}{X^{T}})}_{i j}} (\partial \cdot w_{i j} + (1 - \partial) l_{i j}) + Σ_{i n} \frac{\overset{\cdot}{x_{i r}} \overset{\cdot}{u_{r r}} \overset{\cdot}{v_{n r}}}{{(\overset{\cdot}{X} \overset{\cdot}{U} \overset{\cdot}{V^{T}})}_{i n}} c_{i n}; Σ_{r} u_{r r} = 1;

v_{n r} = Σ_{i} \frac{{\overset{\cdot}{x}}_{i r} {\overset{\cdot}{u}}_{r r} {\overset{\cdot}{v}}_{n r}}{{(\overset{\cdot}{X} \overset{\cdot}{U} {\overset{\cdot}{V}}^{T})}_{i n}} c_{i n}; Σ_{n} v_{n r} = 1;

c_in为矩阵元素；是前次迭代结果。