CN113254662B

CN113254662B - 一种基于修剪图谱聚类的学术团队划分方法

Info

Publication number: CN113254662B
Application number: CN202110427174.6A
Authority: CN
Inventors: 张元鸣; 周伟跃; 肖刚; 陆佳炜; 程振波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-06-17
Anticipated expiration: 2041-04-20
Also published as: CN113254662A

Abstract

一种基于修剪图谱聚类的学术团队划分方法，包括以下步骤：1)从海量学术数据中构建学术知识图谱，并从图谱中提取学者间的关系网络；2)计算网络节点相似度和网络整体模块度，根据节点相似度更新关系权重；3)利用模块度增益对关系网络进行团队划分；4)通过团队相似度计算邻接团队聚合导致的模块度增益，并选取模块度增益最大且超过阈值的邻接团队进行聚合，重复迭代直到网络模块度收敛；5)对得到的学术团队进行筛选，去掉不符合特征要求的团队，得到最终学术团队划分结果。本发明能够从高校海量学术数据中准确实现学术团队划分。

Description

一种基于修剪图谱聚类的学术团队划分方法

技术领域

本发明涉及知识图谱、社区发现、智慧校园等领域，特别给出了一种基于修剪图谱聚类的学术团队划分方法。

背景技术

知识图谱本质上是一种揭示实体之间关系的语义网络，可以对现实世界的事务及其相互关系进行形式化地描述。知识图谱的基本组织形式是实体三元组(实体，关系，实体)或属性三元组(实体，属性，属性值)，实体间或实体属性值间通过相关链接构成大规模的结构化网络，即知识图谱。

社区发现指的是根据网络中节点间的相互关系，将节点划分成不同的几个社区，同一社区内的节点与节点之间的连接很紧密，而社区与社区之间的连接比较稀疏。

模块度(Lecture Notes in Computer Science，2008)用来衡量社区划分结果的好坏。如果一个社区划分算法能将连接比较稠密的点划分在一个社区中，而社区之间的连接比较稀疏，这样划分得到的网络模块度的值就会比较大。模块度的提出将传统社区发现算法带入了基于模块度优化算法。基于模块度进行社区发现的Louvain算法(Journal ofStatistical Mechanics-theory and Experiment，2008)可以在无需指定社区数量的情况下，较短时间内实现大规模网络以不同粒度的社区划分，当模块度不再进行增益时，便得到最终的划分结果。但是，该算法得到的最终结果会发现某一个社区中包含的节点会比较多，该社区会包含许多小社区。此外，该算法会引发模块度震荡问题，即计算模块度增益时未考虑节点从原本社区移除的模块度变化，当每次达到更高层次的社区结果时，并非下一次划分的社区质量要比上一次的要好。G_NA算法(计算机应用研究，2018)基于节点属性，使用基于贝叶斯网络的用户节点重要度计算方法归一化网络中所有节点求出每个节点的重要度，再按照Louvain算法的思想对节点进行社区划分，但该算法涉及的节点过多，且未考虑社团划分震荡问题，导致运行时间过长。基于Node2Vec的重叠社区发现算法(计算机系统应用，2020)通过半监督方式学习p，q两个超参数的值，反映深度优先和广度优先两种采样的特性计算各节点相似度，并筛选出种子节点为核心来扩展社区。但此方法需计算每对节点间的相似度，时间复杂度太高，不适合应用于大型网络。

总之，现有的方法并没有考虑到一个学术团队应有的特征，没有专门针对学者的合作关系进行分析，在进行团队发现时，会因为该节点仅仅与团队内的某一个节点有紧密联系而将之加入这个团队中，导致不能得到正确的学术团队划分结果。

发明内容

为了克服现有技术的不足，高校智慧校园积累了海量多样化异构学术数据，基于海量学术数据进行学术团队划分将有助于学术团队建设，发挥科研团队优势，本发明提出一种基于修剪图谱聚类的学术团队发现方法，通过构建学术知识图谱，并根据图谱节点的特征精准地对学者的合作关系进行分析，准确提取相关学术团队。

为了解决上述技术问题本发明提供如下的技术方案：

一种基于修剪图谱聚类的学术团队划分方法，包括以下步骤：

1)构建学术知识图谱

融合多数据源的学者的基本信息、学术论文、纵向项目、横向项目、专利、科研奖励作为知识库，抽取出其中的实体、关系、属性，经过共指消解，构建出面向学者的学术知识图谱；

2)提取学者合作关系

从学术知识图谱中提取学者间的合作关系网络，即形如(学者，合作关系，学者)的三元组，其中合作关系是一个量化的关系权重，初始值设置为合作次数；

3)计算节点的相似度

基于局部链接的方法计算节点相似度，局部链接指节点间直接相链的关系，节点相似度计算公式为：

其中，S(i,j)表示节点i与节点j之间的相似度值，S_t(i)表示节点i与节点i的邻居节点组成的集合，S_t(j)表示节点j与节点j的邻居节点组成的集合，W_e表示与节点V_e直接相链的所有边的权重之

和，计算出节点i与节点j共同邻居节点的权重之和的倒数，将节点i的邻居节点和节点j的邻居节点所带来的影响也考虑其中，使计算得到的节点相似度值更为精确；

根据计算得到的节点相似度对关系权重进行更新，节点相似度能够有效衡量一个学术团队内各成员之间在不同领域合作关系的紧密程度；

4)计算网络模块度

根据步骤3)中计算得到的节点相似度，进一步计算网络的模块度，模块度计算公式为：

其中，∑_in表示网络中边的相似度之和，∑_tot表示与网络中所有节点相链的相似度之和，TS表示网络中所有节点相似度之和；

5)学术团队划分

初始时，每个节点各自隶属一个科研团队，按照节点的序号进行遍历，步骤如下：

(5.1)：计算节点加入其邻居节点的模块度增益，模块度增益计算公式为：

其中，S_in[i]表示群i中边的权重之和，tot[C]表示与C中所有节点与其直接相链的点的相似度的和，S_i[node]表示节点node与其所有直接相链的点的相似度之和，TS表示网络中所有节点相似度之和；

(5.2)：选取节点加入其邻居节点最大的模块度增益，将该邻居作为加入的候选节点；

(5.3)：设置一个模块度增益阈值K，如果上述公式计算得到的ΔQ值超过该阈值，再判断该节点与所要加入的邻居节点所在团队中的任意节点是否有直接合作关系，如果有则加入，否则放弃加入；

6)学术团队聚合

根据步骤5)所得到的学术团队初步划分结果，基于修剪的图聚类方法进行学术团队聚合，目的是将具有内聚性的团队进行融合，步骤如下：

(6.1):利用公式(2)对当前网络的模块度进行计算，将计算所得的值设置为Q₁

(6.2)：将每个学术团队看作一个超节点，边则表示为不同团队中相链的节点之间的相似度之和，利用公式(1)计算团队相似度，记为S(i，j)，其中i，j表示团队i和团队j两个团队；

(6.3)：根据步骤(6.2)计算得到的S(i，j)，进一步计算各个团队加入其邻居团队所带来的模块度增益ΔQ，选择ΔQ的最大值，用ΔQ_max表示，如果ΔQ_max超过阈值K，则选择ΔQ_max对应的学术团队进行聚合；

(6.4)：跳转到步骤(6.1)，不断进行更高层次的团队聚合，直到整个网络的模块度Q1不发生改变，迭代结束；

7)学术团队筛选

考虑到数据稀疏的特性，对步骤6)得到的学术团队进行筛选，去掉不符合团队要求的团队，步骤如下：

(7.1)：对团队内各成员之间在不同领域合作次数进行求和计算，并将所得结果记为M；

(7.2)：设置一个合作次数阈值L，如果M≧L，则该团队为最终得到的学术团队；否则，该团队不符合学术团队的最低要求；

(7.3)：跳转到步骤(7.1)，直到当前团队为学术团队集合中的最后一个，迭代结束；

经过上述步骤从学术知识图谱中划分得到学术团队。

本发明的有益效果表现在：本发明给出的学术团队发现方法能够充分利用知识图谱中实体与实体之间的关系，并根据学者之间合作特点进行团队划分，从而进一步区分各实体之间的联系紧密程度，避免模块度震荡现象的发生，精准地从海量学术知识图谱中实现学术团队划分。

附图说明

图1是学术知识图谱。

图2是学者合作关系网络。

图3是节点相似度。

图4是划分之后的学术团队结果。

图5是学术团队划分流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

参照图1、图2、图3，图4，图5，一种基于修剪图谱聚类的学术团队划分方法，包括以下步骤：

1)构建学术知识图谱

图1给出了一个包含学者基本信息、学术论文、纵向项目、横向项目、专利、科研奖励的知识图谱，基于该知识图谱划分学术团队；

2)提取学者合作关系

从图1学术知识图谱中提取学者之间的合作关系，构建(学者，合作关系，学者)三元组，其中合作关系是一个量化的关系权重，初始值设置为合作次数；以其中一个学者为池**为例其最终三元组集合为：

a)(池**，4，程**)

b)(池**，12，李**)

c)(池**，18，朱**)

d)(池**，14，田**)

e)(池**，3，胡**)

f)(池**，2，梅**)

根据得到的三元组集合，进一步构建学者合作关系图，为方便后续说明，构建的学者合作关系网络如图2所示，其中每条边上均标明了两个学者节点之间的具体合作次数；

3)计算节点相似度

本实施例使用公式(1)计算节点相似度，并更新关系权重，对应图2计算得到的节点相似度具体结果如图3所示，该图以部分节点相似度为例，其中节点自身的节点相似度为1，没有直接相链的节点相似度为0；

4)计算网络模块度

本实施例利用公式(2)对当前网络的模块度进行计算，得到当前网络的模块度Q₀＝0.215；

5)学术团队划分

在得到各节点相似度后，初始时图2中1-15号节点均属于各自一个相应的团队，即一共有15个团队；

计算节点加入其邻居节点的模块度增益，模块度增益计算公式为：

根据步骤3)计算得到的节点相似度，利用公式(3)进一步计算各节点加入其邻居节点的模块度增益ΔQ，并选取节点加入其邻居节点最大的模块度增益并记为ΔQ_max，将该邻居作为加入的候选节点；以1号节点为例，该节点加入2号节点的模块度增益最大，且ΔQ_max＝3.201；设定一个阈值K＝2.1，该阈值为经验值，此时ΔQ_max>K，此时2号节点所属团队只有一个节点，则1号节点加入2号节点所属团队；

6)学术团队融合：

根据步骤5)所得到的学术团队初步划分结果，利用公式(2)对当前网络的模块度进行计算，所得的值为Q₁＝0.475；

由步骤5)可以得到1、2、3、4、5、6、7号节点已经为一个学术团队，则将该7个节点所组成的团队合并成一个超节点1号节点，边则表示为不同团队中相链的节点之间的相似度之和，利用公式(1)计算团队相似度，可以得到如下团队相似度集合：

{

S(1，8)，S(1，9)，S(1，10)，S(1，11)，S(1，12)，S(1，13)，S(1，14)，S(1，15),S(8，9),S(8，10),S(8，11),S(8，12),S(8，13),S(8，14),S(8，15),S(9，10),S(9，11),S(9，12),S(9，13),S(9，14),S(9，15),S(10，11),S(10，12),S(10，13),S(10，14),S(10，15),S(11，12),S(11，13),S(11，14),S(11，15),S(12，13),S(12，14),S(12，15),S(13，14),S(13，15),S(14，15)

}；

根据得到的S(i，j)集合，进一步计算1号节点与剩余的8、9、10、11、12、13、14、15号节点的模块度增益ΔQ，选择模块度增益最大的值记为ΔQ_max，如果ΔQ_max超过阈值K，则选择ΔQ_max对应的团队进行融合；

以1号节点为例，1号节点融合8号节点所属团队的模块度增益最大，ΔQ_max＝1.269；此时ΔQ_max<K，则放弃融合；不断进行更高层次的网络聚合，得到最终网络的模块度Q1＝0.477，迭代结束；

通过上述步骤得到的学术团队为{1、2、3、4、5、6、7}、{8、9、10、11、12、13、14、15}；

7)学术团队筛选

对步骤6)得到的2个学术团队分别进行筛选，以{1、2、3、4、5、6、7}团队为例，对团队内部1-7号节点在不同领域合作次数进行求和计算，得到结果M＝153；根据现有数据，设置当前合作次数阈值L＝60；此时M>L，则该团队为最终得到的学术团队；

经过上述步骤得到划分好的学术团队为{1、2、3、4、5、6、7}、{8、9、10、11、12、13、14、15}；

图4给出了从图1的学术知识图谱中划分得到的22个团队，左侧是团队的名称，右侧展示了其中的四个团队。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于修剪图谱聚类的学术团队划分方法，其特征在于，所述方法包括以下步骤：

1)构建学术知识图谱

融合多数据源的学者的基本信息、学术论文、纵向项目、横向项目、专利、科研奖励作为知识库，抽取出其中的实体、关系和属性，经过共指消解，构建出面向学者的学术知识图谱；

2)提取学者合作关系

3)计算节点的相似度

其中，S(i,j)表示节点i与节点j之间的相似度值，S_t(i)表示节点i与节点i的邻居节点组成的集合，S_t(j)表示节点j与节点j的邻居节点组成的集合，W_e表示与节点V_e直接相链的所有边的权重之和，计算出节点i与节点j共同邻居节点的权重之和的倒数

，将节点i的邻居节点和节点j的邻居节点所带来的影响也考虑其中，使计算得到的节点相似度值更为精确；

4)计算网络模块度

5)学术团队划分

其中，S_in[i]表示群i中边的权重之和，tot[C]表示C中所有节点与其直接相链的点的相似度的和，S_i[node]表示节点node与其所有直接相链的点的相似度之和，TS表示网络中所有节点相似度之和；

(5.3)：设置一个模块度增益阈值K，如果上述公式计算得到的△Q值超过该阈值，再判断该节点与所要加入的邻居节点所在团队中的任意节点是否有直接合作关系，如果有则加入，否则放弃加入；

6)学术团队聚合

(6.3)：根据步骤(6.2)计算得到的S(i，j)，进一步计算各个团队加入其邻居团队所带来的模块度增益△Q，选择△Q的最大值，用△Q_max表示，如果△Q_max超过阈值K，则选择△Q_max对应的学术团队进行聚合；

7)学术团队筛选

经过上述步骤从学术知识图谱中划分得到学术团队。