CN113254662B - 一种基于修剪图谱聚类的学术团队划分方法 - Google Patents

一种基于修剪图谱聚类的学术团队划分方法 Download PDF

Info

Publication number
CN113254662B
CN113254662B CN202110427174.6A CN202110427174A CN113254662B CN 113254662 B CN113254662 B CN 113254662B CN 202110427174 A CN202110427174 A CN 202110427174A CN 113254662 B CN113254662 B CN 113254662B
Authority
CN
China
Prior art keywords
node
team
academic
similarity
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110427174.6A
Other languages
English (en)
Other versions
CN113254662A (zh
Inventor
张元鸣
周伟跃
肖刚
陆佳炜
程振波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110427174.6A priority Critical patent/CN113254662B/zh
Publication of CN113254662A publication Critical patent/CN113254662A/zh
Application granted granted Critical
Publication of CN113254662B publication Critical patent/CN113254662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于修剪图谱聚类的学术团队划分方法,包括以下步骤:1)从海量学术数据中构建学术知识图谱,并从图谱中提取学者间的关系网络;2)计算网络节点相似度和网络整体模块度,根据节点相似度更新关系权重;3)利用模块度增益对关系网络进行团队划分;4)通过团队相似度计算邻接团队聚合导致的模块度增益,并选取模块度增益最大且超过阈值的邻接团队进行聚合,重复迭代直到网络模块度收敛;5)对得到的学术团队进行筛选,去掉不符合特征要求的团队,得到最终学术团队划分结果。本发明能够从高校海量学术数据中准确实现学术团队划分。

Description

一种基于修剪图谱聚类的学术团队划分方法
技术领域
本发明涉及知识图谱、社区发现、智慧校园等领域,特别给出了一种基于修剪图谱聚类的学术团队划分方法。
背景技术
知识图谱本质上是一种揭示实体之间关系的语义网络,可以对现实世界的事务及其相互关系进行形式化地描述。知识图谱的基本组织形式是实体三元组(实体,关系,实体)或属性三元组(实体,属性,属性值),实体间或实体属性值间通过相关链接构成大规模的结构化网络,即知识图谱。
社区发现指的是根据网络中节点间的相互关系,将节点划分成不同的几个社区,同一社区内的节点与节点之间的连接很紧密,而社区与社区之间的连接比较稀疏。
模块度(Lecture Notes in Computer Science,2008)用来衡量社区划分结果的好坏。如果一个社区划分算法能将连接比较稠密的点划分在一个社区中,而社区之间的连接比较稀疏,这样划分得到的网络模块度的值就会比较大。模块度的提出将传统社区发现算法带入了基于模块度优化算法。基于模块度进行社区发现的Louvain算法(Journal ofStatistical Mechanics-theory and Experiment,2008)可以在无需指定社区数量的情况下,较短时间内实现大规模网络以不同粒度的社区划分,当模块度不再进行增益时,便得到最终的划分结果。但是,该算法得到的最终结果会发现某一个社区中包含的节点会比较多,该社区会包含许多小社区。此外,该算法会引发模块度震荡问题,即计算模块度增益时未考虑节点从原本社区移除的模块度变化,当每次达到更高层次的社区结果时,并非下一次划分的社区质量要比上一次的要好。G_NA算法(计算机应用研究,2018)基于节点属性,使用基于贝叶斯网络的用户节点重要度计算方法归一化网络中所有节点求出每个节点的重要度,再按照Louvain算法的思想对节点进行社区划分,但该算法涉及的节点过多,且未考虑社团划分震荡问题,导致运行时间过长。基于Node2Vec的重叠社区发现算法(计算机系统应用,2020)通过半监督方式学习p,q两个超参数的值,反映深度优先和广度优先两种采样的特性计算各节点相似度,并筛选出种子节点为核心来扩展社区。但此方法需计算每对节点间的相似度,时间复杂度太高,不适合应用于大型网络。
总之,现有的方法并没有考虑到一个学术团队应有的特征,没有专门针对学者的合作关系进行分析,在进行团队发现时,会因为该节点仅仅与团队内的某一个节点有紧密联系而将之加入这个团队中,导致不能得到正确的学术团队划分结果。
发明内容
为了克服现有技术的不足,高校智慧校园积累了海量多样化异构学术数据,基于海量学术数据进行学术团队划分将有助于学术团队建设,发挥科研团队优势,本发明提出一种基于修剪图谱聚类的学术团队发现方法,通过构建学术知识图谱,并根据图谱节点的特征精准地对学者的合作关系进行分析,准确提取相关学术团队。
为了解决上述技术问题本发明提供如下的技术方案:
一种基于修剪图谱聚类的学术团队划分方法,包括以下步骤:
1)构建学术知识图谱
融合多数据源的学者的基本信息、学术论文、纵向项目、横向项目、专利、科研奖励作为知识库,抽取出其中的实体、关系、属性,经过共指消解,构建出面向学者的学术知识图谱;
2)提取学者合作关系
从学术知识图谱中提取学者间的合作关系网络,即形如(学者,合作关系,学者)的三元组,其中合作关系是一个量化的关系权重,初始值设置为合作次数;
3)计算节点的相似度
基于局部链接的方法计算节点相似度,局部链接指节点间直接相链的关系,节点相似度计算公式为:
Figure BDA0003028396010000021
其中,S(i,j)表示节点i与节点j之间的相似度值,St(i)表示节点i与节点i的邻居节点组成的集合,St(j)表示节点j与节点j的邻居节点组成的集合,We表示与节点Ve直接相链的所有边的权重之
Figure BDA0003028396010000022
和,计算出节点i与节点j共同邻居节点的权重之和的倒数,将节点i的邻居节点和节点j的邻居节点所带来的影响也考虑其中,使计算得到的节点相似度值更为精确;
根据计算得到的节点相似度对关系权重进行更新,节点相似度能够有效衡量一个学术团队内各成员之间在不同领域合作关系的紧密程度;
4)计算网络模块度
根据步骤3)中计算得到的节点相似度,进一步计算网络的模块度,模块度计算公式为:
Figure BDA0003028396010000031
其中,∑in表示网络中边的相似度之和,∑tot表示与网络中所有节点相链的相似度之和,TS表示网络中所有节点相似度之和;
5)学术团队划分
初始时,每个节点各自隶属一个科研团队,按照节点的序号进行遍历,步骤如下:
(5.1):计算节点加入其邻居节点的模块度增益,模块度增益计算公式为:
Figure BDA0003028396010000032
其中,Sin[i]表示群i中边的权重之和,tot[C]表示与C中所有节点与其直接相链的点的相似度的和,Si[node]表示节点node与其所有直接相链的点的相似度之和,TS表示网络中所有节点相似度之和;
(5.2):选取节点加入其邻居节点最大的模块度增益,将该邻居作为加入的候选节点;
(5.3):设置一个模块度增益阈值K,如果上述公式计算得到的ΔQ值超过该阈值,再判断该节点与所要加入的邻居节点所在团队中的任意节点是否有直接合作关系,如果有则加入,否则放弃加入;
6)学术团队聚合
根据步骤5)所得到的学术团队初步划分结果,基于修剪的图聚类方法进行学术团队聚合,目的是将具有内聚性的团队进行融合,步骤如下:
(6.1):利用公式(2)对当前网络的模块度进行计算,将计算所得的值设置为Q1
(6.2):将每个学术团队看作一个超节点,边则表示为不同团队中相链的节点之间的相似度之和,利用公式(1)计算团队相似度,记为S(i,j),其中i,j表示团队i和团队j两个团队;
(6.3):根据步骤(6.2)计算得到的S(i,j),进一步计算各个团队加入其邻居团队所带来的模块度增益ΔQ,选择ΔQ的最大值,用ΔQmax表示,如果ΔQmax超过阈值K,则选择ΔQmax对应的学术团队进行聚合;
(6.4):跳转到步骤(6.1),不断进行更高层次的团队聚合,直到整个网络的模块度Q1不发生改变,迭代结束;
7)学术团队筛选
考虑到数据稀疏的特性,对步骤6)得到的学术团队进行筛选,去掉不符合团队要求的团队,步骤如下:
(7.1):对团队内各成员之间在不同领域合作次数进行求和计算,并将所得结果记为M;
(7.2):设置一个合作次数阈值L,如果M≧L,则该团队为最终得到的学术团队;否则,该团队不符合学术团队的最低要求;
(7.3):跳转到步骤(7.1),直到当前团队为学术团队集合中的最后一个,迭代结束;
经过上述步骤从学术知识图谱中划分得到学术团队。
本发明的有益效果表现在:本发明给出的学术团队发现方法能够充分利用知识图谱中实体与实体之间的关系,并根据学者之间合作特点进行团队划分,从而进一步区分各实体之间的联系紧密程度,避免模块度震荡现象的发生,精准地从海量学术知识图谱中实现学术团队划分。
附图说明
图1是学术知识图谱。
图2是学者合作关系网络。
图3是节点相似度。
图4是划分之后的学术团队结果。
图5是学术团队划分流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
参照图1、图2、图3,图4,图5,一种基于修剪图谱聚类的学术团队划分方法,包括以下步骤:
1)构建学术知识图谱
图1给出了一个包含学者基本信息、学术论文、纵向项目、横向项目、专利、科研奖励的知识图谱,基于该知识图谱划分学术团队;
2)提取学者合作关系
从图1学术知识图谱中提取学者之间的合作关系,构建(学者,合作关系,学者)三元组,其中合作关系是一个量化的关系权重,初始值设置为合作次数;以其中一个学者为池**为例其最终三元组集合为:
a)(池**,4,程**)
b)(池**,12,李**)
c)(池**,18,朱**)
d)(池**,14,田**)
e)(池**,3,胡**)
f)(池**,2,梅**)
根据得到的三元组集合,进一步构建学者合作关系图,为方便后续说明,构建的学者合作关系网络如图2所示,其中每条边上均标明了两个学者节点之间的具体合作次数;
3)计算节点相似度
基于局部链接的方法计算节点相似度,局部链接指节点间直接相链的关系,节点相似度计算公式为:
Figure BDA0003028396010000051
其中,S(i,j)表示节点i与节点j之间的相似度值,St(i)表示节点i与节点i的邻居节点组成的集合,St(j)表示节点j与节点j的邻居节点组成的集合,We表示与节点Ve直接相链的所有边的权重之
Figure BDA0003028396010000052
和,计算出节点i与节点j共同邻居节点的权重之和的倒数,将节点i的邻居节点和节点j的邻居节点所带来的影响也考虑其中,使计算得到的节点相似度值更为精确;
本实施例使用公式(1)计算节点相似度,并更新关系权重,对应图2计算得到的节点相似度具体结果如图3所示,该图以部分节点相似度为例,其中节点自身的节点相似度为1,没有直接相链的节点相似度为0;
4)计算网络模块度
根据步骤3)中计算得到的节点相似度,进一步计算网络的模块度,模块度计算公式为:
Figure BDA0003028396010000061
其中,∑in表示网络中边的相似度之和,∑tot表示与网络中所有节点相链的相似度之和,TS表示网络中所有节点相似度之和;
本实施例利用公式(2)对当前网络的模块度进行计算,得到当前网络的模块度Q0=0.215;
5)学术团队划分
在得到各节点相似度后,初始时图2中1-15号节点均属于各自一个相应的团队,即一共有15个团队;
计算节点加入其邻居节点的模块度增益,模块度增益计算公式为:
Figure BDA0003028396010000062
其中,Sin[i]表示群i中边的权重之和,tot[C]表示与C中所有节点与其直接相链的点的相似度的和,Si[node]表示节点node与其所有直接相链的点的相似度之和,TS表示网络中所有节点相似度之和;
根据步骤3)计算得到的节点相似度,利用公式(3)进一步计算各节点加入其邻居节点的模块度增益ΔQ,并选取节点加入其邻居节点最大的模块度增益并记为ΔQmax,将该邻居作为加入的候选节点;以1号节点为例,该节点加入2号节点的模块度增益最大,且ΔQmax=3.201;设定一个阈值K=2.1,该阈值为经验值,此时ΔQmax>K,此时2号节点所属团队只有一个节点,则1号节点加入2号节点所属团队;
6)学术团队融合:
根据步骤5)所得到的学术团队初步划分结果,利用公式(2)对当前网络的模块度进行计算,所得的值为Q1=0.475;
由步骤5)可以得到1、2、3、4、5、6、7号节点已经为一个学术团队,则将该7个节点所组成的团队合并成一个超节点1号节点,边则表示为不同团队中相链的节点之间的相似度之和,利用公式(1)计算团队相似度,可以得到如下团队相似度集合:
{
S(1,8),S(1,9),S(1,10),S(1,11),S(1,12),S(1,13),S(1,14),S(1,15),S(8,9),S(8,10),S(8,11),S(8,12),S(8,13),S(8,14),S(8,15),S(9,10),S(9,11),S(9,12),S(9,13),S(9,14),S(9,15),S(10,11),S(10,12),S(10,13),S(10,14),S(10,15),S(11,12),S(11,13),S(11,14),S(11,15),S(12,13),S(12,14),S(12,15),S(13,14),S(13,15),S(14,15)
};
根据得到的S(i,j)集合,进一步计算1号节点与剩余的8、9、10、11、12、13、14、15号节点的模块度增益ΔQ,选择模块度增益最大的值记为ΔQmax,如果ΔQmax超过阈值K,则选择ΔQmax对应的团队进行融合;
以1号节点为例,1号节点融合8号节点所属团队的模块度增益最大,ΔQmax=1.269;此时ΔQmax<K,则放弃融合;不断进行更高层次的网络聚合,得到最终网络的模块度Q1=0.477,迭代结束;
通过上述步骤得到的学术团队为{1、2、3、4、5、6、7}、{8、9、10、11、12、13、14、15};
7)学术团队筛选
对步骤6)得到的2个学术团队分别进行筛选,以{1、2、3、4、5、6、7}团队为例,对团队内部1-7号节点在不同领域合作次数进行求和计算,得到结果M=153;根据现有数据,设置当前合作次数阈值L=60;此时M>L,则该团队为最终得到的学术团队;
经过上述步骤得到划分好的学术团队为{1、2、3、4、5、6、7}、{8、9、10、11、12、13、14、15};
图4给出了从图1的学术知识图谱中划分得到的22个团队,左侧是团队的名称,右侧展示了其中的四个团队。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (1)

1.一种基于修剪图谱聚类的学术团队划分方法,其特征在于,所述方法包括以下步骤:
1)构建学术知识图谱
融合多数据源的学者的基本信息、学术论文、纵向项目、横向项目、专利、科研奖励作为知识库,抽取出其中的实体、关系和属性,经过共指消解,构建出面向学者的学术知识图谱;
2)提取学者合作关系
从学术知识图谱中提取学者间的合作关系网络,即形如(学者,合作关系,学者)的三元组,其中合作关系是一个量化的关系权重,初始值设置为合作次数;
3)计算节点的相似度
基于局部链接的方法计算节点相似度,局部链接指节点间直接相链的关系,节点相似度计算公式为:
Figure FDA0003028392000000011
其中,S(i,j)表示节点i与节点j之间的相似度值,St(i)表示节点i与节点i的邻居节点组成的集合,St(j)表示节点j与节点j的邻居节点组成的集合,We表示与节点Ve直接相链的所有边的权重之和,计算出节点i与节点j共同邻居节点的权重之和的倒数
Figure FDA0003028392000000012
,将节点i的邻居节点和节点j的邻居节点所带来的影响也考虑其中,使计算得到的节点相似度值更为精确;
根据计算得到的节点相似度对关系权重进行更新,节点相似度能够有效衡量一个学术团队内各成员之间在不同领域合作关系的紧密程度;
4)计算网络模块度
根据步骤3)中计算得到的节点相似度,进一步计算网络的模块度,模块度计算公式为:
Figure FDA0003028392000000013
其中,∑in表示网络中边的相似度之和,∑tot表示与网络中所有节点相链的相似度之和,TS表示网络中所有节点相似度之和;
5)学术团队划分
初始时,每个节点各自隶属一个科研团队,按照节点的序号进行遍历,步骤如下:
(5.1):计算节点加入其邻居节点的模块度增益,模块度增益计算公式为:
Figure FDA0003028392000000021
其中,Sin[i]表示群i中边的权重之和,tot[C]表示C中所有节点与其直接相链的点的相似度的和,Si[node]表示节点node与其所有直接相链的点的相似度之和,TS表示网络中所有节点相似度之和;
(5.2):选取节点加入其邻居节点最大的模块度增益,将该邻居作为加入的候选节点;
(5.3):设置一个模块度增益阈值K,如果上述公式计算得到的△Q值超过该阈值,再判断该节点与所要加入的邻居节点所在团队中的任意节点是否有直接合作关系,如果有则加入,否则放弃加入;
6)学术团队聚合
根据步骤5)所得到的学术团队初步划分结果,基于修剪的图聚类方法进行学术团队聚合,目的是将具有内聚性的团队进行融合,步骤如下:
(6.1):利用公式(2)对当前网络的模块度进行计算,将计算所得的值设置为Q1
(6.2):将每个学术团队看作一个超节点,边则表示为不同团队中相链的节点之间的相似度之和,利用公式(1)计算团队相似度,记为S(i,j),其中i,j表示团队i和团队j两个团队;
(6.3):根据步骤(6.2)计算得到的S(i,j),进一步计算各个团队加入其邻居团队所带来的模块度增益△Q,选择△Q的最大值,用△Qmax表示,如果△Qmax超过阈值K,则选择△Qmax对应的学术团队进行聚合;
(6.4):跳转到步骤(6.1),不断进行更高层次的团队聚合,直到整个网络的模块度Q1不发生改变,迭代结束;
7)学术团队筛选
考虑到数据稀疏的特性,对步骤6)得到的学术团队进行筛选,去掉不符合团队要求的团队,步骤如下:
(7.1):对团队内各成员之间在不同领域合作次数进行求和计算,并将所得结果记为M;
(7.2):设置一个合作次数阈值L,如果M≧L,则该团队为最终得到的学术团队;否则,该团队不符合学术团队的最低要求;
(7.3):跳转到步骤(7.1),直到当前团队为学术团队集合中的最后一个,迭代结束;
经过上述步骤从学术知识图谱中划分得到学术团队。
CN202110427174.6A 2021-04-20 2021-04-20 一种基于修剪图谱聚类的学术团队划分方法 Active CN113254662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427174.6A CN113254662B (zh) 2021-04-20 2021-04-20 一种基于修剪图谱聚类的学术团队划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427174.6A CN113254662B (zh) 2021-04-20 2021-04-20 一种基于修剪图谱聚类的学术团队划分方法

Publications (2)

Publication Number Publication Date
CN113254662A CN113254662A (zh) 2021-08-13
CN113254662B true CN113254662B (zh) 2022-06-17

Family

ID=77221495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427174.6A Active CN113254662B (zh) 2021-04-20 2021-04-20 一种基于修剪图谱聚类的学术团队划分方法

Country Status (1)

Country Link
CN (1) CN113254662B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869053A (zh) * 2016-03-23 2016-08-17 西安电子科技大学 基于两阶段memetic的社交网络影响最大化方法
CN106600430B (zh) * 2016-11-10 2020-11-17 南京财经大学 一种社区网络检测方法及装置
CN107153713B (zh) * 2017-05-27 2018-02-23 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN110674318A (zh) * 2019-08-14 2020-01-10 中国科学院计算机网络信息中心 一种基于引文网络社区发现的数据推荐方法
CN111428056A (zh) * 2020-04-26 2020-07-17 中国烟草总公司郑州烟草研究院 一种科研人员合作社区的构建方法及装置

Also Published As

Publication number Publication date
CN113254662A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN111159425A (zh) 一种基于历史关系和双图卷积网络的时态知识图谱表示方法
CN101894275B (zh) 一种弱监督的sar图像分类方法
CN110164129B (zh) 基于gernn的单交叉口多车道交通流量预测方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN106127229A (zh) 一种基于时间序列类别的计算机数据分类方法
CN115114421A (zh) 一种问答模型训练方法
CN113554100A (zh) 异构图注意力网络增强的Web服务分类方法
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
CN113987203A (zh) 一种基于仿射变换与偏置建模的知识图谱推理方法与系统
CN110717043A (zh) 基于网络表示学习训练的学术团队构建方法
CN113254662B (zh) 一种基于修剪图谱聚类的学术团队划分方法
CN112562312B (zh) 一种基于融合特征的GraphSAGE交通路网数据预测的方法
CN113326884A (zh) 大规模异构图节点表示的高效学习方法及装置
CN112131403A (zh) 一种动态环境下的知识图谱表示学习方法
CN104657743A (zh) 一种半监督的最小最大模块化模式分类方法
Yang et al. FedDD: Federated double distillation in IoV
CN115063251A (zh) 基于关系强度与反馈机制的社交传播动态网络表示方法
CN112347369A (zh) 基于网络表征的集成学习动态社会网络链路预测方法
CN117971354B (zh) 基于端到端学习的异构加速方法、装置、设备及存储介质
Wang et al. On composition and decomposition of networks
Lu et al. Fast Calibration of Agent-Based Model using Mean-Field Approach
CN113535510B (zh) 一种大规模数据中心数据采集的自适应抽样模型优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant