CN110533253B - 一种基于异构信息网络的科研合作关系预测方法 - Google Patents

一种基于异构信息网络的科研合作关系预测方法 Download PDF

Info

Publication number
CN110533253B
CN110533253B CN201910832856.8A CN201910832856A CN110533253B CN 110533253 B CN110533253 B CN 110533253B CN 201910832856 A CN201910832856 A CN 201910832856A CN 110533253 B CN110533253 B CN 110533253B
Authority
CN
China
Prior art keywords
author
path
node
meta
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910832856.8A
Other languages
English (en)
Other versions
CN110533253A (zh
Inventor
陈志立
杨晴
叶凡
仲红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910832856.8A priority Critical patent/CN110533253B/zh
Publication of CN110533253A publication Critical patent/CN110533253A/zh
Application granted granted Critical
Publication of CN110533253B publication Critical patent/CN110533253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异构信息网络的科研合作关系预测方法,包括如下步骤:1、科技文献异构网络转化为作者‑作者同构网络;2、同构网络中作者节点的向量表示;3、作者间的相似度计算。本发明应用于对任意两个尚未合作过的作者,预测他们在未来合作的可能性,从而有效解决作者‑作者同构网络中的信息丢失和单一化问题,以增加合作预测的准确性,帮助学者更高效的进行科学研究。

Description

一种基于异构信息网络的科研合作关系预测方法
技术领域
本发明属于信息检索技术领域,具体涉及一种基于异构信息网络的科研合作关系预测方法。
背景技术
近年来,随着研究问题的多样化和复杂化,多学科交叉融合也越来越普遍,同时学者研究方向的变化也使得各个领域间的作者合作关系逐渐增多。从庞大的学术数字图书馆中找到最有价值的合作者是个极大的挑战。这使得科研合作关系预测变得越来越重要。
目前,已有的科研合作关系预测主要采用基于相似性的方法以及基于机器学习的方法,基于相似性的方法主要针对文本相似性和结构相似性,但文本相似性的计算依赖于作者的相关属性信息,但在很多情况下,作者的属性信息无法获取,相对于文本相似性,结构相似性利用网络中节点的拓扑信息从而判定作者间的相似度,其更加具有普适性。其中,文献[The link-prediction problem for social network,2007]在合著网络中通过比较几种网络中的节点拓扑相似性指数判定作者间的相似度,包括共同邻居、Jaccard、SimRank以及Katz等,通过实验分析,Katz指标优于其他几种相似度计算,基于机器学习的方法主要利用分类模型尤其是二分类的思想预测作者间的合作,文献[Predicting co-authorrelationship in medical co-authorship network,2014]将科研合作预测看作二分类问题,在合著网络中将结构相似性指标作为特征,进而训练模型,并采用logistic回归和SVM作为预测模型,预测作者节点之间的链接,但上述方法都是基于同构网络的,虽然计算简单,但丢失了丰富的语义信息,可能会导致预测结果出现误差。
此外,也有少量研究是基于异构网络的,其中,文献[Co-author relationshipprediction in heterogeneous bibliographic network,2011]率先将基于元路径的拓扑特征应用到异构网络中,并使用logistic回归模型预测合作关系,但此方法使用的几种拓扑特征计算复杂性较高。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出了一种基于异构信息网络的科研合作关系预测方法,以期能避免丢失语义信息,同时能简化计算,从而提高科技文献异构网络中作者之间的合作关系预测的准确性,帮助学者进行更高效的研究。
本发明为解决技术问题采用如下技术方案:
本发明一种基于异构信息网络的科研合作关系预测方法的特点是按如下步骤进行:
步骤1、科技文献异构网络转化为作者-作者同构网络:
步骤1.1、构建所述科技文献异构网络G=(V,E);其中,V表示所述科技文献异构网络中的节点集合,所述节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集;所述作者节点集记为A={A1,A2,...,Ai,...,Aa},Ai表示第i个作者节点,1≤i≤a;所述论文节点集记为P={P1,P2,...Pw,...Pp},Pw表示第w个论文节点,1≤w≤p;所述会议节点集记为C={C1,C2,...Cn,...Cc},Cn表示第n个会议节点,1≤n≤c;所述术语节点集记为D={D1,D2,...Dr,...Dd},Dr表示第r个术语节点,1≤r≤d;E表示节点之间的关系所形成的边集合,包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系;
步骤1.2、遍历所述科技文献异构网络中的节点集合V,从而获取元路径集Y=(Y1,Y2,...,Yj,...,YL),其中,Yj表示第j条元路径,且Yj=(Yj1,Yj2,...,Yjg,...,Yjy),Yjg表示第j条元路径Yj上的第g个节点,1≤g≤y;1≤j≤L;
步骤1.2.1、初始化j=1;
步骤1.2.2、定义变量τ,并初始化τ=1;
步骤1.2.3、在所述科技文献异构网络G中将未被访问的第i个作者节点Ai作为当前第τ个访问节点并加入到第j条元路径Yj中,并设置当前第j条元路径Yj的节点个数countj=1;
步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j条元路径Yj中,并将countj的值加1;
步骤1.2.5、判断countj<Wmax是否成立,若成立,将τ+1赋值给τ后,重复步骤1.2.4,否则,执行步骤1.2.6;其中,Wmax表示所设定的阈值;
步骤1.2.6、生成第j条元路径Yj
步骤1.2.6.1、定义变量β,并初始化β=0;
步骤1.2.6.2、判断第j条元路径Yj上第Wmax-β个节点
Figure GDA0002958842270000021
是否存在于作者节点集A中,若存在,则生成第j条元路径Yj,执行步骤1.2.7;否则,删除第Wmax-β个节点
Figure GDA0002958842270000022
步骤1.2.6.3、将β+1赋值给β,返回步骤1.2.6.2;
步骤1.2.7、将j+1赋值给j后,判断j≤L是否成立,若成立,则返回步骤1.2.2执行,否则,生成元路径集Y;
步骤1.3、生成作者-作者同构网络:
步骤1.3.1、根据所述元路径集Y,得到元路径类型的集合为S={S1,...Sq,...Ss},其中,Sq表示第q个类型的元路径,且
Figure GDA0002958842270000031
Figure GDA0002958842270000032
表示第q个类型的元路径Sq中第ψ个类型的节点集;且
Figure GDA0002958842270000033
Figure GDA0002958842270000034
表示第q个类型的元路径Sq中第ψ个节点集
Figure GDA0002958842270000035
中的第μ个节点,1≤μ≤η;
Figure GDA0002958842270000036
Figure GDA0002958842270000037
表示第q个类型的元路径Sq中第ψ-1个节点集
Figure GDA0002958842270000038
中的第φ个节点,1≤q≤s;
Figure GDA0002958842270000039
判断第q个类型的元路径Sq是否对称,且第q个类型的元路径Sq中的节点个数是否为奇数,若是,则执行步骤1.3.2,否则,执行步骤1.3.3;
步骤1.3.2、将第q个类型的元路径Sq分解为两个等长的子元路径
Figure GDA00029588422700000310
Figure GDA00029588422700000311
其中,
Figure GDA00029588422700000312
表示第q个类型的元路径Sq的中间节点集;
令m(ψ-1)ψ表示第μ个节点
Figure GDA00029588422700000313
与第φ个节点
Figure GDA00029588422700000314
是否存在连边,若存在,则令m(ψ-1)ψ=1,否则,令m(ψ-1)ψ=0,从而构造表示科技文献异构网络G中的节点集
Figure GDA00029588422700000315
与节点集
Figure GDA00029588422700000316
的邻接矩阵Mψ-1,ψ,则第一个子元路径Sq1的交换矩阵表示为Mq1=MA,1×M1,2×...×Me-1,e,第二个子元路径Sq2的交换矩阵表示为Mq2=Me,e+1×Me+1,e+2×....×Mu,A
利用式(1)生成第q个类型的元路径Sq的作者-作者矩阵Mq
Figure GDA00029588422700000317
式(1)中,
Figure GDA00029588422700000318
为第一个子元路径Sq1的交换矩阵Mq1归一化后的矩阵,
Figure GDA00029588422700000319
为第二个子元路径Sq2的交换矩阵Mq2归一化后的矩阵;
步骤1.3.3、在第q个类型的元路径Sq中增加与第e个类型的节点集Qe和第e+1个类型的节点集Qe+1都存在连接的一个类型的节点集Fq,从而生成更新后的第q个类型的元路径
Figure GDA0002958842270000041
将更新后的第q个类型的元路径
Figure GDA0002958842270000042
分解为两个等长的子元路径
Figure GDA0002958842270000043
Figure GDA0002958842270000044
则第一个更新后的子元路径
Figure GDA0002958842270000045
的交换矩阵表示为
Figure GDA0002958842270000046
第二个更新后的子元路径
Figure GDA0002958842270000047
的交换矩阵表示为
Figure GDA0002958842270000048
利用式(2)生成更新后的第q种类型的元路径
Figure GDA0002958842270000049
的作者-作者矩阵
Figure GDA00029588422700000410
Figure GDA00029588422700000411
式(2)中,
Figure GDA00029588422700000412
为交换矩阵
Figure GDA00029588422700000413
归一化后的矩阵,
Figure GDA00029588422700000414
为交换矩阵
Figure GDA00029588422700000415
归一化后的矩阵;
步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M:
Figure GDA00029588422700000416
式(3)中,
Figure GDA00029588422700000417
表示由第q种类型的元路径Sq或更新后的第q种类型的元路径
Figure GDA00029588422700000418
生成的作者-作者矩阵Mq
Figure GDA00029588422700000419
λq表示第q种类型的元路径Sq
Figure GDA00029588422700000420
的权重,且
Figure GDA00029588422700000421
步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′=(A,ε);其中,ε表示作者节点集A中各个作者节点之间的边;
步骤2、对作者-作者同构网络G′中的作者节点进行向量表示:
步骤2.1、令Xiu表示第i个作者Ai和第u个作者Au之间是否存在合作关系的一个变量,若存在,则令Xiu=1,否则,令Xiu=0,从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X;
使用工具word2vec将第i个作者Ai所包含的作者属性信息转换成第i个特征向量,从而由a个特征向量构成a×h维的作者特征矩阵H,其中,h为特征向量的维数;
步骤2.2、利用式(4)生成作者节点嵌入矩阵Z=[z1,...,zi,.,za],zi表示第i个作者节点Ai的向量表示:
Z=g1(H,X) (4)
式(4)中,g1()为两层的图卷积网络;
步骤2.3、利用式(5)生成重构邻接矩阵
Figure GDA0002958842270000051
并使用式(6)计算第i个作者Ai与第u个作者Au之间存在连边的概率
Figure GDA0002958842270000052
Figure GDA0002958842270000053
Figure GDA0002958842270000054
式(6)中,zu表示第u个作者节点Au的向量表示;
Figure GDA0002958842270000055
表示重构邻接矩阵
Figure GDA0002958842270000056
中第i个作者Ai和第u个作者Au是否存在合作关系的一个变量,若存在,令
Figure GDA0002958842270000057
否则,令
Figure GDA0002958842270000058
步骤2.4、通过最小化式(7)所示的损失函数lg更新作者节点嵌入矩阵Z,从而得到更新后的作者节点嵌入矩阵
Figure GDA0002958842270000059
Figure GDA00029588422700000510
表示更新后的第i个作者节点Ai的向量表示:
Figure GDA00029588422700000511
步骤3、计算作者-作者同构网络G′=(A,ε)中作者间的相似度;
步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者Ai的向量表示
Figure GDA00029588422700000512
与更新后的第u个作者Au的向量表示
Figure GDA00029588422700000513
之间的余弦相似度
Figure GDA00029588422700000514
与Tanimoto系数
Figure GDA00029588422700000515
Figure GDA00029588422700000516
Figure GDA00029588422700000517
步骤3.2、利用式(10)得到更新后的第i个作者Ai的向量表示
Figure GDA00029588422700000518
与第u个作者Au的向量表示
Figure GDA00029588422700000519
之间的相似度
Figure GDA00029588422700000520
从而得到更新后的第i个作者Ai的向量表示
Figure GDA00029588422700000521
与其他作者的向量表示之间的相似度,并从中选择最大相似度所对应的作者作为第i个作者Ai所预测的最终合作对象:
Figure GDA00029588422700000522
式(10)中,θ表示Tanimoto系数
Figure GDA00029588422700000523
所占的权重,并有:
Figure GDA0002958842270000061
式(11)中,R表示与第i个作者Ai和第u个作者Au之间拥有相同合作关系的作者的数量,即R=|AIi∩AIu|num,其中AIi表示与第i个作者Ai合作的作者集,AIu表示与第u个作者Au合作的作者集,B表示与第i个作者Ai拥有合作关系以及与第u个作者Au拥有合作关系的所有作者的数量,即B=|AIi∪AIu|num
与现有技术相比,本发明的有益效果在于:
1、本发明通过采用元路径抽取的方法,将科技文献异构网络转化为同构网络,既解决了科技文献异构网络中节点拓扑特征的计算而带来的计算复杂性过高的问题,又解决了同构网络中因节点的单一化导致的语义信息丢失的问题,从而大大增加了作者合作预测结果的准确率。
2、本发明通过使用图自编码模型,从而获得节点的向量表示;解决了科研合作网络中的稀疏向量带来的维度过高问题。
3、本发明通过融合两种相似度计算的方法,避免了因仅使用一种相似度带来的计算误差问题,从而也提高了作者合作关系预测的准确性。
附图说明
图1为本发明一种基于异构信息网络的科研合作关系预测方法的实施步骤流程图;
图2为本发明的DBLP网络图;
图3为本发明使用的DBLP网络的网络模式图;
具体实施方式
本实施例中,一种基于异构信息网络的科研合作关系预测方法,该方法应用于对任意两个尚未合作过的作者,预测他们在未来合作的可能性;具体的说,如图1所示,是按如下步骤进行:
步骤1、科技文献异构网络转化为作者-作者同构网络:
步骤1.1、构建科技文献异构网络G=(V,E);其中,V表示科技文献异构网络中的节点集合,节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集;作者节点集记为A={A1,A2,...,Ai,...,Aa},Ai表示第i个作者节点,1≤i≤a;论文节点集记为P={P1,P2,...Pw,...Pp},Pw表示第w个论文节点,1≤w≤p;会议节点集记为C={C1,C2,...Cn,...Cc},Cn表示第n个会议节点,1≤n≤c;术语节点集记为D={D1,D2,...Dr,...Dd},Dr表示第r个术语节点,1≤r≤d;E表示节点之间的关系所形成的边集合,包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系;
步骤1.2、遍历科技文献异构网络中的节点集合V,从而获取元路径集Y=(Y1,Y2,...,Yj,...,YL),其中,Yj表示第j个元路径,且Yj=(Yj1,Yj2,...,Yjg,...,Yjy),Yjg表示第j个元路径Yj上的第g个节点,1≤g≤y;1≤j≤L;
步骤1.2.1、初始化j=1;
步骤1.2.2、定义变量τ,并初始化τ=1;
步骤1.2.3、在科技文献异构网络G中将未被访问的第i个作者节点Ai作为当前第τ个访问节点并加入到第j个元路径Yj中,并设置当前第j个元路径Yj的节点个数countj=1;
步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j个元路径Yj中,并将countj的值加1;
步骤1.2.5、判断countj<Wmax是否成立,若成立,将τ+1赋值给τ后,重复步骤1.2.4,否则,执行步骤1.2.6;其中,Wmax表示所设定的阈值;
根据社交网络中的“六度分隔”理论,所设定的阈值Wmax需小于9,才能使得到的以作者节点作为起始节点和终止节点的元路径有意义,本实施例中所设的Wmax=6;
步骤1.2.6、生成第j个元路径Yj
步骤1.2.6.1、定义变量β,并初始化β=0;
步骤1.2.6.2、判断第j个元路径Yj上第Wmax-β个节点
Figure GDA0002958842270000071
是否存在于作者节点集A中,若存在,则生成第j个元路径Yj,执行步骤1.2.7;否则,删除第Wmax-β个节点
Figure GDA0002958842270000072
步骤1.2.6.3、将β+1赋值给β,返回步骤1.2.6.2;
步骤1.2.7、将j+1赋值给j后,判断j≤L是否成立,若成立,则返回步骤1.2.2执行,否则,生成元路径集Y;
如图2所示,为对DBLP网络中的数据集进行操作时所采用的网络模式,通过该网络模式,获取节点之间的边的关系,从而得到网络中的元路径。
如图3所示,本实施例所选科技文献异构网络为DBLP网络,使用DBLP网络中的科技文献数据集对本发明所提出的方法进行验证,遍历图2所示的DBLP网络中的节点,根据上述的步骤,得到网络中的元路径为A1P2A4、A1P1A4、A1P1C1P4A2、A1P3C1P4A2,A1P6C2P5A2,A1P6C2P5A3则所得的元路径集合为Y={A1P2A4,A1P1A4,A1P1C1P4A2,A1P3C1P4A2,A1P6C2P5A2,A1P6C2P5A3};
步骤1.3、生成作者-作者同构网络:
步骤1.3.1、根据元路径集Y,得到元路径类型的集合为S={S1,...Sq,...Ss},其中,Sq表示第q个类型的元路径,且
Figure GDA0002958842270000081
Figure GDA0002958842270000082
表示第q个类型的元路径Sq中第ψ个类型的节点集;1≤q≤s;
Figure GDA0002958842270000083
Figure GDA0002958842270000084
表示第q个类型的元路径Sq中第ψ个节点集
Figure GDA0002958842270000085
中的第μ个节点,1≤μ≤η;
Figure GDA0002958842270000086
Figure GDA0002958842270000087
表示第q个类型的元路径Sq中第ψ-1个节点集
Figure GDA0002958842270000088
中的第φ个节点,
Figure GDA0002958842270000089
判断第q个类型的元路径Sq是否对称,且第q个类型的元路径Sq中的节点个数是否为奇数,若是,则执行步骤1.3.2,否则,执行步骤1.3.3;
步骤1.3.2、将第q个类型的元路径Sq分解为两个等长的子元路径
Figure GDA00029588422700000810
Figure GDA00029588422700000811
其中,
Figure GDA00029588422700000812
表示第q个类型的元路径Sq的中间节点集;
令m(ψ-1)ψ表示第μ个节点
Figure GDA00029588422700000813
与第φ个节点
Figure GDA00029588422700000814
是否存在连边,若存在,则令m(ψ-1)ψ=1,否则,令m(ψ-1)ψ=0,从而构造表示科技文献异构网络G中的节点集
Figure GDA00029588422700000815
与节点集
Figure GDA00029588422700000816
的邻接矩阵Mψ-1,ψ,则第一个子元路径Sq1的交换矩阵表示为Mq1=MA,1×M1,2×...×Me-1,e,第二个子元路径Sq2的交换矩阵表示为Mq2=Me,e+1×Me+1,e+2×....×Mu,A
利用式(1)生成第q个类型的元路径Sq的作者-作者矩阵Mq
Figure GDA0002958842270000091
式(1)中,
Figure GDA0002958842270000092
为第一个子元路径Sq1的交换矩阵Mq1归一化后的矩阵,
Figure GDA0002958842270000093
为第二个子元路径Sq2的交换矩阵Mq2归一化后的矩阵;
步骤1.3.3、在第q个类型的元路径Sq中增加与第e个类型的节点集Qe和第e+1个类型的节点集Qe+1都存在连接的一个类型的节点集Fq,从而生成更新后的第q个类型的元路径
Figure GDA0002958842270000094
将更新后的第q个类型的元路径
Figure GDA0002958842270000095
分解为两个等长的子元路径
Figure GDA0002958842270000096
Figure GDA0002958842270000097
则第一个更新后的子元路径
Figure GDA0002958842270000098
的交换矩阵表示为
Figure GDA0002958842270000099
第二个更新后的子元路径
Figure GDA00029588422700000910
的交换矩阵表示为
Figure GDA00029588422700000911
利用式(2)生成更新后的第q种类型的元路径
Figure GDA00029588422700000912
的作者-作者矩阵
Figure GDA00029588422700000913
Figure GDA00029588422700000914
式(2)中,
Figure GDA00029588422700000915
为矩阵
Figure GDA00029588422700000916
归一化后的矩阵,
Figure GDA00029588422700000917
为矩阵
Figure GDA00029588422700000918
归一化后的矩阵;
步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M:
Figure GDA00029588422700000919
式(3)中,
Figure GDA00029588422700000920
表示由第q种类型的元路径Sq或更新后的第q种类型的元路径
Figure GDA00029588422700000921
生成的作者-作者矩阵Mq
Figure GDA00029588422700000922
λq表示第q种类型的元路径Sq
Figure GDA00029588422700000923
的权重,且
Figure GDA00029588422700000924
本实施例的具体步骤:通过元路径集合Y,得到元路径类型的集合为S={APA,APCPA},
对于元路径类型APA,将APA分解为S11=AP和S12=PA,将上述子元路径S11的节点集A和P之间的邻接矩阵表示为MA,P,其归一化后的邻接矩阵为
Figure GDA00029588422700000925
则S11的交换矩阵即
Figure GDA00029588422700000926
由于APA是对称的,S12的交换矩阵为M12=M11 T,其中T为矩阵的转置,则生成的作者-作者矩阵M1=M11×M12;对于元路径类型APCPA,将其分解为S21=APC和S22=CPA,将子元路径S21的节点集P和C的邻接矩阵表示为MP,C,则S21的交换矩阵表示为M21=MA,P×MP,C,并将M21归一化得
Figure GDA0002958842270000101
APCPA是对称的,则S22归一化后的交换矩阵
Figure GDA0002958842270000102
因此生成的作者-作者矩阵
Figure GDA0002958842270000103
对于元路径类型集S的作者-作者矩阵M=λ1M12M2,λ1和λ2分别表示元路径APA和APCPA所占的权重,且λ12=1;
步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′=(A,ε);其中,ε表示作者节点集A中各个作者节点之间的边;
步骤2、使用图自编码模型对作者-作者同构网络G′中的作者节点进行向量表示:
步骤2.1、令Xiu表示第i个作者Ai和第u个作者Au之间是否存在合作关系的一个变量,若存在,则令Xiu=1,否则,令Xiu=0,从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X;
使用工具word2vec将第i个作者Ai所包含的作者属性信息转换成第i个特征向量,从而由a个特征向量构成a×h维的作者特征矩阵H,其中,h为特征向量的维数;
步骤2.2、利用式(4)生成作者节点嵌入矩阵Z=[z1,...,zi,.,za],zi表示第i个作者节点Ai的向量表示:
Z=g1(H,X) (4)
式(4)中,g1( )为两层的图卷积网络;
步骤2.3、利用式(5)生成重构邻接矩阵
Figure GDA0002958842270000104
并使用式(6)计算第i个作者Ai与第u个作者Au之间存在连边的概率
Figure GDA0002958842270000105
Figure GDA0002958842270000106
Figure GDA0002958842270000107
式(6)中,zu表示第u个作者节点Au的向量表示;
Figure GDA0002958842270000108
表示重构邻接矩阵
Figure GDA0002958842270000109
中第i个作者Ai和第u个作者Au是否存在合作关系的一个变量,若存在,令
Figure GDA00029588422700001010
否则,令
Figure GDA00029588422700001011
步骤2.4、通过最小化式(7)所示的损失函数lg更新作者节点嵌入矩阵Z,从而得到更新后的作者节点嵌入矩阵
Figure GDA0002958842270000111
Figure GDA0002958842270000112
表示更新后的第i个作者节点Ai的向量表示:
Figure GDA0002958842270000113
步骤3、计算作者-作者同构网络G′=(A,ε)中作者间的相似度;
步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者Ai的向量表示
Figure GDA0002958842270000114
与更新后的第u个作者Au的向量表示
Figure GDA0002958842270000115
之间的余弦相似度
Figure GDA0002958842270000116
与Tanimoto系数
Figure GDA0002958842270000117
Figure GDA0002958842270000118
Figure GDA0002958842270000119
步骤3.2、利用式(10)得到更新后的第i个作者Ai的向量表示
Figure GDA00029588422700001110
与第u个作者Au的向量表示
Figure GDA00029588422700001111
之间的相似度
Figure GDA00029588422700001112
从而得到更新后的第i个作者Ai的向量表示
Figure GDA00029588422700001113
与其他作者的向量表示之间的相似度,并从中选择最大相似度所对应的作者作为第i个作者Ai所预测的最终合作对象:
Figure GDA00029588422700001114
式(10)中,θ表示Tanimoto系数
Figure GDA00029588422700001115
所占的权重,1-θ表示余弦相似度
Figure GDA00029588422700001116
所占的权重,则通过式(11)计算θ:
Figure GDA00029588422700001117
式(11)中,R表示与第i个作者Ai和第u个作者Au之间拥有相同合作关系的作者的数量,即R=|AIi∩AIu|num,其中AIi表示与第i个作者Ai合作的作者集,AIu表示与第u个作者Au合作的作者集,B表示与第i个作者Ai拥有合作关系以及与第u个作者Au拥有合作关系的所有作者的数量,即B=|AIi∪AIu|num。值得注意的是,在上述θ的计算中,不考虑B=0且R=0,即第i个作者Ai和第u个作者Au单独撰写论文的情况。

Claims (1)

1.一种基于异构信息网络的科研合作关系预测方法,其特征是按如下步骤进行:
步骤1、科技文献异构网络转化为作者-作者同构网络:
步骤1.1、构建所述科技文献异构网络G=(V,E);其中,V表示所述科技文献异构网络中的节点集合,所述节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集;所述作者节点集记为A={A1,A2,...,Ai,...,Aa},Ai表示第i个作者节点,1≤i≤a;所述论文节点集记为P={P1,P2,...Pw,...Pp},Pw表示第w个论文节点,1≤w≤p;所述会议节点集记为C={C1,C2,...Cn,...Cc},Cn表示第n个会议节点,1≤n≤c;所述术语节点集记为D={D1,D2,...Dr,...Dd},Dr表示第r个术语节点,1≤r≤d;E表示节点之间的关系所形成的边集合,包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系;
步骤1.2、遍历所述科技文献异构网络中的节点集合V,从而获取元路径集Y=(Y1,Y2,...,Yj,...,YL),其中,Yj表示第j条元路径,且Yj=(Yj1,Yj2,...,Yjg,...,Yjy),Yjg表示第j条元路径Yj上的第g个节点,1≤g≤y;1≤j≤L;
步骤1.2.1、初始化j=1;
步骤1.2.2、定义变量τ,并初始化τ=1;
步骤1.2.3、在所述科技文献异构网络G中将未被访问的第i个作者节点Ai作为当前第τ个访问节点并加入到第j条元路径Yj中,并设置当前第j条元路径Yj的节点个数countj=1;
步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j条元路径Yj中,并将countj的值加1;
步骤1.2.5、判断countj<Wmax是否成立,若成立,将τ+1赋值给τ后,重复步骤1.2.4,否则,执行步骤1.2.6;其中,Wmax表示所设定的阈值;
步骤1.2.6、生成第j条元路径Yj
步骤1.2.6.1、定义变量β,并初始化β=0;
步骤1.2.6.2、判断第j条元路径Yj上第Wmax-β个节点
Figure FDA0002958842260000011
是否存在于作者节点集A中,若存在,则生成第j条元路径Yj,执行步骤1.2.7;否则,删除第Wmax-β个节点
Figure FDA0002958842260000012
步骤1.2.6.3、将β+1赋值给β,返回步骤1.2.6.2;
步骤1.2.7、将j+1赋值给j后,判断j≤L是否成立,若成立,则返回步骤1.2.2执行,否则,生成元路径集Y;
步骤1.3、生成作者-作者同构网络:
步骤1.3.1、根据所述元路径集Y,得到元路径类型的集合为S={S1,...Sq,...Ss},其中,Sq表示第q个类型的元路径,且
Figure FDA0002958842260000021
Figure FDA0002958842260000022
表示第q个类型的元路径Sq中第ψ个类型的节点集;且
Figure FDA0002958842260000023
Figure FDA0002958842260000024
表示第q个类型的元路径Sq中第ψ个节点集
Figure FDA0002958842260000025
中的第μ个节点,1≤μ≤η;
Figure FDA0002958842260000026
Figure FDA0002958842260000027
表示第q个类型的元路径Sq中第ψ-1个节点集
Figure FDA0002958842260000028
中的第φ个节点,1≤q≤s;
Figure FDA00029588422600000219
判断第q个类型的元路径Sq是否对称,且第q个类型的元路径Sq中的节点个数是否为奇数,若是,则执行步骤1.3.2,否则,执行步骤1.3.3;
步骤1.3.2、将第q个类型的元路径Sq分解为两个等长的子元路径
Figure FDA0002958842260000029
Figure FDA00029588422600000210
其中,
Figure FDA00029588422600000211
表示第q个类型的元路径Sq的中间节点集;
令m(ψ-1)ψ表示第μ个节点
Figure FDA00029588422600000212
与第φ个节点
Figure FDA00029588422600000213
是否存在连边,若存在,则令m(ψ-1)ψ=1,否则,令m(ψ-1)ψ=0,从而构造表示科技文献异构网络G中的节点集
Figure FDA00029588422600000214
与节点集
Figure FDA00029588422600000215
的邻接矩阵Mψ-1,ψ,则第一个子元路径Sq1的交换矩阵表示为Mq1=MA,1×M1,2×...×Me-1,e,第二个子元路径Sq2的交换矩阵表示为Mq2=Me,e+1×Me+1,e+2×....×Mu,A
利用式(1)生成第q个类型的元路径Sq的作者-作者矩阵Mq
Figure FDA00029588422600000216
式(1)中,
Figure FDA00029588422600000217
为第一个子元路径Sq1的交换矩阵Mq1归一化后的矩阵,
Figure FDA00029588422600000218
为第二个子元路径Sq2的交换矩阵Mq2归一化后的矩阵;
步骤1.3.3、在第q个类型的元路径Sq中增加与第e个类型的节点集Qe和第e+1个类型的节点集Qe+1都存在连接的一个类型的节点集Fq,从而生成更新后的第q个类型的元路径
Figure FDA0002958842260000031
将更新后的第q个类型的元路径
Figure FDA0002958842260000032
分解为两个等长的子元路径
Figure FDA0002958842260000033
Figure FDA0002958842260000034
则第一个更新后的子元路径
Figure FDA0002958842260000035
的交换矩阵表示为
Figure FDA0002958842260000036
第二个更新后的子元路径
Figure FDA0002958842260000037
的交换矩阵表示为
Figure FDA0002958842260000038
利用式(2)生成更新后的第q种类型的元路径
Figure FDA0002958842260000039
的作者-作者矩阵
Figure FDA00029588422600000310
Figure FDA00029588422600000311
式(2)中,
Figure FDA00029588422600000312
为交换矩阵
Figure FDA00029588422600000313
归一化后的矩阵,
Figure FDA00029588422600000314
为交换矩阵
Figure FDA00029588422600000315
归一化后的矩阵;
步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M:
Figure FDA00029588422600000316
式(3)中,
Figure FDA00029588422600000317
表示由第q种类型的元路径Sq或更新后的第q种类型的元路径
Figure FDA00029588422600000318
生成的作者-作者矩阵Mq
Figure FDA00029588422600000319
λq表示第q种类型的元路径Sq
Figure FDA00029588422600000320
的权重,且
Figure FDA00029588422600000321
步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′=(A,ε);其中,ε表示作者节点集A中各个作者节点之间的边;
步骤2、对作者-作者同构网络G′中的作者节点进行向量表示:
步骤2.1、令Xiu表示第i个作者Ai和第u个作者Au之间是否存在合作关系的一个变量,若存在,则令Xiu=1,否则,令Xiu=0,从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X;
使用工具word2vec将第i个作者Ai所包含的作者属性信息转换成第i个特征向量,从而由a个特征向量构成a×h维的作者特征矩阵H,其中,h为特征向量的维数;
步骤2.2、利用式(4)生成作者节点嵌入矩阵Z=[z1,...,zi,.,za],zi表示第i个作者节点Ai的向量表示:
Z=g1(H,X) (4)
式(4)中,g1()为两层的图卷积网络;
步骤2.3、利用式(5)生成重构邻接矩阵
Figure FDA0002958842260000041
并使用式(6)计算第i个作者Ai与第u个作者Au之间存在连边的概率
Figure FDA0002958842260000042
Figure FDA0002958842260000043
Figure FDA0002958842260000044
式(6)中,zu表示第u个作者节点Au的向量表示;
Figure FDA0002958842260000045
表示重构邻接矩阵
Figure FDA0002958842260000046
中第i个作者Ai和第u个作者Au是否存在合作关系的一个变量,若存在,令
Figure FDA0002958842260000047
否则,令
Figure FDA0002958842260000048
步骤2.4、通过最小化式(7)所示的损失函数lg更新作者节点嵌入矩阵Z,从而得到更新后的作者节点嵌入矩阵
Figure FDA0002958842260000049
Figure FDA00029588422600000410
表示更新后的第i个作者节点Ai的向量表示:
Figure FDA00029588422600000411
步骤3、计算作者-作者同构网络G′=(A,ε)中作者间的相似度;
步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者Ai的向量表示
Figure FDA00029588422600000412
与更新后的第u个作者Au的向量表示
Figure FDA00029588422600000413
之间的余弦相似度
Figure FDA00029588422600000414
与Tanimoto系数
Figure FDA00029588422600000415
Figure FDA00029588422600000416
Figure FDA00029588422600000417
步骤3.2、利用式(10)得到更新后的第i个作者Ai的向量表示
Figure FDA00029588422600000418
与第u个作者Au的向量表示
Figure FDA00029588422600000419
之间的相似度
Figure FDA00029588422600000420
从而得到更新后的第i个作者Ai的向量表示
Figure FDA00029588422600000421
与其他作者的向量表示之间的相似度,并从中选择最大相似度所对应的作者作为第i个作者Ai所预测的最终合作对象:
Figure FDA00029588422600000422
式(10)中,θ表示Tanimoto系数
Figure FDA00029588422600000423
所占的权重,并有:
Figure FDA0002958842260000051
式(11)中,R表示与第i个作者Ai和第u个作者Au之间拥有相同合作关系的作者的数量,即R=|AIi∩AIu|num,其中AIi表示与第i个作者Ai合作的作者集,AIu表示与第u个作者Au合作的作者集,B表示与第i个作者Ai拥有合作关系以及与第u个作者Au拥有合作关系的所有作者的数量,即B=|AIi∪AIu|num
CN201910832856.8A 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法 Active CN110533253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910832856.8A CN110533253B (zh) 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832856.8A CN110533253B (zh) 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法

Publications (2)

Publication Number Publication Date
CN110533253A CN110533253A (zh) 2019-12-03
CN110533253B true CN110533253B (zh) 2021-05-25

Family

ID=68666789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832856.8A Active CN110533253B (zh) 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法

Country Status (1)

Country Link
CN (1) CN110533253B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434706A (zh) * 2020-03-23 2021-09-24 北京国双科技有限公司 学术合作关系分析方法及装置
CN112148776B (zh) * 2020-09-29 2024-05-03 清华大学 基于引入语义信息的神经网络的学术关系预测方法和装置
CN113222207B (zh) * 2021-02-24 2024-02-02 广东省汇智项目管理咨询有限公司 基于社区结构的招投标公司网络关系预测方法及预测系统
CN113282612A (zh) * 2021-07-21 2021-08-20 中国人民解放军国防科技大学 一种基于科学合作异质网络分析的作者会议推荐方法
CN115037630B (zh) * 2022-04-29 2023-10-20 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN109710835A (zh) * 2018-11-15 2019-05-03 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577579B (zh) * 2013-11-08 2015-01-21 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN104133843B (zh) * 2014-06-25 2017-07-04 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
US10929763B2 (en) * 2016-08-26 2021-02-23 Nec Corporation Recommender system for heterogeneous log pattern editing operation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN109710835A (zh) * 2018-11-15 2019-05-03 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Scientific Collaborator Recommendation in Heterogeneous Bibliographic Networks;Chen Yang, et al.;《2015 48th Hawaii International Conference on System Sciences》;20151231;第552-561页 *
面向作者消岐和合作预测领域的作者相似度算法述评;单嵩岩 等;《东北师大学报(自然科学版)》;20190630;第51卷(第2期);第71-80页 *

Also Published As

Publication number Publication date
CN110533253A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110533253B (zh) 一种基于异构信息网络的科研合作关系预测方法
Zhang et al. Scalable multiplex network embedding.
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
Yan et al. Rare feature selection in high dimensions
Qi et al. Link prediction across networks by biased cross-network sampling
CN112669916A (zh) 一种基于对比学习的分子图表示学习方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
Wang et al. Novel and efficient randomized algorithms for feature selection
CN113743675B (zh) 一种云服务QoS深度学习预测模型的构建方法和系统
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
Nasiri et al. A node representation learning approach for link prediction in social networks using game theory and K-core decomposition
CN116010708A (zh) 一种基于知识图谱的多对比学习推荐方法
Amara et al. Cross-network representation learning for anchor users on multiplex heterogeneous social network
Deng et al. Network Intrusion Detection Based on Sparse Autoencoder and IGA‐BP Network
Wang et al. Ccasgnn: Collaborative cascade prediction based on graph neural networks
Hajewski et al. An evolutionary approach to variational autoencoders
CN113159976B (zh) 一种微博网络重要用户的识别方法
Liu et al. Behaviornet: A fine-grained behavior-aware network for dynamic link prediction
CN115545833A (zh) 一种基于用户社交信息的推荐方法及系统
CN112836511B (zh) 基于协同关系的知识图谱上下文嵌入方法
Thierens Linkage tree genetic algorithm: First results
CN114896977A (zh) 一种物联网实体服务信任值的动态评估方法
Samhitha et al. A novel community detection method for collaborative networks
CN110858311B (zh) 基于深度非负矩阵分解的链路预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant