CN110533253A - 一种基于异构信息网络的科研合作关系预测方法 - Google Patents

一种基于异构信息网络的科研合作关系预测方法 Download PDF

Info

Publication number
CN110533253A
CN110533253A CN201910832856.8A CN201910832856A CN110533253A CN 110533253 A CN110533253 A CN 110533253A CN 201910832856 A CN201910832856 A CN 201910832856A CN 110533253 A CN110533253 A CN 110533253A
Authority
CN
China
Prior art keywords
author
node
path
indicate
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910832856.8A
Other languages
English (en)
Other versions
CN110533253B (zh
Inventor
陈志立
杨晴
叶凡
仲红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910832856.8A priority Critical patent/CN110533253B/zh
Publication of CN110533253A publication Critical patent/CN110533253A/zh
Application granted granted Critical
Publication of CN110533253B publication Critical patent/CN110533253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异构信息网络的科研合作关系预测方法,包括如下步骤:1、科技文献异构网络转化为作者‑作者同构网络;2、同构网络中作者节点的向量表示;3、作者间的相似度计算。本发明应用于对任意两个尚未合作过的作者,预测他们在未来合作的可能性,从而有效解决作者‑作者同构网络中的信息丢失和单一化问题,以增加合作预测的准确性,帮助学者更高效的进行科学研究。

Description

一种基于异构信息网络的科研合作关系预测方法
技术领域
本发明属于信息检索技术领域,具体涉及一种基于异构信息网络的科研合作关系预测方法。
背景技术
近年来,随着研究问题的多样化和复杂化,多学科交叉融合也越来越普遍,同时学者研究方向的变化也使得各个领域间的作者合作关系逐渐增多。从庞大的学术数字图书馆中找到最有价值的合作者是个极大的挑战。这使得科研合作关系预测变得越来越重要。
目前,已有的科研合作关系预测主要采用基于相似性的方法以及基于机器学习的方法,基于相似性的方法主要针对文本相似性和结构相似性,但文本相似性的计算依赖于作者的相关属性信息,但在很多情况下,作者的属性信息无法获取,相对于文本相似性,结构相似性利用网络中节点的拓扑信息从而判定作者间的相似度,其更加具有普适性。其中,文献[The link-prediction problem for social network,2007]在合著网络中通过比较几种网络中的节点拓扑相似性指数判定作者间的相似度,包括共同邻居、Jaccard、SimRank以及Katz等,通过实验分析,Katz指标优于其他几种相似度计算,基于机器学习的方法主要利用分类模型尤其是二分类的思想预测作者间的合作,文献[Predicting co-authorrelationship in medical co-authorship network,2014]将科研合作预测看作二分类问题,在合著网络中将结构相似性指标作为特征,进而训练模型,并采用logistic回归和SVM作为预测模型,预测作者节点之间的链接,但上述方法都是基于同构网络的,虽然计算简单,但丢失了丰富的语义信息,可能会导致预测结果出现误差。
此外,也有少量研究是基于异构网络的,其中,文献[Co-author relationshipprediction in heterogeneous bibliographic network,2011]率先将基于元路径的拓扑特征应用到异构网络中,并使用logistic回归模型预测合作关系,但此方法使用的几种拓扑特征计算复杂性较高。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出了一种基于异构信息网络的科研合作关系预测方法,以期能避免丢失语义信息,同时能简化计算,从而提高科技文献异构网络中作者之间的合作关系预测的准确性,帮助学者进行更高效的研究。
本发明为解决技术问题采用如下技术方案:
本发明一种基于异构信息网络的科研合作关系预测方法的特点是按如下步骤进行:
步骤1、科技文献异构网络转化为作者-作者同构网络:
步骤1.1、构建所述科技文献异构网络G=(V,E);其中,V表示所述科技文献异构网络中的节点集合,所述节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集;所述作者节点集记为A={A1,A2,...,Ai,...,Aa},Ai表示第i个作者节点,1≤i≤a;所述论文节点集记为P={P1,P2,...Pw,...Pp},Pw表示第w个论文节点,1≤w≤p;所述会议节点集记为C={C1,C2,...Cn,...Cc},Cn表示第n个会议节点,1≤n≤c;所述术语节点集记为D={D1,D2,...Dr,...Dd},Dr表示第r个术语节点,1≤r≤d;E表示节点之间的关系所形成的边集合,包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系;
步骤1.2、遍历所述科技文献异构网络中的节点集合V,从而获取元路径集Y=(Y1,Y2,...,Yj,...,YL),其中,Yj表示第j条元路径,且Yj=(Yj1,Yj2,...,Yjg,...,Yjy),Yjg表示第j条元路径Yj上的第g个节点,1≤g≤y;1≤j≤L;
步骤1.2.1、初始化j=1;
步骤1.2.2、定义变量τ,并初始化τ=1;
步骤1.2.3、在所述科技文献异构网络G中将未被访问的第i个作者节点Ai作为当前第τ个访问节点并加入到第j条元路径Yj中,并设置当前第j条元路径Yj的节点个数countj=1;
步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j条元路径Yj中,并将countj的值加1;
步骤1.2.5、判断countj<Wmax是否成立,若成立,将τ+1赋值给τ后,重复步骤1.2.4,否则,执行步骤1.2.6;其中,Wmax表示所设定的阈值;
步骤1.2.6、生成第j条元路径Yj
步骤1.2.6.1、定义变量β,并初始化β=0;
步骤1.2.6.2、判断第j条元路径Yj上第Wmax-β个节点是否存在于作者节点集A中,若存在,则生成第j条元路径Yj,执行步骤1.2.7;否则,删除第Wmax-β个节点
步骤1.2.6.3、将β+1赋值给β,返回步骤1.2.6.2;
步骤1.2.7、将j+1赋值给j后,判断j≤L是否成立,若成立,则返回步骤1.2.2执行,否则,生成元路径集Y;
步骤1.3、生成作者-作者同构网络:
步骤1.3.1、根据所述元路径集Y,得到元路径类型的集合为S={S1,...Sq,...Ss},其中,Sq表示第q个类型的元路径,且 表示第q个类型的元路径Sq中第ψ个类型的节点集;且 表示第q个类型的元路径Sq中第ψ个节点集中的第μ个节点,1≤μ≤η; 表示第q个类型的元路径Sq中第ψ-1个节点集中的第φ个节点,1≤q≤s;
判断第q个类型的元路径Sq是否对称,且第q个类型的元路径Sq中的节点个数是否为奇数,若是,则执行步骤1.3.2,否则,执行步骤1.3.3;
步骤1.3.2、将第q个类型的元路径Sq分解为两个等长的子元路径其中,表示第q个类型的元路径Sq的中间节点集;
令m(ψ-1)ψ表示第μ个节点与第φ个节点是否存在连边,若存在,则令m(ψ-1)ψ=1,否则,令m(ψ-1)ψ=0,从而构造表示科技文献异构网络G中的节点集与节点集的邻接矩阵Mψ-1,ψ,则第一个子元路径Sq1的交换矩阵表示为Mq1=MA,1×M1,2×...×Me-1,e,第二个子元路径Sq2的交换矩阵表示为Mq2=Me,e+1×Me+1,e+2×....×Mu,A
利用式(1)生成第q个类型的元路径Sq的作者-作者矩阵Mq
式(1)中,为第一个子元路径Sq1的交换矩阵Mq1归一化后的矩阵,为第二个子元路径Sq2的交换矩阵Mq2归一化后的矩阵;
步骤1.3.3、在第q个类型的元路径Sq中增加与第e个类型的节点集Qe和第e+1个类型的节点集Qe+1都存在连接的一个类型的节点集Fq,从而生成更新后的第q个类型的元路径
将更新后的第q个类型的元路径分解为两个等长的子元路径则第一个更新后的子元路径的交换矩阵表示为第二个更新后的子元路径的交换矩阵表示为
利用式(2)生成更新后的第q种类型的元路径的作者-作者矩阵
式(2)中,为交换矩阵归一化后的矩阵,为交换矩阵归一化后的矩阵;
步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M:
式(3)中,表示由第q种类型的元路径生成的作者-作者矩阵Mqλq表示第q种类型的元路径Sq的权重,且
步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′=(A,ε);其中,ε表示作者节点集A中各个作者节点之间的边;
步骤2、对作者-作者同构网络G′中的作者节点进行向量表示:
步骤2.1、令Xiu表示第i个作者Ai和第u个作者Au之间是否存在合作关系的一个变量,若存在,则令Xiu=1,否则,令Xiu=0,从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X;
使用工具word2vec将第i个作者Ai所包含的作者属性信息转换成第i个特征向量,从而由a个特征向量构成a×h维的作者特征矩阵H,其中,h为特征向量的维数;
步骤2.2、利用式(4)生成作者节点嵌入矩阵Z=[z1,...,zi,.,za],zi表示第i个作者节点Ai的向量表示:
Z=g1(H,X) (4)
式(4)中,g1( )为两层的图卷积网络;
步骤2.3、利用式(5)生成重构邻接矩阵并使用式(6)计算第i个作者Ai与第u个作者Au之间存在连边的概率
式(6)中,zu表示第u个作者节点Au的向量表示;表示重构邻接矩阵中第i个作者Ai和第u个作者Au是否存在合作关系的一个变量,若存在,令否则,令
步骤2.4、通过最小化式(7)所示的损失函数更新作者嵌入矩阵Z,从而得到更新后的作者嵌入矩阵 表示更新后的第i个作者节点Ai的向量表示:
步骤3、计算作者-作者同构网络G′=(A,ε)中作者间的相似度;
步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者Ai的向量表示与第u个作者Au的向量表示之间的余弦相似度与Tanimoto系数
步骤3.2、利用式(10)得到更新后的第i个作者Ai的向量表示与第u个作者Au的向量表示之间的相似度从而得到更新后的第i个作者Ai的向量表示与其他作者的向量表示之间的相似度,并从中选择最大相似度所对应的作者作为第i个作者Ai所预测的最终合作对象:
式(9)中,θ表示Tanimoto系数所占的权重,并有:
式(11)中,R表示与第i个作者Ai和第u个作者Au之间拥有相同合作关系的作者的数量,即R=|AIi∩AIu|num,其中AIi表示与第i个作者Ai合作的作者集,AIu表示与第u个作者Au合作的作者集,B表示与第i个作者Ai拥有合作关系以及与第u个作者Au拥有合作关系的所有作者的数量,即B=|AIi∪AIu|num
与现有技术相比,本发明的有益效果在于:
1、本发明通过采用元路径抽取的方法,将科技文献异构网络转化为同构网络,既解决了科技文献异构网络中节点拓扑特征的计算而带来的计算复杂性过高的问题,又解决了同构网络中因节点的单一化导致的语义信息丢失的问题,从而大大增加了作者合作预测结果的准确率。
2、本发明通过使用图自编码模型,从而获得节点的向量表示;解决了科研合作网络中的稀疏向量带来的维度过高问题。
3、本发明通过融合两种相似度计算的方法,避免了因仅使用一种相似度带来的计算误差问题,从而也提高了作者合作关系预测的准确性。
附图说明
图1为本发明一种基于异构信息网络的科研合作关系预测方法的实施步骤流程图;
图2为本发明的DBLP网络图;
图3为本发明使用的DBLP网络的网络模式图;
具体实施方式
本实施例中,一种基于异构信息网络的科研合作关系预测方法,该方法应用于对任意两个尚未合作过的作者,预测他们在未来合作的可能性;具体的说,如图1所示,是按如下步骤进行:
步骤1、科技文献异构网络转化为作者-作者同构网络:
步骤1.1、构建科技文献异构网络G=(V,E);其中,V表示科技文献异构网络中的节点集合,节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集;作者节点集记为A={A1,A2,...,Ai,...,Aa},Ai表示第i个作者节点,1≤i≤a;论文节点集记为P={P1,P2,...Pw,...Pp},Pw表示第w个论文节点,1≤w≤p;会议节点集记为C={C1,C2,...Cn,...Cc},Cn表示第n个会议节点,1≤n≤c;术语节点集记为D={D1,D2,...Dr,...Dd},Dr表示第r个术语节点,1≤r≤d;E表示节点之间的关系所形成的边集合,包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系;
步骤1.2、遍历科技文献异构网络中的节点集合V,从而获取元路径集Y=(Y1,Y2,...,Yj,...,YL),其中,Yj表示第j个元路径,且Yj=(Yj1,Yj2,...,Yjg,...,Yjy),Yjg表示第j个元路径Yj上的第g个节点,1≤g≤y;1≤j≤L;
步骤1.2.1、初始化j=1;
步骤1.2.2、定义变量τ,并初始化τ=1;
步骤1.2.3、在科技文献异构网络G中将未被访问的第i个作者节点Ai作为当前第τ个访问节点并加入到第j个元路径Yj中,并设置当前第j个元路径Yj的节点个数countj=1;
步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j个元路径Yj中,并将countj的值加1;
步骤1.2.5、判断countj<Wmax是否成立,若成立,将τ+1赋值给τ后,重复步骤1.2.4,否则,执行步骤1.2.6;其中,Wmax表示所设定的阈值;
根据社交网络中的“六度分隔”理论,所设定的阈值Wmax需小于9,才能使得到的以作者节点作为起始节点和终止节点的元路径有意义,本实施例中所设的Wmax=6;
步骤1.2.6、生成第j个元路径Yj
步骤1.2.6.1、定义变量β,并初始化β=0;
步骤1.2.6.2、判断第j个元路径Yj上第Wmax-β个节点是否存在于作者节点集A中,若存在,则生成第j个元路径Yj,执行步骤1.2.7;否则,删除第Wmax-β个节点
步骤1.2.6.3、将β+1赋值给β,返回步骤1.2.6.2;
步骤1.2.7、将j+1赋值给j后,判断j≤L是否成立,若成立,则返回步骤1.2.2执行,否则,生成元路径集Y;
如图2所示,为对DBLP网络中的数据集进行操作时所采用的网络模式,通过该网络模式,获取节点之间的边的关系,从而得到网络中的元路径。
如图3所示,本实施例所选科技文献异构网络为DBLP网络,使用DBLP网络中的科技文献数据集对本发明所提出的方法进行验证,遍历图2所示的DBLP网络中的节点,根据上述的步骤,得到网络中的元路径为A1P2A4、A1P1A4、A1P1C1P4A2、A1P3C1P4A2,A1P6C2P5A2,A1P6C2P5A3则所得的元路径集合为Y={A1P2A4,A1P1A4,A1P1C1P4A2,A1P3C1P4A2,A1P6C2P5A2,A1P6C2P5A3};
步骤1.3、生成作者-作者同构网络:
步骤1.3.1、根据元路径集Y,得到元路径类型的集合为S={S1,...Sq,...Ss},其中,Sq表示第q个类型的元路径,且 表示第q个类型的元路径Sq中第ψ个类型的节点集;1≤q≤s; 表示第q个类型的元路径Sq中第ψ个节点集中的第μ个节点,1≤μ≤η; 表示第q个类型的元路径Sq中第ψ-1个节点集中的第φ个节点,
判断第q个类型的元路径Sq是否对称,且第q个类型的元路径Sq中的节点个数是否为奇数,若是,则执行步骤1.3.2,否则,执行步骤1.3.3;
步骤1.3.2、将第q个类型的元路径Sq分解为两个等长的子元路径其中,表示第q个类型的元路径Sq的中间节点集;
令m(ψ-1)ψ表示第μ个节点与第φ个节点是否存在连边,若存在,则令m(ψ-1)ψ=1,否则,令m(ψ-1)ψ=0,从而构造表示科技文献异构网络G中的节点集与节点集的邻接矩阵Mψ-1,ψ,则第一个子元路径Sq1的交换矩阵表示为Mq1=MA,1×M1,2×...×Me-1,e,第二个子元路径Sq2的交换矩阵表示为Mq2=Me,e+1×Me+1,e+2×....×Mu,A
利用式(1)生成第q个类型的元路径Sq的作者-作者矩阵Mq
式(1)中,为第一个子元路径Sq1的交换矩阵Mq1归一化后的矩阵,为第二个子元路径Sq2的交换矩阵Mq2归一化后的矩阵;
步骤1.3.3、在第q个类型的元路径Sq中增加与第e个类型的节点集Qe和第e+1个类型的节点集Qe+1都存在连接的一个类型的节点集Fq,从而生成更新后的第q个类型的元路径
将更新后的第q个类型的元路径分解为两个等长的子元路径则第一个更新后的子元路径的交换矩阵表示为第二个更新后的子元路径的交换矩阵表示为
利用式(2)生成更新后的第q种类型的元路径的作者-作者矩阵
式(2)中,为矩阵归一化后的矩阵,为矩阵归一化后的矩阵;
步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M:
式(3)中,表示由第q种类型的元路径生成的作者-作者矩阵Mqλq表示第q种类型的元路径Sq的权重,且
本实施例的具体步骤:通过元路径集合Y,得到元路径类型的集合为S={APA,APCPA},对于元路径类型APA,将APA分解为S11=AP和S12=PA,将上述子元路径S11的节点集A和P之间的邻接矩阵表示为MA,P,其归一化后的邻接矩阵为则S11的交换矩阵即由于APA是对称的,S12的交换矩阵为M12=M11 T,其中T为矩阵的转置,则生成的作者-作者矩阵M1=M11×M12;对于元路径类型APCPA,将其分解为S21=APC和S22=CPA,将子元路径S21的节点集P和C的邻接矩阵表示为MP,C,则S21的交换矩阵表示为M21=MA,P×MP,C,并将M21归一化得APCPA是对称的,则S22归一化后的交换矩阵因此生成的作者-作者矩阵
对于元路径类型集S的作者-作者矩阵M=λ1M12M2,λ1和λ2分别表示元路径APA和APCPA所占的权重,且λ12=1;
步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′=(A,ε);其中,ε表示作者节点集A中各个作者节点之间的边;
步骤2、使用图自编码模型对作者-作者同构网络G′中的作者节点进行向量表示:
步骤2.1、令Xiu表示第i个作者Ai和第u个作者Au之间是否存在合作关系的一个变量,若存在,则令Xiu=1,否则,令Xiu=0,从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X;
使用工具word2vec将第i个作者Ai所包含的作者属性信息转换成第i个特征向量,从而由a个特征向量构成a×h维的作者特征矩阵H,其中,h为特征向量的维数;
步骤2.2、利用式(4)生成作者节点嵌入矩阵Z=[z1,...,zi,.,za],zi表示第i个作者节点Ai的向量表示:
Z=g1(H,X) (4)
式(4)中,g1( )为两层的图卷积网络;
步骤2.3、利用式(5)生成重构邻接矩阵并使用式(6)计算第i个作者Ai与第u个作者Au之间存在连边的概率
式(6)中,zu表示第u个作者节点Au的向量表示;表示重构邻接矩阵中第i个作者Ai和第u个作者Au是否存在合作关系的一个变量,若存在,令否则,令
步骤2.4、通过最小化式(7)所示的损失函数更新作者嵌入矩阵Z,从而得到更新后的作者嵌入矩阵 表示更新后的第i个作者节点Ai的向量表示:
步骤3、计算作者-作者同构网络G′=(A,ε)中作者间的相似度;
步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者Ai的向量表示与第u个作者Au的向量表示之间的余弦相似度与Tanimoto系数
步骤3.2、利用式(10)得到更新后的第i个作者Ai的向量表示与第u个作者Au的向量表示之间的相似度从而得到更新后的第i个作者Ai的向量表示与其他作者的向量表示之间的相似度,并从中选择最大相似度所对应的作者作为第i个作者Ai所预测的最终合作对象:
式(9)中,θ表示Tanimoto系数所占的权重,1-θ表示余弦相似度所占的权重,则通过式(11)计算θ:
式(11)中,R表示与第i个作者Ai和第u个作者Au之间拥有相同合作关系的作者的数量,即R=|AIi∩AIu|num,其中AIi表示与第i个作者Ai合作的作者集,AIu表示与第u个作者Au合作的作者集,B表示与第i个作者Ai拥有合作关系以及与第u个作者Au拥有合作关系的所有作者的数量,即B=|AIi∪AIu|num。值得注意的是,在上述θ的计算中,不考虑B=0且R=0,即第i个作者Ai和第u个作者Au单独撰写论文的情况。

Claims (1)

1.一种基于异构信息网络的科研合作关系预测方法,其特征是按如下步骤进行:
步骤1、科技文献异构网络转化为作者-作者同构网络:
步骤1.1、构建所述科技文献异构网络G=(V,E);其中,V表示所述科技文献异构网络中的节点集合,所述节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集;所述作者节点集记为A={A1,A2,...,Ai,...,Aa},Ai表示第i个作者节点,1≤i≤a;所述论文节点集记为P={P1,P2,...Pw,...Pp},Pw表示第w个论文节点,1≤w≤p;所述会议节点集记为C={C1,C2,...Cn,...Cc},Cn表示第n个会议节点,1≤n≤c;所述术语节点集记为D={D1,D2,...Dr,...Dd},Dr表示第r个术语节点,1≤r≤d;E表示节点之间的关系所形成的边集合,包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系;
步骤1.2、遍历所述科技文献异构网络中的节点集合V,从而获取元路径集Y=(Y1,Y2,...,Yj,...,YL),其中,Yj表示第j条元路径,且Yj=(Yj1,Yj2,...,Yjg,...,Yjy),Yjg表示第j条元路径Yj上的第g个节点,1≤g≤y;1≤j≤L;
步骤1.2.1、初始化j=1;
步骤1.2.2、定义变量τ,并初始化τ=1;
步骤1.2.3、在所述科技文献异构网络G中将未被访问的第i个作者节点Ai作为当前第τ个访问节点并加入到第j条元路径Yj中,并设置当前第j条元路径Yj的节点个数countj=1;
步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j条元路径Yj中,并将countj的值加1;
步骤1.2.5、判断countj<Wmax是否成立,若成立,将τ+1赋值给τ后,重复步骤1.2.4,否则,执行步骤1.2.6;其中,Wmax表示所设定的阈值;
步骤1.2.6、生成第j条元路径Yj
步骤1.2.6.1、定义变量β,并初始化β=0;
步骤1.2.6.2、判断第j条元路径Yj上第Wmax-β个节点是否存在于作者节点集A中,若存在,则生成第j条元路径Yj,执行步骤1.2.7;否则,删除第Wmax-β个节点
步骤1.2.6.3、将β+1赋值给β,返回步骤1.2.6.2;
步骤1.2.7、将j+1赋值给j后,判断j≤L是否成立,若成立,则返回步骤1.2.2执行,否则,生成元路径集Y;
步骤1.3、生成作者-作者同构网络:
步骤1.3.1、根据所述元路径集Y,得到元路径类型的集合为S={S1,...Sq,...Ss},其中,Sq表示第q个类型的元路径,且 表示第q个类型的元路径Sq中第ψ个类型的节点集;且 表示第q个类型的元路径Sq中第ψ个节点集中的第μ个节点,1≤μ≤η; 表示第q个类型的元路径Sq中第ψ-1个节点集中的第φ个节点,1≤q≤s;
判断第q个类型的元路径Sq是否对称,且第q个类型的元路径Sq中的节点个数是否为奇数,若是,则执行步骤1.3.2,否则,执行步骤1.3.3;
步骤1.3.2、将第q个类型的元路径Sq分解为两个等长的子元路径其中,表示第q个类型的元路径Sq的中间节点集;
令m(ψ-1)ψ表示第μ个节点与第φ个节点是否存在连边,若存在,则令m(ψ-1)ψ=1,否则,令m(ψ-1)ψ=0,从而构造表示科技文献异构网络G中的节点集与节点集的邻接矩阵Mψ-1,ψ,则第一个子元路径Sq1的交换矩阵表示为Mq1=MA,1×M1,2×...×Me-1,e,第二个子元路径Sq2的交换矩阵表示为Mq2=Me,e+1×Me+1,e+2×....×Mu,A
利用式(1)生成第q个类型的元路径Sq的作者-作者矩阵Mq
式(1)中,为第一个子元路径Sq1的交换矩阵Mq1归一化后的矩阵,为第二个子元路径Sq2的交换矩阵Mq2归一化后的矩阵;
步骤1.3.3、在第q个类型的元路径Sq中增加与第e个类型的节点集Qe和第e+1个类型的节点集Qe+1都存在连接的一个类型的节点集Fq,从而生成更新后的第q个类型的元路径
将更新后的第q个类型的元路径分解为两个等长的子元路径则第一个更新后的子元路径的交换矩阵表示为第二个更新后的子元路径的交换矩阵表示为
利用式(2)生成更新后的第q种类型的元路径的作者-作者矩阵
式(2)中,为交换矩阵归一化后的矩阵,为交换矩阵归一化后的矩阵;
步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M:
式(3)中,表示由第q种类型的元路径生成的作者-作者矩阵Mqλq表示第q种类型的元路径Sq的权重,且
步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′=(A,ε);其中,ε表示作者节点集A中各个作者节点之间的边;
步骤2、对作者-作者同构网络G′中的作者节点进行向量表示:
步骤2.1、令Xiu表示第i个作者Ai和第u个作者Au之间是否存在合作关系的一个变量,若存在,则令Xiu=1,否则,令Xiu=0,从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X;
使用工具word2vec将第i个作者Ai所包含的作者属性信息转换成第i个特征向量,从而由a个特征向量构成a×h维的作者特征矩阵H,其中,h为特征向量的维数;
步骤2.2、利用式(4)生成作者节点嵌入矩阵Z=[z1,...,zi,.,za],zi表示第i个作者节点Ai的向量表示:
Z=g1(H,X) (4)
式(4)中,g1()为两层的图卷积网络;
步骤2.3、利用式(5)生成重构邻接矩阵并使用式(6)计算第i个作者Ai与第u个作者Au之间存在连边的概率
式(6)中,zu表示第u个作者节点Au的向量表示;表示重构邻接矩阵中第i个作者Ai和第u个作者Au是否存在合作关系的一个变量,若存在,令否则,令
步骤2.4、通过最小化式(7)所示的损失函数lg更新作者嵌入矩阵Z,从而得到更新后的作者嵌入矩阵 表示更新后的第i个作者节点Ai的向量表示:
步骤3、计算作者-作者同构网络G′=(A,ε)中作者间的相似度;
步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者Ai的向量表示与第u个作者Au的向量表示之间的余弦相似度与Tanimoto系数
步骤3.2、利用式(10)得到更新后的第i个作者Ai的向量表示与第u个作者Au的向量表示之间的相似度从而得到更新后的第i个作者Ai的向量表示与其他作者的向量表示之间的相似度,并从中选择最大相似度所对应的作者作为第i个作者Ai所预测的最终合作对象:
式(9)中,θ表示Tanimoto系数所占的权重,并有:
式(11)中,R表示与第i个作者Ai和第u个作者Au之间拥有相同合作关系的作者的数量,即R=|AIi∩AIu|num,其中AIi表示与第i个作者Ai合作的作者集,AIu表示与第u个作者Au合作的作者集,B表示与第i个作者Ai拥有合作关系以及与第u个作者Au拥有合作关系的所有作者的数量,即B=|AIi∪AIu|num
CN201910832856.8A 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法 Active CN110533253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910832856.8A CN110533253B (zh) 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832856.8A CN110533253B (zh) 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法

Publications (2)

Publication Number Publication Date
CN110533253A true CN110533253A (zh) 2019-12-03
CN110533253B CN110533253B (zh) 2021-05-25

Family

ID=68666789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832856.8A Active CN110533253B (zh) 2019-09-04 2019-09-04 一种基于异构信息网络的科研合作关系预测方法

Country Status (1)

Country Link
CN (1) CN110533253B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148776A (zh) * 2020-09-29 2020-12-29 清华大学 基于引入语义信息的神经网络的学术关系预测方法和装置
CN113222207A (zh) * 2021-02-24 2021-08-06 重庆邮电大学 基于社区结构的招投标公司网络关系预测方法及预测系统
CN113282612A (zh) * 2021-07-21 2021-08-20 中国人民解放军国防科技大学 一种基于科学合作异质网络分析的作者会议推荐方法
CN113434706A (zh) * 2020-03-23 2021-09-24 北京国双科技有限公司 学术合作关系分析方法及装置
CN115037630A (zh) * 2022-04-29 2022-09-09 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
US20180060748A1 (en) * 2016-08-26 2018-03-01 Nec Laboratories America, Inc. Recommender system for heterogeneous log pattern editing operation
CN109710835A (zh) * 2018-11-15 2019-05-03 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN103559318A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质信息网络包含的对象进行排序的方法
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
US20180060748A1 (en) * 2016-08-26 2018-03-01 Nec Laboratories America, Inc. Recommender system for heterogeneous log pattern editing operation
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN109710835A (zh) * 2018-11-15 2019-05-03 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN YANG, ET AL.: "Scientific Collaborator Recommendation in Heterogeneous Bibliographic Networks", 《2015 48TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES》 *
单嵩岩 等: "面向作者消岐和合作预测领域的作者相似度算法述评", 《东北师大学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434706A (zh) * 2020-03-23 2021-09-24 北京国双科技有限公司 学术合作关系分析方法及装置
CN112148776A (zh) * 2020-09-29 2020-12-29 清华大学 基于引入语义信息的神经网络的学术关系预测方法和装置
CN112148776B (zh) * 2020-09-29 2024-05-03 清华大学 基于引入语义信息的神经网络的学术关系预测方法和装置
CN113222207A (zh) * 2021-02-24 2021-08-06 重庆邮电大学 基于社区结构的招投标公司网络关系预测方法及预测系统
CN113222207B (zh) * 2021-02-24 2024-02-02 广东省汇智项目管理咨询有限公司 基于社区结构的招投标公司网络关系预测方法及预测系统
CN113282612A (zh) * 2021-07-21 2021-08-20 中国人民解放军国防科技大学 一种基于科学合作异质网络分析的作者会议推荐方法
CN115037630A (zh) * 2022-04-29 2022-09-09 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法
CN115037630B (zh) * 2022-04-29 2023-10-20 电子科技大学长三角研究院(湖州) 一种基于结构扰动模型的加权网络链路预测方法

Also Published As

Publication number Publication date
CN110533253B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110533253A (zh) 一种基于异构信息网络的科研合作关系预测方法
CN110097125B (zh) 一种基于嵌入表示的跨网络账户关联方法
Standish Open-ended artificial evolution
CN110532436A (zh) 基于社区结构的跨社交网络用户身份识别方法
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
CN112256981B (zh) 一种基于线性和非线性传播的谣言检测方法
Guo et al. Feature selection based on Rough set and modified genetic algorithm for intrusion detection
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN113780002A (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
Yin et al. A real-time dynamic concept adaptive learning algorithm for exploitability prediction
Pal et al. Deep learning for network analysis: problems, approaches and challenges
Zhang et al. Deep learning based link prediction with social pattern and external attribute knowledge in bibliographic networks
CN116257662A (zh) 基于k近邻图神经网络的异质图社区发现方法
Wang et al. Air pollution prediction via graph attention network and gated recurrent unit
Ma et al. Graph classification algorithm based on graph structure embedding
CN117272195A (zh) 基于图卷积注意力网络的区块链异常节点检测方法及系统
CN116595467A (zh) 一种基于动态加权图卷积的异常用户检测方法及存储介质
Chen et al. A supervised link prediction method for dynamic networks
Li et al. Modeling relationship strength for link prediction
CN114297498A (zh) 一种基于关键传播结构感知的意见领袖识别方法和装置
CN113159976B (zh) 一种微博网络重要用户的识别方法
Yuan et al. An influence maximisation algorithm based on community detection
CN106156256A (zh) 一种用户信息分类透传方法及系统
CN114756713A (zh) 一种基于多源交互融合的图表示学习方法
CN116502132A (zh) 账号集合识别方法、装置、设备、介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant