CN110533253B

CN110533253B - 一种基于异构信息网络的科研合作关系预测方法

Info

Publication number: CN110533253B
Application number: CN201910832856.8A
Authority: CN
Inventors: 陈志立; 杨晴; 叶凡; 仲红
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2021-05-25
Anticipated expiration: 2039-09-04
Also published as: CN110533253A

Abstract

本发明公开了一种基于异构信息网络的科研合作关系预测方法，包括如下步骤：1、科技文献异构网络转化为作者‑作者同构网络；2、同构网络中作者节点的向量表示；3、作者间的相似度计算。本发明应用于对任意两个尚未合作过的作者，预测他们在未来合作的可能性，从而有效解决作者‑作者同构网络中的信息丢失和单一化问题，以增加合作预测的准确性，帮助学者更高效的进行科学研究。

Description

一种基于异构信息网络的科研合作关系预测方法

技术领域

本发明属于信息检索技术领域，具体涉及一种基于异构信息网络的科研合作关系预测方法。

背景技术

近年来，随着研究问题的多样化和复杂化，多学科交叉融合也越来越普遍，同时学者研究方向的变化也使得各个领域间的作者合作关系逐渐增多。从庞大的学术数字图书馆中找到最有价值的合作者是个极大的挑战。这使得科研合作关系预测变得越来越重要。

目前，已有的科研合作关系预测主要采用基于相似性的方法以及基于机器学习的方法，基于相似性的方法主要针对文本相似性和结构相似性，但文本相似性的计算依赖于作者的相关属性信息，但在很多情况下，作者的属性信息无法获取，相对于文本相似性，结构相似性利用网络中节点的拓扑信息从而判定作者间的相似度，其更加具有普适性。其中，文献[The link-prediction problem for social network,2007]在合著网络中通过比较几种网络中的节点拓扑相似性指数判定作者间的相似度，包括共同邻居、Jaccard、SimRank以及Katz等，通过实验分析，Katz指标优于其他几种相似度计算，基于机器学习的方法主要利用分类模型尤其是二分类的思想预测作者间的合作，文献[Predicting co-authorrelationship in medical co-authorship network,2014]将科研合作预测看作二分类问题，在合著网络中将结构相似性指标作为特征，进而训练模型，并采用logistic回归和SVM作为预测模型，预测作者节点之间的链接，但上述方法都是基于同构网络的，虽然计算简单，但丢失了丰富的语义信息，可能会导致预测结果出现误差。

此外，也有少量研究是基于异构网络的，其中，文献[Co-author relationshipprediction in heterogeneous bibliographic network,2011]率先将基于元路径的拓扑特征应用到异构网络中，并使用logistic回归模型预测合作关系，但此方法使用的几种拓扑特征计算复杂性较高。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出了一种基于异构信息网络的科研合作关系预测方法，以期能避免丢失语义信息，同时能简化计算，从而提高科技文献异构网络中作者之间的合作关系预测的准确性，帮助学者进行更高效的研究。

本发明为解决技术问题采用如下技术方案：

本发明一种基于异构信息网络的科研合作关系预测方法的特点是按如下步骤进行：

步骤1、科技文献异构网络转化为作者-作者同构网络：

步骤1.1、构建所述科技文献异构网络G＝(V,E)；其中，V表示所述科技文献异构网络中的节点集合，所述节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集；所述作者节点集记为A＝{A₁,A₂,...,A_i,...,A_a}，A_i表示第i个作者节点，1≤i≤a；所述论文节点集记为P＝{P₁,P₂,...P_w,...P_p}，P_w表示第w个论文节点，1≤w≤p；所述会议节点集记为C＝{C₁,C₂,...C_n,...C_c}，C_n表示第n个会议节点，1≤n≤c；所述术语节点集记为D＝{D₁,D₂,...D_r,...D_d}，D_r表示第r个术语节点，1≤r≤d；E表示节点之间的关系所形成的边集合，包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系；

步骤1.2、遍历所述科技文献异构网络中的节点集合V，从而获取元路径集Y＝(Y₁,Y₂,...,Y_j,...,Y_L)，其中，Y_j表示第j条元路径，且Y_j＝(Y_j1,Y_j2,...,Y_jg,...,Y_jy)，Y_jg表示第j条元路径Y_j上的第g个节点，1≤g≤y；1≤j≤L；

步骤1.2.1、初始化j＝1；

步骤1.2.2、定义变量τ，并初始化τ＝1；

步骤1.2.3、在所述科技文献异构网络G中将未被访问的第i个作者节点A_i作为当前第τ个访问节点并加入到第j条元路径Y_j中，并设置当前第j条元路径Y_j的节点个数count_j＝1；

步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j条元路径Y_j中，并将count_j的值加1；

步骤1.2.5、判断count_j＜W_max是否成立，若成立，将τ+1赋值给τ后，重复步骤1.2.4，否则，执行步骤1.2.6；其中，W_max表示所设定的阈值；

步骤1.2.6、生成第j条元路径Y_j：

步骤1.2.6.1、定义变量β，并初始化β＝0；

步骤1.2.6.2、判断第j条元路径Y_j上第W_max-β个节点

是否存在于作者节点集A中，若存在，则生成第j条元路径Y_j，执行步骤1.2.7；否则，删除第W_max-β个节点

步骤1.2.6.3、将β+1赋值给β，返回步骤1.2.6.2；

步骤1.2.7、将j+1赋值给j后，判断j≤L是否成立，若成立，则返回步骤1.2.2执行，否则，生成元路径集Y；

步骤1.3、生成作者-作者同构网络：

步骤1.3.1、根据所述元路径集Y，得到元路径类型的集合为S＝{S₁,...S_q,...S_s}，其中，S_q表示第q个类型的元路径，且

表示第q个类型的元路径S_q中第ψ个类型的节点集；且

表示第q个类型的元路径S_q中第ψ个节点集

中的第μ个节点，1≤μ≤η；

表示第q个类型的元路径S_q中第ψ-1个节点集

中的第φ个节点，1≤q≤s；

判断第q个类型的元路径S_q是否对称，且第q个类型的元路径S_q中的节点个数是否为奇数，若是，则执行步骤1.3.2，否则，执行步骤1.3.3；

步骤1.3.2、将第q个类型的元路径S_q分解为两个等长的子元路径

和

其中，

表示第q个类型的元路径S_q的中间节点集；

令m_(ψ-1)ψ表示第μ个节点

与第φ个节点

是否存在连边，若存在，则令m_(ψ-1)ψ＝1，否则，令m_(ψ-1)ψ＝0，从而构造表示科技文献异构网络G中的节点集

与节点集

的邻接矩阵M_ψ-1,ψ，则第一个子元路径S_q1的交换矩阵表示为M_q1＝M_A,1×M_1,2×...×M_e-1,e，第二个子元路径S_q2的交换矩阵表示为M_q2＝M_e,e+1×M_e+1,e+2×....×M_u,A；

利用式(1)生成第q个类型的元路径S_q的作者-作者矩阵M_q：

式(1)中，

为第一个子元路径S_q1的交换矩阵M_q1归一化后的矩阵，

为第二个子元路径S_q2的交换矩阵M_q2归一化后的矩阵；

步骤1.3.3、在第q个类型的元路径S_q中增加与第e个类型的节点集Q_e和第e+1个类型的节点集Q_e+1都存在连接的一个类型的节点集F^q，从而生成更新后的第q个类型的元路径

将更新后的第q个类型的元路径

分解为两个等长的子元路径

和

则第一个更新后的子元路径

的交换矩阵表示为

第二个更新后的子元路径

的交换矩阵表示为

利用式(2)生成更新后的第q种类型的元路径

的作者-作者矩阵

式(2)中，

为交换矩阵

归一化后的矩阵，

为交换矩阵

归一化后的矩阵；

步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M：

式(3)中，

表示由第q种类型的元路径S_q或更新后的第q种类型的元路径

生成的作者-作者矩阵M_q或

λ_q表示第q种类型的元路径S_q或

的权重，且

步骤1.3.5、利用作者-作者矩阵M构建作者-作者同构网络G′＝(A,ε)；其中，ε表示作者节点集A中各个作者节点之间的边；

步骤2、对作者-作者同构网络G′中的作者节点进行向量表示：

步骤2.1、令X_iu表示第i个作者A_i和第u个作者A_u之间是否存在合作关系的一个变量，若存在，则令X_iu＝1，否则，令X_iu＝0，从而构造表示作者-作者同构网络G′中各个作者之间关系的a×a维的邻接矩阵X；

使用工具word2vec将第i个作者A_i所包含的作者属性信息转换成第i个特征向量，从而由a个特征向量构成a×h维的作者特征矩阵H，其中，h为特征向量的维数；

步骤2.2、利用式(4)生成作者节点嵌入矩阵Z＝[z₁,...,z_i,.,z_a]，z_i表示第i个作者节点A_i的向量表示：

Z＝g₁(H,X) (4)

式(4)中，g₁()为两层的图卷积网络；

步骤2.3、利用式(5)生成重构邻接矩阵

并使用式(6)计算第i个作者A_i与第u个作者A_u之间存在连边的概率

式(6)中，z_u表示第u个作者节点A_u的向量表示；

表示重构邻接矩阵

中第i个作者A_i和第u个作者A_u是否存在合作关系的一个变量，若存在，令

否则，令

步骤2.4、通过最小化式(7)所示的损失函数l_g更新作者节点嵌入矩阵Z，从而得到更新后的作者节点嵌入矩阵

表示更新后的第i个作者节点A_i的向量表示：

步骤3、计算作者-作者同构网络G′＝(A,ε)中作者间的相似度；

步骤3.1、分别利用式(8)和式(9)计算更新后的第i个作者A_i的向量表示

与更新后的第u个作者A_u的向量表示

之间的余弦相似度

与Tanimoto系数

步骤3.2、利用式(10)得到更新后的第i个作者A_i的向量表示

与第u个作者A_u的向量表示

之间的相似度

从而得到更新后的第i个作者A_i的向量表示

与其他作者的向量表示之间的相似度，并从中选择最大相似度所对应的作者作为第i个作者A_i所预测的最终合作对象：

式(10)中，θ表示Tanimoto系数

所占的权重，并有：

式(11)中，R表示与第i个作者A_i和第u个作者A_u之间拥有相同合作关系的作者的数量，即R＝|AI_i∩AI_u|_num，其中AI_i表示与第i个作者A_i合作的作者集，AI_u表示与第u个作者A_u合作的作者集，B表示与第i个作者A_i拥有合作关系以及与第u个作者A_u拥有合作关系的所有作者的数量，即B＝|AI_i∪AI_u|_num。

与现有技术相比，本发明的有益效果在于：

1、本发明通过采用元路径抽取的方法，将科技文献异构网络转化为同构网络，既解决了科技文献异构网络中节点拓扑特征的计算而带来的计算复杂性过高的问题，又解决了同构网络中因节点的单一化导致的语义信息丢失的问题，从而大大增加了作者合作预测结果的准确率。

2、本发明通过使用图自编码模型，从而获得节点的向量表示；解决了科研合作网络中的稀疏向量带来的维度过高问题。

3、本发明通过融合两种相似度计算的方法，避免了因仅使用一种相似度带来的计算误差问题，从而也提高了作者合作关系预测的准确性。

附图说明

图1为本发明一种基于异构信息网络的科研合作关系预测方法的实施步骤流程图；

图2为本发明的DBLP网络图；

图3为本发明使用的DBLP网络的网络模式图；

具体实施方式

本实施例中，一种基于异构信息网络的科研合作关系预测方法，该方法应用于对任意两个尚未合作过的作者，预测他们在未来合作的可能性；具体的说，如图1所示，是按如下步骤进行：

步骤1、科技文献异构网络转化为作者-作者同构网络：

步骤1.1、构建科技文献异构网络G＝(V,E)；其中，V表示科技文献异构网络中的节点集合，节点集合的类型包括作者节点集、论文节点集、会议节点集和术语节点集；作者节点集记为A＝{A₁,A₂,...,A_i,...,A_a}，A_i表示第i个作者节点，1≤i≤a；论文节点集记为P＝{P₁,P₂,...P_w,...P_p}，P_w表示第w个论文节点，1≤w≤p；会议节点集记为C＝{C₁,C₂,...C_n,...C_c}，C_n表示第n个会议节点，1≤n≤c；术语节点集记为D＝{D₁,D₂,...D_r,...D_d}，D_r表示第r个术语节点，1≤r≤d；E表示节点之间的关系所形成的边集合，包括作者-论文的撰写关系、会议-论文的发表关系、论文-术语的提及关系、论文-论文的引用关系以及论文-作者的被撰写关系、论文-会议的被发表关系、术语-论文的被提及关系；

步骤1.2、遍历科技文献异构网络中的节点集合V，从而获取元路径集Y＝(Y₁,Y₂,...,Y_j,...,Y_L)，其中，Y_j表示第j个元路径，且Y_j＝(Y_j1,Y_j2,...,Y_jg,...,Y_jy)，Y_jg表示第j个元路径Y_j上的第g个节点，1≤g≤y；1≤j≤L；

步骤1.2.1、初始化j＝1；

步骤1.2.2、定义变量τ，并初始化τ＝1；

步骤1.2.3、在科技文献异构网络G中将未被访问的第i个作者节点A_i作为当前第τ个访问节点并加入到第j个元路径Y_j中，并设置当前第j个元路径Y_j的节点个数count_j＝1；

步骤1.2.4、随机选择当前第τ个访问节点的邻接节点作为第τ+1个访问节点并加入到第j个元路径Y_j中，并将count_j的值加1；

根据社交网络中的“六度分隔”理论，所设定的阈值W_max需小于9，才能使得到的以作者节点作为起始节点和终止节点的元路径有意义，本实施例中所设的W_max＝6；

步骤1.2.6、生成第j个元路径Y_j：

步骤1.2.6.1、定义变量β，并初始化β＝0；

步骤1.2.6.2、判断第j个元路径Y_j上第W_max-β个节点

是否存在于作者节点集A中，若存在，则生成第j个元路径Y_j，执行步骤1.2.7；否则，删除第W_max-β个节点

步骤1.2.6.3、将β+1赋值给β，返回步骤1.2.6.2；

如图2所示，为对DBLP网络中的数据集进行操作时所采用的网络模式，通过该网络模式，获取节点之间的边的关系，从而得到网络中的元路径。

如图3所示，本实施例所选科技文献异构网络为DBLP网络，使用DBLP网络中的科技文献数据集对本发明所提出的方法进行验证，遍历图2所示的DBLP网络中的节点，根据上述的步骤，得到网络中的元路径为A₁P₂A₄、A₁P₁A₄、A₁P₁C₁P₄A₂、A₁P₃C₁P₄A₂，A₁P₆C₂P₅A₂，A₁P₆C₂P₅A₃则所得的元路径集合为Y＝{A₁P₂A₄,A₁P₁A₄,A₁P₁C₁P₄A₂,A₁P₃C₁P₄A₂,A₁P₆C₂P₅A₂,A₁P₆C₂P₅A₃}；

步骤1.3、生成作者-作者同构网络：

步骤1.3.1、根据元路径集Y，得到元路径类型的集合为S＝{S₁,...S_q,...S_s}，其中，S_q表示第q个类型的元路径，且

表示第q个类型的元路径S_q中第ψ个类型的节点集；1≤q≤s；

表示第q个类型的元路径S_q中第ψ个节点集

中的第μ个节点，1≤μ≤η；

表示第q个类型的元路径S_q中第ψ-1个节点集

中的第φ个节点，

和

其中，

表示第q个类型的元路径S_q的中间节点集；

令m_(ψ-1)ψ表示第μ个节点

与第φ个节点

与节点集

利用式(1)生成第q个类型的元路径S_q的作者-作者矩阵M_q：

式(1)中，

为第一个子元路径S_q1的交换矩阵M_q1归一化后的矩阵，

为第二个子元路径S_q2的交换矩阵M_q2归一化后的矩阵；

将更新后的第q个类型的元路径

分解为两个等长的子元路径

和

则第一个更新后的子元路径

的交换矩阵表示为

第二个更新后的子元路径

的交换矩阵表示为

利用式(2)生成更新后的第q种类型的元路径

的作者-作者矩阵

式(2)中，

为矩阵

归一化后的矩阵，

为矩阵

归一化后的矩阵；

步骤1.3.4、利用式(3)生成元路径类型集S的作者-作者矩阵M：

式(3)中，

表示由第q种类型的元路径S_q或更新后的第q种类型的元路径

生成的作者-作者矩阵M_q或

λ_q表示第q种类型的元路径S_q或

的权重，且

本实施例的具体步骤：通过元路径集合Y，得到元路径类型的集合为S＝{APA,APCPA}，

对于元路径类型APA，将APA分解为S₁₁＝AP和S₁₂＝PA，将上述子元路径S₁₁的节点集A和P之间的邻接矩阵表示为M_A,P，其归一化后的邻接矩阵为

则S₁₁的交换矩阵即

由于APA是对称的，S₁₂的交换矩阵为M₁₂＝M₁₁ ^T，其中T为矩阵的转置，则生成的作者-作者矩阵M₁＝M₁₁×M₁₂；对于元路径类型APCPA，将其分解为S₂₁＝APC和S₂₂＝CPA，将子元路径S₂₁的节点集P和C的邻接矩阵表示为M_P,C，则S₂₁的交换矩阵表示为M₂₁＝M_A,P×M_P,C，并将M₂₁归一化得

APCPA是对称的，则S₂₂归一化后的交换矩阵

因此生成的作者-作者矩阵

对于元路径类型集S的作者-作者矩阵M＝λ₁M₁+λ₂M₂，λ₁和λ₂分别表示元路径APA和APCPA所占的权重，且λ₁+λ₂＝1；

步骤2、使用图自编码模型对作者-作者同构网络G′中的作者节点进行向量表示：

Z＝g₁(H,X) (4)

式(4)中，g₁( )为两层的图卷积网络；

步骤2.3、利用式(5)生成重构邻接矩阵

式(6)中，z_u表示第u个作者节点A_u的向量表示；

表示重构邻接矩阵

否则，令

表示更新后的第i个作者节点A_i的向量表示：

与更新后的第u个作者A_u的向量表示

之间的余弦相似度

与Tanimoto系数

步骤3.2、利用式(10)得到更新后的第i个作者A_i的向量表示

与第u个作者A_u的向量表示

之间的相似度

从而得到更新后的第i个作者A_i的向量表示

式(10)中，θ表示Tanimoto系数

所占的权重，1-θ表示余弦相似度

所占的权重，则通过式(11)计算θ：

式(11)中，R表示与第i个作者A_i和第u个作者A_u之间拥有相同合作关系的作者的数量，即R＝|AI_i∩AI_u|_num，其中AI_i表示与第i个作者A_i合作的作者集，AI_u表示与第u个作者A_u合作的作者集，B表示与第i个作者A_i拥有合作关系以及与第u个作者A_u拥有合作关系的所有作者的数量，即B＝|AI_i∪AI_u|_num。值得注意的是，在上述θ的计算中，不考虑B＝0且R＝0，即第i个作者A_i和第u个作者A_u单独撰写论文的情况。