CN114564573A

CN114564573A - 基于异构图神经网络的学术合作关系预测方法

Info

Publication number: CN114564573A
Application number: CN202210247466.6A
Authority: CN
Inventors: 陈世展; 丁燕翔
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-05-31

Abstract

本发明公开了一种基于异构图神经网络的学术合作关系预测方法，包括：收集作者的作品信息构建作品数据集和学识异构图，图中的节点包括作者节点、作品节点、归属节点和内容节点；利用DeepWalk算法和Text‑CNN模型对学识异构图中的信息进行提取获取作者节点的嵌入向量；利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合，获取每个作者节点的长期兴趣嵌入表示；基于LSTM和注意力机制获取作者的短期兴趣嵌入表示；利用二元分类预测方法构建二分类模型，将作品数据集输入二分类模型进行训练获取学术合作预测模型。本发明可捕捉作者在某一时间内潜在的合作兴趣，得到更好的推荐效果，提高预测准确性。

Description

基于异构图神经网络的学术合作关系预测方法

技术领域

本发明属于信息检索技术领域，具体涉及一种基于异构图神经网络的学术合作关系预测方法。

背景技术

近年来，随着科学技术的飞速发展，科研任务和创新从原来依靠个人的成果转向合作完成的趋势越来越明显。本世纪的90％以上的创新都来源于合作。与此同时，科学技术的发展同样带来了研究问题的多样化和复杂化，多学科之间的交叉融合也越来越普遍。因此导致合作不再像原来那样稀少而单一，而是变得越来越复杂和多样化。学者的研究方向多变和合作关系的增多使得从庞大的学术数字图书馆和网络中找到最有价值的科研合作者成为一个非常大的挑战，技术合作也存在相同的问题，这使得学术/技术合作关系的预测问题也变得越来越重要。

然而，现有的学术/技术合作关系预测主要采用以下几种方法：

一、基于相似度的模型：大部分基于相似度的方法主要采用基于文本相似度的方法和结构相似度的方法，文本相似度的方法一般基于内容。通过对学术网络中的节点属性，包括学者节点和文章节点收集语义特征的相似性来推荐学术合作。例如Tang,Wu等开发了一个主题学习模型CTL来推荐学术合作，该模型使用LDA(Latent Dirichlet Allocation)对论文的主题分布进行建模，然后集成重启随机游走算法进行学术推荐。但文本相似性的计算一方面依赖于作者的相关属性信息，在很多情况下我们实际上是无法获得作者的属性信息的。另一方面，结构相似性一般是利用网站中节点的拓扑信息从而判定作者之间的相似度，从学术网络的结构信息入手，早期研究大多从公共邻居，Jaccard相似稀疏等拓扑特征来构建学术合作预测模型，通常使用逻辑回归等二元算法来实现。例如Zhou等在随机游走算法的基础上进行改良，加上合作时间频率和邻居节点类型的影响，实现对学术合作关系的推荐，但结构相似性存在一定的问题，比如冷启动问题无法解决等。

二、基于混合的方法：有一类方法是混合学术网络的结构和内容特征，一些研究通过不同的顶点邻近算法来计算学者节点的结构相似度，并且通过词汇相似度算法、查询似然语言模型等方法提取论文节点的语义相似度来融合结构相似度和内容相似度，从而得到学者节点的综合相似度。相似度较高的学者更倾向于建立协作关系。这些混合方法累积了大量的信息，但很大程度上取决于特征的选择。

三、基于机器学习的模型：该模型主要利用分类模型尤其是二分类的思想来预测作者之间的合作，Qi,Zhao等将科研合作预测看做二分类问题，在合著网络中将结构相似性指标作为特征，进而训练模型，并且采用逻辑回归和支持向量机(support vectormachines,SVM)作为预测模型，预测作者节点之间的链接。

上述三种方法都是基于同构网络的，虽然计算简单，但是丢失了丰富的语义信息，可能会导致预测结果出现误差。此外，也有少量的研究是基于异构网络的，其中Sun,Rick等率先将基于元路径的拓扑特征应用到异构网络中，并且使用逻辑回归模型来预测合作关系，但这种方法使用的几种拓扑特征计算复杂度较高。近年来随着图神经网络算法的流行，因为学术网络作为一个典型的异构图结构，异构图神经网络的相关算法也被更多的应用到学术网络上，并且取得了较好的表现，如GAT(Graph Attention Networks)模型、HAN(Heterogeneous graph attention network,异质图注意力网络)模型等。但现有的异构图神经网络算法大多为通用模型，关注异构图本身的特征，而缺乏对异构学术网络中学术合作预测问题这一细分问题的关注。

发明内容

针对以上问题，本发明提出了一种基于异构图神经网络的学术合作关系预测方法。为解决以上技术问题，本发明所采用的技术方案如下：

一种基于异构图神经网络的学术合作关系预测方法，包括如下步骤：

S1，收集作者的作品信息构建作品数据集，根据作品数据集构建学识异构图；

所述学识异构图采用G表示，G＝（V，E），V表示学识异构图中的节点集合，E表示学识异构图中节点之间所形成的边集合，且节点集合V中的节点包括作者节点、作品节点、归属节点和内容节点；

S2，利用DeepWalk算法和Text-CNN模型对步骤S1所建立的学识异构图中的信息进行提取获取每个作者节点的嵌入向量；

S3，利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合，获取每个作者节点的长期兴趣嵌入表示；

S4，基于LSTM和注意力机制获取表征作者短期合作趋向性的短期兴趣嵌入表示；

S5，利用二元分类预测方法构建二分类模型，将作品数据集输入二分类模型进行训练获取学术合作预测模型。

所述步骤S2包括如下步骤：

S2.1，利用词嵌入将每个作品节点和内容节点的信息向量化表示为对应的文本向量；

S2.2，将步骤S2.1得到的文本向量分别输入Text-CNN模型进行特征向量提取，得到每个作者的标题特征向量和文本特征向量；

S2.3，利用BiLSTM或者全连接层将步骤S2.2得到的标题特征向量和文本特征向量进行融合，得到每个作者的兴趣特征向量；

S2.4，将步骤S1所建立的学识异构图视为同质，利用DeepWalk算法对学识异构图进行预训练得到反映每个作者节点在学识异构图中拓扑关系的向量表示；

S2.5，将步骤S2.3得到的兴趣特征向量和步骤S2.4得到的向量表示进行融合，得到每个作者节点的嵌入向量。

所述步骤S3包括如下步骤：

S3.1，基于作者节点从学识异构图中选择出长度小于N的元路径；

所述元路径包括表示作者与其它作者之间存在合作关系的第一元路径、表示作者与其它作者之间存在引用关系的第二元路径、表示作者的论文与其它作者的论文之间存在同一归属关系的第三元路径、表示作者的论文与其它作者的论文为同一主题关系的第四元路径；

S3.2，同一元路径下利用多头注意力机制对作者节点进行聚合，得到作者节点基于同一元路径的内部嵌入表示；

S3.3，不同元路径下利用多头注意力机制对作者节点进行聚合，获取每个作者节点的长期兴趣嵌入表示。

在步骤S3.2中，所述作者节点基于同一元路径的内部嵌入表示的表达式：

式中，

表示作者节点A_i在元路径φ_m下的内部嵌入表示，K表示多头注意力机制的头数，

表示作者节点A_i在元路径φ_m下的所有邻居节点集合，

表示作者节点A_i和作者节点A_i′之间的重要性的归一化值，h_i′表示作者节点A_i′的嵌入向量。

在步骤S3.3中，所述作者节点的长期兴趣嵌入表示的表达式为：

式中，M表示元路径的个数，

表示元路径φ_m的权重，

表示元路径φ_m下所有作者节点的内部嵌入表示的集合。

所述步骤S4包括如下步骤：

S4.1，利用激活函数对作品节点和作者节点进行转换，获取每个作者节点的初始短期兴趣嵌入表示；

S4.2，利用基于注意力机制的LSTM捕捉每个作者短期内发表作品历史的序列特征表示；

S4.3，将步骤S4.1得到的初始短期兴趣嵌入表示和步骤S4.2得到的序列特征表示进行融合得到作者的短期兴趣嵌入表示。

在步骤S4.1中，所述初始短期兴趣嵌入表示的表达式为：

u_c＝∑_jα_jd_j；

式中，u_c表示作者节点的初始短期兴趣嵌入表示，α_j表示作品节点P_j的权重，d_j表示作品节点P_j对应的嵌入向量；

所述作品节点P_j的权重α_j的计算公式为：

式中，v^T表示可学习参数矩阵的转置，u_i表示转换后的作者节点A_i的嵌入表示，o_j表示转换后的作品节点P_j的嵌入表示，a表示作者节点的个数。

在步骤S4.3中，所述作者的短期兴趣嵌入表示的表达式为：

u_s＝W[u_c；S]；

式中，u_s表示作者的短期兴趣嵌入表示，u_c表示作者节点的初始短期兴趣嵌入表示，S表示作者最近发表作品历史的序列特征表示。

本发明的有益效果：

本发明融合了节点的结构也即每个作者在学识异构图中拓扑关系和内容信息也即每个作者的研究兴趣，在保留了更多信息的同时，缓解了合作关系预测中存在的冷启动问题；融合了作者的长期兴趣和短期兴趣，考量到了学者/发明人在个人生涯中兴趣的变化，利用长短期兴趣嵌入表示刻画出作者间合作兴趣的改变趋势，可以更为准确的捕捉学者在某一时间段内潜在的合作兴趣；与现有其他的学术合作推荐模型相比，能够得到更好的推荐效果，提高了合作关系预测的准确性；本发明还可以应用在相似的技术合作关系预测任务上，也能得到较好的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的模型框架流程图。

图2为长期兴趣嵌入表示和短期兴趣嵌入表示的获取流程图。

图3为学识异构图的部分元路径图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于异构图神经网络的学术合作关系预测方法，如图1和图2所示，包括如下步骤：

S1，收集作者的作品信息构建作品数据集，根据作品数据集构建学识异构图，并将作品数据集划分为训练集和测试集；

所述作品数据集包括学术数据集和技术数据集，学术数据集通过收集学术数据库中的数据信息得到，技术数据集通过收集专利数据库中的数据信息得到，利用学术数据集和技术数据集构建学识异构图。所述学术数据集包括学者、论文、会议和主题，所述技术数据集包括发明人、专利、地区和IPC分类号。所述学识异构图采用G表示，G＝(V，E)，V表示学识异构图中的节点集合，节点集合V中的节点包括作者节点、作品节点、归属节点和内容节点，所有作者节点的集合采用A表示，A＝{A₁...，A_i，...，A_a}，其中，A_i表示第i个作者节点；所有作品节点的集合采用P表示，P＝{P₁...，P_j，...，P_p}，其中，P_j表示第j个作品节点；所有归属节点的集合采用C表示，C＝{C₁...，C_k，...，C_c}，其中，C_k表示第k个归属节点；所有内容节点的集合采用T表示，T＝{T₁...，T_l，...，T_t}，其中，T_l表示第l个内容节点。在所建立的学识异构图中，不同的节点可能对应于同一数据集或者不同的数据集，当为学术数据集时，作者节点表示为学者，作品节点表示为论文，即为论文名称，内容节点表示为论文的主题，归属节点表示为论文发表会议的地点，为技术数据集时，作者节点表示为发明人，作品节点表示为专利，即为专利名称，内容节点表示为IPC分类号，归属节点表示为地区，即为专利的国省代码。E表示学识异构图中节点之间所形成的边集合，边集合E中边的类型包括作者-作品的撰写关系、作品-归属的所属关系、作品-内容的对应关系以及作品-作品的引用关系。

本实施例以Aminer数据库所提供的学术数据集和中国国家专利数据库为基础的专利数据集中的数据信息为依据，分别选取1999年-2008年和2009年-2018年两个时间段的数据，按照年份为单位将数据随机划分为10个部分，前8个作为训练集，后2个作为测试集。使用时为每个作者分配唯一的ID，以避免重名导致混淆。

S2，利用DeepWalk算法和Text-CNN模型对步骤S1所建立的学识异构图中的信息进行提取获取每个作者节点的嵌入向量，包括如下步骤：

S2.1，利用词嵌入将作品节点和内容节点的信息向量化表示为对应的文本向量，作为每个作者研究兴趣的内容表示；

由于作者在整个学术生涯可能发表过很多论文或专利，并且不同的作者发表的论文/专利数量可能有所不同，因此把抽取学者的论文或专利的数量固定为5，多于这个数量进行随机选取，少于这个数量的进行重复选取补足。现有技术中使用one-hot进行预先编码再转换为相应维数的词向量，虽然简单高效，但是忽略了作者个人的研究兴趣，且合作关系预测问题中存在冷启动问题。

所述标题特征向量通过对论文名称或专利名称提取得到，文本特征向量通过对IPC分类号和论文主题提取得到，具体地，采用两个并行的Text-CNN模型作为文本信息提取器，将内容表示也即作品节点对应的文本向量和内容节点对应的文本向量分别输入两个Text-CNN模型，文本向量的维度为d，长度为n，这样就分别形成了一个n*d的矩阵，将矩阵输入Text-CNN模型中，即可得到每个作者的标题特征向量和文本特征向量。

具体方法就是将两个特征向量相加，经过一个全连接层就能得到作者在研究内容上的特征表示。

将学识异构图视为同质，并将该网络结构对应的邻接表信息输入DeepWalk，输出结果即为每个节点与其它节点拓扑关系的向量表示，将其中是作者节点的向量表示提出，作为作者在结构上的嵌入向量。

S2.5，将步骤S2.3得到的兴趣特征向量和步骤S2.4得到的向量表示进行融合，得到每个作者节点的嵌入向量，以实现每个作者的研究兴趣也即内容和每个作者在学识异构图中拓扑关系也即结构的提取。

S3，利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合获取表征作者长期合作趋向性的长期兴趣嵌入表示，包括如下步骤：

异构图中的元路径很多，但很长的元路径实际上并没有很大的意义，本实施例中，N＝5，本申请中的元路径为四个，如图3所示，分别为表示作者与其它作者之间存在合作关系的A-P-A、表示作者与其它作者之间存在引用关系的A-P-P-A、表示作者的论文与其它作者的论文之间存在同一归属关系的A-P-C-P-A、表示作者的论文与其它作者的论文为同一主题关系的A-P-T-P-A。由于元路径在某种程度上表达了作者在学识异构图中与其他作者之间存在的互动关系，因此，采用元路径表示作者之间的长期合作趋势。

在同一元路径下，不同的邻居节点可能对作者节点产生不同的影响力，在现实中体现在一名作者更倾向于和重要性更大的其它作者进行合作。假设作者节点对A(i，i′)通过元路径φ_m相连接，作者节点A_i和作者节点A_i′之间的重要性

的计算公式为：

式中，h_i表示通过步骤S2所获得的作者节点A_i的嵌入向量，h_i′表示通过步骤S2所获得的作者节点A_i′的嵌入向量，且A_i′∈A。

由于作者节点A_i和作者节点A_i′之间的重要性是不同的，也即

是非对称的，得到

后，对其进行归一化运算得到

根据

得到作者节点A_i关于元路径φ_m的内部嵌入表示

内部嵌入表示

的计算公式为：

式中，

表示作者节点A_i在元路径φ_m下的所有邻居节点集合，h_i′表示作者节点A_i′的嵌入向量，σ(·)表示激活函数。使用多头注意力来计算节点级别的注意力，这样效果更好，具体来说，注意力模型独立重复n次。与GAT中的多头连接不同，这里将学习到的内部嵌入表示的平均值作为最终向量，计算公式如下，K表示注意力的头数，本实施例中K＝4，表示进行4次重复实验后取平均值即为最终结果。

当采用多头注意力来计算节点级别的注意力时，对应的内部嵌入表示的计算公式为：

S3.3，利用多头注意力机制对学识异构图中的不同元路径进行作者节点聚合，得到每个作者节点的长期兴趣嵌入表示；

对于不同元路径，因为其表达的语义不同，因此在预测作者之间的潜在合作关系时，对合作关系的贡献也不同。因此本申请使用语义级别的注意力来学习不同元路径的重要性并融合多个元路径下的节点表示。

式中，

表示元路径φ_m的权重，

表示元路径φ_m通过步骤S3.2得到的所有作者节点的内部嵌入表示的集合，

M表示元路径的数量。attention(·)表示元路径层面的注意力值计算操作，它的目的是学习每一个边，也就是每个元路径的重要性，把这个重要性记为

元路径φ_m的重要性

的计算公式为：

式中，a表示作者节点的个数，q^T表示学习参数矩阵的转置，W表示权重矩阵，b表示偏置向量。

在得到每个元路径的重要性之后，通过softmax函数将其归一化，进而得到每个元路径对应的注意力权值，元路径φ_m的权重

的计算公式为：

式中，exp(·)表示返回对应值的指数。

对得到的各个元路径的权重进行加权求和，即可得到综合每个元路径的作者节点的长期兴趣嵌入表示，其计算公式为：

式中，u_l表示作者的最终长期兴趣嵌入表示。

S4，基于LSTM(Long Short-Term Memory，长短期记忆网络)和注意力机制获取表征作者短期合作趋向性的短期兴趣嵌入表示，包括如下步骤：

o_j＝tanh(Wd_j+b)；(8)

式中，o_j表示作品节点P_j转换后的嵌入表示，d_j表示作品节点P_j对应的嵌入向量，tanh(·)表示激活函数。

u_i＝tanh(Wd_i+b)；(9)

式中，u_i表示作者节点A_i的嵌入表示，d_i表示作者节点A_i的嵌入向量。

式中，α_j表示作品节点P_j的权重，v^T表示可学习参数矩阵的转置。

u_c＝∑_jα_jd_j；(11)

式中，u_c表示作者节点的初始短期兴趣嵌入表示。将作者最近发表的作品集合作为输入，集合的大小统一设置为5，作者节点的嵌入向量作为查询向量，打分函数同样选取加性模型，最终得到作者的初始短期兴趣嵌入表示u_c。

S4.2，利用基于注意力机制的LSTM捕捉作者短期内发表作品历史的序列特征表示；

LSTM是一种具有重复神经网络模块的链式结构，它的每一个单独模块都存在一个隐藏层的输出，通过这个隐藏层的输出h可以表示作者在当前时刻下的兴趣。LSTM将作者最近发表的作品作为输入，输出作者的短期兴趣序列特征表示。由于每个作者当前发表的作品往往会受到之前发表历史的影响，因此使用注意力机制与LSTM相结合，通过输出的每个隐含状态h_r与其之前的隐含状态h₁，h₂，...，h_r-1来获得不同时刻的序列特征表示s_r，最后将这些特征(s₁，s₂，...，s_r)通过卷积神经网络(Convolutional Neural Networks，CNN)融合，获得作者最近发表作品历史的序列特征表示S，其中，r表示时刻。

S4.3，将步骤S4.1得到的和步骤S4.2得到的序列特征表示进行拼接得到作者的短期兴趣嵌入表示，对应的表达式为；

u_s＝W[u_c；S]；(12)

式中，u_s表示作者的短期兴趣嵌入表示。

S5，利用二元分类预测方法构建二分类模型，根据训练集、测试集、最终长期兴趣嵌入表示u_l和最终短期兴趣嵌入表示u_s获取学术合作预测模型；

S5.1，将步骤S3得到的长期兴趣嵌入表示和步骤S4得到的短期兴趣嵌入表示进行拼接得到作者的最终兴趣嵌入表示，对应的表达式为：

μ＝W[u_l；u_s]； (13)

式中，μ表示作者的最终兴趣嵌入表示。

S5.2，利用二元分类预测方法构建二分类模型，将训练集数据和最终兴趣嵌入表示u输入二分类模型进行训练得到学术合作初始预测模型；

所述二元分类预测方法包括全连接层、GRU(Gated Recurrent Unit，门控循环单元)、随机森林以及逻辑回归法。

S5.3，将测试集数据输入学术合作初始预测模型，利用交叉熵作为损失函数对学术合作初始预测模型进行优化得到学术合作预测模型。

所述学术合作预测模型的表达式为：

式中，

表示学术合作预测模型所预测的两名作者之间产生合作的概率，μ_i1表示作者节点A_i1的最终兴趣嵌入表示，μ_i2表示作者节点A_i2的最终兴趣嵌入表示，且A_i2∈A，A_i1∈A，DNN(Deep neural network，深度神经网络)。

在学术数据集和技术数据集上以分批的方式进行训练，输入特征和输出嵌入的维数设置为128，学习率设置为0.001，采用Adam作为优化器，批量大小为200，训练迭代次数为60，随机种子设置为10，注意力头数设置为4。以F1-score和AUC(area under the curve，模型评估指标)作为度量标准，将本申请与其它几种方法进行对比，如下表所示：

表1学术数据集上的实验结果

数据集	学术数据集-1	学术数据集-1	学术数据集-2	学术数据集-2
					评价指标	AUC	F1	AUC	F1
RWR-CR	60.3	51.4	61.9	53.2
					Metapath2vec	58.6	31.8	59.6	34.8
GraphSAGE	67.2	57.3	68.5	61.5
					HetGNN	70.1	64.2	71.7	66.9
SHNE	67.2	61.2	68.3	63.9
					HAN	70.2	69.7	70.1	69.7
Our-model	74.3	71.5	74.1	71.4

表2技术数据集上的实验结果

数据集	技术数据集-1	技术数据集-1	技术数据集-2	技术数据集-2
					评价指标	AUC	F1	AUC	F1
RWR-CR	58.1	50.2	60.2	50.2
					Metapath2vec	57.2	45.7	57.6	44.1
GraphSAGE	65.9	54.2	64.1	60.3
					HetGNN	69.2	61.2	67.0	63.8
SHNE	66.5	58.7	64.4	59.8
					HAN	70.3	65.4	68.2	66.9
Our-model	73.1	69.0	72.6	69.2

其中，RWR-CR基于随机游走和重启算法，它实现了带有元路径的随机游走；Metapath2vec(Scalable Representation Learning for Heterogeneous Networks)在这个模型中，异构邻居集是通过基于元路径的随机游走形成的，并利用异构跳过图来学习节点表示；GraphSAGE(Graph Sample Aggregate)是一个经典的图神经网络模型，节点的特征表示是通过以特定形式(均值、池化或LSTM)聚合相邻节点的信息而获得的；HetGNN(Heterogeneous Graph Neural Network,异构图神经网络)该模型利用随机游走和重启算法来获取邻居集，并通过多层邻居聚合学习节点嵌入；SHNE结合了结构图相似性和语义文本相关性来学习文本关联异构图中的节点表示；HAN这种方法通过元路径连接相同类型的节点，并通过注意力聚合来自不同子图的信息，将异构图转换为同构网络。从表1和表2可以看出，在学术和技术数据集上，相较于表现最好的HAN模型和HetGNN模型，本申请在AUC和F1-score两个指标上都有着2-4％的提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。