CN112148776B

CN112148776B - 基于引入语义信息的神经网络的学术关系预测方法和装置

Info

Publication number: CN112148776B
Application number: CN202011052521.3A
Authority: CN
Inventors: 赵虹; 田宇菲; 胡泓; 李悦江
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-05-03
Anticipated expiration: 2040-09-29
Also published as: CN112148776A

Abstract

本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测方法和装置，该方法包括：确定待预测两节点的节点信息组合，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；将节点信息组合输入关系预测模型，输出两节点的关系类型向量；其中，关系预测模型是基于样本节点信息和预先确定的样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。本发明实施例提供的方法和装置，实现了考虑论文语义信息而提高学术关系预测准确率低并使能挖掘学术关系种类更多。

Description

基于引入语义信息的神经网络的学术关系预测方法和装置

技术领域

本发明涉及学术关系预测技术领域，尤其涉及一种基于引入语义信息的神经网络的学术关系预测方法和装置。

背景技术

近年来，随着移动互联网的普及和信息来源的丰富,存储在互联网上的非结构化信息呈现出指数级的增长趋势。由于人们很难从繁杂且数量巨大的非结构化信息中高效地提取所需需要的结构化信息，网络信息挖掘的相关研究应运而生。许多社会生活中的实际应用场景，例如说高分子化合物、交通道路网络、学术合作网络、生物信息、社交媒体网络等等，都可以通过一定手段建模为图。

通过将实体(节点)间的交互建模为图，研究者将同构图分析理论进一步扩展、与深度学习和网络嵌入表示相融合，将图神经网络应用到复杂图的分析任务中，如节点推荐、节点分类、链接预测等，从而挖掘数据背后隐藏的信息。其中，推荐系统已在电子商务平台(如亚马逊、淘宝等)、社交媒体(如脸书、推特、微博等)、合作者与论文推荐(谷歌学术、DBLP等)、新闻销售平台(今日头条等)、娱乐平台(如IMDb、烂番茄、豆瓣等)和生活服务平台(如Yelp、大众点评等)起着重要的作用。

影响力最广泛的异构学者信息网络模型是元路径模型，它包含三种类型的信息实体:论文、场所和作者。对于每篇论文，它都有指向一组作者和一个地点的链接，这些链接属于一组链接类型。为了在复杂的异构信息网络中准确地建模对象链接的不同类型，提出了元级别(即模式级)的规范化的网络描述方法。表1位元路径示意表格，如表1所示，作者可以通过元路径“Author-Paper-Author”(APA)路径、“Author-Paper-Venue-Paper-Author”(APVPA)等路径进行连接。此外，元路径还可以连接不同类型的对象：如通过将作者和会议或期刊由APV路径产生关联，表明作者在会议或期刊上发表论文。

表1元路径示意表格

然而元路径由于需要人工定义全部路径，需要耗费的前期处理时间长，而且模型的泛化能力较差。近年来，随着深度学习和图卷积神经网络的成功，出现了“Heterogeneousgraph transformer”模型(异质图转换器模型，HGT模型)。它是一种基于注意力机制、消息传递和聚合的图神经网络模型，对源节点的信息进行聚合，得到目标节点的上下文表示。

现有技术中的元路径模型和HGT模型都有如下三点缺陷：

1、因为使用了庞大的深度学习模型，所以往往模型复杂度高、参数多、对计算力要求高、训练时间长；

2、需要人为手动定义元路径，劳动密集，花费大量时间精力,且定义的元路径难以做到全覆盖；

3、只是简单地区分各种类型的节点的链路，均未考虑到文章语义内容信息能从另一个角度为模型提供丰富的内涵。

因此，如何避免现有的基于神经网络的学术关系预测方法中预测模型不能考虑论文语义信息而造成的学术关系预测准确率低和能挖掘的关系种类少，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测方法和装置，用以解决现有技术中基于神经网络的学术关系预测方法的预测模型不能考虑论文语义信息而造成的学术关系预测准确率低和能挖掘的关系种类少的问题。

第一方面，本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测方法，包括：

确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；

将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；

其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。

优选地，该方法中，

所述关系类型向量包括五个元素，分别用于表示两节点是否属于同一机构不同实验室的学者关系、两节点是否属于同一实验室的学者关系、两节点是否为密切合作者的学者关系、两节点之间是否存在写作关系和两节点之间是否存在引用关系；

其中，两学者为密切合作者的关系需要满足所述两学者连续n年每年合作发论文m篇，n≥2，m≥1。

优选地，该方法中，

所述关系预测模型训练时的神经网络使用图编码器加图解码器的异构网络结构构建；

其中，所述图编码器用于将当前节点的特征向量与其邻居节点的特征向量进行l次变换和聚合操作得到当前节点的嵌入表示向量，l为所述图编码器的隐藏层总数，所述图解码器用于将两当前节点的嵌入表示向量转换成所述两当前节点的关系类型概率向量，并基于预设阈值将所述关系类型概率向量转换为元素值为0或1的关系类型向量。

优选地，该方法中，

所述图编码器用于将当前节点的特征向量与其邻居节点的特征向量进行l次变换和聚合操作得到当前节点的嵌入表示向量，l为所述图编码器的隐藏层总数，具体包括：

所述图编码器的神经网络的第k+1层隐藏层中节点v_i的隐藏状态与第k层隐藏层中节点v_i的隐藏状态/>的关系通过如下公式表示：

其中，表示与节点v_i存在r关系的邻居节点集合，r为关系类型且r∈{r₁，r₂，r₃，r₄，r₅}，r₁表示两节点属于同一机构不同实验室的学者关系，r₂表示两节点属于同一实验室的学者关系，r₃表示两节点为密切合作者的学者关系，r₄表示两节点之间存在写作关系，r₅表示两节点之间存在引用关系，矩阵/>为所述图编码器的神经网络的第k层隐藏层的权重参数矩阵，/>和/>均为归一化常数，l为所述图编码器包含的隐藏层总层数；

所述图编码器第l层的隐藏层的隐藏状态为节点v_i的嵌入式表示向量。

优选地，该方法中，

所述图解码器用于将两当前节点的嵌入表示向量转换成所述两当前节点的关系类型概率向量，并基于预设阈值将所述关系类型概率向量转换为元素值为0或1的关系类型向量，具体包括：

所述图解码器基于所述图编码器得到的当前两节点v_i和v_j的嵌入表示向量z_i和z_j获取所述当前两节点的关系类型概率向量具体公式如下：

其中，向量包含5个元素，数值范围均为[0,1]，分别用于表示当前两节点v_i和v_j属于同一机构不同实验室的学者关系的概率、当前两节点属于同一实验室的学者关系的概率、当前两节点为密切合作者的学者关系的概率、当前两节点之间存在写作关系的概率和当前两节点之间存在引用关系的概率，M_r为所述图解码器的神经网络的参数矩阵；

将向量中小于预设阈值的元素设置为0，否则设置为1，得到当前两节点v_i和v_j的关系类型向量/>

优选地，该方法中，

所述关系预测模型训练时的损失函数J通过如下公式进行构建：

其中，r∈R_k，k＝1,2,3,4,5，为预测的当前两节点v_i和v_j的关系类型向量，n为服从预测的当前两节点v_i和v_j的关系类型向量/>分布的随机五维向量，/>表示求/>的数学期望，/>为基于所述样本节点之间的关系类型获取的两节点v_i和v_j的关系类型向量。

第二方面，本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测装置，包括：

确定单元，用于确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；

关系单元，用于将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；

优选地，该装置中，所述关系类型向量包括五个元素，分别用于表示两节点是否属于同一机构不同实验室的学者关系、两节点是否属于同一实验室的学者关系、两节点是否为密切合作者的学者关系、两节点之间是否存在写作关系和两节点之间是否存在引用关系；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于引入语义信息的跨层异构网络的学术关系预测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于引入语义信息的跨层异构网络的学术关系预测方法的步骤。

本发明实施例提供的方法和装置，确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。如此，关系预测模型训练时样本论文节点的特征向量由论文标题信息特征加论文摘要信息特征构成，增加了内容信息，丰富了输入传统神经网络结构的信息的维度。因此，本发明实施例提供的方法和装置，实现了由于考虑了论文语义信息而提高学术关系预测准确率低并使能挖掘学术关系种类更多。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于引入语义信息的神经网络的学术关系预测方法的流程示意图；

图2为本发明实施例提供的基于引入语义信息的神经网络的学术关系预测装置的结构示意图；

图3为本发明实施例提供的同时考虑论文语义信息与网络结构的跨层网络的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中基于神经网络的学术关系预测方法普遍存在预测模型不能考虑论文语义信息而造成的学术关系预测准确率低和能挖掘的关系种类少的问题。对此，本发明实施例提供了一种基于引入语义信息的神经网络的学术关系预测方法。图1为本发明实施例提供的基于引入语义信息的神经网络的学术关系预测方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要。

具体地，本发明实施例提供的是一种学术关系的预测方法，其中，学术关系包括学者和学者之间的关系类型、论文和论文之间的关系类型，以及学者和论文之间的关系类型。以学者和论文形成的关系图来看，学者和论文就是关系图中的各个节点，两个节点之间的连线上标注所述两个节点之间的关系。当节点为学者节点(即该节点代表的是学者)时，该节点包括学者的个人信息，该个人信息为可以区分不同学者的信息，可以用于将任一学者从其他学者中辨别出来，例如，可以是姓名加出生年月加国籍的组合，也可以是姓名加所属科研机构的组合；当节点为论文节点(即该节点代表的是论文)时，该节点包括该论文的标题和摘要信息。

步骤120，将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；

具体地，将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。用于关系预测模型训练的样本节点信息和预先确定的所述样本节点之间的关系类型向量标签都是从学术论文库中获取的，常用的学术论文库包括DM数据集和SIGKDD数据集，它们都是以DBLP系统所要求的数据结构进行封装，其中，DBLP为计算机领域的以作者为核心的大规模文献数据库系统，因此，当需要获取训练样本和对应的样本之间的关系类型向量标签，需要提取DBLP结构的学术数据，采用使用luigi包构建的数据处理模块对提取的学术数据进行处理，所述luigi包提供了基于输出文件的数据流水线依赖性解决方案，处理过程为：首先将给定的DBLP文件分解成若干个csv子文件，这些文件随后加载到关系数据库中，然后将原始dblp文件分解成paper.csv(文章信息)、refs.csv(文章之间两两引用关系)、venue.csv(期刊和会议名称)、person.csv(作者个人信息)以及author.csv(作者-论文发表关系)共计6个文件。通常，比起一次性检查整个数据集，模型训练时只会用到一定的年份或一部分的文章，为此，还会使用过滤接口，该接口接受上述六个关系数据文件，并根据纸质出版物的年份对它们进行过滤。基于上述提取的六个关系数据文件，确定用于关系预测模型训练的样本节点信息和预先确定的所述样本节点之间的关系类型向量标签。通常，关系类型向量为一个N维向量，其中的N个元素分别代表了N中两节点之间的关系类型，同时，常用的表示方式即当元素值为1是表示存在对应的关系类型，元素值为0时表示不存在对应的关系类型。用于训练的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成，其中，样本论文节点的特征向量需要包括论文标题信息和论文摘要信息，为了保持样本学者节点的特征向量与样本论文节点的特征向量的维度相同，需要在学者个人信息特征上加入随机附加特征构成学者节点的特征向量。

本发明实施例提供的方法，确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。如此，关系预测模型训练时样本论文节点的特征向量由论文标题信息特征加论文摘要信息特征构成，增加了内容信息，丰富了输入传统神经网络结构的信息的维度。因此，本发明实施例提供的方法，实现了由于考虑了论文语义信息而提高学术关系预测准确率低并使能挖掘学术关系种类更多。

基于上述实施例，该方法中，所述关系类型向量包括五个元素，分别用于表示两节点是否属于同一机构不同实验室的学者关系、两节点是否属于同一实验室的学者关系、两节点是否为密切合作者的学者关系、两节点之间是否存在写作关系和两节点之间是否存在引用关系；

具体地，此处进一步限定了本发明实施例需要预测的关系类型的种类和个数，包括：是否属于同一机构不同实验室的学者关系、是否属于同一实验室的学者关系、是否为密切合作者的学者关系、是否存在写作关系和是否存在引用关系，其中，学者之间的关系类型包括三种：r1，是否属于同一机构不同实验室的学者关系，r2，是否属于同一实验室的学者关系，r3，是否为密切合作者的学者关系，其中，关系r1和r2互斥，关系r3和关系r1可以同时存在，关系r3和关系r2也可以同时存在，对于是否属于同一机构不同实验室的学者关系，其中的机构指的是科研机构，例如不同的大学和不同的研究所等等，还需要说明的是，在训练时，r1关系是作为预先确定的样本标签参与训练的，而打该标签时，则是通过人工标注的方法，例如，尽管Aminer数据集中提供了作者的所属机构，但其描述都为非结构化的文字信息，难以直接利用，就算是对于同样的高校和院系，每个作者自己填写的机构信息也不尽相同，为此，本工作利用关键字匹配等方法，先将作者粗颗粒度地分组，然后手动标注主要研究机构所对应的作者。其他两种关系：r4，是否存在写作关系只存在与学者与论文之间，即判断该学者是否是该论文的作者或作者之一，r5，是否存在引用关系只存在论文与论文之间，且存在指向性，即需要确定主动引用文献和被引用文献。本发明实施例还构造了密切合作者的关系，该关系并不能直接由合作关系推出密切合作者关系。为此，本发明实施例引入了时间信息，当且仅当学者A与学者B连续n年都有合作关系，且每年合作文章不止m篇时，则定义学者A与学者B存在密切合作关系，这样定义有效避免了数据泄露的问题。通常，在具体应用场景中，选择n＝2，m＝1。

基于上述任一实施例，该方法中，所述关系预测模型训练时的神经网络使用图编码器加图解码器的异构网络结构构建；

具体地，此处进一步限定了关系预测模型训练时使用的神经网络的网络架构为异构网络，即图编码器加上图解码器，其中，图编码器用于将当前节点的特征向量与其邻居节点的特征向量进行l次变换和聚合操作得到当前节点的嵌入表示向量，l为所述图编码器的隐藏层总数，总体来说，对于给定节点(学者节点或论文节点)，图编码器对其邻居节点的特征向量执行变换和聚合的操作，由于图编码器的神经网络结构是由l层隐藏层构成，因此，上述变换和聚合的操作会重复l次，使得图编码器能够有效地将每一阶(一共l阶)邻域信息卷积到当前节点的嵌入表示中；所述图解码器用于将两当前节点的嵌入表示向量转换成所述两当前节点的关系类型概率向量，并基于预设阈值将所述关系类型概率向量转换为元素值为0或1的关系类型向量，图解码器的目标是根据图编码器得到的最后隐藏层输出的当前两节点的嵌入表示向量通过区别对待每种两节点边的关系类型来重建输入学术网络中的边，即能输出所述两当前节点的关系类型概率向量，基于预先定义的五种关系类型：r1，是否属于同一机构不同实验室的学者关系，r2，是否属于同一实验室的学者关系，r3，是否为密切合作者的学者关系，r4，是否存在写作关系，r5，是否存在引用关系，它们组成的关系类型概率向量A，例如，A＝{0.1,0.9,0.8,0.01,0.02}，即表示当前两节点之间存在属于同一机构不同实验室的学者关系的概率为0.1，存在属于同一实验室的学者关系的概率为0.9，存在为密切合作者的学者关系的概率为0.8，存在写作关系的概率为0.01，存在引用关系的概率为0.02，基于预设阈值将所述关系类型概率向量转换为元素值为0或1的关系类型向量，优选地，预设阈值为0.5，当概率值超过0.5时元素值设置为1，否则为0，例如，上述例子中的关系类型概率向量A，在预设阈值为0.5的条件下，关系类型向量B＝{0，1，1，0，0}。

本发明实施例提供的方法，实现了避免使用庞大的深度学习模型，避免了庞大模型的复杂度高、参数多、计算力要求高以及训练时间长的问题，同时，减少人工参与程度，降低人工成本。

基于上述任一实施例，该方法中，所述图编码器用于将当前节点的特征向量与其邻居节点的特征向量进行l次变换和聚合操作得到当前节点的嵌入表示向量，l为所述图编码器的隐藏层总数，具体包括：

具体地，通过上述公式提供的计算方式具体描述在每一阶都将邻域信息卷积到当前节点的方法，其中，矩阵为所述图编码器的神经网络的第k层隐藏层的权重参数矩阵，即整个图编码器加图解码器构成的神经网络的迭代训练过程中每一次迭代都需要进行更新的网络参数，/>表示与节点v_i存在r关系的邻居节点集合，r为关系类型且r∈{r₁，r₂，r₃，r₄，r₅}，即/>从参与关系预测模型训练的样本标签中提取，它包括了各个节点的邻居节点信息以及与所有邻居节点的关系类型。

基于上述任一实施例，该方法中，所述图解码器用于将两当前节点的嵌入表示向量转换成所述两当前节点的关系类型概率向量，并基于预设阈值将所述关系类型概率向量转换为元素值为0或1的关系类型向量，具体包括：

将向量中小于预设阈值的元素设置为0，否则设置为1，得到当前两节点vi和vj的关系类型向量/>

具体地，图解码器都依据编码器得到的两当前节点的嵌入表示向量表示为每条可能的当前两节点关系类型边生成一个概率预测值，解码器的目标是根据编码环节学习到当前两节点v_i和v_j的嵌入表示向量z_i和z_j，通过区别对待每种两节点之间边的关系类型来重建输入学术网路(即由学者节点、论文节点还有各节点之间的边组成的网络，其中，边由其连接的两节点的关系类型进行标识)中的边。具体而言，解码器通过打分函数g(v_i,r^i,j,v_j)对(v_i,r^i,j,v_j)三元组成立的可能性进行预测，其中，表示两节点v_i和v_j之间的存在关系类型，具体可以通过下式表示：

其中，向量包含5个元素，数值范围均为[0,1]，分别用于表示当前两节点v_i和v_j属于同一机构不同实验室的学者关系的概率、当前两节点属于同一实验室的学者关系的概率、当前两节点为密切合作者的学者关系的概率、当前两节点之间存在写作关系的概率和当前两节点之间存在引用关系的概率，M_r为所述图解码器的神经网络的参数矩阵，σ(.)是sigmoid函数，将非线性引入到模型中,最后，为了评价模型指标，我们需要对介于0和1之间的连续概率进行二值化。我们将阈值设置为0.5，并将所有/>映射为0或1。

基于上述任一实施例，该方法中，所述关系预测模型训练时的损失函数J通过如下公式进行构建：

其中，r∈R_k，k＝1,2,3,4,5，为预测的当前两节点v_i和v_j的关系类型向量，n为服从预测的当前两节点v_i和v_j的关系类型向量/>分布的随机五维向量，表示求/>的数学期望，/>为基于所述样本节点之间的关系类型获取的两节点v_i和v_j的关系类型向量。

具体地，所述损失函数的构建即基于所有预测的关系类型与实际的关系类型的误差的累加。

基于上述任一实施例，本发明实施例提供一种基于引入语义信息的神经网络的学术关系预测装置，图2为本发明实施例提供的基于引入语义信息的神经网络的学术关系预测装置的结构示意图。如图2所示，该装置包括确定单元210和关系单元220，其中，

所述确定单元210，用于确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；

所述关系单元220，用于将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；

本发明实施例提供的装置，确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。如此，关系预测模型训练时样本论文节点的特征向量由论文标题信息特征加论文摘要信息特征构成，增加了内容信息，丰富了输入传统神经网络结构的信息的维度。因此，本发明实施例提供的装置，实现了由于考虑了论文语义信息而提高学术关系预测准确率低并使能挖掘学术关系种类更多。

基于上述任一实施例，该装置中，

本发明实施例提供的装置，实现了避免使用庞大的深度学习模型，避免了庞大模型的复杂度高、参数多、计算力要求高以及训练时间长的问题，同时，减少人工参与程度，降低人工成本。

基于上述任一实施例，该装置中，

所述图编码器的神经网络的第k+1层隐藏层中节点v_i的隐藏状态与第k层隐藏层中节点v_i的隐藏状态/>的关系通过如下公式表示：/>

基于上述任一实施例，该装置中，

基于上述任一实施例，本发明实施例提供一种基于编码器-解码器的低复杂度的跨层网络图的关系预测模型的训练方法，图3为本发明实施例提供的同时考虑论文语义信息与网络结构的跨层网络的结构示意图。如图3所示，同时考虑论文语义信息与网络结构的跨层网络包括学者节点和论文节点，其中，学者节点由包括该学者个人信息的向量表示，论文节点由包括该论文的摘要和标题信息的BERT词向量表示，该跨层网络分为两层，顶层为学者网络，底层为论文网络，两个网络之间通过发表关系连接。

对于顶层学者关系网络，对于其中节点，顶层的学者网络中的每个三角形(如图3所示)对应着学者。对于边，本发明实施例分别定义了学者之间的以下三种关系：

1.r1-隶属于同一机构但不在相同的实验室；

2.r2-隶属于同一机构的同一实验室；

3.r3–密切合作者。连续多年有合作关系，且每年合作文章数目达到一定要求。

其中，r1与r2是互斥关系，但r3与前两者可以相互叠加，即某两个学者之间可以同时存在两种链路关系，例如图三中的学者C和学者M同时存在r1与r2的关系。

对于底层学术论文网络，对于其中节点，底层的论文网络中的每个圆形(如图3所示)对应着论文，而且论文的初始节点表示用标题与摘要的BERT词向量表示。其次，对于边，论文与论文之间只存在单向引用关系r5，而学者与论文之间存在写作关系r4。

本发明实施例定义了五种种类型的链路，分别是学者之间的三种关系(r1，r2，r3)、作者论文写作关系(r4)以及论文之间的引用关系(r5)。本发明实施例的任务是分别预测跨层学术网络中所有可能的五种链路关系。对于任意节点v_i∈V＝{V_scholar,V_paper}，训练数据提供已标注的链路信息r^ij∈R＝{r₁,r₂,r₃,r₄,r₅+和节点v_i的相邻节点其中，为节点v_i的邻居节点集合。对于任意三元组(v_i,r^i，j,v_j),模型需要分别预测r^ij∈R＝{r₁,r₂,r₃,r₄,r₅+的概率。其中概率值介于0和1之间，0表示模型认为一定不存在某链路关系，1表示模型认为一定存在。

为了找到最佳网络维度，本发明实施例对关系预测模型的图编码器和图解码器的神经网络分别尝试隐藏层维度为16-8，32-16，64-32这三种组合。通过实验发现：随着隐藏层维度不断增加，模型效果逐渐变好。而当模型维度进一步增加，在验证集上的提升并不显著，所以，最后统一选定用64-32(即神经网络包括两个隐藏层，第一个隐藏层的维度为64，第二个隐藏层的维度为32)的隐藏层维度组合。同时，设置网络训练中的以下超参数：(1)负采样率，取值为1；(2)Dropout概率，取值集合为0.1；(3)学习率，取值为0.075，以及(4)训练集、验证集、测试集的比例为77.5:7.5:15。

基于上述任一实施例，对上述任一实施例提供的关系预测模型训练方法进行效果验证，为了综合考察模型的表现，对测试集的预测准确率(Accuracy)、AUROC(ROC曲线下面积)以及、AUPRC(PRC曲线下面积)进行记录，同时为了避免程序的随机性产生的影响，每一个衡量的模型均独立地随机训练4次，并记录每一个指标的均值。

选取元路径模型(PathPredict)、HGT模型、Decagon模型作为基准模型，连同任一本发明实施例所提出的图编码器-图解码器网络模型，在相同的训练集上进行训练，并以上述各项指标来衡量各方法的性能。其结果如下面的表2和表3所示：

表2图编码器-图解码器网络模型在DM数据集上的表现结果

表3图编码器-图解码器网络模型在SIGKDD数据集上的表现结果

/>

基于表2和表3展示的结果，其中，黑体的数字代表同条件下的最优结果，可以得到以下结论：

1、在统计的10组表现中，增强跨层模型在8组均稳定地高于基线模型。加入语义信息后，在各种类型的链路预测任务上均有有明显的效果提升。说明语义信息(多源信息)对当前的链路预测任务而言是十分有用的。

2、加入语义信息后，在小数据集(SIGKDD)上的提升相对大数据集(DM)上的提升更明显。这可能是因为在不考虑语义信息的前提下，大数据集本身所提供的信息更加丰富，因此引入新领域的语义信息之后，对整体数据的信息丰富程度贡献更小。反观小数据集本身的数据量少，模型训练效果一般，在这样的情况下语义信息的引入极大地增加了输入信息的维度，使得模型准确率有了大幅度提高。

最后，为了进一步了解上述任一本发明实施例提出的图编码器-图解码器网络模型(CANSIN)在轻量级上的优势，统计了CANSIN模型与基线模型Decagon和HGT模型的参数个数。表4为各模型(CANSIN、Decagon和HGT)训练时需要计算的参数个数，结果展示如下：

表4各模型训练时需要计算的参数个数

从表4可以看出，CANSIN模型的参数个数为54.6万个，比Decagon模型增加了4万个左右，但都远远小于HGT模型的744万的参数规模。也就是说，Decagon和以Decagon为基础的两个模型参数个数仅为HGT模型的参数个数的不到10％。在同样不考虑语义信息的情况下，decagon比起HGT只牺牲了很小一部分准确率，就大大降低了模型的复杂度。

综合来说，HGT和Decagon都是适用于跨网络(学者-论文网络)链路预测任务的，只是简化后的HGT模型缺少了下采样和分析动态网络的性能，相当于一个注意力机制加上编码器，而Decagon模型则缺少注意力机制，是一个标准的编码器-解码器模型。而由于学者网络的特性：1)网络规模不大，2)边与边的连接实际意义非常明确，使得注意力机制和采样机制形同虚设，HGT的优势没有充分发挥出来。由此验证了在Decagon的基础上实现本文增强模型的合理性。

图4为本发明实施例提供的电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储在存储器403上并可在处理器401上运行的计算机程序，以执行上述各实施例提供的基于引入语义信息的神经网络的学术关系预测方法，例如包括：确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于引入语义信息的神经网络的学术关系预测方法，例如包括：确定待预测关系的两节点的节点信息组合，所述节点为学者节点或论文节点，学者节点的节点信息包括学者个人信息，论文节点的节点信息包括论文标题和论文摘要；将所述节点信息组合输入关系预测模型，输出所述两节点的关系类型向量；其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于引入语义信息的神经网络的学术关系预测方法，其特征在于，包括：

其中，所述关系预测模型是基于样本节点信息和预先确定的所述样本节点之间的关系类型向量标签进行训练后得到的，训练中的样本学者节点和样本论文节点的特征向量分别由学者个人信息特征加随机附加特征构成和论文标题信息特征加论文摘要信息特征构成；

2.根据权利要求1所述的基于引入语义信息的神经网络的学术关系预测方法，其特征在于，

3.根据权利要求1所述的基于引入语义信息的神经网络的学术关系预测方法，其特征在于，所述图编码器用于将当前节点的特征向量与其邻居节点的特征向量进行l次变换和聚合操作得到当前节点的嵌入表示向量，l为所述图编码器的隐藏层总数，具体包括：

4.根据权利要求1或3所述的基于引入语义信息的神经网络的学术关系预测方法，其特征在于，所述图解码器用于将两当前节点的嵌入表示向量转换成所述两当前节点的关系类型概率向量，并基于预设阈值将所述关系类型概率向量转换为元素值为0或1的关系类型向量，具体包括：

5.根据权利要求4所述的基于引入语义信息的神经网络的学术关系预测方法，其特征在于，所述关系预测模型训练时的损失函数J通过如下公式进行构建：

6.一种基于引入语义信息的神经网络的学术关系预测装置，其特征在于，包括：

7.根据权利要求6所述的基于引入语义信息的神经网络的学术关系预测装置，其特征在于，所述关系类型向量包括五个元素，分别用于表示两节点是否属于同一机构不同实验室的学者关系、两节点是否属于同一实验室的学者关系、两节点是否为密切合作者的学者关系、两节点之间是否存在写作关系和两节点之间是否存在引用关系；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的基于引入语义信息的神经网络的学术关系预测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于引入语义信息的神经网络的学术关系预测方法的步骤。