CN112069290B

CN112069290B - 基于图局部结构和文本语义相似性的学术论文推荐方法

Info

Publication number: CN112069290B
Application number: CN202010730690.1A
Authority: CN
Inventors: 杜一; 宁致远; 乔子越; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-07-12
Anticipated expiration: 2040-07-27
Also published as: CN112069290A

Abstract

本发明公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为：1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络；2)对于论文p_i，基于该异质网络计算与论文p_i有关联的论文相似度，形成一推荐结果候选集；3)生成论文库中每一论文的关系表征向量和语义表征向量，并加权求和得到对应论文的最终表征向量；将论文p_i加入到该论文库中并生成论文p_i的最终表征向量；4)计算论文库中每一论文的最终表征向量与论文p_i的最终表征向量的相似性，并根据所得相似性选取多个论文作为论文p_i的待推荐候选论文；5)将推荐结果候选集与待推荐候选论文进行融合，选取相似性最高的若干论文作为论文p_i的推荐论文。

Description

基于图局部结构和文本语义相似性的学术论文推荐方法

技术领域

本发明涉及文本数据挖掘，图数据挖掘，神经网络，异质网络嵌入技术领域，文本预训练模型技术领域，具体是一种基于异质网络图局部结构和学术论文标题和摘要语义相似性的学术论文推荐技术。

背景技术

近年来，随着互联网技术的高速发展,学术研究领域也发生着翻天覆地的变化,网络上学术论文的数量呈爆炸式增长。科研信息过载使得研究人员在网络上查找其所需要的学术论文信息时,往往需要花费大量的时间和精力,间接造成了科研浪费。因此如何快速、准确的为研究人员找到其感兴趣的学术论文信息成为亟待解决的问题。目前，推荐系统在电子商务、新闻和社交网络等领域有着广泛的应用，与传统的基于关键词的搜索技术相比，推荐系统对于海量数据更加有效和个性化。特别是在学术领域，一些研究人员不知道如何总结他们的需求，将导致输入不适当的关键词。相比之下，学术论文推荐系统通常会考虑研究者的兴趣、合著者关系和引用关系来设计推荐算法并提供推荐列表。随着信息技术的快速发展,科研信息服务平台已经广泛出现，这些平台包含了大量论文及其相关信息，例如论文名、摘要、关键词、作者、机构、引用关系等。因此，利用这些科研信息服务平台的数据库中的重要信息可以开发出高效的学术论文推荐系统，帮助研究人员快速检索到他们感兴趣或者领域相关的论文。目前已经有很多研究者针对学术论文推荐问题提出了解决方法，这些方法主要包括：针对一篇论文和它的候选论文，通过它们的关键词计算它们之间的相似性，相似性排序后，高相似性的论文将被推荐给用户；基于论文库构建一个图，其中作者和论文被视为节点，论文之间的关系、用户之间的关系以及用户与论文之间的关系被视为边。然后使用随机游走或其他算法来计算用户和论文之间的相关性。

发明内容

本发明的目的是提供了一种基于论文的网络表征和语义表征来进行论文推荐的技术方案。该技术方案利用论文的作者、机构、关键词构建一个论文关系异质网络，并利用这些信息得到异质网络中各个论文关系的表征向量。再利用论文标题、摘要中的文本信息，通过ELMO、Bert、GPT-2等文本预训练模型得到各个论文的语义表征向量。再将论文关系表征向量和论文语义表征向量加权求和，得到论文的最终表征向量。最后，基于所有论文的最终表征向量，给定任一论文，将所有论文与该论文的余弦相似性排序，并将高相似性的论文推荐给用户。

本方法的有效性在于融合了异质网络表示学习方法，以及网络特征。

本发明具体包括以下步骤：

步骤一：基于论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络。给定任一论文，基于该异质网络，计算论文的加权相似度，并形成基于网络关系的论文加权相似度排序，并排序形成推荐结果候选集。

步骤二：针对步骤一生成的异质网络，基于元路径的随机游走策略生成包含论文id的路径集，并利用word2vec模型训练得到论文的关系表征向量，具体使用python中gensim库中的word2vec模型。

步骤三：利用论文的标题，摘要中的文本信息，使用文本预训练模型得到论文的语义表征向量。

步骤四：将步骤二中的论文关系表征向量和步骤三中的论文语义表征向量加权求和，得到论文的最终表征向量。

步骤五：基于步骤二至步骤四的方法，计算出论文库中所有论文的表征向量。基于所有论文的最终表征向量，当给定一论文，将其他所有论文与该论文的余弦相似性排序，并将高相似性的论文推荐给用户。

步骤六：将通过步骤一及步骤五形成的推荐结果候选集进行融合，并将高相似性的论文推荐给用户。

与现有技术相比，本发明的积极效果为：

1.通过计算论文关系表征向量和论文语义表征向量并加权求和所得到的论文最终的表征向量，使得后续的论文相似性计算既考虑到了论文在学术异质网络中的网络结构相似性，又考虑到了论文文本的语义相似性，从而使得推荐的论文更加全面、丰富。

2.本发明步骤一中的通过加权计算所得到的论文相似度具有精确推荐和可解释性的优点，但缺乏泛化性，推荐结果较为固定、不丰富；相比之下，本发明步骤五中的通过表征学习计算所得到的论文表中向量，是建立在数据驱动的深度学习范式之上的，在具有大量数据的情景下能够得到高效的模型，所推荐的结果将更加广泛和丰富，但不具备可解释性。本发明步骤六将通过步骤一及步骤五形成的推荐结果候选集进行融合，相较于已有的基于深度神经网络方法的论文推荐模型，推荐结果既广泛又具有可解释性。

附图说明

图1为本发明的方法流程图。

图2为论文关系异质网络。

图3为随机游走生成路径集方法流程图。

具体实施方式

下面将结合附图及实施例对本发明做进一步的阐述说明。

本发明的目标是基于数据库中任一的论文推荐与其相关的论文，使用论文的一些主要信息，如标题、摘要、作者、关键词，通过综合考虑异质网络中的图局部结构所构建的论文关系表征和论文的语义表征，得到论文的最终表征。最后通过计算论文之间的余弦相似性并进行排序，进而将与一篇论文高度相关的论文将被推荐给用户。本发明方法流程如图1所示。

首先，先搭建论文的异质网络。将论文库的所有的论文之间的关系抽取出来，构建出一个论文异质网络，如图2所示。该网络主要包含一种类型的节点：论文，三种类型的边：CoAuthor、CoOrg和CoKeyword。

把每一篇学术论文作为学术中的节点。CoAuthor代表两个论文之间有共同作者，边上的权值代表拥有共同作者的个数。如果两篇论文之间有共同作者，就根据其共同作者的数量搭建相应权值大小的边，如果两篇论文之间无共同作者，则不搭建此边。

CoOrg代表两个论文中机构的相似性关系。在构建论文的CoOrg关系时，机构的相似性关系依据两个机构词的集合的交集数量，即如果两篇论文的作者机构有共现词，则为其搭建相应共现词数量为权值的边，如果两篇论文的作者机构交集大小为0，即两个机构之间无共现词，则不搭建这条边。

如果两篇出版物有相同出现的关键词，且这个词不是停用词，那么就在它们之间构建一条CoKeyword的边，这边相应的也有数目的属性，如果有一个共现词，那么属性值为1，如果有两个共现词，那么属性为2，以此类推。

给定任一论文，基于该异质网络，计算论文的加权相似度，并形成基于网络关系的论文加权相似度排序，并排序形成推荐结果候选集。

对于一篇拟进行相似推荐的论文p_i，找到在异质网络中所有与其存在关联边的其它论文，计算其加权相似性。对于其中任一篇论文p_j，其与论文p_i的加权相似性S_ij计算公式如下：

其中

为论文p_i和论文p_j分别在作者、机构、关键词这三个维度的相似性；α_author，α_org，α_keyword为作者相似性、机构相似性、关键词相似性的权重，为人工设置参数且和为1；count_same_author_ij，count_same_org_ij，count_same_keyword_ij分别为论文p_i和论文p_j所拥有的共同作者数量、共同机构数量、共同关键词数量；

分别为论文p_j在异质网络中与其他所有论文所拥有的共同作者总数量、共同机构总数量、共同关键词总数量。

在完成图1中的相似度1(既加权相似度)计算后，进行排序，形成待推荐候选，用于推荐结果融合。

针对步骤一生成的异质网络，基于元路径的随机游走策略生成包含论文id的路径集，并利用word2vec模型训练得到论文的关系表征向量。

使用基于p1→CoAuthor→p2→CoOrg→p3→CoKeyword→ p4这样的元路径进行随机游走，生成由论文id组成的路径集。具体过程为轮流选择论文异质网络中的每一个论文节点作为初始节点，并按照上述元路径进行随机游走，每一次游走即为根据当前元路径规定的某种类型的边，按照边的权值，以一定的概率选择通过该类型的边相连的下一节点作为下一个游走节点，并将该节点保存到路径集中。其中规定随机游走的转移概率与边的权值成正比。通过重复进行若干次这样的游走，直至达到规定的路径长度，得到一条论文id路径。然后通过重新选择异质网络中的另一个节点作为初始节点，进行相同操作得到相应的论文id路径。通过对上述过程迭代N次，获得论文id路径集，作为关系表征学习的训练语料库。随机游走过程示意图如图3所示。

通过上述随机游走过程可以获得论文id路径集，并把该路径集当成训练语料库，利用word2vec中的skip-gram模型进行训练，从而获得论文的关系表征向量。word2vec是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。这里通过词向量嵌入技术，具有相似关系的论文也将在嵌入空间具有较近的距离。此外本发明利用了bagging的思想，对上述过程重复进行若干次，获得多个论文关系表征向量，并对它们进行加和求平均获得一个最终的论文关系表征向量。

文本预训练是指使用大规模文本语料库进行无监督预训练，得到字、词、段落或篇章的向量表征，使得语义相近的文本对象在向量空间中距离更近。目前主流的预训练模型例如ELMO、Bert、GPT-2等，只需针对特定任务的小数据集对预训练模型进行微调即可获得不错的效果，从而降低单个NLP任务的难度。

对于每篇论文，收集其标题和摘要中的文本信息，并将它们拼接为一个长文本，将这个长文本输入文本预训练模型中，输出每篇论文的语义表征向量。在本发明中，使用文本预训练模型可以是任意的开源模型，例如doc2vec、ELMO、BERT、GPT-2等。

步骤四：将步骤一中的论文关系表征向量和步骤二中的论文语义表征向量加权求和，得到论文的最终表征向量。

根据步骤一中的论文关系表征向量和步骤二中的论文语义表征向量，本发明通过加权求和得到每个论文的最终表征向量，公式如下：

v＝α*v_r+(1-α)*v_s

其中v，v_r，v_s都为长度为d的向量，d为人工设置值，分别表示某个论文的最终表征向量，关系表征向量，语义表征向量。α为大于等于0且小于等于1的权重参数，为人工设置值。

对于某一篇需要推荐相关论文的论文，遍历数据集中所有其他论文，根据步骤一，步骤二，步骤三得到的论文最终表征向量，计算所有其他论文与该论文的向量之间的余弦相似度值，将值从高到底排序后，取前M个值对应的论文，最终生成M个推荐的论文候选。

步骤六：将通过步骤一及步骤五形成的推荐结果候选集进行融合，并将高相似性的论文推荐给用户，越靠前的论文代表推荐程度越高。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于图局部结构和文本语义相似性的学术论文推荐方法，其步骤包括：

1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络；

2)对于一篇拟进行相似推荐的论文p_i，基于该异质网络计算与该论文p_i有关联的论文相似度，基于论文相似度选取多个论文形成一推荐结果候选集；其中，形成所述推荐结果候选集的方法为：对于一篇拟进行相似推荐的论文p_i，基于该异质网络找到与该论文p_i存在关联边的论文p_j，利用

计算论文p_i与论文p_j的相似性S_ij；其中，

论文p_i和论文p_j在作者维度的相似性，

为论文p_i和论文p_j在机构维度的相似性，

为论文p_i和论文p_j在关键词这三个维度的相似性；α_author、α_org、α_keyword分别为作者相似性权重、机构相似性权重、关键词相似性权重；count_same_author_ij、count_same_org_ij、count_same_keyword_ij分别为论文p_i和论文p_j所拥有的共同作者数量、共同机构数量、共同关键词数量；

分别为论文p_j在异质网络中与其他所有论文所拥有的共同作者总数量、共同机构总数量、共同关键词总数量；

3)对该异质网络进行基于设定元路径的随机游走策略生成包含论文id的路径集，并利用该路径集作为训练语料库训练得到论文库中每一论文的关系表征向量；

4)利用该论文库中论文的标题、摘要中的文本信息，使用文本预训练模型训练得到对应论文的语义表征向量；

5)将论文的关系表征向量和论文的语义表征向量加权求和，得到对应论文的最终表征向量；将该论文p_i加入到该论文库中并生成该论文p_i的最终表征向量；

6)计算该论文库中每一论文的最终表征向量与该论文p_i的最终表征向量的相似性，并根据所得相似性选取多个论文作为该论文p_i的待推荐候选论文；

7)将步骤2)所得推荐结果候选集与步骤6)所得待推荐候选论文进行融合，选取相似性最高的若干论文作为该论文p_i的推荐论文。

2.如权利要求1所述的方法，其特征在于，所述关系类别包含作者、机构、关键词、期刊。

3.如权利要求1所述的方法，其特征在于，将该路径集当成训练语料库，利用word2vec中的skip-gram模型进行训练，获得论文的关系表征向量。

4.如权利要求1或3所述的方法，其特征在于，重复进行步骤3)多次，每一论文得到多个关系表征向量，并对它们进行加和求平均获得一个关系表征向量作为对应论文的关系表征向量。

5.如权利要求1所述的方法，其特征在于，所述关系表征向量、语义表征向量均为d维向量，d为一设定值。

6.如权利要求1所述的方法，其特征在于，所述文本预训练模型为doc2vec、ELMO、BERT或GPT-2。

7.一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。