CN112364151A

CN112364151A - 一种基于图、引文和内容的论文混合推荐方法

Info

Publication number: CN112364151A
Application number: CN202011156053.4A
Authority: CN
Inventors: 吴奇石; 康颖; 侯爱琴; 赵子民
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-12
Anticipated expiration: 2040-10-26
Also published as: CN112364151B

Abstract

本发明公开了一种基于图、引文和内容的论文混合推荐方法，通过引文关系构建有向引文图来查找相关论文集，并结合基于引文与基于内容的方法来计算论文之间的相似度，按照混合模型产生的相似度对相关论文集进行排序和推荐。考虑到不同章节的引用重要性不同，对基于引文的方法进行了改进，提出了基于章节的引文相似度，对不同章节的引文分配不同的权重，从而提高推荐的准确性。

Description

一种基于图、引文和内容的论文混合推荐方法

技术领域

本发明属于推荐系统领域，涉及一种基于图、引文和内容的论文混合推荐方法。

背景技术

在科研工作中，研究者往往需要阅读大量论文，但随着论文网站中论文数量的增多，用户很难通过关键词搜索到自己感兴趣的论文。因此需要更好的论文推荐方法来为用户推荐论文。

论文推荐方法主要基于论文的基本信息，包括关键词、摘要、作者和引文等。已有的方法中，基于引用的推荐方法被广泛应用。如通过直接引用关系建立评分矩阵，然后采用协同过滤方法推荐论文。但随着论文的增多，基于协同过滤的方法存在冷启动和稀疏矩阵的问题。除协同过滤外，引文分析也是基于引用的一个重要应用。引文分析主要通过分析引文关系进行推荐，引文关系分为直接引用、文献耦合、共被引等，其中文献耦合和共被引关系在论文推荐中表现出较高的逻辑相关性。论文是主要是文本信息，因此也有很多方法基于关键词、摘要等内容进行推荐，但由于pdf文本抽取技术的困难以及大量文本计算的耗时，基于内容的方法通常表现的性能不是非常好。此外基于图的方法也十分常用，通过引文、关键词、主题、作者或用户信息之间的联系建立一个图结构来推荐论文，如何更好的组织利用这些信息仍需要更多的研究。

由于单一方法都存在一些缺陷，并且不利于推荐的多样性，目前越来越多的方法采用混合模型来推荐论文，并且结果表明，混合模型的性能远远好于单一方法。

发明内容

针对现有技术中单一方法的不足，本发明的目的在于，提供一种基于图、引文和内容推荐的混合推荐方法。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于图、引文和内容的论文混合推荐方法，其特征在于，具体实现步骤如下：

步骤一，有向引文图构建

对当前进行推荐的论文，即目标论文通过引文关系构建有向引文图来生成相关论文集；引文关系包括直接引文和间接引文，其中，间接引文包括文献耦合、共被引结构；所述有向引文图结构包括有多个节点，每个节点代表一篇论文，两个节点之间的边表示引用关系，有+1、-1两种类型的边，+1表示引用，-1表示被引；

通过有向引文图获取相关论文集有两个步骤：

1)直接引用的节点通过一条边到达；

2)间接引用的节点通过两条边到达；

一个目标论文的相关论文集被表示为：

RP(t)＝{(r₁,sim₁,p₁),(r₂,sim₂,p₂),...,(r_i,sim_i,p_i),...}(0<i≤n)

其中，t是目标论文，t的相关论文个数为n,r_i为相关论文，sim_i为r_i与t之间的相似度，p_i为由t到r_i的路径之和，所有的相关论文的相似度初始为0；

步骤二，基于章节的引文相似度

从论文中提取引用所在章节，由于每篇论文的章节结构都不同，需要将所有的论文章节映射到一个通用的章节结构，并对章节分配权重；基于章节的引文相似度计算如下：

式中，w(edge)表示边的权重，即引文所在章节的权重；

引文相似度的计算由路径之和p_i分为两种情况：

一种情况是p_i＝+1or-1，即直接引用，引文相似度为两个节点之间边的权重值；

另一种情况是p_i＝0，±2，即间接引用，引文相似度由第一条边权重w(edge1)与第二条边权重w(edge2)共同计算得来；

步骤三，内容相似度

内容相似度采用余弦相似度计算两篇论文的关键词之间的相似度，如下式所示:

式中，A表示相关论文r_i关键词词频的词向量，B表示整个相关论文集的关键词词频的词向量；

步骤四，混合相似度

混合相似度即为引文相似度与内容相似度之和，用下式表示：

sim_i＝sim_i(citaion)+sim_i(content)

最终通过混合相似度对相关论文集进行排序，生成的论文列表即为推荐结果。

本发明的基于图、引文和内容的论文混合推荐方法，对现有的不同的论文推荐方法优点如下：

1、通过有向引文图可以得到直接引用、文献耦合、共被引及其他间接引用，候选的相关论文包含的引文更加全面，提高了推荐的多样性；

2、针对基于引用的方法提出改进，提出了基于章节位置的引用相似度，对不同章节的引用分配不同的权重，再通过权重进一步计算引用相似度，从而更加准确的衡量引用相关性；

3、针对单一方法的不足，提出了混合方法，将引用相似度与内容相似度结合得到混合相似度，利用混合相似度对相关论文集进行排序，提高推荐的准确性，为用户推荐更加相关的论文。

附图说明

图1为论文推荐混合模型的框架图。

图2为有向引文图结构的一个简单示例图。

图3为目标论文的相关论文个数的统计图。

图4为采用本发明的基于图、引文和内容推荐的混合推荐方法在CiteSeer数据集上的spearman相关系数图。

图5为传统的基于章节的引文相似度推荐方法和基于引文推荐方法在CiteSeer数据集上的对比图。

图6为本发明的基于图、引文和内容的论文混合推荐方法和基于章节的引文相似度推荐方法在CiteSeer数据集上的对比图。

图7为本发明的基于图、引文和内容的论文混合推荐方法、基于引文推荐方法和基于章节在的引文相似度推荐方法CiteSeer数据集上的整体对比图。

图8为本发明的基于图、引文和内容推荐的混合推荐方法、基于引文推荐方法和基于章节的引文相似度推荐方法在CiteSeer数据集上的平均spearman相关系数值对比图。

图9为本发明的基于图、引文和内容的论文混合推荐方法在万方数据集上的spearman相关系数图。

图10为本发明的基于图、引文和内容推荐的混合推荐方法、基于引文推荐方法、基于章节的引文相似度推荐方法和基于内容的推荐方法在万方数据集上的整体对比图。

具体实施方式

本发明的基于图、引文和内容推荐的混合推荐方法，通过引文关系构建有向引文图来查找相关论文集，并结合基于引文与基于内容的方法来计算论文之间的相似度，按照混合模型产生的相似度对相关论文集进行排序和推荐。考虑到不同章节的引用重要性不同，对基于引文的方法进行了改进，提出了基于章节的引文相似度，对不同章节的引文分配不同的权重，从而提高推荐的准确性。并采用了以下算法：

1)通过引文关系构建有向引文图，该有向引文图与引文网络结构相似，但具有加权的边及有限的步长，利用有向引文图可得到目标论文的相关论文集；

2)考虑到引文的所在章节位置，提出基于章节的引用相似度。传统的基于引用的方法通常采用1或0来表示两篇论文之间是否存在引用关系，然而，若使用1或0表示引用相似度不够准确，并且不同章节的引文的重要性不同。因此，本发明对现有的基于引用的方法做出了改进，提出基于章节的引用相似度；

3)通过论文的关键词计算内容相似度，将引文相似度与内容相似度相加得到混合相似度，对相关论文集排序进行推荐。

本实施例给出一种基于图、引文和内容的论文混合推荐方法，采用的论文推荐混合模型的框架如图1所示，首先通过有向引文图寻找相关论文集，然后利用引文的章节位置及关键词分别计算引文相似度和内容相似度，最终得到混合相似度来推荐论文。具体实现步骤如下：

步骤一，构建有向引文图：

对当前进行推荐的论文，即目标论文通过引文关系构建有向引文图来生成相关论文集。引文关系包括直接引文和间接引文，其中，间接引文包括文献耦合、共被引结构等。

有向引文图结构如图2所示，每个节点代表一篇论文，两个节点之间的边表示引用关系，有+1、-1两种类型的边，+1表示引用，-1表示被引。例如，对于图2中的目标论文节点A，由A指向B的边是+1，表示A引用了B；由C指向A的边为-1，表示A被C引用。也就是说，从节点A开始，通过边+1即可到达B节点，通过边-1即可到达C节点。

通过有向引文图获取相关论文集有两个步骤：

1)直接引用的节点通过一条边到达，例如，图2中，目标论文节点A分别通过+1或-1到候选论文达节点B或C；

2)间接引用的节点通过两条边到达，例如，图2中，节点A经过(+1,+1)、(+1,-1)、(-1,-1)、(-1,+1)分别得到节点D、E、F、G。经过两个步骤后，目标论文A的相关论文为候选论文(B、C、D、E、F和G)。

在本实施例中，一个目标论文的相关论文集被表示为：RP(t)＝{(r₁,sim₁,p₁),(r₂,sim₂,p₂),...,(r_i,sim_i,p_i),...}(0<i≤n)，其中，t是目标论文，t的相关论文个数为n,r_i为相关论文，sim_i为r_i与t之间的相似度，p_i为由t到r_i的路径之和，如图2中，从目标论文节点A到候选论文节点D的路径是(+1,+1)，该路径的和为两条边之和+2。

因此，最终目标论文节点A的相关论文集为RP(A)＝{(B,0,+1),(C,0,-1),(D,0,+2),(E,0,0),(F,0,-2),(G,0,0)}，所有的相关论文的相似度初始为0。

步骤二，基于章节的引文相似度：

从论文中提取引用所在章节，首先从CiteSeer论文网站上爬取论文pdf文档，使用PDFx工具将pdf转化为XML格式，XML文档带有章节及引用的标签，可直接提取章节及引用信息。部分论文不能转化为XML格式，通过正则匹配进行信息提取，最终能够准确处理绝大部分pdf。

由于每篇论文的章节结构都不同，需要将所有的论文章节映射到一个通用的章节结构，根据已有研究，通用的五个章节如表1所示。已有研究证明了各章节权重的关系，如下所示：

w_Methodology/w_Result>w_Introduction>w_{Related Work}

然后对章节分配权重，如表1所示，其中结论章节几乎没有引文，未分配权重。

表1

基于章节的引文相似度计算如下：

式中，w(edge)表示边的权重，即引文所在章节的权重。引文相似度的计算由路径之和p_i分为两种情况，首先是p_i＝+1or-1，即直接引用，引文相似度为两个节点之间边的权重值；另一种情况是p_i＝0，±2，即间接引用，引文相似度由第一条边权重w(edge1)与第二条边权重w(edge2)共同计算得来。

步骤三，内容相似度：

在一个章节中往往不止一个引用，仅使用引文相似度会出现多个论文相似度相同的情况，因此引入内容相似度，以提高推荐的准确性。内容相似度采用余弦相似度计算两篇论文的关键词之间的相似度，如下式所示:

式中，A表示相关论文r_i关键词词频的词向量，B表示整个相关论文集的关键词词频的词向量。

步骤四，混合相似度：

混合相似度即为引文相似度与内容相似度之和：

sim_i＝sim_i(citaion)+sim_i(content)

最终通过相似度对相关论文集进行排序，生成的论文列表即为推荐结果。

实验验证例：

为了验证本实施例的基于图、引文和内容的论文混合推荐方法的性能，采用spearman相关系数来评估推荐结果，推荐结果即为一个按照相关度排序的论文列表。将JensenShannon divergence(JSD)方法对论文文本计算得到的相关度排序作为基准，JSD计算的是两个单词分布概率之间的距离，在本实施例中分别是相关论文的单词分布概率和整个相关论文集的单词分布概率，然后通过相关论文的JSD值进行排序。最后通过spearman系数计算混合模型得到的推荐列表与JSD得到的列表之间的相关系数来评估本发明的混合模型。为了JSD更准确的衡量论文间的相关度，JSD对论文的整个文本进行计算，但处理过程非常耗时，平均处理100个pdf文档需要近半个小时，相比之下，本实施例的基于图、引文和内容的论文混合推荐方法，只需处理从XML文档中提取的信息，花费的时间非常少。

(1)CiteSeer数据集上的评估

首先在CiteSeer数据集上进行实验，共有1100篇文献，其中有18篇目标论文。为了便于观察实验结果，根据每篇目标论文的相关论文集中的论文个数，将18篇目标论文分为了10组。图3是对论文分组的统计，x轴为相关论文集中论文个数的范围，y轴为目标论文的数量。

将本实施例的基于图、引文和内容的论文混合推荐方法与已知的几个方法进行了对比，图4是10组目标论文在本实施例的基于图、引文和内容的论文混合推荐方法下的平均spearman相关系数值，所有的论文的平均相关系数值为0.77。图5为基于章节的引文相似度方法与未区分章节位置的传统的基于引文方法的对比图，可以明显的看到区分章节的引文相似度能够提高推荐的准确度。为了评估混合模型比单一模型的优势，在图6中对本实施例的基于图、引文和内容的论文混合推荐方法与基于章节的引文方法进行了对比，结果显示在大多情况下，本实施例的基于图、引文和内容的论文混合推荐方法优于单一的引文方法。图7和图8是对三个方法的整体比较，图8中可以看出，本实施例给出的基于图、引文和内容的论文混合推荐方法比传统的基于引文的方法相关性提高了40％。

(2)万方数据集上的评估

针对中文论文也进行了评估，从万方论文网站收集了约500篇论文，根据5篇目标论文分为了5组。图9给出了采用混合模型的推荐结果评估，所有论文的平均相关系数为0.73。并将本实施例的基于图、引文和内容的论文混合推荐方法与基于章节的引用方法、基于引用的方法、基于内容的方法进行了对比，结果如图10所示，可以看出本实施例的基于图、引文和内容的论文混合推荐方法的性能优于其他三种方法。

Claims

1.一种基于图、引文和内容的论文混合推荐方法，其特征在于，具体实现步骤如下：

步骤一，有向引文图构建

通过有向引文图获取相关论文集有两个步骤：

1)直接引用的节点通过一条边到达；

2)间接引用的节点通过两条边到达；

一个目标论文的相关论文集被表示为：

步骤二，基于章节的引文相似度

式中，w(edge)表示边的权重，即引文所在章节的权重；

引文相似度的计算由路径之和p_i分为两种情况：

步骤三，内容相似度

步骤四，混合相似度

sim_i＝sim_i(citaion)+sim_i(content)