CN108132961B

CN108132961B - 一种基于引用预测的参考文献推荐方法

Info

Publication number: CN108132961B
Application number: CN201711118352.7A
Authority: CN
Inventors: 梅建萍; 陈德仿
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2020-06-30
Anticipated expiration: 2037-11-06
Also published as: CN108132961A

Abstract

本发明涉及一种基于引用预测的参考文献推荐方法，收集论文，采集论文信息并进行筛选，保留有效数据，构造训练集，并进行特征表示,计算得到一组特征值，针对每个特征进行归一化后训练引用预测模型，基于预测模型，对给定论文进行引用预测和参考文献推荐。本发明通过把论文对作为对象，定义若干特征对其进行描述，并把已知两篇论文之间的引用关系作为该论文对的标签，把两篇论文之间的引用关系的预测问题建模成一个经典的回归或者二值分类问题，在给定一篇目标论文的前提下，首先得到该论文与其他备选文献之间构成的论文对的特征表示，然后利用训练好的模型进行预测，得到被该论文引用的可能性最大的若干篇论文作为参考文献进行推荐。

Description

一种基于引用预测的参考文献推荐方法

技术领域

本发明属于特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域，特别涉及一种基于引用预测的参考文献推荐方法。

背景技术

在广大科研人员进行学术研究的过程中，学术刊物是呈现专业领域研究趋势以及指导科研工作的重要资源。

在学术研究领域，科研人员往往需要通过大量阅读参考文献，进而全面了解同一个研究课题下已有的工作推进情况以及获知最新的研究成果，从而帮助他们最大程度地避免重复的科研劳动、掌握相关课题及同行工作的最新动态和发展方向、为更进一步的研究打下坚实的基础。参考文献列表的完善程度也往往是论文在投稿评审时评委考量该研究工作质量和水平的一个重要方面。

现有的学术研究工作中，由于缺乏功能完善、令人满意的参考文献推荐系统，科研人员一般在搜索引擎如Google Scholar或者某一特定的数据库如Web of Science中通过设定主题、关键词等方法来手动挑选可能与自己当前研究领域相关的论文，然而即便对具有一定专业背景和文献检索技巧的研究者来说，想要得到一个综合全面性、代表性和及时性的参考文献列表也要花费不少精力和时间，更不用说那些新入门者。近几年，由于学术文献数量之大，增长更新之快，加之使用电子出版物和开放数据库的流行，更加凸显出目前这种手动挑选的方法耗时长、准确率低、操作过程机械化的弊端，因而亟需搭建一个更自动化且有效的系统来帮助研究人员快速地定位所需的相关文献，大量学术数据的存在为此提供了机会，可以运动知识发现的技术，如通过数据挖掘等各种数据驱动的方法，来自动生成参考文献列表，从而准确高效地进行参考文献推荐。

发明内容

本发明解决的技术问题是，现有技术中，由于缺乏功能完善、令人满意的参考文献推荐系统，而导致的即便对具有一定专业背景和文献检索技巧的研究者来说，想要得到一个综合全面性、代表性和及时性的参考文献列表也要花费不少精力和时间，且由于近年学术文献数量之大，增长更新之快，加之使用电子出版物和开放数据库的流行，目前这种手动挑选的方法耗时长、准确率低、操作过程机械化的弊端充分暴露的问题，进而提供了一种优化的基于引用预测的参考文献推荐方法。

本发明所采用的技术方案是，一种基于引用预测的参考文献推荐方法，所述方法包括以下步骤：

步骤1：收集论文，采集论文信息并进行筛选，保留有效数据；

步骤2：构造训练集，并进行特征表示,计算得到一组特征值；

步骤3：针对每个特征进行归一化后训练引用预测模型；

步骤4：基于预测模型，对给定论文进行引用预测和参考文献推荐。

优选地，所述步骤1中，论文信息包括论文标题、论文摘要、作者信息、发表年份、发表刊物、参考文献和被引用量。

优选地，所述作者信息包括作者姓名、研究机构、总发表论文数、总被引用次数、H指数和研究兴趣；所述筛选包括删去所述总被引用次数小于M₁、或所述总发表论文数小于M₂、或所述H指数小于M₃的作者信息，并删除所述作者信息对应的论文信息；所述M₁∈[1,10]，M₂∈[1,10]，M₃∈[1,3]。

优选地，所述论文信息还包括所述发表刊物的H5指数。

优选地，所述步骤2中，构造训练集包括以下步骤：

步骤2.1：从步骤1的有效数据中提取论文引用关系，构成论文对集合P，P＝{x_t}，x_t＝(p_i→p_j)，其中，x_t＝(p_i→p_j)表示论文p_i引用论文p_j，记所有的引用关系个数为n，涉及论文篇数为m；

步骤2.2：从论文对集合P的m篇论文中随机选取2篇论文，构成n'个无引用关系的论文对集合N，N＝{x_h}，

其中，n'＝k*n，k∈[1,10]。

优选地，对所述集合P和集合N中的每个论文对进行特征表示，将所述集合P和集合N中的每个论文对以40个特征的值表示为40维的向量；所述40个特征的值包括：

第1特征的值为论文p_i的所有作者的总发表论文数的算术平均值，第2特征的值为论文p_j的所有作者的总发表论文数的算术平均值，第3特征的值为第1特征的值和第2特征的值之差；

第4特征的值为论文p_i的所有作者的总被引用次数的算术平均值，第5特征的值为论文p_j的所有作者的总被引用次数的算术平均值，第6特征的值为第4特征的值和第5特征的值之差；

第7特征的值为论文p_i的所有作者的H指数的算术平均值，第8特征的值为论文p_j的所有作者的H指数的算术平均值，第9特征的值为第7特征的值和第8特征的值之差；

第10特征的值为论文p_i的所有作者的P指数混合均衡A指数的算术平均值，第11特征的值为论文p_j的所有作者的P指数混合均衡A指数的算术平均值，第12特征的值为第10特征的值和第11特征的值之差；

第13特征的值为论文p_i的所有作者的P指数混合非均衡A指数的算术平均值，第14特征的值为论文p_j的所有作者的P指数混合非均衡A指数的算术平均值，第15特征的值为第13特征的值和第14特征的值之差；

第16特征的值为论文p_i的所有作者的研究生涯的算术平均值，第17特征的值为论文p_j的所有作者的研究生涯的算术平均值，第18特征的值为第16特征的值和第17特征的值之差；其中，研究生涯为作者最新发表的论文年份减去该作者最早发表的论文年份的值；

第19特征的值为论文p_i的所有作者发表的第一篇论文年份的算术平均值，第20特征的值论文p_j的所有作者发表的第一篇论文年份的算术平均值，第21特征的值为第19特征的值和第20特征的值之差；

第22特征的值为论文p_i的所有作者发表的最近一篇论文年份的算术平均值，第23特征的值为论文p_j的所有作者发表的最近一篇论文年份的算术平均值，第24特征的值为第22特征的值和第23特征的值之差；

第25特征的值为论文p_i的所有作者的合作能力的算术平均值，第26特征的值为论文p_j的所有作者的合作能力的算术平均值，第27特征的值为第25特征的值和第26特征的值之差；其中，合作能力

(合作论文_c)，合作论文_c为作者A和合作者c共同发表的论文数量；

第28特征的值为论文p_i的发表时间，第29特征的值为论文p_j的发表时间，第30特征的值为第28特征的值和第29特征的值之差；

第31特征的值为论文p_i的发表刊物的H5指数，第32特征的值为论文p_j的发表刊物的H5指数，第33特征的值为第31特征的值和第32特征的值之差；

第34特征的值为论文p_i的和论文p_j的论文标题的相似度，第35特征的值为论文p_i的和论文p_j的论文摘要的相似度，第36特征的值为论文p_i的作者和论文p_j的作者研究兴趣的相似度；其中，相似度是由论文标题或论文摘要或研究兴趣中的关键词转换为向量、以余弦公式得到任意2个关键词的相似度的总和；

第37特征的值为论文p_i的和论文p_j引用的相同参考文献数目，第38特征的值为论文p_i的被引用量，第39特征的值为论文p_j的被引用量，第40特征的值为第38特征的值和第39特征的值之差。

优选地，所述步骤3中，将集合P和集合N合并作为训练集，其中，记集合P中论文对的标签为1，集合N中论文对的标签为0。

优选地，所述步骤4包括以下步骤：

步骤4.1：给定目标论文p，获得目标论文p的论文信息，所述论文信息中，参考文献的数量大于等于1；

步骤4.2：将数据库中除了输入的目标论文以外的所有参考文献均作为备选文献集C；

步骤4.3：将p和C中的每篇论文c_i构成a个论文对(p,c_i)，计算每个论文对的40个特征向量值并将每个特征做归一化处理；

步骤4.4：将归一化后的特征向量输入预测模型，得到a个输出，作为预测到的p引用每篇论文c_i的可能性的值。

优选地，所述步骤4.4中，对这a个输出值降序排序，取可能性值前k'大的论文作为最后进行推荐的参考文献，k'∈[20,50]。

优选地，所述步骤4.2备选文献集C的建立包括以下步骤：

步骤4.2.1：记给定论文p的参考文献为R＝{r₁,r₂,...r_n}，初始化备选文献集C＝R；

步骤4.2.2：对i从1到n,逐个考虑R中每篇论文的参考文献T_i,计算T_i中未包含于C的子集R_i',即R_i'＝C\T_i，若R_i'不为空，则把它合并到备选文献集使得C＝C∪R_i'；

步骤4.2.3：更新R＝R₁'∪...∪R_n'；

步骤4.2.4：重复步骤4.2.2直到R为空，再无新的参考文献可以加入备选文献集C。

本发明提供了一种优化的基于引用预测的参考文献推荐方法，通过把论文对作为对象，定义了若干特征对其进行描述，并把已知两篇论文之间的引用关系作为该论文对的标签，从而把两篇论文之间的引用关系的预测问题建模成一个经典的回归或者二值分类问题，在给定一篇目标论文的前提下，首先得到该论文与其他备选文献之间构成的论文对的特征表示，然后利用训练好的模型进行预测，得到被该论文引用的可能性最大的若干篇论文作为参考文献进行推荐。

本发明采用监督式机器学习的方法来进行参考文献推荐，利用数据集，如AMiner系统提供的学术社交网络开放数据集，主要的工作在于定义一系列有效的特征来描述论文对，最终实现当用户输入其当前正在写作的论文题目、作者相关信息、预期发表的时间和/或期刊及会议信息，该系统能推荐最为相关的若干篇参考文献。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于引用预测的参考文献推荐方法，所述方法包括以下步骤。

步骤1：收集论文，采集论文信息并进行筛选，保留有效数据。

所述步骤1中，论文信息包括论文标题、论文摘要、作者信息、发表年份、发表刊物、参考文献和被引用量。

所述作者信息包括作者姓名、研究机构、总发表论文数、总被引用次数、H指数和研究兴趣；所述筛选包括删去所述总被引用次数小于M₁、或所述总发表论文数小于M₂、或所述H指数小于M₃的作者信息，并删除所述作者信息对应的论文信息；所述M₁∈[1,10]，M₂∈[1,10]，M₃∈[1,3]。

所述论文信息还包括所述发表刊物的H5指数。

本发明中，步骤1主要起到数据的收集和清洗的作用，获得的论文信息和作者信息为后续的特征向量的计算提供初始数据。

本发明中，总被引用次数小于一定数值、或发表论文数小于一定数值、或H指数小于一定数值时，可以视为这些论文的影响力不大，或者是不在被推荐范围内，故删除以上不满足一定阈值的作者信息对应的论文信息。

本发明中，论文信息的论文标题、论文摘要、作者信息、发表年份、发表刊物、参考文献和被引用量等信息可以从论文数据库中无疑义获得，其中，被引用量是指当前论文截至数据统计时的被引用次数。

本发明中，作者信息的作者姓名和研究机构可以从论文数据库中无疑义获得；总被引用次数是指当前作者的所有论文被引用次数之和，总被引用次数、总发表论文数、H指数和研究兴趣可以从学术数据库或者作者的个人主页中提取，其中，H指数(H index)是一个混合量化指标，可用于评估研究人员的学术产出数量与学术产出水平，研究兴趣在本发明的实施过程中，主要采取提取关键字的方式实现，而作者的网页上一般都会通过关键词的形式给出自己的研究兴趣，比如研究兴趣为：数据挖掘、机器学习等。

本发明中，还可以采用H5指数来衡量期刊的持续影响力，其表示当前期刊在5年内所发表论文的H指数，如Google scholar，当前就采用此指标来衡量期刊影响力的。

步骤2：构造训练集，并进行特征表示,计算得到一组特征值。

所述步骤2中，构造训练集包括以下步骤：

其中，n'＝k*n，k∈[1,10]。

本发明中，由于在给定的数据集中，论文数目m是已知的，它们构成的引用关系n也是已知的，假设数据集中有论文A、B、C，存在引用关系A→B，相当于此时m为3、n为1，当n'＝1时，可能生成B→C，同时生成的无引用关系不可能与已有的引用关系一样。

对所述集合P和集合N中的每个论文对进行特征表示，将所述集合P和集合N中的每个论文对以40个特征的值表示为40维的向量。

本发明中，首先对于下列的特征向量的提取目的作出说明：作者发表的论文数目、作者的总被引量、H指数、P指数混合均匀/非均匀A指数均反映了作者的学术影响力，而特征的差值体现了引用和被引用论文之间的作者影响力的差别；作者的研究生涯长度、发表第一篇论文的年份、发表最近一篇论文的年份、合作能力体现了作者的学术活跃程度，出版刊物的影响力和论文的被引量体现了论文本身的影响力；论文题目、摘要、研究兴趣的相似性和共同引用的参考文献数目体现了论文p_i和p_j基于文本和引用的相似性。

本发明中，以下的特征值在计算过程中，需要按固定的顺序进行计算，比如固定前者减后者。

所述40个特征的值包括：

本发明中，H指数用于衡量一名科学家的影响力，H指数是指其发表的N篇论文中有H篇每篇至少被引H次。

本发明中，A指数描述了一篇论文中不同作者的贡献程度，对于一篇由多个合作者完成的论文来说，若不区分作者的贡献程度，则使用均衡A指数，也就是所有作者的A指数均为1/n，若将作者根据对论文的贡献程度进行区分，则第i个作者的非均衡A指数为

其中，j为从i到n的变量。举例来说，一共有两个作者，那么n等于2，对于第一个作者i为1，根据公式，其非均衡A指数为1/2*(1/1+1/2)＝3/4，而对于第二个作者，i为2，根据公式，其非均衡A指数为1/2*(1/2)＝1/4。

本发明中，记JIF(Journal Im-pact Factor，期刊影响因子)为某期刊所有论文被引用次数的平均值，则将作者所发表的K篇论文每篇获得的A指数乘上对应期刊的JIF值，即描述了该作者的平均影响力，记为P指数，即

其中，根据选取的A_K的含义的不同，可分为P指数混合均衡A指数和P指数混合非均衡A指数。

本发明中，A指数和P指数均在文献中提及，如A指数出现在论文《From the Cover:Determining scientific impact using a collaboration index》中，被认为是人为定义的多元化、相对有效的评价指标。

本发明中，年份的相关数据直接以当年的年号作为值。

本发明中，对于“发表的最近一篇论文年份”这个特征，在实际操作中只需要每年更新一次即可，本发明的算法为了保证精准度，本身每年就需要对各个特征进行重新计算，如作者发表的论文总数这些特征一直在不断产生变动。

本发明中，可以通过word2vect工具将论文标题或论文摘要或研究兴趣中的关键词转换为向量。

本发明中，此处的相似度可以采用最简单的词袋模型。以关键词为例，先对数据库里面所有论文关键词按顺序编号，如network编号是1，clustering编号是5，假设所有论文就5个关键词；论文p_i的关键词对应的编号是1、2、5，则p_i对应的关键词向量为[1,1,0,0,1]，论文p_j的关键词对应的编号是1、2、4，则p_j对应的关键词向量为[1,1,0,1,0]，计算这两个向量的余弦值，并作为相似度。题目和摘要同理。

本发明中，进一步来说，在进行相似度的计算时，需要先去掉一些无关的词，如“the”、“of”之类的停用词。

本发明中，前述40个特征的值中，涉及所有作者算术平均值的特征计算均可采用第一作者的相应特征值替换。

步骤3：针对每个特征进行归一化后训练引用预测模型。

所述步骤3中，将集合P和集合N合并作为训练集，其中，记集合P中论文对的标签为1，集合N中论文对的标签为0。

本发明中，将集合P和集合N合并，并对其内的论文对进行标记后，使用前述的特征向量的值的计算方法，计算合并后的n+n'个论文对的特征向量，并对数据进行归一化。

本发明中，对得到数据采用逻辑斯蒂回归(Logistic Regression)或者支持向量机(Support Vector Machine)来训练，这两种训练算法均有现成的库可以调用，且对多种编程语言均有开放接口，如Python的机器学习库scikit-learn，开源SVM库libSVM，利用R和MATLAB同样也可以实现。

所述步骤4包括以下步骤：

所述步骤4.4中，对这a个输出值降序排序，取可能性值前k'大的论文作为最后进行推荐的参考文献，k'∈[20,50]。

所述步骤4.2备选文献集C的建立包括以下步骤：

步骤4.2.2：对i从1到n,逐个获取R中每篇论文的参考文献T_i,计算T_i中未包含于C的子集R_i',即R_i'＝C\T_i，若R_i'不为空，则把它合并到备选文献集使得C＝C∪R_i'；

步骤4.2.3：更新R＝R₁'∪...∪R_n'；

本发明中，建立备选文献集C还可以通过以下方法，得到文献子集的一个或多个，其中，被引用的论文发表时间必须早于该论文的发表时间：

(1)根据论文间的相互引用关系构成引用网络划分，选取k₁个与输入的论文最相关的组，并将其中的论文作为第1文献子集；

(2)将第34特征、第35特征和第36特征作为初步筛选的标准，选取k₂篇与输入论文的题目、摘要、作者的研究兴趣最相关的论文作为第2文献子集；

(3)根据第1特征至第27特征中的部分或全部特征作为初步筛选的标准，选取k₃个影响力最大的作者，取他们发表的论文作为第3文献子集；

(4)根据论文出版物的影响力及论文的总被引用量作为初步筛选的标准，选取k₄篇总被引用量最大的论文或发表在顶级会议上的论文作为第4文献子集；

(5)限定被引用的论文与给定目标论文p的时间差阈值M，选取k₅篇符合条件的论文作为第5文献子集；

(6)选取使用逻辑斯蒂回归算法训练后得到前F个系数最大的特征，并用这些特征选取k₆篇论文作为第6文献子集；

(7)随机生成参考文献数目k₇倍的论文作为第7文献子集。

以上步骤中，k₁至k₇的选择根据实施过程中计算机的内存以及要求的响应时间来决定，在满足响应时间和内存情况下尽量选择大的值。

本发明给出如下的1个实施例。

收集AMiner提供的论文、作者和合作者三部分学术社交网络开放数据集，得到论文数据包含2,092,356篇论文相关信息；每条论文信息包含该论文的编号、论文标题、作者姓名、发表年份、发表刊物、参考文献编号、论文摘要等，总共涉及8,024,869条引用关系；作者数据包含1,712,433个作者的信息，包括作者编号、姓名、研究机构、影响力指标(包括作者论文数、被引数、H指数、P指数、A指数)以及研究兴趣；合著者数据包括4,258,946条作者-作者-合作次数的信息。

删除缺少研究机构的作者信息，删除总被引量小于等于1，或总发表论文数小于等于1，或H指数小于等于1的作者信息，从而得到新的作者数据集，并从原始论文数据集中挑选出其作者信息在新的作者数据集中的数据，形成新的论文数据集。同理得到处理后的引用和合作者数据集。

筛选出发表在H5指数前1000高的期刊/会议上的论文，并从收集到的论文数据中提取出论文引用关系P＝{x_t}，x_t＝(p_i→p_j)，一共有698,436个引用关系共涉及354,167篇论文；每次从集合P中的354,167篇论文中随机选取两篇论文，共构成698,435个未引用的论文对，N＝{x_h}，

对集合P和集合N中的每个论文对进行特征表示，将集合P和集合N中的每个论文对以40个特征的值表示为40维的向量。

将集合P和集合N合并，其中集合P中的对象标签记为1，集合N中的对象标签记为0，计算合并后的1,396,871个论文对的特征向量，采用对每个特征的数据进行标准化，即每个数据减去该特征数据的均值再除以方差，对得到的数据调用MATLAB的fitglm函数实现线性回归，用来训练该引用预测模型。

把“Incremental Nonlinear Dimensionality Reduction by ManifoldLearning”作为目标论文p，该论文的参考文献为12篇，发表在H5指数为101的期刊"IEEETransactions on Pattern Analysis and Machine Intelligence"上，生成的备选文献集C，将p和C中的每篇论文c_i构成132个论文对(p,c_i)，计算每个论文对的40个特征向量，把得到的每个特征向量输入到引用预测模型中，得到132个预测到的p引用每篇论文c_i的可能性的值。

对这132个输出值降序排序，取可能性值前12大的论文作为最后进行推荐的参考文献，结果显示该模型成功地预测出了所有数据库中该论文的实际参考文献。

本发明通过把论文对作为对象，定义了若干特征对其进行描述，并把已知两篇论文之间的引用关系作为该论文对的标签，从而把两篇论文之间的引用关系的预测问题建模成一个经典的回归或者二值分类问题，在给定一篇目标论文的前提下，首先得到该论文与其他备选文献之间构成的论文对的特征表示，然后利用训练好的模型进行预测，得到被该论文引用的可能性最大的若干篇论文作为参考文献进行推荐。

Claims

1.一种基于引用预测的参考文献推荐方法，其特征在于：所述方法包括以下步骤：

步骤2：构造训练集，并进行特征表示，计算得到一组特征值；

所述步骤2中，构造训练集包括以下步骤：

其中，n'＝k*n，k∈[1,10]；

对所述集合P和集合N中的每个论文对进行特征表示，将所述集合P和集合N中的每个论文对以40个特征的值表示为40维的向量；所述40个特征的值包括：

合作论文_c为作者A和合作者c共同发表的论文数量；

第37特征的值为论文p_i的和论文p_j引用的相同参考文献数目，第38特征的值为论文p_i的被引用量，第39特征的值为论文p_j的被引用量，第40特征的值为第38特征的值和第39特征的值之差；

步骤3：针对每个特征进行归一化后训练引用预测模型；

2.根据权利要求1所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述步骤1中，论文信息包括论文标题、论文摘要、作者信息、发表年份、发表刊物、参考文献和被引用量。

3.根据权利要求2所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述作者信息包括作者姓名、研究机构、总发表论文数、总被引用次数、H指数和研究兴趣；所述筛选包括删去所述总被引用次数小于M₁、或所述总发表论文数小于M₂、或所述H指数小于M₃的作者信息，并删除所述作者信息对应的论文信息；所述M₁∈[1,10]，M₂∈[1,10]，M₃∈[1,3]。

4.根据权利要求2所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述论文信息还包括所述发表刊物的H5指数。

5.根据权利要求1所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述步骤3中，将集合P和集合N合并作为训练集，其中，记集合P中论文对的标签为1，集合N中论文对的标签为0。

6.根据权利要求1所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述步骤4包括以下步骤：

7.根据权利要求6所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述步骤4.4中，对这a个输出值降序排序，取可能性值前k'大的论文作为最后进行推荐的参考文献，k'∈[20,50]。

8.根据权利要求6所述的一种基于引用预测的参考文献推荐方法，其特征在于：所述步骤4.2备选文献集C的建立包括以下步骤：

步骤4.2.1：记给定论文p的参考文献为R＝{r₁,r₂,…r_n}，初始化备选文献集C＝R；

步骤4.2.3：更新R＝R₁'∪…∪R_n'；