CN111046165A

CN111046165A - 一种基于引用次数的文献推荐方法

Info

Publication number: CN111046165A
Application number: CN201911154780.4A
Authority: CN
Inventors: 吴晨生; 李辉; 刘静; 陈雪飞; 靳晓宏
Original assignee: Beijing Institute Of Science And Technology Information
Current assignee: Beijing Institute Of Science And Technology Information
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-21
Anticipated expiration: 2039-11-22
Also published as: CN111046165B

Abstract

本发明公开了一种基于引用次数的文献推荐方法，包括：首先，在文献数据库中选定文献群体范围；其次，依据所选定文献群体中文献间的相互引用关系构建引用网络模型，统计文献的黄金引用次数；然后，基于所述引用网络模型对文献进行聚类分组；最后，按照黄金引用次数和文献聚类分组排序，向用户推荐文献。通过定义文献的黄金引用次数，消除文献引用关系中自引的干扰，削弱低质低效他引的影响，同时基于文献引用网络进行文献聚类划分研究领域，使得用户可快速准确的锁定特定研究领域的高质量文献。

Description

一种基于引用次数的文献推荐方法

技术领域

本发明属于文献检索技术领域，具体地说涉及一种基于引用次数的文献推荐方法。

背景技术

文献的引用关系反应了文献间内在的、本质的联系。文献之间的相互引用直接反应了两个独立研究个体之间的传承和内在联系，某文献对多篇文献的共同引用记录也隐含了多篇文献之间相关性。充分利用文献间引用关系特征信息可以提高文献聚类计算的有效性与可靠性。在学术文献数量飞速增长的当代，每天都有数以万计的学术成果被发表，通过文献聚类将相似的文档聚在一起，过滤不相似的文档，能帮助用户有效地组织、概括、导航和查找文献信息。

申请号为201510957990.2的中国专利描述了一种文献引用网络可视化及文献推荐方及系统：该系统先通过定量分析引用行为产生的传递价值和文献相似度计算文献重要度，其次，利用改进的网页链接度排序算法与K均值聚类算法相结合用于文献网中社区发现，并对聚类结果进行可视化，最终将可视化中所展示的聚类中心文献推荐给用户。但是该专利在使用文献引用次数是并未考虑引文网络以及作者与作者之间的关系，施引文献是被引文献作者的另一研究成果，该次引用不能被作为被引文献重要性的有力证明。

申请号为201710163216.3的中国专利公开了一种基于知识图谱的个性化文献推荐方法。首先构建知识图谱，并再次基础上分别构建用户兴趣模型与文献知识模型，根据知识路径集合计算各主题的重要程度，计算每篇文献的最优值，根据最优质排序推荐文献给用户。但是这一类方法缺乏用户差异性的考虑，无法适用于所有新用户，同时，本方法过于依赖用户信息，所推荐文献缺乏权威性和客观性。

申请号为201410046769.7的中国专利描述了一种基于LDA(LatentDirichletAllocation，隐含狄利克雷分布)和VSM(Vector Space Model，向量空间模型)的中草药相似文献的推荐方法。基于中草药专业词典构建出整个中草药文献库的词向量空间，并获得语义词典，每篇文档基于该语义词典进行矢量化处理形成参数化的词向量，利用VSM和LDA两种方法获得的两篇文献的相似度，经加权处理获得最终的相似度值，并以此为依据进行相似文献推荐。该方法不仅能感知文本的表面含义，还能在文本的隐含语义层面来进步挖掘相似性，即使遇到海量文本数据的应用场景，仍能有较好的表现。但是该方法构建特定专业文献库的词向量空间和语义词典数据庞大且计算繁琐。其次，该方法中用孤立的、没有完整语义的词计算文献间相似度，会因为匹配因子“偏大”或“偏小”导致失真误差，仅限于确定领域文献库使用，若对交叉学科或新兴学科进行计算必然会出现结果偏倚现象。

有鉴于此，特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种基于引用次数的文献推荐方法，通过计算文献的黄金引用次数和利用群落算法划分文献研究领域，快速准确地为用户提供高质量文献。

为解决上述技术问题，本发明采用技术方案的基本构思是：

本发明提供了一种基于引用次数的文献推荐方法，包括：首先，在文献数据库中选定文献群体范围；其次，依据所选定文献群体中文献间的相互引用关系构建引用网络模型，统计文献的黄金引用次数；然后，基于所述引用网络模型对文献进行聚类分组；最后，按照黄金引用次数和文献聚类分组排序，向用户推荐文献。

上述方案中，所述文献包括科技期刊、专利、会议论文、研究报告和学位论文。

本发明的进一步方案为：所述引用网络模型为：G＝(V,E)，G＝(V,E)是由|V|＝N个文献节点和|E|＝M条边所组成的一个有向网络；其中，G代表文献群体中文献以及文献间引用关系的集合，V代表文献群体G中的文献集合，E代表文献群体G中文献间的引用关系。

本发明的进一步方案为：所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分，划分后的文献群落视为相对独立的研究领域，步骤如下：

S11.将所述引用网络G作为初始网络，并设为当前网络；

S12.将当前网络中的节点随机分为两个群落，之后执行步骤S13；

S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度，之后执行步骤S14；

S14.将较低贡献度的节点从一个群落移动到另一个群落，之后执行步骤S15；

S15.重新计算每个节点对模块度的贡献度和网络模块度，之后执行步骤S16；

S16.判断网络模块度是否增加，同时判断网络模块度是否达到最大值，若模块度增加，即未达最大值，则保留该次节点移动结果并返回执行步骤S14，若模块度不增加，则撤回移动节点，将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落，并返回执行步骤S15；若模块度达到最大值，则执行步骤S17；

S17.记录并保存初始网络此时的网络模块度及群落结构，之后执行步骤S18；

S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分，并对每个单独网络以递归的方式执行步骤S12～S18，直至初始网络没有更大的模块度产生，得到网络群落划分结果，即{G₁,G₂,G₃,...,G_n}。

本发明的进一步方案为：所述每个节点对模块度的贡献度λ_i根据下式计算：

其中，κ_r(i)代表属于群落r的节点v_i与该群落内其他节点之间的代表引用关系的边数量，

为节点v_i的施引数，

为节点v_i的被引数，a_r(i)代表无论施引或者被引节点在群落r中的边的比例。

本发明的进一步方案为：所述模块度Q根据下式计算：

其中，m为文献网络中代表引用关系的总边数。

本发明的进一步方案为：所述“按照黄金引用次数和文献聚类分组排序，向用户推荐文献”包括：将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合，向用户推荐文献；优选的，所述结合包括设定第一阈值，取文献群体中黄金引用次数大于所述第一阈值的文献节点，并根据黄金引用次数降序排列，之后取文献聚类划分结果和所述降序排列结果的交集，形成向用户推荐的文献列表，所述第一阈值不大于最大黄金引用次数；优选的，所述结合包括将文献群体中的所有文献节点按照黄金引用次数降序排列，之后为文献聚类划分结果中每个研究领域的文献群落设定第二阈值，向用户推荐每个文献群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的文献节点所组成的文献列表，所述第二阈值不大于最大黄金引用次数。

上述方案中，所述文献聚类划分的主要作用是对一个技术主题所包含的多个研究领域进行划分，划分结果即该技术主题下对应各子技术领域的数个文献群落。而由于有些技术主题包含的研究领域比较庞杂，因此不可能完全实现每个研究领域中的文献都恰巧落入黄金引用文献群体中，因此需要在黄金引用文献群体和/或聚类划分的文献群落中引入阈值，在一定阈值范围形成二者的交集，从而得出推荐给用户的文献列表。

本发明的进一步方案为：所述统计文献的黄金引用次数包括如下步骤：

S21.统计文献被引次数，后执行步骤S22；

S22.统计文献他引次数，后执行步骤S23；

S23.计算文献的黄金引用次数。

本发明的进一步方案为：所述步骤S21中文献被引次数是由文献v_i在文献群体G中的被引次数通过引用变量e_ij累加得到，即第i篇文献在文献群体G中的被引次数计算公式为

所述步骤S22文献他引次数是文献v_i在文献群体G中的他引次数通过引用变量e_ij与自引系数λ_ij的乘积(e_ij·λ_ij)累加得到，即第i篇文献在文献群体G中的他引次数公式为

若文献v_i被文献v_j引用，则e_ij等于1；若文献v_i未被文献v_j引用，则e_ij等于0；若文献v_i与文献v_j中至少有一个相同作者，该次引用为自引，则λ_ij等于0；若文献v_i与文献v_j没有相同作者，该次引用为他引，则λ_ij等于1；其中，i≥1，j≥1。

本发明的进一步方案为：所述步骤S23为计算文献节点v_i的黄金引用次数E_i ^gold，具体包括：引入设定值k，k依次由小到大取值，采用递归的方式逐层提取文献，将每层提取出的文献组成新的文献群体，其中，k为整数，且k≥0；第k层文献群体为G^k，G^k中含有|V^k|＝N_k个节点，即含有N_k篇文献，|E^k|＝M_k条引用关系，文献节点v_i在文献群体G^k中的引用变量为

文献节点v_i在文献群体G^k中他引次数关系式为

采用递归提取的方式缩小G^k的范围，直到G^k+1中含有的节点数为0，第k层提取的文献群体中所包含的文献节点的黄金引用次数为k。

本发明的进一步方案为：所述“采用递归提取的方式缩小G^k的范围，直到G^k+1中含有的节点数为0”的具体方法为：提取G^k中

的文献节点，组成文献群体D_k，剩余的文献节点及其引用关系成为第k+1层的初始文献群体G^k+1，文献节点v_i在文献群体G^k中的引用变量为

文献节点v_i在新文献群体G^k+1中的他引次数关系式为

新文献群体G^k+1中含有|V^k+1|＝N_k+1个节点，即含有N_k+1个作者，|E^k+1|＝M_k+1条边，其中，k为整数，且k≥0；第k层提取的文献群体D_k中所包含的文献节点具有相同的黄金引用次数k，文献群体G中以文献节点v_i的黄金引用次数由节点v_i所在的文献群体D_k决定，即文献节点v_i的黄金引用次数

当新文献群体G^k+1为空集时，即G^k+1＝Φ，k取最大值K_max，完成文献黄金引用计算。

本发明的进一步方案为：所述推荐方法包括：将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合，向用户推荐文献；优选的，设定阈值K_min，在文献群体G中取所有

的节点并依据黄金引用次数进行降序排列，即

依据文献聚类结果，向用户推荐文献列表

其中，K_max≥K_min≥0；优选的，文献群体G中所有节点依据黄金引用次数进行降序排列，即

依据文献聚类结果，为每个文献群落设定阈值

向用户推荐每个群落中

的文献节点所组成的文献群，即

其中，

上述方案中，针对文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序的结合方式进行了具体的说明，其中，K_min和

的取值可由系统生成设置，也可人为设定。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

1.本发明提供的文献推荐方法，评价文献的重要度是基于文献的引用次数等本身的固有属性，是一种专业、客观地评价方法，且避免了由于用户的历史行为数据的缺乏产生的“冷启动”的问题；同时，文献的引用关系反映了文献的内容关系，这种方法基于文献间内容关联的计算方法，对于交叉学科或新兴学科的文献推荐同样适用；

2.本发明提供的文献推荐方法将文献的他引频次代替文献的被引次数排除了因作者自引导带来文献影响力计算的偏高；定义文献的黄金引用次数，将他引影响力按照施引文献影响力再排序，相当于削弱了低质低效他引的权重，提升了高质量施引文献在评价被引文献影响力的权重；

3.本发明提供的文献推荐方法，相较于GN、FN算法等群落划分算法，执行时间复杂度高的弊端，本发明提出的文献聚类计算方法，算法时间复杂度低，基于文献的内容和用户的个性化偏好提出建议，能更快速，准确的划分文献群落。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是本发明所提供的文献推荐方法的流程图；

图2是本发明所提供的文献推荐方法的流程图；

图3是本发明中文献推荐方法中统计黄金引用次数的流程示意图；

图4是本发明中基于引用网络对文献进行聚类分组的流程示意图；

图5是本发明中文献引用网络模型示意图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1～5所示，本发明提供一种基于引用次数的文献推荐方法，通过计算文献的黄金引用次数和利用群落算法划分文献研究领域，快速准确地为用户提供高质量文献。

实施例

如图1所示，本实施例中，具体包括以下A～D四个步骤：

A.在文献数据库中选定文献群体范围；所述文献包括科技期刊、专利、会议论文、研究报告和学位论文；

B.依据所选定文献群体中文献间的相互引用关系构建引用网络模型，统计文献的黄金引用次数；

本实施例中，如图3所示，B步骤中包括构建文献引用网络，所述引用网络模型为：G＝(V,E)，G＝(V,E)是由|V|＝N个文献节点和|E|＝M条边所组成的一个有向网络；其中，G代表文献群体中文献以及文献间引用关系的集合，V代表文献群体G中的文献集合，E代表文献群体G中文献间的引用关系。

本实施例中，如图2所示，B步骤中所述统计文献的黄金引用次数包括如下步骤：

S21.统计文献被引次数，后执行步骤S22；

S22.统计文献他引次数，后执行步骤S23；

S23.计算文献的黄金引用次数。

本实施例中，所述步骤S21中文献被引次数是由文献v_i在文献群体G中的被引次数通过引用变量e_ij累加得到，即第i篇文献在文献群体G中的被引次数计算公式为

所述步骤S22文献他引次数是文献v_i在文献群体G中的他引次数通过引用变量eij与自引系数λ_ij的乘积(eij·λ_ij)累加得到，即第i篇文献在文献群体G中的他引次数公式为

本实施例中，所述步骤S23为计算文献节点v_i的黄金引用次数

具体包括：引入设定值k，k依次由小到大取值，采用递归的方式逐层提取文献，将每层提取出的文献组成新的文献群体，其中，k为整数，且k≥0；第k层文献群体为G^k，G^k中含有|V^k|＝N_k个节点，即含有N_k篇文献，|E^k|＝M_k条引用关系，文献节点v_i在文献群体G^k中的引用变量为

文献节点v_i在文献群体G^k中他引次数关系式为

本实施例中，所述“采用递归提取的方式缩小G^k的范围，直到G^k+1中含有的节点数为0”的具体方法为：提取G^k中

文献节点v_i在新文献群体G^k+1中的他引次数关系式为

C.基于所述引用网络模型对文献进行聚类分组；

本实施例中，如图4所示，C步骤中所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分，划分后的文献群落视为相对独立的研究领域，步骤如下：

S11.将所述引用网络G作为初始网络，并设为当前网络；

本实施例中，步骤S13、S15和S17中所述每个节点对模块度的贡献度λ_i根据下式计算：

为节点v_i的施引数，

本实施例中，步骤S13、S15和S17中所述模块度Q根据下式计算：

其中，m为文献网络中代表引用关系的总边数。

D.按照黄金引用次数和文献聚类分组排序，向用户推荐文献。

本实施例中，步骤D包括将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合，向用户推荐文献；

在本实施例的一种实施方式中，设定阈值K_min，在文献群体G中取所有

的节点并依据黄金引用次数进行降序排列，即

依据文献聚类结果，向用户推荐文献列表

其中，K_max≥K_min≥0。

在本实施例的另一种实施方式中，文献群体G中所有节点依据黄金引用次数进行降序排列，即

依据文献聚类结果，为每个文献群落设定阈值

向用户推荐每个群落中

的文献节点所组成的文献群，即

其中，

本实施例中，步骤A中文献群体可以是按照主题、领域、学科和/或年代划定范围，也可以是按照设定的检索策略划定范围，也可以是引文数据库中的全部文献。

本实施例中，关键词含有“自动驾驶”的文献为例，首先选定文献群体有文献14,260篇，建立文献引用网络模型；统计文献的被引次数

他引频次

以及黄金引用次数

然后进行文献聚类分析，划分为12个文献群体；由于该技术主题聚类划分后的研究领域较多，为更准确客观地提供推荐文献，采用为每个文献群落设定阈值

的方式，向用户推荐每个群落中

的文献节点所组成的文献群，最后依据黄金引用次数和文献群体，获得286篇文献推荐给用户。

本实施例中，关键词含有“超细纤维”的文献为例，首先选定文献群体有文献1,260篇，建立文献引用网络模型；统计文献的被引次数

他引频次

以及黄金引用次数

然后进行文献聚类分析，划分为6个文献群体，该技术主题聚类划分后的研究领域较少，为更准确客观地提供推荐文献，采用为黄金引用文献群体设定阈值K_min的方式，取文献聚类划分结果和黄金引用文献降序排列结果的交集，形成向用户推荐的文献列表，获得132篇文献推荐给用户。

本实施例中，用户手动按序查看，获取高质量的文献。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种基于引用次数的文献推荐方法，其特征在于，包括：

首先，在文献数据库中选定文献群体范围；

其次，依据所选定文献群体中文献间的相互引用关系构建引用网络模型，统计文献的黄金引用次数；

然后，基于所述引用网络模型对文献进行聚类分组；

最后，按照黄金引用次数和文献聚类分组排序，向用户推荐文献。

2.根据权利要求1所述的一种基于引用次数的文献推荐方法，其特征在于，所述引用网络模型为：G＝(V,E)，G＝(V,E)是由|V|＝N个文献节点和|E|＝M条边所组成的一个有向网络；其中，G代表文献群体中文献以及文献间引用关系的集合，V代表文献群体G中的文献集合，E代表文献群体G中文献间的引用关系。

3.根据权利要求2所述的一种基于引用次数的文献推荐方法，其特征在于，所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分，划分后的文献群落视为相对独立的研究领域，步骤如下：

S11.将所述引用网络G作为初始网络，并设为当前网络；

4.根据权利要求3所述的一种基于引用次数的文献推荐方法，其特征在于，所述每个节点对模块度的贡献度λ_i根据下式计算：

为节点v_i的施引数，

5.根据权利要求4所述的一种基于引用次数的文献推荐方法，其特征在于，所述模块度Q根据下式计算：

其中，m为文献网络中代表引用关系的总边数。

6.根据权利要求1所述的一种基于引用次数的文献推荐方法，其特征在于，所述“按照黄金引用次数和文献聚类分组排序，向用户推荐文献”包括：将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合，向用户推荐文献；

优选的，所述结合包括设定第一阈值，取文献群体中黄金引用次数大于所述第一阈值的文献节点，并根据黄金引用次数降序排列，之后取文献聚类划分结果和所述降序排列结果的交集，形成向用户推荐的文献列表，所述第一阈值不大于最大黄金引用次数；

优选的，所述结合包括将文献群体中的所有文献节点按照黄金引用次数降序排列，之后为文献聚类划分结果中每个研究领域的文献群落设定第二阈值，向用户推荐每个文献群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的文献节点所组成的文献列表，所述第二阈值不大于最大黄金引用次数。

7.根据权利要求1或2所述的一种基于引用次数的文献推荐方法，其特征在于，所述统计文献的黄金引用次数包括如下步骤：

S21.统计文献被引次数，后执行步骤S22；

S22.统计文献他引次数，后执行步骤S23；

S23.计算文献的黄金引用次数。

8.根据权利要求7所述的一种基于引用次数的文献推荐方法，其特征在于，所述步骤S21中文献被引次数是由文献v_i在文献群体G中的被引次数通过引用变量e_ij累加得到，即第i篇文献在文献群体G中的被引次数计算公式为

若文献v_i被文献v_j引用，则e_ij等于1；若文献v_i未被文献v_j引用，则e_ij等于0；若文献v_i与文献v_j中至少有一个相同作者，该次引用为自引，则λ_ij等于0；若文献v_i与文献v_j没有相同作者，该次引用为他引，则λ_ij等于1；其中，i≥1，j≥1；

所述步骤S23为计算文献节点v_i的黄金引用次数

文献节点v_i在文献群体G^k中他引次数关系式为

9.根据权利要求7所述的一种基于引用次数的文献推荐方法，其特征在于，所述“采用递归提取的方式缩小G^k的范围，直到G^k+1中含有的节点数为0”的具体方法为：提取G^k中C_i≤k的文献节点，组成文献群体D_k，剩余的文献节点及其引用关系成为第k+1层的初始文献群体G^k+1，文献节点v_i在文献群体G^k中的引用变量为