CN111046165A - 一种基于引用次数的文献推荐方法 - Google Patents

一种基于引用次数的文献推荐方法 Download PDF

Info

Publication number
CN111046165A
CN111046165A CN201911154780.4A CN201911154780A CN111046165A CN 111046165 A CN111046165 A CN 111046165A CN 201911154780 A CN201911154780 A CN 201911154780A CN 111046165 A CN111046165 A CN 111046165A
Authority
CN
China
Prior art keywords
document
citation
documents
literature
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911154780.4A
Other languages
English (en)
Other versions
CN111046165B (zh
Inventor
吴晨生
李辉
刘静
陈雪飞
靳晓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute Of Science And Technology Information
Original Assignee
Beijing Institute Of Science And Technology Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute Of Science And Technology Information filed Critical Beijing Institute Of Science And Technology Information
Priority to CN201911154780.4A priority Critical patent/CN111046165B/zh
Publication of CN111046165A publication Critical patent/CN111046165A/zh
Application granted granted Critical
Publication of CN111046165B publication Critical patent/CN111046165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于引用次数的文献推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;然后,基于所述引用网络模型对文献进行聚类分组;最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。通过定义文献的黄金引用次数,消除文献引用关系中自引的干扰,削弱低质低效他引的影响,同时基于文献引用网络进行文献聚类划分研究领域,使得用户可快速准确的锁定特定研究领域的高质量文献。

Description

一种基于引用次数的文献推荐方法
技术领域
本发明属于文献检索技术领域,具体地说涉及一种基于引用次数的文献推荐方法。
背景技术
文献的引用关系反应了文献间内在的、本质的联系。文献之间的相互引用直接反应了两个独立研究个体之间的传承和内在联系,某文献对多篇文献的共同引用记录也隐含了多篇文献之间相关性。充分利用文献间引用关系特征信息可以提高文献聚类计算的有效性与可靠性。在学术文献数量飞速增长的当代,每天都有数以万计的学术成果被发表,通过文献聚类将相似的文档聚在一起,过滤不相似的文档,能帮助用户有效地组织、概括、导航和查找文献信息。
申请号为201510957990.2的中国专利描述了一种文献引用网络可视化及文献推荐方及系统:该系统先通过定量分析引用行为产生的传递价值和文献相似度计算文献重要度,其次,利用改进的网页链接度排序算法与K均值聚类算法相结合用于文献网中社区发现,并对聚类结果进行可视化,最终将可视化中所展示的聚类中心文献推荐给用户。但是该专利在使用文献引用次数是并未考虑引文网络以及作者与作者之间的关系,施引文献是被引文献作者的另一研究成果,该次引用不能被作为被引文献重要性的有力证明。
申请号为201710163216.3的中国专利公开了一种基于知识图谱的个性化文献推荐方法。首先构建知识图谱,并再次基础上分别构建用户兴趣模型与文献知识模型,根据知识路径集合计算各主题的重要程度,计算每篇文献的最优值,根据最优质排序推荐文献给用户。但是这一类方法缺乏用户差异性的考虑,无法适用于所有新用户,同时,本方法过于依赖用户信息,所推荐文献缺乏权威性和客观性。
申请号为201410046769.7的中国专利描述了一种基于LDA(LatentDirichletAllocation,隐含狄利克雷分布)和VSM(Vector Space Model,向量空间模型)的中草药相似文献的推荐方法。基于中草药专业词典构建出整个中草药文献库的词向量空间,并获得语义词典,每篇文档基于该语义词典进行矢量化处理形成参数化的词向量,利用VSM和LDA两种方法获得的两篇文献的相似度,经加权处理获得最终的相似度值,并以此为依据进行相似文献推荐。该方法不仅能感知文本的表面含义,还能在文本的隐含语义层面来进步挖掘相似性,即使遇到海量文本数据的应用场景,仍能有较好的表现。但是该方法构建特定专业文献库的词向量空间和语义词典数据庞大且计算繁琐。其次,该方法中用孤立的、没有完整语义的词计算文献间相似度,会因为匹配因子“偏大”或“偏小”导致失真误差,仅限于确定领域文献库使用,若对交叉学科或新兴学科进行计算必然会出现结果偏倚现象。
有鉴于此,特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于引用次数的文献推荐方法,通过计算文献的黄金引用次数和利用群落算法划分文献研究领域,快速准确地为用户提供高质量文献。
为解决上述技术问题,本发明采用技术方案的基本构思是:
本发明提供了一种基于引用次数的文献推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;然后,基于所述引用网络模型对文献进行聚类分组;最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。
上述方案中,所述文献包括科技期刊、专利、会议论文、研究报告和学位论文。
本发明的进一步方案为:所述引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系。
本发明的进一步方案为:所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分,划分后的文献群落视为相对独立的研究领域,步骤如下:
S11.将所述引用网络G作为初始网络,并设为当前网络;
S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;
S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;
S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;
S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;
S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;
S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;
S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即{G1,G2,G3,...,Gn}。
本发明的进一步方案为:所述每个节点对模块度的贡献度λi根据下式计算:
Figure BDA0002284517390000031
其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数量,
Figure BDA0002284517390000032
为节点vi的施引数,
Figure BDA0002284517390000033
为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边的比例。
本发明的进一步方案为:所述模块度Q根据下式计算:
Figure BDA0002284517390000034
其中,m为文献网络中代表引用关系的总边数。
本发明的进一步方案为:所述“按照黄金引用次数和文献聚类分组排序,向用户推荐文献”包括:将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;优选的,所述结合包括设定第一阈值,取文献群体中黄金引用次数大于所述第一阈值的文献节点,并根据黄金引用次数降序排列,之后取文献聚类划分结果和所述降序排列结果的交集,形成向用户推荐的文献列表,所述第一阈值不大于最大黄金引用次数;优选的,所述结合包括将文献群体中的所有文献节点按照黄金引用次数降序排列,之后为文献聚类划分结果中每个研究领域的文献群落设定第二阈值,向用户推荐每个文献群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的文献节点所组成的文献列表,所述第二阈值不大于最大黄金引用次数。
上述方案中,所述文献聚类划分的主要作用是对一个技术主题所包含的多个研究领域进行划分,划分结果即该技术主题下对应各子技术领域的数个文献群落。而由于有些技术主题包含的研究领域比较庞杂,因此不可能完全实现每个研究领域中的文献都恰巧落入黄金引用文献群体中,因此需要在黄金引用文献群体和/或聚类划分的文献群落中引入阈值,在一定阈值范围形成二者的交集,从而得出推荐给用户的文献列表。
本发明的进一步方案为:所述统计文献的黄金引用次数包括如下步骤:
S21.统计文献被引次数,后执行步骤S22;
S22.统计文献他引次数,后执行步骤S23;
S23.计算文献的黄金引用次数。
本发明的进一步方案为:所述步骤S21中文献被引次数是由文献vi在文献群体G中的被引次数通过引用变量eij累加得到,即第i篇文献在文献群体G中的被引次数计算公式为
Figure BDA0002284517390000041
所述步骤S22文献他引次数是文献vi在文献群体G中的他引次数通过引用变量eij与自引系数λij的乘积(eij·λij)累加得到,即第i篇文献在文献群体G中的他引次数公式为
Figure BDA0002284517390000042
若文献vi被文献vj引用,则eij等于1;若文献vi未被文献vj引用,则eij等于0;若文献vi与文献vj中至少有一个相同作者,该次引用为自引,则λij等于0;若文献vi与文献vj没有相同作者,该次引用为他引,则λij等于1;其中,i≥1,j≥1。
本发明的进一步方案为:所述步骤S23为计算文献节点vi的黄金引用次数Ei gold,具体包括:引入设定值k,k依次由小到大取值,采用递归的方式逐层提取文献,将每层提取出的文献组成新的文献群体,其中,k为整数,且k≥0;第k层文献群体为Gk,Gk中含有|Vk|=Nk个节点,即含有Nk篇文献,|Ek|=Mk条引用关系,文献节点vi在文献群体Gk中的引用变量为
Figure BDA0002284517390000051
文献节点vi在文献群体Gk中他引次数关系式为
Figure BDA0002284517390000052
采用递归提取的方式缩小Gk的范围,直到Gk+1中含有的节点数为0,第k层提取的文献群体中所包含的文献节点的黄金引用次数为k。
本发明的进一步方案为:所述“采用递归提取的方式缩小Gk的范围,直到Gk+1中含有的节点数为0”的具体方法为:提取Gk
Figure BDA0002284517390000053
的文献节点,组成文献群体Dk,剩余的文献节点及其引用关系成为第k+1层的初始文献群体Gk+1,文献节点vi在文献群体Gk中的引用变量为
Figure BDA0002284517390000054
文献节点vi在新文献群体Gk+1中的他引次数关系式为
Figure BDA0002284517390000055
新文献群体Gk+1中含有|Vk+1|=Nk+1个节点,即含有Nk+1个作者,|Ek+1|=Mk+1条边,其中,k为整数,且k≥0;第k层提取的文献群体Dk中所包含的文献节点具有相同的黄金引用次数k,文献群体G中以文献节点vi的黄金引用次数由节点vi所在的文献群体Dk决定,即文献节点vi的黄金引用次数
Figure BDA0002284517390000056
当新文献群体Gk+1为空集时,即Gk+1=Φ,k取最大值Kmax,完成文献黄金引用计算。
本发明的进一步方案为:所述推荐方法包括:将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;优选的,设定阈值Kmin,在文献群体G中取所有
Figure BDA0002284517390000057
的节点并依据黄金引用次数进行降序排列,即
Figure BDA0002284517390000058
依据文献聚类结果,向用户推荐文献列表
Figure BDA0002284517390000059
Figure BDA00022845173900000510
其中,Kmax≥Kmin≥0;优选的,文献群体G中所有节点依据黄金引用次数进行降序排列,即
Figure BDA00022845173900000511
依据文献聚类结果,为每个文献群落设定阈值
Figure BDA00022845173900000512
向用户推荐每个群落中
Figure BDA00022845173900000513
的文献节点所组成的文献群,即
Figure BDA0002284517390000061
Figure BDA0002284517390000062
其中,
Figure BDA0002284517390000063
上述方案中,针对文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序的结合方式进行了具体的说明,其中,Kmin
Figure BDA0002284517390000064
的取值可由系统生成设置,也可人为设定。
采用上述技术方案后,本发明与现有技术相比具有以下有益效果:
1.本发明提供的文献推荐方法,评价文献的重要度是基于文献的引用次数等本身的固有属性,是一种专业、客观地评价方法,且避免了由于用户的历史行为数据的缺乏产生的“冷启动”的问题;同时,文献的引用关系反映了文献的内容关系,这种方法基于文献间内容关联的计算方法,对于交叉学科或新兴学科的文献推荐同样适用;
2.本发明提供的文献推荐方法将文献的他引频次代替文献的被引次数排除了因作者自引导带来文献影响力计算的偏高;定义文献的黄金引用次数,将他引影响力按照施引文献影响力再排序,相当于削弱了低质低效他引的权重,提升了高质量施引文献在评价被引文献影响力的权重;
3.本发明提供的文献推荐方法,相较于GN、FN算法等群落划分算法,执行时间复杂度高的弊端,本发明提出的文献聚类计算方法,算法时间复杂度低,基于文献的内容和用户的个性化偏好提出建议,能更快速,准确的划分文献群落。
下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1是本发明所提供的文献推荐方法的流程图;
图2是本发明所提供的文献推荐方法的流程图;
图3是本发明中文献推荐方法中统计黄金引用次数的流程示意图;
图4是本发明中基于引用网络对文献进行聚类分组的流程示意图;
图5是本发明中文献引用网络模型示意图。
需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1~5所示,本发明提供一种基于引用次数的文献推荐方法,通过计算文献的黄金引用次数和利用群落算法划分文献研究领域,快速准确地为用户提供高质量文献。
实施例
如图1所示,本实施例中,具体包括以下A~D四个步骤:
A.在文献数据库中选定文献群体范围;所述文献包括科技期刊、专利、会议论文、研究报告和学位论文;
B.依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;
本实施例中,如图3所示,B步骤中包括构建文献引用网络,所述引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系。
本实施例中,如图2所示,B步骤中所述统计文献的黄金引用次数包括如下步骤:
S21.统计文献被引次数,后执行步骤S22;
S22.统计文献他引次数,后执行步骤S23;
S23.计算文献的黄金引用次数。
本实施例中,所述步骤S21中文献被引次数是由文献vi在文献群体G中的被引次数通过引用变量eij累加得到,即第i篇文献在文献群体G中的被引次数计算公式为
Figure BDA0002284517390000081
所述步骤S22文献他引次数是文献vi在文献群体G中的他引次数通过引用变量eij与自引系数λij的乘积(eij·λij)累加得到,即第i篇文献在文献群体G中的他引次数公式为
Figure BDA0002284517390000082
若文献vi被文献vj引用,则eij等于1;若文献vi未被文献vj引用,则eij等于0;若文献vi与文献vj中至少有一个相同作者,该次引用为自引,则λij等于0;若文献vi与文献vj没有相同作者,该次引用为他引,则λij等于1;其中,i≥1,j≥1。
本实施例中,所述步骤S23为计算文献节点vi的黄金引用次数
Figure BDA0002284517390000083
具体包括:引入设定值k,k依次由小到大取值,采用递归的方式逐层提取文献,将每层提取出的文献组成新的文献群体,其中,k为整数,且k≥0;第k层文献群体为Gk,Gk中含有|Vk|=Nk个节点,即含有Nk篇文献,|Ek|=Mk条引用关系,文献节点vi在文献群体Gk中的引用变量为
Figure BDA0002284517390000084
文献节点vi在文献群体Gk中他引次数关系式为
Figure BDA0002284517390000085
采用递归提取的方式缩小Gk的范围,直到Gk+1中含有的节点数为0,第k层提取的文献群体中所包含的文献节点的黄金引用次数为k。
本实施例中,所述“采用递归提取的方式缩小Gk的范围,直到Gk+1中含有的节点数为0”的具体方法为:提取Gk
Figure BDA0002284517390000086
的文献节点,组成文献群体Dk,剩余的文献节点及其引用关系成为第k+1层的初始文献群体Gk+1,文献节点vi在文献群体Gk中的引用变量为
Figure BDA0002284517390000087
文献节点vi在新文献群体Gk+1中的他引次数关系式为
Figure BDA0002284517390000088
新文献群体Gk+1中含有|Vk+1|=Nk+1个节点,即含有Nk+1个作者,|Ek+1|=Mk+1条边,其中,k为整数,且k≥0;第k层提取的文献群体Dk中所包含的文献节点具有相同的黄金引用次数k,文献群体G中以文献节点vi的黄金引用次数由节点vi所在的文献群体Dk决定,即文献节点vi的黄金引用次数
Figure BDA0002284517390000089
C.基于所述引用网络模型对文献进行聚类分组;
本实施例中,如图4所示,C步骤中所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分,划分后的文献群落视为相对独立的研究领域,步骤如下:
S11.将所述引用网络G作为初始网络,并设为当前网络;
S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;
S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;
S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;
S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;
S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;
S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;
S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即{G1,G2,G3,...,Gn}。
本实施例中,步骤S13、S15和S17中所述每个节点对模块度的贡献度λi根据下式计算:
Figure BDA0002284517390000091
其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数量,
Figure BDA0002284517390000092
为节点vi的施引数,
Figure BDA0002284517390000093
为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边的比例。
本实施例中,步骤S13、S15和S17中所述模块度Q根据下式计算:
Figure BDA0002284517390000094
其中,m为文献网络中代表引用关系的总边数。
D.按照黄金引用次数和文献聚类分组排序,向用户推荐文献。
本实施例中,步骤D包括将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;
在本实施例的一种实施方式中,设定阈值Kmin,在文献群体G中取所有
Figure BDA0002284517390000101
的节点并依据黄金引用次数进行降序排列,即
Figure BDA0002284517390000102
依据文献聚类结果,向用户推荐文献列表
Figure BDA0002284517390000103
Figure BDA0002284517390000104
其中,Kmax≥Kmin≥0。
在本实施例的另一种实施方式中,文献群体G中所有节点依据黄金引用次数进行降序排列,即
Figure BDA0002284517390000105
依据文献聚类结果,为每个文献群落设定阈值
Figure BDA0002284517390000106
向用户推荐每个群落中
Figure BDA0002284517390000107
的文献节点所组成的文献群,即
Figure BDA0002284517390000108
Figure BDA0002284517390000109
其中,
Figure BDA00022845173900001010
本实施例中,步骤A中文献群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是引文数据库中的全部文献。
本实施例中,关键词含有“自动驾驶”的文献为例,首先选定文献群体有文献14,260篇,建立文献引用网络模型;统计文献的被引次数
Figure BDA00022845173900001011
他引频次
Figure BDA00022845173900001012
以及黄金引用次数
Figure BDA00022845173900001013
然后进行文献聚类分析,划分为12个文献群体;由于该技术主题聚类划分后的研究领域较多,为更准确客观地提供推荐文献,采用为每个文献群落设定阈值
Figure BDA00022845173900001014
的方式,向用户推荐每个群落中
Figure BDA00022845173900001015
的文献节点所组成的文献群,最后依据黄金引用次数和文献群体,获得286篇文献推荐给用户。
本实施例中,关键词含有“超细纤维”的文献为例,首先选定文献群体有文献1,260篇,建立文献引用网络模型;统计文献的被引次数
Figure BDA00022845173900001016
他引频次
Figure BDA00022845173900001017
以及黄金引用次数
Figure BDA00022845173900001018
然后进行文献聚类分析,划分为6个文献群体,该技术主题聚类划分后的研究领域较少,为更准确客观地提供推荐文献,采用为黄金引用文献群体设定阈值Kmin的方式,取文献聚类划分结果和黄金引用文献降序排列结果的交集,形成向用户推荐的文献列表,获得132篇文献推荐给用户。
本实施例中,用户手动按序查看,获取高质量的文献。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。

Claims (10)

1.一种基于引用次数的文献推荐方法,其特征在于,包括:
首先,在文献数据库中选定文献群体范围;
其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;
然后,基于所述引用网络模型对文献进行聚类分组;
最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。
2.根据权利要求1所述的一种基于引用次数的文献推荐方法,其特征在于,所述引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系。
3.根据权利要求2所述的一种基于引用次数的文献推荐方法,其特征在于,所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分,划分后的文献群落视为相对独立的研究领域,步骤如下:
S11.将所述引用网络G作为初始网络,并设为当前网络;
S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;
S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;
S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;
S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;
S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;
S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;
S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即{G1,G2,G3,...,Gn}。
4.根据权利要求3所述的一种基于引用次数的文献推荐方法,其特征在于,所述每个节点对模块度的贡献度λi根据下式计算:
Figure FDA0002284517380000021
其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数量,
Figure FDA0002284517380000022
为节点vi的施引数,
Figure FDA0002284517380000023
为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边的比例。
5.根据权利要求4所述的一种基于引用次数的文献推荐方法,其特征在于,所述模块度Q根据下式计算:
Figure FDA0002284517380000024
其中,m为文献网络中代表引用关系的总边数。
6.根据权利要求1所述的一种基于引用次数的文献推荐方法,其特征在于,所述“按照黄金引用次数和文献聚类分组排序,向用户推荐文献”包括:将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;
优选的,所述结合包括设定第一阈值,取文献群体中黄金引用次数大于所述第一阈值的文献节点,并根据黄金引用次数降序排列,之后取文献聚类划分结果和所述降序排列结果的交集,形成向用户推荐的文献列表,所述第一阈值不大于最大黄金引用次数;
优选的,所述结合包括将文献群体中的所有文献节点按照黄金引用次数降序排列,之后为文献聚类划分结果中每个研究领域的文献群落设定第二阈值,向用户推荐每个文献群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的文献节点所组成的文献列表,所述第二阈值不大于最大黄金引用次数。
7.根据权利要求1或2所述的一种基于引用次数的文献推荐方法,其特征在于,所述统计文献的黄金引用次数包括如下步骤:
S21.统计文献被引次数,后执行步骤S22;
S22.统计文献他引次数,后执行步骤S23;
S23.计算文献的黄金引用次数。
8.根据权利要求7所述的一种基于引用次数的文献推荐方法,其特征在于,所述步骤S21中文献被引次数是由文献vi在文献群体G中的被引次数通过引用变量eij累加得到,即第i篇文献在文献群体G中的被引次数计算公式为
Figure FDA0002284517380000031
所述步骤S22文献他引次数是文献vi在文献群体G中的他引次数通过引用变量eij与自引系数λij的乘积(eij·λij)累加得到,即第i篇文献在文献群体G中的他引次数公式为
Figure FDA0002284517380000032
若文献vi被文献vj引用,则eij等于1;若文献vi未被文献vj引用,则eij等于0;若文献vi与文献vj中至少有一个相同作者,该次引用为自引,则λij等于0;若文献vi与文献vj没有相同作者,该次引用为他引,则λij等于1;其中,i≥1,j≥1;
所述步骤S23为计算文献节点vi的黄金引用次数
Figure FDA0002284517380000033
具体包括:引入设定值k,k依次由小到大取值,采用递归的方式逐层提取文献,将每层提取出的文献组成新的文献群体,其中,k为整数,且k≥0;第k层文献群体为Gk,Gk中含有|Vk|=Nk个节点,即含有Nk篇文献,|Ek|=Mk条引用关系,文献节点vi在文献群体Gk中的引用变量为
Figure FDA0002284517380000034
文献节点vi在文献群体Gk中他引次数关系式为
Figure FDA0002284517380000035
采用递归提取的方式缩小Gk的范围,直到Gk+1中含有的节点数为0,第k层提取的文献群体中所包含的文献节点的黄金引用次数为k。
9.根据权利要求7所述的一种基于引用次数的文献推荐方法,其特征在于,所述“采用递归提取的方式缩小Gk的范围,直到Gk+1中含有的节点数为0”的具体方法为:提取Gk中Ci≤k的文献节点,组成文献群体Dk,剩余的文献节点及其引用关系成为第k+1层的初始文献群体Gk+1,文献节点vi在文献群体Gk中的引用变量为
Figure FDA0002284517380000036
文献节点vi在新文献群体Gk+1中的他引次数关系式为
Figure FDA0002284517380000037
新文献群体Gk+1中含有|Vk+1|=Nk+1个节点,即含有Nk+1个作者,|Ek+1|=Mk+1条边,其中,k为整数,且k≥0;第k层提取的文献群体Dk中所包含的文献节点具有相同的黄金引用次数k,文献群体G中以文献节点vi的黄金引用次数由节点vi所在的文献群体Dk决定,即文献节点vi的黄金引用次数
Figure FDA0002284517380000041
当新文献群体Gk+1为空集时,即Gk +1=Φ,k取最大值Kmax,完成文献黄金引用计算。
10.根据权利要求6~9任意一项所述的一种基于引用次数的文献推荐方法,其特征在于,所述推荐方法包括:将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;
优选的,设定阈值Kmin,在文献群体G中取所有
Figure FDA0002284517380000042
的节点并依据黄金引用次数进行降序排列,即
Figure FDA0002284517380000043
依据文献聚类结果,向用户推荐文献列表
Figure FDA0002284517380000044
,其中,Kmax≥Kmin≥0;
优选的,文献群体G中所有节点依据黄金引用次数进行降序排列,即
Figure FDA0002284517380000045
依据文献聚类结果,为每个文献群落设定阈值
Figure FDA0002284517380000046
向用户推荐每个群落中
Figure FDA0002284517380000047
的文献节点所组成的文献群,即
Figure FDA0002284517380000048
,其中,
Figure FDA0002284517380000049
CN201911154780.4A 2019-11-22 2019-11-22 一种基于引用次数的文献推荐方法 Active CN111046165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911154780.4A CN111046165B (zh) 2019-11-22 2019-11-22 一种基于引用次数的文献推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911154780.4A CN111046165B (zh) 2019-11-22 2019-11-22 一种基于引用次数的文献推荐方法

Publications (2)

Publication Number Publication Date
CN111046165A true CN111046165A (zh) 2020-04-21
CN111046165B CN111046165B (zh) 2021-02-09

Family

ID=70233072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911154780.4A Active CN111046165B (zh) 2019-11-22 2019-11-22 一种基于引用次数的文献推荐方法

Country Status (1)

Country Link
CN (1) CN111046165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718528A (zh) * 2016-01-15 2016-06-29 上海交通大学 基于论文间引用关系的学术地图展示方法
US20170353345A1 (en) * 2016-06-03 2017-12-07 Vmware, Inc. Methods and systems to diagnose anomalies in cloud infrastructures
CN108132961A (zh) * 2017-11-06 2018-06-08 浙江工业大学 一种基于引用预测的参考文献推荐方法
CN109002524A (zh) * 2018-07-13 2018-12-14 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718528A (zh) * 2016-01-15 2016-06-29 上海交通大学 基于论文间引用关系的学术地图展示方法
US20170353345A1 (en) * 2016-06-03 2017-12-07 Vmware, Inc. Methods and systems to diagnose anomalies in cloud infrastructures
CN108132961A (zh) * 2017-11-06 2018-06-08 浙江工业大学 一种基于引用预测的参考文献推荐方法
CN109002524A (zh) * 2018-07-13 2018-12-14 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者排序方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质

Also Published As

Publication number Publication date
CN111046165B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN108073568B (zh) 关键词提取方法和装置
Haraty et al. An enhanced k-means clustering algorithm for pattern discovery in healthcare data
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
JP6488753B2 (ja) 情報処理方法
US20160170993A1 (en) System and method for ranking news feeds
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Nurhachita et al. A comparison between deep learning, naïve bayes and random forest for the application of data mining on the admission of new students
CN111046165B (zh) 一种基于引用次数的文献推荐方法
CN110347825A (zh) 一种短英文影评分类方法及装置
CN109344232A (zh) 一种舆情信息检索方法及终端设备
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
Prakhash et al. Categorizing food names in restaurant reviews
Harris Searching for Diverse Perspectives in News Articles: Using an LSTM Network to Classify Sentiment.
Foote et al. A computational analysis of social media scholarship
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Fadhilah et al. Comparison of Bandung Social Media-based Sentiment Classifier using Multinomial Logistic Regression and Gradient Boosting Models
CN111611455A (zh) 一种微博热点话题下基于用户情感行为特征的用户群体划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant