CN105740386B - 基于排序集成的论文搜索方法及装置 - Google Patents

基于排序集成的论文搜索方法及装置 Download PDF

Info

Publication number
CN105740386B
CN105740386B CN201610056586.2A CN201610056586A CN105740386B CN 105740386 B CN105740386 B CN 105740386B CN 201610056586 A CN201610056586 A CN 201610056586A CN 105740386 B CN105740386 B CN 105740386B
Authority
CN
China
Prior art keywords
paper
score
library
preset
journal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610056586.2A
Other languages
English (en)
Other versions
CN105740386A (zh
Inventor
马帅
骆东升
龚晨
胡仁君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201610056586.2A priority Critical patent/CN105740386B/zh
Publication of CN105740386A publication Critical patent/CN105740386A/zh
Application granted granted Critical
Publication of CN105740386B publication Critical patent/CN105740386B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于排序集成的论文搜索方法及装置,该方法包括:分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果。该方法在论文排序时综合考虑了各种因素,从而使得论文排序的准确率得到极大提升。

Description

基于排序集成的论文搜索方法及装置
技术领域
本发明涉及搜索技术,尤其涉及一种基于排序集成的论文搜索方法及装置。
背景技术
学术论文的评价和学术论文的排序,作为论文检索和论文推荐系统的核心部分,一直以来都是研究人员非常关心的问题。因为,准确的学术论文评价和排序意义非常重大,例如,准确的学术论文评价和排序可以辅助量化研究人员的科研影响力,以及学术机构的科研影响力等,以及加快入门学者对于特定科学领域的学习速度。
现有技术中,论文排序通过移植网页排序算法来实现,例如使用佩奇排序算法。该算法根据网页之间的超链接关系分析得到每个网页的佩奇排序值从而对网页进行排序。在将该算法移植到论文排序时,把网页之间的超链接关系替换成论文之间的引用关系后就可以类似地得到每篇论文的佩奇排序值并对其进行排序。
但是,现有技术直接使用网页排序算法对论文进行排序,论文排序的准确率低下。
发明内容
本发明提供一种基于排序集成的论文搜索方法及装置,用于解决现有技术中对论文排序时准确率低下的问题。
本发明第一方面提供一种基于排序集成的论文搜索方法,包括:
分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
另一实施例中,所述至少一种评价得分包括刊会得分和作者得分,相应地,所述分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分包括:
根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
另一实施例中,所述根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分包括:
采用公式
Figure GDA0002487992270000021
计算所述预设论文库中每篇论文的综合得分;其中,Rc(u)表征所述预设论文库中每篇论文的引用得分,Rv(u)表征所述预设论文库中每篇论文的刊会得分,Ra(u)表征所述预设论文库中每篇论文的作者得分,α表征所述刊会得分所占的权重,β表征所述作者得分所占的权重。
另一实施例中,所述根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,包括:
计算所述论文引用关系图中每条第一边的引用权重,其中,所述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点对应一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系;
根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算所述预设论文库中每篇论文的引用得分,其中,PR(t+1)表征所述预设论文库中所有论文的引用得分所组成的向量,PR(t)表征所述预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,所述矩阵M中的每个元素值为所述论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。
另一实施例中,所述计算所述论文引用关系图中每条第一边的引用权重,包括:
根据公式
Figure GDA0002487992270000031
计算所述论文引用关系图中每条第一边的引用权重,其中,u,v分别表征所述论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子。
另一实施例中,所述根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,包括:
计算所述期刊会议关系图中每条第二边的刊会权重,其中,所述期刊会议关系图包括多个第二节点和多条所述第二边,每个所述第二节点分别表征一个期刊会议,两个所述第二节点之间的所述第二边表征两个所述第二节点之间具有引用关系;
根据所述每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算所述预设期刊会议库中每个期刊会议的得分,其中,PRV(t+1)表征所述预设期刊会议库中所有期刊会议的得分所组成的向量,PRV(t)表征所述预设期刊会议库中所有期刊会议在前一计算时刻所计算出的得分所组成的向量,VT表征矩阵V的转置矩阵,所述矩阵V中的每个元素值为所述期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量;
确定所述预设论文库中每篇论文所发表的期刊会议,将每篇所述论文所发表的所述期刊会议的得分作为每篇所述论文的刊会得分。
另一实施例中,所述计算所述期刊会议关系图中每条第二边的刊会权重,包括:
根据公式
Figure GDA0002487992270000041
计算所述期刊会议关系图中每条第二边的刊会权重,其中,s,t分别表征所述期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
另一实施例中,所述根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分,包括:
针对所述预设作者库中的每个作者,在所述预设论文库中查找所述作者所发表的所有论文的引用得分,计算所查找出的所述作者所发表的所有论文的引用得分的第一平均值,将所述第一平均值作为所述作者的得分;
针对所述预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将所述第二平均值作为所述预设论文库中每篇所述论文的作者得分。
本发明第二方面提供一种基于排序集成的论文搜索装置,包括:
第一计算模块,用于分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
第二计算模块,用于根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
排序模块,用于根据预设论文库中每篇论文的综合得分对预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
另一实施例中,所述引用得分计算模块包括:
所述第一计算模块包括:
引用得分计算单元,用于根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
刊会得分计算单元,用于根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
作者得分计算单元,用于根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
本发明所提供的论文搜索方法,通过对论文的引用关系、期刊会议、作者三种因素进行综合考虑,计算得出包含上述三种因素的综合得分。由于在论文排序时综合考虑了各种因素,从而使得论文排序的准确率得到极大提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单地介绍,显而易见地,下面描述中的附图只是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还完全可以根据这些附图获得其他的附图。
图1为本发明提供的基于排序集成的论文搜索方法实施例一的流程示意图;
图2为本发明提供的基于排序集成的论文搜索方法实施例二的流程示意图;
图3为本发明提供的基于排序集成的论文搜索方法实施例三的流程示意图;
图4为本发明提供的基于排序集成的论文搜索方法实施例三的论文引用关系图的示例;
图5为本发明提供的基于排序集成的论文搜索方法实施例四的流程示意图;
图6为本发明提供的基于排序集成的论文搜索方法实施例五的流程示意图;
图7为本发明提供的基于排序集成的论文搜索装置实施例一的模块结构图;
图8为本发明提供的基于排序集成的论文搜索装置实施例二的模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
论文排序与网页排序相比,其排序除了与论文之间的引用关系相关,还同其他因素密切相关,例如论文所发表的期刊会议、论文的作者,如果该论文所发表的期刊会议或作者比较权威,那么该论文相应的排序也应该比较靠前。即,论文涉及到作者、期刊会议、引用等多种不同实体和彼此之间的不同关系,这些实体与关系本质上构成一张异构图。基于对论文排序的上述分析,本发明在论文排序时综合考虑各种实体及其之间的关系。本发明的核心思想是:先在各个相同实体的同构关系图上评估各个实体的重要性,之后再将引用、作者、期刊会议的重要性相结合从而得到论文的重要程度并对其进行排序。同时,考虑到上述异构图中的实体具有动态性,即实体的重要性会随时间变化,本发明还提供了论文之间引用关系影响力随时间衰减的计算方法。
图1为本发明提供的基于排序集成的论文搜索方法实施例一的流程示意图,如图1所示,该方法包括:
S101、分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分。
若前所述,论文涉及到作者、期刊会议、引用等多种不同实体和彼此之间的不同关系,因此,在计算论文得分时,除了考虑引用得分,还需要计算论文的其他评价得分,例如作者、期刊会议等评价得分。
S102、根据预设论文库中每篇论文的引用得分以及至少一种评价得分,计算预设论文库中每篇论文的综合得分。
S103、根据预设论文库中每篇论文的综合得分对预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
本实施例中,在论文排序时综合考虑了多种因素,从而使得论文排序的准确率得到极大提升。
图2为本发明提供的基于排序集成的论文搜索方法实施例二的流程示意图,如图2所示,上述步骤S101包括:
S201、根据与预设论文库对应的论文引用关系图,计算该预设论文库中每篇论文的引用得分。
该论文引用关系图用于表征预设论文库中的所有论文之间的引用关系。
预设论文库是将现有各种论文库中的论文集中起来形成的论文数量足够多的论文库。需要说明的是,该预设论文库并不限定为一个物理的论文库,也可以是一个逻辑的论文库,只要可以获取到现有各种论文库中的论文即可,本发明对此不做限制。
论文引用关系图是与预设论文库对应的图,即针对论文引用关系的同构关系图,该论文引用关系图为一张网状图,用于表征预设论文库中所有论文之间的引用关系。
论文的引用得分表征了论文被引用的程度。
S202、根据与预设期刊会议库对应的期刊会议关系图,计算预设期刊会议库中每个期刊会议的得分,并根据每个期刊会议的得分确定预设论文库中每篇论文的刊会得分。
该期刊会议关系图用于表征预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系。
预设期刊会议库是现有的各种会议期刊所形成的一个集合。期刊会议关系图是与预设期刊会议库相对应的图,即针对期刊会议的同构关系图,该期刊会议关系图为一张网状图,用于表征预设期刊会议库中所有期刊会议所发表的论文之间的引用关系。
S203、根据预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
预设作者库是将现有的尽可能多的作者信息收集起来所形成的作者集合。
另一实施例中,上述步骤S102具体为:
采用公式
Figure GDA0002487992270000071
计算预设论文库中每篇论文的综合得分。
其中,Rc(u)表征预设论文库中每篇论文的引用得分,Rv(u)表征预设论文库中每篇论文的刊会得分,Ra(u)表征预设论文库中每篇论文的作者得分,α表征刊会得分所占的权重,β表征作者得分所占的权重。
本实施例中,在确定出论文的引用得分、论文所发表的期刊会议的刊会得分以及论文的作者得分的基础上,使用上述公式计算该论文的综合得分。在上述公式中,对于刊会得分和作者得分赋予了对应的权重α和β,这两个权重值为根据经验获得的预设值,可在实际使用时进行更新。计算出论文的综合得分之后,就可以按照得分高低完成论文的排序。
本实施例中,首先基于论文引用关系和期刊会议这两种同构图计算出论文的引用得分以及刊会得分,再根据论文的引用得分及计算出论文的作者得分,再将论文的引用得分、刊会得分以及作者得分进行综合计算,从而得到论文的综合得分。由于在论文排序时综合考虑了各种因素,从而使得论文排序的准确率得到极大提升。
图3为本发明提供的基于排序集成的论文搜索方法实施例三的流程示意图,如图3所示,上述步骤S201具体包括:
S301、计算上述论文引用关系图中每条第一边的引用权重。
其中,上述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点分别表征一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系。
图4为本发明提供的基于排序集成的论文搜索方法实施例三的论文引用关系图的示例,如图4所示,该论文引用关系图中包括了3个第一节点:论文A、论文B以及论文C,以及多个第一边。其中,论文A和论文B之间指向论文B的第一边表示论文A引用了论文B,论文A和论文C之间指向论文C的第一边表示论文A引用了论文C,论文B和论文C之间指向论文C的第一边表示论文B引用了论文C。
S302、根据每条第一边的引用权重,采用公式PR(t+1)=dMTPR(t)+(1-d)e计算上述预设论文库中每篇论文的引用得分。
其中,PR(t+1)表征预设论文库中所有论文的引用得分所组成的向量,PR(t)表征预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,矩阵M中的每个元素值为论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PR(t)对应的全1向量。
上述公式是一个迭代公式,即每条第一边的引用得分都可以通过上一次计算的引用得分迭代获得。在初始时,PR(t)中的每个元素都被赋予初始值1,即所有论文的引用得分都初始化为1,经过不断的迭代,PR(t)中的元素值不断更新,最终收敛。本实施例中,迭代次数可以根据实际情况进行灵活设置。
假设预设论文库中有N篇论文,则矩阵M为一个N*N的邻接矩阵,该矩阵中的元素值m[u][v]表示了论文引用关系图中第u个第一节点到第v个第一节点之间的第一边的引用权重,如果第u个第一节点到第v个第一节点之间的第一边不存在引用权重,则m[u][v]值为0。进而,对矩阵M进行归一化使得矩阵中每行的和为1,再转置得到MT,再代入上述公式中来计算论文的新的引用得分。通过上述方式,将引用权重作为论文的引用得分的重要参数,而现有技术中计算论文引用得分时,并不会考虑引用权重。因此,通过上述方式能够更准确的反应论文的引用情况。
另一实施例中,上述步骤S301具体包括:
根据公式
Figure GDA0002487992270000091
计算论文引用关系图中每条第一边的引用权重。其中,u,v分别表征论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子,实际使用中可根据经验选定一个大于0的衰减因子。
具体地,上述公式根据论文被引用的峰值对应的年份来确定引用权重。如果u对应的论文发表的年份小于v对应的论文的引用峰值对应的年份,则u和v之间的第一边的引用权重为常数1。如果u对应的论文发表的年份大于等于v对应的论文的引用峰值对应的年份,则u和v之间的第一边的引用权重随时间呈衰减状态。
进行上述处理的原因是:论文在引用峰值前认为它的影响保持在最高水平,因此是一个常数,因为在此期间其引文的增量主要是由于越来越多的人知道这篇论文引起的。而论文达到引用峰值之后,其影响也逐渐变小,因此随时间进行衰减。因此,通过上述处理实现了正确地反映论文引用得分随时间变化的动态性,进一步保证了论文引用得分的准确性。
另外,在确定峰值年份时,本实施例采用如下方法:对于每篇论文,统计其每年被引用数量,以三年为单位分别计算每三年的引用数量之和,将引用数量之和最大的三年中的中间一年作为论文引用峰值年份。以此来避免由于异常点的出现对峰值年份的影响。
图5为本发明提供的基于排序集成的论文搜索方法实施例四的流程示意图,如图5所示,上述步骤S202具体包括:
S401、计算期刊会议关系图中每条第二边的刊会权重。
其中,期刊会议关系图包括多个第二节点和多条第二边,每个第二节点分别表征一个期刊会议,两个第二节点之间的第二边表征两个第二节点之间具有引用关系。
需要说明的是,期刊会议之间的引用关系由期刊会议中所发表的论文之间的引用关系来确定,例如期刊A中有一篇论文引用了期刊B中的一篇论文,则认为期刊A引用了期刊B。
期刊会议关系图的构建方法与上述论文引用关系图的构建方法相同,可参考图3,此处不再赘述。
S402、根据每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算预设期刊会议库中每个期刊会议的得分。
其中,PRV(t+1)表征预设期刊会议库中所有期刊会议的刊会得分所组成的向量,PRV(t)表征预设期刊会议库中所有期刊会议在前一计算时刻所计算出的刊会得分所组成的向量,VT表征矩阵V的转置矩阵,矩阵V中的每个元素值为所述期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PRV(t)对应的全1向量。
上述公式也为一个迭代公式,上即每条第二边的刊会得分都可以通过上一次计算的刊会得分迭代获得。在初始时,PRV(t)中的每个元素都被赋予初始值1,即所有期刊会议的刊会得分都初始化为1,经过不断的迭代,PRV(t)中的元素值不断更新,最终收敛。本实施例中,迭代次数可以根据实际情况进行灵活设置。
矩阵V的构建及更新方式与上述矩阵M相同,可参考矩阵M的描述,此处不再赘述。
S403、确定预设论文库中每篇论文所发表的期刊会议,将每篇论文所发表的期刊会议的得分作为每篇论文的刊会得分。
另一实施例中,上述步骤S401具体包括:
根据公式
Figure GDA0002487992270000111
计算期刊会议关系图中每条第二边的刊会权重。其中,s,t分别表征期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
图6为本发明提供的基于排序集成的论文搜索方法实施例五的流程示意图,如图6所示,上述步骤S203具体包括:
S501、针对预设作者库中的每个作者,在预设论文库中查找该作者所发表的所有论文的引用得分,计算所查找出的该作者所发表的所有论文的引用得分的第一平均值,将该第一平均值作为该作者的得分。
S502、针对预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将该第二平均值作为预设论文库中每篇论文的作者得分。
即,本实施例中,要进行两次平均值计算,首先是根据作者所发表的论文的引用得分,来计算作者的得分。再根据每篇论文中所有作者的得分来综合计算每篇论文的作者得分。经过两次平均计算,使得所计算出来的作者得分更加准确。
图7为本发明提供的基于排序集成的论文搜索装置实施例一的模块结构图,如图7所示,该装置包括:
第一计算模块501,用于分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分。
第二计算模块502,用于根据预设论文库中每篇论文的引用得分以及至少一种评价得分,计算预设论文库中每篇论文的综合得分。
排序模块503,用于根据预设论文库中每篇论文的综合得分对预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
该装置用于实现前述的论文搜索方法,其实现原理和技术效果类似,此处不再赘述。
图8为本发明提供的基于排序集成的论文搜索装置实施例二的模块结构图,如图8所示,第一计算模块501具体包括:
引用得分计算单元5011,用于根据与预设论文库对应的论文引用关系图,计算预设论文库中每篇论文的引用得分,其中,论文引用关系图用于表征预设论文库中的所有论文之间的引用关系。
刊会得分计算单元5012,用于根据与预设期刊会议库对应的期刊会议关系图,计算预设期刊会议库中每个期刊会议的得分,并根据每个期刊会议的得分确定预设论文库中每篇论文的刊会得分,其中,期刊会议关系图用于表征预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系。
作者得分计算单元5013,用于根据预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据每个作者的得分计算预设论文库中每篇论文的作者得分。
另一实施例中,第二计算模块502具体用于:
采用公式
Figure GDA0002487992270000121
计算预设论文库中每篇论文的综合得分;其中,Rc(u)表征预设论文库中每篇论文的引用得分,Rv(u)表征预设论文库中每篇论文的刊会得分,Ra(u)表征预设论文库中每篇论文的作者得分,α表征刊会得分所占的权重,β表征作者得分所占的权重。
另一实施例中,引用得分计算单元5011,具体用于:
计算论文引用关系图中每条第一边的引用权重,其中,论文引用关系图包括多个第一节点和多条第一边,每个第一节点对应一篇论文,两个第一节点之间的第一边表征两个第一节点之间具有引用关系;根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算预设论文库中每篇论文的引用得分,其中,PR(t+1)表征预设论文库中所有论文的引用得分所组成的向量,PR(t)表征预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,矩阵M中的每个元素值为论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PR(t)对应的全1向量
另一实施例中,引用得分计算单元5011,具体还用于:
根据公式
Figure GDA0002487992270000131
计算论文引用关系图中每条第一边的引用权重,其中,u,v分别表征论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子,实际使用中可根据经验选定一个大于0的衰减因子。
另一实施例中,刊会得分计算单元5012具体用于:
计算期刊会议关系图中每条第二边的刊会权重,其中,期刊会议关系图包括多个第二节点和多条所述第二边,每个第二节点分别表征一个期刊会议,两个第二节点之间的第二边表征两个第二节点之间具有引用关系;根据每条第二边的刊会权重,采用公式PRV(t +1)=dVTPRV(t)+(1-d)e计算预设期刊会议库中每个期刊会议的得分,其中,PRV(t+1)表征预设期刊会议库中所有期刊会议的刊会得分所组成的向量,PRV(t)表征预设期刊会议库中所有期刊会议在前一计算时刻所计算出的得分所组成的向量,VT表征矩阵V的转置矩阵,矩阵V中的每个元素值为期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PRV(t)对应的全1向量。
另一实施例中,刊会得分计算单元5012具体还用于:
根据公式
Figure GDA0002487992270000132
计算期刊会议关系图中每条第二边的刊会权重。其中,s,t分别表征期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
另一实施例中,作者得分计算单元5013具体用于:
针对预设作者库中的每个作者,在预设论文库中查找该作者所发表的所有论文的引用得分,计算所查找出的该作者所发表的所有论文的引用得分的第一平均值,将该第一平均值作为该作者的得分;针对预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将该第二平均值作为预设论文库中每篇论文的作者得分。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于排序集成的论文搜索方法,其特征在于,包括:
分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果;
其中,所述至少一种评价得分包括刊会得分和作者得分,相应地,所述分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分包括:
根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分;
其中,所述根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,包括:
计算所述论文引用关系图中每条第一边的引用权重,其中,所述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点对应一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系;
根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算所述预设论文库中每篇论文的引用得分,其中,PR(t+1)表征所述预设论文库中所有论文的引用得分所组成的向量,PR(t)表征所述预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,所述矩阵M中的每个元素值为所述论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量,t为时刻。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分包括:
采用公式
Figure FDA0002487992260000021
计算所述预设论文库中每篇论文的综合得分;其中,Rc(u)表征所述预设论文库中每篇论文的引用得分,Rv(u)表征所述预设论文库中每篇论文的刊会得分,Ra(u)表征所述预设论文库中每篇论文的作者得分,α表征所述刊会得分所占的权重,β表征所述作者得分所占的权重,u为所述预设论文库中每篇论文。
3.根据权利要求1所述的方法,其特征在于,所述计算所述论文引用关系图中每条第一边的引用权重,包括:
根据公式
Figure FDA0002487992260000022
计算所述论文引用关系图中每条第一边的引用权重,其中,u,v分别表征所述论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子,e为自然对数函数的底数。
4.根据权利要求3所述的方法,其特征在于,所述根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,包括:
计算所述期刊会议关系图中每条第二边的刊会权重,其中,所述期刊会议关系图包括多个第二节点和多条所述第二边,每个所述第二节点分别表征一个期刊会议,两个所述第二节点之间的所述第二边表征两个所述第二节点之间具有引用关系;
根据所述每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算所述预设期刊会议库中每个期刊会议的得分,其中,PRV(t+1)表征所述预设期刊会议库中所有期刊会议的得分所组成的向量,PRV(t)表征所述预设期刊会议库中所有期刊会议在前一计算时刻所计算出的得分所组成的向量,VT表征矩阵V的转置矩阵,所述矩阵V中的每个元素值为所述期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量;
确定所述预设论文库中每篇论文所发表的期刊会议,将每篇所述论文所发表的所述期刊会议的得分作为每篇所述论文的刊会得分。
5.根据权利要求4所述的方法,其特征在于,所述计算所述期刊会议关系图中每条第二边的刊会权重,包括:
根据公式
Figure FDA0002487992260000031
计算所述期刊会议关系图中每条第二边的刊会权重,其中,s,t分别表征所述期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
6.根据权利要求1所述的方法,其特征在于,所述根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分,包括:
针对所述预设作者库中的每个作者,在所述预设论文库中查找所述作者所发表的所有论文的引用得分,计算所查找出的所述作者所发表的所有论文的引用得分的第一平均值,将所述第一平均值作为所述作者的得分;
针对所述预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将所述第二平均值作为所述预设论文库中每篇所述论文的作者得分。
7.一种基于排序集成的论文搜索装置,其特征在于,包括:
第一计算模块,用于分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
第二计算模块,用于根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
排序模块,用于根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果;
其中,所述第一计算模块包括:
引用得分计算单元,用于根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
刊会得分计算单元,用于根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
作者得分计算单元,用于根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分;
其中,所述引用得分计算单元,具体用于:
计算所述论文引用关系图中每条第一边的引用权重,其中,所述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点对应一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系;
根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算所述预设论文库中每篇论文的引用得分,其中,PR(t+1)表征所述预设论文库中所有论文的引用得分所组成的向量,PR(t)表征所述预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,所述矩阵M中的每个元素值为所述论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量,t为时刻。
CN201610056586.2A 2016-01-27 2016-01-27 基于排序集成的论文搜索方法及装置 Expired - Fee Related CN105740386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610056586.2A CN105740386B (zh) 2016-01-27 2016-01-27 基于排序集成的论文搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610056586.2A CN105740386B (zh) 2016-01-27 2016-01-27 基于排序集成的论文搜索方法及装置

Publications (2)

Publication Number Publication Date
CN105740386A CN105740386A (zh) 2016-07-06
CN105740386B true CN105740386B (zh) 2020-07-21

Family

ID=56247355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610056586.2A Expired - Fee Related CN105740386B (zh) 2016-01-27 2016-01-27 基于排序集成的论文搜索方法及装置

Country Status (1)

Country Link
CN (1) CN105740386B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250438B (zh) * 2016-07-26 2020-07-14 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106909618A (zh) * 2017-01-13 2017-06-30 广州薏生网络科技有限公司 一种健康类自媒体上的文章传播综合影响力的计算方法
CN108664490A (zh) * 2017-03-28 2018-10-16 北京国双科技有限公司 一种确定典型案例推荐度的方法及服务器
CN107229738B (zh) * 2017-06-18 2020-04-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法
CN107729473B (zh) * 2017-10-13 2021-03-30 东软集团股份有限公司 文章推荐方法及其装置
CN110119412B (zh) * 2019-04-16 2023-01-03 南京昆虫软件有限公司 一种引文来源数据库辨别方法
CN110955749A (zh) * 2019-10-24 2020-04-03 浙江工业大学 一种论文关注度的预测方法
CN111325258B (zh) * 2020-02-14 2023-10-24 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111651463A (zh) * 2020-06-23 2020-09-11 烟台大学 一种基于区块链技术的论文索引方法
CN111651462A (zh) * 2020-06-23 2020-09-11 烟台大学 一种基于区块链技术的论文索引系统
CN112286988B (zh) * 2020-10-23 2023-07-25 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN101887460A (zh) * 2010-07-14 2010-11-17 北京大学 一种文献质量评估方法及应用
CN103440329B (zh) * 2013-09-04 2016-05-18 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN103729432B (zh) * 2013-12-27 2017-01-25 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法
CN104156437A (zh) * 2014-08-13 2014-11-19 中科嘉速(北京)并行软件有限公司 基于论文作者信息提取和关系权值模型的学术关系网构造方法

Also Published As

Publication number Publication date
CN105740386A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740386B (zh) 基于排序集成的论文搜索方法及装置
US7599916B2 (en) System and method for personalized search
JP4950444B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
JP5284278B2 (ja) 検索結果を提供する方法およびこの方法を実行するシステム
US20080114750A1 (en) Retrieval and ranking of items utilizing similarity
US8566303B2 (en) Determining word information entropies
US20130110829A1 (en) Method and Apparatus of Ranking Search Results, and Search Method and Apparatus
CN104573130B (zh) 基于群体计算的实体解析方法及装置
WO2009046649A1 (fr) Procédé et dispositif de tri de textes et procédé et dispositif de reconnaissance de fraude dans des textes
US8375022B2 (en) Keyword determination based on a weight of meaningfulness
CN111325338A (zh) 神经网络结构评价模型构建和神经网络结构搜索方法
CN108717407A (zh) 实体向量确定方法及装置,信息检索方法及装置
CN110019785B (zh) 一种文本分类方法及装置
CN108345601A (zh) 搜索结果排序方法及装置
CN109522275B (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
Taghva et al. Effects of similarity metrics on document clustering
Goyal et al. Lossy conservative update (LCU) sketch: Succinct approximate count storage
CN109344232A (zh) 一种舆情信息检索方法及终端设备
CN112835923A (zh) 一种相关检索方法、装置和设备
CN114416513B (zh) 搜索数据的处理方法、装置、电子设备和存储介质
CN111723286A (zh) 一种数据处理的方法及装置
Guo et al. K-loop free assignment in conference review systems
US20220188322A1 (en) Method and system of database analysis and compression
Arora et al. Investigating retrieval method selection with axiomatic features
US11544332B2 (en) Bipartite graph construction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200721

Termination date: 20220127