CN105740386A - 基于排序集成的论文搜索方法及装置 - Google Patents
基于排序集成的论文搜索方法及装置 Download PDFInfo
- Publication number
- CN105740386A CN105740386A CN201610056586.2A CN201610056586A CN105740386A CN 105740386 A CN105740386 A CN 105740386A CN 201610056586 A CN201610056586 A CN 201610056586A CN 105740386 A CN105740386 A CN 105740386A
- Authority
- CN
- China
- Prior art keywords
- paper
- score
- storehouse
- periodical
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明提供一种基于排序集成的论文搜索方法及装置,该方法包括:分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果。该方法在论文排序时综合考虑了各种因素,从而使得论文排序的准确率得到极大提升。
Description
技术领域
本发明涉及搜索技术,尤其涉及一种基于排序集成的论文搜索方法及装置。
背景技术
学术论文的评价和学术论文的排序,作为论文检索和论文推荐系统的核心部分,一直以来都是研究人员非常关心的问题。因为,准确的学术论文评价和排序意义非常重大,例如,准确的学术论文评价和排序可以辅助量化研究人员的科研影响力,以及学术机构的科研影响力等,以及加快入门学者对于特定科学领域的学习速度。
现有技术中,论文排序通过移植网页排序算法来实现,例如使用佩奇排序算法。该算法根据网页之间的超链接关系分析得到每个网页的佩奇排序值从而对网页进行排序。在将该算法移植到论文排序时,把网页之间的超链接关系替换成论文之间的引用关系后就可以类似地得到每篇论文的佩奇排序值并对其进行排序。
但是,现有技术直接使用网页排序算法对论文进行排序,论文排序的准确率低下。
发明内容
本发明提供一种基于排序集成的论文搜索方法及装置,用于解决现有技术中对论文排序时准确率低下的问题。
本发明第一方面提供一种基于排序集成的论文搜索方法,包括:
分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
另一实施例中,所述至少一种评价得分包括刊会得分和作者得分,相应地,所述分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分包括:
根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
另一实施例中,所述根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分包括:
采用公式计算所述预设论文库中每篇论文的综合得分;其中,Rc(u)表征所述预设论文库中每篇论文的引用得分,Rv(u)表征所述预设论文库中每篇论文的刊会得分,Ra(u)表征所述预设论文库中每篇论文的作者得分,α表征所述刊会得分所占的权重,β表征所述作者得分所占的权重。
另一实施例中,所述根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,包括:
计算所述论文引用关系图中每条第一边的引用权重,其中,所述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点对应一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系;
根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算所述预设论文库中每篇论文的引用得分,其中,PR(t+1)表征所述预设论文库中所有论文的引用得分所组成的向量,PR(t)表征所述预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,所述矩阵M中的每个元素值为所述论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。
另一实施例中,所述计算所述论文引用关系图中每条第一边的引用权重,包括:
根据公式 计算所述论文引用关系图中每条第一边的引用权重,其中,u,v分别表征所述论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子。
另一实施例中,所述根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,包括:
计算所述期刊会议关系图中每条第二边的刊会权重,其中,所述期刊会议关系图包括多个第二节点和多条所述第二边,每个所述第二节点分别表征一个期刊会议,两个所述第二节点之间的所述第二边表征两个所述第二节点之间具有引用关系;
根据所述每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算所述预设期刊会议库中每个期刊会议的得分,其中,PRV(t+1)表征所述预设期刊会议库中所有期刊会议的得分所组成的向量,PRV(t)表征所述预设期刊会议库中所有期刊会议在前一计算时刻所计算出的得分所组成的向量,VT表征矩阵V的转置矩阵,所述矩阵V中的每个元素值为所述期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量;
确定所述预设论文库中每篇论文所发表的期刊会议,将每篇所述论文所发表的所述期刊会议的得分作为每篇所述论文的刊会得分。
另一实施例中,所述计算所述期刊会议关系图中每条第二边的刊会权重,包括:
根据公式计算所述期刊会议关系图中每条第二边的刊会权重,其中,s,t分别表征所述期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
另一实施例中,所述根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分,包括:
针对所述预设作者库中的每个作者,在所述预设论文库中查找所述作者所发表的所有论文的引用得分,计算所查找出的所述作者所发表的所有论文的引用得分的第一平均值,将所述第一平均值作为所述作者的得分;
针对所述预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将所述第二平均值作为所述预设论文库中每篇所述论文的作者得分。
本发明第二方面提供一种基于排序集成的论文搜索装置,包括:
第一计算模块,用于分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
第二计算模块,用于根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
排序模块,用于根据预设论文库中每篇论文的综合得分对预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
另一实施例中,所述引用得分计算模块包括:
所述第一计算模块包括:
引用得分计算单元,用于根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
刊会得分计算单元,用于根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
作者得分计算单元,用于根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
本发明所提供的论文搜索方法,通过对论文的引用关系、期刊会议、作者三种因素进行综合考虑,计算得出包含上述三种因素的综合得分。由于在论文排序时综合考虑了各种因素,从而使得论文排序的准确率得到极大提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一个简单地介绍,显而易见地,下面描述中的附图只是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还完全可以根据这些附图获得其他的附图。
图1为本发明提供的基于排序集成的论文搜索方法实施例一的流程示意图;
图2为本发明提供的基于排序集成的论文搜索方法实施例二的流程示意图;
图3为本发明提供的基于排序集成的论文搜索方法实施例三的流程示意图;
图4为本发明提供的基于排序集成的论文搜索方法实施例三的论文引用关系图的示例;
图5为本发明提供的基于排序集成的论文搜索方法实施例四的流程示意图;
图6为本发明提供的基于排序集成的论文搜索方法实施例五的流程示意图;
图7为本发明提供的基于排序集成的论文搜索装置实施例一的模块结构图;
图8为本发明提供的基于排序集成的论文搜索装置实施例二的模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
论文排序与网页排序相比,其排序除了与论文之间的引用关系相关,还同其他因素密切相关,例如论文所发表的期刊会议、论文的作者,如果该论文所发表的期刊会议或作者比较权威,那么该论文相应的排序也应该比较靠前。即,论文涉及到作者、期刊会议、引用等多种不同实体和彼此之间的不同关系,这些实体与关系本质上构成一张异构图。基于对论文排序的上述分析,本发明在论文排序时综合考虑各种实体及其之间的关系。本发明的核心思想是:先在各个相同实体的同构关系图上评估各个实体的重要性,之后再将引用、作者、期刊会议的重要性相结合从而得到论文的重要程度并对其进行排序。同时,考虑到上述异构图中的实体具有动态性,即实体的重要性会随时间变化,本发明还提供了论文之间引用关系影响力随时间衰减的计算方法。
图1为本发明提供的基于排序集成的论文搜索方法实施例一的流程示意图,如图1所示,该方法包括:
S101、分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分。
若前所述,论文涉及到作者、期刊会议、引用等多种不同实体和彼此之间的不同关系,因此,在计算论文得分时,除了考虑引用得分,还需要计算论文的其他评价得分,例如作者、期刊会议等评价得分。
S102、根据预设论文库中每篇论文的引用得分以及至少一种评价得分,计算预设论文库中每篇论文的综合得分。
S103、根据预设论文库中每篇论文的综合得分对预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
本实施例中,在论文排序时综合考虑了多种因素,从而使得论文排序的准确率得到极大提升。
图2为本发明提供的基于排序集成的论文搜索方法实施例二的流程示意图,如图2所示,上述步骤S101包括:
S201、根据与预设论文库对应的论文引用关系图,计算该预设论文库中每篇论文的引用得分。
该论文引用关系图用于表征预设论文库中的所有论文之间的引用关系。
预设论文库是将现有各种论文库中的论文集中起来形成的论文数量足够多的论文库。需要说明的是,该预设论文库并不限定为一个物理的论文库,也可以是一个逻辑的论文库,只要可以获取到现有各种论文库中的论文即可,本发明对此不做限制。
论文引用关系图是与预设论文库对应的图,即针对论文引用关系的同构关系图,该论文引用关系图为一张网状图,用于表征预设论文库中所有论文之间的引用关系。
论文的引用得分表征了论文被引用的程度。
S202、根据与预设期刊会议库对应的期刊会议关系图,计算预设期刊会议库中每个期刊会议的得分,并根据每个期刊会议的得分确定预设论文库中每篇论文的刊会得分。
该期刊会议关系图用于表征预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系。
预设期刊会议库是现有的各种会议期刊所形成的一个集合。期刊会议关系图是与预设期刊会议库相对应的图,即针对期刊会议的同构关系图,该期刊会议关系图为一张网状图,用于表征预设期刊会议库中所有期刊会议所发表的论文之间的引用关系。
S203、根据预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
预设作者库是将现有的尽可能多的作者信息收集起来所形成的作者集合。
另一实施例中,上述步骤S102具体为:
采用公式计算预设论文库中每篇论文的综合得分。
其中,Rc(u)表征预设论文库中每篇论文的引用得分,Rv(u)表征预设论文库中每篇论文的刊会得分,Ra(u)表征预设论文库中每篇论文的作者得分,α表征刊会得分所占的权重,β表征作者得分所占的权重。
本实施例中,在确定出论文的引用得分、论文所发表的期刊会议的刊会得分以及论文的作者得分的基础上,使用上述公式计算该论文的综合得分。在上述公式中,对于刊会得分和作者得分赋予了对应的权重α和β,这两个权重值为根据经验获得的预设值,可在实际使用时进行更新。计算出论文的综合得分之后,就可以按照得分高低完成论文的排序。
本实施例中,首先基于论文引用关系和期刊会议这两种同构图计算出论文的引用得分以及刊会得分,再根据论文的引用得分及计算出论文的作者得分,再将论文的引用得分、刊会得分以及作者得分进行综合计算,从而得到论文的综合得分。由于在论文排序时综合考虑了各种因素,从而使得论文排序的准确率得到极大提升。
图3为本发明提供的基于排序集成的论文搜索方法实施例三的流程示意图,如图3所示,上述步骤S201具体包括:
S301、计算上述论文引用关系图中每条第一边的引用权重。
其中,上述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点分别表征一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系。
图4为本发明提供的基于排序集成的论文搜索方法实施例三的论文引用关系图的示例,如图4所示,该论文引用关系图中包括了3个第一节点:论文A、论文B以及论文C,以及多个第一边。其中,论文A和论文B之间指向论文B的第一边表示论文A引用了论文B,论文A和论文C之间指向论文C的第一边表示论文A引用了论文C,论文B和论文C之间指向论文C的第一边表示论文B引用了论文C。
S302、根据每条第一边的引用权重,采用公式PR(t+1)=dMTPR(t)+(1-d)e计算上述预设论文库中每篇论文的引用得分。
其中,PR(t+1)表征预设论文库中所有论文的引用得分所组成的向量,PR(t)表征预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,矩阵M中的每个元素值为论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PR(t)对应的全1向量。
上述公式是一个迭代公式,即每条第一边的引用得分都可以通过上一次计算的引用得分迭代获得。在初始时,PR(t)中的每个元素都被赋予初始值1,即所有论文的引用得分都初始化为1,经过不断的迭代,PR(t)中的元素值不断更新,最终收敛。本实施例中,迭代次数可以根据实际情况进行灵活设置。
假设预设论文库中有N篇论文,则矩阵M为一个N*N的邻接矩阵,该矩阵中的元素值m[u][v]表示了论文引用关系图中第u个第一节点到第v个第一节点之间的第一边的引用权重,如果第u个第一节点到第v个第一节点之间的第一边不存在引用权重,则m[u][v]值为0。进而,对矩阵M进行归一化使得矩阵中每行的和为1,再转置得到MT,再代入上述公式中来计算论文的新的引用得分。通过上述方式,将引用权重作为论文的引用得分的重要参数,而现有技术中计算论文引用得分时,并不会考虑引用权重。因此,通过上述方式能够更准确的反应论文的引用情况。
另一实施例中,上述步骤S301具体包括:
根据公式 计算论文引用关系图中每条第一边的引用权重。其中,u,v分别表征论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子,实际使用中可根据经验选定一个大于0的衰减因子。
具体地,上述公式根据论文被引用的峰值对应的年份来确定引用权重。如果u对应的论文发表的年份小于v对应的论文的引用峰值对应的年份,则u和v之间的第一边的引用权重为常数1。如果u对应的论文发表的年份大于等于v对应的论文的引用峰值对应的年份,则u和v之间的第一边的引用权重随时间呈衰减状态。
进行上述处理的原因是:论文在引用峰值前认为它的影响保持在最高水平,因此是一个常数,因为在此期间其引文的增量主要是由于越来越多的人知道这篇论文引起的。而论文达到引用峰值之后,其影响也逐渐变小,因此随时间进行衰减。因此,通过上述处理实现了正确地反映论文引用得分随时间变化的动态性,进一步保证了论文引用得分的准确性。
另外,在确定峰值年份时,本实施例采用如下方法:对于每篇论文,统计其每年被引用数量,以三年为单位分别计算每三年的引用数量之和,将引用数量之和最大的三年中的中间一年作为论文引用峰值年份。以此来避免由于异常点的出现对峰值年份的影响。
图5为本发明提供的基于排序集成的论文搜索方法实施例四的流程示意图,如图5所示,上述步骤S202具体包括:
S401、计算期刊会议关系图中每条第二边的刊会权重。
其中,期刊会议关系图包括多个第二节点和多条第二边,每个第二节点分别表征一个期刊会议,两个第二节点之间的第二边表征两个第二节点之间具有引用关系。
需要说明的是,期刊会议之间的引用关系由期刊会议中所发表的论文之间的引用关系来确定,例如期刊A中有一篇论文引用了期刊B中的一篇论文,则认为期刊A引用了期刊B。
期刊会议关系图的构建方法与上述论文引用关系图的构建方法相同,可参考图3,此处不再赘述。
S402、根据每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算预设期刊会议库中每个期刊会议的得分。
其中,PRV(t+1)表征预设期刊会议库中所有期刊会议的刊会得分所组成的向量,PRV(t)表征预设期刊会议库中所有期刊会议在前一计算时刻所计算出的刊会得分所组成的向量,VT表征矩阵V的转置矩阵,矩阵V中的每个元素值为所述期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PRV(t)对应的全1向量。
上述公式也为一个迭代公式,上即每条第二边的刊会得分都可以通过上一次计算的刊会得分迭代获得。在初始时,PRV(t)中的每个元素都被赋予初始值1,即所有期刊会议的刊会得分都初始化为1,经过不断的迭代,PRV(t)中的元素值不断更新,最终收敛。本实施例中,迭代次数可以根据实际情况进行灵活设置。
矩阵V的构建及更新方式与上述矩阵M相同,可参考矩阵M的描述,此处不再赘述。
S403、确定预设论文库中每篇论文所发表的期刊会议,将每篇论文所发表的期刊会议的得分作为每篇论文的刊会得分。
另一实施例中,上述步骤S401具体包括:
根据公式计算期刊会议关系图中每条第二边的刊会权重。其中,s,t分别表征期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
图6为本发明提供的基于排序集成的论文搜索方法实施例五的流程示意图,如图6所示,上述步骤S203具体包括:
S501、针对预设作者库中的每个作者,在预设论文库中查找该作者所发表的所有论文的引用得分,计算所查找出的该作者所发表的所有论文的引用得分的第一平均值,将该第一平均值作为该作者的得分。
S502、针对预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将该第二平均值作为预设论文库中每篇论文的作者得分。
即,本实施例中,要进行两次平均值计算,首先是根据作者所发表的论文的引用得分,来计算作者的得分。再根据每篇论文中所有作者的得分来综合计算每篇论文的作者得分。经过两次平均计算,使得所计算出来的作者得分更加准确。
图7为本发明提供的基于排序集成的论文搜索装置实施例一的模块结构图,如图7所示,该装置包括:
第一计算模块501,用于分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分。
第二计算模块502,用于根据预设论文库中每篇论文的引用得分以及至少一种评价得分,计算预设论文库中每篇论文的综合得分。
排序模块503,用于根据预设论文库中每篇论文的综合得分对预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
该装置用于实现前述的论文搜索方法,其实现原理和技术效果类似,此处不再赘述。
图8为本发明提供的基于排序集成的论文搜索装置实施例二的模块结构图,如图8所示,第一计算模块501具体包括:
引用得分计算单元5011,用于根据与预设论文库对应的论文引用关系图,计算预设论文库中每篇论文的引用得分,其中,论文引用关系图用于表征预设论文库中的所有论文之间的引用关系。
刊会得分计算单元5012,用于根据与预设期刊会议库对应的期刊会议关系图,计算预设期刊会议库中每个期刊会议的得分,并根据每个期刊会议的得分确定预设论文库中每篇论文的刊会得分,其中,期刊会议关系图用于表征预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系。
作者得分计算单元5013,用于根据预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据每个作者的得分计算预设论文库中每篇论文的作者得分。
另一实施例中,第二计算模块502具体用于:
采用公式计算预设论文库中每篇论文的综合得分;其中,Rc(u)表征预设论文库中每篇论文的引用得分,Rv(u)表征预设论文库中每篇论文的刊会得分,Ra(u)表征预设论文库中每篇论文的作者得分,α表征刊会得分所占的权重,β表征作者得分所占的权重。
另一实施例中,引用得分计算单元5011,具体用于:
计算论文引用关系图中每条第一边的引用权重,其中,论文引用关系图包括多个第一节点和多条第一边,每个第一节点对应一篇论文,两个第一节点之间的第一边表征两个第一节点之间具有引用关系;根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算预设论文库中每篇论文的引用得分,其中,PR(t+1)表征预设论文库中所有论文的引用得分所组成的向量,PR(t)表征预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,矩阵M中的每个元素值为论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PR(t)对应的全1向量
另一实施例中,引用得分计算单元5011,具体还用于:
根据公式 计算论文引用关系图中每条第一边的引用权重,其中,u,v分别表征论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子,实际使用中可根据经验选定一个大于0的衰减因子。
另一实施例中,刊会得分计算单元5012具体用于:
计算期刊会议关系图中每条第二边的刊会权重,其中,期刊会议关系图包括多个第二节点和多条所述第二边,每个第二节点分别表征一个期刊会议,两个第二节点之间的第二边表征两个第二节点之间具有引用关系;根据每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算预设期刊会议库中每个期刊会议的得分,其中,PRV(t+1)表征预设期刊会议库中所有期刊会议的刊会得分所组成的向量,PRV(t)表征预设期刊会议库中所有期刊会议在前一计算时刻所计算出的得分所组成的向量,VT表征矩阵V的转置矩阵,矩阵V中的每个元素值为期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量。具体地,d取值在0和1之间,实际使用中常取0.85,e是与PRV(t)对应的全1向量。
另一实施例中,刊会得分计算单元5012具体还用于:
根据公式计算期刊会议关系图中每条第二边的刊会权重。其中,s,t分别表征期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
另一实施例中,作者得分计算单元5013具体用于:
针对预设作者库中的每个作者,在预设论文库中查找该作者所发表的所有论文的引用得分,计算所查找出的该作者所发表的所有论文的引用得分的第一平均值,将该第一平均值作为该作者的得分;针对预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将该第二平均值作为预设论文库中每篇论文的作者得分。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于排序集成的论文搜索方法,其特征在于,包括:
分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述至少一种评价得分包括刊会得分和作者得分,相应地,所述分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分包括:
根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分包括:
采用公式计算所述预设论文库中每篇论文的综合得分;其中,Rc(u)表征所述预设论文库中每篇论文的引用得分,Rv(u)表征所述预设论文库中每篇论文的刊会得分,Ra(u)表征所述预设论文库中每篇论文的作者得分,α表征所述刊会得分所占的权重,β表征所述作者得分所占的权重。
4.根据权利要求2所述的方法,其特征在于,所述根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,包括:
计算所述论文引用关系图中每条第一边的引用权重,其中,所述论文引用关系图包括多个第一节点和多条所述第一边,每个所述第一节点对应一篇论文,两个所述第一节点之间的所述第一边表征两个所述第一节点之间具有引用关系;
根据每条第一边的引用权重和公式PR(t+1)=dMTPR(t)+(1-d)e,计算所述预设论文库中每篇论文的引用得分,其中,PR(t+1)表征所述预设论文库中所有论文的引用得分所组成的向量,PR(t)表征所述预设论文库中所有论文在前一计算时刻所计算出的引用得分所组成的向量,MT表征矩阵M的转置矩阵,所述矩阵M中的每个元素值为所述论文引用关系图中每条第一边的引用权重,d为逃脱因子,e为元素值全为1的向量。
5.根据权利要求4所述的方法,其特征在于,所述计算所述论文引用关系图中每条第一边的引用权重,包括:
根据公式 计算所述论文引用关系图中每条第一边的引用权重,其中,u,v分别表征所述论文引用关系图中的两个第一节点,Tu表征u所对应的论文发表的年份,Peakv表征v所对应的论文的引用峰值对应的年份,t为时间衰减因子。
6.根据权利要求2所述的方法,其特征在于,所述根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,包括:
计算所述期刊会议关系图中每条第二边的刊会权重,其中,所述期刊会议关系图包括多个第二节点和多条所述第二边,每个所述第二节点分别表征一个期刊会议,两个所述第二节点之间的所述第二边表征两个所述第二节点之间具有引用关系;
根据所述每条第二边的刊会权重,采用公式PRV(t+1)=dVTPRV(t)+(1-d)e计算所述预设期刊会议库中每个期刊会议的得分,其中,PRV(t+1)表征所述预设期刊会议库中所有期刊会议的得分所组成的向量,PRV(t)表征所述预设期刊会议库中所有期刊会议在前一计算时刻所计算出的得分所组成的向量,VT表征矩阵V的转置矩阵,所述矩阵V中的每个元素值为所述期刊会议关系图中每条第二边的刊会权重,d为逃脱因子,e为元素值全为1的向量;
确定所述预设论文库中每篇论文所发表的期刊会议,将每篇所述论文所发表的所述期刊会议的得分作为每篇所述论文的刊会得分。
7.根据权利要求6所述的方法,其特征在于,所述计算所述期刊会议关系图中每条第二边的刊会权重,包括:
根据公式计算所述期刊会议关系图中每条第二边的刊会权重,其中,s,t分别表征所述期刊会议关系图中的两个第二节点,C(s)表征发表在s对应的期刊会议上的论文集合,C(t)表征发表在t对应的期刊会议上的论文集合,w(u,v)表征所述论文引用关系图中每条第一边的引用权重。
8.根据权利要求2所述的方法,其特征在于,所述根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分,包括:
针对所述预设作者库中的每个作者,在所述预设论文库中查找所述作者所发表的所有论文的引用得分,计算所查找出的所述作者所发表的所有论文的引用得分的第一平均值,将所述第一平均值作为所述作者的得分;
针对所述预设论文库中的每篇论文,确定每篇论文对应的所有作者,计算论文对应的所有作者的得分的第二平均值,将所述第二平均值作为所述预设论文库中每篇所述论文的作者得分。
9.一种基于排序集成的论文搜索装置,其特征在于,包括:
第一计算模块,用于分别计算预设论文库中每篇论文的引用得分以及至少一种评价得分;
第二计算模块,用于根据所述预设论文库中每篇论文的引用得分以及至少一种评价得分,计算所述预设论文库中每篇论文的综合得分;
排序模块,用于根据所述预设论文库中每篇论文的所述综合得分对所述预设论文库中的论文进行排序,将排序后的论文作为搜索结果。
10.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
引用得分计算单元,用于根据与所述预设论文库对应的论文引用关系图,计算所述预设论文库中每篇论文的引用得分,其中,所述论文引用关系图用于表征所述预设论文库中的所有论文之间的引用关系;
刊会得分计算单元,用于根据与预设期刊会议库对应的期刊会议关系图,计算所述预设期刊会议库中每个期刊会议的得分,并根据所述每个期刊会议的得分确定所述预设论文库中每篇论文的刊会得分,其中,所述期刊会议关系图用于表征所述预设期刊会议库中的所有期刊会议所发表的论文之间的引用关系;
作者得分计算单元,用于根据所述预设论文库中每篇论文的引用得分,计算预设作者库中每个作者的得分,并根据所述每个作者的得分计算所述预设论文库中每篇论文的作者得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610056586.2A CN105740386B (zh) | 2016-01-27 | 2016-01-27 | 基于排序集成的论文搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610056586.2A CN105740386B (zh) | 2016-01-27 | 2016-01-27 | 基于排序集成的论文搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740386A true CN105740386A (zh) | 2016-07-06 |
CN105740386B CN105740386B (zh) | 2020-07-21 |
Family
ID=56247355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610056586.2A Expired - Fee Related CN105740386B (zh) | 2016-01-27 | 2016-01-27 | 基于排序集成的论文搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740386B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250438A (zh) * | 2016-07-26 | 2016-12-21 | 上海交通大学 | 基于随机游走模型的零引用文章推荐方法及系统 |
CN106909618A (zh) * | 2017-01-13 | 2017-06-30 | 广州薏生网络科技有限公司 | 一种健康类自媒体上的文章传播综合影响力的计算方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107729473A (zh) * | 2017-10-13 | 2018-02-23 | 东软集团股份有限公司 | 文章推荐方法及其装置 |
CN108664490A (zh) * | 2017-03-28 | 2018-10-16 | 北京国双科技有限公司 | 一种确定典型案例推荐度的方法及服务器 |
CN110119412A (zh) * | 2019-04-16 | 2019-08-13 | 南京昆虫软件有限公司 | 一种引文来源数据库辨别方法 |
CN110955749A (zh) * | 2019-10-24 | 2020-04-03 | 浙江工业大学 | 一种论文关注度的预测方法 |
CN111325258A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
CN111651462A (zh) * | 2020-06-23 | 2020-09-11 | 烟台大学 | 一种基于区块链技术的论文索引系统 |
CN111651463A (zh) * | 2020-06-23 | 2020-09-11 | 烟台大学 | 一种基于区块链技术的论文索引方法 |
WO2021179687A1 (zh) * | 2020-10-23 | 2021-09-16 | 平安科技(深圳)有限公司 | 医疗文献排序方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN103729432A (zh) * | 2013-12-27 | 2014-04-16 | 河海大学 | 一种引文数据库中主题文献学术影响力的分析与排序方法 |
CN104156437A (zh) * | 2014-08-13 | 2014-11-19 | 中科嘉速(北京)并行软件有限公司 | 基于论文作者信息提取和关系权值模型的学术关系网构造方法 |
-
2016
- 2016-01-27 CN CN201610056586.2A patent/CN105740386B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN103729432A (zh) * | 2013-12-27 | 2014-04-16 | 河海大学 | 一种引文数据库中主题文献学术影响力的分析与排序方法 |
CN104156437A (zh) * | 2014-08-13 | 2014-11-19 | 中科嘉速(北京)并行软件有限公司 | 基于论文作者信息提取和关系权值模型的学术关系网构造方法 |
Non-Patent Citations (3)
Title |
---|
IRFAN AHMED 等: "《Fast File-type Identification 》", 《ACM DIGITAL LIBRARY》 * |
尹盼盼等: "《基于引文相关性排序的科技论文检索方法》", 《计算机工程与设计》 * |
沙莎等: "《基于作者关联和概念网的科技论文搜索方法研究》", 《计算机工程》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250438A (zh) * | 2016-07-26 | 2016-12-21 | 上海交通大学 | 基于随机游走模型的零引用文章推荐方法及系统 |
CN106250438B (zh) * | 2016-07-26 | 2020-07-14 | 上海交通大学 | 基于随机游走模型的零引用文章推荐方法及系统 |
CN106909618A (zh) * | 2017-01-13 | 2017-06-30 | 广州薏生网络科技有限公司 | 一种健康类自媒体上的文章传播综合影响力的计算方法 |
CN108664490A (zh) * | 2017-03-28 | 2018-10-16 | 北京国双科技有限公司 | 一种确定典型案例推荐度的方法及服务器 |
CN107229738B (zh) * | 2017-06-18 | 2020-04-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107729473A (zh) * | 2017-10-13 | 2018-02-23 | 东软集团股份有限公司 | 文章推荐方法及其装置 |
CN107729473B (zh) * | 2017-10-13 | 2021-03-30 | 东软集团股份有限公司 | 文章推荐方法及其装置 |
CN110119412A (zh) * | 2019-04-16 | 2019-08-13 | 南京昆虫软件有限公司 | 一种引文来源数据库辨别方法 |
CN110955749A (zh) * | 2019-10-24 | 2020-04-03 | 浙江工业大学 | 一种论文关注度的预测方法 |
CN111325258A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
CN111325258B (zh) * | 2020-02-14 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 特征信息获取方法、装置、设备及存储介质 |
CN111651462A (zh) * | 2020-06-23 | 2020-09-11 | 烟台大学 | 一种基于区块链技术的论文索引系统 |
CN111651463A (zh) * | 2020-06-23 | 2020-09-11 | 烟台大学 | 一种基于区块链技术的论文索引方法 |
WO2021179687A1 (zh) * | 2020-10-23 | 2021-09-16 | 平安科技(深圳)有限公司 | 医疗文献排序方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105740386B (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740386A (zh) | 基于排序集成的论文搜索方法及装置 | |
Duan | Global optimization for watershed model calibration | |
CN103729351B (zh) | 查询词推荐方法及装置 | |
US11205129B2 (en) | GBDT model feature interpretation method and apparatus | |
US20060242135A1 (en) | System and method for personalized search | |
Zou et al. | Finding top-k maximal cliques in an uncertain graph | |
US20090187555A1 (en) | Feature selection for ranking | |
US8903824B2 (en) | Vertex-proximity query processing | |
US20120317040A1 (en) | Patent Value Prediction | |
US20120123980A1 (en) | Optimization technique using evolutionary algorithms | |
CN104281664B (zh) | 分布式图计算系统数据切分方法和系统 | |
Chatterjee et al. | Single document extractive text summarization using genetic algorithms | |
CN106598949B (zh) | 一种词语对文本贡献度的确定方法及装置 | |
CN111325338A (zh) | 神经网络结构评价模型构建和神经网络结构搜索方法 | |
CN110851664A (zh) | 一种面向主题的社交网络节点重要度评估方法 | |
CN109829065A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
Mouhib et al. | TSMAA‐TRI: A temporal multi‐criteria sorting approach under uncertainty | |
Lim et al. | Lazy and eager approaches for the set cover problem | |
Fender et al. | Parallel jaccard and related graph clustering techniques | |
Beizer | Analytical techniques for the statistical evaluation of program running time | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
Falciani et al. | Semi-Lipschitz functions and machine learning for discrete dynamical systems on graphs | |
Akume et al. | Cluster algorithms: theory and methods | |
Ge et al. | Dependency between degree of fit and input noise in fuzzy linear regression using non-symmetric fuzzy triangular coefficients | |
CN101556604B (zh) | 一种面向复杂数据仓库环境的优化策略自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200721 Termination date: 20220127 |