CN113868407A - 基于科研大数据的评审推荐算法的评估方法及装置 - Google Patents

基于科研大数据的评审推荐算法的评估方法及装置 Download PDF

Info

Publication number
CN113868407A
CN113868407A CN202110943387.4A CN202110943387A CN113868407A CN 113868407 A CN113868407 A CN 113868407A CN 202110943387 A CN202110943387 A CN 202110943387A CN 113868407 A CN113868407 A CN 113868407A
Authority
CN
China
Prior art keywords
document
expert
review
graph
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110943387.4A
Other languages
English (en)
Other versions
CN113868407B (zh
Inventor
盛振婷
张鹏
仇瑜
邵洲
唐杰
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co Ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co Ltd filed Critical Beijing Zhipu Huazhang Technology Co Ltd
Priority to CN202110943387.4A priority Critical patent/CN113868407B/zh
Priority claimed from CN202110943387.4A external-priority patent/CN113868407B/zh
Publication of CN113868407A publication Critical patent/CN113868407A/zh
Application granted granted Critical
Publication of CN113868407B publication Critical patent/CN113868407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种基于科研大数据的评审推荐算法的评估方法和装置,其中,方法包括:根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。

Description

基于科研大数据的评审推荐算法的评估方法及装置
技术领域
本发明涉及大数据算法技术领域,特别涉及一种基于科研大数据的评审推荐算法的评估方法及装置。
背景技术
评审推荐算法的优劣决定了论文的专家推荐结果质量。如何客观地比较不同评审推荐算法的效果一直以来是一个难题。已有的基于用户行为信息的评价方法需要将算法投入真实场景中,收集用户的行为信息。这种方法需要耗费大量成本,又由于用户群体差异性会导致评价结果不公平。
选择合适的评审专家决定了对论文质量的评估是否准确,而论文质量又决定了期刊和会议的影响力和权威度。因此在对论文进行评审时,选择研究领域相关的专家变得尤为重要。目前随着学科专业化程度的提高和学术论文发表量的逐年上涨,人工选择评审专家难以满足效率和准确率的要求,很多期刊和会议采用论文评审专家推荐算法,快速推荐出与论文相关的专家。各种论文评审专家推荐算法的效果存在差异,选择一个优秀的推荐算法会使选择评审专家的工作事半功倍。
目前,对推荐算法在评审专家推荐场景中的效果评价的研究较少。通用的评价推荐算法的方法分为两种,一种是在线的基于用户行为信息的评价,例如用点击率、转化率等评价指标评价算法效果,另一种是线下的使用人工标注的数据集训练模型,使用不交叉的数据集作为测试集,用精确率、召回率、F1分数等评价算法效果。
这两种方法在电子商务、搜索引擎等应用场景中能够对推荐算法的不同方面作出有效的评价。但是针对评审专家推荐应用场景的特殊性没有进行考虑。在第一种方法中,需要将推荐算法投入到真实的使用场景中,邀请很多人使用推荐系统,而在评审专家推荐的场景中,邀请的用户需要在某个领域中具有一定的知识水平,才能够对推荐结果作出合理的评价。由于对用户群体有一定的要求,能够邀请到的用户存在数量少,成本高的缺点,所以难以收集到大量的用户行为数据集,而且用户行为受群体偏差影响大。在第二种方法中,一种比较理想的方案是使用历史论文的真实评审专家数据集训练模型,测试算法效果,但在一些需要保密的场景中,获取论文的评审专家数据变得尤为困难。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于科研大数据的评审推荐算法的评估方法,根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
本发明的第二个目的在于提出种基于科研大数据的评审推荐算法的评估装置。
为达上述目的,本发明第一方面实施例提出了一种基于科研大数据的评审推荐算法的评估方法,包括:
根据论文p和参考文献之间的引用关系生成文献溯源图;
基于所述文献溯源图,计算所述文献溯源图中文献与所述论文p的语义相似度,以构建所述论文p的语义相似文献图G;
获取所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家集E,对所述专家集E中的专家命名消歧后以构建评审专家集合C;
计算所述评审专家集合C的加权得分,并将所述得分进行排序得到满足预设条件的专家;
将评审推荐算法f的推荐结果f(p)与所述评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据所述随排名指数衰减的准确率和召回率得分。
另外,根据本发明上述实施例的基于科研大数据的评审推荐算法的评估方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据论文p和参考文献之间的引用关系生成文献溯源图,包括:
将所述论文p与参考文献集合R中的每个文献r连接一条有向边,每个r再与所述每个r的参考文献相连,以扩展成四层文献溯源图;其中,所述有向边的方向为p指向r。
进一步地,在本发明的一个实施例中,所述基于所述文献溯源图,计算所述文献溯源图中文献与所述论文p的语义相似度,以构建所述论文p的语义相似文献图G,包括:
以宽度优先搜索的顺序从源节点p开始,
计算所述文献溯源图中文献与所述论文p的语义相似度;
判断所述语义相似度是否小于预设阈值L;
若是,则将所述小于预设阈值L的参考文献节点删除;
搜索完毕后,所有与所述源节点p相连通的文献节点构成所述论文p的语义相似文献图G。
进一步地,在本发明的一个实施例中,所述获取所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家集E,对所述专家集E中的专家命名消歧后以构建评审专家集合C,包括:
在所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家实体,其中,不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧,得到所述评审专家集合C。
进一步地,在本发明的一个实施例中,所述计算所述评审专家集合C的加权得分,并将所述得分进行排序得到满足预设条件的专家,包括:
在所述语义相似文献图G中,根据专家在所属的文献节点距离p的路径长度和在所述参考文献中的位次加权得分,按照所述专家得分从高到低进行排序,得到所述满足预设条件的专家。
进一步地,在本发明的一个实施例中,所述计算随排名指数衰减的准确率和召回率,包括:
其中,所述推荐结果f(p)中专家数量为300,
计算公式如下:
Figure RE-GDA0003363928110000031
Figure RE-GDA0003363928110000041
其中,precision表示推荐结果随排名指数衰减的准确率,recall表示推荐结果随排名指数衰减的召回率得分,n为ground truth的数量,ranki表示第i 个专家在c中的实际排名;N(ranki)表示第i个专家随排名指数衰减的得分,其计算方式如下:
N(r)=N1*e-α(r-1)
其中,r表示专家在c中的实际排名,N1表示N在排名为1时的初始数值,数值为1;α为衰减系数,数值为0.069,当r大于300时,N(r)趋近于0。
进一步地,在本发明的一个实施例中,对每个专家,得分计算方式如下:
Figure RE-GDA0003363928110000042
其中,Scoreexpert表示专家的得分,n表示专家在G中有n个相关文献节点,
Figure RE-GDA0003363928110000043
表示第i篇论文的得分,pi表示专家在第i篇论文中的权重。
进一步地,在本发明的一个实施例中,所述进行命名消歧,步骤如下:
遍历所述专家集E,对专家e,
a)首先在所述专家集中检索得到同名专家集D;
b)再从文本相似度和作者相似度两方面计算所述专家e与同名专家d的相似度,公式如下:
Similarity=0.7*Similaritytext+0.3*Similarityauthor
其中,Similaritytext为文本相似度,Similarityauthor为作者相似度;
c)当Similarity大于等于0.5时,专家被判定为相似专家,所述同名专家d的信息合并到所述专家e,并得到所述论文p的评审专家集合C。
本发明实施例的基于科研大数据的评审推荐算法的评估方法,根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
为达上述目的,本发明第二方面实施例提出了一种基于科研大数据的评审推荐算法的评估装置,包括:
生成文献溯源图模块,用于根据论文p和参考文献之间的引用关系生成文献溯源图;
构建语义相似文献图模块,用于基于所述文献溯源图,计算所述文献溯源图中文献与所述论文p的语义相似度,以构建所述论文p的语义相似文献图G;
构建评审专家集合模块,用于获取所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家集E,对所述专家集E中的专家命名消歧后构建评审专家集合C;
计算加权得分模块,用于计算所述评审专家集合C的加权得分,并将所述得分进行排序得到满足预设条件的专家;
计算衰减指数模块,用于将评审推荐算法f的推荐结果f(p)与所述评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据所述随排名指数衰减的准确率和召回率得分。
本发明实施例的基于科研大数据的评审推荐算法的评估装置,根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
本发明的有益效果为:
(1)基于论文的语义相似文献图中的作者信息构建评审专家集。将评审推荐算法的结果与评审专家集对比,计算出基于排名衰减的准确率和召回率,比较不同评审推荐算法的客观效果;
(2)本发明很好的考虑了评审专家推荐场景的特殊性,利用论文和参考文献在研究领域上的相关性,构建出合理的评审专家数据集。评价过程不需要人工参与,消除了用户主观性和用户群体的偏差影响,能够客观地比较不同推荐算法的效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估方法整体流程图;
图2为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估方法流程图;
图3为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于科研大数据的评审推荐算法的评估方法和装置。
本发明以科研大数据为基础,先做如下的形式化的定义:有论文p,该论文的参考文献的有序集合为R,其中参考文献按照顺序依次为r1,…,ri,…;p的其他信息用集合O来表示,O={title,abstract,keywords,authors…},其中,title表示p的标题,abstract表示p的摘要,keywords表示p的关键词,authors表示p的作者信息…有评审推荐算法为f,f对p的推荐结果为f(p)。
为了客观地评价算法f,需要建立p的评审专家集C。本发明设计了一种基于论文引用关系的评审专家集构建方法,基本思想是通过追溯论文的引用关系构建论文的单源有向无环文献溯源图,按照宽度优先搜索的顺序从源节点开始计算论文与文献的语义相似度,去除相似度低的文献节点和其相连的边,再去除入度为零的文献节点,保留包含论文节点的文献连通图。保留下的文献节点的作者构成论文的评审专家集,其中专家按照在文献连通图中与论文节点的距离和在文献中的位次加权得分排名。将算法f推荐结果f(p)与评审专家集C对比,计算出按照排名衰减的准确率和召回率得分,作为算法的评价结果。整体流程如图1所示。
图2为本发明实施例所提供的一种基于科研大数据的评审推荐算法的评估方法流程图。
如图2所示,该基于科研大数据的评审推荐算法的评估方法包括:
步骤S1,根据论文p和参考文献之间的引用关系生成文献溯源图。
具体的,将p与参考文献集合R中的每个文献r连接一条有向边,方向为p指向r,扩展成一层文献溯源图;每个r再与其参考文献相连,扩展成二层文献溯源图,以次类推扩展四层文献溯源图。
可以理解的是,文献溯源图由论文和参考文献之间的引用关系生成。初始时,将论文p加入图中,作为文献溯源图的源点,用有向边连接p的参考文献r,方向为p指向r,扩展出一层文献节点;再以每篇参考文献r开始,用有向边连接其参考文献,扩展出2层文献节点;以此类推扩展四层文献节点。其中每个文献节点为唯一的论文实体,在文献节点的扩展过程中,若某一文献节点已在图中存在,则不再重复加入,有向边指向已存在的节点。
步骤S2,基于文献溯源图,计算文献溯源图中文献与论文p的语义相似度,以构建论文p的语义相似文献图G。
具体的,在文献溯源图中,以宽度优先搜索的顺序从源节点p开始,计算文献与论文的语义相似度,若相似度小于阈值L,则删除此文献节点。搜索完毕后,所有与p相连通的文献节点构成p的语义相似文献图G。
可以理解的是,在文献溯源图中,以宽度优先搜索的顺序从源点p开始,使用基于Bidirectional Encoder Representations from Transformers(Bert)模型的方法计算文献与论文p的语义相似度,设置阈值L=0.5,当相似度小于0.5 时,认为此文献与论文p的相似度较低,则删除此文献节点,同时删除与该节点相连的所有边。遍历结束后,删除入度为0的文献节点和相连的所有边,保留下来的节点和边构成p的语义相似文献图G,此图依旧是单源有向无环图。
步骤S3,获取语义相似文献图G,抽取出所有参考文献的作者建立专家集E,对专家集E中专家进行命名消歧后构建评审专家集合C。
具体的,从p的语义相似文献图中G,抽取出所有文献的作者建立专家实体,其中不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧,若判定为同一个专家实体的进行合并,以得到p的评审专家集合C。
可以理解的是,在步骤S2得到的p的语义相似文献图G中,抽取出所有文献的作者建立专家集E,其中不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧,具体步骤如下:
遍历专家集E,对每一个专家e,
1)首先在专家库E中检索得到同名专家集D。
2)再从文本相似度和作者相似度两方面计算专家e与每个同名专家d的相似度,公式如下:
Similarity=0.7*Similaritytext+0.3*Similarityauthor
其中Similaritytext为文本相似度,Similarityauthor为作者相似度。
在文本相似度方面,使用基于Bert模型的方法计算e和d的参考文献的文本相似度。将e的所有文献的标题和摘要拼接起来作为text1,d的所有文献的标题和摘要拼接起来作为text2,计算text1和text2的相似度Similaritytext
在作者相似度方面,计算e的文献与d的文献的作者姓名的重复率,得到专家 e和专家d的作者相似度Similarityauthor
当Similarity大于等于0.5时,专家被判定为相似专家,专家d的信息合并到专家e。
最后得到p的评审专家集合C。
步骤S4,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家。
具体的,在p的语义相似文献图中,根据专家在所属的文献节点距离p的路径长度和在文献中的位次加权得分,按照专家得分从高到低排序。
可以理解的是,初始p的语义相似文献图中每个节点paths[node]=[],用来记录从源点到达该节点的路径长度,源点p的路径长度置为paths[p]=[0]。从源点p开始,使用改进的宽度优先搜索算法遍历p的语义相似文献图,到达一个新节点时,将上一个节点的paths中各元素加一添加到新节点的paths中,同时记录被访问过的边,当边被访问过时,不再访问,以此防止重复访问节点。具体步骤如表1代码1所示。
表1
Figure RE-GDA0003363928110000091
遍历G的所有文献节点,将每个节点距离源点的距离取倒数相加,作为每个文献的得分,计算方法如下所示:
Figure RE-GDA0003363928110000092
其中,Scorereference代表每篇文献的得分,n表示从源点p到达文献节点的路径数量,pathi表示第i条路径的长度。
专家在一篇文献中的权重与专家的位次和角色相关,具体计算方法如下所示:
Figure RE-GDA0003363928110000093
式中,pk表示文献中第k位作者的权重,n表示一篇文献的作者数量,当专家为通讯作者时,σ=2,否则,σ=k。
对每个专家,其得分为所属文献中的权重乘以文献的得分的累加和,具体计算方法如下所示:
Figure RE-GDA0003363928110000101
式中,Scoreexpert表示专家的得分,n表示专家在G中有n个相关文献节点,
Figure RE-GDA0003363928110000102
表示第i篇论文的得分,pi表示专家在第i篇论文中的权重。
将评审专家集C按照专家得分从高到低排序,保留前100位专家。
S5,将评审推荐算法f的推荐结果f(p)与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确度得分。
可以理解的是,将算法f的推荐结果f(p)与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,其中f(p)中专家数量为300。具体计算方式见公式如下所示:
Figure RE-GDA0003363928110000103
Figure RE-GDA0003363928110000104
公式中,precision表示推荐结果随排名指数衰减的准确率,recall表示推荐结果随排名指数衰减的召回率得分,n为ground truth的数量,ranki表示第 i个专家在c中的实际排名,N(ranki)表示第i个专家随排名指数衰减的得分,具体计算方式如下所示:
N(r)=N1*e-α(r-1)
式中,r表示专家在c中的实际排名,N1表示N在排名为1时的初始数值,数值为1,α为衰减系数,数值为0.069,当r大于300时,N(r)趋近于0。
输出为随排名指数衰减的准确率和召回率得分。
本发明的实验结果表明
在国内著名的科技大数据挖掘服务平台AMiner上应用基于论文引用关系的评审专家集构建方法对40万中文论文构造评审专家数据集,并对两种论文评审专家推荐算法进行评价。实验情况如下:
第一组实验采用基于语义匹配的推荐算法,以p的文本信息O作为算法的输入,计算O与专家集合中每位专家的研究兴趣的语义相似度,推荐出相似度最高的300位专家作为p的评审专家。在论文集合P上,计算出该算法的随排名衰减的平均准确率和平均召回率分别为39.82%,79.3%。
第二组实验采用基于KGCN的推荐算法,通过P的关键词,专家的研究兴趣与学科知识图谱的节点连接构成图,通过卷积神经网络的方法计算图上各节点的向量表示,再计算p与专家的相似度,推荐出相似度最高的300位专家作为p的评审专家。在论文集合P上,计算出该算法的随排名衰减的平均准确率和平均召回率分别为35.4%和72.3%。
根据本发明实施例的基于科研大数据的评审推荐算法的评估方法,通过根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
图3为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估装置的结构示意图。
如3所示,该基于科研大数据的评审推荐算法的评估装置的结构示意图10 包括:
生成文献溯源图模块100,用于根据论文p和参考文献之间的引用关系生成文献溯源图;
构建语义相似文献图模块200,用于基于文献溯源图,计算文献溯源图中文献与论文p的语义相似度,以构建论文p的语义相似文献图G;
构建评审专家集合模块300,用于获取语义相似文献图G,抽取出所有参考文献的作者建立专家集E,对专家集E中专家进行命名消歧后构建评审专家集合 C;
计算加权得分模块400,用于计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家;
计算衰减指数模块500,用于将评审推荐算法f的推荐结果f(p)与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。
进一步地,上述生成文献溯源图模块100,还用于:
将论文p与参考文献集合R中的每个文献r连接一条有向边,每个r再与每个r 的参考文献相连,以扩展成四层文献溯源图;其中,有向边的方向为p指向r。
根据本发明实施例的基于科研大数据的评审推荐算法的评估装置,通过根据论文和参考文献之间的引用关系生成文献溯源图,计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G,获取语义相似文献图G抽取出所有参考文献的作者建立专家集E,对专家集E中的专家命名消歧后构建评审专家集合C,计算评审专家集合C的加权得分,并将得分进行排序得到满足预设条件的专家,将评审推荐算法f的推荐结果与评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估,消除了用户的主观性和用户群体的偏差影响,同时降低了成本。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于科研大数据的评审推荐算法的评估方法,其特征在于,所述方法包括以下步骤:
根据论文p和参考文献之间的引用关系生成文献溯源图;
基于所述文献溯源图,计算所述文献溯源图中文献与所述论文p的语义相似度,以构建所述论文p的语义相似文献图G;
获取所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家集E,对所述专家集E中的专家命名消歧后构建评审专家集合C;
计算所述评审专家集合C的加权得分,并将所述得分进行排序得到满足预设条件的专家;
将评审推荐算法f的推荐结果f(p)与所述评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据所述随排名指数衰减的准确率和召回率得分。
2.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,所述根据论文p和参考文献之间的引用关系生成文献溯源图,包括:
将所述论文p与参考文献集合R中的每个文献r连接一条有向边,每个r再与所述每个r的参考文献相连,以扩展成四层文献溯源图;其中,所述有向边的方向为p指向r。
3.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,基于所述文献溯源图,计算所述文献溯源图中文献与所述论文p的语义相似度,以构建所述论文p的语义相似文献图,包括:
以宽度优先搜索的顺序从源节点p开始,
计算所述文献溯源图中文献与所述论文p的语义相似度;
判断所述语义相似度是否小于预设阈值L;
若是,则将所述小于预设阈值L的参考文献节点删除;
搜索完毕后,所有与源节点p相连通的文献节点构成所述论文p的语义相似文献图G。
4.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,在所述语义相似文献图G中,抽取出所有参考文献的作者建立专家集E,对所述专家集E中的专家命名消歧后构建评审专家集合C,包括:
在所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家实体,其中,不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧,判定为同一个专家实体的进行合并,得到所述评审专家集合C。
5.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,计算所述评审专家集合C的加权得分,并将所述得分进行排序得到满足预设条件的专家,包括:
在所述语义相似文献图G中,根据专家在所属的文献节点距离p的路径长度和在所述参考文献中的位次加权得分,按照所述专家得分从高到低进行排序,得到所述满足预设条件的专家。
6.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,所述计算随排名指数衰减的准确率和召回率,包括:
其中,所述推荐结果f(p)中专家数量为300,
计算公式如下:
Figure FDA0003215980930000021
Figure FDA0003215980930000022
其中,precision表示推荐结果随排名指数衰减的准确率,recall表示推荐结果随排名指数衰减的召回率得分,n为ground truth的数量,ranki表示第i个专家在c中的实际排名;N(ranki)表示第i个专家随排名指数衰减的得分,其计算方式如下:
N(r)=N1*e-α(r-1)
其中,r表示专家在c中的实际排名,N1表示N在排名为1时的初始数值,数值为1;α为衰减系数,数值为0.069,当r大于300时,N(r)趋近于0。
7.根据权利要求5所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,对每个专家,得分计算方式如下:
Figure FDA0003215980930000023
其中,Scoreexpert表示专家的得分,n表示专家在G中有n个相关文献节点,
Figure FDA0003215980930000024
表示第i篇论文的得分,pi表示专家在第i篇论文中的权重。
8.根据权利要求4所述的基于科研大数据的评审推荐算法的评估方法,其特征在于,所述进行命名消歧,步骤如下:
遍历所述专家集E,对专家e,
a)首先在所述专家集中检索得到同名专家集D;
b)再从文本相似度和作者相似度两方面计算所述专家e与同名专家d的相似度,公式如下:
Similarity=0.7*Similaritytext+0.3*Similarityauthor
其中,Similaritytext为文本相似度,Similarityauthor为作者相似度;
c)当Similarity大于等于0.5时,专家被判定为相似专家,所述同名专家d的信息合并到所述专家e,并得到所述论文p的评审专家集合C。
9.一种基于科研大数据的评审推荐算法的评估装置,其特征在于,包括:
生成文献溯源图模块,用于根据论文p和参考文献之间的引用关系生成文献溯源图;
构建语义相似文献图模块,用于基于所述文献溯源图,计算所述文献溯源图中文献与所述论文p的语义相似度,以构建所述论文p的语义相似文献图G;
构建评审专家集合模块,用于获取所述语义相似文献图G,抽取出所有所述参考文献的作者建立专家集E,对所述专家集E中的专家命名消歧后构建评审专家集合C;
计算加权得分模块,用于计算所述评审专家集合C的加权得分,并将所述得分进行排序得到满足预设条件的专家;
计算衰减指数模块,用于将评审推荐算法f的推荐结果f(p)与所述评审专家集合C比较,计算随排名指数衰减的准确率和召回率,并输出根据所述随排名指数衰减的准确率和召回率得分。
10.根据权利要求9所述的基于科研大数据的评审推荐算法的评估装置,其特征在于,所述生成文献溯源图模块,还用于:
将所述论文p与参考文献集合R中的每个文献r连接一条有向边,每个r再与所述每个r的参考文献相连,以扩展成四层文献溯源图;其中,所述有向边的方向为p指向r。
CN202110943387.4A 2021-08-17 基于科研大数据的评审推荐算法的评估方法及装置 Active CN113868407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110943387.4A CN113868407B (zh) 2021-08-17 基于科研大数据的评审推荐算法的评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110943387.4A CN113868407B (zh) 2021-08-17 基于科研大数据的评审推荐算法的评估方法及装置

Publications (2)

Publication Number Publication Date
CN113868407A true CN113868407A (zh) 2021-12-31
CN113868407B CN113868407B (zh) 2024-06-28

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610541A (zh) * 2024-01-17 2024-02-27 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823896A (zh) * 2014-03-13 2014-05-28 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
CN107194672A (zh) * 2016-11-09 2017-09-22 北京理工大学 一种融合学术专长与社会网络的评审分配方法
CN108763354A (zh) * 2018-05-16 2018-11-06 浙江工业大学 一种个性化的学术文献推荐方法
KR20180127840A (ko) * 2017-05-22 2018-11-30 주식회사 제오시스 논문 평가 방법 및 전문가 추천 방법
CN111078873A (zh) * 2019-11-22 2020-04-28 北京市科学技术情报研究所 一种基于引文网络与科研合作网络的领域专家遴选方法
CN112131872A (zh) * 2020-09-18 2020-12-25 三螺旋大数据科技(昆山)有限公司 一种文献作者重名消歧方法和构建系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823896A (zh) * 2014-03-13 2014-05-28 蚌埠医学院 一种学科特征值算法及基于其的项目评审专家推荐算法
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
CN107194672A (zh) * 2016-11-09 2017-09-22 北京理工大学 一种融合学术专长与社会网络的评审分配方法
KR20180127840A (ko) * 2017-05-22 2018-11-30 주식회사 제오시스 논문 평가 방법 및 전문가 추천 방법
CN108763354A (zh) * 2018-05-16 2018-11-06 浙江工业大学 一种个性化的学术文献推荐方法
CN111078873A (zh) * 2019-11-22 2020-04-28 北京市科学技术情报研究所 一种基于引文网络与科研合作网络的领域专家遴选方法
CN112131872A (zh) * 2020-09-18 2020-12-25 三螺旋大数据科技(昆山)有限公司 一种文献作者重名消歧方法和构建系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张鹏;葛小青;: "融合标签相似度的k近邻Slope One算法", 重庆邮电大学学报(自然科学版), no. 04, 15 August 2016 (2016-08-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610541A (zh) * 2024-01-17 2024-02-27 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质
CN117610541B (zh) * 2024-01-17 2024-06-11 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
Cantador et al. A multilayer ontology-based hybrid recommendation model
Balog et al. Broad expertise retrieval in sparse data environments
Zhou et al. Userrec: A user recommendation framework in social tagging systems
Burel et al. Automatic identification of best answers in online enquiry communities
Bhatia et al. Adopting inference networks for online thread retrieval
CN101140588A (zh) 一种关联关系搜索结果的排序方法及装置
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN113900954B (zh) 一种使用知识图谱的测试用例推荐方法及装置
CN109992674A (zh) 一种融合自动编码器和知识图谱语义信息的推荐方法
CN111078873A (zh) 一种基于引文网络与科研合作网络的领域专家遴选方法
Jeon et al. Personalized Information Retrieval by Using Adaptive User Profiling and Collaborative Filtering.
CN110609889A (zh) 基于学术网络确定对象重要性排名及选择评审专家的方法和系统
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN109885694B (zh) 一种文献选择及其学习先后次序确定方法
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
Sheeba et al. A fuzzy logic based on sentiment classification
CN113868407B (zh) 基于科研大数据的评审推荐算法的评估方法及装置
CN113868407A (zh) 基于科研大数据的评审推荐算法的评估方法及装置
Marinilli et al. A case-based approach to adaptive information filtering for the WWW
Vallet et al. Use of implicit graph for recommending relevant videos: a simulated evaluation
Djuana et al. Personalization in tag ontology learning for recommendation making
CN111324709B (zh) 基于学科知识图谱和卷积神经网络的智能答疑方法
CN104598613A (zh) 一种用于垂直领域的概念关系构建方法和装置
CN113987366A (zh) 一种融合搜索行为与好友网络的个性化搜索方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Sheng Zhenting

Inventor after: Zhang Peng

Inventor after: Chou Yu

Inventor after: Shao Zhou

Inventor after: Liu Debing

Inventor before: Sheng Zhenting

Inventor before: Zhang Peng

Inventor before: Chou Yu

Inventor before: Shao Zhou

Inventor before: Tang Jie

Inventor before: Liu Debing

GR01 Patent grant