CN113868407A

CN113868407A - 基于科研大数据的评审推荐算法的评估方法及装置

Info

Publication number: CN113868407A
Application number: CN202110943387.4A
Authority: CN
Inventors: 盛振婷; 张鹏; 仇瑜; 邵洲; 唐杰; 刘德兵
Original assignee: Beijing Zhipu Huazhang Technology Co Ltd
Current assignee: Beijing Zhipu Huazhang Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-31
Anticipated expiration: 2041-08-17

Abstract

本申请提出一种基于科研大数据的评审推荐算法的评估方法和装置，其中，方法包括：根据论文和参考文献之间的引用关系生成文献溯源图，计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G，获取语义相似文献图G抽取出所有参考文献的作者建立专家集E，对专家集E中的专家命名消歧后构建评审专家集合C，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家，将评审推荐算法f的推荐结果与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估，消除了用户的主观性和用户群体的偏差影响，同时降低了成本。

Description

基于科研大数据的评审推荐算法的评估方法及装置

技术领域

本发明涉及大数据算法技术领域，特别涉及一种基于科研大数据的评审推荐算法的评估方法及装置。

背景技术

评审推荐算法的优劣决定了论文的专家推荐结果质量。如何客观地比较不同评审推荐算法的效果一直以来是一个难题。已有的基于用户行为信息的评价方法需要将算法投入真实场景中，收集用户的行为信息。这种方法需要耗费大量成本，又由于用户群体差异性会导致评价结果不公平。

选择合适的评审专家决定了对论文质量的评估是否准确，而论文质量又决定了期刊和会议的影响力和权威度。因此在对论文进行评审时，选择研究领域相关的专家变得尤为重要。目前随着学科专业化程度的提高和学术论文发表量的逐年上涨，人工选择评审专家难以满足效率和准确率的要求，很多期刊和会议采用论文评审专家推荐算法，快速推荐出与论文相关的专家。各种论文评审专家推荐算法的效果存在差异，选择一个优秀的推荐算法会使选择评审专家的工作事半功倍。

目前，对推荐算法在评审专家推荐场景中的效果评价的研究较少。通用的评价推荐算法的方法分为两种，一种是在线的基于用户行为信息的评价，例如用点击率、转化率等评价指标评价算法效果，另一种是线下的使用人工标注的数据集训练模型，使用不交叉的数据集作为测试集，用精确率、召回率、F1分数等评价算法效果。

这两种方法在电子商务、搜索引擎等应用场景中能够对推荐算法的不同方面作出有效的评价。但是针对评审专家推荐应用场景的特殊性没有进行考虑。在第一种方法中，需要将推荐算法投入到真实的使用场景中，邀请很多人使用推荐系统，而在评审专家推荐的场景中，邀请的用户需要在某个领域中具有一定的知识水平，才能够对推荐结果作出合理的评价。由于对用户群体有一定的要求，能够邀请到的用户存在数量少，成本高的缺点，所以难以收集到大量的用户行为数据集，而且用户行为受群体偏差影响大。在第二种方法中，一种比较理想的方案是使用历史论文的真实评审专家数据集训练模型，测试算法效果，但在一些需要保密的场景中，获取论文的评审专家数据变得尤为困难。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于科研大数据的评审推荐算法的评估方法，根据论文和参考文献之间的引用关系生成文献溯源图，计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G，获取语义相似文献图G抽取出所有参考文献的作者建立专家集E，对专家集E中的专家命名消歧后构建评审专家集合C，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家，将评审推荐算法f的推荐结果与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估，消除了用户的主观性和用户群体的偏差影响，同时降低了成本。

本发明的第二个目的在于提出种基于科研大数据的评审推荐算法的评估装置。

为达上述目的，本发明第一方面实施例提出了一种基于科研大数据的评审推荐算法的评估方法，包括：

根据论文p和参考文献之间的引用关系生成文献溯源图；

基于所述文献溯源图，计算所述文献溯源图中文献与所述论文p的语义相似度，以构建所述论文p的语义相似文献图G；

获取所述语义相似文献图G，抽取出所有所述参考文献的作者建立专家集E，对所述专家集E中的专家命名消歧后以构建评审专家集合C；

计算所述评审专家集合C的加权得分，并将所述得分进行排序得到满足预设条件的专家；

将评审推荐算法f的推荐结果f(p)与所述评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据所述随排名指数衰减的准确率和召回率得分。

另外，根据本发明上述实施例的基于科研大数据的评审推荐算法的评估方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据论文p和参考文献之间的引用关系生成文献溯源图，包括：

将所述论文p与参考文献集合R中的每个文献r连接一条有向边，每个r再与所述每个r的参考文献相连，以扩展成四层文献溯源图；其中，所述有向边的方向为p指向r。

进一步地，在本发明的一个实施例中，所述基于所述文献溯源图，计算所述文献溯源图中文献与所述论文p的语义相似度，以构建所述论文p的语义相似文献图G，包括：

以宽度优先搜索的顺序从源节点p开始，

计算所述文献溯源图中文献与所述论文p的语义相似度；

判断所述语义相似度是否小于预设阈值L；

若是，则将所述小于预设阈值L的参考文献节点删除；

搜索完毕后，所有与所述源节点p相连通的文献节点构成所述论文p的语义相似文献图G。

进一步地，在本发明的一个实施例中，所述获取所述语义相似文献图G，抽取出所有所述参考文献的作者建立专家集E，对所述专家集E中的专家命名消歧后以构建评审专家集合C，包括：

在所述语义相似文献图G，抽取出所有所述参考文献的作者建立专家实体，其中，不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧，得到所述评审专家集合C。

进一步地，在本发明的一个实施例中，所述计算所述评审专家集合C的加权得分，并将所述得分进行排序得到满足预设条件的专家，包括：

在所述语义相似文献图G中，根据专家在所属的文献节点距离p的路径长度和在所述参考文献中的位次加权得分，按照所述专家得分从高到低进行排序，得到所述满足预设条件的专家。

进一步地，在本发明的一个实施例中，所述计算随排名指数衰减的准确率和召回率，包括：

其中，所述推荐结果f(p)中专家数量为300，

计算公式如下：

其中，precision表示推荐结果随排名指数衰减的准确率，recall表示推荐结果随排名指数衰减的召回率得分，n为ground truth的数量，rank_i表示第i 个专家在c中的实际排名；N(rank_i)表示第i个专家随排名指数衰减的得分，其计算方式如下：

N(r)＝N₁*e^-α(r-1)

其中，r表示专家在c中的实际排名，N₁表示N在排名为1时的初始数值，数值为1；α为衰减系数，数值为0.069，当r大于300时，N(r)趋近于0。

进一步地，在本发明的一个实施例中，对每个专家，得分计算方式如下：

其中，Score_expert表示专家的得分，n表示专家在G中有n个相关文献节点，

表示第i篇论文的得分，p_i表示专家在第i篇论文中的权重。

进一步地，在本发明的一个实施例中，所述进行命名消歧，步骤如下：

遍历所述专家集E，对专家e，

a)首先在所述专家集中检索得到同名专家集D；

b)再从文本相似度和作者相似度两方面计算所述专家e与同名专家d的相似度，公式如下：

Similarity＝0.7*Similarity_text+0.3*Similarity_author

其中，Similarity_text为文本相似度，Similarity_author为作者相似度；

c)当Similarity大于等于0.5时，专家被判定为相似专家，所述同名专家d的信息合并到所述专家e，并得到所述论文p的评审专家集合C。

本发明实施例的基于科研大数据的评审推荐算法的评估方法，根据论文和参考文献之间的引用关系生成文献溯源图，计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G，获取语义相似文献图G抽取出所有参考文献的作者建立专家集E，对专家集E中的专家命名消歧后构建评审专家集合C，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家，将评审推荐算法f的推荐结果与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估，消除了用户的主观性和用户群体的偏差影响，同时降低了成本。

为达上述目的，本发明第二方面实施例提出了一种基于科研大数据的评审推荐算法的评估装置，包括：

生成文献溯源图模块，用于根据论文p和参考文献之间的引用关系生成文献溯源图；

构建语义相似文献图模块，用于基于所述文献溯源图，计算所述文献溯源图中文献与所述论文p的语义相似度，以构建所述论文p的语义相似文献图G；

构建评审专家集合模块，用于获取所述语义相似文献图G，抽取出所有所述参考文献的作者建立专家集E，对所述专家集E中的专家命名消歧后构建评审专家集合C；

计算加权得分模块，用于计算所述评审专家集合C的加权得分，并将所述得分进行排序得到满足预设条件的专家；

计算衰减指数模块，用于将评审推荐算法f的推荐结果f(p)与所述评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据所述随排名指数衰减的准确率和召回率得分。

本发明实施例的基于科研大数据的评审推荐算法的评估装置，根据论文和参考文献之间的引用关系生成文献溯源图，计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G，获取语义相似文献图G抽取出所有参考文献的作者建立专家集E，对专家集E中的专家命名消歧后构建评审专家集合C，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家，将评审推荐算法f的推荐结果与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估，消除了用户的主观性和用户群体的偏差影响，同时降低了成本。

本发明的有益效果为：

(1)基于论文的语义相似文献图中的作者信息构建评审专家集。将评审推荐算法的结果与评审专家集对比，计算出基于排名衰减的准确率和召回率，比较不同评审推荐算法的客观效果；

(2)本发明很好的考虑了评审专家推荐场景的特殊性，利用论文和参考文献在研究领域上的相关性，构建出合理的评审专家数据集。评价过程不需要人工参与，消除了用户主观性和用户群体的偏差影响，能够客观地比较不同推荐算法的效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估方法整体流程图；

图2为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估方法流程图；

图3为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于科研大数据的评审推荐算法的评估方法和装置。

本发明以科研大数据为基础，先做如下的形式化的定义：有论文p，该论文的参考文献的有序集合为R，其中参考文献按照顺序依次为r₁，…，r_i，…；p的其他信息用集合O来表示，O＝{title,abstract,keywords,authors…}，其中，title表示p的标题，abstract表示p的摘要，keywords表示p的关键词，authors表示p的作者信息…有评审推荐算法为f，f对p的推荐结果为f(p)。

为了客观地评价算法f，需要建立p的评审专家集C。本发明设计了一种基于论文引用关系的评审专家集构建方法，基本思想是通过追溯论文的引用关系构建论文的单源有向无环文献溯源图，按照宽度优先搜索的顺序从源节点开始计算论文与文献的语义相似度，去除相似度低的文献节点和其相连的边，再去除入度为零的文献节点，保留包含论文节点的文献连通图。保留下的文献节点的作者构成论文的评审专家集，其中专家按照在文献连通图中与论文节点的距离和在文献中的位次加权得分排名。将算法f推荐结果f(p)与评审专家集C对比，计算出按照排名衰减的准确率和召回率得分，作为算法的评价结果。整体流程如图1所示。

图2为本发明实施例所提供的一种基于科研大数据的评审推荐算法的评估方法流程图。

如图2所示，该基于科研大数据的评审推荐算法的评估方法包括：

步骤S1，根据论文p和参考文献之间的引用关系生成文献溯源图。

具体的，将p与参考文献集合R中的每个文献r连接一条有向边，方向为p指向r，扩展成一层文献溯源图；每个r再与其参考文献相连，扩展成二层文献溯源图，以次类推扩展四层文献溯源图。

可以理解的是，文献溯源图由论文和参考文献之间的引用关系生成。初始时，将论文p加入图中，作为文献溯源图的源点，用有向边连接p的参考文献r，方向为p指向r，扩展出一层文献节点；再以每篇参考文献r开始，用有向边连接其参考文献，扩展出2层文献节点；以此类推扩展四层文献节点。其中每个文献节点为唯一的论文实体，在文献节点的扩展过程中，若某一文献节点已在图中存在，则不再重复加入，有向边指向已存在的节点。

步骤S2，基于文献溯源图，计算文献溯源图中文献与论文p的语义相似度，以构建论文p的语义相似文献图G。

具体的，在文献溯源图中，以宽度优先搜索的顺序从源节点p开始，计算文献与论文的语义相似度，若相似度小于阈值L，则删除此文献节点。搜索完毕后，所有与p相连通的文献节点构成p的语义相似文献图G。

可以理解的是，在文献溯源图中，以宽度优先搜索的顺序从源点p开始，使用基于Bidirectional Encoder Representations from Transformers(Bert)模型的方法计算文献与论文p的语义相似度，设置阈值L＝0.5，当相似度小于0.5 时，认为此文献与论文p的相似度较低，则删除此文献节点，同时删除与该节点相连的所有边。遍历结束后，删除入度为0的文献节点和相连的所有边，保留下来的节点和边构成p的语义相似文献图G，此图依旧是单源有向无环图。

步骤S3，获取语义相似文献图G，抽取出所有参考文献的作者建立专家集E，对专家集E中专家进行命名消歧后构建评审专家集合C。

具体的，从p的语义相似文献图中G，抽取出所有文献的作者建立专家实体，其中不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧，若判定为同一个专家实体的进行合并，以得到p的评审专家集合C。

可以理解的是，在步骤S2得到的p的语义相似文献图G中，抽取出所有文献的作者建立专家集E，其中不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧，具体步骤如下：

遍历专家集E，对每一个专家e，

1)首先在专家库E中检索得到同名专家集D。

2)再从文本相似度和作者相似度两方面计算专家e与每个同名专家d的相似度，公式如下：

Similarity＝0.7*Similarity_text+0.3*Similarity_author

其中Similarity_text为文本相似度，Similarity_author为作者相似度。

在文本相似度方面，使用基于Bert模型的方法计算e和d的参考文献的文本相似度。将e的所有文献的标题和摘要拼接起来作为text₁，d的所有文献的标题和摘要拼接起来作为text₂，计算text₁和text₂的相似度Similarity_text。

在作者相似度方面，计算e的文献与d的文献的作者姓名的重复率，得到专家 e和专家d的作者相似度Similarity_author。

当Similarity大于等于0.5时，专家被判定为相似专家，专家d的信息合并到专家e。

最后得到p的评审专家集合C。

步骤S4，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家。

具体的，在p的语义相似文献图中，根据专家在所属的文献节点距离p的路径长度和在文献中的位次加权得分，按照专家得分从高到低排序。

可以理解的是，初始p的语义相似文献图中每个节点paths[node]＝[]，用来记录从源点到达该节点的路径长度，源点p的路径长度置为paths[p]＝[0]。从源点p开始，使用改进的宽度优先搜索算法遍历p的语义相似文献图，到达一个新节点时，将上一个节点的paths中各元素加一添加到新节点的paths中，同时记录被访问过的边，当边被访问过时，不再访问，以此防止重复访问节点。具体步骤如表1代码1所示。

表1

遍历G的所有文献节点，将每个节点距离源点的距离取倒数相加，作为每个文献的得分，计算方法如下所示：

其中，Score_reference代表每篇文献的得分，n表示从源点p到达文献节点的路径数量，path_i表示第i条路径的长度。

专家在一篇文献中的权重与专家的位次和角色相关，具体计算方法如下所示：

式中，p_k表示文献中第k位作者的权重，n表示一篇文献的作者数量，当专家为通讯作者时，σ＝2，否则，σ＝k。

对每个专家，其得分为所属文献中的权重乘以文献的得分的累加和，具体计算方法如下所示：

式中，Score_expert表示专家的得分，n表示专家在G中有n个相关文献节点，

表示第i篇论文的得分，p_i表示专家在第i篇论文中的权重。

将评审专家集C按照专家得分从高到低排序，保留前100位专家。

S5，将评审推荐算法f的推荐结果f(p)与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确度得分。

可以理解的是，将算法f的推荐结果f(p)与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，其中f(p)中专家数量为300。具体计算方式见公式如下所示：

公式中，precision表示推荐结果随排名指数衰减的准确率，recall表示推荐结果随排名指数衰减的召回率得分，n为ground truth的数量，rank_i表示第 i个专家在c中的实际排名，N(rank_i)表示第i个专家随排名指数衰减的得分，具体计算方式如下所示：

N(r)＝N₁*e^-α(r-1)

式中，r表示专家在c中的实际排名，N₁表示N在排名为1时的初始数值，数值为1，α为衰减系数，数值为0.069，当r大于300时，N(r)趋近于0。

输出为随排名指数衰减的准确率和召回率得分。

本发明的实验结果表明

在国内著名的科技大数据挖掘服务平台AMiner上应用基于论文引用关系的评审专家集构建方法对40万中文论文构造评审专家数据集，并对两种论文评审专家推荐算法进行评价。实验情况如下：

第一组实验采用基于语义匹配的推荐算法，以p的文本信息O作为算法的输入，计算O与专家集合中每位专家的研究兴趣的语义相似度，推荐出相似度最高的300位专家作为p的评审专家。在论文集合P上，计算出该算法的随排名衰减的平均准确率和平均召回率分别为39.82％，79.3％。

第二组实验采用基于KGCN的推荐算法，通过P的关键词，专家的研究兴趣与学科知识图谱的节点连接构成图，通过卷积神经网络的方法计算图上各节点的向量表示，再计算p与专家的相似度，推荐出相似度最高的300位专家作为p的评审专家。在论文集合P上，计算出该算法的随排名衰减的平均准确率和平均召回率分别为35.4％和72.3％。

根据本发明实施例的基于科研大数据的评审推荐算法的评估方法，通过根据论文和参考文献之间的引用关系生成文献溯源图，计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G，获取语义相似文献图G抽取出所有参考文献的作者建立专家集E，对专家集E中的专家命名消歧后构建评审专家集合C，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家，将评审推荐算法f的推荐结果与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估，消除了用户的主观性和用户群体的偏差影响，同时降低了成本。

图3为根据本发明一个实施例的基于科研大数据的评审推荐算法的评估装置的结构示意图。

如3所示，该基于科研大数据的评审推荐算法的评估装置的结构示意图10 包括：

生成文献溯源图模块100，用于根据论文p和参考文献之间的引用关系生成文献溯源图；

构建语义相似文献图模块200，用于基于文献溯源图，计算文献溯源图中文献与论文p的语义相似度，以构建论文p的语义相似文献图G；

构建评审专家集合模块300，用于获取语义相似文献图G，抽取出所有参考文献的作者建立专家集E，对专家集E中专家进行命名消歧后构建评审专家集合 C；

计算加权得分模块400，用于计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家；

计算衰减指数模块500，用于将评审推荐算法f的推荐结果f(p)与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。

进一步地，上述生成文献溯源图模块100，还用于：

将论文p与参考文献集合R中的每个文献r连接一条有向边，每个r再与每个r 的参考文献相连，以扩展成四层文献溯源图；其中，有向边的方向为p指向r。

根据本发明实施例的基于科研大数据的评审推荐算法的评估装置，通过根据论文和参考文献之间的引用关系生成文献溯源图，计算文献溯源图中文献与论文的语义相似度以构建论文的语义相似文献图G，获取语义相似文献图G抽取出所有参考文献的作者建立专家集E，对专家集E中的专家命名消歧后构建评审专家集合C，计算评审专家集合C的加权得分，并将得分进行排序得到满足预设条件的专家，将评审推荐算法f的推荐结果与评审专家集合C比较，计算随排名指数衰减的准确率和召回率，并输出根据随排名指数衰减的准确率和召回率得分。本方法实现对评审推荐算法的自动评估，消除了用户的主观性和用户群体的偏差影响，同时降低了成本。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于科研大数据的评审推荐算法的评估方法，其特征在于，所述方法包括以下步骤：

根据论文p和参考文献之间的引用关系生成文献溯源图；

获取所述语义相似文献图G，抽取出所有所述参考文献的作者建立专家集E，对所述专家集E中的专家命名消歧后构建评审专家集合C；

2.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，所述根据论文p和参考文献之间的引用关系生成文献溯源图，包括：

3.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，基于所述文献溯源图，计算所述文献溯源图中文献与所述论文p的语义相似度，以构建所述论文p的语义相似文献图，包括：

以宽度优先搜索的顺序从源节点p开始，

计算所述文献溯源图中文献与所述论文p的语义相似度；

判断所述语义相似度是否小于预设阈值L；

若是，则将所述小于预设阈值L的参考文献节点删除；

搜索完毕后，所有与源节点p相连通的文献节点构成所述论文p的语义相似文献图G。

4.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，在所述语义相似文献图G中，抽取出所有参考文献的作者建立专家集E，对所述专家集E中的专家命名消歧后构建评审专家集合C，包括：

在所述语义相似文献图G，抽取出所有所述参考文献的作者建立专家实体，其中，不同文献中的同名专家使用合作者信息和文献信息计算相似度进行命名消歧，判定为同一个专家实体的进行合并，得到所述评审专家集合C。

5.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，计算所述评审专家集合C的加权得分，并将所述得分进行排序得到满足预设条件的专家，包括：

6.根据权利要求1所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，所述计算随排名指数衰减的准确率和召回率，包括：

其中，所述推荐结果f(p)中专家数量为300，

计算公式如下：

其中，precision表示推荐结果随排名指数衰减的准确率，recall表示推荐结果随排名指数衰减的召回率得分，n为ground truth的数量，rank_i表示第i个专家在c中的实际排名；N(rank_i)表示第i个专家随排名指数衰减的得分，其计算方式如下：

N(r)＝N₁*e^-α(r-1)

7.根据权利要求5所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，对每个专家，得分计算方式如下：

表示第i篇论文的得分，p_i表示专家在第i篇论文中的权重。

8.根据权利要求4所述的基于科研大数据的评审推荐算法的评估方法，其特征在于，所述进行命名消歧，步骤如下：

遍历所述专家集E，对专家e，

a)首先在所述专家集中检索得到同名专家集D；

Similarity＝0.7*Similarity_text+0.3*Similarity_author

9.一种基于科研大数据的评审推荐算法的评估装置，其特征在于，包括：

10.根据权利要求9所述的基于科研大数据的评审推荐算法的评估装置，其特征在于，所述生成文献溯源图模块，还用于：