CN114154478B

CN114154478B - 一种论文审稿人确定方法和系统

Info

Publication number: CN114154478B
Application number: CN202210119616.5A
Authority: CN
Inventors: 李青; 刘晓元; 李鹏飞; 潘虹安
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-07-05
Anticipated expiration: 2042-02-07
Also published as: CN114154478A

Abstract

本申请实施例公开了一种论文审稿人确定方法和系统，所述方法包括：基于待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人。通过层层筛选使得论文审稿人的推荐更加精准。

Description

一种论文审稿人确定方法和系统

技术领域

本申请实施例涉及深度学习技术领域，具体涉及一种论文审稿人确定方法和系统。

背景技术

同行评议是论文在期刊发表前的必要环节，也是保证论文发表质量的重要流程。目前，同行评议中审稿人选择的主要方法是依赖于期刊编辑在期刊独立的审稿人备选库中，人工依据关键词进行匹配检索，给出审稿人推荐列表，再依据主观标准对审稿人进行排序选择高质量审稿人。

近年来，也出现过利用统计学的方法，例如基于构建学者的词频特征矩阵来构建LDA模型，计算学者之间的相似度；也有基于构建计算时间感知矩阵计算节点间带时间感知的相似度矩阵，从而计算待审稿论文和各期刊间相似度。

可以看出，现有技术均采用传统机器学习模型，无法针对庞大数据快速的构建审稿人推荐系统；并且流程单一，仅利用一次计算相似度就进行推荐，精确度较低。

发明内容

为此，本申请实施例提供一种论文审稿人确定方法和系统，采用了更为完善的层层筛选流程，使得论文审稿人的推荐更加精准。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种论文审稿人确定方法，所述方法包括：

根据待审论文确定待审论文特征关键词和待审论文特征向量，基于所述待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；

计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；

计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选；R₀、R₁、R₂和 R₃为大于一的整数。

可选地，所述计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，包括：

嵌入层在每位初筛审稿人的审稿论文特征序列中的每个审稿论文特征向量中加上对应的位置嵌入向量，得到输入序列；

将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列；

将隐藏状态序列输入全连接层，得到R₁位初筛审稿人在下一个时间步的论文特征向量；

根据所述论文特征向量和所述待审论文特征向量计算相似度值。

可选地，所述将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列，包括：

将输入序列输入到多个双向Transformer层，其中双向Transformer层是将上层Transformer层输出作为这层Transformer层的输入的层；

计算每个第l层的第i个位置的隐藏状态向量，以建立第l层所有隐藏状态矩阵，输出最后一层隐藏状态序列。

可选地，所述将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，包括：

将每位二筛审稿人的预测论文特征向量组成的原始矩阵和个性化矩阵拼接，得到中间嵌入矩阵；

将已知的位置嵌入矩阵输入所述中间嵌入矩阵，得到嵌入矩阵；

利用前馈网络特征矩阵将所述嵌入矩阵转换为隐藏矩阵；

将所述隐藏矩阵中的序列化向量输入到Transformer层，将输出的隐藏状态向量继续输入到一个线性层和一个softmax层，得到每个二筛审稿人的推荐概率。

可选地，所述个性化矩阵是基于审稿人的所有历史审稿论文特征向量、预测论文特征向量、待审论文和审稿人信息，使用层隐藏向量输出作为个性化向量而得到的。

可选地，根据待审论文确定待审论文特征关键词和待审论文特征向量，包括：

根据待审论文的标题、关键词、摘要、引用文献确定所述待审论文的研究领域关键词；

根据研究领域关键词的出处权重和出现频率，计算每个研究领域关键词的综合权重；

筛选设定综合权重范围内的研究领域关键词作为待审论文的待审论文特征关键词；

将所述待审论文的待审论文特征关键词对应的特征向量相加，得到待审论文特征向量。

可选地，所述审稿人数据库用于存储所有审稿人信息、每位审稿人按时间排列的所有审稿论文和审稿论文的论文特征向量；每位审稿人信息中标记有审稿人的研究领域关键词，所述研究领域关键词是基于审稿人的历史审稿论文和发表论文中的研究领域关键词提取的。

根据本申请实施例的第二方面，提供了一种论文审稿人确定系统，所述系统包括：

初始匹配模块，用于根据待审论文确定待审论文特征关键词和待审论文特征向量，基于所述待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；

一层筛选模块，用于计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；

二层筛选模块，用于计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；

三层筛选模块，用于将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选；R₀、R₁、R₂和 R₃为大于一的整数。

根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。

综上所述，本申请实施例提供了一种论文审稿人确定方法和系统，通过根据待审论文确定待审论文特征关键词和待审论文特征向量，基于所述待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选。采用了层层筛选流程，使得论文审稿人的推荐更加精准。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的论文审稿人确定方法流程示意图；

图2为本申请实施例提供的BERT4Rev模型结构图；

图3为本申请实施例提供的RE-RANK4Rev结构图；

图4为本申请实施例提供的个性化矩阵预训练模型；

图5为本申请实施例提供的论文审稿人确定系统框图；

图6示出了本申请实施例所提供的一种电子设备的结构示意图；

图7示出了本申请实施例所提供的一种计算机可读存储介质的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相对于之前使用传统统计学模型，本申请实施例采用了更为完善的初筛、排序、再排序流程，提出论文审稿人序列化预测任务，利用自我注意力机制和个性化矩阵方法，捕获了审稿人之间以及待审稿论文与审稿人之间的个性化相互影响，使得推荐更加精准。

图1示出了本申请实施例提供的论文审稿人确定方法流程，所述方法包括：

步骤101：根据待审论文确定待审论文特征关键词和待审论文特征向量，基于所述待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；

步骤102：计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；

步骤103：计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；

步骤104：将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选；R₀、R₁、R₂和 R₃为大于一的整数。

在一种可能的实施方式中，在步骤101中，根据待审论文确定待审论文特征关键词和待审论文特征向量，包括：

根据待审论文的标题、关键词、摘要、引用文献确定所述待审论文的研究领域关键词；根据研究领域关键词的出处权重和出现频率，计算每个研究领域关键词的综合权重；筛选设定综合权重范围内的研究领域关键词作为待审论文的待审论文特征关键词；将所述待审论文的待审论文特征关键词对应的特征向量相加，得到待审论文特征向量。

在一种可能的实施方式中，所述审稿人数据库用于存储所有审稿人信息、每位审稿人按时间排列的所有审稿论文和审稿论文的论文特征向量；每位审稿人信息中标记有审稿人的研究领域关键词，所述研究领域关键词是基于审稿人的历史审稿论文和发表论文中的研究领域关键词提取的。

在一种可能的实施方式中，在步骤103中，所述计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，包括：

嵌入层在每位初筛审稿人的审稿论文特征序列中的每个审稿论文特征向量中加上对应的位置嵌入向量，得到输入序列；将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列；将隐藏状态序列输入全连接层，得到R₁位初筛审稿人在下一个时间步的论文特征向量；根据所述论文特征向量和所述待审论文特征向量计算相似度值。

在一种可能的实施方式中，所述将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列，包括：

将输入序列输入到多个双向Transformer层，其中双向Transformer层是将上层Transformer层输出作为这层Transformer层的输入的层；计算每个第l层的第i个位置的隐藏状态向量，以建立第l层所有隐藏状态矩阵，输出最后一层隐藏状态序列。

在一种可能的实施方式中，在步骤104中，所述将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，包括：

将每位二筛审稿人的预测论文特征向量组成的原始矩阵和个性化矩阵拼接，得到中间嵌入矩阵；将已知的位置嵌入矩阵输入所述中间嵌入矩阵，得到嵌入矩阵；利用前馈网络特征矩阵将所述嵌入矩阵转换为隐藏矩阵；将所述隐藏矩阵中的序列化向量输入到Transformer层，将输出的隐藏状态向量继续输入到一个线性层和一个softmax层，得到每个二筛审稿人的推荐概率。

在一种可能的实施方式中，所述个性化矩阵是基于审稿人的所有历史审稿论文特征向量、预测论文特征向量、待审论文和审稿人信息，使用层隐藏向量输出作为个性化向量而得到的。

在本申请实施例提供的方法中，将论文审稿人推荐任务转化成审稿论文顺序序列的推荐任务，利用自我注意力机制，去捕获审稿论文序列中每个审稿论文之间的依赖关系，预测每位审稿人下一时间步的论文。进一步，对得到的预测论文特征向量组成的原始矩阵融入了个性化矩阵来学习审稿人特定的编码函数，该函数能够对候选审稿人之间以及待审稿论文对候选审稿人之间的个性化相互影响进行建模，再利用自我注意力机制整合审稿人之间和其他额外信息的相互影响，其他额外信息包括待审论文信息和初始排名顺序，经过Transformer层等层得到每个审稿人的推荐概率。上述方法可以针对庞大数据快速构建审稿人推荐系统，并且达到更为精确推荐的效果。

下面结合附图对本申请实施例提供的方法进行进一步详细描述。

第一方面，建立论文特征关键词矩阵，计算所有论文的特征向量。

首先确定所有研究领域关键词，定义所有研究领域关键词总数量为n，每个研究领域关键词对应一个向量vector，特征维度为d_feature，建立论文特征关键词矩阵

。

进一步，给定一篇论文，根据论文的标题、关键词、摘要、引用文献检索出包含的所有研究领域关键词；再根据研究领域关键词的出处权重和出现频率，计算每个研究领域关键词的综合权重；论文的标题和关键词的出处权重更高，其次是摘要和引用文献。进一步筛选设定综合权重范围内的研究领域关键词作为待审论文的论文特征关键词；将所述待审论文的论文特征关键词对应的特征向量相加，得到待审论文特征向量

，i表示第i位审稿人，p表示第p个研究领域关键词。

第二方面，建立审稿人数据库。

首先依据期刊内部庞大的审稿人记录建立审稿人数据库，记录每位审稿人信息及其按时间排列的所有审稿论文记录。针对每一位审稿人按照时间顺序排列其所有审稿过的论文特征向量，计作

，其中m是该审稿人审稿过的论文数量。

每位审稿人信息中标记有审稿人的研究领域关键词，所述研究领域关键词是基于审稿人的历史审稿论文和发表论文中的研究领域关键词提取的。

若审稿人数据库存在数量限制问题，可以使用以下两个方法来补充数据库：第一，若某审稿人的审稿论文数量过低，则补充该审稿人发表的论文作为审稿论文；第二，若审稿人数量有限，则补充该期刊领域里其他论文作者及其所有发表论文作为审稿人和审稿论文记录。

第三方面，进行审稿人初筛。

首先，提取待审论文的论文特征关键词，根据所述论文特征关键词检索审稿人数据库中所述论文特征关键词涉及的原始审稿人；进一步计算待审论文和每位原始审稿人的关联度；根据设定的利益冲突规则筛选出R₀位审稿人，并输出关联度最高的R₁个初筛审稿人；设定利益冲突规则有工作单位限制、研究机构限制、是否是共同作者等。根据审稿人的审稿记录，输出每位初筛审稿人的审稿论文特征序列

。

举例来说，假设给定一篇待审稿论文，初筛方法可以利用上述所述方法得到该论文的所有研究领域关键词，并在审稿人数据库中每个审稿人标记的涉猎的所有研究领域关键词，进一步利用TF-IDF算法计算关联程度，初步筛选出TF-IDF关联度计算值最高的R₁个审稿人。其中需要排除利益冲突审稿人，例如若审稿人是该待审论文的共同作者，则排除该审稿人。

第四方面，进行审稿人二筛。对这R₁个初筛审稿人进行排序，得到R₂个二筛审稿人。

鉴于审稿人数据库很庞大且数据不断更新，使得可以得到实时且充足的审稿人候选以及每位审稿人的审稿论文序列。因为每位审稿人的研究方向、学识及兴趣点是不断变化的，所以审稿人的审稿论文序列中每个论文之间是具有相互关联性的。

因此本申请实施例提出一种新的模型叫做BERT4Rev，它采用来自Transformers的双向编码器BERT(Bidirectional Encoder Representations from Transformers)表示一个新任务：即审稿人的审稿论文顺序序列的推荐。利用自我注意力机制(self-attention)去捕获审稿论文序列中每个审稿论文之间的依赖关系，而无需考虑它们在序列中的距离。将审稿人推荐任务转化成审稿人的审稿论文顺序序列的推荐任务引入BERT4Rev模型结构，根据历史审稿情况预测方向，训练模型预测审稿人下一个时间步的论文特征向量，再通过计算其与目标待审论文特征向量的相似度值来进行排序。

例如，在序列推荐中，

记作所有审稿人，

记作所有论文，某个审稿人

的审稿论文序列记作

；其中，

是 u 在时间步骤t与之审稿的论文特征向量，M是审稿人u的审稿序列的长度。

给定审稿历史S_u，顺序推荐旨在预测审稿人u将在时间步n_m+1审稿的论文特征向量，它可以形式化为预测审稿人u在时间步n_m+1的论文特征向量，通过对这个预测论文向量和目标论文向量计算相似度，选取相似度最大的R₂名审稿人。

图2示出了本申请实施例提供的BERT4Rev模型结构图，模型由嵌入层、Transformer层组和输出层组成。

Embedding layer嵌入层：输入是审稿人的审稿论文特征序列

，为每个审稿论文特征序列的每个论文特征向量v_i加上相应的位置嵌入向量p_i，h_i = v_i + p_i，经过嵌入层得到新的输入序列

，最后将得到新的输入序列输入到Transformer层。

Transformer层组：由L个双向Transformer（Trm）层堆叠而成，反复将上层Transformer层输出作为这层Transformer层的输入。每个Transformer层包含两个子层，一个多头自注意力机制子层(Multi-Head Self-Attention)和一个前馈网络子层(Position-wise Feed-Forward Network)。

给定长度为t的输入序列

，计算每个第l层的第i个位置的隐藏状态

，建立第l层所有隐藏状态矩阵

，最后一层隐藏状态序列

。

多头自注意力机制子层：将H^l线性投影到h个子空间中，具有不同的、可学习的线性投影，然后并行应用h个注意力函数以产生连接并再次投影的输出表示，

，

，

，

是可学习的参数，核心计算函数是

。

前馈网络子层：将位置前馈网络应用于自注意力子层的输出，在每个位置单独且相同。它由两个仿射变换组成，中间有一个高斯误差线性单元(GELU)激活。

输出层：在经过多层Transformer层之后，得到输入序列所有项目的最终输出

。假设屏蔽了时间步骤t项目v_t，然后根据h_t ^L预测被屏蔽的项目v_t。具体方法为：将h_t ^L输入到全连接层，得到最终预测论文特征向量h_t，和论文特征向量v_t计算相似度，相似度差异作为loss，选取相似度最大的R₂名审稿人作为二筛审稿人。

输出每位候选审稿人的预测论文向量h_t，第i位审稿人对应的h_t记作h_ti，

，整体记作原始矩阵

。

关于BERT4Rev模型的训练可以采用两种训练方法。一种是随机屏蔽输入序列中百分之ρ的任何项（替换为特殊标记“[mask]”），然后仅根据被屏蔽项的原始特征向量及上下文预测论文特征向量。另一种是将特殊标记“[mask]”附加到审稿人论文序列的末尾，然后根据该标记的最终隐藏表示预测最终项。最终，将损失定义为所有屏蔽项的loss平均值。

在BERT4Rev模型预测中，对这R₁个初步审稿人预测下一个时间步的论文特征向量，计算其与实际待审稿的论文特征向量之间的相似度，选取相似度最大的R₂个作为候选审稿人。在预测的时候，尽管是对R₁个初筛审稿人进行预测，因为是使用训练好的模型，所以预测速度非常快。

第五方面，进行审稿人三筛。对上述R₂个候选审稿人进行再排序，获取最终推荐的审稿人。

提出了个性化矩阵融合审稿人特征矩阵的编码方式，对排序模型得到的预测论文特征向量组成的原始矩阵融入了个性化矩阵PV来学习审稿人特定的编码函数，该函数能够对候选审稿人之间以及待审稿论文对候选审稿人之间的个性化相互影响进行建模，再利用自我注意力机制整合审稿人之间和其他额外信息的相互影响，包括待审论文信息和初始排名顺序，经过Transformer层等层得到每个审稿人的推荐概率。

本申请实施例提出一种重排序模型叫做RERANK4Rev，对排序后的序列进行重新排序，该再排序模型主要考虑以下两点：第一，考虑待候选候选审稿人之间的影响，第二，考虑该待审论文对候选审稿人之间的影响，并且融入了待审者和审稿人辅助信息，这样的推荐更加个性化。其中考虑待审论文对推荐审稿人的影响，是因为待审论文对推荐的候选审稿人有着一种反馈作用，比如待审论文属于工程性很强的论文，推荐的审稿人又有大量是相关领域的企业研发者，那么选择审稿人所属企业越权威推荐率越高。

图3为本申请实施例提供的RE-RANK4Rev结构图，输入的是R₂个二筛审稿人（reviewer）的预测论文特征向量h_t，每位审稿人的预测论文特征向量包含了该审稿人审稿论文的全部特征，所以可以作为该审稿人的特征向量。第i位审稿人对应的h_t记作h_ti，

，整体记作原始矩阵

。Initial list为初始列表，Inputlayer 为输入层，Encoding layer为编码层，Output layer为输出层，Re-ranked list为重排序后的审稿人名单。

步骤1：建立个性化矩阵的预训练模型，使用该模型最后sigmoid 层之前的隐藏向量作为个性化向量pv_i，从而得到个性化矩阵

，pv表示隐藏层的向量维度。个性化矩阵考虑了待审论文与每个审稿人之间的影响。

个性化矩阵PV是通过建立预训练模型获取，图4为本申请实施例提供的个性化矩阵预训练模型示意图；给定审稿人所有历史审稿论文特征向量(H_u)、预测论文特征向量(h_ti)、待审论文和审稿人的辅助信息(s)，审稿人的辅助信息包括待审论文和审稿人隶属行业、工作单位等；再经过该预训练模型得到该代审论文被该审稿人审稿概率。使用该模型最后sigmoid 层之前的layer_n层隐藏向量输出作为个性化向量pv_i。图4的pv_i作为图3的一部分输入，layer_n是pv_i对应的那一层，即sigmoid前一层。

步骤2：将原始特征矩阵X和作为额外特征的个性化矩阵PV拼接起来得到中间嵌入矩阵

，

。

步骤3：为了利用候选审稿人的初步排列顺序信息，将可学习的位置嵌入矩阵

注入到输入嵌入矩阵E′中，得到嵌入矩阵E′′，

，

。可学习的位置嵌入矩阵作为已知量注入。

步骤4：使用一个前馈网络FFN将特征矩阵E′′转换为

。d为隐藏层的维度d维。

步骤5：将E中的序列化向量输入到Transformer层，学习R₂个二筛审稿人之间的影响，将得到的隐藏状态向量继续输入到一个线性层，紧接是一个softmax层，最后输出是每个审稿人的推荐概率Score(i_n)。

步骤6：选取推荐概率处于设定范围内的候选审稿人作为最后推荐审稿人人选。

综上所述，本申请实施例提供了一种论文审稿人确定方法，通过根据待审论文确定待审论文特征关键词和待审论文特征向量，基于所述待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选。采用了层层筛选流程，使得论文审稿人的推荐更加精准。

基于相同的技术构思，本申请实施例还提供了一种论文审稿人确定系统，如图5，所述系统包括：

初始匹配模块501，用于根据待审论文确定待审论文特征关键词和待审论文特征向量，基于所述待审论文特征关键词在审稿人数据库中匹配R₀位审稿人；

一层筛选模块502，用于计算R₀位审稿人与所述待审论文的关联度，以筛选出设定关联度范围的R₁位初筛审稿人和每位初筛审稿人的审稿论文特征向量；

二层筛选模块503，用于计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；

三层筛选模块504，用于将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图6，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。

其中，存储器201可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个物理端口203（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质，请参考图7，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种论文审稿人确定方法，其特征在于，所述方法包括：

计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，以筛选出设定相似度范围的R₂位二筛审稿人和每位二筛审稿人的预测论文特征向量；将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选；R₀、R₁、R₂和 R₃为大于一的整数；

所述计算R₁位初筛审稿人在下一个时间步的预测论文特征向量与所述待审论文特征向量的相似度值，包括：

嵌入层在每位初筛审稿人的审稿论文特征序列中的每个审稿论文特征向量中加上对应的位置嵌入向量，得到输入序列；将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列；将隐藏状态序列输入全连接层，得到R₁位初筛审稿人在下一个时间步的论文特征向量；根据所述论文特征向量和所述待审论文特征向量计算相似度值；

所述将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，包括：

2.如权利要求1所述的方法，其特征在于，所述将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列，包括：

分别计算每位R₁位初筛审稿人的最后一层的当前时间的隐藏状态向量，以建立R₁位初筛审稿人的下个时间特征状态矩阵，并输出最后一层隐藏状态序列。

3.如权利要求1所述的方法，其特征在于，所述个性化矩阵是基于审稿人的所有历史审稿论文特征向量、预测论文特征向量、待审论文和审稿人信息，使用层隐藏向量输出作为个性化向量而得到的。

4.如权利要求1所述的方法，其特征在于，根据待审论文确定待审论文特征关键词和待审论文特征向量，包括：

5.如权利要求1所述的方法，其特征在于，所述审稿人数据库用于存储所有审稿人信息、每位审稿人按时间排列的所有审稿论文和审稿论文的论文特征向量；每位审稿人信息中标记有审稿人的研究领域关键词，所述研究领域关键词是基于审稿人的历史审稿论文和发表论文中的研究领域关键词提取的。

6.一种论文审稿人确定系统，其特征在于，所述系统包括：

三层筛选模块，用于将二筛审稿人的预测论文特征向量组成的原始矩阵融入个性化矩阵得到每位二筛审稿人的编码函数，以计算二筛审稿人的推荐概率，再筛选出设定推荐概率范围的R₃位三筛审稿人，作为待审论文的审稿人候选；R₀、R₁、R₂和 R₃为大于一的整数；

所述二层筛选模块，具体用于：嵌入层在每位初筛审稿人的审稿论文特征序列中的每个审稿论文特征向量中加上对应的位置嵌入向量，得到输入序列；将输入序列输入多个双向Transformer层，输出最后一层隐藏状态序列；将隐藏状态序列输入全连接层，得到R₁位初筛审稿人在下一个时间步的论文特征向量；根据所述论文特征向量和所述待审论文特征向量计算相似度值；

所述三层筛选模块，具体用于：将每位二筛审稿人的预测论文特征向量组成的原始矩阵和个性化矩阵拼接，得到中间嵌入矩阵；将已知的位置嵌入矩阵输入所述中间嵌入矩阵，得到嵌入矩阵；利用前馈网络特征矩阵将所述嵌入矩阵转换为隐藏矩阵；将所述隐藏矩阵中的序列化向量输入到Transformer层，将输出的隐藏状态向量继续输入到一个线性层和一个softmax层，得到每个二筛审稿人的推荐概率。

7.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1-5任一项所述的方法。