CN112668305A

CN112668305A - 一种基于注意力机制的论文引用量预测方法与系统

Info

Publication number: CN112668305A
Application number: CN202011393595.3A
Authority: CN
Inventors: 王兴刚; 齐继扬; 刘文予
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-04-16
Anticipated expiration: 2040-12-03
Also published as: CN112668305B

Abstract

本发明公开了一种基于注意力机制的论文引用量预测方法与系统。对于待预测的论文，首先使用深度神经网络来提取特征，然后通过注意模块过滤掉那些不重要的句子，从而将较长的论文简化为较短的文本，再将这个精简的版本输入预测模型，即可在硬件资源有限的情况下充分利用论文信息，来更准确地预测论文引用量。该方法的预测过程分为两步：第一步，并列输入文章中的所有句子，得到每个句子的注意力权重，即为每个句子的重要性；第二步，根据每个句子的重要性，只选择一些关键的句子拼接成精简的文章，最后根据精简的文章来预测论文的引用量。本发明还提供了相应的基于注意力机制的论文引用量预测系统。

Description

一种基于注意力机制的论文引用量预测方法与系统

技术领域

本发明属于自然语言处理技术领域，更具体地，涉及一种基于注意力机制的论文引用量预测方法与系统。

背景技术

在科技大数据中，占比最大、分量最重的莫过于学术论文。近年来，论文投稿量呈井喷式发展，拿计算机视觉领域的最重要会议之一CVPR来说，2001年投稿数不到一千，而2019年投稿量增长到五千以上，2020年投稿量更是超过6500。与此形成鲜明对比的是每年的录稿数，2019年录稿1300篇，2020年录稿1470篇，接收率仅在22％左右，且呈下降趋势。另外，2020年CVPR审稿人接近四千，可以预见的是，随着时间的发展，审稿的人力物力消耗将会越来越大。

近年来，基于NLP技术(如：Transformer、Bert)的文本理解技术取得了巨大的成功。然而，由于模型的参数过多，难以处理较长文本的输入(受限于GPU显存)，更加无法处理整个文章。

发明内容

本发明的目的在于提供一种基于注意力机制的论文引用量预测方法与系统，基于注意力机制的论文引用量预测模型——Paperformer，实现了基于Transformer的全文内容理解的论文引用量预测。该方法可以有效地获取论文中的关键信息，利用有限的硬件资源，得到高质量的引用量预测结果。

为实现上述目的，按照本发明的一个方面，提供了一种基于注意力机制的论文引用量预测方法，包括下述步骤：

(1)特征提取：

(1.1)使用预训练的词向量模型，将输入的每个单词转化为对应的词向量；

(1.2)句子中所有的词向量拼接后送入预训练的XLNet得到句子基础特征，其中XLNet中隐藏层的数目为12，注意力层的头数为12，特征的维度为768维。之后，要根据当前句子在文章中出现的位置，在XLNet预训练模型中找到对应位置的位置特征(positionembedding)，将此位置特征与句子基础特征相加后，得到句子特征；

(2)训练注意力模型(第一阶段)：

(2.1)对文章中的每个句子通过注意力模型来计算注意力权重，输入步骤(1.2)中得到的句子特征，输出此句子的注意力权重。注意力模型中，注意力权重的计算公式如下：

其中h₁,h₂…h_k为步骤(1.2)得到的所有K个句子特征，即注意力模型的输入，K为文章中的句子数量；V,U,w为预设值，均为注意力模型中的参数；a_k为输出的第k个句子的注意力权重，0<a_k<1且

(2.2)对于步骤(1.2)得到的所有K个句子特征，都分别乘上步骤(2.1)得到的相应句子的注意力权重a_k，再将它们相加。通过这种加权和的融合方式即可得到第一阶段文章特征；

(2.3)根据论文发表的时间，首先构建独热编码。例如，我们使用的数据为2000年至2010年共11年的论文数据，因此我们构建的独热编码为11维，只有年份对应的数位为1，其他数位均为0，如2000、2001、…、2010年对应的编码为10000000000、01000000000、00000000001。将步骤(2.2)中得到的第一阶段文章特征，先与论文发表年份的独热编码拼接，再输入到一层全连接层来预测论文引用量的对数表示c_log，其中c_log＝log(c_pred+1)，c_pred为最终的预测的引用量。全连接层的输入维度为768，输出维度为1，最后可由公式c_pred＝exp(c_log)-1得到最终预测的引用量。

(2.4)将从步骤(2.3)获取的论文引用量与真实引用量计算损失，损失函数的计算公式为L＝|c_log-log(c_gt+1)|，其中c_log为预测的引用量的对数表示，c_gt为真实引用量。然后利用反向传播算法对注意力模型进行训练，得到训练好的注意力模型；

(3)训练最终的引用量预测模型(第二阶段)：

(3.1)利用步骤(1.2)中提取的句子特征，和步骤(2)中训练好的注意力模型，得到文章中所有句子的注意力权重。然后按权重从大到小排序，在满足硬件资源限制的条件下，尽可能多地挑选出权重较大的若干关键句子，将这些关键句子拼接后，得到论文的精简文本；

(3.2)将步骤(3.1)得到的论文的精简文本再次通过步骤(1)提取特征，送入XLNet得到第二阶段文章特征，之后与论文发表年份的独热编码拼接，再通过一层全连接层，来预测论文引用量的对数表示c_log，经过转化即可得到最终预测的论文引用量c_pred。关于发表年份的独热编码以及引用量的对数表示，具体见步骤(2.3)；

(3.3)将从步骤(3.2)获取的论文引用量与真实引用量计算损失，然后利用反向传播算法对最终的引用量预测模型进行训练，得到训练好的引用量预测模型。关于损失函数，具体见步骤(2.4)；

(4)利用上述训练好的引用量预测模型对输入论文进行引用量预测，包括如下子步骤：

(4.1)对输入论文的每个句子进行步骤(1)中的特征提取，得到每个句子的特征，再经过步骤(3.1)得到论文的精简文本；

(4.2)利用步骤(3)训练好的引用量预测模型，输入步骤(4.1)的精简文本后，即可得到预测的论文引用量c；

按照本发明的另一方面，还提供了一种基于注意力机制的论文引用量预测系统，其特征在于，所述系统包括特征提取模块、注意力模型、最终引用量预测模型，训练过程包括注意力模型第一阶段、引用量预测模型第一阶段，其中：

所述特征提取模块，用于对输入的论文进行统一的特征编码，得到统一的特征表达，具体包括词向量提取子模块和深度神经网络特征计算子模块，其中：

所述词向量提取模块，用于将每个单词转化为对于的词向量；

所述深度神经网络特征计算子模块，用于将词向量的拼接转化为更高维的句子特征。

所述注意力模型，用于根据输入的句子特征来计算其注意力权重，作为辅助来优化最后的预测结果。

所述最终引用量预测模型，用于利用特征提取模块和注意力模型的输入，来对论文引用量做出较高精度的预测。

所述注意力模型第一阶段，用于训练注意力模型，优化注意力模型内的参数。

所述引用量预测模型第一阶段，用于训练特征提取模块和最终引用量预测模型，使其能最终做出较高精度的预测。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)能适应任意长度的输入文本：本发明方法与以往的基于的预测方法相比，通过注意力权重只选取关键句子作为输入，不受输入文本长度过长的影响；

(2)准确度高：论文长度一般较长，冗余信息较多，本发明方法与以往大多数方法只截取前面的句子的做法不同，通过网络去学习哪些句子对论文引用量有更大的影响，只考虑关键信息，忽视冗余的干扰信息，准确度更高；

(3)节约成本：本发明方法不受限于文本长度过长导致的硬件资源不足的情况，降低了对硬件成本的要求；同时，由于只需要输入精简的文本，网络预测的时间成本也更低；

附图说明

图1是本发明基于注意力机制的论文引用量预测方法的流程图；

图2是模型预测的注意力分布趋势图，横轴从左往右表示句子在文章中的位置从前到后，纵轴表示最多选择64个词的情况下各个位置的句子被选中的次数，从图中可以看到，文章的开头和结尾由于有标题、摘要、总结这些关键信息，所以被选中的次数较多，这也验证了我们方法的有效性。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

S2ORC数据集：该数据集是由艾伦人工智能研究院牵头制作的文章数据集，我们筛选了其中2000年到2010年的82k篇计算机领域论文，计算出它们在此数据集中8年内的引用量，作为我们的实验数据集。我们将其中90％用于训练，10％做测试。

Spearman Rank评价指标：该评价指标公式为

它专注于对排序准确性的评价。相比L2距离、L1距离这些直接的度量方法，此评价指标避免了论文引用量分布不均匀带来的评价不公平问题。

如图1所示，本发明基于注意力机制的论文引用量预测方法包括以下步骤：

(1)特征提取：

(2)训练注意力模型(第一阶段)：

(3)训练最终的引用量预测模型(第二阶段)：

以下通过实验实例来证明本发明的有效性，实验结果证明本发明能够提高论文引用量预测的准确率。

本发明在我们基于S2ORC生成的数据集上，与之前的朴素方法进行了对比，表1是本发明方法和用于比较的4种对比方法在该数据集上的spearman rank指标的表现，结果的数值越大表示论文引用量预测的准确率越高，从表中可以看到，本发明方法Paperformer提升非常明显。

表1不同方法的spearman rank指标表现

图2是本发明模型预测的注意力分布趋势图，横轴从左往右表示句子在文章中的位置从前到后，纵轴表示最多选择64个词的情况下各个位置的句子被选中的次数。从图中可以看到，文章的开头和结尾由于有标题、摘要、总结这些关键信息，所以被选中的次数较多，这也验证了我们方法的有效性。

进一步地，本发明还提供了一种基于注意力机制的论文引用量预测系统，所述系统包括特征提取模块、注意力模型、最终引用量预测模型，训练过程包括注意力模型第一阶段、引用量预测模型第一阶段，其中：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的论文引用量预测方法，其特征在于，所述方法包括下述步骤：

(1)特征提取：

(1.2)句子中所有的词向量拼接后送入预训练的XLNet得到句子基础特征，再与XLNet的对应位置特征相加进行融合，得到句子特征；

(2)训练注意力模型：

(2.1)对文章中的每个句子通过注意力模型来计算注意力权重，输入步骤(1.2)中得到的句子特征，输出此句子的注意力权重；

(2.2)根据得到的注意力权重，对步骤(1.2)中得到的所有句子特征进行加权和，通过这种融合方式得到第一阶段文章特征；

(2.3)将步骤(2.2)中得到的第一阶段文章特征，先与论文发表年份的独热编码拼接，再输入到一层全连接层来预测论文引用量的对数表示c_log，此对数表示经过转化即可得到预测的论文引用量c_pred；

(2.4)将从步骤(2.3)获取的论文引用量与真实引用量计算损失，然后利用反向传播算法对注意力模型进行训练，得到训练好的注意力模型；

(3)训练最终的引用量预测模型：

(3.1)利用步骤(1.2)中提取的句子特征，和步骤(2)中训练好的注意力模型，得到文章中所有句子的注意力权重，然后按权重从大到小排序，在满足硬件资源限制的条件下，尽可能多地挑选出权重较大的若干关键句子，将这些关键句子拼接后，得到论文的精简文本；

(3.2)将步骤(3.1)得到的论文的精简文本再次通过步骤(1)提取特征，送入XLNet得到第二阶段文章特征，之后与论文发表年份的独热编码拼接，再通过一层全连接层，来预测论文引用量的对数表示c_log，经过转化即可得到最终预测的论文引用量c_pred；

(3.3)将从步骤(3.2)获取的论文引用量与真实引用量计算损失，然后利用反向传播算法对最终的引用量预测模型进行训练，得到训练好的引用量预测模型；

(4.2)利用步骤(3)训练好的引用量预测模型，输入步骤(4.1)的精简文本，得到预测的论文引用量c。

2.根据权利要求1所述的基于注意力机制的论文引用量预测方法，其特征在于，所述步骤(1.2)具体为：对于用预训练词向量层提取的句子基础特征，根据当前句子在文章中出现的位置，在XLNet预训练模型中找到对应位置的位置特征，将此位置特征与句子基础特征相加后，作为句子特征来使用，其中XLNet中隐藏层的数目为12，注意力层的头数为12，特征的维度为768维。

3.根据权利要求1或2所述的基于注意力机制的论文引用量预测方法，其特征在于，所述步骤(2.1)具体为：注意力模型中，注意力权重的计算公式如下：

其中K为文章中的句子数量；h₁,h₂…h_k为步骤(1.2)得到的所有K个句子特征，即注意力模型的输入；V,U,w为预设值，均为注意力模型中的参数；a_k为输出的第k个句子的注意力权重，0<a_k<1且

4.根据权利要求1或2所述的基于注意力机制的论文引用量预测方法，其特征在于，所述步骤(2.2)具体为：对于步骤(1.2)得到的所有K个句子特征，都分别乘上相应句子的注意力权重a_k，再将它们相加，此加权和即为第一阶段文章特征。

5.根据权利要求1或2所述的基于注意力机制的论文引用量预测方法，其特征在于，所述步骤(2.3)及步骤(3.2)中，关于年份独热编码和引用量的对数表示具体为：

根据论文发表的时间，首先构建独热编码，对2000年至2010年共11年的论文数据，构建的独热编码为11维，只有年份对应的数位为1，其他数位均为0，如2000、2001、…、2010年对应的编码分别为10000000000、01000000000、00000000001；

对于步骤(2.2)得到的第一阶段文章特征，与年份对应的独热编码拼接后送入一层全连接层，来预测引用量的对数表示c_log，其中c_log＝log(c_pred+1)，c_pred为最终的预测的引用量，全连接层的输入维度及文章的特征维度，为768；输出维度为1，即预测的c_log，之后由公式c_pred＝exp(c_log)-1得到最终预测的引用量。

6.根据权利要求1或2所述的基于注意力机制的论文引用量预测方法，其特征在于，所述步骤(2.4)及步骤(3.3)中损失函数的计算具体为：损失函数的计算公式为L＝|c_log-log(c_gt+1)|，其中c_log为预测的引用量的对数表示，c_gt为真实引用量。

7.根据权利要求1或2所述的基于注意力机制的论文引用量预测方法，其特征在于，所述步骤(3.1)具体为：对于论文精简文本的获取，首先利用句子特征和训练好的注意力模型，来提取文章中所有句子的注意力权重，然后优先选择权重较大的句子，根据权重从大到小的顺序选出关键句子，直到硬件资源充分利用为止，将这些关键句子拼接，不同句子中间加入特定单词“<sep>”作为分界符，得到论文的精简文本。

8.一种基于注意力机制的论文引用量预测系统，其特征在于，所述系统包括特征提取模块、注意力模型模块、最终引用量预测模型，训练过程包括注意力模型第一阶段、引用量预测模型第一阶段，其中：

所述词向量提取模块，用于将每个单词转化为对应的词向量；

所述深度神经网络特征计算子模块，用于将词向量的拼接转化为更深层次的句子特征；

所述注意力模型模块，用于根据输入的句子特征来计算其注意力权重；

所述最终引用量预测模型模块，用于利用特征提取模块和注意力模型的输入，来对论文引用量做出较高精度的预测；

所述注意力模型第一阶段，用于训练注意力模型，优化注意力模型内的参数；