CN110598954B

CN110598954B - 基于深度学习的利用评审意见预测论文被引用数的方法

Info

Publication number: CN110598954B
Application number: CN201910902981.1A
Authority: CN
Inventors: 赵鑫; 李思晴; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-03-11
Anticipated expiration: 2039-09-24
Also published as: CN110598954A

Abstract

本发明提供了一种基于深度学习的利用评审意见预测论文被引用数的方法，其利用深度组件和宽度组件联合对论文评审意见进行训练；深度组件包括摘要‑评论匹配机制以及交叉评论匹配机制，用于学习评审意见的深度特征；首先，所述摘要‑评论匹配机制抽取出与摘要相关的评论，去除对预测论文被引用数不相关的信息；然后，所述交叉评论匹配机制捕捉不同评审意见之间的一致性和多样性，以此来刻画多个评审员之间的交互；同时，通过所述宽度组件集成宽度特征；最后，利用深度组件和宽度组件联合进行论文被引用数的预测。本发明深度刻画了评审意见中的语义信息，丰富了语义表示，通过挖掘评审意见的文本信息，使得论文被引用数的预测更准确。

Description

基于深度学习的利用评审意见预测论文被引用数的方法

技术领域

本发明涉及预测论文被引用数的方法技术领域，尤其是涉及一种基于深度学习的利用评审意见预测论文被引用数的方法,它利用深度学习以及注意力机制对论文的摘要和评审意见文本进行建模。

背景技术

近年来，学术论文的数量正在大幅增长，学术会议EMNLP 2018年的论文提交数量和被接收数量已经分别达到了2231篇和549篇。对于如此庞大数量的学术论文，如何有效地评估科学文献的影响力是一项长期的研究挑战。一个典型的评估一篇学术论文影响力的方法就是通过论文发表后的被引用数量，来反映该篇论文在研究社区的影响力。

因此，很多研究学者发明了预测一篇论文被引用数的方法，来衡量论文的影响力。早期的方法是将预测论文被引用数当成分类任务或者回归任务，并抽取一些有用的特征信息来进行预测，他们的关注点主要在于寻找有用的特征。模型主要有线性回归(LinearRegression,LR)、k近邻(K-NearestNeighbor,KNN)、支持向量回归(Support VectorRegression,SVR)以及渐进梯度回归树(Gradient BoostRegression Tree,GBRT)。后续的研究开始正式地定义预测论文被引用数这一任务，并用实验研究了与被引用数相关的各种可能因素。此外，还有一些研究学者将论文被引用数预测任务作为时间序列任务，他们主要关注论文被引用数在时序上的特征，来预测其增长趋势。虽然以上种种研究在这项任务中取得了很大的进展，但是他们只用了论文本身以及作者的信息，忽略了评审意见这一重要的文本信息。

同行评审是一种广泛采用的论文评估机制，一般会有多个评审员被指派来决定一篇论文是否被接收。在评审过程中，评审员会根据多方面的因素来评价一篇论文的质量，包括原创性、正确性、内容以及可读性。这些评论包含了领域专家的评价，所以，一篇论文的评审意见文本应该会对预测其未来影响力有很大帮助。许多研究者基于私有的评论数据，在不同方面研究了同行评审的有效性。最近，为了降低研究科学界同行评审的障碍，一个公开的评审数据集被放出。基于这个数据集，有其他学者研究了如何利用评审意见来预测一篇论文是否被接收。本发明首次使用评审意见来预测论文的被引用数。

公开于该背景技术部分的信息仅仅旨在加深对本申请的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于深度学习的利用评审意见预测论文被引用数的方法，以解决上述现有技术中存在的技术问题。

为解决上述技术问题，本发明提供的一种基于深度学习的利用评审意见预测论文被引用数的方法，其特征在于，所述方法利用深度组件和宽度组件联合对论文评审意见进行训练；其中，

所述深度组件包括摘要-评论匹配机制以及交叉评论匹配机制，用于学习评审意见的深度特征；

首先，所述摘要-评论匹配机制抽取出与摘要相关的评论，去除对预测论文被引用数不相关的信息；然后，所述交叉评论匹配机制捕捉不同评审意见之间的一致性和多样性，以此来刻画多个评审员之间的交互；同时，通过所述宽度组件集成宽度特征；最后，利用深度组件和宽度组件联合进行论文被引用数的预测。

作为一种进一步的技术方案，所述深度组件包括三个阶段：摘要和评论句子编码阶段、摘要-评论匹配阶段和交叉评论匹配阶段。

作为一种进一步的技术方案，所述摘要和评论句子编码阶段首先用预训练好的word2vec模型来编码词向量，然后使用基于卷积神经网络的方法来编码句子向量，得到摘要的句子文本表示

以及K个评论的句子文本表示

其中

和

分别是摘要和第k个评论的第j个句子的向量表示，n_d和n_k分别是论文d的摘要和第k个评论的句子个数。

作为一种进一步的技术方案，所述摘要-评论匹配阶段由基于GRU的循环神经网络，配合注意力机制和门机制，生成摘要感知的评论文本表示

作为一种进一步的技术方案，所述，交叉评论匹配阶段首先将评论的文本表示根据其他评论平均池化后的向量进行正交分解，分成平行向量

和垂直向量

其中，平行向量编码了与其他评论相同的语义内容，垂直向量编码的是其他评论中未提到的内容；然后运用注意力机制丰富评论的语义表示，得到包含了更多语义信息的评论表示向量

最后对一篇论文的所有评论表示进行平均池化，得到最终的评论表示z_d。

采用上述技术方案，本发明具有如下有益效果：

本发明提出了一种联合宽度和深度组件模型整合宽度特征和深度特征，用匹配机制对评审意见文本进行建模深度学习对评审意见文本进行建模，来预测论文被引用数的方法，有效地学习论文摘要与评审意见的关系，同时分析不同评审员之间的不同意见，使得评审文本的表示更加语义丰富，论文被引用数预测效果更加准确。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的Attention结构图；

图2为本发明的模型图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合具体的实施方式对本发明做进一步的解释说明。

如图2所示，本发明提供的一种基于深度学习的利用评审意见预测论文被引用数的方法，其特征在于，所述方法利用深度组件和宽度组件联合对论文评审意见进行训练；对于一篇论文，包含三部分信息，分别是摘要文本a_d，K个评审员的评审意见

以及宽度特征x_d。通过深度组件和宽度组件两部分联合训练预测论文的被引用数。其中，

在该实施例中，作为一种进一步的技术方案，所述深度组件包括三个阶段：摘要和评论句子编码阶段、摘要-评论匹配阶段和交叉评论匹配阶段。

在该实施例中，作为一种进一步的技术方案，所述摘要和评论句子编码阶段首先用预训练好的word2vec模型来编码词向量，然后使用基于卷积神经网络的方法来编码句子向量，得到摘要的句子文本表示

以及K个评论的句子文本表示

其中

和

在该实施例中，作为一种进一步的技术方案，评论文本反映的是评审员对于一篇论文的主观评价，一篇评论可能包含了很多方面的评价，其中有一些与预测论文被引用数无关的信息，比如要求放出源代码或者指出的拼写错误等。因此，接下来通过摘要的信息，找出评论中核心的部分。所述摘要-评论匹配阶段由基于GRU的循环神经网络，配合注意力机制(attention，其模型结构如图1所示)和门机制，生成摘要感知的评论文本表示

具体计算过程如下：

新的评论第t个句子记为

其中p_t是基于评论和摘要句子交互计算出来的注意力向量：

其中W_s是需要学习的参数矩阵，α是注意力系数，

是对

加入了门机制的更新：

其中“⊙”是向量的点积操作。

最终得到了与摘要相关的评论句子向量表示

通过摘要编码了更多的相关信息。然后将首尾的句子向量拼接，得到评论文本级别的向量表示：

在该实施例中，作为一种进一步的技术方案，所述，交叉评论匹配阶段首先将评论的文本表示根据其他评论平均池化后的向量进行正交分解，分成平行向量

和垂直向量

其中，平行向量编码了与其他评论相同的语义内容，垂直向量编码的是其他评论中未提到的内容；然后运用注意力机制(attention，其模型结构如图1所示)丰富评论的语义表示，得到包含了更多语义信息的评论表示向量

最后对一篇论文的所有评论表示进行平均池化，得到最终的评论表示z_d。具体计算过程如下：

通过交叉评论匹配层，同时考虑不同评论之间的覆盖性和多样性，来学习具有更丰富语义的评论文本表示。对于一个评审员的评论，首先将其在其他评论的向量方向上进行正交分解，得到平行向量和垂直向量：

其中，平行向量

编码了与其他评论中相同的内容，垂直向量

编码了其他评论中没有提到的内容。因此，正交分解之后的向量代表了更加丰富的语义信息。这里，使用平均池化向量作为其他评论的向量表示。

不同的评审员对于一篇论文可能有不同的观点，因此，接下来采用注意力机制来进一步丰富评论的语义表示：

然后，将以上三个向量表示拼接起来，通过一个全连接层得到第k个评论的最终向量表示

该向量表示在某种程度上同时获取了不同评审员之间的覆盖性以及多样性。最后，对一篇论文的所有评论进行平均池化，得到一篇论文d的评论向量表示z_d：

宽度组件包含重要的宽度特征：主题分布、主题多样性、论文发表年份、作者影响力。其中，主题分布通过潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型来学习一篇论文的主题概率分布。然后通过计算主题概率分布的熵来衡量一篇论文的主题多样性。作者影响力采用作者h-index的平均数。所有宽度特征用x_d来表示。

最后，将深度组件和宽度组件整合在一起，进行论文被引用数的预测：

综上，本发明利用宽度和深度组件联合学习的框架，通过文本匹配机制对评论文本进行建模；以实现有效地学习论文摘要与评审意见的关系，同时分析不同评审员之间的不同意见，使得评审文本的表示更加语义丰富，论文被引用数预测效果更加准确。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。