CN113468867A

CN113468867A - 一种基于Attention机制的参考文献引用合法性预测方法

Info

Publication number: CN113468867A
Application number: CN202110628241.0A
Authority: CN
Inventors: 韦晨; 张永军; 冯万利; 陈伯伦
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-10-01
Anticipated expiration: 2041-06-04
Also published as: CN113468867B

Abstract

本发明公开了一种基于Attention机制的参考文献引用合法性预测方法,将目标文章的单词序列[w1,w2,w3,…,wn]通过时间编码和位置编码后传入到Attention机制中，计算得到查询矩阵Query和键矩阵Key；使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1,s2,s3,…,sn]进行编码得到编码后的键矩阵Value；利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值；将计算过的Attention值通过一个全连接层进行线性变换；最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率。本发明适用于普遍地检查在目标文章中参考文献引用合法性的预测问题。

Description

一种基于Attention机制的参考文献引用合法性预测方法

技术领域

本发明属于注意力机制和预测技术领域，具体涉及一种基于Attention机制的参考文献引用合法性预测方法。

背景技术

参考文献是论文的重要组成部分，正确引用参考文献既体现了作者对科研工作的严谨和认真，又能体现对做出已有研究成果的作者的尊重。引用合法性，是指目标文章中所提到的参考文献是否在文章中得到合法引用。参考文献的正确引用在学术传播和发展过程中有着重要的作用。通过Attention机制发掘学术论文和其引用参考文献之间的关系，获得合法引用和不合法引用之间的区别，从预测参考文献的引用合法性。

但是，近年来，在论文写作中存在一定的参考文献假引用、引用不合法等情况。在上述的状态中，通常与论文内容、署名相关的学术不端行为更容易受到关注，而参考文献的学术不端行为则经常被忽略。这些情况影响着学术风气，然而又很难通过人工的情况进行核对查验。

发明内容

针对上述问题，本发明通过对论文原文和所引用的参考文献的全文，采用一种基于Attention机制的参考文献引用合法性预测方法，实现高准确率的参考文献引用合法性预测。

本发明通过以下技术方案实现：

一种基于Attention机制的参考文献引用合法性预测方法,所述的引用合法性，是指目标文章中所提到的参考文献是否在文章中得到合法引用；将目标文章的单词序列[w1,w2,w3,…,wn]通过时间编码和位置编码后传入到Attention机制中，计算得到查询矩阵Query和键矩阵Key；使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1,s2,s3,…,sn]进行编码得到编码后的键矩阵Value；利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值；将计算过的Attention值通过一个全连接层进行线性变换；最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率；具体步骤如下：

步骤1：将目标文章的单词序列[w1,w2,w3,…,wn]输入进行时间编码，得到编码过后词向量矩阵A；

步骤2：利用Attention机制对词向量矩阵A进行两次线性变换，得到查询矩阵Q，键矩阵K；

步骤3：对需要预测的参考文献的单词序列r₁,r₂,r₃,…,r_n进行词嵌入，得到一个更高维度的值矩阵V；

步骤4：对得出的查询矩阵Q、键矩阵K和值矩阵V计算相应的Attention值，得到注意力值矩阵D；

步骤5：通过一个全连接网络对注意力值矩阵D进行线性变换，得到变换形状后的矩阵N；

步骤6：通过Sigmoid激活函数对矩阵N进行激活，得到一个值在(0，1)之间的一维矩阵S，根据S得出最后的预测结果y。

进一步的，所述步骤1的具体方法为：

步骤1.1：定义只含正文内容的目标文章的单词序列为src_vocab；

步骤1.2：对输入的单词序列进行位置编码，将每个单词的位置信息传递到词向量矩阵A中。

进一步的，所述步骤2的具体方法为：

步骤2.1：定义一个矩阵W_Q，利用这个矩阵对所有的字向量进行线性变换，得到两个新的向量q_t；

步骤2.2：将所有的q_t向量拼成一个大矩阵，记作查询矩阵Q；

步骤2.3：定义一个矩阵W_K，利用这个矩阵对所有的字向量进行线性变换，得到两个新的向量k_t；

步骤2.4：将所有的k_t向量拼成一个矩阵，记作键矩阵K。

进一步的，所述步骤3的具体方法为：

步骤3.1：定义参考文献数据集为Reference，数据Reference根据篇名进行划分，分别对应每篇参考文献的单词序列；其中，

Reference＝[r₁,r₂,…,r_u,…,air_m-1,air_m]^T；

r_u＝[s₁,s₂,s₃,…,s_n,]；

u∈[1,m]；

步骤3.2：对参考文献进行初始化字编码，得到一个高维度矩阵V。

进一步的，所述步骤4的具体方法为：

步骤4.1：将步骤2.2中的查询矩阵Q与步骤2.4中的键矩阵K的转置K^T相乘得到矩阵scores；

步骤4.2：使用维度的根号

与步骤4.1的结果相乘；

步骤4.3：使用Softmax对步骤4.2的结果进行数值转换；

步骤4.4：将步骤4.3的结果与值矩阵V相乘得到最后的注意力矩阵D。

进一步的，所述步骤5的具体方法为：

步骤5.1：定义一个全连接层，其形状为[in_features,out_features]；

步骤5.2：将步骤4.4的结果注意力矩阵D经过步骤5.1的全连接层进行线性变换得到矩阵N。

进一步的，所述步骤6的具体方法为：

步骤6.1：定义一个使用Sigmoid函数的激活层；

步骤6.2：将步骤5.2的结果N输入到激活层中，得到含有概率的最终预测结果y。

有益效果

本发明提出的一种基于Attention机制的参考文献引用合法性预测方法，与现有技术相比较，其具有以下有益效果：

(1)本技术方法基于建立的目标文章和参考文献数据集，利用Attention机制来计算目标文章与参考文献的注意力值，并具体描述如下：本发明利用Attention机制来计算目标文章与参考文献的注意力值，以此来检查目标文章所引用的参考文献是否在文章中得到合理的引用。

附图说明

图1为本发明的整体流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

步骤1：将目标文章的单词序列[w1,w2,w3,…,wn]输入进行时间编码，得到编码过后词向量矩阵A，具体方法为

步骤2：利用Attention机制对词向量矩阵A进行两次线性变换，得到查询矩阵Q，键矩阵K，具体方法为：

步骤2.2：将所有的q_t向量拼成一个大矩阵，记作查询矩阵Q；

步骤2.4：将所有的k_t向量拼成一个矩阵，记作键矩阵K。

步骤3：对需要预测的参考文献的单词序列r₁,r₂,r₃,…,r_n进行词嵌入，得到一个更高维度的值矩阵V，具体方法为：

步骤3.1：定义参考文献数据集为Reference，数据Reference根据篇名进行划分，分别对应每篇参考文献的单词序列，其中，Reference＝[r₁,r₂,…,r_u,…,air_m-1,air_m]^T,r_u＝[s₁,s₂,s₃,…,s_n,],u∈[1,m]；

步骤4：对得出的查询矩阵Q、键矩阵K和值矩阵V计算相应的Attention值，得到注意力值矩阵D：

步骤4.2：使用维度的根号

与步骤4.1的结果相乘；

步骤4.3：使用Softmax对步骤4.2的结果进行数值转换；

步骤5：通过一个全连接网络对注意力值矩阵D进行线性变换，得到变换形状后的矩阵N，具体方法为：

步骤6：通过Sigmoid激活函数对矩阵N进行激活，得到一个值在(0，1)之间的一维矩阵S，根据S得出最后的预测结果y，具体方法为：

步骤6.1：定义一个使用Sigmoid函数的激活层；

Claims

1.一种基于Attention机制的参考文献引用合法性预测方法，所述的引用合法性，是指目标文章中所提到的参考文献是否在文章中得到合法引用；其特征在于：将目标文章的单词序列[w1，w2，w3，…，wn]通过时间编码和位置编码后传入到Attention机制中，计算得到查询矩阵Query和键矩阵Key；使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1，s2，s3，…，sn]进行编码得到编码后的键矩阵Value；利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值；将计算过的Attention值通过一个全连接层进行线性变换；最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率；具体步骤如下：

步骤1：将目标文章的单词序列[w1，w2，w3，…，wn]输入进行时间编码，得到编码过后词向量矩阵A；

步骤3：对需要预测的参考文献的单词序列r₁，r₂，r₃，...，r_n进行词嵌入，得到一个更高维度的值矩阵V；

2.根据权利要求1所述的一种基于Attention机制的参考文献引用合法性预测方法，其特征在于，所述步骤1的具体方法为：

3.根据权利要求1所述的一种基于Attention机制的参考文献引用合法性预测方法，其特征在于，所述步骤2的具体方法为：

步骤2.1：定义一个矩阵WQ，利用这个矩阵对所有的字向量进行线性变换，得到两个新的向量q_t；

步骤2.2：将所有的q_t向量拼成一个大矩阵，记作查询矩阵Q；

步骤2.4：将所有的k_t向量拼成一个矩阵，记作键矩阵K。

4.根据权利要求1所述的一种基于Attention机制的参考文献引用合法性预测方法，其特征在于，所述步骤3的具体方法为：

Reference＝[r₁，r₂，…，r_u，…，air_m-1，air_m]^T；

r_u＝[s₁，s₂，s₃，...，s_n，]；

u∈[1，m]；

5.根据权利要求3所述的一种基于Attention机制的参考文献引用合法性预测方法，其特征在于，所述步骤4的具体方法为：

步骤4.2：使用维度的根号

与步骤4.1的结果相乘；

步骤4.3：使用Softmax对步骤4.2的结果进行数值转换；

6.根据权利要求5所述的一种基于Attention机制的参考文献引用合法性预测方法，其特征在于，所述步骤5的具体方法为：

7.根据权利要求6所述的基于Attention机制的参考文献引用合法性预测方法，其特征在于，所述步骤6的具体方法为：

步骤6.1：定义一个使用Sigmoid函数的激活层；