CN113468867A - 一种基于Attention机制的参考文献引用合法性预测方法 - Google Patents

一种基于Attention机制的参考文献引用合法性预测方法 Download PDF

Info

Publication number
CN113468867A
CN113468867A CN202110628241.0A CN202110628241A CN113468867A CN 113468867 A CN113468867 A CN 113468867A CN 202110628241 A CN202110628241 A CN 202110628241A CN 113468867 A CN113468867 A CN 113468867A
Authority
CN
China
Prior art keywords
matrix
attention
word
query
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110628241.0A
Other languages
English (en)
Other versions
CN113468867B (zh
Inventor
韦晨
张永军
冯万利
陈伯伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202110628241.0A priority Critical patent/CN113468867B/zh
Publication of CN113468867A publication Critical patent/CN113468867A/zh
Application granted granted Critical
Publication of CN113468867B publication Critical patent/CN113468867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Attention机制的参考文献引用合法性预测方法,将目标文章的单词序列[w1,w2,w3,…,wn]通过时间编码和位置编码后传入到Attention机制中,计算得到查询矩阵Query和键矩阵Key;使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1,s2,s3,…,sn]进行编码得到编码后的键矩阵Value;利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值;将计算过的Attention值通过一个全连接层进行线性变换;最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率。本发明适用于普遍地检查在目标文章中参考文献引用合法性的预测问题。

Description

一种基于Attention机制的参考文献引用合法性预测方法
技术领域
本发明属于注意力机制和预测技术领域,具体涉及一种基于Attention机制的参考文献引用合法性预测方法。
背景技术
参考文献是论文的重要组成部分,正确引用参考文献既体现了作者对科研工作的严谨和认真,又能体现对做出已有研究成果的作者的尊重。引用合法性,是指目标文章中所提到的参考文献是否在文章中得到合法引用。参考文献的正确引用在学术传播和发展过程中有着重要的作用。通过Attention机制发掘学术论文和其引用参考文献之间的关系,获得合法引用和不合法引用之间的区别,从预测参考文献的引用合法性。
但是,近年来,在论文写作中存在一定的参考文献假引用、引用不合法等情况。在上述的状态中,通常与论文内容、署名相关的学术不端行为更容易受到关注,而参考文献的学术不端行为则经常被忽略。这些情况影响着学术风气,然而又很难通过人工的情况进行核对查验。
发明内容
针对上述问题,本发明通过对论文原文和所引用的参考文献的全文,采用一种基于Attention机制的参考文献引用合法性预测方法,实现高准确率的参考文献引用合法性预测。
本发明通过以下技术方案实现:
一种基于Attention机制的参考文献引用合法性预测方法,所述的引用合法性,是指目标文章中所提到的参考文献是否在文章中得到合法引用;将目标文章的单词序列[w1,w2,w3,…,wn]通过时间编码和位置编码后传入到Attention机制中,计算得到查询矩阵Query和键矩阵Key;使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1,s2,s3,…,sn]进行编码得到编码后的键矩阵Value;利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值;将计算过的Attention值通过一个全连接层进行线性变换;最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率;具体步骤如下:
步骤1:将目标文章的单词序列[w1,w2,w3,…,wn]输入进行时间编码,得到编码过后词向量矩阵A;
步骤2:利用Attention机制对词向量矩阵A进行两次线性变换,得到查询矩阵Q,键矩阵K;
步骤3:对需要预测的参考文献的单词序列r1,r2,r3,…,rn进行词嵌入,得到一个更高维度的值矩阵V;
步骤4:对得出的查询矩阵Q、键矩阵K和值矩阵V计算相应的Attention值,得到注意力值矩阵D;
步骤5:通过一个全连接网络对注意力值矩阵D进行线性变换,得到变换形状后的矩阵N;
步骤6:通过Sigmoid激活函数对矩阵N进行激活,得到一个值在(0,1)之间的一维矩阵S,根据S得出最后的预测结果y。
进一步的,所述步骤1的具体方法为:
步骤1.1:定义只含正文内容的目标文章的单词序列为src_vocab;
步骤1.2:对输入的单词序列进行位置编码,将每个单词的位置信息传递到词向量矩阵A中。
进一步的,所述步骤2的具体方法为:
步骤2.1:定义一个矩阵WQ,利用这个矩阵对所有的字向量进行线性变换,得到两个新的向量qt
步骤2.2:将所有的qt向量拼成一个大矩阵,记作查询矩阵Q;
步骤2.3:定义一个矩阵WK,利用这个矩阵对所有的字向量进行线性变换,得到两个新的向量kt
步骤2.4:将所有的kt向量拼成一个矩阵,记作键矩阵K。
进一步的,所述步骤3的具体方法为:
步骤3.1:定义参考文献数据集为Reference,数据Reference根据篇名进行划分,分别对应每篇参考文献的单词序列;其中,
Reference=[r1,r2,…,ru,…,airm-1,airm]T
ru=[s1,s2,s3,…,sn,];
u∈[1,m];
步骤3.2:对参考文献进行初始化字编码,得到一个高维度矩阵V。
进一步的,所述步骤4的具体方法为:
步骤4.1:将步骤2.2中的查询矩阵Q与步骤2.4中的键矩阵K的转置KT相乘得到矩阵scores;
步骤4.2:使用维度的根号
Figure BDA0003100400090000031
与步骤4.1的结果相乘;
步骤4.3:使用Softmax对步骤4.2的结果进行数值转换;
步骤4.4:将步骤4.3的结果与值矩阵V相乘得到最后的注意力矩阵D。
进一步的,所述步骤5的具体方法为:
步骤5.1:定义一个全连接层,其形状为[in_features,out_features];
步骤5.2:将步骤4.4的结果注意力矩阵D经过步骤5.1的全连接层进行线性变换得到矩阵N。
进一步的,所述步骤6的具体方法为:
步骤6.1:定义一个使用Sigmoid函数的激活层;
步骤6.2:将步骤5.2的结果N输入到激活层中,得到含有概率的最终预测结果y。
有益效果
本发明提出的一种基于Attention机制的参考文献引用合法性预测方法,与现有技术相比较,其具有以下有益效果:
(1)本技术方法基于建立的目标文章和参考文献数据集,利用Attention机制来计算目标文章与参考文献的注意力值,并具体描述如下:本发明利用Attention机制来计算目标文章与参考文献的注意力值,以此来检查目标文章所引用的参考文献是否在文章中得到合理的引用。
附图说明
图1为本发明的整体流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于Attention机制的参考文献引用合法性预测方法,所述的引用合法性,是指目标文章中所提到的参考文献是否在文章中得到合法引用;将目标文章的单词序列[w1,w2,w3,…,wn]通过时间编码和位置编码后传入到Attention机制中,计算得到查询矩阵Query和键矩阵Key;使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1,s2,s3,…,sn]进行编码得到编码后的键矩阵Value;利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值;将计算过的Attention值通过一个全连接层进行线性变换;最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率;具体步骤如下:
步骤1:将目标文章的单词序列[w1,w2,w3,…,wn]输入进行时间编码,得到编码过后词向量矩阵A,具体方法为
步骤1.1:定义只含正文内容的目标文章的单词序列为src_vocab;
步骤1.2:对输入的单词序列进行位置编码,将每个单词的位置信息传递到词向量矩阵A中。
步骤2:利用Attention机制对词向量矩阵A进行两次线性变换,得到查询矩阵Q,键矩阵K,具体方法为:
步骤2.1:定义一个矩阵WQ,利用这个矩阵对所有的字向量进行线性变换,得到两个新的向量qt
步骤2.2:将所有的qt向量拼成一个大矩阵,记作查询矩阵Q;
步骤2.3:定义一个矩阵WK,利用这个矩阵对所有的字向量进行线性变换,得到两个新的向量kt
步骤2.4:将所有的kt向量拼成一个矩阵,记作键矩阵K。
步骤3:对需要预测的参考文献的单词序列r1,r2,r3,…,rn进行词嵌入,得到一个更高维度的值矩阵V,具体方法为:
步骤3.1:定义参考文献数据集为Reference,数据Reference根据篇名进行划分,分别对应每篇参考文献的单词序列,其中,Reference=[r1,r2,…,ru,…,airm-1,airm]T,ru=[s1,s2,s3,…,sn,],u∈[1,m];
步骤3.2:对参考文献进行初始化字编码,得到一个高维度矩阵V。
步骤4:对得出的查询矩阵Q、键矩阵K和值矩阵V计算相应的Attention值,得到注意力值矩阵D:
步骤4.1:将步骤2.2中的查询矩阵Q与步骤2.4中的键矩阵K的转置KT相乘得到矩阵scores;
步骤4.2:使用维度的根号
Figure BDA0003100400090000061
与步骤4.1的结果相乘;
步骤4.3:使用Softmax对步骤4.2的结果进行数值转换;
步骤4.4:将步骤4.3的结果与值矩阵V相乘得到最后的注意力矩阵D。
步骤5:通过一个全连接网络对注意力值矩阵D进行线性变换,得到变换形状后的矩阵N,具体方法为:
步骤5.1:定义一个全连接层,其形状为[in_features,out_features];
步骤5.2:将步骤4.4的结果注意力矩阵D经过步骤5.1的全连接层进行线性变换得到矩阵N。
步骤6:通过Sigmoid激活函数对矩阵N进行激活,得到一个值在(0,1)之间的一维矩阵S,根据S得出最后的预测结果y,具体方法为:
步骤6.1:定义一个使用Sigmoid函数的激活层;
步骤6.2:将步骤5.2的结果N输入到激活层中,得到含有概率的最终预测结果y。

Claims (7)

1.一种基于Attention机制的参考文献引用合法性预测方法,所述的引用合法性,是指目标文章中所提到的参考文献是否在文章中得到合法引用;其特征在于:将目标文章的单词序列[w1,w2,w3,…,wn]通过时间编码和位置编码后传入到Attention机制中,计算得到查询矩阵Query和键矩阵Key;使用pytorch.Embedding方法对需要检查引用合法性的文献全文的单词序列[s1,s2,s3,…,sn]进行编码得到编码后的键矩阵Value;利用查询矩阵Query、键矩阵Key和值矩阵计算Attention值;将计算过的Attention值通过一个全连接层进行线性变换;最后将线性变换后的结果输入到sigmoid层中计算出最后的合法性概率;具体步骤如下:
步骤1:将目标文章的单词序列[w1,w2,w3,…,wn]输入进行时间编码,得到编码过后词向量矩阵A;
步骤2:利用Attention机制对词向量矩阵A进行两次线性变换,得到查询矩阵Q,键矩阵K;
步骤3:对需要预测的参考文献的单词序列r1,r2,r3,...,rn进行词嵌入,得到一个更高维度的值矩阵V;
步骤4:对得出的查询矩阵Q、键矩阵K和值矩阵V计算相应的Attention值,得到注意力值矩阵D;
步骤5:通过一个全连接网络对注意力值矩阵D进行线性变换,得到变换形状后的矩阵N;
步骤6:通过Sigmoid激活函数对矩阵N进行激活,得到一个值在(0,1)之间的一维矩阵S,根据S得出最后的预测结果y。
2.根据权利要求1所述的一种基于Attention机制的参考文献引用合法性预测方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:定义只含正文内容的目标文章的单词序列为src_vocab;
步骤1.2:对输入的单词序列进行位置编码,将每个单词的位置信息传递到词向量矩阵A中。
3.根据权利要求1所述的一种基于Attention机制的参考文献引用合法性预测方法,其特征在于,所述步骤2的具体方法为:
步骤2.1:定义一个矩阵WQ,利用这个矩阵对所有的字向量进行线性变换,得到两个新的向量qt
步骤2.2:将所有的qt向量拼成一个大矩阵,记作查询矩阵Q;
步骤2.3:定义一个矩阵WK,利用这个矩阵对所有的字向量进行线性变换,得到两个新的向量kt
步骤2.4:将所有的kt向量拼成一个矩阵,记作键矩阵K。
4.根据权利要求1所述的一种基于Attention机制的参考文献引用合法性预测方法,其特征在于,所述步骤3的具体方法为:
步骤3.1:定义参考文献数据集为Reference,数据Reference根据篇名进行划分,分别对应每篇参考文献的单词序列;其中,
Reference=[r1,r2,…,ru,…,airm-1,airm]T
ru=[s1,s2,s3,...,sn,];
u∈[1,m];
步骤3.2:对参考文献进行初始化字编码,得到一个高维度矩阵V。
5.根据权利要求3所述的一种基于Attention机制的参考文献引用合法性预测方法,其特征在于,所述步骤4的具体方法为:
步骤4.1:将步骤2.2中的查询矩阵Q与步骤2.4中的键矩阵K的转置KT相乘得到矩阵scores;
步骤4.2:使用维度的根号
Figure FDA0003100400080000021
与步骤4.1的结果相乘;
步骤4.3:使用Softmax对步骤4.2的结果进行数值转换;
步骤4.4:将步骤4.3的结果与值矩阵V相乘得到最后的注意力矩阵D。
6.根据权利要求5所述的一种基于Attention机制的参考文献引用合法性预测方法,其特征在于,所述步骤5的具体方法为:
步骤5.1:定义一个全连接层,其形状为[in_features,out_features];
步骤5.2:将步骤4.4的结果注意力矩阵D经过步骤5.1的全连接层进行线性变换得到矩阵N。
7.根据权利要求6所述的基于Attention机制的参考文献引用合法性预测方法,其特征在于,所述步骤6的具体方法为:
步骤6.1:定义一个使用Sigmoid函数的激活层;
步骤6.2:将步骤5.2的结果N输入到激活层中,得到含有概率的最终预测结果y。
CN202110628241.0A 2021-06-04 2021-06-04 一种基于Attention机制的参考文献引用合法性预测方法 Active CN113468867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110628241.0A CN113468867B (zh) 2021-06-04 2021-06-04 一种基于Attention机制的参考文献引用合法性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110628241.0A CN113468867B (zh) 2021-06-04 2021-06-04 一种基于Attention机制的参考文献引用合法性预测方法

Publications (2)

Publication Number Publication Date
CN113468867A true CN113468867A (zh) 2021-10-01
CN113468867B CN113468867B (zh) 2024-06-11

Family

ID=77872359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110628241.0A Active CN113468867B (zh) 2021-06-04 2021-06-04 一种基于Attention机制的参考文献引用合法性预测方法

Country Status (1)

Country Link
CN (1) CN113468867B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140274764A1 (en) * 2013-03-15 2014-09-18 Pathway Genomics Corporation Method and system to predict response to treatments for mental disorders
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN112288471A (zh) * 2020-10-26 2021-01-29 杭州电子科技大学 一种基于用户历史行为序列的广告点击率预测方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN112699693A (zh) * 2021-01-18 2021-04-23 上海明略人工智能(集团)有限公司 一种机器翻译方法及机器翻译装置
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140274764A1 (en) * 2013-03-15 2014-09-18 Pathway Genomics Corporation Method and system to predict response to treatments for mental disorders
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN112288471A (zh) * 2020-10-26 2021-01-29 杭州电子科技大学 一种基于用户历史行为序列的广告点击率预测方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN112699693A (zh) * 2021-01-18 2021-04-23 上海明略人工智能(集团)有限公司 一种机器翻译方法及机器翻译装置
CN112765352A (zh) * 2021-01-21 2021-05-07 东北大学秦皇岛分校 基于具有自注意力机制的图卷积神经网络文本分类方法

Also Published As

Publication number Publication date
CN113468867B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN111694924B (zh) 一种事件抽取方法和系统
CN111695674B (zh) 联邦学习方法、装置、计算机设备及可读存储介质
CN111061862B (zh) 一种基于注意力机制生成摘要的方法
CN112035645B (zh) 数据查询方法以及系统
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
Kang et al. Generative text steganography based on LSTM network and attention mechanism with keywords
CN111475617A (zh) 事件主体抽取方法、装置及存储介质
CN112749253B (zh) 一种基于文本关系图的多文本摘要生成方法
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN115600581B (zh) 一种使用句法信息的受控文本生成方法
CN114328898A (zh) 文本摘要生成方法及其装置、设备、介质、产品
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN117151223A (zh) 一种基于可学习提示的多模态实体识别和关系抽取方法
CN113468867A (zh) 一种基于Attention机制的参考文献引用合法性预测方法
CN117875326A (zh) 一种基于词汇增强的司法命名实体识别方法
CN112464637A (zh) 基于标签的优化模型训练方法、装置、设备及存储介质
CN116933785A (zh) 一种基于Transformer的电子档案摘要生成方法、系统及介质
CN115273110A (zh) 基于TensorRT的文本识别模型部署方法、装置、设备及存储介质
CN114254175A (zh) 一种用于电力政策文件的生成式摘要的提取方法
CN111859939A (zh) 文本匹配方法、系统和计算机设备
CN113297849B (zh) 基于区块链技术的财务预提费用管理方法
CN111158640B (zh) 一种基于深度学习的一对多需求分析识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant