CN112163426B - 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 - Google Patents

一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 Download PDF

Info

Publication number
CN112163426B
CN112163426B CN202011059653.9A CN202011059653A CN112163426B CN 112163426 B CN112163426 B CN 112163426B CN 202011059653 A CN202011059653 A CN 202011059653A CN 112163426 B CN112163426 B CN 112163426B
Authority
CN
China
Prior art keywords
layer
attention
output
matrix
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011059653.9A
Other languages
English (en)
Other versions
CN112163426A (zh
Inventor
张勇
高大林
巩敦卫
郭一楠
孙晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202011059653.9A priority Critical patent/CN112163426B/zh
Publication of CN112163426A publication Critical patent/CN112163426A/zh
Application granted granted Critical
Publication of CN112163426B publication Critical patent/CN112163426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法。包括如下步骤:通过BiLSTM提取句子中的上下文信息,并引入实体位置信息和实体标签信息来扩充词向量特征;通过Stanford Parser工具进行句子依存结构树的提取生成初始句子结构矩阵,引入注意力机制对初始句子结构矩阵进行注意力计算,得到句子中结构矩阵的权重信息;将提取出的句子上下文信息和句子结构的权重信息作为输入,使用基于注意力机制与图长短时记忆神经网络结合的关系抽取模型对输入进行关系抽取,最终得到实体的三元组信息。本发明方法分别在TACRED数据结和Semeval2010 task‑8数据集上进行了测评,该模型的表现优于目前主流的深度学习抽取的模型。

Description

一种基于注意力机制与图长短时记忆神经网络结合的关系抽 取方法
技术领域
本发明涉及自然语言处理中关系抽取技术领域,尤其涉及一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法。
背景技术
随着人工智能和大数据时代的到来,互联网上信息增长速度越来越快,如何高效快速地从非结构化文本中提取有效的信息是学者们研究的重点。文本信息抽取包含实体抽取,关系抽取,事件抽取,因果抽取等。关系抽取作为文本信息抽取的一个重要的子任务,关系抽取是指从非结构化的文本中抽取出实体对之间的三元组信息,即<实体1,实体2,关系>。关系抽取作为自然语言处理中一项常见切重要的子任务,目前已被成功用于生物医学知识发现、知识图谱领域和问答领域等诸多自然语言处理领域。
现有关系提取模型或方法可大体分为两类:序列模型和依赖关系模型。序列模型主要针对单词序列进行建模,而依赖关系模型则是以句法依存关系树为基础,构建依赖关系模型。相对于序列模型而言,依赖关系模型可以利用句法依存树提取出句子中隐藏的非局部语法关系,进而建立句内长距离的依赖关系,更好建模出句子的结构信息。
依赖关系模型主要是通过将卷积神经网络或长短时记忆神经网络演变成图结构或树结构神经网络来构建关系抽取模型,其中应用最多的是图卷积神经网络,图卷积神经网络可以很好地学习图结构数据的信息,却难以有效处理时序数据。这就意味着,面向具备时序特性的文本数据,只依赖图卷积神经网络并不能很好地抽取文本中时序信息。另外传统依赖关系模型是完全依赖句法依存关系树,如果句法依存关系树解析错误或在解析过程中删除了有用信息,会导致错误累加和信息丢失的情况。因此,目前急需建立一种更为有效的能够同时建模句子结构信息和句子时序上下文信息的依赖关系模型。
发明内容
本发明的目的在于提出一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,提取句中结构信息和时序上下文信息,从而更全面地建模句子语义信息,实现关系抽取。
本发明所采用的技术方案是:一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,包括以下步骤:
步骤1,获取关系抽取数据集,对数据集中文本数据进行预处理,生成用于句子时序上下文信息特征提取的词向量矩阵和用于句子结构信息特征提取的邻接矩阵;
步骤2,构建注意力图长短时记忆神经网络的关系抽取模型;采用生成的词向量矩阵和邻接矩阵作为模型的输入,关系类别标签作为输出,训练该关系抽取模型;
步骤3,获取关系抽取测试集,利用训练好的关系抽取模型对测试集进行关系抽取。
进一步的,所述步骤1中,生成词向量矩阵和邻接矩阵的方法如下:
通过引入实体标签信息和实体位置信息来扩充词向量;所述的实体标签信息是通过自然语言处理工具为句子文本进行命名实体识别,打上相应标签;
所述的实体位置信息是根据不同单词到两个实体的距离来生成;最后生成用于提取句子时序上下文特征的词向量矩阵,即词嵌入矩阵;
利用自然语言处理工具对句子进行依存结构分析,生成原始句子依存结构树,将句子依存结构树进行补全,转化成句子结构图,进而将句子结构图转化成邻接矩阵。
进一步的,所述步骤2中,注意力图LSTM关系抽取模型结构具体为:
模型网络第一层为双向LSTM层:该层用于提取句子时序上下文特征,以步骤1中生成的词向量矩阵作为输入,输出句子时序上下文特征矩阵;
模型网络第二层为AGLSTM层:该层由图长短时记忆神经网络和注意力机制共同组成,将双向LSTM网络提取的序列特征和步骤1中生成的邻接矩阵作为该层的输入,模型中的注意力机制采用多头注意力机制,因此该层的输出为K个不同的特征提取结果,K为多头注意力的head数;
模型网络第三层为线性连接层:利用线性连接层将AGLSTM层输出的K个不同的结果整合成最终的输出特征;
模型网络最后一层为输出层:将AGLSTM层输出的特征通过最大池化层,然后通过softmax函数计算每一个类别的条件概率,输出模型预测特征的标签类别。
进一步的,双向LSTM提取特征过程如下:
LSTM单元通过输入门it、遗忘门ft和输出门ot进行信息流的控制,提取词特征信息;
当步骤1输出的词向量矩阵输入时,双向LSTM网络表示为:
it=σ(Wiet+Uiht-1+bi)
ft=σ(Wfet+Ufht-1+bf)
ut=tanh(Wuet+Uuht-1+bu)
ot=σ(Woet+Uoht-1+bo)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中t为当前时刻,et为当前时刻神经元的状态,ht,ht-1分别为当前时刻和前一时刻隐藏层状态向量,ct,ct-1分别为当前时刻和前一时刻细胞单元状态向量,σ和tanh为激活函数,it、ot和ft分别是输入门、输出门和遗忘门,ut为神经元的更新状态单元,通过更新状态单元ut与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息ct,Wx、Ux和bx为模型参数,x∈(i,o,f,u);
ht由前向传播和后向传播两个方向的向量组成,前向传播中t时刻隐藏层向量记为ht1,后向传播中t时刻隐藏层状态向量记为ht2;最终双向LSTM在t时刻的输出为ht=ht1+ht2
进一步的,所述的图长短时记忆神经网络层中每一个单词节点wi的表达包括单词节点本身特征的向量表示hi、邻接矩阵A内所有与该单词相连的边的表示
Figure BDA0002711915500000031
Figure BDA0002711915500000032
每两个单词节点之间的边权重即为注意力层所得多头注意力矩阵中相应元素的权重值;单词节点wi的隐藏状态表示为:
Figure BDA0002711915500000033
Figure BDA0002711915500000034
其中αij为从节点i到节点j的初始句子结构权重即邻接矩阵中每一项对应的权值,
Figure BDA0002711915500000035
表示节点j的所有边的输入,
Figure BDA0002711915500000036
表示节点j的所有边的输出;
图长短时记忆神经网络定义如下:
Figure BDA0002711915500000037
Figure BDA0002711915500000038
Figure BDA0002711915500000039
Figure BDA00027119155000000310
Figure BDA00027119155000000311
Figure BDA00027119155000000312
其中
Figure BDA00027119155000000313
Figure BDA00027119155000000314
分别是当前时刻t在神经元j下的输入门、输出门和遗忘门的状态,
Figure BDA00027119155000000315
为当前神经元的状态,σ,tanh为激活函数,
Figure BDA00027119155000000316
为当前时刻t在神经元j下更新状态单元,通过更新状态单元
Figure BDA00027119155000000317
与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息
Figure BDA00027119155000000318
Wx和bx为模型参数,Ux1和Ux2分别表示输入的权重和输出的权重,x∈(i,o,f,u);
将双向LSTM层的输出hlstm作为注意力机制的输入,设hlstm长度为n,设单层LSTM隐藏层神经元个数为d,则hlstm的维度为2d*n,利用self-attention计算机制得到多个注意力权重矩阵;self-attention计算公式如下:
uk=tanh(Wwhlstm+bw)
Ak=SoftMax(uk T*uk)
其中Ww,bw为感知机的权重参数,是维度为a*2d的二维矩阵,a是感知机的参数,则uk为将hlstm经过感知机输出的隐藏特征,维度为a*n,对uk进行自注意力的计算,uk T*uk为一个n*n的二维矩阵,将其经过归一化处理得到第k个注意力权重矩阵4k
K头注意力机制得到K个注意力权重矩阵4k,公式如下:
Figure BDA0002711915500000041
其中αij为单词i对应单词j的注意力权重,i,j∈(1,n);
将得到的注意力权重矩阵4k,与特征向量hlstm作为AGLSTM的输入,得到该层AGLSTM的输出向量hout,输出为:
Figure BDA0002711915500000042
其中
Figure BDA0002711915500000043
是第K个注意力矩阵所对应的输出。
进一步的,线性连接层定义的数学形式如下:
hcomb=Wcombhout+bcomb
其中,hout是经过AGLSTM层输出的结果,
Figure BDA0002711915500000044
Figure BDA0002711915500000045
表示第K个注意力矩阵所对应的输出,将一共K个输出经过线性变换整合成一个输出即为hcomb;Wcomb是线性连接层的权重矩阵,bcomb是线性连接层的偏置矩阵,hcomb为最终输出的特征。
进一步的,每一个预测特征对应标签类别的概率计算公式如下:
Figure BDA0002711915500000046
其中p(i)为对应i标签的概率,
Figure BDA0002711915500000047
为经过池化后标签i对应的特征分数,N为标签的个数。
进一步的,所述步骤2中,关系抽取模型选用Sigmoid函数作为激活函数,采用Adam优化算法进行模型训练,采用精确率P,召回率R和F1值作为评价指标,公式如下:
Figure BDA0002711915500000048
Figure BDA0002711915500000049
Figure BDA00027119155000000410
其中,TP表示将正样本预测为正的样本数,FP表示将负样本预测为正的样本数,FN表示将正样本预测为负的样本数,正样本、负样本对应某类标签,该标签对应的样本即为正样本,其他标签对应的样本相对该类标签为负样本。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
传统关系抽取方法中对句子结构信息的提取完全依赖于第三方工具提取出的句子结构树,如stanford parse,这种情况存在句子结构信息提取错误,或不足导致的错误累加,信息丢失的情况。本发明提出一种结合注意力机制和图长短时记忆神经网络的新型关系抽取网络结构,实现模型自主学习句子中的结构信息的能力,不仅降低了句子结构树解析错误对模型性能的影响而且能更好地提取句子中的结构信息。不同于常用的图卷积神经网络,本发明所提模型能够更好的将句子的时序信息和句子中的结构信息结合起来,更加适用于文本中的信息提取工作。
附图说明
图1是本发明方法的流程示意图;
图2是本发明实施例的关系抽取模型;
图3是本发明实施例的句法分析示意图;
图4是本发明实施例在不同K值下结果直方图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,如图1所示,关系抽取具体步骤如下:
步骤1,获取关系抽取数据集,对数据集中文本数据进行预处理,生成用于句子时序上下文信息特征提取的词向量矩阵和用于句子结构信息特征提取的邻接矩阵。
本实施例采用TACRED数据集和Semeval-2010-task8数据集,其中TACRED数据集包含训练集68124条,验证集22631条,测试集15509条,共41种关系类型和一种特殊关系类型(no relation)。Semeval-2010-task8数据集包含8000条训练数据,2717条测试数据,共9种关系类型和一种特殊关系类型(Other)。
生成词向量矩阵和邻接矩阵的方法如下:
通过引入实体标签信息和实体位置信息来扩充词向量;所述的实体标签信息是通过自然语言处理工具stanford corenlp为句子文本进行命名实体识别(NER),打上相应标签;
所述的实体位置信息是根据不同单词到两个实体的距离来生成;最后生成用于提取句子时序上下文特征的词向量矩阵,记为Embs;
利用自然语言处理工具stanford parser对句子进行依存结构分析,生成原始句子依存结构树,将句子依存结构树进行补全,转化成句子结构图,进而将句子结构图转化成邻接矩阵。句法分析示意图如图3所示。
步骤2,构建注意力图长短时记忆神经网络的关系抽取模型;采用生成的词向量矩阵和邻接矩阵作为模型的输入,关系类别标签作为输出,训练该关系抽取模型。
注意力图LSTM关系抽取模型结构如图2所示,具体包括:
(1)模型网络第一层为双向LSTM层:该层用于提取句子时序上下文特征,以步骤1中生成的词向量矩阵作为输入,输出句子时序上下文特征矩阵。
其中,双向LSTM提取特征过程如下:
LSTM单元通过输入门it、遗忘门ft和输出门ot进行信息流的控制,提取词特征信息;
当步骤1输出的词向量矩阵输入时,双向LSTM网络表示为:
it=σ(Wiet+Uiht-1+bi)
ft=σ(Wfet+Ufht-1+bf)
ut=tanh(Wuet+Uuht-1+bu)
ot=σ(Woet+Uoht-1+bo)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中t为当前时刻,et为当前时刻神经元的状态,ht,ht-1分别为当前时刻和前一时刻隐藏层状态向量,ct,ct-1分别为当前时刻和前一时刻细胞单元状态向量,σ和tanh为激活函数,it、ot和ft分别是输入门、输出门和遗忘门,ut为神经元的更新状态单元,通过更新状态单元ut与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息ct,Wx、Ux和bx为模型参数,x∈(i,o,f,u);
ht由前向传播和后向传播两个方向的向量组成,前向传播中t时刻隐藏层向量记为ht1,后向传播中t时刻隐藏层状态向量记为ht2;最终双向LSTM在t时刻的输出为ht=ht1+ht2
(2)模型网络第二层为注意力图长短时记忆神经网络层(AGLSTM层):该层由图长短时记忆神经网络和注意力机制共同组成,将双向LSTM网络提取的序列特征和步骤1中生成的邻接矩阵作为该层的输入,模型中的注意力机制采用多头注意力机制,因此该层的输出为K个不同的特征提取结果,K为多头注意力的head数。
所述的图长短时记忆神经网络层中每一个单词节点wi的表达包括单词节点本身特征的向量表示hi、邻接矩阵A内所有与该单词相连的边的表示
Figure BDA0002711915500000061
Figure BDA0002711915500000062
每两个单词节点之间的边权重即为注意力层所得多头注意力矩阵中相应元素的权重值;单词节点wi的隐藏状态表示为:
Figure BDA0002711915500000063
Figure BDA0002711915500000064
其中αij为从节点i到节点j的初始句子结构权重即邻接矩阵中每一项对应的权值,
Figure BDA0002711915500000071
表示节点j的所有边的输入,
Figure BDA0002711915500000072
表示节点j的所有边的输出;
图长短时记忆神经网络定义如下:
Figure BDA0002711915500000073
Figure BDA0002711915500000074
Figure BDA0002711915500000075
Figure BDA00027119155000000716
Figure BDA0002711915500000076
Figure BDA0002711915500000077
其中
Figure BDA0002711915500000078
Figure BDA0002711915500000079
分别是当前时刻t在神经元j下的输入门、输出门和遗忘门的状态,
Figure BDA00027119155000000710
为当前神经元的状态,σ,tanh为激活函数,
Figure BDA00027119155000000711
为当前时刻t在神经元j下更新状态单元,通过更新状态单元
Figure BDA00027119155000000712
与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息
Figure BDA00027119155000000713
Wx和bx为模型参数,Ux1和Ux2分别表示输入的权重和输出的权重,x∈(i,o,f,u);
采用多头注意力机制使得模型从不同表征子空间中获得多层面的信息。将双向LSTM层的输出hlstm作为注意力机制的输入,设hlstm长度为n,设单层LSTM隐藏层神经元个数为d,则hlstm的维度为2d*n,利用self-attention计算机制得到多个注意力权重矩阵,因为想要求得每个单词在一句话中的权重所以需要采用全局注意力机制,也就是采用自注意力的方法,self-attention计算公式如下:
uk=tanh(Wwhlstm+bw)
Ak=SoftMax(uk T*uk)
其中Ww,bw为感知机的权重参数,是维度为a*2d的二维矩阵,a是感知机的参数,则uk为将hlstm经过感知机输出的隐藏特征,维度为a*n,对uk进行自注意力的计算,uk T*uk为一个n*n的二维矩阵,将其经过归一化处理得到第k个注意力权重矩阵Ak
K头注意力机制得到K个注意力权重矩阵Ak,公式如下:
Figure BDA00027119155000000714
其中αij为单词i对应单词j的注意力权重,i,j∈(1,n);
将得到的注意力权重矩阵Ak,与特征向量hlstm作为AGLSTM的输入,得到该层AGLSTM的输出向量hout,输出为:
Figure BDA00027119155000000715
其中
Figure BDA0002711915500000081
是第K个注意力矩阵所对应的输出。
(3)模型网络第三层为线性连接层:根据多头注意力机制,可以得到K个不同的注意力权重矩阵A(k),AGLSTM层输出便得到K个不同的结果;利用线性连接层将AGLSTM层输出的K个不同的结果整合成最终的输出特征。线性连接层定义的数学形式如下:
hcomb=Wcombhout+bcomb
其中,hout是经过AGLSTM层输出的结果,
Figure BDA0002711915500000082
Figure BDA0002711915500000083
表示第K个注意力矩阵所对应的输出,将一共K个输出经过线性变换整合成一个输出即为hcomb;Wcomb是线性连接层的权重矩阵,bcomb是线性连接层的偏置矩阵,hcomb为最终输出的特征。
(4)模型网络最后一层为输出层:由于关系抽取本质是一个多分类问题,因此将AGLSTM层输出的特征hcomb通过最大池化层,保留句子中最重要的特征,然后通过softmax函数计算每一个类别的条件概率,输出模型预测特征的标签类别。
每一个预测特征对应标签类别的概率计算公式如下:
Figure BDA0002711915500000084
其中p(i)为对应i标签的概率,
Figure BDA0002711915500000085
为经过池化后标签i对应的特征分数,N为标签的个数。
所述步骤2中,关系抽取模型选用Sigmoid函数作为激活函数,采用Adam优化算法进行模型训练,采用精确率P,召回率R和F1值作为评价指标。
设置模型参数与性能指标:本实施例采用Adam算法,网络隐藏层节点数设置为300。为防止过拟合,在输入层和AGLSTM层同时引入损失率(dropout),并且在目标函数中引入L2正则化项,正则化因子取值为0.001。对于TACRED数据集,模型参数设置学习率为0.7,在输入层和AGLSTM层的损失率都设为0.5。对于SemEval-2010 Task 8数据集,模型设置学习率为0.5,在输入层和AGLSTM层的损失率分别设为0.5和0.3。
所述评价指标计算公式如下:
Figure BDA0002711915500000086
Figure BDA0002711915500000087
Figure BDA0002711915500000088
其中,TP(true positives)表示将正样本预测为正的样本数,FP(falsepositives)表示将负样本预测为正的样本数,FN(false nagatives)表示将正样本预测为负的样本数,在本发明方法中正样本、负样本只对应某类标签而言,该标签对应的样本即为正样本,其他标签对应的样本相对该类标签来说为负样本。
在注意力层,多头注意力机制的参数K会对模型性能产生较大的影响。图4展示了在SemEval-2010 Task 8数据集下不同K值下所提模型的准确率。可以看出,当K为4时,模型得到了最佳的F1指标值。
步骤3,获取关系抽取测试集,利用训练好的关系抽取模型对测试集进行关系抽取,最终得到实体关系三元组。
实验验证对比如下:
本发明方法和各种主流方法在TACRED数据集和SemEval-2010 Task 8数据集上的实验对比结果如下表所示,表1展示在TACRED数据集上和主流模型的实验对比结果,表2展示了在SemEval-2010 Task 8数据集上的实验对比结果。可以看出:AGLSTM模型在精确率P和综合指标F1值上都要显著高于其他模型,召回率R也只是低于某些模型。说明AGLSTM模型在关系抽取任务上达到了当前最好的水平。
表1
Figure BDA0002711915500000091
表2
Figure BDA0002711915500000092
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,其特征在于:该方法包括以下步骤:
步骤1,获取关系抽取数据集,对数据集中文本数据进行预处理,生成用于句子时序上下文信息特征提取的词向量矩阵和用于句子结构信息特征提取的邻接矩阵;
生成词向量矩阵和邻接矩阵的方法如下:
通过引入实体标签信息和实体位置信息来扩充词向量;所述的实体标签信息是通过自然语言处理工具为句子文本进行命名实体识别,打上相应标签;
所述的实体位置信息是根据不同单词到两个实体的距离来生成;最后生成用于提取句子时序上下文特征的词向量矩阵,即词嵌入矩阵;
利用自然语言处理工具对句子进行依存结构分析,生成原始句子依存结构树,将句子依存结构树进行补全,转化成句子结构图,进而将句子结构图转化成邻接矩阵;
步骤2,构建注意力图长短时记忆神经网络的关系抽取模型;采用生成的词向量矩阵和邻接矩阵作为模型的输入,关系类别标签作为输出,训练该关系抽取模型;
注意力图LSTM关系抽取模型结构具体为:
模型网络第一层为双向LSTM层:该层用于提取句子时序上下文特征,以步骤1中生成的词向量矩阵作为输入,输出句子时序上下文特征矩阵;
模型网络第二层为AGLSTM层:该层由图长短时记忆神经网络和注意力机制共同组成,将双向LSTM网络提取的序列特征和步骤1中生成的邻接矩阵作为该层的输入,模型中的注意力机制采用多头注意力机制,该层的输出为K个不同的特征提取结果,K为多头注意力的head数;
模型网络第三层为线性连接层:利用线性连接层将AGLSTM层输出的K个不同的结果整合成最终的输出特征;
模型网络最后一层为输出层:将AGLSTM层输出的特征通过最大池化层,然后通过softmax函数计算每一个类别的条件概率,输出模型预测特征的标签类别;
所述的图长短时记忆神经网络层中每一个单词节点wi的表达包括单词节点本身特征的向量表示hi、邻接矩阵内所有与该单词相连的边的表示
Figure FDA0003594154610000011
Figure FDA0003594154610000012
每两个单词节点之间的边权重即为注意力层所得多头注意力矩阵中相应元素的权重值;单词节点wi的隐藏状态表示为:
Figure FDA0003594154610000013
Figure FDA0003594154610000014
其中αij为从节点i到节点j的初始句子结构权重即邻接矩阵中每一项对应的权值,
Figure FDA0003594154610000021
表示节点j的所有边的输入,
Figure FDA0003594154610000022
表示节点j的所有边的输出;
图长短时记忆神经网络定义如下:
Figure FDA0003594154610000023
Figure FDA0003594154610000024
Figure FDA0003594154610000025
Figure FDA0003594154610000026
Figure FDA0003594154610000027
Figure FDA0003594154610000028
其中
Figure FDA0003594154610000029
Figure FDA00035941546100000210
分别是当前时刻t在神经元j下的输入门、输出门和遗忘门的状态,
Figure FDA00035941546100000211
为当前神经元的状态,σ,tanh为激活函数,
Figure FDA00035941546100000212
为当前时刻t在神经元j下更新状态单元,通过更新状态单元
Figure FDA00035941546100000213
与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息
Figure FDA00035941546100000214
Wx和bx为模型参数,Ux1和Ux2分别表示输入的权重和输出的权重,x∈(i,o,f,u);
将双向LSTM层的输出hlstm作为注意力机制的输入,设hlstm长度为n,设单层LSTM隐藏层神经元个数为d,则hlstmm的维度为2d*n,利用self-attention计算机制得到多个注意力权重矩阵;self-attention计算公式如下:
uk=tanh(Wwhlstmm+bw)
Ak=SoftMax(uk T*uk)
其中Ww,bw为感知机的权重参数,是维度为a*2d的二维矩阵,a是感知机的参数,则uk为将hlstmm经过感知机输出的隐藏特征,维度为a*n,对uk进行自注意力的计算,uk T*uk为一个n*n的二维矩阵,将其经过归一化处理得到第k个注意力权重矩阵Ak
K头注意力机制得到K个注意力权重矩阵Ak,公式如下:
Figure FDA00035941546100000215
其中αij为单词i对应单词j的注意力权重,i,j∈(1,n);
将得到的注意力权重矩阵Ak,与特征向量blstm作为AGLSTM的输入,得到该层AGLSTM的输出向量hout,输出为:
Figure FDA00035941546100000216
其中
Figure FDA00035941546100000217
是第K个注意力矩阵所对应的输出;
步骤3,获取关系抽取测试集,利用训练好的关系抽取模型对测试集进行关系抽取。
2.根据权利要求1所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,其特征在于:双向LSTM提取特征过程如下:
LSTM单元通过输入门it、遗忘门ft和输出门ot进行信息流的控制,提取词特征信息;
当步骤1输出的词向量矩阵输入时,双向LSTM网络表示为:
it=σ(Wiet+Uiht-1+bi)
ft=σ(Wfet+Ufht-1+bf)
ut=tanh(Wuet+Uuht-1+bu)
ot=σ(Woet+Uoht-1+bo)
ct=it⊙ut+ftQCt-1
ht=ot⊙tanh(ct)
其中t为当前时刻,et为当前时刻神经元的状态,ht,ht-1分别为当前时刻和前一时刻隐藏层状态向量,ct,ct-1分别为当前时刻和前一时刻细胞单元状态向量,σ和tanh为激活函数,it、ot和ft分别是输入门、输出门和遗忘门,ut为神经元的更新状态单元,通过更新状态单元ut与上一时刻的神经元状态单元共同计算得到当前时刻神经元状态信息ct,Wx、Ux和bx为模型参数,x∈(i,o,f,u);
ht由前向传播和后向传播两个方向的向量组成,前向传播中t时刻隐藏层向量记为ht1,后向传播中t时刻隐藏层状态向量记为ht2;最终双向LSTM在t时刻的输出为ht=ht1+ht2
3.根据权利要求1所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,其特征在于:线性连接层定义的数学形式如下:
hcomb=Wcombhout+bcomb
其中,hout是经过AGLSTM层输出的结果,
Figure FDA0003594154610000031
Figure FDA0003594154610000032
表示第K个注意力矩阵所对应的输出,将一共K个输出经过线性变换整合成一个输出即为hcomb;Wcomb是线性连接层的权重矩阵,bcomb是线性连接层的偏置矩阵,hcomb为最终输出的特征。
4.根据权利要求1所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,其特征在于:每一个预测特征对应标签类别的概率计算公式如下:
Figure FDA0003594154610000033
其中p(i)为对应i标签的概率,
Figure FDA0003594154610000034
为经过池化后标签i对应的特征分数,N为标签的个数。
5.根据权利要求1-4任一所述的基于注意力机制与图长短时记忆神经网络结合的关系抽取方法,其特征在于:所述步骤2中,关系抽取模型选用Sigmoid函数作为激活函数,采用Adam优化算法进行模型训练,采用精确率P,召回率R和F1值作为评价指标,公式如下:
Figure FDA0003594154610000041
Figure FDA0003594154610000042
Figure FDA0003594154610000043
其中,TP表示将正样本预测为正的样本数,FP表示将负样本预测为正的样本数,FN表示将正样本预测为负的样本数,正样本、负样本对应某类标签,该标签对应的样本即为正样本,其他标签对应的样本相对该类标签为负样本。
CN202011059653.9A 2020-09-30 2020-09-30 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 Active CN112163426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011059653.9A CN112163426B (zh) 2020-09-30 2020-09-30 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011059653.9A CN112163426B (zh) 2020-09-30 2020-09-30 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

Publications (2)

Publication Number Publication Date
CN112163426A CN112163426A (zh) 2021-01-01
CN112163426B true CN112163426B (zh) 2022-05-27

Family

ID=73860792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011059653.9A Active CN112163426B (zh) 2020-09-30 2020-09-30 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法

Country Status (1)

Country Link
CN (1) CN112163426B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712901B (zh) * 2021-01-14 2024-10-15 西京学院 基于语法量子长短时记忆模型及药物相互作用提取方法
CN112818035B (zh) * 2021-01-29 2022-05-17 湖北工业大学 一种网络故障预测方法及终端设备及存储介质
CN112818124A (zh) * 2021-02-21 2021-05-18 昆明理工大学 一种基于注意力神经网络的实体关系抽取方法
CN112883693B (zh) * 2021-02-23 2023-05-05 国网福建省电力有限公司 一种自动生成电力工作票的方法及终端
CN113080847B (zh) * 2021-03-17 2022-11-29 天津大学 基于图的双向长短期记忆模型诊断轻度认知障碍的装置
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113033189B (zh) * 2021-04-08 2022-07-12 北京理工大学 一种基于注意力分散的长短期记忆网络的语义编码方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113468872B (zh) * 2021-06-09 2024-04-16 大连理工大学 基于句子级别图卷积的生物医学关系抽取方法及系统
CN113254592B (zh) * 2021-06-17 2021-10-22 成都晓多科技有限公司 基于门机制的多级注意力模型的评论方面检测方法及系统
CN113312907B (zh) * 2021-06-18 2023-01-20 广东工业大学 基于混合神经网络的远程监督关系抽取方法及装置
CN113505240B (zh) * 2021-07-09 2023-04-18 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN113675947A (zh) * 2021-07-27 2021-11-19 北京智芯微电子科技有限公司 输电网关的输电侧设备状态监测方法、及输电网关
CN113379167B (zh) * 2021-08-02 2022-09-23 刘德喜 一种网络论坛用户心理危机程度预测方法
CN113535928A (zh) * 2021-08-05 2021-10-22 陕西师范大学 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN113901818A (zh) * 2021-09-26 2022-01-07 四川大学 一种面向威胁情报的实体识别及关系抽取方法
CN113901758A (zh) * 2021-09-27 2022-01-07 南京邮电大学 一种面向知识图谱自动构建系统的关系抽取方法
CN114330360B (zh) * 2021-12-03 2024-08-09 哈尔滨工业大学 一种针对特定目标的立场检测方法
CN114444572A (zh) * 2021-12-25 2022-05-06 西北工业大学 一种面向数据错误的空中目标意图识别方法及装置
CN114915496B (zh) * 2022-07-11 2023-01-10 广州番禺职业技术学院 基于时间权重和深度神经网络的网络入侵检测方法和装置
CN115392219A (zh) * 2022-07-29 2022-11-25 苏州思萃人工智能研究所有限公司 一种关系抽取方法、计算机设备及程序产品
CN117390948A (zh) * 2023-08-10 2024-01-12 苏州黑盾环境股份有限公司 基于多头注意力长短时记忆神经网络冷水机组监测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110807084A (zh) * 2019-05-15 2020-02-18 北京信息科技大学 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法

Also Published As

Publication number Publication date
CN112163426A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN108536754A (zh) 基于blstm和注意力机制的电子病历实体关系抽取方法
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN111984791A (zh) 一种基于注意力机制的长文分类方法
CN114021584A (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN113901758A (zh) 一种面向知识图谱自动构建系统的关系抽取方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant