CN108829801B - 一种基于文档级别注意力机制的事件触发词抽取方法 - Google Patents

一种基于文档级别注意力机制的事件触发词抽取方法 Download PDF

Info

Publication number
CN108829801B
CN108829801B CN201810572351.8A CN201810572351A CN108829801B CN 108829801 B CN108829801 B CN 108829801B CN 201810572351 A CN201810572351 A CN 201810572351A CN 108829801 B CN108829801 B CN 108829801B
Authority
CN
China
Prior art keywords
word
sequence
words
label
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810572351.8A
Other languages
English (en)
Other versions
CN108829801A (zh
Inventor
王健
王安然
林鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810572351.8A priority Critical patent/CN108829801B/zh
Publication of CN108829801A publication Critical patent/CN108829801A/zh
Application granted granted Critical
Publication of CN108829801B publication Critical patent/CN108829801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明涉及一种事件触发词抽取方法,一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建样本的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)事件触发词的抽取。本发明方法具有以下优点:一是采用BIO标签标注方式,实现了包括对多词触发词的识别;二是针对触发词识别任务,构建了相应的单词和特征的分布式表示方式;三是提出了BiLSTM‑Attention模型,通过引入Attention机制,实现了针对当前输入的文档级别信息的分布式表达构造,提高触发词识别效果。

Description

一种基于文档级别注意力机制的事件触发词抽取方法
技术领域
本发明涉及一种事件触发词抽取方法,更具体的说,涉及一种基于文档级别注意力机制的事件触发词抽取方法。
背景技术
事件抽取作为信息抽取的一种形式,旨在从自然语言文本中抽取结构化的事件信息。一个事件通常是由一个触发词或词组(Trigger)以及若干个事件元素(Argument)组成。触发词通常为动词或带有动词性质的名词,用来表示事件的类型。然后围绕着触发词,识别事件的参与元素,即事件元素。触发词识别作为事件抽取的关键步骤,识别性能的好坏直接决定了事件抽取的准确性。
以往的方法多把触发词识别当作多分类任务,通过对文本当中的候选词构造特征表示,对其进行分类。特征表示的方法主要为两大类:特征工程构造和神经网络生成。特征工程构造方法是基于自然语言处理工具,如:句法分析器,根据任务人为抽取文本中的信息,构造样本表示的特征。神经网络生成方法是指仅通过对样本的上下文进行神经网络操作,进行表示学习。相比于传统的特征工程构造方法,神经网络方法可以有效避免了繁杂的人为抽取特征工作,并且缩小了特征表示的维度,避免了特征表示的维度灾难。另一方面,神经网络方法可以有效地结合词向量(word embedding)信息,避免了传统One-hot词汇表示方法的语义鸿沟。
但是触发词不仅仅是单词,也有词组构成的触发词,如:play a key role。如果仅对文本中的每个单词进行分类的话,并不能够识别这种多词所构造的触发词。对于多词组成的触发词,如果使用n-gram的方法构造候选样本,会出现正负样本严重不平衡的问题,增大了模型的训练难度;如果使用句法分析器构造多词候选集,则对句法分析器截取的词汇段的准确程度有着较高要求,而且这种方法的灵活程度不高。
另一方面,以往的触发词识别方法多是以句子为单位,根据候选单词所在的句子信息判别候选单词的类别。然而,一篇文档所涉及到的事件往往是有关联的,存在着文档之中事件类型聚集的现象。有方法采用主题模型来引入篇章级别特征,但是对于相同文档的候选词来说,这种篇章级别特征对相同文档的候选触发词并不具有特殊性,不能有针对地获取当前候选词所关注的篇章级别信息。
发明内容
为了克服现有技术中存在的不足,本发明提供了一种基于文档级别注意力机制的事件触发词抽取方法。该方法利用双向LSTM网络来实现针对样本的特征构建,并通过注意力(Attention)机制有效地融合文档级别的特征,最后通过条件随机场(ConditionalRandom Field,CRF)学习BIO标签之间的相关性,最终对当前候选词进行标注,完成对文本中触发词的抽取。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:
步骤1、训练语料预处理,使用的训练语料选自MLEE即Multi-Level EventExtraction,并对训练语料进行BIO标签标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,标注方法为对每一个文档中的词,使用添加实体或触发词类型的BIO标签对实体和触发词进行标注,具体包括以下子步骤:
(a)将文本中的单词以及符号进行切分,逐行保存,作为训练语料的第一列;
(b)将每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为训练语料的第二列和第三列,其中第三列为该序列待预测的真实标签,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非触发词的单词的标签则为O;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建样本的分布式表示方式,采用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
Figure GDA0002630646800000031
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词Wi的字符序列向量通过前向和后向LSTM层的隐层输出,
Figure GDA0002630646800000034
表示矩阵拼接操作,
Figure GDA0002630646800000035
表示单词wi基于字符序列构建的词向量;
(b)特征的分布式表示是对单词的分布式表示的一种额外信息补充,包括单词的实体类型信息及大小写信息,通过对这些类别信息做随机初始化向量的映射,拼接到单词的分布式表示上,在模型训练的过程中更新这些参数,将实体信息生成BIO标签形式后作随机向量映射,对于每个词,获取其对应实体类别的向量将单词的大小写特征分为4类:全部为小写,全部为大写,首字母大写,非首字母存在大写,然后对这四类同样进行随机初始化向量映射,对于每个词判断其大小写特征类型,获取大小写特征向量,最后将关于单词wi所有的特征表示拼接,获得单词wi的分布式表示
Figure GDA0002630646800000032
通过公式(2)进行描述,
Figure GDA0002630646800000033
式中,
Figure GDA0002630646800000036
表示获取的FastText词向量、
Figure GDA0002630646800000037
表示获取的其对应实体类别的向量、
Figure GDA0002630646800000044
表示获取的大小写特征向量;
步骤4、构造基于BLSTM-Attention的特征表示方式,将触发词识别任务抽象成一个序列标注问题,其目标是找到输入文本序列最优的事件触发词类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词分布式表示
Figure GDA0002630646800000045
作为输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(3)进行描述,
Figure GDA0002630646800000041
式中,
Figure GDA0002630646800000046
为正向LSTM层的隐层输出,
Figure GDA0002630646800000047
为逆向LSTM层的隐层输出;
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的篇章级别信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(4)进行描述,
Figure GDA0002630646800000042
式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,
Figure GDA0002630646800000043
score(wi,wj)=ui·||xi-xj|| (6)
式中,xi为单词wi在Attention层的输入,xj为单词wj在Attention层的输入,||xi-xj||为xi与xj的欧几里德距离即Euclidean Metric,ui为计算score(wi,wj)的随机初始化的参数,随模型训练进行更新,然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi,
Figure GDA0002630646800000051
式中,j为1到n的整数,hj为步骤4子步骤(a)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
Figure GDA0002630646800000052
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn),
Figure GDA0002630646800000053
m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
式中,为
Figure GDA0002630646800000058
为参数矩阵,其中k为类别标签个数,
Figure GDA0002630646800000054
[zi·V]l为[zi·V]在位置l的取值,即标签为l的得分;
定义一个转移矩阵
Figure GDA0002630646800000055
其中每个元素表示一个标签转移到另一个标签的得分,对于输入Z和其对应标签序列y=(y1,y2,…,yn)的得分通过公式(10)进行描述,
Figure GDA0002630646800000056
式中,
Figure GDA0002630646800000059
为序列中i位置对应标签yi转移到标签yi+1的得分,
Figure GDA00026306468000000510
为i位置对应标签为yi的得分,
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
Figure GDA0002630646800000057
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、事件触发词的抽取,利用步骤3-5所训练的参数生成的触发词抽取模型,将未标注触发词的数据作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,识别未标注数据中的触发词。
本发明有益效果是:一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建样本的分布式表示方式,(4)构造基于BLSTM-Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)事件触发词的抽取。与已有技术相比,本发明方法具有以下优点:一是采用BIO标签标注方式,实现了包括对多词触发词的识别;二是针对触发词识别任务,构建了相应的单词和特征的分布式表示方式;三是提出了BiLSTM-Attention模型,通过引入Attention机制,实现了针对当前输入的文档级别信息的分布式表达构造,使本发明模型可以利用相同文档触发词聚集的信息,提高触发词识别效果。本发明在MLEE语料的测试集上取得了79.16%的F1值。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的BLSTM-Attention-CRF模型框架图。
图3是本发明使用的评价指标图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:
步骤1、训练语料预处理,使用的训练语料选自MLEE即Multi-Level EventExtraction,并对训练语料进行BIO标签标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,标注方法为对每一个文档中的词,使用添加实体或触发词类型的BIO标签对实体和触发词进行标注,具体包括以下子步骤:
(a)将文本中的单词以及符号进行切分,逐行保存,作为训练语料的第一列;
(b)将每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为训练语料的第二列和第三列,第三列为该序列待预测的真实标签,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非触发词的单词的标签则为O;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;本发明使用近年PubMed上的生物医学医药方面的文献摘要(约20G)作为引入的外部资源,使用FastText工具来训练词向量,训练模型选择的是Skip-gram模型,其参数选择如表1所示。
表1
Figure GDA0002630646800000071
步骤3、构建样本的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
Figure GDA0002630646800000081
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,
Figure GDA0002630646800000085
表示矩阵拼接操作,
Figure GDA0002630646800000086
表示单词wi基于字符序列构建的词向量;
(b)特征的分布式表示是对单词的分布式表示的一种额外信息补充,包括单词的实体类型信息及大小写信息,通过对这些类别信息做随机初始化向量的映射,拼接到单词的分布式表示上,在模型训练的过程中更新这些参数,将实体信息生成BIO标签形式后作随机向量映射,对于每个词,获取其对应实体类别的向量将单词的大小写特征分为4类:全部为小写,全部为大写,首字母大写,非首字母存在大写,然后对这四类同样进行随机初始化向量映射,对于每个词判断其大小写特征类型,获取大小写特征向量,最后将关于单词wi所有的特征表示拼接,获得单词wi的分布式表示
Figure GDA0002630646800000082
通过公式(2)进行描述,
Figure GDA0002630646800000083
式中,
Figure GDA0002630646800000087
表示获取的FastText词向量、
Figure GDA0002630646800000088
表示获取的其对应实体类别的向量、
Figure GDA0002630646800000089
表示获取的大小写特征向量;
步骤4、构造基于BLSTM-Attention的特征表示方式,将触发词识别任务抽象成一个序列标注问题,其目标是找到输入文本序列最优的事件触发词类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词分布式表示
Figure GDA00026306468000000810
作为输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(3)进行描述,
Figure GDA0002630646800000084
式中,
Figure GDA00026306468000000811
为正向LSTM层的隐层输出,
Figure GDA00026306468000000812
为逆向LSTM层的隐层输出;
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的篇章级别信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(4)进行描述,
Figure GDA0002630646800000091
式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,
Figure GDA0002630646800000092
score(wi,wj)=ui·||xi-xj|| (6)
式中,xi为单词wi在Attention层的输入,xj为单词wj在Attention层的输入,||xi-xj||为xi与wj的欧几里得距离即Euclidean Metric,ui为计算score(wi,wj)的随机初始化的参数,随模型训练进行更新,
然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi
Figure GDA0002630646800000093
式中,j为1到n的整数,hj为步骤4子步骤(a)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
Figure GDA0002630646800000094
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,当标签之间存在关联性时,使用条件随机场(CRF)可以很有效的学习标签之间的全局关联信息,从而避免了一些不可能出现的标签序列的情况,如I标签前无B标签的情况。对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn),
Figure GDA0002630646800000095
m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
式中,为
Figure GDA0002630646800000105
为参数矩阵,其中k为类别标签个数,
Figure GDA0002630646800000101
[zi·V]l为[zi·V]在位置l的取值,即标签为l的得分;
定义一个转移矩阵
Figure GDA0002630646800000102
其中每个元素表示一个标签转移到另一个标签的得分,对于输入Z和其对应标签序列y=(y1,y2,…,yn)的得分通过公式(10)进行描述,
Figure GDA0002630646800000103
式中,
Figure GDA0002630646800000106
为序列中i位置对应标签yi转移到标签yi+1的得分,
Figure GDA0002630646800000107
为i位置对应标签为yi的得分,
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
Figure GDA0002630646800000104
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、事件触发词的抽取,利用步骤3-5所训练的参数生成的触发词抽取模型,将未标注触发词的数据作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,识别未标注数据中的触发词。
本发明方法所采用的评价指标是准确率(Precision,P)、召回率(Recall,R)以及基于融合两者的F1值。为了验证本发明提出的Attention层的有效性,本发明引入两个级别的对比实验,一个是在句子级别上使用BiLSTM-CRF,即一个句子的词汇对应一个标签序列。另一个是在篇章级别上使用BiLSTM-CRF,即一个文档的词汇对应一个标签序列。并在两个实验的训练参数的基础上,叠加篇章级别的Attention层进行BiLSTM-Attention-CRF模型的训练,分别由BiLSTM-Attention-CRF(sent-doc)和BiLSTM-Attention-CRF(doc-doc)(即本发明提出的方法)表示,实验结果如表2所示。
表2
Figure GDA0002630646800000111
从表2的实验结果可以看出,添加了篇章级别信息的结果要好于没有篇章级别信息的方法。由此可以验证,篇章级别的信息对提高事件触发词的识别性能确实有一定帮助。并且,添加Attention的方法较未添加Attention的方法在F1值上均有0.5%的提升,可以验证在篇章级别叠加Attention可以优化篇章级别信息的表示,从而提高模型的预测效果。
本发明优点在于:一是采用BIO标签标注方式,实现了包括对多词触发词的识别;二是针对触发词识别任务,构建了相应的单词和特征的分布式表示方式;三是提出了BiLSTM-Attention模型,通过引入Attention机制,实现了针对当前输入的文档级别信息的分布式表达构造,本发明在MLEE语料的测试集上取得了79.16%的F1值。

Claims (1)

1.一种基于文档级别注意力机制的事件触发词抽取方法,其特征在于包括以下步骤:
步骤1、训练语料预处理,使用的训练语料选自MLEE即Multi-Level EventExtraction,并对训练语料进行BIO标签标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,标注方法为对每一个文档中的词,使用添加实体或触发词类型的BIO标签对实体和触发词进行标注,具体包括以下子步骤:
(a)将文本中的单词以及符号进行切分,逐行保存,作为训练语料的第一列;
(b)将每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为训练语料的第二列和第三列,第三列为每个单词待预测的真实标签,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非触发词的单词的标签则为O;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建样本的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自所述步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
Figure FDA0002630646790000021
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,
Figure FDA0002630646790000022
表示矩阵拼接操作,
Figure FDA0002630646790000023
表示单词wi基于字符序列构建的词向量;
(b)特征的分布式表示是对单词的分布式表示的一种额外信息补充,包括单词的实体类型信息及大小写信息,通过对这些类别信息做随机初始化向量的映射,拼接到单词的分布式表示上,在模型训练的过程中更新这些参数,将实体信息生成BIO标签形式后作随机向量映射,对于每个词,获取其对应实体类别的向量将单词的大小写特征分为4类:全部为小写,全部为大写,首字母大写,非首字母存在大写,然后对这四类同样进行随机初始化向量映射,对于每个词判断其大小写特征类型,获取大小写特征向量,最后将关于单词wi所有的特征表示拼接,获得单词wi的分布式表示
Figure FDA0002630646790000024
通过公式(2)进行描述,
Figure FDA0002630646790000025
式中,
Figure FDA0002630646790000026
表示获取的FastText词向量、
Figure FDA0002630646790000027
表示获取的其对应实体类别向量、
Figure FDA0002630646790000028
表示获取的大小写特征向量;
步骤4、构造基于Bi LSTM-Attention的特征表示方式,将触发词识别任务抽象成一个序列标注问题,其目标是找到输入文本序列最优的事件触发词类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词分布式表示
Figure FDA0002630646790000029
作为输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(3)进行描述,
Figure FDA0002630646790000031
式中,
Figure FDA0002630646790000032
为正向LSTM层的隐层输出,
Figure FDA0002630646790000033
为逆向LSTM层的隐层输出;
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的篇章级别信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(4)进行描述,
Figure FDA0002630646790000034
式中,n表示该文本单词序列的长度,q为1到n的整数,a i,j 表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重a i,j ,score函数通过公式(5)、(6)进行描述,
Figure FDA0002630646790000035
score(wi,wj)=ui·||xi-xj|| (6)
式中,xi为单词wi在Attention层的输入,xj为单词wj在Attention层的输入,||xi-xj||为xi与xj的欧几里得距离即Euclidean Metric,ui为计算score(wi,wj)的随机初始化的参数,随模型训练进行更新,然后,将注意力权重a i,j 与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi
Figure FDA0002630646790000036
式中,j为1到n的整数,hj为步骤4子步骤(a)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
Figure FDA0002630646790000037
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn),
Figure FDA0002630646790000041
m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
式中,为
Figure FDA0002630646790000042
为参数矩阵,其中k为类别标签个数,
Figure FDA0002630646790000043
[zi·V]l为[zi·V]在位置l的取值,即标签为l的得分;
定义一个转移矩阵
Figure FDA0002630646790000044
其中每个元素表示一个标签转移到另一个标签的得分,对于输入Z和其对应标签序列y=(y1,y2,…,yn)的得分通过公式(10)进行描述,
Figure FDA0002630646790000045
式中,
Figure FDA0002630646790000046
为序列中i位置对应标签yi转移到标签yi+1的得分,
Figure FDA0002630646790000047
为i位置对应标签为yi的得分,
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
Figure FDA0002630646790000048
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、事件触发词的抽取,利用步骤3-5所训练的参数生成的触发词抽取模型,将未标注触发词的数据作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,识别未标注数据中的触发词。
CN201810572351.8A 2018-06-06 2018-06-06 一种基于文档级别注意力机制的事件触发词抽取方法 Active CN108829801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810572351.8A CN108829801B (zh) 2018-06-06 2018-06-06 一种基于文档级别注意力机制的事件触发词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810572351.8A CN108829801B (zh) 2018-06-06 2018-06-06 一种基于文档级别注意力机制的事件触发词抽取方法

Publications (2)

Publication Number Publication Date
CN108829801A CN108829801A (zh) 2018-11-16
CN108829801B true CN108829801B (zh) 2020-11-20

Family

ID=64144226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810572351.8A Active CN108829801B (zh) 2018-06-06 2018-06-06 一种基于文档级别注意力机制的事件触发词抽取方法

Country Status (1)

Country Link
CN (1) CN108829801B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522558B (zh) * 2018-11-21 2024-01-12 金现代信息产业股份有限公司 一种基于深度学习的中文错字校正方法
CN109558591A (zh) * 2018-11-28 2019-04-02 中国科学院软件研究所 中文事件检测方法及装置
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN111401508A (zh) * 2018-12-13 2020-07-10 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN109857990B (zh) * 2018-12-18 2022-11-25 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109710930A (zh) * 2018-12-20 2019-05-03 重庆邮电大学 一种基于深度神经网络的中文简历解析方法
CN109766524B (zh) * 2018-12-28 2022-11-25 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109846472A (zh) * 2019-01-30 2019-06-07 郑州大学 基于BiLSTM-Attention深度神经网络的心搏分类方法
CN111639483B (zh) * 2019-02-14 2023-06-23 顺丰科技有限公司 一种评价方面确定方法和装置
CN110032641B (zh) * 2019-02-14 2024-02-13 创新先进技术有限公司 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN110059185B (zh) * 2019-04-03 2022-10-04 天津科技大学 一种医学文档专业词汇自动化标注方法
CN110135457B (zh) * 2019-04-11 2021-04-06 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110147446A (zh) * 2019-04-19 2019-08-20 中国地质大学(武汉) 一种基于双层attention机制的词嵌入方法、设备及存储设备
CN111985229B (zh) * 2019-05-21 2023-07-07 腾讯科技(深圳)有限公司 一种序列标注方法、装置及计算机设备
CN110147553A (zh) * 2019-05-23 2019-08-20 贵州大学 一种基于案件要素的法律文书分析方法
CN110414498B (zh) * 2019-06-14 2023-07-11 华南理工大学 一种基于交叉注意力机制的自然场景文本识别方法
CN110472229B (zh) * 2019-07-11 2022-09-09 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110516069B (zh) * 2019-08-28 2023-07-25 中南大学 一种基于FastText-CRF的引文元数据抽取方法
CN110532563B (zh) * 2019-09-02 2023-06-20 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置
CN111222318B (zh) * 2019-11-19 2023-09-12 南京审计大学 基于双通道双向lstm-crf网络的触发词识别方法
CN111079419B (zh) * 2019-11-28 2024-03-22 中国人民解放军军事科学院军事科学信息研究中心 一种基于大数据的国防科技热词发现方法及系统
CN111159017A (zh) * 2019-12-17 2020-05-15 北京中科晶上超媒体信息技术有限公司 一种基于槽填充的测试用例生成方法
CN111460830B (zh) * 2020-03-11 2022-04-12 北京交通大学 一种司法文本中经济事件的抽取方法及系统
CN111475617B (zh) * 2020-03-30 2023-04-18 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN111460264B (zh) * 2020-03-30 2023-08-01 口口相传(北京)网络技术有限公司 语义相似度匹配模型的训练方法及装置
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
CN112069811B (zh) * 2020-08-24 2024-01-26 武汉大学 多任务交互增强的电子文本事件抽取方法
CN111931935B (zh) * 2020-09-27 2021-01-15 中国人民解放军国防科技大学 基于One-shot 学习的网络安全知识抽取方法和装置
CN112580330B (zh) * 2020-10-16 2023-09-12 昆明理工大学 基于中文触发词指导的越南语新闻事件检测方法
CN112214965A (zh) * 2020-10-21 2021-01-12 科大讯飞股份有限公司 大小写规整方法、装置、电子设备和存储介质
CN112307761A (zh) * 2020-11-19 2021-02-02 新华智云科技有限公司 基于注意力机制的事件抽取方法及系统
CN112612871B (zh) * 2020-12-17 2023-09-15 浙江大学 一种基于序列生成模型的多事件检测方法
CN112817561B (zh) * 2021-02-02 2023-08-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN112836017B (zh) * 2021-02-09 2022-07-26 天津大学 一种基于分层主题驱动的自注意力机制的事件检测方法
CN113268673B (zh) * 2021-04-23 2023-06-02 国家计算机网络与信息安全管理中心 互联网行动类信息线索分析的方法和系统
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN112948588B (zh) * 2021-05-11 2021-07-30 中国人民解放军国防科技大学 一种用于情报快速整编的中文文本分类方法
CN113312470B (zh) * 2021-05-28 2022-05-31 北京航空航天大学 一种基于匿名化隐私保护技术的医疗事件抽取方法
CN113468884B (zh) * 2021-06-10 2023-06-16 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN113360655B (zh) * 2021-06-25 2022-10-04 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113505200B (zh) * 2021-07-15 2023-11-24 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN116306657B (zh) * 2023-05-19 2023-08-22 之江实验室 基于方阵标注和双仿射层注意力的实体抽取方法及系统
CN116861901B (zh) * 2023-07-04 2024-04-09 广东外语外贸大学 一种基于多任务学习的中文事件检测方法、系统和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
US8676001B2 (en) * 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition;Ling Luo等;《Data and text mining》;20171124;第1381-1388页 *
基于双向LSTM和两阶段方法的触发词识别;何馨宇等;《中文信息学报》;20171130;第147-154页 *

Also Published As

Publication number Publication date
CN108829801A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108829801B (zh) 一种基于文档级别注意力机制的事件触发词抽取方法
CN108897989B (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
EP2486470B1 (en) System and method for inputting text into electronic devices
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
Xing et al. A convolutional neural network for aspect-level sentiment classification
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN113673241B (zh) 一种基于范例学习的文本摘要生成框架系统及方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN111428518B (zh) 一种低频词翻译方法及装置
Szűcs et al. Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN115630140A (zh) 一种基于文本特征融合的英语阅读材料难度判断的方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant