CN108897989B - 一种基于候选事件元素注意力机制的生物事件抽取方法 - Google Patents
一种基于候选事件元素注意力机制的生物事件抽取方法 Download PDFInfo
- Publication number
- CN108897989B CN108897989B CN201810572450.6A CN201810572450A CN108897989B CN 108897989 B CN108897989 B CN 108897989B CN 201810572450 A CN201810572450 A CN 201810572450A CN 108897989 B CN108897989 B CN 108897989B
- Authority
- CN
- China
- Prior art keywords
- word
- sequence
- event
- words
- trigger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种生物事件抽取方法,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,三是简化了生成事件的步骤。
Description
技术领域
本发明涉及一种生物事件抽取方法,更具体的说,涉及一种基于候选事件元素注意力机制的生物事件抽取方法。
背景技术
在生物信息领域上,事件是指一个或多个生物医学实体(如:蛋白质,细胞和化学物质)状态的改变。而这些改变对于理解生物学的过程和功能,以及对生理和发病机制的深入理解有着重要意义。自动创建这些文本描述的结构化表示不仅可以在信息检索和问答系统中构造由此类事件组成的生物网络,还可以用于知识发现,找到生物实体之间新的关联。
生物事件抽取任务旨在从文本中获取生物事件信息并结构化表示。通过确定文本中语段的事件类型,然后找到该事件对应的事件元素。由于事件元素仅可以是文本中的实体,所以生物事件抽取主要包括三个步骤,第一步识别文本中的实体,第二步确定事件触发词来获取事件的类型,第三步根据触发词找到其对应事件的事件元素。生物事件抽取训练语料一般为每个文档提供两类标注信息:实体标注信息和事件标注信息。其中实体信息包括文档中的实体对应的偏移量和类别;事件标注信息包含两个部分,触发词信息和事件信息。触发词标注形式与实体标注形式相同;事件信息包含:事件类别以及对应的触发词,事件元素的类别以及对应的实体或事件。
以往进行生物事件抽取的方法主要是基于分类模型,将同一句子中的触发词和实体构建二元关系对(如果用触发词来代表事件的话,还要构建触发词-触发词关系),然后对关系进行分类,从而确定实体或触发词是否属于该触发词触发的事件,以及该实体的事件元素类型。
这样的方法存在着几个弊端。首先,因为生物语料中存在大量的生物实体和事件嵌套的情况,这种构建二元关系对的方式会产生大量的负样本,造成正负样本比例失衡的问题,不利于分类器学习。另一方面,生物领域的事件相比于通用领域来说,事件粒度更小,而且存在复杂的事件嵌套关系。事件元素之间并不是孤立的。对于含有多个元素以及嵌套的事件(如调控和绑定事件),事件元素之间往往存在关联,单独考虑二元关系对的方式不能有效利用事件元素之间的相互信息。最后,对于多元素的事件,基于二元关系分类的方式还要进行后处理才能生成多元素的事件,不同的后处理方法也会对事件抽取的结果造成影响。
发明内容
为克服现有技术针对二元分类实现事件元素识别方法存在的问题,本发明提供一种基于候选事件元素注意力机制的生物事件抽取方法。采用该方法可实现事件元素检测,最后将触发词与识别到的对应事件元素构造成生物事件通过格式化来表示,实现生物事件的抽取。不同于二元分类的方法,本发明提出的方法重点在于针对某一个触发词,识别其所在序列所有单词对应的事件元素标签序列,从而构造事件。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:
步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:
(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;
(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;
(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,表示矩阵拼接操作,表示单词wi基于字符序列构建的词向量;
(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为通过公式(2)进行描述,
步骤4、构造基于BiLSTM-Attention的特征表示方式,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(4)进行描述,
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(5)进行描述,
式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,
然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi,
式中,j为1到n的整数,hj为步骤4子步骤(b)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn), m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、生物事件抽取,利用步骤3-5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
本发明有益效果是:一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM-Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。与已有技术相比,本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,而且考虑到了事件元素之间的相关性;二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,避免将事件元素标签标注到非实体或非触发词的词汇上;三是简化了生成事件的步骤,本方法可以直接将当前触发词和事件元素结合生成事件,避免了以往基于二元分类方法需要复杂的后处理步骤生成事件的方式。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的候选事件元素注意力机制的事件抽取模型框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:
步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:
(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;
(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;
(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,表示矩阵拼接操作,表示单词wi基于字符序列构建的词向量;
(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为通过公式(2)进行描述,
步骤4、构造基于BiLSTM-Attention的特征表示方式,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(4)进行描述,
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(5)进行描述,
式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,
然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi,
式中,j为1到n的整数,hj为步骤4子步骤(b)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn), m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、生物事件抽取,利用步骤3-5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
本发明方法所采用的评价指标是准确率(Precision,P)、召回率(Recall,R)以及基于融合两者的F1值。为了验证本发明提出的基于候选事件元素注意力机制的有效性,引入两个对比实验,在相同的序列构造方法下分别使用BiLSTM-CRF,和本发明提出的添加了候选事件元素注意力机制的BiLSTM-CRF模型(BiLSTM-Attention-CRF)来实现事件元素检测,实验结果如表1所示:
表1
相比于不使用Attention的BiLSTM-CRF方法,在几乎不损失准确率的情况下,通过提高召回率实现了最终事件元素检测的F1值的提高,验证了本发明提出的Attention方法的有效性。
本发明的优点在于:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,而且考虑到了事件元素之间的相关性;二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,避免将事件元素标签标注到非实体或非触发词的词汇上;三是简化了生成事件的步骤,本方法可以直接将当前触发词和事件元素结合生成事件,避免了以往基于二元分类方法需要复杂的后处理步骤生成事件的方式。
为使本发明的目的、技术方案和有益效果更加清晰和更易于实施,以下结合具体实施例,并参照附图,对本发明做进一步详细说明。
假设现有一个触发词以及其对应的句子信息,当前触发词为“inhibition”,其对应的事件类别为负向调控(Neg.Reg),其所在的句子为“Adenovirus-mediated genetransfer of endostatin in vivo results in high level of transgene expressionand inhibition of tumor growth and metastases.”
步骤1、训练语料预处理,具体过程如下:
(a)将句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,即“inhibition”对应位置的第二列为“B-Neg.Reg”,其他位置为“O”;
(c)将这个句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列;
(d)将当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式作为该序列的第五列,也是该序列对应的真实标签,对于触发词“inhibition”触发的Neg.Reg事件包含两个类别为Theme的事件元素,分别是由触发词“growth”触发的生长事件(Growth)以及“metastases”触发的定位事件(Localization),通过标注触发词的方式来表示其事件为当前事件的事件触发词;
最后处理后的序列形式如表2所示:
表2
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示是对于每个单词的,将表1中前4列信息按照具体实施方式步骤3实施,获取序列的分布式表示;
步骤4、构造基于BiLSTM-Attention的特征表示学习,将实施例步骤3获取的序列的分布式表示作为图2所展示模型的输入,获取基于BiLSTM-Attention的特征向量序列Z=(z1,z2,…,zn);
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,如果该实施例是训练样本,那么根据表2的第五列,采用具体实施方式步骤5更新模型的参数;如果该实施例是测试样本或未标注样本,则固定模型的所有参数,维特比算法来找到输入序列对应的最优预测标签序列,对于测试样本可以与表2的第五列进行比对,计算P,R,F1值;
步骤6、生物事件抽取,在训练样本训练好模型后,将未标注事件元素的语料处理成如表2前四列的样式,然后按照实施例步骤1-5输入到模型中,获取序列对应的事件元素,最后将当前触发词和事件元素结合生成生物事件。
Claims (1)
1.一种基于候选事件元素注意力机制的生物事件抽取方法,其特征在于包括以下步骤:
步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:
(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列, BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;
(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;
(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词对应的事件特征分布式表示为通过公式(2)进行描述,
步骤4、构造基于BiLSTM-Attention的特征表示方式 ,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词对应的BiLSTM层的输出为,通过公式(4)进行描述,
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词关于文档词序列的注意力权重,将当前单词与文档中的每一个单词计算一个得分,并用表示,然后通过softmax计算归一化,通过公式(5)进行描述,
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列,,为向量的长度,同时,定义代表了在序列中第个位置对应标签为的得分,通过公式(9)描述,
步骤6、生物事件抽取,利用步骤3-5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810572450.6A CN108897989B (zh) | 2018-06-06 | 2018-06-06 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810572450.6A CN108897989B (zh) | 2018-06-06 | 2018-06-06 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108897989A CN108897989A (zh) | 2018-11-27 |
CN108897989B true CN108897989B (zh) | 2020-05-19 |
Family
ID=64344355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810572450.6A Active CN108897989B (zh) | 2018-06-06 | 2018-06-06 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897989B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670172A (zh) * | 2018-12-06 | 2019-04-23 | 桂林电子科技大学 | 一种基于复合神经网络的景区异常事件抽取方法 |
CN109815481B (zh) * | 2018-12-17 | 2023-05-26 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN110298040A (zh) * | 2019-06-20 | 2019-10-01 | 翼健(上海)信息科技有限公司 | 一种对中文语料进行标注识别的控制方法及控制装置 |
CN112148832B (zh) * | 2019-06-26 | 2022-11-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN110782002B (zh) * | 2019-09-12 | 2022-04-05 | 成都四方伟业软件股份有限公司 | 一种lstm神经网络训练方法及装置 |
CN110633470A (zh) * | 2019-09-17 | 2019-12-31 | 北京小米智能科技有限公司 | 命名实体识别方法、装置及存储介质 |
CN111222318B (zh) * | 2019-11-19 | 2023-09-12 | 南京审计大学 | 基于双通道双向lstm-crf网络的触发词识别方法 |
CN111160005B (zh) * | 2019-11-25 | 2022-06-24 | 国家计算机网络与信息安全管理中心 | 基于事件演化知识本体的事件预测方法、装置及终端设备 |
CN111241302B (zh) * | 2020-01-15 | 2023-09-15 | 北京百度网讯科技有限公司 | 职位信息图谱生成方法、装置、设备和介质 |
CN111368551B (zh) * | 2020-02-14 | 2023-12-05 | 京东科技控股股份有限公司 | 一种确定事件主体的方法和装置 |
CN111767408B (zh) * | 2020-05-27 | 2023-06-09 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN112307761A (zh) * | 2020-11-19 | 2021-02-02 | 新华智云科技有限公司 | 基于注意力机制的事件抽取方法及系统 |
CN112612871B (zh) * | 2020-12-17 | 2023-09-15 | 浙江大学 | 一种基于序列生成模型的多事件检测方法 |
CN112507099B (zh) * | 2020-12-18 | 2021-12-24 | 北京百度网讯科技有限公司 | 对话理解模型的训练方法、装置、设备和存储介质 |
CN113468884B (zh) * | 2021-06-10 | 2023-06-16 | 北京信息科技大学 | 一种中文事件触发词抽取方法及装置 |
CN113360655B (zh) * | 2021-06-25 | 2022-10-04 | 中国电子科技集团公司第二十八研究所 | 一种基于序列标注的航迹点分类及文本生成方法 |
CN113704476B (zh) * | 2021-09-02 | 2022-03-04 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113886524A (zh) * | 2021-09-26 | 2022-01-04 | 四川大学 | 一种基于短文本的网络安全威胁事件抽取方法 |
CN114818721B (zh) * | 2022-06-30 | 2022-11-01 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
CN116824275B (zh) * | 2023-08-29 | 2023-11-17 | 青岛美迪康数字工程有限公司 | 一种实现智能模型优化的方法、装置和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007118305A1 (en) * | 2006-04-19 | 2007-10-25 | Demandcast Corp. | Automatically extracting information about local events from web pages |
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
CN105260361A (zh) * | 2015-10-28 | 2016-01-20 | 南京邮电大学 | 一种生物医学事件的触发词标注系统及方法 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030115188A1 (en) * | 2001-12-19 | 2003-06-19 | Narayan Srinivasa | Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application |
CN105512209B (zh) * | 2015-11-28 | 2018-06-19 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN106933805B (zh) * | 2017-03-14 | 2020-04-28 | 陈一飞 | 一种大数据集中生物事件触发词的识别方法 |
-
2018
- 2018-06-06 CN CN201810572450.6A patent/CN108897989B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007118305A1 (en) * | 2006-04-19 | 2007-10-25 | Demandcast Corp. | Automatically extracting information about local events from web pages |
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
CN105260361A (zh) * | 2015-10-28 | 2016-01-20 | 南京邮电大学 | 一种生物医学事件的触发词标注系统及方法 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
Non-Patent Citations (3)
Title |
---|
《An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition》;Ling Luo,et al.;《Bioinformatics》;20171123;第34卷(第8期);第1381-1388页 * |
《基于深层句法分析的生物事件触发词抽取》;王健,等;《计算机工程》;20140131;第40卷(第1期);第25-29页 * |
《面向生物医学领域的信息抽取关键技术研究》;王健;《中国博士学位论文全文数据库 信息科技辑》;20150715(第7期);第I138-149页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108897989A (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897989B (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
CN108829801B (zh) | 一种基于文档级别注意力机制的事件触发词抽取方法 | |
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN110008338B (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN109800437B (zh) | 一种基于特征融合的命名实体识别方法 | |
Gasmi et al. | LSTM recurrent neural networks for cybersecurity named entity recognition | |
Jebbara et al. | Aspect-based relational sentiment analysis using a stacked neural network architecture | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN111832511A (zh) | 一种增强样本数据的无监督行人重识别方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN113297369A (zh) | 基于知识图谱子图检索的智能问答系统 | |
Jebbara et al. | Improving opinion-target extraction with character-level word embeddings | |
Gan et al. | Character-level deep conflation for business data analytics | |
Wang et al. | Bacterial named entity recognition based on dictionary and conditional random field | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN107943852A (zh) | 中文排比句识别方法及系统 | |
CN116595189A (zh) | 基于两阶段的零样本关系三元组抽取方法及系统 | |
CN116049349A (zh) | 基于多层次注意力和层次类别特征的小样本意图识别方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN111723301B (zh) | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
Chen et al. | Semi-supervised named entity recognition in multi-level contexts | |
CN113361277A (zh) | 基于注意力机制的医学命名实体识别建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |