CN108897989B - 一种基于候选事件元素注意力机制的生物事件抽取方法 - Google Patents

一种基于候选事件元素注意力机制的生物事件抽取方法 Download PDF

Info

Publication number
CN108897989B
CN108897989B CN201810572450.6A CN201810572450A CN108897989B CN 108897989 B CN108897989 B CN 108897989B CN 201810572450 A CN201810572450 A CN 201810572450A CN 108897989 B CN108897989 B CN 108897989B
Authority
CN
China
Prior art keywords
word
sequence
event
words
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810572450.6A
Other languages
English (en)
Other versions
CN108897989A (zh
Inventor
王健
王安然
林鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810572450.6A priority Critical patent/CN108897989B/zh
Publication of CN108897989A publication Critical patent/CN108897989A/zh
Application granted granted Critical
Publication of CN108897989B publication Critical patent/CN108897989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种生物事件抽取方法,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,三是简化了生成事件的步骤。

Description

一种基于候选事件元素注意力机制的生物事件抽取方法
技术领域
本发明涉及一种生物事件抽取方法,更具体的说,涉及一种基于候选事件元素注意力机制的生物事件抽取方法。
背景技术
在生物信息领域上,事件是指一个或多个生物医学实体(如:蛋白质,细胞和化学物质)状态的改变。而这些改变对于理解生物学的过程和功能,以及对生理和发病机制的深入理解有着重要意义。自动创建这些文本描述的结构化表示不仅可以在信息检索和问答系统中构造由此类事件组成的生物网络,还可以用于知识发现,找到生物实体之间新的关联。
生物事件抽取任务旨在从文本中获取生物事件信息并结构化表示。通过确定文本中语段的事件类型,然后找到该事件对应的事件元素。由于事件元素仅可以是文本中的实体,所以生物事件抽取主要包括三个步骤,第一步识别文本中的实体,第二步确定事件触发词来获取事件的类型,第三步根据触发词找到其对应事件的事件元素。生物事件抽取训练语料一般为每个文档提供两类标注信息:实体标注信息和事件标注信息。其中实体信息包括文档中的实体对应的偏移量和类别;事件标注信息包含两个部分,触发词信息和事件信息。触发词标注形式与实体标注形式相同;事件信息包含:事件类别以及对应的触发词,事件元素的类别以及对应的实体或事件。
以往进行生物事件抽取的方法主要是基于分类模型,将同一句子中的触发词和实体构建二元关系对(如果用触发词来代表事件的话,还要构建触发词-触发词关系),然后对关系进行分类,从而确定实体或触发词是否属于该触发词触发的事件,以及该实体的事件元素类型。
这样的方法存在着几个弊端。首先,因为生物语料中存在大量的生物实体和事件嵌套的情况,这种构建二元关系对的方式会产生大量的负样本,造成正负样本比例失衡的问题,不利于分类器学习。另一方面,生物领域的事件相比于通用领域来说,事件粒度更小,而且存在复杂的事件嵌套关系。事件元素之间并不是孤立的。对于含有多个元素以及嵌套的事件(如调控和绑定事件),事件元素之间往往存在关联,单独考虑二元关系对的方式不能有效利用事件元素之间的相互信息。最后,对于多元素的事件,基于二元关系分类的方式还要进行后处理才能生成多元素的事件,不同的后处理方法也会对事件抽取的结果造成影响。
发明内容
为克服现有技术针对二元分类实现事件元素识别方法存在的问题,本发明提供一种基于候选事件元素注意力机制的生物事件抽取方法。采用该方法可实现事件元素检测,最后将触发词与识别到的对应事件元素构造成生物事件通过格式化来表示,实现生物事件的抽取。不同于二元分类的方法,本发明提出的方法重点在于针对某一个触发词,识别其所在序列所有单词对应的事件元素标签序列,从而构造事件。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:
步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:
(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;
(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;
(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
Figure BDA0001686298050000031
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,
Figure BDA0001686298050000032
表示矩阵拼接操作,
Figure BDA0001686298050000033
表示单词wi基于字符序列构建的词向量;
(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为
Figure BDA0001686298050000041
通过公式(2)进行描述,
Figure BDA0001686298050000042
式中,
Figure BDA0001686298050000043
表示单词wi对应的当前触发词类别的向量、
Figure BDA0001686298050000044
表示单词wi对应实体类别的向量、
Figure BDA0001686298050000045
表示单词wi对应触发词类别的向量;
(c)最后将以上的分布式表示拼接,获得单词wi的分布式表示
Figure BDA0001686298050000046
通过公式(3)进行描述,
Figure BDA0001686298050000047
式中,
Figure BDA0001686298050000048
表示步骤2获取的FastText词向量;
步骤4、构造基于BiLSTM-Attention的特征表示方式,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示
Figure BDA0001686298050000049
输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(4)进行描述,
Figure BDA00016862980500000410
式中,
Figure BDA00016862980500000411
为正向LSTM层的隐层输出,
Figure BDA00016862980500000412
为逆向LSTM层的隐层输出;
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(5)进行描述,
Figure BDA0001686298050000051
式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,
Figure BDA0001686298050000052
式中,
Figure BDA0001686298050000053
Figure BDA0001686298050000054
Figure BDA0001686298050000055
的欧几里得距离即Euclidean Metric,是Attention层的输入,ui为计算score(wi,wj)的随机初始化的参数,随模型训练进行更新,
然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi
Figure BDA0001686298050000056
式中,j为1到n的整数,hj为步骤4子步骤(b)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
Figure BDA0001686298050000057
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn),
Figure BDA0001686298050000058
Figure BDA0001686298050000059
m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
式中,为
Figure BDA00016862980500000510
为参数矩阵,其中k为类别标签个数,
Figure BDA00016862980500000511
[zi·V]l为[zi·V]在位置l的取值,即标签为l的得分;
定义一个转移矩阵
Figure BDA00016862980500000512
其中每个元素表示一个标签转移到另一个标签的得分,对于输入Z和其对应标签序列y=(y1,y2,…,yn)的得分通过公式(10)进行描述,
Figure BDA0001686298050000061
式中,
Figure BDA0001686298050000062
为序列中i位置对应标签yi转移到标签yi+1的得分,
Figure BDA0001686298050000063
为i位置对应标签为yi的得分,
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
Figure BDA0001686298050000064
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、生物事件抽取,利用步骤3-5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
本发明有益效果是:一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建序列的分布式表示方式,(4)构造基于BiLSTM-Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)生物事件抽取。与已有技术相比,本发明方法具有以下优点:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,而且考虑到了事件元素之间的相关性;二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,避免将事件元素标签标注到非实体或非触发词的词汇上;三是简化了生成事件的步骤,本方法可以直接将当前触发词和事件元素结合生成事件,避免了以往基于二元分类方法需要复杂的后处理步骤生成事件的方式。
附图说明
图1是本发明方法步骤流程图。
图2是本发明提出的候选事件元素注意力机制的事件抽取模型框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于候选事件元素注意力机制的生物事件抽取方法,包括以下步骤:
步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:
(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;
(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;
(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自权利要求1步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
Figure BDA0001686298050000081
式中,Lchar_LSTM_for(wi)和Lchar_LSTM_rev(wi)分别表示单词wi的字符序列向量通过前向和后向LSTM层的隐层输出,
Figure BDA0001686298050000082
表示矩阵拼接操作,
Figure BDA0001686298050000083
表示单词wi基于字符序列构建的词向量;
(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词wi对应的事件特征分布式表示为
Figure BDA0001686298050000084
通过公式(2)进行描述,
Figure BDA0001686298050000085
式中,
Figure BDA0001686298050000086
表示单词wi对应的当前触发词类别的向量、
Figure BDA0001686298050000087
表示单词wi对应实体类别的向量、
Figure BDA0001686298050000091
表示单词wi对应触发词类别的向量;
(c)最后将以上的分布式表示拼接,获得单词wi的分布式表示
Figure BDA0001686298050000092
通过公式(3)进行描述,
Figure BDA0001686298050000093
式中,
Figure BDA0001686298050000094
表示步骤2获取的FastText词向量;
步骤4、构造基于BiLSTM-Attention的特征表示方式,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示
Figure BDA0001686298050000095
输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词wi对应的BiLSTM层的输出为hi,通过公式(4)进行描述,
Figure BDA0001686298050000096
式中,
Figure BDA0001686298050000097
为正向LSTM层的隐层输出,
Figure BDA0001686298050000098
为逆向LSTM层的隐层输出;
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词wi关于文档词序列的注意力权重,将当前单词wi与文档中的每一个单词wj计算一个得分,并用score(wi,wj)表示,然后通过softmax计算归一化,通过公式(5)进行描述,
Figure BDA0001686298050000099
式中,n表示该文本单词序列的长度,q为1到n的整数,ai,j表示当前单词wi对于该文档单词序列中单词wj的权重,即注意力权重ai,j,score函数通过公式(5)、(6)进行描述,
Figure BDA00016862980500000910
式中,
Figure BDA00016862980500000911
Figure BDA00016862980500000912
Figure BDA00016862980500000913
的欧几里得距离即Euclidean Metric,是Attention层的输入,ui为计算score(wi,wj)的随机初始化的参数,随模型训练进行更新,
然后,将注意力权重ai,j与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息gi
Figure BDA0001686298050000101
式中,j为1到n的整数,hj为步骤4子步骤(b)中对单词wj获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词wi最后的特征表示zi,通过公式(8)进行描述,
Figure BDA0001686298050000102
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z=(z1,z2,…,zn),
Figure BDA0001686298050000103
Figure BDA0001686298050000104
m为zi向量的长度,同时,定义pi,l代表了在序列中第i个位置对应标签为l的得分,通过公式(9)描述,
pi,l=[zi·V]l (9)
式中,为
Figure BDA0001686298050000105
为参数矩阵,其中k为类别标签个数,
Figure BDA0001686298050000106
[zi·V]l为[zi·V]在位置l的取值,即标签为l的得分;
定义一个转移矩阵
Figure BDA0001686298050000107
其中每个元素表示一个标签转移到另一个标签的得分,对于输入Z和其对应标签序列y=(y1,y2,…,yn)的得分通过公式(10)进行描述,
Figure BDA0001686298050000108
式中,
Figure BDA0001686298050000109
为序列中i位置对应标签yi转移到标签yi+1的得分,
Figure BDA00016862980500001010
为i位置对应标签为yi的得分,
每当输入一个文档单词序列,其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z,CRF标签最大化目标函数L,通过公式(11)进行描述,
Figure BDA00016862980500001011
式中,Y表示所有可能的标签序列集合,T和θ为待训练的参数,T是标签转移矩阵参数,θ是获取pi,l所需要的参数,包括V和步骤3、4的所有参数集合;
步骤6、生物事件抽取,利用步骤3-5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
本发明方法所采用的评价指标是准确率(Precision,P)、召回率(Recall,R)以及基于融合两者的F1值。为了验证本发明提出的基于候选事件元素注意力机制的有效性,引入两个对比实验,在相同的序列构造方法下分别使用BiLSTM-CRF,和本发明提出的添加了候选事件元素注意力机制的BiLSTM-CRF模型(BiLSTM-Attention-CRF)来实现事件元素检测,实验结果如表1所示:
表1
Figure BDA0001686298050000111
相比于不使用Attention的BiLSTM-CRF方法,在几乎不损失准确率的情况下,通过提高召回率实现了最终事件元素检测的F1值的提高,验证了本发明提出的Attention方法的有效性。
本发明的优点在于:一是采用序列标注的方式进行针对触发词的事件元素识别,可以对一个触发词识别多个事件元素,而且考虑到了事件元素之间的相关性;二是构建了针对候选事件元素的Attention层,相比于传统的序列标注方法可以增加对候选事件元素的注意力权重,避免将事件元素标签标注到非实体或非触发词的词汇上;三是简化了生成事件的步骤,本方法可以直接将当前触发词和事件元素结合生成事件,避免了以往基于二元分类方法需要复杂的后处理步骤生成事件的方式。
为使本发明的目的、技术方案和有益效果更加清晰和更易于实施,以下结合具体实施例,并参照附图,对本发明做进一步详细说明。
假设现有一个触发词以及其对应的句子信息,当前触发词为“inhibition”,其对应的事件类别为负向调控(Neg.Reg),其所在的句子为“Adenovirus-mediated genetransfer of endostatin in vivo results in high level of transgene expressionand inhibition of tumor growth and metastases.”
步骤1、训练语料预处理,具体过程如下:
(a)将句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,即“inhibition”对应位置的第二列为“B-Neg.Reg”,其他位置为“O”;
(c)将这个句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列;
(d)将当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式作为该序列的第五列,也是该序列对应的真实标签,对于触发词“inhibition”触发的Neg.Reg事件包含两个类别为Theme的事件元素,分别是由触发词“growth”触发的生长事件(Growth)以及“metastases”触发的定位事件(Localization),通过标注触发词的方式来表示其事件为当前事件的事件触发词;
最后处理后的序列形式如表2所示:
表2
Figure BDA0001686298050000121
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示是对于每个单词的,将表1中前4列信息按照具体实施方式步骤3实施,获取序列的分布式表示;
步骤4、构造基于BiLSTM-Attention的特征表示学习,将实施例步骤3获取的序列的分布式表示作为图2所展示模型的输入,获取基于BiLSTM-Attention的特征向量序列Z=(z1,z2,…,zn);
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,如果该实施例是训练样本,那么根据表2的第五列,采用具体实施方式步骤5更新模型的参数;如果该实施例是测试样本或未标注样本,则固定模型的所有参数,维特比算法来找到输入序列对应的最优预测标签序列,对于测试样本可以与表2的第五列进行比对,计算P,R,F1值;
步骤6、生物事件抽取,在训练样本训练好模型后,将未标注事件元素的语料处理成如表2前四列的样式,然后按照实施例步骤1-5输入到模型中,获取序列对应的事件元素,最后将当前触发词和事件元素结合生成生物事件。

Claims (1)

1.一种基于候选事件元素注意力机制的生物事件抽取方法,其特征在于包括以下步骤:
步骤1、训练语料预处理,将生物事件抽取任务构造成序列标注任务形式:使用的训练语料选自MLEE即Multi-Level Event Extraction,MLEE语料从与癌症相关的生物文献中抽取细粒度事件,其中包含生物组织的命名实体标注和事件标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,处理方法为:遍历标注的触发词,将每一个触发词所在的句子作为一个序列,序列中每个节点包含以下信息:单词、单词对应的实体类别、触发词类别,最后将这个触发词对应事件的元素类别作为待预测的标签,序列构造具体包括以下子步骤:
(a)对当前待生成序列的触发词(简称:当前触发词)所在句子进行分词,获得的单词以及符号逐行保存,作为序列信息的第一列;
(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列, BIO标签给出三种类别的标签,即Begin,简称为B,In,简称为I,Out,简称为O,标签为B的单词为短语的起始,I为短语的中间,O为未标注的非触发词词汇,如果是一个词组成的触发词,则仅用B标签;对于不同事件类别的标签,BIO机制通过拼接类别的BIO标签进行标注,例如:对于Regulation事件的一个触发词play a role,play对应标签B-Regulation,a和role对应标签I-Regulation,而其他非当前触发词的单词的标签则为O;
(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式,分别作为序列信息的第三列和第四列,方法同步骤1子步骤(b),这里的触发词为句子中出现的所有触发词,包括但不限于当前触发词;
(d)将该句子中,当前触发词所触发事件的事件元素,根据其类型生成BIO标签方式,方法同步骤1子步骤(b),作为该序列的第五列,也是该序列对应的真实标签,对于事件作为当前事件的事件元素的情况,使用事件的触发词来代表事件;
步骤2、使用PubMed数据库语料进行词向量训练,使用生物医学医药方面的文献作为引入的外部资源,并用FastText工具来训练词向量;
步骤3、构建序列的分布式表示方式,使用的模型基于循环神经网络,每一个词作为一个时间节点的输入,使用的分布式表示方式是基于每个单词的,主要包括两个部分:一个是单词的分布式表示,另一个是事件特征的分布式表示,具体包括以下子步骤:
(a)单词的分布式由两部分拼接而成,分别是基于外部语料预训练的词向量和基于字符序列构造的词向量,基于外部语料预训练的词向量来自步骤2,基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM,将最后一个输入的隐层输出作为单词的分布式表示,首先将语料中出现的所有字符进行随机向量映射,然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习,再将前向和后向序列的最后一个单元的隐层输出拼接,作为这个单词基于字符序列构建的词向量,通过公式(1)进行描述,
Figure 49057DEST_PATH_IMAGE001
(1)
式中,
Figure 34330DEST_PATH_IMAGE002
Figure 406406DEST_PATH_IMAGE003
分别表示单词
Figure 211551DEST_PATH_IMAGE004
的字符序列向量通过前向和后向LSTM层的隐层输出,
Figure 327274DEST_PATH_IMAGE005
表示矩阵拼接操作,
Figure 167054DEST_PATH_IMAGE006
表示单词
Figure 211496DEST_PATH_IMAGE004
基于字符序列构建的词向量;
(b)事件特征的分布式表示是为了针对事件抽取任务,是对单词的分布式表示的一种额外信息补充,事件特征包括当前触发词类别、单词的实体类别、触发词类别,即步骤1子步骤(b)、(c)描述的第二、三、四列,通过将这些类别信息做随机初始化向量的映射,在模型训练的过程中更新这些参数,单词
Figure 769516DEST_PATH_IMAGE007
对应的事件特征分布式表示为
Figure 423351DEST_PATH_IMAGE008
通过公式(2)进行描述,
Figure 383217DEST_PATH_IMAGE009
(2)
式中,
Figure 97095DEST_PATH_IMAGE010
表示单词
Figure 876832DEST_PATH_IMAGE007
对应的当前触发词类别的向量、
Figure 334358DEST_PATH_IMAGE011
表示单词
Figure 148731DEST_PATH_IMAGE007
对应实体类别的向量、
Figure 971193DEST_PATH_IMAGE012
表示单词
Figure 802008DEST_PATH_IMAGE007
对应触发词类别的向量;
(c)最后将以上的分布式表示拼接,获得单词
Figure 908DEST_PATH_IMAGE007
的分布式表示
Figure 732104DEST_PATH_IMAGE013
,通过公式(3)进行描述,
Figure 725468DEST_PATH_IMAGE014
(3)
式中,
Figure 479797DEST_PATH_IMAGE015
表示步骤2获取的FastText词向量;
步骤4、构造基于BiLSTM-Attention的特征表示方式 ,将事件抽取任务抽象成一个序列标注问题,其目标是在已知触发词的前提下,找到其所在文本序列最优的事件元素类别BIO标签序列,具体包括以下子步骤:
(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入,按照正序和逆序两个顺序,再将每个单词的分布式表示
Figure 544705DEST_PATH_IMAGE013
输入到两个LSTM网络中,然后将两个网络的隐层输出拼接作为BiLSTM层的输出,对于每个单词
Figure 68090DEST_PATH_IMAGE007
对应的BiLSTM层的输出为
Figure 294672DEST_PATH_IMAGE016
,通过公式(4)进行描述,
Figure 536298DEST_PATH_IMAGE017
(4)
式中,
Figure 77001DEST_PATH_IMAGE018
为正向LSTM层的隐层输出,
Figure 36252DEST_PATH_IMAGE019
为逆向LSTM层的隐层输出;
(b)通过Attention层学习到当前输入对应全局序列信息的权重值,然后将权重值与BiLSTM的隐层输出进行加权平均,获得当前输入单词的基于注意力的候选事件元素信息,首先,获得对于当前单词
Figure 636998DEST_PATH_IMAGE007
关于文档词序列的注意力权重,将当前单词
Figure 162657DEST_PATH_IMAGE007
与文档中的每一个单词
Figure 507051DEST_PATH_IMAGE020
计算一个得分,并用
Figure 801766DEST_PATH_IMAGE021
表示,然后通过softmax计算归一化,通过公式(5)进行描述,
Figure 573413DEST_PATH_IMAGE022
(5)
式中,
Figure 524051DEST_PATH_IMAGE023
表示该文本单词序列的长度,
Figure 468874DEST_PATH_IMAGE024
为1到
Figure 821357DEST_PATH_IMAGE023
的整数,
Figure 327687DEST_PATH_IMAGE025
表示当前单词
Figure 765622DEST_PATH_IMAGE007
对于该文档单词序列中单词
Figure 451818DEST_PATH_IMAGE020
的权重,即注意力权重
Figure 721126DEST_PATH_IMAGE025
Figure 834575DEST_PATH_IMAGE026
函数通过公式(5)、(6)进行描述,
Figure 822123DEST_PATH_IMAGE027
(6)
式中,
Figure 108747DEST_PATH_IMAGE028
Figure 435824DEST_PATH_IMAGE008
Figure 18377DEST_PATH_IMAGE029
的欧几里得距离即Euclidean Metric,是Attention层的输入,
Figure 430904DEST_PATH_IMAGE030
为计算
Figure 458903DEST_PATH_IMAGE031
的随机初始化的参数,随模型训练进行更新,
然后,将注意力权重
Figure 702802DEST_PATH_IMAGE025
与单词序列经过BiLSTM的隐层输出进行加权,通过公式(7)得到获取基于文档注意力的信息
Figure 158054DEST_PATH_IMAGE032
Figure 854615DEST_PATH_IMAGE033
(7)
式中,
Figure 420725DEST_PATH_IMAGE034
为1到
Figure 722394DEST_PATH_IMAGE023
的整数,
Figure 410864DEST_PATH_IMAGE035
为步骤4子步骤(a)中对单词
Figure 532404DEST_PATH_IMAGE020
获得的BiLSTM层的输出;
(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接,作为对于单词
Figure 465987DEST_PATH_IMAGE007
最后的特征表示
Figure 622162DEST_PATH_IMAGE036
,通过公式(8)进行描述,
Figure 419217DEST_PATH_IMAGE037
(8)
步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果,对于单词序列经过BiLSTM与Attention层输出的特征向量序列
Figure 90369DEST_PATH_IMAGE038
Figure 998282DEST_PATH_IMAGE039
,
Figure 71281DEST_PATH_IMAGE040
Figure 39237DEST_PATH_IMAGE041
向量的长度,同时,定义
Figure 135369DEST_PATH_IMAGE042
代表了在序列中第
Figure 909290DEST_PATH_IMAGE043
个位置对应标签为
Figure 774477DEST_PATH_IMAGE044
的得分,通过公式(9)描述,
Figure 471257DEST_PATH_IMAGE045
(9)
式中,为
Figure 54685DEST_PATH_IMAGE046
为参数矩阵, 其中
Figure 632297DEST_PATH_IMAGE047
为类别标签个数,
Figure 351991DEST_PATH_IMAGE048
Figure 661750DEST_PATH_IMAGE049
Figure 794791DEST_PATH_IMAGE050
在位置
Figure 848198DEST_PATH_IMAGE044
的取值,即标签为
Figure 750295DEST_PATH_IMAGE044
的得分;
定义一个转移矩阵
Figure 230955DEST_PATH_IMAGE051
,其中每个元素表示一个标签转移到另一个标签的得分,对于输入
Figure 788975DEST_PATH_IMAGE052
和其对应标签序列
Figure 944275DEST_PATH_IMAGE053
的得分通过公式(10)进行描述,
Figure 638561DEST_PATH_IMAGE054
(10)
式中,
Figure 618019DEST_PATH_IMAGE055
为序列中
Figure 397756DEST_PATH_IMAGE043
位置对应标签
Figure 792965DEST_PATH_IMAGE056
转移到标签
Figure 669654DEST_PATH_IMAGE057
的得分,
Figure 492117DEST_PATH_IMAGE058
Figure 821467DEST_PATH_IMAGE043
位置对应标签为
Figure 20367DEST_PATH_IMAGE056
的得分,
每当输入一个文档单词序列,其对应的标签序列为
Figure 253028DEST_PATH_IMAGE059
,通过步骤3和步骤4获取特征向量表示序列
Figure 246391DEST_PATH_IMAGE052
,CRF标签最大化目标函数
Figure 63038DEST_PATH_IMAGE060
,通过公式(11)进行描述,
Figure 800050DEST_PATH_IMAGE061
(11)
式中,
Figure 385752DEST_PATH_IMAGE062
表示所有可能的标签序列集合,
Figure 815596DEST_PATH_IMAGE063
Figure 57221DEST_PATH_IMAGE064
为待训练的参数,
Figure 394662DEST_PATH_IMAGE063
是标签转移矩阵参数,
Figure 601915DEST_PATH_IMAGE064
是获取
Figure 937081DEST_PATH_IMAGE065
所需要的参数,包括
Figure 666003DEST_PATH_IMAGE066
和步骤3、4的所有参数集合;
步骤6、生物事件抽取,利用步骤3-5所训练的参数生成的事件元素识别模型,将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后,作为模型的输入,在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列,获取某一触发词对应的事件元素信息,最后将触发词与其对应事件元素结合,完成了生物事件的抽取。
CN201810572450.6A 2018-06-06 2018-06-06 一种基于候选事件元素注意力机制的生物事件抽取方法 Active CN108897989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810572450.6A CN108897989B (zh) 2018-06-06 2018-06-06 一种基于候选事件元素注意力机制的生物事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810572450.6A CN108897989B (zh) 2018-06-06 2018-06-06 一种基于候选事件元素注意力机制的生物事件抽取方法

Publications (2)

Publication Number Publication Date
CN108897989A CN108897989A (zh) 2018-11-27
CN108897989B true CN108897989B (zh) 2020-05-19

Family

ID=64344355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810572450.6A Active CN108897989B (zh) 2018-06-06 2018-06-06 一种基于候选事件元素注意力机制的生物事件抽取方法

Country Status (1)

Country Link
CN (1) CN108897989B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670172A (zh) * 2018-12-06 2019-04-23 桂林电子科技大学 一种基于复合神经网络的景区异常事件抽取方法
CN109815481B (zh) * 2018-12-17 2023-05-26 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110298040A (zh) * 2019-06-20 2019-10-01 翼健(上海)信息科技有限公司 一种对中文语料进行标注识别的控制方法及控制装置
CN112148832B (zh) * 2019-06-26 2022-11-29 天津大学 一种基于标签感知的双重自注意力网络的事件检测方法
CN110782002B (zh) * 2019-09-12 2022-04-05 成都四方伟业软件股份有限公司 一种lstm神经网络训练方法及装置
CN110633470A (zh) * 2019-09-17 2019-12-31 北京小米智能科技有限公司 命名实体识别方法、装置及存储介质
CN111222318B (zh) * 2019-11-19 2023-09-12 南京审计大学 基于双通道双向lstm-crf网络的触发词识别方法
CN111160005B (zh) * 2019-11-25 2022-06-24 国家计算机网络与信息安全管理中心 基于事件演化知识本体的事件预测方法、装置及终端设备
CN111241302B (zh) * 2020-01-15 2023-09-15 北京百度网讯科技有限公司 职位信息图谱生成方法、装置、设备和介质
CN111368551B (zh) * 2020-02-14 2023-12-05 京东科技控股股份有限公司 一种确定事件主体的方法和装置
CN111767408B (zh) * 2020-05-27 2023-06-09 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112307761A (zh) * 2020-11-19 2021-02-02 新华智云科技有限公司 基于注意力机制的事件抽取方法及系统
CN112612871B (zh) * 2020-12-17 2023-09-15 浙江大学 一种基于序列生成模型的多事件检测方法
CN112507099B (zh) * 2020-12-18 2021-12-24 北京百度网讯科技有限公司 对话理解模型的训练方法、装置、设备和存储介质
CN113468884B (zh) * 2021-06-10 2023-06-16 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN113360655B (zh) * 2021-06-25 2022-10-04 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113704476B (zh) * 2021-09-02 2022-03-04 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113886524A (zh) * 2021-09-26 2022-01-04 四川大学 一种基于短文本的网络安全威胁事件抽取方法
CN114818721B (zh) * 2022-06-30 2022-11-01 湖南工商大学 一种结合序列标注的事件联合抽取模型与方法
CN116824275B (zh) * 2023-08-29 2023-11-17 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007118305A1 (en) * 2006-04-19 2007-10-25 Demandcast Corp. Automatically extracting information about local events from web pages
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注系统及方法
CN106777957A (zh) * 2016-12-12 2017-05-31 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115188A1 (en) * 2001-12-19 2003-06-19 Narayan Srinivasa Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
CN105512209B (zh) * 2015-11-28 2018-06-19 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
CN106933805B (zh) * 2017-03-14 2020-04-28 陈一飞 一种大数据集中生物事件触发词的识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007118305A1 (en) * 2006-04-19 2007-10-25 Demandcast Corp. Automatically extracting information about local events from web pages
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注系统及方法
CN106777957A (zh) * 2016-12-12 2017-05-31 吉林大学 不平衡数据集上生物医学多参事件抽取的新方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition》;Ling Luo,et al.;《Bioinformatics》;20171123;第34卷(第8期);第1381-1388页 *
《基于深层句法分析的生物事件触发词抽取》;王健,等;《计算机工程》;20140131;第40卷(第1期);第25-29页 *
《面向生物医学领域的信息抽取关键技术研究》;王健;《中国博士学位论文全文数据库 信息科技辑》;20150715(第7期);第I138-149页 *

Also Published As

Publication number Publication date
CN108897989A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN108897989B (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
CN108829801B (zh) 一种基于文档级别注意力机制的事件触发词抽取方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN109800437B (zh) 一种基于特征融合的命名实体识别方法
Gasmi et al. LSTM recurrent neural networks for cybersecurity named entity recognition
Jebbara et al. Aspect-based relational sentiment analysis using a stacked neural network architecture
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111832511A (zh) 一种增强样本数据的无监督行人重识别方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN113297369A (zh) 基于知识图谱子图检索的智能问答系统
Jebbara et al. Improving opinion-target extraction with character-level word embeddings
Gan et al. Character-level deep conflation for business data analytics
Wang et al. Bacterial named entity recognition based on dictionary and conditional random field
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN107943852A (zh) 中文排比句识别方法及系统
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
CN116049349A (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN114780725A (zh) 一种基于深度聚类的文本分类算法
Chen et al. Semi-supervised named entity recognition in multi-level contexts
CN113361277A (zh) 基于注意力机制的医学命名实体识别建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant