CN108897989B

CN108897989B - 一种基于候选事件元素注意力机制的生物事件抽取方法

Info

Publication number: CN108897989B
Application number: CN201810572450.6A
Authority: CN
Inventors: 王健; 王安然; 林鸿飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2020-05-19
Anticipated expiration: 2038-06-06
Also published as: CN108897989A

Abstract

本发明涉及一种生物事件抽取方法，一种基于候选事件元素注意力机制的生物事件抽取方法，包括以下步骤：(1)训练语料预处理，(2)使用PubMed数据库语料进行词向量训练，(3)构建序列的分布式表示方式，(4)构造基于BiLSTM‑Attention的特征表示方式，(5)使用CRF学习、获取当前文档序列的最优序列标注结果，(6)生物事件抽取。本发明方法具有以下优点：一是采用序列标注的方式进行针对触发词的事件元素识别，可以对一个触发词识别多个事件元素，二是构建了针对候选事件元素的Attention层，相比于传统的序列标注方法可以增加对候选事件元素的注意力权重，三是简化了生成事件的步骤。

Description

一种基于候选事件元素注意力机制的生物事件抽取方法

技术领域

本发明涉及一种生物事件抽取方法，更具体的说，涉及一种基于候选事件元素注意力机制的生物事件抽取方法。

背景技术

在生物信息领域上，事件是指一个或多个生物医学实体(如：蛋白质，细胞和化学物质)状态的改变。而这些改变对于理解生物学的过程和功能，以及对生理和发病机制的深入理解有着重要意义。自动创建这些文本描述的结构化表示不仅可以在信息检索和问答系统中构造由此类事件组成的生物网络，还可以用于知识发现，找到生物实体之间新的关联。

生物事件抽取任务旨在从文本中获取生物事件信息并结构化表示。通过确定文本中语段的事件类型，然后找到该事件对应的事件元素。由于事件元素仅可以是文本中的实体，所以生物事件抽取主要包括三个步骤，第一步识别文本中的实体，第二步确定事件触发词来获取事件的类型，第三步根据触发词找到其对应事件的事件元素。生物事件抽取训练语料一般为每个文档提供两类标注信息：实体标注信息和事件标注信息。其中实体信息包括文档中的实体对应的偏移量和类别；事件标注信息包含两个部分，触发词信息和事件信息。触发词标注形式与实体标注形式相同；事件信息包含：事件类别以及对应的触发词，事件元素的类别以及对应的实体或事件。

以往进行生物事件抽取的方法主要是基于分类模型，将同一句子中的触发词和实体构建二元关系对(如果用触发词来代表事件的话，还要构建触发词-触发词关系)，然后对关系进行分类，从而确定实体或触发词是否属于该触发词触发的事件，以及该实体的事件元素类型。

这样的方法存在着几个弊端。首先，因为生物语料中存在大量的生物实体和事件嵌套的情况，这种构建二元关系对的方式会产生大量的负样本，造成正负样本比例失衡的问题，不利于分类器学习。另一方面，生物领域的事件相比于通用领域来说，事件粒度更小，而且存在复杂的事件嵌套关系。事件元素之间并不是孤立的。对于含有多个元素以及嵌套的事件(如调控和绑定事件)，事件元素之间往往存在关联，单独考虑二元关系对的方式不能有效利用事件元素之间的相互信息。最后，对于多元素的事件，基于二元关系分类的方式还要进行后处理才能生成多元素的事件，不同的后处理方法也会对事件抽取的结果造成影响。

发明内容

为克服现有技术针对二元分类实现事件元素识别方法存在的问题，本发明提供一种基于候选事件元素注意力机制的生物事件抽取方法。采用该方法可实现事件元素检测，最后将触发词与识别到的对应事件元素构造成生物事件通过格式化来表示，实现生物事件的抽取。不同于二元分类的方法，本发明提出的方法重点在于针对某一个触发词，识别其所在序列所有单词对应的事件元素标签序列，从而构造事件。

为了实现上述发明目的，解决现有技术中所存在的问题，本发明采取的技术方案是：一种基于候选事件元素注意力机制的生物事件抽取方法，包括以下步骤：

步骤1、训练语料预处理，将生物事件抽取任务构造成序列标注任务形式：使用的训练语料选自MLEE即Multi-Level Event Extraction，MLEE语料从与癌症相关的生物文献中抽取细粒度事件，其中包含生物组织的命名实体标注和事件标注，该训练语料为每个文档提供三个文件，即原始文本文件、实体标注文件及事件标注文件，其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件，处理方法为：遍历标注的触发词，将每一个触发词所在的句子作为一个序列，序列中每个节点包含以下信息：单词、单词对应的实体类别、触发词类别，最后将这个触发词对应事件的元素类别作为待预测的标签，序列构造具体包括以下子步骤：

(a)对当前待生成序列的触发词(简称：当前触发词)所在句子进行分词，获得的单词以及符号逐行保存，作为序列信息的第一列；

(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列,BIO标签给出三种类别的标签，即Begin，简称为B，In，简称为I，Out，简称为O，标签为B的单词为短语的起始，I为短语的中间，O为未标注的非触发词词汇，如果是一个词组成的触发词，则仅用B标签；对于不同事件类别的标签，BIO机制通过拼接类别的BIO标签进行标注，例如：对于Regulation事件的一个触发词play a role，play对应标签B-Regulation，a和role对应标签I-Regulation，而其他非当前触发词的单词的标签则为O；

(c)将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式，分别作为序列信息的第三列和第四列，方法同步骤1子步骤(b)，这里的触发词为句子中出现的所有触发词，包括但不限于当前触发词；

(d)将该句子中，当前触发词所触发事件的事件元素，根据其类型生成BIO标签方式，方法同步骤1子步骤(b)，作为该序列的第五列，也是该序列对应的真实标签，对于事件作为当前事件的事件元素的情况，使用事件的触发词来代表事件；

步骤2、使用PubMed数据库语料进行词向量训练，使用生物医学医药方面的文献作为引入的外部资源，并用FastText工具来训练词向量；

步骤3、构建序列的分布式表示方式，使用的模型基于循环神经网络，每一个词作为一个时间节点的输入，使用的分布式表示方式是基于每个单词的，主要包括两个部分：一个是单词的分布式表示，另一个是事件特征的分布式表示，具体包括以下子步骤：

(a)单词的分布式由两部分拼接而成，分别是基于外部语料预训练的词向量和基于字符序列构造的词向量，基于外部语料预训练的词向量来自权利要求1步骤2，基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM，将最后一个输入的隐层输出作为单词的分布式表示，首先将语料中出现的所有字符进行随机向量映射，然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习，再将前向和后向序列的最后一个单元的隐层输出拼接，作为这个单词基于字符序列构建的词向量，通过公式(1)进行描述，

式中，L_{char_LSTM_for}(w_i)和L_{char_LSTM_rev}(w_i)分别表示单词w_i的字符序列向量通过前向和后向LSTM层的隐层输出，

表示矩阵拼接操作，

表示单词w_i基于字符序列构建的词向量；

(b)事件特征的分布式表示是为了针对事件抽取任务，是对单词的分布式表示的一种额外信息补充，事件特征包括当前触发词类别、单词的实体类别、触发词类别，即步骤1子步骤(b)、(c)描述的第二、三、四列，通过将这些类别信息做随机初始化向量的映射，在模型训练的过程中更新这些参数，单词w_i对应的事件特征分布式表示为

通过公式(2)进行描述，

式中，

表示单词w_i对应的当前触发词类别的向量、

表示单词w_i对应实体类别的向量、

表示单词w_i对应触发词类别的向量；

(c)最后将以上的分布式表示拼接，获得单词w_i的分布式表示

通过公式(3)进行描述，

式中，

表示步骤2获取的FastText词向量；

步骤4、构造基于BiLSTM-Attention的特征表示方式，将事件抽取任务抽象成一个序列标注问题，其目标是在已知触发词的前提下，找到其所在文本序列最优的事件元素类别BIO标签序列，具体包括以下子步骤：

(a)将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入，按照正序和逆序两个顺序，再将每个单词的分布式表示

输入到两个LSTM网络中，然后将两个网络的隐层输出拼接作为BiLSTM层的输出，对于每个单词w_i对应的BiLSTM层的输出为h_i，通过公式(4)进行描述，

式中，

为正向LSTM层的隐层输出，

为逆向LSTM层的隐层输出；

(b)通过Attention层学习到当前输入对应全局序列信息的权重值，然后将权重值与BiLSTM的隐层输出进行加权平均，获得当前输入单词的基于注意力的候选事件元素信息，首先,获得对于当前单词w_i关于文档词序列的注意力权重，将当前单词w_i与文档中的每一个单词w_j计算一个得分，并用score(w_i,w_j)表示，然后通过softmax计算归一化，通过公式(5)进行描述，

式中，n表示该文本单词序列的长度，q为1到n的整数，a_i,j表示当前单词w_i对于该文档单词序列中单词w_j的权重，即注意力权重a_i,j，score函数通过公式(5)、(6)进行描述，

式中，

为

与

的欧几里得距离即Euclidean Metric，是Attention层的输入，u_i为计算score(w_i,w_j)的随机初始化的参数，随模型训练进行更新，

然后，将注意力权重a_i,j与单词序列经过BiLSTM的隐层输出进行加权，通过公式(7)得到获取基于文档注意力的信息g_i，

式中，j为1到n的整数，h_j为步骤4子步骤(b)中对单词w_j获得的BiLSTM层的输出；

(c)将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接，作为对于单词w_i最后的特征表示z_i，通过公式(8)进行描述，

步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果，对于单词序列经过BiLSTM与Attention层输出的特征向量序列Z＝(z₁,z₂,…,z_n)，

m为z_i向量的长度，同时，定义p_i,l代表了在序列中第i个位置对应标签为l的得分，通过公式(9)描述，

p_i,l＝[z_i·V]_l (9)

式中，为

为参数矩阵,其中k为类别标签个数，

[z_i·V]_l为[z_i·V]在位置l的取值，即标签为l的得分；

定义一个转移矩阵

其中每个元素表示一个标签转移到另一个标签的得分，对于输入Z和其对应标签序列y＝(y₁,y₂,…,y_n)的得分通过公式(10)进行描述，

式中，

为序列中i位置对应标签y_i转移到标签y_i+1的得分，

为i位置对应标签为y_i的得分，

每当输入一个文档单词序列，其对应的标签序列为y,通过步骤3和步骤4获取特征向量表示序列Z，CRF标签最大化目标函数L，通过公式(11)进行描述，

式中，Y表示所有可能的标签序列集合，T和θ为待训练的参数，T是标签转移矩阵参数，θ是获取p_i,l所需要的参数，包括V和步骤3、4的所有参数集合；

步骤6、生物事件抽取，利用步骤3-5所训练的参数生成的事件元素识别模型，将已标注触发词但未标注事件元素的数据按照步骤1子步骤(a)、(b)、(c)处理后，作为模型的输入，在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列，获取某一触发词对应的事件元素信息，最后将触发词与其对应事件元素结合，完成了生物事件的抽取。

本发明有益效果是：一种基于候选事件元素注意力机制的生物事件抽取方法，包括以下步骤：(1)训练语料预处理，(2)使用PubMed数据库语料进行词向量训练，(3)构建序列的分布式表示方式，(4)构造基于BiLSTM-Attention的特征表示方式，(5)使用CRF学习、获取当前文档序列的最优序列标注结果，(6)生物事件抽取。与已有技术相比，本发明方法具有以下优点：一是采用序列标注的方式进行针对触发词的事件元素识别，可以对一个触发词识别多个事件元素，而且考虑到了事件元素之间的相关性；二是构建了针对候选事件元素的Attention层，相比于传统的序列标注方法可以增加对候选事件元素的注意力权重，避免将事件元素标签标注到非实体或非触发词的词汇上；三是简化了生成事件的步骤，本方法可以直接将当前触发词和事件元素结合生成事件，避免了以往基于二元分类方法需要复杂的后处理步骤生成事件的方式。

附图说明

图1是本发明方法步骤流程图。

图2是本发明提出的候选事件元素注意力机制的事件抽取模型框架图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于候选事件元素注意力机制的生物事件抽取方法，包括以下步骤：

表示矩阵拼接操作，

表示单词w_i基于字符序列构建的词向量；

通过公式(2)进行描述，

式中，

表示单词w_i对应的当前触发词类别的向量、

表示单词w_i对应实体类别的向量、

表示单词w_i对应触发词类别的向量；

(c)最后将以上的分布式表示拼接，获得单词w_i的分布式表示

通过公式(3)进行描述，

式中，

表示步骤2获取的FastText词向量；

式中，

为正向LSTM层的隐层输出，

为逆向LSTM层的隐层输出；

式中，

为

与

p_i,l＝[z_i·V]_l (9)

式中，为

为参数矩阵,其中k为类别标签个数，

[z_i·V]_l为[z_i·V]在位置l的取值，即标签为l的得分；

定义一个转移矩阵

式中，

为序列中i位置对应标签y_i转移到标签y_i+1的得分，

为i位置对应标签为y_i的得分，

本发明方法所采用的评价指标是准确率(Precision，P)、召回率(Recall，R)以及基于融合两者的F1值。为了验证本发明提出的基于候选事件元素注意力机制的有效性，引入两个对比实验，在相同的序列构造方法下分别使用BiLSTM-CRF，和本发明提出的添加了候选事件元素注意力机制的BiLSTM-CRF模型(BiLSTM-Attention-CRF)来实现事件元素检测，实验结果如表1所示：

表1

相比于不使用Attention的BiLSTM-CRF方法，在几乎不损失准确率的情况下，通过提高召回率实现了最终事件元素检测的F1值的提高，验证了本发明提出的Attention方法的有效性。

本发明的优点在于：一是采用序列标注的方式进行针对触发词的事件元素识别，可以对一个触发词识别多个事件元素，而且考虑到了事件元素之间的相关性；二是构建了针对候选事件元素的Attention层，相比于传统的序列标注方法可以增加对候选事件元素的注意力权重，避免将事件元素标签标注到非实体或非触发词的词汇上；三是简化了生成事件的步骤，本方法可以直接将当前触发词和事件元素结合生成事件，避免了以往基于二元分类方法需要复杂的后处理步骤生成事件的方式。

为使本发明的目的、技术方案和有益效果更加清晰和更易于实施，以下结合具体实施例，并参照附图，对本发明做进一步详细说明。

假设现有一个触发词以及其对应的句子信息，当前触发词为“inhibition”，其对应的事件类别为负向调控(Neg.Reg)，其所在的句子为“Adenovirus-mediated genetransfer of endostatin in vivo results in high level of transgene expressionand inhibition of tumor growth and metastases.”

步骤1、训练语料预处理，具体过程如下：

(a)将句子进行分词，获得的单词以及符号逐行保存，作为序列信息的第一列；

(b)将当前触发词的触发词类型生成BIO标签作为序列信息的第二列，即“inhibition”对应位置的第二列为“B-Neg.Reg”，其他位置为“O”；

(c)将这个句子中每个单词对应的实体类型和触发词类型生成BIO标签方式，分别作为序列信息的第三列和第四列；

(d)将当前触发词所触发事件的事件元素，根据其类型生成BIO标签方式作为该序列的第五列，也是该序列对应的真实标签，对于触发词“inhibition”触发的Neg.Reg事件包含两个类别为Theme的事件元素，分别是由触发词“growth”触发的生长事件(Growth)以及“metastases”触发的定位事件(Localization)，通过标注触发词的方式来表示其事件为当前事件的事件触发词；

最后处理后的序列形式如表2所示：

表2

步骤3、构建序列的分布式表示，使用的模型基于循环神经网络，每一个词作为一个时间节点的输入，使用的分布式表示是对于每个单词的，将表1中前4列信息按照具体实施方式步骤3实施，获取序列的分布式表示；

步骤4、构造基于BiLSTM-Attention的特征表示学习，将实施例步骤3获取的序列的分布式表示作为图2所展示模型的输入，获取基于BiLSTM-Attention的特征向量序列Z＝(z₁,z₂,…,z_n)；

步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果，如果该实施例是训练样本，那么根据表2的第五列，采用具体实施方式步骤5更新模型的参数；如果该实施例是测试样本或未标注样本，则固定模型的所有参数，维特比算法来找到输入序列对应的最优预测标签序列，对于测试样本可以与表2的第五列进行比对，计算P，R，F1值；

步骤6、生物事件抽取，在训练样本训练好模型后，将未标注事件元素的语料处理成如表2前四列的样式，然后按照实施例步骤1-5输入到模型中，获取序列对应的事件元素，最后将当前触发词和事件元素结合生成生物事件。

Claims

1.一种基于候选事件元素注意力机制的生物事件抽取方法，其特征在于包括以下步骤：

（a）对当前待生成序列的触发词（简称：当前触发词）所在句子进行分词，获得的单词以及符号逐行保存，作为序列信息的第一列；

（b）将当前触发词的触发词类型生成BIO标签作为序列信息的第二列, BIO标签给出三种类别的标签，即Begin，简称为B，In，简称为I，Out，简称为O，标签为B的单词为短语的起始，I为短语的中间，O为未标注的非触发词词汇，如果是一个词组成的触发词，则仅用B标签；对于不同事件类别的标签，BIO机制通过拼接类别的BIO标签进行标注，例如：对于Regulation事件的一个触发词play a role，play对应标签B-Regulation，a和role对应标签I-Regulation，而其他非当前触发词的单词的标签则为O;

（c）将该句子中每个单词对应的实体类型和触发词类型生成BIO标签方式，分别作为序列信息的第三列和第四列，方法同步骤1子步骤（b），这里的触发词为句子中出现的所有触发词，包括但不限于当前触发词；

（d）将该句子中，当前触发词所触发事件的事件元素，根据其类型生成BIO标签方式，方法同步骤1子步骤（b），作为该序列的第五列，也是该序列对应的真实标签，对于事件作为当前事件的事件元素的情况，使用事件的触发词来代表事件；

（a）单词的分布式由两部分拼接而成，分别是基于外部语料预训练的词向量和基于字符序列构造的词向量，基于外部语料预训练的词向量来自步骤2，基于字符序列构造的词向量是利用单词的字符序列经过BiLSTM，将最后一个输入的隐层输出作为单词的分布式表示，首先将语料中出现的所有字符进行随机向量映射，然后将当前触发词的字符序列向量输入到BiLSTM中进行表示学习，再将前向和后向序列的最后一个单元的隐层输出拼接，作为这个单词基于字符序列构建的词向量，通过公式（1）进行描述，

（1）

式中，

和

分别表示单词

的字符序列向量通过前向和后向LSTM层的隐层输出，

表示矩阵拼接操作，

表示单词

基于字符序列构建的词向量；

（b）事件特征的分布式表示是为了针对事件抽取任务，是对单词的分布式表示的一种额外信息补充，事件特征包括当前触发词类别、单词的实体类别、触发词类别，即步骤1子步骤（b）、（c）描述的第二、三、四列，通过将这些类别信息做随机初始化向量的映射，在模型训练的过程中更新这些参数，单词

对应的事件特征分布式表示为

通过公式（2）进行描述，

（2）

式中，

表示单词

对应的当前触发词类别的向量、

表示单词

对应实体类别的向量、

表示单词

对应触发词类别的向量；

（c）最后将以上的分布式表示拼接，获得单词

的分布式表示

，通过公式（3）进行描述，

（3）

式中，

表示步骤2获取的FastText词向量；

（a）将经过步骤3生成的分布式表示序列作为双向LSTM即BiLSTM层输入，按照正序和逆序两个顺序，再将每个单词的分布式表示

输入到两个LSTM网络中，然后将两个网络的隐层输出拼接作为BiLSTM层的输出，对于每个单词

对应的BiLSTM层的输出为

，通过公式（4）进行描述，

（4）

式中，

为正向LSTM层的隐层输出，

为逆向LSTM层的隐层输出；

（b）通过Attention层学习到当前输入对应全局序列信息的权重值，然后将权重值与BiLSTM的隐层输出进行加权平均，获得当前输入单词的基于注意力的候选事件元素信息，首先,获得对于当前单词

关于文档词序列的注意力权重，将当前单词

与文档中的每一个单词

计算一个得分，并用

表示，然后通过softmax计算归一化，通过公式（5）进行描述，

（5）

式中，

表示该文本单词序列的长度，

为1到

的整数，

表示当前单词

对于该文档单词序列中单词

的权重，即注意力权重

，

函数通过公式（5）、（6）进行描述，

（6）

式中，

为

与

的欧几里得距离即Euclidean Metric，是Attention层的输入，

为计算

的随机初始化的参数，随模型训练进行更新，

然后，将注意力权重

与单词序列经过BiLSTM的隐层输出进行加权，通过公式（7）得到获取基于文档注意力的信息

，

（7）

式中，

为1到

的整数，

为步骤4子步骤（a）中对单词

获得的BiLSTM层的输出；

（c）将Attention层输出的结果与BiLSTM的隐层输出结果进行拼接，作为对于单词

最后的特征表示

，通过公式（8）进行描述，

（8）

步骤5、使用CRF学习、获取当前文档序列的最优序列标注结果，对于单词序列经过BiLSTM与Attention层输出的特征向量序列

，

,

为

向量的长度，同时，定义

代表了在序列中第

个位置对应标签为

的得分，通过公式（9）描述，

（9）

式中，为

为参数矩阵, 其中

为类别标签个数，

，

为

在位置

的取值，即标签为

的得分；

定义一个转移矩阵

，其中每个元素表示一个标签转移到另一个标签的得分，对于输入

和其对应标签序列

的得分通过公式（10）进行描述，

（10）

式中，

为序列中

位置对应标签

转移到标签

的得分，

为

位置对应标签为

的得分，

每当输入一个文档单词序列，其对应的标签序列为

,通过步骤3和步骤4获取特征向量表示序列

，CRF标签最大化目标函数

，通过公式（11）进行描述，

（11）

式中，

表示所有可能的标签序列集合，

和

为待训练的参数，

是标签转移矩阵参数，

是获取

所需要的参数，包括

和步骤3、4的所有参数集合；

步骤6、生物事件抽取，利用步骤3-5所训练的参数生成的事件元素识别模型，将已标注触发词但未标注事件元素的数据按照步骤1子步骤（a）、（b）、（c）处理后，作为模型的输入，在步骤5使用维特比算法来找到输入序列对应的最优预测标签序列，获取某一触发词对应的事件元素信息，最后将触发词与其对应事件元素结合，完成了生物事件的抽取。