CN108628970A

CN108628970A - 一种基于新标记模式的生物医学事件联合抽取方法

Info

Publication number: CN108628970A
Application number: CN201810375882.8A
Authority: CN
Inventors: 李丽双; 马玉柯; 刘阳; 钱爽
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-10-09
Anticipated expiration: 2038-04-17
Also published as: CN108628970B

Abstract

本发明属于自然语言处理技术领域，涉及一种基于新标记模式的生物医学事件联合抽取方法。本发明包括生物医学事件联合抽取过程中触发词和要素的新标记方法、基于LSTM深度学习网络进行触发词和要素的同时识别、以及基于SVM分类器处理生成事件的生物医学事件联合抽取方法。使本发明可以从原始的生物医学语料中抽取出已定义的9类生物医学事件，抽取过程结合深度学习的方法，减少了人工进行特征选取的工作；本发明为生物医学事件联合抽取提供一种新的触发词和要素的标记方法。

Description

一种基于新标记模式的生物医学事件联合抽取方法

技术领域

本发明属于自然语言处理技术领域，涉及一种基于新标记模式的生物医学事件联合抽取方法。

背景技术

生物医学事件抽取(BioNLP Shared Task)中的GE(Genia event extraction)任务是由日本东京大学的Tsujii实验室于2009年发起的一个致力于细粒度生物实体关系抽取的生物文本挖掘共享评测任务。

自2009年BioNLP-ST GE推出生物事件抽取任务以来，目前已经有许多基于BioNLP-ST数据集的生物事件抽取方法的研究。

从事件抽取流程的整体框架来看，基本上可以分为两大类。一类是分阶段抽取方法：这类方法将生物事件抽取过程分成几个相互独立的步骤，先抽取生物事件的触发词，后抽取要素，最终生成事件。第二类通常采用联合抽取的方法：这种方法将分阶段抽取方法中的两个步骤合二为一，同时进行触发词和要素的识别。这种方法更多的考虑整个语句中触发词和其要素之间的语义关系。

大多数生物事件抽取系统都采用分阶段方法，即先识别出触发词，再识别相关要素。从相关文献来看，主要分为三种：基于统计/词典的方法、基于规则的方法和基于机器学习方法。较之于前两种方法，机器学习方法引进了自动化模式，大大节省了人力物力的投入。一般的基于机器学习方法如采用支持向量机、条件随机场或是最大熵模型都需要设计比较复杂的特征。Bjorne(J,Heimonen,J,Ginter,F,et al.Extracting ComplexBiological Events with Rich Graph-Based Feature Sets.in The Workshop onCurrent Trends in Biomedical Natural Language Processing:Shared Task.2009.)等人使用支持向量机多分类器SVM^multiclass进行分类，抽取了触发词的形态学特征、句子特征、词性、词干特征以及依存链上的信息等，在BioNLP’09Shared Task取得了最好的结果。Pyysalo等(Pyysalo S,Ohta T,Miwa M,et al.Event extraction across multiplelevels of biological organization.Bioinformatics,2012.28(18):p.i575-i581.)总结了上下文、依存关系等丰富特征，并通过SVM进行分类，在生物医学领域通用事件抽取MLEE语料上的触发词识别F值为75.84％，事件抽取F-值为55.20％。

随着近年来机器学习的广泛应用，深度神经网络模型在一些自然语言处理任务中也取得了很好的效果。Nie等(Nie,Y,Rong W,Zhang Y,et al.Embedding assistedprediction architecture for event trigger identification.Journal ofBioinformatics&Computational Biology,2015.13(03):p.1541001)使用神经网络构建触发词识别模型，并将Skip-gram模型训练得到的词向量转化成特征矩阵作为神经网络的初始化权重，用以解决神经网络模型在训练时只得到局部最优解的问题。Wang等人(Wang A,Wang J,Lin H,et al.A multiple distributed representation method based onneural network for biomedical event extraction[J].Bmc Medical Informatics&Decision Making,2017,17(3):171.)训练了基于句法分析树的词向量，并且结合了上下文、词性、距离和类型等事件抽取任务相关的特征，通过卷积神经网络(CNN)构建了事件抽取模型。该方法在生物事件抽取通用语料MLEE语料上的F-值为58.31％。

分阶段的方法忽视了两个任务之间的联系，并且存在级联错误，即在触发词识别阶段出现的错误，会累积到要素识别阶段，造成要素识别的错误，降低了系统抽取的性能。所以有相关研究引入联合抽取的方法。联合抽取方法是在事件抽取过程中同时抽取出触发词和要素，然后确定它们所属的事件类型。这种方法与分阶段方法抽取不同的地方在于触发词、事件类型以及要素是同时识别出来的，因此可以有效减少分阶段过程中出现的级联错误。Poon等(Poon H,Vanderwende L.Joint inference for knowledge extractionfrom biomedical literature.Human Language Technologies:The 2010AnnualConference of the North American Chapter of the Association for ComputationalLinguistics,Los Angeles,North American,June,2010:813-821.)采用马尔科夫逻辑网，并人工总结谓词逻辑联合语句进行触发词和要素抽取，在BioNLP’09测试集上分别取得43.1％和50.0％的F-值。Li等(Li L,Liu S,Qin M,et al.Extracting biomedical eventwith dual decomposition integrating word embeddings.IEEE/ACM Transactions onComputational Biology and Bioinformatics,2016,13(4):669-677)基于双分解的联合模型加入了词向量特征，包含了更多的语法和语义信息，使事件抽取的性能得到了提高，在BioNLP’13测试集上F-值达到53.19％。

目前的生物事件抽取方法大多采用分阶段的方法而引入了级联错误，而少数采用联合抽取方法的系统，虽然避免了级联错误，但是最终的抽取性能都不及分阶段的方法，这可能是由联合抽取方法在要素识别阶段会引入大量负例引起的。

发明的内容

为解决上述问题，本发明提出了一种基于新标记模式的生物医学事件联合抽取方法，通过一种新的标注形式标注出生物医学文本中的触发词和要素。

将事件抽取中的触发词识别和要素识别两个独立的阶段合二为一，即将该任务看作一个序列标注任务。基于本发明的新的标记方式，结合深度学习的方法，对句子中的单词进行标记，从而识别出触发词和要素，达到联合抽取的目标。

在参与事件抽取的语句中，与构成的事件有关的单词或词组可用S、B、I、E、O来标记，五种不同的标记方式表明了单词是否与事件构成有关，以及当单词与事件构成有关时的位置信息。将与构成事件无关的单词标记为O。而对于句子中的触发词或者要素，当它为单个单词时标记为S，当它为一个词组时，分别用B(begin)、I(inside)、E(end)来表示该词组中的每个单词在词组中的位置信息。因此，第一个字段用来表示被标记的单词与事件抽取的结果是否有关。确定了与构成事件有关的实体之后，还要确定所抽取的事件的类型，因此第二个字段用来表示所抽取的事件的类型,即事件抽取任务中已经定义的9类事件类型。此外，还要区分该单词到底是触发词还是要素。如果该单词是要素的话，则需要第三个字段来表示单词的要素信息。理论上，对于简单事件来说只需要三个字段，便可以满足事件抽取的要求。但是对于复杂事件(例如嵌套事件、交叉事件……)来说，仅使用三个字段是不足以表示出单词在语句中的所有重要信息的。因此，考虑两种比较常见的复杂事件，对其标记方法进行举例说明，对于其他的复杂事件可以以此类推。

本发明的技术方案；

一种基于新标记模式的生物医学事件联合抽取方法，其采用的标注方式如下：

根据语句中实体的种类数，使用含有四个字段的四元组{1-2-3-4}对实体进行标注；其中，1、2、3字段为基础字段，是标注事件所需要的最少字段；4字段为可选字段，当且仅当语句中包含复杂事件时用到，复杂事件包括嵌套事件和交叉事件；该四元组中每个字段的取值及具体含义如下表1：

表1标注方式

具体步骤如下：

1、原始语料预处理

A.分词和依存解析

分词是指将原始语料进行单词切分；分词后再通过依存解析获取语言单位内各成分之间的依存关系，揭示其句法结构，同时获取依存上下文用以训练基于依存关系的词向量；

B.词向量表示

采用word2vecf，利用依存上下文信息进行词向量训练，得到最终的句法词向量矩阵，该词向量可以捕获长距离词间的关系，从而获得更加丰富的语义信息，有助于提升生物事件抽取性能；

2、训练集标注

对于训练集中已经明确了的触发词、要素、事件类型，利用上述的标记方式对训练集中的词向量进行标记，得到训练集；

3、训练神经网络

建立LSTM神经网络并将训练集代入进行训练，从而得到基于LSTM神经网络的生物事件抽取模型；

4、对测试集进行分类

得到训练的LSTM神经网络之后，将测试集代入，LSTM神经网络对测试集中的单词分类之后，得到测试集每个句子中每个单词的标记结果，标记结果代表单词是否与构成事件有关、是否是触发词或要素以及所属的事件类型；

5、SVM分类器处理生成事件

训练出实体的标记结果之后，得到了事件语义图中孤立的节点和边。首先，按照生物医学事件的约束进行组合构成合理的事件候选；然后，采用统计机器学习中的SVM的方法，判断该事件候选是否为事件。

1)候选事件生成

一个候选的事件实例由一个触发词节点和出边组成，出边连接到其他的触发词或者命名实体节点；一个候选事件的生成，需要符合事件的结构信息；首先根据训练语料学习每种事件类型的合法结构，结构信息包括每种事件类型的触发词可以带的要素数目、类型，以及要素边可以连接的实体类型、要素边可以连接的触发词类型；然后根据此事件类型，挑选候选事件实例，查找每一个事件触发词节点，通过已经学习到的标记信息，产生一个符合所有出边组合的实例；对于要素出边中含有嵌套事件的情况，要保证所嵌套的事件同样能够正确的生成候选实例；对于多个事件共享同一个触发词或者要素边的情况，根据共享事件的个数对这些触发词和要素边进行复制。

2)SVM分类器

在事件后处理阶段，使用线性的SVM作为分类器；由线性SVM所分类的数据首先被表示成实例，实例由需要预测的类别标记和在已知的数据中作为分类的基础特征集组成；然后通过SVM对实例进行分类。

3)特征选取

采用SVM的后处理模型，所抽取的特征主要由三大类组成：(1)线性特征：要素之间的词袋特征，包括词袋的长度特征和非实体的文本特征；(2)要素之间的组合特征：包括要素角色特征和要素数量特征；(3)要素内容特征：包括实体特征和要素边的特征。

完成上述事件抽取步骤后，最终即可得到一个包含触发词、事件类型、要素三个元素的三元组，该三元组即表示一个完整的生物医学事件。

本发明的有益效果：本发明是基于新标记模式的生物事件联合抽取方法，可自动以从海量的生物医学文本中抽取对研究者来说有价值的结构化的信息。从而大大减少人工从文本中提取生物医学事件的工作量，提高了研究工作的效率。其具体实施方式主要有语料预处理、训练深度学习网络模型、利用模型对测试集进行分类，最后再利用SVM分类器处理生成一个包含触发词、事件类型、要素三个元素的三元组，该三元组即表示一个完整的结构化的生物医学事件。

具体实施方式

以下结合技术方案，进一步说明本发明的具体实施方式。

一种基于新标记模式的生物医学事件联合抽取方法，其标注方式包含以下三部分：

(一)标注方式说明

根据语句中实体的种类数，使用含有四个字段的四元组{1-2-3-4}对实体进行标注，其中1、2、3字段为基础字段，是标注简单事件所需要的最少字段；4为可选字段，当且仅当语句中包含复杂事件时用到；该四元组中每个字段的取值及具体含义如表1所示。

(二)简单事件标注

对于简单事件的标注，只需要{1-2-3}三个字段；以下是一个简单事件的标注实例。

例1：BMP-6inhibited cell growth.

其中BMP-6与构成的事件无关。inhibited是单个实体，构成事件的触发词。cellgrowth是一个含有两个实体的词组，构成事件的要素。因此该语句中每个实体的标记结果如表2：

表2例句1标注结果

最终生成的元组{E1:regulation,trigger:inhibited,theme:regulation}，表示一个regulation事件其中inhibited是触发词，regulation是事件类型，cell growth是要素。

(三)复杂事件标注

在复杂事件中与事件抽取相关的实体所含有的语义信息会增加，所以需要更多的字段才能表示实体的全部信息；因此对于复杂事件的实体标注，我们增加一个字段4来表示实体在复杂事件中的信息。

考虑以下两种复杂事件，并说明标记方法。

1.嵌套事件的标记方法

嵌套事件是指一个完整的事件作为另外一个事件要素。即某个事件的要素是由一个完整的事件充当的。

例2：1VEGF165also mediated the binding of a soluble NRP1dimer to cellsexpressing KDR only,confirming the formation of such complexes

在这里与构成事件无关的实体的标记均为O。该句包含了两个事件，mediate是一个regulation类型事件的触发词，NPR1dimer和KDR cells的结合(binding)是一个binding类型事件。两个事件嵌套在一起，即binding事件作为regulation事件的要素从而构成一个嵌套事件。其标注结果如表3：

表3例句2嵌套事件标注结果

2.交叉事件的标记方法

第二类复杂事件是交叉事件，即某个要素同时作为两个事件的共用的要素，或者触发词同时作为两个不同类型事件的共用触发词出现。

例3：Cancer cells secrete soluble factors which can induceproliferation and migration of capillary endothelial cells.

这句话包含Cell_proliferation和Localization事件，且两个事件共用同一个要素capillary endothelial cells。因此该句包含两个触发词共用一个要素的复杂事件。标记方式如表4：

表4交叉事件标记方法

具体步骤如下：

1、原始语料预处理

A.分词和依存解析

如下所示，分词指的是将原始语料进行单词切分。分词之后通过解析工具获得依存关系、句法结构，以及依存上下文用以训练基于依存关系的词向量。

B.词向量表示

采用word2vec的修改版word2vecf词向量训练工具，利用依存上下文信息训练词向量，得到最终的句法词向量矩阵，该词向量包含了丰富的语义信息，可以捕获长距离词间的关系，从而获得更好的数据表示和更加丰富的语义信息，有助于提升生物事件抽取的性能。

2、训练集标注

对于训练集中已经明确了的触发词、要素、事件类型，利用上述的标记方式对训练集中的单词进行标记，得到所需要的训练集。

3、训练神经网络

LSTM是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测中间隔和延迟相对较长的重要事件。由于LSTM所具有的特点，LSTM非常适合用来用于事件抽取中这种序列的问题。因此我们建立LSTM神经网络模型。

4、对测试集进行分类

得到训练的LSTM神经网络模型之后，用该模型对测试集中的单词分类，可得到测试集每个句子中每个单词的标记结果，这些标记代表了单词是否与构成事件有关、是否是触发词或者要素以及它所属的事件类型。

5、SVM分类器处理生成事件

训练出实体的标记结果之后，相当于得到了事件语义图中孤立的节点和边，之后再按照生物医学事件的约束进行组合形成事件。采用统计机器学习中的SVM的方法，自动从训练集中构建模型找到合适的要素组合。

1)候选事件生成

一个候选的事件实例由一个触发词节点和出边组成，这些出边连接到其他的触发词或者命名实体节点。一个候选事件的生成，需要符合事件的结构信息。首先从训练语料中学习到每种事件类型的合法结构，这些结构信息包括每种事件类型的触发词可以带的要素数目、类型，以及要素边可以连接的实体类型、要素边可以连接的触发词类型(成嵌套事件)。然后挑选候选事件实例。首先会查找每一个事件触发词节点，根据此事件类型，通过已经学习到的标记信息，产生一个符合所有出边组合的实例。对于要素出边中含有嵌套事件的情况，要保证所嵌套的事件同样能够正确的生成候选实例。对于多个事件共享同一个触发词或者要素边的情况，根据共享事件的个数对这些触发词和要素边进行复制。

2)SVM分类器

在生物事件抽取的后处理阶段，使用线性的SVM作为分类器。由线性SVM所分类的数据首先被表示成实例，实例由类别标记(需要预测的)和特征集(在已知的数据中作为分类的基础)组成。

3)特征选取

为了将这个结构作为特征来描述，分类系统的特征表示主要依赖于实体和预测边，用于描述触发词节点和其他有出边链接的节点，所有这些节点均是候选事件的组成部分。采用SVM的后处理模型，所抽取的特征主要由三大类组成：(1)线性特征：主要指要素之间的词袋特征。包括词袋的长度特征、非实体的文本特征等(2)要素之间的组合特征：组合特征主要包括要素角色特征和要素数量特征。(3)要素内容特征：主要包括实体特征和要素边的特征。

经过后处理最终得到一个包含触发词、事件类型、要素三个元素的三元组。该三元组即表示一个完整的生物医学事件。

Claims

1.一种基于新标记模式的生物医学事件联合抽取方法，其特征在于，所述的基于新标记模式的生物医学事件联合抽取方法采用的标注方式如下：

表1 标注方式

具体步骤如下：

(1)原始语料预处理

A.分词和依存解析

B.词向量表示

采用word2vecf，利用依存上下文信息进行词向量训练，得到最终的句法词向量矩阵；

(2)训练集标注

对于训练集中已经明确的触发词、要素、事件类型，利用上述的标记方式对训练集中的词向量进行标记，得到训练集；

(3)训练神经网络

建立LSTM神经网络并将训练集代入进行训练，得到基于LSTM神经网络的生物事件抽取模型；

(4)对测试集进行分类

得到训练的LSTM神经网络后，将测试集代入，LSTM神经网络对测试集中的单词分类后，得到测试集每个句子中每个单词的标记结果，标记结果代表单词是否与构成事件有关、是否是触发词或要素以及所属的事件类型；

(5)SVM分类器处理生成事件

训练出实体的标记结果之后，得到了事件语义图中孤立的节点和边；首先，按照生物医学事件的约束进行组合构成合理的事件候选；然后，采用统计机器学习中的SVM的方法，判断该事件候选是否为事件；

完成上述事件抽取步骤后，最终即得到一个包含触发词、事件类型、要素三个元素的三元组，该三元组即表示一个完整的生物医学事件。