CN107818141B

CN107818141B - 融入结构化要素识别的生物医学事件抽取方法

Info

Publication number: CN107818141B
Application number: CN201710933832.2A
Authority: CN
Inventors: 李丽双; 钱爽; 刘阳
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2020-07-14
Anticipated expiration: 2037-10-10
Also published as: CN107818141A

Abstract

本发明提供了一种融入结构化要素识别的生物医学事件抽取方法，属于生物医学信息抽取技术领域。生物医学事件抽取方法如下：基于PA在线学习算法分类的触发词识别、基于Viterbi算法和PA在线学习算法的结构化要素识别以及基于双分解原理的联合事件抽取方法。使用本发明可以对大量的生物医学文献进行触发词识别、要素识别和双分解操作来抽取生物医学事件；本发明加入了词向量和丰富而且有效的特征，提高了触发词和要素识别性能；使用结构化要素识别，提高了复杂事件抽取的精度；使用联合事件抽取系统，解决分阶段系统的级联错误。

Description

融入结构化要素识别的生物医学事件抽取方法

技术领域

本发明属于信息抽取技术领域，涉及一种对生物医学文献进行生物医学事件抽取的方法，具体是指基于PA在线学习算法的触发词识别、基于Viterbi算法和PA在线学习算法的结构化要素识别以及基于双分解原理的联合事件抽取。

背景技术

生物医学事件由事件触发词和要素两部分组成，事件触发词往往是动词或者动名词，要素通常是生物医学实体或者是嵌套的事件。主流的生物医学事件抽取方法包括触发词识别、要素识别以及后处理三个子过程。触发词和要素的识别过程通常被视为分类问题，这样就可以使用传统的规则方法或者机器学习方法去完成。识别的触发词结果和要素结果由基于规则的后处理方法或者机器学习的方法来得到符合生物医学事件约束的结构组合。

生物医学事件的触发词即该事件所表示的动作，触发词的类型即事件类型。目前，触发词识别主要使用基于词典、基于规则、基于统计机器学习的方法，使用最广泛的是基于统计机器学习方法。统计机器学习方法通过已标注数据，将触发词识别作为分类问题，采用机器学习模型和人工设计的特征进行分类。常用的统计机器学习模型包括：支持向量机(SVM,Support Vector Machine)、在线算法(Online Algorithm)、贝叶斯分类器(Bayesclassifier)、马尔科夫逻辑网络(Markov Logic Networks)、条件随机场(CRF，ConditionalRandomFields)等。例如，Bjorne等人使用SVM作为分类器，抽取了触发词的形态学特征、句子特征(上下文特征)、词性、词干特征以及依存链上的信息等，并在BioNLP'09Shared Task取得了最好的结果。

生物医学事件的要素识别作为一种复杂的关系抽取，主要抽取触发词到生物实体以及触发词到触发词之间的关系，其中，触发词与触发词之间的关系构成了嵌套事件。传统的要素识别方法中，主要可以分为基于规则的方法和基于统计机器学习的方法。Hakala等人的EVEX系统在BioNLP'13Shared Task中，首先使用TEES系统进行事件抽取，接着使用SVMrank将要素抽取结果进行重排序。SVMrank会为每个由TEES抽取的要素进行打分，分值小于阈值的事件将会被移除，这里的阈值由支持向量回归(SVR)得到。最终，EVEX在BioNLP'13Shared Task的测试集上取得了50.97％(F-值)的事件结果，是当时所有参加评测任务中最好的结果。

在完成生物医学事件触发词识别和要素识别后，要将识别的结果进行筛选组合，使得触发词和要素之间的组合满足生物医学事件的基本约束规则，以生成完整的生物医学事件。这一过程通常被称为后处理，主要的后处理方法包括基于规则的方法和基于机器学习的方法。机器学习方法在生物医学事件抽取研究中占据主流，而以双分解方法为代表的联合模型由于避免了分阶段方法的级联错误而获得了较高性能。Riedel和McCallum利用PA在线算法，先给触发词的每一个类别打一个分值，再给要素的每一个类别打一个分值，最后利用双分解算法联合抽取出事件，即找出符合事件约束的分值最高的事件。他们的系统可以解决一个候选触发词被判定为事件而没有要素，以及一个非蛋白质实体被判定为要素而本身不是事件这两种问题，从而提高事件抽取的性能。基于双分解的事件抽取系统在BioNLP'11测试集上的结果是56.0％，并在当的评测任务中取得了最好的结果。以上所使用的双分解原理是在单个触发词和单个要素的基础上进行组合优化，而本专利融入结构化要素识别，针对单个触发词和要素结构的组合优化，需要对原双分解算法进行改进。

近年来生物医学事件抽取的研究取得了一定进展，但总体性能普遍较低(目前在BioNLP'13测试集上事件抽取最高F-值仅为50％左右)，其中主要原因之一是复杂事件的抽取精度亟待提高。无论分阶段方法还是联合模型，复杂事件抽取中要素的识别方法大多是首先独立识别单个要素，再对这些要素进行组合，这样在构成具有多个要素的复杂事件时容易造成要素丢失或组合错误，最终导致事件抽取错误。

发明内容

本发明提供了一种融入结构化要素识别的生物医学事件抽取系统，实现从大量生物医学文献抽取出生物医学事件的功能，解决分阶段事件抽取系统存在的级联错误以及复杂事件的抽取精度低的问题，提高现有生物医学事件抽取的水平。

本发明的技术方案：

一种融入结构化要素识别的生物医学事件抽取方法，主要由四大部分组成：(1)特征抽取；(2)基于PA在线学习算法的触发词识别；(3)基于Viterbi算法和PA在线学习算法的结构化要素识别；(4)基于双分解的生物医学事件抽取；具体步骤如下：

(1)特征抽取

对于候选触发词和要素的特征抽取，首先从大规模未标注语料中训练生物医学词向量，使之包含更丰富的语义和句法信息，从而更好的进行特征表示；此外，分别对触发词和要素进行特征抽取，并融入词向量，最终生成特征向量；触发词和要素的其他主要有效特征信息如下：

1)触发词特征

将语料中非命名实体的所有词视为候选触发词，选取特征如下：

①词特征

生成候选触发词的词特征、候选触发词的直接线性上下文的词特征和依存上下文单词的词特征，包括原词特征、词性标注信息、词规范化信息、大写和数字信息、特殊字符特征以及二元组和三元组特征等等。

②频度特征

命名实体的数量、词袋中的单词数目等。

③依存链

包括依存链的每一节点的词特征和依存链中的依存类型特征。

④与最近实体的最短路径特征

包括候选触发词到最近实体的最短依存路径的二元组、三元组、四元组，最短路径的中实体类型的组合特征。

2)要素特征

通过斯坦福解析器得到句子的句法依存树，获取句法依存关系中的最短路径，借助最短路径精确的捕获要素边之间的关系，选取特征如下：

①独立成分特征

独立成分特征由依存路径中的边和单词以及其在路径中的位置特征构成。其中，位置信息指在路径的内部或路径的终端。

②语义节点信息

语义节点信息是直接将候选事件要素的两个终端(事件节点或实体节点)的属性结合在一起形成的。这些特征包含两个节点的类别(事件触发词或命名实体)、两个节点的类型(如Binding或蛋白质)。

③最短路径特征

包括结点路径及其子路径、边路径及其子路径、依存关系N元组(n＝2,3,4)、词(原词+词性)N元组(n＝2,3,4)、连续词(原词+词性)N元组(n＝1,2,3)来表示主从关系和路径长度。

④邻接依存边特征

包括到候选事件触发词的所有长度为1的依存路径、依存路径中词性、依存类型、单词的原词、实体类型以及依存边的方向。

(2)基于PA在线学习算法的触发词识别

在触发词识别阶段，将命名实体外的所有单词作为候选触发词，为每个候选触发词分配一个类型，不是触发词的为负类；触发词识别采用上述特征及PA在线算法模型，同时结合线性核函数，获得触发词可信度；

PA在线算法，即Online Passive-aggressive Algorithms使用著名的SVM最大化分类间距思想，利用当前样例贪心的修改模型，使修改后的模型能正确分类当前样例，且具有最大间距，同时要求修改的模型尽可能接近修改前的，即尽可能保留已经学习到的知识。

设t时刻，当前实例是x_t，即属于空间Rⁿ的特征向量；同时，假定实例x_t关联一个唯一的类别标签y_t；算法中用到的预测函数为

其中的权重向量满足w_t∈Rⁿ，而w_t·Φ(x_t,y)的大小是预测标签的可信度；那么PA算法的任务认为是增量的学习权重向量w；具体过程如下：

PA在线算法应用到触发词识别的过程中，重点在于从训练集的触发词实例中学习得到各个触发词类别对应的特征权重向量模型，然后通过学习到的模型对测试集实例进行预测。其中，计算触发词实例作为各个类型的得分，即可信度。

(3)基于Viterbi算法和PA在线学习算法的结构化要素识别

在传统的要素识别方法中，要素识别是相互独立的，也就是分别依次识别单个要素，忽略了要素之间存在的依赖关系。对于复杂事件通常包含两个要素，其中Cause类型要素的存在就必然要求了Theme类型要素的存在，如果不考虑要素之间的这种相关性，那么可能产生没有Theme要素的事件。在此做出如下假设：对于句子中的一个候选要素，它之前的要素因为距离较远对它不会有影响，而且要素的存在有先后关系，之后的要素也不会影响到它，所以一个要素只会受它的前一个要素的影响，即存在马尔科夫性。本方法针对要素的依赖关系建立结构化要素识别模型，有效避免复杂事件抽取中由于孤立识别要素而导致的要素丢失和事件构成的错误。

根据生物医学事件的定义，对于复杂事件，要素边既可以指向另一个事件的触发词，也可以指向实体。当由两个要素候选构成的要素对结构与该复杂事件中真实要素构成的要素对结构一致时，称其为最佳要素结构。其中，将针对句子中某一触发词引导的两个候选要素对看作马尔科夫链。将句子中的事件触发词以及实体作为要素候选，将这些要素候选看作马尔可夫链的观察状态，将它们的要素类型作为隐状态，即已知观察状态序列求相应的隐状态序列。

针对以上问题使用Viterbi算法的思想寻找隐状态序列，并用PA在线学习算法计算结构化要素可信度。Viterbi算法是一种动态规划算法，用于寻找最有可能产生观察状态序列的隐状态序列，即在知道观察状态序列以及概率矩阵的情况下求解最有可能产生这一观察状态序列的隐状态序列。

1)使用Viterbi算法和PA在线学习算法训练结构化要素模型

①Viterbi算法构建最佳要素结构

最佳要素结构体现了要素之间的依赖关系，用Viterbi算法构建最佳要素结构，设e_i表示句子中第i个实体，可以认为是第i个单词；e_j表示句子中第j个实体，可以认为是第j个单词；r表示要素的类型，如Theme或Cause；(e_i,e_j,r_j)表示要素；F(e_i,e_j,r_j)代表要素(e_i,e_j,r_j)的特征向量；F(e_i,e_j,r_j,e_k,r_k)代表要素结构(e_i,e_j,r_j,e_k,r_k)的特征向量，具体过程如下：

输入：权重向量w，所有的特征向量F(e_i,e_j,r_j),F(e_i,e_j,r_j,e_k,r_k)

for i from 0to n:

输出：Back，即其中的最佳要素结构

其中，PI(e_i,e_j,r_j)表示整个结构以第j个实体为结尾，要素的类型为r的最高值；Back(e_i,e_j,r_j)表示要素(e_i,e_j,r_j)的前一个要素(e_i,e_k,r_k)；

②结构化要素识别训练过程

先利用Viterbi算法预测出针对句子中某一触发词的最佳要素结构，然后和真实的要素结构进行比较，如果预测正确，那么则继续预测下一组最佳要素结构；如果预测错误，则权重向量加上预测结构与真实结构特征向量的差值。最后，得到权重向量w。具体过程如下：

输入：每一个句子的要素结构Ω，及其对应的特征向量。

初始化权重向量w为0，

重复t次：

对所有的子句子s_i做如下操作：

利用Viterbi算法选取出要素结构Ω，使w和F(Ω)的乘积最大，

其中F(Ω)的表示Ω结构的特征向量；

Ω_i为s_i的真实要素结构，如果Ω_i≠Ω，那么使用PA算法更新权重向量w；

输出：权重向量w

2)用训练好的模型进行结构化要素预测

首先，对测试集实例进行特征抽取，得到要素及要素结构的特征向量。然后，使用训练好的模型针对句子中的某一触发词对应的候选要素序列进行结构化预测。

(4)基于双分解的生物医学事件抽取

双分解联合模型可以避免分阶段方法中的级联错误，所以本专利将结构化要素识别与双分解算法进行有效融合。经过基于PA在线学习算法触发词识别和结构化要素识别后，可以分别得到触发词和要素结构分属于各类型的可信度。双分解方法先计算触发词和要素结构的可信度之和，然后选出该可信度之和最高的并且满足约束的触发词类型和要素结构中各要素类型，从而构成最终的事件结构。由于双分解过程中采用的是要素结构，所以对原始双分解算法的改进模型为如下公式(1)所示。

其中，S_T(i,υ)表示分配给候选触发词i的类型为υ的分值(可信度)，e_i,υ表示候选触发词i及其类型υ。S_R(i,j,r_j,p,r_p)表示要素边i→j其类型为r_j、和要素边i→p其类型r_p的分值(可信度),

要素边i→j其类型为r_j，

要素边i→p，类型r_p。其推理过程可以表示为公式(2)：

双分解在联合优化的过程中设计约束条件如下：

O约束条件：触发词必须有Theme要素、只有Regulation类型触发词有Cause要素、非触发词没有要素。

I约束条件：事件的要素边连接的终端必须是触发词或实体，即不能是None类型的触发词。

双分解进行事件抽取的流程如下：

初始化：λ＝0，υ＝0，N为迭代次数，lr是学习率

for υ＝1,2,...,N：

如果λ没有再变化则退出循环

return(e,a)。

首先计算出符合约束O的最优事件结构(e,a)，再计算出符合约束I的最优事件结构

只要(e,a)和

不相等，就调节拉格朗日乘子，并最终达到相等状态，或达到最大迭代次数。

本发明的有益效果：本发明可以对大量的生物医学文献进行触发词识别、要素识别和双分解操作来抽取生物医学事件；本发明加入了词向量和丰富而且有效的特征，提高了触发词和要素识别性能；使用结构化要素识别，提高了复杂事件抽取的精度；使用联合事件抽取系统，解决分阶段系统的级联错误。

附图说明

图1为基于双分解的生物医学事件抽取联合系统框架图。

具体实施方式

本发明能够对大量的生物医学文献进行触发词识别、结构化要素识别和双分解处理来抽取出生物医学事件，从而帮助生物医学研究者高效快速地获取有效的信息。如图1为基于双分解的生物医学事件抽取联合系统框架图。

1.用户输入生物医学文献语料

用户以文件的形式输入训练语料，下面以BioNLP’09语料为例，包含原文本的txt文件，包含蛋白质的a1文件，和带有标注好的生物医学事件的a2文件。例如，原文本句子“prevented induction 1L-10 production by gp41 in monocytes”，注明蛋白质“1L-10”、“gp41”。

2.系统对语料进行事件抽取

(1)原始语料预处理

首先要对原文本txt文件进行处理，先用GeniaSS和geniass-postproc.pl进行分句，再用GTB-tokenize.pl进行分词，这里的分词是指将单词和“(”，“)”分开，将单词和标点符号分开。进一步将分词结果送入到McClosky解析器，得到PTB格式的解析结果，再用Stanford工具转化成basic依存解析结果或CCProc依存解析结果，或者用Pennconverter转化工具转化成CoNLL格式的依存解析结果。然后，将生成的依存解析的文件，句法树文件，txt文件，a1文件和a2文件组织到xml文件中，完成语料预处理。

(2)特征抽取

经步骤(1)对语料的解析后，进行特征抽取生成相应的特征向量。在触发词识别时，因为蛋白质不可能是触发词，所以触发词识别器将所有非蛋白质的单词作为候选触发词。首先从大规模未标注语料中训练生物医学词向量，使之包含更丰富的语义和句法信息，此外抽取了丰富的特征，包括词特征、频度特征、依存链、与最近蛋白质之间的路径特征、Enju特征。在要素识别时，通过斯坦福解析器得到句子的句法依存树，获取句法依存关系中的最短路径，特征集大多数都是在句法依存关系中的最短路径基础上构造的，包括独立成分特征、语义节点信息、最短路径、邻接依存边。例如，一个触发词实例特征向量为“4 4:112:1 16:1 18:-0.125316......”，该实例的类别编号为4，即Regulation，“4:1”是指特征编号为4的特征值为1。

(3)触发词识别

使用(2)生成的触发词特征向量作为训练数据集和测试数据集；使用PA在线算法构建分类器，并利用训练集和开发集进行分类器模型的训练以及参数寻优；最后，利用训练好的模型对测试集每一个候选的触发词的每一类型都给一个可信度，可信度最高的类型即为该触发词的类型。例如，对句子“prevented induction 1L-10production by gp41 inmonocytes”，识别出触发词“prevented”为Negative Regulation、“induction”为PositiveRegulation、“production”为Gene Expression。

(4)结构化要素识别

使用(2)生成的要素特征向量作为训练数据集和测试数据集，使用Viterbi算法和PA在线学习算法对训练集进行要素最佳结构的构造和训练，再使用训练好的模型针对句子中的某一触发词对应的候选要素序列进行结构化预测，给出每个要素结构的可信度，可信度最高的要素结构即为最佳要素结构以及类型。例如，句子“phosphorylation of TRAF2inhibits binding to the CD40”中，binding是触发词，phosphorylation，of，TRAF2，inhibits，binding，to，the，CD40是候选要素，模型识别出最佳的要素主题类型TRAF2和CD40。

(5)双分解

经(3)给每一个候选的触发词的每一类型都一个可信度；经(4)给每一个候选要素的每一个类型一个可信度；利用双分解技术计算出一个符合约束条件的得分最高的事件。例如句子“phosphorylation of TRAF2 inhibits binding to the CD40”中，所有的触发词phosphorylation，inhibits，binding都识别正确，且除了inhibits-binding这一要素，所有的要素都识别正确。双分解技术中，降低inhibits作为触发词的得分(减去一个小的值α)，同时提高inhibits-binding作为要素的得分(加上同一个小的值α)；重新比较inhibits作为触发词的得分和非触发词的得分，决定inhibits是否为触发词，类似的决定inhibits-binding是否作为要素；当inhibits是触发词同时inhibits-binding是要素时就找到了最佳事件。

3.系统显示事件抽取结果

当系统完成了对输入文本的事件抽取，会以文件的形式显示出该文献中的生物医学事件和事件对应的触发词以及要素。例如，对于句子“prevented induction of IL-10production by gp41 in monocytes.”进行事件抽取的结果如下：

表1生物医学事件抽取结果表

如上表所示，对于句子“prevented induction of IL-10 production by gp41in monocytes.”的生物医学事件抽取结果包含三个事件。第一个事件是Gene_expression事件(表示为E1)，包含一个触发词“production”和其对应的Theme类型的要素“IL-10”；第二个事件是Positive_regulation事件(表示为E2)，包含一个触发词“induction”，一个Cause类型的要素“gp41”和一个Theme类型的要素E1；第三个事件为Negative_regulation事件(表示为E3)，包含一个触发词为“prevented”和一个Theme类型的要素E2。其中，事件E3和事件E2都为嵌套事件，因为它们的Theme要素同样为一个事件。

Claims

1.一种融入结构化要素识别的生物医学事件抽取方法，其特征在于，步骤如下：

(1)特征抽取

对于候选触发词和要素的特征抽取，首先从大规模未标注语料中训练生物医学词向量，使之包含更丰富的语义和句法信息，从而更好的进行特征表示；此外，分别对触发词和要素进行特征抽取，并融入词向量，最终生成特征向量；触发词和要素的其他有效特征信息如下：

1)触发词特征

①词特征；

②频度特征；

③依存链；

④与最近实体的最短路径特征；

2)要素特征

①独立成分特征，由依存路径中的边和单词以及其在路径中的位置特征构成；其中，位置特征指在路径的内部或路径的终端；

②语义节点信息，直接将候选事件要素的两个终端的属性结合在一起形成的；

③最短路径特征；

④邻接依存边特征；

(2)基于PA在线学习算法的触发词识别

在触发词识别阶段，将命名实体外的所有单词作为候选触发词，为每个候选触发词分配一个类型，不是候选触发词的为负类；候选触发词识别采用上述特征及PA在线算法模型，同时结合线性核函数，获得候选触发词可信度；

其中的权重向量满足w_t∈Rⁿ，而w_t·Φ(x_t,y)的大小是预测标签的可信度；那么PA算法的任务认为是增量的学习权重向量w，具体过程如下：

输入：参数C>0

初始化：权重向量w₁＝(0,...,0)

for t＝1,2...

获取样例：x_t∈Rⁿ

预测：

其中，Φ(x_t,y)为与标签相关的特征向量；

获取正确标签：y_t∈Υ

损失量：

更新：

1)设置学习率：

2)更新权重：w_t+1＝w_t+τ_ty_tx_t

输出权重向量：return w；

将PA在线算法应用到触发词识别过程中，在于从训练集的触发词实例中学习得到各个触发词类别对应的特征权重向量模型，然后通过学习到的特征权重向量模型对测试集实例进行预测；其中，计算触发词实例作为各个类型的得分，即可信度；

(3)基于Viterbi算法和PA在线学习算法的结构化要素识别

根据生物医学事件的定义，对于复杂事件，要素边既可指向另一个事件的触发词，也可指向实体；当由两个要素候选构成的要素对结构与该复杂事件中真实要素构成的要素对结构一致时，称其为最佳要素结构；其中，将针对句子中某一触发词引导的两个候选要素对看作马尔科夫链；将句子中的事件触发词以及实体作为要素候选，将这些要素候选看作马尔可夫链的观察状态，将它们的要素类型作为隐状态，即已知观察状态序列求相应的隐状态序列；

使用Viterbi算法的思想寻找隐状态序列，并用PA在线学习算法计算结构化要素可信度；Viterbi算法是一种动态规划算法，用于寻找最有可能产生观察状态序列的隐状态序列，即在知道观察状态序列以及概率矩阵的情况下，求解最有可能产生这一观察状态序列的隐状态序列；

1)使用Viterbi算法和PA在线学习算法训练结构化要素模型

①Viterbi算法构建最佳要素结构

最佳要素结构体现了要素之间的依赖关系，用Viterbi算法构建最佳要素结构，设e_i表示句子中第i个实体，认为是第i个单词；e_j表示句子中第j个实体，认为是第j个单词；r表示要素的类型；(e_i,e_j,r_j)表示要素；F(e_i,e_j,r_j)代表要素(e_i,e_j,r_j)的特征向量；F(e_i,e_j,r_j,e_k,r_k)代表要素结构(e_i,e_j,r_j,e_k,r_k)的特征向量，具体过程如下：

for i from 0 to n:

输出：Back，即其中的最佳要素结构；

②结构化要素识别训练过程

先利用Viterbi算法预测出针对句子中某一触发词的最佳要素结构，然后和真实的要素结构进行比较，如果预测正确，那么则继续预测下一组最佳要素结构；如果预测错误，则权重向量加上预测结构与真实结构特征向量的差值；最后，得到权重向量w；具体过程如下：

输入：每一个句子的要素结构Ω，及其对应的特征向量；

初始化权重向量w为0，

重复t次：

对所有的子句子s_i做如下操作：

利用Viterbi算法选取出要素结构Ω，使w和F(Ω)的乘积最大，

其中，F(Ω)的表示Ω结构的特征向量；

输出：权重向量w；

2)用训练好的模型进行结构化要素预测

首先，对测试集实例进行特征抽取，得到要素及要素结构的特征向量；然后，使用训练好的模型针对句子中的某一触发词对应的候选要素序列进行结构化预测；

(4)基于双分解的生物医学事件抽取

双分解联合模型可避免分阶段方法中的级联错误，将结构化要素识别与双分解算法进行有效融合；经过基于PA在线学习算法触发词识别和结构化要素识别后，分别得到触发词和要素结构分属于各类型的可信度；双分解方法先计算触发词和要素结构的可信度之和，然后选出该可信度之和最高的并且满足约束的触发词类型和要素结构中各要素类型，从而构成最终的事件结构；由于双分解过程中采用的是要素结构，所以对原始双分解算法的改进模型为如下公式(1)所示：