CN111581339A

CN111581339A - 基于树状lstm对生物医学文献的基因事件的抽取方法

Info

Publication number: CN111581339A
Application number: CN202010276382.6A
Authority: CN
Inventors: 饶国政; 孟通福
Original assignee: Tianjin University
Current assignee: Tju Binhai Industrial Research Institute Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-25
Anticipated expiration: 2040-04-09
Also published as: CN111581339B

Abstract

本发明公开了一种基于树状LSTM对生物医学文献的基因事件的抽取方法：训练集、验证集和测试集的文本中出现的单词建立单词词典，实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典，将生物医学文献的摘要数据处理为结构性数据；单词词典中单词映射得到向量，未被匹配的单词随机分配；事件触发词识别使用Tree‑LSTM结构，在事件元素识别中，使用最短依赖路径算法得到触发词和实体之间的最短路径，再使用Tree‑LSTM模型识别事件中事件参数及其扮演的角色；按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本，生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。

Description

基于树状LSTM对生物医学文献的基因事件的抽取方法

技术领域

本发明涉及互联网人工智能自然语言处理技术领域，更具体的说，是涉及一种基于树状LSTM对生物医学文献的基因事件的抽取方法。

背景技术

生物医学文献作为世界上丰富的科研和问诊数据来源之一，它给我们提供了充足的数据来分析文献中事件的发生及事件要素，如基因和蛋白质之间的因果关系。目前美国国家生物技术信息中心(NCBI)发布的PubMed收录了三千万条生物医学引用，GENIA corpus在其基础上针对领域事件抽取提供了人工标记的数据。因此，在生物信息检索中找到合适的模型适用在广泛的医学文献中提取出指定的事件至关重要。

在深度学习算法出现之前，事件抽取任务通常依赖于人工特征，单词词性或是专家词典，然后经过朴素贝叶斯或者支持向量机这类的分类器，这些传统的机器学习方法在任务相关的特征工程阶段花费了大量的时间和人力。与之不同地，深度学习算法能够通过无监督或者半监督特征学习算法自动的提取数据特征并且使用稠密的向量表示，不同于特征工程得到的稀疏向量表示。为了获得高质量的向量表示，我们需要将非结构化文本映射成可表示性向量的空间。然而，非结构性文本有自身的语言特性，如修辞结构和依赖关系，在构建深度学习模型时提供了不同的思路。

深度学习将文本和句子结构进行向量的表示输入到设计好的模型中，减少了特征的摸索和尝试从而发挥了表示学习的优势。在事件抽取任务中，我们常常使用预训练的词向量来初始化输入的单词或者用少量的标注训练数据在大规模语料库上训练好的模型上进行fine-tuning，如Word2Vec，GloVe和FastText。在英文的文本处理中，我们常常使用工具进行分词分句，词性标注，句法依存解析，如NLTK、StanfordCoreNLP和SpaCy。

发明内容

本发明的目的是为了克服现有技术中的不足，提出一种利用句子结构信息的基于树状LSTM对生物医学文献的基因事件的抽取方法。

本发明的目的是通过以下技术方案实现的。

本发明基于树状LSTM对生物医学文献的基因事件的抽取方法，包括以下过程：

步骤一：数据预处理

生物医学文献的摘要数据使用的是文本格式，使用NLTK进行分句和分词，对句子进行依赖解析，实体和训练集中的触发词使用BILOU的标记规则进行标记，将训练集、验证集和测试集的文本中出现的单词建立单词词典，转化为数字索引，将实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典，将生物医学文献的摘要数据处理为结构性数据：将单句按照单词词典索引进行转换，实体按照实体词典进行编码，触发词按照触发词词典进行编码，将单句的信息按照依存树的结构生成数据结构记录全部信息；事件参数按照发生U和L的实体或者触发词生成相应的三元组；

步骤二：词嵌入

将单词词典中的单词映射到预训练的词模型PubMed-and-PMC-w2v中得到相应的向量，未被匹配的单词使用正太分布概率进行随机的分配，单词词典中每个单词使用200维度的数字进行表示，范围为(-1,1)；

步骤三：训练模型识别基因事件

①触发词识别阶段

由于使用Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构，将单句中的单词按照依赖解析的树状顺序，生成相应的树结构信息；树结构中的节点信息包含：单词在句中的位置顺序，该节点的孩子的信息和父节点的信息，以及触发词的默认类型；

Child-Sum Tree-LSTM模型将句子对应的树的信息进行解析并经过公式(1)-(8)进行计算，得到每个节点预测的事件类型；将单句的根节点作为输入信息输入到Child-SumTree-LSTM结构中，叶子结点的初始状态设置为零向量，每个节点进行传播时需要计算自身所有孩子的隐藏状态，整棵树使用自底向上的传播方式，直到树的根节点结束；在传播的时候将每个细胞得到的隐藏状态使用Softmax函数进行多分类，在训练阶段使用负对数似然计算损失值；

其中，每个单词在Child-Sum Tree-LSTM模型中对应的神经单元都有两个状态，分别为隐藏状态和细胞状态，使用隐藏状态接入Softmax函数进行多分类，得到触发词的类型；

f_jk＝δ(W_f[x_j,h_k]+b_f) (3)

h_j＝o_j⊙tanh(c_j) (7)

p_j＝softmax(W_ph_j+b_p) (8)

其中，C(j)代表节点j所有孩子节点的集合，h_k代表节点j中的第k个节点的隐藏状态，

代表节点j中所有节点的隐藏状态的累加和，x_j是节点j细胞的输入信息，δ是sigmoid激活函数，i_j代表LSTM节点j的输入门，f_jk代表LSTM中节点j对第k个孩子的遗忘门，o_j代表LSTM中的节点j的输出门，W_i是输入门的学习矩阵，W_f是遗忘门的学习矩阵，W_o是输出门的学习矩阵，b_j是输入门的偏置值，b_f是遗忘门的偏置值，b_o是输出门的偏置值，tanh是激活函数，

是候选细胞信息，W_c是候选细胞状态的学习矩阵，b_c是候选细胞状态的偏置值，c_j是节点j的细胞状态信息，c_k是节点j中的第k个节点的细胞状态，h_j是节点j的隐藏状态信息，W_p是分类的学习矩阵，softmax是多分类的函数，b_p是多分类的偏置值，p_j是节点j使用隐藏状态进行多分类的输出信息；

②事件参数识别阶段

首先，构造两个集合：触发词集合，触发词和实体混合组成的事件参数的集合；分别从两个集合取出一个元素，每个元素是一个单句中的构成树的一个节点信息；然后在树状结构中得到这两个元素所在路径的最低的公共祖先节点，并得到触发词到最低的公共祖先节点的路径和候选事件参数到最低的公共祖先节点的路径；

在Child-Sum Tree-LSTM模型中分别计算两条路径构成的树的信息后，得到两个根节点的信息；将这两个根节点中的隐藏状态信息进行拼接操作，输入到Softmax函数中进行多分类，从而得到候选的事件参数在事件中扮演的角色类型；对事件参数进行多分类见公式(9)：

p_t＝softmax(W_t[h_jl；h_jr]+b_t) (9)

其中，h_jl是触发词所在路径的根节点的隐藏状态的信息，h_jr是触发词和实体混合的集合中的元素所在路径的根节点的隐藏状态的信息，W_t是学习的参数矩阵，b_t是偏置值，p_t是预测事件参数在事件中的扮演角色的类型；

步骤四：训练模型生成规范的输出信息

在触发词识别阶段，预测符合BILOU编码的触发词，读取触发词词典和原始数据中的文本信息，生成触发词信息包含触发词在文本的单词位置，对应的单词和触发词类型；在事件参数识别阶段，每对元素预测事件参数在事件中的扮演角色的类型，按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本，生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。

步骤一中对句子进行依赖解析采用的是斯坦福大学的句子依赖解析器工具。

与现有技术相比，本发明的技术方案所带来的有益效果是：

本发明提出了一种基于树状LSTM对生物医学文献的基因事件的抽取方法，并且在标注生物医学文献基因事件的bionlp 2011 GENIA数据集上得到了验证。相对于传统的机器学习，本发明采用树状的LSTM神经网络模型自动学习语义特征，减少了手工设计特征的工作，又充分利用了句子的依赖信息，减少了触发词和事件参数之间的路径，从而提高了有效信息的利用。在简单事件抽取中大约达到46％的预测效果，由于识别的事件类型过多，整体事件抽取效果可达到大约30％的预测效果。

附图说明

图1是stanford dependency parser分析句子依赖关系的句子的结构图。

图2是Tree-LSTM神经网络中细胞单元的结构图。

图3是识别事件触发词的Tree-LSTM神经网络模型结构图。

图4是识别事件参数的Tree-LSTM神经网络模型结构图。

图5是部分单句使用stanford dependency parser分析之后的数据。

图6是部分预训练好的200维大小为3.32GB的skip-gram词向量。

图7是抽取事件在训练集和验证集上的损失函数变化

具体实施方式

下面结合附图对本发明作进一步的描述。

本发明提出来一种树状长短期记忆神经网络模型(tree-structured longshort-term memory networks,Tree-LSTM)进行医学文献中的事件抽取。事件抽取分为两分部：首先是对事件触发词的识别，在单句中对所有单词进行识别；然后进行事件参数的抽取，在上一步的基础上，我们将触发词和已知的实体进行组合得到事件参数的类型。事件触发词识别使用Tree-LSTM结构，在事件元素识别中，我们使用最短依赖路径算法(shortestdependency path)得到触发词和实体之间的最短路径，再使用Tree-LSTM模型识别事件中事件参数及其扮演的角色。本发明使用的是Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构。

本发明基于树状LSTM对生物医学文献的基因事件的抽取方法，主要包括数据预处理、词嵌入阶段、训练模型识别基因事件、训练模型生成规范的输出信息四个部分。具体实现过程如下：

步骤一：数据预处理

生物医学文献的摘要数据使用的是文本格式，由于数据单元建立在单句上，所以使用NLTK进行分句和分词。由于使用是树形结构网络，需要将句子进行依赖解析，我们采用的是斯坦福大学的句子依赖解析器(Dependency Parser 2015-01-29)工具进行解析。实体和训练集中的触发词使用BILOU(Begin，Inside，Last，Outside，Unit)的标记规则进行标记。将训练集、验证集和测试集的文本中出现的单词建立单词词典，由20080个单词组成，转化为数字索引。由于使用BILOU实体和触发词编码，所以将实体、触发词、事件参数分别建立实体词典、触发词词典、事件参数词典便于使用。由于是数据是文本格式，为了便于计算机处理，将生物医学文献的摘要数据处理为结构性数据：将单句按照单词词典索引进行转换，实体按照实体词典进行编码，触发词按照触发词词典进行编码，将单句的信息按照依存树的结构生成数据结构记录全部信息；事件参数按照发生U(Unit)和L(Last)的实体或者触发词生成相应的三元组。参见图1，这是stanford dependency parser分析句子依赖关系的句子结构图。

例如：事件触发词类型分为37类(有效类为36类，无效类为1类)，事件参数类型为4类(有效类为3类，无效类为1类)。参见图5，这是部分单句使用stanford dependencyparser分析之后的数据。

步骤二：词嵌入阶段

本发明采用的是预训练的词模型PubMed-and-PMC-w2v，将单词词典中的单词映射到模型中得到相应的向量，未被匹配的单词使用正太分布概率进行随机的分配，单词词典中每个单词使用200维度的数字进行表示，范围为(-1,1)。

例如：匹配的单词为词典中的92.3％，随机生成的单词向量有7.7％。其中未被匹配的单词为1547个，使用(-0.1,0.1)的正太分布进行随机化生成。参见图6，这是部分预训练好的200维大小为3.32GB的skip-gram词向量。

步骤三：训练模型识别基因事件

①触发词识别阶段

这个阶段由于使用Tree-LSTM结构中的Child-Sum Tree-LSTM变种结构，将单句中的单词按照斯坦福依赖解析器(stanford dependency parser)依赖解析的树状顺序，生成相应的树结构信息。树结构中的节点信息包含：单词在句中的位置顺序，该节点的孩子的信息和父节点的信息，以及触发词的默认类型。

本发明使用的是Child-Sum Tree-LSTM，见公式(1)-(7)；对触发词进行多分类见公式(8)：

f_jk＝δ(W_f[x_j,h_k]+b_f) (3)

h_j＝o_j⊙tanh(c_j) (7)

p_j＝softmax(W_ph_j+b_p) (8)

是候选细胞信息，W_c是候选细胞状态的学习矩阵，b_c是候选细胞状态的偏置值，c_j是节点j的细胞状态信息，c_k是节点j中的第k个节点的细胞状态，h_j是节点j的隐藏状态信息，W_p是分类的学习矩阵，softmax是多分类的函数，b_p是多分类的偏置值，p_j是节点j使用隐藏状态进行多分类的输出信息。参见图2，这是Tree-LSTM神经网络中细胞单元的结构图。参见图3，这是识别触发词的Tree-LSTM神经网络模型结构图。

Child-Sum Tree-LSTM模型将句子对应的树的信息进行解析并经过公式(1)-(8)进行计算，得到每个节点预测的事件类型。在这个阶段，将单句的根节点作为输入信息输入到Child-Sum Tree-LSTM结构中，叶子结点的初始状态设置为零向量，每个节点进行传播时需要计算自身所有孩子的隐藏状态，整棵树使用自底向上的传播方式，直到树的根节点结束。在传播的时候将每个细胞得到的隐藏状态使用Softmax函数进行多分类，在训练阶段使用负对数似然计算损失值。例如：将隐藏向量的维度设置为100维，触发词类型数量是37类。将这个阶段的触发词构成一个集合以供下一阶段使用。

其中，每个单词在Child-Sum Tree-LSTM模型中对应的神经单元都有两个状态，分别为隐藏状态(hidden state)和细胞状态(cell state)。本发明使用隐藏状态接入Softmax函数进行多分类，得到触发词的类型。

②事件参数识别阶段

该阶段输入数据除了上述的单句构成的树的信息之外，还有文本提供的实体的信息和上阶段识别的触发词信息。我们将这些信息进行事件参数的预测，识别事件参数的类型。

首先，我们构造两个集合：触发词集合，触发词和实体混合组成的事件参数的集合。分别从两个集合取出一个元素，每个元素是一个单句中的构成树的一个节点信息。然后在树状结构中得到这两个元素所在路径的最低的公共祖先节点(Lowest commonancestor，LCA)，并得到触发词到LCA的路径和候选事件参数到LCA的路径。这种算法的优点在于没有不相关单词的干扰，提供有效的信息。例如句子Of the 23 cases,19 wereclassified as NK-cell and 4 as T-cell tumours.经过斯坦福依赖解析器解析之后，其中causes和NK-cell存在的的路径是：left path：causes–of-classified和right path：NK-cell-as–classified。

在Child-Sum Tree-LSTM模型中分别计算两条路径构成的树的信息后，得到两个根节点的信息。将这两个根节点中的隐藏状态信息进行拼接操作，输入到Softmax函数中进行多分类，从而得到候选的事件参数在事件中扮演的角色类型。对事件参数进行多分类见公式(9)：

p_t＝softmax(W_t[h_jl；h_jr]+b_t) (9)

其中，h_jl是触发词所在路径的根节点的隐藏状态的信息，h_jr是触发词和实体混合的集合中的元素所在路径的根节点的隐藏状态的信息，W_t是学习的参数矩阵，b_t是偏置值，p_t是预测事件参数在事件中的扮演角色的类型。

例如：事件参数在事件中扮演的角色类型的类型是4类角色。事件参数阶段预测事件参数在事件中的扮演角色的类型。参见图4，这是识别事件参数的Tree-LSTM神经网络模型结构图。

步骤四：训练模型生成规范的输出信息

在触发词识别阶段，本发明将预测符合BILOU编码的触发词，读取触发词词典和原始数据中的文本信息，生成触发词信息包含触发词在文本的单词位置，对应的单词和触发词类型。在事件参数识别阶段，本发明将每对元素预测事件参数在事件中的扮演角色的类型，按照触发词识别阶段提供的触发词和原始文本提供的实体信息将事件参数词典转换为文本，生成事件参数信息包括事件类型、事件触发词、事件参数和事件参数类型。

例如：本发明按照bionlp 2011GENIA的任务1进行实验，所以输出的事件需要符合如表1形式：

表1

Event Type	Core arguments
		Gene expression	Theme(Protein)
Transcription	Theme(Protein)
		Protein catabolism	Theme(Protein)
Phosphorylation	Theme(Protein)
		Localization	Theme(Protein)
Binding	Theme(Protein)+
		Regulation	Theme(Protein/Event),Cause(Protein/Event)
Positive regulation	Theme(Protein/Event),Cause(Protein/Event)
		Negative regulation	Theme(Protein/Event),Cause(Protein/Event)

(5)评估指标

bionlp 2011 GENIA评估符合表1的指定的事件形式，使用评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)，将验证集上的识别触发词和事件参数的信息在验证集上检验模型的抽取事件的效果如表2所示，使用的超参数如表3所示，训练的损失函数趋势如图7所示。

表2

表3

Parameter	Value
		Word embedding size	200
Tree-LSTM hidden size	100
		Learning rate	0.001
Weight decay	0.001
		Batch size	64
Epoch size	30
		Dropout rate	0.3
Initial embedding learning rate	0.01
		Optimizer	Adam

通过表1，我们发现对于间的类型的事件抽取，可以达到46.39％的召回率，42.19的准确率，44.19的F1，随着事件类型的复杂程度，整体性能偏于大约30％。我们可以发现本抽取方法得到结果的三个评测指标性能近似，体现出了模型的稳定性。通过图7和表2，我们知道训练的模型在验证集上有很好的泛化能力。优化器Adam，在学习率0.001，权重衰减在0.001使模型具有良好的性能。

最后，本发明的方法除了可以自动的分析出bionlp 2011 GENIA标记的数据集上的事件，同时在PubMeb中抽取制定的关于9种基因的事件，本发明所提出的树状LSTM事件抽取模型也有着十分重要的借鉴意义。

尽管上面结合附图对本发明的功能及工作过程进行了描述，但本发明并不局限于上述的具体功能和工作过程，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出很多形式，这些均属于本发明的保护之内。