CN104965819A

CN104965819A - 一种基于句法词向量的生物医学事件触发词识别方法

Info

Publication number: CN104965819A
Application number: CN201510405109.8A
Authority: CN
Inventors: 王健; 张建海; 林鸿飞; 张益嘉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-07-12
Filing date: 2015-07-12
Publication date: 2015-10-07
Anticipated expiration: 2035-07-12
Also published as: CN104965819B

Abstract

本发明涉及一种识别方法，一种基于句法词向量的生物医学事件触发词识别方法，包括以下步骤：1、对未标注数据进行预处理，2、基于句法上下文信息的词向量训练，3、候选触发词词典的构建，4、触发词语义特征向量的构建，5、深度学习模型的训练，6、生物医学事件触发词的识别。本发明利用大量可获得未标注数据训练词向量，精确捕获触发词的语义信息，并有效地降低了输入特征维度；同时利用深度学习模型学习输入特征之间的隐含特征，从而更加精确地进行分类；最后，在训练的过程中对词向量信息进行微调，使得词向量信息更加适合该数据集，有效地提升了模型的泛化能力以及触发词识别性能。

Description

一种基于句法词向量的生物医学事件触发词识别方法

技术领域

本发明涉及一种识别方法，更具体地说，涉及一种基于句法词向量的生物医学事件触发词识别方法。

背景技术

随着系统生物学的快速发展，揭示生物分子、细胞、组织等之间的复杂关系的需求愈加迫切。同时，公开发表的生物医学文献也正在呈现爆炸式的增长态势，如何从大量的生物医学文献中挖掘生物分子、细胞、组织等之间的复杂关系而不是传统的简单的二元关系(如蛋白质-蛋白质关系、药物-药物关系等)已经成为现代生物医学文本挖掘领域的研究热点。

目前，大多数生物医学事件抽取方法大都将该任务分为两个子任务：触发词识别与元素检测，而触发词识别在整个任务中起着决定性的作用，触发词识别的错误将会累积到元素检测过程中，所以提高触发词识别的性能，对于整个生物医学事件抽取来说至关重要。目前，触发词识别方法主要包括以下两类：

一类是基于规则匹配的方法，该方法通过对数据集中的事件特征进行分析，手动构造一些用于识别触发词的模式或者正则表达式，然后用自定义的模式或者正则表达式匹配满足该模式的触发词。此方法虽然在早期触发词识别研究中起到了一定的作用，但是几乎不可能穷举所有可能的模式，而且对于在训练集中没有出现过的模式无法预知，导致系统泛化性能比较差，不能得到广泛的应用。

另一类是基于机器学习的方法，该方法将触发词识别问题看作一个多元分类问题，将一个词分类为几种事件类型中的一种，该方法重点在于分类模型特征向量的构建，特征向量的好坏决定了分类模型的优劣。而特征向量的构建主要取决于对于该任务的理解，选择那些对于识别触发词信息有用的特征，构建特征向量，并利用分类器(如支持向量机、最大熵等)进行分类。该方法明显优于基于规则匹配的方法，得到了广泛的应用，但是仍然存在一些缺点，比较依赖于标注数据，当标注数据比较少的时候，无法保证其性能；而且，特征的构建主要是针对当前数据集手动构造，人工干预比较大，泛化性能不好，人工构建的特征向量维度高并且稀疏，训练比较耗时。

综上所述，如何减少人工干预，提高触发词识别的泛化性能，是生物医学事件触发词识别迫切需要解决的问题。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种基于句法词向量的生物医学事件触发词识别方法。该方法利用大量可获得未标注数据训练词向量，精确捕获触发词的语义信息，并有效地降低了输入特征维度；同时利用深度学习模型学习输入特征之间的隐含特征，从而更加精确地进行分类；最后，在训练的过程中对词向量信息进行微调，使得词向量信息更加适合该数据集，有效地提升了模型的泛化能力以及触发词识别性能。

为了实现上述发明目的，解决现有技术中所存在的问题，本发明采取的技术方案是：一种基于句法词向量的生物医学事件触发词识别方法，包括以下步骤：

步骤1、对未标注数据进行预处理：选择1997年到2009年期间所有的Pubmed摘要，并对其进行预处理，具体包括以下子步骤：

(a)、利用生物领域专用的Genia Sentence Spliter分句工具对Pubmed摘要进行分句处理；

(b)、利用生物领域专用的GDep句法分析工具对子步骤(a)中已分句的Pubmed摘要进行句法分析；

步骤2、基于句法上下文信息的词向量训练：在触发词识别任务中，识别的对象基本是动词或者起动词性质作用的词，不能只是简单地利用词袋上下文信息，而更多地需要利用句法上下文信息来捕获触发词的精确语义；这里，使用改进版的word2vec，利用GDep句法上下文信息预测目标词，最终获得基于GDep句法上下文信息的词向量，从而可以从大量的未标注数据中更加精确地捕获触发词的语义信息；在词向量的训练过程中，采用skip-gram模型进行训练，并设置过滤出现次数少于50次的稀疏词以及词向量维度设置为200维；

步骤3、候选触发词词典的构建：利用训练集中出现的所有触发词构建触发词词典，只对在触发词词典中出现的词构建相应的特征向量进行训练，这样虽然会损失一些召回率，但是会在准确率上作出补偿，具体包括以下子步骤：

(a)、考虑到数据集中触发词大多数是由一个单词组成的，而多个单词组成的触发词不方便进行识别，所以，只选择训练集中只有一个单词组成的触发词加入到候选词典；

(b)、对候选词典中的词进行词形还原以及词干化处理，用于对意思相近但是词形不同的词进行识别；

步骤4、触发词语义特征向量的构建，具体包括以下子步骤：

(a)、对于目标词滑动窗口内的所有词对应的词向量进行连接，表示该目标词对应的特征向量，取滑动窗口大小为5；

(b)、如果在滑动窗口内的词的个数小于滑动窗口大小，采用词向量中的一个特殊字符“/s”与对应的词向量进行填充；

步骤5、深度学习模型的训练：采用去噪栈式自编码(SDA)深度学习模型进行训练，并使用深度学习工具Theano加以实现，具体包括以下子步骤：

(a)、非监督预训练：当深度学习模型层数较多时，会发生梯度弥散现象，即误差传递到前面几层时较小，对于参数的更新几乎不起作用，故采用去噪栈式自编码神经网络模型，利用无标签数据进行非监督预训练的方式对模型参数进行初始化，初始化后的参数，在全局最优解附近，缩短训练过程的收敛时间；首先，对无标签数据进行特征自动学习，学习输入的隐含特征表示，通过公式(1)构建输入隐含层的输出值，

H₁(x)＝s(W₁₂·x+b₁₂) (1)

式(1)中：s表示神经单元节点的激活函数，W₁₂表示第一层与第二层之间的参数矩阵，b₁₂表示偏置项，x表示神经网络模型的输入，H₁(x)表示输入隐含层的输出值，然后，再利用一个解码层输出通过公式(2)对输入值重构，

H₂(x)＝s(W′₁₂·H₁(x)+b′₁₂) (2)

式(2)中：b′₁₂为b₁₂的转置，W′₁₂为W₁₂的转置，H₂(x)表示对输入值的重构，并通过随机梯度下降算法对公式(2)中的损失函数进行优化，得到模型参数θ，

L = Σ_{i = 1}^{N} L (x_{i}; θ) - - - (3)

式(3)中：L表示神经网络模型的输入与输出之间误差的平方和，其中L(x，t)＝||H₂(x)-x||²，θ表示模型参数，N表示样本个数；通过非监督预训练初始化好了第一层与第二层之间的参数矩阵，将隐含层当做下一个自编码神经网络的输入，重复上述操作便可以对各层的参数完成初始化，初始化后的参数在全局最优解附近，缩短了训练过程的收敛时间；

(b)、监督微调：利用步骤(a)将预训练好的参数对模型进行参数初始化，然后利用有标签数据进行训练，并对参数进行微调，微调过程中优化的损失函数通过公式(4)表示，

L = \frac{1}{2} Σ_{i = 1}^{N} L (x_{i}; θ) + \frac{1}{2} λ | | θ | |^{2} - - - (4)

式(4)中：L(x，t)＝||H₂(x)-o||²，其中o是模型输出的类别信息，λ是正则化因子，θ表示模型参数，N表示样本个数；

(c)、词向量信息微调：在训练过程中，通过随机梯度下降算法对输入的词向量信息进行微调，用于词向量信息适合该数据集，得到好的结果。

步骤6、生物医学事件触发词识别：利用步骤5训练得到深度学习模型，在未标注数据上进行测试，识别未标注数据中的触发词。

本发明有益效果是：一种基于句法词向量的生物医学事件触发词识别方法，包括以下步骤：1、对未标注数据进行预处理，2、基于句法上下文信息的词向量训练，3、候选触发词词典的构建，4、触发词语义特征向量的构建，5、深度学习模型的训练，6、生物医学事件触发词的识别，与已有技术相比，本发明利用大量可获得未标注数据训练词向量，精确捕获触发词的语义信息，并有效地降低了输入特征维度；同时利用深度学习模型学习输入特征之间的隐含特征，从而更加精确地进行分类；最后，在训练的过程中对词向量信息进行微调，使得词向量信息更加适合该数据集，有效地提升了模型的泛化能力以及触发词识别性能。

附图说明

图1是本发明方法步骤流程图。

图2是Gdep词向量微平均F1值与普通词向量微平均F1值随迭代次数变化对比图。

图3是词向量微调宏平均F1值与词向量固定宏平均F1值随迭代次数变化对比图。

图4是词向量微调微平均F1值与词向量固定微平均F1值随迭代次数变化对比图。

图5是本发明方法与Pyysalo方法实验结果对比图。

图6是本发明方法句法分析树示意框图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于句法词向量的生物医学事件触发词识别方法，包括以下步骤：

(b)、利用生物领域专用的GDep句法分析工具对子步骤(a)中已分句的Pubmed摘要进行句法分析；以句子“Leukotriene B4stimulates c-fos and c-jun genetranscription and AP-1 binding activity in human monocytes.”为例说明，最终的句法分析树示意框图如图6所示。

步骤2、基于句法上下文信息的词向量训练：在触发词识别任务中，识别的对象基本是动词或者起动词性质作用的词，不能只是简单地利用词袋上下文信息，而更多地需要利用句法上下文信息来捕获触发词的精确语义；这里，使用改进版的word2vec，利用GDep句法上下文信息预测目标词，最终获得基于GDep句法上下文信息的词向量，从而可以从大量的未标注数据中更加精确地捕获触发词的语义信息；训练向量过程中利用的GDep依存句法上下文信息如表1所示。

表1

在词向量的训练过程中，采用skip-gram模型进行训练，并设置过滤出现次数少于50次的稀疏词以及词向量维度设置为200维；如，触发词stimulate的词向量表示为<-0.370030，-0.039364，0.060098……..-0.058148，-0.107576>，共200维。

步骤4、触发词语义特征向量的构建，具体包括以下子步骤：

H₁(x)＝s(W₁₂·x+b₁₂) (1)

H₂(x)＝s(W′₁₂·H₁(x)+b′₁₂) (2)

L = Σ_{i = 1}^{N} L (x_{i}; θ) - - - (3)

L = \frac{1}{2} Σ_{i = 1}^{N} L (x_{i}; θ) + \frac{1}{2} λ | | θ | |^{2} - - - (4)

在我们的实验中，我们选择栈式自编码神经网络作为模型，MLEE中事件触发词类别有19类，加上一个负类，所以我们模型的预测类别为20类，经过多次实验，我们选择5层神经网络模型，输入层有1000维(滑动窗口大小为5，词向量维度为200)，每个隐层节点个数为600，预测类别为20。我们利用后向传播以及梯度下降算法，借助MLEE训练集中的标注数据训练该模型进行模型的预训练以及微调，并在训练的过程中对词向量进行微调。关于模型超参数的选择如表2所示：表2

超参数	学习率	激活函数	层数	隐层节点个数	L2正则化项
						选择	Adadelta	ReLU	5	1000	0.0001

表中，Adadelta是一种在训练的过程自动调整学习率的方法。

步骤6、生物医学事件触发词的识别：利用步骤5训练得到深度学习模型，在未标注数据上进行测试，识别未标注数据中的触发词。

本发明优点在于：一种基于句法词向量的生物医学事件触发词识别方法，利用大量可获得未标注数据训练词向量，精确捕获触发词的语义信息，并有效地降低了输入特征维度；同时利用深度学习模型学习输入特征之间的隐含特征，从而更加精确地进行分类；最后，在训练的过程中对词向量信息进行微调，使得词向量信息更加适合该数据集，有效地提升了模型的泛化能力以及触发词识别性能。

Claims

1.一种基于句法词向量的生物医学事件触发词识别方法，其特征在于包括以下步骤：

步骤4、触发词语义特征向量的构建，具体包括以下子步骤：

步骤5、深度学习模型训练：采用去噪栈式自编码(SDA)深度学习模型进行训练，并使用深度学习工具Theano加以实现，具体包括以下子步骤：

H₁(x)＝s(W₁₂·x+b₁₂) (1)

H₂(x)＝s(W′₁₂·H₁(x)+b′₁₂) (2)

L = Σ_{i = 1}^{N} L (x_{i}; θ) - - - (3)

L = \frac{1}{2} Σ_{i = 1}^{N} L (x_{i}; θ) + \frac{1}{2} λ | | θ | |^{2} - - - (4)