CN107978373A

CN107978373A - 一种基于共训练的半监督生物医学事件抽取方法

Info

Publication number: CN107978373A
Application number: CN201711177721.XA
Authority: CN
Inventors: 卢奕南; 马小蕾; 路扬; 潘航宇
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-01

Abstract

本发明涉及一种基于共训练的半监督生物医学事件抽取方法。随着生物医学文献的快速增长，生物医学事件的自动抽取引起了人们极大的兴趣。然而，已标注的生物医学事件语料库规模较小，这会影响分类算法的性能，甚至导致过拟合。我们提出了一种新的生物医学事件抽取的共训练方法，从未标记的数据中识别出更准确的正实例，以此扩大已标记的训练集。首先，设计丰富的特征供SVM使用。然后，用从Word2vec从Pubmed中学习基于词嵌入的短句，进一步将短句拓展为触发词和参数之间的依存短句，并将其输入到CNN中。最后，未标记语料库中经SVM和CNN预测的符合条件的样本对回填到训练集中，增量地扩展训练集。大量实验结果表明，新的半监督生物医学事件提取方法能有效提取事件。

Description

一种基于共训练的半监督生物医学事件抽取方法

技术领域

本发明涉及文本挖掘领域，尤其涉及一种基于共训练的半监督生物医学事件抽取方法。

背景技术

生物医学事件提取是信息抽取的一个重要分支。随着生物医学文献的快速增长，科研工作者需要大量的精力和时间来获得相关的科学知识。因此，生物医学事件信息的自动抽取引起了人们极大的兴趣。因此，有必要以有效和准确的方法提取生物医学事件。

目前，事件抽取的方法可以大致可以分为两类：基于规则的方法和基于机器学习的方法。基于规则的事件抽取系统由一系列规则组成，包括句子结构、语法关系和语义关系等。这些是从训练数据手动定义或自动学习的。人工干预可以达到较高的精度，但召回率较低。但当语料库较大时，该方法很难指定对所有样本都能提高召回率的规则。基于机器学习的事件提取系统不需要人工干预，它将事件抽取视为一个分类问题，基于机器学习的方法提取大量的特征，如语法特征和语法特征。这些特征通常被输入到支持向量机模型(SVM)中，用于训练模型。基于机器学习的系统性能往往要优于基于规则的系统性能。随着深度学习的不断发展，许多深度学习方法已成功地应用于自然语言处理中。用卷积神经网络CNN分层构建文本表示；用深度信念网络DBN对生物医学文本进行分类等。

以上这些方法大多数都是基于已标记数据，使用监督算法研究改进生物医学事件提取系统的性能。然而，这些方法受到训练数据的限制，尤其当训练数据的规模太小时可能产生过拟合问题。而标注数据的成本是巨大的，为解决该问题，可以将不同的已标注生物医学语料库合并成一个，或使用半监督的方法。协同训练是Blum和Mitchell提出的半监督思想的一种重要算法，它在两个训练视角分别训练两个分类器。每个分类器充分学习，可以有条件地独立地给出类标签。

综上所述，我们提出一种基于共训练的半监督生物医学事件抽取方法。首先，对生物医学术语的(触发词、参数)对进行识别，并用SVM模型分类到预先定义的事件类型中。在特征自动提取阶段，CNN的输入是一种基于词嵌入的新的短句表示，它是触发词和参数之间的依赖性短句的补充信息。最后，选择未标注语料库中经SVM模型和的CNN模型预测后符合条件的对(触发词，参数)回填到训练集中重新训练，直到F值达到最大值。

发明内容

为解决现有的监督学习进行生物医学事件抽取中已标注样本量很小，容易产生过拟合的问题，本发明提出了一种基于共训练的半监督生物医学事件抽取方法，发明内容主要包括：用半监督学习的方法扩充已标注样本集的思想；使用SVM分类器和CNN分类器共训练，选择样本回填至训练集的流程；构建用作CNN输入的短句集的过程；构建CNN网络的流程；未标注样本集中用于回填至训练集的样本选择策略。

一种基于共训练的半监督生物医学事件抽取方法，其特征在于：至少包括以下步骤：

步骤1：初始化有标签数据集作为原始训练集，进行文本预处理，并生成短句训练集，同时初始化无标签数据集。

步骤2：在训练集上训练SVM分类器，在短句训练集上训练CNN分类器，用好的SVM分类器和CNN分类器对无标签样本进行分类预测。

步骤3：依据选择策略，选择无标签数据集中符合条件的样本，回填至训练集中，用扩充后的新训练集重新训练SVM分类器和CNN分类器，重复步骤2、3，直至开发集上的F值达到最大。

步骤4：经上述迭代过程，增量地扩展了训练集，并得到训练好的SVM分类器和CNN分类器，结合两分类器的结果，对最终待分类预测的文本进行分类预测。

本发明的有有益效果：

与现有技术相比，采用本发明所述的设计方案，可以达到以下技术效果：

1、使用半监督学习的方法扩充现有的已标注数据集，能在一定程度上减少过拟合问题，提高分类准确度。

2、使用触发词和参数之间的依赖性短句的补充信息构造短句集，作为CNN模型的输入，将附加信息添加到依存路径上，可以丰富最短依存路径的语义信息，以更准确地对事件类型进行分类。

3、使用SVM和CNN两个分类器进行共训练，充分利用两个分类器的预测信息，将其结合起来合理利用，提升生物医学事件抽取效果。

4、使用CNN卷积神经网络对短句集进行分类，解决了生物医学文本大多数句子太长，分类效果不好的问题。

附图说明

图1是所提出生物医学事件抽取方法框架图。

图2是卷积神经网络CNN的结构图。

图3是以一个句子为例，进行句法分析后得到的依存树。We have analyzed theexpression of TCL1mRNA and protein in peripheral blood lymphocytes(PBLs)fromfour AT cases and from healthy controls.句子大意为，我们分析了4例AT病例和健康对照的外周血淋巴细胞(PBLs)中mRNA TCL1和蛋白质的表达。图中0表示树的根节点，1表示We，2表示have，3表示analyzed，4表示the，5表示expression，7表示TCL1,8表示MRNA，10表示protein，12表示peripheral，13表示blood，14表示lymphocytes，16表示PBLs，19表示four，20表示AT，21表示cases，24表示healthy，25表示controls。箭头1表示root，箭头2表示nsnbj，箭头3表示aux，箭头4表示dobj，箭头5表示det，箭头6表示prep_of，箭头7表示prep_of，箭头8表示nn，箭头9表示conj_and，箭头10表示prep_in，箭头11表示amod，箭头12表示nn，箭头13表示appos，箭头14表示prep_from，箭头15表示prep_from，箭头16表示num，箭头17表示nn，箭头18表示conj_and，箭头19表示amod。

具体实施方式

步骤1：初始化有标签数据集和无标签数据集。进行文本预处理后，将有标签数据集作为原始训练集，并生成短句训练集。

将GE'11和GE'13的训练集结合起来，作为原始训练集。从互联网上的一些公开库下载相关的生物医学文献作为无标签数据集。使用NLTK和McClosky-Charniak-Johnson生物医学句法分析模型进行文本预处理。由于生物医学文本中大多数句子太长，CNN无法有效分类，因此，我们用篇幅有限、结构紧凑，但仍能独立表达语义的短句代替了生物医学文本的句子，使用CNN对短句进行分类。生物实体之间的最短依赖路径具有丰富的语义信息，可以很好地捕捉谓词参数序列，为抽取事件提供重要信息。然而，仅通过生物医学事件提取中的最短依赖路径进行分类是不准确的，有必要在最短依赖路径上添加信息。对训练集中的样本，提取(触发词，蛋白质)对之间的最短依存路径，通过添加直接子节点和直接父节点，拓展最短路径中每个节点的子树，然后根据原始句子中的位置信息，将所有节点包括子树节点扩展和依赖路径中的每个节点进行排列，并获得新的用于分类的短句，进一步构建了带有标签的短句训练集。

例如，图3中，触发词expression与蛋白质TCL1之间的最短依赖路径为L＝{expression mRNA TCL1}，我们将最短依赖路径扩展为具有附加信息的短句，触发词expression扩展的节点有：analyzed(analyzed_3),the(the_4),protein(protein_10),lymphocytes(lymphocytes_14)；mRNA扩展后的节点在最短路径和expression扩展节点中；TCL1扩展后没有节点。扩展后的所有节点(包括最短依存路径节点)对应的原文中所在位置的句子，即为我们生成的短文本，这样的短文本能够区分两个相近似的具有很短依存路径的事件。原句生成的短句为：analyzed the expression of TCL1mRNA and protein inperipheralblood lymphocytes。

采用one-vs-rest的SVM方法，使用具有丰富信息的人工特征，在训练集上训练，得到SVM分类器。使用SVM分类器对无标签数据集中样本进行分类，得到SVM预测结果集。训练CNN分类器，将短句训练集中的短句用词嵌入表示为神经网络模型的输入向量，自动学习特征。第一层将单词嵌入到低维向量中，其中词向量由无监督的神经语言模型获得。下一层使用不同长度的滤波器对文本矩阵进行卷积，滤波器的宽度等于词向量的长度。使用最大池化处理每个滤波器提取的向量，并使用正则化方法防止过拟合。每个滤波器对应一个数字，将滤波器拼接在一起,获得表示该句子的向量，最后使用softmax层对结果进行分类，得到CNN预测结果集。

提出的半监督学习方法基于两个分类器，第一分类器SVM和第二分类器CNN。训练后在无标签数据集上进行分类预测，分别得到SVM预测结果集和CNN预测结果集。通过选择策略合并两个分类器的预测结果。这里我们只考虑单参数事件。共训练的目的是选择最具信息的正样本。预测结果的选择策略如下：

其中为候选对(t_i，a_j)的选择标准。y_ij和y′_ij分别为对(t_i，a_j)经SVM分类器和CNN分类器得到的类标签。此外，是通过CNN模型预测后标签是y的概率。D^U为无标签数据集。两个分类器预测标签一致且为正的样本将被选中。对预测标签不一致的正例样本，我们根据分类概率的不同选择它们。对于给定的阈值θ，对候选对(t_i，a_j)，如果则该样本被选中，并对其赋以CNN的预测标签。

将最终选中的样本回填到训练集中进行重新训练，并用我们的方法预测新的未标记样本。重复回填，直到开发集的F值达到最大值。

由于生物医学事件的复杂性，简单类型事件的参数是实体(蛋白质)，复杂类型事件的参数可能是蛋白质或其它事件。在我们共训练的方法中，生成短句作为CNN的输入，可以更好地识别简单类型事件，但却不能很好地表达复杂事件的语义。因此，对最终待预测样本进行预测分类时，简单类型事件仍然使用步骤3中的样本选择策略，而复杂类型事件则基于SVM预测的结果。

Claims

1.一种基于共训练的半监督生物医学事件抽取方法，其特征在于，至少包括以下步骤：

步骤一：初始化有标签数据集作为原始训练集，进行文本预处理，并生成短句训练集，同时初始化无标签数据集；

步骤二：在训练集上训练SVM分类器，在短句训练集上训练CNN分类器，用好的SVM分类器和CNN分类器对无标签样本进行分类预测；

步骤三：依据选择策略，选择无标签数据集中符合条件的样本，回填至训练集中，用扩充后的新训练集重新训练SVM分类器和CNN分类器，重复步骤二、三，直至开发集上的F值达到最大；

步骤四：经上述迭代过程，增量地扩展了训练集，并得到训练好的SVM分类器和CNN分类器，结合两分类器的结果，对最终待分类预测的文本进行分类预测。

2.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法，其特征在于，所述短句训练集的构造方法为：

21)对训练集中的样本，预处理后提取(触发词，蛋白质)对之间的最短依存路径；

22)依存路径过短的情况不能很好的表示句子的语义，有必要在最短依赖路径上添加信息，通过添加直接子节点和直接父节点，拓展最短路径中每个节点，然后根据原始句子中的位置信息，将所有节点包括子树节点扩展和依赖路径中的每个节点进行排列，并获得新的用于分类的短句，进一步构建了带有标签的短句训练集。

3.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法，其特征在于，所述CNN的训练和预测方法为：

将短句训练集中的短句用词嵌入表示为神经网络模型的输入向量，自动学习特征，第一层将单词嵌入到低维向量中，其中词向量由无监督的神经语言模型获得，下一层使用不同长度的滤波器对文本矩阵进行卷积，滤波器的宽度等于词向量的长度，使用最大池化处理每个滤波器提取的向量，并使用正则化方法防止过拟合，每个滤波器对应一个数字，将滤波器拼接在一起,获得表示该句子的向量，最后使用softmax层对结果进行分类，得到CNN预测结果集。

4.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法，其特征在于，所述选择样本对训练集进行回填的方法为：

样本选择策略如下：

<mrow> <msub> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>N</mi> <mi>o</mi> <mi>n</mi> <mi>e</mi> <mi> </mi> <mi>o</mi> <mi>r</mi> <mi> </mi> <msubsup> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mi>N</mi> <mi>o</mi> <mi>m</mi> <mi>e</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mo>|</mo> <msubsup> <mi>P</mi> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>C</mi> </msubsup> <mo>-</mo> <msubsup> <mi>P</mi> <msubsup> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mi>C</mi> </msubsup> <mo>|</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mo>&ForAll;</mo> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&Element;</mo> <msup> <mi>D</mi> <mi>U</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>D</mi> <mrow> <mi>U</mi> <mi>L</mi> </mrow> </msup> <mo>=</mo> <mo>{</mo> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </msub> <mo>&GreaterEqual;</mo> <mi>&theta;</mi> <mo>,</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>T</mi> <mi>y</mi> <mi>p</mi> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中为候选对(t_i，a_j)的选择标准，y_ij和y′_ij分别为对(t_i，a_j)经SVM分类器和CNN分类器得到的类标签，此外，是通过CNN模型预测后标签是y的概率，D^U为无标签数据集，两个分类器预测标签一致且为正的样本将被选中，对预测标签不一致的正例样本，我们根据分类概率的不同选择它们，对于给定的阈值θ对候选对(t_i，a_j)，如果则该样本被选中，并对其赋以CNN的预测标签。

5.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法，其特征在于，所述使用SVM分类器和CNN分类器共训练选择样本回填至训练集，完成半监督的方法为：

共训练是半监督思想的一种重要算法，它在两个训练视角分别训练两个分类器，每个分类器充分学习，可以有条件地独立地给出类标签，我们提出的基于共训练的半监督学习方法基于两个分类器，第一分类器SVM和第二分类器CNN，首先，在原始训练语料上训练SVM分类器，预测未标记样本；接下来，我们用训练集中生成的短句训练CNN分类器，并预测未标注样本；然后，通过选择策略合并两个分类器的预测结果；最后，将最终选中的样本回填到训练集中进行重新训练，并用我们的方法预测新的未标记样本，重复回填，直到开发集的F值达到最大值。

6.根据权利要求1所述一种基于共训练的半监督生物医学事件抽取方法，其特征在于，所述对最终待预测样本进行预测分类的方法为：

由于生物医学事件的复杂性，简单类型事件的参数是实体(蛋白质)，复杂类型事件的参数可能是蛋白质或其它事件，在我们共训练的方法中，生成短句作为CNN的输入，可以更好地识别简单类型事件，但却不能很好地表达复杂事件的语义，因此，对最终待预测样本进行预测分类时，简单类型事件依据权利要求4中所述样本选择策略，而复杂类型事件则基于SVM预测的结果。