CN104298651B

CN104298651B - 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法

Info

Publication number: CN104298651B
Application number: CN201410453911.XA
Authority: CN
Inventors: 李丽双; 蒋振超
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2014-09-09
Filing date: 2014-09-09
Publication date: 2017-02-22
Anticipated expiration: 2034-09-09
Also published as: CN104298651A

Abstract

一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统,属于自然语言处理领域。本发明包括基于DBN的全局优化的生物医学命名实体识别、基于深度神经网络和L2‑SVM结合的蛋白质交互关系抽取功能以及基于B/S模式的提供图形交互界面的在线系统。使用本发明可以对用户待解析的生物医学文本进行生物医学命名实体的识别和蛋白质交互关系的自动抽取，抽取过程发挥了深度学习对特征进行深层优化的特点，较少的依赖人工特征参与；本发明为用户提供蛋白质交互关系数据检索的服务；另外，本发明还为用户提供了对自动解析结果的修正功能。

Description

一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法

技术领域

本发明属于自然语言处理领域，涉及一种对生物医学文本进行高质量的生物医学命名实体识别和蛋白质关系抽取的方法，具体是指基于深度神经网络分类框架的命名实体识别和关系抽取。

背景技术

生物医学命名实体识别(Biomedical Named Entity Recognition，Bio-NER)是指识别文本中具有特定意义的生物医学实体，主要包括蛋白质、DNA、RNA、cell_type、cell_line等。目前使用最广泛的基于机器学习方法的基本过程包括：语料预处理、抽取特征、模型训练、预测。语料预处理步骤包括对生物医学文本的操作，如大小写转换、分词、词干化、去停用词等步骤。运用到的特征主要包括：核心词特征、字典特征、构词特征、词形特征、词缀特征、词性特征、组块特征等。机器学习构建模型的方法主要包括：隐马尔可夫模型(HMM)、支持向量机模型(SVM)、最大熵模型(ME)、最大熵马尔可夫模型(MEMM)、条件随机域模型(CRF)等。

例如，ABNER(http://pages.cs.wisc.edu/～bsettles/abner/)是一个标准的命名实体识别软件工具，其核心基于线性链CRF。为减少人工抽取特征的代价，半监督学习也被引入到机器学习方法中。李彦鹏等(Incorporating Rich Background Knowledge forGene Named Entity Classification and Recognition，2009,BMC Bioinformatics)从获得的海量未标注数据中提取有用信息，然后将其作为特征去提高监督学习的效果，在BioCreative II中取得F值为89.05％。

蛋白质交互关系抽取(Protein-Protein Interaction Extraction,PPIE)目的是判断两个蛋白质之间是否存在关系。蛋白质关系可以被看成是一个三元组，Relation<Protein1,Protein2,type>，其中Protein1和Protein2表示两个蛋白质实体，type表示关系类型(有关系或者无关系两类)。

基于特征的机器学习方法利用大量的语言特征，如词法、语法、语义等特征来表示关系实例，从而完成抽取任务。Miwa等(A rich feature vector for Protein-ProteinInteraction extraction from multiple corpora,2009,Proceedings of the2009Conference on Empirical Methods in Natural Language Processing,121-130)提出了一种基于丰富特征向量的SVM-CW方法，抽取了词袋特征、最短路径特征和图特征用于学习。该方法能够同时在多个数据集上进行学习，在五个公共语料AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了64.2％,68.3％,74.9％,76.6％,84.1％。基于核函数的方法可以利用依存解析树等结构化信息,Miwa等(Protein–protein interactionextraction by leveraging multiple kernels and parsers,2009,Internationaljournal of medical informatics,39-46)通过把不同句法解析器的输出结果结合起来，获得一个多层次的抽取模型，在AIMed,BioInfer,HPRD50,IEPA,LLL上F值分别达到了60.8％,68.1％,70.9％,71.7％,80.1％。基于特征的方法过度依赖于选取的特征，人工对特征干预程度较大，并且忽略了句法等结构特征的作用；而基于核函数的方法计算时间过长，抽取效率较低，而且没有考虑词汇特征。

对于实际的PPIE在线系统，大都采用基于特征的统计机器学习的方法。Kim等(PIE:an online prediction system for protein-protein interactions from text,2008,Nucleic Acids Research,411-415)建立了在线蛋白质交互关系抽取系统PIE，可以让用户以文本输入或上传文件的格式进行访问，系统能识别出文本中的蛋白质名称，并输出蛋白质关系，最后允许用户对系统的分析结果进行评价。该系统借助词汇信息和句法信息，对文档中的蛋白质交互关系对进行打分并显示。

上述传统的机器学习方法都是在选取合适特征的基础上进行训练构建模型，从而提高识别效果。人工抽取合适特征对于构建生物医学命名实体识别系统具有重要作用。但同时这些系统对特征的依赖程度较高，而特征都是根据领域知识和经验人工制定的，费时费力，需要反复实验才能确定最优的特征集合。虽然半监督学习方法在一定程度上减少人工抽取特征的代价，但如何从大规模未标语料中自动抽取特征、获取更多的潜在语义信息是众多研究者十分关注的研究课题。

发明的内容

本发明提供了一种基于深度学习的全局最优的生物医学命名实体识别方法和线性L2-SVM相结合的蛋白质关系抽取方法，解决了人工特征带来的高成本、低泛化能力等难题，提高了现有生物医学命名实体识别和蛋白质关系抽取的水平。

该发明主要由三大部分组成：1、基于DBN的全局优化的生物医学命名实体识别功能；2、基于深度神经网络和L2-SVM结合的蛋白质交互关系抽取功能；3、基于B/S模式的在线系统，提供图形交互界面。生物医学命名实体识别是生物医学信息抽取的关键环节，是进行蛋白质关系抽取等任务的前提，最终以网页的形式实现用户的交互界面。

本发明采用如下的技术方案包括如下步骤：

(一)构建基于滑动窗口的NER输入向量

如下表1-1所示，对句长为N句子进行实体识别时，首先利用大小为M的滑动窗口依次构造输入向量，将窗口内所有词向量的连接作为当前词的向量。如当窗口M取3时，对于词w₁而言，选用<None>,w₁,w₂对应的向量首尾相接作为w₁的输入向量。其中<None>是为填补首位位置窗口空白设计的补位符，对应的向量为0向量；而每个单词的向量则通过word2vec工具所提供的Skip-gram语言模型在大规模未标记语料上训练得到。

表1-1

(二)构建基于DBN全局优化的NER框架

NER可以看作是序列标注，可以描述为：对于给定观测序列o_1:T(即一句话，T为句子长度)，对其赋予特定的标记序列l_1:T，采用经典的BIO标注集，即l_t∈{B,I,O}，t表示序列中第t个位置。经第一步操作后，每一个单词的输入向量按照顺序送入基于DBN全局优化的NER框架。如图1所示是一个n层的模型，该框架分为预训练(pre-training)和基于全局优化的微调(fine tuning)两个阶段：

预训练阶段，每一层按照高斯-伯努利RBM(v节点取值为实数)的自由能公式：

条件概率为：

RBM的训练目标最大化v的边缘概率的期望，即在训练过程当中w权重的更新Δw_ij＝<v_ih_j>_data-<v_ih_j>_model,即训练数据的观察期望减去模型分布的期望。训练数据的观察期望减去模型分布的期望可以由Gibbs采样获得。

全局优化的微调阶段，其中v为输入层，前n层各参数由预训练阶段获得；h代表RBM的隐层，b_i和a_i分别是b和a的第i维；为了便于公式表达，可以将v记作h⁰。为了实现全局范围的优化，引入了一个转移特征，相应的全局最优的条件概率为：

其中：是对应需要进行训练的系数，训练过程见公式(9-4)所示；表示第1到T个单词的第n个隐层的相加；

表1-2系统流程

其中γ_ij是对应的需要进行训练的系数。可以看到，要计算的条件概率p(l_1：T|v_1：T)是在整个句子的范围内进行全局优化的，而不是局部优化后再做出调整。神经网络的训练，即后向传播算法，可分成三个部分：λ的学习，γ的学习，权重w的学习。偏导公式分别如下：

其中，每一层的权重w可以通过链法则进行逐级求偏导，以上只给出对第n层w求偏导的公式。

经过预训练和全局最优的微调之后，对于给定的句子便可进行序列标注，进而得到识别出的生物医学命名实体。如图1所示的基于DBN的全局优化的生物医学命名实体识别框架图。

(三)PPI特征提取

其中，抽取了四种常见的PPI特征：

1、蛋白质特征(P)：一个PPI实例中涉及到的两个蛋白质名；

2、上下文特征(C)：蛋白质周围的词，在window中不包含蛋白质本身的词()被视为context特征；

3、中间词特征(B)：在蛋白质之间的词；

4、句子特征(S)：整个句子。

表2-3特征提取

(四)向量组合

由于上述特征的长度不固定，而算法的输入向量是大小固定的，所以需要将原始特征变成大小固定的向量。采取向量组合的方法完成这一功能，具体如下：

Max为取n个向量每个维度的最大值；min为取n个向量每个维度的最小值；

mean为n个向量相加后除以n；sum为n个向量相加。

表3-4向量组合

(五)CNN与L2-SVM相结合的蛋白质关系抽取

表4-5蛋白质关系抽取

神经网络与SVM的结合方式如图2所示，顶层不再是softmax，而是L2-SVM。将SVM最大间隔的思想与深度神经网络结合起来，在保证特征优化的同时拥有更强的分类能力。SVM带约束的目标优化函数为：

其中ε_n是松弛变量，q即target，即实例x的标记，C是惩罚因子。通过引入拉格朗日乘子，可以将上述目标优化函数表示为不带约束的目标优化函数，即L2-SVM的损失函数，记作：

对第n层hⁿ求偏导公式如下：

在此基础上通过链法则便可获得每一层参数优化的梯度，便构建出了使用深度学习和线性SVM结合的用于蛋白质关系抽取的框架，如图2所示的深度线性SVM，顶层采用的是L2-SVM图。

本发明构建了一套基于深度学习的同时完成生物医学命名实体识别和蛋白质关系抽取的在线方法，为研究者提供实时查询服务。蛋白质交互关系抽取是对生物医学文献进行潜在语义的预测，其目的是判断两个蛋白质之间是否存在关系。作为生物医学文本挖掘的重要分支之一，蛋白质交互关系抽取技术具有很高的应用价值，对蛋白质知识网络的建立、蛋白质关系的预测、本体的构建等任务具有重要意义。本发明在传统方法的基础上提升了特征的表达能力和泛化能力，能够帮助生物医学领域研究者对文本进行自动分析，并提供对已知生物医学命名实体和蛋白质关系检索的功能，帮助他们对蛋白质关系进行研究和分析。

附图说明

图1基于DBN的全局优化的生物医学命名实体识别框架图。

图2深度线性SVM，顶层采用的是L2-SVM示意图。

图3蛋白质交互关系显示结果图。

具体实施方式

本发明的系统能够对给定文本进行自动的命名实体识别和蛋白质关系抽取，极大方便了研究者从大量的文献中寻找关于蛋白质的交互关系。系统采用B/S(Browser/Server，浏览器/服务器模式，主要采用JSP、HTML、JS等技术实现)结构设计，分为视图层，逻辑层和数据层三部分。

表2系统结构

1、用户输入待解析文本

如表1所示，文本输入支持键盘输入和上传本地文件两种方式，由视图层接受用户输入的待检索文本，提交给逻辑层，并存入数据层。假设用户待解析的文本为“We findthat hTAFII32is the human homologue of Drosophila TAFII40.”，用户则可以选择1、通过页面文本框直接输入上述文本或者2、将上述文本保存为txt、doc等格式，通过文件的形式上传。前者适合短文本或者测试使用，后者则适合大文本处理。

2、系统对待解析文本进行解析

该功能的实现需要系统的逻辑层和数据库层的协调工作，具体如下：

(1)逻辑层对待解析文本进行断句、分词等预处理后，将上述文本分解为一个含有12个token的句子(含标点)；如前文所述，利用滑动窗口将其转换为12个向量，并依次输入基于DBN全局优化的NER框架，逐层计算后经过全局条件概率得到最优的标记序列“O OO BO OOOO B I O”，即识别出生物医学命名实体“hTAFII32”和“Drosophila TAFII40”。在解析时不需要进行训练，而是用训练好的参数直接得到结果。

(2)步骤(1)完成了蛋白质识别的工作，接下来进行蛋白质关系的提取。同样以“Wefind that hTAFII32is the human homologue of Drosophila TAFII40.”为例，首先在(1)的基础上构建PPI实例，即目标为，利用机器学习针对上述待解析文本来判断“hTAFII32”和“Drosophila TAFII40”是否暗含着PPI。然后系统提取句子特征(We findthat hTAFII32is the human homologue of Drosophila TAFII40.)、前后词特征(thatisof.)、中间词特征(is the human homologue of)、蛋白质特征(hTAFII32Drosophila TAFII40)，如中间词特征为b₁，b₂，b₃；根据由word2vec工具训练得到词向量将这些特征转换为向量，如b₁，b₂，b₃分别对应向量[0,0,1]，[1,0,1]，[1,1,0]；经过四种特征融合方法，得max(b₁,b₂,b₃)为[1,1,1]，min(b₁,b₂,b₃)为[0,0,0]，mean(b₁,b₂,b₃)为[1/3,1/3,2/3]，sum(b₁,b₂,b₃)为[1,1,2]，中间词特征融合后结果即为[1,1,1,0,0,0,1/3,1/3,2/3,1,1,2]，其他特征以此类推，由此得到输入向量；使用深层神经网络与L2-SVM结合的算法对该实例进行分类，最终得到蛋白质关系抽取的结果，即“hTAFII32”和“Drosophila TAFII40”是一对具有交互关系的蛋白质。

(3)将(1)(2)两步实体识别和关系抽取的结果交由数据层进行存储，同时由视图层将可视化结果反馈给用户。

3、用户对蛋白质进行检索

当系统完成了对输入文本的命名实体识别与蛋白质关系抽取后，系统将蛋白质关系对以交互关系网络的形式展示。用户如果想对特定蛋白质进行检索，如用户想知道蛋白质“glutelin”与其他蛋白质的交互关系，在检索栏输入“glutelin”后将得到如图3所示的以其为中心的蛋白质网络，网络中的每个点代表一个蛋白质，如果两点之间有连线，说明所代表的两个蛋白质具有交互关系。系统允许用户将任何一个蛋白质作为网络的中心，鼠标移动点击某个蛋白质，网络就聚焦到被点击的蛋白质上，并显示数据库中该蛋白质的信息。如图3所示的蛋白质交互关系显示结果图。

4、用户对抽取结果的人工校正

用户提交了数据以后，如果发现系统返回的处理结果有明显的错误，系统允许用户对结果进行修正，并将修正的结果存储到数据库中。例如用户提交的数据中包含这样一个句子“alpha-catenin inhibits beta-catenin signaling by preventing formationof a beta-catenin”，该句子中alpha-catenin是一个蛋白质名，beta-catenin是另外一个蛋白质名，不难发现，二者之间是具有相互关系的。如果系统没能自动地识别出二者的关系，用户要先反馈给系统处理结果有误(只需选中单选框中的“不正确”即可)，并手动的在编辑框中说明这种关系，例如可以在“未识别交互关系编辑框”中输入“alpha-catenin与beta-catenin具有交互关系”，最终将修正结果提交给系统。

Claims

1.一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法，其特征包括如下步骤：

(一)构建基于滑动窗口的NER输入向量

如下表1-1所示，对句长为N句子进行实体识别时，首先利用大小为M的滑动窗口依次构造输入向量，将窗口内所有词向量的连接作为当前词的向量；当窗口M取3时，对于词w₁而言，选用<None>,w₁,w₂对应的向量首尾相接作为w₁的输入向量；其中<None>是为填补首位位置窗口空白设计的补位符，对应的向量为0向量；而每个单词的向量则通过word2vec工具所提供的Skip-gram语言模型在大规模未标记语料上训练得到；

表1-1

(二)构建基于DBN全局优化的NER框架

NER看作是序列标注，描述为：对于给定观测序列o_1:T，对其赋予特定的标记序列l_1:T，采用经典的BIO标注集，即l_t∈{B,I,O}，t表示序列中第t个位置；经第一步操作后，每一个单词的输入向量按照顺序送入基于DBN全局优化的NER框架；一个n层的模型，该框架分为预训练和基于全局优化的微调两个阶段：

预训练阶段，每一层按照高斯-伯努利RBM的自由能公式，v节点取值为实数；

E (v, h; θ) = - Σ_{i = 1}^{| v |} Σ_{j = 1}^{| h |} w_{i j} v_{i} h_{j} + \frac{1}{2} Σ_{i = 1}^{| v |} {(v_{i} - b_{i})}^{2} - Σ_{j = 1}^{| h |} a_{j} h_{j} - - - (9 - 0)

条件概率为：

p (v_{i} | h; θ) = N (Σ_{j = 1}^{| h |} w_{i j} h_{j} + b_{i}, 1) - - - (9 - 2)

RBM的训练目标最大化v的边缘概率的期望，即在训练过程当中w权重的更新Δw_ij＝<v_ih_j>_data-<v_ih_j>_model,即训练数据的观察期望减去模型分布的期望；训练数据的观察期望减去模型分布的期望由Gibbs采样获得；

全局优化的微调阶段，其中v为输入层，前n层各参数由预训练阶段获得；h代表RBM的隐层，b_i和a_i分别是b和a的第i维；将v记作h⁰；为了实现全局范围的优化，引入了一个转移特征，相应的全局最优的条件概率为：

表1-2系统流程

其中γ_ij是对应的需要进行训练的系数；要计算的条件概率p(l_1∶T|v_1∶T)是在整个句子的范围内进行全局优化的，而不是局部优化后再做出调整；神经网络的训练，即后向传播算法，分成三个部分：λ的学习，γ的学习，权重w的学习；偏导公式分别如下：

\frac{\partial \log p (l_{1 : T}^{m} | v_{1 : T}^{m})}{\partial λ_{k d}} = Σ_{t = 1}^{T} (δ (l_{t}^{m} = k) - p (l_{t}^{m} = k | v_{1 : T}^{m})) h_{t d}^{n, m} - - - (9 - 4)

\frac{\partial \log p (l_{1 : T}^{m} | v_{1 : T}^{m})}{\partial γ_{i j}} = Σ_{t = 1}^{T} (δ (l_{t - 1}^{m} = i, l_{t}^{m} = j) - p (l_{t - 1}^{m} = i, l_{t}^{m} = j | v_{1 : T}^{m})) - - - (9 - 5)

\frac{\partial \log p (l_{1 : T}^{m} | v_{1 : T}^{m})}{\partial w_{i j}^{n}} = Σ_{t = 1}^{T} (λ_{l_{t} d} - Σ_{k = 1}^{K} p (l_{t}^{n} = k | v_{1 : T}^{n}) λ_{k d}) \cdot h_{t d}^{n, m} (1 - h_{t d}^{n, m}) h_{t i}^{n - 1, m} - - - (9 - 6)

其中，每一层的权重w；通过链法则进行逐级求偏导，以上只给出对第n层w求偏导的公式；

(三)PPI特征提取

其中，抽取了四种常见的PPI特征：

1、蛋白质特征(P)：一个PPI实例中涉及到的两个蛋白质名；

2、上下文特征(C)：蛋白质周围的词，在window中不包含蛋白质本身的词被视为context特征；

3、中间词特征(B)：在蛋白质之间的词；

4、句子特征(S)：整个句子；

表2-3特征提取

(四)向量组合

由于上述特征的长度不固定，而算法的输入向量是大小固定的，所以需要将原始特征变成大小固定的向量；采取向量组合的方法完成这一功能，具体如下：

max：取n个向量每个维度的最大值；

min：取n个向量每个维度的最小值；

mean：n个向量相加后除以n；

sum：n个向量相加；

表3-4向量组合

(五)CNN与L2-SVM相结合的蛋白质关系抽取

表4-5蛋白质关系抽取

神经网络与SVM的结合方式，顶层不再是softmax，而是L2-SVM；将SVM最大间隔的思想与深度神经网络结合起来，在保证特征优化的同时拥有更强的分类能力；SVM带约束的目标优化函数为：

\min_{w, ϵ_{n}} \frac{1}{2} w^{q} w + {CΣ}_{n = 1}^{N} ϵ_{n}, (s . q . w^{q} x_{n} q_{n} &GreaterEqual; 1 - ϵ_{n}, &ForAll; {nϵ}_{n} &GreaterEqual; 0) - - - (9 - 7)

其中ε_n是松弛变量，q即target，即实例x的标记，C是惩罚因子；通过引入拉格朗日乘子，将上述目标优化函数表示为不带约束的目标优化函数，即L2-SVM的损失函数，记作：

\min_{w} \frac{1}{2} w^{q} w + {CΣ}_{n = 1}^{N} m a x {(1 - w^{q} x_{n} q_{n}, 0)}^{2} - - - (9 - 8)

对第n层hⁿ求偏导公式如下：

\frac{\partial l (w)}{\partial h_{n}} = w - 2 {Cq}_{n} w (m a x (1 - w^{q} h_{n} q_{n}, 0)) - - - (9 - 9) .