CN102339362B

CN102339362B - 一种抽取蛋白质相互作用关系的方法

Info

Publication number: CN102339362B
Application number: CN201110350614.9A
Authority: CN
Inventors: 钱龙华; 李寿山; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2011-11-08
Filing date: 2011-11-08
Publication date: 2015-03-04
Anticipated expiration: 2031-11-08
Also published as: CN102339362A

Abstract

本发明公开了一种抽取蛋白质相互作用关系的方法，包括：对自然语句进行句法分析，确定该自然语句的完全句法树，在该完全句法树中提取两个蛋白质名称之间的最短成分路径；对自然语句进行依存关系分析，确定该自然语句的依存关系树，在该依存关系树中提取两个蛋白质名称之间的最短依存路径；根据最短依存路径扩展最短成分路径，确定扩展后的成分路径为该自然语句的关系树；利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法，关系树中包含了丰富的结构化信息，具有较好的通用性，其精度和召回率得到了提高，总体性能较好，同时减小了系统开销。

Description

一种抽取蛋白质相互作用关系的方法

技术领域

本发明属于文本处理技术领域，尤其涉及一种抽取蛋白质相互作用关系的方法。

背景技术

蛋白质作为生命活动最主要的载体和功能执行者，其复杂多样的结构功能、相互作用和动态变化能在分子、细胞和生物体等多个层次上全面揭示生命现象。其中蛋白质相互作用关系(PPI，Protein-Protein Interaction)是指生命活动过程中蛋白质之间存在的相互关系，如绑定、催化、交互等。对蛋白质相互作用关系的研究有助于揭示生命过程的许多本质问题。这些关系对生物知识网络的建立，生物体关系预测，新药研制等均具有重大的意义。随着人类基因组测序的完成，蛋白质的功能、作用机制成为新的研究热点。在生物医学领域已有大量的，并且正在不断涌现的，有关蛋白质之间相互作用关系的研究文献。如何从生物医学文献中挖掘、整理出蛋白质相互作用关系是当今生物信息学的热点任务之一。

蛋白质相互作用关系抽取就是借助于计算机这一手段从生物医学文献中抽取出生物实体-蛋白质之间的相互作用关系，并为蛋白质关系网络的构建提供良好的基础。蛋白质关系抽取的方法可分为基于特征向量的方法和基于核函数的方法。在基于核函数的蛋白质相互作用关系抽取方法中，按所使用的语言信息不同，可分为基于依存关系的方法和基于句法树（Syntactic ParseTree）的方法，并且前者可将蛋白质相互作用关系表示成最短依存路径或依存图。表征蛋白质相互作用关系抽取方法性能的参数主要包括准确率、召回率和F1性能。

上述方法均具有缺陷：最短依存路径提供了表达蛋白质关系实例的最简洁的表示方法，但是由于它由词汇及其依存关系组成，表达形式过于具体，通用性不强，因此基于最短依存路径的方法虽具有较高精度，但其召回率较低；基于依存图的方法则将与两个蛋白质相关的所有依存关系及其词汇构成一个有向图，通过计算图之间的相似度进行蛋白质相互作用关系抽取，但是由于在计算依存图之间的相似度时，只要它们有相同的子图就能实现匹配，因而依存图中包含一定的噪音，导致精度较低，并且计算依存图之间相似度所需的系统开销较大；基于句法树的蛋白质相互作用关系抽取方法则将蛋白质相互作用关系表示成句法树，虽然句法树中包含着丰富的结构化信息，但同时也含有太多的噪音，导致精度较低。因此，上述三种抽取蛋白质相互作用关系的方法，因其召回率或精度较低，导致其总体性能较差。

发明内容

有鉴于此，本发明的目的在于提供一种蛋白质相互作用关系抽取方法，以解决现有技术中总体性能较差的问题，同时提高通用度，并降低系统开销。

为实现上述目的，本发明提供如下技术方案：

一种抽取蛋白质相互作用关系的方法，用于在包含两个蛋白质名称的自然语句中抽取蛋白质相互作用关系，所述方法包括：

对所述自然语句进行句法分析，确定所述自然语句的完全句法树，在所述完全句法树中提取所述两个蛋白质名称之间的最短成分路径，所述完全句法树为所述自然语句的多个句法树中后验概率最大的句法树；

对所述自然语句进行依存关系分析，确定所述自然语句的依存关系树，在所述依存关系树中提取所述两个蛋白质名称之间的最短依存路径；

根据所述最短依存路径扩展所述最短成分路径，确定扩展后的成分路径为所述自然语句的关系树；

利用预存的分类模型对所述关系树进行二元分类，当不小于0时，确定所述关系树为蛋白质相互作用关系，其中，t_j为分类模型中的支撑向量，a_tj为分类模型中的支撑向量的权重，为分类模型中的支撑向量t_j的实例，为分类模型中的支撑向量t_j的标号，z为所述自然语句的关系树，为卷积树核函数。

优选的，在上述方法中，根据所述最短依存路径扩展所述最短成分路径的过程，包括：

确定所述最短依存路径中位于两个所述蛋白质名称所在的词汇结点之间的词汇结点为待处理结点组；

将所述待处理结点组中的一个词汇结点作为当前词汇结点，并将所述当前词汇结点从待处理结点组中删除；

确定所述当前词汇结点与其下层词汇结点之间的依存类型；

当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型时，确定所述当前词汇结点处的结点词汇，在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径，所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点；

判断所述待处理结点组是否为空；

当所述待处理结点组不为空时，将所述待处理结点组中的一个词汇结点作为当前词汇结点，并将所述当前词汇结点从所述待处理结点组中删除，执行确定所述当前词汇结点与其下层词汇结点之间的依存类型的步骤；

当所述待处理结点组为空时，将所述扩充路径与所述最短成分路径合并，对所述最短成分路径进行扩充。

优选的，在上述方法中，确定所述当前词汇结点与其下层词汇结点之间的依存类型后，还包括：

当所述当前词汇结点与其下层词汇结点之间的依存类型为修饰类型时，确定所述当前词汇结点处的结点词汇，在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径；

判断所述修饰类型是否为介词类型；若是，则从所述依存类型中提取出介词，确定所述介词为结点词汇，在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径，执行判断所述待处理结点组是否为空的步骤；若否，则执行判断所述待处理结点组是否为空的步骤；

所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点。

当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰类型之外的类型时，执行判断所述待处理结点组是否为空的步骤。

优选的，在上述方法中，在对所述最短成分路径进行扩充之后，还包括：

判断扩充后的成分路径中是否包含父结点和子结点均为名词短语或动词短语的边，若包含，则将所述边中的子结点删除，将位于所述子结点下层的结点上移至所述子结点所在的结点，执行利用预存的分类模型对所述关系树进行二元分类的步骤，若不包含，执行利用预存的分类模型对所述关系树进行二元分类的步骤。

优选的，在上述方法中，确定所述当前词汇结点与其下层词汇结点之间的依存类型的过程中，若所述当前词汇结点为所述最短依存路径的根节点，则确定所述根节点与位于其下层的任意一个词汇结点之间的依存类型。

优选的，在上述方法中，还包括提取分类模型的步骤。

由此可见，本发明的有益效果为：本发明公开的抽取蛋白质相互作用关系的方法中，从两个蛋白质之间的最短成分路径出发，使用词汇之间的依存关系来决定哪些词汇及其相关成分要加入到关系树中，最终得到一棵准确且简洁的关系树，然后再利用基于卷积树核函数的机器学习方法来抽取蛋白质之间的相互作用关系。由于这样的关系树包含了丰富的结构化信息，通用性较好，因而同基于依存路径的抽取方法相比，提高了召回率；同时本发明的关系树剔除了完全句法树中的噪音，其准确性得到了提高，因而同基于依存图的方法相比，提高了精度，并且计算树之间相似度的复杂度明显小于计算图之间相似度的复杂度，由此减小了系统开销；另外，同其它基于句法树的方法相比，通过词汇依存关系加入的信息都是必要和有用的，因而精度和召回率都得到了提高，总体性能也较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种抽取蛋白质相互作用关系的方法的流程图；

图2为本发明中在完全句法树中提取两个蛋白质名称之间的最短成分路径的方法的流程图；

图3为本发明中确定自然语句依存关系树的方法的流程图；

图4为本发明中在依存关系树中提取两个蛋白质名称之间的最短依存路径的方法的流程图；

图5为本发明中一种根据最短依存路径扩充最短成分路径的方法流程图；

图6为本发明中另一种根据最短依存路径扩充最短成分路径的方法流程图；

图7为本发明中一个自然语句的完全句法树；

图8为从图7所示完全句法树中提取出的两个蛋白质名称之间的最短成分路径；

图9为本发明中一个自然语句的依存关系树；

图10为从图9所示依存关系树中提取出的两个蛋白质名称之间的最短依存路径；

图11为根据图10所示最短依存路径扩充后的成分路径；

图12为本发明中一个自然语句的关系树。

具体实施方式

为了描述清楚起见，对下文中出现的英文缩写和术语进行说明。

PPI：Protein-Protein Interaction，蛋白质相互作用关系，是指在生命活动过程中蛋白质之间存在的某种相互作用关系，如绑定、催化、交互等；

句法树：Syntactic Parse Tree，是指自然语言句子的不同成分之间（如词汇、词性、短语和子句等）所存在的层次结构关系；

关系树：Relation Tree，在句法树中能表达蛋白质关系实例的结构化信息的部分；

依存树：Dependency Tree，按自然语言句子中词汇之间所存在的语法关系而构成的树，如名词和动词之间存在的主谓关系；

准确率：Precision，是指系统识别出的蛋白质相互作用关系实例中正确的关系实例所占的百分比；

召回率：Recall，是指系统识别出的正确的蛋白质相互作用关系实例占所有关系实例的百分比；

F1性能：F1-measure，是指准确率和召回率的平均值，计算公式为F1=2*P*R/(P+R)；

PCFG：Probabilistic Context-Free Grammar，概率上下文无关文法；

MLE：Maximum Likely Estimation，最大似然估计。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种抽取蛋白质相互作用关系的方法，利用该方法在包含两个蛋白质名称的自然语句中抽取蛋白质相互作用关系的过程中，从完全句法树中抽取出能准确和简洁表达蛋白质相互作用关系实例的句法树，该句法树称为关系树，可以提高通用性、召回率和精度，从而提高整体性能，同时，与基于依存图的抽取方法相比，可以降低系统开销。

其原理如下：从两个蛋白质名称之间的最短成分路径出发，使用词汇之间的依存关系来决定哪些词汇及其相关成分要加入到该最短成分路径中，最终得到一棵准确且简洁的关系树，然后再利用基于树核函数的机器学习方法来抽取蛋白质之间的相互作用关系。

下面结合具体实施例对本发明公开的方法进行说明。

参见图1，图1为本发明公开的一种抽取蛋白质相互作用关系的方法的流程图。包括：

步骤S1：对自然语句进行句法分析，确定该自然语句的完全句法树。

在生物医学文献中提取一个自然语句，该自然语句中包含两个蛋白质名称，利用一种句法分析方法对该自然语句进行句法分析，得到该自然语句的完全句法树。

本发明中采用概率上下文无关文法（Probabilistic Context-Free Grammar,PCFG）的句法分析方法来获得自然语句的完全句法树。其基本思想是，一棵句法树的概率是由其包含的产生式概率决定的，产生式的概率与其出现的上下文无关，而且可以从训练语料库中采用最大似然估计(Maximum LikelyEstimation,MLE)的方法估算出来。所谓产生式，是指在句法树中由父结点推导出子结点的规则，如图6中：产生式S→NP VP表示结点S（句子）可推导为NP（名词短语）和VP（动词短语）；产生式NP→NP PP表示结点NP可推导为NP和PP（介词短语）。

每个自然语句可以有不同的句法树，每个句法树的概率都不相同，因此可以选取后验概率最大的句法树作为正确结果，即：

T (s) = \underset{π}{\arg \max} \frac{p (π, s)}{p (s)} = \underset{π}{\arg \max} p (π, s)

其中s为一个由单词构成的自然语句，π为该自然语句的一个可能的句法树，p(s)表示自然语句s的概率，p(π,s)为自然语句s和句法树π的联合概率。联合概率值p(π,s)可由句法树π中所有使用到的产生式r的概率的乘积的方法来得到，即：

p (π, s) = \underset{r &Element; π}{Π} p (r)

其中r为句法树π的某一产生式，所有可能的产生式由PCFG的文法G给出。

确定一个文法G和包含两个蛋白质名称的自然语句s，采用一定的搜索策略（如自顶向下或自底向上）产生该自然语句的所有可能的句法树，之后分别计算各个句法树的后验概率，最后从中选择后验概率最大的句法树作为该自然语句的完全句法树。

图7就是自然语句“Association between cdc25A and cyclin B1/cdc2wasdetected in the HeLa cells.”所对应的完全句法树。

步骤S2：在该完全句法树中提取两个蛋白质名称之间的最短成分路径。

本发明中利用逐层匹配的方法来实现在完全句法树中提取出两个蛋白质名称之间的最短成分路径，其流程如图2所示，包括：

步骤S21：在完全句法树中确定两个蛋白质名称所在的结点。

实施中，可以通过遍历完全句法树中所有结点的方法来确定两个蛋白质名称所在的结点。通常，完全句法树中的叶子结点就是自然语句中的词汇，因此可以利用蛋白质的名称在完全句法树的各个叶子结点中进行匹配，以此确定两个蛋白质名称所在的结点。

步骤S22：寻找两个蛋白质名称所在结点的最低公共结点。

由于在完全句法树中，每个子结点仅具有一个父结点，因此可以分别列出两个蛋白质名称所在结点各自的上层结点列表，之后再从低层逐层进行匹配，就可以找到两个蛋白质名称所在结点的最低公共结点。

步骤S23：在完全句法树中确定两个蛋白质名称所在结点与最低公共结点之间的路径，删除该路径之外的其他路径。

确定两个蛋白质名称所在结点的最低公共结点之后，仅在完全句法树中保留两个蛋白质名称所在结点与该最低公共结点之间的路径，将完全句法树中的其他部分删除，即得到两个蛋白质名称之间的最短成分路径。

图8从图7所示完全句法树中提取出的两个蛋白质名称之间的最短成分路径。

步骤S3：对该自然语句进行依存关系分析，确定该自然语句的依存关系树。

本发明采用确定性模型来构造自然语句的依存关系树，即词汇间的依存关系使用基于状态转换的贪婪搜索策略来逐步决定，构造过程一般伴随着状态的转换，其流程如图3所示，包括：

步骤S31：利用自然语句构造初始词汇序列；

步骤S32：将初始词汇序列的第一个词汇作为左焦点词、将第二个词汇作为右焦点词；

步骤S33：判断当前的左焦点词和右焦点词之间的依存关系，若当前的左焦点词和右焦点词之间没有依存关系，则执行步骤S341，若当前的右焦点词依存于左焦点词，则执行步骤S342，若当前的左焦点词依存于右焦点词，则执行步骤S343；

步骤S341：不建立两个焦点词之间的依存关系，将当前右焦点词作为新的左焦点词，将紧邻当前右焦点词的下一个词汇作为新的右焦点词，执行步骤S35;

步骤S342：建立当前的右焦点词依存于左焦点词的依存关系，将紧邻当前右焦点词的下个词汇作为新的右焦点词，执行步骤S35;

步骤S343：建立当前的左焦点词依存于右焦点词的依存关系，将紧邻当前左焦点词的前一个词汇作为新的左焦点词，执行步骤S35；

步骤S35：判断初始词汇序列中的多个词汇是否均已建立依存关系，若否，则执行步骤S33，若是，则结束。

实施中，可以按照各个词汇在自然语句中出现的先后顺序来构造初始词汇序列。

下面仍以建立自然语句“Association between cdc25A and cyclin B1/cdc2was detected in the HeLa cells.”的依存关系树为例进行说明。为了表述简单起见，步骤S341中的操作执行以SHIFT代替，步骤S342中的操作执行以LEFT代替，步骤S343中的操作执行以RIGHT代替。

首先构建该自然语句的初始词汇序列：“Association”、“between”、“cdc25A”、“and”、“cyclin”、“B1”、“/”、“cdc2”、“was”、“detected”、“in”、“the”、“HeLa”、“cells”。

将该初始词汇序列中的第一个词汇焦点词“Association”设置为左焦点词，将“between”设置为右焦点词，利用分类器判断“Association”和“between”之间不存在依存关系，执行SHIFT动作；

在执行SHIFT动作后，当前的左焦点词为“between”、右焦点词为“cdc25A”，利用分类器判断出“cdc25A”依存于“between”，执行LEFT动作；

……

在执行LEFT动作后，当前的左焦点词为“between”、右焦点词为“cyclin”，利用分类器判断出“between”和“cyclin”之间不存在依存关系，执行SHIFT动作；

在执行SHIFT动作后，左焦点词为“cyclin”、右焦点词为“B1”，利用分类器判断出“cyclin”和“B1”之间不存在依存关系，继续执行SHIFT动作；

……

直到焦点词变为“/”和“cdc2”，再执行RIGHT动作，焦点词变为“B1”和“cdc2”，依次类推，直到初始词汇序列中的每个词汇均建立依存关系，形成一棵完整的依存关系树。

图9就是自然语句“Association between cdc25A and cyclin B1/cdc2wasdetected in the HeLa cells.”所对应的依存关系树。

依存关系树中的每条边表示一个依存关系，箭头所指结点为受支配者，箭尾所指结点为支配者，在依存关系树的各条边上还标示有受支配者和支配者之间的依存类型代码。

各个依存类型代码和依存类型名称之间的对应关系如表1所示。

表1

步骤S4：在依存关系树中抽取两个蛋白质名称之间的最短依存路径。

本发明利用逐层匹配的方法从依存关系树中提取出最短依存路径，其流程如图4所示，包括：

步骤S41：在依存关系树中确定两个蛋白质名称所在的词汇结点。

实施中，可以通过遍历依存关系树中所有词汇结点的方法来确定两个蛋白质名称所在的词汇结点。

步骤S42：寻找两个蛋白质名称所在词汇结点的最低公共词汇结点。

由于在依存关系树中，每个子结点仅具有一个父结点，因此可以分别列出两个蛋白质名称所在词汇结点各自的上层词汇结点列表，之后再从低层逐层进行匹配，就可以找到两个蛋白质名称所在词汇结点的最低公共词汇结点。

步骤S43：在依存关系树中确定两个蛋白质名称所在词汇结点与最低公共词汇结点之间的路径，删除该路径之外的其他路径。

确定两个蛋白质名称所在词汇结点的最低公共词汇结点之后，仅在依存关系树中保留两个蛋白质名称所在词汇结点与该最低公共词汇结点之间的路径，将依存关系树中的其他部分删除，即得到两个蛋白质名称之间的最短依存路径。需要指出的是，依存关系是有方向和类型的，如主语和谓语之间存在的依存关系类型——主语类型（nsubj），其方向是固定的，因此最后产生的最短依存路径也必须保留依存关系的类型和方向。

图10即为从图9所示依存关系树中提取的两个蛋白质名称之间的最短依存路径。

步骤S5：根据所述最短依存路径扩展所述最短成分路径，确定扩展后的成分路径为所述自然语句的关系树。

对蛋白质相互作用关系的抽取而言，最短依存路径和最短成分路径都是关键信息。本发明中，从最短成分路径出发，利用最短依存路径的指导来扩充最短成分路径，将完全句法树中的部分有用信息添加入最短成分路径中，从而使最后产生的关系树包含较多的关键信息和较少的噪音。其具体实现过程如图5所示，包括：

步骤S51：确定最短依存路径中位于两个蛋白质名称所在的词汇结点之间的词汇结点为待处理结点组。

将位于两个蛋白质名称所在的词汇结点之间的一个或多个词汇结点作为待处理结点，各个待处理结点可以看作一个待处理结点组。

步骤S52：将待处理结点组中的一个词汇结点作为当前词汇结点，并将当前词汇结点从待处理结点组中删除。

步骤S53：确定当前词汇结点与其下层词汇结点之间的依存类型，若当前词汇结点与其下层词汇结点之间的依存类型为论元类型，则执行步骤S541，若当前词汇结点与其下层词汇结点之间的依存类型为修饰类型，则执行步骤S5421，若当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰类型之外的类型，则执行步骤S55。

相邻词汇接点之间的依存类型如表1所示，主要包括论元类型Argument、修饰类型Modifier、并列类型Conjuction和其它类型Others。其中，论元类型又包括主语（主动态）nsubj、主语（被动态）nsubjpass、直接宾语dobj和其它类型论元arg-others；修饰类型又包括名词修饰、由介词xx引导的宾语prep_xx，其它类型修饰mod-other；其它类型又包括助词（被动态）auxpass和定冠词修饰det等。

最短依存路径中的相邻两个词汇结点之间均设置有标示两个词汇结点之间依存关系的依存类型代码，因此可以根据依存类型代码直接确定当前词汇结点与其下层词汇结点之间的依存关系。

步骤S541：确定当前词汇结点处的结点词汇，在完全句法树中获取该结点词汇所在结点连接到最短成分路径的扩充路径，执行步骤S55。

如果当前词汇结点与其下层词汇结点之间的依存关系为论元类型，则在最短依存路径中确定当前词汇结点处的结点词汇，并在完全句法树中确定该结点词汇所在的结点，之后确定该结点连接至最短成分路径的路径，将该路径记为扩充路径。该扩充路径的一端为结点词汇所在的结点，另一端为最短成分路径中的一个结点。

步骤S5421：确定当前词汇结点处的结点词汇，在完全句法树中获取该结点词汇所在结点连接到最短成分路径的扩充路径，执行步骤S5422。

步骤S5422：判断该修饰类型是否为介词类型，若是，则执行步骤S5423，若否，则执行步骤S55。

步骤S5423：从依存类型中提取出介词，确定该介词为结点词汇，在完全句法树中获取结点词汇连接到最短成分路径的扩充路径，执行步骤S55。

如果当前词汇结点与其下层词汇结点之间的依存关系为修饰类型，则在最短依存路径中确定当前词汇结点处的结点词汇，并在完全句法树中确定该结点词汇所在的结点，之后确定该结点连接至最短成分路径的路径，将该路径记为扩充路径。之后，如果该修饰类型是介词类型，则在依存类型中提取出介词，也就是在prep_xx中提出介词xx，实施中xx可以为between,on,with,in等，将该介词作为结点词汇，并在完全句法树中确定该结点词汇所在的结点，之后确定该结点连接至最短成分路径的路径，将该路径记为扩充路径。

步骤S55：判断待处理结点组是否为空，若不为空，则执行步骤S561，若为空，则执行步骤S562。

步骤S561：将待处理结点组中的一个词汇结点作为当前词汇结点，并将当前词汇结点从待处理结点组中删除，执行步骤S53。

步骤S562：将扩充路径与最短成分路径合并，对最短成分路径进行扩充。

当最短依存关系中位于两个蛋白质名称所在词汇结点之间的各个词汇结点均进行处理后，要将获得的一个或多个扩展路径与最短成分路径进行合并，完成对最短成分路径的扩充。

需要指出的是，如果当前词汇结点是最短依存路径中的根节点，那么当前词汇结点有两个下层词汇结点，在确定当前词汇结点与其下层词汇结点之间的依存类型的过程中，可以确定该根节点与任意一个下层词汇结点之间的依存类型。

下面以自然语句“Association between cdc25A and cyclin B1/cdc2wasdetected in the HeLa cells.”为例对扩展最短成分路径的过程进行说明。

由图10所示的最短依存路径可以看到，位于蛋白质名称PROT1所在词汇结点与蛋白质名称PROT2所在词汇结点之间的词汇结点为“Association”所在的词汇结点，该词汇结点即为待处理词汇结点。根据“Association”和“PROT1”之间的依存关系类型prep-between可以确定两者之间的依存类型为修饰类型，更具体的说是介词类型。

此时，在完全句法树中确定结点词汇“Association”所在的结点，之后获取“Association”所在的结点连接至最短成分路径的扩充路径“Association-NN-NP-PP-NP”，该扩充路径的一端为“Association”所在的结点、另一端为“NP”所在结点，其中“NP”所在结点为最短成分路径的根结点。

之后，从依存类型“prep_between”中提取出介词“between”，将“between”作为结点词汇，在完全句法树中确定“between”所在的结点，之后获取“between”所在的结点连接至最短成分路径的扩充路径“between-IN-PP-NP”，该扩充路径的一端为“between”所在的结点、另一端为“NP”所在结点，其中“NP”所在结点为最短成分路径的根结点。

位于蛋白质名称PROT1所在词汇结点与蛋白质名称PROT2所在词汇结点之间的词汇结点全部进行了处理，之后，将上述两个扩充路径与最短成分路径进行合并，即得到扩充后的成分路径，如图11所示。

执行步骤S562之后的成分路径，是根据最短依存路径将完全句法树中的有用信息添加入最短成分路径形成的，在该成分路径中包含了除最短成分路径之外的有用信息，而完全句法树中的噪声数据并未添加入该成分路径。

但是，在执行步骤S562之后形成的成分路径中，可能存在一些父结点和子结点均为名词短语NP的边、或者存在一些父结点和子结点均为动词短语VP的边，这些冗余的边会造成存储空间过大且导致蛋白质相互作用关系性能降低。

参见图6，图6为本发明中另一种根据最短依存路径扩充最短成分路径的方法流程图。与图5所示流程的区别在于，在步骤S562之后还包括：

步骤S57：判断扩充后的成分路径中是否包含父结点和子结点均为名词短语或动词短语的边，若包含，执行步骤S58，若不包含，则执行步骤S6。

步骤S58：将该边中的子结点删除，将位于该子结点下层的结点上移至该子结点所在的结点，执行步骤S6。

实施中，可以遍历扩充后的成分路径中的全部结点，判断是否有结点为NP或VP；如果有结点为NP，则进一步判断该结点的父结点或子结点是否为NP，如果该父结点或子结点为NP，则连接这两个结点的边需要进行后续处理；如果有结点为VP，则进一步判断该结点的父结点或子结点是否为VP，如果该父结点或子结点为VP，则连接这两个结点的边需要进行后续处理。

对图11所示扩充后的成分路径进行后续处理后的结果如图12所示，图12为自然语句“Association between cdc25A and cyclin B1/cdc2was detectedin the HeLa cells.”的关系树。

步骤S6:利用预存的分类模型对所述关系树进行二元分类，当不小于0时，确定所述关系树为蛋白质相互作用关系。

需要进一步判断在步骤S5中获取的关系树是否为蛋白质相互作用关系，在获取分类模型后，可以依据下列判别式函数对测试实例（即步骤S5获取的关系树）进行二元分类：

f = Σ_{j = 1}^{s} α_{t_{j}} y_{t_{j}} K (x_{t_{j}}, z)

其中，t_j为分类模型中的支撑向量，a_tj为分类模型中的支撑向量的权重，为分类模型中的支撑向量t_j的实例，为分类模型中的支撑向量t_j的标号，为卷积树核函数，z为测试关系实例，即自然语句的关系树。当f>=0时，测试实例为正例，即蛋白质相互作用关系存在，反之，则为负例。

在本发明上述公开的一种抽取蛋白质相互作用关系的方法中，进一步设置提取分类模型的步骤。提取分类模型的过程具体为：

准备一定数量的训练实例{x_i,y_i}（i=1…N）组成训练语料库，其中x_i为该训练实例的关系树，y_i为该训练实例的标号，该标号为1或-1，其中1表示存在关系，-1表示不存在关系。确定训练实例关系树的过程参见步骤S1至S5的描述。

使用支撑向量机从训练实例中进行学习。支撑向量机是在统计理论基础上发展起来的一种新的通用学习方法，它是结构风险最小化原理的近似实现，因为它同时是最小化经验风险和VC维的界。使用支撑向量机进行学习的过程就是在高维空间中寻找一个超平面，使其最大程度地分割两个类别的数据集。该问题可转换为一个二次规划优化问题，即求下式的最大值解α：

W (α) = Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i = 1}^{n} Σ_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j})

同时满足下列条件：

C≥α_i≥0,

Σ_{i = 1}^{n} α_{i} y_{i} = 0

其中，{x_i,y_i}是训练语料库中的关系实例（即训练实例的关系树）和类别标号对，α_i是每个训练实例的权重，C为松驰变量。通常情况下，大多数实例的权重为0，权重不为0的训练实例称为支撑向量。

在学习过程中，计算两棵关系树的相似度，即计算核函数K(x_i,x_j)。

本发明采用卷积树核函数来计算两个关系树之间的相似度。所谓卷积树核函数(Convolution Tree Kernel,CTK)，即通过计算树之间的相同子树的数目来衡量两棵树之间的结构相似度，其计算公式为：

K_{CTK} (T_{1}, T_{2}) = \underset{n_{1} &Element; N_{1}, n_{2} &Element; N_{2}}{Σ} Δ (n_{1}, n_{2})

其中，N₁和N₂分别为两棵关系树T₁和T₂的结点集合，Δ(n₁,n₂)用来计算以n₁和n₂为根结点的两棵子树之间的相似度，它可以通过下列递归的方法得出：

1)如果n₁和n₂的产生式（采用上下文无关文法）不同，则Δ(n₁,n₂)＝0；否则转2；

2)如果n₁和n₂是词性（POS）标记，则Δ(n₁,n₂)＝λ；否则转3）；

3)递归计算

Δ (n_{1}, n_{2}) = λ Π_{k = 1}^{# ch (n_{1})} (1 + Δ (ch (n_{1}, k), ch (n_{2}, k))

其中#ch(n)是结点n的子结点数目，#ch(n,k)是结点n的第k个子结点，而λ(0<λ<1)则是衰减因子，用来防止子树的相似度过度依赖于子树的大小。

获取分类模型的过程即从训练实例中得到支撑向量及其权值的过程，分类模型可表示成{x_i,y_i,α_i},i=1..S,其中S为学习得到的支撑向量的个数，α_i为该支撑向量的权值。

本发明公开的抽取蛋白质相互作用关系的方法中，从两个蛋白质之间的最短成分路径出发，使用词汇之间的依存关系来决定哪些词汇及其相关成分要加入到关系树中，最终得到一棵准确且简洁的关系树，然后再利用基于树核函数的机器学习方法来抽取蛋白质之间的相互作用关系。由于这样的关系树包含了丰富的结构化信息，通用性较好，因而同基于依存路径的抽取方法相比，其召回率得到了提高；同时本发明的关系树剔除了完全句法树中的噪音，其准确性得到了提高，因而同基于依存图的方法相比，精度得到了提高，并且计算树之间相似度的复杂度明显小于计算图之间相似度的复杂度，由此减小了系统开销；另外，同其它基于句法树的方法相比，通过词汇依存关系加入的信息都是必要和有用的，因而精度和召回率都得到了提高，总体性能也较好。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种抽取蛋白质相互作用关系的方法，其特征在于，用于在包含两个蛋白质名称的自然语句中抽取蛋白质相互作用关系，所述方法包括：

利用预存的分类模型对所述自然语句的关系树进行二元分类，当不小于0时，确定所述自然语句的关系树为蛋白质相互作用关系，其中，t_j为分类模型中的支撑向量，s为分类模型中支撑向量的总个数，为分类模型中的支撑向量t_j的权重，为分类模型中的支撑向量t_j的实例，为分类模型中的支撑向量t_j的标号，z为所述自然语句的关系树，为卷积树核函数；

其中，根据所述最短依存路径扩展所述最短成分路径的过程，包括：

确定所述当前词汇结点与其下层词汇结点之间的依存类型；

(1)、当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型时，确定所述当前词汇结点处的结点词汇，在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径，所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点；执行判断所述待处理结点组是否为空的步骤；

(2)、当所述当前词汇结点与其下层词汇结点之间的依存类型为修饰类型时，确定所述当前词汇结点处的结点词汇，在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径；判断所述修饰类型是否为介词类型；若是，则从所述依存类型中提取出介词，确定所述介词为结点词汇，在所述完全句法树中获取所述结点词汇所在结点连接到所述最短成分路径的扩充路径，执行判断所述待处理结点组是否为空的步骤；若否，则执行判断所述待处理结点组是否为空的步骤；所述扩充路径的一端为所述结点词汇所在的结点、另一端为所述最短成分路径中的一个结点；

(3)、当所述当前词汇结点与其下层词汇结点之间的依存类型为论元类型和修饰类型之外的类型时，执行判断所述待处理结点组是否为空的步骤；

当所述待处理结点组为空时，将所述扩充路径与所述最短成分路径合并，对所述最短成分路径进行扩充；

判断扩充后的成分路径中是否包含父结点和子结点均为名词短语或动词短语的边，若包含，则将所述边中的子结点删除，将位于所述子结点下层的结点上移至所述子结点所在的结点，执行利用预存的分类模型对所述关系树进行二元分类的步骤，若不包含，执行利用预存的分类模型对所述关系树进行二元分类的步骤；

其中，上述确定所述当前词汇结点与其下层词汇结点之间的依存类型的过程中，若所述当前词汇结点为所述最短依存路径的根节点，则确定所述根节点与位于其下层的任意一个词汇结点之间的依存类型。

2.根据权利要求1所述的方法，其特征在于，还包括提取分类模型的步骤。