CN104537280A

CN104537280A - 基于文本关系相似性的蛋白质交互关系识别方法

Info

Publication number: CN104537280A
Application number: CN201510020404.1A
Authority: CN
Inventors: 牛耘; 王宇伟; 吴红梅; 魏欧
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2015-01-15
Filing date: 2015-01-15
Publication date: 2015-04-22
Anticipated expiration: 2035-01-15
Also published as: CN104537280B

Abstract

本发明公开了一种基于文本关系相似性的蛋白质交互关系识别方法，包括如下步骤：步骤1：获取文本集中的蛋白质对关键词的句子，对所有句子进行集合得到签名档S；每个蛋白质对为(p1,p2)，每个目标蛋白质对都会有签名档与其相对应；步骤2：用特征向量来表示p1和p2之间的关系；步骤3：关系相似性计算；把表示目标蛋白质对间关系的向量与已知交互关系的蛋白质对的特征向量进行相似性计算比较；找到最相近的特征向量并把其标签作为目标蛋白质对的标签；步骤4：计算单词相似性矩阵。步骤5：基本关系相似性模型中引入单词相似性模型形成新的混合模型。本发明依据文本中丰富的上下文信息，更全面地获取交互关系特征，提高识别的精度。

Description

基于文本关系相似性的蛋白质交互关系识别方法

技术领域

本发明涉及生物医学文献中蛋白质交互关系的自动识别方法，具体来说涉及一种基于文本关系相似性的蛋白质交互关系识别方法。

背景技术

蛋白质是生物细胞最重要的成分。蛋白质作为生命活动的体现者并非孤立存在，它们通过彼此间的作用完成细胞中的大部分过程。蛋白质之间的交互信息Protein-ProteinInteraction,PPI对于理解单个蛋白质的功能作用以及整个生物过程是至关重要的，是生物学研究的重要内容，也是解决大量医学难题的关键信息。因而描述蛋白质之间交互关系Protein-Protein Interactions，PPI的网络的建立一直是研究生物过程关注的核心问题，对于生物学研究具有重要意义。因此生物领域专家手工地从医学文献中提取了众多的PPI并录入到统一格式的数据库中，如BIND,DIP,HPRD,IntAct和MINT等等。然而大量的蛋白质交互信息仍散布在以非格式化文本形式存储的科技文献中，并且文献的数目在急剧地增长。依靠手工搜寻提取这些蛋白质交互信息的方式显然不能满足实际需要。因而如何从文献中自动挖掘出蛋白质交互信息成为重要的课题要并且吸引了大量的研究。研究的主要任务是根据生物医学文献中的线索识别存在交互关系的蛋白质对。识别出的交互关系将用于PPI网络的建立。

从文献中自动挖掘蛋白质交互信息的方法涵盖了简单的同现分析到更为复杂的自然语言处理系统，大体可以分为以下三类。

第一类根据蛋白质的同现co-occurrence情况制定策略进行分析。基于同现的方法根据蛋白质在文本中出现位置的相近信息,通过计算两个蛋白质的共现次数来推断它们之间的交互作用。这种方法基于这样的假设：如果两个蛋白质实体经常出现在同一个句子或摘要中，它们则存在某种关系。就是蛋白质实体出现的位置越近、越经常在一起出现则越可能相关,基于这样的假设可通过统计同现频率计算出蛋白质实体存在关系的可能性。

基于共现的PPI识别方法的主要不足是由于蛋白质的同现关系并不一定对应交互关系，这种方法只能抽取已出现的PPI，而不能发现新出现的或较少出现的PPI。而且这种方法没有充分分析包含目标蛋白质对的上下文对非交互关系进行过滤，这样所得结果中会有大量的误报，因而这种方法的识别的精度通常不高。

第二类方法通过建立能够刻画蛋白质交互关系的模式，将其作为规则来寻找蛋白质交互信息。模式匹配法是PPI关系抽取研究的一种主要方法。首先根据蛋白质交互在句子中的常用描述方式建立一组模式。一个模式或规则通常由单词和词性的序列组成，其中标出了形成交互关系的两个蛋白质的位置。抽取PPI时，通过文本匹配寻找对应的交互信息，如果一个模式与一个句子相匹配，则提取出句中相应位置的蛋白质作为存在交互关系的蛋白质对。

Madkour等提出一个BioNoculars系统基于图互增理论使用冗余数据构建领域无关的模板来抽取蛋白质交互关系。这种方法需要手工编写规则，需大量的人力和时间。基于模式匹配的方法有助于提高PPI识别的精确度，然而由于模式集规模的限制导致基于规则或模式的方法明显地降低了召回率。为了减轻手工制定模式的负担，一些系统设计了自动模式获取的算法。比如。Huang等人提出了一种从语料中自动获取模式的方法和一种基于动态规划的匹配算法,该方法将句子对齐，然后把句子中相似的部分提取出来作为抽取蛋白质交互关系的规则。自动建立的模式尽管能够增加模式的数量，然而生成模式的质量仍无法满足高精度交互关系识别的要求。

基于模式匹配的方法存在很大的局限性，其性能依赖于模式的数量和质量而且它无法抽取跨句子的实体关系。由于文本中蛋白质交互关系描述语言的多样性和句法结构的复杂性，简单的句法模式难以处理复杂的句子。同时人工建立简单的模式因其有限的覆盖面导致较低的召回率，而构造复杂模式的过程则又需要花费大量时间。另外，基于模式匹配的方法在未知关键词的情况下不能生成新的模式规则，从而限制了蛋白质关系抽取的可拓展性，一旦规则集的大小达到了一定的规模，便很难将新规则加入现有的规则集。而且当关系抽取系统被应用到新领域的时候，基于规则的方法可能需要预先定义重新制定整个模式规则集以适应新的领域，从而降低了系统的可移植性。

第三类方法采用自然语言处理技术配合机器学习的方法。基于机器学习的方法根据其侧重点不同又可分为两种：基于特征的方法和基于核函数的方法。基于特征的方法试图提取出对识别蛋白质交互有效的特征，包括词汇特征，语法特征和语义特征。文献使用上下文特征进行蛋白质关系抽取，该方法没有使用任何句法信息，在Biocreative语料库上得到了较高的召回率，但精确度相对较低。而基于核函数的方法则侧重考察衡量两实例间距离的多种策略。

由于核函数的方法直接以结构树为处理对象，通过计算它们之间的相似度获取关系模式的有关信息，再使用支持核函数的分类器进行关系抽取，常见的核函数有序列核,其利用一个基于序列的核来计算两个句子的相似性；依存树核；图核。文献使用基于多核的学习方法来进行蛋白质关系信息的抽取，融合了基于特征的核、树核以及图核。但是它的计算复杂度高，训练和预测速度很慢，不适合数据量较大的情况。

相对于同现和规则的方法，基于机器学习的方法有效地利用了文本中描述蛋白质交互词法和句法上的显示特征，或者通过设计核函数进一步利用句子结构表示，如字符串序列、句法依赖或句法分析上的隐含特征，并且能够发现新的模式规则，因而取得了较好的测试效果。然而目前基于机器学习的方法主要以单句为依据采用基于监督的方式进行蛋白质交互信息识别，这些方法主要存在三个方面的局限性。

给定两个目标蛋白质，这些基于机器学习的方法根据两个目标蛋白质对共同出现的很小的文本范围通常是一句话内的依据来判断它们是否交互。与其它信息抽取任务一样，对于蛋白质交互识别任务则定义为一个句子中任意两个蛋白质是否存在交互，比如下面的例子：

The screen identified interactions involvingand two 14-3-3 isoforms,human unconventional myosin IC,and a recently identified SH3 domaincontaining protein,

在这句话中，出现了三个黑体文字的蛋白质，识别的任务就是判定它们任意两个之间是否有交互关系，即(c-Cbl,cytokeratin 18),(c-Cbl,SH3 P17),(cytokeratin18,SH3 P17)这三对中，哪几对是交互对，判定的依据就这一个句子。

这些基于单句的方法不足之处主要有三点。首先，句子的复杂语法结构使得识别很困难，蛋白质交互是个复杂的生物过程，很多情况下同一个句子中隐含了多个蛋白质相互作用信息。事实上，在专家人工对PubMed摘要标注了交互关系的数据集,Aimed数据集中，可能包含蛋白质交互信息的句子有超过40％含有三个以上蛋白质。为了阐清这些蛋白质间的相互作用，一个句子经常使用复杂的语法结构，结果两个蛋白质的关系通常隐含其中也就使得识别比较困难。比如在上面的句子中，c-Cbl和SH3 P17之间有很长的距离，单词个数，即使通过句子深层次语法分析，得到它们之间的关系也比较困难。其次，这些方法中，交互关系的上下文环境被忽略了。事实上，句子周围的一些信息通常提供了交互的上下文，对于识别目标交互关系是有利的，然而，这些上下文信息在基于单句的方法中没有考虑。此外，一个蛋白质交互可能会在多个研究的描述片段中，因而可能散布于多篇文章中。所有的这些描述提供了识别目标蛋白质对交互的有利的依据，然而这些信息在基于单句方法中都未得到充分利用。再者，这些机器学习方法面临少量训练集的困难。在基于单句的方法中，为了建立训练集，需要对一句话中出现的每个蛋白质对标注其是有交互还是无交互，这是很繁重的工作，结果导致这些机器学习方法只在少量的数据上训练，而这必然影响到识别的精度和模型的推广能力。

自然语言处理领域的关系相似性研究为准确识别文本中的关系提供了统一的框架。Medin等人将关系描述如下：关系是带有两个或多个参数的谓语，用来表示两个事物间抽象的联系。关系相似性分析的大部分工作试图通过比较目标关系与一些已知关系的相似性来识别词对隐含的关系。通常，首先从大规模文本中抽取分布特征。这些特征刻画了两个单词之间的联系。然后一些相似性度量策略被用来计算目标关系与已知关系的相似性。最后最相似的那一个关系被标为目标词间的关系。

在所提出的方法中，蛋白质的交互关系的预测是基于大规模文本所提供的丰富的上下文信息。关系相似性框架包含三个模块：收集关系的描述，关系表示和相似性计算。第一模块从大规模文本中获取很可能描述两个蛋白质之间关系的文本集合。这些描述可以是短语，句子或段落等。例如，Turney挑选了128组包含参数(X,Y)的短语(如X of Y,Y for X,X toY)，而Nakov使用了包含两个参数的句子集。在关系表示模块中使用了向量空间模型。在第三个模块中，合适的相似性度量策略被用来计算目标关系与已知关系的距离。最后，目标关系被标为已知交互关系中与其最相似的关系类别。

目前缺乏一种能够快速得到蛋白质交互关系并将其加入蛋白质交互网络的蛋白质交互识别方法。

发明内容

本发明所要解决的技术问题是提供一种能够快速得到蛋白质交互关系并将其加入蛋白质交互网络的基于文本关系相似性计算的蛋白质交互识别方法。

为了实现上述目的，本发明通过如下技术方案实现：本发明提供了一种基于文本关系相似性的蛋白质交互关系识别方法，包括如下步骤：

步骤1：获取文本集中的蛋白质对关键词的句子，对所有句子进行集合得到签名档S；每个蛋白质对为(p1,p2)，每个目标蛋白质对都会有签名档与之相对应；

步骤2：用特征向量来表示p1和p2之间的关系；将对应于目标蛋白质对的签名档中的单词进行预处理，去除停止词；向量的维度对应这一关系的特征，这些特征从多个蛋白质对的签名档中抽取，计算特征的权重；

步骤3：关系相似性计算；将目标蛋白质对特征向量与已知交互关系的蛋白质对特征向量进行相似性计算比较；找到最相近的特征向量并把其标签作为目标蛋白质对的标签；

步骤4：计算单词相似性矩阵；将文本集中蛋白质对签名档中所有的单词作为初始的目标词；这些单词按照它们的词性标注情况进行分组，分组为名词，动词，形容词和副词；

将对应于名词，动词，形容词，副词的四个相似性矩阵计算出来；

对于每个目标词，构建其分布特征；每个目标词被表示成一个共现向量，使用向量空间模型表示分布特征；计算同一词性组中每一对目标词之间的相似性；

步骤5：步骤1,2,3建立得到基本关系相似性模型，步骤4建立得到单词相似性模型，将单词相似性模型引入基本关系相似性模型中，形成新的混合模型；在新的混合模型中首先采用1近邻分类器和k(k>1)近邻分类器对蛋白质对做初始判断；

当两者判断的结果一致时为最终结果；当结果不一致时，将根据单词相似性矩阵对蛋白质对特征向量的权值作调整；然后再用1近邻分类器对调整后的蛋白质对向量做分类判断得到最终结果。

进一步地，在步骤(1)中，抽取全部p1和p2共同出现的句子，即提取关键词，得到句子的集合S；所述集合S视为(p1,p2)的签名档；

在步骤(2)中，把整个PubMed数据库作为蛋白质对描述抽取的语料来源；特征的权重采用两种方式表示：二值权重0/1和单词频率-文档逆向频率tf-idf权重；每一维使用二值权重度量时，对应的单词特征在目标蛋白质对(p1,p2)对应的签名档时，则特征向量的权值为1，否则为0；

单词频率-文档逆向频率tf-idf被用来计算权值，如公式(1)；

w_{i} = {tf}_{i} \times \log (\frac{N}{{df}_{i}}) - - - (1)

其中tfi是第i个特征出现在签名档中的频率，dfi是出现第i个特征的签名档数目，N是总的签名档数目；

在步骤(3)中，将目标蛋白质对特征向量与已知交互关系的蛋白质对特征向量进行相似性比较，找出最相似的蛋白质对并划分其所属类别；所述类别包括有交互关系的蛋白质或无交互关系的蛋白质；

在步骤(4)中，每个目标词被语料库中其所在的上下文单词形成的分布特征所表示；所述上下文定义为目标词周围一定大小窗口内的单词；然后相互比较单词的分布特征得到最相似的单词。

进一步地，在步骤(1)中，签名档的获取细分为两步：

子步骤1：通过PubMed数据库的应用程序接口，以p1，p2为参数检索出p1和p2共现的文本摘要；以蛋白质p1和p2为查询条件，利用检索命令搜索包含这两个蛋白质的摘要的编号PubMed ID；

再把所得编号作为参数通过调用获取命令来取得实际的摘要文本；

实施时通过脚本语言perl的应用程序对目标蛋白质对集合中的所有蛋白质对实现了自动搜索，获取相应的摘要文本；

子步骤2：在这些摘要中抽取出同时包含p1和p2的句子；

对以上检索出的摘要文本集合进行句子识别；得到的句子集合中搜索所有同时包含p1和p2的句子，这些句子描述了两个蛋白质之间的交互关系；

目标蛋白质对有由若干句子组成的集合与之对应，形成它的签名档。

更进一步地，在步骤(3)中，划分目标蛋白质对的类别，当存在多个最相似的蛋白质对时，分别统计有交互的蛋白质对数量Cpos和无交互的蛋白质对数量Cneg，计算r＝Cpos/Cneg，当r>1时，则判断目标蛋白质对为positive；当r<1时，则判断目标蛋白质对为negative，否则，考察第二个最相似的蛋白质对的类别；

用余弦距离来衡量两个的向量r1和r2的距离，这里r1表示目标蛋白质之间的关系，r2表示已知交互蛋白质对间的关系，如公式(2)

进一步地，在步骤(4)中，

子步骤1：随机从医学文献数据库中抽取一定数量的摘要文本，将其作为目标词上下文的语料库；

上下文定义为语料库中与目标词共现的窗口大小为N内的所有单词，去除停止词，单字符单词和数字；所有的上下文单词构成了目标词的分布特征；所述上下文单词定义为语料库中与目标词共现的窗口大小为N内的所有单词；

子步骤2：同一词性组内所有目标词w1的分布特征形成了一个分布集，该集合中所有单词被作为目标词w1共现向量的维度；

每一维度的权值采用条件概率P(w|w1)，其计算是w和w1在语料中共现的次数除以w1在语料中出现的次数；所述特征词w是目标词w1出现在语料库中周围窗口大小为N内的单词；

其中w1是目标词，w是该维度所代表的特征词；所述特征词w是目标词w1出现在语料库中周围的单词；

建立一个共现矩阵A，其中每一行对应一个目标词w1的共现向量；矩阵A的行对应目标词w1，列对应目标词上下文特征词w，其元素Aij是条件概率，值为第i行对应的目标词w1与第j列对应的特征词w在语料库中的共现次数除以第i行对应的目标词w1在语料库中出现的次数；

子步骤3：目标词之间的相似性采用余弦距离来度量，生成一个词相似性矩阵B，其行和列对应于该词性组中的目标词；

B的计算是先将矩阵A行单位化之后，采用Matlab工具计算矩阵A乘A的转置A’即得B；B中元素Bij是第i行目标词和第j列目标词之间的相似度。

进一步地，在步骤(4)中，子步骤1：随机从医学文献数据库中抽取一定数量的摘要文本，对2773篇签名档中的所有句子进行分析得到每个句子中每个单词的词性；

子步骤2：其中每一行对应GV中一个目标词的共现向量。

更进一步地，在步骤(5)中，对于某个特征向量V，当特征向量V中的一维度的目标词w1的权值为0时，则对这个权值进行调整，为1保持不变，当目标词w1的权值为0时，则对这个权值进行调整，具体如下：

子步骤1：先找出特征向量V中权值为1的那些维所代表的单词的集合F，再从w1所属的词性组对应的相似性矩阵B中找出目标词w1对应的行，该行是目标词w1与其它单词的相似度所在的行，找出其中相似度的最大值s；

当相似度的最大值s所在的列代表的单词不在F集合中时，忽略这个相似度的最大值s值，继续寻找下一个相似度的最大值s且它所在的列代表的单词在F集合中；

子步骤2：当目标词w1有多个词性时，则从多个词性组中分别找到各自的相似度的最大值，进行比较后，得到相似度的最大值s；

子步骤3：设定阈值为θ，当相似度的最大值s大于阈值θ时，则把它作为目标词w1调整后的权值。

有益效果：本发明一种能够快速得到蛋白质交互关系并将其加入蛋白质交互网络从而用于生物学中的信息传导、代谢途径以及严重疾病研究的基于文本关系相似性计算的蛋白质交互识别方法。针对特征稀疏性问题，本发明利用单词相似性来加强基本关系相似性模型，建立混合模型。

本发明具有如下优点：

(1)针对特征稀疏性问题，本发明利用单词相似性来加强基本关系相似性模型，建立混合模型；在基本关系相似性模型的基础上引入由大规模语料计算出的单词相似性结果，提高了关系相似性计算的准确度。具体而言，利用已有的蛋白质交互信息避免额外的数据标注，并充分利用大规模文本库资源，依据文本中丰富的上下文信息，单词相似性矩阵被建立以反映基本模型中特征单词间语义上的联系，因而在计算蛋白质对间关系相似度的时候虽然单词特征未出现，但可以把这些单词相似性考虑进来从而得到补偿,更全面地获取交互关系特征，更好的提高蛋白质交互识别的精度。

(2)本发明的蛋白质交互识别系统中，利用已有PPI数据库中的交互信息而不需要进行额外的手工标注，并且所得结果可以直接用于PPI网络的建立。尽管已经有些方法涉及到了大规模文本，但绝大部分考虑的仅仅是特定模式在语料中的频次。与现有技术不同，本发明蛋白质的交互关系识别是在自然语言处理领域的关系相似性框架下基于蛋白质对描述的上下文进行多层次的综合分析。

(3)本发明在关系相似性框架下来识别蛋白质交互关系基于两点考虑。首先，蛋白质间的关系符合Medin定义的典型语义关系。更重要的，大规模语料中的上下文对于判定两个蛋白质是否交互是至关重要的。在关系相似性框架下，关系实际上被大规模语料提供的特征所刻画，这很好地契合了本发明采用大规模语料识别蛋白质交互关系的目的。

附图说明

图1为使用混合模型识别蛋白质交互关系的系统结构图；

图2是使用基本关系相似性模型识别有交互蛋白质对的结果示意图；

图3是使用基本关系相似性模型识别无交互蛋白质对的结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。

如图1至图3所示，图2和图3均表示在k近邻取不同的k值时所得到的识别精度。横轴代表k近邻的不同取值，纵轴代表系统的识别精度，其中precision:精确度，recall：召回率，F-score：F-值，是用来评估交互关系识别精度的三个技术指标。

本发明不需要对一个句子中蛋白质之间的关系进行标注。实施时已知交互关系的数据(训练集)是直接取自PPI数据库HPRD。在实施方案中，为了得到正例，即有交互的蛋白质对，首先从HPRD中抽取所有蛋白质对。然后这些蛋白质对中出现在生物医学文本库PubMed[U.S.National Library of Medicine.PubMed.[EB/OL].[2011-08-20].http://www.ncbi.nlm.nih.gov/pubmed]一篇以上摘要中的被保留，得到1420对正例，即为有交互关系的蛋白质对，为了得到负例，即为无交互关系的蛋白质对；

首先，将HPRD中的蛋白质进行两两随机组合形成初始集合，然后去除集合中出现在HPRD中的有交互关系的蛋白质对，最后也只有那些出现在PubMed数据库一篇以上摘要中的蛋白质对被保留，总共得到1353对。最终训练集共有2773对数据。

本发明的一种基于文本关系相似性的蛋白质交互关系识别方法，包括如下步骤：

步骤1：获取关系描述

把整个PubMed数据库作为蛋白质关系描述抽取的语料来源。对于2773个目标蛋白质对的每个蛋白质对(p1,p2)，每个目标蛋白质对都会有签名档与之相对应；从PubMed数据库中抽取全部p1和p2共同出现的句子，即提取关键词，得到句子的集合S；所述集合S视为(p1,p2)的签名档；由于PubMed数据库不提供直接检索句子的功能，签名档的获取细分为两步：

这些签名档从多个方面描述了两个蛋白质之间是如何关联的，因而提供了交互关系识别的充分依据。每个目标蛋白质对都会有签名档与其对应，这些签名档从多个方面描述了两个蛋白质之间是如何关联的，因而提供了关系识别的充分依据。

再把所得编号作为参数通过调用获取命令efetch来取得实际的摘要文本；

实施时通过脚本语言perl的应用程序对目标蛋白质对集合中的所有蛋白质对实现了自动搜索，获取相应的摘要文本；这样，目标蛋白质对有由若干摘要组成的文本集合与之对应。

子步骤2：在这些摘要中抽取出同时包含p1和p2的句子；

这里使用的是伊利诺州大学urbana-champaign分校认知计算研究组开发的句子识别工具[UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAGN.Sentence Segmentationtool[EB/OL].[2011-09-23]http://cogcomp.cs.illinois.edu/page/tools_view/2]。对以上检索出的摘要文本集合进行句子识别；得到的句子集合中搜索所有同时包含p1和p2的句子，这些句子描述了两个蛋白质之间的交互关系；

本步结束时，目标蛋白质对有由若干句子组成的集合与之对应，形成它的签名档。

步骤2：关系表示

用特征向量来表示p1和p2之间的关系；从对应于目标蛋白质对的2773个签名档中抽取至少出现在25个签名档中的单词且去除停止词，单字符单词及无意义的数字之后剩余的单词作为特征，共4867个单词特征。

向量空间模型(VSM)，向量的维度对应这一关系的特征，这些特征从多个蛋白质对的签名档中抽取，这些特征形成向量的维；计算特征的权重；因为词汇是表达关系的重要因素，本发明把签名档中的一元词(去除停止词，单字符单词和数字)作为特征。

把整个PubMed数据库作为蛋白质对描述抽取的语料来源；特征的权重采用两种方式表示：二值权重0/1和单词频率-文档逆向频率tf-idf权重；每一维使用二值权重度量时，对应的单词特征在目标蛋白质对(p1,p2)对应的签名档时，则特征向量的权值为1，否则为0；

单词频率-文档逆向频率tf-idf被用来计算权值，如公式(1)；

w_{i} = {tf}_{i} \times \log (\frac{N}{{df}_{i}}) - - - (1)

步骤3：关系相似性计算

通过步骤2建立训练集中2773个蛋白质对的特征向量，将用公式(2)计算出目标蛋白质对特征向量与已知交互关系的蛋白质对特征向量进行相似性计算比较；找到最相近的特征向量并把其标签作为目标蛋白质对的标签(positive或negative)；当训练集中有多个最相似的蛋白质对时，即计算出的最大的相似度有多个是相等的。

将目标蛋白质对特征向量与已知交互关系的蛋白质对特征向量进行相似性比较，找出最相似的蛋白质对并划分其所属类别；所述类别包括有交互关系的蛋白质或无交互关系的蛋白质；

划分目标蛋白质对的类别，当存在多个最相似的蛋白质对时，分别统计有交互的蛋白质对数量Cpos和无交互的蛋白质对数量Cneg，计算r＝Cpos/Cneg，当r>1时，则判断目标蛋白质对为positive；当r<1时，则判断目标蛋白质对为negative，否则，考察第二个最相似的蛋白质对的类别；

步骤4：计算单词相似性矩阵

将文本集中蛋白质对签名档中所有的单词作为初始的目标词；为了得到单词的词性信息，对2773篇签名档中的所有句子使用Apache OpenNLP语法分析工具[Apache SoftwareFoundation.Apache OpenNLP 1.5.2-including.http://opennlp.apache.org/index.html]做浅层次分析得到每个句子中每个单词的词性。这些单词按照它们的词性标注情况进行分组，分组为名词，动词，形容词和副词；对于每个目标词，构建其分布特征；每个目标词被表示成一个共现向量，使用向量空间模型表示分布特征；计算同一词性组中每一对目标词之间的相似性；

把PubMed作为大规模语料的来源。每个目标词被语料库中其所在的上下文单词形成的分布特征所表示；所述上下文定义为目标词周围5个单词；然后将对应于名词，动词，形容词，副词的四个相似性矩阵计算出来；然后相互比较单词的分布特征得到最相似的单词。

使用Apache OpenNLP语法分析工具做浅层次；这里使用的是伊利诺州大学urbana-champaign分校认知计算研究组开发的句子识别工具。引入单词相似性模型的目的是建立蛋白质对特征向量中特征单词间的联系；

寻找相似单词最直接的方式是搜索现有的资源如词典。然而，缺陷也很明显，首先，这些词典中的单词的含义通常很宽泛，例如，在蛋白质交互关系识别任务中，像单词inhibit,stimulate,induce是相似的，某种意义上这些单词暗示着蛋白质交互的类型，而这些单词间的这种联系不太可能在词典中找到。其次，这些资源只包含有限的词汇，随着语料库(如PubMed)规模越来越大，新词汇新表达每天都在出现，这样的问题变得越来越严重。从而解决计算这些蛋白质对之间关系相似性由于数据稀疏带来的问题；

因此本发明采用基于语料库的策略来识别相似的单词。其假设相似的单词出现在相似的上下文环境中。

子步骤1：对于每个目标词，构建其分布特征；

随机从PubMed数据库(文本以XML文件形式存储)中抽取一定数量的摘要文本，从每个XML文件中提取出<Abstract Text>标签内的摘要部分文本内容，使用步骤1-2-1所用的句子识别工具分句后，每个句子保存为一行存至TXT文件中，最终数据大小约1G(大约包含144M个单词)，将其作为目标词的上下文语料库。对2773篇签名档中的所有句子进行分析得到每个句子中每个单词的词性；上下文窗口大小设为语料中目标词周围共现的5个单词，即目标词左边5个单词直至句子开头，右边5个单词直至一个句子结束。一个单词会出现在多个句子中，将从所有句子中提取的单词合并去重，去停止词、数字、单字符后剩余的单词构成了该目标词的分布特征。

子步骤2：使用向量空间模型表示分布特征，建立共现矩阵；

对同一词性组内每个目标词生成其共现向量表示。同一词性组内所有目标词w1的分布特征形成了一个分布集，该集合中所有单词被作为目标词w1共现向量的维度；

每一维度的权值采用条件概率P(w|w1)，其计算是w与w1在语料中共现的次数除以w1在语料中出现的次数；其中w1是目标词，w是该维度所代表的特征词；所述特征词w是目标词w1出现在语料库中周围的单词；向量的维度对应刻画目标关系的特征。

特征的权值设置为条件概率P(w|w1)，统计特征词w1和目标词w在语料中共同出现在窗口为5内的次数，即特征词和目标词的距离小于等于5，除以w1在语料中出现的次数。建立一个共现矩阵A，其中每一行是一个目标词的共现向量。

子步骤3：计算同一词性组中每一对目标词之间的相似性；

把每个目标词表示成一个共现向量，目标词之间的相似性采用余弦距离来度量，生成一个词相似性矩阵B，其行和列对应于该词性组中的目标词；

通过以上步骤得到了基本关系相似性模型，该模型的识别精度会因单词特征的稀疏性而偏低。稀疏性是指在基本关系相似性模型中，对于具体的某个蛋白质对，所抽取的特征只有一小部分出现在其对应签名档中。比如，单词molecule和protein是向量空间模型中的特征，这两个特征可能分别只出现在有交互的蛋白质对A和B中。因此对应A和B的特征向量这两个特征中只有一个非0；

所以说，尽管这两个特征在语义上紧密相关，但它们之间的联系在相似性计算时被忽略了，结果使得两个蛋白质对的相似性计算会偏低。

步骤5：基本关系相似性模型中引入单词相似性模型形成新的混合模型

步骤1,2,3建立得到基本关系相似性模型，步骤4建立得到单词相似性模型，将单词相似性模型引入基本关系相似性模型中，形成新的混合模型；在新的混合模型中首先采用1近邻分类器和k(k>1)近邻分类器对蛋白质对做初始判断；

对于某个特征向量V，当特征向量V中的一维度的目标词w1的权值为0时，则对这个权值进行调整，为1保持不变，当目标词w1的权值为0时，则对这个权值进行调整，具体如下：

具体的调整步骤如下：对于某个特征向量V，如果某个特征f的权值为0，则对这个权值进行调整，具体如下：

针对特征稀疏性问题，本发明利用单词相似性来加强基本关系相似性模型，建立混合模型；具体而言，单词相似性矩阵被建立以反映基本模型中特征单词间语义上的联系，因而在计算蛋白质对间关系相似度的时候虽然单词特征未出现，但可以把这些单词相似性考虑进来从而得到补偿。

表1为在具体实施数据集2773对蛋白质对上采用关系相似性基本模型进行PPI识别得到的结果。表1中显示了该模型与随机分类所的结果的比较，以及两种权重计算方法的比较,如表1所示：

表1

由表1看出，采用0/1加权的关系相似性基本模型比随机分类模型在正例和负例识别中精确度、召回率和F-值都提高了约25％。

表2和表3分别为在实施数据集上引入了单词相似性模型的新的混合模型与关系相似性基本模型在正例和负例上的识别结果比较。表中显示了K近邻方法中的K和阈值θ取不同值时的结果。如表2和表3所示：

表2

表3

由表2和表3看出，新的混合模型在正例和负例的识别中，在各种参数下取得的F-值均高于基本模型。

以上的实验结果表明，本发明的技术方案是具有可行性的；与随机分类的结果相比本发明的方法显著提高了PPI识别的精度。新的混合模型在基本模型的基础上进一步提高了识别的精度。

本发明一种能够快速得到蛋白质交互关系并将其加入蛋白质交互网络从而用于生物学中的信息传导、代谢途径以及严重疾病研究的基于文本关系相似性计算的基于文本关系相似性计算的蛋白质交互识别方法。针对特征稀疏性问题，本发明利用单词相似性来加强基本关系相似性模型，建立混合模型。

本发明具有如下优点：

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种基于文本关系相似性的蛋白质交互关系识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于文本关系相似性的蛋白质交互关系识别方法，其特征在于：

在步骤(1)中，抽取全部p1和p2共同出现的句子，即提取关键词，得到句子的集合S；所述集合S视为(p1,p2)的签名档；

单词频率-文档逆向频率tf-idf被用来计算权值，如公式(1)；

w_{i} = {tf}_{i} \times \log (\frac{N}{{df}_{i}}) - - - (1)

3.根据权利要求1所述的基于文本关系相似性的蛋白质交互关系识别方法，其特征在于：

在步骤(1)中，签名档的获取细分为两步：

子步骤2：在这些摘要中抽取出同时包含p1和p2的句子；

4.根据权利要求1所述的基于文本关系相似性的蛋白质交互关系识别方法，其特征在于：在步骤(3)中，划分目标蛋白质对的类别，当存在多个最相似的蛋白质对时，分别统计有交互的蛋白质对数量Cpos和无交互的蛋白质对数量Cneg，计算r＝Cpos/Cneg，当r>1时，则判断目标蛋白质对为positive；当r<1时，则判断目标蛋白质对为negative，否则，考察第二个最相似的蛋白质对的类别；

\begin{matrix} \overset{&RightArrow;}{r_{1}} = < r_{1,1} . . ., r_{1, n} > & \overset{&RightArrow;}{r_{2}} = < r_{2,1} . . ., r_{2, n} > \end{matrix}

\cos (θ) = \frac{Σ_{i = 1}^{n} r_{1, i} \cdot r_{2, i}}{\sqrt{Σ_{i = 1}^{n} {r_{1, i}}^{2} \cdot Σ_{i = 1}^{n} {r_{2, i}}^{2}}} = \frac{\overset{&RightArrow;}{r_{1}} \cdot \overset{&RightArrow;}{r_{2}}}{\sqrt{\overset{&RightArrow;}{r_{1}} \cdot \overset{&RightArrow;}{r_{1}} \cdot \sqrt{\overset{&RightArrow;}{r_{2}} \cdot \overset{&RightArrow;}{r_{2}}}}} = \frac{\overset{&RightArrow;}{r_{1}} \cdot \overset{&RightArrow;}{r_{2}}}{| | \overset{&RightArrow;}{r_{1}} | | \cdot | | \overset{&RightArrow;}{r_{2}} | |} - - - (2) .

5.根据权利要求1所述的基于文本关系相似性的蛋白质交互关系识别方法，其特征在于：在步骤(4)中，

6.根据权利要求5所述的基于文本关系相似性的蛋白质交互关系识别方法，其特征在于：在步骤(4)中，子步骤1：随机从医学文献数据库中抽取一定数量的摘要文本，对2773篇签名档中的所有句子进行分析得到每个句子中每个单词的词性；

子步骤2：其中每一行对应GV中一个目标词的共现向量。

7.根据权利要求1所述的基于文本关系相似性的蛋白质交互关系识别方法，其特征在于：在步骤(5)中，对于某个特征向量V，当特征向量V中的一维度的目标词w1的权值为0时，则对这个权值进行调整，为1保持不变，当目标词w1的权值为0时，则对这个权值进行调整，具体如下：