CN103473416A

CN103473416A - 蛋白质相互作用的模型建立方法和装置

Info

Publication number: CN103473416A
Application number: CN2013104186397A
Authority: CN
Inventors: 刘伟; 谢红卫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-09-13
Filing date: 2013-09-13
Publication date: 2013-12-25
Anticipated expiration: 2033-09-13
Also published as: CN103473416B

Abstract

本发明公开了一种蛋白质相互作用的模型建立方法和装置。该蛋白质相互作用的模型建立方法包括：获取蛋白质相互作用的分类特征；根据所述分类特征得到蛋白质相互作用的预测模型；以及根据所述预测模型检测疾病相关的蛋白质相互作用。通过本发明，能够预测蛋白质相互作用与疾病相关性。

Description

蛋白质相互作用的模型建立方法和装置

技术领域

本发明涉及生物学领域，具体而言，涉及一种蛋白质相互作用的模型建立方法和装置。

背景技术

疾病相关基因是与疾病状态密切相关的一组基因，它们在疾病的发生、发展、治疗和预后中发挥着重要作用，常用于生物标志物和药物靶标发现。但是由于大部分的蛋白质是通过与其它蛋白质相互作用发挥生物学功能的，因此，不仅应考察单个蛋白质对疾病的影响，更应该考察蛋白质相互作用对于疾病的发生和发展的作用，从而帮助理解致病机制。

目前，已有一些方法针对蛋白质相互作用的可药性（即某蛋白质能够与小分子药物相结合，作为药物作用的靶标）进行预测，并采用实验手段以蛋白质相互作用为靶标进行药物设计。实际上，能够用于药物设计的蛋白质相互作用很少，大部分蛋白质相互作用仅仅与疾病相关，而在现有技术中还没有预测蛋白质相互作用与疾病的相关性的方法。

针对现有技术无法预测蛋白质相互作用与疾病相关性的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种蛋白质相互作用的模型建立方法和装置，以解决现有技术无法预测蛋白质相互作用于疾病相关性的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种蛋白质相互作用的模型建立方法。根据本发明的蛋白质相互作用的模型建立方法包括：获取蛋白质相互作用的分类特征；根据分类特征得到蛋白质相互作用的预测模型；以及根据预测模型检测疾病相关的蛋白质相互作用。

进一步地，获取蛋白质相互作用的分类特征包括：查询疾病相关的蛋白质相互作用，得到标准阳性数据集；查询非疾病相关的蛋白质相互作用，得到标准阴性数据集；标准阳性数据集和标准阴性数据集作为标准数据集；以及从标准数据集中提取分类特征。

进一步地，获取蛋白质相互作用的分类特征包括：获取基因芯片数据；以及从基因芯片数据中提取分类特征。

进一步地，根据分类特征得到蛋白质相互作用的预测模型包括：计算分类特征的似然比；以及由似然比得到预测模型。

进一步地，在根据预测模型检测疾病相关的蛋白质相互作用之后，蛋白质相互作用的模型建立方法还包括：获取预测模型的检测结果；获取参考样品集；以及利用参考样品集验证检测结果的准确性。

为了实现上述目的，根据本发明的另一方面，提供了一种蛋白质相互作用的模型建立装置。根据本发明的蛋白质相互作用的模型建立方法包括：获取单元，用于获取蛋白质相互作用的分类特征；生成单元，用于根据分类特征得到蛋白质相互作用的预测模型；以及检测单元，用于根据预测模型检测疾病相关的蛋白质相互作用。

进一步地，获取单元包括：第一查询模块，用于查询疾病相关的蛋白质相互作用，得到标准阳性数据集；第二查询模块，用于查询非疾病相关的蛋白质相互作用，得到标准阴性数据集，其中，标准阳性数据集和标准阴性数据集作为标准数据集；以及第一提取模块，用于从标准数据集中提取分类特征。

进一步地，获取单元包括：获取模块，用于获取基因芯片数据；以及第二提取模块，用于从基因芯片数据中提取分类特征。

进一步地，生成单元包括：计算模块，用于计算分类特征的似然比；以及生成模块，用于由似然比得到预测模型。

进一步地，蛋白质相互作用的模型建立装置还包括：结果获取单元，用于在根据预测模型检测疾病相关的蛋白质相互作用之后，获取预测模型的检测结果；参考单元，用于获取参考样品集；以及验证单元，用于利用参考样品集验证检测结果的准确性。

通过本发明，根据蛋白质相互作用的分类特征得到蛋白质相互作用的预测模型，采用预测模型检测疾病相关的蛋白质相互作用的方法，解决了无法预测蛋白质相互作用与疾病相关性的问题，进而达到了预测蛋白质相互作用与疾病相关性效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明第一实施例蛋白质相互作用的模型建立装置的示意图；

图2是根据本发明第二实施例蛋白质相互作用的模型建立装置的示意图；

图3是根据本发明第三实施示例蛋白质相互作用的模型建立装置的示意图；

图4是根据本发明第四实施例蛋白质相互作用的模型建立装置的示意图；

图5是根据本发明实施例的贝叶斯模型分类的示意图；

图6是根据本发明第五实施例蛋白质相互作用的模型建立装置的示意图；

图7是根据本发明第一实施例的蛋白质相互作用的模型建立方法的流程图；

图8是根据本发明实施例的获取蛋白质相互作用的分类特征的流程图；

图9是根据本发明第二实施例的蛋白质相互作用的模型建立方法的流程图；

图10是根据本发明第三实施例的蛋白质相互作用的模型建立方法的流程图；以及

图11是根据本发明第四实施例的蛋白质相互作用的模型建立方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种蛋白质相互作用的模型建立装置。

图1是根据本发明第一实施例蛋白质相互作用的模型建立装置的示意图。如图所示，该蛋白质相互作用的模型建立装置包括获取单元10、生成单元20和检测单元30。

获取单元10用于获取蛋白质相互作用的分类特征。蛋白质相互作用与疾病相关，能够通过蛋白质的相互作用解释疾病的发生机制。蛋白质具有很多生物学特征，可以利用这些特征区分疾病相关蛋白质的相互作用和非疾病相关蛋白质的相互作用，将这些用来表征疾病相关蛋白质相互作用和非疾病相关蛋白质的相互作用差异的生物学特征称为分类特征。

分类特征可以是蛋白质的生物化学属性中的蛋白质序列特征。根据蛋白质的一级序列，可提取它的主要序列特征。蛋白质的主要序列特征包括分子量、残基数、等电点、疏水性、氨基酸等，利用Pepstats程序可一次性提取蛋白质的上述多个序列特征。

分类特征还可以是蛋白质的功能注释。蛋白质的功能注释能够描述基因功能，包括GO注释和Swissprot数据库中的注释。GO注释提供了一种描述基因功能的标准化词汇，包括生物学通路、分子功能和分子功能三个大的类别。Swissprot数据库中的注释信息，包括UP_SEQ_FEATURE和SP_PIR_KEYWORDS。利用工具DAVID可提取已知疾病相关蛋白质的功能注释条目，包括GO注释条目和Swissprot数据库中的注释信息，并提供它们富集的显著性。

分析功能注释条目的显著性常采用基于超几何分布的假设检验方法，其计算公式为：

Enrichment_ratio = \frac{\frac{m}{M}}{\frac{n}{N}} - - - (1)

p - value = Σ_{m^{'} = m}^{n} \frac{(\begin{matrix} M \\ m^{'} \end{matrix}) (\begin{matrix} N - M \\ n - m^{'} \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})} (Enrichment_ratio &GreaterEqual; 1) - - - (2)

p - value = Σ_{m^{'} = 0}^{m} \frac{(\begin{matrix} M \\ m^{'} \end{matrix}) (\begin{matrix} N - M \\ n - m^{'} \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})} (Enrichment_ratio < 1) - - - (3)

对于特定的功能注释条目T，假定蛋白质数据库中存储的所有蛋白质的数目为N，注释为该条目的所有蛋白质数目为n；疾病相关标准数据集中存储的蛋白质的数目为M，注释为该条目的蛋白质数目为m。Enrichment_ratio表示相对数据库中所有蛋白在该条目中的功能注释情况，标准数据集中的疾病相关蛋白在该注释条目中的富集程度。如果Enrichment_ratio>1，那么其相对富集；如果Enrichment_ratio<1，那么其相对缺乏。同时，可计算出相应的疾病相关蛋白质与非疾病相关蛋白的差值P。通过限定显著性阈值，如P-value<0.01，可发现多个与疾病相关的注释条目。

为了发现疾病相关的相互作用，可以通过蛋白质的功能注释确定相互作用的蛋白质的功能注释是否都与某种疾病相关，以及它们是否处于同一通路和同一亚细胞内。

分类特征还可以是基因表达信息。基因表达信息可以是在基因到蛋白质的转录过程中，发生相互作用的两个蛋白质对应的转录物的浓度之间的共表达系数。

分类特征还可以是上述生物化学属性中的任意一种或多种，还可以是上述功能注释中的任意一种或多种注释条目，还可以是基因表达信息中的任意一种或多种表达信息，还可以是除上述生物化学属性、功能注释和基因表达信息以外的其他生物学特征。需要说明的是，本发明实施例只是列举上述例子以便理解方案，并不作为对本发明实施例的不当限定。

生成单元20用于根据分类特征得到蛋白质相互作用的预测模型。在获取单元10获取到蛋白质相互作用的分类特征之后，根据分类特征得到蛋白质相互作用的预测模型。蛋白质相互作用的模型可以根据获取的任意一种分类特征经过计算得到，还可以根据多种分类特征经计算得到，得到的蛋白质相互作用的预测模型能够用来预测蛋白质相互作用，优选地，可以利用该预测模型预测疾病相关的蛋白质相互作用，从而发现疾病的发生机制。

检测单元30用于根据预测模型检测疾病相关的蛋白质相互作用。预测模型可以检测蛋白质的相互作用，可以根据蛋白质的分类特性得到对疾病相关蛋白质相互作用和非疾病相关蛋白质相互作用进行分类，从而发现疾病相关蛋白质相互作用。

图2是根据本发明第二实施例蛋白质相互作用的模型建立装置的示意图。图2所示实施例可以作为图1所示实施例的优选实施方式。如图所示，该蛋白质相互作用的模型建立装置包括第一查询模块101、第二查询模块102、第一提取模块103、生成单元20和检测单元30，其中，生成单元20和检测单元30与图1所示蛋白质相互作用的模型建立装置中的生成单元20和检测单元30的功能相同，在此不做赘述。

第一查询模块101用于查询疾病相关的蛋白质相互作用，得到标准阳性数据集。查询蛋白质相互作用数据库中查询疾病相关的蛋白质相互作用，从该蛋白质相互作用数据库中随机挑选一部分疾病相关的蛋白质相互作用作为标准阳性数据集。

第二查询模块102用于查询非疾病相关的蛋白质相互作用，得到标准阴性数据集，其中，标准阳性数据集和标准阴性数据集作为标准数据集。查询蛋白质相互作用数据库中查询非疾病相关的蛋白质相互作用，从该蛋白质相互作用数据库中随机挑选一部分非疾病相关的蛋白质相互作用作为标准阴性数据集。将标准阳性数据集和标准阴性数据集作为标准数据集。

第一提取模块103用于从标准数据集中提取分类特征。标准数据集中包含标准阳性数据集和标准阴性数据集，分别表示疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据，分别从疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据中提取一种或多种生物学特征作为分类特征。为了便于对比疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据，从疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据中提取的分类特征可以是生物学特征中的同一类特征。

提取的分类特征可以是生物化学属性、功能注释、基因表达信息和蛋白质的结构等特征，在此只是举例，不做穷举。

图3是根据本发明第三实施示例蛋白质相互作用的模型建立装置的示意图。图3所示实施例可以作为图1所示实施例的优选实施方式。如图所示，该蛋白质相互作用的模型建立装置包括获取模块104、第二提取模块105、生成单元20和检测单元30，其中，生成单元20和检测单元30与图1所蛋白质相互作用的模型建立装置中的生成单元20和检测单元30的功能相同，在此不做赘述。

获取模块104用于获取基因芯片数据。基因芯片数据来自基因芯片数据库，可以从基因芯片数据库中查询到疾病相关基因的信息和非疾病相关基因的信息。

基因芯片数据库是疾病相关基因发现的重要来源，人们已经建立了一些专门的数据库用于存储疾病相关的基因芯片数据。如GEO作为存储基因芯片的主要数据库资源，包含了丰富的疾病相关的基因芯片数据。ONCOMINE数据库专门收集疾病相关的基因芯片数据集。其它与疾病相关的基因芯片数据库还有斯坦福基因芯片数据库、EBI芯片表达数据库，以及MIT疾病基因组工程等。

选定一种疾病相关基因芯片数据库，如GEO数据库，从中提取多个与疾病相关的基因芯片数据集，采用合适的方法比较疾病状态与正常状态下基因的表达差异。常用的比较分析方法有三类，第一类是倍数分析，计算每一个基因在两个条件下的比值，若大于给定阈值，则认为是表达差异显著的基因；第二类方法采用统计分析中的T检验和方差分析，计算表达差异的置信度，来分析差异是否具有统计显著性；第三类是建模的方法，通过确定两个条件下的模型参数是否相同来判断表达差异的显著性，例如贝叶斯方法。

为了发现疾病相关的相互作用，不仅要考虑单个蛋白质在不同状态下的基因表达差异，而且要考虑发生相互作用的蛋白质之间的共表达情况。相互作用的蛋白质之间通常具有转录共表达现象，即对应的mRNA表达量在不同的时间或外界条件下呈现出一定的相关性。蛋白质之间的转录共表达系数对于预测其是否与疾病相关具有一定参考作用。

第二提取模块105用于从基因芯片数据中提取分类特征。从基因芯片数据中提取疾病与非疾病状态下的基因表达差异，将该基因表达差异作为分类特征。

图4是根据本发明第四实施例蛋白质相互作用的模型建立装置的示意图。该图所示实施例可以作为图1所示实施例的优选实施方式，如图所示，该蛋白质相互作用的模型建立装置包括获取单元10、计算模块201、生成模块202和检测单元30，其中，获取单元10和检测单元30与图1所示实施例的功能相同，在此不作赘述。

计算模块201用于计算分类特征的似然比。计算模块201能够计算每个分类特征的似然比，也可以计算多个分类特征的综合似然比，可以利用贝叶斯模型进行似然比的计算。

贝叶斯网络实质上是一种基于概率的不确定性推理网络。它是用来表示变量集合连接概率的图形模型，提供了一种表示因果信息的方法。贝叶斯分类模型的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。由于其严格的数学基础和良好的分类性能，贝叶斯分类模型可以处理不确定性信息。

贝叶斯网络分类模型的应用过程包括两个阶段：第一阶段是贝叶斯网络的学习，即从样本数据中构造分类器，主要是结构学习；第二阶段是贝叶斯网络的推理，即计算类结点的条件概率，对样本数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度，在实际应用中，需要对贝叶斯网络分类模型进行简化。根据对特征值间不同关联程度的假设，可以得出各种贝叶斯分类模型（如图5所示），目前研究较多的贝叶斯分类模型主要有四种，分别是：朴素贝叶斯模型、树扩展型朴素贝叶斯分类方法、网络扩展型朴素贝叶斯方法和通用贝叶斯网络方法。

对于单一分类特性或者相互完全独立的分类特性，可以利用朴素贝叶斯模型进行似然比的计算。对于有联系的分类特性，可以利用树扩展型朴素贝叶斯分类方法、网络扩展型朴素贝叶斯方法和通用贝叶斯网络方法进行似然比的计算。

图5示出了四种贝叶斯分类模型的示意图，其中，（a）朴素贝叶斯模型，（b）树扩展型朴素贝叶斯分类方法，（c）网络扩展型朴素贝叶斯方法，（d）通用贝叶斯网络方法。图中C表示分类结点，x1、x2、x3、x4表示分类属性，C和x1之间存在连接，表示该属性对于分类是有用的，x1与x2之间存在连接，表示它们之间具有相关性。在朴素贝叶斯分类器中，要求各属性之间相互独立，因此属性之间不存在连接关系。树扩展型朴素贝叶斯分类方法和网络扩展型朴素贝叶斯方法允许部分属性结点之间存在连接，但要求整体网络具有树形结构或有限定的网络结构。通用贝叶斯网络对于各结点之间的连接关系不做任何限制。

生成模块202用于由似然比得到预测模型。计算得到似然比之后，可以由似然比得到预测模型。

在贝叶斯分类模型中，为简化计算，可假定各种变量x是相对独立的，即朴素贝叶斯分类模型。朴素贝叶斯分类模型假设样本每个特征与其他特征都不相关，即认为这些属性在概率分布上相互独立。朴素贝叶斯分类模型只需要根据少量的训练数据估计出必要的参数（变量的均值和方差）。由于变量独立假设，只需要估计各个变量的方法，而不需要确定整个协方差矩阵。通常，在各变量近似独立的情况下，朴素贝叶斯方法可以得到较好的分类效果。当某些变量相关性较强时，可酌情应用其他三种模型，即树扩展型朴素贝叶斯分类方法、网络扩展型朴素贝叶斯方法和通用贝叶斯网络方法。

根据贝叶斯规则的推论，一对蛋白质相互作用在生物学证据f的支持下，其为疾病相关的相互作用的后验几率（O_post，Posterior Odds），是其为疾病相关的相互作用的先验几率（O_prior，Prior Odds）和似然比（LR，likelihood ratio）的乘积（公式4）。

O_post=O_prior×LR(f) (4)

O_prior=P(pos)÷P(neg) (5)

O_post=P(pos|f)÷P(neg|f) (6)

其中，P(pos)和P(neg)分别表示在没有任何分类特征支持下一对蛋白质相互作用是疾病相关的相互作用和非疾病相关的相互作用的概率，P(pos|f)和P(neg|f)分别表示蛋白质满足特征f支持时，其为疾病相关蛋白质的相互作用和非疾病相关蛋白质的相互作用的概率。而P(f|pos)和P(f|neg)分别表示蛋白质相互作用为疾病相关的相互作用和非疾病相关的相互作用的情况下满足证据f支持的概率。

由公式（4，5，6）可得：

LR (f) = \frac{P (f | pos)}{P (f | neg)} = \frac{{TPF}_{f}}{FP F_{f}} = \frac{{TP}_{f} / P}{{FP}_{f} / N} - - - (7)

其中，P、N分别表示所有疾病相关的蛋白质相互作用和非疾病相关蛋白质的相互作用的数目。TPF_f、FPF_f分别表示满足证据f支持的疾病相关蛋白质的相互作用和非疾病相关蛋白质的相互作用的数目。似然比LR(f)表示疾病相关的蛋白质相互作用和非疾病相关蛋白质的相互作用符合证据f支持的概率之比。根据这个定义，可以使用黄金标准数据集对分类特征f的似然比LR(f)进行统计估值。证据f的似然比越高，此相互作用为疾病相关蛋白质的相互作用的概率越大。如果似然比大于1，表明分类特征f倾向于支持此相互作用为疾病相关蛋白质的相互作用。同时，LR(f)可以反映分类特征f的预测能力。

如果某个分类特征f是多个证据f₁,…,f_n的联合条件，则在f₁,…,f_n条件独立的情况下，这些评估证据的联合似然比LR(f₁,…,f_n)可以通过各独立似然比的乘积得到（公式8）。这就是常说的朴素贝叶斯网络，其假设称为类条件独立假设。

LR (f_{1} . . . f_{n}) = Π_{i = 1}^{i = n} (\frac{P (f_{i} | pos)}{P (f_{i} | neg)}) = Π_{i = 1}^{i = n} LR (f_{i}) - - - (8)

图6是根据本发明第五实施例蛋白质相互作用的模型建立装置的示意图。该图所示实施例可以作为图1所示实施例的具体实施方式，该蛋白质相互作用的模型建立装置包括获取单元10、生成单元20、检测单元30、结果获取单元40、参考单元50和验证单元60，其中，获取单元10、生成单元20和检测单元30与图1所示实施例中的获取单元10、生成单元20和检测单元30功能相同，在此不做赘述。

结果获取单元40用于在根据预测模型检测疾病相关的蛋白质相互作用之后，获取预测模型的检测结果。获取预测模型的检测结果可以是预测模型检测疾病相关的蛋白质相互作用的准确率。检测结果可以是该预测模型对标准数据集中的数据进行检测的结果，该预测模型能够检测标准数据集中全部数据或者部分数据的疾病相关蛋白质的相互作用或非疾病相关蛋白质的相互作用。

参考单元50用于获取参考样品集。参考样品集用于验证检测结果的准确性。参考样品集的疾病相关蛋白质相互作用与非疾病相关蛋白质相互作用的数据都是已知的，用于对检测结果进行对比和验证。

验证单元60用于利用参考样品集验证检测结果的准确性。验证单元可以验证检测结果的准确性，从而验证预测模型预测的准确性。如果预测准确率大于预定准确率阈值，则模型建立成功；如果预测准确率小于预定准确率阈值，则对预测模型进行校正。

验证的方法可以采用交叉验证或者独立测试集对预测模型的检测结果进行验证。独立测试集可以是参考单元获取的参考样品集，该独立测试集的蛋白质样品与标准数据集中的蛋白质样品相互独立，相互独立是独立测试集中的蛋白质相互作用与标准数据集中蛋白质相互作用的生物学特征没有相关性。独立测试集中的蛋白质相互作用与疾病相关的概率是已知的。利用得到的预测模型对独立测试集中的疾病相关蛋白质相互作用进行检测，将检测结果与独立测试集的已知概率进行对比，如果检测结果与已知的结果进行比较后的阈值达到预定值，则得到的预测模型准确，如果检测结果与已知的结果进行比较后的阈值未达到预定值，则得到的预测模型不准确，需要进行修订。

交叉验证的方法可以利用标准数据集作为参考数据集。将标准数据集中的一部分做测试集，另一部分做训练集。例如：测试集包括5份样品，轮流将其中4份做训练1份做测试，将5次的结果的均值作为验证结果。通过交叉验证得到的结果与预定阈值比较，如果达到阈值，则得到的预测模型准确，如果未达到阈值，则模型不准确，需要进行修订。

本发明实施例还提供了一种蛋白质相互作用的模型建立方法。本发明实施例的蛋白质相互作用的模型建立方法可以通过本发明实施例所提供的蛋白质相互作用的模型建立装置来执行，本发明实施例的蛋白质相互作用的模型建立装置也可以用于执行本发明实施例所提供的蛋白质相互作用的模型建立方法。

图7是根据本发明第一实施例的蛋白质相互作用的模型建立方法的流程图。如图所示，该方法包括如下步骤：

步骤S101，获取蛋白质相互作用的分类特征。蛋白质相互作用与疾病相关，能够通过蛋白质的相互作用解释疾病的发生机制。蛋白质具有很多生物学特征，可以利用这些特征区分疾病相关蛋白质的相互作用和非疾病相关蛋白质的相互作用，将这些用来表征疾病相关蛋白质相互作用和非疾病相关蛋白质的相互作用差异的生物学特征称为分类特征。

Enrichment_ratio = \frac{\frac{m}{M}}{\frac{n}{N}} - - - (1)

p - value = Σ_{m^{'} = m}^{n} \frac{(\begin{matrix} M \\ m^{'} \end{matrix}) (\begin{matrix} N - M \\ n - m^{'} \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})} (Enrichment_ratio &GreaterEqual; 1) - - - (2)

p - value = Σ_{m^{'} = 0}^{m} \frac{(\begin{matrix} M \\ m^{'} \end{matrix}) (\begin{matrix} N - M \\ n - m^{'} \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})} (Enrichment_ratio < 1) - - - (3)

对于特定的功能注释条目T，假定蛋白质数据库中存储的所有蛋白质的数目为N，注释为该条目的所有蛋白质数目为n；疾病相关标准数据集中存储的蛋白质的数目为M，注释为该条目的蛋白质数目为m。Enrichment_ratio表示相对数据库中所有蛋白在该条目中的功能注释情况，标准数据集中的疾病相关蛋白在该注释条目中的富集程度。如果Enrichment_ratio>1，那么其相对富集；如果Enrichment_ratio<1，那么其相对缺乏。同时，可计算出相应的疾病相关蛋白质和非疾病相关蛋白质的差值P。通过限定显著性阈值，如P-value<0.01，可发现多个与疾病相关的注释条目。

分类特征还可以是基因表达信息。基因表达信息可以是在基因到蛋白质的转录过程中，转录物的浓度与蛋白质浓度的共表达系数。

步骤S102，根据分类特征得到蛋白质相互作用的预测模型。在获取到蛋白质相互作用的分类特征之后，根据分类特征得到蛋白质相互作用的预测模型。蛋白质相互作用的模型可以根据获取的任意一种分类特征经过计算得到，还可以根据多种分类特征经计算得到，得到的蛋白质相互作用的预测模型能够用来预测蛋白质相互作用，优选地，可以利用该预测模型预测疾病相关的蛋白质相互作用，从而发现疾病的发生机制。

步骤S103，根据预测模型检测疾病相关的蛋白质相互作用。预测模型可以检测蛋白质的相互作用，可以根据蛋白质的分类特性得到对疾病相关蛋白质相互作用和非疾病相关蛋白质相互作用进行分类，从而发现疾病相关蛋白质相互作用。

图8是根据本发明实施例的获取蛋白质相互作用的分类特征的流程图。图8所示实施例的获取蛋白质相互作用的分类特征可以作为图7所示步骤101的优选实施方式，如图所示，该方法包括如下步骤：

步骤S201，查询疾病相关的蛋白质相互作用，得到标准阳性数据集。查询蛋白质相互作用数据库中查询疾病相关的蛋白质相互作用，从该蛋白质相互作用数据库中随机挑选一部分疾病相关的蛋白质相互作用作为标准阳性数据集。

步骤S202，查询非疾病相关的蛋白质相互作用，得到标准阴性数据集。查询蛋白质相互作用数据库中查询非疾病相关的蛋白质相互作用，从该蛋白质相互作用数据库中随机挑选一部分非疾病相关的蛋白质相互作用作为标准阴性数据集。将标准阳性数据集和标准阴性数据集作为标准数据集。

步骤S203，标准阳性数据集和标准阴性数据集作为标准数据集。将标准阳性数据集和标准阴性数据集作为标准数据集。标准数据集中包含了疾病相关蛋白质的相互作用的数据和非疾病相关蛋白质的相互作用的数据。

步骤S204，从标准数据集中提取分类特征。标准数据集中包含标准阳性数据集和标准阴性数据集，分别表示疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据，分别从疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据中提取一种或多种生物学特征作为分类特征。为了便于对比疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据，从疾病相关的蛋白质相互作用数据和非疾病相关的蛋白质相互作用数据中提取的分类特征可以是生物学特征中的同一类特征。

图9是根据本发明第二实施例的蛋白质相互作用的模型建立方法的流程图。如图所示，该方法包括如下步骤：

步骤S301，获取基因芯片数据。基因芯片数据来自基因芯片数据库，可以从基因芯片数据库中查询到疾病相关基因的信息和非疾病相关基因的信息。

步骤S302，从基因芯片数据中提取分类特征。从基因芯片数据中提取疾病与非疾病状态下的基因表达差异，将该基因表达差异作为分类特征。

步骤S303，根据分类特征得到蛋白质相互作用的预测模型。在获取到蛋白质相互作用的分类特征之后，根据分类特征得到蛋白质相互作用的预测模型。蛋白质相互作用的模型可以根据获取的任意一种分类特征经过计算得到，还可以根据多种分类特征经计算得到，得到的蛋白质相互作用的预测模型能够用来预测蛋白质相互作用，优选地，可以利用该预测模型预测疾病相关的蛋白质相互作用，从而发现疾病的发生机制。

步骤S304，根据预测模型检测疾病相关的蛋白质相互作用。预测模型可以检测蛋白质的相互作用，可以根据蛋白质的分类特性得到对疾病相关蛋白质相互作用和非疾病相关蛋白质相互作用进行分类，从而发现疾病相关蛋白质相互作用。

图10是根据本发明第三实施例的蛋白质相互作用的模型建立方法的流程图。如图所示，该方法包括如下步骤：

步骤S401，获取蛋白质相互作用的分类特征。蛋白质相互作用与疾病相关，能够通过蛋白质的相互作用解释疾病的发生机制。蛋白质具有很多生物学特征，可以利用这些特征区分疾病相关蛋白质的相互作用和非疾病相关蛋白质的相互作用，将这些用来表征疾病相关蛋白质相互作用和非疾病相关蛋白质的相互作用差异的生物学特征称为分类特征。

步骤S402，根据分类特征得到蛋白质相互作用的预测模型。在获取到蛋白质相互作用的分类特征之后，根据分类特征得到蛋白质相互作用的预测模型。蛋白质相互作用的模型可以根据获取的任意一种分类特征经过计算得到，还可以根据多种分类特征经计算得到，得到的蛋白质相互作用的预测模型能够用来预测蛋白质相互作用，优选地，可以利用该预测模型预测疾病相关的蛋白质相互作用，从而发现疾病的发生机制。

步骤S403，根据预测模型检测疾病相关的蛋白质相互作用。预测模型可以检测蛋白质的相互作用，可以根据蛋白质的分类特性得到对疾病相关蛋白质相互作用和非疾病相关蛋白质相互作用进行分类，从而发现疾病相关蛋白质相互作用。

步骤S404，计算分类特征的似然比。计算模块201能够计算每个分类特征的似然比，也可以计算多个分类特征的综合似然比，可以利用贝叶斯模型进行似然比的计算。

步骤S405，由似然比得到预测模型。计算得到似然比之后，可以由似然比得到预测模型。

在贝叶斯分类模型中，为简化计算，可假定各种变量x是相对独立的，即朴素贝叶斯分类模型。朴素贝叶斯分类模型假设样本每个特征与其他特征都不相关，即认为这些属性在概率分布上相互独立。朴素贝叶斯分类模型只需要根据少量的训练数据估计出必要的参数（变量的均值和方差）。由于变量独立假设，只需要估计各个变量的方法，而不需要确定整个协方差矩阵。

O_post=O_prior×LR(f) (4)

O_prior=P(pos)÷P(neg) (5)

O_post=P(pos|f)÷P(neg|f) (6)

由公式（4，5，6）可得：

LR (f) = \frac{P (f | pos)}{P (f | neg)} = \frac{{TPF}_{f}}{FP F_{f}} = \frac{{TP}_{f} / P}{{FP}_{f} / N} - - - (7)

LR (f_{1} . . . f_{n}) = Π_{i = 1}^{i = n} (\frac{P (f_{i} | pos)}{P (f_{i} | neg)}) = Π_{i = 1}^{i = n} LR (f_{i}) - - - (8)

图11是根据本发明第四实施例的蛋白质相互作用的模型建立方法的流程图。如图所示，该方法包括如下步骤：

步骤S501，获取蛋白质相互作用的分类特征。蛋白质相互作用与疾病相关，能够通过蛋白质的相互作用解释疾病的发生机制。蛋白质具有很多生物学特征，可以利用这些特征区分疾病相关蛋白质的相互作用和非疾病相关蛋白质的相互作用，将这些用来表征疾病相关蛋白质相互作用和非疾病相关蛋白质的相互作用差异的生物学特征称为分类特征。

步骤S502，根据分类特征得到蛋白质相互作用的预测模型。在获取到蛋白质相互作用的分类特征之后，根据分类特征得到蛋白质相互作用的预测模型。蛋白质相互作用的模型可以根据获取的任意一种分类特征经过计算得到，还可以根据多种分类特征经计算得到，得到的蛋白质相互作用的预测模型能够用来预测蛋白质相互作用，优选地，可以利用该预测模型预测疾病相关的蛋白质相互作用，从而发现疾病的发生机制。

步骤S503，根据预测模型检测疾病相关的蛋白质相互作用。预测模型可以检测蛋白质的相互作用，可以根据蛋白质的分类特性得到对疾病相关蛋白质相互作用和非疾病相关蛋白质相互作用进行分类，从而发现疾病相关蛋白质相互作用。

步骤S504，获取预测模型的检测结果。获取预测模型的检测结果可以是预测模型检测疾病相关的蛋白质相互作用的准确率。检测结果可以是该预测模型对标准数据集中的数据进行检测的结果，该预测模型能够检测标准数据集中全部数据或者部分数据的疾病相关蛋白质的相互作用或非疾病相关蛋白质的相互作用。

步骤S505，获取参考样品集。参考样品集用于验证检测结果的准确性。参考样品集的疾病相关蛋白质相互作用与非疾病相关蛋白质相互作用的数据都是已知的，用于对检测结果进行对比和验证。

步骤S506，利用参考样品集验证检测结果的准确性。验证单元可以验证检测结果的准确性，从而验证预测模型预测的准确性。如果预测准确率大于预定准确率阈值，则模型建立成功；如果预测准确率小于预定准确率阈值，则对预测模型进行校正。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质相互作用的模型建立方法，其特征在于，包括：

获取蛋白质相互作用的分类特征；

根据所述分类特征得到蛋白质相互作用的预测模型；以及

根据所述预测模型检测疾病相关的蛋白质相互作用。

2.根据权利要求1所述的蛋白质相互作用的模型建立方法，其特征在于，获取蛋白质相互作用的分类特征包括：

查询疾病相关的蛋白质相互作用，得到标准阳性数据集；

查询非疾病相关的蛋白质相互作用，得到标准阴性数据集；

所述标准阳性数据集和所述标准阴性数据集作为标准数据集；以及

从所述标准数据集中提取所述分类特征。

3.根据权利要求1所述的蛋白质相互作用的模型建立方法，其特征在于，获取蛋白质相互作用的分类特征包括：

获取基因芯片数据；以及

从所述基因芯片数据中提取所述分类特征。

4.根据权利要求1所述的蛋白质相互作用的模型建立方法，其特征在于，根据所述分类特征得到蛋白质相互作用的预测模型包括：

计算所述分类特征的似然比；以及

由所述似然比得到所述预测模型。

5.根据权利要求1所述的蛋白质相互作用的模型建立方法，其特征在于，在根据所述预测模型检测疾病相关的蛋白质相互作用之后，所述蛋白质相互作用的模型建立方法还包括：

获取所述预测模型的检测结果；

获取参考样品集；以及

利用所述参考样品集验证所述检测结果的准确性。

6.一种蛋白质相互作用的模型建立装置，其特征在于，包括：

获取单元，用于获取蛋白质相互作用的分类特征；

生成单元，用于根据所述分类特征得到蛋白质相互作用的预测模型；以及

检测单元，用于根据所述预测模型检测疾病相关的蛋白质相互作用。

7.根据权利要求6所述的蛋白质相互作用的模型建立装置，其特征在于，所述获取单元包括：

第一查询模块，用于查询疾病相关的蛋白质相互作用，得到标准阳性数据集；

第二查询模块，用于查询非疾病相关的蛋白质相互作用，得到标准阴性数据集，其中，所述标准阳性数据集和所述标准阴性数据集作为标准数据集；以及

第一提取模块，用于从所述标准数据集中提取所述分类特征。

8.根据权利要求6所述的蛋白质相互作用的模型建立装置，其特征在于，所述获取单元包括：

获取模块，用于获取基因芯片数据；以及

第二提取模块，用于从所述基因芯片数据中提取所述分类特征。

9.根据权利要求6所述的蛋白质相互作用的模型建立装置，其特征在于，所述生成单元包括：

计算模块，用于计算所述分类特征的似然比；以及

生成模块，用于由所述似然比得到所述预测模型。

10.根据权利要求6所述的蛋白质相互作用的模型建立装置，其特征在于，所述蛋白质相互作用的模型建立装置还包括：

结果获取单元，用于在根据所述预测模型检测疾病相关的蛋白质相互作用之后，获取所述预测模型的检测结果；

参考单元，用于获取参考样品集；以及

验证单元，用于利用所述参考样品集验证所述检测结果的准确性。