CN110544506B

CN110544506B - 基于蛋白互作网络的靶点PPIs可药性预测方法及装置

Info

Publication number: CN110544506B
Application number: CN201910796905.7A
Authority: CN
Inventors: 桑运霞; 左冰云; 阚海亮; 宋青芳
Original assignee: Shanghai Yuanzi Biotechnology Co ltd
Current assignee: Shanghai Yuanzi Biotechnology Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-02-11
Anticipated expiration: 2039-08-27
Also published as: CN110544506A

Abstract

本发明提供一种基于蛋白互作网络的靶点PPIs可药性预测方法，至少包括以下步骤：S1：检测PPI网络中互作蛋白结构域的互作关系；S2：探测PPI网络中互作蛋白表面的药物小分子结合口袋；S3：获得PPI网络中互作蛋白的GO功能相似性分值；S4：筛选出同时满足以下条件的PPIs作为药物治疗靶点：蛋白互作关系对存在结构域互作；蛋白互作关系对中，至少有一个蛋白表面存在小分子药物结合口袋；蛋白互作关系对的互作蛋白的GO功能类别中，至少两类具有显著相似性，所述GO功能类别包括GO BP、GO MF和GO CC。本发明同时采用严格的三个相互独立标准全面探索和发现目标PPI，系统排除了假阳性相互作用，选择更可靠的PPIs作为药物靶点，计算结果更符合客观现实。

Description

基于蛋白互作网络的靶点PPIs可药性预测方法及装置

技术领域

本发明涉及生物信息学领域，特别是涉及一种基于蛋白互作网络的靶点PPIs可药性预测方法及装置。

背景技术

自从人类基因组测序项目完成以来，人们提出了各种各样的计算机方法来评估所有尚未被药物靶向的人类蛋白质的可药性，并发现新的药物靶标蛋白。这些方法使用了已知目标蛋白的功能、配体相关和物理化学性质的“组学”数据。具有酶活性并参与细胞信号传导的蛋白质是新药研发的热门靶点，基于酶活性在信号传递中的重要作用，寻找特异性针对酶活性的抑制剂或激活剂已成为新药开发的研究热点，一批很有效的药物或药物先导物已经出现。但是鉴于酶活性除了参与病理过程外也参与到正常的生理过程中，使这些药物的临床应用受到很大限制，因为这些药物除了抑制病理过程外，也影响到正常生理过程，产生很大的副作用。

在生物体中，大多数蛋白质都是通过与其它蛋白的相互作用来显示其生物学功能，许多关键的细胞功能包括细胞生长、DNA复制、转录活性、翻译和跨膜信号转导都由多蛋白质复合物调控，而这种蛋白质复合物的功能、活性和特殊性通常由发生于不同复合物亚单元之间的蛋白质-蛋白质相互作用控制。PPIs在生物体的各种细胞过程中起着基础和关键的作用，有研究已经证明异常的PPIs能引发包括癌症、感染疾病和神经退行性疾病等多种人类疾病。因此，蛋白质-蛋白质相互作用(PPIs)对于小分子药物干预治疗人类疾病来说是一个很有吸引力的靶点。

先前关于药物靶向PPIs研究中，针对的PPI大多数都是研究者根据自己的兴趣而任意选择的，很少有基于整个PPI网络水平旨在发现或选择目标PPI的研究。在这个迅速发现PPIs 和积累各种类型的组学数据的时代，有必要开发一种方法，通过综合评估PPIs的可药性和利用组学数据来有效地选择药物靶点PPIs。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于蛋白互作网络的靶点 PPIs可药性预测方法及装置，基于整个PPI网络水平客观严谨地挖掘药物小分子靶向PPIs。

本发明的开发基于靶向PPIs而不是单一蛋白，能够发现更多的潜在药物靶点。这是因为人类蛋白相互作用关系对要远远大于单个蛋白的数量，同时许多与PPI形成有关但在传统方法中并不是药物靶向的结合口袋变得容易获得，有研究表明，利用α螺旋结合槽的蛋白质- 蛋白质界面可能特别适合药物小分子的发现例如BAK/BCL2,BAK/BCL-XL,p53/MDM2。

本发明以三个独立的评估标准对PPI进行严格筛选，从而选择更可靠的蛋白相互作用作为药物靶标，降低了假阳性。

为实现上述目的及其他相关目的，本发明第一方面提供一种基于蛋白互作网络的靶点 PPIs可药性预测方法，所述方法至少包括以下步骤：

S1：检测PPI网络中互作蛋白结构域的互作关系；

S2：探测PPI网络中互作蛋白表面的药物小分子结合口袋；

S3：获得PPI网络中互作蛋白的GO功能相似性分值；

S4：筛选出同时满足以下条件的PPIs作为药物治疗靶点：

i)蛋白互作关系对存在结构域互作；

ii)蛋白互作关系对中，至少有一个蛋白表面存在小分子药物结合口袋；

iii)蛋白互作关系对的互作蛋白的GO功能类别中，至少两类具有显著相似性，所述 GO功能类别包括GO BP、GO MF和GO CC。

本发明第二方面提供一种基于蛋白互作网络的靶点PPIs可药性预测装置，所述装置包括：

结构域互作关系检测模块，用于检测PPI网络中互作蛋白结构域的互作关系；

药物小分子结合口袋探测模块，用于探测PPI网络中互作蛋白表面的药物小分子结合口袋；

GO功能相似性分值获得模块，用于获得PPI网络中互作蛋白的GO功能相似性分值；

筛选模块，用于筛选出同时满足以下条件的PPIs作为药物治疗靶点：

i)蛋白互作关系对存在结构域互作；

iii)蛋白互作关系对的互作蛋白的GO功能类别中，至少两类具有显著相似性，所述GO功能类别包括GO BP、GO MF和GO CC。

在条件i)中，不仅对蛋白结构域进行了搜索与挖掘，同时基于多个公共数据库进一步确定互作蛋白之间是否存在结构域的互作，提高了药物的靶向单一性。这是因为如果大量相互作用的蛋白质均包含药物小分子的靶向域，并且该结构域同时和其它几个域发生互作，那么药物小分子很可能通过抑制对生物体必不可少的非靶向PPI而导致非目标效应。因此，互作蛋白之间的互作结构域如果能在公共数据库得到证实，将进一步提高药物的靶向单一性。

本发明第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述基于蛋白互作网络的靶点PPIs可药性预测方法。

本发明第四方面提供一种计算机处理设备，包括处理器及前述的计算机可读存储介质，所述处理器执行所述计算机可读存储介质上的计算机程序，实现前述基于蛋白互作网络的靶点PPIs可药性预测方法的步骤。

本发明第五方面提供一种电子终端，包括：处理器、存储器、及通信器；所述存储器用于存储计算机程序，所述通信器用于与外部设备进行通信连接，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行前述的基于蛋白互作网络的靶点PPIs可药性预测方法。

如上所述，本发明的基于蛋白互作网络的靶点可药性预测方法及装置，具有以下有益效果：

1)本方法的开发基于靶向PPIs而不是单一蛋白，能够发现更多的潜在药物靶点。同时是基于整个PPI网络水平旨在发现目标PPI，而不是根据研究者自己的兴趣等主观因素选择少数几对PPI进行研究。

2)本方法以三个独立的评估标准对PPI进行严格筛选，从而选择更可靠的蛋白相互作用作为药物靶标，降低了假阳性。

3)可以结合其它计算机辅助预测药物方法，例如预测蛋白质三级结构上的相互作用界面，预测无序区域，以及评估编码这两个相互作用蛋白mRNA表达模式的相似性，从而以更精确的标准来筛选候选药物靶向PPI。

4)本发明不同于传统的寻找特异性针对单个酶活性的抑制剂或激活剂等新药开发的方法，规避了局限于少数膜受体和酶的缺点，而是从整个的蛋白相互作用关系网络出发，从而发现更多潜在的药物靶点；同时采用严格的三个相互独立标准全面探索和发现目标PPI，系统排除了假阳性相互作用，选择更可靠的PPIs作为药物靶点，计算结果更符合客观现实。

附图说明

图1是本发明实施例的方法的流程图。

图2是本发明实施例的装置示意图。

图3是本发明实施例中电子终端示意图。

图4是随机抽取的10000个互作关系对之间GO term相似性得分频率拟合分布图。

图5是符合三个独立标准程序的PPI关系对之间取交集结果维恩图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

此外应理解，本发明中提到的一个或多个方法步骤并不排斥在所述组合步骤前后还可以存在其他方法步骤或在这些明确提到的步骤之间还可以插入其他方法步骤，除非另有说明；还应理解，本发明中提到的一个或多个步骤之间的组合连接关系并不排斥在所述组合步骤前后还可以存在其他步骤或在这些明确提到的两个步骤之间还可以插入其他步骤，除非另有说明。而且，除非另有说明，各方法步骤的编号仅为鉴别各方法步骤的便利工具，而非为限制各方法步骤的排列次序或限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容的情况下，当亦视为本发明可实施的范畴。

请参阅图1至图5。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

名词解释：

PPIs：蛋白质-蛋白质相互作用。

互作蛋白：具有相互作用的两个蛋白。

结构域：结构域是指蛋白质中具有特异结构和独立功能的区域。

小分子药物结合口袋：配体结合口袋是指受体中配体可能结合区域的疏水氨基酸残基通过疏水相互作用所形成的一种口袋形结构。小分子药物结合口袋则是指所述配体是小分子药物。

GO BP、GO MF和GO CC：基因本体(Gene Ontology，GO)是一个在生物信息学领域中广泛使用的本体，它涵盖生物学的三个方面：生物过程(Biological Process，GO BP)、分子功能(Molecular Function，GO MF)、细胞组成(Cellular Component，GO CC)。

Pfam数据库：Pfam数据库是一个大型蛋白结构域家族的数据库，每个蛋白家族都由多个序列比对和HMMs(hidden Markovmodels，隐马尔可夫模型)所体现，在Pfam中，蛋白质家族被分为质量高低的两类：Pfam-A和Pfam-B。Pfam-A是高质量的、人工管理的蛋白质家族。Pfam-B是未经注释的、从最新发布的ADDA中非冗余聚类中自动生成的低质量蛋白质家族。可通过官方网址http://pfam.xfam.org/获得。

PDB蛋白质结构数据库：PDB蛋白质结构数据库是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库，是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。可通过官方网址http://www.rcsb.org获得。

如图1所示，展示本发明提供的基于蛋白互作网络的靶点PPIs可药性预测方法的示意图。

所述方法至少包括以下步骤：

S1：检测PPI网络中互作蛋白结构域的互作关系；

S2：探测PPI网络中互作蛋白表面的药物小分子结合口袋；

S3：获得PPI网络中互作蛋白的GO功能相似性分值；

S4：筛选出同时满足以下条件的PPIs作为药物治疗靶点：

i)蛋白互作关系对存在结构域互作；

本发明所述方法用于非治疗目的。

本发明所述的基于蛋白互作网络的靶点PPIs可药性预测方法可用于靶点PPIs筛选。

在一种实施方式中，所述步骤S1采用下列方法检测PPI网络中互作蛋白结构域的互作关系：

1)将PPI网络中所有蛋白对应的氨基酸序列作为输入，基于蛋白结构域家族数据库，确定各蛋白的结构域；

2)将蛋白互作关系对中的互作蛋白的所有结构域两两组合作为输入，基于结构域互作关系数据库，检测互作蛋白的结构域是否已知或被预测为互作关系。

所述蛋白结构域家族数据库选自Pfam数据库。

所述结构域互作关系数据库选自iPfam(http://ipfam.org)，InterDom (http:// InterDom.lit.org.sg)或DIMA(http://mips.gsf.de/genre/proj/dima/index.html)数据库中的一个或多个。

优选的，在步骤1)中，基于Pfam数据库，首先搜索PPI网络中所有蛋白的结构域，当搜索不到时，使用HMMPFAM程序基于”隐马尔可夫模型”在Pfam数据库中挖掘Pfam-A 和Pfam-B域，参数设置为-E 0.1-domE 0.1，若探测到的结构域序列长度小于10，则予以排除。

蛋白质中，一般由一个或多个功能区构成，这些区通常被称为结构域。结构域的不同组合方式产生的蛋白质在自然界中各种不同。

两个蛋白质间的相互作用涉及特殊结构域间的结合，即一个蛋白质中的一个结构域与另一个蛋白质中的一个结构域的结合，识别相互作用结构域对于理解PPI十分重要，结构域-结构域相互作用的模式在同种生物体内可重复，并且可以存在于不同生物体中，说明这些模式在生物界中被广泛保留了下来，这些模式组成了“蛋白互作识别码”，称为破译PPI的密码。

因此，在一个实施例中，我们首先以一个由99个转录因子和738个其它蛋白构成770个互作关系对的PPI网络为例，将其中包含的所有蛋白(837个)对应氨基酸序列作为输入，基于Pfam数据库，首先搜索PPI网络中所有蛋白的结构域，当搜索不到时，使用HMMPFAM程序基于”隐马尔可夫模型”在Pfam数据库中挖掘Pfam-A和Pfam-B域，参数设置为-E 0.1 -domE 0.1，同时如果探测到的结构域序列长度小于10，这样的结构域也被排除在外，这样所有蛋白的域被搜索或预测出来，统计结果如表1所示，可以看到共有97个转录因子和714个其它蛋白质符合要求。

表1 PPI网络中符合每一条标准的蛋白数量结果

	转录因子	其他蛋白质
			#蛋白数量	99	738
#含有Pfam结构域的蛋白数量	97	714
			含有单个结构域的蛋白数量	32	350
含有至少两个结构域的蛋白数量	65	364
			#三级结构已知的蛋白数量	15	51
#含有结合口袋的蛋白数量	15	43
			#能够注释到GO term的蛋白数量	97	672
细胞组分(CC)	91	600
			分子功能(MF)	93	635
生物学过程(BP)	89	591

为了判断两个互作蛋白之间的结构域互作关系，以具有互作蛋白对应的所有结构域两两组合为输入，即假如一个蛋白有3个结构域，相应互作蛋白有2个结构域，则以3×2＝6个域组合为输入，利用iPfam,InterDom和DIMA等结构域互作关系数据库进行搜索与预测，找到存在至少有一对域互作关系的PPIs。这里，假如两个互作蛋白之间只有一对结构域，我们也将该PPI关系对考虑进去，统计结果如表2所示，一共有83个PPI关系对符合要求。

表2 PPI网络中符合每一条标准的蛋白互作关系对数量结果

在一种实施方式中，所述步骤S2采用下列方法探测PPI网络中互作蛋白表面的药物小分子结合口袋：

a)将PPI网络中所有蛋白对应的氨基酸序列作为输入，基于蛋白质结构数据库，进行三级结构比对，筛选具有三级结构的蛋白；

b)根据小分子药物结合口袋的口袋体积和疏水氨基酸残基的数量，在具有三级结构的蛋白中，探测具有小分子药物结合口袋的蛋白。

由于需要根据口袋的体积和疏水氨基酸残基的数量来检测口袋，而这些口袋特性对氨基酸替换、缺失或插入引起的蛋白质三级结构的微小构象变化非常敏感，所以首先要确定PPI 网络中哪些蛋白的三级结构与公共数据库严格匹配。

蛋白质三维结构数据是基于结构药物设计的基础，但是在得到特定蛋白质三维结构之后，药物设计和研发人员仍然面临许多问题需要解决：该蛋白质是好的可药靶标吗？蛋白上的哪些位点可以进行成功的药物设计？哪些位点是好的别构调控位点？哪些位点是好的共价化合物结合位点？研究探测蛋白质表面的结合口袋，并进行可药性预测，对于蛋白质功能预测、药物靶标选择和药物设计具有重要的意义。

在一种实施方式中，步骤3)中，所述蛋白质结构数据库选自PDB蛋白质结构数据库。

在一种实施方式中，步骤3)中，通过BLASTP程序，程序参数设置为：-F F；-e0.001，然后定义如下标准：序列一致性≥90％，覆盖度≥90％，序列长度≥50，符合这三个标准的蛋白被认为具有与蛋白质结构数据库中蛋白相似一致性三级结构。所述覆盖度是指查询序列的一致性部分长度/查询序列总长度。

所述标准可根据实际情况进行幅度调整。

在一种实施方式中，步骤4)中，所述小分子药物结合口袋的疏水氨基酸残基的数量为构成口袋内氨基酸侧链的原子数或口袋内的疏水原子数。

在一种实施方式中，分别利用CASTp和MOE Alpha Site Finder口袋搜索算法，对具有三级结构的蛋白进行药物小分子结合口袋挖掘；挖掘条件：对于CASTp算法：口袋体积设为 v，满足

对于MOE Alpha Site Finder算法：构成口袋内氨基酸侧链的原子数≥37或者口袋内的疏水原子数为≥22，若满足所有挖掘条件，则作为具有小分子药物结合口袋的蛋白。

在一个实施例中，所述步骤3)包括：通过BLASTP程序，基于PDB蛋白质结构数据库，以PPI网络中所有蛋白的氨基酸序列作为输入，进行三级结构比对预测，程序参数设置为：-F F；-e 0.001，然后定义如下标准：序列一致性≥90％，覆盖度(查询序列的一致性部分长度/查询序列总长度)≥90％，序列长度≥50，符合这三个标准的蛋白被认为具有与PDB数据库中蛋白相似一致性三级结构；如果通过上述方法没有找见相似三级结构，那么利用 PSI-BLAST程序，同样基于PDB蛋白质结构数据库进行进一步搜索，参数设置为：-j 10(表示进行10次迭代搜索)。这样就找到了具有已经证实的三级结构的蛋白结果如表1所示，一共有15个转录因子和51个其它蛋白质可以找到三级结构。

在一个实施例中，基于步骤3)得到具有三级结构的蛋白，进一步探测对应蛋白表面的药物小分子结合口袋；使用CASTp和MOE Alpha Site Finder两种不同的口袋搜索算法，对其进行药物小分子结合口袋挖掘，定义如下标准：对于CASTp算法：口袋体积(v)满足

对于MOE Alpha Site Finder算法：构成口袋内氨基酸侧链的原子数≥37或者口袋内的疏水原子数为≥22。根据上述标准，从而进一步挑选出具有结合口袋的蛋白，结果统计如表1所示，一共有15个转录因子和43个其它蛋白表面具有结合口袋。

在一种实施方式中，所述步骤S3采用下列方法获得PPI网络中互作蛋白的GO功能相似性分值：

5)对PPI网络中的蛋白进行GO功能注释，统计互作蛋白共享的GO功能注释的数量；

6)按照公式(I)计算任意两个蛋白互作关系对之间，三类GO功能：GO BP、GO MF、GOCC的相似性分值，依次为S_i ^P、S_i ^F、S_i ^C；

其中，L_j表示位于GO系统等级中的第j个水平，L_{j＝1,2，....,}最高水平L_j＝1；n_ij表示待测互作蛋白i的对应两个蛋白在第j个水平共享的一致GO功能注释的数量；

在一种实施方式中，所述步骤S4的条件iii)中，随机选取若干个蛋白，以其相似性分值的频率分布来估计PPI网络中互作蛋白的GO功能相似性分值理论上出现的概率，即期望值，其次通过PPI网络中互作蛋白的GO功能相似性分值实际出现的概率，即观测值，分析期望值和观测值的差距，基于Fisher’s精确检验算法得到显著性p.value值，从而找到具有显著相似GO功能的互作蛋白。

p.value<0.05即为具有显著相似性。

随机选取的互作蛋白的数量具有统计学意义。

在一种实施方式中，选取的蛋白为来自UniProt和TrEMBL数据库同时带有GO注释的蛋白。

UniProt数据库可通过官方网址http://www.uniprot.org/获得。

TrEMBL数据库可通过官方网址http://www.ebi.ac.uk/trembl/获得。

在一种实施方式中，选取的蛋白形成10000个蛋白互作关系对。

由于GO的层次数据结构使得其中许多生物术语被高度系统地组织起来，以便对许多与生物学相关的术语进行计算处理，因此GO对于评估PPI关系对间相似的生物学意义是非常有用的。

在一个实施例中，步骤5)中，利用在线数据库QuickGO，使用UniProt或TrEMBL登录号进行PPIs中蛋白相应的GO功能注释搜索，同时按照如下标准给蛋白进行GO功能注释分配：如果某一个特定注释被分配到某个蛋白，那么按照GO(BP、MF、CC)的系统等级，从特定功能注释条目追溯到顶级功能注释条目的所有经历路径中的功能注释条目都被认为是该蛋白的GO功能注释。

QuickGO数据库可通过官方网址https://www.ebi.ac.uk/ego/获得。

步骤S4的条件iii)中，通过随机抽取来自UniProt和TrEMBL数据库同时带有GO注释的蛋白，构成10000个蛋白互作关系对，按照公式1计算每个蛋白互作关系对的GO term相似性得分，同时计算相应的得分频率分布如图4，以此来估计特定互作蛋白得分的概率，即显著性p.value值，从而找到具有显著相似GO功能的蛋白互作关系对。

经过上述计算，得到了每个PPI关系对间的三类GO term(GO BP、GO MF、GO CC) 的相似性得分S_i ^P、S_i ^F、S_i ^C及相对应的p.value值，选取三类GO term中至少有两类p.value<0.05 的互作蛋白关系对作为候选PPIs，结果如表2所示，一共有201个PPIs符合要求。

在一个实施例中，通过上述分析，分别得到了蛋白互作域预测结果、蛋白表面药物小分子结合口袋预测结果、互作蛋白的GO term相似性得分结果，继而根据如下条件：

i)蛋白互作关系对存在结构域互作，如表2所示，83对PPIs符合要求；

ii)蛋白互作关系对中，至少有一个蛋白表面存在小分子药物结合口袋，如表2所示，203

对PPIs符合要求；

iii)蛋白互作关系对的互作蛋白的GO功能类别中，至少两类具有显著相似性，所述GO 功能类别包括GO BP、GO MF和GO CC。即至少有两类具有显著性意义(p.value<0.05)，如表2所示，201对PPIs符合要求；

如果两个互作蛋白之间同时符合上述三个条件，则将对应的蛋白互作关系对(PPI)作为药物治疗靶点，最终筛选出9对PPI作为可药性PPI，如图5所示。

如图2所示，展示本发明一实施例中基于蛋白互作网络的靶点PPIs可药性预测装置，所述装置包括：

i)蛋白互作关系对存在结构域互作；

iii)蛋白互作关系对的互作蛋白的GO功能类别中，至少两类具有显著相似性，所述GO 功能类别包括GO BP、GO MF和GO CC。

在一种实施方式中，所述结构域互作关系检测模块包括以下单元：

结构域确定单元，用于将PPI网络中所有蛋白对应的氨基酸序列作为输入，基于蛋白结构域家族数据库，确定各蛋白的结构域；

结构域互作关系检测单元，用于将蛋白互作关系对中的互作蛋白的所有结构域两两组合作为输入，基于结构域互作关系数据库，检测互作蛋白的结构域是否已知或被预测为互作关系。

在一种实施方式中，所述结构域确定单元中，所述蛋白结构域家族数据库选自Pfam数据库；优选的，基于Pfam数据库，首先搜索PPI网络中所有蛋白的结构域，当搜索不到时，使用HMMPFAM程序基于”隐马尔可夫模型”在Pfam数据库中挖掘Pfam-A和Pfam-B域，参数设置为-E 0.1-domE 0.1，若探测到的结构域序列长度小于10，则予以排除。

18.如权利要求8所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，所述在一种实施方式中，所述药物小分子结合口袋探测模块包括以下单元：

三级结构筛选单元，用于将PPI网络中所有蛋白对应的氨基酸序列作为输入，基于蛋白质结构数据库，进行三级结构比对，筛选具有三级结构的蛋白；

小分子药物结合口袋探测单元，用于根据小分子药物结合口袋的口袋体积和疏水氨基酸残基的数量，在具有三级结构的蛋白中，探测具有小分子药物结合口袋的蛋白。

在一种实施方式中，所述三级结构筛选单元中，所述蛋白质结构数据库选自PDB蛋白质结构数据库；

在一种实施方式中，所述三级结构筛选单元中，通过BLASTP程序，程序参数设置为： -F F；-e 0.001，然后定义如下标准：序列一致性≥90％，覆盖度≥90％，序列长度≥50，符合这三个标准的蛋白被认为具有与蛋白质结构数据库中蛋白相似一致性三级结构；所述覆盖度是指查询序列的一致性部分长度/查询序列总长度；

在一种实施方式中，所述小分子药物结合口袋探测单元中，所述小分子药物结合口袋的疏水氨基酸残基的数量为构成口袋内氨基酸侧链的原子数或口袋内的疏水原子数。

在一种实施方式中，分别利用CASTp和MOE Alpha Site Finder口袋搜索算法，对具有三级结构的蛋白进行药物小分子结合口袋挖掘；挖掘条件：对于CASTp算法：口袋体积设为v，满足

在一种实施方式中，所述GO功能相似性分值获得模块包括以下单元：

共享GO功能注释统计单元，用于对PPI网络中的蛋白进行GO功能注释，统计互作蛋白共享的GO功能注释的数量；

GO功能相似性分值获得单元，按照公式(I)计算任意两个蛋白互作关系对之间，三类 GO功能：GO BP、GO MF、GO CC的相似性分值，依次为S_i ^P、S_i ^F、S_i ^C；

在一种实施方式中，所述筛选模块的条件iii)中，随机选取若干个蛋白，以其相似性分值的频率分布来估计PPI网络中互作蛋白的GO功能相似性分值理论上出现的概率，即期望值，其次通过PPI网络中互作蛋白的GO功能相似性分值实际出现的概率，即观测值，分析期望值和观测值的差距，基于Fisher’s精确检验算法得到显著性p.value值，从而找到具有显著相似GO功能的互作蛋白。

由于本实施例中的装置与前述方法实施例的原理基本相同，在上述方法和装置实施例中，对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用，不再重复赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，获取模块可以为单独设立的处理元件，也可以集成在某一个芯片中实现，此外，也可以以程序代码的形式存储于存储器中，由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统 (system-on-a-chip，简称SOC)的形式实现。

在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述基于蛋白互作网络的靶点PPIs可药性预测方法。

在本发明的一些实施例中，还提供了一种计算机处理设备，包括处理器及前述的计算机可读存储介质，所述处理器执行所述计算机可读存储介质上的计算机程序，实现前述基于蛋白互作网络的靶点PPIs可药性预测方法步骤。

在本发明的一些实施例中，还提供了一种电子终端，包括：处理器、存储器、及通信器；所述存储器用于存储计算机程序，所述通信器用于与外部设备进行通信连接，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行实现前述基于蛋白互作网络的靶点 PPIs可药性预测方法。

如图3所示，展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35；存储器32和通信接口34通过系统总线35与处理器31和通信器33连接并完成相互间的通信，存储器32用于存储计算机程序，通信器34、通信接口34用于和其他设备进行通信，处理器31和通信器33用于运行计算机程序，使电子终端执行如上图像分析方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect，简称 PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备 (例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器 (RandomAccessMemory，简称RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

在具体实现上，所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于蛋白互作网络的靶点PPIs可药性预测方法，所述方法至少包括以下步骤：

S1：检测PPI网络中互作蛋白结构域的互作关系；

S2：探测PPI网络中互作蛋白表面的药物小分子结合口袋；

S3：获得PPI网络中互作蛋白的GO功能相似性分值；

S4：筛选出同时满足以下条件的PPIs作为药物治疗靶点：

i)蛋白互作关系对存在结构域互作；

2.如权利要求1所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，所述步骤S1采用下列方法检测PPI网络中互作蛋白结构域的互作关系：

3.如权利要求2所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，步骤1)中，所述蛋白结构域家族数据库选自Pfam数据库。

4.如权利要求3所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，步骤1)中，基于Pfam数据库，首先搜索PPI网络中所有蛋白的结构域；当搜索不到时，使用HMMPFAM程序基于“隐马尔可夫模型”在Pfam数据库中挖掘Pfam-A和Pfam-B域，参数设置为-E 0.1-domE 0.1，若探测到的结构域序列长度小于10，则予以排除。

5.如权利要求1所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，所述步骤S2采用下列方法探测PPI网络中互作蛋白表面的药物小分子结合口袋：

3)将PPI网络中所有蛋白对应的氨基酸序列作为输入，基于蛋白质结构数据库，进行三级结构比对，筛选具有三级结构的蛋白；

4)根据小分子药物结合口袋的口袋体积和疏水氨基酸残基的数量，在具有三级结构的蛋白中，探测具有小分子药物结合口袋的蛋白。

6.如权利要求5所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，还包括以下特征中的一项或多项：

a.步骤3)中，所述蛋白质结构数据库选自PDB蛋白质结构数据库；

b.步骤3)中，通过BLASTP程序，程序参数设置为：-F F；-e 0.001，然后定义如下标准：序列一致性≥90％，覆盖度≥90％，序列长度≥50，符合这三个标准的蛋白被认为具有与蛋白质结构数据库中蛋白相似一致性三级结构；所述覆盖度是指查询序列的一致性部分长度/查询序列总长度；

c.步骤4)中，所述小分子药物结合口袋的疏水氨基酸残基的数量为构成口袋内氨基酸侧链的原子数或口袋内的疏水原子数。

7.如权利要求6所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，特征c中，分别利用CASTp和MOE Alpha Site Finder口袋搜索算法，对具有三级结构的蛋白进行药物小分子结合口袋挖掘；挖掘条件：对于CASTp算法：口袋体积设为v，满足

8.如权利要求1所述的基于蛋白互作网络的靶点PPIs可药性预测方法，其特征在于，还包括以下特征中的一项或多项：

d.所述步骤S3采用下列方法获得PPI网络中互作蛋白的GO功能相似性分值：

6)按照公式(I)计算任意两个蛋白互作关系对之间，三类GO功能：GO BP、GO MF、GO CC的相似性分值，依次为S_i ^P、S_i ^F、S_i ^C；

S_i＝∑_jL_j·n_ij (I)

e.所述步骤S4的条件iii)中，随机选取若干个蛋白，以其相似性分值的频率分布来估计PPI网络中互作蛋白的GO功能相似性分值理论上出现的概率，即期望值，其次通过PPI网络中互作蛋白的GO功能相似性分值实际出现的概率，即观测值，分析期望值和观测值的差距，基于Fisher’s精确检验算法得到显著性p.value值，从而找到具有显著相似GO功能的互作蛋白。

9.一种基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，所述装置包括：

i)蛋白互作关系对存在结构域互作；

10.如权利要求9所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，所述结构域互作关系检测模块包括以下单元：

11.如权利要求10所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，结构域确定单元中，所述蛋白结构域家族数据库选自Pfam数据库。

12.如权利要求11所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，结构域确定单元中，基于Pfam数据库，首先搜索PPI网络中所有蛋白的结构域，当搜索不到时，使用HMMPFAM程序基于“隐马尔可夫模型”在Pfam数据库中挖掘Pfam-A和Pfam-B域，参数设置为-E 0.1-domE 0.1，若探测到的结构域序列长度小于10，则予以排除。

13.如权利要求9所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，所述药物小分子结合口袋探测模块包括以下单元：

14.如权利要求13所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，还包括以下特征中的一项或多项：

a.所述三级结构筛选单元中，所述蛋白质结构数据库选自PDB蛋白质结构数据库；

b.所述三级结构筛选单元中，通过BLASTP程序，程序参数设置为：-F F；-e 0.001，然后定义如下标准：序列一致性≥90％，覆盖度≥90％，序列长度≥50，符合这三个标准的蛋白被认为具有与蛋白质结构数据库中蛋白相似一致性三级结构；所述覆盖度是指查询序列的一致性部分长度/查询序列总长度；

c.所述小分子药物结合口袋探测单元中，所述小分子药物结合口袋的疏水氨基酸残基的数量为构成口袋内氨基酸侧链的原子数或口袋内的疏水原子数。

15.如权利要求14所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，特征c中，分别利用CASTp和MOE Alpha Site Finder口袋搜索算法，对具有三级结构的蛋白进行药物小分子结合口袋挖掘；挖掘条件：对于CASTp算法：口袋体积设为v，满足

16.如权利要求9所述的基于蛋白互作网络的靶点PPIs可药性预测装置，其特征在于，还包括以下特征中的一项或多项：

d.所述GO功能相似性分值获得模块包括以下单元：

GO功能相似性分值获得单元，按照公式(I)计算任意两个蛋白互作关系对之间，三类GO功能：GO BP、GO MF、GO CC的相似性分值，依次为S_i ^P、S_i ^F、S_i ^C；

S_i＝∑_jL_j·n_ij (I)

e.所述筛选模块的条件iii)中，随机选取若干个蛋白，以其相似性分值的频率分布来估计PPI网络中互作蛋白的GO功能相似性分值理论上出现的概率，即期望值，其次通过PPI网络中互作蛋白的GO功能相似性分值实际出现的概率，即观测值，分析期望值和观测值的差距，基于Fisher’s精确检验算法得到显著性p.value值，从而找到具有显著相似GO功能的互作蛋白。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任一所述的基于蛋白互作网络的靶点PPIs可药性预测方法。

18.一种计算机处理设备，包括处理器及权利要求17所述的计算机可读存储介质，其特征在于，所述处理器执行所述计算机可读存储介质上的计算机程序，实现权利要求1-8任一所述的基于蛋白互作网络的靶点PPIs可药性预测方法的步骤。

19.一种电子终端，其特征在于，包括：处理器、存储器、及通信器；所述存储器用于存储计算机程序，所述通信器用于与外部设备进行通信连接，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1-8任一所述的基于蛋白互作网络的靶点PPIs可药性预测方法。