CN114420198A - 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 - Google Patents
蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 Download PDFInfo
- Publication number
- CN114420198A CN114420198A CN202210006382.3A CN202210006382A CN114420198A CN 114420198 A CN114420198 A CN 114420198A CN 202210006382 A CN202210006382 A CN 202210006382A CN 114420198 A CN114420198 A CN 114420198A
- Authority
- CN
- China
- Prior art keywords
- amino acid
- protein
- area
- information
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 150000001413 amino acids Chemical class 0.000 claims abstract description 158
- 150000001875 compounds Chemical class 0.000 claims abstract description 9
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 238000000638 solvent extraction Methods 0.000 claims abstract description 7
- 239000002253 acid Substances 0.000 claims description 48
- 230000002209 hydrophobic effect Effects 0.000 claims description 42
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 claims description 36
- 230000002378 acidificating effect Effects 0.000 claims description 30
- 239000003446 ligand Substances 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- ROMPPAWVATWIKR-UHFFFAOYSA-N 4-[3-(4-chlorophenyl)-1,2,4-oxadiazol-5-yl]butanoic acid Chemical compound O1C(CCCC(=O)O)=NC(C=2C=CC(Cl)=CC=2)=N1 ROMPPAWVATWIKR-UHFFFAOYSA-N 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000013515 script Methods 0.000 description 6
- 230000004850 protein–protein interaction Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 240000005499 Sasa Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 125000003277 amino group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- QCAWEPFNJXQPAN-UHFFFAOYSA-N methoxyfenozide Chemical compound COC1=CC=CC(C(=O)NN(C(=O)C=2C=C(C)C=C(C)C=2)C(C)(C)C)=C1C QCAWEPFNJXQPAN-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开一种蛋白质‑蛋白质结合亲和力的预测方法,包括:获取蛋白质‑蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质‑蛋白质复合物中原子的表面信息和界面信息;按照氨基酸类型将所述蛋白质‑蛋白质复合物中原子的表面信息和界面信息进行划分;通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质‑蛋白质复合物中多个原子的亲和力信息。
Description
技术领域
本发明属于计算机技术领域,尤其是一种蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质。
背景技术
蛋白质-蛋白质相互作用是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体的过程,其构成了细胞生化反应网络的主要组成部分。
蛋白质-蛋白质复合物结构是蛋白质-蛋白质相互作用的产物和形式。从结构上刻画和阐明蛋白质-蛋白质相互作用的决定因素,有助于更深刻地理解相关生物学过程的机制、更清楚地了解疾病的发病机理和更高效地设计蛋白质药物。作为与之紧密相关的研究方向之一,蛋白质-蛋白质复合物结构中的几何特性与结合亲和力之间的定量关系的研究越来越多。。例如,蛋白质-蛋白质结合亲和力预测的微模型,使用了蛋白质-蛋白质的界面面积和结合前后界面氨基酸Cα原子均方根位移的平方。该模型只考虑界面信息。预测蛋白质-蛋白质结合亲和力的全局表面模型(Global Surface Model):PRODIGY(PROteinbinDIng enerGY prediction),使用了不同类型的界面原子对或界面氨基酸接触的数目和不同类型的表面氨基酸的百分比。该模型同时考虑界面和表面信息,界面信息用接触数表示,表面信息用不同类型表面氨基酸的百分比表示。一个蛋白质-蛋白质结合能的微预测器,使用了不同类型氨基酸的界面面积。该预测器只考虑界面信息,属于经典界面模型(Classical Interface Model)。一个预测蛋白质-蛋白质结合亲和力的界面氨基酸数目模型(Interface Amino Acid Count Model)。该模型只考虑界面信息,属于经典界面模型(Classical Interface Model)。一个蛋白质-蛋白质亲和力预测的非线性模型:LISA(Local Interaction Signal Analysis),使用了描述界面上偏好接触和非偏好接触的项、不同类型或区域的界面氨基酸的贡献、非相互作用的带电氨基酸和二级结构的贡献[5]。该模型同时考虑界面和表面信息,界面信息用偏好接触、非偏好接触、氨基酸的不同类型或区域以及二级结构刻画,表面信息用带电表面氨基酸的百分比表示。
以上模型无法准确预测蛋白质-蛋白质结合亲和力,且无法有效的刻画和整合蛋白质-蛋白质复合物的界面信息和表面信息。
发明内容
为解决上述技术问题,本发明创造的实施例提供一种蛋白质-蛋白质结合亲和力的预测方法,包括:
获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。进一步地,包括:
利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
进一步地,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8。
进一步,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18。
一种蛋白质-蛋白质结合亲和力的预测装置,包括:
获取模块,用于获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
处理模块,用于按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
执行模块,用于通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
进一步地,还包括:
第一处理子模块,用于利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
第二处理子模块,用于利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
进一步地,还包括:
第三处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8。
进一步地,还包括:
第四处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上所述蛋白质-蛋白质结合亲和力的预测方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上所述蛋白质-蛋白质结合亲和力的预测方法的步骤。
本发明实施例通过氨基酸的类型来划分和整合蛋白质的界面和表面面积来预测蛋白质和蛋白质的亲和力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的蛋白质-蛋白质结合亲和力的预测方法的流程示意图;
图2为本发明实施例提供的计算原子表面面积的二维示意图;
图3为本发明实施例提供的计算原子界面面积的二维示意图;
图4为本发明实施例提供的蛋白质-蛋白质结合亲和力的预测装置基本结构框图;
图5为本发明实施例提供的计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供一种蛋白质-蛋白质结合亲和力的预测方法,如图1所示,该方法具体包括如下步骤:
S1、获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
结构信息包括:蛋白质-蛋白质复合物的结构文件,例如,受体的链号,配体的链号。
本发明实施例中,根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息具体包括:
步骤一、利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
步骤二、利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
本发明实施例中,蛋白质-蛋白质复合物的界面和表面信息均用面积刻画,蛋白质-蛋白质复合物中的原子表面面积和界面氨基酸对的接触界面分别用dr_sasa和Qcontact计算。
其中,dr_sasa用一个改进的Shrake-Rupley算法(‘rolling ball’算法)计算原子表面面积(溶剂可接触面积)。如图2所示,图2是dr_sasa计算原子表面面积的二维示意图。在图2中,A、B、C代表原子(其中,原子B和C作为探针),圆的半径是原子的范德华半径原子A的表面面积由面积1、2和3三部分组成,面积1和2是原子A和B之间的接触面积,面积2和3是原子A和C的接触面积。为了避免在计算原子A的表面面积时,重复计算面积2,原子A和B之间的接触面积为面积1与面积2的一半之和,原子A和C之间的接触面积为面积3与面积2的一半之和。
Qcontact用一个基于Voronoi多面体的方法计算界面原子的接触面积。图3是Qcontact计算原子界面面积的二维示意图。在图3中,a、b、c、d、e、f代表原子,内部的小圆(黄色或绿色)以原子的范德华半径为半径,外部的圆(黑色或橘色)以范德华半径为半径。中心原子a与邻近不同原子的接触面积为一个多面体的不同侧面积。面积1、2和3分别为原子a与b、c和f之间的接触面积。另外,Qcontact还会考虑水分子介导的接触面积。
S2、按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8。
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18。
S3、通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
本发明实施例用线性模型、非线性模型和混合模型整合界面和表面信息,以预测蛋白质-蛋白质结合亲和力。目前,从训练或构建的模型中,挑出了60个模型作为代表,整合不同的界面和表面面积,以预测蛋白质-蛋白质结合亲和力。这60个代表模型包括:
1、12个线性模型:具体形式如表1所示,K为解离常数或抑制常数,A1、A2…A18为不同的界面和表面面积。
表1.个线性模型的形式
2、6个构建的非线性模型:具体形式如下所示。
log(K)=-0.3042859089144x-4.313861052
log(K)=6173.14626206173x-10.9451091646642
log(K)=-0.00194823682341253x-3.60632288257436
log(K)=-0.000995978533158535x-3.40762240628879
log(K)=-0.000297405827677228x-3.10137180970196
log(K)=-0.0494567261584352x+1.02656054246774
3、5个基于构建的非线性模型的混合模型:具体形式如下所示。
log(K)=2123.51554728111x1-0.00076154614x2-0.009117371x3-6.81901
log(K)=11101.3438625x1-0.0024382248x2-10.14654806
log(K)=9324.87836043513x1-1.0264057483x2-0.02888991233x3-29.8937019x4+0.000038582x5+0.6532806x6-0.000086271984x7-10.96338
log(K)=10653.84007381x1-0.844635959x2-0.663819162574532x3+0.010170716x4-56.13299101x5+1.6289367716x6-0.018383451x7-11.3611942
l0g(K)=8448.04346688343x1-0.00133007562587674x2-0.473048255651898x3+0.199215088637466x4-0.03044412798198x5-1756.51996145466x6-0.00000825159763657977x7-10.0642209228433
其中,A1、A2...A18是不同的界面和表面面积,A19、A20和A21分别是蛋白质-蛋白质复合物中受体表面总面积、配体表面总面积和界面总面积。
4、11个训练的非线性模型(具有显性表达式):具体形式如下所示。
log(K)=-0.568888001101073x+0.901517361877311
log(K)=-0.166074171452944x-0.0116527283887838
log(K)=-0.210565325409778x+0.0608136869974672
log(K)=一0.00515262504749831x-3.94782837626315
log(K)=-0.0803933862888868x-4.03271669648362
log(K)=-0.0227956750271275x-4.02948970526830
log(K)=-0.0864140410834600x+0.292459454308228
log(K)=-0.128259073621144x+0.241234090799209
log(K)=-0.0286352567962234x+0.269415725339909
log(K)=-0.0392121632941331x+0.257453328050034
log(K)=-0.0456985331945409x+0.277608285189444
5、5个基于训练的非线性模型的混合模型:具体形式如下所示。
(1)
log(K)=-0.00972554008088431x1-0.00309176968287047x2-6.04187921736417
(2)
log(K)=-2.77332582241019x1+2.20971087799709x2-0.0504913337487757x3-0.199007425298938x4+7.00208678164769
(3)
log(K)=-0.111577505746261x1-0.0150171443156653x2+0.675198126328139
(4)
log(K)=-2.63084468100610x1+2.15374864513813x2-0.0528842342604257x3+4.70482049561711
(5)
log(K)=-1.90921650787848x1+2.07530866172609x2-0.0737497215603200x3+4.75625877556473
其中,A1、A2...A18是不同的界面和表面面积,A19、A20和A21分别是蛋白质-蛋白质复合物中受体表面总面积、配体表面总面积和界面总面积。
注:根据训练中的处理方式,当复合物中不存在某种类型的面积时,这种面积的大小会被设置为1.另外,在Qcontact计算结果中,每个界面氨基酸对的接触面积出现了两次。因此,以上列举的16个模型和神经网络训练的模型(以及基于神经网络训练的模型的混合模型)使用的界面面积都是真是界面面积的两倍。12个线性模型、6个构建的非线性模型和5个基于构建的非线性模型的混合模型所使用的界面面积已经被修正为真实的界面面积,修正相应的系数之后,这些模型的预测结果均与原始模型的预测结果一样。
6、18个非线性模型(用神经网络训练,不具有显性表达式):没有具体形式。
7、3个混合模型(基于神经网络训练的非线性模型):没有具体形式。
本发明通过氨基酸类型划分和整合界面和表面面积,以预测蛋白质-蛋白质结合亲和力。本发明可能会对蛋白质-蛋白质相互作用的面积-能量关系、界面面积配对规则、表面面积的贡献等方面产生一定的影响。
实施例1蛋白质-蛋白质复合物(PDB code:1acb)
#进入scripts文件夹
#计算18种不同的界面和表面面积。calculate_sasa_and_contact.pl为perl脚本,1acb.pdb蛋白质-蛋白质复合物的结构文件,E为受体的链号,I为配体的链号,output为输出文件,保存了复合物的18种不同的界面和表面面积。
#基于上一步的输出文件output,预测蛋白质-蛋白质结合亲和力。matlab-nodesktop-nosplash-r predict_binding_affinity是以命令行运行matlab程序predict_binding_affinity.m,输出文件predicted_affinity_60,保存了60个模型的预测结果。
#将存储18种不同界面和表面面积的文件output重命名为1acb.pdb.area
#将存储60个模型预测结果的文件predicted_affinity_60重命名为1acb.pdb.predicted_affinity_60
实施例2蛋白质-蛋白质复合物(PDB code:1a2k)
#进入scripts文件夹
#计算18种不同的界面和表面面积。calculate_sasa_and_contact.pl为perl脚本,1a2k.pdb蛋白质-蛋白质复合物的结构文件,A,B为受体的链号,C为配体的链号,output为输出文件,保存了复合物的18种不同的界面和表面面积
#基于上一步的输出文件output,预测蛋白质-蛋白质结合亲和力。matlab-nodesktop-nosplash-r predict_binding_affinity是以命令行运行matlab程序predict_binding_affinity.m,输出文件predicted_affinity_60,保存了60个模型的预测结果。
#将存储18种不同界面和表面面积的文件output重命名为1a2k.pdb.area
#将存储60个模型预测结果的文件predicted_affinity_60重命名为1a2k.pdb.predicted_affinity_60。
实施例3蛋白质-蛋白质复合物(PDB code:1akj)
#进入scripts文件夹
#计算18种不同的界面和表面面积。calculate_sasa_and_contact.pl为perl脚本,1akj.pdb蛋白质-蛋白质复合物的结构文件,A,B为受体的链号,D,E为配体的链号,output为输出文件,保存了复合物的18种不同的界面和表面面积。
#基于上一步的输出文件output,预测蛋白质-蛋白质结合亲和力。matlab-nodesktop-nosplash-r predict_binding_affinity是以命令行运行matlab程序predict_binding_affinity.m,输出文件predicted_affinity_60,保存了60个模型的预测结果
#将存储18种不同界面和表面面积的文件output重命名为1akj.pdb.area
#将存储60个模型预测结果的文件predicted_affinity_60重命名为1akj.pdb.predicted_affinity_60。
如图4所示,为了解决上述问题,本发明实施例还提供一种蛋白质-蛋白质结合亲和力的预测装置,包括:取模块2100、处理模块2200和执行模块2300,其中,获取模块2100,用于获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;处理模块2200,用于按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;执行模块2300,用于通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
在一些实施方式中,还包括:第一处理子模块,用于利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;第二处理子模块,用于利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
在一些实施方式中,还包括:第三处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8。
在一些实施方式中,还包括:第四处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
如图5所示,计算机设备的内部结构示意图。如图5所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种图像处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种图像处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图4中获取模块2100、处理模块2200和执行模块2300的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有图像处理方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本发明实施例提供的计算机设备,本发明通过氨基酸类型划分和整合界面和表面面积,以预测蛋白质-蛋白质结合亲和力。本发明可能会对蛋白质-蛋白质相互作用的面积-能量关系、界面面积配对规则、表面面积的贡献等方面产生一定的影响。。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述蛋白质-蛋白质结合亲和力的预测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种蛋白质-蛋白质结合亲和力的预测方法,其特征在于,包括:
获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
2.根据权利要求1所述的预测方法,其特征在于,包括:
利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
3.根据权利要求1所述的预测方法,其特征在于,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8。
4.根据权利要求1所述的预测方法,其特征在于,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18。
5.一种蛋白质-蛋白质结合亲和力的预测装置,其特征在于,包括:
获取模块,用于获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
处理模块,用于按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
执行模块,用于通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
6.根据权利要求6所述的装置,其特征在于,还包括:
第一处理子模块,用于利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
第二处理子模块,用于利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
7.根据权利要求6所述的装置,其特征在于,还包括:
第三处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8。
8.根据权利要求6所述的装置,其特征在于,还包括:按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项权利要求所述蛋白质-蛋白质结合亲和力的预测的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述蛋白质-蛋白质结合亲和力的预测的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210006382.3A CN114420198A (zh) | 2022-01-04 | 2022-01-04 | 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210006382.3A CN114420198A (zh) | 2022-01-04 | 2022-01-04 | 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114420198A true CN114420198A (zh) | 2022-04-29 |
Family
ID=81271237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210006382.3A Pending CN114420198A (zh) | 2022-01-04 | 2022-01-04 | 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114420198A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005103679A2 (en) * | 2004-04-21 | 2005-11-03 | Algonomics Nv | Method for affinity scoring of peptide/protein complexes |
CN113240640A (zh) * | 2021-05-13 | 2021-08-10 | 广东粤港供水有限公司 | 菌落计数方法、装置及计算机可读存储介质 |
CN113611360A (zh) * | 2021-08-11 | 2021-11-05 | 邵阳学院 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
-
2022
- 2022-01-04 CN CN202210006382.3A patent/CN114420198A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005103679A2 (en) * | 2004-04-21 | 2005-11-03 | Algonomics Nv | Method for affinity scoring of peptide/protein complexes |
CN113240640A (zh) * | 2021-05-13 | 2021-08-10 | 广东粤港供水有限公司 | 菌落计数方法、装置及计算机可读存储介质 |
CN113611360A (zh) * | 2021-08-11 | 2021-11-05 | 邵阳学院 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
Non-Patent Citations (1)
Title |
---|
樊毅默;: "基于蛋白质相互作用界面的比对算法研究", 电脑知识与技术, no. 14, 15 May 2013 (2013-05-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Hierarchical graph learning for protein–protein interaction | |
CN110689920B (zh) | 一种基于深度学习的蛋白质-配体结合位点预测方法 | |
Cocchi | Data fusion methodology and applications | |
Zhou et al. | Deep supervised and convolutional generative stochastic network for protein secondary structure prediction | |
Zhou et al. | Multi-scale encoding of amino acid sequences for predicting protein interactions using gradient boosting decision tree | |
CN114333986A (zh) | 模型训练、药物筛选和亲和力预测的方法与装置 | |
CN113597645A (zh) | 用于重建药物应答和疾病网络的方法和系统以及其用途 | |
Sajadi et al. | AutoDTI++: deep unsupervised learning for DTI prediction by autoencoders | |
CN113159273B (zh) | 一种神经网络的训练方法及相关设备 | |
CN115295072B (zh) | 基于图神经网络的蛋白质相互作用位点预测方法及系统 | |
Branson et al. | A multi-model statistical approach for proteomic spectral count quantitation | |
Liang et al. | MetaVelvet-DL: a MetaVelvet deep learning extension for de novo metagenome assembly | |
Haberal et al. | Prediction of protein metal binding sites using deep neural networks | |
CN113409897A (zh) | 药物-靶标相互作用的预测方法、装置、设备和存储介质 | |
Pei et al. | Predicting regulatory variants using a dense epigenomic mapped CNN model elucidated the molecular basis of trait-tissue associations | |
CN104615910B (zh) | 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法 | |
Dauparas et al. | Unified framework for modeling multivariate distributions in biological sequences | |
Haberal et al. | Deepmbs: Prediction of protein metal binding-site using deep learning networks | |
Luo et al. | BatchDTA: implicit batch alignment enhances deep learning-based drug–target affinity estimation | |
Rezaei et al. | Improving the accuracy of protein-ligand binding affinity prediction by deep learning models: benchmark and model | |
Zhang et al. | A universal framework for accurate and efficient geometric deep learning of molecular systems | |
Li | Directed weight neural networks for protein structure representation learning | |
CN114420198A (zh) | 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 | |
Zhang et al. | Evaluation of deep learning approaches for modeling transcription factor sequence specificity | |
Yosef et al. | A complex-centric view of protein network evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |