CN114420198A - 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 - Google Patents

蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 Download PDF

Info

Publication number
CN114420198A
CN114420198A CN202210006382.3A CN202210006382A CN114420198A CN 114420198 A CN114420198 A CN 114420198A CN 202210006382 A CN202210006382 A CN 202210006382A CN 114420198 A CN114420198 A CN 114420198A
Authority
CN
China
Prior art keywords
amino acid
protein
area
information
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210006382.3A
Other languages
English (en)
Inventor
杨雍逍
王攀
朱宝亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Original Assignee
Chinese University of Hong Kong Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202210006382.3A priority Critical patent/CN114420198A/zh
Publication of CN114420198A publication Critical patent/CN114420198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开一种蛋白质‑蛋白质结合亲和力的预测方法,包括:获取蛋白质‑蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质‑蛋白质复合物中原子的表面信息和界面信息;按照氨基酸类型将所述蛋白质‑蛋白质复合物中原子的表面信息和界面信息进行划分;通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质‑蛋白质复合物中多个原子的亲和力信息。

Description

蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质
技术领域
本发明属于计算机技术领域,尤其是一种蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质。
背景技术
蛋白质-蛋白质相互作用是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体的过程,其构成了细胞生化反应网络的主要组成部分。
蛋白质-蛋白质复合物结构是蛋白质-蛋白质相互作用的产物和形式。从结构上刻画和阐明蛋白质-蛋白质相互作用的决定因素,有助于更深刻地理解相关生物学过程的机制、更清楚地了解疾病的发病机理和更高效地设计蛋白质药物。作为与之紧密相关的研究方向之一,蛋白质-蛋白质复合物结构中的几何特性与结合亲和力之间的定量关系的研究越来越多。。例如,蛋白质-蛋白质结合亲和力预测的微模型,使用了蛋白质-蛋白质的界面面积和结合前后界面氨基酸Cα原子均方根位移的平方。该模型只考虑界面信息。预测蛋白质-蛋白质结合亲和力的全局表面模型(Global Surface Model):PRODIGY(PROteinbinDIng enerGY prediction),使用了不同类型的界面原子对或界面氨基酸接触的数目和不同类型的表面氨基酸的百分比。该模型同时考虑界面和表面信息,界面信息用接触数表示,表面信息用不同类型表面氨基酸的百分比表示。一个蛋白质-蛋白质结合能的微预测器,使用了不同类型氨基酸的界面面积。该预测器只考虑界面信息,属于经典界面模型(Classical Interface Model)。一个预测蛋白质-蛋白质结合亲和力的界面氨基酸数目模型(Interface Amino Acid Count Model)。该模型只考虑界面信息,属于经典界面模型(Classical Interface Model)。一个蛋白质-蛋白质亲和力预测的非线性模型:LISA(Local Interaction Signal Analysis),使用了描述界面上偏好接触和非偏好接触的项、不同类型或区域的界面氨基酸的贡献、非相互作用的带电氨基酸和二级结构的贡献[5]。该模型同时考虑界面和表面信息,界面信息用偏好接触、非偏好接触、氨基酸的不同类型或区域以及二级结构刻画,表面信息用带电表面氨基酸的百分比表示。
以上模型无法准确预测蛋白质-蛋白质结合亲和力,且无法有效的刻画和整合蛋白质-蛋白质复合物的界面信息和表面信息。
发明内容
为解决上述技术问题,本发明创造的实施例提供一种蛋白质-蛋白质结合亲和力的预测方法,包括:
获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。进一步地,包括:
利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
进一步地,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8
进一步,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18
一种蛋白质-蛋白质结合亲和力的预测装置,包括:
获取模块,用于获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
处理模块,用于按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
执行模块,用于通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
进一步地,还包括:
第一处理子模块,用于利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
第二处理子模块,用于利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
进一步地,还包括:
第三处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8
进一步地,还包括:
第四处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上所述蛋白质-蛋白质结合亲和力的预测方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上所述蛋白质-蛋白质结合亲和力的预测方法的步骤。
本发明实施例通过氨基酸的类型来划分和整合蛋白质的界面和表面面积来预测蛋白质和蛋白质的亲和力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的蛋白质-蛋白质结合亲和力的预测方法的流程示意图;
图2为本发明实施例提供的计算原子表面面积的二维示意图;
图3为本发明实施例提供的计算原子界面面积的二维示意图;
图4为本发明实施例提供的蛋白质-蛋白质结合亲和力的预测装置基本结构框图;
图5为本发明实施例提供的计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供一种蛋白质-蛋白质结合亲和力的预测方法,如图1所示,该方法具体包括如下步骤:
S1、获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
结构信息包括:蛋白质-蛋白质复合物的结构文件,例如,受体的链号,配体的链号。
本发明实施例中,根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息具体包括:
步骤一、利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
步骤二、利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
本发明实施例中,蛋白质-蛋白质复合物的界面和表面信息均用面积刻画,蛋白质-蛋白质复合物中的原子表面面积和界面氨基酸对的接触界面分别用dr_sasa和Qcontact计算。
其中,dr_sasa用一个改进的Shrake-Rupley算法(‘rolling ball’算法)计算原子表面面积(溶剂可接触面积)。如图2所示,图2是dr_sasa计算原子表面面积的二维示意图。在图2中,A、B、C代表原子(其中,原子B和C作为探针),圆的半径是原子的范德华半径
Figure BDA0003455606970000071
原子A的表面面积由面积1、2和3三部分组成,面积1和2是原子A和B之间的接触面积,面积2和3是原子A和C的接触面积。为了避免在计算原子A的表面面积时,重复计算面积2,原子A和B之间的接触面积为面积1与面积2的一半之和,原子A和C之间的接触面积为面积3与面积2的一半之和。
Qcontact用一个基于Voronoi多面体的方法计算界面原子的接触面积。图3是Qcontact计算原子界面面积的二维示意图。在图3中,a、b、c、d、e、f代表原子,内部的小圆(黄色或绿色)以原子的范德华半径为半径,外部的圆(黑色或橘色)以范德华半径
Figure BDA0003455606970000072
为半径。中心原子a与邻近不同原子的接触面积为一个多面体的不同侧面积。面积1、2和3分别为原子a与b、c和f之间的接触面积。另外,Qcontact还会考虑水分子介导的接触面积。
S2、按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18
S3、通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
本发明实施例用线性模型、非线性模型和混合模型整合界面和表面信息,以预测蛋白质-蛋白质结合亲和力。目前,从训练或构建的模型中,挑出了60个模型作为代表,整合不同的界面和表面面积,以预测蛋白质-蛋白质结合亲和力。这60个代表模型包括:
1、12个线性模型:具体形式如表1所示,K为解离常数或抑制常数,A1、A2…A18为不同的界面和表面面积。
表1.个线性模型的形式
Figure BDA0003455606970000081
Figure BDA0003455606970000091
2、6个构建的非线性模型:具体形式如下所示。
(1)
Figure BDA0003455606970000092
log(K)=-0.3042859089144x-4.313861052
(2)
Figure BDA0003455606970000093
log(K)=6173.14626206173x-10.9451091646642
(3)
Figure BDA0003455606970000094
log(K)=-0.00194823682341253x-3.60632288257436
(4)
Figure BDA0003455606970000095
log(K)=-0.000995978533158535x-3.40762240628879
(5)
Figure BDA0003455606970000101
log(K)=-0.000297405827677228x-3.10137180970196
(6)
Figure BDA0003455606970000102
log(K)=-0.0494567261584352x+1.02656054246774
3、5个基于构建的非线性模型的混合模型:具体形式如下所示。
(1)
Figure BDA0003455606970000103
log(K)=2123.51554728111x1-0.00076154614x2-0.009117371x3-6.81901
(2)
Figure BDA0003455606970000104
log(K)=11101.3438625x1-0.0024382248x2-10.14654806
(3)
Figure BDA0003455606970000105
Figure BDA0003455606970000106
Figure BDA0003455606970000107
log(K)=9324.87836043513x1-1.0264057483x2-0.02888991233x3-29.8937019x4+0.000038582x5+0.6532806x6-0.000086271984x7-10.96338
(4)
Figure BDA0003455606970000108
Figure BDA0003455606970000109
Figure BDA00034556069700001010
log(K)=10653.84007381x1-0.844635959x2-0.663819162574532x3+0.010170716x4-56.13299101x5+1.6289367716x6-0.018383451x7-11.3611942
(5)
Figure BDA0003455606970000111
Figure BDA0003455606970000112
l0g(K)=8448.04346688343x1-0.00133007562587674x2-0.473048255651898x3+0.199215088637466x4-0.03044412798198x5-1756.51996145466x6-0.00000825159763657977x7-10.0642209228433
其中,A1、A2...A18是不同的界面和表面面积,A19、A20和A21分别是蛋白质-蛋白质复合物中受体表面总面积、配体表面总面积和界面总面积。
4、11个训练的非线性模型(具有显性表达式):具体形式如下所示。
(1)
Figure BDA0003455606970000113
log(K)=-0.568888001101073x+0.901517361877311
(2)
Figure BDA0003455606970000114
log(K)=-0.166074171452944x-0.0116527283887838
(3)
Figure BDA0003455606970000115
log(K)=-0.210565325409778x+0.0608136869974672
(4)
Figure BDA0003455606970000116
log(K)=一0.00515262504749831x-3.94782837626315
(5)
Figure BDA0003455606970000117
log(K)=-0.0803933862888868x-4.03271669648362
(6)
Figure BDA0003455606970000118
log(K)=-0.0227956750271275x-4.02948970526830
(7)
Figure BDA0003455606970000119
log(K)=-0.0864140410834600x+0.292459454308228
(8)
Figure BDA00034556069700001110
log(K)=-0.128259073621144x+0.241234090799209
(9)
Figure BDA00034556069700001111
log(K)=-0.0286352567962234x+0.269415725339909
(10)
Figure BDA0003455606970000121
log(K)=-0.0392121632941331x+0.257453328050034
(11)
Figure BDA0003455606970000122
log(K)=-0.0456985331945409x+0.277608285189444
5、5个基于训练的非线性模型的混合模型:具体形式如下所示。
(1)
Figure BDA0003455606970000123
Figure BDA0003455606970000124
log(K)=-0.00972554008088431x1-0.00309176968287047x2-6.04187921736417
(2)
Figure BDA0003455606970000125
Figure BDA0003455606970000126
Figure BDA0003455606970000127
Figure BDA0003455606970000128
log(K)=-2.77332582241019x1+2.20971087799709x2-0.0504913337487757x3-0.199007425298938x4+7.00208678164769
(3)
Figure BDA0003455606970000129
Figure BDA00034556069700001210
log(K)=-0.111577505746261x1-0.0150171443156653x2+0.675198126328139
(4)
Figure BDA0003455606970000131
Figure BDA0003455606970000132
Figure BDA0003455606970000133
log(K)=-2.63084468100610x1+2.15374864513813x2-0.0528842342604257x3+4.70482049561711
(5)
Figure BDA0003455606970000134
Figure BDA0003455606970000135
Figure BDA0003455606970000136
log(K)=-1.90921650787848x1+2.07530866172609x2-0.0737497215603200x3+4.75625877556473
其中,A1、A2...A18是不同的界面和表面面积,A19、A20和A21分别是蛋白质-蛋白质复合物中受体表面总面积、配体表面总面积和界面总面积。
注:根据训练中的处理方式,当复合物中不存在某种类型的面积时,这种面积的大小会被设置为1.另外,在Qcontact计算结果中,每个界面氨基酸对的接触面积出现了两次。因此,以上列举的16个模型和神经网络训练的模型(以及基于神经网络训练的模型的混合模型)使用的界面面积都是真是界面面积的两倍。12个线性模型、6个构建的非线性模型和5个基于构建的非线性模型的混合模型所使用的界面面积已经被修正为真实的界面面积,修正相应的系数之后,这些模型的预测结果均与原始模型的预测结果一样。
6、18个非线性模型(用神经网络训练,不具有显性表达式):没有具体形式。
7、3个混合模型(基于神经网络训练的非线性模型):没有具体形式。
本发明通过氨基酸类型划分和整合界面和表面面积,以预测蛋白质-蛋白质结合亲和力。本发明可能会对蛋白质-蛋白质相互作用的面积-能量关系、界面面积配对规则、表面面积的贡献等方面产生一定的影响。
实施例1蛋白质-蛋白质复合物(PDB code:1acb)
#进入scripts文件夹
#计算18种不同的界面和表面面积。calculate_sasa_and_contact.pl为perl脚本,1acb.pdb蛋白质-蛋白质复合物的结构文件,E为受体的链号,I为配体的链号,output为输出文件,保存了复合物的18种不同的界面和表面面积。
#基于上一步的输出文件output,预测蛋白质-蛋白质结合亲和力。matlab-nodesktop-nosplash-r predict_binding_affinity是以命令行运行matlab程序predict_binding_affinity.m,输出文件predicted_affinity_60,保存了60个模型的预测结果。
#将存储18种不同界面和表面面积的文件output重命名为1acb.pdb.area
#将存储60个模型预测结果的文件predicted_affinity_60重命名为1acb.pdb.predicted_affinity_60
实施例2蛋白质-蛋白质复合物(PDB code:1a2k)
#进入scripts文件夹
#计算18种不同的界面和表面面积。calculate_sasa_and_contact.pl为perl脚本,1a2k.pdb蛋白质-蛋白质复合物的结构文件,A,B为受体的链号,C为配体的链号,output为输出文件,保存了复合物的18种不同的界面和表面面积
#基于上一步的输出文件output,预测蛋白质-蛋白质结合亲和力。matlab-nodesktop-nosplash-r predict_binding_affinity是以命令行运行matlab程序predict_binding_affinity.m,输出文件predicted_affinity_60,保存了60个模型的预测结果。
#将存储18种不同界面和表面面积的文件output重命名为1a2k.pdb.area
#将存储60个模型预测结果的文件predicted_affinity_60重命名为1a2k.pdb.predicted_affinity_60。
实施例3蛋白质-蛋白质复合物(PDB code:1akj)
#进入scripts文件夹
#计算18种不同的界面和表面面积。calculate_sasa_and_contact.pl为perl脚本,1akj.pdb蛋白质-蛋白质复合物的结构文件,A,B为受体的链号,D,E为配体的链号,output为输出文件,保存了复合物的18种不同的界面和表面面积。
#基于上一步的输出文件output,预测蛋白质-蛋白质结合亲和力。matlab-nodesktop-nosplash-r predict_binding_affinity是以命令行运行matlab程序predict_binding_affinity.m,输出文件predicted_affinity_60,保存了60个模型的预测结果
#将存储18种不同界面和表面面积的文件output重命名为1akj.pdb.area
#将存储60个模型预测结果的文件predicted_affinity_60重命名为1akj.pdb.predicted_affinity_60。
如图4所示,为了解决上述问题,本发明实施例还提供一种蛋白质-蛋白质结合亲和力的预测装置,包括:取模块2100、处理模块2200和执行模块2300,其中,获取模块2100,用于获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;处理模块2200,用于按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;执行模块2300,用于通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
在一些实施方式中,还包括:第一处理子模块,用于利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;第二处理子模块,用于利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
在一些实施方式中,还包括:第三处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8
在一些实施方式中,还包括:第四处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
如图5所示,计算机设备的内部结构示意图。如图5所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种图像处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种图像处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图4中获取模块2100、处理模块2200和执行模块2300的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有图像处理方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本发明实施例提供的计算机设备,本发明通过氨基酸类型划分和整合界面和表面面积,以预测蛋白质-蛋白质结合亲和力。本发明可能会对蛋白质-蛋白质相互作用的面积-能量关系、界面面积配对规则、表面面积的贡献等方面产生一定的影响。。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述蛋白质-蛋白质结合亲和力的预测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种蛋白质-蛋白质结合亲和力的预测方法,其特征在于,包括:
获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
2.根据权利要求1所述的预测方法,其特征在于,包括:
利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
3.根据权利要求1所述的预测方法,其特征在于,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8
4.根据权利要求1所述的预测方法,其特征在于,包括:
按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18
5.一种蛋白质-蛋白质结合亲和力的预测装置,其特征在于,包括:
获取模块,用于获取蛋白质-蛋白质复合物的结构信息,并根据所述结构信息计算所述蛋白质-蛋白质复合物中原子的表面信息和界面信息;
处理模块,用于按照氨基酸类型将所述蛋白质-蛋白质复合物中原子的表面信息和界面信息进行划分;
执行模块,用于通过线性模型、非线性模型、混合模型以及神经网络模型按照所述界面信息和表面信息对亲和力的不同贡献进行整合,得到所述蛋白质-蛋白质复合物中多个原子的亲和力信息。
6.根据权利要求6所述的装置,其特征在于,还包括:
第一处理子模块,用于利用Shrake-Rupley算法计算所述蛋白质-蛋白质复合物中原子表面面积;
第二处理子模块,用于利用Voronoi多面体计算方法计算所述蛋白质-蛋白质复合物中原子之间的接触界面面积。
7.根据权利要求6所述的装置,其特征在于,还包括:
第三处理子模块,用于按照氨基酸的极性、疏水性、酸碱性和是否带电将所述表面信息划分为:受体的碱性氨基酸表面面积A1、受体的非极性疏水氨基酸表面面积A2、受体的极性不带电氨基酸的表面面积A3、受体的酸性氨基酸的表面面积A4、配体的碱性氨基酸表面面积A5、配体的非极性疏水氨基酸表面面积A6、配体的极性不带电氨基酸的表面面积A7、配体的酸性氨基酸的表面面积A8
8.根据权利要求6所述的装置,其特征在于,还包括:按照氨基酸的极性、疏水性、酸碱性和是否带电将所述界面信息划分为:受体和配体之间的碱性氨基酸与碱性氨基酸界面面积A9、非极性疏水氨基酸与非极性疏水氨基酸界面面积A10、极性不带电氨基酸与极性不带电氨基酸界面面积A11、酸性氨基酸与酸性氨基酸界面面积A12、碱性氨基酸与非极性疏水氨基酸界面面积A13、碱性氨基酸与极性不带电氨基酸界面面积A14、碱性氨基酸与酸性氨基酸界面面积A15、非极性疏水氨基酸与极性不带电氨基酸界面面积A16、非极性疏水氨基酸与酸性氨基酸界面面积A17、极性不带电氨基酸与酸性氨基酸界面面积A18
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项权利要求所述蛋白质-蛋白质结合亲和力的预测的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述蛋白质-蛋白质结合亲和力的预测的步骤。
CN202210006382.3A 2022-01-04 2022-01-04 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 Pending CN114420198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210006382.3A CN114420198A (zh) 2022-01-04 2022-01-04 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210006382.3A CN114420198A (zh) 2022-01-04 2022-01-04 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质

Publications (1)

Publication Number Publication Date
CN114420198A true CN114420198A (zh) 2022-04-29

Family

ID=81271237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210006382.3A Pending CN114420198A (zh) 2022-01-04 2022-01-04 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质

Country Status (1)

Country Link
CN (1) CN114420198A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005103679A2 (en) * 2004-04-21 2005-11-03 Algonomics Nv Method for affinity scoring of peptide/protein complexes
CN113240640A (zh) * 2021-05-13 2021-08-10 广东粤港供水有限公司 菌落计数方法、装置及计算机可读存储介质
CN113611360A (zh) * 2021-08-11 2021-11-05 邵阳学院 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005103679A2 (en) * 2004-04-21 2005-11-03 Algonomics Nv Method for affinity scoring of peptide/protein complexes
CN113240640A (zh) * 2021-05-13 2021-08-10 广东粤港供水有限公司 菌落计数方法、装置及计算机可读存储介质
CN113611360A (zh) * 2021-08-11 2021-11-05 邵阳学院 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊毅默;: "基于蛋白质相互作用界面的比对算法研究", 电脑知识与技术, no. 14, 15 May 2013 (2013-05-15) *

Similar Documents

Publication Publication Date Title
Gao et al. Hierarchical graph learning for protein–protein interaction
CN110689920B (zh) 一种基于深度学习的蛋白质-配体结合位点预测方法
Cocchi Data fusion methodology and applications
Zhou et al. Deep supervised and convolutional generative stochastic network for protein secondary structure prediction
Zhou et al. Multi-scale encoding of amino acid sequences for predicting protein interactions using gradient boosting decision tree
CN114333986A (zh) 模型训练、药物筛选和亲和力预测的方法与装置
CN113597645A (zh) 用于重建药物应答和疾病网络的方法和系统以及其用途
Sajadi et al. AutoDTI++: deep unsupervised learning for DTI prediction by autoencoders
CN113159273B (zh) 一种神经网络的训练方法及相关设备
CN115295072B (zh) 基于图神经网络的蛋白质相互作用位点预测方法及系统
Branson et al. A multi-model statistical approach for proteomic spectral count quantitation
Liang et al. MetaVelvet-DL: a MetaVelvet deep learning extension for de novo metagenome assembly
Haberal et al. Prediction of protein metal binding sites using deep neural networks
CN113409897A (zh) 药物-靶标相互作用的预测方法、装置、设备和存储介质
Pei et al. Predicting regulatory variants using a dense epigenomic mapped CNN model elucidated the molecular basis of trait-tissue associations
CN104615910B (zh) 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
Dauparas et al. Unified framework for modeling multivariate distributions in biological sequences
Haberal et al. Deepmbs: Prediction of protein metal binding-site using deep learning networks
Luo et al. BatchDTA: implicit batch alignment enhances deep learning-based drug–target affinity estimation
Rezaei et al. Improving the accuracy of protein-ligand binding affinity prediction by deep learning models: benchmark and model
Zhang et al. A universal framework for accurate and efficient geometric deep learning of molecular systems
Li Directed weight neural networks for protein structure representation learning
CN114420198A (zh) 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质
Zhang et al. Evaluation of deep learning approaches for modeling transcription factor sequence specificity
Yosef et al. A complex-centric view of protein network evolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination