CN106295243B - 一种蛋白质-rna复合物结构预测方法 - Google Patents

一种蛋白质-rna复合物结构预测方法 Download PDF

Info

Publication number
CN106295243B
CN106295243B CN201610649359.0A CN201610649359A CN106295243B CN 106295243 B CN106295243 B CN 106295243B CN 201610649359 A CN201610649359 A CN 201610649359A CN 106295243 B CN106295243 B CN 106295243B
Authority
CN
China
Prior art keywords
rna
protein
template
score
composite structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610649359.0A
Other languages
English (en)
Other versions
CN106295243A (zh
Inventor
刘士勇
郑进芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201610649359.0A priority Critical patent/CN106295243B/zh
Publication of CN106295243A publication Critical patent/CN106295243A/zh
Application granted granted Critical
Publication of CN106295243B publication Critical patent/CN106295243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种蛋白质‑RNA复合物结构预测方法,具体涉及一种基于模板构建蛋白质‑RNA相互作用模型的方法,首先通过从PDB数据库中挑选出439个的蛋白质‑RNA的模板库,然后使用蛋白质(RNA)的结构比对所有的模板复合物得出相似分数;然后再根据蛋白质(RNA)中的相似分数小的那个值对模型进行排序,最后与给定的阈值进行计较来判断给定的蛋白质‑RNA是否能够结合并给出蛋白质‑RNA的3D结构。本发明开创性地提出了在基于模板构建蛋白质‑RNA的相互作用模型的计算方法,填补了目前的空白,本发明的计算方法比对接的方法成功率增加了40%左右,大大的促进了蛋白质‑RNA三维结构领域的发展。

Description

一种蛋白质-RNA复合物结构预测方法
技术领域
本发明属于分子构建模型领域,具体地,涉及一种蛋白质-RNA复合物结构预测方法,更具体地,涉及一种基于模板构建蛋白质-RNA相互作用模型的方法。
背景技术
为了揭示蛋白质-RNA的相互作用的机理,有两种方法来获取蛋白质-RNA的三维结构:第一种是实验上的方法,比如用的是结晶蛋白质-RNA的晶体,然后是用X射线的来解析其三维结构;第二种用的是计算机模拟的技术。又可以分成对接的方法和基于模板的方法,目前已经有对接的方法了如3dRPC,然而基于模板的方法在蛋白质-RNA还没有被实现。
基于对接的方法是根据几何互补原理,在生物学上中锁钥模型,就是当两种分子之间进行识别时是根据这两种分子形状上的互补,根据几何上的互补得到一个评价分数,并且基于分数的高低判断分子之间取向的合理性。由于计算机能够取样很多很多的构象,因此根据分数来对这么多的构象进行排序,然而仅仅根据几何互补性分数,其前10的构象中至少有一个构象是正确的概率比较低。
在蛋白质-蛋白质模型构建之中,对接的方法和基于模板的方法各有其优点,基于模板的在排名前几名的成功率要比对接的方法要高,而且基于模板的方法能够在构象变化比较大的情况下获取较高的成功率。
然而由于缺乏RNA的三维结构,因此基于模板的方法来构建蛋白质-RNA的相互作用的能力极其的有限,随着越来越多的RNA的三维结构被解析出来,增加了基于模板的方法来构建蛋白质-RNA的能力。而且随着RNA测序技术的发展,发现了很多的RNA,然而大量的RNA其功能还不清楚。另外蛋白质-RNA的三维结构比非结构能够提供更加详细的蛋白质-RNA相互作用机理,然而目前在蛋白质-RNA基于模板建模的领域的计算方法还为空白,这使得开发基于模板来构建蛋白质-RNA的相互作用模型的方法尤为迫切。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种蛋白质-RNA复合物结构预测方法,其目的在于通过构建基于模板的蛋白质-RNA的相互作用模型,由此解决现有技术蛋白质-RNA复合物结构预测方法准确率低、基于模板的蛋白质-RNA相互作用模型计算方法缺乏的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种蛋白质-RNA复合物结构预测方法,包括如下步骤:
(1)计算模板复合物结构分数:将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质-RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,取所述相似分数A和所述相似分数B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数;
(2)模型排序:将步骤(1)获得的蛋白质-RNA相互作用模型的复合物结构分数按照降序排列;
(3)模型判断:预先给定一个阈值,将步骤(2)按照降序排列获得的第一个复合物结构分数,即蛋白质-RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质-RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。
优选地,所述模板库的获得方法为:从PDB数据库中下载到所有的蛋白质-RNA复合物结构,然后从中根据晶体结构分辨率和蛋白质残基以及RNA碱基个数挑选确定模板库。
优选地,所述模板库中的蛋白质-RNA相互作用模型晶体结构分辨率比3.0好,所述蛋白质残基个数大于30,所述RNA的碱基个数大于20。
优选地,所述模板库中一共有439个蛋白质-RNA相互作用模型模板。
优选地,所述给定的蛋白质和模板蛋白质的比对方法为使用TMalign程序来比对。
优选地,所述给定的RNA与模板RNA的比对方法为使用SARA程序来比对。
优选地,所述SARA程序使用一个归一化的向量来代表RNA的结构,结合RNA的二级结构特征,来比对RNA的二级结构。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明开创性地提出了在基于模板构建蛋白质-RNA的相互作用模型的计算方法和程序,填补了目前的空白。
(2)测试了本发明基于模板构建蛋白质-RNA相互作用模型的方法PRIME的性能,PRIME的成功率的比对接的方法RPDOCK增加了40%左右,这大大的促进了蛋白质-RNA三维结构领域的发展。
(3)由于蛋白质-RNA的相互作用跟许多的疾病相关,比如癌症,所以PRIME有可能揭示由于蛋白质-RNA的相互作用而引起的疾病的分子机制。
附图说明
图1是本发明蛋白质-RNA相互作用模型的模板库构建的流程图;
图2是本发明实施例1的技术方案流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
首先阐述一下本发明的原理:首先通过从PDB数据库中挑选出439个的蛋白质-RNA的模板库,将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质-RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,选择A和B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数;将蛋白质-RNA相互作用模型的复合物结构分数按照降序排列;预先给定一个阈值,将按照降序排列获得的第一个复合物结构分数,即蛋白质-RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质-RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。
一种蛋白质-RNA复合物结构预测方法,具体的,一种基于模板构建蛋白质-RNA相互作用模型的方法PRIME,包括如下步骤:
(1)从PDB数据库挑选确定模板库
从PDB数据库下载到所有的蛋白质-RNA复合物结构总共1574个,之后选择出晶体结构的分辨率比3.0好且蛋白质残基和RNA的碱基个数分别大于30和20的结构,并且计算其相互作用的界面残基个数大于5,保留其结构,这里我们得到了344个复合结构,总共2954个蛋白质-RNA的相互作用模板,之后再去掉那些RNA很相似的RNA序列且留下晶体分辨率的最好的模板结构,最终得到439个相互作用模型,作为模板库。
如图1所示从PDB数据库下载到所有的蛋白质-RNA复合物结构总共1574个,之后选择出晶体结构的分辨率比3.0好且蛋白质残基和RNA的碱基个数分别大于30和20的结构,并且计算其相互作用的界面残基个数大于5,保留其结构,这里我们得到了344个复合结构,总共2954个蛋白质-RNA的相互作用模板,之后在去掉那些RNA很相似的RNA序列且留下晶体分辨率的最好的模板结构,最终我们得到了439个相互作用模型,并且作为我们的模板库。
(2)使用蛋白质(RNA)的结构比对所有的模板复合物
将蛋白质和RNA单体结构作为程序的输入,本发明使用TMalign程序来比对蛋白质结构,TMalign是一种比对蛋白质结构的方法,得到给定蛋白质和模板的蛋白质的相似分数A;使用SARA程序来比对RNA结构,SARA使用一个归一化的向量来代表RNA的结构,结合RNA的二级结构特征,来比对RNA的二级结构,得到给定RNA和模板的RNA的相似分数B,根据各自的比对,将蛋白质和RNA结构叠加到一个蛋白质-RNA相互作用的模板结构之上,这样就得到了一个蛋白质-RNA相互作用的模型。有一个模板,就有一个模型,因此一共可以得到439个模型。
(3)模型排序
选择上述A和B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数,一共有439个模型,所以对于给定的蛋白质和RNA单体,利用模板一共得到439个模型的复合物结构分数,按照复合物结构分数对439个蛋白质-RNA相互作用模型进行排序,按照降序排列。
相似分数代表着这两个结构之间的相似度,分数越高,那么这两个结构就越相似,选择A和B中较小的分数是为了保证这些相互作用是一致的,从而才能由这个模板构建出来的模型是正确的。
(4)根据阈值和排名来选择模型
在对模型进行排序了之后,预先给定一个阈值0.45来判定这个模型的正确性。这个阈值是由PRIME在模板库上测试给出的。判别模型正确与否的标准是:将按照降序排列后的复合物结构分数的最大值与该阈值进行比较,复合物结构分数最大值比阈值小,这样构建出来的模型是不正确的,如果大于这个阈值,那么这个模型是正确的,我们判断这个蛋白质-RNA可以结合,并给出蛋白质-RNA的3D结构。
以下为实施例:
实施例1
图2显示了构建蛋白质-RNA的基于模板的方法来构建相互作用的模型示意图。图2中最上面的蛋白质和RNA单体结构作为程序的输入,然后使用TMalign这个程序蛋白质比对的程序比对蛋白质结构,TMalign是一种比对蛋白质结构的方法;使用SARA这个程序比对RNA结构,而SARA是一种使用一个归一化的向量来代表RNA的结构,结合RNA的二级结构特征,来比对RNA的二级结构。中间的是一个蛋白质-RNA相互作用的模板结构,分别根据各自的比对,将蛋白质和RNA结构叠加到模板结构之上,最终就得到了图1最下面部分的蛋白质-RNA相互作用的模型。实际上输入一个蛋白质(RNA)的结构我们不仅仅得到一个相互作用模型,有一个模板,则有一个模型,因此我们得到439个模型,根据和模板的相似性,我们对模型进行了一个排序。图2中的一个例子就是1A9N_B和1A9N_C使用本发明根据1N78_AC蛋白质-RNA复合物构建出来模型,而且这个排名是第一且相似分数大于阈值0.45,因此判断这个模型是正确的。与由晶体结构给出的模型相比,本发明给出的模型的配体的rmsd是3.0,这就验证了本发明的基于模板的蛋白质-RNA复合物结构预测方法的准确性和实用性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种蛋白质-RNA复合物结构预测方法,其特征在于,包括如下步骤:
(1)计算模板复合物结构分数:将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质-RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,取所述相似分数A和所述相似分数B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数;所述模板库的获得方法为:从PDB数据库中下载到所有的蛋白质-RNA复合物结构,然后从中根据晶体结构分辨率和蛋白质残基以及RNA碱基个数挑选确定模板库;所述模板库中的蛋白质-RNA相互作用模型晶体结构分辨率比3.0好,所述蛋白质残基个数大于30,所述RNA的碱基个数大于20;所述给定的RNA与模板RNA的比对方法为使用SARA程序来比对;所述SARA程序使用一个归一化的向量来代表RNA的结构,结合RNA的二级结构特征,来比对RNA的二级结构;
(2)模型排序:将步骤(1)获得的蛋白质-RNA相互作用模型的复合物结构分数按照降序排列;
(3)模型判断:预先给定一个阈值,将步骤(2)按照降序排列获得的第一个复合物结构分数,即蛋白质-RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质-RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。
2.如权利要求1所述的蛋白质-RNA复合物结构预测方法,其特征在于,所述模板库中一共有439个蛋白质-RNA相互作用模型模板。
3.如权利要求1所述的蛋白质-RNA复合物结构预测方法,其特征在于,所述给定的蛋白质和模板蛋白质的比对方法为使用TMalign程序来比对。
CN201610649359.0A 2016-08-10 2016-08-10 一种蛋白质-rna复合物结构预测方法 Active CN106295243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610649359.0A CN106295243B (zh) 2016-08-10 2016-08-10 一种蛋白质-rna复合物结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610649359.0A CN106295243B (zh) 2016-08-10 2016-08-10 一种蛋白质-rna复合物结构预测方法

Publications (2)

Publication Number Publication Date
CN106295243A CN106295243A (zh) 2017-01-04
CN106295243B true CN106295243B (zh) 2019-01-29

Family

ID=57667480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610649359.0A Active CN106295243B (zh) 2016-08-10 2016-08-10 一种蛋白质-rna复合物结构预测方法

Country Status (1)

Country Link
CN (1) CN106295243B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977548B (zh) * 2017-12-05 2020-04-07 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN109300501B (zh) * 2018-09-20 2021-02-02 国家卫生健康委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
DE202022101929U1 (de) 2022-04-09 2022-06-02 Pradipta Bhowmick Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314560A (zh) * 2011-09-05 2012-01-11 浪潮电子信息产业股份有限公司 一种蛋白质-蛋白质对接的计算模拟方法
CN102479295A (zh) * 2010-11-30 2012-05-30 中国科学院大连化学物理研究所 一种计算机预测蛋白功能的方法
CN103500293A (zh) * 2013-09-05 2014-01-08 北京工业大学 一种非核糖体蛋白质-rna复合物近天然结构的筛选方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479295A (zh) * 2010-11-30 2012-05-30 中国科学院大连化学物理研究所 一种计算机预测蛋白功能的方法
CN102314560A (zh) * 2011-09-05 2012-01-11 浪潮电子信息产业股份有限公司 一种蛋白质-蛋白质对接的计算模拟方法
CN103500293A (zh) * 2013-09-05 2014-01-08 北京工业大学 一种非核糖体蛋白质-rna复合物近天然结构的筛选方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Docking by structural similarity at protein-protein interfaces;Rohita Sinha等;《Proteins-structure Function & Bioinformatics》;20101115;第78卷(第15期);第3235-3241页
Global and local structural similarity in protein–protein complexes: Implications for template-based docking;Petras J.Kundrotas等;《Proteins-structure Function & Bioinformatics》;20131231;第81卷(第12期);第2137-2142页
Low-resolution structural modeling of protein interactome;Ilya A Vakser;《Current Opinion in Structural Biology》;20130430;第23卷(第2期);第198-205页:摘要,正文第4-5页,图1-3
Protein Docking by the Interface Structure Similarity: How Much Structure Is Needed?;Rohita Sinha等;《Plos One》;20120229;第7卷(第2期);第1-5页
Protein–protein alternative binding modes do not overlap;Petras J.Kundrotas等;《Protein Science》;20130614;第22卷(第8期);第1141-1145页
RNA structure alignment by a unit-vector approach;Emidio Capriotti等;《Bioinformatics》;20081231;第24卷(第16期);第i112-i118页:摘要,正文第2小节
Structural templates for modeling homodimers;Petras J.Kundrotas等;《Protein Science》;20130831;第22卷(第11期);第1655-1663页
蛋白质-RNA相互作用界面预测与设计;黄阳玉等;《物理化学学报》;20121031;第28卷(第10期);第2390-2400页

Also Published As

Publication number Publication date
CN106295243A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
Zheng et al. Deep‐learning contact‐map guided protein structure prediction in CASP13
CN107038348B (zh) 基于蛋白-配体相互作用指纹图谱的药物靶标预测方法
Zheng et al. Protein structure prediction using deep learning distance and hydrogen‐bonding restraints in CASP14
CN106529205B (zh) 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
CN107609342B (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
KR20200129130A (ko) 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법
Smirnov et al. MAGUS: multiple sequence alignment using graph clustering
CN106295243B (zh) 一种蛋白质-rna复合物结构预测方法
Viswanath et al. Improving ranking of models for protein complexes with side chain modeling and atomic potentials
US20160070854A1 (en) Aligning and clustering sequence patterns to reveal classificatory functionality of sequences
CN115240762B (zh) 多尺度小分子虚拟筛选方法及系统
He et al. Full-length de novo protein structure determination from cryo-EM maps using deep learning
CN108647487A (zh) G蛋白偶联受体-配体相互作用关系的预测方法及预测系统
Terashi et al. DeepMainmast: integrated protocol of protein structure modeling for cryo-EM with deep learning and structure prediction
US20230420070A1 (en) Protein Structure Prediction
An et al. Robust and accurate prediction of protein self-interactions from amino acids sequence using evolutionary information
CN110610763A (zh) 基于katz模型的代谢物与疾病关联关系预测方法
Tao et al. Docking cyclic peptides formed by a disulfide bond through a hierarchical strategy
Bernard et al. State-of-the-RNArt: benchmarking current methods for RNA 3D structure prediction
CN107526939B (zh) 一种快速小分子结构对齐方法
CN110853763B (zh) 基于融合属性的miRNA-疾病关联识别方法及系统
Habibi et al. LRC: A new algorithm for prediction of conformational B-cell epitopes using statistical approach and clustering method
JP2010113473A (ja) ペプチドとタンパク質の結合部位を予測する方法、装置、およびプログラム
CN115116543A (zh) 抗原抗体结合位点确定方法、装置、设备和存储介质
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant