CN108932400B

CN108932400B - 一种考虑界面信息的有效的蛋白质-rna复合物结构预测方法

Info

Publication number: CN108932400B
Application number: CN201710374896.3A
Authority: CN
Inventors: 李春华; 马梦琳; 陆林; 刘洋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2021-07-23
Anticipated expiration: 2037-05-24
Also published as: CN108932400A

Abstract

一种考虑界面信息的有效的蛋白质‑RNA复合物结构预测方法，属于蛋白质‑RNA分子识别与相互作用研究领域。第一，以蛋白质中的每个氨基酸残基为中心，将与之有接触的残基划分为一个模块，剔除内部模块，保留表面模块。第二，对表面模块定义PPQA：模块的界面偏好性P、内部接触面积Q和溶剂可及表面积A三者乘积；根据PPQA由高到低排序，排在前两位的为可能的结合模块。第三，将结合模块信息整合到BESDock分子对接中，约束对接采样的范围。第四，用组合打分函数RPveScore评估对接采样的结合模式，分值由低到高排序，筛选出近天然结构。该方法提高采样效率，提高近天然结构的排名，给出复合物结构良好的预测。

Description

一种考虑界面信息的有效的蛋白质-RNA复合物结构预测方法

技术领域

本发明属于蛋白质-RNA分子识别与相互作用研究领域，具体为一种考虑界面信息的有效的蛋白质-RNA复合物结构预测方法，是一种用于识别非核糖体 RNA结合单链蛋白界面模块、进而将识别到的模块信息整合到分子对接 BESDock中进行复合物结构预测的方法。

背景技术

进入21世纪以来，伴随着大量功能性非编码RNA的发现，人们对RNA的作用有了新的认识。而RNA与蛋白质相互作用更是关系到生物体细胞生命活动的众多方面，如基因的表达与调控、蛋白质的合成和细胞周期调控等等。更为重要的是，一些重大疾病，如肿瘤的发生、心血管疾病、自身免疫疾病等都与RNA 与蛋白质相互作用密切相关。因此研究蛋白质-RNA特异性识别，进而获得其复合物三维空间结构对理解其生物学功能的发挥及相关疾病的产生具有重要的生物学意义，并为基于结构的药物设计提供必要的理论依据。

实验测定蛋白质复合物结构存在诸多困难。可以看到当前由于实验方法解析的蛋白质结构数据库(Protein Data Bank，PDB^[1])中，蛋白质单体的结构数量已接近12万。研究人员预测其中大约有6％-8％的蛋白质是RNA结合蛋白^[2]。而截至2017年4月24日，实验测定的蛋白质-RNA复合物结构仅有1987个，远远小于研究人员预测的自然界中应该存在的数量。这样就对从理论上预测蛋白质-RNA复合物结构提出了现实而急迫的要求^[3]。

分子对接是预测复合物结构的主要方法之一^[4,5]。通常分子对接主要包括两步：结合模式的构象搜索和近天然结构的打分筛选^[6]。相比于蛋白质-蛋白质分子对接方法的发展，蛋白质-RNA分子对接发展要迟缓得多。目前针对蛋白质 -RNA分子对接的方法还鲜有报道。研究人员常采取用于蛋白质-蛋白质分子对接，如FTDock^[7]、HADDOCK^[8]、GRAMM^[9]和HEX^[10]的构象搜索算法来进行结合模式的采样。由于没有考虑蛋白质-RNA相互作用的特殊性，所以采样效率很低，即近天然结构占所有采样样本数的比率非常低，这就导致即使后期使用合理准确的打分函数来评价对接结构，复合物结构预测的成功率仍然偏低。因此，如果在分子对接之前，能够预测出蛋白质上RNA的结合部位，就可以用该信息来约束结合模式的采样范围，这无疑会大大增加结合模式的采样效率，提高复合物结构成功预测的可能性。

课题组之前对FTDock分子对接方法进行了改进，发展了生物信息加强采样的BESDock^[11]对接方法。在BESDock方法中，受体和配体分子被投影到三维空间网格中，对网格赋值来将分子几何形状表示成两个离散的函数。对受体分子，表面、内部和外部网格分别赋值为1、-15和0；对配体，表面和内部的网格均赋值为1、外部网格赋值为0。当受体分子结合位点信息已知时，通过调整蛋白质三维格点的赋值，从而给予受体结合位点处于复合物界面的结构以更高的几何互补性打分。具体的做法是，以蛋白质结合位点残基为球心画一个球，半径为1.4nm。将位于球外部的格点设置为0，位于球内部的格点不变。在采样阶段，受体不动，平移和旋转配体分子，对每一种结合模式都要更新配体分子的离散化函数，并计算两个离散函数的相关性(受体和配体几何互补性打分)，保留10000个几何互补性最好的结合模式，做后续的打分筛选。可以看到，这样在结合模式的采样中只有球内部的格点对几何互补打分有贡献，而球外部的格点对几何互补打分无贡献。这相当于配体在受体表面的结合模式的采样被限制在界面残基附近^[11]，这是一个非常巧妙的考虑结合位点信息的采样方法。需要说明的是FTDock与 BESDock方法的不同仅仅在于前者只能进行全空间搜索，不能考虑结合位点信息，而后者可以约束采样在结合位点区域。

尽管蛋白质-RNA对接采样可以用生物信息加强采样的BESDock方法，但是蛋白质上结合RNA的位点如何预测，如何将这一信息整合到BESDock中，是我们关注的主要问题。蛋白质上RNA结合位点的预测是生物信息学家关注的热点，不仅有助于复合物结构预测，而且有助于蛋白质功能改造和基于结构的药物设计的发展。目前所提出的方法主要是在残基水平的结合位点预测，采用蛋白质一级序列和三维结构的信息，利用机器学习方法进行识别。基于序列的特征包括氨基酸的进化信息、物化特性、二级结构、位置特异性打分矩阵(PSSMs)和3D 基序，这类方法有RISP^[12]、BindN^[13]和BindN+^[14]等。与基于序列的方法相比，基于结构的方法是非常有限的，主要有OPRA^[15]、DRNA-3D^[16]]和RBRDetector^[17]，这主要是由于蛋白质的结构相对序列来说获取较困难。

目前大部分结合位点预测方法是残基水平的，且仅考虑蛋白质表面氨基酸残基的性质，忽略了表面近邻小区域内(包括内部残基)氨基酸残基间的相互作用和协同效应。很多研究表明，蛋白质-蛋白质相互作用中，蛋白质分子是一个通过残基间各种相互作用共同维系的复杂系统，其结合界面残基具有协同效应：结合界面残基与内部残基的相互作用包含了界面区域的信息^[18]，界面残基往往聚集成簇^[19,20]、堆积密度相对较高^[21]，界面结构是模块化的、模块内残基的内聚性强、模块间的耦合作用并不强^[21]。鉴于以上研究结果，2012年，我们研究小组针对蛋白质-蛋白质相互作用，提出了一种能够体现残基间内聚性的蛋白质表面模块划分方案和结合模块预测方法，简称PAMA^[22]。PAMA是用来预测蛋白质结合蛋白上界面模块的方法。该方法首先将蛋白质表面模块进行划分；计算模块内残基的溶剂可及表面积与内部残基间接触面积的乘积；然后按照乘积值由大到小对模块进行排序，排在前面的模块被认为是界面模块。在该工作中，我们给出 PAMA划分蛋白质结合蛋白表面模块的方法同样适用于RNA结合蛋白表面模块的划分。在PAMA方法的基础上，我们对其做了进一步的改进，将课题组之前统计获得的针对蛋白质-RNA复合物结构的氨基酸-核苷酸成对偏好性信息^[23]以模块的界面偏好性方式加入到模块参数中，提出了RNA结合蛋白质上界面模块的预测方法PPQA。

获得大量的结合模式后，需要用一个合理的打分函数将近天然结构(与天然结构配体均方根偏差小于

的结合模式)筛选出来。在蛋白质-RNA打分函数设计方面，近几年研究人员只是提出了数个基于知识的统计势。2010年， Pérez-Cano等基于282个非冗余蛋白质-RNA复合物结构统计得到了20×4氨基酸-核苷酸成对偏好势^[24]。2011年，Tuszynska和Bujnicki^[25]提出了QUASI-RNP 和DARS-RNP两种打分函数，都是粗粒化的分子模型，但参考态的选取不同。 2012年我们课题组构建了非冗余非核糖体的蛋白质-RNA复合物数据库，考虑分子二级结构信息后统计得到了60×8的氨基酸-核苷酸成对偏好势^[23]。2014年， Huang等^[26]基于统计力学的迭代方法提出了ITScore-PR打分函数用于结合模式预测。与基于物理的打分相比，基于知识的打分通常鲁棒性较好，但它们的组合将进一步提高评分效果，这在蛋白质-蛋白质对接评分设计中已得到证实。2017 年课题组尝试将我们发展的60×8氨基酸-核苷酸成对偏好势与基于物理的能量项进行组合，构建了一个加权组合的打分函数RpveScore^[27]。测试结果表明， RpveScore的预测成功率要比统计势高26.5％，比ITScore-PR，DARS-RNP和 QUASI-RNP分别高出7.6％，7.6％和10.4％。

总的来说，我们发明了一种有效的蛋白质-RNA复合物结构预测方法。首先我们发展了基于模块化的考虑氨基酸-核苷酸成对偏好性信息的RNA结合蛋白界面模块的识别方法(PPQA)；结合课题组之前提出的BESDock对接采样方法，将PPQA得到的界面模块信息通过一定的方式整合到BESDock采样中；之后利用课题组提出的基于物理的能量项和基于知识的统计势二者组合的打分函数 RPveScore对近天然结构进行筛选，最终预测复合物结构。结果发现，1)PPQA 方法用于识别非冗余非核糖体RNA结合单链蛋白上的结合模块，其中有91.30％的体系，识别出的两个结合模块中至少有一个是真正的界面模块。2)将PPQA 识别出的界面模块信息整合到BESDock采样中，对来自David Baker小组^[28]构建的复合物体系1FXL和1JID进行研究，发现结合模式采样中，考虑界面模块信息比不考虑界面模块信息，近天然结构的占比前者分别是后者的2.02和6.63 倍。3)用RPveScore打分排序后，近天然结构的排名也有改善，对体系1FXL，近天然结构的最好排位两种情况下均为第一；对体系1JID，近天然结构的最好排位从50升为31。以上结果说明蛋白质-RNA界面模块预测方法PPQA、生物信息加强采样的算法BESDock，以及考虑物理能量项和统计势加权组合打分函数RPveScore三者结合可以很好地预测蛋白质-RNA复合物结构。

参考文献

[1]BERMAN H M,BHAT T N,BOURNE P E,et al.The Protein Data Bank and thechallenge of structural genomics[J].Nat Struct Biol,2000,7Suppl:957-959.

[2]ZHAO H,YANG Y,ZHOU Y.Prediction of RNA binding proteins comes ofage from low resolution to high resolution[J].Mol Biosyst,2013,9(10):2417-2425.

[3]RITCHIE D W.Recent progress and future directions in protein-protein docking[J].Curr Protein Pept Sci,2008,9(1):1-15.

[4]STEVEN A C,BAUMEISTER W.The future is hybrid[J].Journal ofStructural Biology, 2008,163(3):186-195.

[5]COWIESON N P,KOBE B,MARTIN J L.United we stand:combiningstructural methods[J]. Curr Opin Struct Biol,2008,18(5):617-622.

[6]龚新奇,刘斌,常珊,等.蛋白质复合物结构预测的集成分子对接方法[J].中国科学(C辑:生命科学),2009(10):963-973.

[7]GABB H A,JACKSON R M,STERNBERG M J.Modelling protein docking usingshape complementarity,electrostatics and biochemical information[J].J MolBiol,1997,272(1):106-120.

[8]DOMINGUEZ C,BOELENS R,BONVIN A M.HADDOCK:a protein-protein dockingapproach based on biochemical or biophysical information[J].J Am Chem Soc,2003,125(7):1731-1737.

[9]KATCHALSKI-KATZIR E,SHARIV I,EISENSTEIN M,et al.Molecular surfacerecognition: determination of geometric fit between proteins and theirligands by correlation techniques[J]. Proc Natl Acad Sci U S A,1992,89(6):2195-2199.

[10]RITCHIE D W,KEMP G J.Protein docking using spherical polarFourier correlations[J]. Proteins,2000,39(2):178-194.

[11]MA X H,LI C H,SHEN L Z,et al.Biologically enhanced samplinggeometric docking and backbone flexibility treatment with multiconformationalsuperposition[J].Proteins, 2005,60(2):319-323.

[12]TONG J,JIANG P,LU Z H.RISP:a web-based server for prediction ofRNA-binding sites in proteins[J].Comput Methods Programs Biomed,2008,90(2):148-153.

[13]WANG L,BROWN S J.BindN:a web-based tool for efficient predictionof DNA and RNA binding sites in amino acid sequences[J].Nucleic Acids Res,2006,34(Web Server issue):W243-W248.

[14]WANG L,HUANG C,YANG M Q,et al.BindN+for accurate prediction ofDNA and RNA-binding residues from protein sequence features[J].BMC Syst Biol,2010,4Suppl 1:S3.

[15]PEREZ-CANO L,FERNANDEZ-RECIO J.Optimal protein-RNA area,OPRA:apropensity-based method to identify RNA-binding sites on proteins[J].Proteins, 2010,78(1):25-35.

[16]ZHAO H,YANG Y,ZHOU Y.Structure-based prediction of RNA-bindingdomains and RNA-binding sites and application to structural genomics targets[J].Nucleic Acids Res, 2011,39(8):3017-3025.

[17]YANG X X,DENG Z L,LIU R.RBRDetector:improved prediction ofbinding residues on RNA-binding protein structures using complementaryfeature-and template-based strategies[J]. Proteins,2014,82(10):2455-2471.

[18]de VRIES S J,BONVIN A M.Intramolecular surface contacts containinformation about protein-protein interface regions[J].Bioinformatics,2006,22(17):2094-2098.

[19]MADABUSHI S,YAO H,MARSH M,et al.Structural clusters ofevolutionary trace residues are statistically significant and common inproteins[J].J Mol Biol,2002,316(1):139-154.

[20]GUHAROY M,CHAKRABARTI P.Conservation and relative importance ofresidues across protein-protein interfaces[J].Proc Natl Acad Sci U S A,2005,102(43):15447-15452.

[21]HINTZE A,ADAMI C.Evolution of complex modular biological networks[J].PLoS Comput Biol,2008,4(2):e23.

[22]王攀文,龚新奇,李春华,等.蛋白质表面模块划分及其在结合位点预测中的应用[J].物理化学学报,2012(11):2729-2734.

[23]LI C H,CAO L B,SU J G,et al.A new residue-nucleotide propensitypotential with structural information considered for discriminating protein-RNA docking decoys[J].Proteins, 2012,80(1):14-24.

[24]PEREZ-CANO L,SOLERNOU A,PONS C,et al.Structural prediction ofprotein-RNA interaction by computational docking with propensity-basedstatistical potentials[J].Pac Symp Biocomput,2010:293-301.

[25]TUSZYNSKA I,BUJNICKI J M.DARS-RNP and QUASI-RNP:new statisticalpotentials for protein-RNA docking[J].BMC Bioinformatics,2011,12:348.

[26]HUANG S Y,ZOU X.A knowledge-based scoring function for protein-RNA interactions derived from a statistical mechanics-based iterative method[J].Nucleic Acids Res,2014,42(7):e55.

[27]ZHANG Z,LU L,ZHANG Y,et al.A combinatorial scoring function forprotein-RNA docking[J].Proteins,2017,85(4):741-752.

[28]CHEN Y,KORTEMME T,ROBERTSON T,et al.A new hydrogen-bondingpotential for the design of protein-RNA interactions predicts specificcontacts and discriminates decoys[J].Nucleic Acids Res,2004,32(17):5147-5162.

发明内容

本发明的目的是在给出非冗余非核糖体RNA结合单链蛋白结构的情况下，预测出蛋白质上RNA结合模块的位置；进而将该信息通过一定的方式整合到生物信息加强采样的BESDock对接采样中；并用基于物理的能量项和基于知识的统计势加权组合的打分函数RPveScore进行近天然结构的筛选。界面模块信息的加入是为了提高近天然结构在整个采样中的占比，以及近天然结构的排序。该发明可为蛋白质-RNA复合物结构预测和药物设计提供帮助。

一种考虑界面信息的有效的蛋白质-RNA复合物结构预测方法，其特征在于，结合蛋白质上RNA结合模块识别方法PPQA、分子对接BESDock算法，以及打分函数RPveScore进行复合物结构预测，分四个步骤进行：一是对蛋白质进行模块划分，获得表面模块；二是计算每个表面模块的自定义参数PPQA，识别出可能的界面模块；三是将预测出的结合模块信息整合到BESDock分子对接采样中；四是用组合打分函数RPveScore评估对接采样的结合模式，筛选出可能的近天然结构，流程图见附图1，具体步骤如下：

步骤1：对蛋白质进行模块划分，获得表面模块

以蛋白质三维结构中的每个氨基酸残基为中心，将与之有接触的所有残基 (包括该中心残基、蛋白质内部残基以及表面残基)划分为一个模块(module)。传统算法是采用距离来确定残基间是否接触，本发明优选采用基于维里几何的 Qcontacts算法(J StructBiol,2006,153(2):103-112)计算残基间的接触面积，来判断两残基是否接触，这种判断接触的方式比基于距离的方式更加接近真实情况。然后剔除所有的内部模块(不包含任何表面残基的模块)，保留表面模块(至少有一个表面残基的模块)作为最后表面模块划分的结果(附图2)。表面残基定义为相对溶剂可接近表面积≥15％的残基，本发明优选溶剂可接近表面积的计算 NACCESS方法，水分子探针半径取

另外，定义界面模块为至少含有一个与RNA分子相互作用的界面残基的模块，界面模块为表面模块中的一部分。界面残基为蛋白质氨基酸中至少有一个原子与RNA中的任何一个原子间的距离小于

的残基。

步骤2：计算模块的自定义参数PPQA，识别出可能的界面模块

对表面模块计算以下各值：模块溶剂可接近表面积A、模块内部残基接触面积Q，以及模块界面偏好性

如附图2所示。模块的溶剂可接近表面积A为模块中所有残基的溶剂可接近表面积之和：

其中，A_i是模块中第i个残基的溶剂可接近表面积，求和遍及模块中的所有残基。

模块的内部接触面积Q为模块内所有残基对的接触面积之和：

其中，Q_ij是模块中残基i和残基j之间的接触面积，求和遍及模块中的所有残基对。由以上两个参数的乘积可得到模块的PAMA值，即溶剂可接近表面积乘以内部接触面积：PAMA＝A×Q。

接下来进一步考虑模块界面偏好性，获得模块PPQA参数值。基于我们之前对非冗余非核糖体蛋白质-RNA复合物结构数据的统计分析发现，不同的氨基酸 -核苷酸接触具有不同的偏好性。我们认为这一信息的考虑应该可以帮助识别蛋白质上结合RNA的模块，提高结合位点预测的准确性。因此我们在PAMA原理的基础上考虑了氨基酸-核苷酸成对偏好性信息(Proteins,2012,80(1):14-24)。针对每一种氨基酸，取其与4种核苷酸的偏好性的平均值，获得该氨基酸的界面偏好性(表1中Average列)。这里针对每一个蛋白质表面模块，计算其中所有氨基酸残基界面偏好性之和的算术平均值

作为模块的界面偏好性：

其中N表示模块中氨基酸残基的个数，

表示模块中残基i的界面偏好性，求和遍及模块中的所有残基。

表1 20×4氨基酸-核苷酸成对偏好性及氨基酸界面偏好性

接着，定义模块的PPQA参数值，即模块界面偏好性、溶剂可及表面积，以及其内部接触面积三者相乘：

最后，根据PPQA值从大到小对模块进行排序，考察蛋白质界面模块所处的位置，从而确定前几个作为界面模块的识别标准(根据后续的统计分析，确定前两个模块为最可能的界面模块)。

研究对象来自小组构建的非冗余非核糖体蛋白质-RNA复合物结构(Proteins,2012,80(1):14-24)，去掉其中受体和配体是非单链的情况，最终的研究体系为69 个复合物体系(如表2)。

表2 69个非冗余非核糖体，且受体配体均是单链的蛋白质-RNA复合物

表3是对三种预测界面模块方法获得的结果进行比较，这三种方法是本发明方法(以参数PPQA来命名)、随机挑选界面模块方法和用于蛋白质结合蛋白上界面模块预测的PAMA方法。

表3 用不同方法获得的69个蛋白质-RNA复合物中受体蛋白界面模块最高排序结果

从界面模块最高排序来看(如表3)，随机方法排序中，界面模块排在首位的有33个蛋白体系(占整个数据集的47.83％)；PAMA方法排序中，界面模块排在首位的有42个体系(60.87％)；PPQA方法排序中，有50个(72.46％)。从界面模块最高排序的平均值来看，随机方法、PAMA和PPQA方法分别是3.42、1.96和1.74(最小)。界面模块的排序越靠前，对预测结合模块越有利。根据PPQA 方法排序后首个界面模块的最高排序的平均值为1.74，我们确定具有最大和次大 PPQA值的表面模块(即排在前两位的表面模块)是界面模块。

从表面模块排序前1-3位(包括3)中含有界面模块的体系数目统计(如附图3)来看，三种方法中，PPQA方法执行的效果最好，例如前两位表面模块中至少有一个是界面模块的体系最多，有63个，占整个数据集的91.30％，与PAMA 方法相比，提高了11.59％，与随机方法相比，提高了30.43％。

因此这一结果一方面说明之前用于蛋白质结合蛋白上界面模块预测PAMA 中，表面模块的划分方法可以用于预测RNA结合蛋白界面模块中表面模块的划分，即蛋白质-RNA识别中蛋白质的结合界面也具有模块化的特性；另一方面说明氨基酸-核苷酸成对偏好性信息的考虑，以及其在模块参数中的加入方式，都具有一定的合理性，可以提高蛋白质-RNA复合物界面模块的识别成功率。

步骤3：将预测出的结合模块信息整合到BESDock分子对接采样中

将用PPQA方法识别到的RNA结合蛋白质上可能的界面模块信息通过一定的方式整合到BESDock分子对接采样中：受体蛋白质和配体分子RNA被投影到三维空间网格中，对网格赋值来将分子的几何形状表示成两个离散的函数；分别以两个中的每个模块给出的信息来约束RNA在蛋白质表面的采样范围，各得到10000个几何互补性较好的结合模式，总共得到20000个对接结构。具体做法是：以识别到的界面模块中所有氨基酸残基几何中心为球心画一个球，半径为 1.4nm，球外部的格点赋值为0，球内部的格点赋值与FTDock方法相同：表面、内部分别赋值为1、-15；对配体分子，BESDock与FTDock赋值是一样的，表面和内部的网格均赋值为1、外部网格赋值为0；在采样阶段，受体不动，平移和旋转配体分子，对每一种结合模式都要更新配体分子的离散函数，并计算两个离散函数的相关性(受体和配体几何互补性打分，取分数高的)，保留10000 个几何互补性最好的结合模式作为对接采样结构，做后续的打分筛选。

本发明在计算受体与配体几何互补性时只有球内部的格点对几何互补打分有贡献，球外部的格点无贡献，相当于约束配体在受体表面的界面模块区域进行采样。对接后每个界面模块上各产生10000个结构，优选共产生20000个对接结构，统计出20000个结构中近天然结构的占比，与不考虑界面信息采样即FTDock 产生的10000个结构中近天然结构的占比进行比较。需要说明的是不考虑界面信息的BESDock其实就是FTDock。

步骤4：利用组合打分函数RPveScore对分子对接产生的结构进行打分排序

用RPveScore组合打分函数分别对步骤3中考虑界面信息使用BESDock方法得到的20000个几何互补性最好的结合模式进行打分排序，和不考虑界面信息使用FTDock得到的10000个结构进行打分排序，统计出两种情况下近天然结构的排序，本发明排在前面的结构为最有可能的近天然结构；

组合打分函数包括7项：静电短程吸引项

静电短程排斥项

静电长程吸引项

静电长程排斥项

范德华吸引项

范德华排斥项

统计势(E_rp)。组合打分函数的形式如下：

其中w₁～w₇是通过线性拟合打分项和配体均方根偏差(Root Mean SquareDeviation，RMSD)得到的权重系数。w₁～w₇分别为0.05189，0.00669，0.02499， 0.02685，0.00217，0.00150，0.05169。

范德华吸引能量项和排斥能量项通过修正的李纳-琼斯势计算：

如果r_ij≥0.89×r_s,ij (6)

如果r_ij<0.89×r_s,ij (7)

其中，r_s,ij表示原子i与原子j的范德华半径之和；r_ij表示原子i与原子j之间的距离；ε_ij表示原子i与原子j势阱深度乘积的平方根。

静电能由库仑模型计算得到：

其中

以避免当r_ij过小时出现奇异值的情况，r_ij表示原子i与原子j之间的距离；q_i和q_j表示原子i与原子j所带的电荷；ε_ij为介电常数，这里取距离依赖型，即ε_ij＝r_m，ij；静电相互作用按吸引和排斥以及r_ij是否大于

分为4项：当

时，为静电长程作用，进一步E_ele≥0时为静电长程排斥

E_ele<0为静电长程吸引

当

时，为静电短程作用，进一步E_ele≥0 为静电短程排斥

E_ele<0为静电短程吸引

电荷参数来自Amber中的力场参数，本发明中优选采用的版本为Amber 10。

统计势，即60×8氨基酸-核苷酸成对偏好势，是从非冗余非核糖体蛋白质 -RNA复合物中统计获得的，考虑了分子的一级和二级结构信息。根据二级结构界面偏好性，将蛋白质二级结构分为三类：X类，包括3₁₀-helix(G)、π-helix(I) 和bend(S)；Y类，包括turn(T)、β-sheet(E)、β-bridge(B)和‘’(不规则)；Z 类，只包括a-helix(H)。RNA核苷酸则分为两类：P类，只包括WC配对；NP 类，包括未配对和非WC配对。这样就形成了一个60×8的氨基酸-核苷酸成对统计偏好性(如表4)，其计算方法如下：

其中，

是界面上i类二级结构(X,Y,Z类之一)a类型的氨基酸(20中氨基酸之一)与j类二级结构(P和NP类之一)b类型的核苷酸(4种核苷酸之一) 接触对的数量，氨基酸与核苷酸接触被定义为其上至少有一对原子间的距离小于

是界面上氨基酸-核苷酸结合对的总数量；

和

分别是a类型表面残基和b类型表面核苷酸的数量；

和

分别是表面残基和表面核苷酸的总数量；

和

分别表示蛋白质表面二级结构i类氨基酸与RNA表面二级结构j类核苷酸的数量；

和

分别是表面残基和核苷酸的总数量，由于氨基酸和核苷酸一定在某种二级结构中，所以

根据波尔兹曼分布率，就能得到ai-bj类氨基酸-核苷酸成对偏好势：

具体对一种蛋白质-RNA结合模式，可以根据下式得到总的相互作用统计势为：

求和遍及整个结合模式的界面。

表4 60×8氨基酸-核苷酸成对偏好性

根据打分数值从低到高排列，选择靠前的分数低的结合模式作为近天然结构，因为分数负的绝对值越大表示结合能力越强。

附图说明

图1为一种考虑界面信息的有效的蛋白质-RNA复合物结构预测方法流程图

图2为蛋白质表面模块的划分，0号残基与1、2、3、4、5号残基接触，是这个模块的中心残基。尽管4、5号残基是一个内部残基，但它仍然被划分为这个模块的一部分。A表示模块的溶剂可接近表面积，Q表示模块内部接触面积

图3为不同方法对蛋白质表面模块进行排序，前1-3位中至少含有一个界面模块的体系数目

图4表示对1FXL a)和1JID b)体系受体蛋白(浅灰色)上具有最大(黑色)和次大(深灰色)PPQA值的模块所在的表面区域以及天然结构中RNA分子(链状深灰色)的位置

图5针对体系1FXL(上排)和1JID(下排)，不考虑任何结合位点信息FTDock 对接a)，以及BESDock对接，约束采样在具有最大PPQA值b)(模块显示为黑色)和次大PPQA值c)(模块显示深灰色)模块区域产生的各10000对接结构中，配体的几何中心相对于蛋白质受体的位置。浅灰色表示受体蛋白质，浅灰色点表示RNA分子的几何中心

图6表示针对体系1FXL a)和1JID b)，考虑结合位点信息后，首个近天然结构的配体与晶体结构配体的对比。浅灰色表示受体蛋白质，黑色表示晶体结构的 RNA分子位置，深灰色表示排位最好的近天然结构中RNA分子的位置。

具体实施方式

下面结合两个实施例对本发明做进一步的说明，但本发明并不限于以下实施例。两个例子来自David Baker小组(Nucleic Acids Res,2004,32(17):5147-5162)根据复合物体系大小及界面不同特征获得的5个蛋白质-RNA复合物结构。去除核糖体及单体为多链分子后，得到PDB ID是1FXL和1JID的两个复合物结构做例子。

实施例1

已知蛋白质(SRP 19KDA Protein)和RNA(Helix 6of Human SRP RNA) 的三维结构，通过实施该方法获得蛋白质上结合RNA的界面模块，并预测复合物近天然结构。其复合物结构的PDB ID为1JID。该方法的具体实施过程如下。

1.用PPQA方法识别蛋白质界面模块。

(1)蛋白质结构预处理

首先将蛋白质受体重命名为1jid_r_b.pdb。在首次使用该方法程序包的时候，需要创建结果文件的存放目录，在本程序包的工作目录下，采用shell创建目录如下：

…]$mkdir structures

…]$mkdir data

…]$mkdir data/ReceptorModule

…]$mkdir data/Rsa

…]$mkdir data/Vor

创建完以上目录后，将预处理完的1jid_r_b.pdb文件移动到structures目录下…]$mv 1jid_r_b.pdb structures/

(2)计算蛋白质中每个氨基酸残基的溶剂可及表面积，区分出表面残基

蛋白质中每个氨基酸残基的溶剂可接近表面积通过程序NACCESS来计算 (水分子探针半径取

)：

…]$./naccess structures/1jid_r_b.pdb

注意：NACCESS程序要与structures在同一目录下。计算完成后每个氨基酸残基的溶剂可及表面积会存放在1jid_r_b.rsa文件中，将1jid_r_b.rsa文件移至 data/Rsa目录下。该文件的内容如下：

表5 每个氨基酸残基的溶剂可接近表面积

其中对每个残基分别给出了五项溶剂可及表面积，即所有原子的(All-atoms)、所有侧链原子的(Total-Side)、所有主链原子的(Main-Chain)、侧链非极性原子的(Non-polar)、侧链极性原子的(all polar)溶剂可及表面积。每一项又分别给出了两个值，即绝对值(ABS)和相对值(REL)。其中All-atoms项ABS列为我们需要的每个氨基酸残基的溶剂可及表面积，会在后面求模块的溶剂可及表面积时使用。All-atoms项REL列为残基的相对溶剂可及表面积，其值≥15％的残基为表面残基。表面残基确定后，用于后面从蛋白质模块中(包括表面模块和内部模块)区分出表面模块(至少含有一个表面残基的模块)。

(3)计算氨基酸残基间的接触面积

氨基酸残基间的接触面积采用程序Qcontacts来计算：

…]$./Qcontacts.pl-i structures/1jid_r_b.pdb-prefOut data/Vor/1jid

程序运行完后生成1jid_A-by-res.vor文件，其中存放氨基酸残基间的接触面积，文件如下：

表6 氨基酸残基间的接触面积

残基间接触面积一方面用于下一步划分蛋白质模块，另一方面用于计算模块内残基间接触面积。

(4)对蛋白质结构划分模块，计算参数PPQA值，识别界面模块

根据上一步获得的残基间接触面积来划分蛋白质模块，并根据前面(2)中获得的蛋白质的表面残基，来去除内部模块(不包含任何表面残基的模块)，从而保留表面模块(至少含有一个表面残基的模块)。

…]$./getModules.pl 1jid r>data/ReceptorModule/1jid_r.module

对蛋白质结构的所有表面模块，根据公式(1)计算出每个模块的溶剂可及表面积A，即模块中每个残基的溶剂可及表面积(从前面(2)中产生的文件 1jid_r_b.rsa中获得)之和；根据公式(2)计算出模块内氨基酸残基间的接触面积Q，即模块内两两残基间的接触面积(从前面(3)产生的文件1jid_A-by-res.vor 中获得)；计算模块A与Q的乘积，得到文件AQ_value.txt。根据公式(3)计算每个模块的界面偏好性，该值为模块中所有氨基酸残基界面偏好性(数据来自表1中的Average列)之和的平均值。然后根据公式(4)计算模块的PPQA值 (程序为PPQA.py)，即模块的溶剂可及表面积A，内部氨基酸残基间的接触面积Q，及模块的界面偏好性三者的乘积。需要提取表1(20×4氨基酸-核苷酸成对偏好性及氨基酸界面偏好性)中的Average列，存成名为 aa_interface_propensity.txt的文件。

C:\Python27>PPQA.py>PPQA_out.txt

程序运算完成后，生成PPQA_out.txt文件，该文件就是加入氨基酸-核苷酸成对偏好性信息之后计算得到的蛋白质表面模块的PPQA值，这里同时也根据PPQA 值由大到小的顺序对模块进行了排序。module 0是PPQA指最大的模块，以此类推，如表7。

表7 用PPQA方法获得的蛋白质表面模块的各项参数

^a蛋白质表面模块，其排序根据PPQA值由大到小

^b模块的溶剂可接近表面积A

^c模块内氨基酸残基间的接触面积Q

^d模块的界面偏好性

^e PPQA为以上三项的乘积

选取排在前两位的表面模块作为蛋白质界面模块的预测结果。通过与复合物实验结构中真正的蛋白质界面模块进行比较，发现最大PPQA值的模块不是界面模块，但次大值的模块是界面模块，说明我们识别界面模块是成功的。附图4b) 给出了对蛋白质(SRP19KDA Protein)，PPQA方法识别到的界面模块在蛋白质表面所处的位置。从图中可以看出，具有次大PPQA值的模块与RNA有部分接触，是真正的界面模块。

2.分别进行考虑界面模块信息的BESDock采样，和不考虑该信息的FTDock采样

对蛋白质(SRP 19KDA Protein)和RNA(Helix 6of Human SRP RNA)进行两组bound对接。一组是利用FTDock在没有结合位点信息情况下进行对接采样，共产生10000个对接结构。另一组是利用前面识别的界面模块进行对接采样，方法是BESDock。需要指出的是在后一组对接中，进行两次对接采样，分别约束采样在蛋白质表面的两个被识别出的界面模块(即具有最大和次大PPQA值的模块)区域，这样每次对接产生10000个结构，共20000个结构。

在两种对接采样中，将蛋白质和RNA分子投影到三维空间网格中，并对它们所在格子赋值。在FTDock中，对蛋白质分子，表面、内部和外部的网格分别赋值为1、-15和0。在BESDock中，修改网格的赋值，以识别到的界面模块中所有氨基酸残基几何中心为球心画一个球，半径为1.4nm，将位于球外部的格点修改为0，其它不变。对配体来说，FTDock和BESDock是一样的，即表面和内部的网格均赋值为1、外部网格赋值为0。这样受体和配体分子就被表示成两个离散的函数。采样中，受体格点不动，平移和旋转配体分子的格点，每一步都需要对配体网格重新离散化，之后对每一种结合模式，计算两个离散函数的相关性即受体和配体几何互补性打分。这样对于BESDock结合模式的采样，只有球内部的格点对几何互补打分有贡献，而球外部的格点对几何互补打分无贡献，会有更多的受体或配体分子结合位点处于复合物界面的结构被保留下来，相当于配体在受体表面的结合模式的采样被限制在界面残基附近，最终保留几何互补性最好的结合模式。需要说明的是不考虑界面信息的BESDock其实就是FTDock。

具体实施命令如下：

./ftdock-static 1jid-r.parsed-mobile 1jid-l.parsed–noelec>output

./besdock-static 1jid-r.parsed-mobile 1jid-l.parsed–noelec>output

分析结果看到(附图5下排)，在用FTDock方法(不考虑结合位点信息) 进行采样时，在产生的10000个结构中配体较均匀分散在受体表面，近天然结构有8个，占总体结构数的0.08％；当约束采样在具有最大和次大PPQA值的表面模块上，用BESDock进行采样时，20000个结构中近天然结构有106个(约束采样在首位表面模块上产生55个，次位表面模块上产生51个)，占总体结构的 0.53％，是不考虑结合位点信息情况下近天然结构占比的6.63倍。

3.用组合打分函数RPveScore对对接样本进行打分

根据公式(5)，用基于物理的能量项和基于知识的统计势加权组合的打分函数对FTDock和BESDock产生的结构进行打分排序。结果中，FTDock产生的 10000个结构中，首个近天然结构排在第50位；BESDock产生的20000个结构中，首个近天然结构排在第31位。附图6b)给出了首个近天然结构的配体与晶体结构配体相对于受体位置的对比。由图可以看出，对1jid体系而言，近天然结构RNA分子相对于蛋白质的位置与天然结构中十分接近。

以上结果说明我们发展的PPQA蛋白质-RNA界面模块识别方法是可靠的。该方法可以与小组提出的BESDock对接方法和RPveScore打分函数相结合，有效预测蛋白质-RNA复合物的结构，提高了近天然结构的占比，并且可以提高首个近天然结构的排序。

实施例2

以蛋白质Paraneoplastic encephalomyelitis antigen HUD)、RNA分子Fragmentof the C-FOS AU-rich element，其复合物PDB号1FXL的体系为例预测复合物结构。具体流程同于前一例子，这里只对结果进行说明。

对1FXL，附图4a)显示了PPQA方法识别到的排在前两位的表面模块。由图可知，两个表面模块均是真正的界面模块，说明我们的预测是成功的。附图5 (上排)给出了不考虑结合位点信息的FTDock采样，和考虑上述信息进行 BESDock采样，配体几何中心相对于受体的位置。发现考虑界面信息与不考虑相比，近天然结构的占比前者是后者的2.02倍。用RPveScore打分排序后近天然结构的排名两种情况下均为第一，附图6a)给出了首个近天然结构的配体与晶体结构配体相对于受体位置的对比。

以上结果说明蛋白质-RNA界面模块预测方法PPQA、生物信息加强采样的算法BESDock，以及基于物理的能量项和基于知识的统计势相组合的打分函数 RPveScore三者结合可以很好的预测蛋白质-RNA复合物结构。

Claims

1.一种考虑界面信息的有效的蛋白质-RNA复合物结构预测方法，其特征在于，包括以下几个步骤：一是对蛋白质进行模块划分，获得表面模块；二是预测出蛋白质上RNA的结合模块；三是将预测出的结合模块信息整合到BESDock分子对接采样中；四是利用组合打分函数RPveScore对分子对接产生的结构进行打分排序，筛选出可能的近天然结构；

步骤1：蛋白质表面模块划分

以蛋白质三维结构中的每个氨基酸残基为中心，将与之有接触的所有残基划分为一个模块，包括该中心残基、蛋白质内部残基以及表面残基；然后剔除所有的内部模块，保留表面模块作为最后表面模块划分的结果，内部模块为不包含任何表面残基的模块，表面模块为至少有一个表面残基的模块；

表面残基为相对溶剂可接近表面积≥15％的残基；界面模块为至少含有一个与RNA分子相互作用的界面残基的模块，界面模块为表面模块中的一部分；界面残基为蛋白质氨基酸中至少有一个原子与RNA中的任何一个原子间的距离小于

的残基；

步骤2：计算模块的自定义参数PPQA，识别出可能的界面模块

模块的溶剂可接近表面积A为模块中所有残基的溶剂可接近表面积之和：

其中，A_i是模块中第i个残基的溶剂可接近表面积，求和遍及模块中的所有残基；

模块的内部接触面积Q为模块内所有残基对的接触面积之和：

其中，Q_ij是模块中残基i和残基j之间的接触面积，求和遍及模块中的所有残基对；

不同的氨基酸-核苷酸接触具有不同的偏好性，能够帮助识别蛋白质上结合RNA的模块，提高结合位点预测的准确性，定义模块内所有氨基酸残基界面偏好性之和的算术平均值

为模块界面偏好性：

其中N表示模块中氨基酸残基的个数，

表示模块中残基i的界面偏好性，求和遍及模块中的所有残基；针对每一种氨基酸，取其与4种核苷酸的偏好性的平均值，获得该氨基酸的界面偏好性，表1中Average列；

表1 20×4氨基酸-核苷酸成对偏好性及氨基酸界面偏好性

最后，根据PPQA值从大到小对模块进行排序，根据统计分析的结果确定前两个模块为可能的界面模块；

在此将用PPQA方法识别到的RNA结合蛋白上可能的两个界面模块信息通过一定的方式整合到BESDock分子对接采样中；分别以每一个模块给出的信息来约束RNA在蛋白质表面的采样范围，各得到10000个几何互补性最好的结合模式，这样共得到20000个对接结构，具体做法是：以识别到的界面模块中所有氨基酸残基几何中心为球心画一个球，半径为1.4nm，球外部的格点赋值为0，球内部的格点赋值为：分子表面、内部和外部的网格分别赋值为1、-15和0；对配体分子，表面和内部的网格均赋值为1、外部网格赋值为0；在采样阶段，受体不动，平移和旋转配体分子，对每一种结合模式都要更新配体分子的离散化函数，并计算两个离散函数的相关性，即受体和配体几何互补性打分，保留10000个几何互补性最好的结合模式，做后续的打分筛选；

步骤4：利用组合打分函数RPveScore对分子对接产生的结构进行打分排序；

用RPveScore组合打分函数分别对考虑界面模块信息下BESDock方法得到的20000个结构进行打分排序，排在前面的结构为最有可能的近天然结构；

组合打分函数包括7项：静电短程吸引项

静电短程排斥项

静电长程吸引项

静电长程排斥项

范德华吸引项

范德华排斥项

统计势(E_rp)；组合打分函数的形式如下：

其中w₁～w₇是通过线性拟合打分项和配体均方根偏差(Root Mean Square Deviation，RMSD)得到的权重系数；w₁～w₇分别为0.05189，0.00669，0.02499，0.02685，0.00217，0.00150，0.05169；

范德华吸引项和排斥项项通过修正的李纳-琼斯势计算：

其中，r_s,ij表示原子i与原子j的范德华半径之和；r_ij表示原子i与原子j之间的距离；ε_ij表示原子i与原子j势阱深度乘积的平方根；

静电相关项由库仑模型计算得到：

其中

以避免当r_ij过小时出现奇异值的情况，r_ij表示原子i与原子j之间的距离；q_i和q_j表示原子i与原子j所带的电荷；ε_ij为介电常数，这里取距离依赖型，即ε_ij＝r_m，ij；静电相互作用按吸引和排斥，以及r_ij是否大于

拆分为4项：当

时，为静电长程作用，进一步E_ele≥0为静电长程排斥

E_ele<0为静电长程吸引

当

时，为静电短程作用，进一步E_ele≥0为静电短程排斥

E_ele<0为静电短程吸引

电荷参数来自Amber中的力场参数；

统计势，即60×8氨基酸-核苷酸成对偏好势，考虑了分子的一级和二级结构信息，根据二级结构界面偏好性，将蛋白质二级结构分为三类：X类、Y类、Z类；X类包括3₁₀-helix(G)、π-helix(I)和bend(S)；Y类包括turn(T)、β-sheet(E)、β-bridge(B)和不规则(‘’)；Z类只包括a-helix(H)；RNA核苷酸则分为两类：P类和NP类；P类只包括WC配对，NP类包括未配对和非WC配对；这样就形成了一个60×8的氨基酸-核苷酸成对统计偏好性，其计算方法如下：