CN109033744B - 一种基于残基距离和接触信息的蛋白质结构预测方法 - Google Patents
一种基于残基距离和接触信息的蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109033744B CN109033744B CN201810631706.6A CN201810631706A CN109033744B CN 109033744 B CN109033744 B CN 109033744B CN 201810631706 A CN201810631706 A CN 201810631706A CN 109033744 B CN109033744 B CN 109033744B
- Authority
- CN
- China
- Prior art keywords
- distance
- residue
- conformation
- rosetta
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000000455 protein structure prediction Methods 0.000 title description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 34
- 239000012634 fragment Substances 0.000 claims abstract description 8
- 108090000623 proteins and genes Proteins 0.000 claims description 51
- 102000004169 proteins and genes Human genes 0.000 claims description 47
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 238000002424 x-ray crystallography Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于残基距离和接触信息的蛋白质结构预测方法,在Rosetta的基本框架下,引入表示空间中各个位置上残基的相互距离的距离谱和残基接触信息来提高能量函数的精度。首先初始化构象,用Rosetta第一阶段的片段组装技术生成初始种群,并在初始种群中分别对每个构象用Rosetta第二阶段的片段组装来生成新构象;然后根据设计的残基距离谱和接触信息能量函数来指导构象选择,从而更新种群;最后,按上述步骤分别进行Rosetta第三阶段和第四阶段,从而得到最终预测结果。通过残基距离和接触信息为辅来指导构象选择,从而缓解能量函数不精确导致的预测误差问题。本发明预测精度较高。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于残基距离和接触信息的蛋白质结构预测方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。在生物体中,基因序列按照中心法则翻译成氨基酸序列,氨基酸序列在空间折叠成一定结构蛋白质的合成,蛋白质的空间结构比其氨基酸序列更保守,而蛋白质的功能与其空间结构有着密切的关系。所以,掌握蛋白质的结构信息对于研究蛋白质的功能及作用机制具有重要意义。然而蛋白质结构的测定远远赶不上基因组测序速度、X射线晶体学方法和多维核磁共振技术是目前测定蛋白质结构的主要方法。用X射线晶体学方法测定蛋白质结构的前提是必须获得能对X射线产生强衍射作用的晶体,而蛋白质晶体的表达、提纯与结晶增加了结构测定的难度,多维核磁共振技术避免了这些困难,而且能够测定蛋白质的溶液结构,但仅适用于小蛋白。所以,根据蛋白质序列用计算机来预测蛋白质结构就显得很有必要。
目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)构象空间搜索方法;(2)蛋白质结构能量函数。第一个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。第二个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。其中,能量函数值的不精确是导致蛋白质从头预测方法精度问题的关键一环,不精确的能量函数会导致搜索过程中结构合理的构象丢失,从而影响预测精度。
因此,现有的蛋白质结构预测方法在预测精度存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在预测精度方面的不足,本发明利用残基-残基距离和接触信息缓解能量函数的不精确问题,提供一种预测精度较高的基于残基距离和接触信息的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基距离和接触信息的蛋白质结构预测方法,所述方法包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度,分别记为和其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱;
4)设置参数:种群大小NP,算法的迭代次数G,能量权衡因子α,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
本发明的技术构思为:在Rosetta的基本框架下,引入表示空间中各个位置上残基的相互距离的距离谱和残基-残基接触信息来提高能量函数的精度,距离谱根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可及性、中心原子二面角等构建得到。首先初始化构象,用Rosetta第一阶段的片段组装技术生成初始种群,并在初始种群中分别对每个构象用Rosetta第二阶段的片段组装来生成新构象;然后根据设计的残基距离谱和接触信息能量函数来指导构象选择,从而更新种群;最后,按上述步骤分别进行Rosetta第三阶段和第四阶段得到预测结构。
本发明的有益效果为:在Rosetta算法框架上加入了基于残基距离和接触信息的蛋白质结构预测方法,产生了更多结构较好的构象;在Rosetta每个阶段分别利用残基距离和接触信息以及能量函数对构象进行筛选,从而缓解了能量函数不精确带来的预测误差;
附图说明
图1是基于残基距离和接触信息的蛋白质结构预测方法对蛋白质4ICB采样得到的构象比例与均方根偏差分布图。
图2是基于残基距离和接触信息的蛋白质结构预测方法对蛋白质4ICB采样得到的构象分布图。
图3是基于残基距离和接触信息的蛋白质结构预测方法对4ICB蛋白结构预测得到的三维结构;
具体实施方式:
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于残基距离和接触信息的蛋白质结构预测方法,所述方法包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度,分别记为和其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱;
4)设置参数:种群大小NP,算法的迭代次数G,能量权衡因子α,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
以序列长度为76的蛋白质4ICB为实施例,一种基于残基距离和接触信息的蛋白质结构预测方法,包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度,分别记为和其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱;
4)设置参数:种群大小NP=100,算法的迭代次数G=100,能量权衡因子α=0.5,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
以上阐述的是本发明给出的一个实施例表现出来的优良预测效果,显然本发明不仅适合上述实施例,而且可以应用到实际工程中的各个领域,同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于残基距离和接触信息的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白的氨基酸序列,分别利用RaptorX-Contact服务器和NeBcon服务器预测得到目标蛋白的残基-残基接触置信度,分别记为和其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器预测得到蛋白质的距离谱;
4)设置参数:种群大小NP=100,算法的最大迭代次数G=100,能量权衡因子α=0.5,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810631706.6A CN109033744B (zh) | 2018-06-19 | 2018-06-19 | 一种基于残基距离和接触信息的蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810631706.6A CN109033744B (zh) | 2018-06-19 | 2018-06-19 | 一种基于残基距离和接触信息的蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033744A CN109033744A (zh) | 2018-12-18 |
CN109033744B true CN109033744B (zh) | 2021-08-03 |
Family
ID=64610051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810631706.6A Active CN109033744B (zh) | 2018-06-19 | 2018-06-19 | 一种基于残基距离和接触信息的蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033744B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148437B (zh) * | 2019-04-16 | 2021-01-01 | 浙江工业大学 | 一种残基接触辅助策略自适应的蛋白质结构预测方法 |
CN110310697A (zh) * | 2019-06-19 | 2019-10-08 | 江南大学 | 一种动态残基相互作用网络的社团检测方法 |
CN112085244B (zh) * | 2020-07-21 | 2024-06-18 | 浙江工业大学 | 一种基于残基接触图的多目标优化蛋白质结构预测方法 |
CN112420131B (zh) * | 2020-11-20 | 2022-07-15 | 中国科学技术大学 | 基于数据挖掘的分子生成方法 |
CN113205855B (zh) * | 2021-06-08 | 2022-08-05 | 上海交通大学 | 基于知识能量函数优化的膜蛋白三维结构预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN107633159A (zh) * | 2017-08-21 | 2018-01-26 | 浙江工业大学 | 一种基于距离相似度的蛋白质构象空间搜索方法 |
WO2018049112A1 (en) * | 2016-09-09 | 2018-03-15 | Regents Of The University Of Minnesota | Protein kinase allostery sensor and methods of making and using same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180068054A1 (en) * | 2016-09-06 | 2018-03-08 | University Of Washington | Hyperstable Constrained Peptides and Their Design |
-
2018
- 2018-06-19 CN CN201810631706.6A patent/CN109033744B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018049112A1 (en) * | 2016-09-09 | 2018-03-15 | Regents Of The University Of Minnesota | Protein kinase allostery sensor and methods of making and using same |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN107633159A (zh) * | 2017-08-21 | 2018-01-26 | 浙江工业大学 | 一种基于距离相似度的蛋白质构象空间搜索方法 |
Non-Patent Citations (2)
Title |
---|
"Diverse effects of distance cutoff and residue interval on the performance of distance-dependent atom-pair potential in protein structure prediction";Yao Y;《Bmc Bioinformatics》;20171231;第1-12页 * |
"蛋白质残基接触预测算法研究及其在三级结构预测上的应用";张海仓;《计算机研究与发展》;20171231;第1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109033744A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033744B (zh) | 一种基于残基距离和接触信息的蛋白质结构预测方法 | |
Yang et al. | Sixty-five years of the long march in protein secondary structure prediction: the final stretch? | |
Agnihotry et al. | Protein structure prediction | |
EP3821434A1 (en) | Machine learning for determining protein structures | |
Wu et al. | TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-binding analyses | |
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
Berjanskii et al. | Unraveling the meaning of chemical shifts in protein NMR | |
CN110148437B (zh) | 一种残基接触辅助策略自适应的蛋白质结构预测方法 | |
Dhingra et al. | A glance into the evolution of template-free protein structure prediction methodologies | |
CN108846256B (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
CA2415787A1 (en) | Method for determining three-dimensional protein structure from primary protein sequence | |
CN109872770B (zh) | 一种结合排挤度评价的多变异策略蛋白质结构预测方法 | |
CN109346128B (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
Shalit et al. | Side chain flexibility and the symmetry of protein homodimers | |
Zhang et al. | Two-stage distance feature-based optimization algorithm for de novo protein structure prediction | |
CN108763860B (zh) | 一种基于Loop信息采样的群体蛋白质构象空间优化方法 | |
CN110189794B (zh) | 一种残基接触引导loop扰动的群体蛋白质结构预测方法 | |
KR100836166B1 (ko) | 단백질의 아미노산 서열로부터 삼차 구조를 예측하기 위한장치 및 이의 예측 방법 | |
Lee et al. | Protein secondary structure prediction using BLAST and exhaustive RT-RICO, the search for optimal segment length and threshold | |
CN109326318B (zh) | 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 | |
CN109448785B (zh) | 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法 | |
CN109147867B (zh) | 一种基于动态片段长度的群体蛋白质结构预测方法 | |
CN109461471B (zh) | 一种基于锦标赛机制的自适应蛋白质结构预测方法 | |
CN108804868B (zh) | 一种基于二面角熵值的蛋白质两阶段构象空间优化方法 | |
Roche et al. | Predicting protein structures and structural annotation of proteomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |