CN109033744A - 一种基于残基距离和接触信息的蛋白质结构预测方法 - Google Patents

一种基于残基距离和接触信息的蛋白质结构预测方法 Download PDF

Info

Publication number
CN109033744A
CN109033744A CN201810631706.6A CN201810631706A CN109033744A CN 109033744 A CN109033744 A CN 109033744A CN 201810631706 A CN201810631706 A CN 201810631706A CN 109033744 A CN109033744 A CN 109033744A
Authority
CN
China
Prior art keywords
conformation
residue
distance
rosetta
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810631706.6A
Other languages
English (en)
Other versions
CN109033744B (zh
Inventor
张贵军
彭春祥
刘俊
周晓根
王柳静
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810631706.6A priority Critical patent/CN109033744B/zh
Publication of CN109033744A publication Critical patent/CN109033744A/zh
Application granted granted Critical
Publication of CN109033744B publication Critical patent/CN109033744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于残基距离和接触信息的蛋白质结构预测方法,在Rosetta的基本框架下,引入表示空间中各个位置上残基的相互距离的距离谱和残基接触信息来提高能量函数的精度。首先初始化构象,用Rosetta第一阶段的片段组装技术生成初始种群,并在初始种群中分别对每个构象用Rosetta第二阶段的片段组装来生成新构象;然后根据设计的残基距离谱和接触信息能量函数来指导构象选择,从而更新种群;最后,按上述步骤分别进行Rosetta第三阶段和第四阶段,从而得到最终预测结果。通过残基距离和接触信息为辅来指导构象选择,从而缓解能量函数不精确导致的预测误差问题。本发明预测精度较高。

Description

一种基于残基距离和接触信息的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于残基距离和接触信息的蛋白质结构预测方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。在生物体中,基因序列按照中心法则翻译成氨基酸序列,氨基酸序列在空间折叠成一定结构蛋白质的合成,蛋白质的空间结构比其氨基酸序列更保守,而蛋白质的功能与其空间结构有着密切的关系。所以,掌握蛋白质的结构信息对于研究蛋白质的功能及作用机制具有重要意义。然而蛋白质结构的测定远远赶不上基因组测序速度、X射线晶体学方法和多维核磁共振技术是目前测定蛋白质结构的主要方法。用X射线晶体学方法测定蛋白质结构的前提是必须获得能对X射线产生强衍射作用的晶体,而蛋白质晶体的表达、提纯与结晶增加了结构测定的难度,多维核磁共振技术避免了这些困难,而且能够测定蛋白质的溶液结构,但仅适用于小蛋白。所以,根据蛋白质序列用计算机来预测蛋白质结构就显得很有必要。
目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)构象空间搜索方法;(2)蛋白质结构能量函数。第一个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。第二个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。其中,能量函数值的不精确是导致蛋白质从头预测方法精度问题的关键一环,不精确的能量函数会导致搜索过程中结构合理的构象丢失,从而影响预测精度。
因此,现有的蛋白质结构预测方法在预测精度存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在预测精度方面的不足,本发明利用残基-残基距离和接触信息缓解能量函数的不精确问题,提供一种预测精度较高的基于残基距离和接触信息的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基距离和接触信息的蛋白质结构预测方法,所述方法包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度,分别记为其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱;
4)设置参数:种群大小NP,算法的迭代次数G,能量权衡因子α,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
6)把初始种群中的每个构象个体Ck,k={1,2,…,NP}看做目标构象个体对每个目标构象个体执行Rosetta第二阶段的片段组装操作生成新构象
7)对每个目标构象个体和新构象进行选择操作,过程如下:
7.1)用Rosetta score1能量函数分别计算的能量:
7.2)分别计算目标构象和新构象中有距离谱的残基对的距离能量Ek(i,j)
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.3)根据公式(2)分别计算构象的距离总能量
其中,表示第k个构象的距离总能量,dpn为具有距离谱的残基对的数量,其中,Ek(n)为根据公式(1)计算得到构象k的第n个具有距离普的残基对的距离能量;
7.4)分别根据公式(3)和(4)计算构象的总能量
7.5)如果大于替换否则不变;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
本发明的技术构思为:在Rosetta的基本框架下,引入表示空间中各个位置上残基的相互距离的距离谱和残基-残基接触信息来提高能量函数的精度,距离谱根据查询序列中残基和模板中残基的序列谱、二级结构类型、溶剂可及性、中心原子二面角等构建得到。首先初始化构象,用Rosetta第一阶段的片段组装技术生成初始种群,并在初始种群中分别对每个构象用Rosetta第二阶段的片段组装来生成新构象;然后根据设计的残基距离谱和接触信息能量函数来指导构象选择,从而更新种群;最后,按上述步骤分别进行Rosetta第三阶段和第四阶段得到预测结构。
本发明的有益效果为:在Rosetta算法框架上加入了基于残基距离和接触信息的蛋白质结构预测方法,产生了更多结构较好的构象;在Rosetta每个阶段分别利用残基距离和接触信息以及能量函数对构象进行筛选,从而缓解了能量函数不精确带来的预测误差;
附图说明
图1是基于残基距离和接触信息的蛋白质结构预测方法对蛋白质4ICB采样得到的构象比例与均方根偏差分布图。
图2是基于残基距离和接触信息的蛋白质结构预测方法对蛋白质4ICB采样得到的构象分布图。
图3是基于残基距离和接触信息的蛋白质结构预测方法对4ICB蛋白结构预测得到的三维结构;
具体实施方式:
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于残基距离和接触信息的蛋白质结构预测方法,所述方法包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度,分别记为其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱;
4)设置参数:种群大小NP,算法的迭代次数G,能量权衡因子α,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
6)把初始种群中的每个构象个体Ck,k={1,2,…,NP}看做目标构象个体对每个目标构象个体执行Rosetta第二阶段的片段组装操作生成新构象
7)对每个目标构象个体和新构象进行选择操作,过程如下:
7.1)用Rosetta score1能量函数分别计算的能量:
7.2)分别计算目标构象和新构象中有距离谱的残基对的距离能量Ek(i,j)
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.3)根据公式(2)分别计算构象的距离总能量
其中,表示第k个构象的距离总能量,dpn为具有距离谱的残基对的数量,其中,Ek(n)为根据公式(1)计算得到构象k的第n个具有距离普的残基对的距离能量;
7.4)分别根据公式(3)和(4)计算构象的总能量
7.5)如果大于替换否则不变;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
以序列长度为76的蛋白质4ICB为实施例,一种基于残基距离和接触信息的蛋白质结构预测方法,包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器(http://raptorx.uchicago.edu/ContactMap/)和NeBcon服务器(https://zhanglab.ccmb.med.umich.edu/NeBcon/)预测得到目标蛋白的残基-残基接触置信度,分别记为其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)预测得到蛋白质的距离谱;
4)设置参数:种群大小NP=100,算法的迭代次数G=100,能量权衡因子α=0.5,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
6)把初始种群中的每个构象个体Ck,k={1,2,…,NP}看做目标构象个体对每个目标构象个体执行Rosetta第二阶段的片段组装操作生成新构象
7)对每个目标构象个体和新构象进行选择操作,过程如下:
7.1)用Rosetta score1能量函数分别计算的能量:
7.2)分别计算目标构象和新构象中有距离谱的残基对的距离能量Ek(i,j)
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.3)根据公式(2)分别计算构象的距离总能量
其中,表示第k个构象的距离总能量,dpn为具有距离谱的残基对的数量,其中,Ek(n)为根据公式(1)计算得到构象k的第n个具有距离普的残基对的距离能量;
7.4)分别根据公式(3)和(4)计算构象的总能量
7.5)如果大于替换否则不变;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
以序列长度为76的蛋白质4ICB为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差RMSD为预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实施例表现出来的优良预测效果,显然本发明不仅适合上述实施例,而且可以应用到实际工程中的各个领域,同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于残基距离和接触信息的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)读取目标蛋白的氨基酸序列;
2)根据目标蛋白序列,分别利用RaptorX-Contact服务器和NeBcon服务器预测得到目标蛋白的残基-残基接触置信度,分别记为其中,i≠j,i和j均属于{1,2,3,4…,rsd},表示RaptorX-Contact服务器得到的第i个残基和第j个残基接触的置信度,表示NeBcon服务器得到的第i个残基和第j个残基接触的置信度,rsd为氨基酸序列长度;
3)根据目标蛋白序列,利用QUARK服务器预测得到蛋白质的距离谱;
4)设置参数:种群大小NP=100,算法的迭代次数G=100,能量权衡因子α=0.5,置迭代次数g=0;
5)种群初始化:利用Rosetta第一阶段的片段组装方法生成NP个初始构象Ck,k={1,2,…,NP};
6)把初始种群中的每个构象个体Ck,k={1,2,…,NP}看做目标构象个体对每个目标构象个体执行Rosetta第二阶段的片段组装操作生成新构象
7)对每个目标构象个体和新构象进行选择操作,过程如下:
7.1)用Rosetta score1能量函数分别计算的能量:
7.2)分别计算目标构象和新构象中有距离谱的残基对的距离能量Ek(i,j)
其中,i和j是距离谱中有统计距离谱对的残基号,Dk(i,j)为构象k中残基i和j的之间的Cα原子距离,dp(i,j)是距离谱中残基i和残基j的距离;
7.3)根据公式(2)分别计算构象的距离总能量
其中,表示第k个构象的距离总能量,dpn为具有距离谱的残基对的数量,其中,Ek(n)为根据公式(1)计算得到构象k的第n个具有距离普的残基对的距离能量;
7.4)分别根据公式(3)和(4)计算构象的总能量
7.5)如果大于替换否则不变;
7.6)执行步骤7.1)~7.5)直至对种群中的每一个个体都完成一次选择,进入步骤8);
8)执行步骤6)~7),其中score1函数换成Rosetta第三阶段的score2函数;
9)执行步骤6)~7),其中score1函数换成Rosetta第四阶段的score3函数;
10)g=g+1,迭代运行步骤9),至g>G为止;
11)输出结果。
CN201810631706.6A 2018-06-19 2018-06-19 一种基于残基距离和接触信息的蛋白质结构预测方法 Active CN109033744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810631706.6A CN109033744B (zh) 2018-06-19 2018-06-19 一种基于残基距离和接触信息的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810631706.6A CN109033744B (zh) 2018-06-19 2018-06-19 一种基于残基距离和接触信息的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN109033744A true CN109033744A (zh) 2018-12-18
CN109033744B CN109033744B (zh) 2021-08-03

Family

ID=64610051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810631706.6A Active CN109033744B (zh) 2018-06-19 2018-06-19 一种基于残基距离和接触信息的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN109033744B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148437A (zh) * 2019-04-16 2019-08-20 浙江工业大学 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN112085244A (zh) * 2020-07-21 2020-12-15 浙江工业大学 一种基于残基接触图的多目标优化蛋白质结构预测方法
WO2020253222A1 (zh) * 2019-06-19 2020-12-24 江南大学 一种动态残基相互作用网络的社团检测方法
CN112420131A (zh) * 2020-11-20 2021-02-26 中国科学技术大学 基于数据挖掘的分子生成方法
CN113205855A (zh) * 2021-06-08 2021-08-03 上海交通大学 基于知识能量函数优化的膜蛋白三维结构预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107622182A (zh) * 2017-08-04 2018-01-23 中南大学 蛋白质局部结构特征的预测方法及系统
CN107633159A (zh) * 2017-08-21 2018-01-26 浙江工业大学 一种基于距离相似度的蛋白质构象空间搜索方法
US20180068054A1 (en) * 2016-09-06 2018-03-08 University Of Washington Hyperstable Constrained Peptides and Their Design
WO2018049112A1 (en) * 2016-09-09 2018-03-15 Regents Of The University Of Minnesota Protein kinase allostery sensor and methods of making and using same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068054A1 (en) * 2016-09-06 2018-03-08 University Of Washington Hyperstable Constrained Peptides and Their Design
WO2018049112A1 (en) * 2016-09-09 2018-03-15 Regents Of The University Of Minnesota Protein kinase allostery sensor and methods of making and using same
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107622182A (zh) * 2017-08-04 2018-01-23 中南大学 蛋白质局部结构特征的预测方法及系统
CN107633159A (zh) * 2017-08-21 2018-01-26 浙江工业大学 一种基于距离相似度的蛋白质构象空间搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAO Y: ""Diverse effects of distance cutoff and residue interval on the performance of distance-dependent atom-pair potential in protein structure prediction"", 《BMC BIOINFORMATICS》 *
张海仓: ""蛋白质残基接触预测算法研究及其在三级结构预测上的应用"", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148437A (zh) * 2019-04-16 2019-08-20 浙江工业大学 一种残基接触辅助策略自适应的蛋白质结构预测方法
WO2020253222A1 (zh) * 2019-06-19 2020-12-24 江南大学 一种动态残基相互作用网络的社团检测方法
CN112085244A (zh) * 2020-07-21 2020-12-15 浙江工业大学 一种基于残基接触图的多目标优化蛋白质结构预测方法
CN112420131A (zh) * 2020-11-20 2021-02-26 中国科学技术大学 基于数据挖掘的分子生成方法
CN112420131B (zh) * 2020-11-20 2022-07-15 中国科学技术大学 基于数据挖掘的分子生成方法
CN113205855A (zh) * 2021-06-08 2021-08-03 上海交通大学 基于知识能量函数优化的膜蛋白三维结构预测方法

Also Published As

Publication number Publication date
CN109033744B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN109033744A (zh) 一种基于残基距离和接触信息的蛋白质结构预测方法
Zheng et al. Folding non-homologous proteins by coupling deep-learning contact maps with I-TASSER assembly simulations
Wen et al. Deep learning in proteomics
Deng et al. Protein structure prediction
Nerli et al. Chemical shift-based methods in NMR structure determination
Balakrishnan et al. Learning generative models for protein fold families
CN108334746B (zh) 一种基于二级结构相似度的蛋白质结构预测方法
CN110148437A (zh) 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
Devaurs et al. Characterizing energy landscapes of peptides using a combination of stochastic algorithms
CN105760710A (zh) 一种基于两阶段差分进化算法的蛋白质结构预测方法
KR20030043908A (ko) 1 차 단백질 서열의 3 차원 단백질 구조 결정법
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
Huang et al. Protein structure prediction: challenges, advances, and the shift of research paradigms
CN109086565B (zh) 一种基于残基间接触约束的蛋白质结构预测方法
Liu et al. De novo protein structure prediction by incremental inter-residue geometries prediction and model quality assessment using deep learning
Kucera et al. ProteinShake: Building datasets and benchmarks for deep learning on protein structures
Waight et al. A machine learning strategy for the identification of key in silico descriptors and prediction models for IgG monoclonal antibody developability properties
CN109300506B (zh) 一种基于特定距离约束的蛋白质结构预测方法
CN109033753B (zh) 一种基于二级结构片段组装的群体蛋白质结构预测方法
Zhou et al. Accurate and definite mutational effect prediction with lightweight equivariant graph neural networks
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
Liu et al. Assessing protein model quality based on deep graph coupled networks using protein language model
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN110189794B (zh) 一种残基接触引导loop扰动的群体蛋白质结构预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant