CN109300506A - 一种基于特定距离约束的蛋白质结构预测方法 - Google Patents
一种基于特定距离约束的蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109300506A CN109300506A CN201810994671.2A CN201810994671A CN109300506A CN 109300506 A CN109300506 A CN 109300506A CN 201810994671 A CN201810994671 A CN 201810994671A CN 109300506 A CN109300506 A CN 109300506A
- Authority
- CN
- China
- Prior art keywords
- conformation
- residue
- distance
- population
- specific range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于特定距离约束的蛋白质结构预测方法,首先利用MetaPSICOV预测查询序列的残基间距离接触信息,构建片段库;其次建立基于特定距离约束的打分函数,设计交叉变异策略;最后根据残基间距离约束分值和概率值实现种群更新,利用残基间距离约束能够有效地提高算法采样能力、搜索效率,进而得到结构更加紧凑、能量更低的构象。本发明提供一种预测精度较高的基于特定距离约束的蛋白质结构预测方法。
Description
技术领域
本发明涉及生物信息学、智能信息处理、计算机应用领域、蛋白质三级结构预测,尤其涉及的是一种基于特定距离约束的蛋白质结构预测方法。
背景技术
蛋白质是生命体的重要组成部分,是生命活动的承担者。蛋白质的基本组成单元是氨基酸,自然界中常见的氨基酸有20多种,蛋白质是由碳、氢、氧、氮组成,一般蛋白质可能还会含有磷、硫、铁、锌、铜、硼、锰、碘、钼等,氨基酸是由中心碳原子及其相连的氨基、羧基、氢原子以及氨基酸的侧链组成,氨基酸经过脱水缩合形成肽键,由肽键连接起来的氨基酸形成一条长链,即为蛋白质。
1961年,Anfinsen提出了氨基酸序列决定蛋白质三维结构这一开创新的理论。而三维结构直接决定了蛋白质的生物性功能,所以人们对蛋白质的三维结构产生了浓厚兴趣并展开研究。多维核磁共振方法和射线晶体方法是近些年来发展起来的两个最主要的测定蛋白质结构的实验方法。多维核磁共振方法是将蛋白质放在水中,利用核磁共振直接测定其三维结构的方法。而射线晶体方法是目前为止最有效的蛋白质三维结构测定手段。到前为止,使用这两种方法测定的蛋白质占了已测蛋白质中的绝大比例。由于釆用实验方法的条件有限、时间有限,需要花费大量的人力和物力,而且测定的速度远远跟不上序列的测定速度,所以急需一种既不依赖化学实验,又具有一定准确率的预测方法。这样如何简便、快速、高效地对未知蛋白质进行三维结构预测,成为研究者的棘手问题。在理论探索和应用需求的双重推动下,依据提出的蛋白质一级结构决定蛋白质三维结构的理论,利用计算机设计适当的算法,以序列为起点,三维结构为目标的蛋白质结构预测自20世纪末蓬勃发展。
以序列为起点,利用计算机和优化算法预测蛋白质的三维结构被称之为从头预测。从头预测方法直接基于蛋白质物理或知识能量模型,利用优化算法在构象空间搜索全局最低能量构象解。构象空间优化(或称采样)方法是目前制约蛋白质结构从头预测精度最关键的因素之一。优化算法应用于从头预测采样过程必须首先解决以下三个方面的问题:(1)能量模型的复杂性。蛋白质能量模型考虑分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,局部极小解数量随着序列长度的增加呈指数增长;能量模型的漏斗特性也必然会产生局部高能量障碍,导致算法极易陷入局部解。(2)能量模型高维特性。就目前而言,从头预测方法只能应对尺寸较小的目标蛋白。这也就进一步说明了随着尺寸规模的增加,必然造成维数灾问题,完成如此浩瀚的构象搜索过程所涉及的计算量是目前最先进的计算机也难以承受的。(3)能量模型的不精确性。对于蛋白质这类复杂的生物大分子,除了考虑各种物理成键和知识推理的作用之外,还要考虑它与周围溶剂分子的相互作用,目前还无法给出精确的物理描述。考虑到计算代价问题,近十年来研究者陆续提出了一些基于物理的力场简化模型(AMBER,CHARMM等)、基于知识的力场简化模型(Rosetta,QUARK等)。然而,我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场,导致数学上的最优解并不一定对应于目标蛋白的天然态结构;此外,模型的不精确性也必然会导致无法对算法性能进行客观地分析,从而阻碍了高性能算法在蛋白质结构从头预测领域中的应用。
因此,现在的蛋白质结构预测方法在预测精度和能量函数方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法能量函数不精确和预测精度较低的缺陷,本发明提供一种预测精度较高的基于特定距离约束的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于特定距离约束的蛋白质结构预测方法,所述方法包括以下步骤:
1)输入查询序列,利用MetaPSICOV(http://bioinf.cs.ucl.ac.uk/MetaPSICOV)预测查询序列的残基间距离接触信息,利用Robetta(http://robetta.bakerlab.org)构建查询序列的片段库;
2)根据两个残基间属于接触的置信度,对预测的残基间距离接触信息按从大到小排序,选前L个残基间距离接触,其中L是查询序列长度;
3)设置初始种群规模NP、最大迭代次数Gen、交叉概率CR、片段组装次数N,输入查询序列、片段库、残基间接触信息和迭代次数g=0;
4)初始化种群,对种群中每个构象Ci进行N次片段组装,其中i∈[1,NP]是种群中构象索引值;
5)构象交叉,操作如下:
5.1)选择第i个构象Ci为目标构象,产生一个随机数r,r∈[0,1],如果r小于CR,则继续步骤5.2),否则跳至步骤6);
5.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
5.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基的二级结构类型S,S∈{H,E,L},H、E和L分别代表螺旋、片层、无规则折叠;
5.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到另一个交叉点处残基的二级结构S′≠S,S′∈{H,E,L},产生两个新构象Ci′和Cj″;
6)构象变异,对构象Ci′和Cj′,变异过程如下:
6.1)对构象Ci′和Cj′进行9残基片段组装,生成两个构象Ci″和Cj″;
6.2)分别对构象Ci″和Cj″求残基间距离约束分值Eco:
其中N是残基接触总数,是查询序列中第k个残基对p和q被预测为有接触的置信度,是测试构象的第k个残基对p和q之间的碳β距离,dcon是预测为接触的阈值,
6.3)从构象Ci″和Cj″中选择残基间距离约束分值E′co最高的构象作为变异成功构象;
7)基于特定距离约束进行选择,过程如下:
7.1)对种群中的每个构象求残基间距离约束分值Eco,并求出最小的残基间距离约束分值E″co;
7.2)如果E′co大于E″co,则用E′co对应的构象替换E″co对应的构象实现种群更新,跳到8),否则根据E′co和E″co计算接受概率pcon:
其中n是被预测为接触但在实际构象中残基间距离大于的残基对总数,KTcon为温度因子;
7.3)产生一个随机数r′,r′∈[0,1],如果r′小于pcon,则用E′co对应的构象替换E″co对应的构象实现种群更新;
8)g=g+1,判断是否达到最大迭代次数Gen,若不满足条件终止条件,则遍历种群执行步骤5),否则输出最后预测结果。
本发明的技术构思为:一种基于特定距离约束的蛋白质结构预测方法,包括以下步骤:首先利用MetaPSICOV预测查询序列的残基间距离接触信息,构建片段库;其次建立基于特定距离约束的打分函数,设计交叉变异策略;最后根据残基间距离约束分值和概率值实现种群更新,利用残基间距离约束能够有效地提高算法采样能力、搜索效率,进而得到结构更加紧凑、能量更低的构象。
本发明的有益效果为:构象空间采样能力较强、能够有效地使得有潜力的构象被保存下来进而提高预测精度。
附图说明
图1是蛋白质1TIG特定距离约束示意图图。
图2是蛋白质1TIG利用基于特定距离约束的蛋白质结构预测方法预测得到的三维结构示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1和图2,一种基于特定距离约束的蛋白质结构预测方法,包括以下步骤:
1)输入查询序列,利用MetaPSICOV(http://bioinf.cs.ucl.ac.uk/MetaPSICOV)预测查询序列的残基间距离接触信息,利用Robetta(http://robetta.bakerlab.org)构建查询序列的片段库;
2)根据两个残基间属于接触的置信度,对预测的残基间距离接触信息按从大到小排序,选前L个残基间距离接触,其中L是查询序列长度;
3)设置初始种群规模NP、最大迭代次数Gen、交叉概率CR、片段组装次数N,输入查询序列、片段库、残基间接触信息和迭代次数g=0;
4)初始化种群,对种群中每个构象Ci进行N次片段组装,其中i∈[1,NP]是种群中构象索引值;
5)构象交叉,操作如下:
5.1)选择第i个构象Ci为目标构象,产生一个随机数r,r∈[0,1],如果r小于CR,则继续步骤5.2),否则跳至步骤6);
5.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
5.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基的二级结构类型S,S∈{H,E,L},H、E和L分别代表螺旋、片层、无规则折叠;
5.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到另一个交叉点处残基的二级结构S′≠S,S′∈{H,E,L},产生两个新构象Ci′和Cj′;
6)构象变异,对构象Ci′和Cj′,变异过程如下:
6.1)对构象Ci′和Cj′进行9残基片段组装,生成两个构象Ci″和Cj″;
6.2)分别对构象Ci″和Cj″求残基间距离约束分值Eco:
其中N是残基接触总数,是查询序列中第k个残基对p和q被预测为有接触的置信度,是测试构象的第k个残基对p和q之间的碳β距离,dcon是预测为接触的阈值,
6.3)从构象Ci″和Cj″中选择残基间距离约束分值E′co最高的构象作为变异成功构象;
7)基于特定距离约束进行选择,过程如下:
7.1)对种群中的每个构象求残基间距离约束分值Eco,并求出最小的残基间距离约束分值E″co;
7.2)如果E′co大于E″co,则用E′co对应的构象替换E″co对应的构象实现种群更新,跳到8),否则根据E′co和E″co计算接受概率pcon:
其中n是被预测为接触但在实际构象中残基间距离大于的残基对总数,KTcon为温度因子;
7.3)产生一个随机数r′,r′∈[0,1],如果r′小于pcon,则用E′co对应的构象替换E″co对应的构象实现种群更新;
8)g=g+1,判断是否达到最大迭代次数Gen,若不满足条件终止条件,则遍历种群执行步骤5),否则输出最后预测结果。
本实施例以序列长度为88的α/β折叠蛋白质1TIG为实施例,基于特定距离约束的蛋白质三级结构预测方法,所述方法包括以下步骤:
1)输入查询序列,利用MetaPSICOV(http://bioinf.cs.ucl.ac.uk/MetaPSICOV)预测查询序列的残基间距离接触信息,利用Robetta(http://robetta.bakerlab.org)构建查询序列的片段库;
2)根据两个残基间属于接触的置信度,对预测的残基间距离接触信息按从大到小排序,选前L个残基间距离接触,其中L是查询序列长度;
3)设置初始种群规模100、最大迭代次数1000、交叉概率0.5、片段组装次数2000,输入查询序列、片段库、残基间接触信息和迭代次数g=0;
4)初始化种群,对种群中每个构象Ci进行2000次片段组装,其中i∈[1,100]是种群中构象索引值;
5)构象交叉,操作如下:
5.1)选择第i个构象Ci为目标构象,产生一个随机数r,r∈[0,1],如果r小于CR,则继续步骤5.2),否则跳至步骤6);
5.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
5.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基的二级结构类型S,S∈{H,E,L},H、E和L分别代表螺旋、片层、无规则折叠;
5.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到另一个交叉点处残基的二级结构S′≠S,S′∈{H,E,L},产生两个新构象Ci′和Cj′;
6)构象变异,对构象Ci′和Cj′,变异过程如下:
6.1)对构象Ci′和Cj′进行9残基片段组装,生成两个构象Ci″和Cj″;
6.2)分别对构象Ci″和Cj″求残基间距离约束分值Eco:
其中N是残基接触总数,是查询序列中第k个残基对p和q被预测为有接触的置信度,是测试构象的第k个残基对p和q之间的碳β距离,dcon是预测为接触的阈值,
6.3)从构象Ci″和Cj″中选择残基间距离约束分值E′co最高的构象作为变异成功构象;
7)基于特定距离约束进行选择,过程如下:
7.1)对种群中的每个构象求残基间距离约束分值Eco,并求出最小的残基间距离约束分值E″co;
7.2)如果E′co大于E″co,则用E′co对应的构象替换E″co对应的构象实现种群更新,跳到8),否则根据E′co和E″co计算接受概率pcon:
其中n是被预测为接触但在实际构象中残基间距离大于的残基对总数,KTcon为温度因子;
7.3)产生一个随机数r′,r′∈[0,1],如果r′小于pcon,则用E′co对应的构象替换E″co对应的构象实现种群更新;
8)g=g+1,判断是否达到最大迭代次数1000,若不满足条件终止条件,则遍历种群执行步骤5),否则输出最后预测结果。
以序列长度为88的α/β折叠蛋白质1TIG为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为平均均方根偏差为预测结构如图2所示。
以上说明是本发明以1TIG蛋白质为实例所得出的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于特定距离约束的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)输入查询序列,利用MetaPSICOV预测查询序列的残基间距离接触信息,利用Robetta构建查询序列的片段库;
2)根据两个残基间属于接触的置信度,对预测的残基间距离接触信息按从大到小排序,选前L个残基间距离接触,其中L是查询序列长度;
3)设置初始种群规模NP、最大迭代次数Gen、交叉概率CR、片段组装次数N,输入查询序列、片段库、残基间接触信息和迭代次数g=0;
4)初始化种群,对种群中每个构象Ci进行N次片段组装,其中i∈[1,NP]是种群中构象索引值;
5)构象交叉,操作如下:
5.1)选择第i个构象Ci为目标构象,产生一个随机数r,r∈[0,1],如果r小于CR,则继续步骤5.2),否则跳至步骤6);
5.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci的二级结构信息;
5.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基的二级结构类型S,S∈{H,E,L},H、E和L分别代表螺旋、片层、无规则折叠;
5.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到另一个交叉点处残基的二级结构S′≠S,S′∈{H,E,L},产生两个新构象C′i和C″j;
6)构象变异,对构象C′i和C′j,变异过程如下:
6.1)对构象C′i和C′j进行9残基片段组装,生成两个构象C″i和C″j;
6.2)分别对构象C″i和C″j求残基间距离约束分值Eco:
其中N是残基接触总数,是查询序列中第k个残基对p和q被预测为有接触的置信度,是测试构象的第k个残基对p和q之间的碳β距离,dcon是预测为接触的阈值,
6.3)从构象C″i和C″j中选择残基间距离约束分值E′co最高的构象作为变异成功构象;
7)基于特定距离约束进行选择,过程如下:
7.1)对种群中的每个构象求残基间距离约束分值Eco,并求出最小的残基间距离约束分值E″co;
7.2)如果E′co大于E″co,则用E′co对应的构象替换E″co对应的构象实现种群更
新,跳到8),否则根据E′co和E″co计算接受概率pcon:
其中n是被预测为接触但在实际构象中残基间距离大于的残基对总数,KTcon为温度因子;
7.3)产生一个随机数r′,r′∈[0,1],如果r′小于pcon,则用E′co对应的构象替换E″co对应的构象实现种群更新;
8)g=g+1,判断是否达到最大迭代次数Gen,若不满足条件终止条件,则遍历种群执行步骤5),否则输出最后预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994671.2A CN109300506B (zh) | 2018-08-29 | 2018-08-29 | 一种基于特定距离约束的蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994671.2A CN109300506B (zh) | 2018-08-29 | 2018-08-29 | 一种基于特定距离约束的蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109300506A true CN109300506A (zh) | 2019-02-01 |
CN109300506B CN109300506B (zh) | 2021-05-18 |
Family
ID=65165786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994671.2A Active CN109300506B (zh) | 2018-08-29 | 2018-08-29 | 一种基于特定距离约束的蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300506B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148437A (zh) * | 2019-04-16 | 2019-08-20 | 浙江工业大学 | 一种残基接触辅助策略自适应的蛋白质结构预测方法 |
CN112085246A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于残基对距离约束的蛋白质结构预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205348A (zh) * | 2015-09-22 | 2015-12-30 | 浙江工业大学 | 一种基于距离约束选择策略的群体构象空间优化方法 |
CN105975806A (zh) * | 2016-04-26 | 2016-09-28 | 浙江工业大学 | 一种基于距离约束副本交换的蛋白质结构预测方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
-
2018
- 2018-08-29 CN CN201810994671.2A patent/CN109300506B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205348A (zh) * | 2015-09-22 | 2015-12-30 | 浙江工业大学 | 一种基于距离约束选择策略的群体构象空间优化方法 |
CN105975806A (zh) * | 2016-04-26 | 2016-09-28 | 浙江工业大学 | 一种基于距离约束副本交换的蛋白质结构预测方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
Non-Patent Citations (4)
Title |
---|
GUI-JUN ZHANG等: "《Enhancing Protein Conformational Space Sampling Using Distance Profile-Guided Differential Evolution》", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 * |
JESSE EICKHOLT等: "《A conformation ensemble approach to protein residue-residue contact》", 《BMC STRUCTURAL BIOLOGY》 * |
YUMENG YAN等: "《Efficient conformational ensemble generation of protein‑bound peptides》", 《JOURNAL OF CHEMINFORMATICS》 * |
王彩霞: "《基于距离约束的蛋白质空间结构预测》", 《万方数据知识服务平台》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148437A (zh) * | 2019-04-16 | 2019-08-20 | 浙江工业大学 | 一种残基接触辅助策略自适应的蛋白质结构预测方法 |
CN112085246A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于残基对距离约束的蛋白质结构预测方法 |
CN112085246B (zh) * | 2020-07-22 | 2024-06-21 | 浙江工业大学 | 一种基于残基对距离约束的蛋白质结构预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109300506B (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9546872B1 (en) | Hybrid road network and grid based spatial-temporal indexing under missing road links | |
EP1653380A1 (en) | Web page ranking with hierarchical considerations | |
CN111063389A (zh) | 一种基于深度卷积神经网络的配体绑定残基预测方法 | |
CN110148437A (zh) | 一种残基接触辅助策略自适应的蛋白质结构预测方法 | |
CN109086565A (zh) | 一种基于残基间接触约束的蛋白质结构预测方法 | |
CN109300506A (zh) | 一种基于特定距离约束的蛋白质结构预测方法 | |
CN105760710A (zh) | 一种基于两阶段差分进化算法的蛋白质结构预测方法 | |
CN112529024A (zh) | 一种样本数据的生成方法、装置及计算机可读存储介质 | |
CN104156635A (zh) | 基于公共子序列的基因芯片表达数据的opsm挖掘方法 | |
CN109101785B (zh) | 一种基于二级结构相似性选择策略的蛋白质结构预测方法 | |
CN115798621A (zh) | 基于Transformer的上下文感知单步逆合成预测方法和装置 | |
US20240087686A1 (en) | Predicting complete protein representations from masked protein representations | |
CN109215733B (zh) | 一种基于残基接触信息辅助评价的蛋白质结构预测方法 | |
CN112766385B (zh) | 一种众源矢量线数据几何匹配与属性融合方法 | |
CN112085245B (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
Li et al. | Trajectory representation learning based on road network partition for similarity computation | |
CN109378035A (zh) | 一种基于二级结构动态选择策略的蛋白质结构预测方法 | |
CN105260626B (zh) | 蛋白质结构空间构象的全信息预测方法 | |
CN109326320A (zh) | 一种系综构象选择策略自适应的蛋白质结构预测方法 | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 | |
CN109002691A (zh) | 一种基于玻尔兹曼更新策略的蛋白质结构预测方法 | |
CN109300504B (zh) | 一种基于多变异精英选择的蛋白质结构预测方法 | |
CN109461470B (zh) | 一种蛋白质结构预测能量函数权重优化方法 | |
CN112861023A (zh) | 地图信息处理方法、装置、设备、存储介质及程序产品 | |
JP2020009078A (ja) | データ処理システム、及び、データ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |