CN108920894B - 一种基于简约抽象凸估计的蛋白质构象空间优化方法 - Google Patents
一种基于简约抽象凸估计的蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN108920894B CN108920894B CN201810584219.9A CN201810584219A CN108920894B CN 108920894 B CN108920894 B CN 108920894B CN 201810584219 A CN201810584219 A CN 201810584219A CN 108920894 B CN108920894 B CN 108920894B
- Authority
- CN
- China
- Prior art keywords
- conformation
- trial
- test
- energy
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 41
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005457 optimization Methods 0.000 title claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 239000012634 fragment Substances 0.000 claims description 25
- 230000008569 process Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 abstract description 4
- 238000005070 sampling Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005481 NMR spectroscopy Methods 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 102000038037 druggable proteins Human genes 0.000 description 1
- 108091007999 druggable proteins Proteins 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 238000000455 protein structure prediction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于简约抽象凸估计的蛋白质构象空间优化方法,首先,根据局部最优构象信息进行变异过程,生成较优的测试构象,从而提高采样效率;其次,通过学习过程来动态更新斜率控制因子,避免斜率控制因子影响能量下界估计值的精确性;然后,根据测试构象邻近构象个体的抽象凸下界估计支撑向量计算测试构象的能量下界估计值,减小计算复杂度;最后,根据能量下界估计值指导构象选择,从而避免不必要的能量函数评价次数,减小计算代价。本发明提供一种计算代价低、搜索效率高的基于简约抽象凸估计的蛋白质构象空间优化方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于简约抽象凸估计的蛋白质构象空间优化方法。
背景技术
生物细胞中包含许多由20多种氨基酸所形成的长链折叠而成的蛋白质,蛋白质结构预测问题是当今计算生物学领域中的研究热点,不仅具有非常重要的理论机制,而且对新蛋白的设计、蛋白质之间相互作用建模、药物标靶蛋白的设计具有十分重要的指导意义。测定蛋白质三维结构的实验方法主要包括X射线晶体衍射和多维核磁共振(NMR)。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。因此,如何以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种重要的研究课题。
从头预测方法直接基于Anfinsen假说建立蛋白质物理或知识能量模型,然后设计适当优化算法求解最小能量构象。可以看出,从头预测方法必须考虑以下两个因素:(1)知识能量的构建;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到能量最低构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。进化算法(Evolution Algorithm,EA)是研究蛋白质分子构象优化的一类重要方法,主要包括遗传算法(Genetic Algorithms,GA)、差分进化算法(Differential Evolution,DE)及分布估计算法(Estimation ofDistribution Algorithm,EDA)。DE算法自1995年由Price和Storn提出以来,在蛋白质构象空间优化领域有了广泛的应用。Shehu研究小组基于DE算法,提出一系列有效的蛋白质构象空间优化方法,如多尺度混合进化算法HEA,多目标构象空间优化方法MOEA,基于数据驱动的蛋白质能量空间映射方法PCA-EA等。在DE算法的框架下,张贵军课题组提出了基于抽象凸内核空间引导的构象优化方法和基于片段结构谱知识引导的构象优化方法。然而,在上述优化方法中,需要对能量函数进行大量的评价,从而导致计算代价较大;其次,后期收敛速度较慢,从而导致构象搜索效率较低。
因此,现有的构象空间优化方法在计算代价和搜索效率方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质构象空间优化方法在计算代价和搜索效率方面的不足,本发明提出一种计算代价低、搜索效率高的基于简约抽象凸估计的蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于简约抽象凸估计的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)输入待测蛋白质的序列信息;
2)根据序列信息从ROBETTA服务器(http://www.robetta.org/)上得到片段库;
3)参数设置:设置种群规模NP,交叉概率CR,片段长度l,最大迭代次数Gmax,学习代数Glen,斜率控制因子M,并初始化迭代次数G=0;
4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:
5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;
5.2)根据Rosetta score3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;
5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;
5.4)随机生成一个0和1之间的随机小数R,如果R<CR,则从构象Ci中随机选取一个片段替换变异构象Cmutant中对应位置的片段,从而生成测试构象Ctrial,否则直接将变异构象看作测试构象;
5.5)以所有Cα原子坐标表示每个构象的位置,计算当前种群中每个构象个体与测试构象Ctrial之间的欧氏距离,选出与测试构象最近的构象个体Cnb;
5.6)计算测试构象Cnb的抽象凸下界估计支撑向量l:
5.8)根据Rosetta score3能量函数计算构象Ci能量值E(Ci);
5.9)如果g<Glen,则进行如下操作:
5.9.1)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial);
5.9.2)计算构象Ci的个体斜率控制因子Ki:
5.9.3)如果Ki>M,则M=Ki;
5.9.4)如果E(Ctrial)>E(Ci),则测试构象Ctrial替换构象Ci,否则构象Ci保持不变;
5.10)如果g≥Glen,则进行如下操作:
5.10.2)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial),并根据步骤5.9.4)选择构象;
6)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
本发明的技术构思为:首先,根据局部最优构象信息进行变异过程,生成较优的测试构象,从而提高采样效率;其次,通过学习过程来动态更新斜率控制因子,避免斜率控制因子影响能量下界估计值的精确性;然后,根据测试构象邻近构象个体的抽象凸下界估计支撑向量计算测试构象的能量下界估计值,减小计算复杂度;最后,根据能量下界估计值指导构象选择,从而避免不必要的能量函数评价次数,减小计算代价。本发明提供一种计算代价低、搜索效率高的基于简约抽象凸估计的蛋白质构象空间优化方法。
本发明的有益效果表现在:一方面,根据局部最优构象信息指导变异过程,从而达到平衡种群多样性和采样效率的效果;另一方面,根据抽象凸能量下界估计信息指导构象选择,减少能量函数评价次数,从而降低计算代价。
附图说明
图1是基于简约抽象凸估计的蛋白质构象空间优化方法对蛋白质4ICB进行结构预测时的构象更新示意图。
图2是基于简约抽象凸估计的蛋白质构象空间优化方法对蛋白质4ICB进行结构预测时得到的构象分布图。
图3是基于简约抽象凸估计的蛋白质构象空间优化方法对蛋白质4ICB进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于简约抽象凸估计的蛋白质构象空间优化方法,包括以下步骤:
1)输入待测蛋白质的序列信息;
2)根据序列信息从ROBETTA服务器(http://www.robetta.org/)上得到片段库;
3)参数设置:设置种群规模NP,交叉概率CR,片段长度l,最大迭代次数Gmax,学习代数Glen,斜率控制因子M,并初始化迭代次数G=0;
4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:
5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;
5.2)根据Rosetta score3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;
5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;
5.4)随机生成一个0和1之间的随机小数R,如果R<CR,则从构象Ci中随机选取一个片段替换变异构象Cmutant中对应位置的片段,从而生成测试构象Ctrial,否则直接将变异构象看作测试构象;
5.5)以所有Cα原子坐标表示每个构象的位置,计算当前种群中每个构象个体与测试构象Ctrial之间的欧氏距离,选出与测试构象最近的构象个体Cnb;
5.6)计算测试构象Cnb的抽象凸下界估计支撑向量l:
5.8)根据Rosetta score3能量函数计算构象Ci能量值E(Ci);
5.9)如果g<Glen,则进行如下操作:
5.9.1)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial);
5.9.2)计算构象Ci的个体斜率控制因子Ki:
5.9.3)如果Ki>M,则M=Ki;
5.9.4)如果E(Ctrial)>E(Ci),则测试构象Ctrial替换构象Ci,否则构象Ci保持不变;
5.10)如果g≥Glen,则进行如下操作:
5.10.2)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial),并根据步骤5.9.4)选择构象;
6)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
本实施例序列长度为76的α折叠蛋白质4ICB为实施例,一种基于简约抽象凸估计的蛋白质构象空间优化方法,其中包含以下步骤:
1)输入待测蛋白质的序列信息;
2)根据序列信息从ROBETTA服务器(http://www.robetta.org/)上得到片段库;
3)参数设置:设置种群规模NP=50,交叉概率CR=0.5,片段长度l=9,最大迭代次数Gmax=1000,学习代数Glen=20,斜率控制因子M=10000,并初始化迭代次数G=0;
4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:
5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;
5.2)根据Rosetta score3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;
5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;
5.4)随机生成一个0和1之间的随机小数R,如果R<CR,则从构象Ci中随机选取一个片段替换变异构象Cmutant中对应位置的片段,从而生成测试构象Ctrial,否则直接将变异构象看作测试构象;
5.5)以所有Cα原子坐标表示每个构象的位置,计算当前种群中每个构象个体与测试构象Ctrial之间的欧氏距离,选出与测试构象最近的构象个体Cnb;
5.6)计算测试构象Cnb的抽象凸下界估计支撑向量l:
5.8)根据Rosetta score3能量函数计算构象Ci能量值E(Ci);
5.9)如果g<Glen,则进行如下操作:
5.9.1)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial);
5.9.2)计算构象Ci的个体斜率控制因子Ki:
5.9.3)如果Ki>M,则M=Ki;
5.9.4)如果E(Ctrial)>E(Ci),则测试构象Ctrial替换构象Ci,否则构象Ci保持不变;
5.10)如果g≥Glen,则进行如下操作:
5.10.2)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial),并根据步骤5.9.4)选择构象;
6)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
以上说明是本发明以蛋白质4ICB为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于简约抽象凸估计的蛋白质构象空间优化方法,其特征在于:所述优化方法包括以下步骤:
1)输入待测蛋白质的序列信息;
2)根据序列信息从ROBETTA服务器上得到片段库;
3)参数设置:设置种群规模NP,交叉概率CR,片段长度S,最大迭代次数Gmax,学习代数Glen,斜率控制因子M,并初始化迭代次数g=0;
4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:
5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;
5.2)根据Rosetta score3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;
5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;
5.4)随机生成一个0和1之间的随机小数R,如果R<CR,则从构象Ci中随机选取一个片段替换变异构象Cmutant中对应位置的片段,从而生成测试构象Ctrial,否则直接将变异构象看作测试构象;
5.5)以所有Cα原子坐标表示每个构象的位置,计算当前种群中每个构象个体与测试构象Ctrial之间的欧氏距离,选出与测试构象最近的构象个体Cnb;
5.6)计算测试构象Cnb的抽象凸下界估计支撑向量l:
5.8)根据Rosetta score3能量函数计算构象Ci能量值E(Ci);
5.9)如果g<Glen,则进行如下操作:
5.9.1)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial);
5.9.2)计算构象Ci的个体斜率控制因子Ki:
5.9.3)如果Ki>M,则M=Ki;
5.9.4)如果E(Ctrial)>E(Ci),则测试构象Ctrial替换构象Ci,否则构象Ci保持不变;
5.10)如果g≥Glen,则进行如下操作:
5.10.2)根据Rosetta score3能量函数计算测试构象Ctrial的能量值E(Ctrial),并根据步骤5.9.4)选择构象;
6)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810584219.9A CN108920894B (zh) | 2018-06-08 | 2018-06-08 | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810584219.9A CN108920894B (zh) | 2018-06-08 | 2018-06-08 | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920894A CN108920894A (zh) | 2018-11-30 |
CN108920894B true CN108920894B (zh) | 2021-06-18 |
Family
ID=64410922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810584219.9A Active CN108920894B (zh) | 2018-06-08 | 2018-06-08 | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920894B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872770B (zh) * | 2019-01-09 | 2020-10-30 | 浙江工业大学 | 一种结合排挤度评价的多变异策略蛋白质结构预测方法 |
CN113421610B (zh) * | 2021-07-01 | 2023-10-20 | 北京望石智慧科技有限公司 | 一种分子叠合构象确定方法、装置以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096328A (zh) * | 2016-04-26 | 2016-11-09 | 浙江工业大学 | 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 |
CN106503485A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 |
CN106503484A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 |
CN107633157A (zh) * | 2017-08-29 | 2018-01-26 | 浙江工业大学 | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279758A1 (en) * | 2013-03-15 | 2014-09-18 | Academia Sinica | Computational method for predicting functional sites of biological molecules |
-
2018
- 2018-06-08 CN CN201810584219.9A patent/CN108920894B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096328A (zh) * | 2016-04-26 | 2016-11-09 | 浙江工业大学 | 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 |
CN106503485A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 |
CN106503484A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 |
CN107633157A (zh) * | 2017-08-29 | 2018-01-26 | 浙江工业大学 | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108920894A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
CN106650305B (zh) | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 | |
CN106503484A (zh) | 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 | |
CN109524058B (zh) | 一种基于差分进化的蛋白质二聚体结构预测方法 | |
CN108920894B (zh) | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 | |
CN103473482A (zh) | 基于差分进化和构象空间退火的蛋白质三维结构预测方法 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
CN109360596B (zh) | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 | |
CN113593634A (zh) | 一种融合dna形状特征的转录因子结合位点预测方法 | |
CN109101785B (zh) | 一种基于二级结构相似性选择策略的蛋白质结构预测方法 | |
Hao et al. | A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space | |
Alashwal et al. | One-class support vector machines for protein-protein interactions prediction | |
Hao et al. | Conformational space sampling method using multi-subpopulation differential evolution for de novo protein structure prediction | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN109346128B (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
CN109147867B (zh) | 一种基于动态片段长度的群体蛋白质结构预测方法 | |
CN109411013B (zh) | 一种基于个体特定变异策略的群体蛋白质结构预测方法 | |
Rahman et al. | Exploring Chromatin Interaction Between Two Human Cell Types and Different Normalization Techniques for HI-C Data | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN109256177B (zh) | 一种基于子种群协同进化的蛋白质结构预测方法 | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 | |
CN109326321B (zh) | 一种基于抽象凸估计的k-近邻蛋白质结构预测方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109326318B (zh) | 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 | |
CN109461470B (zh) | 一种蛋白质结构预测能量函数权重优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |