CN104200132B - 一种构象空间动态步长搜索方法 - Google Patents
一种构象空间动态步长搜索方法 Download PDFInfo
- Publication number
- CN104200132B CN104200132B CN201410362507.1A CN201410362507A CN104200132B CN 104200132 B CN104200132 B CN 104200132B CN 201410362507 A CN201410362507 A CN 201410362507A CN 104200132 B CN104200132 B CN 104200132B
- Authority
- CN
- China
- Prior art keywords
- conformation
- energy
- layer
- initialization
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种构象空间动态步长搜索方法,包括以下步骤:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化;随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中;对所分能量层分配权重,在不同能量层赋予不同的片段组装步长和Monte Carlo扰动步长,同时设置温度参数列表,完成系统参数初始化;按权重依次随机选中能量层、构象室、构象,进行构象扩展,按照相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新;迭代的进行上一步骤,直至到达设置的迭代次数。本发明提供了一种有效的构象空间增强采样方法。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种构象空间动态步长搜索方法。
背景技术
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。
蛋白质三级结构预测是生物信息学的一个重要任务。目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。
因此,现有的构象空间搜索方法存在不足,需要改进。
发明内容
针对上述问题,我们提出在低能量引导的树搜索框架下,利用动态步长搜索蛋白质构象空间的方法,增强了构象跳出局部极小点的能力,进而增强对构象空间中近天然态构象搜索的能力。
本发明解决其技术问题所采用的技术方案是:
一种构象空间动态步长搜索方法,所述搜索方法包括以下步骤:
1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为[Emin,Emax];
1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];
1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;
2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
2.1)输入一个氨基酸序列;
2.2)由蛋白质结构数据库(PDB库)生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
2.4)依据能量值选定该构象所在的能量层;
2.5)由超速形状识别(USR)判别将该构象置入指定cell;
3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;
3.2)设置动态片段组装(FA)步长,由以下公式给出:其中N为序列长度,M为常数;
3.3)设置动态Monte Carlo扰动(MC)步长,由以下公式给出:其中N为序列长度,Q为常数,由以上公式反向分配步长值;
3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax,Tmin];
3.5)设置迭代次数;
4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
4.1)按照能量权重值依概率随机的反向选能量层l;
4.2)按照概率1/[(1+nsel)confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
4.4)对选定构象进行片段组装,生成新的构象;
4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率e-β·ΔE接受新生成的构象,其中ΔE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β=-1/kBT,kB为玻尔兹曼常数,T为温度参数;
4.5)如果当前新生成的构象被接受,则将其存入构象系综;
5)迭代的运行步骤4),直至达到设置的迭代次数。
本发明的技术构思为:基于蛋白质结构从头预测FeLTr算法,在低能量引导的树搜索框架下,采用动态步长搜索蛋白质构象空间,依据所分能量层的权重在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,在构象空间能量较高的区域,使用大的FA步长和较小的MC步长,迫使算法更快的向低能量区域搜索,随着构象搜索逐步向低能量区域靠近,改变FA、MC步长,在能量较低的区域使用较小的FA步长和较大的MC步长,避免对天然态构象的采样不足导致算法有效性降低。同时在构象空间对温度分层,在不同的温度层采用相应的Metropolis准则来判断是否接收当前构象,以增强构象跳出局部极小点的能力,进而增强了对构象空间中近天然态构象采样的能力。
附图说明
图1是动态步长搜索过程示意图。
图2是构象系综更新示意图。
图3是蛋白质1VII构象系综中构象更新示意图。
图4是蛋白质1VII预测结构和实验室测定结构最接近的构象三维示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种构象空间动态步长搜索方法,包括以下步骤:
1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为[Emin,Emax];
1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];
1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;
2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
2.1)输入一个氨基酸序列;
2.2)由PDB库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
2.4)依据能量值选定该构象所在的能量层;
2.5)由USR判别将该构象置入指定cell;
3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;
3.2)设置动态片段组装(FA)步长,由以下公式给出:其中N为序列长度,M为常数;
3.3)设置动态Monte Carlo扰动(MC)步长,由以下公式给出:其中N为序列长度,Q为常数,由以上公式反向分配步长值;
3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax,Tmin];3.5)设置迭代次数;
4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
4.1)按照能量权重值依概率随机的反向选能量层l;
4.2)按照概率1/[(1+nsel)confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
4.4)对选定构象进行片段组装,生成新的构象,如图3所示;
4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率e-β·ΔE接受新生成的构象,其中ΔE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β=-1/kBT,kB为玻尔兹曼常数,T为温度参数;
4.5)如果当前新生成的构象被接受,则将其存入构象系综,否则丢弃当前构象,如图2所示;
5)迭代的运行步骤4),直至达到设置的迭代次数。
本实施例以序列长度为36的蛋白质1VII为实施例,一种构象空间动态步长搜索方法,其中包含以下步骤:
1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,这里取2kcal/mol,从最低能量到最高能量分层,表示为[0,200];
1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[64,36];
1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;
2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
2.1)输入一个氨基酸序列:
MLSDEDFKAVFGMTRSAFANLPLWKQQNLKKEKGLF;
2.2)由PDB库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
2.4)依据能量值选定该构象所在的能量层;
2.5)由USR判别将该构象置入指定cell;
3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;
3.2)设置动态片段组装(FA)步长,由以下公式给出:其中N为序列长度,M=1;
3.3)设置动态Monte Carlo扰动(MC)步长,由以下公式给出:其中N为序列长度,Q=2,由以上公式反向分配步长值;
3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[64,32];
3.5)设置迭代次数为10000;
4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
4.1)按照能量权重值依概率随机的反向选能量层l;
4.2)按照概率1/[(1+nsel)confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
4.4)对选定构象进行片段组装,生成新的构象;
4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率e-β·ΔE接受新生成的构象,其中ΔE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β=-1/kBT,kB为玻尔兹曼常数,T为温度参数;
4.5)如果当前新生成的构象被接受,则将其存入构象系综;
5)迭代的运行步骤4),直至达到设置的迭代次数。
以序列长度为36的蛋白质1VII为实施例,运用以上方法得到了该蛋白质的近天然态构象,构象系综中构象更新图如图3所示,预测结构与实验室测定结构最为接近的构象三维展示如图4所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种构象空间动态步长搜索方法,其特征在于:所述构象空间动态步长搜索方法包括以下步骤:
1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:
1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为GE∈[Emin,Emax];
1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];
1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;
2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:
2.1)输入一个氨基酸序列;
2.2)由蛋白质结构数据库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;
2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;
2.4)依据能量值选定该构象所在的能量层;
2.5)由超速形状识别判别将该构象置入指定cell;
3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装步长和Monte Carlo扰动步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:
3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;
3.2)设置动态片段组装步长,由以下公式给出:其中N为序列长度,M为常数;
3.3)设置动态Monte Carlo扰动步长,由以下公式给出:其中N为序列长度,Q为常数,由以上公式反向分配步长值;
3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax,Tmin];
3.5)设置迭代次数;
4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:
4.1)按照能量权重值依概率随机的反向选能量层l;
4.2)按照概率1/[(1+nsel)confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;
4.3)选定cell后,随机选择一个构象,用于下一步的扩展;
4.4)对选定构象进行片段组装,生成新的构象;
4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率e-β·ΔE接受新生成的构象,其中ΔE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β=-1/kBT,kB为玻尔兹曼常数,T为温度参数;
4.6)如果当前新生成的构象被接受,则将其存入构象系综;
5)迭代的运行步骤4),直至达到设置的迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410362507.1A CN104200132B (zh) | 2014-07-28 | 2014-07-28 | 一种构象空间动态步长搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410362507.1A CN104200132B (zh) | 2014-07-28 | 2014-07-28 | 一种构象空间动态步长搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104200132A CN104200132A (zh) | 2014-12-10 |
CN104200132B true CN104200132B (zh) | 2017-04-19 |
Family
ID=52085425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410362507.1A Active CN104200132B (zh) | 2014-07-28 | 2014-07-28 | 一种构象空间动态步长搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104200132B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933328A (zh) * | 2015-06-08 | 2015-09-23 | 浙江工业大学 | 一种基于副本交换的变步长蛋白质构象空间搜索方法 |
CN107145764B (zh) * | 2017-03-14 | 2019-07-30 | 浙江工业大学 | 一种双重分布估计引导的蛋白质构象空间搜索方法 |
CN113035268A (zh) * | 2021-04-09 | 2021-06-25 | 上海交通大学 | 基于多目标分解优化策略的蛋白质结构优化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714265A (zh) * | 2013-12-23 | 2014-04-09 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
-
2014
- 2014-07-28 CN CN201410362507.1A patent/CN104200132B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714265A (zh) * | 2013-12-23 | 2014-04-09 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
Non-Patent Citations (3)
Title |
---|
An Ab-initio tree-based exploration to enhance sampling of low-energy protein conformations;Amarda Shehu等;《Robotics:science and systems》;20091231;241-248 * |
De novo protein structure prediction by dynamic fragment assembly and conformational space annealing;Juyong Lee等;《Proteins structure function and bioinformatics》;20110831;第79卷(第8期);2403-2417 * |
In search of the protein native state with a probabilitic sampling approach;Brian Olson等;《Journal of bioinformatics and computational biology》;20110630;第9卷(第3期);383-398 * |
Also Published As
Publication number | Publication date |
---|---|
CN104200132A (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220157403A1 (en) | Systems and methods to classify antibodies | |
Park et al. | Transmembrane helix assembly by window exchange umbrella sampling | |
US20140046939A1 (en) | User recommendation method and a user recommendation system using the same | |
Gipson et al. | Computational models of protein kinematics and dynamics: Beyond simulation | |
CN105205348B (zh) | 一种基于距离约束选择策略的群体构象空间优化方法 | |
CN104200132B (zh) | 一种构象空间动态步长搜索方法 | |
CN104933328A (zh) | 一种基于副本交换的变步长蛋白质构象空间搜索方法 | |
Mumpower et al. | The link between rare-earth peak formation and the astrophysical site of the r process | |
CN106503486B (zh) | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 | |
CN104933327B (zh) | 一种局部增强的差分进化蛋白质构象空间搜索方法 | |
CN107506613A (zh) | 一种基于复合结构特征的多模态蛋白质构象空间优化方法 | |
CN106503485B (zh) | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 | |
Hoque et al. | Genetic algorithm-based improved sampling for protein structure prediction | |
Van Lehn et al. | Communication: Lateral phase separation of mixed polymer brushes physisorbed on planar substrates | |
Horvath et al. | Generative topographic mapping of conformational space | |
Yang et al. | Model selection and model over-fitting | |
Chung et al. | Conduction properties of KcsA measured using Brownian dynamics with flexible carbonyl groups in the selectivity filter | |
Olson et al. | Enhancing sampling of the conformational space near the protein native state | |
CN113780146B (zh) | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 | |
De Luca et al. | Proconsul: Probabilistic exploration of connectivity significance patterns for disease module discovery | |
Quan et al. | Improved packing of protein side chains with parallel ant colonies | |
Xu et al. | Inferring drug-target interactions based on random walk and convolutional neural network | |
Rashid et al. | Collaborative parallel local search for simplified protein structure prediction | |
Bisson et al. | Parallel molecular dynamics with irregular domain decomposition | |
Tian et al. | Reinforce: An ensemble approach for inferring PPI network from AP-MS data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20141210 Assignee: Songyang County Wonderful Advertising Co.,Ltd. Assignor: JIANG University OF TECHNOLOGY Contract record no.: X2023980037616 Denomination of invention: A Dynamic Step Search Method for Conformational Space Granted publication date: 20170419 License type: Common License Record date: 20230706 |
|
EE01 | Entry into force of recordation of patent licensing contract |