CN104933327B - 一种局部增强的差分进化蛋白质构象空间搜索方法 - Google Patents
一种局部增强的差分进化蛋白质构象空间搜索方法 Download PDFInfo
- Publication number
- CN104933327B CN104933327B CN201510310223.2A CN201510310223A CN104933327B CN 104933327 B CN104933327 B CN 104933327B CN 201510310223 A CN201510310223 A CN 201510310223A CN 104933327 B CN104933327 B CN 104933327B
- Authority
- CN
- China
- Prior art keywords
- population
- individual
- target
- trial
- local enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
一种局部增强的差分进化蛋白质构象空间搜索方法,包括以下步骤:给定输入序列,设置系统参数:种群大小,迭代次数,交叉因子,片段长度;对种群中的每个个体进行完全的片段组装,生成初始种群;依次对初始种群中的每一个个体,执行变异、交叉、选择操作对种群进行更新,得到更新种群;对更新种群中的每个个体调用Monte Carlo方法进行局部增强,按照设定的玻尔兹曼接收概率接收增强的个体,得到增强的种群;迭代的运行以上步骤,至达到终止条件。本发明有效降低构象空间搜索维数、提高算法的收敛速度、有效提高预测精度,可以对构象空间进行更为有效的采样。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种局部增强的差分进化蛋白质构象空间搜索方法。
背景技术
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。
蛋白质结构预测问题自上世纪50年代以来就一直备受关注,尤其是从头预测构象空间优化方法,是生物信息学和计算生物学领域的热点研究课题,因为蛋白质的三维空间结构决定了它所承载的生物功能,想要了解其功能进而对许多由蛋白质结构改变而引起的疾病进行有效的控制和预防,就必须获得其三维结构。从头预测方法直接从蛋白质的氨基酸序列出发,根据Anfinsen原则,以计算机为工具,运用适当算法,通过计算得到蛋白质的天然构象,适用于同源性小于25%的大多数蛋白质。而制约从头预测方法预测精度的瓶颈因素主要有两个方面:第一,蛋白质构象空间的高维复杂性以及能量表面的粗糙性,使其成为一个难解的NP-Hard问题;第二,力场模型的不精确性也使得预测结果难以达到较高的精度。设计有效的算法增强对构象空间的采样是解决蛋白质结构从头预测瓶颈问题的有效途径。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。
因此,现有的构象空间搜索方法存在不足,需要改进。
发明内容
为了克服现有蛋白质结构预测方法的构象空间搜索维数较高、收敛速度较慢、预测精度较低的不足,本发明基于差分进化算法,提出一种局部增强的差分进化蛋白质构象空间搜索方法,LEDE:在差分进化算法框架下,采用Rosetta Score3粗粒度知识能量模型来;引入基于知识的片段组装技术可以有效提高预测精度;利用Monte Carlo算法良好的局部搜索性能对种群做局部增强,以得到更为优良的局部构象,结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的采样。
本发明解决其技术问题所采用的技术方案是:
一种局部增强的差分进化蛋白质构象空间搜索方法,包括以下步骤:
1)给定输入序列信息;
2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,片段的长度L;
3)种群初始化:由输入序列产生popSize个种群个体Pinit;
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,popSize};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,......popSize},rand1≠i,rand2≠rand3,∈{1,2,…,Length},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial;
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);
4.7)根据执行交叉过程:若随机数rand4<=CR,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial。
4.8)根据Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate;
6)对更新种群中的每个个体Pi:
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance;
8)迭代的运行步骤4)~7),至终止条件。
本发明的有益效果为:在差分进化算法框架下,采用Rosetta Score3粗粒度知识能量模型有效降低构象空间搜索维数、提高算法收敛速度;引入基于知识的片段组装技术可以有效提高预测精度;利用Monte Carlo算法良好的局部搜索性能对种群做局部增强,以得到更为优良的局部构象;结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的采样,搜索得到较高精度的近天然态构象。
附图说明
图1是蛋白质1ENH构象系综中构象更新示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种局部增强的差分进化蛋白质构象空间搜索方法,包括以下步骤:
1)给定输入序列信息;
2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,片段的长度L;
3)种群初始化:由输入序列产生popSize个种群个体Pinit;
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,popSize};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,......popSize},rand1≠i,rand2≠rand3,∈{1,2,…,Length},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial;
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);
4.7)根据执行交叉过程:若随机数rand4<=CR,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial。
4.8)根据Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate;
6)对更新种群中的每个个体Pi:
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance;
8)迭代的运行步骤4)~7),至终止条件。
本实施例以序列长度为54的蛋白质1ENH为实施例,一种局部增强的差分进化蛋白质构象空间搜索方法,其中包含以下步骤:
1)给定输入序列信息1ENH;
2)设置系统参数:种群大小popSize=30,算法的迭代次数T=10000,交叉因子CR=0.5,片段的长度L=3;
3)种群初始化:由输入序列产生popSize=30个种群个体Pinit;
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,30};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,...,30},rand1≠i,rand2≠rand3,∈{1,2,…,54},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial;
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,54);
4.7)根据执行交叉过程:若随机数rand4<=0.5,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial。
4.8)根绝Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate;
6)对更新种群中的每个个体Pi:
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance;
8)迭代的运行步骤4)~7),至终止条件。
以序列长度为54的蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,构象系综中构象更新图如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种局部增强的差分进化蛋白质构象空间搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:
1)给定输入序列信息;
2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR;
3)种群初始化:由输入序列产生popSize个种群个体Pinit;
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,popSize};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,......popSize},rand1≠i,rand2≠rand3,rand2、rand3∈{1,2,…,Length},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial;
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);
4.7)根据执行交叉过程:若随机数rand4<=CR,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial;
4.8)根据Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate;
6)对更新种群中的每个个体Pi:
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;7)得到局部增强后的种群Penhance;
8)迭代的运行步骤4)~7),至终止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510310223.2A CN104933327B (zh) | 2015-06-08 | 2015-06-08 | 一种局部增强的差分进化蛋白质构象空间搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510310223.2A CN104933327B (zh) | 2015-06-08 | 2015-06-08 | 一种局部增强的差分进化蛋白质构象空间搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933327A CN104933327A (zh) | 2015-09-23 |
CN104933327B true CN104933327B (zh) | 2018-06-01 |
Family
ID=54120492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510310223.2A Active CN104933327B (zh) | 2015-06-08 | 2015-06-08 | 一种局部增强的差分进化蛋白质构象空间搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933327B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096328B (zh) * | 2016-04-26 | 2018-09-07 | 浙江工业大学 | 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 |
CN106503486B (zh) * | 2016-09-23 | 2019-04-23 | 浙江工业大学 | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 |
CN106503485B (zh) * | 2016-09-23 | 2019-04-23 | 浙江工业大学 | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 |
CN109360596B (zh) * | 2018-08-30 | 2021-08-03 | 浙江工业大学 | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 |
CN109584954B (zh) * | 2018-11-05 | 2021-04-06 | 浙江工业大学 | 一种基于多种群联合搜索的蛋白质构象空间优化方法 |
CN112967751A (zh) * | 2021-03-21 | 2021-06-15 | 湖南大学 | 一种基于进化搜索的蛋白质构象空间优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714265A (zh) * | 2013-12-23 | 2014-04-09 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
-
2015
- 2015-06-08 CN CN201510310223.2A patent/CN104933327B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714265A (zh) * | 2013-12-23 | 2014-04-09 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
Non-Patent Citations (3)
Title |
---|
A population-based evolutionary search approach to the multiple minima problem in de novo protein structure prediction;Sameh Saleh等;《BMC StructuralBiology》;20131231;第1-19页 * |
一种基于片段组装的蛋白质构象空间优化算法;郝小虎等;《计算机科学》;20150331;第42卷(第3期);第237-240页 * |
一种新的蛋白质结构预测多模态优化算法;程正华等;《计算机科学》;20130930;第40卷(第9期);第212-215,229页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104933327A (zh) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933327B (zh) | 一种局部增强的差分进化蛋白质构象空间搜索方法 | |
Deng et al. | Protein structure prediction | |
CN103714265B (zh) | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 | |
CN106503486B (zh) | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 | |
CN107633157B (zh) | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 | |
CN105046101B (zh) | 一种基于副本交换和局部增强策略的群体构象空间搜索方法 | |
Morrissey et al. | Design of proteins with selected thermal properties | |
CN106503485B (zh) | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 | |
CN104866733B (zh) | 一种基于副本交换的群体构象空间优化方法 | |
CN103473482B (zh) | 基于差分进化和构象空间退火的蛋白质三维结构预测方法 | |
CN103413067A (zh) | 一种基于抽象凸下界估计的蛋白质结构预测方法 | |
Zhang et al. | Enhancing protein conformational space sampling using distance profile-guided differential evolution | |
CN108846256A (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
CN107506613A (zh) | 一种基于复合结构特征的多模态蛋白质构象空间优化方法 | |
CN109360596B (zh) | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 | |
CN106096326B (zh) | 一种基于质心变异策略的差分进化蛋白质结构预测方法 | |
Kumozaki et al. | A machine learning based approach to de novo sequencing of glycans from tandem mass spectrometry spectrum | |
CN104933328A (zh) | 一种基于副本交换的变步长蛋白质构象空间搜索方法 | |
Wang et al. | BatmanNet: bi-branch masked graph transformer autoencoder for molecular representation | |
Hao et al. | A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space | |
Ma et al. | Prediction of long non-coding RNA-protein interaction through kernel soft-neighborhood similarity | |
Maskey et al. | LePrimAlign: local entropy-based alignment of PPI networks to predict conserved modules | |
CN108595910A (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109378033B (zh) | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 | |
CN110534153B (zh) | 基于深度学习的靶标预测系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |