CN104933327A - 一种局部增强的差分进化蛋白质构象空间搜索方法 - Google Patents

一种局部增强的差分进化蛋白质构象空间搜索方法 Download PDF

Info

Publication number
CN104933327A
CN104933327A CN201510310223.2A CN201510310223A CN104933327A CN 104933327 A CN104933327 A CN 104933327A CN 201510310223 A CN201510310223 A CN 201510310223A CN 104933327 A CN104933327 A CN 104933327A
Authority
CN
China
Prior art keywords
population
target
individual
trial
local enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510310223.2A
Other languages
English (en)
Other versions
CN104933327B (zh
Inventor
张贵军
郝小虎
俞旭锋
周晓根
陈凯
徐东伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201510310223.2A priority Critical patent/CN104933327B/zh
Publication of CN104933327A publication Critical patent/CN104933327A/zh
Application granted granted Critical
Publication of CN104933327B publication Critical patent/CN104933327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

一种局部增强的差分进化蛋白质构象空间搜索方法,包括以下步骤:给定输入序列,设置系统参数:种群大小,迭代次数,交叉因子,片段长度;对种群中的每个个体进行完全的片段组装,生成初始种群;依次对初始种群中的每一个个体,执行变异、交叉、选择操作对种群进行更新,得到更新种群;对更新种群中的每个个体调用Monte Carlo方法进行局部增强,按照设定的玻尔兹曼接收概率接收增强的个体,得到增强的种群;迭代的运行以上步骤,至达到终止条件。本发明有效降低构象空间搜索维数、提高算法的收敛速度、有效提高预测精度,可以对构象空间进行更为有效的采样。

Description

一种局部增强的差分进化蛋白质构象空间搜索方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种局部增强的差分进化蛋白质构象空间搜索方法。
背景技术
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。
蛋白质结构预测问题自上世纪50年代以来就一直备受关注,尤其是从头预测构象空间优化方法,是生物信息学和计算生物学领域的热点研究课题,因为蛋白质的三维空间结构决定了它所承载的生物功能,想要了解其功能进而对许多由蛋白质结构改变而引起的疾病进行有效的控制和预防,就必须获得其三维结构。从头预测方法直接从蛋白质的氨基酸序列出发,根据Anfinsen原则,以计算机为工具,运用适当算法,通过计算得到蛋白质的天然构象,适用于同源性小于25%的大多数蛋白质。而制约从头预测方法预测精度的瓶颈因素主要有两个方面:第一,蛋白质构象空间的高维复杂性以及能量表面的粗糙性,使其成为一个难解的NP-Hard问题;第二,力场模型的不精确性也使得预测结果难以达到较高的精度。设计有效的算法增强对构象空间的采样是解决蛋白质结构从头预测瓶颈问题的有效途径。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。
因此,现有的构象空间搜索方法存在不足,需要改进。
发明内容
为了克服现有蛋白质结构预测方法的构象空间搜索维数较高、收敛速度较慢、预测精度较低的不足,本发明基于差分进化算法,提出一种局部增强的差分进化蛋白质构象空间搜索方法,LEDE:在差分进化算法框架下,采用Rosetta Score3粗粒度知识能量模型来;引入基于知识的片段组装技术可以有效提高预测精度;利用Monte Carlo算法良好的局部搜索性能对种群做局部增强,以得到更为优良的局部构象,结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的采样。
本发明解决其技术问题所采用的技术方案是:
一种局部增强的差分进化蛋白质构象空间搜索方法,包括以下步骤:
1)给定输入序列信息;
2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,片段的长度L;
3)种群初始化:由输入序列产生popSize个种群个体Pinit
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,popSize};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,......popSize},rand1≠i,rand2≠rand3,∈{1,2,…,Length},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);
4.7)根据 P trail = P trail , rand 5 = P t arg et , rand 5 if ( rand 4 &le; CR ) P trail , rand 5 otherwise 执行交叉过程:若随机数rand4<=CR,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial
4.8)根据Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate
6)对更新种群中的每个个体Pi
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance
8)迭代的运行步骤4)~7),至终止条件。
本发明的有益效果为:在差分进化算法框架下,采用Rosetta Score3粗粒度知识能量模型有效降低构象空间搜索维数、提高算法收敛速度;引入基于知识的片段组装技术可以有效提高预测精度;利用Monte Carlo算法良好的局部搜索性能对种群做局部增强,以得到更为优良的局部构象;结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的采样,搜索得到较高精度的近天然态构象。
附图说明
图1是蛋白质1ENH构象系综中构象更新示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种局部增强的差分进化蛋白质构象空间搜索方法,包括以下步骤:
1)给定输入序列信息;
2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,片段的长度L;
3)种群初始化:由输入序列产生popSize个种群个体Pinit
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,popSize};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,......popSize},rand1≠i,rand2≠rand3,∈{1,2,…,Length},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);
4.7)根据 P trail = P trail , rand 5 = P t arg et , rand 5 if ( rand 4 &le; CR ) P trail , rand 5 otherwise 执行交叉过程:若随机数rand4<=CR,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial
4.8)根据Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate
6)对更新种群中的每个个体Pi
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance
8)迭代的运行步骤4)~7),至终止条件。
本实施例以序列长度为54的蛋白质1ENH为实施例,一种局部增强的差分进化蛋白质构象空间搜索方法,其中包含以下步骤:
1)给定输入序列信息1ENH;
2)设置系统参数:种群大小popSize=30,算法的迭代次数T=10000,交叉因子CR=0.5,片段的长度L=3;
3)种群初始化:由输入序列产生popSize=30个种群个体Pinit
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,30};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,...,30},rand1≠i,rand2≠rand3,∈{1,2,…,54},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,54);
4.7)根据 P trail = P trail , rand 5 = P t arg et , rand 5 if ( rand 4 &le; 0.5 ) P trail , rand 5 otherwise 执行交叉过程:若随机数rand4<=0.5,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial
4.8)根绝Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate
6)对更新种群中的每个个体Pi
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance
8)迭代的运行步骤4)~7),至终止条件。
以序列长度为54的蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,构象系综中构象更新图如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种局部增强的差分进化蛋白质构象空间搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:
1)给定输入序列信息;
2)设置系统参数:种群大小popSize,算法的迭代次数T,交叉因子CR,片段的长度L;
3)种群初始化:由输入序列产生popSize个种群个体Pinit
4)开始迭代,执行种群更新过程,对初始种群中的每个个体:
4.1)设i=1,其中i∈{1,2,3,…,popSize};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;
4.2)随机生成正整数rand1,rand2,rand3,其中rand1∈{1,2,3,......popSize},rand1≠i,rand2≠rand3,∈{1,2,…,Length},Length为序列长度;
4.3)针对个体Pj做变异操作,其中:j=rand1;令a=min(rand2,rand3),b=max(rand2,rand3),k∈[a,b];
4.4)对蛋白质链中第a到b个氨基酸做如下操作:
a:令Ptarget.phi(k)=Pj.phi(k);
b:令Ptarget.psi(k)=Pj.psi(k);
c:令Ptarget.omega(k)=Pj.omega(k);
步骤a,b,c分别为:将Ptarget的氨基酸k所对应的二面角phi、psi、omega替换为Pj的相同位置所对应的二面角phi、psi、omega;
4.5)通过变异得到测试个体Ptrial
4.6)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);
4.7)根据 P trail = P trail , rand 5 = P t arg et , rand 5 if ( rand 4 &le; CR ) P trail , rand 5 otherwise 执行交叉过程:若随机数rand4<=CR,个体Ptrial的片段rand5替换为个体Ptarget中对应的片段,否则直接继承个体Ptrial
4.8)根据Rosetta Score3计算Ptarget和Ptrial的能量:E(Ptarget)和E(Ptrial);
4.9)若E(Ptarget)>E(Ptrial)则用Ptrial替换Ptarget,否则保持种群不变;
5)得到更新种群Pupdate
6)对更新种群中的每个个体Pi
6.1)调用Monte Carlo方法对个体做局部增强;
6.2)计算增强过程中产生的构象的能量E(MC);
6.3)若E(Pi)>E(MC),则更新种群,否则保持种群不变;
7)得到局部增强后的种群Penhance
8)迭代的运行步骤4)~7),至终止条件。
CN201510310223.2A 2015-06-08 2015-06-08 一种局部增强的差分进化蛋白质构象空间搜索方法 Active CN104933327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510310223.2A CN104933327B (zh) 2015-06-08 2015-06-08 一种局部增强的差分进化蛋白质构象空间搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510310223.2A CN104933327B (zh) 2015-06-08 2015-06-08 一种局部增强的差分进化蛋白质构象空间搜索方法

Publications (2)

Publication Number Publication Date
CN104933327A true CN104933327A (zh) 2015-09-23
CN104933327B CN104933327B (zh) 2018-06-01

Family

ID=54120492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510310223.2A Active CN104933327B (zh) 2015-06-08 2015-06-08 一种局部增强的差分进化蛋白质构象空间搜索方法

Country Status (1)

Country Link
CN (1) CN104933327B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503485A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种局部增强的多模态差分进化蛋白质结构从头预测方法
CN106503486A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
CN106096328B (zh) * 2016-04-26 2018-09-07 浙江工业大学 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法
CN109360596A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109584954B (zh) * 2018-11-05 2021-04-06 浙江工业大学 一种基于多种群联合搜索的蛋白质构象空间优化方法
CN112967751A (zh) * 2021-03-21 2021-06-15 湖南大学 一种基于进化搜索的蛋白质构象空间优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAMEH SALEH等: "A population-based evolutionary search approach to the multiple minima problem in de novo protein structure prediction", 《BMC STRUCTURALBIOLOGY》 *
程正华等: "一种新的蛋白质结构预测多模态优化算法", 《计算机科学》 *
郝小虎等: "一种基于片段组装的蛋白质构象空间优化算法", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096328B (zh) * 2016-04-26 2018-09-07 浙江工业大学 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法
CN106503485A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种局部增强的多模态差分进化蛋白质结构从头预测方法
CN106503486A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
CN106503485B (zh) * 2016-09-23 2019-04-23 浙江工业大学 一种局部增强的多模态差分进化蛋白质结构从头预测方法
CN106503486B (zh) * 2016-09-23 2019-04-23 浙江工业大学 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
CN109360596A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109360596B (zh) * 2018-08-30 2021-08-03 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109584954B (zh) * 2018-11-05 2021-04-06 浙江工业大学 一种基于多种群联合搜索的蛋白质构象空间优化方法
CN112967751A (zh) * 2021-03-21 2021-06-15 湖南大学 一种基于进化搜索的蛋白质构象空间优化方法

Also Published As

Publication number Publication date
CN104933327B (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN104933327A (zh) 一种局部增强的差分进化蛋白质构象空间搜索方法
CN103714265B (zh) 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
Liu et al. Hydrophobic aided replica exchange: an efficient algorithm for protein folding in explicit solvent
CN105205348B (zh) 一种基于距离约束选择策略的群体构象空间优化方法
Wu et al. FPGA accelerated INDEL realignment in the cloud
Zhang et al. IsRNA1: de novo prediction and blind screening of RNA 3D structures
CN106503486A (zh) 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
CN105760710A (zh) 一种基于两阶段差分进化算法的蛋白质结构预测方法
CN103473482A (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
Sarkar et al. An algorithm for DNA read alignment on quantum accelerators
CN105046101A (zh) 一种基于副本交换和局部增强策略的群体构象空间搜索方法
Sampietro et al. Fpga-based pairhmm forward algorithm for dna variant calling
Salamat et al. Fpga acceleration of sequence alignment: A survey
Kumozaki et al. A machine learning based approach to de novo sequencing of glycans from tandem mass spectrometry spectrum
CN106503485B (zh) 一种局部增强的多模态差分进化蛋白质结构从头预测方法
CN105975806A (zh) 一种基于距离约束副本交换的蛋白质结构预测方法
Peréz-Sánchez et al. Applications of high performance computing in bioinformatics, computational biology and computational chemistry
CN104200131A (zh) 一种基于片段组装的蛋白质构象空间优化方法
CN104951670A (zh) 一种基于距离谱的群体构象空间优化方法
Zhou et al. FebRNA: An automated fragment-ensemble-based model for building RNA 3D structures
Yin et al. Improving the prediction of DNA-protein binding by integrating multi-scale dense convolutional network with fault-tolerant coding
CN111180004B (zh) 一种多元接触信息的子种群策略蛋白质结构预测方法
Ryšavý et al. circGPA: circRNA functional annotation based on probability-generating functions
CN104200132A (zh) 一种构象空间动态步长搜索方法
Zeni et al. New solution for a (scaff) old problem: an fpga approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant