CN104200131B - 一种基于片段组装的蛋白质构象空间优化方法 - Google Patents

一种基于片段组装的蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN104200131B
CN104200131B CN201410354134.3A CN201410354134A CN104200131B CN 104200131 B CN104200131 B CN 104200131B CN 201410354134 A CN201410354134 A CN 201410354134A CN 104200131 B CN104200131 B CN 104200131B
Authority
CN
China
Prior art keywords
rand3
rand2
rand1
population
origin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410354134.3A
Other languages
English (en)
Other versions
CN104200131A (zh
Inventor
张贵军
郝小虎
周晓根
秦传庆
梅珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201410354134.3A priority Critical patent/CN104200131B/zh
Publication of CN104200131A publication Critical patent/CN104200131A/zh
Application granted granted Critical
Publication of CN104200131B publication Critical patent/CN104200131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于片段组装的蛋白质构象空间优化方法,包括以下步骤:从蛋白质片段库中随机选取片段产生种群个体,根据评分函数对每个种群计算函数值,并进行排序,得到最优函数值,对种群中的个体做交叉变异操作,以更新种群,迭代运行至设置的终止条件,本发明提供了一种有效的构象空间优化方法。

Description

一种基于片段组装的蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于片段组装的蛋白质构象空间优化方法。
背景技术
人类基因组序列图的成功绘制,意味着人类基因组计划的所有预定目标全部实现,也标志着人类基因组计划的胜利完成和后基因组时代的来临。在后基因组时代,研究工作的重心从基因测序转向了基因组功能的识别:根据蛋白质分子的氨基酸序列预测其空间结构。这将使人们更系统的理解生物信息从DNA到具有生物活性蛋白质的遗传信息传递过程,使中心法则得到更为详尽的阐明,进而对生命过程中的各种现象有进一步的深刻认识,最终推动生命科学的向前发展。蛋白质结构预测除了其自身的理论意义外,还具有很重要的实际应用意义。人们希望通过研究蛋白质的空间结构来了解其内在机理,这样不仅可以对疾病进行有效的预测和控制,还可以按照人们的设想设计出符合特定需求的非天然蛋白质。
蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。
因此,我们需要发展有效的蛋白质构象空间优化方法。
发明内容
针对上述问题,我们提出了一种基于片段组装的蛋白质构象空间优化算法FDE(fragment-assembly differential evolution algorithm)。FDE在片段组装的基础上,采用基于知识的Rosetta粗粒度能量模型,融入差分进化算法(DE),利用DE算法较强的全局搜索能力对蛋白质构象空间进行搜索。
本发明解决其技术问题所采用的技术方案是:
一种基于片段组装的蛋白质构象空间优化方法,所述优化方法包括以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生包含popSize个个体的种群Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length(即优化问题的维数),算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L。
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优。
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且
rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j);
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew
3.3)根据执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度。
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变。
4)判断是算法迭代是否执行T次,如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
进一步,所述步骤3.1.3中,随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i(步骤3.1中的i值)。
再进一步,步骤3.1.4中氨基酸j值大小在rand1和rand2之间。
更进一步,步骤3.1.4中变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
本发明的技术构思为:利用基于Rosetta粗粒度的知识能量模型有效地提高算法的收敛速度;同时,借助片段组装技术可以有效弥补因能量函数不精确而导致的预测精度不足的缺陷;此外,引入差分进化算法使得算法具有较好的全局搜索能力。
附图说明
图1是蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种构象空间动态步长搜索方法,包括以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生popSize个个体的种群Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length(即优化问题的维数),算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L。
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优。
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且
rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j)
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew
3.3)根据执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度。
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变。
4)判断是否达到算法的终止条件(算法迭代执行T次),如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
程序运行结果得到的蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图如图1所示。
进一步,所述步骤3.1.3中随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i(步骤3.1中的i值)。
再进一步,步骤3.1.4中氨基酸j值大小在rand1和rand2之间。
更进一步,步骤3.1.4中变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
本实施例以序列长度为32的蛋白质2L0G为实施例,一种构象空间动态步长搜索方法,其中包含以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生popSize个种群个体Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length(即优化问题的维数),算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L。
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优。
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且
rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j)
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew
3.3)根据执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度。
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变。
4)判断是否达到算法的终止条件(算法迭代执行T次),如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
注:
(1)步骤3.1.3中随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i(步骤3.1中的i值)
(2)步骤3.1.4中氨基酸j值大小在rand1和rand2之间。
(3)步骤3.1.4中变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
(4)步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
以序列长度为32的蛋白质2L0G为实施例,运用以上方法得到了该蛋白质的近天然态构象,预测结构与实验室测定结构最为接近的构象三维展示如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于片段组装的蛋白质构象空间优化方法,其特征在于:所述构象空间优化方法包括以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生包含popSize个个体的种群Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length,算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L;
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优;
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize},随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i;
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j)
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω,
氨基酸j值大小在rand1和rand2之间,变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角;
3.2)通过变异操作得到个体Snew
3.3)根据执行算法交叉过程,其中k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段;
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变;
4)判断是算法迭代是否执行T次,如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
CN201410354134.3A 2014-07-23 2014-07-23 一种基于片段组装的蛋白质构象空间优化方法 Active CN104200131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410354134.3A CN104200131B (zh) 2014-07-23 2014-07-23 一种基于片段组装的蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410354134.3A CN104200131B (zh) 2014-07-23 2014-07-23 一种基于片段组装的蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN104200131A CN104200131A (zh) 2014-12-10
CN104200131B true CN104200131B (zh) 2017-06-30

Family

ID=52085424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410354134.3A Active CN104200131B (zh) 2014-07-23 2014-07-23 一种基于片段组装的蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN104200131B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866733B (zh) * 2015-04-03 2017-10-13 浙江工业大学 一种基于副本交换的群体构象空间优化方法
CN104951670B (zh) * 2015-06-08 2018-03-16 浙江工业大学 一种基于距离谱的群体构象空间优化方法
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法
CN109243524B (zh) * 2018-07-12 2021-08-03 浙江工业大学 一种多级个体筛选进化蛋白质结构预测方法
CN113270141B (zh) * 2021-06-10 2023-02-21 哈尔滨因极科技有限公司 一种基因组拷贝数变异检测整合算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008127136A1 (en) * 2007-04-12 2008-10-23 Dmitry Gennadievich Tovbin Method of determination of protein ligand binding and of the most probable ligand pose in protein binding site
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008127136A1 (en) * 2007-04-12 2008-10-23 Dmitry Gennadievich Tovbin Method of determination of protein ligand binding and of the most probable ligand pose in protein binding site
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种新的蛋白质结构预测多模态优化算法;程正华 等;《计算机科学》;20130930;第40卷(第9期);第212-215、229页 *

Also Published As

Publication number Publication date
CN104200131A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104200131B (zh) 一种基于片段组装的蛋白质构象空间优化方法
Schlick et al. Biomolecular modeling thrives in the age of technology
Wright DECIPHER: harnessing local sequence context to improve protein multiple sequence alignment
CN103714265B (zh) 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
Das et al. Macromolecular modeling with rosetta
Kerpedjiev et al. Predicting RNA 3D structure using a coarse-grain helix-centered model
CN105205348B (zh) 一种基于距离约束选择策略的群体构象空间优化方法
CN103473482B (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
Deng et al. MSACompro: protein multiple sequence alignment using predicted secondary structure, solvent accessibility, and residue-residue contacts
Gisbrecht et al. Nonlinear dimensionality reduction for cluster identification in metagenomic samples
CN104933327A (zh) 一种局部增强的差分进化蛋白质构象空间搜索方法
CN105046101B (zh) 一种基于副本交换和局部增强策略的群体构象空间搜索方法
CN106503486A (zh) 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
Dubey et al. A review of protein structure prediction using lattice model
Yanev et al. Protein folding prediction in a cubic lattice in hydrophobic-polar model
Liu et al. AMDGT: Attention aware multi-modal fusion using a dual graph transformer for drug–disease associations prediction
Majumder et al. NoC-based hardware accelerator for breakpoint phylogeny
Majumder et al. Hardware accelerators in computational biology: Application, potential, and challenges
Vernizzi et al. Large-N random matrices for RNA folding
Wang et al. A comparative study of boundary-based intelligent sampling approaches for nonlinear optimization
Santoni et al. Are proteins just coiled cords? Local and global analysis of contact maps reveals the backbone-dependent nature of proteins
CN109243524A (zh) 一种多级个体筛选进化蛋白质结构预测方法
Song Time and space efficient algorithms for RNA folding with the Four-Russians technique
Sun et al. Stochastic fractal search algorithm for 3d protein structure prediction
Tan et al. Hierarchical Data-efficient Representation Learning for Tertiary Structure-based RNA Design

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant