CN104200131A - 一种基于片段组装的蛋白质构象空间优化方法 - Google Patents
一种基于片段组装的蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN104200131A CN104200131A CN201410354134.3A CN201410354134A CN104200131A CN 104200131 A CN104200131 A CN 104200131A CN 201410354134 A CN201410354134 A CN 201410354134A CN 104200131 A CN104200131 A CN 104200131A
- Authority
- CN
- China
- Prior art keywords
- new
- rand3
- rand2
- origin
- rand1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种基于片段组装的蛋白质构象空间优化方法,包括以下步骤:从蛋白质片段库中随机选取片段产生种群个体,根据评分函数对每个种群计算函数值,并进行排序,得到最优函数值,对种群中的个体做交叉变异操作,以更新种群,迭代运行至设置的终止条件,本发明提供了一种有效的构象空间优化方法。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于片段组装的蛋白质构象空间优化方法。
背景技术
人类基因组序列图的成功绘制,意味着人类基因组计划的所有预定目标全部实现,也标志着人类基因组计划的胜利完成和后基因组时代的来临。在后基因组时代,研究工作的重心从基因测序转向了基因组功能的识别:根据蛋白质分子的氨基酸序列预测其空间结构。这将使人们更系统的理解生物信息从DNA到具有生物活性蛋白质的遗传信息传递过程,使中心法则得到更为详尽的阐明,进而对生命过程中的各种现象有进一步的深刻认识,最终推动生命科学的向前发展。蛋白质结构预测除了其自身的理论意义外,还具有很重要的实际应用意义。人们希望通过研究蛋白质的空间结构来了解其内在机理,这样不仅可以对疾病进行有效的预测和控制,还可以按照人们的设想设计出符合特定需求的非天然蛋白质。
蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。
因此,我们需要发展有效的蛋白质构象空间优化方法。
发明内容
针对上述问题,我们提出了一种基于片段组装的蛋白质构象空间优化算法FDE(fragment-assembly differential evolution algorithm)。FDE在片段组装的基础上,采用基于知识的Rosetta粗粒度能量模型,融入差分进化算法(DE),利用DE算法较强的全局搜索能力对蛋白质构象空间进行搜索。
本发明解决其技术问题所采用的技术方案是:
一种基于片段组装的蛋白质构象空间优化方法,所述优化方法包括以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生包含popSize个个体的种群Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length(即优化问题的维数),算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L。
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优。
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且
rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j);
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew;
3.3)根据 执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度。
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变。
4)判断是算法迭代是否执行T次,如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
进一步,所述步骤3.1.3中,随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i(步骤3.1中的i值)。
再进一步,步骤3.1.4中氨基酸j值大小在rand1和rand2之间。
更进一步,步骤3.1.4中变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
本发明的技术构思为:利用基于Rosetta粗粒度的知识能量模型有效地提高算法的收敛速度;同时,借助片段组装技术可以有效弥补因能量函数不精确而导致的预测精度不足的缺陷;此外,引入差分进化算法使得算法具有较好的全局搜索能力。
附图说明
图1是蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种构象空间动态步长搜索方法,包括以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生popSize个个体的种群Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length(即优化问题的维数),算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L。
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优。
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且
rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j)
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew;
3.3)根据 执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度。
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变。
4)判断是否达到算法的终止条件(算法迭代执行T次),如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
程序运行结果得到的蛋白质2L0G预测结构和实验室测定结构最接近的构象三维示意图如图1所示。
进一步,所述步骤3.1.3中随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i(步骤3.1中的i值)。
再进一步,步骤3.1.4中氨基酸j值大小在rand1和rand2之间。
更进一步,步骤3.1.4中变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
本实施例以序列长度为32的蛋白质2L0G为实施例,一种构象空间动态步长搜索方法,其中包含以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生popSize个种群个体Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length(即优化问题的维数),算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L。
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优。
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,…,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且
rand1,rand2∈{1,2,…,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j)
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew;
3.3)根据 执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度。
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变。
4)判断是否达到算法的终止条件(算法迭代执行T次),如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
注:
(1)步骤3.1.3中随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i(步骤3.1中的i值)
(2)步骤3.1.4中氨基酸j值大小在rand1和rand2之间。
(3)步骤3.1.4中变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
(4)步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
以序列长度为32的蛋白质2L0G为实施例,运用以上方法得到了该蛋白质的近天然态构象,预测结构与实验室测定结构最为接近的构象三维展示如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (5)
1.一种基于片段组装的蛋白质构象空间优化方法,其特征在于:所述构象空间优化方法包括以下步骤:
1)初始化种群:从蛋白质片段库中随机选取片段产生包含popSize个个体的种群Pint,并设置算法参数:种群大小popSize,蛋白质序列长度Length,算法的迭代次数T,算法的交叉因子CR,蛋白质片段的长度L;
2)根据评分函数f计算每个种群的函数值大小,并进行排序,其中Pmax的函数值最优;
3)在未达到设定的终止条件时,进行以下操作
3.1)对种群Pint中每个个体Pi做以下操作:
3.1.1)设i=1,其中i∈{1,2,3,L,popSize};
3.1.2)其中Porigin=Pi,Porigin为初始种群,Pi为Pint中的每个个体;
3.1.3)随机生成正整数rand1,rand2,rand3;其中rand1≠rand2,且rand1,rand2∈{1,2,L,Length},rand3∈{1,2,3,......popSize};
3.1.4)针对个体Pj做变异操作,其中:
j∈{min(rand1,rand2),...,max(rand1,rand2)}
a:令Porigin.phi(j)←Prand3.phi(j);
b:令Porigin.psi(j)←Prand3.psi(j);
c:令Porigin.omega(j)←Prand3.omega(j)
其中phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;
3.2)通过变异操作得到个体Snew;
3.3)根据 执行算法交叉过程,其中
k∈{0,0+L,0+2L,....Length},L为蛋白质片段的长度;
3.4)对所得到的Pnew执行选择操作,若f(Pnew)>f(Pmax),则Pnew替换Pmax,否则保持种群不变;
4)判断是算法迭代是否执行T次,如若未达到,则t←t+1,转至3)继续循环执行算法,至达到终止条件。
2.如权利要求1所述一种基于片段组装的蛋白质构象空间优化方法,其特征在于:所述步骤3.1.3中,随机数rand1、rand2、rand3选取,其中rand1≠rand2,rand3≠i。
3.如权利要求1或2所述一种基于片段组装的蛋白质构象空间优化方法,其特征在于:所述步骤3.1.4中,氨基酸j值大小在rand1和rand2之间。
4.如权利要求3所述一种基于片段组装的蛋白质构象空间优化方法,其特征在于:所述步骤3.1.4中,变异操作将Porigin的氨基酸j所对应的二面角phi、psi、omega替换为Prand3的相同位置所对应的二面角。
5.如权利要求1或2所述一种基于片段组装的蛋白质构象空间优化方法,其特征在于:所述步骤3.3中的交叉操作,若随机数rand(K)<=CR,个体Snew的片段K替换为个体Porigin中对应的第k个片段,否则直接继承个体Snew的第k个片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410354134.3A CN104200131B (zh) | 2014-07-23 | 2014-07-23 | 一种基于片段组装的蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410354134.3A CN104200131B (zh) | 2014-07-23 | 2014-07-23 | 一种基于片段组装的蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104200131A true CN104200131A (zh) | 2014-12-10 |
CN104200131B CN104200131B (zh) | 2017-06-30 |
Family
ID=52085424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410354134.3A Active CN104200131B (zh) | 2014-07-23 | 2014-07-23 | 一种基于片段组装的蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104200131B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866733A (zh) * | 2015-04-03 | 2015-08-26 | 浙江工业大学 | 一种基于副本交换的群体构象空间优化方法 |
CN104951670A (zh) * | 2015-06-08 | 2015-09-30 | 浙江工业大学 | 一种基于距离谱的群体构象空间优化方法 |
CN107229840A (zh) * | 2017-06-01 | 2017-10-03 | 浙江工业大学 | 一种基于菌群优化算法的蛋白质结构从头预测方法 |
CN109243524A (zh) * | 2018-07-12 | 2019-01-18 | 浙江工业大学 | 一种多级个体筛选进化蛋白质结构预测方法 |
CN113270141A (zh) * | 2021-06-10 | 2021-08-17 | 哈尔滨因极科技有限公司 | 一种基因组拷贝数变异检测整合算法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008127136A1 (en) * | 2007-04-12 | 2008-10-23 | Dmitry Gennadievich Tovbin | Method of determination of protein ligand binding and of the most probable ligand pose in protein binding site |
CN103714265A (zh) * | 2013-12-23 | 2014-04-09 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
-
2014
- 2014-07-23 CN CN201410354134.3A patent/CN104200131B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008127136A1 (en) * | 2007-04-12 | 2008-10-23 | Dmitry Gennadievich Tovbin | Method of determination of protein ligand binding and of the most probable ligand pose in protein binding site |
CN103714265A (zh) * | 2013-12-23 | 2014-04-09 | 浙江工业大学 | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 |
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
Non-Patent Citations (1)
Title |
---|
程正华 等: "一种新的蛋白质结构预测多模态优化算法", 《计算机科学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866733A (zh) * | 2015-04-03 | 2015-08-26 | 浙江工业大学 | 一种基于副本交换的群体构象空间优化方法 |
CN104866733B (zh) * | 2015-04-03 | 2017-10-13 | 浙江工业大学 | 一种基于副本交换的群体构象空间优化方法 |
CN104951670A (zh) * | 2015-06-08 | 2015-09-30 | 浙江工业大学 | 一种基于距离谱的群体构象空间优化方法 |
CN104951670B (zh) * | 2015-06-08 | 2018-03-16 | 浙江工业大学 | 一种基于距离谱的群体构象空间优化方法 |
CN107229840A (zh) * | 2017-06-01 | 2017-10-03 | 浙江工业大学 | 一种基于菌群优化算法的蛋白质结构从头预测方法 |
CN109243524A (zh) * | 2018-07-12 | 2019-01-18 | 浙江工业大学 | 一种多级个体筛选进化蛋白质结构预测方法 |
CN113270141A (zh) * | 2021-06-10 | 2021-08-17 | 哈尔滨因极科技有限公司 | 一种基因组拷贝数变异检测整合算法 |
Also Published As
Publication number | Publication date |
---|---|
CN104200131B (zh) | 2017-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104200131A (zh) | 一种基于片段组装的蛋白质构象空间优化方法 | |
Zhang et al. | CRIP: predicting circRNA–RBP-binding sites using a codon-based encoding and hybrid deep neural networks | |
CN103714265B (zh) | 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法 | |
Maffeo et al. | A coarse-grained model of unstructured single-stranded DNA derived from atomistic simulation and single-molecule experiment | |
CN104933327A (zh) | 一种局部增强的差分进化蛋白质构象空间搜索方法 | |
Alexandrova et al. | Photochemistry of DNA fragments via semiclassical nonadiabatic dynamics | |
CN106503486A (zh) | 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法 | |
CN105046101B (zh) | 一种基于副本交换和局部增强策略的群体构象空间搜索方法 | |
CN105975806A (zh) | 一种基于距离约束副本交换的蛋白质结构预测方法 | |
Zhou et al. | FebRNA: An automated fragment-ensemble-based model for building RNA 3D structures | |
CN106503485A (zh) | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 | |
Lahorkar et al. | Identification of phase separating proteins with distributed reduced alphabet representations of sequences | |
Lawrence et al. | Improving MHC class I antigen-processing predictions using representation learning and cleavage site-specific kernels | |
Li et al. | All-Atom direct folding simulation for proteins using the accelerated molecular dynamics in implicit solvent model | |
CN104200132A (zh) | 一种构象空间动态步长搜索方法 | |
Villada-Balbuena et al. | One-bead coarse-grained model for RNA dynamics | |
Brylinski et al. | SPI–Structure predictability index for protein sequences | |
Sree et al. | Cellular automata and its applications in bioinformatics: a review | |
Gattani et al. | Sequence and structure-based protein peptide binding residue prediction | |
Liang et al. | Scores of generalized base properties for quantitative sequence-activity modelings for E. coli promoters based on support vector machine | |
Frausto-Solis et al. | Chaotic multiquenching annealing applied to the protein folding problem | |
Shea et al. | Predicting mutational function using machine learning | |
Charles et al. | Protein Subnetwork Biomarkers for Yeast Using Brute Force Method | |
CN109243524B (zh) | 一种多级个体筛选进化蛋白质结构预测方法 | |
Mao et al. | Prediction of LncRNA-Protein Interactions Based on Multi-kernel Fusion and Graph Auto-Encoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |