CN106778057B

CN106778057B - 一种基于量子进化算法的蛋白质构象空间优化方法

Info

Publication number: CN106778057B
Application number: CN201611003479.XA
Authority: CN
Inventors: 张贵军; 郝小虎; 周晓根; 王柳静; 李章维
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2019-01-29
Anticipated expiration: 2036-11-15
Also published as: CN106778057A

Abstract

一种基于量子进化算法的蛋白质构象空间优化方法，包括以下步骤：基于量子进化算法框架，以Rosetta Score3为优化目标函数，基于氨基酸序列粗粒度表达模型，将能量计算模型转换为二面角优化空间能量模型；采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码，通过片段组装执行量子变异操作，以提高预测精度，应用量子旋转门对种群个体进行量子更新，以达到局部调整角度的目的，通过迭代的进化过程，算法将产生能量较低，结构合理的蛋白质构象。本发明在蛋白质结构预测应用中能够，可以快速的得到预测精度较高构象。

Description

一种基于量子进化算法的蛋白质构象空间优化方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于量子进化算法的蛋白质构象空间优化方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前，根据Anfinsen假设，直接从氨基酸序列出发，基于势能模型，采用全局优化方法，搜索分子系统的最小能量状态，从而高通量、廉价地预测肽链的天然构象，已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽来说，从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素：(1)蛋白质结构能量函数；(2)构象空间搜索方法。第一个因素本质上属于分子力学问题，主要是为了能够计算得到每个蛋白质结构对应的能量值；第二个因素本质上属于全局优化问题，通过选择一种合适的优化方法，对构象空间进行快速搜索，得到与某一全局最小能量对应的构象。而蛋白质构象空间优化属于一类非常难解的NP-Hard问题，是制约着蛋白质结构从头预测方法预测精度的瓶颈问题。

因此，现有的构象空间优化方法存在采样效率及预测精度方面存在不足，需要改进。

发明内容

为了克服现有的蛋白质构象优化方法的采样效率低、预测精度低的不足，本发明提出一种采样效率、预测精度较高的基于量子进化算法的蛋白质构象空间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于量子进化算法的蛋白质构象空间优化方法，所述构象空间优化方法包括以下步骤：

1)给定输入序列：

2)设置参数：种群规模pop_size；

3)种群初始化：根据给定的输入序列，生成pop_size个种群个体p，组成初始种

群，表示为：需满足|α_i|²+|β_i|²＝1，令α_i＝sinζ_i，

β_i＝cosζ_i，其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ，当i

为奇数时当i为偶数时ζ_i＝ψ_j，i,j为序号索引值，n为序列长度；4)对初始种群中的每一个个体执行初始量子观测：

4.1)令i＝1，i∈{1,2,3,…,2n}；

4.2)在[0,1]上生成一个随机数rand；

4.3)比较|α_i|²与rand的大小，若rand＞|α_i|²，则取ζ_i＝arcsinα，否则，取ζ_i＝arccosβ；

4.4)令i＝i+1；

4.5)若i<2n，返回步骤4.2)，否则转步骤4.6)；

4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p)；

5)开始迭代，对种群中的每个个体做如下操作：

5.1)令k＝1，其中k∈{1,2,…,pop_size}，k为序号；

5.2)令p_target＝p_k，p_target为目标个体；

5.3)对p_target执行L次片段组装，得到变异个体p′，其中L为片段长度；

5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′)；

5.5)采用量子旋转门执行量子更新操作：p″表示经过量子更新后的个体，θ_i＝s(α_i,β_i)Δθ_i，θ_i是旋转角，s(α_i,β_i)为旋转方向，θ_i根据预先设定的查找表规则确定；

5.6)判断E(p)与E(p″)的大小，若E(p)>E(p″)，则用p″代替p，否则保留p；

5.7)令k＝k+1；

5.8)若k<pop_size，返回步骤5.2)，否则转步骤6)；

6)判断是否满足终止条件，如果是，则返回步骤5)；否则转步骤7)；

7)迭代结束，输出优化后得到的构象。

进一步，所述步骤2)中，设置迭代次数generation；所述步骤6)中，终止条件为当前迭代次数等于迭代次数generation：如果当前迭代次数小于generation，否则返回步骤5)，否则转步骤7)。

本发明的技术构思为：基于量子进化算法框架，以Rosetta Score3为优化目标函数，基于氨基酸序列粗粒度表达模型，将能量计算模型转换为二面角优化空间能量模型；采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码，通过片段组装执行量子变异操作，以提高预测精度，应用量子旋转门对种群个体进行量子更新，以达到局部调整角度的目的，通过迭代的进化过程，算法将产生能量较低，结构合理的蛋白质构象。

本发明的有益效果为：采样效率和预测精度较高。

附图说明

图1是优化得到的1ENH蛋白质三维结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于量子进化算法的蛋白质构象空间优化方法，包括以下步骤：

1)给定输入序列：

2)设置参数：种群规模pop_size，迭代次数generation；

3)种群初始化：根据给定的输入序列，生成pop_size个种群个体p，组成初始种群，表示为：需满足|α_i|²+|β_i|²＝1，令α_i＝sinζ_i，β_i＝cosζ_i，其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ，当i为奇数时当i为偶数时ζ_i＝ψ_j，i,j为序号索引值，n为序列长度；4)对初始种群中的每一个个体执行初始量子观测：

4.1)令i＝1，i∈{1,2,3,…,2n}；

4.2)在[0,1]上生成一个随机数rand；

4.4)令i＝i+1；

4.5)若i<2n，返回步骤4.2)，否则转步骤4.6)；

4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p)；

5)开始迭代，对种群中的每个个体做如下操作：

5.1)令k＝1，其中k∈{1,2,…,pop_size}，k为序号；

5.2)令p_target＝p_k，p_target为目标个体；

5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′)；

5.7)令k＝k+1；

5.8)若k<pop_size，返回步骤5.2)，否则转步骤6)；

6)判断是否满足终止条件：如果是，即当前迭代次数小于generation，则返回步骤5)；否则转步骤7)；

7)迭代结束，输出优化后得到的构象。

本实施例以PDB ID为1AIL的蛋白质为实施例，一种基于量子进化算法的蛋白质构象空间优化方法包括以下步骤：

1)给定输入序列1AIL：

2)设置参数：种群规模pop_size＝30，迭代次数generation＝10000；

3)种群初始化：根据给定的输入序列，生成pop_size个种群个体p，组成初始种群，表示为：需满足|α_i|²+|β_i|²＝1，令α_i＝sinζ_i，β_i＝cosζ_i，其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ，当i为奇数时当i为偶数时ζ_i＝ψ_j，i,j为序号索引值，n为序列长度；

4)对初始种群中的每一个个体执行初始量子观测：

4.1)令i＝1，i∈{1,2,3,…,2n}；

4.2)在[0,1]上生成一个随机数rand；

4.4)令i＝i+1；

4.5)若i<2n，返回步骤4.2)，否则转步骤4.6)；

4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p)；

5)开始迭代，对种群中的每个个体做如下操作：

5.1)令k＝1，其中k∈{1,2,…,pop_size}，k为序号；

5.2)令p_target＝p_k，p_target为目标个体；

5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′)；

5.5)采用量子旋转门执行量子更新操作：p″表示经过量子更新后的个体，θ_i＝s(α_i,β_i)Δθ_i，θ_i是旋转角，s(α_i,β_i)为旋转方向，θ_i根据预先设定的查找表规则确定，查找表规则如表1所示；

表1

5.7)令k＝k+1；

5.8)若k<pop_size，返回步骤5.2)，否则转步骤6)；

7)迭代结束，输出优化后得到的构象。

以PDB ID为1AIL的蛋白质为实施例，运用以上方法得到了该蛋白质的近天然态构象解，如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于量子进化算法的蛋白质构象空间优化方法，其特征在于：所述构象空间优化方法包括以下步骤：

1)给定输入序列：

2)设置参数：种群规模pop_size；

4)对初始种群中的每一个个体执行初始量子观测：

4.1)令i＝1，i∈{1,2,3,…,2n}；

4.2)在[0,1]上生成一个随机数rand；

4.3)比较|α_i|²与rand的大小，若rand＞|α_i|²，则取ζ_i＝arcsinα_i，否则，取ζ_i＝arccosβ_i；

4.4)令i＝i+1；

4.5)若i<2n，返回步骤4.2)，否则转步骤4.6)；

4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p)；

5)开始迭代，对种群中的每个个体做如下操作：

5.1)令k＝1，其中k∈{1,2,…,pop_size}，k为序号；

5.2)令p_target＝p_k，p_target为目标个体；

5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′)；

5.7)令k＝k+1；

5.8)若k<pop_size，返回步骤5.2)，否则转步骤6)；

7)迭代结束，输出优化后得到的构象。

2.如权利要求1所述的一种基于量子进化算法的蛋白质构象空间优化方法，其特征在于：所述步骤2)中，设置迭代次数generation；所述步骤6)中，终止条件为当前迭代次数等于迭代次数generation：如果当前迭代次数小于generation，否则返回步骤5)，否则转步骤7)。