CN107085674A

CN107085674A - 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法

Info

Publication number: CN107085674A
Application number: CN201710148960.6A
Authority: CN
Inventors: 张贵军; 郝小虎; 王小奇; 周晓根; 王柳静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-08-22

Abstract

一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法，包括以下步骤：在基本萤火虫算法框架下，采用粗粒度能量模型来有效降低构象空间维数，利用萤火虫算法的群体特性来保证蛋白质构象的多样性，采用片段组装技术对构象群体进行初始化，依据蛋白质构象的粗粒度表达模型，以一组二面角表示构象在空间中的位置，采用能量排名来确定最强发光个体，选取排名前十的萤火虫个体作为模态中心，并计算他们对其余个体的吸引度来更新构象的位置，纳入吸引度最高的模态，吸引度指标根据两个萤火虫个体的空间距离和相似度计算得到，最终在构象空间中搜索得到一系列能量较低的近天然态构象。本发明提供了一种预测精度较高、复杂度较低的构象空间优化方法。

Description

一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。目前，根据Anfinsen假设，直接从氨基酸序列出发，基于势能模型，采用全局优化方法，搜索分子系统的最小能量状态，从而高通量、廉价地预测肽链的天然构象，已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说，从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素：(1)蛋白质结构能量函数；(2)构象空间搜索方法。第一个因素本质上属于分子力学问题，主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些有效的结构能量函数，如简单网格模型HP及更实际的经验力场模型MM3，AMBER，CHARMM，GROMOS，DISCOVER，ECEPP/3等；第二个因素本质上属于全局优化问题，通过选择一种合适的优化方法，对构象空间进行快速搜索，得到与某一全局最小能量对应的构象。其中，蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年，D.Baker在Science中指出，构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。

因此，现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足，需要改进。

发明内容

为了克服现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足，本发明提供一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法：在基本萤火虫算法框架下，采用粗粒度能量模型来有效降低构象空间维数，利用萤火虫算法的群体特性来保证蛋白质构象的多样性，采用片段组装技术对构象群体进行初始化，依据蛋白质构象的粗粒度表达模型，以一组二面角表示构象在空间中的位置，采用能量排名来确定最强发光个体，选取排名前十的萤火虫个体作为模态中心，并计算他们对其余个体的吸引度来更新构象的位置，纳入吸引度最高的模态，吸引度指标根据两个萤火虫个体的空间距离和相似度计算得到，最终在构象空间中搜索得到一系列能量较低的近天然态构象。

本发明解决其技术问题所采用的技术方案是：

一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)参数初始化：设置群体规模popSize、子种群数目N_sub、子群规模上限N_sup、迭代次数generation、光强吸引因子γ和位置更新步长因子α；

3)群体构象初始化：根据给定输入序列，随机生成popSize个个体，对群体中的每个个体做length次片段组装，并计算其荧光亮度I_o，其中length为序列长度，I_o＝-E(p)＝RosettaScore3(p)，E为通过RosettaScore3能量函数计算得到的蛋白质构象能量值，p表示单个构象；

4)对步骤3)中计算得到的荧光亮度从大到小排序，令荧光亮度最大的前N_sub个体为p_g ⁱ，i∈[0,N_sub]；

5)开始迭代：

5.1)划分子群：对群体中剩余的popSize-N_sub个个体，分别计算p_g ⁱ对它们的吸引度βⁱ，并将其划入吸引度最大的p_g ⁱ所在的子群中，并判断子群P_Sp_g ⁱ中个体数目N_num，若N_num＝N_sup，则不再计算p_g ⁱ对其他个体的吸引度；

5.2)对每个子群中的每个个体，根据x_k ⁱ(t+1)＝x_k ⁱ(t)+βⁱ(x_g ⁱ(t)–x_k ⁱ(t))+α(rand–0.5)更新每个个体在空间中的位置，其中x_k ⁱ(t+1)，x_k ⁱ(t)表示第i个子群中第k个个体p_k ⁱ更新后的位置和当前的位置，x_g ⁱ(t)表示个体p_g ⁱ的当前位置，其中β₀为最大吸引度因子，r_gk表示个体p_k ⁱ与p_g ⁱ之间的距离，rmsd_gk为个体p_k ⁱ与p_g ⁱ之间的相似度，rand为0到1之间的随机数，个体位置x_k ⁱ(t)表示为其中ψ_j为输入序列的氨基酸残基的二面角，j∈[1,length–L+1]，L为片段长度；

5.3)种群个体随机摆动：对群体中的每个个体进行L次随机片段组装；

5.4)重新计算每个个体的荧光亮度，更新p_g ⁱ；

6)判断是否达到最大迭代次数generation；

6.1)若当前迭代次数小于generation，返回步骤5.1)；

6.2)若当前迭代次数等于generation，结束。

本发明的技术构思为：在基本萤火虫算法框架下，采用粗粒度能量模型来有效降低构象空间维数，利用萤火虫算法的群体特性来保证蛋白质构象的多样性，采用片段组装技术对构象群体进行初始化，依据蛋白质构象的粗粒度表达模型，以一组二面角表示构象在空间中的位置，采用能量排名来确定最强发光个体，选取排名前十的萤火虫个体作为模态中心，并计算他们对其余个体的吸引度来更新构象的位置，纳入吸引度最高的模态，吸引度根据两个萤火虫个体的空间距离和相似度计算得到，最终在构象空间中搜索得到一系列能量较低的近天然态构象。

本发明的有益效果为：本发明在蛋白质结构预测中应用，可以得到预测精度较高、复杂度较低的构象。

附图说明

图1是预测得到的蛋白质2MRF的三维结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法，所述构象空间优化方法包括以下步骤：

1)给定输入序列信息；

5)开始迭代：

5.5)划分子群：对群体中剩余的popSize-N_sub个个体，分别计算p_g ⁱ对它们的吸引度βⁱ，并将其划入吸引度最大的p_g ⁱ所在的子群中，并判断子群P_Sp_g ⁱ中个体数目N_num，若N_num＝N_sup，则不再计算p_g ⁱ对其他个体的吸引度；

5.6)对每个子群中的每个个体，根据x_k ⁱ(t+1)＝x_k ⁱ(t)+βⁱ(x_g ⁱ(t)–x_k ⁱ(t))+α(rand–0.5)更新每个个体在空间中的位置，其中x_k ⁱ(t+1)，x_k ⁱ(t)表示第i个子群中第k个个体p_k ⁱ更新后的位置和当前的位置，x_g ⁱ(t)表示个体p_g ⁱ的当前位置，其中β₀为最大吸引度因子，r_gk表示个体p_k ⁱ与p_g ⁱ之间的距离，rmsd_gk为个体p_k ⁱ与p_g ⁱ之间的相似度，rand为0到1之间的随机数，个体位置x_k ⁱ(t)表示为其中ψ_j为输入序列的氨基酸残基的二面角，j∈[1,length–L+1]，L为片段长度；

5.7)种群个体随机摆动：对群体中的每个个体进行L次随机片段组装；

5.8)重新计算每个个体的荧光亮度，更新p_g ⁱ；

6)判断是否达到最大迭代次数generation；

6.3)若当前迭代次数小于generation，返回步骤5.1)；

6.4)若当前迭代次数等于generation，结束。

本实施例以蛋白质2MRF为实施例，一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法，包含以下步骤：

1)给定输入序列信息；

2)参数初始化：设置群体规模popSize＝300、子种群数目N_sub＝10、子群规模上限N_sup＝60、迭代次数generation＝100000、光强吸引因子γ＝0.5和位置更新步长因子α＝0.5；

5)开始迭代：

5.9)划分子群：对群体中剩余的popSize-N_sub个个体，分别计算p_g ⁱ对它们的吸引度βⁱ，并将其划入吸引度最大的p_g ⁱ所在的子群中，并判断子群P_Sp_g ⁱ中个体数目N_num，若N_num＝N_sup，则不再计算p_g ⁱ对其他个体的吸引度；

5.10)对每个子群中的每个个体，根据x_k ⁱ(t+1)＝x_k ⁱ(t)+βⁱ(x_g ⁱ(t)–x_k ⁱ(t))+α(rand–0.5)更新每个个体在空间中的位置，其中x_k ⁱ(t+1)，x_k ⁱ(t)表示第i个子群中第k个个体p_k ⁱ更新后的位置和当前的位置，x_g ⁱ(t)表示个体p_g ⁱ的当前位置，其中β₀为最大吸引度因子，r_gk表示个体p_k ⁱ与p_g ⁱ之间的距离，rmsd_gk为个体p_k ⁱ与p_g ⁱ之间的相似度，rand为0到1之间的随机数，个体位置x_k ⁱ(t)表示为其中ψ_j为输入序列的氨基酸残基的二面角，j∈[1,length–L+1]，L为片段长度；

5.11)种群个体随机摆动：对群体中的每个个体进行L次随机片段组装；

5.12)重新计算每个个体的荧光亮度，更新p_g ⁱ；

6)判断是否达到最大迭代次数generation；

6.5)若当前迭代次数小于generation，返回步骤5.1)；

6.6)若当前迭代次数等于generation，结束。

以蛋白质2MRF为实施例，运用以上方法得到了该蛋白质的最优构象解，如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法，其特征在于：所述构象空间优化方法包括以下步骤：

1)给定输入序列信息；

5)开始迭代：

5.2)对每个子群中的每个个体，根据x_k ⁱ(t+1)＝x_k ⁱ(t)+βⁱ(x_g ⁱ(t)–x_k ⁱ(t))+α(rand–0.5)更新每个个体在空间中的位置，其中x_k ⁱ(t+1)，x_k ⁱ(t)表示第i个子群中第k个个体p_k ⁱ更新后的位置和当前的位置，x_g ⁱ(t)表示个体p_g ⁱ的当前位置，其中β₀为最大吸引度因子，r_gk表示个体p_k ⁱ与p_g ⁱ之间的距离，rmsd_gk为个体p_k ⁱ与p_g ⁱ之间的相似度，rand为0到1之间的随机数，个体位置x_k ⁱ(t)表示为其中为输入序列的氨基酸残基的二面角，j∈[1,length–L+1]，L为片段长度；

5.4)重新计算每个个体的荧光亮度，更新p_g ⁱ；

6)判断是否达到最大迭代次数generation；

6.1)若当前迭代次数小于generation，返回步骤5.1)；

6.2)若当前迭代次数等于generation，结束。