CN105184112A

CN105184112A - 基于改进小生境遗传算法的蛋白质结构预测方法

Info

Publication number: CN105184112A
Application number: CN201510712240.9A
Authority: CN
Inventors: 周昌军; 魏雪; 王宾; 张强
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2015-12-23

Abstract

本发明涉及蛋白质结构预测领域，设计了一种基于改进小生境遗传算法的蛋白质结构预测方法。该方法将小生境遗传算法引入蛋白质结构预测中，并对遗传算法过程中的选择、变异进行了一定的改进。从实验得出的数据和与其他方法的比较结果来看，该方法可以更加全面的搜索出相应的蛋白质最小自由能量值，从而能得到更稳定的蛋白质结构；该方法的运行时间也大为缩短，说明了本方法具有良好的时间效率。

Description

基于改进小生境遗传算法的蛋白质结构预测方法

技术领域

本发明涉及小生境遗传算法，具体讲的是通过小生境遗传算法搜索到最小的蛋白质自由能量值，并改进了搜索过程中的选择算子和变异算子的蛋白质结构预测方法。

背景技术

随着生命科学的发展和人类基因组的顺利完成，生命科学已经进入后基因时代，在此基础上生物信息学也应运而生。蛋白质是所有生命活动的体现者，是生物体不可缺少的重要物质。蛋白质的空间结构决定了主要功能，所以蛋白质结构预测是研究蛋白质的最重要的任务之一，对揭示生命秘密也有着重要的意义。

蛋白质结构预测的研究问题又被称为蛋白质折叠问题，是一种典型的NP问题。目前对蛋白质结构预测的测定技术主要有：X射线晶体衍射技术和核磁共振技术。虽然当前的测定技术有了较为显著的进展，实验测定结果也较为有效，但是这些实验方法的测定过程非常复杂，成本代价也很高，对设备的要求也非常严格。所以，出现了许多用计算机对蛋白质结构预测进行仿真的实验方法，并且取得了很好的成果。目前用计算机进行研究蛋白质结构预测的算法很多，并仍处于不断递增的趋势，例如：遗传算法、粒子群算法、蚁群算法、蜂群算法、禁忌算法、模拟退火算法、免疫算法等智能算法或是多种算法的混合算法。前人提出了多种研究蛋白质结构预测的适用模型，其中应用最广泛的是按照氨基酸的亲疏水性分为疏水氨基酸和亲水氨基酸的两种简化模型：HP格点模型和AB非格点模型。两种模型最主要的区别在于，HP格点模型中两个残基键之间的角度是直角或者平角，而AB非格点模型中两个键之间的角度是任意的并且被记作两平面的折叠角和同一平面的扭转角，同时AB非格点模型不仅考虑了相邻两个氨基酸间的相互作用还考虑了不相邻氨基酸之间的非局部作用对蛋白质结构的影响。因此，AB非格点模型比HP格点模型更接近真实的蛋白质结构。

目前，大多数蛋白质结构预测的研究是用三维AB非格点模型进行计算机仿真的。Cheng等提出一种基于AB非格点模型的改进禁忌搜索算法，它适用于短的蛋白质结构序列。Zheng等采用遗传、禁忌算法的混合算法，并采取了许多改进策略，如：排队选择、交叉操作、变异操作、变种群策略等等。Hou等提出改进的遗传、粒子群混合算法和改进的遗传、粒子群、禁忌混合算法两种解决方法，结合了遗传算法、粒子群算法和禁忌算法的优点，提高全局最优搜索，提高结果的搜索精度。Li等采用平衡进化人工蜂群算法来解决蛋白质结构预测问题，并且获得了好的结果。

本文也采用AB非格点模型，并提出使用改进的小生境遗传算法来解决蛋白质结构预测问题。对小生境遗传算法进行了一些改进：采用竞技选择和随机线性变异算子。改进的小生境遗传算法继承了小生境遗传算法的优点，保护了解的多样性，避免了大量重复的解；也弥补了小生境遗传算法的不足，改善了进化停滞，并且避免了陷入局部最优。

发明内容

鉴于现有技术存在的问题，本发明提出一种基于改进小生境遗传算法的蛋白质结构预测方法，将小生境遗传算法用于蛋白质结构预测中，搜索出更小的自由能值和对应的更稳定的结构，并有效提高了搜索的效率，缩短了搜索时间。

为达到上述目的，本发明的技术方案为基于改进小生境遗传算法的蛋白质结构预测方法，其首先初始化参数及种群，进行迭代循环，计算种群适应度值，对种群进行竞技选择、双点交叉、随机线性变异，更新种群，对新种群进行小生境淘汰选择，生成下一代新种群，这样不断迭代，当满足终止条件时，退出循环，输出结果。其具体步骤如下：

步骤1：初始化种群X＝x₁,x₂,…,x_n,其中n为种群大小。

步骤2：计算种群X中个体的适应度F_i，其中i＝1,2,…,n。根据适应度值的大小进行升序排序，并记忆保留前n/2个个体记作种群P。

步骤3：设置代数计数器t＝1。

步骤4：对种群X进行竞技选择，形成新种群X1。

步骤5：对种群X1进行双点交叉，形成新种群X2。

步骤6：对种群X2进行随机线性变异，得到新种群X3，并计算其适应度值。

步骤7：将种群X3和记忆种群P合并为新种群XP(个体数为3n/2)进行小生境淘汰，分别对XP中的两两个体进行计算欧式距离：

d_{i j} = | | x_{i} - x_{j} | | = \sqrt{Σ_{k = 1}^{M} {(x_{i k} - x_{j k})}^{2}}, i = 1, 2, ..., 300; j = i + 1, ..., 300

当d_ij<L时，其中L为小生境的距离参数，是经验值，是根据具体情况而定的，判断x_i和x_j的适应度F_i和F_j的大小并将适应度差的处以罚函数，然后根据当前变更的适应度值将种群XP升序排列。

步骤8：更新种群，取种群XP的前n个个体作为下一代新种群X，并计算更新其适应度值，取种群XP的前n/2个个体作为新的记忆种群P。

步骤9：迭代计数器累加t＝t+1，判断终止条件，若t<＝M(M为迭代次数)则继续迭代跳到步骤4)运行，若t>M则迭代结束，运行步骤10)

步骤10：输出最佳结果，程序结束。

所述的竞技选择个数为20，即从X中随机选择20个个体，选取适应度值好的保留到新种群X1中，这样进行n次选择后形成新种群X1；所述的双点交叉，是指当交叉个体x的交叉概率小于0.88时，随机确定交叉点对X1中的两个个体(如：第i个个体和第n-i个个体)进行交叉，这样进行n/2次交叉后形成新种群X2；所述随机线性变异，是当变异个体x的变异概率小于0.021时，对x随机选取一个位置i用线性变异公式：

x'_i＝x_i+f(r)×2π×r^1-α×fit(h)

f (r) = \{\begin{matrix} 1, & r &GreaterEqual; 0.5 \\ - 1, & r < 0.5 \end{matrix}

f i t (h) = \frac{n - i + 1}{n + 1}

进行变异，整个种群X2运行完后就得到新种群X3，并计算其适应度值。

其他说明：

本发明的有益效果是：

(1)将小生境遗传算法的基本思想引入到蛋白质结构预测中，通过小生境淘汰算子对种群进一步进行选择淘汰其中相近的个体，增加了种群的多样性，避免了大量重复解的出现，增加种群的多样性,有利于全局最优的搜索。

(2)对基本小生境遗传算法的选择和变异算子做了一些改进，采用竞技选择和随机线性变异进行改进，改进后的小生境遗传算法更易跳出局部最优，更好地提高了全局搜索能力，并缩短了收敛速度和运行时间，从而能更准确地搜索到最优值,提高了搜索结果的准确性。

附图说明

图1三维坐标的定义；

图2能量公式；

图3随机线性变异公式；

图4欧式距离公式；

图5程序流程图；

图6斐波那契序列；

图7真实蛋白质序列；

图8本发明与其他方法对斐波那契序列的实验结果比较；

图9本发明与其他方法对真实蛋白质序列的实验结果比较。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。因为蛋白质序列的种类很多，我们以长度为5的蛋白质序列即斐波那契序列为例，具体序列见图6中长度为5的序列。

步骤1：首先将蛋白质序列抽象为数字序列，以便计算机运算。其中H表示疏水氨基酸，P表示亲水氨基酸，在程序中疏水氨基酸对应的值为1，亲水氨基酸对应的值为-1(真实蛋白质也同样的规则，只是氨基酸的表示字母不同)。即长度为5的序列表示为[1-1-11-1]。

步骤2：根据蛋白质序列的长度确定种群个体的维度，当序列为n时，种群个体的维度应为2n-5(实为氨基酸的键角和扭转角之和)。所以，在实例序列长度为5的情况下，种群个体的维度为2*5-5＝5。这样就可以初始化种群X＝x₁,x₂,…,x_m,其中m为种群大小，且每个元素都表示角度即[-π，π]范围中的随机数。

步骤3：根据图1中的定义将每个个体中的角度转换为氨基酸的三维坐标，并由图2中的公式计算自由能量值作为适应度值F_i(i＝1,2,…,m)。根据F_i的大小进行升序排序，并记忆保留前m/2个个体记作种群P。设置代数计数器t＝1，进行迭代循环。

步骤4：对种群X进行竞技选择形成新种群X1。

步骤5：对种群X1进行双点交叉形成新种群X2。

步骤6：对种群X2进行随机线性变异，用图3中的线性变异公式进行变异，得到新种群X3，并计算其适应度值。

步骤7：将种群X3和记忆种群P合并为新种群XP进行小生境淘汰选择，用图4的欧式公式计算欧式距离d_ij，然后判断d_ij和L＝3(L为小生境的距离参数，为经验值，且不同蛋白质序列对应的L不同)的大小关系，当d_ij<L时，判断x_i和x_j的适应度F_i和F_j的大小并将适应度差的处以罚函数(Penalty＝10¹⁵)，使之差的适应度更大以便淘汰，最后根据当前变更的适应度值将种群XP升序排列。

步骤8：更新种群，记忆种群XP的前m/2个个体作为新的记忆种群P，种群XP的前m个个体为下一代新种群X，并计算新种群的适应度值。

步骤9：迭代计数器累加t＝t+1，若满足终止条件，则输出最佳结果程序结束；若不满足则运行步骤4。

根据以上所示的步骤，我们对斐波那契序列(见图6)和真实蛋白质序列(见图7)进行相关操作，对所获得的数据与其他方法进行了比较(见图8和图9)。

综上所述，我们通过改进的小生境遗传算法来解决蛋白质结构预测方法，可以减少大量冗余解的存在从而增加种群的多样性，也可以避免过早收敛现象和停滞现象的产生从而增强局部搜索能力，还可以大大缩短搜索的时间。由此说明我们的方法是有效可行的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.基于改进小生境遗传算法的蛋白质结构预测方法，其特征在于：首先初始化参数及种群，进行迭代循环，计算种群适应度值，对种群进行竞技选择、双点交叉、随机线性变异,对新种群进行小生境淘汰选择，更新种群，生成下一代新种群，这样不断迭代，当满足终止条件时，退出循环，输出结果。

2.根据权利要求1所述的基于改进小生境遗传算法的蛋白质结构预测方法，其特征在于具体步骤如下：

步骤1：初始化种群X＝x₁,x₂,…,x_n,其中n为种群大小；

步骤2：计算种群X中个体的适应度F_i，其中i＝1,2,…,n；根据适应度值的大小进行升序排序，并记忆保留前n/2个个体记作种群P；

步骤3：设置代数计数器t＝1；

步骤4：对种群X进行竞技选择，形成新种群X1；

步骤5：对种群X1进行双点交叉，形成新种群X2；

步骤6：对种群X2进行随机线性变异，得到新种群X3，并计算其适应度值；

步骤7：将种群X3和记忆种群P合并为新种群XP进行小生境淘汰，分别对XP中的两两个体进行计算欧式距离：

d_{i j} = | | x_{i} - x_{j} | | = \sqrt{Σ_{k = 1}^{M} {(x_{i k} - x_{j k})}^{2}}, i = 1, 2, ..., 300; j = i + 1, ..., 300

当d_ij<L时，其中L为小生境的距离参数，判断x_i和x_j的适应度F_i和F_j的大小并将适应度差的处以罚函数，然后根据当前变更的适应度值将种群XP升序排列；

步骤8：更新种群，取种群XP中前n个个体作为下一代新种群X，并计算更新其适应度值，取种群XP的前n/2个个体作为新的记忆种群P；

步骤9：迭代计数器累加t＝t+1，判断终止条件，若t<＝M，其中M为迭代次数，则继续迭代跳到步骤4运行；若t>M则迭代结束，运行步骤10；

步骤10：输出最佳结果，程序结束。

3.根据权利要求2所述的基于改进小生境遗传算法的蛋白质结构预测方法，其特征在于：所述的竞技选择个数为20，即从X中随机选择20个个体，选取适应度值好的保留到新种群X1中，这样进行n次选择后形成新种群X1；所述的双点交叉，是指当交叉个体x的交叉概率小于0.88时，随机确定交叉点对X1中的两个个体进行交叉，这样进行n/2次交叉后形成新种群X2；所述随机线性变异，是当变异个体x的变异概率小于0.021时，对x随机选取一个位置i用线性变异公式进行变异，整个种群X2运行完后就得到新种群X3，并计算其适应度值；

x'_i＝x_i+f(r)×2π×r^1-α×fit(h)

其中，r是0到1之间的随机数，α也是0到1之间的随机数，表示算法的搜索进度；f(r)是相关系数，fit(h)表示个体h在种群中的相对适应度，个体按照能量值由低到高排序，i表示个体h在种群中的排列位置；f(r)和fit(h)的定义公式如下：

f (r) = \{\begin{matrix} 1, & r & &GreaterEqual; & 0.5 \\ - 1, & r & < & 0.5 \end{matrix}

f i t (h) = \frac{n - i + 1}{n + 1} .