CN105825075B - 基于nga-ts算法的蛋白质结构预测方法 - Google Patents

基于nga-ts算法的蛋白质结构预测方法 Download PDF

Info

Publication number
CN105825075B
CN105825075B CN201610144174.4A CN201610144174A CN105825075B CN 105825075 B CN105825075 B CN 105825075B CN 201610144174 A CN201610144174 A CN 201610144174A CN 105825075 B CN105825075 B CN 105825075B
Authority
CN
China
Prior art keywords
population
individual
random number
fitness
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610144174.4A
Other languages
English (en)
Other versions
CN105825075A (zh
Inventor
周昌军
魏雪
郑学东
王宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201610144174.4A priority Critical patent/CN105825075B/zh
Publication of CN105825075A publication Critical patent/CN105825075A/zh
Application granted granted Critical
Publication of CN105825075B publication Critical patent/CN105825075B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及蛋白质结构预测领域,涉及了一种基于小生境遗传和算法禁忌搜索算法的结合算法的蛋白质结构预测方法。该方法将禁忌搜索算法引入小生境遗传算法中来解决蛋白质结构预测问题,并对小生境遗传算法过程中的交叉、变异、小生境淘汰进行了一定的改进。从实验得出的数据和与其他方法的比较结果来看,该方法可以更加全面的搜索出相应的蛋白质最小自由能量值,从而能得到更稳定的蛋白质结构,说明了本方法在解决蛋白质结构预测问题上是有效的。

Description

基于NGA-TS算法的蛋白质结构预测方法
技术领域
本发明涉及小生境遗传算法和禁忌算法,具体讲的是通过小生境遗传算法和禁忌算法搜索到最小的蛋白质自由能量值,并改进了搜索过程中的交叉算子、变异算子和小生境淘汰算子。
背景技术
在生物信息学领域中,蛋白质工程一直是一门重要的研究课题。蛋白质作为人体生命活动的基本体现者,是人体不可或缺的物质,可是生物体内存在的天然蛋白质,有的往往不尽人意,需要加以改造。蛋白质工程是按人们的意志改变蛋白质的结构和功能来改造或创建新的蛋白质的过程。由于蛋白质是由许多氨基酸按一定顺序结构组合而成的,每一种蛋白质都有独特的氨基酸序列,蛋白质中氨基酸序列的结构也决定了蛋白质的功能和性质。所以,改变蛋白质中的氨基酸序列结构就能改变蛋白质的性质,蛋白质结构预测问题是蛋白质工程中重要的研究问题之一。
蛋白质结构预测问题又被称为蛋白质折叠问题。在医学上,有许多因蛋白质折叠错误、结构发生改变而引起的疾病,例如:疯牛病(bovine spongiform encephalopathy,BSE)、新型克雅病(CJD)、构象病(由朊蛋白又名蛋白质传染因子引起的疾病)、肌萎缩性侧索硬化症、家族性淀粉样心肌病、阿尔茨海默病(ADI)等。因此,研究蛋白质结构预测对这些疾病机制的研究和治疗药物的研究都有重大的实践意义。
蛋白质结构预测问题也是对蛋白质结构中的氨基酸的空间折叠的预测,以达到蛋白质的最低能量和最稳定结构(能量越低,蛋白质结构越稳定)。通常对蛋白质结构的预测问题的解决一般采用更为方便有效的模拟仿真技术,首先要将根据问题建立合适的数学模型和物理模型,其次是找到合适的寻优算法。
前人提出了多种研究蛋白质结构预测的适用模型,其中应用最广泛的是按照氨基酸的亲疏水性分为疏水氨基酸和亲水氨基酸的两种简化模型:HP格点模型和AB非格点模型。两种模型最主要的区别在于,HP格点模型中两个残基键之间的角度是直角或者平角,而AB非格点模型中两个键之间的角度是任意的并且被记作两平面的折叠角和同一平面的扭转角,同时AB非格点模型不仅考虑了相邻两个氨基酸间的相互作用还考虑了不相邻氨基酸之间的非局部作用对蛋白质结构的影响。因此,AB非格点模型比HP格点模型更接近真实的蛋白质结构。目前,采用AB非格点模型的研究人员较多,而且大部分研究人员都在寻找更好的寻优算法,以提高研究的精确度。
当前,国内外很多研究者对蛋白质结构预测问题的研究提出了许多算法,例如:遗传算法、粒子群算法、蚁群算法、蜂群算法、禁忌算法、模拟退火算法、免疫算法等智能算法或是多种算法的混合算法。Cheng等提出一种基于AB非格点模型的改进禁忌搜索算法,它适用于短的蛋白质结构序列。Zheng等采用遗传、禁忌算法的混合算法,并采取了许多改进策略,如:排队选择、交叉操作、变异操作、变种群策略等等。Hou等提出改进的遗传、粒子群混合算法和改进的遗传、粒子群、禁忌混合算法两种解决方法,结合了遗传算法、粒子群算法和禁忌算法的优点,提高全局最优搜索,提高结果的搜索精度。Li等采用平衡进化人工蜂群算法来解决蛋白质结构预测问题,并且获得了好的结果。但是,对蛋白质结构预测方法进行改进,有效提高了搜索的效率,提高精确度仍是十分必要的。
发明内容
本发明的目的在于提出一种基于NGA-TS算法的蛋白质结构预测方法,将小生境遗传算法和禁忌搜索算法用于蛋白质结构预测中,搜索出更小的自由能值和对应的更稳定的结构,并有效提高了搜索的效率,提高精确度。其基本思想是先对种群进行竞技选择、自适应交叉、自适应变异后,再根据种群个体之间的欧氏距离进行小生境淘汰,淘汰掉较为相似的个体,从而增加种群个体的多样性,最后用禁忌搜索算法进行全局性领域搜索找到全局最优解。
为达到上述目的,本发明的技术方案为:首先进行种群初始化,并对种群进行选择、交叉、变异操作,然后再对种群进行小生境淘汰选择操作,在进化后期对种群进行全局性的禁忌搜索这样就可以搜索出最小自由能的蛋白质结构。在搜索稳定蛋白质结构的过程中,对使用的交叉操作、变异操作和小生境淘汰操作进行一些的改进:交叉操作采用自适应交叉算子,避免过早收敛现象和停滞现象的产生;变异操作采用自适应的随机线性变异算子,可以增强局部搜索能力,加快收敛速度;小生境淘汰操作也采用动态函数求得距离参数,使参数更灵活精确,使小生境淘汰更有效。基于NGA-TS算法的蛋白质结构预测方法,其特征在于:其包括以下步骤:
步骤1:初始化参数及种群;
步骤2:进行迭代循环,计算种群适应度;
步骤3:对种群进行竞技选择、自适应交叉、自适应随机线性变异,更新种群;
步骤4:对新种群进行小生境淘汰选择,更新种群;
步骤5:在进化后期,对新种群进行禁忌搜索算法,更新种群;
步骤6:判断是否满足终止条件,若满足则退出循环,继续运行步骤7,否则跳到步骤3;
步骤7:结束循环后,对最优值再进行一次禁忌搜索,最后输出结果。
该方法具体步骤如下:
1)初始化种群X=x1,x2,…,xn,其中n为种群大小;
2)计算种群X中个体的适应度值Fi,其中i=1,2,…,n;根据适应度值的大小进行升序排序,并记忆保留前n/2个个体记作记忆种群P;
3)设置代数计数器t=1;
4)先将种群X中的前k个适应度值小的个体复制到新种群X1中,再将X1中的n-k个个体通过对种群X进行竞技选择选出,其中竞技选择的个数为y,即从X中随机选择y个个体,选取适应度值好的保留到新种群X1中,这样进行n-k次选择,形成种群X1;
5)对种群X1进行自适应交叉:在进化初期,交叉概率Pc0等于0.8;在进化后期,即其中T为迭代次数,交叉概率Pc用自适应公式:
Pc=Pc0×(1-i/n)1/2
其中i为交叉个体在种群中的下标索引确定,Pc0等于0.8,判断随机数a(a为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成的随机数)与交叉概率的大小:当a小于交叉概率时,随机确定交叉点对X1中的个体xi和个体xn-i+1进行交叉;当a大于交叉概率时,不进行交叉。这样进行n/2次交叉后形成种群X2;
6)对种群X2进行自适应随机线性变异:在进化初期,即其中T为迭代次数,变异概率Pm用自适应公式:
其中i为变异个体在种群中的下标索引确定,在进化后期变异概率Pm0等于0.08,判断随机数b(b为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成的随机数)与变异概率的大小:当b大于变异概率时,不进行变异;当b小于变异概率时,对X1中的个体xi随机选取一个位置i用线性变异公式:
x′i=xi+f(r)×2π×r1-α×(1-fit(h))
进行变异,其中ran为(0,1)区间内的随机数,当ran<0.5时f(ran)=-1,当ran>0.5时f(ran)=1;r和α都是(0,1)区间内的随机数;i为下标索引;
整个种群X2运行完变异后就得到种群X3,并计算种群X3适应度;
7)将种群X3和记忆种群P合并为种群XP,种群XP的个体数为3n/2,对种群XP进行小生境淘汰;分别对XP中的两两个体进行计算欧式距离:
当dij<L时,其中L为小生境的距离参数,小生境的距离参数是由动态函数公式得到的,判断xi和xj的适应度Fi和Fj的大小并将适应度差的处以罚函数,然后根据当前变更的适应度将种群XP中的个体升序排列;
8)取种群XP的前n个个体作为种群X,计算更新种群X的适应度值并根据适应度值大小进行升序排列,取种群X的前n/2个个体作为新的记忆种群P;
9)判断是否禁忌搜索:若t<T-5,则运行步骤10);否则对种群X进行禁忌搜索;具体步骤如下:
a)初始化禁忌表,设置禁忌迭代计数器tscount=1;
b)对当前候选解进行随机线性变异操作,线性变异公式:
x=x+f(ran)×2π×ri-1
其中ran和f和步骤6)中定义相同,i为邻域的下标索引,范围为(1,100)的区间形成一组邻域解,并按照适应度值排序;
c)判断邻域解中的最小值是否比最优解更小,若是则满足藐视准则,若否则不满足藐视准则;
若满足则更新候选解、禁忌表和最优解,即将邻域中最小值赋值给候选解和最优解,并将邻域中最小值放入禁忌表中;
若不满足则判断邻域解中最小的10个解是否在禁忌表中,若不在则更新禁忌表,即将其放入禁忌表中;
d)禁忌迭代计数器tscount=tscount+1,判断终止条件,若tscount<=Tt,其中Tt为禁忌搜索的迭代次数,则跳到步骤b)继续运行,若tscount>Tt,则终止迭代,返回主函数中运行,并返回最优解。
10)判断禁忌搜索算法得到的适应度值是否小于步骤8)中X种群的适应度值,若是则将X中原先的个体序列和适应度值替换掉,否则不做改变;这样形成新种群X,取X种群的前n/2个个体作为新的记忆种群P;
11)迭代计数器累加t=t+1,判断终止条件,若t<=T,其中T为迭代次数,则继续迭代跳到步骤4)运行,若t>T则迭代结束,运行步骤12);
12)将得到的最优值进行禁忌搜索,其具体步骤同步骤9),返回其邻域中的最优值作为最后的最佳结果;
13)输出最佳结果,程序结束。
优选地,上述具体步骤中步骤4)为先将种群X中的前50个适应度值小的个体复制到新种群X1中,再将X1中的n-50个个体通过对种群X进行竞技选择选出,其中竞技选择的个数为20,即从X中随机选择20个个体,选取适应度值好的保留到新种群X1中,这样进行n-50次选择,形成种群X1。
其他说明:
适应度大小是能量函数值E,能量函数值E的计算公式为:
求解适应度时需要用到将每个个体的角度值转换为三维空间坐标的公式如下:
本发明与现有技术相比具有以下优点:
(1)将小生境遗传算法和禁忌搜索算法同时引入蛋白质结构预测中,通过小生境淘汰算子对种群进一步进行选择淘汰其中相近的个体,增加了种群的多样性,避免了大量重复解的出现,并且通过禁忌搜索算法来避免陷入局部最优,实现全局化的搜索,保证了全局搜索,加快收敛,提高了程序的准确性。
(2)对普通的小生境遗传算法和禁忌搜索算法做了一些改进,采用自适应交叉、自适应随机线性变异、采用动态函数确定距离参数L、加入随机线性变异的禁忌搜索算法等改进策略,改进后的NGA-TS算法更易跳出局部最优,更好地提高了全局搜索能力,从而能更准确地搜索到最优值,提高了搜索结果的准确性。
本发明采用小生境遗传算法和禁忌算法混合的NGA-TS算法来解决蛋白质结构预测问题。小生境遗传算法是一种在遗传算法的基础上添加了小生境淘汰机制的算法。小生境算法的思想是生物进化过程中总是与自己相同的物种生活在一起的现象,反应到遗传算法中就是使遗传算法中的个体趋向于在一个特定的生存环境中进化。遗传算法中加入小生境淘汰机制可以保护种群的多样性,避免重复解的出现,但是也容易产生后期进化的停滞和陷入局部最优。所以,为了改进小生境遗传算法的缺陷,我们在进化后期引入了禁忌算法。禁忌算法是一种亚启发式随机搜索算法,其思想最早由Fred Glover提出,是一种全局逐步寻优算法,也是对人类智力过程的一种模拟。在NGA-TS算法运行后期,禁忌算法更好的保证多样化的有效搜索,以实现全局搜索优化。本文还通过对斐波那契序列和真实蛋白质序列的模拟实验,得到了一些较好的结果,并和其他算法结果的进行比较,更充分有力的说明了NGA-TS算法在解决蛋白质结构预测问题上是有效的。
附图说明
图1为整体程序流程图;
图2为禁忌算法流程图;
图3为斐波那契序列;
图4为真实蛋白质序列;
图5为本发明与其他方法对斐波那契序列的实验结果比较;
图6为本发明与其他方法对真实蛋白质序列的实验结果比较;
图7为本发明与其他方法对真实蛋白质序列的实验结果比较。
具体实施方式
下面结合附图对本发明作进一步说明.
结合图5的整体程序流程图,下面进行详细步骤介绍:
步骤1:初始化参数及种群。
步骤2:进行迭代循环,计算种群适应度值。
步骤3:对种群进行竞技选择、自适应交叉、自适应随机线性变异,更新种群。
步骤4:对新种群进行小生境淘汰选择,更新种群。
步骤5:在进化后期,对新种群进行禁忌搜索算法(如图6禁忌搜索流程),更新种群。
步骤6:判断是否满足终止条件,若满足则退出循环,继续运行步骤7,否则跳到步骤3。
步骤7:结束循环后,对最优值再进行一次禁忌搜索,最后输出结果。
实施例1
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。因为蛋白质序列的种类很多,我们以长度为5的蛋白质序列即斐波那契序列为例,具体序列见图3中长度为5的序列。
步骤1:首先将蛋白质序列抽象为数字序列,以便计算机运算。其中A表示疏水氨基酸,B表示亲水氨基酸,在程序中疏水氨基酸对应的值为1,亲水氨基酸对应的值为-1(真实蛋白质也是同样的规则,只是氨基酸的表示字母不同)。即长度为5的序列表示为[1 -1 -11 -1]。
步骤2:根据蛋白质序列的长度确定种群个体的维度,当序列为n时,其中n表示序列长度,种群个体的维度应为2n-5(实为氨基酸的键角和扭转角之和)。所以,在实例序列长度为5的情况下,种群个体的维度为2*5-5=5。这样就可以初始化种群X=x1,x2,…,xm,其中m为种群大小,且每个元素都表示角度即[-π,π]范围中的随机数。
步骤3:根据三维空间坐标的公式将每个个体中的角度转换为氨基酸的三维坐标,求解适应度时需要用到将每个个体的角度值转换为三维空间坐标的公式如下:
并由能量函数值E的计算公式计算自由能量值作为适应度值Fi(i=1,2,…,m)。能量函数值E的计算公式为:
根据Fi的大小进行升序排序,并记忆保留前m/2个个体记作种群P。设置代数计数器t=1,进行迭代循环。
步骤4:对种群X进行竞技选择形成新种群X1。
步骤5:对种群X1进行自适应交叉形成新种群X2。在进化初期(其中T为迭代次数),交叉概率Pc0=0.8;在进化后期交叉概率用自适应公式(Pc=Pc0×(1-i/m)1/2,其中i为交叉个体在种群中的下标索引,m为种群大小)确定。判断随机数a(a为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成的随机数)与交叉概率的大小:当a小于交叉概率时,随机确定交叉点对X1中的个体xi和个体xm-i+1进行交叉;当a大于交叉概率时,不进行交叉。这样进行m次交叉后形成新种群X2。
步骤6:对种群X2进行自适应的随机线性变异。在进化初期变异概率用自适应公式确定;在进化后期,变异概率Pm0=0.08。判断随机数b(b为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成的随机数)与变异概率的大小:当b小于变异概率时,对x随机选取一个位置i用线性变异公式进行变异;线性变异公式为:
x′i=xi+f(r)×2π×r1-α×(1-fit(h))
当b大于变异概率时,不进行变异。经过变异操作后得到新种群X3,并计算其适应度值。
步骤7:将种群X3和记忆种群P合并为新种群XP(个体数为3m/2)进行小生境淘汰选择,用欧式公式计算欧式距离dij,欧式公式为:
当dij<L(L为小生境的距离参数,由动态函数公式得到)时,判断xi和xj的适应度Fi和Fj的大小并将适应度差的处以(加上)罚函数(Penalty=1015),使之差的适应度更大以便淘汰,最后根据当前变更的适应度值将种群XP升序排列。
步骤8:更新种群。取XP种群的前m个个体作为新种群X,计算更新其适应度值并进行升序排列,取X种群的前m/2个个体作为新的记忆种群P。
步骤9:判断是否禁忌搜索。若t<T-5,则运行步骤10;否则对种群X进行禁忌搜索。具体步骤如下:
a)初始化禁忌表,设置禁忌迭代计数器tscount=1;
b)对当前候选解进行随机线性变异操作,用线性变异公式进行变异,线性变异公式为:
x′i=xi+f(r)×2π×r1-α×(1-fit(h))
形成一组邻域解,并按照适应度值排序;
c)判断是否满足藐视准则(邻域解中的最小值是否比最优解更小,若是则满足,若否则不满足),若满足则更新候选解、禁忌表和最优解(将邻域中最小值赋值给候选解和最优解,并将邻域中最小值放入禁忌表中),若不满足则判断邻域解中最小的10个解是否在禁忌表中,若不在则更新禁忌表(将其放入禁忌表中);
d)禁忌迭代计数器tscount=tscount+1,判断终止条件,若tscount<=Tt(Tt为禁忌搜索的迭代次数)则跳到步骤b)继续运行,若tscount>Tt则终止迭代,返回主函数中运行,并返回最优解。
步骤10:判断禁忌搜索算法得到的适应度值是否小于X种群中原先对应的值,若是则将X中原先的个体序列和适应度值替换掉,否则不做改变。这样形成新种群X,取X种群的前m/2个个体作为新的记忆种群P。
步骤11:迭代计数器累加t=t+1,判断终止条件,若t<=T(T为迭代次数)则继续迭代跳到步骤4运行,若t>T则迭代结束,继续运行步骤12。
步骤12:将得到的最优值进行禁忌搜索(具体步骤同步骤9),返回其邻域中的最优值作为最后的最佳结果。
步骤13:输出最佳结果,程序结束。
根据以上所示的步骤,我们对斐波那契序列(见图3)和真实蛋白质序列(见图4)进行相关操作,对所获得NGA-TS的数据与其他方法的数据进行了比较(见图5、图6和图7)。
综上所述,我们通过NGA-TS算法来解决蛋白质结构预测方法,可以减少大量冗余解的存在从而增加种群的多样性,也可以避免过早收敛现象和停滞现象的产生从而增强局部搜索能力,还可以避免陷入局部最优,实现全局化的。由此说明我们的方法是有效可行的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (2)

1.基于NGA-TS算法的蛋白质结构预测方法,其特征在于:其包括以下步骤:
步骤1:初始化参数及种群;首先将蛋白质序列抽象为数字序列,其中A表示疏水氨基酸,B表示亲水氨基酸,在程序中疏水氨基酸对应的值为1,亲水氨基酸对应的值为-1,真实蛋白质也是同样的规则,只是氨基酸的表示字母不同,即长度为5的序列表示为[1 -1 -1 1-1],
根据蛋白质序列的长度确定种群个体的维度,当序列为n时,其中n表示序列长度,种群个体的维度应为2n-5,实为氨基酸的键角和扭转角之和,所以,在实例序列长度为5的情况下,种群个体的维度为2*5-5=5,初始化种群X=x1,x2,…,xm,其中m为种群大小,且每个元素都表示角度即[-π,π]范围中的随机数;
步骤2:进行迭代循环,计算种群适应度;
步骤3:对种群进行竞技选择、自适应交叉、自适应随机线性变异,更新种群;
步骤4:对新种群进行小生境淘汰选择,更新种群;
步骤5:在进化后期,对新种群进行禁忌搜索算法,更新种群;
步骤6:判断是否满足终止条件,若满足则退出循环,继续运行步骤7,否则跳到步骤3;
步骤7:结束循环后,对最优值再进行一次禁忌搜索,最后输出结果;
该方法具体步骤如下:
1)初始化种群X=x1,x2,…,xn,其中n为种群大小;
2)计算种群X中个体的适应度值Fi,其中i=1,2,…,n;根据适应度值的大小进行升序排序,并记忆保留前n/2个个体记作记忆种群P;
3)设置代数计数器t=1;
4)先将种群X中的前k个适应度值小的个体复制到新种群X1中,再将X1中的n-k个个体通过对种群X进行竞技选择选出,其中竞技选择的个数为y,即从X中随机选择y个个体,选取适应度值好的保留到新种群X1中,这样进行n-k次选择,形成种群X1;
5)对种群X1进行自适应交叉:在进化初期,交叉概率Pc0等于0.8;在进化后期,即其中T为迭代次数,交叉概率Pc用自适应公式:
Pc=Pc0×(1-i/n)1/2
其中i为交叉个体在种群中的下标索引确定,Pc0等于0.8;判断随机数a与交叉概率的大小,其中随机数a为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成随机数a;当随机数a小于交叉概率时,随机确定交叉点对X1中的个体xi和个体xn-i+1进行交叉;当随机数a大于交叉概率时,不进行交叉,这样进行n/2次交叉后形成种群X2;
6)对种群X2进行自适应随机线性变异:在进化初期,即其中T为迭代次数,变异概率Pm用自适应公式:
其中i为变异个体在种群中的下标索引确定,在进化后期变异概率PmO等于0.08;判断随机数b与变异概率的大小,其中随机数b为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成随机数b:当b大于变异概率时,不进行变异;当b小于变异概率时,对X1中的个体xi随机选取一个位置i用线性变异公式:
进行变异,其中ran为(0,1)区间内的随机数,当ran<0.5时f(ran)=-1,当ran>0.5时f(ran)=1;r和α都是(0,1)区间内的随机数;i为下标索引;
整个种群X2运行完变异后就得到种群X3,并计算种群X3适应度;
7)将种群X3和记忆种群P合并为种群XP,种群XP的个体数为3n/2,对种群XP进行小生境淘汰;分别对XP中的两两个体进行计算欧式距离:
当dij<L时,其中L为小生境的距离参数,小生境的距离参数是由动态函数公式得到的,判断xi和xj的适应度Fi和Fj的大小并将适应度差的处以罚函数,然后根据当前变更的适应度将种群XP中的个体升序排列;
8)取种群XP的前n个个体作为种群X,计算更新种群X的适应度值并根据适应度值大小进行升序排列,取种群X的前n/2个个体作为新的记忆种群P;
9)判断是否禁忌搜索:若t<T-5,则运行步骤10);否则对种群X进行禁忌搜索;具体步骤如下:
a)初始化禁忌表,设置禁忌迭代计数器tscount=1;
b)对当前候选解进行随机线性变异操作,线性变异公式:
x=x+f(ran)×2π×ri-1
其中ran为(0,1)区间内的随机数,当ran<0.5时f(ran)=-1,当ran>0.5时f(ran)=1;r和α都是(0,1)区间内的随机数;i为邻域的下标索引,范围为(1,100)的区间形成一组邻域解,并按照适应度值排序;
c)判断邻域解中的最小值是否比最优解更小,若是则满足藐视准则,若否则不满足藐视准则;
若满足则更新候选解、禁忌表和最优解,即将邻域中最小值赋值给候选解和最优解,并将邻域中最小值放入禁忌表中;
若不满足则判断邻域解中最小的10个解是否在禁忌表中,若不在则更新禁忌表,即将其放入禁忌表中;
d)禁忌迭代计数器tscount=tscount+1,判断终止条件,若tscount<=Tt,其中Tt为禁忌搜索的迭代次数,则跳到步骤b)继续运行,若tscount>Tt,则终止迭代,返回主函数中运行,并返回最优解;
10)判断禁忌搜索算法得到的适应度值是否小于步骤8)中X种群的适应度值,若是则将X中原先的个体序列和适应度值替换掉,否则不做改变;这样形成新种群X,取X种群的前n/2个个体作为新的记忆种群P;
11)迭代计数器累加t=t+1,判断终止条件,若t<=T,其中T为迭代次数,则继续迭代跳到步骤4)运行,若t>T则迭代结束,运行步骤12);
12)将得到的最优值进行禁忌搜索,其具体步骤同步骤9),返回其邻域中的最优值作为最后的最佳结果;
13)输出最佳结果。
2.根据权利要求1所述的基于NGA-TS算法的蛋白质结构预测方法,其特征在于:所述步骤4)为先将种群X中的前50个适应度值小的个体复制到新种群X1中,再将X1中的n-50个个体通过对种群X进行竞技选择选出,其中竞技选择的个数为20,即从X中随机选择20个个体,选取适应度值好的保留到新种群X1中,这样进行n-50次选择,形成种群X1。
CN201610144174.4A 2016-03-11 2016-03-11 基于nga-ts算法的蛋白质结构预测方法 Expired - Fee Related CN105825075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610144174.4A CN105825075B (zh) 2016-03-11 2016-03-11 基于nga-ts算法的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610144174.4A CN105825075B (zh) 2016-03-11 2016-03-11 基于nga-ts算法的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN105825075A CN105825075A (zh) 2016-08-03
CN105825075B true CN105825075B (zh) 2019-04-26

Family

ID=56987838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610144174.4A Expired - Fee Related CN105825075B (zh) 2016-03-11 2016-03-11 基于nga-ts算法的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN105825075B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092812B (zh) * 2017-03-06 2020-06-23 扬州大学 一种在ppi网络中基于遗传算法识别关键蛋白质的方法
CN107633159B (zh) * 2017-08-21 2020-06-02 浙江工业大学 一种基于距离相似度的蛋白质构象空间搜索方法
CN107704726A (zh) * 2017-10-13 2018-02-16 齐齐哈尔大学 一种利用粒子群模拟退火算法来进行蛋白质折叠预测的方法
CN111353738B (zh) * 2020-02-19 2023-06-23 内江师范学院 一种应用改进的混合免疫算法优化物流配送中心选址方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184112A (zh) * 2015-10-27 2015-12-23 大连大学 基于改进小生境遗传算法的蛋白质结构预测方法
CN105205347A (zh) * 2015-09-16 2015-12-30 大连大学 基于bsa-ts算法的蛋白质三维结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205347A (zh) * 2015-09-16 2015-12-30 大连大学 基于bsa-ts算法的蛋白质三维结构预测方法
CN105184112A (zh) * 2015-10-27 2015-12-23 大连大学 基于改进小生境遗传算法的蛋白质结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Hybrid Strategy Based on Niche Genetic Algorithm and Tabu Search and Its Convergence Property;Zhiyong Li等;《BIC-TA 2010》;20100926;正文第III节,图1
Improved Niche Genetic Algorithm for Protein Structure Prediction;Xue Wei等;《BIC-TA 2015》;20151224;正文第2-4节

Also Published As

Publication number Publication date
CN105825075A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105825075B (zh) 基于nga-ts算法的蛋白质结构预测方法
CN104866904B (zh) 一种基于spark的遗传算法优化的BP神经网络并行化方法
CN110389819B (zh) 一种计算密集型批处理任务的调度方法和系统
CN107330560B (zh) 一种考虑时序约束的异构飞行器多任务协同分配方法
CN103473482B (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
Hoque et al. Twin removal in genetic algorithms for protein structure prediction using low-resolution model
Tsutsui et al. ACO with tabu search on a GPU for solving QAPs using move-cost adjusted thread assignment
CN109324901B (zh) 基于区块链的深度学习分布式计算方法、系统和节点
Chu et al. Learning value heuristics for constraint programming
CN107122623A (zh) 基于随机分形搜索算法的蛋白质结构预测方法
Shatabda et al. Memory-based local search for simplified protein structure prediction
CN102915407A (zh) 基于混沌蜂群算法的蛋白质三维结构预测方法
CN105184112A (zh) 基于改进小生境遗传算法的蛋白质结构预测方法
Santander-Jiménez et al. Multiobjective frog-leaping optimization for the study of ancestral relationships in protein data
Lamiable et al. An algorithmic game-theory approach for coarse-grain prediction of RNA 3D structure
CN106776088A (zh) 基于Malek模型的系统故障诊断方法
Alden MARLEDA: effective distribution estimation through Markov random fields
CN114207539A (zh) 多智能体系统中的大规模策略评估
CN105205347B (zh) 基于bsa-ts算法的蛋白质三维结构预测方法
Santander-Jimenez et al. Comparative analysis of intra-algorithm parallel multiobjective evolutionary algorithms: Taxonomy implications on bioinformatics scenarios
Karami et al. Protein structure prediction using bio-inspired algorithm: A review
Lin et al. To accelerate multiple sequence alignment using FPGAs
CN108763870B (zh) 一种多域蛋白质Linker构建方法
Kaufmann et al. Toward self-adaptive embedded systems: multi-objective hardware evolution
Shou et al. Hybrid differential evolution and sequential quadratic programming algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190426

Termination date: 20200311