CN106096328B - 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 - Google Patents

一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 Download PDF

Info

Publication number
CN106096328B
CN106096328B CN201610265960.XA CN201610265960A CN106096328B CN 106096328 B CN106096328 B CN 106096328B CN 201610265960 A CN201610265960 A CN 201610265960A CN 106096328 B CN106096328 B CN 106096328B
Authority
CN
China
Prior art keywords
conformation
energy
psi
target
dihedral angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610265960.XA
Other languages
English (en)
Other versions
CN106096328A (zh
Inventor
张贵军
周晓根
俞旭锋
郝小虎
王柳静
徐东伟
李章维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610265960.XA priority Critical patent/CN106096328B/zh
Publication of CN106096328A publication Critical patent/CN106096328A/zh
Application granted granted Critical
Publication of CN106096328B publication Critical patent/CN106096328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法,首先,根据能量值选取当前种群中的最优构象,计算其他构象到最优构象的距离,并根据距离对所有构象进行排名;然后,选取离最优构象最近的部分构象建立Lipschitz下界支撑面,计算所选取的构象的能量下界估计值,并计算实际能量值与下界估计值的平均误差;最后,根据平均误差将算法分为两层,第一层随机选取构象进行片段组装生成新构象,第二层则根据最优构象进行片段组装生成新构象,从而引导算法快速可靠地向能量最低的区域收敛。本发明预测精度高、计算代价较低。

Description

一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构 预测方法
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法。
背景技术
人类基因组计划的顺利实施,标志人类基因组DNA的30亿个碱基对序列测序工作已经基本完成。十几年以来,人类基因组计划不断深化人类对自身和疾病的认识,对生物学、医学、数学和计算机科学带来了深远影响。然而迄今为止,尚未呈现美国前总统克林顿当时所描绘的蓝图:“彻底改变我们对绝大多数疾病的诊断、预防和治疗手段”。事实上,基因图谱仅描绘了蛋白质氨基酸序列(即蛋白质一级结构),蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能。因此,为了解蛋白质的功能,就必须获得其三维空间结构,这样才能真正实现基因诊断,并最终达到基因治疗的目的。
蛋白质结构实验测定方法是结构基因组学研究的主要内容。X射线晶体学是测定蛋白质结构最有效的方法,所能达到的精度是其它方法所不能比拟的,缺点主要是蛋白质晶体难以培养且晶体结构测定的周期较长;多维核磁共振(NMR)方法可以直接测定蛋白质在溶液中的构象,但是由于对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。总体上,结构实验测定方法主要存在两方面问题:一方面,对于现代药物设计的主要靶标膜蛋白而言,通过实验方法极难获得其结构;另一方面,测定过程费时费钱费力,比如,使用NMR方法测定一个蛋白质通常需要15万美元以及半年的时间。因此,如何使得根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。
从头预测方法实质上就是利用计算机的快速处理能力,利用优化算法在蛋白质构象空间搜索全局最低能量构象解。蛋白质能量模型考虑分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长,属于一类非常难解的NP-hard问题。从头预测方法通过能量函数来评价构象的质量,并利用优化算法来搜索构象。根据Anfinsen原则,能量函数引导算法向低能量的区域搜索,从而获取能量最低的构象。因此,从头预测方法最主要的问题就是设计一种可靠、有效的优化算法来寻找能量函数的全局最优解。
群体进化类算法是研究蛋白质分子构象优化的重要方法,主要包括遗传算法(GA)、差分进化算法(DE),这些算法不仅结构简单,易于实现,而且鲁棒性强,因此,经常被用于从头预测方法中的全局最小能量构象搜索。然后随着序列长度的增长,蛋白质的能量模型曲面越来越复杂,从而导致群体算法容易陷入局部最优,而无法精确的搜索到最低能量构象,从而降低了预测精度。而且目前单纯的进化类算法中没有适当应用片段组装这一有效的技术,导致其搜索空间极其庞大,计算代价较大。
因此,现有的基于群体算法的蛋白质结构预测方法在预测精度和计算代价方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在预测精度和计算代价方面的不足,本发明基于抽象凸理论和片段组装技术,提出一种预测精度高、计算代价较低的基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法,所述方法包括以下步骤:
1)选取力场模型:
采用Rosetta力场模型能量函数的表示形式如下
式中,E表示蛋白质的总能量,Einterrep表示范德华排斥力作用,Einteratr表示范德华吸引力作用,Esolvation为Lazarids和Karplus描述的隐含的溶解作用,Ebb/sc hb、Ebb/bb hb和Esc/sc hb为依赖方向的氢键能量,Epair残基对静电作用,Edunbrack为氨基酸基于旋转异构体库的内部的能量,Erama为参考特定位置的Ramachandrin骨链扭力,Ereference为未折叠态的蛋白质的参考能量,Winter rep、Winter atr、Wsolvation为Einter rep、Einter atr、Esolvation的能量项权重,Wbb/sc hb、Wbb/bb hb和Wsc/sc hb分别为Ebb/sc hb、Ebb/bb hb和Esc/sc hb的能量项权重,Wpair、Wdunbrack、Wrama和Wreference分别为Epair、Edunbrack、Erama和Ereference的能量项权重;
2)给定输入序列信息;
3)设置参数:能量函数的各能量项权重值,种群大小NP,交叉因子CR,常数M;
4)种群初始化:由输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维元素,并初始化迭代次数G=0;
5)根据式(1)计算当前种群中的每个构象的能量值f(Ci)=E(Ci),选取能量最低的构象Cbest=(xbest,1,xbest,2,…,xbest,N),计算其他构象Ci到Cbest的欧式距离其中,为第i个构象Ci的第j维元素,xbest,j为Cbest的第j维元素;
6)根据各构象的欧式距离di进行升序排列,选取排名前NP/5的构象Ck,k=1,…,NP/5,对选取的每个构象构建Lipschitz下界估计支撑面其中,f(Ck)为构象Ck的能量函数值,为辅助变量,M为常数;
7)根据所构建的下界估计支撑面计算所选取的NP/5个构象的下界估计值其中max表示求最大值,min表示求最小值,为支撑向量lk的第j维元素;
8)计算所选取的NP/5个构象Ck的下界估计值和实际能量值f(Ck)之间的平均误差
9)针对种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行以下操作生成变异构象Cmutant
9.1)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP},且rand1≠rand2≠rand3≠i;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1≠randrange2,randrange3≠randrange4∈{1,2,…,L},L为序列长度;
9.2)令a=min(randrange1,randrange2),b=max(randrange1,randrange2),s∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
9.3)如果σ>0.5,可以判定处于第一层搜索,用Crand2上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Crand1的相同位置所对应的二面角phi、psi、omega;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Crand1上相同位置所对应的二面角phi、psi、omega,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
9.4)如果σ≤0.5,可以判定处于第二层搜索,则用Crand1上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Cbest的相同位置所对应的二面角phi、psi、omega;再使用Crand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Cbest上相同位置所对应的二面角phi、psi、omega,然后将所得Cbest进行片段组装得到变异构象个体Cmutant
10)对变异构象Cmutant执行交叉操作生成测试构象Ctrial
10.1)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L);
10.2)若随机数rand4≤CR,Ctrial由变异构象Cmutant的片段rand5替换为目标构象Ctarget中对应的片段生成,否则Ctrial直接等于变异构象Cmutant
11)如果f(Ctrial)<f(Ctarget),则测试构象Ctrial替换目标构象Ctarget
12)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤5)。
进一步,所述步骤3)中,设置的参数还包括最大迭代次数;所述步骤12)中,对种群中的每个构象个体都执行完步骤5)-11)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数。
本发明的技术构思为:首先,根据能量值选取当前种群中的最优构象,计算其他构象到最优构象的距离,并根据距离对所有构象进行排名;然后,选取离最优构象最近的部分构象建立Lipschitz下界支撑面,计算所选取的构象的能量下界估计值,并计算实际能量值与下界估计值的平均误差;最后,根据平均误差将算法分为两层,第一层随机选取构象进行片段组装生成新构象,第二层则根据最优构象进行片段组装生成新构象,从而引导算法快速可靠地向能量最低的区域收敛。
本发明的有益效果表现在:一方面,根据实际能量函数值和Lipschitz下界估计值的平均误差将算法分为两层,从而在各层利用不同的进化信息生成新构象个体,提高了构象的质量和算法收敛速度和可靠性;另一方面,片段组装技术生成新构象,减小了搜索空间,降低了计算代价。
附图说明
图1是基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法对蛋白质1AIL进行结构预测时的构象更新示意图。
图2是基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法对蛋白质1AIL进行结构预测时得到的构象分布图。
图3是基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法对蛋白质1AIL预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1-3,一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法,包括以下步骤:
1)选取力场模型:
采用Rosetta力场模型能量函数的表示形式如下
式中,E表示蛋白质的总能量,Einterrep表示范德华排斥力作用,Einteratr表示范德华吸引力作用,Esolvation为Lazarids和Karplus描述的隐含的溶解作用,Ebb/sc hb、Ebb/bb hb和Esc/sc hb为依赖方向的氢键能量,Epair残基对静电作用,Edunbrack为氨基酸基于旋转异构体库的内部的能量,Erama为参考特定位置的Ramachandrin骨链扭力,Ereference为未折叠态的蛋白质的参考能量,Winter rep、Winter atr、Wsolvation为Einter rep、Einter atr、Esolvation的能量项权重,Wbb/sc hb、Wbb/bb hb和Wsc/sc hb分别为Ebb/sc hb、Ebb/bb hb和Esc/sc hb的能量项权重,Wpair、Wdunbrack、Wrama和Wreference分别为Epair、Edunbrack、Erama和Ereference的能量项权重;
2)给定输入序列信息;
3)设置参数:能量函数的各能量项权重值,种群大小NP,交叉因子CR,常数M;
4)种群初始化:由输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维元素,并初始化迭代次数G=0;
5)根据式(1)计算当前种群中的每个构象的能量值f(Ci)=E(Ci),选取能量最低的构象Cbest=(xbest,1,xbest,2,…,xbest,N),计算其他构象Ci到Cbest的欧式距离其中,为第i个构象Ci的第j维元素,xbest,j为Cbest的第j维元素;
6)根据各构象的欧式距离di进行升序排列,选取排名前NP/5的构象Ck,k=1,…,NP/5,对选取的每个构象构建Lipschitz下界估计支撑面其中,f(Ck)为构象Ck的能量函数值,为辅助变量,M为常数;
7)根据所构建的下界估计支撑面计算所选取的NP/5个构象的下界估计值其中max表示求最大值,min表示求最小值,为支撑向量lk的第j维元素;
8)计算所选取的NP/5个构象Ck的下界估计值和实际能量值f(Ck)之间的平均误差
9)针对种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行以下操作生成变异构象Cmutant
9.1)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP},且rand1≠rand2≠rand3≠i;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1≠randrange2,randrange3≠randrange4∈{1,2,…,L},L为序列长度;
9.2)令a=min(randrange1,randrange2),b=max(randrange1,randrange2),s∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
9.3)如果σ>0.5,可以判定处于第一层搜索,用Crand2上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Crand1的相同位置所对应的二面角phi、psi、omega;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Crand1上相同位置所对应的二面角phi、psi、omega,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
9.4)如果σ≤0.5,可以判定处于第二层搜索,则用Crand1上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Cbest的相同位置所对应的二面角phi、psi、omega;再使用Crand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Cbest上相同位置所对应的二面角phi、psi、omega,然后将所得Cbest进行片段组装得到变异构象个体Cmutant
10)对变异构象Cmutant执行交叉操作生成测试构象Ctrial
10.1)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L);
10.2)若随机数rand4≤CR,Ctrial由变异构象Cmutant的片段rand5替换为目标构象Ctarget中对应的片段生成,否则Ctrial直接等于变异构象Cmutant
11)如果f(Ctrial)<f(Ctarget),则测试构象Ctrial替换目标构象Ctarget
12)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤5)。
进一步,所述步骤3)中,设置的参数还包括最大迭代次数;所述步骤12)中,对种群中的每个构象个体都执行完步骤5)-11)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数。
本实施例序列长度为73的α折叠蛋白质1AIL为实施例,一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法,其中包含以下步骤:
1)选取力场模型:
采用Rosetta力场模型能量函数的表示形式如下
式中,E表示蛋白质的总能量,Einterrep表示范德华排斥力作用,Einteratr表示范德华吸引力作用,Esolvation为Lazarids和Karplus描述的隐含的溶解作用,Ebb/sc hb、Ebb/bb hb和Esc/sc hb为依赖方向的氢键能量,Epair残基对静电作用,Edunbrack为氨基酸基于旋转异构体库的内部的能量,Erama为参考特定位置的Ramachandrin骨链扭力,Ereference为未折叠态的蛋白质的参考能量,Winter rep、Winter atr、Wsolvation为Einter rep、Einter atr、Esolvation的能量项权重,Wbb/sc hb、Wbb/bb hb和Wsc/sc hb分别为Ebb/sc hb、Ebb/bb hb和Esc/sc hb的能量项权重,Wpair、Wdunbrack、Wrama和Wreference分别为Epair、Edunbrack、Erama和Ereference的能量项权重;
2)给定输入序列1AIL;
3)设置参数:能量函数的各能量项权重值,种群大小NP=50,交叉因子CR=0.5,常数M=1000,最大迭代次数10000;
4)种群初始化:由输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维元素,并初始化迭代次数G=0;
5)根据式(1)计算当前种群中的每个构象的能量值f(Ci)=E(Ci),选取能量最低的构象Cbest=(xbest,1,xbest,2,…,xbest,N),计算其他构象Ci到Cbest的欧式距离其中,为第i个构象Ci的第j维元素,xbest,j为Cbest的第j维元素;
6)根据各构象的欧式距离di进行升序排列,选取排名前NP/5的构象Ck,k=1,…,NP/5,对选取的每个构象构建Lipschitz下界估计支撑面其中,f(Ck)为构象Ck的能量函数值,为辅助变量,M为常数;
7)根据所构建的下界估计支撑面计算所选取的NP/5个构象的下界估计值其中max表示求最大值,min表示求最小值,为支撑向量lk的第j维元素;
8)计算所选取的NP/5个构象Ck的下界估计值和实际能量值f(Ck)之间的平均误差
9)针对种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行以下操作生成变异构象Cmutant
9.1)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP},且rand1≠rand2≠rand3≠i;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1≠randrange2,randrange3≠randrange4∈{1,2,…,L},L为序列长度;
9.2)令a=min(randrange1,randrange2),b=max(randrange1,randrange2),s∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
9.3)如果σ>0.5,可以判定处于第一层搜索,用Crand2上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Crand1的相同位置所对应的二面角phi、psi、omega;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Crand1上相同位置所对应的二面角phi、psi、omega,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
9.4)如果σ≤0.5,可以判定处于第二层搜索,则用Crand1上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Cbest的相同位置所对应的二面角phi、psi、omega;再使用Crand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Cbest上相同位置所对应的二面角phi、psi、omega,然后将所得Cbest进行片段组装得到变异构象个体Cmutant
10)对变异构象Cmutant执行交叉操作生成测试构象Ctrial
10.1)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L);
10.2)若随机数rand4≤CR,Ctrial由变异构象Cmutant的片段rand5替换为目标构象Ctarget中对应的片段生成,否则Ctrial直接等于变异构象Cmutant
11)如果f(Ctrial)<f(Ctarget),则测试构象Ctrial替换目标构象Ctarget
12)对种群中的每个构象个体都执行完步骤5)-11)以后,迭代次数G=G+1,判断是否满足终止条件G=10000,若满足则输出结果并退出,否则返回步骤5)。
以序列长度为73的α折叠蛋白质1AIL为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为平均均方根偏差为预测得到的三维结构如图3所示。
以上阐述的是本发明给出的一个实施例表现出来的优良优化效果,显然本发明不仅适合上述实施例,而且可以应用到实际工程中的各个领域,同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:
1)选取力场模型:
采用Rosetta力场模型能量函数的表示形式如下
式中,E表示蛋白质的总能量,Einter rep表示范德华排斥力作用,Einter atr表示范德华吸引力作用,Esolvation为Lazarids和Karplus描述的隐含的溶解作用,Ebb/sc hb、Ebb/bb hb和Esc/sc hb为依赖方向的氢键能量,Epair残基对静电作用,Edunbrack为氨基酸基于旋转异构体库的内部的能量,Erama为参考特定位置的Ramachandrin骨链扭力,Ereference为未折叠态的蛋白质的参考能量,Winter rep、Winter atr、Wsolvation为Einter rep、Einter atr、Esolvation的能量项权重,Wbb/sc hb、Wbb/bb hb和Wsc/sc hb分别为Ebb/sc hb、Ebb/bb hb和Esc/sc hb的能量项权重,Wpair、Wdunbrack、Wrama和Wreference分别为Epair、Edunbrack、Erama和Ereference的能量项权重;
2)给定输入序列信息;
3)设置参数:能量函数的各能量项权重值,种群大小NP,交叉因子CR,常数M;
4)种群初始化:由输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维元素,并初始化迭代次数G=0;
5)根据式(1)计算当前种群中的每个构象的能量值f(Ci)=E(Ci),选取能量最低的构象Cbest=(xbest,1,xbest,2,…,xbest,N),计算其他构象Ci到Cbest的欧式距离其中,为第i个构象Ci的第j维元素,xbest,j为Cbest的第j维元素;
6)根据各构象的欧式距离di进行升序排列,选取排名前NP/5的构象Ck,k=1,…,NP/5,对选取的每个构象构建Lipschitz下界估计支撑面其中,f(Ck)为构象Ck的能量函数值,为辅助变量,M为常数;
7)根据所构建的下界估计支撑面计算所选取的NP/5个构象的下界估计值其中max表示求最大值,min表示求最小值,为支撑向量lk的第j维元素;
8)计算所选取的NP/5个构象Ck的下界估计值和实际能量值f(Ck)之间的平均误差
9)针对种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行以下操作生成变异构象Cmutant
9.1)随机生成正整数rand1,rand2,rand3,rand1,rand2和rand3均∈{1,2,3,......NP},且rand1≠rand2≠rand3≠i;再生成4个随机整数randrange1,randrange2,randrange3,randrange4,randrange1,randrange2,randrange3和randrange4均∈{1,2,…,L},L为序列长度;其中randrange1≠randrange2,randrange3≠randrange4;
9.2)令a=min(randrange1,randrange2),b=max(randrange1,randrange2),s∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
9.3)如果σ>0.5,可以判定处于第一层搜索,用Crand2上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Crand1的相同位置所对应的二面角phi、psi、omega;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Crand1上相同位置所对应的二面角phi、psi、omega,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
9.4)如果σ≤0.5,可以判定处于第二层搜索,则用Crand1上位置a到位置b的片段的氨基酸s所对应的二面角phi、psi、omega替换Cbest的相同位置所对应的二面角phi、psi、omega;再使用Crand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换Cbest上相同位置所对应的二面角phi、psi、omega,然后将所得Cbest进行片段组装得到变异构象个体Cmutant
10)对变异构象Cmutant执行交叉操作生成测试构象Ctrial
10.1)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L);
10.2)若随机数rand4≤CR,Ctrial由变异构象Cmutant的片段rand5替换为目标构象Ctarget中对应的片段生成,否则Ctrial直接等于变异构象Cmutant
11)如果f(Ctrial)<f(Ctarget),则测试构象Ctrial替换目标构象Ctarget
12)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤5)。
2.如权利要求1所述的一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法,其特征在于:所述步骤3)中,设置的参数还包括最大迭代次数;所述步骤12)中,对种群中的每个构象个体都执行完步骤5)-11)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数。
CN201610265960.XA 2016-04-26 2016-04-26 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法 Active CN106096328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610265960.XA CN106096328B (zh) 2016-04-26 2016-04-26 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610265960.XA CN106096328B (zh) 2016-04-26 2016-04-26 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN106096328A CN106096328A (zh) 2016-11-09
CN106096328B true CN106096328B (zh) 2018-09-07

Family

ID=58702421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610265960.XA Active CN106096328B (zh) 2016-04-26 2016-04-26 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN106096328B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法
CN107516020B (zh) * 2017-08-17 2021-05-14 中国科学院深圳先进技术研究院 序列位点重要度的确定方法、装置、设备及存储介质
CN108920894B (zh) * 2018-06-08 2021-06-18 浙江工业大学 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN109300503B (zh) * 2018-08-29 2021-08-03 浙江工业大学 一种全局和局部下界估计协同的群体蛋白质结构预测方法
CN109346126B (zh) * 2018-08-29 2020-10-30 浙江工业大学 一种下界估计策略自适应蛋白质结构预测方法
CN109448786B (zh) * 2018-08-29 2021-04-06 浙江工业大学 一种下界估计动态策略蛋白质结构预测方法
CN109461470B (zh) * 2018-08-29 2021-08-03 浙江工业大学 一种蛋白质结构预测能量函数权重优化方法
CN109326321B (zh) * 2018-08-30 2021-06-18 浙江工业大学 一种基于抽象凸估计的k-近邻蛋白质结构预测方法
CN110197700B (zh) * 2019-04-16 2021-04-06 浙江工业大学 一种基于差分进化的蛋白质atp对接方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933327A (zh) * 2015-06-08 2015-09-23 浙江工业大学 一种局部增强的差分进化蛋白质构象空间搜索方法
CN105224987A (zh) * 2015-09-22 2016-01-06 浙江工业大学 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
CN105260774A (zh) * 2015-10-09 2016-01-20 浙江工业大学 一种基于构象空间退火的两阶段差分进化多模态优化方法
CN105373831A (zh) * 2015-10-09 2016-03-02 浙江工业大学 一种基于群体阶段性样本训练的k-近邻预测全局优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933327A (zh) * 2015-06-08 2015-09-23 浙江工业大学 一种局部增强的差分进化蛋白质构象空间搜索方法
CN105224987A (zh) * 2015-09-22 2016-01-06 浙江工业大学 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
CN105260774A (zh) * 2015-10-09 2016-01-20 浙江工业大学 一种基于构象空间退火的两阶段差分进化多模态优化方法
CN105373831A (zh) * 2015-10-09 2016-03-02 浙江工业大学 一种基于群体阶段性样本训练的k-近邻预测全局优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Improved Parallel Differential Evolution Approach for Protein Structure Prediction Using Both 2D and 3D Off-lattice Models;Diego.H.Kalegari 等;《Symposium on Differential Evolution(SDE)》;20131231;第143-150页 *
Effect of simple ensemble methods on protein sencondary structure prediction;Hafida Bouziane;《Soft Computing》;20140819;第1-16页 *

Also Published As

Publication number Publication date
CN106096328A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106096328B (zh) 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法
Miao et al. Multi-omics integration in the age of million single-cell data
CN106503484B (zh) 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法
CN106778059B (zh) 一种基于Rosetta局部增强的群体蛋白质结构预测方法
US9063914B2 (en) Systems and methods for transcriptome analysis
Cassioli et al. An algorithm to enumerate all possible protein conformations verifying a set of distance constraints
Kim et al. Conformational dynamics of supramolecular protein assemblies
CN107609342A (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN103077226B (zh) 一种多模态蛋白质构象空间搜索方法
CN106650305B (zh) 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法
CN106055920B (zh) 一种基于阶段性多策略副本交换的蛋白质结构预测方法
Leung et al. An SDP-based divide-and-conquer algorithm for large-scale noisy anchor-free graph realization
Grossi et al. Circular sequence comparison: algorithms and applications
CN107491664A (zh) 一种基于信息熵的蛋白质结构从头预测方法
CN109360599A (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
CN109872770A (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
Moradi et al. The Adaptively Biased Molecular Dynamics method revisited: New capabilities and an application
Elezgaray et al. A systematic method to derive force fields for coarse-grained simulations of phospholipids
Galgonek et al. SProt: sphere-based protein structure similarity algorithm
Kaur et al. A novel framework for drug synergy prediction using differential evolution based multinomial random forest
Nugent De novo membrane protein structure prediction
Ashraf et al. Computational analysis of non-coding RNAs in Alzheimer's disease
CN105912885B (zh) 一种基于群体Lipschitz下界估计的蛋白质结构预测方法
CN108920894A (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant