CN106503484B - 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 - Google Patents

一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 Download PDF

Info

Publication number
CN106503484B
CN106503484B CN201610845314.0A CN201610845314A CN106503484B CN 106503484 B CN106503484 B CN 106503484B CN 201610845314 A CN201610845314 A CN 201610845314A CN 106503484 B CN106503484 B CN 106503484B
Authority
CN
China
Prior art keywords
conformation
individual
target
dihedral angle
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610845314.0A
Other languages
English (en)
Other versions
CN106503484A (zh
Inventor
张贵军
周晓根
郝小虎
王柳静
俞旭锋
徐东伟
李章维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610845314.0A priority Critical patent/CN106503484B/zh
Publication of CN106503484A publication Critical patent/CN106503484A/zh
Application granted granted Critical
Publication of CN106503484B publication Critical patent/CN106503484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,首先,计算当前种群中各构象个体到新构象的距离,并根据距离进行升序排列;然后,选取新构象个体的部分邻近构象个体抽象凸下界估计支撑面,以获取新构象个体的能量下界估计值;其次,计算所有新构象个体的能量下界估计值与实际能量值之间的平均估计误差,并根据平均估计误差的变化将整个算法分为多个优化阶段;最后,根据上一次迭代中的平均估计误差判断当前迭代所处的阶段,并对各阶段设计不同的策略生成新构象个体。本发明提出一种预测精度高、计算代价低的基于群体抽象凸估计的多阶段差分进化蛋白质结构预测方法。

Description

一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于抽象凸估计的多阶段差分进化蛋白质预测方法。
背景技术
蛋白质是所有生物中最重要的大分子之一,一个细胞的干重的一半以上是蛋白质。蛋白质是由单一的肽键连接在一起的氨基酸的顺序链,这些连接的链折叠成能体现它们功能的三维结构,并调节生物体中的细胞活动,以保持生命。蛋白质分子在分子水平上具体体现了蛋白质结构和功能之间的显著关系。蛋白质在生物学中有许多不同的功能。蛋白质的三维天然结构决定它的生物学机制,而反过来,蛋白质氨基酸单体的一维链又对它的天然结构进行编码。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有决定性的重要,因此,蛋白质结构预测是一个重要的研究问题。
蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等,这些方法被广泛用于蛋白质结构测定。X射线晶体学被认为是这些方法中相对可行且准确的测定方法之一。然而,X射线晶体学需要进行一个复杂的结晶过程,而对于一些不易结晶的蛋白(如膜蛋白),此方法无法用于结构测定。此外,这些实验测定方法极其耗时,代价昂贵,而且容易发生错误。
Anfinsen热力学假说表明:蛋白质的空间结构由氨基酸序列唯一确定;蛋白质的空间结构是稳定的;蛋白质的天然构象处于自由能最低点。根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。在上世纪文献中,通常将预测方法划分为以下三类:针对高相似序列的同源建模方法;针对较低相似性序列的折叠识别方法;以及不依赖模板的从头预测方法。从头预测方法直接基于Anfinsen假说建立蛋白质物理或知识能量模型,然后设计适当优化算法求解最小能量构象。一方面,从生物学意义上来讲,有助于揭示蛋白质折叠机理,进而能够最终阐明生物学中心法则中的第二遗传密码理论部分;另一方面,从现实意义来讲,该方法具有普遍性,对于序列相似度<20%或寡肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。
进化类算法是研究蛋白质分子构象优化的重要方法,主要包括遗传算法、差分进化算法。这些算法以结构简单,易于实现,收敛速度快,以及鲁棒性强等优点被用于从头预测方法中的全局最小能量构象搜索。然后随着蛋白质规模的增大,现有方法在稳定性、高效性、广普性和易用性等方面还远不能满足实际求解需求。例如,由于能量模型曲面的复杂性,算法容易早熟收敛,而无法得到全局最低能量构象,从而影响预测精度。而且传统的进化类算法中没有适当应用片段组装技术,导致其搜索空间极其庞大,计算代价较高。
因此,现有的构象空间优化方法在预测精度和计算代价方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在预测精度和计算代价方面的不足,本发明提出一种预测精度高、计算代价低的基于群体抽象凸估计的多阶段差分进化蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,所述方法包括以下步骤:
1)选取蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)初始化:种群规模NP,交叉概率CR,阶段控制参数μ,支撑面斜率控制因子M;根据输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维坐标,并初始化迭代次数G=0;
4)随机生成正整数rand1,rand2,rand3均∈{1,2,3,......NP},且rand1≠rand2≠rand3;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1,randrange2,randrange3,randrange4均∈{1,2,…,L},randrange1≠randrange2,randrange3≠randrange4,L为序列长度;令a=min(randrange1,randrange2),b=max(randrange1,randrange2),k∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
5)如果G=0,对于当前种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行如下操作生成测试构象个体Ctrial
5.1)用Crand2上位置a到位置b的片段的氨基酸k所对应的二面角替换Crand1的相同位置所对应的二面角;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角替换Crand1上相同位置所对应的二面角,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
5.2)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L),若rand4≤CR,则利用目标构象Ctarget中的rand5片段替换变异构象Cmutant中的rand5片段,从而生成测试构象Ctrial;若rand4>CR,则Ctrial直接等于变异构象Cmutant
6)如果G>0,则执行如下阶段性操作:
6.1)计算第G-1次迭代中生成的每个测试构象个体的能量下界估计值:
6.1.1)计算当前种群中每个构象个体到测试构象个体之间的距离其中表示第i个构象Ci的第j维坐标,表示测试构象Ctrial的第j维坐标,di表示第i个构象Ci到测试构象的距离;
6.1.2)根据距离对所有构象进行升序排列,选取前两个构象个体并记为并计算其下界估计支撑面:
其中,为所选构象的能量函数值,为所选构象个体的第j维为坐标,为辅助变量,M为支撑面斜率控制因子;
6.1.3)计算测试构象Ctrial的能量下界估计值 其中max表示求最大值,min表示求最小值,为测试构象向量的第j维元素, 为下界估计支撑面lt的第j维元素;
6.2)计算所有测试构象的平均估计误差其中表示第i个测试构象的能量下界估计值,表示第i个测试构象的实际能量函数值,如果G=0,则最大平均估计误差为UEmax
6.3)对平均估计误差UE进行归一化处理,UE的归一化值为其中UEmin=0为最小平均估计误差;
6.4)根据归一化平均估计误差值判断算法所处的阶段,并采样不同的策略生成变异构象Cmutant
6.4.1)如果则用Crand1上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象Cmutant,其中μ为阶段控制参数;
6.4.2)如果则根据如下操作生成变异构象Cmutant
a)根据能量函数值对当前种群中的构象个体进行降序排列,选取前NP/5个构象并计算所选构象的质心构象Ccentroid=(xcentroid,1,xcentroid,2,…,xcentroid,N),其中,构象Ccentroid的第j维元素 表示第m个选取构象的第N维坐标,为构象的实际能量函数值;
b)从当前种群中随机选取两个不同的构象Crand1和Crand2,其中rand1,rand2均∈[1,NP],rand1≠rand2,提取构象Crand1位置a到位置b的片段的氨基酸所对应的二面角替换质心构象Ccentroid的相同位置所对应的二面角,同时使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换质心构象Ccentroid相同位置所对应的二面角,然后将所得Ccentroid进行片段组装得到变异构象个体Cmutant
6.4.3)如果找出当前种群中能量最低的构象Cbest,用Cbest上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand1上位置c到位置d的片段的氨基酸p所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象个体Cmutant
6.4.4)根据步骤5.2)生成测试构象个体Ctrial
7)分别计算目标构象和测试构象的能量函数值f(Ctarget)和f(Ctrial),如果f(Ctrial)<f(Ctarget),则测试构象个体替换目标构象个体;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤4)。
进一步,所述步骤8)中,对种群中的每个构象个体都执行完步骤4)—8)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax
本发明的技术构思为:首先,计算当前种群中各构象个体到新构象的距离,并根据距离进行升序排列;然后,对新构象个体的邻近构象个体抽象凸下界估计支撑面,以获取新构象个体的能量下界估计值;其次,计算所有新构象个体的能量下界估计值与实际能量值之间的平均估计误差,并根据平均估计误差的变化将整个算法分为多个优化阶段;最后,根据上一次迭代中的平均估计误差判断当前迭代所处的阶段,并对各阶段设计不同的策略生成新构象个体。
本发明的有益效果表现在:一方面,根据平均估计误差的变化判断算法所处的阶段,从而设计不同的策略生成新构象个体,不仅可以加快算法的收敛速度,而且可以提高预测精度;另一方面,在各阶段的策略中选用不同个体的信息进行片段组装,缩小了搜索空间,从而降低了计算代价。
附图说明
图1是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法的基本流程图。
图2是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法对蛋白质1ENH进行结构预测时的构象更新示意图。
图3是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法对蛋白质1ENH进行结构预测时得到的构象分布图。
图4是基于抽象凸估计的多阶段差分进化蛋白质结构预测方法对蛋白质1ENH进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,包括以下步骤:
1)选取蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)初始化:种群规模NP,交叉概率CR,阶段控制参数μ,支撑面斜率控制因子M;根据输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维坐标,并初始化迭代次数G=0;
4)随机生成正整数rand1,rand2,rand3均∈{1,2,3,......NP},且rand1≠rand2≠rand3;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1,randrange2,randrange3,randrange4均∈{1,2,…,L},randrange1≠randrange2,randrange3≠randrange4,L为序列长度;令a=min(randrange1,randrange2),b=max(randrange1,randrange2),k∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
5)如果G=0,对于当前种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行如下操作生成测试构象个体Ctrial
5.1)用Crand2上位置a到位置b的片段的氨基酸k所对应的二面角替换Crand1的相同位置所对应的二面角;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角替换Crand1上相同位置所对应的二面角,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
5.2)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L),若rand4≤CR,则利用目标构象Ctarget中的rand5片段替换变异构象Cmutant中的rand5片段,从而生成测试构象Ctrial;若rand4>CR,则Ctrial直接等于变异构象Cmutant
6)如果G>0,则执行如下阶段性操作:
6.1)计算第G-1次迭代中生成的每个测试构象个体的能量下界估计值:
6.1.1)计算当前种群中每个构象个体到测试构象个体之间的距离其中表示第i个构象Ci的第j维坐标,表示测试构象Ctrial的第j维坐标,di表示第i个构象Ci到测试构象的距离;
6.1.2)根据距离对所有构象进行升序排列,选取前两个构象个体并记为并计算其下界估计支撑面:
其中,为所选构象的能量函数值,为所选构象个体的第j维坐标,为辅助变量,M为支撑面斜率控制因子;
6.1.3)计算测试构象Ctrial的能量下界估计值 其中max表示求最大值,min表示求最小值,为测试构象向量的第j维元素, 为下界估计支撑面lt的第j维元素;
6.2)计算所有测试构象的平均估计误差其中表示第i个测试构象的能量下界估计值,表示第i个测试构象的实际能量函数值,如果G=0,则最大平均估计误差为UEmax
6.3)对平均估计误差UE进行归一化处理,UE的归一化值为其中UEmin=0为最小平均估计误差;
6.4)根据归一化平均估计误差值判断算法所处的阶段,并采样不同的策略生成变异构象Cmutant
6.4.1)如果则用Crand1上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象Cmutant,其中μ为阶段控制参数;
6.4.2)如果则根据如下操作生成变异构象Cmutant
a)根据能量函数值对当前种群中的构象个体进行降序排列,选取前NP/5个构象并计算所选构象的质心构象Ccentroid=(xcentroid,1,xcentroid,2,…,xcentroid,N),其中,构象Ccentroid的第j维元素 表示第m个选取构象的第N维坐标,为构象的实际能量函数值;
b)从当前种群中随机选取两个不同的构象Crand1和Crand2,其中rand1,rand2均∈[1,NP],rand1≠rand2,提取构象Crand1位置a到位置b的片段的氨基酸所对应的二面角替换质心构象Ccentroid的相同位置所对应的二面角,同时使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换质心构象Ccentroid相同位置所对应的二面角,然后将所得Ccentroid进行片段组装得到变异构象个体Cmutant
6.4.3)如果找出当前种群中能量最低的构象Cbest,用Cbest上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand1上位置c到位置d的片段的氨基酸p所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象个体Cmutant
6.4.4)根据步骤5.2)生成测试构象个体Ctrial
7)分别计算目标构象和测试构象的能量函数值f(Ctarget)和f(Ctrial),如果f(Ctrial)<f(Ctarget),则测试构象个体替换目标构象个体;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤4)。
进一步,所述步骤8)中,对种群中的每一个个体都执行完步骤4)—8)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax
本实施例序列长度为54的α折叠蛋白质1ENH为实施例,一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,其中包含以下步骤:
1)选取蛋白质力场模型Rosetta Score3,即Rosetta Score3能量函数E(X);
2)给定1ENH蛋白质的序列信息;
3)初始化:种群规模NP=50,交叉概率CR=0.5,阶段控制参数μ=0.85,支撑面斜率控制因子M=1000,最大迭代次数Gmax=10000;根据输入序列产生初始构象种群其中,N表示维数,表示第i个构象Ci的第N维坐标,并初始化迭代次数G=0;
4)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP},且rand1≠rand2≠rand3≠i;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1,randrange2,randrange3,randrange4均∈{1,2,…,L},randrange1≠randrange2,randrange3≠randrange4,L为序列长度;令a=min(randrange1,randrange2),b=max(randrange1,randrange2),k∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
5)如果G=0,对于当前种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行如下操作生成测试构象个体Ctrial
5.1)用Crand2上位置a到位置b的片段的氨基酸k所对应的二面角替换Crand1的相同位置所对应的二面角;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角替换Crand1上相同位置所对应的二面角,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
5.2)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L),若rand4≤CR,则利用目标构象Ctarget中的rand5片段替换变异构象Cmutant中的rand5片段,从而生成测试构象Ctrial;若rand4>CR,则Ctrial直接等于变异构象Cmutant
6)如果G>0,则执行如下阶段性操作:
6.1)计算第G-1次迭代中生成的每个测试构象个体的能量下界估计值:
6.1.1)计算当前种群中每个构象个体到测试构象个体之间的距离其中表示第i个构象Ci的第j维坐标,表示测试构象Ctrial的第j维坐标,di表示第i个构象Ci到测试构象的距离;
6.1.2)根据距离对所有构象进行升序排列,选取前两个构象个体并记为并计算其下界估计支撑面:
其中,为所选构象的能量函数值,为所选构象个体的第j维坐标,为辅助变量,M为支撑面斜率控制因子;
6.1.3)计算测试构象Ctrial的能量下界估计值 其中max表示求最大值,min表示求最小值,为测试构象向量的第j维元素, 为支撑向量lk的第j维元素;
6.2)计算所有测试构象的平均估计误差其中表示第i个测试构象的能量下界估计值,表示第i个测试构象的实际能量函数值,如果G=0,则最大平均估计误差为UEmax
6.3)对平均估计误差UE进行归一化处理,UE的归一化值为其中UEmin=0为最小平均估计误差;
6.4)根据归一化平均估计误差值判断算法所处的阶段,并采样不同的策略生成变异构象Cmutant
6.4.1)如果则用Crand1上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象Cmutant,其中μ为阶段控制参数;
6.4.2)如果则根据如下操作生成变异构象Cmutant
a)根据能量函数值对当前种群中的构象个体进行降序排列,选取前NP/5个构象并计算所选构象的质心构象Ccentroid=(xcentroid,1,xcentroid,2,…,xcentroid,N),其中,构象Ccentroid的第j维元素 表示第m个选取构象的第N维坐标,为构象的实际能量函数值;
b)从当前种群中随机选取两个不同的构象Crand1和Crand2,其中rand1,rand2均∈[1,NP],rand1≠rand2,提取构象Crand1位置a到位置b的片段的氨基酸所对应的二面角替换质心构象Ccentroid的相同位置所对应的二面角,同时使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换质心构象Ccentroid相同位置所对应的二面角,然后将所得Ccentroid进行片段组装得到变异构象个体Cmutant
6.4.3)如果找出当前种群中能量最低的构象Cbest,用Cbest上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand1上位置c到位置d的片段的氨基酸p所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象个体Cmutant
6.4.4)根据步骤5.2)生成测试构象个体Ctrial
7)分别计算目标构象和测试构象的能量函数值f(Ctarget)和f(Ctrial),如果f(Ctrial)<f(Ctarget),则测试构象个体替换目标构象个体;
8)对种群中的每一个个体都执行完步骤4)—8)以后,迭代次数G=G+1,判断G是否大于Gmax,若G大于Gmax,则输出结果并退出,否则返回步骤4)。
以序列长度为54的α折叠蛋白质1ENH为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为平均均方根偏差为预测结构如图4所示。
以上说明是本发明以1ENH蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (2)

1.一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:
1)选取蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)初始化:种群规模NP,交叉概率CR,阶段控制参数μ,支撑面斜率控制因子M;根据输入序列产生初始构象种群 其中,N表示维数,表示第i个构象Ci的第N维坐标,并初始化迭代次数G=0;
4)随机生成正整数rand1,rand2,rand3均∈{1,2,3,......NP},且rand1≠rand2≠rand3;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1,randrange2,randrange3,randrange4均∈{1,2,…,L},randrange1≠randrange2,randrange3≠randrange4,L为序列长度;令a=min(randrange1,randrange2),b=max(randrange1,randrange2),k∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;
5)如果G=0,对于当前种群中的每个构象个体Ci,i∈{1,2,3,…,NP},令Ctarget=Ci,Ctarget表示目标构象个体,执行如下操作生成测试构象个体Ctrial
5.1)用Crand2上位置a到位置b的片段的氨基酸k所对应的二面角替换Crand1的相同位置所对应的二面角;再使用Crand3上位置c到位置d的片段的氨基酸p所对应的二面角替换Crand1上相同位置所对应的二面角,然后将所得Crand1进行片段组装得到变异构象个体Cmutant
5.2)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,L),若rand4≤CR,则利用目标构象Ctarget中的rand5片段替换变异构象Cmutant中的rand5片段,从而生成测试构象Ctrial;若rand4>CR,则Ctrial直接等于变异构象Cmutant
6)如果G>0,则执行如下阶段性操作:
6.1)计算第G-1次迭代中生成的每个测试构象个体的能量下界估计值:
6.1.1)计算当前种群中每个构象个体到测试构象个体之间的距离其中表示第i个构象Ci的第j维坐标,表示测试构象Ctrial的第j维坐标,di表示第i个构象Ci到测试构象的距离;
6.1.2)根据距离对所有构象进行升序排列,选取前两个构象个体并记为并计算其下界估计支撑面:
其中,为所选构象的能量函数值,为所选构象个体的第j维坐标,为辅助变量,M为支撑面斜率控制因子;
6.1.3)计算测试构象Ctrial的能量下界估计值 其中max表示求最大值,min表示求最小值,为测试构象向量的第j维元素, 为下界估计支撑面lt的第j维元素;
6.2)计算所有测试构象的平均估计误差其中表示第i个测试构象的能量下界估计值,表示第i个测试构象的实际能量函数值,如果G=0,则最大平均估计误差为UEmax
6.3)对平均估计误差UE进行归一化处理,UE的归一化值为其中UEmin=0为最小平均估计误差;
6.4)根据归一化平均估计误差值判断算法所处的阶段,并采样不同的策略生成变异构象Cmutant
6.4.1)如果则用Crand1上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象Cmutant,其中μ为阶段控制参数;
6.4.2)如果则根据如下操作生成变异构象Cmutant
a)根据能量函数值对当前种群中的构象个体进行降序排列,选取前NP/5个构象并计算所选构象的质心构象Ccentroid=(xcentroid,1,xcentroid,2,…,xcentroid,N),其中,构象Ccentroid的第j维元素 表示第m个选取构象的第N维坐标,为构象的实际能量函数值;
b)从当前种群中随机选取两个不同的构象Crand1和Crand2,其中rand1,rand2均∈[1,NP],rand1≠rand2,提取构象Crand1位置a到位置b的片段的氨基酸所对应的二面角替换质心构象Ccentroid的相同位置所对应的二面角,同时使用Crand2上位置c到位置d的片段的氨基酸所对应的二面角替换质心构象Ccentroid相同位置所对应的二面角,然后将所得Ccentroid进行片段组装得到变异构象个体Cmutant
6.4.3)如果找出当前种群中能量最低的构象Cbest,用Cbest上位置a到位置b的片段的氨基酸k所对应的二面角替换Ctarget的相同位置所对应的二面角;再使用Crand1上位置c到位置d的片段的氨基酸p所对应的二面角替换Ctarget上相同位置所对应的二面角,然后将所得Ctarget进行片段组装得到变异构象个体Cmutant
6.4.4)根据步骤5.2)生成测试构象个体Ctrial
7)分别计算目标构象和测试构象的能量函数值f(Ctarget)和f(Ctrial),如果f(Ctrial)<f(Ctarget),则测试构象个体替换目标构象个体;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤4)。
2.如权利要求1所述的一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,其特征在于:所述步骤8)中,对种群中的每一个个体都执行完步骤4)—8)以后,迭代次数G=G+1,终止条件为迭代次数G达到最大迭代次数Gmax
CN201610845314.0A 2016-09-23 2016-09-23 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法 Active CN106503484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610845314.0A CN106503484B (zh) 2016-09-23 2016-09-23 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610845314.0A CN106503484B (zh) 2016-09-23 2016-09-23 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN106503484A CN106503484A (zh) 2017-03-15
CN106503484B true CN106503484B (zh) 2019-07-05

Family

ID=58289933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610845314.0A Active CN106503484B (zh) 2016-09-23 2016-09-23 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN106503484B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066834B (zh) * 2017-03-23 2019-05-31 王晨彤 一种基于粒子群优化算法的蛋白质结构从头预测方法
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法
CN107609668A (zh) * 2017-07-24 2018-01-19 浙江工业大学 一种基于抽象凸自适应策略的生产排产调度优化方法
CN108920894B (zh) * 2018-06-08 2021-06-18 浙江工业大学 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN109360598B (zh) * 2018-08-28 2021-06-18 浙江工业大学 一种基于两阶段采样的蛋白质结构预测方法
CN109360599B (zh) * 2018-08-28 2021-06-18 浙江工业大学 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN109346126B (zh) * 2018-08-29 2020-10-30 浙江工业大学 一种下界估计策略自适应蛋白质结构预测方法
CN109285585B (zh) * 2018-08-29 2021-05-18 浙江工业大学 一种基于动态抽象凸下界估计的群体蛋白质结构预测方法
CN109448786B (zh) * 2018-08-29 2021-04-06 浙江工业大学 一种下界估计动态策略蛋白质结构预测方法
CN109300503B (zh) * 2018-08-29 2021-08-03 浙江工业大学 一种全局和局部下界估计协同的群体蛋白质结构预测方法
CN109461470B (zh) * 2018-08-29 2021-08-03 浙江工业大学 一种蛋白质结构预测能量函数权重优化方法
CN109411013B (zh) * 2018-08-29 2020-10-30 浙江工业大学 一种基于个体特定变异策略的群体蛋白质结构预测方法
CN109360596B (zh) * 2018-08-30 2021-08-03 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN112585686A (zh) * 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习
CN109524058B (zh) * 2018-11-07 2021-02-26 浙江工业大学 一种基于差分进化的蛋白质二聚体结构预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030073092A1 (en) * 2000-11-10 2003-04-17 Maranas Costas D. Modeling framework for predicting the number, type, and distribution of crossovers in directed evolution experiments
CN105224987A (zh) * 2015-09-22 2016-01-06 浙江工业大学 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
CN105912885A (zh) * 2016-04-08 2016-08-31 浙江工业大学 一种基于群体Lipschitz下界估计的蛋白质结构预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030073092A1 (en) * 2000-11-10 2003-04-17 Maranas Costas D. Modeling framework for predicting the number, type, and distribution of crossovers in directed evolution experiments
CN105224987A (zh) * 2015-09-22 2016-01-06 浙江工业大学 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
CN105912885A (zh) * 2016-04-08 2016-08-31 浙江工业大学 一种基于群体Lipschitz下界估计的蛋白质结构预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于抽象凸估计选择策略的差分进化算法;周小根 等;《控制理论与应用》;20150331;第32卷(第3期);第388-397页 *

Also Published As

Publication number Publication date
CN106503484A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106503484B (zh) 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法
CN106096328B (zh) 一种基于局部Lipschitz支撑面的双层差分进化蛋白质结构预测方法
He et al. Mean-Field Interactions between Nucleic-Acid-Base Dipoles<? format?> can Drive the Formation of a Double Helix
CN106650305B (zh) 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法
CN107609342A (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN106778059A (zh) 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN106096326B (zh) 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN109448784B (zh) 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN108062457B (zh) 一种结构特征向量辅助选择的蛋白质结构预测方法
CN103473482A (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN105808973A (zh) 一种基于阶段性多策略的群体构象空间采样方法
CN109360599A (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN107025383A (zh) 基于多目标粒子群优化的蛋白质结构预测方法
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
CN107066834B (zh) 一种基于粒子群优化算法的蛋白质结构从头预测方法
CN109360596A (zh) 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN108920894A (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN105912885B (zh) 一种基于群体Lipschitz下界估计的蛋白质结构预测方法
CN105205347B (zh) 基于bsa-ts算法的蛋白质三维结构预测方法
CN109033753A (zh) 一种基于二级结构片段组装的群体蛋白质结构预测方法
Zhang et al. A new method for the construction of coarse-grained models of large biomolecules from low-resolution cryo-electron microscopy data
TWI326431B (en) Method and system of analyzing gene sequence
JP2020166747A (ja) 細胞膜透過性天然ペプチドの探索方法
CN109326319A (zh) 一种基于二级结构知识的蛋白质构象空间优化方法
CN109326318A (zh) 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant