CN108647486B - 一种基于构象多样性策略的蛋白质三维结构预测方法 - Google Patents

一种基于构象多样性策略的蛋白质三维结构预测方法 Download PDF

Info

Publication number
CN108647486B
CN108647486B CN201810238662.0A CN201810238662A CN108647486B CN 108647486 B CN108647486 B CN 108647486B CN 201810238662 A CN201810238662 A CN 201810238662A CN 108647486 B CN108647486 B CN 108647486B
Authority
CN
China
Prior art keywords
population
individuals
conformation
protein
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810238662.0A
Other languages
English (en)
Other versions
CN108647486A (zh
Inventor
张贵军
刘俊
王柳静
谢腾宇
周晓根
马来发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810238662.0A priority Critical patent/CN108647486B/zh
Publication of CN108647486A publication Critical patent/CN108647486A/zh
Application granted granted Critical
Publication of CN108647486B publication Critical patent/CN108647486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physiology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于构象多样性策略的蛋白质三维结构预测方法,在遗传算法的框架下,采用Rosetta标准协议;利用遗传算子对构象的loop区域进行操作,增强对loop区域的空间搜索;引入基于蛋白质二级结构信息的多样性指标,结合构象的能量值作为种群更新的选择标准,增强种群多样性的同时降低能量函数不精确带来的不利影响,从而预测出精度更高的近天然态构象。本发明提供一种预测精度较高的基于构象多样性策略的蛋白质三维结构预测方法。

Description

一种基于构象多样性策略的蛋白质三维结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于构象多样性策略的蛋白质三维结构预测方法。
背景技术
蛋白质分子是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。蛋白质的功能十分丰富,对机体的正常运行起着至关重要的作用。而蛋白质的三维结构决定着蛋白质的功能,蛋白质只有正确的折叠成特定的三维结构才能产生特有的生物功能。由于蛋白质错误折叠引起的疾病并不少见。因此,要了解蛋白质的功能、治愈与蛋白质有关的多种疾病,就必须获得蛋白质的三维结构。
二十世纪末以来,生命科学领域飞速发展,作为生物体内分布最广、功能最复杂的一类大分子,蛋白质受到尤为广泛的关注和研究。蛋白质的三维结构预测是生物信息学的一个重要任务。不同的蛋白质拥有不同的氨基酸序列,所有蛋白质都会在其一维序列的基础上折叠形成特定的三维结构,了解蛋白质的三维结构是研究其生物功能的基础。目前蛋白质的三维结构主要通过X射线晶体衍射和核磁共振成像技术得到,但这两种通过实验的方法获取蛋白质结构的成本均不菲,并且有各自的应用局限。因此,通过计算机技术结合生物信息学的方法模拟蛋白质从氨基酸序列折叠成特定的空间结构的过程,从而预测蛋白质的三维结构就显得尤为重要。从头蛋白质结构预测方法得尤为重要。从头蛋白质结构预测方法不依赖任何已知结构,而是从蛋白质的氨基酸序列出发,根据Anfinsen原则,通过构象搜索方法搜寻目标蛋白质的天然结构。从头蛋白质预测方法的发展也是对“第二遗传密码”的探索过程,具有非凡的物理意义。
目前比较成功的从头蛋白质结构预测方法有David Baker及其团队设计的Rosetta方法、张阳及其团队开发的QUARK方法等。但是至今还没有一种非常完善的蛋白质三维结构预测方法。目前主要的技术难点来源于两个方面,一方面是现有的构象空间采样方法的采样能力不够强,另一方面在于能量函数的不精确使得仅以能量值作为构象更新的选择标准并不能产生十分令人满意的结果。
因此,目前的蛋白质三维结构预测方法存在不足,需要改进。
发明内容
为了克服蛋白质构象空间采样方法的采样能力不够强和能量函数不精确带来的不利影响,本发明基于遗传算法的框架,提出了一种基于构象多样性策略的蛋白质三维结构预测方法,在遗传算法的框架下,采用Rosetta标准协议;利用遗传算子对构象的loop区域进行操作,增强对loop区域的空间搜索;引入基于蛋白质二级结构信息的多样性指标,结合构象的能量值作为种群更新的选择标准,增强种群多样性的同时降低能量函数不精确带来的不利影响。
本发明解决其技术问题所采用的技术方案是:
一种基于构象多样性策略的蛋白质三维结构预测方法,所述预测方法包括以下步骤:
1)给定预测蛋白质序列信息;
2)设置系统参数:种群规模N,种群的进化次数Gmax,重组概率pc,变异概率pm
3)第一阶段,种群初始化:迭代Rosetta协议第一阶段的片段组装,产生具有N个个体的初始种群
Figure GDA0002969077750000021
Figure GDA0002969077750000022
4)第二、三、四阶段基于相应的Rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,Gmax};
6)对种群Pnew中的每一个个体Pi new,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群P={P1,P2,...,PN},g=g+1;
7)对种群P中的个体执行遗传算子操作和局部搜索,产生新的种群P*,过程如下:
7.1)对种群P中的个体随机两两配对,生成N/2对父本<Pi,Pj>,其中i,j均∈{1,2,...,N},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换Pi和Pj的一个loop区域的残基二面角值,产生对应的新构象个体Pi′,Pj′,所有父本执行完重组操作后形成新的种群P′;
7.3)执行变异操作:对种群P′中的每一个个体Pi′,其中i∈{1,2,...,N},进行变异,过程如下:
7.3.1)检测个体Pi′的每一个滑动窗口Wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,L-f+1},L表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若Wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体Pi″;
7.3.4)所有个体执行完变异操作后形成新的种群P″;
7.4)执行局部搜索操作:对种群P″中的每一个个体Pi″,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体Pi *;所有个体执行完局部搜索操作后形成新的种群P*
8)生成候选个体集合
Figure GDA0002969077750000031
其中M表示集合
Figure GDA0002969077750000032
中的个体数量;计算每一个候选个体
Figure GDA0002969077750000033
的能量
Figure GDA0002969077750000034
和多样性
Figure GDA0002969077750000035
其中t∈{1,2,...,M},过程如下:
8.1)候选个体的能量
Figure GDA0002969077750000036
由Rosetta协议相应阶段的能量函数计算;
8.2)候选个体的多样性
Figure GDA0002969077750000037
其中均方根误差
Figure GDA0002969077750000038
表示构象xt和xl的相似程度,l∈{1,2,...,M};Γ=<γ12,...,γG>表示构象的折叠状态,其中γe表示构象中二级结构元素间的位置关系,e∈{1,2,...G};G=2m(m-1),m表示构象中二级结构元素的个数;
9)从候选个体集合中选择优秀个体进入下一代,过程如下;
9.1)根据构象的能量和多样性对候选个体进行排序;执行R次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,R-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
Figure GDA0002969077750000039
Figure GDA00029690777500000310
交换
Figure GDA00029690777500000311
Figure GDA00029690777500000312
的位置,转至步骤9.2.7);否则,执行步骤9.2.3);
9.2.3)若
Figure GDA0002969077750000041
Figure GDA0002969077750000042
交换
Figure GDA0002969077750000043
Figure GDA0002969077750000044
的位置,转至步骤9.2.7);否则,执行步骤9.2.4);
9.2.4)若
Figure GDA0002969077750000045
Figure GDA0002969077750000046
且rand3≤0.5,交换
Figure GDA0002969077750000047
Figure GDA0002969077750000048
的位置,转至步骤9.2.7);否则,执行步骤9.2.5);
9.2.5)若rand3≤0.5且
Figure GDA0002969077750000049
交换
Figure GDA00029690777500000410
Figure GDA00029690777500000411
的位置,转至步骤9.2.7);否则,执行步骤9.2.6);
9.2.6)若rand3>0.5且
Figure GDA00029690777500000412
交换
Figure GDA00029690777500000413
Figure GDA00029690777500000414
的位置,转至步骤9.2.7);
9.2.7)h=h+1,若h≤R-1,转至9.2.1);否则,结束本次循环;
9.3)执行完R次循环排序后,生成有序的候选个体集合
Figure GDA00029690777500000415
9.4)选择集合
Figure GDA00029690777500000416
的前N个个体形成下一代种群Pnew
9.5)g=g+1,若g≤Gmax,转至步骤7);否则,结束本阶段循环;
10)根据Rosetta协议输出预测结果。
本发明的有益效果为:在遗传算法的框架下,采用Rosetta标准协议;利用遗传算子对构象的loop区域进行操作,增强对loop区域的空间搜索;引入基于蛋白质二级结构信息的多样性指标,结合构象的能量值作为种群更新的选择标准,增强种群多样性的同时降低能量函数不精确带来的不利影响,从而预测出精度更高的近天然态构象。
附图说明
图1是基于构象多样性策略的蛋白质三维结构预测方法对蛋白质1C8CA进行结构预测时的构象更新示意图。
图2是基于构象多样性策略的蛋白质三维结构预测方法对蛋白质1C8CA进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于构象多样性策略的蛋白质三维结构预测方法,包括以下步骤:
1)给定预测蛋白质序列信息;
2)设置系统参数:种群规模N,种群的进化次数Gmax,重组概率pc,变异概率pm
3)第一阶段,种群初始化:迭代Rosetta协议第一阶段的片段组装,产生具有N个个体的初始种群
Figure GDA0002969077750000051
Figure GDA0002969077750000052
4)第二、三、四阶段基于相应的Rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,Gmax};
6)对种群Pnew中的每一个个体Pi new,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群P={P1,P2,...,PN},g=g+1;
7)对种群P中的个体执行遗传算子操作和局部搜索,产生新的种群P*,过程如下:
7.1)对种群P中的个体随机两两配对,生成N/2对父本<Pi,Pj>,其中i,j均∈{1,2,...,N},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换Pi和Pj的一个loop区域的残基二面角值,产生对应的新构象个体Pi′,Pj′,所有父本执行完重组操作后形成新的种群P′;
7.3)执行变异操作:对种群P′中的每一个个体Pi′,其中i∈{1,2,...,N},进行变异,过程如下:
7.3.1)检测个体Pi′的每一个滑动窗口Wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,L-f+1},L表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若Wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体Pi″;
7.3.4)所有个体执行完变异操作后形成新的种群P″;
7.4)执行局部搜索操作:对种群P″中的每一个个体Pi″,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体Pi *;所有个体执行完局部搜索操作后形成新的种群P*
8)生成候选个体集合
Figure GDA0002969077750000053
其中M表示集合
Figure GDA0002969077750000054
中的个体数量;计算每一个候选个体
Figure GDA0002969077750000061
的能量
Figure GDA0002969077750000062
和多样性
Figure GDA0002969077750000063
其中t∈{1,2,...,M};过程如下:
8.1)候选个体的能量
Figure GDA0002969077750000064
由Rosetta协议相应阶段的能量函数计算;
8.2)候选个体的多样性
Figure GDA0002969077750000065
其中均方根误差
Figure GDA0002969077750000066
表示构象xt和xl的相似程度,l∈{1,2,...,M};Γ=<γ12,...,γG>表示构象的折叠状态,其中γe表示构象中二级结构元素间的位置关系,e∈{1,2,...G};G=2m(m-1),m表示构象中二级结构元素的个数;
9)从候选个体集合中选择优秀个体进入下一代,过程如下:
9.1)根据构象的能量和多样性对候选个体进行排序;执行R次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,R-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
Figure GDA0002969077750000067
Figure GDA0002969077750000068
交换
Figure GDA0002969077750000069
Figure GDA00029690777500000610
的位置,转至步骤9.2.7);否则,执行步骤9.2.3);
9.2.3)若
Figure GDA00029690777500000611
Figure GDA00029690777500000612
交换
Figure GDA00029690777500000613
Figure GDA00029690777500000614
的位置,转至步骤9.2.7);否则,执行步骤9.2.4);
9.2.4)若
Figure GDA00029690777500000615
Figure GDA00029690777500000616
且rand3≤0.5,交换
Figure GDA00029690777500000617
Figure GDA00029690777500000618
的位置,转至步骤9.2.7);否则,执行步骤9.2.5);
9.2.5)若rand3≤0.5且
Figure GDA00029690777500000619
交换
Figure GDA00029690777500000620
Figure GDA00029690777500000621
的位置,转至步骤9.2.7);否则,执行步骤9.2.6);
9.2.6)若rand3>0.5且
Figure GDA00029690777500000622
交换
Figure GDA00029690777500000623
Figure GDA00029690777500000624
的位置,转至步骤9.2.7);
9.2.7)h=h+1,若h≤R-1,转至9.2.1);否则,结束本次循环;
9.3)执行完R次循环排序后,生成有序的候选个体集合
Figure GDA00029690777500000625
9.4)选择集合
Figure GDA0002969077750000071
的前N个个体形成下一代种群Pnew
9.5)g=g+1,若g≤Gmax,转至步骤7);否则,结束本阶段循环;
10)根据Rosetta协议输出预测结果。
本实施例以序列长度为62的蛋白质1C8CA为实施例,一种基于构象多样性策略的蛋白质三维结构预测方法,其中包含以下步骤:
1)给定预测蛋白质序列信息1C8CA;
2)设置系统参数:种群规模N=100,种群的进化次数Gmax=10,重组概率pc=0.1,变异概率pm=0.1;
3)第一阶段,种群初始化:迭代Rosetta协议第一阶段的片段组装,产生具有N个个体的初始种群
Figure GDA0002969077750000072
Figure GDA0002969077750000073
4)第二、三、四阶段基于相应的Rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,Gmax};
6)对种群Pnew中的每一个个体Pi new,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群P={P1,P2,...,PN},g=g+1;
7)对种群P中的个体执行遗传算子操作和局部搜索,产生新的种群P*,过程如下:
7.1)对种群P中的个体随机两两配对,生成N/2对父本<Pi,Pj>,其中i,j均∈{1,2,...,N},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换Pi和Pj的一个loop区域的残基二面角值,产生对应的新构象个体Pi′,Pj′,所有父本执行完重组操作后形成新的种群P′;
7.3)执行变异操作:对种群P′中的每一个个体Pi′,其中i∈{1,2,...,N},进行变异,过程如下:
7.3.1)检测个体Pi′的每一个滑动窗口Wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,l-f+1},l表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若Wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体Pi″;
7.3.4)所有个体执行完变异操作后形成新的种群P″;
7.4)执行局部搜索操作:对种群P″中的每一个个体Pi″,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体Pi *;所有个体执行完局部搜索操作后形成新的种群P*
8)生成候选个体集合
Figure GDA0002969077750000081
其中M表示集合
Figure GDA0002969077750000082
中的个体数量;计算每一个候选个体
Figure GDA0002969077750000083
的能量
Figure GDA0002969077750000084
和多样性
Figure GDA0002969077750000085
其中t∈{1,2,...,M};过程如下:
8.1)候选个体的能量
Figure GDA0002969077750000086
由Rosetta协议相应阶段的能量函数计算;
8.2)候选个体的多样性
Figure GDA0002969077750000087
其中均方根误差
Figure GDA0002969077750000088
表示构象xt和xl的相似程度,l∈{1,2,...,M};Γ=<γ12,...,γG>表示构象的折叠状态,其中γe表示构象中二级结构元素间的位置关系,e∈{1,2,...G};G=2m(m-1),m表示构象中二级结构元素的个数;
9)从候选个体集合中选择优秀个体进入下一代,过程如下:
9.1)根据构象的能量和多样性对候选个体进行排序;执行R次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,R-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
Figure GDA0002969077750000089
Figure GDA00029690777500000810
交换
Figure GDA00029690777500000811
Figure GDA00029690777500000812
的位置,转至步骤9.2.7);否则,执行步骤9.2.3);
9.2.3)若
Figure GDA00029690777500000813
Figure GDA00029690777500000814
交换
Figure GDA00029690777500000815
Figure GDA00029690777500000816
的位置,转至步骤9.2.7);否则,执行步骤9.2.4);
9.2.4)若
Figure GDA00029690777500000817
Figure GDA00029690777500000818
且rand3≤0.5,交换
Figure GDA00029690777500000819
Figure GDA00029690777500000820
的位置,转至步骤9.2.7);否则,执行步骤9.2.5);
9.2.5)若rand3≤0.5且
Figure GDA0002969077750000091
交换
Figure GDA0002969077750000092
Figure GDA0002969077750000093
的位置,转至步骤9.2.7);否则,执行步骤9.2.6);
9.2.6)若rand3>0.5且
Figure GDA0002969077750000094
交换
Figure GDA0002969077750000095
Figure GDA0002969077750000096
的位置,转至步骤9.2.7);
9.2.7)h=h+1,若h≤R-1,转至9.2.1);否则,结束本次循环;
9.3)执行完R次循环排序后,生成有序的候选个体集合
Figure GDA0002969077750000097
9.4)选择集合
Figure GDA0002969077750000098
的前N个个体形成下一代种群Pnew
9.5)g=g+1,若g≤Gmax,转至步骤7);否则,结束本阶段循环;
10)根据Rosetta协议输出预测结果。
以序列长度为62的蛋白质1C8CA为实施例,运用以上方法得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示;最小均方根偏差为
Figure GDA0002969077750000099
预测结构如图2所示。
以上阐述是本发明给出的一个实施例表现出来的预测效果,显然本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims (1)

1.一种基于构象多样性策略的蛋白质三维结构预测方法,其特征在于:所述蛋白质三维结构预测方法包括以下步骤:
1)给定预测蛋白质序列信息;
2)设置系统参数:种群规模N,种群的进化次数Gmax,重组概率pc,变异概率pm
3)第一阶段,种群初始化:迭代Rosetta协议第一阶段的片段组装,产生具有N个个体的初始种群
Figure FDA0002969077740000011
Figure FDA0002969077740000012
4)第二、三、四阶段基于相应的Rosetta协议,分别执行步骤5)至步骤9);
5)开始迭代,设g=1,其中种群代数g∈{1,2,...,Gmax};
6)对种群Pnew中的每一个个体Pi new,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行构象搜索,产生下一代种群P={P1,P2,...,PN},g=g+1;
7)对种群P中的个体执行遗传算子操作和局部搜索,产生新的种群P*,过程如下:
7.1)对种群P中的个体随机两两配对,生成N/2对父本<Pi,Pj>,其中i,j均∈{1,2,...,N},且i≠j;
7.2)执行重组操作:对每一对父本,生成随机数rand1∈[0,1];当rand1≤pc,随机交换Pi和Pj的一个loop区域的残基二面角值,产生对应的新构象个体Pi′,Pj′,所有父本执行完重组操作后形成新的种群P′;
7.3)执行变异操作:对种群P′中的每一个个体Pi′,其中i∈{1,2,...,N},进行变异,过程如下:
7.3.1)检测个体Pi′的每一个滑动窗口Wik中是否含有二级结构为loop的残基,其中k∈{1,2,...,l-f+1},l表示蛋白质序列的长度,f∈{3,9}表示片段的长度,第二、三阶段f=9,第四阶段f=3;
7.3.2)若Wik中含有二级结构为loop残基:生成随机数rand2∈[0,1];rand2≤pm,执行一次片段插入,对该窗口中的loop残基进行变异;
7.3.3)遍历完所有窗口后,产生新的个体Pi″;
7.3.4)所有个体执行完变异操作后形成新的种群P″;
7.4)执行局部搜索操作:对种群P″中的每一个个体Pi″,其中i∈{1,2,...,N},使用Rosetta协议相应阶段的片段组装进行局部搜索,产生新的个体Pi *;所有个体执行完局部搜索操作后形成新的种群P*
8)生成候选个体集合
Figure FDA0002969077740000021
其中M表示集合
Figure FDA0002969077740000022
中的个体数量;计算每一个候选个体
Figure FDA0002969077740000023
的能量
Figure FDA0002969077740000024
和多样性
Figure FDA0002969077740000025
其中t∈{1,2,...,M};过程如下:
8.1)候选个体的能量
Figure FDA0002969077740000026
由Rosetta协议相应阶段的能量函数计算;
8.2)候选个体的多样性
Figure FDA0002969077740000027
其中均方根误差
Figure FDA0002969077740000028
表示构象xt和xl的相似程度,l∈{1,2,...,M};Γ=<γ12,...,γG>表示构象的折叠状态,其中γe表示构象中二级结构元素间的位置关系,e∈{1,2,...G};G=2m(m-1),m表示构象中二级结构元素的个数;
9)从候选个体集合中选择优秀个体进入下一代,过程如下:
9.1)根据构象的能量和多样性对候选个体进行排序;执行R次循环排序,每次循环执行步骤9.2);
9.2)设h=1,其中h∈{1,2,...,R-1},过程如下:
9.2.1)生成随机数rand3∈[0,1];
9.2.2)若
Figure FDA0002969077740000029
Figure FDA00029690777400000210
交换
Figure FDA00029690777400000211
Figure FDA00029690777400000212
的位置,转至步骤9.2.7);否则,执行步骤9.2.3);
9.2.3)若
Figure FDA00029690777400000213
Figure FDA00029690777400000214
交换
Figure FDA00029690777400000215
Figure FDA00029690777400000216
的位置,转至步骤9.2.7);否则,执行步骤9.2.4);
9.2.4)若
Figure FDA00029690777400000217
Figure FDA00029690777400000218
且rand3≤0.5,交换
Figure FDA00029690777400000219
Figure FDA00029690777400000220
的位置,转至步骤9.2.7);否则,执行步骤9.2.5);
9.2.5)若rand3≤0.5且
Figure FDA00029690777400000221
交换
Figure FDA00029690777400000222
Figure FDA00029690777400000223
的位置,转至步骤9.2.7);否则,执行步骤9.2.6);
9.2.6)若rand3>0.5且
Figure FDA0002969077740000031
交换
Figure FDA0002969077740000032
Figure FDA0002969077740000033
的位置,转至步骤9.2.7);
9.2.7)h=h+1,若h≤R-1,转至9.2.1);否则,结束本次循环;
9.3)执行完R次循环排序后,生成有序的候选个体集合
Figure FDA0002969077740000034
9.4)选择集合
Figure FDA0002969077740000035
的前N个个体形成下一代种群Pnew
9.5)g=g+1,若g≤Gmax,转至步骤7);否则,结束本阶段循环;
10)根据Rosetta协议输出预测结果。
CN201810238662.0A 2018-03-22 2018-03-22 一种基于构象多样性策略的蛋白质三维结构预测方法 Active CN108647486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810238662.0A CN108647486B (zh) 2018-03-22 2018-03-22 一种基于构象多样性策略的蛋白质三维结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810238662.0A CN108647486B (zh) 2018-03-22 2018-03-22 一种基于构象多样性策略的蛋白质三维结构预测方法

Publications (2)

Publication Number Publication Date
CN108647486A CN108647486A (zh) 2018-10-12
CN108647486B true CN108647486B (zh) 2021-06-18

Family

ID=63744681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810238662.0A Active CN108647486B (zh) 2018-03-22 2018-03-22 一种基于构象多样性策略的蛋白质三维结构预测方法

Country Status (1)

Country Link
CN (1) CN108647486B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804868B (zh) * 2018-03-30 2021-05-18 浙江工业大学 一种基于二面角熵值的蛋白质两阶段构象空间优化方法
CN109584954B (zh) * 2018-11-05 2021-04-06 浙江工业大学 一种基于多种群联合搜索的蛋白质构象空间优化方法
CN110189794B (zh) * 2019-04-16 2021-01-01 浙江工业大学 一种残基接触引导loop扰动的群体蛋白质结构预测方法
CN110556161B (zh) * 2019-08-13 2022-04-05 浙江工业大学 一种基于构象多样性采样的蛋白质结构预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015178940A1 (en) * 2014-05-20 2015-11-26 American University Of Cairo (Auc) Ligands that target plasmodium sporozoite binding sites on cd81 and therapeutic methods using them
WO2016154220A1 (en) * 2015-03-23 2016-09-29 New York University Systems and methods of fragment-centric topographical mapping (fctm) to target protein-protein interactions
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107609342A (zh) * 2017-08-11 2018-01-19 浙江工业大学 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN107633157A (zh) * 2017-08-29 2018-01-26 浙江工业大学 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015178940A1 (en) * 2014-05-20 2015-11-26 American University Of Cairo (Auc) Ligands that target plasmodium sporozoite binding sites on cd81 and therapeutic methods using them
WO2016154220A1 (en) * 2015-03-23 2016-09-29 New York University Systems and methods of fragment-centric topographical mapping (fctm) to target protein-protein interactions
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107609342A (zh) * 2017-08-11 2018-01-19 浙江工业大学 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN107633157A (zh) * 2017-08-29 2018-01-26 浙江工业大学 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Addressing the Role of Conformational Diversity in Protein Structure Prediction";Palopoli N;《Plos One》;20160509;第1-14页 *
"基于副本交换的局部增强差分进化蛋白质结构从头预测方法";李章维;《计算机科学》;20170531;第211-217页 *

Also Published As

Publication number Publication date
CN108647486A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
Deng et al. Protein structure prediction
CN108647486B (zh) 一种基于构象多样性策略的蛋白质三维结构预测方法
CN107633159B (zh) 一种基于距离相似度的蛋白质构象空间搜索方法
CN107609342B (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN103714265B (zh) 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
Dhingra et al. A glance into the evolution of template-free protein structure prediction methodologies
Alipanahi et al. Determining protein structures from NOESY distance constraints by semidefinite programming
CN108062457B (zh) 一种结构特征向量辅助选择的蛋白质结构预测方法
CN109360596B (zh) 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
Trevizani et al. Critical features of fragment libraries for protein structure prediction
CN104951670B (zh) 一种基于距离谱的群体构象空间优化方法
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
Hao et al. A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN108595910B (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN108804868B (zh) 一种基于二面角熵值的蛋白质两阶段构象空间优化方法
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
CN109461471B (zh) 一种基于锦标赛机制的自适应蛋白质结构预测方法
CN109243525B (zh) 一种基于种群熵的阶段性蛋白质结构预测方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109300504B (zh) 一种基于多变异精英选择的蛋白质结构预测方法
CN109326318B (zh) 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法
CN108647488B (zh) 一种基于局部扰动的群体蛋白质构象空间优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant