CN108595910B - 一种基于多样性指标的群体蛋白质构象空间优化方法 - Google Patents
一种基于多样性指标的群体蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN108595910B CN108595910B CN201810438596.1A CN201810438596A CN108595910B CN 108595910 B CN108595910 B CN 108595910B CN 201810438596 A CN201810438596 A CN 201810438596A CN 108595910 B CN108595910 B CN 108595910B
- Authority
- CN
- China
- Prior art keywords
- population
- rosetta
- conformation
- calculating
- atom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 43
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 15
- 238000005215 recombination Methods 0.000 claims abstract description 14
- 230000006798 recombination Effects 0.000 claims abstract description 14
- 230000035772 mutation Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 15
- 238000000455 protein structure prediction Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
一种基于多样性指标的群体蛋白质构象空间优化方法,首先,利用Rosetta第一阶段进行片段组装生成初始种群,并利用Rosetta第二阶段进行片段组装生成新种群;然后,针对随机选取的Loop区域,对构象进行Loop交换,从而实现种群重组;其次,基于Loop区域,对每个构象进行变异操作,并将变异生成的所有新个体与当前种群进行合并,并提取构象的USR特性信息建立多样性指标,基于该指标和能量对整个种群进行更新操作;最后,分别利用Rosetta第三和第四阶段对整个种群进行进一步优化,从而得到最终预测结果。本发明采样效率较高、多样性较好、复杂度较低及预测精度较高。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于多样性指标的群体蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。蛋白质决定了细胞的功能,使细胞的活动与生命相关联。而蛋白质的三维结构是其独特功能特性的主要决定因素之一。因此,蛋白质结构的确定是理解这些重要的生命基石的功能的基本步骤。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。深入了解蛋白质的结构功能可以帮助设计具有特定功能的蛋白质,药物和疫苗的研发以及蛋白质错误折叠的病理特征(例如阿尔茨海默病)。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,计算方法已经成为蛋白质结构预测的基础。预测一个蛋白质分子的三维结构,只用它的氨基酸序列,但是在计算生物学中仍然是一个巨大的挑战。人们希望能够通过生物信息技术去精确的预测蛋白质结构。
与许多蛋白质结构预测方法一样,使用一种简化的三维结构表示蛋白质模型,它只包含关于主扭转角的信息。蛋白质结构预测使用片段组装方法,并通过基于物理的能量模型或者基于知识的能量模型指导搜索,而这种方法存在着能量函数的不精确、采样效率低、多样性差、复杂度较高、预测精度较低的不足,目前,最常用的片段组装的方法仍然依赖于数千次蒙特卡罗重启,而不是基于进化信息的的搜索技术。从某种意义上说,盲目的随机蒙特卡罗重启所得到的结果具有不确定性。
因此,现有的蛋白质结构预测方法在采样效率、种群多样性、计算复杂度及预测精度方面存在缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法采样效率低、构象多样性差、复杂度较高、预测精度较低的不足,本发明通过提取蛋白质的特征信息衡量构象的多样性,提出一种采样效率较高、多样性较好、复杂度较低及预测精度较高的基于多样性指标的群体蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于多样性指标的群体蛋白质构象空间优化方法,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
9.9)计算多样性指标
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。
本发明的技术构思为:首先,利用Rosetta第一阶段进行片段组装生成初始种群,并利用Rosetta第二阶段进行片段组装生成新种群;然后,针对随机选取的Loop区域,对构象进行Loop交换,从而实现种群重组;其次,基于Loop区域,对每个构象进行变异操作,并将变异生成的所有新个体与当前种群进行合并,并提取构象的USR特性信息建立多样性指标,基于该指标和能量对整个种群进行更新操作;最后,分别利用Rosetta第三和第四阶段对整个种群进行进一步优化,从而得到最终预测结果。本发明提供一种采样效率较高、多样性较好、复杂度较低及预测精度较高的基于多样性指标的群体蛋白质构象空间优化方法。
本发明的有益效果为:在Rosetta算法框架上加入了遗传算法和基于快速图形识别USR的多样性指标,从而产生更多较优构象,同时保持构象的多样性;在每阶段分别应用遗传算法进行优化和选择,而且巧妙的运用能量函数评价和多样性评价的动态切换,从而可以弥补能量函数不精确带来引起的预测误差,在一定程度上,防止算法陷入局部最优。
附图说明
图1是基于多样性指标的群体蛋白质构象空间优化方法对1ENH蛋白结构预测得到的RMSD和能量值散点图。
图2是基于多样性指标的群体蛋白质构象空间优化方法对1ENH蛋白结构预测得到的三维结构。
具体实施方式:
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于多样性指标的群体蛋白质构象空间优化方法,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,
I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
7)针对种群中的每一个构象进行变异,过程如下:
7.1)统计所有loop区域能够进行片段组装位置的数量WL,并计算变异概率
9.9)计算多样性指标
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。
本实施例以1ENH蛋白为实施例,一种基于多样性指标的群体蛋白质构象空间优化方法,其中包含以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP=100,重组因子RC=0.1,最大迭代代数Gmax=10,多样性接收概率p=0.5;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
7)针对种群中的每一个构象进行变异,过程如下:
9.9)计算多样性指标
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。
以上阐述的是本发明给出的一个实施例表现出来的优良优化效果,显然本发明不仅适合上述实施例,而且可以应用到实际工程中的各个领域,同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于多样性指标的群体蛋白质构象空间优化方法,其特征在于,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
9.9)计算多样性指标
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
11)对步骤6)-10)进行迭代直到达到最大迭代代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosettasocre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大迭代代数Gmax,其中能量函数采用Rosettasocre4;
14)输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810438596.1A CN108595910B (zh) | 2018-05-09 | 2018-05-09 | 一种基于多样性指标的群体蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810438596.1A CN108595910B (zh) | 2018-05-09 | 2018-05-09 | 一种基于多样性指标的群体蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595910A CN108595910A (zh) | 2018-09-28 |
CN108595910B true CN108595910B (zh) | 2021-08-03 |
Family
ID=63636508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810438596.1A Active CN108595910B (zh) | 2018-05-09 | 2018-05-09 | 一种基于多样性指标的群体蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595910B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584954B (zh) * | 2018-11-05 | 2021-04-06 | 浙江工业大学 | 一种基于多种群联合搜索的蛋白质构象空间优化方法 |
CN114661760B (zh) * | 2021-09-30 | 2022-12-06 | 金篆信科有限责任公司 | 数据库的多表查询方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2473295A (en) * | 2009-09-07 | 2011-03-09 | Univ Basel | Self assembling protein fibres |
CN104732115A (zh) * | 2014-11-25 | 2015-06-24 | 浙江工业大学 | 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法 |
CN105046101A (zh) * | 2015-06-08 | 2015-11-11 | 浙江工业大学 | 一种基于副本交换和局部增强策略的群体构象空间搜索方法 |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005044087A2 (en) * | 2003-11-05 | 2005-05-19 | The Regents Of The University Of California | Methods for the determination of protein three-dimensional structure employing hydrogen exchange analysis to refine computational structure prediction |
-
2018
- 2018-05-09 CN CN201810438596.1A patent/CN108595910B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2473295A (en) * | 2009-09-07 | 2011-03-09 | Univ Basel | Self assembling protein fibres |
CN104732115A (zh) * | 2014-11-25 | 2015-06-24 | 浙江工业大学 | 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法 |
CN105046101A (zh) * | 2015-06-08 | 2015-11-11 | 浙江工业大学 | 一种基于副本交换和局部增强策略的群体构象空间搜索方法 |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108595910A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | iORI-PseKNC: a predictor for identifying origin of replication with pseudo k-tuple nucleotide composition | |
Ao et al. | RFhy-m2G: identification of RNA N2-methylguanosine modification sites based on random forest and hybrid features | |
CN108846256B (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
Choo et al. | Recent applications of hidden Markov models in computational biology | |
Zhao et al. | Essential protein discovery based on a combination of modularity and conservatism | |
EP1328805A2 (en) | System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map | |
CN108595910B (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109360599B (zh) | 一种基于残基接触信息交叉策略的蛋白质结构预测方法 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
CN108647486B (zh) | 一种基于构象多样性策略的蛋白质三维结构预测方法 | |
JP2008146538A (ja) | マイクロrna検出装置、方法およびプログラム | |
CN104951670B (zh) | 一种基于距离谱的群体构象空间优化方法 | |
Hao et al. | A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space | |
Sun et al. | Smolign: a spatial motifs-based protein multiple structural alignment method | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
Zhang et al. | Two-stage distance feature-based optimization algorithm for de novo protein structure prediction | |
CN109346128B (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
CN109360598B (zh) | 一种基于两阶段采样的蛋白质结构预测方法 | |
Iqbal et al. | A distance-based feature-encoding technique for protein sequence classification in bioinformatics | |
Mirceva et al. | HMM based approach for classifying protein structures | |
Korotkov et al. | Search for regions with periodicity using the random position weight matrices in the C. elegans genome | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN110718267B (zh) | 一种基于多模态构象空间采样的蛋白质结构预测方法 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |