CN112967751A - 一种基于进化搜索的蛋白质构象空间优化方法 - Google Patents
一种基于进化搜索的蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN112967751A CN112967751A CN202110299297.6A CN202110299297A CN112967751A CN 112967751 A CN112967751 A CN 112967751A CN 202110299297 A CN202110299297 A CN 202110299297A CN 112967751 A CN112967751 A CN 112967751A
- Authority
- CN
- China
- Prior art keywords
- population
- individuals
- potential energy
- fragment
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于生物信息学、智能优化、计算机应用领域,公开了基于进化搜索的蛋白质构象空间优化方法。本发明包括:用氨基酸序列在第0代时的随机构象初始化种群;将种群中个体按照势能值排序;选择低势能个体作为当前采样前的父代个体,对每一个父代个体应用片段替换技术进行修改生成子代个体;对得到的每一个子代个体,应用最小化策略进行一系列的片段替换运动,映射到附近的极小值状态;将经过最小化策略处理后的所有子代个体与种群中其他个体形成的并集经过截断选择后选出新的种群。本发明改进了基本进化方法的不足,如:容易过早收敛到次优区域。本发明借助于以局部贪婪搜索为特征的最小化步骤,实现了采样能力更高的蛋白质构象空间探索方法。
Description
技术领域:
本发明涉及生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于进化搜索的蛋白质构象空间优化方法。
背景技术:
蛋白质结构预测是计算结构生物学领域一直以来的研究热点之一。蛋白质分子由20种常见的氨基酸组成,在其生物活性状态下通常维持一定的立体结构,并发挥相应的功能。
在蛋白质结构研究中,虽然X射线晶体衍射、核磁共振、冷冻电镜等实验技术能够较准确地提取到蛋白质天然结构中的原子坐标,但实验方法在能够应用的目标、研究的分辨率以及质量等方面,都存在一定的局限性。尤其对于药物设计的主要靶标膜蛋白来说,极难通过此类方法测定其三级结构。另一方面,在预测蛋白质三级结构的计算方法中,从头预测则考虑从氨基酸序列所提供的信息中来计算其天然结构。
从头预测领域主要面临两大挑战:构象空间的高维性和能量表面的崎岖不平。研究表明,已知目标序列,其所有可能的空间排布所构成的构象空间的大小随着序列长度的增加呈指数级增长。进化方法是一种用以解决复杂的搜索和优化问题的随机优化方法,是众多从头预测研究中用来探索蛋白质分子构象空间的首选搜索方法。但该方法在搜索过程中所表现出来的贪婪性质使得它在可能检测到天然结构的同时,容易过早收敛到构象空间的次优区域,明显降低搜索效率。
因此,可以对基本进化方法结合特定领域的技术做出适当的优化实现对现有问题的改进。
发明内容:
为了克服由于基本进化方法中过高的收敛性,从而陷入能量表面的局部极小值区域。本发明提出一种采样效率较高且能提高采样构象质量的基于进化搜索的蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于进化搜索的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置种群规模Ps,当前种群的势能指标ECNT,能量评估预算Emin,初始种群搜索轨迹长度N,每一代采样数Numchild,运动计数器COUNT;
3)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始构象;
4)对当前种群P,进行如下操作:
4.1)根据势能值从P中选出Numchild个低势能构象作为父代个体;
4.2)对父代个体xi进行如下的片段替换运动:
4.2.1)在所述父代个体序列上随机均匀地采样一个残基位置i,则对应产生一个由3个连续残基构成的片段[i,i+2],其中i为父代个体构象链上随机采样的残基编号;
4.2.2)针对目标片段,从其片段库中随机选择一个片段构型替换目标片段得到子代个体xi ′;当处理完所有Numchild个父代个体时,进入步骤4.3),否则返回步骤4.2)处理下一父代个体;
4.3)对步骤4.2)采样得到的Numchild个子代个体进行如下操作:
4.3.1)取子代个体xi ′序列的连续残基[i,i+2],i=0,1,…,n-2作为目标片段,其中n为子代个体xi ′的残基数;
4.3.2)对于目标片段[i,i+2]∈xi ′,从其片段库中随机选择一个片段构型替换该片段得到新的子代个体xi″,若替换运动使得势能值减小,则接受本次替换,运动计数器增1,否则随机选择库中的下一片段尝试替换,若连续n的替换都被拒绝,则默认完成当前片段的操作,运动计数器增1,若运动计数器COUNT<n-2,继续处理下一片段,否则进入步骤4.4);
4.4)对当前种群P与新的Numchild个子孙个体构成的并集进行截断选择,将并集中的所有构象,按照势能值由低到高排序,并选出势能最低的Ps个个体组成新的种群;
5)若ECNT>Emin,则返回步骤4),否则输出新的种群,其中ECNT表示当前势能评估预算,Emin表示最小目标势能。
本发明的技术构思为:
在进化方法探索目标系统构象空间的过程中,对当前种群经过采样步骤得到的子孙构象通过增加一个最小化步骤,将其映射到最近的代表极小势能的状态,并替换该子孙构象构成并进入下一代种群,参与后续种群的更新迭代。
本发明的有益效果表现在:
通过将每一代种群采样的构象映射到一个极小值,完成了对原构象代表的极小值的跳脱,使得后续的采样从新的起点推动空间探索。一方面增加了种群中构象的结构多样性,有利于探索到更多有效的低势能构象,提高基本进化方法的构象采样能力;另一方面,扩大了探索的能量表面低势能区域的视野,增加了捕捉到天然态构象的可能性。
附图说明:
图1是基于进化搜索的蛋白质构象空间优化方法的流程图。
具体实施方式:
下面结合附图和具体实施方法对本发明作进一步详细的说明:
参照图1,一种基于进化搜索的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置种群规模Ps=1000,当前种群的势能指标ECNT=0,能量评估预算Emin=1000w,初始种群搜索轨迹长度N=2500,每一代采样数Numchild=300,运动计数器COUNT=0;
3)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始构象;
4)对当前种群P,进行如下操作:
4.1)根据势能值从P中选出Numchild个低势能构象作为父代个体;
4.2)对父代个体xi进行如下的片段替换运动:
4.2.1)在该父代个体序列上随机均匀地采样一个残基位置i,则对应产生一个由3个连续残基构成的片段[i,i+2],其中i为父代个体构象链上随机采样的残基编号;
4.2.2)针对该目标片段,从其片段库中随机选择一个片段构型替换该片段得到子代个体xi ′。当处理完所有Numchild个父代个体时,进入步骤4.3),否则返回步骤4.2)处理下一父代个体;
4.3)对步骤4.2)采样得到的Numchild个子代个体进行如下操作:
4.3.1)取子代个体xi ′序列的连续残基[i,i+2],i=0,1,…,n-2作为目标片段,其中n为子代个体xi ′的残基数;
4.3.2)对于目标片段[i,i+2]∈xi ′,从其片段库中随机选择一个片段构型替换该片段得到新的子代个体xi″,若替换运动使得势能值减小,则接受本次替换,运动计数器增1,否则随机选择库中的下一片段尝试替换,若连续n的替换都被拒绝,则默认完成当前片段的操作,运动计数器增1,若运动计数器COUNT<n-2,继续处理下一片段,否则进入步骤4.4);
4.4)对当前种群P与新的Numchild个子孙个体构成的并集进行截断选择。将并集中的所有构象,按照势能值由低到高排序,并选出势能最低的Ps个个体组成新的种群。
5)若ECNT>Emin,则返回步骤4),否则输出新的种群,其中ECNT表示当前势能评估预算,Emin表示最小目标势能。
上述对实施例的描述是针对蛋白质结构从头预测方法在构象空间探索中,以进化算法等计算结构生物学领域的随机优化算法为主要框架来实现,相关研究能够应用。因此,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于进化搜索的蛋白质构象空间优化方法,其特征在于,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置种群规模Ps,当前种群的势能指标ECNT,能量评估预算Emin,初始种群搜索轨迹长度N,每一代采样数Numchiild,运动计数器COUNT;
3)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始构象;
4)对当前种群P,进行如下操作:
4.1)根据势能值从P中选出Numchiild个低势能构象作为父代个体;
4.2)对父代个体xi进行如下的片段替换运动:
4.2.1)在所述父代个体序列上随机均匀地采样一个残基位置i,则对应产生一个由3个连续残基构成的片段[i,i+2],其中i为父代个体构象链上随机采样的残基编号;
4.2.2)针对目标片段,从其片段库中随机选择一个片段构型替换目标片段得到子代个体x′i;当处理完所有Numchiild个父代个体时,进入步骤4.3),否则返回步骤4.2)处理下一父代个体;
4.3)对步骤4.2)采样得到的Numchiild个子代个体进行如下操作:
4.3.1)取子代个体x′i序列的连续残基[i,i+2],i=0,1,…,n-2作为目标片段,其中n为子代个体x′i的残基数;
4.3.2)对于目标片段[i,i+2]∈x′i,从其片段库中随机选择一个片段构型替换该片段得到新的子代个体x″i,若替换运动使得势能值减小,则接受本次替换,运动计数器增1,否则随机选择库中的下一片段尝试替换,若连续n的替换都被拒绝,则默认完成当前片段的操作,运动计数器增1,若运动计数器COUNT<n-2,继续处理下一片段,否则进入步骤4.4);
4.4)对当前种群P与新的Numchiild个子孙个体构成的并集进行截断选择,将并集中的所有构象,按照势能值由低到高排序,并选出势能最低的Ps个个体组成新的种群;
5)若ECNT>Emin,则返回步骤4),否则输出新的种群,其中ECNT表示当前势能评估预算,Emin表示最小目标势能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299297.6A CN112967751A (zh) | 2021-03-21 | 2021-03-21 | 一种基于进化搜索的蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299297.6A CN112967751A (zh) | 2021-03-21 | 2021-03-21 | 一种基于进化搜索的蛋白质构象空间优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112967751A true CN112967751A (zh) | 2021-06-15 |
Family
ID=76277889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110299297.6A Pending CN112967751A (zh) | 2021-03-21 | 2021-03-21 | 一种基于进化搜索的蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112967751A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024045933A1 (zh) * | 2022-08-29 | 2024-03-07 | 香港中文大学(深圳) | 生物分子功能性动力学多转变路径的计算方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009245A1 (en) * | 2001-03-22 | 2003-01-09 | Kobe University | Evolution strategy computing system, method and program for operating individuals consisting of real value |
CN104933327A (zh) * | 2015-06-08 | 2015-09-23 | 浙江工业大学 | 一种局部增强的差分进化蛋白质构象空间搜索方法 |
CN111951885A (zh) * | 2020-08-11 | 2020-11-17 | 湖南大学 | 一种基于局部有偏的蛋白质结构预测方法 |
-
2021
- 2021-03-21 CN CN202110299297.6A patent/CN112967751A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009245A1 (en) * | 2001-03-22 | 2003-01-09 | Kobe University | Evolution strategy computing system, method and program for operating individuals consisting of real value |
CN104933327A (zh) * | 2015-06-08 | 2015-09-23 | 浙江工业大学 | 一种局部增强的差分进化蛋白质构象空间搜索方法 |
CN111951885A (zh) * | 2020-08-11 | 2020-11-17 | 湖南大学 | 一种基于局部有偏的蛋白质结构预测方法 |
Non-Patent Citations (3)
Title |
---|
SAMEH SALEH ET AL.: "A population-based evolutionary search approach to the multiple minima problem in de novo protein structure prediction", 《BMC STRUCTURAL BIOLOGY》 * |
方茜等: "应用于蛋白质折叠模拟的三种新蒙特卡罗方法的比较", 《上海大学学报(自然科学版)》 * |
李章维等: "基于副本交换的局部增强差分进化蛋白质结构从头预测方法", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024045933A1 (zh) * | 2022-08-29 | 2024-03-07 | 香港中文大学(深圳) | 生物分子功能性动力学多转变路径的计算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Interpretable RNA foundation model from unannotated data for highly accurate RNA structure and function predictions | |
Camproux et al. | A hidden markov model derived structural alphabet for proteins | |
CN113593634B (zh) | 一种融合dna形状特征的转录因子结合位点预测方法 | |
CN109147866A (zh) | 基于采样与集成学习的蛋白质-dna绑定残基预测方法 | |
CN109360599B (zh) | 一种基于残基接触信息交叉策略的蛋白质结构预测方法 | |
Liu et al. | Deep learning to predict the biosynthetic gene clusters in bacterial genomes | |
Al-Haija et al. | Supervised regression study for electron microscopy data | |
CN112967751A (zh) | 一种基于进化搜索的蛋白质构象空间优化方法 | |
Mansoor et al. | Gene Ontology GAN (GOGAN): a novel architecture for protein function prediction | |
Bi | Deterministic local alignment methods improved by a simple genetic algorithm | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN109360597B (zh) | 一种基于全局和局部策略协作的群体蛋白质结构预测方法 | |
Olson et al. | Enhancing sampling of the conformational space near the protein native state | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN109243525B (zh) | 一种基于种群熵的阶段性蛋白质结构预测方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109147867B (zh) | 一种基于动态片段长度的群体蛋白质结构预测方法 | |
Yang et al. | Localnet: a simple recurrent neural network model for protein secondary structure prediction using local amino acid sequences only | |
Pan et al. | MCNN: multiple convolutional neural networks for RNA-protein binding sites prediction | |
Thompson | Statistics for bioinformatics: methods for multiple sequence alignment | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN108804868B (zh) | 一种基于二面角熵值的蛋白质两阶段构象空间优化方法 | |
CN110556161B (zh) | 一种基于构象多样性采样的蛋白质结构预测方法 | |
Bi | Memetic algorithms for de novo motif-finding in biomedical sequences | |
Gong et al. | SASA-Net: a spatial-aware self-attention mechanism for building protein 3D structure directly from inter-residue distances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210615 |