CN109360601B - 一种基于排挤策略的多模态蛋白质结构预测方法 - Google Patents
一种基于排挤策略的多模态蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109360601B CN109360601B CN201810994504.8A CN201810994504A CN109360601B CN 109360601 B CN109360601 B CN 109360601B CN 201810994504 A CN201810994504 A CN 201810994504A CN 109360601 B CN109360601 B CN 109360601B
- Authority
- CN
- China
- Prior art keywords
- population
- conformation
- conformations
- modal
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于排挤策略的多模态蛋白质结构预测方法,包括以下步骤:1)给定输入序列信息以及蛋白质力场模型;2)初始化;3)变异、交叉操作;4)生成存档集合;5)计算聚类中心和聚类半径;6)排挤操作;7)聚类操作;8)判断是否满足终止条件,如果满足则终止,并输出所有的最优解。本发明提出一种基于排挤策略的多模态蛋白质结构预测方法,该方法在差分进化算法的框架下,采用排挤策略,在进化过程中自适应地形成多个模态,使之能够发现模型所有的局优解,并且在此过程中尽可能多地保存局优解,从而提高蛋白质结构预测方法的预测精度。本发明提供一种预测精度较高的基于排挤策略的多模态蛋白质结构预测方法。
Description
技术领域
本发明涉及一种生物信息学、智能优化、计算机应用领域,尤其涉及的是一种基于排挤策略的多模态蛋白质结构预测方法。
背景技术
Science于2005年发表的125个科学问题中提出“蛋白折叠能否被预测的问题”,表明以蛋白质为代表的生物大分子结构测定,不仅是分子生物学中心法则尚未解决的基础理论问题,更是关乎人类切身利益的医学、药学及材料学等领域亟待解决的应用问题。比如,朊蛋白(Prion Protein,PrP)的结构变异将引发疯牛病,而蛋白质错误折叠会导致阿兹海默症、帕金森氏症等疾病。因此,深入了解蛋白质天然态结构与其折叠机理将有助于阐明这些疾病的致病机制并寻找治疗方法。
结构生物学实验是测定生物大分子结构的主要技术手段。卡文迪许实验室于60年代用X-射线晶体衍射技术获得了球蛋白的结构,从晶体水平进行生物大分子的研究;多维核磁共振(NMR)方法可以直接测定蛋白质在溶液中的构象,更接近于生理状态;近期发展的冷冻电镜技术,通过电子显微镜技术并结合图像处理技术可直接提供生物大分子的形貌信息。目前PDB中的蛋白质三维结构主要通过结构实验测定技术得到,不仅存在应用局限,测定过程也费时费钱费力,比如,使用NMR方法测定一个蛋白质通常需要15万美元以及半年的时间,因此实验测定蛋白质三维结构的速度远远达不到所需速度。鉴于结构测定耗资巨大以及信息科学技术的飞速发展,以计算机为工具,运用适当的算法,从序列出发直接预测生物大分子的三维结构,在后基因组时代生命科学的理论和应用研究中将发挥日益重要的作用。
不依赖于任何已知结构,基于Anfinsen热力学假说,构建蛋白质能量函数,通过有效的构象搜索方法来搜寻目标蛋白的天然结构。Anfinsen热力学假说认为蛋白质的天然结构具有热稳定性,对应于蛋白质及周围溶剂分子所构成的整个体系的自由能极小点,因此从头预测方法通常采用片段组装技术,在构象搜索过程中指导算法向低能量构象进行搜索。通过全局优化方法确定蛋白质的结构,是基于其全局极小描述蛋白质天然结构的打分函数,然而分子内作用与周围环境作用的复杂性,将形成一个具有大量局部极小的粗糙能量地貌,由于能量模型的复杂性和不精确性,使得数学上的最优解并不一定对应其稳定的天然结构,有时局部极值解才真正与蛋白质实测基态构型吻合。由于能量模型的复杂性和不精确性,使得数学上的最优解并不一定对应其稳定的天然结构,有时局部极值解才真正与蛋白质实测基态构型吻合。另外,鉴于粗糙不平的表面是蛋白质能量地貌的固有属性,计算量将随着分子的大小呈指数增长。基于上述考虑,有必要从蛋白质结构预测方法的多模态特性方面进行深入研究。
因此,目前的蛋白质结构预测方法在对能量模型多极值解的搜索上存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在搜索能量模型多极值解上的不足,本发明提出一种基于排挤策略的多模态蛋白质结构预测方法,该方法在差分进化算法的框架下,采用排挤策略,在进化过程中自适应地形成多个模态,使之能够发现模型所有的局优解,并且在此过程中尽可能多地保存局优解,从而提高蛋白质结构预测方法的预测精度。
本发明解决其技术问题所采用的技术方案是:
一种基于排挤策略的多模态蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将的第rand1至rand1+8号残基的二面角值替换成对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号的二面角值,生成试验个体
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug;
7.1)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中的最好构象;
7.3)i=i+1,循环步骤7.1)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1清空Mg+1并且返回步骤3)。
本发明的技术构思为:首先,对初始种群中的每个构象构建各自的存档集合,用以获得对应的聚类中心和聚类半径,并且根据存档集合进行排挤操作以更新种群;其次,通过比较当前种群构象的聚类半径,对每一代种群构建当前的模态集合,即确定了当前代的模态构象个数K;最后,随着迭代的进行,模态构象集合逐渐稳定,得到K个局优构象,最终得到全局最优构象。
本发明的有益效果表现在:由于能量模型的不精确性,导致其全局和局部最优均有可能是最好构象。在差分进化算法的框架下,通过排挤操作将种群自动聚类,形成多个模态,一方面,模态构象数随着种群进化情况而自适应变化,直至稳定,从而能够搜索到多个局优构象以缓解能量模型的不精确问题;另一方面,该排挤策略只对差分进化算法中的选择环节进行了修改,并未增加算法复杂度,操作简单可行。
附图说明
图1是基于排挤策略的多模态蛋白质结构预测方法对蛋白质1HZ6进行结构预测时的流程图;
图2是基于排挤策略的多模态蛋白质结构预测方法对蛋白质1HZ6进行结构预测时的构象更新示意图;
图3是基于排挤策略的多模态蛋白质结构预测方法对蛋白质1HZ6预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于排挤策略的多模态蛋白质结构预测方法,包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将的第rand1至rand1+8号残基的二面角值替换成对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号的二面角值,生成试验个体
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug;
7.4)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中的最好构象;
7.6)i=i+1,循环步骤7.1)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1清空Mg+1并且返回步骤3)。
本实施例序列长度为67的α/β折叠蛋白质1HZ6为实施例,一种基于排挤策略的多模态蛋白质结构预测方法,其中包含以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将的第rand1至rand1+8号残基的二面角值替换成对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号的二面角值,生成试验个体
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug;
7.1)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中的最好构象;
7.3)i=i+1,循环步骤7.1)-7.3)直至为第g+1代种群找到所有的模态构象;
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1清空Mg+1并且返回步骤3)。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于排挤策略的多模态蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3.2)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
3.3)将的第rand1至rand1+8号残基的二面角值替换成对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号的二面角值,生成试验个体
3.4)i=i+1,循环步骤3.1)-3.4)直至生成当前种群的试验个体种群Ug;
7.1)Mg+1初始化为只有一个构象的集合,该构象为种群Pg+1中最好的构象;
7.3)i=i+1,循环步骤7.2)-7.3)直至为第g+1代种群找到所有的模态构象;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994504.8A CN109360601B (zh) | 2018-08-29 | 2018-08-29 | 一种基于排挤策略的多模态蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994504.8A CN109360601B (zh) | 2018-08-29 | 2018-08-29 | 一种基于排挤策略的多模态蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109360601A CN109360601A (zh) | 2019-02-19 |
CN109360601B true CN109360601B (zh) | 2021-05-18 |
Family
ID=65350085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994504.8A Active CN109360601B (zh) | 2018-08-29 | 2018-08-29 | 一种基于排挤策略的多模态蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109360601B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706739B (zh) * | 2019-08-26 | 2021-10-29 | 浙江工业大学 | 一种基于多模态内外交叉的蛋白质构象空间采样方法 |
CN110718267B (zh) * | 2019-08-27 | 2021-04-06 | 浙江工业大学 | 一种基于多模态构象空间采样的蛋白质结构预测方法 |
CN111180005B (zh) * | 2019-11-29 | 2021-08-03 | 浙江工业大学 | 一种基于小生境重采样的多模态蛋白质结构预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077226A (zh) * | 2012-12-31 | 2013-05-01 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN106096326A (zh) * | 2016-06-02 | 2016-11-09 | 浙江工业大学 | 一种基于质心变异策略的差分进化蛋白质结构预测方法 |
CN106503485A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 |
-
2018
- 2018-08-29 CN CN201810994504.8A patent/CN109360601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077226A (zh) * | 2012-12-31 | 2013-05-01 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN106096326A (zh) * | 2016-06-02 | 2016-11-09 | 浙江工业大学 | 一种基于质心变异策略的差分进化蛋白质结构预测方法 |
CN106503485A (zh) * | 2016-09-23 | 2017-03-15 | 浙江工业大学 | 一种局部增强的多模态差分进化蛋白质结构从头预测方法 |
Non-Patent Citations (3)
Title |
---|
《Using Crowding-Distance in a Multiobjective Genetic Algorithm for Protein Structure Prediction》;Gregório Kappaun Rocha等;《GECCO "16 Companion: Proceedings of the 2016 on Genetic and Evolutionary Computation》;20160731;全文 * |
《一种新的蛋白质结构预测多模态优化算法》;程正华等;《计算机科学》;20130930;第40卷(第9期);全文 * |
《基于Monte Carlo局部增强的多模态优化算法》;陈先跑等;《计算机科学》;20150630;第42卷(第6A期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109360601A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Miao et al. | Multi-omics integration in the age of million single-cell data | |
Deng et al. | Protein structure prediction | |
CN109360601B (zh) | 一种基于排挤策略的多模态蛋白质结构预测方法 | |
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
Li et al. | Protein docking prediction using predicted protein-protein interface | |
Terwilliger et al. | Improved crystallographic models through iterated local density-guided model deformation and reciprocal-space refinement | |
Barthel et al. | ProCKSI: a decision support system for protein (structure) comparison, knowledge, similarity and information | |
CN107491664B (zh) | 一种基于信息熵的蛋白质结构从头预测方法 | |
Djeddi et al. | A novel computational approach for global alignment for multiple biological networks | |
CN109360599B (zh) | 一种基于残基接触信息交叉策略的蛋白质结构预测方法 | |
CN109360596B (zh) | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
van Dijk et al. | Solvated protein–DNA docking using HADDOCK | |
Zheng et al. | Protein structure prediction constrained by solution X-ray scattering data and structural homology identification | |
CN109872770B (zh) | 一种结合排挤度评价的多变异策略蛋白质结构预测方法 | |
Wang et al. | LDCNN-DTI: a novel light deep convolutional neural network for drug-target interaction predictions | |
Clarke et al. | Novel insights through the integration of structural and functional genomics data with protein networks | |
Zhong et al. | Predicting local protein 3D structures using clustering deep recurrent neural network | |
CN109360597B (zh) | 一种基于全局和局部策略协作的群体蛋白质结构预测方法 | |
CN108920894B (zh) | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 | |
Zhu et al. | Discovering large conserved functional components in global network alignment by graph matching | |
Geethu et al. | Improved 3-D protein structure predictions using deep ResNet model | |
CN109378033B (zh) | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 | |
CN109326318B (zh) | 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 | |
Dong et al. | Methods for optimizing the structure alphabet sequences of proteins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |