CN107145764A - 一种双重分布估计引导的蛋白质构象空间搜索方法 - Google Patents

一种双重分布估计引导的蛋白质构象空间搜索方法 Download PDF

Info

Publication number
CN107145764A
CN107145764A CN201710148984.1A CN201710148984A CN107145764A CN 107145764 A CN107145764 A CN 107145764A CN 201710148984 A CN201710148984 A CN 201710148984A CN 107145764 A CN107145764 A CN 107145764A
Authority
CN
China
Prior art keywords
sum
energy
conformation
energylist
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710148984.1A
Other languages
English (en)
Other versions
CN107145764B (zh
Inventor
张贵军
郝小虎
谢腾宇
周晓根
王柳静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710148984.1A priority Critical patent/CN107145764B/zh
Publication of CN107145764A publication Critical patent/CN107145764A/zh
Application granted granted Critical
Publication of CN107145764B publication Critical patent/CN107145764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种双重分布估计引导的蛋白质构象空间搜索方法,同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索,使得搜索过程主要向能量更低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。

Description

一种双重分布估计引导的蛋白质构象空间搜索方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种双重分布估计引导的蛋白质构象空间搜索方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已经或将要被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。
目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。因此,现有的构象空间搜索方法存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、复杂度较高、预测精度较低的不足,本发明提出一种双重分布估计引导的蛋白质构象空间搜索方法。同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索,使得搜索过程主要向能量更低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。
本发明解决其技术问题所采用的技术方案是:
一种双重分布估计引导的蛋白质构象空间搜索方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
本发明的技术构思为:同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条MonteCarlo轨迹执行下一次搜索,使得搜索过程主要向能量低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。
本发明的有益效果为:本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
附图说明
图1是能量概率分布情况示意图。
图2是目标蛋白质T0773-D1预测结构和实验室测定结构的三维示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种双重分布估计引导的蛋白质构象空间搜索方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
本实施例以目标蛋白质T0773-D1为实施例,一种双重分布估计引导的蛋白质构象空间搜索方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K=100,迭代次数G=1000000,能量平衡因子δ=500;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum;14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种双重分布估计引导的蛋白质构象空间搜索方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ;
3)构象初始化:根据给定输入序列,生成K个伸展链初始个体;
4)对步骤3)中的K个个体根据RosettaScore3分别计算能量,加上能量平衡因子δ后,存入能量列表EnergyList中;
5)对EnergyList中的所有元素求和得到能量总和Esum
6)对EnergyList执行反转操作,即将其中所有元素逆序排列;
7)对EnergyList中的元素执行以下操作:EnergyList[i]/Esum,其中i表示列表索引值,i的取值从0到K-1;
8)将EnergyList[i]/Esum存入对应位置的能量分布概率列表pCur中;
9)创建接收列表AcceptList;
10)计算总评价次数Asum
11)对AcceptList中的每个元素做以下操作:AcceptList[i]=1,其中i表示列表索引值,i的取值从0到K-1;
12)将1/Asum存入对应位置的接受分布概率列表pHis中;
13)开始迭代:
13.1)根据pCur和pHis这两个概率分布,选出一条Monte Carlo轨迹,执行片段组装过程,生成新的构象pMC
13.2)根据RosettaScore3计算新生成构象的能量E(pMC);
13.3)依据Bolztmann准则接受新生成的构象,如果没有接收当前构象,直接转到步骤14),如果接受当前构象,则取得该轨迹在列表中的索引值j;
13.4)EnergyList[j]更新为E(pMC)+δ,重新计算Esum,Asum增加1,AcceptList[j]增加1;
13.5)重新计算pCur和pHis:pCur[i]=EnergyList[i]/Esum,pHis[i]=AcceptList[i]/Asum
14)判断是否达到最大迭代次数G;
14.1)若当前迭代次数小于G,返回步骤13);
14.2)若当前迭代次数等于G,结束。
CN201710148984.1A 2017-03-14 2017-03-14 一种双重分布估计引导的蛋白质构象空间搜索方法 Active CN107145764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710148984.1A CN107145764B (zh) 2017-03-14 2017-03-14 一种双重分布估计引导的蛋白质构象空间搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710148984.1A CN107145764B (zh) 2017-03-14 2017-03-14 一种双重分布估计引导的蛋白质构象空间搜索方法

Publications (2)

Publication Number Publication Date
CN107145764A true CN107145764A (zh) 2017-09-08
CN107145764B CN107145764B (zh) 2019-07-30

Family

ID=59784127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710148984.1A Active CN107145764B (zh) 2017-03-14 2017-03-14 一种双重分布估计引导的蛋白质构象空间搜索方法

Country Status (1)

Country Link
CN (1) CN107145764B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109390035A (zh) * 2018-08-29 2019-02-26 浙江工业大学 一种基于局部结构比对的蛋白质构象空间优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413068A (zh) * 2013-08-28 2013-11-27 苏州大学 一种基于结构拓扑的g蛋白偶联受体跨膜螺旋三维结构的预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN104200132A (zh) * 2014-07-28 2014-12-10 浙江工业大学 一种构象空间动态步长搜索方法
CN104933328A (zh) * 2015-06-08 2015-09-23 浙江工业大学 一种基于副本交换的变步长蛋白质构象空间搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413068A (zh) * 2013-08-28 2013-11-27 苏州大学 一种基于结构拓扑的g蛋白偶联受体跨膜螺旋三维结构的预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN104200132A (zh) * 2014-07-28 2014-12-10 浙江工业大学 一种构象空间动态步长搜索方法
CN104933328A (zh) * 2015-06-08 2015-09-23 浙江工业大学 一种基于副本交换的变步长蛋白质构象空间搜索方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HETUNANDAN KAMISETTY 等: "Accounting for conformational entropy in predicting binding free energies of protein-protein interactions", 《PROTEINS:STRUCTURE,FUNCTION,AND BIOINFORMATICS》 *
KEVIN MOLLOY 等: "Probabilistic Search and Energy Guidance for Biased Decoy Sampling in Ab Initio Protein Structure Prediction", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
SHAUN M.KANDATHIL 等: "Toward a detailed understanding of search trajectories in fragment assembly approaches to protein structure prediction", 《PROTEINS:STRUCTURE,FUNCTION,AND BIOINFORMATICS》 *
张贵军 等: "动态步长蛋白质构象空间搜索方法", 《吉林大学学报(工学版)》 *
罗升: "基于深度学习的采样技术在蛋白质结构预测中运用", 《万方数据知识服务平台》 *
郝小虎 等: "一种基于片段组装的蛋白质构象空间优化算法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109390035A (zh) * 2018-08-29 2019-02-26 浙江工业大学 一种基于局部结构比对的蛋白质构象空间优化方法
CN109390035B (zh) * 2018-08-29 2021-04-06 浙江工业大学 一种基于局部结构比对的蛋白质构象空间优化方法

Also Published As

Publication number Publication date
CN107145764B (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
He et al. Predicting intrinsic disorder in proteins: an overview
Gront et al. Generalized fragment picking in Rosetta: design, protocols and applications
Roshan et al. Probalign: multiple sequence alignment using partition function posterior probabilities
Boussau et al. Genome-scale coestimation of species and gene trees
US7831392B2 (en) System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map
Wang et al. Artificial intelligence-based multi-objective optimization protocol for protein structure refinement
CN105760710A (zh) 一种基于两阶段差分进化算法的蛋白质结构预测方法
CN106096326A (zh) 一种基于质心变异策略的差分进化蛋白质结构预测方法
Kandathil et al. Toward a detailed understanding of search trajectories in fragment assembly approaches to protein structure prediction
Li et al. PPAEDTI: personalized propagation auto-encoder model for predicting drug-target interactions
CN116312750A (zh) 一种多肽功能预测方法及装置
CN107145764B (zh) 一种双重分布估计引导的蛋白质构象空间搜索方法
Yosef et al. Improved network-based identification of protein orthologs
CN106446601B (zh) 一种大规模标注lncRNA功能的方法
Durrett et al. Bayesian estimation of genomic distance
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
Castro et al. Guided generative protein design using regularized transformers
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN109300506B (zh) 一种基于特定距离约束的蛋白质结构预测方法
Zaman et al. Decoy ensemble reduction in template-free protein structure prediction
Al-Jumaily et al. Examining multi-objective deep reinforcement learning frameworks for molecular design
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法
Das et al. Optimal haplotype assembly via a branch-and-bound algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant