CN109378033B - 一种基于转移熵的策略自适应蛋白质构象空间优化方法 - Google Patents
一种基于转移熵的策略自适应蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN109378033B CN109378033B CN201810994483.XA CN201810994483A CN109378033B CN 109378033 B CN109378033 B CN 109378033B CN 201810994483 A CN201810994483 A CN 201810994483A CN 109378033 B CN109378033 B CN 109378033B
- Authority
- CN
- China
- Prior art keywords
- population
- dihedral
- transfer entropy
- conformation
- residues
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于转移熵的策略自适应蛋白质构象空间优化方法,包括以下步骤:1)给定输入序列信息以及蛋白质力场模型;2)初始化;3)生成背景点;4)聚类操作;5)计算转移熵;6)策略自适应操作;7)选择操作;8)判断是否满足终止条件,如果满足则终止,并输出所有的最优解。该方法将构象解空间划分为对应于不同局优解的子空间,结合种群的历史进化信息建立转移熵,用以度量种群对构象解空间的探索程度,进而将整个搜索过程自适应地分为两个阶段,并采用阶段特定的构象生成策略,从而提高蛋白质结构预测方法的预测精度。本发明提供一种预测精度较高的基于转移熵的策略自适应蛋白质构象空间优化方法。
Description
技术领域
本发明涉及一种生物信息学、智能优化、计算机应用领域,尤其涉及的是一 种基于转移熵的策略自适应蛋白质构象空间优化方法。
背景技术
美国国家科学院研究理事会于2009年发布了一份战略研究报告,提出“新生 物学”(New Biology)时代即将来临。解决实际的医学、药学和材料学等问题,必 须获取生物大分子的结构信息进行功能注解,如蛋白质只有折叠成特定的三维结 构(即蛋白质三级结构)才能产生其特定的生物学功能,从而进行药物筛选或设计 中用于药物分子的构型搜索及蛋白质复合结构的优化。
考虑到高性能计算技术的飞速发展,计算机辅助设计有望实现蛋白质结构的 自动预测,以取代繁琐昂贵的手工预测。目前已逐渐发展成由物理学、化学、生 物学、计算机和信息科学等多学科与不同课题相互交融的综合体系,并且随着预 测精度以及效率的不断提高,计算机辅助设计从理论走向应用,对基因组学、药 物设计、蛋白质折叠疾病、新型材料等多个领域的疑难问题提出新的解决思路。
其中,基于Anfinsen热力学假说的蛋白质构象空间优化方法被广泛应用于各 种蛋白质的结构预测,通过有效的构象搜索方法来搜寻目标蛋白的天然结构。 Anfinsen热力学假说认为蛋白质的天然结构具有热稳定性,对应于蛋白质及周围 溶剂分子所构成的整个体系的自由能极小点。通过蛋白质构象空间优化方法确定 蛋白质的结构,由于能量模型的复杂性和不精确性,使得数学上的最优解并不一 定对应其稳定的天然结构,有时局部极值解才真正与蛋白质实测基态构型吻合。 并且蛋白质构象空间十分庞大,因此,一个高效的构象空间优化方法尤为重要。 但是,现有的构象空间优化方法存在搜索效率低、收敛速度慢等问题,并且容易 陷入局部最优,影响预测精度。
因此,目前的构象空间优化方法在搜索效率和预测精度上存在不足,需要改 进。
发明内容
为了克服现有的构象空间优化方法存在搜索效率和预测精度较低的不足,本 发明提出一种基于转移熵的策略自适应蛋白质构象空间优化方法,该方法将构象 解空间划分为对应于不同局优解的子空间,结合种群的历史进化信息建立转移熵, 用以度量种群对构象解空间的探索程度,进而将整个搜索过程自适应地分为两个 阶段,并采用阶段特定的构象生成策略,以提高构象空间优化方法的搜索效率以 及预测精度。
本发明解决其技术问题所采用的技术方案是:
一种基于转移熵的策略自适应蛋白质构象空间优化方法,所述方法包括以下 步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3)使种群Pg进行初步探测,迭代n次后生成背景点种群Bg,过程如下:
3.2)i=i+1,重复步骤3.1)直至i=NP完成第g代种群Pg的一次探测,重置 i=1;
3.4)i=i+1,重复步骤3.3)直至i=NP完成第g代种群Pg的再一次探测,重 置i=1;
3.5)m=m+1,重复步骤3.3)-3.4)直至m=n完成第g代种群Pg的n次探测, 生成背景点种群Bg;
4)采用K-medoids方法对背景点种群Bg进行聚类,得到K个类,其中聚类依据 为不同构象之间的均方根偏差RMSD值;
5.1)当g=0时,记Eg=0;
5.2)当g≠0时,依据构象的时序关系,统计相邻两代种群Pg-1和Pg中从第 i类转移至第j类的概率,记为zij,从而构建转移矩阵Z=[zij]K×K,其中 i和j均∈{1,2,...,K};
6)根据前后两代的转移熵实现策略自适应操作,过程如下:
6.1)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨 基酸序列长度;
6.2)当时,从种群Pg中选定目标构象并从种群Pg中随机选择 构象r1≠r2≠i,将的第rand1至rand1+8号残基的二面角值 替换成对应残基号的二面角值,将的第rand2至rand2+8号残基 的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号 的二面角值,生成试验个体
6.3)当时,从种群Pg中选定目标构象并从种群Pg中选择最优 和次优构象将的第rand1至rand1+8号残基的二面角值 替换成对应残基号的二面角值,将的第rand2至rand2+8号残基 的二面角值替换成对应残基号的二面角值,生成变异个体再将 的第rand3至rand3+8号残基的二面角值替换成变异个体对应残 基号的二面角值,生成试验个体
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1并返回步骤5)。
进一步,所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,终止 条件为迭代次数g达到预设最大迭代次数Gmax,若满足根据Rosetta聚类算法对 种群Pg中的构象聚类,选出最大类的类心构象作为最终预测结果。
本发明的技术构思为:首先,采用拟牛顿方法使得初始构象种群对构象解空 间进行初步探测,生成背景点构象;其次,采用k-mediods方法对背景点构象进 行聚类,将构象解空间划分为对应不同局优解的子空间;然后,结合种群的历史 进化信息,建立转移熵以表征种群对构象解空间的探索程度;最后,根据转移熵 将整个搜索过程动态划分为两阶段,并采用阶段特定的构象生成策略实现种群的 更新。
本发明的有益效果表现在:基于拟牛顿方法的确定性特点,实现初始种群对 构象解空间的初步探测,生成背景点并通过聚类获得对构象解空间的划分,从而 结合种群的历史进化信息建立转移熵,一方面,通过转移熵评价对构象解空间的 探索程度,以实现对整个搜索过程的自适应划分,另一方面,针对不同阶段采用 特定的构象生成策略,能够平衡全局探测和局部增强能力,从而提高搜索效率及 预测精度。
附图说明
图1是基于转移熵的策略自适应蛋白质构象空间优化方法对蛋白质1ENH进 行结构预测时的流程图;
图2是基于转移熵的策略自适应蛋白质构象空间优化方法对蛋白质1ENH进 行结构预测时的构象更新示意图;
图3是基于转移熵的策略自适应蛋白质构象空间优化方法对蛋白质1ENH预 测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于转移熵的策略自适应蛋白质构象空间优化方法,包 括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3)使种群Pg进行初步探测,迭代n次后生成背景点种群Bg,过程如下:
3.2)i=i+1,重复步骤3.1)直至i=NP完成第g代种群Pg的一次探测,重置 i=1;
3.4)i=i+1,重复步骤3.3)直至i=NP完成第g代种群Pg的再一次探测,重 置i=1;
3.5)m=m+1,重复步骤3.3)-3.4)直至m=n完成第g代种群Pg的n次探测, 生成背景点种群Bg;
4)采用K-medoids方法对背景点种群Bg进行聚类,得到K个类,其中聚类依据 为不同构象之间的均方根偏差RMSD值;
5.1)当g=0时,记Eg=0;
5.2)当g≠0时,依据构象的时序关系,统计相邻两代种群Pg-1和Pg中从第 i类转移至第j类的概率,记为zij,从而构建转移矩阵Z=[zij]K×K,其中 i和j均∈{1,2,...,K};
6)根据前后两代的转移熵实现策略自适应操作,过程如下:
6.1)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨 基酸序列长度;
6.2)当时,从种群Pg中选定目标构象并从种群Pg中随机选择 构象r1≠r2≠i,将的第rand1至rand1+8号残基的二面角值 替换成对应残基号的二面角值,将的第rand2至rand2+8号残基 的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号 的二面角值,生成试验个体
6.3)当时,从种群Pg中选定目标构象并从种群Pg中选择最优 和次优构象将的第rand1至rand1+8号残基的二面角值 替换成对应残基号的二面角值,将的第rand2至rand2+8号残基 的二面角值替换成对应残基号的二面角值,生成变异个体再将 的第rand3至rand3+8号残基的二面角值替换成变异个体对应残 基号的二面角值,生成试验个体
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1并返回步骤5)。
进一步,所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,终止 条件为迭代次数g达到预设最大迭代次数Gmax,若满足根据Rosetta聚类算法对 种群Pg中的构象聚类,选出最大类的类心构象作为最终预测结果。
本实施例序列长度为54的α折叠蛋白质1ENH为实施例,一种基于转移熵的 策略自适应蛋白质构象空间优化方法,其中包含以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3)使种群Pg进行初步探测,迭代n=100次后生成背景点种群Bg,过程如下:
3.2)i=i+1,重复步骤3.1)直至i=NP完成第g代种群Pg的一次探测,重置 i=1;
3.4)i=i+1,重复步骤3.3)直至i=NP完成第g代种群Pg的再一次探测,重 置i=1;
3.5)m=m+1,重复步骤3.3)-3.4)直至m=n完成第g代种群Pg的n次探测, 生成背景点种群Bg;
4)采用K-medoids方法对背景点种群Bg进行聚类,得到K=7个类,其中聚类依 据为不同构象之间的均方根偏差RMSD值;
5.1)当g=0时,记Eg=0;
5.2)当g≠0时,依据构象的时序关系,统计相邻两代种群Pg-1和Pg中从第 i类转移至第j类的概率,记为zij,从而构建转移矩阵Z=[zij]K×K,其中 i和j均∈{1,2,...,K};
6)根据前后两代的转移熵实现策略自适应操作,过程如下:
6.1)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨 基酸序列长度;
6.2)当时,从种群Pg中选定目标构象并从种群Pg中随机选择 构象r1≠r2≠i,将的第rand1至rand1+8号残基的二面角值 替换成对应残基号的二面角值,将的第rand2至rand2+8号残基 的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号 的二面角值,生成试验个体
6.3)当时,从种群Pg中选定目标构象并从种群Pg中选择最优 和次优构象将的第rand1至rand1+8号残基的二面角值 替换成对应残基号的二面角值,将的第rand2至rand2+8号残基 的二面角值替换成对应残基号的二面角值,生成变异个体再将 的第rand3至rand3+8号残基的二面角值替换成变异个体对应残 基号的二面角值,生成试验个体
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1并返回步骤5)。
进一步,所述步骤2)中,设置最大迭代次数Gmax=1000,所述步骤8)中, 终止条件为迭代次数g达到预设最大迭代次数Gmax=1000,若满足根据Rosetta聚 类算法对种群Pg中的构象聚类,选出最大类的类心构象作为最终预测结果
以上阐述的是本发明给出的一个实施例表现出来的优良优化效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及 内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于转移熵的策略自适应蛋白质构象空间优化方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
3)使种群Pg进行初步探测,迭代n次后生成背景点种群Bg,过程如下:
3.2)i=i+1,重复步骤3.1)直至i=NP完成第g代种群Pg的一次探测,重置i=1;
3.4)i=i+1,重复步骤3.3)直至i=NP完成第g代种群Pg的再一次探测,重置i=1;
3.5)m=m+1,重复步骤3.3)-3.4)直至m=n完成第g代种群Pg的n次探测,生成背景点种群Bg;
4)采用K-medoids方法对背景点种群Bg进行聚类,得到K个类,其中聚类依据为不同构象之间的均方根偏差RMSD值;
5.1)当g=0时,记Eg=0;
5.2)当g≠0时,依据构象的时序关系,统计相邻两代种群Pg-1和Pg中从第i类转移至第j类的概率,记为zij,从而构建转移矩阵Z=[zij]K×K,其中i和j均∈{1,2,...,K};
6)根据前后两代的转移熵实现策略自适应操作,过程如下:
6.1)在[0,L-9]内生成均匀随机整数rand1、rand2和rand3,其中L表示氨基酸序列长度;
6.2)当时,从种群Pg中选定第i个构象并从种群Pg中随机选择构象将的第rand1至rand1+8号残基的二面角值替换成对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号的二面角值,生成试验个体
6.3)当时,从种群Pg中选定第i个构象并从种群Pg中选择最优和次优构象将的第rand1至rand1+8号残基的二面角值替换成对应残基号的二面角值,将的第rand2至rand2+8号残基的二面角值替换成对应残基号的二面角值,生成变异个体再将的第rand3至rand3+8号残基的二面角值替换成变异个体对应残基号的二面角值,生成试验个体
8)判断是否满足终止条件,若满足则输出结果并退出,否则g=g+1并返回步骤5);
所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,终止条件为迭代次数g达到预设最大迭代次数Gmax,若满足根据Rosetta聚类算法对种群Pg中的构象聚类,选出最大类的类心构象作为最终预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994483.XA CN109378033B (zh) | 2018-08-29 | 2018-08-29 | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994483.XA CN109378033B (zh) | 2018-08-29 | 2018-08-29 | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109378033A CN109378033A (zh) | 2019-02-22 |
CN109378033B true CN109378033B (zh) | 2021-04-06 |
Family
ID=65404757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994483.XA Active CN109378033B (zh) | 2018-08-29 | 2018-08-29 | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109378033B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718267B (zh) * | 2019-08-27 | 2021-04-06 | 浙江工业大学 | 一种基于多模态构象空间采样的蛋白质结构预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491664A (zh) * | 2017-08-29 | 2017-12-19 | 浙江工业大学 | 一种基于信息熵的蛋白质结构从头预测方法 |
-
2018
- 2018-08-29 CN CN201810994483.XA patent/CN109378033B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491664A (zh) * | 2017-08-29 | 2017-12-19 | 浙江工业大学 | 一种基于信息熵的蛋白质结构从头预测方法 |
Non-Patent Citations (2)
Title |
---|
"Knowledge-based entropies improve the identification of native protein structures";Kannan Sankara 等;《BIOPHYSICS AND COMPUTATIONAL BIOLOGY》;20170314;第114卷(第11期);第2928–2933页 * |
"蛋白质分子构象优化方法研究与实现";何洋军;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315(第3期);第9-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109378033A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7128346B2 (ja) | 距離マップクロップを組み合わせることによってタンパク質距離マップを決定すること | |
Neyshabur et al. | NETAL: a new graph-based method for global alignment of protein–protein interaction networks | |
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
Peng et al. | Clustering algorithms to analyze molecular dynamics simulation trajectories for complex chemical and biological systems | |
Nepusz et al. | SCPS: a fast implementation of a spectral method for detecting protein families on a genome-wide scale | |
WO2016062044A1 (zh) | 一种模型参数训练方法、装置及系统 | |
Zhang et al. | Enhancing protein conformational space sampling using distance profile-guided differential evolution | |
Mir et al. | INDEX: Incremental depth extension approach for protein–protein interaction networks alignment | |
CN103473482A (zh) | 基于差分进化和构象空间退火的蛋白质三维结构预测方法 | |
Saha et al. | FunPred-1: Protein function prediction from a protein interaction network using neighborhood analysis | |
Dehzangi et al. | A mixture of physicochemical and evolutionary–based feature extraction approaches for protein fold recognition | |
CN109360601B (zh) | 一种基于排挤策略的多模态蛋白质结构预测方法 | |
CN109378033B (zh) | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 | |
Mihai et al. | Representing and extracting knowledge from single-cell data | |
CN109360596A (zh) | 一种基于差分进化局部扰动的蛋白质构象空间优化方法 | |
Yue et al. | A systematic review on the state-of-the-art strategies for protein representation | |
Saha et al. | Improving prediction of protein function from protein interaction network using intelligent neighborhood approach | |
Kuželka et al. | Gaussian logic for predictive classification | |
Habibi et al. | LRC: A new algorithm for prediction of conformational B-cell epitopes using statistical approach and clustering method | |
Wang et al. | DeepIII: Predicting isoform-isoform interactions by deep neural networks and data fusion | |
Milano et al. | GLAlign: Using global graph alignment to improve local graph alignment | |
Osmanbeyoglu et al. | Active machine learning for transmembrane helix prediction | |
Vignesh et al. | Clustering on structured proteins with filtering instances on Bioweka | |
Moraes et al. | CapsProm: a capsule network for promoter prediction | |
Poleksic | Optimal pairwise alignment of fixed protein structures in subquadratic time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |