CN107491664B

CN107491664B - 一种基于信息熵的蛋白质结构从头预测方法

Info

Publication number: CN107491664B
Application number: CN201710757209.6A
Authority: CN
Inventors: 张贵军; 王柳静; 周晓根; 谢腾宇; 郝小虎
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2020-08-18
Anticipated expiration: 2037-08-29
Also published as: CN107491664A

Abstract

一种基于信息熵的蛋白质结构从头预测方法，包括以下步骤：1)给定输入序列信息以及蛋白质力场模型；2)初始化；3)计算距离矩阵；4)k‑mediods聚类；5)构建Markov模型并计算转移矩阵；6)计算信息熵；7)选择操作；8)判断是否满足终止条件，如果满足则终止，并输出全局最优解。本发明提出一种以信息熵为评价指标的蛋白质结构从头预测方法，该方法建立信息熵指标用以度量构象搜索的有序化程度，并且将信息熵指标引入构象选择中，提高从头预测方法的搜索效率以及预测精度。

Description

一种基于信息熵的蛋白质结构从头预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是，一种基于信息熵的蛋白质结构从头预测方法。

背景技术

1990年，美国正式启动了人类基因组计划，并于2003年正式宣布完成，人类基因组计划的顺利实施，标志人类基因组DNA的30亿个碱基对序列测序工作已基本完成。基因组数据测序的巨大进步，对生命科学基础理论的发展有重要意义，但解决实际的医学、药学和材料学等问题，必须获取生物大分子的结构信息进行功能注解，如蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能，从而进行药物筛选或设计中用于药物分子的构型搜索及蛋白质复合结构的优化。

目前蛋白质数据库PDB中的蛋白质三维结构主要通过结构实验测定技术得到,不仅存在应用局限，测定过程也费时费钱费力，比如，使用NMR方法测定一个蛋白质通常需要15万美元以及半年的时间，因此实验测定蛋白质三维结构的速度远远达不到所需速度。现有条件下，能通过实验测定方法确定的蛋白质结构只是少数，考虑到高性能计算技术的飞速发展，以计算机为工具，运用适当的算法，从序列出发直接预测生物大分子的三维结构，在后基因组时代生命科学的理论和应用研究中将发挥日益重要的作用。

其中，从头预测方法被广泛应用于各种蛋白质的结构预测，该方法不依赖于任何已知结构,而是以Anfinsen热力学假说构建蛋白质能量函数,再通过有效的构象搜索方法来搜寻目标蛋白的天然结构。Anfinsen热力学假说认为蛋白质的天然结构具有热稳定性,对应于蛋白质及周围溶剂分子所构成的整个体系的自由能极小点，因此从头预测方法通常采用片段组装技术，在构象搜索过程中指导算法向低能量构象进行搜索。但是，现有从头预测方法由于不精确的能量函数、低质量的片段库、以及无效的搜索方法等问题，导致其在计算代价和搜索效率方面存在不足，而均方根偏差RMSD值和能量函数值，这两种常用指标无法有效反映从头预测方法所存在的问题，从而限制了该方法的改进和进一步的发展。

因此，现有的从头预测方法在评价指标方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质结构从头预测方法在评价指标方面的不足，本发明提出一种以信息熵为评价指标的蛋白质结构从头预测方法，该方法建立信息熵指标用以度量构象搜索的有序化程度，并且将信息熵指标引入构象选择中，提高从头预测方法的搜索效率以及预测精度。

本发明解决其技术问题所采用的技术方案是：

一种基于信息熵的蛋白质结构从头预测方法，所述方法包括以下步骤：

1)给定输入序列信息，以及蛋白质力场模型，即能量函数Rosetta Score3；

2)初始化：由输入序列产生一系列轨迹数据，即具有时序性的一系列蛋白质构象，记为C＝{C₁,C₂,...,C_i,...,C_n}，i∈{1,2,…,n}，其中，C_i表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象，并初始化迭代次数G＝0；

3)计算轨迹构象集合C中所有构象两两之间的均方根偏差RMSD值，构建如式(1)所示的RMSD距离矩阵D；

其中，d_ij为轨迹构象中第i个构象和第j个构象之间的RMSD值，另外，可将距离矩阵D中的行数据视为对应构象的距离信息；

4)采用k-mediods方法对轨迹构象进行聚类，过程如下：

4.1)随机选取k个构象作为聚类的中心点M，即选择距离矩阵D中的k行数据作为聚类中心点，记为M＝{M₁,...,M_k|M_k＝{d_k1,...,d_kn}}；

4.2)查询距离矩阵D，确定每个轨迹构象与第i个中心点M_i的RMSD值最小，为轨迹构象添加标签tag_i，表示该轨迹构象聚类至第i类；

4.3)查询距离矩阵D，确定轨迹构象中与各构象RMSD值最小的构象，作为第i类中新的中心点M_i；

4.4)若新旧中心点一致，则聚类终止，否则，返回4.2)；

5)对轨迹构象构建Markov模型，过程如下：

5.1)依据轨迹构象的时序关系，统计第i类中转移至第j类的轨迹构象数，记为z_ij；

5.2)根据概率计算公式，即

统计轨迹构象在k个类之间的转移概率，构建如式(2)所示的转移矩阵T：

其中，t_ij为轨迹构象从第i类转移至第j类的转移概率；

6)计算信息熵，过程如下：

6.1)如式(3)所示，计算概率p_ij：

其中t_ij为轨迹构象从第i类转移至第j类的转移概率，N_trans为总的转移概率；

6.2)如式(4)所示，计算信息熵E：

7)当前从头预测方法继续生成构象，根据如下操作决定新生成的构象C_trial是否替换其前一个构象C_target，过程如下：

7.1)当前信息熵为E(C_target)，将C_trial计入轨迹构象集合C中，更新信息熵，记为E(C_trial)；

7.2)如果E(C_trial)＞E(C_target)，则构象C_target保持不变，当前从头预测方法进行下一次构象搜索；

7.3)如果E(C_trial)＞E(C_target)，则新构象C_trial替换前一个构象C_target；

8)判断是否满足终止条件，若满足则输出结果并退出，否则返回步骤3)。

进一步，所述步骤2)中，设置最大迭代次数G_max，所述步骤8)中，对种群中的每一个个体都执行完步骤3)—7)以后，迭代次数G＝G+1，终止条件为迭代次数G达到预设最大迭代次数G_max。

本发明的技术构思为：首先，对初始轨迹构象构建两两之间以RMSD值为尺度的距离矩阵，用以表征轨迹构象之间的结构差异；其次，根据距离矩阵，采用k-mediods方法对轨迹构象进行聚类，从而基于聚类结果，构建Markov模型；然后，统计当前轨迹的Markov转移矩阵，进而计算信息熵，实现对当前从头预测方法构象搜索情况的量化评价；最后，将信息熵指标引入当前从头预测方法的构象选择中，以指导该方法的构象搜索，提高预测精度。

本发明的有益效果表现在：基于轨迹构象差异度建立信息熵指标，实现对当前从头预测方法构象搜索有序化程度的量化评价，一方面，弥补了现有指标对从头预测方法搜索情况的评价缺陷；另一方面，将信息熵指标引入构象选择环节，能够降低当前从头预测方法的计算代价，提高搜索效率及预测精度。

附图说明

图1是基于信息熵的蛋白质结构从头预测方法对蛋白质1QYS进行结构预测时的流程图；

图2是基于信息熵的蛋白质结构从头预测方法对蛋白质1QYS进行结构预测时的构象更新示意图；

图3是基于信息熵的蛋白质结构从头预测方法对蛋白质1QYS预测得到的三维结构。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于信息熵的蛋白质结构从头预测方法，包括以下步骤：

4)采用k-mediods方法对轨迹构象进行聚类，过程如下：

4.4)若新旧中心点一致，则聚类终止，否则，返回4.2)；

5)对轨迹构象构建Markov模型，过程如下：

5.2)根据概率计算公式，即

其中，t_ij为轨迹构象从第i类转移至第j类的转移概率；

6)计算信息熵，过程如下：

6.1)如式(3)所示，计算概率p_ij：

6.2)如式(4)所示，计算信息熵E：

本实施例序列长度为106的α/β折叠蛋白质1QYS为实施例，一种基于信息熵的蛋白质结构从头预测方法，其中包含以下步骤：

2)初始化：设置最大迭代次数G_max＝10000，由输入序列产生一系列轨迹数据，即具有时序性的一系列蛋白质构象，记为C＝{C₁,C₂,...,C_i,...,C_n}，i∈{1,2,…,n}，n＝100，其中，C_i表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象，并初始化迭代次数G＝0；

3)计算集合C中所有构象两两之间的均方根偏差RMSD值，构建如式(1)所示的RMSD距离矩阵D；

4)采用k-mediods方法对轨迹构象进行聚类，过程如下：

4.1)随机选取k＝5个构象作为聚类的中心点M，即选择距离矩阵D中的k＝5行数据作为聚类中心点，记为M＝{M₁,...,M_k|M_k＝{d_k1,...,d_kn}}；

4.2)查询距离矩阵D，确定每个轨迹构象与第i个中心点M_i的RMSD值最小，为轨迹构象添加标签tag_i，表示该轨迹构象聚类至第i类，i＝1,...,k；

4.3)查询距离矩阵D，确定轨迹构象中与各构象RMSD值最小的构象，作为第i类中新的中心点M_i，i＝1,...,k；

4.4)若新旧中心点一致，则聚类终止，否则，返回4.2)；

5)对轨迹构象构建Markov模型，过程如下：

5.2)根据概率计算公式，即

其中，t_ij为轨迹构象从第i类转移至第j类的转移概率；

6)计算信息熵，过程如下：

6.1)如式(3)所示，计算概率p_ij：

6.2)如式(4)所示，计算信息熵E：

进一步，所述步骤8)中，对种群中的每一个个体都执行完步骤3)—7)以后，迭代次数G＝G+1，终止条件为迭代次数G达到预设最大迭代次数G_max＝10000。

以序列长度为106的α/β折叠蛋白质1QYS为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为

平均均方根偏差为

构象更新图如图2所示，三维结构图如图3所示。

以上阐述的是本发明给出的一个实施例表现出来的优良优化效果，显然本发明不仅适合上述实施例，而且可以应用到实际工程中的各个领域(如电力系统，路径规划等优化问题)，同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。