CN107491664B - 一种基于信息熵的蛋白质结构从头预测方法 - Google Patents
一种基于信息熵的蛋白质结构从头预测方法 Download PDFInfo
- Publication number
- CN107491664B CN107491664B CN201710757209.6A CN201710757209A CN107491664B CN 107491664 B CN107491664 B CN 107491664B CN 201710757209 A CN201710757209 A CN 201710757209A CN 107491664 B CN107491664 B CN 107491664B
- Authority
- CN
- China
- Prior art keywords
- conformation
- track
- class
- prediction method
- information entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Abstract
一种基于信息熵的蛋白质结构从头预测方法,包括以下步骤:1)给定输入序列信息以及蛋白质力场模型;2)初始化;3)计算距离矩阵;4)k‑mediods聚类;5)构建Markov模型并计算转移矩阵;6)计算信息熵;7)选择操作;8)判断是否满足终止条件,如果满足则终止,并输出全局最优解。本发明提出一种以信息熵为评价指标的蛋白质结构从头预测方法,该方法建立信息熵指标用以度量构象搜索的有序化程度,并且将信息熵指标引入构象选择中,提高从头预测方法的搜索效率以及预测精度。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于信息熵的蛋白质结构从头预测方法。
背景技术
1990年,美国正式启动了人类基因组计划,并于2003年正式宣布完成,人类基因组计划的顺利实施,标志人类基因组DNA的30亿个碱基对序列测序工作已基本完成。基因组数据测序的巨大进步,对生命科学基础理论的发展有重要意义,但解决实际的医学、药学和材料学等问题,必须获取生物大分子的结构信息进行功能注解,如蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能,从而进行药物筛选或设计中用于药物分子的构型搜索及蛋白质复合结构的优化。
目前蛋白质数据库PDB中的蛋白质三维结构主要通过结构实验测定技术得到,不仅存在应用局限,测定过程也费时费钱费力,比如,使用NMR方法测定一个蛋白质通常需要15万美元以及半年的时间,因此实验测定蛋白质三维结构的速度远远达不到所需速度。现有条件下,能通过实验测定方法确定的蛋白质结构只是少数,考虑到高性能计算技术的飞速发展,以计算机为工具,运用适当的算法,从序列出发直接预测生物大分子的三维结构,在后基因组时代生命科学的理论和应用研究中将发挥日益重要的作用。
其中,从头预测方法被广泛应用于各种蛋白质的结构预测,该方法不依赖于任何已知结构,而是以Anfinsen热力学假说构建蛋白质能量函数,再通过有效的构象搜索方法来搜寻目标蛋白的天然结构。Anfinsen热力学假说认为蛋白质的天然结构具有热稳定性,对应于蛋白质及周围溶剂分子所构成的整个体系的自由能极小点,因此从头预测方法通常采用片段组装技术,在构象搜索过程中指导算法向低能量构象进行搜索。但是,现有从头预测方法由于不精确的能量函数、低质量的片段库、以及无效的搜索方法等问题,导致其在计算代价和搜索效率方面存在不足,而均方根偏差RMSD值和能量函数值,这两种常用指标无法有效反映从头预测方法所存在的问题,从而限制了该方法的改进和进一步的发展。
因此,现有的从头预测方法在评价指标方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构从头预测方法在评价指标方面的不足,本发明提出一种以信息熵为评价指标的蛋白质结构从头预测方法,该方法建立信息熵指标用以度量构象搜索的有序化程度,并且将信息熵指标引入构象选择中,提高从头预测方法的搜索效率以及预测精度。
本发明解决其技术问题所采用的技术方案是:
一种基于信息熵的蛋白质结构从头预测方法,所述方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:由输入序列产生一系列轨迹数据,即具有时序性的一系列蛋白质构象,记为C={C1,C2,...,Ci,...,Cn},i∈{1,2,…,n},其中,Ci表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象,并初始化迭代次数G=0;
3)计算轨迹构象集合C中所有构象两两之间的均方根偏差RMSD值,构建如式(1)所示的RMSD距离矩阵D;
其中,dij为轨迹构象中第i个构象和第j个构象之间的RMSD值,另外,可将距离矩阵D中的行数据视为对应构象的距离信息;
4)采用k-mediods方法对轨迹构象进行聚类,过程如下:
4.1)随机选取k个构象作为聚类的中心点M,即选择距离矩阵D中的k行数据作为聚类中心点,记为M={M1,...,Mk|Mk={dk1,...,dkn}};
4.2)查询距离矩阵D,确定每个轨迹构象与第i个中心点Mi的RMSD值最小,为轨迹构象添加标签tag_i,表示该轨迹构象聚类至第i类;
4.3)查询距离矩阵D,确定轨迹构象中与各构象RMSD值最小的构象,作为第i类中新的中心点Mi;
4.4)若新旧中心点一致,则聚类终止,否则,返回4.2);
5)对轨迹构象构建Markov模型,过程如下:
5.1)依据轨迹构象的时序关系,统计第i类中转移至第j类的轨迹构象数,记为zij;
其中,tij为轨迹构象从第i类转移至第j类的转移概率;
6)计算信息熵,过程如下:
6.1)如式(3)所示,计算概率pij:
其中tij为轨迹构象从第i类转移至第j类的转移概率,Ntrans为总的转移概率;
6.2)如式(4)所示,计算信息熵E:
7)当前从头预测方法继续生成构象,根据如下操作决定新生成的构象Ctrial是否替换其前一个构象Ctarget,过程如下:
7.1)当前信息熵为E(Ctarget),将Ctrial计入轨迹构象集合C中,更新信息熵,记为E(Ctrial);
7.2)如果E(Ctrial)>E(Ctarget),则构象Ctarget保持不变,当前从头预测方法进行下一次构象搜索;
7.3)如果E(Ctrial)>E(Ctarget),则新构象Ctrial替换前一个构象Ctarget;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤3)。
进一步,所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,对种群中的每一个个体都执行完步骤3)—7)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax。
本发明的技术构思为:首先,对初始轨迹构象构建两两之间以RMSD值为尺度的距离矩阵,用以表征轨迹构象之间的结构差异;其次,根据距离矩阵,采用k-mediods方法对轨迹构象进行聚类,从而基于聚类结果,构建Markov模型;然后,统计当前轨迹的Markov转移矩阵,进而计算信息熵,实现对当前从头预测方法构象搜索情况的量化评价;最后,将信息熵指标引入当前从头预测方法的构象选择中,以指导该方法的构象搜索,提高预测精度。
本发明的有益效果表现在:基于轨迹构象差异度建立信息熵指标,实现对当前从头预测方法构象搜索有序化程度的量化评价,一方面,弥补了现有指标对从头预测方法搜索情况的评价缺陷;另一方面,将信息熵指标引入构象选择环节,能够降低当前从头预测方法的计算代价,提高搜索效率及预测精度。
附图说明
图1是基于信息熵的蛋白质结构从头预测方法对蛋白质1QYS进行结构预测时的流程图;
图2是基于信息熵的蛋白质结构从头预测方法对蛋白质1QYS进行结构预测时的构象更新示意图;
图3是基于信息熵的蛋白质结构从头预测方法对蛋白质1QYS预测得到的三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于信息熵的蛋白质结构从头预测方法,包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:由输入序列产生一系列轨迹数据,即具有时序性的一系列蛋白质构象,记为C={C1,C2,...,Ci,...,Cn},i∈{1,2,…,n},其中,Ci表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象,并初始化迭代次数G=0;
3)计算轨迹构象集合C中所有构象两两之间的均方根偏差RMSD值,构建如式(1)所示的RMSD距离矩阵D;
其中,dij为轨迹构象中第i个构象和第j个构象之间的RMSD值,另外,可将距离矩阵D中的行数据视为对应构象的距离信息;
4)采用k-mediods方法对轨迹构象进行聚类,过程如下:
4.1)随机选取k个构象作为聚类的中心点M,即选择距离矩阵D中的k行数据作为聚类中心点,记为M={M1,...,Mk|Mk={dk1,...,dkn}};
4.2)查询距离矩阵D,确定每个轨迹构象与第i个中心点Mi的RMSD值最小,为轨迹构象添加标签tag_i,表示该轨迹构象聚类至第i类;
4.3)查询距离矩阵D,确定轨迹构象中与各构象RMSD值最小的构象,作为第i类中新的中心点Mi;
4.4)若新旧中心点一致,则聚类终止,否则,返回4.2);
5)对轨迹构象构建Markov模型,过程如下:
5.1)依据轨迹构象的时序关系,统计第i类中转移至第j类的轨迹构象数,记为zij;
其中,tij为轨迹构象从第i类转移至第j类的转移概率;
6)计算信息熵,过程如下:
6.1)如式(3)所示,计算概率pij:
其中tij为轨迹构象从第i类转移至第j类的转移概率,Ntrans为总的转移概率;
6.2)如式(4)所示,计算信息熵E:
7)当前从头预测方法继续生成构象,根据如下操作决定新生成的构象Ctrial是否替换其前一个构象Ctarget,过程如下:
7.1)当前信息熵为E(Ctarget),将Ctrial计入轨迹构象集合C中,更新信息熵,记为E(Ctrial);
7.2)如果E(Ctrial)>E(Ctarget),则构象Ctarget保持不变,当前从头预测方法进行下一次构象搜索;
7.3)如果E(Ctrial)>E(Ctarget),则新构象Ctrial替换前一个构象Ctarget;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤3)。
进一步,所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,对种群中的每一个个体都执行完步骤3)—7)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax。
本实施例序列长度为106的α/β折叠蛋白质1QYS为实施例,一种基于信息熵的蛋白质结构从头预测方法,其中包含以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:设置最大迭代次数Gmax=10000,由输入序列产生一系列轨迹数据,即具有时序性的一系列蛋白质构象,记为C={C1,C2,...,Ci,...,Cn},i∈{1,2,…,n},n=100,其中,Ci表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象,并初始化迭代次数G=0;
3)计算集合C中所有构象两两之间的均方根偏差RMSD值,构建如式(1)所示的RMSD距离矩阵D;
其中,dij为轨迹构象中第i个构象和第j个构象之间的RMSD值,另外,可将距离矩阵D中的行数据视为对应构象的距离信息;
4)采用k-mediods方法对轨迹构象进行聚类,过程如下:
4.1)随机选取k=5个构象作为聚类的中心点M,即选择距离矩阵D中的k=5行数据作为聚类中心点,记为M={M1,...,Mk|Mk={dk1,...,dkn}};
4.2)查询距离矩阵D,确定每个轨迹构象与第i个中心点Mi的RMSD值最小,为轨迹构象添加标签tag_i,表示该轨迹构象聚类至第i类,i=1,...,k;
4.3)查询距离矩阵D,确定轨迹构象中与各构象RMSD值最小的构象,作为第i类中新的中心点Mi,i=1,...,k;
4.4)若新旧中心点一致,则聚类终止,否则,返回4.2);
5)对轨迹构象构建Markov模型,过程如下:
5.1)依据轨迹构象的时序关系,统计第i类中转移至第j类的轨迹构象数,记为zij;
其中,tij为轨迹构象从第i类转移至第j类的转移概率;
6)计算信息熵,过程如下:
6.1)如式(3)所示,计算概率pij:
其中tij为轨迹构象从第i类转移至第j类的转移概率,Ntrans为总的转移概率;
6.2)如式(4)所示,计算信息熵E:
7)当前从头预测方法继续生成构象,根据如下操作决定新生成的构象Ctrial是否替换其前一个构象Ctarget,过程如下:
7.1)当前信息熵为E(Ctarget),将Ctrial计入轨迹构象集合C中,更新信息熵,记为E(Ctrial);
7.2)如果E(Ctrial)>E(Ctarget),则构象Ctarget保持不变,当前从头预测方法进行下一次构象搜索;
7.3)如果E(Ctrial)>E(Ctarget),则新构象Ctrial替换前一个构象Ctarget;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤3)。
进一步,所述步骤8)中,对种群中的每一个个体都执行完步骤3)—7)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax=10000。
以上阐述的是本发明给出的一个实施例表现出来的优良优化效果,显然本发明不仅适合上述实施例,而且可以应用到实际工程中的各个领域(如电力系统,路径规划等优化问题),同时在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (2)
1.一种基于信息熵的蛋白质结构从头预测方法,其特征在于:所述预测方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:由输入序列产生一系列轨迹数据,即具有时序性的一系列蛋白质构象,记为C={C1,C2,...,Ci,...,Cn},i∈{1,2,…,n},其中,Ci表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象,并初始化迭代次数G=0;
3)计算轨迹构象集合C中所有构象两两之间的均方根偏差RMSD值,构建如式(1)所示的RMSD距离矩阵D;
其中,dij为轨迹构象中第i个构象和第j个构象之间的RMSD值,另外,可将距离矩阵D中的行数据视为对应构象的距离信息;
4)采用k-mediods方法对轨迹构象进行聚类,过程如下:
4.1)随机选取k个构象作为聚类的中心点M,即选择距离矩阵D中的k行数据作为聚类中心点,记为M={M1,...,Mk|Mk={dk1,...,dkn}};
4.2)查询距离矩阵D,确定每个轨迹构象与第I个中心点MI的RMSD值最小,为轨迹构象添加标签tag_I,表示该轨迹构象聚类至第I类;
4.3)查询距离矩阵D,确定轨迹构象中与各构象RMSD值最小的构象,作为第I类中新的中心点MI;
4.4)若新旧中心点一致,则聚类终止,否则,返回4.2);
5)对轨迹构象构建Markov模型,过程如下:
5.1)依据轨迹构象的时序关系,统计第i类中转移至第j类的轨迹构象数,记为zij;
其中,tij为轨迹构象从第i类转移至第j类的转移概率;
6)计算信息熵,过程如下:
6.1)如式(3)所示,计算概率pij:
其中tij为轨迹构象从第i类转移至第j类的转移概率,Ntrans为总的转移概率;
6.2)如式(4)所示,计算信息熵E:
7)当前从头预测方法继续生成构象,根据如下操作决定新生成的构象Ctrial是否替换其前一个构象Ctarget,过程如下:
7.1)当前信息熵为E(Ctarget),将Ctrial计入轨迹构象集合C中,更新信息熵,记为E(Ctrial);
7.2)如果E(Ctrial)>E(Ctarget),则构象Ctarget保持不变,当前从头预测方法进行下一次构象搜索;
7.3)如果E(Ctrial)>E(Ctarget),则新构象Ctrial替换前一个构象Ctarget;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤3)。
2.如权利要求1所述的一种基于信息熵的蛋白质结构从头预测方法,其特征在于:所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,对种群中的每一个个体都执行完步骤3)—7)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710757209.6A CN107491664B (zh) | 2017-08-29 | 2017-08-29 | 一种基于信息熵的蛋白质结构从头预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710757209.6A CN107491664B (zh) | 2017-08-29 | 2017-08-29 | 一种基于信息熵的蛋白质结构从头预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491664A CN107491664A (zh) | 2017-12-19 |
CN107491664B true CN107491664B (zh) | 2020-08-18 |
Family
ID=60651143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710757209.6A Active CN107491664B (zh) | 2017-08-29 | 2017-08-29 | 一种基于信息熵的蛋白质结构从头预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491664B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108614957B (zh) * | 2018-03-22 | 2021-06-18 | 浙江工业大学 | 一种基于香农熵的多阶段蛋白质结构预测方法 |
CN108563921B (zh) * | 2018-03-22 | 2021-05-18 | 浙江工业大学 | 一种蛋白质结构预测算法评价指标构建方法 |
CN109378033B (zh) * | 2018-08-29 | 2021-04-06 | 浙江工业大学 | 一种基于转移熵的策略自适应蛋白质构象空间优化方法 |
CN110781910A (zh) * | 2019-08-06 | 2020-02-11 | 广州地理研究所 | 一种马尔可夫协同下的悬浮物遥感评估方法 |
CN113990401B (zh) * | 2021-11-18 | 2023-03-14 | 北京深势科技有限公司 | 固有无序蛋白的药物分子设计方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732115A (zh) * | 2014-11-25 | 2015-06-24 | 浙江工业大学 | 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法 |
CN106605228A (zh) * | 2014-07-07 | 2017-04-26 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120011156A1 (en) * | 2010-06-29 | 2012-01-12 | Indiana University Research And Technology Corporation | Inter-class molecular association connectivity mapping |
-
2017
- 2017-08-29 CN CN201710757209.6A patent/CN107491664B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106605228A (zh) * | 2014-07-07 | 2017-04-26 | 耶达研究及发展有限公司 | 计算蛋白质设计的方法 |
CN104732115A (zh) * | 2014-11-25 | 2015-06-24 | 浙江工业大学 | 一种基于简约空间抽象凸下界估计的蛋白质构象优化方法 |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
Non-Patent Citations (2)
Title |
---|
Exploration of Soft Computing Approaches in Itemset Mining;Jyothi Pillai et.al;《Emerging Methods in Predictive Analytics: Risk Management and Decision-Making》;20141231;第27-28页 * |
基于信息熵的蛋白质二级结构预测算法的准确性研究;于淑惠 等;《生物信息学》;20060131;第5卷(第1期);第19-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107491664A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491664B (zh) | 一种基于信息熵的蛋白质结构从头预测方法 | |
US10055539B2 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
US20240096450A1 (en) | Systems and methods for adaptive local alignment for graph genomes | |
US10192026B2 (en) | Systems and methods for genomic pattern analysis | |
AU2014340461A1 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
Zou et al. | Approaches for recognizing disease genes based on network | |
Tomita et al. | Efficient algorithms for finding maximum and maximal cliques: Effective tools for bioinformatics | |
US20180247016A1 (en) | Systems and methods for providing assisted local alignment | |
Malebary et al. | Identification of Antimicrobial Peptides Using Chou's 5 Step Rule. | |
CN109785901B (zh) | 一种蛋白质功能预测方法及装置 | |
Xia et al. | Fast protein structure comparison through effective representation learning with contrastive graph neural networks | |
Wei et al. | CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data | |
Sun et al. | Protein function prediction using function associations in protein–protein interaction network | |
Sadiq et al. | NvPD: novel parallel edit distance algorithm, correctness, and performance evaluation | |
CN113223609B (zh) | 基于异质信息网络的药物靶标相互作用预测方法 | |
Sun et al. | Smolign: a spatial motifs-based protein multiple structural alignment method | |
Roshan | Multiple sequence alignment using Probcons and Probalign | |
Mathur | Bioinformatics challenges: a review | |
Yue et al. | A systematic review on the state-of-the-art strategies for protein representation | |
Aslanyan | LCS algorithm with vector-markers | |
Medlar et al. | Pannzer 2: Annotate a complete proteome in minutes | |
Yu et al. | Revisit of machine learning supported biological and biomedical studies | |
Si et al. | Survey of gene splicing algorithms based on reads | |
Haritha et al. | A Comprehensive Review on Protein Sequence Analysis Techniques | |
Kai et al. | Multi-scale annotations of chromatin states in 127 human cell-types |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |