CN109390033B - 一种基于片段自适应选择的群体蛋白质结构预测方法 - Google Patents
一种基于片段自适应选择的群体蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109390033B CN109390033B CN201810994098.5A CN201810994098A CN109390033B CN 109390033 B CN109390033 B CN 109390033B CN 201810994098 A CN201810994098 A CN 201810994098A CN 109390033 B CN109390033 B CN 109390033B
- Authority
- CN
- China
- Prior art keywords
- fragment
- conformation
- residue
- residue position
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于片段自适应选择的群体蛋白质结构预测方法,在差分进化算法框架下,针对每一代的构象,首先从当前种群中选择能量最低的构象,通过对其每个残基位进行多次组装来学习每个残基位和对应的片段库中每个片段的成功率,并根据前一代的成功信息来计算每个残基位和对应的片段库中每个片段的选择概率;在变异和组装过程中,根据这些概率去确定残基位以及从对应的片段库中选择片段,从而保证成功率较高的残基位和成功率较高的片段被选择的概率较大,进而提高预测精度。本发明提供一种预测精度较高的基于片段自适应选择的群体蛋白质结构预测方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于片段自适应选择的群体蛋白质结构预测方法。
背景技术
蛋白质结构实验测定是结构基因组学研究的主要内容,主要包括X射线晶体衍射和多维核磁共振(NMR)两种方法。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所能达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需求量大、纯度要求高,目前只能测定小分子蛋白质的结构。现阶段实验测定方法主要问题在于两个方面:一方面,对于现代药物设计的主要靶标—膜蛋白而言,极难获得其结构;另外,实验测定过程费时费钱费力,代价不菲。
蛋白质结构从头预测直接基于蛋白质物理化学或知识能量模型,利用优化算法在构象空间搜索全局最低能量构象解。计算机硬件和软件技术的快速发展,为蛋白质结构从头预测提供了坚实的基础平台条件。IBM超级计算机蓝色基因(BlueGene)、Shaw研究团队超级计算机ANTON、华盛顿大学分布式网络计算平台Rosetta@home、斯坦福大学分布式网络计算平台Folding@home的成功应用,使得从头预测方法在FM组某些目标蛋白的应用上,实现了历史性的突破。在2014年CASP11中,Baker研究团队首次针对尺寸大于150残基的FM组T0806目标蛋白(序列长度为258),预测得到精度为的蛋白结构模型。蛋白质结构从头预测方法取得的进展和突破,反过来进一步促进了计算机科学、计算智能等学科研究人员的广泛参与,使其成为近年来蛋白质结构预测领域中最为活跃的一个多学科研究问题。
在从头预测方法中,首先根据查询序列对整个已知结构的蛋白质库进行搜索,从而得到与查询序列相似的蛋白质,然后基于这些蛋白建立查询蛋白中每个残基位的片段库。在预测中,首先随机选择一个残基位,然后从该残基位的片段库中随机选择一个片段进行组装,并根据能量函数评价组装后的构象,如果能量降低,则组装成功,否则组装失败。然而,在上述组装过程中,片段的插入位置以及片段的选择具有盲目性,无法保证一些较优的片段获得的组装机会加大,从而导致预测精度较低。
因此,现有的蛋白质结构预测方法在预测精度方面存在着缺陷,需要改进。
发明内容
为了克服现有蛋白质结构预测方法的预测精度较低的不足,本发明提出一种基于片段自适应选择的群体蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于片段自适应选择的群体蛋白质结构预测方法,所述方法包括以下步骤:
1)输入待测蛋白质的序列信息,并从ROBETTA服务器(http://www.robetta.org/)上得到片段库;
2)参数设置:设置种群规模NP,交叉概率CR,片段长度l,温度因子KT,最大迭代次数Gmax,选择概率更新因子k,初始化迭代次数g=0,并设置残基位的组装次数N,第j个残基位在第g代中的选择概率第j个残基位的片段库中第m个片段在第g代的选择概率j=1,2,...,L,其中S为片段库中片段的数量,L为序列长度;
3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群P={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
4)根据Rosetta Score3计算当前种群中每个构象个体的能量值;
5)选择当前种群中能量最低的构象,并对其各残基位随机片段组装N次,并记录每个残基位组装成功的次数,以及每个残基位的片段库中每个片段的成功次数和总使用次数,其中,用Rosetta socre3能量函数计算组装前后构象的能量,如果能量降低,则表示组装成功;
8)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:
8.1)将构象Ci看作目标构象,从当前种群中随机选择两个不同的,且与Ci也不相同的构象Ca和Cb;
8.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择两个互不相同的残基位A和B,A和B均∈{1,2,...,L};
8.3)将构象Ca中残基位A上长度为l的片段替换到构象Ci的对应位置上,并将构象Cb中残基位B上长度为l的片段替换到构象Ci的对应位置上,生成变异构象Cmutant;
8.4)随机生成一个0和1之间的小数R,如果R<CR,则执行如下操作:
8.4.1)从构象Ci中随机选取一个长度为l的片段替换变异构象Cmutant中对应位置的片段,生成构象C′trial
8.4.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择一个残基位D;
8.4.4)根据残基位D的片段库中每个片段的归一化选择概率,利用轮盘赌方法,从片段库中选择一个片段插入到构象C ′ trial的残基位D上,生成测试构象Ctrial;
8.5)如果R≥CR,则根据步骤8.4.2)-8.4.4)对变异构象Cmutant进行片段组装生成测试构象Ctrial;
8.6)根据Rosetta score3能量函数计算测试构象Ctrial的能量值,如果Ctrial的能量值小于Ci的能量值,则Ctri替换Ci;否则根据玻尔兹曼概率接受Ctrial,其中ΔE为Ctrial的能量值与Ci的能量值误差的绝对值;
9)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
本发明的技术构思为:在差分进化算法框架下,针对每一代的构象,首先从当前种群中选择能量最低的构象,通过对其每个残基位进行多次组装来学习每个残基位和对应的片段库中每个片段的成功率,并根据前一代的成功信息来计算每个残基位和对应的片段库中每个片段的选择概率;在变异和组装过程中,根据这些概率去确定残基位以及从对应的片段库中选择片段,从而保证成功率较高的残基位和成功率较高的片段被选择的概率较大,进而提高预测精度。本发明提供一种预测精度较高的基于片段自适应选择的群体蛋白质结构预测方法。
本发明的有益效果表现在:根据残基位和片段的成功信息确定其被选中的概率,从而保证成功率较高的残基位和成功率较高的片段被选择的概率较大,进而提高预测精度。
附图说明
图1是基于片段自适应选择的群体蛋白质结构预测方法对蛋白质3GWL进行结构预测时的构象更新示意图。
图2是基于片段自适应选择的群体蛋白质结构预测方法对蛋白质3GWL进行结构预测时得到的构象分布图。
图3是基于片段自适应选择的群体蛋白质结构预测方法对蛋白质3GWL进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于片段自适应选择的群体蛋白质结构预测方法,包括以下步骤:
1)输入待测蛋白质的序列信息,并从ROBETTA服务器(http://www.robetta.org/)上得到片段库;
2)参数设置:设置种群规模NP,交叉概率CR,片段长度l,温度因子KT,最大迭代次数Gmax,选择概率更新因子k,初始化迭代次数g=0,并设置残基位的组装次数N,第j个残基位在第g代中的选择概率第j个残基位的片段库中第m个片段在第g代的选择概率j=1,2,...,L,其中S为片段库中片段的数量,L为序列长度;
3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群P={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
4)根据Rosetta Score3计算当前种群中每个构象个体的能量值;
5)选择当前种群中能量最低的构象,并对其各残基位随机片段组装N次,并记录每个残基位组装成功的次数,以及每个残基位的片段库中每个片段的成功次数和总使用次数,其中,用Rosetta socre3能量函数计算组装前后构象的能量,如果能量降低,则表示组装成功;
8)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:
8.1)将构象Ci看作目标构象,从当前种群中随机选择两个不同的,且与Ci也不相同的构象Ca和Cb;
8.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择两个互不相同的残基位A和B,A和B均∈{1,2,...,L};
8.3)将构象Ca中残基位A上长度为l的片段替换到构象Ci的对应位置上,并将构象Cb中残基位B上长度为l的片段替换到构象Ci的对应位置上,生成变异构象Cmutant;
8.4)随机生成一个0和1之间的小数R,如果R<CR,则执行如下操作:
8.4.1)从构象Ci中随机选取一个长度为l的片段替换变异构象Cmutant中对应位置的片段,生成构象C ′ trial;
8.4.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择一个残基位D;
8.4.4)根据残基位D的片段库中每个片段的归一化选择概率,利用轮盘赌方法,从片段库中选择一个片段插入到构象C ′ trial的残基位D上,生成测试构象Ctrial;
8.5)如果R≥CR,则根据步骤8.4.2)-8.4.4)对变异构象Cmutant进行片段组装生成测试构象Ctrial;
8.6)根据Rosetta score3能量函数计算测试构象Ctrial的能量值,如果Ctrial的能量值小于Ci的能量值,则Ctri替换Ci;否则根据玻尔兹曼概率接受Ctrial,其中ΔE为Ctrial的能量值与Ci的能量值误差的绝对值;
9)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
本实施例序列长度为106的α折叠蛋白质3GWL为实施例,一种基于片段自适应选择的群体蛋白质结构预测方法,其中包含以下步骤:
1)输入待测蛋白质的序列信息,并从ROBETTA服务器(http://www.robetta.org/)上得到片段库;
2)参数设置:设置种群规模NP=50,交叉概率CR=0.5,片段长度l=9,温度因子KT=0.5,最大迭代次数Gmax=1000,选择概率更新因子k=0.5,初始化迭代次数g=0,并设置残基位的组装次数N=100,第j个残基位在第g代中的选择概率第j个残基位的片段库中第m个片段在第g代的选择概率其中S=200为片段库中片段的数量,L为序列长度;
3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群P={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
4)根据Rosetta Score3计算当前种群中每个构象个体的能量值;
5)选择当前种群中能量最低的构象,并对其各残基位随机片段组装N次,并记录每个残基位组装成功的次数,以及每个残基位的片段库中每个片段的成功次数和总使用次数,其中,用Rosetta socre3能量函数计算组装前后构象的能量,如果能量降低,则表示组装成功;
8)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:
8.1)将构象Ci看作目标构象,从当前种群中随机选择两个不同的,且与Ci也不相同的构象Ca和Cb;
8.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择两个互不相同的残基位A和B,A和B均∈{1,2,...,L};
8.3)将构象Ca中残基位A上长度为l的片段替换到构象Cc的对应位置上,并将构象Cb中残基位B上长度为l的片段替换到构象Cc的对应位置上,生成变异构象Cmutant;
8.4)随机生成一个0和1之间的小数R,如果R<CR,则执行如下操作:
8.4.1)从构象Ci中随机选取一个长度为l的片段替换变异构象Cmutant中对应位置的片段,生成构象C ′ trial
8.4.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择一个残基位D;
8.4.4)根据残基位D的片段库中每个片段的归一化选择概率,利用轮盘赌方法,从片段库中选择一个片段插入到构象C ′ trial的残基位D上,生成测试构象Ctrial;
8.5)如果R≥CR,则根据步骤8.4.2)-8.4.4)对变异构象Cmutant进行片段组装生成测试构象Ctrial;
8.6)根据Rosetta score3能量函数计算测试构象Ctrial的能量值,如果Ctrial的能量值小于Ci的能量值,则Ctri替换Ci;否则根据玻尔兹曼概率接受Ctrial,其中ΔE为Ctrial的能量值与Ci的能量值误差的绝对值;
9)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
以上说明是本发明以蛋白质3GWL为实例所得到的结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于片段自适应选择的群体蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)输入待测蛋白质的序列信息,并从ROBETTA服务器上得到片段库;
2)参数设置:设置种群规模NP,交叉概率CR,片段长度l,温度因子KT,最大迭代次数Gmax,选择概率更新因子k,初始化迭代次数g=0,并设置残基位的组装次数N,第j个残基位在第g代中的选择概率j=1,2,...,L,第j个残基位的片段库中第m个片段在第g代的选择概率m=1,2,...,S,j=1,2,...,L,其中S为片段库中片段的数量,L为序列长度;
3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群P={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
4)根据Rosetta Score3计算当前种群中每个构象个体的能量值;
5)选择当前种群中能量最低的构象,并对其各残基位随机片段组装N次,并记录每个残基位组装成功的次数,以及每个残基位的片段库中每个片段的成功次数和总使用次数,其中,用Rosetta socre3能量函数计算组装前后构象的能量,如果能量降低,则表示组装成功;
6)用每个残基位组装成功的次数除以总组装次数N得到该残基位的组装成功率sj,j=1,2,...,L,并用每个残基位的片段库中的每个片段的成功次数除以总使用次数得到每个片段的成功率m=1,2,...,S,j=1,2,...,L;
7)如果g>0,计算每个残基位的选择概率j=1,2,...,L,并对其进行归一化得到归一化选择概率j=1,2,...,L,同时,如果m=1,2,...,S,j=1,2,...,L,则计算第j个残基位的片段库中的第m个片段的成功率
8)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:
8.1)将构象Ci看作目标构象,从当前种群中随机选择两个不同的,且与Ci也不相同的构象Ca和Cb;
8.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择两个互不相同的残基位A和B,A和B均∈{1,2,...,L};
8.3)将构象Ca中残基位A上长度为l的片段替换到构象Ci的对应位置上,并将构象Cb中残基位B上长度为l的片段替换到构象Ci的对应位置上,生成变异构象Cmutant;
8.4)随机生成一个0和1之间的小数R,如果R<CR,则执行如下操作:
8.4.1)从构象Ci中随机选取一个长度为l的片段替换变异构象Cmutant中对应位置的片段,生成构象C ′ trial
8.4.2)根据每个残基位的归一化选择概率,利用轮盘赌方法,选择一个残基位D;
8.4.4)根据残基位D的片段库中每个片段的归一化选择概率,利用轮盘赌方法,从片段库中选择一个片段插入到构象C ′ trial的残基位D上,生成测试构象Ctrial;
8.5)如果R≥CR,则根据步骤8.4.2)-8.4.4)对变异构象Cmutant进行片段组装生成测试构象Ctrial;
8.6)根据Rosetta score3能量函数计算测试构象Ctrial的能量值,如果Ctrial的能量值小于Ci的能量值,则Ctrial替换Ci;否则根据玻尔兹曼概率接受Ctrial,其中ΔE为Ctrial的能量值与Ci的能量值误差的绝对值;
9)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994098.5A CN109390033B (zh) | 2018-08-29 | 2018-08-29 | 一种基于片段自适应选择的群体蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994098.5A CN109390033B (zh) | 2018-08-29 | 2018-08-29 | 一种基于片段自适应选择的群体蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109390033A CN109390033A (zh) | 2019-02-26 |
CN109390033B true CN109390033B (zh) | 2020-10-30 |
Family
ID=65417589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994098.5A Active CN109390033B (zh) | 2018-08-29 | 2018-08-29 | 一种基于片段自适应选择的群体蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109390033B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
CN105205348A (zh) * | 2015-09-22 | 2015-12-30 | 浙江工业大学 | 一种基于距离约束选择策略的群体构象空间优化方法 |
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN106055920A (zh) * | 2016-06-02 | 2016-10-26 | 浙江工业大学 | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 |
CN106372456A (zh) * | 2016-08-26 | 2017-02-01 | 浙江工业大学 | 一种基于深度学习Residue2vec的蛋白质结构预测方法 |
-
2018
- 2018-08-29 CN CN201810994098.5A patent/CN109390033B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984878A (zh) * | 2014-04-08 | 2014-08-13 | 浙江工业大学 | 一种基于树搜索和片段组装的蛋白质结构预测方法 |
CN105205348A (zh) * | 2015-09-22 | 2015-12-30 | 浙江工业大学 | 一种基于距离约束选择策略的群体构象空间优化方法 |
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN106055920A (zh) * | 2016-06-02 | 2016-10-26 | 浙江工业大学 | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 |
CN106372456A (zh) * | 2016-08-26 | 2017-02-01 | 浙江工业大学 | 一种基于深度学习Residue2vec的蛋白质结构预测方法 |
Non-Patent Citations (2)
Title |
---|
"Enhancing Protein Conformational Space Sampling Using Distance Profile-Guided Differential Evolution";Gui-Jun Zhang 等;《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》;20171231;第14卷(第6期);第1288-1301页 * |
"Self-Adaptive Differential Evolution Algorithm With Zoning Evolution of Control Parameters and Adaptive Mutation Strategies";Qinqin Fan 等;《IEEE TRANSACTIONS ON CYBERNETICS》;20160131;第46卷(第1期);第219-232页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109390033A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bernard et al. | Informative structure priors: joint learning of dynamic regulatory networks from multiple types of data | |
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
JP2022501694A (ja) | 距離マップクロップを組み合わせることによってタンパク質距離マップを決定すること | |
Rashid et al. | An enhanced genetic algorithm for ab initio protein structure prediction | |
CN108846256B (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
CN109524058B (zh) | 一种基于差分进化的蛋白质二聚体结构预测方法 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
Simoncini et al. | Efficient sampling in fragment-based protein structure prediction using an estimation of distribution algorithm | |
CN109390033B (zh) | 一种基于片段自适应选择的群体蛋白质结构预测方法 | |
CN111180004B (zh) | 一种多元接触信息的子种群策略蛋白质结构预测方法 | |
CN108920894B (zh) | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN109346126B (zh) | 一种下界估计策略自适应蛋白质结构预测方法 | |
Zhang et al. | Two-stage distance feature-based optimization algorithm for de novo protein structure prediction | |
CN108595910B (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109360597B (zh) | 一种基于全局和局部策略协作的群体蛋白质结构预测方法 | |
CN109300503B (zh) | 一种全局和局部下界估计协同的群体蛋白质结构预测方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109411013B (zh) | 一种基于个体特定变异策略的群体蛋白质结构预测方法 | |
CN109243525B (zh) | 一种基于种群熵的阶段性蛋白质结构预测方法 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN109448786B (zh) | 一种下界估计动态策略蛋白质结构预测方法 | |
CN109326319B (zh) | 一种基于二级结构知识的蛋白质构象空间优化方法 | |
CN109326318B (zh) | 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |