CN107609345B - 一种基于模板自适应选择的多域蛋白结构组装方法 - Google Patents
一种基于模板自适应选择的多域蛋白结构组装方法 Download PDFInfo
- Publication number
- CN107609345B CN107609345B CN201710757199.6A CN201710757199A CN107609345B CN 107609345 B CN107609345 B CN 107609345B CN 201710757199 A CN201710757199 A CN 201710757199A CN 107609345 B CN107609345 B CN 107609345B
- Authority
- CN
- China
- Prior art keywords
- template
- domain protein
- coordinates
- atom
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于模板自适应选择的多域蛋白结构组装方法,首先,利用蛋白质比对工具对多域蛋白库的中各模板进行打分,并根据打分进行降序排名;然后,选择出排名靠前的部分模板进行组装,并对每个模板设置一个选择概率;其次,在组装过程中,每隔一定的阶段,根据各模板组装得到的结构被成功接收的次数和该模板被选择的次数动态更新各模板被选择的概率;最后,在每次迭代中,根据各模板的选择概率,利用轮盘赌选择出一个模板产生的结构进行随机选择和平移,从而产生新的结构。本发明提供一种计算代价较低、预测精度较高的基于模板自适应选择的多域蛋白结构组装方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于模板自适应选择的多域蛋白结构组装方法。
背景技术
不同的蛋白中通常包含具有特定功能的域蛋白,生物体中所必需的成千上万种蛋白正是通过一系列这样的域蛋白组成的。数据显示,域蛋白的大小不等,从几个氨基酸到超过800个的氨基酸,而绝大数域蛋白为50-150个氨基酸组成。由这些域蛋白组成的蛋白称为多域蛋白,简单的多域蛋白通常包含1-2个域蛋白,较大的多域蛋白可能30个以上所需的复杂细胞功能域蛋白。据统计,至少有2/3的哺乳动物蛋白为多域蛋白。因此,对多域蛋白的结构预测极其重要。
目前,最常用的多域蛋白结构预测方法为刚体对接法,即固定各单域蛋白的结构,然后通过旋转和平移来选择方向,从而完成多域蛋白的结构组装。在组装中,通常利用各种方法(如基于一级和二级结构的穿线法、基于三级结构的模板搜索法)来搜索蛋白质库而获得最佳模板,从而根据模板的方向指导整个组装过程。但是,由于模板打分函数的不精确性,无法保证得分最高的模板即为实际最佳模板。为了解决上述问题,大多数方法采用多个模板进行独立组装,然后对各模板组装得到的结构进行打分,从而选出得分最高的结构。然而,采用多个模板进行独立组装会增加计算代价,而且由于结构打分函数的不精确性,不能保证最后选择出的结果为实际最优结果,从而影响组装精度。
因此,现有的基于模板的多域蛋白结构组装方法在计算代价和预测精度方面存在着缺陷,需要改进。
发明内容
为了克服现有的基于模板的多域蛋白结构组装方法在计算代价和预测精度方面的不足,本发明提供一种计算代价较低、预测精度较高的基于模板自适应选择的多域蛋白结构组装方法。
本发明解决其技术问题所采用的技术方案是:
一种基于模板自适应选择的多域蛋白结构组装方法,所述方法包括以下步骤:1)输入各单域蛋白的三维结构;
2)设置组装模板数量T,最大迭代次数Imax,冲突距离阈值dcl,相互作用阈值dct,各模板的选择概率pt,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter;
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结
构进行打分:
其中,w1、w2、w3和w4为各能量项的权重,和分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,表示和之间的欧氏距离,Xl和分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,为Xl和之间的欧氏距离,L为蛋白的序列长度,为距离相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,和分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold;
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足 则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数是否为Iinter的整数倍,则计算各目标的选择概率pt,t=1,2,...,T,其值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
本发明的技术构思为:首先,利用蛋白质比对工具对多域蛋白库的中各模板进行打分,并根据打分进行降序排名;然后,选择出排名靠前的部分模板进行组装,并对每个模板设置一个选择概率;其次,在组装过程中,每隔一定的阶段,根据各模板组装得到的结构被成功接收的次数和该模板被选择的次数动态更新各模板被选择的概率;最后,在每次迭代中,根据各模板的选择概率,利用轮盘赌选择出一个模板产生的结构进行随机选择和平移,从而产生新的结构。
本发明的有益效果表现在:在组装过程中,各模板同时进行组装,可以降低计算代价;其次,根据各模板在一定阶段组装成功的次数来动态更新确定各模板的使用概率,达到模板自适应选择的效果,进而保证优秀模板被选中的概率较大,从而提高预测精度。
附图说明
图1是基于模板自适应选择的多域蛋白结构组装方法的示意图。
图2是多域蛋白1bagA的天然态结构。
图3是基于模板自适应选择的多域蛋白结构组装方法对多域蛋白1bagA的组装结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于模板自适应选择的多域蛋白结构组装方法,包括以下步骤:
1)输入各单域蛋白的三维结构;
2)设置组装模板数量T,最大迭代次数Imax,冲突距离阈值dcl,相互作用阈值dct,各模板的选择概率pt,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter;
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:
4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结构进行打分:
其中,w1、w2、w3和w4为各能量项的权重,和分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,表示和之间的欧氏距离,Xl和分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,为Xl和之间的欧氏距离,L为蛋白的序列长度,为距离相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,和分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold;
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足 则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数是否为Iinter的整数倍,则计算各目标的选择概率pt,t=1,2,...,T,其值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
本实施例序列长度为425的多域蛋白质1bagA为实施例,一种基于模板的多域蛋白结构组装方法,包括以下步骤:
1)输入各单域蛋白的三维结构;
2)设置组装模板数量T=5,最大迭代次数Imax=30000,冲突距离阈值dcl=3.75,相互作用阈值dct=8,各模板的选择概率pt=0.2,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter=1000;
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:
4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结构进行打分:
其中,w1、w2、w3和w4为各能量项的权重,和分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,表示和之间的欧氏距离,Xl和分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,为Xl和之间的欧氏距离,L为蛋白的序列长度,为距离相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,和分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold;
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足 则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数是否为Iinter的整数倍,则计算各目标的选择概率pt,t=1,2,...,T,其值等于第t个模板产生的结构成功替换的次数除以第t个模板
在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
以序列长度为425的包含两个域的多域蛋白质1bagA为实施例,运用以上方法组装得到了该多域蛋白质的近天然态构象,TM-score为0.992,天然态结构和预测结构分别如图2和图3所示。
以上说明是本发明以1bagA蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于模板自适应选择的多域蛋白结构组装方法,其特征在于:所述多域蛋白结构组装方法包括以下步骤:
1)输入各单域蛋白的三维结构;
2)设置组装模板数量T,最大迭代次数Imax,冲突距离阈值dcl,相互作用阈值dct,各模板的选择概率pt,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter;
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:
4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结构进行打分:
其中,w1、w2、w3和w4为各能量项的权重,和分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,表示和之间的欧氏距离,Xl和分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,为Xl和之间的欧氏距离,L为蛋白的序列长度,为距离相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,和分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold;
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足 则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数为Iinter的整数倍,则计算各模板的选择概率pt,t=1,2,...,T,pt的值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710757199.6A CN107609345B (zh) | 2017-08-29 | 2017-08-29 | 一种基于模板自适应选择的多域蛋白结构组装方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710757199.6A CN107609345B (zh) | 2017-08-29 | 2017-08-29 | 一种基于模板自适应选择的多域蛋白结构组装方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609345A CN107609345A (zh) | 2018-01-19 |
CN107609345B true CN107609345B (zh) | 2020-11-27 |
Family
ID=61056491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710757199.6A Active CN107609345B (zh) | 2017-08-29 | 2017-08-29 | 一种基于模板自适应选择的多域蛋白结构组装方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609345B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110164506B (zh) * | 2019-04-19 | 2021-02-26 | 浙江工业大学 | 一种基于域间残基接触的多域蛋白结构组装方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6859736B2 (en) * | 2000-04-03 | 2005-02-22 | The Board Of Trustees Of The Lealand Stanford Junior University | Method for protein structure alignment |
CA2415584A1 (en) * | 2003-01-02 | 2004-07-02 | Bioinformatics Solutions Inc. | Protein threading by linear programming |
CN106778059B (zh) * | 2016-12-19 | 2019-07-30 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107066834B (zh) * | 2017-03-23 | 2019-05-31 | 王晨彤 | 一种基于粒子群优化算法的蛋白质结构从头预测方法 |
-
2017
- 2017-08-29 CN CN201710757199.6A patent/CN107609345B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107609345A (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
Bernard et al. | Informative structure priors: joint learning of dynamic regulatory networks from multiple types of data | |
Das et al. | SDhaP: haplotype assembly for diploids and polyploids via semi-definite programming | |
CN112585686A (zh) | 确定蛋白结构的机器学习 | |
CN115485696A (zh) | 机器学习模型的对抗预训练 | |
CN105701120A (zh) | 确定语义匹配度的方法和装置 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
CN103823857A (zh) | 基于自然语言处理的空间信息检索方法 | |
US11380301B2 (en) | Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
Hou et al. | Inverse is better! fast and accurate prompt for few-shot slot tagging | |
CN107609345B (zh) | 一种基于模板自适应选择的多域蛋白结构组装方法 | |
CN107180164B (zh) | 一种基于模板的多域蛋白结构组装方法 | |
CN109033753B (zh) | 一种基于二级结构片段组装的群体蛋白质结构预测方法 | |
Fonseca et al. | Ranking beta sheet topologies with applications to protein structure prediction | |
Zhu et al. | LMMO: a large margin approach for refining regulatory motifs | |
CN109300506B (zh) | 一种基于特定距离约束的蛋白质结构预测方法 | |
CN109346128B (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN104408480B (zh) | 一种基于Laplacian算子的特征选择方法 | |
KR20180087069A (ko) | 자가 학습을 통한 약물-단백질간 관계 예측을 위한 모델링 기법 | |
KR20230174503A (ko) | 신경망 기반 질의 자동 생성 시스템 및 방법 | |
CN110674860A (zh) | 基于邻域搜索策略的特征选择方法、存储介质和终端 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
Lee et al. | A 9-state hidden Markov model using protein secondary structure information for protein fold recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |