CN107609345B - 一种基于模板自适应选择的多域蛋白结构组装方法 - Google Patents

一种基于模板自适应选择的多域蛋白结构组装方法 Download PDF

Info

Publication number
CN107609345B
CN107609345B CN201710757199.6A CN201710757199A CN107609345B CN 107609345 B CN107609345 B CN 107609345B CN 201710757199 A CN201710757199 A CN 201710757199A CN 107609345 B CN107609345 B CN 107609345B
Authority
CN
China
Prior art keywords
template
domain protein
coordinates
atom
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710757199.6A
Other languages
English (en)
Other versions
CN107609345A (zh
Inventor
张贵军
周晓根
王柳静
郝小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710757199.6A priority Critical patent/CN107609345B/zh
Publication of CN107609345A publication Critical patent/CN107609345A/zh
Application granted granted Critical
Publication of CN107609345B publication Critical patent/CN107609345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于模板自适应选择的多域蛋白结构组装方法,首先,利用蛋白质比对工具对多域蛋白库的中各模板进行打分,并根据打分进行降序排名;然后,选择出排名靠前的部分模板进行组装,并对每个模板设置一个选择概率;其次,在组装过程中,每隔一定的阶段,根据各模板组装得到的结构被成功接收的次数和该模板被选择的次数动态更新各模板被选择的概率;最后,在每次迭代中,根据各模板的选择概率,利用轮盘赌选择出一个模板产生的结构进行随机选择和平移,从而产生新的结构。本发明提供一种计算代价较低、预测精度较高的基于模板自适应选择的多域蛋白结构组装方法。

Description

一种基于模板自适应选择的多域蛋白结构组装方法
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于模板自适应选择的多域蛋白结构组装方法。
背景技术
不同的蛋白中通常包含具有特定功能的域蛋白,生物体中所必需的成千上万种蛋白正是通过一系列这样的域蛋白组成的。数据显示,域蛋白的大小不等,从几个氨基酸到超过800个的氨基酸,而绝大数域蛋白为50-150个氨基酸组成。由这些域蛋白组成的蛋白称为多域蛋白,简单的多域蛋白通常包含1-2个域蛋白,较大的多域蛋白可能30个以上所需的复杂细胞功能域蛋白。据统计,至少有2/3的哺乳动物蛋白为多域蛋白。因此,对多域蛋白的结构预测极其重要。
目前,最常用的多域蛋白结构预测方法为刚体对接法,即固定各单域蛋白的结构,然后通过旋转和平移来选择方向,从而完成多域蛋白的结构组装。在组装中,通常利用各种方法(如基于一级和二级结构的穿线法、基于三级结构的模板搜索法)来搜索蛋白质库而获得最佳模板,从而根据模板的方向指导整个组装过程。但是,由于模板打分函数的不精确性,无法保证得分最高的模板即为实际最佳模板。为了解决上述问题,大多数方法采用多个模板进行独立组装,然后对各模板组装得到的结构进行打分,从而选出得分最高的结构。然而,采用多个模板进行独立组装会增加计算代价,而且由于结构打分函数的不精确性,不能保证最后选择出的结果为实际最优结果,从而影响组装精度。
因此,现有的基于模板的多域蛋白结构组装方法在计算代价和预测精度方面存在着缺陷,需要改进。
发明内容
为了克服现有的基于模板的多域蛋白结构组装方法在计算代价和预测精度方面的不足,本发明提供一种计算代价较低、预测精度较高的基于模板自适应选择的多域蛋白结构组装方法。
本发明解决其技术问题所采用的技术方案是:
一种基于模板自适应选择的多域蛋白结构组装方法,所述方法包括以下步骤:1)输入各单域蛋白的三维结构;
2)设置组装模板数量T,最大迭代次数Imax,冲突距离阈值dcl,相互作用阈值dct,各模板的选择概率pt,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结
构进行打分:
Figure BDA0001392453070000021
其中,w1、w2、w3和w4为各能量项的权重,
Figure BDA0001392453070000022
Figure BDA0001392453070000023
分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,
Figure BDA0001392453070000024
表示
Figure BDA0001392453070000025
Figure BDA0001392453070000026
之间的欧氏距离,Xl
Figure BDA0001392453070000027
分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,
Figure BDA0001392453070000028
为Xl
Figure BDA0001392453070000029
之间的欧氏距离,L为蛋白的序列长度,
Figure BDA00013924530700000210
为距离
Figure BDA00013924530700000211
相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,
Figure BDA00013924530700000212
Figure BDA00013924530700000213
分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,
Figure BDA00013924530700000214
为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足
Figure BDA0001392453070000031
Figure BDA0001392453070000032
则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数是否为Iinter的整数倍,则计算各目标的选择概率pt,t=1,2,...,T,其值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
本发明的技术构思为:首先,利用蛋白质比对工具对多域蛋白库的中各模板进行打分,并根据打分进行降序排名;然后,选择出排名靠前的部分模板进行组装,并对每个模板设置一个选择概率;其次,在组装过程中,每隔一定的阶段,根据各模板组装得到的结构被成功接收的次数和该模板被选择的次数动态更新各模板被选择的概率;最后,在每次迭代中,根据各模板的选择概率,利用轮盘赌选择出一个模板产生的结构进行随机选择和平移,从而产生新的结构。
本发明的有益效果表现在:在组装过程中,各模板同时进行组装,可以降低计算代价;其次,根据各模板在一定阶段组装成功的次数来动态更新确定各模板的使用概率,达到模板自适应选择的效果,进而保证优秀模板被选中的概率较大,从而提高预测精度。
附图说明
图1是基于模板自适应选择的多域蛋白结构组装方法的示意图。
图2是多域蛋白1bagA的天然态结构。
图3是基于模板自适应选择的多域蛋白结构组装方法对多域蛋白1bagA的组装结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于模板自适应选择的多域蛋白结构组装方法,包括以下步骤:
1)输入各单域蛋白的三维结构;
2)设置组装模板数量T,最大迭代次数Imax,冲突距离阈值dcl,相互作用阈值dct,各模板的选择概率pt,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:
4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结构进行打分:
Figure BDA0001392453070000041
其中,w1、w2、w3和w4为各能量项的权重,
Figure BDA0001392453070000042
Figure BDA0001392453070000043
分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,
Figure BDA0001392453070000044
表示
Figure BDA0001392453070000045
Figure BDA0001392453070000046
之间的欧氏距离,Xl
Figure BDA0001392453070000047
分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,
Figure BDA0001392453070000048
为Xl
Figure BDA0001392453070000049
之间的欧氏距离,L为蛋白的序列长度,
Figure BDA00013924530700000410
为距离
Figure BDA00013924530700000411
相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,
Figure BDA00013924530700000412
Figure BDA00013924530700000413
分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,
Figure BDA00013924530700000414
为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足
Figure BDA0001392453070000051
Figure BDA0001392453070000052
则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数是否为Iinter的整数倍,则计算各目标的选择概率pt,t=1,2,...,T,其值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
本实施例序列长度为425的多域蛋白质1bagA为实施例,一种基于模板的多域蛋白结构组装方法,包括以下步骤:
1)输入各单域蛋白的三维结构;
2)设置组装模板数量T=5,最大迭代次数Imax=30000,冲突距离阈值dcl=3.75,相互作用阈值dct=8,各模板的选择概率pt=0.2,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter=1000;
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:
4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结构进行打分:
Figure BDA0001392453070000053
其中,w1、w2、w3和w4为各能量项的权重,
Figure BDA0001392453070000054
Figure BDA0001392453070000055
分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,
Figure BDA0001392453070000056
表示
Figure BDA0001392453070000057
Figure BDA0001392453070000058
之间的欧氏距离,Xl
Figure BDA0001392453070000059
分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,
Figure BDA0001392453070000061
为Xl
Figure BDA0001392453070000062
之间的欧氏距离,L为蛋白的序列长度,
Figure BDA0001392453070000063
为距离
Figure BDA0001392453070000064
相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,
Figure BDA0001392453070000065
Figure BDA0001392453070000066
分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,
Figure BDA0001392453070000067
为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足
Figure BDA0001392453070000068
Figure BDA0001392453070000069
则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数是否为Iinter的整数倍,则计算各目标的选择概率pt,t=1,2,...,T,其值等于第t个模板产生的结构成功替换的次数除以第t个模板
在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
以序列长度为425的包含两个域的多域蛋白质1bagA为实施例,运用以上方法组装得到了该多域蛋白质的近天然态构象,TM-score为0.992,天然态结构和预测结构分别如图2和图3所示。
以上说明是本发明以1bagA蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于模板自适应选择的多域蛋白结构组装方法,其特征在于:所述多域蛋白结构组装方法包括以下步骤:
1)输入各单域蛋白的三维结构;
2)设置组装模板数量T,最大迭代次数Imax,冲突距离阈值dcl,相互作用阈值dct,各模板的选择概率pt,t=1,2,...,T,pt表示第t个模板的选择概率,学习间隔Iinter
3)利用模板比对工具TM-align对多域蛋白库中的每个模板进行打分,并根据打分进行降序排列;
4)选出打分最高的前T个模板进行组装,过程如下:
4.1)将各单域蛋白重叠到各个模板上,得到T个结构,并根据如下公式对各结构进行打分:
Figure FDA0002665020620000011
其中,w1、w2、w3和w4为各能量项的权重,
Figure FDA0002665020620000012
Figure FDA0002665020620000013
分别表示第n个单域蛋白的第i个Ca原子的坐标和第n+1个单域蛋白的第j个Ca原子的坐标,
Figure FDA0002665020620000014
表示
Figure FDA0002665020620000015
Figure FDA0002665020620000016
之间的欧氏距离,Xl
Figure FDA0002665020620000017
分别表示组装结构中第l个Ca原子的坐标和各域重叠到模板上后整个多域蛋白结构的第l个Ca原子的坐标,
Figure FDA0002665020620000018
为Xl
Figure FDA0002665020620000019
之间的欧氏距离,L为蛋白的序列长度,
Figure FDA00026650206200000110
为距离
Figure FDA00026650206200000111
相互作用阈值dct的Ca原子数量,n0为归一化常数,其取值为0.306×(ln+ln+1),ln和ln+1分别为第n个单域蛋白和第n+1个单域蛋白的序列长度,
Figure FDA00026650206200000112
Figure FDA00026650206200000113
分别表示第n个单域蛋白的最后一个Ca原子的坐标和第n+1个单域蛋白的第一个Ca原子的坐标,
Figure FDA00026650206200000114
为他们之间的欧氏距离,D表示单域蛋白的总数量;
4.2)根据各模板的选择概率,利用轮盘赌选择出一个模板得到的结构,并根据4.1)计算其得分Eold
4.3)对4.2)中选择的结构中所有的Ca原子坐标进行随机选择和平移,从而得到一个新的结构,并根据4.1)计算新结构的得分E;
4.4)如果E小于Eold,则新结构替换当前模板的结构;否则,如果满足
Figure FDA0002665020620000021
Figure FDA0002665020620000022
则新结构替换当前模板的结构,并记录当前的迭代次数以及被接收的所有新结构,其中rand(0,1)为0和1之间的随机数,e为自然常数;
4.5)如果当前迭代次数为Iinter的整数倍,则计算各模板的选择概率pt,t=1,2,...,T,pt的值等于第t个模板产生的结构成功替换的次数除以第t个模板在步骤4.2)中被选择的次数;
4.6)如果迭代次数达到最大迭代次数Imax,则继续步骤5),否则重复步骤4.2)~4.6);
5)利用近天然态蛋白聚类工具SPICKER对迭代过程中所有被接收的新结构进行聚类,从而选择出规模最大的类的中心结构为最终组装结构。
CN201710757199.6A 2017-08-29 2017-08-29 一种基于模板自适应选择的多域蛋白结构组装方法 Active CN107609345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710757199.6A CN107609345B (zh) 2017-08-29 2017-08-29 一种基于模板自适应选择的多域蛋白结构组装方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710757199.6A CN107609345B (zh) 2017-08-29 2017-08-29 一种基于模板自适应选择的多域蛋白结构组装方法

Publications (2)

Publication Number Publication Date
CN107609345A CN107609345A (zh) 2018-01-19
CN107609345B true CN107609345B (zh) 2020-11-27

Family

ID=61056491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710757199.6A Active CN107609345B (zh) 2017-08-29 2017-08-29 一种基于模板自适应选择的多域蛋白结构组装方法

Country Status (1)

Country Link
CN (1) CN107609345B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164506B (zh) * 2019-04-19 2021-02-26 浙江工业大学 一种基于域间残基接触的多域蛋白结构组装方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6859736B2 (en) * 2000-04-03 2005-02-22 The Board Of Trustees Of The Lealand Stanford Junior University Method for protein structure alignment
CA2415584A1 (en) * 2003-01-02 2004-07-02 Bioinformatics Solutions Inc. Protein threading by linear programming
CN106778059B (zh) * 2016-12-19 2019-07-30 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN107066834B (zh) * 2017-03-23 2019-05-31 王晨彤 一种基于粒子群优化算法的蛋白质结构从头预测方法

Also Published As

Publication number Publication date
CN107609345A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
Bernard et al. Informative structure priors: joint learning of dynamic regulatory networks from multiple types of data
Das et al. SDhaP: haplotype assembly for diploids and polyploids via semi-definite programming
CN112585686A (zh) 确定蛋白结构的机器学习
CN115485696A (zh) 机器学习模型的对抗预训练
CN105701120A (zh) 确定语义匹配度的方法和装置
CN109241243B (zh) 候选文档排序方法及装置
CN103823857A (zh) 基于自然语言处理的空间信息检索方法
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
Hou et al. Inverse is better! fast and accurate prompt for few-shot slot tagging
CN107609345B (zh) 一种基于模板自适应选择的多域蛋白结构组装方法
CN107180164B (zh) 一种基于模板的多域蛋白结构组装方法
CN109033753B (zh) 一种基于二级结构片段组装的群体蛋白质结构预测方法
Fonseca et al. Ranking beta sheet topologies with applications to protein structure prediction
Zhu et al. LMMO: a large margin approach for refining regulatory motifs
CN109300506B (zh) 一种基于特定距离约束的蛋白质结构预测方法
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
CN104408480B (zh) 一种基于Laplacian算子的特征选择方法
KR20180087069A (ko) 자가 학습을 통한 약물-단백질간 관계 예측을 위한 모델링 기법
KR20230174503A (ko) 신경망 기반 질의 자동 생성 시스템 및 방법
CN110674860A (zh) 基于邻域搜索策略的特征选择方法、存储介质和终端
CN109360600B (zh) 一种基于残基特征距离的蛋白质结构预测方法
Lee et al. A 9-state hidden Markov model using protein secondary structure information for protein fold recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant