CN112085246A - 一种基于残基对距离约束的蛋白质结构预测方法 - Google Patents

一种基于残基对距离约束的蛋白质结构预测方法 Download PDF

Info

Publication number
CN112085246A
CN112085246A CN202010708524.1A CN202010708524A CN112085246A CN 112085246 A CN112085246 A CN 112085246A CN 202010708524 A CN202010708524 A CN 202010708524A CN 112085246 A CN112085246 A CN 112085246A
Authority
CN
China
Prior art keywords
residue
distance
conformation
fragment
loop region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010708524.1A
Other languages
English (en)
Inventor
张贵军
李亭
刘俊
周晓根
陈芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010708524.1A priority Critical patent/CN112085246A/zh
Publication of CN112085246A publication Critical patent/CN112085246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Analytical Chemistry (AREA)
  • General Business, Economics & Management (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)

Abstract

一种基于残基对距离约束的蛋白质结构预测方法,首先,采用片段重组和片段组装策略,广泛的搜索构象空间;然后利用预测的残基距离图实时构建局部扰动模型,利用差分进化算法快速求解扰动量,生成结构多样化的候选构象,进一步改善二级结构间的位置关系。最终,提高整体结构的精度和效率。本发明提供一种预测精度较高的基于残基对距离约束的蛋白质结构预测方法。

Description

一种基于残基对距离约束的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于残基对距离约束的蛋白质结构预测方法。
背景技术
蛋白质是生命活动的重要承担者。全面理解蛋白质的生物学功能是人类探索生命奥秘的必经之路。从新陈代谢到疾病免疫,都离不开蛋白质的作用。蛋白质只有折叠成特定的三维结构才能行使其生物学功能。“结构决定功能”是蛋白质组学相关研究领域的重要指导准则。通过获取蛋白质的三维结构,来分析和理解蛋白质生物学功能是最为有效的方法之一。
目前,蛋白质的三维结构主要通过生物湿实验的方法获取。生物湿实验测定蛋白质结构的方法主要包括X射线晶体衍射、核磁共振、冷冻电镜技术。这类方法最为准确但是十分复杂,存在耗时、费力、成本高的问题,而且不能精确测定氨基酸残基数目较多的蛋白质三维结构。
随着高通量测序技术的飞速发展,未测定结构的蛋白数量也在不断增大。因此,急需一种高通量的蛋白质结构获取新方法。在理论探索和应用需求的双重推动下,根据Anfinsen法则,利用生物计算手段来预测蛋白质结构在20世纪末得到了蓬勃发展。根据氨基酸序列预测蛋白质三维结构的方法主要有同源建模法和从头预测法。从头预测方法直接基于蛋白质的物理或知识能量模型,利用优化算法在构象空间中搜索全局最优解。全世界范围内有许多研究机构致力于研究利用生物大数据、人工智能、系统优化技术预测蛋白质三维结构,并逐渐应用于疾病诊断和药物设计,其中具有代表性的研究团队有美国华盛顿的David Baker实验室、美国密歇根大学的张阳实验室等。国内越来越多的高校和研究机构也加入到蛋白质结构预测的研究当中。
蛋白质结构预测是一个高维复杂的非凸多模态优化问题。现有的方法一方面由于能量函数的不精确,在构象搜索时不能得到令人满意的结果;另一方面优化方法采样能力不足,极易陷入局部最优,影响预测精度。
因此,现有的蛋白质结构预测方法存在能量函数不精确、采样效率低、预测精度不足等问题,需要改进。
发明内容
为了解决现有的蛋白质结构预测方法存在能量函数不精确、采样效率低、预测精度不足等问题,本发明提出了一种基于残基对距离约束的蛋白质结构预测方法。首先,基于预测的残基对距离分布,构建了基于残基对距离的势能函数;然后,利用片段重组和组装大范围搜索构象空间,形成较为完整的拓扑结构;最后,设计了基于残基对距离约束的loop区域采样策略,进一步提升预测精度,最终达到提整体结构精度的目的。
本发明解决其技术问题所采用的技术方案是:
一种基于残基对距离约束的蛋白质结构预测方法,包括以下步骤:
1)输入预测蛋白质的目标序列,获取片段库和残基对距离分布文件,过程如下:
1.1)根据目标蛋白质序列从ROBETTA服务器(http://www.robetta.org/)上获取3片段和9片段的片段库文件,根据目标蛋白质序列从trRosetta服务器(https://yanglab.nankai.edu.cn/trRosetta/)上获取预测的残基对距离分布文件;
1.2)残基对距离数据处理:去除残基对序列分离小于6的残基对;对残基对距离分布进行高斯拟合,得到距离均值和方差,根据方差由小到大对残基对进行排序;
2)设置参数:种群规模NP、迭代次数G;
3)种群初始化:利用Rosetta协议第一阶段产生种群规模为NP的种群T={T1,T2,...,TNP},其中Tn表示种群T中的第n个蛋白质构象,n∈{1,2,...,NP},用Rosettascore3能量函数计算种群中每个个体的能量,个体Ti的能量为score3(Ti);
4)根据处理后的残基对距离数据构建个体的距离势能函数:
Figure BDA0002595674280000021
其中varij是残基对(i,j)距离高斯拟合出的方差值,Dij是目标个体残基i和残基j之间的真实距离,dij是预测得到的残基i和残基j之间的距离;
5)设g=1,其中g∈{1,2,...,G};
6)设n=1,其中n∈{1,2,...,NP};
7)片段重组,过程如下:
7.1)从种群T中随机选择三个互异且不同于目标构象Ti的构象Tr1、Tr2和Tr3,从Ti、Tr2和Tr3中随机选择三个不同位置的片段f1、f2和f3,片段长度为9;
7.2)用片段f1、f2和f3替换构象Tr1中相应位置的片段,生成重组构象T′;
8)片段组装,过程如下:
8.1)从重组构象T′中随机选择一个窗口宽度为3的滑动窗口Wf,从与滑动窗口Wf相应的片段库中随机选择一个片段替换原有片段,生成构象T″;
8.2)利用Rosetta score3能量函数计算构象T′和T″的能量,并根据boltzmann准则决定片段组装是否接收;
8.3)若未接收,转至步骤8.1),重新进行片段组装;
9)loop区域采样,过程如下:
9.1)利用DSSP算法获取目标构象的二级结构,随机选择一个loop区域,记作[Lb,Le];从处理后的残基对距离中选取残基分别在该loop区域两侧的非loop结构的残基对,按照二级结构对该loop区域左右两侧的非loop区域进行排序,距离该loop区域越近权重越大,记(i1,i2)是第i对残基所在二级结构相对于选定loop区域的索引,若i1小于i2,权重
Figure BDA0002595674280000031
否则,
Figure BDA0002595674280000032
9.2)根据选择出的距离残基对构建loop区域采样模型:
Figure BDA0002595674280000033
其中N为接触对的数量,
Figure BDA0002595674280000034
为残基对(i,j)之间的Cβ原子距离,
Figure BDA0002595674280000035
为预测的残基对(i,j)距离;
9.3)以[Lb,Le]中的二面角扰动量
Figure BDA0002595674280000036
为变量,以最小化Dlocal_score为目标,利用差分进化算法求解10组扰动量;其中
Figure BDA0002595674280000037
Figure BDA0002595674280000038
分别表示第l个残基的二面角
Figure BDA0002595674280000039
和ψ上的扰动量,l∈{Lb,Lb+1,…,Le};
9.4)用生成的10组扰动量分别对构象T″进行loop区域扰动,生成10个候选构象
Figure BDA0002595674280000041
10)构象更新,过程如下:
10.1)设i=1,其中i∈{1,2,...,10};
10.2)计算构象Tn
Figure BDA0002595674280000042
的Rosetta score3能量和Dscore,并根据距离势能的大小和boltzmann准则决定是否用
Figure BDA0002595674280000043
替换Tn;若替换成功,转至步骤11);
10.3)i=i+1;若i≤10,转至步骤10.2);
11)n=n+1;若n≤NP,转至步骤6);
12)g=g+1;若g≤G,转至步骤5);
13)对最后一代蛋白质构象按照距离势能进行排序,以距离势能最小的构象作为预测结果。
本发明的有益效果为:首先采用片段重组和片段组装策略,广泛的搜索构象空间。然后利用预测的残基距离图实时构建局部扰动模型,利用差分进化算法快速求解扰动量,生成结构多样化的候选构象,进一步改善二级结构间的位置关系。最终,提高整体结构的精度和效率。
附图说明
图1是一种基于残基对距离约束的蛋白质结构预测方法对蛋白质1E2A进行结构预测时采样到的构象的RMSD分布图。
图2是一种基于残基对距离约束的蛋白质结构预测方法对蛋白质1E2A进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于残基对距离约束的蛋白质结构预测方法,包括以下步骤:
1)输入预测蛋白质的目标序列,获取片段库和残基对距离分布文件,过程如下:
1.1)根据目标蛋白质序列从ROBETTA服务器(http://www.robetta.org/)上获取3片段和9片段的片段库文件,根据目标蛋白质序列从trRosetta服务器(https://yanglab.nankai.edu.cn/trRosetta/)上获取预测的残基对距离分布文件;
1.2)残基对距离数据处理:去除残基对序列分离小于6的残基对;对残基对距离分布进行高斯拟合,得到距离均值和方差,根据方差由小到大对残基对进行排序;
2)设置参数:种群规模NP、迭代次数G;
3)种群初始化:利用Rosetta协议第一阶段产生种群规模为NP的种群T={T1,T2,...,TNP},其中Tn表示种群T中的第n个蛋白质构象,n∈{1,2,...,NP},用Rosettascore3能量函数计算种群中每个个体的能量,个体Ti的能量为score3(Ti);
4)根据处理后的残基对距离数据构建个体的距离势能函数:
Figure BDA0002595674280000051
其中varij是残基对(i,j)距离高斯拟合出的方差值,Dij是目标个体残基i和残基j之间的真实距离,dij是预测得到的残基i和残基j之间的距离;
5)设g=1,其中g∈{1,2,...,G};
6)设n=1,其中n∈{1,2,...,NP};
7)片段重组,过程如下:
7.1)从种群T中随机选择三个互异且不同于目标构象Ti的构象Tr1、Tr2和Tr3,从Ti、Tr2和Tr3中随机选择三个不同位置的片段f1、f2和f3,片段长度为9;
7.2)用片段f1、f2和f3替换构象Tr1中相应位置的片段,生成重组构象T′;
8)片段组装,过程如下:
8.1)从重组构象T′中随机选择一个窗口宽度为3的滑动窗口Wf,从与滑动窗口Wf相应的片段库中随机选择一个片段替换原有片段,生成构象T″;
8.2)利用Rosetta score3能量函数计算构象T′和T″的能量,并根据boltzmann准则决定片段组装是否接收;
8.3)若未接收,转至步骤8.1),重新进行片段组装;
9)loop区域采样,过程如下:
9.1)利用DSSP算法获取目标构象的二级结构,随机选择一个loop区域,记作[Lb,Le];从处理后的残基对距离中选取残基分别在该loop区域两侧的非loop结构的残基对,按照二级结构对该loop区域左右两侧的非loop区域进行排序,距离该loop区域越近权重越大,记(i1,i2)是第i对残基所在二级结构相对于选定loop区域的索引,若i1小于i2,权重
Figure BDA0002595674280000061
否则,
Figure BDA0002595674280000062
9.2)根据选择出的距离残基对构建loop区域采样模型:
Figure BDA0002595674280000063
其中N为接触对的数量,
Figure BDA0002595674280000064
为残基对(i,j)之间的Cβ原子距离,
Figure BDA0002595674280000065
为预测的残基对(i,j)距离;
9.3)以[Lb,Le]中的二面角扰动量
Figure BDA0002595674280000066
为变量,以最小化Dlocal_score为目标,利用差分进化算法求解10组扰动量;其中
Figure BDA0002595674280000067
Figure BDA0002595674280000068
分别表示第l个残基的二面角
Figure BDA0002595674280000069
和ψ上的扰动量,l∈{Lb,Lb+1,…,Le};
9.4)用生成的10组扰动量分别对构象T″进行loop区域扰动,生成10个候选构象
Figure BDA00025956742800000610
10)构象更新,过程如下:
10.1)设i=1,其中i∈{1,2,...,10};
10.2)计算构象Tn
Figure BDA00025956742800000611
的Rosetta score3能量和Dscore,并根据距离势能的大小和boltzmann准则决定是否用
Figure BDA00025956742800000612
替换Tn;若替换成功,转至步骤11);
10.3)i=i+1;若i≤10,转至步骤10.2);
11)n=n+1;若n≤NP,转至步骤6);
12)g=g+1;若g≤G,转至步骤5);
13)对最后一代蛋白质构象按照距离势能进行排序,以距离势能最小的构象作为预测结果。
本实施例以序列长度为102的蛋白质1E2A为实施例,一种基于残基对距离约束的蛋白质结构预测方法,包括以下步骤:
1)输入蛋白质1E2A的蛋白质序列,获取片段库和残基对距离分布文件,过程如下:
1.1)根据1E2A蛋白质序列从ROBETTA服务器(http://www.robetta.org/)上获取3片段和9片段的片段库文件,根据目标蛋白质序列从trRosetta服务器(https://yanglab.nankai.edu.cn/trRosetta/)上获取预测的残基对距离分布文件;
1.2)残基对距离数据处理:去除残基对序列分离小于6的残基对;对残基对距离分布进行高斯拟合,得到距离均值和方差,根据方差由小到大对残基对进行排序;
2)设置参数:种群规模NP=200、迭代次数G=1000;
3)种群初始化:利用Rosetta协议第一阶段产生种群规模为NP的种群T={T1,T2,...,TNP},其中Tn表示种群T中的第n个蛋白质构象,n∈{1,2,...,NP},用Rosettascore3能量函数计算种群中每个个体的能量,个体Ti的能量为score3(Ti);
4)根据处理后的残基对距离数据构建个体的距离势能函数:
Figure BDA0002595674280000071
其中varij是残基对(i,j)距离高斯拟合出的方差值,Dij是目标个体残基i和残基j之间的真实距离,dij是预测得到的残基i和残基j之间的距离;
5)设g=1,其中g∈{1,2,...,G};
6)设n=1,其中n∈{1,2,...,NP};
7)片段重组,过程如下:
7.1)从种群T中随机选择三个互异且不同于目标构象Ti的构象Tr1、Tr2和Tr3,从Ti、Tr2和Tr3中随机选择三个不同位置的片段f1、f2和f3,片段长度为9;
7.2)用片段f1、f2和f3替换构象Tr1中相应位置的片段,生成重组构象T′;
8)片段组装,过程如下:
8.1)从重组构象T′中随机选择一个窗口宽度为3的滑动窗口Wf,从与滑动窗口Wf相应的片段库中随机选择一个片段替换原有片段,生成构象T″;
8.2)利用Rosetta score3能量函数计算构象T′和T″的能量,并根据boltzmann准则决定片段组装是否接收;
8.3)若未接收,转至步骤8.1),重新进行片段组装;
9)loop区域采样,过程如下:
9.1)利用DSSP算法获取目标构象的二级结构,随机选择一个loop区域,记作[Lb,Le];从处理后的残基对距离中选取残基分别在该loop区域两侧的非loop结构的残基对,按照二级结构对该loop区域左右两侧的非loop区域进行排序,距离该loop区域越近权重越大,记(i1,i2)是第i对残基所在二级结构相对于选定loop区域的索引,若i1小于i2,权重
Figure BDA0002595674280000081
否则,
Figure BDA0002595674280000082
9.2)根据选择出的距离残基对构建loop区域采样模型:
Figure BDA0002595674280000083
其中N为接触对的数量,
Figure BDA0002595674280000084
为残基对(i,j)之间的Cβ原子距离,
Figure BDA0002595674280000085
为预测的残基对(i,j)距离;
9.3)以[Lb,Le]中的二面角扰动量
Figure BDA0002595674280000086
为变量,以最小化Dlocal_score为目标,利用差分进化算法求解10组扰动量;其中
Figure BDA0002595674280000087
Figure BDA0002595674280000088
分别表示第l个残基的二面角
Figure BDA0002595674280000089
和ψ上的扰动量,l∈{Lb,Lb+1,…,Le};
9.4)用生成的10组扰动量分别对构象T″进行loop区域扰动,生成10个候选构象
Figure BDA00025956742800000810
10)构象更新,过程如下:
10.1)设i=1,其中i∈{1,2,...,10};
10.2)计算构象Tn
Figure BDA00025956742800000811
的Rosetta score3能量和Dscore,并根据距离势能的大小和boltzmann准则决定是否用
Figure BDA00025956742800000812
替换Tn;若替换成功,转至步骤11);
10.3)i=i+1;若i≤10,转至步骤10.2);
11)n=n+1;若n≤NP,转至步骤6);
12)g=g+1;若g≤G,转至步骤5);
13)对最后一代蛋白质构象按照距离势能进行排序,以距离势能最小的构象作为预测结果。
以序列长度为102的蛋白质1E2A为实施例,运用以上方法预测得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示,预测的蛋白质的均方根偏差为
Figure BDA0002595674280000091
预测结构如图2所示。
以上阐述的是本发明给出的一个实施例展现出来的一个优良结果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims (1)

1.一种基于残基对距离约束的蛋白质结构预测方法,其特征在,所述蛋白质结构预测方法包括以下步骤:
1)输入预测蛋白质的目标序列,获取片段库和残基对距离分布文件,过程如下:
1.1)根据目标蛋白质序列从ROBETTA服务器上获取3片段和9片段的片段库文件,根据目标蛋白质序列从trRosetta服务器上获取预测的残基对距离分布文件;
1.2)残基对距离数据处理:去除残基对序列分离小于6的残基对;对残基对距离分布进行高斯拟合,得到距离均值和方差,根据方差由小到大对残基对进行排序;
2)设置参数:种群规模NP、迭代次数G;
3)种群初始化:利用Rosetta协议第一阶段产生种群规模为NP的种群T={T1,T2,...,TNP},其中Tn表示种群T中的第n个蛋白质构象,n∈{1,2,...,NP},用Rosetta score3能量函数计算种群中每个个体的能量,个体Ti的能量为score3(Ti);
4)根据处理后的残基对距离数据构建个体的距离势能函数:
Figure FDA0002595674270000011
其中varij是残基对(i,j)距离高斯拟合出的方差值,Dij是目标个体残基i和残基j之间的真实距离,dij是预测得到的残基i和残基j之间的距离;
5)设g=1,其中g∈{1,2,...,G};
6)设n=1,其中n∈{1,2,...,NP};
7)片段重组,过程如下:
7.1)从种群T中随机选择三个互异且不同于目标构象Ti的构象Tr1、Tr2和Tr3,从Ti、Tr2和Tr3中随机选择三个不同位置的片段f1、f2和f3,片段长度为9;
7.2)用片段f1、f2和f3替换构象Tr1中相应位置的片段,生成重组构象T′;
8)片段组装,过程如下:
8.1)从重组构象T′中随机选择一个窗口宽度为3的滑动窗口Wf,从与滑动窗口Wf相应的片段库中随机选择一个片段替换原有片段,生成构象T″;
8.2)利用Rosetta score3能量函数计算构象T′和T″的能量,并根据boltzmann准则决定片段组装是否接收;
8.3)若未接收,转至步骤8.1),重新进行片段组装;
9)loop区域采样,过程如下:
9.1)利用DSSP算法获取目标构象的二级结构,随机选择一个loop区域,记作[Lb,Le];从处理后的残基对距离中选取残基分别在该loop区域两侧的非loop结构的残基对,按照二级结构对该loop区域左右两侧的非loop区域进行排序,距离该loop区域越近权重越大,记(i1,i2)是第i对残基所在二级结构相对于选定loop区域的索引,若i1小于i2,权重
Figure FDA0002595674270000021
否则,
Figure FDA0002595674270000022
9.2)根据选择出的距离残基对构建loop区域采样模型:
Figure FDA0002595674270000023
其中N为接触对的数量,
Figure FDA0002595674270000024
为残基对(i,j)之间的Cβ原子距离,
Figure FDA0002595674270000025
为预测的残基对(i,j)距离;
9.3)以[Lb,Le]中的二面角扰动量
Figure FDA0002595674270000026
为变量,以最小化Dlocal_score为目标,利用差分进化算法求解10组扰动量;其中
Figure FDA0002595674270000027
Figure FDA0002595674270000028
分别表示第l个残基的二面角
Figure FDA0002595674270000029
和ψ上的扰动量,l∈{Lb,Lb+1,…,Le};
9.4)用生成的10组扰动量分别对构象T″进行loop区域扰动,生成10个候选构象
Figure FDA00025956742700000210
10)构象更新,过程如下:
10.1)设i=1,其中i∈{1,2,...,10};
10.2)计算构象Tn和Ti *的Rosetta score3能量和Dscore,并根据距离势能的大小和boltzmann准则决定是否用Ti *替换Tn;若替换成功,转至步骤11);
10.3)i=i+1;若i≤10,转至步骤10.2);
11)n=n+1;若n≤NP,转至步骤6);
12)g=g+1;若g≤G,转至步骤5);
13)对最后一代蛋白质构象按照距离势能进行排序,以距离势能最小的构象作为预测结果。
CN202010708524.1A 2020-07-22 2020-07-22 一种基于残基对距离约束的蛋白质结构预测方法 Pending CN112085246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010708524.1A CN112085246A (zh) 2020-07-22 2020-07-22 一种基于残基对距离约束的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010708524.1A CN112085246A (zh) 2020-07-22 2020-07-22 一种基于残基对距离约束的蛋白质结构预测方法

Publications (1)

Publication Number Publication Date
CN112085246A true CN112085246A (zh) 2020-12-15

Family

ID=73735222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010708524.1A Pending CN112085246A (zh) 2020-07-22 2020-07-22 一种基于残基对距离约束的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN112085246A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146529A (ja) * 2006-12-13 2008-06-26 Matsushita Electric Ind Co Ltd タンパク質配列断片エントロピー計算による折り畳み順序予測法
WO2017011779A1 (en) * 2015-07-16 2017-01-19 Dnastar, Inc. Protein structure prediction system
CN109086565A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法
CN109300506A (zh) * 2018-08-29 2019-02-01 浙江工业大学 一种基于特定距离约束的蛋白质结构预测方法
CN109360596A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN110189794A (zh) * 2019-04-16 2019-08-30 浙江工业大学 一种残基接触引导loop扰动的群体蛋白质结构预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146529A (ja) * 2006-12-13 2008-06-26 Matsushita Electric Ind Co Ltd タンパク質配列断片エントロピー計算による折り畳み順序予測法
WO2017011779A1 (en) * 2015-07-16 2017-01-19 Dnastar, Inc. Protein structure prediction system
CN109086565A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法
CN109300506A (zh) * 2018-08-29 2019-02-01 浙江工业大学 一种基于特定距离约束的蛋白质结构预测方法
CN109360596A (zh) * 2018-08-30 2019-02-19 浙江工业大学 一种基于差分进化局部扰动的蛋白质构象空间优化方法
CN110189794A (zh) * 2019-04-16 2019-08-30 浙江工业大学 一种残基接触引导loop扰动的群体蛋白质结构预测方法

Similar Documents

Publication Publication Date Title
Jumper et al. Highly accurate protein structure prediction with AlphaFold
Deng et al. Protein structure prediction
Wang et al. Computationally predicting binding affinity in protein–ligand complexes: free energy-based simulations and machine learning-based scoring functions
CN108846256B (zh) 一种基于残基接触信息的群体蛋白质结构预测方法
Berman et al. Outcome of a workshop on archiving structural models of biological macromolecules
Zhao et al. MMpred: a distance-assisted multimodal conformation sampling for de novo protein structure prediction
Zhao et al. Essential protein discovery based on a combination of modularity and conservatism
AlQuraishi A watershed moment for protein structure prediction
Zheng et al. Protein structure prediction constrained by solution X-ray scattering data and structural homology identification
Huang et al. Protein structure prediction: challenges, advances, and the shift of research paradigms
Zhang et al. Pareto dominance archive and coordinated selection strategy-based many-objective optimizer for protein structure prediction
Zhang et al. Protein language models learn evolutionary statistics of interacting sequence motifs
Sun et al. Smolign: a spatial motifs-based protein multiple structural alignment method
Kucera et al. ProteinShake: Building datasets and benchmarks for deep learning on protein structures
Ashtawy et al. Boosted neural networks scoring functions for accurate ligand docking and ranking
Hao et al. A novel method using abstract convex underestimation in ab-initio protein structure prediction for guiding search in conformational feature space
Roshan Multiple sequence alignment using Probcons and Probalign
CN112085246A (zh) 一种基于残基对距离约束的蛋白质结构预测方法
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
CN110189794B (zh) 一种残基接触引导loop扰动的群体蛋白质结构预测方法
Dong et al. Methods for optimizing the structure alphabet sequences of proteins
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN113257338A (zh) 一种基于残基接触图信息博弈机制的蛋白质结构预测方法
Ispano et al. An Overview of Protein Function Prediction Methods: A Deep Learning Perspective
Zaman et al. Adaptive Stochastic Optimization to Improve Protein Conformation Sampling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination