CN109326318B - 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 - Google Patents

一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 Download PDF

Info

Publication number
CN109326318B
CN109326318B CN201810762501.1A CN201810762501A CN109326318B CN 109326318 B CN109326318 B CN 109326318B CN 201810762501 A CN201810762501 A CN 201810762501A CN 109326318 B CN109326318 B CN 109326318B
Authority
CN
China
Prior art keywords
population
individuals
individual
disturbance
loop region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810762501.1A
Other languages
English (en)
Other versions
CN109326318A (zh
Inventor
李章维
余宝昆
肖璐倩
刘俊
彭春祥
周晓根
张贵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhaoji Biotechnology Co ltd
Shenzhen Xinrui Gene Technology Co ltd
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810762501.1A priority Critical patent/CN109326318B/zh
Publication of CN109326318A publication Critical patent/CN109326318A/zh
Application granted granted Critical
Publication of CN109326318B publication Critical patent/CN109326318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于Loop区域高斯扰动的群体蛋白质结构预测方法,首先,通过种群初始化得到全局搜索的构象;然后通过交叉操作,交叉种群中个体Loop区域的部分;其次,对交叉后的种群和初始种群合并到一起挑选出能量较小的个体,使用高斯分布的二面角来对构象的Loop区域扰动,并使用玻尔兹曼概率判断是否接收;最后使用聚类算法对输出的最后一代种群聚类,得到最终的蛋白质三级结构。本发明提供一种预测精度较高的基于Loop区域高斯扰动的群体蛋白质结构预测方法。

Description

一种基于Loop区域高斯扰动的群体蛋白质结构预测方法
技术领域
本发明涉及一种生物信息学、智能优化、计算机应用领域、尤其涉及的是,一种基于Loop区域高斯扰动的群体蛋白质结构预测方法。
背景技术
蛋白质是生物的物质基础,是有机大分子,是构成细胞的基本有机物,是生命活动的主要承担者。没有蛋白质就没有生命,氨基酸是蛋白质的基本组成单位,它是与生命及与各种形式的生命活动紧密联系在一起的物质。因为蛋白质特定的三维结构决定了蛋白质的功能,所以了解蛋白质的结构对于认识蛋白质的功能有十分重要的意义。了解蛋白质结构和功能之间的关系可以帮助我们设计具有特定功能的新型蛋白质、设计药物和疫苗解决人类的许多疾病,通过了解蛋白质折叠类疾病的病理,从而找出解决这类疾病的治疗方法。目前,实验室测定蛋白质结构的方法主要有X-射线衍射法和核磁共振法(NMR),但是这两种方法所需时间长且耗资巨大,通常需要半年至一年时间,耗资几十万美元,而且有局限性,不能大规模地测定蛋白质三级结构,而使用计算机模拟的蛋白质结构预测是现在最有前景的蛋白质结构预测方法。
使用计算机模拟的蛋白质结构预测方法主要有同源建模法和从头预测法。同源建模法的出发点是认为序列相似的蛋白质结构也相似。基于这种认识,同源建模法计算目标蛋白质序列与模板之间的相似性,并以序列联配的形式呈现序列相似性计算结果,最后从联配出发构建目标蛋白质的空间结构。同源建模法适用于在模板库中存在同源序列的目标蛋白质,当目标蛋白质与结构模板之间的相似度>30%时,同源建模法一般可以预测到较高精度的蛋白质三级结构。当序列相似度较低时,蛋白质结构预测精度较差。从头建模法也叫无模板建模方法,不依赖于已知结构数据库,因此即使在模板数据库中不存在与目标蛋白相似的结构时,从头预测法也能对目标蛋白质预测。
目前在从头蛋白质结构预测方面主要有两个挑战:一方面是巨大的构象搜索空间,另一方面是缺少一个精确的能量函数去确定接近天然态的蛋白质模型。伴随着能量函数的发展,已经有一些方法被提出解决构象采样的问题。片段组装方法的是一个非常有效地方法来减少巨大的搜索空间,片段组装仅使用蛋白质骨架原子的扭转角来简化的表示蛋白质的三维结构,首先将整条序列分割成多个9-mer或者3-mer片段,片段之间允许相互重叠,对每个片段,从PSI-BLAST计算出的相似序列对应的结构中,截取出相应位置的局部结构作为候选结构,然后使用MonteCarlo算法从每个片段的候选结构集中挑选出一个进行组合,使得组合成的全长结构能量最小。因此,在片段组装方法中,片段的质量是十分重要的。
在蛋白质结构从头预测方法中,由于能量函数的不精确以及采样能力的不足会导致构象空间的搜索效率低、收敛速度慢,局部搜索能力弱的问题,从而影响预测精度。比如蛋白质结构的Loop区域灵活多变,使用常规的片段组装方法不能对此部分进行充分的采样,因此,如何加强对蛋白质结构的Loop区域的局部搜索是我们需要解决的问题。
发明内容:
为了解决现有能量函数的不精确和构象空间搜索不充分导致的蛋白质结构预测精度较低的问题,本发明提出了一种预测精度较高的基于Loop区域高斯扰动的群体蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于Loop区域高斯扰动的群体蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置:设置初始种群大小NP,交叉概率CR,种群交叉代数G,最大迭代次数Gmax,温度参数KT,扰动参数a,设置能量函数;
2)使用PSIPRED服务器(http://bioinf.cs.ucl.ac.uk/psipred/)预测目标序列的二级结构,得到每个残基的二级结构,标记二级结构为Loop类型的残基;
3)设置蛋白质构象的初始种群为{x1,x2,...,xNP},其中xi,i∈[1,NP]表示种群的第i个个体,对种群所有个体进行片段组装,直到个体中所有位置的残基都被替换一次,则完成初始化操作,初始化操作后得到种群P;
4)种群交叉操作,过程如下:
4.1)对种群P中的NP个个体两两配对,组成NP/2对,并对其编号a1,a2,...,aNP/2,,其中aj,j∈[1,NP/2]表示第j组;
4.2)随机选择其中的一组aj,根据交叉概率CR判断是否对这两个个体进行交叉,若random(0,1)<CR,则随机选取这一组个体的对应的Loop区域交换它,形成两个新的子代,否则,保留aj中个体不变,遍历所有组后得到交叉后的种群P′;
5)把交叉后的种群P′和初始种群P合并,使用能量函数计算种群P′∪P中每个个体的能量,根据能量的高低对种群的个体排序,挑选出能量较低的前NP个个体组成新的种群;
6)对Loop区域二面角高斯扰动,过程如下:
6.1)选择种群中的一个个体xi,随机选择xi的一个Loop区域,通过(1)式产生独立的高斯随机数ψ,通过(2)得到扰动后的角度
Figure BDA0001728207200000031
ψ=(-lnR1)1/2cos 2πR2 (1)
Figure BDA0001728207200000032
其中R1和R2是在(0,1)之间均匀分布的随机数字,ψ表示独立的高斯随机数,
Figure BDA0001728207200000033
表示扰动前的角度,
Figure BDA0001728207200000034
表示扰动后的角度,a表示扰动参数;
6.2)使用新得到的角度
Figure BDA0001728207200000035
替换该Loop区域的二面角得到新的个体x′i,使用能量函数对个体xi和xi′计算能量得到E(xi)和E(xi′),使用玻尔兹曼概率P=exp{-[E(xi′)-E(xi)]/KT}判断是否进行二面角的替换,其中KT是温度参数,若random(0,1)<P,保留个体xi′,否则,保留原个体xi
7)对种群所有个体执行步骤4)-6)操作后,设置G=G+1,判断G是否达到最大迭代次数,若G≤Gmax,则返回步骤4),否则,进行步骤8);
8)输出最后一代的种群,使用K均值聚类方法挑出最大类的类心构象作为最终结果。
本发明的技术构思为:首先,通过种群初始化得到全局搜索的构象;然后通过交叉操作,交叉种群中个体Loop区域的部分;其次,对交叉后的种群和初始种群合并到一起挑选出能量较小的个体,使用高斯分布的二面角来对构象的Loop区域扰动,并使用玻尔兹曼概率判断是否接收;最后使用聚类算法对输出的最后一代种群聚类,得到最终的蛋白质三级结构。
本发明的有益效果表现为:使用群体算法可以有效提高构象空间的搜索效率,种群对Loop区域的交叉操作增加了种群的多样性,加大了对Loop区域的构象空间搜索,因为Loop区域的残基二面角是灵活多变的,所以采用了高斯扰动的二面角来替换构象Loop区域的二面角,加强对构象Loop区域的进一步搜索。
附图说明
图1是基于Loop区域高斯扰动的群体蛋白质结构预测方法的流程图。
图2是基于Loop区域高斯扰动的群体蛋白质结构预测方法对蛋白质1AIL进行结构预测得到的构象分布图。
图3是基于Loop区域高斯扰动的群体蛋白质结构预测方法对蛋白质1AIL进行结构预测得到的构象分布图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1~图3,一种基于Loop区域高斯扰动的群体蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置:设置初始种群大小NP,交叉概率CR,种群交叉代数G,最大迭代次数Gmax,温度参数KT,扰动参数a,设置能量函数;
2)使用PSIPRED服务器(http://bioinf.cs.ucl.ac.uk/psipred/)预测目标序列的二级结构,得到每个残基的二级结构,标记二级结构为Loop类型的残基;
3)设置蛋白质构象的初始种群为{x1,x2,...,xNP},其中xi,i∈[1,NP]表示种群的第i个个体,对种群所有个体进行片段组装,直到个体中所有位置的残基都被替换一次,则完成初始化操作,初始化操作后得到种群P;
4)种群交叉操作,过程如下:
4.1)对种群P中的NP个个体两两配对,组成NP/2对,并对其编号a1,a2,...,aNP/2,,其中aj,j∈[1,NP/2]表示第j组;
4.2)随机选择其中的一组aj,根据交叉概率CR判断是否对这两个个体进行交叉,若random(0,1)<CR,则随机选取这一组个体的对应的Loop区域交换它,形成两个新的子代,否则,保留aj中个体不变,遍历所有组后得到交叉后的种群P′;
5)把交叉后的种群P′和初始种群P合并,使用能量函数计算种群P′∪P中每个个体的能量,根据能量的高低对种群的个体排序,挑选出能量较低的前NP个个体组成新的种群;
6)对Loop区域二面角高斯扰动,过程如下:
6.1)选择种群中的一个个体xi,随机选择xi的一个Loop区域,通过(1)式产生独立的高斯随机数ψ,通过(2)得到扰动后的角度
Figure BDA0001728207200000051
ψ=(-lnR1)1/2cos2πR2 (1)
Figure BDA0001728207200000052
其中R1和R2是在(0,1)之间均匀分布的随机数字,ψ表示独立的高斯随机数,
Figure BDA0001728207200000053
表示扰动前的角度,
Figure BDA0001728207200000054
表示扰动后的角度,a表示扰动参数;
6.2)使用新得到的角度
Figure BDA0001728207200000055
替换该Loop区域的二面角得到新的个体x′i,使用能量函数对个体xi和xi′计算能量得到E(xi)和E(xi′),使用玻尔兹曼概率P=exp{-[E(xi′)-E(xi)]/KT}判断是否进行二面角的替换,其中KT是温度参数,若random(0,1)<P,保留个体xi′,否则,保留原个体xi
7)对种群所有个体执行步骤4)-6)操作后,设置G=G+1,判断G是否达到最大迭代次数,若G≤Gmax,则返回步骤4),否则,进行步骤8);
8)输出最后一代的种群,使用K均值聚类方法挑出最大类的类心构象作为最终结果。
本实施例以序列长度为73的α折叠蛋白质1AIL为实施例,一种基于Loop区域高斯扰动的蛋白质结构预测方法,所述方法包括以下步骤:
1)参数设置:设置初始种群大小NP=300,交叉概率CR=0.5,种群交叉代数G,最大迭代次数Gmax=100,温度参数KT=2,扰动参数a=0.4,设置能量函数Rosetta score3;
2)使用PSIPRED服务器(http://bioinf.cs.ucl.ac.uk/psipred/)预测目标序列的二级结构,得到每个残基的二级结构,标记二级结构为Loop类型的残基;
3)设置蛋白质构象的初始种群为{x1,x2,...,x300},其中xi,i∈[1,300]表示种群的第i个个体,对种群所有个体进行片段组装,直到个体中所有位置的残基都被替换一次,则完成初始化操作,初始化操作后得到种群P;
4)种群交叉操作,过程如下:
4.1)对种群P中的300个个体两两配对,组成150对,并对其编号a1,a2,...,a150,,其中aj,j∈[1,150]表示第j组;
4.2)随机选择其中的一组aj,根据交叉概率判断是否对这两个个体进行交叉,若random(0,1)<0.5,则随机选取这一组个体的对应的Loop区域交换它,形成两个新的子代,否则,保留aj中个体不变,遍历所有组后得到交叉后的种群P′;
5)把交叉后的种群P′和初始种群P合并,使用能量函数Rosetta score3计算种群P′∪P中每个个体的能量,根据能量的高低对种群的个体排序,挑选出能量较低的前NP个个体组成新的种群;
6)对Loop区域二面角高斯扰动,过程如下:
6.1)选择种群中的一个个体xi,随机选择xi的一个Loop区域,通过(1)式产生独立的高斯随机数ψ,通过(2)得到扰动后的角度
Figure BDA0001728207200000061
ψ=(-lnR1)1/2cos2πR2 (1)
Figure BDA0001728207200000062
6.2)使用新得到的角度
Figure BDA0001728207200000063
替换该Loop区域的二面角得到新的个体x′i,使用能量函数Rosetta score3对个体xi和xi′计算能量得到E(xi)和E(xi′),使用玻尔兹曼概率P=exp{-[E(xi′)-E(xi)]/2}判断是否进行二面角的替换,若random(0,1)<P,保留个体xi′,否则,保留原个体xi
7)对种群所有个体执行步骤4)-6)操作后,设置G=G+1,判断G是否达到最大迭代次数,若G≤Gmax,则返回步骤4),否则,进行步骤8);
8)输出最后一代的种群,使用K均值聚类方法挑出最大类的类心构象作为最终结果。
以序列长度为73的α折叠蛋白质1AIL为实施例,运用以上方法得到了该蛋白质的近天然态构象,最小均方根偏差为
Figure BDA0001728207200000071
平均均方根偏差为
Figure BDA0001728207200000072
预测结构如图3所示。
以上说明是本发明以1AIL为实施例所得出的预测效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于Loop区域高斯扰动的群体蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)参数设置:设置初始种群大小NP,交叉概率CR,种群交叉代数G,最大迭代次数Gmax,温度参数KT,扰动参数a,设置能量函数;
2)使用PSIPRED服务器预测目标序列的二级结构,得到每个残基的二级结构,标记二级结构为Loop类型的残基;
3)设置蛋白质构象的初始种群为{x1,x2,...,xNP},其中xi表示种群的第i个个体,i∈[1,NP],对种群所有个体进行片段组装,直到个体中所有位置的残基都被替换一次,则完成初始化操作,初始化操作后得到种群P;
4)种群交叉操作,过程如下:
4.1)对种群P中的NP个个体两两配对,组成NP/2对,并对其编号a1,a2,...a,NP/2,其中aj,j∈[1,NP/2]表示第j组;
4.2)随机选择其中的一组aj,根据交叉概率CR判断是否对这两个个体进行交叉,若random(0,1)<CR,则随机选取这一组个体的对应的Loop区域交换它,形成两个新的子代,否则,保留aj中个体不变,遍历所有组后得到交叉后的种群P′;
5)把交叉后的种群P′和初始种群P合并,使用能量函数计算种群P′∪P中每个个体的能量,根据能量的高低对种群的个体排序,挑选出能量较低的前NP个个体组成新的种群P″;
6)对Loop区域二面角高斯扰动,过程如下:
6.1)选择种群P″中的一个个体xi,随机选择xi的一个Loop区域,通过(1)式产生独立的高斯随机数ψ,通过(2)得到扰动后的角度
Figure FDA0002978544420000011
ψ=(-lnR1)1/2cos2πR2 (1)
Figure FDA0002978544420000012
其中R1和R2是在(0,1)之间均匀分布的随机数字,ψ表示独立的高斯随机数,
Figure FDA0002978544420000013
表示扰动前的角度,
Figure FDA0002978544420000014
表示扰动后的角度,a表示扰动参数;
6.2)使用新得到的角度
Figure FDA0002978544420000021
替换该Loop区域的二面角得到新的个体x′i,使用能量函数对个体xi和xi′计算能量得到E(xi)和E(xi′),使用玻尔兹曼概率P=exp{-[E(xi′)-E(xi)]/KT}判断是否进行二面角的替换,其中KT是温度参数,若random(0,1)<P,保留个体xi′,否则,保留原个体xi
7)对种群P所有个体执行步骤4)-6)操作后,令P=P″;设置G=G+1,判断G是否达到最大迭代次数,若G≤Gmax,则返回步骤4),否则,进行步骤8);
8)输出最后一代的种群,使用K均值聚类方法挑出最大类的类心构象作为最终结果。
CN201810762501.1A 2018-07-12 2018-07-12 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法 Active CN109326318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810762501.1A CN109326318B (zh) 2018-07-12 2018-07-12 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810762501.1A CN109326318B (zh) 2018-07-12 2018-07-12 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN109326318A CN109326318A (zh) 2019-02-12
CN109326318B true CN109326318B (zh) 2021-05-18

Family

ID=65263939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810762501.1A Active CN109326318B (zh) 2018-07-12 2018-07-12 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN109326318B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189794B (zh) * 2019-04-16 2021-01-01 浙江工业大学 一种残基接触引导loop扰动的群体蛋白质结构预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778059A (zh) * 2016-12-19 2017-05-31 浙江工业大学 一种基于Rosetta局部增强的群体蛋白质结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Fast Protein Loop Sampling and Structure Prediction Using Distance-Guided Sequential Chain-Growth Monte Carlo Method》;Ke Tang等;《PLOS Computational Biology》;20140424;全文 *
《Structure Prediction of Loops with Fixed and Flexible Stems》;A. Subramani等;《The Journal of Physical Chemistry B》;20130614;全文 *

Also Published As

Publication number Publication date
CN109326318A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN106778059B (zh) 一种基于Rosetta局部增强的群体蛋白质结构预测方法
CN108334746B (zh) 一种基于二级结构相似度的蛋白质结构预测方法
CN107609342B (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
CN108062457B (zh) 一种结构特征向量辅助选择的蛋白质结构预测方法
CN110148437A (zh) 一种残基接触辅助策略自适应的蛋白质结构预测方法
CN109448784B (zh) 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN107491664B (zh) 一种基于信息熵的蛋白质结构从头预测方法
Zhang et al. Enhancing protein conformational space sampling using distance profile-guided differential evolution
CN109033744A (zh) 一种基于残基距离和接触信息的蛋白质结构预测方法
CN109360601B (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
CN109326318B (zh) 一种基于Loop区域高斯扰动的群体蛋白质结构预测方法
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
CN109360597B (zh) 一种基于全局和局部策略协作的群体蛋白质结构预测方法
CN108763860B (zh) 一种基于Loop信息采样的群体蛋白质构象空间优化方法
CN109346128B (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
CN109033753B (zh) 一种基于二级结构片段组装的群体蛋白质结构预测方法
Jurkowski et al. The early-stage intermediate
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN109411013B (zh) 一种基于个体特定变异策略的群体蛋白质结构预测方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109461471B (zh) 一种基于锦标赛机制的自适应蛋白质结构预测方法
CN109448785B (zh) 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221228

Address after: N2248, Floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou, Guangdong 510,000

Patentee after: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Address before: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18

Patentee before: JIANG University OF TECHNOLOGY

Effective date of registration: 20221228

Address after: D1101, Building 4, Software Industry Base, No. 19, 17, 18, Haitian 1st Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong, 518000

Patentee after: Shenzhen Xinrui Gene Technology Co.,Ltd.

Address before: N2248, Floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou, Guangdong 510,000

Patentee before: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.