CN109360600B - 一种基于残基特征距离的蛋白质结构预测方法 - Google Patents
一种基于残基特征距离的蛋白质结构预测方法 Download PDFInfo
- Publication number
- CN109360600B CN109360600B CN201810986237.XA CN201810986237A CN109360600B CN 109360600 B CN109360600 B CN 109360600B CN 201810986237 A CN201810986237 A CN 201810986237A CN 109360600 B CN109360600 B CN 109360600B
- Authority
- CN
- China
- Prior art keywords
- conformation
- residue
- distance
- sim
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000455 protein structure prediction Methods 0.000 title claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 27
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 241000687983 Cerobasis alpha Species 0.000 claims description 6
- 239000002253 acid Substances 0.000 claims description 4
- 150000001413 amino acids Chemical class 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 4
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 claims description 4
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000012846 protein folding Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
一种基于残基特征距离的蛋白质结构预测方法。首先,计算出先验知识中目标蛋白的初始残基特征距离与目标构象的特征距离误差,并将这些距离误差作为采样范围的适应度;然后,根据轮盘机制选择出适应度较高的残基范围作为有效的采样区域;最后,Manhattan距离与能量函数作为打分函数来指导种群的更新,进而选出潜在的构象。本发明提出一种采样效率较高、预测精度较高、计算代价低的基于残基特征距离的蛋白质结构预测方法。
Description
技术领域
本发明涉及一种生物学信息学、人工智能优化、计算机应用领域,尤其涉及的是一种基于残基特征距离的蛋白质结构预测方法。
背景技术
蛋白质是维持生命活动、功能最多的生物单元,而蛋白质的生物功能由蛋白质的三级结构决定,因此通过一维序列来预测蛋白质的三级结构是生物信息领域主要研究的方向之一。蛋白质结构预测方法主要有两种途径:实验法和理论预测。虽然实验法可以准确预测某些特定的蛋白质结构,但由于预测费用过于昂贵、预测时间太长的缺点极大限制了实验预测方法的广发应用,因此理论预测方法的研究显得尤为重要。理论预测方法通常可以分为同源建模、穿线法、从头预测等三类;其中同源建模、穿线法不同程度的依赖于已知结构的模板,而从头预测法是从蛋白质序列出发,不需要任何已知的结构,而是以第一性原理构建蛋白质折叠力场,再通过相应的构象搜索方法,进而预测出目标蛋白质的三维结构。
尽管从头预测法对“第二遗传密码”的探索有非凡的意义,但随着氨基酸序列的增长,构象空间变的极其复杂,局部最小能量值的也随之增加,这就要求必须选择有效的搜索算法才能找到接近天然态的结构。为了解决该问题大量的研究者提出使用遗传算法、改进的禁忌搜索算法、模拟退火算法以及,遗传算法与模拟退火算法相结合的方法等优化方法,然而,这些方法运行时间长、效率低,具有一定的局限性。
因此,现有的构象空间搜索方法在预测精度和采样效率方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质结构预测构象空间搜索方法存在采样效率较低、预测精度较低的不足,本发明提出一种采样效率较高、预测精度较高的基于残基特征距离的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基特征距离的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)根据QUARK获得目标蛋白的初始残基特征距离集V={vk,k+n|k∈[1,L-n]},其中vk,k+n是目标蛋白中第k个残基的Cα原子和第k+n个残基的Cα原子之间的距离,L是序列长度,残基的片段长度n;
3)参数初始化:设置构象集规模NP,初始构象中采样次数iter,迭代计数器co,最大搜索迭代次数Cmax,概率参数p;
4)初始化构象集:启动NP条Monte Carlo轨迹,每条轨迹搜索iter次,即生成NP个初始构象;
5)对每个目标构象xi,i∈{1,...,NP}进行如下操作:
5.1)构建轮盘赌采样机制,过程如下:
5.2)针对构象xi启动三条Monte Carlo搜索轨迹,在不同的搜索轨迹中设定不同的残基采样范围,过程如下:
5.2.1)利用Rosetta Score3函数计算得到构象xi的能量值Ei;
5.3)随机生成rand∈[0,1],若rand≤p,则执行步骤5.4),否则执行步骤5.5);
5.5.3)与步骤5.5.2)同理分别计算出构象xg,xh,xy对应的Manhattan距离值simg,simh,simy;
5.5.4)选出Manhattan距离值最小的构象为潜在构象X∈{xg,xh,xy}以及相应的Manhattan距离值sim,并比较潜在构象的Manhattan距离值sim和目标构象的Manhattan距离值simob的大小,若sim<simob,则潜在构象X进入下一代,否则目标构象进入下一代;
6)判断是否满足终止条件co>Cmax,若满足终止条件则停止迭代,否则进入下一代,返回步骤4)。
本发明的技术构思为:首先,计算出先验知识中目标蛋白的初始残基特征距离与目标构象的特征距离误差,并将这些距离误差作为采样范围的适应度;然后,根据轮盘机制选择出适应度较高的残基范围作为有效的采样区域;最后,Manhattan距离与能量函数作为打分函数来指导种群的更新,进而选出潜在的构象。
本发明的有益效果表现在:一方面将特征距离与轮盘赌策略相结合选择有效的采样区域,有效地降低了空间复杂度,加快了搜索速度;另一方面通过加入残基间的空间距离信息指导构象更新,降低了由于能量函数不精确带来的误差,进而大大提高了预测精度。
附图说明
图1是基于残基特征距离的蛋白质结构预测方法的基本流程图。
图2是基于残基特征距离的蛋白质结构预测方法对蛋白质1AIL进行结构预测时的构象更新示意图。
图3是基于残基特征距离的蛋白质结构预测方法对蛋白质1AIL进行结构预测得到的三维结构图。
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于残基特征距离的蛋白质结构预测方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)根据QUARK获得目标蛋白的初始残基特征距离集V={vk,k+n|k∈[1,L-n]},其中vk,k+n是目标蛋白中第k个残基的Cα原子和第k+n个残基的Cα原子之间的距离,L是序列长度,残基的片段长度n;
3)参数初始化:设置构象集规模NP,初始构象中采样次数iter,迭代计数器co,最大搜索迭代次数Cmax,概率参数p;
4)初始化构象集:启动NP条Monte Carlo轨迹,每条轨迹搜索iter次,即生成NP个初始构象;
5)对每个目标构象xi,i∈{1,...,NP}进行如下操作:
5.1)构建轮盘赌采样机制,过程如下:
5.2)针对构象xi启动三条Monte Carlo搜索轨迹,在不同的搜索轨迹中设定不同的残基采样范围,过程如下:
5.2.1)利用Rosetta Score3函数计算得到构象xi的能量值Ei;
5.3)随机生成rand∈[0,1],若rand≤p,则执行步骤5.4),否则执行步骤5.5);
5.5.3)与步骤5.5.2)同理分别计算出构象xg,xh,xy对应的Manhattan距离值simg,simh,simy;
5.5.4)选出Manhattan距离值最小的构象为潜在构象X∈{xg,xh,xy}以及相应的Manhattan距离值sim,并比较潜在构象的Manhattan距离值sim和目标构象的Manhattan距离值simob的大小,若sim<simob,则潜在构象X进入下一代,否则目标构象进入下一代;
6)判断是否满足终止条件co>Cmax,若满足终止条件则停止迭代,否则进入下一代,返回步骤4)。
本实施例序列长度为73的α折叠蛋白质1AIL为实施例,一种基于残基特征距离的蛋白质结构预测方法,其中包含以下步骤:
1)给定输入序列信息;
2)根据QUARK获得目标蛋白的初始残基特征距离集V={vk,k+n|k∈[1,L-n]},其中vk,k+n是目标蛋白中第k个残基的Cα原子和第k+n个残基的Cα原子之间的距离,L是序列长度,残基的片段长度n;
3)参数初始化:设置构象集规模NP=100,初始构象中采样次数iter=1000,迭代计数器co=0,最大搜索迭代次数Cmax=5000,概率参数p=0.5;
4)初始化构象集:启动NP条Monte Carlo轨迹,每条轨迹搜索iter次,即生成NP个初始构象;
5)对每个目标构象xi,i∈{1,...,NP}进行如下操作:
5.1)构建轮盘赌采样机制,过程如下:
5.2)针对构象xi启动三条Monte Carlo搜索轨迹,在不同的搜索轨迹中设定不同的残基采样范围,过程如下:
5.2.1)利用Rosetta Score3函数计算得到构象xi的能量值Ei;
5.3)随机生成rand∈[0,1],若rand≤p,则执行步骤4.4),否则执行步骤4.5);
5.5.3)与步骤4.5.2)同理分别计算出构象xg,xh,xy对应的Manhattan距离值simg,simh,simy;
5.5.4)选出Manhattan距离值最小的构象为潜在构象X∈{xg,xh,xy}以及相应的Manhattan距离值sim,并比较潜在构象的Manhattan距离值sim和目标构象的Manhattan距离值simob的大小,若sim<simob,则潜在构象X进入下一代,否则目标构象进入下一代;
6)判断是否满足终止条件co>Cmax,若满足终止条件则停止迭代,否则进入下一代,返回步骤4)。
以上说明是本发明以1AIL蛋白质为实例所得出的预测效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于残基特征距离的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息;
2)根据QUARK获得目标蛋白的初始残基特征距离集V={vk,k+n|k∈[1,L-n]},其中vk,k+n是目标蛋白中第k个残基的Cα原子和第k+n个残基的Cα原子之间的距离,L是序列长度,残基的片段长度n;
3)参数初始化:设置构象集规模NP,初始构象中采样次数iter,迭代计数器co,最大搜索迭代次数Cmax,概率参数p;
4)初始化构象集:启动NP条Monte Carlo轨迹,每条轨迹搜索iter次,即生成NP个初始构象;
5)对每个目标构象xi,i∈{1,...,NP}进行如下操作:
5.1)构建轮盘赌采样机制,过程如下:
5.2)针对构象xi启动三条Monte Carlo搜索轨迹,在不同的搜索轨迹中设定不同的残基采样范围,过程如下:
5.2.1)利用Rosetta Score3函数计算得到构象xi的能量值Ei;
5.3)随机生成rand∈[0,1],若rand≤p,则执行步骤5.4),否则执行步骤5.5);
5.5.3)与步骤5.5.2)同理分别计算出构象xg,xh,xy对应的Manhattan距离值simg,simh,simy;
5.5.4)选出Manhattan距离值最小的构象为潜在构象X∈{xg,xh,xy}以及相应的Manhattan距离值sim,并比较潜在构象的Manhattan距离值sim和目标构象的Manhattan距离值simob的大小,若sim<simob,则潜在构象X进入下一代,否则目标构象进入下一代;
6)判断是否满足终止条件co>Cmax,若满足终止条件则停止迭代,否则进入下一代,返回步骤4)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810986237.XA CN109360600B (zh) | 2018-08-28 | 2018-08-28 | 一种基于残基特征距离的蛋白质结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810986237.XA CN109360600B (zh) | 2018-08-28 | 2018-08-28 | 一种基于残基特征距离的蛋白质结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109360600A CN109360600A (zh) | 2019-02-19 |
CN109360600B true CN109360600B (zh) | 2021-05-18 |
Family
ID=65350000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810986237.XA Active CN109360600B (zh) | 2018-08-28 | 2018-08-28 | 一种基于残基特征距离的蛋白质结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109360600B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689918B (zh) * | 2019-09-24 | 2022-12-09 | 上海宽慧智能科技有限公司 | 蛋白质三级结构的预测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN107633159A (zh) * | 2017-08-21 | 2018-01-26 | 浙江工业大学 | 一种基于距离相似度的蛋白质构象空间搜索方法 |
-
2018
- 2018-08-28 CN CN201810986237.XA patent/CN109360600B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN107633159A (zh) * | 2017-08-21 | 2018-01-26 | 浙江工业大学 | 一种基于距离相似度的蛋白质构象空间搜索方法 |
Non-Patent Citations (3)
Title |
---|
《Improved prediction of protein–protein interactions using novel negative samples, features, and an ensemble classifier》;Leyi Weia等;《Artificial Intelligence in Medicine》;20170301;全文 * |
《Local protein structure prediction using discriminative models》;Oliver Sander等;《BMC Bioinformatics》;20060111;全文 * |
《基于距离约束的蛋白质空间结构预测》;王彩霞;《万方数据知识服务平台》;20151203;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109360600A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Senior et al. | Protein structure prediction using multiple deep neural networks in the 13th Critical Assessment of Protein Structure Prediction (CASP13) | |
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
Zheng et al. | Detecting distant-homology protein structures by aligning deep neural-network based contact maps | |
Deng et al. | Protein structure prediction | |
CN107633159B (zh) | 一种基于距离相似度的蛋白质构象空间搜索方法 | |
CN108846256B (zh) | 一种基于残基接触信息的群体蛋白质结构预测方法 | |
Saini et al. | Probabilistic expression of spatially varied amino acid dimers into general form of Chou׳ s pseudo amino acid composition for protein fold recognition | |
Zheng et al. | An ensemble method to reconstruct gene regulatory networks based on multivariate adaptive regression splines | |
Li et al. | Protein inter‐residue contact and distance prediction by coupling complementary coevolution features with deep residual networks in CASP14 | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
Vallat et al. | Modularity of protein folds as a tool for template-free modeling of structures | |
Feng et al. | Accurate de novo prediction of RNA 3D structure with transformer network | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
CN109360598B (zh) | 一种基于两阶段采样的蛋白质结构预测方法 | |
CN109346128B (zh) | 一种基于残基信息动态选择策略的蛋白质结构预测方法 | |
Zhang et al. | Two-stage distance feature-based optimization algorithm for de novo protein structure prediction | |
CN108595910B (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109326319B (zh) | 一种基于二级结构知识的蛋白质构象空间优化方法 | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
Jing et al. | Protein inter-residue contacts prediction: methods, performances and applications | |
CN109448785B (zh) | 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法 | |
CN111951885A (zh) | 一种基于局部有偏的蛋白质结构预测方法 | |
CN107609345B (zh) | 一种基于模板自适应选择的多域蛋白结构组装方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |