CN109658979B - 一种基于片段库信息增强的蛋白质结构预测方法 - Google Patents

一种基于片段库信息增强的蛋白质结构预测方法 Download PDF

Info

Publication number
CN109658979B
CN109658979B CN201910018660.5A CN201910018660A CN109658979B CN 109658979 B CN109658979 B CN 109658979B CN 201910018660 A CN201910018660 A CN 201910018660A CN 109658979 B CN109658979 B CN 109658979B
Authority
CN
China
Prior art keywords
fragment
library
sliding window
segment
secondary structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910018660.5A
Other languages
English (en)
Other versions
CN109658979A (zh
Inventor
张贵军
刘俊
彭春祥
胡俊
周晓根
王柳静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910018660.5A priority Critical patent/CN109658979B/zh
Publication of CN109658979A publication Critical patent/CN109658979A/zh
Application granted granted Critical
Publication of CN109658979B publication Critical patent/CN109658979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于片段库信息增强的蛋白质结构预测方法,首先,根据片段库中片段的二级结构与预测的蛋白质二级结构的匹配度建立二级结构评分模型,然后根据过滤因子控制筛选力度,将二级结构匹配得分较差的片段从片段库中删除,再利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构,从而提高蛋白质结构预测的效率和精度。本发明提供一种预测精度较高的基于片段库信息增强的蛋白质结构预测方法。

Description

一种基于片段库信息增强的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于片段库信息增强的蛋白质结构预测方法。
背景技术
随着2003年人类基因组计划正式宣布完成,人类已经破解第一遗传密码,即DNA以三个核苷酸为一组的密码子转译为蛋白质氨基酸序列的过程。然而,蛋白质如何从氨基酸序列折叠成特定的三维结构任是未解之谜。蛋白质的三维结构决定了其特定的生物功能,因此如何高效的获取蛋白质三维结构成为生物信息学领域的重要研究课题。
获取蛋白质三维结构的途径主要有两种。第一种途径是利用实验方法直接测定蛋白质的三维结构,这类方法包括X射线晶体衍射、核磁共振、冷冻电镜技术等,这类方法所需的资金投入高、测定周期长,并且不能适用于所有类型的蛋白质。第二种途径是利用生物大数据、人工智能和系统优化技术直接从蛋白质氨基酸序列预测其三维结构,这类方法以计算机为基础,所需的成本较低,能够高效的预测蛋白质三维结构。全世界范围内有许多研究机构正在研究第二类方法,并逐渐应用于疾病诊断和药物设计,其中具有代表性的研究团队有美国华盛顿的David Baker实验室、美国密歇根大学的张阳实验室等。国内越来越多的高校和研究机构也加入到蛋白质结构预测的研究当中。
目前,大多数蛋白质结构预测方法都用到了片段组装技术。首先,利用深度学习的方法根据预测蛋白质的氨基酸序列从蛋白质数据库中提取结构片段组成片段库;然后,在能量函数的引导下利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构。然而,片段库中的信息不都是有效的,甚至存在一些错误信息,这些错误信息的存在不仅增加了计算代价而且会对预测蛋白质的精度产生不利影响。
因此,目前蛋白质结构预测方法使用的片段库包含一些不利信息,造成蛋白质结构预测的效率和精度较低,需要进行改进。
发明内容
为了减小片段库中不利信息降低预测蛋白质的精度,本发明提供一种预测精度较高的基于片段库信息增强的蛋白质结构预测方法。首先,根据片段库中片段的二级结构与预测的蛋白质二级结构的匹配度建立二级结构评分模型,然后根据过滤因子控制筛选力度,将二级结构匹配得分较差的片段从片段库中删除,再利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构,从而提高蛋白质结构预测的效率和精度。
本发明解决其技术问题所采用的技术方案是:
一种基于片段库信息增强的蛋白质结构预测方法,包括以下步骤:
1)输入预测蛋白质的序列信息和预测的二级结构信息;
2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;
3)筛选片段库信息,过程如下:
3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;
3.2)计算滑动窗口的二级结构最高分,过程如下:
3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为
Figure BDA0001940015990000021
Figure BDA0001940015990000022
其中n∈{r,r+1,…,r+f-1};
3.2.2)第r个滑动窗口的二级结构总分为:
Figure BDA0001940015990000023
3.3)对滑动窗口对应的片段库进行筛选,过程如下:
3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;
3.3.2)计算片段k的二级结构得分:
Figure BDA0001940015990000024
其中
Figure BDA0001940015990000025
表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;
3.3.3)决定是否从片段库中去除片段k,过程如下:
3.3.3.1)若f=3,执行步骤2.3.3.2);否则执行步骤2.3.3.3);
3.3.3.2)若
Figure BDA0001940015990000031
则将片段k从片段库中去除,转至步骤2.3.4);
3.3.3.3)若
Figure BDA0001940015990000032
则将片段k从片段库中去除;
3.3.4)k=k+1;
3.3.5)若k≤200,转至步骤2.3.2);否则,转至步骤2.4);
3.4)r=r+1;
3.5)若r≤L-f+1,转至步骤2.2);否则,片段库筛选完成,得到信息增强的片段库;
4)利用信息增强的片段库进行片段组装,过程如下:
4.1)设m=1,m∈{1,2,…,M};
4.2)执行片段插入操作,过程如下:
4.2.1)若m≤0.5*M,执行步骤4.2.2);否则执行步骤4.2.3);
4.2.2)从当前构象Ptarget中随机选择一个窗口宽度为3的滑动窗口,从该滑动窗口对应的片段长度为3的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial,转至步骤4.3);
4.2.3)从当前构象Ptarget中随机选择一个窗口宽度为9的滑动窗口,从该滑动窗口对应的片段长度为9的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial
4.3)利用能量函数计算构象Ptarget和Ptrial的能量Etarget和Etrial
4.4)计算替换概率:
Figure BDA0001940015990000033
4.5)生成均匀随机小数prand,prand∈[0,1];若prand<p,用新构象替换当前构象Ptarget=Ptrial,否则不进行替换;
4.6)m=m+1;
4.7)若m≤M,转至步骤4.2);否则,片段组装完成;
5)输出片段组装后的构象作为预测结果。
本发明的有益效果为:利用预测的蛋白结构二级结构信息对片段库进行筛选,去除二级结构匹配较差的片段,从而提高片段库的质量,减小计算代价的同时提高预测蛋白质的精度。
附图说明
图1是一种基于片段库信息增强的蛋白质结构预测方法对蛋白质1WN2进行结构预测时的构象更新示意图。
图2是一种基于片段库信息增强的蛋白质结构预测方法对蛋白质1WN2进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于片段库信息增强的蛋白质结构预测方法,包括以下步骤:
1)输入预测蛋白质的序列信息和预测的二级结构信息;
2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;
3)筛选片段库信息,过程如下:
3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;
3.2)计算滑动窗口的二级结构最高分,过程如下:
3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为
Figure BDA0001940015990000041
Figure BDA0001940015990000042
其中n∈{r,r+1,…,r+f-1};
3.2.2)第r个滑动窗口的二级结构总分为:
Figure BDA0001940015990000043
3.3)对滑动窗口对应的片段库进行筛选,过程如下:
3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;
3.3.2)计算片段k的二级结构得分:
Figure BDA0001940015990000044
其中
Figure BDA0001940015990000045
表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;
3.3.3)决定是否从片段库中去除片段k,过程如下:
3.3.3.1)若f=3,执行步骤2.3.3.2);否则执行步骤2.3.3.3);
3.3.3.2)若
Figure BDA0001940015990000051
则将片段k从片段库中去除,转至步骤2.3.4);
3.3.3.3)若
Figure BDA0001940015990000052
则将片段k从片段库中去除;
3.3.4)k=k+1;
3.3.5)若k≤200,转至步骤2.3.2);否则,转至步骤2.4);
3.4)r=r+1;
3.5)若r≤L-f+1,转至步骤2.2);否则,片段库筛选完成,得到信息增强的片段库;
4)利用信息增强的片段库进行片段组装,过程如下:
4.1)设m=1,m∈{1,2,…,M};
4.2)执行片段插入操作,过程如下:
4.2.1)若m≤0.5*M,执行步骤4.2.2);否则执行步骤4.2.3);
4.2.2)从当前构象Ptarget中随机选择一个窗口宽度为3的滑动窗口,从该滑动窗口对应的片段长度为3的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial,转至步骤4.3);
4.2.3)从当前构象Ptarget中随机选择一个窗口宽度为9的滑动窗口,从该滑动窗口对应的片段长度为9的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial
4.3)利用能量函数计算构象Ptarget和Ptrial的能量Etarget和Etrial
4.4)计算替换概率:
Figure BDA0001940015990000053
4.5)生成均匀随机小数prand,prand∈[0,1];若prand<p,用新构象替换当前构象Ptarget=Ptrial,否则不进行替换;
4.6)m=m+1;
4.7)若m≤M,转至步骤4.2);否则,片段组装完成;
5)输出片段组装后的构象作为预测结果。
本实施例以序列长度为118的蛋白质1WN2为实施例,一种基于片段库信息增强的蛋白质结构预测方法,包括以下步骤:
1)输入预测蛋白质的序列信息和预测的二级结构信息;
2)设置参数:片段长度为3的片段库过滤因子filter3=0.85,片段长度为9的片段库过滤因子filter9=0.9,片段组装次数M=36000,玻尔兹曼温度因子KT=2;
3)筛选片段库信息,过程如下:
3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;
3.2)计算滑动窗口的二级结构最高分,过程如下:
3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为
Figure BDA0001940015990000061
Figure BDA0001940015990000062
其中n∈{r,r+1,…,r+f-1};
3.2.2)第r个滑动窗口的二级结构总分为:
Figure BDA0001940015990000063
3.3)对滑动窗口对应的片段库进行筛选,过程如下:
3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;
3.3.2)计算片段k的二级结构得分:
Figure BDA0001940015990000064
其中
Figure BDA0001940015990000067
表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;
3.3.3)决定是否从片段库中去除片段k,过程如下:
3.3.3.1)若f=3,执行步骤2.3.3.2);否则执行步骤2.3.3.3);
3.3.3.2)若
Figure BDA0001940015990000065
则将片段k从片段库中去除,转至步骤2.3.4);
3.3.3.3)若
Figure BDA0001940015990000066
则将片段k从片段库中去除;
3.3.4)k=k+1;
3.3.5)若k≤200,转至步骤2.3.2);否则,转至步骤2.4);
3.4)r=r+1;
3.5)若r≤L-f+1,转至步骤2.2);否则,片段库筛选完成,得到信息增强的片段库;
4)利用信息增强的片段库进行片段组装,过程如下:
4.1)设m=1,m∈{1,2,…,M};
4.2)执行片段插入操作,过程如下:
4.2.1)若m≤0.5*M,执行步骤4.2.2);否则执行步骤4.2.3);
4.2.2)从当前构象Ptarget中随机选择一个窗口宽度为3的滑动窗口,从该滑动窗口对应的片段长度为3的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial,转至步骤4.3);
4.2.3)从当前构象Ptarget中随机选择一个窗口宽度为9的滑动窗口,从该滑动窗口对应的片段长度为9的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial
4.3)利用能量函数计算构象Ptarget和Ptrial的能量Etarget和Etrial
4.4)计算替换概率:
Figure BDA0001940015990000071
4.5)生成均匀随机小数prand,prand∈[0,1];若prand<p,用新构象替换当前构象Ptarget=Ptrial,否则不进行替换;
4.6)m=m+1;
4.7)若m≤M,转至步骤4.2);否则,片段组装完成;
5)输出片段组装后的构象作为预测结果。
以氨基酸序列长度为118的蛋白质1WN2为实施例,运用以上方法得到了该蛋白质的近天然态构象,其构象更新示意图如图1所示,预测的蛋白质的均方根偏差为
Figure BDA0001940015990000072
预测结构如图2所示。
以上阐述是本发明给出的一个实施的预测效果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims (1)

1.一种基于片段库信息增强的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:
1)输入预测蛋白质的序列信息和预测的二级结构信息;
2)设置参数:片段长度为3的片段库过滤因子filter3,片段长度为9的片段库过滤因子filter9,片段组装次数M,玻尔兹曼温度因子KT;
3)筛选片段库信息,过程如下:
3.1)设r=1,r∈{1,2,…,L-f+1};其中r表示滑动窗口编号,L为蛋白质序列长度,f∈{3,9}为滑动窗口的宽度;
3.2)计算滑动窗口的二级结构最高分,过程如下:
3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为
Figure FDA0002797107900000011
Figure FDA0002797107900000012
其中n∈{r,r+1,…,r+f-1};
3.2.2)第r个滑动窗口的二级结构总分为:
Figure FDA0002797107900000013
3.3)对滑动窗口对应的片段库进行筛选,过程如下:
3.3.1)设k=1,k∈{1,2,…,200};其中k表示片段库中片段的编号;
3.3.2)计算片段k的二级结构得分:
Figure FDA0002797107900000014
其中
Figure FDA0002797107900000015
表示第n号残基在该片段中的真实二级结构,H和E分别表示二级结构为α-helical和β-strand;
3.3.3)决定是否从片段库中去除片段k,过程如下:
3.3.3.1)若f=3,执行步骤3.3.3.2);否则执行步骤3.3.3.3);
3.3.3.2)若
Figure FDA0002797107900000016
则将片段k从片段库中去除,转至步骤2.3.4);
3.3.3.3)若
Figure FDA0002797107900000017
则将片段k从片段库中去除;
3.3.4)k=k+1;
3.3.5)若k≤200,转至步骤3.3.2);否则,转至步骤3.4);
3.4)r=r+1;
3.5)若r≤L-f+1,转至步骤3.2);否则,片段库筛选完成,得到信息增强的片段库;
4)利用信息增强的片段库进行片段组装,过程如下:
4.1)设m=1,m∈{1,2,…,M};
4.2)执行片段插入操作,过程如下:
4.2.1)若m≤0.5*M,执行步骤4.2.2);否则执行步骤4.2.3);
4.2.2)从当前构象Ptarget中随机选择一个窗口宽度为3的滑动窗口,从该滑动窗口对应的片段长度为3的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial,转至步骤4.3);
4.2.3)从当前构象Ptarget中随机选择一个窗口宽度为9的滑动窗口,从该滑动窗口对应的片段长度为9的片段库中随机选择一个片段替换原有片段,生成新的构象Ptrial
4.3)利用能量函数计算构象Ptarget和Ptrial的能量Etarget和Etrial
4.4)计算替换概率:
Figure FDA0002797107900000021
4.5)生成均匀随机小数prand,prand∈[0,1];若prand<p,用新构象替换当前构象Ptarget=Ptrial,否则不进行替换;
4.6)m=m+1;
4.7)若m≤M,转至步骤4.2);否则,片段组装完成;
5)输出片段组装后的构象作为预测结果。
CN201910018660.5A 2019-01-09 2019-01-09 一种基于片段库信息增强的蛋白质结构预测方法 Active CN109658979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910018660.5A CN109658979B (zh) 2019-01-09 2019-01-09 一种基于片段库信息增强的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910018660.5A CN109658979B (zh) 2019-01-09 2019-01-09 一种基于片段库信息增强的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN109658979A CN109658979A (zh) 2019-04-19
CN109658979B true CN109658979B (zh) 2021-06-18

Family

ID=66119118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910018660.5A Active CN109658979B (zh) 2019-01-09 2019-01-09 一种基于片段库信息增强的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN109658979B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086566A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于片段重采样的群体蛋白质结构预测方法
CN109086565A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11031094B2 (en) * 2015-07-16 2021-06-08 Dnastar, Inc. Protein structure prediction system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086566A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于片段重采样的群体蛋白质结构预测方法
CN109086565A (zh) * 2018-07-12 2018-12-25 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Secondary Structure and Contact Guided Differential Evolution for Protein Structure Prediction》;Gui-Jun Zhang等;《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》;20180831;全文 *
《基于副本交换的局部增强差分进化蛋白质结构从头预测方法》;李章维等;《计算机科学》;20170531;第44卷(第5期);全文 *
《蛋白质序列信息的提取与蛋白质结构预测》;任力锋等;《北京生物医学工程》;20050630;第24卷(第3期);全文 *

Also Published As

Publication number Publication date
CN109658979A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
Liwo et al. Computational Methods to Study the Structure and Dynamics of Biomolecules and Biomolecular Processes
CN109360599B (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN108647486B (zh) 一种基于构象多样性策略的蛋白质三维结构预测方法
CN109086566B (zh) 一种基于片段重采样的群体蛋白质结构预测方法
Mattick The human genome and the future of medicine
CN109872770B (zh) 一种结合排挤度评价的多变异策略蛋白质结构预测方法
Guan et al. Protein-dna binding residues prediction using a deep learning model with hierarchical feature extraction
CN109101785B (zh) 一种基于二级结构相似性选择策略的蛋白质结构预测方法
CN109086565B (zh) 一种基于残基间接触约束的蛋白质结构预测方法
CN117476114A (zh) 一种基于生物多组学数据的模型构建方法与系统
CN109658979B (zh) 一种基于片段库信息增强的蛋白质结构预测方法
Omar et al. Enhancer prediction in proboscis monkey genome: A comparative study
CN110729023B (zh) 一种基于二级结构元素接触辅助的蛋白质结构预测方法
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法
CN109411013B (zh) 一种基于个体特定变异策略的群体蛋白质结构预测方法
CN109243526B (zh) 一种基于特定片段交叉的蛋白质结构预测方法
CN109147867B (zh) 一种基于动态片段长度的群体蛋白质结构预测方法
CN112967751A (zh) 一种基于进化搜索的蛋白质构象空间优化方法
KR20220160805A (ko) 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법
CN108804868B (zh) 一种基于二面角熵值的蛋白质两阶段构象空间优化方法
CN109063413B (zh) 一种群体爬山迭代蛋白质构象空间优化方法
Lee et al. Protein secondary structure prediction using BLAST and relaxed threshold rule induction from coverings
CN109461472B (zh) 一种基于副本交换和有偏分布估计的蛋白质构象空间优化方法
Cai et al. Predicting protein-protein interactions with pseudo amino acid composition
CN110556161B (zh) 一种基于构象多样性采样的蛋白质结构预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190419

Assignee: ZHEJIANG ORIENT GENE BIOTECH CO.,LTD.

Assignor: JIANG University OF TECHNOLOGY

Contract record no.: X2023980053610

Denomination of invention: A Protein Structure Prediction Method Based on Fragment Library Information Enhancement

Granted publication date: 20210618

License type: Common License

Record date: 20231222

EE01 Entry into force of recordation of patent licensing contract