CN109390035B - 一种基于局部结构比对的蛋白质构象空间优化方法 - Google Patents
一种基于局部结构比对的蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN109390035B CN109390035B CN201810993748.4A CN201810993748A CN109390035B CN 109390035 B CN109390035 B CN 109390035B CN 201810993748 A CN201810993748 A CN 201810993748A CN 109390035 B CN109390035 B CN 109390035B
- Authority
- CN
- China
- Prior art keywords
- individual
- fragment
- library
- atom
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 30
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 239000012634 fragment Substances 0.000 claims abstract description 74
- 230000037431 insertion Effects 0.000 claims abstract description 6
- 238000003780 insertion Methods 0.000 claims abstract description 6
- 125000004429 atom Chemical group 0.000 claims description 29
- 230000002068 genetic effect Effects 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 claims description 4
- 210000004899 c-terminal region Anatomy 0.000 claims description 4
- 125000004432 carbon atom Chemical group C* 0.000 claims description 4
- 230000004992 fission Effects 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 125000004433 nitrogen atom Chemical group N* 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000000455 protein structure prediction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101000859758 Homo sapiens Cartilage-associated protein Proteins 0.000 description 1
- 101000916686 Homo sapiens Cytohesin-interacting protein Proteins 0.000 description 1
- 101000726740 Homo sapiens Homeobox protein cut-like 1 Proteins 0.000 description 1
- 101000761460 Homo sapiens Protein CASP Proteins 0.000 description 1
- 101000761459 Mesocricetus auratus Calcium-dependent serine proteinase Proteins 0.000 description 1
- 102100024933 Protein CASP Human genes 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于局部结构比对的蛋白质构象空间优化方法,在进化算法的基本框架下,采用基于局部结构比对的搜索策略,随机选择一个片段插入窗口,通过两个独立的结构指标将构象中原有的片段信息与片段库中的片段信息进行比对,并根据这两个结构比对指标选出一个潜在片段进行结构替换;最后,根据Monte Carlo机制指导种群的更新,选出潜在的构象进入下一代种群。本发明提出一种预测精度高、计算代价低的基于局部结构比对的蛋白质构象空间优化方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于局部结构比对的蛋白质构象空间优化方法。
背景技术
蛋白质是生命活动的主要承担者,结构的多样性决定了其功能的多样性。精确地预测蛋白质的空间结构对生物制药和疾病研究都有重要的意义,利用生化手段测定蛋白质结构代价高,耗时长,因此利用计算手段预测蛋白质三维结构逐渐成为计算生物学的重要课题。
近年来,从头预测的方法在蛋白质结构预测领域取得了不错的成绩。但是,就目前的技术手段而言,从头预测的方法仍然面临两大基本难点:第一,由于蛋白质内部原子相互作用的复杂性,人们难以找到足够准确的能量函数来描述一个蛋白质构象;第二,蛋白质结构的构象空间相当大,尤其在残基序列较长的时候,如果没有合适的、高效的采样算法,蛋白质构象采样将是一个“灾难性”的计算问题。
在生物信息学中,蛋白质结构预测是一个组合优化问题。从头预测蛋白质结构最主要的问题就在于采样:天然结构和非天然结构相比具有最低自由能,但是我们却很难在巨大的构象空间中确定天然结构这一唯一的构象。因此,许多研究者针对这一问题开发了多种适用于蛋白质三维结构采样的算法,比如改进的遗传算法、构象空间退火和分子动力学模拟采样。近几年的CASP比赛结果表明,Rosetta可以说是目前蛋白质结构从头预测领域最成功的方法。对于序列长度较短的,Rosetta已经能够很好的采样出非常接近天然结构的构象。但是对于更长的序列,更复杂的结构,却预测精度不高。
因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质构象空间优化方法中采样效率较低、预测精度低的不足,本发明提出一种采样效率较高、预测精度高的基于局部结构比对的蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于局部结构比对的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)选取Rosetta score3能量函数E(x),根据ROBETTA获得片段库;
3)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,温度因子KT,片段长度m,参数n;
4)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
5)对每个目标个体xi,i∈{i=1,2,...,Ps}进行如下操作:
5.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
5.1.1)根据Rosetta score3函数分别计算个体xi和xj的能量E(xi)和E(xj);
5.1.2)如果E(xj)<E(xi),则执行步骤5.1.3)和5.1.4),否则x′i=xi,转至步骤5.2);
5.1.3)产生一个随机整数r1∈[3,10]作为交叉片段长度,接着随机产生一个交叉起始位置r2∈[1,l-r1],进而确定出交叉区域[r1,r1+r2],其中l为序列长度;
5.1.4)在交叉区域[r1,r1+r2]内,用个体xj的扭转角度依次替换个体xi中对应的扭转角,生成交叉个体x′i;
5.2)对个体x′i进行基于片段结构的变异操作:
5.2.2)选取结构比对向量:在片段结构中,a是N端的N原子到Cα原子的单位向量,b是C端的C原子到Cα原子的单位向量,R是N端的Cα原子到C端的Cα原子的向量;
5.2.10)选取Δq最小的一个片段,并用该片段的扭转角替换个体x′i中的扭转角,生成变异分体x″i;
5.3)进行如下的选择操作:
5.3.1)根据Rosetta score3函数计算个体x″i的能量;
5.3.2)判断E(x″i)是否小于E(xi),如果E(x″i)<E(xi),则变异个体x″i替换个体xi,并作为下一代的目标个体,执行步骤6),否则执行步骤5.3.3);
5.3.4)产生一个0到1的随机数rand,如果pe>rand,则变异个体x″i替换个体xi,并作为下一代的目标个体,否则个体xi被保留,并作为下一代的目标个体;
6)对种群中的每一个个体都执行完步骤5)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤5)。
本发明的技术构思为:在进化算法的基本框架下,采用基于局部结构比对的搜索策略,随机选择一个片段插入窗口,通过两个独立的结构指标将构象中原有的片段信息与片段库中的片段信息进行比对,并根据这两个结构比对指标选出一个潜在片段进行结构替换;最后,根据Monte Carlo机制指导种群的更新,选出潜在的构象进入下一代种群。
本发明的有益效果表现在:一方面通过采用基于局部结构比对的搜索策略,避免了插入的新片段破坏了构象中原有的全局拓扑结构,进而提高了预测精度;另一方面,通过种群之间的信息互换,进而大大提高了搜索效率。
附图说明
图1是基于局部结构比对的蛋白质构象空间优化方法的示意图。
图2是基于局部结构比对的蛋白质构象空间优化方法对蛋白质4uex进行结构预测时的构象更新示意图。
图3是基于局部结构比对的蛋白质构象空间优化方法对蛋白质4uex进行结构预测得到的三维结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于局部结构比对的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)选取Rosetta score3能量函数E(x),根据ROBETTA获得片段库;
3)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,温度因子KT,片段长度m,参数n;
4)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
5)对每个目标个体xi,i∈{i=1,2,...,Ps}进行如下操作:
5.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
5.1.1)根据Rosetta score3函数分别计算个体xi和xj的能量E(xi)和E(xj);
5.1.2)如果E(xj)<E(xi),则执行步骤5.1.3)和5.1.4),否则x′i=xi,转至步骤5.2);
5.1.3)产生一个随机整数r1∈[3,10]作为交叉片段长度,接着随机产生一个交叉起始位置r2∈[1,l-r1],进而确定出交叉区域[r1,r1+r2],其中l为序列长度;
5.1.4)在交叉区域[r1,r1+r2]内,用个体xj的扭转角度依次替换个体xi中对应的扭转角,生成交叉个体xi′;
5.2)对个体x′i进行基于片段结构的变异操作:
5.2.2)选取结构比对向量:在片段结构中,a是N端的N原子到Cα原子的单位向量,b是C端的C原子到Cα原子的单位向量,R是N端的Cα原子到C端的Cα原子的向量;
5.2.10)选取Δq最小的一个片段,并用该片段的扭转角替换个体x′i中的扭转角,生成变异分体x″i;
5.3)进行如下的选择操作:
5.3.1)根据Rosetta score3函数计算个体x″i的能量;
5.3.2)判断E(x″i)是否小于E(xi),如果E(x″i)<E(xi),则变异个体x″i替换个体xi,并作为下一代的目标个体,执行步骤6),否则执行步骤5.3.3);
5.3.4)产生一个0到1的随机数rand,如果pe>rand,则变异个体x″i替换个体xi,并作为下一代的目标个体,否则个体xi被保留,并作为下一代的目标个体;
6)对种群中的每一个个体都执行完步骤5)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤5)。
本实施例序列长度为82的α折叠蛋白质4uex为实施例,一种基于局部结构比对的蛋白质构象空间优化方法,包括以下步骤:
1)给定输入序列信息;
2)选取Rosetta score3能量函数E(x),根据ROBETTA获得片段库;
3)参数初始化:设置种群规模Ps=100,迭代计数器g=0,最大遗传代数Gmax=200,初始种群搜索轨迹长度N=5000,温度因子KT=2,片段长度m=3,参数n=25;
4)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
5)对每个目标个体xi,i∈{i=1,2,...,Ps}进行如下操作:
5.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
5.1.1)根据Rosetta score3函数分别计算个体xi和xj的能量E(xi)和E(xj);
5.1.2)如果E(xj)<E(xi),则执行步骤5.1.3)和5.1.4),否则x′i=xi,转至步骤5.2);
5.1.3)产生一个随机整数r1∈[3,10]作为交叉片段长度,接着随机产生一个交叉起始位置r2∈[1,l-r1],进而确定出交叉区域[r1,r1+r2],其中l为序列长度;
5.1.4)在交叉区域[r1,r1+r2]内,用个体xj的扭转角度依次替换个体xi中对应的扭转角,生成交叉个体x′i;
5.2)对个体x′i进行基于片段结构的变异操作:
5.2.2)选取结构比对向量:在片段结构中,a是N端的N原子到Cα原子的单位向量,b是C端的C原子到Cα原子的单位向量,R是N端的Cα原子到C端的Cα原子的向量;
5.2.10)选取Δq最小的一个片段,并用该片段的扭转角替换个体x′i中的扭转角,生成变异分体x″i;
5.3)进行如下的选择操作:
5.3.1)根据Rosetta score3函数计算个体x″i的能量;
5.3.2)判断E(x″i)是否小于E(xi),如果E(x″i)<E(xi),则变异个体x″i替换个体xi,并作为下一代的目标个体,执行步骤6),否则执行步骤5.3.3);
5.3.4)产生一个0到1的随机数rand,如果pe>rand,则变异个体x″i替换个体xi,并作为下一代的目标个体,否则个体xi被保留,并作为下一代的目标个体;
6)对种群中的每一个个体都执行完步骤5)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤5)。
以上说明是本发明以4uex蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于局部结构比对的蛋白质构象空间优化方法,其特征在于,所述方法包括以下步骤:
1)给定输入序列信息;
2)选取Rosetta score3能量函数E(x),根据ROBETTA获得片段库;
3)参数初始化:设置种群规模Ps,迭代计数器g,最大遗传代数Gmax,初始种群搜索轨迹长度N,温度因子KT,片段长度m,参数n;
4)初始化种群:启动Ps条Monte Carlo轨迹,每条轨迹搜索N次,即生成Ps个初始个体;
5)对每个目标个体xi,i∈{i=1,2,...,Ps}进行如下操作:
5.1)随机选择一个个体xj,j∈{1,2,...,Ps}且j≠i,进行交叉操作:
5.1.1)根据Rosetta score3函数分别计算个体xi和xj的能量E(xi)和E(xj);
5.1.2)如果E(xj)<E(xi),则执行步骤5.1.3)和5.1.4),否则x′i=xi,转至步骤5.2);
5.1.3)产生一个随机整数r1∈[3,10]作为交叉片段长度,接着随机产生一个交叉起始位置r2∈[1,l-r1],进而确定出交叉区域[r1,r1+r2],其中l为序列长度;
5.1.4)在交叉区域[r1,r1+r2]内,用个体xj的扭转角度依次替换个体xi中对应的扭转角,生成交叉个体x′i;
5.2)对个体x′i进行基于片段结构的变异操作:
5.2.2)选取结构比对向量:在片段结构中,a是N端的N原子到Cα原子的单位向量,b是C端的C原子到Cα原子的单位向量,R是N端的Cα原子到C端的Cα原子的向量;
5.2.10)选取Δq最小的一个片段,并用该片段的扭转角替换个体x′i中的扭转角,生成变异分体x″i;
5.3)进行如下的选择操作:
5.3.1)根据Rosetta score3函数计算个体x″i的能量;
5.3.2)判断E(x″i)是否小于E(xi),如果E(x″i)<E(xi),则变异个体x″i替换个体xi,并作为下一代的目标个体,执行步骤6),否则执行步骤5.3.3);
5.3.4)产生一个0到1的随机数rand,如果pe>rand,则变异个体x″i替换个体xi,并作为下一代的目标个体,否则个体xi被保留,并作为下一代的目标个体;
6)对种群中的每一个个体都执行完步骤5)以后,迭代次数g=g+1,判断g是否大于Gmax,若g>Gmax,则停止迭代并退出,否则返回步骤5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810993748.4A CN109390035B (zh) | 2018-08-29 | 2018-08-29 | 一种基于局部结构比对的蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810993748.4A CN109390035B (zh) | 2018-08-29 | 2018-08-29 | 一种基于局部结构比对的蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109390035A CN109390035A (zh) | 2019-02-26 |
CN109390035B true CN109390035B (zh) | 2021-04-06 |
Family
ID=65417657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810993748.4A Active CN109390035B (zh) | 2018-08-29 | 2018-08-29 | 一种基于局部结构比对的蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109390035B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024102773A1 (en) * | 2022-11-07 | 2024-05-16 | The Regents Of The University Of California | Riboswitch prediction and screening assays |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101647022A (zh) * | 2007-01-31 | 2010-02-10 | 桑迪亚医药技术(上海)有限责任公司 | 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置 |
CN103077226A (zh) * | 2012-12-31 | 2013-05-01 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107145764A (zh) * | 2017-03-14 | 2017-09-08 | 浙江工业大学 | 一种双重分布估计引导的蛋白质构象空间搜索方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN107633159A (zh) * | 2017-08-21 | 2018-01-26 | 浙江工业大学 | 一种基于距离相似度的蛋白质构象空间搜索方法 |
-
2018
- 2018-08-29 CN CN201810993748.4A patent/CN109390035B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101647022A (zh) * | 2007-01-31 | 2010-02-10 | 桑迪亚医药技术(上海)有限责任公司 | 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置 |
CN103077226A (zh) * | 2012-12-31 | 2013-05-01 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN106778059A (zh) * | 2016-12-19 | 2017-05-31 | 浙江工业大学 | 一种基于Rosetta局部增强的群体蛋白质结构预测方法 |
CN107145764A (zh) * | 2017-03-14 | 2017-09-08 | 浙江工业大学 | 一种双重分布估计引导的蛋白质构象空间搜索方法 |
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN107633159A (zh) * | 2017-08-21 | 2018-01-26 | 浙江工业大学 | 一种基于距离相似度的蛋白质构象空间搜索方法 |
Non-Patent Citations (1)
Title |
---|
Enhancing Protein Conformational Space Sampling Using Distance Profile-Guided Differential Evolution;Gui-Jun Zhang et al.;《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》;20171231;第14卷(第6期);第1288-1301页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109390035A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
CN107633157B (zh) | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 | |
CN106650305B (zh) | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 | |
CN107633159B (zh) | 一种基于距离相似度的蛋白质构象空间搜索方法 | |
CN113593634B (zh) | 一种融合dna形状特征的转录因子结合位点预测方法 | |
CN109215732B (zh) | 一种基于残基接触信息自学习的蛋白质结构预测方法 | |
CN109360599B (zh) | 一种基于残基接触信息交叉策略的蛋白质结构预测方法 | |
CN106055920B (zh) | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 | |
CN109215733B (zh) | 一种基于残基接触信息辅助评价的蛋白质结构预测方法 | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
Bernard et al. | State-of-the-RNArt: benchmarking current methods for RNA 3D structure prediction | |
Zhang et al. | Two-stage distance feature-based optimization algorithm for de novo protein structure prediction | |
Li et al. | Identification of protein methylation sites by coupling improved ant colony optimization algorithm and support vector machine | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
Zhou et al. | Accurate and definite mutational effect prediction with lightweight equivariant graph neural networks | |
CN109360597B (zh) | 一种基于全局和局部策略协作的群体蛋白质结构预测方法 | |
CN108920894B (zh) | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 | |
CN108595910B (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109360598B (zh) | 一种基于两阶段采样的蛋白质结构预测方法 | |
CN109300506B (zh) | 一种基于特定距离约束的蛋白质结构预测方法 | |
CN109033753B (zh) | 一种基于二级结构片段组装的群体蛋白质结构预测方法 | |
CN111951885B (zh) | 一种基于局部有偏的蛋白质结构预测方法 | |
CN112967751A (zh) | 一种基于进化搜索的蛋白质构象空间优化方法 | |
CN109448785B (zh) | 一种使用拉氏图增强Loop区域结构的蛋白质结构预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |