CN109326319B - 一种基于二级结构知识的蛋白质构象空间优化方法 - Google Patents
一种基于二级结构知识的蛋白质构象空间优化方法 Download PDFInfo
- Publication number
- CN109326319B CN109326319B CN201810986056.7A CN201810986056A CN109326319B CN 109326319 B CN109326319 B CN 109326319B CN 201810986056 A CN201810986056 A CN 201810986056A CN 109326319 B CN109326319 B CN 109326319B
- Authority
- CN
- China
- Prior art keywords
- individual
- secondary structure
- psize
- target
- individuals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 239000012634 fragment Substances 0.000 claims abstract description 14
- 230000002068 genetic effect Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 8
- 239000004576 sand Substances 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000455 protein structure prediction Methods 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于二级结构知识的蛋白质构象空间优化方法,在遗传算法的基本框架下,对每个目标个体完成基于loop区域的交叉和基于片段组装的变异;然后,根据预测的二级结构知识和能量函数对目标个体和变异个体分别进行评价;最后,根据每个个体的二级结构得分与能量总得分进行排序,选出适应度较高的个体进入下一代种群。本发明提出一种预测精度高、计算代价低的基于二级结构知识的蛋白质构象空间优化方法。
Description
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于二级结构知识的蛋白质构象空间优化方法。
背景技术
蛋白质是一种由氨基酸分子组成的有机化合物,是生命体的重要组成部分和生命活动的主要执行者。研究表明,一个蛋白质所具有的特定的生化功能通常由其三维结构所决定。因此,预测蛋白质三维结构是现代生物学研究多方面的基石。
蛋白质的氨基酸序列决定三级结构。在计算生物学领域,通过计算机来预测蛋白质结构的方法根据其序列的同源性可分为两大类:基于模板的建模和从头预测。一般来讲,对于序列相似度较高的情况,基于模板的预测精度已经很高。列相似度<30%的蛋白来说,从头预测方法是唯一的选择。通过从头预测方法建立蛋白结构模型,即直接基于Anfinsen法则建立蛋白质能量模型,然后,再通过构象搜索优化方法得到目标蛋白的天然结构已经成为蛋白质结构预测领域的一个热点问题。
蛋白质构象空间优化的本质复杂性,使其成为蛋白质从头预测领域中一个极具挑战性的研究课题。目前主要的技术瓶颈在于两个方面,一方面在于现有技术的采样能力不足;另一方面由于能量函数不精确,所以在获得能量最优的构象时,并不能挑选出好的构象。考虑到计算代价问题,近十年来研究者陆续提出了一系列基于物理的力场模型、基于知识的力场模型。然而,我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场,导致数学上的最优解并不一定对应于目标蛋白的天然态结构,从而阻碍了高性能算法在蛋白质结构从头预测领域中的应用。
因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法中能量函数不精确、预测精度较低的不足,本发明提出一种采样效率较高、预测精度高的基于二级结构知识的蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于二级结构知识的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息;
3)选取能量函数E(x);
4)参数初始化:设置种群规模Psize,最大遗传代数Gmax,初始种群搜索轨迹长度iter,交叉因子CR,变异计数器Co,最大计数值Comax,二级结构和能量的权重ws和we;
5)初始化种群:启动Psize条Monte Carlo轨迹,每条轨迹搜索iter次,即生成Psize个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Psize}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Psize}且j≠i,若r≤CR则对个体xi和xj进行如下操作,否则x′i=xi转至步骤6.2),其中r∈[0,1]是随机数;
6.1.1)在个体xj中,随机选择一个loop区域[a,b],其中a是随机选取的loop区域对应的起点位置,b是终止位置;
6.1.2)用个体xj中[a,b]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.2.1)对个体x′i进行片段组装生成,并利用Monte Carlo机制判断是否接收该片段的插入,如果接受则组装后的构象被记为变异个体x″i,转至步骤6.3),否则转至步骤6.2.2);
6.2.2)更新变异计数器,即Co=Co+1;若Co<Comax则返回步骤6.2.1);否则对个体x′i进行片段组装直接生成变异个体x″i,并设置Co=0;
6.3)如果i=Psize则执行步骤7)进行选择操作,否则转至步骤6.1)对下一个个体进行交叉和变异;
7)对每个目标个体xi,i∈{i=1,.2..,Psize}和变异个体x″i,i∈{i=1,.2..,Psize}进行如下操作:
7.1)根据预测的二级结构知识和能量函数计算目标个体xi的得分,过程如下:
7.1.3)根据能量函数计算出目标个体xi的能量为Ei;
7.1.4)根据公式SEi=ws·Si+we·Ei计算目标个体xi的总得分,其中ws和we是二级结构与能量的权重;
7.2)根据预测的二级结构知识和能量函数计算目标个体x″i的得分,过程如下:
7.2.3)根据能量函数计算出变异个体x″i的能量为E″i;
7.2.4)根据公式SE″i=ws·S″i+we·E″i计算变异个体x″i的总得分;
7.3)根据目标个体xi,i∈{i=1,.2..,Psize}和变异个体x″i,i∈{i=1,.2..,Psize}的得分SEi,i∈{i=1,.2..,Psize}和SE″i,i∈{i=1,.2..,Psize}对所有的个体进行排名,选出得分最低的前Psize个个体进入下一代,并作为下一代的父代个体;
8)判断是否达到最大迭代代数Gmax,若达到最大迭代代数,则输出结果,否则转至步骤6)。
本发明的技术构思为:在遗传算法的基本框架下,对每个目标个体完成基于loop区域的交叉和基于片段组装的变异;然后,根据预测的二级结构知识和能量函数对目标个体和变异个体分别进行评价;最后,根据每个个体的二级结构得分与能量总得分进行排序,选出适应度较高的个体进入下一代种群。
本发明的有益效果表现在:一方面通过预测的的二级结构信息指导种群更新,降低了由于能量函数不精确带来的误差,进而大大提高了预测精度;另一方面,通过个体间loop区域的信息交互,有效地加快了收敛速度。
附图说明
图1是基于二级结构知识的蛋白质构象空间优化方法的基本流程图。
图2是基于二级结构知识的蛋白质构象空间优化方法对蛋白质1vcc进行结构预测时的构象更新示意图。
图3是基于二级结构知识的蛋白质构象空间优化方法对蛋白质1vcc进行结构预测得到的三维结构图。
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于二级结构知识的蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息;
3)选取能量函数E(x);
4)参数初始化:设置种群规模Psize,最大遗传代数Gmax,初始种群搜索轨迹长度iter,交叉因子CR,变异计数器Co,最大计数值Comax,二级结构和能量的权重ws和we;
5)初始化种群:启动Psize条Monte Carlo轨迹,每条轨迹搜索iter次,即生成Psize个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Psize}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Psize}且j≠i,若r≤CR则对个体xi和xj进行如下操作,否则x′i=xi转至步骤6.2),其中r∈[0,1]是随机数;
6.1.1)在个体xj中,随机选择一个loop区域[a,b],其中a是随机选取的loop区域对应的起点位置,b是终止位置;
6.1.2)用个体xj中[a,b]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.2.1)对个体x′i进行片段组装生成,并利用Monte Carlo机制判断是否接收该片段的插入,如果接受则组装后的构象被记为变异个体x″i,转至步骤6.3),否则转至步骤6.2.2);
6.2.2)更新变异计数器,即Co=Co+1;若Co<Comax则返回步骤6.2.1);否则对个体x′i进行片段组装直接生成变异个体x″i,并设置Co=0;
6.3)如果i=Psize则执行步骤7)进行选择操作,否则转至步骤6.1)对下一个个体进行交叉和变异;
7)对每个目标个体xi,i∈{i=1,.2..,Psize}和变异个体x″i,i∈{i=1,.2..,Psize}进行如下操作:
7.1)根据预测的二级结构知识和能量函数计算目标个体xi的得分,过程如下:
7.1.3)根据能量函数计算出目标个体xi的能量为Ei;
7.1.4)根据公式SEi=ws·Si+we·Ei计算目标个体xi的总得分,其中ws和we是二级结构与能量的权重;
7.2)根据预测的二级结构知识和能量函数计算目标个体x″i的得分,过程如下:
7.2.3)根据能量函数计算出变异个体x″i的能量为E″i;
7.2.4)根据公式SE″i=ws·S″i+we·E″i计算变异个体x″i的总得分;
7.3)根据目标个体xi,i∈{i=1,.2..,Psize}和变异个体x″i,i∈{i=1,.2..,Psize}的得分SEi,i∈{i=1,.2..,Psize}和SE″i,i∈{i=1,.2..,Psize}对所有的个体进行排名,选出得分最低的前Psize个个体进入下一代,并作为下一代的父代个体;
8)判断是否达到最大迭代代数Gmax,若达到最大迭代代数,则输出结果,否则转至步骤6)。
本实施例序列长度为77的α/β折叠蛋白质1vcc为实施例,一种基于二级结构知识的蛋白质构象空间优化方法,其中包含以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息;
3)选取能量函数E(x);
4)参数初始化:设置种群规模Psize=100,最大遗传代数Gmax=200,初始种群搜索轨迹长度iter=2000,交叉因子CR=0.1,变异计数器Co=0,最大计数值Comax=150,二级结构和能量的权重ws=1和we=0.5;
5)初始化种群:启动Psize条Monte Carlo轨迹,每条轨迹搜索iter次,即生成Psize个初始个体;
6)对每个目标个体xi,i∈{i=1,.2..,Psize}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Psize}且j≠i,若r≤CR则对个体xi和xj进行如下操作,否则x′i=xi转至步骤6.2),其中r∈[0,1]是随机数;
6.1.1)在个体xj中,随机选择一个loop区域[a,b],其中a是随机选取的loop区域对应的起点位置,b是终止位置;
6.1.2)用个体xj中[a,b]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.2.1)对个体x′i进行片段组装生成,并利用Monte Carlo机制判断是否接收该片段的插入,如果接受则组装后的构象被记为变异个体x″i,转至步骤6.3),否则转至步骤6.2.2);
6.2.2)更新变异计数器,即Co=Co+1;若Co<Comax则返回步骤6.2.1);否则对个体x′i进行片段组装直接生成变异个体x″i,并设置Co=0;
6.3)如果i=Psize则执行步骤7)进行选择操作,否则转至步骤6.1)对下一个个体进行交叉和变异;
7)对每个目标个体xi,i∈{i=1,.2..,Psize}和变异个体x″i,i∈{i=1,.2..,Psize}进行如下操作:
7.1)根据预测的二级结构知识和能量函数计算目标个体xi的得分,过程如下:
7.1.3)根据能量函数计算出目标个体xi的能量为Ei;
7.1.4)根据公式SEi=ws·Si+we·Ei计算目标个体xi的总得分,其中ws和we是二级结构与能量的权重;
7.2)根据预测的二级结构知识和能量函数计算目标个体x″i的得分,过程如下:
7.2.3)根据能量函数计算出变异个体x″i的能量为E″i;
7.2.4)根据公式SE″i=ws·S″i+we·E″i计算变异个体x″i的总得分;
7.3)根据目标个体xi,i∈{i=1,.2..,Psize}和变异个体x″i,i∈{i=1,.2..,Psize}的得分SEi,i∈{i=1,.2..,Psize}和SE″i,i∈{i=1,.2..,Psize}对所有的个体进行排名,选出得分最低的前Psize个个体进入下一代,并作为下一代的父代个体;
8)判断是否达到最大迭代代数Gmax,若达到最大迭代代数,则输出结果,否则转至步骤6)。
以上说明是本发明以1vcc蛋白质为实例所得出的优化效果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
Claims (1)
1.一种基于二级结构知识的蛋白质构象空间优化方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息;
2)利用PSIPRED平台预测目标蛋白的二级结构信息;
3)选取能量函数E(x);
4)参数初始化:设置种群规模Psize,最大遗传代数Gmax,初始种群搜索轨迹长度iter,交叉因子CR,变异计数器Co,最大计数值Comax,二级结构和能量的权重ws和we;
5)初始化种群:启动Psize条Monte Carlo轨迹,每条轨迹搜索iter次,即生成Psize个初始个体;
6)对每个目标个体xi,i∈{i=1,2,. ..,Psize}进行如下操作:
6.1)随机选择一个个体xj,j∈{1,2,...,Psize}且j≠i,若r≤CR则对个体xi和xj进行如下操作,否则x′i=xi转至步骤6.2),其中r∈[0,1]是随机数;
6.1.1)在个体xj中,随机选择一个loop区域[a,b],其中a是随机选取的loop区域对应的起点位置,b是终止位置;
6.1.2)用个体xj中[a,b]区域的扭转角度依次替换个体xi中对应区域的扭转角,生成交叉个体x′i;
6.2)对个体x′i进行如下的变异操作:
6.2.1)对个体x′i进行片段组装生成,并利用Monte Carlo机制判断是否接收该片段的插入,如果接受则组装后的构象被记为变异个体x″i,转至步骤6.3),否则转至步骤6.2.2);
6.2.2)更新变异计数器,即Co=Co+1;若Co<Comax则返回步骤6.2.1);
否则对个体x′i进行片段组装直接生成变异个体x″i,并设置Co=0;
6.3)如果i=Psize则执行步骤7)进行选择操作,否则转至步骤6.1)对下一个个体进行交叉和变异;
7)对每个目标个体xi,i∈{i=1,2,. ..,Psize}和变异个体x″i,i∈{i=1,2,. ..,Psize}进行如下操作:
7.1)根据预测的二级结构知识和能量函数计算目标个体xi的得分,过程如下:
7.1.3)根据能量函数计算出目标个体xi的能量为Ei;
7.1.4)根据公式SEi=ws·Si+we·Ei计算目标个体xi的总得分,其中ws和we是二级结构与能量的权重;
7.2)根据预测的二级结构知识和能量函数计算目标个体x″i的得分,过程如下:
7.2.3)根据能量函数计算出变异个体x″i的能量为E″i;
7.2.4)根据公式SE″i=ws·S″i+we·E″i计算变异个体x″i的总得分;
7.3)根据目标个体xi,i∈{i=1,2,. ..,Psize}和变异个体x″i,i∈{i=1,2,. ..,Psize}的得分SEi,i∈{i=1,2,. ..,Psize}和SE″i,i∈{i=1,2,. ..,Psize}对所有的个体进行排名,选出得分最低的前Psize个个体进入下一代,并作为下一代的父代个体;
8)判断是否达到最大迭代代数Gmax,若达到最大迭代代数,则输出结果,否则转至步骤6)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810986056.7A CN109326319B (zh) | 2018-08-28 | 2018-08-28 | 一种基于二级结构知识的蛋白质构象空间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810986056.7A CN109326319B (zh) | 2018-08-28 | 2018-08-28 | 一种基于二级结构知识的蛋白质构象空间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326319A CN109326319A (zh) | 2019-02-12 |
CN109326319B true CN109326319B (zh) | 2021-05-18 |
Family
ID=65264006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810986056.7A Active CN109326319B (zh) | 2018-08-28 | 2018-08-28 | 一种基于二级结构知识的蛋白质构象空间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326319B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189794B (zh) * | 2019-04-16 | 2021-01-01 | 浙江工业大学 | 一种残基接触引导loop扰动的群体蛋白质结构预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN108334746A (zh) * | 2018-01-15 | 2018-07-27 | 浙江工业大学 | 一种基于二级结构相似度的蛋白质结构预测方法 |
-
2018
- 2018-08-28 CN CN201810986056.7A patent/CN109326319B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609342A (zh) * | 2017-08-11 | 2018-01-19 | 浙江工业大学 | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 |
CN108334746A (zh) * | 2018-01-15 | 2018-07-27 | 浙江工业大学 | 一种基于二级结构相似度的蛋白质结构预测方法 |
Non-Patent Citations (3)
Title |
---|
《Prediction of protein structure》;David Shortle;《MAGAZINE》;20000115;第10卷(第2期);全文 * |
《Protein Structure Prediction Using Rosetta》;Deandre Q. Baynham等;《Methods in Enzymology》;20041231;第383卷;全文 * |
《protein structure prediction》;Haiyou Deng;《Translated from Acta Physica Sinica (物理学报)》;20171211;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109326319A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609342B (zh) | 一种基于二级结构空间距离约束的蛋白质构象搜索方法 | |
CN110148437B (zh) | 一种残基接触辅助策略自适应的蛋白质结构预测方法 | |
CN101329699B (zh) | 基于支持向量机的药物分子药代动力学性质和毒性预测方法 | |
Zhou et al. | RNA Secondary Structure Prediction Using Transformer-Based Deep Learning Models | |
CN109086566B (zh) | 一种基于片段重采样的群体蛋白质结构预测方法 | |
CN115132270A (zh) | 药物筛选方法及系统 | |
CN109326319B (zh) | 一种基于二级结构知识的蛋白质构象空间优化方法 | |
CN106096326A (zh) | 一种基于质心变异策略的差分进化蛋白质结构预测方法 | |
CN110610763A (zh) | 基于katz模型的代谢物与疾病关联关系预测方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
Bernard et al. | State-of-the-RNArt: benchmarking current methods for RNA 3D structure prediction | |
CN113539364A (zh) | 一种深度神经网络框架预测蛋白质磷酸化的方法 | |
CN111951885B (zh) | 一种基于局部有偏的蛋白质结构预测方法 | |
CN108920894B (zh) | 一种基于简约抽象凸估计的蛋白质构象空间优化方法 | |
CN109300505B (zh) | 一种基于有偏采样的蛋白质结构预测方法 | |
CN109360598B (zh) | 一种基于两阶段采样的蛋白质结构预测方法 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
CN114819151A (zh) | 基于改进代理辅助混洗蛙跳算法的生化路径规划方法 | |
Sato et al. | A non-parametric Bayesian approach for predicting RNA secondary structures | |
CN109243526B (zh) | 一种基于特定片段交叉的蛋白质结构预测方法 | |
CN109390035B (zh) | 一种基于局部结构比对的蛋白质构象空间优化方法 | |
CN109448786B (zh) | 一种下界估计动态策略蛋白质结构预测方法 | |
CN109461471B (zh) | 一种基于锦标赛机制的自适应蛋白质结构预测方法 | |
CN109326320B (zh) | 一种系综构象选择策略自适应的蛋白质结构预测方法 | |
CN103514382A (zh) | 一种蛋白质侧链预测方法及预测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |