CN107066834A - 一种基于粒子群优化算法的蛋白质结构从头预测方法 - Google Patents

一种基于粒子群优化算法的蛋白质结构从头预测方法 Download PDF

Info

Publication number
CN107066834A
CN107066834A CN201710177456.9A CN201710177456A CN107066834A CN 107066834 A CN107066834 A CN 107066834A CN 201710177456 A CN201710177456 A CN 201710177456A CN 107066834 A CN107066834 A CN 107066834A
Authority
CN
China
Prior art keywords
conformation
individual
energy
population
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710177456.9A
Other languages
English (en)
Other versions
CN107066834B (zh
Inventor
王晨彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710177456.9A priority Critical patent/CN107066834B/zh
Publication of CN107066834A publication Critical patent/CN107066834A/zh
Application granted granted Critical
Publication of CN107066834B publication Critical patent/CN107066834B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Abstract

一种基于粒子群优化算法的蛋白质结构从头预测方法,根据当前个体的二面角与历史最优个体的二面角的差值,以及当前个体的二面角与种群最优个体的二面角的差值引导下一代构象搜索,并利用片段组装进行随机扰动,提高了全局探测能力,加快了收敛速度,降低了计算代价。本发明提供了一种预测精度高、计算代价低的基于粒子群优化算法的蛋白质结构从头预测方法。

Description

一种基于粒子群优化算法的蛋白质结构从头预测方法
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于粒子群优化算法的蛋白质结构从头预测方法。
背景技术
蛋白质是所有生物中最重要的大分子之一,一个细胞的干重的一半以上是蛋白质。蛋白质是由单一的肽键连接在一起的氨基酸的顺序链,这些连接的链折叠成能体现它们功能的三维结构,并调节生物体中的细胞活动,以保持生命。蛋白质分子在分子水平上具体体现了蛋白质结构和功能之间的显著关系。蛋白质在生物学中有许多不同的功能。蛋白质的三维天然结构决定它的生物学机制,而反过来,蛋白质氨基酸单体的一维链又对它的天然结构进行编码。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有决定性的重要,因此,蛋白质结构预测是一个重要的研究问题。
蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等,这些方法被广泛用于蛋白质结构测定。X射线晶体学被认为是这些方法中相对可行且准确的测定方法之一。然而,X射线晶体学需要进行一个复杂的结晶过程,而对于一些不易结晶的蛋白(如膜蛋白),此方法无法用于结构测定。此外,这些实验测定方法极其耗时,代价昂贵,而且容易发生错误。
Anfinsen热力学假说表明:蛋白质的空间结构由氨基酸序列唯一确定;蛋白质的空间结构是稳定的;蛋白质的天然构象处于自由能最低点。根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。在上世纪文献中,通常将预测方法划分为以下三类:针对高相似序列的同源建模方法;针对较低相似性序列的折叠识别方法;以及不依赖模板的从头预测方法。从头预测方法直接基于Anfinsen假说建立蛋白质物理或知识能量模型,然后设计适当优化算法求解最小能量构象。一方面,从生物学意义上来讲,有助于揭示蛋白质折叠机理,进而能够最终阐明生物学中心法则中的第二遗传密码理论部分;另一方面,从现实意义来讲,该方法具有普遍性,对于序列相似度<20%或寡肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。
目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。因此,现有的构象空间搜索方法存在不足,需要改进。
发明内容
为了克服现有的蛋白质结构预测方法在预测精度和计算代价方面的不足,本发明提供一种基于粒子群优化算法的蛋白质结构从头预测方法。根据当前个体的二面角与历史最优个体的二面角的差值,以及当前个体的二面角与种群最优个体的二面角的差值引导下一代构象搜索,并利用片段组装进行随机扰动,提高了全局探测能力,加快了收敛速度,降低了计算代价。
本发明解决其技术问题所采用的技术方案是:
一种基于粒子群优化算法的蛋白质结构从头预测方法,所述方法包括以下步骤:
1)选取Rosetta Score3作为蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)参数初始化:设置粒子群规模NP、惯性权重ω、加速度加速度和最大迭代次数Gmax;
4)用二面角对表示蛋白质构象Ci(G),其中,L为蛋白序列长度,表示第G代种群中第i个个体的第j个二面角对,为便于描述,将其记为其中表示构象Ci(G)的第k维分量,k∈{1,...,2L};
5)构象初始化:根据给定输入序列,生成NP个伸展链构象,作为初始粒子群P={C1(G),C2(G),...,CNP(G)},令G=0;
6)对粒子群中的构象Ci(G)依次进行L次片段组装,用E(X)计算新生成构象的能量值,并将当前构象作为个体Ci(G)的历史最优构象 表示pbest i的第k维分量,k∈{1,2,...,2L},选取当前粒子群中能量最低构象作为粒子群全局最优构象gbest={Y1,Y2,...,Yk,...,Y2L},Yk表示gbest的第k维分量,k∈{1,2,...,2L};
7)对粒子群中的每个个体迭代的执行下述步骤:
7.1)根据计算构象的各个残基二面角增量其中ω是惯性权重因子,是加速度常数,均为非负值。rand(0,a1)和rand(0,a2)为[0,a1]、[0,a2]范围内具有均匀分布的随机数,a1与a2为控制参数,表示第G代种群中第i个个体的第k维分量,k∈{1,2,...,2L};
7.2)更新构象:根据计算每个构象的各个残基二面角;
7.3)采用片段组装对生成的个体执行随机扰动;
7.4)根据E(X)计算新生成构象的能量,并与其历史最优个体的能量进行比较,若能量降低,则更新个体Ci(G)的历史最优个体pbest i
7.5)新生成的构象能量与全局最优个体gbest的能量进行比较,若能量降低,则用当前个体替换gbest
8)判断是否满足终止条件:
8.1)若G=Gmax,则输出结果并退出;
8.2)若G<Gmax,则令G=G+1,返回步骤7)。
本发明的技术构思为:根据当前个体的二面角与历史最优个体的二面角的差值,以及当前个体的二面角与种群最优个体的二面角的差值引导下一代构象搜索,并利用片段组装进行随机扰动,提高了全局探测能力,加快了收敛速度,降低了计算代价。
本发明的有益效果为:本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
附图说明
图1是基于粒子群优化算法的蛋白质结构从头预测方法对目标蛋白质1ACF预测结构和实验室测定结构的三维示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于粒子群优化算法的蛋白质结构从头预测方法,包括以下步骤:
1)选取Rosetta Score3作为蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)参数初始化:设置粒子群规模NP、惯性权重ω、加速度加速度和最大迭代次数Gmax;
4)用二面角对表示蛋白质构象Ci(G),
其中,L为蛋白序列长度,表示第G代种群中第i个个体的第j个二面角对,为便于描述,将其记为其中表示构象Ci(G)的第k维分量,k∈{1,...,2L};
5)构象初始化:根据给定输入序列,生成NP个伸展链构象,作为初始粒子群P={C1(G),C2(G),...,CNP(G)},令G=0;
6)对粒子群中的构象Ci(G)依次进行L次片段组装,用E(X)计算新生成构象的能量值,并将当前构象作为个体Ci(G)的历史最优构象 表示pbest i的第k维分量,k∈{1,2,...,2L},选取当前粒子群中能量最低构象作为粒子群全局最优构象gbest={Y1,Y2,...,Yk,...,Y2L},Yk表示gbest的第k维分量,k∈{1,2,...,2L};
7)对粒子群中的每个个体迭代的执行下述步骤:
7.1)根据计算构象的各个残基二面角增量其中ω是惯性权重因子,是加速度常数,均为非负值。rand(0,a1)和rand(0,a2)为[0,a1]、[0,a2]范围内具有均匀分布的随机数,a1与a2为控制参数,表示第G代种群中第i个个体的第k维分量,k∈{1,2,...,2L};
7.2)更新构象:根据计算每个构象的各个残基二面角;
7.3)采用片段组装对生成的个体执行随机扰动;
7.4)根据E(X)计算新生成构象的能量,并与其历史最优个体的能量进行比较,若能量降低,则更新个体Ci(G)的历史最优个体pbest i
7.5)新生成的构象能量与全局最优个体gbest的能量进行比较,若能量降低,则用当前个体替换gbest
8)判断是否满足终止条件:
8.1)若G=Gmax,则输出结果并退出;
8.2)若G<Gmax,则令G=G+1,返回步骤7)。
本实施例以目标蛋白质1ACF为实施例,一种基于粒子群优化算法的蛋白质结构从头预测方法,所述方法包括以下步骤:
1)选取Rosetta Score3作为蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)参数初始化:设置粒子群规模NP=100、惯性权重ω=1.0、加速度加速度和最大迭代次数Gmax=100000;
4)用二面角对表示蛋白质构象Ci(G),
其中,L=125为蛋白序列长度,表示第G代种群中第i个个体的第j个二面角对,为便于描述,将其记为其中表示构象Ci(G)的第k维分量,k∈{1,...,2L};
5)构象初始化:根据给定输入序列,生成NP个伸展链构象,作为初始粒子群P={C1(G),C2(G),...,CNP(G)},令G=0;
6)对粒子群中的构象Ci(G)依次进行L次片段组装,用E(X)计算新生成构象的能量值,并将当前构象作为个体Ci(G)的历史最优构象 表示pbest i的第k维分量,k∈{1,2,...,2L},选取当前粒子群中能量最低构象作为粒子群全局最优构象gbest={Y1,Y2,...,Yk,...,Y2L},Yk表示gbest的第k维分量,k∈{1,2,...,2L};
7)对粒子群中的每个个体迭代的执行下述步骤:
7.6)根据计算构象的各个残基二面角增量其中ω是惯性权重因子,是加速度常数,均为非负值。rand(0,a1)和rand(0,a2)为[0,a1]、[0,a2]范围内具有均匀分布的随机数,a1=1与a2=1为控制参数,表示第G代种群中第i个个体的第k维分量,k∈{1,2,...,2L};
7.7)更新构象:根据计算每个构象的各个残基二面角;
7.8)采用片段组装对生成的个体执行随机扰动;
7.9)根据E(X)计算新生成构象的能量,并与其历史最优个体的能量进行比较,若能量降低,则更新个体Ci(G)的历史最优个体pbest i
7.10)新生成的构象能量与全局最优个体gbest的能量进行比较,若能量降低,则用当前个体替换gbest
8)判断是否满足终止条件:
8.3)若G=Gmax,则输出结果并退出;
8.4)若G<Gmax,则令G=G+1,返回步骤7)。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于粒子群优化算法的蛋白质结构从头预测方法,其特征在于:所述蛋白质结构从头预测方法包括以下步骤:
1)选取Rosetta Score3作为蛋白质力场模型,即能量函数E(X);
2)给定输入序列信息;
3)参数初始化:设置粒子群规模NP、惯性权重ω、加速度加速度和最大迭代次数Gmax;
4)用二面角对表示蛋白质构象Ci(G),其中,L为蛋白序列长度,表示第G代种群中第i个个体的第j个二面角对,为便于描述,将其记为其中表示构象Ci(G)的第k维分量,k∈{1,...,2L};
5)构象初始化:根据给定输入序列,生成NP个伸展链构象,作为初始粒子群P={C1(G),C2(G),...,CNP(G)},令G=0;
6)对粒子群中的构象Ci(G)依次进行L次片段组装,用E(X)计算新生成构象的能量值,并将当前构象作为个体Ci(G)的历史最优构象 表示pbest i的第k维分量,k∈{1,2,...,2L},选取当前粒子群中能量最低构象作为粒子群全局最优构象gbest={Y1,Y2,...,Yk,...,Y2L},Yk表示gbest的第k维分量,k∈{1,2,...,2L};
7)对粒子群中的每个个体迭代的执行下述步骤:
7.1)根据计算构象的各个残基二面角增量其中ω是惯性权重因子,是加速度常数,均为非负值。rand(0,a1)和rand(0,a2)为[0,a1]、[0,a2]范围内具有均匀分布的随机数,a1与a2为控制参数,表示第G代种群中第i个个体的第k维分量,k∈{1,2,...,2L};
7.2)更新构象:根据计算每个构象的各个残基二面角;
7.3)采用片段组装对生成的个体执行随机扰动;
7.4)根据E(X)计算新生成构象的能量,并与其历史最优个体的能量进行比较,若能量降低,则更新个体Ci(G)的历史最优个体pbest i
7.5)新生成的构象能量与全局最优个体gbest的能量进行比较,若能量降低,则用当前个体替换gbest
8)判断是否满足终止条件:
8.1)若G=Gmax,则输出结果并退出;
8.2)若G<Gmax,则令G=G+1,返回步骤7)。
CN201710177456.9A 2017-03-23 2017-03-23 一种基于粒子群优化算法的蛋白质结构从头预测方法 Expired - Fee Related CN107066834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710177456.9A CN107066834B (zh) 2017-03-23 2017-03-23 一种基于粒子群优化算法的蛋白质结构从头预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710177456.9A CN107066834B (zh) 2017-03-23 2017-03-23 一种基于粒子群优化算法的蛋白质结构从头预测方法

Publications (2)

Publication Number Publication Date
CN107066834A true CN107066834A (zh) 2017-08-18
CN107066834B CN107066834B (zh) 2019-05-31

Family

ID=59620404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710177456.9A Expired - Fee Related CN107066834B (zh) 2017-03-23 2017-03-23 一种基于粒子群优化算法的蛋白质结构从头预测方法

Country Status (1)

Country Link
CN (1) CN107066834B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609345A (zh) * 2017-08-29 2018-01-19 浙江工业大学 一种基于模板自适应选择的多域蛋白结构组装方法
CN113035268A (zh) * 2021-04-09 2021-06-25 上海交通大学 基于多目标分解优化策略的蛋白质结构优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096326A (zh) * 2016-06-02 2016-11-09 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN106503486A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
CN106503484A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096326A (zh) * 2016-06-02 2016-11-09 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN106503486A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
CN106503484A (zh) * 2016-09-23 2017-03-15 浙江工业大学 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG LIU ET AL.: "AN IMPROVED PARTICLE SWARM OPTIMIZATION AND ITS APPLICATION IN LONG-TERM STREAMFLOW FORECAST", 《PROCEEDINGS OF THE FOURTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 *
周文刚 等: "基于并行粒子群优化算法的蛋白质二级结构预测", 《周口师范学院学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609345A (zh) * 2017-08-29 2018-01-19 浙江工业大学 一种基于模板自适应选择的多域蛋白结构组装方法
CN113035268A (zh) * 2021-04-09 2021-06-25 上海交通大学 基于多目标分解优化策略的蛋白质结构优化方法

Also Published As

Publication number Publication date
CN107066834B (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
Issa et al. ASCA-PSO: Adaptive sine cosine optimization algorithm integrated with particle swarm for pairwise local sequence alignment
CN106503484B (zh) 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法
CN103413067B (zh) 一种基于抽象凸下界估计的蛋白质结构预测方法
WO2023134063A1 (zh) 基于对比学习的药物分子性质预测方法、装置及设备
CN107609342A (zh) 一种基于二级结构空间距离约束的蛋白质构象搜索方法
CN105930688A (zh) 基于改进pso算法的蛋白质功能模块检测方法
CN106096326A (zh) 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN107066834A (zh) 一种基于粒子群优化算法的蛋白质结构从头预测方法
CN107506613A (zh) 一种基于复合结构特征的多模态蛋白质构象空间优化方法
CN109215732A (zh) 一种基于残基接触信息自学习的蛋白质结构预测方法
CN106503486B (zh) 一种基于多阶段子群协同进化策略的差分进化蛋白质结构从头预测方法
Xavier et al. A Distributed Tree-based Ensemble Learning Approach for Efficient Structure Prediction of Protein.
CN109360599A (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
CN110689918B (zh) 蛋白质三级结构的预测方法及系统
CN102915407A (zh) 基于混沌蜂群算法的蛋白质三维结构预测方法
CN109215733B (zh) 一种基于残基接触信息辅助评价的蛋白质结构预测方法
CN101645169B (zh) 基于量子以及量子微粒群算法的机器人视觉匹配方法
CN109360601A (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
Xu et al. An improvement of loop closure detection based on bow for ratslam
CN108920894B (zh) 一种基于简约抽象凸估计的蛋白质构象空间优化方法
CN107229840A (zh) 一种基于菌群优化算法的蛋白质结构从头预测方法
Yu et al. Application of CMAC and FPGA to a twin rotor MIMO system
Li et al. Artificial bee colony algorithm for the protein structure prediction based on the toy model
Liao et al. A novel quantum-inspired genetic algorithm with expanded solution space
Lipinski-Paes et al. MASTERS: A general sequence-based MultiAgent System for protein TERtiary Structure prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190531

Termination date: 20200323

CF01 Termination of patent right due to non-payment of annual fee