CN106778057B - 一种基于量子进化算法的蛋白质构象空间优化方法 - Google Patents

一种基于量子进化算法的蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN106778057B
CN106778057B CN201611003479.XA CN201611003479A CN106778057B CN 106778057 B CN106778057 B CN 106778057B CN 201611003479 A CN201611003479 A CN 201611003479A CN 106778057 B CN106778057 B CN 106778057B
Authority
CN
China
Prior art keywords
quantum
individual
population
size
enabled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611003479.XA
Other languages
English (en)
Other versions
CN106778057A (zh
Inventor
张贵军
郝小虎
周晓根
王柳静
李章维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201611003479.XA priority Critical patent/CN106778057B/zh
Publication of CN106778057A publication Critical patent/CN106778057A/zh
Application granted granted Critical
Publication of CN106778057B publication Critical patent/CN106778057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于量子进化算法的蛋白质构象空间优化方法,包括以下步骤:基于量子进化算法框架,以Rosetta Score3为优化目标函数,基于氨基酸序列粗粒度表达模型,将能量计算模型转换为二面角优化空间能量模型;采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码,通过片段组装执行量子变异操作,以提高预测精度,应用量子旋转门对种群个体进行量子更新,以达到局部调整角度的目的,通过迭代的进化过程,算法将产生能量较低,结构合理的蛋白质构象。本发明在蛋白质结构预测应用中能够,可以快速的得到预测精度较高构象。

Description

一种基于量子进化算法的蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于量子进化算法的蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。而蛋白质构象空间优化属于一类非常难解的NP-Hard问题,是制约着蛋白质结构从头预测方法预测精度的瓶颈问题。
因此,现有的构象空间优化方法存在采样效率及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法的采样效率低、预测精度低的不足,本发明提出一种采样效率、预测精度较高的基于量子进化算法的蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于量子进化算法的蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定输入序列:
2)设置参数:种群规模pop_size;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种
群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi
βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i
为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinα,否则,取ζi=arccosβ;
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定;
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件,如果是,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
进一步,所述步骤2)中,设置迭代次数generation;所述步骤6)中,终止条件为当前迭代次数等于迭代次数generation:如果当前迭代次数小于generation,否则返回步骤5),否则转步骤7)。
本发明的技术构思为:基于量子进化算法框架,以Rosetta Score3为优化目标函数,基于氨基酸序列粗粒度表达模型,将能量计算模型转换为二面角优化空间能量模型;采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码,通过片段组装执行量子变异操作,以提高预测精度,应用量子旋转门对种群个体进行量子更新,以达到局部调整角度的目的,通过迭代的进化过程,算法将产生能量较低,结构合理的蛋白质构象。
本发明的有益效果为:采样效率和预测精度较高。
附图说明
图1是优化得到的1ENH蛋白质三维结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于量子进化算法的蛋白质构象空间优化方法,包括以下步骤:
1)给定输入序列:
2)设置参数:种群规模pop_size,迭代次数generation;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi,βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinα,否则,取ζi=arccosβ;
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定;
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件:如果是,即当前迭代次数小于generation,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
本实施例以PDB ID为1AIL的蛋白质为实施例,一种基于量子进化算法的蛋白质构象空间优化方法包括以下步骤:
1)给定输入序列1AIL:
2)设置参数:种群规模pop_size=30,迭代次数generation=10000;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi,βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;
4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinα,否则,取ζi=arccosβ;
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定,查找表规则如表1所示;
表1
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件:如果是,即当前迭代次数小于generation,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
以PDB ID为1AIL的蛋白质为实施例,运用以上方法得到了该蛋白质的近天然态构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于量子进化算法的蛋白质构象空间优化方法,其特征在于:所述构象空间优化方法包括以下步骤:
1)给定输入序列:
2)设置参数:种群规模pop_size;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi,βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;
4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinαi,否则,取ζi=arccosβi
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定;
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件,如果是,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
2.如权利要求1所述的一种基于量子进化算法的蛋白质构象空间优化方法,其特征在于:所述步骤2)中,设置迭代次数generation;所述步骤6)中,终止条件为当前迭代次数等于迭代次数generation:如果当前迭代次数小于generation,否则返回步骤5),否则转步骤7)。
CN201611003479.XA 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法 Active CN106778057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611003479.XA CN106778057B (zh) 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611003479.XA CN106778057B (zh) 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN106778057A CN106778057A (zh) 2017-05-31
CN106778057B true CN106778057B (zh) 2019-01-29

Family

ID=58968194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611003479.XA Active CN106778057B (zh) 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN106778057B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法
CN108009403A (zh) * 2017-11-24 2018-05-08 中国地质大学(武汉) 基于多源数据融合及多目标优化的蛋白质复合物识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270094A1 (en) * 2007-04-27 2008-10-30 Pratul Kumar Agarwal Fast computational methods for predicting protein structure from primary amino acid sequence
CN103065064A (zh) * 2012-12-27 2013-04-24 河海大学 一种大分子二面角相互作用受力的计算方法
CN103116712A (zh) * 2013-02-04 2013-05-22 南京信息工程大学 基于可变角距离qea算法的蛋白质hp模型求解方法
CN103413067A (zh) * 2013-07-30 2013-11-27 浙江工业大学 一种基于抽象凸下界估计的蛋白质结构预测方法
CN103473482A (zh) * 2013-07-15 2013-12-25 浙江工业大学 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN105787292A (zh) * 2014-12-18 2016-07-20 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270094A1 (en) * 2007-04-27 2008-10-30 Pratul Kumar Agarwal Fast computational methods for predicting protein structure from primary amino acid sequence
CN103065064A (zh) * 2012-12-27 2013-04-24 河海大学 一种大分子二面角相互作用受力的计算方法
CN103116712A (zh) * 2013-02-04 2013-05-22 南京信息工程大学 基于可变角距离qea算法的蛋白质hp模型求解方法
CN103473482A (zh) * 2013-07-15 2013-12-25 浙江工业大学 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN103413067A (zh) * 2013-07-30 2013-11-27 浙江工业大学 一种基于抽象凸下界估计的蛋白质结构预测方法
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN105787292A (zh) * 2014-12-18 2016-07-20 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一种基于片段组装的蛋白质构象空间优化算法》;郝小虎 等;;《计算机科学》;20150331;第42卷(第3期);第237-240页; *
《基于量子遗传算法的蛋白质折叠结构预测》;孙鹏飞 等;;《哈尔滨工程大学学报》;20100131;第31卷(第1期);第92-97页; *

Also Published As

Publication number Publication date
CN106778057A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
Martella et al. Spinner: Scalable graph partitioning in the cloud
Zheng et al. Protein structure prediction using deep learning distance and hydrogen‐bonding restraints in CASP14
Martelli et al. A sequence-profile-based HMM for predicting and discriminating beta barrel membrane proteins
CN107506613A (zh) 一种基于复合结构特征的多模态蛋白质构象空间优化方法
Al-Madi et al. Parallel glowworm swarm optimization clustering algorithm based on MapReduce
Liu et al. Resource-constrained federated edge learning with heterogeneous data: Formulation and analysis
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
CN103413067A (zh) 一种基于抽象凸下界估计的蛋白质结构预测方法
CN106778057B (zh) 一种基于量子进化算法的蛋白质构象空间优化方法
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
Zhou et al. Hardware-aware graph neural network automated design for edge computing platforms
Anagnostou et al. Approximate kNN classification for biomedical data
Zhang et al. Fast, approximate vector queries on very large unstructured datasets
CN104951670B (zh) 一种基于距离谱的群体构象空间优化方法
Yue et al. Routing-guided learned product quantization for graph-based approximate nearest neighbor search
Khan et al. BANG: Billion-Scale Approximate Nearest Neighbor Search using a Single GPU
CN107273842B (zh) 基于csjoga算法的选择性集成人脸识别方法
Meng et al. Blast-Parallel: The parallelizing implementation of sequence alignment algorithms based on Hadoop platform
Wang et al. K-means find density peaks in molecular conformation clustering
Yang et al. Parallel implementation of ant-based clustering algorithm based on hadoop
Deng et al. TASER: Temporal adaptive sampling for fast and accurate dynamic graph representation learning
CN109378033A (zh) 一种基于转移熵的策略自适应蛋白质构象空间优化方法
Zheng et al. Disentangled neural architecture search
Lyu et al. Supergraph search in graph databases via hierarchical feature-tree
Tan et al. Accelerating irregular computation in massive short reads mapping on FPGA co-processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant