CN106778057B - 一种基于量子进化算法的蛋白质构象空间优化方法 - Google Patents

一种基于量子进化算法的蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN106778057B
CN106778057B CN201611003479.XA CN201611003479A CN106778057B CN 106778057 B CN106778057 B CN 106778057B CN 201611003479 A CN201611003479 A CN 201611003479A CN 106778057 B CN106778057 B CN 106778057B
Authority
CN
China
Prior art keywords
quantum
individual
population
size
enabled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611003479.XA
Other languages
English (en)
Other versions
CN106778057A (zh
Inventor
张贵军
郝小虎
周晓根
王柳静
李章维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201611003479.XA priority Critical patent/CN106778057B/zh
Publication of CN106778057A publication Critical patent/CN106778057A/zh
Application granted granted Critical
Publication of CN106778057B publication Critical patent/CN106778057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于量子进化算法的蛋白质构象空间优化方法,包括以下步骤:基于量子进化算法框架,以Rosetta Score3为优化目标函数,基于氨基酸序列粗粒度表达模型,将能量计算模型转换为二面角优化空间能量模型;采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码,通过片段组装执行量子变异操作,以提高预测精度,应用量子旋转门对种群个体进行量子更新,以达到局部调整角度的目的,通过迭代的进化过程,算法将产生能量较低,结构合理的蛋白质构象。本发明在蛋白质结构预测应用中能够,可以快速的得到预测精度较高构象。

Description

一种基于量子进化算法的蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于量子进化算法的蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。而蛋白质构象空间优化属于一类非常难解的NP-Hard问题,是制约着蛋白质结构从头预测方法预测精度的瓶颈问题。
因此,现有的构象空间优化方法存在采样效率及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的蛋白质构象优化方法的采样效率低、预测精度低的不足,本发明提出一种采样效率、预测精度较高的基于量子进化算法的蛋白质构象空间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于量子进化算法的蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定输入序列:
2)设置参数:种群规模pop_size;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种
群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi
βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i
为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinα,否则,取ζi=arccosβ;
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定;
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件,如果是,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
进一步,所述步骤2)中,设置迭代次数generation;所述步骤6)中,终止条件为当前迭代次数等于迭代次数generation:如果当前迭代次数小于generation,否则返回步骤5),否则转步骤7)。
本发明的技术构思为:基于量子进化算法框架,以Rosetta Score3为优化目标函数,基于氨基酸序列粗粒度表达模型,将能量计算模型转换为二面角优化空间能量模型;采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码,通过片段组装执行量子变异操作,以提高预测精度,应用量子旋转门对种群个体进行量子更新,以达到局部调整角度的目的,通过迭代的进化过程,算法将产生能量较低,结构合理的蛋白质构象。
本发明的有益效果为:采样效率和预测精度较高。
附图说明
图1是优化得到的1ENH蛋白质三维结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于量子进化算法的蛋白质构象空间优化方法,包括以下步骤:
1)给定输入序列:
2)设置参数:种群规模pop_size,迭代次数generation;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi,βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinα,否则,取ζi=arccosβ;
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定;
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件:如果是,即当前迭代次数小于generation,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
本实施例以PDB ID为1AIL的蛋白质为实施例,一种基于量子进化算法的蛋白质构象空间优化方法包括以下步骤:
1)给定输入序列1AIL:
2)设置参数:种群规模pop_size=30,迭代次数generation=10000;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi,βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;
4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinα,否则,取ζi=arccosβ;
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定,查找表规则如表1所示;
表1
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件:如果是,即当前迭代次数小于generation,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
以PDB ID为1AIL的蛋白质为实施例,运用以上方法得到了该蛋白质的近天然态构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于量子进化算法的蛋白质构象空间优化方法,其特征在于:所述构象空间优化方法包括以下步骤:
1)给定输入序列:
2)设置参数:种群规模pop_size;
3)种群初始化:根据给定的输入序列,生成pop_size个种群个体p,组成初始种群,表示为:需满足|αi|2+|βi|2=1,令αi=sinζi,βi=cosζi,其中ζ∈[-120°,120°]表示输入序列中氨基酸的二面角ψ,当i为奇数时当i为偶数时ζi=ψj,i,j为序号索引值,n为序列长度;
4)对初始种群中的每一个个体执行初始量子观测:
4.1)令i=1,i∈{1,2,3,…,2n};
4.2)在[0,1]上生成一个随机数rand;
4.3)比较|αi|2与rand的大小,若rand>|αi|2,则取ζi=arcsinαi,否则,取ζi=arccosβi
4.4)令i=i+1;
4.5)若i<2n,返回步骤4.2),否则转步骤4.6);
4.6)根据RosettaScore3能量函数计算当前个体的适应度E(p);
5)开始迭代,对种群中的每个个体做如下操作:
5.1)令k=1,其中k∈{1,2,…,pop_size},k为序号;
5.2)令ptarget=pk,ptarget为目标个体;
5.3)对ptarget执行L次片段组装,得到变异个体p′,其中L为片段长度;
5.4)根据RosettaScore3能量函数计算当前个体的适应度E(p′);
5.5)采用量子旋转门执行量子更新操作:p″表示经过量子更新后的个体,θi=s(αii)Δθi,θi是旋转角,s(αii)为旋转方向,θi根据预先设定的查找表规则确定;
5.6)判断E(p)与E(p″)的大小,若E(p)>E(p″),则用p″代替p,否则保留p;
5.7)令k=k+1;
5.8)若k<pop_size,返回步骤5.2),否则转步骤6);
6)判断是否满足终止条件,如果是,则返回步骤5);否则转步骤7);
7)迭代结束,输出优化后得到的构象。
2.如权利要求1所述的一种基于量子进化算法的蛋白质构象空间优化方法,其特征在于:所述步骤2)中,设置迭代次数generation;所述步骤6)中,终止条件为当前迭代次数等于迭代次数generation:如果当前迭代次数小于generation,否则返回步骤5),否则转步骤7)。
CN201611003479.XA 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法 Active CN106778057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611003479.XA CN106778057B (zh) 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611003479.XA CN106778057B (zh) 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法

Publications (2)

Publication Number Publication Date
CN106778057A CN106778057A (zh) 2017-05-31
CN106778057B true CN106778057B (zh) 2019-01-29

Family

ID=58968194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611003479.XA Active CN106778057B (zh) 2016-11-15 2016-11-15 一种基于量子进化算法的蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN106778057B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法
CN108009403A (zh) * 2017-11-24 2018-05-08 中国地质大学(武汉) 基于多源数据融合及多目标优化的蛋白质复合物识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270094A1 (en) * 2007-04-27 2008-10-30 Pratul Kumar Agarwal Fast computational methods for predicting protein structure from primary amino acid sequence
CN103065064A (zh) * 2012-12-27 2013-04-24 河海大学 一种大分子二面角相互作用受力的计算方法
CN103116712A (zh) * 2013-02-04 2013-05-22 南京信息工程大学 基于可变角距离qea算法的蛋白质hp模型求解方法
CN103413067A (zh) * 2013-07-30 2013-11-27 浙江工业大学 一种基于抽象凸下界估计的蛋白质结构预测方法
CN103473482A (zh) * 2013-07-15 2013-12-25 浙江工业大学 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN105787292A (zh) * 2014-12-18 2016-07-20 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270094A1 (en) * 2007-04-27 2008-10-30 Pratul Kumar Agarwal Fast computational methods for predicting protein structure from primary amino acid sequence
CN103065064A (zh) * 2012-12-27 2013-04-24 河海大学 一种大分子二面角相互作用受力的计算方法
CN103116712A (zh) * 2013-02-04 2013-05-22 南京信息工程大学 基于可变角距离qea算法的蛋白质hp模型求解方法
CN103473482A (zh) * 2013-07-15 2013-12-25 浙江工业大学 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN103413067A (zh) * 2013-07-30 2013-11-27 浙江工业大学 一种基于抽象凸下界估计的蛋白质结构预测方法
CN103714265A (zh) * 2013-12-23 2014-04-09 浙江工业大学 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN105787292A (zh) * 2014-12-18 2016-07-20 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一种基于片段组装的蛋白质构象空间优化算法》;郝小虎 等;;《计算机科学》;20150331;第42卷(第3期);第237-240页; *
《基于量子遗传算法的蛋白质折叠结构预测》;孙鹏飞 等;;《哈尔滨工程大学学报》;20100131;第31卷(第1期);第92-97页; *

Also Published As

Publication number Publication date
CN106778057A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN103413067B (zh) 一种基于抽象凸下界估计的蛋白质结构预测方法
Martelli et al. A sequence-profile-based HMM for predicting and discriminating beta barrel membrane proteins
Al-Madi et al. Parallel glowworm swarm optimization clustering algorithm based on MapReduce
Arram et al. Reconfigurable acceleration of short read mapping
CN104933327B (zh) 一种局部增强的差分进化蛋白质构象空间搜索方法
CN106778057B (zh) 一种基于量子进化算法的蛋白质构象空间优化方法
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
Huang et al. Protein structure prediction: challenges, advances, and the shift of research paradigms
Matsui et al. Pqk-means: Billion-scale clustering for product-quantized codes
Zhou et al. Hardware-aware graph neural network automated design for edge computing platforms
CN102915407A (zh) 基于混沌蜂群算法的蛋白质三维结构预测方法
Xin et al. Parallel architecture for DNA sequence inexact matching with Burrows-Wheeler Transform
Wang et al. CLePAPS: fast pair alignment of protein structures based on conformational letters
Dhulipala et al. Terahac: Hierarchical agglomerative clustering of trillion-edge graphs
CN106547890A (zh) 海量图像特征向量中的快速聚类预处理方法
Yang et al. Parallel implementation of ant-based clustering algorithm based on hadoop
Wang et al. K-means find density peaks in molecular conformation clustering
CN107066834B (zh) 一种基于粒子群优化算法的蛋白质结构从头预测方法
Ni et al. A novel ensemble pruning approach based on information exchange glowworm swarm optimization and complementarity measure
WO2023116816A1 (zh) 蛋白质序列比对方法、装置、服务器以及存储介质
CN113240089B (zh) 基于图检索引擎的图神经网络模型训练方法和装置
Lyu et al. Supergraph search in graph databases via hierarchical feature-tree
Li et al. Pushing collaborative data deduplication to the network edge: An optimization framework and system design
Cattaneo et al. Alignment-free sequence comparison over Hadoop for computational biology
Yin et al. DGCF: A Distributed Greedy Clustering Framework for Large-scale Genomic Sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant