CN107085674A - 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法 - Google Patents

一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法 Download PDF

Info

Publication number
CN107085674A
CN107085674A CN201710148960.6A CN201710148960A CN107085674A CN 107085674 A CN107085674 A CN 107085674A CN 201710148960 A CN201710148960 A CN 201710148960A CN 107085674 A CN107085674 A CN 107085674A
Authority
CN
China
Prior art keywords
individual
conformation
subgroup
space
attraction degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710148960.6A
Other languages
English (en)
Inventor
张贵军
郝小虎
王小奇
周晓根
王柳静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710148960.6A priority Critical patent/CN107085674A/zh
Publication of CN107085674A publication Critical patent/CN107085674A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法,包括以下步骤:在基本萤火虫算法框架下,采用粗粒度能量模型来有效降低构象空间维数,利用萤火虫算法的群体特性来保证蛋白质构象的多样性,采用片段组装技术对构象群体进行初始化,依据蛋白质构象的粗粒度表达模型,以一组二面角表示构象在空间中的位置,采用能量排名来确定最强发光个体,选取排名前十的萤火虫个体作为模态中心,并计算他们对其余个体的吸引度来更新构象的位置,纳入吸引度最高的模态,吸引度指标根据两个萤火虫个体的空间距离和相似度计算得到,最终在构象空间中搜索得到一系列能量较低的近天然态构象。本发明提供了一种预测精度较高、复杂度较低的构象空间优化方法。

Description

一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法。
背景技术
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、基因表达数据分析、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些有效的结构能量函数,如简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。
因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
发明内容
为了克服现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,本发明提供一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法:在基本萤火虫算法框架下,采用粗粒度能量模型来有效降低构象空间维数,利用萤火虫算法的群体特性来保证蛋白质构象的多样性,采用片段组装技术对构象群体进行初始化,依据蛋白质构象的粗粒度表达模型,以一组二面角表示构象在空间中的位置,采用能量排名来确定最强发光个体,选取排名前十的萤火虫个体作为模态中心,并计算他们对其余个体的吸引度来更新构象的位置,纳入吸引度最高的模态,吸引度指标根据两个萤火虫个体的空间距离和相似度计算得到,最终在构象空间中搜索得到一系列能量较低的近天然态构象。
本发明解决其技术问题所采用的技术方案是:
一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法,所述方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置群体规模popSize、子种群数目Nsub、子群规模上限Nsup、迭代次数generation、光强吸引因子γ和位置更新步长因子α;
3)群体构象初始化:根据给定输入序列,随机生成popSize个个体,对群体中的每个个体做length次片段组装,并计算其荧光亮度Io,其中length为序列长度,Io=-E(p)=RosettaScore3(p),E为通过RosettaScore3能量函数计算得到的蛋白质构象能量值,p表示单个构象;
4)对步骤3)中计算得到的荧光亮度从大到小排序,令荧光亮度最大的前Nsub个体为pg i,i∈[0,Nsub];
5)开始迭代:
5.1)划分子群:对群体中剩余的popSize-Nsub个个体,分别计算pg i对它们的吸引度βi,并将其划入吸引度最大的pg i所在的子群中,并判断子群PSpg i中个体数目Nnum,若Nnum=Nsup,则不再计算pg i对其他个体的吸引度;
5.2)对每个子群中的每个个体,根据xk i(t+1)=xk i(t)+βi(xg i(t)–xk i(t))+α(rand–0.5)更新每个个体在空间中的位置,其中xk i(t+1),xk i(t)表示第i个子群中第k个个体pk i更新后的位置和当前的位置,xg i(t)表示个体pg i的当前位置,其中β0为最大吸引度因子,rgk表示个体pk i与pg i之间的距离,rmsdgk为个体pk i与pg i之间的相似度,rand为0到1之间的随机数,个体位置xk i(t)表示为 其中ψj为输入序列的氨基酸残基的二面角,j∈[1,length–L+1],L为片段长度;
5.3)种群个体随机摆动:对群体中的每个个体进行L次随机片段组装;
5.4)重新计算每个个体的荧光亮度,更新pg i
6)判断是否达到最大迭代次数generation;
6.1)若当前迭代次数小于generation,返回步骤5.1);
6.2)若当前迭代次数等于generation,结束。
本发明的技术构思为:在基本萤火虫算法框架下,采用粗粒度能量模型来有效降低构象空间维数,利用萤火虫算法的群体特性来保证蛋白质构象的多样性,采用片段组装技术对构象群体进行初始化,依据蛋白质构象的粗粒度表达模型,以一组二面角表示构象在空间中的位置,采用能量排名来确定最强发光个体,选取排名前十的萤火虫个体作为模态中心,并计算他们对其余个体的吸引度来更新构象的位置,纳入吸引度最高的模态,吸引度根据两个萤火虫个体的空间距离和相似度计算得到,最终在构象空间中搜索得到一系列能量较低的近天然态构象。
本发明的有益效果为:本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
附图说明
图1是预测得到的蛋白质2MRF的三维结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置群体规模popSize、子种群数目Nsub、子群规模上限Nsup、迭代次数generation、光强吸引因子γ和位置更新步长因子α;
3)群体构象初始化:根据给定输入序列,随机生成popSize个个体,对群体中的每个个体做length次片段组装,并计算其荧光亮度Io,其中length为序列长度,Io=-E(p)=RosettaScore3(p),E为通过RosettaScore3能量函数计算得到的蛋白质构象能量值,p表示单个构象;
4)对步骤3)中计算得到的荧光亮度从大到小排序,令荧光亮度最大的前Nsub个体为pg i,i∈[0,Nsub];
5)开始迭代:
5.5)划分子群:对群体中剩余的popSize-Nsub个个体,分别计算pg i对它们的吸引度βi,并将其划入吸引度最大的pg i所在的子群中,并判断子群PSpg i中个体数目Nnum,若Nnum=Nsup,则不再计算pg i对其他个体的吸引度;
5.6)对每个子群中的每个个体,根据xk i(t+1)=xk i(t)+βi(xg i(t)–xk i(t))+α(rand–0.5)更新每个个体在空间中的位置,其中xk i(t+1),xk i(t)表示第i个子群中第k个个体pk i更新后的位置和当前的位置,xg i(t)表示个体pg i的当前位置,其中β0为最大吸引度因子,rgk表示个体pk i与pg i之间的距离,rmsdgk为个体pk i与pg i之间的相似度,rand为0到1之间的随机数,个体位置xk i(t)表示为 其中ψj为输入序列的氨基酸残基的二面角,j∈[1,length–L+1],L为片段长度;
5.7)种群个体随机摆动:对群体中的每个个体进行L次随机片段组装;
5.8)重新计算每个个体的荧光亮度,更新pg i
6)判断是否达到最大迭代次数generation;
6.3)若当前迭代次数小于generation,返回步骤5.1);
6.4)若当前迭代次数等于generation,结束。
本实施例以蛋白质2MRF为实施例,一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法,包含以下步骤:
1)给定输入序列信息;
2)参数初始化:设置群体规模popSize=300、子种群数目Nsub=10、子群规模上限Nsup=60、迭代次数generation=100000、光强吸引因子γ=0.5和位置更新步长因子α=0.5;
3)群体构象初始化:根据给定输入序列,随机生成popSize个个体,对群体中的每个个体做length次片段组装,并计算其荧光亮度Io,其中length为序列长度,Io=-E(p)=RosettaScore3(p),E为通过RosettaScore3能量函数计算得到的蛋白质构象能量值,p表示单个构象;
4)对步骤3)中计算得到的荧光亮度从大到小排序,令荧光亮度最大的前Nsub个体为pg i,i∈[0,Nsub];
5)开始迭代:
5.9)划分子群:对群体中剩余的popSize-Nsub个个体,分别计算pg i对它们的吸引度βi,并将其划入吸引度最大的pg i所在的子群中,并判断子群PSpg i中个体数目Nnum,若Nnum=Nsup,则不再计算pg i对其他个体的吸引度;
5.10)对每个子群中的每个个体,根据xk i(t+1)=xk i(t)+βi(xg i(t)–xk i(t))+α(rand–0.5)更新每个个体在空间中的位置,其中xk i(t+1),xk i(t)表示第i个子群中第k个个体pk i更新后的位置和当前的位置,xg i(t)表示个体pg i的当前位置,其中β0为最大吸引度因子,rgk表示个体pk i与pg i之间的距离,rmsdgk为个体pk i与pg i之间的相似度,rand为0到1之间的随机数,个体位置xk i(t)表示为 其中ψj为输入序列的氨基酸残基的二面角,j∈[1,length–L+1],L为片段长度;
5.11)种群个体随机摆动:对群体中的每个个体进行L次随机片段组装;
5.12)重新计算每个个体的荧光亮度,更新pg i
6)判断是否达到最大迭代次数generation;
6.5)若当前迭代次数小于generation,返回步骤5.1);
6.6)若当前迭代次数等于generation,结束。
以蛋白质2MRF为实施例,运用以上方法得到了该蛋白质的最优构象解,如图1所示。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法,其特征在于:所述构象空间优化方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置群体规模popSize、子种群数目Nsub、子群规模上限Nsup、迭代次数generation、光强吸引因子γ和位置更新步长因子α;
3)群体构象初始化:根据给定输入序列,随机生成popSize个个体,对群体中的每个个体做length次片段组装,并计算其荧光亮度Io,其中length为序列长度,Io=-E(p)=RosettaScore3(p),E为通过RosettaScore3能量函数计算得到的蛋白质构象能量值,p表示单个构象;
4)对步骤3)中计算得到的荧光亮度从大到小排序,令荧光亮度最大的前Nsub个体为pg i,i∈[0,Nsub];
5)开始迭代:
5.1)划分子群:对群体中剩余的popSize-Nsub个个体,分别计算pg i对它们的吸引度βi,并将其划入吸引度最大的pg i所在的子群中,并判断子群PSpg i中个体数目Nnum,若Nnum=Nsup,则不再计算pg i对其他个体的吸引度;
5.2)对每个子群中的每个个体,根据xk i(t+1)=xk i(t)+βi(xg i(t)–xk i(t))+α(rand–0.5)更新每个个体在空间中的位置,其中xk i(t+1),xk i(t)表示第i个子群中第k个个体pk i更新后的位置和当前的位置,xg i(t)表示个体pg i的当前位置,其中β0为最大吸引度因子,rgk表示个体pk i与pg i之间的距离,rmsdgk为个体pk i与pg i之间的相似度,rand为0到1之间的随机数,个体位置xk i(t)表示为 其中为输入序列的氨基酸残基的二面角,j∈[1,length–L+1],L为片段长度;
5.3)种群个体随机摆动:对群体中的每个个体进行L次随机片段组装;
5.4)重新计算每个个体的荧光亮度,更新pg i
6)判断是否达到最大迭代次数generation;
6.1)若当前迭代次数小于generation,返回步骤5.1);
6.2)若当前迭代次数等于generation,结束。
CN201710148960.6A 2017-03-14 2017-03-14 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法 Pending CN107085674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710148960.6A CN107085674A (zh) 2017-03-14 2017-03-14 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710148960.6A CN107085674A (zh) 2017-03-14 2017-03-14 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法

Publications (1)

Publication Number Publication Date
CN107085674A true CN107085674A (zh) 2017-08-22

Family

ID=59615197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710148960.6A Pending CN107085674A (zh) 2017-03-14 2017-03-14 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法

Country Status (1)

Country Link
CN (1) CN107085674A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866733A (zh) * 2015-04-03 2015-08-26 浙江工业大学 一种基于副本交换的群体构象空间优化方法
CN105205348A (zh) * 2015-09-22 2015-12-30 浙江工业大学 一种基于距离约束选择策略的群体构象空间优化方法
CN106055920A (zh) * 2016-06-02 2016-10-26 浙江工业大学 一种基于阶段性多策略副本交换的蛋白质结构预测方法
CN106446604A (zh) * 2016-10-19 2017-02-22 浙江工业大学 一种基于萤火虫算法的蛋白质结构预测从头方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866733A (zh) * 2015-04-03 2015-08-26 浙江工业大学 一种基于副本交换的群体构象空间优化方法
CN105205348A (zh) * 2015-09-22 2015-12-30 浙江工业大学 一种基于距离约束选择策略的群体构象空间优化方法
CN106055920A (zh) * 2016-06-02 2016-10-26 浙江工业大学 一种基于阶段性多策略副本交换的蛋白质结构预测方法
CN106446604A (zh) * 2016-10-19 2017-02-22 浙江工业大学 一种基于萤火虫算法的蛋白质结构预测从头方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张玉丽 等: "基于种群和荧光素自然感应的萤火虫算法", 《大连交通大学学报》 *

Similar Documents

Publication Publication Date Title
US10162598B2 (en) Flash optimized columnar data layout and data access algorithms for big data query engines
Tran et al. Fast subgraph matching on large graphs using graphics processors
Nishimura et al. MD-HBase: A scalable multi-dimensional data infrastructure for location aware services
Sismanis et al. Parallel search of k-nearest neighbors with synchronous operations
US20200192880A1 (en) Optimal dynamic shard creation in storage for graph workloads
CN104866733B (zh) 一种基于副本交换的群体构象空间优化方法
US20240331228A1 (en) Systems, methods, and devices for image processing
CN104933327B (zh) 一种局部增强的差分进化蛋白质构象空间搜索方法
Zhang et al. A survey on graph neural network acceleration: Algorithms, systems, and customized hardware
CN110176272A (zh) 一种基于多序列联配信息的蛋白质二硫键预测方法
Cui et al. On efficient external-memory triangle listing
CN109360599A (zh) 一种基于残基接触信息交叉策略的蛋白质结构预测方法
Sarkar et al. Flowgnn: A dataflow architecture for universal graph neural network inference via multi-queue streaming
Gui et al. Fast triangle counting on GPU
CN107085674A (zh) 一种基于改进萤火虫算法的多模态蛋白质构象空间优化方法
Kolinski et al. A method for the prediction of surface “U”‐turns and transglobular connections in small proteins
CN106778057B (zh) 一种基于量子进化算法的蛋白质构象空间优化方法
CN117095740A (zh) 一种用于dti预测的端到端神经网络模型
Bouros et al. Evaluating reachability queries over path collections
Papadias et al. Space-efficient random walks on streaming graphs
CN106446604A (zh) 一种基于萤火虫算法的蛋白质结构预测从头方法
Yuan et al. Gcache: neighborhood-guided graph caching in a distributed environment
Lyu et al. Supergraph search in graph databases via hierarchical feature-tree
CN109378033B (zh) 一种基于转移熵的策略自适应蛋白质构象空间优化方法
Jin et al. MPPM: A mobile-efficient part model for object re-ID

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170822

RJ01 Rejection of invention patent application after publication