CN106372456A - 一种基于深度学习Residue2vec的蛋白质结构预测方法 - Google Patents

一种基于深度学习Residue2vec的蛋白质结构预测方法 Download PDF

Info

Publication number
CN106372456A
CN106372456A CN201610735964.XA CN201610735964A CN106372456A CN 106372456 A CN106372456 A CN 106372456A CN 201610735964 A CN201610735964 A CN 201610735964A CN 106372456 A CN106372456 A CN 106372456A
Authority
CN
China
Prior art keywords
residue
conformation
energy
fragment
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610735964.XA
Other languages
English (en)
Other versions
CN106372456B (zh
Inventor
张贵军
俞旭锋
周晓根
郝小虎
王柳静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610735964.XA priority Critical patent/CN106372456B/zh
Publication of CN106372456A publication Critical patent/CN106372456A/zh
Application granted granted Critical
Publication of CN106372456B publication Critical patent/CN106372456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度学习Residue2vec的蛋白质结构预测方法,给定输入序列信息,将PDB网站上已知的蛋白质结构看成语料库进行训练,将结构已知的蛋白质分割成长度为n的残基,通过CBOW模型结合Huffman编码,获取每个残基在向量空间中的表示,通过计算残基向量之间的距离来判断残基间的相似性,从而获取查询序列每个残基位置上的前N个片段结构,构成了Residue2vec的片段库;然后对查询序列进行随机折叠构成初始构象;之后随机选取其中一个长度为n的残基,与片段库中的片段进行二面角的替换;进而比较能量,若能量减小则接收构象,若能量增大则以Metropolis准则接收构象,通过不断迭代最终获得亚稳态构象。本发明查询序列中匹配度较高、预测精度较高。

Description

一种基于深度学习Residue2vec的蛋白质结构预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于深度学习Residue2vec的蛋白质结构预测方法。
背景技术
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。
蛋白质结构从头预测方法需要解决两个基本问题:(1)构建适当的能量模型来计算蛋白质内不同原子之间的相互作用;(2)发展有效算法来寻找构象空间能量的全局极小值。早期的研究重点关注发展有效算法搜索构象空间,来确定体系势能曲面的全局极小点,而随着氨基酸序列的增长,蛋白质分子体系自由度增大,在全原子力场模型上的构象空间优化成为一个极具挑战的问题。
蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。基于物理和知识的能量模型存在一个重要问题,其捕获相邻残基间微小相互作用的能力有限。而这些微小的相互作用,主宰者蛋白质局部结构的扭转倾向。通过基于物理和知识的能量模型计算局部相互作用,可能会导致误差的积累,因而很大程度上降低获得近天然态构象的可能性。通过对PDB数据库中已知局部构象的采样,利用片段进行替换,相当于将模建的蛋白质结构从一个局部能量极小转换成另一个局部能量极小,而不用克服局部能量壁垒,一方面见笑了搜索空间,另一方面提高了计算速度。
当前有以下几种比较成功的从头预测方法:张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。
因此,如何构建查询序列中匹配度较高的片段库成为了亟待解决的关键问题。
发明内容
为了克服现有的蛋白质结构预测方法的查询序列中匹配度较低、预测精度较低的不足,本发明构建匹配度较高的片段库,基于自然语言处理(NLP)中词向量的思想,本发明提出一种查询序列中匹配度较高、预测精度较高的基于深度学习Residue2vec的蛋白质结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习Residue2vec的蛋白质结构预测方法,所述预测方法包括以下步骤:
1)给定输入序列信息;
2)构建模板库中的残基向量:
2.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质,其中为距离单位,米;去除相似度大于预设阈值的冗余多肽链,得到非冗余蛋白质模板库;
2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n的残基;
2.3)通过CBOW模型结合Huffman编码,在神经网络中对残基模型进行建模,同时也获得残基在向量空间中的表示;
2.4)针对查询序列中每个位置上的残基,通过残基向量计算距离来判断残基间的相似性;
2.5)选取与查询序列每个残基位置上距离最近的前N个残基,构建了查询序列的片段库;
3)初始化:最大迭代次数iteration,能量函数选用Rosetta Score3,温度为T,玻尔兹曼常数为k;
4)开始迭代,设置i=1:
4.1)通过Rosetta Score3能量函数计算构象能量为E1,随机选取构象中某一位置上长度为n的残基,随机从片段库中选一个残基片段将其替换;
4.2)计算片段替换后的残基能量E2,比较E1和E2,若E2<E1,则接收组装后的新构象,若E2>E1,则根据概率:P=e-△E/(kT)接收构象,其中e为自然常数,△E=E2-E1
4.3)若构象在连续的预设次数迭代中均未改变时,则提高温度T来改变接收概率,当构象再次被接收时,温度恢复至初始值;
5)i=i+1,并判断i是否大于设定的最大迭代次数iteration,如果不满足则转至4.1);如果满足,则输出结果。
本发明的技术构思为:基于自然语言处理中word2vec的思想,将查询序列看成输入文本,将PDB网站上已知的蛋白质结构看成语料库进行训练,将结构已知的蛋白质分割成长度为n的残基,通过CBOW模型结合Huffman编码,获取每个残基在向量空间中的表示,通过计算残基向量之间的距离来判断残基间的相似性,从而获取查询序列每个残基位置上的前N个片段结构,构成了Residue2vec的片段库。然后对查询序列进行随机折叠构成初始构象;之后随机选取其中一个长度为n的残基,与片段库中的片段进行二面角的替换;进而比较能量,若能量减小则接收构象,若能量增大则以Metropolis准则接收构象,通过不断迭代最终获得亚稳态构象。
本发明的有益效果为:构建匹配度较高的片段库,基于自然语言处理(NLP)中词向量的思想,查询序列中匹配度较高,预测精度较高。
附图说明:
图1是测试序列3GWL在种群更新过程中RMSD和能量值的关系示意图。
图2是测试序列3GWL预测结构与实验室测定结构的三维构象示意图。
具体实施方式:
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于深度学习Residue2vec的蛋白质结构预测方法,所述构象空间优化方法包括以下步骤:
1)给定输入序列信息;
2)构建模板库中的残基向量:
2.1)从蛋白质数据库(PDB)网站上下载分辨率小于的高精度蛋白质,其中为距离单位,米;去除相似度大于预设阈值(例如30%)的冗余多肽链,得到非冗余蛋白质模板库;
2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n的残基;
2.3)通过CBOW模型结合Huffman编码,在神经网络中对残基模型进行建模,同时也获得残基在向量空间中的表示;
2.4)针对查询序列中每个位置上的残基,通过残基向量计算距离来判断残基间的相似性;
2.5)选取与查询序列每个残基位置上距离最近的前N个残基,构建了查询序列的片段库;
3)初始化:最大迭代次数iteration,能量函数选用Rosetta Score3,温度为T,玻尔兹曼常数为k;
4)开始迭代,设置i=1:
4.1)通过Rosetta Score3能量函数计算构象能量为E1,随机选取构象中某一位置上长度为n的残基,随机从片段库中选一个残基片段将其替换;
4.2)计算片段替换后的残基能量E2,比较E1和E2,若E2<E1,则接收组装后的新构象,若E2>E1,则根据概率:P=e-△E/(kT)接收构象,其中e为自然常数,△E=E2-E1
4.3)若构象在连续的预设次数(例如150次)次迭代中均未改变时,则提高温度T来改变接收概率,当构象再次被接收时,温度恢复至初始值;
5)i=i+1,并判断i是否大于设定的最大迭代次数iteration,如果不满足则转至4.1);如果满足,则输出结果。
本实施例以序列长度为135的蛋白质3GWL为实施例,一种基于深度学习Residue2vec的蛋白质结构预测方法,其中包含以下步骤:
1)给定输入序列信息;
2)构建模板库中的残基向量:
2.1)从蛋白质数据库(PDB)网站上下载分辨率小于的高精度蛋白质,其中为距离单位,米;去除相似度大于30%的冗余多肽链,得到非冗余蛋白质模板库;
2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n=3的残基;
2.3)通过CBOW模型结合Huffman编码,在神经网络中对残基模型进行建模,同时也获得残基在向量空间中的表示;
2.4)针对查询序列中每个位置上的残基,通过残基向量计算距离来判断残基间的相似性;
2.5)选取与查询序列每个残基位置上距离最近的前N=200个残基,构建了查询序列的片段库;
3)初始化:最大迭代次数iteration=10000,能量函数选用Rosetta Score3,温度为T,玻尔兹曼常数为k;
4)开始迭代,设置i=1:
4.1)通过Rosetta Score3能量函数计算构象能量为E1,随机选取构象中某一位置上长度为n的残基,随机从片段库中选一个残基片段将其替换;
4.2)计算片段替换后的残基能量E2,比较E1和E2,若E2<E1,则接收组装后的新构象,若E2>E1,则根据概率:P=e-△E/(kT)接收构象,其中e为自然常数,△E=E2-E1
4.3)若构象在连续的150次迭代中均未改变时,则提高温度T来改变接收概率,当构象再次被接收时,温度恢复至初始值;
5)i=i+1,并判断i是否大于设定的最大迭代次数iteration,如果不满足则转至4.1);如果满足,则输出结果。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于深度学习Residue2vec的蛋白质结构预测方法,其特征在于:所述优化方法包括以下步骤:
1)给定输入序列信息;
2)构建模板库中的残基向量:
2.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质,其中为距离单位,米;去除相似度大于预设阈值的冗余多肽链,得到非冗余蛋白质模板库;
2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n的残基;
2.3)通过CBOW模型结合Huffman编码,在神经网络中对残基模型进行建模,同时也获得残基在向量空间中的表示;
2.4)针对查询序列中每个位置上的残基,通过残基向量计算距离来判断残基间的相似性;
2.5)选取与查询序列每个残基位置上距离最近的前N个残基,构建了查询序列的片段库;
3)初始化:最大迭代次数iteration,能量函数选用Rosetta Score3,温度为T,玻尔兹曼常数为k;
4)开始迭代,设置i=1:
4.1)通过Rosetta Score3能量函数计算构象能量为E1,随机选取构象中某一位置上长度为n的残基,随机从片段库中选一个残基片段将其替换;
4.2)计算片段替换后的残基能量E2,比较E1和E2,若E2<E1,则接收组装后的新构象,若E2>E1,则根据概率:P=e-△E/(kT)接收构象,其中e为自然常数,△E=E2-E1
4.3)若构象在连续的预设次数迭代中均未改变时,则提高温度T来改变接收概率,当构象再次被接收时,温度恢复至初始值;
5)i=i+1,并判断i是否大于设定的最大迭代次数iteration,如果不满足则转至4.1);如果满足,则输出结果。
CN201610735964.XA 2016-08-26 2016-08-26 一种基于深度学习的蛋白质结构预测方法 Active CN106372456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610735964.XA CN106372456B (zh) 2016-08-26 2016-08-26 一种基于深度学习的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610735964.XA CN106372456B (zh) 2016-08-26 2016-08-26 一种基于深度学习的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN106372456A true CN106372456A (zh) 2017-02-01
CN106372456B CN106372456B (zh) 2019-01-22

Family

ID=57904352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610735964.XA Active CN106372456B (zh) 2016-08-26 2016-08-26 一种基于深度学习的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN106372456B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742061A (zh) * 2017-09-19 2018-02-27 中山大学 一种蛋白质相互作用预测方法、系统和装置
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN109147868A (zh) * 2018-07-18 2019-01-04 深圳大学 蛋白质功能预测方法、装置、设备及存储介质
CN109300501A (zh) * 2018-09-20 2019-02-01 国家卫生计生委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
CN109390033A (zh) * 2018-08-29 2019-02-26 浙江工业大学 一种基于片段自适应选择的群体蛋白质结构预测方法
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法
CN110033822A (zh) * 2019-03-29 2019-07-19 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统
CN112585686A (zh) * 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060006584A (ko) * 2004-07-16 2006-01-19 아주대학교산학협력단 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법
US20070038379A1 (en) * 2000-03-23 2007-02-15 Nagarajan Vaidehi Method and apparatus for predicting structure of transmembrane proteins
CN103473482A (zh) * 2013-07-15 2013-12-25 浙江工业大学 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN105760710A (zh) * 2016-03-11 2016-07-13 浙江工业大学 一种基于两阶段差分进化算法的蛋白质结构预测方法
CN105808972A (zh) * 2016-03-11 2016-07-27 浙江工业大学 一种基于谱知识从局部到全局的蛋白质结构预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038379A1 (en) * 2000-03-23 2007-02-15 Nagarajan Vaidehi Method and apparatus for predicting structure of transmembrane proteins
KR20060006584A (ko) * 2004-07-16 2006-01-19 아주대학교산학협력단 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법
CN103473482A (zh) * 2013-07-15 2013-12-25 浙江工业大学 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN105760710A (zh) * 2016-03-11 2016-07-13 浙江工业大学 一种基于两阶段差分进化算法的蛋白质结构预测方法
CN105808972A (zh) * 2016-03-11 2016-07-27 浙江工业大学 一种基于谱知识从局部到全局的蛋白质结构预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUIJUN ZHANG ET AL: "A population-based conformational optimal algorithm using replica-exchange in ab-initio protein structure prediction", 《CONTROL AND DECISION CONFERENCE (CCDC)》 *
PIETRO DI LENA ET AL: "Divide and Conquer Strategies for Protein Structure Prediction", 《MATHEMATICAL APPROACHES TO POLYMER SEQUENCE ANALYSIS AND RELATED PROBLEMS》 *
张安胜等: "基于深度学习的蛋白质二级结构预测", 《计算机仿真》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742061A (zh) * 2017-09-19 2018-02-27 中山大学 一种蛋白质相互作用预测方法、系统和装置
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN109147868A (zh) * 2018-07-18 2019-01-04 深圳大学 蛋白质功能预测方法、装置、设备及存储介质
CN109390033A (zh) * 2018-08-29 2019-02-26 浙江工业大学 一种基于片段自适应选择的群体蛋白质结构预测方法
CN109390033B (zh) * 2018-08-29 2020-10-30 浙江工业大学 一种基于片段自适应选择的群体蛋白质结构预测方法
CN109300501A (zh) * 2018-09-20 2019-02-01 国家卫生计生委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
CN109300501B (zh) * 2018-09-20 2021-02-02 国家卫生健康委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
CN112585686A (zh) * 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法
CN110033822A (zh) * 2019-03-29 2019-07-19 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统

Also Published As

Publication number Publication date
CN106372456B (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN106372456A (zh) 一种基于深度学习Residue2vec的蛋白质结构预测方法
JP7128346B2 (ja) 距離マップクロップを組み合わせることによってタンパク質距離マップを決定すること
Kim et al. Computational and artificial intelligence-based methods for antibody development
Senior et al. Protein structure prediction using multiple deep neural networks in the 13th Critical Assessment of Protein Structure Prediction (CASP13)
Jisna et al. Protein structure prediction: conventional and deep learning perspectives
CN112233723B (zh) 基于深度学习的蛋白质结构预测方法及系统
Ma et al. MRFalign: protein homology detection through alignment of Markov random fields
Zhang et al. TOUCHSTONE II: a new approach to ab initio protein structure prediction
Choo et al. Recent applications of hidden Markov models in computational biology
Stahl et al. EPSILON-CP: using deep learning to combine information from multiple sources for protein contact prediction
Qu et al. Improving protein secondary structure prediction using a multi-modal BP method
CN105468934A (zh) 一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法
JP2005004658A (ja) 変化点検出装置,変化点検出方法および変化点検出用プログラム
Yan et al. A systematic review of state-of-the-art strategies for machine learning-based protein function prediction
Zhou et al. TransVAE-DTA: Transformer and variational autoencoder network for drug-target binding affinity prediction
Zhang et al. iPromoter-CLA: identifying promoters and their strength by deep capsule networks with bidirectional long short-term memory
Habibi et al. LRC: A new algorithm for prediction of conformational B-cell epitopes using statistical approach and clustering method
Zhang et al. SPIN-CGNN: Improved fixed backbone protein design with contact map-based graph construction and contact graph neural network
Glembo et al. Union of geometric constraint-based simulations with molecular dynamics for protein structure prediction
CN109360600B (zh) 一种基于残基特征距离的蛋白质结构预测方法
Jiang et al. A latent eigenprobit model with link uncertainty for prediction of protein–protein interactions
Xu et al. Protein homology detection through alignment of markov random fields: using MRFalign
Meng et al. A Comprehensive Overview of Recent Advances in Generative Models for Antibodies
Xu et al. OdinDTA: Combining Mutual Attention and Pre-training for Drug-target Affinity Prediction
Nesterenko et al. Phyloformer: Fast, accurate and versatile phylogenetic reconstruction with deep neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant