CN115458039B - 基于机器学习的单序列蛋白结构预测的方法和系统 - Google Patents
基于机器学习的单序列蛋白结构预测的方法和系统 Download PDFInfo
- Publication number
- CN115458039B CN115458039B CN202210945251.1A CN202210945251A CN115458039B CN 115458039 B CN115458039 B CN 115458039B CN 202210945251 A CN202210945251 A CN 202210945251A CN 115458039 B CN115458039 B CN 115458039B
- Authority
- CN
- China
- Prior art keywords
- amino acid
- codes
- protein
- attention
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于生物信息学技术领域,提供基于机器学习的单序列蛋白结构预测的方法和系统。所述系统包括氨基酸编码模块、改进的Evoformer模块和结构生成模块。首先,基于氨基酸编码模块获得蛋白质氨基酸编码和序列对的初始编码,氨基酸编码模块中整合多预训练蛋白质语言模型;其次,基于改进的Evoformer模块对氨基酸编码和氨基酸对编码进行迭代更新;最后,结构生成模块基于更新后的氨基酸编码和氨基酸对编码预测蛋白质结构,并预测置信分数。本发明能仅基于蛋白质序列进行结构预测,不需同源序列搜索步骤,极大地提升蛋白质结构预测速度,同时可对孤儿蛋白等缺乏同源进化信息的蛋白质进行结构预测,有利于蛋白质结构预测的大规模应用。
Description
技术领域
本发明属于生物信息学技术领域,具体涉及基于机器学习的单序列蛋白结构预测的方法和系统。
背景技术
自2016年许锦波教授研发出RaptorX-Contact方法【Wang,S.,Sun,S.,Li,Z.,Zhang,R.&Xu,J.Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model.PLOS Computational Biology 13,e1005324(2017).】,开启AI蛋白质结构预测时代后,DeepMind、Meta等研究团队相继推出了AlphaFold2【Jumper,J.etal.Highly accurate protein structure prediction with AlphaFold.Nature 596,583–589(2021).】、ESMFold【Lin,Z.et al.Language models of protein sequences atthe scale of evolution enable accurate structure prediction.2022.07.20.500902Preprint at https://doi.org/10.1101/2022.07.20.500902(2022).】等AI蛋白质预测模型,AI在蛋白质结构预测领域的应用已如星星之火,掀起了燎原之势。许锦波在(https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005324,https://www.pnas.org/doi/full/10.1073/pnas.1821309116)两个工作中使用了AI+共进化信息+同源序列去预测蛋白质结构。2021年在Nature MachineIntelligence(https://www.nature.com/articles/s42256-021-00348-5)发表论文介绍不使用共进化信息,仅使用AI+同源序列来预测蛋白质结构的研究成果——在没有共进化信息的情况下,深度学习仍可以预测超过55%的自然界的蛋白质结构,以及几乎所有的人工设计的蛋白质结构以及很多复合物的结构。
在推动生物行业巨大进步的同时,基于AI的蛋白质结构预测算法始终存在一个重大局限,即高度依赖MSA(多重序列比对)及其衍生的共同进化信息和序列图谱来预测蛋白质结构,而无法对孤儿蛋白等缺乏同源进化信息的蛋白质进行结构预测。
众所周知,自然界中蛋白质是在不知道其同源序列及任何共进化信息的情况下折叠的。从理论上来说,对蛋白质结构的预测仅基于它的序列信息即可实现。不过目前的方法(比如RaptorX【Xu,J.Distance-based protein folding powered by deeplearning.PNAS116,16856–16865(2019).】、trRosetta【Yang,J.et al.Improved proteinstructure prediction using predicted interresidue orientations.Proceedings ofthe National Academy of Sciences 117,1496–1503(2020).】、AlphaFold【Jumper,J.etal.Highly accurate protein structure prediction with AlphaFold.Nature 596,583–589(2021).】、RoseTTAFold【Baek,M.et al.Accurate prediction of proteinstructures and interactions using a three-track neural network.Science 373,871–876(2021).】等)普遍需要提前搜索序列库,构建MSA才能进行结构预测。
这一固有路径存在两大局限:一是搜索蛋白质同源序列需要大量时间,随着技术的不断发展,序列数据库正在持续高速增长,时间和成本的投入巨大。比如,UniRef100目前有约3亿个序列,如果采用传统方法(RaptorX、trRosetta、AlphaFold、RoseTTAFold等),使用同源序列和共进化信息作为输入方式,需要的时间比人类数千年文明更长,且面临不可估量的算力成本。二是并非所有蛋白质都有足够多的同源序列,比如对于孤儿蛋白等小型蛋白质家族,基于MSA的预测方法始终表现不佳。
在此背景下,“不使用同源序列和共进化信息的AI蛋白质预测方法”在近两年成为了业界共同探索的新方向。Meta、哥伦比亚大学、南开大学等国内外企业和机构,都陆续发布了相关技术和论文。然而,目前的方法在速度、成本,以及孤儿蛋白结构预测上,仍然存在巨大的局限。
发明内容
有鉴于此,本发明人研发创造了一种独特的模型组合方式,首创性地提出了基于深度学习方法整合多个蛋白语言模型的单序列蛋白结构预测方法(称为RaptorX-Single)。该方法由氨基酸编码模块(整合多个蛋白质语言模型)、修改后的Evoformer模块和结构生成模块组成。蛋白质语言模型均为目前已公开的预训练模型,且可以支持同时用多个模型输入,可以直接从一级序列预测蛋白质结构,而无需明确使用同源序列,预测准确性高且使用方便。
本发明提供的一种基于机器学习的单序列蛋白结构预测的系统,由蛋白质语言模型、修改后的Evoformer模块和结构生成模块组成,氨基酸编码模块将蛋白质氨基酸序列转化为氨基酸编码以及氨基酸对编码;Evoformer通过注意力机制更新氨基酸编码以及氨基酸对编码;结构生成模块则根据更新的氨基酸编码预测蛋白质的三级结构。
在运行中,给定一个单独的蛋白质序列作为输入,编码模块通过利用三种蛋白质语言模型,生成输入序列的氨基酸氨基酸编码及氨基酸氨基酸对编码。因此,所述编码模块通过利用两种或以上蛋白质语言模型,优选的是利用ESM-1b、ESM-1v和ProtTrans这三种蛋白质语言模型,生成输入序列的氨基酸编码及氨基酸对编码;在编码模块中,输入序列的one-hot编码通过线性层生成初始氨基酸编码,然后以相加的方式结合来自蛋白质语言模型的氨基酸编码,生成新的氨基酸编码,最初的氨基酸对编码是通过两个维度的氨基酸编码(行和列)相加产生的,然后通过结合来自蛋白质语言模型的最后两层的注意力图来创建一个新的氨基酸对编码,氨基酸对编码中还添加了相对位置编码。
所述改进的Evoformer模块是由24-96个Evoformer修改版(优选为24个)组成,对氨基酸编码和氨基酸对编码进行迭代更新;具体地,所述修改版的Evoformer没有列的自注意力层;更具体地,输入的氨基酸编码经过行注意力机制进行更新,其中除了自身注意力外还将氨基酸对编码作为偏差,然后经过转换层获得更新的氨基酸编码。输入的氨基酸对编码与更新后的经过外积操作的氨基酸编码相加,然后经过三角更新机制层和转换层获得更新后的氨基酸对编码;所述的转换层依次包含一个层归一化层、一个线性层、一个relu层和一个线性层。这里的三角注意力层依次包含出三角乘积层、入三角乘积层、基于起始位点的三角注意力层和基于终止位点的三角注意力层。
在一个具体实施方式中,氨基酸编码和氨基酸对编码在Evoformer模块中迭代更新,该模块由24个Evoformer修改版组成。本发明的RaptorX-Single用到的Evoformer与AlphaFold2中的原始Evoformer【Jumper,J.et al.Highly accurate protein structureprediction with AlphaFold.Nature 596,583–589(2021).】不同,RaptorX-Single的Evoformer没有列的自注意力层。具体来说,输入的氨基酸编码经过行注意力机制进行更新,其中除了自身注意力外还将氨基酸对编码作为偏差,然后经过转换层获得更新的氨基酸编码。输入的氨基酸对编码相加与更新后的经过外积操作的氨基酸编码相加,然后经过三角更新机制层和转换层获得更新后的氨基酸对编码。所述的转换层依次包含一个层归一化层、一个线性层、一个relu层。这里的三角注意力层依次包含出三角乘积层、入三角乘积层、基于起始位点的三角注意力层和基于终止位点的三角注意力层。
所述结构模块由8-32个共享权重的IPA模块(优选为8个)组成,其中使用线性层来整合IPA模型中的标量、点和对注意力值;结构模块同时输出预测的原子三维坐标和置信分数,即pLDDT。具体地,基于更新后氨基酸氨基酸编码和氨基酸氨基酸对编码,结构模块同时预测的蛋白质结构的原子三维坐标和置信分数;
更具体地,以Evoformer层所产生的氨基酸对编码、氨基酸编码以及初始化的结构信息(旋转和平移矩阵,第一层所有原子初始化在原点,之后层的为上一层更新后的结构信息)作为输入,分别使用线性层将序列对偏差、标量点积以及结构距离将三种输入进行整合,以生成注意力图,并利用注意力图对氨基酸编码、氨基酸对编码、结构信息进行更新。最后将三种信息相加,经过一个线性层得到更新后的氨基酸编码。
其中,在一个具体实施方式中,本发明的RaptorX-Single的结构模块与AlphaFold2【Jumper,J.et al.Highly accurate protein structure prediction withAlphaFold.Nature 596,583–589(2021)】相似,主要由8个共享权重的IPA模块组成。RaptorX-Single的结构模块的不同之处在于,使用线性层来整合IPA模型中的标量、点和对注意力值,而AlphaFold2只使用加法。结构模块同时输出预测的原子三维坐标和置信分数(即pLDDT)。
在具体实施方式中,本发明的的系统通过预训练的蛋白质语言模型获得蛋白质氨基酸编码信息和注意力图信息。
在具体实施方式中,所述蛋白质语言模型代码基于深度学习框架pytorch或TensorFlow实现,多GPU上的分布式训练基于pytorch-lightning。优选地,使用AdamW优化器优化模型参数,其中β1=0.9,β2=0.999,ε=10-8,权重衰减为0.0001。在前约1000步中,学习率从1e-6线性升到5e-4,在训练的前1/3中保持在5e-4步,然后在剩下的2/3训练步中线性减少到1e-6;
最初在前2/3的训练步骤中对序列长度裁剪为256进行训练,然后在剩余1/3的训练步骤的裁剪后序列长度为384。训练损失包括残基对损失和结构损失。残基对损失包含距离和方向损失。结构损失包括FAPE损失(20埃的阈值)和pLDDT损失。为了提高模型的性能,还在训练期间采用了特征迭代策略。迭代次数是随机的从0到3采样。每个模型在32个GPU上训练,累积梯度为4,因此批大小为128。
进而,本发明提供一种基于机器学习的单序列蛋白结构预测的方法,其用于单独的蛋白质序列的蛋白结构预测,其包括下述步骤:
首先将其输入氨基酸编码模块,将输入序列的one-hot编码通过线性层生成初始的氨基酸编码,同时序列的one-hot编码通过另外两个线性层并将其结果行列相加以生成初始的氨基酸对编码,接着将来自蛋白语言模型的氨基酸编码与注意力图分别与初始氨基酸编码、初始氨基酸对编码相结合,以获得包含了蛋白语言模型信息的氨基酸编码以及氨基酸对编码;
然后将氨基酸编码和氨基酸对编码输入Evoformer模块,利用行注意力机制、三角注意力机制及转换层迭代更新氨基酸编码以及氨基酸对编码,提取氨基酸对之间的空间关系以获得更准确的氨基酸编码以及氨基酸对编码;
最后将更新过后的氨基酸编码、氨基酸对编码以及所有原子在原点的初始结构输入结构生成模块中,在每层结构模块中,利用氨基酸编码、氨基酸对编码以及结构信息产生注意力图,并根据注意力图对三种信息进行更新,以获得更新后的氨基酸氨基酸编码并利用氨基酸编码预测出蛋白质所有原子的三维坐标以及置信分数。优选地,利用注意力图生成氨基酸对注意力权重、标量注意力权重以及向量注意力权重,使用三种权重对氨基酸编码、氨基酸对编码、结构信息三种信息进行更新。
具体地,所述方法由所述的基于机器学习的单序列蛋白结构预测的系统来实现的。
本发明还提供一种含有所述系统的设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,所述计算机程序编码实现所述系统,优选地,还包括显示设备如屏幕或者远程结果显示器。具体实施方式中,构建为局域网络或互联网操作平台。
本发明关键涉及相关算法及处理,具体来说,本发明的RaptorX-Single有四个方面的优势:一是实现了孤儿蛋白等没有同源序列物的蛋白质结构预测从0到1的突破,且测试结果远好于AlphaFold2;在Orphan11数据集测试中,在预测没有任何同源序列的孤儿蛋白上,RaptorX-Single算法结果要优于AlphaFold2和RoseTTAFold。二是仅基于单条蛋白序列进行预测,其实验结果及性能就赶超了AlphaFold2和RoseTTFold,数据量更少,耗时更短,准确性更高。例如,在CASP14、CAMEO、Hard99数据集测试中,当使用单个序列时作为输入,RaptorX-Single算法大大优于AlphaFold2和RoseTTAFold,甚至性能媲美或者好于基于MSA的RoseTTAFold。三是实现了比AlphaFold2更快的运行速度,极大提升了蛋白质结构解析效率。例如,与AlphaFold2的运行时间分析比较中表明RaptorX-Single具明显的优势。四是在预测结果相当的情况下,RaptorX-Single参数仅43亿,远低于Meta蛋白质预测模型ESMFold高达150亿的参数量,极大降低了大算力芯片的高昂成本,对于该算法进一步产业化应用提供了可行条件。
本发明对于那些没有任何同源序列的蛋白,其优势是比基于MSA的AlphaFold2运行得快得多,因为它根本不需要构建MSA,这使得它非常适合蛋白质组范围的结构预测。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1本发明深度学习模型的架构示意。
图2是氨基酸编码模块。
图3是改进的Evoformer模块。
图4是结构生成模块。
图5本发明的方法和AlphaFold2的运行时间分析。
图6在CASP14、CAMEO和Hard99测试集上,本发明的方法RaptorX-Single和基于MSA的AlphaFold2之间GDT差异与MSA深度的关系。红线代表LOWESS回归曲线,其frac的值为4。Y轴显示的GDT差异被限制在[-20,20]的范围内。y轴:GDT差异。x轴:MSA深度的log10对数,MSA深度通过计算MSA中的同源序列的数量来计算。
图7对于测试集中特定目标的预测结果。
图8本发明的方法在Hard99测试集中的两个测试蛋白7W5Z_T2和6O0I_A上的性能明显优于基于MSA的AlphaFold2。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一 预测系统
本发明使用了多个预训练的蛋白质语言模型,包括但不限于ESM-1b、ESM-1v和ProtTrans。ESM-1b是一个基于Transformer的模型,具有约6.5亿个参数,在具有2710万个代表性序列的UniRef50上训练。ESM-1v采用与ESM-1b相同的模型架构,但训练基于Uniref90,Uniref90拥有9800万个蛋白质序列。ProtTrans使用30亿参数的ProtT5-XL模型,该模型在4500万个UniRef50序列上进行训练得到。
一、网络架构:
RaptorX-Single方法的整体架构如图1所示,主要由三个模块组成:氨基酸编码模块、改进的Evoformer模块和结构生成模块。
将单独的蛋白质序列,输入氨基酸编码模块以生成初始的氨基酸编码与氨基酸对编码,用来自蛋白语言模型的氨基酸编码与注意力图更新氨基酸编码以及氨基酸对编码;然后将氨基酸编码和氨基酸对编码输入Evoformer模块,迭代更新氨基酸编码以及氨基酸对编码,以获得更准确的氨基酸编码以及氨基酸对编码;最后将更新过后的氨基酸编码、氨基酸对编码以及所有原子在原点的初始结构输入结构生成模块,利用氨基酸编码、氨基酸对编码以及结构信息产生注意力图,并根据注意力图对三种信息进行更新,以获得更新后的氨基酸编码并利用氨基酸编码预测出蛋白质所有原子的三维坐标以及置信分数。并迭代氨基酸编码、氨基酸对编码以及从预测结构提取的氨基酸对的CbCb原子欧氏距离等特征进一步优化预测的结构。
1、如图2所示本发明的编码模块结构,该结构将蛋白质语言模型所提供的信息与蛋白序列信息相结合,通过多个线性层结合相对位置编码信息并结合迭代特征以生成初始的氨基酸编码以及氨基酸对编码。统一说明,在本发明中,氨基酸编码的维度是L*Na,氨基酸对编码的维度是L*L*Nz,这里的L是序列长度,Na和Nz分别为对应的编码维度。该算法的流程为:给定一个单独的蛋白质序列作为输入,编码模块通过利用多种不同的蛋白质语言模型(包括但不限于本实施例中采用的ESM1b、ESM1v以及ProtTrans三种蛋白质语言模型),生成输入序列的氨基酸编码及氨基酸对编码。由于多个语言模型的输出不一致,这里通过线性层将语言模型输出的氨基酸编码(及注意力图)转换成与初始氨基酸编码(及氨基酸对编码)一致的维度。本发明目前通过相加的方式整合多个语言模型的编码,需要说明的还可以采用点注意力机制进行结合,即利用初始的氨基酸编码(氨基酸对编码)作为query,来自语言模型的白按摩作为key和value,基于注意力机制获得新的氨基酸编码(氨基酸对编码)。在编码模块中,输入序列的one-hot编码通过线性层生成初始氨基酸编码,然后结合来自蛋白质语言模型的氨基酸编码,创建一个新的氨基酸编码。最初的氨基酸对编码是通过两个维度氨基酸编码(行和列)相加产生的,然后通过结合来自蛋白质语言模型的最后两层的注意力图来创建一个新的氨基酸对编码;另外,氨基酸对编码中还添加了相对位置编码,有助于神经网络模型学习到氨基酸对在序列上的距离信息,这里的相对位置编码是基于氨基酸对在序列上的相对位置矩阵,最大为±32,转为one-hot后经过线性层得到与氨基酸对编码维度一致的相对位置编码。由于引入了迭代特征,在编码模块结构的最后阶段,通过相加的形式将上一次迭代的氨基酸编码、氨基酸对编码以及预测结构的距离信息与初始氨基酸编码以及氨基酸对编码相结合,生成包含了迭代特征的氨基酸编码以及氨基酸对编码,作为Evoformer模块的输入。
2、如图3所示的本发明改进的Evoformer模块,该模块由24个改进的Evoformer组成,每一个Evoformer层由一个行注意力机制层、两个转换层、一个三角注意力机制层以及一个外积操作构成。该算法流程为:对于编码模块所生成的氨基酸编码以及氨基酸对编码,氨基酸编码经过行注意力机制进行更新,其中除了自身注意力外还将氨基酸对编码作为偏差,从而将氨基酸对编码信息整合进氨基酸编码中,然后经过转换层获得更新的氨基酸编码。接着利用外积操作将氨基酸编码转换成氨基酸对编码,输入的氨基酸对编码与其相加后,使用三角更新机制更新氨基酸对编码并通过转换层获得更新的氨基酸对编码。氨基酸编码和氨基酸对编码在Evoformer模块中迭代更新。RaptorX-Single所使用的Evoformer与AlphaFold2中的原始Evoformer不同,RaptorX-Single的Evoformer没有列的自注意力层。
3、如图4所示的本发明结构生成模块。该模块与AlphaFold2的结构模块相似,主要由8个共享权重的IPA模块组成。该模块以Evoformer层所产生的氨基酸对编码、氨基酸编码以及初始化的结构信息(旋转和平移矩阵,第一层所有原子初始化在原点,之后层的为上一层更新后的结构信息)作为输入,分别使用线性层与softmax层将序列对偏差、标量点积以及结构距离将三种输入进行整合,以生成注意力图,并利用注意力图生成氨基酸对注意力权重、标量注意力权重以及向量注意力权重,使用三种权重对氨基酸编码、氨基酸对编码、结构信息进行更新。最后将三种信息相加,经过一个线性层得到更新后的氨基酸编码。RaptorX-Single的结构模块与AlphaFold2的不同之处在于,使用线性层来整合IPA模型中的标量、点和对注意力值,而AlphaFold2只使用加法。结构模块使用模型最终输出的结构信息,输出预测的原子三维坐标,并以氨基酸编码作为输入,经过一个线性层,输出置信分数(即pLDDT)。
二、训练和测试数据:
训练数据由大约34万个蛋白质组成。其中包含,2020年1月之前在PDB中发布的具有实验结构的蛋白质80852个(记为BC100),其中没有任何两个蛋白质具有完全相同的序列。我们以40%的序列相似度对BC100中的蛋白质进行聚类,并将聚类结果表示为BC100By40。剩余的26.4万个蛋白质是由AlphaFold2所预测的三级结构(记为蒸馏数据)。蒸馏数据集中的蛋白质序列是从Unilust30_2018_08中提取的,任意序列的序列相似度不超过30%。在训练的每个epoch,从每个BC100By40簇中随机选取一个蛋白质,形成一组训练蛋白质,接受率由序列长度决定(256以下为0.5,256和512之间为0.5-1,1.0长度超过512)。在每个时期的BC100By40和蒸馏数据之间的比例为1:3之后,蛋白质也从蒸馏数据中取样。
三、模型训练
该模型代码基于深度学习框架pytorch实现,多GPU上的分布式训练基于pytorch-lightning。本发明使用了AdamW优化器优化模型参数,其中β1=0.9,β2=0.999,ε=10-8,权重衰减为0.0001。在前约1000步中,学习率从1e-6线性升到5e-4,在训练的前1/3中保持在5e-4步,然后在剩下的2/3训练步中线性减少到1e-6。
该模型是最初在前2/3的训练步骤中对序列长度裁剪为256进行训练,然后在剩余1/3的训练步骤的裁剪后序列长度为384。训练损失包括残基对损失和结构损失。残基对损失包含距离和方向损失。结构损失包括FAPE损失(20埃的阈值)和pLDDT损失。为了提高模型的性能,还在训练期间采用了特征迭代策略。迭代次数是随机的从0到3采样。每个模型在32个GPU上训练,累积梯度为4,因此批大小为128。
实施例二、用于评估模型性能的测试数据
1、测试数据集
本发明使用CASP14目标(从2020年5月18日开始)和一些在2020年1月1日之后公开的结构数据来测试本发明的方法,使用的测试集确保用于训练的蛋白与测试蛋白不存在重叠。
·CASP14数据集。包含了60条蛋白质链,其中有86个蛋白质域。
·CAMEO数据集。包含从2022年4月23日到2022年4月23日发布的所有150个测试蛋白。
·Hard99数据集。由2020年1月1日至2022年4月12日发布的99个目标蛋白组成。它们在Uniclust30_2018_08序列库中没有同源序列,但它们中的大多数可能在BFD,mgnify以及uniref90中具有大约500条同源序列。
·Orphan11数据集。该数据集为Hard99的子集。Orphan11中的蛋白质在BFD,mgnify,uniref90和uniclust30没有同源序列。
·Design43数据集。从PDB中收集了从2020年1月1日到2022年7月12日发布的标题中有关键词“de novo design”的所有结构。然后我们对UniRef30_2021_03序列库运行HHblits,并删除所有具有同源序列的结构。其余的蛋白使用mmseq2以70%的一致性进行聚类,最终得到43个从头设计的蛋白质。
2、测试指标
本文使用TMscore【Zhang Y,Skolnick J.Scoring function for automatedassessment of protein structure template quality[J].Proteins:Structure,Function,and Bioinformatics】、GDT以及GHA分数衡量结构预测的精度。TMscore的取值范围为0到1,GDT以及GHA的取值范围为0到100,数值越大,结构预测的精度越高。
3、测试结果
CASP14目标的结构预测性能。如表1所示,当使用单个序列时作为输入,本发明的方法RaptorX-Single大大优于AlphaFold2和RoseTTAFold。基于单序列的RaptorX-Single的结构预测性能与基于MSA的RoseTTAFold相似,但不如基于MSA的AlphaFold2。
表1.RaptorX-Single,AlphaFold2和RoseTTAFold在CASP14目标上的性能。
CAMEO目标的结构预测性能。如表2所示,当使用单序列作为输入时,本发明的方法RaptorX-Single大大优于AlphaFold2和RoseTTAFold。我们的方法甚至优于基于MSA的RoseTTAFold,但低于基于MSA的AlphaFold2。
表2.RaptorX-Single,AlphaFold2和RoseTTAFold在CAMEO目标上的性能。
Hard99目标的结构预测性能。如表3所示,当使用单序列作为输入,本发明的方法RaptorX-Single大大优于AlphaFold2和RoseTTAFold。本发明的方法明显优于基于MSA的RoseTTAFold,但低于基于MSA的AlphaFold2。
表3.RaptorX-Single,AlphaFold2和RoseTTAFold在Hard99目标上的性能。
Orphan11目标的结构预测性能。如表4所示,本发明的方法RaptorX-Single大大优于AlphaFold2和RoseTTAFold。这组测试蛋白没有任何同源序列,是孤儿蛋白,因此RaptorX-Single有很大的优势。
表4.RaptorX-Single,AlphaFold2和RoseTTAFold在Orphan11目标上的性能。
Design43目标的结构预测性能。如表5所示,在人类设计的蛋白质(通常没有同源序列)测试集上,无论是否使用测试蛋白的MSA作为输入,本发明的方法RaptorX-Single稍微优于AlphaFold2,并大大超过RoseTTAFold。
表5.RaptorX-Single,AlphaFold2和RoseTTAFold在Design43目标上的性能。
运行时间。图5比较了RaptorX-Single与AlphaFold在T1033,T1041,T1079以及T1061等多种不同长度的CASP14测试蛋白的运行时间。AlphaFold2使用比原版流水线中所使用的速度更快的ColabFold来生成MSA作为输入,本发明的方法RaptorX-Single运行速度比AlphaFold2快得多,对于拥有100个残基的蛋白T1033,RaptorX-Single仅需要23秒,仅为AlphaFold2所需时间(619秒)的1/27;对于拥有949的长蛋白T1061,RaptorX-Single仅需要238秒,仅为AlphaFold2所需时间(3163秒)的1/13。
预测的三维结构的质量。图6显示了本发明的方法RaptorX-Single相对于基于MSA的AlphaFold2的优势(通过GDT差测量)与MSA深度之间的关系。本文通过GDT来评估预测的三维结构的质量,并计算RaptorX-Single的预测结构与基于MSA的AlphaFold2在相同测试目标上所预测结构之间的GDT差。对于MSA较浅(MSA深度小于10)的目标蛋白,蛋白质语言模型为结构预测带来了更多的信息。因此,本发明的方法优于AlphaFold2。对于MSA较深的目标蛋白,本发明的方法与基于MSA的AlphaFold2的性能相似或更差。
实施例三、具体例子
本发明的方法RaptorX-Single对CASP14中的T1057、CAMEO中的7WAW_A和Hard99中的6VFH_B和7MWR_B进行预测,其结果如图7和图8所示。
从结果可知,本发明的方法产生了非常好的预测结果(绿色),与原生结构(蓝色)相比,这些结果非常准确。尤其如图8所示,本发明的方法在Hard99测试集中的两个测试蛋白7W5Z_T2和6O0I_A上的性能明显优于基于MSA的AlphaFold2。其中,本发明的方法在7W5Z_T2和6O0I_A的LDDT为0.885和0.744,而AlphaFold2仅为0.823和0.614。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的算法步骤,能够以计算机软件来实现。
在本申请所提供的实施例中,应该理解到,所公开的系统和方法,可以通过其它的方式实现。例如,比如本发明使用了ESM-1b、ESM-1v和ProtTrans三个预训练的蛋白质语言模型,但实际实现时可以使用其他的预训练的蛋白质语言模型。
所述系统的产品销售或使用时,可以存储在一个计算机可读取存储介质中。本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于机器学习的单序列蛋白结构预测的系统,其特征在于,由蛋白质语言模型、修改后的Evoformer模块和结构生成模块组成,氨基酸编码模块将蛋白质氨基酸序列转化为氨基酸编码以及氨基酸对编码;修改后的Evoformer模块通过注意力机制更新氨基酸编码以及氨基酸对编码;结构生成模块则根据更新的氨基酸编码预测蛋白质的三级结构;
所述氨基酸编码模块通过利用两种或以上蛋白质语言模型,生成输入序列的氨基酸编码及氨基酸对编码;在氨基酸编码模块中,输入序列的one-hot编码通过线性层生成初始氨基酸编码,然后以相加的方式结合来自蛋白质语言模型的氨基酸编码,生成新的氨基酸编码,最初的氨基酸对编码是通过行和列两个维度的氨基酸编码相加产生的,然后通过结合来自蛋白质语言模型的最后两层的注意力图来创建一个新的氨基酸对编码,氨基酸对编码中还添加了相对位置编码;
所述修改后的Evoformer模块是由24-96个Evoformer组成,对氨基酸编码和氨基酸对编码进行迭代更新;所述修改后的Evoformer模块没有列的自注意力层;
输入的氨基酸编码经过行注意力机制进行更新,其中除了自身注意力外还将氨基酸对编码作为偏差,然后经过转换层获得更新的氨基酸编码;输入的氨基酸对编码与更新后的经过外积操作的氨基酸编码相加,然后经过三角更新机制层和转换层获得更新后的氨基酸对编码;所述的转换层依次包含一个层归一化层、一个线性层、一个relu层和一个线性层;所述三角更新机制层依次包含出三角乘积层、入三角乘积层、基于起始位点的三角注意力层和基于终止位点的三角注意力层。
2.如权利要求1所述的系统,其特征在于,所述结构生成模块由8-32个共享权重的IPA模块组成,其中使用线性层来整合IPA模型中的标量、点和对注意力值;结构生成模块同时输出预测的原子三维坐标和置信分数,即pLDDT;
基于更新后氨基酸编码和氨基酸对编码,结构生成模块同时预测的蛋白质结构的原子三维坐标和置信分数;
以修改后的Evoformer模块所产生的氨基酸对编码、氨基酸编码以及初始化的结构信息作为输入,分别使用线性层将序列对偏差、标量点积以及结构距离将三种输入进行整合,以生成注意力图,并利用注意力图对氨基酸编码、氨基酸对编码、结构信息进行更新;最后将三种信息相加,经过一个线性层得到更新后的氨基酸编码;
其中,初始化的结构信息为旋转和平移矩阵,第一层所有原子初始化在原点,之后层的为上一层更新后的结构信息。
3.如权利要求2所述的系统,其特征在于,通过预训练的蛋白质语言模型获得蛋白质氨基酸编码信息和注意力图信息。
4.如权利要求3所述的系统,其特征在于,所述蛋白质语言模型代码基于深度学习框架pytorch或TensorFlow实现,多 GPU 上的分布式训练基于pytorch-lightning。
5.如权利要求4所述的系统,其特征在于,使用AdamW优化器优化模型参数,其中β1=0.9,β2=0.999,ε=10-8,权重衰减为 0.0001;在前1000步中,学习率从 1e-6 线性升到 5e-4,在训练的前 1/3 中保持在5e-4步,然后在剩下的 2/3 训练步中线性减少到1e-6;
最初在前 2/3 的训练步骤中对序列长度裁剪为256进行训练,然后在剩余 1/3 的训练步骤的裁剪后序列长度为384;训练损失包括残基对损失和结构损失;残基对损失包含距离和方向损失;结构损失包括FAPE损失和pLDDT损失;还在训练期间采用了特征迭代策略,迭代次数是随机的从0到3采样;每个模型在 32 个 GPU 上训练,累积梯度为 4,因此批大小为128。
6.一种基于机器学习的单序列蛋白结构预测的方法,其用于单独的蛋白质序列的蛋白结构预测,其由如权利要求1至5任一项所述的基于机器学习的单序列蛋白结构预测的系统来实现的,包括下述步骤:
首先将其输入氨基酸编码模块,将输入序列的one-hot编码通过线性层生成初始的氨基酸编码,同时序列的one-hot编码通过另外两个线性层并将其结果行列相加以生成初始的氨基酸对编码,接着将来自蛋白质语言模型的氨基酸编码与注意力图分别与初始氨基酸编码、初始氨基酸对编码相结合,以获得包含了蛋白质语言模型信息的氨基酸编码以及氨基酸对编码;
然后将氨基酸编码和氨基酸对编码输入修改后的Evoformer模块,利用行注意力机制、三角注意力机制及转换层迭代更新氨基酸编码以及氨基酸对编码,提取氨基酸对之间的空间关系以获得更准确的氨基酸编码以及氨基酸对编码;
最后将更新过后的氨基酸编码、氨基酸对编码以及所有原子在原点的初始结构输入结构生成模块中,在每层结构模块中,利用氨基酸编码、氨基酸对编码以及结构信息产生注意力图,并根据注意力图对三种信息进行更新,以获得更新后的氨基酸编码并利用氨基酸编码预测出蛋白质所有原子的三维坐标以及置信分数;其中,利用注意力图生成氨基酸对注意力权重、标量注意力权重以及向量注意力权重,使用三种权重对氨基酸编码、氨基酸对编码、结构信息三种信息进行更新。
7.一种计算机设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,所述计算机程序编码实现如权利要求1至5任一项所述系统。
8.如权利要求7所述的计算机设备,其特征在于,还包括显示设备。
9.如权利要求8所述的计算机设备,其特征在于,所述显示设备为屏幕或者远程结果显示器。
10.如权利要求7至8任一项所述的计算机设备,其特征在于,构建为局域网络或互联网操作平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210945251.1A CN115458039B (zh) | 2022-08-08 | 2022-08-08 | 基于机器学习的单序列蛋白结构预测的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210945251.1A CN115458039B (zh) | 2022-08-08 | 2022-08-08 | 基于机器学习的单序列蛋白结构预测的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115458039A CN115458039A (zh) | 2022-12-09 |
CN115458039B true CN115458039B (zh) | 2023-10-10 |
Family
ID=84297330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210945251.1A Active CN115458039B (zh) | 2022-08-08 | 2022-08-08 | 基于机器学习的单序列蛋白结构预测的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115458039B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206676B (zh) * | 2023-04-28 | 2023-09-26 | 中国人民解放军军事科学院军事医学研究院 | 基于蛋白三维结构和图神经网络的免疫原预测系统及方法 |
CN116978445B (zh) * | 2023-08-03 | 2024-03-26 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
CN117476106B (zh) * | 2023-12-26 | 2024-04-02 | 西安慧算智能科技有限公司 | 一种多类不平衡蛋白质二级结构预测方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593631A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及系统 |
CN114503203A (zh) * | 2019-12-02 | 2022-05-13 | 渊慧科技有限公司 | 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测 |
CN114613427A (zh) * | 2022-03-15 | 2022-06-10 | 水木未来(北京)科技有限公司 | 蛋白质三维结构预测方法及装置、电子设备和存储介质 |
CN114708903A (zh) * | 2022-03-14 | 2022-07-05 | 浙江工业大学 | 一种基于自注意力机制的蛋白质残基间距离预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210398606A1 (en) * | 2018-11-30 | 2021-12-23 | Deepmind Technologies Limited | Protein structure prediction using geometric attention neural networks |
-
2022
- 2022-08-08 CN CN202210945251.1A patent/CN115458039B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114503203A (zh) * | 2019-12-02 | 2022-05-13 | 渊慧科技有限公司 | 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测 |
CN113593631A (zh) * | 2021-08-09 | 2021-11-02 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及系统 |
CN114708903A (zh) * | 2022-03-14 | 2022-07-05 | 浙江工业大学 | 一种基于自注意力机制的蛋白质残基间距离预测方法 |
CN114613427A (zh) * | 2022-03-15 | 2022-06-10 | 水木未来(北京)科技有限公司 | 蛋白质三维结构预测方法及装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
Highly accurate protein structure prediction with AlphaFold;John Jumper 等;Nature;第596卷;第583-592页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115458039A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115458039B (zh) | 基于机器学习的单序列蛋白结构预测的方法和系统 | |
CN110910951B (zh) | 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法 | |
Jisna et al. | Protein structure prediction: conventional and deep learning perspectives | |
Hu et al. | An improved deep learning method for predicting DNA-binding proteins based on contextual features in amino acid sequences | |
Berger et al. | Computational biology in the 21st century: Scaling with compressive algorithms | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
Li et al. | Protein loop modeling using deep generative adversarial network | |
Mishra et al. | A deep learning ensemble for function prediction of hypothetical proteins from pathogenic bacterial species | |
CN104951670B (zh) | 一种基于距离谱的群体构象空间优化方法 | |
CN113611354B (zh) | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 | |
ur Rehman et al. | Multi-dimensional scaling based grouping of known complexes and intelligent protein complex detection | |
CN112085245B (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
CN117831609A (zh) | 一种蛋白质二级结构预测方法、装置及计算机装置 | |
Sun et al. | Tetramer protein complex interface residue pairs prediction with LSTM combined with graph representations | |
CN115527605A (zh) | 基于深度图模型的抗体结构预测方法 | |
Lupo et al. | Pairing interacting protein sequences using masked language modeling | |
CN108595910A (zh) | 一种基于多样性指标的群体蛋白质构象空间优化方法 | |
CN115019878A (zh) | 一种基于图表示和深度学习的药物发现方法 | |
CN109360600B (zh) | 一种基于残基特征距离的蛋白质结构预测方法 | |
ZiWen et al. | Multi-objective Neural Architecture Search for Efficient and Fast Semantic Segmentation on Edge | |
Theepalakshmi et al. | Freezing firefly algorithm for efficient planted (ℓ, d) motif search | |
Kroll et al. | Drug-target interaction prediction using a multi-modal transformer network demonstrates high generalizability to unseen proteins | |
CN113539354B (zh) | 一种高效预测革兰氏阴性菌ⅲ型和ⅳ型效应蛋白的方法 | |
CN111815036B (zh) | 一种基于多残基接触图协同约束的蛋白质结构预测方法 | |
CN110556161B (zh) | 一种基于构象多样性采样的蛋白质结构预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |