CN115116559B - 氨基酸中原子坐标的确定及训练方法、装置、设备和介质 - Google Patents

氨基酸中原子坐标的确定及训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN115116559B
CN115116559B CN202210707422.7A CN202210707422A CN115116559B CN 115116559 B CN115116559 B CN 115116559B CN 202210707422 A CN202210707422 A CN 202210707422A CN 115116559 B CN115116559 B CN 115116559B
Authority
CN
China
Prior art keywords
amino acid
sequence
coding
atoms
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210707422.7A
Other languages
English (en)
Other versions
CN115116559A (zh
Inventor
王凡
方晓敏
何径舟
张肖男
刘荔行
向颖飞
薛洋
吴华
吴甜
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210707422.7A priority Critical patent/CN115116559B/zh
Publication of CN115116559A publication Critical patent/CN115116559A/zh
Priority to JP2023022515A priority patent/JP7508614B2/ja
Application granted granted Critical
Publication of CN115116559B publication Critical patent/CN115116559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本公开提供了一种氨基酸中原子坐标的确定及训练方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习和生物计算等技术领域。实现方案为:对待测蛋白质的氨基酸序列进行特征提取,以得到第一编码序列,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量;根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。由此,可以实现根据待测蛋白质的氨基酸序列,直接预测待测蛋白质的结构(即预测待测蛋白质中各氨基酸中原子的坐标),而无需利用待测蛋白质的同源序列来预测待测蛋白质的结构,可以提升待测蛋白质结构的预测效率。

Description

氨基酸中原子坐标的确定及训练方法、装置、设备和介质
技术领域
本公开涉及人工智能技术领域,具体为深度学习和生物计算等技术领域,尤其涉及一种氨基酸中原子坐标的确定及训练方法、装置、设备和介质。
背景技术
在生物计算领域中,蛋白质构象或结构的解析,可以通过冷冻电镜、结晶等设备实现。然而上述设备的价格较为昂贵,为了降低蛋白质构象的解析成本,可以通过具有计算能力的电子设备采用人工智能领域中的深度学习技术,基于决定蛋白质构象的一级序列(即组成蛋白质多肽链的线性氨基酸序列),来预测蛋白质构象。
因此,如何通过具有计算能力的电子设备根据蛋白质的一级序列进行相关计算,以预测得到蛋白质构象是非常重要的。
发明内容
本公开提供了一种氨基酸中原子坐标的确定及训练方法、装置、设备和介质。
根据本公开的一方面,提供了一种氨基酸中原子坐标的确定方法,包括:
获取待测蛋白质的氨基酸序列;
对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
根据所述第一编码序列和所述编码矩阵,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标。
根据本公开的另一方面,提供了一种蛋白质结构预测模型的训练方法,包括:
获取训练样本,其中,所述训练样本包括样本蛋白质的氨基酸序列;
采用初始的蛋白质结构预测模型对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
采用所述初始的蛋白质结构预测模型根据所述第一编码序列和所述编码矩阵,预测所述样本蛋白质中各所述氨基酸中原子的预测坐标;
根据各所述氨基酸中原子的预测坐标和所述训练样本对应的各所述氨基酸中原子的参考坐标之间的差异,对所述初始的蛋白质结构预测模型进行第一训练。
根据本公开的又一方面,提供了另一种氨基酸中原子坐标的确定方法,包括:
获取待测蛋白质的氨基酸序列;
基于本公开上述另一方面所述的方法所训练得到的蛋白质结构预测模型和所述氨基酸序列,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标。
根据本公开的又一方面,提供了一种氨基酸中原子坐标的确定装置,包括:
获取模块,用于获取待测蛋白质的氨基酸序列;
提取模块,用于对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
第一确定模块,用于根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
第二确定模块,用于根据所述第一编码序列和所述编码矩阵,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标。
根据本公开的再一方面,提供了一种蛋白质结构预测模型的训练装置,包括:
获取模块,用于获取训练样本,其中,所述训练样本包括样本蛋白质的氨基酸序列;
提取模块,用于采用初始的蛋白质结构预测模型对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
确定模块,用于根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
预测模块,用于采用所述初始的结构识别模型根据所述第一编码序列和所述编码矩阵,预测所述样本蛋白质中各所述氨基酸中原子的预测坐标;
训练模块,用于根据各所述氨基酸中原子的预测坐标和所述训练样本对应的各所述氨基酸中原子的参考坐标之间的差异,对所述初始的蛋白质结构预测模型进行第一训练。
根据本公开的又一方面,提供了另一种氨基酸中原子坐标的确定装置,包括:
获取模块,用于获取待测蛋白质的氨基酸序列;
确定模块,用于基于本公开上述再一方面所述的装置所训练得到的蛋白质结构预测模型和所述氨基酸序列,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标。
根据本公开的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的方法,或者,执行本公开上述另一方面提出的方法,或者,执行本公开上述又一方面提出的方法。
根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的方法,或者,执行本公开上述另一方面提出的方法,或者,执行本公开上述又一方面提出的方法。
根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的方法,或者,执行本公开上述另一方面提出的方法,或者,执行本公开上述又一方面提出的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为蛋白质的同源序列示意图;
图2为本公开实施例一所提供的氨基酸中原子坐标的确定方法的流程示意图;
图3为本公开实施例二所提供的氨基酸中原子坐标的确定方法的流程示意图;
图4为本公开实施例三所提供的氨基酸中原子坐标的确定方法的流程示意图;
图5为EvoFromer的结构示意图;
图6为本公开实施例四所提供的氨基酸中原子坐标的确定方法的流程示意图;
图7为本公开实施例五所提供的蛋白质结构预测模型的训练方法的流程示意图;
图8为本公开实施例六所提供的蛋白质结构预测模型的训练方法的流程示意图;
图9为本公开实施例所提供的蛋白质结构预测模型的结构示意图;
图10为本公开实施例七所提供的蛋白质结构预测模型的训练方法的流程示意图;
图11为本公开实施例八所提供的蛋白质结构预测模型的训练方法的流程示意图;
图12为本公开实施例九所提供的氨基酸中原子坐标的确定方法的流程示意图;
图13为本公开实施例十所提供的氨基酸中原子坐标的确定装置的结构示意图;
图14为本公开实施例十一所提供的蛋白质结构预测模型的训练装置的结构示意图;
图15为本公开实施例十二所提供的氨基酸中原子坐标的确定装置的结构示意图;
图16示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,人工智能程序AlphaFold2,在计算解析蛋白质构象上有了接近实验的表现,使得计算蛋白质结构成为可能。其中,AlphaFold2利用蛋白质的一级序列(20+种氨基酸组成的长链),以及同源序列信息和模版信息进行结构预测。
其中,同源序列信息,简称MSA(Multi-Sequence-Alignment)序列。MSA序列是指大自然中存在的,与当前计算的蛋白质具有一定程度的相似性,但是又存在一些不同的序列。MSA序列通常被认为是进化历史上,属于同源的蛋白质,其中同源蛋白质可能是由同一种蛋白质变异分化而来。
AlphaFold2模型包含两大块结构,一块为主干模块EvoFormer(或称为序列/二元对相互作用注意力网络),另一块为结构模块Structure Module。其中,EvoFormer将上述三类信息(一级序列、同源序列信息和模板信息),通过序列向量sequence和成对向量pairwise两类表征,sequence和pairwise通过自注意力层Self-Attention,三元对注意力层Triangle-Attention等结构进行信息传递,得到EvoFormer的输出;EvoFormer的输出输入至Structure Module进行计算,得到每个原子的坐标。
其中,训练过程需要大量标注有蛋白质结构的训练数据,训练数据的形式为(一级序列,同源序列,模版信息,标注的结构信息)的四元对。
上述方式中,AlphaFold2模型强烈依赖于MSA序列的预测,然而MSA序列的抽取较为繁琐,需要进行大量的序列匹配过程,这些匹配过程依赖于大量的匹配规则,耗时较长,准确性无法保障。并且,对于存在大量MSA序列的一级序列而言,还需考虑模型采用哪些MSA序列,此外,对于MSA序列较少的孤蛋白而言,AlphaFold的预测效果较差。在整体评价指标(TMScore)80+的情况下,去除MSA序列的表现甚至不到20。
作为一种示例,蛋白质的同源序列可以如图1所示,其中,图1中的每一行是蛋白质的一个同源序列。
针对上述存在的至少一项问题,本公开提出一种氨基酸中原子坐标的确定及训练方法、装置、电子设备和介质。
下面参考附图描述本公开实施例的氨基酸中原子坐标的确定及训练方法、装置、设备和介质。
图2为本公开实施例一所提供的氨基酸中原子坐标的确定方法的流程示意图。
本公开实施例以该氨基酸中原子坐标的确定方法被配置于氨基酸中原子坐标的确定装置中来举例说明,该氨基酸中原子坐标的确定装置可以应用于任一电子设备中,以使该电子设备可以执行氨基酸中原子坐标的确定功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图2所示,该氨基酸中原子坐标的确定方法可以包括以下步骤:
步骤201,获取待测蛋白质的氨基酸序列。
在本公开实施例中,对氨基酸序列的获取方式不作限制,比如,氨基酸序列可以从现有的测试集中获取,或者,氨基酸序列也可以在线采集,比如可以通过网络爬虫技术,在线采集氨基酸序列,或者,氨基酸序列也可以由用户提供,等等,本公开对此并不做限制。
步骤202,对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
在本公开实施例中,可以对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。例如,氨基酸序列包括L个氨基酸,则第一编码序列可以为L×H的向量,其中,每个氨基酸对应一个维度为H的编码向量。
步骤203,根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
在本公开实施例中,针对第一编码序列中的任意两个氨基酸,可以将该任意两个氨基酸的编码向量进行融合,得到融合向量。比如,可以将任意两个氨基酸的编码向量中相同维度的元素进行相乘,以得到融合向量。
在本公开实施例中,可以根据上述任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
步骤204,根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。
在本公开实施例中,可以根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。
本公开实施例的氨基酸中原子坐标的确定方法,通过对待测蛋白质的氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量;根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。由此,可以实现根据待测蛋白质的氨基酸序列,直接预测待测蛋白质的结构(即预测待测蛋白质中各氨基酸中原子的坐标),而无需利用待测蛋白质的同源序列来预测待测蛋白质的结构,可以提升待测蛋白质结构的预测效率。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。
为了清楚说明本公开任一实施例中是如何根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵的,本公开还提出一种氨基酸中原子坐标的确定方法。
图3为本公开实施例二所提供的氨基酸中原子坐标的确定方法的流程示意图。
如图3所示,该氨基酸中原子坐标的确定方法可以包括以下步骤:
步骤301,获取待测蛋白质的氨基酸序列。
步骤302,对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
步骤301至302的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
在本公开的任意一个实施例之中,可以对氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,第二编码序列包括多个氨基酸位置,比如,氨基酸序列中包括L个氨基酸,则第一编码序列可以包含L个氨基酸位置。之后,可以将第二编码序列输入蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,第一编码序列中包括多个氨基酸位置上的编码向量。其中,L为正整数。
其中,每一层编码层可以包括MSA(Muti-Head Self-Attention,多头自注意力模块)和FFN(Feed-Forward Network,前馈网络),可以通过MSA和FFN融合第二编码序列中的语义信息,从而提升特征提取的准确性和可靠性。
作为一种示例,可以对氨基酸序列中的多个氨基酸进行编码,得到第二编码序列,比如,氨基酸序列中包括L个氨基酸,则第二编码序列可以包含L个氨基酸的向量化表示Embedding,假设Embedding为H维度,则第二编码序列可以为L×H的序列向量。
可以将L×H的第二编码序列输入至少一层编码层(比如编码层可以为Transformer网络,或者为稀疏的混合专家网络Sparse Mixture of Expert)进行特征提取,以得到第一编码序列。
以编码层为Transformer网络进行示例,可以采用nt层Transformer对第二编码序列进行特征提取,得到第一编码序列。其中,nt的取值范围可以为12~72。标记第二编码序列为y(0),可以将y(0)输入至首层Transformer进行特征提取,得到首层Transformer的输出y(1),将y(1)输入至第二层Transformer进行特征提取,得到第二层Transformer的输出y(2),将y(2)输入至第三层Transformer进行特征提取,得到第三层Transformer的输出y(3),以此类推,可以得到最后一层Transformer输出的y(nt)
即可以通过下述公式,确定各层Transformer的输出:
y(i+1)=Transformer(y(i));   (1)
其中,i=0,1,2,…,nt-1,y(i)为L×H的序列向量。
由此,可以基于深度学习技术对氨基酸序列进行特征提取,可以提升第一编码序列提取结果的准确性和可靠性。
步骤303,针对第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量。
在本公开实施例中,第一编码序列包括L个氨基酸位置,针对第一编码序列中第i个氨基酸位置,可以将该第i个氨基酸位置对应的编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量。其中,i=1,2,…,L,即i为不大于L的正整数。
即,可以将第i个氨基酸位置对应的编码向量与第1个氨基酸位置上的编码向量进行融合,得到第1个氨基酸位置上的融合向量,将i个氨基酸位置对应的编码向量与第2个氨基酸位置上的编码向量进行融合,得到第2个氨基酸位置上的融合向量,…,将i个氨基酸位置对应的编码向量与第L个氨基酸位置上的编码向量进行融合,得到第L个氨基酸位置上的融合向量。
步骤304,根据L个氨基酸位置上的融合向量,生成第i个氨基酸位置对应的融合序列。
在本公开实施例中,可以根据上述L个氨基酸位置上的融合向量,生成第i个氨基酸位置对应的融合序列。即可以将第1个氨基酸位置上的融合向量,作为第i个氨基酸位置对应的融合序列中的首个元素,将第2个氨基酸位置上的融合向量,作为第i个氨基酸位置对应的融合序列中的第二个元素,…,将第L个氨基酸位置上的融合向量,作为第i个氨基酸位置对应的融合序列中的最后一个元素。
步骤305,根据各氨基酸位置对应的融合序列,生成编码矩阵;其中,i为不大于L的正整数。
在本公开实施例中,可以根据各氨基酸位置对应的融合序列,生成L×L×H的编码矩阵。比如,可以将第1个氨基酸位置对应的融合序列,作为编码矩阵的第一行,将第2个氨基酸位置对应的融合序列,作为编码矩阵的第二行,…,第L个氨基酸位置对应的融合序列,作为编码矩阵的最后一行。再比如,可以将第1个氨基酸位置对应的融合序列,作为编码矩阵的第一列,将第2个氨基酸位置对应的融合序列,作为编码矩阵的第二列,…,第L个氨基酸位置对应的融合序列,作为编码矩阵的最后一列。
作为一种示例,可以根据下述公式,确定编码矩阵中的各个元素:
Figure BDA0003706542180000061
其中,
Figure BDA0003706542180000062
是指第一编码序列中的第i个氨基酸位置上的编码向量,
Figure BDA0003706542180000063
是指第一编码序列中的第j个氨基酸位置上的编码向量,
Figure BDA0003706542180000064
是指编码矩阵
Figure BDA0003706542180000065
中第i行第j列元素。
步骤306,根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。
步骤306的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的氨基酸中原子坐标的确定方法,通过针对第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;根据L个氨基酸位置上的融合向量,生成第i个氨基酸位置对应的融合序列;根据各氨基酸位置对应的融合序列,生成编码矩阵;其中,i=1,2,…,L。由此,可以实现根据各氨基酸位置上的编码向量,有效生成编码矩阵。
为了清楚说明本公开任一实施例中是如何根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标的,本公开还提出一种氨基酸中原子坐标的确定方法。
图4为本公开实施例三所提供的氨基酸中原子坐标的确定方法的流程示意图。
如图4所示,该氨基酸中原子坐标的确定方法可以包括以下步骤:
步骤401,获取待测蛋白质的氨基酸序列。
步骤402,对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
步骤403,根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
步骤401至403的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤404,将第一编码序列和编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列以及编码矩阵对应的映射矩阵。
在本公开实施例中,可以将第一编码序列和编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列,以及得到编码矩阵对应的映射矩阵。
作为一种示例,注意力网络可以包括相关技术中的多层EvoFormer(序列/二元对相互作用注意力网络),比如该注意力网络可以包括ne层EvoFormer,该EvoFromer的结构可以如图5所示,其中,ne的取值范围可以为12~24。
例如,可以将
Figure BDA0003706542180000071
Figure BDA0003706542180000072
输入至首层EvoFormer进行映射处理,将首层EvoFormer的输出作为第二层EvoFormer的输入,第二层EvoFormer的输出作为第三层EvoFormer的输入,以此类推,可以得到最后一层EvoFormer的输出。
步骤405,采用蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,以得到各氨基酸中原子的预测坐标。
在本公开实施例中,可以采用蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,以得到各氨基酸中原子的预测坐标。
本公开实施例的氨基酸中原子坐标的确定方法,通过将第一编码序列和编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列以及编码矩阵对应的映射矩阵;采用蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,以得到各氨基酸中原子的预测坐标。由此,可以采用深度学习技术,预测各氨基酸中原子的预测坐标,可以提升预测结果的准确性和可靠性。
为了清楚说明本公开任一实施例中是如何对映射序列和映射矩阵进行解码,得到各氨基酸中原子的预测坐标的,本公开还提出一种氨基酸中原子坐标的确定方法。
图6为本公开实施例四所提供的氨基酸中原子坐标的确定方法的流程示意图。
如图6所示,该氨基酸中原子坐标的确定方法可以包括以下步骤:
步骤601,获取待测蛋白质的氨基酸序列。
步骤602,对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
步骤603,根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
步骤604,将第一编码序列和编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列以及编码矩阵对应的映射矩阵。
步骤601至604的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
作为一种示例,注意力网络可以包括相关技术中的多层EvoFormer(序列/二元对相互作用注意力网络),比如该注意力网络可以包括ne层EvoFormer,该EvoFromer的结构可以如图5所示,其中,ne的取值范围可以为12~24。
例如,可以将
Figure BDA0003706542180000073
Figure BDA0003706542180000074
输入至首层EvoFormer进行映射处理,将首层EvoFormer的输出作为第二层EvoFormer的输入,第二层EvoFormer的输出作为第三层EvoFormer的输入,以此类推,可以得到最后一层EvoFormer的输出。
作为一种示例,映射序列和映射矩阵可以通过下述公式确定:
m(i+1),r=k,z(i+1),r=k=Evoformer(m(i),r=k,z(i),r=k);   (3)
其中,
Figure BDA0003706542180000075
m(i+1),r=k和z(i+1),r=k是指第i层EvoFormer的输出,m(i),r=k和z(i),r=k是指第i层EvoFormer的输入,i=1,2,…,ne-1,r是指recycle循环(本公开中记为迭代),k是指第k次循环(即第k轮迭代)。则映射序列可以为
Figure BDA0003706542180000076
映射矩阵可以为
Figure BDA0003706542180000077
步骤605,采用蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,得到各氨基酸中原子的初始坐标。
在本公开实施例中,可以采用解码网络对映射序列和映射矩阵进行解码,得到各氨基酸中原子的初始坐标。
作为一种示例,解码网络可以为相关技术中的Structure Module,可以通过下述公式,确定各氨基酸中原子的初始坐标p:
Figure BDA0003706542180000081
步骤606,根据各氨基酸中原子的初始坐标、第一编码序列和编码矩阵,对各氨基酸中原子的初始坐标执行设定轮数的迭代,以对各氨基酸中原子进行坐标更新。
其中,设定轮数为预先设定的。标记设定轮数为K,例如K的取值范围可以为3~6。
在本公开实施例中,可以根据各氨基酸中原子的初始坐标、第一编码序列和编码矩阵,对各氨基酸中原子的初始坐标执行设定轮数的迭代,以对各氨基酸中原子进行坐标更新。
作为一种可能的实现方式,针对设定轮数的迭代中首轮迭代,首先,可以根据解码网络输出的各氨基酸中原子的初始坐标对编码矩阵进行更新,以得到首轮迭代的编码矩阵。
作为一种示例,可以根据解码网络输出的各氨基酸中原子的初始坐标,确定各氨基酸中任意两个氨基酸中原子之间的距离,根据上述任意两个氨基酸中原子之间的距离,生成第一距离矩阵,并对第一距离矩阵进行维度映射,以得到第二距离矩阵,将第二距离矩阵与编码矩阵进行融合,以得到首轮迭代的编码矩阵。
例如,可以通过下述公式,计算首轮迭代的编码矩阵:
Figure BDA0003706542180000082
Figure BDA0003706542180000083
其中,StopGradient表示在计算编码矩阵时,网络参数梯度回传时不再计算梯度。
也就是说,可以根据第i个和第j个氨基酸中原子之间的距离(比如欧氏距离),生成L×L×1的第一距离矩阵,将第一距离矩阵进行距离离散化处理,以得到L×L×V的矩阵,将L×L×V的矩阵分别进行线性映射和层归一化处理,以得到L×L×H的第二距离矩阵,即第二距离矩阵为
Figure BDA0003706542180000084
从而可以将L×L×H的第二距离矩阵与L×L×H的编码矩阵进行融合(即相加),以得到首轮迭代的编码矩阵。
之后,可以根据注意力网络输出的映射序列,对第一编码序列进行更新,以得到首轮迭代的第一编码序列。比如,可以将映射序列和第二编码序列中相同位置的元素进行相加,以得到首轮迭代的第一编码序列。
作为一种示例,可以通过下述公式,确定首轮迭代的第一编码序列:
Figure BDA0003706542180000085
之后,可以将首轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到首轮迭代中注意力网络输出的映射序列和映射矩阵,从而可以将首轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到首轮迭代中更新得到的各氨基酸中原子的坐标。
仍以上述例子示例,可以将m(0),r=k+1和z(0),r=k+1输入至注意力网络进行映射处理,以得到首轮迭代中注意力网络输出的映射序列和映射矩阵。例如,首轮迭代的映射序列和映射矩阵可以采用公式(3)确定。从而可以将首轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到首轮迭代中更新得到的各氨基酸中原子的坐标。
相应的,针对设定轮数的迭代中非首轮迭代,可以根据本轮迭代的前一轮迭代中更新得到的各氨基酸中原子的坐标,对编码矩阵进行更新,以得到本轮迭代的编码矩阵。
作为一种示例,可以根据前一轮迭代中更新得到的各氨基酸中原子的坐标,确定各氨基酸中任意两个氨基酸中原子之间的距离,并根据上述任意两个氨基酸中原子之间的距离,生成第一距离矩阵,并对第一距离矩阵进行维度映射,以得到第二距离矩阵,从而可以将第二距离矩阵与编码矩阵进行融合,以得到本轮迭代的编码矩阵。其中,可以采用公式(5)和公式(6),计算本轮迭代的编码矩阵。
由此,可以实现根据前一轮迭代中更新得到的各氨基酸中原子的坐标,对编码矩阵进行有效更新,从而得到本轮迭代的编码矩阵。
之后,可以根据前一轮迭代中注意力网络输出的映射序列,对第一编码序列进行更新,以得到本轮迭代的第一编码序列。并将本轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到本轮迭代中注意力网络输出的映射序列和映射矩阵,从而可以将本轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到本轮迭代中更新得到的各氨基酸中原子的坐标。
由此,可以实现通过迭代方式,对各氨基酸中原子的坐标进行有效更新,从而提升原子坐标预测结果的准确性和可靠性。
步骤607,将最后一轮迭代中更新得到的各氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。
在本公开实施例中,可以将最后一轮迭代中更新得到的各氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。
本公开实施例的氨基酸中原子坐标的确定方法,通过采用蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,得到各氨基酸中原子的初始坐标;根据各氨基酸中原子的初始坐标、第一编码序列和编码矩阵,对各氨基酸中原子的初始坐标执行设定轮数的迭代,以对各氨基酸中原子进行坐标更新;将最后一轮迭代中更新得到的各氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。由此,可以实现通过多轮迭代方式,有效计算各氨基酸中原子的预测坐标。
上述为蛋白质结构预测模型的预测方法(即氨基酸中原子坐标的确定方法)所对应的各实施例,本公开还提出一种蛋白质结构预测模型的训练方法。
图7为本公开实施例五所提供的蛋白质结构预测模型的训练方法的流程示意图。
如图7所示,该蛋白质结构预测模型的训练方法可以包括以下步骤:
步骤701,获取训练样本,其中,训练样本包括样本蛋白质的氨基酸序列。
在本公开实施例中,对训练样本的获取方式不作限制,比如,训练样本可以从现有的训练集获取,或者,训练样本也可以在线采集,比如可以通过网络爬虫技术在线采集训练样本,或者,训练样本也可以线下采集,等等,本公开对此不作限制。其中,训练样本的个数可以为至少一个。
步骤702,采用初始的蛋白质结构预测模型对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
在本公开实施例中,可以采用初始的蛋白质结构预测模型对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。例如,氨基酸序列包括L个氨基酸,则第一编码序列可以为L×H的向量,其中,每个氨基酸对应一个维度为H的编码向量。
步骤703,根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
在本公开实施例中,针对第一编码序列中的任意两个氨基酸,可以将该任意两个氨基酸的编码向量进行融合,得到融合向量。比如,可以将任意两个氨基酸的编码向量中相同维度的元素进行相乘,以得到融合向量。
在本公开实施例中,可以根据上述任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
步骤704,采用初始的蛋白质预测识别模型根据第一编码序列和编码矩阵,预测样本蛋白质中各氨基酸中原子的预测坐标。
在本公开实施例中,可以采用初始的蛋白质结构预测模型根据第一编码序列和编码矩阵,预测样本蛋白质中各氨基酸中原子的预测坐标。
步骤705,根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练。
在本公开实施例中,可以根据训练样本的标注信息,确定各氨基酸中原子的参考坐标,即训练样本上标注有各氨基酸中原子的参考坐标(该参考坐标还可以称为实际坐标或真实坐标)。或者,考虑到具有标注信息的训练样本的数量相对较少,训练样本对应的各氨基酸中原子的参考坐标可以采用现有预测精度较高的模型预测得到,比如可以通过AlphaFold2预测得到。
在本公开实施例中,可以根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练。
作为一种示例,可以根据各氨基酸中原子的预测坐标和各氨基酸中原子的参考坐标之间的差异,生成第一损失值(又称为坐标误差损失),其中,第一损失值与上述差异为正向关系(即呈正相关关系),即差异越小,第一损失值的取值越小,反之,差异越大,第一损失值的取值越大,从而本公开中,可以根据第一损失值,对初始的蛋白质结构预测模型中的模型参数进行调整,以使第一损失值的取值最小化。
需要说明的是,上述仅以模型训练的终止条件为第一损失值的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
本公开实施例的蛋白质结构预测模型的训练方法,通过获取训练样本,其中,训练样本包括样本蛋白质的氨基酸序列;采用初始的蛋白质结构预测模型对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量;根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;采用初始的蛋白质预测识别模型根据第一编码序列和所述编码矩阵,预测样本蛋白质中各氨基酸中原子的预测坐标;根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练;根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练。由此,对初始的蛋白质结构预测模型进行训练,可以提升训练后的蛋白质结构预测模型的预测精度。并且,由于无需利用样本蛋白质的同源序列来对模型进行训练,可以减少模型的训练周期。
为了清楚说明上述实施例,本公开还提出一种蛋白质结构预测模型的训练方法。
图8为本公开实施例六所提供的蛋白质结构预测模型的训练方法的流程示意图。
如图8所示,该蛋白质结构预测模型的训练方法可以包括以下步骤:
步骤801,获取训练样本,其中,训练样本包括样本蛋白质的氨基酸序列。
步骤802,采用初始的蛋白质结构预测模型对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
在本公开实施例的一种可能的实现方式中,可以对氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,第二编码序列包括多个氨基酸位置;将第二编码序列输入初始的蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,第一编码序列中包括多个氨基酸位置上的编码向量。具体实现过程可以参见步骤302中的相关描述,在此不做赘述。
步骤803,根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
在本公开实施例的一种可能的实现方式中,第一编码序列包括L个氨基酸位置,针对第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;根据L个氨基酸位置上的融合向量,生成第i个氨基酸位置对应的融合序列;根据各氨基酸位置对应的融合序列,生成编码矩阵;其中,L为正整数,i为不大于L的正整数。具体实现过程可以参见步骤303至305中的相关描述,在此不做赘述。
步骤804,采用初始的蛋白质结构预测模型根据第一编码序列和编码矩阵,预测样本蛋白质中各氨基酸中原子的预测坐标。
在本公开实施例的一种可能的实现方式中,可以将第一编码序列和编码矩阵输入至初始的蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列以及编码矩阵对应的映射矩阵;采用初始的蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,以得到各氨基酸中原子的预测坐标。具体实现过程可以参见上述实施例中步骤404至405中的相关描述,在此不做赘述。
作为一种可能的实现方式,可以采用解码网络对映射序列和映射矩阵进行解码,得到各氨基酸中原子的初始坐标;根据各氨基酸中原子的初始坐标、第一编码序列和编码矩阵,对各氨基酸中原子的初始坐标执行设定轮数的迭代,以对各氨基酸中原子进行坐标更新;将最后一轮迭代中更新得到的各氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。具体实现过程可以参见上述实施例中步骤605至607中的相关描述,在此不做赘述。
作为一种示例,针对设定轮数的迭代中首轮迭代,可以根据解码网络输出的各氨基酸中原子的初始坐标对编码矩阵进行更新,以得到首轮迭代的编码矩阵;根据注意力网络输出的映射序列,对第一编码序列进行更新,以得到首轮迭代的第一编码序列;将首轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到首轮迭代中注意力网络输出的映射序列和映射矩阵;将首轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到首轮迭代中更新得到的各氨基酸中原子的坐标。具体实现过程可以参见上述实施例中步骤606中的相关描述,在此不做赘述。
作为另一种示例,针对设定轮数的迭代中非首轮迭代,可以根据本轮迭代的前一轮迭代中更新得到的各氨基酸中原子的坐标,对编码矩阵进行更新,以得到本轮迭代的编码矩阵。
例如,可以根据前一轮迭代中更新得到的各氨基酸中原子的坐标,确定各氨基酸中任意两个氨基酸中原子之间的距离;根据任意两个氨基酸中原子之间的距离,生成第一距离矩阵;对第一距离矩阵进行维度映射,以得到第二距离矩阵;将第二距离矩阵与编码矩阵进行融合,以得到本轮迭代的编码矩阵。
之后,可以根据前一轮迭代中注意力网络输出的映射序列,对第一编码序列进行更新,以得到本轮迭代的第一编码序列;将本轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到本轮迭代中注意力网络输出的映射序列和映射矩阵;将本轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到本轮迭代中更新得到的各氨基酸中原子的坐标。具体实现过程可以参见上述实施例中步骤606中的相关描述,在此不做赘述。
步骤805,根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练。
步骤801至805的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
步骤806,对氨基酸序列中的至少一个氨基酸进行掩码处理,以得到掩码后的氨基酸序列。
在本公开实施例中,可以对氨基酸序列中的至少一个氨基酸进行掩码处理,以得到掩码后的氨基酸序列。
步骤807,采用初始的蛋白质结构预测模型对掩码后的氨基酸序列进行预测,以得到预测序列。
在本公开实施例中,可以采用初始的蛋白质结构预测模型对掩码后的氨基酸序列进行预测,以得到预测序列。
步骤808,根据预测序列和氨基酸序列之间的差异,对初始的蛋白质结构预测模型进行第二训练。
在本公开实施例中,可以根据预测序列和氨基酸序列之间的差异,对初始的蛋白质结构预测模型进行第二训练。例如,可以根据预测序列和氨基酸序列之间的差异,生成第二损失值,其中,第二损失值与上述差异为正向关系(即呈正相关关系),即差异越小,第二损失值的取值越小,反之,差异越大,第二损失值的取值越大,从而本公开中,可以根据第二损失值,对初始的蛋白质结构预测模型中的模型参数进行调整,以使第二损失值的取值最小化。
需要说明的是,上述仅以模型训练的终止条件为第二损失值的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
作为一种示例,以初始的蛋白质结构预测模型的结构如图9所示进行示例,图9中,Multi-Head Attention是指多头注意力层,Add&Norm是指残差连接-归一化层,FeedForward是指前馈神经网络。
标记氨基酸序列为x,掩码后的氨基酸序列为x",采用如图9所示的SparseMixture of Expert或Transformer对氨基酸序列x进行特征提取,得到的第一编码序列为
Figure BDA0003706542180000121
采用Sparse Mixture of Expert或Transformer对掩码后的氨基酸序列为x"进行特征提取,得到的编码序列为
Figure BDA0003706542180000122
则第二损失值可以通过下述公式确定:
Figure BDA0003706542180000123
Figure BDA0003706542180000124
其中,
Figure BDA0003706542180000125
pi[xi]表示取p中第i个位置
Figure BDA0003706542180000126
的xi对应的氨基酸的概率。例如,xi是第二类氨基酸(比如丙氨酸),则取pi第二个元素。
其中,Linear是指线性层,其中,线性层采用一个矩阵
Figure BDA0003706542180000127
Figure BDA0003706542180000128
进行线性映射,比如,可以根据下述公式,确定线性层的输出:
Figure BDA0003706542180000129
其中,softmax是指归一化指数函数,可以根据下述公式确定softmax函数的输出:
Figure BDA00037065421800001210
其中,对输入
Figure BDA00037065421800001211
的每行执行一次归一化操作,其中,
Figure BDA00037065421800001212
是指m中的第一行,
Figure BDA0003706542180000131
是指m中的第二行,…,
Figure BDA0003706542180000132
是指m中的第21行。
需要说明的是,本公开中对806至808的执行时序不作限制,即对第一训练和第二训练的先后顺序不作限制,比如,第二训练可以在第一训练之前执行,或者,第二训练可以与第一训练并列执行。
例如,可以根据第一损失值和第二损失值,生成第一目标损失值,从而可以根据第一目标损失值,对初始的蛋白质结构预测模型进行训练。其中,第一目标损失值与第一损失值为正向关系,且,第一目标损失值与第二损失值也为正向关系。
本公开实施例的蛋白质结构预测模型的训练方法,通过对氨基酸序列中的至少一个氨基酸进行掩码处理,以得到掩码后的氨基酸序列;采用初始的蛋白质结构预测模型对掩码后的氨基酸序列进行预测,以得到预测序列;根据预测序列和氨基酸序列之间的差异,对初始的蛋白质结构预测模型进行第二训练。由此,采用掩码方式,对初始的蛋白质结构预测模型进行第二训练,可以进一步提升模型的预测效果,即提升模型预测结果的准确性和可靠性。
在本公开实施例的一种可能的实现方式,还可以采用初始的蛋白质结构预测模型,预测MSA中各氨基酸位置的概率分布,根据预测结果对模型进行第三训练,以进一步提升模型的预测效果。下面结合图10,对上述过程进行详细说明。
图10为本公开实施例七所提供的蛋白质结构预测模型的训练方法的流程示意图。
如图10所示,在图7或图8所示实施例的基础上,该蛋白质结构预测模型的训练方法还可以包括以下步骤:
步骤1001,获取氨基酸序列对应的多个同源序列。
在本公开实施例中,可以获取氨基酸序列对应的多个同源序列。比如,可以采用相关技术中匹配规则,来确定与氨基酸序列匹配的多个同源序列。
步骤1002,根据多个同源序列,确定多个同源序列中各氨基酸位置对应的第一概率分布,其中,第一概率分布用于指示多个同源序列中对应氨基酸位置上多个氨基酸的出现概率。
在本公开实施例中,可以对多个同源序列中的各氨基酸位置上的氨基酸进行统计,以确定多个同源序列中各氨基酸位置对应的第一概率分布,其中,每个氨基酸位置对应的第一概率分布,用于指示多个同源序列中该氨基酸位置上多个氨基酸的出现概率。
步骤1003,采用初始的蛋白质结构预测模型根据氨基酸序列,预测多个同源序列中各氨基酸位置对应的第二概率分布。
在本公开实施例中,可以采用初始的蛋白质结构预测模型根据氨基酸序列,预测多个同源序列中各氨基酸位置对应的第二概率分布。也就是说,第一概率分布是氨基酸位置上的实际概率分布,而第二概率分布是氨基酸位置上的预测概率分布。
步骤1004,根据各氨基酸位置对应的第一概率分布和第二概率分布之间的差异,对初始的蛋白质结构预测模型进行第三训练。
在本公开实施例中,可以根据各氨基酸位置对应的第一概率分布和第二概率分布之间的差异,对初始的蛋白质结构预测模型进行第三训练。例如,可以根据各氨基酸位置对应的第一概率分布和第二概率分布之间的差异,生成第三损失值,其中,第三损失值与上述差异为正向关系(即呈正相关关系),即差异越小,第三损失值的取值越小,反之,差异越大,第三损失值的取值越大,从而本公开中,可以根据第三损失值,对初始的蛋白质结构预测模型中的模型参数进行调整,以使第三损失值的取值最小化。
需要说明的是,上述仅以模型训练的终止条件为第三损失值的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
作为一种示例,对于长度为L的氨基酸序列x而言,其对应的多个同源序列(MSA)是S×L的矩阵,该矩阵表示具有S条长度为L的同源序列和x接近。对于每个氨基酸位置i,可以统计一个21维的分布向量:Mi=[第i个位置氨基酸1的出现概率,第i个位置氨基酸2的出现概率,第i个位置氨基酸3的出现概率,…]。则可以对S个同源序列中的每个氨基酸位置分别进行统计,得到
Figure BDA0003706542180000141
其中,Mij表示第i个位置上,第j类氨基酸的出现概率,∑jMij=1。
则第三损失值可以通过下述公式确定:
Figure BDA0003706542180000142
Figure BDA0003706542180000143
其中,公式(13)中的线性层与公式(9)中的线性层可以为不同的线性层,
Figure BDA0003706542180000144
Figure BDA0003706542180000145
Figure BDA0003706542180000146
为第一编码序列,KL Divergence是指Kullback-Leibler散度损失,又称为相对熵损失。
本公开实施例的蛋白质结构预测模型的训练方法,通过获取氨基酸序列对应的多个同源序列;根据多个同源序列,确定多个同源序列中各氨基酸位置对应的第一概率分布,其中,第一概率分布用于指示多个同源序列中对应氨基酸位置上多个氨基酸的出现概率;采用初始的蛋白质结构预测模型根据氨基酸序列,预测多个同源序列中各氨基酸位置对应的第二概率分布;根据各氨基酸位置对应的第一概率分布和第二概率分布之间的差异,对初始的蛋白质结构预测模型进行第三训练。由此,通过模型预测MSA中各氨基酸位置的概率分布,根据预测的概率分布对模型进行第三训练,可以进一步提升模型的预测效果,即提升模型预测结果的准确性和可靠性。
在本公开实施例的一种可能的实现方式,还可以采用初始的蛋白质结构预测模型,预测两两氨基酸位置之间同一原子(比如Cα原子)之间的距离,根据预测结果对模型进行第四训练,以进一步提升模型的预测效果。下面结合图11,对上述过程进行详细说明。
图11为本公开实施例八所提供的蛋白质结构预测模型的训练方法的流程示意图。
如图11所示,在图7-图10中任一实施例的基础上,该蛋白质结构预测模型的训练方法还可以包括以下步骤:
步骤1101,根据各氨基酸中原子的参考坐标,确定各氨基酸中的任意两个氨基酸中同一原子之间的第一距离。
在本公开实施例中,可以根据各氨基酸中原子的参考坐标,确定各氨基酸中的任意两个氨基酸中同一原子之间的距离(本公开中记为第一距离)。
步骤1102,根据编码矩阵,确定上述同一原子之间的第二距离。
在本公开实施例中,可以根据编码矩阵,确定上述同一原子之间的第二距离。
作为一种示例,假设第i个氨基酸位置上的氨基酸与第j个氨基酸位置上的氨基酸中同一原子(比如Cα原子)之间的第一距离为
Figure BDA0003706542180000147
则第i个氨基酸位置上的氨基酸与第j个氨基酸位置上的氨基酸中同一原子(比如Cα原子)之间的第二距离可以为
Figure BDA0003706542180000148
步骤1103,根据同一原子的第一距离和第二距离之间的差异,对初始的蛋白质结构预测模型进行第四训练。
在本公开实施例中,可以根据上述同一原子的第一距离和第二距离之间的差异,对初始的蛋白质结构预测模型进行第四训练。例如,可以根据上述同一原子的第一距离和第二距离之间的差异,生成第四损失值,其中,第四损失值与上述差异为正向关系(即呈正相关关系),即差异越小,第四损失值的取值越小,反之,差异越大,第四损失值的取值越大,从而本公开中,可以根据第四损失值,对初始的蛋白质结构预测模型中的模型参数进行调整,以使第四损失值的取值最小化。
作为一种示例,第四损失值可以根据下述公式确定:
Figure BDA0003706542180000151
需要说明的是,公式(14)除了可以采用MSE(均方误差)损失,也可以采用分类损失等,本公开对此并不做限制。
需要说明的是,上述仅以模型训练的终止条件为第四损失值的取值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件可以为训练次数达到设定次数,或者,终止条件可以训练时长达到设定时长,等等,本公开对此并不做限制。
本公开实施例的蛋白质结构预测模型的训练方法,通过根据各氨基酸中原子的参考坐标,确定各氨基酸中的任意两个氨基酸中同一原子之间的第一距离;根据编码矩阵,确定上述同一原子之间的第二距离;根据同一原子的第一距离和第二距离之间的差异,对初始的蛋白质结构预测模型进行第四训练。由此,通过模型预测两两氨基酸位置之间同一原子之间的距离,根据预测的距离对模型进行第四训练,可以进一步提升模型的预测效果,即提升模型预测结果的准确性和可靠性。
作为一种示例,以蛋白质结构预测模型的结构如图9所示进行示例,可以通过以下步骤,确定蛋白质结构:
1、可以将蛋白质的氨基酸序列编码为一个序列向量(本公开中记为第二编码序列)。例如,对于长度为L的氨基酸序列,L个氨基酸中的每个氨基酸对应一个H维度的Embedding,最终得到L×H的向量y(0)
2、可以将y(0)输入至nt(取值范围为12~72)层Transformer进行处理,得到L×H的向量,过程为:
y(i+1)=Transformer(y(i));   (1)
其中,i=0,1,2,…,nt-1,y(i)为L×H的向量。
3、可以将步骤2得到的
Figure BDA0003706542180000152
进行处理(比如两两氨基酸位置的向量之间外积),以得到L×L×H的Pair Representation(本公开中记为编码矩阵),过程为:
Figure BDA0003706542180000153
其中,
Figure BDA0003706542180000154
是指第一编码序列
Figure BDA0003706542180000155
中的第i个氨基酸位置上的编码向量,
Figure BDA0003706542180000156
是指第一编码序列
Figure BDA0003706542180000157
中的第j个氨基酸位置上的编码向量,
Figure BDA0003706542180000158
是指
Figure BDA0003706542180000159
中第i行第j列元素。
4、将步骤2和步骤3得到的向量输入至ne层EvoFormer进行处理,得到相同尺寸的Sequence Embedding(本公开中记为映射序列)和Pair Representation(本公开中记为映射矩阵),过程为:
m(i+1),r=k,z(i+1),r=k=Evoformer(m(i),r=k,z(i),r=k);   (3)
其中,
Figure BDA00037065421800001510
m(i+1),r=k和z(i+1),r=k是指第i层EvoFormer的输出,m(i),r=k和z(i),r=k是指第i层EvoFormer的输入。
5、将最后一层EvoFormer输出的Sequence Embedding和Pair Representation输入至Structure Module,由Structure Module处理得到各原子的坐标,过程为:
Figure BDA0003706542180000161
6、根据各原子的坐标更新EvoFormer的输入,重复K次,得到最终各原子的预测坐标。
在蛋白质结构预测模型的训练阶段,可以引入多个损失值:
第一,可以在Transformer的输出,引入两类损失:
1)预测某些位置的氨基酸。可以在Transformer的输入端遮盖或者修改氨基酸序列中的部分氨基酸,在Transformer的输出端恢复出原来的氨基酸序列(仅需蛋白质的一级序列(即氨基酸序列),可达亿级别)。以第i个氨基酸位置上的氨基酸为例,可以通过以下公式,计算损失值(本公开中记为第二损失值):
Figure BDA0003706542180000162
Figure BDA0003706542180000163
其中,
Figure BDA0003706542180000164
是指Transformer对掩码后的氨基酸序列x"进行特征提取,得到的编码序列;
Figure BDA0003706542180000165
pi[xi]表示取p中第i个位置
Figure BDA0003706542180000166
的xi对应的氨基酸的概率。例如,xi是第二类氨基酸(比如丙氨酸),则取pi第二个元素。
2)预测MSA中各氨基酸位置的概率分布(需要(一级序列,MSA)二元组数据,可达千万级别)。
对于长度为L的氨基酸序列x而言,其对应的多个同源序列(MSA)是S×L的矩阵,该矩阵表示具有S条长度为L的同源序列和x接近。对于每个氨基酸位置i,可以统计一个21维的分布向量:Mi=[第i个位置氨基酸1的出现概率,第i个位置氨基酸2的出现概率,第i个位置氨基酸3的出现概率,…]。则可以对S个同源序列中的每个氨基酸位置分别进行统计,得到
Figure BDA0003706542180000167
其中,Mij表示第i个位置上,第j类氨基酸的出现概率,∑jMij=1。
则可以通过以下公式,计算损失值(本公开中记为第三损失值):
Figure BDA0003706542180000168
Figure BDA0003706542180000169
第二,预测两两氨基酸位置之间同一原子(比如Cα原子)之间的距离。假设第i个氨基酸位置上的氨基酸与第j个氨基酸位置上的氨基酸中同一原子(比如Cα原子)之间的真实距离(本公开中记为第一距离)为
Figure BDA00037065421800001610
则可以预测上述同一原子(比如Cα原子)之间的预测距离(本公开中记为第二距离),可以根据真实距离和预测距离之间的差异,生成第四损失值:
Figure BDA00037065421800001611
其中,
Figure BDA00037065421800001612
可以根据各原子的参考坐标计算得到,其中,参考坐标可以为标注的真实坐标,或者,参考坐标可以为预测精度较高的模型所预测得到的坐标。
需要说明的是,公式(14)除了可以采用MSE(均方误差)损失,也可以采用分类损失等,本公开对此并不做限制。
第三,在Structure Module的输出端引入坐标误差损失(本公开中记为第一损失值)。
可以利用上述多个损失值对模型进行共同训练,比如,可以对多个损失值进行加权求和,得到目标损失值,根据目标损失值,对蛋白质结构预测模型进行训练。或者,可以利用上述多个损失值对模型进行分阶段训练,比如,首个阶段可以根据第二损失值和/或第三损失值,对Transformer进行训练,即对Transformer中的模型参数进行调整,在模型收敛时,再加入EvoFormer和Structure Module共同训练。
综上,可以引入更大量的无监督(无蛋白质结构)的氨基酸序列,数量可以超过1亿;在EvoFormer引入训练代价更低、参数量更大的Transformer或Sparse Mixture ofExpert Transformer,直接记忆序列信息;完全不再依赖于模板信息,仅仅基于(一级序列,真实结构)的监督数据、(一级序列,预测结构)的自蒸馏数据和(一级序列,MSA)的无监督数据对模型进行训练。
其中,标注结构包括训练样本上标注的各氨基酸中原子的真实坐标;预测结构包括现有预测精度较高的模型预测的各氨基酸中原子的预测坐标。
由此,在模型的预测阶段,无需进行MSA提取,利用蛋白质的氨基酸序列(即一级序列)即可直接进行结构预测,时间消耗可以从20~30分钟降低至30秒以内,使得蛋白质设计等工作效率极大地提升。并且,针对MSA稀少的孤蛋白,利用一级序列的泛化能力,可以使得预测效果更优。
本公开还提出一种模型预测方法,即提出一种采用蛋白质结构预测模型,预测氨基酸中原子坐标的方法,图12为本公开实施例九所提供的氨基酸中原子坐标的确定方法。
如图12所示,该氨基酸中原子坐标的确定方法可以包括以下步骤:
步骤1201,获取待测蛋白质的氨基酸序列。
步骤1201的解释说明可以参见步骤201中的相关描述,在此不做赘述。
步骤1202,基于经过训练后的蛋白质结构预测模型和氨基酸序列,确定待测蛋白质中各氨基酸中原子的预测坐标。
在本公开实施例中,蛋白质结构预测模型可以采用上述图7-图11中任一实施例所述的方法训练得到。
在本公开实施例中,可以基于经过训练后的蛋白质结构预测模型和氨基酸序列,确定待测蛋白质中各氨基酸中原子的预测坐标。具体实现过程可以参见上述任一实施例中的相关描述,在此不做赘述。
本公开实施例的氨基酸中原子坐标的确定方法,通过获取待测蛋白质的氨基酸序列;基于经过训练后的蛋白质结构预测模型和氨基酸序列,确定待测蛋白质中各氨基酸中原子的预测坐标。由此,可以实现基于深度学习技术,预测待测蛋白质中各氨基酸中原子的预测坐标,可以提升预测结果的准确性和可靠性。
与上述图2至图6实施例提供的氨基酸中原子坐标的确定方法相对应,本公开还提供一种氨基酸中原子坐标的确定装置,由于本公开实施例提供的氨基酸中原子坐标的确定装置与上述图2至图6实施例提供的氨基酸中原子坐标的确定方法相对应,因此在氨基酸中原子坐标的确定方法的实施方式也适用于本公开实施例提供的氨基酸中原子坐标的确定装置,在本公开实施例中不再详细描述。
图13为本公开实施例十所提供的氨基酸中原子坐标的确定装置的结构示意图。
如图13所示,该氨基酸中原子坐标的确定装置1300可以包括:获取模块1301、提取模块1302、第一确定模块1303以及第二确定模块1304。
其中,获取模块1301,用于获取待测蛋白质的氨基酸序列。
提取模块1302,用于对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
第一确定模块1303,用于根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
第二确定模块1304,用于根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。
在本公开实施例的一种可能的实现方式中,提取模块1302,用于:对氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,第二编码序列包括多个氨基酸位置;将第二编码序列输入蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,第一编码序列中包括多个氨基酸位置上的编码向量。
在本公开实施例的一种可能的实现方式中,第一编码序列包括L个氨基酸位置,L为正整数;第一确定模块1303,用于:针对第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;根据L个氨基酸位置上的融合向量,生成第i个氨基酸位置对应的融合序列;根据各氨基酸位置对应的融合序列,生成编码矩阵;其中,i为不大于L的正整数。
在本公开实施例的一种可能的实现方式中,第二确定模块1304,可以包括:
输入单元,用于将第一编码序列和编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列以及编码矩阵对应的映射矩阵。
解码单元,用于采用蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,以得到各氨基酸中原子的预测坐标。
在本公开实施例的一种可能的实现方式中,解码单元,用于:采用解码网络对映射序列和映射矩阵进行解码,得到各氨基酸中原子的初始坐标;根据各氨基酸中原子的初始坐标、第一编码序列和编码矩阵,对各氨基酸中原子的初始坐标执行设定轮数的迭代,以对各氨基酸中原子进行坐标更新;将最后一轮迭代中更新得到的各氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。
在本公开实施例的一种可能的实现方式中,设定轮数的迭代中首轮迭代包括:
根据解码网络输出的各氨基酸中原子的初始坐标对编码矩阵进行更新,以得到首轮迭代的编码矩阵;
根据注意力网络输出的映射序列,对第一编码序列进行更新,以得到首轮迭代的第一编码序列;
将首轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到首轮迭代中注意力网络输出的映射序列和映射矩阵;
将首轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到首轮迭代中更新得到的各氨基酸中原子的坐标。
在本公开实施例的一种可能的实现方式中,设定轮数的迭代中非首轮迭代包括:
根据本轮迭代的前一轮迭代中更新得到的各氨基酸中原子的坐标,对编码矩阵进行更新,以得到本轮迭代的编码矩阵;
根据前一轮迭代中注意力网络输出的映射序列,对第一编码序列进行更新,以得到本轮迭代的第一编码序列;
将本轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到本轮迭代中注意力网络输出的映射序列和映射矩阵;
将本轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到本轮迭代中更新得到的各氨基酸中原子的坐标。
在本公开实施例的一种可能的实现方式中,解码单元,用于:根据前一轮迭代中更新得到的各氨基酸中原子的坐标,确定各氨基酸中任意两个氨基酸中原子之间的距离;根据任意两个氨基酸中原子之间的距离,生成第一距离矩阵;对第一距离矩阵进行维度映射,以得到第二距离矩阵;将第二距离矩阵与编码矩阵进行融合,以得到本轮迭代的编码矩阵。
本公开实施例的氨基酸中原子坐标的确定装置,通过对待测蛋白质的氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量;根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。由此,可以实现根据待测蛋白质的氨基酸序列,直接预测待测蛋白质的结构(即预测待测蛋白质中各氨基酸中原子的坐标),而无需利用待测蛋白质的同源序列来预测待测蛋白质的结构,可以提升待测蛋白质结构的预测效率。
与上述图7至图11实施例提供的蛋白质结构预测模型的训练方法相对应,本公开还提供一种蛋白质结构预测模型的训练装置,由于本公开实施例提供的蛋白质结构预测模型的训练装置与上述图7至图11实施例提供的蛋白质结构预测模型的训练方法相对应,因此在蛋白质结构预测模型的训练方法的实施方式也适用于本公开实施例提供的蛋白质结构预测模型的训练装置,在本公开实施例中不再详细描述。
图14为本公开实施例十一所提供的蛋白质结构预测模型的训练装置的结构示意图。
如图14所示,该蛋白质结构预测模型的训练装置1400可以包括:获取模块1401、提取模块1402、确定模块1403、预测模块1404以及训练模块1405。
其中,获取模块1401,用于获取训练样本,其中,训练样本包括样本蛋白质的氨基酸序列。
提取模块1402,用于采用初始的蛋白质结构预测模型对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量。
确定模块1403,用于根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵。
预测模块1404,用于采用初始的蛋白质结构预测模型根据第一编码序列和编码矩阵,预测样本蛋白质中各氨基酸中原子的预测坐标。
训练模块1405,用于根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练。
在本公开实施例的一种可能的实现方式中,提取模块1402,用于:对氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,第二编码序列包括多个氨基酸位置;将第二编码序列输入初始的蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,第一编码序列中包括多个氨基酸位置上的编码向量。
在本公开实施例的一种可能的实现方式中,第一编码序列包括L个氨基酸位置,L为正整数;确定模块1403,用于:针对第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;根据L个氨基酸位置上的融合向量,生成第i个氨基酸位置对应的融合序列;根据各氨基酸位置对应的融合序列,生成编码矩阵;其中,i为不大于L的正整数。
在本公开实施例的一种可能的实现方式中,该蛋白质结构预测模型的训练装置1400还可以包括:
处理模块,用于对氨基酸序列中的至少一个氨基酸进行掩码处理,以得到掩码后的氨基酸序列。
预测模块1404,还用于采用初始的蛋白质结构预测模型对掩码后的氨基酸序列进行预测,以得到预测序列。
训练模块1405,还用于根据预测序列和氨基酸序列之间的差异,对初始的蛋白质结构预测模型进行第二训练。
在本公开实施例的一种可能的实现方式中,获取模块1401,还用于获取氨基酸序列对应的多个同源序列。
确定模块1403,还用于根据多个同源序列,确定多个同源序列中各氨基酸位置对应的第一概率分布,其中,第一概率分布用于指示多个同源序列中对应氨基酸位置上多个氨基酸的出现概率。
预测模块1404,还用于采用初始的蛋白质结构预测模型根据氨基酸序列,预测多个同源序列中各氨基酸位置对应的第二概率分布。
训练模块1405,还用于根据各氨基酸位置对应的第一概率分布和第二概率分布之间的差异,对初始的蛋白质结构预测模型进行第三训练。
在本公开实施例的一种可能的实现方式中,确定模块1403,还用于根据各氨基酸中原子的参考坐标,确定各氨基酸中的任意两个氨基酸中同一原子之间的第一距离。
确定模块1403,还用于根据编码矩阵,确定同一原子之间的第二距离。
训练模块1405,还用于根据同一原子的第一距离和第二距离之间的差异,对初始的蛋白质结构预测模型进行第四训练。
在本公开实施例的一种可能的实现方式中,预测模块1404,用于:将第一编码序列和编码矩阵输入至初始的蛋白质结构预测模型中的注意力网络进行映射处理,以得到第一编码序列对应的映射序列以及编码矩阵对应的映射矩阵;采用初始的蛋白质结构预测模型中的解码网络对映射序列和映射矩阵进行解码,以得到各氨基酸中原子的预测坐标。
在本公开实施例的一种可能的实现方式中,预测模块1404,用于:采用解码网络对映射序列和映射矩阵进行解码,得到各氨基酸中原子的初始坐标;根据各氨基酸中原子的初始坐标、第一编码序列和编码矩阵,对各氨基酸中原子的初始坐标执行设定轮数的迭代,以对各氨基酸中原子进行坐标更新;将最后一轮迭代中更新得到的各氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。
在本公开实施例的一种可能的实现方式中,设定轮数的迭代中首轮迭代包括:
根据解码网络输出的各氨基酸中原子的初始坐标对编码矩阵进行更新,以得到首轮迭代的编码矩阵;
根据注意力网络输出的映射序列,对第一编码序列进行更新,以得到首轮迭代的第一编码序列;
将首轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到首轮迭代中注意力网络输出的映射序列和映射矩阵;
将首轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到首轮迭代中更新得到的各氨基酸中原子的坐标。
在本公开实施例的一种可能的实现方式中,设定轮数的迭代中非首轮迭代包括:
根据本轮迭代的前一轮迭代中更新得到的各氨基酸中原子的坐标,对编码矩阵进行更新,以得到本轮迭代的编码矩阵;
根据前一轮迭代中注意力网络输出的映射序列,对第一编码序列进行更新,以得到本轮迭代的第一编码序列;
将本轮迭代的第一编码序列和编码矩阵输入至注意力网络进行映射处理,以得到本轮迭代中注意力网络输出的映射序列和映射矩阵;
将本轮迭代的映射序列和映射矩阵输入至解码网络进行解码,以得到本轮迭代中更新得到的各氨基酸中原子的坐标。
在本公开实施例的一种可能的实现方式中,预测模块1404,用于:根据前一轮迭代中更新得到的各氨基酸中原子的坐标,确定各氨基酸中任意两个氨基酸中原子之间的距离;根据任意两个氨基酸中原子之间的距离,生成第一距离矩阵;对第一距离矩阵进行维度映射,以得到第二距离矩阵;将第二距离矩阵与编码矩阵进行融合,以得到本轮迭代的编码矩阵。
本公开实施例的蛋白质结构预测模型的训练装置,通过获取训练样本,其中,训练样本包括样本蛋白质的氨基酸序列;采用初始的蛋白质结构预测模型对氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量;根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;采用初始的结构识别模型根据第一编码序列和编码矩阵,预测样本蛋白质中各氨基酸中原子的预测坐标;根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练;根据各氨基酸中原子的预测坐标和训练样本对应的各氨基酸中原子的参考坐标之间的差异,对初始的蛋白质结构预测模型进行第一训练。由此,对初始的蛋白质结构预测模型进行训练,可以提升训练后的蛋白质结构预测模型的预测精度。并且,由于无需利用样本蛋白质的同源序列来对模型进行训练,可以减少模型的训练周期。
与上述图12实施例提供的氨基酸中原子坐标的确定方法相对应,本公开还提供一种氨基酸中原子坐标的确定装置,由于本公开实施例提供的氨基酸中原子坐标的确定装置与上述图12实施例提供的氨基酸中原子坐标的确定方法相对应,因此在氨基酸中原子坐标的确定方法的实施方式也适用于本公开实施例提供的氨基酸中原子坐标的确定装置,在本公开实施例中不再详细描述。
图15为本公开实施例十二所提供的氨基酸中原子坐标的确定装置的结构示意图。
如图15所示,该氨基酸中原子坐标的确定装置1500可以包括:获取模块1501和确定模块1502。
其中,获取模块1501,用于获取待测蛋白质的氨基酸序列。
确定模块1502,用于基于图14所述的装置所训练得到的蛋白质结构预测模型和氨基酸序列,确定待测蛋白质中各氨基酸中原子的预测坐标。
本公开实施例的氨基酸中原子坐标的确定装置,通过获取待测蛋白质的氨基酸序列;基于经过训练后的蛋白质结构预测模型和氨基酸序列,确定待测蛋白质中各氨基酸中原子的预测坐标。由此,可以实现基于深度学习技术,预测待测蛋白质中各氨基酸中原子的预测坐标,可以提升预测结果的准确性和可靠性。
为了实现上述实施例,本公开还提供一种电子设备,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的氨基酸中原子坐标的确定方法,或者,执行本公开上述任一实施例提出的蛋白质结构预测模型的训练方法。
为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的氨基酸中原子坐标的确定方法,或者,执行本公开上述任一实施例提出的蛋白质结构预测模型的训练方法。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的氨基酸中原子坐标的确定方法,或者,实现本公开上述任一实施例提出的蛋白质结构预测模型的训练方法。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图16示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图16所示,电子设备1600包括计算单元1601,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1602中的计算机程序或者从存储单元1608加载到RAM(Random AccessMemory,随机访问/存取存储器)1603中的计算机程序,来执行各种适当的动作和处理。在RAM 1603中,还可存储电子设备1600操作所需的各种程序和数据。计算单元1601、ROM 1602以及RAM 1603通过总线1604彼此相连。I/O(Input/Output,输入/输出)接口1605也连接至总线1604。
电子设备1600中的多个部件连接至I/O接口1605,包括:输入单元1606,例如键盘、鼠标等;输出单元1607,例如各种类型的显示器、扬声器等;存储单元1608,例如磁盘、光盘等;以及通信单元1609,例如网卡、调制解调器、无线通信收发机等。通信单元1609允许电子设备1600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1601的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1601执行上文所描述的各个方法和处理,例如上述氨基酸中原子坐标的确定方法或者蛋白质结构预测模型的训练方法。例如,在一些实施例中,上述氨基酸中原子坐标的确定方法或蛋白质结构预测模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1602和/或通信单元1609而被载入和/或安装到电子设备1600上。当计算机程序加载到RAM 1603并由计算单元1601执行时,可以执行上文描述的氨基酸中原子坐标的确定方法或蛋白质结构预测模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述氨基酸中原子坐标的确定方法或蛋白质结构预测模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开实施例的技术方案,通过对待测蛋白质的氨基酸序列进行特征提取,以得到第一编码序列,其中,第一编码序列中包括氨基酸序列中多个氨基酸的编码向量;根据第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;根据第一编码序列和编码矩阵,确定待测蛋白质中各氨基酸中原子的预测坐标。由此,可以实现根据待测蛋白质的氨基酸序列,直接预测待测蛋白质的结构(即预测待测蛋白质中各氨基酸中原子的坐标),而无需利用待测蛋白质的同源序列来预测待测蛋白质的结构,可以提升待测蛋白质结构的预测效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提出的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (28)

1.一种氨基酸中原子坐标的确定方法,包括:
获取待测蛋白质的氨基酸序列;
对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
根据所述第一编码序列和所述编码矩阵,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标;
其中,所述第一编码序列包括L个氨基酸位置,L为正整数;
所述根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵,包括:
针对所述第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;
根据所述L个氨基酸位置上的融合向量,生成所述第i个氨基酸位置对应的融合序列;
根据各所述氨基酸位置对应的融合序列,生成所述编码矩阵;其中,i为不大于L的正整数。
2.根据权利要求1所述的方法,其中,所述对所述氨基酸序列进行特征提取,以得到所述第一编码序列,包括:
对所述氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,所述第二编码序列包括多个氨基酸位置;
将所述第二编码序列输入蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述多个氨基酸位置上的编码向量。
3.根据权利要求1-2中任一项所述的方法,其中,所述根据所述第一编码序列和所述编码矩阵,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标,包括:
将所述第一编码序列和所述编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到所述第一编码序列对应的映射序列以及所述编码矩阵对应的映射矩阵;
采用所述蛋白质结构预测模型中的解码网络对所述映射序列和所述映射矩阵进行解码,以得到各所述氨基酸中原子的预测坐标。
4.根据权利要求3所述的方法,其中,所述采用所述蛋白质结构预测模型中的解码网络对所述映射序列和所述映射矩阵进行解码,以得到各所述氨基酸中原子的预测坐标,包括:
采用所述解码网络对所述映射序列和所述映射矩阵进行解码,得到各所述氨基酸中原子的初始坐标;
根据各所述氨基酸中原子的初始坐标、所述第一编码序列和所述编码矩阵,对各所述氨基酸中原子的初始坐标执行设定轮数的迭代,以对各所述氨基酸中原子进行坐标更新;
将最后一轮所述迭代中更新得到的各所述氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。
5.根据权利要求4所述的方法,其中,所述设定轮数的迭代中首轮迭代包括:
根据所述解码网络输出的各所述氨基酸中原子的初始坐标对所述编码矩阵进行更新,以得到所述首轮迭代的编码矩阵;
根据所述注意力网络输出的映射序列,对所述第一编码序列进行更新,以得到所述首轮迭代的第一编码序列;
将所述首轮迭代的第一编码序列和编码矩阵输入至所述注意力网络进行映射处理,以得到所述首轮迭代中所述注意力网络输出的映射序列和映射矩阵;
将所述首轮迭代的映射序列和映射矩阵输入至所述解码网络进行解码,以得到所述首轮迭代中更新得到的各所述氨基酸中原子的坐标。
6.根据权利要求5所述的方法,其中,所述设定轮数的迭代中非首轮迭代包括:
根据本轮迭代的前一轮迭代中更新得到的各所述氨基酸中原子的坐标,对所述编码矩阵进行更新,以得到所述本轮迭代的编码矩阵;
根据所述前一轮迭代中所述注意力网络输出的映射序列,对所述第一编码序列进行更新,以得到所述本轮迭代的第一编码序列;
将所述本轮迭代的第一编码序列和编码矩阵输入至所述注意力网络进行映射处理,以得到所述本轮迭代中所述注意力网络输出的映射序列和映射矩阵;
将所述本轮迭代的映射序列和映射矩阵输入至所述解码网络进行解码,以得到所述本轮迭代中更新得到的各所述氨基酸中原子的坐标。
7.根据权利要求6所述的方法,其中,所述根据本轮迭代的前一轮迭代中更新得到的各所述氨基酸中原子的坐标,对所述编码矩阵进行更新,以得到所述本轮迭代的编码矩阵,包括:
根据所述前一轮迭代中更新得到的各所述氨基酸中原子的坐标,确定各所述氨基酸中任意两个氨基酸中原子之间的距离;
根据所述任意两个氨基酸中原子之间的距离,生成第一距离矩阵;
对所述第一距离矩阵进行维度映射,以得到第二距离矩阵;
将所述第二距离矩阵与所述编码矩阵进行融合,以得到所述本轮迭代的编码矩阵。
8.一种蛋白质结构预测模型的训练方法,包括:
获取训练样本,其中,所述训练样本包括样本蛋白质的氨基酸序列;
采用初始的蛋白质结构预测模型对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
采用所述初始的蛋白质结构预测模型根据所述第一编码序列和所述编码矩阵,预测所述样本蛋白质中各所述氨基酸中原子的预测坐标;
根据各所述氨基酸中原子的预测坐标和所述训练样本对应的各所述氨基酸中原子的参考坐标之间的差异,对所述初始的蛋白质结构预测模型进行第一训练;
其中,所述第一编码序列包括L个氨基酸位置,L为正整数;
所述根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵,包括:
针对所述第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;
根据所述L个氨基酸位置上的融合向量,生成所述第i个氨基酸位置对应的融合序列;
根据各所述氨基酸位置对应的融合序列,生成所述编码矩阵;其中,i为不大于L的正整数。
9.根据权利要求8所述的方法,其中,所述采用初始的蛋白质结构预测模型对所述氨基酸序列进行特征提取,以得到第一编码序列,包括:
对所述氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,所述第二编码序列包括多个氨基酸位置;
将所述第二编码序列输入所述初始的蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述多个氨基酸位置上的编码向量。
10.根据权利要求8所述的方法,其中,所述方法还包括:
对所述氨基酸序列中的至少一个氨基酸进行掩码处理,以得到掩码后的氨基酸序列;
采用所述初始的蛋白质结构预测模型对所述掩码后的氨基酸序列进行预测,以得到预测序列;
根据所述预测序列和所述氨基酸序列之间的差异,对所述初始的蛋白质结构预测模型进行第二训练。
11.根据权利要求8所述的方法,其中,所述方法还包括:
获取所述氨基酸序列对应的多个同源序列;
根据所述多个同源序列,确定所述多个同源序列中各氨基酸位置对应的第一概率分布,其中,所述第一概率分布用于指示所述多个同源序列中对应氨基酸位置上多个氨基酸的出现概率;
采用所述初始的蛋白质结构预测模型根据所述氨基酸序列,预测所述多个同源序列中各所述氨基酸位置对应的第二概率分布;
根据各所述氨基酸位置对应的第一概率分布和第二概率分布之间的差异,对所述初始的蛋白质结构预测模型进行第三训练。
12.根据权利要求8所述的方法,其中,所述方法还包括:
根据各所述氨基酸中原子的参考坐标,确定各所述氨基酸中的任意两个氨基酸中同一原子之间的第一距离;
根据所述编码矩阵,确定所述同一原子之间的第二距离;
根据所述同一原子的第一距离和第二距离之间的差异,对所述初始的蛋白质结构预测模型进行第四训练。
13.一种氨基酸中原子坐标的确定方法,包括:
获取待测蛋白质的氨基酸序列;
基于权利要求8-12中任一项所述的方法所训练得到的蛋白质结构预测模型和所述氨基酸序列,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标。
14.一种氨基酸中原子坐标的确定装置,包括:
获取模块,用于获取待测蛋白质的氨基酸序列;
提取模块,用于对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
第一确定模块,用于根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
第二确定模块,用于根据所述第一编码序列和所述编码矩阵,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标;
其中,所述第一编码序列包括L个氨基酸位置,L为正整数;
所述第一确定模块,还用于:
针对所述第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;
根据所述L个氨基酸位置上的融合向量,生成所述第i个氨基酸位置对应的融合序列;
根据各所述氨基酸位置对应的融合序列,生成所述编码矩阵;其中,i为不大于L的正整数。
15.根据权利要求14所述的装置,其中,所述提取模块,用于:
对所述氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,所述第二编码序列包括多个氨基酸位置;
将所述第二编码序列输入蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述多个氨基酸位置上的编码向量。
16.根据权利要求14-15中任一项所述的装置,其中,所述第二确定模块,包括:
输入单元,用于将所述第一编码序列和所述编码矩阵输入至蛋白质结构预测模型中的注意力网络进行映射处理,以得到所述第一编码序列对应的映射序列以及所述编码矩阵对应的映射矩阵;
解码单元,用于采用所述蛋白质结构预测模型中的解码网络对所述映射序列和所述映射矩阵进行解码,以得到各所述氨基酸中原子的预测坐标。
17.根据权利要求16所述的装置,其中,所述解码单元,用于:
采用所述解码网络对所述映射序列和所述映射矩阵进行解码,得到各所述氨基酸中原子的初始坐标;
根据各所述氨基酸中原子的初始坐标、所述第一编码序列和所述编码矩阵,对各所述氨基酸中原子的初始坐标执行设定轮数的迭代,以对各所述氨基酸中原子进行坐标更新;
将最后一轮所述迭代中更新得到的各所述氨基酸中原子的坐标,作为对应氨基酸中原子的预测坐标。
18.根据权利要求17所述的装置,其中,所述设定轮数的迭代中首轮迭代包括:
根据所述解码网络输出的各所述氨基酸中原子的初始坐标对所述编码矩阵进行更新,以得到所述首轮迭代的编码矩阵;
根据所述注意力网络输出的映射序列,对所述第一编码序列进行更新,以得到所述首轮迭代的第一编码序列;
将所述首轮迭代的第一编码序列和编码矩阵输入至所述注意力网络进行映射处理,以得到所述首轮迭代中所述注意力网络输出的映射序列和映射矩阵;
将所述首轮迭代的映射序列和映射矩阵输入至所述解码网络进行解码,以得到所述首轮迭代中更新得到的各所述氨基酸中原子的坐标。
19.根据权利要求18所述的装置,其中,所述设定轮数的迭代中非首轮迭代包括:
根据本轮迭代的前一轮迭代中更新得到的各所述氨基酸中原子的坐标,对所述编码矩阵进行更新,以得到所述本轮迭代的编码矩阵;
根据所述前一轮迭代中所述注意力网络输出的映射序列,对所述第一编码序列进行更新,以得到所述本轮迭代的第一编码序列;
将所述本轮迭代的第一编码序列和编码矩阵输入至所述注意力网络进行映射处理,以得到所述本轮迭代中所述注意力网络输出的映射序列和映射矩阵;
将所述本轮迭代的映射序列和映射矩阵输入至所述解码网络进行解码,以得到所述本轮迭代中更新得到的各所述氨基酸中原子的坐标。
20.根据权利要求19所述的装置,其中,所述解码单元,用于:
根据所述前一轮迭代中更新得到的各所述氨基酸中原子的坐标,确定各所述氨基酸中任意两个氨基酸中原子之间的距离;
根据所述任意两个氨基酸中原子之间的距离,生成第一距离矩阵;
对所述第一距离矩阵进行维度映射,以得到第二距离矩阵;
将所述第二距离矩阵与所述编码矩阵进行融合,以得到所述本轮迭代的编码矩阵。
21.一种蛋白质结构预测模型的训练装置,包括:
获取模块,用于获取训练样本,其中,所述训练样本包括样本蛋白质的氨基酸序列;
提取模块,用于采用初始的蛋白质结构预测模型对所述氨基酸序列进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述氨基酸序列中多个氨基酸的编码向量;
确定模块,用于根据所述第一编码序列中任意两个氨基酸的编码向量的融合向量,确定编码矩阵;
预测模块,用于采用所述初始的蛋白质结构预测模型根据所述第一编码序列和所述编码矩阵,预测所述样本蛋白质中各所述氨基酸中原子的预测坐标;
训练模块,用于根据各所述氨基酸中原子的预测坐标和所述训练样本对应的各所述氨基酸中原子的参考坐标之间的差异,对所述初始的蛋白质结构预测模型进行第一训练;
其中,所述第一编码序列包括L个氨基酸位置,L为正整数;
所述确定模块,还用于:
针对所述第一编码序列中的第i个氨基酸位置,将对应编码向量分别与L个氨基酸位置上的编码向量进行融合,以得到L个氨基酸位置上的融合向量;
根据所述L个氨基酸位置上的融合向量,生成所述第i个氨基酸位置对应的融合序列;
根据各所述氨基酸位置对应的融合序列,生成所述编码矩阵;其中,i为不大于L的正整数。
22.根据权利要求21所述的装置,其中,所述提取模块,用于:
对所述氨基酸序列中的多个氨基酸进行编码,以得到第二编码序列,其中,所述第二编码序列包括多个氨基酸位置;
将所述第二编码序列输入所述初始的蛋白质结构预测模型中的至少一层编码层进行特征提取,以得到第一编码序列,其中,所述第一编码序列中包括所述多个氨基酸位置上的编码向量。
23.根据权利要求21所述的装置,其中,所述装置还包括:
处理模块,用于对所述氨基酸序列中的至少一个氨基酸进行掩码处理,以得到掩码后的氨基酸序列;
所述预测模块,还用于采用所述初始的蛋白质结构预测模型对所述掩码后的氨基酸序列进行预测,以得到预测序列;
所述训练模块,还用于根据所述预测序列和所述氨基酸序列之间的差异,对所述初始的蛋白质结构预测模型进行第二训练。
24.根据权利要求21所述的装置,其中,
所述获取模块,还用于获取所述氨基酸序列对应的多个同源序列;
所述确定模块,还用于根据所述多个同源序列,确定所述多个同源序列中各氨基酸位置对应的第一概率分布,其中,所述第一概率分布用于指示所述多个同源序列中对应氨基酸位置上多个氨基酸的出现概率;
所述预测模块,还用于采用所述初始的蛋白质结构预测模型根据所述氨基酸序列,预测所述多个同源序列中各所述氨基酸位置对应的第二概率分布;
所述训练模块,还用于根据各所述氨基酸位置对应的第一概率分布和第二概率分布之间的差异,对所述初始的蛋白质结构预测模型进行第三训练。
25.根据权利要求21所述的装置,其中,
所述确定模块,还用于根据各所述氨基酸中原子的参考坐标,确定各所述氨基酸中的任意两个氨基酸中同一原子之间的第一距离;
所述确定模块,还用于根据所述编码矩阵,确定所述同一原子之间的第二距离;
所述训练模块,还用于根据所述同一原子的第一距离和第二距离之间的差异,对所述初始的蛋白质结构预测模型进行第四训练。
26.一种氨基酸中原子坐标的确定装置,包括:
获取模块,用于获取待测蛋白质的氨基酸序列;
确定模块,用于基于权利要求21-25中任一项所述的装置所训练得到的蛋白质结构预测模型和所述氨基酸序列,确定所述待测蛋白质中各所述氨基酸中原子的预测坐标。
27.一种电子设备,其中,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法,或者,执行权利要求8-12中任一项所述的方法,或者,执行权利要求13所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法,或者,执行根据权利要求8-12中任一项所述的方法,或者,执行根据权利要求13所述的方法。
CN202210707422.7A 2022-06-21 2022-06-21 氨基酸中原子坐标的确定及训练方法、装置、设备和介质 Active CN115116559B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210707422.7A CN115116559B (zh) 2022-06-21 2022-06-21 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
JP2023022515A JP7508614B2 (ja) 2022-06-21 2023-02-16 アミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210707422.7A CN115116559B (zh) 2022-06-21 2022-06-21 氨基酸中原子坐标的确定及训练方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115116559A CN115116559A (zh) 2022-09-27
CN115116559B true CN115116559B (zh) 2023-04-18

Family

ID=83329026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210707422.7A Active CN115116559B (zh) 2022-06-21 2022-06-21 氨基酸中原子坐标的确定及训练方法、装置、设备和介质

Country Status (2)

Country Link
JP (1) JP7508614B2 (zh)
CN (1) CN115116559B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115512762B (zh) * 2022-10-26 2023-06-20 北京百度网讯科技有限公司 多肽序列的生成方法、装置、电子设备及存储介质
CN116189769A (zh) * 2022-12-12 2023-05-30 百图生科(北京)智能技术有限公司 神经网络的训练方法和预测蛋白质结构的方法
CN116230074B (zh) * 2022-12-14 2024-06-11 粤港澳大湾区数字经济研究院(福田) 蛋白质结构预测方法、模型训练方法、装置、设备及介质
CN116884473B (zh) * 2023-05-22 2024-04-26 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种蛋白质功能预测模型生成方法及装置
CN116913383B (zh) * 2023-09-13 2023-11-28 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN118098372B (zh) * 2024-04-23 2024-07-02 华东交通大学 基于自注意力编码和池化机制的毒力因子识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1552856A (zh) * 1997-06-23 2004-12-08 ������ҩ�����޹�˾ 编码纤溶酶原激活蛋白的dna
CN108875310A (zh) * 2017-05-12 2018-11-23 河南师范大学 Dna结合蛋白序列信息特征提取与分类方法及装置
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN113990384A (zh) * 2021-08-12 2022-01-28 清华大学 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003087310A2 (en) * 2002-04-04 2003-10-23 California Institute Of Technology Directed protein docking algorithm
CN106244608B (zh) * 2016-08-08 2019-10-25 中国科学技术大学 诱导的t7 rna聚合酶
CN112585685A (zh) 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习
CN110706738B (zh) * 2019-10-30 2020-11-20 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
US20210166779A1 (en) * 2019-12-02 2021-06-03 Deepmind Technologies Limited Protein Structure Prediction from Amino Acid Sequences Using Self-Attention Neural Networks
CN111081311A (zh) * 2019-12-26 2020-04-28 青岛科技大学 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法
CN113571124B (zh) * 2020-04-29 2024-04-23 中国科学院上海药物研究所 一种配体-蛋白质相互作用的预测方法及装置
CN114333980B (zh) * 2021-08-27 2024-06-07 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114283878B (zh) 2021-08-27 2024-06-25 腾讯科技(深圳)有限公司 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
CN114333982B (zh) * 2021-11-26 2023-09-26 北京百度网讯科技有限公司 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置
CN114496064A (zh) * 2022-01-18 2022-05-13 武汉大学 Ccs预测模型构建方法、装置、设备及可读存储介质
CN114613427B (zh) * 2022-03-15 2023-01-31 水木未来(北京)科技有限公司 蛋白质三维结构预测方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1552856A (zh) * 1997-06-23 2004-12-08 ������ҩ�����޹�˾ 编码纤溶酶原激活蛋白的dna
CN108875310A (zh) * 2017-05-12 2018-11-23 河南师范大学 Dna结合蛋白序列信息特征提取与分类方法及装置
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN113990384A (zh) * 2021-08-12 2022-01-28 清华大学 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用

Also Published As

Publication number Publication date
JP7508614B2 (ja) 2024-07-01
JP2023062080A (ja) 2023-05-02
CN115116559A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN115116559B (zh) 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
CN113553864A (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN113837308B (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN113361578A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN112580733A (zh) 分类模型的训练方法、装置、设备以及存储介质
CN115565177B (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN113902007A (zh) 模型训练方法及装置、图像识别方法及装置、设备和介质
CN113177449A (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN115482395A (zh) 模型训练方法、图像分类方法、装置、电子设备和介质
CN115631381A (zh) 分类模型训练方法、图像分类方法、装置及电子设备
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN117094451B (zh) 一种耗电量的预测方法、装置及终端
CN117290818A (zh) 一种多维时间序列预测方法、电子设备及存储介质
CN117495421A (zh) 基于电力通信网建设的电网通信工程造价预测方法
CN114490965B (zh) 问题处理方法、装置、电子设备和存储介质
CN114792097B (zh) 预训练模型提示向量的确定方法、装置及电子设备
CN113361522B (zh) 用于确定字符序列的方法、装置和电子设备
CN115239889A (zh) 3d重建网络的训练方法、3d重建方法、装置、设备和介质
CN114067099A (zh) 学生图像识别网络的训练方法及图像识别方法
CN114973279B (zh) 手写文本图像生成模型的训练方法、装置和存储介质
CN117973683B (zh) 基于评估知识表征的装备体系效能评估装置
CN114896993B (zh) 翻译模型的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant