CN115527605B - 基于深度图模型的抗体结构预测方法 - Google Patents
基于深度图模型的抗体结构预测方法 Download PDFInfo
- Publication number
- CN115527605B CN115527605B CN202211374655.6A CN202211374655A CN115527605B CN 115527605 B CN115527605 B CN 115527605B CN 202211374655 A CN202211374655 A CN 202211374655A CN 115527605 B CN115527605 B CN 115527605B
- Authority
- CN
- China
- Prior art keywords
- features
- msa
- feature
- pair
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 20
- 238000005381 potential energy Methods 0.000 claims abstract description 16
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000004931 aggregating effect Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 16
- 125000004429 atom Chemical group 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 7
- 238000002864 sequence alignment Methods 0.000 claims description 5
- 150000001413 amino acids Chemical class 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 241000039077 Copula Species 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000002699 waste material Substances 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 19
- 239000000047 product Substances 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000000455 protein structure prediction Methods 0.000 description 4
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101800001554 RNA-directed RNA polymerase Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000006241 metabolic reaction Methods 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Public Health (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于深度图模型的抗体结构预测方法,构建特征提取模块,提取目标抗体序列的多序列联配和模板序列以生成初始MSA特征和Pair特征;构建双轨的特征更新模块,使用注意力机制实现MSA特征和Pair特征之间的更新;基于图Transformer构建特征聚合模块,更新和聚合MSA特征、Pair特征,以获取最终嵌入表示;构建距离图预测模块,预测残基对之间的相对距离和方向矩阵;构造势能函数,并对势能函数进行优化,以获取势能最小化的抗体三维结构。本发明实现了对抗体三维结构的高效、准确预测,能够有益于改善蛋白质结构测定费时费力的现状,同时解决抗体同源性数据不足的问题。
Description
技术领域
本发明涉及生物信息学技术领域,尤其是涉及基于深度图模型的抗体结构预测方法。
背景技术
蛋白质在广泛的生物过程中发挥着关键作用,包括催化代谢反应、响应刺激和运输分子,是生命活动的物质基础。这些生物活性在很大程度上取决于蛋白质三级结构的精细细节。其中,抗体是由于生物体对入侵病原体的免疫反应而产生的一种特殊的蛋白质。由于抗体的特异性和广泛适用性,对抗体的研究一向是生物学和医学领域的一大热点。而随着计算机技术的发展,采用机器学习和深度学习的方法对抗体进行研究也获得了人们的关注。抗体上的互补决定区(CDR)是其实现高特异性的重要原因,了解抗体不同区域的三维结构可以大大促进对其特异性功能的理解。
目前,X-晶体衍射、核磁共振(NMR)和冷冻电镜技术等实验方法是测定蛋白质三级结构的主流,但是这些实验在时间和金钱上都耗费巨大,无法实现大规模蛋白质的结构解析。因此,科学的计算方法对蛋白质三维结构预测具有重大意义,不仅可以弥补蛋白质序列测定和蛋白质结构测定之间的巨大差距,而且将会成为蛋白质结构测定的有力补充。
虽然现在已经出现了一些使用化学方法和深度学习方法对蛋白质三维结构进行预测的计算方法,并取得了一定成效。但是针对抗体建模和结构预测仍然是一个悬而未决的问题。与其他蛋白质不同,抗体互补决定区中的H3环的产生过程是独一无二的,编码H3环的基因和编码抗体其余部分的基因是分开的。与抗体上其他环相比,H3环发生变异的概率会更大且不可控,而在这个变异过程中会产生极其多样化的序列,因此很难找到与其相似的同源序列。如何恰当地对抗体结构进行建模以应对抗体同源性数据不足的问题,是抗体结构预测的一个难点。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于深度图模型的抗体结构预测方法,其基于抗体序列的多序列联配和模板序列,生成MSA特征和成对(Pair)特征,并采用图神经网络对特征迭代更新,通过深度残差卷积网络和构建能量函数对抗体三维结构进行预测。
为实现上述目的,本发明提供了如下技术方案:
基于深度图模型的抗体结构预测方法,包括如下步骤:
步骤一,在蛋白质结构数据库中搜寻与目标抗体序列相似的序列,生成多序列联配和模板序列,并使得目标抗体序列与模板序列相对齐;然后构建特征提取模块,从多序列联配和模板信息生成初始的MSA特征和Pair特征;
步骤二,构建双轨的特征更新模块,使用轴向注意力机制实现MSA特征、Pair特征、以及MSA特征和Pair特征之间的更新;
步骤三,基于图Transformer构建特征聚合模块,对MSA特征和Pair特征进行进一步的更新和聚合,以获取MSA特征和Pair特征的最终嵌入表示;
步骤四,构建距离图预测模块,搭建一个深度残差卷积网络,基于MSA特征和Pair特征预测残基对之间的相对距离和方向矩阵;
步骤五,基于残基对之间的相对距离和方向矩阵,通过多维尺度分析来构建初始抗体结构;构造约束的势能函数,并对势能函数进行优化,以获取势能最小化的抗体三维结构。
进一步的,步骤一中初始的MSA特征和Pair特征的生成过程如下:
将多序列联配中单个氨基酸和间隔视为字符,通过嵌入层将它们映射为dmsa维的向量,以获取初始的MSA特征,表示为其中,N表示多序列联配中序列的数量,L表示多序列联配中残基的数量;
将位置相似性和对齐置信度得分作为1D特征矩阵f1D,将通过HHSearch得到的HHSearch概率,将序列相似性和序列同一性作为标量特征矩阵f0D,并将1D特征矩阵f1D和标量特征矩阵f0D相连接,得到二维的输入矩阵;然后通过轴向注意力对二维的输入矩阵进行处理,然后使用像素级注意力机制将其合并为单个2D特征矩阵f2D;最后将2D特征矩阵f2D、初始的MSA特征、多序列联配的碱基对相对位置编码Pij相连接,并映射为dpair维的向量,作为Pair特征,表示为 其中,Ntempl表示模板序列的数量。
进一步的,步骤二中使用轴向注意力机制对MSA特征进行更新,即先在竖直方向进行列自注意力,然后再在水平方向进行行自注意力;对于列自注意力,使用门控的自注意力机制让属于相同目标残基的元素交换信息;对于行自注意力,引入可学习的位置权重与多序列联配的注意力相结合,以减少对未对齐区域的关注。
进一步的,步骤二中MSA特征和Pair特征之间的更新包括:
MSA特征对Pair特征更新,采用CopulaNet方法中的外积和聚合思想从多序列联配中提取残基对间的相互作用信息,并计算共进化信号,通过共进化信号对Pair特征进行更新;
Pair特征对MSA特征更新,将从Pair特征得到的注意力图直接应用到MSA特征上,以便通过在3D空间中距离相近的Pair特征来对MSA特征进行更新。
进一步的,步骤三的具体步骤为:将目标抗体结构建模为图,MSA特征作为初始节点特征,Pair特征作为初始边特征;计算节点i和节点j之间的边e的多头注意力,在获得图上的多头注意力系数之后,再对节点j传递到节点i的消息进行聚合;在层之间使用门控残差连接,以防止模型过平滑;对于最后一层图Transformer,需要对多头注意力取平均并去除非线性变换;最终,经过图Transformer对节点特征-MSA特征和边特征-Pair特征的进一步更新和聚合,可获得MSA特征和Pair特征的最终嵌入表示。
进一步的,步骤四的具体步骤为:将目标抗体结构表示为一组残基间距离和方向角的集合,包括3个残基间距离矩阵:Cα原子之间(dCA:Cα-Cα),Cβ原子之间(dCB:Cβ-Cβ)和N-O原子之间(dN-O:N-O),以及3个残基间方向矩阵:2个二面角(ω:Cα-Cβ-Cβ-Cα,θ:N-Cα-Cβ-Cβ)和1个扭转角对上述6个残基间距离和方向矩阵中每个值均进行离散化处理,映射到不同区间中;
将MSA特征和Pair特征作为网络输入,残基间的相对距离和方向矩阵 作为网络输出,构建一个深度残差卷积网络,通过最小化总体损失对网络进行优化;网络的总体损失定义为:
式中,分别对应于dCA,dCB,dN-O,ω,θ,/>的损失,基于均方误差计算;λ1,λ2,λ3,λ4,λ5,λ6分别为dCA,dCB,dN-O,ω,θ,/>的权重参数。
综上,本发明采用上述基于深度图模型的抗体结构预测方法,对多序列联配和模板信息进行特征提取、更新和聚合,通过预测距离图,构建并优化势能函数,以实现对抗体三维结构的高效、准确预测,能够有益于改善蛋白质结构测定费时费力的现状,同时应对抗体同源性数据不足的问题。
附图说明
图1为本发明基于深度图模型的抗体结构预测方法的流程图;
图2为本发明基于深度图模型的抗体结构预测方法的网络结构图;
图3为本发明基于深度图模型的抗体结构预测方法的预测结果示意图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
本发明以若干公开的抗体结构数据集为素材,运行环境是Cuda10-Python3。
如图1和图2所示的基于深度图模型的抗体结构预测方法,包括以下步骤:
步骤一,获取目标抗体序列的多序列联配(MSA)和模板序列,构建特征提取模块,提取多序列联配和模板信息以生成初始MSA特征和成对(Pair)特征。
(1.1)在蛋白质结构数据库中搜寻与目标抗体序列相似的序列,生成多序列联配(MSA)和模板序列,并对模板序列进行裁剪使得目标抗体序列与模板序列相对齐。
(1.2)构建特征提取模块,从多序列联配(MSA)和模板序列生成初始的MSA特征和成对(Pair)特征。
网络的初始输入是蛋白质单链的多序列联配(MSA)信息和模板序列信息。MSA可表示为矩阵x∈RN×L,其中行对应于MSA中的N条序列,列对应于序列中的L个位置。首先,对于残基而言,将MSA序列中单个氨基酸和间隔视为字符(共21个),通过嵌入层将它们映射为dmsa维的向量,以获取最初的MSA特征,表示为并为每个序列中的残基添加了正弦位置编码,用来表示残基间的位置关系。其次,对于序列而言,为目标抗体序列添加了一个指示器而不是位置编码,这是因为MSA是无序的序列集,不需要位置信息。计算过程如下:
式中,Xsi表示MSA中第s条序列、第i个残基的MSA特征;表示残基i的one-hot编码嵌入;Linear表示线性变换。
将目标抗体序列与模板序列相对齐,从对齐位置的模板序列结构中提取成对的(残基对之间的)距离和方向信息,以生成最初的成对特征。将位置相似性和对齐置信度得分作为1D特征矩阵f1D,将通过HHSearch得到的HHSearch概率,将序列相似性和序列同一性作为标量特征矩阵f0D。并将1D特征矩阵和标量特征矩阵相连接,得到二维的输入矩阵。首先,通过一轮轴向注意力对二维的输入矩阵进行处理,即先在竖直方向进行自注意力,然后再在水平方向进行自注意力。然后使用像素级注意力机制将其合并为单个2D特征矩阵f2D。计算过程如下:
f2D=Attnpixel-wise(Attnaxial(CONCAT(f1D,f0D)))
式中,f1D表示1D特征矩阵,f0D表示标量特征矩阵,f2D表示2D特征矩阵,Attnpixel-wise表示像素级注意力机制,Attnaxial表示轴向注意力机制,CONCAT表示连接操作。
接下来,将此处理后的特征矩阵与目标抗体序列的嵌入相连接,并映射为dpair维的向量,作为成对特征,表示为其中Ntempl表示模板结构的数量。为了向网络提供残基的位置信息,将相对位置编码也添加到成对特征中,计算过程如下:
式中,Pij表示残基i和残基j间的相对位置编码。具体来说,计算残基对i,j之间的相对距离,并对其进行one-hot编码,再添加到成对特征Zij中。计算过程如下:
式中,fresidue_index表示残基的位置编号,one_hot表示one-hot编码。
步骤二,构建双轨的特征更新模块,使用注意力机制实现MSA特征、成对特征、以及MSA特征和成对特征之间的更新。
(2.1)构建MSA2MSA特征更新子模块,使用自注意力机制,对初始的MSA特征进行更新。
经过上一步的操作,获取MSA的嵌入之后,使用轴向注意力机制对MSA特征进行更新,其中每次更新的输入和输出都是大小为/>的矩阵。MSA特征是通过轴向注意力进行处理的,即先在竖直方向进行自注意力,然后再在水平方向进行自注意力。
对于水平方向的行自注意力,本方案提出了一种受MSA Transformer体系结构启发的注意力。在MSA Transformer体系结构中,因为MSA中的同源序列应具有相似的结构,因此先引入残基级的注意力思想。具体来说,通过引入可学习的位置权重与MSA序列的注意力相结合,从而优化了这种注意力机制,以减少对未对齐区域的关注。该注意力机制可以表示为:
式中,N是MSA中序列的数量,Qn、Kn、Wn是对应于第n个目标抗体序列的查询矩阵、键值矩阵、位置权重矩阵。具体计算过程如下:
其中,LinearNoBias表示没有偏置向量的线性变换,wsij表示残基对之间的位置权重矩阵,h∈{1,2…Nhead},Nhead表示多头注意力的头数,分别对应于第s条序列第i个残基的查询矩阵、键矩阵、值矩阵,/>保存的是中间计算结果,i和j表示残基序号。
对于竖直方向的列自注意力,使用门控的自注意力机制让属于相同目标残基的元素交换信息,计算过程如下:
式中,LinearNoBias表示没有偏置向量的线性变换,c表示查询、键和值矩阵的维度,h∈{1,2…Nhead},Nhead表示多头注意力的头数,分别对应于第s条序列第i个残基的查询矩阵、键矩阵、值矩阵,/>保存的是中间计算结果,i和t表示残基序号。
(2.2)构建MSA2Pair特征更新子模块,从MSA特征提取共进化信号,对成对特征进行更新。
为了从给定的MSA序列中提取残基对间的相互作用信息,采用了CopulaNet方法中的外积和聚合思想。外积可以获取每个序列中残基对之间的相关性,通过对MSA中所有序列的信息进行聚合,可以对协方差矩阵的有效性进行测量。例如,在最简单的情况下,序列是通过one-hot编码进行嵌入的,可以得到一个21x21维的替换矩阵用来表示残基对(包括间隔)之间的关系。当对所有序列中的替换矩阵取平均值时,所得的21x21维的特征矩阵将根据它们在3D空间中是否发生相互作用而显示不同的分布。一方面,如果特征矩阵分布广泛,则表示残基对之间的突变随机且不相关,这意味着这两个残基在3D空间中接触的可能性较小。另一方面,如果特征矩阵具有鲜明的分布,则表示残基对之间的突变是相关的,这意味着这两个残基在3D空间中接触的可能性更大。在实际应用中,使用网络学习的MSA嵌入,而不是简单的one-hot编码。
对于具有L个残基t1t2…tL的目标抗体序列,以及包含N条同源序列的MSA,对MSA中第s条序列的MSA特征进行更新,可获得该序列的MSA嵌入特征,表示为Xs∈RL×d,其中d=dmsa表示嵌入特征的维度。对于目标抗体序列中的残基ti,提取所有同源序列中的嵌入特征并聚合,作为残基ti的嵌入特征,表示为计算过程如下:
式中,ws表示第s个同源序列的权重,并且表示所有同源序列的总权重。按照PSICOV建立的惯例,权重ws的计算方式是,与第s条序列具有至少80%序列同一性的相似同源序列数量的倒数,因此Meff表示MSA中有效同源序列的数量。
对于目标抗体序列中的两个残基i和j,使用聚合的共进化特征hij∈RD表示它们的共同突变,其中D表示共进化特征的维度,hij是指聚合嵌入特征及其外积的连接:
hij=CONCAT(fij,gij)
式中,表示残基i和j的嵌入特征的聚合外积,计算过程如下:
式中,表示外积运算。
由于外积可能需要巨大的内存,因此首先将MSA嵌入映射到较小的隐藏层维度(32维),以减少内存需求。在对MSA中的每个序列中任意两个残基嵌入进行外积之后,再对具有位置序列权重的所有序列中的外积进行加权平均,然后再将这些聚合得到的共进化特征与1D特征(MSA特征的加权平均值),以及之前的MSA更新步骤中的残基级的注意力图相结合。之后再将这些特征投影到与成对特征相匹配的隐藏层维度。计算过程如下:
式中,gij是指残基i和j的嵌入特征的聚合外积,是指残基i和j的1D特征。
(2.3)构建Pair2Pair特征更新子模块,通过轴向自注意力对成对特征进行细化。
首先,基于MSA特征所蕴含的共进化信息对成对特征进行更新,再使用轴向注意力对成对特征进行细化。根据DeepMind的实验结果可知,注意力机制更适合蛋白质结构预测,其可以直接学习相距较远的两个残基之间的关系,因此本方案使用轴向注意力而不是2D卷积对成对特征进行更新和细化。计算过程如下:
式中,LinearNoBias表示没有偏置向量的线性变换,c表示查询、键和值矩阵的维度,h∈{1,2…Nhead},Nhead表示多头注意力的头数,分别对应于残基i和j的查询矩阵、键矩阵、值矩阵,/>表示偏置向量,/>保存的是中间计算结果,i和j表示残基序号,k表示通道数。
(2.4)构建Pair2MSA特征更新子模块,从成对特征编码的结构信息来更新MSA特征。
受到AlphaFold2体系结构的启发,本方案使用成对特征编码的结构信息来更新MSA特征。由于成对特征编码的是残基之间的结构信息,因此可以将从成对特征得到的注意力图直接应用到MSA特征上,以便可以通过在3D空间中距离相近的成对特征来对MSA特征进行更新。计算过程如下:
式中,LinearNoBias表示没有偏置向量的线性变换,c表示查询、键和值矩阵的维度,h∈{1,2…Nhead},Nhead表示多头注意力的头数,分别对应于残基i和j的查询矩阵、键矩阵、值矩阵,/>表示偏置向量,/>保存的是中间计算结果,i和j表示残基序号,k表示通道数。
步骤三,基于图Transformer(Graph Transformer)构建特征聚合模块,对步骤二得到的MSA特征和成对特征进行进一步更新和聚合,以获取MSA特征和成对特征的最终嵌入表示。
(3.1)基于MSA特征和Pair特征,将蛋白质三维结构建模为图。
将蛋白质建模为图G=(V,E),将残基视为节点,残基之间的相互关系视为边,其中V表示图上的节点集合,且|V|=L,E表示图上的边集合。基于步骤二得到的MSA特征和Pair特征,将MSA特征作为初始节点特征H,Pair特征/>作为初始边特征e。使用邻接矩阵A表示图G,其中A={aij}∈Rn×n,aij表示节点i和节点j之间的关系,n表示残基节点的数量。
对于图G,本方案使用图卷积网络(GCN)基于节点邻域学习图上每个节点的嵌入表示。在半监督节点分类任务中,GCN是基于拉普拉斯平滑假设的最经典的模型之一。GCN通过若干层对图上的节点特征F进行变换和传播,包括线性层和非线性激活层,以获得节点的嵌入表示。第l层GCN的计算过程如下:
H(l+1)=σ(D-1AH(l)W(l))
式中,σ表示激活函数,W(l)表示第l层的可学习权重,H(l)表示第l层的节点嵌入表示,第一层的输入H(0)即为节点初始特征F。
(3.2)构建一个图Transformer,对MSA特征和Pair特征进行聚合,以获取最终嵌入表示。
由于Transformer机制在自然语言处理任务中已被证明非常强大,图Transformer将其应用到图学习中,同时对边特征进行表示和学习。具体来说,对于给定的节点特征计算节点i和节点j之间的边e的多头注意力,计算过程如下:
式中,是放缩点积函数,d是隐藏层维度。在多头注意力机制中,对于第c个注意力,首先使用不同的可学习参数矩阵/>将输入特征和/>分别转换为查询矩阵/>和键矩阵/>再对边特征eij进行编码并添加到键矩阵作为每一层的额外信息。
获得图上的多头注意力系数之后,再对节点j传递到节点i的消息进行聚合,计算过程如下:
式中,∥表示对C个注意力的连接操作。与GCN的消息传递过程相比,使用多头注意力矩阵代替原来的归一化邻接矩阵作为消息传递的转移矩阵。将转换为/>以进行加权求和。
此外,本方案在层之间使用门控残差连接,以防止模型过平滑,计算过程如下:
值得注意的是,对于最后一层图Transformer,需要对多头注意力取平均并去除非线性变换,计算过程如下:
此时,经过图Transformer对节点特征(MSA特征)和边特征(Pair特征)的进一步更新和聚合,可获得MSA特征和Pair特征/> 的最终嵌入表示。
步骤四,构建距离图预测模块,搭建一个深度残差卷积网络,基于步骤三得到的MSA特征和成对特征,预测残基对之间的相对距离和方向矩阵。
(4.1)使用残基对之间的相对距离和方向矩阵表示残基之间的相互关系,以对抗体三维结构进行表示。
对于结构预测方法而言,选择合适的蛋白质结构表示方法至关重要。与一般的蛋白质结构预测方法相类似,本方案将抗体结构表示为一组残基间距离和方向角的集合。具体而言,包括3个残基间距离矩阵:Cα原子之间(dCA:Cα-Cα),Cβ原子之间(dCB:Cβ-Cβ)和N-O原子之间(dN-O:N-O),以及3个残基间方向矩阵:2个二面角(ω:Cα-Cβ-Cβ-Cα,θ:N-Cα-Cβ-Cβ)和1个扭转角对上述6个残基间距离和方向矩阵中每个值均进行离散化处理,映射到不同区间中。对于3个距离矩阵而言,将残基之间的距离分为/>之间的36个区间,区间宽度为/>并额外增加一个区间以用来表示残基间距离超过/>对于2个二面角矩阵而言,将残基之间的二面角分为0~360°之间的36个区间,区间宽度为10°;对于1个扭转角矩阵而言,将残基之间的扭转角分为0~180°之间的36个区间,区间宽度为5°。
(4.2)构建一个深度残差卷积网络,以预测残基间的相对距离和方向矩阵。将MSA特征X和Pair特征Z作为网络输入,残基间的相对距离和方向矩阵 作为网络输出,构建一个深度残差卷积网络。该网络将一系列1D和2D卷积应用于输入特征,以预测残基间的相对距离和方向矩阵。第一个1D卷积(内核大小为17)将L×dmsa维的MSA特征投影到L×32维的张量。接下来,L×32维的张量通过一组三个1D残差块(两个核大小为17的1D卷积),此时维数保持不变。之后,将L×32维的张量扩展到L×L×32维度,得到一个新张量。使用一个2D卷积将L×L×dpair的Pair特征投影到L×L×32维的张量,并与之前得到的新张量相连接,将序列通道转换为成对的,从而得到L×L×64维的张量。之后通过25个2D残差块(两个2D卷积,内核大小为5×5),其中每个卷积后面都有一个归一化。经过2D残差块,网络分为六个输出分支,分别对应于6个残基间的相对距离和方向矩阵。每个输出分支都包含一个十字交叉注意力模块(RCCA),以便每个输出的残基对都聚合了其他所有残基对的信息。其中,注意力层为模型提供了其他蛋白质结构预测模型中经常缺少的可解释性。
获得网络预测的输出结果dCA,dCB,dN-O,ω,θ,之后,通过最小化总体损失/>对网络进行优化。网络的总体损失定义为:
式中,分别对应于dCA,dCB,dN-O,ω,θ,/>的损失,λ1,λ2,λ3,λ4,λ5,λ6分别对应于dCA,dCB,dN-O,ω,θ,/>的权重参数。/>这六种损失的计算均采用均方误差的形式,即计算输出结果与真实值之间的平均平方误差,定义为:
式中,表示网络预测的输出结果,y表示真实值。
步骤五,基于步骤四得到的残基对之间的相对距离和方向矩阵,构造势能函数,并对势能函数进行优化,以获取势能最小化的抗体三维结构。
(5.1)根据残基对之间的相对距离和方向矩阵,通过多维尺度分析来构建初始抗体结构。
类似于一些通用的蛋白质结构预测方法,本方案使用约束的能量最小化来从网络预测的输出生成完整的蛋白质3D结构。但与之前的方法不同的是,这些方法通常以某种形式的扭转采样开始,而本方案通过多维尺度分析(MDS)来构建初始模型。由于抗体结构区域的高度保守性,选择通过MDS而不是扭转采样来构建初始结构,可以获得保守区域残基的准确3D坐标,从而避免了昂贵的不同抗体结构的采样。值得注意的是,所有主链原子的相对位置都是完全由网络预测输出的L×L维的Cα原子之间的距离矩阵dCA、残基间方向矩阵ω,θ,/>生成的。通过这四个残基间距离和方向矩阵,可以构造出主链原子之间的距离矩阵,从这个距离矩阵中,MDS生成一组初始的主链原子三维坐标集合,随后再通过能量最小化在这组集合中确定最准确的三维坐标。
(5.2)根据残基对之间的相对距离和方向矩阵,构建约束的势能函数,并对势能函数进行优化,以获取势能最小化的抗体三维结构。
通过softmax激活函数,将网络预测的六个输出矩阵转化为能量电势,再使用三次样条函数将这些离散的能量电势转换为连续约束。从初始的MDS模型开始,使用约束来指导Rosetta中的准牛顿最小化(L-BFGS)。首先,使用简化的Rosetta能量函数共同对约束进行优化,并将抗体侧链表示为一个有一定半径大小的粗粒化球,以生成粗粒化的抗体结构。接下来,使用受约束的全原子松弛对粗粒化的结构进行细化,将侧链从单个粗粒化球细化为多个侧链原子,并消除在此过程中可能产生的冲突。松弛之后,再次使用约束和Rosetta全原子能量函数对结构进行能量最小化。这个优化过程需要重复5遍,以生成5个备选结构,并选择能量最低的结构作为最终生成的抗体三维结构。
最终,经过以上5步骤对目标抗体序列处理后,可得到目标抗体结构的三维预测图,如图3所示,实现了对抗体结构的高效、准确预测。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。
Claims (5)
1.基于深度图模型的抗体结构预测方法,其特征在于,包括如下步骤:
步骤一,在蛋白质结构数据库中搜寻与目标抗体序列相似的序列,生成多序列联配和模板序列,并使得目标抗体序列与模板序列相对齐;然后构建特征提取模块,从多序列联配和模板信息生成初始的MSA特征和Pair特征;
步骤二,构建双轨的特征更新模块,使用轴向注意力机制实现MSA特征、Pair特征、以及MSA特征和Pair特征之间的更新;
步骤三,基于图Transformer构建特征聚合模块,对MSA特征和Pair特征进行进一步的更新和聚合,以获取MSA特征和Pair特征的最终嵌入表示;
步骤四,构建距离图预测模块,搭建一个深度残差卷积网络,基于MSA特征和Pair特征预测残基对之间的相对距离和方向矩阵;
步骤五,基于残基对之间的相对距离和方向矩阵,通过多维尺度分析来构建初始抗体结构;构造约束的势能函数,并对势能函数进行优化,以获取势能最小化的抗体三维结构;
步骤四的具体步骤为:将目标抗体结构表示为一组残基间距离和方向角的集合,包括3个残基间距离矩阵:Cα原子之间(dCA:Cα-Cα),Cβ原子之间(dCB:Cβ-Cβ)和N-O原子之间(dN-O:N-O),以及3个残基间方向矩阵:2个二面角(ω:Cα-Cβ-Cβ-Cα,θ:N-Cα-Cβ-Cβ)和1个扭转角对上述6个残基间距离和方向矩阵中每个值均进行离散化处理,映射到不同区间中;
将MSA特征和Pair特征作为网络输入,残基间的相对距离和方向矩阵作为网络输出,构建一个深度残差卷积网络,通过最小化总体损失/>对网络进行优化;网络的总体损失定义为:
式中,分别对应于dCA,dCB,dN-O,ω,θ,/>的损失,基于均方误差计算;λ1,λ2,λ3,λ4,λ5,λ6分别为dCA,dCB,dN-O,ω,θ,/>的权重参数。
2.根据权利要求1所述的抗体结构预测方法,其特征在于,步骤一中初始的MSA特征和Pair特征的生成过程如下:
将多序列联配中单个氨基酸和间隔视为字符,通过嵌入层将它们映射为dmsa维的向量,以获取初始的MSA特征,表示为其中,N表示多序列联配中序列的数量,L表示多序列联配中残基的数量;
将位置相似性和对齐置信度得分作为1D特征矩阵f1D,将序列相似性和序列同一性作为标量特征矩阵f0D,并将1D特征矩阵f1D和标量特征矩阵f0D相连接,得到二维的输入矩阵;然后通过轴向注意力对二维的输入矩阵进行处理,然后使用像素级注意力机制将其合并为单个2D特征矩阵f2D;最后将2D特征矩阵f2D、初始的MSA特征、多序列联配的残基对相对位置编码Pij相连接,并映射为dpair维的向量,作为Pair特征,表示为其中,Ntempl表示模板序列的数量。
3.根据权利要求2所述的抗体结构预测方法,其特征在于,步骤二中使用轴向注意力机制对MSA特征进行更新,即先在竖直方向进行列自注意力,然后再在水平方向进行行自注意力;对于列自注意力,使用门控的自注意力机制让属于相同目标残基的元素交换信息;对于行自注意力,引入可学习的位置权重与多序列联配的注意力相结合,以减少对未对齐区域的关注。
4.根据权利要求3所述的抗体结构预测方法,其特征在于,步骤二中MSA特征和Pair特征之间的更新包括:
MSA特征对Pair特征更新,采用CopulaNet方法中的外积和聚合思想从多序列联配中提取残基对间的相互作用信息,并计算共进化信号,通过共进化信号对Pair特征进行更新;
Pair特征对MSA特征更新,将从Pair特征得到的注意力图直接应用到MSA特征上,以便通过在3D空间中距离相近的Pair特征来对MSA特征进行更新。
5.根据权利要求4所述的抗体结构预测方法,其特征在于,步骤三的具体步骤为:将目标抗体结构建模为图,MSA特征作为初始节点特征,Pair特征作为初始边特征;将残基视为节点,残基之间的相互关系视为边;计算节点i和节点j之间的边e的多头注意力,在获得图上的多头注意力系数之后,再对节点j传递到节点i的消息进行聚合;在层之间使用门控残差连接,以防止模型过平滑;对于最后一层图Transformer,需要对多头注意力取平均并去除非线性变换;最终,经过图Transformer对节点特征MSA特征和边特征Pair特征的进一步更新和聚合,可获得MSA特征和Pair特征的最终嵌入表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211374655.6A CN115527605B (zh) | 2022-11-04 | 2022-11-04 | 基于深度图模型的抗体结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211374655.6A CN115527605B (zh) | 2022-11-04 | 2022-11-04 | 基于深度图模型的抗体结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115527605A CN115527605A (zh) | 2022-12-27 |
CN115527605B true CN115527605B (zh) | 2023-12-12 |
Family
ID=84705153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211374655.6A Active CN115527605B (zh) | 2022-11-04 | 2022-11-04 | 基于深度图模型的抗体结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527605B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844632B (zh) * | 2023-07-07 | 2024-02-09 | 北京分子之心科技有限公司 | 一种用于确定抗体序列结构的方法与设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085247A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习的蛋白质残基接触预测方法 |
CN114360637A (zh) * | 2022-01-10 | 2022-04-15 | 山东省计算中心(国家超级计算济南中心) | 一种基于图注意力网络的蛋白质-配体亲和力评价方法 |
WO2022112248A1 (en) * | 2020-11-28 | 2022-06-02 | Deepmind Technologies Limited | Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings |
CN114708903A (zh) * | 2022-03-14 | 2022-07-05 | 浙江工业大学 | 一种基于自注意力机制的蛋白质残基间距离预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210174893A1 (en) * | 2019-12-10 | 2021-06-10 | Homodeus, Inc. | Protein structure prediction |
WO2021119256A1 (en) * | 2019-12-10 | 2021-06-17 | Homodeus, Inc. | Enhanced protein structure prediction using protein homolog discovery and constrained distograms |
-
2022
- 2022-11-04 CN CN202211374655.6A patent/CN115527605B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085247A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习的蛋白质残基接触预测方法 |
WO2022112248A1 (en) * | 2020-11-28 | 2022-06-02 | Deepmind Technologies Limited | Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings |
CN114360637A (zh) * | 2022-01-10 | 2022-04-15 | 山东省计算中心(国家超级计算济南中心) | 一种基于图注意力网络的蛋白质-配体亲和力评价方法 |
CN114708903A (zh) * | 2022-03-14 | 2022-07-05 | 浙江工业大学 | 一种基于自注意力机制的蛋白质残基间距离预测方法 |
Non-Patent Citations (2)
Title |
---|
"Highly accurate protein structure prediction with AlphaFold";John Jumper et al;《Nature》;第596卷;第583-589页 * |
"The trRosetta server for fast and accurate protein structure prediction";Zongyang Du et al;《Nature protocols》;第16卷;第5634-5651页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115527605A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910951B (zh) | 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法 | |
Jisna et al. | Protein structure prediction: conventional and deep learning perspectives | |
Wang et al. | Evolutionary extreme learning machine ensembles with size control | |
CN115527605B (zh) | 基于深度图模型的抗体结构预测方法 | |
Saini et al. | Protein fold recognition using genetic algorithm optimized voting scheme and profile bigram | |
Zhao et al. | AttentionDTA: Drug–target binding affinity prediction by sequence-based deep learning with attention mechanism | |
CN112085247A (zh) | 一种基于深度学习的蛋白质残基接触预测方法 | |
CN116486900B (zh) | 基于深度模态数据融合的药物靶标亲和度预测方法 | |
Tanoori et al. | Drug-target continuous binding affinity prediction using multiple sources of information | |
CN114496069A (zh) | 一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法 | |
Wang et al. | A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences | |
Zhang et al. | Feature extraction of ancient Chinese characters based on deep convolution neural network and big data analysis | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
Sepahvand et al. | An adaptive teacher–student learning algorithm with decomposed knowledge distillation for on-edge intelligence | |
CN116955675B (zh) | 基于细粒度相似关系对比学习的哈希图像检索方法及网络 | |
CN112085245A (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
CN116312808A (zh) | 一种基于TransGAT的药物-靶标相互作用预测方法 | |
CN116312752A (zh) | 一种基于等变图神经网络的刚体蛋白质对接方法 | |
Geethu et al. | Improved 3-D protein structure predictions using deep ResNet model | |
Ma et al. | Drug-target binding affinity prediction method based on a deep graph neural network | |
Liang et al. | Prediction of enzyme function based on a structure relation network | |
Peng et al. | BINDTI: a bi-directional intention network for drug-target interaction identification based on attention mechanisms | |
Iraji et al. | Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method | |
Li et al. | Point cloud classification network based on self-attention mechanism | |
Zhang et al. | A fast evolutionary knowledge transfer search for multiscale deep neural architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |