CN116343911B - 基于三维空间生物反应的药物靶标亲和度预测方法及系统 - Google Patents
基于三维空间生物反应的药物靶标亲和度预测方法及系统 Download PDFInfo
- Publication number
- CN116343911B CN116343911B CN202310370327.7A CN202310370327A CN116343911B CN 116343911 B CN116343911 B CN 116343911B CN 202310370327 A CN202310370327 A CN 202310370327A CN 116343911 B CN116343911 B CN 116343911B
- Authority
- CN
- China
- Prior art keywords
- protein
- compound
- information
- dimensional
- structure information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 17
- 239000003814 drug Substances 0.000 title description 11
- 229940079593 drug Drugs 0.000 title description 10
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 182
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 182
- 150000001875 compounds Chemical class 0.000 claims abstract description 114
- 230000003993 interaction Effects 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 239000003596 drug target Substances 0.000 claims abstract description 23
- 230000002452 interceptive effect Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims description 16
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 230000008512 biological response Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 101710085938 Matrix protein Proteins 0.000 description 2
- 101710127721 Membrane protein Proteins 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000012912 drug discovery process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009878 intermolecular interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Public Health (AREA)
- Medicinal Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了基于三维空间生物反应的药物靶标亲和度预测方法及系统,其中方法步骤包括:获取蛋白质三维结构信息和化合物三维结构信息;并对蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;对蛋白质口袋结构信息和化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;将蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;基于蛋白质特征和化合物特征,构建蛋白质口袋‑化合物二分图;基于蛋白质口袋‑化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;将交互融合结果馈入全连接神经网络,得到预测结果。
Description
技术领域
本申请涉及生物分子领域,具体涉及基于三维空间生物反应的药物靶标亲和度预测方法及系统。
背景技术
预测药物和靶点之间的相互作用关系及强度在药物发现过程中起着关键作用。该方向的研究大致可分为药物-靶标相互作用(Drug-Target Interaction,DTI)预测和药物-靶标亲和度(Drug-target affinity,DTA)预测。DTI预测属于二分类预测问题,更多关注药物与靶标之间是否存在相互作用关系。DTA预测属于回归预测问题,更多关注药物与靶标结合的紧密程度。近年来,基于计算机的DTI、DTA预测方法因其耗时短、成本低等优势而备受关注。
当前基于机器学习的DTA预测方法主要基于分子序列或二级结构特征进行研究,缺少对蛋白质三维结构的考虑,容易丢失药物-靶标空间生物反应过程中的重要信息。另外,现有DTA预测方法只研究了分子序列或二级结构信息的特征提取问题。然而,面向基于三维结构的DTA预测研究,有必要分析药物-靶标空间生物作用特点,提取蛋白质表面口袋和化合物的三维结构特征,并要求这些特征不受旋转、平移和反射等空间变换的影响。针对这些问题,本研究从蛋白质和药物的三维结构信息出发,分析药物-靶标的三维空间结合特性,提出一种基于三维空间生物反应建模的药物靶标亲和度预测方法,以提高DTA预测方法的可解释性和可信度。
发明内容
为解决上述背景中的技术问题,本申请提出一种基于三维空间生物反应建模的药物靶标亲和度预测方法及系统,主要基于蛋白质与药物结构信息,构建具有生物可解释性的DTA预测模型。
为实现上述目的,本申请提供了基于三维空间生物反应的药物靶标亲和度预测方法,步骤包括:
获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
将所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;
基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
将所述交互融合结果馈入全连接神经网络,得到预测结果。
优选的,获取所述化合物三维结构信息和所述蛋白质口袋结构信息的方法包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
优选的,所述嵌入编码为线性转换过程,且嵌入层具有可训练权重;所述位置编码对每个所述蛋白质氨基酸序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码;所述位置编码还对所述化合物SMILES序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。
优选的,进行所述特征提取的方法包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征。
优选的,得到所述交互融合结果的方法包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
本申请还提供了基于三维空间生物反应的药物靶标亲和度预测系统,包括:获取模块、编码模块、提取模块、构建模块、交互模块和预测模块;
所述获取模块用于获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
所述编码模块用于对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
所述提取模块用于对所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;
所述构建模块用于基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
所述交互模块用于基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
所述预测模块用于将所述交互融合结果馈入全连接神经网络,得到预测结果。
优选的,所述获取模块的工作流程包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
优选的,所述提取模块的工作流程包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征。
优选的,所述交互模块的工作流程包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
与现有技术相比,本申请的有益效果如下:
不同于现有基于分子序列或二级结构信息的DTA预测方法,本申请利用蛋白质和化合物三维结构信息表达药物-靶标空间生物反应过程,提出蛋白质口袋三维结构信息表示方法,基于分子间相互作用机制,设计药物-靶标三维空间结构深度特征提取与融合交互网络模型,以获得高准确度、高可信度的DTA预测结果,解决传统DTA预测模型因缺乏蛋白质三维结构信息而导致的模型生物可解释性不足、预测结果可信度不高的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请实施例的L层E(3)-GNN网络结构示意图;
图3为本申请实施例的蛋白质-化合物三维结构特征融合与交互学习过程示意图;
图4为本申请实施例的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本实施例的模型框架图。首先,从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB等诸多数据库搜集、下载大量的蛋白质氨基酸序列和化合物SMILES序列。将蛋白质氨基酸序列输入AlphaFold2软件,生成蛋白质三维结构信息。然后,利用CASTp聚类算法,获得药物-靶标三维空间发生化学反应的结合位点信息,即蛋白质口袋三维结构信息(蛋白质口袋结构信息),其中包含蛋白质口袋残基组成信息和空间相对位置信息。将化合物SMILES序列输入RDKit软件,生成化合物三维结构信息。
之后,对蛋白质口袋三维结构信息和化合物三维结构信息进行编码,主要包括嵌入编码和位置编码。嵌入编码为线性转换过程,且嵌入层具有可训练权重。位置编码对每个氨基酸或化合物分子的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。由此得到蛋白质编码结果和化合物编码结果。
将蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征。在本实施例汇总,同一空间表达蛋白质-化合物结合过程,不应受空间绝对位置的限制。基于此,本研究采用三维等变图神经网络,重点关注蛋白质口袋和化合物内部各原子相对位置,提取不受空间变换影响的分子结构特征。将蛋白质口袋编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取。其中,蛋白质口袋特征提取的流程包括:
构建带有空间结构信息的蛋白质口袋图,如公式(1)所示:
Gp=(υp,εp) (1)
式中,υp表示口袋图的图节点,代表组成口袋的M个原子节点特征,任一节点vi∈υp,i=1,2,...,M;εp表示口袋图的边,代表原子之间连接关系,任一条边eij∈εp。
构建L层E(3)-GNN网络,如图2所示。其输入为蛋白质口袋图,通过L层等变图卷积操作的连续提取及最后的池化,输出蛋白质口袋结构深度特征。每个等变图卷积层(Equivariant Graph Convolutional Layer,EGCL)获得的节点特征向量表示为节点空间坐标向量表示为/>l为当前的层数。l=0对应蛋白质口袋图进入EGCL之前的初始节点特征和位置特征。/>和/>作为输入送入下一卷积层进行特征提取,即:
hl+1,xl+1=EGCL[hl,xl,εp] (2)
为了实现特征提取过程中结构信息的全局传递,并保证最终得到的口袋特征不受空间变换影响,采取以下措施:
①边信息嵌入,如公式(3)所示:
式中,mij表示边信息嵌入结果,fedge()表示边操作函数,aij表示边属性,表示残基对之间相对位置,通过该方式将位置信息融入特征提取过程。
②邻居节点信息聚合,如公式(4)所示:
式中,mi表示邻居节点信息聚合结果,N(i)表示所有指向节点vi的邻居节点。
③节点坐标嵌入,利用与所有邻居节点的相对位置差异的加权和对坐标xi进行嵌入更新,如公式(5)所示:
式中,fx()表示对边嵌入信息转换维度的操作函数。
④节点特征嵌入更新,如公式(6)所示:
式中,fh()表示节点操作函数。
由于化合物特征提取的流程与上述蛋白质口袋特征提取流程类似,在本实施例中便不再赘述。
等变图卷积层在进行邻居信息聚合时,随着层数l的增加,会导致过平滑问题,将限制节点的多样性并影响算法准确性。为保证特征多样性和有效性,采用混合节点特征聚合的方法,将每个EGCL输出的特征聚合为最终的等变图卷积输出/>如公式(7)所示。最后,通过池化方法提取蛋白质口袋图的全局表达式,输出其深度特征表示hpocket。
通过上述步骤,提取得到蛋白质特征和化合物特征。
在上述步骤的基础之上,进行结构特征融合与交互学习,步骤包括:
a.结构特征融合的蛋白质口袋-化合物二分图构建。
基于蛋白质特征和化合物特征,构建蛋白质口袋-化合物二分图。为表达蛋白质-化合物空间生物结合过程,基于特征提取模块获得的蛋白质口袋和化合物的结构特征,构建带有空间结构信息的蛋白质口袋-化合物二分图,融合蛋白质口袋与化合物结构特征。二分图表示为:
Gpd=(Vpd,Epd) (8)
式中,Vpd表示二分图的图节点,代表组成二分图的M个蛋白质口袋原子和K个化合物原子的特征。节点vi∈Vpd,i=1,2,...,M,表示蛋白质口袋原子,初始特征为上游提取的蛋白质口袋结构特征;节点vj∈Vpd,j=1,2,...,K,表示化合物原子,初始特征为上游提取的化合物结构特征;Epd表示二分图的边,代表蛋白质口袋原子vi与化合物原子vj之间的连接关系,任一条边eij∈Epd。
两类原子间相互作用问题可等价于二分图中两类节点的相连问题,因此,本研究根据空间结构求解可结合原子之间的最短空间距离,并根据最短距离判断二分图中节点间连接关系。对蛋白质口袋和化合物小分子同一空间下建模,固定蛋白质口袋位置,空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理,求解满足结合条件的两类原子间最短空间距离,并构建其对应的两类节点间最短空间距离表示Dpd,任意两点间距离dij∈Dpd。
考虑蛋白质与化合物可配对的原子之间空间距离小于某一经验阈值时,蛋白质与化合物之间存在相互作用关系。因此,基于最短空间距离表示矩阵Dpd,构建蛋白质口袋-化合物二分图的邻接矩阵Aij,建立两类节点间边连接关系,如公式(9)所示,其中为基于化学结合原理的经验阈值。
b.基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果。
二分图特征通常可使用GNN网络进行挖掘,但是传统GNN网络无法处理图中节点的空间结构信息。为了保证结构信息能够在预测中发挥作用,采用基于Graphormer的图注意力网络全局关注最短空间距离特征和边连接特征,对蛋白质口袋与化合物之间关系进行挖掘。
构建基于Graphormer的蛋白质口袋-化合物结构信息交互学习模型,如图3所示。原子节点初始特征为上游提取的蛋白质口袋和化合物结构特征,表示为ti,i为任一原子节点。不同原子节点对于结合强度的重要性不同,为突出重要原子节点的作用,利用度中心性对重要节点进行中心性编码,并将其作为输入添加至节点特征。因此,设计自注意力层的输入如公式(10)所示:
式中,deg(vi)表示节点vi的度,z_deg(vi)表示通过deg(vi)可学习的嵌入向量。
为了全局捕获可连接原子节点的最短空间距离和边连接特征,将其编码添加到自注意力模块。首先,基于邻接矩阵Aij和节点间最短空间距离矩阵Dpd进行空间编码并对其进行学习以获得偏差标量。然后,基于邻接矩阵Aij进行边编码,合并所有边特征后学习获得偏差标量。最后,将空间编码和边编码的偏差标量加入自注意力层,实现蛋白质口袋与化合物结构信息的交互学习。自注意力层的输出如公式(11)所示:
式中,bias表示基于空间编码和边编码的偏差标量之和,Q、K和V分别表示自注意力模块的查询(query)、键值(key)和值(value),d是隐藏层维度。
自注意力层采用多头注意力机制,之后经过残差连接、归一化以及前馈神经网络等层的处理,输出一次编码结果。经过多个编码模块后,获得表征蛋白质与化合物空间结合过程的结构交互融合特征。由此得到交互融合结果。
最后,将最终的交互融合结果送入全连接神经网络,获得DTA预测结果。考虑到一个蛋白质表面可能存在多个口袋,且化合物一般有多个三维构象,所以分别进行蛋白质口袋-化合物亲和度预测,以最优解作为最终DTA预测结果。
实施例二
下面将结合本实施例的仿真验证,来验证本申请的可行性。
本实施例使用了两个常见的基准数据集KIBA和Davis来评估本模型。Davis数据集包含442个激酶蛋白、68个药物以及30056个药物-靶标对。KIBA数据集包含229种蛋白质、2111种药物和118254个药物-靶标对。采用5-fold交叉验证方法,按照5:1比例将数据划分为训练集与测试集数据,数据随机划分5次。根据测试集的亲和度真实值与模型输出的预测值,并计算DTA预测评价指标——均方误差(MSE)、一致性指数(CI)、回归均值以及CI与/>的方差。经过计算,在Davis数据集中,我们模型的结果为MSE(0.225)、CI(0.893)、/>(0.689)。在KIBA数据集中,我们模型的结果为MSE(0.149)、CI(0.895)、/>(0.766)。与本领域已有研究中的部分DTA预测模型进行性能对比,如表1和表2所示。结果显示,本研究的DTA预测方法优于表里的其他方法。
表1
表2
实施例三
如图4所示,为本实施例的系统结构示意图,包括:获取模块、编码模块、提取模块、构建模块、交互模块和预测模块。其中,获取模块用于获取蛋白质三维结构信息和化合物三维结构信息;并对蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;编码模块用于对蛋白质口袋结构信息和化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;提取模块用于对蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;构建模块用于基于蛋白质特征和化合物特征,构建蛋白质口袋-化合物二分图;交互模块用于基于蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;预测模块用于将交互融合结果馈入全连接神经网络,得到预测结果。
下面将结合本实施例,详细说明本申请如何解决实际生活中的技术问题。
首先,利用获取模块从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB等诸多数据库搜集、下载大量的蛋白质氨基酸序列和化合物SMILES序列。将蛋白质氨基酸序列输入AlphaFold2软件,生成蛋白质三维结构信息。然后,利用CASTp聚类算法,获得药物-靶标三维空间发生化学反应的结合位点信息,即蛋白质口袋三维结构信息(蛋白质口袋结构信息),其中包含蛋白质口袋残基组成信息和空间相对位置信息。将化合物SMILES序列输入RDKit软件,生成化合物三维结构信息。
之后,编码模块对蛋白质口袋三维结构信息和化合物三维结构信息进行编码,主要包括嵌入编码和位置编码。嵌入编码为线性转换过程,且嵌入层具有可训练权重。位置编码对每个氨基酸或化合物分子的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。由此得到蛋白质编码结果和化合物编码结果。
将蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征。在本实施例汇总,同一空间表达蛋白质-化合物结合过程,不应受空间绝对位置的限制。基于此,本研究采用三维等变图神经网络,重点关注蛋白质口袋和化合物内部各原子相对位置,提取不受空间变换影响的分子结构特征。提取模块将蛋白质口袋编码结果和化合物编码结果输入至三维等变图神经网络进行特征提取。其中,蛋白质口袋特征提取的流程包括:
构建带有空间结构信息的蛋白质口袋图,如公式(12)所示:
Gp=(υp,εp) (12)
式中,υp表示口袋图的图节点,代表组成口袋的M个原子节点特征,任一节点vi∈υp,i=1,2,...,M;εp表示口袋图的边,代表原子之间连接关系,任一条边eij∈εp。
构建L层E(3)-GNN网络,如图2所示。其输入为蛋白质口袋图,通过L层等变图卷积操作的连续提取及最后的池化,输出蛋白质口袋结构深度特征。每个等变图卷积层(Equivariant Graph Convolutional Layer,EGCL)获得的节点特征向量表示为节点空间坐标向量表示为/>l为当前的层数。l=0对应蛋白质口袋图进入EGCL之前的初始节点特征和位置特征。/>和/>作为输入送入下一卷积层进行特征提取,即:
hl+1,xl+1=EGCL[hl,xl,εp] (13)
为了实现特征提取过程中结构信息的全局传递,并保证最终得到的口袋特征不受空间变换影响,采取以下措施:
①边信息嵌入,如公式(14)所示:
式中,mij为边信息嵌入结果,fedge()表示边操作函数,aij表示边属性,表示残基对之间相对位置,通过该方式将位置信息融入特征提取过程。
②邻居节点信息聚合,如公式(15)所示:
式中,mi为邻居节点信息聚合结果,N(i)表示所有指向节点vi的邻居节点。
③节点坐标嵌入,利用与所有邻居节点的相对位置差异的加权和对坐标xi进行嵌入更新,如公式(16)所示:
式中,fx()表示对边嵌入信息转换维度的操作函数。
④节点特征嵌入更新,如公式(17)所示:
式中,fh()表示节点操作函数。
由于化合物特征提取的流程与上述蛋白质口袋特征提取的流程类似,在本实施例中便不再赘述。
等变图卷积层在进行邻居信息聚合时,随着层数l的增加,会导致过平滑问题,将限制节点的多样性并影响算法准确性。为保证特征多样性和有效性,采用混合节点特征聚合的方法,将每个EGCL输出的特征聚合为最终的等变图卷积输出/>如公式(18)所示。最后,通过池化方法提取蛋白质口袋图的全局表达式,输出其深度特征表示hpocket。
通过上述步骤,提取得到蛋白质特征和化合物特征。
在上述流程的基础之上,进行结构特征融合与交互学习,首先利用构建模块结构特征融合的蛋白质口袋-化合物二分图构建。
基于蛋白质特征和化合物特征,构建蛋白质口袋-化合物二分图。为表达蛋白质-化合物空间生物结合过程,基于特征提取模块获得的蛋白质口袋和化合物的结构特征,构建带有空间结构信息的蛋白质口袋-化合物二分图,融合蛋白质口袋与化合物结构特征。二分图表示为:
Gpd=(Vpd,Epd) (19)
式中,Vpd表示二分图的图节点,代表组成二分图的M个蛋白质口袋原子和K个化合物原子的特征。节点vi∈Vpd,i=1,2,...,M,表示蛋白质口袋原子,初始特征为上游提取的蛋白质口袋结构特征;节点vj∈Vpd,j=1,2,...,K,表示化合物原子,初始特征为上游提取的化合物结构特征;Epd表示二分图的边,代表蛋白质口袋原子vi与化合物原子vj之间的连接关系,任一条边eij∈Epd。
两类原子间相互作用问题可等价于二分图中两类节点的相连问题,因此,本研究根据空间结构求解可结合原子之间的最短空间距离,并根据最短距离判断二分图中节点间连接关系。对蛋白质口袋和化合物小分子同一空间下建模,固定蛋白质口袋位置,空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理,求解满足结合条件的两类原子间最短空间距离,并构建其对应的两类节点间最短空间距离表示Dpd,任意两点间距离dij∈Dpd。
考虑蛋白质与化合物可配对的原子之间空间距离小于某一经验阈值时,蛋白质与化合物之间存在相互作用关系。因此,基于最短空间距离表示矩阵Dpd,构建蛋白质口袋-化合物二分图的邻接矩阵Aij,建立两类节点间边连接关系,如公式(20)所示,其中为基于化学结合原理的经验阈值。
之后,交互模块基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果。
二分图特征通常可使用GNN网络进行挖掘,但是传统GNN网络无法处理图中节点的空间结构信息。为了保证结构信息能够在预测中发挥作用,采用基于Graphormer的图注意力网络全局关注最短空间距离特征和边连接特征,对蛋白质口袋与化合物之间关系进行挖掘。
构建基于Graphormer的蛋白质口袋-化合物结构信息交互学习模型,如图3所示。原子节点初始特征为上游提取的蛋白质口袋和化合物结构特征,表示为ti,i为任一原子节点。不同原子节点对于结合强度的重要性不同,为突出重要原子节点的作用,利用度中心性对重要节点进行中心性编码,并将其作为输入添加至节点特征。因此,设计自注意力层的输入如公式(21)所示:
式中,deg(vi)表示节点vi的度,z_deg(vi)表示通过deg(vi)可学习的嵌入向量。
为了全局捕获可连接原子节点的最短空间距离和边连接特征,将其编码添加到自注意力模块。首先,基于邻接矩阵Aij和节点间最短空间距离矩阵Dpd进行空间编码并对其进行学习以获得偏差标量。然后,基于邻接矩阵Aij进行边编码,合并所有边特征后学习获得偏差标量。最后,将空间编码和边编码的偏差标量加入自注意力层,实现蛋白质口袋与化合物结构信息的交互学习。自注意力层的输出如公式(22)所示:
式中,bias表示基于空间编码和边编码的偏差标量之和,Q、K和V分别表示自注意力模块的查询(query)、键值(key)和值(value),d是隐藏层维度。
自注意力层采用多头注意力机制,之后经过残差连接、归一化以及前馈神经网络等层的处理,输出一次编码结果。经过多个编码模块后,获得表征蛋白质与化合物空间结合过程的结构交互融合特征。由此得到交互融合结果。
最后,预测模块将最终的交互融合结果送入全连接神经网络,获得DTA预测结果。考虑到一个蛋白质表面可能存在多个口袋,且化合物一般有多个三维构象,所以分别进行蛋白质口袋-化合物亲和度预测,以最优解作为最终DTA预测结果。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (7)
1.一种基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,步骤包括:
获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
将所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;进行所述特征提取的方法包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征;
为实现特征提取过程中结构信息的全局传递,并保证最终得到的口袋特征不受空间变换影响,采取以下措施:
①边信息嵌入,如下式所示:
式中,mij表示边信息嵌入结果,fedge()表示边操作函数,aij表示边属性,表示残基对之间相对位置,通过边信息嵌入方式将位置信息融入特征提取过程;/>和/>作为输入送入下一卷积层进行特征提取;/>表示第j个节点特征向量,/>表示第j个节点空间坐标向量;
②邻居节点信息聚合,如下式所示:
式中,mi表示邻居节点信息聚合结果,N(i)表示所有指向节点vi的邻居节点;
③节点坐标嵌入,利用与所有邻居节点的相对位置差异的加权和对坐标xi进行嵌入更新,如下式所示:
式中,fx()表示对边嵌入信息转换维度的操作函数;
④节点特征嵌入更新,如下式所示:
式中,fh()表示节点操作函数;
基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
将所述交互融合结果馈入全连接神经网络,得到预测结果。
2.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,获取所述化合物三维结构信息和所述蛋白质口袋结构信息的方法包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
3.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,所述嵌入编码为线性转换过程,且嵌入层具有可训练权重;所述位置编码对每个所述蛋白质氨基酸序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码;所述位置编码还对所述化合物SMILES序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。
4.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,得到所述交互融合结果的方法包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
5.一种基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,包括:获取模块、编码模块、提取模块、构建模块、交互模块和预测模块;
所述获取模块用于获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
所述编码模块用于对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
所述提取模块用于对所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;进行所述特征提取的方法包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征;
为实现特征提取过程中结构信息的全局传递,并保证最终得到的口袋特征不受空间变换影响,采取以下措施:
①边信息嵌入,如下式所示:
式中,mij表示边信息嵌入结果,fedge()表示边操作函数,aij表示边属性,表示残基对之间相对位置,通过边信息嵌入方式将位置信息融入特征提取过程;/>和/>作为输入送入下一卷积层进行特征提取;/>表示第j个节点特征向量,/>表示第j个节点空间坐标向量;
②邻居节点信息聚合,如下式所示:
式中,mi表示邻居节点信息聚合结果,N(i)表示所有指向节点vi的邻居节点;
③节点坐标嵌入,利用与所有邻居节点的相对位置差异的加权和对坐标xi进行嵌入更新,如下式所示:
式中,fx()表示对边嵌入信息转换维度的操作函数;
④节点特征嵌入更新,如下式所示:
式中,fh()表示节点操作函数;
所述构建模块用于基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
所述交互模块用于基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
所述预测模块用于将所述交互融合结果馈入全连接神经网络,得到预测结果。
6.根据权利要求5所述的基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,所述获取模块的工作流程包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
7.根据权利要求5所述的基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,所述交互模块的工作流程包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310370327.7A CN116343911B (zh) | 2023-04-10 | 2023-04-10 | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310370327.7A CN116343911B (zh) | 2023-04-10 | 2023-04-10 | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343911A CN116343911A (zh) | 2023-06-27 |
CN116343911B true CN116343911B (zh) | 2024-03-01 |
Family
ID=86892884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310370327.7A Active CN116343911B (zh) | 2023-04-10 | 2023-04-10 | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343911B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117393036B (zh) * | 2023-11-09 | 2024-07-23 | 中国海洋大学 | 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
US11256994B1 (en) * | 2020-12-16 | 2022-02-22 | Ro5 Inc. | System and method for prediction of protein-ligand bioactivity and pose propriety |
WO2022163996A1 (ko) * | 2021-02-01 | 2022-08-04 | 광주과학기술원 | 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 |
CN114913917A (zh) * | 2022-06-01 | 2022-08-16 | 徐州医科大学 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
CN114999565A (zh) * | 2022-04-20 | 2022-09-02 | 大连海事大学 | 一种基于表示学习和图神经网络的药物靶标亲和力预测方法 |
-
2023
- 2023-04-10 CN CN202310370327.7A patent/CN116343911B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11256994B1 (en) * | 2020-12-16 | 2022-02-22 | Ro5 Inc. | System and method for prediction of protein-ligand bioactivity and pose propriety |
WO2022163996A1 (ko) * | 2021-02-01 | 2022-08-04 | 광주과학기술원 | 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 |
CN113936735A (zh) * | 2021-11-02 | 2022-01-14 | 上海交通大学 | 一种药物分子与靶标蛋白的结合亲和力预测方法 |
CN114999565A (zh) * | 2022-04-20 | 2022-09-02 | 大连海事大学 | 一种基于表示学习和图神经网络的药物靶标亲和力预测方法 |
CN114913917A (zh) * | 2022-06-01 | 2022-08-16 | 徐州医科大学 | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116343911A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Uni-mol: A universal 3d molecular representation learning framework | |
Wang et al. | Protein docking model evaluation by graph neural networks | |
Deng et al. | Protein structure prediction | |
Soleymani et al. | Protein–protein interaction prediction with deep learning: A comprehensive review | |
Chen et al. | Potent antibiotic design via guided search from antibacterial activity evaluations | |
CN116343911B (zh) | 基于三维空间生物反应的药物靶标亲和度预测方法及系统 | |
US12087404B2 (en) | Generating anti-infective design spaces for selecting drug candidates | |
CN114913917B (zh) | 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法 | |
CN115148302A (zh) | 一种基于图神经网络与多任务学习的化合物性质预测方法 | |
CN115083537A (zh) | 分子骨架跃迁的处理方法、装置、介质及电子设备 | |
CN113436686A (zh) | 基于人工智能的化合物库构建方法、装置、设备及存储介质 | |
Lin et al. | G2GT: retrosynthesis prediction with graph-to-graph attention neural network and self-training | |
Baldi et al. | A machine learning strategy for protein analysis | |
Wu et al. | Psc-cpi: Multi-scale protein sequence-structure contrasting for efficient and generalizable compound-protein interaction prediction | |
Wang et al. | Multi-modal representation learning for molecular property prediction: sequence, graph, geometry | |
Torge et al. | Diffhopp: A graph diffusion model for novel drug design via scaffold hopping | |
CN116758978A (zh) | 基于蛋白质结构的可控属性全新活性小分子设计方法 | |
Antony et al. | Protein secondary structure assignment using residual networks | |
Zhang | An In-depth Summary of Recent Artificial Intelligence Applications in Drug Design | |
Wei et al. | Online multiple object tracking using spatial pyramid pooling hashing and image retrieval for autonomous driving | |
CN116453584A (zh) | 蛋白质三维结构预测方法及系统 | |
Ramesh et al. | GAN based approach for drug design | |
Zhang et al. | A Multi-perspective Model for Protein–Ligand-Binding Affinity Prediction | |
Liu et al. | DRUGIMPROVER: Utilizing reinforcement learning for multi-objective alignment in drug optimization | |
Tan et al. | Prediction of drug–protein interaction based on dual channel neural networks with attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |