CN116343911A - 基于三维空间生物反应的药物靶标亲和度预测方法及系统 - Google Patents

基于三维空间生物反应的药物靶标亲和度预测方法及系统 Download PDF

Info

Publication number
CN116343911A
CN116343911A CN202310370327.7A CN202310370327A CN116343911A CN 116343911 A CN116343911 A CN 116343911A CN 202310370327 A CN202310370327 A CN 202310370327A CN 116343911 A CN116343911 A CN 116343911A
Authority
CN
China
Prior art keywords
protein
compound
structure information
dimensional
pocket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310370327.7A
Other languages
English (en)
Other versions
CN116343911B (zh
Inventor
左海维
周鹏程
杨洋
董浩
马金凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN202310370327.7A priority Critical patent/CN116343911B/zh
Publication of CN116343911A publication Critical patent/CN116343911A/zh
Application granted granted Critical
Publication of CN116343911B publication Critical patent/CN116343911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于三维空间生物反应的药物靶标亲和度预测方法及系统,其中方法步骤包括:获取蛋白质三维结构信息和化合物三维结构信息;并对蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;对蛋白质口袋结构信息和化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;将蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;基于蛋白质特征和化合物特征,构建蛋白质口袋‑化合物二分图;基于蛋白质口袋‑化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;将交互融合结果馈入全连接神经网络,得到预测结果。

Description

基于三维空间生物反应的药物靶标亲和度预测方法及系统
技术领域
本申请涉及生物分子领域,具体涉及基于三维空间生物反应的药物靶标亲和度预测方法及系统。
背景技术
预测药物和靶点之间的相互作用关系及强度在药物发现过程中起着关键作用。该方向的研究大致可分为药物-靶标相互作用(Drug-Target Interaction,DTI)预测和药物-靶标亲和度(Drug-target affinity,DTA)预测。DTI预测属于二分类预测问题,更多关注药物与靶标之间是否存在相互作用关系。DTA预测属于回归预测问题,更多关注药物与靶标结合的紧密程度。近年来,基于计算机的DTI、DTA预测方法因其耗时短、成本低等优势而备受关注。
当前基于机器学习的DTA预测方法主要基于分子序列或二级结构特征进行研究,缺少对蛋白质三维结构的考虑,容易丢失药物-靶标空间生物反应过程中的重要信息。另外,现有DTA预测方法只研究了分子序列或二级结构信息的特征提取问题。然而,面向基于三维结构的DTA预测研究,有必要分析药物-靶标空间生物作用特点,提取蛋白质表面口袋和化合物的三维结构特征,并要求这些特征不受旋转、平移和反射等空间变换的影响。针对这些问题,本研究从蛋白质和药物的三维结构信息出发,分析药物-靶标的三维空间结合特性,提出一种基于三维空间生物反应建模的药物靶标亲和度预测方法,以提高DTA预测方法的可解释性和可信度。
发明内容
为解决上述背景中的技术问题,本申请提出一种基于三维空间生物反应建模的药物靶标亲和度预测方法及系统,主要基于蛋白质与药物结构信息,构建具有生物可解释性的DTA预测模型。
为实现上述目的,本申请提供了基于三维空间生物反应的药物靶标亲和度预测方法,步骤包括:
获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
将所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;
基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
将所述交互融合结果馈入全连接神经网络,得到预测结果。
优选的,获取所述化合物三维结构信息和所述蛋白质口袋结构信息的方法包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
优选的,所述嵌入编码为线性转换过程,且嵌入层具有可训练权重;所述位置编码对每个所述蛋白质氨基酸序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码;所述位置编码还对所述化合物SMILES序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。
优选的,进行所述特征提取的方法包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征。
优选的,得到所述交互融合结果的方法包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
本申请还提供了基于三维空间生物反应的药物靶标亲和度预测系统,包括:获取模块、编码模块、提取模块、构建模块、交互模块和预测模块;
所述获取模块用于获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
所述编码模块用于对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
所述提取模块用于对所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;
所述构建模块用于基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
所述交互模块用于基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
所述预测模块用于将所述交互融合结果馈入全连接神经网络,得到预测结果。
优选的,所述获取模块的工作流程包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
优选的,所述提取模块的工作流程包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征。
优选的,所述交互模块的工作流程包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
与现有技术相比,本申请的有益效果如下:
不同于现有基于分子序列或二级结构信息的DTA预测方法,本申请利用蛋白质和化合物三维结构信息表达药物-靶标空间生物反应过程,提出蛋白质口袋三维结构信息表示方法,基于分子间相互作用机制,设计药物-靶标三维空间结构深度特征提取与融合交互网络模型,以获得高准确度、高可信度的DTA预测结果,解决传统DTA预测模型因缺乏蛋白质三维结构信息而导致的模型生物可解释性不足、预测结果可信度不高的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请实施例的L层E(3)-GNN网络结构示意图;
图3为本申请实施例的蛋白质-化合物三维结构特征融合与交互学习过程示意图;
图4为本申请实施例的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本实施例的模型框架图。首先,从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB等诸多数据库搜集、下载大量的蛋白质氨基酸序列和化合物SMILES序列。将蛋白质氨基酸序列输入AlphaFold2软件,生成蛋白质三维结构信息。然后,利用CASTp聚类算法,获得药物-靶标三维空间发生化学反应的结合位点信息,即蛋白质口袋三维结构信息(蛋白质口袋结构信息),其中包含蛋白质口袋残基组成信息和空间相对位置信息。将化合物SMILES序列输入RDKit软件,生成化合物三维结构信息。
之后,对蛋白质口袋三维结构信息和化合物三维结构信息进行编码,主要包括嵌入编码和位置编码。嵌入编码为线性转换过程,且嵌入层具有可训练权重。位置编码对每个氨基酸或化合物分子的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。由此得到蛋白质编码结果和化合物编码结果。
将蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征。在本实施例汇总,同一空间表达蛋白质-化合物结合过程,不应受空间绝对位置的限制。基于此,本研究采用三维等变图神经网络,重点关注蛋白质口袋和化合物内部各原子相对位置,提取不受空间变换影响的分子结构特征。将蛋白质口袋编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取。其中,蛋白质口袋特征提取的流程包括:
构建带有空间结构信息的蛋白质口袋图,如公式(1)所示:
Gp=(υpp) (1)
式中,υp表示口袋图的图节点,代表组成口袋的M个原子节点特征,任一节点vi∈υp,i=1,2,...,M;εp表示口袋图的边,代表原子之间连接关系,任一条边eij∈εp
构建L层E(3)-GNN网络,如图2所示。其输入为蛋白质口袋图,通过L层等变图卷积操作的连续提取及最后的池化,输出蛋白质口袋结构深度特征。每个等变图卷积层(Equivariant Graph Convolutional Layer,EGCL)获得的节点特征向量表示为
Figure BDA0004168332450000061
节点空间坐标向量表示为/>
Figure BDA0004168332450000062
l为当前的层数。l=0对应蛋白质口袋图进入EGCL之前的初始节点特征和位置特征。/>
Figure BDA0004168332450000063
和/>
Figure BDA0004168332450000064
作为输入送入下一卷积层进行特征提取,即:
hl+1,xl+1=EGCL[hl,xlp] (2)
为了实现特征提取过程中结构信息的全局传递,并保证最终得到的口袋特征不受空间变换影响,采取以下措施:
①边信息嵌入,如公式(3)所示:
Figure BDA0004168332450000071
式中,mij表示边信息嵌入结果,fedge()表示边操作函数,aij表示边属性,
Figure BDA0004168332450000072
表示残基对之间相对位置,通过该方式将位置信息融入特征提取过程。
②邻居节点信息聚合,如公式(4)所示:
Figure BDA0004168332450000073
式中,mi表示邻居节点信息聚合结果,N(i)表示所有指向节点vi的邻居节点。
③节点坐标嵌入,利用与所有邻居节点的相对位置差异的加权和对坐标xi进行嵌入更新,如公式(5)所示:
Figure BDA0004168332450000074
式中,fx()表示对边嵌入信息转换维度的操作函数。
④节点特征嵌入更新,如公式(6)所示:
Figure BDA0004168332450000075
式中,fh()表示节点操作函数。
由于化合物特征提取的流程与上述蛋白质口袋特征提取流程类似,在本实施例中便不再赘述。
等变图卷积层在进行邻居信息聚合时,随着层数l的增加,会导致过平滑问题,将限制节点的多样性并影响算法准确性。为保证特征多样性和有效性,采用混合节点特征聚合的方法,将每个EGCL输出的特征
Figure BDA0004168332450000081
聚合为最终的等变图卷积输出/>
Figure BDA0004168332450000082
如公式(7)所示。最后,通过池化方法提取蛋白质口袋图的全局表达式,输出其深度特征表示hpocket
Figure BDA0004168332450000083
通过上述步骤,提取得到蛋白质特征和化合物特征。
在上述步骤的基础之上,进行结构特征融合与交互学习,步骤包括:
a.结构特征融合的蛋白质口袋-化合物二分图构建。
基于蛋白质特征和化合物特征,构建蛋白质口袋-化合物二分图。为表达蛋白质-化合物空间生物结合过程,基于特征提取模块获得的蛋白质口袋和化合物的结构特征,构建带有空间结构信息的蛋白质口袋-化合物二分图,融合蛋白质口袋与化合物结构特征。二分图表示为:
Gpd=(Vpd,Epd) (8)
式中,Vpd表示二分图的图节点,代表组成二分图的M个蛋白质口袋原子和K个化合物原子的特征。节点vi∈Vpd,i=1,2,...,M,表示蛋白质口袋原子,初始特征为上游提取的蛋白质口袋结构特征;节点vj∈Vpd,j=1,2,...,K,表示化合物原子,初始特征为上游提取的化合物结构特征;Epd表示二分图的边,代表蛋白质口袋原子vi与化合物原子vj之间的连接关系,任一条边eij∈Epd
两类原子间相互作用问题可等价于二分图中两类节点的相连问题,因此,本研究根据空间结构求解可结合原子之间的最短空间距离,并根据最短距离判断二分图中节点间连接关系。对蛋白质口袋和化合物小分子同一空间下建模,固定蛋白质口袋位置,空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理,求解满足结合条件的两类原子间最短空间距离,并构建其对应的两类节点间最短空间距离表示Dpd,任意两点间距离dij∈Dpd
考虑蛋白质与化合物可配对的原子之间空间距离小于某一经验阈值时,蛋白质与化合物之间存在相互作用关系。因此,基于最短空间距离表示矩阵Dpd,构建蛋白质口袋-化合物二分图的邻接矩阵Aij,建立两类节点间边连接关系,如公式(9)所示,其中
Figure BDA0004168332450000091
为基于化学结合原理的经验阈值。
Figure BDA0004168332450000092
b.基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果。
二分图特征通常可使用GNN网络进行挖掘,但是传统GNN网络无法处理图中节点的空间结构信息。为了保证结构信息能够在预测中发挥作用,采用基于Graphormer的图注意力网络全局关注最短空间距离特征和边连接特征,对蛋白质口袋与化合物之间关系进行挖掘。
构建基于Graphormer的蛋白质口袋-化合物结构信息交互学习模型,如图3所示。原子节点初始特征为上游提取的蛋白质口袋和化合物结构特征,表示为ti,i为任一原子节点。不同原子节点对于结合强度的重要性不同,为突出重要原子节点的作用,利用度中心性对重要节点进行中心性编码,并将其作为输入添加至节点特征。因此,设计自注意力层的输入如公式(10)所示:
Figure BDA0004168332450000093
式中,deg(vi)表示节点vi的度,z_deg(vi)表示通过deg(vi)可学习的嵌入向量。
为了全局捕获可连接原子节点的最短空间距离和边连接特征,将其编码添加到自注意力模块。首先,基于邻接矩阵Aij和节点间最短空间距离矩阵Dpd进行空间编码并对其进行学习以获得偏差标量。然后,基于邻接矩阵Aij进行边编码,合并所有边特征后学习获得偏差标量。最后,将空间编码和边编码的偏差标量加入自注意力层,实现蛋白质口袋与化合物结构信息的交互学习。自注意力层的输出如公式(11)所示:
Figure BDA0004168332450000101
式中,bias表示基于空间编码和边编码的偏差标量之和,Q、K和V分别表示自注意力模块的查询(query)、键值(key)和值(value),d是隐藏层维度。
自注意力层采用多头注意力机制,之后经过残差连接、归一化以及前馈神经网络等层的处理,输出一次编码结果。经过多个编码模块后,获得表征蛋白质与化合物空间结合过程的结构交互融合特征。由此得到交互融合结果。
最后,将最终的交互融合结果送入全连接神经网络,获得DTA预测结果。考虑到一个蛋白质表面可能存在多个口袋,且化合物一般有多个三维构象,所以分别进行蛋白质口袋-化合物亲和度预测,以最优解作为最终DTA预测结果。
实施例二
下面将结合本实施例的仿真验证,来验证本申请的可行性。
本实施例使用了两个常见的基准数据集KIBA和Davis来评估本模型。Davis数据集包含442个激酶蛋白、68个药物以及30056个药物-靶标对。KIBA数据集包含229种蛋白质、2111种药物和118254个药物-靶标对。采用5-fold交叉验证方法,按照5:1比例将数据划分为训练集与测试集数据,数据随机划分5次。根据测试集的亲和度真实值与模型输出的预测值,并计算DTA预测评价指标——均方误差(MSE)、一致性指数(CI)、回归均值
Figure BDA0004168332450000102
以及CI与/>
Figure BDA0004168332450000103
的方差。经过计算,在Davis数据集中,我们模型的结果为MSE(0.225)、CI(0.893)、/>
Figure BDA0004168332450000104
(0.689)。在KIBA数据集中,我们模型的结果为MSE(0.149)、CI(0.895)、/>
Figure BDA0004168332450000105
(0.766)。与本领域已有研究中的部分DTA预测模型进行性能对比,如表1和表2所示。结果显示,本研究的DTA预测方法优于表里的其他方法。
表1
Figure BDA0004168332450000111
表2
Figure BDA0004168332450000112
实施例三
如图4所示,为本实施例的系统结构示意图,包括:获取模块、编码模块、提取模块、构建模块、交互模块和预测模块。其中,获取模块用于获取蛋白质三维结构信息和化合物三维结构信息;并对蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;编码模块用于对蛋白质口袋结构信息和化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;提取模块用于对蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;构建模块用于基于蛋白质特征和化合物特征,构建蛋白质口袋-化合物二分图;交互模块用于基于蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;预测模块用于将交互融合结果馈入全连接神经网络,得到预测结果。
下面将结合本实施例,详细说明本申请如何解决实际生活中的技术问题。
首先,利用获取模块从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB等诸多数据库搜集、下载大量的蛋白质氨基酸序列和化合物SMILES序列。将蛋白质氨基酸序列输入AlphaFold2软件,生成蛋白质三维结构信息。然后,利用CASTp聚类算法,获得药物-靶标三维空间发生化学反应的结合位点信息,即蛋白质口袋三维结构信息(蛋白质口袋结构信息),其中包含蛋白质口袋残基组成信息和空间相对位置信息。将化合物SMILES序列输入RDKit软件,生成化合物三维结构信息。
之后,编码模块对蛋白质口袋三维结构信息和化合物三维结构信息进行编码,主要包括嵌入编码和位置编码。嵌入编码为线性转换过程,且嵌入层具有可训练权重。位置编码对每个氨基酸或化合物分子的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。由此得到蛋白质编码结果和化合物编码结果。
将蛋白质编码结果和化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征。在本实施例汇总,同一空间表达蛋白质-化合物结合过程,不应受空间绝对位置的限制。基于此,本研究采用三维等变图神经网络,重点关注蛋白质口袋和化合物内部各原子相对位置,提取不受空间变换影响的分子结构特征。提取模块将蛋白质口袋编码结果和化合物编码结果输入至三维等变图神经网络进行特征提取。其中,蛋白质口袋特征提取的流程包括:
构建带有空间结构信息的蛋白质口袋图,如公式(12)所示:
Gp=(υpp) (12)
式中,υp表示口袋图的图节点,代表组成口袋的M个原子节点特征,任一节点vi∈υp,i=1,2,...,M;εp表示口袋图的边,代表原子之间连接关系,任一条边eij∈εp
构建L层E(3)-GNN网络,如图2所示。其输入为蛋白质口袋图,通过L层等变图卷积操作的连续提取及最后的池化,输出蛋白质口袋结构深度特征。每个等变图卷积层(Equivariant Graph Convolutional Layer,EGCL)获得的节点特征向量表示为
Figure BDA0004168332450000131
节点空间坐标向量表示为/>
Figure BDA0004168332450000132
l为当前的层数。l=0对应蛋白质口袋图进入EGCL之前的初始节点特征和位置特征。/>
Figure BDA0004168332450000133
和/>
Figure BDA0004168332450000134
作为输入送入下一卷积层进行特征提取,即:
hl+1,xl+1=EGCL[hl,xlp] (13)
为了实现特征提取过程中结构信息的全局传递,并保证最终得到的口袋特征不受空间变换影响,采取以下措施:
①边信息嵌入,如公式(14)所示:
Figure BDA0004168332450000135
式中,mij为边信息嵌入结果,fedge()表示边操作函数,aij表示边属性,
Figure BDA0004168332450000136
表示残基对之间相对位置,通过该方式将位置信息融入特征提取过程。
②邻居节点信息聚合,如公式(15)所示:
Figure BDA0004168332450000137
式中,mi为邻居节点信息聚合结果,N(i)表示所有指向节点vi的邻居节点。
③节点坐标嵌入,利用与所有邻居节点的相对位置差异的加权和对坐标xi进行嵌入更新,如公式(16)所示:
Figure BDA0004168332450000141
式中,fx()表示对边嵌入信息转换维度的操作函数。
④节点特征嵌入更新,如公式(17)所示:
Figure BDA0004168332450000142
式中,fh()表示节点操作函数。
由于化合物特征提取的流程与上述蛋白质口袋特征提取的流程类似,在本实施例中便不再赘述。
等变图卷积层在进行邻居信息聚合时,随着层数l的增加,会导致过平滑问题,将限制节点的多样性并影响算法准确性。为保证特征多样性和有效性,采用混合节点特征聚合的方法,将每个EGCL输出的特征
Figure BDA0004168332450000143
聚合为最终的等变图卷积输出/>
Figure BDA0004168332450000144
如公式(18)所示。最后,通过池化方法提取蛋白质口袋图的全局表达式,输出其深度特征表示hpocket
Figure BDA0004168332450000145
通过上述步骤,提取得到蛋白质特征和化合物特征。
在上述流程的基础之上,进行结构特征融合与交互学习,首先利用构建模块结构特征融合的蛋白质口袋-化合物二分图构建。
基于蛋白质特征和化合物特征,构建蛋白质口袋-化合物二分图。为表达蛋白质-化合物空间生物结合过程,基于特征提取模块获得的蛋白质口袋和化合物的结构特征,构建带有空间结构信息的蛋白质口袋-化合物二分图,融合蛋白质口袋与化合物结构特征。二分图表示为:
Gpd=(Vpd,Epd) (19)
式中,Vpd表示二分图的图节点,代表组成二分图的M个蛋白质口袋原子和K个化合物原子的特征。节点vi∈Vpd,i=1,2,...,M,表示蛋白质口袋原子,初始特征为上游提取的蛋白质口袋结构特征;节点vj∈Vpd,j=1,2,...,K,表示化合物原子,初始特征为上游提取的化合物结构特征;Epd表示二分图的边,代表蛋白质口袋原子vi与化合物原子vj之间的连接关系,任一条边eij∈Epd
两类原子间相互作用问题可等价于二分图中两类节点的相连问题,因此,本研究根据空间结构求解可结合原子之间的最短空间距离,并根据最短距离判断二分图中节点间连接关系。对蛋白质口袋和化合物小分子同一空间下建模,固定蛋白质口袋位置,空间内旋转化合物三维结构。基于蛋白质与化合物结合的化学原理,求解满足结合条件的两类原子间最短空间距离,并构建其对应的两类节点间最短空间距离表示Dpd,任意两点间距离dij∈Dpd
考虑蛋白质与化合物可配对的原子之间空间距离小于某一经验阈值时,蛋白质与化合物之间存在相互作用关系。因此,基于最短空间距离表示矩阵Dpd,构建蛋白质口袋-化合物二分图的邻接矩阵Aij,建立两类节点间边连接关系,如公式(20)所示,其中
Figure BDA0004168332450000151
为基于化学结合原理的经验阈值。
Figure BDA0004168332450000152
之后,交互模块基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果。
二分图特征通常可使用GNN网络进行挖掘,但是传统GNN网络无法处理图中节点的空间结构信息。为了保证结构信息能够在预测中发挥作用,采用基于Graphormer的图注意力网络全局关注最短空间距离特征和边连接特征,对蛋白质口袋与化合物之间关系进行挖掘。
构建基于Graphormer的蛋白质口袋-化合物结构信息交互学习模型,如图3所示。原子节点初始特征为上游提取的蛋白质口袋和化合物结构特征,表示为ti,i为任一原子节点。不同原子节点对于结合强度的重要性不同,为突出重要原子节点的作用,利用度中心性对重要节点进行中心性编码,并将其作为输入添加至节点特征。因此,设计自注意力层的输入如公式(21)所示:
Figure BDA0004168332450000161
式中,deg(vi)表示节点vi的度,z_deg(vi)表示通过deg(vi)可学习的嵌入向量。
为了全局捕获可连接原子节点的最短空间距离和边连接特征,将其编码添加到自注意力模块。首先,基于邻接矩阵Aij和节点间最短空间距离矩阵Dpd进行空间编码并对其进行学习以获得偏差标量。然后,基于邻接矩阵Aij进行边编码,合并所有边特征后学习获得偏差标量。最后,将空间编码和边编码的偏差标量加入自注意力层,实现蛋白质口袋与化合物结构信息的交互学习。自注意力层的输出如公式(22)所示:
Figure BDA0004168332450000162
式中,bias表示基于空间编码和边编码的偏差标量之和,Q、K和V分别表示自注意力模块的查询(query)、键值(key)和值(value),d是隐藏层维度。
自注意力层采用多头注意力机制,之后经过残差连接、归一化以及前馈神经网络等层的处理,输出一次编码结果。经过多个编码模块后,获得表征蛋白质与化合物空间结合过程的结构交互融合特征。由此得到交互融合结果。
最后,预测模块将最终的交互融合结果送入全连接神经网络,获得DTA预测结果。考虑到一个蛋白质表面可能存在多个口袋,且化合物一般有多个三维构象,所以分别进行蛋白质口袋-化合物亲和度预测,以最优解作为最终DTA预测结果。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (9)

1.基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,步骤包括:
获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
将所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;
基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
将所述交互融合结果馈入全连接神经网络,得到预测结果。
2.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,获取所述化合物三维结构信息和所述蛋白质口袋结构信息的方法包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
3.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,所述嵌入编码为线性转换过程,且嵌入层具有可训练权重;所述位置编码对每个所述蛋白质氨基酸序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码;所述位置编码还对所述化合物SMILES序列的相对位置信息、绝对位置信息以及三维结构的空间相对位置信息进行编码。
4.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,进行所述特征提取的方法包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征。
5.根据权利要求1所述的基于三维空间生物反应的药物靶标亲和度预测方法,其特征在于,得到所述交互融合结果的方法包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
6.基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,包括:获取模块、编码模块、提取模块、构建模块、交互模块和预测模块;
所述获取模块用于获取蛋白质三维结构信息和化合物三维结构信息;并对所述蛋白质三维结构信息进行CASTp聚类,得到蛋白质口袋结构信息;
所述编码模块用于对所述蛋白质口袋结构信息和所述化合物三维结构信息分别进行嵌入编码和位置编码,得到蛋白质编码结果和化合物编码结果;
所述提取模块用于对所述蛋白质编码结果和所述化合物编码结果分别输入至三维等变图神经网络进行特征提取,得到蛋白质特征和化合物特征;
所述构建模块用于基于所述蛋白质特征和所述化合物特征,构建蛋白质口袋-化合物二分图;
所述交互模块用于基于所述蛋白质口袋-化合物二分图,对三维结构特征进行融合与交互学习,得到交互融合结果;
所述预测模块用于将所述交互融合结果馈入全连接神经网络,得到预测结果。
7.根据权利要求6所述的基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,所述获取模块的工作流程包括:从PubChem、ChEMBL、KIBA、Davis、PDBbind和BindingDB数据库搜集、下载蛋白质氨基酸序列和化合物SMILES序列;将所述蛋白质氨基酸序列输入至AlphaFold2软件,生成所述蛋白质三维结构信息;利用CASTp聚类算法,获得所述蛋白质口袋结构信息;将所述化合物SMILES序列输入RDKit软件,生成所述化合物三维结构信息。
8.根据权利要求6所述的基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,所述提取模块的工作流程包括:采用三维等变图神经网络,分别以蛋白质口袋和化合物内部各原子相对位置为基础,提取不受空间变换影响的分子结构特征。
9.根据权利要求6所述的基于三维空间生物反应的药物靶标亲和度预测系统,其特征在于,所述交互模块的工作流程包括:利用Graphormer图注意力网络全局关注分子间相互作用结构特征,实现蛋白质口袋与化合物结构信息的可解释性交互学习,得到所述交互融合结果。
CN202310370327.7A 2023-04-10 2023-04-10 基于三维空间生物反应的药物靶标亲和度预测方法及系统 Active CN116343911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310370327.7A CN116343911B (zh) 2023-04-10 2023-04-10 基于三维空间生物反应的药物靶标亲和度预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310370327.7A CN116343911B (zh) 2023-04-10 2023-04-10 基于三维空间生物反应的药物靶标亲和度预测方法及系统

Publications (2)

Publication Number Publication Date
CN116343911A true CN116343911A (zh) 2023-06-27
CN116343911B CN116343911B (zh) 2024-03-01

Family

ID=86892884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310370327.7A Active CN116343911B (zh) 2023-04-10 2023-04-10 基于三维空间生物反应的药物靶标亲和度预测方法及系统

Country Status (1)

Country Link
CN (1) CN116343911B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117393036A (zh) * 2023-11-09 2024-01-12 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法
US11256994B1 (en) * 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity and pose propriety
WO2022163996A1 (ko) * 2021-02-01 2022-08-04 광주과학기술원 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
CN114913917A (zh) * 2022-06-01 2022-08-16 徐州医科大学 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法
CN114999565A (zh) * 2022-04-20 2022-09-02 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11256994B1 (en) * 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity and pose propriety
WO2022163996A1 (ko) * 2021-02-01 2022-08-04 광주과학기술원 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法
CN114999565A (zh) * 2022-04-20 2022-09-02 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN114913917A (zh) * 2022-06-01 2022-08-16 徐州医科大学 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117393036A (zh) * 2023-11-09 2024-01-12 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

Also Published As

Publication number Publication date
CN116343911B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
Deng et al. Protein structure prediction
Wang et al. Protein docking model evaluation by graph neural networks
Du et al. Molgensurvey: A systematic survey in machine learning models for molecule design
Soleymani et al. Protein–protein interaction prediction with deep learning: A comprehensive review
US20200342953A1 (en) Target molecule-ligand binding mode prediction combining deep learning-based informatics with molecular docking
Chen et al. Potent antibiotic design via guided search from antibacterial activity evaluations
CN116343911B (zh) 基于三维空间生物反应的药物靶标亲和度预测方法及系统
Sunny et al. Protein–protein docking: Past, present, and future
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN115083537A (zh) 分子骨架跃迁的处理方法、装置、介质及电子设备
CN113436686A (zh) 基于人工智能的化合物库构建方法、装置、设备及存储介质
Lin et al. G2GT: retrosynthesis prediction with graph-to-graph attention neural network and self-training
Baldi et al. A machine learning strategy for protein analysis
Wang et al. Multi-modal representation learning for molecular property prediction: sequence, graph, geometry
Wu et al. Psc-cpi: Multi-scale protein sequence-structure contrasting for efficient and generalizable compound-protein interaction prediction
CN116758978A (zh) 基于蛋白质结构的可控属性全新活性小分子设计方法
CN116312808A (zh) 一种基于TransGAT的药物-靶标相互作用预测方法
Wei et al. Online multiple object tracking using spatial pyramid pooling hashing and image retrieval for autonomous driving
Lim et al. Predicting drug-target interaction using 3D structure-embedded graph representations from graph neural networks
Ramesh et al. GAN based approach for drug design
Zhang et al. A Multi-perspective Model for Protein–Ligand-Binding Affinity Prediction
Tan et al. Prediction of drug–protein interaction based on dual channel neural networks with attention mechanism
Liu et al. DRUGIMPROVER: Utilizing reinforcement learning for multi-objective alignment in drug optimization
CN113889183B (zh) 基于神经网络的protac分子降解率的预测系统及其构建方法
Xiong et al. Graph Representation Learning for Interactive Biomolecule Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant