CN117393036A - 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法 - Google Patents

一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法 Download PDF

Info

Publication number
CN117393036A
CN117393036A CN202311487947.5A CN202311487947A CN117393036A CN 117393036 A CN117393036 A CN 117393036A CN 202311487947 A CN202311487947 A CN 202311487947A CN 117393036 A CN117393036 A CN 117393036A
Authority
CN
China
Prior art keywords
protein
ppi
map
gcn
residue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311487947.5A
Other languages
English (en)
Inventor
张树刚
魏志强
毕祥鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202311487947.5A priority Critical patent/CN117393036A/zh
Publication of CN117393036A publication Critical patent/CN117393036A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种用于药物‑靶点亲和力预测的蛋白多层次语义聚合表征方法,该方法选择合适的神经网络架构分别对药物分子和靶点蛋白分子进行各自的特征编码,最后将获得药物表征和靶点蛋白表征进行联合表征学习,实现DTA的预测。过程包括药物分子特征提取、靶点蛋白特征提取、亲和力预测、预测结果可解释性方法。本发明构建了一套通用的蛋白语义信息融合框架并设计了两种层次融合策略包括自上而下、自下而上策略,来丰富蛋白质表征,用于亲和力预测任务;本发明提出了一种梯度加权可解释方法,其可以以可视化的方式反映出模型所捕获的蛋白质结合口袋信息,为亲和力预测任务提供一了种可解释途径。

Description

一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征 方法
技术领域
本发明涉及蛋白质功能预测技术领域,特别涉及一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法。
背景技术
药物筛选可以帮助科研人员从大量的化合物中快速筛选出可能具有药理活性或潜在治疗作用的化合物,从而减少试错过程和资源的浪费,提高药物研发的效率。而预测药物-靶点结合亲和力(DTA)又是药物筛选过程中的关键一环,准确高效的预测出药物-靶点之间的结合亲和力将能大大缩短药物筛选过程。然而,基于传统生物实验的方法来确定药物-靶点亲和力需要昂贵的实验成本。近年来,为了打破这种成本上的限制,越来越多的研究将侧重点放在了基于计算机的结合亲和力预测方法上,主要分为:基于分子动力学的分子对接方法和基于数据驱动的深度学习方法。
基于分子动力学的分子对接方法主要是通过在计算机中模拟药物小分子与目标蛋白结构的相互作用,包括刚性对接和柔性对接两种方式。通过对接评分函数来预测药物-靶点对之间的相互作用,从而筛选出具有良好亲和力的药物候选化合物。尽管这种基于分子动力学的分子对接方式对于药物靶点亲和力预测具有良好的预测表现,但是分子对接需要进行大量的计算和模拟,消耗较多的计算资源和时间,对于大规模的药物筛选来说并不适用。
基于数据驱动的深度学习方法通过设计一些可学习的深度神经网络,从数据中直接学习高质量的药物分子以及靶点蛋白表征,例如卷积神经网络(CNN)、循环神经网络(RNN)、Transformer以及图神经网络(GNN)等。基于数据驱动的深度学习方法凭借其低成本、高效率的优势逐渐成为预测药物-靶点亲和力的主流方法。
在应用深度学习实现药物-靶点亲和力预测中,探索一种高效的蛋白质表征方式、提升靶点蛋白表征丰度对于提升预测性能具有重要作用。目前,根据蛋白质表征形式,现有的基于深度学习的药物-靶点亲和力预测方法大致分为三类:基于1D序列、基于2D拓扑结构、基于3D空间结构。
1)基于1D序列的方法:该方法将蛋白质的氨基酸序列视为一个句子,句子中的每个单词即是对应的氨基酸残基。通过将每个氨基酸残基映射为相应的词向量,可以得到整个蛋白质序列的残基表征,进而应用一些处理NLP的神经网络进行序列文本表征的学习。借助这种文本处理形式可以有效的捕获蛋白质序列的文本语义信息。
2)基于2D结构的方法:该方法将氨基酸残基视为节点,通过构建蛋白质残基接触图(Contact map)并将其作为残基之间的边可以将蛋白质结构映射为2D拓扑图的形式。通过在该蛋白质拓扑图上应用图神经网络可以捕获到蛋白质的拓扑语义信息,提升药物-靶点亲和力的预测性能。
3)基于3D结构的方法:为了充分利用蛋白质的空间信息,最近也提出了一些基于三维结构的方法,并显示出了良好的预测性能。它们中的大多数通过将蛋白质结构体素化,然后将残基或原子映射到3D网格上,最后引入3D卷积神经网络来捕获蛋白质的空间语义。
现有的基于深度学习的DTA预测方法对于蛋白质分支的特征提取均是从蛋白质内部出发,提取单个蛋白的表征信息(文本语义信息、拓扑语义信息、3D空间语义信息),属于一种低阶的语义信息。然而,这些方法忽略了蕴含在生物网络中的实体间的功能联系。近些年来,生物网络作为刻画各生物实体间相互作用的有效方式被广泛用于各种生物信息任务中,其反应了生物系统背后的潜在相互作用规律,属于一种高阶的语义信息。将生物网络中提取的这种高阶语义与分子内部获得的低阶语义相结合,将可能进一步增强模型的表示学习能力,提高模型在DTA任务中的预测性能。然而,近些年来关于这方面的探索仍处于空白阶段,致使现有方法所学习到的蛋白质表征仍缺乏泛化性与丰富性。因此,本发明基于此,致力于探索一种合适的蛋白质高、低阶语义信息表征方法,并在此基础上寻求一套通用的不同尺度语义信息融合框架来提高蛋白质表征丰度。此外,大部分的DTA预测模型的可解释性不强,导致预测结果难以解释、无法指导后续实验设计,因此本发明在设计过程中考虑构建一种具有良好可解释性的DTA预测方法。
发明内容
本发明为了弥补现有技术的不足,提供了一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法。
本发明是通过如下技术方案实现的:一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法,包括以下步骤:
步骤一:药物分子特征提取
首先在药物分支层次,以药物原子为节点,以原子之间的共价键为边,将药物分子构建药物分子图,将构建的药物分子图加载到包含图卷积层的药物GCN编码器中,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块;
步骤二:靶点蛋白特征提取
(1)首先,设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式:分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络/>在此基础上进一步构建蛋白质层次图,进行全面的蛋白质表示学习,也即给定一个PPI网络/>该蛋白质层次图与/>共享相同的节点和边集,只是其中的蛋白质节点被该蛋白质的相应的残基图/>所取代;
其中,Vp为蛋白质残基接触图中的节点集合,它的每一个元素代表了一个残基节点;Ep为蛋白质残基接触图/>中的边集合,每一条边指示了两个残基节点之间的三维欧氏距离小于/>即在蛋白质的三维结构中是空间邻近的;Vppi为PPI网络中的节点集合,每一个元素代表一个蛋白质节点;Eppi为PPI网络中的边集合,每一条边代表两个蛋白质节点之间存在着相互作用。
(2)其次,依托该蛋白质层次图,借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息;在此过程中设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合,提升蛋白表征丰度,分别为自上而下和自下而上的层次融合策略;
步骤三:亲和力预测
将最终的药物表征d和蛋白质表征连接起来,得到药物-靶标对表示,然后通过以下方法预测药物-靶标相互作用:
其中MLP是具有三个全连接层的MLP块;
对于DTA任务,采用均方误差损失函数来计算回归损失,其表示为:
其中,为神经网络对于当前药物-靶点对(d,p)之间结合亲和力的预测值,而y(d,p)为当前药物-靶点对(d,p)的结合亲和力真值。
步骤四:预测结果可解释性方法
使用一个训练好的模型来预测药物靶标对的亲和力得分,然后反向传播亲和力得分,进而可以计算蛋白结构GCN编码器输出的梯度,该梯度可以用来表示特定残基对最终亲和力得分的贡献。
优选的,药物分子特征提取步骤如下:
(1)首先在药物分支层次,以药物原子为节点,原子之间的共价键为边,将药物分子表示为药物分子图其中Vd为药物分子内原子节点的集合,Ed为边集,采用RDKit计算包将SMILES分子串转化为药物图;
(2)将构建的药物分子图加载到包含3个图卷积层的药物GCN编码器/>中,提取药物分子节点嵌入,每一个GCN层可以定义为:
其中Hd为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵,Ad为药物分子图的节点邻接矩阵,In为与Ad具有相同维大小的单位矩阵,D为对角度矩阵,σ为激活函数ReLU,W(l)为第l层GCN的可学习权重矩阵,l表示GCN的层数;
(3)为了得到最终的药物表示d,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块,表示为:
其中hd,i为药物分子图中某个原子节点的最终嵌入表示,Nd为药物分子中的原子数,i为药物分子中的原子索引。
优选的,自下而上融合策略为:
在该策略中,从蛋白质残基图中提取的蛋白质图嵌入q作为PPI图/>中同一蛋白质的初始节点特征,进行进一步的监督学习,得到最终的节点嵌入hppi,这种策略使蛋白质残基图中的结构语义信息流动并融合到PPI图中,因此称之为自下而上。该过程表示为:
其中,φ和ψ分别表示施加在蛋白质图和PPI图上的映射函数,Sta(·)表示对所有蛋白质图嵌入q进行叠加运算,得到初始PPI图的节点特征矩阵X′ppi
优选的,自下而上融合策略具体过程如下:
(1)借助一个GCN编码器从蛋白质残基图中提取残基嵌入,该编码器包括三个独立的GCN层,表示为如下方程:
其中Hp为蛋白质残基图在GCN层中的隐藏特征矩阵,Ap为残基图的邻接矩阵,
该GCN编码器块通过聚合邻居节点特征迭代地进行特征平滑,使拓扑相邻的残基具有相似的节点嵌入,最终获得结构感知的残基嵌入;然后,使用一个读出块来获得蛋白质残基图的图嵌入q;
(2)将所有含有低阶结构语义信息的蛋白质残基图嵌入q堆叠成一个矩阵,并将作为PPI图的初始特征矩阵:
其中为PPI图的隐藏特征矩阵,Nppi表示PPI网络中的蛋白质节点个数,qi为第i个蛋白质的蛋白质图嵌入,i取值范围为1到Nppi间的整数。该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息;在此基础上,再借助另一个GCN编码器块通过PPI图中的相互作用边Eppi平滑节点表示,使一组功能相似的蛋白质在特征空间上更加接近。平滑过程如下所示:
其中,为PPI图的归一化邻接矩阵,Z为与Appi具有相同维数的随机二值矩阵,⊙为逐元素乘法,该GCN编码器只包含两个GCN层,W(0)为第一层GCN中的可学习权重矩阵,W(1)为第二层GCN中的可学习权重矩阵,Z(0)为第一个GCN层中的随机二值矩阵,Z(1)为第二个GCN层中的随机二值矩阵;此外,该编码器还引入了一个DropEdge正则化项,以进一步缓解节点表征的过度平滑。该正则化项表示为一个随机二值矩阵Z,其元素为伯努利分布的随机采样;
最后,对PPI图最后的节点嵌入hppi进行线性变换,得到最终的蛋白质表示如下所示:
其中w是线性参数,b是偏置项。
优选的,自上而下融合策略如下:
该策略通过对PPI图的学习,首先计算PPI图的节点嵌入hppi,使学习到的hppi包含高阶功能语义信息,然后将该蛋白质的hppi输入到相应低阶蛋白质残基图的所有残基特征上,形成自上而下的融合方式;上述过程表示为:
其中Com(·)表示一种特殊的特征组合操作,其中Xppi为PPI网络的初始节点特征矩阵,Xp为蛋白质残基接触图的初始节点特征矩阵,X′p是将计算得到的PPI图节点嵌入hppi融合进蛋白质残基接触图的初始特征矩阵后得到的残基接触图的新特征矩阵。
自上而下融合策略具体如下:
首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息,这个编码器块包括两个GCN层和一个DropEdge正则化项。是由InterPro API计算得到的属于蛋白尺度的特征,其中,代表了一个实数域上的向量空间,上角标Nppi×Dppi表示了该向量空间的维度大小,Nppi为PPI网络的节点数量,Dppi代表了PPI网络中节点特征的维度大小。
其次,在得到PPI图中的最终节点嵌入hppi后,采用一种特征组合运算Com(·)将hppi融合到蛋白质残基图的特征矩阵Xp中,公式如下:其中/>和/>表示向量的元素相加和元素相减,∥表示向量拼接,xp表示原始残基特征;对蛋白质图中的所有残基进行特征组合运算后,得到一个新的特征矩阵X′p,该矩阵中将包含来自PPI图的功能语义信息;
最后,对蛋白质残基图应用一个GCN编码器和一个图池化层,得到最终的蛋白嵌入/>
与现有技术相比,本发明的有益之处为:
1.本发明构建了蛋白质层次图,并从中分别提取蛋白的结构语义信息和功能语义信息,用于亲和力预测任务。
2.本发明构建了一套通用的蛋白语义信息融合框架并设计了两种层次融合策略(自上而下、自下而上策略)来丰富蛋白质表征,用于亲和力预测任务。
3.本发明提出了一种梯度加权可解释方法,其可以以可视化的方式反映出模型所捕获的蛋白质结合口袋信息,为亲和力预测任务提供一了种可解释途径。
附图说明
下面结合附图对本发明进一步的说明。
图1为本发明总体技术路线图;
图2为本发明层次融合策略示意图:(1)自下而上的融合示意(2)自上而下的融合示意;
图3为本发明可解释性示意图。
具体实施方式
下面结合附图对本发明进行详细的描述。
基于深度学习的药物-靶点结合亲和力预测通常采用双编码器架构,即选择合适的神经网络架构分别对药物分子和靶点蛋白分子进行各自的特征编码,最后将获得药物表征和靶点蛋白表征进行联合表征学习,实现DTA的预测。过程包括药物分子特征提取、靶点蛋白特征提取、亲和力预测、预测结果可解释性方法。
以下将分别从药物分子特征提取、靶点蛋白特征提取、亲和力预测以及预测结果可解释性方法四个方面展开介绍。
实施例1
药物分子特征提取:
1、首先在药物分支层次,本发明以药物原子为节点,原子之间的共价键为边,将药物分子表示为药物分子图其中Vd为药物分子内原子节点的集合,Ed为边集。采用RDKit计算包将SMILES分子串转化为药物图。
2、将构建的药物分子图加载到包含3个图卷积层(GCN)的药物GCN编码器中,提取药物分子节点嵌入。每一个GCN层可以定义为:
3、其中Hd为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵,D为对角度矩阵,σ为激活函数ReLU,W(l)为第l层GCN的可学习权重矩阵。
4、然后,为了得到最终的药物表示d,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块,表示为:
其中hd,i为药物分子图的最终节点嵌入,Nd为药物分子中的原子数。
实施例2
靶点蛋白特征提取
在靶点蛋白分支上,为了解决现有基于深度学习的药物-靶点亲和力预测方法对蛋白质表征信息单一、可解释性不强的问题,本次发明创新性的提出了一套通用的蛋白语义信息融合框架,并在此基础上提出了一种药物-靶点亲和力预测的可解释方法。主要技术方案如下:
1、首先,设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式(序列、结构):分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络/>在此基础上可以进一步构建蛋白质层次图,进行全面的蛋白质表示学习,也即给定一个PPI网络/>该蛋白质层次图与/>共享相同的节点和边集,只是其中的蛋白质节点被该蛋白质的相应的残基图/>所取代
2、其次,依托该蛋白质层次图,借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息。在此过程中本发明设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合,提升蛋白表征丰度,分别为自上而下和自下而上的层次融合策略。
1)自下而上融合策略
在该策略中,从蛋白质残基图中提取的蛋白质图嵌入q作为PPI图/>中同一蛋白质的初始节点特征,进行进一步的监督学习,得到最终的节点嵌入hppi。换句话说,这种策略使蛋白质残基图中的结构语义信息流动并融合到PPI图中,因此我们称之为自下而上。该过程可表示为:
其中φ和ψ分别表示施加在蛋白质图和PPI图上的映射函数,Sta(·)表示对所有蛋白质图嵌入q进行叠加运算,得到初始PPI图的节点特征矩阵X′ppi
具体来说,首先借助一个GCN编码器从蛋白质残基图中提取残基嵌入。该编码器包括三个独立的GCN层,可表示为如下方程:
其中Hp为蛋白质残基图在GCN层中的隐藏特征矩阵,Ap为残基图的邻接矩阵。
该GCN编码器块通过聚合邻居节点特征迭代地进行特征平滑,使拓扑相邻的残基具有相似的节点嵌入,最终获得结构感知的残基嵌入。然后,使用一个读出块来获得蛋白质残基图的图嵌入q。
然后,将所有含有低阶结构语义信息的蛋白质残基图嵌入q堆叠成一个矩阵,并将作为PPI图的初始特征矩阵:
其中为PPI图的隐藏特征矩阵,qi为第i个蛋白质的蛋白质图嵌入。该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息。在此基础上,我们再借助另一个GCN编码器块/>通过PPI图中的相互作用边Eppi平滑节点表示,使一组功能相似的蛋白质在特征空间上更加接近。平滑过程如下所示:
其中,为PPI图的归一化邻接矩阵,Z为与Appi具有相同维数的随机二值矩阵,⊙为逐元素乘法。考虑到构建的PPI图的规模较小,该GCN编码器只包含两个GCN层。此外,该编码器还引入了一个DropEdge正则化项,以进一步缓解过度平滑。该正则化项可以表示为一个随机二值矩阵Z,其元素为伯努利分布的随机采样。
最后,对PPI图最后的节点嵌入hppi进行线性变换,得到最终的蛋白质表示如下所示:
其中w是线性参数,b是偏置项。
2)自上而下融合策略
本发明还提出了另一种分层融合策略,即自上而下策略。该策略通过对PPI图的学习,首先计算PPI图的节点嵌入hppi,使学习到的hppi包含高阶功能语义信息。然后将该蛋白质的hppi输入到相应低阶蛋白质残基图的所有残基特征上,形成自上而下的融合方式。上述过程可表示为:
其中Com(·)表示一种特殊的特征组合操作,将在后面详细介绍。
具体来说,首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息。这个编码器块包括两个GCN层和一个DropEdge正则化项,但是是由InterPro API计算得到的属于蛋白尺度的特征。其次,在得到PPI图中的最终节点嵌入hppi后,采用一种特征组合运算Com(·)将hppi融合到蛋白质残基图的特征矩阵Xp中,公式如下:
其中和/>表示向量的元素相加和元素相减,||表示向量拼接,xp表示原始残基特征。对蛋白质图中的所有残基进行特征组合运算后,我们得到一个新的特征矩阵X′p,该矩阵中将包含来自PPI图的功能语义信息。
最后,对蛋白质残基图应用一个GCN编码器和一个图池化层,得到最终的蛋白嵌入/>
实施例3
亲和力预测
将最终的药物表征d和蛋白质表征连接起来,得到药物-靶标对表示,然后通过以下方法预测药物-靶标相互作用:
其中MLP是具有三个全连接层的MLP块。
对于DTA任务,采用均方误差(Mean Squared Error,MSE)损失函数来计算回归损失,其表示为:
实施例4
预测结果可解释性方法
药物和靶标之间的相互作用通常发生在蛋白质表面的特定区域(通常称为结合口袋),而不是整个蛋白质。因此,准确捕获蛋白质口袋信息对于预测药物-靶标相互作用至关重要,其也可以作为模型优劣和可解释性的合理指标。为了评估我们提出的模型学习蛋白质口袋信息的能力,我们使用Grad-AMM技术进行了可视化分析。具体来说,我们使用一个训练好的模型来预测药物靶标对的亲和力得分,然后反向传播亲和力得分,进而可以计算蛋白结构GCN编码器输出的梯度,该梯度可以用来表示特定残基对最终亲和力得分的贡献。
综上所述:
1)本发明构建了一种蛋白质层次图,并借助该层次图首次提取了靶点蛋白在不同尺度下的语义信息,突破了现有方法仅从蛋白质内部提取低阶语义表征的限制。
2)本发明首创性的提供了一套通用的语义信息融合框架,并提出了两种不同的语义信息层次融合策略,其可有效的融合不同尺度的蛋白语义信息,进而丰富蛋白质表征,提升了药物-靶点亲和力预测的准确性与泛化性。
3)此外,大部分的DTA预测模型的可解释性不强,本发明在设计过程中创新性地提出了一种梯度加权可解释方法,可以捕获一定的蛋白质结合口袋信息,为DTA预测模型提供了一种良好的可解释性方法。
本发明中的实施例仅用于对本发明进行说明,并不构成对权利要求范围的限制,本领域内技术人员可以想到的其他实质上等同的替代,均在本发明保护范围内。

Claims (6)

1.一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法,其特征在于,包括以下步骤:
步骤一:药物分子特征提取
首先在药物分支层次,以药物原子为节点,以原子之间的共价键为边,将药物分子构建药物分子图,将构建的药物分子图加载到包含图卷积层的药物GCN编码器中,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块;
步骤二:靶点蛋白特征提取
(1)首先,设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式:分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络/>在此基础上进一步构建蛋白质层次图,进行全面的蛋白质表示学习,也即给定一个PPI网络/>该蛋白质层次图与/>共享相同的节点和边集,只是其中的蛋白质节点被该蛋白质的相应的残基图/>所取代;
其中,Vp为蛋白质残基接触图中的节点集合,它的每一个元素代表了一个残基节点;Ep为蛋白质残基接触图/>中的边集合,每一条边指示了两个残基节点之间的三维欧氏距离小于/>即在蛋白质的三维结构中是空间邻近的;Vppi为PPI网络中的节点集合,每一个元素代表一个蛋白质节点;Eppi为PPI网络中的边集合,每一条边代表两个蛋白质节点之间存在着相互作用。
(2)其次,依托该蛋白质层次图,借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息;在此过程中设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合,提升蛋白表征丰度,分别为自上而下和自下而上的层次融合策略;
步骤三:亲和力预测
将最终的药物表征d和蛋白质表征连接起来,得到药物-靶标对表示,然后通过以下方法预测药物-靶标相互作用:
其中MLP是具有三个全连接层的MLP块;
对于DTA任务,采用均方误差损失函数来计算回归损失,其表示为:
其中,为神经网络对于当前药物-靶点对(d,p)之间结合亲和力的预测值,而y(d,p)为当前药物-靶点对(d,p)的结合亲和力真值。
步骤四:预测结果可解释性方法
使用一个训练好的模型来预测药物靶标对的亲和力得分,然后反向传播亲和力得分,进而可以计算蛋白结构GCN编码器输出的梯度,该梯度可以用来表示特定残基对最终亲和力得分的贡献。
2.根据权利要求1所述的方法,其特征在于,药物分子特征提取步骤如下:
(1)首先在药物分支层次,以药物原子为节点,原子之间的共价键为边,将药物分子表示为药物分子图其中Vd为药物分子内原子节点的集合,Ed为边集,采用RDKit计算包将SMILES分子串转化为药物图;
(2)将构建的药物分子图加载到包含3个图卷积层的药物GCN编码器/>中,提取药物分子节点嵌入,每一个GCN层可以定义为:
其中Hd为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵,Ad为药物分子图的节点邻接矩阵,In为与Ad具有相同维大小的单位矩阵,D为对角度矩阵,σ为激活函数ReLU,W(l)为第l层GCN的可学习权重矩阵l表示GCN的层数;
(3)为了得到最终的药物表示d,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块,表示为:
其中hd,i为药物分子图的最终节点嵌入,Nd为药物分子中的原子数,i为药物分子中的原子索引。
3.根据权利要求1所述的方法,其特征在于,自下而上融合策略为:
在该策略中,从蛋白质残基图中提取的蛋白质图嵌入q作为PPI图/>中同一蛋白质的初始节点特征,进行进一步的监督学习,得到最终的节点嵌入hppi,这种策略使蛋白质残基图中的结构语义信息流动并融合到PPI图中,因此称之为自下而上。该过程表示为:
其中,φ和ψ分别表示施加在蛋白质图和PPI图上的映射函数,Sta(·)表示对所有蛋白质图嵌入q进行叠加运算,得到初始PPI图的节点特征矩阵X′ppi
4.根据权利要求3所述的方法,其特征在于:自下而上融合策略具体过程如下:
(1)借助一个GCN编码器从蛋白质残基图中提取残基嵌入,该编码器包括三个独立的GCN层,表示为如下方程:
其中Hp为蛋白质残基图在GCN层中的隐藏特征矩阵,Ap为残基图的邻接矩阵,
该GCN编码器块通过聚合邻居节点特征迭代地进行特征平滑,使拓扑相邻的残基具有相似的节点嵌入,最终获得结构感知的残基嵌入;然后,使用一个读出块来获得蛋白质残基图的图嵌入q;
(2)将所有含有低阶结构语义信息的蛋白质残基图嵌入q堆叠成一个矩阵,并将作为PPI图的初始特征矩阵:
其中为PPI图的隐藏特征矩阵,Nppi表示PPI网络中的蛋白质节点个数,qi为第i个蛋白质的蛋白质图嵌入,i取值范围为1到Nppi间的整数。该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息;在此基础上,再借助另一个GCN编码器块/>通过PPI图中的相互作用边Eppi平滑节点表示,使一组功能相似的蛋白质在特征空间上更加接近。平滑过程如下所示:
其中,为PPI图的归一化邻接矩阵,Z为与Appi具有相同维数的随机二值矩阵,⊙为逐元素乘法,该GCN编码器只包含两个GCN层,W(0)为第一层GCN中的可学习权重矩阵,W(1)为第二层GCN中的可学习权重矩阵,Z(0)为第一个GCN层中的随机二值矩阵,Z(1)为第二个GCN层中的随机二值矩阵;此外,该编码器还引入了一个DropEdge正则化项,以进一步缓解过度平滑。该正则化项表示为一个随机二值矩阵Z,其元素为伯努利分布的随机采样;
最后,对PPI图最后的节点嵌入hppi进行线性变换,得到最终的蛋白质表示如下所示:
其中w是线性参数,b是偏置项。
5.根据权利要求1所述的方法,其特征在于,自上而下融合策略如下:
该策略通过对PPI图的学习,首先计算PPI图的节点嵌入hppi,使学习到的hppi包含高阶功能语义信息,然后将该蛋白质的hppi输入到相应低阶蛋白质残基图的所有残基特征上,形成自上而下的融合方式;上述过程表示为:
其中Com(·)表示一种特殊的特征组合操作,其中Xppi为PPI网络的初始节点特征矩阵,Xp为蛋白质残基接触图的初始节点特征矩阵,X′p是将计算得到的PPI图节点嵌入hppi融合进蛋白质残基接触图的初始特征矩阵后得到的残基接触图的新特征矩阵。
6.根据权利要求5所述的方法,其特征在于,自上而下融合策略具体如下:
首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息,这个编码器块包括两个GCN层和一个DropEdge正则化项,/>是由InterPro API计算得到的属于蛋白尺度的特征,其中,/>代表了一个实数域上的向量空间,上角标Nppi×Dppi表示了该向量空间的维度大小,Nppi为PPI网络的节点数量,Dppi代表了PPI网络中节点特征的维度大小;
其次,在得到PPI图中的最终节点嵌入hppi后,采用一种特征组合运算Com(·)将hppi融合到蛋白质残基图的特征矩阵Xp中,公式如下:
其中和/>表示向量的元素相加和元素相减,∥表示向量拼接,xp表示原始残基特征;对蛋白质图中的所有残基进行特征组合运算后,得到一个新的特征矩阵X′p,该矩阵中将包含来自PPI图的功能语义信息;
最后,对蛋白质残基图应用一个GCN编码器和一个图池化层,得到最终的蛋白嵌入/>
CN202311487947.5A 2023-11-09 2023-11-09 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法 Pending CN117393036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311487947.5A CN117393036A (zh) 2023-11-09 2023-11-09 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311487947.5A CN117393036A (zh) 2023-11-09 2023-11-09 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

Publications (1)

Publication Number Publication Date
CN117393036A true CN117393036A (zh) 2024-01-12

Family

ID=89435702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311487947.5A Pending CN117393036A (zh) 2023-11-09 2023-11-09 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

Country Status (1)

Country Link
CN (1) CN117393036A (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112562790A (zh) * 2020-12-09 2021-03-26 中国石油大学(华东) 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质
CN113327644A (zh) * 2021-04-09 2021-08-31 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法
CN114333984A (zh) * 2022-01-10 2022-04-12 青岛理工大学 一种小分子-蛋白质结合亲和力智能预测方法
CN114724623A (zh) * 2022-04-29 2022-07-08 中国海洋大学 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法
CN114783514A (zh) * 2022-05-18 2022-07-22 上海天鹜科技有限公司 一种药物分子与靶标蛋白的结合亲和力预测方法
CN114999565A (zh) * 2022-04-20 2022-09-02 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN115862767A (zh) * 2022-12-08 2023-03-28 浙江大学杭州国际科创中心 基于图学习的抗lrrk2小分子药物预测和筛选方法
CN115985386A (zh) * 2022-12-28 2023-04-18 星希尔生物科技(上海)有限公司 一种多模态药物-蛋白质靶点相互作用预测方法及系统
CN116092577A (zh) * 2023-01-09 2023-05-09 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法
CN116189757A (zh) * 2022-12-07 2023-05-30 大连海事大学 一种药物-靶点相互作用预测方法和系统
CN116343911A (zh) * 2023-04-10 2023-06-27 徐州医科大学 基于三维空间生物反应的药物靶标亲和度预测方法及系统
CN116417093A (zh) * 2022-12-06 2023-07-11 苏州科技大学 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN116665766A (zh) * 2023-03-16 2023-08-29 湖南工业大学 基于图扩张卷积策略的药物靶标结合亲和力预测模型及方法
CN116959555A (zh) * 2022-03-29 2023-10-27 浙江大学 基于蛋白质三维结构进行化合物-蛋白质亲和力预测的方法和系统
CN116994644A (zh) * 2023-07-28 2023-11-03 天津大学 基于预训练模型的药靶亲和力预测方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112562790A (zh) * 2020-12-09 2021-03-26 中国石油大学(华东) 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质
CN113327644A (zh) * 2021-04-09 2021-08-31 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法
CN114333984A (zh) * 2022-01-10 2022-04-12 青岛理工大学 一种小分子-蛋白质结合亲和力智能预测方法
CN116959555A (zh) * 2022-03-29 2023-10-27 浙江大学 基于蛋白质三维结构进行化合物-蛋白质亲和力预测的方法和系统
CN114999565A (zh) * 2022-04-20 2022-09-02 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN114724623A (zh) * 2022-04-29 2022-07-08 中国海洋大学 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法
CN114783514A (zh) * 2022-05-18 2022-07-22 上海天鹜科技有限公司 一种药物分子与靶标蛋白的结合亲和力预测方法
CN116417093A (zh) * 2022-12-06 2023-07-11 苏州科技大学 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN116189757A (zh) * 2022-12-07 2023-05-30 大连海事大学 一种药物-靶点相互作用预测方法和系统
CN115862767A (zh) * 2022-12-08 2023-03-28 浙江大学杭州国际科创中心 基于图学习的抗lrrk2小分子药物预测和筛选方法
CN115985386A (zh) * 2022-12-28 2023-04-18 星希尔生物科技(上海)有限公司 一种多模态药物-蛋白质靶点相互作用预测方法及系统
CN116092577A (zh) * 2023-01-09 2023-05-09 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法
CN116665766A (zh) * 2023-03-16 2023-08-29 湖南工业大学 基于图扩张卷积策略的药物靶标结合亲和力预测模型及方法
CN116343911A (zh) * 2023-04-10 2023-06-27 徐州医科大学 基于三维空间生物反应的药物靶标亲和度预测方法及系统
CN116994644A (zh) * 2023-07-28 2023-11-03 天津大学 基于预训练模型的药靶亲和力预测方法

Similar Documents

Publication Publication Date Title
CN109492099A (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN114913917B (zh) 基于数字孪生与蒸馏bert的药物靶标亲和度预测方法
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Hu et al. Incorporating label correlations into deep neural networks to classify protein subcellular location patterns in immunohistochemistry images
Eliasof et al. Mimetic neural networks: A unified framework for protein design and folding
CN113948157A (zh) 化学反应分类方法、装置、电子设备及存储介质
CN115101145A (zh) 一种基于自适应元学习的药物虚拟筛选方法
CN117524353A (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN116092577B (zh) 一种基于多源异质信息聚合的蛋白质功能预测方法
Guo The microscopic visual forms in architectural art design following deep learning
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN116646001A (zh) 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN117393036A (zh) 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
CN115331754A (zh) 基于哈希算法的分子分类方法
CN116343930A (zh) 基于图表示多任务学习的代谢动力学及毒性预测方法
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法
Liu Multidimensional nonlinear landscape planning based on parameter feature extraction and multimedia technology
Jiang et al. Segmentation, tracking, and sub-cellular feature extraction in 3D time-lapse images
CN114360637A (zh) 一种基于图注意力网络的蛋白质-配体亲和力评价方法
Ma et al. Drug-target binding affinity prediction method based on a deep graph neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination