CN115188412A - 基于Transformer和图神经网络的药物预测算法 - Google Patents

基于Transformer和图神经网络的药物预测算法 Download PDF

Info

Publication number
CN115188412A
CN115188412A CN202210891767.2A CN202210891767A CN115188412A CN 115188412 A CN115188412 A CN 115188412A CN 202210891767 A CN202210891767 A CN 202210891767A CN 115188412 A CN115188412 A CN 115188412A
Authority
CN
China
Prior art keywords
protein
compound
characterization
transformer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210891767.2A
Other languages
English (en)
Inventor
夏莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Suntech Intelligent Technology Co ltd
Original Assignee
Shanghai Suntech Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Suntech Intelligent Technology Co ltd filed Critical Shanghai Suntech Intelligent Technology Co ltd
Priority to CN202210891767.2A priority Critical patent/CN115188412A/zh
Publication of CN115188412A publication Critical patent/CN115188412A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及小分子药物研发技术领域,且公开了基于Transformer和图神经网络的药物预测算法,包括以下步骤:S1、处理蛋白质与化合物相互作用数据集,将数据集按照3∶1∶1的比例划分训练集、验证集和测试集。本发明提出了一种基于Transformer和图神经网络的药物预测模型,通过组合蛋白质和化合物的特征,学习二者之间的相互作用,相比于传统方法,无需蛋白质结构,并且可以预测新颖的靶标蛋白与药物之间的作用关系,本发明与现有方法相比,具有更高的预测精度。提出了一种基于Transformer的蛋白质序列表征网络。与之前的方法相比,可以从蛋白质组成和进化信息中学习蛋白质的表征向量,具有更好的蛋白质特征提取能力。

Description

基于Transformer和图神经网络的药物预测算法
技术领域
本发明涉及小分子药物研发技术领域,具体为基于Transformer和图神经网络的药物预测算法。
背景技术
蛋白质与小分子相互作用在研究生命活动、药物设计与研发方面起着重要的作用。目前,基于人工智能的药物筛选可以分为三类:1)基于蛋白质结构的药物筛选,其基于蛋白质结构信息,与化合物结构做对接,根据与结合能相关的亲和性打分函数计算结合亲和力分数;2)基于化合物配体的虚拟筛选,其根据现有药物结构及医学理化性质,对蛋白质受体的抑制性分析,通过建立药物分析模型,预测候选药物对蛋白质受体的抑制性;3)基于蛋白质与化合物的相互作用预测模型,通过已知的蛋白质与化合物相互作用关系,端对端地学习蛋白质与化合物的关键作用模式,预测候选的蛋白质与化合物的配对关系。一方面,由于获取蛋白质的结晶结构对成本和技术要求高且受人工能量函数和模拟精度的限制,基于蛋白质结构的对接方法无法高效率、精准的预测蛋白质与配体的复合结构,另一方面,基于化合物配体的虚拟筛选受已知配体数量的限制,对于新发现或研究较少的靶点蛋白,无法收集足够数据用于模型训练。基于此,本发明提出一种基于Transformer和图神经网络的药物预测算法,通过对蛋白质序列和化合物结构进行建模来拟合相互作用关系,无需蛋白质结构,并且可以对新靶点、新化合物进行相互作用预测分析。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于Transformer和图神经网络的药物预测算法,解决了上述背景技术中所存在的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:基于Transformer和图神经网络的药物预测算法,对于给定的蛋白质与化合物相互作用对,分别提取蛋白质和化合物的特征并建模,得到蛋白质的表征向量与化合物的表征向量,最后通过相互作用预测网络,学习二者之间的相互作用模式,流程如图1所示,具体包括以下步骤:
S1、处理蛋白质与化合物相互作用数据集,将数据集按照3∶1∶1的比例划分训练集、验证集和测试集;
S2、蛋白质序列特征提取,蛋白质的序列特征分为两部分,第一部分是蛋白质的氨基酸组成,标准氨基酸共有20种,因此每个残基编码为20维的独热编码,第二部分是蛋白质的进化保守性信息,通过同源序列比对算法,获取蛋白质的同源序列,并计算氨基酸突变概率,每个残基对应30维的进化信息,对序列长度为L的蛋白质,得到L×50的特征表示;
S3、学习蛋白质表征,提出一种基于Transformer的蛋白质特征表征网络,通过堆叠的自注意力层与非线性变换层,学习蛋白质的表征,蛋白质的表征模块如图2所示;首先将蛋白质序列特征通过线性变换层映射为L×128的向量,随后经过4层的自注意力层与非线性变换层得到最终的尺寸为L×128的序列表征,线性变换层定义为:
Y=WX+b
其中,X为输入,W和b为模型参数,对第k个自注意力-非线性层,输入Xk,首先计算序列成对位置之间注意力权重:
Figure BDA0003767840100000021
其中,Q、K、V为Xk的线性变换,随后通过非线性变换得到序列特征表示:
Xk+1=W2max(0,W1attn_Xk+b1)+b2
经过4层变换得到蛋白质的二维表征向量,尺寸为L×128,随后将蛋白质特征展开,并通过非线性变换层得到蛋白质的表征向量,尺寸为128;
S4、化合物特征提取,将化合物表示为图结构,定义药物分子的原子为节点,根据共价键定义边和邻接矩阵,节点特征共164维,包括原子类型、电荷、手性、原子质量、原子坐标,边特征共19维,包括键类型、手性等;
S5、学习化合物表征,提出一种基于图神经网络的化合物表征网络,化合图的节点特征和边特征分别通过线性变换层映射到128维,随后通过12层残差图神经网络学习节点表征,最后通过平均池化层,将节点的特征平均得到化合物的特征向量,尺寸为128;
S6、预测蛋白质与化合物的相互作用概率,将获得的蛋白质与小分子特征进行拼接得到长度为256的特征向量,并通过非线性变换层,预测相互作用概率;
S7、通过训练集和验证集对相互作用预测模型进行训练和优化,对于待预测的蛋白质与化合物对,首先分别提取蛋白质与化合物特征,并使用训练好的模型预测相互作用概率。
优选的,所述步骤S1中,训练集用于优化模型,验证集用于确定优化迭代次数,测试集用于对比模型效果。
(三)有益效果
本发明提供了基于Transformer和图神经网络的药物预测算法,具备以下有益效果:
(1)、本发明提出了一种基于Transformer和图神经网络的药物预测模型,通过组合蛋白质和化合物的特征,学习二者之间的相互作用,相比于传统方法,无需蛋白质结构,并且可以预测新颖的靶标蛋白与药物之间的作用关系,本发明与现有方法相比,具有更高的预测精度。
(2)、本发明提出了一种基于Transformer的蛋白质序列表征网络。与之前的方法相比,可以从蛋白质组成和进化信息中学习蛋白质的表征向量,具有更好的蛋白质特征提取能力。
(3)、本发明设计了一种基于图神经网络的化合物特征提取网络,可以层级化地从边、节点特征中提取重要的特征,具有邻接边的两个节点的结构和物化性质可以相互影响和传播,这使得我们的方法可以化合物中重要的结构和物化特征。
附图说明
图1为基于Transformer和图神经网络的药物预测算法流程图;
图2为基于Transformer的蛋白质特征表征网络流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施中使用蛋白质与化合物相互作用数据集训练和评估模型,数据集包括39747个正样本及31218个负样本,将样本按照3:1:1的比例划分为训练集、验证集和测试集。在训练集上优化模型,验证集用于选择模型超参数及模型训练次数,测试集用于评估本方法与其他方法的性能。
根据蛋白质的序列及小分子结构分别提取特征,并通过Transformer网络及图神经网络提取蛋白质和化合物的表征向量,将二者向量进行拼接,通过相互作用预测网络预测二者的相互作用概率。训练集中的数据按大小为64的mini-batch输入到构建的层次化图神经网络中,通过Adam算法优化网络的参数,直到验证集上的优化指标连续10次迭代不会变更优为止。至此,本发明包含的模型皆训练完成。模型训练结束后,对测试集中的蛋白质和化合物分别提取特征,并输入训练好的神经网络进行预测得到相互作用的概率,按照在验证集上优化的二值化阈值判断是否具有相互作用。
本发明采用的评价指标为ROC曲线下与坐标轴围成的面积AUROC,PRC曲线下与坐标轴围成的面积AUPRC。
在实验阶段,本发明与其它具有代表性的蛋白质与化合物相互作用预测方法进行比较((1)Nguyen,T.et al.(2019)GraphDTA:prediction of drug–target bindingaffinity using graph convolutional networks.bioRxiv:doi:http://dx.doi.org/10.1101/684662.(2)Tsubaki,M.et al.(2019)Compound–protein interactionprediction with end-to-end learning of neural networks for graphs andsequences.Bioinformatics,35,309–318.(3)Chen,Lifan,et al."TransformerCPI:improving compound–protein interaction prediction by sequence-based deeplearning with self-attention mechanism and label reversal experiments."Bioinformatics 36.16(2020):4406-4414.),结果如下表所示。本发明在两项指标上都显著好于其他方法,这说明我们的方法可以更准确得识别蛋白质与化合物相互作用,具有显著优势。
Method AUROC AUPRC
GraphDTA 0.929 0.917
CPI-GNN 0.603 0.543
TransformerCPI 0.951 0.949
本方法 0.963 0.961
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.基于Transformer和图神经网络的药物预测算法,其特征在于,包括以下步骤:
S1、处理蛋白质与化合物相互作用数据集,将数据集按照3∶1∶1的比例划分训练集、验证集和测试集;
S2、蛋白质序列特征提取,蛋白质的序列特征分为两部分,第一部分是蛋白质的氨基酸组成,标准氨基酸共有20种,因此每个残基编码为20维的独热编码,第二部分是蛋白质的进化保守性信息,通过同源序列比对算法,获取蛋白质的同源序列,并计算氨基酸突变概率,每个残基对应30维的进化信息,对序列长度为L的蛋白质,得到L×50的特征表示;
S3、学习蛋白质表征,提出一种基于Transformer的蛋白质特征表征网络,通过堆叠的自注意力层与非线性变换层,学习蛋白质的表征;首先将蛋白质序列特征通过线性变换层映射为L×128的向量,随后经过4层的自注意力层与非线性变换层得到最终的尺寸为L×128的序列表征,线性变换层定义为:
Y=WX+b
其中,X为输入,W和b为模型参数,对第k个自注意力-非线性层,输入Xk,首先计算序列成对位置之间注意力权重:
Figure FDA0003767840090000011
其中,Q、K、V为Xk的线性变换,随后通过非线性变换得到序列特征表示:
Xk+1=W2max(0,W1attn_Xk+b1)+b2
经过4层变换得到蛋白质的二维表征向量,尺寸为L×128,随后将蛋白质特征展开,并通过非线性变换层得到蛋白质的表征向量,尺寸为128;
S4、化合物特征提取,将化合物表示为图结构,定义药物分子的原子为节点,根据共价键定义边和邻接矩阵,节点特征共164维,包括原子类型、电荷、手性、原子质量、原子坐标,边特征共19维,包括键类型、手性等;
S5、学习化合物表征,提出一种基于图神经网络的化合物表征网络,化合图的节点特征和边特征分别通过线性变换层映射到128维,随后通过12层残差图神经网络学习节点表征,最后通过平均池化层,将节点的特征平均得到化合物的特征向量,尺寸为128;
S6、预测蛋白质与化合物的相互作用概率,将获得的蛋白质与小分子特征进行拼接得到长度为256的特征向量,并通过非线性变换层,预测相互作用概率;
S7、通过训练集和验证集对相互作用预测模型进行训练和优化,对于待预测的蛋白质与化合物对,首先分别提取蛋白质与化合物特征,并使用训练好的模型预测相互作用概率。
2.根据权利要求1所述的基于Transformer和图神经网络的药物预测算法,其特征在于:所述步骤S1中,训练集用于优化模型,验证集用于确定优化迭代次数,测试集用于对比模型效果。
CN202210891767.2A 2022-07-27 2022-07-27 基于Transformer和图神经网络的药物预测算法 Withdrawn CN115188412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210891767.2A CN115188412A (zh) 2022-07-27 2022-07-27 基于Transformer和图神经网络的药物预测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210891767.2A CN115188412A (zh) 2022-07-27 2022-07-27 基于Transformer和图神经网络的药物预测算法

Publications (1)

Publication Number Publication Date
CN115188412A true CN115188412A (zh) 2022-10-14

Family

ID=83520573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210891767.2A Withdrawn CN115188412A (zh) 2022-07-27 2022-07-27 基于Transformer和图神经网络的药物预测算法

Country Status (1)

Country Link
CN (1) CN115188412A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410660A (zh) * 2022-11-02 2022-11-29 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115620803A (zh) * 2022-11-02 2023-01-17 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN116206676B (zh) * 2023-04-28 2023-09-26 中国人民解放军军事科学院军事医学研究院 基于蛋白三维结构和图神经网络的免疫原预测系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410660A (zh) * 2022-11-02 2022-11-29 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115620803A (zh) * 2022-11-02 2023-01-17 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN115410660B (zh) * 2022-11-02 2023-01-24 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115620803B (zh) * 2022-11-02 2023-10-20 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN116206676B (zh) * 2023-04-28 2023-09-26 中国人民解放军军事科学院军事医学研究院 基于蛋白三维结构和图神经网络的免疫原预测系统及方法

Similar Documents

Publication Publication Date Title
CN110363344B (zh) 基于miv-gp算法优化bp神经网络的概率积分参数预测方法
CN115188412A (zh) 基于Transformer和图神经网络的药物预测算法
CN109063416B (zh) 基于lstm循环神经网络的基因表达预测方法
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN111881342A (zh) 一种基于图孪生网络的推荐方法
CN114765063A (zh) 基于图神经网络表征的蛋白质与核酸结合位点预测方法
CN106649658B (zh) 针对用户角色无差异对待和数据稀疏的推荐系统及方法
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN111476261A (zh) 一种社区增强的图卷积神经网络方法
CN111540405B (zh) 一种基于快速网络嵌入的疾病基因预测方法
CN116741397A (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN117766021A (zh) 一种预测蛋白质-多肽结合位点的深度学习算法
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
CN114997476A (zh) 一种融合商品关联关系的商品预测方法
Haixiang et al. Optimizing reservoir features in oil exploration management based on fusion of soft computing
Wang et al. A novel stochastic block model for network-based prediction of protein-protein interactions
CN109784404A (zh) 一种融合标签信息的多标签分类原型系统及方法
CN117194918A (zh) 基于自注意力回声状态网络的气温预测方法及系统
CN116822742A (zh) 一种基于动态分解-重构集成处理的电力负荷预测方法
CN115579151A (zh) 基于Transformer和图神经网络的药物预测算法
Jagtap et al. Multiomics data integration for gene regulatory network inference with exponential family embeddings
Plazas et al. Towards reduction of expert bias on Gleason score classification via a semi-supervised deep learning strategy
CN114970835A (zh) 电磁编码超表面单元及其电磁行为的参数化建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221014