CN115188412A

CN115188412A - 基于Transformer和图神经网络的药物预测算法

Info

Publication number: CN115188412A
Application number: CN202210891767.2A
Authority: CN
Inventors: 夏莹
Original assignee: Shanghai Suntech Intelligent Technology Co ltd
Current assignee: Shanghai Suntech Intelligent Technology Co ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-10-14

Abstract

本发明涉及小分子药物研发技术领域，且公开了基于Transformer和图神经网络的药物预测算法，包括以下步骤：S1、处理蛋白质与化合物相互作用数据集，将数据集按照3∶1∶1的比例划分训练集、验证集和测试集。本发明提出了一种基于Transformer和图神经网络的药物预测模型，通过组合蛋白质和化合物的特征，学习二者之间的相互作用，相比于传统方法，无需蛋白质结构，并且可以预测新颖的靶标蛋白与药物之间的作用关系，本发明与现有方法相比，具有更高的预测精度。提出了一种基于Transformer的蛋白质序列表征网络。与之前的方法相比，可以从蛋白质组成和进化信息中学习蛋白质的表征向量，具有更好的蛋白质特征提取能力。

Description

基于Transformer和图神经网络的药物预测算法

技术领域

本发明涉及小分子药物研发技术领域，具体为基于Transformer和图神经网络的药物预测算法。

背景技术

蛋白质与小分子相互作用在研究生命活动、药物设计与研发方面起着重要的作用。目前，基于人工智能的药物筛选可以分为三类：1)基于蛋白质结构的药物筛选，其基于蛋白质结构信息，与化合物结构做对接，根据与结合能相关的亲和性打分函数计算结合亲和力分数；2)基于化合物配体的虚拟筛选，其根据现有药物结构及医学理化性质，对蛋白质受体的抑制性分析，通过建立药物分析模型，预测候选药物对蛋白质受体的抑制性；3)基于蛋白质与化合物的相互作用预测模型，通过已知的蛋白质与化合物相互作用关系，端对端地学习蛋白质与化合物的关键作用模式，预测候选的蛋白质与化合物的配对关系。一方面，由于获取蛋白质的结晶结构对成本和技术要求高且受人工能量函数和模拟精度的限制，基于蛋白质结构的对接方法无法高效率、精准的预测蛋白质与配体的复合结构，另一方面，基于化合物配体的虚拟筛选受已知配体数量的限制，对于新发现或研究较少的靶点蛋白，无法收集足够数据用于模型训练。基于此，本发明提出一种基于Transformer和图神经网络的药物预测算法，通过对蛋白质序列和化合物结构进行建模来拟合相互作用关系，无需蛋白质结构，并且可以对新靶点、新化合物进行相互作用预测分析。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于Transformer和图神经网络的药物预测算法，解决了上述背景技术中所存在的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：基于Transformer和图神经网络的药物预测算法，对于给定的蛋白质与化合物相互作用对，分别提取蛋白质和化合物的特征并建模，得到蛋白质的表征向量与化合物的表征向量，最后通过相互作用预测网络，学习二者之间的相互作用模式，流程如图1所示，具体包括以下步骤：

S1、处理蛋白质与化合物相互作用数据集，将数据集按照3∶1∶1的比例划分训练集、验证集和测试集；

S2、蛋白质序列特征提取，蛋白质的序列特征分为两部分，第一部分是蛋白质的氨基酸组成，标准氨基酸共有20种，因此每个残基编码为20维的独热编码，第二部分是蛋白质的进化保守性信息，通过同源序列比对算法，获取蛋白质的同源序列，并计算氨基酸突变概率，每个残基对应30维的进化信息，对序列长度为L的蛋白质，得到L×50的特征表示；

S3、学习蛋白质表征，提出一种基于Transformer的蛋白质特征表征网络，通过堆叠的自注意力层与非线性变换层，学习蛋白质的表征，蛋白质的表征模块如图2所示；首先将蛋白质序列特征通过线性变换层映射为L×128的向量，随后经过4层的自注意力层与非线性变换层得到最终的尺寸为L×128的序列表征，线性变换层定义为：

Y＝WX+b

其中，X为输入，W和b为模型参数，对第k个自注意力-非线性层，输入X^k，首先计算序列成对位置之间注意力权重：

其中，Q、K、V为X^k的线性变换，随后通过非线性变换得到序列特征表示：

X^k+1＝W₂max(0,W₁attn_X^k+b₁)+b₂

经过4层变换得到蛋白质的二维表征向量，尺寸为L×128，随后将蛋白质特征展开，并通过非线性变换层得到蛋白质的表征向量，尺寸为128；

S4、化合物特征提取，将化合物表示为图结构，定义药物分子的原子为节点，根据共价键定义边和邻接矩阵，节点特征共164维，包括原子类型、电荷、手性、原子质量、原子坐标，边特征共19维，包括键类型、手性等；

S5、学习化合物表征，提出一种基于图神经网络的化合物表征网络，化合图的节点特征和边特征分别通过线性变换层映射到128维，随后通过12层残差图神经网络学习节点表征，最后通过平均池化层，将节点的特征平均得到化合物的特征向量，尺寸为128；

S6、预测蛋白质与化合物的相互作用概率，将获得的蛋白质与小分子特征进行拼接得到长度为256的特征向量，并通过非线性变换层，预测相互作用概率；

S7、通过训练集和验证集对相互作用预测模型进行训练和优化，对于待预测的蛋白质与化合物对，首先分别提取蛋白质与化合物特征，并使用训练好的模型预测相互作用概率。

优选的，所述步骤S1中，训练集用于优化模型，验证集用于确定优化迭代次数，测试集用于对比模型效果。

(三)有益效果

本发明提供了基于Transformer和图神经网络的药物预测算法，具备以下有益效果：

(1)、本发明提出了一种基于Transformer和图神经网络的药物预测模型，通过组合蛋白质和化合物的特征，学习二者之间的相互作用，相比于传统方法，无需蛋白质结构，并且可以预测新颖的靶标蛋白与药物之间的作用关系，本发明与现有方法相比，具有更高的预测精度。

(2)、本发明提出了一种基于Transformer的蛋白质序列表征网络。与之前的方法相比，可以从蛋白质组成和进化信息中学习蛋白质的表征向量，具有更好的蛋白质特征提取能力。

(3)、本发明设计了一种基于图神经网络的化合物特征提取网络，可以层级化地从边、节点特征中提取重要的特征，具有邻接边的两个节点的结构和物化性质可以相互影响和传播，这使得我们的方法可以化合物中重要的结构和物化特征。

附图说明

图1为基于Transformer和图神经网络的药物预测算法流程图；

图2为基于Transformer的蛋白质特征表征网络流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施中使用蛋白质与化合物相互作用数据集训练和评估模型，数据集包括39747个正样本及31218个负样本，将样本按照3：1：1的比例划分为训练集、验证集和测试集。在训练集上优化模型，验证集用于选择模型超参数及模型训练次数，测试集用于评估本方法与其他方法的性能。

根据蛋白质的序列及小分子结构分别提取特征，并通过Transformer网络及图神经网络提取蛋白质和化合物的表征向量，将二者向量进行拼接，通过相互作用预测网络预测二者的相互作用概率。训练集中的数据按大小为64的mini-batch输入到构建的层次化图神经网络中，通过Adam算法优化网络的参数，直到验证集上的优化指标连续10次迭代不会变更优为止。至此，本发明包含的模型皆训练完成。模型训练结束后，对测试集中的蛋白质和化合物分别提取特征，并输入训练好的神经网络进行预测得到相互作用的概率，按照在验证集上优化的二值化阈值判断是否具有相互作用。

本发明采用的评价指标为ROC曲线下与坐标轴围成的面积AUROC，PRC曲线下与坐标轴围成的面积AUPRC。

在实验阶段，本发明与其它具有代表性的蛋白质与化合物相互作用预测方法进行比较((1)Nguyen,T.et al.(2019)GraphDTA:prediction of drug–target bindingaffinity using graph convolutional networks.bioRxiv:doi:http://dx.doi.org/10.1101/684662.(2)Tsubaki,M.et al.(2019)Compound–protein interactionprediction with end-to-end learning of neural networks for graphs andsequences.Bioinformatics,35,309–318.(3)Chen,Lifan,et al."TransformerCPI:improving compound–protein interaction prediction by sequence-based deeplearning with self-attention mechanism and label reversal experiments."Bioinformatics 36.16(2020):4406-4414.)，结果如下表所示。本发明在两项指标上都显著好于其他方法，这说明我们的方法可以更准确得识别蛋白质与化合物相互作用，具有显著优势。

Method	AUROC	AUPRC
			GraphDTA	0.929	0.917
CPI-GNN	0.603	0.543
			TransformerCPI	0.951	0.949
本方法	0.963	0.961

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于Transformer和图神经网络的药物预测算法，其特征在于，包括以下步骤：

S3、学习蛋白质表征，提出一种基于Transformer的蛋白质特征表征网络，通过堆叠的自注意力层与非线性变换层，学习蛋白质的表征；首先将蛋白质序列特征通过线性变换层映射为L×128的向量，随后经过4层的自注意力层与非线性变换层得到最终的尺寸为L×128的序列表征，线性变换层定义为：

Y＝WX+b

X^k+1＝W₂max(0,W₁attn_X^k+b₁)+b₂

2.根据权利要求1所述的基于Transformer和图神经网络的药物预测算法，其特征在于：所述步骤S1中，训练集用于优化模型，验证集用于确定优化迭代次数，测试集用于对比模型效果。