CN116312808A

CN116312808A - 一种基于TransGAT的药物-靶标相互作用预测方法

Info

Publication number: CN116312808A
Application number: CN202310302892.XA
Authority: CN
Inventors: 周长建; 向文胜; 宋佳; 钟玉杰
Original assignee: Northeast Agricultural University
Current assignee: Northeast Agricultural University
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-23

Abstract

本发明涉及人工智能与药物发现相关领域，具体来说，发明了一种基于Transfrormer、图注意力网络和双注意力特征融合模块相结合的药物‑靶标相互作用预测方法。由于传统的药物‑靶标相互作用分析往往需要耗费大量的人力物力以及时间成本，并且实验失败风险较高。本发明结合Transformer和图注意力网络两种模型架构的优势，并利用双注意力机制特征融合方法，将融合后的特征输入到分类器进行药物‑靶标相互作用预测。该方法经过在公开数据集上通过一系列评估指标测试明显优于现有方法，为药物‑靶标相互关系预测提供新思路。

Description

一种基于TransGAT的药物-靶标相互作用预测方法

技术领域：本发明涉及人工智能与药物发现相关领域，具体来说，发明了一种基于Transfrormer、图注意力网络(Graph attention network，GAT)和双注意力特征融合模块相结合的药物-靶标相互作用预测方法。

背景技术

药物-靶标相互作用分析作为药物发现的重要环节，有着不可替代的作用。为找到安全有效的药物，传统的药物-靶标相互作用(Drug-Target Interaction，DTI)分析往往需要对成千上万个化合物进行试验，这个过程需要耗费大量的人力物力以及时间成本，并且试验失败风险较高。近年来，计算机辅助药物设计越来越受到药物研发人员的关注，利用人工智能等技术从海量的药物与蛋白质相关数据中筛选出可能会产生相互作用的药物-靶点对(Drug-Target Pairs，DTP)，以供药物科学家进一步试验验证。这种方法不仅可以减少药物发现过程中的人力物力浪费，还能够大大缩短药物发现的时间。近年来，由于人工智能特别是深度学习技术的发展，尤其是近期Transformer技术在各领取应用日益广泛，药物-靶标相互作用预测相关的研究取得了不错的成果。本发明设计了一种新型的药物-靶标相互作用预测方法，在公开的数据集上验证，取得了丰硕的成果。

1、专业术语

(1)深度学习(Deep Learning)。深度学习技术近年来取得非常辉煌的成就，该技术由多层神经网络发展而来，其本质就是通过构建具有大量神经网络隐藏层的机器学习模型，通过海量训练数据，进行训练学习更有代表性的特征，以增加分类的准确性。与传统的机器学习方法不同，深度学习往往隐藏层更多，通过各层之间的特征交互，将原有特征表示变换到一个新的特征空间，再通过损失函数和优化函数通过特征交互信息进行优化训练效果，从而将模型最优化。

(2)Transformer。Transformer是一种基于自注意力机制的深度学习模型，与传统的深度卷积网络不同，Transformer编码器由多头自注意力模块组成，每个多头自注意力模块由多个自注意力模块组成，层与层之间用残差进行连接。自注意力机制模块用于提取输入数据的张量参数，主要有查询(query，Q)、键(key，K)和值(value，V)。其中，Q用于和其他健向量(key vector)进行交互，得到向量的权重(weights)；K用于与查询向量(queryvector)进行交互，协助其他向量输出结果；V是将Q和其他K产生得到的权重跟自身的权重求和后的结果。自注意力机制用下列公式表示：

其中d_k是Q和K的维度。

(3)图注意力网络(GAT)。图注意力网络模型(Graph attention network，GAT)是在图神经网络(Graph Neural Network，GNN)的基础上发展而来的。由于药物的结构特征，图神经网络在处理药物化学结构方面有着天然的优势，它能够对药物化学数据进行有效的建模，并且便于处理化学式之间的拓扑结构信息。而GAT在原有GNN的基础上增加了注意力机制，使得GAT便于计算药物化学结构数据中不同节点的权重，有助于发现输入特征中的关键结构部分，提升模型预测的性能。

2、国内外研究现状分析

目前国内外基于机器学习的药物-靶标相互作用预测方法主要分为利用传统机器学习方法、基于深度学习的药物-靶标相互作用预测方法和基于图神经网络的药物-靶标相互作用预测方法等三个分支。其中基于传统机器学习方法的药物-靶标相互作用预测方法需要手动提取药物和蛋白质(蛋白质是药物的主要分子靶点)的特征，然后再输入到分类器进行药物-靶标相互作用预测。这种提取特征的方式主要有两个缺点，一个是受到人为主观因素的影响，可能会导致提取的特征不够准确；二是人工提取的特征数量有限，很多难以用肉眼观察的特征可能被忽略掉，从而会影响药物-靶标相互作用预测的准确性。基于深度学习的药物-靶标相互作用预测方法近年来也得到广泛的关注，目前主要利用深度神经网络(Deep Neural Networks，DNN)作为主要的特征提取途径，这种方法可以获取到大量的药物和蛋白质特征，相对传统机器学习方法在预测准确度上有了明显的提升，但这种方法往往是在“黑盒”状态下运行的，这就使得药物科学家难以对模型的运行机制进行深入分析，这与药物设计高度安全性的要求有一定的偏差，预测结果难以得到药物学家的信任；其次，由于药物化学式结构本质上是一种图结构，深度神经网络难以对图的拓扑结构进行建模分析，这也限制了深度神经网络在药物-靶标相互作用预测中的发展。正如前文所说，图结构能够对分子化学式进行有效的建模，更加关注药物的拓扑结构信息，对基于图神经网络的药物-靶标相互作用预测方法有一定的促进意义。

目前已公开的药物-靶标相互作用预测方法存在的问题

以上各种方法对于了解药物-靶标相互作用预测研究进展有一定的借鉴意义，然而，这些方法也存在一些问题，主要有：

(1)传统机器学习方法受限于手动提取特征的低效性和主观性限制，难以大规模推广；基于深度学习的方法由于其难以解释性和不便对拓扑结构建模的缺点，模型运行机理对药物科学家不够透明；图神经网络的方法可以有效对分子结构建模，但忽略了药物-蛋白质之间的距离关系，对长序列蛋白质序列中的距离信息获取不够准确。

(2)现有方法难以同时考虑到药物分子的空间特征和蛋白质的序列特征，需要设计一种新的模型来同时对药物和蛋白质特征进行有效的编码。

(3)现有方法往往更关注DTP的特征，将编码后的特征进行简单的特征连接(concatenate)，这种方法无法获取到影响药物-蛋白质相互作用的关键特征，缺乏高效的特征融合方法。

本发明要解决的问题

针对国内外研究现状存在的问题，本发明设计了一种基于Transformer和GAT相结合的药物-靶标相互作用预测方法，该方法不仅在公开的药物-靶标数据集上取得了理想的效果，还具备较强的模型可解释性。具体来说，本发明主要解决了以下问题：

(1)本发明设计了一种基于TransGAT的药物-靶标相互作用预测方法，该方法利用图注意力网络(GAT)对药物进行建模，利用Transformer Encoder编码器对蛋白质序列进行编码。有效结合了GAT对图(Graph)数据的处理优势和Transformer便于处理长文本序列的特点。

(2)利用基于双注意力机制的特征融合方法，用于提取特征融合后的关键特征，进一步增强药物-靶标相互作用预测的准确性。

(3)本发明公开的方法具备良好的可解释性，有助于药物科学家深度了解模型运行机制，保障对药物设计的安全性。

发明内容

本发明的目的在于解决前文所述药物-靶标相互作用预测方法中存在的问题，发明了一种基于TransGAT的药物-靶标相互作用预测方法，命名为TransGAT。其主要发明内容如下：

(1)发明了一种基于TransGAT的药物-靶标相互作用预测方法，该方法结合Transformer和GAT两种模型架构的优势，并利用双注意力机制特征融合方法，将融合后的特征输入到分类器进行药物-靶标相互作用预测。

(2)从药物-靶标数据库中选取药物信息，蛋白质信息和DTP的信息。其中药物信息采用SMILES(Simplified molecular input line entry system)格式，蛋白质信息采用FASTA格式。

(3)将药物数据输入到GAT中进行编码，将药物化学式结构看成图数据，图中的每个原子都以74维整数向量表示，该向量描述了8种特性，包括原子类型、度、隐式Hs数、形式电荷、自由基电子数、原子杂交、总Hs以及原子是否为芳香原子。药物编码器以三层GAT-block的形式编写，它通过聚合通过化学键连接的相应邻域原子集来更新原子特征向量。这种传播机制捕获分子的子结构信息通过自注意力机制来对邻居节点进行聚合，实现了对不同邻居的权值自适应匹配，并保留节点级药物表征，以便随后明确了解与蛋白质片段的局部相互作用将药物化学式结构，得到编码后的药物特征集。

(4)将蛋白质序列输入到Transformer Encoder编码器进行编码，蛋白质特征编码器由6层Transformer Encoder组成，它将输入蛋白质序列转换为潜在特征空间中的矩阵表示。矩阵的每一行表示蛋白质中的子序列表示。为了实现这个过程，本发明采用了词嵌入的概念，将所有氨基酸初始化为一个可学习的嵌入矩阵。这个嵌入矩阵将氨基酸转换为向量表示，这些向量作为Encoder的输入。通过使用Transformer，能够在不同的尺度上捕获蛋白质序列中的局部特征，从而得到更好的表示。最终，蛋白质特征编码器将蛋白质序列转换为一个矩阵表示，其中每一行表示蛋白质中的一个子序列表示。得到编码后的蛋白质特征集。

(5)利用双注意力机制网络对以上得到的药物特征集和蛋白质特征集进行特征融合。该模块由两层组成：一个双线性交互映射用于捕获成对注意力权重，以及一个双线性池化层用于在交互映射上提取联合药物-目标表示。双线性交互映射可以获得单个头成对交互，这些元素表示相应药物-目标亚结构对的交互强度，并映射到潜在的结合位点和分子亚结构。通过在交互映射上引入双线性池化层，获得联合表示向量。多头交互比单头交互具有更好的性能。最后，该模型可以显式学习药物和蛋白质之间成对的局部相互作用。在特征融合后的药物-靶标对中，已知存在相互关系的药物-靶标形成的药物-靶标对是阳性的，其余的药物-靶标对是阴性的。

(6)按照每个实验数据集按7∶1∶2的比例随机分为训练集、验证集和测试集随机选取相同数量的阳性和阴性药物-靶标对，一部分作为训练集用于训练模型，一部分作为测试用例用于评估模型效果。

(7)采用训练集对TransGAT模型进行训练，利用GAT对药物进行特征提取，Transformer Encoder编码器对蛋白质序列进行特征提取，再将提取后的蛋白质特征和药物特征输入到双注意力特征融合模块进行特征融合，最后提取融合后的药物-靶标对特征输入到多层感知机(Multilayer perceptron，MLP)进行二分类，输出对药物-靶标相互关系的预测结果。设定合理的超参数，直到模型不在收敛为止，停止训练并保存训练好的模型。

(8)利用测试用例对训练好的模型进行评估，如无法达到训练时的精度，需重新设定参数进行训练，直到测试结果达到理想的要求为止。

本发明的有益效果是：本发明设计了一种基于TransGAT的药物-靶标相互作用预测方法，该方法结合Transformer处理长序列文本数据优势，GAT处理图结构(Graphstructure)数据优势和双注意力特征融合模块优势，在公开数据集上多个评估指标明显优于现有的药物-靶标相互作用预测方法。

附图说明：

图1：本发明的基于TransGAT的药物-靶标相互作用预测模型流程图，图1a为整体网络流程架构，图1b为基于GAT的药物编码模块，图1c为基于Transformer的蛋白质编码模块。

图2：双注意力特征融合模块。其中H_d代表药物特征表示，H_p代表蛋白质特征表示，U和V分别代表两个注意力权重矩阵。

具体实施方式

为更好的理解本发明的目的、技术方案和优点更加清晰，下面结合附图和具体实例实施方式对本发明作进一步说明。本领域技术人员可由本说明书所揭示的内容轻易了解本发明的优点与功效，但不以任何形式限制本发明。应当指出的是，对本领域普通技术人员来说，在不脱离本发明的思想前提下，还可以做出若干变化和改进，这些都属于本发明的保护范围。下面结合附图，对本发明的具体实例的一些实施方式作详细说明，在不冲突的情况下，下述实施方式可以扩展到所有药物-靶标相互作用预测使用。

根据本发明提供的一种基于TransGAT的药物-靶标相互作用预测方法，其主要流程请参考图1，主要实施步骤包括：

步骤1：数据获取。从药物-靶标数据库中选取药物信息，蛋白质信息和DTP信息。本实例的数据来源于BindingDB、BioSNAP和Human三个数据库，其中药物信息采用SMILES格式，蛋白质信息采用FASTA格式。

步骤2：数据预处理。本实例中药物采用的SMILES格式是一种二维结构图形式，表示为：D＝(v，ξ)，其中D代表药物，v和ξ分别代表图的节点(vertices)和边(edges)，在本实例中节点和便分别表示药物分子的原子和化学键。在特征提取过程，为便于计算，每个药物分子结构用一个特征矩阵(feature matrix)

和一个邻接矩阵(adjacency matrix)

表示。其中N_i是药物分子的第i个原子，K代表原子的特征维度。本实例中蛋白质采用FASTA格式表示，这是一种长序列形式，表示为：ρ＝(ρ₁，ρ₂，...，ρ_n)，其中ρ_i代表蛋白质中第i个氨基酸。

步骤3：设计TransGAT模型。本发明综合利用Transformer、图注意力网络(GAT)和双注意力特征融合三个模块的优势。其中Transformer在蛋白质序列编码有较强的优势，图注意力网络能更加深入的提取对预测结果有利的药物特征，双注意力特征融合模块突出DTP特征信息，进一步增加模型预测的精度。该模型主要分为以下三个功能：

(1)特征编码模块。其中蛋白质编码模型创建了一个可学习的嵌入矩阵

包含23个氨基酸类型，D_P代表矩阵的维度。通过查找嵌入矩阵，将每个蛋白质序列初始化为相应的特征矩阵/>

其中θ是蛋白质序列的最大允许长度，设置该序列是为了对齐不同的蛋白质长度并使批量训练成为可能。为了处理不同长度的蛋白质序列，本发明将每个蛋白质序列切割为最大允许长度内的片段，并用零填充长度较短的片段，以确保所有蛋白质序列的长度相同，并在训练期间分批处理。Transformer Encoder从蛋白质特征矩阵中提取局部特征信息，蛋白质序列是一串构成蛋白质的氨基酸。与其单独考虑每种氨基酸，不如将它们分成重叠的三组这种分组可以更全面地分析蛋白质序列，因为它考虑了相邻氨基酸之间的相互作用。蛋白质编码层从大小为3的每三组数据输入到6层Transformer Encoder中，经过编码后输出蛋白质特征编码。药物编码器使用简单的线性变换，将节点特征矩阵乘以权重矩阵并对其进行转置，从而得到药物结构矩阵。使用6层GAT-Block来学习药物化合物的图表示，GAT通过聚合其相应的邻域原子集来更新原子特征向量，这些邻域原子通过化学键相连。药物编码器的结构如下：/>

其中e_ij表示节点i与节点j之间的注意力值，LeakyReLU是激活函数，/>

和W是可学习参数，每一层的可学习参数是相同的，/>

代表节点i的特征向量。

(2)特征融合模块。请参考图2，特征融合模块利用双注意力机制，对前面输入的特征编码进行深度融合，增加对预测结果有利的特征权重，以增加预测精度。双线性相互作用图捕捉药物和蛋白质之间成对的注意力权重，而双线性池化层提取联合药物靶标表示形式。第6层的隐藏蛋白质和药物表现形式是使用单独的Transformer和GAT编码器获得的。蛋白质中编码的子结构数量和药物中的原子数分别用M和N表示。双线性交互映射可以获得单头成对交互作用

这是一个大小为N×M的矩阵。该矩阵代表药物和蛋白质之间的成对相互作用。双线性注意力网络模块捕获了药物和蛋白质之间这些成对的局部相互作用，这对于更好地预测和解释药物靶向相互作用非常重要。

(3)药物-靶标相互关系预测模块。该模块将融合后的特征输入到MLP进行二分类，以预测输入目标药物和蛋白质之间是否有关系。为了计算交互概率，将特征输入到解码器中，解码器是一个完全连接的分类层，后面是sigmoid函数，将输出映射到介于0到1之间的概率值，表示药物靶点相互作用的可能性。

步骤4：设置TransGAT模型参数。本实例为使设计好的TransGAT模型达到理想的预测效果，需设置以下超参数：

(1)激活函数。本实例训练过程所用到的激活函数是ReLU函数。该函数是一个分段函数，它把所有的负值都置为0，而正值不变，该函数只会将正值的神经元激活，这样就能够增加计算效率，不存在梯度消失问题，ReLU函数可以表示为：

(2)损失函数。本实例训练过程用的损失函数是二值交叉熵(Binary Cross-Entropy)损失函数，该函数可以表示为：

其目的在于：当样本为正时y＝1，此时Loss＝-log(P(y))，当P(y)越大时，Loss越小，最理想的情况就是当P(y)＝1时，Loss＝0。当样本为反例时，y＝0，此时Loss＝-log(1-P(y))，当P(y)越小时，Loss越小，最理想的情况就是当P(y)＝0时，Loss＝0。

(3)优化函数。本实例训练过程用的优化函数是adam。adam优化算法使用动量和自适应学习率来加快收敛速度，它在RMSprop优化算法的基础上增加了动量(Momentum)，使模型学习效率进一步加快。

步骤5：实验结果对比。本实例采用的评估指标有AUROC(Areaunderthe receiveroperating characteristic curve，ROC曲线下面积)、AUPRC(Area under the precision-recall curve，PR曲线下面积)、召回率(Recall)、精度(Precision)、准确率(Accuracy)等。以上全部或部分评价指标在三个公开数据集上的实验结果对比如下：

(1)在BindingDB数据集上的对比结果，其中加粗的数据为最优结果

(2)在Human数据集上的对比结果，其中加粗的数据为最优结果

(3)在BioSNAP数据集上的对比结果，其中加粗的数据为最优结果

通过对比发现，本发明所采用的药物-靶标相互关系预测方法在多个评估指标上的性能明显优于现有的GCN-DTI、GraphDTA、DeepConv-DTI、TransformerCPI、MolTrans等方法。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，包括但不限于以本发明提供的方法为基础设计的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序，这并不影响本发明的实质内容。

Claims

1.一种基于TransGAT的药物-靶标相互作用预测方法，其特征在于，包括以下步骤：

S1：数据获取，从药物-靶标数据库中选取药物信息，蛋白质信息和药物-靶标对信息，其中药物信息采用SMILES格式，蛋白质信息采用FASTA格式；

S2：数据预处理，本实例中药物采用的SMILES格式是一种二维结构图形式，表示为：D＝(ν，ξ)，其中D代表药物，ν和ξ分别代表图的顶点和边，在本实例中节点和便分别表示药物分子的原子和化学键，在特征提取过程为便于计算，每个药物分子结构用一个特征矩阵

和一个邻接矩阵/>

表示，其中N_i是药物分子的第i个原子，K代表原子的特征维度，本实例中蛋白质采用FASTA格式表示，这是一种长序列形式，表示为：ρ＝(ρ₁，ρ₂，...，ρ_n)，其中抖代表蛋白质中第i个氨基酸；

S3：设计TransGAT模型，该模型综合利用Transformer、图注意力网络和双注意力特征融合三个模块的优势，其中Transformer在蛋白质序列编码有较强的优势，图注意力网络能更加深入的提取对预测结果有利的药物特征，双注意力特征融合模块突出药物-靶标对特征信息，进一步增加模型预测的精度；该模型主要分为以下三个功能：(1)特征编码模块，其中蛋白质编码方式如下：该模块创建了一个可学习的嵌入矩阵

其中包含23个氨基酸类型，DP代表矩阵的维度，通过查找嵌入矩阵，将每个蛋白质序列初始化为相应的特征矩阵/>

其中θ是蛋白质序列的最大允许长度，再将每个蛋白质序列切割为最大允许长度内的片段，并用零填充长度较短的片段，并在训练期间分批处理，Transformer编码器从蛋白质特征矩阵中提取局部特征信息，蛋白质编码层从大小为3的每三组数据输入到6层Transformer编码器中，经过编码后输出蛋白质特征编码；药物编码方式如下：将药物化学式结构看成图数据，其中每个原子都以74维整数向量表示，该向量描述了8种特性，分别是：原子类型、度、隐式Hs数、形式电荷、自由基电子数、原子杂交、总Hs以及原子是否为芳香原子，共使用6层图注意力网络GAT来学习药物化合物的图表示，图注意力网络GAT通过聚合其相应的邻域原子集来更新原子特征向量，这些邻域原子通过化学键相连，药物编码器的结构表示为/>

和W是可学习参数，每一层的可学习参数是相同的，/>

代表节点i的特征向量；(2)特征融合模块，特征融合模块利用双注意力机制，对前面输入的特征编码进行深度融合，该模块由两层组成：一个双线性交互映射用于捕获成对注意力权重，以及一个双线性池化层用于在交互映射上提取联合药物-目标表示，双线性交互映射可以获得单个头成对交互，这些元素表示相应药物-目标子结构对的交互强度，并映射到潜在的结合位点和分子亚结构，通过在交互映射上引入双线性池化层，获得联合表示向量，多头交互比单头交互具有更好的性能，最后，该模型可以显式学习药物和蛋白质之间成对的局部相互作用，在特征融合后的药物-靶标对中，已知存在相互关系的药物-靶标形成的药物-靶标对是阳性的，其余的药物-靶标对是阴性的；(3)药物-靶标相互关系预测模块，该模块将融合后的特征输入到多层感知机进行分类，以预测输入目标药物和蛋白质之间是否有关系，多层感知机利用sigmoid函数，将输出映射到介于0到1之间的概率值，表示药物靶点相互作用的可能性；

S4：设置TransGAT模型参数，激活函数采用ReLU函数，损失函数采用二值交叉熵BinaryCross-Entropy损失函数，优化函数采用adam，迭代次数是200，Transformer层数为6，GAT层数为6，特征融合注意力机制头数是2，特征融合模块嵌入size是768；

S5：采用训练集对TransGAT模型进行训练，采用步骤S4设定的超参数训练模型，直到模型不在收敛为止，停止训练并保存训练好的模型；

S6：模型封装，形成基于TransGAT的药物-靶标相互作用预测模型。

2.根据权利要求1所述一种基于TransGAT的药物-靶标相互作用预测方法，其特征在于，该方法利用图注意力网络GAT对药物进行建模，利用Transformer编码器对蛋白质序列进行编码。

3.根据权利要求1所述一种基于TransGAT的药物-靶标相互作用预测方法，其特征在于，该方法所述的TransGAT模型主要分为三部分，分别为：特征编码部分，特征融合部分，药物-靶标相互关系预测部分。

4.根据权利要求1所述一种基于TransGAT的药物-靶标相互作用预测方法，其特征在于，该方法采用双注意力机制进行特征融合。

5.根据权利要求1所述一种基于TransGAT的药物-靶标相互作用预测方法，其特征在于，该方法可以用于药物-靶标相互关系预测。