CN113593633A

CN113593633A - 基于卷积神经网络的药物-蛋白相互作用预测模型

Info

Publication number: CN113593633A
Application number: CN202110878705.3A
Authority: CN
Inventors: 王爽; 宋弢
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-02
Anticipated expiration: 2041-08-02
Also published as: CN113593633B

Abstract

本发明提出了一种基于卷积神经网络的药物‑蛋白相互作用预测模型，该预测模型的构建方法如下：步骤1、为靶点蛋白质的结合位点构建包围盒描述符，利用三层3D卷积神经网络提取多通道的结合位点空间结构特征；步骤2、基于靶点蛋白质的氨基酸序列，利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征；步骤3、为待筛选的药物分子构建分子图，利用三层图卷积神经网络提取药物分子特征；步骤4、将得到的所有特征进行组合得到整体特征后，输入至两层全连接网络预测药物‑蛋白的相互作用，借此，本发明具有不仅考虑了与对接过程密切相关的结合位点的局部特征，还考虑了蛋白质的全局特征，并将这些特征预测化合物‑蛋白质相互作用的优点。

Description

基于卷积神经网络的药物-蛋白相互作用预测模型

技术领域

本发明属于药物-蛋白相互作用预测技术领域，特别涉及一种基于卷积神经网络的药物-蛋白相互作用预测模型。

背景技术

药物发现包含多个步骤，需要很长时间并花费大量资金。预测和识别化合物-蛋白质相互作用(CPI)在安全有效的新药的发现和开发中起着至关重要的作用。在药物发现的初期，筛选出与靶蛋白相互作用的化合物，可以大大提高药物发现的成功率。大量研究表明，深度学习的优势在于它可以在非线性变换后获得原始数据的鲁棒描述符，这可以促进模型从数据中学习与任务相关的特征。随着越来越多的蛋白质结构和化合物-蛋白质相互作用数据集的建立，越来越多的研究试图将深度学习方法引入药物发现和化合物-蛋白质相互作用的预测任务中。

这些方法通常将蛋白质和分子的信息整合到一个框架中进行二元分类。现有的化合物-蛋白质相互作用的深度学习方法可以概括为三类：

1.基于一维结构的预测模型。

蛋白质由多个氨基酸组成，每个氨基酸用一个字符或多个字符表示。蛋白质可以表示为多个字符的字符串。蛋白质的一维序列与自然语言处理领域的文本相似。因此，一些研究人员尝试应用端到端的表示学习方法来学习蛋白质序列的特征。

DeepDTA建立了一个模型来预测配体和蛋白质之间的结合亲和力，其中蛋白质表示为一维氨基酸序列。结果表明，基于深度学习的模型的性能优于基于传统机器学习的模型。MFDR模型使用多尺度蛋白质序列描述符来提取一维氨基酸序列的特征，并结合分子指纹的特征来预测化合物-蛋白质的相互作用。椿等人应用1DCNN和GCN分别从一维氨基酸和分子图中学习特征，以预测化合物-蛋白质相互作用。CGBVS-DNN和DBN模型也从一维氨基酸序列中提取了蛋白质的特征。

2.基于二维结构的预测模型。

最近，一些研究通过蛋白质序列构建了一个二维结构描述符，并在各种任务中基于它或基于原始二级结构提取特征。Fout等人将蛋白质图引入化合物-蛋白质相互作用的预测中，其中图中的基本节点对应于残基。DrugVQA是一种化合物-蛋白质相互作用预测模型，其中蛋白质被描述为通过氨基酸序列的距离矩阵。DGraph-DTA建立了一个接触图来表示基于蛋白质序列的蛋白质，以预测结合亲和力。ProteinGCN没有将残基视为节点，而是根据原子之间的距离构建蛋白质图，并以原子为基本节点。iProStruct2D基于从3D结构中获取的2D结构执行蛋白质分类。SSnet从蛋白质的二级结构中提取特征以预测化合物-蛋白质相互作用，这是基于蛋白质的原始二维信息。

3.基于3D结构的预测模型。

活性蛋白质的结构不是氨基酸的简单组合，而是蛋白质折叠形成的3D结构。3D结构的稳定性得益于氨基酸之间的相互作用，这也会影响化合物-蛋白质的相互作用。研究人员试图从化合物-蛋白质复合物结构中了解相互作用。AtomNet是第一个利用深度学习方法基于3D结构信息预测分子和蛋白质的结合亲和力的模型。在AtomNet中，从复合蛋白质复合物的3D网格中提取特征。3DCNN和Se-OnionNet也基于复合物预测了蛋白质和分子的结合亲和力，这是从对接软件中获得的。ACNN使用原子坐标和基于复合物的距离构建了一个邻居距离矩阵，以预测自由能。然而，蛋白质-配体的生物分子复合物只有17679个。由于对接软件的计算存在一定的偏差，基于从该软件获得的复杂构象预测相互作用不够准确。虽然研究人员通过3D结构预测了蛋白质和化合物之间的相互作用，但准确性需要提高。

结合位点的空间结构特征为蛋白质与化合物之间的结合提供了精确的信息，但蛋白质的全局特征也可能影响结合过程。主要体现在两个方面。首先，考虑到蛋白质的形状和体积，结合位点只占蛋白质体积很小的空间比例。化合物的选择受蛋白质全局特征的影响。其次，在结合过程中，蛋白质构象的折叠方式较为复杂。结合位点的形成是多种因素综合作用的结果。不属于结合位点的原子也可能影响结合。

基于对上述因素的考虑，本发明不仅考虑了与对接过程密切相关的结合位点的局部特征，还考虑了蛋白质的全局特征。由于蛋白质体积大，空间结构复杂，计算复杂度高，整个蛋白质的3D空间结构被丢弃。一维氨基酸序列用于表示全局特征。在这项工作中，结合位点的局部特征和氨基酸序列的全局特征由两个卷积神经网络处理，以提取蛋白质的信息。此外，图卷积网络用于提取化合物的特征。所有这些特征结合起来预测化合物-蛋白质相互作用。

发明内容

本发明提出一种基于卷积神经网络的药物-蛋白相互作用预测模型，用以解决上述问题。

本发明的技术方案是这样实现的：基于卷积神经网络的药物-蛋白相互作用预测模型，该预测模型的构建方法如下：

步骤1、为靶点蛋白质的结合位点构建包围盒描述符，利用三层3D卷积神经网络提取多通道的结合位点空间结构特征；

步骤2、基于靶点蛋白质的氨基酸序列，利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征；

步骤3、为待筛选的药物分子构建分子图，利用三层图卷积神经网络提取药物分子特征；

步骤4、将步骤1、步骤2和步骤3中得到的特征进行组合得到整体特征后，输入至两层全连接网络预测药物-蛋白的相互作用。

本发明中步骤1、步骤2、步骤3并不存在先后关系，可以独立进行或是几个步骤同时进行。

作为一种优选的实施方式，步骤1中为靶点蛋白质的结合位点构建包围盒描述符的操作方法如下：

步骤10、通过遍历结合位点的pdb文件，找到每个坐标轴上所有原子坐标的最大值和最小值，以三个坐标轴的最大值和最小值作为界限，为结合位点建立包围盒；

步骤11、用包围盒将结合位点包裹后，在3D空间距离中，以埃米

为基本单位，为蛋白质构建大小为

的体素网格，将蛋白质结合位点的空间结构用体素网格进行划分和表示；

步骤12、蛋白质和小分子通过非共价键相互作用结合，结合位置主要在蛋白质结合位点中，将和非共价键相互作用有关的八种蛋白质通道特征进行提取，形成八通道，八通道分别为：疏水性通道、芳香性通道、氢键受体通道、氢键供体通道、正电离通道、负电离通道、金属性通道和体积通道；

步骤13、沿用AutoDock的规则对蛋白质原子的类型进行划分，分别将蛋白质结合位点原子划分到八个通道中，形成包围盒构建的八通道特征描述符，作为结合位点的描述符。

作为一种优选的实施方式，步骤1中利用三层3D卷积神经网络提取多通道的结合位点空间结构特征的方法如下：

步骤14、为包围盒选择一个3D卷积核，包围盒的大小为

3D卷积核的大小设置为

利用3D卷积核对结合位点空间结构特征进行提取；

步骤15、利用池化层对提取后的结合位点空间结构特征进行3D特征降维。

作为一种优选的实施方式，步骤2中利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征的方法如下：

步骤20、采用一个字符的表示方法对蛋白质进行表示，每个蛋白质分子用1000个字符进行表示，不够1000的填充，大于1000个氨基酸的对其进行截取；

步骤21、采用Embedding方法将每种氨基酸表示为128维的特征向量，由此，蛋白质氨基酸序列描述符变成128×1000的特征向量矩阵；

步骤22、输入该特征向量矩阵，经1D卷积神经网络进行卷积处理后，输出为1×4000的特征向量。

作为一种优选的实施方式，步骤22中卷积处理的方法如下：

步骤220、对输入的特征向量矩阵进行padding操作；

步骤221、将卷积核按照序列长度的方向进行移动，步长为1，每移动一次卷积核的值与矩阵相应位置的数值相乘并相加，1个卷积核移动1次得到1个输出值；

步骤222、将卷积核得到的值拼接起来，即得到最后输出的特征向量。

作为一种优选的实施方式，蛋白序列的卷积计算如下：

其中

代表氨基酸序列在l层(k-j)处的特征值，

代表l层对应的卷积核权重，b_l代表l层的偏置，N代表卷积核大小，

代表氨基酸序列在(l+1)层k处的特征值。

作为一种优选的实施方式，步骤3中为待筛选的药物分子构建分子图的方法如下：

步骤30、将分子视作拓扑连接图，图结构中的每个节点对应分子中的原子，连接边对应分子中原子间的化学键，分子被描述为以原子为节点的分子图，分子图中每个原子相连的邻接原子数量用度矩阵表示；

步骤31、采用频率域卷积对分子图结构进行特征提取，每一层的卷积操作如下所示：

其中

是指包含了原子自连接的无向分子图的邻接矩阵，D为分子图的度矩阵，

W_l为权重矩阵，σ(.)对应于激活函数，Hl为l层的激活矩阵。

作为一种优选的实施方式，步骤4中进行组合得到整体特征的方法如下：

X_CPI＝[X_L，X_G，X_M]

其中X_L代表蛋白质结合位点3D空间结构特征，X_G代表蛋白质序列特征，X_M代表化合物分子特征。[.]代表连接操作。X_CPI代表融合后的蛋白和小分子对的整体特征。

作为一种优选的实施方式，步骤4中输入至两层全连接网络预测药物-蛋白的相互作用的计算如下：

Y＝σ(W_s×X_CPI+b_s)

其中X_CPI为蛋白和小分子对的整体特征，W_s为多层感知机神经网络的参数，b_s为偏置，Y为输出值，σ为sigmoid()激活函数；

当Y值大于0.5，为有效对接，标记为正样本，当Y值小于0.5，为无效对接，标记为负样本。

作为一种优选的实施方式，步骤4中的预测模型引入了Focal Loss作为损失函数，用于调整预测模型对不同类别样本训练的平衡能力，其计算如下：

其中α为调节正负样本占比的平衡因子，y'为模型预测值，y为模型真实样本，log为取对数操作。

采用了上述技术方案后，本发明的有益效果是：

本发明不仅考虑了与对接过程密切相关的结合位点的局部特征，还考虑了蛋白质的全局特征。由于蛋白质体积大，空间结构复杂，计算复杂度高，整个蛋白质的3D空间结构被丢弃，一维氨基酸序列用于表示全局特征。在这项工作中，结合位点的局部特征和氨基酸序列的全局特征由两个卷积神经网络处理，以提取蛋白质的信息，此外，图卷积网络用于提取化合物的特征，所有这些特征结合起来预测化合物-蛋白质相互作用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的模型构建示意图；

图2为结合位点描述符创建过程的示意图；

图3为基于多通道3D卷积神经网络的结合位点特征提取示意图；

图4为蛋白质氨基酸序列embedding向量的示意图；

图5为基于1D卷积神经网络的氨基酸序列特征提取的示意图；

图6为分子图与其对应的邻接矩阵和度矩阵的示意图；

图7为药物-蛋白相互作用预测的示意图；

图8为模型在不同蛋白上的表现示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于卷积神经网络的药物-蛋白相互作用预测模型，该预测模型的构建方法如下：

如图2中(a)所示，结合位点在蛋白质整体中占据较小的空间。而在靶点蛋白质与配体分子的结合过程中，主要依靠结合位点与配体小分子间的相互作用。两者之间通过非共价键作用力得以连接，与靶点蛋白质其余位置的原子关系较小。若给靶点蛋白质的所有原子构建八通道描述符，一方面，由于未捕捉精确的结合位点信息，导致特征提取不精准从而对两者相互作用的判断造成影响。另一方面，由于贡献较小的非结合位点的蛋白质原子占的体积较大，搭建八通道的体素网格在特征计算环节造成计算资源的浪费。因此，本发明只提取蛋白质结合位点的信息，构建相应的结合位点描述符。

由于结合位点的表面形状不规则。目前，针对此类表面不规则的物体，较难找到完全贴合的构建方式，使其更便利地输入到深度学习模型中。为了方便结合位点的特征提取，围绕结合位点构建了包围盒，通过包围盒将结合位点的所有原子囊括进去。具体实现方法通过遍历结合位点的pdb文件(pdb格式是存储蛋白结构信息的通用文件格式)，找到每个坐标轴上所有原子坐标的最大值与最小值，以三个坐标轴的最大值和最小值作为界限，为结合位点建立包围盒。如图2中(c)所示。

用包围盒将结合位点包裹后，构建蛋白质的八通道描述符。

靶点蛋白质与药物分子的结合是关系药物分子是否发挥作用的关键，而在结合的过程中起重要作用的是结合位点。两者结合的本质是药物分子与靶点蛋白质的结合位点相互作用，而在靶点蛋白质中寻找合适的结合位点位置是具有一定挑战性的，已经有较多的研究关注于蛋白质的结合位点位置的预测，例如Deepsite，对于结合位点位置预测的问题，本发明中不再做详细探讨。本发明主要研究在给定结合位点后，能否为该结合位点找到与其产生相互作用的配体分子。因此，在对靶点蛋白质的描述中，主要提取的是结合位点特征，由于关于蛋白质活性的讨论都是在3D状态下进行，氨基酸序列通过自身键的相互作用形成稳定的3D蛋白质结构，结合位点的形成也是基于其3D结构的。因此，在本发明中对结合位点的3D结构进行特征提取。

在3D空间结构中，如何构建结合位点的空间描述符以便于更有效的提取特征是需要首要解决的问题。在3D空间距离中，以埃米

作为基本单位，受图像处理领域中图像像素的启发，为蛋白质构建了大小为

的体素网格，将蛋白质的空间结构用体素网格进行划分和表示，用体素表示蛋白质结合位点的方法应用较为广泛，已在虚拟筛选环节的对接打分AutoDock Vina和预测结合位点位置的Deepsite中有所应用，模型沿用了Deepsite中的方法并针对药物-蛋白的结合任务做了改良。

小分子内部依靠化学键将相邻的原子进行结合，而在靶点蛋白质与配体分子构成的药物-蛋白复合物中，主要依靠非共价键的作用。常见的非共价键的相互作用包括范德华力、氢键、疏水作用力、芳香堆积、卤键等。非共价键相互作用对于蛋白质构象的生成、蛋白质构象的稳定、蛋白质和分子结合的稳定性和活性方面发挥了重要作用。基于此，与Deepsite类似，与这些非共价键相互作用有关的八种蛋白质通道特征也被相应的提取出来，作为蛋白质立体描述符的重要组成部分。八通道分别为：疏水性通道、芳香性通道、氢键受体通道、氢键供体通道、正电离通道、负电离通道、金属性通道、体积通道。每个通道只关注与本通道相关的蛋白质原子特性。对于蛋白质原子的类型划分沿用了AutoDock中的规则，将原子按照此规则划分到八个通道中，具体的划分规则如下表所示：

不同通道单个原子对体素网格的贡献值计算如下：

其中r_vdw代表范德华原子半径，r是原子与当前体素网格中心的距离。exp是指数运算。

在以体素划分的蛋白质网格中，单个通道中每个体素的填充值计算方式，以当前体素网格为中心，统计相应单个通道中对此体素网格做出的贡献值，并将所有的贡献值加和即为当前通道当前体素网格的值。具体算法如下所示：

上述分子描述符的计算方式已经集成到HTMDs中，并且提供了Python包，与Deepsite不同的是，Deepsite为所有蛋白质原子都计算了八个通道的值，以用于预测结合位点的位置。蛋白质是大分子有机物，根据氨基酸序列的折叠方式不同，可能出现的结合位点位置也不同，蛋白质的3D空间结构也变得复杂多样。而在药物-蛋白复合物中，靶点蛋白质和药物分子的相互作用主要发生在结合位点中。而我们更专注于研究结合位点和配体小分子的作用，因此，在本发明的蛋白质3D描述符中，仅为属于蛋白质结合位点的原子提取了相应的八通道值。根据构建的蛋白质的八通道描述符，每个通道对应于蛋白质不同性质的原子的体素表示，模型为包围盒构建八通道特征描述符，作为结合位点的描述符。

如图3所示，通过对结合位点的描述符构建，将属于结合位点的蛋白质原子按其属性划分到八个不同的通道。每个通道内只展示属于本通道类型的原子，并依据原子的坐标位置为每个通道创立了3D体素网格。在单个通道内，依照结合位点原子坐标构建了一个大的立方体包围盒。由此，蛋白质结合位点的描述符由八个体素网格构成的立方体包围盒表示。对结合位点多个通道的包围盒进行处理，将包围盒的体素类比于图像中的像素，模型采用3D卷积神经网络处理这些立方体包围盒以得到结合位点的特征。

其处理方式为：首先为包围盒选择一个大小固定的3D卷积核，包围盒的大小取值为

所选择的3D卷积核的大小设置为

(1)3D卷积层

假设一个3D卷积核的大小为(P,Q,R),通常在三维卷积层l的3D特征立方体的位置(x,y,z)处的输出计算如下：

其中

代表第l层3D卷积核中(i,j,k)位置的权重，

代表上一层(l-1)层在特征立方体位置(x+p,y+q,z+r)处的特征值，b_l代表第l层的偏差。

表示在第l层3D特征立方体中(x,y,z)处的取值。其中每一层的偏差和权重通过训练得到。

(2)3D池化层

在深度学习中，池化层负责对特征进行压缩、降维。本发明的模型中，利用池化层进行3D特征降维。假设池化内核大小为(g,g,g)，对特征层进行3D最大池化，则池化后在l层特征立方体位置(x,y,z)处的输出形式化表示为：

其中

表示在池化层(l-1)层的特征立方体上位于(x+i)(y+j)(z+k)处的池化后特征值。Max表示在一定范围内取最大值操作。

如图4所示，蛋白质结合位点的空间结构特征为靶点蛋白质和配体分子的结合提供了精准的信息，但对于识别蛋白质和配体分子的结合信息仍然有所欠缺。主要体现在三个方面：一，在形状体积的比较方面，在蛋白质中，由于结合位点空间结构较小，只占蛋白质空间体积很小的比例。相同的结合位点可能出现在不同的蛋白质结构中；二，在蛋白质结合位点空间形成的过程中，蛋白质构象的折叠方式较为复杂。结合位点的形成是较多因素综合作用的结果，除结合位点之外的蛋白质结构也会影响药物分子与靶点蛋白质的相互作用；三，在生命体活动机理方面，药物分子在进入蛋白质腔体与结合位点结合的过程中，当分子逐渐靠近靶点蛋白质时，由于两者之间存在相互作用力，靶点蛋白质和药物分子的3D构象都会发生不同程度的诱导契合。诱导契合的过程有可能发生在结合位点内，也有可能发生在靶点蛋白质的其他位置。

基于上述几种因素的考虑，本发明不仅考虑了与靶点蛋白质和药物对接过程紧密相关的结合位点空间特征，也考虑了靶点蛋白质的整体特征。由于靶点蛋白质的分子量较大，空间结构复杂，且其整体结构在靶点蛋白质和药物分子的对接过程中的贡献小于结合位点的空间特征。同时，处理蛋白质的整体空间结构所需的计算资源也较大。因此，关于蛋白质的整体特征提取方面，舍弃3D空间结构，采用1D的氨基酸序列。

蛋白质氨基酸序列是蛋白质的一级结构表示，其由多种氨基酸的线性排列构成。已知的氨基酸种类有20多种，每一种氨基酸通常用三个字母代表的字符串或者一个字符表示。本节采用一个字符的表示方法。由于蛋白质是生物大分子，单个蛋白质中包含的氨基酸较多，每个蛋白质分子用1000个字符进行表示，不够1000的填充，大于1000个氨基酸的对其进行截取。

用字符表示的蛋白质氨基酸序列与文本类似，本发明采用与文本处理相似的方式将蛋白质氨基酸序列向量化。用Embedding的方法将每种氨基酸表示为128维的特征向量，由此，蛋白质氨基酸序列描述符变成128×1000的特征向量矩阵。

如图5所示，展示了蛋白质1D序列的特征提取过程，给定一个蛋白质氨基酸序列，经上节操作后将每个氨基酸序列转变为一个128×1000的特征向量矩阵，其中128是单个氨基酸的特征向量维度，1000对应氨基酸序列长度。蛋白质序列的1D卷积神经网络是由三个1D卷积块构成的深度卷积神经网络。三个卷积块包含的卷积核数量分别为64，32，16，输入的特征向量矩阵经其处理输出为1×4000的特征向量。其中每个卷积块都包含1个卷积层、1个LeakyRelu神经元、1个最大池化层。以第一个卷积块中的1D卷积层的为例。卷积核大小为5×128，64个卷积核分别对128×1000的特征向量进行卷积。首先对输入矩阵进行padding操作，其次将卷积核按照序列长度的方向进行移动，步长为1，每移动一次卷积核的值与矩阵相应位置的数值相乘并相加。1个卷积核移动1次得到1个输出值。最后64个卷积核得到的值拼接起来，得到大小为64×1000的特征向量。

蛋白质序列的卷积操作计算如下：

其中

是氨基酸序列在l层(k-j)处的特征值，

代表l层对应的卷积核权重，b_l代表l层的偏置。N代表卷积核大小，

代表氨基酸序列在(l+1)层k处的特征值。

本发明对分子的处理同样基于分子的图结构数据。在靶点蛋白质和药物分子的结合过程中，主要依靠非共价键的相互作用力，而非原子之间的共价键。在化学分子中，共价键的形成依赖于同分子中相邻原子的电子对的共享，而非共价键的形成主要来源于正负电荷间的吸引力。与共价键形成的分子内作用力相比，由电荷吸引形成的分子间作用力相对较弱。由于正负电荷依附于原子而存在，在对接活性的任务中，非共价键的作用力计算以原子为单位。因此，关于分子的特征描述符本节采用以原子为单位的分子图，更关注于分子的细粒度特征。

将分子视作拓扑连接图，图结构中的每个节点对应分子中的原子，连接边对应分子中原子间的化学键。原子本身具有多种属性，例如原子类型、原子度数、连接的氢原子数量等。由于原子之间的连接受到化合价的约束，部分原子之间可以形成共用电子对。形成共用电子对的原子间用化学键进行连接，在图结构中相连的原子有拓扑关联关系。而原子是否能够提供电子以形成电子对以及哪些类型的原子之间可以连接等是由原子的属性决定的。将相关的原子属性于列表中进行表示，根据表中原子的属性建立原子的特征，作为分子图中原子节点的特征，其列表如下所示：

分子被描述为以原子为节点的分子图。一个分子被描述为G＝(V,E)，其中V为分子中的所有原子代表的节点，E为分子中连接原子节点的边。在本发明的分子图中，E代表化学键。通过对分子描述符的表示过程可知，原子节点的特征由One-Hot向量表示。对于原子节点i，其特征表示为x_i。分子图的特征表示为X_N×L，其中N表示分子图中的原子节点数量，L代表每个原子节点的特征向量维度。作为图结构的一种，分子也有其拓扑连接关系。分子的拓扑连接关系用邻接矩阵A_N×N表示，若原子节点i和原子节点j之间有连接，则对应的邻接矩阵中A_(i，j)＝1，若原子节点i和原子节点j之间没有化学键相连，则对应的邻接矩阵中A_(i，j)＝0。此外，分子图中每个原子相连的邻接原子数量用度矩阵表示。如图6所示，展示了分子图与其对应的邻接矩阵和度矩阵的关系。

得到分子图后，对分子图进行卷积操作，提取分子图特征。常用的卷积方法分为两大类：空间域卷积和频率域卷积。在空间域卷积中，依据节点之间的拓扑连接关系，通过消息传递等方式不断地汇集邻居节点的信息，扩大节点的“感受野”。最后将不同节点的特征进行融合得到最终的分子图特征表达。在频率域卷积中，将图结构数据通过拉普拉斯变换到另一个域中，借鉴卷积的思想对图结构数据进行处理，本发明采用频率域卷积对分子图结构做特征提取。

每一层的卷积操作如下所示：

其中

是指包含了原子自连接的无向分子图的邻接矩阵。D为分子图的度矩阵，

W_l是权重矩阵，σ(.)对应于激活函数。H_l是l层的激活矩阵。

在药物-蛋白相互作用预测任务中，通过多通道3D卷积神经网络得到结合位点3D空间结构特征、通过1D卷积神经网络得到蛋白质1D氨基酸序列特征、通过图卷积神经网络得到药物分子特征后，通过下面公式将三者特征进行结合。并用结合后的特征进行药物-蛋白相互作用预测，判断化合物分子是否能与靶点蛋白质进行有效对接，整体过程如图7所示。

X_CPI＝[X_L，X_G，X_M]

融合后的整体特征输入两个多层感知机神经网络，通过两个多层感知机神经网络计算蛋白质和小分子是否有效结合。

Y＝σ(W_s×X_CPI+b_s)

其中X_CPI为融合后的蛋白和小分子对的整体特征，W_s为多层感知机神经网络的参数，b_s为偏置，Y为输出值，σ为sigmoid()激活函数。

Y值大于0.5为有效，小于0.5为无效。

在蛋白质和分子相互作用预测问题中，能与靶点蛋白质结合的药物小分子即为有效，标记为正样本，不能有效结合的药物分子即为无效，标记为负样本。自然界中的分子种类以及借助计算机辅助技术产生的虚拟分子种类数以亿计，然而其中能与特定靶点蛋白质有效结合的分子少之又少。在给出的DUD-E数据集中也存在正负样本不平衡的问题。对于模型来说，检测稀有样本(少数类别的样本)比检测大量样本(多数类别的样本)困难的多，这种现象导致模型通常将输入样本预测为具有较高输出概率的多数类别。为了尽可能减小类别不平衡给模型训练带来的干扰，模型引入了Focal Loss作为损失函数。Focal loss损失函数代表预测值与真实值的差距，用来指导模型的训练，使模型朝着Focal loss损失函数越小的方向训练参数，Focal Loss损失函数最初的提出是针对目标检测领域的数据不平衡问题，它对具有高输出概率的易检测的类别加了惩罚项，以此平衡模型学习和检测两种类别的能力。

由于在DUD-E数据库中，负样本并非随机选择，而是针对每一个有结合活性的配体分子，选取性质与其接近的化合物分子作为诱饵分子。这些诱饵分子与靶点蛋白质不能有效结合。这对模型提出了更高的挑战，对模型提取的靶点蛋白质特征和小分子特征提出了更高的要求，其特征应能充分挖掘两者的深层次性质。由于诱饵分子与药物分子的性质相似性，诱饵分子中存在较难区分的分子，为正负样本的区分增加了挑战。而Focal Loss损失函数不仅对正负样本之间加了权重限制，同时对较难区分样本和较易区分的样本之间添加了限制系数，更进一步调整了模型对不同类别样本训练的平衡能力。

Focal Loss计算如下：

其中α为调节正负样本占比的平衡因子。γ的设置促使模型更关注于较难检测的样本，y′模型预测值，y模型真实样本。log为取对数操作。

在Focal Loss损失函数中普遍设置为α＝0.2，γ＝2。但在蛋白小分子互作用预测任务上，正负样本比例较为悬殊，因此，本发明对Focal Loss稍作修改，使其更适用于蛋白小分子互作用预测任务。

假设正样本个数为P，负样本个数为N。则正样本占比为

负样本在数据集中的占比为

若样本预测为正样本，则在Focal Loss关于正样本的项前面乘以

若样本预测为负样本，则在Focal Loss关于负样本的项前面乘以

具体表示如下：

Directory of Useful Decoys Enhanced(DUD-E)是一个数据集，提供102种独特的蛋白质，平均对应于124个对接分子。对于每个对接分子，准备了50个诱饵。这些诱饵具有与活性物质相似的特性。在我们的实验中，91个目标蛋白及其相应的化合物构成了一个数据集，因为很难从其余目标中提取精确的通道信息。对于每个目标蛋白，有多个对接分子被记录为阳性样本，其他则被标记为阴性样本。在实验中，一对样品包含一种蛋白质、一种化合物和一种标记。为了更客观地将我们的模型与其他模型进行比较，数据集的拆分遵循Lim等人的相同实验设置。根据蛋白质的类型划分训练集和测试集。对于每个蛋白质目标，配体(阳性)和诱饵(阴性)的比例设置为1:1。

DUD-E中训练数据集的目标详细信息以及每个目标的正样本数(P)的详情如下表所示：

ID	P	ID	P	ID	P	ID	P	ID	P
										adrb1	247	adrb2	231	akt2	117	Ampc	48	andr	269
aofb	122	bace1	283	Braf	152	cah2	492	cdk2	474
										cp2c9	120	csf1r	166	cxcr4	40	Def	102	dhi1	330
drd3	480	dyr	231	esr1	383	esr2	367	fa7	114
										fabp4	47	fak1	100	fkb1a	111	fpps	85	gcr	258
glcm	54	hdac2	185	Hivint	100	hivpr	536	hivrt	338
										hmdh	170	hs90a	88	hxk4	92	igf1r	148	inha	43
ital	138	jak2	107	kif11	116	Lck	420	mapk2	101
										mcr	94	mk01	79	mk10	104	mk14	578	mmp13	572
nos1	100	nram	98	pde5a	398	pgh2	435	plk1	107
										pnph	103	ppara	373	Ppard	240	pparg	484	prgr	293
pur2	50	reni	104	rock1	100	rxra	131	sahh	63
										src	524	thb	103	try1	449	tryb1	148	tysy	109
urok	162	vgfr2	409	Xiap	100

DUD-E中测试数据集的目标详细信息以及每个目标的正样本数(P)的详情如下表所示：

ID	P	ID	P	ID	P	ID	P	ID	P
										aa2ar	482	abl1	182	Aces	453	ada	93	casp3	199
cp3a4	170	egfr	542	fa10	537	fgfr1	139	fnta	592
										grik1	101	hdac8	170	Kit	166	kith	57	kpcb	135
pa2ga	99	parp1	508	pgh1	195	ptn1	130	pygm	77
										pyrd	111	tgfr1	133	wee1	102

训练数据集中共有29030个样本对，测试数据集中共有10746个样本对，其中样本对的数量包含正负样本对。

在DUD-E数据集中，每个样本对都包含一个蛋白质、一个分子和一个标签。标签显示样品对中的蛋白质和分子是否可以对接。如果是对接，对应的标签为1；否则为0。对于测试集，给定一个蛋白质和一个分子，模型需要预测对接的可能性，这是一个分类任务。用一般的ROC AUC作为测量指标。AUC值越高表示性能越好。

为了客观评估所提出模型的性能，我们将其与其他七个模型进行了比较。这些模型包含广泛用于虚拟筛选任务的开源分子对接程序(AutoDock Vina和Smina)、深度学习模型(Tsubaki的模型、AtomNet、3D-CNN)和最新的基于图的模型(L+LP+R和Lim的模型)。

Tsubaki的模型应用1DCNNs提取蛋白质特征并使用GCN提取分子特征。AtomNet使用3D卷积神经网络从化合物-蛋白质复合物的3D网格中提取组合特征以进行相互作用预测。与AtomNet类似，3D-CNN方法也提取了复合体的特征。对接姿势是从对接软件中获得的。L+LP+R模型根据蛋白质和分子的结合结构构建了两个拓扑图L和LP。此外，作者将对接姿势的排序R合并到模型中。Lim的模型[30]将绑定姿势的结构信息嵌入到图中，并在预测中引入了注意机制。

下表显示了多个模型在DUD-E数据集上区分活动物和诱饵的性能比较。表中其他模型的AUC值来自AtomNet、3D-CNN、L+LP+R、Tsubaki的模型和Lim的模型。如表中所示，所提出的模型获得了最好的结果。我们模型的AUC值(0.975)高于深度学习模型，例如AtomNet(0.895)、3D-CNN(0.868)、L+LP+R(0.93)和Lim的模型(0.968)。与上述四种模型不同的是，在所提出的模型中，没有提取蛋白质和分子的对接结构。分别提取蛋白质和分子的特征。一般来说，通过化合物-蛋白质复合物的对接结构提取的特征可以包含更精确的信息。然而，实验结果表明所提出的模型优于从对接复杂结构中提取特征的模型，这进一步表明所提出的模型能够预测化合物-蛋白质相互作用。

为了进一步评估模型预测不同蛋白质和分子间相互作用的能力，本发明将不同蛋白质的AUC值如图8所示。蛋白质按表2和表3的顺序排序。由于91个蛋白质的名称较长，列出了相应的索引。总共随机选择了23866个样本对进行测试(平均每个蛋白质262个样本对)，其中包含3987个活性物质和19879个诱饵。

大多数蛋白质的AUC值都高于0.9，有的甚至达到了1。另外，还统计了不同模型中AUC值超过预定阈值的蛋白质数量。这些模型的对比结果如下表所示。值得注意的是，AtomNet和Smina的模型中蛋白质的数量为102。从表中可以看出，Smina的预测准确率最低，为53蛋白质超过0.7，只有1个超过0.9。AtomNet模型优于Smina，其中99个目标的AUC值高于0.7，59个目标的AUC值超过0.9。然而，所提出模型中88个目标的AUC值超过0.9，这表明所提出的模型在预测化合物-蛋白质相互作用方面更加稳健。

Model	＞0.7	＞0.8	＞0.9
				AtomNet	99	88	59
Smina	53	17	1
				Our model	90	90	88

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。