CN115512785A

CN115512785A - 基于注意力机制的三维蛋白质-配体活性预测方法

Info

Publication number: CN115512785A
Application number: CN202211069779.3A
Authority: CN
Inventors: 魏志强; 潘飞龙; 王卓亚; 林庆辉; 殷波; 刘昊
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-23

Abstract

本发明属于人工智能辅助药物设计技术领域，具体公开了一种基于注意力机制的三维蛋白质‑配体活性预测方法，本发明通过构建分子三维信息提取网络，进行分子表征，通过球形信息传递方法和具有物理意义的特征组合起来，提取蛋白质配体结合位姿的三维信息；通过构建基于注意力机制的三维图神经网络模型来对蛋白质配体相互作用进行预测，包括构象预测与结合亲和力预测，最终输出预测结果。

Description

基于注意力机制的三维蛋白质-配体活性预测方法

技术领域

本发明属于人工智能辅助药物设计技术领域，特别涉及一种基于注意力机制的三维蛋白质-配体活性预测方法。

背景技术

随着深度学习技术的发展，研究者们将卷积神经网络用于药物研发过程中的蛋白质-配体亲和力预测上。在应用时，为适用卷积神经网络，一种方法是将分子结构规则化，如Pafnucy模型的做法是将复合物结构裁剪成围绕配体分子几何中心的

立方体大小，以每

分辨率将其网格化，并用一个19维向量描述其中每个原子的化学信息，得到蛋白质配体分子的4D张量表示。OnionNet的计算方式是将每个配体原子周围半径为

的蛋白质结构划分为洋葱式层级结构，计算每一层特定原子对的出现次数。这些方法为了适应卷积神经网络对数据规则性的要求都对分子结构做了切割处理，这在一定程度上损失了部分重要信息。

另一种方法是将分子视为图数据结构来处理。AGL-Score提出了多尺度加权标签代数子图的方法去表示分子，使用子图计算出拉普拉斯矩阵和邻接矩阵的特征值及特征向量描述分子后，输入梯度增强树模型训练出最终模型。C-SGEN是基于空间图嵌入的分子性质预测方法，包含对蛋白质-配体间结合亲和力的预测。这个方法先将分子表示成图嵌入表示，用邻接矩阵表示原子间连接关系，把邻接矩阵和图嵌入表示输入卷积神经网络，进行一维卷积。

近几年，图卷积神经网络被用于蛋白质-配体结合亲和力预测，PotentialNet也是一种为预测分子性质而提出的图神经网络方法，定义图中的边时除了化学键外还考虑了原子间的欧氏距离，网络结构中使用了门控循环单元来更新原子特征。GraphDelta使用BPS对称函数建立单原子环境向量来表示分子，将原子、邻居原子和它们之间的键三个向量直接拼接，输入全连接层，输出的各邻居原子间向量求和，得到分子信息，与中心原子向量直接拼接，输入第二层全连接层，得到信息更新，组合配体所有原子的信息更新，经过模糊处理，输入第三层全连接层，得到最终结果。

一种基于图表示学习方法的打分函数模型IGN公开了分子内图卷积和分子间图卷积模块来先后学习蛋白-配体复合物中的分子内相互作用和分子间相互作用，并将学习到的分子间相互作用应用于下游的任务预测，包括蛋白-配体结合亲和力预测、大规模虚拟筛选以及小分子结合构象预测。一种基于图注意力网络的蛋白质-配体亲和力评价方法的发明，为了解决数据集规模小的问题，模拟半柔性对接过程，设计了基于分子柔性的数据增强方法，扩大数据规模、提高模型质量、保证了方法的科学性与合理性。设计基于图注意力机制的分子特征提取方法，提取分子有效特征，提高打分函数的精度和性能。

传统方法与传统机器学习方法在受体与配体活性预测方向依然存在一些不足，(1)巨大的计算成本限制了它们在高通量筛选中的应用，包括DOCK、AutoDock、GOLD等在内的经典分子对接方法已被用于预测结合亲和力。虽然这些方法通过原则性的参数拟合加快了计算速度，但其计算精度并不令人满意。其中，基于机器学习的方法ΔvinaRF₂₀在预测准确度方面脱颖而出。但传统的机器学习方法依赖于手工特征工程，模型很大程度上依赖特征的构建和选择，而目前还难以找到普遍适合整个化学小分子空间的特征工程方法。这个限制可以在深度学习模型中被化解。因此，深度学习方法已经被越来越多的研究人员所青睐。

(2)在大部分的打分函数对分子表征的研究中，目前已经提出了许多分子表征学习(Molecular Representation Learning)方法，其中大部分都将SMILES字符串作为输入，尽管模型功能强大，但由于SMILES是分子结构一维线性化的表征，使得神经网络很难从SMILES中学习到分子的原始结构信息。因此，基于手工描述符、一维蛋白质序列和/或二维图形表示的方法限制了其学习三维空间中广义分子相互作用的能力。

(3)在蛋白质-配体相互作用预测模型中，深度学习方法通过复杂神经网络的端到端学习为本发明提供了一种新思路，新兴的GNN被引入到基于结构的蛋白质-配体相互作用预测工作流程中。图神经网络GNN把深度学习应用到图结构中，其中的图卷积网络GCN可以在图上进行卷积操作。但是GCN存在一些缺陷：依赖拉普拉斯矩阵，不能直接用于有向图；模型训练依赖于整个图结构，不能用于动态图；卷积的时候没办法为邻居节点分配不同的权重；训练是全增量更新的，难以扩展到大规模网络，并且收敛较慢。

发明内容

针对现有技术存在的不足，本发明提供一种基于注意力机制的三维蛋白质-配体活性预测方法，使用三维模型来进行分子表征，通过把球形信息传递和由薛定谔方程得出来的具有物理意义的特征组合起来作为特征提取网络来有效地提取蛋白质配体结合位姿的三维信息；本发明构建基于注意力机制的预测模型来对蛋白质-配体相互作用进行预测，注意力机制可以为不同节点分配不同权重，训练时依赖于成对的相邻节点，而不依赖具体的网络结构；设计距离感知注意力算法，来区分各种类型的分子间相互作用；以及引入适合学习蛋白质-配体相互作用的图神经网络的变体，使模型专注于分子间相互作用。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于注意力机制的三维蛋白质-配体活性预测方法，包括以下步骤：

步骤1、构建数据集，将蛋白质、配体三维结构信息作为输入，用于预测结合亲和力、构建虚拟筛选模型、模拟虚拟筛选场景；

步骤2、构建分子三维信息提取网络，进行分子表征，提取蛋白质-配体复合物的三维信息；所述三维信息提取网络包括输入模块、消息传递模块、多个交互模块和输出模块，输入模块用于为图形结构的边k构造初始消息；消息传递模块使用球形消息传递方法和多种物理表示，将图形结构由三维信息唯一表示，并将原子的相对位置信息合并到球坐标系中；交互模块通过合并所有物理表示来更新初始消息；输出模块聚合所有传入的消息以更新节点的特征；

步骤3、构建基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测，包括构象预测与结合亲和力预测；其中所述基于注意力机制的三维图神经网络模型采用图注意力模型，包括图注意力层、连接层、图池化层、全连接层，在预测时，采用以下方法：

步骤3.1、构建两个邻接矩阵，将提取的蛋白质-配体复合物的三维信息嵌入两个邻接矩阵中，学习蛋白质-配体相互作用对每个原子的节点特征的影响；

步骤3.2、设计距离感知注意力算法，来区分各种类型的分子间相互作用；使用图注意力层学习蛋白质-配体相互作用，使模型专注于分子间相互作用，最终获得图注意力层门控增强更新的节点特征；

步骤3.3、将步骤3.2得到的特征进行组合得到聚合特征后，输入图池化层学习的成对原子非键相互作用以生成复合物的分子间相互作用；

步骤3.4、使用批量归一化层增强的全连接层用作最终蛋白质-配体相互作用预测的任务网络，生成预测结果。

进一步的，步骤1中构建的数据集包括四个数据集：PDBbind、DUD-E、DEKOIS2.0和LIT-PCBA，PDBbind数据集用于结合亲和力预测，DUD-E和DEKOIS2.0是多目标数据集，用于构建target-free虚拟筛选模型，LIT-PCBA数据集用于模拟真实的虚拟筛选场景。

进一步的，数据集的处理方法如下：

步骤1.1、对于PDBbind数据集中的每个样本，进行对接计算以生成蛋白质-配体复合物的结合位姿，如果生成的一个姿势与其实验验证的结合结构的均方根误差RMSD小于

则将其标记为阳性样本，如果RMSD大于

则将其标记为阴性样本，RMSD在2到

之间的样品被省略；

步骤1.2、根据蛋白质将PDBbind数据集分为训练集和测试集，以使训练集和测试集不共享相同的蛋白质；此外，从训练集和测试集中删除包含DUD-E数据集中的蛋白质的PDBbind样本。

进一步的，步骤2中分子表征的具体方法如下：

步骤2.1、将原子的相对位置信息作为三维信息提取网络的输入，识别球面坐标系中三维分子的结构；

对于球面坐标系中的任何点，其位置由三元组

指定，其中d,θ和

分别表示径向距离、极角和方位角；在球面坐标系中建模三维分子图时，任何原子i都可以是局部球坐标系的原点，此时d,θ和

分别成为键长、键间角度和扭转角；因此，原子i的每个相邻原子的相对位置可以由相应的元组

指定；

步骤2.2、定义一个三维分子图G，表示为4元组G＝(u,V,E,P)，

是分子图G的全局特征向量，其中d_u是全局特征的维度；V＝{v_i}_i＝1:n是原子特征，其中每个

是原子i的特征向量，n是原子的总数，E＝{(e_k,r_k,s_k)}_k＝1:m是边的集合，其中每个

是边k的边特征向量，r_k是接收者原子，s_k是边k的发送者原子，m是边的总数；P＝{r_k}_k＝1:n是一组三维笛卡尔坐标，其中包含每个原子的三维空间信息；

步骤2.3、在球坐标系中执行球形消息传递，更新消息；

令

表示指向原子i的边集，N_i表示原子i的传入节点的索引；消息传递过程后的输出包括更新后的全局特征向量

更新后的原子特征V′＝{v′_i}_i＝1:n和更新后的边集E′＝{(e′_k,r_k,s_k)}_k＝1:m，其中v′_i表示更新后的原子特征向量，e′_k表示更新后的边特征向量，球形消息传递在球坐标系中定义如公式(1)所示：

其中φ^e,φ^v和φ^u分别是边、原子和整个分子图上的三个信息更新函数，

表示边k的接收者原子r_k的特征向量，

表示边k的发送者原子s_k的特征向量，

表示指向边k的发送者原子s_k的边集，r_h表示边h的接受原子，

表示指向边k的发送者原子s_k的传入节点的索引，E′_i表示更新后得指向原子i的边集；聚合函数ρ^e→v和ρ^v→u聚合不同几何类型之间的信息，特别是在球形消息传递中，P中的三维信息被转换并合并以更新每个消息；因此，球形消息传递使用另一个位置聚合函数ρ^p→e进行消息更新；

步骤2.4、选择基函数，将三元组

转换为基于物理的表示，进行分子表征。

进一步的，步骤2.4中，选择球贝塞尔作为编码距离的基函数、球谐函数作为编码角度的基函数；最终的分子表征表示为

一种表示形式表示为如公式(2)所示：

其中j_l(·)是l阶的球贝塞尔函数，

是m阶l阶的球谐函数，c表示截断半径，β_ln是l阶贝塞尔函数的n次根；其中还有l∈[0，…，L_H-1],m∈[-l，…,l]和n∈[1，…,N_B]，L_H和N_B分别表示球谐函数和球贝塞尔函数的最高阶。

进一步的，步骤3.1中，邻接矩阵表示为A，是一个N_matrix×N_matrix矩阵，其中，如果第i个和第j个原子节点连接，则A_ij>0，否则A_ij＝0，N_matrix表示图中的原子节点数；构建的两个邻接矩阵A¹和A²，A¹代表纯共价相互作用的邻接矩阵，A²代表共价相互作用和非共价分子间相互作用的邻接矩阵，A¹和A²的构造如公式(3)、(4)所示:

其中d_ij是第i个和第j个原子之间的距离，μ和σ是可学习的参数，公式(4)中的公式

反映了分子间键比共价键弱，并且随着键距的增加，其强度也越来越弱。

进一步的，步骤3.2中设计一种距离感知注意力算法，其中，图注意力层的输入是邻接矩阵A和节点特征

其中x∈R^F，N_atom是节点的数量，即原子的数量，F是节点的维数特征；图注意力层生成一组新的节点特征集

其中x∈R^F；

具体方法如下：

步骤3.2.1、计算各节点的注意力系数；

首先，为了获得足够的表达能力，每个节点特征

被一个可学习的权重矩阵W∈R^F×F所转化，表示为

然后，得到注意力系数，如公式(5)所示:

e_ij＝x_i ^′TEx′_j+x^′TEx′_i (5)

其中E∈R^F×F也是一个可学习矩阵，注意力系数e_ij表示第j个节点特征对第i个节点特征的重要性；通过对x_i ^′TEx′_j和

的求和来强迫e_ij＝e_ji；为了反映图的结构，注意力系数e_ij只计算j∈N_i，其中N_i是第i个节点的邻居节点，A_ij＞0；

然后，为了操纵各节点的注意力系数的规模，注意力系数在各邻居间被归一化，将A_ij乘以归一化的注意系数，归一化注意力系数a_ij由公式(6)给出：

步骤3.2.2、更新节点特征；

在得到归一化注意力系数a_ij后，每个节点特征被更新为相邻节点的节点特征与归一化注意力系数的线性组合，如公式(7)所示

步骤3.2.3、引入门控增强算法；

引入一种门控增强算法，直接将前一个节点的特征信息传递给下一层，将图注意力层的输出

实现为x_i'和x_i”的线性组合，如公式(8)、(9)所示，

x_i ^out＝z_ix′_i+(1-z_i)x″_i (8)

z_i＝σ(U(x_i′||x″_i)+b) (9)

组合所有节点的图注意力层的输出

组成新的节点特征集

其中U∈R^2F×1是可学习的向量，b是可学习的标量值，σ表示sigmoid激活函数，(·||·)是两个向量的串联，z_i表示有多少关于输入节点特征的信息将直接传递到下一层。

进一步的，步骤3.2中，针对两个邻接矩阵A¹和A²，图注意力层产生新的节点特征x^out1和x^out2，x^out1＝GAT(xⁱⁿ,A¹)，x^out2＝GAT(xⁱⁿ,A²)，其中GAT代表门控增强的图注意力层，在计算x^out1和x^out2时，共享一个门增强图注意力层；输出节点特征x^out，是通过从x^out2中减去x^out1得到的，如公式(10)所示，

x^out＝x^out2-x^out1 (10)

通过多个图注意力层更新节点特征向量后，配体原子的特征向量被汇总成一个表示蛋白质-配体复合物图的向量，如公式(11)所示：

最后，多层感知器被应用于x^graph，对蛋白质-配体复合物或结合姿势是否活跃进行分类，各层之间使用Leaky ReLU激活函数，最后一层之后使用sigmoid函数。

与现有技术相比，本发明优点在于：

1、三维结构信息对于药物发现过程至关重要，但缺乏原则性的消息传递框架来考虑它。本发明使用球形消息传递作为一种统一且有效的方案，可以在不增加计算预算的情况下实现分子的近似完整表示，使用有意义的三维信息可以显著提高预测任务的性能。

2、本发明提出一种基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测，使模型能够区分每个相互作用对结合亲和力的贡献。

采用了注意力机制，可以为不同节点分配不同权重，训练时依赖于成对的相邻节点，而不依赖具体的网络结构；通过添加注意力机制的模型能够通过注意力系数区分关键活性位点残基和相互作用，以活性位点图和指纹的形式使用活性位点信息有助于有效学习目标蛋白质与药物分子的相互作用。

利用通过从其复合物的图形特征中减去目标蛋白和给定配体的每个特征而获得的图形特征进行蛋白质-配体相互作用预测。这些策略允许模型通过使模型专注于分子间相互作用而不是仅仅记住配体分子的某些模式来学习准确预测蛋白质-配体相互作用的关键因素。并且在虚拟筛选和姿势预测方面都优于以前的深度学习模型以及对接。

此外，本发明的模型可以重现活性和非活性分子的自然种群分布。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的基于注意力机制的三维图神经网络模型架构图；

图3为本发明的分子三维信息提取模型的架构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

结合图1-图3，本发明提供的一种基于注意力机制的三维蛋白质-配体活性预测方法，包括以下步骤：

步骤1、构建数据集，将所有含有蛋白质、配体三维结构信息的.mol2/.sdf文件作为基本的输入格式，使用RDKit将基本的输入格式转换成被深度学习模型能够识别的.pkl格式，用于预测结合亲和力、构建虚拟筛选模型、模拟虚拟筛选场景。

本实施例构建的数据集包括了四个数据集：PDBBind V2020(2020版)、DUD-E、DEKOIS2.0和LIT-PCBA。在结合亲和力预测方面，由于深度学习模型对数据的要求很高，所以PDBBind V2020中的通用集和PDBBind V2016核心集都被使用，用于结合亲和力预测。最近的研究表明，各种在结合亲和力预测中具有良好预测能力的深度学习模型在大规模基于结构的虚拟筛选(Structure-Based Virtual Screening)中的表现较差。因此，本实施例用大规模的DUD-E、DEKOIS2.0和LIT-PCBA数据集测试了模型在基于结构的虚拟筛选上的性能。更具体地说，DUD-E和DEKOIS2.0是多目标数据集，它们被用来构建target-free虚拟筛选(Virtual Screening)模型。LIT-PCBA是一个更具挑战性的数据集，其Decoys/Actives的比例高于1000，因此它被用来模拟真实的虚拟筛选场景。LIT-PCBA是一个target-specific数据集，本实施例据此构建了target-specific虚拟筛选模型。

作为一种优选的实施方式，步骤1中数据集的处理方法如下：

步骤1.1、对于PDBbind数据集中的每个样本，进行对接计算以生成蛋白质-配体复合物的可能结合位姿，如果生成的一个姿势与其实验验证的结合结构的均方根误差RMSD小于

则将其标记为阳性样本，如果RMSD大于

则将其标记为阴性样本，RMSD在2到

之间的样品被省略。

步骤2、构建分子三维信息提取网络，进行分子表征，提取蛋白质-配体复合物的三维信息。

结合图3所示，其中图中LB2表示具有两个线性层的线性块，σ(LB)表示线性层后跟激活函数，||表示串联，⊙表示逐元素乘法。所述三维信息提取网络包括输入模块、消息传递模块、多个交互模块和输出模块，输入模块用于为图形结构的边k构造初始消息；消息传递模块使用球形消息传递方法和多种物理表示，将图形结构由三维信息唯一表示，并将原子的相对位置信息合并到球坐标系中；交互模块通过合并所有物理表示来更新初始消息；输出模块聚合所有传入的消息以更新节点的特征。

作为一种优选的实施方式，步骤2中分子表征的具体方法如下：

步骤2.1、将原子的相对位置信息作为三维信息提取方法的输入，识别球面坐标系中三维分子的结构。

相对的三维信息可以是距离或角度，这对输入分子的平移和旋转具有固有的不变性。对于球面坐标系中的任何点，其位置由三元组

指定，其中d,θ和

指定。

步骤2.2、定义一个三维分子图G，表示为4元组G＝(u,V,E,P)，

是边k的边特征向量，r_k是接收者原子，s_k是边k的发送者原子，m是边的总数；P＝{r_k}_k＝1:n是一组三维笛卡尔坐标，其中包含每个原子的三维空间信息。

步骤2.3、在球坐标系中执行球形消息传递，更新消息；

令

更新后的原子特征V′＝{v′_i}_i＝1:n和更新后的边集E′＝{(e′_k,r_k,s_k)}_k＝1:m，其中v_i′表示更新后的原子特征向量，e′_k表示更新后的边特征向量，球形消息传递在球坐标系中定义如公式(1)所示：

表示边k的接收者原子r_k的特征向量，

表示边k的发送者原子s_k的特征向量，

表示指向边k的发送者原子s_k的边集，r_h表示边h的接收原子，

表示指向边k的发送者原子s_k的传入节点的索引，h是r_k，s_k，

并集组成的，E′_i表示更新后得指向原子i的边集。聚合函数ρ^e→v和ρ^v→u聚合不同几何类型之间的信息，特别是在球形消息传递中，P中的三维信息被转换并合并以更新每个消息；因此，球形消息传递使用另一个位置聚合函数ρ^p→e进行消息更新；

步骤2.4、选择基函数，将三元组

转换为基于物理的表示，进行分子表征。

分子表征设计需要遵循物理定律，一个重要的方面是选择适当的基函数，本实施例选择球贝塞尔作为编码距离的基函数、球谐函数作为编码角度的基函数；最终的分子表征表示为

一种表示形式表示为如公式(2)所示：

其中j_l(·)是l阶的球贝塞尔函数，

是m阶l阶的球谐函数，c表示截断半径，β_ln是l阶贝塞尔函数的n次根；其中还有l∈[0，…，L_H-1],m∈[-l，…,l]和n∈[1，…,N_B]，L_H和N_B分别表示球谐函数和球贝塞尔函数的最高阶，它们是实验环境中的超参数。此外，本实施例还可以从

推导出两个简化表示Ψ(d)和Ψ(d,θ)。

步骤3、构建基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测。

所述基于注意力机制的三维图神经网络模型采用GAT图注意力模型，包括图注意力层、连接层、图池化层、全连接层。

图可以由(V,E,A)定义，其中V是一组节点，E是一组边，A是一个邻接矩阵。在属性图中，每个节点的属性通常由向量表示。邻接矩阵A是一个N_matrix×N_matrix矩阵，其中，如果第i个和第j个原子节点连接，则A_ij>0，否则A_ij＝0，N_matrix表示图中的原子节点数。本步骤3主要包括三个阶段：(i)更新节点特征，(ii)聚合节点特征和处理图特征，以及(iii)预测图的标签。在第一阶段中，表示第i个原子节点的属性的节点特征在相邻节点之间的几次消息传递中被更新。此阶段旨在获得节点特征的高级表示。然后，将更新的节点特征聚合以生成图特征。这里，聚合的结果必须在节点排序的变化中是不变的。

作为一种优选的实施方式，在预测时，采用以下方法：

步骤3.1、构建两个邻接矩阵，将蛋白质-配体复合物的三维结构信息嵌入两个邻接矩阵中，学习蛋白质-配体相互作用对每个原子的节点特征的影响。

构建的两个邻接矩阵A¹和A²，A¹代表纯共价相互作用的邻接矩阵，A²代表共价相互作用和非共价分子间相互作用的邻接矩阵，A¹和A²的构造如公式(3)、(4)所示:

步骤3.2、设计距离感知注意力算法，来区分各种类型的分子间相互作用；使用图注意力层学习蛋白质-配体相互作用，使模型专注于分子间相互作用，最终获得注意力层门控增强更新的节点特征。

其中，图注意力层的输入是邻接矩阵A和节点特征

其中x∈R^F。

具体方法如下：

步骤3.2.1、计算各节点的注意力系数；

首先，为了获得足够的表达能力，每个节点特征

被一个可学习的权重矩阵W∈R^F×F所转化，表示为

然后，得到注意力系数，如公式(5)所示:

e_ij＝x_i ^′TEx′_j+x^′TEx′_i (5)

的求和来强迫e_ij＝e_ji。为了反映图的结构，注意力系数e_ij只计算j∈N_i，其中N_i是第i个节点的邻居节点，A_ij＞0，因为邻接矩阵同时反映了连接性和归一化的距离。

然后，为了操纵各节点的注意力系数的规模，注意力系数在各邻居间被归一化，此外，本发明将A_ij乘以归一化的注意系数，以反映欧几里得距离较短的节点比其他节点更可能是重要的。它可以被认为是一种归纳偏见。因此，归一化注意力系数a_ij由公式(6)给出：

步骤3.2.2、更新节点特征；

步骤3.2.3、引入门控增强算法；

一个具有门控的增强算法可以显著提高模型的性能，本发明引入一种门控增强算法机制，直接将前一个节点的特征信息传递给下一层，将图注意力层的输出

实现为x_i'和x_i”的线性组合，如公式(8)、(9)所示，

x_i ^out＝z_ix_i′+(1-z_i)x_i″ (8)

z_i＝σ(U(x_i′||x_i″)+b) (9)

组合所有节点的图注意力层的输出

组成新的节点特征集

本发明通过上述方法，使模型专注于分子间相互作用而不是仅仅记住配体分子的某些模式来学习准确预测蛋白质-配体相互作用的关键因素。本发明的神经网络的输入是节点特征xⁱⁿ、邻接矩阵A¹和A²，经过上述步骤处理，图注意力层产生新的节点特征x^out1和x^out2，x^out1＝GAT(xⁱⁿ,A¹)，x^out2＝GAT(xⁱⁿ,A²)，其中GAT代表门控增强的图注意力层，需要注意的是，在计算x^out1和x^out2时，共享一个门增强图注意力层。

输出节点特征x^out，是通过从x^out2中减去x^out1得到的，如公式(10)所示，

x^out＝x^out2-x^out1 (10)

然后，通过两个节点特征的相减，让本发明的模型学习结合姿势下的结构和分离后的结构之间的差异。在通过多个图注意力层更新节点特征向量后，配体原子的特征向量被汇总成一个表示蛋白质-配体复合物图的向量，如公式(11)所示：

步骤3.3、将步骤3.2得到的特征进行组合得到聚合特征后，输入图池化层学习的成对原子非键相互作用以生成复合物的分子间相互作用。

在经典的分子力场中，从成对原子相互作用到总非键相互作用的映射是一个总和，这个映射是由神经网络实现的，其中具体的函数形式是由模型自动学习的，如公式(12)所示。

其中，图池化层仅应用于B^new，可以将其视为学习的成对原子非键相互作用以生成复合物的分子间相互作用；B_ij ^new表示图G_pl的边；

为随机参数；tanh为非线性激活；E_pl是图G_pl中的边集；D″是MLP的输出维度；MAXPOOL是所有边缘特征值的元素最大值；G^*是图池化层的输出。

图池化层的输出G^*由加权和池化

和最大池化

组合而成。这种考虑可以利用来自多视图的信息，其中最大池化可以突出具有最高信息强度的边缘特征，加权和池化可以利用边缘特征的总信息强度。

本发明可实现多种预测任务，如虚拟筛选和姿态预测等，预测时的损失计算如下：

(1)训练目标是最小化损失函数。给定具有N_sample个样本的数据集，某个样本的预测值和真实值分别为

和y_i。结合亲和力预测任务(回归任务)的损失函数(MSE loss)由以下定义，如公式(13)所示：

(2)基于结构的虚拟筛选和姿态预测任务(分类任务)的(Focal loss)由以下定义，如公式(14)所示：

Focal loss是基于交叉熵函数的改进函数，用于处理类不平衡问题，它可以降低易分类样本的损失贡献，迫使模型在训练中专注于难分类的样本。其中，α是平衡活性物和诱饵的重要性的加权因子，它被设定为(诱饵的数量)/(所有复合体的数量)。γ是调整易分类样本降权率的聚合参数，在实验中设置为2.0。

下面介绍本发明的模型的训练、性能验证和评估。

1.准备数据集。

(1)对于结合亲和力预测任务(回归任务)，将PDBBind V2016的整个核心集作为外部测试集，随机选择通用集的20％作为验证集，剩余的作为训练集.为了进一步测试模型的稳健性，还使用了另一个数据集(PDBBind V2013核心集)作为外部测试集。由于PDBbindV2013核心集中的一些复合体也包含在PDBBind V2020的通用集中，直接从原来的PDBbindV2013核心集中去除了这些复合体，结果这个外部测试集中只包含了95个复合体。

(2)对于基于结构的虚拟筛选任务(分类任务)，训练两种模型(target-free和target-specific虚拟筛选模型)。在target-free虚拟筛选模型的训练中，将整个DUD-E数据集以4:1的比例以分层抽样的方式随机分为训练集和验证集。鉴于DUD-E数据集存在潜在的隐藏偏差，本发明没有使用DUD-E数据集的任何测试复合体，因为统计数据可能显示出不同程度的过度乐观。相反，整个DEKOIS2.0数据集具有不同的来源和目标，作为独立的测试集。在target-specific虚拟筛选模型的训练中，从Decoys/Actives物质的比率均高于1000的三个代表性靶点(FEN1:结构特异性核酸酶、KAT2A:乙酰基转移酶和PKM2:M2-型丙酮酸激酶)中提取LIT-PCBA数据集以更好地模拟真实虚拟筛选场景。对于每个靶点，直接从原始数据集中采用相应的测试集，其余数据集以4:1的比例分层抽样划分为相应的训练集和验证集。

(3)对于构象预测任务，结合亲和力预测任务的训练、验证和测试集的结合构象被用作训练、验证和测试构象。为了进一步验证模型的泛化能力，在DUD-E数据集上训练的模型也在LIT-PCBA数据集中的三个挑战性目标上进行了测试。

主要的评价指标为均方根误差(RMSE)和皮尔逊相关系数(Pearson R)用来评价回归模型的质量(结合亲和力预测任务)。在更多样化的评价中，还提供了决定系数(R²)和平均绝对误差(MAE),这些指标的计算方法如下所示:

其中，y_i′是预测出的结合亲和力，y_i是实际的结合亲和力，y和

分别是指预测值和实验值的平均值。

对于基于结构的虚拟筛选任务，报告了五个广泛使用的指标，包括AUC_ROC、AUC_PRC、LogAUC、BEDROC以及不同阈值(0.1、0.5、1和5％)的EFs。针对对接构象预测任务，考虑了三个主要指标：AUC_ROC、AUC_PRC和Top-1成功率。

2.将准备好的数据集，通过提前规划好的实施、训练、评估方法，对本发明的模型进行训练、验证、评估。

(1)使用PDBBind数据集的结合亲和力预测评估是评估蛋白质-配体相互作用预测模型性能的完善基准。本发明的模型使用来自PDBBind V2020的8298个复合体进行训练，并通过剩余的2067个复合体进行验证。

(2)本发明使用两个独立的外部测试集(PDBBind V2016和V2013的核心集)来检查模型的泛化能力。

(3)对模型在大规模的虚拟筛选中进行评估，本发明使用DUD-E、DEKOIS2.0和LIT-PCBA数据集系统地评估模型的虚拟筛选能力。

在第一个评估阶段，用DUD-E数据集训练和验证了一个target-free模型，然后用DEKOIS2.0数据集进行测试。与以往许多研究的做法不同，本发明没有使用DUD-E数据集作为外部测试集，因为该数据集存在潜在的隐藏偏见。

在第二个评估阶段，本发明从LIT-PCBA数据集中选择了三个更具挑战性和代表性的目标，诱饵与活性的比率高于1000，以更好地模拟真实的虚拟筛选场景。在这个阶段训练的模型是针对目标的，它们由原始论文提供的相应测试集进行外部测试。

在第三个评估阶段，在DUD-E数据集上训练的模型也在LIT-PCBA数据集中的三个挑战性目标上进行了测试，以更深入地验证模型的泛化能力。

下面以举例方式介绍本发明的应用：

使用PDBBind数据集的结合亲和力预测评估是评估蛋白质-配体相互作用预测模型性能的完美基准。本发明使用来自PDBBind V2020的8298个复合体来训练模型，并通过剩余的2067个复合体进行验证。使用两个独立的外部测试集(来自PDBBind V2016和V2013的核心集)来检查模型的泛化能力。由验证误差最小标准确定的模型的统计数据如表1所示。

表1.给出的不同数据集来验证模型结合亲和力预测的损失最小性能指标

可以观察到模型达到了较好的指标，R_p>0.750，分别在验证集和两个外部测试集上的均方根误差(RMSE)为1.294、1.220和1.372。

为了深入探索模型的预测能力，本发明分析了几个代表性的基于机器学习的蛋白质-配体相互作用预测模型，并在表2中列出了PDBBind V2016和2013核心集的相应统计数据。如表2所示，大多数报道的模型是基于CNN算法开发的，一些传统的机器学习方法如随机森林(RF)和梯度增强树(GBT)也受到高度青睐，但对GNN算法关注较少。对于PDBBind V2016的核心集，模型在表2中的表现为Rp＝0.837和RMSE＝1.220。

表2.PDBbind V2016和V2013核心集在预测蛋白质-配体相互作用方面的性能比较

综上所述，本发明在构建预测模型时，(1)直接结合了蛋白质-配体结合位姿的三维结构信息，没有使用启发式化学规则来处理非共价相互作用；在不增加计算预算的情况下实现分子的近似完整表示，将基于球型消息传递和由薛定谔方程得出来具有物理意义的特征组合起来，作为提取蛋白质-配体结合位姿三维结构信息的一种统一且有效的方案。(2)设计了距离感知图注意力机制，使模型能够区分每个相互作用对结合亲和力的贡献。(3)本发明利用通过从其复合物的图形特征中减去目标蛋白和给定配体的每个特征而获得的图形特征进行蛋白质-配体相互作用预测。这些策略允许模型通过使模型专注于分子间相互作用而不是仅仅记住配体分子的某些模式来学习准确预测蛋白质-配体相互作用的关键因素。(4)本发明通过采用门控跳过连接机制来提高模型的性能。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，包括以下步骤：

步骤2、构建分子三维信息提取网络，进行分子表征，提取蛋白质-配体复合物的三维信息；所述三维信息提取网络包括输入模块、消息传递模块、多个交互模块和输出模块，输入模块用于为图形结构的边k构造初始消息；消息传递模块使用球形消息传递方法和多种物理表示，将分子图形结构由三维信息唯一表示，并将原子的相对位置信息合并到球坐标系中；交互模块通过合并所有物理表示来更新初始消息；输出模块聚合所有传入的消息以更新节点的特征；

步骤3、构建基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测，包括构象预测与结合亲和力预测；其中所述基于注意力机制的三维图神经网络模型包括图注意力层、连接层、图池化层、全连接层，在预测时，采用以下方法：

步骤3.1、构建两个邻接矩阵，将提取的蛋白质-配体复合物的三维信息嵌入到两个邻接矩阵中，学习蛋白质-配体相互作用对每个原子的节点特征的影响；

2.根据权利要求1所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，步骤1中构建的数据集包括四个数据集：PDBbind、DUD-E、DEKOIS2.0和LIT-PCBA，PDBbind数据集用于结合亲和力预测，DUD-E和DEKOIS2.0是多目标数据集，用于构建target-free虚拟筛选模型，LIT-PCBA数据集用于模拟真实的虚拟筛选场景。

3.根据权利要求2所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，数据集的处理方法如下：

则将其标记为阳性样本，如果RMSD大于

则将其标记为阴性样本，RMSD在2到

之间的样品被省略；

4.根据权利要求1所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，步骤2中分子表征的具体方法如下：

对于球面坐标系中的任何点，其位置由三元组

指定，其中d，θ和

分别表示径向距离、极角和方位角；在球面坐标系中建模三维分子图时，任何原子i都可以是局部球坐标系的原点，此时d，θ和

指定；

步骤2.2、定义一个三维分子图G，表示为4元组G＝(u,V,E,P)，

是原子i的特征向量，n是原子的总数；E＝{(e_k,r_k,s_k)}_k＝1:m是边的集合，其中每个

步骤2.3、在球坐标系中执行球形消息传递，更新消息；

令

表示边k的接收者原子r_k的特征向量，

表示边k的发送者原子s_k的特征向量，

步骤2.4、选择基函数，将三元组

转换为基于物理的表示，进行分子表征。

5.根据权利要求4所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，步骤2.4中，选择球贝塞尔作为编码距离的基函数、球谐函数作为编码角度的基函数；最终的分子表征表示为

一种表示形式表示为如公式(2)所示：

其中j_l(·)是l阶的球贝塞尔函数，

6.根据权利要求1所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，步骤3.1中，邻接矩阵表示为A，是一个N_matrix×N_matrix矩阵，其中，如果第i个和第j个原子节点连接，则A_ij>0，否则A_ij＝0，N_matrix表示图中的原子节点数；构建的两个邻接矩阵A¹和A²，A¹代表纯共价相互作用的邻接矩阵，A²代表共价相互作用和非共价分子间相互作用的邻接矩阵，A¹和A²的构造如公式(3)、(4)所示:

7.根据权利要求6所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，步骤3.2中设计一种距离感知注意力算法，其中，图注意力层的输入是邻接矩阵A和节点特征集

其中x∈R^F；

具体方法如下：

步骤3.2.1、计算各节点的注意力系数；

首先，为了获得足够的表达能力，每个节点特征

被一个可学习的权重矩阵W∈R^F×F所转化，表示为

然后，得到注意力系数，如公式(5)所示:

其中E∈R^F×F也是一个可学习矩阵，注意力系数e_ij表示第j个节点特征对第i个节点特征的重要性；通过对

和

步骤3.2.2、更新节点特征；

步骤3.2.3、引入门控增强算法；

实现为x_i'和x_i”的线性组合，如公式(8)、(9)所示，

x_i ^out＝z_ix′_i+(1-z_i)x″_i (8)

z_i＝σ(U(x′_i||x″_i)+b) (9)

组合所有节点的图注意力层的输出

组成新的节点特征集

8.根据权利要求7所述的基于注意力机制的三维蛋白质-配体活性预测方法，其特征在于，步骤3.2中，针对两个邻接矩阵A¹和A²，图注意力层产生新的节点特征x^out1和x^out2，x^out1＝GAT(xⁱⁿ,A¹)，x^out2＝GAT(xⁱⁿ,A²)，其中GAT代表门控增强的图注意力层，在计算x^out1和x^out2时，共享一个门增强图注意力层；

x^out＝x^out2-x^out1 (10)