CN114360637A

CN114360637A - 一种基于图注意力网络的蛋白质-配体亲和力评价方法

Info

Publication number: CN114360637A
Application number: CN202210022369.7A
Authority: CN
Inventors: 杨帅; 赵志刚; 王春晓; 潘景山; 武鲁; 魏志强; 刘昊
Original assignee: Ocean University of China; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Ocean University of China; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-15

Abstract

本发明公开了一种基于图注意力网络的蛋白质‑配体亲和力评价方法。为了解决数据集规模小的问题，本发明模拟半柔性对接过程，设计了基于分子柔性的数据增强方法(Data Enhancement Method based on molecular flexibility)，扩大数据规模、提高模型质量、保证了方法的科学性与合理性。本发明设计基于图注意力机制的分子特征提取方法，提取分子有效特征，提高打分函数的精度和性能。

Description

一种基于图注意力网络的蛋白质-配体亲和力评价方法

技术领域

本发明具体涉及一种基于图注意力网络的蛋白质-配体亲和力评价方法，属于蛋白质-配体亲和力评价的技术领域。

背景技术

评估蛋白质-配体的相互作用是基于结构药物设计的基石。打分函数是评价蛋白质-配体亲和力的重要方法，现有的技术方案主要分为：经典的打分函数和机器学习打分函数，如图1所示。

经典的打分函数基于知识经验，通过制定规则来定量衡量蛋白质-配体相互作用力。按照其打分规则侧重点不同分为：基于力场的打分函数(例如：AutoDock)、基于知识的打分函数(例如：DrugScore)、基于经验的打分函数(例如：X-Score)三大类。机器学习打分函数则通过机器学习方法对蛋白质-配体相互作用力进行评估，从机器学习模型构建方法的角度，可细分为：基于随机森林树的方法、基于深度学习的方法、基于图神经网络的方法。基于图神经网络的打分函数是基于图神经网络构建的机器学习打分函数，采用图卷积神经网络或图注意力神经网络实现打分函数的构建，典型的方法有GraphDTA、PotentialNet、GraphBAR、GCN-DTI、GraphMS、AttentionDTA等。

现有技术在以下缺点：

经典打分函数遇到瓶颈，短时间内性能无法得到显著提高。经典打分函数通过线性方程衡量蛋白质-配体间亲和力，它基于既有的经验和知识，无法利用存量数据。尽管经典打分函数取得了一系列的成果，但是由于蛋白质折叠动力学、分子动力学、动态仿真学等基础学科发展水平的限制，使得经典打分函数在对蛋白质-配体相互作用评价的精度和可靠性一直得不到提高，这导致其发展陷入瓶颈。

机器学习打分函数的不足包括：1、可解释性差，模型容易出现过拟合、泛化能力低等问题。2、数据集规模小、数据质量参差不齐。蛋白质-配体亲和力评价数据由实验获得，获取难度大，数据体量小。而且，由于实验环境、仪器设备的差异，导致数据质量参差不齐。3、现有方法难以提取有效特征，导致训练出的模型质量不高，影响模型精度。

发明内容

针对现有技术的不足，本发明提供了一种基于图注意力网络的蛋白质-配体亲和力评价方法。方法流程图如图2所示。

术语解释：

节点：在算法中，将分子抽象成图结构，分子中的原子抽象成节点。节点是分子中的原子。多个节点构成分子图。

节点V的特征：即为分子中具体某个原子的特征；该特征包含原子类型、原子价态信息，存储在特征矩阵中。

ReLU激活函数：深度学习模型中激活函数的一种，用于计算loss值。

本发明的技术方案为：

一种基于图注意力网络的蛋白质-配体亲和力评价方法，具体方法如下：

1)数据增强

1.1)基于分子柔性的数据增强方法

为了解决数据集规模小的问题，本发明模拟半柔性对接过程，设计了基于分子柔性的数据增强方法(Data Enhancement Method based on molecular flexibility)，扩大数据规模、提高模型质量、保证了方法的科学性与合理性。

1.1.1)提取PDBbind数据集中的配体结构文件；配体结构文件为mol2格式；

1.1.2)确定分子结构中的可旋转键；

确定分子中的可旋转键属于常规技术。分子中的化学键一般分为：单键、双键和三键，单键是可旋转键，双键和三键不可旋转。分子具备柔性，化学键的可旋转性导致分子具备多个构象，分子构象间的转换是通过分子内运动(键长伸缩、键角弯曲、二面角旋转)实现的。

1.1.3)根据配体分子可旋转键的转动情况，生成该配体分子的多个不同构象；

1.1.4)计算以上分子构象的分子能量，筛选出能量最低的13个构象结构，将数据规模扩大13倍；能量越低的分子构象越稳定；

1.2)多尺度数据分割

分别采用随机拆分、按精度拆分、分子骨架拆分、时间拆分、分层拆分、蛋白质家族拆分对PDBbind数据集进行拆分；

传统上，深度学习通常采用随机分割数据集方法。在分子机器学习领域，分子结构空间巨大，分子骨架和药效团影响分子成药性；为了保证数据集的代表性和有效性，本发明设计了多尺度数据分割方法(Multi-scale Data Segmentation Method)。

2)基于注意力机制的分子图嵌入方法

基于注意力机制的分子图嵌入方法(Molecular Embedding with GraphAttention Mechanism)是本发明的一个创新点；

2.1)确定分子水平的注意力机制添加范围，在化学键水平和原子水平添加注意力机制；

2.2)根据蛋白质-配体结合亲和力影响因素，找到与之匹配的分子结构、功能基团；

2.3)使用图神经网络进行分子特征提取，分别面向蛋白质和配体对相应的分子结构、功能基团添加注意力机制；

面向具体的蛋白质-配体亲和力评价任务，考虑芳香基团、疏水基团、氢键等影响因素，分别面向蛋白质分子和配体，在化学键水平、原子水平添加注意力机制，该过程属于本发明的创新点。运用图神经网络技术和注意力机制方法，解决了蛋白质和配体分子水平的有效特征提取问题。

芳香性是针对环体系(含融和环体系)原子和键而言的，如果该环上的pi电子满足4N+2规则，则组成该环的原子和键具有芳香性。芳香基团对蛋白质-配体结合亲和力具有积极作用；

氢键是蛋白质-配体结合亲和力重要影响因素，本发明对氢键供体(蛋白质)和氢键受体(配体小分子)分别添加注意力机制。

疏水相互作用是蛋白质-配体复合物中最多、最常见的相互作用，对亲和力的影响有着巨大作用。

2.4)基于注意力机制的分子图嵌入方法设计；该方法包含图卷积层算法和GraphPooling Layer with Attention Mechanism两部分：

2.4.1)图卷积层算法

是分子图的邻接矩阵，

是

的对角矩阵，h^(l)∈R^N×F是第l个节点的特征矩阵，Θ∈R^F×1，是所有节点共享的可训练的权重，σ是ReLU激活函数；

N表示分子中原子的个数，F表示提取分子的特征条数；R是矩阵符号，R^N*N是N*N维的矩阵；R^N*N是分子图的邻接矩阵；R^N*F是分子图的特征矩阵。

⊙是可训练的经验值；模型在训练前会随机赋值给它，训练过程中模型自动调整它的数值；例如：Θ的值为a、b、c……，当Θ值为a时，模型性能最好，则⊙值为a。Θ是动态、可训练的值。

邻接矩阵、特征矩阵、激活函数、节点均为图神经网络领域熟知的概念。分子图结构在经过图卷积处理后，得到1个邻接矩阵、1个特征矩阵。邻接矩阵记录分子中各原子的键合状态、化学键信息；特征矩阵记录原子类型、原子价态信息。将邻接矩阵和特征矩阵进行矩阵进行乘法运算，得到最终的特征矩阵，最终的特征矩阵包含分子的特征。

2.4.2)Graph Pooling Layer with Attention Mechanism蛋白质-配体亲和力评价函数定义为：

Z是“蛋白质-配体亲和力评价”的打分；N(v)是节点所有邻域的集合，h_v表示节点v的特征；h_u表示节点u的特征；α^T是共享的注意力操作；α_v，v是节点v特征的注意力系数，α_u，v是特征在节点u和节点v间传播时的注意力系数；

LeakyReLU是激活函数，可以通过tensorflow.nn.leaky_relu进行调用。

3.模型设计

本发明设计了基于图注意力网络的蛋白质-配体亲和力评价模型(A protein-ligand affinity evaluation model based on graph attention network)。

3.1)模型的输入包括蛋白质口袋结构、配体结构和亲和力数据；

3.2)通过配体特征提取算法和蛋白质特征提取算法分别提取配体特征和蛋白质特征；具体的，配体小分子和蛋白质分别采用LigandEmbedding方法和ProteinEmbedding方法提取Ligand Structure representation和Protein Structue representation；

3.3)将蛋白质特征和配体小分子特征融合，得到Combined representation特征；

“将蛋白质特征和配体小分子特征融合”属于现有技术；该过程实际是矩阵乘法运算。将蛋白质特征矩阵和配体小分子特征矩阵先进行矩阵补全，再进行矩阵乘法。

3.4)Combined representation特征经过2个全连接层得到结果y；全连接层是神经网络中常用的模块，用于分类任务。步骤3.4)最终得到一个数值得分。

基于图注意力网络的蛋白质-配体亲和力评价模型的超参数包括Epoch、Batchsize、Optimizer、Leaning rate、Dropout rate、Number of Ligands ConvolutionLayers、Number of Protein Convolution Layers、Ligand Gather Width、ProteinGather Width。

优选的，所述步骤1.2)的具体步骤为：

随机拆分：将PDBbind各子集数据融合，并按6:2:2比例进行拆分；

按精度拆分：按照分子晶体结构的精度进行PDBbind数据集拆分，将full set作为训练集，refined set为验证集，core set为测试集；

分子骨架拆分：通过RDKit获取分子Murcko骨架，将结构相似性高的分子作为训练集，相似性低的作为验证集和测试集；

时间拆分：按照蛋白质晶体结构的发表日期进行数据集拆分，将较早发表的晶体结构作为训练集，近期发表的晶体结构作为验证集和测试集；

分层拆分：按照蛋白质-配体复合物亲和力数值进行PDBbind数据集拆分，将抑制常数、解离常数较大的作为训练集，较小的作为验证集和测试集；

蛋白质家族拆分：按照蛋白质家族类型进行PDBbind数据拆分，指定蛋白质家族成员拆分为训练集、验证集和测试集。

优选的，所述步骤2.1)中，考虑的蛋白质-配体结合亲和力影响因素包括：基础特征、芳香基团、氢键、疏水基团；其中，氢键包括氢键供体和氢键受体；

基础特征对应匹配的分子结构、功能基团为：原子类型、化学键类型、原子化合价、分子邻接矩阵、分子距离矩阵；

芳香基团对应匹配的分子结构、功能基团为：芳香环、芳香碳原子、芳香氮原子、芳香氧原子、芳香键；

氢键供体对应匹配的分子结构、功能基团为：蛋白质结构中的O-H、N-H、F-H、氨根离子；

氢键受体对应匹配的分子结构、功能基团为：配体结构中的氧离子、氮离子、氟离子、碳酸根、S＝C、O-H、O＝C、F-H；

疏水基团对应匹配的分子结构、功能基团为：芳香碳、亮氨酸、异亮氨酸、甲基、乙基、苯环。

优选的，步骤3.1)中，亲和力数据具体包括Ki、Kd、IC50。

优选的，步骤3.4)中的参数Epoch、Batch size、Optimizer、Leaning rate、Dropout rate、Number of Ligands Convolution Layers、Number of ProteinConvolution Layers、Ligand Gather Width、Protein Gather Width对应的设定值依次为2000、512、Adam、0.001、0.1、2、3、2、3。

本发明的有益效果为：

1.本发明模拟半柔性分子对接的过程，扩大数据集的规模，解决数据集规模小的问题；

2.本发明设计基于图注意力机制的分子特征提取方法，提取分子有效特征，提高打分函数的精度和性能。

附图说明

图1为经典的打分函数和机器学习打分函数的具体方法；

图2本发明所述基于注意力网络蛋白质-配体亲和力评价的方法流程图；

图3为靶点2ozr结构图；

图4为2ozr靶点口袋结构(Pocket:GG1_A_2001)图；

图5配体GG1_A_2001及其可旋转键的示意图；

图6为本发明所述多尺度数据分割方法进行数据集拆分的示意图；

图7为本发明所述基于注意力网络的分子图嵌入方法的流程图；

图8为蛋白质-配体结合亲和力影响因素细节展示图；

图9为配体GG1_A_2001的注意力机制模式；

图10为本发明所述基于图注意力网络的蛋白质-配体亲和力评价模型的结构图；

图11为本发明所述评价模型的部署架构图；

图12为2ozr靶点与配体GG1_A_2001对接结果图；

图13为根据配体分子可旋转键的转动情况，生成的13个不同构象。

具体实施方式

1)数据增强

1.1)基于分子柔性的数据增强方法

1.1.1)提取PDBbind数据集中的配体结构文件；配体结构文件为mo12格式；

1.1.2)确定分子结构中的可旋转键；具体实现代码为：

from rdkit import Chem

from rdkit.Chem import Draw

from rdkit.Chem.Draw import rdMolDraw2D

from rdkit.Chem import rdDepictor

rdDepictor.SetPreferCoordGen(True)

from rdkit.Chem.Draw import IPythonConsole

from IPython.display import SVG

import rdkit

d2d＝rdMolDraw2D.MolDraw2DSVG(350，300)

d2d.drawOptions().addBondIndices＝True

mol＝Chem.MolFromSmiles(′CCC(CC(C)CC1CCC1)C(CC(＝O)O)N′)

d2d.DrawMolecule(mol)

d2d.FinishDrawing()

SVG(d2d.GetDrawingText())

1.1.3)根据配体分子可旋转键的转动情况(如图5所示)，生成该配体分子的多个不同构象；本实施例是借助以配体GG1_A_2001化学键的旋转产生不同的分子构象；该过程通过AllChem.EmbedMultipleConfs方法实现；代码如下：

1.1.4)计算以上分子构象的分子能量，筛选出能量最低的13个构象结构，将数据规模扩大13倍；能量越低的分子构象越稳定；13个构象如图13所示。计算分子能量的过程属于现有技术；具体方法参考“《计算机辅助药物分子设计》；徐筱杰侯廷军乔学斌章威编著”。

1.2)多尺度数据分割

分别采用随机拆分、按精度拆分、分子骨架拆分、时间拆分、分层拆分、蛋白质家族拆分对PDBbind数据集进行拆分，如图6所示；

随机拆分的具体实现代码为：

分子骨架拆分：通过RDKit获取分子Murcko骨架，将结构相似性高的分子作为训练集，相似性低的作为验证集和测试集；“高”与“低”的划分方法是根据分子的Murcko骨架序列结构相似度进行划分；先将Murcko骨架序列转换成分子指纹，再通过tanimoto系数进行计算；

分子骨架拆分通过GetScaffoldForMol方法实现；具体实现代码如下：

时间拆分：按照蛋白质晶体结构的发表日期进行数据集拆分，将较早发表的晶体结构作为训练集，近期发表的晶体结构作为验证集和测试集；本实施例将2010年以前发表的蛋白质晶体结构作为训练集；2010年以后的蛋白质晶体结构作为验证集和测试集。

时间拆分的具体实现代码为：

分层拆分：按照蛋白质-配体复合物亲和力数值进行PDBbind数据集拆分，将抑制常数、解离常数较大的作为训练集，较小的作为验证集和测试集；本实施例将抑制常数K_i值小于50uM，或者解离常数K_d值小于10pM作为训练集；

core set数据集中蛋白质-配体基础信息数据如下：

分层拆分的具体实现代码如下：

蛋白质家族拆分：按照蛋白质家族类型进行PDBbind数据拆分，指定蛋白质家族成员拆分为训练集、验证集和测试集；本实施例指定的是ErbB蛋白质家族；

2)基于注意力机制的分子图嵌入方法

基于注意力机制的分子图嵌入方法(Molecular Embedding with GraphAttention Mechanism)是本发明的一个创新点，如图7所示；

2.2)根据蛋白质-配体结合亲和力影响因素，找到与之匹配的分子结构、功能基团；识别芳香环通过isRingAromatic方法实现，识别芳香原子通过GetIsAromatic方法实现。

分子特征具体包括原子类型、化学键类型(单键、双键、三键、芳香键)、原子化合价、分子邻接矩阵、分子距离矩阵(可旋转二面角)；

分子特征的提取通过RDKit中MOL对象实现；具体的，获取分子中的原子通过GetAtoms方法实现；获取分子中的化学键通过GetBonds方法实现；获取原子的电荷通过GetFormalCharge方法实现；获取原子类型通过GetSymbol方法实现。分子邻接矩阵通过GetAdjacencyMatrix方法实现；分子特征矩阵通过Get3DDistanceMatrix方法实现。

通过该步骤获取有效的分子特征，训练高性能深度学习模型；

所述步骤2.1)中，考虑的蛋白质-配体结合亲和力影响因素包括：基础特征、芳香基团、氢键、疏水基团；其中，氢键包括氢键供体和氢键受体；

疏水基团对应匹配的分子结构、功能基团为：芳香碳、亮氨酸、异亮氨酸、甲基、乙基、苯环；

影响因素细节如图8所示。

具体的，以配体GG1_A_2001为例，在特征提取过程中添加的注意力机制详情，如图9所示。分别对氢键受体、芳香基团和疏水相互作用结构添加注意力机制，图中有颜色标注部分均为添加注意力机制的结构。其中，红色为氢键受体，绿色为芳香基团、黄色为疏水相互作用。

2.4.1)图卷积层算法

是分子图的邻接矩阵，

是

Θ是可训练的经验值；模型在训练前会随机赋值给它，训练过程中模型自动调整它的数值；例如：Θ的值为a、b、c……，当Θ值为a时，模型性能最好，则Θ值为a。Θ是动态、可训练的值。

Z是“蛋白质-配体亲和力评价”的打分；N(v)是节点所有邻域的集合，h_v表示节点v的特征；h_u表示节点u的特征；α^T是共享的注意力操作；α_v，v是节点v特征的注意力系数，其数值为1；α_u，v是特征在节点u和节点v间传播时的注意力系数；

LeakyReLU是激活函数，可以通过tensorflow.nn.leaky_relu进行调用。

3.模型设计

本发明设计了基于图注意力网络的蛋白质-配体亲和力评价模型(A protein-ligand affinity evaluation model based on graph attention network)，模型结构图如图10所示；

3.1)模型的输入包括蛋白质口袋结构、配体结构和亲和力数据；亲和力数据具体包括Ki、Kd、IC50；

基于图注意力网络的蛋白质-配体亲和力评价模型的超参数包括Epoch、Batchsize、Optimizer、Leaning rate、Dropout rate、Number of Ligands ConvolutionLayers、Number of Protein Convolution Layers、Ligand Gather Width、ProteinGather Width；基于图注意力网络的蛋白质-配体亲和力评价模型的超参数设置如表1所示：

表1.超参数设置

将模型部署于高性能科学计算平台“山河”(模型部署架构如图11所示)：

(a)镜像选择：Ubuntu Server 20.04LTS 64bit；云服务器类型：GPU云服务器；GPU类型：NVIDIA A100；GPU数量：2个；云服务器配置：16核64G；系统硬盘1T；

(b)部署百度Paddle深度学习框架，安装依赖库；

(c)将蛋白质-配体亲和力评价模型及数据集部署至Paddle框架并调试运行；

本模型通过百度Paddle深度学习部署框架进行部署；

模型部署成功后，进行线上蛋白质-配体亲和力评价计算。以配体GG1_A_2001和靶点2ozr(靶点：2ozr，如图3)为例，模型运行结果如图12所示，Name为蛋白质口袋结构的名称，实验中均使用蛋白质构象2ozr的GG1_A_2001口袋结构(Pocket：GG1_A_2001,如图4)；Rank表示配体GG1_A_2001能量较低的13个构象结构(配体GG1_A_2001的13种构象，如图13)；Score则为最终的打分值，分数越高，表示配体与蛋白质的结合效果越好。

Claims

1.一种基于图注意力网络的蛋白质-配体亲和力评价方法，其特征在于，具体方法如下：

1)数据增强

1.1)基于分子柔性的数据增强方法；

1.1.1)提取PDBbind数据集中的配体结构文件；

1.1.2)确定分子结构中的可旋转键；

1.2)多尺度数据分割

2)基于注意力机制的分子图嵌入方法

2.4.1)图卷积层算法

是分子图的邻接矩阵，

是

3.模型设计

3.4)Combined representation特征经过2个全连接层得到结果y；

基于图注意力网络的蛋白质-配体亲和力评价模型的超参数包括Epoch、Batch size、Optimizer、Leaning rate、Dropout rate、Number of Ligands Convolution Layers、Number of Protein Convolution Layers、Ligand Gather Width、Protein GatherWidth。

2.根据权利要求1所述的基于图注意力网络的蛋白质-配体亲和力评价方法，其特征在于，所述步骤1.2)的具体步骤为：

3.根据权利要求1所述的基于图注意力网络的蛋白质-配体亲和力评价方法，其特征在于，所述步骤2.1)中，考虑的蛋白质-配体结合亲和力影响因素包括：基础特征、芳香基团、氢键、疏水基团；其中，氢键包括氢键供体和氢键受体；

4.根据权利要求1所述的基于图注意力网络的蛋白质-配体亲和力评价方法，其特征在于，步骤3.1)中，亲和力数据具体包括Ki、Kd、IC50。

5.根据权利要求1所述的基于图注意力网络的蛋白质-配体亲和力评价方法，其特征在于，步骤3.4)中的参数Epoch、Batch size、Optimizer、Leaning rate、Dropout rate、Number of Ligands Convolution Layers、Number of Protein Convolution Layers、Ligand Gather Width、Protein Gather Width对应的设定值依次为2000、512、Adam、0.001、0.1、2、3、2、3。