CN115512785A - 基于注意力机制的三维蛋白质-配体活性预测方法 - Google Patents
基于注意力机制的三维蛋白质-配体活性预测方法 Download PDFInfo
- Publication number
- CN115512785A CN115512785A CN202211069779.3A CN202211069779A CN115512785A CN 115512785 A CN115512785 A CN 115512785A CN 202211069779 A CN202211069779 A CN 202211069779A CN 115512785 A CN115512785 A CN 115512785A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- attention
- graph
- protein
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Pharmacology & Pharmacy (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medicinal Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于人工智能辅助药物设计技术领域,具体公开了一种基于注意力机制的三维蛋白质‑配体活性预测方法,本发明通过构建分子三维信息提取网络,进行分子表征,通过球形信息传递方法和具有物理意义的特征组合起来,提取蛋白质配体结合位姿的三维信息;通过构建基于注意力机制的三维图神经网络模型来对蛋白质配体相互作用进行预测,包括构象预测与结合亲和力预测,最终输出预测结果。
Description
技术领域
本发明属于人工智能辅助药物设计技术领域,特别涉及一种基于注意力机制的三维蛋白质-配体活性预测方法。
背景技术
随着深度学习技术的发展,研究者们将卷积神经网络用于药物研发过程中的蛋白质-配体亲和力预测上。在应用时,为适用卷积神经网络,一种方法是将分子结构规则化,如Pafnucy模型的做法是将复合物结构裁剪成围绕配体分子几何中心的立方体大小,以每分辨率将其网格化,并用一个19维向量描述其中每个原子的化学信息,得到蛋白质配体分子的4D张量表示。OnionNet的计算方式是将每个配体原子周围半径为的蛋白质结构划分为洋葱式层级结构,计算每一层特定原子对的出现次数。这些方法为了适应卷积神经网络对数据规则性的要求都对分子结构做了切割处理,这在一定程度上损失了部分重要信息。
另一种方法是将分子视为图数据结构来处理。AGL-Score提出了多尺度加权标签代数子图的方法去表示分子,使用子图计算出拉普拉斯矩阵和邻接矩阵的特征值及特征向量描述分子后,输入梯度增强树模型训练出最终模型。C-SGEN是基于空间图嵌入的分子性质预测方法,包含对蛋白质-配体间结合亲和力的预测。这个方法先将分子表示成图嵌入表示,用邻接矩阵表示原子间连接关系,把邻接矩阵和图嵌入表示输入卷积神经网络,进行一维卷积。
近几年,图卷积神经网络被用于蛋白质-配体结合亲和力预测,PotentialNet也是一种为预测分子性质而提出的图神经网络方法,定义图中的边时除了化学键外还考虑了原子间的欧氏距离,网络结构中使用了门控循环单元来更新原子特征。GraphDelta使用BPS对称函数建立单原子环境向量来表示分子,将原子、邻居原子和它们之间的键三个向量直接拼接,输入全连接层,输出的各邻居原子间向量求和,得到分子信息,与中心原子向量直接拼接,输入第二层全连接层,得到信息更新,组合配体所有原子的信息更新,经过模糊处理,输入第三层全连接层,得到最终结果。
一种基于图表示学习方法的打分函数模型IGN公开了分子内图卷积和分子间图卷积模块来先后学习蛋白-配体复合物中的分子内相互作用和分子间相互作用,并将学习到的分子间相互作用应用于下游的任务预测,包括蛋白-配体结合亲和力预测、大规模虚拟筛选以及小分子结合构象预测。一种基于图注意力网络的蛋白质-配体亲和力评价方法的发明,为了解决数据集规模小的问题,模拟半柔性对接过程,设计了基于分子柔性的数据增强方法,扩大数据规模、提高模型质量、保证了方法的科学性与合理性。设计基于图注意力机制的分子特征提取方法,提取分子有效特征,提高打分函数的精度和性能。
传统方法与传统机器学习方法在受体与配体活性预测方向依然存在一些不足,(1)巨大的计算成本限制了它们在高通量筛选中的应用,包括DOCK、AutoDock、GOLD等在内的经典分子对接方法已被用于预测结合亲和力。虽然这些方法通过原则性的参数拟合加快了计算速度,但其计算精度并不令人满意。其中,基于机器学习的方法ΔvinaRF20在预测准确度方面脱颖而出。但传统的机器学习方法依赖于手工特征工程,模型很大程度上依赖特征的构建和选择,而目前还难以找到普遍适合整个化学小分子空间的特征工程方法。这个限制可以在深度学习模型中被化解。因此,深度学习方法已经被越来越多的研究人员所青睐。
(2)在大部分的打分函数对分子表征的研究中,目前已经提出了许多分子表征学习(Molecular Representation Learning)方法,其中大部分都将SMILES字符串作为输入,尽管模型功能强大,但由于SMILES是分子结构一维线性化的表征,使得神经网络很难从SMILES中学习到分子的原始结构信息。因此,基于手工描述符、一维蛋白质序列和/或二维图形表示的方法限制了其学习三维空间中广义分子相互作用的能力。
(3)在蛋白质-配体相互作用预测模型中,深度学习方法通过复杂神经网络的端到端学习为本发明提供了一种新思路,新兴的GNN被引入到基于结构的蛋白质-配体相互作用预测工作流程中。图神经网络GNN把深度学习应用到图结构中,其中的图卷积网络GCN可以在图上进行卷积操作。但是GCN存在一些缺陷:依赖拉普拉斯矩阵,不能直接用于有向图;模型训练依赖于整个图结构,不能用于动态图;卷积的时候没办法为邻居节点分配不同的权重;训练是全增量更新的,难以扩展到大规模网络,并且收敛较慢。
发明内容
针对现有技术存在的不足,本发明提供一种基于注意力机制的三维蛋白质-配体活性预测方法,使用三维模型来进行分子表征,通过把球形信息传递和由薛定谔方程得出来的具有物理意义的特征组合起来作为特征提取网络来有效地提取蛋白质配体结合位姿的三维信息;本发明构建基于注意力机制的预测模型来对蛋白质-配体相互作用进行预测,注意力机制可以为不同节点分配不同权重,训练时依赖于成对的相邻节点,而不依赖具体的网络结构;设计距离感知注意力算法,来区分各种类型的分子间相互作用;以及引入适合学习蛋白质-配体相互作用的图神经网络的变体,使模型专注于分子间相互作用。
为了解决上述技术问题,本发明采用的技术方案是:
一种基于注意力机制的三维蛋白质-配体活性预测方法,包括以下步骤:
步骤1、构建数据集,将蛋白质、配体三维结构信息作为输入,用于预测结合亲和力、构建虚拟筛选模型、模拟虚拟筛选场景;
步骤2、构建分子三维信息提取网络,进行分子表征,提取蛋白质-配体复合物的三维信息;所述三维信息提取网络包括输入模块、消息传递模块、多个交互模块和输出模块,输入模块用于为图形结构的边k构造初始消息;消息传递模块使用球形消息传递方法和多种物理表示,将图形结构由三维信息唯一表示,并将原子的相对位置信息合并到球坐标系中;交互模块通过合并所有物理表示来更新初始消息;输出模块聚合所有传入的消息以更新节点的特征;
步骤3、构建基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测,包括构象预测与结合亲和力预测;其中所述基于注意力机制的三维图神经网络模型采用图注意力模型,包括图注意力层、连接层、图池化层、全连接层,在预测时,采用以下方法:
步骤3.1、构建两个邻接矩阵,将提取的蛋白质-配体复合物的三维信息嵌入两个邻接矩阵中,学习蛋白质-配体相互作用对每个原子的节点特征的影响;
步骤3.2、设计距离感知注意力算法,来区分各种类型的分子间相互作用;使用图注意力层学习蛋白质-配体相互作用,使模型专注于分子间相互作用,最终获得图注意力层门控增强更新的节点特征;
步骤3.3、将步骤3.2得到的特征进行组合得到聚合特征后,输入图池化层学习的成对原子非键相互作用以生成复合物的分子间相互作用;
步骤3.4、使用批量归一化层增强的全连接层用作最终蛋白质-配体相互作用预测的任务网络,生成预测结果。
进一步的,步骤1中构建的数据集包括四个数据集:PDBbind、DUD-E、DEKOIS2.0和LIT-PCBA,PDBbind数据集用于结合亲和力预测,DUD-E和DEKOIS2.0是多目标数据集,用于构建target-free虚拟筛选模型,LIT-PCBA数据集用于模拟真实的虚拟筛选场景。
进一步的,数据集的处理方法如下:
步骤1.1、对于PDBbind数据集中的每个样本,进行对接计算以生成蛋白质-配体复合物的结合位姿,如果生成的一个姿势与其实验验证的结合结构的均方根误差RMSD小于则将其标记为阳性样本,如果RMSD大于则将其标记为阴性样本,RMSD在2到之间的样品被省略;
步骤1.2、根据蛋白质将PDBbind数据集分为训练集和测试集,以使训练集和测试集不共享相同的蛋白质;此外,从训练集和测试集中删除包含DUD-E数据集中的蛋白质的PDBbind样本。
进一步的,步骤2中分子表征的具体方法如下:
步骤2.1、将原子的相对位置信息作为三维信息提取网络的输入,识别球面坐标系中三维分子的结构;
对于球面坐标系中的任何点,其位置由三元组指定,其中d,θ和分别表示径向距离、极角和方位角;在球面坐标系中建模三维分子图时,任何原子i都可以是局部球坐标系的原点,此时d,θ和分别成为键长、键间角度和扭转角;因此,原子i的每个相邻原子的相对位置可以由相应的元组指定;
步骤2.2、定义一个三维分子图G,表示为4元组G=(u,V,E,P),是分子图G的全局特征向量,其中du是全局特征的维度;V={vi}i=1:n是原子特征,其中每个是原子i的特征向量,n是原子的总数,E={(ek,rk,sk)}k=1:m是边的集合,其中每个是边k的边特征向量,rk是接收者原子,sk是边k的发送者原子,m是边的总数;P={rk}k=1:n是一组三维笛卡尔坐标,其中包含每个原子的三维空间信息;
步骤2.3、在球坐标系中执行球形消息传递,更新消息;
令表示指向原子i的边集,Ni表示原子i的传入节点的索引;消息传递过程后的输出包括更新后的全局特征向量更新后的原子特征V′={v′i}i=1:n和更新后的边集E′={(e′k,rk,sk)}k=1:m,其中v′i表示更新后的原子特征向量,e′k表示更新后的边特征向量,球形消息传递在球坐标系中定义如公式(1)所示:
其中φe,φv和φu分别是边、原子和整个分子图上的三个信息更新函数,表示边k的接收者原子rk的特征向量,表示边k的发送者原子sk的特征向量,表示指向边k的发送者原子sk的边集,rh表示边h的接受原子,表示指向边k的发送者原子sk的传入节点的索引,E′i表示更新后得指向原子i的边集;聚合函数ρe→v和ρv→u聚合不同几何类型之间的信息,特别是在球形消息传递中,P中的三维信息被转换并合并以更新每个消息;因此,球形消息传递使用另一个位置聚合函数ρp→e进行消息更新;
其中jl(·)是l阶的球贝塞尔函数,是m阶l阶的球谐函数,c表示截断半径,βln是l阶贝塞尔函数的n次根;其中还有l∈[0,…,LH-1],m∈[-l,…,l]和n∈[1,…,NB],LH和NB分别表示球谐函数和球贝塞尔函数的最高阶。
进一步的,步骤3.1中,邻接矩阵表示为A,是一个Nmatrix×Nmatrix矩阵,其中,如果第i个和第j个原子节点连接,则Aij>0,否则Aij=0,Nmatrix表示图中的原子节点数;构建的两个邻接矩阵A1和A2,A1代表纯共价相互作用的邻接矩阵,A2代表共价相互作用和非共价分子间相互作用的邻接矩阵,A1和A2的构造如公式(3)、(4)所示:
进一步的,步骤3.2中设计一种距离感知注意力算法,其中,图注意力层的输入是邻接矩阵A和节点特征其中x∈RF,Natom是节点的数量,即原子的数量,F是节点的维数特征;图注意力层生成一组新的节点特征集其中x∈RF;
具体方法如下:
步骤3.2.1、计算各节点的注意力系数;
eij=xi ′TEx′j+x′TEx′i (5)
其中E∈RF×F也是一个可学习矩阵,注意力系数eij表示第j个节点特征对第i个节点特征的重要性;通过对xi ′TEx′j和的求和来强迫eij=eji;为了反映图的结构,注意力系数eij只计算j∈Ni,其中Ni是第i个节点的邻居节点,Aij>0;
然后,为了操纵各节点的注意力系数的规模,注意力系数在各邻居间被归一化,将Aij乘以归一化的注意系数,归一化注意力系数aij由公式(6)给出:
步骤3.2.2、更新节点特征;
在得到归一化注意力系数aij后,每个节点特征被更新为相邻节点的节点特征与归一化注意力系数的线性组合,如公式(7)所示
步骤3.2.3、引入门控增强算法;
xi out=zix′i+(1-zi)x″i (8)
zi=σ(U(xi′||x″i)+b) (9)
组合所有节点的图注意力层的输出组成新的节点特征集其中U∈R2F×1是可学习的向量,b是可学习的标量值,σ表示sigmoid激活函数,(·||·)是两个向量的串联,zi表示有多少关于输入节点特征的信息将直接传递到下一层。
进一步的,步骤3.2中,针对两个邻接矩阵A1和A2,图注意力层产生新的节点特征xout1和xout2,xout1=GAT(xin,A1),xout2=GAT(xin,A2),其中GAT代表门控增强的图注意力层,在计算xout1和xout2时,共享一个门增强图注意力层;输出节点特征xout,是通过从xout2中减去xout1得到的,如公式(10)所示,
xout=xout2-xout1 (10)
通过多个图注意力层更新节点特征向量后,配体原子的特征向量被汇总成一个表示蛋白质-配体复合物图的向量,如公式(11)所示:
最后,多层感知器被应用于xgraph,对蛋白质-配体复合物或结合姿势是否活跃进行分类,各层之间使用Leaky ReLU激活函数,最后一层之后使用sigmoid函数。
与现有技术相比,本发明优点在于:
1、三维结构信息对于药物发现过程至关重要,但缺乏原则性的消息传递框架来考虑它。本发明使用球形消息传递作为一种统一且有效的方案,可以在不增加计算预算的情况下实现分子的近似完整表示,使用有意义的三维信息可以显著提高预测任务的性能。
2、本发明提出一种基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测,使模型能够区分每个相互作用对结合亲和力的贡献。
采用了注意力机制,可以为不同节点分配不同权重,训练时依赖于成对的相邻节点,而不依赖具体的网络结构;通过添加注意力机制的模型能够通过注意力系数区分关键活性位点残基和相互作用,以活性位点图和指纹的形式使用活性位点信息有助于有效学习目标蛋白质与药物分子的相互作用。
利用通过从其复合物的图形特征中减去目标蛋白和给定配体的每个特征而获得的图形特征进行蛋白质-配体相互作用预测。这些策略允许模型通过使模型专注于分子间相互作用而不是仅仅记住配体分子的某些模式来学习准确预测蛋白质-配体相互作用的关键因素。并且在虚拟筛选和姿势预测方面都优于以前的深度学习模型以及对接。
此外,本发明的模型可以重现活性和非活性分子的自然种群分布。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的基于注意力机制的三维图神经网络模型架构图;
图3为本发明的分子三维信息提取模型的架构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
结合图1-图3,本发明提供的一种基于注意力机制的三维蛋白质-配体活性预测方法,包括以下步骤:
步骤1、构建数据集,将所有含有蛋白质、配体三维结构信息的.mol2/.sdf文件作为基本的输入格式,使用RDKit将基本的输入格式转换成被深度学习模型能够识别的.pkl格式,用于预测结合亲和力、构建虚拟筛选模型、模拟虚拟筛选场景。
本实施例构建的数据集包括了四个数据集:PDBBind V2020(2020版)、DUD-E、DEKOIS2.0和LIT-PCBA。在结合亲和力预测方面,由于深度学习模型对数据的要求很高,所以PDBBind V2020中的通用集和PDBBind V2016核心集都被使用,用于结合亲和力预测。最近的研究表明,各种在结合亲和力预测中具有良好预测能力的深度学习模型在大规模基于结构的虚拟筛选(Structure-Based Virtual Screening)中的表现较差。因此,本实施例用大规模的DUD-E、DEKOIS2.0和LIT-PCBA数据集测试了模型在基于结构的虚拟筛选上的性能。更具体地说,DUD-E和DEKOIS2.0是多目标数据集,它们被用来构建target-free虚拟筛选(Virtual Screening)模型。LIT-PCBA是一个更具挑战性的数据集,其Decoys/Actives的比例高于1000,因此它被用来模拟真实的虚拟筛选场景。LIT-PCBA是一个target-specific数据集,本实施例据此构建了target-specific虚拟筛选模型。
作为一种优选的实施方式,步骤1中数据集的处理方法如下:
步骤1.1、对于PDBbind数据集中的每个样本,进行对接计算以生成蛋白质-配体复合物的可能结合位姿,如果生成的一个姿势与其实验验证的结合结构的均方根误差RMSD小于则将其标记为阳性样本,如果RMSD大于则将其标记为阴性样本,RMSD在2到之间的样品被省略。
步骤1.2、根据蛋白质将PDBbind数据集分为训练集和测试集,以使训练集和测试集不共享相同的蛋白质;此外,从训练集和测试集中删除包含DUD-E数据集中的蛋白质的PDBbind样本。
步骤2、构建分子三维信息提取网络,进行分子表征,提取蛋白质-配体复合物的三维信息。
结合图3所示,其中图中LB2表示具有两个线性层的线性块,σ(LB)表示线性层后跟激活函数,||表示串联,⊙表示逐元素乘法。所述三维信息提取网络包括输入模块、消息传递模块、多个交互模块和输出模块,输入模块用于为图形结构的边k构造初始消息;消息传递模块使用球形消息传递方法和多种物理表示,将图形结构由三维信息唯一表示,并将原子的相对位置信息合并到球坐标系中;交互模块通过合并所有物理表示来更新初始消息;输出模块聚合所有传入的消息以更新节点的特征。
作为一种优选的实施方式,步骤2中分子表征的具体方法如下:
步骤2.1、将原子的相对位置信息作为三维信息提取方法的输入,识别球面坐标系中三维分子的结构。
相对的三维信息可以是距离或角度,这对输入分子的平移和旋转具有固有的不变性。对于球面坐标系中的任何点,其位置由三元组指定,其中d,θ和分别表示径向距离、极角和方位角;在球面坐标系中建模三维分子图时,任何原子i都可以是局部球坐标系的原点,此时d,θ和分别成为键长、键间角度和扭转角;因此,原子i的每个相邻原子的相对位置可以由相应的元组指定。
步骤2.2、定义一个三维分子图G,表示为4元组G=(u,V,E,P),是分子图G的全局特征向量,其中du是全局特征的维度;V={vi}i=1:n是原子特征,其中每个是原子i的特征向量,n是原子的总数,E={(ek,rk,sk)}k=1:m是边的集合,其中每个是边k的边特征向量,rk是接收者原子,sk是边k的发送者原子,m是边的总数;P={rk}k=1:n是一组三维笛卡尔坐标,其中包含每个原子的三维空间信息。
步骤2.3、在球坐标系中执行球形消息传递,更新消息;
令表示指向原子i的边集,Ni表示原子i的传入节点的索引;消息传递过程后的输出包括更新后的全局特征向量更新后的原子特征V′={v′i}i=1:n和更新后的边集E′={(e′k,rk,sk)}k=1:m,其中vi′表示更新后的原子特征向量,e′k表示更新后的边特征向量,球形消息传递在球坐标系中定义如公式(1)所示:
其中φe,φv和φu分别是边、原子和整个分子图上的三个信息更新函数,表示边k的接收者原子rk的特征向量,表示边k的发送者原子sk的特征向量,表示指向边k的发送者原子sk的边集,rh表示边h的接收原子,表示指向边k的发送者原子sk的传入节点的索引,h是rk,sk,并集组成的,E′i表示更新后得指向原子i的边集。聚合函数ρe→v和ρv→u聚合不同几何类型之间的信息,特别是在球形消息传递中,P中的三维信息被转换并合并以更新每个消息;因此,球形消息传递使用另一个位置聚合函数ρp→e进行消息更新;
其中jl(·)是l阶的球贝塞尔函数,是m阶l阶的球谐函数,c表示截断半径,βln是l阶贝塞尔函数的n次根;其中还有l∈[0,…,LH-1],m∈[-l,…,l]和n∈[1,…,NB],LH和NB分别表示球谐函数和球贝塞尔函数的最高阶,它们是实验环境中的超参数。此外,本实施例还可以从推导出两个简化表示Ψ(d)和Ψ(d,θ)。
步骤3、构建基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测。
所述基于注意力机制的三维图神经网络模型采用GAT图注意力模型,包括图注意力层、连接层、图池化层、全连接层。
图可以由(V,E,A)定义,其中V是一组节点,E是一组边,A是一个邻接矩阵。在属性图中,每个节点的属性通常由向量表示。邻接矩阵A是一个Nmatrix×Nmatrix矩阵,其中,如果第i个和第j个原子节点连接,则Aij>0,否则Aij=0,Nmatrix表示图中的原子节点数。本步骤3主要包括三个阶段:(i)更新节点特征,(ii)聚合节点特征和处理图特征,以及(iii)预测图的标签。在第一阶段中,表示第i个原子节点的属性的节点特征在相邻节点之间的几次消息传递中被更新。此阶段旨在获得节点特征的高级表示。然后,将更新的节点特征聚合以生成图特征。这里,聚合的结果必须在节点排序的变化中是不变的。
作为一种优选的实施方式,在预测时,采用以下方法:
步骤3.1、构建两个邻接矩阵,将蛋白质-配体复合物的三维结构信息嵌入两个邻接矩阵中,学习蛋白质-配体相互作用对每个原子的节点特征的影响。
构建的两个邻接矩阵A1和A2,A1代表纯共价相互作用的邻接矩阵,A2代表共价相互作用和非共价分子间相互作用的邻接矩阵,A1和A2的构造如公式(3)、(4)所示:
步骤3.2、设计距离感知注意力算法,来区分各种类型的分子间相互作用;使用图注意力层学习蛋白质-配体相互作用,使模型专注于分子间相互作用,最终获得注意力层门控增强更新的节点特征。
具体方法如下:
步骤3.2.1、计算各节点的注意力系数;
eij=xi ′TEx′j+x′TEx′i (5)
其中E∈RF×F也是一个可学习矩阵,注意力系数eij表示第j个节点特征对第i个节点特征的重要性;通过对xi ′TEx′j和的求和来强迫eij=eji。为了反映图的结构,注意力系数eij只计算j∈Ni,其中Ni是第i个节点的邻居节点,Aij>0,因为邻接矩阵同时反映了连接性和归一化的距离。
然后,为了操纵各节点的注意力系数的规模,注意力系数在各邻居间被归一化,此外,本发明将Aij乘以归一化的注意系数,以反映欧几里得距离较短的节点比其他节点更可能是重要的。它可以被认为是一种归纳偏见。因此,归一化注意力系数aij由公式(6)给出:
步骤3.2.2、更新节点特征;
在得到归一化注意力系数aij后,每个节点特征被更新为相邻节点的节点特征与归一化注意力系数的线性组合,如公式(7)所示
步骤3.2.3、引入门控增强算法;
xi out=zixi′+(1-zi)xi″ (8)
zi=σ(U(xi′||xi″)+b) (9)
组合所有节点的图注意力层的输出组成新的节点特征集其中U∈R2F×1是可学习的向量,b是可学习的标量值,σ表示sigmoid激活函数,(·||·)是两个向量的串联,zi表示有多少关于输入节点特征的信息将直接传递到下一层。
本发明通过上述方法,使模型专注于分子间相互作用而不是仅仅记住配体分子的某些模式来学习准确预测蛋白质-配体相互作用的关键因素。本发明的神经网络的输入是节点特征xin、邻接矩阵A1和A2,经过上述步骤处理,图注意力层产生新的节点特征xout1和xout2,xout1=GAT(xin,A1),xout2=GAT(xin,A2),其中GAT代表门控增强的图注意力层,需要注意的是,在计算xout1和xout2时,共享一个门增强图注意力层。
输出节点特征xout,是通过从xout2中减去xout1得到的,如公式(10)所示,
xout=xout2-xout1 (10)
然后,通过两个节点特征的相减,让本发明的模型学习结合姿势下的结构和分离后的结构之间的差异。在通过多个图注意力层更新节点特征向量后,配体原子的特征向量被汇总成一个表示蛋白质-配体复合物图的向量,如公式(11)所示:
最后,多层感知器被应用于xgraph,对蛋白质-配体复合物或结合姿势是否活跃进行分类,各层之间使用Leaky ReLU激活函数,最后一层之后使用sigmoid函数。
步骤3.3、将步骤3.2得到的特征进行组合得到聚合特征后,输入图池化层学习的成对原子非键相互作用以生成复合物的分子间相互作用。
在经典的分子力场中,从成对原子相互作用到总非键相互作用的映射是一个总和,这个映射是由神经网络实现的,其中具体的函数形式是由模型自动学习的,如公式(12)所示。
其中,图池化层仅应用于Bnew,可以将其视为学习的成对原子非键相互作用以生成复合物的分子间相互作用;Bij new表示图Gpl的边;为随机参数;tanh为非线性激活;Epl是图Gpl中的边集;D″是MLP的输出维度;MAXPOOL是所有边缘特征值的元素最大值;G*是图池化层的输出。
步骤3.4、使用批量归一化层增强的全连接层用作最终蛋白质-配体相互作用预测的任务网络,生成预测结果。
本发明可实现多种预测任务,如虚拟筛选和姿态预测等,预测时的损失计算如下:
(1)训练目标是最小化损失函数。给定具有Nsample个样本的数据集,某个样本的预测值和真实值分别为和yi。结合亲和力预测任务(回归任务)的损失函数(MSE loss)由以下定义,如公式(13)所示:
(2)基于结构的虚拟筛选和姿态预测任务(分类任务)的(Focal loss)由以下定义,如公式(14)所示:
Focal loss是基于交叉熵函数的改进函数,用于处理类不平衡问题,它可以降低易分类样本的损失贡献,迫使模型在训练中专注于难分类的样本。其中,α是平衡活性物和诱饵的重要性的加权因子,它被设定为(诱饵的数量)/(所有复合体的数量)。γ是调整易分类样本降权率的聚合参数,在实验中设置为2.0。
下面介绍本发明的模型的训练、性能验证和评估。
1.准备数据集。
(1)对于结合亲和力预测任务(回归任务),将PDBBind V2016的整个核心集作为外部测试集,随机选择通用集的20%作为验证集,剩余的作为训练集.为了进一步测试模型的稳健性,还使用了另一个数据集(PDBBind V2013核心集)作为外部测试集。由于PDBbindV2013核心集中的一些复合体也包含在PDBBind V2020的通用集中,直接从原来的PDBbindV2013核心集中去除了这些复合体,结果这个外部测试集中只包含了95个复合体。
(2)对于基于结构的虚拟筛选任务(分类任务),训练两种模型(target-free和target-specific虚拟筛选模型)。在target-free虚拟筛选模型的训练中,将整个DUD-E数据集以4:1的比例以分层抽样的方式随机分为训练集和验证集。鉴于DUD-E数据集存在潜在的隐藏偏差,本发明没有使用DUD-E数据集的任何测试复合体,因为统计数据可能显示出不同程度的过度乐观。相反,整个DEKOIS2.0数据集具有不同的来源和目标,作为独立的测试集。在target-specific虚拟筛选模型的训练中,从Decoys/Actives物质的比率均高于1000的三个代表性靶点(FEN1:结构特异性核酸酶、KAT2A:乙酰基转移酶和PKM2:M2-型丙酮酸激酶)中提取LIT-PCBA数据集以更好地模拟真实虚拟筛选场景。对于每个靶点,直接从原始数据集中采用相应的测试集,其余数据集以4:1的比例分层抽样划分为相应的训练集和验证集。
(3)对于构象预测任务,结合亲和力预测任务的训练、验证和测试集的结合构象被用作训练、验证和测试构象。为了进一步验证模型的泛化能力,在DUD-E数据集上训练的模型也在LIT-PCBA数据集中的三个挑战性目标上进行了测试。
主要的评价指标为均方根误差(RMSE)和皮尔逊相关系数(Pearson R)用来评价回归模型的质量(结合亲和力预测任务)。在更多样化的评价中,还提供了决定系数(R2)和平均绝对误差(MAE),这些指标的计算方法如下所示:
对于基于结构的虚拟筛选任务,报告了五个广泛使用的指标,包括AUC_ROC、AUC_PRC、LogAUC、BEDROC以及不同阈值(0.1、0.5、1和5%)的EFs。针对对接构象预测任务,考虑了三个主要指标:AUC_ROC、AUC_PRC和Top-1成功率。
2.将准备好的数据集,通过提前规划好的实施、训练、评估方法,对本发明的模型进行训练、验证、评估。
(1)使用PDBBind数据集的结合亲和力预测评估是评估蛋白质-配体相互作用预测模型性能的完善基准。本发明的模型使用来自PDBBind V2020的8298个复合体进行训练,并通过剩余的2067个复合体进行验证。
(2)本发明使用两个独立的外部测试集(PDBBind V2016和V2013的核心集)来检查模型的泛化能力。
(3)对模型在大规模的虚拟筛选中进行评估,本发明使用DUD-E、DEKOIS2.0和LIT-PCBA数据集系统地评估模型的虚拟筛选能力。
在第一个评估阶段,用DUD-E数据集训练和验证了一个target-free模型,然后用DEKOIS2.0数据集进行测试。与以往许多研究的做法不同,本发明没有使用DUD-E数据集作为外部测试集,因为该数据集存在潜在的隐藏偏见。
在第二个评估阶段,本发明从LIT-PCBA数据集中选择了三个更具挑战性和代表性的目标,诱饵与活性的比率高于1000,以更好地模拟真实的虚拟筛选场景。在这个阶段训练的模型是针对目标的,它们由原始论文提供的相应测试集进行外部测试。
在第三个评估阶段,在DUD-E数据集上训练的模型也在LIT-PCBA数据集中的三个挑战性目标上进行了测试,以更深入地验证模型的泛化能力。
下面以举例方式介绍本发明的应用:
使用PDBBind数据集的结合亲和力预测评估是评估蛋白质-配体相互作用预测模型性能的完美基准。本发明使用来自PDBBind V2020的8298个复合体来训练模型,并通过剩余的2067个复合体进行验证。使用两个独立的外部测试集(来自PDBBind V2016和V2013的核心集)来检查模型的泛化能力。由验证误差最小标准确定的模型的统计数据如表1所示。
表1.给出的不同数据集来验证模型结合亲和力预测的损失最小性能指标
可以观察到模型达到了较好的指标,Rp>0.750,分别在验证集和两个外部测试集上的均方根误差(RMSE)为1.294、1.220和1.372。
为了深入探索模型的预测能力,本发明分析了几个代表性的基于机器学习的蛋白质-配体相互作用预测模型,并在表2中列出了PDBBind V2016和2013核心集的相应统计数据。如表2所示,大多数报道的模型是基于CNN算法开发的,一些传统的机器学习方法如随机森林(RF)和梯度增强树(GBT)也受到高度青睐,但对GNN算法关注较少。对于PDBBind V2016的核心集,模型在表2中的表现为Rp=0.837和RMSE=1.220。
表2.PDBbind V2016和V2013核心集在预测蛋白质-配体相互作用方面的性能比较
综上所述,本发明在构建预测模型时,(1)直接结合了蛋白质-配体结合位姿的三维结构信息,没有使用启发式化学规则来处理非共价相互作用;在不增加计算预算的情况下实现分子的近似完整表示,将基于球型消息传递和由薛定谔方程得出来具有物理意义的特征组合起来,作为提取蛋白质-配体结合位姿三维结构信息的一种统一且有效的方案。(2)设计了距离感知图注意力机制,使模型能够区分每个相互作用对结合亲和力的贡献。(3)本发明利用通过从其复合物的图形特征中减去目标蛋白和给定配体的每个特征而获得的图形特征进行蛋白质-配体相互作用预测。这些策略允许模型通过使模型专注于分子间相互作用而不是仅仅记住配体分子的某些模式来学习准确预测蛋白质-配体相互作用的关键因素。(4)本发明通过采用门控跳过连接机制来提高模型的性能。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (8)
1.基于注意力机制的三维蛋白质-配体活性预测方法,其特征在于,包括以下步骤:
步骤1、构建数据集,将蛋白质、配体三维结构信息作为输入,用于预测结合亲和力、构建虚拟筛选模型、模拟虚拟筛选场景;
步骤2、构建分子三维信息提取网络,进行分子表征,提取蛋白质-配体复合物的三维信息;所述三维信息提取网络包括输入模块、消息传递模块、多个交互模块和输出模块,输入模块用于为图形结构的边k构造初始消息;消息传递模块使用球形消息传递方法和多种物理表示,将分子图形结构由三维信息唯一表示,并将原子的相对位置信息合并到球坐标系中;交互模块通过合并所有物理表示来更新初始消息;输出模块聚合所有传入的消息以更新节点的特征;
步骤3、构建基于注意力机制的三维图神经网络模型来对蛋白质-配体相互作用进行预测,包括构象预测与结合亲和力预测;其中所述基于注意力机制的三维图神经网络模型包括图注意力层、连接层、图池化层、全连接层,在预测时,采用以下方法:
步骤3.1、构建两个邻接矩阵,将提取的蛋白质-配体复合物的三维信息嵌入到两个邻接矩阵中,学习蛋白质-配体相互作用对每个原子的节点特征的影响;
步骤3.2、设计距离感知注意力算法,来区分各种类型的分子间相互作用;使用图注意力层学习蛋白质-配体相互作用,使模型专注于分子间相互作用,最终获得图注意力层门控增强更新的节点特征;
步骤3.3、将步骤3.2得到的特征进行组合得到聚合特征后,输入图池化层学习的成对原子非键相互作用以生成复合物的分子间相互作用;
步骤3.4、使用批量归一化层增强的全连接层用作最终蛋白质-配体相互作用预测的任务网络,生成预测结果。
2.根据权利要求1所述的基于注意力机制的三维蛋白质-配体活性预测方法,其特征在于,步骤1中构建的数据集包括四个数据集:PDBbind、DUD-E、DEKOIS2.0和LIT-PCBA,PDBbind数据集用于结合亲和力预测,DUD-E和DEKOIS2.0是多目标数据集,用于构建target-free虚拟筛选模型,LIT-PCBA数据集用于模拟真实的虚拟筛选场景。
4.根据权利要求1所述的基于注意力机制的三维蛋白质-配体活性预测方法,其特征在于,步骤2中分子表征的具体方法如下:
步骤2.1、将原子的相对位置信息作为三维信息提取网络的输入,识别球面坐标系中三维分子的结构;
对于球面坐标系中的任何点,其位置由三元组指定,其中d,θ和分别表示径向距离、极角和方位角;在球面坐标系中建模三维分子图时,任何原子i都可以是局部球坐标系的原点,此时d,θ和分别成为键长、键间角度和扭转角;因此,原子i的每个相邻原子的相对位置可以由相应的元组指定;
步骤2.2、定义一个三维分子图G,表示为4元组G=(u,V,E,P),是分子图G的全局特征向量,其中du是全局特征的维度;V={vi}i=1:n是原子特征,其中每个是原子i的特征向量,n是原子的总数;E={(ek,rk,sk)}k=1:m是边的集合,其中每个是边k的边特征向量,rk是接收者原子,sk是边k的发送者原子,m是边的总数;P={rk}k=1:n是一组三维笛卡尔坐标,其中包含每个原子的三维空间信息;
步骤2.3、在球坐标系中执行球形消息传递,更新消息;
令表示指向原子i的边集,Ni表示原子i的传入节点的索引;消息传递过程后的输出包括更新后的全局特征向量更新后的原子特征V′={v′i}i=1:n和更新后的边集E′={(e′k,rk,sk)}k=1:m,其中v′i表示更新后的原子特征向量,e′k表示更新后的边特征向量,球形消息传递在球坐标系中定义如公式(1)所示:
其中φe,φv和φu分别是边、原子和整个分子图上的三个信息更新函数,表示边k的接收者原子rk的特征向量,表示边k的发送者原子sk的特征向量,表示指向边k的发送者原子sk的边集,rh表示边h的接收原子,表示指向边k的发送者原子sk的传入节点的索引,E′i表示更新后得指向原子i的边集;聚合函数ρe→v和ρv→u聚合不同几何类型之间的信息,特别是在球形消息传递中,P中的三维信息被转换并合并以更新每个消息;因此,球形消息传递使用另一个位置聚合函数ρp→e进行消息更新;
7.根据权利要求6所述的基于注意力机制的三维蛋白质-配体活性预测方法,其特征在于,步骤3.2中设计一种距离感知注意力算法,其中,图注意力层的输入是邻接矩阵A和节点特征集其中x∈RF,Natom是节点的数量,即原子的数量,F是节点的维数特征;图注意力层生成一组新的节点特征集其中x∈RF;
具体方法如下:
步骤3.2.1、计算各节点的注意力系数;
其中E∈RF×F也是一个可学习矩阵,注意力系数eij表示第j个节点特征对第i个节点特征的重要性;通过对和的求和来强迫eij=eji;为了反映图的结构,注意力系数eij只计算j∈Ni,其中Ni是第i个节点的邻居节点,Aij>0;
然后,为了操纵各节点的注意力系数的规模,注意力系数在各邻居间被归一化,将Aij乘以归一化的注意系数,归一化注意力系数aij由公式(6)给出:
步骤3.2.2、更新节点特征;
在得到归一化注意力系数aij后,每个节点特征被更新为相邻节点的节点特征与归一化注意力系数的线性组合,如公式(7)所示
步骤3.2.3、引入门控增强算法;
xi out=zix′i+(1-zi)x″i (8)
zi=σ(U(x′i||x″i)+b) (9)
8.根据权利要求7所述的基于注意力机制的三维蛋白质-配体活性预测方法,其特征在于,步骤3.2中,针对两个邻接矩阵A1和A2,图注意力层产生新的节点特征xout1和xout2,xout1=GAT(xin,A1),xout2=GAT(xin,A2),其中GAT代表门控增强的图注意力层,在计算xout1和xout2时,共享一个门增强图注意力层;
输出节点特征xout,是通过从xout2中减去xout1得到的,如公式(10)所示,
xout=xout2-xout1 (10)
通过多个图注意力层更新节点特征向量后,配体原子的特征向量被汇总成一个表示蛋白质-配体复合物图的向量,如公式(11)所示:
最后,多层感知器被应用于xgraph,对蛋白质-配体复合物或结合姿势是否活跃进行分类,各层之间使用Leaky ReLU激活函数,最后一层之后使用sigmoid函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069779.3A CN115512785A (zh) | 2022-09-01 | 2022-09-01 | 基于注意力机制的三维蛋白质-配体活性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069779.3A CN115512785A (zh) | 2022-09-01 | 2022-09-01 | 基于注意力机制的三维蛋白质-配体活性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115512785A true CN115512785A (zh) | 2022-12-23 |
Family
ID=84502408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211069779.3A Pending CN115512785A (zh) | 2022-09-01 | 2022-09-01 | 基于注意力机制的三维蛋白质-配体活性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512785A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116312864A (zh) * | 2023-01-19 | 2023-06-23 | 之江实验室 | 一种基于过滤曲率的预测蛋白质—配体结合亲和力系统和方法 |
CN116665807A (zh) * | 2023-06-02 | 2023-08-29 | 中国海洋大学 | 基于扩散模型的分子智能生成方法、装置、设备和介质 |
CN117672415A (zh) * | 2023-12-07 | 2024-03-08 | 北京航空航天大学 | 一种基于图神经网络的原子间相互作用势构建方法及系统 |
CN118038977A (zh) * | 2024-04-12 | 2024-05-14 | 山东大学 | 基于几何深度学习的蛋白质结合位点识别方法及系统 |
-
2022
- 2022-09-01 CN CN202211069779.3A patent/CN115512785A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116312864A (zh) * | 2023-01-19 | 2023-06-23 | 之江实验室 | 一种基于过滤曲率的预测蛋白质—配体结合亲和力系统和方法 |
CN116312864B (zh) * | 2023-01-19 | 2023-10-27 | 之江实验室 | 一种基于过滤曲率的预测蛋白质-配体结合亲和力系统和方法 |
CN116665807A (zh) * | 2023-06-02 | 2023-08-29 | 中国海洋大学 | 基于扩散模型的分子智能生成方法、装置、设备和介质 |
CN116665807B (zh) * | 2023-06-02 | 2023-11-03 | 中国海洋大学 | 基于扩散模型的分子智能生成方法、装置、设备和介质 |
CN117672415A (zh) * | 2023-12-07 | 2024-03-08 | 北京航空航天大学 | 一种基于图神经网络的原子间相互作用势构建方法及系统 |
CN118038977A (zh) * | 2024-04-12 | 2024-05-14 | 山东大学 | 基于几何深度学习的蛋白质结合位点识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guan et al. | Quantum machine learning in high energy physics | |
Ciaburro et al. | Neural Networks with R: Smart models using CNN, RNN, deep learning, and artificial intelligence principles | |
Escamilla-Rivera et al. | A deep learning approach to cosmological dark energy models | |
CN115512785A (zh) | 基于注意力机制的三维蛋白质-配体活性预测方法 | |
Akinola et al. | A hybrid binary dwarf mongoose optimization algorithm with simulated annealing for feature selection on high dimensional multi-class datasets | |
Jiang et al. | Convolution neural network model with improved pooling strategy and feature selection for weld defect recognition | |
Shi et al. | Gnn-surrogate: A hierarchical and adaptive graph neural network for parameter space exploration of unstructured-mesh ocean simulations | |
Gupta et al. | Microstructural image based convolutional neural networks for efficient prediction of full-field stress maps in short fiber polymer composites | |
Unruh et al. | Theory+ AI/ML for microscopy and spectroscopy: Challenges and opportunities | |
He et al. | CECAV-DNN: Collective ensemble comparison and visualization using deep neural networks | |
Salamanca et al. | Augmented intelligence for architectural design with conditional autoencoders: Semiramis case study | |
Costa et al. | Demonstrating the evolution of GANs through t-SNE | |
Oinonen et al. | Molecule graph reconstruction from atomic force microscope images with machine learning | |
CN111554346A (zh) | 基于多目标优化的蛋白质序列设计实现方法 | |
Cao et al. | The optimal multi-degree reduction of Ball Bézier curves using an improved squirrel search algorithm | |
Cai et al. | Training deep convolution network with synthetic data for architectural morphological prototype classification | |
Zhang et al. | End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks | |
Dong | Application of Big Data Mining Technology in Blockchain Computing | |
Wang et al. | Evaluating mesh quality with graph neural networks | |
CN115062551B (zh) | 一种基于时序神经网络的湿物理过程参数化方法 | |
Li et al. | Cascaded iterative transformer for jointly predicting facial landmark, occlusion probability and head pose | |
Chen et al. | Egans: Evolutionary generative adversarial network search for zero-shot learning | |
Janssen et al. | A Physics-Informed General Convolutional Network for the Computational Modeling of Materials With Damage | |
Han et al. | Research on data mining and visualization technology | |
Papamarkou et al. | Position: Topological Deep Learning is the New Frontier for Relational Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |