CN115148279A - 蛋白质与配体分子的亲和力预测方法及装置 - Google Patents

蛋白质与配体分子的亲和力预测方法及装置 Download PDF

Info

Publication number
CN115148279A
CN115148279A CN202210734651.8A CN202210734651A CN115148279A CN 115148279 A CN115148279 A CN 115148279A CN 202210734651 A CN202210734651 A CN 202210734651A CN 115148279 A CN115148279 A CN 115148279A
Authority
CN
China
Prior art keywords
protein
dimensional structure
ligand molecule
features
affinity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210734651.8A
Other languages
English (en)
Inventor
任洁
黎浩添
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210734651.8A priority Critical patent/CN115148279A/zh
Publication of CN115148279A publication Critical patent/CN115148279A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开的实施例提供了一种蛋白质与配体分子的亲和力预测方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法基于从蛋白质与配体分子结合的三维结构图中提取的节点特征、边特征和几何特征,通过预先训练的预测模型获得蛋白质与配体分子的亲和力,并获得用于指示蛋白质与配体分子的原子之间相互作用的相互作用图,在提升亲和力预测性能的基础上,能够判断所预测的蛋白质与配体分子的原子相互作用是否正确,使得预测结果具有可解释性。其中,该预测模型是通过对亲和力预测和相互作用图预测的误差校正获得的,因此通过本公开的实施例的方法能够在误差校正的基础上学习到更准确的亲和力预测和相互作用图预测。

Description

蛋白质与配体分子的亲和力预测方法及装置
技术领域
本公开涉及人工智能领域,更具体地,涉及一种蛋白质与配体分子的亲和力预测方法、装置、设备和存储介质。
背景技术
蛋白质与小分子化合物之间的相互作用是进行药物设计与研发的基础。在分子水平上深入研究蛋白质与药物分子的结合机理,有助于快速筛选出有效的药物候选分子,大大缩短新药开发流程,降低新药失败风险。因此,研究蛋白质与小分子的相互作用研究非常必要。通过挖掘蛋白质分子结构与小分子亲和力之间的关系,对蛋白质与小分子的亲和力进行预测,可以实现快速批量筛选有效的药物候选分子,从而加快药物研发的进程,降低药物研发的成本。
现有的预测蛋白质与小分子亲和力的技术包括利用三维(3D)卷积神经网络(CNN)模型,将蛋白质与小分子的3D结构切分成三维矩形网格,将各网格编码的各种化学信息块用作3D-CNN的输入。此外,为了进一步提高基于深度学习的方法预测蛋白质与小分子的相互作用的准确性和泛化能力,还出现了基于加入三维结构信息的分子图的算法(即图神经网络(Graph Neural Network,GNN)算法)来实现蛋白质与小分子亲和力预测。然而这些技术存在一些显著的缺点,例如对于在三维结构网格上训练的3D CNN,三维矩形网格点是一些高维稀疏的三维矩阵,导致计算效率较低下,很难抓住关键的相互作用,而现有的GNN模型不具有可解释性,其并不能体现蛋白质与小分子之间关键的相互作用。
因此,需要一种高效且准确的蛋白质与配体小分子的亲和力预测方法。
发明内容
为了解决上述问题,本公开基于蛋白质与配体分子结合的三维结构图,确定蛋白质与配体分子的亲和力并生成相互作用图,实现了高效准确的亲和力预测,并且所生成的相互作用图使得模型具有可解释性。
本公开的实施例提供了一种蛋白质与配体分子的亲和力预测方法、装置、设备和计算机可读存储介质。
本公开的实施例提供了一种蛋白质与配体分子的亲和力预测方法,包括:获取蛋白质与配体分子结合的三维结构图,所述三维结构图以所述蛋白质和所述配体分子的原子为节点;从所述三维结构图中确定所述蛋白质和所述配体分子各自的原子的节点特征,并基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征;以及基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图用于指示所述蛋白质与所述配体分子的原子之间的相互作用;其中,所述预测模型是通过对亲和力预测和相互作用图预测的误差校正而训练得到的。
本公开的实施例提供了一种蛋白质与配体分子的亲和力预测装置,包括:数据获取模块,被配置为获取蛋白质与配体分子结合的三维结构图,所述三维结构图以所述蛋白质和所述配体分子的原子为节点;特征提取模块,被配置为从所述三维结构图中确定所述蛋白质和所述配体分子各自的原子的节点特征,并基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征;以及预测模块,被配置为基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图用于指示所述蛋白质与所述配体分子的原子之间的相互作用;其中,所述预测模型是通过对亲和力预测和相互作用图预测的误差校正而训练得到的。
本公开的实施例提供了一种蛋白质与配体分子的亲和力预测设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的蛋白质与配体分子的亲和力预测方法。
本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的蛋白质与配体分子的亲和力预测方法。
本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的蛋白质与配体分子的亲和力预测方法。
本公开的实施例所提供的方法相比于现有的蛋白质与小分子亲和力预测方法而言,能够在更高效准确地实现蛋白质与小分子亲和力预测的同时,生成能够反映蛋白质与小分子的原子相互作用的相互作用图,使得本公开的实施例所提供的方法的预测结果具有可解释性。
本公开的实施例所提供的方法基于从蛋白质与配体分子结合的三维结构图中提取的节点特征、边特征和几何特征,通过预先训练的预测模型获得蛋白质与配体分子的亲和力,并获得用于指示蛋白质与配体分子的原子之间相互作用的相互作用图,在提升亲和力预测性能的基础上,能够判断所预测的蛋白质与配体分子的原子相互作用是否正确,使得预测结果具有可解释性。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是示出根据本公开的实施例的对从用户终端发起的亲和力预测请求的处理的场景示意图;
图2是示出根据本公开的实施例的蛋白质与配体分子的亲和力预测方法200的流程图;
图3是示出根据本公开的实施例的蛋白质与配体分子的亲和力预测方法的示意性流程框图;
图4是示出根据本公开的实施例的基于蛋白质与配体分子各自的注意力向量确定相互作用图及其与真实相互作用图的误差的示意图;
图5是示出根据本公开的实施例的训练预测模型的流程图;
图6A是示出根据本公开的实施例的蛋白质与配体分子结合中的辅因子分子的作用示意图;
图6B是示出根据本公开的实施例的相互作用图预测结果与蛋白质配体分子实际结合结构的示意图;
图7是示出根据本公开的实施例的蛋白质与配体分子的亲和力预测装置的示意图;
图8示出了根据本公开的实施例的蛋白质与配体分子的亲和力预测设备的示意图;
图9示出了根据本公开的实施例的示例性计算设备的架构的示意图;以及
图10示出了根据本公开的实施例的存储介质的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参考附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
为便于描述本公开,以下介绍与本公开有关的概念。
本公开的蛋白质与配体分子的亲和力预测方法可以是基于人工智能(Artificialintelligence,AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如,对于基于人工智能的蛋白质与配体分子的亲和力预测方法而言,其能够以类似于人类通过肉眼识别蛋白质与配体分子之间的原子相互作用的方式,找到存在相互作用的原子对并确定蛋白质与配置分子的亲和力。人工智能通过研究各种智能机器的设计原理与实现方法,使本公开的蛋白质与配体分子的亲和力预测方法具有快速准确地确定蛋白质和配体分子中的每个原子对于其结合亲和力的贡献并从中确定原子间的相互作用的功能。
本公开的蛋白质与配体分子的亲和力预测方法可以基于深度学习(DeepLearning)。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如,一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,图像识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。其中,可选地,本公开的蛋白质与配体分子的亲和力预测方法可以基于图神经网络。图神经网络是近年来出现的一种利用深度学习直接对图结构数据进行学习的框架,其优异的性能引起了高度的关注和深入的探索。通过在图中的节点和边上制定一定的策略,GNN将图结构数据转化为规范而标准的表示,并输入到多种不同的神经网络中进行训练,在节点分类、边信息传播和图聚类等任务上取得优良的效果。在本公开的方法中,图(graph)是一种非常适合于表征分子的数据结构,节点和边这两种组成结构分别对应分子中的原子和化学键。不同于栅格化方法划定一个规则的立方体范围,图中节点和边的数量都不受限制,不同大小的分子都可以灵活的完整表示。因此,可以采用图神经网络来处理蛋白质与配体分子之间的不规则拓扑关系结构,这需要分子数据在输入网络前被表示为图,因此,在进入图神经网络处理之前,可以将蛋白质与配体分子的三维结构图表示为由节点特征向量、边特征向量和节点间连接关系组成。
可选地,本公开的蛋白质与配体分子的亲和力预测方法可以将注意力机制应用到图神经网络中,以基于自注意力机制确定每个原子的注意力权重,即其对于蛋白质和配体分子结合的亲和力的贡献。注意力机制的本质源于人类视觉机制,属于人类视觉所特有的大脑信号处理机制,即人类的注意力。
此外,还对本公开的蛋白质与配体分子的亲和力预测方法可能涉及的术语进行以下说明。
PLIP(Protein-Ligand Interaction Profiler,蛋白配体非共价相互作用分析器):是一个蛋白质与配体分子的非共价相互作用的分析工具,其可以分析蛋白质与配体分子复合物在原子水平的非共价相互作用,包括氢键、水桥、盐桥、卤键、疏水相互作用、π-堆叠、π-离子相互作用和金属复合物,其检测机制主要是基于原子间的空间位置和几何关系。在本公开的实施例中,以通过PLIP工具获得蛋白质与配体分子之间正确的相互作用关系,以对通过预测模型获得的相互作用图进行监督学习,从而获得更准确的预测。
Docking(分子对接):一种通过物理模拟或计算化学对小分子和靶标蛋白相互结合形成稳定的复合物时该小分子最可能的构象进行预测的方法。
蛋白-配体复合物(Protein-Ligand Complex):配体分子与蛋白质结合的共晶结构或者通过Docking方法从蛋白质和配体分子生成的三维复合物结构。在本公开的实施例中,可以将蛋白-配体复合物构造成以原子为节点的图的形式,作为本公开的蛋白质与配体分子的亲和力预测方法的输入。
Pocket(蛋白质口袋):蛋白质的表面或内部空腔用来结合分子或肽段从而发生生物反应的结构,例如,蛋白质口袋可以包括距离结合小分子5埃
Figure BDA0003713034190000061
内的蛋白氨基酸。
综上所述,本公开的实施例提供的方案涉及人工智能、图神经网络等技术,下面将结合附图对本公开的实施例进行进一步地描述。
图1是示出根据本公开的实施例的对从用户终端发起的亲和力预测请求的处理的场景示意图。
在图1中,用户可以通过其用户终端发起亲和力预测请求,例如通过在其用户终端上的特定接口上传已经结合的蛋白质与配体分子的三维结构图。接着用户终端可以通过网络(或者直接地)向该应用的服务器传输这些三维结构数据以供处理。
可选地,用户终端具体可以包括智能手机、平板电脑、膝上型便携计算机、车载终端、可穿戴设备等等。用户终端还可以是安装浏览器或各种应用(包括系统应用及第三方应用)的客户端。网络可以是基于互联网和/或电信网的物联网(Internet of Things),其可以是有线网也可以是无线网,例如,其可以是局域网(LAN)、城域网(MAN)、广域网(WAN)、蜂窝数据通信网络等能实现信息交换功能的电子网络。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
如图1所示,服务器可以基于接收的数据(例如,蛋白质与配体分子结合的三维结构图数据)实时进行亲和力预测。随后,服务器可将所得到的亲和力预测结果(例如,蛋白质与配体分子的亲和力值或配体分子活性)通过网络返回到用户终端,作为对用户的亲和力预测请求的响应。
实际上,用户的亲和力预测请求通常可以在诸如实际药物研发等任务中有很多应用,例如,亲和力预测任务可以被用于针对特定蛋白质的配体分子筛选,该配体分子筛选可以是基于配体分子与蛋白质之间的相互作用强度(也就是配体分子的活性)而进行的。蛋白质与配体分子间的相互作用经常发生在许多基础生物活动过程中,了解蛋白质与配体的相互作用对于了解许多生物系统和辅助药物开发工作意义重大。例如,在实际药物研发中,在分子库中大量的分子中可能只有一小部分分子对靶标蛋白具有治疗意义,而从众多分子中找到特异结合到靶点的药物有很大的挑战性,高通量的筛选实验技术虽然可以在目标蛋白上测试大量的分子,但这需要会花费很多时间和成本,因此可以通过基于分子结构预测出蛋白质与配体的相互作用强的高活性的分子来提高命中率。
目前,研究者在蛋白质与配体分子结合亲和力的计算领域中积累了非常多有效经验,提出了很多种计算方法,但依然存在一些不足。其中,利用三维卷积神经网络(CNN)模型的用于预测蛋白质与配体分子亲和力的现有技术将蛋白质与配体分子的三维结构切分成三维矩形网格,将各网格编码的各种化学信息块用作三维卷积神经网络模型的输入,以确定蛋白质与配体分子的亲和力值。深度学习方法通过复杂神经网络的端到端学习为亲和力预测方法提供了一种新思路,此类研究目前主要集中在不同分子编码方法结合不同卷积神经网络模型这种方式上,其预测效果高于传统打分函数和机器学习方法,但在预测准确度上还有一定的提升空间。因此,为了进一步提高基于深度学习的方法预测蛋白质与小分子的相互作用的准确性和泛化能力,还出现了基于加入三维结构信息的分子图的算法(即图神经网络(GNN)算法)来实现蛋白质与小分子亲和力预测。然而这些技术存在一些显著的缺点,例如对于在三维结构网格上训练的3D CNN,三维矩形网格点是一些高维稀疏的三维矩阵,这导致计算效率较低下,很难抓住关键的相互作用。并且,现有的GNN模型虽然能够基于单个蛋白质和配体分子确定其中关键的原子,但是不具有可解释性,其并不能体现蛋白质与小分子之间关键的相互作用,例如,对于如图1所示的亲和力预测结果,现有的GNN模型的输出只能反映蛋白质与配体分子的相互作用力强度(或亲和力值),而不能具体反映到蛋白质与配体分子之间的原子级别的相互作用,并且所输出的结果由于可解释性较差,也难以验证其准确性。
本公开基于此,提供了一种蛋白质与配体分子的亲和力预测方法,其基于蛋白质与配体分子结合的三维结构图,确定蛋白质与配体分子的亲和力并生成相互作用图,实现了高效准确的亲和力预测,并且所生成的相互作用图使得模型具有可解释性。
本公开的实施例所提供的方法相比于现有的蛋白质与小分子亲和力预测方法而言,能够在更高效准确地实现蛋白质与小分子亲和力预测的同时,生成能够反映蛋白质与小分子的原子相互作用的相互作用图,使得本公开的实施例所提供的方法的预测结果具有可解释性。
本公开的实施例所提供的方法基于从蛋白质与配体分子结合的三维结构图中提取的节点特征、边特征和几何特征,通过预先训练的预测模型获得蛋白质与配体分子的亲和力,并获得用于指示蛋白质与配体分子的原子之间相互作用的相互作用图,在提升亲和力预测性能的基础上,能够判断所预测的蛋白质与配体分子的原子相互作用是否正确,使得预测结果具有可解释性。其中,该预测模型是通过对亲和力预测和相互作用图预测的误差校正获得的,因此通过本公开的实施例的方法能够在误差校正的基础上学习到更准确的亲和力预测和相互作用图预测。
图2是示出根据本公开的实施例的蛋白质与配体分子的亲和力预测方法200的流程图。图3是示出根据本公开的实施例的蛋白质与配体分子的亲和力预测方法的示意性流程框图。
如图2所示,在步骤201中,可以获取蛋白质与配体分子结合的三维结构图,所述三维结构图以所述蛋白质和所述配体分子的原子为节点。
如上所述,该蛋白质与配体分子结合的三维结构图可以是利用诸如分子对接方法基于蛋白质和配体分子生成的蛋白-配体复合物的三维结构图,其可以是通过对该蛋白-配体复合物构象而得到的原子拓扑图。本公开的蛋白质与配体分子的亲和力预测方法可以以该三维结构图为输入,如图3所示。可选地,在该三维结构图中,可以以蛋白质或配体分子的各个原子作为该结构中的各个节点,而三维结构中的两两原子所组成的原子对(即,节点对)则构成该三维结构图的边的两个顶点。可选地,该蛋白-配体复合物的共晶结构可以是通过针对对接姿势(docking pose)的准确性评估而从多个对接姿势中选择出的合适姿势,并且对该姿势的挑选可以被包括在本公开的蛋白质与配体分子的亲和力预测方法的预测模型优化中。
如图3所示,基于该三维结构图可以确定蛋白质与配体分子结合的多种空间特征,这些空间特征可以通过不同方式获得,并以不同方式用于亲和力预测过程。
在步骤202中,可以从所述三维结构图中确定所述蛋白质和所述配体分子各自的原子的节点特征,并基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征。
可选地,从蛋白质与配体蛋白结合的三维空间结构中提取的特征可以包括节点特征(即原子特征)、边特征和几何特征。其中,节点特征可以是基于各个原子的属性独立确定的,而边特征与几何特征可以是基于原子对(节点对)之间的连接以及这些连接之间的空间关系所确定的。
如图3所示,从三维结构图中所提取的节点特征可以包括该三维结构中各个成分(诸如配体分子和蛋白质分子)所对应的原子的多维特征,例如,包括但不限于原子类型、该原子是否为芳香环原子、该原子是否为手性原子等。从各个成分中提取出的节点特征可以被拼接在一起以形成该三维结构图的一维特征向量,输入用于亲和力预测的预测模型中。
根据本公开的实施例,基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征可以包括:根据所述三维结构图中的每个节点,建立所述三维结构图的距离图,所述距离图指示所述三维结构图中的每个节点对之间的距离;以及基于所述三维结构图及其距离图,确定所述三维结构图的边特征和几何特征,其中,所述边特征可以指示所述三维结构图中的相应节点对之间的共价键特征,所述几何特征可以指示所述三维结构图中的各个节点对所构成的边之间的空间关系。
可选地,该三维结构图的边特征和几何特征可以基于如图3所示的距离图(距离矩阵)确定,该距离图可以针对三维结构中的每个原子对给出相应的原子对距离,从而可以根据该距离图中的部分或全部信息提取该三维结构中的边特征和几何特征。例如,三维结构图的边特征可以包括相应原子对之间的共价键的特征,诸如共价键类型以及共价键是否在环里等,而三维结构图的几何特征可以包括诸如共价键夹角(例如,以每个原子为中心,其与最近的两个原子形成的共价键之间的夹角)、交互夹角(例如,以每个原子为中心(记作B),寻找最近的共价键相连的原子(记作A),再寻找最近的另一相对分子(例如,如果该原子来自小分子化合物,则寻找最近的氨基酸分子)的原子(记作C),以形成夹角∠ ABC)、局部电荷(例如,配体分子的原子对应的局部电荷值)等。
当然,上述三维结构图的节点特征、边特征和几何特征的具体内容在本公开的方法中仅用作示例,本公开对于所提取的具体特征不作限制,其他更多或更少的不同特征同样可以用于本公开的亲和力预测中,以使得亲和力预测结果更准确。
如图3所示,基于从根据三维结构图生成的距离图中提取的边特征可以与经过RBF核(Radial basis function kernel,径向基函数核)转化的几何特征相结合,作为对仅基于节点特征的亲和力预测的辅助特征,输入用于亲和力预测的预测模型中。
在步骤203中,可以基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图可以用于指示所述蛋白质与所述配体分子的原子之间的相互作用。
可选地,可以首先基于蛋白质与配体分子结合的三维结构中各个原子的原子特征来初步确定每个原子与三维结构中的其他原子之间的相似性,然后,可以以上述边特征与几何特征的结合作为辅助,与已确定的原子间相似性联合地确定每个原子对于蛋白质与配体分子结合的亲和力的重要性,也就是每个原子在蛋白质与配体分子之间的原子相互作用中的重要性。
根据本公开的实施例,所述预测模型可以采用自注意力机制。因此,上述每个原子在蛋白质与配体分子之间的原子相互作用中的重要性可以以基于自注意力机制确定的注意力权重来确定,而原子间的相似性可以以该预测模型的输入(即由蛋白质分子与配体分子的结合中的每个原子的原子特征拼接而成的一维特征向量,如图3所示)作为自注意力机制的查询向量、键向量和值向量并辅以三维结构图的边特征和几何特征来确定。
具体地,根据本公开的实施例,步骤203可以包括:基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质与所述配体分子的亲和力、以及所述蛋白质和所述配体分子各自的注意力向量,所述注意力向量中的每个元素指示相应原子对于所述蛋白质与所述配体分子的亲和力的贡献;以及基于所述蛋白质和所述配体分子各自的注意力向量,获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图中的每个元素指示所述蛋白质与所述配体分子的相应原子对之间存在相互作用的可能性。
可选地,在预先训练的预测模型中,可以通过自注意力机制基于三维结构图的节点特征、边特征和几何特征确定三维结构图中的每个原子与其他原子之间的相似性,也就是三维结构图中的每个成分(诸如配体分子和蛋白质分子)中的每个原子的注意力权重,其指示相应原子对于蛋白质与配体分子的结合的贡献,即相应原子与三维结构图中的其他原子之间的相互作用的强度。
因此,对于三维结构图中的每个成分,其所有原子所对应的注意力权重可以构成其注意力向量。根据本公开的实施例,基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质和所述配体分子各自的注意力向量可以包括:将所述蛋白质和所述配体分子各自的原子的节点特征拼接为一维特征向量;以及基于自注意力机制,将所述一维特征向量作为查询向量、键向量和值向量,并结合所述三维结构图的边特征和几何特征,确定所述三维结构图中的每个节点的注意力权重,所述注意力权重可以指示所述节点对于所述蛋白质与所述配体分子的亲和力的贡献;其中,所述蛋白质所述配体分子各自的原子的注意力权重可以构成各自的注意力向量。
如图3所示,三维结构图中的所有原子的节点特征可以拼接为一维特征向量输入预先训练的预测模型中。可选地,该预测模型可以是基于自注意力机制的Transformer模型,该一维特征向量因此可以作为该预测模型的查询向量(query,Q)、键向量(key,K)和值向量(value,V),以学习该一维特征向量内部各个原子特征之间的关系。其中,为了保证特征的多样性,可以应用不同的多个线性变换层来处理Q、K和V。
接下来,可以基于所得到的Q、K和V向量执行注意力权重的确定。可选地,可以基于查询向量Q和键向量K的点乘(dot-product)来确定注意力权重,并对所确定的注意力权重进行归一化(例如,利用诸如softmax归一化函数)。例如,如图3所示,可以将所得到的查询向量Q和键向量K进行矩阵相乘,并对矩阵点乘的结果进行缩放,以避免在矩阵点乘结果的数量级过大时由于归一化函数的输入数量级过大导致其梯度趋向于0(梯度消失),缩放处理可以使经归一化处理的注意力权重的分布更均匀。可选地,在归一化处理得到注意力权重之前,经缩放的矩阵点乘结果可以与三维结构图的边特征和几何特征所构成的辅助特征相结合(例如,将经缩放的矩阵点乘结果与基于三维结构图的边特征和几何特征所确定的辅助特征矩阵相加),以为亲和力预测过程考虑更多可能的影响因素,使得亲和力预测更准确。
因此,如上所述,通过对经缩放的矩阵点乘结果与辅助特征矩阵(基于三维结构图的边特征和几何特征确定)的结合进行归一化,可以确定用于蛋白质与配体分子的亲和力预测的注意力向量,其包括与三维结构图中的每个原子相对应的注意力权重,用于指示相应原子在蛋白质与配体分子结合中与其他原子的相互作用的强度。
可选地,可以基于所确定的三维特征图中每个原子的注意力权重来更新各原子的特征,使得更新后的原子特征对于其与其他原子间的相互作用强度的确定更有利,即对于蛋白质与配体分子结合的亲和力预测更有利。也就是说,在预测模型中,基于所得到的Q、K和V向量执行注意力权重的确定以及基于所确定的注意力权重确定新的一维特征向量这一过程可以被执行多次,以获得更优的注意力权重和亲和力预测结果。
根据本公开的实施例,基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质与所述配体分子的亲和力可以包括:基于所述三维结构图的节点特征、边特征和几何特征,对所述一维特征向量进行多次更新,其中,在每次更新中:以上次更新的一维特征向量作为查询向量、键向量和值向量,并结合所述三维结构图的边特征和几何特征,确定所述三维结构图中的每个节点的注意力权重;基于所述三维结构图中的每个节点的注意力权重和所述值向量,确定经更新的一维特征向量;以及基于经多次更新的一维特征向量,确定所述蛋白质与所述配体分子的亲和力。
可选地,对特征向量的更新次数可以基于实际需求确定(例如如图3所示的6次更新)。其中,在每次特征向量更新中,如上所述,在确定用于蛋白质与配体分子的亲和力预测的注意力向量后,可以利用该注意力向量来更新值向量V(例如,将注意力向量与值向量V进行矩阵相乘),以获得更新后的一维特征向量,该一维特征向量中的每个元素仍然可以与三维结构图中的每个原子是一一对应关系。
因此,经过上述多次更新后,可以确定用于最终的亲和力预测和相互作用图确定的注意力权重和一维特征向量。
可选地,对于最终的亲和力预测,可以将所确定的一维特征向量输入任务层,以输出亲和力预测结果。例如,该任务层可以基于训练得到的权重对该一维特征向量进行线性转化(例如,加权求和),以得到亲和力预测结果(例如,一维的亲和力预测值)。
对于最终的相互作用图确定,根据本公开的实施例,基于所述蛋白质和所述配体分子各自的注意力向量,获得所述蛋白质与所述配体分子的相互作用图可以包括:对于所述蛋白质与所述配体分子的任一原子对,基于所述蛋白质和所述配体分子各自的注意力向量中的相应注意力权重的乘积,确定所述相互作用图中的相应元素,所述相应元素可以对应于所述原子对。
如图3所示,从预测模型输出的注意力权重可以基于三维结构图中的各个成分而被组合为不同注意力向量,例如,属于蛋白质分子的原子所对应的注意力权重组成蛋白质分子的注意力向量,而属于配体分子的原子所对应的注意力权重则组成配体分子的注意力向量。
因此,基于蛋白质分子与配体分子各自的注意力向量,可以确定该蛋白质与配体分子的结合的相互作用图。例如,该相互作用图可以基于蛋白质分子与配体分子各自的注意力向量的乘积确定,其中每个元素为蛋白质分子的注意力向量中的对应元素与配体分子的注意力向量中的对应元素的乘积,如图3所示。
具体地,图4是示出根据本公开的实施例的基于蛋白质与配体分子各自的注意力向量确定相互作用图及其与真实相互作用图的误差的示意图。
如图4所示,分别示出了蛋白质分子与配体分子各自的注意力向量,其中每个矩形格对应于一个原子,因此,该相互作用图中的每个元素可以由对应位置处的蛋白质原子的注意力权重与配体原子的注意力权重的乘积。例如,对于相互作用图中的第二行第二列的元素,其对应于蛋白质分子与配体分子各自的第二个原子(假设预先对蛋白质分子和配体分子中的原子分别进行排序,即输入的一维特征向量中的各成分的原子排序)所构成的原子对,该元素的值为该原子对的注意力权重的乘积,且该元素的值属于[0,1]范围内。
如上所述,本公开的蛋白质与配体分子的亲和力预测方法除了可以输出准确的亲和力预测结果外,还可以输出蛋白质与配体分子的相互作用图,其指示蛋白质与配体分子之间的原子级别的相互作用。
可选地,在蛋白质与配体分子之间的真实相互作用图中,可以对存在非共价相互作用的原子对所对应的元素赋值为1(图4中的真实相互作用图中的阴影元素),否则为0(图4中的真实相互作用图中的其他元素)。因此,真实相互作用图与上述得到的相互作用图之间的误差可以表示为:
-(zjlog(p(zj))+(1-zj)log(1-p(zj))) (1)
其中,zj表示真实相互作用图中的第j个元素的值,而p(zj)表示上述得到的相互作用图中的第j个元素的值,其中,真实相互作用图中的第j个元素与上述得到的相互作用图中的第j个元素对应于蛋白质与配体分子结合的同一原子对(如图4中的加粗虚线框所示)。
因此,如上所述,该相互作用图可以预测蛋白质与配体分子之间是否有相互作用,查看是否找到重要的原子相互作用,并解释亲和力预测结果的正确性(例如,该预测结果是否合理),使得对亲和力预测的模型具有可解释性。此外,在能够获得蛋白质与配体分子之间的真实相互作用图(例如,通过PLIP工具计算得到)的情况下,还可以基于该真实相互作用图与上述得到的相互作用图之间的误差来评估预测结果的正确性,以及对上述预测模型进行误差校正,根据本公开的实施例,所述预测模型可以是通过对亲和力预测和相互作用图预测的误差校正而训练得到的,这将在下面关于预测模型训练的描述中进行具体阐述。
根据本公开的实施例,本公开的蛋白质与配体分子的亲和力预测方法还包括用于训练预测模型的步骤204,其中该步骤204可以包括如图5所示的步骤2041-2045。图5是示出根据本公开的实施例的训练预测模型的流程图。
如图5所示,在步骤2041中,可以获取多个蛋白质与配体分子结合的三维结构图样本。可选地,可以获取不同的蛋白质与配体分子结合所形成的不同三维结构图用于本公开的预测模型的训练,以使本公开的预测模型可以适用于更广泛的应用场景。
在步骤2042中,可以对于所述多个蛋白质与配体分子结合的三维结构图样本中的每个三维结构图样本,确定所述三维结构图样本的节点特征、边特征和几何特征。如上所述,该步骤2042可以采用与参考步骤202所描述的方式来确定这些三维结构图样本的节点特征、边特征和几何特征,作为待训练的预测模型的输入。
在步骤2043中,可以获得所述三维结构图样本所对应的真实亲和力和真实相互作用图,其中,所述真实相互作用图中的每个元素指示所述三维结构图样本中的蛋白质与配体分子的相应原子对之间是否存在相互作用。
如上所述,这些不同三维结构图的真实亲和力和真实相互作用可以是预先确定的,以作为先验信息对预测模型获得的亲和力预测结果和相互作用图进行监督学习。
在步骤2044中,可以基于所述三维结构图样本的节点特征、边特征和几何特征,通过预测模型确定所述三维结构图样本所对应的亲和力和相互作用图,其中,所确定的亲和力和相互作用图中存在所述预测模型的待优化参数。
可以与以上参考方法200的描述类似地基于三维结构图样本的节点特征、边特征和几何特征通过预测模型确定该三维结构图样本所对应的亲和力和相互作用图,此时所确定的亲和力和相互作用图用于与真实亲和力和相互作用图进行比较并基于误差校正来优化预测模型的参数,其中,该参数还可以包括如图3所示的任务层的参数。
在步骤2045中,可以通过优化所述多个蛋白质与配体分子结合的三维结构图样本中的每个三维结构图样本所对应的真实亲和力与所确定的亲和力之间的亲和力预测误差、以及真实相互作用图与所确定的相互作用图之间的相互作用图预测误差,确定所述预测模型的待优化参数,以获得所述预先训练的预测模型。
可选地,所确定的亲和力和相互作用图与真实亲和力和相互作用图之间的误差可以作为预测模型优化的损失目标函数,即,预测模型优化的目标函数可以包括亲和力预测的目标函数与相互作用预测的目标函数的组合。
例如,对于N个三维结构图样本,亲和力预测的目标函数
Figure BDA0003713034190000151
可以表示为:
Figure BDA0003713034190000152
其中,对于第i个三维结构图样本,yi为蛋白质与配体分子的真实亲和力值,f(xi)为亲和力预测值,其中xi表示输入的一维特征向量。
相互作用预测的目标函数LI可以表示为:
Figure BDA0003713034190000153
其中,M表示蛋白质与配体分子之间存在的M个原子对,其中每个原子对的误差如上式(1)所示。
因此,本公开的蛋白质与配体分子的亲和力预测方法中的预测模型的目标函数可以表示为:
L=LA+λLI (4)
其中,λ表示相互作用预测的目标函数LI的权重,可以通过该参数λ来控制相互作用图的预测误差对总体预测误差的影响。
因此,通过基于多个不同的三维结构图样本,针对上述预测误差目标函数训练预测模型,可以学习到各种蛋白质与配体分子的结合的原子相互作用关系,使预测模型在亲和力预测性能提升的基础上,能够看到预测模型学习到的蛋白质与配体分子之间的相互作用是否正确,使得预测模型具有可解释性。此外,在预测模型的训练过程中,利用每个三维结构图样本所对应的真实亲和力与通过预测模型确定的亲和力之间的亲和力预测误差、以及真实相互作用图与通过预测模型确定的相互作用图之间的相互作用图预测误差来进行对亲和力预测和相互作用图预测的误差校正,以调整预测模型的待优化参数,使得本公开的预测模型能够在该误差校正的基础上学习到更准确的亲和力预测和相互作用图预测。
此外,在本公开的实施例中,还可以考虑将在蛋白质与配体分子的相互作用中起到关键作用的辅因子(cofactor)分子(如果存在)加入到亲和力预测模型中。图6A是示出根据本公开的实施例的蛋白质与配体分子结合中的辅因子分子的作用示意图。
如图6A所示,以蛋白质为细胞色素P450(Cytochrome P450)(CYP450)的共晶结构为例,该蛋白质内包含一个辅因子分子(铁卟啉),其通过与近端半胱氨酸残基结合而连接到蛋白质骨架上。从图6A中可以看出,配体分子的六元环与铁卟啉分子的五元环形成Π-Π堆积(stacking)(如图6A右侧的两个虚线框所示),该辅因子分子与蛋白质和配体分子都有较强的相互作用,因此在进行针对该蛋白质与配体分子的亲和力预测中,可以将该辅因子分子加入到预测模型当中,以便学习到蛋白质与配体分子之间的真实相互作用。
因此,根据本公开的实施例,本公开的蛋白质与配体分子的亲和力预测方法还可以包括:在所述蛋白质与所述配体分子结合需要辅因子分子的参与的情况下,所获取的三维结构图还可以包括所述辅因子分子,并且所述三维结构图的节点还可以包括所述辅因子分子的原子;以及从所述三维结构图中确定所述辅因子分子的原子的节点特征,并且基于所述三维结构图中包括所述辅因子分子的原子的每个节点确定所述三维结构图的边特征和几何特征,以基于所述三维结构图的节点特征、边特征和几何特征确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图。
可选地,在蛋白质与配体分子的结合中存在辅因子分子的参与的情况下,所获取的三维结构图还可以包括该辅因子分子,并且该三维结构图的节点还可以包括该辅因子分子的原子。因此,上述一维特征向量除了包括配体分子和蛋白质分子的原子特征之外,还可以包括辅因子分子中的原子的原子特征,并且同样地,三维结构图的边特征和几何特征也可以加入对辅因子分子的考虑,如图3所示。此外,基于加入辅因子分子考虑的三维结构图的节点特征、边特征和几何特征,所得到的注意力向量同样可以包括对应于辅因子分子的原子的注意力权重,由于该辅因子分子可以位于蛋白质分子之上,辅因子分子的注意力权重可以合并到蛋白质分子的注意力向量中,如图3中的右上角处蛋白质分子的注意力向量所示,其中后两个矩形格对应于辅因子分子的原子,在考虑真实相互作用图以及相互作用图预测误差时,同样可以类似地加入对辅因子分子的考虑,本文在此不再赘述。
下面以实际的蛋白质和配体分子的结合结果与相应的相互预测图预测结果的对比作为示例来呈现本公开的蛋白质与配体分子的亲和力预测方法。图6B是示出根据本公开的实施例的相互作用图预测结果与蛋白质配体分子实际结合结构的示意图。
如图6B所示,图6B中的(a)为蛋白质和配体分子的相互作用图预测结果,图6B中的(b)为该蛋白质和配体分子的实际结合结构。在图6B中的(a)中,横坐标对应于蛋白质分子中的各个原子,而纵坐标对应于配体分子中的各个原子,各个方格对应于蛋白质分子中的对应原子与配体分子中的对应原子之间的相互作用强度,其中,颜色越深可以表示相互作用越强,而颜色越浅可以表示相互作用越弱。而在图6B中的(b)中,从该共晶结构可以看到该蛋白质的组氨酸五元杂环中的氮(N)与配体分子的氧原子形成氢键(以虚线示出),并且谷氨酰胺的氢(H)和氧(O)也与配体分子的N与H形成了氢键相互作用,这可以从图6B中的(a)所示的相互作用图中看出,其中组氨酸和谷氨酸两列(如实线框所标示)的相互作用值较高。
因此,上述示例可以示出本公开的蛋白质与配体分子的亲和力预测方法在能够提升蛋白质与配体分子的亲和力预测的准确性的同时,还能够使预测模型具有一定的可解释性,从而使得在例如上述实际药物研发领域中保证药物分子虚拟筛选的质量,发现更优更准确的苗头化合物,从而进行后续先导化合物优化。
此外,在本公开的实施例中,还可以将本公开的亲和力预测方法与其他用于实现同样目的的其他预测模型(诸如Gnina模型以及S-MAN模型)进行比较,以呈现本公开的蛋白质与配体分子的亲和力预测方法的有效性,下面针对PDBbind核心集测试集以及内部测试集(包括Normal数据集和Novel数据集),在下表中示出了这些方法分别这些测试集上的测试预测结果。其中,可以用皮尔森相关系数r来表示预测的准确性,r越大表示亲和力预测结果越准确,则预测模型表现越好。其中,Normal数据集可以包含6776个蛋白质-配体分子对,目标蛋白由常见的蛋白家族(诸如Kinase、GPCR、Protease家族)构成,而Novel数据集可以包含773个蛋白质-配体分子对,其是从最近期的文献中收集所得的数据,包含多个新颖的蛋白家族数据。如图6B所示,本公开的预测方法的预测效果(即基于在各个数据集上的得分所确定的皮尔森相关系数r)显著优于其他预测方法的预测效果。
Figure BDA0003713034190000181
图7是示出根据本公开的实施例的蛋白质与配体分子的亲和力预测装置700的示意图。
根据本公开的实施例,所述蛋白质与配体分子的亲和力预测装置700可以包括数据获取模块701、特征提取模块702和预测模块703。
数据获取模块701可以被配置为获取蛋白质与配体分子结合的三维结构图,所述三维结构图以所述蛋白质和所述配体分子的原子为节点。可选地,数据获取模块701可以执行如上参考步骤201所描述的操作。
例如,该蛋白质与配体分子结合的三维结构图可以是利用诸如分子对接方法基于蛋白质和配体分子生成的蛋白-配体复合物的三维结构图,其可以是通过对该蛋白-配体复合物构象而得到的原子拓扑图。本公开的蛋白质与配体分子的亲和力预测方法可以以该三维结构图为输入。可选地,在该三维结构图中,可以以蛋白质或配体分子的各个原子作为该结构中的各个节点,而三维结构中的两两原子所组成的原子对(即,节点对)则构成该三维结构图的边的两个顶点。
特征提取模块702可以被配置为从所述三维结构图中确定所述蛋白质和所述配体分子各自的原子的节点特征,并基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征。可选地,特征提取模块702可以执行如上参考步骤202所描述的操作。
可选地,从蛋白质与配体蛋白结合的三维空间结构中提取的特征可以包括节点特征(即原子特征)、边特征和几何特征。其中,节点特征可以是基于各个原子的属性独立确定的,而边特征与几何特征可以是基于原子对(节点对)之间的连接以及这些连接之间的空间关系所确定的。从三维结构图中所提取的节点特征可以包括该三维结构中各个成分(诸如配体分子和蛋白质分子)所对应的原子的多维特征,例如,包括但不限于原子类型、该原子是否为芳香环原子、该原子是否为手性原子等。从各个成分中提取出的节点特征可以被拼接在一起以形成该三维结构图的一维特征向量,输入用于亲和力预测的预测模型中。可选地,该三维结构图的边特征和几何特征可以基于从三维结构生成的距离图(距离矩阵)确定,该距离图可以针对三维结构中的每个原子对给出相应的原子对距离,从而可以根据该距离图中的部分或全部信息提取该三维结构中的边特征和几何特征。
预测模块703可以被配置为基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图用于指示所述蛋白质与所述配体分子的原子之间的相互作用;其中,所述预测模型是通过对亲和力预测和相互作用图预测的误差校正而训练得到的。可选地,预测模块703可以执行如上参考步骤203所描述的操作。
例如,可以首先基于蛋白质与配体分子结合的三维结构中各个原子的原子特征来初步确定每个原子与三维结构中的其他原子之间的相似性,然后,可以以上述边特征与几何特征的结合作为辅助,与已确定的原子间相似性联合地确定每个原子对于蛋白质与配体分子结合的亲和力的重要性,也就是每个原子在蛋白质与配体分子之间的原子相互作用中的重要性。可选地,上述每个原子在蛋白质与配体分子之间的原子相互作用中的重要性可以以基于自注意力机制确定的注意力权重来确定,而原子间的相似性可以以该预测模型的输入(即由蛋白质分子与配体分子的结合中的每个原子的原子特征拼接而成的一维特征向量)作为自注意力机制的查询向量、键向量和值向量并辅以三维结构图的边特征和几何特征来确定。
可选地,在预先训练的预测模型中,可以通过自注意力机制基于三维结构图的节点特征、边特征和几何特征确定三维结构图中的每个原子与其他原子之间的相似性,也就是三维结构图中的每个成分(诸如配体分子和蛋白质分子)中的每个原子的注意力权重,其指示相应原子对于蛋白质与配体分子的结合的贡献,即相应原子与三维结构图中的其他原子之间的相互作用的强度。例如,该预测模型可以是基于自注意力机制的Transformer模型,该一维特征向量因此可以作为该预测模型的查询向量(query,Q)、键向量(key,K)和值向量(value,V),以学习该一维特征向量内部各个原子特征之间的关系。其中,为了保证特征的多样性,可以应用不同的多个线性变换层来处理Q、K和V。接下来,可以基于所得到的Q、K和V向量执行注意力权重的确定。可选地,可以基于查询向量Q和键向量K的点乘(dot-product)来确定注意力权重,并对所确定的注意力权重进行归一化(例如,利用诸如softmax归一化函数),从而确定用于蛋白质与配体分子的亲和力预测的注意力向量,其包括与三维结构图中的每个原子相对应的注意力权重,用于指示相应原子在蛋白质与配体分子结合中与其他原子的相互作用的强度。
可选地,可以基于所确定的三维特征图中每个原子的注意力权重来更新各原子的特征,使得更新后的原子特征对于其与其他原子间的相互作用强度的确定更有利,即对于蛋白质与配体分子结合的亲和力预测更有利。也就是说,在预测模型中,基于所得到的Q、K和V向量执行注意力权重的确定以及基于所确定的注意力权重确定新的一维特征向量这一过程可以被执行多次,以获得更优的注意力权重和亲和力预测结果。其中,在每次特征向量更新中,在确定用于蛋白质与配体分子的亲和力预测的注意力向量后,可以利用该注意力向量来更新值向量V(例如,将注意力向量与值向量V进行矩阵相乘),以获得更新后的一维特征向量,该一维特征向量中的每个元素仍然可以与三维结构图中的每个原子是一一对应关系。因此,经过上述多次更新后,可以确定用于最终的亲和力预测和相互作用图确定的注意力权重和一维特征向量。
可选地,对于最终的亲和力预测,可以将所确定的一维特征向量输入任务层,以输出亲和力预测结果。例如,该任务层可以基于训练得到的权重对该一维特征向量进行线性转化(例如,加权求和),以得到亲和力预测结果(例如,一维的亲和力预测值)。而对于最终的相互作用图确定,从预测模型输出的注意力权重可以基于三维结构图中的各个成分而被组合为不同注意力向量,例如,属于蛋白质分子的原子所对应的注意力权重组成蛋白质分子的注意力向量,而属于配体分子的原子所对应的注意力权重则组成配体分子的注意力向量。因此,基于蛋白质分子与配体分子各自的注意力向量,可以确定该蛋白质与配体分子的结合的相互作用图。例如,该相互作用图可以基于蛋白质分子与配体分子各自的注意力向量的乘积确定,其中每个元素为蛋白质分子的注意力向量中的对应元素与配体分子的注意力向量中的对应元素的乘积。
因此,通过输出蛋白质与配体分子的相互作用图,可以预测蛋白质与配体分子之间是否有相互作用,查看是否找到重要的原子相互作用,并解释亲和力预测结果的正确性(例如,该预测结果是否合理),使得对亲和力预测的模型具有可解释性,并且在能够获得蛋白质与配体分子之间的真实相互作用图(例如,通过PLIP工具计算得到)的情况下,还可以基于该真实相互作用图与得到的相互作用图之间的误差来评估预测结果的正确性,以及对上述预测模型进行误差校正,如参考图5所述。
根据本公开的又一方面,还提供了一种蛋白质与配体分子的亲和力预测设备。图8示出了根据本公开的实施例的蛋白质与配体分子的亲和力预测设备2000的示意图。
如图8所示,所述蛋白质与配体分子的亲和力预测设备2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器2010运行时,可以执行如上所述的蛋白质与配体分子的亲和力预测方法。
本公开的实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或ARM架构的。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
例如,根据本公开的实施例的方法或装置也可以借助于图9所示的计算设备3000的架构来实现。如图9所示,计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的蛋白质与配体分子的亲和力预测方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图8所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图9示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。图10示出了根据本公开的存储介质的示意图4000。
如图10所示,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开的实施例的蛋白质与配体分子的亲和力预测方法。本公开的实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DRRAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本公开的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的蛋白质与配体分子的亲和力预测方法。
本公开的实施例提供了一种蛋白质与配体分子的亲和力预测方法、装置、设备和计算机可读存储介质。
本公开的实施例所提供的方法相比于现有的蛋白质与小分子亲和力预测方法而言,能够在更高效准确地实现蛋白质与小分子亲和力预测的同时,生成能够反映蛋白质与小分子的原子相互作用的相互作用图,使得本公开的实施例所提供的方法的预测结果具有可解释性。
本公开的实施例所提供的方法基于从蛋白质与配体分子结合的三维结构图中提取的节点特征、边特征和几何特征,通过预先训练的预测模型获得蛋白质与配体分子的亲和力,并获得用于指示蛋白质与配体分子的原子之间相互作用的相互作用图,在提升亲和力预测性能的基础上,能够判断所预测的蛋白质与配体分子的原子相互作用是否正确,使得预测结果具有可解释性。其中,该预测模型是通过对亲和力预测和相互作用图预测的误差校正获得的,因此通过本公开的实施例的方法能够在误差校正的基础上学习到更准确的亲和力预测和相互作用图预测。
需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
在上面详细描述的本公开的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本公开的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本公开的范围内。

Claims (14)

1.一种蛋白质与配体分子的亲和力预测方法,包括:
获取蛋白质与配体分子结合的三维结构图,所述三维结构图以所述蛋白质和所述配体分子的原子为节点;
从所述三维结构图中确定所述蛋白质和所述配体分子各自的原子的节点特征,并基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征;以及
基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图用于指示所述蛋白质与所述配体分子的原子之间的相互作用。
2.如权利要求1所述的方法,所述方法还包括:
获取多个蛋白质与配体分子结合的三维结构图样本;
对于所述多个蛋白质与配体分子结合的三维结构图样本中的每个三维结构图样本,确定所述三维结构图样本的节点特征、边特征和几何特征;
获得所述三维结构图样本所对应的真实亲和力和真实相互作用图,其中,所述真实相互作用图中的每个元素指示所述三维结构图样本中的蛋白质与配体分子的相应原子对之间是否存在相互作用;
基于所述三维结构图样本的节点特征、边特征和几何特征,通过预测模型确定所述三维结构图样本所对应的亲和力和相互作用图,其中,所确定的亲和力和相互作用图中存在所述预测模型的待优化参数;以及
通过优化所述多个蛋白质与配体分子结合的三维结构图样本中的每个三维结构图样本所对应的真实亲和力与所确定的亲和力之间的亲和力预测误差、以及真实相互作用图与所确定的相互作用图之间的相互作用图预测误差,确定所述预测模型的待优化参数,以获得所述预先训练的预测模型。
3.如权利要求2所述的方法,其中,所述预测模型采用自注意力机制,所述基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图包括:
基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质与所述配体分子的亲和力、以及所述蛋白质和所述配体分子各自的注意力向量,所述注意力向量中的每个元素指示相应原子对于所述蛋白质与所述配体分子的亲和力的贡献;以及
基于所述蛋白质和所述配体分子各自的注意力向量,获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图中的每个元素指示所述蛋白质与所述配体分子的相应原子对之间存在相互作用的可能性。
4.如权利要求3所述的方法,其中,基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质和所述配体分子各自的注意力向量包括:
将所述蛋白质和所述配体分子各自的原子的节点特征拼接为一维特征向量;以及
基于自注意力机制,将所述一维特征向量作为查询向量、键向量和值向量,并结合所述三维结构图的边特征和几何特征,确定所述三维结构图中的每个节点的注意力权重,所述注意力权重指示所述节点对于所述蛋白质与所述配体分子的亲和力的贡献;
其中,所述蛋白质所述配体分子各自的原子的注意力权重构成各自的注意力向量。
5.如权利要求4所述的方法,其中,基于所述蛋白质和所述配体分子各自的注意力向量,获得所述蛋白质与所述配体分子的相互作用图包括:
对于所述蛋白质与所述配体分子的任一原子对,基于所述蛋白质和所述配体分子各自的注意力向量中的相应注意力权重的乘积,确定所述相互作用图中的相应元素,所述相应元素对应于所述原子对。
6.如权利要求4所述的方法,其中,基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质与所述配体分子的亲和力包括:
基于所述三维结构图的节点特征、边特征和几何特征,对所述一维特征向量进行多次更新,其中,在每次更新中:
以上次更新的一维特征向量作为查询向量、键向量和值向量,并结合所述三维结构图的边特征和几何特征,确定所述三维结构图中的每个节点的注意力权重;
基于所述三维结构图中的每个节点的注意力权重和所述值向量,确定经更新的一维特征向量;以及
基于经多次更新的一维特征向量,确定所述蛋白质与所述配体分子的亲和力。
7.如权利要求1所述的方法,其中,基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征包括:
根据所述三维结构图中的每个节点,建立所述三维结构图的距离图,所述距离图指示所述三维结构图中的每个节点对之间的距离;以及
基于所述三维结构图及其距离图,确定所述三维结构图的边特征和几何特征,其中,所述边特征指示所述三维结构图中的相应节点对之间的共价键特征,所述几何特征指示所述三维结构图中的各个节点对所构成的边之间的空间关系。
8.如权利要求1所述的方法,其中,所述方法还包括:
在所述蛋白质与所述配体分子结合需要辅因子分子的参与的情况下,所获取的三维结构图还包括所述辅因子分子,并且所述三维结构图的节点还包括所述辅因子分子的原子;以及
从所述三维结构图中确定所述辅因子分子的原子的节点特征,并且基于所述三维结构图中包括所述辅因子分子的原子的每个节点确定所述三维结构图的边特征和几何特征,以基于所述三维结构图的节点特征、边特征和几何特征确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图。
9.一种蛋白质与配体分子的亲和力预测装置,包括:
数据获取模块,被配置为获取蛋白质与配体分子结合的三维结构图,所述三维结构图以所述蛋白质和所述配体分子的原子为节点;
特征提取模块,被配置为从所述三维结构图中确定所述蛋白质和所述配体分子各自的原子的节点特征,并基于所述三维结构图中的每个节点确定所述三维结构图的边特征和几何特征;以及
预测模块,被配置为基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图用于指示所述蛋白质与所述配体分子的原子之间的相互作用。
10.如权利要求9所述的装置,其中,所述预测模型采用自注意力机制,所述基于所述三维结构图的节点特征、边特征和几何特征,通过预先训练的预测模型,确定所述蛋白质与所述配体分子的亲和力,并获得所述蛋白质与所述配体分子的相互作用图包括:
基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质与所述配体分子的亲和力、以及所述蛋白质和所述配体分子各自的注意力向量,所述注意力向量中的每个元素指示相应原子对于所述蛋白质与所述配体分子的亲和力的贡献;以及
基于所述蛋白质和所述配体分子各自的注意力向量,获得所述蛋白质与所述配体分子的相互作用图,所述相互作用图中的每个元素指示所述蛋白质与所述配体分子的相应原子对之间存在相互作用的可能性。
11.如权利要求10所述的装置,其中,基于所述三维结构图的节点特征、边特征和几何特征,通过自注意力机制确定所述蛋白质和所述配体分子各自的注意力向量包括:
将所述蛋白质和所述配体分子各自的原子的节点特征拼接为一维特征向量;以及
基于自注意力机制,将所述一维特征向量作为查询向量、键向量和值向量,并结合所述三维结构图的边特征和几何特征,确定所述三维结构图中的每个节点的注意力权重,所述注意力权重指示所述节点对于所述蛋白质与所述配体分子的亲和力的贡献;
其中,所述蛋白质所述配体分子各自的原子的注意力权重构成各自的注意力向量。
12.一种蛋白质与配体分子的亲和力预测设备,包括:
一个或多个处理器;以及
一个或多个存储器,其中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-8中任一项所述的方法。
13.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-8中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-8中任一项所述的方法。
CN202210734651.8A 2022-06-24 2022-06-24 蛋白质与配体分子的亲和力预测方法及装置 Pending CN115148279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210734651.8A CN115148279A (zh) 2022-06-24 2022-06-24 蛋白质与配体分子的亲和力预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210734651.8A CN115148279A (zh) 2022-06-24 2022-06-24 蛋白质与配体分子的亲和力预测方法及装置

Publications (1)

Publication Number Publication Date
CN115148279A true CN115148279A (zh) 2022-10-04

Family

ID=83408329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210734651.8A Pending CN115148279A (zh) 2022-06-24 2022-06-24 蛋白质与配体分子的亲和力预测方法及装置

Country Status (1)

Country Link
CN (1) CN115148279A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631787A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631787A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选系统和方法

Similar Documents

Publication Publication Date Title
CN114333986A (zh) 模型训练、药物筛选和亲和力预测的方法与装置
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN114333980B (zh) 模型训练、蛋白质特征提取和功能预测的方法与装置
CN112699941B (zh) 植物病害严重程度图像分类方法、装置、设备和存储介质
CN115295072B (zh) 基于图神经网络的蛋白质相互作用位点预测方法及系统
CN113436686B (zh) 基于人工智能的化合物库构建方法、装置、设备及存储介质
Le et al. Equivariant graph attention networks for molecular property prediction
CN111428854A (zh) 一种结构搜索方法及结构搜索装置
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
CN111627494A (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
Haberal et al. Prediction of protein metal binding sites using deep neural networks
CN115148279A (zh) 蛋白质与配体分子的亲和力预测方法及装置
CN112185477A (zh) 分子特征的提取及三维定量构效关系的计算方法及装置
CN116825236A (zh) 蛋白靶点的药物分子生成方法、装置、设备及介质
CN117437975B (zh) 一种蛋白质结合位点预测方法、装置、终端及存储介质
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
CN118212975A (zh) 一种基于多任务学习的肽、mhc、tcr结合性预测方法和系统
WO2024046144A1 (zh) 一种视频处理方法及其相关设备
KR20200023695A (ko) 연산량을 줄이는 학습 시스템
CN117542405A (zh) 面向糖类结合位点的预测方法、装置、设备和存储介质
CN116959591A (zh) 基于跨模态模型的靶点信息处理方法、装置、设备及介质
CN114420221B (zh) 一种基于知识图谱辅助的多任务药物筛选方法和系统
US20240006017A1 (en) Protein Structure Prediction
KR102650868B1 (ko) 스코어링 함수의 학습 방법 및 이를 이용한 단백질-리간드 도킹 예측 장치
WO2024026680A1 (zh) 蛋白质结构预测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40077121

Country of ref document: HK