CN116665807B

CN116665807B - 基于扩散模型的分子智能生成方法、装置、设备和介质

Info

Publication number: CN116665807B
Application number: CN202310644522.4A
Authority: CN
Inventors: 卢浩; 魏志强; 刘昊; 张坤
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-11-03
Anticipated expiration: 2043-06-02
Also published as: CN116665807A

Abstract

本发明涉及一种基于扩散模型的分子智能生成方法，属于药物化学与计算机技术领域，所述方法包括以下步骤：1)构建分子设计数据库；2)将所有分子表示为图形；3)基于等变扩散模型进行分子生成；4)对特定蛋白质口袋进行分子生成。本发明方法在借助靶点信息的基础上，生成具有高活性的分子。通过扩散模型对分子以及靶点结构建模，引入靶点结构的位置信息，使分子能够在对接口袋中进行生成，提高了生成的类药分子的活性，减少药物研发前期虚拟筛选中的时间与成本的消耗。

Description

基于扩散模型的分子智能生成方法、装置、设备和介质

技术领域

本发明涉及药物化学与计算机技术领域，具体涉及一种基于扩散模型的分子智能生成方法、装置、设备和介质。

背景技术

在新药研发过程中，分子设计是一个初始步骤，同时也是最重要的步骤之一，合理设计具有高亲和力分子仍是一个长期的挑战。设计类药分子需要考虑与靶点的结合性特征，如果类药分子与靶点的结合性好，那么该分子在后期的湿实验部分就有较大的概率能够发挥作用，进而能够治疗某种疾病。尽管目前存在大量的化合物数据库，可以利用Autodock Vina或者Gromacs等分子筛选软件实现对化合物数据库的初筛，以期摒除那些不适合成为药物的分子，但是，药物筛选往往存在着筛选速度慢，成本高的问题。因此，新药研发需要设计与靶点更好结合的类药分子，进而加速找到对治疗疾病有促进作用的化合物。

近年来，人工智能技术广泛应用于药物研发的各个阶段，逐渐成为新药研发的突破口。人工智能技术能够在较低成本的情况下，对更多的化合物、靶点进行处理，加快医药研发的进程，药物发现、临床前研究的时间可以缩短接近40％。人工智能技术可以用于靶点选择、虚拟筛选产生先导化合物、优化过程中针对药物性能预测，包括活性、选择性、药代及毒性等。目前已经存在借助人工智能的中的生成方法来设计类药分子，但大都采用序列生成方法，而生成过程一般没有排序，序列生成方法的主要前提在实际情况下可能不成立，所生成配体的全局上下文可能会丢失。序列生成方法具有较高的计算复杂性，推理效率亟需提高。同时存在使用强化学习的方式进行类药分子设计，该方法涉及一个生成器和一个判别器，模型往往无法同时满足生成器和判别器的要求，因此模型大多难以训练并且生成的分子没有考虑靶点特征。另外，一些人工智能方法通过将分子表示为原子密度图，并利用变分自动编码器生成与新分子对应的新原子密度图，通过后续的原子拟合过程，把分子表示为具有原子坐标和类型的3D图，但将原子密度图映射回分子常常出现分子有效性低的问题。

发明内容

本发明提供了一种基于等变扩散模型和蛋白质三维结构以生成分子的方法，采用一次性生成策略对所有原子的坐标和类型进行一次性采样，通过等变扩散模型进行基于结构的药物设计，以生成具有成药潜力的新分子。本方法采用等变扩散模型，结合特定的蛋白质靶点来生成分子和结合构象，考虑了原子间的相互作用，将蛋白质和配体点云表示为由等变图神经网络可以进一步处理的全连接图。

本发明是通过以下技术方案实现的：

一种基于扩散模型的分子智能生成方法，所述方法具体包括如下步骤：

步骤1.构建药物分子设计数据库：对药物数据集中的分子按序列同一性进行拆分，去除与非标准氨基酸的结合袋以及含有不相关原子的小分子，保留有效且适度的类药物配体分子，得到高质量蛋白质-配体对；

步骤2.以步骤1获得的蛋白质-配体对作为输入，将所有分子表示为图结构编码以及原子属性的独热编码；使用RDKit软件识别步骤1数据库中的蛋白质-配体对；模拟蛋白质-配体结构中的氨基酸残基，只考虑残基的α-碳原子；蛋白质的原子特征设置为氨基酸类型的一个独热编码，完整的原子模型对配体和蛋白质原子使用相同原子类型的独热编码。

步骤3.通过扩散概率模型识别步骤2中的独热编码以及小分子的图结构编码，并结合特定的蛋白质靶标来生成分子和结合构象；扩散概率模型由前向和后向马尔可夫链组成，经过有限步数的噪声扰动之后，使用等变图神经网络生成与原始数据分布一致的分子；所述扩散概率模型包括前向加噪过程和反向去噪过程，在前向加噪过程中前向马尔可夫链的作用是扰动数据，它根据预先设计的噪声进度向数据逐渐加入高斯噪声，直到数据的分布趋于先验分布，即标准高斯分布；反向去噪过程中反向马尔科夫链从给定的先验分布开始，通过等变图神经网络学习这一过程的反向过程，逐步恢复原数据分布，从高斯噪声中重建分子；通过等变图神经网络处理蛋白质和配体点云，预测原子类型以及分子坐标，进而生成高质量的分子。

进一步，所述步骤3中的前向加噪过程中的数据样本为步骤1所述的蛋白质-配体对；固定噪声生成过程表示如公式1所示，t为步数，t∈[0…1000]，其中x₀为初始的分子特征，将噪声添加到数据中产生t＝0……T的潜在噪声z_t，可控制扩散过程中的信噪比，表示从0到t步噪声的累乘；

进一步，所述步骤3中的反向去噪过程的整体描述如公式2所示，原子三维几何坐标x，原子类型特征h，数据样本记为原子点云z_data＝[x,h]：

进一步，所述步骤3中原子信息包括原子类型特征h和原子几何坐标x，原子i在l层的特征h更新通过公式3和公式4进行：

其中，φ_e、φ_att、φ_h、φ_x为可学习多层感知机，d_ij和a_ij分别为原子i和j之间的相对距离和边特征。

步骤4.使用条件生成方式，根据特定蛋白质口袋进行分子生成。

进一步，所述步骤4在条件生成过程中，反向去噪过程的每个步骤提供固定的三维环境，并使用L表示的配体原子点云，P表示的蛋白质口袋作为补充，且在整个反向去噪过程中保持不变。使用等变图神经网络对噪声预测器进行参数化，在使用单个图神经网络处理配体和口袋节点时，将原子类型和残基类型先通过单独的可学习多层感知机插入到联合节点嵌入空间中，采用公式5更新原子i在l层的坐标x：

本发明还提供一种基于扩散模型的分子智能生成的装置，所述装置运行所述的一种基于扩散模型的分子智能生成方法。

本发明还提供一种计算机设备，所述设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述一种基于扩散模型的分子智能生成方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行所述的一种基于扩散模型的分子智能生成方法。

本发明与现有技术相比的有益效果：本发明基于等变扩散概率模型，用于生成新的分子。该模型通过将配体与蛋白质口袋的结构结合，生成具有所需的性质的成药性分子。本发明在最终生成效果上表现出色，具有非常高的分子有效性和靶点结合率。

(1)本发明基于扩散模型，将马尔可夫链和等变图神经网络结合，相对于以往的生成模型具有更好的效果。通过在正向扩散过程中添加随机噪声来系统地扰动数据中的分布，并采用带有参数的神经网络学习反向扩散过程恢复数据的分布，具有高度灵活且易于计算的特点。

(2)本发明与以往的深度学习模型的不同之处在于，它专注于如何结合特定的蛋白质靶标来生成分子和结合构象，从而提高生成分子的有效性和独特性。通过结合“配体-口袋”三维构象信息，在保证构象等变性的同时，生成具有成药潜力的分子。

附图说明

图1为扩散模型示意图；

图2为部分二维分子图。

具体实施方式

下面通过实施例结合附图来对本发明的技术方案做进一步解释，但本发明的保护范围不受实施例任何形式上的限制。

实施例1：本实施例的主要目标是：通过采用一次性生成策略对所有原子的坐标和类型进行一次性采样后，使用等变扩散模型，结合所提供的特定蛋白质口袋作为固定背景信息生成分子和结合构象，再进一步分析原子间相互作用，由等变图神经网络将蛋白质和配体点云处理后，生成新颖、多样、可与蛋白质口袋结合且具有高结合能的类药物配体。

一种基于扩散模型的类药分子智能生成方法，其具体包括步骤如下：

步骤1.构建药物分子设计数据库：对药物数据集中的分子按序列同一性进行拆分，去除与非标准氨基酸的结合袋以及含有不相关原子的小分子，保留有效且适度的类药物配体分子，得到高质量蛋白质-配体对。

本实施例的数据是由来自(1)CrossDocked数据集和(2)

BindingMOAD蛋白质-配体复合物数据库。

(1)CrossDocked2020数据集：在本实施例中，使用的CrossDocked2020数据集是以生成基于口袋结构与目标蛋白质口袋结合的配体分子，CrossDocked2020是一个利用Pocketome数据库和smina对接程序对PDBbind进行扩增得到的数据集。Pocketome根据其配体结合位点的相似性将PDB中的结构分组，所有识别的受体和配体形成一个“口袋”。在本实施例中，使用MMseqs2按30％的序列同一性进行拆分，得到可用的训练集有100000个高质量的蛋白质-配体对。

(2)BindingMOAD数据集：在本实施例中，使用Binding-MOAD由实验确定的蛋白质配体复合物的数据集，保留了有效且适度的“类药物”以及QED评分为>0.3的配体，并进一步丢弃了包含原子类型不属于{C,N,O,S,B,Br,Cl,P,I,F}的小分子，以及与非标准氨基酸的结合袋(定义为任何配体原子8埃范围内的任何原子的残基集)。得到可用的训练集有40354个高质量的蛋白质-配体对，测试集有130对。

Binding MOAD收集到的由实验确定的结合复合物数据，为合成CrossDocked数据集提供了一个真实的结合场景。

步骤2.以步骤1获得的数据库中的数据作为输入，将所有分子表示为图结构编码以及原子属性的独热编码：使用RDKit软件识别步骤1数据库中的蛋白质-配体对；模拟蛋白质-配体结构中的氨基酸残基，只考虑残基的α-碳原子；蛋白质的节点特征设置为氨基酸类型的一个独热编码，完整的原子模型对配体和蛋白质节点使用相同的原子类型的独热编码；

本实施例在进行结构基药物设计之前需先使用RDKit软件识别步骤1数据库中的蛋白质-配体对，转化为图结构编码形式。通过Cα模型模拟蛋白质-配体对结构中的氨基酸残基，只考虑残基的α-碳原子，而忽略其他原子，有效地减少计算量。蛋白质的节点特征在Cα模型中设置为氨基酸类型的一个独热编码，完整的原子模型对配体和蛋白质节点使用相同的原子类型独热编码。在这一过程中，不再添加用于区分蛋白质和配体原子的分类特征，而是继续使用两个单独的全连接层来嵌入原子特征，并将原子类型特征h按相对于坐标x的0.25倍进行缩放以提高模型性能；该步骤将分子的文本形式的特征转化为独热编码，能够被步骤3中的模型识别；

步骤3.通过扩散概率模型识别步骤2中的独热编码以及小分子的图结构编码并结合特定的蛋白质靶标来生成分子和结合构象；扩散概率模型由前向和后向马尔可夫链组成，经过有限步数的噪声扰动之后，使用等变图神经网络生成与原始数据分布一致的分子；

所述扩散概率模型包括前向加噪过程和反向去噪过程，在前向加噪过程中前向马尔可夫链的作用是扰动数据，它根据预先设计的噪声进度向数据逐渐加入高斯噪声，直到数据的分布趋于先验分布，即标准高斯分布；前向加噪过程中固定噪声生成过程表示如公式1所示，t为步数，t∈[0…1000]，其中x₀为初始的分子特征，将噪声添加到数据中产生t＝0至T的潜在噪声z_t，可控制扩散过程中的信噪比，表示从0到t步噪声的累乘：

反向去噪过程中反向马尔科夫链从给定的先验分布开始，通过等变图神经网络学习这一过程的反向过程，逐步恢复原数据分布，从高斯噪声中重建分子。反向去噪过程的整体描述如公式2所示，原子三维几何坐标x，原子类型特征h，数据样本记为原子点云z_data＝[x,h]。

如附图1所示，此过程先模拟前向加噪过程q，以获得T时间步内逐步噪声样本的轨迹，训练模型p_θ来反转或去噪这个过程。经过训练后，从N_(0,I)的高斯分布中对新的候选药物进行采样，原子特征和坐标在整个过程中都是扩散的。配体(z^(L))在前向加噪过程中表示为全连通图，并在生成结束时将共价键添加到所生成的点云中。蛋白质(z^(P))用图表示，为清晰起见采用曲面表示。模型内还考虑到了平移、旋转、反射和置换等变性。

通过等变图神经网络处理蛋白质和配体点云，预测原子类型以及分子坐标，进而生成高质量的分子：等变图神经网络在中间层中无需进行计算昂贵的高阶表示，且容易扩展到三维空间以上维度的等价性计算。其中，原子信息包括原子类型特征h和原子几何坐标x，原子i在l层的特征h更新通过公式3和公式4进行。

其中φ_e、φ_att、φ_h、φ_x为可学习多层感知机，d_ij和a_ij分别为原子i和j之间的相对距离和边特征。

步骤4使用条件生成方式，根据特定蛋白质口袋进行分子生成：在条件生成过程中，反向去噪过程的每个步骤提供固定的三维环境，并使用L表示的配体原子点云，P表示的蛋白质口袋作为补充，且在整个反向去噪过程中保持不变。使用等变图神经网络对噪声预测器进行参数化，在使用单个图神经网络处理配体和口袋节点时，将原子类型和残基类型先通过单独的可学习多层感知机插入到联合节点嵌入空间中，并采用公式5更新原子i在l层的坐标x：

本实施例使用条件生成方式进行分子生成的结果如附图2所示，以目前基于传统的基于结构设计的药物分子为参考进行评分和相似度比较。

实施例2：本实施例的主要目标是：通过采用一次性生成策略对所有原子的坐标和类型进行一次性采样后，使用等变扩散模型，本实施例不给出固定的背景信息，在对新的配体进行采样过程中逐步注入背景信息生成分子和结合构象，再进一步分析原子间相互作用，由等变图神经网络将蛋白质和配体点云处理后，生成新颖、多样、可与蛋白质口袋结合且具有高结合能的类药物配体。

实施例2与实施例1在步骤1和步骤2具体实施过程上相同，步骤3采用配体修补方式进行分子生成。

步骤3.采用配体修补方式进行分子生成：本实施例先通过训练一个无条件的去噪扩散概率模型来近似配体和口袋节点的联合分布，可以在没有额外上下文的情况下对新的“配体-口袋对”进行采样。通过修改概率转换步骤将上下文注入采样过程对目标蛋白质袋进行条件处理，在扩散步骤t-1中，蛋白质口袋和配体相组合的潜在表示，是从口袋的前向噪声版本组装而成的，该版本是与去噪扩散概率模型根据步骤t的上一个潜在表示预测的配体节点相结合。通过反向遍历马尔可夫链，在每一步中用其前向噪声对应物替换预测的口袋节点，并在给定的蛋白质口袋上对生成过程进行限制。由于噪声过程的方差在t＝0时减少到几乎为零，最终样本保证包含蛋白质口袋未受干扰的表示。通过扩展模型与靶点结构生成的小分子进行100轮测试，分子的有效性以及对接结果如表1所示。此方法生成的部分类药物配体，不仅新颖、多样且可以与蛋白质口袋结合，还具有较高结合能。

表1原始分子与生成分子对比表

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于扩散模型的分子智能生成方法，其特征在于，所述方法具体包括如下步骤：

步骤2.以步骤1获得的蛋白质-配体对作为输入，将所有分子表示为图结构编码以及原子属性的独热编码；使用RDKit软件识别步骤1数据库中的蛋白质-配体对；模拟蛋白质-配体结构中的氨基酸残基，只考虑残基的α-碳原子；蛋白质的原子特征设置为氨基酸类型的一个独热编码，完整的原子模型对配体和蛋白质原子使用相同原子类型的独热编码；

步骤3.通过扩散概率模型识别步骤2中的独热编码以及小分子的图结构编码，并结合特定的蛋白质靶标来生成分子和结合构象；扩散概率模型由前向和后向马尔可夫链组成，经过有限步数的噪声扰动之后，使用等变图神经网络生成与原始数据分布一致的分子；所述扩散概率模型包括前向加噪过程和反向去噪过程，在前向加噪过程中前向马尔可夫链的作用是扰动数据，它根据预先设计的噪声进度向数据逐渐加入高斯噪声，直到数据的分布趋于先验分布，即标准高斯分布；反向去噪过程中反向马尔科夫链从给定的先验分布开始，通过等变图神经网络学习这一过程的反向过程，逐步恢复原数据分布，从高斯噪声中重建分子；通过等变图神经网络处理蛋白质和配体点云，预测原子类型以及分子坐标，进而生成高质量的分子；

2.根据权利要求1所述的一种基于扩散模型的分子智能生成方法，其特征在于，所述步骤3中的前向加噪过程中的数据样本为步骤1所述的蛋白质-配体对；固定噪声生成过程表示如公式1所示，t为步数，t∈[0…1000]，其中x₀为初始的分子特征，将噪声添加到数据中产生t＝0……T的潜在噪声z_t，可控制扩散过程中的信噪比，表示从0到t步噪声的累乘；

3.根据权利要求1所述的一种基于扩散模型的分子智能生成方法，其特征在于所述步骤3中的反向去噪过程的整体描述如公式2所示，原子三维几何坐标x，原子类型特征h，数据样本记为原子点云z_data＝[x,h]：

4.根据权利要求1所述的一种基于扩散模型的分子智能生成方法，其特征在于，所述步骤3中原子信息包括原子类型特征h和原子几何坐标x，原子i在l层的特征h更新通过公式3和公式4进行：

5.根据权利要求1所述的一种基于扩散模型的分子智能生成方法，其特征在于，所述步骤4在条件生成过程中，反向去噪过程的每个步骤提供固定的三维环境，并使用L表示的配体原子点云，P表示的蛋白质口袋作为补充，且在整个反向去噪过程中保持不变；使用等变图神经网络对噪声预测器进行参数化，在使用单个图神经网络处理配体和口袋节点时，将原子类型和残基类型先通过单独的可学习多层感知机插入到联合节点嵌入空间中，采用公式5更新原子i在l层的坐标x：

6.一种基于扩散模型的分子智能生成的装置，其特征在于，所述装置运行权利要求1-5任何一项所述的一种基于扩散模型的分子智能生成方法。

7.一种计算机设备，其特征在于，所述设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-5任何一项所述一种基于扩散模型的分子智能生成方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1-5任何一项所述的一种基于扩散模型的分子智能生成方法。