CN114913938A

CN114913938A - 一种基于药效团模型的小分子生成方法、设备及介质

Info

Publication number: CN114913938A
Application number: CN202210584466.5A
Authority: CN
Inventors: 李敏; 周韧易; 朱慧敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-16
Anticipated expiration: 2042-05-27
Also published as: CN114913938B; WO2023226351A1; US20250014687A1

Abstract

本发明公开了一种基于药效团模型的小分子生成方法、设备及介质，方法：使用全连接图表示药效团模型；使用基于图神经网络的特征提取模型，从药效团模型的全连接图中提取药效团模型的特征向量；从指定的潜变量分布中随机采样获得潜变量；将潜变量和药效团模型的特征向量输入到预先训练好的解码器中，生成得到与药效团模型匹配的分子；其中训练好的解码器，是通过使用训练样本对变分自编码器训练得到的解码器。本发明能够应用于基于配体的药物设计、基于受体的药物设计、先导化合物优化、为耐药寻找替代物以及用于构建虚拟筛选的分子数据库而替代大规模联合数据库的分子筛选，减少盲目的试验工作，节省药物研发的时间和成本，缓解药物研发的压力。

Description

一种基于药效团模型的小分子生成方法、设备及介质

技术领域

本发明属于药物研发技术领域，具体涉及一种基于药效团模型的小分子生成方法、设备及介质。

背景技术

新药的研发是一项时间周期长、耗资巨大、风险高且成功率低的工程。药物发现历经相关靶点确定、先导化合物的发现、先导化合物性质的优化、候选药物确定四个过程。其中确定有潜在成药活性的先导化合物是药物研发的关键步骤。先导化合物是指具有某种生物活性和化学结构的化合物，将先导化合物进行结构改造和修饰优化其理化性质进一步获得候选药物。因此，先导化合物是现代新药研究的出发点。传统先导化合物的发现主要从化学库筛选、天然分离材料筛选(如植物、细菌和真菌)或计算机模拟过程中，发现第一个对给定生物目标具有活性的化合物。通过药物化学家的经验初步判断该分子的成药潜力，使用实验手段测试分子的结合活性。巨大的化学空间以及实验的成本决定了传统药物研发效率低、成本高、成功率低的劣势。因此，如何快速、准确的获得先导化合物是药物研发的重要步骤。

生成模型作为一种强大的、数据驱动逆向设计方法最近获得了关注。生成模型通过深度学习强大的特征提取能力与拟合能力学习分子空间的分布，再从学习到的分布中采样获得新的分子。通过对分布的适当限制，它们可以获得具有理想特征的候选分子，从而生成符合预期性质的分子。目前已有许多相关的工作，很大一部分生成模型关注于生成分子的物理化学性质如脂溶性、分子量和合成难易程度等，针对分子活性为生成目标的方法很少。这是因为靶标活性分子的可用数据有限，模型难以学习结构和活性的联合概率分布。对于一个新的靶标家族，可用的活性数据的匮乏甚至更加明显。因此，将深度生成模型与生物化学领域的知识相结合，有效地利用稀缺的活性分子数据来设计生物活性分子是一项关键的任务。少量的以活性分子为设计目标的方法如基于片段的药物设计、基于靶标结构的三维分子结构设计方法也受限于结合位点未知或蛋白质结构未知的药物设计场景。

将生物化学家的先验知识与分子生成模型相结合，有利于更有效地设计药物。药效团模型是药物与靶点结合时的结合位点的一组电子特征与空间信息的集合。基于药效团模型的药物设计有很多成功的案例。一个药效团模型包含两个主要部分。第一部分是由原子或基团体现的药效特征元素。它包括氢键供体、氢键受体、芳香环、疏水中心、正电荷中心和负电荷中心。第二部分是每个药效特征元素的空间信息。在药物设计中利用药效团模型有诸多优点：1)药效团模型为目标分子提供了一个强大的人工先验。它可以有效地利用生物化学家的知识生成与药效团模型相匹配的有生物学意义的分子。2)药效团模型是分子活性部位的概括性表述，基于此设计分子有利于生成结构多样的类药分子。目前结合药效团模型相关特征的生成模型只用到药效团模型的部分信息如将部分药效特征元素信息作为限制加到模型。这些方法无法仅依据药效团模型生成分子，它们需要额外信息如活性片段，因此使用场景受限。

发明内容

本发明提供一种基于药效团模型的小分子生成方法、设备及介质，能够综合利用药效团模型包含的信息，为生物分子少的靶点或新的靶点家族生成活性分子。

为实现上述技术目的，本发明采用如下技术方案：

一种基于药效团模型的小分子生成方法，包括：

步骤1，使用全连接图表示药效团模型；

步骤2，使用基于图神经网络的特征提取模型，从药效团模型的全连接图中提取药效团模型的特征向量；

步骤3，从指定的潜变量先验分布中随机采样，获得一个潜变量；

步骤4，将潜变量和药效团模型的特征向量输入到预先训练好的解码器中，生成得到与药效团模型匹配的分子；

所述训练好的解码器，通过使用训练样本对变分自编码器训练得到的解码器；变分自编码器表示为：

P(x|c)＝∫_z～P(x|c)P(x|c，z)P(z|c)dz；

其中，P(x|c)表示变分自编码器，P(z|c，x)和P(x|c，z)分别表示构成变分自编码器的编码器和解码器；x表示分子，其可唯一地编码为药效团模型的特征向量c与潜变量z的组合；潜变量z表示由药效团模型到分子的映射关系，即药效团模型中的化学组分是如何表达并组合成分子。

进一步地，所述变分自编码器包括编码器、解码器、潜变量先验分布和损失函数；训练变分自编码器的训练样本包括药效团模型的特征向量和与药效团模型匹配的分子；在使用训练样本对变分自编码器进行训练时：

将药效团模型的特征向量和与药效团模型匹配的分子，输入编码器，得到分子关于药效团模型的潜变量分布；

从编码器输出潜变量分布中采样得到潜变量，将药效团模型的特征向量和采样的潜变量输入到解码器，迭代循环生成分子；

所述潜变量先验分布，在训练过程中对编码器得到的潜变量分布与给定的先验分布之间的差距进行最小优化；

所述损失函数，在训练过程中量化解码器生成的分子与训练样本中的分子之间的差距。进一步地，所述损失函数包括但不限于两部分，第一部分的表达式为-KL(P_φ(z|x,c)||P_θ(z|c))，其中φ代表解码器参数，θ代表编码器参数，z是潜变量，x是分子，c是药效团模型，KL代表Kullback-Leibler散度；第二部分的表达式为logP_θ(x|z,c)。

进一步地，所述编码器和解码器基于Transformer架构。

进一步地，所述使用全连接图表示药效团模型，具体为：将药效团模型包括的各药效特征元素作为节点，且节点特征包括但不限于药效特征元素的类别和形状，各药效特征元素之间的关联信息作为边，构成药效团模型的全连接图。

进一步地，使用药效特征元素之间最短路径的长度表示药效特征元素之间的关联关系。

进一步地，所述给定的先验分布具体为标准正态分布。

进一步地，训练样本中的分子，以及步骤4生成的分子，采用简化分子线性输入规范对原始的分子进行处理后得到的表示形式。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项技术方案所述的小分子生成方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现小分子生成方法。

有益效果

与现有技术相比，本发明具有如下有益效果：本发明利用药效团模型引导分子的生成，结合化学生物学家们专业知识高效利用数据，解决特定靶标实验数据稀缺时的活性分子生成问题；生成模型利用了自变分编码器框架，提高了生成分子的结构多样性；模型灵活，仅需要训练一次就可以应用于不同场景的药物设计任务。本发明能够应用于基于配体的药物设计、基于受体的药物设计、先导化合物优化、为耐药寻找替代物以及用于构建虚拟筛选的分子数据库而替代大规模联合数据库的分子筛选，减少盲目的试验工作，节省药物研发的时间和成本，缓解药物研发的压力。

附图说明

图1是本申请实施例中的药效团模型编码图；

图2是本申请实施例中分子生成模型的训练示意图；

图3是本申请实施例中的分子结构展示图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

为使本发明的方法、特征和优点和应用能够更加明显易懂，下面结合附图以及实例进一步描述本发明。以下描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请实施例的技术过程，下面对本申请实施例所涉及的一些名词进行解释：

药效团模型是对分子特征的抽象描述，包含特定靶标发生生物反应所必需的空间信息和电子特征，一般分为两种类型。一类是具有相同药理作用的类似物，它们具有某种基本结构，即相同的化学结构部分；另一类是一组化学结构的分子，但它们以相同的机理与同一受体键合，产生同样的药理作用。

生物活性分子，是指具有药理、呈现治疗潜力的分子。

简化分子线性输入规范(Simplified Molecular Input Line EntrySpecification，SMILES)，是一种用ASCII字符串来表示分子的化学结构的规范。

下面对本发明提出的基于药效团模型的小分子生成方法以及应用场景进行介绍。

步骤1，使用全连接图表示给定的药效团模型。

即是将给定的药效图模型按以下规则转换为全连接图：G＝{V,E}。如图1所示，其中V是节点集合，V中的每个节点对应药效团模型中的一个药效特征元素，节点属性是对应药效特征元素的类别和形状；E是边的集合，两两节点间都连接了一条边，每条边的属性是两端节点所示药效特征元素之间的距离。

本实施例中，计算药效特征元素之间的距离，主要考虑药效特征元素中心之间的路径和化学键的类型。一个分子由单个或多个不同的原子组成，原子之间使用化学键连接。本方法使用不同类型的化学键键长表示两原子间距离。化学键的类型(类型影响键长)和数目对药效特征元素之间距离影响较大，因此本实施例使用连接两个药效特征元素的化学键键长之和来衡量药效特征元素之间的距离。在本实施例中，路径是指药效团特征元素之间的连接方式，考虑到两个药效特征元素之间可能有多种连接方式，在这里我们选择连接两个特征元素的最短路径。计算两个药效特征元素之间所经历的所有化学键长度为候选距离，选择其中最短的距离作为两两药效特征元素之间的距离。

步骤2，使用基于图神经网络的特征提取模型，从药效团模型的全连接图中提取药效团模型的特征向量。

本实施例中，使用门控图卷积网络(GatedGraph ConvolutionNetwork，GatedGCN)进行药效团模型特征的提取，从而将边的信息编码到节点特征中去，得到的药效团模型的特征向量即为药效特征元素的特征向量的可重复集合。

步骤3，从指定的潜变量先验分布中随机采样，获得一个潜变量；其中的潜变量将在步骤4中的具体解释中一起介绍。

步骤4，将潜变量和药效团模型的特征向量输入到预先训练好的解码器中，生成得到与药效团模型匹配的分子。

1、用于生成分子的算法模型：

由于药效团模型和分子之间的关系是多对多的，因此本发明引入潜变量z，将分子m唯一地编码为两部分的组合：(c_p,z)。c_p代表了给定的药效团模型，z表示了药效团模型中的化学组分是如何表达并组合成一个分子的，从而建立如下概率模型：

本发明使用变分自编码器来表达这个概率模型，其中P(z|c_p,m)通过训练编码器进行拟合，P(m|c_p,z)通过训练对应的解码器来进行拟合，并且指定潜变量z的先验分布。在一些使用例中，这个先验分布可以是标准正态分布。

所述变分自编码器包括编码器、解码器、潜变量先验分布和损失函数，其中的编码器和解码器使用Transformer架构搭建。其中变分自编码器进行训练时的输入输出关系，如图2所示，为：

所述损失函数，在训练过程中量化解码器生成的分子与训练样本中的分子之间的差距。

2、模型训练样本：

变分自编码器的训练样本包括药效团模型的特征向量和与药效团模型匹配的分子，本实施例中的训练样本构建方法为：

(1)获取活性分子数据。

可选地，本实施例使用ChEMBL24数据集125万个分子来训练模型，根据分子的分子量是否大于150且小于500对数据进行过滤。最终数据集包含13种类型的原子(H、B、C、N、O、F、Si、P、S、Cl、Se、Br和I)和五种类型的化学键(无键、单键、双键、三键或芳烃键)。

本实施例中，使用SMILES来对分子进行表示，将各分子表示为SMILES字符串，并进行分词。

具体地，使用正则表达式\[[^\]]+\]|B[r]？|C[l]？|N|O|P|S|F|I|[bcnops]|@@|@|％\d{2}|.进行分词，每个符合该表达式的连续字符串会被作为一个词，然后得到了一个词汇序列。例如C(C[NH2-])OC(＝O)Cl会被转换为C(C[NH2-])O C(＝O)Cl。之后在词汇序列的开头添加一个标记开始的特殊词汇[SOS]，并在结尾添加一个标记结尾的特殊词汇[EOS]。令每个词汇对应一个可学习得低维的稠密向量，由此可以将一个分子转换为了一个向量序列。由于本例中使用的Transformer架构无法直接识别顺序信息，使分子序列每个位置的向量为原本词汇对应向量和位置向量之和。下文提到向量序列的地方均作添加位置向量处理。

(2)获取药效团模型。

1)获得给定分子其所有的药效特征元素。可选地，我们使用RDKIT2019进行这一步。Basefeatues.ef包含一系列定义的分子子结构及其相应的药效特征元素，本发明使用rdkit中的Basefeatues.ef来获取一个分子的所有药效特征元素。常见的药效特征元素包括：芳香环中心、疏水中心、正电荷中心、氢键受体、氢键供体。负电荷中心和ZnBinder较为罕见，因此本发明将它们设置为未知标签。

2)根据经验，一个药效团模型一般由3-7个药效特征元素组成，因此本实施例从1)获得的所有药效特征元素中随机抽取3-7个药效特征元素作为每个分子的药效团模型；

3)按照上述步骤2相同的方法，使用基于图神经网络的特征提取模型，从药效团模型的全连接图中提取药效团模型的特征向量，实际为药效特征元素的特征向量的可重复集合。

3、训练变分自编码器：

1)得到上述训练样本后，将分子转换得到的向量序列和药效特征元素对应的特征向量的可重复集合，输入到编码器中，计算得到潜变量向量的分布，并从中采样得到潜变量向量。

2)将潜变量向量和药效特征元素特征向量的可重复集合输入到解码器中，得到第一个词的概率分布。

3)将潜变量向量和药效特征元素的特征向量的可重复集合以及前N个输入分子的词汇的特征向量序列输入到解码器中，得到第N+1个词的估计概率分布，取其中概率最大者作为生成的词汇。重复这一过程直到N等于输入分子序列长度。

4)依据步骤3)的词汇概率分布和输入的字符串上每个位置的词，以及步骤1)计算得到的潜变量分布与标准正态分布，计算模型的损失函数并使用梯度下降法更新模型参数。

经过多轮训练后，即可得到一个训练好的变分自编码器，其中的解码器即可以用于步骤4依据药效团模型的特征向量进行活性小分子生成。

4、使用训练好的解码器进行小分子生成：

1)针对具有生物活性分子的蛋白靶标，通过活性分子构象叠合获得药效团模型；针对已知靶标结构，根据靶标三维结构分析蛋白与配体结合位点并构建药效团模型；

2)按上述步骤1将获取的药效团模型并将其转化为图G＝{V,E}；

3)按上述步骤2将基于药效团模型构建的图输入到门控图卷积网络中，将边的信息编码到节点特征中去，得到一个节点特征向量的可重复集合，记为药效团模型的特征向量；

4)从训练得到的潜变量分布中采样得到潜变量；

5)将潜变量向量和药效团模型的特征向量输入到解码器中，得到第一个词的概率分布；

6)将潜变量向量和药效团模型的特征向量以及前N个输入分子的词汇的特征向量序列输入到解码器中，得到第N+1个词的估计概率分布，取其中概率最大者作为生成的词汇。重复这一过程直到N等于输入分子序列长度，得到给定药效团模型生成的分子。

5、生成结果的验证与应用：

1)生成新分子检测，包括：生成分子的新颖性、独特性以及有效性

首先，通过新颖性、独特性以及有效性过滤生成分子数据集。具体地，新颖分子指本发明生成全新的训练集中不存在的分子；独特分子指本发明生成的不重复分子；有效分子指本发明生成分子不违反化学价键规则，生成化学有效的分子。对于满足要求的分子，将移交至下一步检验生成的分子是否匹配药效团模型。

2)检测生成分子是否匹配药效团模型

一个分子可能有许多化学特征，其中的一个子集可以被看作是一个药效团模型。本实施例把一个分子的所有化学特征转换成一个完全连接的图。计算一个给定的分子和一个给定的药效团模型之间的匹配度的问题可以看作是在一个大图中找到一个小图的最佳匹配。由于生成的分子通常含有少量的重原子，本实验检测使用暴力来计算匹配度。计算步骤如下：

a)使用RDKIT提取生成分子中所有的药效特征元素集合T；

b)根据参考药效团模型的药效特征元素类别对输入药效特征元素集合T进行分类得到[t1,t2,…,tn]，其中t1表示第1类药效特征元素集合；

c)每次从分类后的药效特征元素集合[t1,t2,…,tn]的不同类别分别抽取一个药效特征元素，组成一个药效团模型G′。根据步骤2所述计算两两药效特征元素之间的距离D_q，并与对应参考药效特征元素之间的距离D_r作比较。若|D_r-D_q|＜1.2则认为D_q距离满足参考药效团模型对应药效特征元素间的距离。

d)计算G′中所有边与参考药效特征元素之间边的距离，记录满足参考药效特征元素距离的边的数目match_num。

e)对于c)中每一个G′，都有

其中match_all表示G′中所有边的数目。

f)重复c)-e)步骤，输出最大match score为生成分子与参考药效团模型的匹配度。

3)为下阶段实体试验输出候选结果

输出匹配度大于0.8的分子即作为基于给定药效团模型获得的候选分子。本发明实施例的定位是针对具有生物活性分子的蛋白靶标，通过活性分子构象叠合获得药效团模型设计新的活性分子；或者针对已知靶标结构，根据靶标三维结构分析蛋白与配体结合位点。根据结合位点构建的药效团模型生成新的具有生物活性的分子。同时，由于本发明能够根据一个给定的药效团模型生成数千个匹配度大于0.8且分子结构各异的分子，本发明也可以用于构建虚拟筛选配体分子库，以此来提高虚拟筛选效率。本发明旨在提供一种快速设计活性分子的方法，提高先导化合物发现的效率，并不能取代新药研发生化试验、动物试验以及临床试验等，新药研发机构需要完成后续试验，以得到最终的新药分子。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于药效团模型的小分子生成方法，其特征在于，包括：

步骤1，使用全连接图表示药效团模型；

P(x|c)＝∫_z～P(x|c)P(x|c，z)P(z|c)dz；

2.根据权利要求1所述的基于药效团模型的小分子生成方法，其特征在于，所述变分自编码器包括编码器、解码器、潜变量先验分布和损失函数；训练变分自编码器的训练样本包括药效团模型的特征向量和与药效团模型匹配的分子；在使用训练样本对变分自编码器进行训练时：

3.根据权利要求2所述的基于药效团模型的小分子生成方法，其特征在于，所述损失函数包括但不限于两部分，第一部分的表达式为-KL(P_φ(z|x,c)||P_θ(z|c))，其中φ代表解码器参数，θ代表编码器参数，z是潜变量，x是分子，c是药效团模型，KL代表Kullback-Leibler散度；第二部分的表达式为logP_θ(x|z,c)。

4.根据权利要求2所述的基于药效团模型的小分子生成方法，其特征在于，所述编码器和解码器基于Transformer架构。

5.根据权利要求2所述的基于药效团模型的小分子生成方法，其特征在于，所述使用全连接图表示药效团模型，具体为：将药效团模型包括的各药效特征元素作为节点，且节点特征包括但不限于药效特征元素的类别和形状，各药效特征元素之间的关联信息作为边，构成药效团模型的全连接图。

6.根据权利要求5所述的基于药效团模型的小分子生成方法，其特征在于，使用药效特征元素之间最短路径的长度表示药效特征元素之间的关联关系。

7.根据权利要求2所述的基于药效团模型的小分子生成方法，其特征在于，所述给定的先验分布具体为标准正态分布。

8.根据权利要求2所述的基于药效团模型的小分子生成方法，其特征在于，训练样本中的分子，以及步骤4生成的分子，采用简化分子线性输入规范对原始的分子进行处理后得到的表示形式。

9.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～8中任一项所述的方法。