CN113488116A

CN113488116A - 一种基于强化学习和对接的药物分子智能生成方法

Info

Publication number: CN113488116A
Application number: CN202110780433.3A
Authority: CN
Inventors: 魏志强; 王茜; 刘昊; 李阳阳; 王卓亚
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-08
Anticipated expiration: 2041-07-09
Also published as: JP7387962B2; CN113488116B; WO2023279436A1; JP2023531846A

Abstract

本发明涉及一种基于强化学习和对接的药物分子智能生成方法，属于药物化学与计算机技术领域，所述方法包括以下步骤：1)构建药物设计的虚拟片断组合库；2)计算片段相似性进行分子片段编码；3)基于强化学习的actor‑critic模型生成并优化分子。本发明方法在先导化合物的基础上，缩小了搜索的化学空间。通过强化学习的actor‑critic模型采用transformer建模，引入分子片段的位置信息，保存了片段在分子中的相对或绝对位置信息，实现并列化训练。另外，奖励机制通过建立单层感知机模型，进一步优化了生成分子的活性。

Description

一种基于强化学习和对接的药物分子智能生成方法

技术领域

本发明涉及药物化学与计算机技术领域，具体涉及一种基于强化学习和对接的药物分子智能生成方法。

背景技术

在药物化学专业中，设计和制造安全有效的化合物是关键。就金钱和时间而言，这是一个漫长、复杂和困难的多参数优化过程。有希望的化合物在临床试验中失败的风险很大(>90％)，导致不必要的资源浪费。现在将一种新药推向市场的平均成本远远超过10亿美元，从发现到上市的平均时间为13年。在药物方面，从发现到商业生产的平均时间可能更长，例如高能分子为25年。分子发现的关键第一步是产生一批用于计算研究或合成和表征的候选者。这是一项艰巨的任务，因为可能分子的化学空间是巨大的-潜在的类药物化合物的数量估计在10²³到10⁶⁰之间，而已经合成的所有化合物的数量约为10⁸个数量级。启发式方法，如利平斯基针对药学的“五条规则”，可以帮助缩小可能性的空间，但仍面临着巨大挑战。

随着计算机技术的革命，使用AI进行药物发现逐渐成为一种趋势。传统上，为了实现此目标，已使用各种计算模型的组合，例如定量结构-活性关系(QSAR)，分子替代，分子模拟和分子对接。但传统的方法本质上是组合的，往往会导致大多数分子不稳定性或不可合成性。近年来，许多基于深度学习模型来设计类似药物的化合物的生成模型应运而生，例如基于变分自动编码器的分子生成方法，基于生成对抗性网络分子生成方法。但目前的方法在候选化合物的生成速度、有效性和分子活性方面仍有待提高。

发明内容

本发明提供一种基于强化学习和对接的药物分子智能生成方法，该方法基于Actor-critic强化学习模型和对接模拟，用于生成具有最优性质的药物新分子。其中，Actor网络采用双向Transformer Encoder机制和DenseNet网络建模。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于强化学习和对接的药物分子智能生成方法，其具体包括步骤如下：

步骤1.构建药物设计的虚拟片断组合库；

药物分子虚拟片段组合库通过现有工具包片段化一组分子而构成的，拆分分子时，不将片段分类，所有片段被相同地对待；

步骤2.计算片段相似性进行分子片段编码

利用现有的计算化学相似性的组合方法来测量不同分子片段之间的相似性，通过构建基于相似性的平衡二叉树使所有片段都被编码成二进制字符串，因此，相似的片段获得相似的编码；

步骤3.基于Actor-critic强化学习模型生成并优化分子

(1)基于Actor-critic强化学习模型框架介绍

采用基于Actor-critic强化学习模型来生成并优化分子，通过选择分子的单个片段和该片段表示中的一个bit来进行修改的；然后交换此位中的值，即：如果它是0，则变成1，反之亦然；这允许跟踪应用于分子的改变程度，编码的前导位将保持不变，因此模型只允许在末尾更改位，以迫使模型仅搜索已知化合物附近的分子；

基于Actor-critic强化学习模型起始于片段化的分子状态，即当前状态；Actor提取并检查所有片段，引入不同片段在分子中的位置信息，采用Transformer Encoder机制计算每个分子中不同片段的attention系数，然后通过DenseNet网络输出概率来决定替换哪些片段以及用哪个片段替换；根据新状态满足所有约束的程度，对新状态进行评分，critic随后考察了新状态和当前状态的价值所增加的奖励之间的差异值TD-Error，是给actor的；如果是肯定的，actor的行动将得到加强，如果是否定的，行动将被阻止；然后，当前状态被新状态替换，并且该过程重复给定的次数；

(2)强化学习模型奖励机制的最优化

设计针对分子本身固有属性信息以及分子计算活性信息两种特性优化的分子，强化学习模型的奖励机制部分通过构建感知机模型实现奖励结果预测，感知机模型包括训练与预测两个阶段；训练过程中，数据集包括两部分来源，一是数据集的正样本来自现有文献报道已知有活性的分子，二是数据集的负样本来自同等数量的ZINC库的随机采样，通过将正负样本打乱顺序后依次对接获取的计算活性信息以及现有工具包计算得到的分子固有属性信息作为输入，经过多轮训练使得模型可以学习到活性计算信息及属性信息与是否真正有活性的潜在关联关系；预测过程中，该模型以生成分子的计算活性信息——使用先进且快速的药物对接软件将生成分子与疾病相关的靶点的现有相关PDB文件进行虚拟分子对接得到，以及生成分子的固有属性信息——使用通用软件包计算得到作为输入，预测生成分子是否确实具有真实活性，从而进一步优化了生成分子的活性；强化学习模型中的Actor每产生一个有效的分子就会得到奖励，如果它设法产生符合预测模型预期的分子，就会得到更高的奖励。

进一步，在所述的步骤1在分子拆分时，从一个环原子延伸的所有单键均被破坏，分裂分子时创建片段链列表来记录并存储原始拆分点，便于作为后面分子设计的连接点；如果附接点的总数保持不变，则该方法允许交换具有不同附接点数量的片段；在此过程中使用开源工具包RDKit进行分子裂解；重原子超过12个的碎片将被丢弃，具有4个或更多附着点的碎片也会被丢弃；

进一步，在所述的步骤2中的计算片段间相似性时，在比较“类药物”分子时，具体是使用最大共同子结构Tanimoto-MCS(TMCS)来比较相似性，对于较小的片段，引入改进Levenshtein距离的Damerau-Levenshtein距离，则两个字符串之间的Damerau-Levenshtein距离定义为：

两个分子M1和M2之间的TMCS距离定义为：

则测量两个分子M1和M2之间的相似性，以及相应的smiles表示S1和S2，即Max(TMCS(M₁，M₂)，DL(S₁，S₂)；

进一步，所述的步骤2中的分子片段编码：这些字符串是通过构建基于片段相似性的平衡二叉树来创建的，随后，该树被用来为每个片段生成二进制字符串，从而在延伸中生成表示分子的二进制字符串；附着点的顺序被视为每个片段的标识符；当组装树时，计算所有片段之间的相似度，然后以贪婪的自下而上的方式形成片段对，其中首先将最相似的两个片段配对，然后重复这一过程，将具有最相似片段的两对连接成一棵有四片叶子的新树；计算出的两个子树之间的相似度被测量为这些树的任意两个片段之间的最大相似度；重复连接过程，直到所有片段都连接到单个树中；

当每个片段都存储在二叉树中时，使用它为所有片段生成编码；从根到存储片段的叶子的路径确定每个片段的编码，对于树中的每个分支，如果向左，则在编码中附加一个1(“1”)，如果向右，则会添加一个0(“0”)；因此，编码中最右边的字符对应于最接近片段的分支。

本发明与现有技术相比的有益效果：

本发明基于Actor-critic强化学习模型和对接模拟方法，用于生成新的分子。该模型学习如何修饰和改进分子，使其具有所需的性质。

(1)本发明与以前的强化学习方法的不同之处在于，它专注于如何通过转化先导化合物中的片段来产生结构上与现有化合物接近的新化合物，进而缩小搜索的化学空间。

(2)本发明基于Actor-critic强化学习模型，Actor网络采用双向TransformerEncoder机制和DenseNet网络建模，引入不同片段在分子中的位置信息，采用TransformerEncoder机制计算每个分子中不同片段的attention系数，保存片段在分子中的相对或绝对位置信息，实现并列化训练。

(3)强化学习的奖励机制建立单层感知机模型，该模型输入包含两部分信息，即分子相关属性信息和活性信息，该活性信息是使用对接软件将生成分子与疾病相关靶点进行分子对接得到的，进一步优化了生成分子的活性。

(4)本发明方法在候选生成物规模上，针对特定疾病对应的靶点估计可产生200多万个候选生成分子。

(5)本发明方法通过分子对接部分加入1000多个超高维参数，融合分子活性和相关属性信息，可生成优化的80％以上的高质量AI分子。

(6)本发明方法依托大规模超算平台，分子生成速度显著提高。

附图说明

图1为Mpro相关化合物的虚拟分子片段库；

图2为包含Mpro相关化合物所有片段的二叉树子部分；

图3为Actor-critic强化学习模型框架图；

图4为Actor-critic强化学习模型中actor的详细信息；

图5为Mpro新冠靶点的活性化合物分子生成。

具体实施方式

下面通过实施例结合附图来对本发明的技术方案做进一步解释，但本发明的保护范围不受实施例任何形式上的限制。

实施例1

本实施例的主要目标是：针对新冠Mpro靶点的活性化合物生成，基于一组初始的先导化合物，然后通过替换它们的一些片段来改进和优化这些分子，从而产生具有所需性质的Mpro靶点的新活性化合物。本实施例基于Actor-critic强化学习模型和对接模拟方法，用于生成具有最优性质的药物新分子。下面对本实施例的技术方案开展详细描述。

一种基于Actor-critic强化学习模型和对接的药物分子智能生成方法，其具体包括步骤如下：

步骤1.构建药物设计的虚拟片断组合库。

药物分子虚拟片段组合库通过片段化一组分子而构成的。本实施例的虚拟片段库是由来自药物化学数据库ChEMBL数据库中与Mpro靶点相关的10172个化合物和来自实验室进行分子对接筛选得到的Mpro靶点的175个先导化合物共同构建的，如图1所示。片段化分子的一种常见方法是将它们分为环结构，侧链和连接物等类别。拆分分子时，我们基本上遵循相同的方案，但是我们不将片段分类。因此，所有片段因此被相同地对待。为了使分子断裂，从一个环原子延伸的所有单键均被破坏。分裂分子时创建片段链列表来记录并存储原始拆分点，便于作为后面分子设计的连接点。如果附接点的总数保持不变，则该方法允许交换具有不同附接点数量的片段。在此过程中使用现有化学信息学的开源工具包RDKit进行分子裂解。在这个过程中，重原子超过12个的碎片将被丢弃，具有4个或更多附着点的碎片也会被丢弃。实施这些约束是为了降低复杂性，同时仍然能够生成大量有趣的候选对象。

步骤2.计算片段相似性进行分子片段编码。

步骤2.1计算片段间相似性

在本实施例中，所有片段都被编码为二进制字符串，并且编码的目的是相似的片段应该获得相似的编码。因此必须测量片段之间的相似性。有许多方法可以计算化学相似性。分子指纹是一种直接的二进制编码，其中相似的分子原则上应该给出相似的编码。但是，在比较分子片段及其固有的稀疏表示形式时，我们发现它们对于此目的的用处较小。化学上直观的方法来测量分子之间的相似性是使用最大共同子结构Tanimoto-MCS(TMCS)相似性：

这里，mcs(M1，M2)是分子M1和M2的最大公共子结构中的原子数，atoms(M1)和atoms(M2)分别是分子M1和M2中的原子数。

Tanimoto-MCS相似性的一个优点是它直接比较片段的结构，因此不依赖于其他特定的表示。在比较“类药物”分子时，这种方法通常效果很好。但是，对于较小的片段使用Tanimoto-MCS相似性是有缺点的。因此，本发明中引入衡量两个文本字符串之间相似性的常用方法Levenshtein距离。Levenshtein距离被定义为使两个字符串相同所需的最小插入、删除和替换次数。但考虑置换操作对编辑距离的影响,本实施例最终引入改进Levenshtein距离的Damerau-Levenshtein距离，则两个字符串之间的Damerau-Levenshtein距离定义为：

作为折衷方案，我们选择测量两个分子M1和M2之间的相似性，以及相应的smiles表示S1和S2，即

Max(TMCS(M₁，M₂)，DL(S₁，S₂)

步骤2.2分子片段编码

所有片段都被编码成二进制字符串。这些字符串是通过构建基于片段相似性的平衡二叉树来创建的。随后，该树被用来为每个片段生成二进制字符串，从而在延伸中生成表示分子的二进制字符串。附着点的顺序被视为每个片段的标识符。当组装树时，计算所有片段之间的相似度。然后以贪婪的自下而上的方式形成片段对，其中首先将最相似的两个片段配对。然后重复这一过程，将具有最相似片段的两对连接成一棵有四片叶子的新树。计算出的两个子树之间的相似度被测量为这些树的任意两个片段之间的最大相似度。重复连接过程，直到所有片段都连接到单个树中。

当每个片段都存储在二叉树中时，可以使用它为所有片段生成编码。从根到存储片段的叶子的路径确定每个片段的编码。对于树中的每个分支，如果向左，则在编码中附加一个1(“1”)，如果向右，则会添加一个零(“0”)，如图2所示；因此，编码中最右边的字符对应于最接近片段的分支。

步骤3.基于Actor-critic强化学习模型生成并优化分子。

步骤3.1基于Actor-critic强化学习模型框架介绍

本发明采用基于Actor-critic强化学习模型来生成并优化分子，优化是通过选择分子的单个片段和该片段表示中的一个bit来进行修改的。然后交换此位中的值。即：如果它是0，则变成1，反之亦然。这允许跟踪应用于分子的改变程度，因为在编码的末尾修改位将代表非常相似的片段的改变，而开始处的改变将代表非常不同类型的片段的改变。编码的前导位将保持不变，因此模型只允许在末尾更改位，以迫使模型仅搜索已知化合物附近的分子。如图3所示。

基于Actor-critic强化学习模型起始于片段化的分子状态，即当前状态S。Actor提取并检查所有片段，采用双向Transformer Encoder机制和DenseNet网络来决定替换哪些片段以及用哪个片段替换,即Actor所采取的行动Ai得到新状态Si。根据新状态满足所有约束的程度，对新状态Si进行评分R。critic随后考察了Si和S的价值所增加的奖励之间的差异值Td-error，是给actor的。如果是肯定的，actor的行动Ai将得到加强，如果是否定的，行动将被阻止。然后，当前状态被新状态替换，并且该过程重复给定的次数。其中，损失函数loss＝-log(prob)*td_error

步骤3.2强化学习模型Actor的网络结构

Actor网络采用双向Transformer Encoder机制和DenseNet网络建模，引入不同片段在分子中的位置信息，采用Transformer Encoder机制计算每个分子中不同片段的attention系数，该结构一次读取代表一个分子的编码片段，将前向和后向输出连接起来，并通过将连接的表示通过DenseNet神经网络来计算要改变哪个片段以及改变成什么的概率分布的估计。

因为替换片段的概率取决于分子的前进片段和尾随片段。因此，每个分子被构造成片段序列，将该序列一次性传递给Transformer encoder机制。通过计算每个分子中不同片段的attention系数获取不同片段的重要性。然后，经过前向和后向transformerEncoder输出一个分子的拥有不同片段相关联性的向量化表示；最后，Concatenate的结果经过DenseNet网络做分类，计算要改变哪个片段以及改变成什么的概率分布的估计，如图4所示。

步骤3.3强化学习模型奖励机制的最优化

药物发现中的一项主要挑战是设计针对多种特性优化的分子，这些特性可能不具有很好的相关性。为了表明所提出的方法可以处理这种情况，选择了两类不同的特性，这些特性可以表征分子适合用作药物的可行性。该发明的目的是生成更贴近真实活性分子性质的药物的分子，即在目标的“最佳位置”产生分子。如上所述，所选择的性质包括分子本身固有属性信息(如：MW、clogP和PSA等)以及分子计算活性信息(即分子与特定疾病对应靶点的对接结果信息)。特别值得强调的是，本发明中强化学习模型的奖励机制部分通过构建单层感知机模型实现奖励结果预测。针对该模型包括训练与预测两个阶段。训练过程中，数据集包括两部分来源，一是数据集的正样本来自现有文献报道已知有活性的分子，二是数据集的负样本来自同等数量的ZINC库的随机采样，通过将正负样本打乱顺序后依次对接获取的计算活性信息以及现有工具包计算得到的分子固有属性信息作为输入，经过多轮训练使得模型可以学习到活性计算信息及属性信息与是否真正有活性的潜在关联关系。预测过程中，该模型以生成分子的计算活性信息——使用先进且快速的药物对接软件将生成分子与疾病相关的靶点进行虚拟分子对接得到。该模型使用药物对接软件，比如Ledock,将每一个epoch生成的少于或等于512个分子与Mpro新冠相关的380个不同构象的靶点的现有相关PDB文件进行虚拟分子对接。生成分子的固有属性信息——使用通用软件包RDKit计算得到，将生成分子的计算活性信息和分子本身的固有属性信息共1143个超高维参数作为单层感知机的输入，预测生成分子是否确实具有真实活性，从而进一步优化了生成分子的活性。该强化学习框架中的actor每产生一个有效的分子就会得到奖励，如果它设法产生符合预测模型预期的分子，就会得到更高的奖励。

最终生成的Mpro新冠靶点的活性化合物分子如图5所示。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于强化学习和对接的药物分子智能生成方法，其特征在于所述方法具体包括步骤如下：

步骤1.构建药物设计的虚拟片断组合库；

步骤2.计算片段相似性进行分子片段编码

步骤3.基于Actor-critic强化学习模型生成并优化分子

(1)基于Actor-critic强化学习模型框架介绍

(2)强化学习模型奖励机制的最优化

2.根据权利要求1所述的一种基于强化学习和对接的药物分子智能生成方法，其特征在于所述的步骤1在分子拆分时，从一个环原子延伸的所有单键均被破坏，分裂分子时创建片段链列表来记录并存储原始拆分点，便于作为后面分子设计的连接点；如果附接点的总数保持不变，则该方法允许交换具有不同附接点数量的片段；在此过程中使用开源工具包RDKit进行分子裂解；重原子超过12个的碎片将被丢弃，具有4个或更多附着点的碎片也会被丢弃。

3.根据权利要求1所述的一种基于强化学习和对接的药物分子智能生成方法，其特征在于所述的步骤2中的计算片段间相似性时，在比较“类药物”分子时，具体是使用最大共同子结构Tanimoto-MCS来比较相似性，对于较小的片段，引入改进Levenshtein距离的Damerau-Levenshtein距离，则两个字符串之间的Damerau-Levenshtein距离定义为：

两个分子M1和M2之间的TMCS距离定义为：

则测量两个分子M1和M2之间的相似性，以及相应的smiles表示S1和S2，即Max(TMCS(M₁，M₂)，DL(S₁，S₂)。

4.根据权利要求1所述的一种基于强化学习和对接的药物分子智能生成方法，其特征在于所述的步骤2中的分子片段编码：这些字符串是通过构建基于片段相似性的平衡二叉树来创建的，随后，该树被用来为每个片段生成二进制字符串，从而在延伸中生成表示分子的二进制字符串；附着点的顺序被视为每个片段的标识符；当组装树时，计算所有片段之间的相似度，然后以贪婪的自下而上的方式形成片段对，其中首先将最相似的两个片段配对，然后重复这一过程，将具有最相似片段的两对连接成一棵有四片叶子的新树；计算出的两个子树之间的相似度被测量为这些树的任意两个片段之间的最大相似度；重复连接过程，直到所有片段都连接到单个树中；

当每个片段都存储在二叉树中时，使用它为所有片段生成编码；从根到存储片段的叶子的路径确定每个片段的编码，对于树中的每个分支，如果向左，则在编码中附加一个1，如果向右，则会添加一个0；因此，编码中最右边的字符对应于最接近片段的分支。