CN116759000A

CN116759000A - 一种基于副产物的深度逆合成反应预测方法、装置、介质及设备

Info

Publication number: CN116759000A
Application number: CN202310496431.0A
Authority: CN
Inventors: 张艳敏; 赵杨; 严迎潮; 尧惠凤; 陈亚东; 陆涛; 刘海春
Original assignee: China Pharmaceutical University
Current assignee: China Pharmaceutical University
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-09-15

Abstract

本发明属于逆合成预测技术领域，公开了一种基于副产物的深度逆合成反应预测方法、装置、介质及设备，方法包括如下步骤：首先获取目标产物结构并将其转换为SMILES序列；其次通过副产物预测模型，根据SMILES序列，预测出目标产物反应路线的副产物及其概率，并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列；最后通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型，经转换得到相应的反应物及其概率。本发明能够有效提高有机化合物逆合成反应的预测精度，可对各种来源的化学反应数据提供质量相对较好的合成路线。

Description

一种基于副产物的深度逆合成反应预测方法、装置、介质及设备

技术领域

本发明属于逆合成预测技术领域，具体的说是涉及一种基于副产物的深度逆合成反应预测方法、装置、介质及设备。

背景技术

逆合成预测是有机合成中的一项重要任务。在新药开发过程中，需要设计针对特定生物分子靶点的类药物小分子。高质量的合成途径在小分子的后续研究中发挥着重要作用，可减少药物开发的时间和成本，从而对成功率产生影响。逆合成预测的目标是找到一系列合适的反应物，逐步合成产物。然而，分子在巨大的化学空间中有多种可能的分解方式，即使是最有经验的化学家也很难快速地找到一条有效、高效的可能的化学分解路径。

在单步逆合成预测中，由于反应数据量大且不均匀，使得人工整理反应变换规则非常困难。对于最著名的商业计算机辅助软件包Synthia(前身为Chematica)来说，它包含了大约70,000条反应变换规则，需要超过15年的时间来制定。随着计算机辅助合成路线规划(Computer-Assisted Synthetic Planning，CASP)的提出，越来越多的方法尝试解决这一挑战。在CASP的帮助下，化学家可以设计出复杂的分子，而不必担心它们的合成。对于需要多步合成的分子，蒙特卡罗树搜索(MCTS)等搜索策略可以为化学家寻找合适的中间分子提供合理的建议。搜索策略的不断创新使得单步逆合成预测在CASP中越来越重要。以往的单步逆合成预测大致可分为两种类型:直接预测和两阶段预测。直接预测可以通过直接寻找反应可能适用的模板或将预测视为机器翻译过程，从而直接生成反应物。现有的两阶段预测是首先根据产物预测断键位置以生成合成子，继而结合合成子和产物的信息再进行反应物的预测。然后，就直接预测而言，基于模板的方法虽然包含了更多的化学信息，但也将反应物的预测限制在模板空间内。基于无模板的机器翻译方法显然不受模板的限制，其预测空间将更大，但它缺乏化学可解释性，并且不便于化学家控制预测倾向。

就现有的两阶段模型而言，虽然合成子是具有丰富化学信息的中间产物，它们可以合理地解释模型的预测行为。但也会对第二阶段的预测结果产生较大影响，使得现有两阶段方法的单步逆合成预测在n>10时top-n精度较差。此外，当化合物具有多个潜在反应中心时，大多数现有模型倾向于做出简单的预测，而逃避复杂的预测。

发明内容

为了克服现有技术中的缺点与不足，本发明提供了一种基于副产物的深度逆合成反应预测方法、装置、介质及设备，其中预测方法能够有效地提高逆合成反应的预测精度。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于副产物的深度逆合成预测方法，包括如下步骤：

获取目标产物结构，将目标产物转换为相应的SMILES序列，所述产物分子为有机化合物分子；

通过副产物预测模型，根据目标产物SMILES序列，预测出目标产物反应路线的副产物及其概率，并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列；

通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型，经转换得到相应的反应物及其概率。

本发明的进一步改进在于：所述通过副产物预测模型，根据目标产物SMILES序列，预测出目标产物反应路线的副产物及其概率，并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物总序列，包括：

通过副产物预测模型，预测出目标产物反应路线的副产物及其概率；

通过副产物预测模型，利用图编码器(Graph Encoder)获得目标产物分子的图表示；产物的原子表示由MPN(·)计算所得：

其中N(u)是节点u的邻居，参数表示产物的分子图，分子图被描述为/>原子v为节点，ε为边，x_u表示原子u的特征向量，x_uv表示化学键(u,v)的特征向量。

采用加和法作为readout函数：

其中h_p是产物在嵌入空间中的图表示，c_u为目标产物分子的图表示。

在得到产物的图表示后，利用数据增强方法合成少数类图表示；解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间：

其中为副产物的预测概率。

对进行对数似然，使用对数似然结果进行排序，取排序前10的副产物预测结果用于后续与目标产物进行拼接；将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列。

本发明的进一步改进在于：所述将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物总序列，包括：

若反应路线仅存在一个副产物，则用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列；

若反应路线存在多个副产物，副产物SMILES序列之间用“.”进行连接，再用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列。

本发明的进一步改进在于：所述通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物总序列输入反应物预测模型，经转换得到相应的反应物及其概率，包括：

通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物总序列输入反应物预测模型，经转换得到相应的反应物及其概率；

将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列进行20倍的数据增强，对数据增强后的产物SMILES总序列结果根据最小编辑距离确认其合适的副产物SMILES序列表达形式，再将产物SMILES总序列输入Transformer模型中得到反应物SMILES序列，每个扩增源序列翻译结果中保留了前10个结果，去除化学无效的反应物结果，然后添加第一和第二阶段的对数似然结果来对它们进行排序；在得到排序后，为了更科学地考虑SMILES出现的频率，我们使用以下公式计算每个唯一结果的最终得分：

其中r表示去除化学无效的分子后的顺序；

在对每个唯一分子进行统一评分后，选出前50名作为最终反应物预测结果。

本发明还提供了一种基于副产物的深度逆合成反应预测装置，包括：

结构信息转化模块，用于将目标产物转化为相应的SMILES序列；

副产物预测模块，用于预测目标产物相对应的副产物SMILES序列及其概率，并将目标产物SMILES序列与副产物SMILES序列拼接获取产物SMILES总序列；

反应物预测模块，用于预测目标产物相对应的反应物SMILES序列及其概率，并最终得到目标产物的反应路线。

本发明提供了一种存储介质，其中所述储存介质中存储了计算机程序，当该程序被处理器执行时使所述处理器执行上述基于副产物的深度逆合成反应预测方法。

本发明提供了一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储在存储器中的程序时，实现上述基于副产物的深度逆合成反应预测方法。

本发明的有益效果是：针对目前逆合成预测方法存在的问题，本发明提出了一个更契合逆合成预测的模型，通过首先预测反应路线的副产物，再将目标产物分子与副产物分子的SMILES序列整合为一个整体产物SMILES序列，再利用Transformer模型进行反应物的预测，从而提高了模型预测结果的准确度。

利用本发明提出的模型来进行合理的逆合成预测，有助于化学家设计药物作用新分子的合成路线，可以极大地为化学家设计合成新分子提供便利。

附图说明

图1是本发明基于一种基于副产物的深度逆合成反应预测方法的流程图。

图2是本发明副产物预测模型的训练方法的流程示意图。

图3是本发明反应物预测模型的训练方法的流程示意图。

图4是本发明提供的Orelabrutinib(奥布替尼)的逆合成预测方法的场景示意图。

图5是本发明提供的Palbococlib(哌柏西利)的逆合成预测方法的场景示意图。

图6是本发明提供的Ceritinib(色瑞替尼)的逆合成预测方法的场景示意图。

图7是本发明提供的ATR Receptor Ligand(ATR受体-配体)的逆合成预测方法的场景示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明实施例提出了一种基于副产物的深度逆合成反应预测方法，通过副产物预测模型预测出目标分子的副产物SMILES序列，然后将反应路线中的副产物SMILES序列整合到目标产物分子SMILES序列中，再将产物总SMILES序列输入Transformer模型中，预测出目标产物分子的反应物，提高逆合成预测结果的准确性。

如图1为本发明提供的一种基于副产物的深度逆合成反应预测方法的流程图。本发明至少包括以下步骤：

分子图结构转化为SMILES序列主要使用的是一个Rdkit的化学工具库，它可以将分子图结构转换为SMILES序列，也可以对SMILES序列进行处理。

参见图2，图2为本发明提供的副产物预测模型的训练方法的流程示意图。如图2所示，该副产物预测模型的构建的步骤，包括：

获取训练数据，该训练数据包括训练化合物的基本分子和以这些基本分子为起点的训练化合物的合成路线，具体为：使用逆合成预测常用的基准数据集USPTO-50k，该数据集包含50016个具有高质量原子映射但没有直接副产物的反应；为了使结果更具可比性并避免信息泄露，划分训练集/测试集/验证集为8:1:1；

副产物预测模型由少数类样本采样、编码层训练、合成少数类样本过采样和解码层训练四部分组成；设计批量采样器，控制输入模型的每批训练数据中少数类样本的比例；对训练数据中的每条反应路线进行唯一编号，并获得了少数类样本的编号列表；之后进行随机置乱，少数类样本按照设定的比例优先抽样；这样既保证了训练集采样的随机性，又使每批样本中少数类的样本量更加稳定，有利于少数类样本的合成过采样；利用图编码器(Graph Encoder)获得产物的图表示，产物的原子表示由MPN(·)计算所得：

采用加和法作为readout函数：

其中h_p是产物在嵌入空间中的图表示；

在得到产物的图表示后，利用数据增强方法合成少数类样本图表示；解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间；

其中为副产物的预测概率；

在模型优化阶段，为了更好地适应副产物数据分布的不平衡，我们使用了局部损失的α平衡变体：FL(p_t)＝-α_t(1-p_t)^γlog p_t

其中p是模型对样本所属类别的预测概率，p_t＝p是模型预测样本正确分类的概率，p_t＝(1-p)是模型预测样本错误分类的概率，α是权重因子，γ是控制曲线陡峭度的聚焦参数；

在通过副产物预测模型预测出目标产物反应路线的副产物及其概率的阶段，基于局部损失的模型训练公式如下：

其中p_v是的第v行，即第v个样本的预测概率，且p_v[c]是/>的第c个类别的概率。

其中，所述在得到产物的图表示后，利用数据增强方法合成少数类样本图表示，包括：

经观察副产物分布情况可以发现该数据存在严重分布不平衡，采用GraphSMOTE进行少数合成过采样，基于GNN的特征提取器通过插值产生少量新的样本，并与边缘生成器补充关系信息，形成扩展的平衡图；标签频次较低的90％被划分为少数类样本；对于少数类样本，在嵌入空间中对样本的最近邻域进行插值：

其中Y是节点q,p的标签，nn(p)指的是同一标签下使用欧几里德度量在嵌入空间中计算的p的最近邻居；

通过在最近邻中加入随机扰动，可以通过以下公式合成新的少数节点：

h_p'＝(1-δ)·h_p+δ·h_nn(p)

其中δ是一个随机变量，符合[0,1]范围内的均匀分布。

通过副产物预测模型，根据目标产物SMILES序列，预测出目标产物反应路线的副产物及其概率，包括：

采用加和法作为readout函数：

其中h_p是产物在嵌入空间中的图表示，c_u为目标产物分子的图表示；

解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间：

其中为副产物的预测概率。

其中，若反应路线仅存在一个副产物，则用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列；

图3为本发明提供的反应物预测模型的训练方法的流程示意图。如图3所示，该反应物预测模型的构建的步骤，包括：

利用目标产物分子SMILES序列与副产物分子SMILES序列的拼接方式对其进行拼接；基于最小编辑距离的方法确定副产物SMILES序列；将进行20倍数据增强后的结果输入到Transformer模型中进行训练，Transformer包含两种注意力机制：自注意力和编码器-解码器注意力机制，使其能够自动关注重要信息；遵循R-SMILES的方法使用Vanillatransformer；换句话说，用产物SMILES序列P＝(p₀,p₁,p₂,...,p_n)、副产物SMILES序列SP＝(sp₀,sp₁,sp₂,...sp_n)和部分解码的反应物SMILES序列R＝(r₀,r₁,r₂,...,r_n)输入模型，然后进行训练，预测反应物SMILES序列r_j+1的下一个字符直至结束，输出结果为反应物SMILES序列。

通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型，经转换得到相应的反应物及其概率。包括：

将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列进行20倍的数据增强，对数据增强后的产物SMILES总序列结果根据最小编辑距离确认其合适的副产物SMILES序列表达形式，再将产物SMILES总序列输入Transformer模型中得到反应物SMILES序列，每个扩增源序列翻译结果中保留了前10个结果，去除化学无效的反应物结果，然后添加第一和第二阶段的对数似然结果来对它们进行排序；第一阶段指副产物预测阶段，第二阶段指反应物预测阶段，在得到排序后，为了更科学地考虑SMILES出现的频率，使用以下公式计算每个唯一结果的最终得分：

其中r表示去除化学无效的分子后的顺序；在对每个唯一分子进行统一评分后，选出前50名作为最终反应物预测结果。

为实现上述基于副产物的深度逆合成反应预测方法，本发明实施例还提供一种基于副产物的深度逆合成反应预测装置，包括：

本发明实施例还提供了一种存储介质，其中所述储存介质中存储了计算机程序，当该程序被处理器执行时，能够使处理器执行实施例一所述的基于副产物的深度逆合成反应预测方法。

本发明实施例还提供了一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储在存储器中的程序时，能够实现所述的基于副产物的深度逆合成反应预测方法。

图4、图5、图6、图7为本发明提供的逆合成预测方法的一些实际应用展示，表示该模型可以很好地实现一些药物分子的反应路线分析及反应物的预测。

该方法能够有效提高有机化合物逆合成反应的预测精度，可对各种来源的化学反应数据提供质量相对较好的合成路线。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于副产物的深度逆合成反应预测方法，其特征在于：所述深度逆合成反应预测方法包括如下步骤：

步骤1.获取目标产物结构，将目标产物转换为相应的SMILES序列，产物分子为有机化合物分子；

步骤2.通过副产物预测模型，根据步骤1获取的目标产物SMILES序列，预测出目标产物反应路线的副产物及其概率，并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列；

步骤3.通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型，经转换得到相应的反应物及其概率。

2.根据权利要求1所述的一种基于副产物的深度逆合成反应预测方法，其特征在于：所述步骤2的副产物预测模型由少数类样本采样、编码层训练、合成少数类样本过采样和解码层训练四部分组成，所述副产物预测模型通过以下方式训练：

步骤2-1：获取训练数据，该训练数据包括训练化合物的基本分子和以这些基本分子为起点的训练化合物的合成路线；

步骤2-2：设计批量采样器，控制输入副产物预测模型的每批训练数据中少数类样本的比例，对训练数据中的每条反应路线进行唯一编号，并获得了少数类样本的编号列表，之后进行随机置乱，少数类样本按照设定的比例优先抽样，利用图编码器(Graph Encoder)获得产物的图表示；

步骤2-3：在得到产物的图表示后，利用数据增强方法合成少数类样本图表示；

步骤2-4：解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间；

其中为副产物的预测概率，h_p是产物在嵌入空间中的图表示；

步骤2-5：将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列。

3.根据权利要求1或2所述的一种基于副产物的深度逆合成反应预测方法，其特征在于：所述步骤2通过副产物预测模型，预测出目标产物反应路线的副产物及其概率，并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物总序列，包括：

其中N(u)是节点u的邻居，参数表示产物的分子图，分子图被描述为/>原子v为节点，ε为边，x_u表示原子u的特征向量，x_uv表示化学键(u,v)的特征向量，

采用加和法作为readout函数：

在得到产物的图表示后，利用数据增强方法合成少数类样本图表示；

其中为副产物的预测概率；

4.根据权利要求3所述的一种基于副产物的深度逆合成反应预测方法，其特征在于：所述步骤2-5中将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列，包括：

5.根据权利要求2所述的一种基于副产物的深度逆合成反应预测方法，其特征在于：所述步骤2-3在得到产物的图表示后，利用数据增强方法合成少数类样本图表示，包括：

采用GraphSMOTE进行少数类样本合成过采样，基于GNN的特征提取器通过插值产生少量新的样本，并与边缘生成器补充关系信息，形成扩展的平衡图，标签频次较低的90％被划分为少数类样本；对于少数类样本，在嵌入空间中对样本的最近邻域进行插值：

通过在最近邻中加入随机扰动，通过以下公式合成新的少数节点：

h_p'＝(1-δ)·h_p+δ·h_nn(p)

其中δ是一个随机变量，符合[0,1]范围内的均匀分布，

在所述步骤2-4中，使用了局部损失的α平衡变体：FL(p_t)＝-α_t(1-p_t)^γlog p_t

6.根据权利要求1所述的一种基于副产物的深度逆合成反应预测方法，其特征在于：步骤3的反应物预测模型通过以下方式训练：

利用步骤2中提到的目标产物SMILES序列与副产物SMILES序列的拼接方式对其进行拼接；

基于最小编辑距离的方法确定副产物SMILES序列；

将进行数据增强后的结果输入到Transformer模型中进行训练，Transformer包含两种注意力机制：自注意力和编码器-解码器注意力机制，使其能够自动关注重要信息；

遵循R-SMILES的方法使用Vanilla transformer即用产物SMILES序列P＝(p₀,p₁,p₂,...,p_n)、副产物SMILES序列SP＝(sp₀,sp₁,sp₂,...sp_n)和部分解码的反应物SMILES序列R＝(r₀,r₁,r₂,...,r_n)输入反应物预测模型，然后进行训练，预测反应物SMILES序列r_j+1的下一个字符直至结束，输出结果为反应物SMILES序列。

7.根据权利要求6所述的一种基于副产物的深度逆合成反应预测方法，其特征在于：所述步骤3通过反应物预测模型，将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型，经转换得到相应的反应物及其概率，包括：

将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列进行数据增强，对数据增强后的产物SMILES总序列结果根据最小编辑距离确认其合适的副产物SMILES序列表达形式，再将产物SMILES总序列输入Transformer模型中得到反应物SMILES序列，每个扩增源序列翻译结果中保留了前10个结果，去除化学无效的反应物结果，然后添加副产物预测和反应物预测阶段的对数似然结果来对它们进行排序；在得到排序后，使用以下公式计算每个唯一结果的最终得分：

其中r表示去除化学无效的分子后的顺序；

8.一种基于副产物的深度逆合成反应预测装置，其特征在于：该反应预测装置包括：

9.一种存储介质，其特征在于：在所述存储介质中存储了计算机程序，其中，档所述计算机程序被处理器执行时，所述存储介质使处理器执行如权利要求1-7任一项所述的基于副产物的深度逆合成反应预测方法。

10.一种计算设备，其特征在于：所述设备包括处理器和用于存储处理器的可执行程序的存储器，当处理器执行存储在存储器中的程序时，实现如权利要求1-7任一项所述的基于副产物的深度逆合成反应预测方法。