CN117133371B

CN117133371B - 基于人工断键的无模板单步逆合成方法及系统

Info

Publication number: CN117133371B
Application number: CN202311388725.8A
Authority: CN
Inventors: 却立勇; 鲍雨; 柳彦宏; 李中伟
Original assignee: Yantai Guogong Intelligent Technology Co ltd
Current assignee: Yantai Guogong Intelligent Technology Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-05
Anticipated expiration: 2043-10-25
Also published as: CN117133371A

Abstract

本发明公开了基于人工断键的无模板单步逆合成方法及系统，属于化合物生成分析技术领域，要解决的技术问题为如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性。包括如下步骤：采集反应数据构建反应数据集；对反应数据进行原子映射，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到反应数据的离去基团；基于信息传递多分类神经网络模型构建的离去基团预测模型；对于待预测其反应物的产物，基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，通过训练后离去基团预测模型预测合成子对应的离去基团，并将离去基团与对应合成子拼接得到反应物。

Description

基于人工断键的无模板单步逆合成方法及系统

技术领域

本发明涉及化合物生成分析技术领域，具体地说是基于人工断键的无模板单步逆合成方法及系统。

背景技术

单步逆合成方法是给定产物，推导对应反应物的方法。目前单步逆合成模型分为有模板与无模板两大类，前者是通过模型预测输入产物对应的模板进而生成反应物，后者是通过模型直接预测输入产物对应的反应物。两者往往都需要经过预测产物断键点位的过程，而断键点位预测准确与否直接关系到生成反应物的准确性，即生成反应物的合理性依赖于断键点位的预测。对于结构较复杂的化合物，断键点位的预测模型往往捉襟见肘，进而影响下一步生成反应物的合理性。而将有机化学家的经验知识通过人工指定断键点位的方式融入到单步逆合成分析中则可大大增加生成反应物的合理性。

如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于人工断键的无模板单步逆合成方法及系统，来解决如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性的技术问题。

第一方面，本发明一种基于人工断键的无模板单步逆合成方法，包括如下步骤：

采集反应数据构建反应数据集，其中，反应数据包括反应物SMIELS表达式和产物SMILES表达式；

对于每个反应数据，对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式，通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到所述反应数据的离去基团，其中，离去基团为存在于反应物且不存在于产物中的原子构成的基团；

基于信息传递多分类神经网络模型构建的离去基团预测模型，所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布；

将反应数据集集中反应数据对应的产物和合成子的图表示作为样本数据，基于样本数据以及对应的离去基团构建样本集，基于样本集对离去基团预测模型进行模型训练，得到训练后离去基团预测模型；

对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布，并将离去基团与对应合成子拼接得到反应物。

作为优选，对于每个反应数据，通过RXNMapper对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式；

对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号，包括如下步骤：

获取产物分子中每个原子的原子索引；

将原子索引加1作为对应原子的原子映射序号；

反应位点信息为首端原子映射序号：尾端原子映射序号：键在产物中的键类型：键在反应物中的键类型。

作为优选，产物的图表示包括通过对产物进行编码得到的维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、以及维度为N_atom×N_atom的邻接矩阵；

合成子的图表示包括通过对合成子编码得到的维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、以及维度为N_atom×N_atom的邻接矩阵；

其中，N_atom表示产物的原子个数，F_atom表示原子特征向量维度，F_bond表示键特征向量维度。

作为优选，根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接，得到反应物。

作为优选，所述离去基团预测模型为GRU网络模型；

基于样本集、通过Adam优化器对离去基团预测模型进行模型训练时，采用的损失函数为交叉熵损失函数。

第二方面，本发明一种基于人工断键的无模板单步逆合成系统，用于通过如第一方面任一项所述的一种基于人工断键的无模板单步逆合成方法进行单步逆合成，所述系统包括：

数据采集模块，所述数据采集模块用于采集反应数据构建反应数据集，其中，反应数据包括反应物SMIELS表达式和产物SMILES表达式；

数据处理模块，所述数据处理模块用于执行如下：对于每个反应数据，对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式，通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到所述反应数据的离去基团，其中，离去基团为存在于反应物且不存在于产物中的原子构成的基团；

模型构建模块，所述模型构建模块用于执行如下：基于信息传递多分类神经网络模型构建的离去基团预测模型，所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布；

模型训练模块，所述模型训练模块用于执行如下：将反应数据集集中反应数据对应的产物和合成子的图表示作为样本数据，基于样本数据以及对应的离去基团构建样本集，基于样本集对离去基团预测模型进行模型训练，得到训练后离去基团预测模型；

逆合成模块，所述逆合成模块用于执行如下：对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布，并将离去基团与对应合成子拼接得到反应物。

作为优选，对于每个反应数据，所述数据处理模块用于通过RXNMapper对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式；

对于待预测其反应物的产物，所述逆合成模块用于执行如下为产物中每个原子赋予原子映射序号：

获取产物分子中每个原子的原子索引；

将原子索引加1作为对应原子的原子映射序号；

作为优选，所述逆合成模块用于根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接，得到反应物。

作为优选，所述离去基团预测模型为GRU网络模型；

所述模型训练模块用于基于样本集、通过Adam优化器对离去基团预测模型进行模型训练时，采用的损失函数为交叉熵损失函数。

本发明的基于人工断键的无模板单步逆合成方法及系统具有以下优点：对于待预测反应物的产物，为产物中每个原子赋予原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于该反应位点信息和产物得到合成子，以产物以及合成子的图表示为输入、通过训练后的离去基团预测模型预测合成子对应的离去基团，将离去基团与对应合成子拼接得到反应物，通过人工指定断键点位的方式融入到单步逆合成分析中，大大增加生成反应物的合理性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种基于人工断键的无模板单步逆合成方法的流程框图；

图2为实施例1一种基于人工断键的无模板单步逆合成方法中以目标化合物为实例展示人工断键生成反应物的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于人工断键的无模板单步逆合成方法及系统，用于解决如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性的技术问题。

实施例1:

本发明一种基于人工断键的无模板单步逆合成方法，包括数据采集、数据处理、模型构建、模型训练以及逆合成五个步骤。

步骤S100数据采集：采集反应数据构建反应数据集，其中，反应数据包括反应物SMIELS表达式和产物SMILES表达式。

步骤S200数据处理：对于每个反应数据，对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式，通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到所述反应数据的离去基团，其中，离去基团为存在于反应物且不存在于产物中的原子构成的基团。

本实施例步骤S200中，对于每个反应数据，通过RXNMapper对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式。

反应位点信息内容为“首端原子映射序号：尾端原子映射序号：键在产物中的键类型：键在反应物中的键类型”。不同的键类型对应不同的数值，键类型包括单键、双键、三键以及芳香键等。

产物在指定断键点位处断键后通常会得到两个子结构片段，称为合成子。

步骤S300模型构建：基于信息传递多分类神经网络模型构建的离去基团预测模型，所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布。

本实施例步骤S300构建的离去基团预测模型为GRU网络模型，该离去基团预测模型的结构与现有GRU网络模型一致，其中，输出层神经元个数为不重复离去基团库中离去基团的个数，激活函数为Softmax。

产物的图表示包括通过对产物进行编码得到的维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、以及维度为N_atom×N_atom的邻接矩阵；合成子的图表示包括通过对合成子编码得到的维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、以及维度为N_atom×N_atom的邻接矩阵；其中，N_atom表示产物的原子个数，F_atom表示原子特征向量维度，F_bond表示键特征向量维度。

步骤S400模型训练：将反应数据集集中反应数据对应的产物和合成子的图表示作为样本数据，基于样本数据以及对应的离去基团构建样本集，基于样本集对离去基团预测模型进行模型训练，得到训练后离去基团预测模型。

本实施例模型训练时，采用Adam优化器训练模型，损失函数采用交叉熵损失，初始学习率设为0.001。

步骤S500逆合成：对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布，并将离去基团与对应合成子拼接得到反应物。

本实施例步骤S500中，对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号时，执行如下操作：获取产物分子中每个原子的原子索引，将原子索引加1作为对应原子的原子映射序号。

本实施例该步骤为原子赋予原子映射序号的方式，不适用步骤S200数据处理过程中构建原子映射序号，该步骤是将原子索引加1作为对应原子的原子映射序号，非常简单，而构建离去基团时的原子映射序号是通过RXNMapper进行原子映射后获得。

本实施例基于有机化学家的经验知识、以人工指定断键点位，得到断键点位的信息作为反应位点信息，反应位点信息为“首端原子映射序号：尾端原子映射序号：键在产物中的键类型：键在反应物中的键类型”。不同的键类型对应不同的数值，例如可设置单键对应1.0，双键对应2.0，三键对应3.0，芳香键对应1.5。反应位点信息中的“键在反应物中的键类型”默认为0。

通过训练后离去集团预测模型预测输出合成子对应的离去集团后，根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接，得到反应物。

对于本实施例的方法，给出如图2所示的具体实例，对该目标化合物人工指定断键点位、得到反应位点信息为“8:9:1.0:0.0”，其中，首端原子映射序号为8，尾端原子映射序号为9，键在产物中的键类型为单键，键在反应物中的键类型为默认值0。

基于反应位点信息和产物得到合成子后，将产物的图表示以及合成子的图表示输入到训练后离去基团预测模型，预测输出合成子对应的离去基团（‘[Br].[None]’、‘[OH].[None]’）及其概率分布，然后将合成子和离去基团进行拼接，得到该目标产物对应的反应物。

本实施例的方法通过将有机化学家的经验知识以人工指定断键点位的方式融入到单步逆合成分析中、增加了生成反应物的合理性。

实施例2：

本发明一种基于人工断键的无模板单步逆合成系统，包括数据采集模块、数据处理模块、模型构建模块、模型训练模块以及逆合成模块，该系统可执行实施例1公开的方法进行单步逆合成。

数据采集模块用于采集反应数据构建反应数据集，其中，反应数据包括反应物SMIELS表达式和产物SMILES表达式。

数据处理模块用于执行如下：对于每个反应数据，对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式，通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到所述反应数据的离去基团，其中，离去基团为存在于反应物且不存在于产物中的原子构成的基团。

本实施例中，对于每个反应数据，数据处理模块用于通过RXNMapper对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式。

模型构建模块用于执行如下：基于信息传递多分类神经网络模型构建的离去基团预测模型，所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布。

模型训练模块用于执行如下：对于反应数据集中反应数据对应的离去基团，去除重复的离去基团得到不重复离去基团库，将反应数据集中反应数据对应的产物和合成子的图表示作为样本数据，基于样本数据以及不重复基团中对应的离去基团构建样本集，基于样本集对离去基团预测模型进行模型训练，得到训练后离去基团预测模型。

逆合成模块用于执行如下：对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布，并将离去基团与对应合成子拼接得到反应物。

对于待预测其反应物的产物，为产物中每个原子赋予原子映射序号时逆合成模块用于执行如下操作：获取产物分子中每个原子的原子索引，将原子索引加1作为对应原子的原子映射序号。

本实施例逆合成模块为原子赋予原子映射序号的方式，不适用数据处理模块中构建原子映射序号，该逆合成模块中将原子索引加1作为对应原子的原子映射序号，非常简单，而数据处理模块构建离去基团时的原子映射序号是通过RXNMapper进行原子映射后获得。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种基于人工断键的无模板单步逆合成方法，其特征在于，包括如下步骤：

对于每个反应数据，通过RXNMapper对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式，通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到所述反应数据的离去基团，其中，离去基团为存在于反应物且不存在于产物中的原子构成的基团；

对于反应数据集中反应数据对应的离去基团，去除重复的离去基团得到不重复离去基团库，将反应数据集中反应数据对应的产物和合成子的图表示作为样本数据，基于样本数据以及不重复基团中对应的离去基团构建样本集，基于样本集对离去基团预测模型进行模型训练，得到训练后离去基团预测模型；

对于待预测其反应物的产物，获取产物分子中每个原子的原子索引，将原子索引加1作为对应原子的原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布，并将离去基团与对应合成子拼接得到反应物。

2.根据权利要求1所述的基于人工断键的无模板单步逆合成方法，其特征在于，

3.根据权利要求1所述的基于人工断键的无模板单步逆合成方法，其特征在于，产物的图表示包括通过对产物进行编码得到的维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、以及维度为N_atom×N_atom的邻接矩阵；

4.根据权利要求1所述的基于人工断键的无模板单步逆合成方法，其特征在于，根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接，得到反应物。

5.根据权利要求1所述的基于人工断键的无模板单步逆合成方法，其特征在于，所述离去基团预测模型为GRU网络模型；

6.一种基于人工断键的无模板单步逆合成系统，其特征在于，用于通过如权利要求1-5任一项所述的一种基于人工断键的无模板单步逆合成方法进行单步逆合成，所述系统包括：

数据处理模块，所述数据处理模块用于执行如下：对于每个反应数据，通过RXNMapper对反应数据进行原子映射，得到具有原子映射序号的反应SMILE表达式，通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息，基于反应位点信息和产物得到合成子，并通过对比反应物与合成子中原子的变化情况，得到所述反应数据的离去基团，其中，离去基团为存在于反应物且不存在于产物中的原子构成的基团；

模型训练模块，所述模型训练模块用于执行如下：对于反应数据集中反应数据对应的离去基团，去除重复的离去基团得到不重复离去基团库，将反应数据集中反应数据对应的产物和合成子的图表示作为样本数据，基于样本数据以及不重复基团中对应的离去基团构建样本集，基于样本集对离去基团预测模型进行模型训练，得到训练后离去基团预测模型；

逆合成模块，所述逆合成模块用于执行如下：对于待预测其反应物的产物，获取产物分子中每个原子的原子索引，将原子索引加1作为对应原子的原子映射序号，并基于原子映射序号、人工指定断键点位，得到反应位点信息，基于反应位点信息和产物得到合成子，以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布，并将离去基团与对应合成子拼接得到反应物。

7.根据权利要求6所述的基于人工断键的无模板单步逆合成系统，其特征在于，

8.根据权利要求6所述的基于人工断键的无模板单步逆合成系统，其特征在于，产物的图表示包括通过对产物进行编码得到的维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、以及维度为N_atom×N_atom的邻接矩阵；

9.根据权利要求6所述的基于人工断键的无模板单步逆合成系统，其特征在于，所述逆合成模块用于根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接，得到反应物。

10.根据权利要求6所述的基于人工断键的无模板单步逆合成系统，其特征在于，所述离去基团预测模型为GRU网络模型；