CN117133371B - 基于人工断键的无模板单步逆合成方法及系统 - Google Patents
基于人工断键的无模板单步逆合成方法及系统 Download PDFInfo
- Publication number
- CN117133371B CN117133371B CN202311388725.8A CN202311388725A CN117133371B CN 117133371 B CN117133371 B CN 117133371B CN 202311388725 A CN202311388725 A CN 202311388725A CN 117133371 B CN117133371 B CN 117133371B
- Authority
- CN
- China
- Prior art keywords
- atom
- leaving group
- bond
- reaction
- product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 119
- 239000000376 reactant Substances 0.000 claims abstract description 77
- 238000013507 mapping Methods 0.000 claims abstract description 72
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008859 change Effects 0.000 claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 238000012546 transfer Methods 0.000 claims abstract description 7
- 125000004429 atom Chemical group 0.000 claims description 91
- 239000011159 matrix material Substances 0.000 claims description 36
- 125000004433 nitrogen atom Chemical group N* 0.000 claims description 36
- 125000001153 fluoro group Chemical group F* 0.000 claims description 18
- 101000801295 Homo sapiens Protein O-mannosyl-transferase TMTC3 Proteins 0.000 claims description 16
- 102100033736 Protein O-mannosyl-transferase TMTC3 Human genes 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 7
- 150000001875 compounds Chemical class 0.000 abstract description 5
- 239000000047 product Substances 0.000 description 83
- 230000006870 function Effects 0.000 description 8
- 238000003776 cleavage reaction Methods 0.000 description 5
- 230000007017 scission Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Analytical Chemistry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
本发明公开了基于人工断键的无模板单步逆合成方法及系统,属于化合物生成分析技术领域,要解决的技术问题为如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性。包括如下步骤:采集反应数据构建反应数据集;对反应数据进行原子映射,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到反应数据的离去基团;基于信息传递多分类神经网络模型构建的离去基团预测模型;对于待预测其反应物的产物,基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,通过训练后离去基团预测模型预测合成子对应的离去基团,并将离去基团与对应合成子拼接得到反应物。
Description
技术领域
本发明涉及化合物生成分析技术领域,具体地说是基于人工断键的无模板单步逆合成方法及系统。
背景技术
单步逆合成方法是给定产物,推导对应反应物的方法。目前单步逆合成模型分为有模板与无模板两大类,前者是通过模型预测输入产物对应的模板进而生成反应物,后者是通过模型直接预测输入产物对应的反应物。两者往往都需要经过预测产物断键点位的过程,而断键点位预测准确与否直接关系到生成反应物的准确性,即生成反应物的合理性依赖于断键点位的预测。对于结构较复杂的化合物,断键点位的预测模型往往捉襟见肘,进而影响下一步生成反应物的合理性。而将有机化学家的经验知识通过人工指定断键点位的方式融入到单步逆合成分析中则可大大增加生成反应物的合理性。
如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于人工断键的无模板单步逆合成方法及系统,来解决如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性的技术问题。
第一方面,本发明一种基于人工断键的无模板单步逆合成方法,包括如下步骤:
采集反应数据构建反应数据集,其中,反应数据包括反应物SMIELS表达式和产物SMILES表达式;
对于每个反应数据,对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式,通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到所述反应数据的离去基团,其中,离去基团为存在于反应物且不存在于产物中的原子构成的基团;
基于信息传递多分类神经网络模型构建的离去基团预测模型,所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布;
将反应数据集集中反应数据对应的产物和合成子的图表示作为样本数据,基于样本数据以及对应的离去基团构建样本集,基于样本集对离去基团预测模型进行模型训练,得到训练后离去基团预测模型;
对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布,并将离去基团与对应合成子拼接得到反应物。
作为优选,对于每个反应数据,通过RXNMapper对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式;
对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号,包括如下步骤:
获取产物分子中每个原子的原子索引;
将原子索引加1作为对应原子的原子映射序号;
反应位点信息为首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型。
作为优选,产物的图表示包括通过对产物进行编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
合成子的图表示包括通过对合成子编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
其中,Natom表示产物的原子个数,Fatom表示原子特征向量维度,Fbond表示键特征向量维度。
作为优选,根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接,得到反应物。
作为优选,所述离去基团预测模型为GRU网络模型;
基于样本集、通过Adam优化器对离去基团预测模型进行模型训练时,采用的损失函数为交叉熵损失函数。
第二方面,本发明一种基于人工断键的无模板单步逆合成系统,用于通过如第一方面任一项所述的一种基于人工断键的无模板单步逆合成方法进行单步逆合成,所述系统包括:
数据采集模块,所述数据采集模块用于采集反应数据构建反应数据集,其中,反应数据包括反应物SMIELS表达式和产物SMILES表达式;
数据处理模块,所述数据处理模块用于执行如下:对于每个反应数据,对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式,通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到所述反应数据的离去基团,其中,离去基团为存在于反应物且不存在于产物中的原子构成的基团;
模型构建模块,所述模型构建模块用于执行如下:基于信息传递多分类神经网络模型构建的离去基团预测模型,所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布;
模型训练模块,所述模型训练模块用于执行如下:将反应数据集集中反应数据对应的产物和合成子的图表示作为样本数据,基于样本数据以及对应的离去基团构建样本集,基于样本集对离去基团预测模型进行模型训练,得到训练后离去基团预测模型;
逆合成模块,所述逆合成模块用于执行如下:对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布,并将离去基团与对应合成子拼接得到反应物。
作为优选,对于每个反应数据,所述数据处理模块用于通过RXNMapper对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式;
对于待预测其反应物的产物,所述逆合成模块用于执行如下为产物中每个原子赋予原子映射序号:
获取产物分子中每个原子的原子索引;
将原子索引加1作为对应原子的原子映射序号;
反应位点信息为首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型。
作为优选,产物的图表示包括通过对产物进行编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
合成子的图表示包括通过对合成子编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
其中,Natom表示产物的原子个数,Fatom表示原子特征向量维度,Fbond表示键特征向量维度。
作为优选,所述逆合成模块用于根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接,得到反应物。
作为优选,所述离去基团预测模型为GRU网络模型;
所述模型训练模块用于基于样本集、通过Adam优化器对离去基团预测模型进行模型训练时,采用的损失函数为交叉熵损失函数。
本发明的基于人工断键的无模板单步逆合成方法及系统具有以下优点:对于待预测反应物的产物,为产物中每个原子赋予原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于该反应位点信息和产物得到合成子,以产物以及合成子的图表示为输入、通过训练后的离去基团预测模型预测合成子对应的离去基团,将离去基团与对应合成子拼接得到反应物,通过人工指定断键点位的方式融入到单步逆合成分析中,大大增加生成反应物的合理性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种基于人工断键的无模板单步逆合成方法的流程框图;
图2为实施例1一种基于人工断键的无模板单步逆合成方法中以目标化合物为实例展示人工断键生成反应物的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于人工断键的无模板单步逆合成方法及系统,用于解决如何将断键点位融入到单步逆合成分析中、增加生成生成反应物的合理性的技术问题。
实施例1:
本发明一种基于人工断键的无模板单步逆合成方法,包括数据采集、数据处理、模型构建、模型训练以及逆合成五个步骤。
步骤S100数据采集:采集反应数据构建反应数据集,其中,反应数据包括反应物SMIELS表达式和产物SMILES表达式。
步骤S200数据处理:对于每个反应数据,对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式,通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到所述反应数据的离去基团,其中,离去基团为存在于反应物且不存在于产物中的原子构成的基团。
本实施例步骤S200中,对于每个反应数据,通过RXNMapper对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式。
反应位点信息内容为“首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型”。不同的键类型对应不同的数值,键类型包括单键、双键、三键以及芳香键等。
产物在指定断键点位处断键后通常会得到两个子结构片段,称为合成子。
步骤S300模型构建:基于信息传递多分类神经网络模型构建的离去基团预测模型,所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布。
本实施例步骤S300构建的离去基团预测模型为GRU网络模型,该离去基团预测模型的结构与现有GRU网络模型一致,其中,输出层神经元个数为不重复离去基团库中离去基团的个数,激活函数为Softmax。
产物的图表示包括通过对产物进行编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;合成子的图表示包括通过对合成子编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;其中,Natom表示产物的原子个数,Fatom表示原子特征向量维度,Fbond表示键特征向量维度。
步骤S400模型训练:将反应数据集集中反应数据对应的产物和合成子的图表示作为样本数据,基于样本数据以及对应的离去基团构建样本集,基于样本集对离去基团预测模型进行模型训练,得到训练后离去基团预测模型。
本实施例模型训练时,采用Adam优化器训练模型,损失函数采用交叉熵损失,初始学习率设为0.001。
步骤S500逆合成:对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布,并将离去基团与对应合成子拼接得到反应物。
本实施例步骤S500中,对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号时,执行如下操作:获取产物分子中每个原子的原子索引,将原子索引加1作为对应原子的原子映射序号。
本实施例该步骤为原子赋予原子映射序号的方式,不适用步骤S200数据处理过程中构建原子映射序号,该步骤是将原子索引加1作为对应原子的原子映射序号,非常简单,而构建离去基团时的原子映射序号是通过RXNMapper进行原子映射后获得。
本实施例基于有机化学家的经验知识、以人工指定断键点位,得到断键点位的信息作为反应位点信息,反应位点信息为“首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型”。不同的键类型对应不同的数值,例如可设置单键对应1.0,双键对应2.0,三键对应3.0,芳香键对应1.5。反应位点信息中的“键在反应物中的键类型”默认为0。
通过训练后离去集团预测模型预测输出合成子对应的离去集团后,根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接,得到反应物。
对于本实施例的方法,给出如图2所示的具体实例,对该目标化合物人工指定断键点位、得到反应位点信息为“8:9:1.0:0.0”,其中,首端原子映射序号为8,尾端原子映射序号为9,键在产物中的键类型为单键,键在反应物中的键类型为默认值0。
基于反应位点信息和产物得到合成子后,将产物的图表示以及合成子的图表示输入到训练后离去基团预测模型 ,预测输出合成子对应的离去基团(‘[Br].[None]’、‘[OH].[None]’)及其概率分布,然后将合成子和离去基团进行拼接,得到该目标产物对应的 反应物。
本实施例的方法通过将有机化学家的经验知识以人工指定断键点位的方式融入到单步逆合成分析中、增加了生成反应物的合理性。
实施例2:
本发明一种基于人工断键的无模板单步逆合成系统,包括数据采集模块、数据处理模块、模型构建模块、模型训练模块以及逆合成模块,该系统可执行实施例1公开的方法进行单步逆合成。
数据采集模块用于采集反应数据构建反应数据集,其中,反应数据包括反应物SMIELS表达式和产物SMILES表达式。
数据处理模块用于执行如下:对于每个反应数据,对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式,通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到所述反应数据的离去基团,其中,离去基团为存在于反应物且不存在于产物中的原子构成的基团。
本实施例中,对于每个反应数据,数据处理模块用于通过RXNMapper对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式。
反应位点信息内容为“首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型”。不同的键类型对应不同的数值,键类型包括单键、双键、三键以及芳香键等。
产物在指定断键点位处断键后通常会得到两个子结构片段,称为合成子。
模型构建模块用于执行如下:基于信息传递多分类神经网络模型构建的离去基团预测模型,所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布。
本实施例步骤S300构建的离去基团预测模型为GRU网络模型,该离去基团预测模型的结构与现有GRU网络模型一致,其中,输出层神经元个数为不重复离去基团库中离去基团的个数,激活函数为Softmax。
产物的图表示包括通过对产物进行编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;合成子的图表示包括通过对合成子编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;其中,Natom表示产物的原子个数,Fatom表示原子特征向量维度,Fbond表示键特征向量维度。
模型训练模块用于执行如下:对于反应数据集中反应数据对应的离去基团,去除重复的离去基团得到不重复离去基团库,将反应数据集中反应数据对应的产物和合成子的图表示作为样本数据,基于样本数据以及不重复基团中对应的离去基团构建样本集,基于样本集对离去基团预测模型进行模型训练,得到训练后离去基团预测模型。
本实施例模型训练时,采用Adam优化器训练模型,损失函数采用交叉熵损失,初始学习率设为0.001。
逆合成模块用于执行如下:对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布,并将离去基团与对应合成子拼接得到反应物。
对于待预测其反应物的产物,为产物中每个原子赋予原子映射序号时逆合成模块用于执行如下操作:获取产物分子中每个原子的原子索引,将原子索引加1作为对应原子的原子映射序号。
本实施例逆合成模块为原子赋予原子映射序号的方式,不适用数据处理模块中构建原子映射序号,该逆合成模块中将原子索引加1作为对应原子的原子映射序号,非常简单,而数据处理模块构建离去基团时的原子映射序号是通过RXNMapper进行原子映射后获得。
本实施例基于有机化学家的经验知识、以人工指定断键点位,得到断键点位的信息作为反应位点信息,反应位点信息为“首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型”。不同的键类型对应不同的数值,例如可设置单键对应1.0,双键对应2.0,三键对应3.0,芳香键对应1.5。反应位点信息中的“键在反应物中的键类型”默认为0。
通过训练后离去集团预测模型预测输出合成子对应的离去集团后,根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接,得到反应物。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种基于人工断键的无模板单步逆合成方法,其特征在于,包括如下步骤:
采集反应数据构建反应数据集,其中,反应数据包括反应物SMIELS表达式和产物SMILES表达式;
对于每个反应数据,通过RXNMapper对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式,通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到所述反应数据的离去基团,其中,离去基团为存在于反应物且不存在于产物中的原子构成的基团;
基于信息传递多分类神经网络模型构建的离去基团预测模型,所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布;
对于反应数据集中反应数据对应的离去基团,去除重复的离去基团得到不重复离去基团库,将反应数据集中反应数据对应的产物和合成子的图表示作为样本数据,基于样本数据以及不重复基团中对应的离去基团构建样本集,基于样本集对离去基团预测模型进行模型训练,得到训练后离去基团预测模型;
对于待预测其反应物的产物,获取产物分子中每个原子的原子索引,将原子索引加1作为对应原子的原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布,并将离去基团与对应合成子拼接得到反应物。
2.根据权利要求1所述的基于人工断键的无模板单步逆合成方法,其特征在于,
反应位点信息为首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型。
3.根据权利要求1所述的基于人工断键的无模板单步逆合成方法,其特征在于,产物的图表示包括通过对产物进行编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
合成子的图表示包括通过对合成子编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
其中,Natom表示产物的原子个数,Fatom表示原子特征向量维度,Fbond表示键特征向量维度。
4.根据权利要求1所述的基于人工断键的无模板单步逆合成方法,其特征在于,根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接,得到反应物。
5.根据权利要求1所述的基于人工断键的无模板单步逆合成方法,其特征在于,所述离去基团预测模型为GRU网络模型;
基于样本集、通过Adam优化器对离去基团预测模型进行模型训练时,采用的损失函数为交叉熵损失函数。
6.一种基于人工断键的无模板单步逆合成系统,其特征在于,用于通过如权利要求1-5任一项所述的一种基于人工断键的无模板单步逆合成方法进行单步逆合成,所述系统包括:
数据采集模块,所述数据采集模块用于采集反应数据构建反应数据集,其中,反应数据包括反应物SMIELS表达式和产物SMILES表达式;
数据处理模块,所述数据处理模块用于执行如下:对于每个反应数据,通过RXNMapper对反应数据进行原子映射,得到具有原子映射序号的反应SMILE表达式,通过对比SMILE表达式中反应物和产物中键的变化情况得到反应位点信息,基于反应位点信息和产物得到合成子,并通过对比反应物与合成子中原子的变化情况,得到所述反应数据的离去基团,其中,离去基团为存在于反应物且不存在于产物中的原子构成的基团;
模型构建模块,所述模型构建模块用于执行如下:基于信息传递多分类神经网络模型构建的离去基团预测模型,所述离去基团预测模型用于以产物和合成子的图表示为输入、预测输出合成子对应的离去基团及其概率分布;
模型训练模块,所述模型训练模块用于执行如下:对于反应数据集中反应数据对应的离去基团,去除重复的离去基团得到不重复离去基团库,将反应数据集中反应数据对应的产物和合成子的图表示作为样本数据,基于样本数据以及不重复基团中对应的离去基团构建样本集,基于样本集对离去基团预测模型进行模型训练,得到训练后离去基团预测模型;
逆合成模块,所述逆合成模块用于执行如下:对于待预测其反应物的产物,获取产物分子中每个原子的原子索引,将原子索引加1作为对应原子的原子映射序号,并基于原子映射序号、人工指定断键点位,得到反应位点信息,基于反应位点信息和产物得到合成子,以产物和合成子的图表示为输入、通过训练后离去基团预测模型预测合成子对应的离去基团及其概率分布,并将离去基团与对应合成子拼接得到反应物。
7.根据权利要求6所述的基于人工断键的无模板单步逆合成系统,其特征在于,
反应位点信息为首端原子映射序号:尾端原子映射序号:键在产物中的键类型:键在反应物中的键类型。
8.根据权利要求6所述的基于人工断键的无模板单步逆合成系统,其特征在于,产物的图表示包括通过对产物进行编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
合成子的图表示包括通过对合成子编码得到的维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、以及维度为Natom×Natom的邻接矩阵;
其中,Natom表示产物的原子个数,Fatom表示原子特征向量维度,Fbond表示键特征向量维度。
9.根据权利要求6所述的基于人工断键的无模板单步逆合成系统,其特征在于,所述逆合成模块用于根据离去基团上拼接点原子的价态约束选择单键或双键的方式对离去基团与合成子进行拼接,得到反应物。
10.根据权利要求6所述的基于人工断键的无模板单步逆合成系统,其特征在于,所述离去基团预测模型为GRU网络模型;
所述模型训练模块用于基于样本集、通过Adam优化器对离去基团预测模型进行模型训练时,采用的损失函数为交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388725.8A CN117133371B (zh) | 2023-10-25 | 2023-10-25 | 基于人工断键的无模板单步逆合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388725.8A CN117133371B (zh) | 2023-10-25 | 2023-10-25 | 基于人工断键的无模板单步逆合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117133371A CN117133371A (zh) | 2023-11-28 |
CN117133371B true CN117133371B (zh) | 2024-01-05 |
Family
ID=88854873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311388725.8A Active CN117133371B (zh) | 2023-10-25 | 2023-10-25 | 基于人工断键的无模板单步逆合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117133371B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972531B (zh) * | 2024-03-29 | 2024-06-11 | 烟台国工智能科技有限公司 | 一种多样化的逆合成分析模型评价方法及装置 |
CN117995298B (zh) * | 2024-04-07 | 2024-06-04 | 烟台国工智能科技有限公司 | 基于断键点位提示的有机反应单步逆合成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390997A (zh) * | 2019-07-17 | 2019-10-29 | 成都火石创造科技有限公司 | 一种化学分子式拼接方法 |
WO2020023650A1 (en) * | 2018-07-25 | 2020-01-30 | Wuxi Nextcode Genomics Usa, Inc. | Retrosynthesis prediction using deep highway networks and multiscale reaction classification |
CN112397155A (zh) * | 2020-12-01 | 2021-02-23 | 中山大学 | 一种单步逆向合成方法及系统 |
CN115240786A (zh) * | 2022-08-09 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 反应物分子的预测方法、训练方法、装置以及电子设备 |
CN115966263A (zh) * | 2022-12-21 | 2023-04-14 | 西北工业大学 | 一种基于原子特征传递网络的小分子单步逆合成预测方法 |
CN116665810A (zh) * | 2023-05-31 | 2023-08-29 | 电子科技大学 | 一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端 |
CN116741307A (zh) * | 2023-06-13 | 2023-09-12 | 上海交通大学 | 面向先导化合物合成与筛选的三维分子结构仿真方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999031265A1 (en) * | 1997-12-12 | 1999-06-24 | Way Jeffrey C | Compounds and methods for the inhibition of protein-protein interactions |
CN114822703A (zh) * | 2021-01-27 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 一种化合物分子的逆合成预测方法以及相关装置 |
CN114360659A (zh) * | 2021-12-21 | 2022-04-15 | 武汉大学 | 一种结合与或树与单步反应规则预测的生物逆合成方法及系统 |
-
2023
- 2023-10-25 CN CN202311388725.8A patent/CN117133371B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020023650A1 (en) * | 2018-07-25 | 2020-01-30 | Wuxi Nextcode Genomics Usa, Inc. | Retrosynthesis prediction using deep highway networks and multiscale reaction classification |
CN110390997A (zh) * | 2019-07-17 | 2019-10-29 | 成都火石创造科技有限公司 | 一种化学分子式拼接方法 |
CN112397155A (zh) * | 2020-12-01 | 2021-02-23 | 中山大学 | 一种单步逆向合成方法及系统 |
CN115240786A (zh) * | 2022-08-09 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 反应物分子的预测方法、训练方法、装置以及电子设备 |
CN115966263A (zh) * | 2022-12-21 | 2023-04-14 | 西北工业大学 | 一种基于原子特征传递网络的小分子单步逆合成预测方法 |
CN116665810A (zh) * | 2023-05-31 | 2023-08-29 | 电子科技大学 | 一种基于量子图卷积的分子逆向合成方法、系统、存储介质及终端 |
CN116741307A (zh) * | 2023-06-13 | 2023-09-12 | 上海交通大学 | 面向先导化合物合成与筛选的三维分子结构仿真方法 |
Non-Patent Citations (1)
Title |
---|
药物表示学习研究进展;陈鑫;刘喜恩;吴及;;清华大学学报(自然科学版);60(第12期);正文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117133371A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117133371B (zh) | 基于人工断键的无模板单步逆合成方法及系统 | |
CN110782663B (zh) | 一种结合时空特性的路网交通流量短时预测方法 | |
CN111079836B (zh) | 基于伪标签方法和弱监督学习的过程数据故障分类方法 | |
CN113064586B (zh) | 一种基于抽象语法树增广图模型的代码补全方法 | |
CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
CN108417038B (zh) | 一种公交客流量的预测方法及系统 | |
CN114239718B (zh) | 基于多元时序数据分析的高精度长期时间序列预测方法 | |
CN112397155B (zh) | 一种单步逆向合成方法及系统 | |
CN117153294B (zh) | 一种单一体系的分子生成方法 | |
CN113838536A (zh) | 翻译模型构建方法、产物预测模型构建方法及预测方法 | |
CN116227485A (zh) | 一种反应条件预测模型训练方法及装置 | |
CN115730744A (zh) | 基于用户模式与深度学习联合模型的用水量预测方法及系统 | |
CN114399080A (zh) | 一种丙烯酸酯生产设备的智能控制方法及系统 | |
CN114038516A (zh) | 一种基于变分自编码器的分子生成与优化 | |
CN117455037A (zh) | 一种基于多模态案例知识图的生产业务流程剩余时间预测方法 | |
CN102724506A (zh) | Jpeg_ls常规编码硬件实现方法 | |
CN105844028B (zh) | 一种含能化合物计算机辅助设计系统 | |
CN109740221B (zh) | 一种基于搜索树的智能工业设计算法 | |
CN115966263A (zh) | 一种基于原子特征传递网络的小分子单步逆合成预测方法 | |
CN114997486A (zh) | 一种基于宽度学习网络的自来水厂的出水余氯预测方法 | |
CN114997464A (zh) | 一种基于图时序信息学习的流行度预测方法 | |
DE102020215589A1 (de) | Steuern eines deep-sequence-modells mit prototypen | |
CN111815030B (zh) | 一种基于少量问卷调查数据的多目标特征预测方法 | |
CN111276229A (zh) | 一种基于深度置信网络的门诊量预测方法及系统 | |
CN117010459B (zh) | 基于模块化和序列化自动生成神经网络的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Floor 27, Zhenghai Building, No. 66, the Pearl River Road, Yantai Economic and Technological Development Zone, Shandong 265599 Patentee after: Yantai Guogong Intelligent Technology Co.,Ltd. Country or region after: China Address before: 265599 room 517, floor 5, No. 1 Wuzhishan Road, Yantai Economic and Technological Development Zone, Shandong Province Patentee before: Yantai Guogong Intelligent Technology Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |