CN116759000A - 一种基于副产物的深度逆合成反应预测方法、装置、介质及设备 - Google Patents
一种基于副产物的深度逆合成反应预测方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN116759000A CN116759000A CN202310496431.0A CN202310496431A CN116759000A CN 116759000 A CN116759000 A CN 116759000A CN 202310496431 A CN202310496431 A CN 202310496431A CN 116759000 A CN116759000 A CN 116759000A
- Authority
- CN
- China
- Prior art keywords
- smiles
- byproduct
- sequence
- product
- target product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000006227 byproduct Substances 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 59
- 239000000047 product Substances 0.000 claims abstract description 146
- 239000000376 reactant Substances 0.000 claims abstract description 58
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 24
- 150000002894 organic compounds Chemical class 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 244000290333 Vanilla fragrans Species 0.000 claims description 2
- 235000009499 Vanilla fragrans Nutrition 0.000 claims description 2
- 235000012036 Vanilla tahitensis Nutrition 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims 1
- 238000013461 design Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 229960001602 ceritinib Drugs 0.000 description 2
- VERWOWGGCGHDQE-UHFFFAOYSA-N ceritinib Chemical compound CC=1C=C(NC=2N=C(NC=3C(=CC=CC=3)S(=O)(=O)C(C)C)C(Cl)=CN=2)C(OC(C)C)=CC=1C1CCNCC1 VERWOWGGCGHDQE-UHFFFAOYSA-N 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000000543 intermediate Substances 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- MZPVEMOYADUARK-UHFFFAOYSA-N 2-(4-phenoxyphenyl)-6-(1-prop-2-enoylpiperidin-4-yl)pyridine-3-carboxamide Chemical compound NC(=O)C1=CC=C(C2CCN(CC2)C(=O)C=C)N=C1C(C=C1)=CC=C1OC1=CC=CC=C1 MZPVEMOYADUARK-UHFFFAOYSA-N 0.000 description 1
- 241000009298 Trigla lyra Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 108010039069 anthrax toxin receptors Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000002144 chemical decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007040 multi-step synthesis reaction Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229940071705 orelabrutinib Drugs 0.000 description 1
- 229960004390 palbociclib Drugs 0.000 description 1
- AHJRHEGDXFFMBM-UHFFFAOYSA-N palbociclib Chemical compound N1=C2N(C3CCCC3)C(=O)C(C(=O)C)=C(C)C2=CN=C1NC(N=C1)=CC=C1N1CCNCC1 AHJRHEGDXFFMBM-UHFFFAOYSA-N 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于逆合成预测技术领域,公开了一种基于副产物的深度逆合成反应预测方法、装置、介质及设备,方法包括如下步骤:首先获取目标产物结构并将其转换为SMILES序列;其次通过副产物预测模型,根据SMILES序列,预测出目标产物反应路线的副产物及其概率,并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列;最后通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型,经转换得到相应的反应物及其概率。本发明能够有效提高有机化合物逆合成反应的预测精度,可对各种来源的化学反应数据提供质量相对较好的合成路线。
Description
技术领域
本发明属于逆合成预测技术领域,具体的说是涉及一种基于副产物的深度逆合成反应预测方法、装置、介质及设备。
背景技术
逆合成预测是有机合成中的一项重要任务。在新药开发过程中,需要设计针对特定生物分子靶点的类药物小分子。高质量的合成途径在小分子的后续研究中发挥着重要作用,可减少药物开发的时间和成本,从而对成功率产生影响。逆合成预测的目标是找到一系列合适的反应物,逐步合成产物。然而,分子在巨大的化学空间中有多种可能的分解方式,即使是最有经验的化学家也很难快速地找到一条有效、高效的可能的化学分解路径。
在单步逆合成预测中,由于反应数据量大且不均匀,使得人工整理反应变换规则非常困难。对于最著名的商业计算机辅助软件包Synthia(前身为Chematica)来说,它包含了大约70,000条反应变换规则,需要超过15年的时间来制定。随着计算机辅助合成路线规划(Computer-Assisted Synthetic Planning,CASP)的提出,越来越多的方法尝试解决这一挑战。在CASP的帮助下,化学家可以设计出复杂的分子,而不必担心它们的合成。对于需要多步合成的分子,蒙特卡罗树搜索(MCTS)等搜索策略可以为化学家寻找合适的中间分子提供合理的建议。搜索策略的不断创新使得单步逆合成预测在CASP中越来越重要。以往的单步逆合成预测大致可分为两种类型:直接预测和两阶段预测。直接预测可以通过直接寻找反应可能适用的模板或将预测视为机器翻译过程,从而直接生成反应物。现有的两阶段预测是首先根据产物预测断键位置以生成合成子,继而结合合成子和产物的信息再进行反应物的预测。然后,就直接预测而言,基于模板的方法虽然包含了更多的化学信息,但也将反应物的预测限制在模板空间内。基于无模板的机器翻译方法显然不受模板的限制,其预测空间将更大,但它缺乏化学可解释性,并且不便于化学家控制预测倾向。
就现有的两阶段模型而言,虽然合成子是具有丰富化学信息的中间产物,它们可以合理地解释模型的预测行为。但也会对第二阶段的预测结果产生较大影响,使得现有两阶段方法的单步逆合成预测在n>10时top-n精度较差。此外,当化合物具有多个潜在反应中心时,大多数现有模型倾向于做出简单的预测,而逃避复杂的预测。
发明内容
为了克服现有技术中的缺点与不足,本发明提供了一种基于副产物的深度逆合成反应预测方法、装置、介质及设备,其中预测方法能够有效地提高逆合成反应的预测精度。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于副产物的深度逆合成预测方法,包括如下步骤:
获取目标产物结构,将目标产物转换为相应的SMILES序列,所述产物分子为有机化合物分子;
通过副产物预测模型,根据目标产物SMILES序列,预测出目标产物反应路线的副产物及其概率,并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列;
通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型,经转换得到相应的反应物及其概率。
本发明的进一步改进在于:所述通过副产物预测模型,根据目标产物SMILES序列,预测出目标产物反应路线的副产物及其概率,并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物总序列,包括:
通过副产物预测模型,预测出目标产物反应路线的副产物及其概率;
通过副产物预测模型,利用图编码器(Graph Encoder)获得目标产物分子的图表示;产物的原子表示由MPN(·)计算所得:
其中N(u)是节点u的邻居,参数表示产物的分子图,分子图被描述为/>原子v为节点,ε为边,xu表示原子u的特征向量,xuv表示化学键(u,v)的特征向量。
采用加和法作为readout函数:
其中hp是产物在嵌入空间中的图表示,cu为目标产物分子的图表示。
在得到产物的图表示后,利用数据增强方法合成少数类图表示;解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间:
其中为副产物的预测概率。
对进行对数似然,使用对数似然结果进行排序,取排序前10的副产物预测结果用于后续与目标产物进行拼接;将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列。
本发明的进一步改进在于:所述将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物总序列,包括:
若反应路线仅存在一个副产物,则用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列;
若反应路线存在多个副产物,副产物SMILES序列之间用“.”进行连接,再用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列。
本发明的进一步改进在于:所述通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物总序列输入反应物预测模型,经转换得到相应的反应物及其概率,包括:
通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物总序列输入反应物预测模型,经转换得到相应的反应物及其概率;
将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列进行20倍的数据增强,对数据增强后的产物SMILES总序列结果根据最小编辑距离确认其合适的副产物SMILES序列表达形式,再将产物SMILES总序列输入Transformer模型中得到反应物SMILES序列,每个扩增源序列翻译结果中保留了前10个结果,去除化学无效的反应物结果,然后添加第一和第二阶段的对数似然结果来对它们进行排序;在得到排序后,为了更科学地考虑SMILES出现的频率,我们使用以下公式计算每个唯一结果的最终得分:
其中r表示去除化学无效的分子后的顺序;
在对每个唯一分子进行统一评分后,选出前50名作为最终反应物预测结果。
本发明还提供了一种基于副产物的深度逆合成反应预测装置,包括:
结构信息转化模块,用于将目标产物转化为相应的SMILES序列;
副产物预测模块,用于预测目标产物相对应的副产物SMILES序列及其概率,并将目标产物SMILES序列与副产物SMILES序列拼接获取产物SMILES总序列;
反应物预测模块,用于预测目标产物相对应的反应物SMILES序列及其概率,并最终得到目标产物的反应路线。
本发明提供了一种存储介质,其中所述储存介质中存储了计算机程序,当该程序被处理器执行时使所述处理器执行上述基于副产物的深度逆合成反应预测方法。
本发明提供了一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储在存储器中的程序时,实现上述基于副产物的深度逆合成反应预测方法。
本发明的有益效果是:针对目前逆合成预测方法存在的问题,本发明提出了一个更契合逆合成预测的模型,通过首先预测反应路线的副产物,再将目标产物分子与副产物分子的SMILES序列整合为一个整体产物SMILES序列,再利用Transformer模型进行反应物的预测,从而提高了模型预测结果的准确度。
利用本发明提出的模型来进行合理的逆合成预测,有助于化学家设计药物作用新分子的合成路线,可以极大地为化学家设计合成新分子提供便利。
附图说明
图1是本发明基于一种基于副产物的深度逆合成反应预测方法的流程图。
图2是本发明副产物预测模型的训练方法的流程示意图。
图3是本发明反应物预测模型的训练方法的流程示意图。
图4是本发明提供的Orelabrutinib(奥布替尼)的逆合成预测方法的场景示意图。
图5是本发明提供的Palbococlib(哌柏西利)的逆合成预测方法的场景示意图。
图6是本发明提供的Ceritinib(色瑞替尼)的逆合成预测方法的场景示意图。
图7是本发明提供的ATR Receptor Ligand(ATR受体-配体)的逆合成预测方法的场景示意图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
本发明实施例提出了一种基于副产物的深度逆合成反应预测方法,通过副产物预测模型预测出目标分子的副产物SMILES序列,然后将反应路线中的副产物SMILES序列整合到目标产物分子SMILES序列中,再将产物总SMILES序列输入Transformer模型中,预测出目标产物分子的反应物,提高逆合成预测结果的准确性。
如图1为本发明提供的一种基于副产物的深度逆合成反应预测方法的流程图。本发明至少包括以下步骤:
获取目标产物结构,将目标产物转换为相应的SMILES序列,所述产物分子为有机化合物分子;
分子图结构转化为SMILES序列主要使用的是一个Rdkit的化学工具库,它可以将分子图结构转换为SMILES序列,也可以对SMILES序列进行处理。
通过副产物预测模型,根据目标产物SMILES序列,预测出目标产物反应路线的副产物及其概率,并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列;
参见图2,图2为本发明提供的副产物预测模型的训练方法的流程示意图。如图2所示,该副产物预测模型的构建的步骤,包括:
获取训练数据,该训练数据包括训练化合物的基本分子和以这些基本分子为起点的训练化合物的合成路线,具体为:使用逆合成预测常用的基准数据集USPTO-50k,该数据集包含50016个具有高质量原子映射但没有直接副产物的反应;为了使结果更具可比性并避免信息泄露,划分训练集/测试集/验证集为8:1:1;
副产物预测模型由少数类样本采样、编码层训练、合成少数类样本过采样和解码层训练四部分组成;设计批量采样器,控制输入模型的每批训练数据中少数类样本的比例;对训练数据中的每条反应路线进行唯一编号,并获得了少数类样本的编号列表;之后进行随机置乱,少数类样本按照设定的比例优先抽样;这样既保证了训练集采样的随机性,又使每批样本中少数类的样本量更加稳定,有利于少数类样本的合成过采样;利用图编码器(Graph Encoder)获得产物的图表示,产物的原子表示由MPN(·)计算所得:
其中N(u)是节点u的邻居,参数表示产物的分子图,分子图被描述为/>原子v为节点,ε为边,xu表示原子u的特征向量,xuv表示化学键(u,v)的特征向量。
采用加和法作为readout函数:
其中hp是产物在嵌入空间中的图表示;
在得到产物的图表示后,利用数据增强方法合成少数类样本图表示;解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间;
其中为副产物的预测概率;
在模型优化阶段,为了更好地适应副产物数据分布的不平衡,我们使用了局部损失的α平衡变体:FL(pt)=-αt(1-pt)γlog pt
其中p是模型对样本所属类别的预测概率,pt=p是模型预测样本正确分类的概率,pt=(1-p)是模型预测样本错误分类的概率,α是权重因子,γ是控制曲线陡峭度的聚焦参数;
在通过副产物预测模型预测出目标产物反应路线的副产物及其概率的阶段,基于局部损失的模型训练公式如下:
其中pv是的第v行,即第v个样本的预测概率,且pv[c]是/>的第c个类别的概率。
其中,所述在得到产物的图表示后,利用数据增强方法合成少数类样本图表示,包括:
经观察副产物分布情况可以发现该数据存在严重分布不平衡,采用GraphSMOTE进行少数合成过采样,基于GNN的特征提取器通过插值产生少量新的样本,并与边缘生成器补充关系信息,形成扩展的平衡图;标签频次较低的90%被划分为少数类样本;对于少数类样本,在嵌入空间中对样本的最近邻域进行插值:
其中Y是节点q,p的标签,nn(p)指的是同一标签下使用欧几里德度量在嵌入空间中计算的p的最近邻居;
通过在最近邻中加入随机扰动,可以通过以下公式合成新的少数节点:
hp'=(1-δ)·hp+δ·hnn(p)
其中δ是一个随机变量,符合[0,1]范围内的均匀分布。
通过副产物预测模型,根据目标产物SMILES序列,预测出目标产物反应路线的副产物及其概率,包括:
通过副产物预测模型,利用图编码器(Graph Encoder)获得目标产物分子的图表示;产物的原子表示由MPN(·)计算所得:
其中N(u)是节点u的邻居,参数表示产物的分子图,分子图被描述为/>原子v为节点,ε为边,xu表示原子u的特征向量,xuv表示化学键(u,v)的特征向量。
采用加和法作为readout函数:
其中hp是产物在嵌入空间中的图表示,cu为目标产物分子的图表示;
解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间:
其中为副产物的预测概率。
对进行对数似然,使用对数似然结果进行排序,取排序前10的副产物预测结果用于后续与目标产物进行拼接;将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列。
其中,若反应路线仅存在一个副产物,则用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列;
若反应路线存在多个副产物,副产物SMILES序列之间用“.”进行连接,再用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列。
通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型,经转换得到相应的反应物及其概率。
图3为本发明提供的反应物预测模型的训练方法的流程示意图。如图3所示,该反应物预测模型的构建的步骤,包括:
利用目标产物分子SMILES序列与副产物分子SMILES序列的拼接方式对其进行拼接;基于最小编辑距离的方法确定副产物SMILES序列;将进行20倍数据增强后的结果输入到Transformer模型中进行训练,Transformer包含两种注意力机制:自注意力和编码器-解码器注意力机制,使其能够自动关注重要信息;遵循R-SMILES的方法使用Vanillatransformer;换句话说,用产物SMILES序列P=(p0,p1,p2,...,pn)、副产物SMILES序列SP=(sp0,sp1,sp2,...spn)和部分解码的反应物SMILES序列R=(r0,r1,r2,...,rn)输入模型,然后进行训练,预测反应物SMILES序列rj+1的下一个字符直至结束,输出结果为反应物SMILES序列。
通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型,经转换得到相应的反应物及其概率。包括:
通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物总序列输入反应物预测模型,经转换得到相应的反应物及其概率;
将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列进行20倍的数据增强,对数据增强后的产物SMILES总序列结果根据最小编辑距离确认其合适的副产物SMILES序列表达形式,再将产物SMILES总序列输入Transformer模型中得到反应物SMILES序列,每个扩增源序列翻译结果中保留了前10个结果,去除化学无效的反应物结果,然后添加第一和第二阶段的对数似然结果来对它们进行排序;第一阶段指副产物预测阶段,第二阶段指反应物预测阶段,在得到排序后,为了更科学地考虑SMILES出现的频率,使用以下公式计算每个唯一结果的最终得分:
其中r表示去除化学无效的分子后的顺序;在对每个唯一分子进行统一评分后,选出前50名作为最终反应物预测结果。
为实现上述基于副产物的深度逆合成反应预测方法,本发明实施例还提供一种基于副产物的深度逆合成反应预测装置,包括:
结构信息转化模块,用于将目标产物转化为相应的SMILES序列;
副产物预测模块,用于预测目标产物相对应的副产物SMILES序列及其概率,并将目标产物SMILES序列与副产物SMILES序列拼接获取产物SMILES总序列;
反应物预测模块,用于预测目标产物相对应的反应物SMILES序列及其概率,并最终得到目标产物的反应路线。
本发明实施例还提供了一种存储介质,其中所述储存介质中存储了计算机程序,当该程序被处理器执行时,能够使处理器执行实施例一所述的基于副产物的深度逆合成反应预测方法。
本发明实施例还提供了一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储在存储器中的程序时,能够实现所述的基于副产物的深度逆合成反应预测方法。
图4、图5、图6、图7为本发明提供的逆合成预测方法的一些实际应用展示,表示该模型可以很好地实现一些药物分子的反应路线分析及反应物的预测。
该方法能够有效提高有机化合物逆合成反应的预测精度,可对各种来源的化学反应数据提供质量相对较好的合成路线。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (10)
1.一种基于副产物的深度逆合成反应预测方法,其特征在于:所述深度逆合成反应预测方法包括如下步骤:
步骤1.获取目标产物结构,将目标产物转换为相应的SMILES序列,产物分子为有机化合物分子;
步骤2.通过副产物预测模型,根据步骤1获取的目标产物SMILES序列,预测出目标产物反应路线的副产物及其概率,并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物SMILES总序列;
步骤3.通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型,经转换得到相应的反应物及其概率。
2.根据权利要求1所述的一种基于副产物的深度逆合成反应预测方法,其特征在于:所述步骤2的副产物预测模型由少数类样本采样、编码层训练、合成少数类样本过采样和解码层训练四部分组成,所述副产物预测模型通过以下方式训练:
步骤2-1:获取训练数据,该训练数据包括训练化合物的基本分子和以这些基本分子为起点的训练化合物的合成路线;
步骤2-2:设计批量采样器,控制输入副产物预测模型的每批训练数据中少数类样本的比例,对训练数据中的每条反应路线进行唯一编号,并获得了少数类样本的编号列表,之后进行随机置乱,少数类样本按照设定的比例优先抽样,利用图编码器(Graph Encoder)获得产物的图表示;
步骤2-3:在得到产物的图表示后,利用数据增强方法合成少数类样本图表示;
步骤2-4:解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间;
其中为副产物的预测概率,hp是产物在嵌入空间中的图表示;
步骤2-5:将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列。
3.根据权利要求1或2所述的一种基于副产物的深度逆合成反应预测方法,其特征在于:所述步骤2通过副产物预测模型,预测出目标产物反应路线的副产物及其概率,并将目标产物SMILES序列与副产物SMILES序列进行连接得到产物总序列,包括:
通过副产物预测模型,利用图编码器(Graph Encoder)获得目标产物分子的图表示;产物的原子表示由MPN(·)计算所得:
其中N(u)是节点u的邻居,参数表示产物的分子图,分子图被描述为/>原子v为节点,ε为边,xu表示原子u的特征向量,xuv表示化学键(u,v)的特征向量,
采用加和法作为readout函数:
其中hp是产物在嵌入空间中的图表示,cu为目标产物分子的图表示;
在得到产物的图表示后,利用数据增强方法合成少数类样本图表示;
解码层使用Multilayer perceptron(MLP)和softmax函数将嵌入空间映射到副产物词汇空间:
其中为副产物的预测概率;
对进行对数似然,使用对数似然结果进行排序,取排序前10的副产物预测结果用于后续与目标产物进行拼接;将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列。
4.根据权利要求3所述的一种基于副产物的深度逆合成反应预测方法,其特征在于:所述步骤2-5中将目标产物SMILES与副产物SMILES用“.”进行拼接得到产物SMILES总序列,包括:
若反应路线仅存在一个副产物,则用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列;
若反应路线存在多个副产物,副产物SMILES序列之间用“.”进行连接,再用“.”来连接目标产物分子SMILES序列和副产物分子SMILES序列。
5.根据权利要求2所述的一种基于副产物的深度逆合成反应预测方法,其特征在于:所述步骤2-3在得到产物的图表示后,利用数据增强方法合成少数类样本图表示,包括:
采用GraphSMOTE进行少数类样本合成过采样,基于GNN的特征提取器通过插值产生少量新的样本,并与边缘生成器补充关系信息,形成扩展的平衡图,标签频次较低的90%被划分为少数类样本;对于少数类样本,在嵌入空间中对样本的最近邻域进行插值:
其中Y是节点q,p的标签,nn(p)指的是同一标签下使用欧几里德度量在嵌入空间中计算的p的最近邻居;
通过在最近邻中加入随机扰动,通过以下公式合成新的少数节点:
hp'=(1-δ)·hp+δ·hnn(p)
其中δ是一个随机变量,符合[0,1]范围内的均匀分布,
在所述步骤2-4中,使用了局部损失的α平衡变体:FL(pt)=-αt(1-pt)γlog pt
其中p是模型对样本所属类别的预测概率,pt=p是模型预测样本正确分类的概率,pt=(1-p)是模型预测样本错误分类的概率,α是权重因子,γ是控制曲线陡峭度的聚焦参数;
在通过副产物预测模型预测出目标产物反应路线的副产物及其概率的阶段,基于局部损失的模型训练公式如下:
其中pv是的第v行,即第v个样本的预测概率,且pv[c]是/>的第c个类别的概率。
6.根据权利要求1所述的一种基于副产物的深度逆合成反应预测方法,其特征在于:步骤3的反应物预测模型通过以下方式训练:
利用步骤2中提到的目标产物SMILES序列与副产物SMILES序列的拼接方式对其进行拼接;
基于最小编辑距离的方法确定副产物SMILES序列;
将进行数据增强后的结果输入到Transformer模型中进行训练,Transformer包含两种注意力机制:自注意力和编码器-解码器注意力机制,使其能够自动关注重要信息;
遵循R-SMILES的方法使用Vanilla transformer即用产物SMILES序列P=(p0,p1,p2,...,pn)、副产物SMILES序列SP=(sp0,sp1,sp2,...spn)和部分解码的反应物SMILES序列R=(r0,r1,r2,...,rn)输入反应物预测模型,然后进行训练,预测反应物SMILES序列rj+1的下一个字符直至结束,输出结果为反应物SMILES序列。
7.根据权利要求6所述的一种基于副产物的深度逆合成反应预测方法,其特征在于:所述步骤3通过反应物预测模型,将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列输入反应物预测模型,经转换得到相应的反应物及其概率,包括:
将目标产物SMILES序列与副产物SMILES序列进行连接后的产物SMILES总序列进行数据增强,对数据增强后的产物SMILES总序列结果根据最小编辑距离确认其合适的副产物SMILES序列表达形式,再将产物SMILES总序列输入Transformer模型中得到反应物SMILES序列,每个扩增源序列翻译结果中保留了前10个结果,去除化学无效的反应物结果,然后添加副产物预测和反应物预测阶段的对数似然结果来对它们进行排序;在得到排序后,使用以下公式计算每个唯一结果的最终得分:
其中r表示去除化学无效的分子后的顺序;
在对每个唯一分子进行统一评分后,选出前50名作为最终反应物预测结果。
8.一种基于副产物的深度逆合成反应预测装置,其特征在于:该反应预测装置包括:
结构信息转化模块,用于将目标产物转化为相应的SMILES序列;
副产物预测模块,用于预测目标产物相对应的副产物SMILES序列及其概率,并将目标产物SMILES序列与副产物SMILES序列拼接获取产物SMILES总序列;
反应物预测模块,用于预测目标产物相对应的反应物SMILES序列及其概率,并最终得到目标产物的反应路线。
9.一种存储介质,其特征在于:在所述存储介质中存储了计算机程序,其中,档所述计算机程序被处理器执行时,所述存储介质使处理器执行如权利要求1-7任一项所述的基于副产物的深度逆合成反应预测方法。
10.一种计算设备,其特征在于:所述设备包括处理器和用于存储处理器的可执行程序的存储器,当处理器执行存储在存储器中的程序时,实现如权利要求1-7任一项所述的基于副产物的深度逆合成反应预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496431.0A CN116759000A (zh) | 2023-05-05 | 2023-05-05 | 一种基于副产物的深度逆合成反应预测方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496431.0A CN116759000A (zh) | 2023-05-05 | 2023-05-05 | 一种基于副产物的深度逆合成反应预测方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116759000A true CN116759000A (zh) | 2023-09-15 |
Family
ID=87957860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310496431.0A Pending CN116759000A (zh) | 2023-05-05 | 2023-05-05 | 一种基于副产物的深度逆合成反应预测方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116759000A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457093A (zh) * | 2023-12-20 | 2024-01-26 | 烟台国工智能科技有限公司 | 基于数据扩增的有机反应产物逆合成方法及装置 |
CN118393098A (zh) * | 2024-06-20 | 2024-07-26 | 广东海洋大学 | 一种海洋牧场水质远程监测方法及系统 |
-
2023
- 2023-05-05 CN CN202310496431.0A patent/CN116759000A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457093A (zh) * | 2023-12-20 | 2024-01-26 | 烟台国工智能科技有限公司 | 基于数据扩增的有机反应产物逆合成方法及装置 |
CN117457093B (zh) * | 2023-12-20 | 2024-03-08 | 烟台国工智能科技有限公司 | 基于数据扩增的有机反应产物逆合成方法及装置 |
CN118393098A (zh) * | 2024-06-20 | 2024-07-26 | 广东海洋大学 | 一种海洋牧场水质远程监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116759000A (zh) | 一种基于副产物的深度逆合成反应预测方法、装置、介质及设备 | |
Schwaller et al. | Machine intelligence for chemical reaction space | |
Bradshaw et al. | A model to search for synthesizable molecules | |
Simm et al. | Context-driven exploration of complex chemical reaction networks | |
Tropsha et al. | Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR | |
CN115380330A (zh) | 用于分层分子生成的图归一化流 | |
Kammeraad et al. | What does the machine learn? Knowledge representations of chemical reactivity | |
Ertl et al. | IADE: a system for intelligent automatic design of bioisosteric analogs | |
US20230223112A1 (en) | Retrosynthesis using neural networks | |
Su et al. | Predicting the feasibility of copper (i)-catalyzed alkyne–azide cycloaddition reactions using a recurrent neural network with a self-attention mechanism | |
Yoshimori et al. | Deep SAR matrix: SAR matrix expansion for advanced analog design using deep learning architectures | |
Wang et al. | Controllable Data Generation by Deep Learning: A Review | |
Zeng et al. | Bio-inspired chemical space exploration of terpenoids | |
JP7021443B2 (ja) | 出発物質からの化学反応を解析する解析方法、解析装置、解析システムおよび解析プログラム | |
WO2024009917A1 (ja) | 触媒の選択方法、触媒及び触媒の製造方法 | |
Wang et al. | The present state and challenges of active learning in drug discovery | |
Yoshimori et al. | Iterative DeepSARM modeling for compound optimization | |
Lavigne et al. | Guided discovery of chemical reaction pathways with imposed activation | |
Shee et al. | Site-Specific Template Generative Approach for Retrosynthetic Planning | |
EP4169024A1 (en) | Chemical reaction graph encoding software, corresponding method and associated data applications | |
Zheng et al. | Application scenario-oriented molecule generation platform developed for drug discovery | |
US20030229477A1 (en) | Separation of matching and mapping in chemical reaction transforms | |
CN113517033B (zh) | 小样本环境下基于XGBoost的化学反应产率智能预测与分析方法 | |
Zhang et al. | Retrosynthesis prediction enhanced by in-silico reaction data augmentation | |
CN116935969B (zh) | 基于深度搜索的生物逆合成预测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |