CN112397155B - 一种单步逆向合成方法及系统 - Google Patents

一种单步逆向合成方法及系统 Download PDF

Info

Publication number
CN112397155B
CN112397155B CN202011383345.1A CN202011383345A CN112397155B CN 112397155 B CN112397155 B CN 112397155B CN 202011383345 A CN202011383345 A CN 202011383345A CN 112397155 B CN112397155 B CN 112397155B
Authority
CN
China
Prior art keywords
training
subsequence
module
reaction
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011383345.1A
Other languages
English (en)
Other versions
CN112397155A (zh
Inventor
谢朋宇
卓汉逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011383345.1A priority Critical patent/CN112397155B/zh
Publication of CN112397155A publication Critical patent/CN112397155A/zh
Application granted granted Critical
Publication of CN112397155B publication Critical patent/CN112397155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种单步逆向合成方法及系统,该方法包括:获取反应方程训练集;S2、以反应方程训练集训练反应中心识别模块;以反应方程训练集训练语法树生成模块;获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列;将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树;基于抽象语法树的语法规则得到对应反应物的SMILES表达式。该系统包括:反应中心识别模块和语法树生成模块。本发明在保证可拓展性前提下具有更高预测准确率。本发明作为一种单步逆向合成方法及系统,可广泛应用于化合物合成分析领域。

Description

一种单步逆向合成方法及系统
技术领域
本发明属于化合物合成分析领域,尤其涉及一种单步逆向合成方法及系统。
背景技术
逆合成分析是解决有机合成路线的重要方法,其实质是通过分析目标分子结构,逐步将其拆解为更简单、更容易合成的中间产物,直到推理出的所有反应物都是现有的构建块,从而完成对目标分子合成路线的设计。现有的单步逆向合成分析在体系上可以分为基于模板和免模板的方法。模板是利用反应方程提取出的通配模式,反映了具有相同反应中心的反应方程的规律。基于模板的方法需要预处理得到模板,不仅耗费资源,而且泛化性能受限。
发明内容
为了解决上述技术问题,本发明的目的是提供一种单步逆向合成方法及系统,实现了在保证可拓展性前提下具有更高预测准确率。
本发明所采用的第一技术方案是:一种单步逆向合成方法,包括以下步骤:
获取反应方程数据集并对反应方程数据集进行预处理,得到训练集;
根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块;
根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块;
获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列;
将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树;
基于抽象语法树的语法规则对待测抽象语法树进行处理,得到对应反应物的SMILES表达式。
进一步,还包括:
将部分反映方程数据集作为验证集,对训练完成的反应中心识别模块和训练完成的语法树生成模块进行验证。
进一步,所述获取反应方程数据集并对反应方程数据集进行预处理,得到训练集这一步骤,其具体包括:
获取反应方程数据集;
过滤反应方程数据集中产物数量大于1的方程;
过滤反应方程数据集中含有不合法SMILE表达式的方程;
得到训练集。
进一步,所述根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块这一步骤,其具体还包括:
根据训练集中反应方程的产物和反应物的对比,标记产物在反应过程中需要断开的键对,得到标签矩阵;
基于RDKIT获取产物中的原子并以原子为节点、键对为边的逻辑,得到产物分子图;
根据标签矩阵和产物分子图训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块。
进一步,所述根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块这一步骤,其具体包括:
以标题向量为指引,并基于多头注意力机制学习向量之间的相关性,得到句子间的语义关系;
根据SMILES语法规则抽取训练集中反应物对应的AST作为标签;
根据训练集中合成子序列和对应的标签训练预构建的语法树生成模块,得到训练完成的语法树生成模块。
进一步,所述获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列这一步骤,其具体包括:
获取待测产物SMILES表达式并进行特征抽取,得到分子各个键对的特征;
根据分子各个键对的特征预测分子各个键对断开的概率,并将预测到的键对断开的概率大于预设阈值的键对移除,得到待测合成子序列。
进一步,所述将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树这一步骤,其具体包括:
将合成子序列进行编码,得到序列编码特征向量;
基于Tree-Transformer框架对序列编码特征向量进行解码,得到待测抽象语法树。
本发明所采用的第二技术方案是:一种单步逆向合成系统,包括以下模块:
反应中心识别模块,用于对产物SMILES表达式进行处理,输出合成子序列;
语法树生成模块,用于根据合成子序列,输出抽象语法树结构。
进一步,所述反应中心识别模块还包括:
特征抽取模块,用于对产物SMILES表达式进行特征抽取,得到分子各个键对的特征;
特征交互和预测模块,用于根据分子各个键对的特征预测分子各个键对断开的概率,并将预测到的键对断开的概率大于预设阈值的键对移除,得到待测合成子序列。
进一步,所述语法树生成模块还包括:
编码模块,用于将合成子序列进行编码,得到序列编码特征向量;
解码模块,用于基于Tree-Transformer框架对序列编码特征向量进行解码,得到待测抽象语法树。
本发明方法及系统的有益效果是:本发明通过基于边进行信息传递的GCN作为反应中心识别模块,有效解决信息传递过程中冗余的循环传递的问题,还采用了序列到树的编码解码思路,直接生成语法树,有效解决了生成的SMILES表达式不合法的问题。
附图说明
图1是本发明具体实施例一种单步逆向合成方法的步骤流程图;
图2是本发明具体实施例一种单步逆向合成系统的结构框图;
图3是本发明具体实施例整体流程示意图;
图4是本发明具体实施例语法树生成模块的数据处理步骤流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明所解决的技术问题是研究一种在保证可拓展性前提下具有更高预测准确率的单步逆向合成分析方法。
如图1和图3所示,本发明提供了一种单步逆向合成方法,该方法包括以下步骤:
S1、获取反应方程数据集并对反应方程数据集进行预处理,得到训练集;
S2、根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块;
S3、根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块;
S4、获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列;
S5、将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树;
S6、基于抽象语法树的语法规则对待测抽象语法树进行处理,得到对应反应物的SMILES表达式。
具体地,本发明提出了一种新颖的深度学习框架,能够根据产物的SMILES表达式预测需要的反应物的SMILES表达式,为化合物的合成路径分析提供了高效的解法。本发明在药物发现等实际应用中可以发挥作用,推动化学、药学、免疫学等学科和相关产业的研究发展。
进一步作为本方法的优选实施例,还包括:
将部分反映方程数据集作为验证集,对训练完成的反应中心识别模块和训练完成的语法树生成模块进行验证。
具体地,在验证集上,先使用反应中心识别模块找到需要断开的键对,得到合成子,然后拼接合成子序列后输入语法树生成模块,得到反应物的抽象语法树。
进一步作为本方法优选实施例,所述获取反应方程数据集并对反应方程数据集进行预处理,得到训练集这一步骤,其具体包括:
获取反应方程数据集;
过滤反应方程数据集中产物数量大于1的方程;
过滤反应方程数据集中含有不合法SMILE表达式的方程;
得到训练集。
具体地,对USPTO-50K反应方程数据集进行预处理,过滤产物数量大于1的方程,以及不合法的SMILE表示式(例如缺少原子映射序号)。
进一步作为本发明的优选实施例,所述根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块这一步骤,其具体还包括:
根据训练集中反应方程的产物和反应物的对比,标记产物在反应过程中需要断开的键对,得到标签矩阵;
基于RDKIT获取产物中的原子并以原子为节点、键对为边的逻辑,得到产物分子图;;
根据标签矩阵和产物分子图训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块。
具体地,根据反应方程的产物和反应物的对比,标记产物在反应过程中需要断开的键对,得到标签矩阵Y,然后根据原子为节点、键对为边的逻辑,将产物分子表示为图,作为输入X,使用训练数据<X,Y>来训练反应中心识别模块。
进一步作为本发明优选实施例,所述根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块这一步骤,其具体包括:
根据SMILES语法规则抽取训练集中反应物对应的AST作为标签;
根据训练集中合成子序列和对应的标签训练预构建的语法树生成模块,得到训练完成的语法树生成模块。
具体地,根据反应方程的真实反应物,使用SMILES语法规则抽取其对应的AST作为标签。训练阶段使用Teacher-Forcing策略,即每一步使用真实的而不是预测的语法规则作为标签。根据真实的断开键对记录对产物进行断开,得到合成子序列作为输入的一部分。将当前时间步已经生成的反应物子树输入树编码模块,将根节点到当前预测的非终端节点的路径表征一起输入树解码器,将预测出的语法规则分布与真实语法规则分布计算交叉熵损失。
进一步作为本发明优选实施例,所述获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列这一步骤,其具体包括:
获取待测产物SMILES表达式并进行特征抽取,得到分子各个键对的特征;
具体地,特征抽取模块采用GNN的变种,基于边进行消息传递的GCN,可以有效避免消息传递过程出现冗余的消息循环传递。初始化阶段,在初始化分子(节点)以及键对(边)的隐状态时,将原子与键对的化学特征作为先验知识加入其中,得到节点v的隐状态xv以及边vw的隐状态evw,然后,根据下述公式进行节点以及边状态的更新,其中τ表示多层感知机:
其中τ表示多层感知机,Wi表示第i个节点的参数矩阵,为t=0时刻的隐状态;
对于t∈{1,…,T},计算消息向量然后更新下一时刻的隐状态/>
然后根据下述公式得到无向边vw(键对)的表征并将其送入另一个多层感知机,预测键对vw是反应中心的概率pvw,其中σ为sigmoid激活函数,Wj和bj均为可学习的参数:
根据分子各个键对的特征预测分子各个键对断开的概率,并将预测到的键对断开的概率大于预设阈值的键对移除,得到待测合成子序列。
具体地,经过特征交互,对输入的键对预测其需要作为反应中心而在反应过程中断开的概率。对于预测出的断开概率大于一定阈值的键对,利用RDKIT框架将键对移除,得到几个切分后的不完整的分子,称为合成子。合成子与对应的反应物之间相差的部分,称为离开基团,得到合成子序列。
进一步作为本发明优选实施例,所述将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树这一步骤,其具体包括:
将合成子序列进行编码,得到序列编码特征向量;
基于Tree-Transformer框架对序列编码特征向量进行解码,得到待测抽象语法树。
另外,这里的语法树生成模块又可以分为序列编码模块、树编码模块以及树解码模块。具体的模块架构参照图4,这里的具体步骤改为对实时解码步骤每一步生成的子树进行编码,得到已生成子树编码特征向量;根据序列编码特征向量、已生成子树编码特征向量、从根节点到需要拓展的非终端节点的路径特征,选择语法规则生成抽象语法树。
序列编码子模块是一个具有层的网络结构,第一层是表征层,包括单词表征和位置表征,对于输入的token序列,通过lookup-table得到它们的表征,位置表征采用类似Transformer提出的位置编码函数。其余的层,每一层都包含了两个子层,分别是多头自注意力层和卷积层,每个子层前后都加上了残差连接,并对子层的输出使用层归一化(LayerNormalization)。
树编码子模块是一个具有层的网络结构,第一层是表征层,包括规则表征和位置表征,其中规则表征使用table-lookup得到,而位置表征包括规则在规则序列中的位置以及其在AST中的深度。对于其余层,每一层都包含了三个子层,分别是多头自注意力层,序列编码-解码注意力层,以及树卷积层。多头自注意力层和序列编码-解码层衍生自Transformer网络,树卷积层是为了将一个结点的祖先结点与其表征结合到一起。
树解码子模块是一个具有层的网络结构,输入是从根节点到待查询的非终端节点的路径的表征,每一层具有两个子层,分别是树编码解码注意力层和序列编码解码注意力层,基于编码-解码注意力机制,分别融合了来自树编码子模块和序列编码子模块的输出信息。最后接上两层全连接层作为分类层,并且在其中间使用GELU激活函数。
如图2所示,一种单步逆向合成系统,包括以下模块:
反应中心识别模块,用于对产物SMILES表达式进行处理,输出合成子序列;
具体地,反应中心识别模块的输入是产物,输出是需要断裂的键对。
语法树生成模块,用于根据合成子序列,输出抽象语法树结构。
具体地,语法树生成模块整体采用序列到树的架构,即输入为序列,输出为树结构。
进一步作为本系统的优选实施例,所述反应中心识别模块还包括:
特征抽取模块,用于对产物SMILES表达式进行特征抽取,得到分子各个键对的特征;
特征交互和预测模块,用于根据分子各个键对的特征预测分子各个键对断开的概率,并将预测到的键对断开的概率大于预设阈值的键对移除,得到待测合成子序列。
进一步作为本系统的优选实施例,所述语法树生成模块还包括:
编码模块,用于将合成子序列进行编码,得到序列编码特征向量;
解码模块,用于基于Tree-Transformer框架对序列编码特征向量进行解码,得到待测抽象语法树。
上述系统实施例中的内容均适用于本方法实施例中,本方法实施例所具体实现的功能与上述系统实施例相同,并且达到的有益效果与上述系统实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.一种单步逆向合成方法,其特征在于,包括以下步骤:
获取反应方程数据集并对反应方程数据集进行预处理,得到训练集;
根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块;
根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块;
获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列;
将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树;
基于抽象语法树的语法规则对待测抽象语法树进行处理,得到对应反应物的SMILES表达式;
所述根据训练集中反应方程的反应物和产物训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块这一步骤,其具体还包括:
根据训练集中反应方程的产物和反应物的对比,标记产物在反应过程中需要断开的键对,得到标签矩阵;
基于RDKIT获取产物中的原子并以原子为节点、键对为边的逻辑,得到产物分子图;
根据标签矩阵和产物分子图训练预构建的反应中心识别模块,得到训练完成的反应中心识别模块;
所述获取待测产物SMILES表达式并输入到训练完成的反应中心识别模块,得到待测合成子序列这一步骤,其具体包括:
获取待测产物SMILES表达式并进行特征抽取,得到分子各个键对的特征;
根据分子各个键对的特征预测分子各个键对断开的概率,并将预测到的键对断开的概率大于预设阈值的键对移除,得到待测合成子序列;
所述将待测合成子序列输入到训练完成的语法树生成模块,得到待测抽象语法树这一步骤,其具体包括:
将合成子序列进行编码,得到序列编码特征向量;
基于Tree-Transformer框架对序列编码特征向量进行解码,得到待测抽象语法树。
2.根据权利要求1所述一种单步逆向合成方法,其特征在于,还包括:
将部分反映方程数据集作为验证集,对训练完成的反应中心识别模块和训练完成的语法树生成模块进行验证。
3.根据权利要求2所述一种单步逆向合成方法,其特征在于,所述获取反应方程数据集并对反应方程数据集进行预处理,得到训练集这一步骤,其具体包括:
获取反应方程数据集;
过滤反应方程数据集中产物数量大于1的方程;
过滤反应方程数据集中含有不合法SMILE表达式的方程;
得到训练集。
4.根据权利要求3所述一种单步逆向合成方法,其特征在于,所述根据训练集中反应方程的合成子序列训练预构建的语法树生成模块,得到训练完成的语法树生成模块这一步骤,其具体包括:
根据SMILES语法规则抽取训练集中反应物对应的AST作为标签;
根据训练集中合成子序列和对应的标签训练预构建的语法树生成模块,得到训练完成的语法树生成模块。
5.一种单步逆向合成系统,其特征在于,包括以下模块:
反应中心识别模块,用于对产物SMILES表达式进行处理,输出待测合成子序列;
语法树生成模块,用于根据合成子序列,输出抽象语法树结构;
所述反应中心识别模块还包括:
特征抽取模块,用于对产物SMILES表达式进行特征抽取,得到分子各个键对的特征;
特征交互和预测模块,用于根据分子各个键对的特征预测分子各个键对断开的概率,并将预测到的键对断开的概率大于预设阈值的键对移除,得到待测合成子序列;
所述语法树生成模块还包括:
编码模块,用于将合成子序列进行编码,得到序列编码特征向量;
解码模块,用于基于Tree-Transformer框架对序列编码特征向量进行解码,得到待测抽象语法树。
CN202011383345.1A 2020-12-01 2020-12-01 一种单步逆向合成方法及系统 Active CN112397155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011383345.1A CN112397155B (zh) 2020-12-01 2020-12-01 一种单步逆向合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011383345.1A CN112397155B (zh) 2020-12-01 2020-12-01 一种单步逆向合成方法及系统

Publications (2)

Publication Number Publication Date
CN112397155A CN112397155A (zh) 2021-02-23
CN112397155B true CN112397155B (zh) 2023-07-28

Family

ID=74604037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011383345.1A Active CN112397155B (zh) 2020-12-01 2020-12-01 一种单步逆向合成方法及系统

Country Status (1)

Country Link
CN (1) CN112397155B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782109A (zh) * 2021-09-13 2021-12-10 烟台国工智能科技有限公司 基于蒙特卡洛树的反应物推导方法及逆向合成推导方法
CN114360662A (zh) * 2021-12-21 2022-04-15 武汉大学 一种基于两路多分支cnn的单步逆合成方法及系统
CN114530208A (zh) * 2022-02-18 2022-05-24 中山大学 一种化学逆向合成路径规划方法及系统
CN115130655A (zh) * 2022-05-22 2022-09-30 上海图灵智算量子科技有限公司 解决逆合成中产物反应中心预测的方法
CN115761250B (zh) * 2022-11-21 2023-10-10 北京科技大学 一种化合物逆合成方法及装置
CN117133371B (zh) * 2023-10-25 2024-01-05 烟台国工智能科技有限公司 基于人工断键的无模板单步逆合成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789047A (zh) * 2010-02-05 2010-07-28 四川大学 基于逆向合成的有机小分子化合物可合成性评价方法
CN111459491A (zh) * 2020-03-17 2020-07-28 南京航空航天大学 一种基于树形神经网络的代码推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789047A (zh) * 2010-02-05 2010-07-28 四川大学 基于逆向合成的有机小分子化合物可合成性评价方法
CN111459491A (zh) * 2020-03-17 2020-07-28 南京航空航天大学 一种基于树形神经网络的代码推荐方法

Also Published As

Publication number Publication date
CN112397155A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN112397155B (zh) 一种单步逆向合成方法及系统
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112926303B (zh) 一种基于BERT-BiGRU的恶意URL检测方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN113064586B (zh) 一种基于抽象语法树增广图模型的代码补全方法
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN111223532A (zh) 确定目标化合物的反应物的方法、设备、装置、介质
CN114530258A (zh) 一种深度学习药物相互作用预测方法、装置、介质和设备
CN113889179A (zh) 基于多视图深度学习的化合物-蛋白质相互作用预测方法
CN113688878A (zh) 一种基于记忆力机制和图神经网络的小样本图像分类方法
Zhu et al. Associative learning mechanism for drug‐target interaction prediction
CN115831246A (zh) 一种药物化学反应合成与转化率预测联合优化方法
CN117573096B (zh) 一种融合抽象语法树结构信息的智能代码补全方法
CN117012304B (zh) 融合ggnn-gan的深度学习分子生成系统及方法
Wang et al. MechRetro is a chemical-mechanism-driven graph learning framework for interpretable retrosynthesis prediction and pathway planning
Paaßen et al. Embeddings and representation learning for structured data
CN115035455A (zh) 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、系统和存储介质
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN115114930A (zh) 一种基于序列到森林的非连续实体识别方法
CN114692012A (zh) 一种基于Bert的神经协同过滤的电子政务推荐方法
Tang et al. Multi-view teacher with curriculum data fusion for robust unsupervised domain adaptation
CN115101119B (zh) 基于网络嵌入的isoform功能预测系统
CN117877623B (zh) 一种基于多层级可解释性表征的最优分子子结构选取方法
Zuo Representation learning and forecasting for inter-related time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant