CN116189804A - 基于图卷积神经网络的反应条件预测方法及系统 - Google Patents

基于图卷积神经网络的反应条件预测方法及系统 Download PDF

Info

Publication number
CN116189804A
CN116189804A CN202310402189.6A CN202310402189A CN116189804A CN 116189804 A CN116189804 A CN 116189804A CN 202310402189 A CN202310402189 A CN 202310402189A CN 116189804 A CN116189804 A CN 116189804A
Authority
CN
China
Prior art keywords
reaction
result
hidden layer
data set
catalyst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310402189.6A
Other languages
English (en)
Other versions
CN116189804B (zh
Inventor
李中伟
李奇文
却立勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Guogong Intelligent Technology Co ltd
Original Assignee
Yantai Guogong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Guogong Intelligent Technology Co ltd filed Critical Yantai Guogong Intelligent Technology Co ltd
Priority to CN202310402189.6A priority Critical patent/CN116189804B/zh
Publication of CN116189804A publication Critical patent/CN116189804A/zh
Application granted granted Critical
Publication of CN116189804B publication Critical patent/CN116189804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于图卷积神经网络的反应条件预测方法及系统,属于反应条件预测技术领域,要解决的技术问题为如何快速且准确的确定化学反应的反应条件。包括如下步骤:采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集;对于样本数据集中每个反应条件,对反应条件中非数值型字段进行one hot编码;基于反应物和产物的图结构编码构建反应的反应编码;以序列化方式搭建基于图卷积神经网络的反应条件预测模型;基于样本数据集对应的反应编码和反应条件对反应条件预测模型进行模型训练;通过训练后的反应条件预测模型输出预测的反应条件。

Description

基于图卷积神经网络的反应条件预测方法及系统
技术领域
本发明涉及反应条件预测技术领域,具体地说是基于图卷积神经网络的反应条件预测方法及系统。
背景技术
寻找最佳的反应条件一直是化学家们致力于解决的关键瓶颈问题,然而,由于反应空间具有高维度的特点,导致难以通过有效手段快速地确定反应条件。在过去相当长的时间内,化学领域的研究员们在对反应条件的筛选上需要耗费大量的时间精力和实验资源,严重阻碍了科研效率的有效提升。
如何快速且准确的确定化学反应的反应条件,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于图卷积神经网络的反应条件预测方法及系统,来解决如何快速且准确的确定化学反应的反应条件的技术问题。
第一方面,本发明一种基于图卷积神经网络的反应条件预测方法,包括如下步骤:
采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集,所述历史反应条件数据包括反应物、产物以及反应条件,所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度,其中,催化剂类型、溶剂类型以及试剂类型为非数值型字段,催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段;
对于样本数据集中每个反应条件,对反应条件中非数值型字段进行one hot编码,得到对应的one hot向量;
对于基于样本数据集中反应物和产物组成的反应,基于反应物和产物的图结构编码构建反应的反应编码;
以序列化方式搭建基于图卷积神经网络的反应条件预测模型,所述反应条件预测模型以反应编码为输入,预测输出反应条件,其中,所述反应编码为基于反应物和产物的图结构编码构建的图结构编码;
基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练,得到训练后反应条件预测模型,其中,在进行模型训练时,反应条件中的非数值型字段选用其对应的one hot向量;
对于待预测的反应,基于其反应物和产物的图结构编码构建所述反应的反应编码,以所述反应编码为输入,通过训练后的反应条件预测模型输出预测的反应条件。
作为优选,对历史反应条件数据集进行数据过滤,包括如下步骤:
剔除原始数据集中产物个数大于1的反应条件数据;
剔除原始数据集中反应条件字段缺失的反应条件数据;
剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。
作为优选,基于反应物和产物的图结构编码构建所述反应对应的反应编码,包括如下步骤:
将产物以及每个反应物分别编码为维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、维度为Natom×Natom的邻接矩阵;
获取初始数据集中反应物与产物分子最大原子数Nmax_atom
对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别将产物以及每个反应物的原子特征向量矩阵padding为维度为Nmax_atom×Fatom的矩阵,将将产物以及每个反应物的键特征向量矩阵padding为维度为Nmax_atom×Fbond的矩阵,将将产物以及每个反应物的邻接矩阵padding为维度为Nmax_atom×Nmax_atom的矩阵;
基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和;
基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差,得到反应的原子特征向量矩阵,将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差,得到反应的键特征向量矩阵,并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差,得到反应的邻接矩阵,所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。
作为优选,所述反应条件预测模型包括:
特征提取模块,所述特征提取模块用于基于输入的反应编码进行特征提取,工作方式为:将反应编码输入两层图卷积层后,通过两层全连接隐藏层输出一个隐层表征DenseGraph;
催化剂分类预测模块,所述催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测,工作方式为:将所述隐层表征Dense Graph输入一个全连接隐藏层后,通过一个输出层输出的催化剂类型预测结果;
催化剂剂量预测模块,所述催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测,工作方式为:将催化剂类型对应的one hot向量输入一个全连接隐藏层后,将所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出催化剂剂量预测结果;
溶剂类型预测模块,所述溶剂类型预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂分类预测,工作方式为:将催化剂类型对应的one hot向量通输入一个全连接隐藏层后,将由所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出溶剂类型预测结果;
溶剂剂量预测模块,所述溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出溶剂剂量预测结果;
试剂类型预测模块,所述试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行试剂的分类预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂类型预测结果;
试剂剂量预测模块,所述试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂剂量预测结果;
温度预测模块,所述温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出温度预测结果。
作为优选,对所述反应条件预测模型进行模型训练时,
对于所述催化剂分类预测模块,以样本数据集对应的反应编码为输入,以样本数据集中催化剂类型为标签进行训练;
对于所述催化剂剂量预测模块,以样本数据集中催化剂类型实际结果对应的onehot以及样本数据集对应的反应编码为输入,以样本数据集中催化剂剂量实际结果为标签进行训练;
对于所述溶剂类型预测模块,以样本数据集中催化剂类型实际结果对应的onehot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂类型实际结果为标签进行训练;
对于所述溶剂剂量预测模块,以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂剂量实际结果为标签进行训练;
对于试剂类型预测模块,以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中试剂类型实际结果为标签进行训练;
对于试剂剂量预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入,以样本数据集中试剂剂量实际结果为标签进行训练;
对于温度预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入,以样本数据集中温度实际结果为标签进行训练。
第二方面,本发明一种基于图卷积神经网络的反应条件预测系统,用于执行如第一方面任一项所述的基于图卷积神经网络的反应条件预测进行反应条件预测,所述系统包括:
数据采集模块,所述数据采集模块用于采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集,所述历史反应条件数据包括反应物、产物以及反应条件,所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度,其中,催化剂类型、溶剂类型以及试剂类型为非数值型字段,催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段;
one hot编码模块,对于样本数据集中每个反应条件,所述one hot编码模块用于对反应条件中非数值型字段进行one hot编码,得到对应的one hot向量;
反应编码模块,对于基于样本数据集中反应物和产物组成的反应,所述反应编码模块用于基于反应物和产物的图结构编码构建反应的反应编码;对于待预测的反应,所述反应条件预测模块用于基于其反应物和产物的图结构编码构建所述反应的反应编码;
模型构建模块,所述模型构建模块用于以序列化方式搭建基于图卷积神经网络的反应条件预测模型,所述反应条件预测模型以反应编码为输入,预测输出反应条件,其中,所述反应编码为基于反应物和产物的图结构编码构建的图结构编码;
模型训练模块,所述模型训练模块用于基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练,得到训练后反应条件预测模型,其中,在进行模型训练时,反应条件中的非数值型字段选用其对应的one hot向量;
反应条件预测模块,对于待预测的反应,所述反应条件预测模块用于调用通过反应编码模块生成的反应编码,以反应编码为输入,通过训练后的反应条件预测模型输出预测的反应条件。
作为优选,所述数据采集模块用于执行如下对历史反应条件数据集进行数据过滤:
剔除原始数据集中产物个数大于1的反应条件数据;
剔除原始数据集中反应条件字段缺失的反应条件数据;
剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。
作为优选,对于基于样本数据集中反应物和产物组成的反应,所述反应编码模块用于执行如下基于反应物和产物的图结构编码构建所述反应对应的反应编码:
将产物以及每个反应物分别编码为维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、维度为Natom×Natom的邻接矩阵;
获取初始数据集中反应物与产物分子最大原子数Nmax_atom
对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别将产物以及每个反应物的原子特征向量矩阵padding为维度为Nmax_atom×Fatom的矩阵,将将产物以及每个反应物的键特征向量矩阵padding为维度为Nmax_atom×Fbond的矩阵,将将产物以及每个反应物的邻接矩阵padding为维度为Nmax_atom×Nmax_atom的矩阵;
基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和;
基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差,得到反应的原子特征向量矩阵,将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差,得到反应的键特征向量矩阵,并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差,得到反应的邻接矩阵,所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。
作为优选,所述反应条件预测模型包括:
特征提取模块,所述特征提取模块用于基于输入的反应编码进行特征提取,工作方式为:将反应编码输入两层图卷积层后,通过两层全连接隐藏层输出一个隐层表征DenseGraph;
催化剂分类预测模块,所述催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测,工作方式为:将所述隐层表征Dense Graph输入一个全连接隐藏层后,通过一个输出层输出的催化剂类型预测结果;
催化剂剂量预测模块,所述催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测,工作方式为:将催化剂类型对应的one hot向量输入一个全连接隐藏层后,将所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出催化剂剂量预测结果;
溶剂类型预测模块,所述溶剂类型预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂分类预测,工作方式为:将催化剂类型对应的one hot向量通输入一个全连接隐藏层后,将由所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出溶剂类型预测结果;
溶剂剂量预测模块,所述溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出溶剂剂量预测结果;
试剂类型预测模块,所述试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行试剂的分类预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂类型预测结果;
试剂剂量预测模块,所述试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂剂量预测结果;
温度预测模块,所述温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出温度预测结果。
作为优选,对所述反应条件预测模型进行模型训练时,所述模型训练模块用于执行如下:
对于所述催化剂分类预测模块,以样本数据集对应的反应编码为输入,以样本数据集中催化剂类型为标签进行训练;
对于所述催化剂剂量预测模块,以样本数据集中催化剂类型实际结果对应的onehot以及样本数据集对应的反应编码为输入,以样本数据集中催化剂剂量实际结果为标签进行训练;
对于所述溶剂类型预测模块,以样本数据集中催化剂类型实际结果对应的onehot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂类型实际结果为标签进行训练;
对于所述溶剂剂量预测模块,以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂剂量实际结果为标签进行训练;
对于试剂类型预测模块,以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中试剂类型实际结果为标签进行训练;
对于试剂剂量预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入,以样本数据集中试剂剂量实际结果为标签进行训练;
对于温度预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入,以样本数据集中温度实际结果为标签进行训练。
本发明的基于图卷积神经网络的反应条件预测方法及系统具有以下优点:
1、基于图卷积神将网络构建反应条件预测模型,通过该模型可提高反应条件的预测准确率;
2、在反应条件预测模型的训练过程中,通过样本集中反应条件非数值字段的真实结果的one hot向量进行模型训练,提高了模型的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1基于图卷积神经网络的反应条件预测方法的流程框图;
图2为实施例1基于图卷积神经网络的反应条件预测方法中反应条件预测模型的结构图;
图3为实施例1基于图卷积神经网络的反应条件预测方法中反应条件预测实例。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于图卷积神经网络的反应条件预测方法及系统,用于解决如何快速且准确的确定化学反应的反应条件的技术问题。
实施例1
本发明一种基于图卷积神经网络的反应条件预测方法,包括如下步骤:
S100、采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集,所述历史反应条件数据包括反应物、产物以及反应条件,所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度,其中,催化剂类型、溶剂类型以及试剂类型为非数值型字段,催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段;
S200、对于样本数据集中每个反应条件,对反应条件中非数值型字段进行one hot编码,得到对应的one hot向量;
S300、对于基于样本数据集中反应物和产物组成的反应,基于反应物和产物的图结构编码构建反应的反应编码;
S400、以序列化方式搭建基于图卷积神经网络的反应条件预测模型,所述反应条件预测模型以反应编码为输入,预测输出反应条件,其中,所述反应编码为基于反应物和产物的图结构编码构建的图结构编码;
S500、基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练,得到训练后反应条件预测模型,其中,在进行模型训练时,反应条件中的非数值型字段选用其对应的one hot向量;
S600、对于待预测的反应,基于其反应物和产物的图结构编码构建所述反应的反应编码,以所述反应编码为输入,通过训练后的反应条件预测模型输出预测的反应条件。
本实施例步骤S100获取由反应物SMILES、产物SMILES、催化剂SMILES及其剂量、溶剂SMILES及其剂量、试剂SMILES及其剂量、温度等字段构成的数据构成初始数据集,对于该初始数据集进行数据过滤,作为数据过滤的具体实施,包括如下操作:
(1)剔除初始数据集中产物个数大于1的反应条件数据;
(2)剔除初始数据集中催化剂、溶剂、试剂、温度等字段数据均缺失的反应条件数据;
(3)剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。
本实施例采集的反应条件数据中,催化剂类型、溶剂类型以及试剂类型均为非数值字段,步骤S200对催化剂类型、溶剂类型以及试剂类型字段进行one hot编码,得到对应的one hot向量。
步骤S300将由反应物SMILES及产物SMILES构成的反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵。具体操作为:
(1)将产物以及每个反应物分别编码为维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、维度为Natom×Natom的邻接矩阵;
(2)获取初始数据集中反应物与产物分子最大原子数Nmax_atom
(3)对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别将产物以及每个反应物的原子特征向量矩阵padding为维度为Nmax_atom×Fatom的矩阵,将将产物以及每个反应物的键特征向量矩阵padding为维度为Nmax_atom×Fbond的矩阵,将将产物以及每个反应物的邻接矩阵padding为维度为Nmax_atom×Nmax_atom的矩阵;
(4)基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和;
(5)基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差,得到反应的原子特征向量矩阵,将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差,得到反应的键特征向量矩阵,并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差,得到反应的邻接矩阵,所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。
步骤S400构建反应条件预测模型,该模型包括特征提取模块、催化剂分类预测模块、催化剂剂量预测模块、溶剂类型预测模块、溶剂剂量预测模块、试剂类型预测模块、试剂剂量预测模块以及温度预测模块。
特征提取模块用于基于输入的反应编码进行特征提取,工作方式为:将反应编码输入两层图卷积层后,通过两层全连接隐藏层输出一个隐层表征Dense Graph。
催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测,工作方式为:将所述隐层表征Dense Graph输入一个全连接隐藏层后,通过一个输出层输出的催化剂类型预测结果。
催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测,工作方式为:将催化剂类型对应的onehot向量输入一个全连接隐藏层后,将所述全连接隐藏层输出的向量与所述隐层表征DenseGraph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出催化剂剂量预测结果。
溶剂类型预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂分类预测,工作方式为:将催化剂类型对应的one hot向量通输入一个全连接隐藏层后,将由所述全连接隐藏层输出的向量与所述隐层表征DenseGraph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出溶剂类型预测结果。
溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出溶剂剂量预测结果。
试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行试剂的分类预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂类型预测结果。
试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂剂量预测结果。
温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出温度预测结果。
作为具体实施,上述全连接隐藏层均采用tanh激活函数,分类预测任务输出层激活函数均为softmax,回归预测任务输出层激活函数均为linear,采用Keras深度学习框架搭建网络层。
本实施例对上述反应预测模型进行模型训练时,执行如下:
(1)对于催化剂分类预测模块,以样本数据集对应的反应编码为输入,以样本数据集中催化剂类型为标签进行训练;
(2)对于催化剂剂量预测模块,以样本数据集中催化剂类型实际结果对应的onehot以及样本数据集对应的反应编码为输入,以样本数据集中催化剂剂量实际结果为标签进行训练;
(3)对于溶剂类型预测模块,以样本数据集中催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂类型实际结果为标签进行训练;
(4)对于溶剂剂量预测模块,以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂剂量实际结果为标签进行训练;
(5)对于试剂类型预测模块,以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中试剂类型实际结果为标签进行训练;
(6)对于试剂剂量预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入,以样本数据集中试剂剂量实际结果为标签进行训练;
(7)对于温度预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入,以样本数据集中温度实际结果为标签进行训练。
具体地,试剂类型、溶剂类型、催化剂类型分类预测任务的损失函数为交叉熵损失函数,试剂剂量、溶剂剂量、催化剂剂量及温度的回归预测任务的损失函数为均方误差MSE,优化器采用Adam,学习率设为0.001。
如图3所示,以2,3,5-三甲基苯酚 + 异氰酸甲酯合成2,3,5三甲威为例,展示反应条件预测模型的预测结果。该实例基于本实施例方法的操作流程为:首先将该反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵,再将这些矩阵输入到训练后的反应条件预测模型中,反应条件预测模型首先输出催化剂的分类预测结果为NULL类别,即不使用催化剂,同时对应的催化剂剂量为0;将催化剂类型预测结果的one hot向量作为输入,得到溶剂类型预测结果为甲苯;将溶剂类型预测结果的one hot向量作为输入,预测得到溶剂剂量5.34mL,并得到试剂类型预测结果为三乙胺;将试剂类型预测结果的one hot向量作为输入,预测得到试剂剂量0.39mmol及预测温度45℃。
实施例2
本发明一种基于图卷积神经网络的反应条件预测系统,包括数据采集模块、onehot编码模块、反应编码模块、模型构建模块、模型训练模块以及反应条件预测模块,该系统用于执行实施例1公开的系统进行反应条件预测。
数据采集模块用于采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集,所述历史反应条件数据包括反应物、产物以及反应条件,所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度,其中,催化剂类型、溶剂类型以及试剂类型为非数值型字段,催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段。
本实施例中,数据采集模块用于获取由反应物SMILES、产物SMILES、催化剂SMILES及其剂量、溶剂SMILES及其剂量、试剂SMILES及其剂量、温度等字段构成的数据构成初始数据集,对于该初始数据集,数据采集模块用于执行如下进行数据过滤:
(1)剔除初始数据集中产物个数大于1的反应条件数据;
(2)剔除初始数据集中催化剂、溶剂、试剂、温度等字段数据均缺失的反应条件数据;
(3)剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。
对于样本数据集中每个反应条件,所述one hot编码模块用于对反应条件中非数值型字段进行one hot编码,得到对应的one hot向量。
本实施例采集的反应条件数据中,催化剂类型、溶剂类型以及试剂类型均为非数值字段,one hot编码模块用于对催化剂类型、溶剂类型以及试剂类型字段进行one hot编码,得到对应的one hot向量。
对于基于样本数据集中反应物和产物组成的反应,所述反应编码模块用于基于反应物和产物的图结构编码构建反应的反应编码;对于待预测的反应,所述反应条件预测模块用于基于其反应物和产物的图结构编码构建所述反应的反应编码。
本实施例反应编码模块用于将由反应物SMILES及产物SMILES构成的反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵。作为具体实施,该反应编码模块用于执行如下操作:
(1)将产物以及每个反应物分别编码为维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、维度为Natom×Natom的邻接矩阵;
(2)获取初始数据集中反应物与产物分子最大原子数Nmax_atom
(3)对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别将产物以及每个反应物的原子特征向量矩阵padding为维度为Nmax_atom×Fatom的矩阵,将将产物以及每个反应物的键特征向量矩阵padding为维度为Nmax_atom×Fbond的矩阵,将将产物以及每个反应物的邻接矩阵padding为维度为Nmax_atom×Nmax_atom的矩阵;
(4)基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和;
(5)基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差,得到反应的原子特征向量矩阵,将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差,得到反应的键特征向量矩阵,并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差,得到反应的邻接矩阵,所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。
模型构建模块用于以序列化方式搭建基于图卷积神经网络的反应条件预测模型,所述反应条件预测模型以反应编码为输入,预测输出反应条件,其中,所述反应编码为基于反应物和产物的图结构编码构建的图结构编码。
本实施例模型构建模块构建的反应条件预测模型包括特征提取模块、催化剂分类预测模块、催化剂剂量预测模块、溶剂类型预测模块、溶剂剂量预测模块、试剂类型预测模块、试剂剂量预测模块以及温度预测模块。
特征提取模块用于基于输入的反应编码进行特征提取,工作方式为:将反应编码输入两层图卷积层后,通过两层全连接隐藏层输出一个隐层表征Dense Graph。
催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测,工作方式为:将所述隐层表征Dense Graph输入一个全连接隐藏层后,通过一个输出层输出的催化剂类型预测结果。
催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测,工作方式为:将催化剂类型对应的onehot向量输入一个全连接隐藏层后,将所述全连接隐藏层输出的向量与所述隐层表征DenseGraph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出催化剂剂量预测结果。
溶剂类型预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂分类预测,工作方式为:将催化剂类型对应的one hot向量通输入一个全连接隐藏层后,将由所述全连接隐藏层输出的向量与所述隐层表征DenseGraph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出溶剂类型预测结果。
溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出溶剂剂量预测结果。
试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行试剂的分类预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂类型预测结果。
试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂剂量预测结果。
温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出温度预测结果。
作为具体实施,上述全连接隐藏层均采用tanh激活函数,分类预测任务输出层激活函数均为softmax,回归预测任务输出层激活函数均为linear,采用Keras深度学习框架搭建网络层。
模型训练模块用于基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练,得到训练后反应条件预测模型,其中,在进行模型训练时,反应条件中的非数值型字段选用其对应的one hot向量。
本实施例中模型训练模块用于执行如下对反应预测模型进行模型训练:
(1)对于催化剂分类预测模块,以样本数据集对应的反应编码为输入,以样本数据集中催化剂类型为标签进行训练;
(2)对于催化剂剂量预测模块,以样本数据集中催化剂类型实际结果对应的onehot以及样本数据集对应的反应编码为输入,以样本数据集中催化剂剂量实际结果为标签进行训练;
(3)对于溶剂类型预测模块,以样本数据集中催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂类型实际结果为标签进行训练;
(4)对于溶剂剂量预测模块,以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂剂量实际结果为标签进行训练;
(5)对于试剂类型预测模块,以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中试剂类型实际结果为标签进行训练;
(6)对于试剂剂量预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入,以样本数据集中试剂剂量实际结果为标签进行训练;
(7)对于温度预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入,以样本数据集中温度实际结果为标签进行训练。
具体地,试剂类型、溶剂类型、催化剂类型分类预测任务的损失函数为交叉熵损失函数,试剂剂量、溶剂剂量、催化剂剂量及温度的回归预测任务的损失函数为均方误差MSE,优化器采用Adam,学习率设为0.001。
对于待预测的反应,反应条件预测模块用于调用通过反应编码模块生成的反应编码,以反应编码为输入,通过训练后的反应条件预测模型输出预测的反应条件。
作为具体实施,通过反应条件预测模型进行反应条件预测的流程为:首先,基于反应物和产物的图结构编码构建反应编码,该反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵;再将这些矩阵输入到训练后的反应条件预测模型中,反应条件预测模型首先输出催化剂的分类预测结果以及催化剂剂量预测结果;将催化剂类型预测结果的onehot向量作为输入,得到溶剂类型预测结果;将溶剂类型预测结果的one hot向量作为输入,预测得到溶剂剂量,并得到试剂类型预测结果;将试剂类型预测结果的one hot向量作为输入,预测得到试剂剂量预测结果及温度预测结果。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种基于图卷积神经网络的反应条件预测方法,其特征在于,包括如下步骤:
采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集,所述历史反应条件数据包括反应物、产物以及反应条件,所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度,其中,催化剂类型、溶剂类型以及试剂类型为非数值型字段,催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段;
对于样本数据集中每个反应条件,对反应条件中非数值型字段进行one hot编码,得到对应的one hot向量;
对于基于样本数据集中反应物和产物组成的反应,基于反应物和产物的图结构编码构建反应的反应编码;
以序列化方式搭建基于图卷积神经网络的反应条件预测模型,所述反应条件预测模型以反应编码为输入,预测输出反应条件,其中,所述反应编码为基于反应物和产物的图结构编码构建的图结构编码;
基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练,得到训练后反应条件预测模型,其中,在进行模型训练时,反应条件中的非数值型字段选用其对应的one hot向量;
对于待预测的反应,基于其反应物和产物的图结构编码构建所述反应的反应编码,以所述反应编码为输入,通过训练后的反应条件预测模型输出预测的反应条件。
2.根据权利要求1所述的基于图卷积神经网络的反应条件预测方法,其特征在于,对历史反应条件数据集进行数据过滤,包括如下步骤:
剔除原始数据集中产物个数大于1的反应条件数据;
剔除原始数据集中反应条件字段缺失的反应条件数据;
剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。
3.根据权利要求1所述的基于图卷积神经网络的反应条件预测方法,其特征在于,基于反应物和产物的图结构编码构建所述反应对应的反应编码,包括如下步骤:
将产物以及每个反应物分别编码为维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、维度为Natom×Natom的邻接矩阵;
获取初始数据集中反应物与产物分子最大原子数Nmax_atom
对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别将产物以及每个反应物的原子特征向量矩阵padding为维度为Nmax_atom×Fatom的矩阵,将将产物以及每个反应物的键特征向量矩阵padding为维度为Nmax_atom×Fbond的矩阵,将将产物以及每个反应物的邻接矩阵padding为维度为Nmax_atom×Nmax_atom的矩阵;
基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和;
基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差,得到反应的原子特征向量矩阵,将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差,得到反应的键特征向量矩阵,并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差,得到反应的邻接矩阵,所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。
4.根据权利要求1-3任一项所述的基于图卷积神经网络的反应条件预测方法,其特征在于,所述反应条件预测模型包括:
特征提取模块,所述特征提取模块用于基于输入的反应编码进行特征提取,工作方式为:将反应编码输入两层图卷积层后,通过两层全连接隐藏层输出一个隐层表征DenseGraph;
催化剂分类预测模块,所述催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测,工作方式为:将所述隐层表征Dense Graph输入一个全连接隐藏层后,通过一个输出层输出的催化剂类型预测结果;
催化剂剂量预测模块,所述催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测,工作方式为:将催化剂类型对应的one hot向量输入一个全连接隐藏层后,将所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出催化剂剂量预测结果;
溶剂类型预测模块,所述溶剂类型预测模块用于基于催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行溶剂分类预测,工作方式为:将催化剂类型对应的one hot向量通输入一个全连接隐藏层后,将由所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出溶剂类型预测结果;
溶剂剂量预测模块,所述溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出溶剂剂量预测结果;
试剂类型预测模块,所述试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行试剂的分类预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂类型预测结果;
试剂剂量预测模块,所述试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征DenseGraph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂剂量预测结果;
温度预测模块,所述温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出温度预测结果。
5.根据权利要求4所述的基于图卷积神经网络的反应条件预测方法,其特征在于,对所述反应条件预测模型进行模型训练时,
对于所述催化剂分类预测模块,以样本数据集对应的反应编码为输入,以样本数据集中催化剂类型为标签进行训练;
对于所述催化剂剂量预测模块,以样本数据集中催化剂类型实际结果对应的one hot以及样本数据集对应的反应编码为输入,以样本数据集中催化剂剂量实际结果为标签进行训练;
对于所述溶剂类型预测模块,以样本数据集中催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂类型实际结果为标签进行训练;
对于所述溶剂剂量预测模块,以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂剂量实际结果为标签进行训练;
对于试剂类型预测模块,以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中试剂类型实际结果为标签进行训练;
对于试剂剂量预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入,以样本数据集中试剂剂量实际结果为标签进行训练;
对于温度预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入,以样本数据集中温度实际结果为标签进行训练。
6.一种基于图卷积神经网络的反应条件预测系统,其特征在于,用于执行如权利要求1-5任一项所述的基于图卷积神经网络的反应条件预测方法进行反应条件预测,所述系统包括:
数据采集模块,所述数据采集模块用于采集多个历史反应条件数据形成初始数据集,并对初始数据集进行数据过滤,得到样本数据集,所述历史反应条件数据包括反应物、产物以及反应条件,所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度,其中,催化剂类型、溶剂类型以及试剂类型为非数值型字段,催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段;
one hot编码模块,对于样本数据集中每个反应条件,所述one hot编码模块用于对反应条件中非数值型字段进行one hot编码,得到对应的one hot向量;
反应编码模块,对于基于样本数据集中反应物和产物组成的反应,所述反应编码模块用于基于反应物和产物的图结构编码构建反应的反应编码;对于待预测的反应,所述反应条件预测模块用于基于其反应物和产物的图结构编码构建所述反应的反应编码;
模型构建模块,所述模型构建模块用于以序列化方式搭建基于图卷积神经网络的反应条件预测模型,所述反应条件预测模型以反应编码为输入,预测输出反应条件,其中,所述反应编码为基于反应物和产物的图结构编码构建的图结构编码;
模型训练模块,所述模型训练模块用于基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练,得到训练后反应条件预测模型,其中,在进行模型训练时,反应条件中的非数值型字段选用其对应的one hot向量;
反应条件预测模块,对于待预测的反应,所述反应条件预测模块用于调用通过反应编码模块生成的反应编码,以反应编码为输入,通过训练后的反应条件预测模型输出预测的反应条件。
7.根据权利要求6所述的基于图卷积神经网络的反应条件预测系统,其特征在于,所述数据采集模块用于执行如下对历史反应条件数据集进行数据过滤:
剔除原始数据集中产物个数大于1的反应条件数据;
剔除原始数据集中反应条件字段缺失的反应条件数据;
剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。
8.根据权利要求6所述的基于图卷积神经网络的反应条件预测系统,其特征在于,对于基于样本数据集中反应物和产物组成的反应,所述反应编码模块用于执行如下基于反应物和产物的图结构编码构建所述反应对应的反应编码:
将产物以及每个反应物分别编码为维度为Natom×Fatom的原子特征向量矩阵、维度为Natom×Fbond的键特征向量矩阵、维度为Natom×Natom的邻接矩阵;
获取初始数据集中反应物与产物分子最大原子数Nmax_atom
对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别将产物以及每个反应物的原子特征向量矩阵padding为维度为Nmax_atom×Fatom的矩阵,将将产物以及每个反应物的键特征向量矩阵padding为维度为Nmax_atom×Fbond的矩阵,将将产物以及每个反应物的邻接矩阵padding为维度为Nmax_atom×Nmax_atom的矩阵;
基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和;
基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵,将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差,得到反应的原子特征向量矩阵,将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差,得到反应的键特征向量矩阵,并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差,得到反应的邻接矩阵,所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。
9.根据权利要求6-8任一项所述的基于图卷积神经网络的反应条件预测系统,其特征在于,所述反应条件预测模型包括:
特征提取模块,所述特征提取模块用于基于输入的反应编码进行特征提取,工作方式为:将反应编码输入两层图卷积层后,通过两层全连接隐藏层输出一个隐层表征DenseGraph;
催化剂分类预测模块,所述催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测,工作方式为:将所述隐层表征Dense Graph输入一个全连接隐藏层后,通过一个输出层输出的催化剂类型预测结果;
催化剂剂量预测模块,所述催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测,工作方式为:将催化剂类型对应的one hot向量输入一个全连接隐藏层后,将所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出催化剂剂量预测结果;
溶剂类型预测模块,所述溶剂类型预测模块用于基于催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行溶剂分类预测,工作方式为:将催化剂类型对应的one hot向量通输入一个全连接隐藏层后,将由所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接,将拼接得到的向量输入一个全连接隐藏层后,通过一个输出层输出溶剂类型预测结果;
溶剂剂量预测模块,所述溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出溶剂剂量预测结果;
试剂类型预测模块,所述试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行试剂的分类预测,工作方式为:分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂类型预测结果;
试剂剂量预测模块,所述试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征DenseGraph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出试剂剂量预测结果;
温度预测模块,所述温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测,工作方式为:分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后,将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接,将拼接结果输入一个全连接隐藏层后,通过一个输出层输出温度预测结果。
10.根据权利要求9所述的基于图卷积神经网络的反应条件预测系统,其特征在于,对所述反应条件预测模型进行模型训练时,所述模型训练模块用于执行如下:
对于所述催化剂分类预测模块,以样本数据集对应的反应编码为输入,以样本数据集中催化剂类型为标签进行训练;
对于所述催化剂剂量预测模块,以样本数据集中催化剂类型实际结果对应的one hot以及样本数据集对应的反应编码为输入,以样本数据集中催化剂剂量实际结果为标签进行训练;
对于所述溶剂类型预测模块,以样本数据集中催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂类型实际结果为标签进行训练;
对于所述溶剂剂量预测模块,以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中溶剂剂量实际结果为标签进行训练;
对于试剂类型预测模块,以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入,以样本数据集中试剂类型实际结果为标签进行训练;
对于试剂剂量预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入,以样本数据集中试剂剂量实际结果为标签进行训练;
对于温度预测模块,以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入,以样本数据集中温度实际结果为标签进行训练。
CN202310402189.6A 2023-04-17 2023-04-17 基于图卷积神经网络的反应条件预测方法及系统 Active CN116189804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310402189.6A CN116189804B (zh) 2023-04-17 2023-04-17 基于图卷积神经网络的反应条件预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310402189.6A CN116189804B (zh) 2023-04-17 2023-04-17 基于图卷积神经网络的反应条件预测方法及系统

Publications (2)

Publication Number Publication Date
CN116189804A true CN116189804A (zh) 2023-05-30
CN116189804B CN116189804B (zh) 2023-07-14

Family

ID=86452326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310402189.6A Active CN116189804B (zh) 2023-04-17 2023-04-17 基于图卷积神经网络的反应条件预测方法及系统

Country Status (1)

Country Link
CN (1) CN116189804B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867245B1 (en) * 2019-10-17 2020-12-15 Capital One Services, Llc System and method for facilitating prediction model training
CN113362905A (zh) * 2021-06-08 2021-09-07 浙江大学 一种基于深度学习的不对称催化反应对映选择性预测方法
CN113782109A (zh) * 2021-09-13 2021-12-10 烟台国工智能科技有限公司 基于蒙特卡洛树的反应物推导方法及逆向合成推导方法
CN114550847A (zh) * 2022-01-28 2022-05-27 中国人民解放军军事科学院国防科技创新研究院 基于图卷积神经网络的药物口服利用度及毒性预测方法
CN115565616A (zh) * 2022-09-15 2023-01-03 中国科学技术大学 反应条件预测模型的训练方法、反应条件预测方法和系统
CN115719622A (zh) * 2022-11-28 2023-02-28 烟台国工智能科技有限公司 一种化学分子性质预测的方法、系统及介质
CN115810404A (zh) * 2022-11-17 2023-03-17 华南理工大学 基于多层级信息融合的药物化学反应类型预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867245B1 (en) * 2019-10-17 2020-12-15 Capital One Services, Llc System and method for facilitating prediction model training
CN113362905A (zh) * 2021-06-08 2021-09-07 浙江大学 一种基于深度学习的不对称催化反应对映选择性预测方法
CN113782109A (zh) * 2021-09-13 2021-12-10 烟台国工智能科技有限公司 基于蒙特卡洛树的反应物推导方法及逆向合成推导方法
CN114550847A (zh) * 2022-01-28 2022-05-27 中国人民解放军军事科学院国防科技创新研究院 基于图卷积神经网络的药物口服利用度及毒性预测方法
CN115565616A (zh) * 2022-09-15 2023-01-03 中国科学技术大学 反应条件预测模型的训练方法、反应条件预测方法和系统
CN115810404A (zh) * 2022-11-17 2023-03-17 华南理工大学 基于多层级信息融合的药物化学反应类型预测方法
CN115719622A (zh) * 2022-11-28 2023-02-28 烟台国工智能科技有限公司 一种化学分子性质预测的方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANYU GAO ET.AL: "Using Machine Learning To Predict Suitable Conditions for Organic Reactions", 《ACS CENT. SCI》, pages 1465 - 1476 *
赖自成 等: "基于门控图卷积神经网络的有机化学反应预测", 《计算机应用》, pages 3070 - 3074 *

Also Published As

Publication number Publication date
CN116189804B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Harandizadeh et al. Application of improved ANFIS approaches to estimate bearing capacity of piles
Flood Towards the next generation of artificial neural networks for civil engineering
CN110033021A (zh) 一种基于一维多路卷积神经网络的故障分类方法
US20220092240A1 (en) System for Machine Learning-Based Acceleration of a Topology Optimization Process
Gholizadeh et al. Structural optimization by wavelet transforms and neural networks
CN112053560B (zh) 基于神经网络的短时交通流量预测方法、系统和存储介质
CN113409893B (zh) 一种基于图像卷积的分子特征提取及性能预测方法
CN112149881B (zh) 一种基于卷积神经网络的dna绑定残基预测方法
CN104504288A (zh) 基于多向支持向量聚类的非线性多阶段间歇过程软测量方法
CN111046961A (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN114496303A (zh) 一种基于多通道神经网络的抗癌药物筛选方法
CN116189804B (zh) 基于图卷积神经网络的反应条件预测方法及系统
CN115719622A (zh) 一种化学分子性质预测的方法、系统及介质
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN115641720A (zh) 基于时空融合图神经网络的交通预测方法及系统
CN117153294B (zh) 一种单一体系的分子生成方法
Chakraborti Strategies for evolutionary data driven modeling in chemical and metallurgical Systems
CN113948157A (zh) 化学反应分类方法、装置、电子设备及存储介质
CN116403657A (zh) 一种药物反应预测方法、装置、存储介质及电子装置
CN115762654A (zh) 一种基于smiles的化学反应产率预测的方法
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
CN114974461A (zh) 基于策略学习的多目标属性分子生成方法及系统
CN112634993A (zh) 化学品雌激素受体激活活性的预测模型及筛查方法
CN116312744B (zh) 一种基于gnn神经网络的生物信息获取方法
CN117133371B (zh) 基于人工断键的无模板单步逆合成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant