CN116189804A

CN116189804A - 基于图卷积神经网络的反应条件预测方法及系统

Info

Publication number: CN116189804A
Application number: CN202310402189.6A
Authority: CN
Inventors: 李中伟; 李奇文; 却立勇
Original assignee: Yantai Guogong Intelligent Technology Co ltd
Current assignee: Yantai Guogong Intelligent Technology Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-30
Anticipated expiration: 2043-04-17
Also published as: CN116189804B

Abstract

本发明公开了基于图卷积神经网络的反应条件预测方法及系统，属于反应条件预测技术领域，要解决的技术问题为如何快速且准确的确定化学反应的反应条件。包括如下步骤：采集多个历史反应条件数据形成初始数据集，并对初始数据集进行数据过滤，得到样本数据集；对于样本数据集中每个反应条件，对反应条件中非数值型字段进行one hot编码；基于反应物和产物的图结构编码构建反应的反应编码；以序列化方式搭建基于图卷积神经网络的反应条件预测模型；基于样本数据集对应的反应编码和反应条件对反应条件预测模型进行模型训练；通过训练后的反应条件预测模型输出预测的反应条件。

Description

基于图卷积神经网络的反应条件预测方法及系统

技术领域

本发明涉及反应条件预测技术领域，具体地说是基于图卷积神经网络的反应条件预测方法及系统。

背景技术

寻找最佳的反应条件一直是化学家们致力于解决的关键瓶颈问题，然而，由于反应空间具有高维度的特点，导致难以通过有效手段快速地确定反应条件。在过去相当长的时间内，化学领域的研究员们在对反应条件的筛选上需要耗费大量的时间精力和实验资源，严重阻碍了科研效率的有效提升。

如何快速且准确的确定化学反应的反应条件，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于图卷积神经网络的反应条件预测方法及系统，来解决如何快速且准确的确定化学反应的反应条件的技术问题。

第一方面，本发明一种基于图卷积神经网络的反应条件预测方法，包括如下步骤：

采集多个历史反应条件数据形成初始数据集，并对初始数据集进行数据过滤，得到样本数据集，所述历史反应条件数据包括反应物、产物以及反应条件，所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度，其中，催化剂类型、溶剂类型以及试剂类型为非数值型字段，催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段；

对于样本数据集中每个反应条件，对反应条件中非数值型字段进行one hot编码，得到对应的one hot向量；

对于基于样本数据集中反应物和产物组成的反应，基于反应物和产物的图结构编码构建反应的反应编码；

以序列化方式搭建基于图卷积神经网络的反应条件预测模型，所述反应条件预测模型以反应编码为输入，预测输出反应条件，其中，所述反应编码为基于反应物和产物的图结构编码构建的图结构编码；

基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练，得到训练后反应条件预测模型，其中，在进行模型训练时，反应条件中的非数值型字段选用其对应的one hot向量；

对于待预测的反应，基于其反应物和产物的图结构编码构建所述反应的反应编码，以所述反应编码为输入，通过训练后的反应条件预测模型输出预测的反应条件。

作为优选，对历史反应条件数据集进行数据过滤，包括如下步骤：

剔除原始数据集中产物个数大于1的反应条件数据；

剔除原始数据集中反应条件字段缺失的反应条件数据；

剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。

作为优选，基于反应物和产物的图结构编码构建所述反应对应的反应编码，包括如下步骤：

将产物以及每个反应物分别编码为维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、维度为N_atom×N_atom的邻接矩阵；

获取初始数据集中反应物与产物分子最大原子数N_{max_atom}；

对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵，分别将产物以及每个反应物的原子特征向量矩阵padding为维度为N_{max_atom}×F_atom的矩阵，将将产物以及每个反应物的键特征向量矩阵padding为维度为N_{max_atom}×F_bond的矩阵，将将产物以及每个反应物的邻接矩阵padding为维度为N_{max_atom}×N_{max_atom}的矩阵；

基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵，分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和；

基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵，将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差，得到反应的原子特征向量矩阵，将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差，得到反应的键特征向量矩阵，并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差，得到反应的邻接矩阵，所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。

作为优选，所述反应条件预测模型包括：

特征提取模块，所述特征提取模块用于基于输入的反应编码进行特征提取，工作方式为：将反应编码输入两层图卷积层后，通过两层全连接隐藏层输出一个隐层表征DenseGraph；

催化剂分类预测模块，所述催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测，工作方式为：将所述隐层表征Dense Graph输入一个全连接隐藏层后，通过一个输出层输出的催化剂类型预测结果；

催化剂剂量预测模块，所述催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测，工作方式为：将催化剂类型对应的one hot向量输入一个全连接隐藏层后，将所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接，将拼接得到的向量输入一个全连接隐藏层后，通过一个输出层输出催化剂剂量预测结果；

溶剂类型预测模块，所述溶剂类型预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂分类预测，工作方式为：将催化剂类型对应的one hot向量通输入一个全连接隐藏层后，将由所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接，将拼接得到的向量输入一个全连接隐藏层后，通过一个输出层输出溶剂类型预测结果；

溶剂剂量预测模块，所述溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测，工作方式为：分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出溶剂剂量预测结果；

试剂类型预测模块，所述试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行试剂的分类预测，工作方式为：分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出试剂类型预测结果；

试剂剂量预测模块，所述试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测，工作方式为：分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出试剂剂量预测结果；

温度预测模块，所述温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测，工作方式为：分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出温度预测结果。

作为优选，对所述反应条件预测模型进行模型训练时，

对于所述催化剂分类预测模块，以样本数据集对应的反应编码为输入，以样本数据集中催化剂类型为标签进行训练；

对于所述催化剂剂量预测模块，以样本数据集中催化剂类型实际结果对应的onehot以及样本数据集对应的反应编码为输入，以样本数据集中催化剂剂量实际结果为标签进行训练；

对于所述溶剂类型预测模块，以样本数据集中催化剂类型实际结果对应的onehot向量以及样本数据集对应的反应编码为输入，以样本数据集中溶剂类型实际结果为标签进行训练；

对于所述溶剂剂量预测模块，以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入，以样本数据集中溶剂剂量实际结果为标签进行训练；

对于试剂类型预测模块，以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入，以样本数据集中试剂类型实际结果为标签进行训练；

对于试剂剂量预测模块，以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入，以样本数据集中试剂剂量实际结果为标签进行训练；

对于温度预测模块，以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入，以样本数据集中温度实际结果为标签进行训练。

第二方面，本发明一种基于图卷积神经网络的反应条件预测系统，用于执行如第一方面任一项所述的基于图卷积神经网络的反应条件预测进行反应条件预测，所述系统包括：

数据采集模块，所述数据采集模块用于采集多个历史反应条件数据形成初始数据集，并对初始数据集进行数据过滤，得到样本数据集，所述历史反应条件数据包括反应物、产物以及反应条件，所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度，其中，催化剂类型、溶剂类型以及试剂类型为非数值型字段，催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段；

one hot编码模块，对于样本数据集中每个反应条件，所述one hot编码模块用于对反应条件中非数值型字段进行one hot编码，得到对应的one hot向量；

反应编码模块，对于基于样本数据集中反应物和产物组成的反应，所述反应编码模块用于基于反应物和产物的图结构编码构建反应的反应编码；对于待预测的反应，所述反应条件预测模块用于基于其反应物和产物的图结构编码构建所述反应的反应编码；

模型构建模块，所述模型构建模块用于以序列化方式搭建基于图卷积神经网络的反应条件预测模型，所述反应条件预测模型以反应编码为输入，预测输出反应条件，其中，所述反应编码为基于反应物和产物的图结构编码构建的图结构编码；

模型训练模块，所述模型训练模块用于基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练，得到训练后反应条件预测模型，其中，在进行模型训练时，反应条件中的非数值型字段选用其对应的one hot向量；

反应条件预测模块，对于待预测的反应，所述反应条件预测模块用于调用通过反应编码模块生成的反应编码，以反应编码为输入，通过训练后的反应条件预测模型输出预测的反应条件。

作为优选，所述数据采集模块用于执行如下对历史反应条件数据集进行数据过滤：

剔除原始数据集中产物个数大于1的反应条件数据；

剔除原始数据集中反应条件字段缺失的反应条件数据；

作为优选，对于基于样本数据集中反应物和产物组成的反应，所述反应编码模块用于执行如下基于反应物和产物的图结构编码构建所述反应对应的反应编码：

获取初始数据集中反应物与产物分子最大原子数N_{max_atom}；

作为优选，所述反应条件预测模型包括：

作为优选，对所述反应条件预测模型进行模型训练时，所述模型训练模块用于执行如下：

本发明的基于图卷积神经网络的反应条件预测方法及系统具有以下优点：

1、基于图卷积神将网络构建反应条件预测模型，通过该模型可提高反应条件的预测准确率；

2、在反应条件预测模型的训练过程中，通过样本集中反应条件非数值字段的真实结果的one hot向量进行模型训练，提高了模型的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1基于图卷积神经网络的反应条件预测方法的流程框图；

图2为实施例1基于图卷积神经网络的反应条件预测方法中反应条件预测模型的结构图；

图3为实施例1基于图卷积神经网络的反应条件预测方法中反应条件预测实例。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于图卷积神经网络的反应条件预测方法及系统，用于解决如何快速且准确的确定化学反应的反应条件的技术问题。

实施例1

本发明一种基于图卷积神经网络的反应条件预测方法，包括如下步骤：

S100、采集多个历史反应条件数据形成初始数据集，并对初始数据集进行数据过滤，得到样本数据集，所述历史反应条件数据包括反应物、产物以及反应条件，所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度，其中，催化剂类型、溶剂类型以及试剂类型为非数值型字段，催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段；

S200、对于样本数据集中每个反应条件，对反应条件中非数值型字段进行one hot编码，得到对应的one hot向量；

S300、对于基于样本数据集中反应物和产物组成的反应，基于反应物和产物的图结构编码构建反应的反应编码；

S400、以序列化方式搭建基于图卷积神经网络的反应条件预测模型，所述反应条件预测模型以反应编码为输入，预测输出反应条件，其中，所述反应编码为基于反应物和产物的图结构编码构建的图结构编码；

S500、基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练，得到训练后反应条件预测模型，其中，在进行模型训练时，反应条件中的非数值型字段选用其对应的one hot向量；

S600、对于待预测的反应，基于其反应物和产物的图结构编码构建所述反应的反应编码，以所述反应编码为输入，通过训练后的反应条件预测模型输出预测的反应条件。

本实施例步骤S100获取由反应物SMILES、产物SMILES、催化剂SMILES及其剂量、溶剂SMILES及其剂量、试剂SMILES及其剂量、温度等字段构成的数据构成初始数据集，对于该初始数据集进行数据过滤，作为数据过滤的具体实施，包括如下操作：

（1）剔除初始数据集中产物个数大于1的反应条件数据；

（2）剔除初始数据集中催化剂、溶剂、试剂、温度等字段数据均缺失的反应条件数据；

（3）剔除初始数据集中催化剂、溶剂或试剂个数大于1的反应条件数据。

本实施例采集的反应条件数据中，催化剂类型、溶剂类型以及试剂类型均为非数值字段，步骤S200对催化剂类型、溶剂类型以及试剂类型字段进行one hot编码，得到对应的one hot向量。

步骤S300将由反应物SMILES及产物SMILES构成的反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵。具体操作为：

（1）将产物以及每个反应物分别编码为维度为N_atom×F_atom的原子特征向量矩阵、维度为N_atom×F_bond的键特征向量矩阵、维度为N_atom×N_atom的邻接矩阵；

（2）获取初始数据集中反应物与产物分子最大原子数N_{max_atom}；

（3）对于产物以及每个反应物的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵，分别将产物以及每个反应物的原子特征向量矩阵padding为维度为N_{max_atom}×F_atom的矩阵，将将产物以及每个反应物的键特征向量矩阵padding为维度为N_{max_atom}×F_bond的矩阵，将将产物以及每个反应物的邻接矩阵padding为维度为N_{max_atom}×N_{max_atom}的矩阵；

（4）基于每个反应物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵，分别计算所有反应物的原子特征向量矩阵总和、键特征向量矩阵总和以及邻接矩阵总和；

（5）基于产物padding后的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵，将产物padding后的原子特征向量矩阵与所述所有反应物的原子特征向量矩阵总和作差，得到反应的原子特征向量矩阵，将产物padding后的键特征向量矩阵与所述所有反应物的键特征向量矩阵总和作差，得到反应的键特征向量矩阵，并将产物padding后的邻接矩阵与所述所有反应物的邻接矩阵总和作差，得到反应的邻接矩阵，所述反应的原子特征向量矩阵、键特征向量矩阵以及邻接矩阵作为所述反应的反应编码。

步骤S400构建反应条件预测模型，该模型包括特征提取模块、催化剂分类预测模块、催化剂剂量预测模块、溶剂类型预测模块、溶剂剂量预测模块、试剂类型预测模块、试剂剂量预测模块以及温度预测模块。

特征提取模块用于基于输入的反应编码进行特征提取，工作方式为：将反应编码输入两层图卷积层后，通过两层全连接隐藏层输出一个隐层表征Dense Graph。

催化剂分类预测模块用于基于隐层表征Dense Graph进行催化剂分类预测，工作方式为：将所述隐层表征Dense Graph输入一个全连接隐藏层后，通过一个输出层输出的催化剂类型预测结果。

催化剂计量预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行催化剂剂量的回归预测，工作方式为：将催化剂类型对应的onehot向量输入一个全连接隐藏层后，将所述全连接隐藏层输出的向量与所述隐层表征DenseGraph进行拼接，将拼接得到的向量输入一个全连接隐藏层后，通过一个输出层输出催化剂剂量预测结果。

溶剂类型预测模块用于基于催化剂类型预测结果对应的one hot向量以及所述隐层表征Dense Graph、进行溶剂分类预测，工作方式为：将催化剂类型对应的one hot向量通输入一个全连接隐藏层后，将由所述全连接隐藏层输出的向量与所述隐层表征DenseGraph进行拼接，将拼接得到的向量输入一个全连接隐藏层后，通过一个输出层输出溶剂类型预测结果。

溶剂剂量预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行溶剂剂量的回归预测，工作方式为：分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出溶剂剂量预测结果。

试剂类型预测模块用于基于溶剂类型预测结果、催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行试剂的分类预测，工作方式为：分别将溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出试剂类型预测结果。

试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测，工作方式为：分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出试剂剂量预测结果。

温度预测模块用于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行温度的回归预测，工作方式为：分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征Dense Graph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出温度预测结果。

作为具体实施，上述全连接隐藏层均采用tanh激活函数，分类预测任务输出层激活函数均为softmax，回归预测任务输出层激活函数均为linear，采用Keras深度学习框架搭建网络层。

本实施例对上述反应预测模型进行模型训练时，执行如下：

（1）对于催化剂分类预测模块，以样本数据集对应的反应编码为输入，以样本数据集中催化剂类型为标签进行训练；

（2）对于催化剂剂量预测模块，以样本数据集中催化剂类型实际结果对应的onehot以及样本数据集对应的反应编码为输入，以样本数据集中催化剂剂量实际结果为标签进行训练；

（3）对于溶剂类型预测模块，以样本数据集中催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入，以样本数据集中溶剂类型实际结果为标签进行训练；

（4）对于溶剂剂量预测模块，以样本数据中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入，以样本数据集中溶剂剂量实际结果为标签进行训练；

（5）对于试剂类型预测模块，以样本数据集中溶剂类型实际结果、催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入，以样本数据集中试剂类型实际结果为标签进行训练；

（6）对于试剂剂量预测模块，以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码输入，以样本数据集中试剂剂量实际结果为标签进行训练；

（7）对于温度预测模块，以样本数据集中试剂类型实际结果、溶剂类型实际结果和催化剂类型实际结果对应的one hot编码以及样本数据集对应的反应编码为输入，以样本数据集中温度实际结果为标签进行训练。

具体地，试剂类型、溶剂类型、催化剂类型分类预测任务的损失函数为交叉熵损失函数，试剂剂量、溶剂剂量、催化剂剂量及温度的回归预测任务的损失函数为均方误差MSE，优化器采用Adam，学习率设为0.001。

如图3所示，以2,3,5-三甲基苯酚 + 异氰酸甲酯合成2,3,5三甲威为例，展示反应条件预测模型的预测结果。该实例基于本实施例方法的操作流程为：首先将该反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵，再将这些矩阵输入到训练后的反应条件预测模型中，反应条件预测模型首先输出催化剂的分类预测结果为NULL类别，即不使用催化剂，同时对应的催化剂剂量为0；将催化剂类型预测结果的one hot向量作为输入，得到溶剂类型预测结果为甲苯；将溶剂类型预测结果的one hot向量作为输入，预测得到溶剂剂量5.34mL，并得到试剂类型预测结果为三乙胺；将试剂类型预测结果的one hot向量作为输入，预测得到试剂剂量0.39mmol及预测温度45℃。

实施例2

本发明一种基于图卷积神经网络的反应条件预测系统，包括数据采集模块、onehot编码模块、反应编码模块、模型构建模块、模型训练模块以及反应条件预测模块，该系统用于执行实施例1公开的系统进行反应条件预测。

数据采集模块用于采集多个历史反应条件数据形成初始数据集，并对初始数据集进行数据过滤，得到样本数据集，所述历史反应条件数据包括反应物、产物以及反应条件，所述反应条件包括催化剂类型及其剂量、溶剂类型及其剂量、试剂类型及其剂量以及温度，其中，催化剂类型、溶剂类型以及试剂类型为非数值型字段，催化剂剂量、溶剂剂量、试剂剂量以及温度为数值型字段。

本实施例中，数据采集模块用于获取由反应物SMILES、产物SMILES、催化剂SMILES及其剂量、溶剂SMILES及其剂量、试剂SMILES及其剂量、温度等字段构成的数据构成初始数据集，对于该初始数据集，数据采集模块用于执行如下进行数据过滤：

（1）剔除初始数据集中产物个数大于1的反应条件数据；

对于样本数据集中每个反应条件，所述one hot编码模块用于对反应条件中非数值型字段进行one hot编码，得到对应的one hot向量。

本实施例采集的反应条件数据中，催化剂类型、溶剂类型以及试剂类型均为非数值字段，one hot编码模块用于对催化剂类型、溶剂类型以及试剂类型字段进行one hot编码，得到对应的one hot向量。

对于基于样本数据集中反应物和产物组成的反应，所述反应编码模块用于基于反应物和产物的图结构编码构建反应的反应编码；对于待预测的反应，所述反应条件预测模块用于基于其反应物和产物的图结构编码构建所述反应的反应编码。

本实施例反应编码模块用于将由反应物SMILES及产物SMILES构成的反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵。作为具体实施，该反应编码模块用于执行如下操作：

模型构建模块用于以序列化方式搭建基于图卷积神经网络的反应条件预测模型，所述反应条件预测模型以反应编码为输入，预测输出反应条件，其中，所述反应编码为基于反应物和产物的图结构编码构建的图结构编码。

本实施例模型构建模块构建的反应条件预测模型包括特征提取模块、催化剂分类预测模块、催化剂剂量预测模块、溶剂类型预测模块、溶剂剂量预测模块、试剂类型预测模块、试剂剂量预测模块以及温度预测模块。

模型训练模块用于基于所述样本数据集对应的反应编码和反应条件对所述反应条件预测模型进行模型训练，得到训练后反应条件预测模型，其中，在进行模型训练时，反应条件中的非数值型字段选用其对应的one hot向量。

本实施例中模型训练模块用于执行如下对反应预测模型进行模型训练：

对于待预测的反应，反应条件预测模块用于调用通过反应编码模块生成的反应编码，以反应编码为输入，通过训练后的反应条件预测模型输出预测的反应条件。

作为具体实施，通过反应条件预测模型进行反应条件预测的流程为：首先，基于反应物和产物的图结构编码构建反应编码，该反应编码为原子特征向量矩阵、键特征向量矩阵及邻接矩阵；再将这些矩阵输入到训练后的反应条件预测模型中，反应条件预测模型首先输出催化剂的分类预测结果以及催化剂剂量预测结果；将催化剂类型预测结果的onehot向量作为输入，得到溶剂类型预测结果；将溶剂类型预测结果的one hot向量作为输入，预测得到溶剂剂量，并得到试剂类型预测结果；将试剂类型预测结果的one hot向量作为输入，预测得到试剂剂量预测结果及温度预测结果。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种基于图卷积神经网络的反应条件预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于图卷积神经网络的反应条件预测方法，其特征在于，对历史反应条件数据集进行数据过滤，包括如下步骤：

剔除原始数据集中产物个数大于1的反应条件数据；

剔除原始数据集中反应条件字段缺失的反应条件数据；

3.根据权利要求1所述的基于图卷积神经网络的反应条件预测方法，其特征在于，基于反应物和产物的图结构编码构建所述反应对应的反应编码，包括如下步骤：

获取初始数据集中反应物与产物分子最大原子数N_{max_atom}；

4.根据权利要求1-3任一项所述的基于图卷积神经网络的反应条件预测方法，其特征在于，所述反应条件预测模型包括：

溶剂类型预测模块，所述溶剂类型预测模块用于基于催化剂类型预测结果对应的onehot向量以及所述隐层表征Dense Graph、进行溶剂分类预测，工作方式为：将催化剂类型对应的one hot向量通输入一个全连接隐藏层后，将由所述全连接隐藏层输出的向量与所述隐层表征Dense Graph进行拼接，将拼接得到的向量输入一个全连接隐藏层后，通过一个输出层输出溶剂类型预测结果；

试剂剂量预测模块，所述试剂剂量预测模块用于基于试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot编码以及所述隐层表征Dense Graph、进行试剂剂量的回归预测，工作方式为：分别将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的one hot向量输入一个全连接隐藏层后，将试剂类型预测结果、溶剂类型预测结果和催化剂类型预测结果对应的全连接隐藏层计算结果以及所述隐层表征DenseGraph进行拼接，将拼接结果输入一个全连接隐藏层后，通过一个输出层输出试剂剂量预测结果；

5.根据权利要求4所述的基于图卷积神经网络的反应条件预测方法，其特征在于，对所述反应条件预测模型进行模型训练时，

对于所述催化剂剂量预测模块，以样本数据集中催化剂类型实际结果对应的one hot以及样本数据集对应的反应编码为输入，以样本数据集中催化剂剂量实际结果为标签进行训练；

对于所述溶剂类型预测模块，以样本数据集中催化剂类型实际结果对应的one hot向量以及样本数据集对应的反应编码为输入，以样本数据集中溶剂类型实际结果为标签进行训练；

6.一种基于图卷积神经网络的反应条件预测系统，其特征在于，用于执行如权利要求1-5任一项所述的基于图卷积神经网络的反应条件预测方法进行反应条件预测，所述系统包括：

7.根据权利要求6所述的基于图卷积神经网络的反应条件预测系统，其特征在于，所述数据采集模块用于执行如下对历史反应条件数据集进行数据过滤：

剔除原始数据集中产物个数大于1的反应条件数据；

剔除原始数据集中反应条件字段缺失的反应条件数据；

8.根据权利要求6所述的基于图卷积神经网络的反应条件预测系统，其特征在于，对于基于样本数据集中反应物和产物组成的反应，所述反应编码模块用于执行如下基于反应物和产物的图结构编码构建所述反应对应的反应编码：

获取初始数据集中反应物与产物分子最大原子数N_{max_atom}；

9.根据权利要求6-8任一项所述的基于图卷积神经网络的反应条件预测系统，其特征在于，所述反应条件预测模型包括：

10.根据权利要求9所述的基于图卷积神经网络的反应条件预测系统，其特征在于，对所述反应条件预测模型进行模型训练时，所述模型训练模块用于执行如下：