CN115565616A

CN115565616A - 反应条件预测模型的训练方法、反应条件预测方法和系统

Info

Publication number: CN115565616A
Application number: CN202211124540.1A
Authority: CN
Inventors: 江俊; 张百成
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-01-03

Abstract

本发明提供了一种反应条件预测模型的训练方法、反应条件预测方法和系统，所述训练方法包括：构建标注样本，标注样本包括输入数据和标签，输入数据包括化学反应对应的反应描述符，标签为所述化学反应的反应条件，反应条件为催化剂或者溶剂；建立与反应条件一一对应的神经网络模型，其输入为输入数据；催化剂对应的神经网络模型的输出为各种催化剂概率，且概率之和为1；溶剂对应的神经网络模型的输出为各种溶剂概率，且概率之和为1；令神经网络模型自主学习对应反应条件类别下的标注样本，直至模型损失达到设定值时，固定神经网络模型作为反应条件预测模型。本发明通过该反应条件预测模型可快速获取化学反应的反应条件。

Description

反应条件预测模型的训练方法、反应条件预测方法和系统

技术领域

本发明涉及化学反应领域，尤其涉及一种反应条件预测模型的训练方法、反应条件预测方法和系统。

背景技术

催化剂和溶剂作为化学反应的辅助料，对化学反应具有促进作用。化学研究过程中，如果化学反应耗时长，将浪费大量的人力和时间，为了加快化学反应速度，催化剂和溶剂的应用必不可少。但是，当前已知的催化剂和溶剂均有数百种，不同的化学反应适用的催化剂/溶剂不同，不同的催化剂/溶剂作用于同一化学反应实现的促进效果也不同。

化学研究中，反应条件即催化剂/溶剂的选择不可或缺。当前，反应条件的研究实验，只能根据研究员的经验进行筛选然后逐一尝试，尝试的反应条件越多，结果越精确，但是耗时长，人力和时间严重浪费。

发明内容

为了解决上述现有技术中无法快速确定化学反应的反应条件的缺陷，本发明提出了一种反应条件预测模型的训练方法，用于实现一种可预测化学反应的反应条件的神经网络模型。

本发明提出的一种反应条件预测模型的训练方法，包括以下步骤：

S1、构建标注样本，标注样本包括输入数据和标签，输入数据包括化学反应对应的反应描述符，标签为所述化学反应的反应条件，反应条件为催化剂或者溶剂；

建立与反应条件一一对应的神经网络模型，其输入为输入数据；催化剂对应的神经网络模型的输出为各种催化剂概率，且概率之和为1；溶剂对应的神经网络模型的输出为各种溶剂概率，且概率之和为1；

S2、令神经网络模型自主学习对应反应条件类别下的标注样本，直至模型损失达到设定值时，固定神经网络模型作为反应条件预测模型。

优选的，神经网络模型还关联有反应条件数据库，反应条件数据库根据对应的反应条件设置；催化剂对应的反应条件数据库包含已知的所有催化剂，溶剂对应的反应条件数据库包含已知的所有溶剂；反应条件对应的神经网络模型的输出为反应条件对应的反应条件数据库中各反应条件对应的概率。

优选的，步骤S2具体包括以下分步骤：

S21、从标注样本中选择训练样本和测试样本；

S22、令神经网络模型学习训练样本，并在学习过程中迭代模型参数，直至所有训练样本学习完成；

S23、将各测试样本的输入数据输入神经网络模型，获得各测试样本对应的模型输出作为测试样本的模型标注；结合所有测试样本的模型标注和标签计算模型损失；

S24、判断模型损失是否达到设定值；否，则返回步骤S21；是，则固定神经网络模型作为反应条件预测模型。

优选的，令测试样本对应的模型标注中最大概率值对应的所有反应条件构成该测试样本对应的预测集合；S23中，所述模型损失为当前循环中，预测集合未包含对应的标签的测试样本数量与测试样本总数量的比值。

优选的，所述输入数据还包括键能、化学位移和反应类型。

优选的，键能和化学位移采用神经网络模型或者试验光谱获得。

优选的，输入数据中的反应描述符通过rdkit获得。

本发明还提出了一种反应条件预测方法，采用上述的反应条件预测模型可高效、精确的预测化学反应的反应条件。

本发明提出的一种反应条件预测方法，包括以下步骤：

获取反应条件对应的反应条件数据库和反应条件预测模型，反应条件预测模型通过所述的反应条件预测模型的训练方法获得；获取待预测反应的输入数据，输入数据为化学反应对应的反应描述符、键能、化学位移和反应类型；

将待预测反应的输入数据输入所述的反应条件预测模型，获取反应条件预测模型输出的最大概率值对应的所有反应条件构成预测集合。

优选的，待预测反应的输入数据中各项数据的获取方式与所述的反应条件预测模型的训练方法中标注样本的输入数据中对应的数据的获取方式相同。

本发明还提出了一种反应条件预测系统，用于承载上述的反应条件预测模型和反应条件预测方法。

本发明提出的一种反应条件预测系统，包括存储器和处理器，存储器中存储有反应条件数据库、反应条件预测模型和计算机程序；处理器与存储器连接，处理器用于执行所述计算机程序以实现所述的反应条件预测方法。

本发明的优点在于：

(1)本发明提供的一种反应条件预测模型的训练方法，通过神经网络模型对标注有反应条件的化学反应的特征数据即反应条件预测模型的输入数据的自主学习获得反应条件预测模型，通过该反应条件预测模型可快速获取化学反应的反应条件，即催化剂或者溶剂。

(2)通过本发明提供的反应条件预测模型可快速筛选出化学反应最有可能的催化剂/溶剂，从而大大节约筛选时间和试验时间，有利于大大提高化学试验效率。

(3)本发明中反应条件预测模型关联反应条件数据库，进一步保证了反应条件预测的精确度。尤其是用于预测催化剂的反应条件预测模型关联催化剂数据库，用于预测溶剂的反应条件预测模型关联溶剂数据库，将催化剂预测和溶剂预测分开，使得反应条件的预测结果更加清晰。

(4)本发明中，基于神经网络模型训练反应条件预测模型，通过模型损失观测模型效果，有利于直观评价模型的准确度，评估模型效用。

(5)本发明中，在反应条件预测模型的输入数据中加入化学反应的键能、化学位移和反应类型，大大提高了反应条件预测准确度。键能、化学位移和反应类型均可根据现有技术获得，降低了输入数据的获取难度，有利于该反应条件预测模型的推广。

附图说明

图1为一种催化剂预测模型的训练方法流程图；

图2为两种催化剂预测模型的准确度对比图；

图3为两种溶剂预测模型的准确度对比图。

具体实施方式

名词解释：

反应描述符为用于描述化学反应的描述符，在化学领域应用广泛，目前有很多软件例如rdkit都可以自动生成化学反应的反应描述符。

一种催化剂预测模型

所述催化剂预测模型即为以催化剂作为反应条件的反应条件预测模型。

本实施方式提出的一种催化剂预测模型，基于神经网络构建，且该催化剂预测模型关联有催化剂数据库。

该催化剂预测模型的输入为化学反应对应的特征数据，其输出为所述的化学反应的催化剂概率分布，即催化剂数据库中各种催化剂适用于该化学反应的概率，所有概率之和为1。

具体实施时，催化剂预测模型的输出可记作[y₁、y₂、y₃、…y_i…、y_c]，c为催化剂数据库中的催化剂种类总数量，y_i为催化剂数据库中的第i种催化剂适用于催化剂预测模型输入的化学反应的概率，1≦i≦c，0≦y_i≦1，y₁+y₂+y₃+…y_i…+y_c＝1。

具体的，本实施方式中提供了两种催化剂预测模型，第一种催化剂预测模型的输入数据为反应描述符，即化学反应的特征数据仅包含反应描述符，所述反应描述符采用现有技术手段获得，例如可通过软件rdkit直接获得。

第二种催化剂预测模型的输入数据包括反应描述符、键能、化学位移和反应类型，即化学反应的特征数据仅包含反应描述符、键能、化学位移和反应类型。键能和化学位移可采用神经网络模型从化学反应中提取，也可采用现有的试验光谱的方式获得。化学反应的反应类型根据现有技术获得，例如根据反应物分子推算等。

一种催化剂预测模型的训练方法

本实施方式中提出的一种催化剂预测模型的训练方法，包括以下步骤：

SA1、构建标注样本，标注样本包括输入数据和标签，输入数据即为化学反应的特征数据；训练第一种催化剂预测模型时，输入数据为化学反应对应的反应描述符；训练第二种催化剂预测模型时，输入数据为化学反应对应的反应描述符、键能、化学位移和反应类型；标签为所述化学反应的催化剂；

建立的神经网络模型和催化剂数据库；神经网络模型的输入为输入数据，其输出为催化剂数据库中各种催化剂的概率，且概率之和为1；

SA21、从标注样本中选择训练样本和测试样本；

SA22、令神经网络模型学习训练样本，并在学习过程中迭代模型参数，直至所有训练样本学习完成；

SA23、将各测试样本的输入数据输入神经网络模型，获得各测试样本对应的模型输出作为测试样本的模型标注；结合所有测试样本的模型标注和标签计算模型损失；本实施例中，设置模型损失为模型标注未命中的测试样本数量与测试样本总数量的比值，模型标注未命中指的是，神经网络模型输出的概率分布中的最大概率值对应的所有催化剂不包括输入数据对应的标签。例如，以A、B、C、D、E、F……表示催化剂，如果某个测试样本中包含的标签为A，该测试样本的输入数据输入催化剂预测模型后，催化剂预测模型输出的模型标注为{(0.4,B)(0.4,C)(0.1,D)(0.1,E)(0.0,F)……}，则模型标注中的最大概率值0.4对应的催化剂为B、C，即预测集合为{B、C}，预测集合不包含标签A，此时该测试样本为模型标注未命中的测试样本。

SA24、判断模型损失是否达到设定值；否，则返回步骤SA21；是，则固定神经网络模型作为反应条件预测模型。

值得注意的是，一个循环中的步骤SA21-SA23构成一次模型迭代，每一次模型迭代后对应的模型损失均发生变化，故而步骤SA23中在计算模型损失时，只根据当前循环中测试样本进行计算。

如此，结合步骤SA21-SA24，令神经网络模型自主学习标注有催化剂的标注样本，直至模型损失达到设定值时，固定神经网络模型作为催化剂预测模型，从而根据该催化剂预测模型可预测化学反应对应的催化剂概率分布的。

以下结合具体实施例，分别对第一种催化剂预测模型和第二种催化剂预测模型进行训练。本实施例中，收集已知的379中催化剂构成催化剂数据库，即神经网络模型的输出为[y₁、y₂、y₃、…y_i…、y₃₇₉]，y_i为催化剂数据库中的第i种催化剂适用于催化剂预测模型输入的化学反应的概率，1≦i≦379，0≦y_i≦1，y₁+y₂+y₃+…y_i…+y₃₇₉＝1。

本实施例中对两种催化剂预测模型的训练结果如图2所示，图2中横坐标为模型学习的训练样本数量K，纵坐标为模型学习指定数量的标注样本后的准确度Top-K，两种催化剂预测模型的准确度计算方式相同，均为模型标注命中的测试样本数量除以测试样本总数。

令模型标注中最大概率值对应的所有催化剂构成预测集合，假设每一次参数迭代后均采用10个测试样本测试对比模型和催化剂预测模型，以催化剂预测模型为例，如果10个测试样本中，有8个对应的预测集合包含其标签，则催化剂预测模型的准确度为8/10＝0.8。

本实施例中，两种催化剂预测模型的准确度如下表所示：

表1：两种催化剂预测模型训练准确度

结合图2和表1可知，本实施例中两种催化剂预测模型均能够很好的预测化学反应的催化剂，可为化学试验提供辅助，大大节约试验催化剂的时间，提高化学研究效率。从图2可知，本实施例中的第二中催化剂预测模型的准确度始终高于第一种催化剂预测模型的准确度，可见结合反应描述符、键能、化学位移和反应类型能够更加精确的预测化学反应的催化剂。

一种溶剂预测模型

所述溶剂预测模型即为以溶剂作为反应条件的反应条件预测模型。

本实施方式提出的一种溶剂预测模型，基于神经网络构建，且该溶剂预测模型关联有溶剂数据库。

该溶剂预测模型的输入为化学反应对应的特征数据，其输出为所述的化学反应的溶剂概率分布，即溶剂数据库中各种溶剂适用于该化学反应的概率，所有概率之和为1。

具体实施时，溶剂预测模型的输出可记作[Y₁、Y₂、Y₃、…Y_j…、Y_r]，r为溶剂数据库中的溶剂种类总数量，Y_j为溶剂数据库中的第j种溶剂适用于溶剂预测模型输入的化学反应的概率，1≦j≦r，0≦Y_j≦1，Y₁+Y₂+Y₃+…Y_j…+Y_r＝1。

具体的，本实施方式中提供了两种溶剂预测模型，第一种溶剂预测模型的输入数据为反应描述符，即化学反应的特征数据仅包含反应描述符。

第二种溶剂预测模型的输入数据包括反应描述符、键能、化学位移和反应类型，即化学反应的特征数据仅包含反应描述符、键能、化学位移和反应类型。

一种溶剂预测模型的训练方法

本实施方式中提出的一种溶剂预测模型的训练方法，包括以下步骤：

SB1、构建标注样本，标注样本包括输入数据和标签，输入数据即为化学反应的特征数据；训练第一种溶剂预测模型时，输入数据为化学反应对应的反应描述符；训练第二种溶剂预测模型时，输入数据为化学反应对应的反应描述符、键能、化学位移和反应类型；标签为所述化学反应的溶剂；

建立的神经网络模型和溶剂数据库；神经网络模型的输入为输入数据，其输出为溶剂数据库中各种溶剂的概率，且概率之和为1；

SB21、从标注样本中选择训练样本和测试样本；

SB22、令神经网络模型学习训练样本，并在学习过程中迭代模型参数，直至所有训练样本学习完成；

SB23、将各测试样本的输入数据输入神经网络模型，获得模型输出作为测试样本的模型标注；结合所有测试样本的模型标注和标签计算模型损失；本实施例中，设置模型损失为模型标注未命中的测试样本数量与测试样本总数量的比值，模型标注未命中指的是，神经网络模型输出的概率分布中的最大概率值对应的所有溶剂不包括输入数据对应的标签。

SB24、判断模型损失是否达到设定值；否，则返回步骤SB21；是，则固定神经网络模型作为反应条件预测模型。

值得注意的是，一个循环中的步骤SB21-SB23构成一次模型迭代，每一次模型迭代后对应的模型损失均发生变化，故而步骤SB23中在计算模型损失时，只根据当前循环中测试样本进行计算。

结合步骤S21-S24，令神经网络模型自主学习标注有溶剂的标注样本，直至模型损失达到设定值时，固定神经网络模型作为溶剂预测模型，从而根据该溶剂预测模型可预测化学反应对应的溶剂概率分布的。

以下结合具体实施例，分别对第一种溶剂预测模型和第二种溶剂预测模型进行训练。本实施例中，收集已知的539中溶剂构成溶剂数据库，即神经网络模型的输出为[Y₁、Y₂、Y₃、…Y_j…、Y₅₃₉]，Y_j为溶剂数据库中的第j种溶剂适用于溶剂预测模型输入的化学反应的概率，1≦j≦539，0≦Y_j≦1，Y₁+Y₂+Y₃+…Y_j…+Y₅₃₉＝1。

本实施例中对两种溶剂预测模型的训练结果如图3所示，图3中横坐标为模型学习的训练样本数量K，纵坐标为模型学习指定数量的标注样本后的准确度Top-K，两种溶剂预测模型的准确度计算方式相同，均为模型标注命中的测试样本数量除以测试样本总数。

令模型标注中最大概率值对应的所有溶剂构成预测集合，假设每一次参数迭代后均采用10个测试样本测试对比模型和溶剂预测模型，以溶剂预测模型为例，如果10个测试样本中，有8个对应的预测集合包含其标签，则溶剂预测模型的准确度为8/10＝0.8。

本实施例中，两种溶剂预测模型的准确度如下表所示：

表2：两种溶剂预测模型训练准确度

结合图3和表2可知，本实施例中两种溶剂预测模型均能够很好的预测化学反应的溶剂，可为化学试验提供辅助，大大节约试验溶剂的时间，提高化学研究效率。从图3可知，本实施例中的第二中溶剂预测模型的准确度始终高于第一种溶剂预测模型的准确度，可见结合反应描述符、键能、化学位移和反应类型能够更加精确的预测化学反应的溶剂。

一种反应条件预测方法

本实施方式提出的一种化学反应预测方法，首先要确定是预测化学反应的催化剂还是溶剂。

当预测化学反应的催化剂时，首先选择上述的任一种催化剂预测模型，将待预测的化学反应的特征数据作为输入数据输入该催化剂预测模型，然后获取该催化剂预测模型输出的概率分布中最大概率对应的所有催化剂作为待预测化学反应可能的的催化剂。

当预测化学反应的溶剂时，首先选择上述的任一种溶剂预测模型，将待预测的化学反应的特征数据作为输入数据输入该溶剂预测模型，然后获取该溶剂预测模型输出的概率分布中最大概率对应的所有溶剂作为待预测化学反应可能的的溶剂。

值得注意的是，具体实施时，各标注样本的反应描述符应采用同一方式获得，各标注样本的键能应采用同一方式获得，各标注样本的化学位移应采用同一方式获得，各标注样本的反应类型应采用同一方式获得。如此，化学反应的特征数据中每一项数据均采用同一方式获得，有利于进一步提高模型的收敛效率。具体应用时，待预测的化学反应采用与标注样本对应的方法获得特征数据以输入反应条件预测模型，也可进一步保证预测准确度。

一种反应条件预测系统

本实施方式提出的反应条件预测系统，包括存储器和处理器，存储器中存储有催化剂数据库、催化剂预测模型、溶剂数据库、溶剂预测模型和计算机程序；处理器与存储器连接，处理器用于执行所述计算机程序以实现上述的反应条件预测方法。

一种用于预测催化剂的反应条件预测系统

本实施方式提出的反应条件预测系统，包括存储器和处理器，存储器中存储有催化剂数据库、催化剂预测模型和计算机程序；处理器与存储器连接，处理器用于执行所述计算机程序以实现上述的反应条件预测方法，即处理器将待预测化学反应的特征数据输入存储的催化剂预测模型，以获取该催化剂预测模型输出的概率分布中最大概率对应的催化剂作为待预测化学反应的催化剂预测结果。

一种用于预测溶剂的反应条件预测系统

本实施方式提出的反应条件预测系统，包括存储器和处理器，存储器中存储有溶剂数据库、溶剂预测模型和计算机程序；处理器与存储器连接，处理器用于执行所述计算机程序以实现上述的反应条件预测方法，即处理器将待预测化学反应的特征数据输入存储的溶剂预测模型，以获取该溶剂预测模型输出的概率分布中最大概率对应的溶剂作为待预测化学反应的溶剂预测结果。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种反应条件预测模型的训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的反应条件预测模型的训练方法，其特征在于，神经网络模型还关联有反应条件数据库，反应条件数据库根据对应的反应条件设置；催化剂对应的反应条件数据库包含已知的所有催化剂，溶剂对应的反应条件数据库包含已知的所有溶剂；反应条件对应的神经网络模型的输出为反应条件对应的反应条件数据库中各反应条件对应的概率。

3.如权利要求1所述的反应条件预测模型的训练方法，其特征在于，步骤S2具体包括以下分步骤：

S21、从标注样本中选择训练样本和测试样本；

4.如权利要求3所述的反应条件预测模型的训练方法，其特征在于，令测试样本对应的模型标注中最大概率值对应的所有反应条件构成该测试样本对应的预测集合；S23中，所述模型损失为当前循环中，预测集合未包含对应的标签的测试样本数量与测试样本总数量的比值。

5.如权利要求1所述的反应条件预测模型的训练方法，其特征在于，所述输入数据还包括键能、化学位移和反应类型。

6.如权利要求5所述的反应条件预测模型的训练方法，其特征在于，键能和化学位移采用神经网络模型或者试验光谱获得。

7.如权利要求1所述的反应条件预测模型的训练方法，其特征在于，输入数据中的反应描述符通过rdkit获得。

8.一种反应条件预测方法，其特征在于，包括以下步骤：

获取反应条件对应的反应条件数据库和反应条件预测模型，反应条件预测模型通过如权利要求1至7任一项所述的反应条件预测模型的训练方法获得；获取待预测反应的输入数据，输入数据为化学反应对应的反应描述符、键能、化学位移和反应类型；

9.如权利要求8所述的反应条件预测方法，其特征在于，待预测反应的输入数据中各项数据的获取方式与所述的反应条件预测模型的训练方法中标注样本的输入数据中对应的数据的获取方式相同。

10.一种反应条件预测系统，其特征在于，包括存储器和处理器，存储器中存储有反应条件数据库、反应条件预测模型和计算机程序；处理器与存储器连接，处理器用于执行所述计算机程序以实现如权利要求8或9所述的反应条件预测方法。