CN113380346A

CN113380346A - 基于注意力卷积神经网络的偶联反应产率智能预测方法

Info

Publication number: CN113380346A
Application number: CN202110765040.5A
Authority: CN
Inventors: 彭李超; 杨晓慧; 侯贺讯; 董晶; 王治华; 赵彦保
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-06-08
Filing date: 2021-07-06
Publication date: 2021-09-10

Abstract

本发明公开了一种基于注意力卷积神经网络的偶联反应产率智能预测方法，包括数据获取、模型构建和产率智能预测。具体实现步骤如下：1）利用化学相关软件计算和提取化合物的特征描述符，将特征描述符作为训练集和测试集的原始数据，进行后续处理；2）将特征描述符数据导入卷积神经网络中，在卷积神经网络模型中融入注意力机制；3）使用搭建好的注意力卷积神经网络模型对获取的数据进行训练，当模型自带的损失函数MSE的值达到最小时，保存该模型；4）用户可自行调节模型参数，达到最佳预测效果；5）载入训练后的模型，对测试数据进行智能预测。本发明能够辅助化学家对偶联反应的产率进行快速预测，大大加速化学合成过程。

Description

基于注意力卷积神经网络的偶联反应产率智能预测方法

技术领域

本发明属于基于深度学习的有机化学合成领域，特别涉及一种基于注意力卷积神经网络的偶联反应产率智能预测方法。

背景技术

偶联反应(Coupled Reaction)是由两个有机化学单位(Molecules)进行某种化学反应而得到一个有机分子的过程。偶联反应具有多种途径，在有机合成中应用比较广泛。狭义的偶联反应是涉及有机金属催化剂的C-C键形成反应，根据类型的不同，又可分为交叉偶联和自身偶联反应，交叉偶联是指两个不同的片段连接成一个分子，自身偶联指相同的两个片段形成一个分子。

偶联反应的反应机理通常起始于有机卤代烃和催化剂的氧化加成，第二步是另一分子与其发生金属交换，即将两个待偶联的分子接于同一金属中心上，最后一步是还原消除，即两个待偶联的分子结合在一起形成新分子并再生催化剂。从反应机理中可以看出催化剂和配体的选择是反应的精髓，偶联反应中最常用的金属催化剂是钯催化剂，钯催化的有机反应有许多优点，如：官能团的耐受性强，有机钯化合物对于水和空气的低敏感性。

Buchwald-Hartwig偶联反应指由芳基卤代物或芳基磺酸酯与胺进行偶联制备芳胺的反应，此反应的主要特点是利用催化量的钯和富电子配体进行偶联反应。Buchwald-Hartwig偶联反应可直接形成C—N键，生成相关含氮化合物，被广泛应用于天然产物和药物合成中。C-N键形成中Buchwald-Hartwig偶联反应有着长久的发展，从开始使用Cu催化剂到现在使用Pd催化剂使Buchwald-Hartwig偶联反应的产率不断提高，更是促进了该类反应的进展。

随着2010年诺贝尔化学奖授予在偶联反应方面取得杰出贡献的Richard F.Heck等人，让此类反应的研究在化学界再次活跃起来。不过化学领域的学者主要是在通过改变Buchwald-Hartwig偶联反应中的反应产物，来达到更好的预测效果。但目前Buchwald-Hartwig偶联反应也存在着反应条件苛刻、合成路线复杂、反应试剂或溶剂毒性较大等问题，2018年，Doyle等人提出了利用随机森林算法，以高达92％的拟合优度对Buchwald-Hartwing偶联反应进行了预测，为本发明提供了一些借鉴。

近年来，由于大数据、计算机算力的不断发展进步，人工智能领域发展迅速，机器学习(ML)作为人工智能中一个重要的领域，整个过程是一个“仿生”过程。让机器代替人类的某些工作，减轻人民负担、提高工作效率是人们长期以来的梦想。特别是在化学领域，实验反应过程耗时、耗力、耗钱，如何更有效准确的预测化学反应产率是值得关注的一个问题。

机器学习方法在有机化学合成中的应用是非常有限的，之前的工作主要集中于通过逆合成途径协助合成规划，或在给定一组反应物和条件下预测化学反应的产物，利用机器学习算法预测给定反应的性能非常少。现急需一种偶联反应产率智能预测方法，使用户可以借助已有的化学软件提取化学体系中的信息，将信息转换为数据格式，将整个分析过程变成了数据的处理过程，进而减少对化学反应条件及化学工作人员的依赖。

发明内容

为了解决现有技术的不足，本发明旨在提供一种基于注意力卷积神经网络的偶联反应产率智能预测方法，该方法利用化学组分的特征描述符信息，自动、高效地对偶联反应产率进行智能预测，方便后续相关研究人员的研究；整个模型训练耗时短、预测准确率高、具有良好的鲁棒性。

为了实现上述目的，本发明采用的技术方案为：

基于注意力卷积神经网络的偶联反应产率智能预测方法，包括以下步骤：

(1)化学组分特征描述符的数据获取：用户可借助化学相关软件计算和提取化合物的特征描述符，用特征描述符的数据来描述每个反应；其中特征描述符包括分子、原子和振动描述符；

(2)模型构建：通过自行搭建注意力卷积神经网络模型，对获取的数据进行训练，在卷积神经网络模型中融入注意力机制，通过不断迭代学习，当损失函数均方误差值达到最小时，保存该模型；

(3)产率智能预测：载入已经训练好的模型，对测试数据进行快速预测，用户可根据自己的数据特性，调节网络参数，达到最佳预测效果，最后进行样本外预测，以此证明模型的有效性。

步骤(1)数据获取具体包括：

(1.1)借助相关化学软件，在界面中输入化合物结构和反应组分，让软件自动提取出包括分子、原子和振动描述符的特征描述符来描述每个反应；

(1.2)将其中一个反应物或反应条件为变量，其余为定量的条件下，得出每种组合的特征描述符，将特征描述符文件保存；

(1.3)汇总计算得到的所有反应组合的特征描述符，将其分为训练集、测试集，并与相应的反应产率对应。

步骤(2)模型构建具体包括：

(2.1)通过卷积层和池化层的简单堆叠自行搭建了一种卷积神经网络模型；卷积神经网络包含输入层、隐含层和全连接层，而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层；

(2.2)在第一层卷积层后加入注意力权重，使模型在提取信息时关注不同尺度信息；

(2.3)在卷积神经网络模型提取信息之后，对提取的信息分配注意力权重，使模型在进行产率智能预测时，更加关注重要的特征信息，降低对其他信息的关注度；

(2.4)利用搭建好的模型对获取的数据进行训练，通过多次迭代学习，损失函数的均方误差值收敛到最小时，保存最佳模型参数。

步骤3)产率智能预测具体包括：

(3.1)载入步骤(2.4)中已经训练好的最佳模型，对测试数据的产率进行快速预测；

(3.2)用户根据自己的数据特性，自行调节网络的参数，包括网络层数、卷积核大小、卷积层、池化层的步长、迭代次数和一次输入的数据量，获得最佳预测效果；

(3.2)进行样本外预测，证明模型的有效性。

步骤(2.1)中的隐含层包括两层卷积层、两层激励层和一层池化层，即在卷积层之后加入激活函数为ReLU的激励层，激励层之后加入池化层。

步骤(2.2)和(2.3)具体包括：

对于一个1维张量，将数据X记作X＝(x₁,x₂,x₃,…,x_n)，其中每个样本x_i都是标量；

Dense层在神经元个数为1的情况下，做

其中ω为权重，b为偏置，n个ω和1个b是神经网络要学习的参数；

Dense层将前面的数据信息经过非线性变化，提取数据之间的关联，最后映射到输出空间上；对于1维张量，Dense操作的对象是每个标量；

Softmax(归一化指数)的激活函数为：

其中，z是上一层的输出，即Softmax的输入，维度为C，分子为输入参数的指数函数，分母为所有输入参数的指数函数的和，算出来的是每个分子可能存在的概率。

一个激活函数为Softmax的Dense层输出结果是原始数据的注意力得分，将其乘以Dense的输入即完成了注意力权重的分配。

步骤(2.4)的具体过程包括：

(2.4.1)设置全部训练集的训练所需的迭代次数为p，一次读入的数据量为q，其中p≥1，q≥1；

(2.4.2)使用网络中自带的损失函数的均方误差，计算每次迭代网络模型的损失函数值；

(2.4.3)重复步骤(2.4.2)，直至损失函数值最小，保存该模型。

本发明具有的有益效果为：

1.本发明的偶联反应产率智能预测方法针对现有技术中Buchwald-Hartwig胺化反应产率的预测耗时、耗力、耗钱的问题，提出通过深度学习算法——卷积神经网络对获取的数据进行特征提取，在不同尺度和不同特征上加入注意力权重，模型在不断迭代学习过程中利用损失函数MES的值达到最小保存最佳模型参数，然后使用最佳模型进行测试数据的智能预测。本发明能够辅助化学家对偶联反应的产率进行快速预测，大大加速化学合成过程。

2.加入注意力权重使神经网络在提取特征时，聚焦对当前预测任务更为关键的特征描述符信息。

3.注意力机制与卷积神经网络结合进行的化学反应产率的预测更加准确高效。

4.本发明基于注意力卷积神经网络的偶联反应产率智能预测方法，操作简单，易于实现，分析结果较为准确，极大地方便相关用户的使用，满足用户需求。

附图说明

图1为本发明实施例中化学反应的反应式和相关变量结构式；

图2为注意力卷积神经网络模型示意图；

图3为注意力全连接网络示意图；

图4为本发明的流程图。

附图1中的标记：Equation：Buchwald-Hartwig偶联反应及反应中的变量选择范围，Aryl:卤化物，Additive：添加剂，Base：基底，Ligand：配体。

具体实施方式

如图1-4所示，本发明提出了一种基于注意力卷积神经网络的偶联反应产率智能预测方法，具体步骤包括对化学组分特征描述符的数据获取、模型构建和产率智能预测。

步骤1)化学组分特征描述符的数据获取；需要借助有关化学软件(本发明采用的化学软件是Spartan)，在软件界面中输入试剂结构和反应组分，使软件自动提取特征描述符来描述每个反应。其具体实现步骤包括：

(1.1)在Spartan软件中将Buchwald-Hartwig胺化反应中包括15种卤化物、4种配体、3种基底、23种添加剂的所有变量依次输入，提取特征描述符后将变量进行排列组合。

如图1所示，所有反应组合的顺序为卤化物、配体、基底和添加剂，利用Spartan软件以卤化物为变量，添加剂、基底和配体为定量进行组合，以此类推，以一种物质作为变量，其他物质作为定量进行排列组合。15种卤化物、4种配体、3种基底、23种添加剂，对应的排列组合有4140种，删除无效的反应，最终得到3960种有效反应，将这些反应一一对应于其反应产率，将特征描述符文件保存。

(1.2)汇总计算得到的所有反应组合的特征描述符，将其分为训练集：验证集：测试集＝7:2:1，并将其与相应的反应产率对应，以便于注意力卷积神经网络模型进行样本内、外智能预测。

本发明计算和提取有机化合物的特征描述符，主要是依靠一个化学软件：Spartan，Spartan第一个特点在于图形界面，以图形方式输入和输出分子数据，并且全部计算和结果显示都是在图形界面下完成的，用户可以直观地看到分子的几何构型和计算结果，并可快速做出反应和操作。因此，它不光适用于专业的量化人员，也适用于新手和非专业人员。Spartan第二个特点表现在量子力学与分子力学相互补充，它既可以计算较小的体系，也可以计算较大的复杂体系，预测电子结构和化学反应机理，精确度高。

步骤2)模型构建；通过自行搭建注意力卷积神经网络模型，对获取的数据进行训练，在卷积神经网络模型中融入注意力机制，通过不断迭代学习，当损失函数MSE(均方误差)的值达到最小时，保存该模型。

计算注意力权重是通过一个激活函数为Softmax的Dense层实现，Dense层的输出乘以Dense的输入即完成了注意力权重的分配。

其中模型构建是自行搭建的注意力卷积神经网络模型，具体包括：

(2.1)卷积神经网络包含输入层、隐含层和全连接层，而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层。本发明中的隐含层包括两层卷积层、两层激励层和一层池化层，即卷积层之后加入激活函数为ReLU的激励层，激励层之后加入池化层；

(2.2)在第一层卷积层后加入注意力权重，使模型在提取信息时关注不同尺度信息。

(2.3)在卷积神经网络模型提取信息之后，对提取的信息分配注意力权重，使模型在进行产率智能预测时，更加关注重要的特征信息，降低对其他信息的关注度。

如图3所示，模型构建中步骤(2.2)和(2.3)计算注意力权重的具体计算过程包括：

Dense层在神经元个数为1的情况下，本身相当于在做线性变换

这里ω是权重，b是偏置，n个ω和1个b是神经网络要学习的参数。

Dense层的目的是将前面的数据信息经过非线性变化，提取数据之间的关联，最后映射到输出空间上。

Softmax的激活函数为：

其中，z是上一层的输出，即Softmax是输入，维度为C，分子为输入参数的指数函数，分母为所有输入参数的指数函数的和，算出来的是每个分子可能存在的概率。

一个激活函数为Softmax的Dense层输出结果是原始数据的注意力得分，将其乘以Dense的输入(也就是原始数据)即完成了注意力权重的分配。

(2.4)将获取的数据导入注意力卷积神经网络模型中进行训练，通过不断迭代学习使损失函数MSE的值达到最小选取最佳参数。具体过程包括：

(2.4.3)重复步骤(2.4.2)，直至损失函数值最小，保存该模型。

将分配过注意力权重的训练集与测试集数据导入到卷积神经网络模型中，卷积神经网络包含输入层、隐含层和全连接层，而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层。每个卷积层输入一组数据后，由一个内核滤波器(也称为卷积核)生成一组特征数据，一个卷积层中可以含有多个滤波器。

卷积核在输入向量上以一定步长进行移动，每移动一个位置进行一次卷积运算，得到一个输出数值。一个卷积核计算只能得到一个特征向量，要想得到多个特征向量需要由多个卷积核生成。

卷积运算本质上还是一个线性加权求和，要想学习到网络的非线性特征，需要选择非线性函数作为激活函数，也就是激励层。

一般比较常用的激活函数为ReLU函数，其公式为f(x)＝max(0,x)，其中x为特征值，f(x)为激活函数值。ReLU函数其实就是一个取最大值函数，在一定程度上缓解了正区间内梯度消失和梯度爆炸问题，不过ReLU函数并不是一条光滑的曲线，而Softplus函数可以看作是ReLu函数的平滑，其公式为

x为特征值，

为激活函数值。

池化层是一种降采样操作，主要用于特征降维、减少参数数量、防止过拟合，同时提高模型的容错性。常用的池化有最大值池化和平均值池化，本发明中所使用的是步长为3的最大值池化。

通过卷积层和池化层的交替堆叠，神经网络从输入数据中提取到特征信息，最终加入注意力全连接层，将特征提取与回归预测统一到同一个框架中进行全局优化。在全连接之前，先将最后一层池化层得到的几个特征向量展平成一个一维向量，作为全连接层的输入，然后再连接注意力全连接层和输出层，完成最终的智能预测。

最后模型将根据损失函数MSE达到最小值返回预测值，通过评价指标判断模型的预测效果，为用户提供一定的决策信息。

注意力卷积神经网络相较于其他机器学习算法预测结果更加准确且高效，一是因为卷积神经网络采用端到端的方式从原始数据中直接学习特征完成预测，二是不同的特征描述符对于当前的产率预测任务的贡献是不一样的，加入注意力恰好让卷积神经网络在特征学习时自动关注重要的特征。此外，卷积神经网络的局部感知机制使得网络中的每个神经元不需要感知全部数据，只对局部数据进行感知，然后在更高层次上对局部信息进行合并，从而得到全部的表征信息；参数共享则降低了模型的复杂度，减少了权值的数量。

步骤3)产率智能预测，是将训练好的模型载入，对测试数据进行产率预测，具体包括：

(3.1)载入步骤(2.4)中已经训练好的最佳模型，对测试数据的产率进行快速预测.

(3.2)用户可根据自己的数据特性，自行调节网络的参数，包括网络层数、卷积核大小、卷积层和池化层的步长，迭代次数，一次输入的数据量等参数，获得最佳预测效果。

(3.2)进行样本外预测，以此证明模型的有效性；样本外预测是对模型训练和测试以外的样本数据进行预测，如果样本外预测是有效的，则可证明本发明所选的模型可以预测偶联反应的反应产率。

仿真实验：

本发明的系统用仿真实验给予进一步的展示，以Buchwald-Hartwig偶联反应为例(化学反应式如图1所示)，15种卤化物、4种配体、3种基底、23种添加剂进行组合，除去无效反应，最终得到3960种有效反应，将其特征描述符数据及对应的产率作为用户选择的数据导入不同的模型中进行产率预测。

不同模型的产率智能预测结果

实验中，以拟合优度R²和均方误差RMSE为评价指标，对比了本发明设计的注意力卷积神经网络与线性回归、传统机器学习方法(K近邻、支持向量机、决策树和随机森林)的预测效果。从表中可以看出：注意力卷积神经网络模型的拟合优度R²＝0.96，大于其他五种模型，说明注意力卷积神经网络模型得到的预测值与真实值更加接近；同时，注意力卷积神经网络模型的均方误差RMSE＝5.71，远远小于其他五种模型，说明注意力卷积神经网络模型得到的预测值误差更小。

Claims

1.基于注意力卷积神经网络的偶联反应产率智能预测方法，其特征在于：包括以下步骤：

(2)模型构建：通过自行搭建注意力卷积神经网络模型，对获取的数据进行训练，在卷积神经网络模型中融入注意力机制，通过不断迭代学习，当损失函数均方误差的值达到最小时，保存该模型；

2.根据权利要求1所述的偶联反应产率智能预测方法，其特征在于：步骤(1)数据获取具体包括：

3.根据权利要求1所述的偶联反应产率智能预测方法，其特征在于：步骤(2)模型构建具体包括：

(2.4)利用搭建好的模型对获取的数据进行训练，通过多次迭代学习，损失函数均方误差的值收敛到最小时，保存最佳模型参数。

4.根据权利要求3所述的偶联反应产率智能预测方法，其特征在于：步骤3)产率智能预测具体包括：

(3.2)进行样本外预测，证明模型的有效性。

5.根据权利要求3所述的偶联反应产率智能预测方法，其特征在于：步骤(2.1)中的隐含层包括两层卷积层、两层激励层和一层池化层，即在卷积层之后加入激活函数为ReLU的激励层，激励层之后加入池化层。

6.根据权利要求5所述的偶联反应产率智能预测方法，其特征在于：步骤(2.2)和(2.3)具体包括：

Dense层在神经元个数为1的情况下，做线性变换

Softmax(归一化指数)的激活函数为：

其中，z是上一层的输出，即Softmax的输入，维度为C，分子为输入参数的指数函数，分母为所有输入参数的指数函数的和，算出来的是每个分子可能存在的概率；

7.根据权利要求6所述的偶联反应产率智能预测方法，其特征在于：步骤(2.4)的具体过程包括：

(2.4.2)使用网络中自带的损失函数均方误差，计算每次迭代网络模型的损失函数值；

(2.4.3)重复步骤(2.4.2)，直至损失函数值最小，保存该模型。