CN113380346A - 基于注意力卷积神经网络的偶联反应产率智能预测方法 - Google Patents
基于注意力卷积神经网络的偶联反应产率智能预测方法 Download PDFInfo
- Publication number
- CN113380346A CN113380346A CN202110765040.5A CN202110765040A CN113380346A CN 113380346 A CN113380346 A CN 113380346A CN 202110765040 A CN202110765040 A CN 202110765040A CN 113380346 A CN113380346 A CN 113380346A
- Authority
- CN
- China
- Prior art keywords
- model
- layer
- neural network
- data
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000000126 substance Substances 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 6
- 150000001875 compounds Chemical class 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 43
- 238000011176 pooling Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 14
- 230000005284 excitation Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 239000000376 reactant Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract description 9
- 238000003786 synthesis reaction Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 2
- 238000006443 Buchwald-Hartwig cross coupling reaction Methods 0.000 description 11
- 239000003446 ligand Substances 0.000 description 9
- 239000003054 catalyst Substances 0.000 description 8
- 239000000654 additive Substances 0.000 description 7
- 102100026816 DNA-dependent metalloprotease SPRTN Human genes 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 239000000758 substrate Substances 0.000 description 6
- KDLHZDBZIXYQEI-UHFFFAOYSA-N Palladium Chemical compound [Pd] KDLHZDBZIXYQEI-UHFFFAOYSA-N 0.000 description 5
- 150000004820 halides Chemical class 0.000 description 5
- 101710175461 DNA-dependent metalloprotease SPRTN Proteins 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000002184 metal Substances 0.000 description 3
- 229910052751 metal Inorganic materials 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 150000001502 aryl halides Chemical class 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 229910052763 palladium Inorganic materials 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- BHELIUBJHYAEDK-OAIUPTLZSA-N Aspoxicillin Chemical compound C1([C@H](C(=O)N[C@@H]2C(N3[C@H](C(C)(C)S[C@@H]32)C(O)=O)=O)NC(=O)[C@H](N)CC(=O)NC)=CC=C(O)C=C1 BHELIUBJHYAEDK-OAIUPTLZSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 150000001412 amines Chemical class 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 150000004982 aromatic amines Chemical class 0.000 description 1
- 125000005228 aryl sulfonate group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006664 bond formation reaction Methods 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000006880 cross-coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 231100000086 high toxicity Toxicity 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 229930014626 natural product Natural products 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 238000006053 organic reaction Methods 0.000 description 1
- 125000002524 organometallic group Chemical group 0.000 description 1
- 238000006464 oxidative addition reaction Methods 0.000 description 1
- 150000002941 palladium compounds Chemical class 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000005610 quantum mechanics Effects 0.000 description 1
- 238000006894 reductive elimination reaction Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于注意力卷积神经网络的偶联反应产率智能预测方法,包括数据获取、模型构建和产率智能预测。具体实现步骤如下:1)利用化学相关软件计算和提取化合物的特征描述符,将特征描述符作为训练集和测试集的原始数据,进行后续处理;2)将特征描述符数据导入卷积神经网络中,在卷积神经网络模型中融入注意力机制;3)使用搭建好的注意力卷积神经网络模型对获取的数据进行训练,当模型自带的损失函数MSE的值达到最小时,保存该模型;4)用户可自行调节模型参数,达到最佳预测效果;5)载入训练后的模型,对测试数据进行智能预测。本发明能够辅助化学家对偶联反应的产率进行快速预测,大大加速化学合成过程。
Description
技术领域
本发明属于基于深度学习的有机化学合成领域,特别涉及一种基于注意力卷积神经网络的偶联反应产率智能预测方法。
背景技术
偶联反应(Coupled Reaction)是由两个有机化学单位(Molecules)进行某种化学反应而得到一个有机分子的过程。偶联反应具有多种途径,在有机合成中应用比较广泛。狭义的偶联反应是涉及有机金属催化剂的C-C键形成反应,根据类型的不同,又可分为交叉偶联和自身偶联反应,交叉偶联是指两个不同的片段连接成一个分子,自身偶联指相同的两个片段形成一个分子。
偶联反应的反应机理通常起始于有机卤代烃和催化剂的氧化加成,第二步是另一分子与其发生金属交换,即将两个待偶联的分子接于同一金属中心上,最后一步是还原消除,即两个待偶联的分子结合在一起形成新分子并再生催化剂。从反应机理中可以看出催化剂和配体的选择是反应的精髓,偶联反应中最常用的金属催化剂是钯催化剂,钯催化的有机反应有许多优点,如:官能团的耐受性强,有机钯化合物对于水和空气的低敏感性。
Buchwald-Hartwig偶联反应指由芳基卤代物或芳基磺酸酯与胺进行偶联制备芳胺的反应,此反应的主要特点是利用催化量的钯和富电子配体进行偶联反应。Buchwald-Hartwig偶联反应可直接形成C—N键,生成相关含氮化合物,被广泛应用于天然产物和药物合成中。C-N键形成中Buchwald-Hartwig偶联反应有着长久的发展,从开始使用Cu催化剂到现在使用Pd催化剂使Buchwald-Hartwig偶联反应的产率不断提高,更是促进了该类反应的进展。
随着2010年诺贝尔化学奖授予在偶联反应方面取得杰出贡献的Richard F.Heck等人,让此类反应的研究在化学界再次活跃起来。不过化学领域的学者主要是在通过改变Buchwald-Hartwig偶联反应中的反应产物,来达到更好的预测效果。但目前Buchwald-Hartwig偶联反应也存在着反应条件苛刻、合成路线复杂、反应试剂或溶剂毒性较大等问题,2018年,Doyle等人提出了利用随机森林算法,以高达92%的拟合优度对Buchwald-Hartwing偶联反应进行了预测,为本发明提供了一些借鉴。
近年来,由于大数据、计算机算力的不断发展进步,人工智能领域发展迅速,机器学习(ML)作为人工智能中一个重要的领域,整个过程是一个“仿生”过程。让机器代替人类的某些工作,减轻人民负担、提高工作效率是人们长期以来的梦想。特别是在化学领域,实验反应过程耗时、耗力、耗钱,如何更有效准确的预测化学反应产率是值得关注的一个问题。
机器学习方法在有机化学合成中的应用是非常有限的,之前的工作主要集中于通过逆合成途径协助合成规划,或在给定一组反应物和条件下预测化学反应的产物,利用机器学习算法预测给定反应的性能非常少。现急需一种偶联反应产率智能预测方法,使用户可以借助已有的化学软件提取化学体系中的信息,将信息转换为数据格式,将整个分析过程变成了数据的处理过程,进而减少对化学反应条件及化学工作人员的依赖。
发明内容
为了解决现有技术的不足,本发明旨在提供一种基于注意力卷积神经网络的偶联反应产率智能预测方法,该方法利用化学组分的特征描述符信息,自动、高效地对偶联反应产率进行智能预测,方便后续相关研究人员的研究;整个模型训练耗时短、预测准确率高、具有良好的鲁棒性。
为了实现上述目的,本发明采用的技术方案为:
基于注意力卷积神经网络的偶联反应产率智能预测方法,包括以下步骤:
(1)化学组分特征描述符的数据获取:用户可借助化学相关软件计算和提取化合物的特征描述符,用特征描述符的数据来描述每个反应;其中特征描述符包括分子、原子和振动描述符;
(2)模型构建:通过自行搭建注意力卷积神经网络模型,对获取的数据进行训练,在卷积神经网络模型中融入注意力机制,通过不断迭代学习,当损失函数均方误差值达到最小时,保存该模型;
(3)产率智能预测:载入已经训练好的模型,对测试数据进行快速预测,用户可根据自己的数据特性,调节网络参数,达到最佳预测效果,最后进行样本外预测,以此证明模型的有效性。
步骤(1)数据获取具体包括:
(1.1)借助相关化学软件,在界面中输入化合物结构和反应组分,让软件自动提取出包括分子、原子和振动描述符的特征描述符来描述每个反应;
(1.2)将其中一个反应物或反应条件为变量,其余为定量的条件下,得出每种组合的特征描述符,将特征描述符文件保存;
(1.3)汇总计算得到的所有反应组合的特征描述符,将其分为训练集、测试集,并与相应的反应产率对应。
步骤(2)模型构建具体包括:
(2.1)通过卷积层和池化层的简单堆叠自行搭建了一种卷积神经网络模型;卷积神经网络包含输入层、隐含层和全连接层,而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层;
(2.2)在第一层卷积层后加入注意力权重,使模型在提取信息时关注不同尺度信息;
(2.3)在卷积神经网络模型提取信息之后,对提取的信息分配注意力权重,使模型在进行产率智能预测时,更加关注重要的特征信息,降低对其他信息的关注度;
(2.4)利用搭建好的模型对获取的数据进行训练,通过多次迭代学习,损失函数的均方误差值收敛到最小时,保存最佳模型参数。
步骤3)产率智能预测具体包括:
(3.1)载入步骤(2.4)中已经训练好的最佳模型,对测试数据的产率进行快速预测;
(3.2)用户根据自己的数据特性,自行调节网络的参数,包括网络层数、卷积核大小、卷积层、池化层的步长、迭代次数和一次输入的数据量,获得最佳预测效果;
(3.2)进行样本外预测,证明模型的有效性。
步骤(2.1)中的隐含层包括两层卷积层、两层激励层和一层池化层,即在卷积层之后加入激活函数为ReLU的激励层,激励层之后加入池化层。
步骤(2.2)和(2.3)具体包括:
对于一个1维张量,将数据X记作X=(x1,x2,x3,…,xn),其中每个样本xi都是标量;
其中ω为权重,b为偏置,n个ω和1个b是神经网络要学习的参数;
Dense层将前面的数据信息经过非线性变化,提取数据之间的关联,最后映射到输出空间上;对于1维张量,Dense操作的对象是每个标量;
Softmax(归一化指数)的激活函数为:
其中,z是上一层的输出,即Softmax的输入,维度为C,分子为输入参数的指数函数,分母为所有输入参数的指数函数的和,算出来的是每个分子可能存在的概率。
一个激活函数为Softmax的Dense层输出结果是原始数据的注意力得分,将其乘以Dense的输入即完成了注意力权重的分配。
步骤(2.4)的具体过程包括:
(2.4.1)设置全部训练集的训练所需的迭代次数为p,一次读入的数据量为q,其中p≥1,q≥1;
(2.4.2)使用网络中自带的损失函数的均方误差,计算每次迭代网络模型的损失函数值;
(2.4.3)重复步骤(2.4.2),直至损失函数值最小,保存该模型。
本发明具有的有益效果为:
1.本发明的偶联反应产率智能预测方法针对现有技术中Buchwald-Hartwig胺化反应产率的预测耗时、耗力、耗钱的问题,提出通过深度学习算法——卷积神经网络对获取的数据进行特征提取,在不同尺度和不同特征上加入注意力权重,模型在不断迭代学习过程中利用损失函数MES的值达到最小保存最佳模型参数,然后使用最佳模型进行测试数据的智能预测。本发明能够辅助化学家对偶联反应的产率进行快速预测,大大加速化学合成过程。
2.加入注意力权重使神经网络在提取特征时,聚焦对当前预测任务更为关键的特征描述符信息。
3.注意力机制与卷积神经网络结合进行的化学反应产率的预测更加准确高效。
4.本发明基于注意力卷积神经网络的偶联反应产率智能预测方法,操作简单,易于实现,分析结果较为准确,极大地方便相关用户的使用,满足用户需求。
附图说明
图1为本发明实施例中化学反应的反应式和相关变量结构式;
图2为注意力卷积神经网络模型示意图;
图3为注意力全连接网络示意图;
图4为本发明的流程图。
附图1中的标记:Equation:Buchwald-Hartwig偶联反应及反应中的变量选择范围,Aryl:卤化物,Additive:添加剂,Base:基底,Ligand:配体。
具体实施方式
如图1-4所示,本发明提出了一种基于注意力卷积神经网络的偶联反应产率智能预测方法,具体步骤包括对化学组分特征描述符的数据获取、模型构建和产率智能预测。
步骤1)化学组分特征描述符的数据获取;需要借助有关化学软件(本发明采用的化学软件是Spartan),在软件界面中输入试剂结构和反应组分,使软件自动提取特征描述符来描述每个反应。其具体实现步骤包括:
(1.1)在Spartan软件中将Buchwald-Hartwig胺化反应中包括15种卤化物、4种配体、3种基底、23种添加剂的所有变量依次输入,提取特征描述符后将变量进行排列组合。
如图1所示,所有反应组合的顺序为卤化物、配体、基底和添加剂,利用Spartan软件以卤化物为变量,添加剂、基底和配体为定量进行组合,以此类推,以一种物质作为变量,其他物质作为定量进行排列组合。15种卤化物、4种配体、3种基底、23种添加剂,对应的排列组合有4140种,删除无效的反应,最终得到3960种有效反应,将这些反应一一对应于其反应产率,将特征描述符文件保存。
(1.2)汇总计算得到的所有反应组合的特征描述符,将其分为训练集:验证集:测试集=7:2:1,并将其与相应的反应产率对应,以便于注意力卷积神经网络模型进行样本内、外智能预测。
本发明计算和提取有机化合物的特征描述符,主要是依靠一个化学软件:Spartan,Spartan第一个特点在于图形界面,以图形方式输入和输出分子数据,并且全部计算和结果显示都是在图形界面下完成的,用户可以直观地看到分子的几何构型和计算结果,并可快速做出反应和操作。因此,它不光适用于专业的量化人员,也适用于新手和非专业人员。Spartan第二个特点表现在量子力学与分子力学相互补充,它既可以计算较小的体系,也可以计算较大的复杂体系,预测电子结构和化学反应机理,精确度高。
步骤2)模型构建;通过自行搭建注意力卷积神经网络模型,对获取的数据进行训练,在卷积神经网络模型中融入注意力机制,通过不断迭代学习,当损失函数MSE(均方误差)的值达到最小时,保存该模型。
计算注意力权重是通过一个激活函数为Softmax的Dense层实现,Dense层的输出乘以Dense的输入即完成了注意力权重的分配。
其中模型构建是自行搭建的注意力卷积神经网络模型,具体包括:
(2.1)卷积神经网络包含输入层、隐含层和全连接层,而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层。本发明中的隐含层包括两层卷积层、两层激励层和一层池化层,即卷积层之后加入激活函数为ReLU的激励层,激励层之后加入池化层;
(2.2)在第一层卷积层后加入注意力权重,使模型在提取信息时关注不同尺度信息。
(2.3)在卷积神经网络模型提取信息之后,对提取的信息分配注意力权重,使模型在进行产率智能预测时,更加关注重要的特征信息,降低对其他信息的关注度。
如图3所示,模型构建中步骤(2.2)和(2.3)计算注意力权重的具体计算过程包括:
Dense层的目的是将前面的数据信息经过非线性变化,提取数据之间的关联,最后映射到输出空间上。
Softmax的激活函数为:
其中,z是上一层的输出,即Softmax是输入,维度为C,分子为输入参数的指数函数,分母为所有输入参数的指数函数的和,算出来的是每个分子可能存在的概率。
一个激活函数为Softmax的Dense层输出结果是原始数据的注意力得分,将其乘以Dense的输入(也就是原始数据)即完成了注意力权重的分配。
(2.4)将获取的数据导入注意力卷积神经网络模型中进行训练,通过不断迭代学习使损失函数MSE的值达到最小选取最佳参数。具体过程包括:
(2.4.1)设置全部训练集的训练所需的迭代次数为p,一次读入的数据量为q,其中p≥1,q≥1;
(2.4.2)使用网络中自带的损失函数的均方误差,计算每次迭代网络模型的损失函数值;
(2.4.3)重复步骤(2.4.2),直至损失函数值最小,保存该模型。
将分配过注意力权重的训练集与测试集数据导入到卷积神经网络模型中,卷积神经网络包含输入层、隐含层和全连接层,而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层。每个卷积层输入一组数据后,由一个内核滤波器(也称为卷积核)生成一组特征数据,一个卷积层中可以含有多个滤波器。
卷积核在输入向量上以一定步长进行移动,每移动一个位置进行一次卷积运算,得到一个输出数值。一个卷积核计算只能得到一个特征向量,要想得到多个特征向量需要由多个卷积核生成。
卷积运算本质上还是一个线性加权求和,要想学习到网络的非线性特征,需要选择非线性函数作为激活函数,也就是激励层。
一般比较常用的激活函数为ReLU函数,其公式为f(x)=max(0,x),其中x为特征值,f(x)为激活函数值。ReLU函数其实就是一个取最大值函数,在一定程度上缓解了正区间内梯度消失和梯度爆炸问题,不过ReLU函数并不是一条光滑的曲线,而Softplus函数可以看作是ReLu函数的平滑,其公式为x为特征值,为激活函数值。
池化层是一种降采样操作,主要用于特征降维、减少参数数量、防止过拟合,同时提高模型的容错性。常用的池化有最大值池化和平均值池化,本发明中所使用的是步长为3的最大值池化。
通过卷积层和池化层的交替堆叠,神经网络从输入数据中提取到特征信息,最终加入注意力全连接层,将特征提取与回归预测统一到同一个框架中进行全局优化。在全连接之前,先将最后一层池化层得到的几个特征向量展平成一个一维向量,作为全连接层的输入,然后再连接注意力全连接层和输出层,完成最终的智能预测。
最后模型将根据损失函数MSE达到最小值返回预测值,通过评价指标判断模型的预测效果,为用户提供一定的决策信息。
注意力卷积神经网络相较于其他机器学习算法预测结果更加准确且高效,一是因为卷积神经网络采用端到端的方式从原始数据中直接学习特征完成预测,二是不同的特征描述符对于当前的产率预测任务的贡献是不一样的,加入注意力恰好让卷积神经网络在特征学习时自动关注重要的特征。此外,卷积神经网络的局部感知机制使得网络中的每个神经元不需要感知全部数据,只对局部数据进行感知,然后在更高层次上对局部信息进行合并,从而得到全部的表征信息;参数共享则降低了模型的复杂度,减少了权值的数量。
步骤3)产率智能预测,是将训练好的模型载入,对测试数据进行产率预测,具体包括:
(3.1)载入步骤(2.4)中已经训练好的最佳模型,对测试数据的产率进行快速预测.
(3.2)用户可根据自己的数据特性,自行调节网络的参数,包括网络层数、卷积核大小、卷积层和池化层的步长,迭代次数,一次输入的数据量等参数,获得最佳预测效果。
(3.2)进行样本外预测,以此证明模型的有效性;样本外预测是对模型训练和测试以外的样本数据进行预测,如果样本外预测是有效的,则可证明本发明所选的模型可以预测偶联反应的反应产率。
仿真实验:
本发明的系统用仿真实验给予进一步的展示,以Buchwald-Hartwig偶联反应为例(化学反应式如图1所示),15种卤化物、4种配体、3种基底、23种添加剂进行组合,除去无效反应,最终得到3960种有效反应,将其特征描述符数据及对应的产率作为用户选择的数据导入不同的模型中进行产率预测。
不同模型的产率智能预测结果
实验中,以拟合优度R2和均方误差RMSE为评价指标,对比了本发明设计的注意力卷积神经网络与线性回归、传统机器学习方法(K近邻、支持向量机、决策树和随机森林)的预测效果。从表中可以看出:注意力卷积神经网络模型的拟合优度R2=0.96,大于其他五种模型,说明注意力卷积神经网络模型得到的预测值与真实值更加接近;同时,注意力卷积神经网络模型的均方误差RMSE=5.71,远远小于其他五种模型,说明注意力卷积神经网络模型得到的预测值误差更小。
Claims (7)
1.基于注意力卷积神经网络的偶联反应产率智能预测方法,其特征在于:包括以下步骤:
(1)化学组分特征描述符的数据获取:用户可借助化学相关软件计算和提取化合物的特征描述符,用特征描述符的数据来描述每个反应;其中特征描述符包括分子、原子和振动描述符;
(2)模型构建:通过自行搭建注意力卷积神经网络模型,对获取的数据进行训练,在卷积神经网络模型中融入注意力机制,通过不断迭代学习,当损失函数均方误差的值达到最小时,保存该模型;
(3)产率智能预测:载入已经训练好的模型,对测试数据进行快速预测,用户可根据自己的数据特性,调节网络参数,达到最佳预测效果,最后进行样本外预测,以此证明模型的有效性。
2.根据权利要求1所述的偶联反应产率智能预测方法,其特征在于:步骤(1)数据获取具体包括:
(1.1)借助相关化学软件,在界面中输入化合物结构和反应组分,让软件自动提取出包括分子、原子和振动描述符的特征描述符来描述每个反应;
(1.2)将其中一个反应物或反应条件为变量,其余为定量的条件下,得出每种组合的特征描述符,将特征描述符文件保存;
(1.3)汇总计算得到的所有反应组合的特征描述符,将其分为训练集、测试集,并与相应的反应产率对应。
3.根据权利要求1所述的偶联反应产率智能预测方法,其特征在于:步骤(2)模型构建具体包括:
(2.1)通过卷积层和池化层的简单堆叠自行搭建了一种卷积神经网络模型;卷积神经网络包含输入层、隐含层和全连接层,而隐含层中包含着卷积神经网络中最重要的三个层——卷积层、激励层和池化层;
(2.2)在第一层卷积层后加入注意力权重,使模型在提取信息时关注不同尺度信息;
(2.3)在卷积神经网络模型提取信息之后,对提取的信息分配注意力权重,使模型在进行产率智能预测时,更加关注重要的特征信息,降低对其他信息的关注度;
(2.4)利用搭建好的模型对获取的数据进行训练,通过多次迭代学习,损失函数均方误差的值收敛到最小时,保存最佳模型参数。
4.根据权利要求3所述的偶联反应产率智能预测方法,其特征在于:步骤3)产率智能预测具体包括:
(3.1)载入步骤(2.4)中已经训练好的最佳模型,对测试数据的产率进行快速预测;
(3.2)用户根据自己的数据特性,自行调节网络的参数,包括网络层数、卷积核大小、卷积层、池化层的步长、迭代次数和一次输入的数据量,获得最佳预测效果;
(3.2)进行样本外预测,证明模型的有效性。
5.根据权利要求3所述的偶联反应产率智能预测方法,其特征在于:步骤(2.1)中的隐含层包括两层卷积层、两层激励层和一层池化层,即在卷积层之后加入激活函数为ReLU的激励层,激励层之后加入池化层。
6.根据权利要求5所述的偶联反应产率智能预测方法,其特征在于:步骤(2.2)和(2.3)具体包括:
对于一个1维张量,将数据X记作X=(x1,x2,x3,…,xn),其中每个样本xi都是标量;
其中ω为权重,b为偏置,n个ω和1个b是神经网络要学习的参数;
Dense层将前面的数据信息经过非线性变化,提取数据之间的关联,最后映射到输出空间上;对于1维张量,Dense操作的对象是每个标量;
Softmax(归一化指数)的激活函数为:
其中,z是上一层的输出,即Softmax的输入,维度为C,分子为输入参数的指数函数,分母为所有输入参数的指数函数的和,算出来的是每个分子可能存在的概率;
一个激活函数为Softmax的Dense层输出结果是原始数据的注意力得分,将其乘以Dense的输入即完成了注意力权重的分配。
7.根据权利要求6所述的偶联反应产率智能预测方法,其特征在于:步骤(2.4)的具体过程包括:
(2.4.1)设置全部训练集的训练所需的迭代次数为p,一次读入的数据量为q,其中p≥1,q≥1;
(2.4.2)使用网络中自带的损失函数均方误差,计算每次迭代网络模型的损失函数值;
(2.4.3)重复步骤(2.4.2),直至损失函数值最小,保存该模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110637417 | 2021-06-08 | ||
CN2021106374179 | 2021-06-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113380346A true CN113380346A (zh) | 2021-09-10 |
Family
ID=77581147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765040.5A Pending CN113380346A (zh) | 2021-06-08 | 2021-07-06 | 基于注意力卷积神经网络的偶联反应产率智能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380346A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113607325A (zh) * | 2021-10-09 | 2021-11-05 | 武汉地震工程研究院有限公司 | 一种钢结构螺栓群松动定位智能监测方法及系统 |
CN113990405A (zh) * | 2021-10-19 | 2022-01-28 | 上海药明康德新药开发有限公司 | 试剂化合物预测模型的构建方法、化学反应试剂自动预测补全的方法与装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491453A (zh) * | 2018-04-27 | 2019-11-22 | 上海交通大学 | 一种化学反应的产率预测方法 |
CN111798935A (zh) * | 2019-04-09 | 2020-10-20 | 南京药石科技股份有限公司 | 基于神经网络的普适性化合物结构-性质相关性预测方法 |
-
2021
- 2021-07-06 CN CN202110765040.5A patent/CN113380346A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491453A (zh) * | 2018-04-27 | 2019-11-22 | 上海交通大学 | 一种化学反应的产率预测方法 |
CN111798935A (zh) * | 2019-04-09 | 2020-10-20 | 南京药石科技股份有限公司 | 基于神经网络的普适性化合物结构-性质相关性预测方法 |
Non-Patent Citations (4)
Title |
---|
DEREK T. AHNEMAN ET AL: "Predicting reaction performance in C–N cross-coupling using machine learning", 《SCIENCE》 * |
MICHAEL R.MASTER ET AL: "Multilabel Classification Models for the Prediction of Cross-Coupling Reaction Conditions", 《JOURNAL OF CHEMICAL INFORMATION AND MODELING》 * |
PHILIPPE SCHWALLER ET AL: "Prediction of chemical reaction yields using deep learning", 《MACHINE LEARNING: SCIENCE AND TECHNOLOGY》 * |
付尊蕴: "基于深度学习的小分子虚拟筛选和反应产率预测", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113607325A (zh) * | 2021-10-09 | 2021-11-05 | 武汉地震工程研究院有限公司 | 一种钢结构螺栓群松动定位智能监测方法及系统 |
CN113607325B (zh) * | 2021-10-09 | 2021-12-14 | 武汉地震工程研究院有限公司 | 一种钢结构螺栓群松动定位智能监测方法及系统 |
CN113990405A (zh) * | 2021-10-19 | 2022-01-28 | 上海药明康德新药开发有限公司 | 试剂化合物预测模型的构建方法、化学反应试剂自动预测补全的方法与装置 |
CN113990405B (zh) * | 2021-10-19 | 2024-05-31 | 上海药明康德新药开发有限公司 | 试剂化合物预测模型的构建方法、化学反应试剂自动预测补全的方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228716B (zh) | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 | |
CN110163261A (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN113380346A (zh) | 基于注意力卷积神经网络的偶联反应产率智能预测方法 | |
Xu et al. | GoodFloorplan: Graph convolutional network and reinforcement learning-based floorplanning | |
CN109558893B (zh) | 基于重采样池的快速集成污水处理故障诊断方法 | |
CN117076931B (zh) | 一种基于条件扩散模型的时间序列数据预测方法和系统 | |
CN110428015A (zh) | 一种模型的训练方法及相关设备 | |
CN116205164B (zh) | 一种基于自适应基函数选择的多代理注采优化方法 | |
CN111048163B (zh) | 一种基于高阶神经网络的页岩油滞留烃量(s1)评价方法 | |
CN110414627A (zh) | 一种模型的训练方法及相关设备 | |
CN105760344A (zh) | 一种化学放热反应的分布式主元分析神经网络建模方法 | |
CN113722997A (zh) | 一种基于静态油气田数据的新井动态产量预测方法 | |
Suhartono et al. | Deep neural network for forecasting inflow and outflow in Indonesia | |
Kim et al. | A daily tourism demand prediction framework based on multi-head attention CNN: The case of the foreign entrant in South Korea | |
CN116882323B (zh) | 一种考虑时序性及细分任务的自适应代理策略优化方法 | |
CN109190800A (zh) | 一种基于spark框架的海面温度预测方法 | |
CN117095762A (zh) | 一种基于遗传算法和自编码器的化合物生成方法 | |
CN107909202A (zh) | 一种基于时间序列的油井产液量集成预测方法 | |
CN111276229A (zh) | 一种基于深度置信网络的门诊量预测方法及系统 | |
CN116865235A (zh) | 一种基于lstm与多模型集成的负荷预测方法及装置 | |
CN115966266A (zh) | 一种基于图神经网络的抗肿瘤分子强化方法 | |
CN112183848B (zh) | 基于dwt-svqr集成的电力负荷概率预测方法 | |
CN114154696A (zh) | 资金流预测方法、系统、计算机设备及存储介质 | |
CN103198357A (zh) | 基于nsga-ⅱ优化改进的模糊分类模型构造方法 | |
CN111459927A (zh) | Cnn-lstm开发者项目推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |
|
RJ01 | Rejection of invention patent application after publication |