CN115240785A

CN115240785A - 化学反应预测方法、系统、装置及存储介质

Info

Publication number: CN115240785A
Application number: CN202210862943.XA
Authority: CN
Inventors: 吴海超; 曾琢; 肖强胜; 陆文洋; 公维博; 杨承颖
Original assignee: Suzhou Woshi Digital Technology Co ltd
Current assignee: Suzhou Woshi Digital Technology Co ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-25
Anticipated expiration: 2042-07-21
Also published as: CN115240785B

Abstract

本发明公开了一种化学反应预测方法、系统、装置及存储介质，其中方法包括：首先根据当前化学反应和化学反应物质，确定反应位点，然后将化学反应物质的摩根指纹和反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；然后将化学反应物质和预测反应环境输入自动化实验平台，以使自动化实验平台根据化学反应物质和预测反应环境生成化学反应指令，并根据化学反应指令，执行化学反应，最后获取化学反应的实际反应结果，并根据实际反应结果和预测反应结果，对多层神经网络的网络参数进行优化。本申请实施例能够实现依赖高维的化学反应数据对化学反应的反应条件和结果的有效预测，降低人工理解高维反应数据并抽象出化学规律所花费的成本。

Description

化学反应预测方法、系统、装置及存储介质

技术领域

本申请涉及有机合成技术领域，尤其涉及一种化学反应预测方法、系统、装置及存储介质。

背景技术

在有机合成领域，参与化学反应的化学分子种类繁多，为了得到较为理想的化学反应，一般需要进行多次实验，实验过程成本高、效率低。而由于化学反应中包含的化学分子种类、反应顺序、反应条件等数据众多，且这些数据通常为高维数据，如何通过高维数据的计算寻找化学规律，并通过化学规律来预测化学反应的产率、最佳反应条件等信息，已经成为了一个亟待解决的问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种化学反应预测方法、系统、装置及存储介质。

本发明实施例的一方面提供了一种化学反应预测方法，包括：

根据当前化学反应和化学反应物质，确定反应位点；其中，所述化学反应物质包括反应物、产物、催化剂、试剂和溶剂；

计算所述化学反应物质对应的摩根指纹；

将所述摩根指纹和所述反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；其中，所述预测反应环境包括反应时间和反应温度，所述预测反应结果包括预测产率和预测产物纯度；

将所述化学反应物质和所述预测反应环境输入自动化实验平台，以使所述自动化实验平台根据所述化学反应物质和所述预测反应环境生成化学反应指令，并根据所述化学反应指令，执行所述化学反应；

获取所述化学反应的实际反应结果；其中，所述实际反应结果包括实际产率和实际产物纯度；

根据所述实际反应结果和所述预测反应结果，对所述多层神经网络的网络参数进行优化。

可选地，所述根据当前化学反应和化学反应物质，确定反应位点，包括：

将所述化学反应中的所述化学反应物质所对应的SMILES转换为图谱结构；

根据所述图谱结构，构建所述反应物和所述产物的原子映射关系；

根据所述原子映射关系，确定所述反应位点。

可选地，所述将所述摩根指纹和所述反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果，包括：

将所述摩根指纹输入多层神经网络进行降维，获得第一特征向量；

将所述反应物和所述产物所对应的所述第一特征向量进行拼接，获得所述反应位点的第二特征向量；

将所述第一特征向量和所述第二特征向量进行拼接，获得第三特征向量；

将所述第三特征向量输入所述多层神经网络，获得表征所述预测反应环境的第四特征向量；

将所述第三特征向量和所述第四特征向量输入回归模型，获得表征所述预测反应结果的第五特征向量。

可选地，所述根据所述图谱结构，构建所述反应物和所述产物的原子映射关系，包括：

对所述反应物和所述产物的所述图谱结构中的原子进行编号；

根据所述反应物的所述图谱结构，确定所述反应物中的原子的第一位置；

当所述化学反应发生，跟踪所述反应物中的原子，确定所述原子在所述产物中的第二位置；

根据所述原子的所述第一位置和所述第二位置，确定所述反应物和所述产物的所述原子映射关系。

可选地，所述根据所述原子映射关系，确定所述反应位点，包括：

对比所述反应物和所述产物中原子编号，确定所述反应物中化学键发生变化的原子的编号；

根据所述发生变化的原子的编号，提取到所述化学反应的反应位点。

可选地，当所述化学反应物质为所述反应物时，所述计算所述化学反应物质对应的摩根指纹这一步骤，包括：

根据所述反应物的所述图谱结构，对所述反应物分子中的反应物原子进行编号；

根据所述反应物原子的编号，依次构建以每个所述反应物原子为中心的子图结构；

其中，所述子图结构与中心的所述反应物原子的距离小于或等于预设的半径；

计算所述子图结构的哈希值；

将所述哈希值转换为预设长度的所述摩根指纹。

可选地，所述计算所述子图结构的哈希值，包括以下至少一项：

根据所述子图结构中的原子编号计算所述哈希值；

根据所述子图结构中的原子质量计算所述哈希值；

根据所述子图结构中的原子电荷计算所述哈希值。

本发明实施例的另一方面还提供了一种化学反应预测系统，包括：

第一模块，用于根据当前化学反应和化学反应物质，确定反应位点；其中，所述化学反应物质包括反应物、产物、催化剂、试剂和溶剂；

第二模块，用于计算所述化学反应物质对应的摩根指纹；

第三模块，用于将所述摩根指纹和所述反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；其中，所述预测反应环境包括反应时间和反应温度，所述预测反应结果包括预测产率和预测产物纯度；

第四模块，用于将所述化学反应物质和所述预测反应环境输入自动化实验平台，以使所述自动化实验平台根据所述化学反应物质和所述预测反应环境生成化学反应指令，并根据所述化学反应指令，执行所述化学反应；

第五模块，用于获取所述化学反应的实际反应结果；其中，所述实际反应结果包括实际产率和实际产物纯度；

第六模块，用于根据所述实际反应结果和所述预测反应结果，对所述多层神经网络的网络参数进行优化。

本发明实施例的另一方面还提供了一种化学反应预测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如前面项所述的化学反应预测方法。

本发明实施例的另一方面还提供了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现如前面所述的化学反应预测方法。

本申请实施例的有益效果如下：首先根据当前化学反应和化学反应物质，确定反应位点，然后将化学反应物质的摩根指纹和反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；然后将化学反应物质和预测反应环境输入自动化实验平台，以使自动化实验平台根据化学反应物质和预测反应环境生成化学反应指令，并根据化学反应指令，执行化学反应，最后获取化学反应的实际反应结果，并根据实际反应结果和预测反应结果，对多层神经网络的网络参数进行优化。本申请实施例能够实现依赖高维的化学反应数据对化学反应的反应条件和结果的有效预测，降低人工理解高维反应数据并抽象出化学规律所花费的成本。本申请实施例能够广泛应用于有机合成技术领域。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的化学反应预测方法的第一示意图；

图2为本申请实施例提供的图谱结构的第一示意图；

图3为本申请实施例中构建反应物和产物的原子映射关系的步骤流程图；

图4为本申请实施例提供的图谱结构的第二示意图；

图5为本申请实施例提供反应位点的示意图；

图6为本申请实施例提供的计算反应物的摩根指纹的步骤流程图；

图7为本申请实施例提供的多层神经网络结构的示意图；

图8为本申请实施例提供的由多层神经网络进行化学反应预测的步骤流程图；

图9为本申请实施例提供的化学反应预测模型结构的示意图；

图10为本申请实施例提出的化学反应预测方法的第二示意图；

图11为本申请实施例提供的化学反应预测系统的示意图；

图12为本申请实施例提供的化学反应预测装置的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

简化分子线性输入规划(Simplified molecular input line entryspecification，SMILES)：SMILES是一种用ASCII字符串明确描述分子结构的规范，也就是用一串字符来描述一个三维化学结构，从而将复杂的化学结构式转化成了计算机可识别的字符串形式。比如苯可以表示为c1ccccc1。

分子指纹：分子指纹是化合物分子的抽象表征，它将分子编码为比特向量，提取出一个化学分子中的整体特征，是对比化合物结构的基础。根据不同的转换标准有多种分子指纹如于基于子结构的指纹，基于拓扑的指纹和圆形指纹。

扩展连通性指纹(Extended Connectivity Fingerprints，ECFP)：ECFP是广泛用于构建化合物定量构效关系模型的分子指纹。ECFP的核心思想来自摩根算法，该算法可以为每个原子分配一个唯一的识别符，因此ECFP又称为摩根指纹。

反应位点：在化学反应中，单个或多个反应物在催化剂的作用下，分子的部分化学键会发生断裂，并重新组合成新的化学键，生成新的产物，则发生化学反应的化学键或者相应的原子被称之为反应位点或反应中心。

化学反应产率：在化学反应中，产率就是实际产物的量与理论上计算出产物的量之比，即：产率＝实际中产物的量/理论上的计算出产物的量*100％。化学反应产率通常作为评判化学反应优劣的指标。

当前，有机物合成技术在众多领域中发挥重要作用，例如在药物、疫苗的研制过程中，人们需要对大量的化学分子进行合成。为了得到较为理想的化学反应，人们不仅需要知道合成分子的步骤和顺序，还需要筛选出比较好的反应环境，以期能够在每一步反应中都得到较高的产率。以往，人们通常只能根据经验来为化学反应选择反应环境，并通过多组对比实验，不断调整反应环境，通过对比化学反应的结果来验证化学反应的优劣。这样的方法往往需要耗费非常多的时间，实验所需要的物质消耗也是巨大的。因此，对着人工智能技术和大数据数据的蓬勃发展，人们开始借助机器学习算法来帮助完成化学反应的设计过程。例如，基于海量的化学反应数据库，利用机器学习算法来学习大量数据中所蕴含的一些潜在的规律(类似是实验经验)，然后基于此模型进行化学反应的产率预测、反应温度预测、反应时间预测。比如瑞士的IBM实验室通过BERT序列模型来做产率预测(参考文献：Schwaller,P.,Vaucher,A.,Laino,T.and Reymond,J.,2021.Prediction of chemicalreaction yields using deep learning.Machine Learning:Science and Technology,2(1),p.015016.)。但是，相关技术中基于机器学习算法的预测方法还存在诸多不足，例如是对高维数据的处理能力较弱，对于影响化学反应的因素考虑不足，预测得到的结果可行度较低等等。因此，如何通过高维数据的计算寻找化学规律，并通过化学规律来准确预测化学反应的产率、最佳反应条件等信息，已经成为了一个亟待解决的问题。

基于此，本申请实施例提供了一种化学反应预测方法、系统、装置及存储介质，该方法包括：首先根据当前化学反应和化学反应物质，确定反应位点，然后将化学反应物质的摩根指纹和反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；然后将化学反应物质和预测反应环境输入自动化实验平台，以使自动化实验平台根据化学反应物质和预测反应环境生成化学反应指令，并根据化学反应指令，执行化学反应，最后获取化学反应的实际反应结果，并根据实际反应结果和预测反应结果，对多层神经网络的网络参数进行优化。本申请实施例能够实现依赖高维的化学反应数据对化学反应的反应条件和结果的有效预测，降低人工理解高维反应数据并抽象出化学规律所花费的成本。本申请实施例能够广泛应用于有机合成技术领域。

下面结合附图，对本申请实施例作进一步阐述。

参考图1，图1是本申请实施例提供的化学反应预测方法的第一示意图，该方法包括但不限于步骤S100-S150：

S100、将化学反应物质所对应的SMILES转换为图谱结构；

具体地，在化学反应中，化学物质的结构是进行化学反应的重要基础，为了让计算机识别化学物质的立体结构，通常使用SMILES(一串能够表征化学物质的原子构成以及立体结构的字符)来表示化学物质。

在本步骤中，将化学反应中所有相关的化学反应物质的SMILES输入到计算机中。本申请实施例中的化学反应物质包括反应物、产物、催化剂、试剂和溶剂。可以理解的是，反应物是直接参与化学反应的物质，它引发化学反应并在反应后被消耗，生成对应的产物。溶剂用于溶解化学反应中的物质，催化剂用于促进化学反应发生或者是加快化学反应的速度，而试剂一般用于检测化学反应的进行程度。例如在检测当前产物A中加入试剂B，则通过溶液的颜色变化来确定产物A的纯度。

将化学反应物质的SMILES输入到计算机后，为了方便在后续步骤中确定反应位点，先将化学反应物质的SMILES转化为图谱结构。参照图2，图2为本申请实施例提供的图谱结构的第一示意图。用户在进行设计化学实验时，可以在计算机的显示界面看到如图2所示的化学反应的图谱结构，虚线框210表示的第一反应物和虚线框220表示的第二反应物生成虚线框230表示的产物。

通过同样的方式，可以将溶剂、试剂和催化剂等其他化学反应物质的SMILES转化为对应的图谱结构。

S110、根据图谱结构，构建反应物和产物的原子映射关系；

具体地，根据上述步骤S100生成化学反应物质的图谱结构，可以很方便地确定每个原子在化学反应物质中的位置，从而构建反应物和产物的原子映射关系。

参照图3，图3为本申请实施例中构建反应物和产物的原子映射关系的步骤流程图，该方法包括但不限于步骤S300-S330：

S300、对反应物和产物的图谱结构中的原子进行编号；

具体地，参照图4，图4为本申请实施例提供的图谱结构的第二示意图，基于化学反应物质的图谱结构，为化学反应物质中的每个原子编号。可以理解的是，原子的编号能够表征原子在当前化学反应物质中的位置。

S310、根据反应物的图谱结构，确定反应物中的原子的第一位置；

具体地，如图4所示，由于在化学反应中，原子不会凭空消失，因此可以通过对比同一个原子在反应物以及在产物中的位置(也就是对比编号)来确定该原子的化学键是否发生变化，也就是确定该原子是否属于反应位点。在本申请实施例中，原子在反应物中的位置称为第一位置，如图4所示，用虚线框410表示反应物中的Cl原子，该Cl原子的第一位置编号为[17]；而用虚线框420表示的反应物中的O原子，该O原子的第一位置编号为[10]。

S320、当化学反应发生，跟踪反应物中的原子，确定原子在产物中的第二位置；

具体地，在化学反应发生的过程中，反应物中的原子间的化学键可能发生断裂，或者是形成新的化学键，因此原子在产物中的位置可能发生改变。将原子在产物中的位置称为第二位置，如图4所示，根据产物中原子的编号就可以确定原子在产物中的第二位置。

S330、根据原子的第一位置和第二位置，确定反应物和产物的原子映射关系；

具体地，由于化学反应可以看做是化学反应物质中的化学键的断裂与重建、以及原子的位置移动过程，因此除去因化学键断裂或重建导致发生位置移动的原子，反应物中的其他原子的基本结构通常不会发生改变。因此，可以理解为如该原子A没有发生化学键的断裂或重建，则该原子A在反应物中的相对位置与在产物中的相对位置应当不变。因此如图4所示，在编号时，反应物中的原子都根据化学反应图谱的顺序依次统一编制，如第一反应物中的原子编号为[1]-[9]，则第二反应物中的原子则从[10]开始编号，如果还有第三、第四反应物，则以此类推进行编号。生成产物后，产物结构中对应位置的原子如果没有发生改变，则继续用相同的编号来表示。完成对产物中所有原子的编号之后，就能够得到如图4所示的反应物与产物之间的原子映射关系。例如用虚线框420表示的反应物中的O原子，O原子在反应物中的第一位置的编号是[10]，由于O原子在产物中的第二位置没有发生改变，因此在产物中，用虚线框430表示产物中的O原子，则依然可以用编号[10]来表示O原子的第二位置。通过上述过程则完成了O原子从反应物到产物之间的原子映射。而虚线框410表示的反应物中的Cl原子，在反应中化学键发生了断裂，产物中原来的第一位置[17](虚线框430所表示的位置)被第一位置[1]中的原子所取代，因此可以根据这个变化了的原子的编号，确定反应位点。

通过上述步骤S300-S330，本申请实施例提供了构建反应物和产物的原子映射关系具体流程，步骤S110已经通过上述内容阐述完毕，下面开始阐述步骤S120。

S120、根据原子映射关系，确定反应位点；

具体地，构建如图4所示的原子映射关系后，实际上就可以通过对比反应物和产物中原子编号，很轻松地确定反应物中化学键发生变化的原子的编号，根据编号确定这些原子，就能够提取到化学反应的反应位点。图5为本申请实施例提供反应位点的示意图，图5所示的反应位点正是从图4所示的原子映射关系中提取得到。

S130、计算化学反应物质对应的摩根指纹；

具体地，根据上述内容，摩根指纹是分子指纹的一种，属于化合物分子的抽象表征。因此，各个化学反应物质所对应的摩根指纹并不相同。在以下内容中以反应物为例，阐述计算化学反应物质的摩根指纹的过程。

参照图6，图6为本申请实施例提供的计算反应物的摩根指纹的步骤流程图，该方法包括但不限于步骤S600-S630：

S600、根据反应物的图谱结构，对反应物分子中的反应物原子进行编号；

具体地，在计算反应物分子的摩根指纹时也需要对反应物分子内的反应物原子进行编号，具体的编号方法可以参照上述步骤S300和图4，在此不再赘述。

S610、根据反应物原子的编号，依次构建以每个反应物原子为中心的子图结构；

具体地，根据反应物原子的编号，依次以每个反应物原子为中心，构建每个反应物原子对应的子图结构。例如反应物分子中有编号为[1]-[5]共5个反应物原子，则每个反应物原子都对应一个子图结构，能够得到5个子图结构。而在本步骤中，子图结构大小取决于子图结构与中心的反应物原子之间的半径。该半径实际上是指迭代次数。如半径r＝1，则最远取与中心原子A相邻的原子B进行子图结构构建；而当半径r＝2，则最远取到与原子B相邻的原子C进行子图结构构建。也就是说，子图结构与中心的反应物原子的距离小于或等于预设的半径。

S620、计算子图结构的哈希值；

具体地，确定每个原子的子图结构之后，根据原子自身的特征，计算每个子图结构的哈希值，该哈希值实际上是子图结构的一种整数标识符。可以理解的是，原子在反应物中的编号是唯一的，因此首先原子自身的特征可以包括原子编号。另外，原子自身的特征还可以包括原子的质量，原子所携带的电荷量等等。根据实际的计算需要，可以选择其中一个特征进行哈希值的计算，也就是根据子图结构中的原子编号计算哈希值，或根据子图结构中的原子质量计算哈希值，或根据子图结构中的原子电荷计算哈希值。而在另一些实施例中，还可以分别计算以上举例的三个特征所对应的哈希值，然后通过预设的权重，计算得到当前子图结构的哈希值。本申请实施例中的哈希值根据原子自身的特征计算得到，用于表征子图结构，而本申请实施例并不对哈希值的具体计算方法作具体限制。

根据上述内容，计算得到反应物分子中所有子图结构的哈希值，该哈希值也可以被理解为是一个超大的比特串索引，比特串中的每个位置表示一个特定子图结构的特征。

S630、将哈希值转换为预设长度的摩根指纹；

具体地，计算得到每个子图结构的哈希值，由于子图结构的半径不同，得到的哈希值的长度也可能存在差异。对于反应物原子所对应的一组不定长的哈希值(整数标识符)，神经网络一般难以处理。因此需要将哈希值转换为预设长度的定长标识符，并将该定长标识符作为当前反应物分子的摩根指纹。一般来说，定长标识符越长，模型的输入维度越高，导致模型比较难以训练；定长标识符越短，不同结构的比特串出现冲突的概率越高。因此，在综合训练集的数据量和模型的复杂度之后，一般认为比较合适的定长标识符长度为16384位，转换后得到的定长标识符就是反应物分子的摩根指纹。

可以理解的是，通过上述方法，也可以类似地计算得到产物、溶剂等化学反应物质所对应的摩根指纹。

通过上述步骤S600-S630，本申请实施例提供了计算化学反应物质的摩根指纹的具体方法，步骤S130已经通过上述内容阐述完毕，下面开始阐述步骤S140。

S140、将摩根指纹和反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；

具体地，为了完成对高维化学反应数据的有效处理，本申请实施例引入多层的神经网络。神经网络按其模型结构大体可以分为前馈型网络和反馈型网络两大类，前者在数学上可以看作是一类大规模的非线性映射系统，后者则是一类大规模的非线性动力学系统。按照学习方式，人工神经网络又可分为有监督学习、非监督和半监督学习三类；按工作方式则可分为确定性和随机性两类；按时间特性还可分为连续型或离散型两类。按照其他分类方式，还可以进一步对神经网络进行分类，在此不再赘述。

参照图7，图7为本申请实施例提供的多层神经网络结构的示意图。如图7所示，该多层神经网络可以分为虚线框710表示的输入层、虚线框720表示的隐藏层以及虚线框730表示的输出层。本申请中的多层神经网络用于通过隐藏层学习和处理从输入层输入的化学反应数据(例如是摩根指纹)，并对应在输出层输出预测或分类结果。

参照图8，图8为本申请实施例提供的由多层神经网络进行化学反应预测的步骤流程图，该方法包括但不限于步骤S800-S840：

S800、将摩根指纹输入多层神经网络进行降维，获得第一特征向量；

具体地，神经网络的一个重要特性是能较好地拟合输入数据与输出结果之间的线性或者非线性关系，然后从数据中学习到相应的规律与特征。由于化学反应物质之间的原子构成以及立体结构可能差异较大，因此上述步骤计算得到的摩根指纹是稀疏数据，因此将摩根指纹输入到多层的神经网络中，能够学习到摩根指纹的特征，从而实现对摩根指纹的降维，对摩根指纹进行降维后，生成化学反应物质对应的第一特征向量。

可以理解的是，单个神经元的输入与输出是线性关系，那么对单个神经元使用激活函数，可以使整个网络模型能拟合更多的非线性关系，同时激活函数也可以防止神经网络发生过拟合的问题。因此，使用激活函数实现输入数据的非线性化处理，对于不同的模型可以使用的激活函数，例如包括但不限于逻辑函数(Sigmoid)，双曲线正切函数(tanh)，线性整流函数(ReLU)等等。本申请实施例不对激活函数的选择作具体限制。

S810、将反应物和产物所对应的第一特征向量进行拼接，获得反应位点的第二特征向量；

具体地，在化学反应中，反应位点通常能够表征化学反应的类型，而化学反应的类型又能够影响化学反应的反应条件选择以及化学反应结果，因此本申请实施例中提出引入反应位点作为预测化学反应结果的考量数据。根据图5所示的反应位点，可以将反应物和产物进行分离，然后将反应物对应的第一特征向量和产物对应的第一特征向量进行拼接，可以获得表征反应位点的第二特征向量。

S820、将第一特征向量和第二特征向量进行拼接，获得第三特征向量；

具体地，获得第二特征向量后，将反应物、产物、溶剂、试剂和催化剂所对应的第一特征向量与第二特征向量进行拼接，得到表征当前化学反应的第三特征向量。

S830、将第三特征向量输入多层神经网络，获得表征预测反应环境的第四特征向量；

具体地，在本申请实施例中，需要预测的是化学反应的预测反应环境以及预测反应结果。其中，预测反应环境包括反应时间、反应温度、反应压强等等，预测反应结果包括预测产率和预测产物纯度。预先设置好多个预测反应条件作为神经网络的输出，则通过神经网络拟合输入数据和输出结果之间的线性或非线性关系这一特性，可以拟合得到输入数据更可能输出哪种结果。以反应温度为例，常规化学反应的温度一般是不连续的，那么可以将反应温度设置多个区间，例如是0℃附近设置为一个区间，25℃附近设置为另一个区间，40℃附件又设置为另一个区间。然后对于不同的温度区间，使用softmax函数计算该多层神经网络在输入当前第三特征向量后，输出的不同温度的概率值。例如预测得到预测反应条件为0℃的概率是80％，为25℃的概率是50％，为40℃的概率为20％。那么可以理解，在该实施例中，该化学反应想要获得更好的化学反应结果(例如是更高的产率或者是更高的产物纯度)，则更大概率是在0℃左右的环境下获得的。因此，多层神经网络输出的表征反应温度的第四特征向量，应当是表示的是0℃左右的温度区间。而如果需要得到更精确的最佳反应温度，则可以将设置更多、温度间隔更小的预设的预测值，例如是0℃、5℃、15℃等等。

同理，对于其他的反应环境，也可以类似的方法获得表征当前化学反应的第三特征向量与预设反应环境之间的拟合概率，从而确定输出概率更大的预设反应环境所对应的向量为第四特征向量。

通过上述内容，可以获得表征预测反应环境的第四特征向量。

S840、将第三特征向量和第四特征向量输入回归模型，获得表征预测反应结果的第五特征向量。

具体地，完成对反应环境的预测后，将表征化学反应的第三特征向量和表征预测反应环境的第四特征向量输入更适合计算连续的产率数据的回归模型，回归模型计算输出表征预测反应结果的第五特征向量。

其中，预测反应结果包括预测产率和预测产物浓度中的至少一种。可以理解的是，可以根据需要调整多层神经网络的网络结构，以改变多层神经网络的预测方向，预测得到不同种类的预测反应结果。

通过上述步骤S800-S840，本申请实施例公开了由多层神经网络进行化学反应预测的具体过程，上述步骤S140已经阐述完毕。

S150、将化学反应物质和预测反应环境输入自动化实验平台，并根据自动化实验平台的实验得到的实际反应结果和预测反应结果对多层神经网络的网络参数进行优化；

可以理解的是，上述内容中阐述的方法可以在化学实验室的自动化实验平台中得以实现，通过上述方法计算得到当前化学反应对应的预测反应环境，则将化学反应物质和预测反应环境都输入到自动化实验平台中(此处的“输入”是指化学反应物质和预测反应环境都以计算机能够识别的形式输入计算机系统中)，然后由该系统根据输入的数据生成化学反应指令。根据生成的化学反应指令，可以控制化学实验室中对应的机械结构进行取料、搅拌、加热等等操作，以使当前化学反应发生。化学反应发生后，获取化学反应的实际反应结果；其中，实际反应结果包括实际产率和实际产物纯度。可以理解的是，化学反应的得到的实际结果与预测的结果可能存在相当程度的误差，这一误差可能是由于神经网络预测错误导致的。因此自动化实验平台可以根据反馈的实际反应结果和预测反应结果，相应地对多层神经网络的网络参数进行优化，从而进一步提高化学反应的预测准确度。

需要说明的是，本发明实施例通过实验控制平台操控硬件进行实验。自动化反应平台主要包含自控进样系统向反应器进样、自控反应系统、自控后处理系统和自控取样及检测系统四部分。自控进样系统负责控制向反应釜(化学反应发生的容器)进样，通过多通阀来按反应操作步骤模型推荐的反应物、催化剂、溶剂、试剂的顺序选择相应的管路物料，由注射泵抽取再泵入反应釜进行反应；自控反应系统通过温度等传感器进行监控实时温度等条件，并且根据预测的反应温度、反应时间来控制反应温度以及入料的流速和量；自控后处理系统根据操作步骤中推荐出的如分离、酸洗、碱洗等不同的后处理步骤进行操作；最后产品会通到取样器，由取样器自动取样并交由质谱、色谱等组成的检测装置检测实验结果，最终可以得到产率、纯度等实验结果。

本发明实施例在将预测结果输入到贝叶斯优化模型后，输出N组反应环境和反应结果给贝叶斯优化模型，贝叶斯优化模型使用包括但不限于Kmeans聚类的方法挑选初始的M组实验环境，将M组实验环境传到自动化控制平台，自动化控制平台生成操作步骤对应的机器指令。具体地，本发明实施例将完整的化学反应条件(反应物、催化剂、溶剂、试剂)和通过贝叶斯优化模型挑选的M条实验环境输入到化学反应实验室自动化控制平台；化学反应自动化控制平台将输入的参数信息生成平台的指令信息，并将指令提交到自动化实验平台进行实验；自动化实验平台完成实验后，得到实验结果信息，包括但不限于产率、纯度等信息，并反馈给贝叶斯优化模型。贝叶斯优化模型使用代理模型拟合真实实验结果，使用采集函数挑选下一组实验环境。

其中，自动化控制平台包括但不限于使用LabVIEW开发的控制系统。算法与控制系统的通信方式包括但不限于基于HTTP、WebSocket等协议的通信方式。

通过上述步骤S100-S150，本申请实施例提供了一种化学反应预测方法，首先将化学反应物质所对应的SMILES转换为图谱结构；其中，化学反应物质包括反应物、产物、催化剂、试剂和溶剂；根据图谱结构，构建反应物和产物的原子映射关系，并根据原子映射关系，确定反应位点计算化学反应物质对应的摩根指纹。然后，将摩根指纹和反应位点输入多层神经网络中，对由多层神经网络对输入的数据进行降维，并通过拟合输入数据和输出结果的概率值，最终获得化学反应的预测反应环境和预测反应结果。在预测完毕后，用户可以将该化学反应对应的化学反应物质和预测得到的预测反应环境输入到自动化实验平台中，由自动化试验平台生成对应的指令并执行化学反应，并获得在预测的反映环境下该化学反应实际得到的实际反应结果。并通过实际反应结果和预测反应结果对多层神经网络进行网络参数的优化，不断提高预测的准确度。本申请实施例能够实现依赖高维的化学反应数据对化学反应的反应条件和结果的有效预测，降低人工理解高维反应数据并抽象出化学规律所花费的成本。并且本申请实施例的化学反应预测方法能够通过不断学习，调整多层神经网络的网络参数，以期不断提高预测的准确度和预测的效率。

参照图9，图9为本申请实施例提供的化学反应预测模型结构的示意图。如图9所示，本申请通过上述内容，想要说明的过程实际就是在多层神经网络中输入当前化学反应所对应的反应物、产物、催化剂、试剂和溶剂，然后通过多层神经网络进行数据的处理和预测，最终预测得到当前化学反应最适宜的反应时间、反应温度，并预测得到在最适宜的反应时间和反应温度下得到的理想产率和产物纯度。

下面结合实际的化学反应阐述本申请提出的化学反应预测方法。参照图10，图10为本申请实施例提出的化学反应预测方法的第二示意图。如图10所示，用户在多层神经网络输入需要执行的化学反应，具体是以SMILES的形式输入当前化学反应对应的反应物以及产物。然后，用户继续输入图10所示的当前化学反应所需的催化剂、溶剂以及试剂，由多层神经网络对输入的高维数据进行预测，最后预测得到当前化学反应的产率、最佳反应温度和最佳反应时间。可以理解的是，通过图10所示的化学反应预测方法的流程，可以对任意的化学反应进行预测，确定最佳的反应环境。因此本申请实施例能够有效节约重复实验所带来的时间和材料消耗，并且能够有利于实际生产过程中的生产计划规划和制定。

参照图11，图11为本申请实施例提供的化学反应预测系统的示意图，该系统900包括第一模块1110、第二模块1120、第三模块1130、第四模块1140和第五模块1150，第一模块用于将化学反应物质所对应的SMILES转换为图谱结构；其中，化学反应物质包括反应物、产物、催化剂、试剂和溶剂；第二模块用于根据图谱结构，构建反应物和产物的原子映射关系；第三模块用于根据原子映射关系，确定反应位点；第四模块用于计算化学反应物质对应的摩根指纹；第五模块用于将摩根指纹和反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果；其中，预测反应环境包括反应时间和反应温度，预测反应结果包括预测产率和预测产物纯度。

参考图12，图12为本申请实施例提供的化学反应预测装置的示意图，该装置1200包括至少一个处理器1210，还包括至少一个存储器1220，用于存储至少一个程序；图12中以一个处理器及一个存储器为例。

处理器和存储器可以通过总线或者其他方式连接，图12中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本申请实施例还公开了一种计算机存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现本申请提出的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种化学反应预测方法，其特征在于，包括：

计算所述化学反应物质对应的摩根指纹；

2.根据权利要求1所述的化学反应预测方法，其特征在于，所述根据当前化学反应和化学反应物质，确定反应位点，包括：

根据所述原子映射关系，确定所述反应位点。

3.根据权利要求1所述的化学反应预测方法，其特征在于，所述将所述摩根指纹和所述反应位点输入多层神经网络中，获得化学反应的预测反应环境和预测反应结果，包括：

4.根据权利要求2所述的化学反应预测方法，其特征在于，所述根据所述图谱结构，构建所述反应物和所述产物的原子映射关系，包括：

5.根据权利要求4所述的化学反应预测方法，其特征在于，所述根据所述原子映射关系，确定所述反应位点，包括：

6.根据权利要求1所述的化学反应预测方法，其特征在于，当所述化学反应物质为所述反应物时，所述计算所述化学反应物质对应的摩根指纹这一步骤，包括：

计算所述子图结构的哈希值；

将所述哈希值转换为预设长度的所述摩根指纹。

7.根据权利要求6所述的化学反应预测方法，其特征在于，所述计算所述子图结构的哈希值，包括以下至少一项：

根据所述子图结构中的原子编号计算所述哈希值；

根据所述子图结构中的原子质量计算所述哈希值；

根据所述子图结构中的原子电荷计算所述哈希值。

8.一种化学反应预测系统，其特征在于，包括：

第二模块，用于计算所述化学反应物质对应的摩根指纹；

9.一种化学反应预测装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的化学反应预测方法。

10.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7任一项所述的化学反应预测方法。