CN110021373A

CN110021373A - 一种化学反应的合法性预测方法

Info

Publication number: CN110021373A
Application number: CN201710846223.3A
Authority: CN
Inventors: 张倬胜; 赵海; 姜舒; 李江彤; 杨旸
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2019-07-16

Abstract

本发明公开了一种化学反应的合法性预测方法，具体包括如下步骤：切分，对化学反应进行信息采集，机器学习模块对化学方程式中的元素进行切分，得到独立元素；矢量化，把切分后的每个元素作为词汇单元，建立元素表，通过词嵌入的方法将每个元素映射至特定维度的向量空间中，直至将所有元素用向量表示；结果预测，机器学习模块进行化合物的特征表示以及化学反应的内在特征表示，将表示结果的特征空间通过全连接层，得到原始化合物和目标化合物的特征表示，通过计算特征向量间的距离进行合法度判断，得到并输出化成功率预测结果；分类更新，机器学习模块将化学反应的历史数据按照是否成功分为正例和负例，结合损失函数及惩罚项更新系统参数，使结果不断趋向准确。

Description

一种化学反应的合法性预测方法

技术领域

本发明属于计算机科学与化学有机合成的交叉领域，涉及一种基于机器学习技术对化学反应的特征提取与分析、校验有机合成合法性并预测未知化学反应的成功率的方法。

背景技术

机器学习在生物制药、医疗诊断等诸多领域大放异彩，改变了传统的研究方法，提高了科研效率，促使众多行业发生变革。通过学习数据中隐藏的深层信息，挖掘内在关联，从而做出预测和判断，使得机器学习系统具备极其有效的洞察力和高效率，在垂直领域达到与人类相当甚至超过人类的能力。

传统有机合成模式，不仅是对成本和实验工作者体力的挑战，更是对路线设计者记忆力和分析能力的挑战。人们必须回忆多个有机反应的机理，而后在大量查阅文献的基础上，才可能得到一个看似合理的逆合成分析，在目标分子和可得原料之间建立起联系。这一分析过程由于需要大量经验积累，所以很难由学生自己完成，通常是由导师作为总设计师，而研究生需要做的往往是在实验室里彻夜工作，使路线变为现实。即使真正打通的合成路径，又往往因为需要太多的合成步骤、产率太低或者成本过高，而止步于论文发表，真正能够实现商业化、成为一种制药工业方法的则更是凤毛麟角。

发明内容

本发明的目的是为克服上述问题，提出一种化学反应的合法性预测方法，能够通过学习学习模块提取与分析化学反应的特征，校验有机合成合法性，预测未知化学反应的成功率。

本发明所提出的一种化学反应的合法性预测方法具体包括如下步骤：

第一步，切分，对化学反应进行信息采集，机器学习模块对化学方程式中的元素进行切分，得到独立元素；

第二步，矢量化，把切分后的每个元素作为词汇单元，建立元素表，通过词嵌入的方法将每个元素映射至特定维度的向量空间中，直至将所有元素用向量表示；

第三步，结果预测，机器学习模块进行化合物的特征表示以及化学反应的内在特征表示，将表示结果的特征空间通过全连接层，得到原始化合物和目标化合物的特征表示，通过计算特征向量间的距离进行合法度判断，得到并输出化成功率预测结果；

第四步，分类更新，机器学习模块将化学反应的历史数据按照是否成功分为正例和负例，结合损失函数及惩罚项更新系统参数，使结果不断趋向于正确的预测与判定结果。

进一步的，为了使切分过程得以自动进行，在切分步骤中，机器学习模块建立一个包含M个词的元素表，首先将人工标注的按周期表元素或者化合物切分数据寄存入数据库中，机器学习模块依照所述数据为起点进行自动切分。

进一步的，为了便于计算特征值，在矢量化步骤中，词嵌入的方法将反应中包含的K个元素映射至特定维度N的向量空间中，得到M×N的映射空间，此时切分元素表示为(K，M，N)维度的向量。

进一步的，为了便于系统更新，在结果预测步骤中，机器学习模块将标签Y赋值为0或1分别表示化学反应合法或不合法，(K，M，N)维度的原始化合物s和目标化学物t表示为r＝([s,t],label)，则n条化学反应表示为R(n)＝{r₁,r₂,…,r_n}。

进一步的，为了量化判断化学反应的合法性，在结果预测步骤中，可以通过向量点乘、余弦距离以及欧式距离进行合法度判断；其中，欧氏距离、余弦距离分别满足

进一步的，在分类更新步骤中，损失函数满足

当化学合成不合法，即成功率y＝0时，距离Ew越大，损失越小；当化学合成合法，即成功率y＝1时，距离Ew越大，损失越大。以此规则使结果不断趋向准确。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面进一步阐述上述技术方案。

一种化学反应的合法性预测方法，将每个化学元素视为一个词，建立一个包含M个词的元素表。为了使模型能自动对元素进行切分，可使用人工标注的切分数据，预先训练切分模型对元素进行切分。切分方法包含按照周期表元素切分、按化合物切分。

元素切分后，使用词嵌入(Word Embedding)的方法将每个元素映射至特定维度N的向量空间中，此时得到一个M×N的映射空间(Embedding)。假定某条反应中包含K个元素，此时该反应则表示为(K,M,N)维度的向量。

将已有的化学反应按照是否成功分为正例和负例，用1或0的标签 (label)表示。标签y＝0表示化学反应不合法。y＝1则表示合法。此时输入则表示为r＝([s,t],label),s和t分别表示为(K,M,N)维度的原始化合物和目标化学物。假设有n条化学反应，则输入表示为R(n)＝{r₁,r₂,…,r_n}。

机器学习算法通过对化合物和化学反应特征提取与分析，分别得到原始化合物和目标化合物的特征表示后，模型通过计算向量距离来进行合法度判定。可采用向量点乘(dot距离)、Cosine距离(余弦距离)、欧式距离等向量相似度计算方法来计算合法度，其中，

欧氏距离：

余弦距离：

将得到的预测概率与实际合法度标签的距离进行计算，结合损失函数更新系统参数，不断趋向于正确的预测与判定结果。LOSS函数的设计为：

当化学合成不合法(成功率y＝0)时，距离Ew越大，损失越小，即关于 Ew的单调递减函数。

当化学合成合法(成功率y＝1)时，距离Ew越大，损失越大，即关于Ew 的单调递增函数。

例如，LOSS函数包括并不仅限于如下形式：

其中，Y是标签，当Y＝1表示化学反应不合法，Y＝0表示化学反应合法。对于Y＝0的情况，第二项为0，第一项直接变成两个特征的距离平方，因此距离越小则值越小，距离越大则值越大。当Y＝1时，第一项为0，第二项是一个hinge loss，当化合物特征表示之间的距离小于m的时候，模型会得到一个m-D(C₁,C₂)的惩罚，但是当距离大于m的时候，则没有惩罚。距离越大受到的惩罚越小。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种化学反应的合法性预测方法，其特征在于，所述方法具体包括如下步骤：

1)切分，对化学反应进行信息采集，机器学习模块对化学方程式中的元素进行切分，得到独立元素；

2)矢量化，把切分后的每个元素作为词汇单元，建立元素表，通过词嵌入的方法将每个元素映射至特定维度的向量空间中，直至将所有元素用向量表示；

3)结果预测，机器学习模块进行化合物的特征表示以及化学反应的内在特征表示，将表示结果的特征空间通过全连接层，得到原始化合物和目标化合物的特征表示，通过计算特征向量间的距离进行合法度判断，得到并输出化成功率预测结果；

4)分类更新，机器学习模块将化学反应的历史数据按照是否成功分为正例和负例，结合损失函数及惩罚项更新系统参数，使结果不断趋向准确。

2.根据权利要求1所述的一种化学反应的合法性预测方法，其特征在于，切分步骤中，机器学习模块建立一个包含M个词的元素表，首先将人工标注的按周期表元素或者化合物切分数据寄存入数据库中，机器学习模块依照所述数据进行自动切分。

3.根据权利要求1所述的一种化学反应的合法性预测方法，其特征在于，矢量化步骤中，词嵌入的方法将反应中包含的K个元素映射至特定维度N的向量空间中，得到M×N的映射空间，此时切分元素表示为(K，M，N)维度的向量。

4.根据权利要求1所述的一种化学反应的合法性预测方法，其特征在于，结果预测步骤中，机器学习模块将标签Y赋值为0或1分别表示化学反应合法或不合法，(K，M，N)维度的原始化合物s和目标化学物t表示为r＝([s,t],label)，则n条化学反应表示为R(n)＝{r₁,r₂,…,r_n}。

5.根据权利要求4所述的一种化学反应的合法性预测方法，其特征在于，结果预测步骤中，通过向量点乘、余弦距离以及欧式距离进行合法度判断；其中，欧氏距离、余弦距离分别满足

6.根据权利要求4所述的一种化学反应的合法性预测方法，其特征在于，分类更新步骤中，损失函数满足