CN113362905A

CN113362905A - 一种基于深度学习的不对称催化反应对映选择性预测方法

Info

Publication number: CN113362905A
Application number: CN202110637110.9A
Authority: CN
Inventors: 廖佳宇; 严泽伊; 苗晓晔; 刘悦; 吴洋洋; 钱玲慧; 邵瑾宁
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-09-07
Anticipated expiration: 2041-06-08
Also published as: CN113362905B

Abstract

本发明公开了一种基于深度学习的不对称催化反应对映选择性预测方法。该方法首先获取并整理异氰基乙酸酯参与的不对称催化反应数据，并设计模型训练集与样本外测试集；计算并处理反应涉及化合物的分子描述符，将其与反应条件汇总为一组特征向量输入模型；基于训练集分别构建深度神经网络和卷积神经网络回归模型并优化其超参数，进而获得能准确预测训练集反应对映选择性的模型；利用最佳神经网络模型预测样本外反应的对映选择性，检验模型的可迁移性。结果表明，该模型能够较准确地预测样本外反应的对映选择性，进一步验证了模型的稳健性与可迁移性。

Description

一种基于深度学习的不对称催化反应对映选择性预测方法

技术领域

本发明涉及计算机科学与化学有机合成的交叉领域，特别是指一种基于深度学习的不对称催化反应对映选择性预测方法。

背景技术

不对称催化反应的对映选择性对于高效、精准地合成目标手性分子有重大参考价值，掌握反应对映选择性的规律对于新药研发进程具有巨大的推动作用。但是，传统的不对称催化反应体系的开发极度依赖个人经验，通过大范围的筛选和条件优化实现目标反应，费时、费力且成功率低。人工智能技术通过学习数据中隐藏的深层信息，挖掘内在关联，进而做出预测和判断。这种技术具备有效的洞察力和高效率，已经应用于生物制药、医疗诊断等诸多领域，大大提高了科研效率，促使众多行业发生变革。因此，许多国内外学者将人工智能技术应用于不对称催化中，涉及催化反应的预测、新型催化剂的设计以及对催化结构的理解等多个方面，为相关的催化反应提供了有价值的参考依据。但是这些工作仍然存在一定的局限性：(1)部分工作涉及的反应类型单一，样本数量较少，模型结果仅适用于该类反应，模型的可迁移性较差；(2)部分工作整体方法较为复杂，模型重现与迁移难度较大。

发明内容

为了寻找更为有效、应用范围更广的不对称催化反应对映选择性预测的实现方案，本发明将深度学习应用于异氰基乙酸酯参与的不对称催化反应，充分利用其强大的学习表征和数据处理能力，准确预测反应的对映选择性，提高合成效率。

为实现上述目的，本发明提供了一种基于深度学习的不对称催化反应对映选择性预测方法，该方法通过计算待预测反应涉及化合物的分子描述符，并将其与待预测反应的其余反应条件汇总为一组特征向量输入训练好的不对称催化反应对映选择性预测模型，获得预测的对映选择性。其中不对称催化反应对映选择性预测模型通过如下步骤构建和训练：

(1)获取并整理异氰基乙酸酯参与的不对称催化反应数据，构建自主数据库。反应数据包括反应涉及的化合物结构、其余反应条件及主要非对映异构体产物的对映体过量值(ee值)，并将每个反应的ee值换算成过渡态自由能(ΔΔG^≠)，其中，反应涉及的化合物结构具体为反应物的结构、催化剂的结构和溶剂的结构等，其余反应条件包括催化剂的当量、反应温度、反应浓度等；

(2)计算反应数据中反应涉及的化合物的分子描述符及不同分子描述符的方差，将方差大于零的分子描述符与其余反应条件汇总成一组特征向量；

(3)构建神经网络回归预测模型，其中模型的输入为相关分子描述符及其余反应条件组成的特征向量，输出为反应的ΔΔG^≠，从而预测不对称催化反应的对映选择性。基于自主数据库中的数据，采用真实值和预测值之间的平均相对误差作为损失函数对模型进行反向传播训练，直至损失函数收敛，获得训练完成的不对称催化反应对映选择性预测模型。

进一步地，基于不同催化体系，分别设计模型训练集进行训练；催化体系包括协同催化体系和有机催化体系。

进一步地，所述步骤1中，异氰基乙酸酯参与的不对称催化反应数据具体包括：异氰基乙酸酯结构、反应底物结构、有机催化剂或金属/手性配体的结构及其当量、溶剂结构、反应温度、反应浓度、ee值等。对于协同催化反应，反应催化剂为金属催化剂和手性配体/有机催化剂；对于有机催化反应，反应催化剂为有机催化剂。

进一步地，所述步骤1中，还包括根据每个反应变量的分类和分布情况，选择分布相对均匀、数据相对丰富的类别作为模型训练集，具体为：

选择数量较多的三类底物，分别为烯烃类、亚胺类和酮类；

对于协同催化反应，选择数量最多的银盐催化剂，且每种银盐催化剂在训练集中的数据量不少于5条；

选择数量最多的金鸡纳碱类手性配体/有机催化剂，且每种手性配体/有机催化剂在训练集中的数据量不少于5条；

选择在训练集中数据量不少于5条的溶剂；

将筛选后的反应数据作为模型训练集。

进一步地，所述步骤2具体为：利用ChemDes网站计算训练集中异氰基乙酸酯、底物、催化剂和溶剂的分子描述符。分别计算各反应组分下不同分子描述符的方差，选择其中方差大于零的分子描述符组成对应组分的分子描述符特征集。

进一步地，所述神经网络回归预测模型使用的网络为卷积神经网络。

进一步地，还包括将样本外测试集输入最佳模型，输出模型预测的反应对映选择性结果，根据预测平均相对误差检验模型对于样本外反应的预测能力，检验模型的准确性、稳健性与可迁移性。

与现有技术相比，本发明中一种基于深度学习的不对称催化反应对映选择性预测方法具有如下有益效果：

深度学习能处理更高维的数据，能够将反应涉及的分子描述符全面输入进模型，更大程度地减少反应信息的缺失，有利于模型的学习与应用；训练集涉及的反应在底物、催化剂、溶剂等多个方面均包含丰富的化合物种类，样本数量较为丰富，这使得模型能够更广泛地应用于异氰基乙酸酯参与的不对称催化反应；发明方法流程清晰、简单，利于模型的重现与迁移。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例一种基于深度学习的不对称催化反应对映选择性预测方法流程图；

图2是深度神经网络(DNN)的示意图与卷积神经网络(CNN)的示意图；

图3是最佳CNN模型预测样本外协同催化反应的结果。其中，a为仅包含样本外底物的案例，b为仅包含样本外手性配体/有机催化剂的案例，c为同时包含样本外底物与手性配体/有机催化剂的案例；

图4是最佳CNN模型预测样本外有机催化反应的结果。其中，a为仅包含样本外有机催化剂的案例，b为仅包含样本外溶剂的案例，c为同时包含样本外底物与有机催化剂的案例。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

请参阅图1-图4，本发明实施例一种基于深度学习的不对称催化反应对映选择性预测方法，其包括如下步骤：

步骤S100：从已发表文献中获取异氰基乙酸酯参与的不对称催化反应数据，整理并分类，设计模型训练集与样本外测试集。具体包含以下步骤：

步骤S101：通过搜索关键词进行文献检索，收集与整理符合异氰基乙酸酯参与的不对称催化反应通式的文献。

步骤S102：收集文献中的反应数据，包括异氰基乙酸酯结构、反应底物结构、金属催化剂结构及其当量、手性配体/有机催化剂结构及其当量、溶剂结构、反应温度、反应浓度、主要非对映异构体产物的对映体过量值(ee值)等。

步骤S103：所有数据可根据催化体系不同分为两大类：协同催化反应与有机催化反应。

步骤S104：基于反应机理与化学经验，选择反应涉及的化合物结构(异氰基乙酸酯、底物、催化剂、溶剂)、其余反应条件(催化剂的当量、反应温度、反应浓度)为模型变量，主要非对映异构体产物的过渡态自由能(ΔΔG^≠)作为模型的预测目标。其中，ΔΔG^≠需根据公式从ee值进行换算。

步骤S105：根据每个反应变量的分类和分布情况，选择分布相对均匀、数据相对丰富的类别作为模型训练集。其中，反应涉及的底物可根据其反应位点的结构特征进行分类；对于协同催化反应，其金属催化剂可按金属类型进行分类；反应使用的手性配体/有机催化剂可根据其结构特征进行分类。设计模型训练集的具体方法如下：

(1)从底物角度，选择数量较多的三类底物，分别为烯烃类、亚胺类和酮类；

(2)从金属催化剂角度，对于协同催化反应，选择数量最多的银盐催化剂，且每种银盐催化剂在训练集中数据量不少于5条；

(3)从手性配体/有机催化剂角度，选择数量最多的金鸡纳碱类化合物，且每种化合物在训练集中数据量不少于5条；

(4)从溶剂角度，选择在训练集中数据量不少于5条的溶剂。

最终，本实施例中收集的协同催化反应训练集共包含511条反应，有机催化反应训练集共包含431条反应。

步骤S106：从不包含在训练集中且ee值不低于80％的反应中设计样本外测试集。根据不包含在训练集中反应变量的类型和数量，可将这些反应分为不同测试难度的测试集。再根据实际应用意义及测试集中反应的数量来设计具体的样本外测试集。

步骤S200：计算并处理反应涉及化合物的分子描述符，处理后的分子描述符用于表示分子的属性及结构特征，与其余反应条件汇总成一组特征向量输入模型。具体包含以下步骤：

步骤S201：利用ChemDes网站计算训练集中异氰基乙酸酯、底物、催化剂和溶剂的分子描述符。分别计算各变量下不同分子描述符的方差，选择其中方差大于零的分子描述符作为模型特征。

步骤S202：将分子描述符与其余反应条件汇总成一组特征向量输入模型。协同催化反应可分别获得异氰基乙酸酯、底物、金属催化剂、手性配体/有机催化剂和溶剂的分子描述符，其余反应条件包括金属催化剂当量、手性配体/有机催化剂当量、反应浓度及温度。有机催化反应则不含金属催化剂或手性配体。

步骤S300：分别用深度神经网络和卷积神经网络对训练集构建模型，预测反应的对映选择性，同时优化模型的超参数。具体包含以下步骤：

步骤S301：使用深度学习中的深度神经网络(DNN)与卷积神经网络(CNN)两种算法，分别对协同催化反应及有机催化反应的训练集构建模型，预测反应的对映选择性。本实施例中采用的深度神经网络结构与卷积神经网络结构如图2所示。DNN与CNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层。第一层是输入层，将获取的特征输入模型；中间的层数都是隐藏层，对所有特征进行变换与处理；最后一层是输出层，输出模型预测的ΔΔG^≠值。其中，DNN的隐藏层均为全连接层，而CNN的隐藏层包含卷积层、池化层和全连接层3类。各层之间使用线性整流函数(ReLU)作为激活函数。

步骤S302：根据ΔΔG^≠真实值和ΔΔG^≠预测值之间的平均相对误差(MAE)调整所述神经网络中的超参数，以使ΔΔG^≠预测值不断接近ΔΔG^≠真实值，找到适用于反应数据的最佳超参数模型。

本实施例中，协同催化反应及有机催化反应均优选CNN模型作为最终的预测模型。将样本外测试集输入模型，根据ΔΔG^≠预测值计算其ee预测值，再根据ee真实值和ee预测值之间的误差大小及ΔΔG^≠真实值和ΔΔG^≠预测值之间的平均相对误差来检验模型对于样本外反应的预测能力，从而检验模型的准确性、稳健性和可迁移性。

本实施例中，协同催化反应的样本外预测结果如图3所示，其样本外测试集可分为三类：仅包含样本外底物、仅包含样本外手性配体/有机催化剂、同时包含样本外底物与手性配体/有机催化剂。

第一个案例中，模型预测了24个仅包含样本外底物的反应，这种维度的预测有助于寻找合适的反应底物。这些反应涉及的底物为丙二烯类化合物，除底物外的其他化合物均包含于训练集中。将这24个反应作为样本外测试集并预测，ΔΔG^≠平均绝对误差为0.26kcal/mol。共有16个反应的ee值预测误差在5％以内，说明该模型对大部分样本外底物有较高的适用性。

第二个案例中，该模型以相同的方式评估了9个仅包含样本外手性配体/有机催化剂的反应，该维度的预测对于寻找适合的催化体系有很大的参考价值。手性配体/有机催化剂结构复杂，且其立体特征也十分关键，因此这种维度的预测具有一定挑战性。总体而言，模型对这些反应的对映选择性仍能进行较好的预测，ΔΔG^≠平均绝对误差为0.40kcal/mol，5个反应的ee值预测误差在5％以内。

第三个案例中，该模型评估了12个同时包含样本外底物与手性配体/有机催化剂的反应，这是一个预测难度更高的场景，因为该案例中涉及的底物及手性配体/有机催化剂都没有包含在训练集中。模型对这个维度的预测能力能够助力于反应条件的优化，为找到最佳底物及手性配体/有机催化剂提供参考。模型对这些反应仍能保持较准确的预测，ΔΔG^≠平均绝对误差为0.25kcal/mol，10个反应的ee值预测误差在5％以内。

有机催化体系的样本外预测结果如图4所示，其样本外测试集同样可分为三类：仅包含样本外有机催化剂、仅包含样本外溶剂、同时包含样本外底物与有机催化剂。

第一个案例中，模型准确地预测了11个仅包含样本外有机催化剂的反应，涉及到的样本外催化剂均为金鸡纳碱类化合物。预测的ΔΔG^≠平均绝对误差为0.44kcal/mol，其中9个反应的ee值预测误差在5％以内。总的来说，模型能够准确地预测该维度的反应对映选择性，这很好地反映出模型对样本外金鸡纳碱催化剂有较高的适用性。

第二个案例中，以相同的方式评估了8个使用样本外溶剂的反应，这种维度的预测能力能够助力寻找适合的反应溶剂。不同溶剂之间的结构往往有较大的差异，因此针对样本外溶剂进行预测有一定难度。预测的ΔΔG^≠平均绝对误差为0.53kcal/mol，4个反应的ee值预测误差在5％以内。

最后一个案例评估了14个同时包含样本外底物与有机催化剂的反应，反应涉及的样本外底物为偶氮二甲酸酯类化合物。预测的ΔΔG^≠平均绝对误差为0.28kcal/mol，9个反应的ee值预测误差在5％以内。总体上预测结果较准确，说明对于有机催化反应，模型对于训练集中不包含的底物与催化剂也有很好的适用性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的不对称催化反应对映选择性预测方法，其特征在于：该方法通过计算待预测反应涉及化合物的分子描述符，并将其与待预测反应的其余反应条件汇总为一组特征向量输入训练好的不对称催化反应对映选择性预测模型，获得预测的对映选择性。其中不对称催化反应对映选择性预测模型通过如下步骤构建和训练：

(2)计算反应数据中反应涉及化合物的分子描述符及不同分子描述符的方差，将方差大于零的分子描述符与其余反应条件汇总成一组特征向量；

2.根据权利要求1所述的一种基于深度学习的不对称催化反应对映选择性预测方法，其特征在于：基于不同催化体系，分别设计模型训练集进行训练；催化体系包括协同催化体系和有机催化体系。

3.根据权利要求1或2所述的一种基于深度学习的不对称催化反应对映选择性预测方法，其特征在于：所述步骤1中，异氰基乙酸酯参与的不对称催化反应数据具体包括：异氰基乙酸酯结构、反应底物结构、有机催化剂或金属/手性配体的结构及其当量、溶剂结构、反应温度、反应浓度、ee值等。对于协同催化反应，反应催化剂为金属催化剂和手性配体/有机催化剂；对于有机催化反应，反应催化剂为有机催化剂。

4.根据权利要求3所述的一种基于深度学习的不对称催化反应对映选择性预测方法，其特征在于：所述步骤1中，还包括根据每个反应变量的分类和分布情况，选择分布相对均匀、数据相对丰富的类别作为模型训练集，具体为：

选择数量较多的三类底物，分别为烯烃类、亚胺类和酮类；

选择在训练集中数据量不少于5条的溶剂；

将筛选后的反应数据作为模型训练集。

5.根据权利要求3所述的一种基于深度学习的不对称催化反应对映选择性预测方法，其特征在于：所述步骤2具体为：利用ChemDes网站计算训练集中异氰基乙酸酯、底物、催化剂和溶剂的分子描述符。分别计算各反应组分下不同分子描述符的方差，选择其中方差大于零的分子描述符组成对应组分的分子描述符特征集。

6.根据权利要求1所述的一种基于深度学习的不对称催化反应对映选择性预测方法，其特征在于：所述神经网络回归预测模型使用的网络为卷积神经网络。