CN116230109A

CN116230109A - 一种基于深度学习的手性分离预测方法

Info

Publication number: CN116230109A
Application number: CN202310519018.1A
Authority: CN
Inventors: 莫凡洋; 徐浩; 张东晓
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-06

Abstract

本发明公开了一种基于深度学习的手性分离预测方法，利用深度学习算法对从文献中收集的大量手性分离实验数据进行分析和建模，将分位数学习和几何增强图神经网络相结合，构建分子结构与色谱保留时间的关系，并进一步预测出最佳的手性分离实验条件，包括手性分离柱型号、展开剂比例和流速。该方法可以显著提高手性分离的效率和准确性，并且能够节约大量的时间和实验成本。

Description

一种基于深度学习的手性分离预测方法

技术领域

本发明涉及不对称催化和手性分离技术，具体涉及一种基于深度学习的手性分离预测方法。

背景技术

手性分离是合成化学、材料科学和生物制药等领域中的一个重要问题。手性分离技术可以将一种化学物质中的两种手性异构体分离出来，从而获得高纯度的手性异构体。手性分离在制药、生物化学、农业化学等领域具有广泛应用。许多药物及生物活性物质都是手性化合物，其对映异构体在生物活性、药代动力学和毒理学方面可能具有显著差异。例如，左旋沙利度胺是治疗分娩的有效镇静剂，而右旋对映体会导致胎儿发育异常，药物中对映体的混合曾经引发了一场悲剧。因此，分离和鉴定手性化合物对于药物开发和安全评估至关重要。

目前主流的手性分离方法之一是高效液相色谱（HPLC）。高效液相色谱技术具有高分离效率、高灵敏度和高分辨率等优点，因此在实际应用中被广泛采用。然而，手性分离实验对于实验条件的选择有着很高要求，往往需要进行大量试错以找到极少数能够分离对映体的合适条件，这是一个繁琐且耗时的过程，因为每次试验可能需要几十分钟。目前，手性分离实验的实验条件选择很大程度上依赖实验人员的经验，这导致实验效率的低下与资源的浪费。

在此背景下，开发出一种基于深度学习的手性分离预测方法是十分必要的。深度学习算法是近年来发展起来的强大机器学习算法，具有很强的预测能力。然而，在手性分离领域，由于数据的稀缺性和分散性，数据集的构建是非常困难的。因此，如何有效地收集、整合和处理手性分离的数据，利用深度学习算法开发出一种快速准确预测手性分离实验条件的方法是当前亟待解决的问题。

发明内容

本发明的目的在提供一种基于深度学习的手性分离预测方法，以解决上述背景技术中存在的问题，利用深度学习算法对从文献中收集的大量手性分离实验数据进行分析和建模，构建分子结构与色谱保留时间的关系，并进一步预测出最佳的手性分离实验条件，包括手性分离柱型号、展开剂比例和流速。该方法可以显著提高手性分离的效率和准确性，并且能够节约大量的时间和实验成本。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的手性分离预测方法，包含如下步骤：

A．构建手性分子保留时间数据集：从不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果，并对数据进行整理，形成手性分子保留时间数据集（简称CMRT数据集）；

B. 构建和训练单柱预测模型：采用分位数几何增强图神经网络（QGeoGNN）在每种HPLC柱类型中构建并训练一个预测模型，在给定HPLC柱类型的情况下，预测对映体的保留时间；

C．构建和训练多柱预测模型：在单柱预测模型的基础上，将每种HPLC柱类型的信息特征化并嵌入单柱预测模型，从而将各种类型柱的预测模型集成到一个综合模型中并进行训练，得到多柱预测模型；

D．保留时间预测与分离概率计算：根据实际场景，使用训练好的多柱预测模型预测对映体在给定实验条件下的保留时间的取值范围；根据预测出的保留时间取值范围，计算不同实验条件下对映体的分离概率，给出分离概率最大的实验条件作为最优分离条件。

作为本发明的进一步方案，根据色谱过程方程式，保留时间与流速存在反比例关系，记为：

其中RT是保留时间，K是分配系数，v是流速，V _m和V _s分别是流动相和静止相的体积，t ₀是死时间。因此，在本发明融入了色谱过程方程式，在步骤2）训练单柱预测模型和步骤3）训练多柱预测模型时，将预测目标设置为RT×v（缩写为RT _v）以提升模型的预测效果。

与现有技术相比，本发明的有益效果为：

1、本发明通过深度学习方法建立手性分子保留时间的预测模型，能够快速准确地预测出对映体在包括手性分离柱型号、展开剂比例和流速在内的目标实验条件下的保留时间，并计算出其在给定实验条件下的分离概率，从而进一步预测出最佳的手性分离实验条件。该方法可以显著提高手性分离的效率和准确性，避免传统实验方式中的大量试错，节约大量的时间和实验成本。

2、本发明解决了实验化学领域中实验数据的稀缺性和分散性问题，从大量不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果，并对数据进行整理，形成手性分子保留时间数据集。

3、本发明构建了一个称为分位数几何增强图神经网络的机器学习框架，将分位数学习和几何增强图神经网络相结合。该框架能够很好地学习到数据不确定性和手性分子表示，并在预测手性分子保留时间方面表现出令人满意的性能。

4、本发明将机器学习技术引入实验化学领域，解决了手性分子色谱分离预测这一领域难题，在实验化学，大大缩短手性分离的实验时间和成本，避免了传统的试错方法的繁琐和耗时，从而加速新药研发和催化剂设计等领域的发展。该方法可以应用于合成化学、材料科学、生物制药等领域，具有广泛的应用前景。

附图说明

图1为本发明的方法整体流程框图。

图2为本发明方法中分位数几何增强图神经网络的架构图。

图3为本发明实施例中对ADH、ODH、IA和IC四种柱子的单柱模型保留时间预测效果图。

图4为HPLC手性分离柱信息的特征化示意图。

图5为本发明实施例中多柱模型保留时间预测效果对比图，即通过训练好的多柱预测模型（QGeoGNN）预测手性分子的保留时间，并与四种现有技术方法（LGB、XGB、ANN、GNN）进行对比。

图6为本发明具体实施效果图，其中（a）为通过训练好的多柱预测模型预测手性分子预测出不同备选条件（包括不同柱子、流速和展开剂比例）的保留时间与分离概率，下方为预测模型给出的不推荐的实验条件（分离概率S _p很小）和推荐的实验条件（分离概率S _p很大）实际的分离结果和谱图；（b）为四种现有技术方法（ANN、LGB、XGB、GNN）的预测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

总体而言，本发明提出了一种基于深度学习的手性分离预测方法，包含以下步骤：

1. 构建手性分子保留时间（CMRT）数据集

本实施例中，手性分子保留时间实验数据是从不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果，并对数据进行整合形成的。进一步地，实际场景下手性分离实验的实验数据也可以作为有效数据获取。具体而言，获取的数据包括化合物的化学分子式，所使用的实验条件，包括手性分离柱型号、展开剂比例和流速，以及对映体的保留时间。构建数据集的基本流程涉及几个重要步骤，包括确定数据来源、下载补充信息、转换格式、提取信息和预处理数据等。具体实施方式为：

（1）确定数据来源，本实施例考虑了多年致力于不对称催化研究的研究人员（18个研究小组），将其论文视为数据来源，下载相关文章。

（2）下载补充信息，逐个从期刊网站下载相关文章（本实施例中共645篇）的补充信息。

（3）转换格式和提取信息，将每篇文章中的HPLC实验报告页面提取并转换为文本格式（.txt）。将来自每篇文章的转换文本复制并组合成一个单独的文本文件。由于在不对称催化文献中报告实验结果的格式类似，因此可以通过现有的自然语言处理技术自动提取实验结果。

（4）预处理数据，提取的数据被预处理为格式化数据，其中通过手动快速验证排除在提取过程中出现的明显错误数据。

2. 构建和训练单柱预测模型

由于分子结构具有天然的图属性，在本实施例中，采用图神经网络的架构构建预测模型。如图2所示，分子中的原子和化学键形成一个图，原子和键的特征分别对应于图的节点和边特征，记为图G。同时，考虑到键长和键角可以反映分子三维结构的信息，构建了一个键长-键角图，记为图H，把它作为图G的补充融入到分子的几何特征构建中。在图H中，节点特征是键长，边特征是键角。与传统的分子表示（如分子描述符，分子指纹等）相比，分子的图表示可以通过手性标签反映每个原子的手性情况。基于图G和图H，本实施例构建了分位数几何增强图神经网络（QGeoGNN）。如图2所示，在QGeoGNN的特征中加入了实验条件，如展开剂比例等，使得该框架更适合解决实际的实验场景。同时，相关分子描述符的加入进一步有助于通过宏观分子特性区分对映异构体。通过图卷积操作可以得到图表征，然后通过全连接层转换为预测结果。

进一步地，本实施例利用分位数学习，考虑了不确定性。传统的保留时间预测任务通常关注预测保留时间的准确性，而忽略了不确定性。然而，实验误差将不可避免地对测量到的保留时间带来偏差。具体而言，在这种情况下，预测模型的任务不仅是预测保留时间，还要进一步指导色谱手性分离。一般而言，手性对映体是否可分离取决于保留时间之间的差异，阈值非常小（通常为几十秒），这意味着不确定性和误差对预测对映体是否可分离具有很大的影响。因此，本实施例采用分位数学习，具有更好的通用性和适用性，因为它可以通过将分位损失添加到损失函数中来预测百分位数，分位损失的形式为：

其中L _α是分位损失，α是分位数，y ^true和y ^α分别是观察数据和分位数预测值。在本工作中，QGeoGNN的损失函数由三个部分组成，即分位损失、分位数限制和死时间限制。分位损失使得QGeoGNN可以同时学习预测值、九十分位数和十分位数，而分位数限制和死时间限制则作为约束，使输出符合数学和物理限制。

进一步地，本实施例对常用的ADH，ODH，IA和IC四种柱子类型各训练了一个单柱预测模型。对于每个单柱预测模型，将数据集按90/5/5的比例分为训练集、验证集和测试集。训练集用于训练模型，验证集用于提前终止训练过程以防止过拟合。测试集用于检验模型的外样本预测性能。考虑到保留时间的分布，保留时间大于60分钟的数据点被剔除。预测结果及相应的平均绝对误差（MAE）、中位数相对误差（MRE）和决定系数R²如图3所示。可以看到，QGeoGNN对每种柱子都具有良好的预测能力，R²均大于0.7，MAE均低于3，这表明分子结构与保留时间关系已经被学习得很好。

3. 构建与训练多柱模型

在单柱预测模型的基础上，进一步将各种类型柱的预测集成到一个综合模型中。在图4所示的高效液相色谱(HPLC)柱中，手性固定相(CSP)来自多糖，包括纤维素和直链淀粉，这些是自然界中最常见的手性生物基聚合物之一。由于纤维素和淀粉质的手性识别能力不足，它们的衍生物，如相应取代基修饰的酯和氨基酸酯，更常用于分析和制备手性分离柱。CSP通常被固定或涂覆在硅胶上。因此，本实施例考虑了影响HPLC柱手性识别性能的三个主要因素，包括CSP、连接类型（键合或涂覆）和填料粒径。将色谱学领域的专业知识与机器学习技术相结合，以便于模型构建。

具体而言，数据集中的所有HPLC柱均由两种基质和七种取代基组成的不同组合构成（如图4所示）。基质由0（纤维素）和1（淀粉）数字化表示，连接类型同样由0（键合）和1（涂层）数字化表示。它们与填充材料尺寸一起作为QGeoGNN的边特征嵌入到模型中。CSP的属性由相关分子描述符描述，并添加到边特征中。边特征可以通过特征矩阵表示，并且通过增广相应特征矩阵列来嵌入柱信息。通过这种方式，CMRT数据集中的所有数据都可以用于训练多柱预测的综合模型，从而增强了数据的可用性。考虑到对于一些使用不太频繁、数据量小且无法建立单柱预测模型的柱，多柱预测模型将色谱领域知识与机器学习模型相结合，以便处理各种柱，进一步提高了QGeoGNN的灵活性和可扩展性。

多柱预测模型的预测性能如图5所示，其中整个数据集被分为90/5/5，图中显示了测试数据的预测结果。面对来自多样化柱和实验条件的数据，预测模型的R²和MAE仍然分别达到了0.702和3.40，这证实了综合模型的预测能力。为了更好地展示所提出的QGeoGNN的优越性，本文采用传统的机器学习技术，包括 LGB、XGB、人工神经网络（ANN）和图神经网络（GNN），来进行对比。结果显示本实施例中采用的QGeoGNN比现有技术有着更强的预测能力。

4. 保留时间预测与分离概率计算

在本实施例中，首先根据实际场景，使用训练好的多柱预测模型预测对映体在给定实验条件下的保留时间的取值范围。为了定量评估在给定实验条件下，如柱类型、流速和展开剂比例下对手性分子色谱分离的可能性，色谱分离概率S _p被定义为：

其中，L _separate是指保留时间的可分离取值区间的范围长度，L _total是指保留时间取值范围的总长度，即两个对映体预测出的保留时间的九十分位数的最大值与十分位数的最小值之差。具体而言，分离概率可以这样计算：

其中，

和/>

分别是两个对映体预测出的保留时间九十分位数的最大值和最小值，而/>

和/>

分别是两个对映体预测出的保留时间的十分位数的最大值和最小值。保留时间值的单位为分钟，而S _p是无量纲的，其取值范围为0到1。

在实际运用中，首先初步给出一系列可能的实验条件，在不做实验的情况下，根据本实施例中提出的预测模型预测目标对映体的保留时间范围，并计算不同实验条件下对映体的分离概率，分离概率最大的条件即为最优分离条件。

图6中（a）提供了一个实际运用的例子，为了分离对映体，需要从六种柱类型（ODH、ASH、ADH、IC、ID、IG）以及相应的比例和流速中选择最适当的分离条件。所选的柱类型是经常用于色谱对映体分离并在有机实验室中常见的柱类型。如果要尝试所有这些条件可能需要几个小时的实验。本发明实施例中提出的预测模型在几秒钟内预测出每个条件下的保留时间与分离概率（如图6中（a）所示），很容易找到具有最大S _p和适当预测保留时间的最适当的情况，从而节省了实验者很多时间。实验结果证实，只有在IG柱中才能分离对映体，这与预测相一致。作为对比，其他四种常规技术，包括XGB、LGB、ANN和GNN，在相同条件下进行训练，并使用相同的对映体和备选条件进行测试，并计算每个备选条件的保留时间差值ΔRT，如图6中（b）所示。传统上，是否可以分离对映体是由ΔRT确定的，分离阈值通常为0.3分钟（图6中（b）中的黑色虚线）。可以看出，ANN、LGB和XGB不能区分对映体，因为对映体的预测保留时间相似甚至相同（ΔRT接近0）。因此，这三种方法倾向于将所有对映体都认为是不可分离的。而GNN虽然可以区别对映体，但是预测的结果是错误的，这进一步证明了本发明在色谱对映体分离预测方面的优越性。

Claims

1.一种基于深度学习的手性分离预测方法，其特征在于，包括以下步骤：

1）构建手性分子保留时间数据集：从不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果，并对数据进行整理，构建手性分子保留时间数据集；

2）构建和训练单柱预测模型：采用分位数几何增强图神经网络QGeoGNN在每种HPLC柱类型中构建并训练一个预测模型，在给定HPLC柱类型的情况下，预测对映体的保留时间；

3）构建和训练多柱预测模型：在单柱预测模型的基础上，将每种HPLC柱类型的信息特征化并嵌入单柱预测模型，从而将各种类型柱的预测模型集成到一个综合模型中并进行训练，得到多柱预测模型；

4）保留时间预测与分离概率计算：根据实际场景，使用训练好的多柱预测模型预测对映体在给定实验条件下的保留时间的取值范围；根据预测出的保留时间取值范围，计算不同实验条件下对映体的分离概率，给出分离概率最大的实验条件作为最优分离条件。

2.如权利要求1所述的手性分离预测方法，其特征在于，在步骤2）训练单柱预测模型和步骤3）训练多柱预测模型时，将预测目标设置为RT×v，其中RT是保留时间，v是流速。

3.如权利要求1所述的手性分离预测方法，其特征在于，步骤1）获取的数据包括化合物的化学分子式，所使用的实验条件，包括手性分离柱型号、展开剂比例和流速，以及对映体的保留时间。

4.如权利要求1所述的手性分离预测方法，其特征在于，步骤1）构建数据集的步骤包括：

1a）确定数据来源：将国际上致力于不对称催化研究的研究人员的论文视为数据来源，下载相关文章；

1b）下载补充信息：逐个从期刊网站下载相关文章的补充信息；

1c）转换格式和提取信息：将每篇文章中的HPLC实验报告页面提取并转换为文本格式，将来自每篇文章的转换文本复制并组合成一个单独的文本文件；

1d）预处理数据：将步骤1c）提取的数据预处理为格式化数据，其中通过手动快速验证排除在提取过程中出现的明显错误数据。

5.如权利要求1所述的手性分离预测方法，其特征在于，步骤2）将分子中的原子和化学键形成一个图，原子和化学键的特征分别对应于图的节点和边特征，记为图G；同时构建一个键长-键角图，键长和键角分别对应于图的节点特征和边特征，记为图H；基于图G和图H构建分位数几何增强图神经网络QGeoGNN；在QGeoGNN的特征中加入了实验条件和相关分子描述符；通过图卷积操作得到图表征，然后通过全连接层转换为预测结果。

6.如权利要求5所述的手性分离预测方法，其特征在于，步骤2）采用分位数学习训练单柱预测模型，通过将分位损失添加到损失函数中来预测百分位数，分位损失的形式为：

，

其中，L _α是分位损失，α是分位数，y ^true和y ^α分别是观察数据和分位数预测值；QGeoGNN的损失函数由三个部分组成，即分位损失、分位数限制和死时间限制。

7.如权利要求5所述的手性分离预测方法，其特征在于，步骤3）中所述每种HPLC柱类型的信息包括手性固定相、连接类型和填料粒径，将手性固定相基质类型、连接类型数字化后和填料尺寸一起添加到图G中的边特征中；手性固定相的属性由相关分子描述符描述，添加到图H中的边特征中；图G和图H的边特征通过特征矩阵表示，并且通过增广相应特征矩阵列来嵌入柱信息；通过这种方式将各种类型柱的信息用于训练多柱预测模型。

8.如权利要求1所述的手性分离预测方法，其特征在于，步骤4）中所述分离概率定义为：

，

其中，L _separate是指保留时间的可分离取值区间的范围长度，L _total是指保留时间取值范围的总长度，即两个对映体预测出的保留时间的九十分位数的最大值与十分位数的最小值之差。

9.如权利要求8所述的手性分离预测方法，其特征在于，根据下述公式计算分离概率S _p：

，

其中，

和/>

和/>

分别是两个对映体预测出的保留时间的十分位数的最大值和最小值。/>