CN116230109A - 一种基于深度学习的手性分离预测方法 - Google Patents
一种基于深度学习的手性分离预测方法 Download PDFInfo
- Publication number
- CN116230109A CN116230109A CN202310519018.1A CN202310519018A CN116230109A CN 116230109 A CN116230109 A CN 116230109A CN 202310519018 A CN202310519018 A CN 202310519018A CN 116230109 A CN116230109 A CN 116230109A
- Authority
- CN
- China
- Prior art keywords
- retention time
- column
- graph
- chiral separation
- chiral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 230000014759 maintenance of location Effects 0.000 claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000002474 experimental method Methods 0.000 claims abstract description 13
- HBAQYPYDRFILMT-UHFFFAOYSA-N 8-[3-(1-cyclopropylpyrazol-4-yl)-1H-pyrazolo[4,3-d]pyrimidin-5-yl]-3-methyl-3,8-diazabicyclo[3.2.1]octan-2-one Chemical class C1(CC1)N1N=CC(=C1)C1=NNC2=C1N=C(N=C2)N1C2C(N(CC1CC2)C)=O HBAQYPYDRFILMT-UHFFFAOYSA-N 0.000 claims description 27
- 238000004128 high performance liquid chromatography Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 230000003197 catalytic effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000005526 G1 to G0 transition Effects 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000000945 filler Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000006555 catalytic reaction Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000001913 cellulose Substances 0.000 description 3
- 229920002678 cellulose Polymers 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 229960000074 biopharmaceutical Drugs 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000005557 chiral recognition Methods 0.000 description 2
- 238000013375 chromatographic separation Methods 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 229920000856 Amylose Polymers 0.000 description 1
- 206010058314 Dysplasia Diseases 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 229920002472 Starch Polymers 0.000 description 1
- -1 amino acid esters Chemical class 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229920013724 bio-based polymer Polymers 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 239000013626 chemical specie Substances 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 208000037805 labour Diseases 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000000932 sedative agent Substances 0.000 description 1
- 230000001624 sedative effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000741 silica gel Substances 0.000 description 1
- 229910002027 silica gel Inorganic materials 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000008107 starch Substances 0.000 description 1
- 235000019698 starch Nutrition 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 231100000027 toxicology Toxicity 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度学习的手性分离预测方法,利用深度学习算法对从文献中收集的大量手性分离实验数据进行分析和建模,将分位数学习和几何增强图神经网络相结合,构建分子结构与色谱保留时间的关系,并进一步预测出最佳的手性分离实验条件,包括手性分离柱型号、展开剂比例和流速。该方法可以显著提高手性分离的效率和准确性,并且能够节约大量的时间和实验成本。
Description
技术领域
本发明涉及不对称催化和手性分离技术,具体涉及一种基于深度学习的手性分离预测方法。
背景技术
手性分离是合成化学、材料科学和生物制药等领域中的一个重要问题。手性分离技术可以将一种化学物质中的两种手性异构体分离出来,从而获得高纯度的手性异构体。手性分离在制药、生物化学、农业化学等领域具有广泛应用。许多药物及生物活性物质都是手性化合物,其对映异构体在生物活性、药代动力学和毒理学方面可能具有显著差异。例如,左旋沙利度胺是治疗分娩的有效镇静剂,而右旋对映体会导致胎儿发育异常,药物中对映体的混合曾经引发了一场悲剧。因此,分离和鉴定手性化合物对于药物开发和安全评估至关重要。
目前主流的手性分离方法之一是高效液相色谱(HPLC)。高效液相色谱技术具有高分离效率、高灵敏度和高分辨率等优点,因此在实际应用中被广泛采用。然而,手性分离实验对于实验条件的选择有着很高要求,往往需要进行大量试错以找到极少数能够分离对映体的合适条件,这是一个繁琐且耗时的过程,因为每次试验可能需要几十分钟。目前,手性分离实验的实验条件选择很大程度上依赖实验人员的经验,这导致实验效率的低下与资源的浪费。
在此背景下,开发出一种基于深度学习的手性分离预测方法是十分必要的。深度学习算法是近年来发展起来的强大机器学习算法,具有很强的预测能力。然而,在手性分离领域,由于数据的稀缺性和分散性,数据集的构建是非常困难的。因此,如何有效地收集、整合和处理手性分离的数据,利用深度学习算法开发出一种快速准确预测手性分离实验条件的方法是当前亟待解决的问题。
发明内容
本发明的目的在提供一种基于深度学习的手性分离预测方法,以解决上述背景技术中存在的问题,利用深度学习算法对从文献中收集的大量手性分离实验数据进行分析和建模,构建分子结构与色谱保留时间的关系,并进一步预测出最佳的手性分离实验条件,包括手性分离柱型号、展开剂比例和流速。该方法可以显著提高手性分离的效率和准确性,并且能够节约大量的时间和实验成本。
为实现上述目的,本发明提供如下技术方案:
一种基于深度学习的手性分离预测方法,包含如下步骤:
A.构建手性分子保留时间数据集:从不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果,并对数据进行整理,形成手性分子保留时间数据集(简称CMRT数据集);
B. 构建和训练单柱预测模型:采用分位数几何增强图神经网络(QGeoGNN)在每种HPLC柱类型中构建并训练一个预测模型,在给定HPLC柱类型的情况下,预测对映体的保留时间;
C.构建和训练多柱预测模型:在单柱预测模型的基础上,将每种HPLC柱类型的信息特征化并嵌入单柱预测模型,从而将各种类型柱的预测模型集成到一个综合模型中并进行训练,得到多柱预测模型;
D.保留时间预测与分离概率计算:根据实际场景,使用训练好的多柱预测模型预测对映体在给定实验条件下的保留时间的取值范围;根据预测出的保留时间取值范围,计算不同实验条件下对映体的分离概率,给出分离概率最大的实验条件作为最优分离条件。
作为本发明的进一步方案,根据色谱过程方程式,保留时间与流速存在反比例关系,记为:
其中RT是保留时间,K是分配系数,v是流速,V m 和V s 分别是流动相和静止相的体积,t 0 是死时间。因此,在本发明融入了色谱过程方程式,在步骤2)训练单柱预测模型和步骤3)训练多柱预测模型时,将预测目标设置为RT×v(缩写为RT v )以提升模型的预测效果。
与现有技术相比,本发明的有益效果为:
1、本发明通过深度学习方法建立手性分子保留时间的预测模型,能够快速准确地预测出对映体在包括手性分离柱型号、展开剂比例和流速在内的目标实验条件下的保留时间,并计算出其在给定实验条件下的分离概率,从而进一步预测出最佳的手性分离实验条件。该方法可以显著提高手性分离的效率和准确性,避免传统实验方式中的大量试错,节约大量的时间和实验成本。
2、本发明解决了实验化学领域中实验数据的稀缺性和分散性问题,从大量不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果,并对数据进行整理,形成手性分子保留时间数据集。
3、本发明构建了一个称为分位数几何增强图神经网络的机器学习框架,将分位数学习和几何增强图神经网络相结合。该框架能够很好地学习到数据不确定性和手性分子表示,并在预测手性分子保留时间方面表现出令人满意的性能。
4、本发明将机器学习技术引入实验化学领域,解决了手性分子色谱分离预测这一领域难题,在实验化学,大大缩短手性分离的实验时间和成本,避免了传统的试错方法的繁琐和耗时,从而加速新药研发和催化剂设计等领域的发展。该方法可以应用于合成化学、材料科学、生物制药等领域,具有广泛的应用前景。
附图说明
图1为本发明的方法整体流程框图。
图2为本发明方法中分位数几何增强图神经网络的架构图。
图3为本发明实施例中对ADH、ODH、IA和IC四种柱子的单柱模型保留时间预测效果图。
图4为HPLC手性分离柱信息的特征化示意图。
图5为本发明实施例中多柱模型保留时间预测效果对比图,即通过训练好的多柱预测模型(QGeoGNN)预测手性分子的保留时间,并与四种现有技术方法(LGB、XGB、ANN、GNN)进行对比。
图6为本发明具体实施效果图,其中(a)为通过训练好的多柱预测模型预测手性分子预测出不同备选条件(包括不同柱子、流速和展开剂比例)的保留时间与分离概率,下方为预测模型给出的不推荐的实验条件(分离概率S p 很小)和推荐的实验条件(分离概率S p 很大)实际的分离结果和谱图;(b)为四种现有技术方法(ANN、LGB、XGB、GNN)的预测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
总体而言,本发明提出了一种基于深度学习的手性分离预测方法,包含以下步骤:
1. 构建手性分子保留时间(CMRT)数据集
本实施例中,手性分子保留时间实验数据是从不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果,并对数据进行整合形成的。进一步地,实际场景下手性分离实验的实验数据也可以作为有效数据获取。具体而言,获取的数据包括化合物的化学分子式,所使用的实验条件,包括手性分离柱型号、展开剂比例和流速,以及对映体的保留时间。构建数据集的基本流程涉及几个重要步骤,包括确定数据来源、下载补充信息、转换格式、提取信息和预处理数据等。具体实施方式为:
(1)确定数据来源,本实施例考虑了多年致力于不对称催化研究的研究人员(18个研究小组),将其论文视为数据来源,下载相关文章。
(2)下载补充信息,逐个从期刊网站下载相关文章(本实施例中共645篇)的补充信息。
(3)转换格式和提取信息,将每篇文章中的HPLC实验报告页面提取并转换为文本格式(.txt)。将来自每篇文章的转换文本复制并组合成一个单独的文本文件。由于在不对称催化文献中报告实验结果的格式类似,因此可以通过现有的自然语言处理技术自动提取实验结果。
(4)预处理数据,提取的数据被预处理为格式化数据,其中通过手动快速验证排除在提取过程中出现的明显错误数据。
2. 构建和训练单柱预测模型
由于分子结构具有天然的图属性,在本实施例中,采用图神经网络的架构构建预测模型。如图2所示,分子中的原子和化学键形成一个图,原子和键的特征分别对应于图的节点和边特征,记为图G。同时,考虑到键长和键角可以反映分子三维结构的信息,构建了一个键长-键角图,记为图H,把它作为图G的补充融入到分子的几何特征构建中。在图H中,节点特征是键长,边特征是键角。与传统的分子表示(如分子描述符,分子指纹等)相比,分子的图表示可以通过手性标签反映每个原子的手性情况。基于图G和图H,本实施例构建了分位数几何增强图神经网络(QGeoGNN)。如图2所示,在QGeoGNN的特征中加入了实验条件,如展开剂比例等,使得该框架更适合解决实际的实验场景。同时,相关分子描述符的加入进一步有助于通过宏观分子特性区分对映异构体。通过图卷积操作可以得到图表征,然后通过全连接层转换为预测结果。
进一步地,本实施例利用分位数学习,考虑了不确定性。传统的保留时间预测任务通常关注预测保留时间的准确性,而忽略了不确定性。然而,实验误差将不可避免地对测量到的保留时间带来偏差。具体而言,在这种情况下,预测模型的任务不仅是预测保留时间,还要进一步指导色谱手性分离。一般而言,手性对映体是否可分离取决于保留时间之间的差异,阈值非常小(通常为几十秒),这意味着不确定性和误差对预测对映体是否可分离具有很大的影响。因此,本实施例采用分位数学习,具有更好的通用性和适用性,因为它可以通过将分位损失添加到损失函数中来预测百分位数,分位损失的形式为:
其中L α 是分位损失,α是分位数,y true 和y α 分别是观察数据和分位数预测值。在本工作中,QGeoGNN的损失函数由三个部分组成,即分位损失、分位数限制和死时间限制。分位损失使得QGeoGNN可以同时学习预测值、九十分位数和十分位数,而分位数限制和死时间限制则作为约束,使输出符合数学和物理限制。
进一步地,本实施例对常用的ADH,ODH,IA和IC四种柱子类型各训练了一个单柱预测模型。对于每个单柱预测模型,将数据集按90/5/5的比例分为训练集、验证集和测试集。训练集用于训练模型,验证集用于提前终止训练过程以防止过拟合。测试集用于检验模型的外样本预测性能。考虑到保留时间的分布,保留时间大于60分钟的数据点被剔除。预测结果及相应的平均绝对误差(MAE)、中位数相对误差(MRE)和决定系数R2如图3所示。可以看到,QGeoGNN对每种柱子都具有良好的预测能力,R2均大于0.7,MAE均低于3,这表明分子结构与保留时间关系已经被学习得很好。
3. 构建与训练多柱模型
在单柱预测模型的基础上,进一步将各种类型柱的预测集成到一个综合模型中。在图4所示的高效液相色谱(HPLC)柱中,手性固定相(CSP)来自多糖,包括纤维素和直链淀粉,这些是自然界中最常见的手性生物基聚合物之一。由于纤维素和淀粉质的手性识别能力不足,它们的衍生物,如相应取代基修饰的酯和氨基酸酯,更常用于分析和制备手性分离柱。CSP通常被固定或涂覆在硅胶上。因此,本实施例考虑了影响HPLC柱手性识别性能的三个主要因素,包括CSP、连接类型(键合或涂覆)和填料粒径。将色谱学领域的专业知识与机器学习技术相结合,以便于模型构建。
具体而言,数据集中的所有HPLC柱均由两种基质和七种取代基组成的不同组合构成(如图4所示)。基质由0(纤维素)和1(淀粉)数字化表示,连接类型同样由0(键合)和1(涂层)数字化表示。它们与填充材料尺寸一起作为QGeoGNN的边特征嵌入到模型中。CSP的属性由相关分子描述符描述,并添加到边特征中。边特征可以通过特征矩阵表示,并且通过增广相应特征矩阵列来嵌入柱信息。通过这种方式,CMRT数据集中的所有数据都可以用于训练多柱预测的综合模型,从而增强了数据的可用性。考虑到对于一些使用不太频繁、数据量小且无法建立单柱预测模型的柱,多柱预测模型将色谱领域知识与机器学习模型相结合,以便处理各种柱,进一步提高了QGeoGNN的灵活性和可扩展性。
多柱预测模型的预测性能如图5所示,其中整个数据集被分为90/5/5,图中显示了测试数据的预测结果。面对来自多样化柱和实验条件的数据,预测模型的R2和MAE仍然分别达到了0.702和3.40,这证实了综合模型的预测能力。为了更好地展示所提出的QGeoGNN的优越性,本文采用传统的机器学习技术,包括 LGB、XGB、人工神经网络(ANN)和图神经网络(GNN),来进行对比。结果显示本实施例中采用的QGeoGNN比现有技术有着更强的预测能力。
4. 保留时间预测与分离概率计算
在本实施例中,首先根据实际场景,使用训练好的多柱预测模型预测对映体在给定实验条件下的保留时间的取值范围。为了定量评估在给定实验条件下,如柱类型、流速和展开剂比例下对手性分子色谱分离的可能性,色谱分离概率S p 被定义为:
其中,L separate是指保留时间的可分离取值区间的范围长度,L total是指保留时间取值范围的总长度,即两个对映体预测出的保留时间的九十分位数的最大值与十分位数的最小值之差。具体而言,分离概率可以这样计算:
其中,和/>分别是两个对映体预测出的保留时间九十分位数的最大值和最小值,而/>和/>分别是两个对映体预测出的保留时间的十分位数的最大值和最小值。保留时间值的单位为分钟,而S p 是无量纲的,其取值范围为0到1。
在实际运用中,首先初步给出一系列可能的实验条件,在不做实验的情况下,根据本实施例中提出的预测模型预测目标对映体的保留时间范围,并计算不同实验条件下对映体的分离概率,分离概率最大的条件即为最优分离条件。
图6中(a)提供了一个实际运用的例子,为了分离对映体,需要从六种柱类型(ODH、ASH、ADH、IC、ID、IG)以及相应的比例和流速中选择最适当的分离条件。所选的柱类型是经常用于色谱对映体分离并在有机实验室中常见的柱类型。如果要尝试所有这些条件可能需要几个小时的实验。本发明实施例中提出的预测模型在几秒钟内预测出每个条件下的保留时间与分离概率(如图6中(a)所示),很容易找到具有最大S p 和适当预测保留时间的最适当的情况,从而节省了实验者很多时间。实验结果证实,只有在IG柱中才能分离对映体,这与预测相一致。作为对比,其他四种常规技术,包括XGB、LGB、ANN和GNN,在相同条件下进行训练,并使用相同的对映体和备选条件进行测试,并计算每个备选条件的保留时间差值ΔRT,如图6中(b)所示。传统上,是否可以分离对映体是由ΔRT确定的,分离阈值通常为0.3分钟(图6中(b)中的黑色虚线)。可以看出,ANN、LGB和XGB不能区分对映体,因为对映体的预测保留时间相似甚至相同(ΔRT接近0)。因此,这三种方法倾向于将所有对映体都认为是不可分离的。而GNN虽然可以区别对映体,但是预测的结果是错误的,这进一步证明了本发明在色谱对映体分离预测方面的优越性。
Claims (9)
1.一种基于深度学习的手性分离预测方法,其特征在于,包括以下步骤:
1)构建手性分子保留时间数据集:从不对称催化文献中自动抓取手性分离实验中的实验条件与实验结果,并对数据进行整理,构建手性分子保留时间数据集;
2)构建和训练单柱预测模型:采用分位数几何增强图神经网络QGeoGNN在每种HPLC柱类型中构建并训练一个预测模型,在给定HPLC柱类型的情况下,预测对映体的保留时间;
3)构建和训练多柱预测模型:在单柱预测模型的基础上,将每种HPLC柱类型的信息特征化并嵌入单柱预测模型,从而将各种类型柱的预测模型集成到一个综合模型中并进行训练,得到多柱预测模型;
4)保留时间预测与分离概率计算:根据实际场景,使用训练好的多柱预测模型预测对映体在给定实验条件下的保留时间的取值范围;根据预测出的保留时间取值范围,计算不同实验条件下对映体的分离概率,给出分离概率最大的实验条件作为最优分离条件。
2.如权利要求1所述的手性分离预测方法,其特征在于,在步骤2)训练单柱预测模型和步骤3)训练多柱预测模型时,将预测目标设置为RT×v,其中RT是保留时间,v是流速。
3.如权利要求1所述的手性分离预测方法,其特征在于,步骤1)获取的数据包括化合物的化学分子式,所使用的实验条件,包括手性分离柱型号、展开剂比例和流速,以及对映体的保留时间。
4.如权利要求1所述的手性分离预测方法,其特征在于,步骤1)构建数据集的步骤包括:
1a)确定数据来源:将国际上致力于不对称催化研究的研究人员的论文视为数据来源,下载相关文章;
1b)下载补充信息:逐个从期刊网站下载相关文章的补充信息;
1c)转换格式和提取信息:将每篇文章中的HPLC实验报告页面提取并转换为文本格式,将来自每篇文章的转换文本复制并组合成一个单独的文本文件;
1d)预处理数据:将步骤1c)提取的数据预处理为格式化数据,其中通过手动快速验证排除在提取过程中出现的明显错误数据。
5.如权利要求1所述的手性分离预测方法,其特征在于,步骤2)将分子中的原子和化学键形成一个图,原子和化学键的特征分别对应于图的节点和边特征,记为图G;同时构建一个键长-键角图,键长和键角分别对应于图的节点特征和边特征,记为图H;基于图G和图H构建分位数几何增强图神经网络QGeoGNN;在QGeoGNN的特征中加入了实验条件和相关分子描述符;通过图卷积操作得到图表征,然后通过全连接层转换为预测结果。
7.如权利要求5所述的手性分离预测方法,其特征在于,步骤3)中所述每种HPLC柱类型的信息包括手性固定相、连接类型和填料粒径,将手性固定相基质类型、连接类型数字化后和填料尺寸一起添加到图G中的边特征中;手性固定相的属性由相关分子描述符描述,添加到图H中的边特征中;图G和图H的边特征通过特征矩阵表示,并且通过增广相应特征矩阵列来嵌入柱信息;通过这种方式将各种类型柱的信息用于训练多柱预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310519018.1A CN116230109A (zh) | 2023-05-10 | 2023-05-10 | 一种基于深度学习的手性分离预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310519018.1A CN116230109A (zh) | 2023-05-10 | 2023-05-10 | 一种基于深度学习的手性分离预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116230109A true CN116230109A (zh) | 2023-06-06 |
Family
ID=86570051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310519018.1A Pending CN116230109A (zh) | 2023-05-10 | 2023-05-10 | 一种基于深度学习的手性分离预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116230109A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024111542A1 (en) * | 2022-11-21 | 2024-05-30 | Daicel Corporation | System, method, and computer program product for chromatographic enantioseparation of chiral molecules |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362905A (zh) * | 2021-06-08 | 2021-09-07 | 浙江大学 | 一种基于深度学习的不对称催化反应对映选择性预测方法 |
CN114708922A (zh) * | 2022-04-26 | 2022-07-05 | 广州大学 | 一种有机框架设计方法、装置、电子设备和存储介质 |
CN115050428A (zh) * | 2022-06-10 | 2022-09-13 | 华南理工大学 | 基于深度学习融合分子图及指纹的药物性质预测方法及系统 |
-
2023
- 2023-05-10 CN CN202310519018.1A patent/CN116230109A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362905A (zh) * | 2021-06-08 | 2021-09-07 | 浙江大学 | 一种基于深度学习的不对称催化反应对映选择性预测方法 |
CN114708922A (zh) * | 2022-04-26 | 2022-07-05 | 广州大学 | 一种有机框架设计方法、装置、电子设备和存储介质 |
CN115050428A (zh) * | 2022-06-10 | 2022-09-13 | 华南理工大学 | 基于深度学习融合分子图及指纹的药物性质预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
FANYANG MO: "Retention Time Prediction for Chromatographic Enantioseparation by Quantile Geometry-enhanced Graph Neural Network", pages 1 - 18, Retrieved from the Internet <URL:https://readpaper.com/pdf-annotate/note?pdfId=4687559280027500545¬eId=1818658892517554688> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024111542A1 (en) * | 2022-11-21 | 2024-05-30 | Daicel Corporation | System, method, and computer program product for chromatographic enantioseparation of chiral molecules |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ashhurst et al. | Integration, exploration, and analysis of high‐dimensional single‐cell cytometry data using Spectre | |
US11574706B2 (en) | Systems and methods for visualization of single-cell resolution characteristics | |
Van de Wiel et al. | Preprocessing and downstream analysis of microarray DNA copy number profiles | |
WO2022243303A1 (en) | Method and system for 3d reconstruction of tissue gene expression data | |
CN104992079B (zh) | 基于采样学习的蛋白质-配体绑定位点预测方法 | |
CN116434226B (zh) | 循环肿瘤细胞分析仪 | |
CN116230109A (zh) | 一种基于深度学习的手性分离预测方法 | |
CN112149881B (zh) | 一种基于卷积神经网络的dna绑定残基预测方法 | |
CN110021346B (zh) | 基于RNAseq数据的基因融合与突变检测方法及系统 | |
JP2003500663A (ja) | 実験データの正規化のための方法 | |
CN111667880A (zh) | 一种基于深度残差神经网络的蛋白质残基接触图预测方法 | |
CN108021788A (zh) | 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置 | |
Diggins et al. | Generating quantitative cell identity labels with marker enrichment modeling (MEM) | |
JP2022141771A (ja) | 最適候補化合物を検出するためのコンピュータ装置およびその方法 | |
Zhang et al. | Deconvolution algorithms for inference of the cell-type composition of the spatial transcriptome | |
Utturkar et al. | Bacterial differential expression analysis methods | |
Chen et al. | Mapping gene expression in the spatial dimension | |
Zubair et al. | Cell type identification in spatial transcriptomics data can be improved by leveraging cell-type-informative paired tissue images using a Bayesian probabilistic model | |
Li et al. | CellBin enables highly accurate single-cell segmentation for spatial transcriptomics | |
de Santiago et al. | Analysis of ChIP-seq data in R/Bioconductor | |
Haller et al. | Manhattan Harvester and Cropper: a system for GWAS peak detection | |
Savriama et al. | Testing the accuracy of 3D automatic landmarking via genome-wide association studies | |
CN110504006A (zh) | 一种处理扩增子数据的方法、系统、平台及存储介质 | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 | |
US20020021299A1 (en) | Method for displaying results of hybridization experiment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230606 |
|
WD01 | Invention patent application deemed withdrawn after publication |