CN113376283B

CN113376283B - 基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法

Info

Publication number: CN113376283B
Application number: CN202110651147.7A
Authority: CN
Inventors: 周燕; 夏兵; 陈璐; 李敏
Original assignee: Chengdu Institute of Biology of CAS
Current assignee: Chengdu Institute of Biology of CAS
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-06-20
Anticipated expiration: 2041-06-10
Also published as: CN113376283A

Abstract

本发明涉及分析化学技术领域，具体涉及一种基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法；使用高效液相色谱‑串联质谱进行样品色谱峰定位，根据实验设计的原则建立足够覆盖面的色谱条件并获得保留时间；根据得到的色谱峰在色谱条件下获取的保留时间建立神经网络模型并验证；基于建立的模型，根据色谱峰分离度公式建立适应性函数，使用软件Matlab，采用遗传算法搜索实现色谱峰分离的最佳色谱条件，验证分析；该方法能减少运算次数，且能较好的模拟出实验结果，程序更为简单有效，为非靶向危害物筛查的色谱条件开发或其他目的的色谱条件开发提供了一种快速可靠的方法。

Description

基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法

技术领域

本发明涉及分析化学技术领域，具体涉及一种基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法。

背景技术

高效液相色谱法的关键步骤是选择最佳的色谱条件，以实现样品理想的分离。在液相色谱中对组分复杂的样品则采用梯度洗脱的方法，在同一个分析周期中，按一定程序不断改变流动相的浓度配比，从而可以使一个复杂样品中的性质差异较大的组分能按各自适宜的容量因子k达到良好的分离目的。

目前对于复杂样品的色谱条件优化主要凭借经验，费时耗力，甚至分离效果不佳。利用保留因子计算每个化合物的保留时间方法，其缺陷在于需要知道化合物的性质，同时对于一次性分析多个化合物的保留时间在计算上也是一个几乎不能完成的任务。非靶向危害物筛查对色谱分离的要求极高，其所分析的样品基质复杂，危害物含量较低，如果不能实现良好的色谱分离则容易发生漏检漏筛。因此，亟需开发高效、快速的色谱条件优化方法。现有的色谱分析软件如(Drylab,LC-simulator等)主要基于实验设计，要求变量数目一致，采样空间规整。这意味着前期探索数据无法使用，导致了极大的浪费。因此建立一种对数据没有要求的色谱分析开发软件是有必要的。

发明内容

有鉴于此，本发明实际要解决的问题是提供一种基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法。

为了解决上述技术问题，本发明采用以下技术方案：

一种基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法，包括如下步骤：

(1)设计不同流速和色谱梯度的色谱条件，所设计的色谱条件要求其覆盖范围足够大；

(2)使用高效液相色谱-串联质谱进行样品色谱峰定位，将得到的色谱峰在不同流速和色谱梯度的色谱条件下获取保留时间并分别记录；

(3)将步骤(2)中得到的所述色谱峰中同一色谱峰在所述不同流速和色谱梯度的色谱条件下获取的保留时间作为输入，其中一个特定色谱峰在特定流速和色谱梯度的色谱条件下的保留时间作为输出，建立神经网络模型并验证，所建立的模型为小规模、多变量模型，所建立的色谱方法应该足够复杂；

(4)基于步骤(3)所建立的所述神经网络色谱模型，根据分离需求建立分离阈值，根据色谱峰分离度公式建立适应性函数，使用软件Matlab，采用遗传算法搜索实现色谱峰分离的最佳色谱条件，设置参数，随机搜索，验证分析。

进一步的，步骤(1)中，对设计的不同流速和色谱梯度的色谱条件进行预处理，所述预处理只需满足液相串联质谱检测基本要求。

进一步的，步骤(2)中，所述高效液相色谱-串联质谱得到的所述色谱峰在所述不同流速和色谱梯度的色谱条件下获取保留时间过程中的仪器条件相同。

进一步，步骤(2)中，所述高效液相色谱-串联质谱的条件为：色谱柱为AcquityUPLC BEH C18(2.1×100mm,1.7μm)；柱温为50℃；流动相A为水，流动相B为甲醇，进行梯度洗脱；进样量为2ul。

进一步，步骤(1)中所述不同流速和色谱梯度的色谱条件的组数为满足复杂样品中色谱峰基本分离的实验需求的任意组数。

进一步，步骤1)中所述不同流速和色谱梯度条件为：

进一步，在所述不同流速和色谱梯度的色谱条件中随机选取21组数据用于建立网络，剩余6组数据用于验证。

进一步，步骤(3)中所述神经网络模型为色谱峰在不同流速和色谱梯度的色谱条件下的保留时间作为输入，双隐藏层，每层四个节点，输出为其中一个特定色谱峰在特定流速和特定色谱梯度的色谱条件下的保留时间，随机挑选。

进一步，步骤(4)中所述遗传算法的参数为满足复杂样品中色谱峰基本分离的实验需求的任意参数。

进一步，步骤(4)中所述遗传算法的参数为：种群数量为400，迭代次数为500，交叉率为0.4，变异率为0.1。

本发明的有益效果在于：

1.本发明对样品如何前处理获得待测液没有要求，只需满足液相串联质谱检测基本要求。且对仪器条件也没有具体要求，只需保持一致即可。因此该方法可应用于各种前处理方式和液质仪器条件，适用范围广。

2.本发明用于建立和验证神经网络的实验次数没有具体要求，遗传算法参数设置同样没有具体要求，满足复杂样品中色谱峰基本分离的实验需求即可。

3.本发明在优化色谱条件方面具有很大优势，其研究对象是一列数据分布，是一种多变量单目标分析，能减少运算次数，且能较好的模拟出实验结果。同时对于适应性函数的进行了一定的更改，使程序更为简单有效，为色谱条件的优化提供了一种快速可靠的方法。

附图说明

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

图1：实施例1中20个色谱峰神经网络预测值与实验值之间的保留时间误差百分比；

图2：实施例1的神经网络遗传算法优化的色谱条件下获得的样品中20个化合物的液质联用图谱，期望的峰间距为0.5min；

图3：实施例1的神经网络遗传算法优化的色谱条件下获得的样品中20个化合物的液质联用图谱，期望的峰间距为0.3min。

具体实施方式

实施例1

实验样品为随机选择的植物来源对照品，具体实施步骤如下：

1.1.使用高效液相色谱-串联质谱进行色谱峰定位，检测到20个响应较好的色谱峰。

高效液相色谱的条件为：色谱柱：Acquity UPLC BEH C18(2.1×100mm,1.7μm)；柱温：50℃；流动相：A为水，B为甲醇，以不同流速进行梯度洗脱；进样量为2ul。

1.2.获取20个色谱峰在27组不同色谱洗脱条件下的保留时间。

1.3.将同一色谱峰在不同流速和色谱梯度条件下的保留时间作为输入，其中一个特定色谱峰在特定流速和特定色谱梯度条件下的保留时间作为输出，步骤1.2中前21组数据用于建立神经网络模型，后6组数据用于验证模型预测的准确性。

1.4.如附图1所示，20个色谱峰的保留时间预测值和实验值的误差百分比大部分集中在0.1％附近，说明该神经网络较为稳定，同时说明神经网络对于色谱保留峰保留时间能进行预测。

1.5.根据遗传算法，将相邻两个色谱峰的保留时间差设为0.5min，样本数为400，迭代次数设为100。经过神经网络-遗传算法优化后得到如下色谱条件：A相为水，B相为甲醇，流速为0.38mL/min，梯度变化为0.8-1min:12％-30.8％B，8.1-13.3min:30.8％57％B，13.3-15.7min:57％66.2％B，15.7-16.9min:66.2-75.9％B。在该色谱条件下样品中20个化合物的液质联用图谱如附图2。

1.6.将步骤1.5中相邻两个色谱峰的保留时间设为0.3min，样本数为100，迭代次数设为500，优化得到的色谱条件为：A相为水，B相为甲醇，流速为0.21mL/min，梯度变化为0-7.6min:13-51％B，7.6-19.8min:51-94％B。在该色谱条件下进行样品测试，选定的20个化合物的液质联用图谱如附图3。

从附图2和附图3可以看出通过人工神经网络结合遗传算法来优化色谱条件，达到的效果与结果符合色谱峰分离的预定值。而且随着迭代次数的增加，色谱峰会更接近期望的分离值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于小数据集的可用于非靶向危害物筛查的色谱条件快速开发方法，其特征在于，包括如下步骤：

(1)设计不同流速和色谱梯度的色谱条件；

(2)使用高效液相色谱-串联质谱进行样品色谱峰定位，将得到的色谱峰在不同流速和色谱梯度的色谱条件下获取保留时间；

(3)将步骤(2)中得到的所述色谱峰中同一色谱峰在所述不同流速和色谱梯度的色谱条件下获取的保留时间作为输入，双隐藏层，每层四个节点，其中一个特定色谱峰在特定流速和色谱梯度的色谱条件下的保留时间作为输出，随机挑选，建立神经网络模型并验证；

(4)基于步骤(3)所建立的所述神经网络模型，根据分离需求建立分离阈值，根据色谱峰分离度公式建立适应性函数，使用软件Matlab，采用遗传算法搜索实现色谱峰分离的最佳色谱条件，设置参数，随机搜索，验证分析。

2.根据权利要求1所述的方法，其特征在于：步骤(1)中，对设计的不同流速和色谱梯度的色谱条件进行预处理，所述预处理只需满足液相串联质谱检测基本要求。

3.根据权利要求1所述的方法，其特征在于：步骤(2)中，所述高效液相色谱-串联质谱得到的所述色谱峰在所述不同流速和色谱梯度的色谱条件下获取保留时间过程中的仪器条件相同。

4.根据权利要求1所述的方法，其特征在于：步骤(2)中，所述高效液相色谱-串联质谱的条件为：色谱柱为Acquity UPLC BEH C18，2.1×100mm，1.7μm；柱温为50℃；流动相A为水，流动相B为甲醇，进行梯度洗脱；进样量为2ul。

5.根据权利要求1所述的方法，其特征在于：步骤(1)中所述不同流速和色谱梯度的色谱条件的组数为满足复杂样品中色谱峰基本分离的实验需求的任意组数。

6.根据权利要求1所述的方法，其特征在于，步骤(1)中所述不同流速和色谱梯度条件为：

。

7.根据权利要求6所述的方法，其特征在于，在所述不同流速和色谱梯度的色谱条件中随机选取21组数据用于建立网络，剩余6组数据用于验证。

8.根据权利要求1所述的方法，其特征在于，步骤(4)中所述遗传算法的参数为满足复杂样品中色谱峰基本分离的实验需求的任意参数。

9.根据权利要求1所述的方法，其特征在于，步骤(4)中所述遗传算法的参数为：种群数量为400，迭代次数为500，交叉率为0.4，变异率为0.1。