CN117637061A

CN117637061A - 基于机器学习对全氟及多氟化合物进行快速筛查的方法

Info

Publication number: CN117637061A
Application number: CN202310655991.6A
Authority: CN
Inventors: 刘顺曼; 丁一; 曹慧明; 周珍; 梁勇
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2024-03-01

Abstract

本发明提供了一种基于机器学习对全氟及多氟化合物进行快速筛查的方法，包括：机器学习模型数据集的标准化；建立多种机器学习模型；模型能力验证；可疑筛查；及模型辅助可疑筛查结果，本发明采用多种机器学习模型对Compound Discoverer数据处理软件筛查出的PFAS匹配结果进行过滤，能够进行快速分析，稳定性好，有助于更准确的识别环境中未知PFAS。

Description

基于机器学习对全氟及多氟化合物进行快速筛查的方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于机器学习对全氟及多氟化合物进行快速筛查的方法。

背景技术

全氟及多氟化合物(PFAS)是一种应用范围广阔的人工合成化合物，已经在环境中被广泛检测到，因其具有的持久性和生物累积性，可以通过食物链等方式进入各种生物体内，在生物体内的蓄积水平高于已知的有机氯农药和二恶英等持久性有机污染物的数百倍至数千倍。PFAS还具有生殖毒性、诱变毒性、发育毒性、神经毒性、免疫毒性等多种毒性，是一类具有全身多脏器毒性的环境污染物。毒理学研究中可观察到的PFAS对生物体造成的毒性影响包括：抑制免疫系统，影响线粒体代谢，导致肝细胞损伤，生殖细胞受损，降低繁殖与生育能力，影响胎儿的晚期发育，基因表达的改变，干扰酶活性，破坏细胞膜结构，改变甲状腺功能等。

随着质谱技术的发展，环境中检出的PFAS种类越来越多，迫切需要更加快速的筛查手段来对环境中的PFAS进行识别。由于传统可疑筛查仅通过精确质荷比进行匹配，因此会产生大量假阳性的结果。传统的分析手段是对这些匹配结果进行人工解析，判断结果是否匹配正确。其中存在的问题有：1.人工解析依赖于分析人员谱图解析的经验，不同的分析人员可能存在差异；2.在面对匹配结果数据量较大的样品时，需要较长的分析时间，且存在很多重复的分析判断过程，费时费力；3.仅通过母离子和子离子的精确质量无法判断化合物的具体结构，同样无法判断异构体的结构。

目前研究人员已经开发了许多机器学习方法通过质谱图对化合物结构进行解析，例如使用深度神经网络预测化合物指纹图谱辅助识别化合物结构，或是通过预测化合物在碰撞池中得到的碎片来鉴定结构，这些方法在气相色谱质谱联用(GC-MS)法中得到了很好的应用。但HPLC-MS常用的电喷雾电离源(ESI)不同于GC-MS的电子轰击电离源(EI)，EI可以产生丰富的碎片离子用于结构确认和数据库匹配，但ESI产生的碎片数量和种类受到仪器条件的限制。使用液相色谱的保留时间辅助化合物的结构确认则成为了一种新的方式。因此，我们有必要建立一种基于机器学习的新型筛查方法来对水样中PFAS进行准确、快速的识别。

发明内容

本发明所要解决的技术问题是提供一种基于机器学习对全氟及多氟化合物进行快速筛查的方法，用于解决上述至少一种技术问题。

为解决上述技术问题，本发明提供了一种基于机器学习对全氟及多氟化合物进行快速筛查的方法，包括：

机器学习模型数据集的标准化；

建立多种机器学习模型；

模型能力验证；

可疑筛查；及

模型辅助可疑筛查结果。

可选的，所述机器学习模型数据集的标准化具体包括：收集文献中全氟及多氟化合物的保留时间，对保留时间进行无量纲标准化处理，建立用于训练机器学习模型的数据集。

可选的，所述建立多种机器学习模型具体包括：使用训练集对随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型进行训练。

可选的，所述模型能力验证具体包括：从文献和公开资料中收集的保留时间数据集共379个化合物，按照4:1的比例分为训练集和测试集。分别使用测试集、本地数据集和外部数据集对训练后的模型预测能力进行评价。评价指标包括平均绝对误差、均方误差、均方根误差、均方根对数误差和平均绝对百分比误差。

可选的，所述可疑筛查具体包括：对氟化工厂生产废水进行过滤、稀释和高速离心，随后用高效液相色谱串联高分辨质谱进行分析，高分辨质谱使用Thermo公司的QExactive^TM组合型四极杆Orbitrap^TM质谱仪(QE)。QE的数据采集模式选择Full MS/dd-MS²(Top3)。经过Compound Discoverer数据处理软件处理得到化合物匹配结果。

可选的，所述模型辅助可疑筛查结果具体包括：使用模型预测所有匹配结果的保留时间因子，比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差，根据模型验证结果选择保留时间因子误差小于200作为过滤条件，能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果，并得到最终结果。

本申请实施例中提供的利用机器学习模型对全氟及多氟化合物进行快速筛查的方法，采用多种机器学习模型对Compound Discoverer数据处理软件筛查出的PFAS匹配结果进行过滤，能够进行快速分析，稳定性好，有助于更准确的识别环境中未知PFAS。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的色谱图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围；其中本实施中所涉及的“和/或”关键词，表示和、或两种情况，换句话说，本说明书实施例所提及的A和/或B，表示了A和B、A或B两种情况，描述了A与B所存在的三种状态，如A和/或B，表示：只包括A不包括B；只包括B不包括A；包括A与B。

实施例一

一种利用机器学习模型对全氟及多氟化合物进行快速筛查的方法，包括：机器学习模型数据集的标准化：收集文献中PFAS的保留时间，对保留时间进行无量纲标准化处理，建立用于训练机器学习模型的数据集。

建立多种机器学习模型：使用训练集对随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型进行训练；

模型能力验证：从文献和公开资料中收集的保留时间数据集共379个化合物，按照4:1的比例分为训练集和测试集。分别使用测试集、本地数据集和外部数据集对训练后的模型预测能力进行评价。评价指标包括平均绝对误差、均方误差、均方根误差、均方根对数误差和平均绝对百分比误差；

可疑筛查：对氟化工厂生产废水进行过滤、稀释和高速离心，随后用高效液相色谱串联高分辨质谱进行分析，高分辨质谱使用Thermo公司的Q Exactive^TM组合型四极杆Orbitrap^TM质谱仪(QE)。QE的数据采集模式选择Full MS/dd-MS2(Top3)。经过CompoundDiscoverer数据处理软件处理得到化合物匹配结果；

模型辅助可疑筛查结果：使用模型预测所有匹配结果的保留时间因子，比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差，根据模型验证结果选择保留时间因子误差小于200作为过滤条件，能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果，并得到最终结果。

下面将通过具体的实施方案说明。

1.实验部分

1.1机器学习模型

收集文献中的PFAS保留时间，建立用于训练机器学习模型的数据集。为了覆盖更多种类的PFAS，选择了部分非靶标或可疑筛查文献中的结果，同时为了保证数据的质量选择置信度2及以上的筛查结果作为数据集。

将数据集分为训练集和测试集，训练集用于训练机器学习模型，测试集用于评价模型的性能。使用实验室内部保留时间数据和外部测试集对模型进行验证，综合评价模型的预测能力。使用了随机森林模型(RF)、支持向量机模型(SVM)、极端随机树模型(ET)、梯度提升回归模型(GBR)、梯度提升决策树模型(XGB)、轻量级梯度提升机(LGB)、Catboost和多层感知机模型(MLP)等多个模型，比较各种模型对PFAS保留时间预测的性能。

1.1.1保留时间因子的计算

由于RT数据集来源于多个不同实验室，不同实验室使用的液相色谱条件各不相同，从而导致PFAS的RT也随之改变。为了使不同实验室之间RT数据具有可比性，使用Kovats提出的用于预测气相色谱保留时间的方法计算保留时间因子(RTi)，使用保留时间因子作为机器学习模型的数据集，

其原理是使用前后两个校准物质的保留时间对其他分析物的保留时间进行无量纲标准化处理。通过比较选择不同校准物质的结果后，确定使用全氟碳链数为6和10的全氟羧酸(PFHxA和PFDA)或结构类似的PFAS作为保留时间校准化合物。

为了确定保留时间指数是否能够准确描述不同液相色谱条件下PFAS的保留时间特性，分别在两台UPLC-MS和一台UPLC-HRMS上进行目标PFAS的分析，并计算RTi。

UPLC-MS的分析方法为：液相色谱使用Thermo公司的高效液相色谱Ultimate3000，质谱使用AB SCIEX公司的API 4500三重四极杆质谱；分离柱使用Dionex的Acclaim^TM120(5μm,4.6mm×150mm)C18色谱柱。进样体积为10μL，流速为1mL/min；流动相为甲醇(A)和25mM醋酸铵(B)，初始比例为28％B，梯度洗脱程序见表1-1。质谱离子源在负离子模式下工作(ESI^-)，数据采集模式使用多反应检测模式(MRM)并设置分段扫描。

表1-1靶标PFAS的液相色谱梯度洗脱条件

UPLC-HRMS的液相条件为：见1.2.2节。

1.2模型能力验证

基于PFAS的液相色谱保留时间与其结构之间的显著相关性，尝试建立多种机器学习模型预测PFAS的保留时间。从文献和公开资料中收集的保留时间数据集共379个化合物，按照4:1的比例分为训练集和测试集。分别使用测试集，本地数据集和外部数据集对训练后的模型预测能力进行评价。

各个模型在测试集上的预测统计评价参数结果见表1-2，评价指标包括平均绝对误差MAE，均方误差(MSE)，均方根误差RMSE，均方根对数误差(RMSLE)，平均绝对百分比误差(MAPE)。从测试集的结果来看GBR，XGB和CAT的拟合更好。

表1-2测试集结果

1.3可疑筛查

由于环境中PFAS相对于其他同样在质谱中产生信号的物质来说其浓度很低，通常在pg/L到ng/L的级别，因此选取PFAS浓度较高且可能存在其他未知PFAS的样品用于可疑筛查。样品取自湖北省应城市某氟化工厂，包括工厂内自来水，电解槽废水，工厂内污水处理设施进出水等。可疑筛查使用美国环保署(EPA)建立的PFAS数据库(PFAS Master List，https://comptox.epa.gov/dashboard/chemical-lists/PFASMASTER)。

1.3.1样品前处理方法

由于样品中PFAS浓度非常高，因此无需进行浓缩富集，同时为了避免前处理过程中分析物的损失，对工厂样品采取最简单的步骤对样品进行处理。样品前处理步骤包括：过滤(47mm玻璃纤维滤膜)，稀释和高速离心。

1.3.2仪器测试方法

可疑筛查使用高效液相色谱串联高分辨质谱(HPLC-HRMS)系统进行分析。其中液相色谱使用Thermo公司的高效液相色谱Ultimate 3000，高分辨质谱使用Thermo公司的QExactive^TM组合型四极杆Orbitrap^TM质谱仪(QE)。色谱分析柱使用Dionex Acclaim^TM120(5μm,4.6mm×150mm)C18色谱柱，液相色谱梯度洗脱程序见表1-3，其中A相为MeOH，B相为10mMNH4Ac。

表1-3可疑筛查的液相色谱梯度洗脱条件

QE的数据采集模式选择Full MS/dd-MS2(Top3)，并设置包含列表用于扫描二级谱图，包含列表使用多个已知的PFAS数据库整合得到(8591个PFAS)。离子源在负离子模式下工作。质谱首先对母离子进行全扫(Full MS)得到母离子的精确质荷比信息，然后对包含列表中的母离子优先打碎获得二级质谱图(dd-MS²)用于结构确认，对于不在包含列表的母离子则根据信号强度选择前3强的离子进行打碎获得二级谱图(Top3)。

1.3.3谱图解析方法

对可疑筛查匹配到的结果进行人工谱图解析，根据二级谱图中碎片离子的精确质荷比推测可能的分子式，例如质荷比为68.99420的碎片可能是含氟碎片CF₃，质荷比为79.95594的碎片可能是磺酸类的碎片O₃S。含羧基的PFAS通常会产生中性丢失CO₂的碎片，即碎片质荷比＝母离子质荷比-44(-CO2)。含羟基的PFAS可能会产生中性丢失H₂O的碎片，即某两个碎片之间质荷比相差18。有氢取代的PFAS可能会产生中性丢失HF的碎片，通常是母离子质荷比-20。同时结合同位素丰度比等因素综合考虑，来判断可疑筛查匹配的结果是否正确。

由于离子源的参数不可能适用于所用PFAS，因此可能会产生源内裂解碎片。即在进入Q1时化合物的母离子就已经碎裂成碎片离子，然后这些碎片离子会作为母离子产生二级碎片谱图。为了避免这些源内裂解碎片离子产生的假阳性结果，需要通过观察有没有相同保留时间的色谱峰，同时观察有没有相同的碎片离子，来判断是否为源内裂解碎片峰。

1.4保留时间因子过滤方法

选择氟化工厂电解槽废水样品进行可疑筛查分析，可疑筛查的匹配结果共888个。在可疑筛查匹配结果中通过人工识别共发现56个PFAS结构，其中置信度为1的PFAS共8个，置信度为2的PFAS共3个，置信度为3的PFAS共40个，置信度为4的PFAS共3个，置信度为5的PFAS共2个。使用模型预测所有888个匹配结果的保留时间因子，比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差，根据模型验证结果选择保留时间因子误差小于200作为过滤条件，能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果。即匹配结果的模型预测保留时间因子与实际保留时间因子之差大于或小于200，都将认为是错误的匹配结果而被过滤。在过滤可疑筛查结果时，如果将预测的RTi转换为RT，则RT的误差会随着液相条件的变化而变化，从而导致由选定过滤范围产生的误差(相对保留时间越长其RT误差越大)。因此使用RTi进行结果过滤，每个模型的过滤结果见表1-4。

保留时间因子过滤结果显示XGB模型最优，能够过滤掉50％的可疑筛查匹配结果，减少近一半人工识别的工作量。同时XGB在保留时间因子过滤后剩余Level 1-3的结果数量最多，说明其结果最接近人工识别结果。模型验证结果也显示XGB在PFAS的保留时间预测上具有优越的鲁棒性和预测性。综上所述，本研究开发的XGB模型是预测PFAS液相色谱RT的有效方法，提高了PFAS筛查的准确性，辅助实现了PFAS非靶标快速筛查。

表1-4使用RTi过滤后的结果

1.人工识别的总数表示人工识别的所有化合物的结果，即Level 1-5的数量之和；模型识别总数表示实际RTi与预测RTi的误差在200以内的所有结果，包括Level 1-5的结果。2.模型识别中的Level 1-5数量表示人工识别的化合物与模型预测结果匹配的数量，即经过RTi过滤后的人工识别结果。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

Claims

1.一种基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，包括：

机器学习模型数据集的标准化；

建立多种机器学习模型；

模型能力验证；

可疑筛查；及

模型辅助可疑筛查结果。

2.如权利要求1所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述机器学习模型数据集的标准化具体包括：收集文献中全氟及多氟化合物的保留时间，对保留时间进行无量纲标准化处理，建立用于训练机器学习模型的数据集。

3.如权利要求2所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述建立多种机器学习模型具体包括：使用训练集对随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型进行训练。

4.如权利要求3所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述模型能力验证具体包括：从文献和公开资料中收集的保留时间数据集共379个化合物，按照4:1的比例分为训练集和测试集。分别使用测试集、本地数据集和外部数据集对训练后的模型预测能力进行评价。评价指标包括平均绝对误差、均方误差、均方根误差、均方根对数误差和平均绝对百分比误差。

5.如权利要求4所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述可疑筛查具体包括：对氟化工厂生产废水进行过滤、稀释和高速离心，随后用高效液相色谱串联高分辨质谱进行分析，高分辨质谱使用Thermo公司的Q Exactive^TM组合型四极杆Orbitrap^TM质谱仪(QE)。QE的数据采集模式选择Full MS/dd-MS²(Top3)。经过Compound Discoverer数据处理软件处理得到化合物匹配结果。

6.如权利要求5所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述模型辅助可疑筛查结果具体包括：使用模型预测所有匹配结果的保留时间因子，比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差，根据模型验证结果选择保留时间因子误差小于200作为过滤条件，能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果，并得到最终结果。

7.如权利要求6所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述方法还包括：将数据集分为训练集和测试集，训练集用于训练机器学习模型，测试集用于评价模型的性能；使用实验室内部保留时间数据和外部测试集对模型进行验证，综合评价模型的预测能力；使用随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型多个模型，比较各种模型对PFAS保留时间预测的性能。

8.如权利要求7所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述方法还包括：使用Kovats提出的用于预测气相色谱保留时间的方法计算保留时间因子，使用保留时间因子作为机器学习模型的数据集。

9.如权利要求8所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述方法还包括：分别在两台UPLC-MS和一台UPLC-HRMS上进行目标PFAS的分析，并计算RTi。

10.如权利要求9所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法，其特征在于，所述方法还包括：对可疑筛查匹配到的结果进行人工谱图解析，根据二级谱图中碎片离子的精确质荷比推测可能的分子式。