CN117637061A - 基于机器学习对全氟及多氟化合物进行快速筛查的方法 - Google Patents
基于机器学习对全氟及多氟化合物进行快速筛查的方法 Download PDFInfo
- Publication number
- CN117637061A CN117637061A CN202310655991.6A CN202310655991A CN117637061A CN 117637061 A CN117637061 A CN 117637061A CN 202310655991 A CN202310655991 A CN 202310655991A CN 117637061 A CN117637061 A CN 117637061A
- Authority
- CN
- China
- Prior art keywords
- model
- machine learning
- retention time
- perfluoro
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 53
- 238000010801 machine learning Methods 0.000 title claims abstract description 47
- 150000001875 compounds Chemical class 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 29
- -1 perfluoro Chemical group 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 101001136034 Homo sapiens Phosphoribosylformylglycinamidine synthase Proteins 0.000 claims abstract 4
- 150000005857 PFAS Chemical class 0.000 claims abstract 4
- 102100036473 Phosphoribosylformylglycinamidine synthase Human genes 0.000 claims abstract 4
- 230000014759 maintenance of location Effects 0.000 claims description 54
- 150000002500 ions Chemical class 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 9
- 238000004128 high performance liquid chromatography Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000003682 fluorination reaction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 239000002351 wastewater Substances 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000004896 high resolution mass spectrometry Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000007865 diluting Methods 0.000 claims description 3
- 238000004817 gas chromatography Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000004811 liquid chromatography Methods 0.000 description 10
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 6
- 238000013467 fragmentation Methods 0.000 description 5
- 238000006062 fragmentation reaction Methods 0.000 description 5
- 238000004949 mass spectrometry Methods 0.000 description 5
- 238000010828 elution Methods 0.000 description 4
- 239000012071 phase Substances 0.000 description 4
- 231100000419 toxicity Toxicity 0.000 description 4
- 230000001988 toxicity Effects 0.000 description 4
- 238000001819 mass spectrum Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- HNSDLXPSAYFUHK-UHFFFAOYSA-N 1,4-bis(2-ethylhexyl) sulfosuccinate Chemical compound CCCCC(CC)COC(=O)CC(S(O)(=O)=O)C(=O)OCC(CC)CCCC HNSDLXPSAYFUHK-UHFFFAOYSA-N 0.000 description 2
- 230000005779 cell damage Effects 0.000 description 2
- 208000037887 cell injury Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- USFZMSVCRYTOJT-UHFFFAOYSA-N Ammonium acetate Chemical compound N.CC(O)=O USFZMSVCRYTOJT-UHFFFAOYSA-N 0.000 description 1
- 239000005695 Ammonium acetate Substances 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- YCKRFDGAMUMZLT-UHFFFAOYSA-N Fluorine atom Chemical compound [F] YCKRFDGAMUMZLT-UHFFFAOYSA-N 0.000 description 1
- 206010029350 Neurotoxicity Diseases 0.000 description 1
- 206010074268 Reproductive toxicity Diseases 0.000 description 1
- 206010044221 Toxic encephalopathy Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 229940043376 ammonium acetate Drugs 0.000 description 1
- 235000019257 ammonium acetate Nutrition 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 231100000693 bioaccumulation Toxicity 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- ABDBNWQRPYOPDF-UHFFFAOYSA-N carbonofluoridic acid Chemical class OC(F)=O ABDBNWQRPYOPDF-UHFFFAOYSA-N 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 210000002390 cell membrane structure Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 231100000415 developmental toxicity Toxicity 0.000 description 1
- 230000007673 developmental toxicity Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 150000002013 dioxins Chemical class 0.000 description 1
- 238000000132 electrospray ionisation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 239000011737 fluorine Substances 0.000 description 1
- 238000002546 full scan Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 239000003365 glass fiber Substances 0.000 description 1
- 238000000589 high-performance liquid chromatography-mass spectrometry Methods 0.000 description 1
- 238000000703 high-speed centrifugation Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 210000005229 liver cell Anatomy 0.000 description 1
- 230000006677 mitochondrial metabolism Effects 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 231100000228 neurotoxicity Toxicity 0.000 description 1
- 230000007135 neurotoxicity Effects 0.000 description 1
- 239000003993 organochlorine pesticide Substances 0.000 description 1
- PCIUEQPBYFRTEM-UHFFFAOYSA-N perfluorodecanoic acid Chemical compound OC(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F PCIUEQPBYFRTEM-UHFFFAOYSA-N 0.000 description 1
- PXUULQAPEKKVAH-UHFFFAOYSA-N perfluorohexanoic acid Chemical compound OC(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F PXUULQAPEKKVAH-UHFFFAOYSA-N 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000007696 reproductive toxicity Effects 0.000 description 1
- 231100000372 reproductive toxicity Toxicity 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012106 screening analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 150000003460 sulfonic acids Chemical class 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 239000008399 tap water Substances 0.000 description 1
- 235000020679 tap water Nutrition 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- TXEYQDLBPFQVAA-UHFFFAOYSA-N tetrafluoromethane Chemical group FC(F)(F)F TXEYQDLBPFQVAA-UHFFFAOYSA-N 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 231100000041 toxicology testing Toxicity 0.000 description 1
- 238000001946 ultra-performance liquid chromatography-mass spectrometry Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供了一种基于机器学习对全氟及多氟化合物进行快速筛查的方法,包括:机器学习模型数据集的标准化;建立多种机器学习模型;模型能力验证;可疑筛查;及模型辅助可疑筛查结果,本发明采用多种机器学习模型对Compound Discoverer数据处理软件筛查出的PFAS匹配结果进行过滤,能够进行快速分析,稳定性好,有助于更准确的识别环境中未知PFAS。
Description
技术领域
本发明属于机器学习技术领域,具体涉及一种基于机器学习对全氟及多氟化合物进行快速筛查的方法。
背景技术
全氟及多氟化合物(PFAS)是一种应用范围广阔的人工合成化合物,已经在环境中被广泛检测到,因其具有的持久性和生物累积性,可以通过食物链等方式进入各种生物体内,在生物体内的蓄积水平高于已知的有机氯农药和二恶英等持久性有机污染物的数百倍至数千倍。PFAS还具有生殖毒性、诱变毒性、发育毒性、神经毒性、免疫毒性等多种毒性,是一类具有全身多脏器毒性的环境污染物。毒理学研究中可观察到的PFAS对生物体造成的毒性影响包括:抑制免疫系统,影响线粒体代谢,导致肝细胞损伤,生殖细胞受损,降低繁殖与生育能力,影响胎儿的晚期发育,基因表达的改变,干扰酶活性,破坏细胞膜结构,改变甲状腺功能等。
随着质谱技术的发展,环境中检出的PFAS种类越来越多,迫切需要更加快速的筛查手段来对环境中的PFAS进行识别。由于传统可疑筛查仅通过精确质荷比进行匹配,因此会产生大量假阳性的结果。传统的分析手段是对这些匹配结果进行人工解析,判断结果是否匹配正确。其中存在的问题有:1.人工解析依赖于分析人员谱图解析的经验,不同的分析人员可能存在差异;2.在面对匹配结果数据量较大的样品时,需要较长的分析时间,且存在很多重复的分析判断过程,费时费力;3.仅通过母离子和子离子的精确质量无法判断化合物的具体结构,同样无法判断异构体的结构。
目前研究人员已经开发了许多机器学习方法通过质谱图对化合物结构进行解析,例如使用深度神经网络预测化合物指纹图谱辅助识别化合物结构,或是通过预测化合物在碰撞池中得到的碎片来鉴定结构,这些方法在气相色谱质谱联用(GC-MS)法中得到了很好的应用。但HPLC-MS常用的电喷雾电离源(ESI)不同于GC-MS的电子轰击电离源(EI),EI可以产生丰富的碎片离子用于结构确认和数据库匹配,但ESI产生的碎片数量和种类受到仪器条件的限制。使用液相色谱的保留时间辅助化合物的结构确认则成为了一种新的方式。因此,我们有必要建立一种基于机器学习的新型筛查方法来对水样中PFAS进行准确、快速的识别。
发明内容
本发明所要解决的技术问题是提供一种基于机器学习对全氟及多氟化合物进行快速筛查的方法,用于解决上述至少一种技术问题。
为解决上述技术问题,本发明提供了一种基于机器学习对全氟及多氟化合物进行快速筛查的方法,包括:
机器学习模型数据集的标准化;
建立多种机器学习模型;
模型能力验证;
可疑筛查;及
模型辅助可疑筛查结果。
可选的,所述机器学习模型数据集的标准化具体包括:收集文献中全氟及多氟化合物的保留时间,对保留时间进行无量纲标准化处理,建立用于训练机器学习模型的数据集。
可选的,所述建立多种机器学习模型具体包括:使用训练集对随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型进行训练。
可选的,所述模型能力验证具体包括:从文献和公开资料中收集的保留时间数据集共379个化合物,按照4:1的比例分为训练集和测试集。分别使用测试集、本地数据集和外部数据集对训练后的模型预测能力进行评价。评价指标包括平均绝对误差、均方误差、均方根误差、均方根对数误差和平均绝对百分比误差。
可选的,所述可疑筛查具体包括:对氟化工厂生产废水进行过滤、稀释和高速离心,随后用高效液相色谱串联高分辨质谱进行分析,高分辨质谱使用Thermo公司的QExactiveTM组合型四极杆OrbitrapTM质谱仪(QE)。QE的数据采集模式选择Full MS/dd-MS2(Top3)。经过Compound Discoverer数据处理软件处理得到化合物匹配结果。
可选的,所述模型辅助可疑筛查结果具体包括:使用模型预测所有匹配结果的保留时间因子,比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差,根据模型验证结果选择保留时间因子误差小于200作为过滤条件,能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果,并得到最终结果。
本申请实施例中提供的利用机器学习模型对全氟及多氟化合物进行快速筛查的方法,采用多种机器学习模型对Compound Discoverer数据处理软件筛查出的PFAS匹配结果进行过滤,能够进行快速分析,稳定性好,有助于更准确的识别环境中未知PFAS。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的色谱图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围;其中本实施中所涉及的“和/或”关键词,表示和、或两种情况,换句话说,本说明书实施例所提及的A和/或B,表示了A和B、A或B两种情况,描述了A与B所存在的三种状态,如A和/或B,表示:只包括A不包括B;只包括B不包括A;包括A与B。
实施例一
一种利用机器学习模型对全氟及多氟化合物进行快速筛查的方法,包括:机器学习模型数据集的标准化:收集文献中PFAS的保留时间,对保留时间进行无量纲标准化处理,建立用于训练机器学习模型的数据集。
建立多种机器学习模型:使用训练集对随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型进行训练;
模型能力验证:从文献和公开资料中收集的保留时间数据集共379个化合物,按照4:1的比例分为训练集和测试集。分别使用测试集、本地数据集和外部数据集对训练后的模型预测能力进行评价。评价指标包括平均绝对误差、均方误差、均方根误差、均方根对数误差和平均绝对百分比误差;
可疑筛查:对氟化工厂生产废水进行过滤、稀释和高速离心,随后用高效液相色谱串联高分辨质谱进行分析,高分辨质谱使用Thermo公司的Q ExactiveTM组合型四极杆OrbitrapTM质谱仪(QE)。QE的数据采集模式选择Full MS/dd-MS2(Top3)。经过CompoundDiscoverer数据处理软件处理得到化合物匹配结果;
模型辅助可疑筛查结果:使用模型预测所有匹配结果的保留时间因子,比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差,根据模型验证结果选择保留时间因子误差小于200作为过滤条件,能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果,并得到最终结果。
下面将通过具体的实施方案说明。
1.实验部分
1.1机器学习模型
收集文献中的PFAS保留时间,建立用于训练机器学习模型的数据集。为了覆盖更多种类的PFAS,选择了部分非靶标或可疑筛查文献中的结果,同时为了保证数据的质量选择置信度2及以上的筛查结果作为数据集。
将数据集分为训练集和测试集,训练集用于训练机器学习模型,测试集用于评价模型的性能。使用实验室内部保留时间数据和外部测试集对模型进行验证,综合评价模型的预测能力。使用了随机森林模型(RF)、支持向量机模型(SVM)、极端随机树模型(ET)、梯度提升回归模型(GBR)、梯度提升决策树模型(XGB)、轻量级梯度提升机(LGB)、Catboost和多层感知机模型(MLP)等多个模型,比较各种模型对PFAS保留时间预测的性能。
1.1.1保留时间因子的计算
由于RT数据集来源于多个不同实验室,不同实验室使用的液相色谱条件各不相同,从而导致PFAS的RT也随之改变。为了使不同实验室之间RT数据具有可比性,使用Kovats提出的用于预测气相色谱保留时间的方法计算保留时间因子(RTi),使用保留时间因子作为机器学习模型的数据集,
其原理是使用前后两个校准物质的保留时间对其他分析物的保留时间进行无量纲标准化处理。通过比较选择不同校准物质的结果后,确定使用全氟碳链数为6和10的全氟羧酸(PFHxA和PFDA)或结构类似的PFAS作为保留时间校准化合物。
为了确定保留时间指数是否能够准确描述不同液相色谱条件下PFAS的保留时间特性,分别在两台UPLC-MS和一台UPLC-HRMS上进行目标PFAS的分析,并计算RTi。
UPLC-MS的分析方法为:液相色谱使用Thermo公司的高效液相色谱Ultimate3000,质谱使用AB SCIEX公司的API 4500三重四极杆质谱;分离柱使用Dionex的AcclaimTM120(5μm,4.6mm×150mm)C18色谱柱。进样体积为10μL,流速为1mL/min;流动相为甲醇(A)和25mM醋酸铵(B),初始比例为28%B,梯度洗脱程序见表1-1。质谱离子源在负离子模式下工作(ESI-),数据采集模式使用多反应检测模式(MRM)并设置分段扫描。
表1-1靶标PFAS的液相色谱梯度洗脱条件
UPLC-HRMS的液相条件为:见1.2.2节。
1.2模型能力验证
基于PFAS的液相色谱保留时间与其结构之间的显著相关性,尝试建立多种机器学习模型预测PFAS的保留时间。从文献和公开资料中收集的保留时间数据集共379个化合物,按照4:1的比例分为训练集和测试集。分别使用测试集,本地数据集和外部数据集对训练后的模型预测能力进行评价。
各个模型在测试集上的预测统计评价参数结果见表1-2,评价指标包括平均绝对误差MAE,均方误差(MSE),均方根误差RMSE,均方根对数误差(RMSLE),平均绝对百分比误差(MAPE)。从测试集的结果来看GBR,XGB和CAT的拟合更好。
表1-2测试集结果
1.3可疑筛查
由于环境中PFAS相对于其他同样在质谱中产生信号的物质来说其浓度很低,通常在pg/L到ng/L的级别,因此选取PFAS浓度较高且可能存在其他未知PFAS的样品用于可疑筛查。样品取自湖北省应城市某氟化工厂,包括工厂内自来水,电解槽废水,工厂内污水处理设施进出水等。可疑筛查使用美国环保署(EPA)建立的PFAS数据库(PFAS Master List,https://comptox.epa.gov/dashboard/chemical-lists/PFASMASTER)。
1.3.1样品前处理方法
由于样品中PFAS浓度非常高,因此无需进行浓缩富集,同时为了避免前处理过程中分析物的损失,对工厂样品采取最简单的步骤对样品进行处理。样品前处理步骤包括:过滤(47mm玻璃纤维滤膜),稀释和高速离心。
1.3.2仪器测试方法
可疑筛查使用高效液相色谱串联高分辨质谱(HPLC-HRMS)系统进行分析。其中液相色谱使用Thermo公司的高效液相色谱Ultimate 3000,高分辨质谱使用Thermo公司的QExactiveTM组合型四极杆OrbitrapTM质谱仪(QE)。色谱分析柱使用Dionex AcclaimTM120(5μm,4.6mm×150mm)C18色谱柱,液相色谱梯度洗脱程序见表1-3,其中A相为MeOH,B相为10mMNH4Ac。
表1-3可疑筛查的液相色谱梯度洗脱条件
QE的数据采集模式选择Full MS/dd-MS2(Top3),并设置包含列表用于扫描二级谱图,包含列表使用多个已知的PFAS数据库整合得到(8591个PFAS)。离子源在负离子模式下工作。质谱首先对母离子进行全扫(Full MS)得到母离子的精确质荷比信息,然后对包含列表中的母离子优先打碎获得二级质谱图(dd-MS2)用于结构确认,对于不在包含列表的母离子则根据信号强度选择前3强的离子进行打碎获得二级谱图(Top3)。
1.3.3谱图解析方法
对可疑筛查匹配到的结果进行人工谱图解析,根据二级谱图中碎片离子的精确质荷比推测可能的分子式,例如质荷比为68.99420的碎片可能是含氟碎片CF3,质荷比为79.95594的碎片可能是磺酸类的碎片O3S。含羧基的PFAS通常会产生中性丢失CO2的碎片,即碎片质荷比=母离子质荷比-44(-CO2)。含羟基的PFAS可能会产生中性丢失H2O的碎片,即某两个碎片之间质荷比相差18。有氢取代的PFAS可能会产生中性丢失HF的碎片,通常是母离子质荷比-20。同时结合同位素丰度比等因素综合考虑,来判断可疑筛查匹配的结果是否正确。
由于离子源的参数不可能适用于所用PFAS,因此可能会产生源内裂解碎片。即在进入Q1时化合物的母离子就已经碎裂成碎片离子,然后这些碎片离子会作为母离子产生二级碎片谱图。为了避免这些源内裂解碎片离子产生的假阳性结果,需要通过观察有没有相同保留时间的色谱峰,同时观察有没有相同的碎片离子,来判断是否为源内裂解碎片峰。
1.4保留时间因子过滤方法
选择氟化工厂电解槽废水样品进行可疑筛查分析,可疑筛查的匹配结果共888个。在可疑筛查匹配结果中通过人工识别共发现56个PFAS结构,其中置信度为1的PFAS共8个,置信度为2的PFAS共3个,置信度为3的PFAS共40个,置信度为4的PFAS共3个,置信度为5的PFAS共2个。使用模型预测所有888个匹配结果的保留时间因子,比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差,根据模型验证结果选择保留时间因子误差小于200作为过滤条件,能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果。即匹配结果的模型预测保留时间因子与实际保留时间因子之差大于或小于200,都将认为是错误的匹配结果而被过滤。在过滤可疑筛查结果时,如果将预测的RTi转换为RT,则RT的误差会随着液相条件的变化而变化,从而导致由选定过滤范围产生的误差(相对保留时间越长其RT误差越大)。因此使用RTi进行结果过滤,每个模型的过滤结果见表1-4。
保留时间因子过滤结果显示XGB模型最优,能够过滤掉50%的可疑筛查匹配结果,减少近一半人工识别的工作量。同时XGB在保留时间因子过滤后剩余Level 1-3的结果数量最多,说明其结果最接近人工识别结果。模型验证结果也显示XGB在PFAS的保留时间预测上具有优越的鲁棒性和预测性。综上所述,本研究开发的XGB模型是预测PFAS液相色谱RT的有效方法,提高了PFAS筛查的准确性,辅助实现了PFAS非靶标快速筛查。
表1-4使用RTi过滤后的结果
1.人工识别的总数表示人工识别的所有化合物的结果,即Level 1-5的数量之和;模型识别总数表示实际RTi与预测RTi的误差在200以内的所有结果,包括Level 1-5的结果。2.模型识别中的Level 1-5数量表示人工识别的化合物与模型预测结果匹配的数量,即经过RTi过滤后的人工识别结果。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例中提供的利用机器学习模型对全氟及多氟化合物进行快速筛查的方法,采用多种机器学习模型对Compound Discoverer数据处理软件筛查出的PFAS匹配结果进行过滤,能够进行快速分析,稳定性好,有助于更准确的识别环境中未知PFAS。
Claims (10)
1.一种基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,包括:
机器学习模型数据集的标准化;
建立多种机器学习模型;
模型能力验证;
可疑筛查;及
模型辅助可疑筛查结果。
2.如权利要求1所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述机器学习模型数据集的标准化具体包括:收集文献中全氟及多氟化合物的保留时间,对保留时间进行无量纲标准化处理,建立用于训练机器学习模型的数据集。
3.如权利要求2所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述建立多种机器学习模型具体包括:使用训练集对随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型进行训练。
4.如权利要求3所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述模型能力验证具体包括:从文献和公开资料中收集的保留时间数据集共379个化合物,按照4:1的比例分为训练集和测试集。分别使用测试集、本地数据集和外部数据集对训练后的模型预测能力进行评价。评价指标包括平均绝对误差、均方误差、均方根误差、均方根对数误差和平均绝对百分比误差。
5.如权利要求4所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述可疑筛查具体包括:对氟化工厂生产废水进行过滤、稀释和高速离心,随后用高效液相色谱串联高分辨质谱进行分析,高分辨质谱使用Thermo公司的Q ExactiveTM组合型四极杆OrbitrapTM质谱仪(QE)。QE的数据采集模式选择Full MS/dd-MS2(Top3)。经过Compound Discoverer数据处理软件处理得到化合物匹配结果。
6.如权利要求5所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述模型辅助可疑筛查结果具体包括:使用模型预测所有匹配结果的保留时间因子,比较匹配结果的预测保留时间因子与实际保留时间因子之间的误差,根据模型验证结果选择保留时间因子误差小于200作为过滤条件,能够过滤可疑筛查匹配中的假阳性结果同时避免产生假阴性结果,并得到最终结果。
7.如权利要求6所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述方法还包括:将数据集分为训练集和测试集,训练集用于训练机器学习模型,测试集用于评价模型的性能;使用实验室内部保留时间数据和外部测试集对模型进行验证,综合评价模型的预测能力;使用随机森林模型、支持向量机模型、极端随机树模型、梯度提升回归模型、梯度提升决策树模型、轻量级梯度提升机、Catboost和多层感知机模型多个模型,比较各种模型对PFAS保留时间预测的性能。
8.如权利要求7所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述方法还包括:使用Kovats提出的用于预测气相色谱保留时间的方法计算保留时间因子,使用保留时间因子作为机器学习模型的数据集。
9.如权利要求8所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述方法还包括:分别在两台UPLC-MS和一台UPLC-HRMS上进行目标PFAS的分析,并计算RTi。
10.如权利要求9所述的基于机器学习对全氟及多氟化合物进行快速筛查的方法,其特征在于,所述方法还包括:对可疑筛查匹配到的结果进行人工谱图解析,根据二级谱图中碎片离子的精确质荷比推测可能的分子式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310655991.6A CN117637061A (zh) | 2023-06-02 | 2023-06-02 | 基于机器学习对全氟及多氟化合物进行快速筛查的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310655991.6A CN117637061A (zh) | 2023-06-02 | 2023-06-02 | 基于机器学习对全氟及多氟化合物进行快速筛查的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117637061A true CN117637061A (zh) | 2024-03-01 |
Family
ID=90034499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310655991.6A Pending CN117637061A (zh) | 2023-06-02 | 2023-06-02 | 基于机器学习对全氟及多氟化合物进行快速筛查的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117637061A (zh) |
-
2023
- 2023-06-02 CN CN202310655991.6A patent/CN117637061A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11965871B2 (en) | Method and system for intelligent source tracing of organic pollution of water body | |
Jia et al. | Recent advances in mass spectrometry analytical techniques for per-and polyfluoroalkyl substances (PFAS) | |
Ahmed et al. | Enhanced feature selection for biomarker discovery in LC-MS data using GP | |
WO2022262132A1 (zh) | 一种样品未知成分的液质联用非靶向分析方法 | |
CN116263444B (zh) | 高分辨质谱非靶向分析水体污染源识别与溯源方法 | |
CN111562327A (zh) | 一种基于分子网络的废水中致毒有机污染物非目标筛查分析的方法 | |
CN111413444B (zh) | 基于特征液质碎片匹配的环境样品中雄激素活性物质的鉴别方法 | |
CN114414689A (zh) | 一种基于超高效液相色谱高分辨率质谱的全氟化合物非靶向定量方法 | |
CN115308319A (zh) | 一种全氟及多氟烷基化合物非靶向筛查的定量方法 | |
US10041915B2 (en) | Mass spectrometry (MS) identification algorithm | |
CN115389690A (zh) | 环境中苯并三唑紫外线吸收剂类污染物的全面识别方法 | |
CN117461087A (zh) | 用于鉴别质谱中的分子种类的方法和装置 | |
Hawkes et al. | High-resolution mass spectrometry strategies for the investigation of dissolved organic matter | |
CN117871761A (zh) | 一种液相色谱-质谱联用分析模型及其构建方法 | |
CN117169387A (zh) | 水中污染物的非靶向分析方法 | |
CN117637061A (zh) | 基于机器学习对全氟及多氟化合物进行快速筛查的方法 | |
KR101311412B1 (ko) | 당 동정을 위한 새로운 생물정보처리 분석 방법 | |
Ji et al. | Pure ion chromatogram extraction via optimal k-means clustering | |
CN111239237B (zh) | 一种高通量质谱检测试剂盒及其质检方法 | |
CN111855790A (zh) | 一种识别复杂环境样品中特定芳烃类化合物的方法 | |
Kashyap et al. | QA/QC aspects of GC-MS analytical instrument for environmental analysis | |
Wang | LC-MS in plant metabolomics | |
Camacho | Innovative Mass Spectrometric Workflows for the Measurement of Per-and Polyfluoroalkyl Substances in Abiotic and Biotic Matrices | |
KR102376566B1 (ko) | 토양내 화학 사고 진단 방법 | |
CN117110466A (zh) | 一种高灵敏、高通量的化学物质注释方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |