CN116263444B - 高分辨质谱非靶向分析水体污染源识别与溯源方法 - Google Patents

高分辨质谱非靶向分析水体污染源识别与溯源方法 Download PDF

Info

Publication number
CN116263444B
CN116263444B CN202310422603.XA CN202310422603A CN116263444B CN 116263444 B CN116263444 B CN 116263444B CN 202310422603 A CN202310422603 A CN 202310422603A CN 116263444 B CN116263444 B CN 116263444B
Authority
CN
China
Prior art keywords
sample
source
pollution source
mass spectrum
resolution mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310422603.XA
Other languages
English (en)
Other versions
CN116263444A (zh
Inventor
孙卫玲
吕轶韬
陈倩
常志兵
郭芳
张爱静
倪晋仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South To North Water Diversion Group Middle Line Co ltd
Peking University
Original Assignee
China South To North Water Diversion Group Middle Line Co ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China South To North Water Diversion Group Middle Line Co ltd, Peking University filed Critical China South To North Water Diversion Group Middle Line Co ltd
Priority to CN202310422603.XA priority Critical patent/CN116263444B/zh
Publication of CN116263444A publication Critical patent/CN116263444A/zh
Application granted granted Critical
Publication of CN116263444B publication Critical patent/CN116263444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • G01N30/724Nebulising, aerosol formation or ionisation
    • G01N30/7266Nebulising, aerosol formation or ionisation by electric field, e.g. electrospray
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8686Fingerprinting, e.g. without prior knowledge of the sample components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/20Controlling water pollution; Waste water treatment

Landscapes

  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Dispersion Chemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

一种高分辨质谱非靶向分析水体污染源识别与溯源方法,包括:采集目标区域水体样品、预处理、提取痕量有机污染物;对所得样品进行超高效液相色谱‑高分辨质谱非靶向数据采集;对原始数据进行数据预处理,获得高分辨质谱数据集;进行统计分析,以空间分异规律识别污染源位置信息;基于不同样点高分辨质谱信息差异,获得污染源的特征图谱;依据污染源位置和特征图谱以及高分辨质谱数据集,利用统计算法定量计算源贡献;利用数据库鉴定污染物结构,并结合目标区域信息追溯污染源类型。与现有技术相比,本发明(1)在未知污染源信息的情况下,准确识别污染源的位置和特征图谱;(2)初步确定污染源的类型,并定量评估其对水体的影响。

Description

高分辨质谱非靶向分析水体污染源识别与溯源方法
技术领域
本发明涉及环境监测技术领域,特别涉及一种高分辨质谱非靶向分析水体污染源识别与溯源方法。
背景技术
痕量有机污染物带来的水体环境污染问题日益突出,因很多有机污染物具有持久性、生物累积性、致癌性、致畸性等多种生物毒性,逐渐成为威胁水环境质量的关键问题。这些污染物浓度低、来源广、成分复杂,给污染源的识别和源贡献解析带来了巨大挑战。因此,建立针对痕量有机污染物来源的识别和溯源方法,可为后续治理技术的研发、监测计划和管理策略的制定提供依据。
目前常用的污染源解析的方法多基于靶向分析方法,如特征化合物、同位素分析、主成分分析-多元线性回归、化学质量平衡模型和正定矩阵因子分解等。这些方法对各污染源的指纹图谱区分不明显或描述不全面,无法实现污染源的精准识别,污染源追溯困难。
现有技术文件1(CN114295749B)公开了一种水体有机污染智能化溯源方法及系统,包括:获取受污染水体自上游至下游的若干水样的高效液相色谱-串联质谱的有机物分析检测数据;根据分析检测数据,对水样中的有机物进行高通量筛查,确认水体中的污染物;根据所确定的污染物,通过网络分析识别污染源。
值得注意的是,现有技术文件1在仪器分析结束后立刻用数据库对物质进行鉴定,最终仅仅利用鉴定得到的132种物质做后续的溯源,丢失了非靶向分析90%以上的信息,使得污染源指纹图谱大幅简单化,可能导致污染源的丢失。更进一步地,现有技术文件1用随机森林得到的量化贡献并没有实际的物理含义,仅仅代表模型中某参数对该模型的重要程度,不代表该参数(即某种污染物)对某一环境水体的实际贡献。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种高分辨质谱非靶向分析水体污染源识别与溯源方法及系统,在未知污染源信息的情况下,准确识别污染源的位置和特征图谱;初步确定污染源的类型,并定量评估其对水体的影响。
本发明的第一方面提供了高分辨质谱非靶向分析水体污染源识别与溯源方法,包括以下步骤:
步骤1:采集目标区域多个点位水体样品,进行预处理,提取痕量有机污染物;其中,多个点位水体样品中包括背景样品;
步骤2:对步骤1所得多个样品进行超高效液相色谱-高分辨质谱非靶向数据采集;
步骤3:对步骤2所得高分辨质谱非靶向分析的原始数据进行数据预处理,获得包含物质质荷比、保留时间、峰高、峰面积的高分辨质谱数据集;
步骤4:对步骤3所得高分辨质谱数据集进行统计分析,以空间分异性识别污染源位置信息,获得质谱数据异常的受污染样品点位,判定污染源所在采样点位区间;
步骤5:基于步骤4所得受污染样品、背景样品和受污染样品的前一个样品高分辨质谱信息差异,获得污染源的特征图谱;
步骤6:依据步骤4所得污染源位置区间和步骤5所得污染源特征图谱以及高分辨质谱数据集,定量计算源贡献;
步骤7:利用数据库鉴定污染物结构,并结合目标区域信息追溯污染源类型。
优选地,步骤1中,使用棕色玻璃容器采集水样,以源头水代表不受污染的背景样品;
预处理包括:对水样进行滤膜过滤、固相萃取、洗脱、氮吹和定容。
优选地,步骤2中,采用超高效液相色谱法结合静电场轨道阱高分辨质谱仪进行非靶向分析,采用电喷雾电离源;
使用反相色谱柱分别在正负模式下进行一级全扫描-二级数据依赖型采集分析。
优选地,步骤3中,原始数据进行数据预处理包括:对原始质谱数据进行峰提取、峰对齐、峰组合以及峰剔除;
峰提取和峰对齐时,设置一级和二级质谱的质量允许偏差,各样品在质量允许偏差范围内的峰会被提取并合并为同一个峰;
峰组合时,依据质谱正负模式进行加和离子校正,
Figure SMS_1
,/>
Figure SMS_2
Figure SMS_3
不同加和形式的离子峰会被组合为同一个峰;
峰剔除时,设定最小提取阈值和空白扣除,信号强度低于最小提取阈值的峰和空白样品中存在的峰会被剔除。
优选地,步骤4中,对峰强度数据进行z-score标准化、[0,1]标准化或最大最小值标准化;通过聚类分析从数据集中提取典型的物质空间分异聚类模式,在所获得的聚类模式中,判定信号强度异常高的样品点位为污染源下游首个采样点位。
优选地,步骤5中,以样品1为源头水,代表不受污染的背景受体,步骤4所得样品
Figure SMS_4
为污染源下游首个点位;
若样品
Figure SMS_5
是源头下游的首个污染源,用步骤4获得的受污染样品/>
Figure SMS_6
高分辨质谱信息矩阵减去样品1高分辨质谱信息矩阵得到差分特征图谱,/>
Figure SMS_7
,/>
Figure SMS_8
表示样品总数;
若样品
Figure SMS_9
不是源头下游的首个污染源,用步骤4获得的受污染样品/>
Figure SMS_10
高分辨质谱信息矩阵减去样品/>
Figure SMS_11
高分辨质谱信息矩阵得到差分特征图谱。
优选地,步骤5中,差分后得到即为污染源特有的物质,即污染源特征谱;
保留时间越大,极性越弱,疏水性也强;质荷比越大,分子量越大;对污染物类型作出初步判断,用于在步骤7排除不适用的数据库进行检索,缩短分析时间。
优选地,步骤6包括:
步骤6.1,依据识别出的污染源和受体的水力、地理位置关系,确定各样品源汇关系,将背景样品之外的每个样品作为汇,确定每个汇的源,由每个汇及其源构成一组;
步骤6.2,以质谱数据针对每一组构建汇样品向量
Figure SMS_13
和其源样品向量/>
Figure SMS_15
Figure SMS_17
,/>
Figure SMS_14
表示汇样品/>
Figure SMS_16
有/>
Figure SMS_18
个已知源,此外汇样品/>
Figure SMS_19
还包括未知源,即第/>
Figure SMS_12
个源;
步骤6.3,针对每一组,使用汇样品
Figure SMS_21
的向量/>
Figure SMS_24
和其已知源样品/>
Figure SMS_26
的向量/>
Figure SMS_22
代入最大期望算法,就可以求解汇样品/>
Figure SMS_23
的源样品/>
Figure SMS_25
对于汇样品/>
Figure SMS_27
的贡献度/>
Figure SMS_20
优选地,步骤6.2中,以所有组的汇样品向量和其源样品向量,构建物质-信号强度矩阵,对物质-信号强度矩阵进行标准化处理,包括以下步骤:
步骤6.2.1,检查是否存在缺失值,如存在,用0代替缺失值;
步骤6.2.2,检查信号强度数据值,将所有数据除以一个缩放因子,使最大值低于设定值;
步骤6.2.3,检查缩放后的信号强度值,通过四舍五入使所有数值整数化。
本发明的有益效果在于,与现有技术相比,本发明使用高分辨质谱非靶向筛查技术全面准确掌握样品中污染物的信息,可以识别特征物质。由于水体的连通性,通过分析高分辨质谱非靶向分析峰空间变化特征,可精确识别污染物排放的潜在点位和污染源的特征图谱,进而进行定量源解析。
更进一步地,(1)本发明无需鉴定出具体物质,充分利用非靶向分析得到的数千条物质信息,污染源指纹图谱信息完整,可确保各类型污染源的全面、精确识别。也就是说,在未知污染源信息的情况下,准确识别污染源的位置和特征图谱。(2)本发明得到贡献具有实际物理含义,即污染物对环境水体的实际贡献。显著不同于某一特定污染物质的贡献,本发明计算的是污染源整体的贡献,定量评估其对水体的影响。
附图说明
图1是本发明实施例提供的一种基于高分辨非靶向质谱数据的水体污染源识别与溯源方法的流程示意图;
图2是本发明实施例提供的聚类分析模式一;
图3是本发明实施例提供的聚类分析模式二;
图4是本发明实施例提供的污染源差分特征图谱。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例,而不是全部实施例。基于本发明精神,本领域普通技术人员在没有作出创造性劳动前提下所获得的有所其它实施例,都属于本发明的保护范围。
如图1所示,本发明实施例提供了一种高分辨质谱非靶向分析水体污染源识别与溯源方法,包括以下步骤;
步骤1:采集目标区域多个点位水体样品,进行预处理,提取痕量有机污染物。
更具体地,根据目标水体污染源分布的特点,采集背景水样和包含污染源排放出水的水样,并对样品进行预处理,以达到富集和净化的目的。
可以理解的是,河流沿线的污染源识别与溯源时,目标区域可能存在多个污水排放口,即多个污染源,因此在目标区域河流沿线多个位置采集水样,并且以源头水代表不受污染的背景样品。
在优选但非限制性的实施方式中,针对某存在生活污水排放口的河流,使用棕色玻璃容器采集污水排放样品和河流水体水样,进而使用滤膜过滤去除样品中的颗粒物,固相萃取纯化样品,并通过洗脱、氮气吹扫蒸发和定容达到富集的目的。
步骤2:对步骤1所得多个样品进行超高效液相色谱-高分辨质谱非靶向数据采集。
在优选但非限制性的实施方式中,采用配备有电喷雾电离(electrosprayionization,ESI)源的超高效液相色谱-静电场轨道阱高分辨质谱联用仪进行非靶向分析。
在进一步优选的实施方式中,超高效液相色谱在梯度洗脱模式下分离样品,高分辨质谱仪分别在正负模式下进行一级全扫描-二级数据依赖型采集分析。
在每次分析之前,对质谱仪进行正负模式校准,使得质量精度偏差低于2 ppm。在质谱分辨率140000条件下获得质荷比100-1500范围内的一级全扫描质谱数据。在质谱分辨率17500条件下采集二级质谱数据。使用阶梯归一化碰撞能量获取数据依赖性二级质谱数据。针对最强烈的一级谱图特征获取额外的数据依赖型二级谱图,共记录三次二级谱图数据。
步骤3,对步骤2所得高分辨质谱非靶向分析的原始数据进行数据预处理,获得包含物质质荷比、保留时间、峰高、峰面积的高分辨质谱数据集。
具体地,数据预处理操作包括:对原始质谱数据进行峰提取、峰对齐、峰组合以及峰剔除。可以理解的是,该预处理操作可以利用商用质谱软件完成。
在优选但非限制性的实施方式中,峰提取和峰对齐时,设置一级和二级质谱的质量允许偏差,各样品在质量允许偏差范围内的峰会被提取并合并为同一个峰;峰组合时,依据质谱正负模式进行加和离子校正,
Figure SMS_28
,/>
Figure SMS_29
,/>
Figure SMS_30
等不同加和形式的离子峰会被组合为同一个峰;峰剔除时,设定最小提取阈值和空白扣除,信号强度低于最小提取阈值的峰和空白样品中存在的峰会被剔除。
经数据预处理,得到一个包含物质精确质荷比、保留时间、峰高、峰面积等完整质谱信息的高分辨质谱数据集。
步骤4:对步骤3所得高分辨质谱数据集进行统计分析,分析空间分异规律,获得质谱数据异常的受污染样品点位,用于识别污染源位置信息,即判定污染源所在采样点位区间。
在优选但非限制性的实施方式中,对峰强度数据进行z-score标准化、[0,1]标准化或最大最小值标准化;通过聚类分析从数据集中提取典型的物质空间分异聚类模式,在所获得的聚类模式中,判定信号强度异常高的样品所在点位为污染源下游首个采样点位。
在优选但非限制性的实施方式中,信号强度异常高的点位判断方法优选为,在该点位某一聚类模式标准化信号强度的平均值大于其前一点位标准化信号强度的平均值的情况下,将该点位物质信号强度数据与其前一个点位物质信号强度数据做T检验,检验得到p值小于0.05,则判定该点位信号强度异常。
在进一步优选的实施方式中,聚类分析包括:使用k-均值聚类、层次聚类、高斯混合模型聚类和基于密度的空间聚类等方式进行聚类分析。
更具体地,聚类后,在各个聚类模式下,横向比较各个点位样品物质信号强度差异,可以理解的是,污染排放口下游首个点位样品将显著高于其他点位样品,由此判定该前一个采样点位至该采样点位存在污染源。
在一个非限制性的示例中,样品1为源头水,代表不受污染的背景样品,聚类结果显示所有物质主要分为两种聚类模式,其中样品3模式一中物质的信号强度显著高于其他4个样品,判定样品2至样品3为潜在污染源区间。
步骤5:基于步骤4所得受污染样品、背景样品和前一个样品高分辨质谱信息差异,获得污染源的特征图谱。
信号强度异常高的样品与背景样品的差异为污染源特征,更具体地,依据步骤4中的污染源和受体信息,将受污染样品的高分辨质谱信息矩阵减去背景受体的高分辨质谱信息矩阵,可将其质谱信息绘制为保留时间-质荷比-信号强度差分特征图谱并进行对比,可通过保留时间和质荷比初步判断受污染样品中污染物的亲疏水性、极性、分子量大小等特征信息,对污染物类型作出初步判断。
承接步骤4中的示例,在一个非限制性的示例中,如果样品1为源头水,代表不受污染的背景受体,步骤4所得样品3为污染源下游首个采样点位。绘制差分特征图谱,即用步骤4获得的受污染样品3减去样品1得到差分特征图谱。可以理解的是,样品
Figure SMS_31
的点位在样品
Figure SMS_32
的下游,样品3为受污染样品仅是一种举例,任意样品/>
Figure SMS_33
可能是受污染样品,
Figure SMS_34
,/>
Figure SMS_35
表示样品总数。污染源位于受污染样品/>
Figure SMS_36
点位与样品/>
Figure SMS_37
点位之间。
值得注意的是,差分后得到即为污染源特有的物质,即污染源特征谱(污染源中所有污染物)。保留时间越大,极性越弱,疏水性也强;质荷比越大,分子量越大。根据这些性质,可对污染物类型作出初步判断。此外,这些信息有时可以帮助在步骤7排除不适用的数据库进行检索,缩短分析时间。
步骤6:依据步骤4所得污染源位置区间和步骤5所得污染源特征图谱以及高分辨质谱数据集,利用统计算法定量计算源贡献。
在优选但非限制性的实施方式中,步骤6具体包括:
步骤6.1,依据识别出的污染源和受体的水力、地理位置关系,确定各样品源汇关系,以将背景样品之外的每个样品作为汇,确定每个汇的源,由每个汇及其源构成一组。
可以理解的是,某河流依次流经
Figure SMS_40
和/>
Figure SMS_44
两座污水处理厂出水口,则/>
Figure SMS_47
和/>
Figure SMS_41
为两个污染源,在/>
Figure SMS_45
上游的水体样品不受/>
Figure SMS_48
和/>
Figure SMS_49
的影响;在/>
Figure SMS_38
下游,/>
Figure SMS_42
上游的水体样品为/>
Figure SMS_46
和源头水的汇;在/>
Figure SMS_50
下游的水体样品为/>
Figure SMS_39
、/>
Figure SMS_43
和源头水的汇。
承接步骤5中的示例,在步骤4中经过空间分异规律,识别污染源位置信息为样品3所在点位上游,即样品2点位与样品3点位区间之内,在步骤5中得到样品3与样品1的差分特征图谱数据。
由此可以绘制如下表所示的源汇关系表,表中
Figure SMS_51
表示分组序号,除背景样品1之外的每个汇与其源为1组,SourceSink表示在组中是汇或者源,SampleID表示序号。可以理解的是,源汇作为类别变量输入,源记为“Source”,汇记为“Sink”;源汇关系也作为类别变量输入,汇和所有对该汇造成影响的源标记为同一个数字,源可重复输入。下表给出了该示例的源汇关系表。
表1 源汇关系表
Figure SMS_52
可以理解的是,在上表中,除去作为背景样品的样品1,以样品2、3、4、5为汇分4组,即
Figure SMS_53
。/>
Figure SMS_54
,即第1组中,样品2是汇,标记为Sink,上游的样品1是样品2的源,标记为Source。/>
Figure SMS_55
,即第2组中,样品3是汇,标记为Sink,上游的样品1是样品3的源,标记为Source,在步骤4已知样品3上游存在污染源,因此获得的样品3与样品1高分辨质谱信息差异也是样品3的源,标记为Source。/>
Figure SMS_56
同理。
步骤6.2,以向量
Figure SMS_64
表示单个汇样品,/>
Figure SMS_57
,/>
Figure SMS_69
表示其中第/>
Figure SMS_59
种物质的信号强度,/>
Figure SMS_71
表示步骤3所得高分辨质谱数据集中全部物质种类数量。以向量/>
Figure SMS_70
表示汇样品/>
Figure SMS_73
的已知源样品/>
Figure SMS_61
,/>
Figure SMS_68
,/>
Figure SMS_60
表示源样品/>
Figure SMS_65
中第/>
Figure SMS_63
种物质的信号强度,/>
Figure SMS_67
,/>
Figure SMS_58
表示汇样品有/>
Figure SMS_66
个已知源,此外汇样品/>
Figure SMS_62
还包括未知源,即第/>
Figure SMS_72
个源。以质谱数据针对每一组构建汇样品向量和其源样品向量。
Figure SMS_74
表示源样品/>
Figure SMS_75
对于汇样品/>
Figure SMS_76
的贡献度,显然,/>
Figure SMS_77
,对于每个汇样品,所有源样品的贡献度之和为1,包括已知的/>
Figure SMS_78
个源和未知的第/>
Figure SMS_79
个源。
在进一步优选但非限制性的实施方式中,以所有组的汇样品向量和其源样品向量,构建物质-信号强度矩阵,对物质-信号强度矩阵进行标准化处理,包括以下步骤:
步骤6.2.1,检查是否存在缺失值,如存在,用0代替缺失值;
步骤6.2.2,检查信号强度数据值,将所有数据除以一个缩放因子,使最大值低于100000;
步骤6.2.3,检查缩放后的信号强度值,通过四舍五入使所有数值整数化。
作为一个示例,下表给出了一部分物质-信号强度矩阵表格,与表1对应SampleID1-5相对应,包含了第1组和第2组的部分物质-信号,标号为1的列即样品2各个物质信号强度经过标准化的结果,标号为2的列为样品1的各个物质信号强度经过标准化的结果,样品1是样品2的源,这两列是第一组。相类似地,标号为3的列即样品3各个物质信号强度经过标准化的结果,标号为4的列为样品1的各个物质信号强度经过标准化的结果(与标号为2的列相同),标号为5的列为步骤5所得样品3与样品1差分后的各个物质信号强度经过标准化的结果,样品1和样品3与样品1差异部分是样品2的源,这三列是第二组。相类似,其他组均采用相同的处理方式。
表2 物质-信号强度表
Figure SMS_80
步骤6.3,针对每一组,使用汇样品
Figure SMS_84
的向量/>
Figure SMS_86
和其源样品/>
Figure SMS_90
的向量/>
Figure SMS_83
代入最大期望算法,求解汇样品/>
Figure SMS_87
的源样品/>
Figure SMS_88
对于汇样品/>
Figure SMS_91
的贡献度/>
Figure SMS_81
。可以理解的是,可以使用6.2标准化之后的向量更新汇样品/>
Figure SMS_85
的向量/>
Figure SMS_89
和其已知源样品/>
Figure SMS_92
的向量/>
Figure SMS_82
,用于步骤6.3输入最大期望法。
值得注意的是,使用最大期望算法时,首先随机为样品
Figure SMS_93
的贡献度/>
Figure SMS_94
赋值,例如但不限于,平均赋值,将贡献度/>
Figure SMS_95
,汇样品向量/>
Figure SMS_96
及其源向量代入最大期望算法,对贡献度/>
Figure SMS_97
进行迭代,直至收敛。
值得注意的是,可以使用任意软件工具实现最大期望算法,例如但不限于,R语言,MATLAB等。本发明的核心在于,充分利用非靶向分析得到的数千条物质信息,污染源指纹图谱信息,将其创造性地应用于污染源分析,不仅实现污染源定位和并且提出了贡献度计算方法。
步骤7:利用数据库鉴定污染物结构,并结合目标区域信息追溯污染源类型。
在商用质谱分析软件中进行分子式生成、同位素模式比较、加合物评估、碎片模式分配和比较以及数据库搜索。设定元素组成预测的允许质量偏差,最小和最大元素组成;使用Massbank、MassbankEU、全球天然分子网络(GNPS)ACToR、DrugBank、EAWAGBiocatalysis/Biodegradation Database、ECHA、enviPath、EPA DSSTox、EPA Toxcast、KEGG、Massbank、NIST、EFS HRAM和MzCloud等数据库鉴定物质。对于无质谱数据库信息的,使用结构预测软件预测物质结构。
为了使本发明更加清楚,以下实施例将进一步说明本发明。
实施例1:某河流沿线的污染源识别与溯源
(1)采集了该河流的源头水和自上游至下游依次分布的共5个样品,并通过滤膜过滤、固相萃取、洗脱、氮气吹扫蒸发和定容得到共5个环境样品。同时制备一个过程空白样品。
(2)利用超高效液相色谱-静电场轨道阱高分辨质谱联用仪完成5个环境样品和1个空白样品正负模式的数据采集。
(3)利用商用质谱软件对原始质谱数据进行数据预处理,得到高分辨质谱数据集。其中,正模式提取得到6195个峰,负模式提取得到2973个峰,部分高分辨数据集详见表1。
表3 高分辨数据集(部分)
Figure SMS_98
Figure SMS_99
Figure SMS_100
(4)对高分辨质谱数据集中的信号强度进行z-score标准化后进行k-均值聚类分析,聚类结果显示所有物质主要分为两种聚类模式,其中3452个峰属于模式一,5716个峰属于模式二。这两类分布模式详见图2和图3,图中浅灰色折线代表该模式中所有物质的标准化信号强度。深灰色折线代表该模式中所有物质的标准化信号强度的平均值。经检验样品3模式一中物质的信号强度显著高于样品2,判定样品2和样品3之间存在污染源点位。
(5)绘制出样品3的差分特征图谱如图4所示。
(6)依据以上结果确定源汇关系,样品1、2受到源头水的影响,样品3、4、5受到源头水和污染源的影响。样品3模式一中的物质-信号强度矩阵作为污染源谱。将确定的源汇关系和高分辨数据集中的物质-信号强度信息输入R语言中的期望最大化源跟踪方法并运行,得到上游源头水、污染源对受体的定量贡献(百分比),详见表2。每个sink有一个组,就是id。每个源重复输入。
表4 污染源贡献定量解析
Figure SMS_101
得到结论,样品1、2主要受源头水影响,其贡献达到82.1%和78.4%;样品3、4距污染源较近,主要受污染源影响,其贡献达到80.8%和38.6%;样品5距污染源较远,来自污染源的物质经迁移、降解,对其几乎无贡献。
(7)使用Massbank、MassbankEU、全球天然分子网络(GNPS)ACToR、DrugBank、EAWAGBiocatalysis/Biodegradation Database、ECHA、enviPath、EPA DSSTox、EPA Toxcast、KEGG、Massbank、NIST、EFS HRAM和MzCloud等数据库对样品3模式一中的物质进行鉴定。
鉴定结果显示,该模式中的物质主要包含:金刚烷胺(药物)、二甲双胍(药物)、尼古丁(烟草成分)、咖啡因(饮品成分)、避蚊胺(驱虫剂)、尿酸(人体代谢物)、聚乙二醇单月桂酸酯(表面活性剂)、聚乙二醇(表面活性剂)和聚丙二醇(表面活性剂)等生活污水常见污染物。因此判定该污染源是生活污水,该判定结果与该点位附近上游存在一座污水处理厂的情况一致。
本发明的有益效果在于,与现有技术相比,本发明使用高分辨质谱非靶向筛查技术全面准确掌握样品中污染物的信息,可以识别特征物质。由于水体的连通性,通过高分辨质谱非靶向分析峰空间变化特征,可精确识别污染物排放的潜在点位和污染源的特征图谱,进而进行定量源解析。
更进一步地,(1)本发明无需鉴定出具体物质,充分利用非靶向分析得到的数千条物质信息,污染源指纹图谱信息完整,可确保各类型污染源的全面、精确识别。也就是说,在未知污染源信息的情况下,准确识别污染源的位置和特征图谱。(2)本发明得到贡献具有实际物理含义,即污染物对环境水体的实际贡献。显著不同于某一特定污染物质的贡献,本发明计算的是污染源整体的贡献,定量评估其对水体的影响。最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于,包括以下步骤:
步骤1:采集目标区域多个点位水体样品,进行预处理,提取痕量有机污染物;采集目标区域多个点位水体样品具体为:在目标区域河流沿线多个位置采集水样,并且以源头水代表不受污染的背景样品;
步骤2:对步骤1所得多个样品进行超高效液相色谱-高分辨质谱非靶向数据采集;使用反相色谱柱分别在正负模式下进行一级全扫描-二级数据依赖型采集分析;
步骤3:对步骤2所得高分辨质谱非靶向分析的原始数据进行数据预处理,获得包含物质质荷比、保留时间、峰高、峰面积的高分辨质谱数据集;原始数据进行数据预处理包括:对原始质谱数据进行峰提取、峰对齐、峰组合以及峰剔除;
步骤4:对步骤3所得高分辨质谱数据集进行统计分析,以空间分异性识别污染源位置信息,获得质谱数据异常的受污染样品点位,判定污染源所在采样点位区间;对峰强度数据进行z-score标准化、[0,1]标准化或最大最小值标准化;通过聚类分析从数据集中提取典型的物质空间分异聚类模式,在所获得的聚类模式中,判定信号强度异常高的样品点位为污染源下游首个采样点位;
步骤5:基于步骤4所得受污染样品、背景样品和受污染样品的前一个样品高分辨质谱信息差异,获得污染源的特征图谱;以样品1为源头水,代表不受污染的背景受体,步骤4所得样品
Figure QLYQS_2
为污染源下游首个点位;若样品/>
Figure QLYQS_5
是源头下游的首个污染源,用步骤4获得的受污染样品/>
Figure QLYQS_7
高分辨质谱信息矩阵减去样品1高分辨质谱信息矩阵得到差分特征图谱,
Figure QLYQS_3
,/>
Figure QLYQS_6
表示样品总数;若样品/>
Figure QLYQS_9
不是源头下游的首个污染源,用步骤4获得的受污染样品/>
Figure QLYQS_10
高分辨质谱信息矩阵减去样品/>
Figure QLYQS_1
高分辨质谱信息矩阵得到差分特征图谱;样品/>
Figure QLYQS_4
的点位在样品/>
Figure QLYQS_8
的下游;差分后得到即为污染源特有的物质,即污染源特征谱;
步骤6:依据步骤4所得污染源位置区间和步骤5所得污染源特征图谱以及高分辨质谱数据集,定量计算源贡献;包括:
步骤6.1,依据识别出的污染源和受体的水力、地理位置关系,确定各样品源汇关系,将背景样品之外的每个样品作为汇,确定每个汇的源,由每个汇及其源构成一组;
步骤6.2,以质谱数据针对每一组构建汇样品向量
Figure QLYQS_28
和其源样品向量/>
Figure QLYQS_15
,/>
Figure QLYQS_24
,/>
Figure QLYQS_23
表示汇样品/>
Figure QLYQS_29
有/>
Figure QLYQS_27
个已知源,此外汇样品/>
Figure QLYQS_30
还包括未知源,即第/>
Figure QLYQS_17
个源;以向量/>
Figure QLYQS_21
表示单个汇样品,/>
Figure QLYQS_11
,/>
Figure QLYQS_26
表示其中第/>
Figure QLYQS_14
种物质的信号强度,/>
Figure QLYQS_25
表示步骤3所得高分辨质谱数据集中全部物质种类数量;以向量/>
Figure QLYQS_13
表示汇样品/>
Figure QLYQS_22
的已知源样品/>
Figure QLYQS_16
Figure QLYQS_19
,/>
Figure QLYQS_18
表示源样品/>
Figure QLYQS_20
中第/>
Figure QLYQS_12
种物质的信号强度;
步骤6.3,针对每一组,使用汇样品
Figure QLYQS_32
的向量/>
Figure QLYQS_34
和其已知源样品/>
Figure QLYQS_36
的向量/>
Figure QLYQS_33
代入最大期望算法,求解汇样品/>
Figure QLYQS_35
的源样品/>
Figure QLYQS_37
对于汇样品/>
Figure QLYQS_38
的贡献度/>
Figure QLYQS_31
步骤7:利用数据库鉴定污染物结构,并结合目标区域信息追溯污染源类型。
2.根据权利要求1所述的高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于:
步骤1中,使用棕色玻璃容器采集水样;
预处理包括:对水样进行滤膜过滤、固相萃取、洗脱、氮吹和定容。
3.根据权利要求1所述的高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于:
步骤2中,采用超高效液相色谱法结合静电场轨道阱高分辨质谱仪进行非靶向分析,采用电喷雾电离源。
4.根据权利要求3所述的高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于:
峰提取和峰对齐时,设置一级和二级质谱的质量允许偏差,各样品在质量允许偏差范围内的峰会被提取并合并为同一个峰;
峰组合时,依据质谱正负模式进行加和离子校正,
Figure QLYQS_39
,/>
Figure QLYQS_40
,/>
Figure QLYQS_41
不同加和形式的离子峰会被组合为同一个峰;
峰剔除时,设定最小提取阈值和空白扣除,信号强度低于最小提取阈值的峰和空白样品中存在的峰会被剔除。
5.根据权利要求4所述的高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于:
保留时间越大,极性越弱,疏水性越强;质荷比越大,分子量越大;对污染物类型作出初步判断,用于在步骤7排除不适用的数据库进行检索,缩短分析时间。
6.根据权利要求5所述的高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于:
步骤4中,信号强度异常高的点位判断方法为,在该点位某一聚类模式标准化信号强度的平均值大于其前一点位标准化信号强度的平均值的情况下,将该点位物质信号强度数据与其前一个点位物质信号强度数据做T检验,检验得到p值小于0.05,则判定该点位信号强度异常。
7.根据权利要求1所述的高分辨质谱非靶向分析水体污染源识别与溯源方法,其特征在于:
步骤6.2中,以所有组的汇样品向量和其源样品向量,构建物质-信号强度矩阵,对物质-信号强度矩阵进行标准化处理,包括以下步骤:
步骤6.2.1,检查是否存在缺失值,如存在,用0代替缺失值;
步骤6.2.2,检查信号强度数据值,将所有数据除以一个缩放因子,使最大值低于设定值;
步骤6.2.3,检查缩放后的信号强度值,通过四舍五入使所有数值整数化。
CN202310422603.XA 2023-04-20 2023-04-20 高分辨质谱非靶向分析水体污染源识别与溯源方法 Active CN116263444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310422603.XA CN116263444B (zh) 2023-04-20 2023-04-20 高分辨质谱非靶向分析水体污染源识别与溯源方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310422603.XA CN116263444B (zh) 2023-04-20 2023-04-20 高分辨质谱非靶向分析水体污染源识别与溯源方法

Publications (2)

Publication Number Publication Date
CN116263444A CN116263444A (zh) 2023-06-16
CN116263444B true CN116263444B (zh) 2023-07-07

Family

ID=86723822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310422603.XA Active CN116263444B (zh) 2023-04-20 2023-04-20 高分辨质谱非靶向分析水体污染源识别与溯源方法

Country Status (1)

Country Link
CN (1) CN116263444B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272070B (zh) * 2023-11-21 2024-02-02 北京大学 一种同时利用有机和无机污染物的定量源解析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024463A1 (zh) * 2021-12-30 2023-03-02 南京大学 一种水体有机污染智能化溯源方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024463A1 (zh) * 2021-12-30 2023-03-02 南京大学 一种水体有机污染智能化溯源方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Indicator compounds for assessment of wastewater effluent contributions to flow and water quality;Eric R.V. Dickenson 等;Water Research;第45卷(第3期);第1199-1212页 *
Untargeted characterisation of dissolved organic matter contributions to rivers from anthropogenic point sources using direct-infusion and high-performance liquid chromatography/Orbitrap mass spectrometry;Jonathan A. Pemberton 等;Rapid Communications in Mass Spectrometry;第34卷(第S4期);第e8618页 *
北京城区绿地土壤重金属污染评价与空间分析;杨少斌 等;生态环境学报(第5期);第933-941页 *
水环境中污染物同位素溯源的研究进展;马文娟 等;环境工程技术学报;第10卷(第02期);第242-250页 *
钢铁工业区下风向土壤中多环芳烃污染特征及源解析;齐晓宝 等;环境科学研究(第5期);第927-934页 *

Also Published As

Publication number Publication date
CN116263444A (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
US11965871B2 (en) Method and system for intelligent source tracing of organic pollution of water body
CN116148400B (zh) 基于污染源和污染受体高分辨质谱数据的定量源解析方法
Sleighter et al. Fourier transform mass spectrometry for the molecular level characterization of natural organic matter: Instrument capabilities, applications, and limitations
CN116263444B (zh) 高分辨质谱非靶向分析水体污染源识别与溯源方法
CN111562327B (zh) 一种基于分子网络的废水中致毒有机污染物非目标筛查分析的方法
WO2022262132A1 (zh) 一种样品未知成分的液质联用非靶向分析方法
Zielinski et al. A new processing scheme for ultra-high resolution direct infusion mass spectrometry data
Vlachou et al. Development of a versatile source apportionment analysis based on positive matrix factorization: a case study of the seasonal variation of organic aerosol sources in Estonia
US11703495B2 (en) Method for identifying and analyzing dissolved organic nitrogen of different sources in wastewater and application of the method
CN115389690A (zh) 环境中苯并三唑紫外线吸收剂类污染物的全面识别方法
CN116930393B (zh) 一种同时包括母体和转化产物的水体抗生素生态风险评价方法
CN117747106A (zh) 一种高血压人群脑卒中风险预测模型的构建方法及系统
CN114200048B (zh) Lc-ms下机数据的处理方法及处理装置
CN115950864A (zh) 一种基于三维荧光光谱法的水污染溯源检测方法
CN117272070B (zh) 一种同时利用有机和无机污染物的定量源解析方法
CN114235984A (zh) 筛查不同环境样品中具有显著性差异的化合物的方法
EP4078600A1 (en) Method and system for the identification of compounds in complex biological or environmental samples
CN117637061A (zh) 基于机器学习对全氟及多氟化合物进行快速筛查的方法
Kashyap et al. QA/QC aspects of GC-MS analytical instrument for environmental analysis
CN117169387A (zh) 水中污染物的非靶向分析方法
CN116026960B (zh) 城市水体中胺基苯砜类污染物的筛选和鉴定方法及系统
CN117789848B (zh) 一种应用特征碎片及特征碎片组辅助非靶向筛查的方法
CN118032991A (zh) 一种地表水特征污染物溯源的方法、系统
CN117630264B (zh) 色谱和质谱联用的分析方法、装置、存储介质及电子设备
CN117110466A (zh) 一种高灵敏、高通量的化学物质注释方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant