CN117612629A

CN117612629A - 建立环境风险芳香族化合物清单的方法

Info

Publication number: CN117612629A
Application number: CN202311424024.5A
Authority: CN
Inventors: 阮挺; 李婷玉; 江桂斌
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-27

Abstract

本发明提供了一种建立环境风险芳香族化合物清单的方法，涉及环境分析化学技术领域。所述建立环境风险芳香族化合物清单的方法包括：基于待分析环境样品的质谱实测数据与数据库质谱数据，从所述待分析环境样品中筛查目标化合物，其中所述目标化合物为芳香族化合物；对所述目标化合物依据毒性优先指数进行风险优先级排序，从所述目标化合物筛选出排序结果满足预设条件的环境风险芳香族化合物清单，其中所述毒性优先指数为环境丰度、环境行为、毒性和分析可利用性的加和。通过建立基于毒性优先指数的评价方法，定量评估了芳香族化合物的环境风险，该方法具有可操作性、高效性、低成本以及全面性等优势。

Description

建立环境风险芳香族化合物清单的方法

技术领域

本发明涉及环境分析化学技术领域，更具体地，涉及一种建立环境风险芳香族化合物清单的方法。

背景技术

多环芳烃是大气细颗粒物中重要的毒性有机组分，具有致癌性、致畸性和致突变性，在环境中广泛分布，受到了大量的研究关注。已有研究提出，除了16种优控的多环芳烃，环境中可能还潜藏着大量结构类似的化合物，对环境和人体具有潜在的健康危害，例如含氧多环芳烃和杂环多环芳烃。它们具有更高的极性和结构多样性，比多环芳烃更具水溶性和流动性，在环境中广泛分布；不仅如此，许多多环芳烃的衍生物与其前体多环芳烃结构类似，因此具有相似的环境行为和毒性，部分结构甚至毒性更高。这些与多环芳烃结构类似且只含碳、氢、氧、氮、硫元素的化合物，可统称为芳香族化合物，它们对人类和环境健康的影响尤其值得关注。

但是，目前许多新污染物的毒性数据存在大幅空白，并且实际的污染管控政策中需要优先关注有限数量的、具有高环境风险的化合物，因此急需建立一个全面并且有效的芳香族化合物风险评价方法。

发明内容

有鉴于此，本发明提供了一种建立环境风险芳香族化合物清单的方法，通过有效量化多重因素，全面、可靠地对芳香族化合物的环境风险进行排序，进而建立高环境风险的芳香族化合物清单，研究结果可以为相关的污染防控政策提供依据，具有十分重要的现实意义。

为实现上述目的，本发明的技术方案如下：

本发明提供了一种建立环境风险芳香族化合物清单的方法，包括：

基于待分析环境样品的质谱实测数据与数据库质谱数据，从所述待分析环境样品中筛查目标化合物，其中所述目标化合物为芳香族化合物；

对所述目标化合物依据毒性优先指数进行风险优先级排序，从所述目标化合物筛选出排序结果满足预设条件的环境风险芳香族化合物清单，其中所述毒性优先指数为环境丰度、环境行为、毒性和分析可利用性的加和。

根据本发明的实施例，本发明克服了现有靶向识别技术的局限性，丰富了对待分析环境样品中芳香族化合物的认知，同时给出需要重点关注的目标化合物，且整体流程易于操作和推广，也可为发现其它缺乏分析技术及毒理数据的新污染物提供技术支持；同时，本发明建立了基于毒性优先指数的评价方法，综合考虑目标化合物的环境丰度、环境行为、毒性以及分析可利用性，通过合理可靠的评价体系来锁定高风险化合物，定量评估了芳香族化合物的环境风险，该方法具有可操作性、高效性、低成本以及全面性等优势。

附图说明

图1是本发明实施例中建立环境风险芳香族化合物清单的方法流程框图；

图2是本发明实施例1中识别的350种芳香族化合物的结构特征以及分类；

图3是本发明实施例1中利用预测信息识别醋菲烯的质谱图，其中(a)为样品中醋菲烯的色谱峰，(b)为模型预测醋菲烯的保留时间和可接受范围，(c)为样品中醋菲烯的质谱图及预测质谱图比对；

图4是本发明实施例1中芳香族化合物的致癌风险；

图5是本发明实施例1环境风险芳香族化合物清单中的39种优选芳香族化合物；

图6是本发明实施例1环境风险芳香族化合物清单中39种优选芳香族化合物的主要排放来源及其相对贡献。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

经过调研发现，环境中的芳香族化合物种类众多，其丰度和毒性差异巨大。在污染防控政策中，难以实现对所有化合物的全面控制。实际的污染物管控过程中，往往存在质谱库覆盖面有限、大量污染物毒性数据空白、成分分析和毒性研究的流程冗杂、研究成本高、工作效率低等问题，尤其缺乏一个合理可靠的评价体系来锁定高风险化合物，给高环境风险污染物的管控带来了困难，因此急需建立一个全面并且有效量化多重因素的评价方法。

根据本发明的实施例，针对大气细颗粒物中芳香族化合物，提供了一种建立环境风险芳香族化合物清单的方法，实现了对复杂环境样品中芳香族化合物的快速识别优选，挖掘当下未被关注的毒性芳香族化合物，建立高环境风险的芳香族化合物清单，研究结果将为相关的污染防控政策提供建议，具有十分重要的现实意义。

具体而言，根据本发明的实施例，提供了一种建立环境风险芳香族化合物清单的方法，包括以下步骤M和步骤Q，具体见图1。

步骤M：基于待分析环境样品的质谱实测数据与数据库质谱数据，从待分析环境样品中筛查目标化合物，其中目标化合物为芳香族化合物。

步骤Q：对目标化合物依据毒性优先指数进行风险优先级排序，从目标化合物筛选出排序结果满足预设条件的环境风险芳香族化合物清单，其中毒性优先指数为环境丰度、环境行为、毒性和分析可利用性的加和。

根据本发明的实施例，环境中的芳香族化合物种类众多，其丰度和毒性差异巨大。在污染防控政策中，难以实现对所有化合物的全面控制，建立一个高关注度、高风险的防控清单十分重要。因此，本方法流程基于计算芳香族化合物的毒性优先指数，综合考量多因素，包括环境丰度、环境行为、毒性以及分析可利用性，对目标进行优先级排序，最终优选出需要高度关注的风险化合物。

根据本发明的实施例，在上述步骤M的操作之前，本发明的方法还包括步骤A～C。

在步骤A中，对大气细颗粒物样品有机污染物进行预处理，得待分析环境样品。

根据本发明的实施例，预处理包括但不限于对大气细颗粒物样品有机污染物进行提取及净化。

根据本发明的实施例，预处理为将大气细颗粒物样品使用正己烷、二氯甲烷和丙酮组成的混合溶液进行超声萃取，然后重溶于正己烷中，得提取液；然后将提取液使用硅胶柱进行洗脱，首先使用正己烷洗脱，然后使用二氯甲烷和丙酮的混合溶液洗脱，再将收集的洗脱液重溶于正己烷中。其具体子步骤包括A1和A2。

在子步骤A1中，大气颗粒物样品预先将采集膜剪为碎片，准备好的样品使用超声萃取结合硅胶柱净化的前处理方法。使用正己烷：二氯甲烷：丙酮(体积比为2：2：1)的混合溶剂超声萃取样品提取有机物，每次30分钟，共三次。将合并后的萃取液过0.45μm的滤纸去除采样膜的残渣，取过滤液氮吹浓缩，使用正己烷重溶并浓缩至约200μL。

在子步骤A2中，使用5mL正己烷预洗中性硅胶小柱后上样，流速控制为2～3mL·min^-1。使用2mL正己烷洗脱，弃置洗脱液，再使用5mL正己烷和5mL二氯甲烷：丙酮(体积比为3：1)先后洗脱两轮，收集两次洗脱液并混合，将混合液氮吹浓缩后使用正己烷重溶。

根据本发明的实施例，通过大气细颗粒物样品有机污染物的预处理，可有效提取不同极性的有机污染物，并且在后续的待分析环境样品检测过程中，可降低基质干扰、延长仪器使用寿命、提高检测的灵敏度。

在步骤B中，将待分析环境样品进行气相色谱-高分辨质谱检测，以获取待分析环境样品的质谱实测数据，实测数据包括质谱图、保留指数和分子离子精确质量数。

根据本发明的实施例，待分析环境样品使用气相色谱-轨道阱质谱(GC-OrbitrapMS，Thermo Fisher Scientific Inc.，Waltham，MA)进行数据采集。

根据本发明的实施例，色谱柱选用TG-5MS气相色谱柱(Thermo Scientific，长30m×内径0.25mm，涂层厚度0.25μm)。使用高纯氦气作为载气，流速为1.2mL min^-1。使用程序升温对目标物进行分离：初始柱温箱温度为60℃，保留1min，然后以20℃min^-1的升温速率升至150℃，保留1min，然后以5℃min^-1的升温速率升至240℃，保留1min，最后以2.5℃min^-1的升温速率升至300℃，保留5min。离子源和传输线的温度分别为260和280℃。

根据本发明的实施例，离子源使用电子轰击源(EI)，电离电压为70eV。使用全扫描模式进行数据采集，采集范围为m/z 50～600，分辨率为60,000(m/z 200)，自动增益控制(AGC)设定为1×10⁶。通过定时校正仪器，以及在样品采集过程中使用lock mass(m/z73.0468，133.0136，207.0324，225.0429，281.0512，299.0617，355.0699)进行内标校正，将质量偏差控制在小于5ppm的范围。

在步骤C中，获取预测化合物质谱图数据库，其中预测化合物质谱图数据库中的数据包括化合物的分子式、分子离子精确质量数、质谱图和保留指数。

根据本发明的实施例，预测化合物谱图数据库的建立方法具体包括子步骤C1～C4：

在子步骤C1中，使用文献搜索或文本挖掘中的一种或多种手段查找环境中高丰度且具有潜在毒性的芳香族化合物，建立初级清单；

在子步骤C2中，利用谷本系数算法挖掘化学品数据库中与初级清单中的芳香族化合物具有类似结构的目标物，建立疑似目标物清单，疑似目标物清单中的化合物包括初级清单中的化合物和与初级清单中的芳香族化合物具有类似结构的目标物；

在子步骤C3中，使用机器学习预测工具预测疑似目标物清单中化合物的质谱图和保留指数；

在子步骤C4中，根据预测的质谱图和保留指数构建预测化合物质谱图数据库，预测化合物质谱图数据库中的数据包括化合物的分子式、分子离子精确质量数、质谱图和保留指数。

根据本发明的实施例，本发明通过利用机器学习预测模型，有效克服了质谱库覆盖面有限的缺陷，简化了传统成分分析的冗杂流程，降低了研究成本，极大提高了工作效率。

根据本发明的实施例，机器学习预测工具具体包括基于Python构建的神经网络模型化合物EI质谱图预测工具(NEIMS)和基于Java构建的堆叠模型保留指数预测工具。

根据本发明的实施例，具体而言，构建预测化合物谱图数据库的步骤具体包括子步骤C10～C40：

在子步骤C10中，首先根据文献搜索和文本挖掘查找环境中高丰度且具有潜在毒性的芳香族化合物，归纳总结初级清单。

在子步骤C20中，基于公开的化学品数据库CompTox Chemicals Dashboard，利用谷本系数算法挖掘与初级清单中的芳香族化合物具有类似结构的目标物，建立包含化学品名称、CAS号、CompTox Chemicals Dashboard SID号、分子式、分子质量、分子离子精确质量数、SMILES的“MS-ready”化学品数据集，转化为SDF文件。化学品数据集建立规则包括：(a)与初级清单中的芳香族化合物的谷本系数≥0.85；(b)去除含金属、半金属元素的物质；(c)去除聚合物；(d)元素组成仅包括C、H、O、N、S。最终得到包含3724种芳香族化合物的疑似目标物清单，将整合了上述信息的SDF文件作为输入文件，利用基于Python的NEIMS化合物EI质谱图预测工具，预测其质谱图，输出msp文件。

在子步骤C30中，将3724种化合物的SMILES整合到一个txt文件中，输入基于Java、多模型堆叠的化合物保留指数预测工具，预测其保留指数，输出为csv文件。

在子步骤C40中，利用python代码将质谱图和保留指数一一对应整合，输出msp文件，导入NIST MS Search软件，建立疑似目标物的预测化合物谱图数据库。

根据本发明的实施例，在步骤M中，数据库包括通用标准质谱图数据库和预测化合物质谱图数据库。

根据本发明的实施例，从待分析环境样品中筛查目标化合物的步骤包括：将待分析环境样品的质谱实测数据与数据库质谱数据进行特征匹配、谱库检索、保留指数筛选和标准品比对，非靶标分析确认待分析环境样品中存在的目标化合物。

根据本发明的实施例，使用Compound Discoverer(CD)软件对混合样品的全扫描数据进行非靶向筛查。向CD软件中导入预测化合物质谱图数据库，以及MoNA GC质谱图数据库和NIST质谱图数据库。筛查流程包含解卷积、峰处理、特征匹配、谱库检索、保留指数筛选、标准品比对。

根据本发明的实施例，具体而言，从待分析环境样品中筛查目标化合物的步骤具体包括子步骤M1～M6：

在子步骤M1中，峰处理步骤包括保留时间对齐、同位素合并、样品间化合物合并。

在子步骤M2中，从多物质混合的质谱图里，分离出单独物质的质谱图。

在子步骤M3中，特征匹配即与预测化合物谱图数据库中的分子离子精确质量数进行匹配，以得到候选化合物，质量偏差设为5ppm。

在子步骤M4中，谱库检索包括将样品实测的质谱图与质谱图数据库中的参考质谱图计算相似指数，参考质谱图数据库包括NIST20、MoNA GC和自建预测质谱图数据库，质谱图数据库参考质谱图和预测质谱图相似度指数的阈值分别设定为700和500。

在子步骤M5中，候选化合物基于CD软件计算的总分进行高低排序，根据保留指数偏差进行检验，对于质谱图数据库数据和预测数据，其保留指数偏差的阈值分别设定为50和100。候选化合物进而通过高分辨碎片匹配进行结构鉴定，确认候选化合物具有良好的峰形(呈正态分布的单峰)、两个及以上碎片离子匹配。

在步骤M6中，尽可能获取标准品，若候选化合物与标准品的保留时间偏差小于0.1min，则确认为该化合物，进而使用全扫描模式对单个样品进行内标法定量。定量结果可以用于分析所识别化合物的环境赋存特征，如组成信息、时间趋势等。

根据本发明的实施例，本发明克服了现有靶向识别技术的局限性，丰富对环境样品中芳香族化合物的认知，同时给出需要重点关注的目标化合物，且整体流程易于操作和推广，也可为发现其它缺乏分析技术及毒理数据的新污染物提供技术支持。

根据本发明的实施例，在步骤Q中，毒性优先指数用于表征目标化合物的环境丰度、环境行为、毒性以及分析可利用性。

根据本发明的实施例，因为绝大部分芳香族化合物的非致癌风险都可忽略不计，因此在该优先级排序的方法中只考量其致癌风险，毒性指标故选择目标物的目标物i的苯并[a]芘致癌毒性当量因子(benz[a]pyrene toxic equivalent factors，TEF)来表征。

根据本发明的实施例，毒性是根据目标化合物的苯并[a]芘致癌毒性当量因子确定的；

目标化合物i毒性的计算公式为：

w_T为毒性的权重值，TEF_i为目标化合物i的苯并[a]芘致癌毒性当量因子，TEF_min和TEF_max分别为目标化合物中苯并[a]芘致癌毒性当量因子的最小值和最大值，其中目标化合物i为筛查出的目标化合物中的任意一种。

根据本发明的实施例，目标化合物的苯并[a]芘致癌毒性当量因子通过查阅文献或参考物质预测获得；

参考物质预测中，目标化合物i的苯并[a]芘致癌毒性当量因子的确定方式为：

CPV_i为目标化合物i的致癌潜力值，TEF_j为参考物质j的苯并[a]芘致癌毒性当量因子，CPV_j为参考物质j的致癌潜力值，CPV_i和CPV_j通过机器学习模型预测得到。

根据本发明的实施例，通过利用机器学习预测模型，利用公式(1)和公式(2)的方法计算目标化合物的毒性，填补了大量污染物毒性数据的空白，大大简化了传统毒性研究的冗杂流程，降低了研究成本，极大提高了工作效率。

根据本发明的实施例，参考物质为与目标化合物i结构相似的物质，结构相似包括同分异构体、苯环数相同的化合物或者同系物；

优选地，参考物质为与目标化合物i的谷本系数≥0.85的物质。

根据本发明的实施例，环境丰度是根据目标化合物的浓度确定的；

目标化合物i环境丰度的计算公式为：

w_A为环境丰度的权重值，C_i为预设时间段内目标化合物i的平均浓度，C_min和C_max分别为预设时间段内目标化合物中平均浓度的最低值和最高值，其中，目标化合物的浓度通过定量检测获得，目标化合物i为筛查出的目标化合物中的任意一种。

根据本发明的实施例，通过公式(3)计算目标化合物i的环境丰度，通过进行长时间的监测并计算平均浓度，有效表征目标化合物的环境赋存情况，锁定高环境丰度的化合物。

根据本发明的实施例，环境行为是根据目标化合物的整体持久性、生物累积性以及迁移效率确定的；

目标化合物i环境行为的计算公式为

w_p为环境行为的权重值，P_i为目标化合物i的整合分数，P_min和P_max为目标化合物中整合分数的最小值和最大值，Pov_i为目标化合物i的整体持久性，BAF_i为目标化合物i的生物累积系数，TE_i为目标化合物i的迁移效率，μ_Pov为目标化合物中整体持久性的平均数，σ_Pov为目标化合物中整体持久性的标准差，μ_BAF为目标化合物中生物累积系数的平均数，σ_BAF为目标化合物中生物累积系数的标准差，μ_TE为目标化合物中迁移效率的平均数，σ_TE为目标化合物中迁移效率的标准差，其中Pov_i和TE_i由OECD Pov-LRTP Screening Tool计算得到，BAF_i由EPI Suite计算得到，目标化合物i为筛查出的目标化合物中的任意一种。

根据本发明的实施例，整合分数P_i为目标化合物i的持久性-生物累积性-长距离迁移潜力分数(persistence，bioaccumulation，long-range transport potential，P-B-LRTP)，用于表征芳香族化合物的环境行为。

根据本发明的实施例，本发明通过公式(4)和公式(5)计算目标化合物i的环境行为，综合考虑目标化合物i的持久性、生物累积性和长距离迁移潜力，量化计算的整合分数，有效表征目标化合物i在环境中的迁移、转化和累积特性。

根据本发明的实施例，分析可利用性是根据目标化合物的特定峰与数据库参考质谱图的相似性以及目标化合物在所有样本中的检测频率确定的；

目标化合物i的分析可利用性的计算公式为：

w_D为分析可利用性的权重值，D_i为目标化合物i的检测分数，D_min和D_man分别为目标化合物中检测分数的最小值和最大值，S_i为目标化合物i中特定峰与质谱库参考质谱图的相似性指数，S_min和S_max分别为目标化合物中特定峰与质谱库参考质谱图相似性指数的最小值和最大值，DF_i为目标化合物i在待分析混合物中的检测频率，DF_min和DF_max分别为目标化合物在待分析混合物中检测频率的最小值和最大值，其中目标化合物i为筛查出的目标化合物中的任意一种。

根据本发明的实施例，w_s和w_d均设为0.5。

根据本发明的实施例，检测分数D整合了目标化合物的检出率和分析分数。化合物的检出率可作为环境污染物暴露的一个重要参考指标，而分析分数表征了当前的分析技术对目标物的分析能力，例如是否有商业化的参考化学品及质谱库中的参考质谱图。

根据本发明的实施例，本发明通过公式(6)和公式(7)计算目标化合物i检测数据的分析可利用性，综合考虑目标化合物i的检出率和检测分数，表征了目标化合物的环境暴露可能性和当前分析技术对目标化合物的分析能力。

根据本发明的实施例，筛选出毒性优先指数大于0.7的芳香族化合物作为高环境风险芳香族化合物清单中的化合物。

根据本发明的实施例，目标化合物i的毒性优先指数的计算公式为：

相关参数的含义参照上述描述，其中各个指数的权重值，均设定为0.25。

根据本发明的实施例，基于毒性优先指数的评价方法，综合考虑目标化合物的环境丰度、环境行为、毒性以及分析可利用性，通过合理可靠的评价体系来锁定高风险化合物，定量评估了芳香族化合物的环境风险，该方法具有可操作性、高效性、低成本以及全面性。

根据本发明的实施例，建立环境风险芳香族化合物清单的方法还包括根据苯并[a]芘致癌毒性当量因子、浓度和苯并[a]芘单位风险系数确定环境风险芳香族化合物清单中化合物的终生累积致癌风险；

化合物x的终生累积致癌风险的计算公式为：

C_x为预设时间段内化合物x的平均浓度，TEF_x为化合物x的苯并[a]芘致癌毒性当量因子，UR_BaP为苯并[a]芘单位风险系数，表示在70年的生命周期中，因吸入1ng m^-3的苯并[a]芘毒性当量而面临癌症风险的人数，表示环境风险芳香族化合物清单中化合物的平均浓度与苯并[a]芘致癌毒性当量因子乘积的和，其中化合物x为环境风险芳香族化合物清单中的任意一种。

为了考虑健康风险评估过程中输入参数的不确定性，假设C_i服从对数正态分布，进行10,000次蒙特卡洛模拟，在置信区间内随机取值进行计算。非致癌和致癌风险取所有蒙特卡洛模拟结果的中位值、上下5％分位数。

根据本发明的实施例，建立环境风险芳香族化合物清单的方法还包括：利用正定因子分解模型对环境风险芳香族化合物清单中的化合物进行来源解析，根据多个污染源的化合物组成图谱，确定目标化合物的主要排放来源。

根据本发明的实施例，对环境风险芳香族化合物清单中的化合物进行了来源解析，总结归纳其主要的排放来源，并且结合健康风险评估，计算了各排放来源对整体健康风险的相对贡献。来源解析依靠美国环保署正定因子分解模型(U.S.EPAPositive MatrixFactorization，U.S.EPAPMF)，该模型被广泛使用于各类环境污染物的来源解析，是一种有效的数据分析方法，具有不需要测定源成分谱就能获得定量结果的优点。PMF模型是一种多变量因子分析工具，它将环境样本数据矩阵分解为两个矩阵：污染源贡献矩阵(G)和污染源成分谱矩阵(F)：

其中x_ij为样品浓度矩阵X，即第i个样品中第j个污染物的浓度，当浓度值低于方法检出限(method detection limit，MDL)时，数据替换为MDL/2，p为污染源数，g_ik是第k个污染源对第i个样品的贡献，f_kj是第k个污染源中第j个物种的浓度，e_ij代表残差。

模型对G和F矩阵进行非负约束(g_jk≥0和f_kj≥0)，当残差与不确定度比值的平方的加权值Q达到最小值，可以认为此次模型因子分解达到最优结果。PMF算法通过不断的最小化Q从而确定矩阵G和F，Q值通过以下公式计算：

其中e_ij的计算公式为：

其中u_ij是样品的不确定度，计算公式如下：

其中MDL是方法检出限，C为常数，取值为0.1(x_ij＞3MDL)或0.2(x_ij＜3MDL)。

根据本发明的实施例，通过串联来源解析，有效锁定环境风险芳香族化合物清单中化合物的排放来源，为污染防控政策提供了可靠的参考。

根据本发明的实施例，本发明提供了一种建立环境风险芳香族化合物清单的方法，其步骤为：大气细颗粒物样品芳香族化合物提取，气相色谱-高分辨质谱仪器测定，建立疑似芳香族化合物清单并利用机器学习模型建立预测质谱库，非靶向筛查和定量，化合物毒性预测及健康风险评价，计算毒性优先指数优选芳香族化合物，来源解析。本发明利用优化的超声萃取方法对大气细颗粒物样品进行前处理以保留结构性质多样的芳香族化合物，利用机器学习模型对无可获取质谱信息的化合物建立预测质谱库以扩大筛查范围，并且利用机器学习模型预测毒性以全面了解芳香族化合物的健康风险，最后基于整合了多个参数的毒性优先指数量化化合物的环境风险并筛选出需优先关注的目标化合物，进一步对目标化合物进行来源解析。本方法具有可操作性、高效性、低成本以及全面性，实现了对复杂环境样品中芳香族化合物的快速识别优选，具有十分重要的现实意义。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明做进一步详细说明。

实施例1

本实施例提供了一种建立环境风险芳香族化合物清单的方法流程，其具体步骤为：

(1)样品的提取：于2019年1月至2020年1月每六天采集一份大气细颗粒物样品，共计64份，采样使用直径为9cm的石英膜。使用陶瓷剪刀将石英膜剪为边长约5mm的方形碎片。使用10mL正己烷：二氯甲烷：丙酮(体积比为2：2：1)提取有机物，超声萃取三次，每次30min。将合并后的萃取液过0.45μm的滤纸去除采样膜的残渣，取过滤液氮吹浓缩，使用正己烷重溶并浓缩至约200μL。使用5mL正己烷预洗中性硅胶小柱后上样，流速控制为2～3mL·min^-1。使用2mL正己烷洗脱，弃置洗脱液，再使用5mL正己烷和5mL二氯甲烷：丙酮(体积比为3∶1)先后洗脱两轮，收集两次洗脱液并混合，将混合液氮吹浓缩后使用正己烷重溶。在定性筛查中，每个样品取1/16石英膜，制成混合样品后进行前处理；在定量分析中，每个样品剪取1/4分别进行前处理。

(2)气相色谱-高分辨质谱(GC-HRMS)测定：仪器参数如下表。

/>

(3)非靶向筛查和定量：整合多个质谱图数据库，包括NIST 2020Mass SpectralLibrary(NIST 20，350，643张质谱图)，Massbank of North America for GC(MoNA GC，18，902张质谱图)，以及自建的预测质谱图数据库(3724张质谱图)，使用CD v.3.3按照下表流程和参数对混合样品的全扫描数据进行非靶标筛查。

/>

经多级筛查和人工检查后，共识别出350种芳香族化合物。其中125种化合物经标准品比对达到置信等级为1的结构确认，131种与现有质谱图数据库信息一致，94种与预测信息一致。根据特征官能团，可将上述350种芳香族分为9类：传统多环芳烃、新型多环芳烃、烷基化多环芳烃、苯基化多环芳烃、氧化多环芳烃、氮化多环芳烃、氧杂环芳香烃、氮杂环芳香烃以及硫杂环芳香烃，详见图2。传统多环芳烃，即由美国环保署于1976年提出的16种需要优先控制的多环芳烃，包括：萘、苊、苊烯、芴、菲、蒽、荧蒽、芘、苯并[a]蒽、苯并[b]荧蒽、苯并[k]荧蒽、苯并[a]芘、茚并(1，2，3-cd)芘、二苯并[a，h]蒽和苯并[ghi]苝。除了上述16种优控多环芳烃，其它被检出的无支链的多环芳烃定义为新型多环芳烃。利用机器学习模型预测的质谱图和保留指数将化合物的识别范围拓宽了将近四分之一，这些预测的信息能有效填补现有质谱库信息不足导致的认知缺陷，以醋菲烯(CAS#：201-06-9)为例，对识别过程进行说明。在保留时间19.5min处提取到m/z＝202.0774±5ppm([M-e]⁺)的色谱峰，在质控样品中的响应均很高，经质谱库检索后得到多个匹配结果，并且均满足过滤条件，其中前五个匹配结果来自现有质谱库对应的三种化合物。经标准品比对后发现，该峰的保留时间与上述三种标准品的出峰时间偏差超过1min，因此认为是错误的匹配结果。然而预测质谱库提供了更多的参考信息，其中得分最高的醋菲烯与样品中的实测谱图匹配度良好，相似度指数为707，多个碎片匹配，质量偏差0.00～1.23ppm，其高分辨指数达到97.9，总分为93.4，保留指数偏差为20，故暂定为醋菲烯，详见图3。此外，对125种经标准品确认的化合物进行定量分析，无标准品的化合物利用参考标准品进行半定量分析。半定量的参考标准品选择与目标化合物具有相似的结构(同分异构体或者谷本系数≥0.85)或者保留时间相差不超过1min的化合物。

(4)非致癌与致癌健康风险评估：基于多个数据库、参考文献及机器学习预测模型获取的毒性数据和仪器测定得到的浓度数据，对各芳香族化合物进行非致癌和致癌风险评价，并计算各化合物对累积ILCR的贡献比例。计算结果表明芳香族化合物的非致癌风险普遍较低，但它们的致癌风险较高，其中53种的ILCR值超过了可接受阈值(10^-6)，15种的ILCR超过了不可接受阈值(10^-4)，详见图4。16种优控多环芳烃对累积非致癌和致癌风险的相对贡献不高，尤其是致癌风险，其相对贡献仅为8％，新型和烷基化多环芳烃是主要的健康风险组分，其对累积ILCR值的相对贡献分别为60％和30％。

(5)建立毒性优先指数优选高环境风险化合物：使用计算毒性优先指数的方法对芳香族化合物进行相对排序，量化多维参数，包括环境丰度、环境行为、毒性和分析可利用性，对实现更加全面、可靠的污染管控政策提供依据。计算350种芳香族化合物的毒性优先指数，排序结果表明约10％的化合物的毒性优先指数＞0.7，以此作为优控化合物的毒性优先指数阈值，优选出31种芳香族化合物作为关注组分，结合16种优控多环芳烃，最终整合出一个包含39种芳香族化合物的优控清单，详见图5。该清单有23种芳香族化合物未被常规检测，这些组分主要包括新型和烷基化多环芳烃。该清单具有代表性、可靠性和全面性，相对16种多环芳烃，这39种芳香族化合物尽管只代表了总浓度的27％，但对累积致癌风险的贡献高达89％，表明该优选方法体系能筛选出具有更高环境风险的化合物作为污染防控中的重点目标。此外，对这39种优选芳香族化合物进行来源解析，结果表明其主要来源是煤炭燃烧、汽车排放、生物质燃烧和石油排放，其中煤炭燃烧是最主要的排放来源，对总浓度的贡献高达50％，也是主要的风险来源，其相对贡献为57％，详见图6。上述结果强调了优选芳香族化合物的环境风险及重要性，具有十分重要的现实意义。

上述实施例的结果表明，本发明提供的建立环境风险芳香族化合物清单的方法可以应用在多类实际环境样品中，也适用于结构多样的、缺乏信息的新污染物的筛查和优选，展现了精准高通量的识别能力和简便有效的评估能力，因此本发明的方法流程具有实际适用性，应用前景广。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的说明，应理解的是以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围内。

Claims

1.一种建立环境风险芳香族化合物清单的方法，包括：

2.根据权利要求1所述的方法，其中，所述毒性是根据所述目标化合物的苯并[a]芘致癌毒性当量因子确定的；

目标化合物i毒性的计算公式为：

w_T为所述毒性的权重值，TEF_i为目标化合物i的苯并[a]芘致癌毒性当量因子，TEF_min和TEF_max分别为所述目标化合物中苯并[a]芘致癌毒性当量因子的最小值和最大值，其中目标化合物i为筛查出的目标化合物中的任意一种。

3.根据权利要求2所述的方法，其中，所述目标化合物的苯并[a]芘致癌毒性当量因子通过查阅文献或参考物质预测获得；

所述参考物质预测中，目标化合物i的苯并[a]芘致癌毒性当量因子的确定方式为：

CPV_i为所述目标化合物i的致癌潜力值，TEF_j为参考物质j的苯并[a]芘致癌毒性当量因子，CPV_j为参考物质j的致癌潜力值，所述CPV_i和CPV_j通过机器学习模型预测得到；

所述参考物质为与所述目标化合物i结构相似的物质，所述结构相似包括同分异构体、苯环数相同的化合物或者同系物；

优选地，所述参考物质为与所述目标化合i的物谷本系数≥0.85的物质。

4.根据权利要求1所述的方法，其中，所述环境丰度是根据所述目标化合物的浓度确定的；

目标化合物i环境丰度的计算公式为：

w_A为所述环境丰度的权重值，C_i为预设时间段内目标化合物i的平均浓度，C_min和C_max分别为预设时间段内所述目标化合物中平均浓度的最低值和最高值，其中，目标化合物的浓度通过定量检测获得，目标化合物i为筛查出的目标化合物中的任意一种。

5.根据权利要求1所述的方法，其中，所述环境行为是根据所述目标化合物的整体持久性、生物累积性以及迁移效率确定的；

目标化合物i环境行为的计算公式为

w_P为所述环境行为的权重值，P_i为所述目标化合物i的整合分数，P_min和P_max为所述目标化合物中整合分数的最小值和最大值，Pov_i为所述目标化合物i的整体持久性，BAF_i为所述目标化合物i的生物累积系数，TE_i为所述目标化合物i的迁移效率，μ_Pov为所述目标化合物中整体持久性的平均数，σ_Pov为所述目标化合物中整体持久性的标准差，μ_BAF为所述目标化合物中生物累积系数的平均数，σ_BAF为所述目标化合物中生物累积系数的标准差，μ_TE为所述目标化合物中迁移效率的平均数，σ_TE为所述目标化合物中迁移效率的标准差，其中Pov_i和TE_i由OECD Pov-LRTP Screening Tool计算得到，BAF_i由EPI Suite计算得到，目标化合物i为筛查出的目标化合物中的任意一种。

6.根据权利要求1所述的方法，其中，所述分析可利用性是根据所述目标化合物的特定峰与数据库参考质谱图的相似性以及所述目标化合物在所有样本中的检测频率确定的；

目标化合物i的分析可利用性的计算公式为：

w_D为所述分析可利用性的权重值，D_i为目标化合物i的检测分数，D_min和D_man分别为所述目标化合物中检测分数的最小值和最大值，S_i为目标化合物i中特定峰与质谱库参考质谱图的相似性指数，S_min和S_max分别为目标化合物中特定峰与质谱库参考质谱图相似性指数的最小值和最大值，DF_i为目标化合物i在所述待分析混合物中的检测频率，DF_min和DF_max分别为所述目标化合物在所述待分析混合物中检测频率的最小值和最大值，其中目标化合物i为筛查出的目标化合物中的任意一种。

7.根据权利要求1所述的方法，其中，所述待分析环境样品的质谱实测数据包括质谱图、保留指数和分子离子精确质量数；

所述数据库包括通用标准质谱图数据库和预测化合物质谱图数据库；

所述预测化合物质谱图数据库的建立方法包括：

使用文献搜索或文本挖掘中的一种或多种手段查找环境中高丰度且具有潜在毒性的芳香族化合物，建立初级清单；

利用谷本系数算法挖掘化学品数据库中与初级清单中的芳香族化合物具有类似结构的目标物，建立疑似目标物清单，所述疑似目标物清单中的化合物包括初级清单中的化合物和与初级清单中的芳香族化合物具有类似结构的目标物；

使用机器学习预测工具预测所述疑似目标物清单中化合物的质谱图和保留指数；

根据预测的质谱图和保留指数构建预测化合物质谱图数据库，所述预测化合物质谱图数据库中的数据包括化合物的分子式、分子离子精确质量数、质谱图和保留指数。

8.根据权利要求7所述的方法，其中，所述基于待分析环境样品的质谱实测数据与数据库质谱数据，从所述待分析环境样品中筛查目标化合物包括：

将待分析环境样品的质谱实测数据与数据库质谱数据进行特征匹配、谱库检索、保留指数筛选和标准品比对，非靶标分析确认待分析环境样品中存在的目标化合物。

9.根据权利要求1～8任一项所述的方法，还包括：

根据苯并[a]芘致癌毒性当量因子、浓度和苯并[a]芘单位风险系数确定环境风险芳香族化合物清单中化合物或目标化合物的终生累积致癌风险；

化合物x的终生累积致癌风险的计算公式为：

C_x为预设时间段内化合物x的平均浓度，TEF_x为化合物x的苯并[a]芘致癌毒性当量因子，UR_BaP为苯并[a]芘单位风险系数，表示在70年的生命周期中，因吸入1ng m^-3的苯并[a]芘毒性当量而面临癌症风险的人数，表示环境风险芳香族化合物清单中所述化合物的平均浓度与苯并[a]芘致癌毒性当量因子乘积的和，其中化合物x为环境风险芳香族化合物清单或目标化合物中的任意一种。

10.根据权利要求1～8任一项所述的方法，其中，根据多个污染源的化合物组成，利用正定因子分解模型对所述环境风险芳香族化合物清单中的化合物进行来源解析，确定所述目标化合物的主要排放来源。