CN117409871A

CN117409871A - 基于化合物二级质谱数据的毒性预测方法

Info

Publication number: CN117409871A
Application number: CN202311395802.2A
Authority: CN
Inventors: 张爱茜; 韩肖肖; 刘娴; 潘文筱; 薛峤
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-16

Abstract

本公开提供了一种基于化合物二级质谱数据的毒性预测模型建立方法，包括：对获取的已知化合物的二级质谱数据和已知化学品的毒性数据涉及的化合物进行化学结构清洗，根据标准化化学结构将二级质谱数据和毒性数据涉及的化合物进行匹配，得到共有化合物的二级质谱数据及对应的有无毒性二元标签；针对共有化合物，将每个二级质谱数据转化为分子结构特征概率向量，建立包含分子结构特征概率向量和有无毒性二元标签的总数据集；将总数据集划分为训练集、验证集和测试集，构建以分子结构特征概率向量作为输入，有无毒性作为输出的毒性预测模型。本公开还提供了毒性预测方法包括：将待预测的化合物二级质谱数据输入到毒性预测模型中进行毒性预测。

Description

基于化合物二级质谱数据的毒性预测方法

技术领域

本公开属于环境样本的安全评估技术领域，更具体涉及一种基于化合物二级质谱数据的毒性预测方法、模型建立方法。

背景技术

化学工业的爆炸式发展，使得农用化学品、日化用品、食品添加剂等的使用量急剧增加，人类通过环境污染、营养摄入、化妆品和药物使用等多种途径暴露于多种多样的化合物面前。有很多被应用到生活中的化学品虽然没有急性毒性但仍存在潜在风险，例如产生毒性增高的代谢物和转化产物，或者在环境中具有持久性，在食物链中不断富集，对生态系统及人体健康造成威胁。化合物对生态安全的破坏和对人体健康的影响是通过体内或体外测试进行评估的，但其测试往往以单一化合物的毒性效应为评价终点。

对于已知化学品的毒性筛选和风险评估中，近年来基于定量构效关系(Quantitative Structure-Activity Relationships，QSARs)的化学品毒性预测模型取得了较快的发展，其得益于高度整合的公共毒性参考数据库，以及不断充实的大量化学品在相关毒性通路的高通量体外测试数据库(quantitative High-Throughput Screening，qHTS)。化学品毒性预测模型通常以基于先验知识的分子描述符或分子指纹特征作为学习和预测对象，对毒性终点进行预测。

在实际的食品安全监测和环境安全评估中，样本往往包含复杂的共存污染物及基质，这使得风险评估的难度大大加大。气相或液相色谱结合高分辨率质谱(GasChromatograph-/Liquid Chromatograph-High Resolution Mass Spectrometry，GC-/LC-HR S)成为对复杂环境样本进行非靶向分析的常用方法，其目的是对复杂样本中的未知污染成分进行发现、识别和定量检测。然而，复杂样本中的未知成分鉴定若要达到level 1的可信度，则需不同的互补方法逐步对分子式和结构进行确定，还要使用标准品进行验证，这一过程是十分费时费力的。另外，非靶向方法得到的数据通常要与靶向和疑似物筛查相结合方能开展分析，这使得非靶向分析得到的分子特征只有很小部分能被鉴别出来，尚留大量潜在的风险成分未能鉴别。

近年来，有许多研究使用in silico方法对二级质谱图进行结构注释，致力于发现二级质谱图所对应的化合物结构，尤其是在非靶向代谢组学和药物设计研究领域。其中机器学习和深度学习由于具有能够处理复杂的特征、学习能力强、自我优化等优点而被应用于结构注释。同时，不断充实的具有小分子注释的谱图库亦为提高机器学习模型的灵敏度和特异性做出贡献。

由非靶向方法得到一级和二级质谱数据本身也包含着丰富的信息，如保留时间、精确质量数、离子碎片信息等。已知经离子源电离得到的离子碎片扫描而得的质谱图包含着结构碎片信息，而结构与活性关系的模型又得到了广泛验证，因此，从二级质谱数据直接判断其对应化合物的毒性具有可行性。使用计算方法对二级质谱图进行结构注释的方法学研究为二级质谱的特征表示提供了有利的先验知识，而已有的公开质谱库和毒性数据库为统计学习提供了较为充分的样本支撑。近期，一项水样本非靶向分析提出从质谱信息预测生态毒理学指标——半数致死浓度值(Lethal Concentration，LC₅₀)，但是其模型学习过程仍然基于已知结构的分子指纹特征，只在验证模型过程中使用二级质谱数据作为输入，其建立的仍然是基于结构的化学品毒性预测模型。

综上所述，使用非靶向方法分析复杂环境样本时，其谱图的结构注释过程依赖于现有的谱图库或疑似物库，样本中只有少部分分子特征能够被明确识别出来，且鉴定过程繁琐，因此在通过实验分析样本中的污染物之前，通过某种方法有效地确定分析的优先级、快速判断混合物样本的环境风险是非常有必要的。

发明内容

有鉴于此，本公开针对采用非靶向分析得到的高分辨率二级质谱数据如何实现毒性预测问题，提出了一种基于化合物二级质谱数据的毒性预测方法、模型建立方法，以期至少部分地解决上述技术问题中的至少之一。

作为本公开的第一个方面，提出了一种基于化合物二级质谱数据的毒性预测模型建立方法，包括：

获取已知化合物的二级质谱数据和已知化学品的毒性数据；

对已知化合物的二级质谱数据和已知化学品的毒性数据涉及的化合物进行化学结构清洗，得到化合物的标准化化学结构，根据标准化化学结构将二级质谱数据和毒性数据涉及的化合物进行匹配，得到共有化合物的二级质谱数据及对应共有化合物所关注毒性的有无毒性二元标签；

针对共有化合物，将每个二级质谱数据转化为分子结构特征概率向量S，建立包含分子结构特征概率向量S和有无毒性二元标签的总数据集；

将总数据集划分为训练集、验证集和测试集，构建以分子结构特征概率向量S作为输入，有无毒性作为输出的毒性预测模型，包括：

基于所使用预测模型的多组预设超参数，利用训练集训练预测模型，使用验证集对预测模型的多组预设超参数进行优化，获得所关注毒性的毒性预测模型，并确定毒性判定阈值；

利用测试集对毒性预测模型进行泛化性能评估。

本公开还提供了一种基于化合物二级质谱数据的毒性预测方法，包括：

获得待预测的化合物二级质谱数据；

将待预测的二级质谱数据转化为分子结构特征概率向量S后，输入到毒性预测模型中，输出待预测的二级质谱数据相对应化合物的毒性预测概率值p，其中，毒性预测模型由上述毒性预测模型建立方法得到；

在p大于或等于毒性判定阈值的情况下，待预测的二级质谱数据对应的化合物具有毒性，在p小于毒性判定阈值的情况下，待预测的二级质谱数据对应的化合物不具有毒性。

基于上述技术方案，本公开提供的一种基于化合物二级质谱数据的毒性预测方法、模型建立方法，至少包括以下有益效果之一：

(1)在本公开的实施例中，本公开建立了从化合物的高分辨率二级质谱数据(简称二级质谱数据)直接预测二级质谱数据相对应化合物的毒性的方法，充分将已有的质谱数据库和毒性数据库进行结合，并将其与机器学习算法(XGBoost)结合建立毒性预测模型，实现了从化合物的高分辨率二级质谱数据到毒性的直接预测。

(2)在本公开的实施例中，将获取的高分辨率二级质谱数据(简称二级质谱数据)和毒性数据中所涉及的化合物进行化学结构清洗，得到化合物的标准化化学结构。然后，根据标准化化学结构将二级质谱数据和毒性数据所涉及的化合物进行匹配，得到共有化合物的二级质谱数据和对应共有化合物所关注毒性的有无毒性的二元标签。通过将包含多种信息、数据长度不等的质谱信息转化为固定长度的分子结构特征概率向量，完成一种质谱数据的特征表示，为化合物二级质谱数据应用到毒性预测模型的机器学习和毒性预测中提供了可能性。

(3)在本公开的实施例中，利用已知化合物二级质谱数据和毒性标签建立毒性预测模型，所得到的毒性预测模型能够有效的对二级质谱数据所对应化合物的毒性进行预测，有望为非靶向分析中的分析优先级的确定提供依据，有利于快速判断复杂环境样本的污染物毒性，在复杂样本的毒性预测、环境安全评估、健康风险评估等领域具有广阔的应用前景。

附图说明

图1为本公开实施例中基于化合物二级质谱数据的毒性预测模型建立方法的流程示意图；

图2为本公开实施例中基于化合物二级质谱数据的毒性预测方法流程示意图；

图3为本公开实施例中基于待预测的二级质谱数据预测待预测二级质谱数据相对应化合物的毒性的原理示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开作进一步的详细说明。

根据目前对非靶向方法评估复杂样本的环境风险的相关文献调研，发现所涉及的方法或技术存在缺点：对环境样本的非靶向分析方法通常要与靶向和疑似物筛查相结合方能开展分析，可进行质谱信息比对的范围受限，且对质谱图的注释工作十分繁琐，这使得非靶向分析得到的分子特征只有很小部分能被明确鉴别出来，尚留大量潜在的风险成分未能鉴别。本公开的主要目的是为非靶向分析提供一种新的确定质谱数据分析优先级的方法，建立从化合物的高分辨率二级质谱到毒性的毒性预测模型，有望用于快速判断混合物样本的环境风险，将非靶向分析得到的数据中具有较高环境风险的二级质谱图特征筛选出来，以便进一步对二级质谱图特征进行明确的注释。

本公开的基本原理是：将化合物的高分辨率二级质谱数据转化为固定长度的分子结构特征概率向量，使用机器学习方法，建立分子结构特征概率向量与对应毒性标签的毒性预测模型，该方法能够实现直接对非靶向方法得到的化合物高分辨率二级质谱数据进行相关的毒性预测，有望作为快速判断混合物样本的环境风险、确定分析优先级的有利工具。

图1为本公开实施例中基于化合物二级质谱数据的毒性预测模型建立方法的流程示意图。

具体地，如图1所示，本公开提供的一种基于化合物二级质谱数据的毒性预测模型建立方法，包括：步骤S101-步骤S112。

步骤S101-步骤S102：获取已知化合物的二级质谱数据和已知化学品的毒性数据。

步骤S103-S105：对已知化合物的二级质谱数据和已知化学品的毒性数据涉及的化合物进行化学结构清洗，得到化合物的标准化化学结构，根据标准化化学结构将二级质谱数据和毒性数据涉及的化合物进行匹配，得到共有化合物的二级质谱数据及对应共有化合物所关注毒性的有无毒性二元标签。

步骤S106-S107：针对共有化合物，将每个二级质谱数据转化为分子结构特征概率向量S，建立包含分子结构特征概率向量S和有无毒性二元标签的总数据集。

步骤S108-S112：将总数据集划分为训练集、验证集和测试集，构建以分子结构特征概率向量S作为输入，有无毒性作为输出的毒性预测模型，包括：

步骤S108-S111：基于所使用预测模型的多组预设超参数，利用训练集训练预测模型，使用验证集对预测模型的多组预设超参数进行优化，获得所关注毒性的毒性预测模型，并确定毒性判定阈值；

步骤S112：利用测试集对毒性预测模型进行泛化性能评估。

在本公开的实施例中，在对所涉及的化合物进行化学结构清洗之前，对获取的高分辨率二级质谱数据进行筛选，保留其中包含化合物结构的线型分子表征信息和充足二级质谱图数据的二级质谱数据。随后将筛选后获取的高分辨率二级质谱数据(简称二级质谱数据)和毒性数据中所涉及的化合物进行化学结构清洗，得到化合物的标准化化学结构。然后，根据标准化化学结构将二级质谱数据和毒性数据所涉及的化合物进行匹配，得到多个共有化合物的二级质谱数据和有无毒性的二元标签。通过将包含多种信息、数据长度不等的质谱信息转化固定长度的分子结构特征概率向量，输入到机器学习算法中进行毒性预测模型的训练，为化合物的二级质谱数据应用到毒性预测模型的机器学习和毒性预测中提供了可能性。

根据本公开的实施例，在步骤S101中，获取的已知化合物的二级质谱数据为已经注释过的且已知其对应化合物的二级质谱数据，该二级质谱数据包括化合物结构的线型分子表征信息、化合物的二级质谱图数据、质谱仪所测得前体离子的精确质量数、电荷数、质谱仪的离子化模式和质谱仪的仪器类型，其中，化合物的二级质谱图数据是化合物离子化后，不同质荷比的离子经质量分析器分析，而后被检测并记录下来的谱图，包括离子碎片的质荷比、峰强度等信息。在步骤S102中，已知化学品的毒性数据包括化合物结构的线型分子表征信息和化合物有无毒性的二元标签。需要说明的是，已知化学品中的化合物与已知化合物可以相同或不同。

根据本公开的实施例，在步骤S103中，对已知化合物的二级质谱数据和已知化学品的毒性数据涉及的化合物进行化学结构清洗，得到化合物的标准化化学结构，其中化学结构清洗具体包括标准化、去溶剂、电荷校正和去离子。

进一步地，在根据标准化化学结构将清洗后得到的毒性数据和二级质谱数据涉及的化合物进行匹配之前包括：根据化合物的标准化化学结构，将毒性数据中，具有相反毒性标签的化合物剔除以排除影响，以保证毒性预测的精确度。

根据本公开的实施例，在步骤S104中，针对共有化合物，将每个二级质谱数据转化为分子结构特征概率向量S，包括：将每个二级质谱数据输入到质谱计算模型中进行计算，输出分子结构特征概率向量S，其中分子结构特征概率向量S的长度为M。例如：使用开源软件SIRIUS(质谱计算模型)计算二级质谱数据的分子结构特征概率向量S。具体表现为：将每个二级质谱数据的所有信息包括前体离子的精确质量数、电荷数、加合离子、仪器和/或分子式等信息作为输入，通过将每个二级质谱数据输入到开源软件SIRIUS中进行计算转化，输出长度为M的分子结构特征概率向量S。需要说明的是，在使用开源软件SIRIUS计算二级质谱数据的分子结构特征概率向量S时，存在多电荷的质谱图无法计算、化合物相同且精确质量数相同的二级质谱数据合并计算、以及质谱信息不足以计算等情况，导致某些二级质谱数据无法计算得到分子结构特征概率向量。

根据本公开的实施例，在步骤S107中，根据分子结构特征概率向量S和有无毒性二元标签建立总数据集，所建立的总数据集包括共有化合物的二级质谱特征矩阵D和对应共有化合物所关注毒性的有无毒性二元标签向量T；其中，二级质谱特征矩阵D的大小为N×M，N为共有化合物二级质谱数据计算所得分子结构特征概率向量S的数量，M为分子结构特征概率向量S的长度，D中每个元素D_i，j表示第i个二级质谱数据计算所得分子结构特征概率向量S所对应共有化合物包含特定分子结构特征j的概率。共有化合物所关注毒性的有无毒性二元标签向量T的长度为N，T中每个元素T_i∈{0，1}，表示第i个二级质谱数据计算所得分子结构特征概率向量S相对应的共有化合物是否具有所关注毒性，标签“0”表示无毒性，标签“1”表示有毒性。

根据本公开的实施例，在步骤S108～步骤S110中，将共有化合物的二级质谱特征矩阵D及所关注毒性的标签向量T所构成的总数据集，按a∶b∶c的比例，采用分层采样的方法随机划分为训练集、验证集和测试集，使每个数据集内毒性二元类别标签的比例保持一致。然后使用训练集对预测模型进行训练，使用验证集对预测模型的多组预设超参数进行优化，获得所关注毒性的毒性预测模型，并确定毒性判定阈值，使用测试集评估毒性预测模型的泛化性能，从而构建出以分子结构特征概率向量S作为输入，有无毒性作为输出的毒性预测模型。

根据本公开的实施例，本公开选用XGBoost作为预测模型，XGBoost预测模型是基于梯度提升决策树(Gradient Boosting Decision Tree，GBDT)的模型，XGBoost预测模型采用加法模型和前向分布算法，其基模型均为决策树模型，共迭代num_boost_round次，每棵新决策树的拟合目标是上一颗树的目标函数的负梯度的值，XGBoost预测模型的目标函数为损失函数加正则项，最终的预测结果是所有决策树的加和。

根据本公开的实施例，在步骤S111中，在训练预测模型之前，先为预测模型预设多组超参数，以便使用验证集对预测模型的多组预设超参数进行优化，获得预测模型的优化超参数。其中，预测模型的预设超参数为{booster，objective，num_boost_round，learning_rate，gamma，max_depth，min_child_weight，subsample，colsample_bytree，alpha，lambda}；

其中，booster定义基学习器的类型；objective定义需要被最小化的损失函数；num_boost_round为决策树的迭代次数；learning_rate为更新过程中的收缩步长；gamma为节点分裂所需的最小损失函数下降值；max_depth为决策树的最大深度；min_child_weight为最小叶子节点样本权重和；subsample为每棵树随机采样的比例；colsample_bytree为每棵树随机采样的列数的占比；alpha为L1正则化项的权重系数，lambda为L2正则化项的权重系数。

根据本公开的实施例，在步骤S111中，在使用验证集对预测模型的超参数进行优化过程中，对于每组预设超参数，均使用训练集训练一个预测模型，并用验证集对每个预测模型的预测结果进行验证，根据统计参数评估每个预测模型的表现，确定优化超参数(即最佳超参数)；基于优化超参数，利用训练集所训练的预测模型，即为所关注毒性的毒性预测模型。其中所使用统计参数为受试者操作特征曲线(Receiver Operating CharacteristicCurve，ROC曲线)的曲线下面积(Area Under the Curve，AUC)，优化超参数为统计参数满足预设条件时的参数组合，其中满足预设条件可以为最优情况。

根据本公开的实施例，在步骤S111中，确定毒性预测模型的毒性判定阈值包括：将验证集中的二级质谱特征矩阵输入到毒性预测模型中，获得毒性预测概率值集合P。根据验证集验证毒性预测模型所得到的毒性预测概率值集合P，以及验证集中的有无毒性二元标签向量，绘制受试者操作特性曲线，确定毒性判定阈值具体步骤为：将集合P由大到小排序，每一个概率值作为一个二分类阈值，根据验证集中的有无毒性二元标签向量和毒性预测概率值集合P，计算该每个阈值对应的真阳性率(True Positive Rate，TPR)和假阳性率(False Positive Rate，FPR)，以假阳性率为横轴，真阳性率为纵轴，绘制受试者操作特性曲线；取敏感性(sensitivity)和特异性(specificity)的几何平均值(geometric mean，G-mean)在满足预设条件时的点所对应的阈值作为毒性判定阈值P_t，其中预设条件为最大的情况。

其中，毒性判定阈值P_t＝argmax(G-mean) (1)；

TP：被毒性预测模型预测为正类的正样本个数；

TN：被毒性预测模型预测为负类的负样本个数；

FP：被毒性预测模型预测为正类的负样本个数；

FN：被毒性预测模型预测为负类的正样本个数。

根据本公开的实施例，在步骤S112中，利用测试集对毒性预测模型进行泛化性能评估，包括：将测试集中的二级质谱特征矩阵输入到毒性预测模型，根据测试集中的有无毒性二元标签向量及测试集的毒性预测概率值集合，计算统计参数，根据统计参数确认模型表现。

图2为本公开实施例中基于化合物二级质谱数据的毒性预测方法流程示意图。

根据本公开的实施例，如图2所示，本公开还提供了一种基于化合物二级质谱数据的毒性预测方法，包括：步骤S201-步骤S207。

步骤S201：获得待预测的化合物二级质谱数据(即二级质谱数据)。

步骤S202：将待预测的二级质谱数据转化为分子结构特征概率向量S。

步骤S203-S204：将待预测的二级质谱数据转化为分子结构特征概率向量S后，输入到毒性预测模型中，输出待预测的二级质谱数据相对应化合物的毒性预测概率值p，其中，毒性预测模型由上述实施例中的基于化合物二级质谱数据的毒性预测模型建立方法训练获得。

步骤S205：判断p是否大于或等于毒性判定阈值。

步骤S206：在p大于或等于毒性判定阈值的情况下，待预测的二级质谱数据对应的化合物具有毒性。

步骤S207：在p小于毒性判定阈值的情况下，待预测的二级质谱数据对应的化合物不具有毒性。

在本公开的实施例中，将待预测的二级质谱数据输入到上述实施例中的训练得到的毒性预测模型中进行计算，输出待预测的二级质谱数据相对应化合物的毒性类型。本公开提供的毒性预测模型适用于对非靶向分析获得的二级质谱数据进行毒性预测，方法简单且快速，对于复杂环境和食品样本的安全性评估具有重要的应用前景。

根据本公开的实施例，在步骤S201中，待预测的二级质谱数据可以从公开的二级质谱数据库或使用非靶向分析方法从高分辨率二级质谱仪器中获得，待预测的二级质谱数据所对应的化合物为已知或未知的化合物，其中，待预测的二级质谱数据包括：化合物的二级质谱图数据、质谱仪所测得前体离子的精确质量数、电荷数、质谱仪的离子化模式和质谱仪的仪器类型。

根据本公开的实施例，在步骤S202-步骤S204中，将待预测的二级质谱数据输入到质谱计算模型(开源软件SIRIUS)中进行计算，输出待预测的二级质谱数据相对应的化合物的分子结构特征概率向量S，分子结构特征概率向量S的长度为M。然后将分子结构特征概率向量S作为毒性预测模型的输入，模型输出待预测的二级质谱数据相对应化合物的毒性预测概率值。

根据本公开的实施例，在步骤S205-步骤S207中，将待预测的二级质谱数据相对应化合物的毒性预测概率值与毒性判定阈值进行对比，以此确定出待预测的二级质谱数据相对应的化合物是否具有毒性，实现了二级质谱数据到毒性的直接预测。

图3为本公开实施例中基于待预测的二级质谱数据预测待预测二级质谱数据相对应的化合物的毒性的原理示意图。

如图3所示，获取待预测的二级质谱数据，利用质谱计算模型将二级质谱数据转化为长度为M的分子结构特征概率向量S，并将其输入到毒性预测模型(XGBoost毒性预测模型)中进行预测，输出二级质谱数据相对应的化合物是否具有毒性。通过该方法可以快速高效的对二级质谱数据所对应化合物的毒性进行预测，为非靶向分析中分析优先级的确定提供依据，有利于快速判断复杂环境样本的污染物毒性，在复杂样本的毒性预测、环境安全评估、健康风险评估等领域具有广阔的应用前景。

下面通过实施例结合附图进一步说明本公开的技术方案，以便更清楚的理解本公开的技术内容。

结合图1和图2，对本实施例基于二级质谱数据转化及XGBoost毒性预测模型对化合物高分辨率二级质谱数据所关注的毒性进行预测，具体的所关注毒性为芳香烃受体激活活性，包括以下步骤：

(1)化合物高分辨率二级质谱数据及毒性数据的获得及预处理，具体如下：

从GNPS网站(https://gnps-external.ucsd.edu/gnpslibrary)上下载所有公开的质谱数据，其中收录了来自不同的实验室或质谱库提交的已注释或未注释的二级质谱数据，共计58万余条。在获得二级质谱数据后，对数据进行筛选，保留包含化合物结构的线型分子表征信息和充足的二级质谱图信息的数据，筛选后的二级质谱数据包含化合物结构的线型分子表征信息、化合物的二级质谱图数据、质谱仪所测得前体离子的精确质量数、电荷数、质谱仪的离子化模式、质谱仪的仪器类型，二级质谱数据可以为mgf格式文件。其中，化合物结构的线型分子表征信息可以为规范的简化分子线性输入规范(SimplifiedMolecular Input Line Entry System，SMILES)或国际化合物标识(InternationalChemical Identifier，InChI)。

从Tox21 challenge网站(https://tripod.nih.gov/tox21/challenge/data.jsp)上下载关于芳香烃受体(aryl hydrocarbon receptor，AhR)激活活性的体外高通量测试数据，数据中包含化合物的化学结构的线型分子表征信息、以及对应的芳香烃受体激活活性的二元类别标签(数字“1”代表化合物具有激活活性，数字“0”代表化合物无激活活性)，数据共计8159条。

对上述二级质谱数据和芳香烃受体测试数据中的化合物信息进行化学结构清洗，化学结构清洗具体包括标准化、去溶剂、电荷校正和去离子，得到化合物的标准化化学结构数据。为保证数据的可靠性，根据化合物的标准化化学结构，将芳香烃受体激活活性数据集中，化合物结构相同但活性不同的数据记录剔除。根据标准化化学结构将前述筛选后的二级质谱数据和芳香烃受体激活活性数据两个数据集所涉及的化合物进行匹配，获得两个数据集的共有化合物对应的91387个二级质谱数据及91387个芳香烃受体激活活性标签。

针对共有化合物，将二级质谱数据批量输入到SIRIUS软件中，对于每一个二级质谱数据，选取其SIRIUS Score分数最高的分子式对应的分子结构特征概率向量S作为后续预测模型的输入，分子结构特征概率向量的长度为4456，即为包含4456个分子结构特征，每个分子结构特征上的数字代表该二级质谱数据所对应的化合物包含该分子结构特征的概率，数字的范围均为0到1。在SIRIUS处理过程中，存在多电荷的二级质谱数据无法计算、化合物相同且精确质量数相同的二级质谱数据合并计算、以及质谱信息不足以计算等情况，所以最终得到了44942个分子结构特征概率向量，及对应的44942个芳香烃受体激活活性标签，由此得到了用于训练、验证、测试的总数据集为：44942×4456的二级质谱特征矩阵D和芳香烃受体激活活性的标签向量T，标签向量T的长度为44942，T中的每个元素T_i∈{0，1}，表示第i个二级质谱数据相对应的化合物是否具有所关注的毒性，标签‘0’表示无毒性，标签‘1’表示有毒性。

(2)XGBoost毒性预测模型的训练和超参数优化

将上述44942×4456的二级质谱特征矩阵D和芳香烃受体激活活性的标签向量T构成的总数据集，按照6：2：2的比例、采用分层采样的方法随机划分为训练集、验证集和测试集。训练集用于训练预测模型，验证集用于优化预测模型的超参数、获得毒性预测模型并确定毒性判断阈值，测试集用于评估毒性预测模型的泛化性能。

所选择的预测模型为基于梯度提升决策树的XGBoost预测模型，该模型采用加法模型和前向分布算法，其基模型均为决策树模型，每棵新决策树的拟合目标是上一颗树的目标函数的负梯度的值，XGBoost预测模型的目标函数为损失函数加正则项，最终的预测结果是所有决策树的加和。

首先，设置XGBoost预测模型的通用超参数和学习任务超参数{booster：‘gbtree’，objective：‘binary：logistic’}，即定义基学习器类型为决策树模型，需要解决的是二分类问题。

XGBoost预测模型的其他超参数包括{num_boost_round，learning_rate，max_depth，min_child_weight，gamma，subsample，colsample_bytree，lambda，alpha}，num_boost_round为决策树的迭代次数，learning_rate为更新过程中的收缩步长，γ为节点分裂所需的最小损失函数下降值，max_depth为决策树的最大深度，min_child_weight为最小叶子节点样本权重和，subsample为每棵树随机采样的比例，colsample_bytree为每棵树随机采样的列数的占比，alpha为L1正则化项的权重系数，lambda为L2正则化项的权重系数。

其次，建立XGBoost预测模型，使用训练集训练XGBoost预测模型，使用验证集对XGBoost预测模型的预设超参数进行优化、获得XGBoost毒性预测模型、并确定毒性判断阈值。在超参数优化过程中，对每一个超参数，在一定范围内，在一定步长下，均选定若干个超参数，对于每组超参数，均使用训练集训练一个XGBoost预测模型，并使用验证集验证该XGBoost预测模型，根据统计参数确定优化超参数(即最佳超参数)。

所选取的统计参数为受试者操作特性曲线(Receiver OperatingCharacteristic curve，ROC)的曲线下面积(area uder curve，AUC)值。取验证集上AUC值最优时所拟合的XGBoost预测模型作为芳香烃受体激活活性预测模型(即XGBoost毒性预测模型)。

其中超参数优化分为四步：

第一步，选择较高的学习速率(learning_rate)，一般为0.1，在一定范围内，一定步长下，得到不同超参数组合对应的AUC值，选择对应于此学习速率的理想决策树的迭代次数num_boost_round＝200；

第二步，对于给定的学习速率和决策树的迭代次数，在一定范围内，在一定步长下，选定max_depth，min_child_weight，gamma，subsample，colsample_bytree，得到不同超参数组合对应的AUC值，选定优化超参数(即最佳超参数){max_depth：11，min_child_weight：2，gamma：0，subsample：0.9，colsample_bytree：0.8}；

第三步，对XGBoost毒性预测模型正则化超参数调优，在一定范围内，一定步长下，选定lambda，alpha，得到不同超参数组合对应的AUC值，选定优化超参数(即最佳超参数){lambda：1，alpha：1e-05}；

第四步，降低学习速率(learning_rate)，在一定范围内，一定步长下，选定学习速率，得到不同超参数对应的AUC值，选定{learning_rate：0.1}；

优化超参数(即最终的最佳超参数)为{num boost round：200，max_depth：11，min_child_weight：2，gamma：0，subsample：0.9，colsample_bytree：0.8，learning_rate：0.1}。

确定优化超参数(即最佳超参数)及毒性预测模型的同时，根据验证集在毒性预测模型上的毒性预测概率值集合P，以及验证集中的有无毒性二元标签向量，绘制受试者操作特性曲线，并确定毒性判定阈值，具体步骤为：将集合P由大到小排序，每一个概率值作为一个二分类阈值，计算该阈值对应的真阳性率(True Positive Rate，TPR)和假阳性率(FalsePositive Rate，FPR)，以假阳性率为横轴，真阳性率为纵轴，绘制受试者操作特性曲线；取曲线上敏感性和特异性的几何平均值(geometric mean，G-mean)最大(即满足预设条件)的点所对应的阈值P_t作为最终判定二级质谱数据对应化合物的毒性判定阈值，其中G-mean最大的点所对应的芳香烃受体激活活性阈值P_t为0.0642。

(3)高分辨率二级质谱对应化合物的芳香烃受体激活活性预测模型(XGBoost毒性预测模型)的泛化性能评估，具体如下：

将测试集输入XGBoost毒性预测模型，根据测试集的毒性预测概率值集合和测试集中的有无毒性二元标签向量，计算ROC曲线的AUC值。将得到的AUC值与将验证集数据输入到XGBoost毒性预测模型中获得的AUC值进行对比，结果表明，XGBoost毒性预测模型在测试集上的AUC值与验证集上的AUC值相当，说明毒性预测模型具有较好的泛化能力。

(4)待评价化合物高分辨率二级质谱数据对应化合物的芳香烃受体激活活性判断

染料木黄酮(Genistein，4’，5,7-Trihydroxyisoflavone)是一种具有抗氧化特性的异黄酮类植物雌激素，其天然来源包括豆类、紫檀、榕树等。有研究表明，染料木黄酮可抑制蛋白质-酪氨酸激酶和DNA拓扑异构酶-II活性，目前正在临床试验中进行癌症治疗的研究，但是其对水生环境具有急性和持久性危害。因此选取染料木黄酮作为测试对象。

从公开的二级质谱库中获得染料木黄酮(Genistein，4’，5,7-Trihydroxyisoflavone)的高分辨率二级质谱数据。将该二级质谱数据文件提交到SIRIUS软件中，计算完成后，在结果中找到SIRIUS Score得分最高的分子式对应的分子结构特征及其概率值的向量S，如下表1所示。将该分子结构特征概率向量S输入到XGBoost毒性预测模型中进行预测，输出该二级质谱数据对应化合物的芳香烃受体激活活性的预测概率值，为0.990。预测概率值大于芳香烃受体激活活性阈值0.0642，因此认为该二级质谱数据对应的化合物具有芳香烃受体激活活性，即该二级质谱数据对应的化合物具有该种毒性。

表1.为本公开实施例中二级质谱数据经质谱计算模型转化后长度为M的分子结构特征概率向量S

表1

该化合物在Tox21项目数据库中的芳香烃受体激活活性的测试结果为有活性，XGBoost毒性预测模型的预测结果与事实相符。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于化合物二级质谱数据的毒性预测模型建立方法，包括：

获取已知化合物的二级质谱数据和已知化学品的毒性数据；

对所述已知化合物的二级质谱数据和所述已知化学品的毒性数据涉及的化合物进行化学结构清洗，得到化合物的标准化化学结构，根据所述标准化化学结构将二级质谱数据和毒性数据涉及的化合物进行匹配，得到共有化合物的二级质谱数据和对应共有化合物所关注毒性的有无毒性二元标签；

针对所述共有化合物，将每个所述二级质谱数据转化为分子结构特征概率向量S，建立包含所述分子结构特征概率向量S和有无毒性二元标签的总数据集；

将所述总数据集划分为训练集、验证集和测试集，构建以所述分子结构特征概率向量S作为输入，有无毒性作为输出的毒性预测模型，包括：

基于所使用预测模型的多组预设超参数，利用所述训练集训练所述预测模型，使用所述验证集对所述预测模型的多组预设超参数进行优化，获得所关注毒性的毒性预测模型，并确定毒性判定阈值；

利用所述测试集对所述毒性预测模型进行泛化性能评估。

2.根据权利要求1所述的方法，其中，

所述已知化合物的二级质谱数据为已经注释过且已知对应化合物的二级质谱数据，所述已知化合物的二级质谱数据包括化合物结构的线型分子表征信息、化合物的二级质谱图数据、质谱仪所测得前体离子的精确质量数、电荷数、质谱仪的离子化模式和质谱仪的仪器类型；

所述已知化学品的毒性数据包括化合物结构的线型分子表征信息和化合物有无毒性的二元标签。

3.根据权利要求1所述的方法，其中，

所述化学结构清洗，包括：标准化、去溶剂、电荷校正和去离子处理；

在根据标准化化学结构将毒性数据和二级质谱数据涉及的化合物进行匹配之前，包括：

根据化合物的标准化化学结构，将所述毒性数据中具有相反毒性标签的化合物剔除。

4.根据权利要求1所述的方法，其中，所述将每个所述二级质谱数据转化为分子结构特征概率向量S，建立包含所述分子结构特征概率向量S和有无毒性二元标签的总数据集，包括：

将每个所述二级质谱数据输入到质谱计算模型中进行计算，输出分子结构特征概率向量S，所述分子结构特征概率向量S的长度为M，所述二级质谱数据转化得到的N个分子结构特征概率向量S构成共有化合物的二级质谱特征矩阵D；

根据所述共有化合物的二级质谱特征矩阵D和对应共有化合物所关注毒性的有无毒性二元标签向量T构建总数据集。

5.根据权利要求4所述的方法，其中，所述二级质谱特征矩阵D的大小为N×M，N为共有化合物二级质谱数据计算所得分子结构特征概率向量S的数量，D中每个元素D_i，j表示第i个二级质谱数据计算所得分子结构特征概率向量S所对应共有化合物包含特定分子结构特征j的概率；

所述共有化合物所关注毒性的有无毒性二元标签向量T的长度为N，T中每个元素T_i∈{0，1}，表示第i个二级质谱数据计算所得分子结构特征概率向量S相对应的共有化合物是否具有所关注毒性，标签“0”表示无毒性，标签“1”表示有毒性。

6.根据权利要求1所述的方法，其中，所述预测模型的预设超参数为所述所使用预测模型本身的外部设置超参数；

所述使用所述验证集对所述预测模型的多组预设超参数进行优化，获得所关注毒性的毒性预测模型，并确定毒性判定阈值的方法包括：

对于每组预设超参数，均使用所述训练集训练一个所述预测模型，使用验证集验证每个所述预测模型的预测结果，根据统计参数确定优化超参数；

基于所述优化超参数，利用所述训练集所训练的所述预测模型，为所关注毒性的毒性预测模型；

其中，所述统计参数为受试者操作特性曲线的曲线下面积，所述优化超参数为所述统计参数满足预设条件时的超参数。

7.根据权利要求6所述的方法，其中，所述确定毒性判定阈值包括：

将所述验证集中的二级质谱特征矩阵输入到所述毒性预测模型中，获得毒性预测概率值集合P；

将所述毒性预测概率值集合P由大到小排序，每一个毒性预测概率值作为一个二分类阈值，根据所述验证集中的有无毒性二元标签向量和所述毒性预测概率值集合P，计算每一个所述二分类阈值对应的真阳性率和假阳性率；

以假阳性率为横轴，真阳性率为纵轴，绘制受试者操作特性曲线，取敏感性和特异性的几何平均值在满足预设条件时的点所对应的阈值作为毒性判定阈值P_t；

其中，所述毒性判定阈值P_t＝argmax(G-mean)；

TP：被毒性预测模型预测为正类的正样本个数；

TN：被毒性预测模型预测为负类的负样本个数；

FP：被毒性预测模型预测为正类的负样本个数；

FN：被毒性预测模型预测为负类的正样本个数；

TPR：真阳性率；FPR：假阳性率；

sensitivity：敏感性值，specificity：特异性值；

G-mean：敏感性和特异性的几何平均值。

8.根据权利要求6所述的方法，其中，利用所述测试集对所述毒性预测模型进行泛化性能评估包括：

将所述测试集中的二级质谱特征矩阵输入到所述毒性预测模型，获得测试集的毒性预测概率值集合，根据测试集中的有无毒性二元标签向量及测试集的毒性预测概率值集合，计算所述统计参数，根据所述统计参数确认模型表现。

9.一种基于化合物二级质谱数据的毒性预测方法，包括：

获得待预测的化合物二级质谱数据；

将待预测的二级质谱数据转化为分子结构特征概率向量S后，输入到毒性预测模型中，输出所述待预测的二级质谱数据相对应的化合物的毒性预测概率值p，其中，所述毒性预测模型由权利要求1-8中任一项所述的方法训练得到；

在p大于或等于毒性判定阈值的情况下，所述待预测的二级质谱数据对应的化合物具有毒性，在p小于毒性判定阈值的情况下，所述待预测的二级质谱数据对应的化合物不具有毒性。

10.根据权利要求9所述的方法，其中，

所述待预测的二级质谱数据所对应的化合物为已知或未知的化合物；

所述待预测的二级质谱数据包括化合物的二级质谱图数据、质谱仪所测得前体离子的精确质量数、电荷数、质谱仪的离子化模式和质谱仪的仪器类型。