CN116561384B

CN116561384B - 构建分子网络和共识谱图接口框架以建立质谱谱库的方法

Info

Publication number: CN116561384B
Application number: CN202310551983.7A
Authority: CN
Inventors: 谢彤; 刘付霜霜; 谷雅倩; 单进军; 赵霞; 许伟辰
Original assignee: Nanjing University of Chinese Medicine
Current assignee: Nanjing University of Chinese Medicine
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-11-03
Anticipated expiration: 2043-05-16
Also published as: CN116561384A

Abstract

本发明提供了一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法，属于谱库构建技术领域。包括以下步骤：步骤一，采用色谱质谱联用仪对药材提取物或衍生化处理后药材提取物进行检测，获得药材提取物原始数据；步骤二，利用药材提取物原始数据构建分子网络；步骤三，构建分子网络和共识谱图接口框架。本发明克服谱图构建时严重依赖于标准品的不足，通过本发明所阐述的分子网络和共识谱图的接口框架，可以将分子网络节点中所包含的谱图，或分子网络中无标准品的化合物，转换成供直接比对的共识谱图，导入谱库中供直接使用。该方法不依赖于标准品，转化准确，效率高，并且转化速度快。

Description

构建分子网络和共识谱图接口框架以建立质谱谱库的方法

技术领域

本发明涉及一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法，属于谱库构建技术领域。

背景技术

分子网络是根据二级质谱图的相似性建立起来的可视化分子网络图，可以直观地获取各成分之间的关系，在网络中找寻标准品质谱图并对其做出解释，能够识别网络中与之相邻的节点，从而发现网络中的类似物。

现有的化合物质谱谱库如美国国家科学技术研究院(NIST)出版的NIST标准化合物质谱数据库，其在气相色谱质谱联用平台的代谢组学研究中发挥了巨大的作用。又如人类代谢组数据库(Humanmetabolomedatabase，HMDB)是目前最完整且最全面的人类代谢物和人类代谢数据库，这类数据库在许多研究领域得到了广泛的应用。这些谱库的构建大多基于标准化合物，并由标准化合物推演到结构类似物的谱库构建中。

分子网络是解析质谱数据的重要工具，其原理是依据二级质谱图相似度的大小，将样品中的二级质谱数据整合为一种可视化的网络数据，以用于天然产物、药物代谢物等的结构鉴定研究，如有研究者通过分子网络技术成功地鉴定了细菌提取物中的酰化高丝氨酸内酯类化合物。但是分子网络节点中所包含的二级谱图，直接来源于样品，谱图来源单一，并且存在噪音。谱图质量不稳定，无法直接用于构建共识谱图，存放到质谱数据库中，用于鉴定其他样品中的未知化合物。

构建模拟谱库可以有效的增加谱库中谱图的数量，提高样本中未知化合物的检出率。通常，研究者分析标准化合物的二级谱图，并将其导入质谱谱库中，用于其他样品中未知化合物的解析。但是对于来源于检测样本中已被识别的，或尚未纳入谱库的，无标准品的，化合物的谱图，其共识谱图的构建依然存在技术难点。共识谱图最初被提出用于蛋白质组学中肽段的鉴定。通常来讲，高度相似的二级谱图被整合成高质量的代表性的二级谱图，被认为是共识谱图。生成的共识谱图有助于驱动谱库构建，例如，为代谢组学和中药物质组研究的数据处理带来便利。

分子网络技术能够根据谱图相似性辨析出结构类似物，有效的表征复杂网络中的结构类似物。但是网络中所对应的节点不能直接用来构建模拟谱库。因为用于构建网络的谱图来源单一，存在噪音干扰，得到的谱图不具有代表性。因此本发明开发了分子网络到模拟谱库的接口框架，该框架可以将分子网络中节点蕴含的谱图直接转化成共识谱图，并导入谱库中，用于其他样品的下机质谱数据的谱图比对和化合物鉴定。

现有技术的缺点：①分子网络只能用于发现未知化合物，不能用来直接产生共识谱图，不能直接导入谱库以供应用。②谱库中谱图的构建通常基于标准化合物，对无标准品的化合物的谱图构建无能为力。

本技术的改进之处：克服谱图构建时严重依赖于标准品的不足，通过本技术所阐述的分子网络和共识谱图的接口框架，可以将分子网络节点中所包含的谱图，或分子网络中无标准品的化合物，转换成供直接比对的共识谱图，导入谱库中供直接使用。该方法不依赖于标准品，转化准确，效率高，并且转化速度快。

构建接口框架中的技术难点：①二级质谱谱图是一种谱图信息，无法直接用于数据处理，本发明通过分箱操作，将二级谱图转化成稀疏矩阵；②分子网络节点中所包含的谱图，存在严重的干扰，或存在低质量的谱图，通过密度聚类的方法将干扰谱图去掉；③因为共识谱图来源于样品，无法评价所构建的参考谱图或模拟谱图，本技术采用4种方法平行构建参考谱图或模拟谱库，最终对4种方法构建的参考谱图或模拟谱库进行评价，得到最优解。

色谱质谱联用技术产生的数据通常需要结合质谱数据库来进行成分解析，现有的质谱数据库中的谱图大多是基于标准化合物构建的，将建立的谱图导入至谱库中，用于鉴定样品中的未知化合物。通过这种方法建立的质谱数据库，仅能够提供非常有限的化合物数目，而中药和生物样本等所含组分极其复杂，现有的基于标准化合物构建的质谱数据库并不能满足其化学成分的分析。为了解决上述质谱数据库的局限性，亟需构建一种新的谱库构建体系。构建来源于样本的共识谱图，并导入质谱谱库，用于更大范围的解析样品中的未知化合物。与传统的基于标准化合物构建的质谱谱库相比，所涵盖的化合物数目会大大增加。

分子网络可以识别并帮助解析样品中的未知化合物，但是分子网络中节点所包含的二级谱图，由于谱图来源单一，存在噪音干扰，不能直接用来构建共识谱图，并导入谱库中。本发明提出了一个分子网络和共识谱图接口框架的工作流程。通过该接口框架的工作流程，可以方便的将分子网络中的节点转化成共识谱图，将共识谱图导入质谱数据处理软件，用于直接比对其他样品数据。

发明内容

本发明所要解决的技术问题是，提供了一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法，该法不依赖于标准品，转化准确，效率高，并且转化速度快。

为解决上述技术问题，本发明采用的技术方案为：

构建分子网络和共识谱图接口框架以建立质谱谱库的方法，包括以下步骤：

步骤一，采用色谱质谱联用仪对药材提取物或衍生化处理后药材提取物进行检测，获得药材提取物原始数据；

步骤二，利用药材提取物原始数据构建分子网络；

步骤三，构建分子网络和共识谱图接口框架。

步骤一中，药材经过提取或衍生化处理后，用色谱质谱联用仪对药材进行检测，得到色谱和质谱信息。

质谱仪至少具有二级裂解功能，包括四极杆-飞行时间质谱仪、四极杆-静电场轨道阱复合式质谱仪、线性离子阱-静电场轨道阱组合式质谱仪的任意一种。色谱条件可以选择正相色谱分离，也可以选择反相色谱分离。

步骤二中，构建分子网络时，某前体离子产生的二级谱图与另一个前体离子产生的二级谱图相比较，达到以下要求则两个前体离子以边edge相连接，而每一个前体离子以节点node表示，前体离子对应的二级谱图存储在节点中：

①两个前体离子产生的二级谱图中，存在大于等于3个碎片离子峰相匹配，即存在大于等于3个共有碎片离子或共有中性丢失；

②互相匹配：共有碎片离子或共有中性丢失之间质量误差值设定为0.02Da；

③采用公式(1)计算两个前体离子的二级谱图的相似度，得分值必须≥0.7；

④如果某个节点与任何一个其他的节点相连，则称之为一个网络，如果网络中的节点小于等于2，则将该网络过滤掉；

Score_edge＝a₁×Score_RT+a₂×Score_cosine (1)

其中，Score_RT表示两个前体离子的色谱峰的保留时间的接近度；Score_cosine为两个二级谱图之间的余弦相似度；a₁和a₂为权重，a₁的取值为0.3，a₂的取值为0.7；

Score_RT的计算公式为：

其中，T₁和T₂分别为两个前体离子的色谱峰的保留时间，T_total为总的洗脱时间；

Score_cosine的计算公式为：

其中，I和I’分别代表两个前体离子所对应二级谱图中相匹配的碎片离子，即共有碎片离子的相对强度；n为匹配碎片离子的个数。

步骤三中，构建分子网络和共识谱图接口框架包括以下步骤：

S01，将所有样品导入MS-DIAL进行峰拾取和反卷积，然后将包含二级质谱信息的每个样品的峰列表合并，得到csv.格式数据。

S02，提取二级谱图，以分子网络中节点对应的前体离子的质核比m/z±0.02为关键词，提取.csv格式数据中所有二级谱图，并对提取获得的二级谱图进行连续编号spect_number，同时对节点进行编号node_number；

S03，提取二级谱图中所有的碎片离子及其相应的丰度，按照碎片离子大小进行排序，找到碎片离子的最小值和最大值，对最小值向下取整数，记作ms2_min；对最大值向上取整数，记作ms2_max；高分辨质谱数据的箱宽设定为m/z 0.02，低分辨质谱数据的箱宽设定为m/z 1.00，以碎片离子最小值ms2_min开始，每间隔一个箱宽的尺度设定一个箱子，箱标y则设定为：上限～下限，箱子数＝(ms2_max-ms2_min)÷箱宽；

S04，如果箱宽是m/z 0.02，则按照以下公式确定每个碎片离子所在的箱标，y＝int(碎片离子的m/z×100)，y值如为偶数，则该碎片离子箱标的上限＝y÷100；y值如为奇数，则该碎片离子箱标的上限＝(y-1)÷100，箱标的下限＝上限+箱宽；如果箱宽为m/z1.00，则每个碎片离子取整数，作为碎片离子的箱标上限，箱标的下限＝上限+箱宽，通过以上步骤确定每个碎片离子所在的箱标；

S05，根据箱标确定碎片离子在矩阵中的行号和列号，其中，行号为二级谱图的连续编号spect_number，而列号＝(上限-ms2_min)/箱宽；根据碎片离子的行号和列号，分别把碎片离子及其相对丰度依次放入两个矩阵中各自对应的位置上，箱子中存在的空缺值用0填补；由于矩阵含有零值的个数较多，因此将二维矩阵存储至稀疏矩阵中进行下一步的聚类分析；通过这一步骤，所有的谱图都被分箱转化，产生了两个稀疏矩阵数据，稀疏矩阵I存储碎片离子的质核比，稀疏矩阵II存储碎片离子的相对丰度值；

S06，稀疏矩阵II进行密度聚类DBSCAN分析，计算每张二级谱图到最近邻5张二级谱图的平均距离，绘制k-距离曲线图，选择曲线中明显拐点的位置作为密度聚类的eps参数；随机从一个未被访问的二级谱图开始，以eps为半径搜索所有相邻的二级谱图，如果相邻二级谱图的个数大于5，则聚类过程开始，当前二级谱图成为该簇的第一核心点，否则，该点被标记为噪声；而与第一核心点相邻的二级谱图则被归为同簇，对同簇内二级谱图进行重复访问，查看与之相邻二级谱图的个数，个数大于5，则纳入该簇，直到访问完同簇内所有的二级谱图为止，即完成该簇的划分；接着处理新的未访问二级谱图，重复以上步骤；通过该步骤分析，每张二级谱图都产生一个簇编号，如果编号为零则表示为噪音谱图；

S07，除去噪音谱图，如果分子网络中的节点对应的所有二级谱图，都在一个簇内，那么簇内所有二级谱图都用于该节点模拟谱图的构建；如果分子网络中的节点所对应的二级谱图，产生了一个以上的簇，则选择簇占比大于等于70％的簇，用于该节点模拟谱图的构建；簇占比的公式见公式2；如果分子网络中的节点产生了一个以上的簇，并且每一簇的簇占比都小于70％，则放弃该节点模拟谱图的构建；通过以上分析，每个节点均产生一个用于构建模拟谱库的簇；

簇占比＝该簇二级谱图的张数÷节点对应的二级谱图总张数×100％(2)

S08，通过4种方法构建共识谱图；

方法一，计算稀疏矩阵II中，每个簇的箱子中相对丰度值的算术平均值，作为该节点模拟谱图的丰度；相对应的，计算稀疏矩阵I中，每个簇的前体离子的质核比m/z的算术平均值，作为该节点模拟共识谱图的碎片离子质核比；

方法二，检查稀疏矩阵II中每个簇中的数据，如果箱子中含有0的频次高于75％，则把该箱子删除；计算稀疏矩阵II中，每个簇剩余箱子相对丰度值的算术平均值，作为该节点模拟谱图的丰度；相对应的，计算稀疏矩阵I中，每个簇的前体离子的质核比m/z的算术平均值，作为该节点模拟共识谱图的碎片离子质核比；

方法三，对每个簇中的二级谱图进行两两配对，计算每张二级谱图与簇中其余各二级谱图中相对丰度值的相似度，并求出算术平均值，算术平均值最大的那张谱图，即作为代表性的模拟共识谱图；

方法四，将簇内所有的二级谱图纳入一个模拟谱库中，导入至质谱数据处理软件中，用步骤一产生的药材提取物原始数据，原始数据包括色谱及质谱信息，对簇内所有二级谱图进行测试，选择匹配得分最大的谱图作为该聚类的代表，即为该节点的模拟共识谱图；

经过这个步骤，分子网络中的每个节点都产生了一个对应的模拟共识谱图，全部的节点的模拟共识谱图构成模拟谱库；

S09，对上述四种方法得到的模拟谱库进行评价；用外部数据集对四种方法得到的模拟谱库进行评价，外部数据集为除构建分子网络外的样本经过与步骤一相同的化学标记处理和液质方法采集得到；以四种方法获得的模拟谱库在外部数据集测试中的匹配分数的加权平均值，即权重值为评价指标，a为四种方法得到的碎片离子总个数，b为每种方法得到的碎片离子个数，权重值的计算公式如下：权重值＝1－b÷a；从四种方法中选择权重值最大的方法来构建模拟共识谱图；

S10，根据模拟共识谱图和分子网络的结果对该节点进行结构解释，将化合物名称，化学标记后的分子式，前体离子和二级碎片离子，以及SMILES信息录入模拟谱库即可。

高分辨质谱数据为分辨率大于等于10000FWHM的质谱仪采集的数据；低分辨质谱数据为分辨率小于10000FWHM的质谱仪采集的数据。

本发明的有益效果：

本发明克服谱图构建时严重依赖于标准品的不足，通过本发明所阐述的分子网络和共识谱图的接口框架，可以将分子网络节点中所包含的谱图，或分子网络中无标准品的化合物，转换成供直接比对的共识谱图，导入谱库中供直接使用。该方法不依赖于标准品，转化准确，效率高，并且转化速度快。

本发明构建来源于样本的共识谱图，并导入质谱谱库，用于更大范围的解析样品中的未知化合物。与传统的基于标准化合物构建的质谱谱库相比，所涵盖的化合物数目大大增加。

附图说明

图1是本发明的流程图；

图2是本发明金银花、蒲公英、野菊花、紫花地丁药材提取物的子网络的图；

图3是本发明的1号谱图；

图4是本发明的四种方法产生的1～14个节点的碎片离子个数的图；

图5是本发明的四种方法构建的谱库在数据集测试中的匹配分数的图；

图6是本发明方法二所构建谱库与外部数据集的部分匹配结果图。

具体实施方式

下面结合附图以及具体实施例对本发明一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法作进一步详细说明。

实施例1

如图1所示，一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法，构建金银花、蒲公英、野菊花、紫花地丁药材有机酸物质成分的质谱谱库。

(1)采用色谱质谱联用仪对化学标记的药材提取物进行检测

步骤一：称取金银花、蒲公英、野菊花、紫花地丁药材粉末各1g，用10mL 75％乙醇溶液浸泡30min，超声提取30min，提取液以18000rpm·min^-1离心10min，吸取上清液200μL，45℃挥干。在干燥的样品中先加入乙腈200μL，涡旋混匀，再加入20μmol/mL三乙胺30μL和20μmol/mL 2-氯-1-甲基碘化吡啶15μL，涡旋混匀。将混合物在40℃下孵育5min，加入20μmol/mL N,N-二甲基乙二胺30μL，混合涡旋1min，在40℃下孵育2小时。将得到的反应液在45℃下挥干，最后在100μL体积比为1/9的乙腈水溶液中重新溶解，进行后续的色谱质谱检测。

步骤二：使用Dionex Ultimate 3000超高效液相色谱仪和Thermo Scientific四极杆-静电场轨道阱高分辨质谱仪对化学标记的药材提取物进行分析。色谱柱为ACQUITYUPLCCSH^TMC18(2.1×100mm，1.7μm)，流动相以0.1％甲酸水溶液(A)和0.1％甲酸乙腈溶液(B)进行梯度洗脱(0～2min，25％B；2～8min，25％B～90％B；8～10min，90％B；10～11min，90％B～25％B)；流速0.3mL·min^-1；柱温45℃；进样量5μL。质谱方法为电喷雾离子化方式，正离子条件检测；毛细管温度300℃；鞘气流速60arb，辅助气流速25arb；电喷雾温度300℃；一级谱图扫描范围m/z 120～900，分辨率70000，自动增益目标值1.0×10⁶；二级谱图获取的方式为数据依赖型的采集模式，分辨率17500，自动增益目标值2.0×10⁴，归一碰撞能量设置为20、30和40eV。

(2)构建分子网络

步骤一：原始数据的格式转化。使用ProteoWizard 3.0中的MSConvert GUI将仪器采集到的原始数据文件转换成.mzML格式文件；

步骤二：色谱峰拾取、解卷积和峰对齐。将转换后的.mzML文件导入MZmine 2.53软件中进行数据处理，并导出.mgf格式文件。本案例中数据处理的具体参数设置如下：一级谱图的噪音水平1.0×10⁶，二级谱图的噪音水平1.0×10³；构建色谱图：设置最小数据点数为5，最小信号强度为1.0×10⁶，最小最高点强度为3.0×10⁶，m/z公差0.01Da或10ppm；使用局部最小值搜索算法对色谱进行反卷积，设置色谱阈值为10％，最小保留时间搜索范围为0.5min，最小相对高度为5％，最小绝对高度为3.0×10⁶，峰顶/边的最小比率为1.5，峰值持续时间范围0～5min，MS²(即二级谱图)扫描配对的m/z范围0.02Da，MS²扫描配对的保留时间范围0.2min；使用m/z公差0.01Da或10ppm，保留时间误差值0.2min去除同位素峰；以m/z公差0.01Da或10ppm，m/z权重值75，保留时间误差值0.2min，保留时间权重值25，将列表对齐。

步骤三：构建分子网络。将mgf格式文件上传至GNPS网络平台(https://gnps.ucsd.edu)进行分析，设置前体离子质量误差值和碎片离子质量误差值均为0.02Da，两个节点间的最小余弦分数为0.7，并且至少有3个匹配碎片离子峰，边缘得分按照公式(1)计算。

Score_edge＝a₁×Score_RT+a₂×Score_cosine (1)

Score_RT的计算公式为：

Score_cosine的计算公式为：

如图2所示，为金银花、蒲公英、野菊花、紫花地丁药材提取物的子网络的结构示意图。

(3)将网络节点转换成模拟谱图

步骤一：所有样品导入MS-DIAL(版本4.9.2)进行峰拾取和反卷积，将包含二级质谱信息的每个样品的峰列表合并，得到csv.格式的数据。

步骤二：提取二级谱图。以图2所示的子网络为例，首先获得14个节点中包含的前体离子的质核比为257.259、271.274、367.368、365.353、383.399、381.384、379.368、397.415、395.4、411.431、409.415、425.446、439.462、495.525，以前体离子质核比(～m/z±0.02)为关键词，提取.csv格式数据中共604张二级谱图，然后对二级谱图进行1到604的连续编号(spect_number)，同时对604张谱图所对应的前体离子进行1到14编号(node_number)。

步骤三：提取二级谱图中所有碎片离子及其相应丰度，按照碎片离子大小进行排序。ms2_min向下取整数为60，ms2_max向上取整数为512。箱宽设定为m/z 0.02。以ms2_min开始，每间隔一个箱宽的尺度设定一个箱子，共有22600个箱子。

步骤四：确定每个碎片离子所在的箱标。箱标设定为上限～下限，按照以下公式确定每个碎片离子所在的箱标。y＝int(碎片离子的m/z×100)，y值如为偶数，则该碎片离子箱标的上限＝y÷100；y值如为奇数，则该碎片离子箱标的上限＝(y-1)÷100。箱标的下限＝上限+箱宽。例如m/z 72.08164的y值为偶数，该碎片离子箱标的上限为72.08，下限为72.10，m/z 79.05504的y值为奇数，则该碎片离子的上限为79.04，下限为79.06。

步骤五：根据箱标确定碎片离子所在矩阵中的行与列。其中，行号为谱图的连续编号spect_number，而列号＝(上限-ms2_min)/箱宽，根据碎片离子的行号和列号，分别把碎片离子及其相对丰度依次放入矩阵相应位置中，如1号谱图(图3)中m/z 72.0816的碎片离子或其相对丰度所在位置为第1行，604列。箱子中存在的空缺值用0填补。将二维矩阵存储至稀疏矩阵中进行下一步的聚类分析。通过这一步骤，所有的谱图都被分箱转化，产生两个稀疏矩阵数据，稀疏矩阵I存储碎片离子的质核比，稀疏矩阵II存储碎片离子的相对丰度值。

步骤六：稀疏矩阵II进行密度聚类(DBSCAN)分析。计算每张谱图到最近邻5张谱图的平均距离，绘制k-距离曲线图，根据曲线中的拐点位置选择eps＝0.7作为密度聚类的初始化参数。随机从一个未被访问的谱图开始，以eps为半径搜索所有相邻的谱图。如果相邻谱图的个数大于5，则聚类过程开始，当前谱图成为该簇的“第一核心点”。否则，该点将被标记为噪声。而与“第一核心点”相邻的谱图则被归为同簇，对同簇内谱图进行重复访问，查看与之相邻谱图的个数，个数大于5，则纳入该簇，直到访问完同簇内所有的谱图为止，即完成该簇的划分。继续处理新的未访问谱图，重复以上步骤。通过该步骤，604张谱图划分为16个簇，编号为0的谱图为噪音谱图。

步骤七：弃去155张噪音谱图后，1到14节点中，除了节点9和13外，其余各产生了一个簇。节点9产生簇9与簇10，其中簇10占比72.73％。节点13产生簇14与簇15，其中簇14占比92.77％，因此分别选择簇10和簇14构建节点9和节点13的模拟谱图。通过以上分析，每个节点均产生一个可以用于构建谱库的簇。

步骤八：通过4种方法构建共识谱图。

方法一，计算稀疏矩阵II中，每个簇的箱子中相对丰度值的算术平均值，作为该节点模拟谱图的丰度。相对应的，计算稀疏矩阵I中，每个簇的前体离子的算术平均值，作为该节点模拟谱图的碎片离子质核比；

方法二，检查稀疏矩阵II中每个簇中的数据，如果箱子中含有0的频次高于75％，则把该箱子删除。计算稀疏矩阵II中，每个簇剩余箱子相对丰度值的算术平均值，作为该节点模拟谱图的丰度。相对应的，计算稀疏矩阵I中，每个簇的前体离子的算术平均值，作为该节点模拟谱图的碎片离子质核比；

方法三，对每个簇中的谱图进行两两配对，计算每张谱图与簇中其余各谱图的相似度，并求出算术平均值，算术平均值最大的那张谱图，即作为代表性的模拟谱图；

方法四，将簇内所有的谱图纳入一个模拟谱库中，导入至质谱数据处理软件中(如MS-DIAL或MZmine)，用第(2)步产生分子网络的数据，对簇内所有谱图进行测试，选择匹配得分最大的谱图作为该聚类的代表，即为该节点的模拟谱图。

最后，网络中的每个节点产生一个对应的模拟谱图。

1～14个节点中，方法一产生的碎片离子个数为297、177、262、175、246、259、168、242、254、962、158、216、764、78；方法二产生的碎片离子个数为4、3、7、6、4、6、7、6、8、4、4、5、5、8；方法三产生的碎片离子个数为19、15、24、33、15、20、19、24、47、20、18、15、36、20；方法四产生的碎片离子个数为10、9、17、20、12、15、18、19、10、14、17、12、13、18(图4)。

步骤九：模拟谱库的评价。用外部数据集对四种方法得到的模拟谱库进行评价，外部数据集为苦杏仁、麻黄、甘草经过与步骤(1)相同的化学标记处理和液质方法采集得到。图5为四种方法构建的谱库在数据集测试中的匹配分数，由方法一所构建的谱库表现最差，其次是方法三。模拟谱库以其在数据集测试中的匹配分数的加权平均值为评价指标，a为四种方法得到的碎片离子总个数，b为每种方法得到的碎片离子个数，权重值的计算公式如下：权重值＝1－b÷a。四种方法对应匹配分数的加权平均值分别为0.11、0.97、0.90、0.94，因此方法二为最优解，图6为方法二所构建谱库的部分匹配结果。

步骤十：根据模拟谱图和分子网络的结果对该节点进行结构解释，将化合物名称，化学标记后的分子式录入谱库。

如节点1所对应前体离子为m/z 257.2590(离子类型为[M+H]⁺)。通过ThermoXcalibur软件中的Elementalcomposition功能预测该质核比对应的分子式为C₁₅H₃₂ON₂。减去由衍生化产生的碎片离子m/z 71.0967，得到该前体离子所对应化合物精确质量数为186.1622，通过ThermoXcalibur软件中的Elementalcomposition功能预测化合物分子式为C₁₁H₂₂O₂，不饱和度为1。由于分子中存在羧基，且不饱和度为1，所以该节点为脂肪酸(Fatty Acid)，命名为FA 11:1，并将其产生的共识(二级)谱图录入谱库。

实施例2

本实施例与实施例1的区别仅在于：

分辨率小于10000FWHM的质谱仪采集的数据(低分辨质谱数据)，箱宽设定为m/z1.00，每个碎片离子取整数，作为碎片离子的箱标上限，箱标的下限＝上限+箱宽，通过以上步骤确定每个碎片离子所在的箱标。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.构建分子网络和共识谱图接口框架以建立质谱谱库的方法，其特征在于，包括以下步骤：

步骤二，利用药材提取物原始数据构建分子网络；

步骤三，构建分子网络和共识谱图接口框架；

S01，将所有样品导入MS-DIAL进行峰拾取和反卷积，然后将包含二级质谱信息的每个样品的峰列表合并，得到csv.格式数据；

S04，如果箱宽是m/z 0.02，则按照以下公式确定每个碎片离子所在的箱标，y＝int(碎片离子的m/z×100)，y值如为偶数，则碎片离子箱标的上限＝y÷100；y值如为奇数，则碎片离子箱标的上限＝(y-1)÷100，箱标的下限＝上限+箱宽；如果箱宽为m/z 1.00，则每个碎片离子取整数，作为碎片离子的箱标上限，箱标的下限＝上限+箱宽，通过以上步骤确定每个碎片离子所在的箱标；

S06，稀疏矩阵II进行密度聚类DBSCAN分析，计算每张二级谱图到最近邻5张二级谱图的平均距离，绘制k-距离曲线图，选择曲线中明显拐点的位置作为密度聚类的eps参数；随机从一个未被访问的二级谱图开始，以eps为半径搜索所有相邻的二级谱图，如果相邻二级谱图的个数大于5，则聚类过程开始，当前二级谱图成为簇的第一核心点，否则，该点被标记为噪声；而与第一核心点相邻的二级谱图则被归为同簇，对同簇内二级谱图进行重复访问，查看与之相邻二级谱图的个数，个数大于5，则纳入簇，直到访问完同簇内所有的二级谱图为止，即完成簇的划分；接着处理新的未访问二级谱图，重复以上步骤；通过该步骤分析，每张二级谱图都产生一个簇编号，如果编号为零则表示为噪音谱图；

S07，除去噪音谱图，如果分子网络中的节点对应的所有二级谱图，都在一个簇内，那么簇内所有二级谱图都用于节点模拟谱图的构建；如果分子网络中的节点所对应的二级谱图，产生了一个以上的簇，则选择簇占比大于等于70％的簇，用于节点模拟谱图的构建；簇占比的公式见公式2；如果分子网络中的节点产生了一个以上的簇，并且每一簇的簇占比都小于70％，则放弃节点模拟谱图的构建；通过以上分析，每个节点均产生一个用于构建模拟谱库的簇；

簇占比＝簇二级谱图的张数÷节点对应的二级谱图总张数×100％(2)

S08，通过4种方法构建共识谱图；

方法一，计算稀疏矩阵II中，每个簇的箱子中相对丰度值的算术平均值，作为节点模拟谱图的丰度；相对应的，计算稀疏矩阵I中，每个簇的前体离子的质核比m/z的算术平均值，作为节点模拟共识谱图的碎片离子质核比；

方法二，检查稀疏矩阵II中每个簇中的数据，如果箱子中含有0的频次高于75％，则把该箱子删除；计算稀疏矩阵II中，每个簇剩余箱子相对丰度值的算术平均值，作为节点模拟谱图的丰度；相对应的，计算稀疏矩阵I中，每个簇的前体离子的质核比m/z的算术平均值，作为节点模拟共识谱图的碎片离子质核比；

2.根据权利要求1所述的方法，其特征在于，步骤一中，药材经过提取或衍生化处理后，用色谱质谱联用仪对药材进行检测，得到色谱和质谱信息。

3.根据权利要求2所述的方法，其特征在于，质谱仪至少具有二级裂解功能，包括四极杆-飞行时间质谱仪、四极杆-静电场轨道阱复合式质谱仪、线性离子阱-静电场轨道阱组合式质谱仪的任意一种。

4.根据权利要求1所述的方法，其特征在于，步骤二中，构建分子网络时，某前体离子产生的二级谱图与另一个前体离子产生的二级谱图相比较，达到以下要求则两个前体离子以边edge相连接，而每一个前体离子以节点node表示，前体离子对应的二级谱图存储在节点中：

Score_edge＝a₁×Score_RT+a₂×Score_cosine (1)

Score_RT的计算公式为：

Score_cosine的计算公式为：

5.根据权利要求1所述的方法，其特征在于，高分辨质谱数据为分辨率大于等于10000FWHM的质谱仪采集的数据；低分辨质谱数据为分辨率小于10000FWHM的质谱仪采集的数据。