CN108061776B

CN108061776B - 一种用于液相色谱-质谱的代谢组学数据峰匹配方法

Info

Publication number: CN108061776B
Application number: CN201610978694.5A
Authority: CN
Inventors: 许国旺; 李丽丽; 孔宏伟; 赵春霞; 路鑫
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2016-11-08
Filing date: 2016-11-08
Publication date: 2020-08-28
Anticipated expiration: 2036-11-08
Also published as: CN108061776A

Abstract

本发明公开了一种通用的用于液相色谱‑质谱代谢组学数据的峰匹配方法，该方法充分利用采集的质谱信息，通过内源性多参比离子进行保留时间校正，并辅以二级质谱信息进行峰匹配。保证了后续峰匹配结果的准确性；并且在峰匹配过程中，辅以二级质谱信息，有效解决了部分质量数和保留时间相近的代谢物峰匹配错误问题，提高了峰匹配的准确性。本发明方法在保留时间漂移较大的数据集中匹配效果尤为突出。

Description

一种用于液相色谱-质谱的代谢组学数据峰匹配方法

技术领域

本发明涉及分析化学领域，是一种用于液相色谱-质谱采集数据的利用二级碎片信息辅助进行代谢组学峰匹配的新方法。

背景技术

代谢组学是系统生物学的重要的一部分，是“后基因组”研究中快速发展的一门学科。代谢物作为基因表达的终点，最为接近生物体的表型，也最能直接反映出生物体受外界环境扰动的影响。代谢组学是通过考察生物体系(细胞、组织或生物体)受刺激或扰动后，其代谢产物的变化或其随时间的变化，来研究生物体系的一门科学。

液相色谱-质谱联用技术是代谢组学主流分析工具之一。在基于液相色谱-质谱联用的代谢组学研究中，数据处理的第一步是峰匹配。到目前为止，已经发展出很多代谢组学数据的峰匹配方法，比如开源的XCMS,仪器公司开发的Markerview(AB Sciex公司)、MPP(安捷伦公司)等，但上述峰匹配方法均有其局限性。首先，由于生物样品的代谢组种类繁多，在同一个保留时间下洗脱出很多共流出物，且由于存在多个同分异构体，其质量数相同，色谱保留时间接近，这部分代谢物的峰匹配经常出错。其次，在长时间的液相色谱分析过程中，由于流动相PH改变、室温变化，而引起保留时间的漂移，造成峰匹配结果不准确。此外，现有的峰匹配算法，均需要先筛选出一些变量作为后续保留时间校准的参比标准，但如果参比变量在组学样本中的自身匹配有误，将会影响其后续对其它变量的校正和匹配结果。最常用的参比变量有两种，一种是样本本身不存在的，如外加的内标。外源性内标的加入增加了预处理的复杂性，且高质量外源性内标的数量和选择范围有限，限制了其应用。第二种是样本本身存在的，从样本中筛选出的变量，当只依据质谱的质量数和保留时间进行筛选时，易受到一些不可控因素影响，比如保留时间的漂移和同分异构体的影响等。

本发明针对目前代谢组学峰匹配方法存在的问题，发明了一种通用的液相色谱-质谱代谢组学数据的峰匹配方法。本发明充分利用待测组学样本数据采集得到的一级和二级质谱信息，从中筛选得到多个稳定、可靠的参比变量；利用多个参比变量进行保留时间校正，进而进行峰匹配；对于质量数和保留时间接近的变量，如其二级碎片有差异，采用二级质谱信息进行匹配，可有效提高匹结果的准确性。

本发明的技术方案如下所示：

(1)代谢组学数据采集：首先样品通过液相色谱分离进入质谱分析，同时采集一级和二级质谱数据，得到包含有一级和二级质谱信息的原始数据；然后从原始数据导出一级质谱信息(包括质量数、保留时间和峰强度)和二级质谱信息(包括一级质谱的质量数、保留时间、对应的二级碎片的质量数和碎片强度)。

(2)将一级质谱与二级质谱数据对应：设置保留时间窗口±3秒和质量数窗口±5ppm，即，对应时：一级质谱质量数为A，对应二级质谱质量数为A±5ppm进行匹配；一级质谱保留时间为B，对应二级质谱保留时间为B±3秒进行匹配。然后二级质谱进行筛选。筛选原则如下：保留每个二级质谱数据中子离子的相对强度大于等于基峰(二级质谱数据中强度最大的峰)强度15％的碎片，并且满足子离子(碎片)与母离子(是指一级质谱峰)的质量数差值Δm>13.9；当一个一级质谱峰的数据对应两个以上的二级质谱数据时，仅保留基峰强度最大的二级质谱数据，最终实现一个一级质谱的母离子对应一个二级质谱数据。

(3)参比变量的筛选和匹配：参比变量的筛选和匹配；从上述含有二级质谱信息的母离子(是指一级质谱峰)中筛选参比变量；首先选择分析序列中的第一个样本，设置保留时间窗口为±30秒，参比离子应满足在设定的质量数窗口±5ppm内只有一个质谱峰存在的峰定义为可能的参比变量，即，一级质谱峰保留时间为B，在B±30秒时间范围内查找一级质谱质量数为A，质量偏差为±5ppm内只有一个色谱峰存在的峰定义为可能的参比变量；然后将满足条件的参比离子在第2个样本中依次进行一级质量数(质量数窗口为±7.5ppm，即，第一样本中的质量数为A，对应第2个样本质量数为A±7.5ppm进行匹配)、保留时间(时间窗口为±15秒，即，第一个样本中的质量数为B，对应第2个样本保留时间为B±15秒进行匹配)和二级质谱的匹配，二级质谱数据匹配的原则是大于等于基峰(二级质谱数据中强度最大的峰)强度25％以上的碎片完全匹配；然后将第二个样本中匹配上的参比变量作为标准，在第三个样本进行匹配…，直至在所有样本中均完成参比变量的匹配；在所有样本中均能完全匹配上的变量即被选定为候选参比变量。

(4)候选参比变量的评价和参比离子的确定：候选参比变量的评价和参比离子的确定；在所有的待测样本中对候选参比变量进行评价；评价方法是对每一个待评价的候选参比变量，选取保留时间距其最近的且彼此之间保留时间间隔大于平均峰宽的4个候选参比变量，然后通过两个样本间候选参比变量的保留时间进行局部线性回归，根据第一个样本中的候选参比变量的保留时间计算得到在第2个样本中的校正保留时间，计算校正保留时间和第2个样本中该候选参比变量实际保留时间的差值，同样的进行第3个直至第n个样本。差值的阈值设定为平均峰宽(第一个样本中的所有峰的峰宽平均值)；经过所有待评价的候选参比变量第一次计算，去除参比变量中在所有样本中平均差值最大且大于阈值的一个参比变量，重新进行第二次计算；再去除所有剩余参比变量在所有样本中平均差值最大且大于阈值的一个参比变量，进行下一次计算，直至所有的参比变量在所有样本中的差值均小于设定的阈值。

(5)基于多参比离子的保留时间校正。保留时间校正方法为对每一个变量选择4个与其保留时间相近的参比变量，并且这4个参比变量之间保留时间间隔大于平均峰宽。然后通过两个样本间候选参比变量的保留时间进行局部线性回归，根据第一个样本中的候选参比变量的保留时间计算得到在第2个样本中的校正保留时间，同样的进行第3个直至第n个样本。

(6)峰匹配。在所有样本中确定参比离子，将分析序列中的第一个样本中除参比离子外的所有变量根据其保留时间选择其在第2个样本中的参比离子，计算其在第2个样本中的校正保留时间；设定保留时间窗口为±10秒(即，第一个样本中的保留时间为B，对应第2个样本保留时间为B±10秒进行匹配)，质量数窗口为±10ppm(即，第一个样本中的质量数为A，对应第2个样本质量数为A±10ppm进行匹配)，在第二个样本中查找变量进行峰匹配；如在设定的保留时间和质量数窗口内，变量唯一，则将该唯一变量直接匹配；有多个变量满足设定条件时，如该变量有对应的二级质谱数据，将二级质谱数据进行匹配；匹配原则为二级质谱碎片离子强度大于等于基峰(二级质谱数据中强度最大的峰)强度25％以上的应完全匹配；对于二级质谱数完全一致或没有对应二级质谱数据的变量，则将保留时间与校正保留时间差值最小的变量进行匹配；同样的进行第3个直至第n个样本的峰匹配，直至分析序列中全部样本均完成峰匹配。

第一个样本为QC质量控制样本，所述QC质量控制样本是指对于待分析的一批样品，在每个样品中取出等量的一小份混合均匀得到的混合样品。QC质量控制样品可以代表整批样本的化合物组成情况。

本发明发展了一种用于液相色谱-质谱的代谢组学数据峰匹配方法，通过筛选内源性的参比变量，可获得相对较多的可靠参比变量，将其用于保留时间校正和峰匹配，匹配结果将更准确、可靠。由于在峰匹配过程中二级质谱信息的充分利用，使得部分质量数和保留时间相近的变量的峰匹配准确性得到大大提高。由于在参比变量的筛选过程中，依次进行比对，参比变量的筛选不受保留时间漂移的影响，所以该发明内容特别适用于保留时间漂移的数据集。

附图说明

图1为发明的流程图。

图2为筛选出的参比变量的保留时间和质量数分布图。蓝色的菱形点代表参比变量。灰色的圆点代表样本中的其他变量。

图3为实例中的64个样品校正前和校正后的保留时间对比图。A，未经校正的保留时间的散点图。B，校正后的保留时间的散点图。C，单个变量的校正效果(m/z＝961.5855，RT＝871秒，保留时间为在第一个QC质量控制样本中的时间)，蓝色点为该变量校正前的保留时间，紫色点为该变量校正后的保留时间。

图4为牡荆素糖苷和异荭草素糖苷的一级和二级质谱图。A，牡荆素糖苷，B，异荭草素糖苷。

图5为该发明方法和商业化软件Markerview匹配结果中QC样本中变量的RSD分布结果图。柱状图为峰个数，折线图为累积峰面积。蓝色为该发明方法的结果，紫色为商业化软件的结果。

具体实施方式

实施例

将该样品应用在64个水稻叶片样品(分析周期为8天，每天分析8个样本)的LC-MS代谢组学数据的峰匹配。

水稻叶片提取：称量20毫克的水稻叶片，加入1毫升甲醇/水(v/v,4:1)提取试剂，涡旋6分钟，然后离心15分钟，取400微升上清液冻干。复溶时使用80微升乙腈/水(v/v,1:4)溶剂，等完全溶解后，转移至进样瓶，待进样分析。

液相色谱-质谱分析条件如下：

超高效液相色谱-高分辨质谱分析仪器采用ACQUITY UPLC超高效液相色谱分析系统(Waters，美国)和Triple TOF 5600高分辨质谱(AB SCIEX，美国)。色谱柱为AcquityUPLCBEH C₈色谱柱，柱长10cm，2.1mm，填料粒径为1.7μm(Waters，美国)。流动相A是纯水中加入0.1％的甲酸，流动相B是乙腈中加入0.1％的甲酸。梯度洗脱条件为：0-1min，5％B；1-8min，5％B到35％B；8-9min，35％B到60％B；9-13min，60％B到85％B；13-17min，85％B到100％B；17-22min，100％B；22.1min，5％B；22.1-25min，5％B。质谱条件如下：质量数采集范围是50-1200AMU，离子源温度是500℃，喷雾电压为5500V。一级扫描累积时间为0.25秒，子离子扫描累积时间为25毫秒，每个循环中数据依赖采集(IDA)的个数为12。每个循环的时间是0.6秒，碰撞电压是30±10V。采集模式是正离子模式。

一级质谱和二级质谱数据的导出由Peakview软件(AB SCIEX，美国)完成。一级质谱数据由XIC管理器导出，设置条件为峰宽8秒，最小强度为40counts，化学噪音强度倍增设置为1.5。得到一级信息的峰表，包括一级的质量数、保留时间和峰强度。二级质谱是直接将原始数据导出为mgf文件，即可得到可视化的二级信息，包括一级母离子的质量数、保留时间、二级子离子的质量数和碎片强度信息。

将一级和二级质谱数据对应，质量窗口设置为±5ppm，时间窗口为±3秒，(即，一级质谱质量数为A，对应二级质谱质量数为A±5ppm进行匹配；一级质谱保留时间为B，对应二级质谱保留时间为B±3秒进行匹配)。然后对对应上的二级质谱进行筛选。首先去除二级质谱文件中子离子的相对强度小于基峰(二级质谱数据中强度最大的峰)强度15％的碎片，然后删除所有子离子(碎片)与母离子(一级质谱峰)的质量数差值Δm<13.9的二级文件(定义为没有有效的二级碎片)；最后对于一个一级质谱数据对应多个二级质谱数据的情况，仅保留基峰(二级质谱数据中强度最大的峰)强度最大的二级质谱信息，最终实现一个一级质谱的母离子对应一个二级质谱数据。

一级二级质谱数据一一对应以后，从上述含有二级质谱信息的母离子中开始筛选参比变量。首先选择第一个QC质量控制样本，设置保留时间窗口为±30秒，参比离子应满足在设定的质量数窗口±5ppm内只有一个质谱峰存在的峰定义为可能的参比变量，即，一级质谱峰保留时间为B，在B±30秒时间范围内查找一级质谱质量数为A，质量偏差为±5ppm内只有一个色谱峰存在的峰定义为可能的参比变量。然后以一级质量数±7.5ppm和保留时间±15秒的窗口(即，第一样本中的质量数为A，对应第2个样本质量数为A±7.5ppm进行匹配，一级质谱保留时间为B，对应二级质谱保留时间为B±15秒进行匹配)，匹配第二个样本，若有且只有一个，并且二级可以匹配，就认为是匹配上，然后以第二个样本作为标准，依次匹配第三个样本……，最终得到61个候选参比变量峰。其中二级质谱数据匹配的原则是大于等于基峰(二级质谱数据中强度最大的峰)强度25％以上的碎片完全匹配。

对于筛选出的61个候选参比变量，进行进一步的评价，以去除质量不好的参比变量。评价方法是对每一个待评价的候选参比变量，选取保留时间据其最近的且彼此间保留时间间隔大于平均峰宽8秒的4个候选参比变量，然后通过两个样本间候选参比变量的保留时间进行局部线性回归，根据第一个样本中的候选参比变量的保留时间计算得到在第2个样本中的校正保留时间，计算校正保留时间和第2个样本中该候选参比变量实际保留时间的差值，同样的进行第3个直至第64个样本。差值很大的说明该变量不符合该段保留时间的变化趋势，阈值设定为平均差值小于平均峰宽8秒。经过61个候选参比变量第一次计算，首先去除61个参比变量在所有样本中平均差值最大且大于8秒的一个不良候选参比变量，然后对剩下的60个候选参比变量进行第二次计算。经过第二次计算，依然有变量的平均差值大于8秒，去除60个候选参比变量在所有样本中平均差值最大且大于8秒的的一个不良候选参比变量，然后对剩下的59个候选参比变量进行第三次计算，59个参比变量在所有样本中的平均差值小于平均峰宽8秒。最终得到参比变量的个数为59个。

最后根据确定的59个参比变量进行多参比离子的保留时间校正以及峰匹配。保留时间校正方法为对每一个变量选择4个与其保留时间相近的参比变量，并且这4个参比变量之间保留时间间隔大于平均峰宽8秒。然后通过两个样本间候选参比变量的保留时间进行局部线性回归，根据第一个样本中的候选参比变量的保留时间计算得到在第2个样本中的校正保留时间，同样的进行第3个直至第64个样本。在峰匹配过程中，首先选择第一个QC质量控制样本，以其样本中的保留时间计算第二个样本中的校正保留时间，根据校正的保留时间在±10秒窗口内以及质量数窗口±10ppm内(即第一样本中的质量数为A，对应第2个样本质量数为A±10ppm进行匹配，一级质谱保留时间为B，对应二级质谱保留时间为B±10秒进行匹配)，查找变量进行峰匹配。如果在设定的窗口内，只有一个变量，那该变量就直接匹配上；有多个变量时，对于二级质谱信息不一样的变量，用二级质谱信息进行匹配，匹配原则为大于等于基峰(二级质谱数据中强度最大的峰)强度25％以上的碎片完全匹配。对于二级质谱信息完全一样或者没有二级质谱信息的变量，利用保留时间距校正保留时间最近的匹配上。同样进行第3个直至第64个样本。

将该方法得到的匹配结果与商业化匹配软件Markerview(AB SCIEX，美国)的结果进行对比，发现该方法得到的匹配结果中质量控制样本(QC)的RSD小于30％的变量更多，说明该方法的校正效果优于商业化匹配软件。并且对于保留时间接近的同分异构体，该方法的匹配效果更好。比如牡荆素糖苷(vitexin-O-hexoside-O-hexoside)和异荭草素糖苷(isoorientin-O-hexoside-O-deoxyhexoside)质量数都为757.19，保留时间间隔9秒，在该发明方法中匹配结果正确，得到两个峰，在商业化软件中只匹配出一个峰。

Claims

1.一种通用的液相色谱-质谱代谢组学数据峰匹配方法，其特征在于：

将2个以上的代谢组学样本分别采用液相色谱-质谱分析，同时采集一级和二级质谱数据；对采集数据进行一级和二级质谱信息提取，并将一级质谱中的每个峰的一级质谱和二级质谱数据对应；随后进行二级质谱数据的筛选，确保一级质谱和二级质谱数据一一对应；然后对2个以上的代谢组学样本根据质量数、保留时间、二级碎片数据筛选以及评价参比变量，得到可靠的参比变量；最后根据参比变量进行保留时间校正和峰匹配；在峰匹配的过程中，辅以二级质谱数据；

参比变量的筛选和匹配；从含有二级质谱信息的母离子中筛选参比变量；首先选择分析序列中的第一个样本，设置保留时间窗口为±30秒，参比离子应满足在设定的质量数窗口±5 ppm内只有一个质谱峰存在的峰定义为可能的参比变量，即，一级质谱峰保留时间为B，在B±30秒时间范围内查找一级质谱质量数为A，质量偏差为±5 ppm内只有一个色谱峰存在的峰定义为可能的参比变量；

然后将满足条件的可能的参比变量在第2个样本中依次进行一级质量数、保留时间和二级质谱的匹配，二级质谱数据匹配的原则是大于等于基峰强度25%以上的碎片完全匹配；然后将第二个样本中匹配上的参比变量作为标准，在第三个样本进行匹配…，直至在所有样本中完成参比变量的匹配；在所有样本中均能完全匹配上的变量即被选定为候选参比变量；

候选参比变量的评价和参比离子的确定；在所有的待测样本中对候选参比变量进行评价；评价方法为对每一个待评价的候选参比变量，在每个样本中选取距其保留时间最近，且候选参比变量间保留时间间隔大于平均峰宽的4个候选参比变量，然后通过两个样本间候选参比变量的保留时间进行局部线性回归，根据第一个样本中的候选参比变量的保留时间计算得到在第2个样本中的校正保留时间，计算校正保留时间和第2个样本中该候选参比变量实际保留时间的差值，同样的进行第3个直至第n个样本；差值的阈值设定为平均峰宽；经过所有待评价的候选参比变量的第一次计算，去除所有参比变量在所有样本中平均差值最大且大于阈值的一个参比变量，重新对余下的所有候选参比变量进行第二次计算；再去除剩余参比变量在所有样本中平均差值最大且大于阈值的一个参比变量，再进行下一次计算，直至所有的参比变量在所有样本中平均差值均小于设定阈值，即为最终确定的参比离子；

基于多参比离子的保留时间校正；将最终确定的参比离子用于除参比离子外的全部离子的保留时间校正；校正保留时间计算方法为对每一个变量在每个样本中选取距其保留时间最近，且候选参比变量间保留时间间隔大于平均峰宽的4个候选参比变量，然后通过两个样本间候选参比变量的保留时间进行局部线性回归，根据第一个样本中的候选参比变量的保留时间计算得到在第2个样本中的校正保留时间，同样的进行第3个直至第n个样本；

代谢组学数据的峰匹配；在所有样本中确定参比离子，将分析序列中的第一个样本中除参比离子外的所有变量根据其保留时间选择其在第2个样本中的参比离子，计算其在第2个样本中的校正保留时间；设定保留时间窗口为±10秒，质量数窗口为±10ppm，在第二个样本中查找变量进行峰匹配；如在设定的保留时间和质量数窗口内，变量唯一，则将该唯一变量直接匹配；有2个以上变量满足设定条件时，如该变量有对应的二级质谱数据，将二级质谱数据进行匹配；匹配原则为二级质谱碎片离子强度大于等于基峰强度25%以上的应完全匹配；对于二级质谱数完全一致或没有对应二级质谱数据的变量，则将保留时间与校正保留时间差值最小的变量进行匹配；同样的进行第3个直至第n个样本的峰匹配，直至分析序列中全部样本均完成峰匹配。

2.根据权利要求1所述的方法，其特征在于：2个以上的代谢组学样本采用液相色谱-质谱分析，同时采集一级和二级质谱数据，得到包含有一级和二级质谱信息的原始数据；然后从原始数据导出一级质谱信息和二级质谱信息。

3.根据权利要求1所述的方法，其特征在于：通过一级质谱与二级质谱获得的质量数和保留时间，将一级质谱的每个峰的一级质谱与二级质谱数据对应；设置保留时间窗口±3秒和质量数窗口±5 ppm，即，对应时：一级质谱质量数为A，对应二级质谱质量数为A±5 ppm进行匹配；一级质谱保留时间为B，对应二级质谱保留时间为B±3秒进行匹配；

对二级质谱进行筛选，筛选原则如下：保留每个二级质谱数据中子离子的相对强度大于等于基峰强度15%的碎片，并且满足子离子与母离子的质量数差值Δm>13.9；当一个一级质谱峰的数据对应两个以上的二级质谱数据时，仅保留基峰强度最大的二级质谱数据，最终实现一个一级质谱的母离子对应一个二级质谱数据。

4.根据权利要求1所述的方法，其特征在于：采集一级质谱数据包括质量数、保留时间和峰强度intensity；二级质谱数据包括一级质谱的质量数、保留时间、对应的二级碎片的质量数和碎片强度intensity。

5.根据权利要求1所述的方法，其特征在于：一级质量数的质量数窗口为±7.5 ppm，即，第一样本中的质量数为A，对应第2个样本质量数为A±7.5 ppm进行匹配；保留时间的时间窗口为±15秒，即，第一个样本中的时间为B，对应第2个样本保留时间为B±15秒进行匹配。

6.根据权利要求1所述的方法，其特征在于：平均峰宽为第一个样本中的所有峰的峰宽平均值。

7.根据权利要求1所述的方法，其特征在于：第一个样本为QC质量控制样本，所述QC质量控制样本是指对于待分析的一批样本，在每个样本中取出等量的一小份混合均匀得到的混合样本；QC质量控制样本可以代表整批样本的化合物组成情况。