CN114624317A

CN114624317A - 一种基于直接进样质谱的定性和定量分析方法

Info

Publication number: CN114624317A
Application number: CN202011456204.8A
Authority: CN
Inventors: 许国旺; 王利超; 胡春秀; 石先哲; 刘心昱; 路鑫; 秦望舒
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-14

Abstract

本发明公开了一种基于直接进样质谱的定性和定量分析方法。该方法采用直接进样方式将样本注入质谱，其中代谢物的一级信息采用拼接式分段扫描模式进行采集，二级信息采用数据非依赖模式在一个或多个碰撞能下进行采集；采用质谱数据读取软件对一级、二级质谱扫描点信息进行提取；随后通过数据库一级匹配、同位素分布比较、二级谱图比较以及相关性分析获得代谢物定性结果；同分异构体的定量通过筛选同分异构体的特征二级碎片离子来完成。此发明具有代谢物一级、二级质谱信息覆盖广，实验过程简单，数据处理方便，时间和人力成本低等优势，在未来高通量代谢组学研究中具有广阔的应用前景。

Description

一种基于直接进样质谱的定性和定量分析方法

技术领域

本发明涉及分析化学领域，是一种基于直接进样质谱的定性、定量分析方法，其中一级采用拼接式分段扫描模式，二级采用数据非依赖模式进行代谢物信息的数据采集，随后通过一级m/z和数据库中精确的m/z进行匹配、同位素分布比较、二级谱图相似度比较、母离子和二级碎片离子相关性分析进行定性，筛选特征二级碎片离子对同分异构体进行定量的新方法。

背景技术

代谢组学是系统生物学的重要组成部分，是继基因组学与蛋白质组学之后迅速发展起来的一门新兴学科。小分子代谢物处于生物学事件的末端，能将基因和蛋白表达中的微小变化进行放大。因此，可以通过对小分子代谢物进行定性、定量分析研究找出代谢物与生理、病理变化之间的紧密联系。目前代谢组学已被广泛应用于植物学、食品安全、疾病、环境监测、药物代谢等领域。代谢组学分析技术平台主要分为核磁共振(NMR)和质谱(MS)。NMR利用代谢物中具有自旋性质的原子核在外加磁场的作用下，吸收射频辐射而产生能级跃迁，进而对代谢物进行定性和定量分析。其优点在于具有样本前处理简单，分析通量高，样本无损检测等；缺点是检测灵敏度较低，维护价格昂贵等。MS技术因其检测灵敏度高、线性范围宽、分辨率高等优势,已成为代谢组学研究的主流技术。MS分析技术常与其他色谱分离技术相联用，如气相色谱-质谱(GC-MS)、液相色谱-质谱(LC-MS)、毛细管电泳-质谱(CE-MS)等。虽然色谱-质谱联用技术可以较大程度地降低样本分析的复杂度，但不同联用技术所覆盖的代谢物类别不同，适用范围不同，样本分析时间往往较长。直接进样质谱技术所需的样本体积较少，适合珍贵样本的检测分析；分析时间较色谱-质谱联用技术大为缩短，尤其适合大规模生物样本代谢组学高通量分析研究。

直接进样质谱技术主要包括非靶向和靶向两种分析策略。非靶向分析策略旨在尽可能多的获得样本中的代谢物信息，通常采用高分辨质谱的全扫模式对样本中代谢物信息进行采集，再根据一级母离子精确m/z及其同位素峰的分布对代谢物进行定性，最后以母离子的强度对代谢物进行定量。该方法虽具有很高的质谱分辨率，但因缺乏二级质谱信息，仅凭精确质量数和同位素分布对代谢物进行定性，定性结果的假阳性率较高，特别是在分子量较大的情况下。靶向分析策略是针对若干重要的或者感兴趣的代谢物进行检测，需要预先定义待测的代谢物以对其二级谱图进行采集。该方法具有针对性强，定性定量结果较为准确等优点，但其覆盖度有限，数据可回溯性较差。

为了克服传统的基于直接进样质谱技术的非靶向和靶向代谢组学分析的局限，我们发展了一种基于直接进样质谱技术的定性、定量分析方法，该方法可以对代谢物信息进行重复发掘，既能有效提高代谢物二级信息覆盖度，以增加定性可靠性和实现同分异构体的定量，又具备实验过程简单、分析通量高、数据处理方便，时间和人力成本低等优势。

发明内容

本发明为了建立一种基于直接进样质谱的定性、定量分析方法，把质量控制样本和待分析样本作为实验样本，采用基于直接进样质谱的分析方法，其中一级采用拼接式分段扫描模式，二级采用数据非依赖采集模式，对不同碰撞能下样本中代谢物的一级和二级信息进行采集。基于得到的原始数据，首先提取各个扫描点质谱信息，然后进行滤噪，再将一级与数据库进行匹配并进行同位素分布比较，二级相似度比较，母离子和二级碎片离子相关性分析，综合考虑后得到代谢物定性结果，最后针对定性结果中同分异构体，若存在特征子离子则进行同分异构体定量。相比于传统的直接进样非靶向和靶向分析方法，该方法具有代谢物二级信息覆盖度广，代谢物信息可重复发掘、同分异构体单独定量、分析简单、通量高等优点。

为实现上述目的，本发明采用的具体技术方法如下：

一种基于直接进样质谱的定性、定量分析方法，样本提取液直接注入质谱进行分析，其中一级采用拼接式分段扫描模式，二级采用数据非依赖模式，对质量控制样本和待分析的实际样本在10V到60V范围内进行一个或多个不同的碰撞能下(如10v，20v，30v或15v，30v，45v等)的代谢物信息采集；利用质谱数据读取软件从原始数据中提取一级和二级质谱信息；通过所检测到一级质荷比(m/z) 和数据库中标准品的一级m/z进行匹配，得到其对应的可能的代谢物；对可能的代谢物进行实际和理论同位素分布强度和质量偏差比较，获得同位素分布得分，来辅助定性结果可靠性；在实际样本中根据数据库中标准品二级信息靶向提取可能的代谢物的二级信息并对两者的谱图进行相似度比较，获得二级相似度得分，来辅助定性结果可靠性；再对母离子强度和子离子强度进行相关性检验，获得相关性得分，来辅助定性结果可靠性；根据代谢物同位素分布得分，二级相似度得分，相关性得分获取情况对定性级别进行分类；计算综合得分设置合理的综合得分阈值对定性结果可靠性进行筛选，确认样品中的代谢物信息；筛选特征二级碎片离子对同分异构体进行定量，对无同分异构体的代谢物采用其一级离子进行定量。

直接进样质谱技术非依赖获取样本代谢物信息和数据处理的步骤如下,

1)质量控制样本的制备方法为：将待进行代谢组学分析的两个以上来自于同一物种的相同类型生物样本进行等体积或等质量混合而成；质量控制样本和待分析样本需要按照实验需求完成相对应的代谢组学前处理步骤(如采用乙腈、甲醇、或氯仿等对样本除蛋白并提取代谢物等)得到可以用于质谱分析的代谢物提取溶液；上述的生物样本具体可以为植物的花、叶、茎、根、种子等，动物(包括人)的体液(如尿、血、唾液、胆汁、胃液、淋巴液及生物体的其他分泌液等)、毛发、肌肉和一些组织器官(如胸腺、胰腺、肝、肺、脑、胃、肾等)以及各种微生物等中的一种；

2)直接进样质谱技术一级信息拼接式分段扫描方法为：在质谱软件上将全扫描范围划分为2-100之间任意整数的分段扫描范围(其中分段范围根据实际需求设置)，且每个分段不小于10Da；

3)直接进样质谱代谢物二级信息数据非依赖采集方法为：在质谱软件上设定5-1000之间的任意整数的固定/可变质量隔离窗口(其中可变质量窗口是依据代谢物的一级质量分布情况分配得到)，且每个质量隔离窗口不小于1Da，根据设定的质量窗口采用数据非依赖采集模式依次对扫描范围内的所有代谢物在一个或多个不同碰撞能下的二级信息进行采集。

一级质谱信息和二级碎片信息的获取步骤如下，

1)原始数据通过质谱数据读取软件(比如ProteoWizard，MZmine等)提取文件中所有扫描点下的一级和二级质谱信息，包括m/z、强度信息和scan编号。

代谢物定性步骤如下，

1)则用户根据需求选择在0.3到1.0之间的任意一个小数作为代谢物出现的频率阈值，选择1000-1000000之间任意整数作为代谢物一级母离子的强度阈值和同位素峰分布计算的强度阈值去除噪音的干扰；

2)将一级质谱中的母离子m/z和数据库中标准品的母离子m/z作差，并根据实验所使用质谱仪的分辨率设定m/z的偏差阈值，可以选择0.001Da-0.01Da 或者1ppm-20ppm之间的任意值(根据实验室所用质谱仪器分辨率进行相应阈值选择)；若m/z偏差小于设定的阈值则初步认为质谱检测的该母离子和数据库中的代谢物母离子相对应，即可能是数据库中的这个代谢物，其中数据库可以是自建代谢物标样质谱数据库，也可以是网络开源代谢物质谱数据库。

3)对C、N、O、S、K的同位素峰分布进行计算，其中C的同位素峰为M+1 和M+2，N的同位素峰为M+1，O的同位素峰为M+2，S的同位素峰为M+2，K的同位素峰为M+2；每个同位素峰的强度相似度计算采用公式为：

其中n为参与计算的同位素峰个数，每个同位素峰的质量偏差计算采用公式为：

其中n为参与计算的同位素峰个数，相对强度偏差设置为100％-1000％之间的任意整数，质量偏差设置为1ppm-20ppm之间的任意整数(用户根据实验所使用质谱仪进行设定)；且同位素分布得分＝x*同位素峰强度相似度+(1-x)*同位素峰质量偏差，其中x为占比系数，一般在0.2-0.8之间的任意值；

4)用户根据需求设定100-10000之间的任意整数作为代谢物二级碎片离子的强度阈值，去除噪音干扰；

5)将母离子所在区间的二级m/z和数据库中用于谱图匹配碎片的m/z作差，并根据实验所使用质谱仪的分辨率设定二级m/z偏差阈值，可以选择0.05Da-0.05Da或者5ppm-30ppm之间的任意值(根据实验室所用质谱仪器分辨率进行相应阈值选择)；若二级m/z偏差小于设定的阈值则初步认为此子离子和数据库中二级碎片离子相对应；将实际检测到的二级碎片和数据库中碎片通过代入点积公式得到质谱相似度得分，并将数据库中对应的母离子信息和实际被检测到的碎片进行记录用于后续相关性分析，其中计算二级质谱相似度的点积公式为：

其中I_S和I_D分别为实验二级碎片的相对强度和理论二级碎片的相对强度，n为参与计算二级相似度的碎片个数；

6)对于实际分析样本，根据之前记录下的用于相关性检验的母离子和子离子依次去实际分析样本中查看检出情况。若用于相关性检验的母离子和子离子均被检测到，则将母离子和子离子强度信息记录下来，并进行判断是否在同一数据非依赖窗口内存在2个及以上不同m/z母离子共有此二级碎片，若有则使用数学方法(例如超定方程)对这些物质进行解卷积，保留解卷积后的母离子和子离子强度信息，若没有共有二级碎片则直接保留原始的母离子和二级碎片离子强度信息；若用于相关性检验的母离子和二级碎片离子不能同时被检出则不记录强度信息；

7)将保留下来的母离子强度和其二级碎片离子强度依次进行相关性分析(如皮尔逊相关性)，得到母离子和各个二级碎片离子之间的相关性大小，取平均值后得到母离子和其所有二级碎片离子之间的相关性得分；

8)根据代谢物同位素分布得分，二级相似度得分，相关性得分获取情况对定性级别进行分类：level 1，同时包含同位素分布得分，二级相似度得分，相关性得分；level 2-1，包含二级相似度得分，相关性得分；level 2-2，包含同位素分布得分；level 3，没有同位素分布得分，二级相似度得分，相关性得分；

9)计算综合得分(对于level 1，综合得分＝x*同位素分布得分+y*二级相似度得分+z*相关性得分；对于level 2-1，综合得分＝(y*二级相似度得分+z* 相关性得分)/(y+z)；对于level 2-2，综合得分＝同位素分布得分)，其中x， y，z分别为同位素分布得分系数，二级相似度得分系数，相关性得分系数，根据需求分别设定0.1-0.9之间值且满足x+y+z＝1；设置合理的综合得分阈值，用户根据需求设置0.5-0.9之间任意值，若大于阈值则认为定性结果可靠性高，并从中确认样品中的代谢物信息；

特征子离子进行同分异构体定量的获取步骤如下，

1)针对定性结果中同分异构体的定量，查看实际二级谱图中是否存在特征二级碎片离子；若存在特征二级碎片离子，则其强度即可用于同分异构体的定量分析；若不存在特征二级碎片离子，则采用其母离子强度进行混合代谢物总量的定量。

具体为：

1)将要进行代谢组学分析的每个样本进行等体积移取或等质量称量合并成质量控制样本，根据代谢分析需要选择合适的代谢组学前处理方法进行蛋白质去除和代谢物提取(例如：采用乙腈或者甲醇去除样本蛋白并提取代谢物，采用甲醇去除样本蛋白和甲基叔丁基醚提取代谢物等)，经过离心、冻干、复溶等步骤后即可进行后续直接进样质谱检测；

2)直接进样质谱技术采用一级拼接式分段扫描和二级数据非依赖模式采集质量控制样本在一个或多个不同碰撞能下的代谢物信息，采用质谱数据读取软件 (如ProteoWizard等)提取原始数据文件中所有扫描点下的一级和二级质谱信息，包括m/z、强度信息和scan编号；

3)分别设定代谢物出现频率阈值0.5，代谢物一级母离子和同位素峰分布计算的强度阈值根据分段扫描范围分别设置为150000和15000(m/z：80-180)、 30000和3000(m/z：180-280)、18000和1800(m/z：280-380)、1000和1000 (m/z：380-480)，代谢物二级碎片的强度阈值500，去除噪音干扰；

4)一级质谱中的母离子m/z和数据库中每个代谢物的母离子m/z偏差阈值为5ppm；母离子所在区间的二级m/z和数据库中用于谱图匹配碎片m/z偏差阈值为0.01Da；

5)对C、N、O、S、K的同位素峰分布进行计算，其中C的同位素峰为M+1 和M+2，N的同位素峰为M+1，O的同位素峰为M+2，S的同位素峰为M+2，K的同位素峰为M+2；每个同位素峰的强度相似度计算采用公式为：

其中n为参与计算的同位素峰个数，相对强度偏差和质量偏差为500％，质量偏差为5ppm；设定同位素峰强度相似度和同位素峰质量偏差的系数为0.5和0.5，同位素分布得分＝0.5*同位素峰强度相似度+0.5*同位素峰质量偏差；

7)对可能的代谢物的数据库二级谱图和实际检测到的二级谱图通过点积公式计算

其中I_S和I_D分别为实验二级碎片的相对强度和理论二级碎片的相对强度，其中n为参与计算的同位素峰个数；并将母离子信息和能被检测到的二级碎片信息进行记录以用于后续相关性分析；

8)对于实际分析样本，根据之前记录下的用于相关性检验的母离子和二级碎片离子依次去实际分析样本中查看检出情况。若用于相关性检验的母离子和二级碎片离子均被检测到，则将母离子和子离子强度信息记录下来，并进行判断是否在同一数据非依赖采集窗口内存在2个及以上不同m/z母离子共有此二级碎片，若存在此情况则使用超定方程对这些物质进行最小二乘解卷积，保留解卷积后的母离子和二级碎片离子强度信息，若不存在此情况则直接保留原始的母离子和二级碎片离子强度信息；

9)将记录下来的母离子强度和其二级碎片离子强度依次进行皮尔森相关性分析，得到母离子和各个二级碎片离子之间的相关性大小，取平均值则得到母离子和其所有二级碎片离子之间的相关性得分；

10)根据代谢物同位素分布得分，二级相似度得分，相关性得分获取情况对定性级别进行分类：level 1，同时包含同位素分布得分，二级相似度得分，相关性得分；level2-1，包含二级相似度得分，相关性得分；level 2-2，包含同位素分布得分；level 3，没有同位素分布得分，二级相似度得分，相关性得分；

11)计算综合得分(对于level 1，综合得分＝x*同位素分布得分+y*二级相似度得分+z*相关性得分；对于level 2-1，综合得分＝(y*二级相似度得分+z* 相关性得分)/(y+z)；对于level 2-2，综合得分＝同位素分布得分)，其中x， y，z分别设为0.4,0.4,0.2；综合得分阈值设为0.7，若大于阈值则认为定性结果可靠性高，并从中确认样品中的代谢物信息；

12)针对定性结果中同分异构体的定量，查看实际二级谱图中是否存在特征二级碎片离子；若存在特征二级碎片离子，则其强度即可用于同分异构体的定量分析；若不存在特征二级碎片离子，则采用其母离子强度进行混合代谢物总量的定量。

本发明建立了一种基于直接进样质谱技术的定性、定量分析方法，其中一级采用拼接式分段扫描模式，二级采用数据非依赖模式，由于采用了无色谱分离的直接进样方式因而大大缩短了样本代谢物数据采集时间，加之采用了数据非依赖质谱采集模式显著提高了代谢物的二级信息覆盖度，进一步确保了代谢物定性和定量的准确性，同时可以对数据进行重复发掘。该方法具有实验过程操作简单、分析方便和通量高等优点，特别适用于临床大规模生物样本的代谢组学研究。

附图说明

图1基于直接进样质谱技术的定性定量方法流程图；

图2标样得分图；标样为真实添加的标样，非标样为非添加的物质；

图3两组间代谢物比值情况，A)火山图，B)差异最显著的6个比值在糖尿病组和健康组间相对含量分布。实心三角形和“*”表示两组间非参数检验得到的 p<0.05；a表示C18:0肉碱/2-脱氧半乳糖，b表示C14:0肉碱/2-脱氧半乳糖，c 表示C16:0肉碱/2-脱氧半乳糖，d表示C6:0肉碱/2-脱氧半乳糖，e表示C10:0 肉碱/2-脱氧半乳糖，b表示C2:0肉碱/2-脱氧半乳糖。

具体实施方式

下面结合附表附图对本发明的实施例作详细说明：实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

基于直接进样质谱，且一级采用拼接式分段扫描模式，二级采用数据非依赖模式的混合标样的定性定量方法建立：

具体为：

1.混合标样的配置

1)将要进行直接进样分析的41个标样混合在体积浓度80％乙腈水溶液中并配置成不同浓度含量的6个混合标样溶液，具体浓度详见表1；

2.直接进样质谱分析方法：

1)AdvionNanoMate多通道纳喷离子源条件：D型芯片(喷嘴内径4.1μm)；电压1.6kV；气压0.5psi；进样室温度6℃；进样体积5μL；

2)Thermofisher QE-HF质谱条件：一级拼接式分段扫描和二级数据非依赖采集模式参数：一级分段为80-180Da,180-280Da,280-380Da,380-480Da；一级分辨率240000；二级数据非依赖窗口为2Da；二级分辨率30000；采集时间为 2min；ESI正离子模式；离子传输管温度200℃。

3.数据处理

1)对各个混标中代谢物的一级和二级信息进行采集，原始数据经过数据提取软件(如proteowizard)得到一级和二级离子详细信息列表，包含m/z，强度信息和scan编号；

2)选择在0.5作为代谢物出现的频率阈值，代谢物一级母离子和同位素峰分布计算的强度阈值根据分段扫描范围分别设置为150000和15000(m/z： 80-180)、30000和3000(m/z：180-280)、18000和1800(m/z：280-380)、1000 和1000(m/z：380-480)；

3)将一级质谱中的母离子m/z和数据库中标准品的母离子m/z作差，并根据实验所使用质谱仪的分辨率设定m/z的偏差阈值，设置为5ppm；若m/z偏差小于设定的阈值则初步认为质谱检测的该母离子和数据库中的代谢物母离子相对应，即可能是数据库中的这个代谢物，其中数据库可以是自建代谢物标样质谱数据库；

4)对C、N、O、S、K的同位素峰分布进行计算，其中各个元素的同位素峰考虑如下：C的同位素峰主要为M+1和M+2，N的同位素峰主要为M+1，O的同位素峰主要为M+2，S的同位素峰主要为M+2，K的同位素峰主要为M+2；每个同位素峰的强度相似度计算采用公式为：

相对强度偏差设置为 500％，质量偏差设置为5ppm，其中n为参与计算的同位素峰个数，且同位素分布得分＝x*同位素峰强度相似度+(1-x)*同位素峰质量偏差，其中x为占比系数设置为0.5；

5)设定500作为代谢物二级碎片离子的强度阈值，去除噪音干扰；

6)从实际样本中母离子所在二级碎片质量窗口中根据数据库中标准化合物二级碎片的m/z进行靶向二级提取，并根据实验所使用质谱仪的分辨率设定提取二级碎片的m/z偏差阈值，选择0.05Da；若二级m/z偏差小于设定的阈值则初步认为该二级碎片和数据库中二级碎片离子相对应；将实际检测到的二级碎片离子谱图和数据库中标准化合物二级碎片离子谱图进行相似度比较，并将数据库中母离子信息和对应的能被检测到的二级碎片信息进行记录用于后续相关性分析；其中计算二级质谱相似度的点积公式为：

其中I_S和I_D分别为实验二级碎片的相对强度和理论二级碎片的相对强度，n为参与计算二级相似度的碎片个数。

7)根据以上步骤6)中记录的信息，从6个不同浓度标样混合样本的数据进行提取用于相关性检验的母离子和二级碎片离子信息依次去实际分析样本中查看检出情况；若用于相关性检验的母离子和二级碎片离子均被检测到，则将母离子和二级碎片离子强度信息记录下来；若用于相关性检验的母离子和二级碎片离子不能同时被检出则不记录其强度信息；

8)若在同一个数据非依赖二级碎裂窗口内存在两种及以上不同m/z的母离子且它们存在相同的二级碎片离子，则通过超定方程对共有二级碎片离子强度进行解卷积，并对解卷积之后的母离子和二级碎片离子进行皮尔逊相关性分析，获得相关性；若不存在相同二级碎片，则直接利用所记录的母离子和二级碎片离子强度信息进行皮尔逊相关性分析，获得相关性；

9)将单个代谢物的母离子和各个二级碎片离子强度的相关性取平均值后作为相关性得分；

11)计算综合得分(对于level 1，综合得分＝x*同位素分布得分+y*二级相似度得分+z*相关性得分；对于level 2-1，综合得分＝(y*二级相似度得分+z* 相关性得分)/(y+z)；对于level 2-2，综合得分＝同位素分布得分)，其中x， y，z分别为同位素分布得分系数，二级相似度得分系数，相关性得分系数，且设置为0.4,0.4,0.2；设置综合得分阈值为0.7，若大于阈值则认为定性结果可靠性高，并从中确认样品中的代谢物信息；

12)将胆碱，谷氨酰胺，苯丙氨酸，马尿酸，色氨酸，胆汁酸，泛酸，乙酰肉碱，癸酰肉碱，十二碳酰肉碱配置成混合标样用于进行线性考察。配置的浓度点分别为0.5ng/mL，1ng/mL，2ng/mL，10ng/mL，20ng/mL，100ng/mL，200ng/mL， 1000ng/mL，2000ng/mL，10000ng/mL；选择特征二级碎片离子，则其强度用于进行定量曲线计算。

4.标样检测和线性结果

1)41个标样中除了Tocopherol，其他均被实际检出，其中level1定性级别的有39个，level2-2定性级别的有1个，且这40个物质的综合定性得分均大于0.7。详细的得分情况如图2所示，其中只有5个标样的皮尔逊相关性小于 0.7且都是由于加入与之互为同分异构体的标样而导致；1个标样只有同位素分布得分，是由于数据库中没有它的二级信息导致；2个标样二级得分小于0.7，是由于加入与之互为同分异构体的标样而导致；1个标样同位素得分小于1，是由于配置标样的溶剂中存在干扰其15N同位素峰的物质导致。其中图中×表示与实际标样互为同分异构体的非实际添加物质能在数据库中被搜索到，所以按照综合得分排序时候存在真实加入的代谢物不是得分最高的情况。对综合得分中代谢物排序进一步考察发现,排在第一位的代谢物是真实添加标样的个数是32个(31 个level1和1个level2-2)，排在前二位的代谢物是真实添加标样的个数是38 个(37个level1和1个level2-2)，排在前三位的代谢物是真实添加标样的个数是40个(39个level1和1个level2-2)。结果表明该定性方法准确可靠，适合用于代谢组学研究。

2)通过计算胆碱，谷氨酰胺，苯丙氨酸，马尿酸，色氨酸，胆汁酸，泛酸，乙酰肉碱，癸酰肉碱，十二碳酰肉碱的二级碎片离子标准曲线进行考察，来评价二级碎片离子定量准确性，详细结果如表2所示。10个标样二级线性R2均大于 0.99且线性范围除了胆汁酸在2个数量级以外，其余均在3个数量级及以上，表明二级碎片适合于代谢物定量分析。

表1混合标样配置浓度(μg/mL)

表2标样的二级定量曲线信息

实施例二

基于直接进样质谱的定性定量分析方法在糖尿病研究中的应用：

具体为：

1.血清样品收集

所有纳入研究的志愿者在血样收集前签署知情同意书。相同条件下采集一批血清样本作为测试集，包括11例健康人和11例糖尿病患者的空腹血清样本，置于-80℃冰箱保存备检。

2.分析方法

2.1血清样本预处理：

血清在4℃解冻，取10μL血清样本加入1.5mL Eppendorf管中，加入40μ L含内标的甲醇提取液(含内标浓度为10μg/mL马尿酸-D5，10μg/mL胆汁酸-D4，10μg/mL谷氨酰胺-D5，3.5μg/mL苯丙氨酸-D5，4.5μg/mL色氨酸-D5，0.3μg/mL胆碱-D4，0.4μg/mL乙酰肉碱-D3，0.3μg/mL C10：0 肉碱-D3，0.4μg/mL C16：0肉碱-D3)，涡旋30s混合均匀，沉淀蛋白。采用离心机过滤(转速为14000rpm，时间为15min)的方式去除蛋白。离心之后吸取30μL上清于1.5mL Eppendorf管中进行冷冻干燥。然后用200μL乙腈: 水＝4:1(v/v)复溶。

2.2直接进样质谱分析方法：

同实施例1

3.数据处理

2)选择在0.5作为代谢物出现的频率阈值，代谢物一级母离子和同位素峰分布计算的强度阈值根据分段扫描范围分别设置为70000和7000(m/z：80-180)、 25000和2500(m/z：180-280)、12000和1200(m/z：280-380)、3600和1200 (m/z：380-480)；

3)将一级质谱中的母离子m/z和数据库中标准品的母离子m/z作差，设定 m/z的偏差阈值为5ppm；若m/z偏差小于设定的阈值则初步认为质谱检测的该母离子和数据库中的代谢物母离子相对应，即可能是数据库中的这个代谢物，其中数据库可以是自建代谢物标样质谱数据库；

7)根据以上步骤6)中记录的信息，从22个不同人源的血清样本的数据进行提取用于相关性检验的母离子和二级碎片离子信息依次去实际分析样本中查看检出情况；若用于相关性检验的母离子和二级碎片离子均被检测到，则将母离子和二级碎片离子强度信息记录下来；若用于相关性检验的母离子和二级碎片离子不能同时被检出则不记录其强度信息；

4.血清测试结果及差异分析

通过该方法共检测到血清中内源性代谢物88个，其中69个代谢物在质量控制样本中相对标准偏差小于30％。将代谢物彼此做比值后进行非参数独立样本比较发现有230个在糖尿病组和健康对照组间存在显著差异(p<0.05),详细结果展示在图3A中。其中差异最显著的6个比值展示在图3B中，它们在糖尿病组中显著升高且和肉碱类有密切相关性。该结果揭示了糖尿病患者存在能量代谢异常的情况，能为后续糖尿病机理研究提供理论支持。

综上所述，所建立的基于直接进样质谱技术的定性、定量分析方法具有定性可靠，定量准确等特点，适用于代谢组学研究。

Claims

1.一种基于直接进样质谱的定性和定量分析方法，其特征在于：

样品直接进入质谱进行分析，其中一级采用拼接式分段扫描模式，二级采用数据非依赖模式，可实现对待分析质量控制样本在10V-60V范围内进行一个或多个不同的碰撞能下的代谢物质谱信息采集；利用质谱数据读取软件从原始数据中提取一级和二级质谱信息；通过所检测到一级质荷比(m/z)和数据库中标准品的一级m/z进行匹配，得到其对应的可能的代谢物；对可能的代谢物进行实际和理论同位素分布强度和质量偏差比较，获得同位素分布得分，来辅助定性结果可靠性；在实际样本中根据数据库中标准品二级信息靶向提取可能的代谢物的二级信息并对两者的谱图进行相似度比较，获得二级相似度得分，来辅助定性结果可靠性；再对母离子强度和子离子强度进行相关性检验，获得相关性得分，来辅助定性结果可靠性；根据代谢物同位素分布得分，二级相似度得分，相关性得分获取情况对定性级别进行分类；计算综合得分设置合理的综合得分阈值对定性结果可靠性进行筛选，确认样品中的代谢物信息；筛选特征二级碎片离子对同分异构体进行定量，对无同分异构体的代谢物采用其一级离子进行定量。

2.根据权利要求1所述的分析方法，其特征在于：待分析的质量控制样本和直接进样质谱数据的获取步骤如下：

1)样品直接进样质谱代谢物一级信息拼接式分段扫描方法为：在质谱软件上将全扫描范围划分为2-100之间任意整数的分段扫描范围(其中分段范围根据实际需求设置)，且每个分段不小于10Da；

2)直接进样质谱代谢物二级信息数据非依赖采集方法为：在质谱软件上设定5-1000之间的任意整数的固定/可变质量隔离窗口(其中可变质量窗口是依据代谢物的一级质量分布情况分配得到)，且每个质量隔离窗口不小于1Da，根据设定的质量窗口采用数据非依赖采集模式依次对扫描范围内的所有代谢物在一个或多个不同碰撞能下的二级信息进行采集。

3.根据权利要求1所述的分析方法，其特征在于：代谢物的一级二级质谱信息提取、代谢物的一级信息和数据库中的一级信息匹配、同位素分布和质量偏差计算的获取步骤如下，

1)质谱数据读取软件(例如proteowizard)从原始数据中提取所有的一级、二级扫描点记录的质谱信息，包括m/z、强度信息和扫描编号(scan)；

2)用户根据需求选择在0.3到1.0之间的任意一个小数作为代谢物出现的频率阈值，选择1000-1000000之间任意整数作为代谢物一级母离子的强度阈值和同位素峰分布计算的强度阈值去除噪音的干扰；

3)将一级质谱中的母离子m/z和数据库中标准品的母离子m/z作差，并根据实验所使用质谱仪的分辨率设定m/z的偏差阈值，选择5ppm；若m/z偏差小于设定的阈值则初步认为质谱检测的该母离子和数据库中的代谢物母离子相对应，即可能是数据库中的这个代谢物，其中数据库可以是自建代谢物标样质谱数据库，也可以是网络开源代谢物质谱数据库；

4)对C、N、O、S、K的同位素峰分布进行计算，其中各个元素的同位素峰考虑如下：C的同位素峰主要为M+1和M+2，N的同位素峰主要为M+1，O的同位素峰主要为M+2，S的同位素峰主要为M+2，K的同位素峰主要为M+2；

每个同位素峰的强度相似度计算采用公式为：

相对强度偏差设置为100％-1000％之间的任意整数，质量偏差设置为1ppm-20ppm之间的任意整数，其中n为参与计算的同位素峰个数，且同位素分布得分＝x*同位素峰强度相似度+(1-x)*同位素峰质量偏差，其中x为占比系数，一般在0.2-0.8之间的任意值。

4.根据权利要求1所述的分析方法，其特征在于：在实际样本中根据数据库中标准品二级信息靶向提取可能的代谢物的二级信息并对两者的谱图进行相似度比较的获取步骤如下，

1)用户根据需求设定100-10000之间的任意整数作为代谢物二级碎片离子的强度阈值，去除噪音干扰；

2)从实际样本中母离子所在二级碎片质量窗口中根据数据库中标准化合物二级碎片的m/z进行靶向二级提取，并根据实验所使用质谱仪的分辨率设定提取二级碎片的m/z偏差阈值，可以选择0.005Da-0.05Da或者5ppm-30ppm之间的任意值；若二级m/z偏差小于设定的阈值则初步认为该二级碎片和数据库中二级碎片离子相对应；

将实际检测到的二级碎片离子谱图和数据库中标准化合物二级碎片离子谱图进行相似度比较，并将数据库中母离子信息和对应的能被检测到的二级碎片信息进行记录用于后续相关性分析；

其中计算二级质谱相似度的点积公式为：

5.根据权利要求1所述的分析方法，其特征在于：代谢物的二级碎片相关性结果的获取步骤如下，

1)选取5个及以上不同来源同一类型样本(例如不同个体来源的血清样本，或不同个体来源的血浆样本，或不同个体来源的尿液等)进行前处理，制备成待分析溶液后，采用权利要求2中1)和2)步骤所述直接进样质谱技术进行分析；

2)根据权利要求4中2)步骤记录的用于相关性检验的母离子和二级碎片离子信息依次去实际分析样本中查看检出情况；若用于相关性检验的母离子和二级碎片离子均被检测到，则将母离子和二级碎片离子强度信息记录下来；若用于相关性检验的母离子和二级碎片离子不能同时被检出则不记录其强度信息；

3)若在同一个数据非依赖二级碎裂窗口内存在两种及以上不同m/z的母离子且它们存在相同的二级碎片离子，则通过数学方法(例如超定方程)对共有二级碎片离子强度进行解卷积，并对解卷积之后的母离子和二级碎片离子进行相关性分析(如皮尔逊相关性)，获得相关性；若不存在相同二级碎片，则直接利用权利要求4中2)所记录的母离子和二级碎片离子强度信息进行相关性分析(如皮尔逊相关性)，获得相关性；

4)将单个代谢物的母离子和各个二级碎片离子强度的相关性取平均值后作为相关性得分。

6.根据权利要求1所述的分析方法，其特征在于：定性结果的获取步骤如下，

1)根据代谢物同位素分布得分，二级相似度得分，相关性得分获取情况对定性级别进行分类：level 1，同时包含同位素分布得分，二级相似度得分，相关性得分；level 2-1，包含二级相似度得分，相关性得分；level 2-2，包含同位素分布得分；level 3，没有同位素分布得分，二级相似度得分，相关性得分；

2)计算综合得分(对于level 1，综合得分＝x*同位素分布得分+y*二级相似度得分+z*相关性得分；对于level 2-1，综合得分＝(y*二级相似度得分+z*相关性得分)/(y+z)；对于level 2-2，综合得分＝同位素分布得分)，其中x，y，z分别为同位素分布得分系数，二级相似度得分系数，相关性得分系数，根据需求分别设定0.1-0.9之间值且满足x+y+z＝1；设置合理的综合得分阈值，用户根据需求设置0.5-0.9之间任意值，若大于阈值则认为定性结果可靠性高，并从中确认样品中的代谢物信息。

7.根据权利要求1所述的分析方法，其特征在于：基于代谢物特征子离子同分异构体定量的获取步骤如下，