CN108287200A

CN108287200A - 质谱参照数据库的建立方法及基于其的物质分析方法

Info

Publication number: CN108287200A
Application number: CN201710333047.3A
Authority: CN
Inventors: 贾伟; 倪艳; 苏明明
Original assignee: Matto Biotech (shanghai) Co Ltd
Current assignee: Matto Biotech (shanghai) Co Ltd
Priority date: 2017-04-24
Filing date: 2017-05-12
Publication date: 2018-07-17
Anticipated expiration: 2037-05-12
Also published as: CN108287200B

Abstract

本发明提供了用于对多个待分析样本中的待分析物质进行分析的质谱参照数据库的建立方法及基于其的物质分析方法，其中质谱参照数据库的建立方法包括：选择待分析样本的步骤；提取参照已知信息的步骤，基于标准数据库，对所有代表样本对应的代表物质进行鉴定，提取被鉴定出且被鉴定为同一物质且对应的代表样本的个数与预定个数的百分比大于预定第一百分比时的代表物质对应的代表信息作为参照已知信息；形成质谱参照数据库的步骤，至少根据参照已知信息形成与相应的代表样本及相应的代表物质相对应的质谱参照数据库。

Description

质谱参照数据库的建立方法及基于其的物质分析方法

技术领域

本发明属于化学领域，具体涉及一种用于对多个待分析样本中的待分析物质进行分析的质谱参照数据库的建立方法及基于其的物质分析方法。

背景技术

目前，色谱质谱联用技术是对物质进行定性和定量分析的主流分析技术。

研究人员一般利用标准数据库，比较待分析物质的碎片谱图和标准物质的碎片谱图的谱图匹配度来鉴定物质，同时，结合待分析物质在色谱柱的保留时间或者保留指数(RI)得到匹配度可以进一步提高代谢物鉴定的准确性。但是在实际实验操作中。我们经常发现标准样品产生的质谱图谱与该物质在待分析样本(例如血样和尿样)中产生的质谱图谱存在一些差异。这些差异导致物质鉴定的准确性降低，对后续统计分析和生化解读带来困扰，特别对于存在大量物质的代谢物进行分析更是如此。

我们发现在某一类待分析样本中的待分析物质具有特异性的离子碎片特征，而且这些特征稳定的存在于同一类待分析样本或同一批检测的待分析样本中。因此，直接从待分析样本当中提取具有代表性的代表物质对应的离子碎片(代表信息)特征作为对照，能够提高对待分析样本中的待分析物质鉴定的准确性。目前LECO公司开发的ChromaTOF软件可以允许从检测样本中提出质谱图做参照。但是，这需要由用户主观判断并选择合适的参照图，这个过程带有随机性并且非常耗时。所以，对于包括较多待分析物质的待分析样本进行分析时，例如对代谢物的分析，利用色谱质谱联用技术，大约能在人的血样或尿样当中检测到至少400到600个待分析物质的信号，但能够准确鉴定其结构的占50％都不到。

除了待分析物质的鉴定，对其定量也十分重要。目前常用的方法就是挑选物质的代表性离子碎片来进行相对定量。如何选择具有代表性的定量离子是关键步骤，一般要求这个离子的强度能够在一个稳定的定量范围内，能代表物质的准确浓度。目前，较多的是在数据预处理去卷积的时候，算法挑选一个特异性的能区分左右相邻物质的离子作为定量离子。但是，对于大样本分析，同一个待分析物质在不同样本中，算法可能会选择不同的特异性离子，这样我们还需要选择一个共有的离子来比较样本间的差异。另外，在不同的待分析样本中，待分析物质的各种碎片产生的响应度会不同。

发明内容

本发明提供一种用于对多个待分析样本中的待分析物质进行分析的质谱参照数据库的建立方法及基于其的物质分析方法。

为了实现上述目的，本发明采用了如下技术方案：

本发明提供了一种质谱参照数据库的建立方法，质谱参照数据库用于对多个待分析样本中的待分析物质进行分析，基于标准数据库和样本数据库建立，标准数据库包括对标准物质进行色谱-质谱联用检测采集得到的多个分别与不同标准物质相对应的标准信息，样本数据库包括对待分析样本进行色谱-质谱联用检测采集得到的多个分别与不同待分析样本相对应的样本信息组，样本信息组中包括多个与不同待分析物质相对应的待分析信息，其特征在于，包括：选择待分析样本的步骤，从样本数据库中选择预定个数的待分析样本对应的样本信息组设定为代表信息组，并将相应的待分析样本设定为代表样本，将代表信息组中的待分析信息设定为代表信息，将代表信息对应的待分析物质设定为代表物质；提取参照已知信息的步骤，基于标准数据库，对所有代表样本对应的代表物质进行鉴定，提取被鉴定出且被鉴定为同一物质且对应的代表样本的个数与预定个数的百分比大于预定第一百分比时的代表物质对应的代表信息作为参照已知信息；形成质谱参照数据库的步骤，至少根据参照已知信息形成与相应的代表样本及相应的代表物质相对应的质谱参照数据库。

本发明提供的建立方法，还具有这样的特征，还包括：提取参照未知信息的步骤：将所有代表样本中未鉴定出的代表物质之间进行相互比较，提取鉴定为同一物质且对应的代表样本的个数与预定个数的百分比大于预定第二百分比时的代表物质对应的代表信息作为参照未知信息，形成质谱参照数据库的步骤还根据参照未知信息形成。

本发明提供的建立方法，还具有这样的特征：提取参照未知信息的步骤具体包括：步骤1，将在提取参照已知信息的步骤中未鉴定出的代表物质设定为与相应的代表样本相对应的未知物质；步骤2，将代表样本对应的一个未知物质对应的代表信息逐一与其他任意一个代表样本中的所有未知物质对应的代表信息进行比较得到多个分别与该未知物质以及该代表样本同时相对应的第二匹配度；步骤3，将与同一个未知物质对应的所有大于预定第二阈值的第二匹配度对应的未知物质确定为同一物质，将确定为同一物质的所有未知物质对应的代表样本的总个数与预定个数的百分比是否超过预定第二百分比；步骤4，当超过预定第二百分比时，分别对确定为同一物质的所有未知物质对应的所有第二匹配度中与每个未知物质对应的所有第二匹配度求平均得到与每个所未知物质对应的平均匹配度，比较各个平均匹配度之间的大小，提取比较结果为最大的平均匹配度对应的未知物质的代表信息作为参照未知信息。

本发明提供的建立方法，还具有这样的特征：提取参照已知信息的步骤具体包括：步骤1，将代表样本对应的一个代表物质对应的代表信息与标准数据库中的各个标准物质对应的标准信息进行比较得到多个与该代表物质以及相应的标准物质同时相对应的第一匹配度；步骤2，当步骤1中得到的所有第一匹配度中数值最大的第一匹配度大于预定第一阈值时，将该第一匹配度对应的代表物质设定为与相应的代表样本相对应的已知物质；步骤3，将与同一标准物质的相对应的所有第一匹配度对应的已知物质确定为同一物质，计算确定为同一物质的所有已知物质对应的代表样本的总个数与预定个数的百分比是否超过预定第一百分比；步骤4，当超过预定第一百分比时，比较确定为同一物质的所有已知物质对应的第一匹配度的大小，提取比较结果为最大的第一匹配度对应的已知物质的代表信息作为参照已知信息。

本发明提供的建立方法，还具有这样的特征：预定第一百分比的范围为50％-100％。

本发明提供的建立方法，还具有这样的特征：预定第二百分比的范围为：50％-100％。

本发明提供的建立方法，还具有这样的特征：预定第二阈值的范围为60-90％。

本发明提供的建立方法，还具有这样的特征：预定第一阈值的范围为60-90％

本发明提供的建立方法，还具有这样的特征：参照已知信息包括已知物质的质谱信息、保留指数和定量离子。

本发明提供的建立方法，还具有这样的特征：参照未知信息包括未知物质的质谱信息、保留指数和定量离子。

本发明提供的建立方法，还具有这样的特征：预定个数的大小范围为大于等于3个。

本发明提供的建立方法，还具有这样的特征：选择待分析样本的步骤中选择的待分析样本为对待分析样本进行色谱-质谱联用检测采集测时作为检测质控的混合质控样本，预定个数为混合质控样本的个数。

本发明提供的建立方法，还具有这样的特征：选择待分析样本的步骤中选择的待分析样本为同一类单个的待分析样本。

本发明提供的建立方法，还具有这样的特征：选择待分析样本的步骤中选择的待分析样本中包括所有种类的单个的待分析样本。

本发明还提供了一种物质的分析方法，其特征在于，包括：建立质谱参照数据库的步骤和基于质谱参照数据库对待分析样本进行分析的步骤，其中，质谱参照数据库的建立方法采用上述中的建立方法。

发明作用与效果

本发明提供的质谱参照数据库的建立方法及基于其的物质分析方法，由于通过从待分析样本中挑选预定个数的代表样本，基于标准数据库，提取相应的已知参照信息，并至少根据已知参照信息建立质谱参照数据库，所以质谱参照数据库中的已知参照信息的样本来源与其它待分析样本的都是采用完全相同的样本前处理方法，条件一致性较好，使得相比公用的标准数据库或是自己建立的标准数据库来说，相同物质的谱图信息以及保留指数等与待分析样本的重合性更高，所以匹配度更高，所以对待分析样本的物质进行分析得到的结果相比公用标准库或自己建立的标准库更准确，更利于进一步的数据分析。

附图说明

图1为本实施例涉及的各个保留指数甲酯化脂肪酸混合物(FAME)的初始保留时间；

图2为本实施例涉及的各个FAME的质谱图信息；

图3为实施例涉及的建立质谱参照数据库的过程示意图；

图4显示本实施例涉及的血液样本数据库、尿液样本数据库和标准数据库中共同已知物质的质谱特征碎片的异同；

图5显示本实施例涉及的同一已知物质的质谱特征特征碎片在不同来源中存在的差异；

图6为分别基于质谱参照数据库和标准数据库对血清的待分析样本鉴定已知物质的鉴定结果的匹配度之间的对比。

图7为分别基于质谱参照数据库和标准数据库对血清的待分析样本鉴定已知物质的鉴定结果的缺失值比例之间的对比。

图8为分别基于质谱参照数据库和标准数据库对血清的待分析样本鉴定已知物质的鉴定结果的定量离子的稳定性之间的对比；

图9为分别基于质谱参照数据库和标准数据库对尿液的待分析样本鉴定已知物质的鉴定结果的匹配度之间的对比；

图10为分别基于质谱参照数据库和标准数据库对尿液的待分析样本鉴定已知物质的鉴定结果的缺失值比例之间的对比；

图11为分别基于质谱参照数据库和标准数据库对尿液的待分析样本鉴定已知物质的鉴定结果的定量离子的稳定性之间的对比；

图12为分别基于质谱参照数据库和标准数据库对血清的待分析样本鉴定gluconolactone的结果差异。

图13为PLS-DA score plot显示50例参与者在10年前后尿液代谢谱的差异。

具体实施方式

以下以对血液以及尿液中的代谢物质进行分析的方法为例，结合附图来说明本发明的具体实施方式。对于实施例中所用到的具体方法或材料，本领域技术人员可以在本发明技术思路的基础上，根据已有的技术进行常规的替换选择，而不仅限于本发明实施例的具体记载。

实施例中所使用的实验方法如无特殊说明，均为常规方法；所使用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例

样本来源：分别从样本库中随机抽取40例血清样本作为原始血清样本，和100例尿液样本作为原始尿液样本。尿液样本分别是50例健康人在间隔10年的两个时间点采集的样本。

对上述样本中的物质进行分析，包括以下步骤

步骤一，样本检测以及数据采集得到样本数据库：

首先从40例原始血清样本中分别取出相同20微升混合后建立4个血清混合质控样本(PQC1)；同样，从100例尿液原始样本中取出相同体积混合后建立10个尿液混合质控样本(PQC2)。

所有原始血清样本、血清混合质控样本统称为血清对应的待分析样本，所有原始尿液样本、尿液混合质控样统称为尿液对应的待分析样本。

向每份待分析样本中加入0.2μL甲酯化脂肪酸(FAME)混合物(C7,C8,C9,C10,C12,C14,C16,C18,C20,C22,C24,C26,C28,and C30)作为RI(保留指数)参照物，然后进行硅烷化(TMS)衍生。

其次，采用色谱-质谱联用对待分析样本进行检测以及采集数据：

实验仪器：采用了气相色谱时间飞行质谱联用仪GC-TOFMS(LECO Corp.,St.Joseph,MI,USA)。

仪器的参数和方法设置如表1中所示。

每检测10个原始血清样本插入一个PQC1，每检测一个原始尿液样本插入一个PQC2。

将检测待分析样本得到的原始信号经过ChromaTOF软件预处理后分析得到质谱图。

最后，计算保留指数，如下：

图2为本实施例涉及的各个FAME的质谱图信息。

如图1和图2所示，根据色谱柱的初始保留时间，定义这14个FAME的初始保留指数(表1)。如图3所示，再根据FAME的特有的质谱图信息、保留时间、和特征离子，获得FAME在每个待测样本中的具体出峰时间。然后，利用第五阶多项式回归计算每个待测样本中的每个待分析物质对应的保留指数RI。

表1.不同FAME的初始保留指数信息表

步骤二，建立样本数据库

基于各个待分析样本中的待分析物质对应的各个质谱图以及保留指数，建立样本数据库，在该样本数据库中包括多个分别与不同待分析样本相对应的样本信息组，样本信息组中包括多个与不同待分析物质相对应的待分析信息。本实施例由于有两种样本，所以分别建立血清对应的待分析样本的样本数据库，尿液对应的待分析样本的样本数据库。

步骤三，准备好标准数据库

标准数据库采用现有公用标准数据库，或根据对血液样本或尿液样本的物质预测，选用标准物质重复步骤1-2得到相应的标准数据库。在标准数据库中，包括多个分别与不同标准物质相对应的标准信息。

以下以标准数据库中对应的标准物质分别为B1、B2、B3、B4和B5为例进行说明。

步骤四，建立质谱参照数据库：

本实施例分别针对待分析的血清样本和尿液样本建立相应的质谱参照数据库。

图3为实施例涉及的建立质谱参照数据库的过程示意图。

如图3所示，参数数据库的建立具体包括以下步骤：

(一)选择待分析样本

本实施例中，选择的待分析样本为作为质控的混合质控样本，也即分别为PQC1和PQC2，以混合质控样本对应的样本信息组设定为代表信息组，并将相应的混合质控控样本设定为代表样本，将代表信息组中的待分析信息设定为代表信息，将代表信息对应的待分析物质设定为代表物质。

预定个数为混合质控样本的个数，也即血液中的代表样本为为4个，尿液中的代表样本为10个。

以下以血液待分析样本为例进行说明，血液待分析样本中选定的代表样本分别为X1、X2、X3和X4，在表2中示例说明各个信息之间的对应关系。

表2选定的代表样本信息对应关系示例表

(二)提取参照已知信息

具体包括以下步骤：

步骤1，将代表样本对应的一个代表物质对应的代表信息与标准数据库中的各个标准物质对应的标准信息进行比较得到多个分别与该代表物质以及相应的标准物质同时相对应的第一匹配度，举例说明为：

比如将X1对应的一个代表物质X11对应的代表信息，与标准数据库对应的标准物质B1、B2、B3、B4和B5逐一比较得到的多个第一匹配度，具体如表3中X11对应的行，同时与该物质及一个标准物质相对应，其它物质的对应的第一匹配度也是如此的对应关系：

表3第一匹配度对应关系示例表

表2中其他代表物质也是如此相比，得到各个如表3对应的第一匹配度。

本实施例中，第一匹配度的计算同时考虑了代表物质与标准物质之间质谱信息的相似度以及保留指数的接近度：

Total score＝c1*Score_spectra(S_i,S_j)+c2*Score_RI(RI_i,RI_j) (1)

这里Si和Sj分别指代表物质和标准物质的质谱碎片，RI_i和RI_j分别为代表物质和标准物质的保留指数。C1和C2为经验系数或权重，本实施例中C1的取值为：0.9，C2的取值为：0.1

Score_spectra利用点积或其他匹配度计算方法得到，本实施例中，Score_RI的计算公式是：

这里ΔRI是指标准物质和代表物质分别对应的RI的差异，w是指对应的RI最大可容许的波动范围，w的取值范围一般为小于10秒相对应的保留指数范围。

步骤2，当步骤1中得到的所有第一匹配度中数值最大的第一匹配度大于预定第一阈值时，将该第一匹配度对应的代表物质设定为与相应的代表样本相对应的已知物质，本实施例中预定第一阈值的取值为70％：

例如在表3中，由于代表物质X11对应的五个第一匹配度中，最大的第一匹配度为90％，大于70％，所以X11就设定为代表样本X1对应的已知物质，同样的X21也设定为代表样本X2对应的已知物质，X31设定为代表样本X3对应的已知物质，X41设定为代表样本X4对应的已知物质；

步骤3，将与同一标准物质的相对应的所有第一匹配度对应的已知物质确定为同一物质：

例如在表3中，X11、X21、X31和X41由于都是对应同一标准物质B4，所以它们四个为同一物质。

计算确定为同一物质的所有已知物质对应的代表样本的总个数与预定个数的百分比是否超过预定第一百分比，预定第一百分比的取值为80％

例如在表3中，X11、X21、X31和X41四个同一物质对应的代表样本总个数为4个，所以百分比为4/4＝100％；

步骤4，当超过预定第一百分比时，比较确定为同一已知物质的所有已知物质对应的第一匹配度的大小，提取比较结果为最大的第一匹配度对应的已知物质的代表信息作为参照已知信息：

例如在表3中，经计算百分比为100％，大于预定第一百分比，然后比较四个第一匹配度的大小，最大的为X31，所以提取X31对应的代表信息XS31作为参照已知信息。

本实施例中提取的参照已知信息包括相应的已知物质的以下信息：质谱信息、保留指数和定量离子。

(三)提取参照未知信息

具体包括以下步骤：

步骤1，提取参照已知信息未鉴定出的代表物质设定为与相应的代表样本相对应的未知物质，例如在表3中，根据步骤5，未鉴定出的代表物质为X12、X22、X23、X24、X32、X33、X34、X42、X43、X44，将X12设定为相应的代表样本X1对应的未知物质，将X22、X23和X24设定为相应的代表样本X2对应的未知物质，将X32、X33和X34设定为相应的代表样本X3对应的未知物质，将X42、X43和X44设定为相应的代表样本X4对应的未知物质；

步骤2，将代表样本对应的一个未知物质对应的代表信息逐一与其他代表样本中的所有未知物质对应的代表信息进行比较得到多个与该未知物质以及该代表样本同时相对应的第二匹配度，本实施例中第二匹配度的计算与第一匹配度的计算相同：

例如在表2和表3中，将代表样本X1对应的未知物质X12的代表信息XS12与样本X2中未知物质X22、X23和X24对应的代表信息XS22、XS23和XS24逐一对比，与样本X3中X32、X33和X34对应的代表信息也逐一对比，与样本X4中X42、X43和X44对应的代表信息也逐一对比，得到多个与未知物质X12以及X1以外的其它任意一个代表样本同时对应的第二匹配度，同样的，分别对代表样本X2、X3和X4中的X23、X33和X43与其他样本中的所有未知物质也逐一对比，得到结果如表4所示的示例：

表4第二匹配度对应关系示例表

步骤3，将与同一个未知物质对应的所有大于第二阈值的第二匹配度对应的所有未知物质确定为同一物质，将确定为同一物质的所有未知物质对应的代表样本的总个数与预定个数的百分比是否超过预定第二百分比，本实施例中第二阈值的取值为80％，预定第二百分比的取值为80％。

例如表4中的几个第二匹配度均与同一未知物质X12相对应，其中第二匹配度B、第二匹配度E和第二匹配度H均大于第二阈值，而第二匹配度B对应的两个未知物质X12和X23、第二匹配度E对应两个未知物质X12和X33，第二匹配度F对应两个未知物质X12和X43，所以第二匹配度B、第二匹配度E和第二匹配度H对应的所有未知物质就为X12、X23、X33和X43，所以X12、X23、X33和X43这四个未知物质就确定为同一物质。

而在上述确定为同一物质的四个未知物质中，分别对应一个代表样本，所以这三个同一物质的未知物质对应的代表样本的总个数与预定个数的百分比为4/4＝100％，大于预定第二百分比。

步骤4，当超过预定第二百分比时，分别对确定为同一物质的所有未知物质对应的所有第二匹配度中与每个未知物质对应的所有第二匹配度求平均得到与每个所未知物质对应的平均匹配度，比较各个平均匹配度之间的大小，提取比较结果为最大的平均匹配度对应的未知物质的代表信息作为参照未知信息：

例如表4中，对上述步骤中确定为同一物质的未知物质X12、X23、X33和X43对应的所有第二匹配度：第二匹配度B、第二匹配度E和第二匹配度H，第二匹配度a、第二匹配度e和第二匹配度h，第二匹配度1、第二匹配度5和第二匹配度8，第二匹配度一、第二匹配度五和第二匹配度八。

分别对与每个未知物质对应的第二匹配度求平均得到如5的结果：

表5平均匹配度计算表格

表5中平均匹配度最大的为91％，对应的未知物质为X33，所以提取X33对应的代表信息XS33作为参照未知信息。

本实施例中，参照未知信息包括包括相应的未知物质的以下信息：质谱信息、保留指数和定量离子。

(四)形成质谱参照数据库

根据提取的所有参照已知信息和所有参照未知信息形成与相应的代表样本及相应的代表物质相对应的质谱参照数据库，本实施例中利用血清质控混合样本为代表样本建立的质谱参照数据库包括70个鉴定的已知物质和151个未知物质的质谱信息、保留指数、和定量离子，利用尿液混合质控样本为代表样本建立的的质谱参照数据库包括77个鉴定的已知物质和212个未知物质的质谱信息、保留指数、和定量离子。

步骤八，待分析物质分析

采用建立得到的质谱参照数据库，对样本数据库中未选择为代表物质的所有其他待分析物质进行分析：基于质谱参照数据库中含有的已知物质的参照已知信息和未知物质的参照未知信息，进一步地分析所有待分析样本进行物质分析，鉴定相关代谢物、并提取定量离子的相对强度。一般，采用与第一匹配度相同的过程得到一个鉴定匹配度，对于鉴定匹配度大于70％的鉴定为同一个物质。对于分析过程中对于某些已知物质或未知物质，特别是浓度低信号弱的，由于分析的参数过于严格会出现缺失值，我们可以通过对这类物质降低匹配度，例如降到65％，可以修补一部分缺失值。最后，对通过质谱参照数据库得到出分析结果可以用于进一步的统计分析。

对比例

本对比例以实施例中的标准库为基础，对实施例中的待分析样本进行鉴定。

对实施例和对比例的结果进行对比分析如下：

1、同一待分析物质质谱特征在血清、尿液、和标准物质三种不同来源中的差异：

通过计算与标准物质的第一匹配度，分别从作为代表样本的血清混合质控样本和尿液混合质控样本中鉴定到41个共同的已知物质。利用主成分分析方法，将标准数据库、血清混合质控样本、尿液混合质控样本中对应的这41个已知物质的质谱图的相似度进行比较，并从第一主成分score plot(图4和图5)进行比较，可以观察到不同待分析样本对应的同一物质之间具有一定差异，可见如果用一种来源的物质的信息来鉴定另一种来源的物质的信息时，会由于来源不同产生的基质效应和共洗脱物质的影响，而进一步影响不同来源的相同物质之间的匹配度，从而产生误断。

2、血清分别基于质谱参照数据库与标准库鉴定结果对比：

利用血清样本对应的参数数据库(前者)和标准数据库(后者)分别去鉴定40个血清的待分析样本中的70个已知物质，对比结果如下：

(1)前者鉴定70个代谢物的平均匹配度为89％，后者为则为83％，具有统计学差异(p<0.05)(图6)，其中在单个代谢的已知物中，两种方法鉴定gluconolactone的差异近高达26％，并且前者在所有样本中能够鉴定出该物质，而后者只能在90％的样本中准确鉴定到(图12)；

(2)由于前者和待分析物质之间的匹配度高，所以前者产生的缺失值少于后者(图7)，利于后期数据分析；

(3)前者选择的定量离子的相对强度在参照库中相比标准库中更稳定，更利于后期数据分析(RSD<30％)(图8)。

2、尿液分别基于质谱参照数据库与标准库鉴定结果对比：

利用尿液样本对应的参数数据库(前者)和标准数据库(后者)分别去鉴定10个尿液的待分析样本中的77个已知物质，对比结果如下：

(1)前者鉴定77个代谢物的平均匹配度为87％，后者为83％，具有统计学差异(p<0.05)(图9)；

(2)由于近似度高，前者产生的缺失值少于后者(图10)，利于后期数据分析；

(3)前者选择的定量离子的相对强度在参照库中相比标准库中更稳定，更利于后期数据分析(RSD<30％)(图11)。利用PLS－DA多维模型可以进一步发现50例健康人10年前后的代谢谱有明显差异(图13)。

实施例的作用与效果

本实施例提供的质谱参照数据库的建立方法及基于其的物质分析方法，由于通过从待分析样本中挑选预定个数的代表样本，基于标准数据库，提取相应的已知参照信息，并至少根据已知参照信息建立质谱参照数据库，所以质谱参照数据库中的已知参照信息的样本来源与其它待分析样本的都是采用完全相同的样本前处理方法，条件一致性较好，使得相比公用的标准数据库或是自己建立的标准数据库来说，相同物质的谱图信息以及保留指数等与待分析样本的重合性更高，所以匹配度更高，所以对待分析样本的物质进行分析得到的结果相比公用标准库或自己建立的标准库更准确，更利于进一步的数据分析；

进一步地，由于质谱参照数据库的建立过程还包括提取相应的未知物质的未知参照信息的步骤，并且质谱参照数据库的形成还根据该未知参照信息，使得根据形成的该质谱参照数据库，可以捕捉在待分析样本中稳定存在并重复被检测到的未知物质，进而可以利用这些未知物质的参照未知信息进一步去做结构预测，甚至还可以推测在不同来源的待分析样本中(例如血样和尿样)是否都存在这类未知物质，进一步探索有价值的物质信息，并且基于质谱参照数据库对待分析样本进行鉴定时，当需要鉴定出存在于各个样本中的共同未知物质时，也即稳定存在的未知物质，可以通过匹配度就能鉴定出所有待分析样本中与质谱参照数据库中一样的未知物质，这样相比将所有待分析样本中的所有未知物质相互比较鉴定出共同存在的未知物质，大大加快了速度；

进一步地，由于以混合质控样本为代表样本，而混合质控样本能够代表所有待分析样本的物质的平均数目和浓度，所以建立的参数数据库稳定性更好，能进一步提高对待分析样本的分析结果的准确性。

另外，本实施例中，预定第一百分比的大小为80％，作为本发明，预定第一百分比的范围为50-100％，可以根据所选择的代表样本的类型和检测目的的不同在该范围内进行调整，同样地，预定第二百分比的范围为80％，也可以根据所选择的代表样本的类型和检测目的的不同在该范围内进行调整。

另外，本实施例中，预定第一阈值的大小为70％，预定第二阈值的大小为80％，作为本发明，发明建立参照库时的第一阈值范围为60-90％，最低值相比直接用标准库进行分析时的匹配度的阈值的最低值较低，这样能提高建立参照库的准确度；而采用参照库进行分析时的第二阈值的范围60-90％，这时由于参照库来自待分析样本，条件高度一致，所以第二阈值的最低值相比直接用标准库进行分析时的匹配度的阈值的最低值可以较高，这样能在保证准确度的条件下，减少缺失值的出现，使得更利于后面的进一步分析。

另外，本实施例中，选择的待分析代表样本为所有样本混合得到的作为质控的混合质控样本，预定个数为混合样本的个数，作为本发明，根据分析目的和待分析样本的不同，选择的待分析代表样本可以为同一类的单个样本中的一部分或全部，也可以选择从不同类的待分析样本中每一类选择部分，当为部分时，预定个数优先地要求大于等于3个。

Claims

1.一种质谱参照数据库的建立方法，所述质谱参照数据库用于对多个待分析样本中的待分析物质进行分析，基于标准数据库和样本数据库建立，所述标准数据库包括对标准物质进行色谱-质谱联用检测采集得到的多个分别与不同所述标准物质相对应的标准信息，所述样本数据库包括对待分析样本进行色谱-质谱联用检测采集得到的多个分别与不同所述待分析样本相对应的样本信息组，所述样本信息组中包括多个与不同所述待分析物质相对应的待分析信息，其特征在于，包括：

选择待分析样本的步骤，从所述样本数据库中选择预定个数的所述待分析样本对应的样本信息组设定为代表信息组，并将相应的所述待分析样本设定为代表样本，将所述代表信息组中的所述待分析信息设定为代表信息，将所述代表信息对应的所述待分析物质设定为代表物质；

提取参照已知信息的步骤，基于所述标准数据库，对所有所述代表样本对应的所述代表物质进行鉴定，提取被鉴定出且被鉴定为同一物质且对应的所述代表样本的个数与所述预定个数的百分比大于预定第一百分比时的所述代表物质对应的所述代表信息作为参照已知信息；

形成所述质谱参照数据库的步骤，至少根据所述参照已知信息形成与相应的所述代表样本及相应的所述代表物质相对应的所述质谱参照数据库。

2.根据权利要求1所述的建立方法，其特征在于，还包括：

提取参照未知信息的步骤：将所有所述代表样本中未鉴定出的所述代表物质之间进行相互比较，提取鉴定为同一物质且对应的所述代表样本的个数与所述预定个数的百分比大于预定第二百分比时的所述代表物质对应的所述代表信息作为参照未知信息，

形成所述质谱参照数据库的步骤还根据所述参照未知信息形成。

3.根据要求2所述的建立方法，其特征在于：

提取参照未知信息的步骤具体包括：

步骤1，将在提取参照已知信息的步骤中未鉴定出的所述代表物质设定为与相应的所述代表样本相对应的未知物质；

步骤2，将所述代表样本对应的一个所述未知物质对应的所述代表信息逐一与其他任意一个所述代表样本中的所有未知物质对应的所述代表信息进行比较得到多个分别与该未知物质以及该所述代表样本同时相对应的第二匹配度；

步骤3，将与同一个所述未知物质对应的所有大于预定第二阈值的所述第二匹配度对应的所述未知物质确定为同一物质，将确定为同一物质的所有所述未知物质对应的所述代表样本的总个数与所述预定个数的百分比是否超过所述预定第二百分比；

步骤4，当超过所述预定第二百分比时，分别对确定为同一物质的所有未知物质对应的所有所述第二匹配度中与每个所述未知物质对应的所有所述第二匹配度求平均得到与每个所未知物质对应的平均匹配度，比较各个所述平均匹配度之间的大小，提取比较结果为最大的所述平均匹配度对应的所述未知物质的所述代表信息作为参照未知信息。

4.根据权利要求1至3任意一项所述的建立方法，其特征在于：

提取参照已知信息的步骤具体包括：

步骤1，将代表样本对应的一个代表物质对应的所述代表信息与所述标准数据库中的各个所述标准物质对应的所述标准信息进行比较得到多个与该代表物质以及相应的所述标准物质同时相对应的第一匹配度；

步骤2，当步骤1中得到的所有所述第一匹配度中数值最大的所述第一匹配度大于预定第一阈值时，将该第一匹配度对应的所述代表物质设定为与相应的所述代表样本相对应的已知物质；

步骤3，将与同一所述标准物质的相对应的所有所述第一匹配度对应的所述已知物质确定为同一物质，计算确定为同一物质的所有所述已知物质对应的所述代表样本的总个数与所述预定个数的百分比是否超过预定第一百分比；

步骤4，当超过所述预定第一百分比时，比较确定为同一物质的所有所述已知物质对应的所述第一匹配度的大小，提取比较结果为最大的所述第一匹配度对应的所述已知物质的所述代表信息作为参照已知信息。

5.根据权利要求1所述的建立方法，其特征在于：

所述预定第一百分比的范围为50％-100％。

6.根据权利要求2所述的建立方法，其特征在于：

所述预定第二百分比的范围为50％-100％。

7.根据权利要求3所述的建立方法，其特征在于：

所述预定第二阈值的范围为60-90％。

8.根据权利要求4所的建立方法，其特征在于：

所述预定第一阈值的范围为60-90％。

9.根据权利要求1至3任意一项所述的建立方法，其特征在于：

所述参照已知信息包括所述已知物质的质谱信息、保留指数和定量离子。

10.根据权利要求2或3所述的建立方法，其特征在于：

所述参照未知信息包括所述未知物质的质谱信息、保留指数和定量离子。

11.根据权利要求1至3任意一项所述的建立方法，其特征在于：

所述预定个数的大小范围为大于等于3个。

12.根据权利要求1至3任意一项所述的建立方法，其特征在于：

选择待分析样本的步骤中选择的所述待分析样本为对所述待分析样本进行色谱-质谱联用检测采集测时作为检测质控的混合质控样本，所述预定个数为所述混合质控样本的个数。

13.根据权利要求1至3任意一项所述的建立方法，其特征在于：

选择待分析样本的步骤中选择的所述待分析样本为同一类单个的待分析样本。

14.根据权利要求1至3任意一项所述的建立方法，其特征在于：

选择待分析样本的步骤中选择的所述待分析样本中包括所有种类的单个的所述待分析样本。

15.一种物质的分析方法，其特征在于，包括：

建立质谱参照数据库的步骤和基于所述质谱参照数据库对待分析样本进行分析的步骤，

其中，所述质谱参照数据库的建立方法采用权利要求1至14中任意一项所述建立方法。