CN112748191A

CN112748191A - 诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用

Info

Publication number: CN112748191A
Application number: CN202011170219.8A
Authority: CN
Inventors: 李琰; 威尔米泽·洛萨·奥托·爱德华德
Original assignee: Shenzhen Maitu Precision Technology Co ltd
Current assignee: Shenzhen Maitu Precision Technology Co ltd
Priority date: 2019-10-30
Filing date: 2020-10-28
Publication date: 2021-05-04

Abstract

本发明提供了诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用，是基于同时检测生物样本中数千种小分子代谢物的方法，从中筛选出与急性疾病最为相关的小分子代谢物，作为诊断急性疾病的小分子代谢物生物标志物。本发明还基于小分子代谢物生物标志物提供建立急性疾病诊断模型和诊断设备的应用，为急性疾病的早期预测、筛查、干预和治疗提供了有效的工具。

Description

诊断急性疾病的小分子代谢物生物标志物及其筛选方法和应用

技术领域

本发明属于急性疾病诊断应用技术领域，具体涉及诊断急性疾病的非特异性小分子代谢物及其筛选方法以及利用该非特异性小分子代谢物作为生物标志物的急性疾病的诊断模型及其构建方法和应用。

背景技术

目前，全世界的医疗保健费用不断上升，一方面是由于不健康的生活方式，另一方面是由于中老年人的人数比例在增长。因此，控制医疗保健成本并为健康生活方式提供指导成为所有发达国家和发展中国家的共同主题。实现这一目标的核心是找到一种技术，能满足以下需求：1)可以对个体急性疾病进行早期可执行诊断；2)可以预估某个人在将来患某种疾病的可能性；3)可以持续监测个体的健康状况，从而在发现与某些疾病相关的异常特征时进行早期干预。

为了满足上述要求已经开发了多种疾病诊断方法，其中有常规既往病史调查、体检参数如体重体温、影像学检查如X射线和超声波检查、分子水平检查如基于PCR技术的致病原检测等。近些年来，分子标志物特别是DNA、RNA以及蛋白质标志物也开始被用于临床，在疾病的诊断和治疗方面发挥了重要的作用，但以上方法对于急性疾病的早期预测和诊断方面还存在不足。

在当前诊断方法中，代谢水平的诊断并没有包括在内，但其在急性病的诊断和预测方面的潜力被严重忽视，因为个体的生活方式、疾病的存在与否以及潜在发展成为某种疾病的易感性都直接反应在个体体内的生化活动上。众所周知，类似营养、身体活动以及睡眠等生活方式的改变都是直接反应在生化水平上的。所以，有理由相信个体将来发展成某种疾病的可能性是由于个体体内生化活动的改变所决定的，而且该变化可能比已知的疾病症状的出现早几年。

个体内代谢是一个非常复杂的生化过程，但也是个体内的一个有序过程，特定个体的生物化学活性通过个体内的数千种代谢物的水平来反映。当个体生活方式改变或受到来自个体内部或外部的刺激的影响时，均可反映在个体体内代谢物的水平变化上，例如氨基酸、糖、糖醇、有机酸、脂肪酸、脂质、激素等非蛋白原和非核生成的小分子(分子量小于2000道尔顿)，这些小分子代谢物的集合称为代谢物组。与分子标志物不同，这些小分子代谢物中的每一个甚至代谢物组针对某种疾病作为标志物是非特异性的。

生化指标用于诊断急性疾病和综合评估个体健康状况已得到认可。然而，由于临床化学测试平均仅能检测约100个生化参数，其仅能提供具有数千个代谢物的代谢组中非常少的一部分信息，而且小分子代谢物对某种疾病具有非特异性，这些生化参数与所诊断的急性疾病的关联信息有限，在缺少分子标志物数据下，不足以作为某急性疾病诊断的依据，更无法预测疾病。

发明内容

针对现有技术中存在的问题的一个或多个，本发明的一个方面提供一种用于诊断急性疾病的小分子代谢物生物标志物的筛选方法，包括以下步骤：

1.1、对患病组和对照组每一样本中一组小分子代谢物进行测定，将测定数据归集为对照代谢数据集(CK-S)和患病代谢数据集(LC-S)，并将该两数据集按样本以设定的比例分为第一训练数据集(TS)和第一测试数据集(VS)；

1.2、对步骤1.1中所述第一训练数据集(TS)中的对照代谢数据集(CK-S)和患病代谢数据集(LC-S)进行统计分析，筛选出患病组和对照组之间存在显著差异的代谢物，将第一训练数据集(TS)中这些显著差异的代谢物的数据归集为第二训练数据集(TS1)，并将所述第一测试数据集(VS)中对应这些代谢物的数据归集为第二测试数据集(VS1)；

1.3、将步骤1.2中所述第二训练数据集(TS1)输入到随机森林模型(M0)中；

1.4、训练步骤1.3的模型，调整超参数，使模型在第二训练数据集(TS1)上的AUC(Area Under Curve)最高，固定该超参数获得一训练模型(M1)；

1.5、利用所述第二测试数据集(VS1)检测所述训练模型(M1)，调整模型超参数和训练策略，重新训练，以使模型在第二训练数据集(TS1)和第二测试数据集(VS1)上均有很高的AUC，固定具有高AUC的模型参数获得一筛选模型(M2)；

1.6、根据所述筛选模型(M2)，识别出N个变量重要性较高的代谢物作为诊断急性疾病的小分子代谢物生物标志物；N为正整数。

另一用于诊断急性疾病的小分子代谢物生物标志物的筛选方法，包括以下步骤：

1.1)、对患病组和对照组每一样本中一组小分子代谢物进行测定，对数据进行包括降低特征数、填充缺失值，数据均一化在内的预处理，将预处理后的数据归集为对照代谢数据集(CK)和患病代谢数据集(GC)，并将该两数据集按样本以设定的比例(0.7：0.3)分别分为两个训练数据集(TS_CK&TS_GC)和两个测试数据集(VS_CK&VS_GC)；

1.2)、将两个训练数据集(TS_CK&TS_GC)合并成训练数据集(TS)，以及将两个测试数据集(VS_CK&VS_GC)合并将成测试数据集(VS)；

1.3)、将步骤1.2)中所述训练数据集(TS)输入到随机森林模型(M0)中；

1.4)、训练步骤1.3)的模型，调整超参数，使模型在训练数据集(TS)上的AUC(AreaUnder Curve)最高，固定该超参数获得一训练模型(M1)；

1.5)、利用所述测试数据集(VS)检测所述训练模型(M1)，调整模型超参数和训练策略，重新训练，以使模型在训练数据集(TS)和测试数据集(VS)上均有很高的AUC，固定具有高AUC的模型参数获得一筛选模型(M2)；

1.6)、根据所述筛选模型(M2)，识别出N个变量重要性较高的代谢物作为诊断急性疾病的小分子代谢物生物标志物；N为正整数。

上述方法中所述样本包括血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物和粪便等。

上述筛选方法中还涉及以下分析方法：典型相关分析、普通最小二乘回归分析、偏最小二乘分析、主成分回归分析、岭回归分析或最小角度回归分析，并结合交叉验证分析。

上述随机森林模型可以扩展为其他非线性模型和监督学习方法。

上述方法中所述超参数包括决策树的个数(n_estimators)、CART树做划分时对特征的评价标准(criterion)、最大特征数(max_features)、决策树最大深度(max_depth)、内部节点再划分所需最小样本数(min_samples_split)、叶子节点最少样本数(min_samples_leaf)、叶子节点最小的样本权重和(min_weight_fraction_leaf)、最大叶子节点数(max_leaf_nodes)、节点划分最小不纯度(min_impurity_split)中的任一个或其组合。

所述训练策略包括交叉验证的折数，训练集测试集的划分比例，不均衡分布样本的向下还是向上采样。

所述变量包括小分子代谢物、年龄、性别、体重等，所述变量重要性较高是指该变量对模型的诊断性能贡献较大。

上述患病组为肺癌患病组(LC)，所述对照组为肺部慢性疾病种群(LCD)、其他癌种群(OC)和健康个体(HCtl)。

上述方法获得的小分子代谢物生物标志物在制备用于诊断急性疾病的试剂或试剂盒、建立诊断模型或诊断设备中的用途也属于本发明的内容。

诊断急性疾病的数学模型，该数学模型中输入有上述用于诊断急性疾病的小分子代谢物生物标志物的筛选方法获得的小分子代谢物生物标志物及相关算法。可获得待诊断样本中上述方法筛选获得的小分子代谢物生物标志物及其半定量分析结果，并输入至该数学模型中，利用该数学模型的算法进行计算并从该数学模型输出待诊断样本的急性疾病的诊断结果。

本发明的又一方面提供一种诊断急性疾病的设备，包括：

6.1、分析受试者样本的分析单元，其包含用于上述筛选方法获得的小分子代谢物生物标志物定性和定量分析的检测仪器(质谱装置)；

6.2、数据存储单元，包括6.1的分析单元获得的数据；

6.3、数据处理单元，包括一种算法或上述的数学模型，用于执行对6.2的数据存储单元中的数据的处理；

6.4、信息输出单元，对所述数据处理单元处理的结果进行输出。

本发明的又一方面还提供一种诊断急性疾病的生物标志物，为用上述筛选方法筛选获得的N个小分子代谢物，这些小分子代谢物中的任一个针对该疾病作为标志物是非特异性的。

上述急性疾病包括肺癌、食管癌、胃癌、结肠直癌、胰腺癌、鼻咽癌、肝癌、肾癌、黑色素瘤、神经内分泌肿瘤等。急性疾病为胃癌时，与胃癌关联的小分子代谢物生物标志物包括1054个化合物。

本发明提供了一种可同时对样本(例如血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物、粪便和多种其他样本)中存在的数千种小分子代谢物的含量进行检测的方法，并在检测获得的数千种小分子代谢物中筛选出可用来对急性疾病进行早期诊断的N个非特异性小分子代谢物，并提供了这些小分子代谢物组的筛选方法。同时建立了一套基于本发明提供的一系列非特异性小分子代谢物的急性疾病的诊断模型，可有效用于对个体进行某种急性疾病的早期诊断，也可有效用于对健康个体和患病个体(尤其是患有急性疾病个体，例如癌症(肺癌、胃癌)患者)进行区分。另外，本发明还提供了基于筛选出来的小分子代谢物的急性疾病的诊断设备和方法，可快速方便对某一个体是否患有某种急性疾病进行诊断。

附图说明

图1为模型训练结果；

图2为变量重要性比较结果；

图3为诊断急性疾病的生物标志物的筛选过程的流程图；

图4为模型预测性能评估；

图5为样品检测的示例性质谱图。

具体实施方式

在对个体代谢活动的研究中，人们意识到个体代谢的指标变化与疾病的发生发展高度相关，即疾病的发生和发展的易感性可以通过个体体内的代谢指标变化直接反映出来，并且推测这种变化可能在已知某种疾病症状出现的前几年就已经开始。因此，检测个体内代谢物的水平变化可成为临床疾病诊断的一种重要手段，为一些重大疾病的诊断和治疗提供一种有力工具。

在一个实施方式中，本发明提供一种方法，该方法允许同时检测个体(包括健康个体和患病个体)体液中的数千种代谢物，包括但不限于血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物、粪便和多种其他样本。

在一个实施方式中，本发明提供一种从数千种小分子代谢物中筛选用于诊断急性疾病的小分子代谢物的方法，并基于该方法获得可用于诊断急性疾病的一些小分子代谢物，这些小分子代谢物可作为诊断某种急性疾病的生物标志物。

在另一个实施方式中，本发明提供了基于小分子代谢物作为生物标志物构建的针对某种急性疾病的诊断模型或设备，该诊断模型或设备通过输入或检测获得小分子代谢物生物标志物的量，可以输出诊断结果，用来诊断某一个体是否患有某种急性疾病。另外，本发明还提供了该诊断模型的建立方法。

以下实施例以肺癌、胃癌作为急性疾病的示例做具体说明。

虽然已有研究表明急性疾病(例如肺癌、胃癌)患者的代谢变化与正常个体的代谢变化有所区别，但是这些代谢物(特别是非特异性的小分子代谢物)的变化是否可以用于对急性疾病进行诊断还没有独立的验证。并且已有研究中的急性疾病患者中的代谢物的变化指示的是个体已经罹患某种急性疾病，这时进行诊断已经不能达到提前筛查和早期干预的目的，因此迫切需要一种改进的急性疾病的诊断方法，特别是构建能够实现对个体的急性疾病进行早期的和可执行的诊断产品，如诊断模型或标志物，以用来评估个体目前或将来患某种急性疾病的可能性，从而能在发生可能导致特定疾病的异常特征的时候进行早期干预。

基于此，本发明首先对个体生物样本中数千种小分子代谢物进行大通量检测，并从中筛选出可用于诊断急性疾病的非特异性小分子代谢物，基于这些筛选的非特异性小分子代谢物构建一套急性疾病的诊断模型，从而可以依据该诊断模型根据个体的自身代谢情况实现对个体的急性疾病进行早期和可执行的诊断，本发明将通过以下具体实施方式详细说明本发明内容。

实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，实施例将有助于理解本发明，但不应作为对本发明内容的限制。

实施例1：非特异性小分子代谢物的相对浓度测定

对样本中数千种代谢物进行同时检测，样本来源于健康个体和患病个体，健康个体生物样本种类包括但不限于血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物、粪便等，患病个体样本还可进一步包括活检组织。

从医院获得100例肺癌患者的血液样本(LC)，100例肺部慢性疾病组(LCD)，100例其他癌组(OC)以及100例健康个体(Hctl)的血液样本(在患者以及健康个体签署知情同意书后)。利用气相色谱-质谱联用(GC-MS)和液相色谱-质谱联用(LC-MS)方法，按照以下步骤对参与者血液样本中的小分子代谢物的相对浓度进行测定。

1.1、样本处理

分离血液样本，获得各组别的血浆样品立即冻存。

1.2、测定装置及试剂

本发明使用的装置和试剂如所示。

溶剂和化合物

设备和耗材

1.3、测定条件

质谱方法

1.4代谢物提取(检测样本)

其中代谢物提取过程在室温下进行，蛋白质沉淀仅从水相开始。

1)在冰上融化血浆样品，将100微升血浆准确分装入2毫升EP管准备提取(该管命名：样品管)；

2)加1毫升在-20度提前预冷过夜的提取液1(提取液1组分为MTBE：甲醇的体积比例是3：1)到含100微升血浆的样品管中；

3)室温涡流混匀样品管后，将其置于冰水混合浴中超声波破碎15分钟；

4)完成步骤3)后，在样品管内加500微升提取液2(提取液2组分为水：甲醇的体积比例是3：1)；

5)室温涡流混匀样品管；将混合均匀的样品管在4℃条件下用14000rpm转速离心5分钟；

6)将步骤5)离心完成的样品管小心地从离心机里拿出，从中取500微升上层(有机)相用于脂类分析，放入新的1.5毫升EP管中，关好管盖，该提取相为有机相(又叫脂质相)，用于LC-MS脂质组检测(含脂质相新的样品管命名为：脂相管)；

7)继续用真空泵抽除样品管中浮在上层剩余的有机相；

8)再从样品管水相中间，吸取400微升水相放入新的2毫升EP管中，该提取相为水相(又名极性相)用于LC-MS代谢组检测(含水相新的样品管命名为：水相管)；

9)继续从样品管剩余的水相中，取150微升水相放入新的1.5毫升EP管中，用于GC-MS检测分析(含水相新的样品管命名为：新水相管)；

10)将新水相管和脂相管放入冷冻干燥离心机内进行冷冻干燥。完成后置入-80℃冰箱等待上机处理；

11)加1.1毫升预冷的甲醇到步骤8)获取的水相管内，涡流混匀；

12)将混匀后的水相管放入-20℃冷冻处理2小时后，在4℃条件下用14000rpm转速离心10分钟；

13)将离心完成的水相管拿出，吸取上清液转移到新的1.5毫升EP管中(该管命名为：水相检测管)；

14)将水相检测管置入冷冻干燥离心机中，冻干过夜。将冻干完成的水相检测管置入-80℃冰箱保存，等待上机处理。

将脂相管和水相检测管上机测定，获得其中的小分子代谢物相对浓度。

1.5、质谱检测数据处理及相对浓度计算和统计分析

通过上述步骤1.4获得每一检测样本中的小分子代谢物(数千种)的相对浓度等代谢参数。

通过该实施例提供的小分子代谢物的检测方法可以实现生物样本(血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物、粪便等以及患者活检组织)中存在的数千种小分子代谢物的同时检测，大大提高了检测效率，为后续小分子代谢物的筛选奠定了数据基础。

将各样本的小分子代谢物数据按肺癌组形成肺癌组代谢数据集(LC-1)，肺部慢性疾病组、其他癌组和健康对照组别归集，形成对照代谢物数据集(CK-1)。

实施例2：用于诊断肺癌的非特异性小分子代谢物生物标志物的筛选

在该实施例中详细阐述了如何定义目标(诊断肺癌的生物标志物的筛选)以及如何预处理数据。生物标志物的发现意味着对代谢特征(即小分子代谢物)的识别，其中个体中小分子代谢物的丰度(可能是若干代谢物结合在一起的)表明了个体目前或未来在疾病或类似条件下的状态。为此，首先需筛选具有较高的预测或诊断能力的代谢特征(即小分子代谢物生物标志物)，进而能利用其建立监督机器学习模型，也就是说，创建能准确预测未见数据的响应或诊断个体中数据的响应、并能识别潜在的以非特异性小分子代谢物为生物标志物的模型。

利用代谢组学数据构建具有高诊断能力的模型时的挑战源于特征数量大(如实施例1测定的小分子代谢物为数千个数量级)，而筛选最终能用于诊断模型的数据样本数量少，这种情况叫做高维小样本(high dimension–low sample size，HDLSS)。去除很可能不相关的代谢特征可以降低筛选模型拟合的计算复杂性并便于生物标志物识别，这也是整个模型的一部分。这种特征选择通过包裹式选择(模型本身)或过滤式选择方法(利用响应变量与特征的关联)来执行。然后根据预选的特征构建实际的机器学习模型。

其中机器学习模型可以从以下模型中获得：

可预测模型

有监督的机器学习是一种用来预测一组新的不可见的数据点的特定响应变量的数学模型，响应变量在训练数据和预测数据中的分布应该是相同的。

响应变量的类型决定了是回归模型(连续性变化，例如血压)还是分类模型(离散响应，例如患病/健康个体)。机器学习文献包括各种各样的数学模型，每个模型都有各自的优点和缺点以及应用领域。在下文中，非穷尽地描述了一些适用于本申请生物标志物发现的预测模型。

逻辑斯蒂回归

逻辑斯蒂回归是最常用的分类模型之一，属于线性模型范畴，这意味着只有线性的特征组合才能输入到模型。然而，在特征输入模型之前，可以通过输入特征的非线性转换来捕获非线性，从而能够对二次决策边界进行实例建模。逻辑回归假设属于某一特定类别的数据点的对数几率与输入特征的线性组合成比例，其中个体特征的系数量化了它们的贡献。它通过将线性组合输入到逻辑函数中，来获得属于某一特定类别数据点的概率输出，该逻辑函数产生0到1之间的值。然后根据该概率和临界值对数据点进行分类，例如，在二进制分类的情况下，可以选择临界值为0.5。其基本形式的逻辑回归不适用于HDLSS问题，因为多重共线性使得方程组的解不确定。然而，正则化通过在损失函数中添加正则化项，使其也可以在该领域中应用，从而能够有效地处置复杂模型。由于特征系数和对数几率的线性关系，可以有效地拟合逻辑回归并便于模型解释。

支持向量机

支持向量机属于基于实例的模型，这意味着新的不可见数据点和训练集的数据点的距离测量决定其类别。在其基本线性形式中，模型确定了特征空间中的超平面，将数据点分成两个类别。鉴于该问题是线性可分的，通常存在无限多个可能的分离超平面。通过选择能够实现分离并且使得最接近的数据点的距离最大的超平面，可以获得单个最有效的模型解。这些最接近的数据点完全定义了分离超平面，因此称为支持向量。非线性决策边界可以通过所谓的核函数转换，即将特征空间的非线性转换为更高的，甚至可能是无限的维度的另一特征空间。支持向量机非常适合HDLSS领域，并已成功应用于各种研究和工业应用。此外，支持向量机可用于回归以及分类。与逻辑回归相比，拟合非线性支持向量机系数的解释不那么简单。然而，利用线性支持向量机训练出来的系数已经有效地用于基于微阵列数据的基因选择。

随机森林

随机森林是非线性机器学习模型，能够基于决策树进行回归和分类。它是一种集成学习方法，即将多个决策树的输出聚集以进行最终预测。它通过在训练集的自举样本(在放回的条件下来自原始数据集的随机子集)训练多个决策树来缓解决策树过度拟合的趋势并增加预测稳健性，该过程称为自举聚集或袋装法。另外，随机森林使用的是特征装袋，即，对于每个自举样本，仅利用特征的一个随机子集来构建单独的决策树。然后根据所有决策树的结果聚集用于分类或将决策树预测结果的评价用于回归。随机森林可以根据排列方法(Permutation)确定特征重要性。此外，随机森林相较于其他模型具有各种优势，如对噪声和异常值的稳健性，处理缺失数据的能力以及对特征缩放的不敏感性。

本实施例基于实施例1的肺癌患病组代谢物数据集和对照组代谢物数据集，即小分子代谢物在肺癌患病组(LC)与肺部慢性疾病组(LCD)、其他癌组(OC)和健康个体组(HCtl)的血液中的相对浓度结果(即LC，LCD，OC和HCtl中的小分子代谢物在血液样本中的相对浓度)，通过建立数学模型的方法从这些数千个非特异性小分子代谢物中筛选出若干与肺癌发生相关的非特异性小分子代谢物形成数据集，最终确定与肺癌最为相关的小分子代谢物作为诊断肺癌的生物标志物，具体包括以下步骤：

步骤一、将肺癌代谢数据集(LC-1)和对照代谢物数据集(CK-1)按一定比例(从各组样本中按设定比例，例如80％样本的数据作为训练数据，20％样本的数据作为测试数据)随机分为训练数据集(A_TS)和测试数据集(A_VS)；

步骤二、将A_TS中的对照代谢数据集(CK-1)和肺癌代谢数据集(LC-1)进行统计分析，例如方差分析(Analysis of Variance,ANOVA)，通过p值过滤筛选出两个群体中存在显著差异的代谢物，将A_TS中这些代谢物数据归集为新的训练数据集(A_TS1)，将A_VS中这些代谢物数据归集为新的测试数据集(A_VS1)；

步骤三、将步骤二中的A_TS1输入到随机森林模型(M0)中；

步骤四、训练模型(M0)，调整超参数(包括决策树的个数(n_estimators)、CART树做划分时对特征的评价标准(criterion)、最大特征数(max_features)、决策树最大深度(max_depth)、内部节点再划分所需最小样本数(min_samples_split)、叶子节点最少样本数(min_samples_leaf)、叶子节点最小的样本权重和(min_weight_fraction_leaf)、最大叶子节点数(max_leaf_nodes)、节点划分最小不纯度(min_impurity_split)的任一个或其组合)，以及模型外部参数(例如向下采样或向上采样，CV等)，使模型在A_TS1上的AUC最高(指预测A_TS1中某一个体是肺癌患者或对照的准确率)，可以获得如下表1所示的模型训练结果(以决策树的个数选择为例)，固定该超参数获得一训练模型(M1)；

表1.超参数行为统计

参数	ROC	Sens	Spec	ROCSD	SensSD	SpecSD
							Tree＝100,….	0.8405556	0.7933333	0.7133333	0.09002100	0.1384437	0.2013841
Tree＝200,	0.8588889	0.7866667	0.7800000	0.08971334	0.1769076	0.1845916

步骤五、利用A_VS1检测训练模型(M1)，不断调整模型超参数(如上述步骤四所述的超参数)和训练策略(例如交叉验证的折数，训练集测试集的划分比例，不均衡分布样本的向下还是向上采样等)，重新训练，以使模型在A_TS1和A_VS1上均有很高的AUC，如图1所示的结果，显示在训练数据集和测试数据集上具有很高的AUC。另外，在模型预测性能评估时可以再加上如下表2所示的混淆矩阵(Confusion Matrix)，以验证模型在A_TS1和A_VS1上均有很好的表现；固定模型参数获得一筛选模型(M2)；

表2.混淆矩阵

步骤六、根据最终的筛选模型(M2)，识别出N个变量重要性最高(即该变量对模型的诊断性能贡献最大，该实施例中的变量为小分子代谢物，变量还可以包括年龄、体重、性别等)的代谢物作为诊断肺癌的小分子代谢物生物标志物，如图2所示，示出了不同小分子代谢物的变量重要性对比结果，可以选择具有较高变量重要性的N个小分子代谢物(例如图2中的小分子代谢物5-8)作为诊断肺癌的生物标志物。

根据以上步骤一至步骤六的方法，也可以筛选出用于诊断其他类型癌症(例如食管癌、胃癌、结肠直癌、胰腺癌、鼻咽癌、肝癌、肾癌、黑色素瘤、神经内分泌肿瘤等)的小分子代谢物生物标志物，与上述步骤一至步骤六不同的是，此时以其他类型癌症患者代替肺癌患者作为患病组用于数据集采集，而将肺癌患者归入对照组中。

依据实施例1样本数据按照实施例2的方法筛选得到的与肺癌最为相关的非特异性小分子代谢物数据集D可以按照下表3中的形式列于下表3(505个变量重要性大于0的小分子代谢物，表3数据非穷尽)中：

表3.与肺癌最为相关的非特异性小分子代谢物

其中：Variable Importance表示特征变量重要性。

通过该实施例获得了与肺癌发生发展最为相关的小分子代谢物，可有效用作诊断某一个体在当前是否患有肺癌的生物标志物。

实施例3：肺癌的诊断设备和诊断模型

在该实施例中，还基于提供的肺癌的诊断方法提供了肺癌诊断的设备，其包括：

1)用于分析受试者样本的分析单元，其包含用于对实施例2确定的小分子代谢物生物标志物的量测定的检测器(质谱装置)；

2)数据存储单元，包括步骤1)的分析单元获得的数据；

3)数据处理单元，包括一种算法，用于执行对步骤2)的数据存储单元中的数据的处理，具体为处理步骤2)的数据存储单元中的由实施例2确定的若干小分子代谢物生物标志物的定量数据；

4)信息输出单元，对所述数据处理单元处理的结果进行输出。

在该实施例中，还基于提供的肺癌的诊断方法构建了肺癌诊断的模型。肺癌诊断模型的构建，是依据数据集D确定的与肺癌最为相关的小分子代谢物的种类和量，通过对这些代谢物的定量进行数据预处理(如对缺失的数据进行过滤)后，输入到实施例2中训练好的随机森林模型M2，用随机森林分类器对该数据集进行判别与分类，分类结果(患病或者不患病)按树分类器的投票多少而定，相对于现有的临床诊断手段(例如病理学方法)，可判定该诊断模型具有较高的敏感性和特异性，并且该诊断模型操作方便快捷。

在使用构建的急性疾病的诊断模型时，可以通过向该诊断模型输入检测获得的受试者生物样本(待诊断样本)中的由实施例2确定的小分子代谢物生物标志物的量，利用该模型输出该受试者患癌症的投票结果，进而诊断受试者是否患有肺癌。

实施例4：肺癌的诊断

该实施例利用实施例2筛选获得的小分子代谢物生物标志物诊断某一受试者是否患有肺癌，具体包括以下步骤：

1)获得受试者的血液、血清或血浆样本(待诊断样本)，进行总代谢物提取(可参照实施例1的1.4的操作)；

2)获得步骤1)提取的总代谢物中至少一种小分子代谢物生物标志物的量，该小分子代谢物生物标志物包括在实施例2获得的范围内，或者实施例3的诊断设备或诊断模型所需要的若干小分子代谢物生物标志物的定量；

3)将小分子代谢物生物标志物的定量输入实施例3的诊断设备或诊断模型中，以预测患病的概率来判断疾病与否。

基于该实施例提供的肺癌的诊断方法与肺癌诊断的现有方法(例如病理学方法)相比，具有较高的准确性，并且该实施例提供的方法操作更加方便快捷，结果更加客观真实。

实施例5：用于诊断胃癌的非特异性小分子代谢物生物标志物的筛选

从医院获得38例胃癌患者的血液样本和50例非癌疾病组的血液样本(在患者以及健康个体签署知情同意书后)，非癌疾病组的疾病统计见表4。参照实施例1利用液相色谱-质谱联用(LC-MS)方法对参与者血液样本中的小分子代谢物的相对浓度进行测定。

表4.非癌疾病组50名患者的疾病统计

其中步骤1.4代谢物提取后上机测定前，增加以下复溶操作：

15)待上机时，从-80℃冰箱取出脂相管和水相管，分别加入200微升ReB1(组分为乙腈：异丙醇的体积比例是7：3)溶液和200微升水，室温放置15分钟后涡流混匀；超声5分钟后涡流混匀；最大转速室温离心5分钟，转移170微升上清液至样品瓶，并立即盖上盖子；待上机做LC-MS分析。

步骤1.5中的样本质谱检测：

复溶后的样本分别取3μL(Polar平台)和2μL(Lipid平台)，利用高效液相色谱(Waters公司,ACQUITY I-CLASS)串联高分辨质谱系统(ThermoFisher公司,Q Exactive)进行数据采集。

高效液相色谱系统色谱柱规格如下：Waters

HSS T3 1.8μm2.1*100mm column(Polar平台)；Waters

BEH C8 1.7μm 2.1*100mmcolumn(Lipid平台)。

流动相参数如下：

Polar平台：A为含0.1％甲酸的水溶液；流动相B为含0.1％甲酸的乙腈溶液。分离洗脱梯度如下：0-13分钟为1％-70％流动相B，13-18分钟为99％流动相B。

Lipid平台：A为含0.1％乙酸和0.1％乙酸铵的水溶液；流动相B为含0.1％乙酸和1％乙酸铵的乙腈-异丙醇(7:3v/v)溶液。分离洗脱梯度如下：0-13分钟为1％-70％流动相B，13-18分钟为99％流动相B。0-12分钟为55％-89％流动相B，12-19.5分钟为100％流动相B。

质谱数据以Full MS和Full MS/dd-MS2的方式(各含正负两种模式)进行采集，QExactive所用参数如下：Full MS模式分辨率为7万，扫描范围为100-1500m/z(Lipid)，150-1200m/z(Lipid)，AGC为3E+6，Maximum IT为200毫秒；Full MS/dd-MS2模式中，二级质谱的分辨率为1.75万，四极杆窗口为1.5m/z，AGC为1E+5，离子最大注入时间为50ms，HCD相对碰撞能量为30eV。

步骤1.5中的质谱数据处理：

利用生物信息学工具和方法将每一个样品所得的质谱数据(示例性质谱数据如图5所示)进行数据库搜索。数据库搜索的目的是对质谱产出的数据进行分析，确定质谱产出的数据中包含的化合物。其过程是对质谱产出的数据中的一级谱图进行分析，在10ppm的质量偏差范围内对加合物的强度比例情况与理论强度比例进行对比，通过未超出质量偏差范围的加合模式情况对主要加合模式进行评判，从而得到主要加合模式(化合物)的鉴定结果。即获得每一检测样本中的小分子代谢物(数千种)的相对浓度等代谢参数。

归集相关样本数据建立胃癌患病组代谢物数据集和对照组代谢物数据集，即小分子代谢物在胃癌患病组与非癌疾病组的血液中的相对浓度结果，通过建立数学模型的方法从这些数千个非特异性小分子代谢物中筛选出若干与胃癌发生相关的非特异性小分子代谢物形成数据集，最终确定与胃癌最为相关的小分子代谢物作为诊断胃癌的生物标志物，具体包括以下步骤：

步骤一、对患病组和对照组每一样本中一组小分子代谢物进行测定，将测定数据归集为数据集。

步骤二、将总体的数据集内的非靶向特征，取缺失值小于70％的特征和平均强度降序排列后的前5000个特征的交集，从而获得筛选后的数据集，含4248个特征峰。

步骤三、将经步骤二筛选后的数据集，通过bPCA的算法填充缺失值，完成后利用总离子强度(TIC)的方式进行均一化分析，再使用自动拓展(auto scaling)的方法对数据进行调整后，获得建模数据集。

完成后再按照分组信息，重新分成胃癌代谢物数据集(GC)(表5)和对照代谢物数据集(CK)(表6)。

表5.数据集GC示例表格

表6.数据集CK示例表格

步骤四、将胃癌代谢物数据集(GC)和对照代谢物数据集(CK)按一定比例(从各组样本中按设定比例，70％样本的数据作为训练数据，30％样本的数据作为测试数据)随机分为两个训练数据集(TS_CK&TS_GC)和两个测试数据集(VS_CK&VS_GC)；将胃癌代谢物数据集和对照数据集的训练数据集(TS_CK&TS_GC)合并成训练数据集(TS)，以及将胃癌代谢物数据集和对照数据集的测试数据集(VS_CK&VS_GC)合并将成测试数据集(VS)(数据处理详细流程参见图3)；

步骤五、将步骤四中的TS输入到随机森林模型(M0)中，利用Python里的scikit-learn包的RandomForestClassifier功能进行建模；

步骤六、训练模型(M0)，利用Python中sklearn包的GridSearchCV功能调整超参数(包括决策树的个数(n_estimators)、CART树做划分时对特征的评价标准(criterion)、最大特征数(max_features)、决策树最大深度(max_depth)、内部节点再划分所需最小样本数(min_samples_split)的任一个或其组合)，以及模型外部参数(例如CV等)，以及模型外部参数(训练策略的交叉验证的折数CV＝5)，使模型在TS上的AUC最高(指预测TS中某一个体是胃癌患者或对照的准确率)。模型训练结果如表7；

表7.超参数行为统计

步骤七、利用GridSearchCV来对VS检测及筛选模型(M1)，得到使模型在TS和VS上均有最高的AUC的最优超参数组合。如图4和表7所示的结果，显示在训练数据集和测试数据集上具有很高的AUC。另外，在模型预测性能评估时可以再加上表8所示的混淆矩阵结果报告(Confusion Matrix Report)，以验证模型在TS和VS上均有很好的表现；固定模型参数筛选出最优模型(M2)，M2的参数如下：{'criterion':'gini','max_depth':3,'max_features':'auto','n_estimators':300}，可直接输入到sklearn的RandomForestClassifier中得到最优模型(M2)；

表8.混淆矩阵结果报告

疾病分组	Precision	Recall	F1-score	Support
					GC	0.91	0.83	0.87	12
NC	0.88	0.93	0.90	15

其中：Support表示当前分组的样本数。

步骤八、根据最终的筛选模型(M2)，识别出N个变量重要性最高(即该变量对模型的诊断性能贡献最大，该实施例中的变量为小分子代谢物)的代谢物作为诊断胃癌的小分子代谢物生物标志物，如表9所示，示出了不同小分子代谢物的变量重要性对比结果，可以选择具有较高变量重要性的1054个小分子代谢物作为诊断胃癌的生物标志物(变量重要性大于0)。依据本实施例样本数据筛选得到的与胃癌最为相关的非特异性小分子代谢物数据集D可以按照下表9中的形式列示(表9数据非穷尽)：

表9.与胃癌最为相关的非特异性小分子代谢物

其中：Variable Importance表示变量重要性。

通过该实施例获得与胃癌发生发展最为相关的小分子代谢物，将其列为胃癌的生物标志物，依据实施例3和实施例4的实施方式，可建立胃癌的诊断设备和诊断模型，可有效用于某一个体在当前是否患有胃癌的诊断。

同样的，参照实施例5的方法，也可以筛选出用于诊断其他类型癌症(例如食管癌、结肠直癌、胰腺癌、鼻咽癌、肝癌、肾癌、黑色素瘤、神经内分泌肿瘤等)的小分子代谢物生物标志物，与上述步骤一至步骤八不同的是，此时以其他类型癌症患者代替胃癌患者作为患病组用于数据集采集。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.用于诊断急性疾病的小分子代谢物生物标志物的筛选方法，其特征在于，包括以下步骤：

1.4、训练步骤1.3的模型，调整超参数，使模型在第二训练数据集(TS1)上的AUC(AreaUnder Curve)最高，固定该超参数获得一训练模型(M1)；

2.用于诊断急性疾病的小分子代谢物生物标志物的筛选方法，其特征在于，包括以下步骤：

3.根据权利要求1或2所述的方法，其特征在于，步骤1.1或1.1)中所述样本包括血液、血清、血浆、尿液、唾液、汗液、脊髓液、呼吸物和粪便等。

4.根据权利要求1或2所述的方法，其特征在于，所述筛选方法中还涉及以下分析方法：典型相关分析、普通最小二乘回归分析、偏最小二乘分析、主成分回归分析、岭回归分析或最小角度回归分析，并结合交叉验证分析。

5.根据权利要求1或2所述的方法，其特征在于，所述随机森林模型可以扩展为其他非线性模型和监督学习方法。

6.根据权利要求1或2所述的方法，其特征在于，所述超参数包括决策树的个数(n_estimators)、CART树做划分时对特征的评价标准(criterion)、最大特征数(max_features)、决策树最大深度(max_depth)、内部节点再划分所需最小样本数(min_samples_split)、叶子节点最少样本数(min_samples_leaf)、叶子节点最小的样本权重和(min_weight_fraction_leaf)、最大叶子节点数(max_leaf_nodes)、节点划分最小不纯度(min_impurity_split)中的任一个或其组合。

7.根据权利要求1或2所述的方法，其特征在于，步骤1.5或步骤1.5)中所述训练策略包括交叉验证的折数，训练集测试集的划分比例。

8.根据权利要求1或2所述的方法，其特征在于，所述急性疾病包括肺癌、食管癌、胃癌、结肠直癌、胰腺癌、鼻咽癌、肝癌、肾癌、黑色素瘤、神经内分泌肿瘤等。

9.权利要求1至8任一所述方法获得的小分子代谢物生物标志物在制备用于诊断急性疾病的试剂、试剂盒、诊断模型或诊断设备中的应用。

10.根据权利要求9所述应用，其特征在于，所述急性疾病为胃癌，与胃癌关联的小分子代谢物生物标志物包括1054个化合物。