CN113539478B

CN113539478B - 基于代谢组学的深静脉血栓形成预测模型的建立方法

Info

Publication number: CN113539478B
Application number: CN202110705616.9A
Authority: CN
Inventors: 曹洁; 李丹; 党丽虹; 靳茜茜; 杜秋香; 孙俊红
Original assignee: Shanxi Medical University
Current assignee: Shanxi Medical University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-04-07
Anticipated expiration: 2041-06-24
Also published as: CN113539478A

Abstract

本发明属于生物医学中深静脉血栓形成的预测领域，具体是一种基于代谢组学的深静脉血栓形成预测模型的建立方法，包括：获取深静脉血栓形成患者和健康人体的血清代谢物数据集；依据正交偏最小二乘判别模型中VIP﹥1，及独立样本t检验中P值﹤0.05的条件，将血清小分子代谢物数据集中满足条件的化合物作为深静脉血栓形成的特征生物标志物；将特征生物标志物数据导入IBM SPSS软件，建立多层感知器模型；或者将特征生物标志物数据导入R软件，利用Rattle包建立随机森林模型。本发明的方法所建立的预测模型检测灵敏度高、特异性好，满足早期诊断深静脉血栓形成的检测需求。

Description

基于代谢组学的深静脉血栓形成预测模型的建立方法

技术领域

本发明属于生物医学中深静脉血栓的预测领域，具体是一种基于代谢组学分析技术，预测深静脉血栓形成的数学模型的建立方法。

背景技术

深静脉血栓形成是血液在深静脉腔内不正常凝结引起的静脉血液回流障碍的病症，常发生于下肢。血栓脱落可能导致肺栓塞，是深静脉血栓形成最常见的并发症，严重时能危及生命(50％的肺栓塞患者合并深静脉血栓形成)。深静脉血栓形成发病率与种族、年龄有一定的关系。近年来，随着老龄化社会的到来和医疗检测水平的提高，在我国相关报道也有所增加。深静脉血栓形成发病率高、且复发率高，5年复发率为40％，深静脉血栓形成的高发病率和相关并发症的高死亡率引起了临床和法医学上的高度关注。

在临床上，深静脉血栓形成的早期诊断有利于及时治疗和患者预后。与深静脉血栓形成和肺栓塞相关的法医鉴定同样需要对疾病进行准确判断。现有的深静脉血栓形成实验室检查方法为D-二聚体浓度检测，该方法敏感性强，但特异性较差。目前应用于代谢组学检测的方式主要有气相色谱-质谱联用、核磁共振、液相色谱-质谱联用等。目前用于代谢物数据分析的主要方法为多元统计学方法，包括：无监督学习的主成分分析法、偏最小二乘-判别分析和正交偏最小二乘判别等。

近年来，机器学习在人工智能、临床医学和大数据处理等领域得到越来越多的应用，从有限训练样本获取的小误差可以使得独立验证集仍能够保持小误差，这也适合于目前实验室小样本的动物代谢组学研究。多层感知机是人工神经网络中最早也是网络模型中最为完善的神经网络模型。神经网络可在模型建立后通过进行受试者工作曲线分析、混淆矩阵等方式，对模型的可靠性进行评估。随机森林作为统计学习理论，能够利用bootsrap重抽样方法从原始样本中抽取一定量的样本，对每个bootsrap样本进行决策树建模，再组合多棵决策树的预测结果,累积投票得出最终预测结果。它具有较强的预测能力，对异常值和噪声具有很好的容忍度，而不容易出现过拟合，在临床医学、大数据处理等领域广泛应用。

发明内容

本发明为了判断早期血栓的形成，提供了一种基于代谢组学的深静脉血栓形成预测模型的建立方法。

本发明是通过以下技术方案实现的：基于代谢组学的深静脉血栓形成预测模型的建立方法，包括：

获取深静脉血栓形成患者和健康人体的血清小分子代谢物数据集；

依据正交偏最小二乘判别模型中VIP﹥1，及独立样本t检验中P值﹤0.05的条件，将血清小分子代谢物数据集中满足条件的化合物作为深静脉血栓形成的特征生物标志物；

将特征生物标志物数据导入IBM SPSS软件，建立多层感知器模型；

或者将特征生物标志物数据导入R软件，利用Rattle包建立随机森林模型。

作为本发明技术方案的进一步改进，所述特征标志物为(S)-2-氨基丁酸酯、2-脱氧叶黄素、(+-)-3-甲基-2-氧戊酸、5-氧脯氨酸、甘氨酸、琥珀酸、β-丙氨酸、D-赤藓糖、对羟基苯甲酸甲酯、3-羟异戊酸、L-苏氨酸、D-苏氨酸、同型半胱氨酸、D-天冬氨酸、戊五醇、L-盐酸鸟氨酸、顺式乌头酸、谷氨酰胺、胞苷-(3'-5')-胞苷-(3'-5')-腺苷、L-鸟氨酸、1,5-脱水-D-葡糖醇、1,6-脱水-β-D-葡萄糖、D-(-)-果糖、L-山梨糖、阿罗糖、半乳糖醇、己糖、9-十八烯酸、3,4-二羟基-L-苯丙氨酸、β-乳糖、单油酸甘油酯、β-D-葡萄糖、马尿酸。

作为本发明技术方案的进一步改进，所述特征生物标志物相对表达量作为自变量，随机按照样本的设定的比例分为训练集、验证集和测试集。

作为本发明技术方案的进一步改进，所述多层感知器模型中，包含两层隐藏层，隐藏层的激活函数为双曲正切，输出函数为S型函数，采用梯度下降优化算法，初始学习率设置为0.4，学习率为0.001，衰减速率为10。

作为本发明技术方案的进一步改进，所述随机森林模型构建时，设置参数trees为500 棵树。

作为本发明技术方案的进一步改进，所述获取深静脉血栓形成患者和健康人体的血清小分子代谢物数据集，包括：

采集深静脉血栓形成患者和健康人体的血清样本，使用气相色谱-质谱联用仪检测将得到的数据导入MS-Dial软件中进行预处理，和Fiehn数据库比对后，获得深静脉血栓形成患者和健康人体的小分子代谢物数据集。

作为本发明技术方案的进一步改进，在使用气相色谱-质谱联用仪检测分析前，等量吸取每个待测血清样本，混合后制成质控样本，在对深静脉血栓形成患者和健康人体的血清样本检测前，进样若干质控样本平衡仪器。

作为本发明技术方案的进一步改进，在使用气相色谱-质谱联用仪对深静脉血栓形成患者和健康人体的血清样本检测时，随机排序进样，且每10个样本插入1个质控样本。

本发明所述基于代谢组学的深静脉血栓形成预测模型的建立方法，是基于气质联用技术，在深静脉血栓形成患者和健康人之间找出一组血清差异代谢物，作为诊断早期深静脉血栓形成的潜在特征性生物标志物，以这些特征生物标志物的相对表达量作为自变量建立机器学习模型以预测血栓的形成。经过评估，所建立的模型在判断深静脉血栓形成时能够得到较高的准确率，证明这些特征性生物标志物用以判断人体深静脉血栓形成的能力较强，该方法所建立的预测模型对深静脉血栓形成的灵敏度高、特异性好，满足早期诊断深静脉血栓形成病人的检测需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1中A.健康对照组和深静脉血栓组血清代谢物数据OPLS-DA模型3D散点图。B.OPLS-DA模型RPT示意图。C.OPLS-DA模型均方根误差图。D.OPLS-DA模型预测vs观察图。由图可得：在有监督的正交偏最小二乘判别模型中已经能够看出，DVT组(深静脉血栓组)和CON组(健康对照组)之间有明显的分离趋势，并且OPLS-DA模型的预测结果较好，均方根误差较小，在置换检验中证明模型没有发生过拟合，能够说明代谢物具有诊断早期DVT的潜力。

图2为以人血清差异代谢物的相对表达量为自变量建立的多层感知器模型(A)和随机森林模型(B)预测拟概率结果图。由图可以看出：在多层感知器结果中，CON组和DVT 组预测结果均较为集中于各自顶部，说明预测结果较准确。在随机森林结果中可见，随着树的增加，错误率逐渐稳定在较低的水平，说明随机森林模型同样具有分离DVT组和CON 组的能力，且准确率较高。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面通过具体实施方式来对本发明的技术方案进行详细的说明。

1、样本收集：

收集于2015年12月至2016年12月期间入院或就诊于太原市各大医院，确诊为深静脉血栓形成患者的血清(深静脉血栓组)，并收集健康人体(与深静脉血栓组年龄、性别相匹配的健康人)的血清作为对照组，收集样本血清时排除有其他诱因，如深静脉血栓复发、近期手术或外伤(2个月内)、急性心肌梗死、急性缺血性卒中、严重感染性疾病、恶性肿瘤、近期制动(卧床3d以上、长期使用轮椅、最近两周内出行超过4h)、妊娠或产褥期、雌激素治疗或其他刺激因素等样本。根据纳入排除标准，共得到73名明确诊断的深静脉血栓形成患者的血清，其中男性34例，女性39例，年龄在53-72岁之间。另由69个对象的血清组合成健康对照组。

患者入院且明确诊断后，空腹抽取受试者静脉血5mL，置入真空采血管中，静置30min， 3000转/分离心5min，上清液分入冻存管，-80℃保存。健康对照组经肘静脉采血5mL，处理同上。

2、样本预处理：

将于-80℃保存的血清样本于冰水混合物中解冻后，每个样本取200μl血清至2mLEP 管，加入600μl甲醇和乙醇混合物(1：1，v/v)，12000r/min离心10min，吸取600μl上清液于新EP管中，置于SCIENTZ-1LS型冻干机中冻干，后加入50μL甲氧胺盐试剂(溶于 15mg/m L吡啶)，混匀后，70℃孵育1h；迅速向每个样品中加入100μL MSTFA(含有 1％TCMS)，40℃孵育1.5h，加入含内标二十四烷的正庚烷200μL，上机检测。

QC血清样品(质控样本)的制备：每个待测血清样本(深静脉血栓组和健康对照组)吸取10μL，混合后，血清样本按照上述方法制备成为QC样本。在进样前，进样5个QC 样本平衡仪器，进样过程中，每10针样本插入1个QC样本，通过QC样本分析，评估测定过程中数据的重复性和精确性。所有被检测的血清样品随机排序进样。

3、气相色谱-质谱联用仪检测：

气相色谱条件：DB-5MS毛细管色谱柱(30m×0.25mm×0.25μm，美国Agilent公司)，载气He(99.99％)，流速为1.0ml/min；柱温：初始温度60℃，保持3min，以7℃/min升温至140℃，保持4min，再以5℃/min升温至180℃，保持6min，再以5℃/min升温至280℃，保持2min；分流进样，分流比1：10，进样量为1μl。

质谱条件：EI离子源，电离能量为70eV，离子源温度230℃，溶剂延迟时间为3.5min；全反应扫描模式，m/z范围为50到650。

4、筛选差异化合物：

(1)代谢物数据预处理：

在MS-Dial软件中经过提取原始峰、过滤数据基线和基线校准、峰对齐、去卷积分析、峰识别和各峰面积计算等预处理后，和Fiehn数据库比对，最终输出以化合物名称、分子式、峰面积等组成的数据。在深静脉血栓形成患者和健康人体血清中共得到113个代谢物。设定 MS-Dial软件中各值：峰值的范围为20～1000，窗宽为0.5，解卷积时光谱的频率为10；保留时间间隔为0.5分钟，m/z扫描间隔为0.5Da，电子轰击源相似性最低为70％；保留时间，误差为0.075分钟。

(2)正交偏最小二乘判别分析：

将深静脉血栓患者和健康人群血清样本数据通过上述预处理之后导入SIMCA14.1(瑞典，Umetrics公司)软件中，进行多元统计分析，包括主成分分析和正交偏最小二乘-判别分析。正交偏最小二乘判别模型得到的R²Y＝0.619，Q²＝0.461，说明模型稳定性良好。经过 200次响应排序检验进行验证，结果如图1B所示，代表拟合程度的Q²与y轴的截距小于零，说明正交偏最小二乘判别模型不存在过拟合。对建立的OPLS-DA模型进行方差分析，P＜0.001，说明模型的组间差异有统计学意义。对模型进行均方根误差计算以及预测观察比较发现，模型对于深静脉血栓形成组和对照组的判别能力较为可信，误差较小(如图1C,D所示)。

依据正交偏最小二乘模型，选择同时满足VIP值大于1，以及独立样本t检验中P值＜ 0.05的化合物，共有33个，作为深静脉血栓形成的特征性生物标志物，特征性生物标志物的具体参数如表1所示。

表1 33个特征差异化合物的参数

5、预测深静脉血栓形成的机器学习模型：

以33个特征生物标志物的相对表达量作为自变量，随机按照样本的70％、15％、15％分成训练集、验证集和测试集，导入IBM SPSS软件(Statistics 26，美国，International Business Machines Corporation公司)，搭建多层感知器模型。在多层感知器中，包含两层隐藏层，隐藏层的激活函数为双曲正切，输出函数为S型函数，采用梯度下降优化算法，初始学习率设置为0.4，学习率为0.001，衰减速率为10。将特征生物标志物的数据带入R软件(版本为3.5.3)，利用Rattle包进行随机森林模型搭建，将样本按照上述比例进行分组，设置参数trees为500棵树。

6、结果

多层感知器的训练集、验证集和测试集结果准确率分别为92.0％，100％，88.2％。随机森林模型的训练集准确率为100.0％，验证集的准确率为100.0％，测试集的准确率为87.1％ (表2)。经受试者工作曲线验证，多层感知器的受试者工作曲线下面积值为0.937，随机森林的曲线下面积为0.901。

表2以人血清差异代谢物相对表达量为自变量搭建的多层感知器模型的预测结果表

表3以人血清差异代谢物相对表达量为自变量搭建的随机森林模型的预测结果表

7、结果分析

经过多层感知机和随机森林两者机器学习模型的预测分析，均可得到较高的准确率，证明这组特征生物标志物作为综合指标用以判断人体深静脉血栓形成的能力较强。

8、未知样本制备、检测和结果推断

待检测血清按照上述1-3步骤进行样本检测，获得该样本的代谢物检测峰谱图，对峰谱图进行预处理，获得33个特征生物标志物相对表达量数据：将特征生物标志物的相对表达量导入预测模型中进行预测推断，鉴别是否发生深静脉血栓形成。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于代谢组学的深静脉血栓形成预测模型的建立方法，其特征在于，包括：

获取深静脉血栓形成患者和健康人体的血清小分子代谢物数据集；所述获取深静脉血栓形成患者和健康人体的血清代谢物数据集，包括：采集深静脉血栓形成患者和健康人体的血清样本，使用气相色谱-质谱联用仪检测，将得到的结果经过MS-Dial软件预处理后，与Fiehn数据库比对，得到深静脉血栓形成患者和健康人体的血清代谢物数据集；

气相色谱条件：DB-5MS 毛细管色谱柱，30m×0.25mm×0.25μm，美国 Agilent 公司，载气 99.99%He，流速为1.0 ml/min；柱温：初始温度60℃，保持3min，以7℃/min 升温至140℃，保持 4min，再以5℃/min 升温至180℃，保持6min，再以5℃/min 升温至280℃，保持2min；分流进样，分流比1：10，进样量为1μl；

质谱条件：EI 离子源，电离能量为70eV，离子源温度230℃，溶剂延迟时间为3.5min；全反应扫描模式，m/z范围为50到650；

依据正交偏最小二乘判别模型中VIP﹥1，及独立样本t检验中P值﹤0.05的条件，将血清小分子代谢物数据集中满足条件的化合物作为深静脉血栓形成的特征生物标志物；所述特征生物标志物为(S)-2-氨基丁酸酯、2-脱氧叶黄素、(+-)-3-甲基-2-氧戊酸、5-氧脯氨酸、甘氨酸、琥珀酸、β-丙氨酸、D-赤藓糖、对羟基苯甲酸甲酯、3-羟异戊酸、L-苏氨酸、D-苏氨酸、同型半胱氨酸、D-天冬氨酸、戊五醇、L-盐酸鸟氨酸、顺式乌头酸、谷氨酰胺、胞苷-（3'-5'）-胞苷-（3'-5'）-腺苷、L-鸟氨酸、1,5-脱水-D-葡糖醇、1,6-脱水-β-D-葡萄糖、D-(-)-果糖、L-山梨糖、阿罗糖、半乳糖醇、己糖、9-十八烯酸、3,4 -二羟基-L-苯丙氨酸、β-乳糖、单油酸甘油酯、β-D-葡萄糖、马尿酸；

2.根据权利要求1所述的基于代谢组学的深静脉血栓形成预测模型的建立方法，其特征在于，所述特征生物标志物相对表达量作为自变量，随机按照设定的比例将样本分为训练集、验证集和测试集。

3.根据权利要求2所述的基于代谢组学的深静脉血栓形成预测模型的建立方法，其特征在于，所述多层感知器模型中，包含两层隐藏层，隐藏层的激活函数为双曲正切，输出函数为S型函数，采用梯度下降优化算法，初始学习率设置为0.4，学习率为0.001，衰减速率为10。

4.根据权利要求2所述的基于代谢组学的深静脉血栓形成预测模型的建立方法，其特征在于，所述随机森林模型构建时，设置参数trees为500棵树。

5.根据权利要求1所述的基于代谢组学的深静脉血栓形成预测模型的建立方法，其特征在于，在使用气相色谱-质谱联用仪检测分析前，等量吸取每个待测血清样本，混合后制成质控样本，在对深静脉血栓形成患者和健康人体的血清样本检测分析前，进样若干质控样本平衡仪器。

6.根据权利要求5所述的基于代谢组学的深静脉血栓形成预测模型的建立方法，其特征在于，在对深静脉血栓形成患者和健康人体的血清样本检测分析时，随机排序进样，且每10个样本插入1个质控样本。