CN114740135A

CN114740135A - 一种适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物及其应用和筛选方法

Info

Publication number: CN114740135A
Application number: CN202210196141.XA
Authority: CN
Inventors: 卢文菊; 张子丽; 林范杰
Original assignee: Guangzhou Ruineng Precision Medical Technology Co ltd
Current assignee: Guangzhou Ruineng Precision Medical Technology Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-07-12

Abstract

本发明公开了一种适用于早期发现、早期预测或早期诊断重度慢性阻塞性肺疾病(简称慢阻肺)的生物标志物，所述生物标志物为蛋白群体生物标志物、代谢物群体生物标志物或蛋白组‑代谢组联合群体生物标志物，还公开了上述生物标志物在制备用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中的应用，以及上述生物标志物的筛选方法。该生物标志物改变了单一标志物检测的传统思路，以一组蛋白群体生物标志物、代谢物群体生物标志物或蛋白组‑代谢组联合群体生物标志物群体作为“模式标记物”来诊断重度慢阻肺，具有独特的优势。

Description

一种适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物及其应用和筛选方法

技术领域

本发明属于蛋白组-代谢组学技术领域，具体涉及一种适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物及其应用和筛选方法。

背景技术

慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease，COPD，慢阻肺)是一种严重危害人类健康的重要慢性呼吸系统疾病。研究估计2017年全球慢阻肺的患病率为3.92％(95％CI为3.52％-4.32％)，慢阻肺导致的死亡率估计为42/100,000(占所有原因死亡的4.72％)，估计伤残调整寿命年(DALYs)率为1068.02/100,000(2017年全球疾病负担研究报告)。2020年，慢阻肺已成为全球第三大致死病因，是全球范围内致残率和死亡率增加的主要原因之一，导致严重的经济和社会负担，且这种状况日益加重，但重度慢阻肺的早期发现和早期治疗仍面临严重挑战。重度慢阻肺对患者的生命质量、肺功能、疾病进程和社会经济负担均产生严重的负面影响，也是慢阻肺患者医疗费用居高不下的主要原因。因此，早期发现、早期诊断和早期治疗是临床上的一项重大和艰巨的医疗任务。

目前，重度慢阻肺的定义和诊断均为临床症状的描述，缺乏特异、灵敏的生物标志物、缺乏量化指标且实验室检测方法均存在不同程度的敏感性差异等问题，难以满足临床诊断要求，易造成漏诊和误诊。因此，寻求新的诊断方法及筛选有效的重度慢阻肺早期发现和早期诊断的标志物以促进慢阻肺的快速、准确诊断对重度慢阻肺的控制至关重要。

蛋白组学技术和代谢组学技术是筛选疾病诊断标志物的经典方法，随着蛋白组学和代谢组学相关技术的发展和对慢阻肺的诊断有了进一步的认知，两者在临床的应用逐渐广泛。蛋白组学以全面的蛋白质性质研究为基础，在蛋白质水平对疾病机理、细胞模式、功能联系等方面进行探索，基于高度敏感性和精确性的串联质谱方法，不需要凝胶，就可以获得相对和绝对定量的蛋白质结果。代谢组学主要通过检测小分子代谢物的变化来获得生物体内代谢产物随时间以及病理生理进程的动态变化信息，包括糖、脂质、氨基酸、维生素等。代谢物作为细胞生理活动的最终产物，能真实灵敏地反映细胞的功能状态。重度慢阻肺在发生和发展的过程中必然引起内源性小分子代谢产物的特征性改变，而借助于先进的分离、分析及计算手段的蛋白组学和代谢组学，恰好具有从整体上区分不同病理生理条件下的特征蛋白质、代谢物的能力和优势，可以从整体上探讨这一复杂的临床综合征的发病机制。

尽管肺功能检查是诊断慢阻肺的金标准，但其操作相对复杂、慢阻肺患者存在明显的异质性及重症慢阻肺患者依从性、耐受性差等问题，导致我国慢阻肺患者中确诊前接受过肺功能检查者所占比例较低仅6.5％(冉丕鑫等，中华结核和呼吸杂志，2007)。作为一种慢性病，目前，重度慢阻肺的早期发现和早期诊断仍有不足，借助蛋白组学，依托高通量、高灵敏度的蛋白分析平台，可定性或定量分析重度慢阻肺患者内源性蛋白小分子，寻找出特异性的生物标志物，以便早期诊断、早期干预。蛋白组学在慢阻肺疾病诊断、机制探讨、证候诊断及药效机制等方面的研究已有开展，但目前仍处于起步阶段、且存在价格昂贵及重复性验证不足等问题。未来随着蛋白组学数据库日趋完善，分析方法进一步成熟、辨证分型逐步规范、动物模型更加稳定可重复，蛋白组学在重度慢阻肺患者研究中的应用将会越来越深入，有利于深入了解慢阻肺的发病机制，更加有助于疾病的早期发现和早期诊断，在疾病诊断的客观化、规范化及药效机制探索等方面具有广阔的前景。

发明内容

本发明的目的在于提供一种适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物。

本发明的目的还在于提供上述生物标志物在制备用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中的应用。

本发明的最后一个目的在于提供上述生物标志物的筛选方法。

本发明的上述第一个目的可以通过以下技术方案来实现：一种适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物，所述生物标志物为蛋白群体生物标志物、代谢物群体生物标志物或蛋白组-代谢组联合群体生物标志物，其中：

所述蛋白群体生物标志物为类粘蛋白(Alpha-1-acid glycoprotein，ORM1)、过氧化还原酶2 (Peroxiredoxin-2，PRDX2)和钙粘着蛋白5(Cadherin5，CDH5)；

所述代谢物群体生物标志物为十六酰胺乙醇(Palmitoylethanolamide)、癸酰基左旋肉碱 (Decanoyl-L-carnitine)、甜菜碱(Betaine)、茶碱(Theophylline)和次黄嘌呤(Hypoxanthine)；

所述蛋白组-代谢组联合群体生物标志物为十六酰胺乙醇(Palmitoylethanolamide)、茶碱 (Theophylline)和次黄嘌呤(Hypoxanthine)三个代谢物和一个钙粘着蛋白5(Cadherin5，CDH5)。

本发明的上述第二个目的可以通过以下技术方案来实现：上述的生物标志物在制备用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中的应用。

作为本发明的其中一种优选的技术方案，所述蛋白群体生物标志采用类粘蛋白、过氧化还原酶2和钙粘着蛋白5这三种蛋白作为联合指标P3-pro，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中。

作为本发明的其中一种优选的技术方案，所述代谢物群体生物标志物采用三种阳离子代谢物和两种阴离子代谢物作为联合指标P5-met，其中所述阳离子代谢物为十六酰胺乙醇、癸酰基左旋肉碱和甜菜碱，所述阴离子代谢物为茶碱和次黄嘌呤，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中。

作为本发明的其中一种优选的技术方案，所述蛋白组-代谢组联合群体生物标志物采用三种代谢物-十六酰胺乙醇(Palmitoylethanolamide)、茶碱(Theophylline)、次黄嘌呤(Hypoxanthine) 三个代谢物和一个蛋白-钙黏着蛋白5(Cadherin-5，CDH5)作为联合指标P4-met+pro，用于早期发现(早期辅助筛查)、早期预测或早期诊断重度慢阻肺风险的产品中。

所述产品包括试剂、试剂盒等。

所述产品包括通过高效液相色谱、高效质谱(LC-MS/M)等进行检测所述生物标志物为蛋白群体生物标志物、代谢物群体生物标志物或蛋白组-代谢组联合群体生物标志物及其含量或者浓度的试剂等。

本发明的上述最后一个目的可以通过以下技术方案来实现：上述生物标志物的筛选方法，所述蛋白群体生物标志物的筛选中，

采用多因素Logistic回归方法建立预测模型，预测模型：Y(慢阻肺＝1|健康对照＝0)＝ -10.323+2.354*类粘蛋白+6.834*钙粘着蛋白5+1.694*过氧化还原酶2；

所述代谢物群体生物标志物的筛选中，

采用多因素Logistic回归方法建立预测模型，预测模型：Y(慢阻肺＝1|健康对照＝0)＝ -14.645+(0.41*十六酰胺乙醇+1.41*癸酰基左旋肉碱-4.83*甜菜碱+0.15*茶碱+1.17*次黄嘌呤)/10000；

所述蛋白组-代谢组联合群体生物标志物的筛选中，

采用多因素Logistic回归方法建立预测模型，联合判断建立预测模型：Y(慢阻肺＝1|健康对照＝0)＝-17.934+(0.46*十六酰胺乙醇+0.13*茶碱+0.77*次黄嘌呤)/10000+8.340* 钙粘着蛋白5。

其中：

(一)蛋白群体生物标志物的筛选方法，包括以下步骤：

(1)收集重度慢阻肺患者和健康人群外周静脉血样品；

(2)将每个分析样品采用包括TMT高通量蛋白组测序、高效液相色谱分级技术和基于质谱的PRM靶向蛋白组验证，对样品进行定量蛋白组的研究，内容包括蛋白提取、胰酶酶解、 TMT标记、高效液相色谱分级、液相色谱-质谱串联分析、数据库搜索和生物信息学分析；

(3)根据步骤(2)中获取的数据建立预测模型，筛选出潜在的重度慢阻肺疾病早期发现、预测或诊断的蛋白群体生物标志物类粘蛋白、过氧化还原酶2和钙粘着蛋白5。

本发明中的蛋白群体生物标志物通过以下方法获得：将TMT标记、高效液相色谱分级技术、基于质谱的定量蛋白质组学技术联合PRM靶向蛋白质组验证等一系列前沿技术方法的有机结合，对样品进行定量蛋白组的研究，内容包括蛋白提取、胰酶酶解、TMT标记、高效液相色谱分级、液相色谱-质谱串联分析、数据库搜索和生物信息学分析等。

本发明通过从蛋白质组层面揭示重度慢阻肺的生物标志物，发现适用于重度慢阻肺早期发现、早期预测、早期诊断的新型生物标志物或生物标志物群：应用TMT高通量蛋白质组学方法+PRM靶向蛋白质组验证，对临床样品的蛋白表达进行比较分析，结合生物信息学，选出潜在的生物标志物包括：类粘蛋白、过氧化还原酶2和钙粘着蛋白5。

根据我国人群生物标志物的特征通过单变量分析及多变量间不同组合分析，以灵敏度和特异度为参数，结合曲线下面积(AUC)建立重度慢阻肺风险预测模型，用于重度慢阻肺发病风险的评估及分子诊断。

(二)代谢物群体生物标志物的筛选方法，包括以下步骤：

(1)收集样品：收集重度慢阻肺患者和健康人群外周静脉血样品；

(2)代谢组学测序：采用基于液相色谱-质谱/质谱联用(LC-MS/MS)分析的非靶向代谢组学对样品进行分析，获得一级质谱和二级质谱数据，采用XCMS(基于R语言设计的程序包(R package))对数据进行峰提取和代谢物鉴定，主要步骤包括样品预处理、代谢物提取、 LC-MS全扫描检测、数据预处理、统计分析及差异物结构鉴定；

(3)数据分析：对步骤(2)获取的数据，先进行基础分析，接着进行单变量分析，再进行显著性差异代谢物分析及生物信息学分析；

(4)建立预测模型，并通过逐步回归法筛选代谢物指标，获得适用于重度慢阻肺早期发现、早期预测或早期诊断的代谢物群体生物标志物十六酰胺乙醇、癸酰基左旋肉碱、甜菜碱、茶碱和次黄嘌呤。

本发明通过将高效质谱(LC-MS/M)等一系列前沿技术方法的有机结合，对血清样品进行非靶向代谢组学研究，内容包括样品制备、质控样品(QC)制备、样品LC-MS/MS质谱分析、数据分析和预测模型建立等。

(三)蛋白组-代谢组联合群体生物标志物，包括以下步骤：

(1)样品收集：收集重度慢性阻塞性肺患者和健康人群外周静脉血样品；

(2)TMT高通量蛋白组测序+PRM靶向蛋白组验证：将每个分析样品采用包括TMT 高通量蛋白组测序、高效液相色谱分级技术和基于质谱的PRM靶向蛋白组验证，对样品进行定量蛋白组的研究，内容包括蛋白提取、胰酶酶解、TMT标记、高效液相色谱分级、液相色谱-质谱串联分析、数据库搜索和生物信息学分析，通过逐步回归法筛选蛋白指标，并建立预测模型，筛选出潜在的蛋白群体生物标志物类粘蛋白、过氧化还原酶2和钙粘着蛋白5；

(3)代谢组学测序：采用基于液相色谱-质谱/质谱联用(LC-MS/MS)分析的非靶向代谢组学对样品进行分析，获得一级质谱和二级质谱数据，采用XCMS对数据进行峰提取和代谢物鉴定，主要步骤包括样品预处理、代谢物提取、LC-MS全扫描检测、数据预处理、统计分析及差异物结构鉴定，通过逐步回归法筛选代谢物指标，并建立预测模型，获得代谢物群体生物标志物十六酰胺乙醇、癸酰基左旋肉碱、甜菜碱、茶碱和次黄嘌呤；

(4)联合蛋白组-代谢组预测重度慢阻肺风险：联合蛋白群体生物标志物和代谢物群体生物标志物，将十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物和钙粘着蛋白5，作为联合指标 P4-met+pro，得到蛋白组-代谢组联合群体生物标志物。

本发明通过将TMT标记、高效液相色谱分级技术、高效质谱(LC-MS/M)、基于质谱的定量蛋白组学技术联合PRM靶向蛋白组验证等一系列前沿技术方法的有机结合，对血清样品进行定量蛋白组学研究和非靶向代谢组学研究，内容包括蛋白提取、胰酶酶解、TMT标记、高效液相色谱分级、液相色谱-质谱串联分析、LC-MS/M、数据库搜索、生物信息学分析和模型建立等。

进一步的，本发明提供的生物标志物的筛选方法，包括以下步骤：

(一)蛋白群体生物标志物的筛选

(1)信息收集；

(2)样本采集：采集重度慢阻肺患者和健康人群外周静脉血样本；

(3)TMT高通量蛋白组测序+PRM靶向蛋白组验证：将每个分析样本采用包括TMT高通量蛋白组测序、高效液相色谱分级技术和基于质谱的PRM靶向蛋白组验证，对样本进行定量蛋白组的研究，内容包括蛋白提取、胰酶酶解、TMT标记、高效液相色谱分级、液相色谱-质谱串联分析、数据库搜索和生物信息学分析；

通过多次全蛋白定量重复实验，分别得到了每个样本在多次重复中的定量值：

第一步：计算比较组中两个样本间蛋白的差异表达量，首先计算出每个样本在多次重复中定量值的平均值，然后再计算两个样本之间平均值的比值，该比值作为比较组最终的差异表达量；

第二步：计算该蛋白在两个样本中的差异表达显著性P-value，首先将各个样本的相对定量值取log2，然后用双样本双尾T检验方法计算P-value，当P-value＜0.05时，以差异表达量变化超过1.2作为显著上调的变化阈值，小于1/1.2作为显著下调的变化阈值；

第三步：对显著差异表达的蛋白进一步做PRM靶向蛋白组验证；

(4)数据分析

(4.1)基础分析：采用R进行统计学分析，连续变量服从正态分布时以均数±标准差表示，非正态分布时以P50、P25或P75表示，分类变量以频率(％)表示，组间比较时连续变量采用非配对的Student-t检验或Mann-Whitney U非参数检验，分类变量采用Pearson卡方检验或Fisher精确检验；

(4.2)生物信息学分析：

从基因本论(Gene Ontology，以下简称GO)、蛋白结构域(Protein domain)、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes，KEGG)、COG功能分类以及亚细胞结构定位、聚类分析、蛋白互作网络各方面进行详细的分析，目的是发现差异表达蛋白是否在某些功能类型上有显著性的富集趋势，对于富集检验得到的P-value通过图形方式展现差异蛋白显著富集的功能分类和通路；

(5)数据结果

结果表明一共鉴定到1919.0个蛋白质，其中1432.0个蛋白质包含定量信息，如果以1.2 倍为差异表达变化阈值，以统计学检验t-test P-value＜0.05为显著性阈值，那么在定量到的蛋白质中，发现在AvsB比较组中有151个蛋白表达发生上调，100个蛋白表达发生下调，基于上述数据，对所有鉴定到的蛋白质进行了系统的生物信息学分析，并且对所有差异表达蛋白进行了功能分类、功能富集及基于功能富集的聚类分析；

(6)建立预测模型

采用多因素Logistic回归方法建立预测模型，并根据最小赤池信息标准选择最佳的模型参数，计算优势比和95％可信区间，绘制预测模型的列线图，同时绘制校准曲线以显示列线图的预测精度，以及绘制预测模型的受试者工作特征曲线，并获得曲线下面积及其95％CI，再应用 z统计量比较建模组和验证组的AUC(ROC曲线下面积)，所有统计检验均为双侧检验，以P ＜0.05被认为具有统计学差异；

(6.1)对重度慢阻肺和健康对照样本的蛋白表达进行比较分析，结合生物信息学，选出潜在的重度慢阻肺疾病标志物：类粘蛋白、过氧化还原酶2及钙粘着蛋白5；

(6.2)根据我国人群生物标志物的特征通过单变量分析及多变量间不同组合分析，以灵敏度和特异度为参数，结合AUC建立重度慢阻肺风险预测模型，用于重度慢阻肺发病风险的评估及分子诊断；

通过逐步回归法筛选蛋白指标，最终筛选后的差异蛋白包括类粘蛋白、过氧化还原酶2及钙粘着蛋白5，其预测重度慢阻肺的准确度分别为0.690，0.769及0.863，但三种蛋白作为联合指标P3-pro，其推断重度慢阻肺的准确度为0.936，其相应的灵敏度和特异度分别为0.88和0.90；

预测模型：Y(慢阻肺＝1|健康对照＝0)＝-10.323+2.354*类粘蛋白+6.834*钙粘着蛋白5+1.694*过氧化还原酶2；

(二)代谢物群体生物标志物的筛选

(1)信息收集；

(2)样本收集：收集重度慢阻肺疾病患者和健康人群外周静脉血样本；

(3)代谢组学测序：采用基于液相色谱-质谱/质谱联用分析的非靶向代谢组学对样本进行分析，获得一级质谱和二级质谱数据，采用XCMS对数据进行峰提取和代谢物鉴定，主要步骤包括样品预处理、代谢物提取、LC-MS全扫描检测、数据预处理、统计分析及差异物结构鉴定；

(4)数据分析：

(4.1)基础分析：采用R进行统计学分析，连续变量服从正态分布时以均数±标准差表示，非正态分布时以P50、P25或P75表示，分类变量以频率(％)表示，组间比较时连续变量采用非配对的Student-t检验或Mann-Whitney U非参数检验，分类变量采用Pearson卡方检验或 Fisher精确检验；

(4.2)单变量分析：利用单变量分析显示两样本间代谢物变化的显著性，筛选出潜在的标志代谢物；

(4.3)显著性差异代谢物分析：根据OPLS-DA模型得到的变量权重值(VIP)米获取差异代谢物，以VIP＞1为筛选标准，初步筛选出各组间的差异物，进一步采用单变量统计分析，验证差异代谢物是否具有显著性，选择同时具有多维统计分析VIP＞1和单变量统计分析P value＜0.05的代谢物，作为具有显著性差异的代谢物，而VIP＞1且0.05＜P value＜0.1则作为差异代谢物；

(4.4)生物信息学分析：原始数据经ProteoWizard转换成.mzXML格式，然后采用XCMS 程序进行峰对齐、保留时间校正和提取峰面积，代谢物结构鉴定采用精确质量数匹配和二级谱图匹配的方式，检索数据库，数据经Pareto-scaling预处理后，进行多维统计分析，包括无监督主成分分析(PCA)分析，有监督偏最小二乘法判别分析(PLS-DA)和正交偏最小二乘法判别分析(OPLS-DA)，单维统计分析包括Student’s t-test和变异倍数分析，R软件绘制火山图。

(5)数据结果

采用多因素Logistic回归方法建立预测模型，并根据最小赤池信息标准选择最佳的模型参数，计算优势比(Odds Ratio，OR)和95％可信区间(CI)，绘制预测模型的列线图；

共鉴定到阳离子代谢物峰数目3720个，其中模式差异代谢物24个，阴离子代谢物峰数目 3694个，其中模式差异代谢物22个，共发现13个显著差异性代谢物，包括7个阳离子和6 个阴离子，其中：

7个阳离子为：十六酰胺乙醇(Palmitoylethanolamide)；反式-脱氢异雄甾酮(trans-Dehydroandrosterone)；癸酰基左旋肉碱(Decanoyl-L-camitine)；甜菜碱(Betaine)；假尿嘧啶核苷(Pseudouridine)；莰酮(Camphor)；1-硬脂酰基-2-油酰基-sn-甘油3-磷酸胆碱 (1-Stearoyl-2-oleoyl-sn-glycerol3-phosphocholine(SOPC))。

6个阴离子为：茶碱(Theophylline)；L-异亮氨酸(L-isoleucine)；硫酸孕烯醇酮(Pregnenolone sulfate)；壬二酸(Azelaic acid)；舒尼替尼(Sunitinib)；次黄嘌呤(Hypoxanthine)。

(6)建立预测模型

通过单变量分析及多变量间不同组合分析，以灵敏度和特异度为参数，结合曲线下面积 (AUC)建立重度慢阻肺疾病风险预测模型，用于重度慢阻肺发病风险的评估及分子诊断，结果如下：

(6.1)通过阳离子代谢物预测重度慢阻肺疾病分险：单变量分析发现，显著差异的代谢物十六酰胺乙醇、反式-脱氢异雄甾酮、癸酰基左旋肉碱及甜菜碱推测重度慢阻肺的准确度分别为0.784、0.742、0.729及0.715，但四种阳离子代谢物作为联合指标P4-pos-met，其推断重度慢阻肺的准确度为0.977，其相应的灵敏度和特异度分别为0.83和0.85；

(6.2)通过阴离子代谢物预测重度慢阻肺疾病分险：单变量分析发现，显著差异的代谢物茶碱、次黄嘌呤及L-异亮氨酸推测重度慢阻肺的准确度分别为0.740、0.639及0.785；但三种阴离子代谢物作为联合指标P3-neg-met，其推断重度慢阻肺的准确度为0.959，其相应的灵敏度和特异度分别为0.90和0.90；

(6.3)联合阳离子和阴离子代谢物预测重度慢阻肺疾病分险：通过逐步回归法筛选代谢物指标，筛选后的差异代谢物包括十六酰胺乙醇、癸酰基左旋肉碱、甜菜碱、茶碱及次黄嘌呤，其预测重度慢阻肺疾病的准确度分别为0.784、0.729、0.715、0.740及0.724，为进一步提高疾病预测的准确度，将五种代谢物作为联合指标P5-met，其推断重度慢阻肺的准确度为0.970，其相应的灵敏度和特异度分别为0.88和0.93；

预测模型：Y(慢阻肺＝1|健康对照＝0)＝-14.645+(0.41*十六酰胺乙醇+1.41*癸酰基左旋肉碱-4.83*甜菜碱+0.15*茶碱+1.17*次黄嘌呤)/10000；

(三)蛋白组-代谢组联合群体生物标志物的筛选

步骤(1)～(3)同(一)蛋白群体生物标志物的筛选中的步骤(1)～(3)；

步骤(4)同(二)代谢物群体生物标志物的筛选中的步骤(3)；

步骤(5)同(一)蛋白群体生物标志物的筛选中的步骤(4)；

步骤(6)同(二)代谢物群体生物标志物的筛选中的步骤(4)；

(7)蛋白数据结果：同(一)蛋白群体生物标志物的筛选中的步骤(5)；

(8)代谢物数据结果：同(二)代谢物群体生物标志物的筛选中的步骤(5)；

(9)建立预测模型

(9.1)建立蛋白组预测模型：同(一)蛋白群体生物标志物的筛选中的步骤(6)；

(9.2)建立代谢物预测模型：同(二)代谢物群体生物标志物的筛选中的步骤(6)；

(9.3)联合蛋白组和代谢组预测重度慢阻肺风险：为进一步提高疾病预测的准确度，将十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物和钙粘着蛋白5，作为联合指标P4-met+pro，其推重度慢阻肺的准确度为0.977，其相应的灵敏度和特异度分别为0.94和0.95；

联合判断建立预测模型：Y(慢阻肺＝1|健康对照＝0)＝-17.934+(0.46*十六酰胺乙醇 +0.13*茶碱+0.77*次黄嘌呤)/10000+8.340*钙粘着蛋白5。

本发明具有以下优点：

(1)目前，医院对于重度慢阻肺特异性诊断依旧处于缺乏可靠的生物标志物这一现状，蛋白组学以及代谢组学改变了单一标志物检测的传统思路，以蛋白群体生物标志物、代谢物群体生物标志物或蛋白组-代谢组联合群体生物标志物作为“模式标记物”来诊断疾病，具有独特的优势；

(2)本发明的优点是采用外周血血清样品对重度慢阻肺患者和健康对照进行蛋白组学、代谢组学分析，筛选出差异表达的蛋白和代谢物，并对差异表达的蛋白和代谢物进行蛋白注释、功能富集等，对有研究价值的蛋白和代谢物进行深入研究，针对重度慢阻肺缺乏有效治疗措施这一现状提供有价值的参考；

(3)本发明通过TMT高通量蛋白质组学和PRM靶向蛋白质验证方法相结合，对患者和相应的健康对照血清进行蛋白特征分析，筛选出潜在的重度慢阻肺特异性差异蛋白，建立的早期预测模型其准确性超过90％，灵敏度和特异度(分别为88％和90％)也有较高的水平；本发明利用代谢组学找到重度慢阻肺的特异性差异代谢产物，其准确性超过90％，灵敏度和特异度也有较高的水平；本发明通过TMT高通量蛋白组学方法和PRM靶向蛋白组对患者血清进行蛋白组学分析，筛选出潜在的慢阻肺蛋白标志物，联合代谢组学找到重度慢阻肺的特异性差异代谢产物建立预测模型，其准确性达97.7％，灵敏度和特异度分别为94％和95％；

(4)本发明提供了一种适合于重度慢阻肺早期发现和早期诊断的标志物，以及该诊断标志物在重度慢阻肺诊断中的应用，具有较高临床使用和推广价值，为临床治疗提供指导思路，以解决上述背景技术中提出的问题。

附图说明

图1是本发明实施例1中TMT定量蛋白组学技术路线图；

图2是本发明实施例1中质谱鉴定到肽段的长度分布；

图3是本发明实施例1中质谱仪的质量精度分布；

图4是本发明实施例1中质谱数据结果基本统计图；

图5是本发明实施例1中不同比较组中差异表达蛋白数量分布柱形图；

图6是本发明实施例1中差异表达蛋白定量火山图；

图7是本发明实施例1中的蛋白碎片离子峰面积分布图(以P02763蛋白为例)；

图8是本发明实施例1中PRM靶向蛋白质定量结果图；

图9是本发明实施例1中基于代谢组组学技术对样品进行代谢物鉴定的工作流程示意简图；

图10是本发明实施例1中QC样品正离子模式TIC重叠图谱；

图11是本发明实施例1中QC样品负离子模式TIC重叠图谱；

图12是本发明实施例1中正、负离子模式下样品的PCA得分图，A图是正离子，B图是负离子；

图13是本发明实施例1中正、负离子模式下QC样品相关性图谱。

具体实施方式

下面结合具体实施例详细说明本发明的技术方案，以便本领域技术人员更好理解和实施本发明的技术方案。实施例中所用试剂或材料，如未特别说明，均来源于商业渠道。

实施例1

本实施例提供的适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物，生物标志物为蛋白群体生物标志物、代谢物群体生物标志物或蛋白组-代谢组联合群体生物标志物，其中：

蛋白群体生物标志物为类粘蛋白(Alpha-1-acid glycoprotein，ORM1)、过氧化还原酶2 (Peroxiredoxin-2，PRDX2)和钙粘着蛋白5(Cadherin5，CDH5)；

代谢物群体生物标志物包括十六酰胺乙醇(Palmitoylethanolamide)、癸酰基左旋肉碱 (Decanoyl-L-carnitine)、甜菜碱(Betaine)、茶碱(Theophylline)和次黄嘌呤(Hypoxanthine)；

蛋白组-代谢组联合群体生物标志物包括十六酰胺乙醇(Palmitoylethanolamide)、茶碱 (Theophylline)和次黄嘌呤(Hypoxanthine)三个代谢物和一个钙粘着蛋白5(Cadherin5，CDH5)。

上述生物标志物可以在制备用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中的应用。

蛋白群体生物标志采用类粘蛋白、过氧化还原酶2和钙粘着蛋白5这三种蛋白作为联合指标P3-pro，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中。

或代谢物群体生物标志物采用三种阳离子代谢物和两种阴离子代谢物作为联合指标 P5-met，其中所述阳离子代谢物为十六酰胺乙醇、癸酰基左旋肉碱和甜菜碱，所述阴离子代谢物为茶碱和次黄嘌呤，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中。

或蛋白组-代谢组联合群体生物标志物采用三种代谢物十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物和一个钙黏着蛋白5作为联合指标P4-met+pro，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中。

产品包括试剂、试剂盒等。

产品包括通过高效液相色谱、高效质谱(LC-MS/M)等进行检测所述生物标志物为蛋白群体生物标志物、代谢物群体生物标志物或蛋白组-代谢组联合群体生物标志物及其含量或者浓度的试剂等。

上述生物标志物的筛选方法，包括以下步骤：

一、对象和方法

1.样品来源

经广州医科大学附属第一医院伦理委员会批准及受试者知情同意，进行以下信息和样品采集。在取得患者同意后，收集广州医科大学附属第一医院2017年8月～2019年12月40例重症慢阻肺患者和40例肺功能正常的健康对照外周静脉血(采血时间均为清晨空腹状态)，所有患者或健康对照均经肺功能检测证实。首先受试者(慢阻肺和健康对照)问诊后，对符合纳入、排除标准的受试者采集信息，包括以下内容：

(1.1)慢阻肺纳入标准：

中国汉族人群；40到80岁之间；稳定期患者(例如急性加重入院患者为出院后一个月左右样品)；肺功能分级：慢性阻塞性肺病全球倡议组织(GOLD)III-IV级(GOLD III级：吸入支气管舒张剂之后FEV1/FVC％＜70％，FEV1(1秒量)小于50％(实测占预计值的百分比)，大于等于30％(实测占预计值的百分比)，伴或不伴有慢性症状(咳嗽、咳痰、呼吸困难；GOLDIV：级吸入支气管舒张剂之后FEV1/FVC％＜70％，FEV1(1秒量)小于30％(实测占预计值的百分比)，伴有慢性症状(咳嗽、咳痰、呼吸困难或呼吸衰竭)。慢阻肺亚型分级采用吸气- 呼气高分辨率胸腔CT，判断患者肺实质及气道疾病的表现和严重程度。

(1.2)慢阻肺排除标准：

孕期女性(CT扫描可能对胎儿带来风险)；肺疾病史：排除有除哮喘外的其他肺疾病史(如肺纤维化、支气管扩张症等)；一个或以上肺叶切除病史；治疗中的进展期癌症，疑似肺癌(肺部性质未明的肿块)；眼部手术患者；急性心肌梗死，其他急性期心脏病患者；接受胸腔或腹腔放射治疗的患者；不能耐受沙丁胺醇的患者；多重种族患者。

(1.3)健康对照纳入标准：

中国汉族人群；40到80岁之间；肺功能正常；对照需与慢阻肺患者在性别上大致配比。

(1.4)信息收集：受试者的年龄和性别等个人基本信息、环境暴露史(例如吸烟史、职业、危险因素暴露史等)、疾病家族史(例如癌症家族史、慢阻肺家族史和呼吸疾病家族史等)；给予支气管扩张剂(沙丁胺醇)雾化吸入前后两次肺功能数据；药物治疗史；及临床检测信息。

2.样品采集

对符合纳入、排除标准的受试者采集外周静脉血5mL(促凝胶管)，4℃、1600g、10分钟后取上清分装(300μL/每管)，分装完成后尽快-80℃冰箱保存。

二、TMT高通量蛋白组学实施方案

1.主要试剂如下表1所示。

表1主要试剂

试剂	供应商
		蛋白酶抑制剂	Calbiochem
胰酶(trypsin)	Promega
		乙腈(acetonitrile)	Fisher Chemical
三氟乙酸(trifluoroacetic acid)	Sigma-Aldrich
		甲酸(formic acid)	Fluka
碘代乙酰胺(iodoacetamide)	Sigma
		二硫苏糖醇(dithiothreitol)	Sigma
尿素(urea)	Sigma
		三乙基碳酸氢铵(TEAB)	Sigma
超纯水(H<sub>2</sub>O)	Fisher Chemical
		BCA试剂盒	碧云天
TMT标记试剂盒	Thermo
		乙二胺四乙酸(EDTA)	Sigma
超纯水(H<sub>2</sub>O)	Fisher Chemical

2.实验方法

(1)蛋白提取

样品从-80℃取出，4℃，12000g离心10分钟，去除细胞碎片，上清液转移至新的离心管，用Thermo公司生产的试剂盒参照Pierce^TM Top 12 Abundant Protein DepletionSpin Columns Kit说明书去除高丰度蛋白。利用BCA试剂盒进行蛋白浓度测定。

(2)蛋白浓度测定

取5μL蛋白样品，使用BCA试剂盒测定蛋白浓度，方法如下：

1)将标准品按0μL、5μL、10μL、15μL、20μL加到酶标条的样品孔中，加样品稀释液补足到20μL，各检测3个复孔；

2)将5μL待测蛋白样品加到酶标条的样品孔中，加样品稀释液补足到20μL，各检测3 个复孔；

3)各孔加入200μLBCA工作液，37℃静置反应30分钟；

4)用酶标仪测定A570(最佳吸收波长为562nm，540-595nm之间的其他波长也可应用)；

5)根据标准曲线和使用的样品体积计算出样品的蛋白浓度。

(3)SDS-PAGE

1)样品准备：根据蛋白浓度测定结果，每个样品取等量蛋白到离心管中，加入5μL4×Loading buffer，再加入2％SDS使体积为20μL；

2)上样：依次上样1μL预染蛋白marker和20μL蛋白样品，样品相邻的空白孔上样20μL 1×Loading buffer封闭；

3)电泳：浓缩胶15mA/gel置蛋白浓缩为一条线，约15min；分离胶35mA至dye电泳到胶底部；

4)染色和脱色：胶取出后于考马斯亮蓝G250染液中室温染色2h，然后加入脱色液，脱色至背景无色、条带清晰。银染：胶取出后经过固定、敏化、银染等步骤，再转入显色液中室温显色10min左右，待条带清晰、显色效果适中时，弃去显色液，加入终止液即可。

(4)胰酶酶解

各样品蛋白取等量进行酶解，加入适量标准蛋白，再加入二硫苏糖醇(DTT)使其终浓度为5mM，56℃还原30min。之后加入碘乙酰胺(IAA)使其终浓度为11mM，室温避光孵育15min。最后加入TEAB稀释尿素，确保浓度低于2M。以1∶50的比例(蛋白酶∶蛋白， m/m)加入胰蛋白酶，酶解过夜。再以1∶100的比例(蛋白酶∶蛋白，m/m)加入胰蛋白酶，继续酶解4h。

(5)标记

胰酶酶解的肽段用Strata X(Phenomenex)除盐后真空冷冻干燥。用0.5M TEAB溶解肽段，根据标记试剂盒操作说明进行肽段标记。简单的操作如下：标记试剂解冻后用乙腈溶解，与肽段混合后室温孵育2h，标记后的肽段混合后除盐，真空冷冻干燥，取1μg上质谱检测标记效率。

(6)液相色谱-质谱联用分析

肽段用液相色谱流动相A相(0.1％(v/v)甲酸水溶液)溶解后使用EASY-nLC 1000超高效液相系统进行分离。流动相A为含0.1％甲酸和2％乙腈的水溶液；流动相B为含0.1％甲酸和90％乙腈的水溶液。液相梯度设置：0～40min，6％-25％B；40～52min，25％-35％B；52～56 min，35％-80％B；56～60min，80％B，流速维持在350nL/min。

肽段经由超高效液相系统分离后被注入NSI离子源中进行电离然后进QExactive^TM Plus 质谱进行分析。离子源电压设置为2.0kV，肽段母离子及其二级碎片都使用高分辨的Orbitrap 进行检测和分析。一级质谱扫描范围设置为400-1080m/z，扫描分辨率设置为70,000；二级质谱Orbitrap扫描分辨率设置为17,500。数据采集模式使用数据非依赖型扫描(DIA)程序，HCD 碰撞池的碎裂能量设置为27。一级质谱自动增益控制(AGC)设置为3E6，最大离子注入时间(Maxumum IT)设置为50ms；二级质谱自动增益控制(AGC)设置为1E5，最大离子注入时间(Maxumum IT)设置为180ms，隔离窗口(Isolation window)设置为1.6m/z；

肽段参数：蛋白酶设置为Trypsin[KR/P]，最大漏切位点数设置为0，肽段长度设置为7-25 个氨基酸残基，设置半胱氨酸烷基化为固定修饰。Transition参数：母离子电荷设置为2，3，子离子电荷设置为1，离子类型设置为b，y。碎片离子选择从第三个开始到最后一个，离子匹配的质量误差容忍度设置为0.02Da。

(7)数据库搜索

质谱数据使用Mascot 2.3进行搜索，在蛋白组数据库中进行匹配，匹配同时使用了反库以排除随机匹配造成的假阳性率(FDR)。蛋白酶设置为Trypsin/P，肽段最小长度设置为7个氨基酸残基，最大漏切位点设置为2个，最大电荷数设置为5个。一级母离子的最大容忍质量误差设置为10ppm，二级子离子最大容忍质量误差设置为0.02Da。固定修饰设置为半胱氨酸烷基化，可变修饰设置为甲硫氨酸氧化。肽段打分值大于20分。

因此，本发明通过将TMT标记、高效液相色谱分级技术以及基于质谱的定量蛋白组学技术等一系列前沿技术的有机结合，对样品进行定量蛋白组的研究。其技术路线如图1所示。

三、TMT高通量蛋白组学蛋白鉴定结果

1.质谱质控检测结果：

研究结果所得大部分肽段分布在7-20个氨基酸，符合基于trypsin酶解和HCD碎裂方式的一般规律。其中小于5个氨基酸的肽段由于产生的碎片离子过少，不能产生有效的序列鉴定。大于20个氨基酸的肽段由于质量和电荷数较高，不适合HCD的碎裂方式。质谱鉴定到的肽段长度的分布符合质控要求。

质谱鉴定到肽段的长度分布如图2所示。

如图3所示，绝大多数谱图的一级质量误差在10ppm以内，符合轨道阱质谱的高精度特性。表明质谱仪的质量精度正常，不会由于质量偏差过大而影响到蛋白的定性定量分析。谱图匹配肽段的得分(表征肽段鉴定的可信度)与质量偏差的分布成负相关关系。得分越高，质量偏差越小。

2.蛋白组鉴定结果：

本发明一共鉴定到1919.0个蛋白质，其中1432.0个蛋白质包含定量信息。如果以1.2倍为差异表达变化阈值，以统计学检验t-test P-value＜0.05为显著性阈值，那么在定量到的蛋白质中，发现在慢阻肺vs健康对照比较组中有151个蛋白表达发生上调，100个蛋白表达发生下调。基于上述数据，对所有鉴定到的蛋白质进行了系统的生物信息学分析(蛋白功能注释)，并且对所有差异表达蛋白进行了功能分类、功能富集及基于功能富集的聚类分析。并综合以上信息，对下游基于蛋白组的深入研究提供了参考方向。

在本发明实验中，通过质谱分析共得到3454658.0张二级谱图。质谱二级谱图经蛋白理论数据搜库后，得到可利用有效谱图数为365761，谱图利用率为10.6％。通过谱图解析共鉴定到 41257.0条肽段，其中特异性肽段为37925.0。一共鉴定到1919.0个蛋白，其中1432.0个可定量(定量蛋白表示至少一个比较组有定量信息)。实验结果详细统计如下(表2)。

表2质谱数据结果基本统计表

本实施例通过多次全蛋白定量重复实验，分别得到了每个样品在多次重复中的定量值。

第一步计算比较组中两个样品间蛋白的差异表达量，首先计算出每个样品在多次重复中定量值的平均值，然后再计算两个样品之间平均值的比值，该比值作为比较组最终的差异表达量。

第二步计算该蛋白在两个样品中的差异表达显著性P-value，首先将各个样品的相对定量值取log2(以使得数据符合正态分布)，然后用双样品双尾T检验方法计算P-value。当P-value ＜0.05时，以差异表达量变化超过1.2作为显著上调的变化阈值，小于1/1.2作为显著下调的变化阈值。

质谱数据结果基本统计图如图4所示。

本实施例所有差异表达的蛋白汇总数据参见表3。

表3差异表达蛋白统计信息

不同比较组中差异表达蛋白数量分布柱形图如图5所示。

图6为差异表达蛋白定量火山图，图6中横轴为蛋白相对定量值经过Log2对数转换后的值，纵轴为差异显著性检验P-value值经过-Log10对数转换后的值。图中倒三角表示显著差异表达量上调蛋白，正三角表示显著差异表达下调蛋白。

四、PRM靶向蛋白组实施方案

1.材料与试剂

表4.样品制备所需材料和试剂

试剂名称	供应商
		胰酶(trypsin)	Promega
乙腈(acetonitrile)	Fisher Chemical
		三氟乙酸(trifluoroacetic acid)	Sigma-Aldrich
甲酸(formic acid)	Fluka
		碘代乙酰胺(iodoacetamide)	Sigma
二硫苏糖醇(dithiothreitol)	Sigma
		尿素(urea)	Sigma
蛋白酶抑制剂	Calbiochem
		超纯水(H<sub>2</sub>O)	Fisher Chemical
BCA试剂盒	碧云天

2.实验方法

1)蛋白提取

使用Thermo公司生产的试剂盒参照Pierce^TM Top 12 Abundant ProteinDepletion Spin Columns Kit说明书去除高丰度蛋白。利用BCA试剂盒进行蛋白浓度测定。

2)胰酶酶解

蛋白溶液中加入二硫苏糖醇使其终浓度为5mM，56℃还原30min。之后加入碘代乙酰胺使其终浓度为11mM，室温避光孵育15min。最后将样品的尿素浓度稀释至低于2M。以 1∶50的质量比例(胰酶∶蛋白)加入胰酶，37℃酶解过夜。再以1∶100的质量比例(胰酶∶蛋白)加入胰酶，继续酶解4h。

3)液相色谱-质谱联用分析

肽段用液相色谱流动相A相(0.1％(v/v)甲酸水溶液)溶解后使用EASY-nLC 1000超高效液相系统进行分离。流动相A为含0.1％甲酸和2％乙腈的水溶液；流动相B为含0.1％甲酸和90％乙腈的水溶液。液相梯度设置：0～40min，6％-25％B；40～52min，25％-35％B；52～56min，35％-80％B；56～60min，80％B，流速维持在350nL/min。

肽段经由超高效液相系统分离后被注入NSI离子源中进行电离然后进QExactive^TM Plus 质谱进行分析。离子源电压设置为2.0kV，肽段母离子及其二级碎片都使用高分辨的Orbitrap 进行检测和分析。一级质谱扫描范围设置为400-1080m/z，扫描分辨率设置为70,000；二级质谱Orbitrap扫描分辨率设置为17,500。数据采集模式使用数据非依赖型扫描(DIA)程序，HCD 碰撞池的碎裂能量设置为27。一级质谱自动增益控制(AGC)设置为3E6，最大离子注入时间(Maxumum IT)设置为50ms；二级质谱自动增益控制(AGC)设置为1E5，最大离子注入时间(Maxumum IT)设置为180ms，隔离窗口(Isolation window)设置为1.6m/z。

3.数据处理

四、PRM靶向蛋白组数据结果

1.定量结果总览

在本项目实验中，在60个样品中对所选择的18个目的蛋白进行了PRM定量，受限于部分蛋白的特性和其表达的丰度，定量到了其中的16个蛋白，具体结果见表5。

表5PRM靶向蛋白定量表

注释：实验设计中每个蛋白使用2条以上unique peptides进行定量，部分蛋白因为灵敏度等原因只鉴定到了一条肽段。

2.肽段碎片离子峰面积分布

PRM是采用峰面积定量的。

所选肽段的碎片离子峰面积在60个样品中的分布图参见下图7：“肽段碎片离子峰面积分布图(以蛋白P02763为例)”。

图7是蛋白P02763碎片离子峰面积分布图。在60个样品中肽段EQLGEFYEALDCLR(对应蛋白P02763)的碎片离子峰面积分布情况。

3.PRM靶向蛋白质定量结果：

PRM靶向蛋白质定量结果如图8所示。

五、非靶向代谢组学实施方案

1、实验流程，如图9所示。

2、实验仪器和试剂

表6主要试剂

试剂/仪器	供应商
		质谱仪(AB SCIEX)	AB Triple TOF 5600/6600
超高压液相色谱仪(Agilent)	Agilent 1290 Infinity LC
		低温高速离心机	Eppendorf 5430R
色谱柱	ACQUITY UPLC BEH Amide/ACQUITY UPLC HSS T3
		乙腈	Merck，1499230-935
乙酸	Sigma，7022

3、实验方法

1)样品信息

待测样品信息：样品具体信息见下表7。

质控样品(QC)的制备：样品等量混合用于制备QC样品。

QC样品用于测定进样前仪器状态及平衡色谱-质谱系统，并用于评价整个实验过程中系统稳定性，具体实验过程见图9所示。

表7样品信息

样品分组	样品名称	数量	样品状态
				1	健康对照	40	液体
2	慢阻肺	41	液体

2)样品预处理方法

-80℃取出样品，4℃缓慢溶解后分别取各组样品100μL，加入400μL预冷的甲醇乙腈溶液(1∶1，v/v)，涡旋60s，-20℃放置1h沉淀蛋白，14000rcf，4℃离心20min，取上清冷冻干燥，-80℃保存样品。

3)色谱-质谱分析

样品采用Agilent 1290 Infinity LC超高效液相色谱系统(UHPLC)HILIC色谱柱进行分离；柱温25℃；流速0.3mL/min；流动相组成A：水+25mM乙酸铵+25mM氨水，B：乙腈；梯度洗脱程序如下：0-1min，95％B；1-14min，B从95％线性变化至65％；14-16min，B从 65％线性变化至40％；16-18min，B维持在40％；18-18.1min，B从40％线性变化至95％；18-23 min，B维持在95％；整个分析过程中样品置于4℃自动进样器中。为避免仪器检测信号波动而造成的影响，采用随机顺序进行样品的连续分析。样品队列中插入QC样品，用于监测和评价系统的稳定性及实验数据的可靠性。

4)2Q-TOF质谱条件

分别采用电喷雾电离(ESI)正离子和负离子模式进行检测。样品经UHPLC分离后用Triple TOF 5600质谱仪(AB SCIEX)进行质谱分析。HILIC色谱分离后的ESI源条件如下：Ion Source Gas1(Gas1)：60，Ion Source Gas2(Gas2)：60，Curtain gas(CUR)：30，sourcetemperature： 600℃，IonSapary Voltage Floating(ISVF)±5500V(正负两种模式)；TOFMS scan m/z range： 60-1000Da，product ion scan m/z range：25-1000Da，TOF MS scanaccumulation time 0.20 s/spectra，product ion scan accumulation time 0.05s/spectra；二级质谱采用information dependent acquisition(IDA)获得，并且采用highsensitivity模式，Declustering potential(DP)：±60V (正负两种模式)，CollisionEnergy：35±15eV，IDA设置。

如下Exclude isotopes within 4Da，Candidate ions to monitor per cycle：6。

4、数据分析和处理

(4.1)基础分析：采用R进行统计学分析，连续变量服从正态分布时以均数±标准差表示，非正态分布时以P50、P25或P75表示，分类变量以频率表示，组间比较时连续变量采用非配对的Student-t检验或Mann-Whitney U非参数检验，分类变量采用Pearson卡方检验或Fisher 精确检验；

(4.2)单变量分析方法：是最简单常用的实验数据分析方法。在进行两组样本间的差异代谢物分析时，常用的单变量分析方法包括变异倍数分析(Fold Change Analysis，FCAnalysis)、 T检验，以及综合前两种分析方法的火山图(Volcano Plot)。利用单变量分析可以直观地显示两样本间代谢物变化的显著性，从而帮助我们筛选潜在的标志代谢物。

(4.3)显著性差异代谢物分析：根据OPLS-DA模型得到的变量权重值(VariableImportance for the Projection，VIP)来衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力，挖掘具有生物学意义的差异代谢物。以VIP＞1为筛选标准，初步筛选出各组间的差异物。进一步采用单变量统计分析，验证差异代谢物是否具有显著性。选择同时具有多维统计分析VIP＞ 1和单变量统计分析P value＜0.05的代谢物，作为具有显著性差异的代谢物；而VIP＞1且0.05 ＜P value＜0.1则作为差异代谢物(P value＜0.05的代谢物为具有显著性差异代谢物)。

(4.4)生物信息学分析：

原始数据经ProteoWizard转换成.mzXML格式，然后采用XCMS程序进行峰对齐、保留时间校正和提取峰面积。代谢物结构鉴定采用精确质量数匹配(＜25ppm)和二级谱图匹配的方式，检索实验室自建数据库。数据的完整性和准确性是后续获得具有统计学和生物学意义的分析结果的必要条件。在确保实验设计的合理性和实验数据的准确性的基础上，我们首先对数据的完整性进行检查，对缺失值进行删除或者补充，删除极值，并对数据进行样品间和代谢物间的归一化处理，以确保各样品之间和代谢物之间可平行比较。

数据经Pareto-scaling预处理后，进行多维统计分析，包括无监督主成分分析(PCA)分析，有监督偏最小二乘法判别分析(PLS-DA)和正交偏最小二乘法判别分析(OPLS-DA)，通过逐步回归法筛选代谢物指标。单维统计分析包括Student’s t-test和变异倍数分析，R软件绘制火山图。

(4.4.1)主成分分析(Principal Component Analysis，PCA)是一种非监督的数据分析方法，它将原本鉴定到的所有代谢物重新线性组合，形成一组新的综合变量，同时根据所分析的问题从中选取几个综合变量，使它们尽可能多地反映原有变量的信息，从而达到降维的目的。同时，对代谢物进行主成分分析，还能从总体上反映样品组间和组内的变异度。

以慢阻肺vs健康对照组为示例组进行PCA分析，详见PCA模型参数表(A：表示主成分数；R2X：表示模型对X变量的解释率)。

PCA得分图见图10，横坐标表示第一主成分PC1用t[1]表示，纵坐标表示第二主成分PC2 用t[2]表示，PCA模型参数主要参考R2X的值，R2X越接近1表明模型越稳定可靠。

PCA模型参数表如下表8所示。

表8 PCA模型参数表

分组	极性	A	R2X(cum)
				质控样品	阳离子	9	0.514
质控样品	阴离子	9	0.517
				慢阻肺vs健康对照	阳离子	9	0.523
慢阻肺vs健康对照	阴离子	9	0.521

(4.4.2)偏最小二乘判别分析(PLS-DA)

研究发现，很多动植物及微生物的生理和病理变化通常伴随着代谢过程的异常改变。但是这些生理病理的变化通常只与部分代谢物的表达水平变化特异相关。因此，从海量的代谢组学数据中筛选标志代谢物并建立准确的判别模型，对于疾病的早期诊断和预后、以及生理过程的类型和时期的判别等具有重要意义。

不同于主成分分析(PCA)法，偏最小二乘判别分析(Partial Least SquaresDiscrimination Analysis，PLS-DA)是一种有监督的判别分析统计方法。该方法运用偏最小二乘回归建立代谢物表达量与样品类别之间的关系模型，来实现对样品类别的预测；同时通过计算变量投影重要度(Variable Importance for the Projection，VIP)来衡量各代谢物的表达模式对各组样品分类判别的影响强度和解释能力，从而辅助标志代谢物的筛选(通常以VIP score＞1.0作为筛选标准)。

建立示例组的PLS-DA模型，模型得分图见下表9。经七次循环交互验证得到的模型评价参数(R2Y，Q2)列于PLS-DA模型的评价参数表(A：表示主成分数；R2X：表示模型对X 变量的解释率；R2Y：表示模型对Y变量的解释率；Q2：表示模型预测能力)，R2Y和Q2 越接近1表明模型越稳定可靠，一般Q2大于0.5模型稳定可靠，0.3＜Q2≤0.5模型稳定性较好，Q2＜0.3模型可靠性较低。

表9 PLS-DA模型的评价参数表

(4.4.3)正交偏最小二乘判别分析(OPLS-DA)

不同于主成分分析(PCA)法，正交偏最小二乘判别分析(OPLS-DA)是一种有监督的判别分析统计方法。该方法运用偏最小二乘回归建立代谢物表达量与样品类别之间的关系模型，来实现对样品类别的预测。该方法在偏最小二乘判别分析(PLS-DA)的基础上进行修正，滤除与分类信息无关的噪音，提高了模型的解析能力和有效性。在OPLS-DA得分图上，有两种主成分，即预测主成分和正交主成分。预测主成分只有1个，即t1；正交主成分可以有多个。 OPLS-DA将组间差异最大化的反映在t1上，所以从t1上能直接区分组间变异，而在正交主成分上则反映了组内的变异。

建立示例组的OPLS-DA模型，模型得分情况见下表10，经7-fold cross-validation(7次循环交互验证)得到的模型评价参数(R2Y，Q2)列于OPLS-DA模型的评价参数表(A：表示主成分数；R2X：表示模型对X变量的解释率；R2Y：表示模型对Y变量的解释率；Q2：表示模型预测能力)，R2Y和Q2越接近1表明模型越稳定可靠，一般Q2大于0.5模型稳定可靠，0.3＜Q2≤0.5模型稳定性较好，Q2＜0.3模型稳定性较低。

置换检验通过随机改变分类变量Y的排列顺序，建立200次OPLS-DA模型以获取随机模型的R2和Q2值，横坐标表示置换检验的置换保留度，纵坐标表示R2或Q2的取值，所有的Q2点从左到右均低于最右侧原始蓝色的Q2点表明模型稳健可靠未发生过拟合。示例组的置换检验图如图正、负离子模式OPLS-DA置换检验。

表10 OPLS-DA模型的评价参数表

分组

极性

A

N

R2X(cum)

R2Y(cum)

Q2

慢阻肺vs健康对照

阳离子

1+1

81

0.112

0.774

0.436

慢阻肺vs健康对照

阴离子

1+4

81

0.1338

0.6928

0.425

六、非靶向代谢组学数据结果

6.1质量控制(QC)结果

1)QC样品总离子流图(TIC)的比较

将QC样品UHPLC-Q-TOF MS总离子流图，进行谱图重叠比较，下图结果表明各色谱峰的响应强度和保留时间基本重叠，说明在整个实验过程中仪器误差引起的变异较小。

将QC样品UHPLC-Q-TOF MS总离子流图，进行谱图重叠比较，图10和图11结果表明各色谱峰的响应强度和保留时间基本重叠，说明在整个实验过程中仪器误差引起的变异较小。

2)总体样品主成分分析(PCA)

采用XCMS软件对代谢物离子峰进行提取，见离子峰数目表11。将所有实验样品和QC 样品提取得到的峰，经Pareto-scaling得到的PCA模型，如下图12(图中t[1]代表主成分1、 t[2]代表主成分2)所示正、负离子模式下QC样品紧密聚集在一起，表明本项目实验的重复性好。

表11离子峰数目表

样品分组	峰数目
		正离子	3720
负离子	3694

图12正、负离子模式下样品的PCA得分图综上所述，本次试验的仪器分析系统稳定性较好，试验数据稳定可靠。在试验中获得的代谢谱差异能反映样品间自身的生物学差异。

3)总体样品霍特林T平方分布(Hotellings T2)分析

Hotellings T2分析可以检测是否有离群样品存在，通常全部样品在99％置信区间内。

6.2样品相关性图谱

QC样品的相对标准偏差(RSD值，relative standard deviation)≤30％的强度值之和与总体强度值之和的比值大于70％，说明仪器分析系统稳定性较好，数据可以用于后续分析。对 QC样品进行Pearson相关性分析，横坐标和纵坐标分别标记强度值的对数值，一般相关系数大于0.9表明相关性较好。

正、负离子模式下QC样品相关性图谱如图13所示。

本实验采用基于UHPLC-Q-TOF MS技术的代谢组学方法分别对样品进行了代谢轮廓变化分析。质量控制实验表明，本次实验的仪器分析系统稳定性较好，试验数据稳定可靠。在实验中获得的代谢谱差异能反映样品间自身的生物学差异。

6.3筛选到的差异代谢物

采用多因素Logistic回归方法建立预测模型，并根据最小赤池信息标准选择最佳的模型参数，计算优势比(Odds Ratio，OR)和95％可信区间(CI)；绘制预测模型的列线图，该列线图可以直观地显示每个磨玻璃结节的预测概率，同时绘制校准曲线以显示列线图的预测精度，以及绘制预测模型的受试者工作特征曲线，并获得曲线下面积及其95％CI，再应用z统计量比较建模组和验证组的AUC，所有统计检验均为双侧检验，以P＜0.05被认为具有统计学差异。

本发明一共鉴定到阳离子代谢物峰数目3720个，其中模式差异代谢物24个；阴离子代谢物峰数目3694个，其中模式差异代谢物22个，共发现13个显著差异性代谢物(包括7个阳离子和6 个阴离子)。

7个阳离子如下：

十六酰胺乙醇(Palmitoylethanolamide)；反式-脱氢异雄甾(trans-Dehydroandrosterone)；癸酰基左旋肉碱(Decanoyl-L-carnitine)；甜菜碱(Betaine)；假尿嘧啶核苷(Pseudouridine)；莰酮(Camphor)；1-硬脂酰基-2-油酰基-sn-甘油3-磷酸胆碱(1-Stearoy1-2-oleoyl-sn-glycerol3-phosphocholine(SOPC))；

6个阴离子如下：茶碱(Theophylline)；L-异亮氨酸(L-isoleucine)；硫酸孕烯醇酮 (Pregnenolone sulfate)；壬二酸(Azelaic acid)；舒尼替尼(Sunitinib)；次黄嘌呤(Hypoxanthine)。

七、建立预测模型

根据我国人群生物标记物的特征通过单变量分析及多变量间不同组合分析，以灵敏度和特异度为参数，结合曲线下面积建立重度慢阻肺疾病风险预测模型，用于重度慢阻肺发病风险的评估及分子诊断，结果如下：

7.1通过蛋白组预测重度慢阻肺风险：通过逐步回归法筛选蛋白指标，筛选后的差异蛋白包括类粘蛋白、过氧化还原酶2及钙粘着蛋白5，其预测重度慢阻肺的准确度分别为0.690、0.769 及0.863，将三种蛋白作为联合指标P3-pro，其推断重度慢阻肺的准确度为0.936，其相应的灵敏度和特异度分别为0.88和0.90；

单纯蛋白组建立预测模型：Y(慢阻肺＝1|健康对照＝0)＝-10.323+2.354*类粘蛋白+6.834* 钙粘着蛋白5+1.694*过氧化还原酶2。

可以将上述代蛋白群体生物标志物单独用于早期发现、早期预测或早期诊断罹患重度慢阻肺风险的产品中。

所述产品包括试剂、试剂盒等。

所述产品包括通过质谱法等进行检测所述蛋白群体生物标志物及其含量或者浓度的试剂等。

进一步的，还可以基于本发明提供的蛋白标志物制备检测试剂盒，该试剂盒包括如下成分：类粘蛋白、过氧化还原酶2及钙粘着蛋白5。

该试剂盒是基于本发明提供的蛋白标志物群而设计的，可以用于筛选治疗或缓解重度慢阻肺的药物。

7.2通过阳离子代谢物预测重度慢阻肺风险：单变量分析发现，显著差异的代谢物十六酰胺乙醇、反式-脱氢异雄甾酮、癸酰基左旋肉碱及甜菜碱推测重度慢阻肺的准确度分别为0.784、 0.742、0.729及0.715；为进一步提高疾病预测的准确度，对四种阳离子代谢物作为联合指标 P4-pos-met进行疾病判断，其推断重度慢阻肺的准确度为0.977，其相应的灵敏度和特异度分别为0.83和0.85；

7.3通过阴离子代谢物预测重度慢阻肺风险：单变量分析发现，显著差异的代谢物茶碱、次黄嘌呤及L-异亮氨酸推测重度慢阻肺的准确度分别为0.740、0.639和0.785，为进一步提高疾病预测的准确度，对三种阴离子代谢物作为联合指标P3-neg-met进行疾病判断，其推断重度慢阻肺的准确度为0.959，其相应的灵敏度和特异度分别为0.90和0.90；

7.4联合阳离子和阴离子代谢物预测重度慢阻肺风险：通过逐步回归法筛选代谢物指标，筛选后的差异代谢物包括十六酰胺乙醇、癸酰基左旋肉碱、甜菜碱、茶碱及次黄嘌呤，其预测重度慢阻肺的准确度分别为0.784、0.729、0.715、0.740及0.724。但五种代谢物作为联合指标 P5-met，其推断重度慢阻肺的准确度为0.970，其相应的灵敏度和特异度分别为0.88和0.93；

单纯代谢组建立预测模型：Y(慢阻肺＝1|健康对照＝0)＝-14.645+(0.41*十六酰胺乙醇+1.41*癸酰基左旋肉碱-4.83*甜菜碱+0.15*茶碱+1.17*次黄嘌呤)/10000。

本发明模型通过逐步回归法筛选代谢物指标，先单变量分析、再多变量分析，准确度逐步提高，最终选择准确度最高的，即本发明的联合预测模型。

可以将上述代谢物群体生物标志物单独用于早期(辅助)发现(辅助筛查)、早期(辅助) 预测或早期(辅助)诊断罹患重度慢阻肺风险的产品中。

产品包括试剂、试剂盒等。

产品包括通过高效质谱法等进行检测所述代谢物群体生物标志物及其含量或者浓度的试剂等。

进一步的，还可以基于本发明提供的代谢标志物制备检测试剂盒，该试剂盒包括如下成分：十六酰胺乙醇、癸酰基左旋肉碱、甜菜碱、茶碱及次黄嘌呤。

该试剂盒是基于本发明提供的代谢标志物群而设计的，可以用于筛选治疗或缓解重度慢阻肺的药物。

也可以进一步的：

7.5联合蛋白组和代谢组预测重度慢阻肺风险：为进一步提高疾病预测的准确度，将十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物和钙粘着蛋白5，作为联合指标P4-met+pro，其推测重度慢阻肺的准确度为0.977，其相应的灵敏度和特异度分别为0.94和0.95；

联合判断建立的预测模型：Y(慢阻肺＝1|健康对照＝0)＝-17.934+(0.46*十六酰胺乙醇+0.13*茶碱+0.77*次黄嘌呤)/10000+8.340*钙粘着蛋白5。

综上，得出的蛋白组-代谢组联合群体生物标志物包括十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物和钙粘着蛋白5。

通过比较分析发现，蛋白组与代谢组联合分析指标显著优于代谢物联合分析指标，也优于蛋白联合分析指标。

因此，更佳的可以将上述蛋白组-代谢组联合群体生物标志物一起用于早期发现(早期辅助筛查)、早期预测或早期诊断罹患重度慢阻肺风险的产品中。

产品包括试剂、试剂盒等。

产品包括通过高效液相色谱分级技术、高效质谱(LC-MS/M)等进行检测所述蛋白组-代谢组群体生物标志物及其含量或者浓度的试剂等。

可以基于本发明提供的蛋白组-代谢组联合群体生物标志物制备检测试剂盒，该试剂盒包括如下成分：十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物和钙粘着蛋白5。

该试剂盒是基于本发明提供的蛋白组-代谢组联合群体生物标志物而设计的，可以用于筛选治疗或缓解重度慢阻肺的药物。

以上实施例仅用于阐述本发明，而本发明的保护范围并非仅仅局限于以上实施例。所属技术领域的普通技术人员依据以上本发明公开的内容均可实现本发明的目的，任何基于本发明构思基础上做出的改进和变形，均落入本发明的保护范围之内，具体保护范围以权利要求书记载的为准。

Claims

1.一种适用于早期发现、早期预测或早期诊断重度慢阻肺的生物标志物，其特征是：所述生物标志物为蛋白群体生物标志物、代谢物群体生物标志物或蛋白组-代谢组联合群体生物标志物，其中：

所述蛋白群体生物标志物为类粘蛋白(Alpha-1-acid glycoprotein，ORM1)、过氧化还原酶2(Peroxiredoxin-2，PRDX2)和钙粘着蛋白5(Cadherin5，CDH5)；

所述代谢物群体生物标志物为十六酰胺乙醇(Palmitoylethanolamide)、癸酰基左旋肉碱(Decanoyl-L-carnitine)、甜菜碱(Betaine)、茶碱(Theophylline)和次黄嘌呤(Hypoxanthine)；

所述蛋白组-代谢组联合群体生物标志物为十六酰胺乙醇(Palmitoylethanolamide)、茶碱(Theophylline)和次黄嘌呤(Hypoxanthine)三个代谢物以及一个钙粘着蛋白5(Cadherin5，CDH5)。

2.权利要求1所述的生物标志物在制备用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中的应用。

3.根据权利要求2所述的应用，其特征是：所述蛋白群体生物标志采用类粘蛋白、过氧化还原酶2和钙粘着蛋白5这三种蛋白作为联合指标P3-pro，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中；或所述代谢物群体生物标志物采用三种阳离子代谢物和两种阴离子代谢物作为联合指标P5-met，其中所述阳离子代谢物为十六酰胺乙醇、癸酰基左旋肉碱和甜菜碱，所述阴离子代谢物为茶碱和次黄嘌呤，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中；或所述蛋白组-代谢组联合群体生物标志物采用三种代谢物十六酰胺乙醇、茶碱、次黄嘌呤三个代谢物以及一个钙黏着蛋白5作为联合指标P4-met+pro，用于早期发现、早期预测或早期诊断重度慢阻肺风险的产品中。

4.权利要求1所述的生物标志物的筛选方法，其特征是：

所述蛋白群体生物标志物的筛选中，

采用多因素Logistic回归方法建立预测模型，预测模型：Y(慢阻肺＝1|健康对照＝0)＝-10.323+2.354*类粘蛋白+6.834*钙粘着蛋白5+1.694*过氧化还原酶2；

所述代谢物群体生物标志物的筛选中，

采用多因素Logistic回归方法建立预测模型，预测模型：Y(慢阻肺＝1|健康对照＝0)＝-14.645+(0.41*十六酰胺乙醇+1.41*癸酰基左旋肉碱-4.83*甜菜碱+0.15*茶碱+1.17*次黄嘌呤)/10000；

所述蛋白组-代谢组联合群体生物标志物的筛选中，

采用多因素Logistic回归方法建立预测模型，联合判断建立预测模型：Y(慢阻肺＝1|健康对照＝0)＝-17.934+(0.46*十六酰胺乙醇+0.13*茶碱+0.77*次黄嘌呤)/10000+8.340*钙粘着蛋白5。