CN116593702B

CN116593702B - 一种肺癌的生物标志物以及诊断系统

Info

Publication number: CN116593702B
Application number: CN202310631059.XA
Authority: CN
Inventors: 高俊莉; 高俊顺; 彭小军; 王炜欣; 关虹
Original assignee: Hangzhou Guangke Ander Biotechnology Co ltd
Current assignee: Hangzhou Guangke Ander Biotechnology Co ltd
Priority date: 2023-05-11
Filing date: 2023-05-31
Publication date: 2024-04-05
Anticipated expiration: 2043-05-31
Also published as: CN116593702A

Abstract

本发明提供了生物标志物：Cyfra21‑1、CEA、CA125、Pro‑SFTPB，利用这些生物标志物可以区分肺癌患者是原发性肺癌还是转移性肺癌，还可以用来判断原发性肺癌是否发生转移。

Description

一种肺癌的生物标志物以及诊断系统

本申请主张在先中国申请的优先权，申请号：2023105286767，申请日：2023年5月11日； 2023105433569，申请日：2023年5月15日的优先权，其全部内容作为本发明的一部分。

技术领域

本发明涉及医学领域，具体而言，涉及利用蛋白组学筛选肺癌的生物标志物并用于肺癌的诊断，尤其涉及一种区分肺癌是原发性肺癌还是转移性肺癌的新的生物标志物以及用途,也涉及到可以区分原发性肺癌是否发生转移的标志物以及用途。

背景技术

蛋白质组学(Proteomics)是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学，包括对蛋白质表达模式和蛋白质组功能模式的研究。随着质谱技术的发展，液相色谱与质谱联用技术（LC-MS/MS）已成为蛋白质组学研究中最主要的工具。蛋白质组学的发展对寻找疾病的诊断标志、筛选药物靶点、毒理学研究等有重要意义，也因此被广泛应用于医学研究。

肺癌是临床最常见的恶性肿瘤之一，恶性程度高，病程发展快，其患病率和死亡率列恶性肿瘤首位，且呈逐年上升趋势。国家卫生部公布的资料显示肺癌已成为我国恶性肿瘤死亡的最主要原因，占全部恶性肿瘤20％以上。

肺癌的准确诊断是降低死亡率的关键，但目前尚缺乏有效的诊断方法，70％以上的肺癌患者确诊时已错过最佳的治疗时机。现阶段诊断肺癌主要有组织学和影像学两种方法。但这两种方法都有一定的局限性。随着免疫学和分子生物学的发展，肿瘤相关蛋白标志物在肺癌的诊治中显示出越来越重要的临床价值，已成为必不可少的辅助诊断、观察疗效和判断预后的生物学指标。

切除原发性肿瘤是肺癌得以治愈必不可少的治疗手段，但外科手术本身也有可能通过以下方式促进术后复发：诱导围手术期微转移播散，清除来自肿瘤的抗血管生成信号，诱发肿瘤生长因子的分泌，诱导术后细胞介导的免疫抑制。因此，降低微转移灶中肿瘤细胞活力，更早期干预性的新辅助治疗成为一种具有吸引力的治疗策略，这种策略能提高肿瘤病人手术前的完全控制率，使病人的远期生存和治愈率能够得到很大程度的改善。

临床上已发现多种可以用于肺癌诊断、病理分型和临床分期、判断预后和疗效的肿瘤标志物，但目前常用的肺癌标志物的(CEA，CA125)诊断效能均不理想，尚未发现一种特异的肿瘤标志物对肺癌诊断有较高的敏感度以及特异性。

因此，寻找新的肺癌诊断相关标志物，多种标志物相结合，采用合适的肺癌诊断预测模型，具有重要的临床价值。

发明内容

针对现有技术中存在的问题，本发明提供了一种用于肺癌检测的生物标志物，筛选出系列全新的能早期预示肺癌发生风险的生物标记物，特别的, 能够区分肺癌患者是原发性肺癌与转移性肺癌，另外，对于原发性与转移性肺癌能够有效区域，这样可以针对不同的发病机制进行有效的治疗。特别的，对于原发性肺癌，也可以提前预测或者判断原发性肺癌是否发生转移，这样为手术切除以及预后都具有积极的意义。

一方面，本发明提供了一种生物标志物在制备区分肺癌患者是原发性肺癌还是转移性肺癌的试剂上的用途，所述生物标志物选自如下的一种或多种：Cyfra21-1、CEA、CA125、Pro-SFTPB。实际上是发现传统的标志物具有新的用途。

在一些方式中，所述可用于区分肺癌是原发性还是转移性肺癌的标志物，可以生物标志物为检测目标制备检测试剂，例如样品前处理试剂、抗原或抗体等适用于所述生物标志物检测的生物试剂及试剂盒；也可以开发成适用于所述生物标志物LC-UV或LC-MS检测的标准化试剂或试剂盒等。

进一步地，所述生物标志物包括Cyfra21-1、CEA、CA125、Pro-SFTPB。

进一步地，所述试剂用于检测体液样本中的生物标志物，所述体液样本包括血液、尿液、唾液、汗液中的任意一种。

在一些方式中，本发明的所述生物标志物是通过血液样本筛选获得的，尤其适于开发成用于肺癌预测的血液检测试剂或试剂盒等,特别是肺癌患者中，可以区分该肺癌患者或者个体是原发性肺癌还是转移性肺癌的患者。

进一步地，所述检测体液样本中的标志物，为检测个体的体液样本中生物标志物的有无或相对丰度或浓度。

在一些方式中，优选采用相对丰度来表示，所述相对丰度为高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。比如某个生物标志物在对照样品（未患肺癌的个体）里测出的平均峰面积是500，在肺癌样品里测出的平均峰面积是3000，那么就认为该生物标志物在肺癌样本中的丰度是对照样本中的6倍。

另一方面，本发明提供了一种制备个体中区分原发性与转移性肺癌的试剂的标志物组合，所述生物标志物选自如下的任意两种或两种以上的组合Cyfra21-1、CEA、CA125、Pro-SFTPB。

进一步地，包括Cyfra21-1、CEA、CA125、Pro-SFTPB四种组合。

另一方面，本发明提供了一种区分肺癌个体是原发性肺癌还是转移性肺癌的试剂的标志物组合，所述试剂盒包括如上所述的生物标志物，或如上所述的生物标志物组合的检测试剂。

在一些方式中，所述检测试剂为如上所述生物标志物的抗体，所述抗体为单克隆抗体。

再一方面，本发明提供了一种区分肺癌个体是原发性肺癌还是转移性肺癌的系统，所述系统包括数据分析模块，所述数据分析模块用于分析生物液体样本中的生物标志物的检测值，所述生物标志物为选自如下的一种或多种：Cyfra21-1、CEA、CA125、Pro-SFTPB。

在一些方式中，所述的生物标志物由下列标志物组成：Cyfra21-1、CEA、CA125、Pro-SFTPB。

进一步地，还包括数据检测系统，数据输入、输出界面；所述数据检测系统用于检测样本中的生物标志物，获得检测值；所述数据输入、输出界面中的输入界面用于输入生物标志物的检测值，经数据分析模块分析检测值后，输出界面用于输出肺癌患者是原发性肺癌还是转移性肺癌的分析结果。

在一些方式中，所述的数据分析模块包括模型方程，所述的方式为：

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数（m=4），Xi表示第i个生物标志物的检测值（μg/mL），Ki表示第i个生物标志物的系数，b为常数4.4195。

。

在一些方式中，其中，当诊断模型预测值Y≤0.518时，认为待测肺癌患者不为原发性肺癌患者；当模型预测值Y＞0.518时，认为待测肺癌患者为转移性肺癌患者。

再一方面，本发明提供了如上所述的系统用于构建预测肺癌患者是否是原发性肺癌还是转移性肺癌的的概率值的检测模型的用途。

这里的“原发生肺癌”是指癌症或者癌细胞首先在肺部产生，一般是人体器官其它位置没有癌细胞，而肺部是第一个产生癌细胞的场所，这样就在肺部形成恶性结节。所谓的“转移性肺癌”是指肺部没有癌细胞也没有恶性结节，而是在人体别的器官产生了癌细胞或者恶性结节，而随着癌症的发展，转移到了肺部，从而在肺部产生了恶性结节，例如甲状腺癌发生肺部转移，或者乳腺癌发生了肺部转移，或者肝癌发生了肺部转移，这些都是肺部在恶性结节就是由其他组织的癌细胞定植在肺部而引起肺部组织的癌变。

所述的原发性肺癌是否发生转移，是指肺癌患者在肺部肿瘤是否会向身体其它部分发生转移，例如肺癌的癌细胞是否会转移到肝癌、胰腺癌或者其它器官进行定植而导致定植的器官也发生癌变。

本发明的另外一个方面，提供一种区分原发生肺癌个体是否发生转移的标志物以及用途，所述的标志物选择如下标志物中的一种或者多种：Cyfra21-1、CEA、CA125、Pro-SFTPB。

在一些方式中，所述的标志物包括如下标志物的组合：Cyfra21-1、CEA、CA125、Pro-SFTPB。

在一些方式中，本发明的所述生物标志物是通过血液样本筛选获得的，尤其适于开发成用于肺癌预测的血液检测试剂或试剂盒等,特别是原发性肺癌患者中，可以区分该原发性肺癌是否发生转移的患者。

再一方面，本发明提供了一种诊断原发性肺癌是否发生转移的系统，所述系统包括数据分析模块，所述数据分析模块用于分析生物液体样本中的生物标志物的检测值，所述生物标志物为选自如下的一种或多种：Cyfra21-1、CEA、CA125、Pro-SFTPB。

进一步地，还包括数据检测系统，数据输入、输出界面；所述数据检测系统用于检测样本中的生物标志物，获得检测值；所述数据输入、输出界面中的输入界面用于输入生物标志物的检测值，经数据分析模块分析检测值后，输出界面用于输出原发性肺癌是否发生转移的分析结果。

在一些方式中，所述的计算模块包括模型的方程，所述的方程为：

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数（m=4），Xi表示第i个生物标志物的检测值（μg/mL），Ki表示第i个生物标志物的系数如下表所示，b为常数10.7；

。

在一些方面，当诊断模型预测值Y≤0.525时，认为待原发性肺癌患者不会转移；当模型预测值Y＞0.525时，认为原发性肺癌患者待测者可能会转移。

本发明的原发性肺癌是否发生转移，是指原发性肺癌是否转移到别的器官或者组织而让别的器官或者组织带有癌细胞从而发生癌症。

所述的Pro-SFTPB为UniProt数据库编号为P07988的氨基酸序列；CA125为UniProt数据库编号为Q8WXI7的氨基酸序列；CEA为UniProt数据库编号为Q13984的氨基酸序列；Cyfra21-1为UniProt数据库编号为P08727的氨基酸序列。

本发明的有益效果为：

筛选到4种全新的生物标记物，能够区分肺癌患者是原发性肺癌还是转移性肺癌；或者能够区分原发性肺癌是否会发生转移，虽然这四种标志物是已知的，但是发现具有新的用途。

附图说明

图1为实施例1中的glmnet算法不同超参数组合下最优组合模型的AUC结果图；

图2为实施例1中构建的肺癌联合诊断模型在模型组中的ROC曲线；

图3为实施例1中构建的肺癌联合诊断模型在测试组中的ROC曲线；

图4为实施例1中构建的肺癌联合诊断模型在测试组中的性能评估结果图；

图5为实施例1中构建的不同肺癌诊断模型的ROC曲线。

图6为实施例2中的glmnet算法不同超参数组合下最优组合模型的AUC结果图；

图7为实施例2中构建的肺癌联合诊断模型在模型组中的ROC曲线；

图8为实施例2中构建的肺癌联合诊断模型在测试组中的ROC曲线；

图9为实施例2中构建的肺癌联合诊断模型在测试组中的性能评估结果图；

图10为实施例2中构建的不同肺癌诊断模型的ROC曲线。

详细说明

（1）诊断或者检测

这里的诊断或者检测是指对于样本中的生物标志物进行检测或者化验，或者目的生物标志物的含量，例如绝对含量或者相对含量，然后通过目标标志物是否存在或者数量的多少来说明提供样本的个体是否可能具有或患某种疾病，或者具有某种疾病的可能性。这里的诊断与检测的含义可以互换。这种检测的结果或者诊断的结果是不能直接作为患病的直接结果，而是一种中间结果，如果获得直接的结果，还需通过病理学或者解剖学等其它辅助手段才能确认患有某种疾病。例如，本发明提供了多种与肺癌具有关联性的新的生物标志物，这些标志物的含量的变化与是否患有肺癌具有直接的关联性，或者肺癌患者是原发性肺癌或者转移性肺癌关联，再或者是原发性肺癌是否发生转移关联。

（2）标志物或生物标志物与肺癌的联系

标志物和生物标志物在本发明中具有相同的含义。这里的联系是指某种生物标志物在样本中出现或者含量的变化与特定疾病具有直接的关联性，例如含量的相对升高或者降低，表示这在肺癌患者中，是原发性肺癌还是转移性肺癌，或者原发性肺癌是否发生转移，这位治疗提供辅助手段，可以提前更具不同的情况采取提前的干预治疗。

针对本发明发现的血清中的众多生物标志物，这些标志物都可以用来进行区分肺癌患者是原发性肺癌还是转移性肺癌，或者原发性肺癌是否发生转移。这里的标志物可以单独作为单个的标志物来进行直接的检测或者诊断，选择这样的标志物表示该标志物的含量的相对变化与肺癌患者的发生类型或者是否转移具有强的关联性。当然，可以理解的是，可以选择与肺癌关联性强的一种或者多种标志物的同时检测。正常的理解是，在一些方式中，选择关联性强的生物标志物来进行检测或者诊断可以达到一定标准的准确性，例如60%，65%，70%，80%，85%，90%或者95%的准确性，则可以说明，这些标志物可以获得诊断某种疾病的中间值，但并不表示就能直接确认患有某种疾病。。

当然，也可以选择ROC值越大的差异蛋白质来作为诊断的标志物。所谓的强，弱一般通过一些算法来计算确认，例如标志物与肺癌贡献率或者权重分析。这样的计算方法可以是显著性分析（p值或FDR值）和倍数变化（Fold change），多元统计分析主要包括主成分分析（PCA）、偏最小二乘判别分析（PLS-DA）和正交偏最小二乘判别分析（OPLS-DA），当然还包括其他的方法，例如ROC分析等。当然，其它的模型预测方法也是可以的，在具体选择生物标志物的时候，可以选择本发明所公开的差异蛋白质，也可以选择或者结合其它现有公知的标志物组合通过模型方法进行预测。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。本实施例中使用的试剂均为已知产品，通过购买市售产品获得。

本发明小组在该专利申请，申请号：202211486610.8中所披露的内容上进一步深入研究，发现在肺癌患者中，某些生物标志物存在的量出现显著性的差异分布，进行深入研究测试分析发现，某些生物质在原发性肺癌患者中与转移性肺癌中的浓度存在显著差异，同时也发现某些生物标志物在原发性肺癌发生转移或者不发生转移的样本中也存在显著性的差异，我们觉得这些标志物不仅可以区分健康人员与肺癌患者的区分，也可能在肺癌患者中能够进行原发性与转移性肺癌的区分，或者可以判断原发性肺癌是否发生转移上的预测或者诊断。

从而，在该专利申请的基础上筛选出来的8种标记物的基础上，进一步筛选出来4中标记物：Cyfra21-1、CEA、CA125、Pro-SFTPB，以上4种标记物具有在肺癌患者中，区分是原发性肺癌还是转移性肺癌，或者对于原发性肺癌是否发生转移的潜能，他们在某些原发性肺癌与转移性肺癌的血液样本中的浓度存在显著差异，也在原发性肺癌发生了转移以及没有发生转移的血液样本中存在显著性差异。为了验证这种判断，我们进行下面两个实施例子来验证我们的想法。

实施例1：4种差异蛋白质联合鉴别肺癌缓和是原发性肺癌还是转移性肺癌的分类模型及其建立

1. 获取数据

研究人群：

从2020-2022收集了1250例肺癌患者，其中具有转移性肺癌650，原发性肺癌600，然所有入组的患者签署知情同意书。肺癌患者均为活体组织经病理学确认结果，通过免疫组化检查鉴别原发性肺腺癌和转移性肺腺癌。将入组人员按照9：1的比例分为模型组(原发性肺癌n＝585，转移性肺癌n＝540)和测试组(原发性肺癌n＝65，转移性费癌n＝60)。数据信息如表1：

表1：建模样本信息

肺癌患者的纳入标准：(a)原发性肺癌是无其他恶性肿瘤病史，转移性肺癌具有其它一中恶性肿瘤病史，但是肺部是没有恶性肿瘤的，后来患有肺癌的患者；(b)采血后一个月内进行手术治疗，且经术后病理证实为原发性或者转移性肺癌。在知情同意后，将收集的所有血清样品储存在-80℃的血清库中。

本实施例对采集到的血清样本进行酶联免疫吸附剂检测(ELISA)，获得血清中Cyfra21-1、CEA、CA125和Pro-SFTPB的浓度。

2. 实验数据统计分析

Shapiro Wilk的测试用于评估正态分布，并且使用非参数检验Wilcoxon测试分别分析模型组和测试组中原发性肺癌患者和转移肺癌之间的血液标志物浓度的差异。在模型组中，采用多种机器学习方法相结合的方法构建4种肺癌标志物的联合诊断模型。使用预测概率值以95％置信区间(CI)估计接收器操作员特征(ROC)曲线下面积(AUC)，以评估多变量诊断模型的辨别能力。使用测试组，计算Youden指数(YI)以确定用于区分原发性肺癌患者与转移性预测概率cut-off值。此外，构建并比较了单个标志物和不同亚组的ROC。计算标准描述性统计数据，例如频率，平均值，中位数，阳性预测值(PPV)，阴性预测值(NPV)和标准偏差(SD)以描述研究群体的实验结果。使用R3.6.1进行统计学分析，p值小于0.05被认为是统计学上显著的。

3. 区分原发性与转移性肺癌联合诊断模型构建步骤

S101，将模型组中样本的Cyfra21-1、CEA、CA125和Pro-SFTPB4种蛋白标志物中，作为原始训练数据集。

S102，选择广义线性模型（glmnet）算法用于构建预测模型，以及算法的超参数优化过程中网格搜索范围。该步骤中，对每种算法设定模型的超参数优化的网格搜索范围如表2所示。

表2：glmnet算法的参数网格搜索范围

S103，根据步骤S102设定的算法和超参数设定范围，选择其中一种超参数组合方式，作为预测模型构建的参数。

S104，将原始数据集按K折交叉验证机制，分割成K个子集。为确保每一折子集中，多数类样本和少数类样本比例与原始数据集相同，需采用分层K折交叉验证(StratifiedK-Folds cross validation)机制来进行数据分割。

S105，根据步骤S104分割得到的K个训练数据子集，选择其中一个子集作为验证集Ddev。

S106，将步骤S105中未选择的训练数据子集合并形成训练数据池Dtrainl。

S107，根据步骤S106得到的训练数据集Dtrain，基于所选择的有监督分类算法和超参数构建预测模型。

S108，根据步骤S107得到的预测模型，在验证集Ddev进行评估得到AUC值，并将当前预后预测模型与相应的AUC值存储在预测模型池Pool中。步骤S108为根据步骤S107得到的预测模型，在当前迭代中确定的验证集上进行评估，并将模型和评估结果都存储到预测模型池中，供以后基预测模型选择使用。该步骤中提到的评估，可以是AUC值，也可以是其他合理的对模型性能进行评估的指标。

S109，判断是否每个子集全部做过验证集。步骤S109为判断步骤S104得到的K个子集是否都已作为验证集，进行过模型的训练。如果所有的子集均作为验证集并完成了训练，则执行步骤S110；若有子集并未作为验证集，则执行步骤S105。该步骤确保原始数据集中，每一个样本均做过验证集，提高模型稳定性，防止模型过拟合于某个子集。

S110，将得到预测模型池Pool所有模型的AUC平均值作为本次组合方式模型的最终性能评估值。并将模型参数和最终性能评估AUC值存入最优模型池Poolbest。

S111，判断每种超参数组合方式是否全部构建预测模型。步骤S111为判断步骤S102得到所有算法和对应的超参数组合方式是否都进行过预测模型的构建。如果所有组合方式均作完成了模型的构建，则执行步骤S112；若有组合方式未完成模型的构建，则执行步骤S103。

S113，从步骤S112获得的模型集Poolbest中，选择AUC值最大的模型作为这种标志物组合下的最终预测模型。

4. 4MP模型参数优化结果

通过上述模型构建步骤执行，我们得到了9种不同glmnet算法超参数的组合下构建的模型（图3），并通过AUC值评估模型性能。如表3和图1所示：当glmnet算法超参数组合为alpha=0.1，lambda=0.0547时，AUC达到最大值0.8602（建模过程中采用10倍交叉验证方法计算AUC）。

表3：glmnet算法不同超参数组合下构建模型的AUC

基于最优超参数组合构建模型的方程为：

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数（m=4），Xi表示第i个生物标志物的检测值（μg/mL），Ki表示第i个生物标志物的系数（表4），b为常数4.4195。

表4：模型中4种生物标志物的系数

5. 肺癌联合诊断模型（4MP）诊断阈值确定（区分原发性与转移性）

以模型组中的预测值绘制ROC曲线，并根据约登（youden）指数值设置最佳诊断截断值为0.518。即当诊断模型预测值≤0.518时，认为待测肺癌患者为原发性肺癌患者；当模型预测值＞0.518时，认为待测肺癌患者为转移性肺癌患者。结果如图2所示：模型在模型组中AUC为0.861，灵敏度为78.5%，特异性为78.1%。

6. 肺癌联合诊断模型（4MP）验证（区分原发性与转移性）

以测试组中的预测值绘制ROC曲线，如图3所示，AUC为0.907。并根据约登（youden）指数值设置最佳诊断截断值为0.518。即当诊断模型预测值≤0.518时，认为待测者为原发性肺癌患者；当模型预测值＞0.518时，认为待测者为转移性肺癌患者。结果如图4所示：模型在测试组中的准确率为84.8%，Kappa值为0.697，灵敏度为78.5%，特异性为91.7%，阳性预测率为91.1%，阴性预测率为79.7%。

7. 不同肺癌诊断模型费诊断价值比较

表5：不同诊断模型的ROC曲线下面积比较

如图5和表5所示，我们的模型（4MP）的AUC相比于单个标志物分别高出0.06，0.18,0.29和0.27。采用AUC差异显著性检验方法DeLong's test结果表明我们的模型（4MP）诊断价值均显著（p<0.05）高于单个标志物的诊断价值。虽然组合的方式是可以对于肺癌患者进行原发性肺癌与转移性肺癌的区分，但是上述单个标志物也具有诊断的价值，也可以单独用来进行肺癌患者的原发性与转移性的区分诊断。特别是，Pro-SFTPB的AUC值是0.849，而CYFRA21-1的AUC值是0.723。

实施例2：4种差异蛋白质联合鉴别原发性肺癌是否发生转移

1. 样本收集

收集浙江省肿瘤医院2021年5月—2022年5月行手术治疗的740例肺癌患者的病历资料。其中474例具备完整临床和随访数据的患者为模型组，作单因素、多因素分析以及实际转移率的ROC曲线，记录曲线下面积、特异性及敏感度，以约登指数作为判断有无转移的截断值。266例肺癌患者资料作为模型预测能力的测试组。样本纳入标准：（1）术后病理分期为Ⅰ-Ⅲ A期；（2）初治的原发性肺癌，单发病灶；（3）病历资料及随访结果完整。排除标准：（1）术前发现肺部多发病灶或已有远处转移者；（2）伴有其他恶性肿瘤病史；（3）术后病理为非小细胞癌；（4）因各种原因未清扫淋巴结，术后未获得准确病理分期；（5）非肿瘤原因死亡；（6）病历资料及随访结果不完整；（7）术后标本切缘有癌细胞残存。模型组与测试组中转移与肺转移患者数据信息如表6：

表6：建模样本信息

2. 实验数据统计分析

Shapiro Wilk的测试用于评估正态分布，并且使用非参数检验Wilcoxon测试分别分析模型组和测试组中肺癌患者转移与非转移患者之间的血液标志物浓度的差异。在模型组中，采用多种机器学习方法相结合的方法构建4种肺癌标志物的联合诊断模型。使用预测概率值以95％置信区间(CI)估计接收器操作员特征(ROC)曲线下面积(AUC)，以评估多变量诊断模型的辨别能力。使用测试组，计算Youden指数(YI)以确定用于区分原发性肺癌患者发生转移或者不转移预测概率cut-off值。此外，构建并比较了单个标志物和不同亚组的ROC。计算标准描述性统计数据，例如频率，平均值，中位数，阳性预测值(PPV)，阴性预测值(NPV)和标准偏差(SD)以描述研究群体的实验结果。使用R3.6.1进行统计学分析，p值小于0.05被认为是统计学上显著的。

3. 区分原发性肺癌转移与非转移联合诊断模型（4MP）构建步骤

S101，将模型组中样本的Cyfra21-1、CEA、CA125和Pro-SFTPB等4种蛋白标志物的浓度矩阵作为原始训练数据集。

S102，选择广义线性模型（glmnet）算法用于构建预测模型，以及算法的超参数优化过程中网格搜索范围。该步骤中，对每种算法设定模型的超参数优化的网格搜索范围如表7所示。

表7：glmnet算法的参数网格搜索范围

S113，从步骤S112获得的模型集Poolbest中，选择AUC值最大的模型作为肺癌诊断的最终预测模型。

4. 原发性肺癌转移与非转移联合诊断模型（4MP）参数优化结果

通过上述模型构建步骤执行，我们得到了9种不同glmnet算法超参数的组合下构建的模型（图3），并通过AUC值评估模型性能。如表8和图6所示：当glmnet算法超参数组合为alpha=0.55，lambda=0.040473495时，AUC达到最大值0.8413（建模过程中采用10倍交叉验证方法计算AUC）。

表8：glmnet算法不同超参数组合下构建模型的AUC

基于最优超参数组合构建模型的方程为：

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数（m=4），Xi表示第i个生物标志物的检测值（μg/mL），Ki表示第i个生物标志物的系数（表9），b为常数10.7。

表9：模型中4种生物标志物的系数

。

5. 肺癌联合诊断模型（4MP）诊断阈值确定（原发性发生转移与非转移）

以模型组中的预测值绘制ROC曲线，并根据约登（youden）指数值设置最佳诊断截断值为0.525。即当诊断模型预测值≤0.525时，认为待测原发性肺癌患者不会发生转移；当模型预测值＞0.525时，认为待测肺癌患者可能会发生转移。结果如图7所示：模型在模型组中AUC为0.841，灵敏度为76%，特异性为76.5%。

6. 肺癌联合诊断模型（4MP）验证（区分原发性转移与非转移）

以测试组中的预测值绘制ROC曲线，如图8所示，AUC为0.852。并根据约登（youden）指数值设置最佳诊断截断值为0.525。即当诊断模型预测值≤0.525时，认为待测肺癌患者不会发生转移；当模型预测值＞0.525时，认为待测肺癌患者可能会转移。结果如图9所示：模型在测试组中的准确率为77.4%，Kappa值为0.547，灵敏度为78.3%，特异性为76.4%，阳性预测率为79.4%，阴性预测率为75.2%。

7. 不同肺癌诊断模型费诊断价值比较

表10：不同诊断模型的ROC曲线下面积比较

如图10和表10所示，我们的模型（4MP）的AUC相比于传统的单个标志物分别高出0.1065，0.263，0.173和0.133。采用AUC差异显著性检验方法DeLong's test结果表明我们的模型（4MP）诊断价值均显著（p<0.05）高于传统标志物或传统标志物组合模型的诊断价值。但是，对于单个标志无来讲，也具有诊断价值，可以用来诊断或者预测原发性肺癌是否发生转移的可能性。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.诊断肺癌患者是原发性肺癌还是转移性肺癌的系统，所述系统包括数据分析模块和输出界面，所述数据分析模块用于分析生物标志物在血清中的检测值，所述生物标志物由Cyfra21-1、CEA、CA125和Pro-SFTPB组成；所述数据分析模块包括分析模型方程，所述分析模型方程如下：

；

其中，Y为预测值，i表示第i个生物标志物，m表示生物标志物的个数，m=4，Xi表示第i个生物标志物在血清中的检测值，检测值的单位为μg/mL，Ki表示第i个生物标志物的系数如下表所示，b为常数4.4195；

；

当预测值Y≤0.518时，所述输出界面输出待测肺癌患者是原发性肺癌患者的分析结果；当预测值Y＞0.518时，所述输出界面输出待测肺癌患者是转移性肺癌患者的分析结果。