CN118207336B

CN118207336B - 一种诊断和评估肺结节癌症风险的血液基因表达生物标志物组

Info

Publication number: CN118207336B
Application number: CN202410620337.6A
Authority: CN
Inventors: 陈利民
Original assignee: Tianjin Yunjian Medical Instrument Co ltd; Tianjin Yunjian Medical Lab Co ltd
Current assignee: Tianjin Yunjian Medical Instrument Co ltd; Tianjin Yunjian Medical Lab Co ltd
Filing date: 2024-05-20
Publication date: 2024-07-12
Anticipated expiration: 2044-05-20

Abstract

本发明公开了一种诊断和评估肺结节癌症风险的血液基因表达生物标志物组。本发明通过对基因表达生物标志物组含量的测定导出肺结节风险评分，用于辅助所观察到的肺结节的诊断和风险评估。这些基因表达表征试剂将与检测血浆中基因表达的测试系统一起包装在试剂盒中，如ABI QuantStudio系统，该系统测量生物标志物浓度以生成肺结节风险评分，该评分可用于区分良性肺结节和肺结节癌症。

Description

一种诊断和评估肺结节癌症风险的血液基因表达生物标志物组

技术领域

本发明属于肺结节技术领域，具体涉及诊断和评估肺结节癌症风险的血液基因表达生物标志物组。

背景技术

肺结节是一种小而圆的生长物，可以在肺部的影像学检查中发现，如胸部X光片和CT扫描。这些结节很常见，可由多种因素引起，如感染、炎症或接触毒素。虽然大多数结节是良性无害的，但有些可能是癌性的，对这些结节的早期检测和准确分类对于获得最佳患者结果至关重要。只有5%的肺结节是癌性的，肺结节癌变的可能性取决于几个因素，包括结节的大小、形状和在肺部的位置。结节体积较大、形状不规则或位于肺中心附近更容易癌变。然而，即使是小结节也可能是癌性的，根据具体情况评估每个结节很重要。因此，大多数肺结节患者都要接受不必要的活检程序，而且对能够区分良性结节和癌性结节的非侵入性临床测试的需求尚未得到满足。

孤立性肺结节评分系统评估肺结节癌变的可能性风险。评分系统取决于几个因素，包括患者的年龄、吸烟史和结节本身的特征，如大小、形状和位置。为了帮助临床医生确定SPN癌变的可能性，已经开发了几种风险计算器。两个主要的计算器是Brock模型，它使用几个变量，包括患者年龄、吸烟史、结节大小和结节位置，来计算恶性肿瘤的风险。Brock模型已被证明对预测SPN中的恶性肿瘤具有高度的敏感性和特异性，并且在临床实践中经常用于帮助指导管理决策。另一个风险计算器是Mayo Clinic模型，该模型使用了与Brock模型类似的变量，以及其他因素，如患者的癌症病史和结节内钙化的存在。梅奥诊所模型也被证明在预测SPN恶性肿瘤风险方面是有效的。在SPN管理中使用风险计算器可以帮助指导临床决策，例如需要进一步的影像学研究或活检。然而，需要注意的是，风险计算器应与临床判断和个别患者因素结合使用，不应作为医生评估和管理的替代品。

为了提高肺结节诊断的准确性，研究人员开发了几种基于血液的测试，分析与癌症相关的生物标志物。一种这样的测试是NodifyLung，它分析患者血液样本中的多种生物标志物，包括循环肿瘤DNA和蛋白质标志物，以提供肺结节癌变可能性的风险评分。NodifyLung试验已经在几项临床研究中进行了评估，结果表明，与传统的诊断方法（如影像学研究和活检）相比，它可以提高肺癌癌症诊断的准确性。虽然像NodifyLung这样的血液检测在提高肺结节诊断的准确性方面显示出了希望，但重要的是要注意，它们应始终与成像研究和其他诊断工具结合使用，并应由合格的医疗专业人员进行解释。此外，目前不建议在普通人群中进行基于血液的检测来筛查癌症，因为需要进一步研究来评估其成本效益和长期效益。

NodifyLung测试的一个主要问题是，它是一种基于质谱的测试，相关成本较高。使用基于抗原或分子的方法开发类似测试的能力可以显著降低测试成本。此外，降低潜在生物标志物的数量也可以降低测定的成本和复杂性，进一步降低测定的费用，提高患者的潜在成本效益和长期效益。肺结节的早期发现和准确分类对于患者的最佳结果至关重要。如果发现结节是癌性的，早期诊断和治疗可以提高生存率，减少对侵入性手术的需要。然而，如果发现结节是良性的，可以避免不必要的侵入性手术和辐射暴露。目前的肺结节管理指南建议采用多学科方法，包括放射科医生、肺科医生和胸外科医生在内的医疗专业团队参与其中。这种方法有助于确保使用成像研究、低成本生物标志物测试和其他诊断工具的组合来评估每个结节，以提供最准确的诊断和治疗计划。

发明内容

本发明的目的在于提供一种诊断和评估肺结节癌症风险的血液基因表达生物标志物组。

用于测量选自以下生物标志物组的一种或多种肺结节癌症风险生物标志物的量的检测试剂在制备用于确定受试者肺结节癌症风险生物标志物水平呈现的试剂盒中的用途，所述确定受试者肺结节癌症风险生物标志物水平呈现的方法包括：

a.测量受试者样品中的一组肺结节癌症风险生物标志物浓度，以确定每个肺结节癌症风险生物标志的表达水平；所述样品为血液、血清或血浆；

b.基于每个肺结节癌症风险生物标志物的表达水平获得所述肺结节癌症风险生物标志物水平表示，其中，所述肺结节癌症风险生物标志物包括选自TRIM25、GSTM3、KRT6B、ANAPC5、FOXN3、DCTN5、SAMHD1、ATP5E、GPX1、VDAC2、CP、HMGB3、PODXL2、RRM2、PSAT1、DNAJC12、CCNA2、CDCA3、CDC20、MAD2L1、CDKN3、HJURP、PTTG1、PPP1R14B、PAFAH1B3、FAM64A、C1ORF106、MDK、CAGE、SOX2、BEX2、CD44、TACC1、FAP、INHBA、 MYC、GADD45B、PGK1、TMPRSS4、MNX1、BUB1B、CCNB1、UBE2C、CENPE、ASRGL1中的一种或几种。

进一步的，测量每个肺结节癌症风险生物标志物的蛋白质、部分肽序列或RNA的表达水平。

进一步的，所述生物标志物的表达水平以周期阈值C（t）表示；C（t）=1/[1+exp（-2.817+0.713*ΔCt（ATP5E-CD44）+0.546*ΔCt（PTTG1-CD44）-0.061*ΔCt（RRM2-CD44））]。

优选的，所述生物标志物组包括ATP5E、PTTG1、RRM2和CD44。

进一步的，还包括提供肺结节癌风险生物标志物水平表示的报告。

进一步的，所述肺结节癌症风险生物标志物水平表示导出肺癌症风险评分，所述风险评分：

a.风险评分从两个不同基因ATP5E-CD44、PTTG1-CD44和RRM2-CD44之间的周期阈值C（t）差异中得出；

b.通过几何平均、多元线性判别分析或分布式梯度增强决策树机器学习从测量的血液生物标志物的值中导出；或

c.是每对生物标志物差异的倍数；

C（t）=1/[1+exp（-2.817+0.713*ΔCt（ATP5E-CD44）+0.546*ΔCt（PTTG1-CD44）-0.061*ΔCt（RRM2-CD44））]。

一种用于肺结节患者癌症风险评估的试剂盒，包括一种或多种用于测量TRIM25、GSTM3、KRT6B、ANAPC5、FOXN3、DCTN5、SAMHD1、ATP5E、GPX1、VDAC2、CP、HMGB3、PODXL2、RRM2、PSAT1、DNAJC12、CCNA2、CDCA3、CDC20、MAD2L1、CDKN3、HJURP、PTTG1、PPP1R14B、PAFAH1B3、FAM64A、C1ORF106、MDK、CAGE、SOK、 X2、BEX2、CD44、TACC1、FAP、INHBA、MYC、GADD45B、PGK1、TMPRSS4、MNX1、BUB1B、CCNB1、UBE2C、CENPE、ASRGL1中的一种或几种的表达水平的试剂。

一种用于肺结节患者癌症风险评估的的诊断系统，包括：

a.测量肺结节癌症风险生物标志物的平台系统，

b.计算癌症风险评分的计算表或计算机程序，以及

c.确定患者肺结节恶性风险是高风险还是低风险的指示。

进一步的，还包括测量肺结节癌症风险生物标志物水平表示的指令。

进一步的，所述诊断系统包含将肺结节癌症风险生物标志物表现转换为肺结节风险评分的指令，其中所述风险评分：

c.每对生物标志物差异的倍数；

一种从血浆样品中提取可用的mRNA以产生必要的qPCR数据的方法，包括以下步骤：

a.从血浆样品中分离mRNA，使用特异性引物进行预扩增，以及用于测量qPCR的C（t）的稀释度；

b.将每个生物标记的测量值与每个生物标记对的配对生物标记进行比较，其中差异表达指示患者具有高风险或低风险结节癌症风险，该测定进一步包括根据患者的这些生物标志物对差异确定肺结节癌症风险评分。

本发明的有益效果：本发明通过对基因表达生物标志物组含量的测定导出肺结节风险评分，用于辅助所观察到的肺结节的诊断和风险评估。这些基因表达表征试剂将与检测血浆中基因表达的测试系统一起包装在试剂盒中，如ABI QuantStudio系统，该系统测量生物标志物浓度以生成肺结节风险评分，该评分可用于区分良性肺结节和肺结节癌症。

附图说明

图1为用于基因特征训练和验证的多队列分析工作流程示意图。

图2为通过发现和验证集分配显示良性结节和癌症病例的基因对生物标志物分布。

图3为不同模型算法的ROC AUC比较。

图4为分类器在发现样本（n=89）和验证样本（n=64）上的性能。

图5为分配给发现集（A）、验证集（B）和组合集（C）的病例和对照的生物标志物ROC曲线。

图6为最终模型的散点图按疾病组预测了组合发现和验证集中受试者的疾病概率。

具体实施方式

为了便于理解本发明，下面将对本发明进行更全面的描述。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

本发明公开了血液/血浆/血清基因表达的标志物用于癌性肺结节的风险评估和诊断的用途。发明人已经发现并能够使用一组血浆基因表达生物标志物来计算肺结节风险评分，该评分可用于诊断并确定肺结节癌变的风险。还可以使用具有适当测定系统的试剂盒（如ABI QuantStudio 5）来确定生物标志物，以确定mRNA表达，从而得出肺结节风险评分，该评分可以单独使用或与额外的临床标准（如CT-scans）结合使用，以确定和确认癌症诊断。

发现血液中至少4种基因表达标记物（包括ATP5E、PTTG1、RRM2和CD44，但不限于与血液/血浆/血清中出现的肺癌症的发展和诊断相关）的血液蛋白生物标记物浓度能够利用qPCR或测序技术（如QuantStudio5或RNAseq仪器）将低风险肺结节患者与高风险肺结节病人分离，以精确测量血液生物标记物的浓度，从而得出肺结节风险评分。生物标志物基因包括但不限于TRIM25、GSTM3、KRT6B、ANAPC5、FOXN3、DCTN5、SAMHD1、ATP5E、GPX1、VDAC2、CP、HMGB3、PODXL2、RRM2、PSAT1、DNAJC12、CCNA2、CDCA3、CDC20、MAD2L1、CDKN3、HJURP、PTTG1、PPP1R14B、PAFAH1B3、FAM64A、C1ORF106、MDK、CAGE、SOX2、BEX2、CD44、TACC1、FAP、INHBA、MYC、GADD45B、PGK1、TMPRSS4、MNX1、BUB1B、CCNB1、UBE2C、CENPE和ASRGL1。该基因组最初由RNA-seq和微阵列数据生成，并使用发现和验证队列使用qPCR分析进行验证，如图1所示。

一种使用基因表达生物标志物的方法，该方法可用于区分肺结节的癌症风险，包括RNA、DNA序列和全基因组中的生物标志物。对于癌症风险评估，生物标志物是C（t）_ATP5E-C（t）_CD44, C（t）_PTTG1-C（t）_CD44, and C（t）_RRM2-C（t）_CD44基因表达的delta C（t）组合。

在某些实施方案中，这些生物标志物组合的一组用于区分具有可观察肺结节的患者的恶性肿瘤风险。用于肺癌癌症风险评估的生物标志物面板可以包括如所述的这些生物标志物中的最小值，以及所描述的额外基因。这将包括生物标志物的任何组合。较小的生物标志物面板足以区分表现较低的高风险和低风险患者，但更经济。然而，更大的面板可能会提供更详细的信息，并且可以在不同的区域人群中用于本发明的实践。

在二元评分系统中，一种基于计算肺癌癌症风险评分的方法，用于从上述生物标志物中区分高危患者和低风险患者。低风险评分表明患者的结节不太可能是癌性的。高风险评分表明患者的结节很可能是癌性的。

在某些情况下，临床参数与本文所述的生物标志物组合用于肺结节癌症风险的风险评估。在一个实例中，本发明包括用于确定患者的肺癌癌症风险评分加上其他癌症临床预测因子的方法。该方法包括测量当前护理标准的临床参数，包括肺结节的大小、性别、结节的位置、癌症家族史、吸烟史、部分固体结节类型、结节计数和穿刺。

肺癌癌症风险评分可以通过几何平均、多元线性判别分析（LDA）或分布式梯度决策树（GBDT）机器学习（如XGBoost）从测量的血液生物标志物的值中计算。在二元模型中，受试者操作特征（ROC）曲线可以从生物标志物组合或配对中得出。然后，可以通过本文所述的方法将肺癌癌症风险评分分类为低风险或高风险肺癌癌症临床评分。

在另一个方面，本发明包括使用本文所述的生物标志物面板和计算癌症风险评分的方法来计算具有可观察肺结节的患者的肺癌癌症风险的方法和程序。该方法包括1）从患者获得血浆样品，2）测量生物样品中每种生物标志物的RNA/DNA拷贝数或浓度，以及3）将每种生物标记物的水平与生物标志物各自的基因对值进行比较。配对值范围可以表示来自受试者的一个或多个样品（即全血或血浆）的生物标志物的水平，或者来自一个或更多患有癌症的受试者中的一个或者多个样品的生物标志物的水平。生物样品中生物标志物的水平与癌症患者受试者的参考值相比的差异表明患者是癌症的高危人群。在一个实施方案中，该方法还包括计算癌症风险评分的方法，以区分具有观察到的肺结节的高风险和低风险癌症患者。

生物标记物可以使用特异性引物和报告系统进行测量，以确定来自上述生物标记物和方法的生物标记物的基因表达（基因拷贝数）。例如，但不限于，进行定量PCR测定（qPCR）、逆转录酶定量PCR（RT-qPCR），基因微阵列、RNA或DNA测序（RNAseq/DNAseq）、三明治测定、磁性捕获、微球捕获、电泳印迹、表面增强拉曼光谱（SERS）、流式细胞术或质谱法，以确定这些生物标志物的拷贝数。在某些实施方案中，通过特异性DNA引物与生物标志物RNA的结合来测量生物标志物的拷贝数，随后进行逆转录和聚合酶链式反应，以用可检测的报告子如SYBR绿色染料等来确定生物标志物拷贝数。其中引物特异性结合生物标志物或生物标志物片段。

在某些情况下，通过引物靶向生物标志物来测量至少一种生物标志物，其中引物特异性结合生物标志物或生物标志物的片段，并通过PCR反应来确定生物标志物拷贝数。在某些实施方案中，引物选自由生物标志物的编码区（外显子）组成的序列。在一种情况下，至少一对引物选自特异性结合ATP5D的引物对、特异性结合CD44的引物对，特异性结合PTGG1的引物对和特异性结合RRM2的引物对。

本发明提供了肺癌症生物标志物和肺结节癌症风险生物标志物组。所谓“肺癌癌症风险生物标志物”，是指其在样本中的表现与恶性癌症风险表型相关的分子实体。例如，与整个肺结节队列相比，来自患有恶性疾病的风险低或高的个体的样本中，癌症风险/结果生物标志物可以有差异地表示，即以不同的水平表示。在某些情况下，生物标志物（如PTTG1）水平升高与高危恶性肺癌癌症表型相关。例如，样品中生物标志物的RNA拷贝数在与高风险表型相关的样品中可以是具有低风险表型的样品的1.5倍、2倍、2.5倍、3倍、4倍、5倍、7.5倍、10倍或更大，这通常代表在qPCR仪器中从较高的周期阈值C（t）移动到较低的C（t）。在其他情况下，生物标志物水平降低与肺癌癌症表型相关，例如CDC44。例如，与具有低风险表型的样品相比，与高风险表型相关的样品中的生物标志物的CDC44的RNA拷贝数可能少10%、少20%、少30%、少40%、少50%或多，这通常代表在qPCR仪器中从较低的时间C（t）移动到较高的C（t）。

肺结节癌症风险测定生物标志物可包括与癌症相关的蛋白质和肽及其相应的遗传序列，即RNA、DNA等。所谓“基因”或“重组基因”，是指包含编码蛋白质的开放读码框的核酸。

编码序列的边界由5'（氨基）末端的起始密码子和3'（羧基）末端的翻译终止密码子决定。转录终止序列可能位于编码序列的3'。此外，基因可任选地包括其天然启动子（即，在非重组细胞中，即天然存在的细胞中，基因的外显子和内含子可操作地连接的启动子）和相关调控序列，并且可能具有或可能不具有AUG起始位点上游的序列，并且可能包括或不包括非翻译前导序列、信号序列、下游非翻译序列、转录起始和终止序列、多聚腺苷酸化信号、翻译起始和终止序列、核糖体结合位点等。

本领域普通技术人员可以使用任何方便的统计方法，例如本领域已知的或本文工作实例中描述的方法，容易地识别在本主题方法中用作肺癌癌症面板的肺结节癌症风险生物标志物的其他组合。例如，可以通过组合用于肺癌癌症风险分类分析的遗传算法（GA）和所有配对（AP）支持向量机（SVM）方法来选择分析物的面板。预测特征是自动确定的，例如通过迭代GA/SVM，从而产生具有最佳分类性能的非常紧凑的非冗余肺部相关分析物集。虽然不同的分类器集合通常仅包含适度的重叠基因特征，但它们在提供肺癌癌症风险评估方面具有与上文和本文工作实例中描述的那些相似的准确度水平。

在本发明的一些方面，提供了用于获得受试者的恶性肺癌癌症风险生物标志物水平表示的方法。所谓肺癌癌症风险生物标志物水平表示，是指在诸如来自受试者的全血或血浆的生物样品中的一种或多种受试者肺癌癌症生物标志物（例如一组癌症生物标志物）的水平表示。术语“生物样品”包括从生物体中获得的各种样品类型，并可用于其他手段，如诊断、预后或监测测定。该术语包括生物来源的血液和其他液体样品或衍生自其的细胞及其后代。该术语包括在采购后以任何方式操纵的样品，例如通过试剂处理、溶解或富集某些成分。该术语包括临床样品，还包括细胞上清液、细胞裂解物、血清、血浆、生物流体和组织/FFPE组织样品。用于本发明方法的临床样品可以从各种来源获得，特别是血液样品。

因此，特别地，样本来源包括血浆或全血样本或制剂。在许多实施方案中，血浆是人类样品的合适的初始来源。在受试者测定中使用的样品通常是新鲜血浆。

当患者在CT扫描或其他临床成像方法下有可观察到的肺结节时，通常在临床就诊期间从患者身上获得受试者样本。

一旦获得样品，可以直接使用、冷冻或在适当的培养基中短期保存。通常，样本将来自人类患者。通常，合适的样本源来源于具有可观察肺结节的人类患者的血浆，尤其的，分子实体（即mRNA、DNA和蛋白质）可以被分析到血浆中。

受试者样品可通过多种方式进行处理，以增强一种或多种癌症生物标志物的检测。例如，在样品是结节的活组织检查的情况下，可以在分析之前从样品中去除连接的组织（非癌性）（例如，通过解剖）。这种治疗可用于降低使用亲和试剂检测肺癌癌症生物标志物水平的非特异性背景水平。还可以通过使用本领域熟知的程序（例如酸沉淀、醇沉淀、盐沉淀、疏水沉淀、过滤）浓缩样品来增强对癌症生物标志物的检测。在一些实施方案中，将测试样品和对照样品的pH调节至并保持在接近中性的pH。这种pH调节将防止复杂的形成，从而对样品中的生物标志物水平提供更准确的定量。

在实践受试者方法时，评估个体生物样本中肺结节癌症风险生物标志物的水平。受试者样本中一种或多种癌症风险生物标志物的水平可以通过任何方便的方法进行评估。例如，可以通过测量一种或多种寡核苷酸的水平/量来检测RNA生物标志物。可通过测量一个或多个癌症风险基因的一种或多种核酸转录物（例如mRNA）的水平/量来检测肺癌癌症风险基因表达水平。术语“评估”、“分析”、“测量”、“评估”和“确定”可互换地用于指代任何形式的测量，包括确定元素是否存在，以及包括定量和定性确定。评估可以是相对的，也可以是绝对的。

例如，可以通过在样品中检测一种或多种RNA/DNA或其片段的量或水平来评估至少一种癌症风险生物标志物水平，以得到拷贝数表示。本申请中使用的术语“RNA”和“核酸”是可互换的。“寡核苷酸”是指核酸（RNA或DNA序列）的聚合物，而不是指分子的特定长度。因此，RNA、DNA及其片段被包括在寡核苷酸的定义中。该术语还包括修饰的寡核苷酸，例如甲基化DNA、荧光团/猝灭剂连接的DNA、修饰的碱基RNA/DNA、DNA引物等。定义中包括例如含有一种或多种碱基类似物的寡核苷酸、具有取代键的寡核苷酸以及本领域已知的其他修饰，包括天然存在的和非天然存在的。

作为另一个例子，至少一种肺结节癌症风险生物标志物水平可以通过在患者样本中检测一种或多种RNA转录物或由感兴趣基因编码的片段的量或水平来评估，以获得核酸生物标志物表示。可以使用任何方便的方案来检测样品中核酸的水平。虽然检测核酸的各种方式是已知的，例如在差异基因表达分析中使用的方式，但用于生成生物标志物表示的一种代表性且方便的方案是基于阵列的基因表达谱分析方案。这样的应用是杂交测定，其中使用在待产生的生物标志物表示中显示待测定/分析的每个基因的“探针”核酸的核酸。在这些测定中，首先从被测定的初始核酸样品制备目标核酸样品，其中制备可以包括用标记物（例如，信号产生系统的成员）标记目标核酸。在靶核酸样品制备之后，样品在杂交条件下与阵列接触，从而在与附着于阵列表面的探针序列互补的靶核酸之间形成复合物。然后定性或定量地检测杂交复合物的存在。

可用于产生本发明方法中使用的生物标志物表示的特定杂交技术包括美国专利5143854中描述的技术；5,288,644; 5,324,633; 5,432,049; 5,470,710; 5,492,806; 5,503,980; 5,510,270; 5,525,464; 5,547,839; 5,580,732; 5,661,028; 5,800,992; 其公开内容通过引用并入本文；以及WO 95/21265；WO 96/31622；WO 97/10365；WO 97/27317；步骤373 203；以及EP 785 280。在这些方法中，如上所述，将一系列“探针”核酸与靶核酸接触，所述核酸包括用于正在测定其表达的每个表型决定基因的探针。在杂交条件下，例如严格的杂交条件下进行接触，然后去除未结合的核酸。本文所用的术语“严格的测定条件”是指与产生具有足够互补性的核酸结合对（例如，表面结合核酸和溶液相核酸）相容的条件，以在测定中提供所需水平的特异性，同时与在互补性不足的结合成员之间形成结合对以提供所需特异性不太相容。严格测定条件是杂交条件和洗涤条件的总和或组合（总和）。

杂交核酸的结果模式提供了关于已被探测的每个基因的表达的信息，其中表达信息是关于基因是否表达，以及通常在什么水平上表达，其中表达数据，即生物标志物表达（例如，以转录体的形式），可以是定性和定量的。

或者，可以采用基于非阵列的方法来定量样品中一种或多种核酸的水平，包括基于扩增方案的方法，例如基于聚合酶链式反应（PCR）的测定，包括定量PCR、逆转录PCR（RT-PCR）、实时PCR等。

当要检测蛋白质水平时，可以采用任何方便的评估蛋白质水平的方案，其中测定样品中一种或多种蛋白质的水平。例如，用于测定蛋白质水平的一种代表性且方便的方案是酶联免疫吸附测定（ELISA）。在ELISA和基于ELISA的测定中，一种或多种对感兴趣的蛋白质特异性的抗体可以固定在选定的固体表面上，优选表现出蛋白质亲和力的表面，例如聚苯乙烯微量滴定板的孔上。在洗涤以去除不完全吸附的物质后，用非特异性“阻断”蛋白涂覆测定板孔，该蛋白已知对测试样品是抗原中性的，例如牛血清白蛋白（BSA）、酪蛋白或奶粉溶液。这允许阻断固定表面上的非特异性吸附位点，从而减少由抗原非特异性结合到表面上引起的背景。在洗涤以去除未结合的阻断蛋白后，在有利于免疫复合物（抗原/抗体）形成的条件下，将固定表面与待测试的样品接触。这些条件包括用磷酸盐缓冲盐水（PBS）/Tweenor PBSATriton-X 100中的稀释剂如BSA或牛丙种球蛋白（BGG）稀释样品，这也有助于减少非特异性背景，并允许样品在约25℃-27℃的温度下孵育约2-4小时（尽管也可以使用其他温度）。孵育后，冲洗与抗血清接触的表面，以去除非免疫复合物。示例性的洗涤程序包括用诸如PBS/Tween、PBS/Triton-X 100或硼酸盐缓冲液的溶液洗涤。免疫复合物形成的发生和量然后可以通过使结合的免疫复合物经受对靶标具有不同于第一抗体的特异性的第二抗体并检测第二抗体的结合来确定。在某些实施方案中，第二抗体将具有相关的酶，例如尿素酶、过氧化物酶或碱性磷酸酶，其将在与适当的发色底物孵育时产生彩色沉淀。例如，脲酶或过氧化物酶缀合的抗人IgG可以在有利于形成免疫复合物的条件下使用一段时间（例如，在室温下在含PBS的溶液如PBS/Tween中孵育2小时）。在与第二抗体孵育并洗涤以除去未结合的物质之后，标记物的量被定量，例如，在脲酶标记物的情况下，通过与发色底物如尿素和溴甲酚紫孵育，或者在过氧化物酶标记物的情况下，通过2，2'-叠氮基二-（3-乙基-苯并噻唑啉）-6-磺酸（ABTS）和H₂O₂孵育。然后通过测量颜色产生的程度来实现量化，例如使用可见光谱分光光度计。

可以通过将样品结合到测定板上来改变上述格式。然后，将第一抗体与测定板一起孵育，然后使用对第一抗体具有特异性的标记的第二抗体检测结合的第一抗体。

固定一种或多种抗体的固体基质可由多种材料制成，形状多种多样，例如微量滴定板、微珠、量尺、树脂颗粒等。选择基质可使信噪比最大化，背景结合最小化，并易于分离和成本。可以以最适合所使用的基质的方式进行洗涤，例如，通过从储液器中取出珠或量油尺，排空或稀释储液器，如微量滴定板孔，或用洗涤溶液或溶剂冲洗珠、颗粒、色谱柱或过滤器。

或者，可以使用非ELISA方法来测量样品中一种或多种蛋白质的水平。代表性实例包括但不限于质谱法、蛋白质组学阵列、xMAP™微球技术、流式细胞术、蛋白质印迹和免疫组织化学。

所得数据提供了关于已被探测的每个生物标志物在样品中的水平的信息，其中所述信息是关于生物标志物是否存在以及通常在什么水平，并且其中所述数据可以是定性的和定量的。因此，在检测是定性的情况下，所述方法提供对目标生物标志物（例如核酸或蛋白质）是否存在于被测定的样品中的读取或评估，例如评估。在另一些实施方案中，所述方法提供对目标生物标志物是否存在于被测定的样品中的定量检测，即对目标分析物（例如，被测定样品中的核酸或蛋白质）的实际量或相对丰度的评估或评估。在这样的实施方案中，定量检测可以是绝对的，或者如果该方法是检测样品中的两种或多种不同分析物，例如目标核酸或蛋白质的方法，则可以是相对的。因此，当用于量化样品中的目标分析物，例如核酸或蛋白质时，术语“量化”可以指绝对或相对量化。可以通过包括一种或多种对照分析物的已知浓度并参考目标分析物的检测水平与已知对照分析物（例如，通过生成标准曲线）来实现绝对定量。可替换地，可以通过比较两种或多种不同的目标分析物之间的检测水平或量来实现相对定量，以提供两种或更多种不同分析物中的每一种的相对定量，例如相对于彼此。

一旦确定了一种或多种癌症生物标志物的水平，就可以以多种方式分析测量结果，以获得癌症风险生物标志物水平表示。

例如，可以单独分析一种或多种癌症生物标志物的测量结果，以制定肺结节癌症风险评分。如本文所用，“风险评分”是患者样本中一种或多种癌症风险生物标志物的标准化水平，例如患者样本中血清学mRNA浓度的标准化程度。可以通过本领域已知的多种方法中的任何一种生成概况。例如，每个生物标志物的水平可以相对于所选内务基因的表达、相对于整个面板的信号等进行log2转换和归一化。计算肺癌癌症风险分的其他方法对于普通技术人员来说是已知的。

作为另一个例子，可以对一组恶性肺癌癌症生物标志物的测量结果进行集体分析，以得出单个肺结节癌症风险评分。“风险评分”是指代表整个癌症小组中每个癌症风险生物标志物的加权水平的单一度量值。因此，在一些实施方案中，受试者方法包括检测样本中的肺癌癌症风险组的生物标志物水平，并基于肺癌癌症生物标志物的加权水平计算恶性肺癌癌症得分。可以通过本领域已知的用于计算生物标志物得分的多种方法和算法中的任何一种来计算患者样本的恶性肺癌癌症得分。例如，加权的生物标志物水平，例如通过例如将每个归一化的生物标志器水平乘以加权因子而加权的log2转换和归一化的生物标记物水平，可以被合计，并且在某些情况下，可以被平均，以得到代表所分析的癌症风险生物标志物组的单个值。

在某些情况下，加权因子，或简称为面板中每个生物标志物的“权重”，可能反映了样品中分析物水平的变化。例如，每个癌症生物标志物的分析物水平可以被对数转换并加权为1（对于在癌症中水平增加的那些生物标志物）或-1（对于在癌症中水平降低的那些生物标记物），以及增加的生物标志物之和与确定为获得肺癌癌症特征的减少的生物标志剂之和之间的比率。在其他情况下，权重可以反映每个生物标志物对肺结节癌症风险评估中生物标志物小组的特异性、敏感性和/或准确性的重要性。这样的权重可以通过任何方便的统计机器学习方法来确定，例如，可以使用从中获得样本的数据集的主成分分析（PCA）、线性回归、支持向量机（SVM）和/或随机森林。在某些情况下，每个生物标志物的权重由获得患者样本的数据集定义。在其他情况下，每个生物标志物的权重可以基于参考数据集或“训练数据集”来定义。

本领域普通技术人员可以通过使用基于计算机的系统，例如使用本领域已知的任何硬件、软件和数据存储介质，并使用便于此类分析的任何算法，容易地执行这些分析方法。例如，数据挖掘算法可以通过“云计算”、基于智能手机或基于客户端-服务器的平台等应用。

在某些实施方案中，仅评估一种生物标志物的表达，例如寡核苷酸水平，以产生生物标志物水平的表示。在另一些实施方案中，评估两种或多种，即一组生物标志物的水平。因此，在本主题方法中，评估样品中至少一种生物标志物的表达。在某些实施方案中，所进行的评估可以被视为蛋白质组的评估，因为该术语在本领域中被使用。

在一些情况下，确定或获得受试者的肺癌症生物标志物表示（例如肺结节癌症风险评分或肺癌症概况）的受试者方法还包括提供肺癌症生物标志物表示作为报告。因此，在一些情况下，受试者方法可以进一步包括生成或输出报告的步骤，该报告提供样本中的肺癌癌症生物标志物评估的结果，该报告可以以电子介质（例如，计算机监视器上的电子显示器）的形式提供，或者以有形介质（例如印刷在纸上或其他有形介质上的报告）的形式来提供。

当患者为高风险或低风险时，肺结节癌症风险生物标志物水平表示可用于评估肺结节癌症风险；即提供作为风险指标的癌症临床指征。例如，肺癌癌症生物标志物水平表示可用于作为受试者的风险决定因素，并具有额外的肺癌癌症临床标准。通过“如果个体患有恶性癌症的高风险或低风险，则添加生物标志物标志”，这意味着确定个体患上带有可观察肺结节的癌症的可能性。肺结节癌症生物标志物水平代表性和肺结节癌症风险评分可以与其他癌症临床标准一起预测恶性肺癌癌症的可能性。

例如，肺癌癌症风险表型测定元件可以是来自癌症高风险或低风险个体的样本，其可以用作给定受试者的生物标志物水平表示的实验测定中的参考/对照。作为另一个例子，肺癌癌症风险表型确定元件可以是代表低风险肺癌癌症状态的生物标志物水平表示，例如生物标志物概况或得分，并且可以用作解释给定受试者的生物标记物水平表示的参考/对照。表型测定元件可以是阳性参考/对照，例如，来自癌症患者的样品或其生物标志物水平表示。或者，风险表型确定元件可以是阴性参考/对照，例如，来自没有患癌症风险的健康肺结节患者的样品或生物标志物水平表示。风险表型确定元件优选地是相同类型的样品，或者如果生物标志物水平表示是从与用于生成被监测个体的生物标志物级别表示的样品相同类型的样本获得的。例如，如果正在评估个体的血浆，则表型确定元件优选为血浆。

在某些实施方案中，将所获得的生物标志物水平表示与单个表型确定元件进行比较，以获得关于正在进行癌症风险测试的个体的信息。在其他实施方案中，将所获得的生物标志物水平表示与两个或多个表型决定元件进行比较。例如，可以将获得的生物标志物水平表示与低风险参考和高风险参考进行比较，以获得关于癌症个体风险的确认信息。

可以使用任何方便的方法将获得的生物标志物水平表示与一个或多个表型确定元件进行比较，其中本领域技术人员已知多种方法。例如，qPCR技术人员将知道，可以通过例如将qPCR数据标准化为已知量的RNA的循环阈值C（t）、比较标准化值等来比较qPCR数据。比较步骤产生关于获得的生物标记物水平分布与对照/参考分布有多相似或不相似的信息，其中相似性/不相似性信息用于例如预测恶性肺结节的风险、初始肺癌癌症诊断后的结果和总体存活率。类似地，阵列领域的技术人员将知道，阵列轮廓可以通过例如比较表达轮廓的数字图像、表达数据的数据库等来进行比较。描述比较表达轮廓方式的专利包括但不限于美国专利6308170和6228575，其公开内容通过引用结合于此。上面还描述了比较生物标志物水平分布的方法。相似性可以基于相对生物标记水平、绝对生物标记水平或两者的组合。在某些实施例中，使用其上存储有程序的计算机来进行相似性确定，该程序被设计为接收从受试者（例如，从用户）获得的生物标志物水平表示的输入，确定与一个或多个参考简档或参考分数的相似性，并将肺结节癌症临床风险评估返回给用户（例如，实验室技术人员、医生、孕妇等）。下面描述本发明的计算机实现的方面的进一步描述。在某些实施方案中，相似性确定可以基于生物标志物水平表示（例如，癌症风险评分）与一系列表型确定元素（例如，一系列恶性癌症风险评分）的视觉比较，以确定最类似于受试者的参考风险评分。根据与所获得的生物标志物水平谱进行比较的表型测定元件的类型和性质，上述比较步骤产生关于所测定的细胞/体液的各种信息。因此，上述比较步骤可以产生对肺癌癌症风险的正/负预测。

在其他实施方案中，直接采用生物标志物水平表示，即不与表型确定元件进行比较，以基于生成的风险评分进行肺结节癌症风险评估。

本文所述的“报告”是一种电子或有形文件，包括提供与受试者评估及其结果相关的感兴趣信息的报告元素。在一些实施方案中，受试者报告至少包括肺癌症风险生物标志物表示，例如肺结节概况或肺结节癌症风险评分，如上文更详细讨论的。在一些实施方案中，受试者报告至少包括个体肺结节癌症风险评估。主题报告可以完全或部分以电子方式生成。受试者报告可以进一步包括以下一个或多个：1）关于测试设施的信息；2）服务提供商信息；3）患者数据；4）样本数据；5）评估报告，其可以包括各种信息，包括a）所采用的参考值和b）测试数据，其中测试数据可以包括例如蛋白质水平测定；6）其他功能。

报告可能包括有关检测设施的信息，以及哪些信息与进行样本采集和/或数据生成的医院、诊所或实验室有关。样本采集可以包括获得流体样本，例如血液、唾液、尿液等；来自受试者的组织样本，例如组织活检等。数据生成可以包括测量来自不同风险组的肺结节患者的生物标志物水平，即确诊为癌症的个体。该信息可以包括与例如测试设施的名称和位置、进行测定和/或输入输入数据的实验室技术人员的身份、进行和/或分析测定的日期和时间、存储样品和/或结果数据的位置、测定中使用的试剂（例如试剂盒等）的批号等有关的一个或多个细节。通常可以使用用户提供的信息来填充包含此信息的报告字段。

该报告可以包括关于服务提供商的信息，该服务提供商可以位于用户所在的医疗机构之外或医疗机构内。此类信息的示例可以包括服务提供商的名称和位置、审查者的姓名，以及在必要或期望的情况下，进行样本收集和/或数据生成的个人的姓名。具有此信息的报告字段通常可以使用用户输入的数据来填充，这些数据可以从预先编写脚本的选择中进行选择（例如，使用下拉菜单）。报告中的其他服务提供商信息可以包括关于结果和/或关于解释性报告的技术信息的联系信息。

报告可包括患者数据部分，包括患者病史（可包括，例如，年龄、种族、血清型、既往治疗和患者的任何其他特征），以及管理患者数据，如识别患者的信息（例如，姓名、患者出生日期（DOB）、性别、邮寄和/或居住地址、医疗记录号（MRN）、医疗机构的房间和/或床位号）、保险信息等），患者的医生或其他要求进行监测评估的卫生专业人员的姓名，以及如果与要求的医生不同，负责患者护理的医生的姓名（例如，初级保健医生）。

报告可包括样本数据部分，该部分可提供有关监测评估中分析的生物样本的信息，如从患者处获得的生物样本来源（如原发性肿瘤活检、邻近正常人或血浆等样本类型）、样本处理方式（如储存温度、准备方案）以及采集日期和时间。具有此信息的报告字段通常可以使用用户输入的数据来填充，其中一些数据可以作为预脚本选择提供（例如，使用下拉菜单）。报告可能包括一个结果部分。

该报告可包括评估报告部分，该评估报告部分可包括处理本文所述数据后生成的信息。解释性报告可以包括对癌症可能性的预测。解释性报告可以包括肺结节癌症风险的风险评估和可能的临床结果。解释性报告可以包括肺结节临床特征的特征。报告的评估部分也可以选择性地包括建议。例如，在结果表明可能发生恶性肺癌癌症的情况下，如本领域所建议的，建议可以包括额外的化疗、更频繁的复发测试、改变饮食、服用血压药物等。

还可以很容易地理解，报告可以包括额外的元素或修改的元素。例如，在电子版的情况下，报告可以包含指向内部或外部数据库的超链接，这些数据库提供有关报告中所选元素的更详细信息。例如，报告的患者数据元素可以包括到电子患者记录的超链接或用于访问这种患者记录的网站，该患者记录被保存在机密数据库中。后一个实施例可能对住院系统或临床环境感兴趣。当采用电子格式时，报告被记录在适当的物理介质上，例如计算机可读介质，例如计算机存储器、闪存驱动器、CD、DVD等。

很容易理解的是，报告可以包括上述所有或一些要素，前提是报告通常至少包括足以提供用户要求的分析的要素（例如，计算的肺结节癌症风险评分表示；治疗结果的预测）。

本发明还提供了用于实践一种或多种上述方法的试剂及其测定试剂盒。受试试剂及其测定试剂盒可以有很大的变化。感兴趣的试剂包括专门设计用于从样品中产生肺结节癌症风险生物标志物的上述生物标志物水平表示的试剂，例如一种或多种检测元件，例如用于检测核酸的寡核苷酸、用于检测体液中mRNA的抗体或肽等。在一些情况下，检测元件包括用于检测单个肺癌症生物标志物丰度的试剂；例如，检测元件可以是包括一个或多个检测元件的量尺、板、阵列或混合物，例如一个或更多个寡核苷酸、一组或更多组PCR引物、一种或更多种抗体等，其可以用于同时检测一种或多种癌症生物标志物的丰度。

另一种类型的此类试剂是探针核酸阵列，其中表示感兴趣的基因（生物标志物）。本领域已知各种不同的阵列形式，具有各种不同的探针结构、衬底组成和附着技术（例如，点印迹阵列、微阵列等）。

另一种专门用于生成基因（例如，癌症风险生物标志物基因）的生物标志物水平表示的试剂是设计用于选择性扩增此类基因的基因特异性引物的集合（例如，使用基于PCR的技术，例如，实时RT-PCR）。基因特异性引物及其使用方法描述于美国专利5994076中，其公开内容通过引用并入本文。

一种专门用于生成生物标志物水平表示的试剂，例如癌症风险评估生物标志物级别表示，是特异性结合生物标志物的抗体的集合，例如以ELISA格式、xMAP™微球格式、蛋白质组阵列上、悬浮液中，用于通过流式细胞术、蛋白质印迹、点印迹或免疫组织化学进行分析。使用这些抗体的方法在本领域中是众所周知的。这些抗体可以在溶液中提供。或者，它们可以预先结合到固体基质上，例如多孔培养皿的孔或xMAP微球的表面上。

在某些情况下，可以提供系统，例如qPCR仪器，例如AB QuantStudio 5。如本文所用，术语“系统”是指试剂的集合，然而，通过例如从相同或不同的来源购买试剂的集合来编译。在某些情况下，可以提供套件。如本文所用，术语“试剂盒”是指提供的试剂集合，例如一起出售的试剂。例如，样品核酸或蛋白质的基于核酸或抗体的检测可以分别与电化学生物传感器平台相结合，该平台将允许对这些生物标志物进行多重测定，用于个性化的癌症治疗。

本发明的系统和试剂盒可包括上述阵列、基因特异性引物集合或蛋白质特异性抗体集合。所述系统和试剂盒可以进一步包括在各种方法中使用的一种或多种附加试剂，例如用于产生靶核酸、dNTP和/或rNTP的引物，所述引物可以是预混的或分离的，一种或更多种唯一标记的dNTP和/或r NTP，例如生物素化的或Cy3或Cy5标记的dNTP，具有不同散射光谱的金或银颗粒，或其他合成后标记试剂，例如荧光染料的化学活性衍生物，酶，例如逆转录酶、DNA聚合酶、RNA聚合酶等，各种缓冲介质，例如杂交和洗涤缓冲液，预制探针阵列，标记的探针纯化试剂和组分，例如旋转柱等。，信号产生和检测试剂，例如标记的第二抗体、链霉亲和素-碱性磷酸酶偶联物、化学荧光或化学发光底物等。

受试者系统和试剂盒还可以包括一个或多个肺结节癌症风险表型确定元件，在许多实施方案中，该元件是参考或对照样品或生物标志物表示，例如，通过合适的实验或计算手段，可用于基于“输入”生物标志物水平概况（例如，已经用上述生物标志物确定元件确定的）进行肺癌癌症诊断。代表性的癌症风险表型确定元件包括来自已知具有结果信息的个体的样本、肺结节癌症风险评分和生物标志物水平表示的数据库，例如参考或对照概况或评分等，如上所述。

除了上述组件外，受试者工具包还将包括练习受试者方法的说明。这些说明书可能以各种形式存在于受试者试剂盒中，其中一种或多种可能存在于试剂盒中。这些指令可以以印刷信息的形式存在于适当的介质或基底上，例如印刷信息的一张或多张纸上、试剂盒的包装中、包装插入物中等。另一种方式是记录信息的计算机可读介质，例如软盘、CD等。可能存在的另一种手段是网站地址，该网站地址可以通过互联网访问被删除网站的信息。任何方便的方法都可以存在于试剂盒中。

实施例

材料和方法：

基因表达数据集：在发明人的研究中，利用各种公开的数据集来收集全面的基因表达信息。检索NIH基因表达综合（GEO）数据集以访问人类微阵列全基因组表达研究，而癌症基因组图谱（TCGA）程序数据集和基因型组织表达（GTEx）项目数据集专门用于与癌症和肺结节（恶性和良性）相关的RNA序列研究。发明人排除了非临床数据集，以确保数据的相关性。为了对每项研究中的不同阵列进行归一化，发明人采用了GC鲁棒多阵列平均（gcRMA）、RMA或正态指数背景校正等技术，然后进行分位数归一化。值得注意的是，在每项研究中，使用不同微阵列类型分析的队列被视为独立的数据集。

癌症患者验证队列、人口统计信息和临床标准。所有研究方案均经齐鲁医院机构审查委员会（IRB）伦理批准，确保遵守伦理准则，保护参与者的权利和福祉。血液样本是从确诊为癌症的患者身上采集的，而对照样本是从通过放射性成像检测到可观察到良性结节的同一组患者身上获取的。在基线时采集这些血液样本，并分离血浆进行进一步分析。值得注意的是，本研究中使用的血液样本仅从中国齐鲁医院获得。在他们参与之前，获得了所有患者的知情同意，为他们提供了有关研究的详细信息，并使他们能够就自己的参与做出知情决定。

公共数据集协同归一化。发明人使用COCONUT进行公共数据集规范化。ComBat只假设数据已经标准化，并且所有基因和样本的表达值都已经估计出来。在运行COCONUT之前，我们确保所有数据集都如上文基因表达数据集部分所述进行了规范化。COCONUT允许表达数据的共同标准化，而不会改变研究之间的基因分布，也不会对样本诊断产生任何偏见。它应用了ComBat经验贝叶斯归一化方法的修改版本，该方法假设仅在控制样本之间具有相等的分布。简言之，来自每个队列的对照在没有协变量的情况下进行ComBat共同归一化，并且为每个数据集的对照样本获取ComBat估计参数。然后将这些参数应用于每个数据集中的疾病样本，这使得所有样本假设相同的背景分布，同时在数据集中仍然保留每个数据集中控制样本和疾病样本之间的差异。在验证已发布的签名时，我们对所有19个数据集进行了联合归一化，并对所有数据集进行分析。然而，对于签名发现，将数据随机分配到两组中的一组（训练和保持验证），并使用COCONUT联合归一化对每组进行独立的批量校正。

样品制备、RNA分离和定量实时PCR。在每个参与者的组织活检进行诊断确认或手术之前，使用乙二胺四乙酸（EDTA）管从他们身上采集外周血样本。采集的血液样本立即进行处理以分离血浆。为了去除任何细胞碎片，将血样以1600xg离心10分钟。然后，将上清液进一步以16000xg离心10分钟。这个额外的离心步骤确保了从血浆中完全去除任何残留的细胞碎片。将分离的血浆仔细等分，并在-80℃的温度下储存，直到进一步处理以分离RNA。

根据制造商的方案，使用Trizol LS试剂（Invitrogen，CA，USA）从104名癌症患者和49名良性肿瘤患者获得的500µL人血浆中进行总RNA分离。通过使用生物分析仪2100（Agilent，Santa Clara，CA，USA）测量RNA完整性数（RIN）来评估分离的RNA的质量。然后将分离的RNA储存在-80℃下以备进一步使用。对于cDNA的逆转录，遵循来自TaKaRa（Shiga，Japan）的制造商的方案。

使用Applied Biosystem设备进行定量聚合酶链式反应（PCR），总反应体积为10μL（Thermo Fisher，Waltham，MA，USA）。定量实时PCR反应包括在95℃下进行10分钟的初始步骤，然后使用Mastercycler Realplex（Eppendorf）在95℃下进行40次变性循环15秒，在60℃下退火/延伸60秒。使用ΔCt方法评估mRNAs的表达，该方法涉及计算两个基因对之间的Ct值的差异：ΔCt=平均值Ct（基因1）-平均值Ct（基因2）。

统计分析：

微阵列使用Genome Studio软件导出微阵列原始表达数据进行分析。对原始数据进行了分位数归一化和log2缩放。使用平均表达值≥2倍背景水平的基因来开发分类面板和递归特征消除，并进行“留一”交叉验证。选择最准确区分良恶性结节的顶级探针作为血浆中实时qPCR验证的候选探针。

数据分析使用回顾性队列的血浆样本，通过实时qPCR验证基因特征。这个独立验证队列被分为一个训练集，包括29个良性和60个恶性结节，以及一个测试集，包括20个良性和44个恶性结节。

训练数据集分析通过接收操作特征（ROC）曲线、ROC曲线下面积（AUC）和95%特异性下的灵敏度来评估每个个体基因特征。使用八个机器学习模型来评估良性结节与恶性结节的区分性能。这些模型包括：套索、逻辑回归、弹性网（EN）、支持向量机（SVM）、随机森林（RF）、K近邻（KNN）、XGBoost（XGB）、多层感知器（MLP）。使用“留一”（LOO）交叉验证（CV）来评估分类准确性，并选择截止值以最大限度地减少总分类误差。

验证数据集分析使用从训练数据中获得的八个模型的验证集数据计算灵敏度、特异性和总分类准确度。

逻辑回归模型逻辑回归分类方法用于将一组基因对（GP）组合到分类器中，并计算每个样本的分类得分在0到1之间。样品的得分（Ps）测定如下：

P _S=1/[1+exp（-2.817+0.713*ΔCt（ATP5E-CD44）+0.546*ΔCt（PTTG1-CD44）-0.061* ΔCt（RRM2-CD44））]

如果PS小于或等于临界值，则将样品归类为良性，否则归类为癌症。

结果：

用于肺结节癌症风险评估的基因特征组开发的研究设计。首先，从公开的基因表达数据库（包括微阵列和RNA测序数据集）中收集了一个包括良性肺结节和恶性肺癌的大型队列。机器学习技术被用于分析这些数据集，识别良性结节和肺癌之间表现出显著差异表达的基因。在第二步中，使用实时qPCR在独立的血浆队列中进一步研究从第一步中选择的候选基因。测量了这些基因的表达水平，并根据它们在使用ROC AUC分析分离两组中的表现，确定了区分良性和恶性结节的最显著基因特征的子集。进入第三步，通过发现集和验证集对选定的基因签名进行验证。这一过程旨在完善和最终确定一个分类器面板，其中包括三对在良性和恶性结节之间表现出强大辨别力的基因。最后，在包括发现集和验证集的组合队列中测试了这种新型分类器的性能，该队列共包括49个良性结节和104个癌性结节。

推导用于区分良性和恶性肺结节的10个基因特征。为了发现全球适用于区分良性和恶性肺结节的差异基因表达特征，发明人实现了一个机器学习框架。该框架促进了从公共领域获得的综合多队列基因表达数据集的聚合和分析，如图1所示。发明人的数据集收集过程总共产生了22个数据集，包括4662个样本的大量样本。为了确保包含足够样本量的数据集，并明确比较恶性肿瘤和正常或良性组织，发明人进行了进一步的选择过程。结果，确定了10个数据集，并将其分为两组：训练组和保持验证组。

分析后，发明人在训练集中采用了严格的选择标准，考虑到错误发现率（FDR）≤1%和受试者工作特征曲线下面积（ROC AUC）≥0.8。随后，发明人采用了各种策略来识别一组简明的基因，这些基因可以有效地区分肿瘤和良性或正常组织。通过这一严格的过程，发明人鉴定出了10个基因特征，该特征在临床应用方面具有显著的潜力。该特征在训练和保持验证集中始终显示出更高的ROC AUC值，突出了其在区分恶性肿瘤和良性或正常组织方面的强大辨别力。考虑到10个基因签名的良好性能和简约性，发明人选择它进行进一步研究。

血浆队列的基因特征验证。10个基因特征包括9个在恶性肿瘤中过表达的基因（PODXL2、HMGB3、CDKN3、PSAT1、ATP5E、PTTG1、CDC20、CP和RRM2）和1个在恶性瘤中下调的基因（CD44）。为了验证从公共领域多队列分析中选择的这10个候选基因的表达，并开发分类小组，我们组装了一个独立的血浆队列，由49个良性结节和104名癌症患者组成。表1显示了血浆队列中受试者和结节的临床特征。所有样本都是根据其预期用途仔细选择的，特别是在3至40毫米的结节大小范围内。此外，良性和癌症样本都经过病理证实，以确保准确性。整个血浆队列进一步分为发现集（29个良性和60个癌症样本）和验证集（20个良性和44个癌症样本），以构建和验证分类面板。在分类面板的开发过程中，特别注意根据年龄、性别和结节大小在发现和验证集中成对匹配良性和癌症样本。实现这种细致的匹配过程是为了最大限度地减少任何潜在的偏差，并确保分类器性能的完整性和可靠性。

表1

使用实时q-PCR对从血浆样品中分离的RNA定量10个特征基因的表达水平。为了确保qPCR结果的准确标准化，发明人使用了2个基因的表达比率（测量为ΔCt），而不是使用参考基因。此外，特征基因对的比例被用于分类器的开发，以区分良性结节和癌症受试者。

为了确定从癌症中分离良性结节的最有效基因对，发明人比较了所有可能的基因比例组合。其中，我们发现三对基因表现出最显著的分化。图2显示了良性结节和癌症患者中每个基因对的ΔCt值的分布，用小提琴图表示。值得注意的是，与癌症样本相比，良性结节样本中的所有三个ΔCt值（ATP5E和CD44、PTTG1和CD44以及RMM2和CD44）始终较高。在训练和验证集中一致观察到这种明显的ΔCt差异，ROC AUC超过0.9，表明它们具有强大的辨别能力。

基因签名衍生分类器的推导和验证数据集中的性能。发明人随后的目标是评估从4个基因特征组合中获得的ΔCt值是否可以用于开发能够区分良性结节和肺癌的基因表达分类器。为了实现这一点，我们使用了八种不同的模型算法，包括Lasso、逻辑回归、EN、SVM、RF、KNN、XGB和MLP，来评估分离性能。图3和图5A显示了结果，表明逻辑回归模型产生了最佳的总体性能，在发现集中实现了0.96的ROC AUC。在表1中可以找到在训练数据集中拟合的逻辑回归模型的每个个体基因对的系数和重要性得分，提供了对每个基因对的贡献的详细见解。

使用包括20个良性结节和44个样本的验证队列（参见表2）来评估3个基因对分类器的性能。根据预期用途选择验证样本，并以与发现集相似的方式进行匹配。将发现集中使用的相同分类器和逻辑回归模型应用于验证样本进行分析。图3、图4和图5B-C提供了分类器在验证样本上的性能，以及在发现样本上的相应性能。分类器得分用于表示图4中的阴性预测值（NPV）和特异性（SPC）。与在发现样本中观察到的辨别能力类似，验证样本的ROC AUC也达到0.96，表明具有稳健的性能。

表2

在发现阶段选择表3中列出的三个截止值，并直接应用于验证样本或组合数据集。当使用0.6的临界值时，分类器对验证样本的阴性预测值（NPV）为90%，特异性（PPV）为90%。这些结果表明，在预测良性结节方面具有较高的准确性。

表3

为了评估新分类器评分与临床风险因素以及其他关键临床测量之间的潜在相关性，计算了Pearson相关系数（R）。值得注意的是，对于年龄、结节大小和吸烟史（包年）等临床风险因素，最大R平方值约为0.09。这些发现表明，分类器评分与这些临床因素之间的相关性要么不存在，要么非常弱。此外，分类器评分与BMI（体重指数）或孤立性肺结节（SPN）恶性肿瘤风险评分之间没有显著相关性。分类器评分与目前使用的临床风险因素（如年龄和结节大小）或现有的恶性肿瘤预测评分系统之间缺乏相关性是一个重要的观察结果。这表明分类器提供了关于肺结节疾病状态的独立信息，为增加临床价值提供了新的分子基础。

区分良性肺结节和肺癌的最终模型的设计。发明人继续评估逻辑回归模型在样本发现集和验证集上的性能。有趣的是，当将逻辑回归模型应用于验证集或发现集和验证集的组合时，没有观察到显著差异。基于这一观察结果，发明人利用联合发现和验证集的数据，建立了区分良性结节和恶性癌症样本的最终模型。最终模型显示出令人印象深刻的ROCAUC为0.97，如图5C所示。使用以下公式计算预测恶性肺癌癌症的概率得分：

P=1/[1+exp（-2.817+0.713*ΔCt（ATP5E-CD44）+0.546*ΔCt（PTTG1-CD44）-0.061* ΔCt（RRM2-CD44））]

在该方程中，ΔCt（ATP5E-CD44）、ΔCt、和ΔCt分别表示基因对ATP5E和CD44、PTTG1和CD44以及RRM2和CD44之间Ct值的差异。与每个基因对相关的逻辑回归系数（0.713、0.546和-0.061）有助于概率得分的计算。

使用“留一”交叉验证方法对最终模型的性能进行评估。通过使用0.6的分类器得分阈值，在49个良性结节中，有3个被错误分类，导致正确分类率为94%。同样，在104份癌症样本中，有6份被错误分类，正确分类率为94%（见图6）。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.用于测量以下生物标志物的量的检测试剂在制备用于确定受试者肺结节癌症风险的试剂盒中的用途，其特征在于，所述确定受试者肺结节癌症风险的方法包括：

a.测量受试者样品中的肺结节癌症风险生物标志物浓度，以确定每个肺结节癌症风险生物标志的表达水平；所述样品为血液、血清或血浆；

b.基于每个肺结节癌症风险生物标志物的表达水平获得所述肺结节癌症风险生物标志物水平表示，其中，所述肺结节癌症风险生物标志物为ATP5E、PTTG1、RRM2和CD44；

利用所述肺结节癌症风险生物标志物水平表示导出肺癌症风险评分，使用以下公式计算预测恶性肺癌癌症的概率得分：

在该公式中，ΔCt（ATP5E-CD44）、ΔCt（PTTG1-CD44）和ΔCt（RRM2-CD44）分别表示基因对ATP5E和CD44、PTTG1和CD44以及RRM2和CD44之间Ct值的差异， Ct表示生物标志物的表达水平。

2.根据权利要求1所述的用途，其特征在于，测量每个肺结节癌症风险生物标志物的RNA的表达水平。

3.根据权利要求1所述的用途，其特征在于，还包括提供肺结节癌风险生物标志物水平表示的报告。