CN110709936A

CN110709936A - 用于早期肺癌预后的基于血浆的蛋白质概况分析

Info

Publication number: CN110709936A
Application number: CN201880036985.XA
Authority: CN
Inventors: C·戈贝尔; C·劳登; T·C·龙
Original assignee: Lung Cancer Proteomics Co Ltd
Current assignee: Lung Cancer Proteomics Co Ltd
Priority date: 2017-04-04
Filing date: 2018-04-04
Publication date: 2020-01-17
Also published as: WO2018187496A3; US20240087754A1; AU2018248293A1; WO2018187496A8; EP3607089A2; US20190221316A1; US11769596B2; JP7250693B2; JP2020515993A; CA3058481A1; WO2018187496A2; WO2018187496A4; EP3607089A4

Abstract

本发明提供了能够用于非小细胞肺癌诊断的生物标志物和生物标志物的组合。将这些生物标志物的测量值输入分类系统，诸如随机森林，以协助确定个体具有非小细胞肺癌的可能性。还提供了包含用于检测生物标志物和生物标志物组合的试剂盒以及协助诊断非小细胞肺癌的系统。

Description

用于早期肺癌预后的基于血浆的蛋白质概况分析

背景技术

发明领域

本发明涉及使用生物标志物和其试剂盒检测、鉴定和诊断肺病，以及基于生物标志物协助确定肺病存在与否可能性的系统。更具体地，本发明涉及通过测量特异性生物标志物表达水平并将这些测量值输入分类系统诸如随机森林(Random Forest)诊断非小细胞肺癌(NSCLC)。

相关领域描述

人肺组织的病变

美国癌症协会有限公司(The American Cancer Society,Inc.)预计仅在2007年就有229,400例新的呼吸系统癌症病例和164,840人死于呼吸系统癌症。虽然当检测到癌症但是仍然是局部时，所有癌症病例的五年生存率为46％，但是肺癌患者的五年生存率仅为13％。相应地，只有16％的肺癌是在该疾病扩散之前发现的。根据癌细胞的病理学，肺癌通常分为两种主要类型。各类型根据转化为癌变的细胞的类型来命名。小细胞肺癌源自人肺组织中的小细胞，然而非小细胞肺癌通常涵盖所有非小细胞类型的肺癌。将非小细胞肺癌归为一类，因为对于所有非小细胞类型，其治疗方法通常相同。非小细胞肺癌(NSCLC)总计约占所有肺癌的75％。

肺癌患者低存活率的主要因素是因为肺癌难以早期诊断的事实。当前诊断肺癌或鉴定其在人类中的存在的方法仅限于进行X射线，计算机断层扫描(CT)扫描和类似的肺部检查以从物理上确定肿瘤的存在与否。肺癌的诊断通常仅应明显或已经存在很久的症状，以及在该疾病已在人体中存在足够久以产生可物理检测的质量之后而做出。

肺癌的诊断

痰细胞学检查和胸部X射线检查均未发现可用于肺癌早期检测的筛查。另一方面，低剂量计算机断层摄影术在应用于高风险人群(例如吸烟者)时显示出前景。Aberle等N.Engl.J.Med.(2011)365:395-409。但是，仍然难以获得用于定义可能从这类筛查中受益的高危人群的标准，并且该技术用于筛选更普通群体的效用尚不清楚。尽管通过CT扫描发现的大肺结节与恶性肿瘤的可能性明显关联，但绝大多数小结节(<7mm)表现为良性。MacMahon等Radiology(2005)237:395-400。因此，需要补充的筛查方法以协助肺癌的早期检测和诊断。

多元医学数据分析

在1980年代末和1990年代初，逻辑回归开始用于医学领域。在医学中使用逻辑回归的示例是创伤修正严重程度评分(TRISS)。参见，评估创伤护理：TRISS方法(EvaluatingTrauma Care:The TRISS Method).Boyd,CR,Tolson,MA和Copes,WS.1987,Journal ofTrauma,第27卷,第370-378页。TRISS在美利坚合众国的医院中用作预测创伤后医院内死亡率并进行创伤手术质量院内比较的方法。TRISS基于创伤事件后死亡率的逻辑回归模型，并将伤害严重性评分、修正创伤评分和年龄作为协变量。

逻辑回归对事件概率的对数(也称为事件的对数几率(log-odd)，定义为

其中p是事件发生的概率)建模。假设

逻辑回归模型可以表示为y＝β′x，其中x是协变量的向量而β是各协变量作用(effect)的向量。将该模型的似然函数最大化产生β的估值。逻辑辨别模型是将预测的概率转换为组标签的逻辑回归模型。

逻辑回归模型基于这样的假设：各协变量的作用相对于事件的对数几率都是线性的。Harrell,Frank.《回归模型策略(Regression Modeling Strategies)》.纽约:施普林格出版社(Springer),2001，第217页。处于分类的角度，各协变量相对于事件对数几率的线性可能足以实现高精度，即使是在测试集中也是如此；然而，违反该假设可能会导致模型严重错误地估计影响并因此导致性能不佳。

稳定的估值和可靠且准确的分类需要大量的变量平均事件发生数(events pervariable，EPV)(逻辑回归建模的性能：除了变量平均事件发生数，数据结构的作用(Performance of logistic regression modeling:beyond the number of events pervariable,the role of data structure).Courvoisier,DS等,2011,Journal ofClinical Epidemiology,第64卷,第993-1000页)。所需的EPV随着变量数量以及随着优势比(通过e^β估计)趋于一致而变化。当变量的数量等于25时，例如，Courvoisier等(引用如上，第997页)所示的那样，取决于协变量和事件概率之间的关系，EPV＝25可能不足以产生足够的力量并得出这样的结论：没有基于EPV的单一规则可以保证准确估计逻辑回归参数(引用如上，第1000页)。

分类系统

已经探索了各种分类系统，如用于数据分析和数据挖掘的机器学习方法，用以识别模式并在可能只不过是无关数据的其他信息存在的情况下提取大型数据库中包含的重要信息。学习机包括这样的算法，所述算法可以经训练以使用具有已知分类的数据进行概括。然后可以将训练的学习机算法应用于在结果未知的情况下预测结果，即根据所学习的模式对数据进行分类。机器学习方法，包括神经网络、隐马尔可夫模型、信念网络和基于内核的分类器如支持向量机器，能够用于特征在于大量数据、嘈杂模式并缺乏通用理论的问题。

对于模式分类、回归和聚类问题的许多成功方法都依赖于用于确定一对模式相似性的内核。这些内核通常针对可以表示为实数向量的模式定义。例如，线性内核、径向基内核和多项式内核都测量一对实向量的相似性。当数据可以最佳地以该方式表示为实数序列时，这类内核是合适的。内核的选择对应于特征空间中数据表示的选择。在许多应用中，这些模式具有更大结构化程度(degree of structure)。可以利用这些结构来提高学习算法的性能。机器学习应用中常见的结构化数据类型的示例包括字符串，文档，树，图表，如网站或化学分子，信号，如微阵列表达谱，光谱，图像，时空数据，关系数据和生化浓度等。

分类系统已用于医疗领域。例如，已经提出了使用各种计算机系统和分类系统如支持向量机诊断和预测医疗状况发生的方法。参见例如，美国专利号7,321,881；7,467,119；7,505,948；7,617,163；7,676,442；7,702,598；7,707,134；和7,747,547。这些专利中所描述的方法尚未显示出在诊断和/或预测肺病如非小肺癌中提供一致的高水平准确性。人们希望开发在疾病发展的早期确定肺癌存在的方法同样希望开发在最早出现临床明显症状之前诊断非小细胞肺癌的方法。

本发明优选实施方式的概述

本发明提供了这样的分类系统，所述分类系统使用评估对象生物标志物集的稳健方法，所述评估采用各种不同的分类器，如随机森林(random forests)。发明人已经部分地基于本发明的分类开发了在对象中进行生理学表征方法，所述方法包括首先获得对象的生理样品；然后确定该样品中多个生物标志物的生物标志物度量(measure)；并最后使用分类系统基于生物标志物度量对样品进行分类，其中样品的分类与对象的生理状态或状况或疾病状态的变化相关联。通常，分类系统包括机器学习系统，例如基于分类和回归树的分类系统。发明人的生理学表征方法，部分地基于本发明的分类，提供了关于对象中非小细胞肺癌存在与否或非小细胞肺癌发展阶段(例如，展的早期阶段(I期))的诊断指示。

对于获得其生物标志物度量的各对象，通常将生物标志物度量排布于向量中。除了特定的生物标志物度量之外，各向量还可以包括与对象关联的其他信息，包括性别，年龄，吸烟史，其他生物标志物的度量，对象健康史的其他特征等。训练向量集可以包括至少30个向量，至少50个向量或至少100个向量。

在本文所述任何实施方式的优选模式中，如果来自对象的任何重复样品被任何一个，任何两个，任何三个，任何四个，任何五个，任何六个，任何七个或任何八个分类器(至多全部分类器)归类为阳性，则认为该人类对象呈NSCLC阳性。在本文描述的任何实施方式的优选模式中，如果单个分类器的多个重复(例如，各分类器的所有重复，单个分类器的两个或更多个重复，单个分类器的三个重复)或者如果所用所有分类器的多个重复(例如，分类器集合中所用分类器数量间的两个重复，分类器集合中所用分类器数量间的三个重复，分类器集合中所用分类器数量间的四个重复)被归类为阳性，那么可以认为对象呈阳性。在本文描述的任何实施方式的优选模式中，对于测试数据集，以及对于各种可能的阳性总数(即，零到乘以重复数量的分类器的数量)，检测准确性，灵敏度，特异度，和正负值。在本文所述任何实施方式的优选模式中，然后可以基于所检查的准确性，灵敏度，特异度和正负值来确定返回阳性所需的阳性重复和/或分类器的数量。在本文所示任何实施方式的优选模式中，准确性，灵敏度，特异度，阳性预测值和/或阴性预测值高于0.7。在本文所示任何实施方式的优选模式中，准确性，灵敏度，特异度，阳性预测值和/或阴性预测值高于0.8。在本文所示任何实施方式的优选模式中，准确性，灵敏度，特异度，阳性预测值和/或阴性预测值中的至少一个、更优选两个或更多个高于0.9。在本文所示任何实施方式的优选模式中，准确性，灵敏度，特异度，阳性预测值和阴性预测值中的至少一个、更优选两个或更多个高于0.95。在本文所示任何实施方式的优选模式中，准确性，灵敏度，特异度，阳性预测值和阴性预测值中的至少一个、更优选两个或更多个高于0.98。

本发明的实施方式可以用于筛选人对象以确定所述人是否有可能患有NSCLC的增强方法，该增强包括使用根据本发明任一实施方式的方法对来自人对象的测试数据进行分类，其中所述人对象是表现出可以通过计算机断层摄影术扫描检测到的至少一个肺结节的对象本发明实施方式的另一用途是提供了用于筛选人对象以确定所述人是否有可能患有NSCLC的增强方法，其中使用本发明方法被归类为对NSCLC呈阳性的人对象通过低剂量的计算机断层摄影术对肺结节进行进一步测试。

在一模式中，本发明提供了将测试数据分类的方法，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述方法包括：(a)在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；(b)使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示(electronicrepresentation)，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和(c)使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类，其中所述生物标志物集包含选自下组的至少九(9)种生物标志物：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。

在另一模式中，本发明提供了对测试数据进行分类的方法，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述方法包括：(i)使用至少一个处理器，访问电子储存的训练数据向量集，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；(ii)使用所述电子储存的训练数据向量集训练分类系统的电子表示；(iii)在至少一个处理器处接收测试数据，所述测试数据包括人测试对象生物标志物集的多个生物标志物度量；(iv)使用至少一个处理器评估测试数据，所述评估使用分类系统的电子表示来进行；和(v)输出对所述人测试对象的分类，所述分类是基于所述评估步骤的关于所述对象非小细胞肺癌存在或发展可能性的分类，其中，所述生物标志物集包含选自下组的至少九(9)种生物标志物：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。

在优选的实施方式中，测试数据包括两个或更多个重复数据向量，其各自包含来自人对象的生理样品中的多个生物标志物的生物标志物度量的个别测定(individualdetermination)，在这种情况下，如果重复数据向量中的任一个根据分类系统中任一个分类器被归类为对NSCLC呈阳性，那么可以将样品归类为可能存在NSCLC的发展。任选地，测试数据和各训练数据向量还包括选自下组的至少一个其他特征：个人的性别、种族、民族和/或国籍、年龄和吸烟状况。

本发明各种模式的生物标志物集可以包括4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32或33种生物标志物。

生物标志物度量与生理样品中选自下组的生物标志物的相应浓度水平成比例：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、CYFRA-21-1、MIF、sICAM-1、SAA或它们的组合，所述生理样品是生物流体。或者，生物标志物度量可以与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白、IL-2、IL-10和NSE。在另一其他实施方式中，生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白、IL-2和IL-10。在另一其他实施方式中，生物标志物与选自下组的生物标志物相应的浓度水平成比例：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、抵抗素、MPO、NSE、GRO、CEA、CXCL9、MIF、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB或它们的组合，并且生理样品是生物流体。在另一其他实施方式中，生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白和IL-2。在另一其他实施方式中，生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1和瘦蛋白。在另一其他实施方式中，生物标志物与选自下组的生物标志物的相应浓度水平成比例：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO、CEA、CXCL9、IL-2、SAA、PDFG-AB/BB或它们的组合，并且生理样品是生物流体。在另一其他实施方式中，生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB和MMP-7。

本发明的方法还包括确定来自对象的生理样品中的生物标志物度量。通常，各种生物标志物是肽，蛋白质，携带翻译后修饰的肽和蛋白质，或其组合，并且生物流体是血液，血清，血浆或其混合物。在本发明的任何模式的优选形式中，分类系统是随机森林，并且优选地，随机森林分类器包括5、10、15、20、25、30、40、50、75或100个个体树(individualtree)。

通常，在本发明的方法中，对象是人，可以是女性或男性。在本发明的优选实施方式中，对象表现出可通过计算机断层摄影术扫描检测到的至少一种肺结节。例如，该方法可以进一步包括通过低剂量计算机断层摄影术测试肺结节。在其他实施方式中，对象具有患NSCLC的风险，和/或该方法可以进一步包括治疗所述对象NSCLC的步骤。在本发明的一个特别优选的实施方式中，对象(或患者)是45岁或更年长，是长期吸烟者，已经诊断出肺中有不确定的结节，或其组合。

在一特别优选的模式中，本发明提供了对测试数据进行分类的方法，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述方法包括：(a)在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；(b)使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各所述分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和(c)使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类，其中所述生物标志物集包含选自下组的至少八(8)种生物标志物：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白、IL-2、IL-10和NSE。

在其他模式中，本发明提供了用于对测试数据进行分类的系统，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述系统包括：与电子存储装置(electronic storage means)偶联的至少一个处理器，其包括分类器的电子表示，所述分类器经过采用电子储存训练数据向量集的训练，根据前述权利要求中的任一项，所述处理器设置成接收测试数据，所述测试数据包括人测试对象中生物标志物组的多个生物标志物度量，所述至少一个处理器进一步设置成使用一个或多个分类器的电子表示评估测试数据并基于评估结果输出对人测试对象的分类，其中所述生物标志物集包括选自下组的至少九(9)种生物标志物：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。或者，本发明提供了在其上储存有可执行程序的非暂时性计算机可读存储介质，其中，所述程序指令微处理器执行下述步骤：(i)接收对象生理样品中多个生物标志物的生物标志物度量；和(ii)使用分类系统和至少一个处理器，基于生物标志物度量对样品进行分类，其中所述样品的分类指示对象中非小细胞肺癌(NSCLC)存在或发展可能性，其中所述生物标志物集包括选自下组的至少九(9)种生物标志物：IL-8,MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。

本发明的方法可以进一步包括：(a)从对象获得生理样品；和(b)测量样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。该方法可以包括测量样品中至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或21种生物标志物的集。生物标志物度量可以指示非小细胞肺癌。生物标志物度量可以指示早期非小细胞肺癌，优选I期。在多个实施方式中，对象可能具有患非小细胞肺癌的风险。

本发明的方法可以进一步包括在获自对象的生理样品中测量样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4以产生生物标志物度量。该方法可以包括测量样品中至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或21种生物标志物的集。生物标志物度量可以指示非小细胞肺癌。生物标志物度量可以指示早期非小细胞肺癌，优选I期。在多个实施方式中，对象可能具有患非小细胞肺癌的风险。

在多个实施方式中，测量生物标志物度量可以通过以下方式测量：放射-免疫检测，酶联免疫吸附试验(ELISA)，Q-Plex^TM多重试验，液相色谱-质谱(LCMS)，流式细胞术多重免疫检测，高压液相色谱，其伴用通过可见光或紫外光吸光度进行的辐射或光谱检测，质谱定性和定量分析，western印迹，一维或二维凝胶电泳，其伴用通过检测放射性、荧光或化学发光探针或核进行的定量可视化，基于抗体的检测，其伴用吸收或荧光光度法，通过多种化学发光报告系统的任一种的发光进行的定量，酶促试验，免疫沉淀或免疫捕获试验，固相和液相免疫检测，定量多重免疫检测，蛋白质阵列或芯片，平板试验，印刷阵列免疫检测或其组合。在优选的实施方式中，可以通过免疫检测测量生物标志物度量。

该发明还提供了用于诊断I期非小细胞肺癌的方法，其包括：(a)从对象获得生理样品；(b)通过免疫检测测量样品中选自下组的四种至三十三种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4；(c)在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；(d)使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和(e)使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类。在一些实施方式中，分类系统可以选自下组：随机森林，AdaBoost，朴素贝叶斯(Naive Bayes)，支持向量机(Support Vector Machine)，LASSO，岭回归(Ridge Regression)，神经网，遗传算法，弹性网(Elastic Net)，梯度增强树(Gradient Boosting Tree)，贝叶斯神经网络(Bayesian Neural Network)，k-最近邻(k-Nearest Neighbor)或其集合。生物标志物可以是肽，蛋白质，携带翻译后修饰的肽和蛋白质，携带翻译后修饰的蛋白质或其组合。生理样品可以是全血，血浆，血清或其组合。

本发明还提供了用于诊断I期非小细胞肺癌的方法，其包括在获自对象的生理样品中通过免疫检测测量样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4；(c)在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；(d)使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和(e)使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类。在一些实施方式中，分类系统可以选自下组：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。生物标志物可以是肽，蛋白质，携带翻译后修饰的肽和蛋白质，携带翻译后修饰的蛋白质或其组合。生理样品可以是全血，血浆，血清或其组合。

在许多实施方式中，用于检测多个生物标志物的方法可包括：(a)从对象获得生理样品；和(b)测量样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。生物标志物度量可以指示非小细胞肺癌。生物标志物度量可以指示早期非小细胞肺癌，任选地为I期非小细胞肺癌。生物标志物度量可能不指示哮喘，乳腺癌，前列腺癌，胰腺癌或其组合。许多实施方式中，患者可能具有患非小细胞肺癌的风险。

在许多实施方式中，用于检测多个生物标志物的方法可以包括在获自对象的生理样品中测量样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。生物标志物度量可以指示非小细胞肺癌。生物标志物度量可以指示早期非小细胞肺癌，任选地为I期非小细胞肺癌。生物标志物度量可能不指示哮喘，乳腺癌，前列腺癌，胰腺癌或其组合。许多实施方式中，患者可能具有患非小细胞肺癌的风险。

至少四种生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1、SAA、IL-2和PDGF-AB/BB。至少四种生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1和SAA。至少四种生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO-Pan、CEA、CXCL9/MIG、SAA、IL-2和PDGF-AB/BB。

在多个实施方式中，该集可以包括至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或21种生物标志物。

在多个实施方式中，生物标志物可以是肽，蛋白质，携带翻译后修饰的肽，携带翻译后修饰的蛋白质或其组合。

在多个实施方式中，生理样品可以是全血，血浆，血清或其组合。

在多个实施方式中，该方法可以进一步包括：(a)在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；(b)使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和(c)使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类。

在许多优选实施方式中，分类系统可以选自随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合中的一种或多种算法。

本发明还提供了通过测量对象中生物标志物集的表达水平在疾病发展早期确定非小细胞肺癌存在性的方法，其包括：通过免疫检测确定生理样品中生物标志物集的生物标志物度量，其中生物标志物集包括选自下组的至少四种生物标志物：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4；在分类系统中使用所述生物标志物度量就所述对象的非小细胞肺癌存在或发展对所述样品进行分类。

在许多实施方式中，至少四种生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1、SAA、IL-2和PDGF-AB/BB。

在许多实施方式中，至少四种生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1和SAA。

在许多实施方式中，至少四种生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO-Pan、CEA、CXCL9/MIG、SAA、IL-2和PDGF-AB/BB。

在任一前述实施方式中，该集可以包括至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或19种生物标志物。

在任一前述实施方式中，分类系统可以选自下组：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。

在本发明任一前述实施方式中，生物标志物可以是肽，蛋白质，携带翻译后修饰的肽，携带翻译后修饰的蛋白质或其组合。

在本发明任一前述实施方式中，生理样品可以是全血，血浆，血清或其组合。

在本发明任一前述实施方式中，生物流体可以是全血，血浆，血清，痰，尿液，汗液，淋巴和肺泡灌洗液。

本文所提供的方法和系统通常能够以超过90％的准确性(例如，总测试量上的总正确率)诊断和预测肺部病变(例如，癌性)。这些结果相比当前可用于诊断和预测非小细胞肺癌的方法提供了显著的进步。

附图简要说明

图1A-B描述了33、19和13种生物标志物的ROC曲线。这表明这两种模型在NSCLC(图1A)和非NSCLC癌症(图1B)之间具有良好的区分能力。

发明详述

本发明涉及使用生物标志物检测、鉴定和诊断肺病的各种方法。这些方法涉及确定特异性生物标志物的生物标志物度量，并在分类系统中使用这些生物标志物度量来确定个体患非小细胞肺癌的可能性。本发明还提供了试剂盒，其包括用于检测这些生物标志物的检测剂，或用于确定这些生物标志物的生物标志物度量的工具(means)，作为用于协助确定非小细胞肺癌可能性的系统的组件。通过测量患者血浆中八十二种选定的生物标志物表达水平鉴定示例性生物标志物，所述患者来自已经证明出对早期肺癌具有诊断潜力的群体。实施例1中详述了该方法。

本文描述了采用这样算法的体外诊断多元指数试验(IVDMIA)，所述算法使用多个蛋白质生物标志物以及患者的人口统计数据产生了对于早期非小细胞肺癌存在“是”或“否”的定性单一评分分类器。在该实示例中所描述的IVDMIA测试可用于针对在初步诊断测试(即CT扫描)期间发现肺部具有结节(不清楚结节是否癌变时)的患者的辅助风险分层模型。该测试可以协助医生选择适当的后续非小细胞肺癌(NSCLC)诊断程序。例如，可以使用此测试筛查具有发展出非小细胞肺癌的高风险个体，如四十五岁以上的吸烟者。

定义

如本文所用，“生物标志物”或“标志物”泛指可以客观地测量为生物系统生理状态的特征指标的生物分子。为了本公开的目的，生物分子包括离子，小分子，肽，蛋白质，携带翻译后修饰的肽和蛋白质，核苷，核苷酸和多核苷酸，包括RNA和DNA，糖蛋白，脂蛋白，以及这些类型分子的各种共价和非共价修饰。生物分子包括对于生物系统功能天然的，特征的和/或必不可少的这些实体中的任一种。生物标志物的大多数是多肽，尽管它们也可以是mRNA或修饰的mRNA，其代表表达为多肽的基因产物的翻译前形式，或者它们可以包括多肽的翻译后修饰。

本文所用“生物标志物度量”术语泛指与能够用于表征疾病存在与否的生物标志物有关的信息。这类信息可以包括这样的测量的值，其与浓度成比例，或者以其他方式提供组织或生物流体中生物标志物表达的定性或定量指示。各生物标志物可表示为向量空间中的维度，其中各向量是向量空间中的多维向量并且包括与特定对象相关联的多个生物标志物度量。

本文所使用“分类器”泛指机器学习算法，如支持向量机，AdaBoost分类器，惩罚逻辑回归，弹性网，回归树系统，梯度树增强系统，朴素贝叶斯(

Bayes)分类器，神经网，贝叶斯神经网络，k-最近邻分类器和随机森林。本发明考虑了使用任何列出的分类器的方法以及多于一个分类器的组合的用途。

如本文所用“分类系统”泛指执行至少一个分类器的机器学习系统。

本文所使用“子集”是适当的子集，而“超集”是适当的超集。

本文所用术语“对象”泛指任何动物，但是优选哺乳动物，例如，人。在许多实施方式中，对象是患有肺病或具有患肺病风险的人患者。

如本文所用“生理样品”泛指来自生物流体和组织的样品。生物流体包括全血，血浆，血清，痰，尿液，汗液，淋巴和肺泡灌洗液。组织样品包括来自实体肺组织或其他实体组织的活检物，淋巴结活检组织，转移灶的活检物。获得生理样品的方法在本领域中有所描述。

本文所用“检测剂”泛指特异性检测本文所述生物标志物的试剂和系统。检测剂包括试剂，诸如抗体，核酸探针，适体，凝集素或其他试剂，其对特定标志物或多种标志物具有特定亲和力，足以区分特定标志物和可能存在于感兴趣样品中的其他标志物，和系统，诸如传感器，包括利用如上所述的结合的或以其他方式固定的试剂的传感器。

本文所用“分类和回归树(CART)”泛指基于递归划分数据空间来创建决策树以便优化某些度量标准(通常是模型性能)的方法。

如本文所使用的，“AdaBoost”泛指一种套袋方法(bagging method)，该套袋方法通过前次迭代时产生的误差来迭代拟合CART重新加权观测值(observation)。

本文所使用“假阳性(FP)”泛指这样的错误，其中算法测试结果在实际上不存在疾病时指示疾病存在。

本文所使用“假阴性(FN)”泛指这样的错误，其中算法测试结果在实际上存在疾病时指示疾病不存在。

本文所用“遗传算法”泛指模拟用于优化功能(例如，模型性能)的遗传突变的算法。

本文所用“试验内精度”反映了使用各单个血浆样品平板内测量值的试验的可重复性。通过将个体血浆的所有重复的平均均值(M)MFI除以所有重复的标准偏差(SD)并乘以100计算试验内％CV，％CV＝(SD/M)*100。较低浓度可能导致较差的精度。

本文所用“试验间精度”反映了使用来自各个体血浆样品的不同平板、天数和操作员的测量值的试验的可重复性。通过将来自所有运行的个体血浆的所有重复的平均MFI除以所有重复的标准偏差(SD)并乘以100计算试验间％CV，％CV＝(SD/M)*100。较低浓度可能导致较差的精度。

本文所用，“L1范数(Norm)”是向量的元素的绝对值的和

本文所用，“L2范数(Norm)”是向量元素的平方之和的平方根。

本文所用“检测极限(LOD)”由空白的平均中值测量值加上2SD计算，LOD＝M+2SD。该值小于或等于LLOQ并且不一定是可以量化的。

本文所用“定量下限(LLOQ)”是可以合适的精度和准确性定量确定的样品中分析物的最低浓度。在大多数情况中，LLOQ超过LOD，但两个值可能相等。用于LLOQ的确定的参数在20％CV和±20％(80-120％)的回收范围之内。

本文所用“变异系数百分比(％CV)”如下计算：标准偏差(SD)除以平均值(M)并以百分比表示。

本文所用“阴性预测值(NPV)”是真阴性(TN)数量除以真阴性(TN)数量加假阴性(FP)数量，TP/(TN+FN)。

本文所用“阳性预测值(NPV)”是真阳性(TP)数量除以真阳性(TP)数量加假阳性(FP)数量，TP/(TP+FP)。

本文所用“精度”用于表示在一系列测量值之间的分散程度(spread)并包括重复性(试验内)和再现性(试验间)。

本文所用“感知器(Perceptron)”指基于观测值的向量和一组权重的点积来分离观测值的组的方法。

本文所使用“神经网(Neural Net)”指将感知器样的对象链接在一起以创建分类器的分类方法。

本文中所用“LASSO”泛指用于在对回归系数向量的L1范数约束的情况下进行线性回归的方法。

本文所使用的“随机森林”泛指基于来自模型训练的数据集的样品来拟合CART的套袋方法。

本文所用“岭回归”泛指用于在对回归系数向量的L2范数具有约束的情况下进行线性回归的方法。

本文中所用“弹性网”泛指用于以下述约素进行线性回归的方法，所述约素包括回归系数向量的L2范数和L1范数的线性组合。

本文所用“灵敏度”是NSCLC患者阳性结果的概率。灵敏度的计算方法是：真阳性(TP)数量除以实际NSCLC患者总数，或者真阳性(TP)数量加假阴性(FN)数量；灵敏度＝TP/(TP+FN)。

本文所用“特异度”是患者不患有NSCLC的概率。特异度的计算方法是：真阴性(TN)数量除以实际非NSCLC患者总数，或者真阴性(TN)数量加假阳性(FP)数量；特异度＝TN/(TN+FP)。

本文所用“标准偏差(SD)”是个别数据点(即在重复组中)中的分散程度(spread)以反映单个测量值的不确定性。

本文所用“训练集”是用于训练和开发机器学习系统(诸如本发明的算法)的样品集。

本文所使用“真阴性(TN)”是在实际上不存在疾病时指示疾病不存在的算法测试结果。

本文所使用“真阳性(FP)”是在实际上存在疾病时指示疾病存在的算法测试结果。

本文所用“定量上限(ULOQ)”是可以合适的精度和准确性定量确定的样品中分析物的最高浓度。用于ULOQ的确定的参数在20％CV和±20％(80-120％)的回收范围之内。

本文所用“验证集”是这样的样品集，所述样品集为盲式研究并且用于确认根据本发明研发的算法的功能性。这也被称之为盲测集。

确定生物标志物度量

生物标志物度量是通常与表达产物(通常是蛋白质或多肽)的定量测量值有关的信息。本发明考虑了在蛋白质水平(其可以包括翻译后修饰)确定生物标志物度量。特别地，本发明考虑了确定生物标志物浓度的变化，反映在转录水平，翻译，转录后修饰或蛋白质降解程度或范围的增加或降低，其中这些变化与特定疾病状态或疾病发展相关联。

正常对象表达的许多蛋白质在患有肺病如非小细胞肺癌的对象中以不同程度(更大或更小)表达。本领域技术人员将理解的是，大多数疾病在多种不同的生物标志物中表现出变化。因此，疾病可以通过多种标志物的表达模式来表征。确定多个生物标志物的表达水平有助于观察表达模式，并且这类模式比检测个体生物标志物提供了更灵敏和更准确的诊断。模式可以包括一些特定生物标志物的异常升高，同时也包括其他特定生物标志物的异常降低。

根据本发明，以确保样品中生物标志物度量与收集样品的对象中该生物标志物的浓度成比例的方式从对象收集生理样品。进行测量，从而使测量的值与样品中生物标志物的浓度成比例。选择满足这些要求的采样技术和测量技术在本领域普通技术范围内。

本领域技术人员将理解的是，对于个体生物标志物，用于确定生物标志物度量的各种方法为本领域所知。参见，《仪器分析方法》(Instrumental Methods of Analysis)，第七版，1988。这种测定可以多重或基于基质的形式进行，如多重免疫检测。

确定生物标志物度量的许多方法为本领域所知。用于这类测定的方式包括但不限于，放射-免疫检测，酶联免疫吸附试验(ELISA)，Q-Plex^TM多重试验，液相色谱-质谱(LCMS)，流式细胞术多重免疫检测，高压液相色谱，其伴用通过可见光或紫外光吸光度进行的辐射或光谱检测，质谱定性和定量分析，western印迹，一维或二维凝胶电泳，其伴用通过检测放射性、荧光或化学发光探针或核进行的定量可视化，基于抗体的检测，其伴用吸收或荧光光度法，通过多种化学发光报告系统的任一种的发光进行的定量，酶促试验，免疫沉淀或免疫捕获试验，固相和液相免疫检测，蛋白质阵列或芯片，平板试验，使用具有结合亲和力的分子的试验，所述亲合力允许分辨例如适体和分子印迹聚合物，和通过任何其它合适技术进行的生物标志物浓度的任何其他定量分析测定，以及任何所述检测技术或仪器的仪器致动(instrumental actuation)。用于确定生物标志物度量的特别优选的方法包括印刷阵列免疫检测。

确定生物标志物度量的步骤可以通过本领域已知的任何方式进行，特别是本文讨论的那些方式。在优选的实施方式中，确定生物标志物度量的步骤包括用抗体进行免疫检测。本领域技术人员将能够容易地选择用于本发明的合适抗体。选择的抗体优选对感兴趣的抗原具有选择性(即，对特定生物标志物具有选择性)，对所述抗原具有高结合特异性，并与其他抗原具有最小交叉反应性。可以确定抗体结合感兴趣的抗原的能力，例如，通过已知方法如酶联免疫吸附试验(ELISA)、流式细胞术和免疫组织化学。此外，抗体对感兴趣的抗原应具有相对较高的结合特异性。可以通过已知方法确定抗体的结合特异性，如免疫沉淀法或通过体外结合试验，如放射免疫检测(RIA)或ELISA。提供了用于选择能够以高结合特异性和最小交叉反应性结合感兴趣的抗原的抗体的公开方法，例如，于美国专利号7,288,249中。

在优选的实施方式中，可以使用单分子阵列形式。在该方法中，使用标准免疫吸附试验试剂捕获单一蛋白质分子并将其标记于珠。将数以千计的珠(带有或不带有免疫偶联物)与酶底物混合并装入个体毫微微升大小的孔中，并用油密封。对各珠的荧光团浓度进行计数以确定其是否与靶分析物结合。这类方法的公开，例如，提供在美国专利号8,236,574中。

指示肺病的生物标志物的生物标志物度量可以用作分类系统的输入，所述分类系统包括本文所述的分类器，以单独或组合形式。各生物标志物可表示为向量空间中的维度，其中各向量由与特定对象相关联的多个生物标志物度量组成。因此，向量空间的维数对应生物标志物集的大小。可以在各种诊断和预后方法中使用多个生物标志物的生物标志物度量的模式。本发明提供了这类方法。示例性的方法包括使用分类器，诸如支持向量机，AdaBoost，惩罚逻辑回归，回归树系统，朴素贝叶斯分类器，神经网，k-最近邻分类器，随机森林或其任意组合。

分类系统

本发明尤其涉及基于多种连续分布的生物标志物预测肺部病变为癌性。对于使用分类器(例如，支持向量机，AdaBoost，惩罚逻辑回归，回归树系统，朴素贝叶斯分类器，神经网，k-最近邻分类器，随机森林或其任意组合)的一些分类系统，预测可以是一个多步骤过程(例如，两步过程，三步过程等)，预测可以是多步骤过程(例如，两步过程、三步过程等)。

如本文所用，所述分类系统可以包括计算机可执行软件，固件，硬件或其各种组合。例如，分类系统可以包括对处理器的引用和支持数据存储。此外，分类系统可以在彼此为本地或远程的多个设备或其他组件上实现。分类系统可以在集中式系统中实现，或者处于其他可扩展性方面实现为分布式系统。而且，对软件的任何述及都可以包括非暂时性计算机可读介质，当其在计算机上执行时使计算机进行一系列步骤。

本文所述分类系统可以包括数据存储，如网络可访问存储，本地存储，远程存储或其组合。数据存储可以利用价廉的磁盘(“RAID”)，磁带，磁盘，存储区域网络(“SAN”)，互联网小型计算机系统接口(“iSCSI”)SAN，光纤通道SAN，通用网际网路档案系统(“CIFS”)，网络连接存储(“NAS”)，网络文件系统(“NFS”)或其他计算机可访问存储的冗余阵列。在一个或多个实施方式中，数据存储可以是数据库，如甲骨文(Oracle)数据库，微软(Microsoft)SQL Server数据库，DB2数据库，MySQL数据库，赛贝斯(Sybase)数据库，面向目标的数据库，分层数据库或其他数据库。数据存储可以利用平面文件结构来存储数据。

在第一步中，使用分类器描述预定的数据集。这是“学习步骤”并且对“训练”数据进行。

训练数据库是反映多个人的多个生物标志物度量的计算机实施的数据存储，其与关于各对应人疾病状态的分类相关联。存储的数据的格式可以是平面文件，数据库，表或本领域已知的任何其他可检索的数据存储格式。在示例性实施方式中，测试数据储存为多个向量，各向量对应于个人，各向量包括多个生物标志物的多个生物标志物度量以及关于所述人疾病状态的分类。通常，各载体包含多个生物标志物度量中各生物标志物度量的条目。训练数据库可以链接到网络，诸如互联网，从而使其内容可以由授权的实体(例如，人用户或计算机程序)远程检索。或者，训练数据库可以位于网络隔离的计算机中。

在第二步(其是任选步骤)中，将分类器应用于“验证”数据库中，并观察准确性的各种度量，包括灵敏度和特异度。在示例性实施方式中，仅将训练数据库的部分用于学习步骤，而训练数据库的其余部分用作验证数据库。在第三步骤中，将来自对象的生物标志物度量提交至分类系统，所述分类系统输出针对该对象计算出的分类(例如，疾病状态)。

本领域已知几种用于分类的方法，包括使用分类器，如支持向量机，AdaBoost，决策树，贝叶斯分类器，贝叶斯信念网络(Bayesian belief network)，朴素贝叶斯分类器，k-最近邻分类器，案例推理(case-based reasoning)，惩罚逻辑回归，神经网，随机森林或其任意组合(参见例如，Han J和Kamber M,2006,第6章,《数据挖掘，概念和技术》(DataMining,Concepts and Techniques),第2版.爱思唯尔(Elsevier):阿姆斯特丹.)。如本文所述，可以在分类系统中使用任何分类器或分类器的组合。

分类器

有许多可能的分类器可用于数据。作为非限制性的示例并如下所述，分类器，诸如支持向量机，遗传算法，惩罚逻辑回归，LASSO，岭回归，朴素贝叶斯分类器，分类树，k-最近邻分类器，神经网，弹性网络，贝叶斯神经网络，随机森林，梯度增强树和/或AdaBoost可用于对数据进行分类。如本文所讨论的，数据可以用于训练分类器。

分类树

分类树是具有内建特征选择的易于解释的分类器。分类树以这种方式递归地分割数据空间，以此方式使来自各子空间中一个类别的观测值的比例最大化。

递归地分割数据空间的过程产生二叉树，条件是在各顶点测试。通过跟踪树的分支直到到达叶来对新观测值进行分类。在各叶处，将一个概率分配给属于给定类别的观测值。具有最高概率的类别是新观测值被分类到的类别。

分类树本质上是决策树，其属性以统计学语言来表示。它们具有很高的灵活性，但是非常嘈杂(相较于其他方法，误差的差异很大)。

本文讨论的用于实现分类树的工具可用于统计学软件计算语言和环境R。例如，版本1.0-28的R软件包“树”，包括用于创建，处理和利用分类树的工具。

随机森林

分类树通常比较嘈杂。随机森林试图通过采集许多树的平均值来降低这种噪音。结果是相较于分类树，分类器的误差具有减小的方差。

要种植森林，使用以下算法：

1.对于b＝1至B，其中B是待种植于森林的树的数量，

a.提取自举样品(bootstrap sample)¹.

b.在自举样品上种植分类树T_b。

2.输出

集。该集是随机森林。

为了使用随机森林对新的观测值进行分类，使用随机森林中的各分类树对新观测值进行分类。新观测值在分类树中最常被归类到的类型是随机森林将新观测值归类到的类型。

随机森林减少了分类树中存在的许多问题，但以可解释性(interpretability)为代价。

本文讨论的用于实现随机森林的工具可用于统计学软件计算语言和环境，R。例如，版本4.6-2的R软件包“随机森林”，包括用于创建，处理和利用随机森林的工具。

AdaBoost(自适应增强)

AdaBoost提供了基于各对象测量值的一个k维向量(称之为k元组)将n个对象各自分类为两种或更多种²的疾病类别的方式。AdaBoost采用了一系列“弱”分类器并将它们结合起来创建了一个高级分类器，所述“弱”分类器虽然比随机预测性能更好，但性能较差³。AdaBoost所用的弱分类器是分类和回归树(CART)。CART将数据空间递归地划分为多个区域，在这些区域中，位于该区域内的所有新观测值都被分配了特定类别标签。AdaBoost根据数据集的加权形式构建一系列CART，所述数据集的加权形式的权重取决于前一迭代中分类器的性能(Han J和Kamber M,(2006).《数据挖掘，概念和技术》(Data Mining,Conceptsand Techniques),第2版.爱思唯尔(Elsevier):阿姆斯特丹)。

使用分类系统对数据进行分类的方法

本发明提供了对获自个体的数据(测试数据，即生物标志物度量)进行分类的方法。这些方法涉及准备或获得训练数据，以及使用包括至少一个上述分类器的分类系统之一对获自个体的测试数据(相较于训练数据)进行评估。优选的分类系统使用分类器，如学习机器，包括例如支持向量机(SVM)，AdaBoost，惩罚逻辑回归，朴素贝叶斯分类器，分类树，k-最近邻分类器，神经网，随机森林和/或其组合。分类系统根据测试数据输出对个体的分类。

对于本发明特别优选的是用于分类系统的集成方法，其结合了多个分类器。例如，集成方法可以包括SVM，AdaBoost，惩罚逻辑回归，朴素贝叶斯分类器，分类树，k-最近邻分类器，神经网，随机森林或其任意组合，以便做出有关疾病病理学的预测(例如，NSCLC或正常)。开发了集成方法以利用各分类器提供的益处，以及各血浆样品的重复测量值。

对于多个样品，获得各对象血浆中各生物标志物的生物标志物物度量。通常，收集血浆样品并且获得各样品完整的生物标志物度量。可以将各对象预测为具有疾病状态(例如，NSCLC或正常)，其基于各重复测量值(例如，双重复，三重复)使用包括至少一个分类器的分类系统，从而产生多个预测(例如，四个预测，六个预测)。在本发明的优选模式中，如果至少一个预测是NSCLC并且所有其他预测都预测该对象是正常的，那么集成方法可以预测该对象患有NSCLC。如果分类器中只有一个预测对NSCLC呈阳性，那么做出预测对象患有NSCLC的决定，从而使集成方法尽可能的保守。换言之，该测试旨在偏向鉴定对象为患有NSCLC，从而使假阴性的数量最小化，假阴性是比假阳性错误更严重的错误。如果至少两个、或至少三个、或至少四个、或至少五个，多达所有预测对NSCLC呈阳性，那么集成方法可预测对象患有(例如)NSCLC。

测试数据可以是任何生物标志物度量，如多个生物标志物的血浆浓度测量值。在一实施方式中，本发明提供了将测试数据分类的方法，所述测试数据包括生物标志物度量，所述生物标志物度量是生物标志物集中各项的多个血浆浓度度量，包括：(a)访问电子存储的训练数据向量集，各训练数据向量或k元组代表个人并包括针对各重复的该对应人的生物标志物度量(即，各生物标志物集的血浆浓度度量)，所述训练数据向量还包括关于各对应人的疾病状态的分类；(b)使用电子存储的训练数据向量集来训练本文所述的分类器或分类器集合的电子表示；(c)接收测试数据，所述测试数据包括人测试对象的多个血浆浓度度量；(d)使用本文所述分类器和/或分类器集合的电子表示来评估测试数据；和(e)输出对人测试对象的分类，其基于所述评估步骤。在另一实施方式中，本发明提供了将测试数据分类的方法，所述测试数据包括生物标志物度量，所述生物标志物度量是生物标志物集中各项的多个血浆浓度度量，包括：(a)访问电子存储的训练数据向量集，各训练数据向量或k元组代表个人并包括针对各重复对应人的各生物标志物集的生物标志物度量，如血浆浓度度量，所述训练数据向量还包括关于各对应人的疾病状态的分类；(b)使用电子存储的训练数据向量集来建立分类器或分类器集合；(c)接收测试数据，所述测试数据包括人测试对象的多个血浆浓度度量；(d)使用分类器来评估测试数据；和(e)基于所述评估步骤输出对人测试对象的分类。或者，可以对所有重复(或其任何组合)进行平均以产生针对各对象的各生物标志物的单一值。根据本发明的输出包括以人可读的形式在电子显示器中显示关于人测试对象的分类的信息。

关于疾病状态的分类可以是疾病状态的存在与否。根据本发明的疾病状态可以是肺病，如非小细胞肺癌。

训练向量集可以包括至少20、25、30、35、50、75、100、125、150或更多个向量。

应该理解的是，对数据进行分类的方法可以用在本文所述的任何方法中。特别地，本文所述分类数据的方法可以用于生理学表征方法(部分地基于本发明的分类)以及用于诊断肺病诸如非小细胞肺癌的方法中。

使用减少数量的生物标志物对数据进行分类

本发明还提供了对涉及减少的生物标志物集的数据(如获自个体的测试数据)进行分类的方法。也就是说，可以对训练数据进行减量(thinned)，以排除除了针对选定生物标志物子集的生物标志物度量子集以外的所有子集。同样地，测试数据可以限于来自相同的选定生物标志物集的生物标志物度量的子集。

生物标志物可以选自下组：bNGF、CA-125、CEA、CYFRA21-1、EGFR/HER1/ErBB1、GM-CSF、颗粒酶B、Gro-α、ErbB2/HER2、HGF、IFN-a2、IFN-b、IFN-g、IL-10、IL-12p40、IL-12p70、IL-13、IL-15、IL-16、IL-17A、IL-17F、IL-1a、IL-1b、IL-1ra、IL-2、IL-20、IL-21、IL-22、IL-23p19、IL-27、IL-2ra、IL-3、IL-31、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IP-10、I-TAC、瘦蛋白、LIF、MCP-1、MCP-3、M-CSF、MIF、MIG、MIP-1a、MIP-1b、MIP-3a、MMP-7、MMP9、MPO、NSE、OPG、PAI-1、PDGF-AB/BB、PDGF、RANTES、抵抗素、SAA、sCD40-配体、SCF、SDF-1、SE-选择素、sFas配体、sICAM-1、RANKL、TNFRI、TNFRII、sVCAM-1、TGF-α、TGF-β、TNF-α、TNF-β、TPO、TRAIL、TSP1、TSP2、VEGF-A、VEGF-C和其组合。

生物标志物可以选自下组：IL-4、sEGFR、瘦蛋白、NSE、MCP-1、GRO-pan、IL-10、IL-12P70、sCD40L、IL-7、IL-9、IL-2、IL-5、IL-8、IL-16、LIF、CXCL9/MIG、HGF、MIF、MMP-7、MMP-9、sFasL、CYFRA21-1、CA125、CEA、sICAM-1、MPO、RANTES、PDGF-AB/BB、抵抗素、SAA、TNFRI、sTNFRII和其组合。

生物标志物可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1、SAA和其组合。

生物标志物的集可以选自下组：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO-Pan、CEA、CXCL9/MIG、IL-2、SAA、PDGF-AB/BB和其组合。

在一实施方式中，本发明提供了将测试数据分类的方法，所述测试数据包括生物标志物度量，所述生物标志物度量是生物标志物集中各项的多个血浆浓度度量，包括：(a)访问电子存储的训练数据向量集，各训练数据向量代表个人并包括针对对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包括关于该对应人的疾病状态的分类；(b)由生物标志物集选择生物标志物子集；(c)使用来自电子存储的训练数据向量集的生物标志物子集的数据来训练学习机器(如本文所述的分类器或分类器集合)的电子表示；(d)接收测试数据，所述测试数据包括与步骤(a)中生物标志物集相关的人测试对象的多个血浆浓度度量；(e)使用学习机器的电子表示来评估测试数据；和(f)基于所述评估步骤输出对人测试对象的分类。

本文所述的方法、试剂盒和系统可以涉及确定所选多个生物标志物的生物标志物度量。在优选的模式中，该方法包括确定实施例中所述生物标志物特定生物标志物的子集的生物标志物度量。或者，该方法包括确定实施例中所述生物标志物的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32或32种特定生物标志物的子集的生物标志物度量。或者，该方法包括确定实施例中所述生物标志物的至少8、9、10、11、12或13种特定生物标志物的子集的生物标志物度量。或者，该方法包括确定实施例中所述生物标志物的至少14、15、16、17、18、19、20或更多种(例如，33种)特定生物标志物的子集的生物标志物度量。或者，本文所述方法、试剂盒和系统可以使用生物标志物的特定子集(例如，至少13、15、19或33种生物标志物)，以及来自生物标志物另一子集的一种或多种生物标志物(例如，13、15、19或33种生物标志物)。

同时确定其他生物标志物的生物标志物度量是否与感兴趣的疾病相关联在本发明的考虑之内。确定这些其他生物标志物度量将不会阻止根据本发明对对象进行分类。然而，其度量包括在本发明任何方法的训练数据和测试数据中的生物标志物最大数量可以是，例如6种不同的生物标志物，10种不同的生物标志物，13种不同的生物标志物，15种不同的生物标志物，18种不同的生物标志物，20种不同的生物标志物或33种不同的生物标志物。本领域技术人员将理解的是，应当限制生物标志物的数量，以避免由于过度拟合而导致的不准确预测。可以通过使用本文所述的减少方法来确定生物标志物的子集。实施例中描述了生物标志物的特定子集的简化模型。

在优选模式中，生物标志物物选自计算的子集，其包含贡献最高模型拟合度量的生物标志物。只要包括这些生物标志物，本发明就不排除包括不一定有贡献的一些其他生物标志物。只要模型是如本文所述设计的，在分类模型中包括这类其他生物标志物度量也不会排除对测试数据的分类。在其他实施方式中，针对对象确定不超过4、5、6、7、8、9、10、12、15、20、25、30、35、40或50种生物标志物的生物标志物度量，并且将相同数目的生物标志物用于训练阶段。

在另一种模式中，选定的生物标志物选自计算的子集，对模型拟合的测量贡献最小的生物标志物已经由该计算的子集中去除。只要包括这些选定的生物标志物，本发明就不排除包括一些不必要的其他生物标志物。只要模型是如本文所述设计的，在分类模型中包括这类其他生物标志物度量也不会排除对测试数据的分类。在其他实施方式中，针对对象确定不超过4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、31、32、33、34、35、40或50种生物标志物的生物标志物度量，并且将相同数目的生物标志物用于训练阶段。

应该理解的是，使用减少的生物标志物集或子集对数据进行分类的方法可以用在本文所述的任何方法中。特别地，本文所述使用减少数量的生物标志物分类数据的方法可以用于生理学表征方法(部分地基于本发明的分类)以及用于诊断肺病诸如非小细胞肺癌的方法中。除了减少数量的生物标志物，还可以添加生物标志物。这些其他生物标志物可能会或可能不会有助于或增强诊断。

肺病

本发明提供了诊断非小细胞肺癌的方法。这些方法包括确定本文所述多个生物标志物的生物标志物度量，其中所述生物标志物指示非小肺癌的存在或发展。例如，本文所述生物标志物的生物标志物度量可用于协助确定非小肺癌发展的程度，癌前病变的存在，或非小肺癌的分期。例如，使用本文所述生物标志物度量的方法可以用于诊断早期(I期)非小细胞肺癌。而且，生物标志物度量可能不指示哮喘，乳腺癌，前列腺癌，胰腺癌或其组合。

在特定实施方式中，对象选自表现出非小细胞肺癌的一种或多种症状的那些个体。症状可能包括咳嗽，呼吸急促，喘息，胸痛和咯血；向下传播到手臂外侧的肩部疼痛或导致声音嘶哑的声带麻痹；可能导致吞咽困难的食道浸润。如果较大的气道被阻塞，则可能会发生部分肺萎陷并引起感染并导致脓肿或肺炎。转移至骨骼可能会产生极大的疼痛。转移到大脑可能会导致神经系统症状，包括视力模糊，头痛，癫痫或通常与中风相关的症状，如身体部位无力或感觉丧失。肺癌通常会产生这样的症状，所述症状由肿瘤细胞产生激素样的物质导致。NSCLC中常见的副肿瘤综合症是产生甲状旁腺激素样物质，其将导致血钙升高。

诊断非小细胞肺癌的方法

本发明涉及如下所述在各种群体中的个体中诊断非小细胞肺癌的方法。通常，这些方法依赖于确定本文所述特定生物标志物的生物标志物度量，并使用包括本文所述分类器或分类器集合的分类系统对生物标志物度量进行分类。

A.确定普通群体

本发明提供了诊断对象中非小细胞肺癌的方法，其包括：(a)获得对象的生理样品；(b)确定所述样品中多个生物标志物的生物标志物度量(如本文所述)；(c)使用分类系统基于生物标志物度量对样品进行分类，其中样品的分类指示对象中非小细胞肺癌的存在或发展。

在优选的实施方式中，本发明提供了诊断对象中非小细胞肺癌的方法，其包括确定对象的生理样品中多个生物标志物的生物标志物度量，其中多个标志物的表达模式指示非小细胞肺癌或与非小细胞肺癌疾病状态(即临床或诊断阶段)的变化关联。优选地，基于训练数据的分析经由机器学习算法，如本文所述的分类器或分类器的集合，来选择多个生物标志物。训练数据将包括许多对象的多个生物标志物度量，以及针对个别对象的疾病分类，以及任选地，对象的其他特征，如性别，种族、民族，国籍，年龄，吸烟史，和/或工作经历在另一个优选实施方式中，表达模式与对象患有或可能患有非小细胞肺癌的可能性增加关联。表达模式可以通过本领域已知的用于模式识别的任何技术来表征，如本文所述描述为分类器和/或分类器集合的那些。多个生物标志物可以包括实施例中所述生物标志物的任何组合。

在一实施方式中，对象具有患非小细胞肺癌的风险。在另一实施方式中，对象选自展现出非小细胞肺癌的一种或多种症状的那些个体。

B.男性群体的确定

本发明提供了诊断男性对象中非小细胞肺癌的方法。用于这些实施方式的方法与上述的那些相似，除了对于训练数据和样品而言，对象是男性。

C.女性群体的确定

本发明提供了诊断女性对象中非小细胞肺癌的方法。用于这些实施方式的方法与上述的那些相似，除了对于训练数据和样品而言，对象是女性。

D.肺结节的补充分析和治疗方法

在优选模式中，本发明的分类方法可以与计算机断层摄影术联用以提供用于筛选和早期检测NSCLC的增强程序。在一些实施方式中，将本文所述的分类方法之一应用于来自对象的一个或多个生理样品中的多个生物标志物的生物标志物度量，所述对象具有通过CT扫描检测到的至少一个肺结节。在特定实施方式中，对象具有至少一个肺结节，直径为6-20mm。将样品分类为NSCLC或正常的可以协助最终诊断表征此类患者。在其他实施方式中，将分类方法应用于样品之后，将其样品被分类为NSCLC的那些对象选择，用于通过CT扫描进行进一步测试，并且根据针对“高风险”方案而非“低风险”患者的方案治疗这类患者中检测到的任何结节。用于增强筛选的优选分类方案是使用重复采样(例如，双重复，三重复)的集合分类系统，并将这样的患者认为是“高风险”，所述患者的至少一个重复样品被本文所述的分类器或分类器集合分类为“NSCLC”。

在其他实施方式中，本发明提供了基于本文所述任何分类方法的输出的治疗方法。例如，在一实施方式中，本发明提供在使用本文所述任何分类方法分类“NSCLC”后治疗对象NSCLC的方法。此外，如前述段落所述，本发明包括基于诊断的治疗方法，所述诊断使用本文所述分类方法结合其他分析方法(例如，CT扫描)开发。

设计表征系统的方法

E.普通群体

本发明还提供了用于设计用于诊断非小细胞肺癌的系统的方法，其包括：(a)选择多个生物标志物；(b)选择用于确定所述多个生物标志物的生物标志物度量的方法；和(c)设计系统，所述系统包括用于确定生物标志物度量的方法以及用于分析生物标志物度量的方法，以确定对象患有非小细胞肺癌的可能性。此外，本文所述生物标志物度量可避免指示哮喘，乳腺癌，前列腺癌，胰腺癌或其组合。

本发明还提供了用于设计用于诊断对象中非小细胞肺癌的系统的方法，其包括：(a)选择多个生物标志物；(b)选择用于确定所述多个生物标志物的生物标志物度量的方法；和(c)设计系统，所述系统包括用于确定生物标志物度量的方法以及用于分析生物标志物度量的方法，以确定对象患有非小细胞肺癌的可能性。

在上述方法中，步骤(b)和(c)可以选择性地通过以下方式执行：(b)选择用于检测所述多个生物标志物的检测剂，和(c)设计包括所述用于检测多个生物标志物的检测剂的系统。

F.男性群体

本发明还提供用于设计用于协助诊断男性对象中肺病的系统的方法。用于这些实施方式的方法类似于上述方法。

G.女性群体

本发明还提供用于设计用于协助诊断女性对象中肺病的系统的方法。用于这些实施方式的方法类似于上述方法。

分类系统

本发明提供了协助进行本发明方法的系统。示例性分类系统包括用于存储训练数据集和/或测试数据集的存储设备和用于执行学习机器(如本文所述的分类器或分类器集合)的计算机。该计算机还可经操作以用于从数据库中收集训练数据集，预处理训练数据集，使用预处理的测试数据集来训练学习机器并作为对经训练的学习机器的测试输出的接收的响应，后处理测试输出以确定测试输出是否是最佳解决方案。这类预处理可以包括，例如，目视检查数据以检测并去除明显错误的条目，通过除以适当的标准量对数据进行标准化，并确保数据具有用于相应算法的适当形式。示例性系统还可包括通信装置，用于由远程源接收测试数据集和训练数据集。在这类情况下，计算机可用于在对训练数据集进行预处理之前将训练数据集存储于存储装置，并在对训练数据集进行预处理之前将测试数据集存储于存储装置。示例性系统还可以包括用于显示后处理的测试数据的显示装置。示例性系统的计算机可以进一步用于进行上述各附加功能。

本文所用术语“计算机”应被理解为包括使用至少一个存储器的至少一个硬件处理器。至少一个存储器可以存储一组指令。指令可以永久或临时地存储在计算机的一个或多个存储器中。处理器执行存储在一个或多个存储器中的指令以处理数据。指令集可以包括进行一个或多个特定任务(如本文所述的那些任务)的各种指令。用于进行特定任务的这类指令集可以被表征为程序，软件程序或简单地软件。

如上所述，计算机执行存储在一个或多个存储器中的指令以处理数据。例如，该数据处理可以响应于一个或多个计算机的用户的命令，响应于先前的处理，响应于另一计算机的请求和/或任何其他输入。

用于至少部分实施实施方式的计算机可以是通用计算机。但是，计算机还可以利用各种其他技术中的任何一种，包括专用计算机，包括微型计算机、小型计算机或大型机的计算机系统，例如，编程的微处理器，微控制器，外围集成电路元件，CSIC(客户专用集成电路)或ASIC(应用专用集成电路)或其他集成电路，逻辑电路，数字信号处理器，可编程逻辑装置，如FPGA，PLD，PLA或PAL，或能够实施本发明过程中至少一些步骤的任何其他装置或装置的布置。

可以理解的是，为了实施本发明的方法，不需要将计算机的处理器和/或存储器物理地放置在相同的地理位置。也就是，计算机所使用的各个处理器和存储器可以位于地理上不同的位置并连接，从而以任何合适的方式进行通信。此外，应当理解的是，各处理器和/或存储器可以由设备的不同物理部件组成。因此，不需要的是，处理器是在一个位置中的单一设备部件，而存储器是在另一位置中的另一单一设备部件。也就是，例如，设想处理器可以是在两个不同物理位置中的两个或更多个设备部件。两个或更多个不同的设备部件可以任何适当的方式(如网络)连接。此外，存储器可以在两个或更多个物理位置中包括存储器的两个或更多个部分。

可以使用各种技术来提供各种计算机、处理器和/或存储器之间的通信，以及允许本发明的处理器和/或存储器与任何其他实体进行通信；例如，从而获取进一步的指令或访问和使用远程存储器，例如。用于提供这类通信的技术可能包括网络，互联网，内联网，外联网，LAN，以太网或提供通信的任何客户端服务器系统。这类通信技术可以使用任何合适的协议，例如，TCP/IP、UDP或OSI。

此外，应当理解的是，用于实施和操作本发明的计算机指令或指令集处于合适的形式，从而使计算机可以读取指令。

在一些实施方式中，可以利用各种用户界面来允许人用户与用于至少部分地实施实施方式的计算机或机器进行交互。用户界面可以是对话屏幕的形式。用户界面还可以包括鼠标，触摸屏，键盘，语音读取器，语音识别器，对话屏幕，菜单框，列表，复选框，拨动开关，按钮或允许用户随计算机处理一组指令而接收有关计算机运行的信息和/或向计算机提供信息的其他装置。因此，用户界面是提供用户与计算机之间通信的任何装置。例如，用户通过用户界面提供给计算机的信息可以是命令，数据选择或一些其他输入形式。

还预想了本发明的用户界面可以与另一台计算机而不是人用户进行交互，例如，传递和接收信息。因此，另一台计算机可能被表征为用户。此外，预想了本发明系统和方法中所使用的用户界面可以与另一台或多台计算机部分交互，同时也与人用户部分交互。

提供了下述实施例以举例说明本文公开的发明的各种模式，但是它们无意以任何方式限制本发明。

实施例

实施例1

选择检测非小细胞肺癌的算法

实施例1说明了不同算法的开发和评估。

选择生物标志物

本实施例描述了用于筛选82种生物标志物的集以鉴定生物标志物子集的程序，所述生物标志物子集能够用于非小细胞肺癌的诊断方法，该方法采用非线性分类器来确定患者是否可能患有该疾病。进行筛选的这82种生物标志物的集是基于先前研究的结果，再加上经报道对早期肺癌具有诊断潜力的10-15种其他生物标志物。这82种生物标志物是：bNGF、CA-125、CEA、CYFRA21-1、EGFR/HER1/ErBB1、GM-CSF、颗粒酶B、Gro-α、ErbB2/HER2、HGF、IFN-a2、IFN-b、IFN-g、IL-10、IL-12p40、IL-12p70、IL-13、IL-15、IL-16、IL-17A、IL-17F、IL-1a、IL-1b、IL-1ra、IL-2、IL-20、IL-21、IL-22、IL-23p19、IL-27、IL-2ra、IL-3、IL-31、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IP-10、I-TAC、瘦蛋白、LIF、MCP-1、MCP-3、M-CSF、MIF、MIG、MIP-1a、MIP-1b、MIP-3a、MMP-7、MMP9、MPO、NSE、OPG、PAI-1、PDGF-AB/BB、PDGF、RANTES、抵抗素、SAA、sCD40-配体、SCF、SDF-1、SE-选择素、sFas配体、sICAM-1、RANKL、TNFRI、TNFRII、sVCAM-1、TGF-α、TGF-β、TNF-α、TNF-β、TPO、TRAIL、TSP1、TSP2、VEGF-A和VEGF-C。

该实施例中所示算法的开发使用通过实施例2所述方法选自该82种的集中的33种生物标志物。在随机森林模型中使用生物学主题专业知识和统计重要性(对于通过GINI中的平均降低测得的各生物标志物的重要性，请参见表6)，选择了33各生物标志物物用于诊断NSCLC。文献和生理-临床途径搜索显示，大多数选定的生物标志物与肺癌(特别是NSCLC)具有直接的生物学相关性或在生理-临床途径之内。下述生物标志物用于最终算法开发中的分析：IL-4、sEGFR、瘦蛋白、NSE、MCP-1、GRO-pan、IL-10、IL-12P70、sCD40L、IL-7、IL-9、IL-2、IL-5、IL-8、IL-16、LIF、CXCL9/MIG、HGF、MIF、MMP-7、MMP-9、sFasL、CYFRA21-1、CA125、CEA、sICAM-1、MPO、RANTES、PDGF-AB/BB、抵抗素、SAA、TNFRI和sTNFRII。种族并不是一个重要因素，而性别在将NSCLC与其他疾病区分开来时仅稍微重要。

研究群体标准

下表1中所述下述纳入标准用于选择本研究的研究群体。

表1：选择NSCLS和对照群体样品的纳入标准。

样本量(Sample Size)选择

确定研究样本量是检验假设的必要条件：

H₀：Se<0.8或Sp<0.8

H₁：Se≥0.8和Sp≥0.8

其中Se是算法的灵敏度(等于1减去假阳性率)，而Sp是算法的特异度(等于1减去假阴性率)。考虑到I型错误为0.05而II型错误为0.2，验证集的各NSCLC和非NSCLC群组中都需要83名对象(表2)。训练集的样本量通过过去在多重免疫分析数据上拟合SVM和AdaBoost模型的经验确定。

研究样品

将来自总共1,000名对象的样品设双重复运行，产生针对训练和验证集的N＝2,000测量值。1,000名对象中，总共554名对象(N＝1,108)被随机分配至训练集，而总共446名对象(N＝892)被随机分配至盲测验证集中以评估算法的性能。算法开发人员对验证集中样品的病理情况盲测。所有样品被随机分配至训练集或验证集，至其被分析的板上，和至板上的位置。群组在该研究的全部板上平均分布。样品由非裔美国人，高加索人和西班牙裔群体组成。表2显示了各种群组如何在训练和验证集之间分配。

表2：按疾病、吸烟状况和性别的样本量

样品获取、处理和存储

使用收集于EDTA二钠试管(Na₂-EDTA)中的人血浆样品。收集后，血液样品在冰上保存至多一个小时，并在4℃/39°F以1500x g离心10分钟。然后将血浆转移到15ml锥形管中并再次离心。血浆样品以单次使用等份-80℃储存以避免多次冻融循环。通过该过程制备的血浆样品获自Asterand、BioReclammation、BioSource、Geneticist和Proteogenex。

对照处理操作以冻干形式开发Millipore质量对照(Quality Control)1和质量对照2并于2-8℃储存。各对照瓶用100μL去离子水重构，倒置数次，涡旋，并在冰上孵育5-10分钟。未使用的部分在≤-20℃下保存长达一个月。

设备和条件

使用FLEXMAP 3D Luminex仪器收集数据。将Integra ViaFlo 96机器人用于板中样品和试剂的转移。

测试方法

通过使用捕获夹心免疫检测形式在磁珠上设计的试验获得生理样品中各种生物标志物的生物标志物度量。将捕获抗体偶联的磁珠与试验缓冲液，血清/血浆基质溶液和抗原标准品、样品、空白或对照一起孵育过夜。在平板振荡器上以500-800rpm于2-8℃进行过夜孵育(16-18小时)。第二天，洗涤珠2次。使用半自动过程通过来自Integra的ViaFlo96进行所有的洗涤和试剂转移。第二天进行的所有孵育均在室温(20-25℃)以500-800rpm进行。洗涤后，添加检测抗体并孵育60分钟。然后，将珠与报告物链霉亲和素-藻红蛋白偶联物(SA-PE)孵育30分钟。将珠洗涤2次以去除过量的检测抗体和SA-PE。将鞘液添加至珠粒，并置于摇床上5分钟。使用FlexMap 3D读取板，其测量珠和结合的SA-PE的荧光。使用Exponent软件获取数据，然后将其导入Bio-Plex Manager 6.1用于在低PMT设置下进行数据分析。

计算机化系统和软件

使用Luminex xPONENT采集软件进行数据收集。将来自Bio-Rad Bio-PlexManagerTM 6.1标准版软件的数据用于分析。

数据分析的参数

下述参数适用于数据分析过程。下述接受标准符合《FDA行业指南：生物分析方法验证》[2013](FDA Guidance for the Industry:Bioanalytical Method Validation[2013])。

将下述试验接受标准应用于所有板运行以及所有试验孔的各单独的生物标志物。相同的规则适用于标准/校准曲线，样品和对照。

1)剂量回收范围(Dose Recovery Range)100±20％(80％-120％)

2)回归型逻辑(Regression Type Logistic)5PL(非线性)

3)需要最少需要6个标准点(Standard Point)

4)背景MFI<200

5)珠计数≥50

6)试验内<15％，使用范围内浓度(Conc In Range)和FI值(对于处于LLOQ的值，≤20％)

7)试验间<20％，使用范围内浓度(Conc In Range)和FI值(对于处于LLOQ的值，≤25％)

8)由于无法检测出重复中的异常值，因此未去除样品数据的异常值

浓度分析方法

多重免疫检测标准曲线是非线性的并且将浓度-反应关系拟合至5参数逻辑模型用于本研究。该回归方法需要至少6个标准点。使用Bio-Plex Manager软件6.1，使用逻辑-5PL回归方法计算标准曲线。5-PL逻辑计算为：

Y＝d+(a–d)/[1+(x/c)^b]^g，其中：

x是浓度

y是响应

a是无限浓度时的估计响应

b是中点处切线的斜率

c是中列(midrange)浓度或中点

a是零浓度时的估计响应

g是不对称因子

通过由所有运行的平均值和标准偏差(SD)的变异系数(CV)并以百分比表示来评估试验的精度，％CV＝(SD/平均值)。

使用以下公式计算回收：R＝(观测值/预期值)x 100％。观测值(OV)，也称为观测浓度，是以pg/mL定量并报道的分析物的测量值。期望值(EV)，也称为期望浓度，是预期使用标准抗原对稀释进行测量的分析物以pg/mL计的值。

算法方法分析

算法模型开发

该实施例测试了六(6)种不同的算法形式，用于选择算法模型。数据分析考虑了来自对象的生理样品中33种生物标志物的双重复测量值，以及对象的性别和吸烟状况，并将各测量值分类为患有NSCLC或没有NSCLC。算法模型开发自训练集。一旦对算法进行了充分的训练，就可以在盲测验证集上分析其性能。最终算法模型选自下述算法(或其组合)中表现最好的：

(1)遗传算法–SVM

(2)随机森林

(3)LASSO

(4)岭回归

(5)AdaBoost

由其在10倍交叉验证下的灵敏度和特异度确定。

上述模型中，随机森林模型具有最佳的性能。因此，在根据本发明的生物标志物度量的后续分析中，将随机森林用作分类器算法[表3]。根据该实施例的分析模型具有0.982的灵敏度(95％CI：0.921-0.998)和0.865的特异度(95％CI：0.802-0.914)。当从数据集中去除除了NSCLC以外的其他癌症时，特异度会提高到0.967(95％CI：0.916-0.991)。将各对象指定到一个集：(1)训练集，在其上构建模型，或(2)验证集，在其上测量模型性能。

表3.使用33种生物标志物的6种多元分类算法的10倍交叉验证。

NPV，阴性预测值；PPV，阳性预测值；CI，95％置信区间；SVM，支持向量机；RF，随机森林；RR，岭回归；GA，遗传算法。

实施例1a

NSCLC检测算法的综述

实施例1a通过回顾其他算法进一步选择了最终算法：弹性网，梯度树增强，k-最近邻和贝叶斯神经网络。

下述生物标志物用于最终算法开发中的分析：IL-4、sEGFR、瘦蛋白、NSE、MCP-1、GRO-pan、IL-10、IL-12P70、sCD40L、IL-7、IL-9、IL-2、IL-5、IL-8、IL-16、LIF、CXCL9/MIG、HGF、MIF、MMP-7、MMP-9、sFasL、CYFRA21-1、CA125、CEA、sICAM-1、MPO、RANTES、PDGF-AB/BB、抵抗素、SAA、TNFRI和sTNFRII。种族并不是一个重要因素，而性别在将NSCLC与其他疾病区分开来时稍微重要。

研究样品

实施例1a的研究样品如实施例1所述。

研究群体标准

将实施例1的纳入标准用于选择本研究的研究群体。

样本量选择

样本量选择标准与实施例1所用标准相同。

操作和设备

样品获取、处理和存储与实施例1所用相同。

测试方法

如实施例1所述进行筛选试验。

算法模型评估

该实施例测试了另外六(6)种不同的算法形式，以与从实施例1中所选随机森林模型进行比较。数据分析考虑了来自对象的生理样品中33种生物标志物的双重复测量值，以及对象的性别和吸烟状况，并将各测量值分类为患有NSCLC或没有NSCLC。算法模型开发自训练集。一旦对算法进行了充分的训练，就可以在盲测验证集上分析其性能。检验的算法模型(或其组合)为：

ο弹性网

ο梯度增强树

ο神经网络

ο贝叶斯神经网络

οk-最近邻

ο朴素贝叶斯

没有任何其他模型胜过使用随机森林算法的模型拟合。在基于神经网络的算法的情况下，模型可能没有足够的数据来很好地拟合模型。然而，添加更多数据将改善模型拟合。

表4.使用33种生物标志物的6种其他多元分类算法的10倍交叉验证。

NPV，阴性预测值；PPV，阳性预测值；CI，95％置信区间；EN：弹性网；GBT：梯度增强树；NN：神经网络；BNN：贝叶斯神经网络；kNN：k-最近邻；NB：朴素贝叶斯。

实施例2

选择生物标志物子群

实施例2举例说明了使用随机森林作为分类算法选择33种生物标志物。

选择生物标志物

在该研究中，选择33种具有早期肺癌诊断潜力的生物标志物。这33种生物标志物是：CA-125、CEA、CYFRA21-1、EGFR/HER1/ErBB1、Gro-Pan、HGF、IL-10、IL-12p70、IL-16、IL-2、IL-4、IL-5、IL-7、IL-8、IL-9、瘦蛋白、LIF、MCP-1、MIF、MIG、MMP-7、MMP9、MPO、NSE、PDGF-AB/BB、RANTES、抵抗素、sFasL、SAA、sCD40-配体、sICAM-1、TNFRI和TNFRII。

算法

用于分类器的算法模型考虑了来自对象的33种生物标志物的双重复测量值，及其性别和吸烟状况，并按疾病状态对各测量值进行分类。使用随机森林算法，将对象的各双重复测量值分类为患有NSCLC或不患有NSCLC。如果任何测量值被分类为来自患有NSCLC的对象，那么该对象被分类为患有NSCLC。该算法倾向于在预测对象患有NSCLC方面出错。这是由于在不存在治疗的情况下允许疾病发展的固有代价。

研究样品

双重复处理总计1,258个对象(2,516个样品)，得到N＝2,514个测量值。随机分配所有样品，并将群组平均分布在该研究的所有板上。

研究群体标准

将实施例1的纳入标准用于选择本研究的研究群体。

样本量选择样本量选择标准与实施例1所用标准相同。针对该研究的样品度列述于表4中。

表4：按疾病、吸烟状况和性别的样本量

操作和设备

样品获取、处理和存储与实施例1所用相同。

测试方法

如实施例1所述进行筛选试验。

算法模型评估

使用随机森林模型构建算法。该模型对NSCLC的灵敏度为0.982(95％CI：0.921-0.998)，特异度为0.865(95％CI：0.802-0.914)。从数据集中去除非NSCLC癌症时，该算法的特异度提高到0.967(95％CI：0.916-0.991)。

使用算法的生物标志物选择

评估算法后，可以将指示NSCLC的9-33种生物标志物用作诊断试剂盒的组分。该选择可以基于可变重要性统计量，或者算法的迭代次数以及特定生物标志物出现在CART中的位置，以及生物学相关性。

临床准确性

使用临床参照的诊断准确性

这样计算诊断准确性：预测将患有NSCLC的患NSCLC对象数量加预测将不会患有NSCLC的未患NSCLC对象数量除以对象总数。由医学病理学家如样品提供者所报告确定样品病理学。

诊断测试的性能可以表示为阳性预测值(PPV)和阴性预测值(NPV)。阳性预测值(NPV)是真阳性(TP)数量除以真阳性(TP)数量加假阳性(FP)数量，PPV＝TP/(TP+FP)。阴性预测值(NPV)是真阴性(TN)数量除以真阴性(TN)数量加假阴性(FP)数量，NPV＝TN/(TN+FN)。

灵敏度定义为NSCLC患者阳性结果的概率。灵敏度的计算方法是：真阳性(TP)数量除以实际NSCLC患者总数，或者真阳性(TP)数量加假阴性(FN)数量；灵敏度＝TP/(TP+FN)。

特异度定义为患者不患有NSCLC的概率。特异度的计算方法是：真阴性(TN)数量除以实际非NSCLC患者总数，或者真阴性(TN)数量加假阳性(FP)数量；特异度＝TN/(TN+FP)。

特异性

测试的临床特异性是算法正确鉴定那些不存在感兴趣疾病的患者的能力的度量。为了证明本发明的测试对NSCLC具有特异性，测试了来自除了NSCLC以外其他类型癌症的总计144个样品(N＝288)。训练集中包括这些非NSCLC癌症中的90种。包括下述癌症：

(1)乳腺癌(26F)

(2)结直肠癌(26F，22M)

(3)卵巢癌(25F)

(4)胰腺癌(15F，15M)

(5)前列腺癌(15M)

该算法将样品分类为是患有或不患有NSCLC的患者；测试结果不考虑是否存在其他类型的癌症。为了确定其他癌症与NSCLC的交叉反应性，检验了各种特定癌症的错误率。

该算法可以将样品分类为是否属于NSCLC患者，而无需考虑它们是否患有另一种癌症。为了确定其他癌症与NSCLC的交叉反应性，检验了针对各种特定癌症的假阳性率(FPR)以及针对所有非NSCLC癌症的假阴性率(FNR)。

表5.使用算法的假阴性率。

该算法对NSCLC的假阴性率为0.02，而假阳性率为0.13。这意味着每100名NSCLC患者中将有2名患者不会被检测出患有该疾病，而每100名非NSCLC患者中将有13名患者对该疾病具有阳性结果。

算法模型评估结果

使用随机森林模型和来自美国对象的样品，构建了针对三个生物标志物集(33、19和13)的算法。这些算法训练集的结果示于表6。第一模型使用了33种生物标志物，并且其对NSCLC的灵敏度为0.928(CI：0.879，0.961)，特异度为0.972(CI：0.955，0.988)。第二模型使用了19种生物标志物，并且其对NSCLC的灵敏度为0.924(CI：0.892，0.943)，特异度为0.969(CI：0.952，0.980)。第三模型使用了13种生物标志物，并且其对NSCLC的灵敏度为0.890(CI：0.861，0.918)，特异度为0.958(CI：0.941，0.972)。

表6.算法模型大小和生物标志物列表

实施例3

验证限于美国群体的最终算法模型的性能

本实施例展示了使用33种选择的生物标志物和如实施例1和2中开发的具有33、19和13种生物标志物的算法进行盲测研究的结果。

对于该实施例，使用与实施例1和2相同的试剂和方法处理样品。双重复处理总计228个对象，得到456个测量值(表7)。样品由来自美国的非裔美国人，高加索人和西班牙裔组成(表8)样品经盲法处理并随机分配，将群组平均分布在该研究的全部板上。

表7.按病理学、性别和年龄的样本量

*所有NSCLC样品为I期。

表8.按性别、病理学和种族的样本分布

*所有样品均来自美国

算法模型评估

针对来自美国对象的验证样品，测试了实例2中使用随机森林模型针对不同数量的生物标志物(33、19和13)构建的三种不同大小的算法(表9)。来自228名对象的数据经盲测并用于验证使用33、19和13种生物标志物的本发明算法的性能。记录结果后，将病理学释放，并将该集用于重新训练算法。获自各对象的所有数据点都用于评估算法性能。因为生物标志物浓度的潜在分布可以假定为对数正态分布，所以可以通过将LLOQ除以2的平方根来估计经检查低于LLOQ的值。相似地，可以通过将ULOQ乘以2的平方根来估计经检查高于ULOQ的值。因此，所有对象都包括在分析中。

表9：盲测集性能

估值(LCL，UCL)

临床参数和结果

在临床环境中，PPV和NPV在确定测试的值方面更为有用，因为这些度量指示了疾病在感兴趣群体中的患病率。在使用测试来鉴定严重但可治疗的疾病时，高灵敏度的测试是十分重要的，而高特异度的测试避免使患者进一步遭受不必要的后续医疗程序的伤害。盲测测试的结果总结于表10中。盲测集样品包括228名对象(N＝456)，分为以下几类：11名哮喘，40名乳腺癌，5名结直肠癌，57名非吸烟者，55名I期NSCLC，3名胰腺癌，9名前列腺癌和48名吸烟者。

表10.患病率，PPV，NPV，TP，TN，FP和FN。

通过生物标志物的ROC

受试者工作特征(Receiver operator characteristic，ROC)曲线描述了针对分类器所有可能的临界值的真阳性率的假阳性率(1-特异度)。图1A和B显示了使用19种生物标志物和13种生物标志物的随机森林模型的ROC曲线。曲线下面积(AUC)表示ROC曲线的曲线下面积。完美测试的AUC为1.0，随机猜测的AUC为0.5。通常，AUC大于0.8就足够了，但是，对于我们的应用，目标是AUC为0.9或更大。具有33、19和13种生物标志物的算法的AUC分别为0.963、0.960和0.951。图1A-B显示了33、19和13种生物标志物的ROC曲线。这表明这两种模型在NSCLC和非NSCLC之间具有良好的区分能力。此外，这表明当从分析数据中排除非NSCLC癌症时，AUC略有改善。

诊断准确性和临床特异性

测试的临床特异性是算法正确鉴定那些不存在感兴趣疾病的患者的能力的度量。为了证明根据本发明的测试对NSCLC具有特异性，测试了来自除了NSCLC以外其他类型癌症的总计57个样品(N＝114)。包括下述癌症：

(1)乳腺癌(40)

(2)结直肠癌(5)

(3)胰腺癌(3)

(4)前列腺癌(9)

该算法将样品分类为是患有或不患有NSCLC的患者；测试结果并不考虑是否存在其他类型的癌症。为了确定其他癌症与NSCLC的交叉反应性，检验了各种特定癌症的错误率。

本发明使用33、19和13种生物标志物的测试对NSCLC的错误率分别为10.91％、10.91％和12.73％。例如，通过根据使用33或19种生物标志物模型的本发明的测试，55名NSCLC对象中将有6名对象不会检测出患有NSCLC。结果如下：

表11.使用33种生物标志物的算法的实际和预测结果

LCL-95％置信下限，UCL-95％置信上限

表12.使用19种生物标志物的算法的实际和预测结果

LCL-95％置信下限，UCL-95％置信上限

表13.使用13种生物标志物的算法的实际和预测结果

LCL-95％置信下限，UCL-95％置信上限

表11、15和16表示其他非NSCLC癌症样品从数据集中排除时的结果。

表14.使用33种生物标志物的算法并排除其他癌症样品的实际和预测结果

LCL-95％置信下限，UCL-95％置信上限

表15.使用19种生物标志物的算法并排除其他癌症样品的实际和预测结果

LCL-95％置信下限，UCL-95％置信上限

表16.使用13种生物标志物的算法并排除其他癌症样品的实际和预测结果

LCL-置信下限，UCL-置信上限

使用21种生物标志物的随机算法采样

根据来自具有13和19种生物标志物的算法的结果，选择了21种生物标志物的最终集合。为了测试这些生物标志物的稳健性，由该21种的集合随机选择10-21种生物标志物的组合。该算法在盲测集上运行。表19上的结果表明，该生物标志物集是稳健的，并为算法中所用生物标志物的数量提供了灵活性。计算如下算法的AUC，所述算法采用21种生物标志物(0.964)，20种生物标志物(0.963)，19种生物标志物(0.966)和13种生物标志物(0.955)。使用21种生物标志物进行的20次随机抽样的平均统计数据的准确性为92％，灵敏度为81％和特异度为96％。

表17.使用最终21种CPC生物标志物的随机算法采样

模型“10-21”是使用33种的子集内10-21种生物标志物的模型。“随机10、12、15和20”分别是从最终生物标志物的列表中另外随机选择10、12、15和20种生物标志物。“AUC<0.8、<0.9和>0.9”分别是仅由AUC小于0.8、0.9和大于0.9的生物标志物创建的模型。

结论

具有13种生物标志物的本发明算法具有0.873的灵敏度和0.954的特异度。具有33种生物标志物和19种生物标志物的算法具有0.891的灵敏度和0.977的特异度。这些算法将检测出87-89％的NSCLC患者(获自100名NSCLC患者中的11-13名患者可能未被检测到)。这些算法的特异度分别为0.954和0.977，这意味着患有该病的患者中将有95-97％的患者被诊断为NSCLC阳性(或者100名无此病的患者中5或3名可能经测试对该疾病呈阳性)。针对33、19和13种生物标志物的ROC曲线的AUC分别为0.963、0.960和0.951。具有33种生物标志物、19种生物标志物和13种生物标志物的算法对临床应用具有巨大潜力。当从分析中去除其他非NSCLC癌症时，具有33种生物标志物、19种生物标志物和13种生物标志物的算法的特异度提高到0.991或99.1％。灵敏度不受影响。具有33种生物标志物、19种生物标记物和13种生物标志物的算法的AUC分别增加至0.974、0.970和0.964。

讨论

在临床环境中，PPV和NPV在确定测试的值方面更为有用，因为这些度量指示了疾病在感兴趣群体中的患病率。本研究中的模型使用了源自美国的样品。在使用测试来鉴定严重但可治疗的疾病时，高灵敏度是十分重要的，并且高特异度的测试避免使患者进一步遭受不必要的后续医疗程序的伤害。在肺癌的情况中，LDCT方法具有高灵敏度但是特异度低。一种可能的方法是使最初对高灵敏度/低特异度(LDCT)测试呈阳性的患者接受具有低(或高)灵敏度/高特异度的第二测试。该途径可以将几乎所有的假阳性正确地识别为无疾病。

作为主要的诊断测试，医生可能更喜欢具有较高灵敏度但牺牲特异度的测试。这样的观点认为，未检测到“某种”癌症比假阴性更有害。高灵敏度/中特异度或中灵敏度/特异度的算法的组合是CPC测试一种选择并将对此进行研究。为临床医生提供具有临界值限制的连续可变结果是对于存在早期非小细胞肺癌呈“阳性”或“阴性”的定性单一评分分类器的替代方法。

使用该算法选择的生物标志物和生物标志物子集在NSCLC的早期诊断中显示出乎意料的改善。

本公开所包括的等式、公式和关系是说明性和代表性的并且不旨在限制。可以使用替代的等式来表示由本文所公开的任何给定等式所述的相同现象。具体地，通过添加误差校正项、高阶项或者解决不准确性的其他方式，使用常数或变量的不同名称，或者使用不同的表达式可以修改本文所公开的等式。可以对等式进行其他修改、取代、替换或变更。

本说明书中提到的所有发表物、专利和公开的专利申请通过引用其全部内容纳入本文，就好像将各篇单独的发表物、专利或公开的专利申请专门和单独地通过引用纳入本文那样。

权利要求书(按照条约第19条的修改)

1.一种对测试数据进行分类的方法，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述方法包括：

·在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；

·使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各所述分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和

·使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类，

其中所述生物标志物集包含选自下组的至少九(9)种生物标志物：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。

2.一种对测试数据进行分类的方法，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述方法包括：

·使用至少一个处理器，访问电子储存的训练数据向量集，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；

·使用所述电子储存的训练数据向量集训练分类系统的电子表示；

·在至少一个处理器处接收测试数据，所述测试数据包括人测试对象中所述生物标志物集的多个生物标志物度量；

·使用至少一个处理器评估测试数据，所述评估使用所述分类系统的电子表示来进行；和

·输出对所述人测试对象的分类，所述分类是基于所述评估步骤的关于所述对象非小细胞肺癌存在或发展可能性的分类，

3.如权利要求1或2所述的方法，其中，所述分类系统选自下组：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。

4.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括随机森林。

5.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括AdaBoost。

6.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括朴素贝叶斯。

7.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括支持向量机。

8.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括LASSO。

9.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括岭回归。

10.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括神经网。

11.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括遗传算法。

12.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括弹性网。

13.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括梯度增强树。

14.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括贝叶斯神经网络。

15.如权利要求1-3中任一项所述的方法，其中，所述分类系统包括k-最近邻。

16.如权利要求1-15中任一项所述的方法，其中，所述测试数据和各训练数据向量还包括选自下组的至少一个其他特征：个人的性别、年龄和吸烟状况。

17.如权利要求1-16中任一项所述的方法，其中，所述测试数据包括两个或更多个重复数据向量，其各自包含来自人对象的生理样品中的多个生物标志物的生物标志物度量的个体测定。

18.如权利要求17所述的方法，其中，如果所述重复数据向量中的任一个根据所述分类系统中任一个分类器被归类为对NSCLC呈阳性，那么将所述样品归类为可能存在NSCLC的发展。

19.如权利要求1-18中任一项所述的方法，其中，所述生物标志物集包括4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32或33个生物标志物。

20.如权利要求1-19中任一项所述的方法，其中，所述生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、CYFRA-21-1、MIF、sICAM-1、SAA或它们的组合，并且所述生理样品是生物流体。

21.如权利要求1-19中任一项所述的方法，其中，所述生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白、IL-2、IL-10和NSE。

22.如权利要求1-19中任一项所述的方法，其中，所述生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白、IL-2和IL-10。

23.如权利要求1-19中任一项所述的方法，其中，所述生物标志物与选自下组的生物标志物的相应浓度水平成比例：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、抵抗素、MPO、NSE、GRO、CEA、CXCL9、MIF、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB或它们的组合，并且所述生理样品是生物流体。

24.如权利要求1-19中任一项所述的方法，其中，所述生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白和IL-2。

25.如权利要求1-19中任一项所述的方法，其中，所述生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1和瘦蛋白。

26.如权利要求1-19中任一项所述的方法，其中，所述生物标志物与选自下组的生物标志物的相应浓度水平成比例：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO、CEA、CXCL9、IL-2、SAA、PDFG-AB/BB或它们的组合，并且生理样品是生物流体。

27.如权利要求1-19中任一项所述的方法，其中，所述生物标志物度量与选自下组的生物标志物的相应浓度水平成比例：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB和MMP-7。

28.如权利要求1-27中任一项所述的方法，其中，所述生物标志物是肽，蛋白质，携带翻译后修饰的肽和蛋白质或其组合。

29.如权利要求28所述的方法，其中，所述生理样品是生物流体。

30.如权利要求29所述的方法，其中，所述生物流体是血液、血清、血浆或其混合物。

31.如权利要求1-30中任一项所述的方法，其中，所述分类系统是随机森林分类器，所述随机森林分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

32.如权利要求1-30中任一项所述的方法，其中，所述分类器是AdaBoost分类器，所述AdaBoost分类器包括50、100、150、200、250、300、400、500、750或1,000次迭代。

33.如权利要求1-30中任一项所述的方法，其中，所述分类器是包含内核的支持向量机分类器，所述内核是多项式，高斯径向基，双曲正切或三角函数。

34.如权利要求1-30中任一项所述的方法，其中，所述分类器是LASSO分类器，所述LASSO分类器包括0.1、0.5、1、2、10、100的约束。

35.如权利要求1-30中任一项所述的方法，其中，所述分类器是岭回归分类器，所述岭回归分类器包括0.1、0.5、1、2、10、100的约束。

36.如权利要求1-30中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括1、2、4或5个隐藏层。

37.如权利要求1-30中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括卷积神经网络和递归神经网络。

38.如权利要求1-30中任一项所述的方法，其中，所述分类器是弹性网分类器，所述弹性网分类器包括0.1、0.5、1、2、10、100的约束。

39.如权利要求1-30中任一项所述的方法，其中，所述分类器是梯度增强树分类器，所述梯度增强树分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

40.如权利要求1-30中任一项所述的方法，其中，所述分类器是贝叶斯神经网分类器，所述贝叶斯神经网分类器包括1、2、4或5个隐藏层。

41.如权利要求1-30中任一项所述的方法，其中，所述分类器是k-最近邻分类器，所述k-最近邻分类器包括1、2、4、5、8或10个邻居。

42.如权利要求1-41中任一项所述的方法，其中，所述方法还包括确定来自对象的生理样品中的生物标志物水平。

43.如权利要求1-42中任一项所述的方法，其中，所述患者是45岁或更年长，是长期吸烟者，已经诊断出肺中有不确定的结节，或其组合。

44.如权利要求1-43中任一项所述的方法，其中，所述方法还包括确定获自对象的生理样品中的各生物标志物度量。

45.如权利要求1-44中任一项所述的方法，其中，所述对象表现出可通过计算机断层摄影术扫描检测到的至少一个肺结节。

46.如权利要求1-45中任一项所述的方法，其中，所述方法进一步包括通过低剂量计算机断层摄影术测试肺结节。

47.如前述权利要求中任一项所述的方法，其中，所述对象具有患NSCLC的风险。

48.如前述权利要求中任一项所述的方法，其还包括治疗所述对象NSCLC的步骤。

49.如前述权利要求中任一项所述的方法，其中，所述对象是人。

50.如前述权利要求中任一项所述的方法，其中，所述对象是女性。

51.如前述权利要求中任一项所述的方法，其中，所述对象是男性。

52.如前述权利要求中任一项所述的方法，其中，所述患者是45岁或更年长，是长期吸烟者，已经诊断出肺中有不确定的结节，或其组合。

53.如权利要求1-52中任一项所述的方法，其中所述方法还包括：

(a).从对象获得生理样品；和

(b).测量所述样品中选自下组的至少四种生物标志物的集以产生生物标志物度量的集：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。

54.如权利要求53所述的方法，其中，所述方法包括测量所述样品中至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或21个生物标志物的集。

55.如权利要求1-54中任一项所述的方法，其中，所述生物标志物度量指示非小细胞肺癌。

56.如权利要求1-55中任一项所述的方法，其中，所述生物标志物度量指示早期非小细胞肺癌，优选I期。

57.如权利要求1-56中任一项所述的方法，其中，所述对象具有患非小细胞肺癌的风险。

58.如权利要求1-57中任一项所述的方法，其中，通过以下方式测量所述生物标志物度量：放射-免疫检测，酶联免疫吸附试验(ELISA)，Q-PlexTM多重试验，液相色谱-质谱(LCMS)，流式细胞术多重免疫检测，高压液相色谱，其伴用通过可见光或紫外光吸光度进行的辐射或光谱检测，质谱定性和定量分析，western印迹，一维或二维凝胶电泳，其伴用通过检测放射性、荧光或化学发光探针或核进行的定量可视化，基于抗体的检测，其伴用吸收或荧光光度法，通过多种化学发光报告系统的任一种的发光进行的定量，酶促试验，免疫沉淀或免疫捕获试验，固相和液相免疫检测，定量多重免疫检测，蛋白质阵列或芯片，平板试验，印刷阵列免疫检测或其组合。

59.如权利要求1-58中任一项所述的方法，其中，所述生物标志物度量通过免疫检测测量。

60.一种用于诊断I期非小细胞肺癌的方法，其包括：

(a).从对象获得生理样品；

(b).通过免疫检测测量所述样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4；

(c).在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中的生物标志物集中各生物标志物的生物标志物度量；

(d).使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和

(e).使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类。

61.如权利要求60所述的方法，其中，所述分类系统包括选自下组的内容：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。

62.如权利要求60所述的方法，其中，所述分类系统包括随机森林。

63.如权利要求60所述的方法，其中，所述分类系统包括AdaBoost。

64.如权利要求60所述的方法，其中，所述分类系统包括朴素贝叶斯。

65.如权利要求60所述的方法，其中，所述分类系统包括支持向量机。

66.如权利要求60所述的方法，其中，所述分类系统包括LASSO。

67.如权利要求60所述的方法，其中，所述分类系统包括岭回归。

68.如权利要求60所述的方法，其中，所述分类系统包括神经网。

69.如权利要求60所述的方法，其中，所述分类系统包括遗传算法。

70.如权利要求60所述的方法，其中，所述分类系统包括弹性网。

71.如权利要求60所述的方法，其中，所述分类系统包括梯度增强树。

72.如权利要求60所述的方法，其中，所述分类系统包括贝叶斯神经网络。

73.如权利要求60所述的方法，其中，所述分类系统包括k-最近邻。

74.如权利要求60-73中任一项所述的方法，其中，所述分类器是随机森林分类器，所述随机森林分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

75.如权利要求60-73中任一项所述的方法，其中，所述分类器是AdaBoost分类器，所述AdaBoost分类器包括50、100、150、200、250、300、400、500、750或1,000次迭代。

76.如权利要求60-73中任一项所述的方法，其中，所述分类器是包含内核的支持向量机分类器，所述内核是多项式，高斯径向基，双曲正切或三角函数。

77.如权利要求60-73中任一项所述的方法，其中，所述分类器是LASSO分类器，所述LASSO分类器包括0.1、0.5、1、2、10、100的约束。

78.如权利要求60-73中任一项所述的方法，其中，所述分类器是岭回归分类器，所述岭回归分类器包括0.1、0.5、1、2、10、100的约束。

79.如权利要求60-73中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括1、2、4或5个隐藏层。

80.如权利要求60-73中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括卷积神经网络和递归神经网络。

81.如权利要求60-73中任一项所述的方法，其中，所述分类器是弹性网分类器，所述弹性网分类器包括0.1、0.5、1、2、10、100的约束。

82.如权利要求60-73中任一项所述的方法，其中，所述分类器是梯度增强树分类器，所述梯度增强树分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

83.如权利要求60-73中任一项所述的方法，其中，所述分类器是贝叶斯神经网分类器，所述贝叶斯神经网分类器包括1、2、4或5个隐藏层。

84.如权利要求60-73中任一项所述的方法，其中，所述分类器是k-最近邻分类器，所述k-最近邻分类器包括1、2、4、5、8或10个邻居。

85.如权利要求60-84中任一项所述的方法，其中，所述生物标志物是肽，蛋白质，携带翻译后修饰的肽，携带翻译后修饰的蛋白质或其组合。

86.如权利要求60-85中任一项所述的方法，其中，所述生理样品是生物流体。

87.如权利要求86所述的方法，其中，所述生物流体是全血、血浆、血清或其组合。

88.一种检测多个生物标志物的方法，其包括：

(a).从对象获得生理样品；和

(b).测量所述样品中选自下组的至少四种生物标志物的集以产生生物标志物度量：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4。

89.如权利要求88所述的方法，其中，所述至少四种生物标志物的集选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1、SAA、IL-2和PDGF-AB/BB。

90.如权利要求88或89所述的方法，其中，所述至少四种生物标志物的集选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA 21-1、MIF、sICAM-1和SAA。

91.如权利要求88-90中任一项所述的方法，其中，所述至少四种生物标志物的集选自下组：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO-Pan、CEA、CXCL9/MIG、SAA、IL-2和PDGF-AB/BB。

92.如权利要求88-91中任一项所述的方法，其中，所述集包括至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或21种生物标志物。

93.如权利要求88-92中任一项所述的方法，其中，所述对象具有患非小细胞肺癌的风险。

94.如权利要求88-93中任一项所述的方法，其中，所述生物标志物度量指示非小细胞肺癌。

95.如权利要求88-94中任一项所述的方法，其中，所述生物标志物度量指示早期非小细胞肺癌，任选地，I期非小细胞肺癌。

96.如权利要求88-95中任一项所述的方法，其中，所述生物标志物是肽，蛋白质，携带翻译后修饰的肽，携带翻译后修饰的蛋白质或其组合。

97.如权利要求88-96中任一项所述的方法，其中，所述生理样品是全血、血浆、血清或其组合。

98.如权利要求1-97中任一项所述的方法，其中，所述生物标志物度量不指示哮喘，乳腺癌，前列腺癌，结直肠癌，胰腺癌或其组合。

99.如权利要求88-98中任一项所述的方法，其中所述方法还包括：

(a).在至少一个处理器上接收测试数据，所述测试数据包括来自人测试对象的生理样品中生物标志物集中各生物标志物的生物标志物度量；

(b).使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和

(c).使用至少一个处理器输出对所述来自人测试对象的样品的分类，所述分类是基于所述评估步骤的关于所述对象NSCLC存在或发展可能性的分类。

100.如权利要求99所述的方法，其中，所述分类系统包括选自下组的内容：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。

101.如权利要求99或100所述的方法，其中，所述分类系统包括随机森林。

102.如权利要求99或100所述的方法，其中，所述分类系统包括AdaBoost。

103.如权利要求99或100所述的方法，其中，所述分类系统包括朴素贝叶斯。

104.如权利要求99或100所述的方法，其中，所述分类系统包括支持向量机。

105.如权利要求99或100所述的方法，其中，所述分类系统包括LASSO。

106.如权利要求99或100所述的方法，其中，所述分类系统包括岭回归。

107.如权利要求99或100所述的方法，其中，所述分类系统包括神经网。

108.如权利要求99或100所述的方法，其中，所述分类系统包括遗传算法。

109.如权利要求99或100所述的方法，其中，所述分类系统包括弹性网。

110.如权利要求99或100所述的方法，其中，所述分类系统包括梯度增强树。

111.如权利要求99或100所述的方法，其中，所述分类系统包括贝叶斯神经网络。

112.如权利要求99或100所述的方法，其中，所述分类系统包括k-最近邻。

113.如权利要求99-112中任一项所述的方法，其中，所述分类器是随机森林分类器，所述随机森林分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

114.如权利要求99-113中任一项所述的方法，其中，所述分类器是AdaBoost分类器，所述AdaBoost分类器包括50、100、150、200、250、300、400、500、750或1,000次迭代。

115.如权利要求99-113中任一项所述的方法，其中，所述分类器是包含内核的支持向量机分类器，所述内核是多项式，高斯径向基，双曲正切或三角函数。

116.如权利要求99-113中任一项所述的方法，其中，所述分类器是LASSO分类器，所述LASSO分类器包括0.1、0.5、1、2、10、100的约束。

117.如权利要求99-113中任一项所述的方法，其中，所述分类器是岭回归分类器，所述岭回归分类器包括0.1、0.5、1、2、10、100的约束。

118.如权利要求99-113中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括1、2、4或5个隐藏层。

119.如权利要求99-113中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括卷积神经网络和递归神经网络。

120.如权利要求99-113中任一项所述的方法，其中，所述分类器是弹性网分类器，所述弹性网分类器包括0.1、0.5、1、2、10、100的约束。

121.如权利要求99-113中任一项所述的方法，其中，所述分类器是梯度增强树分类器，所述梯度增强树分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

122.如权利要求99-113中任一项所述的方法，其中，所述分类器是贝叶斯神经网分类器，所述贝叶斯神经网分类器包括1、2、4或5个隐藏层。

123.如权利要求99-113中任一项所述的方法，其中，所述分类器是k-最近邻分类器，所述k-最近邻分类器包括1、2、4、5、8或10个邻居。

124.一种通过测量对象中生物标志物集的表达水平来在疾病发展早期确定非小细胞肺癌存在性的方法，其包括：

通过免疫检测确定生理样品中生物标志物集的生物标志物度量，其中所述生物标志物集包含选自下组的至少四种生物标志物：IL-8、

MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4；

在分类系统中使用所述生物标志物度量就所述对象的非小细胞肺癌存在或发展对所述样品进行分类。

125.如权利要求124所述的方法，其中，所述生物标志物是肽，蛋白质，携带翻译后修饰的肽，携带翻译后修饰的蛋白质或其组合。

126.如权利要求124或125所述的方法，其中，所述生理样品是全血、血浆、血清或其组合。

127.如权利要求124-126中任一项所述的方法，其中，所述至少四种生物标志物的集选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA21-1、MIF、sICAM-1、SAA、IL-2和PDGF-AB/BB。

128.如权利要求124-126中任一项所述的方法，其中，所述至少四种生物标志物的集选自下组：IL-8、MMP-9、sTNFRII、TNFRI、MMP-7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO-Pan、CEA、瘦蛋白、CXCL9/MIG、CYFRA21-1、MIF、sICAM-1和SAA。

129.如权利要求124-126所述的方法，其中，所述至少四种生物标志物的集选自下组：IL-8、MMP-9、sTNFRII、TNFRI、抵抗素、MPO、NSE、GRO-Pan、CEA、CXCL9/MIG、SAA、IL-2和PDGF-AB/BB。

130.如权利要求124-126中任一项所述的方法，其中，所述集包括至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或19种生物标志物。

131.如权利要求124-130中任一项所述的方法，其中，所述分类系统包括选自下组的分类器：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。

132.如权利要求131所述的方法，其中，所述分类系统包括随机森林。

133.如权利要求131所述的方法，其中，所述分类系统包括AdaBoost。

134.如权利要求131所述的方法，其中，所述分类系统包括朴素贝叶斯。

135.如权利要求131所述的方法，其中，所述分类系统包括支持向量机。

136.如权利要求131所述的方法，其中，所述分类系统包括LASSO。

137.如权利要求131所述的方法，其中，所述分类系统包括岭回归。

138.如权利要求131所述的方法，其中，所述分类系统包括神经网。

139.如权利要求131所述的方法，其中，所述分类系统包括遗传算法。

140.如权利要求131所述的方法，其中，所述分类系统包括弹性网。

141.如权利要求131所述的方法，其中，所述分类系统包括梯度增强树。

142.如权利要求131所述的方法，其中，所述分类系统包括贝叶斯神经网络。

143.如权利要求131所述的方法，其中，所述分类系统包括k-最近邻。

144.如权利要求124-131中任一项所述的方法，其中，所述分类器是随机森林分类器，所述随机森林分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

145.如权利要求124-131中任一项所述的方法，其中，所述分类其是AdaBoost分类器，所述AdaBoost分类器包括50、100、150、200、250、300、400、500、750或1,000次迭代。

146.如权利要求124-131中任一项所述的方法，其中，所述分类器是包含内核的支持向量机分类器，所述内核是多项式，高斯径向基，双曲正切或三角函数。

147.如权利要求124-131中任一项所述的方法，其中，所述分类器是LASSO分类器，所述LASSO分类器包括0.1、0.5、1、2、10、100的约束。

148.如权利要求124-131中任一项所述的方法，其中，所述分类器是岭回归分类器，所述岭回归分类器包括0.1、0.5、1、2、10、100的约束。

149.如权利要求124-131中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括1、2、4或5个隐藏层。

150.如权利要求124-131中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括卷积神经网络和递归神经网络。

151.如权利要求124-131中任一项所述的方法，其中，所述分类器是弹性网分类器，所述弹性网分类器包括0.1、0.5、1、2、10、100的约束。

152.如权利要求124-131中任一项所述的方法，其中，所述分类器是梯度增强树分类器，所述梯度增强树分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

153.如权利要求124-131中任一项所述的方法，其中，所述分类器是贝叶斯神经网分类器，所述贝叶斯神经网分类器包括1、2、4或5个隐藏层。

154.如权利要求124-131中任一项所述的方法，其中，所述分类器是k-最近邻分类器，所述k-最近邻分类器包括1、2、4、5、8或10个邻居。

155.一种对测试数据进行分类的方法，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述方法包括：

·使用至少一个处理器评估测试数据，所述评估使用分类器进行，所述分类器是分类系统的电子表示，各分类器经过采用电子储存训练数据向量集的训练，各训练数据向量代表个人并且包含该对应人生物标志物集中各生物标志物的生物标志物度量，各训练数据向量还包含关于该对应人有否诊出NSCLC的分类；和

其中所述生物标志物集包含选自下组的至少八(8)种生物标志物：IL-8、sTNFRII、MMP-9、TNFRI、CXCL9-MIG、抵抗素、SAA、MPO、PDGF-AB-BB、MMP-7、GRO、MIF、MCP-1、CEA、CYFRA-21-1、瘦蛋白、IL-2、IL-10和NSE。

156.一种用于对测试数据进行分类的系统，所述测试数据包括多个生物标志物度量，所述生物标志物度量是生物标志物集中各项的生物标志物度量，所述系统包括：

与电子存储装置偶联的至少一个处理器，其包括分类器的电子表示，所述分类器经过采用电子储存训练数据向量集的训练，根据前述权利要求中的任一项，所述处理器设置成接收测试数据，所述测试数据包括人测试对象生物标志物集的多个生物标志物度量，所述至少一个处理器进一步设置成使用所述一个或多个分类器的电子表示来评估所述测试数据并基于评估结果输出对所述人测试对象的分类，

157.一种非暂时性的计算机可读存储介质，其上储存有可执行的程序，其中所述程序指令微处理器执行下述步骤：

接收对象生理样品中多个生物标志物的生物标志物度量；和

基于所述生物标志物度量对样品进行分类，所述分类使用分类系统和至少一个处理器进行，其中所述样品的分类指示所述对象中非小细胞肺癌(NSCLC)存在或发展可能性，

Claims

(a).从对象获得生理样品；和

60.一种用于诊断I期非小细胞肺癌的方法，其包括：

(a).从对象获得生理样品；

66.如权利要求60所述的方法，其中，所述分类系统包括LASSO。

88.一种检测多个生物标志物的方法，其包括：

(a).从对象获得生理样品；和

通过免疫检测确定生理样品中生物标志物集的生物标志物度量，其中所述生物标志物集包含选自下组的至少四种生物标志物：IL-8、MMP-9、sTNFRII、TNFRI、MMP7、IL-5、抵抗素、IL-10、MPO、NSE、MCP-1、GRO、CEA、瘦蛋白、CXCL9、HGF、sCD40L、CYFRA-21-1、sFasL、RANTES、IL-7、MIF、sICAM-1、IL-2、SAA、IL-16、IL-9、PDFG-AB/BB、sEFGR、LIF、IL-12p70、CA125和IL-4；

131.如权利要求52-58中任一项所述的方法，其中，所述分类系统包括选自下组的内容：随机森林，AdaBoost，朴素贝叶斯，支持向量机，LASSO，岭回归，神经网，遗传算法，弹性网，梯度增强树，贝叶斯神经网络，k-最近邻或其集合。

132.如权利要求1或2所述的方法，其中，所述分类系统包括随机森林。

133.如权利要求1或2所述的方法，其中，所述分类系统包括AdaBoost。

134.如权利要求1或2所述的方法，其中，所述分类系统包括朴素贝叶斯。

135.如权利要求1或2所述的方法，其中，所述分类系统包括支持向量机。

136.如权利要求1或2所述的方法，其中，所述分类系统包括LASSO。

137.如权利要求1或2所述的方法，其中，所述分类系统包括岭回归。

138.如权利要求1或2所述的方法，其中，所述分类系统包括神经网。

139.如权利要求1或2所述的方法，其中，所述分类系统包括遗传算法。

140.如权利要求1或2所述的方法，其中，所述分类系统包括弹性网。

141.如权利要求1或2所述的方法，其中，所述分类系统包括梯度增强树。

142.如权利要求1或2所述的方法，其中，所述分类系统包括贝叶斯神经网络。

143.如权利要求1或2所述的方法，其中，所述分类系统包括k-最近邻。

144.如权利要求99-113中任一项所述的方法，其中，所述分类器是随机森林分类器，所述随机森林分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

145.如权利要求99-113中任一项所述的方法，其中，所述分类其是AdaBoost分类器，所述AdaBoost分类器包括50、100、150、200、250、300、400、500、750或1,000次迭代。

146.如权利要求99-113中任一项所述的方法，其中，所述分类器是包含内核的支持向量机分类器，所述内核是多项式，高斯径向基，双曲正切或三角函数。

147.如权利要求99-113中任一项所述的方法，其中，所述分类器是LASSO分类器，所述LASSO分类器包括0.1、0.5、1、2、10、100的约束。

148.如权利要求99-113中任一项所述的方法，其中，所述分类器是岭回归分类器，所述岭回归分类器包括0.1、0.5、1、2、10、100的约束。

149.如权利要求99-113中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括1、2、4或5个隐藏层。

150.如权利要求99-113中任一项所述的方法，其中，所述分类器是神经网分类器，所述神经网分类器包括卷积神经网络和递归神经网络。

151.如权利要求99-113中任一项所述的方法，其中，所述分类器是弹性网分类器，所述弹性网分类器包括0.1、0.5、1、2、10、100的约束。

152.如权利要求99-113中任一项所述的方法，其中，所述分类器是梯度增强树分类器，所述梯度增强树分类器包括5、10、15、20、25、30、40、50、75或100个个体树。

153.如权利要求99-113中任一项所述的方法，其中，所述分类器是贝叶斯神经网分类器，所述贝叶斯神经网分类器包括1、2、4或5个隐藏层。

154.如权利要求99-113中任一项所述的方法，其中，所述分类器是k-最近邻分类器，所述k-最近邻分类器包括1、2、4、5、8或10个邻居。

接收对象生理样品中多个生物标志物的生物标志物度量；和