CN110444287B

CN110444287B - 使用分类系统及其试剂盒识别和诊断肺部疾病的方法

Info

Publication number: CN110444287B
Application number: CN201910609854.2A
Authority: CN
Inventors: R·T·斯特里珀; E·伊兹比茨卡; J·米夏勒克; C·劳登
Original assignee: Cancer Prevention and Cure Ltd
Current assignee: Cancer Prevention and Cure Ltd
Priority date: 2011-04-29
Filing date: 2012-04-30
Publication date: 2024-02-06
Anticipated expiration: 2032-04-30
Also published as: EP2702411A4; JP2022136138A; IL278227A; AU2012249288B2; EP3249408A1; KR102136180B1; US20140024553A1; JP2014514572A; CN103703371A; AU2017245307A1; US20190072554A1; HK1247286A1; US9952220B2; EP3825693A1; CA2834383A1; CN105005680A; IL261313B; AU2017245307B2; JP2018200322A; CA3120217A1

Abstract

本发明提供用于诊断肺部疾病，例如反应性气道疾病的非小细胞肺癌的生物标记物和生物标记物组合。将这些生物标记物的测定值输入诸如支持向量机或AdaBoost的分类系统，以帮助确定个体患有肺部疾病的可能性。还提供了包括检测所述生物标记物和生物标记物组合的试剂的试剂盒，以及帮助诊断肺部疾病的系统。

Description

使用分类系统及其试剂盒识别和诊断肺部疾病的方法

本申请是申请日为2012年4月30日、申请号为201280031514.2、发明名称为“使用分类系统及其试剂盒识别和诊断肺部疾病的方法”的发明专利申请的分案申请。

发明背景

(a)技术领域

本发明涉及使用生物标记物及其试剂盒对肺部疾病的检测、识别和诊断，以及根据生物标记物帮助确定疾病存在或不存在的可能性的系统。更具体地讲，本发明涉及通过测定特定生物标记物的表达水平，并且将这些测定值输入分类系统，例如支持向量机对非小细胞肺癌和反应性气道疾病进行的诊断。

(b)相关技术的描述

人类肺组织的病变

数以百万计的美国人患有呼吸系统的病变，例如哮喘和肺癌。事实上，据AmericanLung报告，几乎有2000万美国人患有哮喘。American Cancer Society,Inc.估计，仅在2007年新增的呼吸系统癌症为229,400例，呼吸系统癌症死亡为164,840例。虽然在检测到癌症还处于原位时，所有癌症病例的五年存活率均为46％，但肺癌患者的五年存活率仅为13％。相应地，仅有16％的肺癌在疾病扩散之前被发现。根据癌细胞的病变，肺癌通常分为两种主要类型。每种类型根据转化变为癌性的细胞类型命名。小细胞肺癌来源于人类肺组织中的小细胞，而非小细胞肺癌通常涵盖非小细胞类型的所有肺癌。非小细胞肺癌组合在一起，因为对于所有非小细胞类型治疗通常是相同的。非小细胞肺癌或NSCLC一起构成了约75％的所有肺癌。

肺癌难以在早期诊断，这一事实是肺癌患者低存活率的主要因素。当前诊断肺癌或识别其在人体中存在的方法仅限于采取肺部的X-射线、计算机断层成像(CT)扫描以及类似的测试，物理确定肿瘤的存在或不存在。因此，肺癌的诊断通常仅响应于明显或存在一段显著时间的症状，以及疾病存在于人体中的时间足以产生可物理检测的肿块之后作出。

相似地，当前检测哮喘的方法通常在症状，例如反复喘息、咳嗽和胸闷的出现很久以后才进行。当前检测哮喘的方法通常仅限于肺功能测试，例如肺活量测试或挑战测试。此外，这些测试通常由内科医生安排，随着多个其他测试进行，以排除其他病变或反应性气道疾病，例如慢性阻塞性肺病(COPD)、支气管炎、肺炎和充血性心力衰竭。

分类系统

已经广泛探索了各种分类系统，例如用于数据分析和数据挖掘的机器学习方法，用于识别模式，以及在存在恰为无关数据的其他信息的情况下启动包含于大数据库中的重要信息的提取。学习机器包括可训练为使用具有已知分类的数据归纳的算法。然后，训练的学习机器算法可用于在未知结果的情况下预测结果，即根据学习模式对数据分类。机器学习方法，包括神经网络、隐藏马尔可夫模型、信度网络和基于核的分类器例如支持向量机，可用于特征为大量数据、噪声模式以及一般理论缺乏的问题。

模式分类、回归和群集问题的多个成功方法依赖于确定一对模式的相似性的核。这些核通常定义为可以实数的向量表示的模式。例如，线性核、径向基核和多项式核均测定一对实数向量的相似性。当数据以该方式最佳地表示为实数序列时，此类核是适当的。核的选择对应于数据在特征空间中表示的选择。在多个应用中，模式具有更大的结构度。可开发这些结构用于改善学习算法的性能。机器学习应用中常见的结构化数据类型的例子为字符串、文档、树、图例如网站或化学分子、信号例如微阵列表达谱、光谱、图像、时空数据、关系数据和生物化学浓度等等。

分类系统已用于医疗领域。例如，使用各种计算机系统和分类系统例如支持向量机提出了诊断和预测医学病症出现的方法。参见，如美国专利No.7,321,881、7,467,119、7,505,948、7,617,163、7,676,442、7,702,598、7,707,134和7,747,547，这些专利的公开内容据此全文以引用方式并入。然而，这些方法未提供诊断和/或预测人类肺组织病变，例如非小细胞肺癌和/或反应性气道疾病的高度准确性。

同样，本领域也不存在诊断人类肺组织病变，尤其是在其发展的早期的简单、可靠方法。此外，目前也不存在能够指示特定肺组织病变存在的血测试法。因此，开发在疾病进展的早期确定肺癌存在的方法是所期望的。同样，开发在临床上明显症状的最早出现之前诊断哮喘和非小细胞肺癌，使它们彼此区分并且区别于其他肺部疾病例如感染的方法也是所期望的。

本发明的优选实施方案的概述

本发明通过提供使用各种分类系统例如支持向量机评估受试者中某些生物标记物的可靠方法来满足这些需要。

本发明提供了受试者的生理表征方法，其包括首先获得受试者的生理样品；然后确定该样品中多个生物标记物的生物标记物测定值；以及最后根据生物标记物测定值使用分类系统对样品分类，其中样品的分类与生理状态或病症，或受试者疾病状态的变化相关。通常，分类系统是机器学习系统，优选地核或分类以及基于回归树的分类系统，甚至更优选地支持向量机(SVM)或AdaBoost。

在一个实施方案中，该生理表征方法提供表征受试者中存在或不存在非小细胞肺癌，或非小细胞肺癌发展阶段的诊断。在另一个实施方案中，该生理表征方法提供表征受试者的反应性气道疾病，例如哮喘或阻塞性肺病的诊断。在又一个实施方案中，该生理表征方法提供表征受试者的肺部疾病的诊断，其中多个生物标记物包括帮助识别反应性气道疾病和非小细胞肺癌的征兆的标记物、多个表征反应性气道疾病的生物标记物，以及多个表征非小细胞肺癌的生物标记物，在所述样品中，多个生物标记物不是相同的；并且样品根据生物标记物测定值使用三种分类系统分类，其中样品的三种分类方式帮助识别受试者的(i)反应性气道疾病和非小细胞肺癌；(ii)存在或不存在反应性气道疾病；以及(iii)存在或不存在非小细胞肺癌的征兆；从而确定受试者患有(1)反应性气道疾病；(2)非小细胞肺癌，或(3)不存在疾病，这取决于存在于三种分类的两种中的病症。

本发明还提供对测试数据分类的方法，所述测试数据包括生物标记物集的每个的多个生物标记物测定值，所述方法包括以下步骤：接收测试数据，所述测试数据包括哺乳动物测试受试者中生物标记物集的多个生物标记物测定值，然后通过经训练的支持向量机的电子表示使用电子存储的训练数据向量集合评估测试数据，每个训练数据向量代表单个哺乳动物，并且包括相应哺乳动物的生物标记物集的每个生物标记物的生物标记物测定值，每个训练数据向量还包括相对于相应哺乳动物的疾病状态的分类；以及最后根据评估步骤输出哺乳动物测试受试者的分类。优选地，哺乳动物测试受试者是人。在另一个模型中，评估步骤包括访问电子存储的训练数据向量集合。

在另一个模型中，本发明提供训练支持向量机以生成对测试数据分类的模型的方法，所述测试数据包括生物标记物集的每个的多个生物标记物测定值，所述方法包括以下步骤：访问电子存储的训练数据向量集合，每个训练数据向量代表单个人，并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值，每个训练数据向量还包括相对于相应人的疾病状态的分类，以及使用电子存储的训练数据向量集合训练支持向量机的电子表示。随后，本发明提供接收测试数据，所述测试数据包括人测试受试者中生物标记物集的多个生物标记物测定值，使用训练支持向量机的电子表示(即，训练支持向量机生成的模型)评估测试数据；以及最后根据评估步骤输出人测试受试者的分类。

在又一个实施方案中，本发明提供对测试数据分类的方法，所述测试数据包括生物标记物集的每个的多个生物标记物测定值。该方法包括接收人测试受试者的测试数据，所述测试数据包括生物标记物集的至少每个生物标记物的生物标记物测定值。该方法还包括使用通过电子存储的第一训练数据向量集合训练的支持向量机的电子表示评估测试数据，第一训练数据向量集合中的每个训练数据向量代表单个人，并且包括相应人的生物标记物集的至少每个生物标记物的生物标记物测定值。第一训练数据向量集合的每个训练数据向量还包括相对于相应人的疾病状态的分类。该方法还包括根据评估步骤输出人测试受试者的分类。在该实施方案中，生物标记物集中的每个生物标记物(A)处于根据每个生物标记物的两组浓度测定值的边缘分布的集中趋势函数从最大至最小排序的生物标记物初始段中，其中排序的生物标记物的初始段是相对于第二训练数据向量集合的正确分类的百分比排序的生物标记物的其他初始段中最大的，其中第二训练数据向量集合的每个训练数据向量表示单个人，并且包括相应人的生物标记物集的至少每个生物标记物的生物标记物测定值，第二训练数据向量集合的每个训练数据向量还包括相对于相应人的疾病状态的分类，或(B)为在(A)中识别的生物标记物初始段中的生物标记物的一级相互作用因子。

通常，本发明的方法相对于疾病状态的存在或不存在对测试受试者分类，所述疾病状态优选地为肺部疾病，更优选地为非小细胞肺癌或反应性气道疾病，例如哮喘。生物标记物测定值可包括选自实例中所描述的生物标记物的至少一个蛋白质的血浆浓度测定值。优选地，生物标记物测定值包括至少四个不同生物标记物的血浆浓度，或者生物标记物测定值可包括至少六个不同生物标记物，或甚至至少十个不同生物标记物或至少十八个不同生物标记物的血浆浓度。训练向量集合可包括至少30个向量、50个向量，或甚至100个向量。在一个模型中，分类器是支持向量机，其包括一个或多个选自线性核、径向基核、多项式核、均匀核、三角核、Epanechnikov核、四次方(双权)核、三次立方(三权)核和余弦核的核函数。在另一个模型中，使用AdaBoost从基于如ID3或C4.5的初始分类器开发分类器。

本发明还提供对测试数据分类的系统，所述测试数据包括生物标记物集的每个的多个生物标记物测定值，其中所述系统包括计算机，所述计算机包括支持向量机的电子表示，所述支持向量机可使用电子存储的训练数据向量集合训练，每个训练数据向量代表单个人，并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值，每个训练数据向量还包括相对于相应人的疾病状态的分类，电子存储的训练数据向量集合可操作地联接到计算机，所述计算机还被配置为接收测试数据，所述测试数据包括人测试受试者中生物标记物集的多个生物标记物测定值，所述计算机还被配置为在训练后使用支持向量机的电子表示评估测试数据，并且根据评估输出人测试受试者的分类。

在另一个实施方案中，本发明提供对测试数据分类的系统，所述测试数据包括生物标记物集的每个的生物标记物测定值，其中所述系统包括计算机，所述计算机又包括支持向量机的电子表示，所述支持向量机训练为相对于测试受试者的疾病状态对测试数据分类，所述训练基于电子存储的训练数据向量集合，每个训练数据向量代表单个人，并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值，每个训练数据向量还包括相对于相应人的疾病状态的分类；所述计算机被配置为接收测试数据，所述测试数据包括人测试受试者中生物标记物集的多个生物标记物测定值，所述计算机还被配置为使用支持向量机的训练电子表示评估测试数据，并且根据评估输出人测试受试者的分类。

在任何实施方案中，本发明的系统适用于实施上述任何方法。在具体模型中，系统的任何实施方案中的计算机可另外配置为使用逻辑从生物标记物超集选择生物标记物集，所述逻辑被配置为(a)对于生物标记物超集中的每个生物标记物，计算每个生物标记物的两组浓度测定值的边缘分布之间的距离，从而生成多个距离；(b)根据距离对生物标记物超集中的生物标记物排序，从而生成生物标记物的有序集合；(c)对于生物标记物的有序集合的多个初始段的每个，根据训练数据计算模型拟合的测定值；(d)根据模型拟合的最大测定值选择生物标记物的有序集合的初始段，以选择生物标记物的有序集合的优选初始段；(e)从生物标记物的零集开始，从生物标记物的有序集合的优选初始段递归添加另外的生物标记物，生成生物标记物的子集，其中如果(1)其添加最大地提高了优选初始段中剩余的生物标记物中的模型拟合，以及(2)其添加提高了模型拟合至少预定的阈值，则将每个另外的生物标记物添加到生物标记物的现有子集；以及(f)当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的预定阈值时，停止将生物标记物添加到生物标记物的现有子集，从而选择生物标记物的子集。

本文提供的方法和系统能够诊断和预测肺部病变(如，肺癌、哮喘)，通常准确性(如，灵敏度和特异性)超过90％。这些结果与现有诊断和预测肺部病变例如非小细胞肺癌的方法相比提供了显著改进。

附图简述

图1A示出了实施例1的正常(NO)群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图1B示出了实施例1的非小细胞肺癌(LC)群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图1C示出了实施例1的哮喘(AST)群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图1D示出了实施例1的AST群体对NO群体、LC群体对NO群体和AST群体对LC群体中每个生物标记物的荧光强度平均值的百分比变化。

图2A示出了实施例1的正常(NO)女性群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图2B示出了实施例1的非小细胞肺癌(LC)女性群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图2C示出了实施例1的哮喘(AST)女性群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图2D示出了实施例1的AST群体对NO女性群体、LC群体对NO女性群体和AST群体对LC女性群体中每个生物标记物的荧光强度平均值的百分比变化。

图3A示出了实施例1的正常(NO)男性群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图3B示出了实施例1的非小细胞肺癌(LC)男性群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图3C示出了实施例1的哮喘(AST)男性群体中生物标记物的平均荧光强度水平，以及标准偏差和相对标准偏差。

图3D示出了实施例1的AST群体对NO男性群体、LC群体对NO男性群体和AST群体对LC男性群体中每个生物标记物的荧光强度平均值的百分比变化。

图4示出了实施例1的AST男性群体对AST女性群体、LC男性群体对LC女性群体和NO男性群体对NO女性群体中每个生物标记物的荧光强度平均值的百分比变化。

图5示出了各种分子与HGF(肝细胞生长因子)的关系。该图由ARIADNE PATHWAY生成。

图6示出了Adaboost的ROC曲线。

图7示出了SVM的ROC曲线。

图8示出了仅限于男性的Adaboost的ROC曲线。

图9示出了仅限于女性的Adaboost的ROC曲线。

图10示出了基于Adaboost模型的变量选择图。

图11示出了基于男性的Adaboost模型的变量选择图。

图12示出了基于女性的Adaboost模型的变量选择图。

图13示出了Adaboost模型的准确性分布。

图14示出了Adaboost模型的灵敏度分布。

图15示出了Adaboost模型的特异性分布。

发明详述

本发明涉及使用生物标记物检测、识别和诊断肺部疾病的各种方法。这些方法涉及确定特定生物标记物的生物标记物测定值以及使用分类系统中的这些生物标记物测定值确定个体患有非小细胞肺癌和/或反应性气道疾病(如，哮喘、慢性阻塞性肺病等)的可能性。本发明还提供包括检测这些生物标记物的检测剂的试剂盒，或用于确定这些生物标记物的生物标记物测定值，作为帮助确定肺部疾病的可能性的系统组件的装置。

示例性生物标记物通过测定内科医生确定诊断为非小细胞肺癌或哮喘的群体患者，以及未诊断为非小细胞肺癌和/或哮喘的患者的血浆中五十九个选择生物标记物的表达水平识别。该方法在实施例1中详细描述。

定义

如本文所用，“生物标记物”或“标记物”是可作为生物系统生理状态的特征指标客观测定的生物分子。出于本发明的目的，生物分子包括离子、小分子、肽、蛋白质、具有翻译后修饰的肽和蛋白质、核苷、核苷酸和多核苷酸(包括RNA和DNA)、糖蛋白、脂蛋白，以及这些类型分子的各种共价和非共价修饰。生物分子包括生物系统功能天然的、特征性的和/或本质的任何这些实体。大多数生物标记物为多肽，但它们也可以是mRNA或修饰的mRNA，其代表以多肽表达的基因产物的预翻译形式，或它们可包括多肽的翻译后修饰。

如本文所用，“生物标记物测定值”是用于表征疾病存在或不存在的生物标记物相关信息。此类信息可包括作为或与浓度成比例，或者提供生物标记物在组织或生物流体中表达的定性或定量指示的测定值。每个生物标记物可表示为向量空间中的维度，其中每个向量由具体受试者相关的多个生物标记物测定值组成。

如本文所用，“子集”为适当子集，“超集”为适当超集。

如本文所用，“受试者”意指任何动物，但优选地为哺乳动物，例如人。在多个实施方案中，受试者是患有或存在患有肺部疾病风险的人类患者。

如本文所用，“生理样品”包括来自生物流体和组织的样品。生物流体包括全血、血浆、血清、唾液、尿液、汗液、淋巴液和肺泡灌洗液。组织样品包括实体肺组织或其他实体组织的活组织、淋巴结活组织、转移性病灶的活组织。获得生理样品的方法是熟知的。

如本文所用，“检测剂”包括特异性检测本文所述的生物标记物的试剂和系统。检测剂包括例如抗体、核酸探针、核酸配体、凝集素的试剂，或对一个或多个特定标记物具有特定亲和力，足以区分所关注样品中的特定标记物和其他标记物的其他试剂，以及系统例如传感器，包括使用上述结合或换句话讲固定化试剂的传感器。

一级相互作用因子

为了促进和控制维持生命必须的多种细胞和机体生理功能，生物分子必须彼此相互作用。这些相互作用可视为通讯的类型。在该通讯中，各种生物分子可视为信息。这些分子作为其信号转导功能的必要部分，必然与多种靶标包括其他类型的生物分子相互作用。

一种类型的相互作用分子通常称为受体。此类受体结合同样作为相互作用分子的配体。另一种类型的直接分子间相互作用是辅因子或别构剂与酶的结合。这些分子间相互作用形成合作进行和控制细胞和生物体的基本生命功能的信号转导分子网络。这些相互作用分子的每个均为本发明术语中的生物标记物。本发明的特定生物标记物在生理上与其他生物标记物相关，所述其他生物标记物的水平增加或减少的方式与特定生物标记物的水平一致。这些其他相关的生物标记物相对于本发明的特定生物标记物称为“一级相互作用因子”。

“一级相互作用因子”是直接与特定生物分子相互作用的那些分子实体。例如，药物吗啡直接与阿片受体相互作用，最终减少疼痛感觉。因此，在“一级相互作用因子”的定义下，阿片受体是一级相互作用因子。一级相互作用因子包括其相互作用的通讯通路中所述生物标记物的上游和下游直接邻居。这些实体涵盖通过关系连接的蛋白质、核酸和小分子，所述关系包括但不限于：直接(或间接)调节、表达、化学反应、分子合成、结合、启动子结合、蛋白质修饰和分子运输。水平一致的生物标记物集合是本领域技术人员，以及生理学和细胞生物学学者熟知的。实际上，特定生物标记物的一级相互作用因子是本领域已知的，并且可使用各种数据库和可用的生物信息学软件例如ARIADNE PATHWAY ExPASYProteomics Server Qlucore Omics Explorer、Protein Prospector、PQuad、ChEMBL等等查找(参见，例如Ariadne,Inc.的ARIADNE PATHWAY/><www.ariadne.genomics.com>或欧洲生物信息学研究所(European Bioinformatics Institute)、欧洲分子生物学实验室(European Molecular Biology Laboratory)的ChEMBL数据库<www.ebi.ac.uk>)。

一级相互作用因子生物标记物是表达水平与一种生物标记物一致的那些生物标记物。因此，有关特定生物标记物水平的信息(“生物标记物测定值”)可通过测定与该特定生物标记物一致的一级相互作用因子的水平获得。当然，技术人员将确认作为替代或除特定生物标记物之外使用的一级相互作用因子的水平以确定和可再现的方式变化，所述方式符合特定生物标记物的行为。

作为另外一种选择，本发明提供的本文所述的任何方法可使用特定生物标记物的一级相互作用因子进行。例如，本发明的一些实施方案提供包括确定HGF的生物标记物测定值的生理表征方法。同样，本发明还提供包括确定HGF的一级相互作用因子的生物标记物测定值的生理表征方法。HGF的一级相互作用因子包括但不限于：图5中识别的那些(如，INS、EGF、MIF)。因此，在本发明的设想内，特定生物标记物测定值可用特定生物标记物的一级相互作用因子代替。

确定生物标记物测定值

生物标记物测定值是整体涉及表达产物，通常是蛋白质或多肽的定量测定值的信息。本发明涵盖了在RNA(翻译前)或蛋白质水平(可包括翻译后修饰)确定生物标记物测定值。具体地讲，本发明涵盖了确定反映转录、翻译、转录后修饰水平增加或减少，或蛋白质降解的范围或程度的生物标记物浓度的变化，其中这些变化与特定疾病状态或疾病进展相关联。

多个正常受试者表达的蛋白质在患有疾病或病症，例如非小细胞肺癌或哮喘的受试者中的表达更多或更少。本领域的技术人员将会知道大多数疾病表现出多个不同生物标记物的变化。同样，疾病可通过多个标记物的表达模式来表征。多个生物标记物表达水平的确定有助于观察表达模式，此类模式提供比单个生物标记物的检测更灵敏、更准确的诊断。模式可包括一些特定生物标记物的异常升高，同时其他特定生物标记物的异常减少。

根据本发明，生理样品从受试者收集，收集方式确保了样品中的生物标记物测定值与收集样品的受试者中该生物标记物的浓度成正比。测定的进行使得测定值与样品中生物标记物的浓度成正比。选择满足这些要求的取样技术和测定技术在本领域技术人员的认识内。

技术人员将会理解，对于单个生物标记物，多种确定生物标记物测定值的方法是本领域已知的。参见Instrumental Methods of Analysis，第7版，1988年)。此类测定可以多重或基于矩阵的格式进行，例如多重免疫测定。

多种确定生物标记物测定值的方法是本领域已知的。此类测定方法包括但不限于：放射免疫测定、酶联免疫吸附测定(ELISA)、具有通过可见或紫外光吸收进行放射或光谱检测的高压液相色谱、质谱定性和定量分析、蛋白质印迹、使用放射性、荧光或化学发光探针或核检测进行定量可视化的1维或2维凝胶电泳、具有吸收或荧光光度测定的基于抗体的检测、通过任何多个化学发光报告系统的发光进行定量、酶测定、免疫沉淀或免疫捕获测定、固相和液相免疫测定、蛋白质阵列或芯片、DNA阵列或芯片、板测定、使用具有结合亲和力、允许识别的分子例如核酸配体和分子印迹聚合物的测定以及通过任何其他合适技术以及任何所描述的检测技术或装置的仪器启动进行的生物标记物浓度的任何其他定量分析测定。

确定生物标记物测定值的步骤可通过本领域已知的任何装置，尤其是本文讨论的那些装置进行。在优选的实施方案中，确定生物标记物测定值的步骤包括使用抗体进行免疫测定。本领域的技术人员能够轻松地选择用于本发明的适当抗体。所选择的抗体优选地对所关注的抗原具有选择性(即，对特定生物标记物具有选择性)，对所述抗原具有高结合特异性，并且与其他抗原具有最小交叉反应性。抗体结合所关注抗原的能力可以例如通过已知方法，例如酶联免疫吸附测定(ELISA)、流式细胞术和免疫组织化学确定。此外，抗体应对所关注的抗原具有相对高的结合特异性。抗体的结合特异性可通过已知方法，例如免疫沉淀或通过体外结合测试如放射性免疫测定(RIA)或ELISA确定。选择能够结合所关注抗原、具有高结合特异性和最小交叉反应性的抗体的方法公开在例如美国专利No.7,288,249中有所提供，该专利全文据此以引用方式并入。表征肺部疾病的生物标记物的生物标记物测定值可作为分类系统，例如支持向量机的输入。

每个生物标记物可表示为向量空间中的维度，其中每个向量由具体受试者相关的多个生物标记物测定值组成。因此，向量空间的维数对应于生物标记物集的大小。多个生物标记物的生物标记物测定值模式可用于各种诊断和预后方法。本发明提供此类方法。示例性方法包括分类系统，例如支持向量机。

分类系统

本发明涉及尤其是根据多个、连续分布的生物标记物来预测肺部病变，如肺癌或哮喘。对于一些分类系统(如，支持向量机)，预测可以是三步处理。在第一步骤中，通过描述预定的数据集构建分类器。这是“学习步骤”，使用“训练”数据进行。

训练数据库是计算机实施的数据存储，其反映相对于每个相应人的疾病状态分类相关的多个人的多个生物标记物测定值。存储数据的格式可以是平面文件、数据库、表格，或本领域已知的任何其他可检索的数据存储格式。在示例性实施方案中，测试数据以多个向量存储，每个向量对应于单个人，每个向量包括多个生物标记物的多个生物标记物测定值，以及相对于人的疾病状态分类。通常，每个向量包含多个生物标记物测定值中每个生物标记物测定值的条目。训练数据库可连接到网络，例如互联网，使其内容可通过授权实体(如，人类用户或计算机程序)远程检索。或者，训练数据库可位于网络隔离的计算机中。

在第二步骤中，该步骤是可选的，分类器施加于“验证”数据库，并且观察到准确性，包括灵敏度和特异性的各种测量值。在示例性实施方案中，仅有一部分训练数据库用于学习步骤，其余部分训练数据库用作验证数据库。在第三步骤中，将受试者的生物标记物测定值提交到分类系统，其输出受试者的计算分类(如，疾病状态)。

多个构建分类器的方法是本领域已知的，包括决策树、贝叶斯分类器、贝叶斯信度网络、-最近邻分类器、范例推理和支持向量机(Han J和Kamber M,2006，第6章，DataMining,Concepts and Techniques第二版Elsevier:Amsterdam)。在优选的实施方案中，本发明涉及支持向量机的使用。然而，如本文所述，可使用本领域已知的任何分类系统。

支持向量机

支持向量机(SVM)是本领域已知的。例如，使用支持向量机提出了诊断和预测医学病症出现的方法。参见，如美国专利No.7,505,948、7,617,163和7,676,442，这些专利的公开内容据此全文以引用方式并入。

通常，SVM提供用于根据每个受试者的生物标记物测定值的一个-维向量(称为-元组)将n个受试者中的每个分为两个或更多个疾病类别的模型。SVM首先使用核函数将-元组转换为等于或大于维度的空间。核函数将数据映射到空间，其中类别可使用初始数据空间中可能的超平面更好地分离的。为了确定区分类别的超平面，可选择支持向量集，其位置最靠近疾病类别之间的边缘。然后通过已知SVM技术选择超平面，使得支持向量和超平面之间的距离在处罚不正确预测的成本函数的界限内达到最大。该超平面是依据预测最佳地分离数据的超平面(Vapnik,1998Statistical Learning Theory.New York:Wiley)。然后所有新观察值根据观察值相对于超平面的位置，分为属于所关注类别中的任何一者。当考虑超过两个类别时，对于所有类别处理成对地进行，并且其结果组合建立区分所有类别的规则。

在示例性实施方案中，使用称为高斯径向基函数(RBF)¹(Vapnik,1998(Vapnik，1998年))的核函数。RBF在先验知识不可用时使用，其用于从多个其他定义的核函数，例如多项式或S形核(Han J.&Kamber M.,page 343(Han J.和Kamber M.，第343页))选择。RBF将初始空间映射到无限维度的新空间。Karatzoglou等人用R统计语言对该受试者及其实施进行了讨论(Support Vector Machines in R.Journal of Statistical Software,2006)。本文所述的所有SVM统计计算使用统计软件编程语言和环境R 2.10.0(www.r-project.org)进行。SVM使用kernlab包中的ksvm()函数拟合。

以下描述提供了支持向量机的一些符号(Cristianini N,Shawe-Taylor J.AnIntroduction to Support Vector Machines and other kernel-based learningmethods,2000年，第106页)，及其区分来自多个集合的观察值的方法概述。

假设训练样品或训练数据库。

S＝((x₁，y₁)，(x₂，y₂)，...，(x_i，y_i)) (1)

其中，对于i＝1,...,l，x_i为生物标记物测定值的向量，并且y_i为x_i属于的集合(如，正常、非小细胞肺癌、哮喘)的指标，特征空间由核K(x，z)隐含地定义。假设参数α^*满足以下二次优化问题：

最大化

满足

使

其中b^*的选择使得

对于α_i ^*≠0的任何i。

sgn(f(x)) (5)

给出的决策规则等于核K(x，z)隐含地定义的特征空间中的超平面，核K(x，z)满足优化问题

最大化

满足y_i(<w·x_i>+b)≥1-ξ_i，ξ_i≥0

其中松弛变量ξ_i相对于如下几何边缘定义

其中S_v为索引集合，其中α＞0(对应的x_i称为支持向量)。

如果数据分为多于一个集合，则模型在集合(一系列子模型)之间成对拟合，每个子模型对特定集合持有决定票。观察值确定为属于最多投票的集合。

一个形成本发明的新方面的核函数的定义如下：

其中p为向量x_i的长度，并且v为预定常数(自由度)。

显然(8)实际上为有效核，考虑到矩阵K在K＝(K(x_i,x_j))ⁿi,j＝1，l＝2中定义。可以看出，该矩阵为正定的，注意到

其中a₁和a₂为x₁≠x₂的任何二维向量a的元素。使用归纳以及l＝2的范例的类似逻辑，矩阵K被发现是正定的，遵守默塞尔定理，函数K(x,z)是有效核函数。

其他合适的核函数包括但不限于：线性核、径向基核、多项式核、均匀核、三角核、Epanechnikov核、四次方(双权)核、三次立方(三权)核和余弦核。

其他分类系统

支持向量机是可用于数据的多个可能的分类器中的一个。通过非限制性例子的方式，并且如下所讨论，其他方法例如朴素贝叶斯分类器、分类树、-最近邻分类器等可用于相同的数据，该数据用于训练和验证支持向量机。

朴素贝叶斯分类器

贝叶斯分类器集合是基于贝叶斯分定理的分类器集合

该类型的所有分类器寻求观察值属于该观察值数据给出的类的概率。具有最高概率的类为每个新观察值分配的类。

理论上，贝叶斯分类器在分类器集合中具有最低误差率。在实施过程中，由于施加贝叶斯分类器时，作出了有关数据的违反假设，这并不总是发生。

朴素贝叶斯分类器是贝叶斯分类器的一个例子。其通过假设每个类与数据给出的其他类无关，简化了用于分类的概率计算。

由于植入容易和分类速度，朴素贝叶斯分类用于多个重要的反垃圾邮件过滤器，但缺点是所需的假设很少在实际中应用。

如本文所讨论，执行朴素贝叶斯分类器的工具可用于统计软件计算语言和环境R。例如，R包“e1071”1.5-25版包括建立、处理和利用朴素贝叶斯分类器的工具。

神经网络

思考神经网络的一种方式是作为加权有向图，其中边缘及其权重表示每个顶点对其连接的其他顶点的影响。神经网络有两部分：输入层(由数据形成)和输出层(待预测的值，在这种情况下为类)。输入层和输出层之间为隐藏顶点的网络。其取决于神经网络设计的方式，可以是输入层和输出层之间的多个顶点。

神经网络广泛用于人工智能和数据挖掘，但存在的风险是神经网络生成的模型会过度拟合数据(即模型能非常好地拟合当前数据，但不能很好地拟合未来的数据)。如本文所讨论，执行神经网络的工具可用于统计软件计算语言和环境R。例如，R包“e1071”1.5-25版包括建立、处理和利用神经网络的工具。

k-最近邻分类器

最近邻分类器是基于记忆的分类器的子集。这些是必须“记忆”训练集合中存在的，以对新观察值分类的分类器。最近邻分类器不需要拟合的模型。

为了建立-最近邻(knn)分类器，采取以下步骤：

1.计算训练组中待分类的观察值与每个观察值的距离。距离可使用任何有效的尺度计算，但通常使用欧几里德和马哈拉诺比斯²距离。

2.对属于每个集合的最近观察值中的观察值数量计数。

3.具有最高计数的集合为新观察值分配的集合。

最近邻算法由于距离在两个点之间计算的要求，在处理分类数据上具有问题，但可通过定义任意两个集合之间的距离克服。该类算法还对比例和尺度的变化敏感。考虑到这些问题，最近邻算法可以是非常强大的，尤其在大数据集合中。

如本文所讨论，执行-最近邻分类器的工具可用于统计软件计算语言和环境R。例如，R包“e1071”1.5-25版包括建立、处理和利用/>-最近邻分类器的工具。

分类树

分类树是内置于特征选择中的易于解释的分类器。分类树递归分割数据空间，使每个子空间中来自一类的观察值最大化。

递归分割数据空间的处理建立了具有在每个顶点测试的条件的二叉树。新观察值通过以下树的分支分类，直到达到叶。在每个叶处，概率分配到属于给定类的观察值。具有最高概率的类为新观察值的分类。

分类树基本上为决策树，其属性进入统计语言的框。它们具有高度柔性，但噪声非常大(与其他方法相比，误差的方差很大)。

如本文所讨论，执行分类树的工具可用于统计软件计算语言和环境R。例如，R包“树”1.0-28版包括建立、处理和利用神经网络的工具。

随机森林

分类树通常具有噪声。随机森林试图通过取多个树的平均值来减少该噪声。与分类树相比，结果是分类器误差的方差减小。

为了使森林生长，使用以下算法：

1.对于b＝1至B，其中B为在森林中生长的树的数量，

a.抽取自举样本³。

b.使分类树T_b在自举样本上生长。

2.输出集合{T_b}₁ ^B。该集合是随机森林。

为了使用随机森林对新观察值分类，使用随机森林中的每个分类树对新观察值分类。分类树中新观察值最常分入的类是随机森林将新观察值分入的类。

随机森林减少了分类树中存在的多个问题，但代价是可解释性。

如本文所讨论，执行随机森林的工具可用于统计软件计算语言和环境R。例如，R包“随机森林”4.6-2版包括建立、处理和利用随机森林的工具。

AdaBoost(自适应增强)

Adaboost提供了根据每个受试者的测定值的一个k-维向量(称为k-元组)将n个受试者中的每个分为两个或更多个⁴疾病类别的方式。AdaBoost采取一系列“弱”分类器，其具有较弱(虽然比随机强)的预测性能⁵，它们的组合可建立高级分类器。AdaBoost使用的弱分类器是分类和回归树(CART)。CART将数据空间递归分割为区域，其中对位于该区域内的所有新观察值分配特定的类别标签。AdaBoost根据数据集的加权形式建立一系列CART，所述数据集的权重取决于分类器在先前迭代的性能(Han J和Kamber M,(2006).Data Mining,Concepts and Techniques，第2版Elsevier:Amsterdam)。

数据分类的方法

本发明提供对从个体获得的数据(测试数据，即生物标记物测定值)分类的方法。这些方法涉及制备或获得训练数据，以及使用上述分类系统中的一种评估从个体获得的测试数据(与训练数据比较)。优选的分类系统是学习机，例如支持向量机或AdaBoost分类器。分类系统根据测试数据输出个体的分类。

测试数据可以是任何生物标记物测定值，例如多个生物标记物的血浆浓度测定值。在一个实施方案中，本发明提供对测试数据分类的方法，所述测试数据包括生物标记物集的每个的多个血浆浓度测量值的生物标记物测定值，所述方法包括：(a)访问电子存储的训练数据向量集合，每个训练数据向量或k-元组代表单个人，并且包括生物标记物测定值，例如生物标记物集的每个的血浆浓度测定值，训练数据还包括相对于每个相应人的疾病状态的分类；(b)使用电子存储的训练数据向量集合训练支持向量机的电子表示；(c)接收包括人测试受试者的多个血浆浓度测量值的测试数据；(d)使用支持向量机的电子表示评估测试数据；以及(e)根据评估步骤输出人测试受试者的分类。在另一个实施方案中，本发明提供对测试数据分类的方法，所述测试数据包括生物标记物集的每个的多个血浆浓度测量值的生物标记物测定值，所述方法包括：(a)访问电子存储的训练数据向量集合，每个训练数据向量或k-元组代表单个人，并且包括生物标记物测定值，例如生物标记物集的每个的血浆浓度测定值，训练数据还包括相对于每个相应人的疾病状态的分类；(b)使用电子存储的训练数据向量集合通过Adaboost生成分类器；(c)接收包括人测试受试者的多个血浆浓度测量值的测试数据；(d)使用AdaBoost分类器评估测试数据；以及(e)根据评估步骤输出人测试受试者的分类。根据本发明的输出包括在电子显示器上以人类可阅读的形式显示。

相对于疾病状态的分类可以是疾病状态的存在或不存在。根据本发明的疾病状态可以是肺部疾病，例如非小细胞肺癌或反应性气道疾病(如，哮喘)。

训练向量集合可包括至少20、25、20、35、50、75、100、125、150或更多个向量。

应当理解，对数据分类的方法可用于本文所述的任何方法。具体地讲，本文所述的对数据分类的方法可用于生理表征的方法以及诊断肺部疾病，例如非小细胞肺癌和反应性气道疾病(如，哮喘)的方法。

使用生物标记物数量的减少对数据分类

本发明还提供对涉及生物标记物降阶集合的数据(例如，从个体获得的测试数据)分类的方法。即，对于生物标记物的选择子集，训练数据可精简为排除除生物标记物测定值子集之外的所有数据。同样，测试数据可限制为来自生物标记物的相同选择集合的生物标记物测定值的子集。

在一个实施方案中，本发明提供对测试数据分类的方法，所述测试数据包括生物标记物集的每个的多个血浆浓度测量值的生物标记物测定值，所述方法包括：(a)访问电子存储的训练数据向量集合，每个训练数据向量代表单个人，并且包括相应人的生物标记物集的每个生物标记物的生物标记物测定值，每个训练数据向量还包括相对于相应人的疾病状态的分类；(b)从生物标记物集选择生物标记物的子集；(c)使用来自电子存储的训练数据向量集合的生物标记物子集的数据训练学习机，例如支持向量机的电子表示；(d)接收包括人测试受试者的多个血浆浓度测量值的测试数据；(d)使用学习机的电子表示评估测试数据；以及(e)根据评估步骤输出人测试受试者的分类。

在优选的实施方案中，选择生物标记物子集的步骤包括：(i)对于生物标记物集中的每个生物标记物，计算生物标记物的两组浓度测定值的边缘分布之间的距离，从而生成多个距离；(ii)根据距离对生物标记物集中的生物标记物排序，从而生成生物标记物的有序集合；(iii)对于生物标记物的有序集合的多个初始段的每个，根据训练数据计算学习机模型拟合的测定值；(iv)根据模型拟合的最大测定值选择生物标记物的有序集合的初始段，从而选择生物标记物的有序集合的优选初始段；(v)从生物标记物的零集开始，从生物标记物的有序集合的优选初始段，将另外的生物标记物递归添加到模型，生成生物标记物的子集，其中如果(a)其添加最大地提高了优选初始段中剩余的生物标记物中的模型拟合，以及(b)其添加提高了模型拟合至少预定的阈值，则将每个另外的生物标记物添加到生物标记物的现有子集；以及(vi)当另外的生物标记物未导致模型拟合的测定值超出模型拟合测定值的预定阈值时，停止将生物标记物添加到生物标记物的现有子集，从而选择生物标记物的子集。

本文所述的方法、试剂盒和系统可涉及确定所选择的多个生物标记物的生物标记物测定值。在优选的模型中，方法包括确定实例中描述的生物标记物的任何三个特定生物标记物子集的生物标记物测定值。或者，方法包括确定实例中描述的生物标记物的至少四个、五个、六个或七个特定生物标记物子集的生物标记物测定值。或者，方法包括确定实例中描述的生物标记物的至少八个、九个、十个、十一个、十二个或十三个特定生物标记物子集的生物标记物测定值。或者，方法包括确定实例中描述的生物标记物的至少十四个、十五个、十六个、十七个、十八个、十九个、二十个或更多个(如，五十九个)特定生物标记物子集的生物标记物测定值。当然，技术人员将认识到，其在本发明的设想内，以同时确定另外生物标记物的生物标记物测定值，无论其是否与所关注的疾病相关。这些另外生物标记物测定值的确定不会阻止根据本发明的受试者分类。

生物标记物子集可使用本文所述的降阶方法确定。例如，本发明提供各种模型选择算法(如，F_SSFS)，用于寻找对模型拟合的最高测定值有贡献，从而保持预测的高准确性的生物标记物子集。实施例7-10示出了生物标记物的特定子集的降阶模型。

在优选的模型中，从计算子集选择生物标记物，所述计算子集包含对模型拟合的最高测定值有贡献的生物标记物。只要包括这些生物标记物，本发明就不排除包括不一定有贡献的几个另外生物标记物。此类另外的生物标记物测定值包括于分类模型中也不会排除测试数据的分类，只要模型如本文所述设计。在其他实施方案中，确定受试者不超过4、5、6、7、8、9、10、12、15、20、25、30、35、40或50个生物标记物的生物标记物测定值，并且将相同数量的生物标记物用于训练阶段。

在另一个模型中，选择的生物标记物从计算子集选择，对模型拟合测定值贡献最少的生物标记物从所述计算子集移除。只要包括这些选择生物标记物，本发明就不排除包括不一定有贡献的几个另外生物标记物。此类另外的生物标记物测定值包括于分类模型中也不会排除测试数据的分类，只要模型如本文所述设计。在其他实施方案中，确定受试者不超过4、5、6、7、8、9、10、12、15、20、25、30、35、40或50个生物标记物的生物标记物测定值，并且将相同数量的生物标记物用于训练阶段。

还应当理解，本文所述的生物标记物的各种组合还适用于设计试剂盒的方法，以及本文所述的试剂盒和系统。在另一个实施方案中，学习机例如支持向量机使用训练模型对观察或测试数据分类所用的生物标记物的数量使用Lee的F_SSFS方法(Lee,2009)降阶，延伸到任意数量的集合。F_SSFS方法(i)确定作为保持于模型中的良好候选集的变量集；并且(ii)根据其F-分数⁶选择候选集，F-分数对集合间变量值之间的间距定量。前进模型选择施加到该变量集，其中变量根据其提高学习机的准确性添加到模型。如本文所示例，变量是生物标记物，集合是肺部病变类别。示例性学习机包括SVM和AdaBoost分类器。

本发明公开了选择生物标记物子集的不同技术。该技术的示例性算法包括如下步骤：

1.以下相对于训练数据向量的集合，其中每个训练数据向量包括分类。对于生物标记物集合G中的每个生物标记物g_r，r＝1,...,p，计算每个训练数据向量相关的经验分类定义的两个集合的生物标记物g_r中边缘分布之间的距离尺度，

在(11)中，术语m为考虑的集合数量。在使用学习机，例如支持向量机的大多数情况下，m＝2。术语表示训练数据向量集合中生物标记物测定值g_r的中值。术语/>表示第s个集合生物标记物g_r的中值，其中每个集合根据训练数据向量分类定义。术语x_r,s(0.75)和x_r,s(0.25)分别代表第s个集合的分布的上和下四分位数(对于生物标记物g_r)。注意到，使用经验训练数据向量分类定义通过s索引的两个集合的替代形式为使用支持向量机的初始运行，所述支持向量机执行所有生物标记物，以将每个训练向量分为离散集合。

2.按照其根据(11)的评估将生物标记物从大到小排序。

3.定义临界指数集合

其中对于一些c≥log₂p，t∈{1，...，c}} (12)

其中p为向量的维度。

4.对于每个K_t∈K，使第一个K_t生物标记物保持于训练学习机相关模型中，根据分数排序(降序)，并且计算模型拟合的测定值(例如灵敏度或准确性)。换句话讲，将根据(11)排序的生物标记物初始段保持于模型中，并且计算模型拟合的测定值，例如正确分类测试向量的百分比。(模型拟合的其他测定值包括准确性、灵敏度、特异性、阳性预测值和阴性预测值，参见例如表2。)对于K中的每个K_t，这在生物标记物的每个初始段(即，根据(11)排序的第一个生物标记物至第K_t个生物标记物)进行。使K’等于K_t，使得该K_t相关的模型具有最高模型拟合测定值。

5.定义集合

G’＝{g_r|F_r≥K’} (13)

6.从无生物标记物的模型开始，对于非当前模型中的每个g_r∈G'，添加g_r并且计算模型拟合的选择测定值。然后，移除生物标记物，并且将下一个生物标记物添加到集合中。

7.添加在步骤6中具有最高边缘增加(如果该增加大于预定的阈值)的模型拟合的生物标记物。例如，对于作为模型拟合尺度的正确分类测试向量的百分比，阈值可以为0.0005、0.0001、0.005、0.001、0.05、0.01、0.5或0.1。在前面的句子中，数字以绝对数表示，即无百分号；因此，例如，0.0005＝0.05％。

8.如果生物标记物在步骤7中添加，则返回步骤5。否则，来自前述算法迭代的集合，或空集(如果无生物标记物满足步骤7中定义的添加标准)为可用于模型的生物标记物降阶集合。因此，步骤6和7的第一迭代将单个生物标记物添加到模型(除非无生物标记物满足阈值标准)，并且每个后续迭代添加另外的生物标记物，直到处理根据阈值标准停止。因此，步骤6-8提供选择生物标记物的降阶集合的递归算法。

因此，上述步骤1和2涉及根据边缘分布对生物标记物排序。具体地讲，生物标记物可根据训练向量集合中两个生物标记物测定值集合的边缘分布集中趋势(如，中值)之间的距离排序(交替集中趋势，例如模型或平均值，可代替中值使用。)每个集合对应于分类，并且这些分类可从包含于训练数据本身内的经验分类获得，或它们可从利用所有生物标记物的学习机的初始运行获得。因此，生物标记物作为识别两个集合之间生物标记物测定值的能力的函数排序，其中所述两个集合对应于分类，无论是经验的还是学习机的初始运行生成的。

上述步骤3、4和5涉及边缘分布降序生物标记物初始段的选择，使得选择的初始段对于来自其他初始段中的训练向量集合具有最佳模型拟合。该初始段将作为生物标记物全域，最终降阶的生物标记物集合根据步骤6、7和8从其中选择。

步骤6、7和8涉及从无生物标记物的基本范例起始，将生物标记物递归添加到模型。顺序添加的生物标记物根据其对模型拟合的贡献选择，而不论其边缘分布顺序。基本步骤视为模型中的生物标记物空集。对于递归步骤，确定是否添加另外的生物标记物，生成每个其余生物标记物以及模型中当前生物标记物集合的学习机。当添加到现有生物标记物时，对应于最精确学习机的其余生物标记物是顺序添加的候选。只要对模型拟合有贡献的候选生物标记物超过阈值，则其依次添加。继续该顺序添加生物标记物的处理，直到其余最佳生物标记物不能增加模型拟合超过预定的阈值。

总之，该处理从步骤1-5中的选择生物标记物的初始全域开始，然后根据步骤6、7和8继续从该全域选择生物标记物的最终降阶集合。

或者，生物标记物的降阶集合可通过将步骤6中定义的初始模型改为步骤5中定义的超集获得，而不是从超集添加每个生物标记物，逐个移除每个生物标记物，并且计算模型拟合的测定值。随后，改变步骤7，以移除生物标记物，其中模型拟合测定值的减小最少，使得模型拟合的测定值的减小不超过预定的阈值。然后，进行步骤8，其中停止条件在步骤7中改为缺乏移除生物标记物，而不是在步骤7中缺乏添加生物标记物。

除了为学习机提供从数据估计的生物标记物优选集合之外，上述生物标记物子集选择算法可阐明所考虑的生物标记物的联系和相关性。为了实现这一点，在上述算法的步骤7中移除阈值，并且存储根据其准确性边缘提高的排序添加的生物标记物，所述准确性边缘提高相对于算法的每次迭代的前述迭代或每次迭代及其之前迭代之间准确性的增加提出的模型而言。

应当理解，使用生物标记物的降阶集合或子集对数据分类的方法可用于本文所述的任何方法。具体地讲，本文所述的使用数量减少的生物标记物对数据分类的方法可用于生理表征的方法以及诊断肺部疾病，例如非小细胞肺癌和反应性气道疾病(如，哮喘)的方法。除数量减少的生物标记物之外，还可添加生物标记物。这些另外的生物标记物可以或不可以对诊断有贡献或提高诊断。

用于诊断或预后测定的生物标记物的选择可使用特定生物标记物及其一级相互作用因子之间的已知关系促进。本发明人识别的多个(如果不是全部)生物标记物参与细胞或生物体的各种通讯通路。预期正常通讯通路的一个组分的偏差伴随着通讯通路其他成员的相关偏差。技术人员可使用各种数据库和可用的生物信息学软件(参见，例如Ariadne,Inc.的ARIADNE PATHWAY<www.ariadne.genomics.com>或欧洲生物信息学研究所(European Bioinformatics Institute)、欧洲分子生物学实验室(European MolecularBiology Laboratory)的ChEMBL数据库<www.ebi.ac.uk>)轻松地连接通讯通路的成员。根据确定多个生物标记物水平的诊断方法很可能使测量生物标记物水平提供的信息最大化，其中多个生物标记物包括与所述多个中的其他生物标记物不处于相同通讯通路的某些生物标记物。在可供选择的实施方案中，选择子集中的任何生物标记物可被相同通讯通路的另一个生物标记物(即，生物标记物的一级相互作用因子)取代。在支持向量机实施方案中，取代生物标记物的一级相互作用因子可涉及使用取代的生物测定值再训练支持向量机。

生理表征方法

本发明涉及如下所述各种群体中的个体的生理表征方法。如本文所用，根据本发明的生理表征方法包括诊断特定肺部疾病的方法，预测个体响应治疗干预的可能性的方法，确定个体是否存在患有个体肺部疾病风险的方法，对患者疾病严重性程度分类的方法，以及区分具有一些共有症状疾病的方法。通常，这些方法依赖于确定本文所述的特定生物标记物的生物标记物测定值，以及使用分类系统例如支持向量机中的这些值根据这些生理特征中的一者对个体分类。

A.对一般群体分类

本发明提供受试者中生理表征的方法，包括确定受试者生理样品中多个生物标记物的生物标记物测定值，其中多个标记物的表达模式与生理状态或病症，或疾病状态(如，非小细胞肺癌的分期)或病症的变化相关。在优选的实施方案中，多个生物标记物的表达模式是肺部疾病，例如非小细胞肺癌或反应性气道疾病的表征，或帮助区分反应性气道疾病或非小细胞肺癌。优选地，多个生物标记物根据通过机器学习算法，例如支持向量机的训练数据的分析选择。训练数据包括多个受试者的多个生物标记物，以及单个受试者的疾病分类信息(如，等式(1)的y_i)，以及任选地受试者的其他特征，例如性别、种族、年龄、吸烟史、雇佣史等。在另一个优选的实施方案中，生物标记物的表达模式与受试者具有或可以具有特定疾病或病症的可能性增加相关。在更多的优选实施方案中，确定受试者中多个生物标记物的生物标记物测定值的方法检测发展中的受试者具有或可以具有肺部疾病，例如非小细胞肺癌或反应性气道疾病(如，哮喘)可能性的增加。表达模式可通过本领域中已知的任何模式识别技术来表征。多个生物标记物可包括实施例1中描述的生物标记物的任何组合。

在一个实施方案中，受试者存在患有非小细胞癌或反应性气道疾病(如，哮喘、慢性阻塞性肺病等)的肺部疾病的风险。由于个人或家庭病史、行为、暴露于致病剂(如，致癌物)，或某些其他原因，受试者“存在风险”包括无症状、但比群体中的大部分更可能发展疾病的那些个体。“存在风险”的个体传统上通过个体确定的风险因素的聚集识别。本发明提供通过确定有关生物标记物的生物标记物测定值进行的“存在风险”个体的增强表征。

上述实施方案通过实例中描述的生物标记物列表示例。应当理解，这些生物标记物，例如实施例1-9中描述的那些的子集可用于任何所描述的实施方案。其他生物标记物的生物标记物测定值可在技术人员的判断时包括。

B.对男性群体分类

在优选的实施方案中，本发明提供男性受试者中生理表征的方法，包括确定男性受试者生理样品中多个生物标记物的生物标记物测定值，其中多个标记物的表达模式与生理状态或病症，或疾病状态(如，非小细胞肺癌的分期)或病症的变化相关。在另一个优选的实施方案中，多个生物标记物的表达模式是肺部疾病，例如非小细胞肺癌或反应性气道疾病的表征，或帮助区分反应性气道疾病或非小细胞肺癌。优选地，多个生物标记物根据训练数据的收集选择，所述训练数据包括识别为具有所考虑的疾病状态的多个男性受试者，以及类似数量已知未患有疾病的生物标记物测定值。然后通过机器学习算法，例如支持向量机分析该训练数据。表达模式可通过本领域中已知的任何模式识别技术来表征。多个生物标记物可包括实例，例如实施例1-5或7-8中所描述的生物标记物的任何组合。

在一个实施方案中，男性受试者存在患有非小细胞癌或反应性气道疾病(如，哮喘、慢性阻塞性肺病等)的肺部疾病的风险。“存在风险”的受试者和个体如上所讨论。

C.对女性群体分类

本发明还提供女性受试者中生理表征的方法。在优选的实施方案中，本发明提供女性受试者中生理表征的方法，包括确定女性受试者生理样品中多个生物标记物的生物标记物测定值，其中多个标记物的表达模式与生理状态或病症，或疾病状态(如，非小细胞肺癌的分期)或病症的变化相关。在另一个优选的实施方案中，多个生物标记物的表达模式是肺部疾病，例如非小细胞肺癌或反应性气道疾病的表征，或帮助区分反应性气道疾病或非小细胞肺癌。这些实施方案的方法类似于上述那些，不同的是训练数据集中的受试者为女性。多个生物标记物可包括实例，例如实施例1-4、6-7和9中所描述的生物标记物的任何组合。

在一个实施方案中，女性受试者存在患有非小细胞癌或反应性气道疾病(如，哮喘、慢性阻塞性肺病等)的肺部疾病的风险。“存在风险”的受试者和个体如上所讨论。

肺部疾病

本发明提供肺部疾病的各种诊断或预后方法。具体地讲，本发明提供诊断反应性气道疾病，尤其是过度反应性TH₂和TH₁₇细胞相关的疾病的方法。反应性气道疾病包括哮喘、慢性阻塞性肺病、过敏性鼻炎、囊性纤维化、支气管炎，或对各种生理和/或环境刺激表现出超反应性的其他疾病。具体地讲，本发明提供诊断哮喘和慢性阻塞性肺病，更具体地讲诊断哮喘的方法。

本发明还提供诊断非小细胞肺癌的方法。这些方法包括确定本文所述的多个生物标记物的生物标记物测定值，其中生物标记物是非小细胞肺癌存在或发展的表征。例如，本文所述的生物标记物的生物标记物测定值可用于确定非小细胞肺癌的发展程度、癌前病变的存在、或非小细胞肺癌的分期。

在特定实施方案中，受试者选自表现出非小细胞肺癌或反应性气道疾病的一个或多个症状的那些个体。症状可包括咳嗽、呼吸浅短、喘息、胸痛和咳血；向下到臂外的肩痛或导致嘶哑的声带麻痹；食道的侵入可导致吞咽困难。如果大气道阻塞，可发生肺的部分伸缩，并且产生导致脓肿或肺炎的感染。向骨转移可产生难以忍受的疼痛。向脑转移可导致神经学症状，包括目昏、头痛、癫痫，或通常与中风相关的症状，例如身体部分感觉减弱或丧失。肺癌通常产生肿瘤细胞生成激素样物质而导致的症状。通常可见于NSCLC的副肿瘤综合征为导致血液循环中的钙升高的甲状旁腺激素样物质的生成。哮喘通常产生例如咳嗽(尤其在夜里)、喘息、呼吸浅短以及胸闷、胸疼或胸压感觉的症状。因此，显然多种哮喘症状是NSCLC共有的。

诊断反应性气道疾病的方法

本发明涉及诊断如下所述各种群体中的个体的反应性气道疾病的方法。通常，这些方法依赖于确定本文所述的特定生物标记物的生物标记物测定值，以及使用分类系统，例如支持向量机对生物标记物测定值分类。

A.一般群体的测定

本发明提供诊断受试者中反应性气道疾病的方法，包括(a)获得受试者的生理样品；(b)确定所述样品中本文所述的多个生物标记物的生物标记物测定值；以及(c)根据生物标记物测定值使用分类系统对样品分类，其中样品的分类是受试者中反应性气道疾病的表征。

在优选的实施方案中，本发明提供诊断受试者中反应性气道疾病的方法，包括确定受试者生理样品中多个生物标记物的生物标记物测定值，其中多个标记物的表达模式是反应性气道疾病的表征或与反应性气道疾病状态的变化相关。优选地，多个生物标记物根据通过机器学习算法，例如支持向量机的训练数据的分析选择。训练数据包括多个受试者的多个生物标记物测定值，以及单个受试者的疾病分类，以及任选地受试者的其他特征，例如性别、种族、年龄、吸烟史、雇佣史等。在另一个优选的实施方案中，表达模式与受试者具有或可以具有反应性气道疾病的可能性增加相关。表达模式可通过本领域中已知的任何模式识别技术来表征。多个生物标记物可包括实施例1中描述的生物标记物的任何组合。

在至少一个实施方案中，受试者存在患有反应性气道疾病的风险。在一个实施方案中，确定个体的反应性气道疾病相关的特定生物标记物的生物标记物测定值，并且不同于正常群体预期的水平表明个体“存在风险”。在另一个实施方案中，受试者选自表现出反应性气道疾病的一个或多个症状的那些个体。

B.男性群体的测定

本发明提供诊断男性受试者中反应性气道疾病的方法。这些实施方案的方法类似于上述那些，不同的是对于训练数据和样品二者，受试者为男性。

C.女性群体的测定

本发明提供诊断女性受试者中反应性气道疾病的方法。这些实施方案的方法类似于上述那些，不同的是对于训练数据和样品二者，受试者为女性。

诊断非小细胞肺癌的方法

本发明涉及诊断如下所述各种群体中的个体的非小细胞肺癌的方法。通常，这些方法依赖于确定本文所述的特定生物标记物的生物标记物测定值，以及使用分类系统，例如支持向量机对生物标记物测定值分类。

A.一般群体的测定

本发明提供诊断受试者中非小细胞肺癌的方法，包括(a)获得受试者的生理样品；(b)确定所述样品中本文所述的多个生物标记物的生物标记物测定值；以及(c)根据生物标记物测定值使用分类系统对样品分类，其中样品的分类是受试者中非小细胞肺癌存在或发展的表征。

在优选的实施方案中，本发明提供诊断受试者中非小细胞肺癌的方法，包括确定受试者生理样品中多个生物标记物的生物标记物测定值，其中多个标记物的表达模式是非小细胞肺癌的表征，或与非小细胞肺癌疾病状态(即，临床或诊断期)的变化相关。优选地，多个生物标记物根据通过机器学习算法，例如支持向量机的训练数据的分析选择。训练数据包括多个受试者的多个生物标记物测定值，以及单个受试者的疾病分类，以及任选地受试者的其他特征，例如性别、种族、年龄、吸烟史、雇佣史等。在另一个优选的实施方案中，表达模式与受试者具有或可以具有非小细胞肺癌的可能性增加相关。表达模式可通过本领域中已知的任何模式识别技术来表征。多个生物标记物可包括实施例1中描述的生物标记物的任何组合。

在一个实施方案中，受试者存在患有非小细胞肺癌的风险。在另一个实施方案中，受试者选自表现出非小细胞肺癌的一个或多个症状的那些个体。

B.男性群体的测定

本发明提供诊断男性受试者中非小细胞肺癌的方法。这些实施方案的方法类似于上述那些，不同的是对于训练数据和样品二者，受试者为男性。

C.女性群体的测定

本发明提供诊断女性受试者中非小细胞肺癌的方法。这些实施方案的方法类似于上述那些，不同的是对于训练数据和样品二者，受试者为女性。

区分非小细胞肺癌和反应性气道疾病的方法

本发明涉及诊断如下所述各种群体中的个体的肺部疾病的方法。通常，这些方法依赖于确定区分反应性气道疾病和非小细胞肺癌的指示的特定生物标记物的生物标记物测定值，以及使用分类系统，例如支持向量机对生物标记物测定值分类。

A.一般群体的测定

本发明提供诊断受试者中肺部疾病的方法，包括确定所述受试者中多个生物标记物的生物标记物测定值，其中所述多个生物标记物的生物标记物测定值帮助区分反应性气道疾病和非小细胞肺癌的指示。在一个实施方案中，受试者诊断为患有反应性气道疾病和/或非小细胞肺癌。例如，诊断可通过受试者生理样品中至少一个生物标记物的生物标记物测定值确定，其中至少一个生物标记物的生物标记物测定值是反应性气道疾病和/或非小细胞肺癌的表征。

本发明还提供诊断受试者中肺部疾病的方法，包括(a)获得受试者的生理样品；(b)确定帮助识别所述样品中本文所述的反应性气道疾病和非小细胞肺癌的指示，表征反应性气道疾病的多个生物标记物，以及表征非小细胞肺癌的多个生物标记物的多个生物标记物的生物标记物测定值，其中所述多个生物标记物是不同的；(c)根据生物标记物测定值使用分类系统对样品分类，其中样品的分类帮助区分受试者中(i)反应性气道疾病和非小细胞肺癌；(ii)存在或不存在反应性气道疾病；和(iii)存在或不存在非小细胞肺癌的指示；以及(d)确定受试者患有(1)反应性气道疾病；(2)非小细胞肺癌；或(3)不存在疾病，这取决于三种分类中的二者存在的病症。

优选地，多个生物标记物根据通过机器学习算法，例如支持向量机的训练数据的分析选择。训练数据包括多个受试者的多个生物标记物测定值，以及单个受试者的疾病分类，以及任选地受试者的其他特征，例如性别、种族、年龄、吸烟史、雇佣史等。在优选的实施方案中，表达模式与受试者具有非小细胞肺癌或反应性气道疾病的可能性增加相关。表达模式可通过本领域中已知的任何模式识别技术来表征。多个生物标记物可包括实施例1中描述的生物标记物的任何组合。

在一个实施方案中，受试者存在患有非小细胞肺癌和/或反应性气道疾病的风险。在另一个实施方案中，受试者选自表现出非小细胞肺癌和/或反应性气道疾病的一个或多个症状的那些个体。

本发明还提供帮助区分受试者存在发展或患有非小细胞肺癌或反应性气道疾病风险的可能性的诊断方法，包括(a)获得存在患有非小细胞肺癌或反应性气道疾病的风险的受试者的生理样品；(b)确定所述受试者中多个生物标记物的生物标记物测定值，所述多个生物标记物帮助识别所述受试者存在患有所述样品中本文所述的非小细胞肺癌或反应性气道疾病的风险的可能性；(c)根据生物标记物测定值使用分类系统对样品分类，其中样品的分类帮助区分受试者中(i)反应性气道疾病和非小细胞肺癌；(ii)存在或不存在反应性气道疾病；和(iii)存在或不存在非小细胞肺癌的指示；以及(d)确定受试者存在发展或患有(1)反应性气道疾病；(2)非小细胞肺癌的风险；或(3)不存在疾病，这取决于三种分类中的二者存在的病症。

在一个实施方案中，受试者选自表现出非小细胞肺癌或反应性气道疾病的一个或多个症状的那些个体。涉及“存在风险”的受试者的方法在上文有所描述，并且本文涵盖了其相关方法。

B.男性群体的测定

本发明提供诊断男性受试者中肺部疾病的方法。这些实施方案的方法类似于上述那些，不同的是对于训练数据和样品二者，受试者为男性。

C.女性群体的测定

本发明提供诊断女性受试者中肺部疾病的方法。这些实施方案的方法类似于上述那些，不同的是对于训练数据和样品二者，受试者为女性。

设计表征系统的方法

A.一般群体

本发明还提供设计诊断受试者中肺部疾病的系统的方法，包括(a)选择多个生物标记物；(b)选择确定所述多个生物标记物的生物标记物测定值的装置；以及(c)设计包括确定生物标记物测定值的所述装置以及分析生物标记物测定值的装置的系统，以确定受试者患有肺部疾病的可能性。

本发明还提供设计诊断非小细胞肺癌的系统的方法，包括(a)选择多个生物标记物；(b)选择确定所述多个生物标记物的生物标记物测定值的装置；以及(c)设计包括确定生物标记物测定值的所述装置以及分析生物标记物测定值的装置的系统，以确定受试者患有非小细胞肺癌的可能性。

本发明还提供设计诊断受试者中反应性气道疾病的系统的方法，包括(a)选择多个生物标记物；(b)选择确定所述多个生物标记物的生物标记物测定值的装置；以及(c)设计包括确定生物标记物测定值的所述装置以及分析生物标记物测定值的装置的系统，以确定受试者患有反应性气道疾病的可能性。

本发明还提供设计诊断受试者中非小细胞肺癌或反应性气道疾病的系统的方法，包括(a)选择多个生物标记物；(b)选择确定所述多个生物标记物的生物标记物测定值的装置；以及(c)设计包括确定生物标记物测定值的所述装置以及分析生物标记物测定值的装置的系统，以确定受试者患有反应性气道疾病的可能性。在优选的方法中，多个生物标记物包括表征非小细胞肺癌的生物标记物，表征反应性气道疾病的生物标记物，以及帮助区分非小细胞肺癌和反应性气道疾病的生物标记物。

在上述方法中，作为另外一种选择，步骤(b)和(c)可通过(b)选择检测所述多个生物标记物的检测剂，以及(c)设计包括用于检测多个生物标记物的所述检测剂的系统进行。

B.男性群体

本发明还提供设计帮助诊断男性受试者中肺部疾病的系统的方法。这些实施方案的方法类似于上述那些。

C.女性群体

本发明还提供设计帮助诊断女性受试者中肺部疾病的系统的方法。这些实施方案的方法类似于上述那些。

试剂盒

本发明提供包括确定本文所述的多个生物标记物的生物标记物测定值的装置的试剂盒。本发明还提供包括检测本文所述的多个生物标记物的检测剂的试剂盒。

多个生物标记物可包括表征非小细胞肺癌的生物标记物，表征反应性气道疾病的生物标记物，和/或帮助区分非小细胞肺癌和反应性气道疾病的生物标记物。优选地，这些生物标记物是通过本文所述方法确定的生物标记物的降阶集合。

本文还提供包括(a)确定表征非小细胞肺癌的多个生物标记物的生物标记物测定值的第一装置；和(b)确定表征反应性气道疾病的多个生物标记物的生物标记物测定值的第二装置的试剂盒，其中(a)和(b)中的所述生物标记物是不同的。

本文还提供包括(a)检测表征非小细胞肺癌的多个生物标记物的检测剂；和(b)检测表征反应性气道疾病的多个生物标记物的检测剂的试剂盒，其中所述生物标记物(a)和(b)是不同的。

本文还提供包括(a)确定表征非小细胞肺癌的多个生物标记物的生物标记物测定值的第一装置；(b)确定表征反应性气道疾病的多个生物标记物的生物标记物测定值的第二装置；和(c)确定帮助区分非小细胞肺癌和反应性气道疾病的多个生物标记物的生物标记物测定值的第三装置的试剂盒，其中(a)、(b)和(c)中的所述生物标记物是不同的。

本文还提供包括(a)检测表征非小细胞肺癌的多个生物标记物的检测剂；(b)检测表征反应性气道疾病的多个生物标记物的检测剂；和(c)检测帮助区分非小细胞肺癌和反应性气道疾病的多个生物标记物的检测剂的试剂盒，其中(a)、(b)和(c)中的所述生物标记物是不同的。

应当理解，本发明涵盖了包括通过需要检测特定多个生物标记物的任何方法检测上述生物标记物的任何特定组合的装置的试剂盒。

系统

本发明提供帮助进行本发明的方法的系统。示例性系统包括用于存储训练数据集和/或测试数据集的存储装置以及用于执行学习机例如AdaBoost分类器或SVM的计算机。计算机也可操作用于从数据库收集训练数据集，预处理训练数据集，使用预处理的测试数据集训练学习机，并且响应接收训练学习机的测试输出，后处理测试输出，以确定测试输出是否为最优解。此类预处理可包括，例如目视检查数据以检测和移除明显错误的条目，除以适当的标准数量归一化数据，以及确保数据处于适用于各自算法的适当形式。示例性系统也可包括用于从远程源接收测试数据集和训练数据集的通讯装置。在此类情况下，计算机能够操作以在训练数据集预处理之前将训练数据集存储于存储装置中，并且在测试数据集预处理前将测试数据集存储于存储装置中。示例性系统也可包括用于显示后处理测试数据的显示装置。示例性系统的计算机还能够操作以进行上述每个另外的功能。

如本文所用，术语“计算机”应理解为包括至少一个使用至少一个存储器的硬件处理器。所述至少一个存储器可存储指令集。指令可以永久地或暂时地存储于计算机的一个或多个存储器中。处理器执行存储于一个或多个存储器中的指令，以处理数据。指令集可包括执行特定的一个或多个任务，例如本文所述的那些任务的各种指令。此类用于执行特定任务的指令集的特征为程序、软件程序或简单软件。

如上所述，计算机执行存储于一个或多个存储器中的指令，以处理数据。数据的处理可以例如响应计算机的一个或多个用户的命令，响应前述处理，响应另一个计算机和/或任何其他输入的请求。

用于指示部分进行实施方案的计算机可以是通用计算机。然而，计算机也可利用任何多种其他技术，包括专用计算机、计算机系统，包括微型计算机、小微计算机或主机，例如编程微处理器、微控制器、周边集成电路元件、CSIC(客户专用集成电路)或ASIC(应用型专用集成电路)或其他集成电路、逻辑电路、数字信号处理器、可编程逻辑装置例如FPGA、PLD、PLA或PAL，或能够执行本发明处理的至少一些步骤的任何其他装置或装置排列。

应当理解，为了实施本发明的方法，计算机的处理器和/或存储器不必物理定位于相同的地理位置。即，计算机使用的每个处理器和存储器可定位于不同的地理位置，并且连接以通过任何合适的方式通讯。另外，应当理解，每个处理器和/或存储器可由设备的不同物理部件构成。因此，处理器为处于一个位置的一个单个设备部件，存储器为处于另一个位置的另一个单个设备部件不是必要的。即，设想例如处理器可以是处于两个不同物理位置的两个或更多个设备部件。两个或更多个不同的设备部件可以任何合适的方式，例如网络连接。另外，存储器可包括处于两个或更多个物理位置的两个或更多个存储器部分。

各种技术可用于提供例如各种计算机、处理器和/或存储器之间的通讯，以及允许本发明的处理器和/或存储器与任何其他实体通讯；例如以获得另外的指令或访问和使用远程存储器。用于提供此类通讯的此类技术可包括例如网络、互联网、内联网、外部网络、LAN、以太网，或提供通讯的任何客户服务系统。此类通讯技术可使用例如任何合适的协议，例如TCP/IP、UDP或OSI。

另外，应当理解用于本发明实施和操作的计算机指令或指令集为适当形式，使得计算机可读取指令。

在一些实施方案中，可使用多个用户界面，以允许人类用户与用于指示部分执行实施方案的计算机或机器交接。用户界面可以是对话屏幕的形式。用户界面也可包括任何鼠标、触摸屏、键盘、语音阅读器、语音识别器、对话屏幕、菜单框、列表、复选框、触发器、按键或在其处理指令集和/或为计算机提供信息时允许使用者接收有关计算机操作的任何其他装置。因此，用户界面是提供使用者和计算机之间通讯的任何装置。使用者通过用户界面为计算机提供的信息可以是例如命令、数据选择，或某些其他输入的形式。

还设想到本发明的用户界面与另一个计算机而非人类用户进行交互，例如传输和接收信息。因此，其他计算机的特征在于使用者。另外，涵盖了用于本发明的系统和方法的用户界面与另外一个或多个计算机部分交互，同时与人类用户部分交互。

提供以下实例以示例本文所公开的本发明各种模型，但它们不旨在以任何方式限制本发明。

实施例1-使用支持向量机进行数据收集和分析

样品收集

从志愿者收集人类血液样品。从未知患有非小细胞肺癌还是哮喘的个体收集两百八十八个样品。这些样品包括并且在本文中称为“正常群体”。从已知患有和内科医生诊断为哮喘的个体收集一百八十个血液样品。这些样品包括并且在本文中称为“哮喘群体”。从已知患有和内科医生诊断为非小细胞肺癌的个体收集三百六十个血液样品。这些包括并且在本文中称为“肺癌群体”。样品的人口统计和病症在下表中提供。

进行研究以选择据信表达水平改变与肺癌或哮喘相关的生物标记物。如本文所用，“肺癌”旨在涵盖已知为非小细胞肺癌的那些肺癌。研究、方法和获得的数据如下所述，并且呈现于WO/2010/105235中，该专利全文据此以引用方式并入。

选择以下五十九个生物标记物进行测试：CD40、肝细胞生长因子(“HGF”)、I-TAC(“CXCL11”；“趋化因子(C-X-C基序)配体11”、“干扰素诱导T-细胞α趋化因子”)、瘦蛋白(“LEP”)、基质金属蛋白酶(“MMP”)1、MMP 2、MMP 3、MMP 7、MMP 8、MMP 9、MMP 12、MMP 13、CD40可溶性配体(“CD40配体”)、表皮生长因子(“EFG”)、嗜酸性粒细胞活化趋化因子(“CCL11”)、Fractalkine、粒细胞集落刺激因子(“G-CSF”)、粒细胞巨噬细胞集落刺激因子(“GM-CSF”)、干扰素γ(“IFNγ”)、白介素(“IL”)1α、IL-1β、IL-1ra、IL-2、IL-4、IL-5、IL-6、IL-7、IL-8、IL-10、IL-12(p40)、IL-12(p70)、IL-13、IL-15、IL-17、IP-10、单核细胞趋化蛋白1(“MCP-1”)、巨噬细胞炎性蛋白(“MIP”)1α、MIP-1β、转化生长因子α(“TGFα”)、肿瘤坏死因子α(“TNFα”)、血管内皮生长因子(“VEGF”)、胰岛素(“Ins”)、C-肽、胰高血糖素样蛋白-1/胰淀素(“GLP-1/胰淀素”)、胰淀素(总)、胰高血糖素、脂联素、纤溶酶原激活物抑制剂1(“PAI-1”；“丝氨酸蛋白酶抑制剂”)(活化/总)、抵抗素(“RETN”；“xcp1”)、sFas、可溶性Fas配体(“sFasL”)、巨噬细胞游走抑制因子(“MIF”)、sE-选择素、可溶性血管细胞粘附分子(“sVCAM”)、可溶性细胞间粘附分子(“sICAM”)、髓过氧化物酶(“MPO”)、C-反应蛋白(“CRP”)、血清淀粉样蛋白A(“SAA”；“SAA1”)和血清淀粉样蛋白P(“SAP”)。

数据收集

对正常、哮喘和肺癌群体中的每个的血浆样品筛选五十九个生物标记物中的每个生物标记物，所述筛选通过使用Luminex's xMAP技术、使用基于自动化珠技术的定量多重免疫测定分析血浆样品来进行。

使用多个不同的测定试剂盒，所述试剂盒具有Luminex xMAP技术筛选生物标记物，即密理博(Millipore)的人细胞因子/趋化因子(目录号MPXHCYTO-60K)、人内分泌(目录号HENDO-65K)、人血清脂肪因子(目录号HADKI-61K)、人败血病/细胞凋亡(目录号HSEP-63K)、人心血管试剂盒1(目录号HCVD1-67AK)和人心血管试剂盒2(HCVD2-67BK)、R&DSystems,Inc.的人Fluorokine MAP图谱基本试剂盒B(目录号LUB00)和人Fluorokine MAPMMP图谱基本试剂盒(目录号LMP000)。也可使用Panomics的Procarta细胞因子试剂盒(目录号PC1017)。使用来自两个不同试剂盒的PAI-1和瘦蛋白的抗体。PAI-1^A和瘦蛋白¹的抗体由密理博(Millipore)生产。PAI-1^B的抗体由Panomics生产。

多重免疫测定产生的荧光强度水平记录为每个群体的每个血浆样品的五十九个生物标记物中的每个的生物标记物测定值。所记录的荧光强度与样品中对应生物标记物的浓度成比例，还与样品收集时其在个体中的表达程度成比例。计算每个群体的每个生物标记物相关的荧光强度水平的平均值、标准偏差和相对标准偏差。图1A至1C示出了正常(NO)、非小细胞肺癌(LC)和哮喘(AST)群体中每个生物标记物测定值的平均值、标准偏差和相对标准偏差，而图1D示出了任何两个这些群体之间特定生物标记物测定值水平之间的平均变化。

还根据性别区分所获得的数据。

图2A-2C示出了正常(NO)、非小细胞肺癌(LC)和哮喘(AST)女性群体中生物标记物的平均荧光强度水平。图2D示出了AST对NO女性群体、LC对NO女性群体和AST对LC女性群体中生物标记物测定值的每个的平均值的百分比变化。

相对于男性群体的相同信息在图3A-3D中示出。

然后，比较女性和男性群体的数据。图4示出了AST男性群体对AST女性群体、LC男性群体对LC女性群体和NO男性群体对NO女性群体中每个生物标记物测定值平均值的百分比变化。

Luminex测定的数据电子存储于数据存储装置中，其中特定患者样品中每个生物标记物的荧光强度数据根据内科医生的诊断通过该患者的经验分类识别。

数据分析

通过支持向量机算法进行的数据分析使用以下步骤完成：

1.数据集从存储装置读入处理装置。

2.预加工数据，使其适用于模型选择算法和支持向量机。

3.数据随机分为两个集合：训练集和验证集。

4.支持向量机算法使用训练数据集运行，生成模型。本文所述的所有SVM统计计算使用统计软件编程语言和环境R 2.10.0(www.r-project.org)进行。SVM使用kernlab包中的ksvm()函数拟合。

5.来自验证数据集的数据通过前述步骤生成的模型后处理，以计算预测分类。将预测分类与测试集样品的经验分类比较，以计算模型拟合的测定值，例如准确性、灵敏度、特异性、阳性预测值和阴性预测值，其中灵敏度为假设受试者患有疾病，受试者预测为患有疾病的概率，特异性为假定受试者未患疾病，受试者预测为未患有疾病的概率，阳性预测值为假定受试者预测为患有疾病，而受试者患有疾病的概率，阴性预测值为假定受试者预测为未患有疾病，受试者未患有疾病的概率，以及准确性为正确预测的概率。

787位受试者具有完整数据。只有他们用于分析。训练集具有398位受试者，测试集具有389位受试者。

当分析对完全数据集进行时，389位受试者中的344位正确分类，准确性为0.88(SE:0.017)(参见表1)。参见癌症受试者和所有其他受试者之间的比较，支持向量机的灵敏度为0.98(SE:0.007)，阴性预测值为0.99(SE:0.008)(参见表2)。

表1.模型1(所有组)：关联表(N＝389)

¹标准误差

表2.模型1(所有组)：性能统计(N＝389)

/>

¹对于灵敏度、FPF和特异性，这是实际病变。对于PPV和NPV，这是预测病变。

²标准误差

³对于(TPF,FPF)

⁴对于(灵敏度，特异性)

⁵对于(PPV,NPV)

实施例2-肺癌数据的分析

支持向量机还拟合来自实施例1的数据集，其中排除了哮喘受试者。如实施例1中所述，对仅由癌症和无疾病受试者组成的数据集进行步骤1-5。所得的支持向量机具有的灵敏度为0.92(SE:0.016)，特异性为0.92(SE:0.015)(参见表3、4)。

表3.模型1(癌症与正常)：关联表(N＝296)

¹标准误差

表4.模型1(癌症与正常)：性能统计(N＝296)

²标准误差

³对于(TPF,FPF)

⁴对于(灵敏度，特异性)

⁵对于(PPV,NPV)

实施例3-使用不同测试集进行的分析

实施例1中从Luminex测定收集的数据使用实施例1中描述的步骤1-5再次分析。来自单个样品的数据随机分配到新训练集和测试集。训练集具有398位受试者，测试集具有389位受试者。

考虑将实施例1中描述的59个生物标记物，以及性别用于预测样品为哮喘、癌，还是正常。结果如下所示。

所有59个生物标记物和性别

癌、正常和哮喘(N＝389)

实施例4-肺癌数据的分析

支持向量机还拟合来自实施例3的训练数据集，其中排除了哮喘受试者。实施例1中数据分析方案的步骤1-5使用排除了哮喘患者的验证数据集生成的结果如下所示。

所有59个生物标记物和性别

癌和正常(N＝296)

实施例5-肺癌数据的分析(男性)

考虑将59个生物标记物用于使用实施例3的数据集预测男性样品为癌还是正常。根据实施例1的五步骤方案分析数据，结果如下所示。

所有59个生物标记物；仅男性

癌和正常；仅男性(N＝182)

然后考虑将生成的模型用于预测男性和女性样品为癌还是正常。结果如下所示。

所有59个生物标记物；仅男性

癌和正常；男性(N＝182)和女性(N＝114)；总计(N＝296)

实施例6-肺癌数据的分析(女性)

考虑将59个生物标记物用于使用实施例3的数据集预测女性样品为癌还是正常。实施例1的数据分析方案的步骤1-5仅用于女性患者的数据。结果如下所示。结果如下所示。

所有59个生物标记物；仅女性

癌和正常；仅女性(N＝114)

然后考虑将相同的模型用于预测男性和女性样品为癌还是正常。结果如下所示。

所有59个生物标记物；仅女性

癌和正常；男性(N＝182)和女性(N＝114)；总计(N＝296)

实施例7-选择算法(生物标记物：癌和正常)

实施例1-6中的结果涉及包括59个生物标记物的模型。如本文所讨论，生物标记物的数量可减少，而不会显著减少使用选择算法预测的准确性。运行生物标记物选择算法查找用于支持向量机的生物标记物。

使用上述八步生物标记物选择算法，选择4个生物标记物模型(EGF、sCD40配体、IL-8和MMP-8)来表征两个肺部病变类别(癌、正常)。根据五步方案处理实施例1的数据，不同的是步骤2预加工包括排除除了选择算法选择的四个生物标记物之外的所有生物测定值。如下所述，模型拟合测定值显示出95％的准确性、93％的灵敏度和87％的特异性。

从59个生物标记物选择的四个变量(EGF、sCD40配体、IL-8、MMP-8)的子集

癌和正常(N＝296)

实施例8-选择算法(生物标记物和男性：癌和正常)

将实施例7中描述的限定生物标记物的处理用于实施例1的数据子集，该数据仅包含男性患者的值。使用八步生物标记物选择算法，选择5个生物标记物模型(EGF、IL-8、Sfas、MMP-9和PAI-1⁷)表征男性的两个肺部病变类别(癌、正常)，如下所示，准确性为100％，灵敏度为100％，特异性为100％。

从59个生物标记物选择的五个变量(EGF、IL-8、Sfas、MMP-9、PAI-1)的子集；仅男性

癌和正常；仅男性(N＝182)

然后将相同的考虑集(即，5个生物标记物和男性的子集)用于预测男性和女性样品为癌还是正常。结果如下所示。

从59个生物标记物选择五个变量(EGF、IL-8、Sfas、MMP-9、PAI-1)的子集；仅男性

癌和正常；男性(N＝182)和女性(N＝114)；总计(N＝296)

实施例9-选择算法(生物标记物和女性：癌和正常)

将实施例7中描述的限定生物标记物的处理用于实施例1的数据子集，该数据仅包含女性患者的值。使用八步生物标记物选择算法，选择3个生物标记物模型(EGF、sCD40配体、IL-8)表征女性的两个肺部病变类别(癌、正常)，如下所示，准确性为100％，灵敏度为100％，特异性为100％。

从59个生物标记物选择三个变量(EGF、sCD40配体、IL-8)的子集；仅女性

癌和正常；仅女性(N＝114)

然后将相同的考虑集(即，3个生物标记物和女性的子集)用于预测男性和女性样品为癌还是正常。结果如下所示。

癌和正常；男性(N＝182)和女性(N＝114)；总计(N＝296)

实施例10-使用AdaBoost进行的数据收集和分析

数据问题

接收的数据为实施例1所描述的来自Luminex的原始生物标记物浓度输出。来自Luminex的数据输出包括荧光水平、事件的数量、聚合荧光水平、截取荧光水平、归一化⁸生物标记物浓度、聚合归一化生物标记物浓度和截取生物标记物浓度。对于本文所述的分析，使用归一化生物标记物浓度。蛋白质定量检验显示，就蛋白质总量而言样品大致匹配，因此使生物标记物水平进一步归一化⁹是不必要的。

收集以下86个生物标记物中的每个的生物标记物定量数据：脑源性神经营养因子(“BDNF”)、B淋巴细胞趋化因子(“BLC”)、皮肤T-细胞吸引趋化因子(“CTACK”)、嗜酸性粒细胞活化趋化因子-2、嗜酸性粒细胞活化趋化因子-3、粒酶-B、肝细胞生长因子(“HGF”)、I-TAC(“CXCL11”；“趋化因子(C-X-C基序)配体11”、“干扰素诱导T-细胞α趋化因子”)、瘦蛋白(“LEP”)、白血病抑制因子(“LIF”)、巨噬细胞集落刺激因子(“MCSF”)、γ干扰素诱导的单核细胞因子(“MIG”)、巨噬细胞炎性蛋白-3α("MIP-3α")、神经生长因子β(“NGF-β”)、可溶性配体(“CD40配体”)、表皮生长因子(“EFG”)、嗜酸性粒细胞活化趋化因子(“CCL11”)、Fractalkine、碱性成纤维细胞生长因子(“FGF-碱性”)、粒细胞集落刺激因子(“G-CSF”)、粒细胞巨噬细胞集落刺激因子(“GM-CSF”)、干扰素γ(“IFNγ”)、IFN-ω、IFN-α2、IFN-β、白介素(“IL”)1α、IL-1β、IL-1ra、IL-2、IL-2ra、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-12(p40)、IL-12(p70)、IL-13、IL-15、IL-16、IL-17、IL-17a、IL-17F、IL-20、IL-21、IL-22、IL-23(p19)、IL-27、IL-31、IP-10、单核细胞趋化蛋白1(“MCP-1”)、巨噬细胞炎性蛋白(“MIP”)1α、MIP-1β、中性粒细胞激活肽78(“ENA-78”)、骨保护素(“OPG”)、胎盘生长因子(“PIGF”)、血小板衍生生长因子亚基B同源二聚体(“PDGFBB”)、正常T细胞表达分泌的活性调节蛋白(“RANTES”)、干细胞生长因子(“SCGF”)、基质细胞衍生因子1(“SDF-1”)、可溶性Fas配体(“Sfas-配体”)、可溶性核因子κ-B受体活化剂配体(“sRANKL”)、生存素、转化生长因子α(“TGFα”)、TGF-β、肿瘤坏死因子a(“TNFα”)、TNF-β、TNF受体1(“TNFR-1”)、TNF-相关凋亡诱导配体(“TRAIL”)、血管内皮生长因子(“VEGF”)、脂联素、纤溶酶原激活物抑制剂1(“PAI-1”；“丝氨酸蛋白酶抑制剂”)(活化/总)、抵抗素(“RETN”；“xcp1”)、sFas、可溶性Fas配体(“sFasL”)、巨噬细胞游走抑制因子(“MIF”)、sE-选择素、可溶性血管细胞粘附分子(“sVCAM”)、可溶性细胞间粘附分子(“sICAM”)、髓过氧化物酶(“MPO”)、血清淀粉样蛋白A(“SAA”；“SAA1”)。

对于每个受试者，对于86个生物标记物中的每个测量总共三个样品。出于分类目的，建立为每个样品分配类别的模型。如果受试者的样品被视为癌，则假定受试者患有癌症。该确定病变的方法比其他可能的方法，例如投票更保守。

高于检测上限的生物标记物浓度设定为等于检测上限。低于检测下限的生物标记物浓度设定为等于检测下限，并且除以二的平方根。解为ad hoc，不能得到真实生物标记物分布的无偏估计。它对建立各种生物标记物在检测上限或下限的分布的点质量起作用(如适用)。由于SVM为非参数的，并且AdaBoost基于一系列树，该ad hoc解的上述缺陷不适用。性别、年龄和吸烟包括于每个分类模型中。

结果

数据：肺部病变类别y(NSCLC，正常)和86-元组连续分布的生物标记物x可用于544个受试者中的每个(癌：180，不患癌：364)运行三次(总共1634个样品，癌：546，不患癌：1088)。样品的数据(y,x)称为观察值。544个受试者(1634个样品)随机分为训练(N＝209；626个样品)和验证(N＝335；1008个样品)集(表5)。

表5：降阶数据库中训练和验证数据集的样本大小

a.样品

b.受试者

模型：在当前研究中，阶段3a使用SVM和AdaBoost。本文提供的结果为使用所有生物标记物和人口统计信息的模型(544个受试者，1634个样品，每个受试者3个样品，86个生物标记物)。还考虑仅包含生物标记物的子集和模型或整个生物标记物的子集。AdaBoost与SVM比较具有优越的性能，因此积极探索AdaBoost。

统计方法：肺部病变类别的每个生物标记物分布变化的统计学意义使用Kruskal-Wallis测试评估。所有统计测试均为双边的，显著性水平为5％。Jefferies方法用于计算比例的上下95％置信界限。基于每个样品的分析忽略自相关，在所有分析中，多个比较无相关性。

模型性能：模型性能可通过检验验证集中样品的模型预测或通过在受试者水平聚合样品预测值确定。为了聚合样品水平预测值，如果受试者中的一个样品预测为患有癌症，则他们被预测为患有癌症。还存在聚合数据的其他方法，但在该实例中，选择使灵敏度(也称为真阳性比率)和特异性(1-假阳性比率)最大化的方法。

除一个生物标记物(IP-10)之外，所有生物标记物均表现出显著差异。基于每个样品参照性别的生物标记物比较显示22个生物标记物表现出显著差异(脂联素、IL-27、IL-2ra、IL-31、LIF、MPO、PIGF、SCF、sE-选择素、sFas-配体、TNFR-II、ENA-78、嗜酸性粒细胞活化趋化因子、Fractaline、GCSF、GM-CSF、IL-15、I-TAC、瘦蛋白、MIP-1b、抵抗素、IL-21)。基于原始数据中的每个样品通过种族(白人、黑人)比较数据库中的生物标记物显示，53个生物标记物表现出显著差异。对于除一个(IP.10)之外的所有生物标记物，数据库中基于每个样品的癌与不患癌的比较显示出显著差异。

参照基于样品的预测(表6至9)，SVM相对于Adaboost总体表现出优越性能[SVM：灵敏度＝0.78(0.02)，95％置信区间(0.74,0.82)，特异性＝0.92(0,01)，95％CI(0.90,0.94)，Adaboost：灵敏度＝0.86(0.02)，95％CI(0.82,0.89)，特异性＝0.93(0.01)，95％CI(0.90,0.94)]。当仅限于男性(表10和11)和女性(表12和13)时，Adaboost性能相似[男性：灵敏度＝0.87(0.02)，95％CI(0.82,0.91)，特异性＝0.95(0.01)，95％CI(0.92,0.97)，女性：灵敏度＝0.82(0.03)，95％CI(0.76,0.87)，特异性＝0.94(0.01)，95％CI(0.90,0.96)]。

表6：模型性能表-SVM-按样品

¹Kruskal-Wallis测试

表7：模型性能统计-SVM-按样品

¹Kruskal-Wallis测试

表8：模型性能表-AdaBoost-所有受试者-按样品

¹Kruskal-Wallis测试

表9：模型性能统计-AdaBoost-所有受试者-按样品

¹Kruskal-Wallis测试

表10：模型性能表-AdaBoost-仅男性-按样品

¹Kruskal-Wallis测试

表11：模型性能统计-AdaBoost-仅男性-按样品

¹Kruskal-Wallis测试

表12：模型性能表-AdaBoost-仅女性-按样品

¹Kruskal-Wallis测试

表13：模型性能表-AdaBoost-仅女性-按样品

¹Kruskal-Wallis测试

参照基于每个受试者的预测(表14至17)，SVM相对于Adaboost总体表现出优越性能[SVM：灵敏度＝0.79(0.04)，95％置信区间(0.70,0.85)，特异性＝0.92(0.02)，95％CI(0.88,0.95)，Adaboost：灵敏度＝0.87(0.03)，95％CI(0.80,0.92)，特异性＝0.93(0.02)，95％CI(0.88,0.96)]。当仅限于男性(表18和19)和女性(表20和21)时，Adaboost性能相似[男性：灵敏度＝0.95(0.02)，95％CI(0.89,0.98)，特异性＝0.87(0.04)，95％CI(0.76,0.93)，女性：灵敏度＝0.95(0.02)，95％CI(0.90,0.98)，特异性＝0.74(0.06)，95％CI(0.61,0.83)]。

表14：模型性能表-SVM-按受试者

¹Kruskal-Wallis测试

表15：模型性能统计-SVM-按受试者

¹Kruskal-Wallis测试

表16：模型性能表-AdaBoost-所有受试者-按受试者

¹Kruskal-Wallis测试

表17：模型性能统计-AdaBoost-所有受试者-按受试者

¹Kruskal-Wallis测试

表18：模型性能表-AdaBoost-仅男性-按受试者

¹Kruskal-Wallis测试

表19：模型性能统计-AdaBoost-仅男性-按受试者

¹Kruskal-Wallis测试

表20：模型性能表-AdaBoost-仅女性-按受试者

¹Kruskal-Wallis测试

表21：模型性能表-AdaBoost-仅女性-按受试者

¹Kruskal-Wallis测试

Adaboost和SVM的接收者操作特征(ROC)曲线和曲线下面积(AUC)在图1和2中示出；Adaboost AUC为0.98，并且SVM AUC为0.96。男性和女性的Adaboost ROC曲线在图3和4中示出。男性的AUC为0.98，女性的AUC为0.95。Adaboost变量重要性图在图5中示出；Adaboost模型中三个最重要的变量为CTACK、MSCF和嗜酸性粒细胞活化趋化因子-3。仅限于男性的Adaboost变量重要性图在图6中示出；三个最重要的变量为MCSF、CTACK和嗜酸性粒细胞活化趋化因子-3。仅限于女性的Adaboost变量重要性图在图7中示出；三个最重要的变量为MCSF、FGF-碱性和CTACK。

为确保AdaBoost的性能不是数据集随机分为训练和验证集的假象，建立200个随机分区，对于每个分区拟合模型。这200个模型的性能分布总结于图8至10中。Adaboost的性能一致地显示出良好，暗示Adaboost的引用性能统计有效。

讨论

对于Adaboost分类器，这些数据表现出一致的良好预测模式，无论是否受到性别的限制。其他分析应包括a)仅使用生物标记物建立癌症模型，b)建立具有良好预测质量，但数量较小的生物标记物最佳子集，优选地根据图5-7的结果，更优选地包括那些图中具有大于0.004，更优选地为0.006，甚至更优选地为0.008，甚至更优选地为0.01的分数的生物标记物，c)将该实例的结果与实施例1-9的那些结果比较。

实施例11-非小细胞肺癌的诊断测试

生物流体样品得自诊断信息为所期望的患者。样品优选地为血清或血浆。确定来自实施例1-10中任何一者的生物标记物中的每个的样品的浓度。将样品的每个生物标记物的测定浓度输入使用支持向量机中的训练数据确定的等式。如果等式确定的值为阳性，则是非小细胞肺癌的表征，如果值为阴性，表示不存在非小细胞肺癌。

实施例12-男性受试者中非小细胞肺癌的诊断测试

生物流体样品得自诊断信息为所期望的男性患者。样品优选地为血清或血浆。确定来自实施例1-5、7-8或10中任何一者的生物标记物中的每个的样品的浓度。将样品的每个生物标记物的测定浓度输入使用支持向量机中的训练数据确定的等式。如果等式确定的值为阳性，则是非小细胞肺癌的表征，如果值为阴性，表示不存在非小细胞肺癌。

实施例13-男性受试者中非小细胞肺癌的替代测试

本文所述的多个(如果不是全部)生物标记物参与上述排序通讯通路。一些生物标记物作为一级相互作用因子彼此相关。用于诊断或预后测定的标记物的选择可使用特定生物标记物及其一级相互作用因子之间的已知关系促进。由ARIADNE PATHWAY生成的HGF(肝细胞生长因子)和其他生物标记物之间的已知通讯关系可见于图5中。图5显示HGF(肝细胞生长因子)的一级相互作用因子包括sFasL(可溶性Fas配体)、PAI-1(丝氨酸蛋白酶抑制剂、纤溶酶原激活物抑制剂1)(活化/总)、Ins(胰岛素；其还包括C-肽)、EGF(表皮生长因子)、MPO(髓过氧化物酶)和MIF(巨噬细胞游走抑制因子)。其他相互作用因子(非一级)包括RETN(抵抗素、xcp1)、SAA1(血清淀粉样蛋白A、SAA)、CCL11(嗜酸性粒细胞活化趋化因子)、LEP(瘦蛋白)和CXCL11(趋化因子(C-X-C基序)配体11、干扰素诱导T-细胞α趋化因子(I-TAC)或干扰素-γ-诱导蛋白9(IP-9))。此外，图5显示两个生物标记物MMP1和MMP-8(基质金属蛋白酶1和8)不处于含HGF的通讯通路。

生物流体样品得自诊断信息为所期望的患者。样品优选地为血清或血浆。确定只有选择生物标记物样品中的浓度。假设HGF为选择用于支持向量机的生物标记物中的一者，则HGF的任何一级相互作用因子的浓度(如，MIF、EGF等)可代替HGF。同样，支持向量机使用代替HGF的一级相互作用因子再次运行训练数据。然后将该模型施加到患者样品。如果等式确定的值为阳性，则是非小细胞肺癌的表征，如果值为阴性，表示不存在非小细胞肺癌。

实施例14-区分非小细胞肺癌和反应性气道疾病

为了区分非小细胞肺癌和反应性气道疾病，进行一系列三次测定：(1)非小细胞肺癌存在或不存在的评估；(2)反应性气道疾病存在或不存在的评估；以及(3)非小细胞肺癌或反应性气道疾病的评估。这些评估如下所述进行。

生物流体样品得自诊断信息为所期望的患者。样品优选地为血清或血浆。确定来自实施例1-10中任何一者的生物标记物样品的浓度。将来自样品的每个生物标记物的测定浓度输入使用支持向量机中的训练数据确定的等式。如果等式确定的值为阳性，则是非小细胞肺癌的表征，如果值为阴性，表示不存在非小细胞肺癌。

然后确定来自实施例1-10中任何一者的生物标记物样品的浓度。将来自样品的每个生物标记物的测定浓度输入使用支持向量机中的训练数据确定的等式。如果等式确定的值为阳性，则是反应性气道疾病的表征，如果值为阴性，表示不存在反应性气道疾病。

然后确定来自实施例1-10中任何一者的生物标记物样品的浓度。将来自样品的每个生物标记物的测定浓度输入使用支持向量机中的训练数据确定的等式。如果等式确定的值为阳性，则是非小细胞肺癌的表征，如果值为阴性，表示反应性气道疾病。

这些结果还通过分析阳性和阴性分数评估。具体地讲，患者患有非小细胞肺癌、反应性气道疾病还是不存在疾病的确定取决于三个分数中的两个中存在的病症。例如，如果第一和第三测试为阳性，则患者可诊断为患有非小细胞肺癌。如果第一和第二测试为阴性，患者可诊断为未患有非小细胞肺癌或反应性气道疾病。

本公开中包含的等式、公式和关系是示例性和代表性的，不意味着进行限制。供选择的等式可用于表示本文所公开的任何指定的等式描述的相同现象。具体地讲，本文所公开的等式可通过添加误差校正术语、高阶术语修改，或换句话讲使用不同的常量或变量名称，或使用不同的表达解释不准确性。可进行等式的其他修改、代替、交换或变化。

本说明书涉及的所有专利公开、专利和公开专利申请全文以引用的方式并入本文，其引用程度就如同每个单独的专利公开、专利或公开专利申请特别地和个别地以引用方式并入。

Claims

1.用于测定受试者的生物流体样品中多个生物标记物的表达水平的手段用于制造对受试者进行生理表征的试剂盒的用途，所述多个生物标记物包含至少四个选自以下组的生物标记物：瘦蛋白、基质金属蛋白酶(MMP)9、血清淀粉样蛋白A(SAA)、IL-8、抵抗素和髓过氧化物酶(MPO)，

其中，所述表征使用分类系统根据所述生物标记物的测定值将所述样品分类，

所述分类系统是机器学习系统，具有至少一株分类和回归树，

所述机器学习系统包含随机森林或AdaBoost，并且

对样品的所述分类与非小细胞肺癌相关。

2.用于测定受试者的生物流体样品中多个生物标记物的表达水平的手段用于制造用于诊断肺部疾病的试剂盒的用途，所述多个生物标记物包含至少四个选自以下组的生物标记物：瘦蛋白、基质金属蛋白酶(MMP)9、血清淀粉样蛋白A(SAA)、IL-8、抵抗素和髓过氧化物酶(MPO)，

所述多个生物标记物是所述样品中帮助区分反应性气道疾病与非小细胞肺癌的指示的多个生物标记物、指示反应性气道疾病的多个生物标记物，和指示非小细胞肺癌的多个生物标记物；

所述多个生物标记物不相同，

所述诊断使用分类系统根据所述生物标记物的测定值将所述样品分类，

所述机器学习系统包含随机森林或AdaBoost，并且

所述诊断确定所述受试者患有非小细胞肺癌。

3.如权利要求1或2所述的用途，其中，所述机器学习系统是随机森林集合。

4.如权利要求1或2所述的用途，其中，所述机器学习系统是AdaBoost集合。

5.如权利要求1或2所述的用途，其中，所述手段检测受试者生物流体样品中选自所述组的六个生物标记物的表达水平。

6.如权利要求1或2所述的用途，其中，所述生物标记物是多肽。

7.如权利要求1或2所述的用途，其中，所述生物流体是血浆。

8.如权利要求1或2所述的用途，其中，所述生物流体是血清。

9.如权利要求1或2所述的用途，其中，所述受试者是哺乳动物。

10.如权利要求1或2所述的用途，其中，所述受试者是人。

11.如权利要求1或2所述的用途，其中，所述受试者是男性。

12.如权利要求1或2所述的用途，其中，所述受试者是女性。

13.如权利要求1或2所述的用途，其中，测定表达水平包括进行免疫测定。

14.如权利要求1或2所述的用途，其中，测定表达水平包括进行定量多重免疫测定。

15.如权利要求1或2所述的用途，其中，所述受试者表现出一种或多种非小细胞肺癌的症状。

16.如权利要求1或2所述的用途，其中，还包括测定至少一种选自以下的生物标记物的表达：肝细胞生长因子(HGF)、瘦蛋白(LEP)、IL-4、IL-5、IL-7、IL-8、IL-10、IL-12(p70)、单核细胞趋化蛋白1(MCP-1)、抵抗素(xcp1)、巨噬细胞游走抑制因子(MIF)、髓过氧化物酶(MPO)、血清淀粉样蛋白A(SAA)、TNFR-II、TNF受体1(TNFR-I)、sCD40配体、可溶性细胞间粘附分子(sICAM)、载脂蛋白(Apo)Al、ApoA2、ApoB、ApoC2、ApoE、CD40、D-二聚体、因子-VII、因子-VIII、因子-X、蛋白-C、组织纤溶酶原激活剂(TPA)、脑源性神经营养因子(BDNF)、B淋巴细胞趋化因子(BLC)、GRO-l、皮肤T-细胞吸引趋化因子(CTACK)、嗜酸性粒细胞活化趋化因子-2、嗜酸性粒细胞活化趋化因子-3、粒酶-B、I-TAC、单核细胞特异性趋化因子3(MMP-3)、巨噬细胞集落刺激因子(MCSF)、巨噬细胞炎性蛋白-3α(MIP-3α)、基质金属蛋白酶(MMP)1、MMP 2、MMP 3、MMP 7、MMP 8、MMP 9、MMP 12、MMP 13、CD40、神经生长因子β(NGF-β)、表皮生长因子(EFG)、嗜酸性粒细胞活化趋化因子(CCL11)、Fractalkine、碱性成纤维细胞生长因子(FGF-碱性)、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、干扰素γ(IFNγ)、IFN-ω、IFN-α2、IFN-β、白介素(IL)1α、IL-1β、IL-1ra、IL-2、IL-2ra、IL-3、IL-6、IL-12(p40)、IL-13、IL-15、IL-17、IL-17a、IL-17F、IL-20、IL-21、IL-22、IL-23(p19)、IL-27、IL-31、IP-10、巨噬细胞炎性蛋白(MIP)1α、MIP-1β、中性粒细胞激活肽78(ENA-78)、骨保护素(OPG)、胎盘生长因子(PIGF)、干细胞生长因子(SCGF)、基质细胞衍生因子1(SDF-1)、可溶性核因子κ-B受体活化剂配体(sRANKL)、生存素、转化生长因子α(TGFα)、TGF-β、肿瘤坏死因子α(TNFα)、TNF-β、TNF受体1(TNFR-I)、TNFR-II、TNF-相关凋亡诱导配体(TRAIL)、促血小板生成素(TPO)、血管内皮生长因子(VEGF)、胰岛素(Ins)、C-肽、胰高血糖素样蛋白-1(GLP-1)、胰淀素、胰高血糖素、脂联素、纤溶酶原激活物抑制剂1(PAI-1)、sFas、sE-选择素、可溶性血管细胞粘附分子(sVCAM)、C-反应蛋白(CRP)和血清淀粉样蛋白P(SAP)。

17.一种用于将测试数据分类的系统，所述测试数据包括生物标记物集的每个的多个生物标记物测定值，所述系统包括：

电子计算机，所述电子计算机编程为接收人测试受试者的测试数据，所述测试数据包括所述生物标记物集的至少每个生物标记物的生物标记物测定值，

所述多个生物标记物包含至少四个选自下组的生物标记物：瘦蛋白、基质金属蛋白酶(MMP)9、血清淀粉样蛋白A(SAA)、IL-8、抵抗素和髓过氧化物酶(MPO)；

在分类系统中用所述多个生物标记物的测定值就受试者非小细胞肺癌的存在或发展对所述测试数据进行评价；

所述分类系统是机器学习系统，包含分类和回归树，选自随机森林和AdaBoost或其集合。