CN110958853B

CN110958853B - 用于鉴定或监测肺病的方法和系统

Info

Publication number: CN110958853B
Application number: CN201880050076.1A
Authority: CN
Inventors: G·C·肯尼迪; 邦妮·H·安德森
Original assignee: Veracyte Inc
Current assignee: Veracyte Inc
Priority date: 2017-06-02
Filing date: 2018-06-01
Publication date: 2023-08-25
Anticipated expiration: 2038-06-01
Also published as: US20200405225A1; EP3629904A4; JP2020522690A; WO2018223066A1; CN110958853A; EP3629904A1

Abstract

本文提供了用于改善当前的肺部病况的临床护理途径的方法、系统和试剂盒，其在现有途径的各个决策点使用基因组分类器，以最小化不必要的侵入性程序、增强早期检测和疾病复发、以及监测用于预防或逆转疾病的干预性疗法的功效。

Description

用于鉴定或监测肺病的方法和系统

交叉引用

本申请要求于2017年6月2日提交的美国临时申请62/514,595和于2017年8月17日提交的美国临时申请62/546,936的优先权，每个申请均通过引用整体并入本文。

背景技术

当前存在一些可用于检测肺部病况如肺癌的方法。这种当前的用于肺部病况的临床护理途径的缺点在于高比率的不必要的侵入性程序、无法检测早期肺部病况或者评估受试者发展肺部病况的风险。

发明内容

本公开内容提供了用于确定受试者是否患有肺部病况或者处于患有肺部病况的风险的方法和系统，所述肺部病况例如肺癌。本公开内容的方法可以允许在一些情况下使用从受试者非侵入性地获得的样品(例如，鼻组织样品)，针对肺部病况的进展或消退对受试者进行筛查或监测。这可以有利地用于筛查对肺部病况无症状但可能在其他方面有发展肺部病况的风险的受试者(例如，暴露于香烟烟雾或空气污染的受试者)，或者监测患有或疑似患有肺部病况的受试者。

本公开内容的一方面提供了用于筛查受试者的肺部病况的方法，所述方法包括(a)测定来自从受试者获得的第一样品的上皮组织，该上皮组织被(1)计算机分析发展所述肺部病况的一种或多种风险因子的存在，和(2)鉴定所述一种或多种风险因子的所述存在，以鉴定所述第一样品中与发展所述肺部病况的风险相关联的一种或多种生物标志物的存在或不存在；以及(b)在鉴定所述一种或多种生物标志物的所述存在或不存在后，(i)指导获得所述受试者的肺部区域的电子成像扫描，所述肺部区域疑似具有所述肺部病况，或者(ii)测定来自所述受试者的第二样品的其他上皮组织。在一些实施方案中，所述方法进一步包括在(b)之前，接收测定包括所述受试者的所述上皮组织的所述第一样品的请求。

在一些实施方案中，所述电子成像扫描是低剂量计算机断层成像(LDCT)扫描或磁共振成像(MRI)。在一些实施方案中，所述LDCT扫描向所述受试者提供小于约5毫西弗(mSv)的辐射暴露。

在一些实施方案中，所述肺部病况是肺癌、慢性阻塞性肺病(COPD)、间质性肺病(ILD)或其任何组合。在一些实施方案中，所述肺部病况是肺癌，并且所述肺癌包括：非小细胞肺癌；腺癌；鳞状细胞癌；大细胞癌；小细胞肺癌；或其任何组合。

在一些实施方案中，通过支气管镜检查获得所述第一样品或所述第二样品。在一些实施方案中，通过细针抽吸获得所述第一样品或所述第二样品。在一些实施方案中，所述第一样品或所述第二样品包括粘膜上皮组织、鼻上皮组织、肺上皮组织或其任何组合。在一些实施方案中，所述第一样品或所述第二样品包括沿所述受试者的气道获得的上皮组织。

在一些实施方案中，所述第一样品或所述第二样品的一部分进行细胞学测试，该细胞学测试鉴定该样品是模糊的或可疑的。在一些实施方案中，在鉴定所述第一样品或所述第二样品是模糊的或可疑的之后，对所述样品的第二部分进行(b)，所述第二部分包括所述上皮组织。

在一些实施方案中，所述第二样品与所述第一样品不同。在一些实施方案中，所述第二样品是与所述第一样品不同的样品类型。在一些实施方案中，在第一时间点从所述受试者获得所述第一样品并且在第二时间点从所述受试者获得所述第二样品，并且所述第二时间点在所述第一时间点之后。在一些实施方案中，所述第二时间点在所述第一时间点的约1-2年内。

在一些实施方案中，(a)包括将所述一种或多种生物标志物的所述存在或不存在与一种或多种生物标志物的参考集进行比较。在一些实施方案中，所述受试者需要针对所述肺部病况的治疗。在一些实施方案中，所述受试者疑似具有发展肺部病况的增加的风险。在一些实施方案中，所述受试者相对于所述肺部病况无症状。在一些实施方案中，所述受试者先前未接受过所述电子成像扫描。在一些实施方案中，所述受试者先前未接受过明确诊断。

在一些实施方案中，所述一种或多种风险因子包括：吸烟；环境烟雾暴露；氡气暴露；空气污染暴露；辐射暴露；工业物质暴露；遗传性或环境获得性基因突变；受试者的年龄；具有次级健康状况的受试者；或其任何组合。在一些实施方案中，所述受试者具有两种或更多种风险因子。

在一些实施方案中，所述一种或多种生物标志物包括至少五种生物标志物。在一些实施方案中，所述一种或多种生物标志物包括以下中的一种或多种：基因或其片段；序列变体；融合；线粒体转录物；表观遗传修饰；拷贝数变异；杂合性丢失(LOH)；或其任何组合。在一些实施方案中，所述一种或多种生物标志物的所述存在或不存在包括表达水平。

在一些实施方案中，所述方法鉴定所述受试者是否处于发展所述肺部病况的增加的风险中。在一些实施方案中，(b)的所述鉴定包括采用经训练的算法。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从个体的气道获得的上皮细胞。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括对所述肺部病况呈良性的样品和对所述肺部病况呈恶性的样品。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从具有一种或多种风险因子的受试者获得的样品。

在一些实施方案中，所述方法进一步包括在(a)之前，计算机分析所述受试者，以鉴定所述受试者中发展所述肺部病况的所述一种或多种风险因子的所述存在。

本公开内容的另一方面提供了用于监测患有或疑似患有肺部病况的受试者的方法。所述方法包括(a)测定第一样品，该第一样品包括从疑似患有所述肺部病况的受试者获得的上皮组织，以鉴定与所述肺部病况相关联的一种或多种生物标志物的存在或不存在，其中所述受试者先前已接受过一个或多个肺结节的存在的阳性指示；以及(b)在鉴定所述一种或多种生物标志物的所述存在或不存在后，基于来自(a)的结果(i)从所述受试者获得第二样品，或者(ii)指导所述受试者获得所述受试者的肺部区域的电子成像扫描。

在一些实施方案中，所述阳性指示通过电子成像扫描先前鉴定。在一些实施方案中，所述电子成像扫描是低剂量计算机断层成像(LDCT)扫描或磁共振成像(MRI)。在一些实施方案中，所述LDCT扫描向所述受试者提供小于约5毫西弗(mSv)的辐射暴露。

在一些实施方案中，所述一个或多个肺结节是至少两个肺结节。在一些实施方案中，所述从所述受试者获得所述第二样品包括对所述受试者进行支气管镜检查、经胸壁针抽吸(TTNA)或电视辅助胸腔镜手术(VATS)。在一些实施方案中，所述从所述受试者获得所述第二样品包括进行组织活检。

在一些实施方案中，所述一种或多种生物标志物的所述存在或不存在将所述受试者鉴定为患有所述肺部病况的高风险或低风险。在一些实施方案中，(b)进一步包括根据评估的风险推荐(i)或(ii)。

在一些实施方案中，所述第二样品与所述第一样品不同。在一些实施方案中，所述第二样品是与所述第一样品不同的样品类型。在一些实施方案中，在晚于从所述受试者获得所述第一样品的时间的时间段从所述受试者获得所述第二样品。在一些实施方案中，所述时间段为约1年至约2年。

在一些实施方案中，(b)包括将所述一种或多种生物标志物的所述存在或不存在与一种或多种生物标志物的参考集进行比较。在一些实施方案中，所述受试者是需要针对所述肺部病况的治疗的受试者。在一些实施方案中，所述受试者疑似具有发展肺部病况的增加的风险。在一些实施方案中，所述受试者对所述肺部病况无症状。在一些实施方案中，所述受试者先前未接受过明确诊断。

在一些实施方案中，所述方法鉴定所述受试者是否处于患有所述肺部病况的增加的风险中。在一些实施方案中，(a)的所述鉴定包括采用经训练的算法。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从个体的气道获得的上皮细胞。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括对所述肺部病况呈良性的样品和对所述肺部病况呈恶性的样品。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从具有一种或多种风险因子的受试者获得的样品。在一些实施方案中，所述方法进一步包括分析来自所述受试者的血液样品、对所述受试者进行电子成像扫描，或其组合。

在一些实施方案中，所述第二样品是上皮的样品，并且其中在(b)之后，测定所述上皮组织的样品中一种或多种额外的生物标志物的存在或不存在。在一些实施方案中，所述一种或多种额外的生物标志物是所述一种或多种生物标志物。

本公开内容的另一方面提供了用于监测患有或疑似患有肺部病况的受试者的方法，其中所述受试者先前已接受过完成用于预防或逆转所述肺部病况的干预性疗法的推荐。所述方法包括(a)在所述受试者完成针对所述肺部病况的所述干预性疗法的至少一部分之后，测定第一样品，该第一样品包括从所述受试者获得的上皮组织，以生成遗传数据；(b)处理所述遗传数据，以鉴定与所述肺部病况相关联的一种或多种生物标志物的存在或不存在；以及(c)计算机生成报告，该报告包括从所述受试者获得第二样品的推荐。

本公开内容的另一方面提供了一种方法。所述方法包括(a)测定第一样品，该第一样品包括从受试者获得的上皮组织，并鉴定一种或多种生物标志物的存在或不存在，其中所述受试者先前已接受过完成用于预防或逆转肺部病况的干预性疗法的推荐；以及(b)在完成针对所述肺部病况的所述干预性疗法的至少一部分之后，从所述受试者获得第二样品，并对所述第二样品重复(a)。

在一些实施方案中，所述方法鉴定受试者对所述干预性疗法的依从性。在一些实施方案中，所述方法鉴定所述干预性疗法预防或逆转所述肺部病况的功效。在一些实施方案中，所述干预性疗法包括向所述受试者施用药物组合物。在一些实施方案中，所述药物组合物包括化疗剂。在一些实施方案中，所述干预性疗法包括锻炼方案、饮食方案、减少或排除吸烟或其任何组合。

在一些实施方案中，(a)包括将所述一种或多种生物标志物的所述存在或不存在与一种或多种生物标志物的参考集进行比较。在一些实施方案中，所述受试者是需要针对所述肺部病况的治疗的受试者。在一些实施方案中，所述受试者疑似具有发展肺部病况的增加的风险。在一些实施方案中，所述受试者相对于所述肺部病况无症状。在一些实施方案中，所述受试者先前未接受过明确诊断。

在一些实施方案中，(a)的所述鉴定包括采用经训练的算法。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从个体的气道获得的上皮细胞。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括对所述肺部病况呈良性的样品和对所述肺部病况呈恶性的样品。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从具有一种或多种风险因子的受试者获得的样品。在一些实施方案中，所述方法进一步包括分析来自所述受试者的血液样品、对所述受试者进行电子成像扫描，或其组合。

在一些实施方案中，(b)包括处理所述遗传数据，以鉴定与所述一种或多种生物标志物中的每一种相对应的表达水平。在一些实施方案中，(b)包括处理所述遗传数据，以鉴定所述一种或多种生物标志物中的至少一种遗传畸变。

本公开内容的另一方面提供了用于监测所述受试者的肺部病况的方法。所述方法包括(a)测定第一样品，该第一样品包括从受试者获得的上皮组织，并鉴定一种或多种生物标志物的存在或不存在，其中所述受试者先前已经开始针对肺部病况的治疗；以及(b)在接收缓解的确认后，从所述受试者获得第二样品，并对所述第二样品重复(a)。

在一些实施方案中，所述方法通过非侵入性监测来鉴定早期肺部病况的复发。在一些实施方案中，所述肺部病况是肺癌、慢性阻塞性肺病(COPD)、间质性肺病(ILD)或其任何组合。在一些实施方案中，所述肺部病况是肺癌，并且所述肺癌包括：非小细胞肺癌；腺癌；鳞状细胞癌；大细胞癌；小细胞肺癌；或其任何组合。

在一些实施方案中，(a)包括将所述一种或多种生物标志物的所述存在或不存在与一种或多种生物标志物的参考集进行比较。在一些实施方案中，所述受试者是需要针对所述肺部病况的治疗的受试者。在一些实施方案中，所述受试者疑似具有所述肺部病况复发的增加的风险。在一些实施方案中，所述受试者相对于所述肺部病况无症状。

在一些实施方案中，(a)的所述鉴定包括采用经训练的算法。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从个体的气道获得的上皮细胞。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括对所述肺部病况呈良性的样品和对所述肺部病况呈恶性的样品。在一些实施方案中，所述经训练的算法通过训练集训练，该训练集包括从具有一种或多种风险因子的受试者获得的样品。在一些实施方案中，所述方法进一步包括分析来自所述受试者的血液样品、对所述受试者进行电子成像扫描，或其组合。本公开内容的另一方面提供了用于监测患有或疑似患有肺部病况的受试者的方法。所述方法包括(a)测定第一样品，该第一样品包括从疑似患有所述肺部病况的受试者获得的上皮组织，以鉴定与所述肺部病况相关联的一种或多种生物标志物的存在或不存在，其中所述受试者先前已接受过肺结节的存在的阴性指示；以及(b)在鉴定所述一种或多种生物标志物的所述存在或不存在后，基于来自(a)的结果(i)从所述受试者获得第二样品，或者(ii)指导所述受试者获得所述受试者的肺部区域的电子成像扫描。在一些实施方案中，所述方法进一步包括在(a)之前，计算机分析所述受试者的发展所述肺部病况的一种或多种风险因子的存在，并鉴定所述受试者的所述一种或多种风险因子的所述存在。

本公开内容的另一方面提供了用于筛查受试者的肺部病况的系统。所述系统包括一个或多个计算机数据库，该计算机数据库包括受试者的健康或生理数据；以及一个或多个计算机处理器，其被单独地或共同地编程用于(i)分析所述健康或生理数据中所述受试者发展所述肺部病况的一种或多种风险因子的存在，和(2)在鉴定所述一种或多种风险因子后，生成测定来自所述受试者的样品的上皮组织中与发展所述肺部病况的风险相关联的一种或多种生物标志物的推荐。

本公开内容的另一方面提供了用于筛查受试者的肺部病况的系统。所述系统包括一个或多个计算机数据库，该计算机数据库包括(i)第一数据集，其包括指示所述受试者发展所述肺部病况的一种或多种风险因子的存在的数据，和(ii)第二数据集，其包括指示所述受试者的样品中的上皮组织中的一种或多种生物标志物的存在或不存在的数据，所述一种或多种生物标志物与发展所述肺部病况的风险相关联；以及一个或多个计算机处理器，其被单独地或共同地编程用于(i)分析所述第一数据集，以鉴定所述一种或多种风险因子的所述存在，(ii)分析所述第二数据集，以鉴定所述一种或多种生物标志物的所述存在或不存在，和(iii)在鉴定所述一种或多种生物标志物的所述存在或不存在后，生成报告，该报告(1)指导获得所述受试者的肺部区域的电子成像扫描，所述肺部区域疑似表现出所述肺部病况，或者(2)指导测定来自所述受试者的第二样品的其他上皮组织。

本公开内容的另一方面提供了用于监测患有或疑似患有肺部病况的受试者的系统。所述系统包括一个或多个计算机数据库，该计算机数据库包括数据集，该数据集包括指示所述受试者的第一样品中的上皮组织中的一种或多种生物标志物的存在或不存在的数据，所述一种或多种生物标志物与所述肺部病况相关联；以及一个或多个计算机处理器，其被单独地或共同地编程用于(i)确定所述受试者先前已接受过一个或多个肺结节的存在的阳性指示，(ii)在(i)之后，处理所述数据集，以鉴定所述一种或多种生物标志物的所述存在或不存在，和(iii)在鉴定所述一种或多种生物标志物的所述存在或不存在后，生成报告，该报告(1)指导从所述受试者获得第二样品，或者(2)指导获得所述受试者的肺部区域的另一电子成像扫描。

本公开内容的另一方面提供了用于监测患有或疑似患有肺部病况的受试者的系统，其中所述受试者先前已接受过完成用于预防或逆转所述肺部病况的干预性疗法的推荐。所述系统包括一个或多个计算机数据库，该计算机数据库包括包含遗传数据的数据集；以及一个或多个计算机处理器，其被单独地或共同地编程用于(i)在所述受试者完成针对所述肺部病况的所述干预性疗法的至少一部分之后，处理所述遗传数据，以鉴定与所述肺部病况相关联的一种或多种生物标志物的存在或不存在，和(iii)生成报告，该报告包括从所述受试者获得第二样品的推荐。

本公开内容的另一个方面提供了一种包含机器可执行代码的非暂时性计算机可读介质，所述机器可执行代码在由一个或多个计算机处理器执行时实现本文上面或其他地方所述的任何方法。

本公开内容的另一个方面提供了一种包含一个或多个计算机处理器和与所述一个或多个计算机处理器耦合的存储器的计算机系统。所述存储器包括包含机器可执行代码的非暂时性计算机可读介质，所述机器可执行代码在由所述一个或多个计算机处理器执行时实现本文上面或其他地方所述的任何方法。

通过下面的发明详述，本公开内容另外的方面和优点将变得对本领域技术人员而言显而易见，发明详述中仅示出并描述了本公开内容的说明性实施方案。应当认识到，本公开内容能够具有其他和不同的实施方案，并且其若干细节能够在各个明显的方面中进行修改，所有这些都不脱离本公开内容。因此，附图和详述将被视为在本质上是说明性的，而不是限制性的。

援引并入

本说明书中所提及的所有出版物、专利和专利申请都通过引用并入本文，其程度犹如特别地和单独地指出每个单独的出版物、专利或专利申请通过引用而并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾时，本说明书旨在替代和/或优先于任何这类矛盾的材料。

附图说明

本发明的新特征在附加的权利要求书中详细阐明。通过参考对利用本发明原理的说明性实施方案加以阐述的以下详细说明和附图(本文中也称为“图”)，将会获得对本发明的特征和优点的更好的理解，附图中：

图1示出了突出显示肺癌诊断的临床挑战的图表。

图2示出了将包括基因组分类器分析的方法整合到肺癌的临床护理途径中的益处。

图3示出了包括基因组分类器分析的改善的临床决策途径。

图4示出了将包括基因组分类器分析的方法整合到临床护理途径中的益处，其中手术推荐减少了47％。

图5示出了将包括基因组分类器分析的方法整合到特发性肺纤维化(IPF)的临床护理途径中的益处。

图6示出了通过将基因组分类器分析整合到临床护理途径中以区分寻常型间质性肺炎(UIP)与其他间质性肺病(ILD)病理学对治疗决策的积极变化。

图7示出了共有共同途径的损伤的病因学领域。

图8示出了受试者中的癌化区域与损伤区域之间的差别的实例。

图9示出了损伤区域和癌化区域的分子视图。

图10示出了通过包含基因组分类器分析(支气管基因组分类器)而改善的肺癌标准临床护理途径。

图11a-图11b示出了通过包含多种基因组分类器分析(支气管基因组分类器；Nasa检测；Nasa风险分层器；Nasa保护监测器；Nasa复发)而改善的肺癌临床护理途径。

图12示出了Nasa检测分类器的测试特性。

图13示出了Nasa风险分层器分类器的测试特性。

图14示出了Nasa保护分类器的测试特性。

图15示出了Nasa复发分类器的测试特性。

图16示出了基因组学在实践和预防中的评价。

图17示出了本文所述的方法中使用的样品特性和样品类型的实例。

图18示出了具有鼻/支气管擦刷样品的不同受试者队列。

图19示出了用于训练基因组分类器如Nasa检测分类器的训练样品的实例。

图20示出了用于训练基因组分类器如Nasa风险分类器的训练样品的实例。

图21示出了生物标志物的类型和用于检测不同类型的生物标志物的技术平台。

图22示出了用于基因组分类器的RNA测序的实例。

图23示出了RNA测序的实例。

图24示出了包含经训练的算法的基因组分类器的训练和验证的流程图。

图25示出了在用于训练基因组分类器的训练集中采用的不同的细胞学和组织学亚型的实例。

图26示出了可以被编程或以其他方式配置用于实现本文提供的方法的计算机控制系统。

图27示出了机器学习应用中的挑战和解决方案。

图28示出了开发和评估分子基因组分类器以预测ILD患者中的寻常型间质性肺炎(UIP)模式的分析管道(pipeline)。

图29示出了使用DESeq2和分类器的基因选择，使用了火山图来显示由DESeq2选择的151个基因(调整的p值<0.05并且倍数变化>2)和分类器中的190个预测性基因，两个基因集中有32个共同的基因。

图30示出了使用DESeq2和分类器的基因选择，使用了仅使用DESeq2选择的基因的所有经支气管活检(TBB)样品的主成分分析(PCA)图，显示出这些基因可能不足以分离UIP样品(圆圈)与非UIP样品(叉形)。

图31示出了使用DESeq2和分类器的基因选择，使用了使用分类器基因的所有TBB样品的PCA图，说明使用这些基因可以将TBB样品分类成UIP(圆圈)与非UIP(叉形)样品。

图32示出了患者内的计算机与体外混合之间的比较。图32示出了通过集成分类器评分的计算机与体外混合的比较的散点图，其中R平方值为0.99。

图33示出了患者内的计算机与体外混合之间的比较。图32示出了通过惩罚逻辑回归分类器评分的计算机与体外混合的比较的散点图，其中R平方值为0.98。

图34示出了集成模型的分类得分。不同的灰色着色区分了具有组织病理学UIP、非UIP和非诊断性的样品。圆形、上指三角形、正方形和下指三角形分别表示计算机混合样品、肺上叶、肺中叶和肺下叶样品。

图35示出了来自留一患者(leave-one-patient-out)交叉验证的惩罚逻辑回归模型的分类得分。不同的灰色着色区分具有组织病理学UIP、非UIP和非诊断性的样品。圆形、上指三角形、正方形和下指三角形分别表示计算机混合样品、肺上叶、肺中叶和肺下叶样品。

图36A-图36B示出了来自留一患者交叉验证(LOPO CV)和独立测试集上的验证(测试)的受试者工作特征(ROC)曲线。每个ROC曲线上的星形对应于每个提出的模型的前瞻性定义的决策边界。

图37示出了来自留一患者交叉验证和独立测试集上的验证的分类性能。

图38示出了显示具有多个样品的6名代表性患者的数据中患者内与患者间异质性的相关矩阵的热图。

图39示出了使用通过比较非UIP亚型与UIP样品选择的基因的PCA图。所有训练样品的PCA中前两个主成分使用显著差异表达的基因比较UIP样品(圆圈)与呼吸性细支气管炎(RB)。

图40示出了使用通过比较非UIP亚型与UIP样品选择的基因的PCA图。所有训练样品的PCA中前两个主成分使用显著差异表达的基因比较UIP样品(圆圈)与细支气管炎。

图41示出了使用通过比较非UIP亚型与UIP样品选择的基因的PCA图。所有训练样品的PCA中前两个主成分使用显著差异表达的基因比较UIP样品(圆圈)与过敏性肺炎(HP)。

图42示出了使用通过比较非UIP亚型与UIP样品选择的基因的PCA图。所有训练样品的PCA中前两个主成分使用显著差异表达的基因比较UIP样品(圆圈)与非特异性间质性肺炎(NSIP)。

图43示出了使用通过比较非UIP亚型与UIP样品选择的基因的PCA图。所有训练样品的PCA中前两个主成分使用显著差异表达的基因比较UIP样品(圆圈)与机化性肺炎(OP)。

图44示出了使用通过比较非UIP亚型与UIP样品选择的基因的PCA图。所有训练样品的PCA中前两个主成分使用显著差异表达的基因比较UIP样品(圆圈)与结节病。

图45示出了基因表达的变异性。较深的上部灰点表示从训练分类中去除的基因。

图46A-图46B示出了在集成模型(图46A)和惩罚逻辑回归模型(图46B)中使用训练集的计算机混合样品中的阈值相对于灵敏度/特异性的关系。

图47A-图47C示出了集成模型的得分变异性模拟。得分变异性的最终阈值0.90可由图47A中的特异性(垂直虚线)定义。灵敏度(1.80)和翻转率(flip-rate)(1.15)的得分变异性的单个阈值可以由图47B和图47C中的垂直虚线指示。

图48A-图48C示出了惩罚逻辑回归模型的得分变异性模拟。得分变异性的最终阈值0.48可由图48A中指示的特异性(垂直线)定义。灵敏度(0.78)和翻转率(0.68)的得分变异性的单个阈值由图48B和图48C中的灰色垂直线指示。

具体实施方式

尽管本文已经显示并描述了本发明的不同的实施方案，但对本领域技术人员而言显而易见的是这些方案仅以举例的方式提供。在不脱离本发明的情况下，本领域技术人员可能想到许多变化、改变和替代。应理解，可采用本文描述的本发明实施方案的各种替代方案。

如本文所用的术语“癌症”通常是指异常细胞生长的状况。癌症可以包括实体瘤或循环癌细胞。癌症可以转移。癌症可以是组织特异性癌症。癌症可以是肺癌。癌症可以是恶性的或良性的。

如本文所用的术语“肺癌”通常是指肺或肺相关组织的癌症或肿瘤。例如，肺癌可以包括非小细胞肺癌、小细胞肺癌、肺类癌肿瘤或其任何组合。非小细胞肺癌可以包括腺癌、鳞状细胞癌、大细胞癌或其任何组合。肺类癌肿瘤可以包括支气管类癌。肺癌可以包括肺组织如细支气管、上皮细胞、平滑肌细胞、肺泡或其任何组合的癌症。肺癌可以包括气管、支气管、细支气管、终末细支气管或其任何组合的癌症。肺癌可以包括基底细胞、杯形细胞、纤毛细胞、神经内分泌细胞、成纤维细胞、巨噬细胞、克拉拉细胞或其任何组合的癌症。

如本文所用的术语“疾病或病况”通常是指异常或病理的状况。疾病或病况可以是肺部疾病或肺部病况。肺部疾病或病况可以包括肺癌、间质性肺病(ILD)、慢性阻塞性肺病(COPD)、慢性支气管炎、囊性纤维化、哮喘、肺气肿、肺炎、肺结核、肺水肿、急性呼吸窘迫综合征或肺尘埃沉着病。ILD的类型可以包括特发性肺纤维化、非特异性间质性肺炎、脱屑性间质性肺炎、呼吸性细支气管炎、急性间质性肺炎、淋巴样间质性肺炎或隐源性机化性肺炎。

如本文所用的术语“间质性肺病”(ILD)通常是指肺间质组织的疾病。ILD可以包括间质性肺炎、特发性肺纤维化、非特异性间质性肺炎、过敏性肺炎、隐源性机化性肺炎(COP)、急性间质性肺炎、脱屑性间质性肺炎、结节病、石棉沉着病或其任何组合。

低剂量计算机断层成像(CT)扫描(LDCT)通常是指减小对受试者的辐射暴露的成像程序。例如，来自LDCT的辐射暴露可以小于约1.5毫西弗(mSv)。来自LDCT的辐射暴露可以小于约5mSv、4mSv、3mSv、2mSv、1mSv、0.5mSv、0.1mSv或更小。来自LDCT的辐射暴露可以为约1.0mSv至约2.0mSv。来自LDCT的辐射暴露可以为约0.5mSv至约1.5mSv。来自LDCT的辐射暴露可以为约1.0mSv至约4.0mSv。来自LDCT的辐射暴露可以为约1.0mSv至约3.0mSv。LDCT的管电流设置可以小于约40毫安*秒(mAs)、35mAs、30mAs、25mAs、20mAs、15mAs、10mAs、5mAs、1mAs或更小，且仍然产生足够的图像质量。LDCT的管电流设置可以为约20mAs至约40mAs。来自LDCT的管电流设置可以为约20mAs至约50mAs。来自LDCT的管电流设置可以为约20mAs至约80mAs。来自LDCT的管电流设置可以为约20mAs至约100mAs。

来自中剂量CT扫描的辐射暴露可以大于或等于约1mSv、5mSv、6mSv、7mSv、8mSv、9mSv、10mSv、15mSv或更大。来自中剂量CT扫描的辐射暴露可以为约8mSv。来自中剂量CT扫描的辐射暴露可以为约7mSv至约10mSv。来自中剂量CT扫描的辐射暴露可以为约1mSv至约10mSv。来自中剂量CT扫描的辐射暴露可以为约5mSv至约10mSv。来自中剂量CT扫描的辐射暴露可以为约1mSv至约5mSv。中剂量CT扫描的管电流设置可以大于或等于约100mAs、125mAs、150mAs、175mAs、200mAs、225mAs、250mAs、300mAs、350mAs、400mAs、500mAs或更大。中剂量CT扫描的管电流设置可以为约200mAs至约250mAs。中剂量CT扫描的管电流设置可以为约150mAs至约250mAs。中剂量CT扫描的管电流设置可以为约100mAs至约300mAs。中剂量CT扫描的管电流设置可以为约100mAs至约200mAs。中剂量CT扫描的管电流设置可以为约150mAs至约300mAs。中剂量CT扫描的管电流设置可以为约150mAs至约400mAs。

如本文所用的术语“同源性”通常是指两个或更多核苷酸或者氨基酸序列之间的“同源性”或“同源性百分比”的计算，该计算可以通过为了最佳比较目的对序列进行比对来确定(例如，可以将空位引入第一序列的序列中)。然后可以比较对应位置的核苷酸，并且两序列之间的同一性百分比是序列共有的相同位置的数目的函数(即：％同源性＝相同位置的数目/位置的总数目×100)。例如，如果第一序列中的位置被与第二序列中的对应位置相同的核苷酸占据，则分子在该位置是相同的。两序列之间的同源性百分比是序列共有的相同位置的数目的函数，空位的数目和每个空位的长度考虑在内，该空位为了两序列的最佳比对而需要引入。在一些实施方案中，为了比较目的进行比对的序列的长度为参考序列的长度的至少约30％、至少约40％、至少约50％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约95％。在一些情况下，序列同源性可以为约70％至100％。在一些情况下，序列同源性可以为约80％至100％。在一些情况下，序列同源性可以为约90％至100％。在一些情况下，序列同源性可以为约95％至100％。在一些情况下，序列同源性可以为约70％至99％。在一些情况下，序列同源性可以为约80％至99％。在一些情况下，序列同源性可以为约90％至99％。在一些情况下，序列同源性可以为约95％至99％。搜索可以确定两序列之间的同源性。两序列可以是基因、核苷酸序列、蛋白质序列、肽序列、氨基酸序列，或其片段。两序列的实际比较可以通过公知的方法完成，例如，使用数学算法。这样的数学算法的非限制性实例在Karlin,S.和Altschul,S.,Proc.Natl.Acad.Sci.USA,90-5873-5877(1993)中描述。这样的算法被并入到NBLAST和XBLAST程序(版本2.0)中，如Altschul,S.等人,Nucleic Acids Res.,25:3389-3402(1997)中所述。当利用BLAST和间隙BLAST(Gapped BLAST)程序时，可以使用各自程序(例如，NBLAST)的任何相关参数。例如，用于序列比较的参数可以被设置为得分＝100，字长＝12，或者可以改变(例如，W＝5或W＝20)。其他实例包括Myers和Miller,CABIOS(1989)的算法、ADVANCE、ADAM、BLAT和FASTA。在另一实施方案中，两氨基酸序列之间的同一性百分比可以使用例如GCG软件包(Accelrys,Cambridge,UK)中的GAP程序来完成。

如本文所用的术语“片段”通常是指序列的一部分，如可短于全长序列的子集。片段可以是基因的一部分。片段可以是肽或蛋白质的一部分。片段可以是氨基酸序列的一部分。片段可以是寡核苷酸序列的一部分。片段的长度可以小于约20、30、40或50个氨基酸。片段的长度可以小于约20、30、40或50个核苷酸。片段的长度可以为约10个氨基酸至约50个氨基酸。片段的长度可以为约10个氨基酸至约40个氨基酸。片段的长度可以为约10个氨基酸至约30个氨基酸。片段的长度可以为约10个氨基酸至约20个氨基酸。片段的长度可以为约20个氨基酸至约50个氨基酸。片段的长度可以为约30个氨基酸至约50个氨基酸。片段的长度可以为约40个氨基酸至约50个氨基酸。片段的长度可以为约10个核苷酸至约50个核苷酸。片段的长度可以为约10个核苷酸至约40个核苷酸。片段的长度可以为约10个核苷酸至约30个核苷酸。片段的长度可以为约10个核苷酸至约20个核苷酸。片段的长度可以为约20个核苷酸至约50个核苷酸。片段的长度可以为约30个核苷酸至约50个核苷酸。片段的长度可以为约40个核苷酸至约50个核苷酸。

如本文所用的术语“受试者”通常是指患有、可能患有或可能疑似患有肺部病况(例如，肺病)的任何个体。受试者可以是动物。动物可以是哺乳动物，如人类、非人类灵长类动物、啮齿动物如小鼠或大鼠、狗、猫、猪、羊或兔。动物可以是鱼、爬行动物等等。动物可以是新生儿、婴幼儿、青少年或成年动物。受试者可以是活生物体。受试者可以是人类。人类的年龄可以大于或等于1、2、5、10、20、30、40、50、60、65、70、75、80岁或更大。人类的年龄可以为约18至约90岁。人类的年龄可以为约18至约30岁。人类的年龄可以为约30至约50岁。人类的年龄可以为约50至约90岁。受试者可以具有病况的一种或多种风险因子并且无症状。受试者可以对病况无症状。受试者可以具有病况的一种或多种风险因子。受试者可以对病况有症状。受试者可以对病况有症状并且具有病况的一种或多种风险因子。受试者可以患有或疑似患有疾病，如癌症或肿瘤。受试者可以是被治疗疾病的患者，如癌症患者、肿瘤患者或者癌症和肿瘤患者。受试者可能容易具有发展疾病如癌症或肿瘤的风险。受试者可以处于疾病如癌症或肿瘤的缓解中。受试者可未患有癌症，可未患有肿瘤，或者可未患有癌症或肿瘤。受试者可以是健康的。

如本文所用的术语“组织样品”通常是指受试者的任何组织样品。组织样品可以包括从气道的一部分获得的细胞，如从气道的一部分获得的上皮细胞。组织样品可以包括鼻组织、支气管组织、肺组织、食道组织、喉组织、口腔组织或其任何组合。组织样品可以是疑似或确认患有疾病或病况如癌症或肿瘤的样品。组织样品可以是从受试者移取的样品，如组织擦刷、拭取、组织活检、切除组织、细针抽吸、组织清洗、细胞学样本、支气管镜检查或其任何组合。组织样品可以是模糊的或可疑的样品，如通过细针抽吸、支气管镜检查或其他小体积样品采集方法获得的样品。组织样品可以是接受癌症治疗如辐射的患者身体的完整区域。组织样品可以是患者体内的肿瘤。组织样品可以包括癌细胞、肿瘤细胞、非癌细胞或其组合。组织可以包括侵入性细胞、非侵入性细胞或其组合。组织样品可以包括鼻组织、气管组织、肺组织、咽组织、喉组织、支气管组织、胸膜组织、肺泡组织、乳腺组织、膀胱组织、肾组织、肝组织、结肠组织、甲状腺组织、宫颈组织、前列腺组织、心脏组织、肌肉组织、胰腺组织、肛门组织、胆管组织、骨组织、子宫组织、卵巢组织、子宫内膜组织、阴道组织、外阴组织、胃组织、眼组织、窦组织、阴茎组织、唾液腺组织、肠组织、胆囊组织、胃肠组织、膀胱组织、脑组织、脊髓组织、血液样品或其任何组合。

如本文所用的术语“增加的风险”在发展或患有肺部病况的背景下，通常是指与肺部病况在受试者中发生相关的风险或概率的增加。发展肺部病况的增加的风险可包括病况在受试者中的首次发生或者可以包括后续的发生，如第二次、第三次、第四次或后续的发生。发展肺部病况的增加的风险可包括：a)首次发展病况的风险，b)复发或再次发展病况的风险，c)将来发展病况的风险，d)在受试者的一生中易于发展病况的风险，或e)作为婴儿、青少年或成年人易于发展病况的风险。肺部病况发生或复发的增加的风险可包括病况(诸如癌症)变为转移性的风险。肿瘤或癌症发生或复发的增加的风险可包括I期癌症、II期癌症、III期癌症或IV期癌症发生的风险。肿瘤或癌症发生或复发的风险可包括血液癌症、组织癌症(例如肿瘤)的风险，或者癌症从其他部位转移到一个或多个器官部位的风险。

如本文所用的术语“干预性疗法或治疗方案的有效性”通常是指对于干预性疗法或治疗方案是否已经达到其可能意图达到的结果的评估或确定。例如，治疗方案如抗癌药物的施用的有效性可以是抗癌药物减小肿瘤或癌细胞侵袭性、杀死癌症或肿瘤细胞、或消除受试者中的癌症或肿瘤、逆转疾病的进展、或预防疾病发展的评估。治疗方案可以包括手术(即手术切除)、营养方案、身体活动、辐射、化疗、细胞移植、血液输注等等。干预性疗法可以包括向受试者施用：药物组合物、锻炼方案、饮食方案、一种或多种风险因子(诸如吸烟或二手烟暴露)的减少或排除，或其任何组合。

如图1中所示，每年可诊断出超过约225,000例肺癌新病例。约90％新诊断为患有肺癌的受试者可能是具有先前吸烟史的受试者。肺癌每年导致约160,000人死亡。开发新的方法、系统和试剂盒，如本文所述的那些，可以改善肺癌或发展肺癌的风险增加的早期检测，其中早期检测可能是降低整体死亡率的关键改善。进一步地，当前的临床标准护理使得在不需要侵入性、高风险、昂贵的侵入性程序如手术或肺活检的情况下难以准确地诊断肺癌。接受作为当前临床标准护理的一部分的侵入性肺活检的受试者中大约40％未患有癌症。因此、新的方法、系统和试剂盒，如本文所述的那些，也可以在改善肺癌的早期检测和高度准确诊断的同时减少不必要的侵入性程序(具有相关的风险和额外的成本)的数目。

如图2中所示，在当前临床标准护理内的不同决策点处整合基因组分类器可以减少不必要的侵入性程序的数目并鉴定具有低肺癌风险的受试者。例如，每年在美国可以通过成像扫描检测到约180万至200万的偶见肺结节病例。当前的临床标准护理决定了这些通过成像扫描而检测到具有结节的受试者，然后接受侵入性的支气管镜检查以进一步评价肺结节是否可以指示肺癌的存在。约140,000名受试者(或350,000名进行支气管镜检查的受试者中的约60-70％)可能收到模糊的或可疑的结果。当前的临床标准护理决定了支气管镜检查具有模糊的或可疑的结果，然后接受诊断性手术以确定组织病理学事实。然而，具有模糊的或可疑的结果的那些受试者中的约70-80％可能具有可能是组织病理学良性的肺组织。因此，新的方法、系统和试剂盒，如本文所述的那些，可以改善当前的临床标准护理，使得模糊的或可疑的结果将随后在一个或多个基因组分类器上分析，从而从具有肺癌的增加的风险或高风险的那些受试者中鉴定具有肺癌低风险的受试者。随后，将对具有肺癌的增加的风险或高风险的那些受试者进行侵入性诊断性手术——从而避免对低风险人群的不必要的侵入性程序。

图3示出了添加/改善如本文所述的支气管基因组分类器的当前临床标准护理。从一般的成年人群中，被鉴定为处于肺癌风险的那些个体可以接受成像扫描，如低剂量CT扫描。如果鉴定没有结节，则可以在稍后的时间点获得另一成像扫描。如果鉴定有结节，则受试者可以接受风险评估、CT扫描、PET扫描、磁共振成像(MRI)扫描、X射线或其任何组合。目前，在美国很少采用低剂量CT扫描。如果风险评估、CT扫描、PET扫描、MRI扫描、X射线或其任何组合将受试者鉴定为具有肺癌的低风险，则可以在稍后的时间点进行另一风险评估、另一CT扫描、另一PET扫描、另一MRI扫描、另一X射线或其任何组合。如果风险评估、CT扫描、PET扫描、MRI扫描、X射线或其任何组合将受试者鉴定为具有肺癌的中等或高风险，则受试者可以接受支气管镜检查、经胸壁针抽吸(TTNA)、电视辅助胸腔镜手术(VATS)、任何用于获得气道组织样品的方法，或其任何组合。如果获得的气道样品被鉴定为模糊的或可疑的，可以运行支气管基因组分类器以鉴定肺癌的风险。如果支气管基因组分类器将样品鉴定为低风险，则可以进行另一风险评估、另一CT扫描、另一PET扫描、另一MRI扫描、另一X射线或其任何组合。如果支气管基因组分类器将样品鉴定为中等风险，则可以进行另一支气管镜检查、另一经胸壁针抽吸(TTNA)、另一电视辅助胸腔镜手术(VATS)、用于获得气道组织样品的另一方法，或其任何组合。支气管镜检查样品可能是模糊的或可疑的。高百分比的支气管镜检查样品可能是模糊的或可疑的。因此，向当前的临床标准护理添加支气管基因组分类器可以显著地减少模糊的或可疑的结果的数目。如果受试者被鉴定为患有肺癌，则受试者可治疗肺癌并且可通过成像、液体活检或其组合来监测肺癌的复发。然而，这些鉴定疾病复发的当前的成像和液体活检方法的缺点在于灵敏度低和鉴定残留疾病的能力较小。

如图4中所示，向肺癌的临床标准护理添加支气管基因组分类器可以显著地改善受试者处理并且可具有积极的影响。例如，在添加支气管基因组分类器前，约37％或更多的中等至低风险受试者可经历侵入性程序。相比之下，通过向临床标准护理添加支气管基因组分类器，对中等至低风险受试者进行的侵入性程序的数目可减少约47％或更多。

如图5中所示，向特发性肺纤维化(IPF)的临床标准护理添加基因组分类器可以显著地减少不必要的侵入性程序的数目。例如，在美国和欧洲约200,000名受试者可能被评价为疑似存在IPF，并且可能接受诊断性高分辨率计算机断层成像(HRCT)。在那200,000名受试者中，约150,000名受试者(或70-75％)可从HRCT收到模糊的或可疑的结果。具有模糊的或可疑的结果的那些受试者可接受诊断性手术，以鉴定组织病理学事实(IPF的存在或不存在)。然而，如本文所述的基因组分类器的实现可以鉴定典型间质性肺炎模式(UIP)(IPF的模式)的存在或不存在。在鉴定典型UIP存在的情况下，受试者可以随后接受诊断性手术或治疗。在鉴定典型UIP不存在的情况下，受试者可以不接受侵入性程序。

图6示出了活检数目减少的百分比的图表，并突出了采用基因组分类器区分UIP与其他ILD病理学的临床效用。例如，基因组分类器的引入可能在改善ILD的处理方法方面具有有力的临床影响。通过在区分UIP与其他ILD病理学中纳入基因组分类器，可以观察到侵入性活检数目的显著减少。

如图7中所示，损伤的病因学领域可能共有共同的途径。例如，病因学暴露和慢性气道损伤可改变组织微环境，如气道上皮环境。改变的微环境可导致一种或多种分子畸变并激活一种或多种修复途径。表型可以通过固有的宿主对损伤的反应来确定。COPD、ILD、哮喘或其任何组合可反映了可能增加肺癌风险的宿主反应。来自气道上皮的生物标志物分析可代表鉴定变化连续性的重要机会。

如图8中所示，可能有多于一个区域，如癌化区域和损伤区域。损伤区域可包括与肺癌的存在相关的基因组改变，该基因组改变可见于整个呼吸道的细胞。癌化区域可包括肿瘤特异性基因组改变，该肿瘤特异性基因组改变可存在于周围的气道，如肿瘤源的近端。损伤区域和癌化区域之间可能有相互作用。例如，在上气道中发现的分子变化可能与或可能不与损伤区域、癌化区域或其结合有关。风险性分子特征可以应用于任何肺部病况，如肺癌、ILD、COPD、哮喘等等。

图9示出了损伤区域和癌化区域概念的分子视图。损伤可以包括吸烟或环境暴露。可以概述肺部病况如癌症、纤维化和肺气肿的损伤特征(诸如改变的RNA表达)和疾病特征(诸如额外的突变、转录失调等等)。

图10示出了与图3相似的途径，示出了通过添加单个支气管基因组分类器而改善的临床决策的当前状态。然而，临床护理的当前状态可受益于在临床护理途径内的其他决策点添加其他基因组分类器。

图11a和图11b示出了在当前临床标准护理内的特定决策点添加各种基因组分类器，其改善了早期检测并使不必要的侵入性程序最小化。例如，可以在一般人群内鉴定风险性人群。风险性人群可以包括具有发展肺部病况的增加的风险或者患有肺部病况(诸如肺癌)的受试者。可以通过鉴定与肺部病况相关的一种或多种风险因子的存在来鉴定风险性人群。可以给予受试者能够评估一种或多种风险因子的存在的问卷。医学专业人员可以提示受试者，以提供可以评估一种或多种风险因子的存在的问题的答案。可以从可被鉴定为肺部病况风险性的受试者获得样品(诸如非侵入性样品，如鼻擦刷)。可以将从样品获得的数据(例如表达水平或序列变体数据)输入到基因组分类器(诸如Nasa检测分类器)。基因组分类器可以将样品鉴定为阳性或阴性。收到阳性结果的受试者可以接受成像扫描(诸如低剂量CT扫描)以扫描肺结节。可以在稍后的时间点从收到阴性结果的受试者获得另一样品，可以将其中的数据输入到基因组分类器。

可以从基于成像扫描(诸如低剂量CT扫描)而具有肺结节的确认存在的受试者获得样品。可以将来自样品的数据(诸如表达水平或序列变体数据)输入到基因组分类器(诸如Nasa风险分类器)。基因组分类器可以将样品鉴定为肺部病况(诸如肺癌)的高风险或低风险。从分类器收到高风险结果的受试者可以接受侵入性程序(诸如支气管镜检查、TTNA或VATS)，以确认肺部病况的存在或不存在。从分类器收到低风险结果的受试者可以接受另一扫描，以扫描结节的存在，随后在稍后的时间点将来自另一样品的数据输入到基因组分类器中。

通过基因组分类器(诸如Nasa风险分层器分类器或支气管基因组分类器)鉴定为具有肺部病况的低风险的受试者可以接受干预性疗法以减缓或逆转疾病进展或预防肺部病况的发生。在至少完成干预性疗法的一部分后，可以从受试者获得样品。可以将来自样品的数据(诸如表达水平或序列变体数据)输入到基因组分类器(诸如Nasa保护监测分类器)。基因组分类器可以鉴定干预性疗法、受试者依从性、疾病逆转或肺部病况预防或其组合的效果。

可以在根治治疗后从接受根治治疗如手术切除癌症或治疗方案(诸如药物组合物的施用)的受试者获得样品。可以将来自样品的数据(诸如表达水平或序列变体数据)输入到基因组分类器(诸如Nasa复发分类器)。基因组分类器可以提供肺部病况复发的早期检测。

图12示出了Nasa检测分类器的特征。该分类器可以检测风险性人群中的肺部损伤。该分类器可以(i)优化成像筛查传送(funnel)；(ii)可以用更具特异性的初始筛查工具来增强成像扫描；(iii)可以增强可受益于干预性疗法的受试者的早期检测；或者(iv)其任何组合。通过该分类器评价的受试者可能预先被确定为处于肺癌的风险。来自该分类器的阳性结果可以包括使用成像扫描(诸如LDCT)继续研究的推荐，并且LDCT表明结节不存在可以指示受试者作为干预性疗法的候选者。来自该分类器的阴性结果可以包括在稍后的时间点使用该分类器再次监测。

图13示出了Nasa风险分层器分类器的特性。该分类器可以对结节风险进行分层。该分类器可以使不确定的肺结节的数目最小化。该分类器可以在需要活检的那些受试者中加速活检，同时在不需要活检的那些受试者中避免侵入性活检。通过该分类器评价的受试者可以包括具有经鉴定的肺部病变的受试者。来自该分类器的低风险结果可以包括监视或指示受试者作为干预性疗法的候选者。来自该分类器的中等结果可以包括使用临床判断。来自该分类器的高风险结果可以包括受试者接受活检。该分类器可以在下一代测序(NGS)平台上开发。该分类器可以包括测序信息、放射学特征或其组合。

图14示出了Nasa保护分类器的特性。该分类器可以作为监测肺损伤逆转的伴随诊断。该分类器可以鉴定受试者对给定治疗或疗法的依从性。该分类器可以鉴定可能受益于推荐的治疗或疗法的受试者。通过该分类器评估的受试者可以包括Nasa检测阳性和结节阴性受试者人群。通过该分类器评估的受试者可以包括结节阳性和通过Nasa风险分层器分类器表明低风险的受试者。

图15示出了Nasa复发分类器的特征。该分类器可以是在已经接受根治手术切除或根治治疗方案的受试者中测试复发的非侵入性监测方法。该分类器可以鉴定早期疾病的出现或再现。该分类器可以包括鉴定复发的高灵敏度。通过该分类器评估的受试者可以包括为了治愈而手术切除肺癌或者接受根治治疗方案的受试者。

图16示出了基因测试的ACCE评价过程。评价基因测试的四个主要标准包括分析有效性(Analytic validity)、临床有效性(Clinical validity)、临床效用(Clinicalutility)和伦理意义(Ethical implications)。

图17示出了以下实例：(i)用于训练和验证基因组分类器的样品类型和(ii)为了鉴定而输入到基因组分类器中的样品类型。样品可以包括从以下获得的样品：患有预先存在的良性肺病的受试者；患有慢性肺部感染的受试者；具有抑制的免疫系统的受试者；具有发展肺部病况的增加的遗传风险的受试者；具有环境暴露的非吸烟者；或其任何组合。可以从多个不同的国家获得样品。来自队列的亚群可以驱动特定分类器的开发和验证。可以针对特定的人群、暴露类型或其组合开发分类器。例如，可以针对中国的环境污染或针对肺部病况的遗传素质开发分类器。可以开发基因组分类器以筛查肺部病况、诊断肺部病况、评价肺部病况的治疗、监测受试者的病况或其任何组合。可以每年从受试者采集样品。每年获得的样品可以包括鼻擦刷、血液样品、成像扫描或其组合。

图18示出了鼻或支气管擦刷样品的队列。可以鉴定每个队列(AEGIS、DECAMP1、LTP2、DECAMP2和Lahey)。可以鉴定登记的受试者的数目和在当前标准护理中的位置(在支气管镜检查期间、成像扫描后或在筛查期间)并对每个样品队列进行指示。可以指示纳入标准，包括受试者的年龄和吸烟史。也可以对每个样品队列指示样品的类型(鼻擦刷、支气管擦刷、血液、成像扫描)和随访持续时间(12个月、24个月、48个月)。

图19示出了用于训练和验证分类器(诸如Nasa检测分类器)的训练样品的实例。可以采用队列DECAMP2和Lahey来训练该分类器。样品可以包括鼻擦刷、血液样品或其组合。可以从提供样品的每个受试者采集额外的数据，包括：受试者是否可能是前吸烟者或现吸烟者；自戒烟以来的时间；共病的存在；肺部病况的家族史；在支气管之前的风险；或其任何组合。用于训练和验证分类器的训练样品可以大于约100个样品、200个样品、300个样品、400个样品、500个样品、600个样品、700个样品、800个样品、900个样品、1000个样品、1100个样品、1200个样品、1300个样品、1400个样品、1500个样品、1600个样品、1700个样品、1800个样品、1900个样品、2000个样品或更多(例如，从不同受试者获得的1950个样品)。在一些情况下，训练样品可以包括约100个样品至约200个样品。在一些情况下，训练样品可以包括约100个样品至约300个样品。在一些情况下，训练样品可以包括约100个样品至约400个样品。在一些情况下，训练样品可以包括约100个样品至约500个样品。在一些情况下，训练样品可以包括约100个样品至约600个样品。在一些情况下，训练样品可以包括约100个样品至约700个样品。在一些情况下，训练样品可以包括约100个样品至约800个样品。在一些情况下，训练样品可以包括约100个样品至约900个样品。在一些情况下，训练样品可以包括约100个样品至约1000个样品。在一些情况下，训练样品可以包括约100个样品至约1500个样品。在一些情况下，训练样品可以包括约100个样品至约2000个样品。在一些情况下，训练样品可以包括约100个样品至约3000个样品。在一些情况下，训练样品可以包括约100个样品至约4000个样品。在一些情况下，训练样品可以包括约100个样品至约5000个样品。提供样品的受试者可以是吸烟者、具有暴露风险的非吸烟者或者没有吸烟史或暴露风险的健康受试者。

图20示出了用于训练和验证分类器(诸如Nasa风险分层器分类器)的训练样品的实例。可以采用队列AEGIS和DECAMP1来训练该分类器。样品可以包括鼻擦刷、支气管擦刷、血液样品或其任何组合。可以从提供样品的每个受试者采集额外的数据，包括：受试者是否可能是前吸烟者或现吸烟者；自戒烟以来的时间；共病的存在；在支气管之前的风险；或其任何组合。用于训练或验证分类器的训练样品可以大于约100个样品、200个样品、300个样品、400个样品、500个样品、600个样品、700个样品、800个样品、900个样品、1000个样品、1100个样品、1200个样品、1300个样品、1400个样品、1500个样品、1600个样品、1700个样品、1800个样品、1900个样品、2000个样品、2100个样品、2200个样品、2300个样品、2400个样品、2500个样品、2600个样品、2700个样品、2800个样品、2900个样品、3000个样品或更多(例如，从不同受试者获得的2350个样品)。在一些情况下，训练样品可以包括约100个样品至约200个样品。在一些情况下，训练样品可以包括约100个样品至约300个样品。在一些情况下，训练样品可以包括约100个样品至约400个样品。在一些情况下，训练样品可以包括约100个样品至约500个样品。在一些情况下，训练样品可以包括约100个样品至约600个样品。在一些情况下，训练样品可以包括约100个样品至约700个样品。在一些情况下，训练样品可以包括约100个样品至约800个样品。在一些情况下，训练样品可以包括约100个样品至约900个样品。在一些情况下，训练样品可以包括约100个样品至约1000个样品。在一些情况下，训练样品可以包括约100个样品至约1500个样品。在一些情况下，训练样品可以包括约100个样品至约2000个样品。在一些情况下，训练样品可以包括约100个样品至约3000个样品。在一些情况下，训练样品可以包括约100个样品至约4000个样品。在一些情况下，训练样品可以包括约100个样品至约5000个样品。提供样品的受试者可以是吸烟者或非吸烟者。

图21示出了生物标志物和用于检测它们的存在或不存在而采用的技术。例如，可以通过下一代测序(NGS)、微阵列、荧光原位杂交(FISH)、聚合酶链反应(PCR)或其任何组合来检测基因组生物标志物(包括突变和不平衡)。可以通过NGS、微阵列、PCR、质谱法(MS)或其任何组合来检测表观遗传生物标志物(诸如DNA甲基化，如5-羟甲基化胞嘧啶、5-甲基化胞嘧啶、5-羧甲基化胞嘧啶或5-甲酰化胞嘧啶)。可以通过NGS、微阵列、PCR或其任何组合来检测转录组学生物标志物(诸如RNA表达水平)。可以通过蛋白质阵列、免疫组织化学染色(IHC)或其组合来检测蛋白质组学生物标志物(诸如蛋白质的存在)。

图22示出了基因组分类器的RNA测序和基因组分类器的甲状腺FNA分析。图23示出了基因A、基因B和基因C的RNA测序的实例。在转录成RNA之后，可以：(i)检测一种或多种表达水平(诸如每种转录物的计数)；(ii)检测一个一种或多种变体(诸如每种转录物的序列)；(iii)检测染色体拷贝的数目(诸如杂合性丢失(LOH))；或者(iv)其任何组合。

图24示出了如本文所述的经训练的算法的流程图。例如，算法可以从样品接收一种或多种类型的测序数据。接收到算法中的数据可以归一化。特征提取和特征选择可以与监督式机器学习一起发生。可以将一个或多个临床协变量添加到算法。可以将一个或多个训练标签添加到算法。可以将一个或多个锁并入算法。可以确认分析验证。可以确认临床验证。可以启动基因组分类器。

图25示出了了富含Bethesda细胞学和组织学亚型的训练集的实例。例如，图25示出了训练集中的总计634个样品中同时具有Bethesda细胞学和组织学亚型的507个样品。训练集可以跨越所有生物类别。

准确性、特异性和灵敏度

如本文所述的方法可以(i)确定病况如肺癌的存在或不存在，或者(ii)将组织分类为良性或恶性，这样的方法可以提供可大于约70％的诊断特异性。在一些实施方案中，特异性可以为至少约70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大。在一些情况下，特异性可以为约70％至约99％。在一些情况下，特异性可以为约80％至约99％。在一些情况下，特异性可以为约85％至约99％。在一些情况下，特异性可以为约90％至约99％。在一些情况下，特异性可以为约95％至约99％。在一些情况下，特异性可以为约70％至约95％。在一些情况下，特异性可以为约80％至约95％。在一些情况下，特异性可以为约85％至约95％。在一些情况下，特异性可以为约90％至约95％。在一些情况下，特异性可以为约70％至100％。在一些情况下，特异性可以为约80％至100％。在一些情况下，特异性可以为约85％至100％。在一些情况下，特异性可以为约90％至100％。在一些情况下，特异性可以为约90％至100％。

如本文所述的方法可以(i)确定病况如肺癌的存在或不存在，或者(ii)将组织分类为良性或恶性，这样的方法可以提供可大于约70％的诊断灵敏度。在一些实施方案中，灵敏度可以为至少约70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大。在一些情况下，灵敏度可以为约70％至约99％。在一些情况下，灵敏度可以为约80％至约99％。在一些情况下，灵敏度可以为约85％至约99％。在一些情况下，灵敏度可以为约90％至约99％。在一些情况下，灵敏度可以为约95％至约99％。在一些情况下，灵敏度可以为约70％至约95％。在一些情况下，灵敏度可以为约80％至约95％。在一些情况下，灵敏度可以为约85％至约95％。在一些情况下，灵敏度可以为约90％至约95％。在一些情况下，灵敏度可以为约70％至100％。在一些情况下，灵敏度可以为约80％至100％。在一些情况下，灵敏度可以为约85％至100％。在一些情况下，灵敏度可以为约90％至100％。在一些情况下，灵敏度可以为约90％至100％。

如本文所述的方法可以(i)确定病况如肺癌的存在或不存在，或者(ii)将组织分类为良性或恶性，这样的方法可以提供可大于约70％的诊断灵敏度和可大于约70％的特异性。灵敏度可以大于约70％并且特异性可以大于约80％。灵敏度可以大于约70％并且特异性可以大于约90％。灵敏度可以大于约70％并且特异性可以大于约95％。灵敏度可以大于约80％并且特异性可以大于约70％。灵敏度可以大于约80％并且特异性可以大于约80％。灵敏度可以大于约80％并且特异性可以大于约90％。灵敏度可以大于约80％并且特异性可以大于约95％。灵敏度可以大于约90％并且特异性可以大于约70％。灵敏度可以大于约90％并且特异性可以大于约80％。灵敏度可以大于约90％并且特异性可以大于约90％。灵敏度可以大于约90％并且特异性可以大于约95％。灵敏度可以大于约95％并且特异性可以大于约70％。灵敏度可以大于约95％并且特异性可以大于约80％。灵敏度可以大于约95％并且特异性可以大于约90％。灵敏度可以大于约95％并且特异性可以大于约75％。

如本文所述的方法可以(i)确定病况如肺癌的存在，或者(ii)将组织分类为良性或恶性，这样的方法可以提供可大于或等于约95％的阴性预测值(NPV)。NPV可以为至少约95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更大。在一些情况下，NPV可以为约95％至约99％。在一些情况下，NPV可以为约96％至约99％。在一些情况下，NPV可以为约97％至约99％。在一些情况下，NPV可以为约98％至约99％。在一些情况下，NPV可以为约95％至100％。在一些情况下，NPV可以为约96％至100％。在一些情况下，NPV可以为约97％至100％。在一些情况下，NPV可以为约98％至100％。

在一些实施方案中，标称特异性大于或等于约50％。在一些实施方案中，标称特异性大于或等于约60％。在一些实施方案中，标称特异性大于或等于约70％。在一些实施方案中，标称阴性预测值(NPV)大于或等于约95％。在一些实施方案中，NPV为至少约90％、91％、92％、93％、94％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％(例如，90％、91％、92％、93％、94％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％)并且特异性(或阳性预测值(PPV))为至少约30％、35％、40％、50％、60％、70％、80％、90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％或99.5％(例如，30％、35％、40％、50％、60％、70％、80％、90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％)在一些情况下，NPV为至少约95％，并且特异性为至少约50％。在一些情况下，NPV为至少约95％并且特异性为至少约70％。在一些情况下，NPV为至少约95％并且特异性为至少约75％。在一些情况下，NPV为至少约95％并且特异性为至少约80％。

灵敏度可以指TP/(TP+FN)，其中TP为真阳性，FN为假阴性。即持续不确定结果的数目除以基于判定的组织病理学诊断的恶性结果的总数目。特异性通常是指TN/(TN+FP)，其中TN为真阴性，FP为假阳性。即良性结果的数目除以基于判定的组织病理学诊断的良性结果的总数目。阳性预测值(PPV)：TP/(TP+FP)；阴性预测值(NPV)：TN/(TN+FN)。

本发明的方法和组合物还涉及目的在于鉴定、分类、诊断或以其他方式表征生物样品的生物标志物组的使用。组可以鉴定以下中的一种或多种：损伤区域；癌化区域；病况(诸如ILD、COPD或肺癌)的存在；发展病况的增加的风险；疾病复发的存在；疾病的逆转；疾病的预防；或其任何组合。所述方法和组合物还可使用生物标志物组的群组。通常可以确定组中的生物标志物的基因表达水平的模式(也称为特征，如损伤特征或癌化特征)，然后可以将其用于评价生物样品中的同一组生物标志物的特征，诸如通过测量样品特征与参考特征之间的相似性。在一些实施方案中，该方法涉及测量(或获得)可在生物标志物组内和/或在分类组内的两种或更多种基因表达产物的水平。例如，在一些实施方案中，生物标志物组或分类组可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物。在一些实施方案中，生物标志物组或分类组包含不超过或等于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物。在一些实施方案中，生物标志物组或分类组包含约1至约500种生物标志物。在一些实施方案中，生物标志物组或分类组包含约1至约400种生物标志物。在一些实施方案中，生物标志物组或分类组包含约1至约300种生物标志物。在一些实施方案中，生物标志物组或分类组包含约1至约200种生物标志物。在一些实施方案中，生物标志物组或分类组包含约1至约100种生物标志物。在一些实施方案中，生物标志物组或分类组包含约1至约500种生物标志物。在一些实施方案中，生物标志物组或分类组包含约100至约500种生物标志物。在一些实施方案中，生物标志物组或分类组包含约200至约500种生物标志物。在一些实施方案中，生物标志物组或分类组包含约300至约500种生物标志物。在一些实施方案中，生物标志物组或分类组包含约400至约500种生物标志物。在一些实施方案中，分类组包含至少约1、2、3、4、5、6、7、8、9、10、15、20或25个不同的生物标志物组。在其他实施方案中，分类组包含不超过或等于约1、2、3、4、5、6、7、8、9、10、15、20或25个不同的生物标志物组。生物标志物组可以包括基因组，该基因组可以鉴定损伤特征、确认间质性肺炎模式(UIP)的存在、鉴定发展疾病的风险、鉴定疾病复发的风险、监测疾病进展或其任何组合。

可增加发展肺癌的风险或可能性的一种或多种风险因子可以包括吸烟、环境烟雾(诸如二手烟)暴露、氡气暴露、工业物质(诸如石棉、砷、柴油机排气、芥子气、铀、铍、氯乙烯、铬酸镍、煤炭产品、氯甲基醚、汽油)暴露、遗传或环境获得性基因突变、肺结核、空气污染暴露、辐射(诸如先前放疗)暴露、受试者的年龄、患有继发性病况(诸如慢性阻塞性肺病(COPD)、间质性肺病(ILD)、哮喘等等)、食用膳食补充剂(诸如β-胡萝卜素)或其任何组合。可增加发展肺癌的风险或可能性的风险因子可包括吸食香烟、吸食雪茄、吸食烟斗或其任何组合。

受试者具有一种风险因子可以将受试者鉴定为风险性个体。受试者具有两种风险因子可以将受试者鉴定为风险性个体。受试者具有三种风险因子可以将受试者鉴定为风险性个体。个别风险因子的权重可能不相等。诸如吸烟等单个风险因子的存在可以将受试者鉴定为风险性个体。诸如具有特殊的基因突变等单个风险因子的存在可能不足以单独将受试者鉴定为风险性个体，而需要结合其他风险因子。

可以给予受试者问卷(书面的或计算机化的)以提供评估一种或多种风险因子的存在的一个或多个问题的答案。医学专业人员可能要求直接来自受试者的一个或多个问题的答案以评估一种或多种风险因子的存在。可以由受试者提供非侵入性样品以评估一种或多种风险因子的存在。可以提供受试者的先前病史以评估一种或多种风险因子的存在。医学专业人员可以保留受试者的健康或生理数据，其可以包括例如受试者的病史。

非确定性的诊断可能导致不必要的手术、延迟的诊断、延迟的治疗或其任何组合。在当前的临床途径中，15-70％的诊断可能是不确定或非确定型的。在非确定性诊断的情况下，可能推荐进行诊断性手术。由于非确定性诊断被推荐进行手术的那些受试者中的一部分可能是良性的。可能需要开发能够以高灵敏度和特异性诊断或分类样品的基因组分类器。

当前，每年约有225,000个肺癌新病例。在这些新病例中，约90％的受试者可能被鉴定在他们生命的至少一部分期间为吸烟者。经受侵入性活检的受试者中约40％未患有癌症。进一步地，早期检测对于降低死亡率也可能是重要的。然而，当前的标准护理需要侵入性程序来诊断。

诸如外周肺结节等肺组织可能难以获得活检，并且可能产生高比率的非确定性或非诊断性支气管镜检查。因此，可能需要用于诊断肺癌的替代选择。

吸烟可改变整个气道的上皮细胞的基因表达，该上皮细胞包括鼻、口、口腔、鼻腔、咽、喉、气管、肺、支气管、肺泡或其任何组合的上皮细胞。

从气道的一部分分离上皮细胞并测定分离的上皮细胞中的基因特征或生物标志物组可以确定发展癌症的风险或者确认癌症的存在或者将肺组织分类为良性或恶性。可以例如使用核酸扩增(例如，PCR)、阵列杂交或测序进行这样的测定。这样的测序可以是大规模平行测序(例如，Illumina、Pacific Biosciences of California或Oxford Nanopore)。测序可以提供测序读取，其可以被用于鉴定基因(或基因组)畸变(例如，拷贝数变异、单核苷酸多态性、单核苷酸变体、插入或缺失等)和与基因相对应的表达水平。这可以有利地提供与受试者基因组中的遗传畸变相关的信息以及与来自相同样品的转录物信使核糖核酸分子(mRNA)的表达水平相关的信息。

分离的上皮细胞可以从可远离癌症或肿瘤部位的气道部分分离出来。例如，分离的上皮细胞可以是鼻上皮细胞或口上皮细胞，并且从分离的鼻上皮细胞获得的生物标志物组的表达水平的基因特征可以预测在支气管组织中或外周肺结节中发展癌症的风险或者确认癌症的存在。肿瘤特异性基因组改变可能存在于周围气道组织中。可能在整个气道的细胞中发现与癌症的存在相关的基因组改变。

间质性肺病(ILD)的亚型可能难以区分并且难以在临床上确定地诊断。许多患有ILD的受试者(诸如约42％)报告从最初的症状到接受确诊具有至少一年的延迟。误诊可能是常见的。至少55％的患有ILD的受试者报告至少一项误诊。

在美国和欧洲，每年约有200,000名疑似患有ILD的受试者可接受评价。约25-30％的接受高分辨率CT扫描的受试者显示出UIP的存在。约70-75％(约150,000名)的受试者在高分辨率CT扫描后收到不确定的或非确定性的诊断。这些收到非确定性诊断的受试者可能被推荐进行诊断性手术。

可能需要开发使用基因特征(诸如IPF的典型UIP模式)的基因组分类器，以改善诊断准确性并减少接受诊断性手术的受试者的数目。

本文所述的方法提供了基因组分类器，以通过测定从疑似患有ILD的受试者获得的样品中的生物标志物组(诸如典型UIP模式)来鉴定ILD(诸如IPF)的存在。该方法可以具有至少约88％的特异性和至少约67％的灵敏度。对于通过基因组分类器鉴定具有阳性UIP模式的受试者，进行随后的诊断性活检的受试者百分比从未使用基因组分类器的约59％降低到使用基因组分类器的约29％。

典型UIP的高分辨率计算机断层成像(HRCT)标准可以包括以下中的至少四项：胸膜下基底超优势度、网状异常、蜂窝肺伴或不伴牵拉性支气管扩张、以及不存在所列与UIP模式不一致的特征。可能的UIP模式可以包括以下中的三项：以胸膜下基底超优势度、网状异常、不存在所列与UIP模式不一致的特征。可能与典型UIP模式不一致的指示包括以下任一项：上肺或中肺超优势度、支气管周血管超优势度、广泛的毛玻璃状异常、大量的微结节、孤立的囊肿、弥漫性马赛克衰减或空气潴留、支气管肺段或叶的实变。

受试者(诸如处于发展肺癌的低风险的受试者)可以接受支气管镜检查、经胸壁针抽吸(TTNA)、电视辅助胸腔镜手术(VATS)或其他方法以获得气道组织样品，如肺组织样品。如果支气管镜检查可能是非确定性的或非诊断性的，则可以应用分类器(诸如支气管基因组分类器)以鉴定和分类气道组织样品并避免进一步的侵入性程序。

受试者可以接受活检，如经支气管活检。可以将分类器(诸如基因组分类器)应用到从活检获得的一种或多种表达水平，以检测基因的组的一种或多种基因或者基因表达模式(诸如典型IPF“UIP”模式)的存在或不存在。分类器可以在活检中鉴定诸如IPF等ILD的存在或不存在。

对于与一般人群相比可处于发展肺癌的增加的风险中(基于一种或多种风险因子)的受试者，可以采用分类器(诸如Nasa检测分类器)以确定受试者中“损伤”特征的存在或不存在，这可以是肺癌诊断的早期检测方法。可以将分类器(诸如Nasa检测分类器)应用于在从受试者获得的样品中测试的一种或多种表达水平，以检测基因的组的一种或多种基因或者基因表达模式的存在或不存在。基因的组可以包括“损伤”的特征，该“损伤”的特征可能使受试者易于发展肺癌，或者可能是疾病存在的早期指标。可以利用该分类器来鉴定可能是干预性疗法或损伤逆转潜在候选者的受试者。如果分类器(诸如Nasa检测分类器)报告阴性结果，即受试者没有“损伤”组的一种或多种基因的存在或改变的表达，则可以对在稍后的时间点从受试者获得的第二样品重新运行分类器，以监测基因表达的变化。如果分类器(诸如Nasa检测分类器)报告阳性结果，即受试者确实具有“损伤”组的一种或多种基因的存在或改变的表达，则受试者可以接受低剂量CT扫描(LDCT)。

可以训练分类器以检测受试者的“风险性”人群中的“损伤”。阳性结果可以包括推荐用LDCT进行后续研究。阴性的结果可以包括推荐用第二分类器(诸如Nasa检测分类器)以循环的时间间隔进行监测，该循环的时间间隔诸如约每0.5年、每1年、每1.5年、每2年、每2.5年、每3年、每3.5年、每4年、每4.5年、或每5年或更久。在一些情况下，循环的时间间隔可以为约0.5年至约3年。在一些情况下，循环的时间间隔可以为约1年至约3年。在一些情况下，循环的时间间隔可以为约2年至约3年。在一些情况下，循环的时间间隔可以为约0.5年至约2年。在一些情况下，循环的时间间隔可以为约0.5年至约1.5年。训练用于检测“风险性”人群中的“损伤”的分类器可以(i)优化可通过LDCT筛查的受试者的子集，(ii)使用特定的筛查工具增大LDCT筛查，(iii)检测可能受益于干预性疗法的受试者，或其任何组合。

受试者可以接受低剂量CT扫描以确定一种或多种肺结节的存在或不存在。如果LDCT显示肺结节不存在，(i)可以对在稍后的时间点从受试者获得的第二样品重新运行分类器(诸如Nasa检测分类器)，以监测“损伤”组的一种或多种基因的基因表达的变化，或者(ii)受试者可能被推荐接受干预性疗法。如果LDCT显示一种或多种肺结节的存在，可以将分类器(诸如Nasa风险分层器分类器)应用到在从受试者获得的样品运行中测定的一种或多种表达水平。

被推荐进行干预性疗法的受试者(诸如通过LDCT测量肺结节不存在的受试者)可以接受一种或多种药物疗法。施用一种或多种药物疗法后，可以从受试者获得样品，测定一种或多种表达水平并在分类器(诸如Nasa保护监测器分类器)上运行。可以训练分类器(诸如Nasa保护监测器分类器)以监测生物标志物的特定组的变化，并推荐是否继续特定的药物方案。分类器(诸如Nasa保护监测器分类器)的结果可能是推荐停止药物疗法、转换到不同的药物疗法、转换到不同的非药物疗法、维持当前的治疗或其任何组合。可以利用分类器(诸如Nasa保护监测器分类器)作为监测损伤区域逆转的伴随诊断，该损伤区域的逆转可能停止诸如肺癌等癌症的进展。

可以训练分类器(诸如Nasa保护分类器)作为监测肺部损伤逆转的伴随诊断。可以训练分类器以鉴定可能受益于特定治疗或药物方案的受试者的子集。

当LDCT产生一个或多个肺结节的存在时，可以从受试者获得样品。可以测定样品的一种或多种表达水平，然后将该一种或多种表达水平输入到分类器(诸如Nasa风险分层器分类器)中。可以在支气管镜检查或其他侵入性程序之前运行分类器(诸如Nasa风险分层器分类器)。分类器(诸如Nasa风险分层器分类器)可以鉴定受试者处于发展肺癌的低风险、处于发展肺癌的高风险、处于患有肺癌的低风险或处于患有肺癌的高风险。当分类器(诸如Nasa风险分层器分类器)的结果产生低风险结果时，可以在稍后的时间点对受试者进行另一LDCT。当分类器(诸如Nasa风险分层器分类器)的结果产生低风险结果时，受试者可以随后接受支气管镜检查、经胸壁针抽吸(TTNA)、电视辅助胸腔镜手术(VATS)或另一侵入性程序。分类器(如Nasa风险分层器分类器)可以将受试者下一步骤的过程转变为两个不同的类别(如高风险受试者和低风险受试者)。这种下一步骤的过程转变可以改善癌症的早期检测，降低假阳性。

可以训练分类器(如Nasa风险分层器分类器)以将结节(诸如通过LDCT检测的结节)的存在的风险分层，以更好地告知下一临床步骤。分类器可以包括放射学选择特征。可以在下一代测序(NGS)平台上开发分类器。产生低风险结果的分类器可以包括推荐受试者进行持续监视或监测或者包括推荐受试者作为干预性疗法的潜在候选者。产生高风险结果的分类器可以包括推荐继续进行手术活检。分类器可以在需要进一步测试的那些受试者中加速手术活检并在不需要的那些受试者中避免手术活检。分类器可以使不确定的肺结节的数目最小化。分类器的受试者人群可以包括已经通过诸如LDCT确认肺部病变存在的受试者。

在一些情况下，支气管镜检查或其他侵入性程序(诸如TTNA或VATS)可产生阳性癌症诊断。在一些情况下，支气管镜检查可产生非诊断性结果。在这些情况下，当支气管镜检查可产生非诊断性结果时，可以从受试者获得样品，测定一种或多种表达水平，并且可以将该表达水平输入到分类器(诸如支气管基因组分类器)中。如果分类器(诸如支气管基因组分类器)返回中风险的结果，受试者可以接受第二支气管镜检查或侵入性程序。如果分类器(诸如支气管基因组分类器)返回低风险的结果，受试者可以接受干预性疗法或第二LDCT。在一些情况下，支气管镜检查可产生癌性或恶性结果。从支气管镜检查或其他侵入性程序收到癌性或恶性结果的受试者可以将受影响的组织手术切除。如果受影响的组织可以被手术切除，可以从受试者获得样品，测定一种或多种表达水平，并且可以将该表达水平输入到分类器(诸如Nasa复发分类器)中。在诸如早期癌症等癌症可被检测和切除后，分类器(诸如Nasa复发分类器)可以通过监测来预测早期复发。如果分类器(诸如Nasa复发分类器)的结果可指示没有复发的风险，则可以在稍后的时间点从受试者获得第二样品，测定一种或多种表达水平，并通过分类器(诸如Nasa复发分类器)运行该表达水平。如果分类器(诸如Nasa复发分类器)的结果可指示有复发的风险，可以从受试者获得样品并对样品进行突变测试、免疫毒理学测试或其组合。基于突变和免疫毒理学测试的结果，可以向受试者推荐治疗，然后进行治疗监测和第二突变或免疫毒理学测试。

可以训练分类器(诸如Nasa复发分类器)以非侵入性地监测受试者的癌症的复发。可以训练分类器以监测经受肿瘤的治愈性手术切除的受试者的肿瘤或癌症的复发。在一些情况下，分类器可以指示检测到复发或检测到未复发。受试者人群可以包括已经接受手术切除以治愈癌症的受试者。分类器可以在早期阶段鉴定疾病的复发。

如果鉴定为癌性或恶性的受影响组织无法被手术切除，可以从受试者获得样品并可对样品进行突变和免疫毒理学测试。

样品

可以从受试者获得一个或多个样品。一个或多个样品可以是相同类型的样品，如一个或多个活检。从受试者获得的一个或多个样品可以是不同类型的样品，如活检和细针抽吸。

样品的类型可以包括血液样品、组织样品或图像样品。样品可以包括无细胞DNA。血液样品可以包括无细胞DNA。血液样品可以包括血细胞。血液样品可以包括血清或血浆。可以通过手术活检、手术切除、针抽吸、细针抽吸、组织拭取、组织擦刷或其任何组合获得组织样品。组织样品可以包括上皮细胞、血细胞或其组合。组织样品可以包括癌性细胞、非癌性细胞或其组合。可以通过支气管镜检查、CT扫描(诸如低剂量CT扫描)、VATS、或TTNA或其任何组合获得图像样品。

样品可以是分离的和纯化的样品。样品可以是新鲜分离的样品。可以分离和培养来自新鲜分离的样品的细胞。样品可以包括一个或多个细胞。分离的样品可以包括细胞的异质混合物。样品可被纯化以包含细胞的均质混合物。样品可以包含约100个细胞、1,000个细胞、5,000个细胞、10,000个细胞、20,000个细胞、30,000个细胞、40,000个细胞、50,000个细胞、60,000个细胞、70,000个细胞、80,000个细胞、90,000个细胞、100,000个细胞、150,000个细胞、200,000个细胞、250,000个细胞、300,000个细胞、350,000个细胞、400,000个细胞、450,000个细胞、500,000个细胞、550,000个细胞、600,000个细胞、650,000个细胞、700,000个细胞、750,000个细胞、800,000个细胞、850,000个细胞、900,000个细胞、950,000个细胞或更多。样品可以包含约30,000个细胞至约1,000,000个细胞。样品可以包含约20,000个细胞至约50,000个细胞。样品可以包含约100,000个细胞至约400,000个细胞。样品可以包含约400,000个细胞至约800,000个细胞。

样品可以包括上皮细胞。样品可以包括血细胞。样品可以包括鼻组织、口组织(牙龈组织、颊组织、舌组织等等)、咽组织、喉组织、气管组织、支气管组织、肺组织或其任何组合。

可以用一个或多个训练样品来训练分类器。可以用一种或多种不同类型的训练样品来训练分类器。不同的训练样品类型可以包括手术活检、组织切除、针抽吸、细针抽吸、血液样品、无细胞DNA样品、图像或成像数据(诸如CT扫描)或其任何组合。可以用至少两种不同类型的训练样品如手术活检和细针抽吸来训练分类器。可以用至少三种不同类型的训练样品如手术活检、细针抽吸和血液样品来训练分类器。可以用至少三种不同类型的训练样品如手术活检、细针抽吸和从CT扫描获得的图像来训练分类器。可以用至少四种不同类型的训练样品如手术活检、细针抽吸、血液样品和从CT扫描获得的图像来训练分类器。

可以从一个或多个受试者获得训练样品。受试者可以包括具有不同出生国家的受试者。受试者可以包括具有不同居住地的受试者。训练样品可以表示至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同的出生国家。训练样品可以表示至少约3个不同的出生国家。训练样品可以表示至少约5个不同的出生国家。训练样品可以表示至少约10个不同的出生国家。训练样品可以表示约2至约10个不同的出生国家。训练样品可以表示约3至约15个不同的出生国家。训练样品可以表示约2至约20个不同的出生国家。训练样品可以表示至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个不同的居住国家。训练样品可以表示至少约3个不同的居住国家。训练样品可以表示至少约5个不同的居住国家。训练样品可以表示至少约10个不同的居住国家。训练样品可以表示约2至约10个不同的居住国家。训练样品可以表示约3至约15个不同的居住国家。训练样品可以表示约2至约20个不同的居住国家。

训练样品可以包括从以下受试者获得的一个或多个样品：疑似患有病况(诸如肺癌)的受试者；患有确诊病况(诸如肺癌)的受试者；患有预先存在的病况(诸如良性肺病)的受试者；患有根据LDCT鉴定的肺结节的受试者；可以是非吸烟者的受试者；可以是非吸烟者并环境暴露于烟雾的受试者；现吸烟者；前吸烟者；在一生中已经吸食了至少约1、10、20、100、200、300、400、500、600、700、800、900、1,000、2,000、3,000、4,000、5,000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000支或更多香烟或雪茄或电子烟的受试者；具有发展病况(诸如肺癌)的增加的遗传风险的受试者；具有抑制的免疫系统的受试者；患有慢性肺部感染的受试者；或其任何组合。在一些情况下，受试者在其一生中可能已经吸食了约1至约10支香烟、雪茄、电子烟。在一些情况下，受试者在其一生中可能已经吸食了约1至约100支香烟、雪茄、电子烟。在一些情况下，受试者在其一生中可能已经吸食了约1至约1000支香烟、雪茄、电子烟。在一些情况下，受试者在其一生中可能已经吸食了约1000至约10,000支香烟、雪茄、电子烟。在一些情况下，受试者在其一生中可能已经吸食了约10,000至约50,000支香烟、雪茄、电子烟。在一些情况下，受试者在其一生中可能已经吸食了约10,000至约100,000支香烟、雪茄、电子烟。

吸烟者可以是在其一生中吸食了至少约1、5、10、20、30、40、50、60、70、80、90、100、200、300、400或500支香烟、雪茄或电子烟的个体。吸烟者可以是在其一生中吸食了至少约100支香烟、雪茄或电子烟的个体。吸烟者可以是在其一生中吸食了至少约500支香烟、雪茄或电子烟的个体。吸烟者可以是每年已经吸食大于约5、10、20、30、40或50包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食大于约5包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食大于约10包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食大于约20包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食大于约30包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食约1包至约12包(或更多)香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食约10包至约25包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食约25包至约50包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食约1包至约50包香烟、雪茄、电子烟的个体。吸烟者可以是每年已经吸食约10包至约50包香烟、雪茄、电子烟的个体。

训练样品可以包括从以下受试者获得的一个或多个样品：已经收到病况(诸如肺癌)的阳性诊断的吸烟者；已经收到病况(诸如肺癌)的阴性诊断的吸烟者；先前未曾收到诊断的吸烟者；已经收到病况(诸如肺癌)的阳性诊断的具有环境暴露的非吸烟者；已经收到病况(诸如肺癌)的阴性诊断的具有环境暴露的非吸烟者；先前未曾收到诊断的具有环境暴露的非吸烟者；已经收到病况(诸如肺癌)的阳性诊断的非吸烟者；已经收到病况(诸如肺癌)的阴性诊断的非吸烟者；先前未曾收到诊断的非吸烟者；或其任何组合。

可以从样品诸如训练样品或验证样品获得一种或多种类型的基因组信息。例如，可以测定样品的一个或多个基因(诸如生物标志物组的基因)的表达水平。可以测定样品的一个或多个基因的存在或不存在。可以测定样品的表达水平、读取的计数或数目、序列变体、融合、杂合性丢失(LOH)、线粒体转录物、这些任何项中的一种或多种，或其任何组合。

可以多于一次从相同的受试者采集样品。例如，可以从受试者采集样品并可以在采集第一样品约1年后采集第二样品。可以每天、每周多次、每周两次、每周、每月两次、每月、每年两次、每年、每两年、每三年、每四年或每五年从相同的受试者采集样品。在一些实例中，在给定的时间点采集第一样品，并在相对于该给定的时间点1天、2天、3天、4天、5天、6天、1周、2周、3周、1个月、2个月、3个月、4个月、5个月、6个月、1年、2年、3年、4年、5年或更长的时间段内采集至少第二样品。可以将来自第二样品的结果与第一样品的结果进行比较，以监测受试者中的疾病进展、处方治疗或疗法的效果、或发展病况的风险的变化，或其任何组合。

可以训练分类器以发现一种或多种特征。特征可涉及病况(诸如肺癌)、组织类型(诸如肺组织)、人群(诸如基因组成相似的受试者)、暴露风险(诸如环境污染或者香烟或雪茄烟雾暴露)、损伤谱或其任何组合。分类器可以是筛查测定、诊断测定、治疗方案、监测方案或其任何组合的一部分。

本公开内容提供了用于在获得样品之后和通过本公开内容的一种或多种方法分析样品之前将样品储存一段时间的方法，该段时间诸如数秒、数分钟、数小时、数天、数周、数月、数年或更久。在一些情况下，在储存或进一步分析的步骤之前可细分从受试者获得的样品，使得样品的不同部分可经受不同的下游方法或处理，该下游方法或处理包括但不限于储存、细胞学分析、充足性测试、核酸提取、分子谱分析或其组合。

在一些情况下，可以储存样品的一部分而可以进一步操作样品的另一部分。这样的操作可以包括但不限于：分子谱分析；细胞学染色；核酸(RNA或DNA)提取、检测或定量；基因表达产物(例如，RNA或蛋白质)提取、检测或定量；固定；和检查。可在储存之前或期间通过本领域已知的任何方法来固定生物样品，诸如使用戊二醛、甲醛或甲醇。在其他情况下，获得、储存并在储存步骤之后细分样品用于进一步分析，使得样品的不同部分可以经受不同的下游方法或处理，包括但不限于储存、细胞学分析、充足性测试、核酸提取、分子谱分析或其组合。在一些情况下，可以获得样品并通过例如细胞学分析进行分析，且通过本文提供的一种或多种分子谱分析方法进一步分析所得的样品材料。在这样的情况下，可以在细胞学分析步骤和分子谱分析步骤之间储存样品。样品可以在获取时储存以利于运送或等待其他分析的结果。在另一实施方案中，可以在等待医师或其他医学专业人员的指令的同时储存样品。

细胞学测定对于许多类型的疑似肿瘤(包括例如甲状腺瘤或结节)而言标志着当前的诊断标准。在本公开内容的一些实施方案中，测定为阴性、非确定性、诊断性或非诊断性的样品可以进行后续的测定以获得更多信息。在本公开内容中，这些后续的测定可包括基因组DNA、RNA、mRNA表达产物水平、miRNA水平、基因表达产物水平或基因表达产物可变剪接的分子谱分析。在本公开内容的一些实施方案中，分子谱分析是指对生物样品中基因组DNA的数目(例如，拷贝数)和/或类型的确定。在一些情况下，所述数目和/或类型可以进一步与对照样品或被认为正常的样品进行比较。在一些情况下，可以分析基因组DNA的拷贝数变化，诸如拷贝数的增加(扩增)或减少，或者变体，诸如插入、缺失、截短等。可以对相同样品、相同样品的一部分或可使用本文所述的任何方法获得的新样品进行分子谱分析。分子谱分析公司可以通过直接联系个体或者通过中间方例如医师、第三方测试中心或实验室或者医学专业人员来要求额外的样品。在一些情况下，可以使用分子谱分析企业的方法和组合物与一些或所有细胞学染色或其他诊断方法结合来测定样品。在其他情况下，可以不需要预先使用常规细胞学染色或其他诊断方法，而是使用分子谱分析企业的方法和组合物直接测定样品。在一些情况下，单独的分子谱分析结果或分子谱分析与细胞学或其他测定相结合的结果可以使本领域技术人员能够诊断受试者或为受试者建议治疗。在一些情况下，分子谱分析可以单独使用或与细胞学结合使用，来随着时间监测肿瘤或疑似肿瘤的恶变。

本公开内容的分子谱分析方法提供了从来自受试者的一个或多个样品提取并分析蛋白质或核酸(RNA或DNA)。在一些情况下，从获得的整个样品提取核酸。在其他情况下，从获得的样品的一部分提取核酸。在一些情况下，未进行核酸提取的样品部分可以通过细胞学检查或免疫组织化学进行分析。在一些情况下，可以从受试者中彼此紧密接近的位置获得多个样品。例如，可以从位于相距至多约500毫米(mm)、400mm、300mm、200mm、100mm、90mm、80mm、70mm、60mm、50mm、40mm、30mm、20mm、10mm、9mm、8mm、7mm、6mm、5mm、4mm、3mm、2mm、1mm或更小的两个不同位置获得两个不同的样品。在一些情况下，多个样品(例如，从接近的位置获得的样品)可以通过不同的方法进行分析。例如，第一样品可以通过细胞学检查或免疫组织化学进行分析，并且第二样品可以通过分子谱分析进行分析。

在一些实施方案中，本公开内容的方法包括从来自受试者的组织样品提取核酸(例如，DNA、RNA)并生成核酸测序文库。例如，可以通过扩增通过逆转录(RT-PCR)从分离的RNA产生的cDNA来生成核酸文库。在一些情况下，可以通过聚合酶链反应(PCR)扩增cDNA。

分类器

可使用特征选择技术分析样品的强度值，所述特征选择技术包括通过观察数据的本征性质来评估特征的相关性的过滤器技术；将模型假设嵌入特征子集检索内的包装器方法(wrapper method)；和可以将最佳特征集的检索构建到分类器算法中的嵌入技术。

用于本公开内容的方法的过滤器技术包括(1)参数法，例如采用双样品t-检验、ANOVA分析、贝叶斯框架和伽马分布模型；(2)无模型法，例如采用Wilcoxon秩和检验、类间内平方和检验、秩乘积法、随机置换法或TNoM，TNoM包括设置两个数据集之间表达的倍数变化差异的阈值点，然后检测使误分类数目最小化的各基因中的阈值点；(3)和多变量法，例如二变量法、基于相关性的特征选择法(CFS)、最小冗余最大相关法(MRMR)、马尔可夫毯过滤法和非相关收缩重心法(uncorrelated shrunken centroid method)。可用于本公开内容的方法的包装器方法包括顺序检索法、遗传算法和分布式算法的评估。可用于本公开内容的方法的嵌入法包括随机森林算法、支持向量机算法的权向量和逻辑回归算法的权重。Bioinformatics.2007年10月，1；23(19):2507-17综述了以上提供的用于分析强度数据的过滤器技术的相对优点。

然后可使用分类器算法对选定的特征进行分类。示例性的算法包括但可不限于减少变量数的方法，例如主成分分析算法、部分最小二乘法和独立成分分析算法。示例性的算法还包括但可不限于直接处理大量变量的方法，例如统计方法和基于机器学习技术的方法。统计方法包括惩罚逻辑回归、微阵列的预测分析(PAM)、基于收缩重心的方法、支持向量机分析和规范化线性判别分析。机器学习技术包括装袋程序(bagging procedure)、加速程序(boosting procedure)、随机森林算法及其组合。Cancer Inform.2008；6:77-97综述了以上提供的用于分析微阵列强度数据的分类技术。

所述方法和算法使得以下成为可能：1)包含少量和/或低质量的核酸的样品的基因表达分析；2)假阳性和假阴性的明显减少，3)导致所产生的病理学的基础遗传学、代谢或信号传导途径的确定，4)将统计学概率赋予以下的能力：诊断的准确性、发展病况的风险、病况变化的监测、干预性疗法的有效性或其组合，5)解析不明确的结果的能力，以及6)区分肺部病况或肺部病况亚型的能力。

在一些实施方案中，本公开内容的方法提供用于确定特定生物样品的细胞构成的先期方法，这样所得的分子谱分析特征可以针对由于存在其他细胞和/或组织类型而导致的稀释效应进行校准。一方面，该先期方法可以是使用已知细胞和/或组织特异性基因表达模式的组合作为样品各组分的先期迷你分类器的算法。该算法利用该分子指纹来根据样品的组成对样品进行预分类，然后应用校正/归一化因数。在一些情况下，随后可以将该数据输入到最终分类算法中，该算法可整合该信息以帮助最终诊断。

在一些情况下，可通过应用为归一化和/或改善数据可靠性而设计的算法来改进原始基因表达水平和可变剪接数据。在本公开内容的一些实施方案中，由于可能需处理大量个别的数据点，数据分析需要计算机或其他装置、机器或设备以应用本文所述的多种算法。“机器学习算法”是指用于表征基因表达谱的基于计算的预测方法，本领域技术人员也称其为“分类器”。可通过例如基于微阵列的杂交测定获得的对应于某些表达水平的信号可以通常运行所述算法，从而对表达谱进行分类。监督的学习通常包括“训练”分类器以识别各类别之间的区别，然后“测试”分类器对独立测试集的准确性。对于新的未知样品，分类器可用于预测样品所属的类别。

在一些情况下，稳健多阵列平均(RMA)法可用于将原始数据归一化。RMA法开始于计算多个微阵列上各匹配细胞的背景校正强度。背景校正的值可以限制为正值，如Irizarry等人,Biostatistics 2003April 4(2)：249-64所述。背景校正后，可随后获得各背景校正的匹配细胞强度的以2为底的对数。然后可使用分位数归一化方法将各微阵列上的背景校正的、对数转化的匹配强度进行归一化，在该方法中，对于各输入阵列和各探针表达值，可以用所有阵列百分点的平均值替换阵列百分位探针值，该方法可以由Bolstad等人,Bioinformatics 2003更充分地描述。分位数归一化后，归一化的数据可以随后拟合线性模型以获得各微阵列上的各探针的表达量值。然后可利用Tukey中值平滑算法(Tukey,J.W.,Exploratory Data Analysis.1977)确定归一化的探针集数据的对数级表达水平。

可以进一步过滤数据以去除可能认为是可疑的数据。在一些实施方案下，得自具有少于约1、2、3、4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针的数据由于其异常杂交倾向或二级结构问题而可能被认为是不可靠的。具有多于或等于约4个鸟苷+胞嘧啶核苷酸的微阵列探针可能被认为是不可靠的。具有多于或等于约6个鸟苷+胞嘧啶核苷酸的微阵列探针可能被认为是不可靠的。具有多于或等于约8个鸟苷+胞嘧啶核苷酸的微阵列探针可能被认为是不可靠的。具有约4个鸟苷+胞嘧啶核苷酸至约8个鸟苷+胞嘧啶核苷酸的微阵列探针可能被认为是不可靠的。类似地，得自具有多于或等于约8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个鸟苷+胞嘧啶核苷酸的微阵列探针的数据由于其异常杂交倾向或二级结构问题而可能被认为是不可靠的。具有多于或等于约10个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有多于或等于约15个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有多于或等于约20个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有多于或等于约25个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有约8个鸟苷+胞嘧啶核苷酸至约30个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有约10个鸟苷+胞嘧啶核苷酸至约30个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有约12个鸟苷+胞嘧啶核苷酸至约30个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。具有约15个鸟苷+胞嘧啶核苷酸至约30个鸟苷+胞嘧啶核苷酸的微阵列探针可能是不可靠的。

在一些情况下，可以通过相对于一系列参考数据集对探针集可靠性进行排序而选择不可靠的探针集以从数据分析中排除。例如，RefSeq或Ensembl(EMBL)被认为是质量非常高的参考数据集。在一些情况下，来自与RefSeq或Ensembl序列匹配的探针集的数据由于其预期的高可靠性而可以特别地包括在微阵列分析实验中。类似地，来自匹配可靠性较低的参考数据集的探针集的数据可从进一步的分析中排除，或视情况而定包括在进一步的分析中。在一些情况下，可单独地或共同地使用Ensembl高通量cDNA和/或mRNA参考数据集来确定探针集可靠性。在其他情况下，可以对探针集的可靠性进行排序。例如，可将与所有参考数据集完全匹配的探针和/或探针集排序为最可靠的(1)。此外，可将与三分之二参考数据集匹配的探针和/或探针集排序为次最可靠的(2)，可将与三分之一参考数据集匹配的探针和/或探针集排序为下一级(3)，并可将不与参考数据集匹配的探针和/或探针集排序为最后(4)。然后可以根据其排序从分析中包括或排除探针和/或探针集。例如，可以选择包括来自1、2、3和4类探针集，1、2和3类探针集，1和2类探针集，或1类探针集的数据用于进一步分析。在另一个实例中，可根据与参考数据集项错配的碱基对数目对探针集进行排序。应当理解，可以存在许多本领域已知的、用于评估给定探针和/或探针集在分子谱分析中的可靠性的方法，并且本公开内容的方法包括这些方法中的任一种及其组合。

基因表达水平或可变剪接的数据分析方法还可以包括使用本文提供的特征选择算法。在本公开内容的一些实施方案中，通过利用LIMMA软件包(Smyth,G.K.(2005).Limma：linear models for microarray data.In：Bioinformatics and Computational BiologySolutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds.),Springer,New York,397-420页)提供特征选择。

基因表达水平和/或可变剪接的数据分析方法还可以包括使用预分类器算法。例如，算法可利用细胞特异性分子指纹根据其组成对样品进行预分类，然后应用校正/归一化因数。然后可将该数据/信息输入最终分类算法中，该算法可整合该信息以帮助最终诊断或预后，或者监测评估。

基因表达水平和或可变剪接的数据分析方法还可以包括使用本文提供的分类器算法。在本公开内容的一些实施方案中，提供支持向量机(SVM)算法、随机森林算法或其组合用于微阵列数据的分类。在一些实施方案中，可基于统计显著性选择能区分样品(例如，良性对恶性、正常对恶性、低风险对高风险)或区分类型(例如，ILD对肺癌)的经鉴定的标志物。在一些情况下，在将Benjamini Hochberg校正应用于错误发现率(FDR)之后，进行统计显著性选择。

在一些情况下，分类器算法可以补充荟萃分析法，例如由Fishel和Kaufman等人，2007Bioinformatics 23(13)：1599-606描述的方法。在一些情况下，分类器算法可以补充荟萃分析法，例如再现性分析。在一些情况下，所述再现性分析选择出现在至少一个预测表达产物标志物集中的标志物。

在一些情况下，可以使用贝叶斯后分析方法对特征选择和分类的结果进行排序。例如，可以使用本领域已知的方法如本文提供的方法对微阵列数据进行提取、归一化和总结。随后可以对数据进行特征选择步骤，诸如本领域已知的任何特征选择方法，如本文提供的方法，包括但不限于LIMMA中提供的特征选择方法。随后可以对数据进行分类步骤，诸如本领域已知的任何分类方法，如使用本文提供的任何算法或方法，包括但不限于使用SVM或随机森林算法。随后可以根据后验概率函数对分类器算法的结果进行排序。例如，后验概率函数可能得自检查已知的分子谱分析结果如公开的结果，以从将标志物分配到类别(例如，ILD、COPD、肺癌等)的I型和II型错误率中导出先验概率。这些错误率可以基于每个研究中报告的样本大小使用估计的倍数变化值(例如，1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、2.2、2.4、2.5、3、4、5、6、7、8、9、10或更大)来计算。倍数变化值可以为约0.5、0.8、1.0、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.5、4.0、4.5、5.0、5.5、6.0、6.5、7.0、7.5、8.0、8.5、9.0、9.5或10.0。倍数变化值可以为约0.5至约10.0。倍数变化值可以为约0.5至约1.0。倍数变化值可以为约0.5至约5.0。倍数变化值可以为约2.0至约8.0。倍数变化值可以为约2.0至约6.0。倍数变化值可以为约6.0至约10.0。倍数变化值可以为约5.0至约10.0。倍数变化值可以为约8.0至约10.0。随后可以将这些先验概率与本公开内容的分子谱分析数据集相结合，以估计差异基因表达的后验概率。最后，可以将后验概率估计值与本公开内容的第二数据集相结合，以表示差异表达的最终后验概率。用于得出后验概率并将后验概率应用于微阵列数据分析的额外的方法可以是本领域已知的，并已在例如Smyth,G.K.2004Stat.Appl.Genet.Mol.Biol.3：Article 3中描述。在一些情况下，后验概率可用于对由分类器算法提供的标志物进行排序。在一些情况下，可以根据标志物的后验概率对标志物进行排序，并且可以选择那些通过了所选阈值的标志物作为其差异表达指示或诊断可能是例如良性、恶性、正常、低风险、高风险或病况类别(ILD、COPD、肺癌)的样品的标志物。示例性的阈值包括至少约0.7、0.75、0.8、0.85、0.9、0.925、0.95、0.975、0.98、0.985、0.99、0.995或更高的先验概率。概率可以是至少约0.7。概率可以是至少约0.75。概率可以是至少约0.8。概率可以是至少约0.85。概率可以是至少约0.9。概率可以是至少约0.95。概率可以是至少约0.99。概率可以是约0.75至约0.995。概率可以是约0.80至约0.995。概率可以是约0.85至约0.995。概率可以是约0.9至约0.995。概率可以是约0.85至约0.95。概率可以是约0.8至约0.95。概率可以是约0.75至约0.95。

分子谱分析结果的统计学评估可以提供指示以下一种或多种可能性的一个或多个定量值：诊断准确性的可能性；癌症、疾病或病况的可能性；特定癌症、疾病或病况的可能性；特定治疗性干预成功的可能性。因此，可能没有经过遗传学或分子生物学培训的医师不需要了解原始数据。相反，所述数据可以以指导患者医护的最有用的形式直接提供给医师。分子谱分析的结果可使用本领域已知的许多方法进行统计学评价，包括但不限于：students T检验、双侧T检验、皮尔森秩和分析、隐马尔可夫模型分析、q-q图分析、主成分分析、单向ANOVA、双向ANOVA、LIMMA等。

在本公开内容的一些实施方案中，可以使用经训练的算法对结果进行分类。本公开内容的经训练的算法包括使用已知恶性、良性和正常样品的参考集开发的算法。训练样品可以包括FNA样品、手术活检样品、支气管镜样品或其任何组合。适于样品分类的算法包括但可不限于k-最近邻算法、概念向量算法、朴素贝叶斯算法、神经网络算法、隐马尔可夫模型算法、遗传算法、交互信息特征选择算法或其任何组合。在一些情况下，本公开内容的经训练的算法可以整合除了基因表达数据或可变剪接数据以外的数据，诸如但不限于DNA多态性数据、测序数据、本公开内容的细胞学家或病理学家的评分或诊断、由本公开内容的预分类器算法提供的信息或关于本公开内容受试者医疗史的信息。

在连续分析的早期所使用的分类器可用于划归或排除样品为良性的或疑似的，或者样品为低风险的或高风险的，或者具有ILD的样品与不具有ILD的样品。在一些实施方案中，此类连续分析结束于将“主”分类器应用于来自未被前面的分类器排除的样品的数据，其中所述主分类器可从多种类型的组织中的基因表达水平的数据分析中获得，并且其中所述主分类器可以能够指示样品为良性的或疑似的(或恶性的)。

在示例分类过程的下一个步骤中，可以在样品的基因表达水平和第一组生物标志物或第一分类器之间进行第一比较。如果该第一比较的结果匹配，则分类过程得出结果，诸如指出该样品有低风险或高风险发展肺部病况，或者鉴定样品具有ILD与肺癌。如果比较的结果不匹配，则该样品的基因表达水平在第二轮比较中与第二组生物标志物或第二分类器进行比较。如果该第二比较的结果匹配，则分类过程得出结果，诸如(a)向患有肺部病况的受试者报告诊断，(b)报告发展肺部病况的风险，(c)报告干预性疗法的有效性，(d)推荐后续程序，如成像扫描、另一样品采集、支气管镜检查、活检、手术切除、药物组合物。如果比较的结果不匹配，则该过程以类似的逐步比较过程继续，直到发现匹配，或直到分类过程中包含的所有组的生物标志物或分类器都可用作比较的基础。在一些实施方案中，如本文所述，分类过程中的最后比较是样品的基因表达水平与主分类器之间的比较。

在一些情况下，方法可以采用多于一种机器学习算法。例如，方法可以采用约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种机器学习算法或更多。在一些情况下，方法可以采用至少约4种机器学习算法。在一些情况下，方法可以采用至少约5种机器学习算法。在一些情况下，方法可以采用至少约6种机器学习算法。在一些情况下，方法可以采用至少约7种机器学习算法。在一些情况下，方法可以采用至少约8种机器学习算法。在一些情况下，方法可以采用至少约9种机器学习算法。在一些情况下，方法可以采用至少约10种机器学习算法。在一些情况下，方法可以采用约4种机器学习算法至约10种机器学习算法。在一些情况下，方法可以采用约6种机器学习算法至约10种机器学习算法。在一些情况下，方法可以采用约4种机器学习算法至约8种机器学习算法。在一些情况下，方法可以采用约4种机器学习算法至约15种机器学习算法。方法可以以顺序方式采用多于一种机器学习算法。在一些情况下，方法可以采用机器学习算法和融合调用算法的混合。例如，方法可以采用至少一种机器学习算法和至少一种融合调用算法。在一些情况下，方法可以采用至少5种机器学习算法和至少一种融合调用算法。在一些情况下，方法可以采用至少7种机器学习算法和至少一种融合调用算法。

本发明的方法和系统可以鉴定样品中一种或多种生物标志物的存在或不存在。例如，生物标志物可以包括来自表1、2、3、4、5、6、7、8、9、10、11、12、13的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表1、表2的生物标志物或其组合。在一些情况下，生物标志物可以包括来自表1、表2、表3的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表4、表5、表6、表7的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表8、表9、表10的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表11、表12、表13的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表1的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表2的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表3的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表4的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表5的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表6的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表7的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表8的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表9的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表10的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表11的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表12的生物标志物或其任何组合。在一些情况下，生物标志物可以包括来自表13的生物标志物或其任何组合。

一种或多种生物标志物的存在或不存在或差异表达可以指示发展病况的一种或多种风险因子的存在，该病况如肺癌、IPF、ILD、COPD或其任何组合。一种或多种生物标志物的存在或不存在或差异表达可以鉴定用于预防或逆转病况(诸如肺癌、IPF、ILD、COPD)的干预性疗法的有效性。一种或多种生物标志物的存在或不存在或差异表达可以鉴定受试者中病况(诸如肺癌、IPF、ILD、COPD)的风险或存在缓解。一种或多种生物标志物的存在或不存在或差异表达可以区分患有病况的吸烟者与未患有病况(诸如肺癌、IPF、ILD、COPD)的吸烟者。一种或多种生物标志物的存在或不存在或差异表达可以鉴定病况(诸如肺癌、IPF、ILD、COPD)的诊断、病况的预后(诸如肺癌、IPF、ILD、COPD)或其组合。一种或多种生物标志物的存在或不存在或差异表达可以鉴定损伤区域。一种或多种生物标志物的存在或不存在或差异表达可以鉴定第一细胞类型或从第一位置获得的第一细胞与第二细胞类型或从第二位置获得的第二细胞的表达谱之间的关系。例如，鼻组织中一种或多种生物标志物的存在或不存在或差异表达可以指示支气管组织中病况(诸如肺癌、IPF、ILD、COPD)的存在。

表1-可能在IPF中上调的生物标志物的实例

表2-可能在IPF中下调的生物标志物的实例

表3-可能在COPD中差异表达的生物标志物的实例

表4-可区分患有肺癌的吸烟者与未患肺癌的吸烟者的生物标志物的实例。

表5-可区分患有癌症的吸烟者与未患癌症的吸烟者的生物标志物的实例。

表6-可区分患有肺癌的吸烟者与未患肺癌的吸烟者的生物标志物的实例。

表7-可区分患有肺癌的吸烟者与未患肺癌的吸烟者的生物标志物的实例。

表8-可鉴定肺癌的诊断或预后的生物标志物的实例。

表9-可鉴定肺癌的诊断或预后的生物标志物的实例。

表10-可鉴定肺癌的诊断或预后的生物标志物的实例。

表11-可鉴定支气管与上气道中响应于烟雾的上皮细胞表达谱之间的关系的生物标志物的实例。

表12-在鼻上皮中高度变化的基因中，可响应于吸烟而在支气管上皮基因中差异表达的生物标志物的实例。

表13-生物标志物的实例

表14-示出了样品分布。

表15

表15示出了每个非UIP亚型与UIP样品之间显著表达的基因(调整的p<0.05，倍数变化>2)的数目(n＝212)。与UIP和非UIP样品之间的基因重叠的差异表达基因的数目总结于第三列。

表16

表16示出了使用线性混合效应模型的两个分类器的分数的变异性的估计。百分比(％)可以是估计的变异性与分类得分中分位数在5％与95％之间的范围的比率。

本文所述的分类器可以诊断病况，诸如IPF或肺癌，同时避免侵入性程序。无监督聚类分析的一个缺点可能是无法(a)区分恶性组织与良性组织，(b)区分UIP模式与非UIP模式，(c)区分具有特定表达模式的样品与可不具有该特定表达模式的另一样品，或者(d)其任何组合，这是由于(i)样品大小较小，(ii)疾病异质性(例如，非UIP模式疾病亚型中的异质性)，(iii)不同样品的汇集或批次效应，或者(iv)其任何组合。经训练的机器学习算法可以克服这些缺点。本文所述的方法可以消除对侵入性程序的需要，并且尽管在样品大小较小、疾病异质性或者不同样品的汇集或批次效应的限制下，也提供具有高临床准确性的非侵入性预后工具、诊断工具或其组合。在一些情况下，可以将RNA-seq数据输入到机器学习算法中。异质性可在从相同受试者获得的样品中出现。例如，组织病理学特征在组织(诸如肺组织)之间可能不一致，并且基因表达谱可能根据样品从其获得的位置而改变。异质性可在疾病内发生。例如，非UIP模式的存在可包括多于一种疾病亚型，如异质性疾病的集合。

在一些情况下，可以从受试者采集1、2、3、4、5、6、7、8、9、10或更多个样品并分别进行分析。在一些情况下，可以从受试者采集2个样品并分别进行分析。在一些情况下，可以从受试者采集3个样品并分别进行分析。在一些情况下，可以从受试者采集4个样品并分别进行分析。在一些情况下，可以从受试者采集5个样品并分别进行分析。在一些情况下，可以从受试者采集6个样品并分别进行分析。在一些情况下，可以从受试者采集7个样品并分别进行分析。在一些情况下，可以从受试者采集8个样品并分别进行分析。在一些情况下，可以从受试者采集9个样品并分别进行分析。在一些情况下，可以从受试者采集10个样品并分别进行分析。在一些情况下，可以从受试者采集1至10个样品并分别进行分析。在一些情况下，可以从受试者采集1至5个样品并分别进行分析。在一些情况下，可以从受试者采集1至20个样品并分别进行分析。

与验证集(该验证集可用于验证分类器)相比，分类器如锁定分类器在独立测试集中可以产生基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在至少约5个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在至少约10个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在至少约50个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在至少约100个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在至少约500个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在至少约1000个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在约1至约10个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在约1至约100个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在约1至约500个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在约1至约1000个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。分类器可以在约1至约5000个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合。可以从受试者获得独立的测试样品。

为了在多个独立测试样品上维持基本上相似的准确性、NPV、PPV、灵敏度、特异性或其任何组合，可以移除批次效应。可以从分类器的选择特征或从下游分析移除在样品之间产生高变异性的生物标志物的移除。可以从下游分析或从特征选择移除对批次效应高度敏感的生物标志物。分类器在多个独立样品运行上可以基本上不改变性能(诸如，准确性、NPV、PPV、灵敏度或特异性)。

所述方法可以包括鉴定从受试者获得的多个样品内具有异质性的受试者。例如，所述方法可以包括鉴定具有分配了非UIP模式的样品和来自分配了UIP模式的相同受试者的另一样品。来自相同受试者的样品的异质性可以在组织病理学诊断、基因表达或其组合中观察到。例如，UIP和非UIP模式疾病可能是异质性的。可区分或诊断非UIP模式疾病的生物标志物可能不适于区分或诊断另一非UIP模式疾病。可以针对每种疾病、疾病亚型、UIP模式或非UIP模式疾病开发新的生物标志物集。可以区分或诊断非UIP模式疾病的存在的生物标志物可适用于区分或诊断另一非UIP模式疾病。

训练集中的样品可以包含多种病况(诸如疾病或疾病亚型)。独立测试集中的样品可以包含多种病况(诸如疾病或疾病亚型)。独立测试集中的样品可以包含至少一种与训练集中的样品不同的疾病或疾病亚型。训练集中的样品可以包含至少一种与独立测试集中的样品不同的疾病或疾病亚型。独立测试集中的样品可以包含至少两种在训练集中的样品之外附加的疾病或疾病亚型。例如，至少两种附加的疾病或疾病亚型可以是淀粉样或轻链沉积、外源性脂质性肺炎以及机化性肺泡出血或其任何组合。一种或多种新的疾病或疾病亚型可以出现于独立测试集，其可不包含在训练集中。训练集中的样品可包含至少两种在独立测试集中的样品之外附加的疾病或疾病亚型。

所述方法可以包括用计算机样品评估分类器性能。计算机样品可以模拟独立测试集中的体外样品的混合，特别是当样品大小可能较小时。计算机样品也可有助于确定分类器的决策边界、实现最佳分类器性能所需的最佳样品数目或其组合。方法可适用于汇集的样品，例如当可能存在较小的样品大小时。

较小的样品大小可以是从小于100、90、80、70、60、50、40、30、25、20、15、10或5名不同的受试者获得的样品。较小的样品大小可以是从约50至约100名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约50名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约100名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约200名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约10名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约5名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约2名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约15名不同的受试者获得的多个样品。较小的样品大小可以是从约1至约8名不同的受试者获得的多个样品。较小的样品大小可以是从约5至约50名不同的受试者获得的多个样品。较小的样品大小可以是从约5至约100名不同的受试者获得的多个样品。较小的样品大小可以包括独立测试样品或训练样品的较小的样品大小。较小的样品大小可以指示对受试者如具有疾病的罕见亚型的受试者的有限访问。较小的样品大小可以通过包括单个样品的重复如1、2、3、4、5或更多个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约2个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约3个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约4个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约5个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约10个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约15个单个样品的重复来扩充。较小的样品大小可以通过包括约1至约20个单个样品的重复来扩充。

实施例

实施例1

背景-为了准确地诊断特发性肺纤维化(IPF)，同时避免侵入性程序，可以使用RNA-seq数据开发分类器，其鉴定寻常型间质性肺炎(UIP)的组织病理学模式，寻常型间质性肺炎(UIP)是IPF的标志特性。该方法可能在分类器的开发中遇到挑战，包括样品大小、异质性和批次效应，同时将机器学习应用于临床环境中的基因组数据。

方法-可以对来自90名患者的354个单个经支气管活检(TBB)进行外显子组富集RNA测序以用于训练算法。可以对作为独立验证的由来自49名额外的患者的3-5个单个TBB组成的汇集TBB样品进行测序。可以进行无监督聚类和差异表达基因分析，以表征疾病异质性并选择可以区分UIP与非UIP的基因组特征。为了克服较小的样品大小和潜在的疾病异质性，可以使用每个患者多个样品来训练机器学习算法。可以对用于模拟测试集的汇集样品的模拟计算机混合样品进行评价。机器学习算法可以在测试集上验证，并且它的稳健性可以使用多个批次之间的技术重复来进一步评价。

结果-无监督聚类和差异基因表达分析可能显示患者内的高异质性，特别是在非UIP组中。当每个患者可测试多个样品时，使用惩罚逻辑回归模型和集成模型开发的分类器可以在交叉验证中以约0.9的受试者工作特征曲线下面积(AUC)对组织病理学UIP进行分类。可以定义决策边界以优化使用TBB池的≥85％的特异性，该TBB池可以从单个训练集样品通过计算机来模拟。惩罚逻辑回归模型可以在技术重复之间显示出更大的再现性，并且可以被选作最终模型。使用可在分子测试之前在实验室中汇集的样品，该最终模型可在独立测试集中显示出70％的灵敏度和88％的特异性。

结论-克服了样品大小、疾病和取样异质性、汇集和批次效应，如本文所述的方法可以提供用于利用机器学习和RNA-seq进行UIP鉴定的高度准确和稳健的分类器。

引言-间质性肺病(ILD)由多种具有相似临床表现的影响肺间质的疾病组成；特发性肺纤维化(IPF)可能是最常见的ILD，其具有最差的预后。IPF的原因在很大程度上仍然未知，使得准确和及时的诊断具有挑战性。IPF的准确诊断通常需要对临床、放射学和组织病理学特征进行多学科评价[Flaherty等人,2004以及Travis等人,2013，其通过引用整体并入本文]，并且患者经常要忍受不确定的和冗长的过程。特别地，确定作为的寻常型间质性肺炎(UIP)——即IPF的标志特征——的存在或不存在通常需要通过侵入性手术进行组织病理学，而侵入性手术可能不是患病或老年患者的选项。此外，组织病理学读取的质量在诊所之间可能是高度可变的[Flaherty等人,2007，其通过引用整体并入本文]。因此，用于区分UIP与非UIP而不需要手术的一致性、准确性、非侵入性的诊断工具对于减轻患者的痛苦以及使医师能够更快地得到确信的临床诊断并作出更好的治疗决策至关重要。

为了建立这种新的诊断工具，可以从通过支气管镜检查(一种相比于手术侵入性较小的程序)采集的经支气管活检样品(transbronchial biopsy sample，TBB)利用外显子组富集的RNA测序数据。多项研究显示，转录组数据中的基因组信息可以指示表型变异，如癌症或其他慢性病[Tuch等人2010，Twine等人2011，其通过引用整体并入本文]；并且复杂的性状可由遍布整个基因组的大量基因驱动，包括与疾病无表面相关性的基因[Boyle等人,2017，其通过引用整体并入本文]。更重要地，已经建立了使用转录组数据鉴定UIP的可行性[Pankratz等人,2017，其通过引用整体并入本文]。如本文所述的方法和系统提供了对这些问题的分析解决方案。

通过允许研究人员构建生物途径、鉴定临床相关疾病并更好地预测疾病风险，机器学习方法已被广泛地应用于解决生物医学问题，并加深了我们对疾病的理解，诸如乳腺癌[Sorlie等人，其通过引用整体并入本文]和成胶质细胞瘤[Brennan等人，其通过引用整体并入本文]。然而，机器学习的最新进展可能通常被设计用于大型数据集如医学成像数据和社交媒体数据。但是，临床研究，包括本研究，由于积累患者方面的挑战，通常具有有限的样品大小。在本实例中该问题可能更加显著，因为许多患者可能疾病过于严重而无法给予活检样品；在采集的样品中，相当大的比例产生非诊断性结果，使得它们不适合监督式学习。此外，非UIP类别可能不是一种疾病，而是异质性疾病的集合。这与较小的样品大小相结合，可表明在每种非UIP疾病类别中能够获得少量的样品，使得分类甚至更具挑战性。本实例的另一独特特征可以是患者内的异质性。组织病理学特征在整个肺之间可能是不一致的，并且基因组特征根据活检样品的位置而不同[Kim等人，其通过引用整体并入本文]。为了更好地了解这种异质性，可以对每名患者采集多个(至多5个)样品，并在训练集中对患者分别测序。该数据集可以同时表示挑战和机遇，这可以在稍后的部分中详细描述。

因为分类器可以用作诊断产品的基础，所以可能存在两个额外的要求。第一，为了成本效益，每名患者仅进行一次测序运行可能是商业上可行的，并且独立测试集可能需要反映这种事实。训练组中在分析上桥接的单个样品和测试集中的汇集样品可能成为必要。第二，重要之处在于，最终的锁定分类器不仅在独立测试集上运行良好，还可以对所有进入的未来样品保持性能。因此，开发在未来对于可预见的批次效应高度稳健的分类器可能变得至关重要。

在下面的部分中，可说明定量分析的一些挑战，可描述克服这些挑战的实际解决方案，可显示改善的证据，并且可讨论这些方法的限制。

材料和方法

研究设计

进行ILD的医学评估的患者可以是18岁或更大，并且可经历计划的、临床指示的肺活检程序以获得组织病理学诊断，其可符合参加多中心样品收集研究的资格(新型基因组测试的支气管样品收集；BRAVE)[Pankratz等人]。可不指示、不推荐或难以进行支气管镜检查程序的患者可能不符合参与本研究的资格。患者可以基于针对病理学进行的活检的类型分组：BRAVE-1患者可以经受外科肺活检(SLB)；BRAVE-2患者可以经受针对病理学的TBB；以及BRAVE-3患者可以经受冷冻活检。该研究可由每个机构的机构评审委员会批准，并且在患者参与之前可以向所有患者提供知情同意书。

在研究积累期间，201名BRAVE患者可前瞻性地被分组，113名考虑到用于训练(2012年12月至2015年7月登记)，88名可用于验证的(2014年8月至2016年5月登记)。训练组最终可产生90名具有可用的RNA序列数据和参考标准病理学真值标签的患者，该真值标签可以用于训练并交叉验证模型。验证组可产生49名符合预期测试集纳入标准的患者，该测试集纳入标准与样品处理、样品充分性和参考标准真值标签的确定有关。算法开发团队可能不知晓与测试集、包含参考标签和相关病理学有关的所有临床信息，直到分类器参数可以被最终确定、锁定，并且测试集可以被前瞻性地评分。

可以提取总RNA并输入TruSeq RNA Access Library Prep程序(Illumina，SanDiego，CA)以富集表达的外显子序列，并在NextSeq 500仪器上用NextSeq v2Chemistry150循环试剂盒(Illumina，San Diego，CA)上测序。对于训练集，可以对来自90名患者的354个单个TBB样品中的每个分别生成RNA测序数据，并且可以选择8个额外的TBB样品用于质量控制并在8个不同的批次中重复测序，其可被称为前哨(sentinel)。对于独立测试集，对于独立的测试集，从每名患者的可获得的TBB样品中提取的总RNA可以等质量混合，并使用与训练集相同的程序但在稍后的时间对不同的批次测序。因此，对于训练集，每名患者可以有至多5组测序数据，一组对应单个TBB样品；相比之下，对于测试集，每名患者可以有1组测序数据，因为可以在测序之前将来自相同测试患者的所有TBB样品和对应的RNA材料汇集到一起，这可以代表商业样品能够如何运行。

病理学审查和标签分配

组织病理学诊断可以通过三位专家病理学家的一致意见来集中确定，其使用特别针对病理学收集的活检和载玻片，并遵循所描述的过程[Pankratz等人和Kim等人]。可以针对每个肺叶样品的病理学分别确定中心病理学诊断。随后可以根据以下规则从肺叶水平诊断中为每名患者确定参考标准标签。如果任何肺叶可被诊断为任何UIP亚型，例如，典型UIP(可存在UIP的所有特征)、困难UIP(少于典型UIP的所有特征可以充分体现)、Favor UIP(UIP导致差异的纤维化间质性过程)或其任何组合，则可以将“UIP”分配为该患者的参考标签。如果任何肺叶可被诊断为具有“非UIP”病理学状况[Pankratz等人]，并且任何其他肺叶可以是非诊断性的或者可被诊断为具有无法分类的纤维化，则可以将“非UIP”分配为患者水平参考标签。当所有的肺叶可被诊断为无法分类的纤维化(例如，慢性间质性纤维化、未另外分类或者“CIF”、“NOC”)或可以是非诊断性的，则可以不分配参考标签并且该患者可被排除。这种患者水平参考标签过程在训练和测试集之间可以是相同的，然而，除了在患者水平确定的参考标签之外，训练集中的单个TBB样品可以从来源的肺叶直接继承样品水平参考标签。

分子测试、测序管道和数据QC

可以通过支气管镜检查从每名患者采样多达5个TBB样品。通常，可以在临床指示的诊断程序期间采集两个肺上叶和三个肺下叶样品。在运输至开发实验室之前和期间，可以将用于分子测试的TBB样品放置于核酸防腐剂中并可在4℃下储存长达18天，随后冷冻储存。可以在适当时由患者提取、定量、汇集总RNA，并将15ng输入到TruSeq RNA AccessLibrary Prep程序(Illumina,San Diego,CA)，其可以使用多轮扩增和与对外显子序列具有特异性的探针杂交来富集编码转录组。可以在NextSeq 500仪器(2×75bp配对端读取)上使用高输出试剂盒(Illumina，San Diego，CA)对满足进程内产量标准的文库进行测序。可以使用STAR RNAseq比对器软件[Dobin等人，其通过引用整体并入本文]将原始测序(FASTQ)文件与人参考组装物37(Genome Reference Consortium)进行比对。可以使用HTSeq[Anders等人，2015，其通过引用整体并入本文]来总结63,677个Ensembl注释的基因水平特征的原始读取计数。可以使用RNA-SeQC[DeLuca等人，其通过引用整体并入本文]生成数据质量度量。满足总读取、映射的独特读取、平均每碱基覆盖率、碱基重复率、与编码区域比对的碱基百分比、碱基错配率和基因内覆盖均匀性的最低标准的文库序列数据可以被接受用于下游分析。

归一化

可以过滤序列数据以排除不能被靶向以通过文库测定来富集的任何特征，产生26,268个基因。对于训练集，26,268个Ensembl基因的表达计数数据可以通过使用比率中值法估计的大小因子进行归一化，并使用参数法通过方差稳定化变换(VST)将其变换为大约log2，该参数法可以是闭式表达式(DESeq2包)[Love等人,2014，其通过引用整体并入本文]。来自训练集的几何方法的向量和VST可以被冻结并分别重新应用于独立测试集以用于归一化，从而模拟未来的临床模式。

对于算法训练和开发，可以针对来自90名患者的354个单个TBB样品中的每个分别生成RNA序列数据。从总RNA到序列数据，可以在八次处理运行的每一次中重复八个额外的TBB样品(“前哨”)，以监控批次效应。为了验证，在文库制备和测序之前，可以每名患者从最少三个和最多五个TBB中提取总RNA，并在每名患者内以等质量混合。因此，训练集中的患者可以向训练贡献多达5个序列文库，而测试集中的患者可以通过单个测序文库表示，类似于临床样品的计划测试。

差异表达分析

可以探索使用标准管道[Anders等人,2013，其通过引用整体并入本文]发现的差异表达的基因是否可以用于直接将UIP样品与非UIP样品分类。可以使用DESeq2鉴定差异表达的基因，DESeq2是一种Bioconductor R包[Love等人2014]。训练集的原始基因水平表达计数可用于进行差异分析。在多次测试调整后p值<0.05和倍数变化>2的截止值可用于选择差异表达的基因。在训练集中，可以在所有非UIP与UIP样品之间、以及UIP样品与具有多于10个可用样品的每种非UIP疾病之间进行成对的差异分析，该非UIP疾病包括细支气管炎(N＝10)、过敏性肺炎(HP)(N＝13)、非特异性间质性肺炎(NSIP)(N＝12)、机化性肺炎(OP)(N＝23)、呼吸性细支气管炎(RB)(N＝16)和结节病(N＝11)。可以使用以上鉴定的差异表达的基因生成所有训练样品的主成分分析图。

基因表达相关热图

6名代表性患者的样品的相关r²值可以使用其VST基因表达进行计算，并且可以绘制保留患者顺序的相关矩阵的热图，以使基因表达的患者内和患者间异质性可视化。可以选择6名患者来表示纳入患者的异质性的全谱，包括在肺上叶和肺下叶之间具有相同或相似标签的两名非UIP和两名UIP患者，以及在肺上叶和肺下叶各自具有不同标签的一名UIP和一名非UIP患者。可以使用gplots R包的heatmap.2函数生成热图。

分类器开发

分类器的开发和评价可总结于图28。目标可以是构建可以在TBB样品上构建的稳健的二元分类器，以提供准确和可再现的UIP/非UIP预测，并满足减少ILD患者的侵入性程序的临床需要。可以设计高特异性测试(特异性>85％)以确保高阳性预测值。当测试可预测UIP时，该结果可与高置信度相关联。

分类器开发的特征过滤

首先，在可进行过滤的样品中，由于没有变化的低表达水平，可以去除可能没有生物学意义或信息量较少的特征。可以排除在Ensembl中注释为假基因、核糖体RNA、T细胞受体或免疫球蛋白基因中的单个外显子以及非信息性和低表达的基因，其对于整个训练集具有原始计数表达水平<5或者对于训练集中小于5％的样品表达的计数>0的。

可以排除可能在多个批次中进行处理的在相同样品中具有高度可变性表达的基因，因为这可能显示对技术因素而不是对生物因素的灵敏度。为了鉴定此类基因，可以在跨多个测定板处理的前哨TBB样品上拟合线性混合效应模型。该模型可以针对每个基因分别拟合，其中g_ij可以是样品j和批次i的基因表达，μ可以是平均基因表达

g_ij＝μ+β样品_ij+批次_i+e_ij (1)

对于整个集，样品_ij可以是生物学不同的样品的固定效应，批次_i可以是批次特异性随机效应。总变异性可用于鉴定高度可变的基因；可以排除通过该量度排名前5％的基因(图39-图44)。结果是17,601个Ensembl基因可以保留作为下游分析的候选。

患者内的计算机混合

可以在单个TBB样品上训练和优化分类器，以使特征选择和加权过程期间的取样多样性和可用的信息量最大化。可以在提取后阶段汇集多个TBB样品如RNA，汇集的RNA可以通过文库制备、测序和分类在单一反应中处理[Pankratz等人]。可以评价在单个样品上开发的分类器是否可以在汇集的样品上实现高性能。可以开发方法来从单个样品数据计算机模拟汇集的样品。首先，原始读取计数可以通过使用几何方法在整个训练集内的基因之间计算的大小因子进行归一化。样品i＝1,…,n和基因j＝1,…,m的归一化计数C_ij可以通过以下计算

C_ij＝K_ij/S_j

其中且K_ij可以是样品i和基因j的原始计数。然后，对于每名训练患者p＝1,…,P,计算机模拟的混合计数K^p _ij可以通过以下定义

其中I(p)可以是可属于患者p的单个样品i的索引集。训练集中的冻结的方差稳定化变换可以应用于K^p _ij。

训练分类器

由于测试可能旨在识别并调用由病理学定义的参考标签，因此参考标签可以定义为分类器训练中的响应变量[Tuch等人]，并且外显子组富集的、经过滤和归一化的RNA序列数据作为预测特征。可以评价多个分类模型，以包括随机森林、支持向量机(SVM)、梯度提升、神经网络和惩罚逻辑回归[Dobson等人，其通过引用整体并入本文]。可以基于5倍交叉验证和留一患者交叉验证(LOPO CV)[Friedman等人，其通过引用整体并入本文]来评估每个分类器。还可以通过经由单个模型得分的加权平均将单个机器学习方法进行结合来检查集成模型。

为了使过度拟合最小化，在训练和评估期间，可以对每个交叉验证倍数分层，使得来自单个患者的所有数据可以被包括在给定的倍数中或从给定的倍数中排除。可以以嵌套交叉验证方式[Krstajic D等人,2014，其通过引用整体并入本文]在每个交叉验证分割内执行超参数调整。可以选择随机搜索和一个标准误差规则(one standard error rule)[Hastie,Tibshirani和Friedman,2009，其通过引用整体并入本文]来从内部CV选择最佳参数，以进一步使潜在的过度拟合最小化。最后可以在完整的训练集上重复超参数调整，以定义最终的锁定分类器中的参数。训练各种机器学习算法的管道可以使用以下R包来自动化和执行：DESeq2、hclust、cv.glmnet、caret和caretEnsemble。

用于完全独立验证的最佳实践可能需要包括测试决策边界在内的所有分类器参数都可以前瞻性地定义。因此，这可以仅使用训练集数据来完成。由于训练集可以在患者水平分类汇集的TBB，因此所提出的计算机混合模型可用于模拟训练集内患者水平得分的分布。患者内混合物可以在每个LOPO CV倍数下模拟100次，并向VST表达添加基因水平的技术变异性。可以使用混合效应模型来评估基因水平的技术变异性。关于TBB样品的公式(1)可以在多个处理批次之间重复。可以选择最终决策边界以优化特异性(>0.85)而不会严重损害灵敏度(≥0.65)。可以使用来自重复的计算混合模拟的患者水平LOPO CV得分来评估性能。为了在特异性方面保守，使用平均灵敏度大于90％的标准来选择最终决策边界。对于在模拟中具有相似估计性能的决策边界，可以选择具有最高特异性的决策边界，图46A-图46B。

评价对未来样品的批次效应和监测方案

为了确保分类性能对于未来的、未见的临床患者人群的可扩展性，确保没有严重的技术因子可能是至关重要的，技术因子被称为批次效应，其可导致得分分布随时间的全局偏移、旋转、压缩或扩展。为了量化现有数据中的批次效应并评价候选分类器对可观测的批次效应的稳健性，评分的九个不同的TBB样品，即在三个不同的处理批次中进行处理且每个批次一式三份，并使用线性混合效应模型来评价每个分类器的得分变异性。可以选择如线性混合模型中的低得分变异性所指示的对抗批次效应可能最稳健的模型作为用于独立验证的最终模型。为了监测批次效应，可以在每个新的处理批次中处理UIP和非UIP对照样品。为了捕获潜在的批次效应，可以对这些重复对照样品的得分进行比较，并且可在使用计算机患者水平LOPO CV得分的训练中确定估计的得分变异性是否仍然小于预先指定的阈值σ_sv。

独立验证

最终候选分类器可以在来自49名患者的TBB样品的盲法、独立测试集上进行前瞻性验证。可以使用锁定的算法产生测试集的分类得分并可以将其与预设的决策边界进行比较，以给出UIP与非UIP判定(call)的二元预测：分类得分高于决策边界可以判定为UIP，等于或低于决策边界可以判定为非UIP。可以将连续的分类得分与组织病理学标签进行比较，以构建ROC并计算AUC。可以将二元的分类预测与组织病理学标签进行比较，以计算二元分类性能如灵敏度和特异性。

得分变异性模拟

在临床环境中，监测未来临床样品的分类得分是否保持稳定并且可不受潜在的技术因子影响可能是重要的。为此，分类器能够忍受的得分变异性的限度需要前瞻性地解决。在LOPO CV得分可以代表目标人群中的分类得分的分布的假设下，可以进行UIP与非UIP判定之间进行灵敏度、特异性和翻转率的模拟。作为第一步，可以向计算机患者水平LOPO CV得分添加模拟的噪声，其中噪声可以模拟为e～N(O,σ²)，并且σ²可以是0、0.01、…、10。然后，可以使用具有模拟噪声的分数来计算灵敏度、特异性和翻转率。模拟可以重复1,000次。使用模拟得分的1,000个集，单个阈值σ_特异性、σ_灵敏度和σ_翻转率可以定义为噪声的标准偏差σ的最大值，其中分别的估计(平均)特异性>0.9、灵敏度>0.65并且翻转率<0.15。分类得分变异性的最终阈值可以定义为σ_sv＝min(σ_特异性，σ_灵敏度，σ_翻转率)

集成模型的阈值可以分别为特异性0.9、灵敏度1.8以及翻转率1.15，并且最终阈值可以为σ^E _sv＝0.9(图48A-图48C)。惩罚回归模型的阈值可以分别为特异性0.48、灵敏度0.78以及翻转率0.68，并且最终阈值可以为σ^PL _sv＝0.48。

结果

ILD疾病的分布

表14总结了UIP和非UIP组内ILD疾病的患者分布。在收集的患者中，UIP模式的患者的患病率在训练集(59％)可能高于测试集(47％)，p值为0.27。训练集中的三名患者和测试集中的一名患者可能在患者内具有潜在异质性：一个肺叶可被分配为多种非UIP疾病(非特异性间质性肺炎、肺动脉高压或Favor过敏性肺炎)中的一种，而另一肺叶可被分配为UIP模式，驱使最终患者水平标签为UIP。

非UIP组可包括在临床实践中可能遇到的多种异质性疾病。由于较小的样品大小，多种疾病可能具有一名或两名患者。三种新的疾病——淀粉样或轻链沉积、外源性脂质性肺炎和机化性肺泡出血——可能存在于测试集中，其可能不存在于训练集中。

患者内的异质性

在组织病理学诊断和基因表达中都可观察到来自相同患者的样品中的异质性。在UIP和非UIP组中，三名患有疾病的此类患者可能会对患者水平的诊断分类带来计算上的挑战。来自六名患者的样品的相关矩阵也可显示出表达谱中显著的患者内和患者间变异性(图38)。图38示出了两名在不同肺叶上具有相同标签并且具有相似的基因表达模式的非UIP患者(图38中的患者1和2)、两名具有相同或相似的标签以及高度相关的基因表达谱的UIP患者(图38中的患者5和6)以及具有不相似标签和异质性表达的一名UIP和一名非UIP患者(图38中的患者3和4)，提供了可以在患者内和患者间观察到的异质性全谱的代表性可视化图。

UIP与非UIP之间的DE分析

首先可以研究在UIP与非UIP之间通过DESeq2发现的差异表达的基因是否可以预测这两种诊断种类。在UIP与非UIP之间可以鉴定151个显著差异表达的基因(调整的p<0.05，倍数变化>2)，其中UIP中有55个上调的基因和96个下调的基因(图29、表15)。然而，单独使用这些差异表达的基因可能很难将这两类完全分开，如PCA图所示(图30)。相比之下，190个分类器基因跨越的PCA可以更好地将这两类分开(图31)。

非UIP疾病患者中的异质性

在包含多于一打临床定义的疾病的非UIP样品的基因表达中可以观察到异质性。可以鉴定在UIP样品与具有多于10个样品大小的每种非UIP疾病亚型之间显著不同(调整的p<0.05，倍数变化>2)的基因(表15)。差异表达的基因的数目越多，非UIP疾病亚型与UIP的不相似程度就越大。将每种非UIP亚型中差异基因的列表与来自所有非UIP样品的那些进行比较，可显示出重叠基因的数目可高度取决于在单个非UIP亚型中鉴定的差异基因的数目，表明一些非UIP疾病可能对所有非UIP与UIP样品之间发现的整体差异基因具有更加主导的影响(表15)。此外，在那些在单个非UIP疾病中鉴定的基因中可能几乎没有重叠的差异基因。例如，在结节病的1174个差异基因与RB的701个差异基因之间可能有172个共同的基因，而在来自结节病、RB和NSIP的差异基因之间发现6个共同的基因。在来自细支气管炎、NSIP和HP的差异基因之间可能没有共同的基因。这可能暗示非UIP样品中的疾病内不同的分子表达模式。

使用非UIP亚型与UIP样品之间差异表达的基因的PCA图可显示，对于诸如RB和HP等疾病，特定的非UIP疾病亚型可能倾向于与UIP样品良好地分离(图39和图41)，但是其他非UIP样品可能与UIP样品穿插在一起(图40和图43).这可以证明来自一种非UIP亚型的差异基因可能无法推广到其他非UIP疾病。

患者内计算机混合与体外汇集之间的比较

每名患者内计算机混合的样品可以用于模拟体外汇集的样品，以供在训练集内评估。为了确保计算机混合与体外汇集的样品可以合理地匹配，可以对11名患者的汇集样品进行测序并与计算机混合的样品进行比较。对于计算机混合与体外汇集的样品对，基于26,268个基因的表达水平的平均r平方值可以是0.99(SD＝0.003)，考虑到对于技术重复的平均r平方值可能是0.98(SD＝0.008)，而对于生物学重复的平均r平方值可能是0.94(0.04)，这可以指示计算机混合的样品的模拟表达水平可以与体外汇集的样品的表达水平良好匹配。

通过两个候选分类器即集成和惩罚逻辑回归模型(描述如下)的计算机和体外混合样品的分类得分也可以在散点图中进行比较(图32和图33)。每个体外汇集的样品的重复数目可以在3至5范围内，因此可以使用多个重复的平均得分。计算机混合的样品的分类得分可能与体外汇集的样品的分类得分高度相关，两个分类器的Pearson相关性为0.99(图32和图33)。这些点可能刚好落在X＝Y的直线周围，而没有明显的偏移或旋转。

训练集上的交叉验证性能

可以评价在来自90名患者的354个TBB样品的训练集上的多个特征选择方法和机器学习算法。作为初步尝试，可以基于5倍CV和交叉验证的AUC(cvAUC)分别评价单个方法和集合模型，该交叉验证的AUC是使用每个倍数的经验AUC的平均值估计的。总体而言，线性模型如惩罚回归模型(cvAUC＝0.89)可能优于基于树的非线性模型如随机森林(cvAUC＝0.83)和梯度提升(cvAUC＝0.84)。神经网络分类器的cvAUC可能在0.8以下。最佳性能可以通过以下来实现(1)具有线性和径向核的SVM的集成模型，以及(2)惩罚逻辑回归；两者都具有cvAUC＝0.89。然和，由于疾病中的异质性和较小的样品大小，可以发现所有模型上的CV性能根据分割而显著地改变。

在LOPO CV中，可以通过在LOPO CV倍数内对每名患者使用计算机混合的样品的100个重复来评价患者水平性能。计算的单个样品的分类得分和计算机混合样品的平均得分可显示在图34和图35中。总体上，与样品水平性能相比，患者水平可能稍高。基于在LOPOCV倍数之间的结合得分，集成模型和惩罚逻辑回归模型可以实现最佳性能，其中AUC分别在样品水平为0.9[0.87-0.93]和0.87[0.83-0.91]，在计算机混合的患者水平为0.93[0.88-0.98]和0.91[0.85-0.97](图36)。

分类器的稳健性

集成模型和惩罚逻辑回归模型估计的得分变异性可分别为0.46和0.22(表16)。两者都可小于0.9和0.48，即预先指定的可接受的得分变异性的阈值(图47A-图47C和图48A-图48C)。考虑到集成分类器的得分范围可能比惩罚逻辑回归分类器更广，因此可以比较得分的分位数在5％和95％范围内的变异性的比例。总体上，惩罚逻辑回归分类器在得分上可能具有比集成模型更小的变异性。这可能意味着惩罚逻辑回归可能对于技术(试剂/实验室)批次效应更加稳健，并且可能为技术重复提供更加一致的得分(表16)。在高交叉验证性能和稳健性的情况下，可以选择惩罚逻辑回归模型作为我们用于独立验证的最终候选模型。

独立验证性能

使用具有预先指定的决策边界0.87的锁定惩罚逻辑分类器，可以基于体外混合的样品的独立测试集评价验证性能。最终分类器可以达到0.88[0.70-0.98]的特异性和0.70[0.47-0.87]的灵敏度，并具有0.87[0.76-0.98]的AUC(图36B和图37)。验证性能的点估值可能低于计算机患者水平训练CV性能，但AUC、灵敏度和特异性的p值分别为0.6、0.7和1，指示差异是可忽略的。

讨论

在本研究中，即使在存在重大挑战的情况下，仍可以实现准确和稳健的分类。通过利用适当的统计学方法论、机器学习方法和RNA测序技术，可以提供有意义的诊断测试以改善患有间质性肺病的患者的护理。

机器学习，特别是深度学习，在过去的几年可能经历了革命性的进展。在这些最近开发的和高度复杂的工具的授权下，在许多应用中可以显著地提高分类性能[Lecun等人，其通过引用整体并入本文]。然而，这些工具中的大多数可能需要容易获得且高置信度的标签以及较大的样品大小：性能改善的幅度可能与具有高质量标签的样品的数目直接相关且正相关[Gu等人和Sun等人，其通过引用整体并入本文]。在本项目中，如同许多其他基于患者样品的临床研究，样品大小可以是限制性的：例如，训练集中有90名患者(表14)。此外，非UIP组可以不是一种生理上均质的疾病，而是许多疾病类型的集合，每种疾病具有其自身独特的生物学，其中几种在训练组中可能仅有一名或两名患者[Libbrecht等人，其通过引用整体并入本文](表14)。毫不奇怪的是，这些不同类型的非UIP疾病可不仅是生理学上独特的，还可以在分子和基因组水平上不同。可以利用训练样品来鉴定非UIP疾病中关于与UIP组相区别的共同特征，其可进行尝试但没有出现(表15、图38)。此外，三种或更多种疾病类型(淀粉样或轻链沉积、外源性脂质性肺炎和机化性肺泡出血)可能存在于测试集中并可能不在训练集中遇到(表14)。也可以在训练(59％)和测试(47％)之间观察到UIP比例的变化。最后两个因子可能有助于解释与训练集的交叉验证性能相比，测试集中的性能略低。利用较大样品大小的机器学习的最新进展可能不适用于这种情况。在一些情况下，重点可能是更传统的线性模型或基于树的模型。其也可以解释在候选中，为什么线性模型可能优于基于树的非线性模型，这是因为单个非UIP疾病组中的样品大小可能太小而无法支持树模型可能试图捕获的任何交互。

为了直接解决训练大小较小的问题，可以从RNA提取到测序运行相同患者内的多达5个不同的TBB样品，以成功地将90名患者的集扩展到包含354个样品(表14)。这在概念上可以类似于数据增强思想，但与模拟或外推增强的数据不同，测序数据可以从对来自相同患者的多个TBB样品的真实实验中生成。目标可能是提供额外的信息以增强分类性能。在定义交叉验证倍数和评价性能时，可以特别小心地使用患者作为最小单位。这可以防止具有更多样品的患者具有更高的权重，或者来自相同患者的样品横跨模型构建和模型评价的两侧，从而导致过度拟合。还可以应用嵌套交叉验证以及一个SD(标准偏差)规则用于模型选择和参数优化，以正确地考虑由于较小的样品大小引起的性能的高变异性，并积极地削减模型复杂性以防止过度拟合。

虽然在训练集中每名患者运行多个TBB样品可以有助于样品大小的限制，但这可能会产生新的问题。在商业环境中，只有当其可以限制于对每名患者测试一次测序运行时，其才可能是经济上可行的。为了实现这一目标，可能需要在测序之前汇集来自一名患者内的多个TBB样品的RNA材料。然而，对单个TBB样品训练的分类器是否可以应用于汇集的TBB样品可能成为关键问题，这在开始验证实验之前可能需要进行解决。为了回答该问题，可以进行一系列计算机混合模拟来模拟测试集的患者水平体外汇集。该方法也可以是用于定义分类器的预期决策边界以及实现最佳分类性能所需的TBB的最佳数目的基本组成部分[Pankratz等人]。模拟的计算机数据可以与实验体外数据很好地吻合(图32和图33)，从而给予使用该方法推断汇集样品的预期性能的信心，并以汇集设置继续进行验证实验。这种计算机方法在该实例中可以表现良好，因为汇集在一起的样品可以是相同类型(TBB)并且来自相同患者，因此具有相似的特性如重复读取的比率或读取的总数目。然而，将所提出的计算机混合模型扩展到混合不同特性或品质的样品，例如UIP与非UIP样品或与不同类型的样品如血液混合的TBB，可能是棘手的。在那些情况下，具有明显更高的读取总数目的样品可能会倾向于主导组合样品的表达，这违反了此处提出的混合模型的基本假设。可能需要更复杂的方法来准确地模拟这种复杂的程序和生物相互作用。

能够满足所需临床性能的成功验证(图36A-图36B和图37)可能是朝向旨在改善患者护理的有用的商业产品的第一步。同样重要但常常被忽视的可能是为未来的患者流提供一致和可靠的性能的重要性。这可能需要前瞻性的预期，以解决来自到来的患者的测序数据的任何潜在批次效应，该批次效应可能会导致分类得分的系统性变化并导致错误的临床预测。这项重要问题可以从上游特征选择(图39-图44)开始解决，其中对批次效应高度灵敏的基因可以从任何下游分析中去除。此外，可以对三个不同批次中的10个不同TBB样品生成额外的实验数据；这些批次可以都不用于生成训练样品。该实验可用于直接评价每个候选模型对未见批次的稳健性，并可帮助选择最终模型。然而，实验数据可以评估有限数目的批次。因此，为了预期不可预见的变化，可以基于在每个商业板块/批次中运行的对照样品开发监测方案，以检测任何意外的潜在变化。如果可发生这样的意外变化，则可能需要能够直接解决批校正的归一化方法来将新的得分映射到验证分类得分的空间。

结论

有限的样品大小以及非UIP种类内的高异质性可能是本实例中面临的两个主要的分类挑战，并且其可能普遍存在于临床研究中。此外，成功的商业产品可能需要经济地且对所有将来即将到来的样品一致地进行，这可能需要基础的分类模型适用于汇集的样品并且对于测定变异性高度稳健。尽管存在这些困难，但实现高度准确和稳健的分类可能是可行的。这些方法在本实例中可已经被证明是成功的，并且可适用于面临类似困难的其他临床场景。

实施例2-分子谱分析和细胞学检查

个体有肺癌的症状。该个体咨询其初级护理医师，该医师检查该个体并将其介绍给内分泌医师。内分泌医师通过支气管镜检查获得样品，并将样品送到细胞学测试实验室。细胞学测试实验室对支气管镜检查的一部分进行常规细胞学测试，其结果是可疑的或模糊的(例如，不确定的)。细胞学测试实验室向内分泌医师建议，剩余的样品可能适合进行分子谱分析，内分泌医师表示赞同。

剩余的样品使用本文的方法和组合物进行分析。分子谱分析的结果显示早期肺癌的概率较高。结果进一步推荐将分子谱分析与患者数据结合。内分泌科医师检查结果并开出推荐的疗法。

细胞学测试实验室向内分泌医师开具常规细胞学测试和分子谱分析的账单。内分泌医师将款项支付给细胞学测试实验室，并就所提供的所有产品和服务向该个体的保险提供者开具账单。细胞学测试实验室将分子谱分析的款项转交给分子谱分析企业，并保留小的差值。

实施例3

受试者由于暴露于二手烟而处于肺癌的风险中。受试者无肺癌症状。医学专业人员从受试者获得鼻组织样品。如本文所述的分子分类器分析鼻组织样品。基于多种生物标志物的存在或不存在，医学专业人员推荐受试者接受低剂量CT扫描或者推荐在1年后使用分子分类器分析另一鼻组织样品。

实施例4

受试者先前已接受肺结节存在的确认。医学专业人员从受试者获得鼻组织样品。如本文所述的分子分类器分析鼻组织样品。基于多种生物标志物的存在或不存在，医学专业人员推荐受试者接受支气管镜检查或者推荐在1年后使用分子分类器分析另一鼻组织样品。

实施例5

受试者当前正在接受干预性疗法。医学专业人员从受试者获得鼻组织样品。如本文所述的分子分类器分析鼻组织样品。基于多种生物标志物的存在或不存在，医学专业人员推荐受试者继续该干预性疗法或者停止该干预性疗法并开始不同的干预性疗法。

实施例6

受试者先前已接受恶性肿瘤的手术切除。医学专业人员从受试者获得鼻组织样品。如本文所述的分子分类器分析鼻组织样品。基于多种生物标志物的存在或不存在，医学专业人员为受试者推荐治疗方案或者推荐在1年后使用分子分类器分析另一鼻组织样品。

计算机控制系统

本公开内容提供了计算机控制系统，其被编程用于实施本公开的方法。图26显示了计算机系统2601，其被编程或以其他方式配置用于实现本文提供的方法。计算机系统2601可以调节本公开内容的各个方面，例如诊断受试者中的肺部病况、预测受试者中发展肺部病况的风险、预测患有肺部病况的受试者的治疗功效或其组合，例如(i)将样品的一种或多种生物标志物与生物标志物的参考集进行比较，(ii)训练算法以开发分类器，(iii)应用分类器以基于样品输入作出诊断、预测或推荐，或者(iv)其任何组合。计算机系统2601可以是用户的电子设备或相对于电子设备远程定位的计算机系统。电子设备可以是移动电子设备。

计算机系统2601包括中央处理单元(CPU，本文还称为“处理器”和“计算机处理器”)2605，其可以是单核或多核处理器或者用于并行处理的多个处理器。计算机系统2601还包括存储器或存储器位置2610(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元2615(例如，硬盘)、用于与一个或多个其他系统通信的通信接口2620(例如，网络适配器)和外围装置2625，外围装置2625诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器2610、存储单元2615、接口2620和外围装置2625通过通信总线(实线)与CPU 2605进行通信，所述通信总线诸如母板。存储单元2615可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统2601在通信接口2620的辅助下可以操作地耦合到计算机网络(“网络”)2630。网络2630可以是因特网、互联网和/或外联网，或与因特网通信的内联网和/或外联网。在一些情况下，网络2630是远程通信和/或数据网络。网络2630可以包括一个或多个计算机服务器，这可使得分布计算(诸如云计算)成为可能。在一些情况下，网络2630在计算机系统2601的辅助下可以实现对等网络，其可使得装置耦合到计算机系统2601以起到客户端或服务器的作用。

CPU 2605可以执行一系列可嵌入在程序或软件中的机器可读指令。所述指令可存储在存储器位置如存储器2610中。所述指令可被导向CPU 2605，其随后可对CPU 2605进行编程或以其他方式配置以实现本公开内容的方法。由CPU 2605执行的操作的实例可包括提取、解码、执行和回写。

CPU 2605可以是电路如集成电路的一部分。系统2601的一个或多个其他组件可包含在该电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元2615可以存储文件，诸如驱动器、文库和已保存的程序。存储单元2615可以存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机系统2601可以包括位于计算机系统2601外部的一个或多个附加的数据存储单元，所述数据存储单元诸如位于与计算机系统2601通过内联网或因特网通信的远程服务器上。

计算机系统2601可以与一个或多个远程计算机系统通过网络2630进行通信。例如，计算机系统2601可以与用户(例如，服务提供者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、平板或平板型PC(例如，iPad、Galaxy Tab)、电话、智能电话(例如，iPhone、支持Android的装置、)或个人数字助理。用户可以通过网络2630访问计算机系统2601。

如本文所述的方法可通过存储在计算机系统2601的电子存储位置上的机器(例如，计算机处理器)可执行代码来实现，所述机器可执行代码例如存储在存储器2610或电子存储单元2615上。该机器可执行或机器可读代码可以以软件的形式提供。在使用期间，所述代码可由处理器2605执行。在一些情况下，所述代码可以从存储单元2615检索并存储到存储器2610中以供处理器2605迅速存取。在一些情况下，可以不包括电子存储单元2615，而且机器可执行指令被存储在存储器2610上。

所述代码可以进行预编译并配置用于与具有适于执行代码的处理器的机器一起使用，或者可以在运行过程中进行编译。所述代码可以以编程语言来提供，所述编程语言可以被选择以使该代码能够以预编译或即时编译的方式来执行。

本文提供的系统和方法的各方面，诸如计算机系统2601，可以在编程中体现。所述技术的各个方面可以被认为是“产品”或“制品”，一般以机器(或处理器)可执行代码和/或相关联数据的形式携带或体现在一种类型的机器可读介质中。机器可执行代码可以被存储在电子存储单元上，所述电子存储单元诸如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘。“存储”型介质可以包括计算机、处理器等等的任何或全部有形存储器或与其相关的模块，诸如各种半导体存储器、磁带驱动器、磁盘驱动器等等，这可以随时为软件编程提供非暂时性存储。该软件的全部或部分有时可以通过因特网或其他各种远程通信网络进行通信。这样的通信例如可以使软件能够从一台计算机或处理器加载到另一台，例如从管理服务器或主机加载到应用程序服务器的计算机平台。因此，可承载软件元件的另一种类型的介质包括光、电和电磁波，诸如通过有线和光学陆线网络以及经由各种空中链路跨越本地装置之间的物理接口使用。携带这些波(诸如有线或无线链路、光学链路等等)的物理元件也可以被认为是承载所述软件的介质。如本文所用，除非限于非暂时性、有形的“存储”介质，否则诸如计算机或机器“可读介质”等术语指的是参与向处理器提供用于执行的指令的任何介质。

因此，诸如计算机可执行代码的机器可读介质可以采取许多形式，其包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘，光盘或磁盘诸如在任何计算机等等中的任何存储装置，所述存储装置诸如可用于实现附图所示的数据库等等。易失性存储介质包括动态存储器，诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，它们包括构成计算机系统内总线的导线。载波传输介质可采取诸如在射频(RF)和红外(IR)数据通信期间所生成的电或电磁信号或声波或光波的形式。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图形的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传送数据或指令的载波、传送这种载波的电缆或链路或者计算机可以从其中读取程序代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可参与将一个或多个指令的一个或多个序列装载至处理器以供执行。

计算机系统2601可以包括电子显示器2635或与电子显示器2635通信，电子显示器2635包括用于提供例如分类器或经训练的算法的输出或读出的用户界面(UI)2640。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

本公开内容的方法和系统可以以一个或多个算法的方式来实现。算法可以通过软件经中央处理单元2605执行来实现。该算法可以例如(i)与生物标志物的参考集进行比较来确定样品中一种或多种生物标志物的存在。

参考文献

Flaherty KR,King TE,Jr.,Raghu G,Lynch JP,3rd,Colby TV,Travis WD,GrossBH,Kazerooni EA,Toews GB,Long Q,et al:Idiopathic interstitial pneumonia:whatis the effect of a multidisciplinary approach to diagnosis？Am J Respir CritCare Med 2004,170:904-910.

Travis WD,Costabel U,Hansell DM,King TE,Jr.,Lynch DA,Nicholson AG,Ryerson CJ,Ryu JH,Selman M,Wells AU,et al:An official American ThoracicSociety/European Respiratory Society statement:Update of the internationalmultidisciplinary classification of the idiopathic interstitial pneumonias.AmJ Respir Crit Care Med 2013,188:733-748.

Flaherty KR,Andrei AC,King TE,Jr.,Raghu G,Colby TV,Wells A,Bassily N,Brown K,du Bois R,Flint A,et al:Idiopathic interstitial pneumonia:docommunity and academic physicians agree on diagnosis？Am J Respir Crit CareMed 2007,175:1054-1060.

Tuch BB,Laborde RR,Xu X,Gu J,Chung CB,Monighetti CK,Stanley SJ,OlsenKD,Kasperbauer JL,Moore EJ,et al:Tumor transcriptome sequencing revealsallelic expression imbalances associated with copy number alterations.PLoSOne 2010,5:e9317.

Twine NA,Janitz K,Wilkins MR,Janitz M:Whole transcriptome sequencingreveals gene expression and splicing differences in brain regions affected byAlzheimer's disease.PLoS One 2011,6:e16266.

Boyle EA,Li YI,Pritchard JK:An Expanded View of Complex Traits:FromPolygenic to Omnigenic.Cell 2017,169:1177-1186.

Pankratz DG,Choi Y,Imtiaz U,Fedorowicz GM,Anderson JD,Colby TV,MyersJL,Lynch DA,Brown KK,Flaherty KR,et al:Usual Interstitial Pneumonia Can BeDetected in Transbronchial Biopsies Using Machine Learning.Ann Am Thorac Soc2017.

Sorlie T,Tibshirani R,Parker J,Hastie T,Marron JS,Nobel A,Deng S,Johnsen H,Pesich R,Geisler S,et al:Repeated observation of breast tumorsubtypes in independent gene expression data sets.Proc Natl Acad Sci U S A2003,100:8418-8423.

Brennan CW,Verhaak RG,McKenna A,Campos B,Noushmehr H,Salama SR,ZhengS,Chakravarty D,Sanborn JZ,Berman SH,et al:The somatic genomic landscape ofglioblastoma.Cell 2013,155:462-477.

Kim SY,Diggans J,Pankratz D,Huang J,Pagan M,Sindy N,Tom E,Anderson J,Choi Y,Lynch DA,et al:Classification of usual interstitial pneumonia inpatients with interstitial lung disease:assessment of a machine learningapproach using high-dimensional transcriptional data.Lancet Respir Med 2015,3:473-482.

Dobin A,Davis CA,Schlesinger F,Drenkow J,Zaleski C,Jha S,Batut P,Chaisson M,Gingeras TR:STAR:ultrafast universal RNA-seqaligner.Bioinformatics 2013,29:15-21.

Anders S,Pyl PT,Huber W:HTSeq--a Python framework to work with high-throughput sequencing data.Bioinformatics 2015,31:166-169.

DeLuca DS,Levin JZ,Sivachenko A,Fennell T,Nazaire MD,Williams C,ReichM,Winckler W,Getz G:RNA-SeQC:RNA-seq metrics for quality control and processoptimization.Bioinformatics 2012,28:1530-1532.

Love MI,Huber W,Anders S:Moderated estimation of fold change anddispersion for RNA-seq data with DESeq2.Genome Biol 2014,15:550.

Anders S,McCarthy DJ,Chen Y,Okoniewski M,Smyth GK,Huber W,RobinsonMD:Count-based differential expression analysis of RNA sequencing data usingR and Bioconductor.Nat Protoc 2013,8:1765-1786.

Dobson AJ,Barnett A:An introduction to generalized linear models.CRCpress；2008.

Krstajic D,Buturovic LJ,Leahy DE,Thomas S:Cross-validation pitfallswhen selecting and assessing regression and classification models.JCheminform 2014,6:10.

Friedman J,Hastie T,Tibshirani R:The elements of statisticallearning.Springer series in statistics New York；2001.

LeCun Y,Bengio Y,Hinton G:Deep learning.Nature 2015,521:436-444.

Gu B,Hu F,Liu H:Modelling classification performance for large datasets.Advances in Web-Age Information Management 2001:317-328.

Sun C,Shrivastava A,Singh S,Gupta A:Revisiting UnreasonableEffectiveness of Data in Deep Learning Era.arXiv preprint arXiv:1707029682017.

Libbrecht MW,Noble WS:Machine learning applications in genetics andgenomics.Nat Rev Genet 2015,16:321-332.

Wong SC,Gatt A,Stamatescu V,McDonnell MD:Understanding dataaugmentation for classification:when to warp？In.IEEE；2016:1-6；arXiv:1609.08764.

尽管本文已经显示并描述了本发明的优选实施方案，但对本领域技术人员而言显而易见的是，这些方案仅以举例的方式提供。这并不意味着本发明受到本说明书中提供的具体实例的限制。虽然本发明已经参照上述的说明书进行了描述，但是本文实施方案的说明书和图示并不意味着以限制的意义来解释。在不脱离本发明的情况下，本领域技术人员将会想到许多变化、改变和替代。此外，应当理解的是，本发明的所有方面不限于本文所述的具体的描述、配置或相对比例，其依赖于各种条件和变量。应当理解，本文描述的本发明实施方案的各种替代方案可用于实施本发明。因此可以预期的是，本发明还应当包括任何这样的替代、改变、变化或等同物。下列权利要求旨在限定本发明的范围，并由此涵盖这些权利要求的范围内的方法和结构及其等同物。

Claims

1.一种用于筛查受试者的肺部病况的系统，所述系统包括一个或多个计算机处理器，所述一个或多个计算机处理器单独地或共同地编程为：

（a）测定来自从受试者在第一时间点获得的第一样品的上皮组织，该上皮组织被（1）计算机使用经训练的机器学习算法对发展所述肺部病况的一种或多种风险因子的存在进行分析，其中所述受试者未经电子成像扫描鉴定为在肺部区域中具有肺结节，其中所述受试者未经诊断患有所述肺部病况，其中所述经训练的机器学习算法经训练以鉴定与所述一种或多种风险因子相关的特征，和（2）使用所述经训练的机器学习算法鉴定所述一种或多种风险因子的所述存在，以鉴定所述第一样品中与发展所述肺部病况的风险相关联的一种或多种生物标志物的存在或不存在；以及

（b）在基于所述一种或多种生物标志物的所述存在或不存在对具有发展所述肺部病况的低风险的所述受试者进行鉴定后，（i）指导获得所述受试者的所述肺部区域的低剂量计算机断层成像LDCT，所述肺部区域疑似表现出所述肺部病况，或者（ii）在第二时间点测定来自所述受试者的第二样品的其他上皮组织，其中所述第二时间点在所述第一时间点之后至少24小时。

2.根据权利要求1所述的系统，其中所述一个或多个计算机处理器还被编程为在（b）之前，接收测定包括所述受试者的所述上皮组织的所述第一样品的请求。

3.根据权利要求1所述的系统，其中所述LDCT扫描向所述受试者提供小于5毫西弗（mSv）的辐射暴露。

4.根据权利要求1所述的系统，其中所述肺部病况是肺癌、慢性阻塞性肺病（COPD）、间质性肺病（ILD）或其任何组合。

5.根据权利要求1所述的系统，其中所述肺部病况是肺癌，并且其中所述肺癌包括：非小细胞肺癌；腺癌；鳞状细胞癌；大细胞癌；小细胞肺癌；或其任何组合。

6.根据权利要求1所述的系统，其中通过支气管镜检查获得所述第一样品或所述第二样品。

7.根据权利要求1所述的系统，其中通过细针抽吸获得所述第一样品或所述第二样品。

8.根据权利要求1所述的系统，其中所述第一样品或所述第二样品包括粘膜上皮组织、鼻上皮组织、肺上皮组织或其任何组合。

9.根据权利要求1所述的系统，其中所述第一样品或所述第二样品包括沿所述受试者的气道获得的上皮组织。

10.根据权利要求1所述的系统，其中所述第一样品或所述第二样品的一部分进行细胞学测试，所述细胞学测试鉴定所述第一样品或所述第二样品是模糊的或可疑的。

11.根据权利要求10所述的系统，其中在鉴定所述第一样品或所述第二样品是模糊的或可疑的之后，所述一个或多个计算机处理器还被编程为对所述样品的第二部分进行（b），所述第二部分包括所述上皮组织。

12.根据权利要求1所述的系统，其中所述第二样品与所述第一样品不同。

13.根据权利要求1所述的系统，其中所述第二样品是与所述第一样品不同的样品类型。

14.根据权利要求1所述的系统，其中所述第二时间点在所述第一时间点的1-2年内。

15.根据权利要求1所述的系统，其中（a）包括将所述一种或多种生物标志物的所述存在或不存在与一种或多种生物标志物的参考集进行比较。

16.根据权利要求1所述的系统，其中所述受试者需要针对所述肺部病况的治疗。

17.根据权利要求1所述的系统，其中所述受试者疑似具有发展肺部病况的增加的风险。

18.根据权利要求1所述的系统，其中所述受试者相对于所述肺部病况无症状。

19.根据权利要求1所述的系统，其中所述受试者先前未接受过所述肺部区域的所述电子成像扫描。

20.根据权利要求1所述的系统，其中所述受试者先前未接受过明确诊断。

21.根据权利要求1所述的系统，其中所述一种或多种风险因子包括：吸烟；环境烟雾暴露；氡气暴露；空气污染暴露；辐射暴露；工业物质暴露；遗传性或环境获得性基因突变；受试者的年龄；具有次级健康状况的受试者；或其任何组合。

22.根据权利要求1所述的系统，其中所述受试者具有两种或更多种风险因子。

23.根据权利要求1所述的系统，其中所述一种或多种生物标志物包括至少五种生物标志物。

24.根据权利要求1所述的系统，其中所述一种或多种生物标志物包括以下中的一种或多种：基因或其片段；序列变体；融合；线粒体转录物；表观遗传修饰；拷贝数变异；杂合性丢失（LOH）；或其任何组合。

25.根据权利要求1所述的系统，其中所述一种或多种生物标志物的所述存在或不存在包括表达水平。

26.根据权利要求1所述的系统，其中所述系统鉴定所述受试者是否处于发展所述肺部病况的增加的风险中。

27.根据权利要求1所述的系统，其中（b）的所述鉴定包括采用经训练的算法。

28.根据权利要求27所述的系统，其中所述经训练的算法通过训练集训练，所述训练集包括从个体的气道获得的上皮细胞。

29.根据权利要求27所述的系统，其中所述经训练的算法通过训练集训练，所述训练集包括对所述肺部病况呈良性的样品和对所述肺部病况呈恶性的样品。

30.根据权利要求27所述的系统，其中所述经训练的算法通过训练集训练，所述训练集包括从具有一种或多种风险因子的受试者获得的样品。

31.根据权利要求1所述的系统，其中所述一个或多个计算机处理器还被编程为在（a）之前，计算机分析所述受试者，以鉴定所述受试者中发展所述肺部病况的所述一种或多种风险因子的所述存在。