CN107206043A

CN107206043A - 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法

Info

Publication number: CN107206043A
Application number: CN201580071464.4A
Authority: CN
Inventors: G·C·肯尼迪; J·迪甘斯; J·黄; Y·崔; S·Y·金姆; D·潘克拉茨; M·帕甘
Original assignee: Veracyte Inc
Current assignee: Veracyte Inc
Priority date: 2014-11-05
Filing date: 2015-11-05
Publication date: 2017-09-26
Also published as: US20210324464A1; JP2021164484A; CN114606309A; EP3215170A1; EP3770274A1; US20210079471A1; EP3215170A4; JP2018504138A; US11639527B2; US20240110242A1; US20170335396A1; JP7356788B2; WO2016073768A1

Abstract

本发明提供了用于在作为普通型间质性肺炎(UIP)或非UIP的样品之间进行区分的系统、方法、和分类器。

Description

使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法

相关申请的交叉引用

本申请要求2014年11月5日提交的美国临时申请序列号62/075,328以及2015年3月10日提交的美国临时申请序列号62/130,800的优先权，将其各自通过引用以其全文结合在此。本申请还将2014年3月14日提交的PCT/US2014/029029的全部主题通过引用以其全文结合在此。

以电子方式提交的文本文件的描述

将与此一起以电子方式提交的文本文件的内容通过引用以其全文结合在此：计算机可读格式拷贝的序列表(文件名：VRCT_003_01WO_SeqList_ST25.txt，记录日期：2015年11月5日，文件大小：64千字节)。

引言

间质性肺病(ILD)是一组异质性的急性和慢性双侧实质性肺部疾病，具有相似的临床表现，但具有宽范围的严重性和结果^1,2。其中，特发性肺纤维化(IPF)是最常见且最严重的ILD之一，其特征在于进行性纤维化、使肺功能恶化以及死亡^3-6。大多数诊断患有IPF的患者在他们最初诊断的五年内死亡^7,8。然而，最近获得在开发中的两种新药和其他疗法可以改变这种状况^9-11，并且准确的诊断对于适当的治疗干预是关键的^5,12。

IPF对于诊断可以是具挑战性的。对IPF的诊断方法需要排除其他间质性肺炎、以及结缔组织疾病及环境和职业暴露^3-6。疑似患有IPF的患者通常经历高分辨率计算机断层摄影术(HRCT)，只要普通型间质性肺炎(UIP)的模式是清晰明显的，则该摄影术以高特异性确证该疾病^5,13。然而，对于多数患者而言，诊断需要侵入性外科肺活检(SLB)以阐明间质性肺炎和/或UIP模式的组织病理学特征^5,14，并且从症状发作起诊断出IPF的时间的典型长度可以是1-2年¹⁵。病理学家之间存在不一致，而正确的诊断可以取决于个人经验¹⁶。尽管有组织病理学评估，确诊可能仍然难把握。当肺病学家、放射学家和病理学家的多学科综合小组(MDT)商讨时，诊断准确性已经显示增加¹⁷；遗憾的是，并非所有患者和他们的医师都可获得由有经验的MDT作出的这种水平的专家审评。此类审评是耗时的并且需要患者在具有公认专业技能的区域中心就诊。

因此，需要更有效的诊断IPF的方法。此外，需要区分UIP和非UIP的方法。

发明概述

在此本文描述了用于使用分类器在作为普通型间质性肺炎(UIP)或非UIP的样品之间进行区分的方法和系统，该分类器的准确性是使用作为真实标记的专家病理学诊断来确证的。虽然在科技文献中基因表达谱研究已经报道在IPF和其他ILD亚型之间的差异表达^18,19，尚未有人尝试在包含常作为临床医师的鉴别诊断的部分而存在的其他亚型的数据集中为UIP分类。

在一些实施方案中，本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统。在一些实施方案中，提供了用于测定受试者的测试样品中第一组转录物和第二组转录物各自的表达水平的方法，其中该第一组转录物包含在UIP中表达过度且列于表5、7、9、10、11、和12任一个中的基因中的任何一个或多个，并且该第二组转录物包含在UIP中表达不足且列于表5、8、9、10、11、或12任一个中的基因中的任何一个或多个。在一些实施方案中，该方法进一步提供了将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较，从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加或(b)相对应于该第二组的表达水平的降低，则将所述肺组织分类为普通型间质性肺炎(UIP)，或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加或(d)相对应于该第一组的表达水平的降低，则将该肺组织分类为非普通型间质性肺炎(非UIP)。在一些实施方案中，该方法进一步提供了用于确定和/或比较列于表5、8、9、11、和/或12中的一个或多个基因中的任一个的序列变体。

在一些实施方案中，本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统。在一些实施方案中，该方法和/或系统用于通过测序、阵列杂交、或核酸扩增来测定来自受试者肺组织的测试样品中第一组转录物和第二组转录物各自的表达水平，其中该第一组转录物包含在UIP中表达过度且列于表5、7、9、10、11或12中的基因中的任何一个或多个，并且该第二组转录物包含在UIP中表达不足且列于表5、8、9、10、11或12中的基因中的任何一个或多个。在某些实施方案中，该方法和/或系统进一步将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较，从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加或(b)相对应于该第二组的表达水平的降低，则将所述肺组织分类为普通型间质性肺炎(UIP)，或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加或(d)相对应于该第一组的表达水平的降低，则将该肺组织分类为非普通型间质性肺炎(非UIP)。

在一些实施方案中，本发明提供了用于通过以下方式检测测试样品是呈UIP阳性还是呈非UIP阳性的方法和/或系统：

测量样品中表达的两种或更多种转录物的表达水平和/或确定样品中表

达的一种或多种转录物的序列变体；

使用计算机生成的分类器在UIP和非UIP之间区分；

其中将该分类器使用非UIP病理学亚型谱进行构建，该非UIP病理学亚型

包括HP、NSIP、结节病、RB、细支气管炎、以及机化性肺炎(OP)。

在一些实施方案中，该测试样品是活检样品或支气管肺泡灌洗样品。在一些实施方案中，该测试样品是新鲜冷冻的或固定的。

在一些实施方案中，转录物表达水平是通过RT-PCR、DNA微阵列杂交、RNASeq、或其组合确定的。在一些实施方案中，将转录物中的一种或多种进行标记。

在一些实施方案中，该方法包括检测从该测试样品中表达的RNA产生的cDNA，其中任选地，在该检测步骤之前将该cDNA从多种cDNA转录物扩增。

在一些实施方案中，本发明的方法进一步包括测量该测试样品中至少一种对照核酸的表达水平。

在一些实施方案中，本发明的方法将肺组织分类为间质性肺病(ILD)、具体类型的ILD、非ILD、或非诊断性中的任一种。在具体实施方案中，本发明的方法将肺组织分类为特发性肺纤维化(IPF)或非特异性间质性肺炎(NSIP)。

在一些实施方案中，本发明的方法和/或系统包括针对SEQ ID NO:1-22中任一个的一种或多种转录物的表达水平对该测试样品进行测定。在一些实施方案中，该方法进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。在一些实施方案中，该其他基因包括HMCN2、ADAMTSL1、CD79B、KEL、KLHL14、MPP2、NMNAT2、PLXDC1、CAPN9、TALDO1、PLK4、IGHV3-72、IGKV1-9、和CNTN4中的一种或多种或者任选地全部。

在一些实施方案中，本发明的方法和/或系统进一步包括在于此公开的UIP与非UIP分类器的训练期间使用吸烟状况作为协变量，其中任选地，该吸烟状况是通过检测指示受试者的吸烟者状况的表达谱来确定的。在一些实施方案中，这种分类器用于确定测试样品是UIP还是非UIP。

在一些实施方案中，本发明的方法和/或系统包括训练UIP与非UIP分类器，其中在分类器训练期间，对吸烟者状况偏倚敏感的基因被排除或者与对吸烟者状况偏倚不敏感的基因相比被给予不同的权重。

在一些实施方案中，本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统，如在此所述的，其中该方法包括使用第一分类器将测试样品分为吸烟者或非吸烟者的第一分类，该第一分类器被训练为识别将吸烟者和非吸烟者区分开来的基因标记；并且其中该方法进一步包括将测试样品分为UIP或非UIP的第二分类，其中该第二分类步骤使用第二或第三分类器，该第二和第三分类器被训练为分别区分吸烟者(吸烟者特异性分类器)和非吸烟者(非吸烟者特异性分类器)中的UIP与非UIP，并且其中该第二分类使用(i)吸烟者特异性分类器，如果在第一分类中测试样品被分类为吸烟者的话，或(ii)非吸烟者特异性分类器，如果在第一分类中测试样品被分类为非吸烟者的话。

在一些实施方案中，本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统，其中该方法包括实施分类器，该分类器是使用选自以下项的一种或多种特征训练的：基因表达、变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。在一些实施方案中，该分类器是使用包含以下项的特征训练的：基因表达、序列变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。

在一些实施方案中，本发明提供了测定第一组中2种或更多种不同的转录物、或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物，和/或第二组中2种或更多种不同的转录物、或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。

在一些实施方案中，该方法提供了检测SEQ ID NO:1-22中任一个的2种或更多种不同的转录物，或SEQ ID NO:1-22中任一个的3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。在具体实施方案中，本方法提供了针对SEQ ID NO:1-22的全部转录物的表达水平对该测试样品进行测定。在一些实施方案中，该方法进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。在一些实施方案中，该方法提供了测定HMCN2、ADAMTSL1、CD79B、KEL、KLHL14、MPP2、NMNAT2、PLXDC1、CAPN9、TALDO1、PLK4、IGHV3-72、IGKV1-9、和CNTN4中的一种或多种。

附图说明

图1。对从诊断患有IPF的三名患者(患者P1、P2、和P3)获得的外植块样品的成对相关。指示了每个样品的位置(上或下，中心或外周)。将IPF样品与正常肺样品分开的前200种差异表达的基因用于计算成对皮尔逊相关系数，并且绘制为热图，其中较高的相关性以酒红色呈现，并且较低的相关性以绿色呈现。与/和正常肺样品之间的相关性是在0-7范围内(未示出)。

图2A-2D。使用微阵列数据构建的分类器的性能。ROC曲线用于通过用固定模型对样品评分来表征在使用留一患者(leave-one-patient-out，LOPO)交叉验证的训练集中的性能(图2A)以及在独立测试集中的性能(图2C)。示出训练集中跨患者的单独样品的得分(图2B)以及独立测试集中跨患者的单独样品的得分(图2D)。患者水平病理学诊断示于x轴上。具有UIP病理学标记的样品是以实心圆圈指示，而通过病理学所示的非UIP样品是以空心三角形指示。绘出水平虚线以指示对应于92％特异性和64％灵敏度的阈值(图2B)和对应于92％特异性和82％灵敏度的阈值(图2D)。

图3A-3D。使用RNASeq(图3A和图3B)和匹配集上的微阵列(图3C和图3D)构建的分类器的性能。进行留一患者(LOPO)交叉验证，并且产生针对RNASeq(图3A)和微阵列(图3C)分类器的受试者工作特征(ROC)曲线。针对训练集中单独样品的得分是针对RNASeq(图3B)和微阵列(图3D)分类而示出的。患者水平病理学诊断示于x轴上。具有UIP病理学标记的样品是以实心圆圈指示，而通过病理学所示的非UIP样品是以空心三角形指示。在图3B和图3D中相对应于95％特异性的得分阈值指示为水平线。

图4。评价错误标记对分类性能的影响的模拟研究。阵列训练集(n＝77)用于此研究。在数据集中给定百分比的变换标记(x轴)的情况下，将单独样品的分类标记以如下权重变换为另一类标记，该权重说明三种专家病理学诊断的分歧水平。使用来自100次反复模拟的LOPO CV性能(AUC)绘制每个箱形图。AUC＝0.5时的较细的水平虚线代表随机性能，即没有分类，而较粗的虚线相对应于图2A中示出的分类器性能。

图5。用两种样品(样品A和样品B)针对假设患者的中心病理学诊断过程。三名病理学专家参与审评过程。对于样品水平诊断，由每名病理学家(病理学家缩写为Path.)审评每个样品的载玻片。对于患者水平诊断，将来自所有样品(在此练习中为两种)的载玻片收集并且由每名病理学家一起审评。样品水平和患者水平诊断经历相同的审评过程。将多数票决用作最终诊断，除非病理学专家即使在商讨之后仍不一致，在这种情况下，因缺乏诊断的可信度将该样品省去。在所有库存组织(n＝128)中观察到仅一个这样的情况。

图6。来自三个正常器官供体(顶部)和三名诊断患有IPF的患者(底部)的肺取样的位置。供体N1-N3和P3是女性。供体P1和P2是男性。

图7A。可用于实施在此公开的方面的计算机系统的图示。

图7B。图7A的计算机系统的处理器的详细图示。

图7C。本发明的一种非限制性方法的详细图示，其中使用已知UIP和非UIP样品的基因产物表达数据训练分类器(例如，使用分类器训练模块)以用于区分UIP与非UIP，其中该分类器任选地考虑吸烟者状况作为协变量，并且其中将来自未知样品的基因产物表达数据输入经训练的分类器中以将未知样品鉴别为UIP或非UIP，并且其中经由该分类器进行分类的结果是经由报告定义并输出的。

图8。在吸烟者和非吸烟者之间在UIP和非UIP样品中的差异基因表达。在UIP和非UIP样品之间差异表达的基因数目在吸烟者和非吸烟者之间有显著差别。

图9。示出在UIP和非UIP样品之间的差异基因表达对于吸烟者状况偏倚是敏感的。差异基因表达的方向(即，表达过度与表达不足)和幅度(圆圈大小)被吸烟状况搞混淆。

图10A-10D。在UIP和非UIP中差异表达的基因例子和吸烟状况对表达水平的影响。图10A：在吸烟者与非吸烟者中UIP和非UIP中IGHV3-72的差异表达。图10B：在吸烟者与非吸烟者中UIP和非UIP中CPXM1的差异表达。图10C：在吸烟者与非吸烟者中UIP和非UIP中BPIFA1的差异表达。图10D：在吸烟者与非吸烟者中UIP和非UIP中HLA-U的差异表达。

定义

如在此使用的“间质性肺病”或“ILD”(也称为弥漫性实质性肺病(DPLD))是指影响间质(在肺的肺泡周围的组织和空间)的一组肺病。ILD可以根据疑似或已知原因来分类，或可以是特发性的。例如，ILD可以分类为由吸入物质(无机或有机的)引起的、药物(例如，抗生素、化学治疗药、抗心律失常药、他汀类)诱导的、与结缔组织疾病(例如，系统性硬化病、多肌炎、皮肌炎、系统性红斑狼疮、类风湿性关节炎)相关的、与肺部感染(例如，非典型性肺炎、肺孢子菌肺炎(PCP)、肺结核、沙眼衣原体、呼吸道合胞病毒)相关的、与恶性肿瘤(例如，淋巴管癌病)相关的，或者可以是特发性的(例如，结节病、特发性肺纤维化、Hamman-Rich综合征、抗合成酶综合征)。

如在此使用的“ILD炎症”是指表征为潜在炎症的炎性ILD亚型的分析分组。这些亚型可以统一用作针对IPF和/或任何其他非炎症肺病亚型的比较者。“ILD炎症”可以包括HP、NSIP、结节病和/或机化性肺炎。

“特发性间质性肺炎”或“IIP”(还称作“非感染性肺炎”)是指包括例如脱屑性间质性肺炎、非特异性间质性肺炎、淋巴样间质性肺炎、隐源性机化性肺炎、以及特发性肺纤维化的一类ILD。

如在此使用的“特发性肺纤维化”或“IPF”是指慢性的进行形式的肺病，其表征为肺部的支撑框架(间质)的纤维化。按照定义，该术语是在肺纤维化原因未知时使用(“特发性”)。通过显微镜，来自患有IPF的患者的肺组织示出称为普通型间质性肺炎(UIP)的组织学/病理学特征的特征集。

“非特异性间质性肺炎”或“NSIP”是特发性间质性肺炎的一种形式，其通常表征为由具有胶原沉积的慢性炎症细胞限定的一致或呈斑片状的细胞模式、以及由弥漫性斑片状纤维化限定的纤维化模式。与UIP相比之下，不存在表征普通型间质性肺炎的蜂窝状外观，也不存在成纤维细胞病灶。

“过敏性肺炎”或“HP”还称为外源性过敏性肺泡炎(EAA)，是指在肺内肺泡的炎症，其由吸入抗原(例如，有机粉尘)造成的过度免疫应答以及过敏性引起。

“肺结节病”或“PS”是指涉及可形成为小结的慢性炎症细胞的异常集中(肉芽肿)的综合征。HP的炎症过程通常涉及肺泡、小支气管、和小血管。在HP的急性和亚急性病例中，体格检查通常揭示干性罗音。

术语“微阵列”是指可杂交的阵列要素优选多核苷酸探针在基片上的有序安排。

当以单数或复数使用时，术语“多核苷酸”通常指代任何多核糖核苷酸或多脱氧核糖核苷酸，其可以是未修饰的RNA或DNA或者经修饰的RNA或DNA。因此，例如，如在此定义的多核苷酸包括而不限于单链和双链DNA、包含单链和双链区域的DNA、单链和双链RNA、以及包含单链和双链区域的RNA、包含DNA和RNA(可以是单链的，或更典型地双链的，或者包含单链和双链区域)的杂交分子。此外，如在此使用的术语“多核苷酸”是指包含RNA或DNA或者RNA和DNA两者的三链区域。在此类区域中的链可以来自相同分子或来自不同分子。该区域可以包括一种或多种分子的全部，但更典型地涉及一些分子的仅一个区域。具有三螺旋区域的分子之一通常是寡核苷酸。术语“多核苷酸”还可以包括含有一个或多个修饰碱基(例如，以提供可检测信号，如荧光团)的DNA(例如，cDNA)和RNA。因此，出于稳定性或其他原因而对主链进行了修饰的DNA或RNA是如该术语在此所意指的“多核苷酸”。此外，包含稀有碱基(如肌苷)或修饰碱基(如氚化碱基)的DNA或RNA包括于如在此定义的术语“多核苷酸”内。通常，术语“多核苷酸”涵盖未修饰多核苷酸的所有化学修饰、酶修饰和/或代谢修饰形式，以及病毒和细胞(包括简单细胞及复杂细胞)所特有的DNA和RNA的化学形式。

术语“寡核苷酸”是指相对短的多核苷酸(例如，100、50、20或更少个核苷酸)，包括而不限于单链脱氧核糖核苷酸、单链或双链核糖核苷酸、RNA:DNA杂交体和双链DNA。寡核苷酸(如单链DNA探针寡核苷酸)通常通过化学方法例如使用可商购的自动化寡核苷酸合成仪合成。然而，寡核苷酸可以通过多种其他方法制得，包括体外重组DNA介导的技术以及通过在细胞和有机体中表达DNA。

如在此使用的术语“基因产物”或“表达产物”可互换使用，以指代基因的RNA转录产物(RNA转录物)(包括mRNA)以及此类RNA转录物的多肽翻译产物。基因产物可以是例如多核苷酸基因表达产物(例如，未剪接的RNA、mRNA、剪接变体mRNA、microRNA、片段化RNA等)或蛋白质表达产物(例如，成熟多肽、翻译后修饰的多肽、剪接变体多肽等)。在一些实施方案中，基因表达产物可以是包含突变、融合、杂合性丢失(LOH)和/或生物途径效应的序列变体。

如应用于基因表达产物的术语“归一化的表达水平”是指相对于一种或多种参考(或对照)基因表达产物进行归一化的基因产物的水平。

如应用于基因表达产物的“参考表达水平”是指一种或多种参考(或对照)基因表达产物的表达水平。如应用于基因表达产物的“参考归一化的表达水平”是指一种或多种参考(或对照)基因表达产物的归一化的表达水平值(即，归一化的参考表达水平)。在一些实施方案中，参考表达水平是在如在此所述的正常样品中的一种或多种基因产物的表达水平。在一些实施方案中，参考表达水平是经实验确定的。在一些实施方案中，参考表达水平是历史表达水平，例如正常样品中的参考表达水平的数据库值，该样品指示单个参考表达水平或多个参考表达水平的总结(比如例如，(i)来自单个样品的参考表达水平的重复分析的两个或更多个、优选三个或更多个参考表达水平的平均值；(ii)来自多个不同样品(例如，正常样品)的参考表达水平的分析的两个或更多个、优选三个或更多个参考表达水平的平均值；(iii)以及上述步骤(i)和(ii)的组合(即，从多个样品分析的参考表达水平的平均值，其中参考表达水平中的至少一个被重复分析)。在一些实施方案中，“参考表达水平”是例如在已经通过其他方式(即，确证的病理学诊断)决定性地确定为UIP或非UIP的样品中序列变体的表达水平。

如应用于基因表达产物的“参考表达水平值”是指一种或多种参考(或对照)基因表达产物的表达水平值。如应用于基因表达产物的“参考归一化的表达水平值”是指一种或多种参考(或对照)基因表达产物的归一化的表达水平值。

杂交反应的“严格性”易于由本领域普通技术人员确定，并且通常是取决于探针长度、洗涤温度和盐浓度的经验计算。通常，越长的探针需要越高的温度用于探针退火，而越短的探针需要越低的温度。当互补链存在于低于其解链温度的环境中时，杂交通常取决于变性DNA再退火的能力。探针与可杂交序列之间的所希望的同源性程度越高，可以使用的相对温度越高。因此，遵循越高的相对温度倾向于使得反应条件越严格，而越低的温度则使得反应条件越不太严格。对于杂交反应的严格性的另外细节和解释，参见Ausubel等人，Current Protocols in Molecular Biology，(Wiley Interscience,1995)。

如在此定义的“严格条件”或“高严格条件”，典型地：(1)采用低离子强度溶液和高温度用于洗涤，例如0.015M氯化钠/0.0015M柠檬酸钠/0.1％十二烷基硫酸钠，在50℃；(2)在杂交期间采用变性剂，如甲酰胺，例如50％(v/v)甲酰胺和0.1％牛血清白蛋白/0.1％聚蔗糖(Ficoll)/0.1％聚乙烯吡咯烷酮/50mM磷酸钠缓冲液(pH 6.5)和750mM氯化钠、75mM柠檬酸钠，在42℃；或(3)采用50％甲酰胺、5x SSC(0.75M NaCl，0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1％焦磷酸钠、5x Denhardt溶液、声处理的鲑鱼精DNA(50μg/ml)、0.1％SDS、和10％硫酸葡聚糖，在42℃，其中在42℃下在0.2x SSC(氯化钠/柠檬酸钠)中洗涤并在55℃下在50％甲酰胺中洗涤，随后为在55℃下由含EDTA的0.1x SSC组成的高严格洗涤。

“中严格条件”可以如Sambrook等人，Molecular Cloning:A Laboratory Manual(Cold Spring Harbor Press,1989)描述的来鉴定，并且包括使用比上述那些不太严格的洗涤溶液和杂交条件(例如，温度、离子强度和％SDS)。中严格条件的例子是在包含20％甲酰胺、5x SSC(150mM NaCl、15mM柠檬酸三钠)、50mM磷酸钠(pH 7.6)、5x Denhardt溶液、10％硫酸葡聚糖、以及20mg/ml变性剪切鲑鱼精DNA的溶液中在37℃下过夜孵育，随后在1xSSC中在约37℃-50℃洗涤过滤器。技术人员应在必要时认识到如何调节温度、离子强度等，以适应如探针长度等因素。

如在此使用的“灵敏度”是指占测试总数目的确实患有目标病症的真阳性比例(即，具有阳性测试结果的患有目标病症的患者的比例)。如在此使用的“特异性”是指占全部测试患者的确实不患有目标病症的真阴性比例(即，具有阴性测试结果的不患有目标病症的患者的比例)。

在本发明的背景下，列于任何具体基因集中的基因中的“至少一个”、“至少两个”、“至少五个”等的提及意指所列基因中的任何一个或者任何和全部组合。

术语“剪接”和“RNA剪接”可互换使用，并且是指将内含子去除并将外显子连接以产生成熟mRNA的RNA加工，该成熟mRNA具有移动进入真核细胞的细胞质中的连续编码序列。

术语“外显子”是指在成熟RNA产物中呈现的间断基因的任何区段(B.Lewin,Genes7V(Cell Press,1990))。在理论上，“内含子”是指被转录但在转录物内通过将其两侧的外显子剪接在一起而去除的任何DNA区段。可操作地，外显子序列存在于如由参考SEQ ID号所限定的基因的mRNA序列中。可操作地，内含子序列是在基因的基因组DNA内的间插序列，由外显子围绕，并且通常在其5'和3'边界处具有GT和AG剪接共有序列。

“基于计算机的系统”是指具有用于分析信息的硬件、软件、和数据存储介质的系统。患者基于计算机的系统的硬件可以包括中央处理单元(CPU)，以及用于数据输入、数据输出(例如，显示)和数据存储的硬件。数据存储介质可以包括含有如上所述的当前信息的记录的任何产品，或可以访问这种产品的内存访问设备。

如在此使用的，术语“模块”是指可包括例如存储器、处理器、电迹线、光连接器、软件(在硬件中执行)和/或其他的任何组件和/或可操作联接的电子部件集。例如，在处理器中执行的模块可以是基于硬件的模块(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理器(DSP))和/或基于软件的模块(例如，在存储器中存储的和/或在处理器处执行的计算机代码的模块)的任何组合，所述模块能够执行与该模块相关的一种或多种特定功能。

“记录”计算机可读介质上的数据、编程或其他信息是指使用本领域中已知的任何此类方法存储信息的过程。基于用于访问存储的信息的器件，可以选择任何方便的数据存储结构。多种数据处理器程序和格式可以用于存储，例如文字处理文本文件、数据库格式等。

“处理器”或“计算装置”引用将执行其所需功能的任何硬件和/或软件组合。例如，适合的处理器可以是可编程数字微处理器，如按以下形式可用：电子控制器、大型机、服务器或个人计算机(台式机或便携式计算机)。在处理器是可编程的情况下，适合的编程可以从远端位置传递至该处理器，或预先保存在计算机程序产品(如便携式或固定式计算机可读存储介质，无论是基于磁性的、光学的还是固态的设备)中。例如，磁性介质或光盘可以携带编程，并且可以由与每个处理器通讯的适合的读者在其相应站点处读取。

“测试样品”是一种或多种细胞的样品，优选获得自受试者的组织样品(例如，肺组织样品，如经支气管活检(TBB)样品)。在一些实施方案中，测试样品是通过本领域中已知的任何方式获得的活检样品。在具体实施方案中，测试样品是通过电视辅助胸腔镜手术(VATS)；支气管肺泡灌洗(BAL)；经支气管活检(TBB)；或冷冻经支气管活检获得的样品。在一些实施方案中，测试样品是基于患者呈现的临床体征和症状(例如，呼吸短促(通常由用力而恶化)、干咳)以及任选地成像测试(例如，胸部X射线、计算机断层摄影术(CT)、肺功能测试(例如，肺活量测定、血氧定量法、运动负荷试验)、肺组织分析(例如，通过支气管镜检、支气管肺泡灌洗、外科活检获得的样品的组织学和/或细胞学分析)中的一种或多种的结果，获得自疑似患有肺病(例如，ILD)的患者。

“基因标记”是指示一些特征或表型的基因表达模式(即，一种或多种基因或其片段的表达水平)。在一些实施方案中，基因标记是指一种基因、多种基因、一种基因的一个片段或一种或多种基因的多个片段的表达(和/或缺乏表达)，所述表达和/或缺乏表达指示UIP、非UIP、吸烟者状况或非吸烟者状况。

如在此使用的，“是吸烟者”意为指代当前抽香烟的受试者、或曾在过去抽香烟的人、或具有当前抽香烟或曾在过去抽香烟的人的基因标记的人。

如在此使用的，当用于描述在训练本发明的分类器期间使用的特征时，“变体”是指选择性剪接变体。

如在此使用的，当用于描述在训练本发明的分类器期间使用的特征时，“突变”是指相对于已知正常参考序列的序列偏差。在一些实施方案中，该偏差是相对于根据公共可访问数据库所认可的原始基因序列的偏差，该公共可访问数据库是如UniGene数据库(Pontius JU,Wagner L,Schuler GD.UniGene:a unified view of thetranscriptome.In:The NCBI Handbook.Bethesda(MD):National Center forBiotechnology Information；2003，结合在此)，RefSeq(The NCBI handbook[Internet].Bethesda(MD):National Library of Medicine(US),National Center forBiotechnology Information；2002年10月，第18章，The Reference Sequence(RefSeq)Project，可在万维网地址获得：ncbi.nlm.nih.gov/refseq/)，Ensembl(EMBL，可在万维网地址获得：ensembl.org/index.html)等。在一些实施方案中，突变包括参考序列中存在的序列残基的添加、缺失、或取代。

缩写包括：HRCT，高分辨率计算机断层摄影术；VATS，电视辅助胸腔镜手术；SLB，外科肺活检；TBB，经支气管活检；RB，呼吸性细支气管炎；OP，机化性肺炎；DAD，弥漫性肺泡损伤；CIF/NOC，未以其他方式分类的慢性间质性纤维化；MDT，多学科综合小组；CV，交叉验证；LOPO，留一患者；ROC，受试者工作特征；AUC，曲线下面积；RNASeq，通过下一代测序技术进行的RNA测序；NGS，下一代测序技术；H&E，苏木精和伊红；FDR，错误发现率；IRB，机构审查委员会；ATS，美国胸腔学会；COPD，慢性阻塞性肺病；KEGG，京都基因与基因组百科全书；CI，置信区间

在提供了一系列值时，应当理解的是每个中间值，到下限的第十个单位(除非上下文清晰地另外指示)，该范围的上限与下限之间以及任何其他陈述的或在该陈述范围内的中间值均被涵盖在本发明之内。这些更小范围的上限和下限可以独立地被包括在更小范围之内，并且也被涵盖在本发明之内，服从于在所陈述范围内任何确切排除的限制。在所陈述的范围包括一个或两个限制时，排除了那些被包括的限制的任一个或两者的范围也被包括在本发明之内。如在此使用的，“约”意指所指值的±10％。

发明详述

在此公开了用于使用分子标记来区分UIP和其他ILD亚型的方法和/或系统。对来自样品的UIP的准确诊断(其中病理学专家是不可用的)是通过加速诊断而站在有益于ILD患者的立场，由此有助于治疗决策并降低患者手术风险和医疗系统的成本。

还在此公开了用于使用受试者的吸烟者或非吸烟者状况以改进使用分子标记区分UIP与其他ILD亚型的方法和/或系统。

因此，在此公开的方法和/或系统提供了可以在不具有临床或人口统计学信息的先前了解的情况下基于高维转录数据区分UIP和非UIP模式的分类器。

在一些实施方案中，本发明提供了用于使用分类器区分UIP和非UIP的方法，该分类器包括或其组成为呈现于表5、7、8、9、10、11、或12任一个中的一个或多个序列或其片段或者来自表5、7、8、9、10、11和12每一个的至少一个序列或其片段。在一些实施方案中，本发明提供了使用分类器的此类方法，该分类器包括或其组成为在表5、7、8、9、10、11和12的任何一个或多个或者全部中提供的序列的至少1、2、3、4、5、6、7、8、9、10个或更多个。例如，在一些实施方案中，本发明提供了使用分类器的此类方法，该分类器包括或其组成为在表5、7、8、9、10、11和12的任何一个或多个或者全部中提供的至少11、12、13、14、15、20、30、50、100、150、200、250、300个、或更多个序列，包括所有的整数(例如，16、17、18、19、21、22、23、24、25个序列等)和其间的范围(例如，来自表5、7、8、9、10、11、和12的任何一个或多个或者全部的约1-10个序列，约10-15个序列、10-20个序列、5-30个序列、5-50个序列、10-100个序列、50-200个序列等)。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列或其片段中的一个或多个：1)HLA-F(SEQ IDNO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ IDNO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。

在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或21个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ IDNO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)，处于任何组合。在具体方面中，这种分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。

在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列中的全部：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ IDNO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列或其片段中的一个或多个：1)HLA-F(SEQ IDNO.:1)、2)HMCN2、3)ADAMTSL1、4)CD79B、5)KEL、6)KLHL14、7)MPP2、8)NMNAT2、9)PLXDC1、10)CAPN9、11)TALDO1、12)PLK4、13)IGHV3-72、14)IGKV1-9、以及15)CNTN4。在具体方面中，该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。

在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列中的2、3、4、5、6、7、8、9、10、11、12、13、或14个：1)HLA-F(SEQ ID NO.:1)、2)HMCN2、3)ADAMTSL1、4)CD79B、5)KEL、6)KLHL14、7)MPP2、8)NMNAT2、9)PLXDC1、10)CAPN9、11)TALDO1、12)PLK4、13)IGHV3-72、14)IGKV1-9、以及15)CNTN4。在具体方面中，该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。

在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列：1)HLA-F(SEQ ID NO.:1)、2)HMCN2、3)ADAMTSL1、4)CD79B、5)KEL、6)KLHL14、7)MPP2、8)NMNAT2、9)PLXDC1、10)CAPN9、11)TALDO1、12)PLK4、13)IGHV3-72、14)IGKV1-9、以及15)CNTN4。在具体方面中，该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为HLA-F(SEQ ID NO.:1)或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括1)HLA-F(SEQ ID NO.:1)以及以下项中的至少一个：2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为HMCN2或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括HMCN2以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为ADAMTSL1或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括ADAMTSL1以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为CD79B或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括CD79B以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为KEL或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括KEL以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ IDNO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为KLHL14或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括KLHL14以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为MPP2或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括MPP2以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ IDNO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为NMNAT2或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括NMNAT2以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为PLXDC1或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括PLXDC1以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为CAPN9或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括CAPN9以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为TALDO1或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括TALDO1以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为PLK4或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括PLK4以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ IDNO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为IGHV3-72或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括IGHV3-72以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为IGKV1-9或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括IGKV1-9以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些具体实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为CNTN4或其片段。在一个这样的实施方案中，该方法使用分类器，该分类器包括CNTN4以及以下项中的至少一个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。

在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、或35个：1)HLA-F(SEQ IDNO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ IDNO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、22)DES(SEQ ID NO.:22)、23)HMCN2、24)ADAMTSL1、25)CD79B、26)KEL、27)KLHL14、28)MPP2、29)NMNAT2、30)PLXDC1、31)CAPN9、32)TALDO1、33)PLK4、34)IGHV3-72、35)IGKV1-9、以及36)CNTN4。在具体方面中，该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。

在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，该分类器包括或其组成为以下序列中的全部：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ IDNO.:21)、22)DES(SEQ ID NO.:22)、23)HMCN2、24)ADAMTSL1、25)CD79B、26)KEL、27)KLHL14、28)MPP2、29)NMNAT2、30)PLXDC1、31)CAPN9、32)TALDO1、33)PLK4、34)IGHV3-72、35)IGKV1-9、以及36)CNTN4。在具体方面中，该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中，该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。在一些实施方案中，本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统，其中该方法进一步包括实施将受试者分类为吸烟者或非吸烟者的分类器。这种吸烟者状况分类可以任选地在实施UIP与非UIP分类器之前实施，或者吸烟者状况分类步骤可以作为在训练(例如，使用分类器训练模块)本发明的UIP与非UIP分类器期间使用的协变量构建于其中。

在一些实施方案中，可替代地或另外地，用于使用在此描述的分类器区分UIP与非UIP的方法和/或系统进一步包括在训练(例如，使用分类器训练模块)或实施UIP与非UIP分类器期间排除对吸烟者状况偏倚敏感的某些基因或其变体或将不等权重赋予至对吸烟者状况偏倚敏感的某些基因或其变体的步骤。如在此使用的，“吸烟者状况偏倚”是指在非吸烟者患者中差异表达于UIP与非UIP患者中的但在作为(或曾经作为)吸烟者的UIP与非UIP患者中不可检测到差异表达的基因或其变体。

在一些实施方案中，本发明的方法和/或系统包括分层分类器，该分层分类器包括至少第一分类器和第二分类器，其中该第一分类器被训练(例如，使用分类器训练模块)为识别区分吸烟者与非吸烟者的基因标记，并且第二分类器被训练(例如，使用分类器训练模块)为对应地区分吸烟者或非吸烟者中的UIP与非UIP。

在一些实施方案中，本发明的方法和/或系统包括：

从测试样品(例如，肺组织)提取核酸(例如，RNA，如例如总RNA)；扩增该核酸以产生表达的核酸文库(例如，经由聚合酶链式反应介导的cDNA(任选地标记的cDNA)扩增，所述cDNA可以通过逆转录(RT-PCR)产生自一种或多种RNA样品)；

经由阵列(例如，微阵列)或经由直接测序(例如，RNAseq)来检测该核酸文库中存在的一种或多种核酸的表达(例如，通过测量经由RT-PCR产生的cDNA种类来检测RNA表达谱)；并且

使用在此描述的经训练的分类器确定该测试样品是UIP还是非UIP。

在一些实施方案中，本发明的方法和/或系统进一步包括将吸烟者状况并入训练练习中。在某些实施方案中，任选地将吸烟者状况按以下方式之一并入：

(i)在训练(例如，使用分类器训练模块)期间在UIP或非UIP分类器中，通过使用吸烟状况作为协变量。

(ii)在UIP或非UIP分类器训练(例如，使用分类器训练模块)期间，通过鉴定对吸烟者状况偏倚敏感的多个基因，并且排除此类基因，或任选地对此类基因给予与对这种偏倚不敏感的基因相比不同的权重。

(iii)通过构建分层分类，其中使用被训练(例如，使用分类器训练模块)为识别区分吸烟者与非吸烟者的基因标记的起始分类器来基于测试样品的基因标记将该测试样品预分类为“吸烟者”或“非吸烟者”；并且然后，在预分类之后，实施被训练(例如，使用分类器训练模块)为区分吸烟者或非吸烟者中的UIP与非UIP的不同分类器。例如，如果预分类器确定了测试样品来自吸烟者，则使用经过来自吸烟者的UIP和非UIP样品训练(例如，使用分类器训练模块)的分类器进行UIP与非UIP分类。相反，如果预分类器确定了测试样品来自非吸烟者，则使用经过来自非吸烟者的UIP和非UIP样品训练(例如，使用分类器训练模块)的分类器进行UIP与非UIP分类。在一些实施方案中，此类吸烟者或非吸烟者特异性分类器提供了改进的诊断性能，至少部分地是由于在分类器训练中降低了由包含对吸烟者状况偏倚敏感的基因所导致的背景噪音。

因此，本发明还提供了用于在如在此公开的区分UIP与非UIP的方法中使用的适合的分类器。在不同的实施方案中，本发明提供了适合用于区分UIP和非UIP的分类器，其中使用来自与病理学专家确定的一种或多种组织病理学标记相对应的样品的微阵列或测序数据训练(例如，使用分类器训练模块)该分类器。在一些实施方案中，该样品为标记的UIP或非UIP。

在一些实施方案中，本发明呈现了分类器，该分类器包括或其组成为呈现于表5、7、8、9、10、11、或12任一个中的一个或多个序列或其片段或者来自表5、7、8、9、10、11或12每一个的至少一个序列或其片段。在一些实施方案中，本发明提供了分类器，该分类器包括或其组成为在表5、7、8、9、10、11和12的任何一个或多个或者全部中提供的序列的至少1、2、3、4、5、6、7、8、9、10个或更多个。例如，在一些实施方案中，本发明提供了分类器，该分类器包括或其组成为在表5、7、8、9、10、11、或12的任何一个或多个或者全部中提供的至少11、12、13、14、15、20、30、50、100、150、200、250、300个、或更多个序列，包括所有的整数(例如，16、17、18、19、21、22、23、24、25个序列等)和其间的范围(例如，来自表5、7、8、9、10、11、或12的任何一个或多个或者全部的约1-10个序列，来自表5、7、8、9、10、11、或12的任何一个或多个或者全部的约10-15个序列、10-20个序列、5-30个序列、5-50个序列、10-100个序列、50-200个序列等)。在一个实施方案中，本发明提供了分类器，该分类器包括或其组成为：在表5中提供的全部序列、在表7中提供的全部序列、在表8中提供的全部序列、在表9中提供的全部序列、在表10中提供的全部序列、在表11中提供的全部序列、或在表12中提供的全部序列。在一个实施方案中，本发明提供了分类器，该分类器包括或其组成为：表5、7、8、9、10、11、或12每一个中提供的全部序列。

在一些具体实施方案中，本发明提供了用于区分UIP与非UIP的分类器，其中该分类器包括或其组成为以下序列或其片段中的一个或多个：1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在一个实施方案中，该分类器包括上述序列中的全部22个或由其组成。在一些实施方案中，本发明提供了用于区分UIP与非UIP的分类器，其中该分类器包括或其组成为上述22个序列中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或21个。在具体方面中，该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因或其片段。在其他方面中，该分类器省略上述22个序列中的1、2、3、4、5、6、7、8个、或更多个，同时任选地包括其他基因。在其他方面中，该22个基因中的每一个都可以与其他基因中的任何1个或多个、高达20多个相组合使用。

组织样品

用于在受试者分析或诊断方法中使用的肺组织样品可以是活检样品(例如，通过电视辅助胸腔镜手术获得的活检样品；VATS)；支气管肺泡灌洗(BAL)样品；经支气管活检；冷冻经支气管活检；等等。用于分析的肺组织样品可以提供于适合的保存溶液中。

组织样品可以基于患者呈现的临床体征和症状(例如，呼吸短促(通常由用力而恶化)、干咳)以及任选地成像测试(例如，胸部X射线、计算机断层摄影术(CT))、肺功能测试(例如，肺活量测定、血氧定量法、运动负荷试验)、肺组织分析(例如，通过支气管镜检、支气管肺泡灌洗、外科活检获得的样品的组织学和/或细胞学分析)中的一种或多种的结果，获得自疑似患有肺病(例如，ILD)的患者。

肺组织样品可以按多种方式中的任一种来处理。例如，可以使肺组织样品经受细胞裂解。肺组织样品可以保存在RNA保护溶液(抑制RNA降解例如抑制RNA核酸酶消化的溶液)中并且随后经受细胞裂解。可以将组分如核酸和/或蛋白质富集或分离自肺组织样品，并且可以将富集或分离的组分用于主题方法中。富集并分离组分如核酸和蛋白质的方法在本领域中是已知的；并且可以使用任何已知的方法。分离用于表达分析的RNA的方法已经描述于本领域中。

确定表达产物水平的体外方法

用以评价组别(panel)的表达的另外的方法进一步证实在UIP与非UIP分类中观察到的基因组信号在不同的生物化学测定和检测方法中是稳固的。确切地，本文生成组群子集的RNASeq数据，并且在CV下评估性能。与匹配阵列数据的性能比较证实使用RNASeq数据的分类实现了与产生自微阵列平台的数据相似的性能。

用于确定基因表达产物水平的一般方法对于本领域而言是已知的，并且可以包括但不限于以下项中的一种或多种：另外的细胞学测定、针对特定蛋白质或酶活性的测定、针对特定表达产物(包括蛋白质或RNA或特定RNA剪接变体)的测定、原位杂交、全基因组或部分基因组表达分析、微阵列杂交测定、基因表达系列分析(SAGE)、酶联免疫吸附测定、质谱、免疫组织化学、印迹、测序、RNA测序、DNA测序(例如，获得自RNA的cDNA的测序)；下一代测序、纳米孔测序、焦磷酸测序、或Nanostring测序。例如，基因表达产物水平可以根据Kim等人(Lancet Respir Med.2015Jun；3(6):473-82，以其全文结合在此，包括所有补充内容)中描述的方法来确定。如在此使用的，术语“测定”或“检测”或“确定”在提及确定基因表达产物水平时可互换使用，并且在每种情况下，应考虑到确定基因表达产物水平的上述方法适合用于检测或测定基因表达产物水平。基因表达产物水平可以针对内标如特定基因的总mRNA或表达水平归一化，该特定基因包括但不限于3-磷酸甘油醛脱氢酶或微管蛋白。

在不同的实施方案中，样品包括从组织样品(例如，肺组织样品，如TBB样品)收获的细胞。可以使用本领域中已知的或在此公开的标准技术从样品收获细胞。例如，在一个实施方案中，通过离心细胞样品并重悬浮沉淀的细胞来收获细胞。可以将细胞重悬浮于缓冲溶液如磷酸盐缓冲盐水(PBS)中。在将细胞悬浮液离心以获得细胞沉淀后，将细胞裂解以提取核酸，例如信使RNA。所有获得自受试者的样品，包括经受任何种类的进一步处理的那些，均应认为是获得自该受试者。

在一个实施方案中，在如在此所述的进行基因表达产物的检测之前将该样品进行进一步处理。例如，在细胞或组织样品中的mRNA可以与该样品的其他组分分开。可以将样品浓缩和/或纯化以分离处于其非天然状态的mRNA，因为mRNA不是处于其天然环境中。例如，研究已经指示体内mRNA的高级结构不同于相同序列的体外结构(参见例如，Rouskin etal.(2014).Nature 505,pp.701-705，出于所有目的将其以其全文结合在此)。

在一个实施方案中，来自样品的mRNA与合成DNA探针杂交，该探针在一些实施方案中包括检测部分(例如，可检测标记、捕获序列、条形码报告序列)。因此，在这些实施方案中，非天然mRNA-cDNA复合物被最终制得并用于基因表达产物的检测。在另一个实施方案中，将来自样品的mRNA直接用可检测标记例如荧光团标记。在另外的实施方案中，非天然标记的mRNA分子杂交至cDNA探针，并且检测复合物。

在一个实施方案中，一旦从样品获得mRNA，则将其在杂交反应中转化为互补DNA(cDNA)，或者与一种或多种cDNA探针一起用于杂交反应中。cDNA在体内不存在，并且因此是非天然分子。另外，cDNA-mRNA杂交体是合成的并且在体内不存在。除了cDNA在体内不存在之外，cDNA必然不同于mRNA，因为它包括脱氧核糖核酸而不包括核糖核酸。然后例如通过聚合酶链式反应(PCR)或本领域普通技术人员已知的其他扩增方法将cDNA扩增。例如，可以采用的其他扩增方法包括连接酶链式反应(LCR)(Wu and Wallace,Genomics,4:560(1989),Landegren et al.,Science,241:1077(1988)，出于所有目的通过引用以其全文结合)、转录扩增(Kwoh et al.,Proc.Natl.Acad.Sci.USA,86:1173(1989)，出于所有目的通过引用以其全文结合)、自持序列复制(Guatelli et al.,Proc.Nat.Acad.Sci.USA,87:1874(1990)，出于所有目的通过引用以其全文结合)，出于所有目的通过引用以其全文结合，以及基于核酸的序列扩增(NASBA)。用于选择PCR扩增引物的指南对于本领域普通技术人员而言是已知的。参见例如，McPherson et al.,PCR Basics:From Background to Bench,Springer-Verlag,2000，出于所有目的通过引用以其全文结合。这种扩增反应的产物即经扩增的cDNA必然也是非天然产物。首先，如上所述，cDNA是非天然分子。其次，在PCR的情况下，扩增过程用于针对起始材料的每个单独cDNA分子产生数以亿计的cDNA拷贝。生成的拷贝的数目与体内存在的mRNA的拷贝数目相差甚远。

在一个实施方案中，将cDNA用将另外的DNA序列(例如，衔接子、报告子、捕获序列或部分、条形码)引入到片段上的引物(例如，使用衔接子特异性引物)扩增，或者将mRNA或cDNA基因表达产物序列与包含该另外的序列(例如，衔接子、报告子、捕获序列或部分、条形码)的cDNA探针直接杂交。因此扩增和/或mRNA与cDNA探针的杂交用于通过引入另外的序列并形成非天然杂交体而从非天然单链cDNA或mRNA产生非天然双链分子。另外，如本领域普通技术人员已知的，扩增程序具有与其相关的错误率。因此，扩增将另外的修饰引入cDNA分子中。在一个实施方案中，在用衔接子特异性引物进行扩增期间，可检测标记例如荧光团被添加至单链cDNA分子上。因此，扩增还用于产生天然不存在的DNA复合物，至少因为(i)cDNA不在体内存在，(i)衔接子序列被添加至cDNA分子的末端以得到体内不存在的DNA序列，(ii)与扩增相关的错误率进一步产生体内不存在的DNA序列，(iii)与天然存在的相比cDNA分子的不同的结构，以及(iv)可检测标记化学添加至cDNA分子。

在一些实施方案中，感兴趣基因表达产物的表达是通过检测非天然cDNA分子而在核酸水平上检测的。

在此描述的基因表达产物包括含有任何感兴趣核酸序列的全部或部分序列的RNA，或其在逆转录反应中体外合成获得的非天然cDNA产物。术语“片段”旨在指代通常包括至少10、15、20、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、800、900、1,000、1,200、或1,500个连续核苷酸或高达存在于在此公开的全长基因表达产物多核苷酸中的核苷酸数目的多核苷酸的一部分。基因表达产物多核苷酸的片段将通常编码至少15、25、30、50、100、150、200、或250个连续氨基酸，或高达存在于本发明的全长基因表达产物蛋白中的氨基酸的总数。

在某些实施方案中，基因表达谱可以通过全转录组鸟枪法测序(“WTSS”或“RNAseq”；参见例如，Ryan et al BioTechniques 45:81-94)获得，该方法使用高通量测序技术来对cDNA测序以便获悉关于样品RNA含量的信息。一般而言，cDNA制得自RNA，将cDNA扩增，并且对扩增产物进行测序。

在扩增之后，可以使用任何便利方法对cDNA进行测序。例如，可以使用亿明达(Illumina)的可逆终止子方法、罗氏(Roche)的焦磷酸测序方法(454)、生命技术(LifeTechnologies)的通过连接测序(SOLiD平台)或生命技术的离子激流平台(Ion Torrentplatform)对片段进行测序。此类方法的例子描述于以下参考文献中：Margulies等人(Nature 2005 437:376-80)；Ronaghi等人(Analytical Biochemistry 1996 242:84-9)；Shendure(Science 2005309:1728)；Imelfort等人(Brief Bioinform.2009 10:609-18)；Fox等人(Methods Mol Biol.2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)和Morozova(Genomics.2008 92:255-64)，将它们通过引用方法和方法的具体步骤(包括每个步骤的起始产物、试剂和最终产物)的总体描述而结合。如应清楚的，可以在扩增步骤期间将与所选择的下一代测序平台相容的正向和反向测序引物位点添加至片段的末端。

在其他实施方案中，可以使用纳米孔测序对产物进行测序(例如，如Soni et alClin Chem 53:1996-2001 2007中所述，或如由牛津纳米孔技术公司(Oxford NanoporeTechnologies)所述)。纳米孔测序是单分子测序技术，借此将单分子DNA在其通过纳米孔时直接进行测序。纳米孔是直径为1纳米级的小孔。将纳米孔浸入传导流体中并将电势(电压)施加在纳米孔上产生了因离子通过纳米孔的传导而致的轻微电流。流动的电流量对于纳米孔的大小和形状是敏感的。在DNA分子通过纳米孔时，在DNA分子上的每个核苷酸以不同程度阻塞纳米孔，从而以不同程度改变通过纳米孔的电流的幅值。因此，在DNA分子通过纳米孔时电流的这种改变呈现DNA序列的读取。如美国专利号5,795,782、6,015,714、6,627,067、7,238,485和7,258,838和美国专利申请公开案US 2006003171和US 20090029477中披露的纳米孔测序技术。

在一些实施方案中，主题方法的基因表达产物是蛋白质，并且使用从获得自样品组群的蛋白质数据得出的分类器对在具体生物样品中的蛋白质的量进行分析。蛋白质的量可以通过以下项中的一种或多种确定：酶联免疫吸附测定(ELISA)、质谱、印迹、或免疫组织化学。

在一些实施方案中，基因表达产物标记物和选择性剪接标记物可以通过使用例如昂飞(Affymetrix)阵列、cDNA微阵列、寡核苷酸微阵列、点样微阵列、或来自伯乐(Biorad)、安捷伦(Agilent)、或埃普多夫(Eppendorf)的其他微阵列产品的微阵列分析来确定。微阵列提供了特定优势，因为它们可以包含可在单一实验中测定的大量的基因或选择性剪接变体。在一些情况下，微阵列设备可以包含完整的人类基因组或转录组或其实质部分，从而允许基因表达模式、基因组序列或选择性剪接的综合评估。标记物可以使用标准分子生物学和微阵列分析技术发现，如在Sambrook Molecular Cloning a Laboratory Manual 2001以及Baldi,P.,and Hatfield,W.G.,DNA Microarrays and Gene Expression 2002中所述。

微阵列分析通常以使用本领域已知的方法提取并纯化来自生物样品(例如活检或细针抽出物)的核酸开始。对于表达和选择性剪接分析，有利的是从DNA提取和/或纯化RNA。可另外有利的是从其他形式的RNA如tRNA和rRNA提取和/或纯化niRNA。

可以将经纯化的核酸进一步用荧光标记、放射性核素、或化学标记(如生物素、异羟基洋地黄毒苷、或地高辛)，例如通过逆转录、聚合酶链式反应(PCR)、连接、化学反应或其他技术来标记。标记可以是直接的或间接的，其可进一步需要偶联阶段。偶联阶段可以在杂交之前发生，例如使用氨基烯丙基-UTP和NHS氨基反应性染料(像花青染料)，或者在例如使用生物素和标记的链霉亲和素之后。在一个例子中，将修饰的核苷酸(例如以1个aaUTP:4个TTP比率)经酶法以比正常核苷酸低的速率添加，从而通常在每60个碱基中产生1个修饰的核苷酸(用分光光度计测量)。可以然后将aaDNA用例如柱或渗滤设备纯化。氨基烯丙基基团是在附接到核碱基上的长接头上的胺基，该基团与反应性标记(例如荧光染料)反应。

可以然后将经标记的样品与杂交溶液混合，该杂交溶液可以包含十二烷基硫酸钠(SDS)、SSC、硫酸葡聚糖、阻断剂(如COT1DNA、鲑鱼精DNA、小牛胸腺DNA、PolyA或PolyT)、Denhardt溶液、甲醛胺、或其组合。

杂交探针是具有可变长度的DNA或RNA片段，其用于检测DNA或RNA样品中与探针中的序列互补的核苷酸序列(DNA靶标)的存在。由此探针与其碱基序列允许因探针与靶标之间的互补性进行探针-靶标碱基配对的单链核酸(DNA或RNA)杂交。将经标记的探针首先变性(通过加热或在碱性条件下)为单一DNA链，并且然后与靶标DNA杂交。

为了检测探针与其靶标序列的杂交，将该探针用分子标记物作标签(或标记)。常用的标记物是32P或异羟基洋地黄毒苷(它是基于非放射性抗体的标记物)。然后通过经由放射自显影或其他成像技术使得杂交探针可视化来检测与探针具有中到高序列互补性(例如至少70％、80％、90％、95％、96％、97％、98％、99％、或更高互补性)的DNA序列或RNA转录物。具有中或高互补性的序列的检测取决于应用的杂交条件有多严格；高严格性，如高杂交温度和杂交缓冲液中的低盐，仅允许高度相似的核酸序列之间的杂交，而低严格性，如较低的温度和高盐，允许序列不太相似时的杂交。在DNA微阵列中使用的杂交探针是指共价附接至惰性表面的并且与移动的cDNA靶标杂交的DNA，该惰性表面是如包被的载玻片或基因芯片。

可以将包含有待与阵列上的探针杂交的靶标核酸的混合物通过热或化学方式变性并且添加至微阵列中的端口。可以然后将孔密封，并且使微阵列例如在杂交箱(在其中微阵列通过旋转混合)中或在混合器中杂交。在过夜杂交之后，可以将非特异性结合洗掉(例如用SDS和SSC)。可以然后将微阵列干燥并在机器中进行扫描，该机器包括激发染料的激光器和测量染料发射的检测器。可以将图像用模板网格覆盖，并且可以对特征(例如包含若干像素的特征)的强度进行定量。

可以将不同试剂盒用于主题方法的核酸扩增和探针产生。可以用于本发明中的试剂盒的例子包括但不限于Nugen WT-Ovation FFPE试剂盒、具有Nugen外显子模块和Frag/Label模块的cDNA扩增试剂盒。NuGEN WT-Ovation^TM.FFPE系统V2是使得能够对得自FFPE样品的小降解RNA的巨大库进行全基因表达分析的全转录组扩增系统。该系统由少至50ng的总FFPE RNA扩增所需的试剂和方案构成。可以将该方案用于qPCR、样品归档、片段化、以及标记。可以将经扩增的cDNA片段化并在少于两小时内标记以用于使用NuGEN's FL-Ovation^TM.cDNA生物素模块V2的GeneChip^TM3'表达阵列分析。对于使用昂飞GeneChip^TM.外显子和基因ST测定的分析，可以将经扩增的cDNA用于WT-Ovation外显子模块，然后片段化并使用FL-Ovation^TM.cDNA生物素模块V2进行标记。对于在安捷伦阵列上的分析，可以将经扩增的cDNA片段化，并且使用NuGEN's FL-Ovation^TM.cDNA荧光模块进行标记。

在一些实施方案中，可以使用Ambion WT-表达试剂盒。Ambion WT-表达试剂盒允许总RNA直接扩增，而不用单独的核糖体RNA(rRNA)消耗步骤。在用Ambion^TMWT表达试剂盒时，可以在Affymetrix^TM.GeneChip^TM人类、小鼠、和大鼠外显子和基因1.0ST阵列上分析小至50ng的总RNA的样品。除了较低的输入RNA要求以及Affymetrix^TM方法与TaqMan^TM实时PCR数据之间的高一致性之外，Ambion^TM.WT表达试剂盒还提供了灵敏度的显著提高。例如，因增加的信噪比，可以使用Ambion^TM.WT表达试剂盒在外显子水平获得在背景之上检测到的更大量的探针集。Ambion^TM-表达试剂盒可以与另外的昂飞标记试剂盒组合使用。在一些实施方案中，可以在主题方法中使用AmpTec三核苷酸纳米mRNA扩增试剂盒(6299-A15)。ExpressArt^TM三核苷酸mRNA扩增纳米试剂盒适合用于宽范围的从1ng至700ng的输入总RNA。根据输入总RNA的量和所需的aRNA产量，其可用于1轮(输入＞300ng总RNA)或2轮(最小输入量1ng总RNA)，其中aRNA产量范围为＞10μg。AmpTec的专有的三核苷酸引发技术导致mRNA的优先扩增(独立于通用真核3'-poly(A)-序列)，与对rRNA的选择组合。更多关于AmpTec三核苷酸纳米mRNA扩增试剂盒的信息可以获得于www.amp-tec.com/products.htm。该试剂盒可以与cDNA转化试剂盒和昂飞标记试剂盒组合使用。

然后可以例如通过减去背景强度并且然后除以使得各通道上特征的总强度相等的强度或参考基因的强度，将原始数据归一化，并且然后可以计算所有强度的t值。更复杂的方法包括z比、loess和lowess回归以及如用于昂飞芯片的RMA(稳固的多芯片分析)。

在一些实施方案中，可以使用上述方法确定转录物表达水平，以用于训练(例如，使用分类器训练模块)分类器以区分受试者是吸烟者还是非吸烟者。在一些实施方案中，可以使用上述方法确定转录物表达水平，以用于训练(例如，使用分类器训练模块)分类器以区分受试者患有UIP还是非UIP。

数据分析

(i)样品与正常样品的比较

在一些实施方案中，对来自受试者的样品(“测试样品”)进行的分子谱分析的结果可以与已知的或疑似正常的生物样品(“正常样品”)进行比较。在一些实施方案中，正常样品是在评估下不包括或预期不包括ILD或病状的样品，或在评估下在分子谱分析测定中针对一种或多种ILD的测试呈阴性。在一些实施方案中，正常样品是不具有任何ILD或预期不具有任何ILD的正常样品，或者在分子谱分析测定中针对任何ILD的测试呈阴性的样品。正常样品可以来自与正测试的受试者不同的受试者，或来自相同的受试者。在一些情况下，正常样品是从比如例如正测试的受试者获得的肺组织样品。可以同时或在与测试样品不同的时间对正常样品进行测定。在一些实施方案中，正常样品是已知或疑似来自非吸烟者的样品。在具体实施方案中，正常样品是已经由至少两名病理学专家确证为非UIP的样品。在具体实施方案中，正常样品是已经由至少两名病理学专家确证为非IPF的样品。

对测试样品的测定的结果可以与对具有已知疾病状态(例如，正常的、受所选择ILD(例如，IPF、NSIP等)影响的吸烟者、非吸烟者)的样品的相同测定的结果进行比较。在一些情况下，对正常样品的测定的结果是来自数据库或参考。在一些情况下，对正常样品的测定的结果是本领域技术人员已知的或通常接受的值或值范围。在一些情况下，该比较是定性的。在其他情况下，该比较是定量的。在一些情况下，定性或定量比较可以涉及但不限于以下项中的一种或多种：比较荧光值、斑点强度、吸光值、化学发光信号、直方图、临界阈值、统计学显著性值、基因产物表达水平、基因产物表达水平变化、选择性外显子使用、选择性外显子使用的变化、蛋白质水平、DNA多态性、拷贝数目变化、一种或多种DNA标记物或区域的存在或不存在的指示、或核酸序列。

(ii)结果评估

在一些实施方案中，使用本领域已知的方法评估分子谱分析结果，以便将基因产物表达水平或选择性外显子使用与特定表型如具体ILD或常态(例如无疾病或病状)相关。在一些情况下，可以确定指定的统计学置信水平以提供诊断置信水平。例如，可以确定大于90％的置信水平可以是ILD或者吸烟者或非吸烟者状况的存在的有用预测物。在其他实施方案中，可以选择更严格或不太严格的置信水平。例如，可以选择约或至少约50％、60％、70％、75％、80％、85％、90％、95％、97.5％、99％、99.5％、或99.9％的置信水平作为有用的表型预测物。在一些情况下，所提供的置信水平可以与样品的质量、数据的质量、分析的质量、使用的具体方法、和/或所分析的基因表达产物的数目相关。用于提供诊断的指定的置信水平可以基于假阳性或假阴性的期望值和/或成本来选择。用于选择参数以便达到指定的置信水平或以便鉴定具有诊断能力的标记物的方法包括但不限于受试者工作特征(ROC)曲线分析、副法线ROC、主成分分析、偏最小二乘法分析、奇异值分解、最小绝对收缩和选择算子分析、最小角回归、以及阈值梯度定向正则化方法。

(iii)数据分析

在一些情况下，原始基因表达水平和选择性剪接数据可通过应用设计用于归一化和或提高数据的可信度的方法和/或过程来改进。在本公开文本的一些实施方案中，由于处理的单独数据点的大数量，数据分析需要计算机或其他设备、机器或装置来应用在此所述的各种方法和/或过程。“机器学习分类器”是指用于表征基因表达谱的基于计算机的预测数据结构或方法。对应于某些表达水平的信号(其通过例如基于微阵列的杂交测定获得)通常经过分类器以将表达谱分类。监督式学习通常涉及“训练”分类器以识别类别之间的区别，并且然后“测试”分类器在独立测试集上的准确性。对于新的未知样品，可使用分类器来预测该样品所属的类别。在不同的实施方案中，这种训练是例如使用分类器训练模块来实现的。

在一些情况下，稳健多阵列平均(RMA)方法可用于归一化原始数据。RMA方法通过计算许多微阵列上各匹配细胞的背景校正强度开始。背景校正的值限于阳性值，如Irizarry et al.Biostatistics 2003April 4(2):249-64所述。在背景校正后，随后获得各个背景校正的匹配细胞强度的以2为底的对数。然后使用分位数归一化方法使各微阵列上背景校正的、对数转化的、匹配的强度归一化，其中对于各输入阵列和各探针表达值，阵列百分位探针值被所有阵列百分位点的平均值替代，该方法在Bolstad etal.Bioinformatics 2003中有更完整的描述。在分位数归一化后，随后可将归一化的数据拟合到线性模型中，以获得各个微阵列上各个探针的表达测量值。然后可使用Tukey中位数平滑算法(Tukey,J.W.,Exploratory Data Analysis.1977)来确定归一化的探针集数据的对数标度表达水平。

可以实施各种其他软件和/或硬件模块或过程。在某些方法中,可以通过使用glmnet以lasso惩罚进行逻辑回归来进行特征选择和模型估计(Friedman J,Hastie T,Tibshirani R.Regularization Paths for Generalized Linear Models viaCoordinate Descent.Journal of statistical software 2010；33(1):1-22)。可以使用TopHat将原始读取进行比对(Trapnell C,Pachter L,Salzberg SL.TopHat:discoveringsplice junctions with RNA-Seq.Bioinformatics 2009；25(9):1105-11.)。基因计数可以使用HTSeq(Anders S,Pyl PT,Huber W.HTSeq-a Python framework to work withhigh-throughput sequencing data.Bioinformatics2014.)获得并使用DESeq(Love MI,Huber W,Anders S.Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2；2014)归一化。在方法中，使用前几个特征(N范围为从10至200)使用e1071文库(Meyer D.Support vector machines:the interface to libsvm inpackage e1071.2014.)训练线性支持向量机(SVM)(Suykens JAK,Vandewalle J.LeastSquares Support Vector Machine Classifiers.Neural Processing Letters 1999；9(3):293-300)。置信区间可以使用pROC包(Robin X,Turck N,Hainard A,et al.pROC:anopen-source package for R and S+to analyze and compare ROC curves.BMCbioinformatics 2011；12:77)来计算。

此外，可以过滤数据以除去可能被认为可疑的数据。在一些实施方案中，从具有少于约4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针得出的数据可以被认为是不可靠的，因为它们的异常杂交倾向或二级结构问题。类似地，从具有多于约12、13、14、15、16、17、18、19、20、21、或22个鸟苷+胞嘧啶核苷酸的微阵列探针得出的数据可以被认为是不可靠的，因为它们的异常杂交倾向或二级结构问题。

在一些情况下，可以通过针对一系列参考数据集对探针集的可靠性分级来选择不可靠的探针集以从数据分析中排除。例如，RefSeq或Ensembl(EMBL)被认为是非常高质量的参考数据集。在一些情况下，来自匹配RefSeq或Ensembl序列的探针集的数据由于它们预期的高可靠性可特别地被包括在微阵列分析实验中。类似地，来自匹配较低可靠性的参考数据集的探针集的数据可从进一步分析中排除，或视情况而定考虑包括在内。在一些情况下，Ensembl高通量cDNA(HTC)和/或mRNA参考数据集可单独地或一起用于确定探针集的可靠性。在其他情况下，探针集的可靠性可被分级。例如，完全匹配所有参考数据集(如例如RefSeq、HTC、HTSeq、和mRNA)的探针和/或探针集可被分级为最可靠的(1)。另外，匹配三个参考数据集中的两个的探针和/或探针集可被分级为次最可靠的(2)，匹配三个参考数据集中的一个的探针和/或探针集可被分级为下一级(3)，而不匹配参考数据集的探针和/或探针集可被分级为最低级(4)。然后探针和/或探针集可基于它们的分级被包括在分析中或从分析中排除。例如，可以选择包括来自1、2、3和4类的探针集；来自1、2和3类的探针集；1和2类的探针集；或1类的探针集的数据用于进一步分析。在另一个例子中，探针集可通过与参考数据集项错配的碱基对的数目进行分级。应理解，存在现有技术中理解为用于评价分子谱分析的给定探针和/或探针集的可靠性的许多方法，且本公开文本的方法涵盖任何这些方法和它们的组合。

在本发明的一些实施方案中，如果它们不表达或以不可检测的水平(不高于背景)表达，则来自探针集的数据可从分析中排除。如果对于任何组存在以下情况，则探针集被判定为高于背景表达：

标准正态分布的从T0至无穷大的积分＜显著性(0.01)

其中：T0＝Sqr(GroupSize)(T-P)/Sqr(Pvar)；GroupSize＝组中CEL文件的数目，T＝探针集中探针得分的平均值，P＝GC含量的背景探针平均值的平均值，Pvar＝背景探针变异之和/(探针集中探针的数目)2，

这允许包括这样的探针集：其中组中探针集的平均值大于作为探针集的背景中心的探针集探针的具有类似GC含量的背景探针的平均表达，并使得能够从背景探针集变异中导出探针集离差。

在本公开文本的一些实施方案中，表现出没有或具有低变异的探针集可从进一步分析中排除。通过卡方检验从分析中排除低变异的探针集。如果转化的变异在具有(N-1)自由度的卡方分布的99％置信区间的左侧，则探针集被认为是低变异的。(N-1)*探针集变异/(基因探针集变异).～Chi-Sq(N-1)，其中N是输入CEL文件的数目，(N-1)是卡方分布的自由度，且“基因的探针集变异”是整个基因的探针集变异的平均值。在本发明的一些实施方案中，如果给定基因或转录物簇的探针集包含少于通过前述用于GC含量、可靠性、变异等的过滤器步骤的最低数目的探针，则可以从进一步分析中排除它们。例如，在一些实施方案中，如果给定基因或转录物簇的探针集包含少于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或少于约20个探针，则从进一步分析中排除它们。

基因表达水平或选择性剪接的数据分析方法还可包括使用如在此提供的特征选择方法和/或过程。在本发明的一些实施方案中，特征选择通过使用LIMMA软件包(Smyth,G.K.(2005).Limma:linear models for microarray data.In:Bioinformatics andComputational Biology Solutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds.),Springer,New York,pages 397-420)提供。

基因表达水平和或选择性剪接的数据分析方法还可包括使用预分类器方法和/或过程(例如，通过预分类器分析模块实施)。例如，方法和/或过程可使用细胞特异性分子指纹来根据它们的组成对样品进行预分类，然后再应用校正/归一化因子。然后可以将该数据/信息输入到最终分类方法和/或过程中，其将整合该信息来辅助最终的诊断。

在某些实施方案中，本发明的方法包括使用预分类器方法和/或过程(例如，通过预分类器分析模块实施)，该方法和/或过程使用分子指纹将样品预分类为吸烟者或非吸烟者，之后应用本发明的UIP/非UIP分类器。

基因表达水平和/或选择性剪接的数据分析方法还可包括使用如在此提供的分类器方法和/或过程(例如，通过分类器分析模块实施)。在本发明的一些实施方案中，提供了对角线线性判别分析、k-近邻分类器、支持向量机(SVM)分类器、线性支持向量机、随机森林分类器、或基于概率模型的方法、或它们的组合用于微阵列数据的分类。在一些实施方案中，基于感兴趣类别之间的表达水平的差异的统计学显著性选择区分样品(例如第一ILD与第二ILD，正常的与ILD)或区分亚型(例如IPF与NSIP)的鉴定标记物。在一些情况下，通过针对错误发现率(FDR)应用Benjamin Hochberg校正或另一种校正来调节统计学显著性。

在一些情况下，分类器可以用荟萃分析方法补充，如Fishel and Kaufman etal.2007Bioinformatics 23(13):1599-606描述的方法。在一些情况下，分类器可以用荟萃分析方法补充，如可重复性分析。在一些情况下，可重复性分析选择出现在至少一个预测表达产物标记物集中的标记物。

用于导出后验概率并将后验概率应用于微阵列数据分析的方法在本领域中是已知的,并且已经描述于例如Smyth,G.K.2004Stat.Appi.Genet.Mol.Biol.3:Article 3中。在一些情况下，可使用后验概率对分类器提供的标记物进行分级。在一些情况下，标记物可根据它们的后验概率进行分级，且通过所选阈值的那些标记物可被选作其差异表达指示或诊断例如为IPF或NSIP的样品的标记物。示例性的阈值包括0.7、0.75、0.8、0.85、0.9、0.925、0.95、0.975、0.98、0.985、0.99、0.995或更高的先验概率。

对分子谱分析的结果的统计学评估可提供(但不限于提供)指示以下项中的一种或多种的定量值或值：诊断准确的可能性；ILD的可能性；具体ILD的可能性；具体治疗干预成功的可能性；受试者是吸烟者的可能性；以及受试者是非吸烟者的可能性。因此，不大可能经遗传学或分子生物学训练的医师不需要理解原始数据。相反，数据可以按其最有用的形式直接呈现给医师来指导患者的护理。分子谱分析的结果可使用本领域已知的多种方法进行统计学评估，该方法包括但不限于：学生T检验、双侧T检验、皮尔逊秩和分析、隐马尔可夫模型分析、q-q作图分析、主成分分析、单因素ANOVA、两因素ANOVA、LIMMA等。[00182]在本发明的一些实施方案中，单独或与细胞学分析组合使用分子谱分析可提供约85％准确性和约99％或约100％准确性之间的分类、鉴定、或诊断。在一些情况下，分子谱分析过程和/或细胞学提供准确性为约或至少约85％、86％、87％、88％、90％、91％、92％、93％、94％、95％、96％、97％、97.5％、98％、98.5％、99％、99.5％、99.75％、99.8％、99.85％、或99.9％的ILD分类、鉴定、诊断。在一些实施方案中，分子谱分析过程和/或细胞学提供准确性为约或至少约85％、86％、87％、88％、90％、91％、92％、93％、94％、95％、96％、97％、97.5％、98％、98.5％、99％、99.5％、99.75％、99.8％、99.85％、或99.9％的具体ILD类型(例如IPF；NSIP；HP)存在的分类、鉴定、或诊断。

在一些情况下，可通过随时间追踪受试者以确定原始诊断的准确性而确定准确性。在其他情况下，准确性可以按确定性的方式或使用统计学方法确立。例如，受试者工作特征(ROC)分析可用于确定最佳测定参数，以实现特定水平的准确性、特异性、阳性预测值、阴性预测值和/或错误发现率。

在本公开文本的一些实施方案中，可选择被确定为在第一ILD和第二ILD之间(例如，在IPF和NSIP之间)、在ILD和正常之间、和/或在吸烟者和非吸烟者之间展现出最大的表达水平差异或最大的选择性剪接差异的基因表达产物和编码此类产物的核苷酸组合物用作本公开文本的分子谱分析试剂。此类基因表达产物可通过提供比本领域已知的或所使用的其他方法更宽的动态范围、更大的信噪比、改进的诊断能力、更低的假阳性或假阴性可能性或者更高的统计学置信水平而是特别有用的。

在本发明的其他实施方案中，当与使用本领域已知的标准细胞学技术相比时，单独或与细胞学分析组合使用分子谱分析可将评为非诊断性的样品的数目降低约或至少约100％、99％、95％、90％、80％、75％、70％、65％、或约60％。在一些情况下，当与本领域中使用的标准细胞学方法相比时，本发明的方法可将评为中间或疑似的样品的数目降低约或至少约100％、99％、98％、97％、95％、90％、85％、80％、75％、70％、65％、或约60％。

在一些情况下，将分子谱分析测定的结果输入数据库中以供分子谱分析企业、个人、医疗供应商、或保险供应商的代表或代理访问。在一些情况下，测定结果包括企业的代表、代理或咨询人员(如医疗专业人员)的样品分类、鉴定、或诊断。在其他情况下，自动提供数据的计算机分析。在一些情况下，分子谱分析企业可以向个人、保险供应商、医疗供应商、研究人员或政府实体针对以下项中的一种或多种收费：进行的分子谱分析测定、咨询服务、数据分析、报告结果或数据库访问。

在本发明的一些实施方案中，分子谱分析的结果作为计算机屏幕上的报告或纸件记录呈现。在一些情况下，报告可包括但不限于如作为以下项中的一种或多种的信息：差异表达的基因的数目、原始样品的适用性、显示差异选择性剪接的基因的数目、诊断、用于诊断的统计学置信度、受试者是吸烟者的可能性、ILD的可能性和指定的治疗。

(iv)基于分子谱分析结果的样品分类

分子谱分析的结果可分类到以下项的一种中：吸烟者、非吸烟者、ILD、具体类型的ILD、非ILD、或非诊断性的(提供有关ILD的存在或不存在的不充分的信息)。在一些情况下，分子谱分析的结果可分类为IPF与NSIP类别。在具体情况下，结果可分类为UIP或非UIP。

在本发明的一些实施方案中，使用经训练的分类器对结果进行分类。本发明的经训练的分类器实施已经使用已知的ILD和正常样品、已知的吸烟者和非吸烟者样品、或来自吸烟者和/或非吸烟者的已知ILD和正常样品的组合(包括但不限于具有一种或多种组织病理学的样品)的参考集开发的方法和/或过程。在一些实施方案中，训练(例如，使用分类器训练模块)包括将在来自第一ILD的第一组生物标记物中的基因表达产物水平与在来自第二ILD的第二组生物标记物中的基因表达产物水平进行比较，其中该第一组生物标记物包括不是在第二组中的至少一种生物标记物。在一些实施方案中，训练(例如，使用分类器训练模块)包括将在来自作为非UIP的第一ILD的第一组生物标记物中的基因表达产物水平与在来自作为UIP的第二ILD的第二组生物标记物中的基因表达产物水平进行比较，其中该第一组生物标记物包括不是在第二组中的至少一种生物标记物。在一些实施方案中，训练(例如，使用分类器训练模块)进一步包括将在来自作为吸烟者的第一受试者的第一组生物标记物中的基因表达产物水平与在来自作为非吸烟者的第二受试者的第二组生物标记物中的基因表达产物水平进行比较，其中该第一组生物标记物包括不是在第二组中的至少一种生物标记物。在一些实施方案中，可以使用在分类面板内的生物标记物组别的表达水平与分类器中使用的所有其他生物标记物组别(或所有其他生物标记物标记)的比较来训练(例如，使用分类器训练模块)完整分类器或分类器的部分。

适用于对样品分类的分类器包括但不限于k-近邻分类器、支持向量机、线性判别分析、对角线线性判别分析、updown、朴素贝叶斯分类器、神经网络分类器、隐马尔可夫模型分类器、基因分类器、或其任何组合。

在一些情况下，本发明的经训练的分类器可以结合不同于基因表达或选择性剪接数据的数据，例如但不限于DNA多态性数据、测序数据、由本发明的细胞学家或病理学家的评分或诊断、由本公开文本的预分类器方法和/或过程提供的信息、或关于本公开文本的受试者的病史的信息。

当对用于诊断ILD的生物样品进行分类时，通常存在来自二元分类器的两种可能的结果。类似地，当对用于诊断吸烟者的生物样品进行分类时，通常存在来自二元分类器的两种可能的结果。当将二元分类器与实际真值(例如，来自生物样品的值)进行比较时，通常存在四种可能的结果。如果预测的结果是p(其中“p”是阳性分类器输出，如具体ILD)，并且实际值也是p，则被称为真阳性(TP)；但是，如果实际值为n，则被称为假阳性(FP)。相反，当预测结果和实际值均为n(其中“n”是阴性分类器输出，如不是ILD，或不存在如在此所述的具体疾病组织)时出现真阴性，并且当预测结果是n而实际值是p时，则是假阴性。在一个实施方案中，考虑试图确定一个人是否患有某种疾病的诊断测试。当这个人测试为阳性但事实上并未患有该疾病时，在这种情况下出现假阳性。另一方面，当这个人测试为阴性而表明其是健康的，但他实际上患有该疾病时，出现假阴性。在一些实施方案中，可以通过以相关比例重复采样在可获得样品上获得的误差来产生假设现实世界的亚型流行度的受试者工作特征(ROC)曲线。

疾病的阳性预测值(PPV)或精确率或后验概率是被正确诊断的具有阳性测试结果的患者的比例。这是诊断方法的最重要的量度，因为它反映了阳性测试反映出测试的基础病状的概率。但是，它的值确实依赖于疾病的流行度，其可发生变化。在一个实例中，FP(假阳性)；TN(真阴性)；TP(真阳性)；FN(假阴性)。假阳性率(α)＝FP/(FP+TN)-特异性；假阴性率(β)＝FN/(TP+FN)-灵敏度；能力＝灵敏度＝1-β；阳性似然比＝灵敏度/(l-特异性)；阴性似然比＝(1-灵敏度)/特异性。

阴性预测值是被正确诊断的具有阴性测试结果的患者的比例。PPV和NPV量度可使用适当的疾病亚型流行度估计值来获得。汇集的疾病流行度的估计值可从通过手术大致分为B和M的不确定事件的库计算。对于亚型特异性的估计值，在一些实施方案中，疾病的流行度有时是无法计算的，因为不存在任何可获得的样品。在这些情况下，亚型疾病流行度可由汇集的疾病流行度估计值替代。

在一些实施方案中，表达产物水平或选择性外显子使用指示以下项之一：IPF、NSIP、或HP。

在一些实施方案中，表达产物水平或选择性外显子使用指示受试者是吸烟者还是非吸烟者。

在一些实施方案中，主题方法的表达分析的结果提供了给出的诊断正确的统计学置信水平。在一些实施方案中，这种统计学置信水平是至少约或多于约85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、或更多。

报告

主题方法和/或系统可以包括生成提供样品(肺组织样品)是ILD样品的指示的报告(例如，使用报告模块)。主题诊断方法可以包括生成提供关于测试的个体是否患有ILD的指示的报告。主题诊断方法可以包括生成提供关于测试的个体是否是吸烟者的指示的报告。主题方法(或报告模块)可以包括生成提供关于测试的个体是否患有IPF(以及不患有，例如不是IPF的ILD；例如，报告可以指示个体患有IPF而不是NSIP)的指示的报告。

在一些实施方案中，诊断ILD的主题方法涉及生成报告(例如，使用报告模块)。这种报告可以包括以下信息，例如患者患有ILD的可能性；患者是吸烟者的可能性；关于进一步评估的建议；关于治疗药物和/或设备干预的建议；等等。

例如，在此公开的方法可以包括生成或输出提供主题诊断方法的结果的报告的步骤，该报告可以按电子介质的形式(例如，计算机监视器上的电子显示器)或按有形介质的形式(例如，在纸或其他有形介质上打印的报告)提供。对关于主题诊断方法的结果的评价(例如，个体患有ILD的可能性；个体患有IPF的可能性；个体是吸烟者的可能性)可以称作“报告”或简单称作“得分”。准备报告的人或实体(“报告生成者”)还可以进行例如简单收集、样品处理等步骤。可替代地，报告生成者之外的实体可以进行例如简单收集、样品处理等步骤。诊断评价报告可以提供给用户。“用户”可以是健康专家(例如，临床医师、实验室技师、医师(例如，心脏病学家)等)。

主题报告可以进一步包括以下项中的一种或多种：1)服务提供者信息；2)患者数据；3)关于给定基因产物或基因产物集的表达水平、得分或分类器决策的数据；4)随访评估建议；5)治疗干预或建议；以及6)其他特征。

进一步的评估

基于给定基因产物或基因产物集的表达水平，和/或基于报告(如上所述的)，医师或其他有资格的医疗人员可以确定是否需要进一步评估测试受试者(患者)。进一步的评估可以包括例如肺活量测定。

治疗干预

基于给定基因产物或基因产物集的表达水平，和/或基于报告(如上所述的)，医师或其他有资格的医疗人员可以确定是否建议适当的治疗干预。

治疗干预包括基于药物的治疗干预、基于设备的治疗干预、和外科干预。在报告指示个体患有IPF的可能性时，基于药物的治疗干预包括例如给予个体有效量的吡非尼酮、强的松、硫唑嘌呤、或N-乙酰半胱氨酸。外科干预包括例如动脉搭桥手术。

计算机实施的方法、系统和设备

治疗干预

本公开文本的方法可以是计算机实施的，使得方法步骤(例如，测定、比较、计算等)全部或部分自动化。

因此，本公开文本提供了与计算机实施的协助诊断间质性肺病(例如，诊断IPF、NSIP、HP等)(包括鉴别诊断)的方法结合的方法、计算机系统、设备等。

本公开文本进一步提供了与计算机实施的协助确定吸烟者状况(例如，吸烟者与非吸烟者)的方法结合的方法、计算机系统、设备等。

本公开文本进一步提供了与计算机实施的协助诊断间质性肺病(例如，诊断IPF、NSIP、HP等)(包括鉴别诊断)的方法结合的方法、计算机系统、设备等，其中该方法进一步包括确定受试者吸烟者状况(吸烟者与非吸烟者)并将吸烟者状况结合到受试者间质性肺病诊断的确定中。在一些实施方案中，(i)在训练(例如，使用分类器训练模块)期间使用的模型中将吸烟者状况作为协变量结合到间质性肺病诊断中。该方法提高了特别是在得自吸烟者的数据(噪音较高)中的信噪比，并且允许得自吸烟者和非吸烟者的数据组合并同时使用。在一些实施方案中，(ii)在间质性肺病诊断分类器训练期间，通过鉴定对吸烟者状况偏倚敏感的一种或多种基因并将此类基因排除或给予此类基因不同于对吸烟者状况不敏感的其他基因的权重，将吸烟者状况结合到间质性肺病诊断中。在一些实施方案中，(iii)通过构建其中将起始分类器训练(例如，使用分类器训练模块)为识别区分吸烟者与非吸烟者的基因标记的分层分类，将吸烟者状况结合到间质性肺病诊断中。一旦患者样品被预分类为“吸烟者”或“非吸烟者”(例如，使用预分类器分析模块)，可以实施各自训练为对应地区分吸烟者或非吸烟者中的UIP与非UIP的不同分类器以诊断间质性肺病。在再另外的实施方案中，包括将吸烟者状况结合到受试者间质性肺病诊断的确定中的步骤的此类方法包括组合这种结合的上述方式中的一种或多种(即，将实施方案(i)至(iii)中的两个或更多个组合在当前段落中)。

例如，可以完全地或部分地通过计算机程序产品进行包括以下项的方法步骤：获得生物标记物水平的值、比较归一化的生物标记物(基因)表达水平与对照水平、计算ILD的可能性(并且任选地受试者是吸烟者的可能性)、生成报告等。获得的值可以电子方式存储，例如存储于数据库中，并且可以经由编程计算机执行的分类器处理(例如，使用分类器分析模块)。

例如，本公开文本的方法和/或系统可以涉及将生物标记物水平(例如，基因产物的归一化表达水平)输入到分类器分析模块中以执行方法和/或过程以执行在此描述的比较和计算步骤，并且例如通过在计算机本地或远程的位置处将报告显示或打印到输出设备上生成如在此所述的报告(例如，使用报告模块)。报告的输出可以是得分(例如，数值得分(代表数值)或非数值得分(例如，非数值输出(例如，“IPF”、“无IPF迹象”)，代表数值或数值范围。在其他方面中，输出可以指示“UIP”与“非UIP”。在其他方面中，输出可以指示“吸烟者”与“非吸烟者”

本公开文本因此提供了计算机程序产品，其包括具有在上面存储的软件和/或硬件模块的计算机可读存储介质。在由处理器执行时，软件和/或硬件模块可以基于从来自个体的一个或多个生物样品(例如，肺组织样品)的分析获得的值执行相关计算。计算机程序产品在其中存储有执行一个或多个计算的计算机程序。

本公开文本提供了用于执行上述程序的系统，该系统通常包括：a)执行软件和/或硬件模块的中央计算环境或处理器；b)输入设备，其可操作地连接至计算环境以接收患者数据，其中患者数据可以包括例如如上所述的从使用来自患者的生物样品的测定获得的生物标记物水平或其他值；c)输出设备，其连接至计算环境，以提供信息给用户(例如，医疗人员)；以及d)由中央计算环境(例如，处理器)执行的方法和/或过程，其中该方法和/或过程是基于由输入设备接收的数据执行，并且其中该方法和/或过程计算值，该值指示受试者患有ILD的可能性(如在此所述)。

本公开文本还提供了用于执行上述程序的系统，该系统通常包括：a)执行软件和/或硬件模块的中央计算环境或处理器；b)输入设备，其可操作地连接至计算环境以接收患者数据，其中患者数据可以包括例如如上所述的从使用来自患者的生物样品的测定获得的生物标记物水平或其他值；c)输出设备，其连接至计算环境，以提供信息给用户(例如，医疗人员)；以及d)由中央计算环境(例如，处理器)执行的方法和/或过程，其中该方法和/或过程是基于由输入设备接收的数据执行，其中该方法和/或过程计算值，该值指示受试者患有ILD的可能性(如在此所述)，并且其中该方法和/或过程在训练期间使用的模型中使用吸烟状况(吸烟者与非吸烟者)作为协变量。在一些实施方案中，在分类器训练期间，该方法和/或过程排除对吸烟者状况偏倚敏感的一个或多个基因或者对于对吸烟者状况偏倚敏感的一个或多个基因的权重不同，以富集用于训练不被吸烟状况混淆或影响的基因的特征空间。

在再另外的实施方案中，本公开文本提供了用于执行上述程序的系统，该系统通常包括：a)执行软件和/或硬件模块的中央计算环境或处理器；b)输入设备，其可操作地连接至计算环境以接收患者数据，其中患者数据可以包括例如如上所述的从使用来自患者的生物样品的测定获得的生物标记物水平或其他值；c)输出设备，其连接至计算环境，以提供信息给用户(例如，医疗人员)；以及d)由中央计算环境(例如，处理器)执行的第一方法和/或过程，其中该第一方法和/或过程是基于由输入设备接收的数据执行，其中该第一方法和/或过程计算值，该值指示受试者是吸烟者或非吸烟者的可能性(如在此所述)，其中该受试者作为吸烟者或非吸烟者的状况导致将第一方法和/或过程应用经特定训练(例如，使用分类器训练模块)的第二方法和/或过程以对应地区分吸烟者或非吸烟者中的UIP与非UIP，以及e)其中该第二方法和/或过程是由中央计算环境(例如，处理器)执行，其中该第二方法和/或过程是基于由输入设备接收的数据执行，并且其中该第二方法和/或过程计算值，该值指示受试者患有ILD的可能性(如在此所述)。

计算机系统

图7A图示了处理系统100，该处理系统包括至少一个处理器102或处理单元或多个处理器、存储器104、至少一个输入设备106以及至少一个输出设备108，经由总线或一组总线110联接在一起。处理系统可以在任何适合设备上实施，例如比如主机设备、个人计算机、手持或笔记本设备、个人数字助理、多处理器系统、基于微处理器的系统、可编程消费性电子设备、小型计算机、服务器计算机、网络服务器计算机、大型计算机、和/或包括任一上述系统或设备的分布式计算环境。

在某些实施方案中，输入设备106和输出设备108可以是相同的设备。还可以提供接口112以将处理系统100联接至一个或多个外围设备，例如接口112可以是PCI卡或PC卡。还可以提供容纳至少一个数据库116的至少一个存储设备114。

存储器104可以是任何形式的存储设备，例如易失性或非易失性存储器、固态存储设备、磁设备等。例如，在一些实施方案中，存储器104可以是随机存取存储器(RAM)、存储缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、数据库和/或其他。

处理器102可以包括多于一个不同的处理设备，例如以处理该处理系统100内的不同功能。处理器100可以是被配置为运行或执行一组指令或代码(例如，存储在存储器中的)的任何适合的处理设备，例如通用处理器(GPP)、中央处理单元(CPU)、加速处理单元(APU)、图形处理器单元(GPU)、专用集成电路(ASIC)和/或其他。这种处理器100可以运行或执行存储在存储器中的与使用个人计算机应用、移动应用、互联网浏览器、蜂窝和/或无线通信(经由网络)和/或其他相关联的一组指令或代码。更确切地，该处理器可以执行存储在存储器104中的与如在此所述的分析和分类数据相关联的一组指令或代码。

输入设备106接收输入数据118并且可以包括例如键盘、指针设备(如笔样设备或鼠标)、用于声控激活的音频接收设备(如麦克风)、数据接收器或天线(如调制解调器或无线数据适配器)、数据采集卡等。输入数据118可以来自不同来源，例如键盘指令以及经由网络接收的数据。

输出设备108产生或生成输出数据120，并且可以包括例如显示设备或监视器(这种情况下输出数据120是可视的)、打印机(这种情况下输出数据120被打印)、端口例如USB端口、外围部件适配器、数据发送器或天线(如调制解调器或无线网络适配器)等。输出数据120可以是不同的，并且产生自不同的输出设备(例如监视器上的可视显示器)以及传输至网络的数据。用户可以例如在监视器上或使用打印机查看数据输出或数据输出的解释。

在一些实施方案中，输入设备106和/或输出设备108可以是被配置为经由网络发送和/或接收数据的通信接口。更确切地，在此类实施方案中，处理系统100可以充当一个或多个客户端设备(未示于图7A中)的主机设备。这样，处理系统100可以发送数据(例如，输出数据120)至客户端设备并接收来自客户端设备的数据(例如，输入数据118)。这种通信接口可以是可将处理系统100置于与客户端设备(如一个或多个网络接口卡或其他)通信的任何适合的模块和/或设备。这种网络接口卡可以包括例如可以经由网络或其他将客户端设备150置于与主机设备110通信的以太网端口、无线电、无线电、近场通信(NFC)无线电、和/或蜂窝无线电。

存储设备114可以是任何形式的数据或信息存储器件，例如易失性或非易失性存储器、固态存储设备、磁设备等。例如，在一些实施方案中，存储设备114可以是随机存取存储器(RAM)、存储缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、数据库和/或其他。

在使用时，处理系统100被适配为允许数据或信息是经由有线或无线通信方式被存储于至少一个数据库116中和/或从该至少一个数据库检索。接口112可以允许在处理单元102和可充当专门目的的外围部件之间的有线和/或无线通信。通常，处理器102可以经由输入设备106接收作为输入数据118的指令，并且可以通过使用输出设备108向用户显示经处理的结果或其他输出。可以提供多于一个输入设备106和/或输出设备108。处理系统100可以是任何合适形式的终端、服务器、专门硬件或其他。处理系统100可以是网络化通信系统的一部分。

处理系统100可以连接至网络，例如局域网(LAN)、虚拟网(如虚拟局域网(VLAN))、广域网(WAN)、城域网(MAN)、全球微波互联接入网络(WiMAX)、蜂窝网络、因特网、和/或作为有线和/或无线网络实施的任何其他适合的网络。例如，当在LAN网络环境中使用时，计算系统环境100通过网络接口或适配器连接至LAN。当在WAN网络环境中使用时，计算系统环境通常包括调制解调器或用于经WAN如因特网建立通信的其他器件。可以是内部或外部的调制解调器可以经由用户输入接口或经由另一种适当机构连接至系统总线。在网络化环境中，相对于计算系统环境100或其部分描绘的程序模块可以存储在远程存储器存储设备中。应领会所图示的图7的网络连接是例子并且可以使用建立多个计算机之间的通信连接的其他方式。

输入数据118和输出数据120可以经由网络与其他设备通信。信息和/或数据经网络的传送可以使用有线通信方式或无线通信方式来实现。服务器可以协助在网络与一个或多个数据库之间的数据传送。服务器和一个或多个数据库提供了信息来源的例子。

因此，图示于图7A中的处理计算系统环境100可以使用与一个或多个远程计算机的逻辑连接在网络化环境中运行。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备、或其他普通网络节点，并且典型地包括上述元件中的许多或全部。

图7B更详细地图示了图7A的处理器102。处理器102可以被配置为执行特定模块。模块可以例如是存储于存储器104中和/或在处理器102中执行的硬件模块、软件模块、和/或其任何组合。例如，如在图7B中所示，处理器102包括和/或执行预分类器分析模块130、分类器训练模块132、分类器分析模块134和报告模块136。如在图7B中所示，预分类器分析模块130、分类器训练模块132、分类器分析模块134和报告模块136可以连接和/或电联接。这样，可以在预分类器分析模块130、分类器训练模块132、分类器分析模块134和报告模块136之间发送信号。

分类器训练模块132可以被配置为接收数据(例如基因表达数据、测序数据)全集并且训练分类器。例如，来自先前被鉴定(例如，由专家)为UIP和非UIP的样品的临床注释数据可以通过输入设备106接收并且由分类器训练模块132使用以鉴定先前被鉴定为UIP和非UIP的样品之间的相关。例如，可以获得并且单独或组合使用专家TBB组织病理学标记(即，UIP或非UIP)、专家HRCT标记、和/或专家患者水平的临床结果标记以使用微阵列和/或测序数据训练分类器。所使用的特征空间可以包括基因表达、变体、突变、融合、杂合性丢失(LOH)、生物途径效应和/或数据的任何其他可以出于训练机器学习算法目的的被提取为特征的维度。在一些实施方案中，用于训练UIP与非UIP分类器、吸烟者与非吸烟者分类器、或UIP与非UIP及吸烟者与非吸烟者分类器的特征空间包括基因表达、变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。在一些实施方案中，用于训练UIP与非UIP分类器、吸烟者与非吸烟者分类器、或UIP与非UIP及吸烟者与非吸烟者分类器的特征空间包括基因表达和变体维度。

在一些实施方案中，分类器训练模块132可以基于与所接收样品是与吸烟者相关还是与非吸烟者相关相关联的指示来训练吸烟者分类器和非吸烟者分类器。在其他实施方案中，吸烟者/非吸烟者可以用作属性(模型协变量)来训练单个分类器。在训练分类器之后，可以将其用于鉴定和/或分类新接收的和未知的样品，如在此所述。

预分类器分析模块130可以鉴定样品是否与吸烟者或非吸烟者相关联。确切地，预分类器分析模块130可以使用任何适合的方法来将样品鉴定和/或分类为来自吸烟(或具有重度吸烟的既往史)的个体与不吸烟(或不具有吸烟史)的个体。分类可以按任何适合的方式来进行，例如接收来自用户的指示、鉴定对吸烟者状况偏倚敏感的基因、使用机器学习分类器、和/或在此所述的任何其他适合的方法。

分类器分析模块134可以将样品输入到分类器中，以将所接收的样品鉴定和/或分类为与UIP和非UIP相关联。确切地，分类器分析模块134可以使用经训练的分类器来鉴定样品指示UIP还是非UIP。在一些实施方案中，分类器分析模块134可以指示与UIP或非UIP相关联的样品的百分比或置信得分。在一些实施方案中，分类器分析模块134可以执行两个单独的分类器：一个针对吸烟者样品，并且另一个针对非吸烟者样品(如由预分类器分析模块130确定的)。在其他实施方案中，针对吸烟者和非吸烟者样品两者，以吸烟者状况的输入执行单个分类器。

报告模块136可以被配置为基于如在此进一步详细描述的分类器分析模块134的结果生成任何适合的报告。在一些情况下，报告可包括但不限于如作为以下项中的一种或多种的信息：差异表达的基因的数目、原始样品的适用性、显示差异选择性剪接的基因的数目、诊断、用于诊断的统计学置信度、受试者是吸烟者的可能性、ILD的可能性和指定的治疗。

图7C图示了本发明的一个非限制性实施方案的流程图，其中使用已知UIP和非UIP样品的基因产物表达数据训练(例如，使用分类器训练模块)分类器以用于区分UIP与非UIP，其中该分类器任选地考虑吸烟者状况作为协变量，并且其中将来自未知样品的基因产物表达数据输入经训练的分类器中以将未知样品鉴别为UIP或非UIP，并且其中经由该分类器进行分类的结果是经由报告定义并输出的。

可以参考由一个或多个计算设备(如图7A的计算系统环境100)进行的操作的动作和符号表示来描述某些实施方案。这样，应理解有时称作计算机执行的此类动作和操作包括计算机处理器对代表结构化形式的数据的电信号的操纵。这种操纵将数据转化或将它们保持在计算机存储系统中的位置处，这以本领域的技术人员理解的方式重新配置或以其他方式改变了计算机的操作。将数据保持于其中的数据结构是存储器的具有由数据格式定义的具体特性的物理位置。然而，虽然在前述背景中描述了实施方案，但不意味着是限制性的，因为本领域技术人员应理解此后描述的动作和操作还可以在硬件中实施。

可以用众多其他通用或专用计算设备和计算系统环境或配置来实施实施方案。可以适合用于实施方案的其他计算系统、环境、和配置的例子包括但不限于个人计算机、手持或笔记本设备、个人数字助理、多处理器系统、基于微处理器的系统、可编程消费性电子器件、网络、小型计算机、服务器计算机、网络服务器计算机、大型计算机、和包括任一以上系统或设备的分布式计算环境。

可以在计算机可执行指令的一般背景(如硬件和/或软件模块)下描述实施方案。实施方案还可以在分布式计算环境中实践，在其中通过经通信网络连接的远程处理设备执行任务。在分布式计算环境中，可以将程序模块定位在包含存储器存储设备的本地和远程计算机存储介质中。

计算机程序产品

本公开文本提供了计算机程序产品，该计算机程序产品当在如上文参考图7描述的可编程计算机上执行时可以进行本公开文本的方法。如上所讨论的，在此描述的主题可以根据所需配置在系统、装置、方法、和/或制品中具体化。这些不同的实施可以包括在包含至少一个可编程处理器、至少一个输入设备(例如摄影机、麦克风、操纵杆、键盘、和/或鼠标)、和至少一个输出设备(例如显示监视器、打印机等)的可编程系统上在可执行和/或可判读的一个或多个计算机程序中实施，该可编程处理器可以是专用或通用的，联结它以接收来自存储系统的数据和指令并且将数据和指令传输至存储系统。

计算机程序(也称作程序、软件、软件应用、应用、部件或代码)包括用于可编程处理器的指令，并且可以用高级程序和/或面向对象的编程语言、和/或汇编/机器语言实施。如在此使用的，“机器可读介质”是指任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器等)，用于提供机器指令和/或数据到可编程处理器，包括接收机器指令作为机器可读信号的机器可读介质。

从本描述应清楚的是，本公开文本的方面可以至少部分地在软件、硬件、固件、或其任何组合中具体化。因此，在此描述的技术不限于硬件电路和/或软件的任何特定组合，或者不限于通过计算机或其他数据处理系统执行的指令的任何特定来源。相反，这些技术可以在计算机系统或其他数据处理系统中响应一个或多个处理器如微处理器来进行，指令的执行序列存储在存储器或其他计算机可读介质中，包括任何类型的ROM、RAM、高速缓冲存储器、网络存储器、软盘、硬盘驱动器磁盘(HDD)、固态设备(SSD)、光盘、CD-ROM、和磁光盘、EPROM、EEPROM、闪存、或任何其他类型的适用于以电子格式存储指令的介质。

此外，一个或多个处理器可以是或者可以包括，一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑设备(PLD)、可信平台模块(TPM)、或类似物，或此类设备的组合。在替代性实施方案中，专用硬件如逻辑电路或其他硬件电路可以和软件指令组合使用，以实施在此所述的技术。

阵列和试剂盒

本公开文本提供了用于进行主题评估方法或主题诊断方法的阵列和试剂盒。

阵列

主题阵列可以包括多种核酸，其每一者都与从进行ILD测试的个体获得的组织样品中存在的细胞中差异表达的基因杂交。

主题阵列可以包括多种核酸，其每一者都与从进行吸烟者状况测试的个体获得的组织样品中存在的细胞中差异表达的基因杂交。

主题阵列可以包括多种核酸，其每一者都与从进行吸烟者状况和ILD测试的个体获得的组织样品中存在的细胞中差异表达的基因杂交。

主题阵列可以包括多个成员核酸，其中每一个成员核酸与不同的基因产物杂交。在一些情况下，两个或更多个成员核酸与相同基因产物杂交；例如，在一些情况下，2、3、4、5、6、7、8、9、10个、或更多个成员核酸与相同的基因产物杂交。成员核酸的长度可以是从约5个核苷酸(nt)至约100nt，例如，5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-25、25-30、30-40、40-50、50-60、60-70、70-80、80-90、或90-100nt。核酸可以具有一个或多个磷酸酯骨架修饰。

主题阵列可以包括从约10至约10⁵个独特的成员核酸，或多于10⁵个独特的成员核酸。例如，主题阵列可以包括从约10至约10²、从约10²至约10³、从约10³至约10⁴、从约10⁴至约10⁵、或多于10⁵个独特的成员核酸。

缩写

“ENSEMBL ID”是指来自ENSEMBL基因组浏览器数据库的基因标识符编号(参见万维网网址：ensembl.org/index.html，结合在此)。每个标识符以字母ENSG开始，表示“Ensembl基因”。每个ENSEMBL ID编号(即，在Ensembl数据库中的每个“基因”)是指由具体人染色体上的特定的开始和结束位置限定的基因，并且因此限定了人基因组的特定基因座。如本领域普通技术人员应完全领会的，在此公开的所有基因符号是指易于在公共可获得的数据库上获得的基因序列，该数据库是例如UniGene数据库(Pontius JU,Wagner L,Schuler GD.UniGene:a unified view of the transcriptome.In:The NCBIHandbook.Bethesda(MD):National Center for Biotechnology Information；2003，可在万维网网址ncbi.nlm.nih.gov/unigene获得，结合在此)、RefSeq(The NCBI handbook[Internet].Bethesda(MD):National Library of Medicine(US),National Center forBiotechnology Information；2002Oct.Chapter 18,The Reference Sequence(RefSeq)Project，可在万维网网址：ncbi.nlm.nih.gov/refseq/获得，结合在此)、Ensembl(EMBL，可在万维网网址ensembl.org/index.html获得，结合在此)等。在此通过其基因符号、EnsemblID、和Entrez ID披露的基因的序列以其全部内容结合在此。

在此引用的所有参考文献、专利和专利申请都出于所有目的以其全部内容而结合。

实施例

实施例1

样品收集、病理学诊断、以及标记

将电视辅助胸腔镜手术(VATS)样本预期地收集为由威拉赛特公司(Veracyte,Inc.)(南旧金山，加利福尼亚州)赞助的机构审查委员会(IRB)批准的进行中的多中心临床方案-用于新型基因组测试的支气管样品收集(BRonchial sAmple collection for anoVel gEnomic test，BRAVE)-的一部分。另外的VATS和外科肺活检样本获得自储备来源。

在手术后，将组织学载片收集，去标识，并且提交给专家进行病理学审评。扫描所选择的载片以构建显微镜图像的永久数字文件(艾贝欧公司(Aperio)，维斯塔，加利福尼亚州)。根据图5中描述的中心病理学诊断过程评估载片，得到样品水平和患者水平的病理学诊断。病理学类别概述于表3中。患者可以具有多于一个样品水平诊断(即每名患者每个VATS样品一个，最常见为来自右肺的下叶和上叶中各自的一个)，但可以仅具有一个患者水平诊断。

表3。在本文的中心病理学诊断过程中考虑的所有病理学诊断的列表。

大多数诊断技术遵循美国胸腔学会(ATS)2011或2013指南 ^5,6 ，但一些改变由病理学专家小组作出以更好地表征肺叶水平的特征。具体而言，包括‘经典UIP’和‘难分类性UIP’而取代如在ATS 2011指南中所述的‘明确的UIP’和‘可能的UIP’。未以其他方式分类的慢性间质性纤维化(CIF/NOC)对应于不可分类的纤维化ILD。CIF/NOC的三个亚类‘易分类性UIP’、‘易分类性NSIP’和‘易分类性HP’被限定为指定以下不可分类的纤维化情况，其在病理学专家小组的判决中展现出提示UIP、非特异性间质性肺炎(NSIP)或过敏性肺炎(HP)的特征。还包括吸烟相关的间质性纤维化(SRIF)的诊断 ²⁰ 。

用于分类，将样品水平病理学诊断转化为二元类别标签(UIP和非UIP)。在病理学诊断类别(表3)中，‘UIP’类包括(1)UIP、(2)经典UIP、(3)难分类性UIP、以及(4)CIF/NOC，易分类性UIP。除了非诊断性(ND)外的所有其他病理学诊断指定为‘非UIP’类。

实施例2

样品处理

将冷冻的组织样品使用Tissue-Tek O.C.T.介质(Sakura Finetek U.S.A.)固定以用于切片，并且使用CM1800cryostat(徕卡生物系统公司(Leica Biosystems)，布法罗格罗夫，伊利诺伊州)产生2x 20μm切片。将组织卷立即浸没于RNAprotect(凯杰公司(QIAGEN)，巴伦西亚(Valencia)，加利福尼亚州)中，在4℃下孵育过夜并且储存在-80℃下直到提取。只要有可能，便将邻近的5μm组织卷固定在载玻片上，并且处理以用于遵循标准程序进行苏木精和伊红(H&E)染色。

根据生产商指南使用AllPrep Micro试剂盒(凯杰公司)提取核酸。使用Quant-it(英杰公司(Invitrogen))和Pico BioAnalyzer试剂盒(安捷伦)测定总RNA产量和质量。将十五纳克总RNA使用Ovation FFPE WTA系统(NuGEN，圣卡洛斯，加利福尼亚州)扩增，与GeneChip Gene ST 1.0(昂飞公司，圣克拉拉，加利福尼亚州)微阵列杂交，处理，并且根据生产商方案扫描。通过稳健多阵列平均(RMA)将表达数据归一化。

实施例3

下一代RNA测序

对所选择的样品以每个样品8000万个配对末端读取的目标最小读取深度进行全转录组RNA测序。简言之，将10ng的总RNA使用Ovation RNASeq System v2(NuGEN，圣卡洛斯，加利福尼亚州)扩增，并且制备TruSeq(亿明达公司(Illumina)，圣地亚哥，加利福尼亚州)测序文库并在亿明达HiSeq上根据生产商说明书进行测序。使用TopHat2将原始读取与hg19基因组组件进行比对。使用HTSeq获得基因计数，并且使用在DESeq2软件包中的方差稳定化变换(varianceStabilizingTransformation)函数在Bioconductor中归一化。获得55,097个转录物的原始计数和归一化表达水平。

实施例4

组群选择和分类器训练

研究组群起初包括储备的(n＝128)和预期收集的BRAVE(n＝38)组织。排除在H&E染色时具有不良细胞性(来自单个患者n＝4)或正常肺组织外观(n＝1)的储备样品，还排除诊断为‘不可分类的纤维化ILD’即CIF/NOC的样品(n＝3)或缺乏至少两名病理学家作出的病理学一致意见的样品(n＝29)。对于BRAVE样品，不排除CIF/NOC样品。仅省略一个BRAVE组群样品，因错过中心病理学诊断。还排除经处理的具有残留基因组DNA污染的(n＝2)或低RNA质量(RNA完整指数(RIN)<4)(n＝1)的RNA样品。在所有排除之后，剩余来自86名患者的125个样品用于分类。纳入的患者的年龄、性别、吸烟史和病理学诊断概述于表1中。

表1。组群概述。在每组微阵列数据或RNASeq数据内，临床因子如年龄、性别和吸烟史是跨患者概述的。此外，通过样品水平的病理学诊断来概述样品(无括号的计数)，并且通过患者水平的病理学诊断来概述患者(括号内的计数)。在任一情况下的零是由于在样品水平和患者水平的病理学之间的不一致；因此计数将不是加性的。在RNASeq训练集中的36个样品中，22个与微阵列训练集重叠并且14个与微阵列测试集重叠。

125个样品(86名患者)可用于微阵列分类。将86名患者随机化到训练集和测试集中，同时控制患者水平病理学亚型偏倚(表1)。微阵列训练集由来自54名患者的77个样品(39个UIP和38个非UIP)组成。微阵列测试集由来自32名患者的48个样品(22个UIP与26个非UIP)组成。

针对来自29名患者的36个样品子集(17个UIP和19个非UIP)(表1)生成RNASeq数据，代表ILD亚型谱。在36个样品中，22个与微阵列训练集重叠并且14个与微阵列测试集重叠。因为数据库的样本量较小，仅通过交叉验证(CV)评估分类性能。

实施例5

训练模块、分类、特征选择

使用R 3.0.1版进行所有统计学分析 ²¹ 。对于微阵列分类器，通过limma对在UIP和非UIP类别之间差异表达的基因进行分级，然后取前200个具有最低错误发现率(FDR)(<0·0003)的基因作为模型构建的候选基因。使用不同的方法构建若干模型，并且选择具有最低错误的那个。通过使用glmnet以lasso惩罚进行逻辑回归来进行特征选择和模型估计。对于RNASeq分类器，通过由在DESeq2软件包中对原始计数数据实施的瓦尔德式(Wald-style)检验得出的FDR对基因进行分级。使用前几个特征(N范围为从10至200)用e1071文库针对归一化的表达数据训练线性支持向量机(SVM)。

通过CV评估分类器性能，并且可获得时通过独立测试集评估。为了最小化过度拟合，当限定训练/测试集和CV划分时将单个患者作为最小单位保持；即在训练/测试集或在CV划分中将所有属于同一患者的样品保持在一起作为一组。所使用的CV方法包括留一患者(LOPO)和10倍患者水平CV。

性能报告为曲线下面积(AUC)、以及在给定得分阈值处的特异性(1·0-假阳性率)和灵敏度(1·0-假阴性率)。本文设置得分阈值以要求至少＞90％的特异性。对于每次性能测量，使用2000个分层引导程序重复和pROC软件包计算95％置信区间，并报告为[CI下限-上限]。

实施例6

在从外植肺取样中的空间异质性

使用基因组范围的微阵列数据分析来自三名正常肺供体(n＝7)和来自诊断患有IPF的患者的三个肺(n＝53)的总计60个样品。遵循由弗吉尼亚州佛尔斯彻赤InovaFairfax的机构审查委员会(IRB)批准的方案收集在移植手术期间获得的完整的正常肺和患病肺。对来自三名正常供体和三名诊断患有IPF的患者的外植肺的上叶和下叶进行中心取样和外围取样。外植块样品的位置和数据图示于图6中。由发起机构提供外科病理学和最终临床诊断。由三名病理学专家全体一致作出的病理学解读确证所有三个IPF患者外植肺中的UIP。

在七个正常和53个IPF外植肺样品中评估基因表达。对在正常和IPF患者外植块样品之间差异表达的基因进行鉴定并使用R limma软件包(Smyth,G.K.(2005))通过错误发现率(FDR)进行分级。在微阵列训练集中在UIP和非UIP类别之间差异表达的前200个基因示于表12中。使用具有最低FDR调整的P值(<1·45e-07)的前200个基因，针对53个UIP样品的所有对计算皮尔逊相关系数。

表12。在微阵列训练集中在UIP和非UIP类别之间差异表达的前200个基因，其中指示由微阵列分类器使用的22个基因。

缩写：TCID＝转录物簇标识；符号＝基因符号；logFC＝log倍数变化；MedExpr.UIP＝跨UIP样品的中值表达水平；MedExpr.非UIP＝跨UIP样品的中值表达水平；FDR＝错误发现率；由分类器使用＝基因是否由微阵列分类器使用的指示。

取样的数目和位置(上与下以及中心与外围)指示于图6中，并且IPF患者临床特征指示于表4中。为了鉴定在测量空间异质性中有用的基因，本文寻求在正常样品与IPF样品中的差异表达。这种比较产生了约5,000个显著差异表达的RNA转录物，其中FDR<0·05(数据未示出)。本文选择了前200个差异表达的基因，并且测量成对相关。针对三名诊断患有IPF的患者的结果示于图1中。虽然在所有IPF样品中的相关性高，但三个不同的模式出现于IPF样品中的相关性结构中。一名患者(P1)示出在上叶与下叶基因表达中的实质性差异，即在基因信号中相关性较低。一名患者(P3)示出在上叶和下叶取样之间的较高的相关性。第三名患者(P2)示出在这两种情况之间的中间结果，其中在从上叶和下叶取样之间的相关性有时候较高并且有时候较低。在对于少数目的患者而言时，这些结果表明在分类器开发的训练阶段期间具有叶特异性病理学的样品可以是更准确的。基于此信息，本文使用具有在样品水平指定的真实标记的SLB组织使用叶得出的病理学制备了分类器。本文的结果呈现于表7中，证实在SLB组织中以高预期准确性对UIP和非UIP样品分类的分子标记的存在。

表4。三名IPF外植块患者的临床特征。

实施例7

微阵列分类器针对外科肺活检的性能

使用对在VATS期间获得的活检的样品的特异性病理学标记，通过逻辑回归针对将UIP和非UIP样品分离开来的前200个基因(参见表12)训练微阵列分类器。最终模型用22个基因(表5)构建。

通过稳健多阵列平均(RMA)将表达数据归一化。通过使用glmnet3以lasso惩罚进行逻辑回归来进行特征选择和模型估计。使用TopHat对原始读取进行比对。使用HTSeq获得基因计数，并且使用DESeq进行归一化。使用前几个特征(N范围为从10至200)用e1071文库训练线性支持向量机(SVM)。使用pROC软件包计算置信区间。

将LOPO CV性能总结为受试者工作特征(ROC)曲线(图2A)。AUC是0·9[CI 0·82-0·96]，其中特异性为92％[CI 84％-100％]并且灵敏度为64％[CI 49％-79％]。示出所有患者的个人LOPO CV分类得分(图2B)。在三个错误分类的非UIP样品中，两个具有非常接近阈值的得分(0·86和1·30)，并且一个具有高分(4·21)。具有高分的后一个样品在样品水平和患者水平两者下被诊断为‘不可分类的纤维化ILD’。在UIP样品中，十五个(36％)具有低于阈值的得分(假阴性)，但那些样品中无一具有大的阴性得分。由于在某些情况下，LOPOCV具有高估性能的可能，本文还评估了10倍患者水平CV(即，在每个循环中留出10％的患者)，其给出了非常相似的性能(来个五个重复的10倍CV的AUC中值是0·88)。

表5。在优选阵列分类器中所包含的二十二个基因。

缩写：TCID＝转录物簇标识；符号＝基因符号；logFC＝log倍数变化；MedExpr.UIP＝跨UIP样品的中值表达水平；MedExpr.非UIP＝跨UIP样品的中值表达水平；FDR＝错误发现率。

独立测试集性能示于图2C中，显示AUC为0·94[CI 0·86-0·99]，其中特异性为92％[CI 81％-100％]并且灵敏度为82％[CI 64％-95％]。单独的分类得分分布示出在UIP和非UIP类之间的良好分离(图2D)。两个错误分类的非UIP样品具有患者水平和样品水平的指示诊断中的不确定性的专家诊断：‘不可分类的纤维化ILD’。在测试集中观察到的得分范围(图2D)比在LOPO CV得分中所见的范围(图2B)窄，可能是由于与通过应用单一模型获得的得分相比在每个CV循环内在应用一系列子分类器中具有固有的更大的可变性。包含95％置信区间的分类性能概述于表6中。

表6。包含95％置信区间(CI)的分类器性能概述。

本文的方法提供了显著的优势。更早的基因表达谱分析研究集中于比较IPF与一些非IPF ILD亚型(如HP或NSIP)，或针对未患有ILD的受试者^18,19,23,25。此处报告的非UIP组群代表广谱病理学亚型(包括HP、NSIP、结节病、RB、细支气管炎、机化性肺炎(OP)以及其他)，由此接近在临床实践中遇到的ILD的多样性。此外，使用储备的和预期收集的SLB的组合训练并测试分类器，以确保在样品处理和收集中抵抗潜在差异的稳固性。最终，许多较早的研究仅集中于差异基因表达分析上，而未构建分类引擎。相比之下，本文的方法是用于开发分子测试的严谨方法，该方法当适当地训练并验证时良好地推广到独立数据集中。

实施例8

RNASeq分类器针对外科肺活检的性能

使用具有RNASeq数据的36个样品子集训练线性SVM分类器，并且通过LOPO CV评估性能。对于跨越10至200的基因数目，AUC始终高于0·80(数据未示出)。本文选择使用了100个基因的模型以用于进一步检验。AUC是0·9[CI 0·77-1·00](特异性＝95％[CI 84％-100％]，灵敏度＝59％[CI 35％-82％])(图3A)。仅一个非UIP样品被错误分类(图3B)。对于此样品的样品水平病理学是呼吸性细支气管炎(RB)，并且患者病理学是弥漫性肺泡损伤(DAD)，这些是因其稀少一直难以建模的两种亚型。本文使用匹配阵列数据对相同组的样品进行了相似的分析；基于阵列的分类器使用160个基因达到了相似的性能(AUC＝0·86[CI0·73-0·96])。特异性是95％[CI 84％-100％]，并且灵敏度是47％[CI 24％-71％](图3C)。有趣的是，被RNASeq分类器错误分类为UIP的相同的非UIP样品也由微阵列分类器错误分类(图3D)。总体上，基于RNASeq的分类实现了与阵列平台的性能可比的性能。

实施例9

与分类器使用的基因相关的生物途径

为了确定是否存在机器学习过程所选择基因中的共同生物基础，本文使用过度呈现分析(over-representation analysis，ORA)以鉴定所选途径中基因的统计学上显著的参与。在作为ORA测试集的微阵列测试集(n＝77)中，使用GeneTrail软件(genetrail.bioinf.uni-sb.de/)和在UIP与非UIP样品之间差异表达的前1,000个基因(通过limma)(FDR<0·013)进行过/欠表达分析(ORA)。ORA参考集包括KEGG途径和基因本体(GO)数据库中所有的人类基因(n＝44,829)以及注释。通过Fisher精确检验，以p<0·05的校正FDR阈值评估显著性。

在检验UIP与非UIP比较中发现的前1000个基因中，出现不同的发现(表2)。

表2。在UIP和非UIP样品中过度呈现的京都基因与基因组百科全书(KEGG)途径和基因本体(GO)。在每个样品组群中的类别是通过FDR p值分级的。

在非UIP中过度呈现

缩写：FDR＝错误发现率；GO＝基因本体；KEGG＝京都基因与基因组百科全书；ORA＝过度呈现分析。

在UIP中，在细胞粘附、肌肉疾病、细胞迁移和运动性中涉及的基因占主导。这些结果与在IPF中差异调节的途径的先前报道^18,19,22,23一致。相比之下，其他非UIP亚型过表达在免疫过程(包括适应性和先天性系统)中涉及的基因。这种富集可能是由于存在于非UIP组群中的RB和HP亚型；已知展现免疫组分的疾病²⁴。在KEGG途径和基因本体组中过代表的基因概述于表7和表8中。

表7。在UIP样品的KEGG途径和基因本体组中过度呈现的基因。

表8。在非UIP样品的KEGG途径和基因本体组中过度呈现的基因。

实施例10

错误标记模拟研究

对微阵列训练集进行交换二元分类标记(UIP或非UIP)的模拟研究。随机选择样品以用于标记排列，每个模拟集的总比例范围为从1％至40％。在三名病理学专家诊断的盲性审评中达成一致的水平是3/3(n＝44)、2/2(n＝8)、2/3(n＝24)、和1/3(n＝1)。以与解释三名病理学专家盲性审评中不一致水平的概率成比例的权重将样品标记改变为其他类别：对于3/3或2/2一致为5％，对于2/3一致为50％，并且对于1/3一致为90％。在每个比例下将模拟重复100次。

跨交换标记的一系列比例，经100次重复模拟来评估LOPO CV性能(AUC)(图4)。当不存在标记交换时，性能中值非常接近于图2A中所示的阵列分类器性能(AUC＝0·9)。(使用相同的样品和标记集，模型估计可以具有轻微的可变性)。在交换率增加时，性能单调地降低。当40％的标记交换时，性能中值接近0·5，指示分类几乎等于随机机会。

实施例11

UIP/非UIP差异基因表达的幅值和方向在吸烟者与非吸烟者测试受试者中不同。

与在从未吸烟的人中相比，间质性肺病在吸烟或曾经具有长吸烟史之后戒烟的人中更流行。本文比较了来自吸烟者和非吸烟者UIP或非UIP受试者的样品的差异基因表达谱，以确定吸烟状况是否影响UIP诊断分类器的性能。

制备经支气管活检样品[根据实施例1和2中所述的方法，并且根据实施例3中所述的方法进行RNA测序分析]。生成针对24个样品子集(9个UIP和15个非UIP)的RNASeq数据，并且根据三种二元比较分析差异基因表达：(i)UIP与非UIP，对应地n＝9和15个样品；(ii)非吸烟者UIP与非吸烟者非UIP，对应地n＝3和5个样品；以及(iii)吸烟者UIP与吸烟者非UIP，对应地n＝12和4个样品。

组(i)至(iii)的表达分析的结果分别示于表9至11中，并且概述于图8-10中。在UIP和非UIP样品之间差异表达的基因的数目在吸烟者与非吸烟者之间显著不同(64个差异表达于来自吸烟者的样品中，671个差异表达于来自非吸烟者的样品中)(图8)。并且，在非吸烟者中差异上调的某些基因在未差异表达于吸烟者中时下调(图9和10)。这些数据证实在来自非吸烟者的样品的UIP分类中有用的某些基因不是提供信息的，或在吸烟者中在相同疾病的诊断中可以是矛盾的。在基因表达中的吸烟者状况差异可以降低使用传统2类机器学习方法产生的基因表达分类器预测的性能。本文使用三种不同的技术克服了这个问题，这些技术任选地进行组合或单独地使用，和UIP与非UIP分类器及经由在此公开的诊断方法诊断UIP与非UIP的方法相组合。

在第一种方法中，在训练期间在模型中将吸烟状况(吸烟者与非吸烟者)用作协变量。这种简单方法提高了特别是在得自吸烟者的数据(噪音较高)中的信噪比，并且允许得自吸烟者和非吸烟者的数据组合并同时使用。

在第二种方法中，在分类器训练期间，鉴定并排除对吸烟者状况偏倚敏感的基因，或任选地给予该基因不同于对这种偏倚不敏感的基因的权重。此方法富集了用于用没有被吸烟状况混淆或影响的基因进行训练的特征空间。

在第三种方法中，采用分层分类工作，其中初始分类器被训练为识别区分吸烟者与非吸烟者的基因标记。一旦患者样品被预分类为“吸烟者”或“非吸烟者”，实施各自被训练为对应地区分吸烟者或非吸烟者中的UIP与非UIP的不同分类器。此类吸烟者或非吸烟者特异性分类器提供了改进的诊断性能。

表9。不论吸烟者状况，在UIP与非UIP样品中差异表达的基因。

UIP(n＝9个样品)；非UIP(n＝15个样品)。阳性log2倍数变化值指示相对于非UIP在UIP中的表达过度；阴性log2值指示相对于非UIP在UIP中的表达不足。在此分析中，不评估涉及的患者的吸烟史状况，并且组群涵盖吸烟者和非吸烟者两者。

表10。在非吸烟者UIP与非吸烟者非UIP样品中差异表达的基因。

UIP(n＝3个样品)；非UIP(n＝5个样品)。阳性log2倍数变化值指示相对于非UIP在UIP中的表达过度；阴性log2值指示相对于非UIP在UIP中的表达不足。在此分析中，仅评估没有任何吸烟史的患者，因此该子集仅涵盖非吸烟者。

表11。在来自吸烟者的UIP样品中与来自吸烟者的非UIP样品中差异表达的基因。

UIP(n＝12个样品)；非UIP(n＝4个样品)。阳性log2倍数变化值指示相对于非UIP在UIP中的表达过度；阴性log2值指示相对于非UIP在UIP中的表达不足。在此分析中，仅评估具有吸烟史的患者，因此该子集仅涵盖吸烟者。

上述不同的实施方案可以组合以提供另外的实施方案。将在本说明书中引用的和/或在申请数据表中列举的所有美国专利申请公开案、美国专利申请、外国专利、外国专利申请和非专利公开案通过引用以其全文结合在此。如果必要的话，可以修改实施方案的方面，以采用不同专利、申请和公开案的概念以提供又另外的实施方案。

根据上文详细说明，可以对实施方案作出这些和其他改变。总体上，在以下权利要求书中，所使用的术语不应解读为将权利要求书限制为说明书和权利要求书中公开的具体实施方案，而应解读为包括所有可能的实施方案连同这些权利要求所享有的等效权利的全部范围。因此，权利要求书不受本公开文本的限制。

在此描述的一些实施方案涉及具有非暂时性计算机可读介质(还可以称作非暂时性处理器可读介质)的计算机存储产品，该介质上具有用于执行各种计算机实施的操作的指令或计算机代码。计算机可读介质(或处理器可读介质)在它本身不包括暂时性传播信号(例如，在传输介质如空间或缆线上传播携带信息的电磁波)的意义上是非暂时性的。该介质和计算机代码(还可以称作代码)可以是被设计并构建为用于特定目的或多个目的的那些。非暂时性计算机可读介质的例子包括但不限于磁存储介质，如硬盘、软盘、和磁带；光存储介质，如光碟/数字视频光碟(CD/DVD)、光碟只读存储器(CD-ROM)、以及全息设备；磁光存储介质，如光盘；载波信号处理模块；以及被专门配置为存储并执行程序代码的硬件设备，如专用集成电路(ASIC)、可编程逻辑设备(PLD)、只读存储器(ROM)和随机存取存储器(RAM)设备。在此描述的其他实施方案涉及计算机程序产品，其可以包括例如在此讨论的指令和/或计算机代码。

在此描述的一些实施方案和/或方法可以通过软件(在硬件上执行)、硬件或其组合来进行。硬件模块可以包括通用处理器、现场可编程门阵列(FPGA)、和/或专用集成电路(ASIC)。软件模块(在硬件上执行)可以以多种软件语言(例如，计算机代码)表达，包括C、C++、Java^TM、Ruby、Visual Basic^TM、R，和/或其他面向对象的、程序式的、统计学的或其他编程语言和开发工具。计算机代码的例子包括但不限于微代码或微指令、机器指令(如由编译器产生的)、用于产生网络服务的代码、以及包含使用解释器由计算机执行的高水平指令的文件。例如，实施方案可以使用命令式编程语言(例如，C、Fortran等)、函数式编程语言(例如，Haskell、Erlang等)、逻辑式编程语言(例如，Prolog)、面向对象的编程语言(例如，Java、C++等)、统计学编程语言和/或环境(例如，R等)或其他适合的编程语言和/或开发工具实施。计算机代码的另外的例子包括但不限于控制信号、加密代码、和压缩代码。

参考文献

将以下全部参考文献以其全文结合在此。

1.du Bois RM.Strategies for treating idiopathic pulmonaryfibrosis.Nature reviews Drug discovery 2010；9(2):129-40.

2.Hodnett PA,Naidich DP.Fibrosing Interstitial Lung Disease:APractical HRCT Based Approach to Diagnosis and Management and Review of theLiterature.American Journal of Respiratory Critical Care Medicine 2013.

3.American Thoracic Society.Idiopathic pulmonary fibrosis:diagnosisand treatment.International consensus statement.American Thoracic Society(ATS),and the European Respiratory Society(ERS).American journal ofrespiratory and critical care medicine 2000；161(2Pt 1):646-64.

4.King TE,Jr.,Pardo A,Selman M.Idiopathic pulmonaryfibrosis.Lancet2011；378(9807):1949-61.

5.Raghu G,Collard HR,Egan JJ,et al.An official ATS/ERS/JRS/ALATstatement:idiopathic pulmonary fibrosis:evidence-based guidelines fordiagnosis and management.American journal of respiratory and critical caremedicine2011；183(6):788-824.

6.Wells AU.The revised ATS/ERS/JRS/ALAT diagnostic criteria foridiopathic pulmonary fibrosis(IPF)--practical implications.Respiratoryresearch2013；14 Suppl 1:S2.

7.Fernandez Perez ER,Daniels CE,Schroeder DR,et al.Incidence,prevalence,and clinical course of idiopathic pulmonary fibrosis:a population-based study.Chest 2010；137(1):129-37.

8.du Bois RM,Weycker D,Albera C,et al.Ascertainment of individualrisk of mortality for patients with idiopathic pulmonary fibrosis.Americanjournal of respiratory and critical care medicine 2011；184(4):459-66.

9.King TE,Jr.,Bradford WZ,Castro-Bernardini S,et al.A phase 3 trialof pirfenidone in patients with idiopathic pulmonary fibrosis.N Engl JMed2014；370(22):2083-92.

10.Richeldi L,du Bois RM,Raghu G,et al.Efficacy and safety ofnintedanib in idiopathic pulmonary fibrosis.N Engl J Med 2014；370(22):2071-82.

11.Woodcock HV,Maher TM.The treatment of idiopathic pulmonaryfibrosis.F1000prime reports 2014；6:16.

12.Cottin V,Richeldi L.Neglected evidence in idiopathic pulmonaryfibrosis and the importance of early diagnosis and treatment.Europeanrespiratory review:an official journal of the European Respiratory Society2014；23(131):106-10.

13.Sumikawa H,Johkoh T,Colby TV,et al.Computed tomography findings inpathological usual interstitial pneumonia:relationship to survival.Americanjournal of respiratory and critical care medicine 2008；177(4):433-9.

14.Wells AU.Managing diagnostic procedures in idiopathic pulmonaryfibrosis.European respiratory review:an official journal of the EuropeanRespiratory Society 2013；22(128):158-62.

15.Collard HR,King TE,Jr.,Bartelson BB,Vourlekis JS,Schwarz MI,BrownKK.Changes in clinical and physiologic variables predict survival inidiopathic pulmonary fibrosis.American journal of respiratory and criticalcare medicine 2003；168(5):538-42.

16.Nicholson AG,Addis BJ,Bharucha H,et al.Inter-observer variationbetween pathologists in diffuse parenchymal lung disease.Thorax 2004；59(6):500-5.

17.Flaherty KR,King TE,Jr.,Raghu G,et al.Idiopathic interstitialpneumonia:what is the effect of a multidisciplinary approach to diagnosis？American journal of respiratory and critical care medicine 2004；170(8):904-10.

18.Selman M,Pardo A,Barrera L,et al.Gene expression profilesdistinguish idiopathic pulmonary fibrosis from hypersensitivitypneumonitis.American journal of respiratory and critical care medicine2006；173(2):188-98.

19.Lockstone HE,Sanderson S,Kulakova N,et al.Gene set analysis oflung samples provides insight into pathogenesis of progressive,fibroticpulmonary sarcoidosis.American journal of respiratory and critical caremedicine2010；181(12):1367-75.

20.Katzenstein AL.Smoking-related interstitial fibrosis(SRIF),pathogenesis and treatment of usual interstitial pneumonia(UIP),andtransbronchial biopsy in UIP.Modern pathology:an official journal of theUnited States and Canadian Academy of Pathology,Inc 2012；25 Suppl 1:S68-78.

21.Team RC.R:A language and environment for statistical computing.RFoundation for Statistical Computing,Vienna,Austria http://wwwR-projectorg/2014.

22.Pardo A,Gibson K,Cisneros J,et al.Up-regulation and profibroticrole of osteopontin in human idiopathic pulmonary fibrosis.PLoS medicine2005；2(9):e251.

23.DePianto DJ,Chandriani S,Abbas AR,et al.Heterogeneous geneexpression signatures correspond to distinct lung pathologies and biomarkersof disease severity in idiopathic pulmonary fibrosis.Thorax 2014.

24.Selman M,Pardo A,King TE,Jr.Hypersensitivity pneumonitis:insightsin diagnosis and pathobiology.American journal of respiratory and criticalcare medicine 2012；186(4):314-24.

25.Yang IV,Coldren CD,Leach SM,et al.Expression of cilium-associatedgenes defines novel molecular subtypes of idiopathic pulmonaryfibrosis.Thorax2013.

26.Garcia-Alvarez J,Ramirez R,Checa M,et al.Tissue inhibitor ofmetalloproteinase-3 is up-regulated by transforming growth factor-beta1 invitro and expressed in fibroblastic foci in vivo in idiopathic pulmonaryfibrosis.Experimental lung research 2006；32(5):201-14.

27.Piotrowski WJ,Gorski P,Pietras T,Fendler W,Szemraj J.The selectedgenetic polymorphisms of metalloproteinases MMP2,7,9 and MMP inhibitor TIMP2in sarcoidosis.Medical science monitor:international medical journal ofexperimental and clinical research 2011；17(10):CR598-607.

28.Chaudhuri R,McSharry C,Brady J,et al.Low sputum MMP-9/TIMP ratiois associated with airway narrowing in smokers with asthma.The Europeanrespiratory journal:official journal of the European Society for ClinicalRespiratory Physiology 2014；44(4):895-904.

29.Hviid TV,Milman N,Hylenius S,Jakobsen K,Jensen MS,Larsen LG.HLA-Gpolymorphisms and HLA-G expression in sarcoidosis.Sarcoidosis,vasculitis,anddiffuse lung diseases:official journal of WASOG/World Association ofSarcoidosis and Other Granulomatous Disorders 2006；23(1):30-7.

30.Li GY,Kim M,Kim JH,Lee MO,Chung JH,Lee BH.Gene expressionprofiling in human lung fibroblast following cadmium exposure.Food andchemical toxicology:an international journal published for the BritishIndustrial Biological Research Association 2008；46(3):1131-7.

31.Ozsolak F,Milos PM.RNA sequencing:advances,challenges andopportunities.Nature reviews Genetics 2011；12(2):87-98.

32.Mutz KO,Heilkenbrinker A,Lonne M,Walter JG,Stahl F.Transcriptomeanalysis using next-generation sequencing.Current opinion in biotechnology2013；24(1):22-

序列表

<110> 维拉赛特股份有限公司（Veracyte, Inc.）

S·Y·金姆（Kim, Su Yeon）

J·迪甘斯（Diggans, James）

D·潘克拉茨（Pankratz, Dan）

J·黄（Huang, Jing）

Y·崔（Choi, Yoonha）

M·帕甘（Pagan, Moraima）

G·C·肯尼迪（Kennedy, Giulia C. ）

<120> 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法

<130> VRCT-003/01WO 307081-2058

<150> US 62/130,800

<151> 2015-03-10

<150> US 62/075,328

<151> 2014-11-05

<160> 22

<170> PatentIn version 3.5

<210> 1

<211> 1041

<212> DNA

<213> 人（Homo sapiens）

<400> 1

atggcgcccc gaagcctcct cctgctgctc tcaggggccc tggccctgac cgatacttgg 60

gcaggctccc actccttgag gtatttcagc accgctgtgt cgcggcccgg ccgcggggag 120

ccccgctaca tcgccgtgga gtacgtagac gacacgcaat tcctgcggtt cgacagcgac 180

gccgcgattc cgaggatgga gccgcgggag ccgtgggtgg agcaagaggg gccgcagtat 240

tgggagtgga ccacagggta cgccaaggcc aacgcacaga ctgaccgagt ggccctgagg 300

aacctgctcc gccgctacaa ccagagcgag gctgggtctc acaccctcca gggaatgaat 360

ggctgcgaca tggggcccga cggacgcctc ctccgcgggt atcaccagca cgcgtacgac 420

ggcaaggatt acatctccct gaacgaggac ctgcgctcct ggaccgcggc ggacaccgtg 480

gctcagatca cccagcgctt ctatgaggca gaggaatatg cagaggagtt caggacctac 540

ctggagggcg agtgcctgga gttgctccgc agatacttgg agaatgggaa ggagacgcta 600

cagcgcgcag atcctccaaa ggcacacgtt gcccaccacc ccatctctga ccatgaggcc 660

accctgaggt gctgggccct gggcttctac cctgcggaga tcacgctgac ctggcagcgg 720

gatggggagg aacagaccca ggacacagag cttgtggaga ccaggcctgc aggggatgga 780

accttccaga agtgggccgc tgtggtggtg ccttctggag aggaacagag atacacatgc 840

catgtgcagc acgaggggct gccccagccc ctcatcctga gatgggagca gtctccccag 900

cccaccatcc ccatcgtggg catcgttgct ggccttgttg tccttggagc tgtggtcact 960

ggagctgtgg tcgctgctgt gatgtggagg aagaagagct cagatagaaa cagagggagc 1020

tactctcagg ctgcagtgtg a 1041

<210> 2

<211> 1993

<212> DNA

<213> 人（Homo sapiens）

<400> 2

caggtgttgg tgcctgccgt gaacgcattc tgacctgggc cgtatctgtc tcccaagact 60

ttgtgcctat ggttggggac agagtgaggt cgttgccttg acgacgacag catgcggccc 120

gtggtcctcc taagtgtgag cttgcggcgg accgaggccc acctgcctcc ctgcctgctt 180

cgccctggac tcgtgactgc gtccgcagaa gaaatcacaa cagcgctgga attgctagtt 240

tgctaggcag catcttttgg acctgcgaac catatgcatt tcacctcaaa tttgtttcca 300

agttgaaaac ctttgggtct ttctatgcga acggattgaa gaaacgcaaa aagtttctac 360

ggactttaaa ttaaaatgga aaaatatgaa aacctgggtt tggttggaga agggagttat 420

ggaatggtga tgaagtgtag gaataaagat actggaagaa ttgtggccat aaagaagttc 480

ttagaaagtg acgatgacaa aatggttaaa aagattgcaa tgcgagaaat caagttacta 540

aagcaactta ggcatgaaaa cttggtgaat ctcttggaag tgtgtaagaa aaaaaaacga 600

tggtacctag tctttgaatt tgttgaccac acaattcttg atgacttgga gctctttcca 660

aatggactag actaccaagt agttcaaaag tatttgtttc agattattaa tggaattgga 720

ttttgtcaca gtcacaatat catacacaga gatataaagc cagagaatat attagtctcc 780

cagtctggcg ttgtcaagct atgcgatttt ggatttgcgc gaacattggc agctcctggg 840

gaggtttata ctgattatgt ggcaacccga tggtacagag ctccagaact attggttggt 900

gatgtcaagt atggcaaggc tgttgatgtg tgggccattg gttgtctggt aactgaaatg 960

ttcatggggg aacccctatt tcctggagat tctgatattg atcagctata tcatattatg 1020

atgtgtttag gtaatctaat tccaaggcat caggagcttt ttaataaaaa tcctgtgttt 1080

gctggagtaa ggttgcctga aatcaaggaa agagaacctc ttgaaagacg ctatcctaag 1140

ctctctgaag tggtgataga tttagcaaag aaatgcttac atattgaccc cgacaaaaga 1200

cccttctgtg ctgagctcct acaccatgat ttctttcaaa tggatggatt tgctgagagg 1260

ttttcccaag aactacagtt aaaagtacag aaagatgcca gaaatgtttc tttatctaaa 1320

aaatcccaaa acagaaagaa ggaaaaagaa aaagatgatt ccttagttga agaaagaaaa 1380

acacttgtgg tacaggatac caatgctgat cccaaaatta aggattataa actatttaaa 1440

ataaaaggct caaaaattga tggagaaaaa gctgaaaaag gcaatagagc ttcaaatgcc 1500

agctgtctcc atgacagtag gacaagccac aacaaaatag tgccttcaac aagcctcaaa 1560

gactgcagca atgtcagcgt ggaccacaca aggaatccaa gcgtggcaat tcccccactt 1620

acacacaatc tttctgcagt tgctcccagc attaattctg gaatggggac tgagactata 1680

ccaattcagg gttacagagt ggatgagaaa actaagaagt gttctattcc atttgttaaa 1740

ccgaacagac attccccatc aggcatttat aacattaatg tgaccacatt agtatcagga 1800

cctcccctgt cagatgattc aggggctgat ttgcctcaaa tggaacacca gcactgagaa 1860

ccattttggt tctgaactgg atgatgctct tgcacttgag atgacatctt cttgcagcaa 1920

gaaaaaaaaa aaaaaaaaaa aaaaaaaaac aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1980

aaaaaaaaaa aaa 1993

<210> 3

<211> 3918

<212> DNA

<213> 人（Homo sapiens）

<400> 3

gttaattgga gcccacgcct gaatctagat ttcagtgttg cagtgattac aatattggat 60

aatgatgacc tggcaggaat ggatatttcc ttccccgaga caactgtggc tgtagcagtt 120

gacacaactc tcattcctgt agaaactgaa tccaccacat acctcagcac aagcaagacg 180

actaccattc tgcagccaac caacgtggtt gccattgtta ctgaggcaac tggtgtatct 240

gccatccctg agaaacttgt cacccttcat ggcacacctg ctgtgtctga aaagcctgat 300

gtggccactg taactgccaa tgtttccatt catggaacat tcagccttgg gccatccatt 360

gtttatattg aagaggagat gaagaatggc acattcaaca ctgcagaagt tcttatccga 420

agaactggtg ggtttactgg caatgtcagc ataacagtta aaactttcgg tgaaagatgt 480

gctcagatgg aaccaaatgc attgcccttt cgtggtatct atgggatttc caacctaaca 540

tgggcagttg aagaagaaga ctttgaagaa caaactctta cccttatatt cctagatgga 600

gaaagagaac gtaaagtatc agttcaaatt ttggatgatg atgagcctga ggggcaggaa 660

ttcttctacg tgtttctcac aaaccctcaa gggggagcac agattgtgga ggggaaggat 720

gatactggat ttgcagcttt tgccatggtt attattacag ggagtgacct tcacaatggc 780

atcataggat tcagtgagga gtcccagagt ggactagaac tcagggaagg agctgttatg 840

agaagattgc accttattgt cacaagacag ccaaacaggg cctttgaaga tgtcaaggtc 900

ttttggcgag tcacacttaa caaaacagtc gtcgtgctcc agaaggatgg ggtaaacctg 960

atggaggaac ttcagtctgt gtcagggacc acaacctgta caatgggtca aacaaaatgc 1020

tttatcagca ttgaactcaa accagaaaag gtaccacagg ttgaagtgta tttttttgtg 1080

gaactatatg aagctactgc tggagcagca ataaacaaca gtgccagatt cgcacagatt 1140

aaaatcttag aaagtgatga atctcaaagc cttgtgtatt tttctgtggg ttctcggctg 1200

gcagtggctc acaagaaggc cactttaatc agtctgcagg tggccagaga ttctgggaca 1260

ggactaatga tgtctgttaa ctttagtacc caggagttga ggagtgctga aacaattggt 1320

cgtaccatca tatctccagc tatttctgga aaggattttg tgataactga aggcacattg 1380

gtctttgaac ctggccagag aagcactgta ttggatgtca tcctaacgcc agagacagga 1440

tctttaaatt catttcctaa acgcttccag attgtccttt ttgacccaaa aggtggtgcc 1500

agaattgata aagtgtatgg gactgccaac atcactcttg tctcagatgc agattcgcag 1560

gccatttggg ggcttgcaga tcagctacat cagcctgtga atgatgatat tctcaacaga 1620

gtgctccata ccatcagcat gaaagtggcc acagaaaaca cagatgaaca actcagtgcc 1680

atgatgcatt taatagaaaa gataactact gaaggaaaaa ttcaagcttt cagtgttgcc 1740

agccgaactc ttttctatga gattctttgt tctcttatta acccaaagcg caaggacact 1800

aggggattca gtcactttgc tgaagtgact gagaattttg ccttttctct gctgactaat 1860

gttacttgcg gctctcctgg tgaaaaaagc aaaaccatcc ttgatagttg cccatatttg 1920

tcaatattgg ctcttcactg gtatcctcag caaatcaatg gacacaagtt tgaaggaaag 1980

gaaggagatt acattcgaat tccagagagg ctactggatg tccaggatgc agaaataatg 2040

gctgggaaaa gtacatgtaa attagtccag tttacagagt atagcagcca acagtggttt 2100

ataagtggaa acaatcttcc taccctaaaa aataaggtat tatctttgag tgtgaaaggt 2160

cagagttcac aactcctgac taatgacaat gaggttctct acaggattta tgctgctgag 2220

cctagaatta ttcctcagac atctctgtgt ctcctttgga atcaggctgc tgcaagctgg 2280

ttgtctgaca gtcagttttg caaagtgatt gaggaaactg cagactatgt ggaatgtgcc 2340

tgttcacaca tgtctgtgta tgctgtctat gctcggactg acaacttgtc ttcatacaat 2400

gaagccttct tcacttctgg atttatatgt atctcaggtc tttgcttggc tgttctttcc 2460

catatcttct gtgccaggta ctccatgttt gcagctaaac ttctgactca catgatggca 2520

gccagcttag gtacacagat tctgtttctg gcgtctgcat acgcaagtcc ccaactcgct 2580

gaggagagct gttcagctat ggctgctgtc acacattacc tgtatctttg ccagtttagc 2640

tggatgctca ttcagtctgt gaatttctgg tacgtgctgg tgatgaatga tgagcacaca 2700

gagaggcgat atctgctgtt tttccttctg agttggggac taccagcttt tgtggtgatt 2760

ctcctcatag ttattttgaa aggaatctat catcagagca tgtcacagat ctatggactc 2820

attcatggtg acctgtgttt tattccaaac gtctatgctg ctttgttcac tgcagctctt 2880

gttcctttga cgtgcctcgt ggtggtgttc gtggtgttca tccatgccta ccaggtgaag 2940

ccacagtgga aagcatatga tgatgtcttc agaggaagga caaatgctgc agaaattcca 3000

ctgattttat atctctttgc tctgatttcc gtgacatggc tttggggagg actacacatg 3060

gcctacagac acttctggat gttggttctc tttgtcattt tcaacagtct gcagggactt 3120

tatgttttca tggtttattt cattttacac aaccaaatgt gttgccctat gaaggccagt 3180

tacactgtgg aaatgaatgg gcatcctgga cccagcacag cctttttcac gcccgggagt 3240

ggaatgcctc ctgctggagg ggaaatcagc aagtccaccc agaatctcat cggtgctatg 3300

gaggaggtgc cacctgactg ggagagagca tccttccaac agggcagtca ggccagccct 3360

gatttaaagc caagtccaca aaatggagcc acgttcccgt cctctggagg atatggccag 3420

gggtcactga tagccgatga ggagtcccag gagtttgatg atttaatatt tgcattaaaa 3480

actggtgctg gtctcagtgt cagtgataat gaatctggtc aaggcagcca ggaggggggc 3540

accttgactg actcccagat cgtggagctc aggaggatac ccatcgccga cactcacctg 3600

tagcacctca ctaaccattc gactgagcac actttcatat ttgtatcagc ttttgtgcta 3660

aaactctcta agtacatcca cctgtgtaat aggaacctgt gaattgtact ggatgattaa 3720

tacaaacgtg attgttgtat ttggagtata aattactgat tgtatgtgac ctgaaaattc 3780

actgctataa gaaaggtgga gtcagtttgt atcagttaat aggatgttca tattccaagg 3840

atattagttg tttttttaat catcctatat ggctaacatt gtttaatgaa agtaataatc 3900

aataaagcaa tagaatct 3918

<210> 4

<211> 2705

<212> DNA

<213> 人（Homo sapiens）

<400> 4

tgctcgctcc agggcgcaac catgtcgcca tttcttcgga ttggcttgtc caactttgac 60

tgcgggtcct gccagtcttg tcagggcgag gctgttaacc cttactgtgc tgtgctcgtc 120

aaagagtatg tcgaatcaga gaacgggcag atgtatatcc agaaaaagcc taccatgtac 180

ccaccctggg acagcacttt tgatgcccat atcaacaagg gaagagtcat gcagatcatt 240

gtgaaaggca aaaacgtgga cctcatctct gaaaccaccg tggagctcta ctcgctggct 300

gagaggtgca ggaagaacaa cgggaagaca gaaatatggt tagagctgaa acctcaaggc 360

cgaatgctaa tgaatgcaag atactttctg gaaatgagtg acacaaagga catgaatgaa 420

tttgagacgg aaggcttctt tgctttgcat cagcgccggg gtgccatcaa gcaggcaaag 480

gtccaccacg tcaagtgcca cgagttcact gccaccttct tcccacagcc cacattttgc 540

tctgtctgcc acgagtttgt ctggggcctg aacaaacagg gctaccagtg ccgacaatgc 600

aatgcagcaa ttcacaagaa gtgtattgat aaagttatag caaagtgcac aggatcagct 660

atcaatagcc gagaaaccat gttccacaag gagagattca aaattgacat gccacacaga 720

tttaaagtct acaattacaa gagcccgacc ttctgtgaac actgtgggac cctgctgtgg 780

ggactggcac ggcaaggact caagtgtgat gcatgtggca tgaatgtgca tcatagatgc 840

cagacaaagg tggccaacct ttgtggcata aaccagaagc taatggctga agcgctggcc 900

atgattgaga gcactcaaca ggctcgctgc ttaagagata ctgaacagat cttcagagaa 960

ggtccggttg aaattggtct cccatgctcc atcaaaaatg aagcaaggcc gccatgttta 1020

ccgacaccgg gaaaaagaga gcctcagggc atttcctggg agtctccgtt ggatgaggtg 1080

gataaaatgt gccatcttcc agaacctgaa ctgaacaaag aaagaccatc tctgcagatt 1140

aaactaaaaa ttgaggattt tatcttgcac aaaatgttgg ggaaaggaag ttttggcaag 1200

gtcttcctgg cagaattcaa gaaaaccaat caatttttcg caataaaggc cttaaagaaa 1260

gatgtggtct tgatggacga tgatgttgag tgcacgatgg tagagaagag agttctttcc 1320

ttggcctggg agcatccgtt tctgacgcac atgttttgta cattccagac caaggaaaac 1380

ctcttttttg tgatggagta cctcaacgga ggggacttaa tgtaccacat ccaaagctgc 1440

cacaagttcg acctttccag agcgacgttt tatgctgctg aaatcattct tggtctgcag 1500

ttccttcatt ccaaaggaat agtctacagg gacctgaagc tagataacat cctgttagac 1560

aaagatggac atatcaagat cgcggatttt ggaatgtgca aggagaacat gttaggagat 1620

gccaagacga ataccttctg tgggacacct gactacatcg ccccagagat cttgctgggt 1680

cagaaataca accactctgt ggactggtgg tccttcgggg ttctccttta tgaaatgctg 1740

attggtcagt cgcctttcca cgggcaggat gaggaggagc tcttccactc catccgcatg 1800

gacaatccct tttacccacg gtggctggag aaggaagcaa aggaccttct ggtgaagctc 1860

ttcgtgcgag aacctgagaa gaggctgggc gtgaggggag acatccgcca gcaccctttg 1920

tttcgggaga tcaactggga ggaacttgaa cggaaggaga ttgacccacc gttccggccg 1980

aaagtgaaat caccatttga ctgcagcaat ttcgacaaag aattcttaaa cgagaagccc 2040

cggctgtcat ttgccgacag agcactgatc aacagcatgg accagaatat gttcaggaac 2100

ttttccttca tgaaccccgg gatggagcgg ctgatatcct gaatcttgcc cctccagaga 2160

caggaaagaa tttgccttct ccctgggaac tggttcaaga gacactgctt gggttccttt 2220

ttcaacttgg aaaaagaaag aaacactcaa caataaagac tgagacccgt tcgcccccat 2280

gtgactttat ctgtagcaga aaccaagtct acttcactaa tgacgatgcc gtgtgtctcg 2340

tctcctgaca tgtctcacag acgctcctga agttaggtca ttactaacca tagttattta 2400

cttgaaagat gggtctccgc acttggaaag gtttcaagac ttgatactgc aataaattat 2460

ggctcttcac ctgggcgcca actgctgatc aacgaaatgc ttgttgaatc aggggcaaac 2520

ggagtacaga cgtctcaaga ctgaaacggc cccattgcct ggtctagtag cggatctcac 2580

tcagccgcag acaagtaatc actaacccgt tttattctat cctatctgtg gatgtataaa 2640

tgctgggggc cagccctgga taggttttta tgggaattct ttacaataaa catagcttgt 2700

acttg 2705

<210> 5

<211> 1578

<212> DNA

<213> 人（Homo sapiens）

<400> 5

agtgtggtac tttgtcttga ggagatgtcc tggactcaca cggaaactta gggctacgga 60

atgaagttct cactcccatt aggtgacagg tttttagaga agccaatcag cgtcgccgcg 120

gtcctggttc taaagtcctc gctcacccac ccggactcat tctccccaga cgccaaggat 180

ggtggtcatg gcgccccgaa ccctcttcct gctgctctcg ggggccctga ccctgaccga 240

gacctgggcg ggctcccact ccatgaggta tttcagcgcc gccgtgtccc ggcccggccg 300

cggggagccc cgcttcatcg ccatgggcta cgtggacgac acgcagttcg tgcggttcga 360

cagcgactcg gcgtgtccga ggatggagcc gcgggcgccg tgggtggagc aggaggggcc 420

ggagtattgg gaagaggaga cacggaacac caaggcccac gcacagactg acagaatgaa 480

cctgcagacc ctgcgcggct actacaacca gagcgaggcc agttctcaca ccctccagtg 540

gatgattggc tgcgacctgg ggtccgacgg acgcctcctc cgcgggtatg aacagtatgc 600

ctacgatggc aaggattacc tcgccctgaa cgaggacctg cgctcctgga ccgcagcgga 660

cactgcggct cagatctcca agcgcaagtg tgaggcggcc aatgtggctg aacaaaggag 720

agcctacctg gagggcacgt gcgtggagtg gctccacaga tacctggaga acgggaagga 780

gatgctgcag cgcgcggacc cccccaagac acacgtgacc caccaccctg tctttgacta 840

tgaggccacc ctgaggtgct gggccctggg cttctaccct gcggagatca tactgacctg 900

gcagcgggat ggggaggacc agacccagga cgtggagctc gtggagacca ggcctgcagg 960

ggatggaacc ttccagaagt gggcagctgt ggtggtgcct tctggagagg agcagagata 1020

cacgtgccat gtgcagcatg aggggctgcc ggagcccctc atgctgagat ggaagcagtc 1080

ttccctgccc accatcccca tcatgggtat cgttgctggc ctggttgtcc ttgcagctgt 1140

agtcactgga gctgcggtcg ctgctgtgct gtggagaaag aagagctcag attgaaaagg 1200

agggagctac tctcaggctg caatgtgaaa cagctgccct gtgtgggact gagtggcaag 1260

tccctttgtg acttcaagaa ccctgactcc tctttgtgca gagaccagcc cacccctgtg 1320

cccaccatga ccctcttcct catgctgaac tgcattcctt ccccaatcac ctttcctgtt 1380

ccagaaaagg ggctgggatg tctccgtctc tgtctcaaat ttgtggtcca ctgagctata 1440

acttacttct gtattaaaat tagaatctga gtataaattt actttttcaa attatttcca 1500

agagagattg atgggttaat taaaggagaa gattcctgaa atttgagaga caaaataaat 1560

ggaagacatg agaacttt 1578

<210> 6

<211> 4553

<212> DNA

<213> 人（Homo sapiens）

<400> 6

acgcgtctgc ggccagcccg gactctttaa aagccggcgg tgcgcggggc atcccagcca 60

agccggagag gaggcgagca gcagggcctg gtggcgagag cgcggctgtc actgcgcccg 120

agcatcccag agctttccga gcggacgagc cggccgtgcc gggcatcccc agcctcgcta 180

ccctcgcagc acacgtcgag ccccgcacag gcgagggtcc ggaacttagc ccaaagcacg 240

tttcccctgg cagcgcagga aacgcccggc cgcgcgccgg cgcacgcccc cctctcctcc 300

tttgttccgg gggtcggcgg ccgctctcct gccagcgtcg ggatctcggc cccgggaggc 360

gggccgtcgg gcgcagccgc gaagatgccg ttggaactga cgcagagccg agtgcagaag 420

atctgggtgc ccgtggacca caggccctcg ttgcccagat cctgtgggcc aaagctgacc 480

aactccccca ccgtcatcgt catggtgggc ctccccgccc ggggcaagac ctacatctcc 540

aagaagctga ctcgctacct caactggatt ggcgtcccca caaaagtgtt caacgtcggg 600

gagtatcgcc gggaggctgt gaagcagtac agctcctaca acttcttccg ccccgacaat 660

gaggaagcca tgaaagtccg gaagcaatgt gccttagctg ccttgagaga tgtcaaaagc 720

tacctggcga aagaaggggg acaaattgcg gttttcgatg ccaccaatac tactagagag 780

aggagacaca tgatccttca ttttgccaaa gaaaatgact ttaaggcgtt tttcatcgag 840

tcggtgtgcg acgaccctac agttgtggcc tccaatatca tggaagttaa aatctccagc 900

ccggattaca aagactgcaa ctcggcagaa gccatggacg acttcatgaa gaggatcagt 960

tgctatgaag ccagctacca gcccctcgac cccgacaaat gcgacaggga cttgtcgctg 1020

atcaaggtga ttgacgtggg ccggaggttc ctggtgaacc gggtgcagga ccacatccag 1080

agccgcatcg tgtactacct gatgaacatc cacgtgcagc cgcgtaccat ctacctgtgc 1140

cggcacggcg agaacgagca caacctccag ggccgcatcg ggggcgactc aggcctgtcc 1200

agccggggca agaagtttgc cagtgctctg agcaagttcg tggaggagca gaacctgaag 1260

gacctgcgcg tgtggaccag ccagctgaag agcaccatcc agacggccga ggcgctgcgg 1320

ctgccctacg agcagtggaa ggcgctcaat gagatcgacg cgggcgtctg tgaggagctg 1380

acctacgagg agatcaggga cacctaccct gaggagtatg cgctgcggga gcaggacaag 1440

tactattacc gctaccccac cggggagtcc taccaggacc tggtccagcg cttggagcca 1500

gtgatcatgg agctggagcg gcaggagaat gtgctggtca tctgccacca ggccgtcctg 1560

cgctgcctgc ttgcctactt cctggataag agtgcagagg agatgcccta cctgaaatgc 1620

cctcttcaca ccgtcctgaa actgacgcct gtcgcttatg gctgccgtgt ggaatccatc 1680

tacctgaacg tggagtccgt ctgcacacac cgggagaggt cagaggatgc aaagaaggga 1740

cctaacccgc tcatgagacg caatagtgtc accccgctag ccagccccga acccaccaaa 1800

aagcctcgca tcaacagctt tgaggagcat gtggcctcca cctcggccgc cctgcccagc 1860

tgcctgcccc cggaggtgcc cacgcagctg cctggacaaa acatgaaagg ctcccggagc 1920

agcgctgact cctccaggaa acactgaggc agacgtgtcg gttccattcc atttccattt 1980

ctgcagctta gcttgtgtcc tgccctccgc ccgaggcaaa acgtatcctg aggacttctt 2040

ccggagaggg tggggtggag cagcggggga gccttggccg aagagaacca tgcttggcac 2100

cgtctgtgtc ccctcggccg ctggacacca gaaagccacg tgggtccctg gcgccctgcc 2160

tttagccgtg gggcccccac ctccactctc tgggtttcct aggaatgtcc agcctcggag 2220

accttcacaa agccttggga gggtgatgag tgctggtcct gacaggaggc cgctggggac 2280

actgtgctgt tttgtttcgt ttctgtgatc tcccggcacg tttggagctg ggaagaccac 2340

actggtggca gaatcctaaa attaaaggag gcaggctcct agttgctgaa agttaaggaa 2400

tgtgtaaaac ctccacgtga ctgtttggtg catcttgacc tgggaagacg cctcatggga 2460

acgaacttgg acaggtgttg ggttgaggcc tcttctgcag gaagtccctg agctgagacg 2520

caagttggct gggtggtccg caccctggct ctcctgcagg tccacacacc ttccaggcct 2580

gtggcctgcc tccaaagatg tgcaagggca ggctggctgc acggggagag ggaagtattt 2640

tgccgaaata tgagaactgg ggcctcctgc tcccagggag ctccagggcc cctctctcct 2700

cccacctgga cttgggggga actgagaaac actttcctgg agctgctggc ttttgcactt 2760

ttttgatggc agaagtgtga cctgagagtc ccaccttctc ttcaggaacg tagatgttgg 2820

ggtgtcttgc cctggggggc ttggaacctc tgaaggtggg gagcggaaca cctggcatcc 2880

ttccccagca cttgcattac cgtccctgct cttcccaggt ggggacagtg gcccaagcaa 2940

ggcctcactc gcagccactt cttcaagagc tgcctgcaca ctgtcttgga gcatctgcct 3000

tgtgcctggc actctgccgg tgccttggga aggtcggaag agtggacttt gtcctggcct 3060

tcccttcatg gcgtctatga cacttttgtg gtgatggaaa gcatgggacc tgtcgtctca 3120

gcctgttggt ttctcctcat tgcctcaaac cctggggtag gtgggacggg gggtctcgtg 3180

cccagatgaa accatttgga aactcggcag cagagtttgt ccaaatgacc cttttcagga 3240

tgtctcaaag cttgtgccaa aggtcacttt tctttcctgc cttctgctgt gagccctgag 3300

atcctcctcc cagctcaagg gacaggtcct gggtgagggt gggagattta gacacctgaa 3360

actgggcgtg gagagaagag ccgttgctgt ttgttttttg ggaagagctt ttaaagaatg 3420

catgtttttt tcctggttgg aattgagtag gaactgaggc tgtgcttcag gtatggtaca 3480

atcaagtggg ggattttcat gctgaaccat tcaagccctc cccgcccgtt gcacccactt 3540

tggctggcgt ctgctggaga ggatgtctct gtccgcattc ccgtgcagct ccaggctcgc 3600

gcagttttct ctctctccct ggatgttgag tctcatcaga atatgtgggt agggggtgga 3660

cgtgcacggg tgcatgattg tgcttaactt ggttgtattt ttcgatttga catggaaggc 3720

ctgttgcttt gctcttgaga atagtttctc gtgtccccct cgcaggcctc attctttgaa 3780

catcgactct gaagtttgat acagataggg gcttgatagc tgtggtcccc tctcccctct 3840

gactacctaa aatcaatacc taaatacaga agccttggtc taacacggga cttttagttt 3900

gcgaagggcc tagataggga gagaggtaac atgaatctgg acagggaggg agatactata 3960

gaaaggagaa cactgcctac tttgcaagcc agtgacctgc cttttgaggg gacattggac 4020

gggggccggg ggcgggggtt gggtttgagc tacagtcatg aacttttggc gtctactgat 4080

tcctccaact ctccacccca caaaataacg gggaccaata tttttaactt tgcctatttg 4140

tttttgggtg agtttccccc ctccttattc tgtcctgaga ccacgggcaa agctcttcat 4200

tttgagagag aagaaaaact gtttggaacc acaccaatga tatttttctt tgtaatactt 4260

gaaatttatt tttttattat tttgatagca gatgtgctat ttatttattt aatatgtata 4320

aggagcctaa acaatagaaa gctgtagaga ttgggtttca ttgttaattg gtttgggagc 4380

ctcctatgtg tgacttatga cttctctgtg ttctgtgtat ttgtctgaat taatgacctg 4440

ggatataaag ctatgctagc tttcaaacag gagatgcctt tcagaaattt gtatattttg 4500

cagttgccag accaataaaa tacctggttg aaatacatgg acgaagtaaa aaa 4553

<210> 7

<211> 1773

<212> DNA

<213> 人（Homo sapiens）

<400> 7

ggaaaacagc agaggtgaca gagcagccgt gctcgaagcg ttcctggagc ccaagctctc 60

ctccacaggt gaagacaggg ccagcaggag acaccatggg gcacctctca gccccacttc 120

acagagtgcg tgtaccctgg caggggcttc tgctcacagc ctcacttcta accttctgga 180

acccgcccac cactgcccag ctcactactg aatccatgcc attcaatgtt gcagagggga 240

aggaggttct tctccttgtc cacaatctgc cccagcaact ttttggctac agctggtaca 300

aaggggaaag agtggatggc aaccgtcaaa ttgtaggata tgcaatagga actcaacaag 360

ctaccccagg gcccgcaaac agcggtcgag agacaatata ccccaatgca tccctgctga 420

tccagaacgt cacccagaat gacacaggat tctacaccct acaagtcata aagtcagatc 480

ttgtgaatga agaagcaact ggacagttcc atgtataccc ggagctgccc aagccctcca 540

tctccagcaa caactccaac cctgtggagg acaaggatgc tgtggccttc acctgtgaac 600

ctgagactca ggacacaacc tacctgtggt ggataaacaa tcagagcctc ccggtcagtc 660

ccaggctgca gctgtccaat ggcaacagga ccctcactct actcagtgtc acaaggaatg 720

acacaggacc ctatgagtgt gaaatacaga acccagtgag tgcgaaccgc agtgacccag 780

tcaccttgaa tgtcacctat ggcccggaca cccccaccat ttccccttca gacacctatt 840

accgtccagg ggcaaacctc agcctctcct gctatgcagc ctctaaccca cctgcacagt 900

actcctggct tatcaatgga acattccagc aaagcacaca agagctcttt atccctaaca 960

tcactgtgaa taatagtgga tcctatacct gccacgccaa taactcagtc actggctgca 1020

acaggaccac agtcaagacg atcatagtca ctgagctaag tccagtagta gcaaagcccc 1080

aaatcaaagc cagcaagacc acagtcacag gagataagga ctctgtgaac ctgacctgct 1140

ccacaaatga cactggaatc tccatccgtt ggttcttcaa aaaccagagt ctcccgtcct 1200

cggagaggat gaagctgtcc cagggcaaca ccaccctcag cataaaccct gtcaagaggg 1260

aggatgctgg gacgtattgg tgtgaggtct tcaacccaat cagtaagaac caaagcgacc 1320

ccatcatgct gaacgtaaac tgtaagtgac tcctcacccc ttcctatatg tccctctagg 1380

attactctgt caatggtgtg caaaatggat aaaactcaca ggaggcagaa tatcaatgaa 1440

gagaccatta tagcaaacag aattgcaaag tggttaagag ctcagctcag gccgggcaca 1500

gtggctcacg cctgtgatcc cagcagtttg ggaggccaag gcgggcggat cacgagggca 1560

ggagatcgag gccatcctgg ctaatatggt gaaaccccgt gtctactaga aatacaaaaa 1620

aaaattagcc gggcatggtg gcgggcgcct gtggtcccag ctactcggga ggctgaggcg 1680

ggagaatggc gtgaacctgg gaggcggagc tttcagtgag ccgagatggt gccactgcac 1740

tccagtctgg gcaacagggc aagactctgt ctc 1773

<210> 8

<211> 1956

<212> DNA

<213> 人（Homo sapiens）

<400> 8

gtgatgtgtt taccttcagt gtctccttgg aggtaaaaga agacgatgga aaaggaaact 60

ttagccctgt gcctaggata gagataaatt ttatttcaaa ttaaagcaag gaatagagaa 120

gaaggttgtg attacagtgc agcaactttc taacaaagaa ttagctattg aaagatgttt 180

tggaatgtta ttaagcccag gtcgaaacgt gaagaacagt gacatgcatt tactggatat 240

ggaatccatg ggaaagagct atgatgggag agcttatgtc atcactggca tgtggaaccc 300

caatgcacca gtatttctgg cacttaacga ggaaacccca aaagataagc aagtatacat 360

gactgtggca gtggatatgg tagtcacaga ggtggtggag cctgttcgct ttctcctgga 420

gacagtagtc cgtgtgtacc ctgcaaatga gcgattttgg tatttcagca gaaagacttt 480

cacagagact ttcttcatga gattgaaaca gtctgaggga aaaggccata ccaatgctgg 540

agatgcaata tatgaggtgg tgagtctaca gcgagagtct gacaaggagg aaccagtcac 600

tcctactagt ggagggggtc caatgtcacc ccaggatgat gaagcagaag aggagagtga 660

taatgaactc tcaagtggaa caggtgatgt gtctaaggat tgtcctgaga agatcctgta 720

ttcttgggga gagttgctag gaaaatggca cagtaacctt ggtgcacgac cgaaagggct 780

gtctactctg gtgaagagtg gtgtccctga agcattgagg gcagaggtat ggcagttatt 840

ggcaggctgc catgacaacc aggcaatgct ggatagatac cgaattctta tcacaaaggt 900

ctgttggagt ttgctggagg tccactccag accctgtttg cctgggtatc accagtggaa 960

gctgcagaac agcaaatatt gcagaatggc aaatgttgct gcctgatcct tcctctggaa 1020

gcttcatctc agaagggcac ctggctgtat gaggtgtcgg ttggcccctc ctgggaggtg 1080

tctcccaatt agactactca ggtgtcaggg acccacttga ggaggcagtc tgtccattct 1140

caggtcccaa actacatgct gggagaacca ctactctctt caaagctgtc agacagggac 1200

atttaagtct gcagaagttt ctgctgccgt ttgttcaact atgccctgcc cccagtactg 1260

gagtccagga aggcaggcag gcctccttga gctttggtgg gctccaccca gttcagtctt 1320

cccggctgct ttgtttacct actcaagctt cagcaatggc ggatgcccct ccctcagcct 1380

tgctgacact tgcggcttga tctcagactg ctgtgttagc agtgagtgag gctccgtggg 1440

tgtgggactc tccgagccag gtgcgggata taatctcctg gtgttccgtt tgctaagacc 1500

attggaaaag cgcagtatta gggtgggagg gtcccgattt tccaggtact atctgtcatg 1560

gcttcccttg gctaggaaag ggaattcccc aaccccttgc acttcccagg tgaggcaatg 1620

ccccacgctg ctccttgggc tgcacccact gtgtgacaag ccccagtgag atgaacccgg 1680

tacctctgtt ggaaatgcag aaatcacctg tcttctgcgt cgctcacgct gggagctgta 1740

gactggagct gttccttttt ggccatcttg gaacctcggt tcaaacctga gttgtaatac 1800

tcactcttcc tgttgctgcc tatgtaattt tgtagaagtt acctaattgc ttccaagctt 1860

ctgttggatt ttttgagaac tgaatgacat agtacatttt gagtgcttaa tgtattgctt 1920

tgtgcatggt attatttaat aaatattagc tttggt 1956

<210> 9

<211> 873

<212> DNA

<213> 人（Homo sapiens）

<400> 9

atgaggatat ttgctgtctt tatattcatg acctactggc atttgctgaa cgcatttact 60

gtcacggttc ccaaggacct atatgtggta gagtatggta gcaatatgac aattgaatgc 120

aaattcccag tagaaaaaca attagacctg gctgcactaa ttgtctattg ggaaatggag 180

gataagaaca ttattcaatt tgtgcatgga gaggaagacc tgaaggttca gcatagtagc 240

tacagacaga gggcccggct gttgaaggac cagctctccc tgggaaatgc tgcacttcag 300

atcacagatg tgaaattgca ggatgcaggg gtgtaccgct gcatgatcag ctatggtggt 360

gccgactaca agcgaattac tgtgaaagtc aatgccccat acaacaaaat caaccaaaga 420

attttggttg tggatccagt cacctctgaa catgaactga catgtcaggc tgagggctac 480

cccaaggccg aagtcatctg gacaagcagt gaccatcaag tcctgagtgg taagaccacc 540

accaccaatt ccaagagaga ggagaagctt ttcaatgtga ccagcacact gagaatcaac 600

acaacaacta atgagatttt ctactgcact tttaggagat tagatcctga ggaaaaccat 660

acagctgaat tggtcatccc agaactacct ctggcacatc ctccaaatga aaggactcac 720

ttggtaattc tgggagccat cttattatgc cttggtgtag cactgacatt catcttccgt 780

ttaagaaaag ggagaatgat ggatgtgaaa aaatgtggca tccaagatac aaactcaaag 840

aagcaaagtg atacacattt ggaggagacg taa 873

<210> 10

<211> 1264

<212> DNA

<213> 人（Homo sapiens）

<400> 10

ggagggagca gtcggtcgct gcgccccggc gggccacttt cccgggaccc cgctcgtctt 60

ccttgggccg agattttcca ctgcgcccct ccgagtaccc gggttccaaa cccctagcca 120

cgacatggaa gaatttttgc aacgcgccaa atctaaactg aatcgaagca aacgcttgga 180

gaaggtccat gtggttattg ggcctaaatc gtgtgacttg gattctctca tttctacctt 240

cacatatgct tactttctag acaaggtcag tccaccaggg gttctgtgtt taccagtgct 300

gaacatacca agaactgaat tcaactactt caccgagacg aggtttattt tagaagagct 360

aaatatttcc gaatcattcc acatattccg ggatgaaatt aacctgcatc agctaaatga 420

tgaagggaag ttatcgataa cacttgttgg cagcagtgtg ctggcgagtg aagacaaaac 480

tttagaatca gcagttgtca aagtcattaa tccggttgag cagagcgatg ccaacgttga 540

gttccgagag tcttcctctt ctctcgtgct aaaggagatt ctccaagagg ctcctgagct 600

catcaccgag caactggctc atcgcctcag aggtagcatt cttttcaagt ggatgaccat 660

ggaatcagag aagatctcag agaagcagga ggaaattctt tctatcctgg aagaaaaatt 720

tcctaacttg cctccaagag aggacatcat caacgtccta caggagaccc agttcagtgc 780

tcagggttta agtattgaac agacaatgtt gaaagatcta aaggagctgt cagatggaga 840

aataaaagtg gccattagta ctgtgagcat gaaccttgag gtaagggtgg gaatgctttt 900

ttagcattga ttgatttccc acaattgcag tctgagcaac tggaatgtaa ctctctccat 960

tggataagtc catgatagtc ctttgcttct ttgtgataca tttgacttgg aatatagtgg 1020

caggttatta tttgggtgaa aacactatgc taagtcaatg aaaaatgcca aacctggatt 1080

ctcaagatga atgctctttc attcatctca gtaaaacaaa gcctaaaaca aacactcaga 1140

tgtgggtgta tatttaacct gtttaatagc aattatgata tgtgtgatta ggttcacttc 1200

catattttct gtgtaccacc ctgtattgtt catagaactt ttcttaaaaa aaaaaaaaaa 1260

aaaa 1264

<210> 11

<211> 2592

<212> DNA

<213> 人（Homo sapiens）

<400> 11

atggatgcta gcatttggag caatgaactc atcgagcttt ttattgtcat tggaaacaaa 60

agagcaaatg acttttgggc tggtaatctt caaaaggatg aagaattaca tatggactca 120

ccagtagaaa agagaaaaaa ctttattact cagaaatata aagaaggaaa attcagaaaa 180

actcttttgg catctctcac caaagaagaa ttaaataagg ctctatgtgc tgctgtagtg 240

aaaccggatg ttctagaaac aatggctttg ctgttcagtg gagcagatgt catgtgtgcc 300

accggagacc ccgtgcatag caccccctat ctgctagcca agaaagctgg gcaaagtctg 360

caaatggaat ttctctacca taacaaattc tcagatttcc ctcaacatga tattcattcc 420

gagggtgtat taagtcaaga gtcttcccag tccacattcc tctgtgactt tttatatcaa 480

gctccttctg ctgcttctaa actctcttca gagaaaaaac tgcttgaaga gacaaataaa 540

aaatggtgtg ttttggaagg aggcttcttg agttactatg aaaatgataa gtctaccaca 600

cctaatggca ccattaatat caatgaagtt atctgcctgg ctatacacaa agaggacttc 660

tatttaaata ctgggcccat ctttatcttt gagatctact taccctccga acgtgtgttt 720

ttatttggag ctgaaacatc tcaagctcaa agaaaatgga cagaggcaat agccaagcat 780

tttgttccct tatttgctga aaacttaaca gaagctgact atgatttgat tggtcaactc 840

ttctacaaag actgccatgc cctggatcag tggagaaaag gctggtttgc tatggacaaa 900

tccagcttgc atttttgcct tcaaatgcaa gaagttcagg gagatagaat gcacttaaga 960

agactgcaag agctaacaat cagcacaatg gttcaaaatg gggaaaaact ggatgtttta 1020

ctcttggtag aaaaagggag aacattatac atccatgggc ataccaagtt ggatttcaca 1080

gtctggcata ctgcaattga aaaagcagca ggtacagatg gtaatgcttt acaagatcag 1140

cagctcagca aaaatgacgt tcccattata gtgaacagct gtatagcatt tgttacacag 1200

tatggtttag gatgcaaata tatctatcaa aagaatggtg atcctttgca tataagtgaa 1260

ctcctggaga gtttcaaaaa ggatgcaaga agctttaaat tgagggctgg aaaacatcag 1320

cttgaagatg tgacggctgt gttgaaaagt tttctctctg acattgatga tgcactgctt 1380

actaaggagc tctacccata ttggatctct gctttagata cgcaagatga caaggaaaga 1440

attaaaaaat atggagcatt tatacgttct cttccagggg tcaaccgagc aacactagca 1500

gctatcattg aacacctgta tagggttcag aaatgctcag aaatcaatca catgaatgcc 1560

cataatttgg ccttggtctt ttcatcctgt ttgtttcaaa cgaagggaca aactagtgaa 1620

gaagtgaatg taattgagga cctaattaat aattatgtag aaatatttga ggttaaagaa 1680

gatcaagtca aacaaatgga catagaaaat agctttatta ccaagtggaa agacacccaa 1740

gtttcccagg ctggagattt gttaattgaa gtatatgtag aaaggaagga acccgactgt 1800

agtattataa ttcggatatc tcctgtgatg gaagcagaag aattaactaa tgatatatta 1860

gcgataaaaa atattattcc tacaaaaggt gatatttggg ccacatttga agtcattgaa 1920

aatgaagagc tagagcgtcc tcttcactac aaggaaaatg tactggagca ggtgcttcgg 1980

tggagttcat tagctgaacc tggctctgct tacctggtgg tgaagagatt cttaaccgct 2040

gacacaatta aacactgcag tgaccggagt acactgggaa gcatcaaaga aggaatcttg 2100

aaaatcaaag aagaaccatc caaaatacta tctggaaata agtttcaaga ccggtatttt 2160

gttttacgag atgggtttct ctttctttac aaggatgtga agagtagtaa acatgacaag 2220

atgttttctc tcagttccat gaagttttat cgtggagtga aaaagaaaat gaagcctcca 2280

acaagctggg gattgaccgc atattctgag aaacatcact ggcacctgtg ttgtgatagt 2340

tcacgaactc agacggagtg gatgaccagt atctttattg cccagcatga atatgatata 2400

tggccaccag ctggaaagga acgaaaacgt tcaataacca aaaatcccaa aattggaggt 2460

ttgcctctga ttcctataca gcatgagggg aatgcaacct tggcccggaa aatattgaga 2520

gtgcaagagc agaacttgaa aggctgcggc tcagtgaaaa gtgtgataaa gagtccgtgg 2580

actctagctt aa 2592

<210> 12

<211> 4502

<212> DNA

<213> 人（Homo sapiens）

<400> 12

cgagggaaga ggccggaggg agatcgcgga ggggaggggg cgggaggggg gtggggtatc 60

ctgagtcgtc cgtggtccgg agtctggaag gccctagagc ggcgccagtc gacccgcctc 120

gccacaactt gcccagacca gacacgtttc atcctgcgcc ctgcaagaag gagccggcct 180

gcctctctcc gctttgctgc tcctcggcct ccgcgggccc ggcccgcgtc agcagcgacc 240

ctggggtctg ggtcccctgt gtcgcccccg cccgcctgca gcgcccggca cccgcccagg 300

agcgcgcagc tggggttcta gggacgtata cttgagcaag agagaccaca gctcttgttc 360

ccgctgatcc tgcagcccag tggatggagt ccagaatcta cagacctgcc aggaaagaaa 420

aaaaattcct gatgtctggt ccaagcagga attccccggt ggattgggga atgtctggct 480

tttcctcagc ttattgatct ctgtggtaac cactggaggc ccccagaaga cccatagaaa 540

tgagaggcct gaggtctaca agtcgctgct agaaatattt tagcctctcc aaagcccaga 600

atgcagcccc gacccaagtt tgtaagggtt ctgggtgcac gctgaccctg cgcgggcaga 660

cgcgcccttt gctccaggtc cggacctggg cgctgctata gcaacgtcct ggacgcccag 720

accttaggcc gccgccgccg cggaagcgag gaacccggcc ttctcccgct cctgagggct 780

gtggcggcgg cggcccggga ggcggcccag gctgggtaaa gaccgcccgg ctcctcctat 840

gcaagctgag gcagcggatt ggttttcaag catgcccttc cagaagcatg tctactaccc 900

gctcgccagc ggcccagagg ggcccgacgt cgctgtggcc gccgccgccg cgggtgcggc 960

ctccatggcc tgtgcgcccc ccagcgcggc ttcggggccc ctgcccttct tccagttcag 1020

gccgcggctg gagagtgtgg actggcggcg gctgagcgcc atcgacgtgg acaaggtggc 1080

gggggctgtg gacgtgctga cgctgcagga gaacatcatg aacatcacct tctgcaagct 1140

ggaagacgag aagtgcccac actgccagtc gggggtggac ccggtgctgc tgaagctcat 1200

ccgtctggcg cagttcacca tcgagtactt gctgcactca caagagttcc tcacctcgca 1260

gctgcacacc ctggaggagc ggctgcgcct gagccactgc gacggcgagc agagcaagaa 1320

gctgctcacc aagcaggcgg gggagatcaa gacgctcaag gaagagtgca aacgccggaa 1380

gaagatgatc tccacccagc agctgatgat cgaggccaaa gccaactatt accagtgcca 1440

tttttgtgac aaggccttta tgaaccaagc ttttctacaa agtcacattc aacgccgcca 1500

cactgaagaa aattctcatt ttgagtatca gaaaaatgca cagattgaga agctccggag 1560

tgagatcgtc gtattgaagg aagagctgca gctcaccagg tctgagctag aggctgcaca 1620

ccatgccagt gcagtcagat tctccaagga atatgaaatg cagaaaacaa aagaggaaga 1680

ctttttgaag ttatttgaca ggtggaaaga agaagaaaag gagaaactag ttgatgaaat 1740

ggaaaaagtc aaggagatgt ttatgaagga atttaaagaa ttaacttcga agaattcagc 1800

attagaatat caactgtcag aaatccagaa gtccaatatg cagatcaagt ccaacatagg 1860

cacattaaaa gatgcacacg agtttaaaga agaccgttct ccatatcccc aggatttcca 1920

taatgtcatg cagcttcttg atagtcagga aagcaaatgg acagctcgag ttcaagctat 1980

tcatcaagaa cacaagaaag agaagggtcg gctcctgtca catatagaga aacttcgaac 2040

ctcaatgata gatgatctaa atgcaagcaa tgttttctat aagaaaagga tagaagagct 2100

agggcagaga ctccaggagc agaatgagct gattataact cagagacagc agattaaaga 2160

ctttacctgt aatccattaa acagtatcag tgaacccaaa gtgaatgccc cagccctgca 2220

cactttggaa actaaatcaa gtctgccaat ggtgcatgaa caggcattct cgtcgcacat 2280

actggaacca atagaagaac tttcagagga agaaaaagga agggaaaatg aacagaaatt 2340

aaataacaac aaaatgcatt taaggaaagc tttgaagagt aactcctccc tcactaaggg 2400

actaagaaca atggtggagc agaacttgat ggagaaactg gaaaccttgg ggattaatgc 2460

agatatacgt ggcatttcaa gtgatcagtt gcatagagta ctaaaaagtg tggaatcaga 2520

aagacataag caagaaagag aaatacctaa ctttcatcaa attcgagaat tccttgaaca 2580

tcaagtcagc tgtaaaattg aggagaaagc actactctct tcagatcagt gcagtgtttc 2640

tcaaatggat accctttcaa ctggagaagt acccaaaatg atacaacttc cttccaaaaa 2700

cagacaactg attagacaaa aagctgtttc tactgatagg acatctgttc caaaaattaa 2760

gaaaaatgtc atggaagatc cttttcccag aaagtcttca actattacga cccctccttt 2820

tagttcagag gaggagcagg aggacgacga cctcatccgg gcatacgcat ccccaggccc 2880

acttcctgtg ccgccaccac aaaacaaggg cagcttcggg aagaacacag tgaaaagtga 2940

cgcggacggg accgagggaa gcgaaatcga ggacactgat gattctccca agcccgcagg 3000

agtcgccgtt aaaacaccta ctgaaaaagt tgaaaagatg tttccacatc gcaaaaatgt 3060

gaacaaacca gtcggtggaa ctaatgtccc tgagatgttt atcaaaaaag aagaattaca 3120

agaactaaag tgtgcggatg tggaggatga agactgggac atatcatccc tagaggaaga 3180

gatatctttg ggaaaaaaat ctgggaaaga acagaaggaa cctccacctg cgaaaaatga 3240

accacatttt gctcatgtgc taaatgcctg gggcgcattt aatcctaagg ggccaaaggg 3300

agaaggactt caagaaaatg aatcaagcac attaaaaagc agcttagtaa ctgtgactga 3360

ttggagcgac acttcagatg tctaattcca catgtcagaa gattattcca gaagccagca 3420

gtatttcagt atcacagtgt ttcagtaatt tgcctccatg attctagtgc ttctgcctta 3480

ccgtgtttcc cacagcaaca cagagactga ttcaaagaac aatggtctct ttaatggcac 3540

ccaatacagt attgaaaatc agatcatcaa cagtatttcg aagcatgtaa aggtgtttaa 3600

gacttccgct gctgcttaaa aataacatgt cattgaagtc ataaaaagtt ttttcttcag 3660

aaaggtactc tagtgttaag tgtatttttt tcaactaatt ttttagtgaa ttttttttaa 3720

acttacagca tgttttggtt tgaattacta aaactttaaa aaatattttt cttatgtatg 3780

ctgtcgtatc gtaggcgttt atattataaa attctgttag tagtcttaaa attgaattgg 3840

tggaaccact aatccttaaa agttagtctg gttatttttc atatagaagt aagtttaatc 3900

cgagtgtggt ggtgttcacc tttaatccca gctacttggg aggctgaggt gggaggataa 3960

cttgagcaca ggagttcaag accagcgtgg gcaatatagc aagactccac ccctccacac 4020

cccaaaaaag taagtttagg attagaatat agctaggtcc aatgttaaat acattttcct 4080

ggagtacatt tgtcacattc agctttgagc cactgtaagc atgttactat taaatggttg 4140

gttattttat atagcatatt ctttatcttg gatattttat gaataaagta tagttatttt 4200

aagtgccaat taatttatca gactaaatag aaaatatttg agccattact gaattcacat 4260

atgtatgttt ttttttacta tttaaaatac ccaacatgta ttatgaaata cctcaaaagt 4320

aatttagtta cattcttaaa caatgacatt gtcgaaagaa agttcttata agctgttttt 4380

tgcattttta taacttggtt atactatatt ctgtttccaa gtaacctttt aactaaaaga 4440

tttgttgggt tttagatctc ttttcatttg tcaacctttt cagtaaagcc ctctgttaca 4500

tc 4502

<210> 13

<211> 1887

<212> DNA

<213> 人（Homo sapiens）

<400> 13

cggggcgcgg cgggctccct cggggtccca gctggccggc actcggcggc cgcggcgcga 60

tggaggcgcc ggccgagcta ctggccgcgc tgcctgcgct ggccaccgcg ctggcccttc 120

tgctcgcctg gctactggtg cggcgtgggg cggccgcgag cccggagcct gcccgcgcgc 180

ccccggaacc cgcgcccccg gccgaggcca ccggggcccc ggcgccgtcc cgcccctgcg 240

cccccgagcc ggcggcctcg cccgcggggc cggaggagcc tggagagccc gcggggctgg 300

gggagctcgg ggagcctgcg ggaccggggg agcccgaagg gccaggggat cccgcggcgg 360

cgccagcgga ggcggaggag caggcggtgg aggcgaggca ggaagaggag caggacttgg 420

atggtgagaa ggggccatca tcggaagggc ctgaggagga ggacggagaa ggcttctcct 480

tcaaatacag ccccgggaag ctgaggggaa accagtacaa gaagatgatg accaaagagg 540

agctggagga ggagcagaga actgaagaat aacgaagtta tccttagcgt cctcctaaag 600

gcttttcctt ttggcatctt aaaagcttga gagataaaac ggaaacccca gagaggagtc 660

tgggcaggct cccagggtgc atgctgcctc cataaatctg ctgagctcta gaccctcaat 720

caggacttgt cccttggcta gcaggatcct gggaacacct ttggccctgc cctgtgtaga 780

gatgttcatg tctgttcctg tgggtcactt tgttaagctg aagagtttta agaggtagag 840

ctcagaccct ggactgggat ttttcttacc actcaaactt gctatccaca caccctgcac 900

accttagata aaaagaacat tttaaaagca gagttcactt tcactccagt ctcccctctt 960

ttgccctcac tgaagccaaa ccacagaaga ctttgaggaa tgagagacaa atgaggtaga 1020

gctcacctgt gctcaccagc tccgtcaggg tggtcagccg acccctttcc ctgggaaccc 1080

cacttctctc tgtggctggc ttggttgtcg ggggtgagat gccatattga ttacagggca 1140

gcaaagaacc agtaccagga atttacttga ccattcccct tatttttcat ctagaggaat 1200

ctcggattca gccctttcat tgctaagaca ccttttcact gaggttctta ccagctcagc 1260

caaatctcca ctctgctata gcagaagcaa taatgtttgc tttaaaaaga tttcttgacc 1320

tatgcctttt cttagaaagt ttgatagatt agttagaact tcagatcatc agatcagtct 1380

caaatgggtt tcttggaatt ttatatttga caatatttat actataccaa actcatttgc 1440

agttcttagg tttgttggtt aaaacatttt tttaaagcag taagtttata gaaaatgttt 1500

tcatttaatg gaaggctggg gaatgtccag catcaacccc tatggcatgc attcccagtg 1560

gccttctcat ctgggcctgg aacctttggt tcagggctta ggggagaaca ggccacatgg 1620

caacagccac acagtcattg ccttcaacac agagccacgt gtccccaaac agcaatagtc 1680

atgcccttgt ccaggctggg atctaattga tacaataggt cgttgactcc ctcctagtag 1740

agctatctag gtttgtctgg aaagtttccg accctggctt ataggcacca cacctcatgt 1800

actcctcatg gcttggatct ctgtattcag cctttgttca gtccaataaa ctttgagtag 1860

atgatctcaa aaaaaaaaaa aaaaaaa 1887

<210> 14

<211> 2850

<212> DNA

<213> 人（Homo sapiens）

<400> 14

gagaacgggg tagcccggcg cttacacatg tcacatgtgc tttttaagac ggccgggagc 60

gcctgcgagc tggatctggt ggaggatgct gcggcaggtg cttcgcagag ggctccagtc 120

gttctgccac aggctgggtt tgtgcgtgag ccggcacccg gtctttttcc tcaccgtgcc 180

cgcagtcctg acaatcacct tcggcctcag cgcgctcaac cgcttccagc ccgagggcga 240

cctggagcgc ctggtcgctc ccagccacag cctggccaag atcgagcgca gcctggccag 300

cagccttttc cccctggacc agtccaaaag ccagctctat tcggacttac acacccctgg 360

gaggtatggc agggtgatcc tcctctcccc aaccggggac aatattttgc tccaggctga 420

ggggatcctg cagacccacc gagccgtgct ggaaatgaag gatgggagga acagttttat 480

tggacaccaa ctgggcgggg tagtggaagt gccaaacagc aaagatcagc gggtcaagtc 540

agccagagcc attcaaatca cctactacct ccagacctat ggctctgcca cccaagacct 600

cataggggag aagtgggaga atgagttctg taagcttata aggaagctcc aggaggagca 660

tcaagaactc cagctctact ctttagcatc ctttagcctc tggagggact ttcataagac 720

cagcatcctg gccagaagca aggtcctggt gagcctcgtg ctgatcctga ccacagccac 780

cctctccagc tccatgaagg actgcttgcg cagtaagccc ttcctgggcc tcctgggggt 840

gctcacagta tgcatctcca tcatcacagc agcagggatc ttcttcatca ccgatggaaa 900

gtacaactcc accctgctgg gaatcccgtt cttcgccatg ggtcatggaa ctaaaggagt 960

gtttgagctt ctgtccggat ggcggagaac caaagagaac ttgcccttca aagacaggat 1020

agcagatgcc tattctgatg tgatggtcac ctataccatg accagctccc tgtacttcat 1080

cacttttggc atgggtgcca gcccattcac aaacatagag gctgtgaagg tcttctgtca 1140

aaacatgtgt gtctctattc tgttgaacta cttctacatt ttctccttct ttggctcctg 1200

tctggtcttt gctggccaac tagagcaaaa ccgctaccac agcatctttt gctgtaagat 1260

cccttctgca gaatacctgg atcgcaaacc tgtgtggttc cagacagtga tgagtgatgg 1320

gcatcaacag acgtcccatc atgagacgaa cccctaccag caccacttca ttcagcactt 1380

cctccgtgaa cattataatg aatggattac caatatatat gtgaagccat ttgttgtcat 1440

cctctatctc atttatgcct ccttctcctt catggggtgc ttacagatca gtgacggagc 1500

caacatcatc aatctactag ccagtgattc gccaagtgtt tcctatgcca tggttcagca 1560

gaaatatttc agcaactata gccctgtgat aggattctac gtctatgagc ccctagagta 1620

ctggaacagc agcgtccagg atgacctaag aagactctgt agtggattca ctgcagtgtc 1680

ctgggtggag cagtactacc agttcctgaa agtcagcaac gtcagtgcca ataacaaaag 1740

tgacttcatc agtgtcctgc aaagctcatt tttaaaaaag ccagaattcc agcattttcg 1800

aaatgatatc atcttctcca aggcagggga tgaaagcaat atcattgctt ctcgcttgta 1860

tctggtggcc aggactagca gagacaagca gaaagaaatc acagaagtgt tggaaaagct 1920

gaggccccta tccctctcaa agagcatccg attcatcgtg ttcaacccct cctttgtctt 1980

catggaccat tacagcttgt ctgtcacagt gcctgttctg attgcaggct ttggtgttct 2040

cctggtgtta atcctgactt ttttcctagt gatccaccct ctgggaaact tctggctaat 2100

tcttagcgtc acctcaattg agctgggcgt tctgggctta atgacattat ggaacgtcga 2160

catggattgc atttctatct tgtgccttat ctacaccttg aatttcgcca ttgaccactg 2220

tgcaccactg cttttcacat ttgtattagc aactgagcac acccgaacac aatgtataaa 2280

aagctccttg caagaccatg ggacagccat tttgcaaaat gttacttctt ttcttattgg 2340

gttagtcccc cttctatttg tgccttcgaa cctgaccttc acactgttca aatgcttgct 2400

gctcactggg ggttgcacac ttctgcactg ttttgttatt ttacctgtgt tcctaacgtt 2460

tttcccccct tccaaaaagc accacaagaa aaagaaacgt gccaagcgaa aggagagaga 2520

ggaaattgaa tgcatagaaa ttcaagagaa cccggatcac gtcaccacag tatgaggggt 2580

atagaccagt ggattatttt tcttttccag tattgcacaa tgatgcaggg caagtaaagc 2640

tcagacctca gctgcttggg ctggccaggg gtaacaaggc aagtcagatc aagagtgcat 2700

tattcatgac acttcaaggt gcctgcttct tggggggaag agggaataaa aaaagaggaa 2760

aaagttattt gcaaccttgt tctcctctaa aaacaagttt ctggatgtaa tctgagagct 2820

cttccaagga atggatgaat caatggagtg 2850

<210> 15

<211> 1491

<212> DNA

<213> 人（Homo sapiens）

<400> 15

gccctgcgcg gggacactca gagcccggtg gggggaggaa ggcggcatgc cccagacggt 60

gatcctcccg ggccctgcgg cctggggctt caggctctca gggggcatag acttcaacca 120

gcctttggtc atcaccagga ttacaccagg aagcaaggcg gcaggtgcca acctgtgtcc 180

tggagatgtc atcctggcta ttgacggctt tgggacagag tccatgactc atgctgatgc 240

gcaggacagg attaaagcag cagctcacca gctgtgtctc aaaattgaca ggggagaaac 300

tcacttatgg tctccacaag tatctgaaga tgggaaagcc catcctttca aaatcaactt 360

agaatcagaa ccacaggacg ggaactactt tgaacacaag cataatattc ggcccaaacc 420

tttcgtgatc ccgggccgaa gcagtggatg cagcactccc tccgggattg actgtggcag 480

tggacgcagc accccttctt ctgtcagtac tgttagtacc atttgcccag gtgacttgaa 540

agttgcggct aagctggccc ctaacattcc tttggaaatg gaacttcctg gtgtgaagat 600

tgtacatgct cagtttaata cacctatgca gttgtactca gatgacaata ttatggaaac 660

actccagggt caggtttcaa cagccctagg ggaaatacct ttgatgagcg agcccacagc 720

ctcggtgccc cccgagtcgg acgtgtaccg gatgctccac gacaatcgga atgagcccac 780

acagcctcgc cagtcgggct ccttcagagt gctccaggga atggtggacg atggctctga 840

tgaccgtccg gctggaacgc ggagtgtgag agctccggtg acgaaagtcc atggcggttc 900

aggcggggca cagaggatgc cgctctgtga caaatgtggc agtggcatag tcggtgctgt 960

ggtgaaggcg cgggataagt accggcaccc tgagtgcttc gtgtgtgccg actgcaacct 1020

caacctcaag caaaagggct acttcttcat agaaggggag ctgtactgcg aaacccacgc 1080

aagagcccgc acaaaacccc caagaggcta tgacacggtc actctgtatc ccaaagctta 1140

agtctctgca ggcgtggcac acgcacgcac ccacccacgc gcacttacac gagaagacat 1200

tcatggcttt gggcagaagg attgtgcaga ttgtcaactc caaatctaaa gtcaaggctt 1260

tagaccttta tcctattgtt tattgaggaa aaggaatggg aggcaaatgc ctgctatgtg 1320

aaaaaaacat acacttagct atgttttgca actctttttg gggctagcaa taatgatatt 1380

taaagcaata attttttgta tgtcatactc cacaatttac atgtatatta cagccatcaa 1440

acacataaac atcaagatat ttgaaggact ctaattgtct ttccttgaca a 1491

<210> 16

<211> 1504

<212> DNA

<213> 人（Homo sapiens）

<400> 16

tgcagacgga acttcagccg ctgcctctgt tctcagcgtc agtgccgcca ctgcccccgc 60

cagagcccac cggccagcat gtcctctgct cacttcaacc gaggccctgc ctacgggctg 120

tcagccgagg ttaagaacaa gctggcccag aagtatgacc accagcggga gcaggagctg 180

agagagtgga tcgagggggt gacaggccgt cgcatcggca acaacttcat ggacggcctc 240

aaagatggca tcattctttg cgaattcatc aataagctgc agccaggctc cgtgaagaag 300

atcaatgagt caacccaaaa ttggcaccag ctggagaaca tcggcaactt catcaaggcc 360

atcaccaagt atggggtgaa gccccacgac atttttgagg ccaacgacct gtttgagaac 420

accaaccata cacaggtgca gtccaccctc ctggctttgg ccagcatggc gaagacgaaa 480

ggaaacaagg tgaacgtggg agtgaagtac gcagagaagc aggagcggaa attcgagccg 540

gggaagctaa gagaagggcg gaacatcatt gggcttcaga tgggcagcaa caagtttgcc 600

agccagcagg gcatgacggc ctatggcacc cggcgccacc tctacgaccc caagctgggc 660

acagaccagc ctctggacca ggcgaccatc agcctgcaga tgggcaccaa caaaggagcc 720

agccaggctg gcatgactgc gccagggacc aagcggcaga tcttcgagcc ggggctgggc 780

atggagcact gcgacacgct caatgtcagc ctgcagatgg gcagcaacaa gggcgcctcg 840

cagcggggca tgacggtgta tgggctgcca cgccaggtct acgaccccaa gtactgtctg 900

actcccgagt acccagagct gggtgagccc gcccacaacc accacgcaca caactactac 960

aattccgcct aggtccacaa ggccttcact gttttccccc caagggaggc tgctgctgct 1020

cttggctgga gccagccagg gccagccgac cccctctccc tgcatggcat cctccagccc 1080

ctgtagaact caacctctac agggttagag tttggagaga gcagactggc ggggggccca 1140

ttggggggaa ggggaccctc cgctctgtag tgctacaggg tccaacatag aacagggtgt 1200

ccccaacagc gcccaaagga cgcactgagc aacgctattc cagctgtccc cccactccct 1260

cacaagtggg tacccccagg accagaagct cccccagcaa agcccccaga gcccaggctc 1320

ggcctgcccc caccccattc ccgcagtggg agcaaactgc atgcccagag acccagcgga 1380

cacacgcggt ttggtttgca gcgactggca tactatgtgg atgtgacagt ggcgtttgta 1440

atgagagcac tttctttttt ttctatttca ctggagcaca ataaatggct gtaaaatcta 1500

cacg 1504

<210> 17

<211> 1781

<212> DNA

<213> 人（Homo sapiens）

<400> 17

actcgggaag acttcagaga agtctcacaa aggactcggc tggctgcttt tctcagtgcc 60

gaagccgcgc catgctcgtt ctcagaagcg gcctgaccaa ggcgcttgcc tcacggacgc 120

tcgcgcctca ggtgtgttca tcttttgcta cgggccctag acaatacgat ggaacgttct 180

atgaatttcg tacttattac cttaaacctt caaatatgaa tgcgttcatg gaaaatctta 240

agaaaaacat tcatcttcgg acctcttact ctgaattggt tggattctgg agtgtagaat 300

ttggaggcag aacgaataaa gtgtttcata tttggaagta tgataatttt gctcatcgag 360

ctgaagttcg gaaagcctta gccaactgta aggaatggca agaacaatct atcattccaa 420

atttggctcg cattgataaa caagagacgg aaattactta cctgatacca tggtccaaat 480

tagaaaagcc tccaaaagaa ggagtctatg aactagctgt ttttcagatg aaacctggtg 540

ggccagctct gtggggtgat gcatttgaaa gagcaattaa tgcccatgtc aatttaggct 600

acacaaaagt agttggtgtt ttccacacag aatatggaga actcaacaga gttcatgttc 660

tttggtggaa tgagagtgca gatagtcgtg cagctgggag acataagtcc catgaggatc 720

ccagagttgt ggcggctgtt cgggaaagtg tcaactacct agtttctcag cagaatatgc 780

ttctgattcc tgcatcattt tcaccattga aatagttttc tactgaaata caaaacattt 840

cattaactgc tctaagatgt gtctgctaat ggtgcttaaa ttctcccaag aggttctcgc 900

ttttatttga aggaggtggt aagttaatta gttaatttgc tgtgcttctt gcatttttga 960

aagttacata ttctccactg ctttaagaaa taattcagtt cactttcacc ttggcatttc 1020

agtatctgtt acacattaga agtagttgtc actatttcat catcttggtt tttcatttgt 1080

tttagaatac ctcttctgta ttttgataac tcattgcttt atagcatttt cttttactca 1140

aataaggatt ttacatttcc ttgcctgaca gtatttttga attatttata taaaatatct 1200

atcttttcat catgtctata gttcctgaga ttttaaaaaa atttgcttag taaaggttat 1260

tttgtgatat aaaatgggat ttataaaaat attagattgt ttatttcttt actgtggaaa 1320

agtagaatgt catctgtatt aattattgct tttacattca ttgattatta gtcattctaa 1380

cttggaaaat aatgcaattg ggtcacagtg ttaaaaatct agaaaagact tgttggttta 1440

tatgctgaaa ttgttcattt ataattaatt ttactaattt ctccttagtt tggatcacta 1500

acagagatct tgggacattt atttgtttta aagaaatatt tatggttatg gaaacgcttg 1560

ccctaataaa aatcctgcat attcattgtt tttttaaatt cacattttat acttatatga 1620

tctctaaagc tcttgctatg ttgctataag acagtaatat agtgataatt taccaacttt 1680

attgaaaatg ttgttacatc aataaaatag catgctggga acctgagaag gaaggtttct 1740

ttagtactgc caaaaaaaaa aaaaaaaaaa aaaaaaaaaa a 1781

<210> 18

<211> 3023

<212> DNA

<213> 人（Homo sapiens）

<400> 18

tgaattcaaa acagttactc tgaatggtct ttgctaagaa caatttaatg attaagtaag 60

gtcagtgtcc ttggaagtcc aaactctagc cagatttccc tggtctacac ccctagggat 120

aaggtaaatg tttaagcaca cagtgaactt cctgaggccc ccaaatctaa tggaactagc 180

tattgagggc taaaagagga tggttttttt agaaaactcg aagcaaatct ctcaggctgg 240

ggatatttca aagactacta ctattattat taataacaat tgcaatattt gttgagtccc 300

taaatgaagc taaaactttg ttctaataaa tttaatcttt acagcaacct atgaggtaga 360

taatattgtc attcccatga gggagctaag gatcagagaa ggtaagtcac ttgtctaagg 420

tcacatagct agcatgttat gcaatcagga gtcaaacctg gtttgtctga atctgaagtc 480

catctgctct gtgcactttt ataccgtctg ctttttcctt tattcctaac cttcttccat 540

tctgattccc actgagtagt ggacaggaac cactgaagtt tgcctgacac catcaaccag 600

gccctagtca cctggctttg cctttgccct gctgtgtgat cttagctccc tgcccaggcc 660

cacagccatg gccatggccc agaaactcag ccacctcctg ccgagtctgc ggcaggtcat 720

ccaggagcct cagctatctc tgcagccaga gcctgtcttc acggtggatc gagctgaggt 780

gccgccgctc ttctggaagc cgtacatcta tgcgggctac cggccgctgc atcagacctg 840

gcgcttctat ttccgcacgc tgttccagca gcacaacgag gccgtgaatg tctggaccca 900

cctgctggcg gccctggtac tgctgctgcg gctggccctc tttgtggaga ccgtggactt 960

ctggggagac ccacacgccc tgcccctctt catcattgtc cttgcctctt tcacctacct 1020

ctccttcagt gccttggctc acctcctgca ggccaagtct gagttctggc attacagctt 1080

cttcttcctg gactatgtgg gggtggccgt gtaccagttt ggcagtgcct tggcacactt 1140

ctactatgct atcgagcccg cctggcatgc ccaggtgcag gctgtttttc tgcccatggc 1200

tgcctttctc gcctggcttt cctgcattgg ctcctgctat aacaagtaca tccagaaacc 1260

aggcctgctg ggccgcacat gccaggaggt gccctccgtc ctggcctacg cactggacat 1320

tagtcctgtg gtgcatcgta tcttcgtgtc ctccgacccc accacggatg atccagctct 1380

tctctaccac aagtgccagg tggtcttctt tctgctggct gctgccttct tctctacctt 1440

catgcccgag cgctggttcc ctggcagctg ccatgtcttc gggcagggcc accaactttt 1500

ccacatcttc ttggtgctgt gcacgctggc tcagctggag gctgtggcac tggactatga 1560

ggcccgacgg cccatctatg agcctctgca cacgcactgg cctcacaact tttctggcct 1620

cttcctgctc acggtgggca gcagcatcct cactgcattc ctcctgagcc agctggtaca 1680

gcgcaaactt gatcagaaga ccaagtgaag ggggatggca tctggtaggg agggaggtat 1740

agttggggga caggggtctg ggtttggctc caggtgggaa caaggcctgg taaagttgtt 1800

tgtgtctggc ccacagtgac tctctgtgca cgactcaact gccaagggca tcactggcca 1860

attcttggat ttagggattg gctaggagtt gctggggtcc actcctgggc ctgccccagc 1920

tccttgccca gggagaggga aagagttaac ggtgtgggcc actccagctt gcccttccac 1980

tgccactcac tggggtgagg ctgggggtca gcttggtgag gattggggct tctagattgt 2040

ctaggcagga ggtgaaactt aggccagagt cagatttgag ctgagccagg ggaggccttg 2100

gcaacctact tctactcaga tttcattgct ggatgcggaa ggggtaggcc caaaatatat 2160

acaggatctt actgtccctt gaagcccagc cacaagtgtt ggagctgcag agagacccca 2220

aaggtagtag attgtgccag atacaaatgg gtcccatcca gtgcttcata ctccttcagt 2280

cactatccca gacagtgagc cccagatctc ctagctctgg cttctgtgtc ccacacggcc 2340

tgttcccagc ttctctcctg gttcccttgt tacggattca tttatccatt cagtgtttcc 2400

tgggcctctg ctcagaggca ggtcaccact gggccctgtg gatcaatgca agatgacaaa 2460

ggcttttttt tttttttttt tttttttttt ttttgaggag tttcgctctt gttggctagg 2520

ctggagtaaa atggtgcgat ctcggctcac tgcacctccg cctcccaggt tcaagcgatt 2580

ttcctgcctc agcctcccga gtagctgggg ttacaggcat gcaccaccat gcctggctaa 2640

ttttctgtat ttttagtaga gacggggttt ctccatgttg gtcaggctgg tcttgaactc 2700

ctgacctcag gtgatctgcc cgtctcggcc tcccaaagtg ctgggattac cggcatgagc 2760

cactgcgcct ggccgacaaa ggctttgata tcagaatgaa ctgtcaaggg aggtgctgga 2820

gagggattaa cctgtgctgc ctgggaccct cagggtctta ggttggggag tgtgaatagg 2880

agtttgcaga tggagaatag gaagggcatt ccaggcagag ggaaacctgt gcagagacca 2940

agaggtgtgg aaggaaaagt ggggttgggg ctgggtggtc tggattatgg cctggatgca 3000

ataaagtact gtgacagtag cca 3023

<210> 19

<211> 1345

<212> DNA

<213> 人（Homo sapiens）

<400> 19

gcctctgggg ttttatattg ctctggtatt catgccaaag acacaccagc cctcagtcac 60

tgggagaaga acctctcata ccctcggtgc tccagtcccc agctcactca gccacacaca 120

ccatgtgtga agaggagacc accgcgctcg tgtgtgacaa tggctctggc ctgtgcaagg 180

caggcttcgc aggagatgat gccccccggg ctgtcttccc ctccattgtg ggccgccctc 240

gccaccaggg tgtgatggtg ggaatgggcc agaaagacag ctatgtgggg gatgaggctc 300

agagcaagcg agggatccta actctcaaat accccattga acacggcatc atcaccaact 360

gggatgacat ggagaagatc tggcaccact ccttctacaa tgagctgcgt gtagcacctg 420

aagagcaccc caccctgctc acagaggctc ccctaaatcc caaggccaac agggaaaaga 480

tgacccagat catgtttgaa accttcaatg tccctgccat gtacgtcgcc attcaagctg 540

tgctctccct ctatgcctct ggccgcacga caggcatcgt cctggattca ggtgatggcg 600

tcacccacaa tgtccccatc tatgaaggct atgccctgcc ccatgccatc atgcgcctgg 660

acttggctgg ccgtgacctc acggactacc tcatgaagat cctcacagag agaggctatt 720

cctttgtgac cacagctgag agagaaattg tgcgagacat caaggagaag ctgtgctatg 780

tggccctgga ttttgagaat gagatggcca cagcagcttc ctcttcctcc ctggagaaga 840

gctatgagct gccagatggg caggttatca ccattggcaa tgagcgcttc cgctgccctg 900

agaccctctt ccagccttcc tttattggca tggagtccgc tggaattcat gagacaacct 960

acaattccat catgaagtgt gacattgaca tccgtaagga cttatatgcc aacaatgtcc 1020

tctctggggg caccaccatg taccctggca ttgctgacag gatgcagaag gagatcacag 1080

ccctggcccc cagcaccatg aagatcaaga ttattgctcc cccagagcgg aagtactcag 1140

tctggatcgg gggctctatc ctggcctctc tctccacctt ccagcagatg tggatcagca 1200

agcctgagta tgatgaggca gggccctcca ttgtccacag gaagtgcttc taaagtcaga 1260

acaggttctc caaggatccc ctcgagacta ctctgttacc agtcatgaaa cattaaaacc 1320

tacaagcctt aaaaaaaaaa aaaaa 1345

<210> 20

<211> 109

<212> DNA

<213> 人（Homo sapiens）

<400> 20

gaaagggtgg cattataggg ttccacaacc atgtctaaca ccttggacaa gagcagcaca 60

ctgaatgggt ttatgatcct atgtgggcac ttctcctgga tattgttga 109

<210> 21

<211> 3670

<212> DNA

<213> 人（Homo sapiens）

<400> 21

cgcagcaaac acatccgtag aaggcagcgc ggccgccgag aaccgcagcg ccgctcgccc 60

gccgcccccc accccgccgc cccgcccggc gaattgcgcc ccgcgcccct cccctcgcgc 120

ccccgagaca aagaggagag aaagtttgcg cggccgagcg gggcaggtga ggagggtgag 180

ccgcgcggga ggggcccgcc tcggccccgg ctcagccccc gcccgcgccc ccagcccgcc 240

gccgcgagca gcgcccggac cccccagcgg cggcccccgc ccgcccagcc ccccggcccg 300

ccatgggcgc cgcggcccgc accctgcggc tggcgctcgg cctcctgctg ctggcgacgc 360

tgcttcgccc ggccgacgcc tgcagctgct ccccggtgca cccgcaacag gcgttttgca 420

atgcagatgt agtgatcagg gccaaagcgg tcagtgagaa ggaagtggac tctggaaacg 480

acatttatgg caaccctatc aagaggatcc agtatgagat caagcagata aagatgttca 540

aagggcctga gaaggatata gagtttatct acacggcccc ctcctcggca gtgtgtgggg 600

tctcgctgga cgttggagga aagaaggaat atctcattgc aggaaaggcc gagggggacg 660

gcaagatgca catcaccctc tgtgacttca tcgtgccctg ggacaccctg agcaccaccc 720

agaagaagag cctgaaccac aggtaccaga tgggctgcga gtgcaagatc acgcgctgcc 780

ccatgatccc gtgctacatc tcctccccgg acgagtgcct ctggatggac tgggtcacag 840

agaagaacat caacgggcac caggccaagt tcttcgcctg catcaagaga agtgacggct 900

cctgtgcgtg gtaccgcggc gcggcgcccc ccaagcagga gtttctcgac atcgaggacc 960

cataagcagg cctccaacgc ccctgtggcc aactgcaaaa aaagcctcca agggtttcga 1020

ctggtccagc tctgacatcc cttcctggaa acagcatgaa taaaacactc atcccatggg 1080

tccaaattaa tatgattctg ctcccccctt ctccttttag acatggttgt gggtctggag 1140

ggagacgtgg gtccaaggtc ctcatcccat cctccctctg ccaggcacta tgtgtctggg 1200

gcttcgatcc ttgggtgcag gcagggctgg gacacgcggc ttccctccca gtccctgcct 1260

tggcaccgtc acagatgcca agcaggcagc acttagggat ctcccagctg ggttagggca 1320

gggcctggaa atgtgcattt tgcagaaact tttgagggtc gttgcaagac tgtgtagcag 1380

gcctaccagg tccctttcat cttgagaggg acatggccct tgttttctgc agcttccacg 1440

cctctgcact ccctgcccct ggcaagtgct cccatcgccc cggtgcccac catgagctcc 1500

cagcacctga ctccccccac atccaagggc agcctggaac cagtggctag ttcttgaagg 1560

agccccatca atcctattaa tcctcagaat tccagtggga gcctccctct gagccttgta 1620

gaaatgggag cgagaaaccc cagctgagct gcgttccagc ctcagctgag tctttttggt 1680

ctgcacccac ccccccaccc cccccccccc gcccacatgc tccccagctt gcaggaggaa 1740

tcggtgaggt cctgtcctga ggctgctgtc cggggccggt ggctgccctc aaggtccctt 1800

ccctagctgc tgcggttgcc attgcttctt gcctgttctg gcatcaggca cctggattga 1860

gttgcacagc tttgctttat ccgggcttgt gtgcagggcc cggctgggct ccccatctgc 1920

acatcctgag gacagaaaaa gctgggtctt gctgtgccct cccaggctta gtgttccctc 1980

cctcaaagac tgacagccat cgttctgcac ggggctttct gcatgtgacg ccagctaagc 2040

atagtaagaa gtccagccta ggaagggaag gattttggag gtaggtggct ttggtgacac 2100

actcacttct ttctcagcct ccaggacact atggcctgtt ttaagagaca tcttattttt 2160

ctaaaggtga attctcagat gataggtgaa cctgagttgc agatatacca acttctgctt 2220

gtatttctta aatgacaaag attacctagc taagaaactt cctagggaac tagggaacct 2280

atgtgttccc tcagtgtggt ttcctgaagc cagtgatatg ggggttagga taggaagaac 2340

tttctcggta atgataagga gaatctcttg tttcctccca cctgtgttgt aaagataaac 2400

tgacgatata caggcacatt atgtaaacat acacacgcaa tgaaaccgaa gcttggcggc 2460

ctgggcgtgg tcttgcaaaa tgcttccaaa gccaccttag cctgttctat tcagcggcaa 2520

ccccaaagca cctgttaaga ctcctgaccc ccaagtggca tgcagccccc atgcccaccg 2580

ggacctggtc agcacagatc ttgatgactt ccctttctag ggcagactgg gagggtatcc 2640

aggaatcggc ccctgcccca cgggcgtttt catgctgtac agtgacctaa agttggtaag 2700

atgtcataat ggaccagtcc atgtgatttc agtatataca actccaccag acccctccaa 2760

cccatataac accccacccc tgttcgcttc ctgtatggtg atatcatatg taacatttac 2820

tcctgtttct gctgattgtt tttttaatgt tttggtttgt ttttgacatc agctgtaatc 2880

attcctgtgc tgtgtttttt attacccttg gtaggtatta gacttgcact tttttaaaaa 2940

aaggtttctg catcgtggaa gcatttgacc cagagtggaa cgcgtggcct atgcaggtgg 3000

attccttcag gtctttcctt tggttctttg agcatctttg ctttcattcg tctcccgtct 3060

ttggttctcc agttcaaatt attgcaaagt aaaggatctt tgagtaggtt cggtctgaaa 3120

ggtgtggcct ttatatttga tccacacacg ttggtctttt aaccgtgctg agcagaaaac 3180

aaaacaggtt aagaagagcc gggtggcagc tgacagagga agccgctcaa ataccttcac 3240

aataaatagt ggcaatatat atatagttta agaaggctct ccatttggca tcgtttaatt 3300

tatatgttat gttctaagca cagctctctt ctcctatttt catcctgcaa gcaactcaaa 3360

atatttaaaa taaagtttac attgtagtta ttttcaaatc tttgcttgat aagtattaag 3420

aaatattgga cttgctgccg taatttaaag ctctgttgat tttgtttccg tttggatttt 3480

tgggggaggg gagcactgtg tttatgctgg aatatgaagt ctgagacctt ccggtgctgg 3540

gaacacacaa gagttgttga aagttgacaa gcagactgcg catgtctctg atgctttgta 3600

tcattcttga gcaatcgctc ggtccgtgga caataaacag tattatcaaa gagaaaaaaa 3660

aaaaaaaaaa 3670

<210> 22

<211> 1426

<212> DNA

<213> 人（Homo sapiens）

<400> 22

atgagccagg cctactcgtc cagccagcgc gtgtcctcct accgccgcac cttcggcggg 60

gccccgggct tcccgctcgg ctccccgctg agctcgcccg tgttcccgcg ggcgggtttc 120

ggctctaagg gctcctccag ctcggtgacg tcccgcgtgt accaggtgtc gcgcacgtcg 180

ggcggggccg ggggcctggg gtcgctgcgg gccagccggc tggggaccac ccgcacgccc 240

tcctcctacg gcgcaggcga gctgctggac ttctcactgg ccgacgcggt gaaccaggag 300

tttctgacca cgcgcaccaa cgagaaggtg gagctgcagg agctcaatga ccgcttcgcc 360

aactacatcg agaaggtgcg cttcctggag cagcagaacg cggcgctcgc cgccgaagtg 420

aaccggctca agggccgcga gccgacgcga gtggccgagc tctacgagga ggagctgcgg 480

gagctgcggc gccaggtgga ggtgctcact aaccagcgcg cgcgcgtcga cgtcgagcgc 540

gacaacctgc tcgacgacct gcagcggctc aaggccaagc tgcaggagga gattcagttg 600

aaggaagaag cagagaacaa tttggctgcc ttccgagcgg acgtggatgc agctactcta 660

gctcgcattg acctggagcg cagaattgaa tctctcaacg aggagatcgc gttccttaag 720

aaagtgcatg aagaggagat ccgtgagttg caggctcagc ttcaggaaca gcaggtccag 780

gtggagatgg acatgtctaa gccagacctc actgccgccc tcagggacat ccgggctcag 840

tatgagacca tcgcggctaa gaacatttct gaagctgagg agtggtacaa gtcgaaggtg 900

tcagacctga cccaggcagc caacaagaac aacgacgccc tgcgccaggc caagcaggag 960

atgatggaat accgacacca gatccagtcc tacacctgcg agattgacgc cctgaagggc 1020

actaacgatt ccctgatgag gcagatgcgg gaattggagg accgatttgc cagtgaggcc 1080

agtggctacc aggacattgc gcgcctggag gaggaaatcc ggcacctcaa ggatgagatg 1140

gcccgccatc tgcgcgagta ccaggacctg ctcaacgtga agatggccct ggatgtggag 1200

attgccacct accggaagct gctggaggga gaggagagcc ggatcaatct ccccatccag 1260

acctactctg ccctcaactt ccgagaaacc agccctgagc aaaggggttc tgaggtccat 1320

accaagaaga cggtgatgat caagaccatc gagacacggg atggggaggt cgtcagtgag 1380

gccacacagc agcagcatga agtgctctaa agacgagaga ccctct 1426

Claims

1.一种检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法，其包括：

测定受试者的测试样品中第一组转录物和第二组转录物各自的表达水平，其中该第一组转录物包含与在UIP中表达过度且列于表5、7、9、10、11、和12任一个中的基因中的任一个相对应的一个或多个序列，并且该第二组转录物包含与在UIP中表达不足且列于表5、8、9、10、11、或12任一个中的基因中的任一个相对应的一个或多个序列；并且

将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较，从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加和/或(b)相对应于该第二组的表达水平的降低，则将所述肺组织分类为普通型间质性肺炎(UIP)，或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加和/或(d)相对应于该第一组的表达水平的降低，则将该肺组织分类为非普通型间质性肺炎(非UIP)。

2.一种检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法，其包括：

通过测序、阵列杂交、或核酸扩增来测定来自受试者肺组织的测试样品中第一组转录物和第二组转录物各自的表达水平，其中该第一组转录物包含与在UIP中表达过度且列于表5、7、9、10、11、和12任一个中的基因中的任一个相对应的一个或多个序列，并且该第二组转录物包含与在UIP中表达不足且列于表5、8、9、10、11、或12任一个中的基因中的任一个相对应的一个或多个序列；并且

3.一种检测肺组织样品是呈UIP阳性还是呈非UIP阳性的方法，其包括：

测量该样品中表达的两种或更多种转录物的表达水平；并且

使用计算机生成的分类器将该样品分类为UIP和非UIP；

其中将该分类器使用异质谱的非UIP病理学亚型进行训练，该异质谱的非UIP病理学亚型包括HP、NSIP、结节病、RB、细支气管炎、以及机化性肺炎(OP)。

4.权利要求1-3中任一项的方法，其中该测试样品是活检样品或支气管肺泡灌洗样品。

5.权利要求1-3中任一项的方法，其中该测试样品是新鲜冷冻的或固定的。

6.权利要求1-3中任一项的方法，其中该表达水平是通过RT-PCR、DNA微阵列杂交、RNASeq、或其组合确定的。

7.权利要求1-3中任一项的方法，其中该方法包括检测从该测试样品中表达的RNA产生的cDNA。

8.权利要求7的方法，其中在该检测步骤之前，将该cDNA从多种cDNA转录物扩增。

9.权利要求1-3中任一项的方法，其中将该转录物中的一种或多种进行标记。

10.权利要求1-3中任一项的方法，其进一步包括测量该测试样品中至少一种对照核酸的表达水平。

11.权利要求1-3中任一项的方法，其中将该肺组织分类为间质性肺病(ILD)、特定类型的ILD、非ILD、或非诊断性中的任一种。

12.权利要求1-3中任一项的方法，其中将该肺组织分类为特发性肺纤维化(IPF)或非特异性间质性肺炎(NSIP)。

13.权利要求1或2的方法，其中该方法包括针对SEQ ID NO:1-22中任一个的一种或多种转录物的表达水平对该测试样品进行测定。

14.权利要求13的方法，其进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。

15.权利要求3的方法，其中该方法包括针对SEQ ID NO:1-22中任一个的一种或多种转录物的表达水平对该测试样品进行测定。

16.权利要求1-2中任一项的方法，其进一步包括使用吸烟状况作为(1)或(2)的分类步骤的协变量。

17.权利要求16的方法，其中吸烟状况是通过检测指示该受试者的吸烟者状况的表达谱来确定的。

18.前述权利要求中任一项的方法，其中该样品的分类包括检测对吸烟者状况偏倚敏感的一种或多种转录物的表达水平，并且其中该对吸烟者状况偏倚敏感的转录物的权重不同于对吸烟者偏倚不敏感的转录物的权重。

19.前述权利要求中任一项的方法，其中该样品的分类包括检测对吸烟者状况偏倚敏感的一种或多种转录物的表达水平，并且其中该对吸烟者状况偏倚敏感的转录物被排除在该分类步骤之外。

20.权利要求1-2中任一项的方法，其中该第一组包括2种或更多种不同的转录物，或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。

21.权利要求1-2中任一项的方法，其中该第二组包括2种或更多种不同的转录物，或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。

22.权利要求13或15的方法，其包括检测SEQ ID NO:1-22中任一个的2种或更多种不同的转录物，或SEQ ID NO:1-22中任一个的3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。

23.权利要求13或15的方法，其包括针对SEQ ID NO:1-22的全部转录物的表达水平对该测试样品进行测定。

24.权利要求15、22、或23的方法，其进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。

25.权利要求24的方法，其中该其他基因包括以下项或者由以下项组成：HMCN2、ADAMTSL1、CD79B、KEL、KLHL14、MPP2、NMNAT2、PLXDC1、CAPN9、TALDO1、PLK4、IGHV3-72、IGKV1-9、和CNTN4。

26.权利要求3的方法，其进一步包括使用吸烟状况作为该分类步骤的协变量。

27.权利要求16或27的方法，其中在该分类步骤之前，该方法使用吸烟状况作为协变量。

28.前述权利要求中任一项的方法，其包括实施分类器，该分类器是使用选自以下项的一种或多种特征训练的：基因表达、变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。

29.权利要求29的方法，其中该分类器是使用包含以下项的特征训练的：基因表达、序列变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。

30.前述权利要求中任一项的方法，其中该分类步骤进一步包括检测该测试样品中的序列变体，并且将该序列变体与参考样品中的对应序列进行比较，以将该样品分类为UIP或非UIP。