CN107206043A - 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法 - Google Patents

使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法 Download PDF

Info

Publication number
CN107206043A
CN107206043A CN201580071464.4A CN201580071464A CN107206043A CN 107206043 A CN107206043 A CN 107206043A CN 201580071464 A CN201580071464 A CN 201580071464A CN 107206043 A CN107206043 A CN 107206043A
Authority
CN
China
Prior art keywords
seq
uip
expression
sample
grader
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580071464.4A
Other languages
English (en)
Inventor
G·C·肯尼迪
J·迪甘斯
J·黄
Y·崔
S·Y·金姆
D·潘克拉茨
M·帕甘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Veracyte Inc
Original Assignee
Veracyte Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Veracyte Inc filed Critical Veracyte Inc
Priority to CN202210273325.1A priority Critical patent/CN114606309A/zh
Publication of CN107206043A publication Critical patent/CN107206043A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P11/00Drugs for disorders of the respiratory system
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • Pulmonology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了用于在作为普通型间质性肺炎(UIP)或非UIP的样品之间进行区分的系统、方法、和分类器。

Description

使用机器学习和高维转录数据在经支气管活检上诊断特发性 肺纤维化的系统和方法
相关申请的交叉引用
本申请要求2014年11月5日提交的美国临时申请序列号62/075,328以及2015年3月10日提交的美国临时申请序列号62/130,800的优先权,将其各自通过引用以其全文结合在此。本申请还将2014年3月14日提交的PCT/US2014/029029的全部主题通过引用以其全文结合在此。
以电子方式提交的文本文件的描述
将与此一起以电子方式提交的文本文件的内容通过引用以其全文结合在此:计算机可读格式拷贝的序列表(文件名:VRCT_003_01WO_SeqList_ST25.txt,记录日期:2015年11月5日,文件大小:64千字节)。
引言
间质性肺病(ILD)是一组异质性的急性和慢性双侧实质性肺部疾病,具有相似的临床表现,但具有宽范围的严重性和结果1,2。其中,特发性肺纤维化(IPF)是最常见且最严重的ILD之一,其特征在于进行性纤维化、使肺功能恶化以及死亡3-6。大多数诊断患有IPF的患者在他们最初诊断的五年内死亡7,8。然而,最近获得在开发中的两种新药和其他疗法可以改变这种状况9-11,并且准确的诊断对于适当的治疗干预是关键的5,12
IPF对于诊断可以是具挑战性的。对IPF的诊断方法需要排除其他间质性肺炎、以及结缔组织疾病及环境和职业暴露3-6。疑似患有IPF的患者通常经历高分辨率计算机断层摄影术(HRCT),只要普通型间质性肺炎(UIP)的模式是清晰明显的,则该摄影术以高特异性确证该疾病5,13。然而,对于多数患者而言,诊断需要侵入性外科肺活检(SLB)以阐明间质性肺炎和/或UIP模式的组织病理学特征5,14,并且从症状发作起诊断出IPF的时间的典型长度可以是1-2年15。病理学家之间存在不一致,而正确的诊断可以取决于个人经验16。尽管有组织病理学评估,确诊可能仍然难把握。当肺病学家、放射学家和病理学家的多学科综合小组(MDT)商讨时,诊断准确性已经显示增加17;遗憾的是,并非所有患者和他们的医师都可获得由有经验的MDT作出的这种水平的专家审评。此类审评是耗时的并且需要患者在具有公认专业技能的区域中心就诊。
因此,需要更有效的诊断IPF的方法。此外,需要区分UIP和非UIP的方法。
发明概述
在此本文描述了用于使用分类器在作为普通型间质性肺炎(UIP)或非UIP的样品之间进行区分的方法和系统,该分类器的准确性是使用作为真实标记的专家病理学诊断来确证的。虽然在科技文献中基因表达谱研究已经报道在IPF和其他ILD亚型之间的差异表达18,19,尚未有人尝试在包含常作为临床医师的鉴别诊断的部分而存在的其他亚型的数据集中为UIP分类。
在一些实施方案中,本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统。在一些实施方案中,提供了用于测定受试者的测试样品中第一组转录物和第二组转录物各自的表达水平的方法,其中该第一组转录物包含在UIP中表达过度且列于表5、7、9、10、11、和12任一个中的基因中的任何一个或多个,并且该第二组转录物包含在UIP中表达不足且列于表5、8、9、10、11、或12任一个中的基因中的任何一个或多个。在一些实施方案中,该方法进一步提供了将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较,从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加或(b)相对应于该第二组的表达水平的降低,则将所述肺组织分类为普通型间质性肺炎(UIP),或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加或(d)相对应于该第一组的表达水平的降低,则将该肺组织分类为非普通型间质性肺炎(非UIP)。在一些实施方案中,该方法进一步提供了用于确定和/或比较列于表5、8、9、11、和/或12中的一个或多个基因中的任一个的序列变体。
在一些实施方案中,本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统。在一些实施方案中,该方法和/或系统用于通过测序、阵列杂交、或核酸扩增来测定来自受试者肺组织的测试样品中第一组转录物和第二组转录物各自的表达水平,其中该第一组转录物包含在UIP中表达过度且列于表5、7、9、10、11或12中的基因中的任何一个或多个,并且该第二组转录物包含在UIP中表达不足且列于表5、8、9、10、11或12中的基因中的任何一个或多个。在某些实施方案中,该方法和/或系统进一步将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较,从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加或(b)相对应于该第二组的表达水平的降低,则将所述肺组织分类为普通型间质性肺炎(UIP),或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加或(d)相对应于该第一组的表达水平的降低,则将该肺组织分类为非普通型间质性肺炎(非UIP)。
在一些实施方案中,本发明提供了用于通过以下方式检测测试样品是呈UIP阳性还是呈非UIP阳性的方法和/或系统:
测量样品中表达的两种或更多种转录物的表达水平和/或确定样品中表
达的一种或多种转录物的序列变体;
使用计算机生成的分类器在UIP和非UIP之间区分;
其中将该分类器使用非UIP病理学亚型谱进行构建,该非UIP病理学亚型
包括HP、NSIP、结节病、RB、细支气管炎、以及机化性肺炎(OP)。
在一些实施方案中,该测试样品是活检样品或支气管肺泡灌洗样品。在一些实施方案中,该测试样品是新鲜冷冻的或固定的。
在一些实施方案中,转录物表达水平是通过RT-PCR、DNA微阵列杂交、RNASeq、或其组合确定的。在一些实施方案中,将转录物中的一种或多种进行标记。
在一些实施方案中,该方法包括检测从该测试样品中表达的RNA产生的cDNA,其中任选地,在该检测步骤之前将该cDNA从多种cDNA转录物扩增。
在一些实施方案中,本发明的方法进一步包括测量该测试样品中至少一种对照核酸的表达水平。
在一些实施方案中,本发明的方法将肺组织分类为间质性肺病(ILD)、具体类型的ILD、非ILD、或非诊断性中的任一种。在具体实施方案中,本发明的方法将肺组织分类为特发性肺纤维化(IPF)或非特异性间质性肺炎(NSIP)。
在一些实施方案中,本发明的方法和/或系统包括针对SEQ ID NO:1-22中任一个的一种或多种转录物的表达水平对该测试样品进行测定。在一些实施方案中,该方法进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。在一些实施方案中,该其他基因包括HMCN2、ADAMTSL1、CD79B、KEL、KLHL14、MPP2、NMNAT2、PLXDC1、CAPN9、TALDO1、PLK4、IGHV3-72、IGKV1-9、和CNTN4中的一种或多种或者任选地全部。
在一些实施方案中,本发明的方法和/或系统进一步包括在于此公开的UIP与非UIP分类器的训练期间使用吸烟状况作为协变量,其中任选地,该吸烟状况是通过检测指示受试者的吸烟者状况的表达谱来确定的。在一些实施方案中,这种分类器用于确定测试样品是UIP还是非UIP。
在一些实施方案中,本发明的方法和/或系统包括训练UIP与非UIP分类器,其中在分类器训练期间,对吸烟者状况偏倚敏感的基因被排除或者与对吸烟者状况偏倚不敏感的基因相比被给予不同的权重。
在一些实施方案中,本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统,如在此所述的,其中该方法包括使用第一分类器将测试样品分为吸烟者或非吸烟者的第一分类,该第一分类器被训练为识别将吸烟者和非吸烟者区分开来的基因标记;并且其中该方法进一步包括将测试样品分为UIP或非UIP的第二分类,其中该第二分类步骤使用第二或第三分类器,该第二和第三分类器被训练为分别区分吸烟者(吸烟者特异性分类器)和非吸烟者(非吸烟者特异性分类器)中的UIP与非UIP,并且其中该第二分类使用(i)吸烟者特异性分类器,如果在第一分类中测试样品被分类为吸烟者的话,或(ii)非吸烟者特异性分类器,如果在第一分类中测试样品被分类为非吸烟者的话。
在一些实施方案中,本发明提供了用于检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法和/或系统,其中该方法包括实施分类器,该分类器是使用选自以下项的一种或多种特征训练的:基因表达、变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。在一些实施方案中,该分类器是使用包含以下项的特征训练的:基因表达、序列变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。
在一些实施方案中,本发明提供了测定第一组中2种或更多种不同的转录物、或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物,和/或第二组中2种或更多种不同的转录物、或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。
在一些实施方案中,该方法提供了检测SEQ ID NO:1-22中任一个的2种或更多种不同的转录物,或SEQ ID NO:1-22中任一个的3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。在具体实施方案中,本方法提供了针对SEQ ID NO:1-22的全部转录物的表达水平对该测试样品进行测定。在一些实施方案中,该方法进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。在一些实施方案中,该方法提供了测定HMCN2、ADAMTSL1、CD79B、KEL、KLHL14、MPP2、NMNAT2、PLXDC1、CAPN9、TALDO1、PLK4、IGHV3-72、IGKV1-9、和CNTN4中的一种或多种。
附图说明
图1。对从诊断患有IPF的三名患者(患者P1、P2、和P3)获得的外植块样品的成对相关。指示了每个样品的位置(上或下,中心或外周)。将IPF样品与正常肺样品分开的前200种差异表达的基因用于计算成对皮尔逊相关系数,并且绘制为热图,其中较高的相关性以酒红色呈现,并且较低的相关性以绿色呈现。与/和正常肺样品之间的相关性是在0-7范围内(未示出)。
图2A-2D。使用微阵列数据构建的分类器的性能。ROC曲线用于通过用固定模型对样品评分来表征在使用留一患者(leave-one-patient-out,LOPO)交叉验证的训练集中的性能(图2A)以及在独立测试集中的性能(图2C)。示出训练集中跨患者的单独样品的得分(图2B)以及独立测试集中跨患者的单独样品的得分(图2D)。患者水平病理学诊断示于x轴上。具有UIP病理学标记的样品是以实心圆圈指示,而通过病理学所示的非UIP样品是以空心三角形指示。绘出水平虚线以指示对应于92%特异性和64%灵敏度的阈值(图2B)和对应于92%特异性和82%灵敏度的阈值(图2D)。
图3A-3D。使用RNASeq(图3A和图3B)和匹配集上的微阵列(图3C和图3D)构建的分类器的性能。进行留一患者(LOPO)交叉验证,并且产生针对RNASeq(图3A)和微阵列(图3C)分类器的受试者工作特征(ROC)曲线。针对训练集中单独样品的得分是针对RNASeq(图3B)和微阵列(图3D)分类而示出的。患者水平病理学诊断示于x轴上。具有UIP病理学标记的样品是以实心圆圈指示,而通过病理学所示的非UIP样品是以空心三角形指示。在图3B和图3D中相对应于95%特异性的得分阈值指示为水平线。
图4。评价错误标记对分类性能的影响的模拟研究。阵列训练集(n=77)用于此研究。在数据集中给定百分比的变换标记(x轴)的情况下,将单独样品的分类标记以如下权重变换为另一类标记,该权重说明三种专家病理学诊断的分歧水平。使用来自100次反复模拟的LOPO CV性能(AUC)绘制每个箱形图。AUC=0.5时的较细的水平虚线代表随机性能,即没有分类,而较粗的虚线相对应于图2A中示出的分类器性能。
图5。用两种样品(样品A和样品B)针对假设患者的中心病理学诊断过程。三名病理学专家参与审评过程。对于样品水平诊断,由每名病理学家(病理学家缩写为Path.)审评每个样品的载玻片。对于患者水平诊断,将来自所有样品(在此练习中为两种)的载玻片收集并且由每名病理学家一起审评。样品水平和患者水平诊断经历相同的审评过程。将多数票决用作最终诊断,除非病理学专家即使在商讨之后仍不一致,在这种情况下,因缺乏诊断的可信度将该样品省去。在所有库存组织(n=128)中观察到仅一个这样的情况。
图6。来自三个正常器官供体(顶部)和三名诊断患有IPF的患者(底部)的肺取样的位置。供体N1-N3和P3是女性。供体P1和P2是男性。
图7A。可用于实施在此公开的方面的计算机系统的图示。
图7B。图7A的计算机系统的处理器的详细图示。
图7C。本发明的一种非限制性方法的详细图示,其中使用已知UIP和非UIP样品的基因产物表达数据训练分类器(例如,使用分类器训练模块)以用于区分UIP与非UIP,其中该分类器任选地考虑吸烟者状况作为协变量,并且其中将来自未知样品的基因产物表达数据输入经训练的分类器中以将未知样品鉴别为UIP或非UIP,并且其中经由该分类器进行分类的结果是经由报告定义并输出的。
图8。在吸烟者和非吸烟者之间在UIP和非UIP样品中的差异基因表达。在UIP和非UIP样品之间差异表达的基因数目在吸烟者和非吸烟者之间有显著差别。
图9。示出在UIP和非UIP样品之间的差异基因表达对于吸烟者状况偏倚是敏感的。差异基因表达的方向(即,表达过度与表达不足)和幅度(圆圈大小)被吸烟状况搞混淆。
图10A-10D。在UIP和非UIP中差异表达的基因例子和吸烟状况对表达水平的影响。图10A:在吸烟者与非吸烟者中UIP和非UIP中IGHV3-72的差异表达。图10B:在吸烟者与非吸烟者中UIP和非UIP中CPXM1的差异表达。图10C:在吸烟者与非吸烟者中UIP和非UIP中BPIFA1的差异表达。图10D:在吸烟者与非吸烟者中UIP和非UIP中HLA-U的差异表达。
定义
如在此使用的“间质性肺病”或“ILD”(也称为弥漫性实质性肺病(DPLD))是指影响间质(在肺的肺泡周围的组织和空间)的一组肺病。ILD可以根据疑似或已知原因来分类,或可以是特发性的。例如,ILD可以分类为由吸入物质(无机或有机的)引起的、药物(例如,抗生素、化学治疗药、抗心律失常药、他汀类)诱导的、与结缔组织疾病(例如,系统性硬化病、多肌炎、皮肌炎、系统性红斑狼疮、类风湿性关节炎)相关的、与肺部感染(例如,非典型性肺炎、肺孢子菌肺炎(PCP)、肺结核、沙眼衣原体、呼吸道合胞病毒)相关的、与恶性肿瘤(例如,淋巴管癌病)相关的,或者可以是特发性的(例如,结节病、特发性肺纤维化、Hamman-Rich综合征、抗合成酶综合征)。
如在此使用的“ILD炎症”是指表征为潜在炎症的炎性ILD亚型的分析分组。这些亚型可以统一用作针对IPF和/或任何其他非炎症肺病亚型的比较者。“ILD炎症”可以包括HP、NSIP、结节病和/或机化性肺炎。
“特发性间质性肺炎”或“IIP”(还称作“非感染性肺炎”)是指包括例如脱屑性间质性肺炎、非特异性间质性肺炎、淋巴样间质性肺炎、隐源性机化性肺炎、以及特发性肺纤维化的一类ILD。
如在此使用的“特发性肺纤维化”或“IPF”是指慢性的进行形式的肺病,其表征为肺部的支撑框架(间质)的纤维化。按照定义,该术语是在肺纤维化原因未知时使用(“特发性”)。通过显微镜,来自患有IPF的患者的肺组织示出称为普通型间质性肺炎(UIP)的组织学/病理学特征的特征集。
“非特异性间质性肺炎”或“NSIP”是特发性间质性肺炎的一种形式,其通常表征为由具有胶原沉积的慢性炎症细胞限定的一致或呈斑片状的细胞模式、以及由弥漫性斑片状纤维化限定的纤维化模式。与UIP相比之下,不存在表征普通型间质性肺炎的蜂窝状外观,也不存在成纤维细胞病灶。
“过敏性肺炎”或“HP”还称为外源性过敏性肺泡炎(EAA),是指在肺内肺泡的炎症,其由吸入抗原(例如,有机粉尘)造成的过度免疫应答以及过敏性引起。
“肺结节病”或“PS”是指涉及可形成为小结的慢性炎症细胞的异常集中(肉芽肿)的综合征。HP的炎症过程通常涉及肺泡、小支气管、和小血管。在HP的急性和亚急性病例中,体格检查通常揭示干性罗音。
术语“微阵列”是指可杂交的阵列要素优选多核苷酸探针在基片上的有序安排。
当以单数或复数使用时,术语“多核苷酸”通常指代任何多核糖核苷酸或多脱氧核糖核苷酸,其可以是未修饰的RNA或DNA或者经修饰的RNA或DNA。因此,例如,如在此定义的多核苷酸包括而不限于单链和双链DNA、包含单链和双链区域的DNA、单链和双链RNA、以及包含单链和双链区域的RNA、包含DNA和RNA(可以是单链的,或更典型地双链的,或者包含单链和双链区域)的杂交分子。此外,如在此使用的术语“多核苷酸”是指包含RNA或DNA或者RNA和DNA两者的三链区域。在此类区域中的链可以来自相同分子或来自不同分子。该区域可以包括一种或多种分子的全部,但更典型地涉及一些分子的仅一个区域。具有三螺旋区域的分子之一通常是寡核苷酸。术语“多核苷酸”还可以包括含有一个或多个修饰碱基(例如,以提供可检测信号,如荧光团)的DNA(例如,cDNA)和RNA。因此,出于稳定性或其他原因而对主链进行了修饰的DNA或RNA是如该术语在此所意指的“多核苷酸”。此外,包含稀有碱基(如肌苷)或修饰碱基(如氚化碱基)的DNA或RNA包括于如在此定义的术语“多核苷酸”内。通常,术语“多核苷酸”涵盖未修饰多核苷酸的所有化学修饰、酶修饰和/或代谢修饰形式,以及病毒和细胞(包括简单细胞及复杂细胞)所特有的DNA和RNA的化学形式。
术语“寡核苷酸”是指相对短的多核苷酸(例如,100、50、20或更少个核苷酸),包括而不限于单链脱氧核糖核苷酸、单链或双链核糖核苷酸、RNA:DNA杂交体和双链DNA。寡核苷酸(如单链DNA探针寡核苷酸)通常通过化学方法例如使用可商购的自动化寡核苷酸合成仪合成。然而,寡核苷酸可以通过多种其他方法制得,包括体外重组DNA介导的技术以及通过在细胞和有机体中表达DNA。
如在此使用的术语“基因产物”或“表达产物”可互换使用,以指代基因的RNA转录产物(RNA转录物)(包括mRNA)以及此类RNA转录物的多肽翻译产物。基因产物可以是例如多核苷酸基因表达产物(例如,未剪接的RNA、mRNA、剪接变体mRNA、microRNA、片段化RNA等)或蛋白质表达产物(例如,成熟多肽、翻译后修饰的多肽、剪接变体多肽等)。在一些实施方案中,基因表达产物可以是包含突变、融合、杂合性丢失(LOH)和/或生物途径效应的序列变体。
如应用于基因表达产物的术语“归一化的表达水平”是指相对于一种或多种参考(或对照)基因表达产物进行归一化的基因产物的水平。
如应用于基因表达产物的“参考表达水平”是指一种或多种参考(或对照)基因表达产物的表达水平。如应用于基因表达产物的“参考归一化的表达水平”是指一种或多种参考(或对照)基因表达产物的归一化的表达水平值(即,归一化的参考表达水平)。在一些实施方案中,参考表达水平是在如在此所述的正常样品中的一种或多种基因产物的表达水平。在一些实施方案中,参考表达水平是经实验确定的。在一些实施方案中,参考表达水平是历史表达水平,例如正常样品中的参考表达水平的数据库值,该样品指示单个参考表达水平或多个参考表达水平的总结(比如例如,(i)来自单个样品的参考表达水平的重复分析的两个或更多个、优选三个或更多个参考表达水平的平均值;(ii)来自多个不同样品(例如,正常样品)的参考表达水平的分析的两个或更多个、优选三个或更多个参考表达水平的平均值;(iii)以及上述步骤(i)和(ii)的组合(即,从多个样品分析的参考表达水平的平均值,其中参考表达水平中的至少一个被重复分析)。在一些实施方案中,“参考表达水平”是例如在已经通过其他方式(即,确证的病理学诊断)决定性地确定为UIP或非UIP的样品中序列变体的表达水平。
如应用于基因表达产物的“参考表达水平值”是指一种或多种参考(或对照)基因表达产物的表达水平值。如应用于基因表达产物的“参考归一化的表达水平值”是指一种或多种参考(或对照)基因表达产物的归一化的表达水平值。
杂交反应的“严格性”易于由本领域普通技术人员确定,并且通常是取决于探针长度、洗涤温度和盐浓度的经验计算。通常,越长的探针需要越高的温度用于探针退火,而越短的探针需要越低的温度。当互补链存在于低于其解链温度的环境中时,杂交通常取决于变性DNA再退火的能力。探针与可杂交序列之间的所希望的同源性程度越高,可以使用的相对温度越高。因此,遵循越高的相对温度倾向于使得反应条件越严格,而越低的温度则使得反应条件越不太严格。对于杂交反应的严格性的另外细节和解释,参见Ausubel等人,Current Protocols in Molecular Biology,(Wiley Interscience,1995)。
如在此定义的“严格条件”或“高严格条件”,典型地:(1)采用低离子强度溶液和高温度用于洗涤,例如0.015M氯化钠/0.0015M柠檬酸钠/0.1%十二烷基硫酸钠,在50℃;(2)在杂交期间采用变性剂,如甲酰胺,例如50%(v/v)甲酰胺和0.1%牛血清白蛋白/0.1%聚蔗糖(Ficoll)/0.1%聚乙烯吡咯烷酮/50mM磷酸钠缓冲液(pH 6.5)和750mM氯化钠、75mM柠檬酸钠,在42℃;或(3)采用50%甲酰胺、5x SSC(0.75M NaCl,0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1%焦磷酸钠、5x Denhardt溶液、声处理的鲑鱼精DNA(50μg/ml)、0.1%SDS、和10%硫酸葡聚糖,在42℃,其中在42℃下在0.2x SSC(氯化钠/柠檬酸钠)中洗涤并在55℃下在50%甲酰胺中洗涤,随后为在55℃下由含EDTA的0.1x SSC组成的高严格洗涤。
“中严格条件”可以如Sambrook等人,Molecular Cloning:A Laboratory Manual(Cold Spring Harbor Press,1989)描述的来鉴定,并且包括使用比上述那些不太严格的洗涤溶液和杂交条件(例如,温度、离子强度和%SDS)。中严格条件的例子是在包含20%甲酰胺、5x SSC(150mM NaCl、15mM柠檬酸三钠)、50mM磷酸钠(pH 7.6)、5x Denhardt溶液、10%硫酸葡聚糖、以及20mg/ml变性剪切鲑鱼精DNA的溶液中在37℃下过夜孵育,随后在1xSSC中在约37℃-50℃洗涤过滤器。技术人员应在必要时认识到如何调节温度、离子强度等,以适应如探针长度等因素。
如在此使用的“灵敏度”是指占测试总数目的确实患有目标病症的真阳性比例(即,具有阳性测试结果的患有目标病症的患者的比例)。如在此使用的“特异性”是指占全部测试患者的确实不患有目标病症的真阴性比例(即,具有阴性测试结果的不患有目标病症的患者的比例)。
在本发明的背景下,列于任何具体基因集中的基因中的“至少一个”、“至少两个”、“至少五个”等的提及意指所列基因中的任何一个或者任何和全部组合。
术语“剪接”和“RNA剪接”可互换使用,并且是指将内含子去除并将外显子连接以产生成熟mRNA的RNA加工,该成熟mRNA具有移动进入真核细胞的细胞质中的连续编码序列。
术语“外显子”是指在成熟RNA产物中呈现的间断基因的任何区段(B.Lewin,Genes7V(Cell Press,1990))。在理论上,“内含子”是指被转录但在转录物内通过将其两侧的外显子剪接在一起而去除的任何DNA区段。可操作地,外显子序列存在于如由参考SEQ ID号所限定的基因的mRNA序列中。可操作地,内含子序列是在基因的基因组DNA内的间插序列,由外显子围绕,并且通常在其5'和3'边界处具有GT和AG剪接共有序列。
“基于计算机的系统”是指具有用于分析信息的硬件、软件、和数据存储介质的系统。患者基于计算机的系统的硬件可以包括中央处理单元(CPU),以及用于数据输入、数据输出(例如,显示)和数据存储的硬件。数据存储介质可以包括含有如上所述的当前信息的记录的任何产品,或可以访问这种产品的内存访问设备。
如在此使用的,术语“模块”是指可包括例如存储器、处理器、电迹线、光连接器、软件(在硬件中执行)和/或其他的任何组件和/或可操作联接的电子部件集。例如,在处理器中执行的模块可以是基于硬件的模块(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理器(DSP))和/或基于软件的模块(例如,在存储器中存储的和/或在处理器处执行的计算机代码的模块)的任何组合,所述模块能够执行与该模块相关的一种或多种特定功能。
“记录”计算机可读介质上的数据、编程或其他信息是指使用本领域中已知的任何此类方法存储信息的过程。基于用于访问存储的信息的器件,可以选择任何方便的数据存储结构。多种数据处理器程序和格式可以用于存储,例如文字处理文本文件、数据库格式等。
“处理器”或“计算装置”引用将执行其所需功能的任何硬件和/或软件组合。例如,适合的处理器可以是可编程数字微处理器,如按以下形式可用:电子控制器、大型机、服务器或个人计算机(台式机或便携式计算机)。在处理器是可编程的情况下,适合的编程可以从远端位置传递至该处理器,或预先保存在计算机程序产品(如便携式或固定式计算机可读存储介质,无论是基于磁性的、光学的还是固态的设备)中。例如,磁性介质或光盘可以携带编程,并且可以由与每个处理器通讯的适合的读者在其相应站点处读取。
“测试样品”是一种或多种细胞的样品,优选获得自受试者的组织样品(例如,肺组织样品,如经支气管活检(TBB)样品)。在一些实施方案中,测试样品是通过本领域中已知的任何方式获得的活检样品。在具体实施方案中,测试样品是通过电视辅助胸腔镜手术(VATS);支气管肺泡灌洗(BAL);经支气管活检(TBB);或冷冻经支气管活检获得的样品。在一些实施方案中,测试样品是基于患者呈现的临床体征和症状(例如,呼吸短促(通常由用力而恶化)、干咳)以及任选地成像测试(例如,胸部X射线、计算机断层摄影术(CT)、肺功能测试(例如,肺活量测定、血氧定量法、运动负荷试验)、肺组织分析(例如,通过支气管镜检、支气管肺泡灌洗、外科活检获得的样品的组织学和/或细胞学分析)中的一种或多种的结果,获得自疑似患有肺病(例如,ILD)的患者。
“基因标记”是指示一些特征或表型的基因表达模式(即,一种或多种基因或其片段的表达水平)。在一些实施方案中,基因标记是指一种基因、多种基因、一种基因的一个片段或一种或多种基因的多个片段的表达(和/或缺乏表达),所述表达和/或缺乏表达指示UIP、非UIP、吸烟者状况或非吸烟者状况。
如在此使用的,“是吸烟者”意为指代当前抽香烟的受试者、或曾在过去抽香烟的人、或具有当前抽香烟或曾在过去抽香烟的人的基因标记的人。
如在此使用的,当用于描述在训练本发明的分类器期间使用的特征时,“变体”是指选择性剪接变体。
如在此使用的,当用于描述在训练本发明的分类器期间使用的特征时,“突变”是指相对于已知正常参考序列的序列偏差。在一些实施方案中,该偏差是相对于根据公共可访问数据库所认可的原始基因序列的偏差,该公共可访问数据库是如UniGene数据库(Pontius JU,Wagner L,Schuler GD.UniGene:a unified view of thetranscriptome.In:The NCBI Handbook.Bethesda(MD):National Center forBiotechnology Information;2003,结合在此),RefSeq(The NCBI handbook[Internet].Bethesda(MD):National Library of Medicine(US),National Center forBiotechnology Information;2002年10月,第18章,The Reference Sequence(RefSeq)Project,可在万维网地址获得:ncbi.nlm.nih.gov/refseq/),Ensembl(EMBL,可在万维网地址获得:ensembl.org/index.html)等。在一些实施方案中,突变包括参考序列中存在的序列残基的添加、缺失、或取代。
缩写包括:HRCT,高分辨率计算机断层摄影术;VATS,电视辅助胸腔镜手术;SLB,外科肺活检;TBB,经支气管活检;RB,呼吸性细支气管炎;OP,机化性肺炎;DAD,弥漫性肺泡损伤;CIF/NOC,未以其他方式分类的慢性间质性纤维化;MDT,多学科综合小组;CV,交叉验证;LOPO,留一患者;ROC,受试者工作特征;AUC,曲线下面积;RNASeq,通过下一代测序技术进行的RNA测序;NGS,下一代测序技术;H&E,苏木精和伊红;FDR,错误发现率;IRB,机构审查委员会;ATS,美国胸腔学会;COPD,慢性阻塞性肺病;KEGG,京都基因与基因组百科全书;CI,置信区间
在提供了一系列值时,应当理解的是每个中间值,到下限的第十个单位(除非上下文清晰地另外指示),该范围的上限与下限之间以及任何其他陈述的或在该陈述范围内的中间值均被涵盖在本发明之内。这些更小范围的上限和下限可以独立地被包括在更小范围之内,并且也被涵盖在本发明之内,服从于在所陈述范围内任何确切排除的限制。在所陈述的范围包括一个或两个限制时,排除了那些被包括的限制的任一个或两者的范围也被包括在本发明之内。如在此使用的,“约”意指所指值的±10%。
发明详述
在此公开了用于使用分子标记来区分UIP和其他ILD亚型的方法和/或系统。对来自样品的UIP的准确诊断(其中病理学专家是不可用的)是通过加速诊断而站在有益于ILD患者的立场,由此有助于治疗决策并降低患者手术风险和医疗系统的成本。
还在此公开了用于使用受试者的吸烟者或非吸烟者状况以改进使用分子标记区分UIP与其他ILD亚型的方法和/或系统。
因此,在此公开的方法和/或系统提供了可以在不具有临床或人口统计学信息的先前了解的情况下基于高维转录数据区分UIP和非UIP模式的分类器。
在一些实施方案中,本发明提供了用于使用分类器区分UIP和非UIP的方法,该分类器包括或其组成为呈现于表5、7、8、9、10、11、或12任一个中的一个或多个序列或其片段或者来自表5、7、8、9、10、11和12每一个的至少一个序列或其片段。在一些实施方案中,本发明提供了使用分类器的此类方法,该分类器包括或其组成为在表5、7、8、9、10、11和12的任何一个或多个或者全部中提供的序列的至少1、2、3、4、5、6、7、8、9、10个或更多个。例如,在一些实施方案中,本发明提供了使用分类器的此类方法,该分类器包括或其组成为在表5、7、8、9、10、11和12的任何一个或多个或者全部中提供的至少11、12、13、14、15、20、30、50、100、150、200、250、300个、或更多个序列,包括所有的整数(例如,16、17、18、19、21、22、23、24、25个序列等)和其间的范围(例如,来自表5、7、8、9、10、11、和12的任何一个或多个或者全部的约1-10个序列,约10-15个序列、10-20个序列、5-30个序列、5-50个序列、10-100个序列、50-200个序列等)。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列或其片段中的一个或多个:1)HLA-F(SEQ IDNO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ IDNO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。
在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或21个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ IDNO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22),处于任何组合。在具体方面中,这种分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。
在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列中的全部:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ IDNO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列或其片段中的一个或多个:1)HLA-F(SEQ IDNO.:1)、2)HMCN2、3)ADAMTSL1、4)CD79B、5)KEL、6)KLHL14、7)MPP2、8)NMNAT2、9)PLXDC1、10)CAPN9、11)TALDO1、12)PLK4、13)IGHV3-72、14)IGKV1-9、以及15)CNTN4。在具体方面中,该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。
在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列中的2、3、4、5、6、7、8、9、10、11、12、13、或14个:1)HLA-F(SEQ ID NO.:1)、2)HMCN2、3)ADAMTSL1、4)CD79B、5)KEL、6)KLHL14、7)MPP2、8)NMNAT2、9)PLXDC1、10)CAPN9、11)TALDO1、12)PLK4、13)IGHV3-72、14)IGKV1-9、以及15)CNTN4。在具体方面中,该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。
在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列:1)HLA-F(SEQ ID NO.:1)、2)HMCN2、3)ADAMTSL1、4)CD79B、5)KEL、6)KLHL14、7)MPP2、8)NMNAT2、9)PLXDC1、10)CAPN9、11)TALDO1、12)PLK4、13)IGHV3-72、14)IGKV1-9、以及15)CNTN4。在具体方面中,该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为HLA-F(SEQ ID NO.:1)或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括1)HLA-F(SEQ ID NO.:1)以及以下项中的至少一个:2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为HMCN2或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括HMCN2以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为ADAMTSL1或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括ADAMTSL1以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为CD79B或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括CD79B以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为KEL或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括KEL以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ IDNO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为KLHL14或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括KLHL14以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为MPP2或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括MPP2以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ IDNO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为NMNAT2或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括NMNAT2以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为PLXDC1或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括PLXDC1以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为CAPN9或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括CAPN9以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为TALDO1或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括TALDO1以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为PLK4或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括PLK4以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ IDNO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为IGHV3-72或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括IGHV3-72以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为IGKV1-9或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括IGKV1-9以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些具体实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为CNTN4或其片段。在一个这样的实施方案中,该方法使用分类器,该分类器包括CNTN4以及以下项中的至少一个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因。
在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、或35个:1)HLA-F(SEQ IDNO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ IDNO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、22)DES(SEQ ID NO.:22)、23)HMCN2、24)ADAMTSL1、25)CD79B、26)KEL、27)KLHL14、28)MPP2、29)NMNAT2、30)PLXDC1、31)CAPN9、32)TALDO1、33)PLK4、34)IGHV3-72、35)IGKV1-9、以及36)CNTN4。在具体方面中,该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。
在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,该分类器包括或其组成为以下序列中的全部:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQ ID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ ID NO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ IDNO.:21)、22)DES(SEQ ID NO.:22)、23)HMCN2、24)ADAMTSL1、25)CD79B、26)KEL、27)KLHL14、28)MPP2、29)NMNAT2、30)PLXDC1、31)CAPN9、32)TALDO1、33)PLK4、34)IGHV3-72、35)IGKV1-9、以及36)CNTN4。在具体方面中,该分类器可以包含1、2、3、4、5、6、7、8个、或更多个另外的基因。在其他方面中,该分类器可以省略这些基因中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。在一些实施方案中,本发明提供了用于使用分类器区分UIP与非UIP的方法和/或系统,其中该方法进一步包括实施将受试者分类为吸烟者或非吸烟者的分类器。这种吸烟者状况分类可以任选地在实施UIP与非UIP分类器之前实施,或者吸烟者状况分类步骤可以作为在训练(例如,使用分类器训练模块)本发明的UIP与非UIP分类器期间使用的协变量构建于其中。
在一些实施方案中,可替代地或另外地,用于使用在此描述的分类器区分UIP与非UIP的方法和/或系统进一步包括在训练(例如,使用分类器训练模块)或实施UIP与非UIP分类器期间排除对吸烟者状况偏倚敏感的某些基因或其变体或将不等权重赋予至对吸烟者状况偏倚敏感的某些基因或其变体的步骤。如在此使用的,“吸烟者状况偏倚”是指在非吸烟者患者中差异表达于UIP与非UIP患者中的但在作为(或曾经作为)吸烟者的UIP与非UIP患者中不可检测到差异表达的基因或其变体。
在一些实施方案中,本发明的方法和/或系统包括分层分类器,该分层分类器包括至少第一分类器和第二分类器,其中该第一分类器被训练(例如,使用分类器训练模块)为识别区分吸烟者与非吸烟者的基因标记,并且第二分类器被训练(例如,使用分类器训练模块)为对应地区分吸烟者或非吸烟者中的UIP与非UIP。
在一些实施方案中,本发明的方法和/或系统包括:
从测试样品(例如,肺组织)提取核酸(例如,RNA,如例如总RNA);扩增该核酸以产生表达的核酸文库(例如,经由聚合酶链式反应介导的cDNA(任选地标记的cDNA)扩增,所述cDNA可以通过逆转录(RT-PCR)产生自一种或多种RNA样品);
经由阵列(例如,微阵列)或经由直接测序(例如,RNAseq)来检测该核酸文库中存在的一种或多种核酸的表达(例如,通过测量经由RT-PCR产生的cDNA种类来检测RNA表达谱);并且
使用在此描述的经训练的分类器确定该测试样品是UIP还是非UIP。
在一些实施方案中,本发明的方法和/或系统进一步包括将吸烟者状况并入训练练习中。在某些实施方案中,任选地将吸烟者状况按以下方式之一并入:
(i)在训练(例如,使用分类器训练模块)期间在UIP或非UIP分类器中,通过使用吸烟状况作为协变量。
(ii)在UIP或非UIP分类器训练(例如,使用分类器训练模块)期间,通过鉴定对吸烟者状况偏倚敏感的多个基因,并且排除此类基因,或任选地对此类基因给予与对这种偏倚不敏感的基因相比不同的权重。
(iii)通过构建分层分类,其中使用被训练(例如,使用分类器训练模块)为识别区分吸烟者与非吸烟者的基因标记的起始分类器来基于测试样品的基因标记将该测试样品预分类为“吸烟者”或“非吸烟者”;并且然后,在预分类之后,实施被训练(例如,使用分类器训练模块)为区分吸烟者或非吸烟者中的UIP与非UIP的不同分类器。例如,如果预分类器确定了测试样品来自吸烟者,则使用经过来自吸烟者的UIP和非UIP样品训练(例如,使用分类器训练模块)的分类器进行UIP与非UIP分类。相反,如果预分类器确定了测试样品来自非吸烟者,则使用经过来自非吸烟者的UIP和非UIP样品训练(例如,使用分类器训练模块)的分类器进行UIP与非UIP分类。在一些实施方案中,此类吸烟者或非吸烟者特异性分类器提供了改进的诊断性能,至少部分地是由于在分类器训练中降低了由包含对吸烟者状况偏倚敏感的基因所导致的背景噪音。
因此,本发明还提供了用于在如在此公开的区分UIP与非UIP的方法中使用的适合的分类器。在不同的实施方案中,本发明提供了适合用于区分UIP和非UIP的分类器,其中使用来自与病理学专家确定的一种或多种组织病理学标记相对应的样品的微阵列或测序数据训练(例如,使用分类器训练模块)该分类器。在一些实施方案中,该样品为标记的UIP或非UIP。
在一些实施方案中,本发明呈现了分类器,该分类器包括或其组成为呈现于表5、7、8、9、10、11、或12任一个中的一个或多个序列或其片段或者来自表5、7、8、9、10、11或12每一个的至少一个序列或其片段。在一些实施方案中,本发明提供了分类器,该分类器包括或其组成为在表5、7、8、9、10、11和12的任何一个或多个或者全部中提供的序列的至少1、2、3、4、5、6、7、8、9、10个或更多个。例如,在一些实施方案中,本发明提供了分类器,该分类器包括或其组成为在表5、7、8、9、10、11、或12的任何一个或多个或者全部中提供的至少11、12、13、14、15、20、30、50、100、150、200、250、300个、或更多个序列,包括所有的整数(例如,16、17、18、19、21、22、23、24、25个序列等)和其间的范围(例如,来自表5、7、8、9、10、11、或12的任何一个或多个或者全部的约1-10个序列,来自表5、7、8、9、10、11、或12的任何一个或多个或者全部的约10-15个序列、10-20个序列、5-30个序列、5-50个序列、10-100个序列、50-200个序列等)。在一个实施方案中,本发明提供了分类器,该分类器包括或其组成为:在表5中提供的全部序列、在表7中提供的全部序列、在表8中提供的全部序列、在表9中提供的全部序列、在表10中提供的全部序列、在表11中提供的全部序列、或在表12中提供的全部序列。在一个实施方案中,本发明提供了分类器,该分类器包括或其组成为:表5、7、8、9、10、11、或12每一个中提供的全部序列。
在一些具体实施方案中,本发明提供了用于区分UIP与非UIP的分类器,其中该分类器包括或其组成为以下序列或其片段中的一个或多个:1)HLA-F(SEQ ID NO.:1)、2)CDKL2(SEQ ID NO.:2)、3)GPR98(SEQ ID NO.:3)、4)PRKCQ(SEQ ID NO.:4)、5)HLA-G(SEQID NO.:5)、6)PFKFB3(SEQ ID NO.:6)、7)CEACAM1(SEQ ID NO.:7)、8)RABGAP1L(SEQ IDNO.:8)、9)CD274(SEQ ID NO.:9)、10)PRUNE2(SEQ ID NO.:10)、11)ARAP2(SEQ ID NO.:11)、12)DZIP1(SEQ ID NO.:12)、13)MXRA7(SEQ ID NO.:13)、14)PTCHD4(SEQ ID NO.:14)、15)PDLIM3(SEQ ID NO.:15)、16)CNN1(SEQ ID NO.:16)、17)NIPSNAP3B(SEQ ID NO.:17)、18)PAQR7(SEQ ID NO.:18)、19)ACTG2(SEQ ID NO.:19)、20)NA(SEQ ID NO.:20)、21)TIMP2(SEQ ID NO.:21)、以及22)DES(SEQ ID NO.:22)。在一个实施方案中,该分类器包括上述序列中的全部22个或由其组成。在一些实施方案中,本发明提供了用于区分UIP与非UIP的分类器,其中该分类器包括或其组成为上述22个序列中的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或21个。在具体方面中,该分类器包含1、2、3、4、5、6、7、8个、或更多个另外的基因或其片段。在其他方面中,该分类器省略上述22个序列中的1、2、3、4、5、6、7、8个、或更多个,同时任选地包括其他基因。在其他方面中,该22个基因中的每一个都可以与其他基因中的任何1个或多个、高达20多个相组合使用。
组织样品
用于在受试者分析或诊断方法中使用的肺组织样品可以是活检样品(例如,通过电视辅助胸腔镜手术获得的活检样品;VATS);支气管肺泡灌洗(BAL)样品;经支气管活检;冷冻经支气管活检;等等。用于分析的肺组织样品可以提供于适合的保存溶液中。
组织样品可以基于患者呈现的临床体征和症状(例如,呼吸短促(通常由用力而恶化)、干咳)以及任选地成像测试(例如,胸部X射线、计算机断层摄影术(CT))、肺功能测试(例如,肺活量测定、血氧定量法、运动负荷试验)、肺组织分析(例如,通过支气管镜检、支气管肺泡灌洗、外科活检获得的样品的组织学和/或细胞学分析)中的一种或多种的结果,获得自疑似患有肺病(例如,ILD)的患者。
肺组织样品可以按多种方式中的任一种来处理。例如,可以使肺组织样品经受细胞裂解。肺组织样品可以保存在RNA保护溶液(抑制RNA降解例如抑制RNA核酸酶消化的溶液)中并且随后经受细胞裂解。可以将组分如核酸和/或蛋白质富集或分离自肺组织样品,并且可以将富集或分离的组分用于主题方法中。富集并分离组分如核酸和蛋白质的方法在本领域中是已知的;并且可以使用任何已知的方法。分离用于表达分析的RNA的方法已经描述于本领域中。
确定表达产物水平的体外方法
用以评价组别(panel)的表达的另外的方法进一步证实在UIP与非UIP分类中观察到的基因组信号在不同的生物化学测定和检测方法中是稳固的。确切地,本文生成组群子集的RNASeq数据,并且在CV下评估性能。与匹配阵列数据的性能比较证实使用RNASeq数据的分类实现了与产生自微阵列平台的数据相似的性能。
用于确定基因表达产物水平的一般方法对于本领域而言是已知的,并且可以包括但不限于以下项中的一种或多种:另外的细胞学测定、针对特定蛋白质或酶活性的测定、针对特定表达产物(包括蛋白质或RNA或特定RNA剪接变体)的测定、原位杂交、全基因组或部分基因组表达分析、微阵列杂交测定、基因表达系列分析(SAGE)、酶联免疫吸附测定、质谱、免疫组织化学、印迹、测序、RNA测序、DNA测序(例如,获得自RNA的cDNA的测序);下一代测序、纳米孔测序、焦磷酸测序、或Nanostring测序。例如,基因表达产物水平可以根据Kim等人(Lancet Respir Med.2015Jun;3(6):473-82,以其全文结合在此,包括所有补充内容)中描述的方法来确定。如在此使用的,术语“测定”或“检测”或“确定”在提及确定基因表达产物水平时可互换使用,并且在每种情况下,应考虑到确定基因表达产物水平的上述方法适合用于检测或测定基因表达产物水平。基因表达产物水平可以针对内标如特定基因的总mRNA或表达水平归一化,该特定基因包括但不限于3-磷酸甘油醛脱氢酶或微管蛋白。
在不同的实施方案中,样品包括从组织样品(例如,肺组织样品,如TBB样品)收获的细胞。可以使用本领域中已知的或在此公开的标准技术从样品收获细胞。例如,在一个实施方案中,通过离心细胞样品并重悬浮沉淀的细胞来收获细胞。可以将细胞重悬浮于缓冲溶液如磷酸盐缓冲盐水(PBS)中。在将细胞悬浮液离心以获得细胞沉淀后,将细胞裂解以提取核酸,例如信使RNA。所有获得自受试者的样品,包括经受任何种类的进一步处理的那些,均应认为是获得自该受试者。
在一个实施方案中,在如在此所述的进行基因表达产物的检测之前将该样品进行进一步处理。例如,在细胞或组织样品中的mRNA可以与该样品的其他组分分开。可以将样品浓缩和/或纯化以分离处于其非天然状态的mRNA,因为mRNA不是处于其天然环境中。例如,研究已经指示体内mRNA的高级结构不同于相同序列的体外结构(参见例如,Rouskin etal.(2014).Nature 505,pp.701-705,出于所有目的将其以其全文结合在此)。
在一个实施方案中,来自样品的mRNA与合成DNA探针杂交,该探针在一些实施方案中包括检测部分(例如,可检测标记、捕获序列、条形码报告序列)。因此,在这些实施方案中,非天然mRNA-cDNA复合物被最终制得并用于基因表达产物的检测。在另一个实施方案中,将来自样品的mRNA直接用可检测标记例如荧光团标记。在另外的实施方案中,非天然标记的mRNA分子杂交至cDNA探针,并且检测复合物。
在一个实施方案中,一旦从样品获得mRNA,则将其在杂交反应中转化为互补DNA(cDNA),或者与一种或多种cDNA探针一起用于杂交反应中。cDNA在体内不存在,并且因此是非天然分子。另外,cDNA-mRNA杂交体是合成的并且在体内不存在。除了cDNA在体内不存在之外,cDNA必然不同于mRNA,因为它包括脱氧核糖核酸而不包括核糖核酸。然后例如通过聚合酶链式反应(PCR)或本领域普通技术人员已知的其他扩增方法将cDNA扩增。例如,可以采用的其他扩增方法包括连接酶链式反应(LCR)(Wu and Wallace,Genomics,4:560(1989),Landegren et al.,Science,241:1077(1988),出于所有目的通过引用以其全文结合)、转录扩增(Kwoh et al.,Proc.Natl.Acad.Sci.USA,86:1173(1989),出于所有目的通过引用以其全文结合)、自持序列复制(Guatelli et al.,Proc.Nat.Acad.Sci.USA,87:1874(1990),出于所有目的通过引用以其全文结合),出于所有目的通过引用以其全文结合,以及基于核酸的序列扩增(NASBA)。用于选择PCR扩增引物的指南对于本领域普通技术人员而言是已知的。参见例如,McPherson et al.,PCR Basics:From Background to Bench,Springer-Verlag,2000,出于所有目的通过引用以其全文结合。这种扩增反应的产物即经扩增的cDNA必然也是非天然产物。首先,如上所述,cDNA是非天然分子。其次,在PCR的情况下,扩增过程用于针对起始材料的每个单独cDNA分子产生数以亿计的cDNA拷贝。生成的拷贝的数目与体内存在的mRNA的拷贝数目相差甚远。
在一个实施方案中,将cDNA用将另外的DNA序列(例如,衔接子、报告子、捕获序列或部分、条形码)引入到片段上的引物(例如,使用衔接子特异性引物)扩增,或者将mRNA或cDNA基因表达产物序列与包含该另外的序列(例如,衔接子、报告子、捕获序列或部分、条形码)的cDNA探针直接杂交。因此扩增和/或mRNA与cDNA探针的杂交用于通过引入另外的序列并形成非天然杂交体而从非天然单链cDNA或mRNA产生非天然双链分子。另外,如本领域普通技术人员已知的,扩增程序具有与其相关的错误率。因此,扩增将另外的修饰引入cDNA分子中。在一个实施方案中,在用衔接子特异性引物进行扩增期间,可检测标记例如荧光团被添加至单链cDNA分子上。因此,扩增还用于产生天然不存在的DNA复合物,至少因为(i)cDNA不在体内存在,(i)衔接子序列被添加至cDNA分子的末端以得到体内不存在的DNA序列,(ii)与扩增相关的错误率进一步产生体内不存在的DNA序列,(iii)与天然存在的相比cDNA分子的不同的结构,以及(iv)可检测标记化学添加至cDNA分子。
在一些实施方案中,感兴趣基因表达产物的表达是通过检测非天然cDNA分子而在核酸水平上检测的。
在此描述的基因表达产物包括含有任何感兴趣核酸序列的全部或部分序列的RNA,或其在逆转录反应中体外合成获得的非天然cDNA产物。术语“片段”旨在指代通常包括至少10、15、20、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、800、900、1,000、1,200、或1,500个连续核苷酸或高达存在于在此公开的全长基因表达产物多核苷酸中的核苷酸数目的多核苷酸的一部分。基因表达产物多核苷酸的片段将通常编码至少15、25、30、50、100、150、200、或250个连续氨基酸,或高达存在于本发明的全长基因表达产物蛋白中的氨基酸的总数。
在某些实施方案中,基因表达谱可以通过全转录组鸟枪法测序(“WTSS”或“RNAseq”;参见例如,Ryan et al BioTechniques 45:81-94)获得,该方法使用高通量测序技术来对cDNA测序以便获悉关于样品RNA含量的信息。一般而言,cDNA制得自RNA,将cDNA扩增,并且对扩增产物进行测序。
在扩增之后,可以使用任何便利方法对cDNA进行测序。例如,可以使用亿明达(Illumina)的可逆终止子方法、罗氏(Roche)的焦磷酸测序方法(454)、生命技术(LifeTechnologies)的通过连接测序(SOLiD平台)或生命技术的离子激流平台(Ion Torrentplatform)对片段进行测序。此类方法的例子描述于以下参考文献中:Margulies等人(Nature 2005 437:376-80);Ronaghi等人(Analytical Biochemistry 1996 242:84-9);Shendure(Science 2005309:1728);Imelfort等人(Brief Bioinform.2009 10:609-18);Fox等人(Methods Mol Biol.2009;553:79-108);Appleby等人(Methods Mol Biol.2009;513:19-39)和Morozova(Genomics.2008 92:255-64),将它们通过引用方法和方法的具体步骤(包括每个步骤的起始产物、试剂和最终产物)的总体描述而结合。如应清楚的,可以在扩增步骤期间将与所选择的下一代测序平台相容的正向和反向测序引物位点添加至片段的末端。
在其他实施方案中,可以使用纳米孔测序对产物进行测序(例如,如Soni et alClin Chem 53:1996-2001 2007中所述,或如由牛津纳米孔技术公司(Oxford NanoporeTechnologies)所述)。纳米孔测序是单分子测序技术,借此将单分子DNA在其通过纳米孔时直接进行测序。纳米孔是直径为1纳米级的小孔。将纳米孔浸入传导流体中并将电势(电压)施加在纳米孔上产生了因离子通过纳米孔的传导而致的轻微电流。流动的电流量对于纳米孔的大小和形状是敏感的。在DNA分子通过纳米孔时,在DNA分子上的每个核苷酸以不同程度阻塞纳米孔,从而以不同程度改变通过纳米孔的电流的幅值。因此,在DNA分子通过纳米孔时电流的这种改变呈现DNA序列的读取。如美国专利号5,795,782、6,015,714、6,627,067、7,238,485和7,258,838和美国专利申请公开案US 2006003171和US 20090029477中披露的纳米孔测序技术。
在一些实施方案中,主题方法的基因表达产物是蛋白质,并且使用从获得自样品组群的蛋白质数据得出的分类器对在具体生物样品中的蛋白质的量进行分析。蛋白质的量可以通过以下项中的一种或多种确定:酶联免疫吸附测定(ELISA)、质谱、印迹、或免疫组织化学。
在一些实施方案中,基因表达产物标记物和选择性剪接标记物可以通过使用例如昂飞(Affymetrix)阵列、cDNA微阵列、寡核苷酸微阵列、点样微阵列、或来自伯乐(Biorad)、安捷伦(Agilent)、或埃普多夫(Eppendorf)的其他微阵列产品的微阵列分析来确定。微阵列提供了特定优势,因为它们可以包含可在单一实验中测定的大量的基因或选择性剪接变体。在一些情况下,微阵列设备可以包含完整的人类基因组或转录组或其实质部分,从而允许基因表达模式、基因组序列或选择性剪接的综合评估。标记物可以使用标准分子生物学和微阵列分析技术发现,如在Sambrook Molecular Cloning a Laboratory Manual 2001以及Baldi,P.,and Hatfield,W.G.,DNA Microarrays and Gene Expression 2002中所述。
微阵列分析通常以使用本领域已知的方法提取并纯化来自生物样品(例如活检或细针抽出物)的核酸开始。对于表达和选择性剪接分析,有利的是从DNA提取和/或纯化RNA。可另外有利的是从其他形式的RNA如tRNA和rRNA提取和/或纯化niRNA。
可以将经纯化的核酸进一步用荧光标记、放射性核素、或化学标记(如生物素、异羟基洋地黄毒苷、或地高辛),例如通过逆转录、聚合酶链式反应(PCR)、连接、化学反应或其他技术来标记。标记可以是直接的或间接的,其可进一步需要偶联阶段。偶联阶段可以在杂交之前发生,例如使用氨基烯丙基-UTP和NHS氨基反应性染料(像花青染料),或者在例如使用生物素和标记的链霉亲和素之后。在一个例子中,将修饰的核苷酸(例如以1个aaUTP:4个TTP比率)经酶法以比正常核苷酸低的速率添加,从而通常在每60个碱基中产生1个修饰的核苷酸(用分光光度计测量)。可以然后将aaDNA用例如柱或渗滤设备纯化。氨基烯丙基基团是在附接到核碱基上的长接头上的胺基,该基团与反应性标记(例如荧光染料)反应。
可以然后将经标记的样品与杂交溶液混合,该杂交溶液可以包含十二烷基硫酸钠(SDS)、SSC、硫酸葡聚糖、阻断剂(如COT1DNA、鲑鱼精DNA、小牛胸腺DNA、PolyA或PolyT)、Denhardt溶液、甲醛胺、或其组合。
杂交探针是具有可变长度的DNA或RNA片段,其用于检测DNA或RNA样品中与探针中的序列互补的核苷酸序列(DNA靶标)的存在。由此探针与其碱基序列允许因探针与靶标之间的互补性进行探针-靶标碱基配对的单链核酸(DNA或RNA)杂交。将经标记的探针首先变性(通过加热或在碱性条件下)为单一DNA链,并且然后与靶标DNA杂交。
为了检测探针与其靶标序列的杂交,将该探针用分子标记物作标签(或标记)。常用的标记物是32P或异羟基洋地黄毒苷(它是基于非放射性抗体的标记物)。然后通过经由放射自显影或其他成像技术使得杂交探针可视化来检测与探针具有中到高序列互补性(例如至少70%、80%、90%、95%、96%、97%、98%、99%、或更高互补性)的DNA序列或RNA转录物。具有中或高互补性的序列的检测取决于应用的杂交条件有多严格;高严格性,如高杂交温度和杂交缓冲液中的低盐,仅允许高度相似的核酸序列之间的杂交,而低严格性,如较低的温度和高盐,允许序列不太相似时的杂交。在DNA微阵列中使用的杂交探针是指共价附接至惰性表面的并且与移动的cDNA靶标杂交的DNA,该惰性表面是如包被的载玻片或基因芯片。
可以将包含有待与阵列上的探针杂交的靶标核酸的混合物通过热或化学方式变性并且添加至微阵列中的端口。可以然后将孔密封,并且使微阵列例如在杂交箱(在其中微阵列通过旋转混合)中或在混合器中杂交。在过夜杂交之后,可以将非特异性结合洗掉(例如用SDS和SSC)。可以然后将微阵列干燥并在机器中进行扫描,该机器包括激发染料的激光器和测量染料发射的检测器。可以将图像用模板网格覆盖,并且可以对特征(例如包含若干像素的特征)的强度进行定量。
可以将不同试剂盒用于主题方法的核酸扩增和探针产生。可以用于本发明中的试剂盒的例子包括但不限于Nugen WT-Ovation FFPE试剂盒、具有Nugen外显子模块和Frag/Label模块的cDNA扩增试剂盒。NuGEN WT-OvationTM.FFPE系统V2是使得能够对得自FFPE样品的小降解RNA的巨大库进行全基因表达分析的全转录组扩增系统。该系统由少至50ng的总FFPE RNA扩增所需的试剂和方案构成。可以将该方案用于qPCR、样品归档、片段化、以及标记。可以将经扩增的cDNA片段化并在少于两小时内标记以用于使用NuGEN's FL-OvationTM.cDNA生物素模块V2的GeneChipTM3'表达阵列分析。对于使用昂飞GeneChipTM.外显子和基因ST测定的分析,可以将经扩增的cDNA用于WT-Ovation外显子模块,然后片段化并使用FL-OvationTM.cDNA生物素模块V2进行标记。对于在安捷伦阵列上的分析,可以将经扩增的cDNA片段化,并且使用NuGEN's FL-OvationTM.cDNA荧光模块进行标记。
在一些实施方案中,可以使用Ambion WT-表达试剂盒。Ambion WT-表达试剂盒允许总RNA直接扩增,而不用单独的核糖体RNA(rRNA)消耗步骤。在用AmbionTMWT表达试剂盒时,可以在AffymetrixTM.GeneChipTM人类、小鼠、和大鼠外显子和基因1.0ST阵列上分析小至50ng的总RNA的样品。除了较低的输入RNA要求以及AffymetrixTM方法与TaqManTM实时PCR数据之间的高一致性之外,AmbionTM.WT表达试剂盒还提供了灵敏度的显著提高。例如,因增加的信噪比,可以使用AmbionTM.WT表达试剂盒在外显子水平获得在背景之上检测到的更大量的探针集。AmbionTM-表达试剂盒可以与另外的昂飞标记试剂盒组合使用。在一些实施方案中,可以在主题方法中使用AmpTec三核苷酸纳米mRNA扩增试剂盒(6299-A15)。ExpressArtTM三核苷酸mRNA扩增纳米试剂盒适合用于宽范围的从1ng至700ng的输入总RNA。根据输入总RNA的量和所需的aRNA产量,其可用于1轮(输入>300ng总RNA)或2轮(最小输入量1ng总RNA),其中aRNA产量范围为>10μg。AmpTec的专有的三核苷酸引发技术导致mRNA的优先扩增(独立于通用真核3'-poly(A)-序列),与对rRNA的选择组合。更多关于AmpTec三核苷酸纳米mRNA扩增试剂盒的信息可以获得于www.amp-tec.com/products.htm。该试剂盒可以与cDNA转化试剂盒和昂飞标记试剂盒组合使用。
然后可以例如通过减去背景强度并且然后除以使得各通道上特征的总强度相等的强度或参考基因的强度,将原始数据归一化,并且然后可以计算所有强度的t值。更复杂的方法包括z比、loess和lowess回归以及如用于昂飞芯片的RMA(稳固的多芯片分析)。
在一些实施方案中,可以使用上述方法确定转录物表达水平,以用于训练(例如,使用分类器训练模块)分类器以区分受试者是吸烟者还是非吸烟者。在一些实施方案中,可以使用上述方法确定转录物表达水平,以用于训练(例如,使用分类器训练模块)分类器以区分受试者患有UIP还是非UIP。
数据分析
(i)样品与正常样品的比较
在一些实施方案中,对来自受试者的样品(“测试样品”)进行的分子谱分析的结果可以与已知的或疑似正常的生物样品(“正常样品”)进行比较。在一些实施方案中,正常样品是在评估下不包括或预期不包括ILD或病状的样品,或在评估下在分子谱分析测定中针对一种或多种ILD的测试呈阴性。在一些实施方案中,正常样品是不具有任何ILD或预期不具有任何ILD的正常样品,或者在分子谱分析测定中针对任何ILD的测试呈阴性的样品。正常样品可以来自与正测试的受试者不同的受试者,或来自相同的受试者。在一些情况下,正常样品是从比如例如正测试的受试者获得的肺组织样品。可以同时或在与测试样品不同的时间对正常样品进行测定。在一些实施方案中,正常样品是已知或疑似来自非吸烟者的样品。在具体实施方案中,正常样品是已经由至少两名病理学专家确证为非UIP的样品。在具体实施方案中,正常样品是已经由至少两名病理学专家确证为非IPF的样品。
对测试样品的测定的结果可以与对具有已知疾病状态(例如,正常的、受所选择ILD(例如,IPF、NSIP等)影响的吸烟者、非吸烟者)的样品的相同测定的结果进行比较。在一些情况下,对正常样品的测定的结果是来自数据库或参考。在一些情况下,对正常样品的测定的结果是本领域技术人员已知的或通常接受的值或值范围。在一些情况下,该比较是定性的。在其他情况下,该比较是定量的。在一些情况下,定性或定量比较可以涉及但不限于以下项中的一种或多种:比较荧光值、斑点强度、吸光值、化学发光信号、直方图、临界阈值、统计学显著性值、基因产物表达水平、基因产物表达水平变化、选择性外显子使用、选择性外显子使用的变化、蛋白质水平、DNA多态性、拷贝数目变化、一种或多种DNA标记物或区域的存在或不存在的指示、或核酸序列。
(ii)结果评估
在一些实施方案中,使用本领域已知的方法评估分子谱分析结果,以便将基因产物表达水平或选择性外显子使用与特定表型如具体ILD或常态(例如无疾病或病状)相关。在一些情况下,可以确定指定的统计学置信水平以提供诊断置信水平。例如,可以确定大于90%的置信水平可以是ILD或者吸烟者或非吸烟者状况的存在的有用预测物。在其他实施方案中,可以选择更严格或不太严格的置信水平。例如,可以选择约或至少约50%、60%、70%、75%、80%、85%、90%、95%、97.5%、99%、99.5%、或99.9%的置信水平作为有用的表型预测物。在一些情况下,所提供的置信水平可以与样品的质量、数据的质量、分析的质量、使用的具体方法、和/或所分析的基因表达产物的数目相关。用于提供诊断的指定的置信水平可以基于假阳性或假阴性的期望值和/或成本来选择。用于选择参数以便达到指定的置信水平或以便鉴定具有诊断能力的标记物的方法包括但不限于受试者工作特征(ROC)曲线分析、副法线ROC、主成分分析、偏最小二乘法分析、奇异值分解、最小绝对收缩和选择算子分析、最小角回归、以及阈值梯度定向正则化方法。
(iii)数据分析
在一些情况下,原始基因表达水平和选择性剪接数据可通过应用设计用于归一化和或提高数据的可信度的方法和/或过程来改进。在本公开文本的一些实施方案中,由于处理的单独数据点的大数量,数据分析需要计算机或其他设备、机器或装置来应用在此所述的各种方法和/或过程。“机器学习分类器”是指用于表征基因表达谱的基于计算机的预测数据结构或方法。对应于某些表达水平的信号(其通过例如基于微阵列的杂交测定获得)通常经过分类器以将表达谱分类。监督式学习通常涉及“训练”分类器以识别类别之间的区别,并且然后“测试”分类器在独立测试集上的准确性。对于新的未知样品,可使用分类器来预测该样品所属的类别。在不同的实施方案中,这种训练是例如使用分类器训练模块来实现的。
在一些情况下,稳健多阵列平均(RMA)方法可用于归一化原始数据。RMA方法通过计算许多微阵列上各匹配细胞的背景校正强度开始。背景校正的值限于阳性值,如Irizarry et al.Biostatistics 2003April 4(2):249-64所述。在背景校正后,随后获得各个背景校正的匹配细胞强度的以2为底的对数。然后使用分位数归一化方法使各微阵列上背景校正的、对数转化的、匹配的强度归一化,其中对于各输入阵列和各探针表达值,阵列百分位探针值被所有阵列百分位点的平均值替代,该方法在Bolstad etal.Bioinformatics 2003中有更完整的描述。在分位数归一化后,随后可将归一化的数据拟合到线性模型中,以获得各个微阵列上各个探针的表达测量值。然后可使用Tukey中位数平滑算法(Tukey,J.W.,Exploratory Data Analysis.1977)来确定归一化的探针集数据的对数标度表达水平。
可以实施各种其他软件和/或硬件模块或过程。在某些方法中,可以通过使用glmnet以lasso惩罚进行逻辑回归来进行特征选择和模型估计(Friedman J,Hastie T,Tibshirani R.Regularization Paths for Generalized Linear Models viaCoordinate Descent.Journal of statistical software 2010;33(1):1-22)。可以使用TopHat将原始读取进行比对(Trapnell C,Pachter L,Salzberg SL.TopHat:discoveringsplice junctions with RNA-Seq.Bioinformatics 2009;25(9):1105-11.)。基因计数可以使用HTSeq(Anders S,Pyl PT,Huber W.HTSeq-a Python framework to work withhigh-throughput sequencing data.Bioinformatics2014.)获得并使用DESeq(Love MI,Huber W,Anders S.Moderated estimation of fold change and dispersion for RNA-Seq data with DESeq2;2014)归一化。在方法中,使用前几个特征(N范围为从10至200)使用e1071文库(Meyer D.Support vector machines:the interface to libsvm inpackage e1071.2014.)训练线性支持向量机(SVM)(Suykens JAK,Vandewalle J.LeastSquares Support Vector Machine Classifiers.Neural Processing Letters 1999;9(3):293-300)。置信区间可以使用pROC包(Robin X,Turck N,Hainard A,et al.pROC:anopen-source package for R and S+to analyze and compare ROC curves.BMCbioinformatics 2011;12:77)来计算。
此外,可以过滤数据以除去可能被认为可疑的数据。在一些实施方案中,从具有少于约4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针得出的数据可以被认为是不可靠的,因为它们的异常杂交倾向或二级结构问题。类似地,从具有多于约12、13、14、15、16、17、18、19、20、21、或22个鸟苷+胞嘧啶核苷酸的微阵列探针得出的数据可以被认为是不可靠的,因为它们的异常杂交倾向或二级结构问题。
在一些情况下,可以通过针对一系列参考数据集对探针集的可靠性分级来选择不可靠的探针集以从数据分析中排除。例如,RefSeq或Ensembl(EMBL)被认为是非常高质量的参考数据集。在一些情况下,来自匹配RefSeq或Ensembl序列的探针集的数据由于它们预期的高可靠性可特别地被包括在微阵列分析实验中。类似地,来自匹配较低可靠性的参考数据集的探针集的数据可从进一步分析中排除,或视情况而定考虑包括在内。在一些情况下,Ensembl高通量cDNA(HTC)和/或mRNA参考数据集可单独地或一起用于确定探针集的可靠性。在其他情况下,探针集的可靠性可被分级。例如,完全匹配所有参考数据集(如例如RefSeq、HTC、HTSeq、和mRNA)的探针和/或探针集可被分级为最可靠的(1)。另外,匹配三个参考数据集中的两个的探针和/或探针集可被分级为次最可靠的(2),匹配三个参考数据集中的一个的探针和/或探针集可被分级为下一级(3),而不匹配参考数据集的探针和/或探针集可被分级为最低级(4)。然后探针和/或探针集可基于它们的分级被包括在分析中或从分析中排除。例如,可以选择包括来自1、2、3和4类的探针集;来自1、2和3类的探针集;1和2类的探针集;或1类的探针集的数据用于进一步分析。在另一个例子中,探针集可通过与参考数据集项错配的碱基对的数目进行分级。应理解,存在现有技术中理解为用于评价分子谱分析的给定探针和/或探针集的可靠性的许多方法,且本公开文本的方法涵盖任何这些方法和它们的组合。
在本发明的一些实施方案中,如果它们不表达或以不可检测的水平(不高于背景)表达,则来自探针集的数据可从分析中排除。如果对于任何组存在以下情况,则探针集被判定为高于背景表达:
标准正态分布的从T0至无穷大的积分<显著性(0.01)
其中:T0=Sqr(GroupSize)(T-P)/Sqr(Pvar);GroupSize=组中CEL文件的数目,T=探针集中探针得分的平均值,P=GC含量的背景探针平均值的平均值,Pvar=背景探针变异之和/(探针集中探针的数目)2,
这允许包括这样的探针集:其中组中探针集的平均值大于作为探针集的背景中心的探针集探针的具有类似GC含量的背景探针的平均表达,并使得能够从背景探针集变异中导出探针集离差。
在本公开文本的一些实施方案中,表现出没有或具有低变异的探针集可从进一步分析中排除。通过卡方检验从分析中排除低变异的探针集。如果转化的变异在具有(N-1)自由度的卡方分布的99%置信区间的左侧,则探针集被认为是低变异的。(N-1)*探针集变异/(基因探针集变异).~Chi-Sq(N-1),其中N是输入CEL文件的数目,(N-1)是卡方分布的自由度,且“基因的探针集变异”是整个基因的探针集变异的平均值。在本发明的一些实施方案中,如果给定基因或转录物簇的探针集包含少于通过前述用于GC含量、可靠性、变异等的过滤器步骤的最低数目的探针,则可以从进一步分析中排除它们。例如,在一些实施方案中,如果给定基因或转录物簇的探针集包含少于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或少于约20个探针,则从进一步分析中排除它们。
基因表达水平或选择性剪接的数据分析方法还可包括使用如在此提供的特征选择方法和/或过程。在本发明的一些实施方案中,特征选择通过使用LIMMA软件包(Smyth,G.K.(2005).Limma:linear models for microarray data.In:Bioinformatics andComputational Biology Solutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds.),Springer,New York,pages 397-420)提供。
基因表达水平和或选择性剪接的数据分析方法还可包括使用预分类器方法和/或过程(例如,通过预分类器分析模块实施)。例如,方法和/或过程可使用细胞特异性分子指纹来根据它们的组成对样品进行预分类,然后再应用校正/归一化因子。然后可以将该数据/信息输入到最终分类方法和/或过程中,其将整合该信息来辅助最终的诊断。
在某些实施方案中,本发明的方法包括使用预分类器方法和/或过程(例如,通过预分类器分析模块实施),该方法和/或过程使用分子指纹将样品预分类为吸烟者或非吸烟者,之后应用本发明的UIP/非UIP分类器。
基因表达水平和/或选择性剪接的数据分析方法还可包括使用如在此提供的分类器方法和/或过程(例如,通过分类器分析模块实施)。在本发明的一些实施方案中,提供了对角线线性判别分析、k-近邻分类器、支持向量机(SVM)分类器、线性支持向量机、随机森林分类器、或基于概率模型的方法、或它们的组合用于微阵列数据的分类。在一些实施方案中,基于感兴趣类别之间的表达水平的差异的统计学显著性选择区分样品(例如第一ILD与第二ILD,正常的与ILD)或区分亚型(例如IPF与NSIP)的鉴定标记物。在一些情况下,通过针对错误发现率(FDR)应用Benjamin Hochberg校正或另一种校正来调节统计学显著性。
在一些情况下,分类器可以用荟萃分析方法补充,如Fishel and Kaufman etal.2007Bioinformatics 23(13):1599-606描述的方法。在一些情况下,分类器可以用荟萃分析方法补充,如可重复性分析。在一些情况下,可重复性分析选择出现在至少一个预测表达产物标记物集中的标记物。
用于导出后验概率并将后验概率应用于微阵列数据分析的方法在本领域中是已知的,并且已经描述于例如Smyth,G.K.2004Stat.Appi.Genet.Mol.Biol.3:Article 3中。在一些情况下,可使用后验概率对分类器提供的标记物进行分级。在一些情况下,标记物可根据它们的后验概率进行分级,且通过所选阈值的那些标记物可被选作其差异表达指示或诊断例如为IPF或NSIP的样品的标记物。示例性的阈值包括0.7、0.75、0.8、0.85、0.9、0.925、0.95、0.975、0.98、0.985、0.99、0.995或更高的先验概率。
对分子谱分析的结果的统计学评估可提供(但不限于提供)指示以下项中的一种或多种的定量值或值:诊断准确的可能性;ILD的可能性;具体ILD的可能性;具体治疗干预成功的可能性;受试者是吸烟者的可能性;以及受试者是非吸烟者的可能性。因此,不大可能经遗传学或分子生物学训练的医师不需要理解原始数据。相反,数据可以按其最有用的形式直接呈现给医师来指导患者的护理。分子谱分析的结果可使用本领域已知的多种方法进行统计学评估,该方法包括但不限于:学生T检验、双侧T检验、皮尔逊秩和分析、隐马尔可夫模型分析、q-q作图分析、主成分分析、单因素ANOVA、两因素ANOVA、LIMMA等。[00182]在本发明的一些实施方案中,单独或与细胞学分析组合使用分子谱分析可提供约85%准确性和约99%或约100%准确性之间的分类、鉴定、或诊断。在一些情况下,分子谱分析过程和/或细胞学提供准确性为约或至少约85%、86%、87%、88%、90%、91%、92%、93%、94%、95%、96%、97%、97.5%、98%、98.5%、99%、99.5%、99.75%、99.8%、99.85%、或99.9%的ILD分类、鉴定、诊断。在一些实施方案中,分子谱分析过程和/或细胞学提供准确性为约或至少约85%、86%、87%、88%、90%、91%、92%、93%、94%、95%、96%、97%、97.5%、98%、98.5%、99%、99.5%、99.75%、99.8%、99.85%、或99.9%的具体ILD类型(例如IPF;NSIP;HP)存在的分类、鉴定、或诊断。
在一些情况下,可通过随时间追踪受试者以确定原始诊断的准确性而确定准确性。在其他情况下,准确性可以按确定性的方式或使用统计学方法确立。例如,受试者工作特征(ROC)分析可用于确定最佳测定参数,以实现特定水平的准确性、特异性、阳性预测值、阴性预测值和/或错误发现率。
在本公开文本的一些实施方案中,可选择被确定为在第一ILD和第二ILD之间(例如,在IPF和NSIP之间)、在ILD和正常之间、和/或在吸烟者和非吸烟者之间展现出最大的表达水平差异或最大的选择性剪接差异的基因表达产物和编码此类产物的核苷酸组合物用作本公开文本的分子谱分析试剂。此类基因表达产物可通过提供比本领域已知的或所使用的其他方法更宽的动态范围、更大的信噪比、改进的诊断能力、更低的假阳性或假阴性可能性或者更高的统计学置信水平而是特别有用的。
在本发明的其他实施方案中,当与使用本领域已知的标准细胞学技术相比时,单独或与细胞学分析组合使用分子谱分析可将评为非诊断性的样品的数目降低约或至少约100%、99%、95%、90%、80%、75%、70%、65%、或约60%。在一些情况下,当与本领域中使用的标准细胞学方法相比时,本发明的方法可将评为中间或疑似的样品的数目降低约或至少约100%、99%、98%、97%、95%、90%、85%、80%、75%、70%、65%、或约60%。
在一些情况下,将分子谱分析测定的结果输入数据库中以供分子谱分析企业、个人、医疗供应商、或保险供应商的代表或代理访问。在一些情况下,测定结果包括企业的代表、代理或咨询人员(如医疗专业人员)的样品分类、鉴定、或诊断。在其他情况下,自动提供数据的计算机分析。在一些情况下,分子谱分析企业可以向个人、保险供应商、医疗供应商、研究人员或政府实体针对以下项中的一种或多种收费:进行的分子谱分析测定、咨询服务、数据分析、报告结果或数据库访问。
在本发明的一些实施方案中,分子谱分析的结果作为计算机屏幕上的报告或纸件记录呈现。在一些情况下,报告可包括但不限于如作为以下项中的一种或多种的信息:差异表达的基因的数目、原始样品的适用性、显示差异选择性剪接的基因的数目、诊断、用于诊断的统计学置信度、受试者是吸烟者的可能性、ILD的可能性和指定的治疗。
(iv)基于分子谱分析结果的样品分类
分子谱分析的结果可分类到以下项的一种中:吸烟者、非吸烟者、ILD、具体类型的ILD、非ILD、或非诊断性的(提供有关ILD的存在或不存在的不充分的信息)。在一些情况下,分子谱分析的结果可分类为IPF与NSIP类别。在具体情况下,结果可分类为UIP或非UIP。
在本发明的一些实施方案中,使用经训练的分类器对结果进行分类。本发明的经训练的分类器实施已经使用已知的ILD和正常样品、已知的吸烟者和非吸烟者样品、或来自吸烟者和/或非吸烟者的已知ILD和正常样品的组合(包括但不限于具有一种或多种组织病理学的样品)的参考集开发的方法和/或过程。在一些实施方案中,训练(例如,使用分类器训练模块)包括将在来自第一ILD的第一组生物标记物中的基因表达产物水平与在来自第二ILD的第二组生物标记物中的基因表达产物水平进行比较,其中该第一组生物标记物包括不是在第二组中的至少一种生物标记物。在一些实施方案中,训练(例如,使用分类器训练模块)包括将在来自作为非UIP的第一ILD的第一组生物标记物中的基因表达产物水平与在来自作为UIP的第二ILD的第二组生物标记物中的基因表达产物水平进行比较,其中该第一组生物标记物包括不是在第二组中的至少一种生物标记物。在一些实施方案中,训练(例如,使用分类器训练模块)进一步包括将在来自作为吸烟者的第一受试者的第一组生物标记物中的基因表达产物水平与在来自作为非吸烟者的第二受试者的第二组生物标记物中的基因表达产物水平进行比较,其中该第一组生物标记物包括不是在第二组中的至少一种生物标记物。在一些实施方案中,可以使用在分类面板内的生物标记物组别的表达水平与分类器中使用的所有其他生物标记物组别(或所有其他生物标记物标记)的比较来训练(例如,使用分类器训练模块)完整分类器或分类器的部分。
适用于对样品分类的分类器包括但不限于k-近邻分类器、支持向量机、线性判别分析、对角线线性判别分析、updown、朴素贝叶斯分类器、神经网络分类器、隐马尔可夫模型分类器、基因分类器、或其任何组合。
在一些情况下,本发明的经训练的分类器可以结合不同于基因表达或选择性剪接数据的数据,例如但不限于DNA多态性数据、测序数据、由本发明的细胞学家或病理学家的评分或诊断、由本公开文本的预分类器方法和/或过程提供的信息、或关于本公开文本的受试者的病史的信息。
当对用于诊断ILD的生物样品进行分类时,通常存在来自二元分类器的两种可能的结果。类似地,当对用于诊断吸烟者的生物样品进行分类时,通常存在来自二元分类器的两种可能的结果。当将二元分类器与实际真值(例如,来自生物样品的值)进行比较时,通常存在四种可能的结果。如果预测的结果是p(其中“p”是阳性分类器输出,如具体ILD),并且实际值也是p,则被称为真阳性(TP);但是,如果实际值为n,则被称为假阳性(FP)。相反,当预测结果和实际值均为n(其中“n”是阴性分类器输出,如不是ILD,或不存在如在此所述的具体疾病组织)时出现真阴性,并且当预测结果是n而实际值是p时,则是假阴性。在一个实施方案中,考虑试图确定一个人是否患有某种疾病的诊断测试。当这个人测试为阳性但事实上并未患有该疾病时,在这种情况下出现假阳性。另一方面,当这个人测试为阴性而表明其是健康的,但他实际上患有该疾病时,出现假阴性。在一些实施方案中,可以通过以相关比例重复采样在可获得样品上获得的误差来产生假设现实世界的亚型流行度的受试者工作特征(ROC)曲线。
疾病的阳性预测值(PPV)或精确率或后验概率是被正确诊断的具有阳性测试结果的患者的比例。这是诊断方法的最重要的量度,因为它反映了阳性测试反映出测试的基础病状的概率。但是,它的值确实依赖于疾病的流行度,其可发生变化。在一个实例中,FP(假阳性);TN(真阴性);TP(真阳性);FN(假阴性)。假阳性率(α)=FP/(FP+TN)-特异性;假阴性率(β)=FN/(TP+FN)-灵敏度;能力=灵敏度=1-β;阳性似然比=灵敏度/(l-特异性);阴性似然比=(1-灵敏度)/特异性。
阴性预测值是被正确诊断的具有阴性测试结果的患者的比例。PPV和NPV量度可使用适当的疾病亚型流行度估计值来获得。汇集的疾病流行度的估计值可从通过手术大致分为B和M的不确定事件的库计算。对于亚型特异性的估计值,在一些实施方案中,疾病的流行度有时是无法计算的,因为不存在任何可获得的样品。在这些情况下,亚型疾病流行度可由汇集的疾病流行度估计值替代。
在一些实施方案中,表达产物水平或选择性外显子使用指示以下项之一:IPF、NSIP、或HP。
在一些实施方案中,表达产物水平或选择性外显子使用指示受试者是吸烟者还是非吸烟者。
在一些实施方案中,主题方法的表达分析的结果提供了给出的诊断正确的统计学置信水平。在一些实施方案中,这种统计学置信水平是至少约或多于约85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、或更多。
报告
主题方法和/或系统可以包括生成提供样品(肺组织样品)是ILD样品的指示的报告(例如,使用报告模块)。主题诊断方法可以包括生成提供关于测试的个体是否患有ILD的指示的报告。主题诊断方法可以包括生成提供关于测试的个体是否是吸烟者的指示的报告。主题方法(或报告模块)可以包括生成提供关于测试的个体是否患有IPF(以及不患有,例如不是IPF的ILD;例如,报告可以指示个体患有IPF而不是NSIP)的指示的报告。
在一些实施方案中,诊断ILD的主题方法涉及生成报告(例如,使用报告模块)。这种报告可以包括以下信息,例如患者患有ILD的可能性;患者是吸烟者的可能性;关于进一步评估的建议;关于治疗药物和/或设备干预的建议;等等。
例如,在此公开的方法可以包括生成或输出提供主题诊断方法的结果的报告的步骤,该报告可以按电子介质的形式(例如,计算机监视器上的电子显示器)或按有形介质的形式(例如,在纸或其他有形介质上打印的报告)提供。对关于主题诊断方法的结果的评价(例如,个体患有ILD的可能性;个体患有IPF的可能性;个体是吸烟者的可能性)可以称作“报告”或简单称作“得分”。准备报告的人或实体(“报告生成者”)还可以进行例如简单收集、样品处理等步骤。可替代地,报告生成者之外的实体可以进行例如简单收集、样品处理等步骤。诊断评价报告可以提供给用户。“用户”可以是健康专家(例如,临床医师、实验室技师、医师(例如,心脏病学家)等)。
主题报告可以进一步包括以下项中的一种或多种:1)服务提供者信息;2)患者数据;3)关于给定基因产物或基因产物集的表达水平、得分或分类器决策的数据;4)随访评估建议;5)治疗干预或建议;以及6)其他特征。
进一步的评估
基于给定基因产物或基因产物集的表达水平,和/或基于报告(如上所述的),医师或其他有资格的医疗人员可以确定是否需要进一步评估测试受试者(患者)。进一步的评估可以包括例如肺活量测定。
治疗干预
基于给定基因产物或基因产物集的表达水平,和/或基于报告(如上所述的),医师或其他有资格的医疗人员可以确定是否建议适当的治疗干预。
治疗干预包括基于药物的治疗干预、基于设备的治疗干预、和外科干预。在报告指示个体患有IPF的可能性时,基于药物的治疗干预包括例如给予个体有效量的吡非尼酮、强的松、硫唑嘌呤、或N-乙酰半胱氨酸。外科干预包括例如动脉搭桥手术。
计算机实施的方法、系统和设备
治疗干预
本公开文本的方法可以是计算机实施的,使得方法步骤(例如,测定、比较、计算等)全部或部分自动化。
因此,本公开文本提供了与计算机实施的协助诊断间质性肺病(例如,诊断IPF、NSIP、HP等)(包括鉴别诊断)的方法结合的方法、计算机系统、设备等。
本公开文本进一步提供了与计算机实施的协助确定吸烟者状况(例如,吸烟者与非吸烟者)的方法结合的方法、计算机系统、设备等。
本公开文本进一步提供了与计算机实施的协助诊断间质性肺病(例如,诊断IPF、NSIP、HP等)(包括鉴别诊断)的方法结合的方法、计算机系统、设备等,其中该方法进一步包括确定受试者吸烟者状况(吸烟者与非吸烟者)并将吸烟者状况结合到受试者间质性肺病诊断的确定中。在一些实施方案中,(i)在训练(例如,使用分类器训练模块)期间使用的模型中将吸烟者状况作为协变量结合到间质性肺病诊断中。该方法提高了特别是在得自吸烟者的数据(噪音较高)中的信噪比,并且允许得自吸烟者和非吸烟者的数据组合并同时使用。在一些实施方案中,(ii)在间质性肺病诊断分类器训练期间,通过鉴定对吸烟者状况偏倚敏感的一种或多种基因并将此类基因排除或给予此类基因不同于对吸烟者状况不敏感的其他基因的权重,将吸烟者状况结合到间质性肺病诊断中。在一些实施方案中,(iii)通过构建其中将起始分类器训练(例如,使用分类器训练模块)为识别区分吸烟者与非吸烟者的基因标记的分层分类,将吸烟者状况结合到间质性肺病诊断中。一旦患者样品被预分类为“吸烟者”或“非吸烟者”(例如,使用预分类器分析模块),可以实施各自训练为对应地区分吸烟者或非吸烟者中的UIP与非UIP的不同分类器以诊断间质性肺病。在再另外的实施方案中,包括将吸烟者状况结合到受试者间质性肺病诊断的确定中的步骤的此类方法包括组合这种结合的上述方式中的一种或多种(即,将实施方案(i)至(iii)中的两个或更多个组合在当前段落中)。
例如,可以完全地或部分地通过计算机程序产品进行包括以下项的方法步骤:获得生物标记物水平的值、比较归一化的生物标记物(基因)表达水平与对照水平、计算ILD的可能性(并且任选地受试者是吸烟者的可能性)、生成报告等。获得的值可以电子方式存储,例如存储于数据库中,并且可以经由编程计算机执行的分类器处理(例如,使用分类器分析模块)。
例如,本公开文本的方法和/或系统可以涉及将生物标记物水平(例如,基因产物的归一化表达水平)输入到分类器分析模块中以执行方法和/或过程以执行在此描述的比较和计算步骤,并且例如通过在计算机本地或远程的位置处将报告显示或打印到输出设备上生成如在此所述的报告(例如,使用报告模块)。报告的输出可以是得分(例如,数值得分(代表数值)或非数值得分(例如,非数值输出(例如,“IPF”、“无IPF迹象”),代表数值或数值范围。在其他方面中,输出可以指示“UIP”与“非UIP”。在其他方面中,输出可以指示“吸烟者”与“非吸烟者”
本公开文本因此提供了计算机程序产品,其包括具有在上面存储的软件和/或硬件模块的计算机可读存储介质。在由处理器执行时,软件和/或硬件模块可以基于从来自个体的一个或多个生物样品(例如,肺组织样品)的分析获得的值执行相关计算。计算机程序产品在其中存储有执行一个或多个计算的计算机程序。
本公开文本提供了用于执行上述程序的系统,该系统通常包括:a)执行软件和/或硬件模块的中央计算环境或处理器;b)输入设备,其可操作地连接至计算环境以接收患者数据,其中患者数据可以包括例如如上所述的从使用来自患者的生物样品的测定获得的生物标记物水平或其他值;c)输出设备,其连接至计算环境,以提供信息给用户(例如,医疗人员);以及d)由中央计算环境(例如,处理器)执行的方法和/或过程,其中该方法和/或过程是基于由输入设备接收的数据执行,并且其中该方法和/或过程计算值,该值指示受试者患有ILD的可能性(如在此所述)。
本公开文本还提供了用于执行上述程序的系统,该系统通常包括:a)执行软件和/或硬件模块的中央计算环境或处理器;b)输入设备,其可操作地连接至计算环境以接收患者数据,其中患者数据可以包括例如如上所述的从使用来自患者的生物样品的测定获得的生物标记物水平或其他值;c)输出设备,其连接至计算环境,以提供信息给用户(例如,医疗人员);以及d)由中央计算环境(例如,处理器)执行的方法和/或过程,其中该方法和/或过程是基于由输入设备接收的数据执行,其中该方法和/或过程计算值,该值指示受试者患有ILD的可能性(如在此所述),并且其中该方法和/或过程在训练期间使用的模型中使用吸烟状况(吸烟者与非吸烟者)作为协变量。在一些实施方案中,在分类器训练期间,该方法和/或过程排除对吸烟者状况偏倚敏感的一个或多个基因或者对于对吸烟者状况偏倚敏感的一个或多个基因的权重不同,以富集用于训练不被吸烟状况混淆或影响的基因的特征空间。
在再另外的实施方案中,本公开文本提供了用于执行上述程序的系统,该系统通常包括:a)执行软件和/或硬件模块的中央计算环境或处理器;b)输入设备,其可操作地连接至计算环境以接收患者数据,其中患者数据可以包括例如如上所述的从使用来自患者的生物样品的测定获得的生物标记物水平或其他值;c)输出设备,其连接至计算环境,以提供信息给用户(例如,医疗人员);以及d)由中央计算环境(例如,处理器)执行的第一方法和/或过程,其中该第一方法和/或过程是基于由输入设备接收的数据执行,其中该第一方法和/或过程计算值,该值指示受试者是吸烟者或非吸烟者的可能性(如在此所述),其中该受试者作为吸烟者或非吸烟者的状况导致将第一方法和/或过程应用经特定训练(例如,使用分类器训练模块)的第二方法和/或过程以对应地区分吸烟者或非吸烟者中的UIP与非UIP,以及e)其中该第二方法和/或过程是由中央计算环境(例如,处理器)执行,其中该第二方法和/或过程是基于由输入设备接收的数据执行,并且其中该第二方法和/或过程计算值,该值指示受试者患有ILD的可能性(如在此所述)。
计算机系统
图7A图示了处理系统100,该处理系统包括至少一个处理器102或处理单元或多个处理器、存储器104、至少一个输入设备106以及至少一个输出设备108,经由总线或一组总线110联接在一起。处理系统可以在任何适合设备上实施,例如比如主机设备、个人计算机、手持或笔记本设备、个人数字助理、多处理器系统、基于微处理器的系统、可编程消费性电子设备、小型计算机、服务器计算机、网络服务器计算机、大型计算机、和/或包括任一上述系统或设备的分布式计算环境。
在某些实施方案中,输入设备106和输出设备108可以是相同的设备。还可以提供接口112以将处理系统100联接至一个或多个外围设备,例如接口112可以是PCI卡或PC卡。还可以提供容纳至少一个数据库116的至少一个存储设备114。
存储器104可以是任何形式的存储设备,例如易失性或非易失性存储器、固态存储设备、磁设备等。例如,在一些实施方案中,存储器104可以是随机存取存储器(RAM)、存储缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、数据库和/或其他。
处理器102可以包括多于一个不同的处理设备,例如以处理该处理系统100内的不同功能。处理器100可以是被配置为运行或执行一组指令或代码(例如,存储在存储器中的)的任何适合的处理设备,例如通用处理器(GPP)、中央处理单元(CPU)、加速处理单元(APU)、图形处理器单元(GPU)、专用集成电路(ASIC)和/或其他。这种处理器100可以运行或执行存储在存储器中的与使用个人计算机应用、移动应用、互联网浏览器、蜂窝和/或无线通信(经由网络)和/或其他相关联的一组指令或代码。更确切地,该处理器可以执行存储在存储器104中的与如在此所述的分析和分类数据相关联的一组指令或代码。
输入设备106接收输入数据118并且可以包括例如键盘、指针设备(如笔样设备或鼠标)、用于声控激活的音频接收设备(如麦克风)、数据接收器或天线(如调制解调器或无线数据适配器)、数据采集卡等。输入数据118可以来自不同来源,例如键盘指令以及经由网络接收的数据。
输出设备108产生或生成输出数据120,并且可以包括例如显示设备或监视器(这种情况下输出数据120是可视的)、打印机(这种情况下输出数据120被打印)、端口例如USB端口、外围部件适配器、数据发送器或天线(如调制解调器或无线网络适配器)等。输出数据120可以是不同的,并且产生自不同的输出设备(例如监视器上的可视显示器)以及传输至网络的数据。用户可以例如在监视器上或使用打印机查看数据输出或数据输出的解释。
在一些实施方案中,输入设备106和/或输出设备108可以是被配置为经由网络发送和/或接收数据的通信接口。更确切地,在此类实施方案中,处理系统100可以充当一个或多个客户端设备(未示于图7A中)的主机设备。这样,处理系统100可以发送数据(例如,输出数据120)至客户端设备并接收来自客户端设备的数据(例如,输入数据118)。这种通信接口可以是可将处理系统100置于与客户端设备(如一个或多个网络接口卡或其他)通信的任何适合的模块和/或设备。这种网络接口卡可以包括例如可以经由网络或其他将客户端设备150置于与主机设备110通信的以太网端口、无线电、无线电、近场通信(NFC)无线电、和/或蜂窝无线电。
存储设备114可以是任何形式的数据或信息存储器件,例如易失性或非易失性存储器、固态存储设备、磁设备等。例如,在一些实施方案中,存储设备114可以是随机存取存储器(RAM)、存储缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、数据库和/或其他。
在使用时,处理系统100被适配为允许数据或信息是经由有线或无线通信方式被存储于至少一个数据库116中和/或从该至少一个数据库检索。接口112可以允许在处理单元102和可充当专门目的的外围部件之间的有线和/或无线通信。通常,处理器102可以经由输入设备106接收作为输入数据118的指令,并且可以通过使用输出设备108向用户显示经处理的结果或其他输出。可以提供多于一个输入设备106和/或输出设备108。处理系统100可以是任何合适形式的终端、服务器、专门硬件或其他。处理系统100可以是网络化通信系统的一部分。
处理系统100可以连接至网络,例如局域网(LAN)、虚拟网(如虚拟局域网(VLAN))、广域网(WAN)、城域网(MAN)、全球微波互联接入网络(WiMAX)、蜂窝网络、因特网、和/或作为有线和/或无线网络实施的任何其他适合的网络。例如,当在LAN网络环境中使用时,计算系统环境100通过网络接口或适配器连接至LAN。当在WAN网络环境中使用时,计算系统环境通常包括调制解调器或用于经WAN如因特网建立通信的其他器件。可以是内部或外部的调制解调器可以经由用户输入接口或经由另一种适当机构连接至系统总线。在网络化环境中,相对于计算系统环境100或其部分描绘的程序模块可以存储在远程存储器存储设备中。应领会所图示的图7的网络连接是例子并且可以使用建立多个计算机之间的通信连接的其他方式。
输入数据118和输出数据120可以经由网络与其他设备通信。信息和/或数据经网络的传送可以使用有线通信方式或无线通信方式来实现。服务器可以协助在网络与一个或多个数据库之间的数据传送。服务器和一个或多个数据库提供了信息来源的例子。
因此,图示于图7A中的处理计算系统环境100可以使用与一个或多个远程计算机的逻辑连接在网络化环境中运行。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备、或其他普通网络节点,并且典型地包括上述元件中的许多或全部。
图7B更详细地图示了图7A的处理器102。处理器102可以被配置为执行特定模块。模块可以例如是存储于存储器104中和/或在处理器102中执行的硬件模块、软件模块、和/或其任何组合。例如,如在图7B中所示,处理器102包括和/或执行预分类器分析模块130、分类器训练模块132、分类器分析模块134和报告模块136。如在图7B中所示,预分类器分析模块130、分类器训练模块132、分类器分析模块134和报告模块136可以连接和/或电联接。这样,可以在预分类器分析模块130、分类器训练模块132、分类器分析模块134和报告模块136之间发送信号。
分类器训练模块132可以被配置为接收数据(例如基因表达数据、测序数据)全集并且训练分类器。例如,来自先前被鉴定(例如,由专家)为UIP和非UIP的样品的临床注释数据可以通过输入设备106接收并且由分类器训练模块132使用以鉴定先前被鉴定为UIP和非UIP的样品之间的相关。例如,可以获得并且单独或组合使用专家TBB组织病理学标记(即,UIP或非UIP)、专家HRCT标记、和/或专家患者水平的临床结果标记以使用微阵列和/或测序数据训练分类器。所使用的特征空间可以包括基因表达、变体、突变、融合、杂合性丢失(LOH)、生物途径效应和/或数据的任何其他可以出于训练机器学习算法目的的被提取为特征的维度。在一些实施方案中,用于训练UIP与非UIP分类器、吸烟者与非吸烟者分类器、或UIP与非UIP及吸烟者与非吸烟者分类器的特征空间包括基因表达、变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。在一些实施方案中,用于训练UIP与非UIP分类器、吸烟者与非吸烟者分类器、或UIP与非UIP及吸烟者与非吸烟者分类器的特征空间包括基因表达和变体维度。
在一些实施方案中,分类器训练模块132可以基于与所接收样品是与吸烟者相关还是与非吸烟者相关相关联的指示来训练吸烟者分类器和非吸烟者分类器。在其他实施方案中,吸烟者/非吸烟者可以用作属性(模型协变量)来训练单个分类器。在训练分类器之后,可以将其用于鉴定和/或分类新接收的和未知的样品,如在此所述。
预分类器分析模块130可以鉴定样品是否与吸烟者或非吸烟者相关联。确切地,预分类器分析模块130可以使用任何适合的方法来将样品鉴定和/或分类为来自吸烟(或具有重度吸烟的既往史)的个体与不吸烟(或不具有吸烟史)的个体。分类可以按任何适合的方式来进行,例如接收来自用户的指示、鉴定对吸烟者状况偏倚敏感的基因、使用机器学习分类器、和/或在此所述的任何其他适合的方法。
分类器分析模块134可以将样品输入到分类器中,以将所接收的样品鉴定和/或分类为与UIP和非UIP相关联。确切地,分类器分析模块134可以使用经训练的分类器来鉴定样品指示UIP还是非UIP。在一些实施方案中,分类器分析模块134可以指示与UIP或非UIP相关联的样品的百分比或置信得分。在一些实施方案中,分类器分析模块134可以执行两个单独的分类器:一个针对吸烟者样品,并且另一个针对非吸烟者样品(如由预分类器分析模块130确定的)。在其他实施方案中,针对吸烟者和非吸烟者样品两者,以吸烟者状况的输入执行单个分类器。
报告模块136可以被配置为基于如在此进一步详细描述的分类器分析模块134的结果生成任何适合的报告。在一些情况下,报告可包括但不限于如作为以下项中的一种或多种的信息:差异表达的基因的数目、原始样品的适用性、显示差异选择性剪接的基因的数目、诊断、用于诊断的统计学置信度、受试者是吸烟者的可能性、ILD的可能性和指定的治疗。
图7C图示了本发明的一个非限制性实施方案的流程图,其中使用已知UIP和非UIP样品的基因产物表达数据训练(例如,使用分类器训练模块)分类器以用于区分UIP与非UIP,其中该分类器任选地考虑吸烟者状况作为协变量,并且其中将来自未知样品的基因产物表达数据输入经训练的分类器中以将未知样品鉴别为UIP或非UIP,并且其中经由该分类器进行分类的结果是经由报告定义并输出的。
可以参考由一个或多个计算设备(如图7A的计算系统环境100)进行的操作的动作和符号表示来描述某些实施方案。这样,应理解有时称作计算机执行的此类动作和操作包括计算机处理器对代表结构化形式的数据的电信号的操纵。这种操纵将数据转化或将它们保持在计算机存储系统中的位置处,这以本领域的技术人员理解的方式重新配置或以其他方式改变了计算机的操作。将数据保持于其中的数据结构是存储器的具有由数据格式定义的具体特性的物理位置。然而,虽然在前述背景中描述了实施方案,但不意味着是限制性的,因为本领域技术人员应理解此后描述的动作和操作还可以在硬件中实施。
可以用众多其他通用或专用计算设备和计算系统环境或配置来实施实施方案。可以适合用于实施方案的其他计算系统、环境、和配置的例子包括但不限于个人计算机、手持或笔记本设备、个人数字助理、多处理器系统、基于微处理器的系统、可编程消费性电子器件、网络、小型计算机、服务器计算机、网络服务器计算机、大型计算机、和包括任一以上系统或设备的分布式计算环境。
可以在计算机可执行指令的一般背景(如硬件和/或软件模块)下描述实施方案。实施方案还可以在分布式计算环境中实践,在其中通过经通信网络连接的远程处理设备执行任务。在分布式计算环境中,可以将程序模块定位在包含存储器存储设备的本地和远程计算机存储介质中。
计算机程序产品
本公开文本提供了计算机程序产品,该计算机程序产品当在如上文参考图7描述的可编程计算机上执行时可以进行本公开文本的方法。如上所讨论的,在此描述的主题可以根据所需配置在系统、装置、方法、和/或制品中具体化。这些不同的实施可以包括在包含至少一个可编程处理器、至少一个输入设备(例如摄影机、麦克风、操纵杆、键盘、和/或鼠标)、和至少一个输出设备(例如显示监视器、打印机等)的可编程系统上在可执行和/或可判读的一个或多个计算机程序中实施,该可编程处理器可以是专用或通用的,联结它以接收来自存储系统的数据和指令并且将数据和指令传输至存储系统。
计算机程序(也称作程序、软件、软件应用、应用、部件或代码)包括用于可编程处理器的指令,并且可以用高级程序和/或面向对象的编程语言、和/或汇编/机器语言实施。如在此使用的,“机器可读介质”是指任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器等),用于提供机器指令和/或数据到可编程处理器,包括接收机器指令作为机器可读信号的机器可读介质。
从本描述应清楚的是,本公开文本的方面可以至少部分地在软件、硬件、固件、或其任何组合中具体化。因此,在此描述的技术不限于硬件电路和/或软件的任何特定组合,或者不限于通过计算机或其他数据处理系统执行的指令的任何特定来源。相反,这些技术可以在计算机系统或其他数据处理系统中响应一个或多个处理器如微处理器来进行,指令的执行序列存储在存储器或其他计算机可读介质中,包括任何类型的ROM、RAM、高速缓冲存储器、网络存储器、软盘、硬盘驱动器磁盘(HDD)、固态设备(SSD)、光盘、CD-ROM、和磁光盘、EPROM、EEPROM、闪存、或任何其他类型的适用于以电子格式存储指令的介质。
此外,一个或多个处理器可以是或者可以包括,一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑设备(PLD)、可信平台模块(TPM)、或类似物,或此类设备的组合。在替代性实施方案中,专用硬件如逻辑电路或其他硬件电路可以和软件指令组合使用,以实施在此所述的技术。
阵列和试剂盒
本公开文本提供了用于进行主题评估方法或主题诊断方法的阵列和试剂盒。
阵列
主题阵列可以包括多种核酸,其每一者都与从进行ILD测试的个体获得的组织样品中存在的细胞中差异表达的基因杂交。
主题阵列可以包括多种核酸,其每一者都与从进行吸烟者状况测试的个体获得的组织样品中存在的细胞中差异表达的基因杂交。
主题阵列可以包括多种核酸,其每一者都与从进行吸烟者状况和ILD测试的个体获得的组织样品中存在的细胞中差异表达的基因杂交。
主题阵列可以包括多个成员核酸,其中每一个成员核酸与不同的基因产物杂交。在一些情况下,两个或更多个成员核酸与相同基因产物杂交;例如,在一些情况下,2、3、4、5、6、7、8、9、10个、或更多个成员核酸与相同的基因产物杂交。成员核酸的长度可以是从约5个核苷酸(nt)至约100nt,例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-25、25-30、30-40、40-50、50-60、60-70、70-80、80-90、或90-100nt。核酸可以具有一个或多个磷酸酯骨架修饰。
主题阵列可以包括从约10至约105个独特的成员核酸,或多于105个独特的成员核酸。例如,主题阵列可以包括从约10至约102、从约102至约103、从约103至约104、从约104至约105、或多于105个独特的成员核酸。
缩写
“ENSEMBL ID”是指来自ENSEMBL基因组浏览器数据库的基因标识符编号(参见万维网网址:ensembl.org/index.html,结合在此)。每个标识符以字母ENSG开始,表示“Ensembl基因”。每个ENSEMBL ID编号(即,在Ensembl数据库中的每个“基因”)是指由具体人染色体上的特定的开始和结束位置限定的基因,并且因此限定了人基因组的特定基因座。如本领域普通技术人员应完全领会的,在此公开的所有基因符号是指易于在公共可获得的数据库上获得的基因序列,该数据库是例如UniGene数据库(Pontius JU,Wagner L,Schuler GD.UniGene:a unified view of the transcriptome.In:The NCBIHandbook.Bethesda(MD):National Center for Biotechnology Information;2003,可在万维网网址ncbi.nlm.nih.gov/unigene获得,结合在此)、RefSeq(The NCBI handbook[Internet].Bethesda(MD):National Library of Medicine(US),National Center forBiotechnology Information;2002Oct.Chapter 18,The Reference Sequence(RefSeq)Project,可在万维网网址:ncbi.nlm.nih.gov/refseq/获得,结合在此)、Ensembl(EMBL,可在万维网网址ensembl.org/index.html获得,结合在此)等。在此通过其基因符号、EnsemblID、和Entrez ID披露的基因的序列以其全部内容结合在此。
在此引用的所有参考文献、专利和专利申请都出于所有目的以其全部内容而结合。
实施例
实施例1
样品收集、病理学诊断、以及标记
将电视辅助胸腔镜手术(VATS)样本预期地收集为由威拉赛特公司(Veracyte,Inc.)(南旧金山,加利福尼亚州)赞助的机构审查委员会(IRB)批准的进行中的多中心临床方案-用于新型基因组测试的支气管样品收集(BRonchial sAmple collection for anoVel gEnomic test,BRAVE)-的一部分。另外的VATS和外科肺活检样本获得自储备来源。
在手术后,将组织学载片收集,去标识,并且提交给专家进行病理学审评。扫描所选择的载片以构建显微镜图像的永久数字文件(艾贝欧公司(Aperio),维斯塔,加利福尼亚州)。根据图5中描述的中心病理学诊断过程评估载片,得到样品水平和患者水平的病理学诊断。病理学类别概述于表3中。患者可以具有多于一个样品水平诊断(即每名患者每个VATS样品一个,最常见为来自右肺的下叶和上叶中各自的一个),但可以仅具有一个患者水平诊断。
表3。在本文的中心病理学诊断过程中考虑的所有病理学诊断的列表。
大多数诊断技术遵循美国胸腔学会(ATS)2011或2013指南 5,6 ,但一些改变由病理学专家小组作出以更好地表征肺叶水平的特征。具体而言,包括‘经典UIP’和‘难分类性UIP’而取代如在ATS 2011指南中所述的‘明确的UIP’和‘可能的UIP’。未以其他方式分类的慢性间质性纤维化(CIF/NOC)对应于不可分类的纤维化ILD。CIF/NOC的三个亚类‘易分类性UIP’、‘易分类性NSIP’和‘易分类性HP’被限定为指定以下不可分类的纤维化情况,其在病理学专家小组的判决中展现出提示UIP、非特异性间质性肺炎(NSIP)或过敏性肺炎(HP)的特征。还包括吸烟相关的间质性纤维化(SRIF)的诊断 20
用于分类,将样品水平病理学诊断转化为二元类别标签(UIP和非UIP)。在病理学诊断类别(表3)中,‘UIP’类包括(1)UIP、(2)经典UIP、(3)难分类性UIP、以及(4)CIF/NOC,易分类性UIP。除了非诊断性(ND)外的所有其他病理学诊断指定为‘非UIP’类。
实施例2
样品处理
将冷冻的组织样品使用Tissue-Tek O.C.T.介质(Sakura Finetek U.S.A.)固定以用于切片,并且使用CM1800cryostat(徕卡生物系统公司(Leica Biosystems),布法罗格罗夫,伊利诺伊州)产生2x 20μm切片。将组织卷立即浸没于RNAprotect(凯杰公司(QIAGEN),巴伦西亚(Valencia),加利福尼亚州)中,在4℃下孵育过夜并且储存在-80℃下直到提取。只要有可能,便将邻近的5μm组织卷固定在载玻片上,并且处理以用于遵循标准程序进行苏木精和伊红(H&E)染色。
根据生产商指南使用AllPrep Micro试剂盒(凯杰公司)提取核酸。使用Quant-it(英杰公司(Invitrogen))和Pico BioAnalyzer试剂盒(安捷伦)测定总RNA产量和质量。将十五纳克总RNA使用Ovation FFPE WTA系统(NuGEN,圣卡洛斯,加利福尼亚州)扩增,与GeneChip Gene ST 1.0(昂飞公司,圣克拉拉,加利福尼亚州)微阵列杂交,处理,并且根据生产商方案扫描。通过稳健多阵列平均(RMA)将表达数据归一化。
实施例3
下一代RNA测序
对所选择的样品以每个样品8000万个配对末端读取的目标最小读取深度进行全转录组RNA测序。简言之,将10ng的总RNA使用Ovation RNASeq System v2(NuGEN,圣卡洛斯,加利福尼亚州)扩增,并且制备TruSeq(亿明达公司(Illumina),圣地亚哥,加利福尼亚州)测序文库并在亿明达HiSeq上根据生产商说明书进行测序。使用TopHat2将原始读取与hg19基因组组件进行比对。使用HTSeq获得基因计数,并且使用在DESeq2软件包中的方差稳定化变换(varianceStabilizingTransformation)函数在Bioconductor中归一化。获得55,097个转录物的原始计数和归一化表达水平。
实施例4
组群选择和分类器训练
研究组群起初包括储备的(n=128)和预期收集的BRAVE(n=38)组织。排除在H&E染色时具有不良细胞性(来自单个患者n=4)或正常肺组织外观(n=1)的储备样品,还排除诊断为‘不可分类的纤维化ILD’即CIF/NOC的样品(n=3)或缺乏至少两名病理学家作出的病理学一致意见的样品(n=29)。对于BRAVE样品,不排除CIF/NOC样品。仅省略一个BRAVE组群样品,因错过中心病理学诊断。还排除经处理的具有残留基因组DNA污染的(n=2)或低RNA质量(RNA完整指数(RIN)<4)(n=1)的RNA样品。在所有排除之后,剩余来自86名患者的125个样品用于分类。纳入的患者的年龄、性别、吸烟史和病理学诊断概述于表1中。
表1。组群概述。在每组微阵列数据或RNASeq数据内,临床因子如年龄、性别和吸烟史是跨患者概述的。此外,通过样品水平的病理学诊断来概述样品(无括号的计数),并且通过患者水平的病理学诊断来概述患者(括号内的计数)。在任一情况下的零是由于在样品水平和患者水平的病理学之间的不一致;因此计数将不是加性的。在RNASeq训练集中的36个样品中,22个与微阵列训练集重叠并且14个与微阵列测试集重叠。
125个样品(86名患者)可用于微阵列分类。将86名患者随机化到训练集和测试集中,同时控制患者水平病理学亚型偏倚(表1)。微阵列训练集由来自54名患者的77个样品(39个UIP和38个非UIP)组成。微阵列测试集由来自32名患者的48个样品(22个UIP与26个非UIP)组成。
针对来自29名患者的36个样品子集(17个UIP和19个非UIP)(表1)生成RNASeq数据,代表ILD亚型谱。在36个样品中,22个与微阵列训练集重叠并且14个与微阵列测试集重叠。因为数据库的样本量较小,仅通过交叉验证(CV)评估分类性能。
实施例5
训练模块、分类、特征选择
使用R 3.0.1版进行所有统计学分析 21 。对于微阵列分类器,通过limma对在UIP和非UIP类别之间差异表达的基因进行分级,然后取前200个具有最低错误发现率(FDR)(<0·0003)的基因作为模型构建的候选基因。使用不同的方法构建若干模型,并且选择具有最低错误的那个。通过使用glmnet以lasso惩罚进行逻辑回归来进行特征选择和模型估计。对于RNASeq分类器,通过由在DESeq2软件包中对原始计数数据实施的瓦尔德式(Wald-style)检验得出的FDR对基因进行分级。使用前几个特征(N范围为从10至200)用e1071文库针对归一化的表达数据训练线性支持向量机(SVM)。
通过CV评估分类器性能,并且可获得时通过独立测试集评估。为了最小化过度拟合,当限定训练/测试集和CV划分时将单个患者作为最小单位保持;即在训练/测试集或在CV划分中将所有属于同一患者的样品保持在一起作为一组。所使用的CV方法包括留一患者(LOPO)和10倍患者水平CV。
性能报告为曲线下面积(AUC)、以及在给定得分阈值处的特异性(1·0-假阳性率)和灵敏度(1·0-假阴性率)。本文设置得分阈值以要求至少>90%的特异性。对于每次性能测量,使用2000个分层引导程序重复和pROC软件包计算95%置信区间,并报告为[CI下限-上限]。
实施例6
在从外植肺取样中的空间异质性
使用基因组范围的微阵列数据分析来自三名正常肺供体(n=7)和来自诊断患有IPF的患者的三个肺(n=53)的总计60个样品。遵循由弗吉尼亚州佛尔斯彻赤InovaFairfax的机构审查委员会(IRB)批准的方案收集在移植手术期间获得的完整的正常肺和患病肺。对来自三名正常供体和三名诊断患有IPF的患者的外植肺的上叶和下叶进行中心取样和外围取样。外植块样品的位置和数据图示于图6中。由发起机构提供外科病理学和最终临床诊断。由三名病理学专家全体一致作出的病理学解读确证所有三个IPF患者外植肺中的UIP。
在七个正常和53个IPF外植肺样品中评估基因表达。对在正常和IPF患者外植块样品之间差异表达的基因进行鉴定并使用R limma软件包(Smyth,G.K.(2005))通过错误发现率(FDR)进行分级。在微阵列训练集中在UIP和非UIP类别之间差异表达的前200个基因示于表12中。使用具有最低FDR调整的P值(<1·45e-07)的前200个基因,针对53个UIP样品的所有对计算皮尔逊相关系数。
表12。在微阵列训练集中在UIP和非UIP类别之间差异表达的前200个基因,其中指示由微阵列分类器使用的22个基因。
缩写:TCID=转录物簇标识;符号=基因符号;logFC=log倍数变化;MedExpr.UIP=跨UIP样品的中值表达水平;MedExpr.非UIP=跨UIP样品的中值表达水平;FDR=错误发现率;由分类器使用=基因是否由微阵列分类器使用的指示。
取样的数目和位置(上与下以及中心与外围)指示于图6中,并且IPF患者临床特征指示于表4中。为了鉴定在测量空间异质性中有用的基因,本文寻求在正常样品与IPF样品中的差异表达。这种比较产生了约5,000个显著差异表达的RNA转录物,其中FDR<0·05(数据未示出)。本文选择了前200个差异表达的基因,并且测量成对相关。针对三名诊断患有IPF的患者的结果示于图1中。虽然在所有IPF样品中的相关性高,但三个不同的模式出现于IPF样品中的相关性结构中。一名患者(P1)示出在上叶与下叶基因表达中的实质性差异,即在基因信号中相关性较低。一名患者(P3)示出在上叶和下叶取样之间的较高的相关性。第三名患者(P2)示出在这两种情况之间的中间结果,其中在从上叶和下叶取样之间的相关性有时候较高并且有时候较低。在对于少数目的患者而言时,这些结果表明在分类器开发的训练阶段期间具有叶特异性病理学的样品可以是更准确的。基于此信息,本文使用具有在样品水平指定的真实标记的SLB组织使用叶得出的病理学制备了分类器。本文的结果呈现于表7中,证实在SLB组织中以高预期准确性对UIP和非UIP样品分类的分子标记的存在。
表4。三名IPF外植块患者的临床特征。
实施例7
微阵列分类器针对外科肺活检的性能
使用对在VATS期间获得的活检的样品的特异性病理学标记,通过逻辑回归针对将UIP和非UIP样品分离开来的前200个基因(参见表12)训练微阵列分类器。最终模型用22个基因(表5)构建。
通过稳健多阵列平均(RMA)将表达数据归一化。通过使用glmnet3以lasso惩罚进行逻辑回归来进行特征选择和模型估计。使用TopHat对原始读取进行比对。使用HTSeq获得基因计数,并且使用DESeq进行归一化。使用前几个特征(N范围为从10至200)用e1071文库训练线性支持向量机(SVM)。使用pROC软件包计算置信区间。
将LOPO CV性能总结为受试者工作特征(ROC)曲线(图2A)。AUC是0·9[CI 0·82-0·96],其中特异性为92%[CI 84%-100%]并且灵敏度为64%[CI 49%-79%]。示出所有患者的个人LOPO CV分类得分(图2B)。在三个错误分类的非UIP样品中,两个具有非常接近阈值的得分(0·86和1·30),并且一个具有高分(4·21)。具有高分的后一个样品在样品水平和患者水平两者下被诊断为‘不可分类的纤维化ILD’。在UIP样品中,十五个(36%)具有低于阈值的得分(假阴性),但那些样品中无一具有大的阴性得分。由于在某些情况下,LOPOCV具有高估性能的可能,本文还评估了10倍患者水平CV(即,在每个循环中留出10%的患者),其给出了非常相似的性能(来个五个重复的10倍CV的AUC中值是0·88)。
表5。在优选阵列分类器中所包含的二十二个基因。
缩写:TCID=转录物簇标识;符号=基因符号;logFC=log倍数变化;MedExpr.UIP=跨UIP样品的中值表达水平;MedExpr.非UIP=跨UIP样品的中值表达水平;FDR=错误发现率。
独立测试集性能示于图2C中,显示AUC为0·94[CI 0·86-0·99],其中特异性为92%[CI 81%-100%]并且灵敏度为82%[CI 64%-95%]。单独的分类得分分布示出在UIP和非UIP类之间的良好分离(图2D)。两个错误分类的非UIP样品具有患者水平和样品水平的指示诊断中的不确定性的专家诊断:‘不可分类的纤维化ILD’。在测试集中观察到的得分范围(图2D)比在LOPO CV得分中所见的范围(图2B)窄,可能是由于与通过应用单一模型获得的得分相比在每个CV循环内在应用一系列子分类器中具有固有的更大的可变性。包含95%置信区间的分类性能概述于表6中。
表6。包含95%置信区间(CI)的分类器性能概述。
本文的方法提供了显著的优势。更早的基因表达谱分析研究集中于比较IPF与一些非IPF ILD亚型(如HP或NSIP),或针对未患有ILD的受试者18,19,23,25。此处报告的非UIP组群代表广谱病理学亚型(包括HP、NSIP、结节病、RB、细支气管炎、机化性肺炎(OP)以及其他),由此接近在临床实践中遇到的ILD的多样性。此外,使用储备的和预期收集的SLB的组合训练并测试分类器,以确保在样品处理和收集中抵抗潜在差异的稳固性。最终,许多较早的研究仅集中于差异基因表达分析上,而未构建分类引擎。相比之下,本文的方法是用于开发分子测试的严谨方法,该方法当适当地训练并验证时良好地推广到独立数据集中。
实施例8
RNASeq分类器针对外科肺活检的性能
使用具有RNASeq数据的36个样品子集训练线性SVM分类器,并且通过LOPO CV评估性能。对于跨越10至200的基因数目,AUC始终高于0·80(数据未示出)。本文选择使用了100个基因的模型以用于进一步检验。AUC是0·9[CI 0·77-1·00](特异性=95%[CI 84%-100%],灵敏度=59%[CI 35%-82%])(图3A)。仅一个非UIP样品被错误分类(图3B)。对于此样品的样品水平病理学是呼吸性细支气管炎(RB),并且患者病理学是弥漫性肺泡损伤(DAD),这些是因其稀少一直难以建模的两种亚型。本文使用匹配阵列数据对相同组的样品进行了相似的分析;基于阵列的分类器使用160个基因达到了相似的性能(AUC=0·86[CI0·73-0·96])。特异性是95%[CI 84%-100%],并且灵敏度是47%[CI 24%-71%](图3C)。有趣的是,被RNASeq分类器错误分类为UIP的相同的非UIP样品也由微阵列分类器错误分类(图3D)。总体上,基于RNASeq的分类实现了与阵列平台的性能可比的性能。
实施例9
与分类器使用的基因相关的生物途径
为了确定是否存在机器学习过程所选择基因中的共同生物基础,本文使用过度呈现分析(over-representation analysis,ORA)以鉴定所选途径中基因的统计学上显著的参与。在作为ORA测试集的微阵列测试集(n=77)中,使用GeneTrail软件(genetrail.bioinf.uni-sb.de/)和在UIP与非UIP样品之间差异表达的前1,000个基因(通过limma)(FDR<0·013)进行过/欠表达分析(ORA)。ORA参考集包括KEGG途径和基因本体(GO)数据库中所有的人类基因(n=44,829)以及注释。通过Fisher精确检验,以p<0·05的校正FDR阈值评估显著性。
在检验UIP与非UIP比较中发现的前1000个基因中,出现不同的发现(表2)。
表2。在UIP和非UIP样品中过度呈现的京都基因与基因组百科全书(KEGG)途径和基因本体(GO)。在每个样品组群中的类别是通过FDR p值分级的。
在非UIP中过度呈现
缩写:FDR=错误发现率;GO=基因本体;KEGG=京都基因与基因组百科全书;ORA=过度呈现分析。
在UIP中,在细胞粘附、肌肉疾病、细胞迁移和运动性中涉及的基因占主导。这些结果与在IPF中差异调节的途径的先前报道18,19,22,23一致。相比之下,其他非UIP亚型过表达在免疫过程(包括适应性和先天性系统)中涉及的基因。这种富集可能是由于存在于非UIP组群中的RB和HP亚型;已知展现免疫组分的疾病24。在KEGG途径和基因本体组中过代表的基因概述于表7和表8中。
表7。在UIP样品的KEGG途径和基因本体组中过度呈现的基因。
表8。在非UIP样品的KEGG途径和基因本体组中过度呈现的基因。
实施例10
错误标记模拟研究
对微阵列训练集进行交换二元分类标记(UIP或非UIP)的模拟研究。随机选择样品以用于标记排列,每个模拟集的总比例范围为从1%至40%。在三名病理学专家诊断的盲性审评中达成一致的水平是3/3(n=44)、2/2(n=8)、2/3(n=24)、和1/3(n=1)。以与解释三名病理学专家盲性审评中不一致水平的概率成比例的权重将样品标记改变为其他类别:对于3/3或2/2一致为5%,对于2/3一致为50%,并且对于1/3一致为90%。在每个比例下将模拟重复100次。
跨交换标记的一系列比例,经100次重复模拟来评估LOPO CV性能(AUC)(图4)。当不存在标记交换时,性能中值非常接近于图2A中所示的阵列分类器性能(AUC=0·9)。(使用相同的样品和标记集,模型估计可以具有轻微的可变性)。在交换率增加时,性能单调地降低。当40%的标记交换时,性能中值接近0·5,指示分类几乎等于随机机会。
实施例11
UIP/非UIP差异基因表达的幅值和方向在吸烟者与非吸烟者测试受试者中不同。
与在从未吸烟的人中相比,间质性肺病在吸烟或曾经具有长吸烟史之后戒烟的人中更流行。本文比较了来自吸烟者和非吸烟者UIP或非UIP受试者的样品的差异基因表达谱,以确定吸烟状况是否影响UIP诊断分类器的性能。
制备经支气管活检样品[根据实施例1和2中所述的方法,并且根据实施例3中所述的方法进行RNA测序分析]。生成针对24个样品子集(9个UIP和15个非UIP)的RNASeq数据,并且根据三种二元比较分析差异基因表达:(i)UIP与非UIP,对应地n=9和15个样品;(ii)非吸烟者UIP与非吸烟者非UIP,对应地n=3和5个样品;以及(iii)吸烟者UIP与吸烟者非UIP,对应地n=12和4个样品。
组(i)至(iii)的表达分析的结果分别示于表9至11中,并且概述于图8-10中。在UIP和非UIP样品之间差异表达的基因的数目在吸烟者与非吸烟者之间显著不同(64个差异表达于来自吸烟者的样品中,671个差异表达于来自非吸烟者的样品中)(图8)。并且,在非吸烟者中差异上调的某些基因在未差异表达于吸烟者中时下调(图9和10)。这些数据证实在来自非吸烟者的样品的UIP分类中有用的某些基因不是提供信息的,或在吸烟者中在相同疾病的诊断中可以是矛盾的。在基因表达中的吸烟者状况差异可以降低使用传统2类机器学习方法产生的基因表达分类器预测的性能。本文使用三种不同的技术克服了这个问题,这些技术任选地进行组合或单独地使用,和UIP与非UIP分类器及经由在此公开的诊断方法诊断UIP与非UIP的方法相组合。
在第一种方法中,在训练期间在模型中将吸烟状况(吸烟者与非吸烟者)用作协变量。这种简单方法提高了特别是在得自吸烟者的数据(噪音较高)中的信噪比,并且允许得自吸烟者和非吸烟者的数据组合并同时使用。
在第二种方法中,在分类器训练期间,鉴定并排除对吸烟者状况偏倚敏感的基因,或任选地给予该基因不同于对这种偏倚不敏感的基因的权重。此方法富集了用于用没有被吸烟状况混淆或影响的基因进行训练的特征空间。
在第三种方法中,采用分层分类工作,其中初始分类器被训练为识别区分吸烟者与非吸烟者的基因标记。一旦患者样品被预分类为“吸烟者”或“非吸烟者”,实施各自被训练为对应地区分吸烟者或非吸烟者中的UIP与非UIP的不同分类器。此类吸烟者或非吸烟者特异性分类器提供了改进的诊断性能。
表9。不论吸烟者状况,在UIP与非UIP样品中差异表达的基因。
UIP(n=9个样品);非UIP(n=15个样品)。阳性log2倍数变化值指示相对于非UIP在UIP中的表达过度;阴性log2值指示相对于非UIP在UIP中的表达不足。在此分析中,不评估涉及的患者的吸烟史状况,并且组群涵盖吸烟者和非吸烟者两者。
表10。在非吸烟者UIP与非吸烟者非UIP样品中差异表达的基因。
UIP(n=3个样品);非UIP(n=5个样品)。阳性log2倍数变化值指示相对于非UIP在UIP中的表达过度;阴性log2值指示相对于非UIP在UIP中的表达不足。在此分析中,仅评估没有任何吸烟史的患者,因此该子集仅涵盖非吸烟者。
表11。在来自吸烟者的UIP样品中与来自吸烟者的非UIP样品中差异表达的基因。
UIP(n=12个样品);非UIP(n=4个样品)。阳性log2倍数变化值指示相对于非UIP在UIP中的表达过度;阴性log2值指示相对于非UIP在UIP中的表达不足。在此分析中,仅评估具有吸烟史的患者,因此该子集仅涵盖吸烟者。
上述不同的实施方案可以组合以提供另外的实施方案。将在本说明书中引用的和/或在申请数据表中列举的所有美国专利申请公开案、美国专利申请、外国专利、外国专利申请和非专利公开案通过引用以其全文结合在此。如果必要的话,可以修改实施方案的方面,以采用不同专利、申请和公开案的概念以提供又另外的实施方案。
根据上文详细说明,可以对实施方案作出这些和其他改变。总体上,在以下权利要求书中,所使用的术语不应解读为将权利要求书限制为说明书和权利要求书中公开的具体实施方案,而应解读为包括所有可能的实施方案连同这些权利要求所享有的等效权利的全部范围。因此,权利要求书不受本公开文本的限制。
在此描述的一些实施方案涉及具有非暂时性计算机可读介质(还可以称作非暂时性处理器可读介质)的计算机存储产品,该介质上具有用于执行各种计算机实施的操作的指令或计算机代码。计算机可读介质(或处理器可读介质)在它本身不包括暂时性传播信号(例如,在传输介质如空间或缆线上传播携带信息的电磁波)的意义上是非暂时性的。该介质和计算机代码(还可以称作代码)可以是被设计并构建为用于特定目的或多个目的的那些。非暂时性计算机可读介质的例子包括但不限于磁存储介质,如硬盘、软盘、和磁带;光存储介质,如光碟/数字视频光碟(CD/DVD)、光碟只读存储器(CD-ROM)、以及全息设备;磁光存储介质,如光盘;载波信号处理模块;以及被专门配置为存储并执行程序代码的硬件设备,如专用集成电路(ASIC)、可编程逻辑设备(PLD)、只读存储器(ROM)和随机存取存储器(RAM)设备。在此描述的其他实施方案涉及计算机程序产品,其可以包括例如在此讨论的指令和/或计算机代码。
在此描述的一些实施方案和/或方法可以通过软件(在硬件上执行)、硬件或其组合来进行。硬件模块可以包括通用处理器、现场可编程门阵列(FPGA)、和/或专用集成电路(ASIC)。软件模块(在硬件上执行)可以以多种软件语言(例如,计算机代码)表达,包括C、C++、JavaTM、Ruby、Visual BasicTM、R,和/或其他面向对象的、程序式的、统计学的或其他编程语言和开发工具。计算机代码的例子包括但不限于微代码或微指令、机器指令(如由编译器产生的)、用于产生网络服务的代码、以及包含使用解释器由计算机执行的高水平指令的文件。例如,实施方案可以使用命令式编程语言(例如,C、Fortran等)、函数式编程语言(例如,Haskell、Erlang等)、逻辑式编程语言(例如,Prolog)、面向对象的编程语言(例如,Java、C++等)、统计学编程语言和/或环境(例如,R等)或其他适合的编程语言和/或开发工具实施。计算机代码的另外的例子包括但不限于控制信号、加密代码、和压缩代码。
参考文献
将以下全部参考文献以其全文结合在此。
1.du Bois RM.Strategies for treating idiopathic pulmonaryfibrosis.Nature reviews Drug discovery 2010;9(2):129-40.
2.Hodnett PA,Naidich DP.Fibrosing Interstitial Lung Disease:APractical HRCT Based Approach to Diagnosis and Management and Review of theLiterature.American Journal of Respiratory Critical Care Medicine 2013.
3.American Thoracic Society.Idiopathic pulmonary fibrosis:diagnosisand treatment.International consensus statement.American Thoracic Society(ATS),and the European Respiratory Society(ERS).American journal ofrespiratory and critical care medicine 2000;161(2Pt 1):646-64.
4.King TE,Jr.,Pardo A,Selman M.Idiopathic pulmonaryfibrosis.Lancet2011;378(9807):1949-61.
5.Raghu G,Collard HR,Egan JJ,et al.An official ATS/ERS/JRS/ALATstatement:idiopathic pulmonary fibrosis:evidence-based guidelines fordiagnosis and management.American journal of respiratory and critical caremedicine2011;183(6):788-824.
6.Wells AU.The revised ATS/ERS/JRS/ALAT diagnostic criteria foridiopathic pulmonary fibrosis(IPF)--practical implications.Respiratoryresearch2013;14 Suppl 1:S2.
7.Fernandez Perez ER,Daniels CE,Schroeder DR,et al.Incidence,prevalence,and clinical course of idiopathic pulmonary fibrosis:a population-based study.Chest 2010;137(1):129-37.
8.du Bois RM,Weycker D,Albera C,et al.Ascertainment of individualrisk of mortality for patients with idiopathic pulmonary fibrosis.Americanjournal of respiratory and critical care medicine 2011;184(4):459-66.
9.King TE,Jr.,Bradford WZ,Castro-Bernardini S,et al.A phase 3 trialof pirfenidone in patients with idiopathic pulmonary fibrosis.N Engl JMed2014;370(22):2083-92.
10.Richeldi L,du Bois RM,Raghu G,et al.Efficacy and safety ofnintedanib in idiopathic pulmonary fibrosis.N Engl J Med 2014;370(22):2071-82.
11.Woodcock HV,Maher TM.The treatment of idiopathic pulmonaryfibrosis.F1000prime reports 2014;6:16.
12.Cottin V,Richeldi L.Neglected evidence in idiopathic pulmonaryfibrosis and the importance of early diagnosis and treatment.Europeanrespiratory review:an official journal of the European Respiratory Society2014;23(131):106-10.
13.Sumikawa H,Johkoh T,Colby TV,et al.Computed tomography findings inpathological usual interstitial pneumonia:relationship to survival.Americanjournal of respiratory and critical care medicine 2008;177(4):433-9.
14.Wells AU.Managing diagnostic procedures in idiopathic pulmonaryfibrosis.European respiratory review:an official journal of the EuropeanRespiratory Society 2013;22(128):158-62.
15.Collard HR,King TE,Jr.,Bartelson BB,Vourlekis JS,Schwarz MI,BrownKK.Changes in clinical and physiologic variables predict survival inidiopathic pulmonary fibrosis.American journal of respiratory and criticalcare medicine 2003;168(5):538-42.
16.Nicholson AG,Addis BJ,Bharucha H,et al.Inter-observer variationbetween pathologists in diffuse parenchymal lung disease.Thorax 2004;59(6):500-5.
17.Flaherty KR,King TE,Jr.,Raghu G,et al.Idiopathic interstitialpneumonia:what is the effect of a multidisciplinary approach to diagnosis?American journal of respiratory and critical care medicine 2004;170(8):904-10.
18.Selman M,Pardo A,Barrera L,et al.Gene expression profilesdistinguish idiopathic pulmonary fibrosis from hypersensitivitypneumonitis.American journal of respiratory and critical care medicine2006;173(2):188-98.
19.Lockstone HE,Sanderson S,Kulakova N,et al.Gene set analysis oflung samples provides insight into pathogenesis of progressive,fibroticpulmonary sarcoidosis.American journal of respiratory and critical caremedicine2010;181(12):1367-75.
20.Katzenstein AL.Smoking-related interstitial fibrosis(SRIF),pathogenesis and treatment of usual interstitial pneumonia(UIP),andtransbronchial biopsy in UIP.Modern pathology:an official journal of theUnited States and Canadian Academy of Pathology,Inc 2012;25 Suppl 1:S68-78.
21.Team RC.R:A language and environment for statistical computing.RFoundation for Statistical Computing,Vienna,Austria http://wwwR-projectorg/2014.
22.Pardo A,Gibson K,Cisneros J,et al.Up-regulation and profibroticrole of osteopontin in human idiopathic pulmonary fibrosis.PLoS medicine2005;2(9):e251.
23.DePianto DJ,Chandriani S,Abbas AR,et al.Heterogeneous geneexpression signatures correspond to distinct lung pathologies and biomarkersof disease severity in idiopathic pulmonary fibrosis.Thorax 2014.
24.Selman M,Pardo A,King TE,Jr.Hypersensitivity pneumonitis:insightsin diagnosis and pathobiology.American journal of respiratory and criticalcare medicine 2012;186(4):314-24.
25.Yang IV,Coldren CD,Leach SM,et al.Expression of cilium-associatedgenes defines novel molecular subtypes of idiopathic pulmonaryfibrosis.Thorax2013.
26.Garcia-Alvarez J,Ramirez R,Checa M,et al.Tissue inhibitor ofmetalloproteinase-3 is up-regulated by transforming growth factor-beta1 invitro and expressed in fibroblastic foci in vivo in idiopathic pulmonaryfibrosis.Experimental lung research 2006;32(5):201-14.
27.Piotrowski WJ,Gorski P,Pietras T,Fendler W,Szemraj J.The selectedgenetic polymorphisms of metalloproteinases MMP2,7,9 and MMP inhibitor TIMP2in sarcoidosis.Medical science monitor:international medical journal ofexperimental and clinical research 2011;17(10):CR598-607.
28.Chaudhuri R,McSharry C,Brady J,et al.Low sputum MMP-9/TIMP ratiois associated with airway narrowing in smokers with asthma.The Europeanrespiratory journal:official journal of the European Society for ClinicalRespiratory Physiology 2014;44(4):895-904.
29.Hviid TV,Milman N,Hylenius S,Jakobsen K,Jensen MS,Larsen LG.HLA-Gpolymorphisms and HLA-G expression in sarcoidosis.Sarcoidosis,vasculitis,anddiffuse lung diseases:official journal of WASOG/World Association ofSarcoidosis and Other Granulomatous Disorders 2006;23(1):30-7.
30.Li GY,Kim M,Kim JH,Lee MO,Chung JH,Lee BH.Gene expressionprofiling in human lung fibroblast following cadmium exposure.Food andchemical toxicology:an international journal published for the BritishIndustrial Biological Research Association 2008;46(3):1131-7.
31.Ozsolak F,Milos PM.RNA sequencing:advances,challenges andopportunities.Nature reviews Genetics 2011;12(2):87-98.
32.Mutz KO,Heilkenbrinker A,Lonne M,Walter JG,Stahl F.Transcriptomeanalysis using next-generation sequencing.Current opinion in biotechnology2013;24(1):22-
序列表
<110> 维拉赛特股份有限公司(Veracyte, Inc.)
S·Y·金姆(Kim, Su Yeon)
J·迪甘斯(Diggans, James)
D·潘克拉茨(Pankratz, Dan)
J·黄(Huang, Jing)
Y·崔(Choi, Yoonha)
M·帕甘(Pagan, Moraima)
G·C·肯尼迪(Kennedy, Giulia C. )
<120> 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法
<130> VRCT-003/01WO 307081-2058
<150> US 62/130,800
<151> 2015-03-10
<150> US 62/075,328
<151> 2014-11-05
<160> 22
<170> PatentIn version 3.5
<210> 1
<211> 1041
<212> DNA
<213> 人(Homo sapiens)
<400> 1
atggcgcccc gaagcctcct cctgctgctc tcaggggccc tggccctgac cgatacttgg 60
gcaggctccc actccttgag gtatttcagc accgctgtgt cgcggcccgg ccgcggggag 120
ccccgctaca tcgccgtgga gtacgtagac gacacgcaat tcctgcggtt cgacagcgac 180
gccgcgattc cgaggatgga gccgcgggag ccgtgggtgg agcaagaggg gccgcagtat 240
tgggagtgga ccacagggta cgccaaggcc aacgcacaga ctgaccgagt ggccctgagg 300
aacctgctcc gccgctacaa ccagagcgag gctgggtctc acaccctcca gggaatgaat 360
ggctgcgaca tggggcccga cggacgcctc ctccgcgggt atcaccagca cgcgtacgac 420
ggcaaggatt acatctccct gaacgaggac ctgcgctcct ggaccgcggc ggacaccgtg 480
gctcagatca cccagcgctt ctatgaggca gaggaatatg cagaggagtt caggacctac 540
ctggagggcg agtgcctgga gttgctccgc agatacttgg agaatgggaa ggagacgcta 600
cagcgcgcag atcctccaaa ggcacacgtt gcccaccacc ccatctctga ccatgaggcc 660
accctgaggt gctgggccct gggcttctac cctgcggaga tcacgctgac ctggcagcgg 720
gatggggagg aacagaccca ggacacagag cttgtggaga ccaggcctgc aggggatgga 780
accttccaga agtgggccgc tgtggtggtg ccttctggag aggaacagag atacacatgc 840
catgtgcagc acgaggggct gccccagccc ctcatcctga gatgggagca gtctccccag 900
cccaccatcc ccatcgtggg catcgttgct ggccttgttg tccttggagc tgtggtcact 960
ggagctgtgg tcgctgctgt gatgtggagg aagaagagct cagatagaaa cagagggagc 1020
tactctcagg ctgcagtgtg a 1041
<210> 2
<211> 1993
<212> DNA
<213> 人(Homo sapiens)
<400> 2
caggtgttgg tgcctgccgt gaacgcattc tgacctgggc cgtatctgtc tcccaagact 60
ttgtgcctat ggttggggac agagtgaggt cgttgccttg acgacgacag catgcggccc 120
gtggtcctcc taagtgtgag cttgcggcgg accgaggccc acctgcctcc ctgcctgctt 180
cgccctggac tcgtgactgc gtccgcagaa gaaatcacaa cagcgctgga attgctagtt 240
tgctaggcag catcttttgg acctgcgaac catatgcatt tcacctcaaa tttgtttcca 300
agttgaaaac ctttgggtct ttctatgcga acggattgaa gaaacgcaaa aagtttctac 360
ggactttaaa ttaaaatgga aaaatatgaa aacctgggtt tggttggaga agggagttat 420
ggaatggtga tgaagtgtag gaataaagat actggaagaa ttgtggccat aaagaagttc 480
ttagaaagtg acgatgacaa aatggttaaa aagattgcaa tgcgagaaat caagttacta 540
aagcaactta ggcatgaaaa cttggtgaat ctcttggaag tgtgtaagaa aaaaaaacga 600
tggtacctag tctttgaatt tgttgaccac acaattcttg atgacttgga gctctttcca 660
aatggactag actaccaagt agttcaaaag tatttgtttc agattattaa tggaattgga 720
ttttgtcaca gtcacaatat catacacaga gatataaagc cagagaatat attagtctcc 780
cagtctggcg ttgtcaagct atgcgatttt ggatttgcgc gaacattggc agctcctggg 840
gaggtttata ctgattatgt ggcaacccga tggtacagag ctccagaact attggttggt 900
gatgtcaagt atggcaaggc tgttgatgtg tgggccattg gttgtctggt aactgaaatg 960
ttcatggggg aacccctatt tcctggagat tctgatattg atcagctata tcatattatg 1020
atgtgtttag gtaatctaat tccaaggcat caggagcttt ttaataaaaa tcctgtgttt 1080
gctggagtaa ggttgcctga aatcaaggaa agagaacctc ttgaaagacg ctatcctaag 1140
ctctctgaag tggtgataga tttagcaaag aaatgcttac atattgaccc cgacaaaaga 1200
cccttctgtg ctgagctcct acaccatgat ttctttcaaa tggatggatt tgctgagagg 1260
ttttcccaag aactacagtt aaaagtacag aaagatgcca gaaatgtttc tttatctaaa 1320
aaatcccaaa acagaaagaa ggaaaaagaa aaagatgatt ccttagttga agaaagaaaa 1380
acacttgtgg tacaggatac caatgctgat cccaaaatta aggattataa actatttaaa 1440
ataaaaggct caaaaattga tggagaaaaa gctgaaaaag gcaatagagc ttcaaatgcc 1500
agctgtctcc atgacagtag gacaagccac aacaaaatag tgccttcaac aagcctcaaa 1560
gactgcagca atgtcagcgt ggaccacaca aggaatccaa gcgtggcaat tcccccactt 1620
acacacaatc tttctgcagt tgctcccagc attaattctg gaatggggac tgagactata 1680
ccaattcagg gttacagagt ggatgagaaa actaagaagt gttctattcc atttgttaaa 1740
ccgaacagac attccccatc aggcatttat aacattaatg tgaccacatt agtatcagga 1800
cctcccctgt cagatgattc aggggctgat ttgcctcaaa tggaacacca gcactgagaa 1860
ccattttggt tctgaactgg atgatgctct tgcacttgag atgacatctt cttgcagcaa 1920
gaaaaaaaaa aaaaaaaaaa aaaaaaaaac aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1980
aaaaaaaaaa aaa 1993
<210> 3
<211> 3918
<212> DNA
<213> 人(Homo sapiens)
<400> 3
gttaattgga gcccacgcct gaatctagat ttcagtgttg cagtgattac aatattggat 60
aatgatgacc tggcaggaat ggatatttcc ttccccgaga caactgtggc tgtagcagtt 120
gacacaactc tcattcctgt agaaactgaa tccaccacat acctcagcac aagcaagacg 180
actaccattc tgcagccaac caacgtggtt gccattgtta ctgaggcaac tggtgtatct 240
gccatccctg agaaacttgt cacccttcat ggcacacctg ctgtgtctga aaagcctgat 300
gtggccactg taactgccaa tgtttccatt catggaacat tcagccttgg gccatccatt 360
gtttatattg aagaggagat gaagaatggc acattcaaca ctgcagaagt tcttatccga 420
agaactggtg ggtttactgg caatgtcagc ataacagtta aaactttcgg tgaaagatgt 480
gctcagatgg aaccaaatgc attgcccttt cgtggtatct atgggatttc caacctaaca 540
tgggcagttg aagaagaaga ctttgaagaa caaactctta cccttatatt cctagatgga 600
gaaagagaac gtaaagtatc agttcaaatt ttggatgatg atgagcctga ggggcaggaa 660
ttcttctacg tgtttctcac aaaccctcaa gggggagcac agattgtgga ggggaaggat 720
gatactggat ttgcagcttt tgccatggtt attattacag ggagtgacct tcacaatggc 780
atcataggat tcagtgagga gtcccagagt ggactagaac tcagggaagg agctgttatg 840
agaagattgc accttattgt cacaagacag ccaaacaggg cctttgaaga tgtcaaggtc 900
ttttggcgag tcacacttaa caaaacagtc gtcgtgctcc agaaggatgg ggtaaacctg 960
atggaggaac ttcagtctgt gtcagggacc acaacctgta caatgggtca aacaaaatgc 1020
tttatcagca ttgaactcaa accagaaaag gtaccacagg ttgaagtgta tttttttgtg 1080
gaactatatg aagctactgc tggagcagca ataaacaaca gtgccagatt cgcacagatt 1140
aaaatcttag aaagtgatga atctcaaagc cttgtgtatt tttctgtggg ttctcggctg 1200
gcagtggctc acaagaaggc cactttaatc agtctgcagg tggccagaga ttctgggaca 1260
ggactaatga tgtctgttaa ctttagtacc caggagttga ggagtgctga aacaattggt 1320
cgtaccatca tatctccagc tatttctgga aaggattttg tgataactga aggcacattg 1380
gtctttgaac ctggccagag aagcactgta ttggatgtca tcctaacgcc agagacagga 1440
tctttaaatt catttcctaa acgcttccag attgtccttt ttgacccaaa aggtggtgcc 1500
agaattgata aagtgtatgg gactgccaac atcactcttg tctcagatgc agattcgcag 1560
gccatttggg ggcttgcaga tcagctacat cagcctgtga atgatgatat tctcaacaga 1620
gtgctccata ccatcagcat gaaagtggcc acagaaaaca cagatgaaca actcagtgcc 1680
atgatgcatt taatagaaaa gataactact gaaggaaaaa ttcaagcttt cagtgttgcc 1740
agccgaactc ttttctatga gattctttgt tctcttatta acccaaagcg caaggacact 1800
aggggattca gtcactttgc tgaagtgact gagaattttg ccttttctct gctgactaat 1860
gttacttgcg gctctcctgg tgaaaaaagc aaaaccatcc ttgatagttg cccatatttg 1920
tcaatattgg ctcttcactg gtatcctcag caaatcaatg gacacaagtt tgaaggaaag 1980
gaaggagatt acattcgaat tccagagagg ctactggatg tccaggatgc agaaataatg 2040
gctgggaaaa gtacatgtaa attagtccag tttacagagt atagcagcca acagtggttt 2100
ataagtggaa acaatcttcc taccctaaaa aataaggtat tatctttgag tgtgaaaggt 2160
cagagttcac aactcctgac taatgacaat gaggttctct acaggattta tgctgctgag 2220
cctagaatta ttcctcagac atctctgtgt ctcctttgga atcaggctgc tgcaagctgg 2280
ttgtctgaca gtcagttttg caaagtgatt gaggaaactg cagactatgt ggaatgtgcc 2340
tgttcacaca tgtctgtgta tgctgtctat gctcggactg acaacttgtc ttcatacaat 2400
gaagccttct tcacttctgg atttatatgt atctcaggtc tttgcttggc tgttctttcc 2460
catatcttct gtgccaggta ctccatgttt gcagctaaac ttctgactca catgatggca 2520
gccagcttag gtacacagat tctgtttctg gcgtctgcat acgcaagtcc ccaactcgct 2580
gaggagagct gttcagctat ggctgctgtc acacattacc tgtatctttg ccagtttagc 2640
tggatgctca ttcagtctgt gaatttctgg tacgtgctgg tgatgaatga tgagcacaca 2700
gagaggcgat atctgctgtt tttccttctg agttggggac taccagcttt tgtggtgatt 2760
ctcctcatag ttattttgaa aggaatctat catcagagca tgtcacagat ctatggactc 2820
attcatggtg acctgtgttt tattccaaac gtctatgctg ctttgttcac tgcagctctt 2880
gttcctttga cgtgcctcgt ggtggtgttc gtggtgttca tccatgccta ccaggtgaag 2940
ccacagtgga aagcatatga tgatgtcttc agaggaagga caaatgctgc agaaattcca 3000
ctgattttat atctctttgc tctgatttcc gtgacatggc tttggggagg actacacatg 3060
gcctacagac acttctggat gttggttctc tttgtcattt tcaacagtct gcagggactt 3120
tatgttttca tggtttattt cattttacac aaccaaatgt gttgccctat gaaggccagt 3180
tacactgtgg aaatgaatgg gcatcctgga cccagcacag cctttttcac gcccgggagt 3240
ggaatgcctc ctgctggagg ggaaatcagc aagtccaccc agaatctcat cggtgctatg 3300
gaggaggtgc cacctgactg ggagagagca tccttccaac agggcagtca ggccagccct 3360
gatttaaagc caagtccaca aaatggagcc acgttcccgt cctctggagg atatggccag 3420
gggtcactga tagccgatga ggagtcccag gagtttgatg atttaatatt tgcattaaaa 3480
actggtgctg gtctcagtgt cagtgataat gaatctggtc aaggcagcca ggaggggggc 3540
accttgactg actcccagat cgtggagctc aggaggatac ccatcgccga cactcacctg 3600
tagcacctca ctaaccattc gactgagcac actttcatat ttgtatcagc ttttgtgcta 3660
aaactctcta agtacatcca cctgtgtaat aggaacctgt gaattgtact ggatgattaa 3720
tacaaacgtg attgttgtat ttggagtata aattactgat tgtatgtgac ctgaaaattc 3780
actgctataa gaaaggtgga gtcagtttgt atcagttaat aggatgttca tattccaagg 3840
atattagttg tttttttaat catcctatat ggctaacatt gtttaatgaa agtaataatc 3900
aataaagcaa tagaatct 3918
<210> 4
<211> 2705
<212> DNA
<213> 人(Homo sapiens)
<400> 4
tgctcgctcc agggcgcaac catgtcgcca tttcttcgga ttggcttgtc caactttgac 60
tgcgggtcct gccagtcttg tcagggcgag gctgttaacc cttactgtgc tgtgctcgtc 120
aaagagtatg tcgaatcaga gaacgggcag atgtatatcc agaaaaagcc taccatgtac 180
ccaccctggg acagcacttt tgatgcccat atcaacaagg gaagagtcat gcagatcatt 240
gtgaaaggca aaaacgtgga cctcatctct gaaaccaccg tggagctcta ctcgctggct 300
gagaggtgca ggaagaacaa cgggaagaca gaaatatggt tagagctgaa acctcaaggc 360
cgaatgctaa tgaatgcaag atactttctg gaaatgagtg acacaaagga catgaatgaa 420
tttgagacgg aaggcttctt tgctttgcat cagcgccggg gtgccatcaa gcaggcaaag 480
gtccaccacg tcaagtgcca cgagttcact gccaccttct tcccacagcc cacattttgc 540
tctgtctgcc acgagtttgt ctggggcctg aacaaacagg gctaccagtg ccgacaatgc 600
aatgcagcaa ttcacaagaa gtgtattgat aaagttatag caaagtgcac aggatcagct 660
atcaatagcc gagaaaccat gttccacaag gagagattca aaattgacat gccacacaga 720
tttaaagtct acaattacaa gagcccgacc ttctgtgaac actgtgggac cctgctgtgg 780
ggactggcac ggcaaggact caagtgtgat gcatgtggca tgaatgtgca tcatagatgc 840
cagacaaagg tggccaacct ttgtggcata aaccagaagc taatggctga agcgctggcc 900
atgattgaga gcactcaaca ggctcgctgc ttaagagata ctgaacagat cttcagagaa 960
ggtccggttg aaattggtct cccatgctcc atcaaaaatg aagcaaggcc gccatgttta 1020
ccgacaccgg gaaaaagaga gcctcagggc atttcctggg agtctccgtt ggatgaggtg 1080
gataaaatgt gccatcttcc agaacctgaa ctgaacaaag aaagaccatc tctgcagatt 1140
aaactaaaaa ttgaggattt tatcttgcac aaaatgttgg ggaaaggaag ttttggcaag 1200
gtcttcctgg cagaattcaa gaaaaccaat caatttttcg caataaaggc cttaaagaaa 1260
gatgtggtct tgatggacga tgatgttgag tgcacgatgg tagagaagag agttctttcc 1320
ttggcctggg agcatccgtt tctgacgcac atgttttgta cattccagac caaggaaaac 1380
ctcttttttg tgatggagta cctcaacgga ggggacttaa tgtaccacat ccaaagctgc 1440
cacaagttcg acctttccag agcgacgttt tatgctgctg aaatcattct tggtctgcag 1500
ttccttcatt ccaaaggaat agtctacagg gacctgaagc tagataacat cctgttagac 1560
aaagatggac atatcaagat cgcggatttt ggaatgtgca aggagaacat gttaggagat 1620
gccaagacga ataccttctg tgggacacct gactacatcg ccccagagat cttgctgggt 1680
cagaaataca accactctgt ggactggtgg tccttcgggg ttctccttta tgaaatgctg 1740
attggtcagt cgcctttcca cgggcaggat gaggaggagc tcttccactc catccgcatg 1800
gacaatccct tttacccacg gtggctggag aaggaagcaa aggaccttct ggtgaagctc 1860
ttcgtgcgag aacctgagaa gaggctgggc gtgaggggag acatccgcca gcaccctttg 1920
tttcgggaga tcaactggga ggaacttgaa cggaaggaga ttgacccacc gttccggccg 1980
aaagtgaaat caccatttga ctgcagcaat ttcgacaaag aattcttaaa cgagaagccc 2040
cggctgtcat ttgccgacag agcactgatc aacagcatgg accagaatat gttcaggaac 2100
ttttccttca tgaaccccgg gatggagcgg ctgatatcct gaatcttgcc cctccagaga 2160
caggaaagaa tttgccttct ccctgggaac tggttcaaga gacactgctt gggttccttt 2220
ttcaacttgg aaaaagaaag aaacactcaa caataaagac tgagacccgt tcgcccccat 2280
gtgactttat ctgtagcaga aaccaagtct acttcactaa tgacgatgcc gtgtgtctcg 2340
tctcctgaca tgtctcacag acgctcctga agttaggtca ttactaacca tagttattta 2400
cttgaaagat gggtctccgc acttggaaag gtttcaagac ttgatactgc aataaattat 2460
ggctcttcac ctgggcgcca actgctgatc aacgaaatgc ttgttgaatc aggggcaaac 2520
ggagtacaga cgtctcaaga ctgaaacggc cccattgcct ggtctagtag cggatctcac 2580
tcagccgcag acaagtaatc actaacccgt tttattctat cctatctgtg gatgtataaa 2640
tgctgggggc cagccctgga taggttttta tgggaattct ttacaataaa catagcttgt 2700
acttg 2705
<210> 5
<211> 1578
<212> DNA
<213> 人(Homo sapiens)
<400> 5
agtgtggtac tttgtcttga ggagatgtcc tggactcaca cggaaactta gggctacgga 60
atgaagttct cactcccatt aggtgacagg tttttagaga agccaatcag cgtcgccgcg 120
gtcctggttc taaagtcctc gctcacccac ccggactcat tctccccaga cgccaaggat 180
ggtggtcatg gcgccccgaa ccctcttcct gctgctctcg ggggccctga ccctgaccga 240
gacctgggcg ggctcccact ccatgaggta tttcagcgcc gccgtgtccc ggcccggccg 300
cggggagccc cgcttcatcg ccatgggcta cgtggacgac acgcagttcg tgcggttcga 360
cagcgactcg gcgtgtccga ggatggagcc gcgggcgccg tgggtggagc aggaggggcc 420
ggagtattgg gaagaggaga cacggaacac caaggcccac gcacagactg acagaatgaa 480
cctgcagacc ctgcgcggct actacaacca gagcgaggcc agttctcaca ccctccagtg 540
gatgattggc tgcgacctgg ggtccgacgg acgcctcctc cgcgggtatg aacagtatgc 600
ctacgatggc aaggattacc tcgccctgaa cgaggacctg cgctcctgga ccgcagcgga 660
cactgcggct cagatctcca agcgcaagtg tgaggcggcc aatgtggctg aacaaaggag 720
agcctacctg gagggcacgt gcgtggagtg gctccacaga tacctggaga acgggaagga 780
gatgctgcag cgcgcggacc cccccaagac acacgtgacc caccaccctg tctttgacta 840
tgaggccacc ctgaggtgct gggccctggg cttctaccct gcggagatca tactgacctg 900
gcagcgggat ggggaggacc agacccagga cgtggagctc gtggagacca ggcctgcagg 960
ggatggaacc ttccagaagt gggcagctgt ggtggtgcct tctggagagg agcagagata 1020
cacgtgccat gtgcagcatg aggggctgcc ggagcccctc atgctgagat ggaagcagtc 1080
ttccctgccc accatcccca tcatgggtat cgttgctggc ctggttgtcc ttgcagctgt 1140
agtcactgga gctgcggtcg ctgctgtgct gtggagaaag aagagctcag attgaaaagg 1200
agggagctac tctcaggctg caatgtgaaa cagctgccct gtgtgggact gagtggcaag 1260
tccctttgtg acttcaagaa ccctgactcc tctttgtgca gagaccagcc cacccctgtg 1320
cccaccatga ccctcttcct catgctgaac tgcattcctt ccccaatcac ctttcctgtt 1380
ccagaaaagg ggctgggatg tctccgtctc tgtctcaaat ttgtggtcca ctgagctata 1440
acttacttct gtattaaaat tagaatctga gtataaattt actttttcaa attatttcca 1500
agagagattg atgggttaat taaaggagaa gattcctgaa atttgagaga caaaataaat 1560
ggaagacatg agaacttt 1578
<210> 6
<211> 4553
<212> DNA
<213> 人(Homo sapiens)
<400> 6
acgcgtctgc ggccagcccg gactctttaa aagccggcgg tgcgcggggc atcccagcca 60
agccggagag gaggcgagca gcagggcctg gtggcgagag cgcggctgtc actgcgcccg 120
agcatcccag agctttccga gcggacgagc cggccgtgcc gggcatcccc agcctcgcta 180
ccctcgcagc acacgtcgag ccccgcacag gcgagggtcc ggaacttagc ccaaagcacg 240
tttcccctgg cagcgcagga aacgcccggc cgcgcgccgg cgcacgcccc cctctcctcc 300
tttgttccgg gggtcggcgg ccgctctcct gccagcgtcg ggatctcggc cccgggaggc 360
gggccgtcgg gcgcagccgc gaagatgccg ttggaactga cgcagagccg agtgcagaag 420
atctgggtgc ccgtggacca caggccctcg ttgcccagat cctgtgggcc aaagctgacc 480
aactccccca ccgtcatcgt catggtgggc ctccccgccc ggggcaagac ctacatctcc 540
aagaagctga ctcgctacct caactggatt ggcgtcccca caaaagtgtt caacgtcggg 600
gagtatcgcc gggaggctgt gaagcagtac agctcctaca acttcttccg ccccgacaat 660
gaggaagcca tgaaagtccg gaagcaatgt gccttagctg ccttgagaga tgtcaaaagc 720
tacctggcga aagaaggggg acaaattgcg gttttcgatg ccaccaatac tactagagag 780
aggagacaca tgatccttca ttttgccaaa gaaaatgact ttaaggcgtt tttcatcgag 840
tcggtgtgcg acgaccctac agttgtggcc tccaatatca tggaagttaa aatctccagc 900
ccggattaca aagactgcaa ctcggcagaa gccatggacg acttcatgaa gaggatcagt 960
tgctatgaag ccagctacca gcccctcgac cccgacaaat gcgacaggga cttgtcgctg 1020
atcaaggtga ttgacgtggg ccggaggttc ctggtgaacc gggtgcagga ccacatccag 1080
agccgcatcg tgtactacct gatgaacatc cacgtgcagc cgcgtaccat ctacctgtgc 1140
cggcacggcg agaacgagca caacctccag ggccgcatcg ggggcgactc aggcctgtcc 1200
agccggggca agaagtttgc cagtgctctg agcaagttcg tggaggagca gaacctgaag 1260
gacctgcgcg tgtggaccag ccagctgaag agcaccatcc agacggccga ggcgctgcgg 1320
ctgccctacg agcagtggaa ggcgctcaat gagatcgacg cgggcgtctg tgaggagctg 1380
acctacgagg agatcaggga cacctaccct gaggagtatg cgctgcggga gcaggacaag 1440
tactattacc gctaccccac cggggagtcc taccaggacc tggtccagcg cttggagcca 1500
gtgatcatgg agctggagcg gcaggagaat gtgctggtca tctgccacca ggccgtcctg 1560
cgctgcctgc ttgcctactt cctggataag agtgcagagg agatgcccta cctgaaatgc 1620
cctcttcaca ccgtcctgaa actgacgcct gtcgcttatg gctgccgtgt ggaatccatc 1680
tacctgaacg tggagtccgt ctgcacacac cgggagaggt cagaggatgc aaagaaggga 1740
cctaacccgc tcatgagacg caatagtgtc accccgctag ccagccccga acccaccaaa 1800
aagcctcgca tcaacagctt tgaggagcat gtggcctcca cctcggccgc cctgcccagc 1860
tgcctgcccc cggaggtgcc cacgcagctg cctggacaaa acatgaaagg ctcccggagc 1920
agcgctgact cctccaggaa acactgaggc agacgtgtcg gttccattcc atttccattt 1980
ctgcagctta gcttgtgtcc tgccctccgc ccgaggcaaa acgtatcctg aggacttctt 2040
ccggagaggg tggggtggag cagcggggga gccttggccg aagagaacca tgcttggcac 2100
cgtctgtgtc ccctcggccg ctggacacca gaaagccacg tgggtccctg gcgccctgcc 2160
tttagccgtg gggcccccac ctccactctc tgggtttcct aggaatgtcc agcctcggag 2220
accttcacaa agccttggga gggtgatgag tgctggtcct gacaggaggc cgctggggac 2280
actgtgctgt tttgtttcgt ttctgtgatc tcccggcacg tttggagctg ggaagaccac 2340
actggtggca gaatcctaaa attaaaggag gcaggctcct agttgctgaa agttaaggaa 2400
tgtgtaaaac ctccacgtga ctgtttggtg catcttgacc tgggaagacg cctcatggga 2460
acgaacttgg acaggtgttg ggttgaggcc tcttctgcag gaagtccctg agctgagacg 2520
caagttggct gggtggtccg caccctggct ctcctgcagg tccacacacc ttccaggcct 2580
gtggcctgcc tccaaagatg tgcaagggca ggctggctgc acggggagag ggaagtattt 2640
tgccgaaata tgagaactgg ggcctcctgc tcccagggag ctccagggcc cctctctcct 2700
cccacctgga cttgggggga actgagaaac actttcctgg agctgctggc ttttgcactt 2760
ttttgatggc agaagtgtga cctgagagtc ccaccttctc ttcaggaacg tagatgttgg 2820
ggtgtcttgc cctggggggc ttggaacctc tgaaggtggg gagcggaaca cctggcatcc 2880
ttccccagca cttgcattac cgtccctgct cttcccaggt ggggacagtg gcccaagcaa 2940
ggcctcactc gcagccactt cttcaagagc tgcctgcaca ctgtcttgga gcatctgcct 3000
tgtgcctggc actctgccgg tgccttggga aggtcggaag agtggacttt gtcctggcct 3060
tcccttcatg gcgtctatga cacttttgtg gtgatggaaa gcatgggacc tgtcgtctca 3120
gcctgttggt ttctcctcat tgcctcaaac cctggggtag gtgggacggg gggtctcgtg 3180
cccagatgaa accatttgga aactcggcag cagagtttgt ccaaatgacc cttttcagga 3240
tgtctcaaag cttgtgccaa aggtcacttt tctttcctgc cttctgctgt gagccctgag 3300
atcctcctcc cagctcaagg gacaggtcct gggtgagggt gggagattta gacacctgaa 3360
actgggcgtg gagagaagag ccgttgctgt ttgttttttg ggaagagctt ttaaagaatg 3420
catgtttttt tcctggttgg aattgagtag gaactgaggc tgtgcttcag gtatggtaca 3480
atcaagtggg ggattttcat gctgaaccat tcaagccctc cccgcccgtt gcacccactt 3540
tggctggcgt ctgctggaga ggatgtctct gtccgcattc ccgtgcagct ccaggctcgc 3600
gcagttttct ctctctccct ggatgttgag tctcatcaga atatgtgggt agggggtgga 3660
cgtgcacggg tgcatgattg tgcttaactt ggttgtattt ttcgatttga catggaaggc 3720
ctgttgcttt gctcttgaga atagtttctc gtgtccccct cgcaggcctc attctttgaa 3780
catcgactct gaagtttgat acagataggg gcttgatagc tgtggtcccc tctcccctct 3840
gactacctaa aatcaatacc taaatacaga agccttggtc taacacggga cttttagttt 3900
gcgaagggcc tagataggga gagaggtaac atgaatctgg acagggaggg agatactata 3960
gaaaggagaa cactgcctac tttgcaagcc agtgacctgc cttttgaggg gacattggac 4020
gggggccggg ggcgggggtt gggtttgagc tacagtcatg aacttttggc gtctactgat 4080
tcctccaact ctccacccca caaaataacg gggaccaata tttttaactt tgcctatttg 4140
tttttgggtg agtttccccc ctccttattc tgtcctgaga ccacgggcaa agctcttcat 4200
tttgagagag aagaaaaact gtttggaacc acaccaatga tatttttctt tgtaatactt 4260
gaaatttatt tttttattat tttgatagca gatgtgctat ttatttattt aatatgtata 4320
aggagcctaa acaatagaaa gctgtagaga ttgggtttca ttgttaattg gtttgggagc 4380
ctcctatgtg tgacttatga cttctctgtg ttctgtgtat ttgtctgaat taatgacctg 4440
ggatataaag ctatgctagc tttcaaacag gagatgcctt tcagaaattt gtatattttg 4500
cagttgccag accaataaaa tacctggttg aaatacatgg acgaagtaaa aaa 4553
<210> 7
<211> 1773
<212> DNA
<213> 人(Homo sapiens)
<400> 7
ggaaaacagc agaggtgaca gagcagccgt gctcgaagcg ttcctggagc ccaagctctc 60
ctccacaggt gaagacaggg ccagcaggag acaccatggg gcacctctca gccccacttc 120
acagagtgcg tgtaccctgg caggggcttc tgctcacagc ctcacttcta accttctgga 180
acccgcccac cactgcccag ctcactactg aatccatgcc attcaatgtt gcagagggga 240
aggaggttct tctccttgtc cacaatctgc cccagcaact ttttggctac agctggtaca 300
aaggggaaag agtggatggc aaccgtcaaa ttgtaggata tgcaatagga actcaacaag 360
ctaccccagg gcccgcaaac agcggtcgag agacaatata ccccaatgca tccctgctga 420
tccagaacgt cacccagaat gacacaggat tctacaccct acaagtcata aagtcagatc 480
ttgtgaatga agaagcaact ggacagttcc atgtataccc ggagctgccc aagccctcca 540
tctccagcaa caactccaac cctgtggagg acaaggatgc tgtggccttc acctgtgaac 600
ctgagactca ggacacaacc tacctgtggt ggataaacaa tcagagcctc ccggtcagtc 660
ccaggctgca gctgtccaat ggcaacagga ccctcactct actcagtgtc acaaggaatg 720
acacaggacc ctatgagtgt gaaatacaga acccagtgag tgcgaaccgc agtgacccag 780
tcaccttgaa tgtcacctat ggcccggaca cccccaccat ttccccttca gacacctatt 840
accgtccagg ggcaaacctc agcctctcct gctatgcagc ctctaaccca cctgcacagt 900
actcctggct tatcaatgga acattccagc aaagcacaca agagctcttt atccctaaca 960
tcactgtgaa taatagtgga tcctatacct gccacgccaa taactcagtc actggctgca 1020
acaggaccac agtcaagacg atcatagtca ctgagctaag tccagtagta gcaaagcccc 1080
aaatcaaagc cagcaagacc acagtcacag gagataagga ctctgtgaac ctgacctgct 1140
ccacaaatga cactggaatc tccatccgtt ggttcttcaa aaaccagagt ctcccgtcct 1200
cggagaggat gaagctgtcc cagggcaaca ccaccctcag cataaaccct gtcaagaggg 1260
aggatgctgg gacgtattgg tgtgaggtct tcaacccaat cagtaagaac caaagcgacc 1320
ccatcatgct gaacgtaaac tgtaagtgac tcctcacccc ttcctatatg tccctctagg 1380
attactctgt caatggtgtg caaaatggat aaaactcaca ggaggcagaa tatcaatgaa 1440
gagaccatta tagcaaacag aattgcaaag tggttaagag ctcagctcag gccgggcaca 1500
gtggctcacg cctgtgatcc cagcagtttg ggaggccaag gcgggcggat cacgagggca 1560
ggagatcgag gccatcctgg ctaatatggt gaaaccccgt gtctactaga aatacaaaaa 1620
aaaattagcc gggcatggtg gcgggcgcct gtggtcccag ctactcggga ggctgaggcg 1680
ggagaatggc gtgaacctgg gaggcggagc tttcagtgag ccgagatggt gccactgcac 1740
tccagtctgg gcaacagggc aagactctgt ctc 1773
<210> 8
<211> 1956
<212> DNA
<213> 人(Homo sapiens)
<400> 8
gtgatgtgtt taccttcagt gtctccttgg aggtaaaaga agacgatgga aaaggaaact 60
ttagccctgt gcctaggata gagataaatt ttatttcaaa ttaaagcaag gaatagagaa 120
gaaggttgtg attacagtgc agcaactttc taacaaagaa ttagctattg aaagatgttt 180
tggaatgtta ttaagcccag gtcgaaacgt gaagaacagt gacatgcatt tactggatat 240
ggaatccatg ggaaagagct atgatgggag agcttatgtc atcactggca tgtggaaccc 300
caatgcacca gtatttctgg cacttaacga ggaaacccca aaagataagc aagtatacat 360
gactgtggca gtggatatgg tagtcacaga ggtggtggag cctgttcgct ttctcctgga 420
gacagtagtc cgtgtgtacc ctgcaaatga gcgattttgg tatttcagca gaaagacttt 480
cacagagact ttcttcatga gattgaaaca gtctgaggga aaaggccata ccaatgctgg 540
agatgcaata tatgaggtgg tgagtctaca gcgagagtct gacaaggagg aaccagtcac 600
tcctactagt ggagggggtc caatgtcacc ccaggatgat gaagcagaag aggagagtga 660
taatgaactc tcaagtggaa caggtgatgt gtctaaggat tgtcctgaga agatcctgta 720
ttcttgggga gagttgctag gaaaatggca cagtaacctt ggtgcacgac cgaaagggct 780
gtctactctg gtgaagagtg gtgtccctga agcattgagg gcagaggtat ggcagttatt 840
ggcaggctgc catgacaacc aggcaatgct ggatagatac cgaattctta tcacaaaggt 900
ctgttggagt ttgctggagg tccactccag accctgtttg cctgggtatc accagtggaa 960
gctgcagaac agcaaatatt gcagaatggc aaatgttgct gcctgatcct tcctctggaa 1020
gcttcatctc agaagggcac ctggctgtat gaggtgtcgg ttggcccctc ctgggaggtg 1080
tctcccaatt agactactca ggtgtcaggg acccacttga ggaggcagtc tgtccattct 1140
caggtcccaa actacatgct gggagaacca ctactctctt caaagctgtc agacagggac 1200
atttaagtct gcagaagttt ctgctgccgt ttgttcaact atgccctgcc cccagtactg 1260
gagtccagga aggcaggcag gcctccttga gctttggtgg gctccaccca gttcagtctt 1320
cccggctgct ttgtttacct actcaagctt cagcaatggc ggatgcccct ccctcagcct 1380
tgctgacact tgcggcttga tctcagactg ctgtgttagc agtgagtgag gctccgtggg 1440
tgtgggactc tccgagccag gtgcgggata taatctcctg gtgttccgtt tgctaagacc 1500
attggaaaag cgcagtatta gggtgggagg gtcccgattt tccaggtact atctgtcatg 1560
gcttcccttg gctaggaaag ggaattcccc aaccccttgc acttcccagg tgaggcaatg 1620
ccccacgctg ctccttgggc tgcacccact gtgtgacaag ccccagtgag atgaacccgg 1680
tacctctgtt ggaaatgcag aaatcacctg tcttctgcgt cgctcacgct gggagctgta 1740
gactggagct gttccttttt ggccatcttg gaacctcggt tcaaacctga gttgtaatac 1800
tcactcttcc tgttgctgcc tatgtaattt tgtagaagtt acctaattgc ttccaagctt 1860
ctgttggatt ttttgagaac tgaatgacat agtacatttt gagtgcttaa tgtattgctt 1920
tgtgcatggt attatttaat aaatattagc tttggt 1956
<210> 9
<211> 873
<212> DNA
<213> 人(Homo sapiens)
<400> 9
atgaggatat ttgctgtctt tatattcatg acctactggc atttgctgaa cgcatttact 60
gtcacggttc ccaaggacct atatgtggta gagtatggta gcaatatgac aattgaatgc 120
aaattcccag tagaaaaaca attagacctg gctgcactaa ttgtctattg ggaaatggag 180
gataagaaca ttattcaatt tgtgcatgga gaggaagacc tgaaggttca gcatagtagc 240
tacagacaga gggcccggct gttgaaggac cagctctccc tgggaaatgc tgcacttcag 300
atcacagatg tgaaattgca ggatgcaggg gtgtaccgct gcatgatcag ctatggtggt 360
gccgactaca agcgaattac tgtgaaagtc aatgccccat acaacaaaat caaccaaaga 420
attttggttg tggatccagt cacctctgaa catgaactga catgtcaggc tgagggctac 480
cccaaggccg aagtcatctg gacaagcagt gaccatcaag tcctgagtgg taagaccacc 540
accaccaatt ccaagagaga ggagaagctt ttcaatgtga ccagcacact gagaatcaac 600
acaacaacta atgagatttt ctactgcact tttaggagat tagatcctga ggaaaaccat 660
acagctgaat tggtcatccc agaactacct ctggcacatc ctccaaatga aaggactcac 720
ttggtaattc tgggagccat cttattatgc cttggtgtag cactgacatt catcttccgt 780
ttaagaaaag ggagaatgat ggatgtgaaa aaatgtggca tccaagatac aaactcaaag 840
aagcaaagtg atacacattt ggaggagacg taa 873
<210> 10
<211> 1264
<212> DNA
<213> 人(Homo sapiens)
<400> 10
ggagggagca gtcggtcgct gcgccccggc gggccacttt cccgggaccc cgctcgtctt 60
ccttgggccg agattttcca ctgcgcccct ccgagtaccc gggttccaaa cccctagcca 120
cgacatggaa gaatttttgc aacgcgccaa atctaaactg aatcgaagca aacgcttgga 180
gaaggtccat gtggttattg ggcctaaatc gtgtgacttg gattctctca tttctacctt 240
cacatatgct tactttctag acaaggtcag tccaccaggg gttctgtgtt taccagtgct 300
gaacatacca agaactgaat tcaactactt caccgagacg aggtttattt tagaagagct 360
aaatatttcc gaatcattcc acatattccg ggatgaaatt aacctgcatc agctaaatga 420
tgaagggaag ttatcgataa cacttgttgg cagcagtgtg ctggcgagtg aagacaaaac 480
tttagaatca gcagttgtca aagtcattaa tccggttgag cagagcgatg ccaacgttga 540
gttccgagag tcttcctctt ctctcgtgct aaaggagatt ctccaagagg ctcctgagct 600
catcaccgag caactggctc atcgcctcag aggtagcatt cttttcaagt ggatgaccat 660
ggaatcagag aagatctcag agaagcagga ggaaattctt tctatcctgg aagaaaaatt 720
tcctaacttg cctccaagag aggacatcat caacgtccta caggagaccc agttcagtgc 780
tcagggttta agtattgaac agacaatgtt gaaagatcta aaggagctgt cagatggaga 840
aataaaagtg gccattagta ctgtgagcat gaaccttgag gtaagggtgg gaatgctttt 900
ttagcattga ttgatttccc acaattgcag tctgagcaac tggaatgtaa ctctctccat 960
tggataagtc catgatagtc ctttgcttct ttgtgataca tttgacttgg aatatagtgg 1020
caggttatta tttgggtgaa aacactatgc taagtcaatg aaaaatgcca aacctggatt 1080
ctcaagatga atgctctttc attcatctca gtaaaacaaa gcctaaaaca aacactcaga 1140
tgtgggtgta tatttaacct gtttaatagc aattatgata tgtgtgatta ggttcacttc 1200
catattttct gtgtaccacc ctgtattgtt catagaactt ttcttaaaaa aaaaaaaaaa 1260
aaaa 1264
<210> 11
<211> 2592
<212> DNA
<213> 人(Homo sapiens)
<400> 11
atggatgcta gcatttggag caatgaactc atcgagcttt ttattgtcat tggaaacaaa 60
agagcaaatg acttttgggc tggtaatctt caaaaggatg aagaattaca tatggactca 120
ccagtagaaa agagaaaaaa ctttattact cagaaatata aagaaggaaa attcagaaaa 180
actcttttgg catctctcac caaagaagaa ttaaataagg ctctatgtgc tgctgtagtg 240
aaaccggatg ttctagaaac aatggctttg ctgttcagtg gagcagatgt catgtgtgcc 300
accggagacc ccgtgcatag caccccctat ctgctagcca agaaagctgg gcaaagtctg 360
caaatggaat ttctctacca taacaaattc tcagatttcc ctcaacatga tattcattcc 420
gagggtgtat taagtcaaga gtcttcccag tccacattcc tctgtgactt tttatatcaa 480
gctccttctg ctgcttctaa actctcttca gagaaaaaac tgcttgaaga gacaaataaa 540
aaatggtgtg ttttggaagg aggcttcttg agttactatg aaaatgataa gtctaccaca 600
cctaatggca ccattaatat caatgaagtt atctgcctgg ctatacacaa agaggacttc 660
tatttaaata ctgggcccat ctttatcttt gagatctact taccctccga acgtgtgttt 720
ttatttggag ctgaaacatc tcaagctcaa agaaaatgga cagaggcaat agccaagcat 780
tttgttccct tatttgctga aaacttaaca gaagctgact atgatttgat tggtcaactc 840
ttctacaaag actgccatgc cctggatcag tggagaaaag gctggtttgc tatggacaaa 900
tccagcttgc atttttgcct tcaaatgcaa gaagttcagg gagatagaat gcacttaaga 960
agactgcaag agctaacaat cagcacaatg gttcaaaatg gggaaaaact ggatgtttta 1020
ctcttggtag aaaaagggag aacattatac atccatgggc ataccaagtt ggatttcaca 1080
gtctggcata ctgcaattga aaaagcagca ggtacagatg gtaatgcttt acaagatcag 1140
cagctcagca aaaatgacgt tcccattata gtgaacagct gtatagcatt tgttacacag 1200
tatggtttag gatgcaaata tatctatcaa aagaatggtg atcctttgca tataagtgaa 1260
ctcctggaga gtttcaaaaa ggatgcaaga agctttaaat tgagggctgg aaaacatcag 1320
cttgaagatg tgacggctgt gttgaaaagt tttctctctg acattgatga tgcactgctt 1380
actaaggagc tctacccata ttggatctct gctttagata cgcaagatga caaggaaaga 1440
attaaaaaat atggagcatt tatacgttct cttccagggg tcaaccgagc aacactagca 1500
gctatcattg aacacctgta tagggttcag aaatgctcag aaatcaatca catgaatgcc 1560
cataatttgg ccttggtctt ttcatcctgt ttgtttcaaa cgaagggaca aactagtgaa 1620
gaagtgaatg taattgagga cctaattaat aattatgtag aaatatttga ggttaaagaa 1680
gatcaagtca aacaaatgga catagaaaat agctttatta ccaagtggaa agacacccaa 1740
gtttcccagg ctggagattt gttaattgaa gtatatgtag aaaggaagga acccgactgt 1800
agtattataa ttcggatatc tcctgtgatg gaagcagaag aattaactaa tgatatatta 1860
gcgataaaaa atattattcc tacaaaaggt gatatttggg ccacatttga agtcattgaa 1920
aatgaagagc tagagcgtcc tcttcactac aaggaaaatg tactggagca ggtgcttcgg 1980
tggagttcat tagctgaacc tggctctgct tacctggtgg tgaagagatt cttaaccgct 2040
gacacaatta aacactgcag tgaccggagt acactgggaa gcatcaaaga aggaatcttg 2100
aaaatcaaag aagaaccatc caaaatacta tctggaaata agtttcaaga ccggtatttt 2160
gttttacgag atgggtttct ctttctttac aaggatgtga agagtagtaa acatgacaag 2220
atgttttctc tcagttccat gaagttttat cgtggagtga aaaagaaaat gaagcctcca 2280
acaagctggg gattgaccgc atattctgag aaacatcact ggcacctgtg ttgtgatagt 2340
tcacgaactc agacggagtg gatgaccagt atctttattg cccagcatga atatgatata 2400
tggccaccag ctggaaagga acgaaaacgt tcaataacca aaaatcccaa aattggaggt 2460
ttgcctctga ttcctataca gcatgagggg aatgcaacct tggcccggaa aatattgaga 2520
gtgcaagagc agaacttgaa aggctgcggc tcagtgaaaa gtgtgataaa gagtccgtgg 2580
actctagctt aa 2592
<210> 12
<211> 4502
<212> DNA
<213> 人(Homo sapiens)
<400> 12
cgagggaaga ggccggaggg agatcgcgga ggggaggggg cgggaggggg gtggggtatc 60
ctgagtcgtc cgtggtccgg agtctggaag gccctagagc ggcgccagtc gacccgcctc 120
gccacaactt gcccagacca gacacgtttc atcctgcgcc ctgcaagaag gagccggcct 180
gcctctctcc gctttgctgc tcctcggcct ccgcgggccc ggcccgcgtc agcagcgacc 240
ctggggtctg ggtcccctgt gtcgcccccg cccgcctgca gcgcccggca cccgcccagg 300
agcgcgcagc tggggttcta gggacgtata cttgagcaag agagaccaca gctcttgttc 360
ccgctgatcc tgcagcccag tggatggagt ccagaatcta cagacctgcc aggaaagaaa 420
aaaaattcct gatgtctggt ccaagcagga attccccggt ggattgggga atgtctggct 480
tttcctcagc ttattgatct ctgtggtaac cactggaggc ccccagaaga cccatagaaa 540
tgagaggcct gaggtctaca agtcgctgct agaaatattt tagcctctcc aaagcccaga 600
atgcagcccc gacccaagtt tgtaagggtt ctgggtgcac gctgaccctg cgcgggcaga 660
cgcgcccttt gctccaggtc cggacctggg cgctgctata gcaacgtcct ggacgcccag 720
accttaggcc gccgccgccg cggaagcgag gaacccggcc ttctcccgct cctgagggct 780
gtggcggcgg cggcccggga ggcggcccag gctgggtaaa gaccgcccgg ctcctcctat 840
gcaagctgag gcagcggatt ggttttcaag catgcccttc cagaagcatg tctactaccc 900
gctcgccagc ggcccagagg ggcccgacgt cgctgtggcc gccgccgccg cgggtgcggc 960
ctccatggcc tgtgcgcccc ccagcgcggc ttcggggccc ctgcccttct tccagttcag 1020
gccgcggctg gagagtgtgg actggcggcg gctgagcgcc atcgacgtgg acaaggtggc 1080
gggggctgtg gacgtgctga cgctgcagga gaacatcatg aacatcacct tctgcaagct 1140
ggaagacgag aagtgcccac actgccagtc gggggtggac ccggtgctgc tgaagctcat 1200
ccgtctggcg cagttcacca tcgagtactt gctgcactca caagagttcc tcacctcgca 1260
gctgcacacc ctggaggagc ggctgcgcct gagccactgc gacggcgagc agagcaagaa 1320
gctgctcacc aagcaggcgg gggagatcaa gacgctcaag gaagagtgca aacgccggaa 1380
gaagatgatc tccacccagc agctgatgat cgaggccaaa gccaactatt accagtgcca 1440
tttttgtgac aaggccttta tgaaccaagc ttttctacaa agtcacattc aacgccgcca 1500
cactgaagaa aattctcatt ttgagtatca gaaaaatgca cagattgaga agctccggag 1560
tgagatcgtc gtattgaagg aagagctgca gctcaccagg tctgagctag aggctgcaca 1620
ccatgccagt gcagtcagat tctccaagga atatgaaatg cagaaaacaa aagaggaaga 1680
ctttttgaag ttatttgaca ggtggaaaga agaagaaaag gagaaactag ttgatgaaat 1740
ggaaaaagtc aaggagatgt ttatgaagga atttaaagaa ttaacttcga agaattcagc 1800
attagaatat caactgtcag aaatccagaa gtccaatatg cagatcaagt ccaacatagg 1860
cacattaaaa gatgcacacg agtttaaaga agaccgttct ccatatcccc aggatttcca 1920
taatgtcatg cagcttcttg atagtcagga aagcaaatgg acagctcgag ttcaagctat 1980
tcatcaagaa cacaagaaag agaagggtcg gctcctgtca catatagaga aacttcgaac 2040
ctcaatgata gatgatctaa atgcaagcaa tgttttctat aagaaaagga tagaagagct 2100
agggcagaga ctccaggagc agaatgagct gattataact cagagacagc agattaaaga 2160
ctttacctgt aatccattaa acagtatcag tgaacccaaa gtgaatgccc cagccctgca 2220
cactttggaa actaaatcaa gtctgccaat ggtgcatgaa caggcattct cgtcgcacat 2280
actggaacca atagaagaac tttcagagga agaaaaagga agggaaaatg aacagaaatt 2340
aaataacaac aaaatgcatt taaggaaagc tttgaagagt aactcctccc tcactaaggg 2400
actaagaaca atggtggagc agaacttgat ggagaaactg gaaaccttgg ggattaatgc 2460
agatatacgt ggcatttcaa gtgatcagtt gcatagagta ctaaaaagtg tggaatcaga 2520
aagacataag caagaaagag aaatacctaa ctttcatcaa attcgagaat tccttgaaca 2580
tcaagtcagc tgtaaaattg aggagaaagc actactctct tcagatcagt gcagtgtttc 2640
tcaaatggat accctttcaa ctggagaagt acccaaaatg atacaacttc cttccaaaaa 2700
cagacaactg attagacaaa aagctgtttc tactgatagg acatctgttc caaaaattaa 2760
gaaaaatgtc atggaagatc cttttcccag aaagtcttca actattacga cccctccttt 2820
tagttcagag gaggagcagg aggacgacga cctcatccgg gcatacgcat ccccaggccc 2880
acttcctgtg ccgccaccac aaaacaaggg cagcttcggg aagaacacag tgaaaagtga 2940
cgcggacggg accgagggaa gcgaaatcga ggacactgat gattctccca agcccgcagg 3000
agtcgccgtt aaaacaccta ctgaaaaagt tgaaaagatg tttccacatc gcaaaaatgt 3060
gaacaaacca gtcggtggaa ctaatgtccc tgagatgttt atcaaaaaag aagaattaca 3120
agaactaaag tgtgcggatg tggaggatga agactgggac atatcatccc tagaggaaga 3180
gatatctttg ggaaaaaaat ctgggaaaga acagaaggaa cctccacctg cgaaaaatga 3240
accacatttt gctcatgtgc taaatgcctg gggcgcattt aatcctaagg ggccaaaggg 3300
agaaggactt caagaaaatg aatcaagcac attaaaaagc agcttagtaa ctgtgactga 3360
ttggagcgac acttcagatg tctaattcca catgtcagaa gattattcca gaagccagca 3420
gtatttcagt atcacagtgt ttcagtaatt tgcctccatg attctagtgc ttctgcctta 3480
ccgtgtttcc cacagcaaca cagagactga ttcaaagaac aatggtctct ttaatggcac 3540
ccaatacagt attgaaaatc agatcatcaa cagtatttcg aagcatgtaa aggtgtttaa 3600
gacttccgct gctgcttaaa aataacatgt cattgaagtc ataaaaagtt ttttcttcag 3660
aaaggtactc tagtgttaag tgtatttttt tcaactaatt ttttagtgaa ttttttttaa 3720
acttacagca tgttttggtt tgaattacta aaactttaaa aaatattttt cttatgtatg 3780
ctgtcgtatc gtaggcgttt atattataaa attctgttag tagtcttaaa attgaattgg 3840
tggaaccact aatccttaaa agttagtctg gttatttttc atatagaagt aagtttaatc 3900
cgagtgtggt ggtgttcacc tttaatccca gctacttggg aggctgaggt gggaggataa 3960
cttgagcaca ggagttcaag accagcgtgg gcaatatagc aagactccac ccctccacac 4020
cccaaaaaag taagtttagg attagaatat agctaggtcc aatgttaaat acattttcct 4080
ggagtacatt tgtcacattc agctttgagc cactgtaagc atgttactat taaatggttg 4140
gttattttat atagcatatt ctttatcttg gatattttat gaataaagta tagttatttt 4200
aagtgccaat taatttatca gactaaatag aaaatatttg agccattact gaattcacat 4260
atgtatgttt ttttttacta tttaaaatac ccaacatgta ttatgaaata cctcaaaagt 4320
aatttagtta cattcttaaa caatgacatt gtcgaaagaa agttcttata agctgttttt 4380
tgcattttta taacttggtt atactatatt ctgtttccaa gtaacctttt aactaaaaga 4440
tttgttgggt tttagatctc ttttcatttg tcaacctttt cagtaaagcc ctctgttaca 4500
tc 4502
<210> 13
<211> 1887
<212> DNA
<213> 人(Homo sapiens)
<400> 13
cggggcgcgg cgggctccct cggggtccca gctggccggc actcggcggc cgcggcgcga 60
tggaggcgcc ggccgagcta ctggccgcgc tgcctgcgct ggccaccgcg ctggcccttc 120
tgctcgcctg gctactggtg cggcgtgggg cggccgcgag cccggagcct gcccgcgcgc 180
ccccggaacc cgcgcccccg gccgaggcca ccggggcccc ggcgccgtcc cgcccctgcg 240
cccccgagcc ggcggcctcg cccgcggggc cggaggagcc tggagagccc gcggggctgg 300
gggagctcgg ggagcctgcg ggaccggggg agcccgaagg gccaggggat cccgcggcgg 360
cgccagcgga ggcggaggag caggcggtgg aggcgaggca ggaagaggag caggacttgg 420
atggtgagaa ggggccatca tcggaagggc ctgaggagga ggacggagaa ggcttctcct 480
tcaaatacag ccccgggaag ctgaggggaa accagtacaa gaagatgatg accaaagagg 540
agctggagga ggagcagaga actgaagaat aacgaagtta tccttagcgt cctcctaaag 600
gcttttcctt ttggcatctt aaaagcttga gagataaaac ggaaacccca gagaggagtc 660
tgggcaggct cccagggtgc atgctgcctc cataaatctg ctgagctcta gaccctcaat 720
caggacttgt cccttggcta gcaggatcct gggaacacct ttggccctgc cctgtgtaga 780
gatgttcatg tctgttcctg tgggtcactt tgttaagctg aagagtttta agaggtagag 840
ctcagaccct ggactgggat ttttcttacc actcaaactt gctatccaca caccctgcac 900
accttagata aaaagaacat tttaaaagca gagttcactt tcactccagt ctcccctctt 960
ttgccctcac tgaagccaaa ccacagaaga ctttgaggaa tgagagacaa atgaggtaga 1020
gctcacctgt gctcaccagc tccgtcaggg tggtcagccg acccctttcc ctgggaaccc 1080
cacttctctc tgtggctggc ttggttgtcg ggggtgagat gccatattga ttacagggca 1140
gcaaagaacc agtaccagga atttacttga ccattcccct tatttttcat ctagaggaat 1200
ctcggattca gccctttcat tgctaagaca ccttttcact gaggttctta ccagctcagc 1260
caaatctcca ctctgctata gcagaagcaa taatgtttgc tttaaaaaga tttcttgacc 1320
tatgcctttt cttagaaagt ttgatagatt agttagaact tcagatcatc agatcagtct 1380
caaatgggtt tcttggaatt ttatatttga caatatttat actataccaa actcatttgc 1440
agttcttagg tttgttggtt aaaacatttt tttaaagcag taagtttata gaaaatgttt 1500
tcatttaatg gaaggctggg gaatgtccag catcaacccc tatggcatgc attcccagtg 1560
gccttctcat ctgggcctgg aacctttggt tcagggctta ggggagaaca ggccacatgg 1620
caacagccac acagtcattg ccttcaacac agagccacgt gtccccaaac agcaatagtc 1680
atgcccttgt ccaggctggg atctaattga tacaataggt cgttgactcc ctcctagtag 1740
agctatctag gtttgtctgg aaagtttccg accctggctt ataggcacca cacctcatgt 1800
actcctcatg gcttggatct ctgtattcag cctttgttca gtccaataaa ctttgagtag 1860
atgatctcaa aaaaaaaaaa aaaaaaa 1887
<210> 14
<211> 2850
<212> DNA
<213> 人(Homo sapiens)
<400> 14
gagaacgggg tagcccggcg cttacacatg tcacatgtgc tttttaagac ggccgggagc 60
gcctgcgagc tggatctggt ggaggatgct gcggcaggtg cttcgcagag ggctccagtc 120
gttctgccac aggctgggtt tgtgcgtgag ccggcacccg gtctttttcc tcaccgtgcc 180
cgcagtcctg acaatcacct tcggcctcag cgcgctcaac cgcttccagc ccgagggcga 240
cctggagcgc ctggtcgctc ccagccacag cctggccaag atcgagcgca gcctggccag 300
cagccttttc cccctggacc agtccaaaag ccagctctat tcggacttac acacccctgg 360
gaggtatggc agggtgatcc tcctctcccc aaccggggac aatattttgc tccaggctga 420
ggggatcctg cagacccacc gagccgtgct ggaaatgaag gatgggagga acagttttat 480
tggacaccaa ctgggcgggg tagtggaagt gccaaacagc aaagatcagc gggtcaagtc 540
agccagagcc attcaaatca cctactacct ccagacctat ggctctgcca cccaagacct 600
cataggggag aagtgggaga atgagttctg taagcttata aggaagctcc aggaggagca 660
tcaagaactc cagctctact ctttagcatc ctttagcctc tggagggact ttcataagac 720
cagcatcctg gccagaagca aggtcctggt gagcctcgtg ctgatcctga ccacagccac 780
cctctccagc tccatgaagg actgcttgcg cagtaagccc ttcctgggcc tcctgggggt 840
gctcacagta tgcatctcca tcatcacagc agcagggatc ttcttcatca ccgatggaaa 900
gtacaactcc accctgctgg gaatcccgtt cttcgccatg ggtcatggaa ctaaaggagt 960
gtttgagctt ctgtccggat ggcggagaac caaagagaac ttgcccttca aagacaggat 1020
agcagatgcc tattctgatg tgatggtcac ctataccatg accagctccc tgtacttcat 1080
cacttttggc atgggtgcca gcccattcac aaacatagag gctgtgaagg tcttctgtca 1140
aaacatgtgt gtctctattc tgttgaacta cttctacatt ttctccttct ttggctcctg 1200
tctggtcttt gctggccaac tagagcaaaa ccgctaccac agcatctttt gctgtaagat 1260
cccttctgca gaatacctgg atcgcaaacc tgtgtggttc cagacagtga tgagtgatgg 1320
gcatcaacag acgtcccatc atgagacgaa cccctaccag caccacttca ttcagcactt 1380
cctccgtgaa cattataatg aatggattac caatatatat gtgaagccat ttgttgtcat 1440
cctctatctc atttatgcct ccttctcctt catggggtgc ttacagatca gtgacggagc 1500
caacatcatc aatctactag ccagtgattc gccaagtgtt tcctatgcca tggttcagca 1560
gaaatatttc agcaactata gccctgtgat aggattctac gtctatgagc ccctagagta 1620
ctggaacagc agcgtccagg atgacctaag aagactctgt agtggattca ctgcagtgtc 1680
ctgggtggag cagtactacc agttcctgaa agtcagcaac gtcagtgcca ataacaaaag 1740
tgacttcatc agtgtcctgc aaagctcatt tttaaaaaag ccagaattcc agcattttcg 1800
aaatgatatc atcttctcca aggcagggga tgaaagcaat atcattgctt ctcgcttgta 1860
tctggtggcc aggactagca gagacaagca gaaagaaatc acagaagtgt tggaaaagct 1920
gaggccccta tccctctcaa agagcatccg attcatcgtg ttcaacccct cctttgtctt 1980
catggaccat tacagcttgt ctgtcacagt gcctgttctg attgcaggct ttggtgttct 2040
cctggtgtta atcctgactt ttttcctagt gatccaccct ctgggaaact tctggctaat 2100
tcttagcgtc acctcaattg agctgggcgt tctgggctta atgacattat ggaacgtcga 2160
catggattgc atttctatct tgtgccttat ctacaccttg aatttcgcca ttgaccactg 2220
tgcaccactg cttttcacat ttgtattagc aactgagcac acccgaacac aatgtataaa 2280
aagctccttg caagaccatg ggacagccat tttgcaaaat gttacttctt ttcttattgg 2340
gttagtcccc cttctatttg tgccttcgaa cctgaccttc acactgttca aatgcttgct 2400
gctcactggg ggttgcacac ttctgcactg ttttgttatt ttacctgtgt tcctaacgtt 2460
tttcccccct tccaaaaagc accacaagaa aaagaaacgt gccaagcgaa aggagagaga 2520
ggaaattgaa tgcatagaaa ttcaagagaa cccggatcac gtcaccacag tatgaggggt 2580
atagaccagt ggattatttt tcttttccag tattgcacaa tgatgcaggg caagtaaagc 2640
tcagacctca gctgcttggg ctggccaggg gtaacaaggc aagtcagatc aagagtgcat 2700
tattcatgac acttcaaggt gcctgcttct tggggggaag agggaataaa aaaagaggaa 2760
aaagttattt gcaaccttgt tctcctctaa aaacaagttt ctggatgtaa tctgagagct 2820
cttccaagga atggatgaat caatggagtg 2850
<210> 15
<211> 1491
<212> DNA
<213> 人(Homo sapiens)
<400> 15
gccctgcgcg gggacactca gagcccggtg gggggaggaa ggcggcatgc cccagacggt 60
gatcctcccg ggccctgcgg cctggggctt caggctctca gggggcatag acttcaacca 120
gcctttggtc atcaccagga ttacaccagg aagcaaggcg gcaggtgcca acctgtgtcc 180
tggagatgtc atcctggcta ttgacggctt tgggacagag tccatgactc atgctgatgc 240
gcaggacagg attaaagcag cagctcacca gctgtgtctc aaaattgaca ggggagaaac 300
tcacttatgg tctccacaag tatctgaaga tgggaaagcc catcctttca aaatcaactt 360
agaatcagaa ccacaggacg ggaactactt tgaacacaag cataatattc ggcccaaacc 420
tttcgtgatc ccgggccgaa gcagtggatg cagcactccc tccgggattg actgtggcag 480
tggacgcagc accccttctt ctgtcagtac tgttagtacc atttgcccag gtgacttgaa 540
agttgcggct aagctggccc ctaacattcc tttggaaatg gaacttcctg gtgtgaagat 600
tgtacatgct cagtttaata cacctatgca gttgtactca gatgacaata ttatggaaac 660
actccagggt caggtttcaa cagccctagg ggaaatacct ttgatgagcg agcccacagc 720
ctcggtgccc cccgagtcgg acgtgtaccg gatgctccac gacaatcgga atgagcccac 780
acagcctcgc cagtcgggct ccttcagagt gctccaggga atggtggacg atggctctga 840
tgaccgtccg gctggaacgc ggagtgtgag agctccggtg acgaaagtcc atggcggttc 900
aggcggggca cagaggatgc cgctctgtga caaatgtggc agtggcatag tcggtgctgt 960
ggtgaaggcg cgggataagt accggcaccc tgagtgcttc gtgtgtgccg actgcaacct 1020
caacctcaag caaaagggct acttcttcat agaaggggag ctgtactgcg aaacccacgc 1080
aagagcccgc acaaaacccc caagaggcta tgacacggtc actctgtatc ccaaagctta 1140
agtctctgca ggcgtggcac acgcacgcac ccacccacgc gcacttacac gagaagacat 1200
tcatggcttt gggcagaagg attgtgcaga ttgtcaactc caaatctaaa gtcaaggctt 1260
tagaccttta tcctattgtt tattgaggaa aaggaatggg aggcaaatgc ctgctatgtg 1320
aaaaaaacat acacttagct atgttttgca actctttttg gggctagcaa taatgatatt 1380
taaagcaata attttttgta tgtcatactc cacaatttac atgtatatta cagccatcaa 1440
acacataaac atcaagatat ttgaaggact ctaattgtct ttccttgaca a 1491
<210> 16
<211> 1504
<212> DNA
<213> 人(Homo sapiens)
<400> 16
tgcagacgga acttcagccg ctgcctctgt tctcagcgtc agtgccgcca ctgcccccgc 60
cagagcccac cggccagcat gtcctctgct cacttcaacc gaggccctgc ctacgggctg 120
tcagccgagg ttaagaacaa gctggcccag aagtatgacc accagcggga gcaggagctg 180
agagagtgga tcgagggggt gacaggccgt cgcatcggca acaacttcat ggacggcctc 240
aaagatggca tcattctttg cgaattcatc aataagctgc agccaggctc cgtgaagaag 300
atcaatgagt caacccaaaa ttggcaccag ctggagaaca tcggcaactt catcaaggcc 360
atcaccaagt atggggtgaa gccccacgac atttttgagg ccaacgacct gtttgagaac 420
accaaccata cacaggtgca gtccaccctc ctggctttgg ccagcatggc gaagacgaaa 480
ggaaacaagg tgaacgtggg agtgaagtac gcagagaagc aggagcggaa attcgagccg 540
gggaagctaa gagaagggcg gaacatcatt gggcttcaga tgggcagcaa caagtttgcc 600
agccagcagg gcatgacggc ctatggcacc cggcgccacc tctacgaccc caagctgggc 660
acagaccagc ctctggacca ggcgaccatc agcctgcaga tgggcaccaa caaaggagcc 720
agccaggctg gcatgactgc gccagggacc aagcggcaga tcttcgagcc ggggctgggc 780
atggagcact gcgacacgct caatgtcagc ctgcagatgg gcagcaacaa gggcgcctcg 840
cagcggggca tgacggtgta tgggctgcca cgccaggtct acgaccccaa gtactgtctg 900
actcccgagt acccagagct gggtgagccc gcccacaacc accacgcaca caactactac 960
aattccgcct aggtccacaa ggccttcact gttttccccc caagggaggc tgctgctgct 1020
cttggctgga gccagccagg gccagccgac cccctctccc tgcatggcat cctccagccc 1080
ctgtagaact caacctctac agggttagag tttggagaga gcagactggc ggggggccca 1140
ttggggggaa ggggaccctc cgctctgtag tgctacaggg tccaacatag aacagggtgt 1200
ccccaacagc gcccaaagga cgcactgagc aacgctattc cagctgtccc cccactccct 1260
cacaagtggg tacccccagg accagaagct cccccagcaa agcccccaga gcccaggctc 1320
ggcctgcccc caccccattc ccgcagtggg agcaaactgc atgcccagag acccagcgga 1380
cacacgcggt ttggtttgca gcgactggca tactatgtgg atgtgacagt ggcgtttgta 1440
atgagagcac tttctttttt ttctatttca ctggagcaca ataaatggct gtaaaatcta 1500
cacg 1504
<210> 17
<211> 1781
<212> DNA
<213> 人(Homo sapiens)
<400> 17
actcgggaag acttcagaga agtctcacaa aggactcggc tggctgcttt tctcagtgcc 60
gaagccgcgc catgctcgtt ctcagaagcg gcctgaccaa ggcgcttgcc tcacggacgc 120
tcgcgcctca ggtgtgttca tcttttgcta cgggccctag acaatacgat ggaacgttct 180
atgaatttcg tacttattac cttaaacctt caaatatgaa tgcgttcatg gaaaatctta 240
agaaaaacat tcatcttcgg acctcttact ctgaattggt tggattctgg agtgtagaat 300
ttggaggcag aacgaataaa gtgtttcata tttggaagta tgataatttt gctcatcgag 360
ctgaagttcg gaaagcctta gccaactgta aggaatggca agaacaatct atcattccaa 420
atttggctcg cattgataaa caagagacgg aaattactta cctgatacca tggtccaaat 480
tagaaaagcc tccaaaagaa ggagtctatg aactagctgt ttttcagatg aaacctggtg 540
ggccagctct gtggggtgat gcatttgaaa gagcaattaa tgcccatgtc aatttaggct 600
acacaaaagt agttggtgtt ttccacacag aatatggaga actcaacaga gttcatgttc 660
tttggtggaa tgagagtgca gatagtcgtg cagctgggag acataagtcc catgaggatc 720
ccagagttgt ggcggctgtt cgggaaagtg tcaactacct agtttctcag cagaatatgc 780
ttctgattcc tgcatcattt tcaccattga aatagttttc tactgaaata caaaacattt 840
cattaactgc tctaagatgt gtctgctaat ggtgcttaaa ttctcccaag aggttctcgc 900
ttttatttga aggaggtggt aagttaatta gttaatttgc tgtgcttctt gcatttttga 960
aagttacata ttctccactg ctttaagaaa taattcagtt cactttcacc ttggcatttc 1020
agtatctgtt acacattaga agtagttgtc actatttcat catcttggtt tttcatttgt 1080
tttagaatac ctcttctgta ttttgataac tcattgcttt atagcatttt cttttactca 1140
aataaggatt ttacatttcc ttgcctgaca gtatttttga attatttata taaaatatct 1200
atcttttcat catgtctata gttcctgaga ttttaaaaaa atttgcttag taaaggttat 1260
tttgtgatat aaaatgggat ttataaaaat attagattgt ttatttcttt actgtggaaa 1320
agtagaatgt catctgtatt aattattgct tttacattca ttgattatta gtcattctaa 1380
cttggaaaat aatgcaattg ggtcacagtg ttaaaaatct agaaaagact tgttggttta 1440
tatgctgaaa ttgttcattt ataattaatt ttactaattt ctccttagtt tggatcacta 1500
acagagatct tgggacattt atttgtttta aagaaatatt tatggttatg gaaacgcttg 1560
ccctaataaa aatcctgcat attcattgtt tttttaaatt cacattttat acttatatga 1620
tctctaaagc tcttgctatg ttgctataag acagtaatat agtgataatt taccaacttt 1680
attgaaaatg ttgttacatc aataaaatag catgctggga acctgagaag gaaggtttct 1740
ttagtactgc caaaaaaaaa aaaaaaaaaa aaaaaaaaaa a 1781
<210> 18
<211> 3023
<212> DNA
<213> 人(Homo sapiens)
<400> 18
tgaattcaaa acagttactc tgaatggtct ttgctaagaa caatttaatg attaagtaag 60
gtcagtgtcc ttggaagtcc aaactctagc cagatttccc tggtctacac ccctagggat 120
aaggtaaatg tttaagcaca cagtgaactt cctgaggccc ccaaatctaa tggaactagc 180
tattgagggc taaaagagga tggttttttt agaaaactcg aagcaaatct ctcaggctgg 240
ggatatttca aagactacta ctattattat taataacaat tgcaatattt gttgagtccc 300
taaatgaagc taaaactttg ttctaataaa tttaatcttt acagcaacct atgaggtaga 360
taatattgtc attcccatga gggagctaag gatcagagaa ggtaagtcac ttgtctaagg 420
tcacatagct agcatgttat gcaatcagga gtcaaacctg gtttgtctga atctgaagtc 480
catctgctct gtgcactttt ataccgtctg ctttttcctt tattcctaac cttcttccat 540
tctgattccc actgagtagt ggacaggaac cactgaagtt tgcctgacac catcaaccag 600
gccctagtca cctggctttg cctttgccct gctgtgtgat cttagctccc tgcccaggcc 660
cacagccatg gccatggccc agaaactcag ccacctcctg ccgagtctgc ggcaggtcat 720
ccaggagcct cagctatctc tgcagccaga gcctgtcttc acggtggatc gagctgaggt 780
gccgccgctc ttctggaagc cgtacatcta tgcgggctac cggccgctgc atcagacctg 840
gcgcttctat ttccgcacgc tgttccagca gcacaacgag gccgtgaatg tctggaccca 900
cctgctggcg gccctggtac tgctgctgcg gctggccctc tttgtggaga ccgtggactt 960
ctggggagac ccacacgccc tgcccctctt catcattgtc cttgcctctt tcacctacct 1020
ctccttcagt gccttggctc acctcctgca ggccaagtct gagttctggc attacagctt 1080
cttcttcctg gactatgtgg gggtggccgt gtaccagttt ggcagtgcct tggcacactt 1140
ctactatgct atcgagcccg cctggcatgc ccaggtgcag gctgtttttc tgcccatggc 1200
tgcctttctc gcctggcttt cctgcattgg ctcctgctat aacaagtaca tccagaaacc 1260
aggcctgctg ggccgcacat gccaggaggt gccctccgtc ctggcctacg cactggacat 1320
tagtcctgtg gtgcatcgta tcttcgtgtc ctccgacccc accacggatg atccagctct 1380
tctctaccac aagtgccagg tggtcttctt tctgctggct gctgccttct tctctacctt 1440
catgcccgag cgctggttcc ctggcagctg ccatgtcttc gggcagggcc accaactttt 1500
ccacatcttc ttggtgctgt gcacgctggc tcagctggag gctgtggcac tggactatga 1560
ggcccgacgg cccatctatg agcctctgca cacgcactgg cctcacaact tttctggcct 1620
cttcctgctc acggtgggca gcagcatcct cactgcattc ctcctgagcc agctggtaca 1680
gcgcaaactt gatcagaaga ccaagtgaag ggggatggca tctggtaggg agggaggtat 1740
agttggggga caggggtctg ggtttggctc caggtgggaa caaggcctgg taaagttgtt 1800
tgtgtctggc ccacagtgac tctctgtgca cgactcaact gccaagggca tcactggcca 1860
attcttggat ttagggattg gctaggagtt gctggggtcc actcctgggc ctgccccagc 1920
tccttgccca gggagaggga aagagttaac ggtgtgggcc actccagctt gcccttccac 1980
tgccactcac tggggtgagg ctgggggtca gcttggtgag gattggggct tctagattgt 2040
ctaggcagga ggtgaaactt aggccagagt cagatttgag ctgagccagg ggaggccttg 2100
gcaacctact tctactcaga tttcattgct ggatgcggaa ggggtaggcc caaaatatat 2160
acaggatctt actgtccctt gaagcccagc cacaagtgtt ggagctgcag agagacccca 2220
aaggtagtag attgtgccag atacaaatgg gtcccatcca gtgcttcata ctccttcagt 2280
cactatccca gacagtgagc cccagatctc ctagctctgg cttctgtgtc ccacacggcc 2340
tgttcccagc ttctctcctg gttcccttgt tacggattca tttatccatt cagtgtttcc 2400
tgggcctctg ctcagaggca ggtcaccact gggccctgtg gatcaatgca agatgacaaa 2460
ggcttttttt tttttttttt tttttttttt ttttgaggag tttcgctctt gttggctagg 2520
ctggagtaaa atggtgcgat ctcggctcac tgcacctccg cctcccaggt tcaagcgatt 2580
ttcctgcctc agcctcccga gtagctgggg ttacaggcat gcaccaccat gcctggctaa 2640
ttttctgtat ttttagtaga gacggggttt ctccatgttg gtcaggctgg tcttgaactc 2700
ctgacctcag gtgatctgcc cgtctcggcc tcccaaagtg ctgggattac cggcatgagc 2760
cactgcgcct ggccgacaaa ggctttgata tcagaatgaa ctgtcaaggg aggtgctgga 2820
gagggattaa cctgtgctgc ctgggaccct cagggtctta ggttggggag tgtgaatagg 2880
agtttgcaga tggagaatag gaagggcatt ccaggcagag ggaaacctgt gcagagacca 2940
agaggtgtgg aaggaaaagt ggggttgggg ctgggtggtc tggattatgg cctggatgca 3000
ataaagtact gtgacagtag cca 3023
<210> 19
<211> 1345
<212> DNA
<213> 人(Homo sapiens)
<400> 19
gcctctgggg ttttatattg ctctggtatt catgccaaag acacaccagc cctcagtcac 60
tgggagaaga acctctcata ccctcggtgc tccagtcccc agctcactca gccacacaca 120
ccatgtgtga agaggagacc accgcgctcg tgtgtgacaa tggctctggc ctgtgcaagg 180
caggcttcgc aggagatgat gccccccggg ctgtcttccc ctccattgtg ggccgccctc 240
gccaccaggg tgtgatggtg ggaatgggcc agaaagacag ctatgtgggg gatgaggctc 300
agagcaagcg agggatccta actctcaaat accccattga acacggcatc atcaccaact 360
gggatgacat ggagaagatc tggcaccact ccttctacaa tgagctgcgt gtagcacctg 420
aagagcaccc caccctgctc acagaggctc ccctaaatcc caaggccaac agggaaaaga 480
tgacccagat catgtttgaa accttcaatg tccctgccat gtacgtcgcc attcaagctg 540
tgctctccct ctatgcctct ggccgcacga caggcatcgt cctggattca ggtgatggcg 600
tcacccacaa tgtccccatc tatgaaggct atgccctgcc ccatgccatc atgcgcctgg 660
acttggctgg ccgtgacctc acggactacc tcatgaagat cctcacagag agaggctatt 720
cctttgtgac cacagctgag agagaaattg tgcgagacat caaggagaag ctgtgctatg 780
tggccctgga ttttgagaat gagatggcca cagcagcttc ctcttcctcc ctggagaaga 840
gctatgagct gccagatggg caggttatca ccattggcaa tgagcgcttc cgctgccctg 900
agaccctctt ccagccttcc tttattggca tggagtccgc tggaattcat gagacaacct 960
acaattccat catgaagtgt gacattgaca tccgtaagga cttatatgcc aacaatgtcc 1020
tctctggggg caccaccatg taccctggca ttgctgacag gatgcagaag gagatcacag 1080
ccctggcccc cagcaccatg aagatcaaga ttattgctcc cccagagcgg aagtactcag 1140
tctggatcgg gggctctatc ctggcctctc tctccacctt ccagcagatg tggatcagca 1200
agcctgagta tgatgaggca gggccctcca ttgtccacag gaagtgcttc taaagtcaga 1260
acaggttctc caaggatccc ctcgagacta ctctgttacc agtcatgaaa cattaaaacc 1320
tacaagcctt aaaaaaaaaa aaaaa 1345
<210> 20
<211> 109
<212> DNA
<213> 人(Homo sapiens)
<400> 20
gaaagggtgg cattataggg ttccacaacc atgtctaaca ccttggacaa gagcagcaca 60
ctgaatgggt ttatgatcct atgtgggcac ttctcctgga tattgttga 109
<210> 21
<211> 3670
<212> DNA
<213> 人(Homo sapiens)
<400> 21
cgcagcaaac acatccgtag aaggcagcgc ggccgccgag aaccgcagcg ccgctcgccc 60
gccgcccccc accccgccgc cccgcccggc gaattgcgcc ccgcgcccct cccctcgcgc 120
ccccgagaca aagaggagag aaagtttgcg cggccgagcg gggcaggtga ggagggtgag 180
ccgcgcggga ggggcccgcc tcggccccgg ctcagccccc gcccgcgccc ccagcccgcc 240
gccgcgagca gcgcccggac cccccagcgg cggcccccgc ccgcccagcc ccccggcccg 300
ccatgggcgc cgcggcccgc accctgcggc tggcgctcgg cctcctgctg ctggcgacgc 360
tgcttcgccc ggccgacgcc tgcagctgct ccccggtgca cccgcaacag gcgttttgca 420
atgcagatgt agtgatcagg gccaaagcgg tcagtgagaa ggaagtggac tctggaaacg 480
acatttatgg caaccctatc aagaggatcc agtatgagat caagcagata aagatgttca 540
aagggcctga gaaggatata gagtttatct acacggcccc ctcctcggca gtgtgtgggg 600
tctcgctgga cgttggagga aagaaggaat atctcattgc aggaaaggcc gagggggacg 660
gcaagatgca catcaccctc tgtgacttca tcgtgccctg ggacaccctg agcaccaccc 720
agaagaagag cctgaaccac aggtaccaga tgggctgcga gtgcaagatc acgcgctgcc 780
ccatgatccc gtgctacatc tcctccccgg acgagtgcct ctggatggac tgggtcacag 840
agaagaacat caacgggcac caggccaagt tcttcgcctg catcaagaga agtgacggct 900
cctgtgcgtg gtaccgcggc gcggcgcccc ccaagcagga gtttctcgac atcgaggacc 960
cataagcagg cctccaacgc ccctgtggcc aactgcaaaa aaagcctcca agggtttcga 1020
ctggtccagc tctgacatcc cttcctggaa acagcatgaa taaaacactc atcccatggg 1080
tccaaattaa tatgattctg ctcccccctt ctccttttag acatggttgt gggtctggag 1140
ggagacgtgg gtccaaggtc ctcatcccat cctccctctg ccaggcacta tgtgtctggg 1200
gcttcgatcc ttgggtgcag gcagggctgg gacacgcggc ttccctccca gtccctgcct 1260
tggcaccgtc acagatgcca agcaggcagc acttagggat ctcccagctg ggttagggca 1320
gggcctggaa atgtgcattt tgcagaaact tttgagggtc gttgcaagac tgtgtagcag 1380
gcctaccagg tccctttcat cttgagaggg acatggccct tgttttctgc agcttccacg 1440
cctctgcact ccctgcccct ggcaagtgct cccatcgccc cggtgcccac catgagctcc 1500
cagcacctga ctccccccac atccaagggc agcctggaac cagtggctag ttcttgaagg 1560
agccccatca atcctattaa tcctcagaat tccagtggga gcctccctct gagccttgta 1620
gaaatgggag cgagaaaccc cagctgagct gcgttccagc ctcagctgag tctttttggt 1680
ctgcacccac ccccccaccc cccccccccc gcccacatgc tccccagctt gcaggaggaa 1740
tcggtgaggt cctgtcctga ggctgctgtc cggggccggt ggctgccctc aaggtccctt 1800
ccctagctgc tgcggttgcc attgcttctt gcctgttctg gcatcaggca cctggattga 1860
gttgcacagc tttgctttat ccgggcttgt gtgcagggcc cggctgggct ccccatctgc 1920
acatcctgag gacagaaaaa gctgggtctt gctgtgccct cccaggctta gtgttccctc 1980
cctcaaagac tgacagccat cgttctgcac ggggctttct gcatgtgacg ccagctaagc 2040
atagtaagaa gtccagccta ggaagggaag gattttggag gtaggtggct ttggtgacac 2100
actcacttct ttctcagcct ccaggacact atggcctgtt ttaagagaca tcttattttt 2160
ctaaaggtga attctcagat gataggtgaa cctgagttgc agatatacca acttctgctt 2220
gtatttctta aatgacaaag attacctagc taagaaactt cctagggaac tagggaacct 2280
atgtgttccc tcagtgtggt ttcctgaagc cagtgatatg ggggttagga taggaagaac 2340
tttctcggta atgataagga gaatctcttg tttcctccca cctgtgttgt aaagataaac 2400
tgacgatata caggcacatt atgtaaacat acacacgcaa tgaaaccgaa gcttggcggc 2460
ctgggcgtgg tcttgcaaaa tgcttccaaa gccaccttag cctgttctat tcagcggcaa 2520
ccccaaagca cctgttaaga ctcctgaccc ccaagtggca tgcagccccc atgcccaccg 2580
ggacctggtc agcacagatc ttgatgactt ccctttctag ggcagactgg gagggtatcc 2640
aggaatcggc ccctgcccca cgggcgtttt catgctgtac agtgacctaa agttggtaag 2700
atgtcataat ggaccagtcc atgtgatttc agtatataca actccaccag acccctccaa 2760
cccatataac accccacccc tgttcgcttc ctgtatggtg atatcatatg taacatttac 2820
tcctgtttct gctgattgtt tttttaatgt tttggtttgt ttttgacatc agctgtaatc 2880
attcctgtgc tgtgtttttt attacccttg gtaggtatta gacttgcact tttttaaaaa 2940
aaggtttctg catcgtggaa gcatttgacc cagagtggaa cgcgtggcct atgcaggtgg 3000
attccttcag gtctttcctt tggttctttg agcatctttg ctttcattcg tctcccgtct 3060
ttggttctcc agttcaaatt attgcaaagt aaaggatctt tgagtaggtt cggtctgaaa 3120
ggtgtggcct ttatatttga tccacacacg ttggtctttt aaccgtgctg agcagaaaac 3180
aaaacaggtt aagaagagcc gggtggcagc tgacagagga agccgctcaa ataccttcac 3240
aataaatagt ggcaatatat atatagttta agaaggctct ccatttggca tcgtttaatt 3300
tatatgttat gttctaagca cagctctctt ctcctatttt catcctgcaa gcaactcaaa 3360
atatttaaaa taaagtttac attgtagtta ttttcaaatc tttgcttgat aagtattaag 3420
aaatattgga cttgctgccg taatttaaag ctctgttgat tttgtttccg tttggatttt 3480
tgggggaggg gagcactgtg tttatgctgg aatatgaagt ctgagacctt ccggtgctgg 3540
gaacacacaa gagttgttga aagttgacaa gcagactgcg catgtctctg atgctttgta 3600
tcattcttga gcaatcgctc ggtccgtgga caataaacag tattatcaaa gagaaaaaaa 3660
aaaaaaaaaa 3670
<210> 22
<211> 1426
<212> DNA
<213> 人(Homo sapiens)
<400> 22
atgagccagg cctactcgtc cagccagcgc gtgtcctcct accgccgcac cttcggcggg 60
gccccgggct tcccgctcgg ctccccgctg agctcgcccg tgttcccgcg ggcgggtttc 120
ggctctaagg gctcctccag ctcggtgacg tcccgcgtgt accaggtgtc gcgcacgtcg 180
ggcggggccg ggggcctggg gtcgctgcgg gccagccggc tggggaccac ccgcacgccc 240
tcctcctacg gcgcaggcga gctgctggac ttctcactgg ccgacgcggt gaaccaggag 300
tttctgacca cgcgcaccaa cgagaaggtg gagctgcagg agctcaatga ccgcttcgcc 360
aactacatcg agaaggtgcg cttcctggag cagcagaacg cggcgctcgc cgccgaagtg 420
aaccggctca agggccgcga gccgacgcga gtggccgagc tctacgagga ggagctgcgg 480
gagctgcggc gccaggtgga ggtgctcact aaccagcgcg cgcgcgtcga cgtcgagcgc 540
gacaacctgc tcgacgacct gcagcggctc aaggccaagc tgcaggagga gattcagttg 600
aaggaagaag cagagaacaa tttggctgcc ttccgagcgg acgtggatgc agctactcta 660
gctcgcattg acctggagcg cagaattgaa tctctcaacg aggagatcgc gttccttaag 720
aaagtgcatg aagaggagat ccgtgagttg caggctcagc ttcaggaaca gcaggtccag 780
gtggagatgg acatgtctaa gccagacctc actgccgccc tcagggacat ccgggctcag 840
tatgagacca tcgcggctaa gaacatttct gaagctgagg agtggtacaa gtcgaaggtg 900
tcagacctga cccaggcagc caacaagaac aacgacgccc tgcgccaggc caagcaggag 960
atgatggaat accgacacca gatccagtcc tacacctgcg agattgacgc cctgaagggc 1020
actaacgatt ccctgatgag gcagatgcgg gaattggagg accgatttgc cagtgaggcc 1080
agtggctacc aggacattgc gcgcctggag gaggaaatcc ggcacctcaa ggatgagatg 1140
gcccgccatc tgcgcgagta ccaggacctg ctcaacgtga agatggccct ggatgtggag 1200
attgccacct accggaagct gctggaggga gaggagagcc ggatcaatct ccccatccag 1260
acctactctg ccctcaactt ccgagaaacc agccctgagc aaaggggttc tgaggtccat 1320
accaagaaga cggtgatgat caagaccatc gagacacggg atggggaggt cgtcagtgag 1380
gccacacagc agcagcatga agtgctctaa agacgagaga ccctct 1426

Claims (30)

1.一种检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法,其包括:
测定受试者的测试样品中第一组转录物和第二组转录物各自的表达水平,其中该第一组转录物包含与在UIP中表达过度且列于表5、7、9、10、11、和12任一个中的基因中的任一个相对应的一个或多个序列,并且该第二组转录物包含与在UIP中表达不足且列于表5、8、9、10、11、或12任一个中的基因中的任一个相对应的一个或多个序列;并且
将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较,从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加和/或(b)相对应于该第二组的表达水平的降低,则将所述肺组织分类为普通型间质性肺炎(UIP),或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加和/或(d)相对应于该第一组的表达水平的降低,则将该肺组织分类为非普通型间质性肺炎(非UIP)。
2.一种检测肺组织样品是呈普通型间质性肺炎(UIP)阳性还是呈非普通型间质性肺炎(非UIP)阳性的方法,其包括:
通过测序、阵列杂交、或核酸扩增来测定来自受试者肺组织的测试样品中第一组转录物和第二组转录物各自的表达水平,其中该第一组转录物包含与在UIP中表达过度且列于表5、7、9、10、11、和12任一个中的基因中的任一个相对应的一个或多个序列,并且该第二组转录物包含与在UIP中表达不足且列于表5、8、9、10、11、或12任一个中的基因中的任一个相对应的一个或多个序列;并且
将该第一组转录物和该第二组转录物各自的表达水平与相应转录物的参考表达水平进行比较,从而(1)如果与该参考表达水平相比时存在(a)相对应于该第一组的表达水平的增加和/或(b)相对应于该第二组的表达水平的降低,则将所述肺组织分类为普通型间质性肺炎(UIP),或者(2)如果与该参考表达水平相比时存在(c)相对应于该第二组的表达水平的增加和/或(d)相对应于该第一组的表达水平的降低,则将该肺组织分类为非普通型间质性肺炎(非UIP)。
3.一种检测肺组织样品是呈UIP阳性还是呈非UIP阳性的方法,其包括:
测量该样品中表达的两种或更多种转录物的表达水平;并且
使用计算机生成的分类器将该样品分类为UIP和非UIP;
其中将该分类器使用异质谱的非UIP病理学亚型进行训练,该异质谱的非UIP病理学亚型包括HP、NSIP、结节病、RB、细支气管炎、以及机化性肺炎(OP)。
4.权利要求1-3中任一项的方法,其中该测试样品是活检样品或支气管肺泡灌洗样品。
5.权利要求1-3中任一项的方法,其中该测试样品是新鲜冷冻的或固定的。
6.权利要求1-3中任一项的方法,其中该表达水平是通过RT-PCR、DNA微阵列杂交、RNASeq、或其组合确定的。
7.权利要求1-3中任一项的方法,其中该方法包括检测从该测试样品中表达的RNA产生的cDNA。
8.权利要求7的方法,其中在该检测步骤之前,将该cDNA从多种cDNA转录物扩增。
9.权利要求1-3中任一项的方法,其中将该转录物中的一种或多种进行标记。
10.权利要求1-3中任一项的方法,其进一步包括测量该测试样品中至少一种对照核酸的表达水平。
11.权利要求1-3中任一项的方法,其中将该肺组织分类为间质性肺病(ILD)、特定类型的ILD、非ILD、或非诊断性中的任一种。
12.权利要求1-3中任一项的方法,其中将该肺组织分类为特发性肺纤维化(IPF)或非特异性间质性肺炎(NSIP)。
13.权利要求1或2的方法,其中该方法包括针对SEQ ID NO:1-22中任一个的一种或多种转录物的表达水平对该测试样品进行测定。
14.权利要求13的方法,其进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。
15.权利要求3的方法,其中该方法包括针对SEQ ID NO:1-22中任一个的一种或多种转录物的表达水平对该测试样品进行测定。
16.权利要求1-2中任一项的方法,其进一步包括使用吸烟状况作为(1)或(2)的分类步骤的协变量。
17.权利要求16的方法,其中吸烟状况是通过检测指示该受试者的吸烟者状况的表达谱来确定的。
18.前述权利要求中任一项的方法,其中该样品的分类包括检测对吸烟者状况偏倚敏感的一种或多种转录物的表达水平,并且其中该对吸烟者状况偏倚敏感的转录物的权重不同于对吸烟者偏倚不敏感的转录物的权重。
19.前述权利要求中任一项的方法,其中该样品的分类包括检测对吸烟者状况偏倚敏感的一种或多种转录物的表达水平,并且其中该对吸烟者状况偏倚敏感的转录物被排除在该分类步骤之外。
20.权利要求1-2中任一项的方法,其中该第一组包括2种或更多种不同的转录物,或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。
21.权利要求1-2中任一项的方法,其中该第二组包括2种或更多种不同的转录物,或3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。
22.权利要求13或15的方法,其包括检测SEQ ID NO:1-22中任一个的2种或更多种不同的转录物,或SEQ ID NO:1-22中任一个的3种或更多种、4种或更多种、5种或更多种、10种或更多种、15种或更多种、20种或更多种、或多于20种不同的转录物。
23.权利要求13或15的方法,其包括针对SEQ ID NO:1-22的全部转录物的表达水平对该测试样品进行测定。
24.权利要求15、22、或23的方法,其进一步包括针对1至20个其他基因的表达水平对该测试样品进行测定。
25.权利要求24的方法,其中该其他基因包括以下项或者由以下项组成:HMCN2、ADAMTSL1、CD79B、KEL、KLHL14、MPP2、NMNAT2、PLXDC1、CAPN9、TALDO1、PLK4、IGHV3-72、IGKV1-9、和CNTN4。
26.权利要求3的方法,其进一步包括使用吸烟状况作为该分类步骤的协变量。
27.权利要求16或27的方法,其中在该分类步骤之前,该方法使用吸烟状况作为协变量。
28.前述权利要求中任一项的方法,其包括实施分类器,该分类器是使用选自以下项的一种或多种特征训练的:基因表达、变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。
29.权利要求29的方法,其中该分类器是使用包含以下项的特征训练的:基因表达、序列变体、突变、融合、杂合性丢失(LOH)、以及生物途径效应。
30.前述权利要求中任一项的方法,其中该分类步骤进一步包括检测该测试样品中的序列变体,并且将该序列变体与参考样品中的对应序列进行比较,以将该样品分类为UIP或非UIP。
CN201580071464.4A 2014-11-05 2015-11-05 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法 Pending CN107206043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210273325.1A CN114606309A (zh) 2014-11-05 2015-11-05 使用机器学习和高维转录数据的诊断系统和方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462075328P 2014-11-05 2014-11-05
US62/075,328 2014-11-05
US201562130800P 2015-03-10 2015-03-10
US62/130,800 2015-03-10
PCT/US2015/059309 WO2016073768A1 (en) 2014-11-05 2015-11-05 Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210273325.1A Division CN114606309A (zh) 2014-11-05 2015-11-05 使用机器学习和高维转录数据的诊断系统和方法

Publications (1)

Publication Number Publication Date
CN107206043A true CN107206043A (zh) 2017-09-26

Family

ID=55909824

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210273325.1A Pending CN114606309A (zh) 2014-11-05 2015-11-05 使用机器学习和高维转录数据的诊断系统和方法
CN201580071464.4A Pending CN107206043A (zh) 2014-11-05 2015-11-05 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210273325.1A Pending CN114606309A (zh) 2014-11-05 2015-11-05 使用机器学习和高维转录数据的诊断系统和方法

Country Status (5)

Country Link
US (4) US20170335396A1 (zh)
EP (2) EP3770274A1 (zh)
JP (2) JP7356788B2 (zh)
CN (2) CN114606309A (zh)
WO (1) WO2016073768A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838363A (zh) * 2018-08-16 2020-02-25 宏达国际电子股份有限公司 控制方法以及医学系统
CN111401214A (zh) * 2020-03-12 2020-07-10 四川大学华西医院 一种基于深度学习的多分辨率集成her2判读方法
CN112602153A (zh) * 2018-08-30 2021-04-02 生命科技股份有限公司 用于对pcr测定进行基因分型的机器学习系统
CN113607941A (zh) * 2020-10-22 2021-11-05 广州中医药大学顺德医院(佛山市顺德区中医院) 一种新型冠状病毒肺炎重症区分与疗效评价系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10526655B2 (en) 2013-03-14 2020-01-07 Veracyte, Inc. Methods for evaluating COPD status
US11976329B2 (en) 2013-03-15 2024-05-07 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
CN114606309A (zh) 2014-11-05 2022-06-10 威拉赛特公司 使用机器学习和高维转录数据的诊断系统和方法
CA3033241A1 (en) * 2016-09-07 2018-03-15 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
CA3036597C (en) * 2016-09-14 2023-03-28 Philip Morris Products S.A. Systems, methods, and gene signatures for predicting a biological status of an individual
BR112019014841A2 (pt) 2017-01-23 2020-04-28 Regeneron Pharma rna guia, uso do rna guia, rna antissentido, sirna ou shrna, uso do rna antissentido, do sirna ou do shrna, ácido nucleico isolado, vetor, composição, célula, e, métodos para modificar um gene hsd17b13 em uma célula, para diminuir a expressão de um gene hsd17b13 em uma célula, para modificar uma célula e para tratar um indivíduo que não é portador da variante de hsd17b13
SG11201909453RA (en) 2017-04-11 2019-11-28 Regeneron Pharma Assays for screening activity of modulators of members of the hydroxysteroid (17-beta) dehydrogenase (hsd17b) family
CN110958853B (zh) * 2017-06-02 2023-08-25 威拉赛特公司 用于鉴定或监测肺病的方法和系统
WO2019075181A1 (en) 2017-10-11 2019-04-18 Regeneron Pharmaceuticals, Inc. INHIBITION OF HSD17B13 IN THE TREATMENT OF HEPATIC DISEASE IN PATIENTS EXPRESSING PNPLA3 I148M VARIATION
WO2019202767A1 (ja) * 2018-04-17 2019-10-24 国立大学法人大阪大学 抗線維化剤及び線維症のバイオマーカー
CN110819700A (zh) * 2018-08-10 2020-02-21 杭州米天基因科技有限公司 一种构建肺部小结节计算机辅助检测模型的方法
WO2022060842A1 (en) * 2020-09-15 2022-03-24 The Trustees Of Columbia University In The City Of New York Systems and methods for predicting graft dysfunction with exosome proteins
EP4351723A2 (en) * 2021-06-11 2024-04-17 Acceleron Pharma Inc. Actrii proteins and uses thereof
WO2023059743A1 (en) * 2021-10-05 2023-04-13 Neumora Therapeutics, Inc. Machine learning systems for training encoder and decoder neural networks

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620309A (zh) * 2001-12-18 2005-05-25 蒙多生物技术实验室 用于结合分子诊断法改进间质性肺疾病的治疗的干扰素γ或甲苯吡啶酮的新型药物组合物
EP2295599A1 (en) * 2008-06-05 2011-03-16 Saga University Method for detection of idiopathic interstitial pneumonia
WO2013148232A1 (en) * 2012-03-27 2013-10-03 Genentech, Inc. Methods of prognosing, diagnosing and treating idiopathic pulmonary fibrosis
WO2014144564A2 (en) * 2013-03-15 2014-09-18 Veracyte, Inc. Biomarkers for diagnosis of lung diseases and methods of use thereof
WO2014144821A1 (en) * 2013-03-15 2014-09-18 Intermune, Inc. Proteomic ipf markers

Family Cites Families (324)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3640268A (en) 1965-10-23 1972-02-08 Hugh J Davis Method and device for biopsy specimen collecting and handling
AT277936B (de) 1968-02-27 1970-01-12 Guenter Dipl Ing Knapp Verfahren zur quantitativen Bestimmung von Jod und von Schilddrüsenhormonen sowie Vorrichtung zur Durchführung des Verfahrens
US3687808A (en) 1969-08-14 1972-08-29 Univ Leland Stanford Junior Synthetic polynucleotides
US4641662A (en) 1984-09-28 1987-02-10 Jaicks John R Endocervical curette system
US4800896A (en) 1985-11-08 1989-01-31 Jalowayski Alfredo A Cell sample collector probe
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US6013431A (en) 1990-02-16 2000-01-11 Molecular Tool, Inc. Method for determining specific nucleotide variations by primer extension in the presence of mixture of labeled nucleotides and terminators
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
US5798257A (en) 1990-07-09 1998-08-25 Research Corporation Technologies, Inc. Nucleic acid encoding human MTS-1 protein
ATE199054T1 (de) 1990-12-06 2001-02-15 Affymetrix Inc A Delaware Corp Verbindungen und ihre verwendung in einer binären synthesestrategie
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
US5994069A (en) 1996-01-24 1999-11-30 Third Wave Technologies, Inc. Detection of nucleic acids by multiple sequential invasive cleavages
US5846717A (en) 1996-01-24 1998-12-08 Third Wave Technologies, Inc. Detection of nucleic acid sequences by invader-directed cleavage
US5726060A (en) 1991-09-17 1998-03-10 Bridges; Michael Anthony Method for culturing mammalian respiratory epithelial cells
US5384261A (en) 1991-11-22 1995-01-24 Affymax Technologies N.V. Very large scale immobilized polymer synthesis using mechanically directed flow paths
EP1588761A3 (en) 1991-11-22 2005-11-23 Affymetrix, Inc. Method of forming arrays of polymers
US6204370B1 (en) 1992-03-11 2001-03-20 Institute Of Virology, Slovak Academy Of Sciences MN gene and protein
US6027887A (en) 1992-03-11 2000-02-22 Institute Of Virology, Solvak Academy Of Sciences MN gene and protein
US5541061A (en) 1992-04-29 1996-07-30 Affymax Technologies N.V. Methods for screening factorial chemical libraries
US5288514A (en) 1992-09-14 1994-02-22 The Regents Of The University Of California Solid phase and combinatorial synthesis of benzodiazepine compounds on a solid support
US5422273A (en) 1993-03-23 1995-06-06 Baal Medical Products, Inc. Cell collection apparatus
US5876978A (en) 1993-04-06 1999-03-02 Medical College Of Ohio Method for quantitative measurement of gene expression using multiplex competitive reverse transcriptase-polymerase chain reaction
US5477863A (en) 1993-04-14 1995-12-26 Grant; Michael A. Collection kit with a sample collector
US5538848A (en) 1994-11-16 1996-07-23 Applied Biosystems Division, Perkin-Elmer Corp. Method for detecting nucleic acid amplification using self-quenching fluorescence probe
US5529925A (en) 1993-12-03 1996-06-25 St. Jude Children's Research Hospital Nucleic acid sequences and fusion proteins present in human t(2;5) lymphoma
US5440942A (en) 1994-02-02 1995-08-15 Hubbard; Stephen H. Biological sample collecting and holding device
US5989815A (en) 1994-03-18 1999-11-23 University Of Utah Research Foundation Methods for detecting predisposition to cancer at the MTS gene
US5648211A (en) 1994-04-18 1997-07-15 Becton, Dickinson And Company Strand displacement amplification using thermophilic enzymes
US7625697B2 (en) 1994-06-17 2009-12-01 The Board Of Trustees Of The Leland Stanford Junior University Methods for constructing subarrays and subarrays made thereby
US5830753A (en) 1994-09-30 1998-11-03 Ludwig Institute For Cancer Research Isolated nucleic acid molecules coding for tumor rejection antigen precursor dage and uses thereof.
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5705365A (en) 1995-06-07 1998-01-06 Gen-Probe Incorporated Kits for determining pre-amplification levels of a nucleic acid target sequence from post-amplification levels of product
US5710029A (en) 1995-06-07 1998-01-20 Gen-Probe Incorporated Methods for determining pre-amplification levels of a nucleic acid target sequence from post-amplification levels of product
WO1997007828A1 (en) 1995-08-30 1997-03-06 The Regents Of The University Of California Therapy for cellular accumulation in chronic inflammatory diseases
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
US5985557A (en) 1996-01-24 1999-11-16 Third Wave Technologies, Inc. Invasive cleavage of nucleic acids
KR100262838B1 (ko) 1996-04-16 2003-03-15 기시모토 다다미쓰 고형암세포및조직이형성의검출방법,및골수이식및말초혈간세포이식용조직의검사방법
US6136182A (en) 1996-06-07 2000-10-24 Immunivest Corporation Magnetic devices and sample chambers for examination and manipulation of cells
GB9711040D0 (en) 1997-05-29 1997-07-23 Duff Gordon W Prediction of inflammatory disease
WO1998057145A1 (en) 1997-06-10 1998-12-17 Quadrivium, L.L.C. System and method for detection of a biological condition
US20020076735A1 (en) 1998-09-25 2002-06-20 Williams Lewis T. Diagnostic and therapeutic methods using molecules differentially expressed in cancer cells
US6085907A (en) 1998-05-08 2000-07-11 Institute Of Legal Medicine, University Of Bern Foldable cardboard box for contact-free drying and long-term storage of biological evidence recovered on cotton swabs and forensic evidence collection kit including same
WO1999060160A1 (en) 1998-05-21 1999-11-25 Diadexus Llc A novel method of diagnosing, monitoring, and staging lung cancer
CA2329776C (en) 1998-06-08 2009-02-10 Fuso Pharmaceutical Industries, Ltd. Antibody against lar phosphatase subunit
US6204375B1 (en) 1998-07-31 2001-03-20 Ambion, Inc. Methods and reagents for preserving RNA in cell and tissue samples
US6468476B1 (en) 1998-10-27 2002-10-22 Rosetta Inpharmatics, Inc. Methods for using-co-regulated genesets to enhance detection and classification of gene expression patterns
ATE374833T1 (de) 1998-11-09 2007-10-15 Eiken Chemical Verfahren zur synthese von nukleinsäuren
US20040241728A1 (en) 1999-01-06 2004-12-02 Chondrogene Limited Method for the detection of lung disease related gene transcripts in blood
US6436642B1 (en) 1999-04-20 2002-08-20 Curagen Corporation Method of classifying a thyroid carcinoma using differential gene expression
WO2000079257A1 (en) 1999-06-22 2000-12-28 President And Fellows Of Harvard College Molecular and atomic scale evaluation of biopolymers
US7258838B2 (en) 1999-06-22 2007-08-21 President And Fellows Of Harvard College Solid state molecular probe device
US6746846B1 (en) 1999-06-30 2004-06-08 Corixa Corporation Methods for diagnosing lung cancer
US6667154B1 (en) 1999-06-30 2003-12-23 Corixa Corporation Compositions and methods for the therapy and diagnosis of lung cancer
NZ517121A (en) 1999-09-13 2004-05-28 Nugen Technologies Inc Methods and compositions for linear isothermal amplification of polynucleotide sequences
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
CA2386987A1 (en) 1999-10-18 2001-04-26 Dennis Marshall-Fraser Sample taking device
WO2001052789A2 (en) 2000-01-20 2001-07-26 The Brigham And Women's Hospital, Inc. PAX8-PPARη NUCLEIC ACID MOLECULES AND POLYPEPTIDES AND USES THEREOF
US7361488B2 (en) 2000-02-07 2008-04-22 Illumina, Inc. Nucleic acid detection methods using universal priming
US6383804B1 (en) 2000-07-13 2002-05-07 International Bioproducts, Inc. Sampling device with snap-off head and method of use
AU2001281136A1 (en) 2000-08-04 2002-02-18 Board Of Regents, The University Of Texas System Detection and diagnosis of smoking related cancers
EP1346043A2 (en) 2000-11-20 2003-09-24 Diadexus, Inc. Compositions and methods relating to lung specific genes and proteins
AU2002236507A1 (en) 2000-11-29 2002-06-11 Cangen International Dap-kinase and hoxa9, two human genes associated with genesis, progression, and aggressiveness of non-small cell lung cancer
US6988040B2 (en) 2001-01-11 2006-01-17 Affymetrix, Inc. System, method, and computer software for genotyping analysis and identification of allelic imbalance
US6972181B2 (en) 2001-01-12 2005-12-06 Mount Sinai School Of Medicine Of New York University Differential diagnosis of cancer and other conditions based on expression of p63
WO2003040325A2 (en) 2001-02-01 2003-05-15 Curagen Corporation Novel proteins and nucleic acids encoding same
WO2002064781A2 (en) 2001-02-09 2002-08-22 Active Pass Pharmaceuticals, Inc. Regulation of amyloid precursor protein expression by modification of abc transporter expression or activity
US7026163B1 (en) 2001-02-23 2006-04-11 Mayo Foundation For Medical Education And Research Sulfotransferase sequence variants
US20030190602A1 (en) 2001-03-12 2003-10-09 Monogen, Inc. Cell-based detection and differentiation of disease states
KR20030094281A (ko) 2001-03-12 2003-12-11 모노젠, 인크. 세포에 기초한 질병상태의 검출 및 질병상태의 구별
US20040197785A1 (en) 2001-03-14 2004-10-07 Willey James C. Method for quantitative measurement of gene expression for indentifying individuals at risk for bronchogenic carcinoma
JP2005527180A (ja) 2001-04-18 2005-09-15 プロテイン デザイン ラブス, インコーポレイテッド 肺がんの診断方法、肺がんの修飾因子の組成及びスクリーニングの方法
US6494845B2 (en) 2001-05-04 2002-12-17 Oralscan Laboratories, Inc. Retractable brush for use with endoscope for brush biopsy
AU2002355963A1 (en) 2001-08-16 2003-03-03 Genzyme Corporation Molecular characteristics of non-small cell lung cancer
EP1440311B1 (en) 2001-08-31 2009-01-07 Gen-Probe Incorporated Affinity-shifted probes for quantifying analyte polynucleotides
US6824520B2 (en) 2001-09-21 2004-11-30 Pulmonary Data Services, Inc. Method and apparatus for tracking usage of a respiratory measurement device
EP1444361A4 (en) 2001-09-28 2006-12-27 Whitehead Biomedical Inst CLASSIFICATION OF LUNG CARCINOMAS BY GENE EXPRESSION ANALYSIS
US7141372B2 (en) 2002-01-18 2006-11-28 Health Research Incorporated Universal RT-coupled PCR method for the specific amplification of mRNA
US20040005294A1 (en) 2002-02-25 2004-01-08 Ho-Young Lee IGFBP-3 in the diagnosis and treatment of cancer
JP2006506945A (ja) 2002-03-28 2006-03-02 メディカル・カレッジ・オブ・オハイオ 遺伝子発現プロフィールを使用する非小細胞肺癌の診断および処置のための方法および組成物
US20030194734A1 (en) 2002-03-29 2003-10-16 Tim Jatkoe Selection of markers
US20030186248A1 (en) 2002-03-29 2003-10-02 Erlander Mark G. Interpreting cytological specimens via molecular histological signatures
US20050143933A1 (en) 2002-04-23 2005-06-30 James Minor Analyzing and correcting biological assay data using a signal allocation model
DE10219117C1 (de) 2002-04-29 2003-10-30 Adnagen Ag Verfahren zur Stabilisierung von RNS und Verwendungen von Stabilisierungspuffern
AU2003234623A1 (en) 2002-05-16 2003-12-02 Euro-Celtique, S.A. Use of gastrin releasing peptide (grp) and its receptor in cancer screening
WO2004005891A2 (en) 2002-07-10 2004-01-15 The Regents Of The University Of Michigan Expression profile of lung cancer
WO2004011625A2 (en) 2002-07-31 2004-02-05 University Of Southern California Polymorphisms for predicting disease and treatment outcome
DE60324810D1 (de) 2002-09-20 2009-01-02 New England Biolabs Inc HELICASE-ABHuNGIGE AMPLIFIKATION VON NUKLEINSUREN
EP1403638A1 (en) 2002-09-25 2004-03-31 Mondobiotech SA Molecular methods for diagnosing interstitial lung diseases
SI1549652T1 (sl) 2002-09-30 2009-04-30 Bayer Healthcare Ag Kondenzirani azolpirimidinski derivati
US7300788B2 (en) 2002-10-08 2007-11-27 Affymetrix, Inc. Method for genotyping polymorphisms in humans
US20050266443A1 (en) 2002-10-11 2005-12-01 Thomas Jefferson University Novel tumor suppressor gene and compositions and methods for making and using the same
WO2004042057A1 (ja) 2002-11-07 2004-05-21 Daiichi Pure Chemicals Co., Ltd. 遺伝子変異検出法
AU2004254552B2 (en) 2003-01-29 2008-04-24 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
WO2004070062A2 (en) 2003-02-04 2004-08-19 Wyeth Compositions and methods for diagnosing and treating cancers
PT1597391E (pt) 2003-02-20 2008-12-19 Genomic Health Inc Utilização de arn intrónico para medir a expressão genética
WO2004081564A1 (en) 2003-03-14 2004-09-23 Peter Maccallum Cancer Institute Expression profiling of tumours
US20040241725A1 (en) 2003-03-25 2004-12-02 Wenming Xiao Lung cancer detection
WO2004091383A2 (en) 2003-04-01 2004-10-28 Genzyme Corporation Breast endothelial cell expression patterns
WO2004091511A2 (en) 2003-04-10 2004-10-28 Genzyme Corporation Compositions and methods to diagnose and treat lung cancer
US7378233B2 (en) 2003-04-12 2008-05-27 The Johns Hopkins University BRAF mutation T1796A in thyroid cancers
WO2005001132A2 (en) 2003-05-30 2005-01-06 The Board Of Trustees Of The University Of Illinois Gene expression profiles that identify genetically elite ungulate mammals
EP1639090A4 (en) 2003-06-09 2008-04-16 Univ Michigan COMPOSITIONS AND METHODS FOR TREATING AND DIAGNOSING CANCER
WO2004111197A2 (en) 2003-06-10 2004-12-23 Trustees Of Boston University Gene expression signatures, methods and compositions for diagnosing disorders of the lung
CA3084542A1 (en) 2003-06-10 2005-01-06 The Trustees Of Boston University Gene expression analysis of airway epithelial cells for diagnosing lung cancer
ES2905579T3 (es) 2003-07-10 2022-04-11 Genomic Health Inc Algoritmo del perfil de expresión y prueba para el pronóstico de la recaída del cáncer de mama
WO2005007830A2 (en) 2003-07-14 2005-01-27 Mayo Foundation For Medical Education And Research Methods and compositions for diagnosis, staging and prognosis of prostate cancer
US20070038386A1 (en) 2003-08-05 2007-02-15 Schadt Eric E Computer systems and methods for inferring casuality from cellular constituent abundance data
US7678061B2 (en) 2003-09-18 2010-03-16 Cardiac Pacemakers, Inc. System and method for characterizing patient respiration
US20070148650A1 (en) 2003-11-12 2007-06-28 Trustees Of Boston University Isolation of nucleic acid from mouth epithelial cells
US20050130177A1 (en) 2003-12-12 2005-06-16 3M Innovative Properties Company Variable valve apparatus and methods
EP1694866A4 (en) 2003-12-12 2007-12-26 Bayer Pharmaceuticals Corp GENE EXPRESSION PROFILES AND METHODS OF USE
JP2005168432A (ja) 2003-12-12 2005-06-30 Nara Institute Of Science & Technology 甲状腺濾胞癌と甲状腺濾胞腺腫を判別するためのデータを収集するための方法及び該方法のためのキット
US20050250125A1 (en) 2003-12-19 2005-11-10 Novakoff James L Method for conducting pharmacogenomics-based studies
US20090020433A1 (en) 2003-12-31 2009-01-22 Microfabrica Inc. Electrochemical Fabrication Methods for Producing Multilayer Structures Including the use of Diamond Machining in the Planarization of Deposits of Material
US7407755B2 (en) 2004-01-15 2008-08-05 Lubinski Jan Determining a predisposition to cancer
EP2295604B1 (en) 2004-02-09 2015-04-08 Thomas Jefferson University Diagnosis and treatment of cancers with microRNA located in or near cancer-associated chromosomal features
WO2005085471A2 (de) 2004-03-03 2005-09-15 Universität Leipzig Verfahren und mittel zur differentiellen diagnose von schilddrüsentumoren
EP1753873A4 (en) 2004-03-05 2008-11-05 Ohio Med College METHODS AND COMPOSITIONS FOR THE EVALUATION OF NUCLEIC ACIDS AND ALLELES
US8426126B2 (en) 2004-03-18 2013-04-23 Applied Biosystems, Llc Modified surfaces as solid supports for nucleic acid purification
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
JP2005304497A (ja) 2004-03-25 2005-11-04 Joji Inasawa 特定の癌関連遺伝子を用いる癌の検出方法及び癌の抑制方法
WO2005095654A1 (en) 2004-03-25 2005-10-13 Biohelix Corporation Helicase-dependent amplification of circular nucleic acids
US7319011B2 (en) 2004-04-08 2008-01-15 Duke University Method for distinguishing follicular thyroid adenoma (FTA) from follicular thyroid carcinoma (FTC)
DE602005025211D1 (de) 2004-04-09 2011-01-20 Us Gov Health & Human Serv Diagnosegerät zur diagnose gutartiger gegenüber bösartigen schilddrüsenläsionen
US20050240357A1 (en) 2004-04-26 2005-10-27 Minor James M Methods and systems for differential clustering
US20060019272A1 (en) 2004-05-03 2006-01-26 The Regents Of The University Of Colorado Diagnosis of disease and monitoring of therapy using gene expression analysis of peripheral blood cells
EP2471924A1 (en) 2004-05-28 2012-07-04 Asuragen, INC. Methods and compositions involving microRNA
MXPA06014046A (es) 2004-06-04 2007-08-14 Aviaradx Inc La importancia del gen hoxb13 para cancer.
US20070020655A1 (en) 2005-06-03 2007-01-25 Aviaradx, Inc. Identification of Tumors and Tissues
JP4533015B2 (ja) 2004-06-15 2010-08-25 キヤノン株式会社 化合物及びそれを用いた有機エレクトロルミネッセンス素子
US20060019615A1 (en) 2004-07-24 2006-01-26 Ditmer Larry R Wireless keying for a continuous wave (CW) amateur radio transmitter
GB0417740D0 (en) 2004-08-10 2004-09-08 Uc3 Methods and kit for the prognosis of breast cancer
KR20070044048A (ko) 2004-08-11 2007-04-26 더 클리브랜드 클리닉 파운데이션 갑상선암의 검출방법
AU2005272823B2 (en) 2004-08-13 2012-04-12 President And Fellows Of Harvard College An ultra high-throughput opti-nanopore DNA readout platform
HUE039237T2 (hu) 2004-10-06 2018-12-28 Mayo Found Medical Education & Res B7-H1 és PD-1 vesesejt karcinoma kezelésében
US7629325B2 (en) 2004-10-11 2009-12-08 Technion Research & Development Foundation Ltd. Human Sef isoforms and methods of using same for cancer diagnosis and gene therapy
US7485468B2 (en) 2004-10-15 2009-02-03 Galapagos Bv Molecular targets and compounds, and methods to identify the same, useful in the treatment of joint degenerative and inflammatory diseases
US20060141497A1 (en) 2004-10-22 2006-06-29 Finkelstein Sydney D Molecular analysis of cellular fluid and liquid cytology specimens for clinical diagnosis, characterization, and integration with microscopic pathology evaluation
WO2006050573A1 (en) 2004-11-11 2006-05-18 Garvan Institute Of Medical Research Method of diagnosing cancer and reagents therefor
BRPI0518734A2 (pt) 2004-11-30 2008-12-02 Veridex Llc prognàstico de cÂncer de pulmço
EP1828249B1 (en) 2004-12-03 2010-12-29 Schering Corporation Biomarkers for pre-selection of patients for anti-igf1r therapy
JP5629894B2 (ja) 2004-12-07 2014-11-26 国立大学法人大阪大学 甲状腺乳頭癌を診断するための新規のマーカー
US7862995B2 (en) 2004-12-10 2011-01-04 Targeted Molecular Diagnostics Methods and materials for predicting responsiveness to treatment with dual tyrosine kinase inhibitor
WO2006079034A2 (en) 2005-01-21 2006-07-27 Gene Express, Inc. Business methods for assessing nucleic acids
US20120122718A1 (en) 2005-03-01 2012-05-17 Reisman David N BRM Expression and Related Diagnostics
WO2006105252A2 (en) 2005-03-28 2006-10-05 The Regents Of The University Of Colorado Diagnosis of chronic pulmonary obstructive disease and monitoring of therapy using gene expression analysis of peripheral blood cells
WO2006110593A2 (en) 2005-04-07 2006-10-19 Macrogenics, Inc. Biological targets for the diagnosis, treatment and prevention of cancer
EP3211093A1 (en) 2005-04-14 2017-08-30 The Trustees of Boston University Diagnostic for lung disorders using class prediction
US20200248274A1 (en) 2005-04-14 2020-08-06 Trustees Of Boston University Diagnostic for lung disorders using class prediction
US20070037186A1 (en) 2005-05-20 2007-02-15 Yuqiu Jiang Thyroid fine needle aspiration molecular assay
US20070020657A1 (en) 2005-05-20 2007-01-25 Grebe Stefan K Methods for detecting circulating tumor cells
WO2006138275A2 (en) 2005-06-13 2006-12-28 The Regents Of The University Of Michigan Compositions and methods for treating and diagnosing cancer
US20070099209A1 (en) 2005-06-13 2007-05-03 The Regents Of The University Of Michigan Compositions and methods for treating and diagnosing cancer
IL177006A0 (en) 2005-08-02 2006-12-10 Veridex Llc Predicting bone relapse of breast cancer
CA2619577A1 (en) 2005-08-15 2007-02-22 Genentech, Inc. Gene disruptions, compositions and methods relating thereto
WO2007028162A2 (en) 2005-09-02 2007-03-08 The University Of Toledo Methods and compositions for identifying biomarkers useful in diagnosis and/or treatment of biological states
CA2623403A1 (en) 2005-09-22 2007-04-05 China Synthetic Rubber Corporation Gene expression profiling for identification of prognostic subclasses in nasopharyngeal carcinomas
US20070172844A1 (en) 2005-09-28 2007-07-26 University Of South Florida Individualized cancer treatments
US7962291B2 (en) 2005-09-30 2011-06-14 Affymetrix, Inc. Methods and computer software for detecting splice variants
US20080254470A1 (en) 2005-10-03 2008-10-16 Epigenomics Ag Methods and Nucleic Acids For the Analysis of Gene Expression Associated With the Prognosis of Cell Proliferative Disorders
US7598052B2 (en) 2005-10-11 2009-10-06 The Regents Of The University Of Michigan Expression profile of thyroid cancer
US20070220621A1 (en) 2005-10-31 2007-09-20 Clarke Michael F Genetic characterization and prognostic significance of cancer stem cells in cancer
US9347945B2 (en) 2005-12-22 2016-05-24 Abbott Molecular Inc. Methods and marker combinations for screening for predisposition to lung cancer
FR2896881B1 (fr) 2006-01-31 2008-04-18 Biomerieux Sa Procede de dosage du prongf pour le diagnostic in vitro du cancer du sein et utilisation du prongf en therapie
US7670775B2 (en) 2006-02-15 2010-03-02 The Ohio State University Research Foundation Method for differentiating malignant from benign thyroid tissue
JP2009529329A (ja) 2006-03-09 2009-08-20 トラスティーズ オブ ボストン ユニバーシティ 鼻腔上皮細胞の遺伝子発現プロファイルを用いた、肺疾患のための診断および予後診断の方法
JP4867018B2 (ja) 2006-03-22 2012-02-01 富士フイルム株式会社 癌の検出方法および抑制方法
WO2007126882A2 (en) 2006-03-27 2007-11-08 Jivan Biologics, Inc. Analysis of splice variant expression data
US20100113299A1 (en) 2008-10-14 2010-05-06 Von Hoff Daniel D Gene and gene expressed protein targets depicting biomarker patterns and signature sets by tumor type
US20080028302A1 (en) 2006-07-31 2008-01-31 Steffen Meschkat Method and apparatus for incrementally updating a web page
KR20080020083A (ko) 2006-08-30 2008-03-05 유영도 암 진단 마커로서의 Romo1의 용도
KR101443214B1 (ko) 2007-01-09 2014-09-24 삼성전자주식회사 폐암 환자 또는 폐암 치료를 받은 폐암 환자의 폐암 재발 위험을 진단하기 위한 조성물, 키트 및 마이크로어레이
SI2472264T1 (sl) 2007-02-27 2016-06-30 SentoClone International AB Karolinska Institute Science Park Multipleksna detekcija tumorskih celic z uporabo plošč vezavnih sredstev na zunajcelične markerje
WO2008109773A2 (en) 2007-03-06 2008-09-12 Cornell Research Foundation, Inc. Chronic obstructive pulmonary disease susceptibility and related compositions and methods
US20100273172A1 (en) 2007-03-27 2010-10-28 Rosetta Genomics Ltd. Micrornas expression signature for determination of tumors origin
US8802599B2 (en) 2007-03-27 2014-08-12 Rosetta Genomics, Ltd. Gene expression signature for classification of tissue of origin of tumor samples
US9096906B2 (en) 2007-03-27 2015-08-04 Rosetta Genomics Ltd. Gene expression signature for classification of tissue of origin of tumor samples
WO2008117278A2 (en) 2007-03-27 2008-10-02 Rosetta Genomics Ltd. Gene expression signature for classification of cancers
WO2010073248A2 (en) 2008-12-24 2010-07-01 Rosetta Genomics Ltd. Gene expression signature for classification of tissue of origin of tumor samples
EP1975245A1 (de) 2007-03-28 2008-10-01 Greenpeace e.V. Gen-Profiling zur Auswahl von politischen Kandidaten, kommerzielle Nutzung von Politikern
EP1975252A1 (en) 2007-03-29 2008-10-01 INSERM (Institut National de la Santé et de la Recherche Medicale) Methods for the prognosis or for the diagnosis of a thyroid disease
WO2008130887A1 (en) 2007-04-14 2008-10-30 The Regents Of The University Of Colorado Biomarkers for follicular thyroid carcinoma and methods of of use
WO2008140774A2 (en) 2007-05-08 2008-11-20 Picobella Llc Methods for diagnosing and treating prostate and lung cancer
US7901888B2 (en) 2007-05-09 2011-03-08 The Regents Of The University Of California Multigene diagnostic assay for malignant thyroid neoplasm
JP5719591B2 (ja) 2007-06-08 2015-05-20 バイオジェン アイデック エムエー インコーポレイティドBiogen Idec Inc. 抗tnf応答性または非応答性を予測するためのバイオマーカー
ES2570359T3 (es) 2007-08-03 2016-05-18 Univ Ohio State Res Found Regiones ultraconservadas que codifican ARNnc
US9234244B2 (en) 2007-08-27 2016-01-12 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Diagnostic tool for diagnosing benign versus malignant thyroid lesions
AT505726A2 (de) 2007-08-30 2009-03-15 Arc Austrian Res Centers Gmbh Set von tumor-markern
WO2009037633A2 (en) 2007-09-17 2009-03-26 Koninklijke Philips Electronics N.V. Method for the analysis of ovarian cancer disorders
CN101990577A (zh) 2007-09-19 2011-03-23 波士顿大学理事会 鉴定肺病药物开发的新途径
WO2009037337A1 (en) 2007-09-20 2009-03-26 Novartis Ag Robust and tissue independent gender-specific transcript markers for molecular gender determination
US20100285468A1 (en) 2007-09-24 2010-11-11 Allelogic Biosciences Corporation Detection and/or quantification of nucleic acids
WO2009068591A2 (en) 2007-11-28 2009-06-04 Novartis Forschungsstiftung, Zweigniederlassung, Friedrich Miescher Institute For Biomedical Research Biomarkers for the onset of neurodegenerative diseases
EP2227691B1 (en) 2007-12-05 2012-10-31 The Wistar Institute Of Anatomy And Biology Method for diagnosing lung cancers using gene expression profiles in peripheral blood mononuclear cells
US20090155805A1 (en) 2007-12-14 2009-06-18 Veridex, Llc Copy number alterations that predict metastatic capability of human breast cancer
US20090191535A1 (en) 2007-12-22 2009-07-30 Mark Carle Connelly Method of assessing metastatic carcinomas from circulating endothelial cells and disseminated tumor cells
JP2011508598A (ja) 2008-01-04 2011-03-17 サントル ナショナル ドゥ ラ ルシェルシュ シアンティフィク 乳癌のインビトロ分子診断
CA2712773A1 (en) 2008-01-22 2009-07-30 Veridex, Llc Molecular staging of stage ii and iii colon cancer and prognosis
EP2247775B1 (en) 2008-01-28 2012-12-19 National University of Singapore Method of generating a classification model
US20090246779A1 (en) 2008-02-15 2009-10-01 University Of Washington Increasing genomic instability during premalignant neoplastic progression revealed through high resolution array-cgh
WO2009111881A1 (en) 2008-03-13 2009-09-17 British Columbia Cancer Agency Branch Biomarkers for diagnosis of differentiated thyroid cancer
US8293880B2 (en) 2008-03-25 2012-10-23 University Of Southern California Prognostic panel for urinary bladder cancer
US20100055689A1 (en) 2008-03-28 2010-03-04 Avrum Spira Multifactorial methods for detecting lung disorders
US20110159498A1 (en) 2008-04-11 2011-06-30 China Synthetic Rubber Corporation Methods, agents and kits for the detection of cancer
CA2724312A1 (en) 2008-05-14 2009-11-19 Dnar, Inc. Biomarkers for the identification, monitoring, and treatment of head and neck cancer
AU2009253675A1 (en) 2008-05-28 2009-12-03 Genomedx Biosciences, Inc. Systems and methods for expression-based discrimination of distinct clinical disease states in prostate cancer
CA2726531A1 (en) 2008-06-05 2009-12-10 University Health Network Compositions and methods for classifying lung cancer and prognosing lung cancer survival
US20110077168A1 (en) 2008-06-17 2011-03-31 Nitzan Rosenfeld Methods for distinguishing between specific types of lung cancers
GB0811413D0 (en) 2008-06-20 2008-07-30 Kanton Basel Stadt Gene expression signatures for lung cancers
ES2338843B1 (es) 2008-07-02 2011-01-24 Centro De Investigaciones Energeticas, Medioambientales Y Tecnologicas Huella genomica de cancer de mama.
WO2010004589A2 (en) 2008-07-07 2010-01-14 Decode Genetics Ehf Genetic variants predictive of cancer risk in humans
WO2010008543A2 (en) 2008-07-15 2010-01-21 Trustees Of Dartmouth College Molecular signatures for diagnosing scleroderma
US20110230366A1 (en) 2008-08-12 2011-09-22 Decode Genetics Ehf. Genetic Variants Useful for Risk Assessment of Thyroid Cancer
US20110212855A1 (en) 2008-08-15 2011-09-01 Decode Genetics Ehf. Genetic Variants Predictive of Cancer Risk
CN102203295A (zh) 2008-09-03 2011-09-28 约翰霍普金斯大学 胰腺肿瘤发生的通路及遗传性胰腺癌基因
WO2010028274A1 (en) * 2008-09-05 2010-03-11 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Marker panels for idiopathic pulmonary fibrosis diagnosis and evaluation
US20110251091A1 (en) 2008-09-12 2011-10-13 Cornell University Thyroid tumors identified
US9068974B2 (en) 2008-11-08 2015-06-30 The Wistar Institute Of Anatomy And Biology Biomarkers in peripheral blood mononuclear cells for diagnosing or detecting lung cancers
WO2010056931A1 (en) 2008-11-14 2010-05-20 Intelligent Oncotherapeutics, Inc. Methods for identification of tumor phenotype and treatment
WO2010056351A2 (en) 2008-11-14 2010-05-20 Stc.Unm Gene expression classifiers for relapse free survival and minimal residual disease improve risk classification and out come prediction in pedeatric b-precursor acute lymphoblastic leukemia
JP6257125B2 (ja) 2008-11-17 2018-01-10 ベラサイト インコーポレイテッド 疾患診断のための分子プロファイリングの方法および組成物
US9495515B1 (en) 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
US10236078B2 (en) 2008-11-17 2019-03-19 Veracyte, Inc. Methods for processing or analyzing a sample of thyroid tissue
NZ602569A (en) 2008-11-21 2014-03-28 Anthrogenesis Corp Treatment of diseases, disorders or conditions of the lung using placental cells
CA2777638A1 (en) 2008-11-26 2010-06-03 Decode Genetics Ehf. Genetic variants useful for risk assessment of thyroid cancer
US9090943B2 (en) 2008-11-30 2015-07-28 Rosetta Genomics Ltd. Methods for detecting an increased susceptibility to cancer
BRPI1004572A2 (pt) 2009-01-09 2016-04-05 Univ Michigan "fusões genéticas recorrentes em câncer
US20100204058A1 (en) 2009-01-28 2010-08-12 Howard Yuan-Hao Chang Profiling for Determination of Response to Treatment for Inflammatory Disease
WO2010091049A2 (en) 2009-02-03 2010-08-12 Children's Medical Center Corporation Diagnosis and treatment of cancer
US9074258B2 (en) 2009-03-04 2015-07-07 Genomedx Biosciences Inc. Compositions and methods for classifying thyroid nodule disease
US8697275B2 (en) 2009-03-04 2014-04-15 Samsung Sdi Co., Ltd. Rechargeable battery having an extendable case region
WO2010123625A1 (en) 2009-04-24 2010-10-28 University Of Southern California Cd133 polymorphisms predict clinical outcome in patients with cancer
CA2753916C (en) 2009-04-29 2020-08-25 Genomedx Biosciences Inc. Systems and methods for expression-based classification of thyroid tissue
SG10201401722XA (en) 2009-05-01 2014-08-28 Genomic Health Inc Gene expression profile algorithm and test for likelihood of recurrence of colorectal cancer andresponse to chemotherapy
US8669057B2 (en) 2009-05-07 2014-03-11 Veracyte, Inc. Methods and compositions for diagnosis of thyroid conditions
EP2427574A2 (en) 2009-05-08 2012-03-14 The Ohio State University Research Foundation Microrna expression profiling and targeting in chronic obstructive pulmonary disease (copd) lung tissue and methods of use thereof
EP2775300A3 (en) 2009-08-28 2015-04-01 Asuragen, INC. miRNA Biomarkers of Lung Disease
US8828656B2 (en) 2009-08-31 2014-09-09 University Of Bremen Microrna-based methods and compositions for the diagnosis, prognosis and treatment of tumor involving chromosomal rearrangements
US9110065B2 (en) 2009-09-21 2015-08-18 Paul Walfish Methods and compositions for the diagnosis and treatment of thyroid cancer
CA2776228A1 (en) 2009-10-01 2011-04-07 Chipdx Llc System and method for classification of patients
US20120329666A1 (en) 2009-10-05 2012-12-27 Duke University Peripheral Blood Biomarkers for Idiopathic Interstitial Pneumonia and Methods of Use
CN102858991A (zh) 2009-10-15 2013-01-02 克雷桑多生物科技公司 生物标志物及炎性疾病活动性的测量和监测方法
US8975019B2 (en) 2009-10-19 2015-03-10 University Of Massachusetts Deducing exon connectivity by RNA-templated DNA ligation/sequencing
US20120282276A1 (en) 2009-11-05 2012-11-08 The Regents Of The University Of Michigan Biomarkers predictive of progression of fibrosis
US10446272B2 (en) 2009-12-09 2019-10-15 Veracyte, Inc. Methods and compositions for classification of samples
WO2011079846A2 (en) 2009-12-30 2011-07-07 Rigshospitalet Mrna classification of thyroid follicular neoplasia
GB201000688D0 (en) 2010-01-15 2010-03-03 Diagenic Asa Product and method
CA2787994C (en) 2010-01-26 2021-01-12 National Jewish Health Diagnosis and prognosis of idiopathic interstitial pneumonia by rs35705950 snp in muc5b gene promoter
EP2366800A1 (en) 2010-03-01 2011-09-21 Centrum Onkologii-Instytut im M. Sklodowskiej-Curie Oddzial w Gliwicach Kit, method and use for the diagnosis of papillary thyroid cancer using a gene expression profile
WO2011116380A2 (en) 2010-03-19 2011-09-22 H. Lee Moffitt Cancer Center And Research Institute, Inc. Hybrid model for the classification of carcinoma subtypes
US20130029873A1 (en) * 2010-04-12 2013-01-31 University Health Network Methods and compositions for diagnosing pulmonary fibrosis subtypes and assessing the risk of primary graft dysfunction after lung transplantation
US9157123B2 (en) 2010-04-20 2015-10-13 The Johns Hopkins University Genetic amplification of IQGAP1 in cancer
US20110269142A1 (en) 2010-04-30 2011-11-03 President And Fellows Of Harvard College Clinical Method for Individualized Epithelial Cancer Screening Involving ERCC5 and IGF2R Genetic Testing and Gene-Environment Interactions
CN106498076A (zh) 2010-05-11 2017-03-15 威拉赛特公司 用于诊断病状的方法和组合物
US20190100809A1 (en) 2010-05-11 2019-04-04 Veracyte, Inc. Algorithms for disease diagnostics
CN104777313B (zh) 2010-07-09 2017-09-26 私募蛋白质体公司 肺癌生物标记及其用途
US20130295571A1 (en) 2010-10-29 2013-11-07 Institut National De La Santee Et De La Recherche Medicale ( Inserm) Marker of breast tumors from the luminal-b subtype
AU2011329772B2 (en) 2010-11-17 2017-05-04 Interpace Diagnostics, Llc miRNAs as biomarkers for distinguishing benign from malignant thyroid neoplasms
WO2012085948A1 (en) 2010-12-21 2012-06-28 Decode Genetics Ehf Genetic variants useful for risk assessment of thyroid cancer
KR20140024270A (ko) * 2010-12-30 2014-02-28 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
WO2012094744A1 (en) 2011-01-11 2012-07-19 University Health Network Prognostic signature for oral squamous cell carcinoma
WO2012123972A1 (en) 2011-03-17 2012-09-20 Decode Genetics Ehf Genetic variants useful for risk assessment of thyroid cancer
CA2830069C (en) 2011-03-20 2019-11-12 The University Of British Columbia Therapeutic agent for emphysema and copd
US8945829B2 (en) 2011-03-22 2015-02-03 Cornell University Distinguishing benign and malignant indeterminate thyroid lesions
EP2505664B1 (en) 2011-03-30 2014-12-03 Universität Leipzig Method and means for distinguishing malignant from benign tumor samples, in particular in routine air dried fine needle aspiration biopsy (FNAB)
AU2012249288C1 (en) * 2011-04-29 2017-12-21 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
US20120288860A1 (en) 2011-05-12 2012-11-15 George Mason University Differential gene expression for detecting and/or differentiating lung disease
US20140302042A1 (en) 2011-07-01 2014-10-09 Dana-Farber Cancer Institute, Inc. Methods of predicting prognosis in cancer
KR20130017525A (ko) 2011-08-11 2013-02-20 주식회사 젠닥스 대장암, 유방암, 신장암 또는 갑상선암의 조기 진단을 위한 바이오 마커 및 이의 용도
EP2751292A4 (en) 2011-09-01 2015-05-20 Allegro Diagnostics Corp METHOD AND COMPOSITIONS FOR DETECTING CANCER BASED ON MIRNA EXPRESSION PROFILES
WO2013049152A2 (en) 2011-09-26 2013-04-04 Allegro Diagnostics Corp. Methods for evaluating lung cancer status
WO2013066678A1 (en) 2011-10-26 2013-05-10 Georgetown University Microrna expression profiling of thyroid cancer
US20130142728A1 (en) 2011-10-27 2013-06-06 Asuragen, Inc. Mirnas as diagnostic biomarkers to distinguish benign from malignant thyroid tumors
WO2013074938A2 (en) 2011-11-18 2013-05-23 The University Of Chicago Biomarkers for assessing idopathic pulmonary fibrosis
GB2511221B (en) 2011-12-09 2020-09-23 Veracyte Inc Methods and compositions for classification of samples
WO2013086524A1 (en) 2011-12-09 2013-06-13 The Johns Hopkins University Compositions and methods for characterizing thyroid neoplasia
EP2788771A1 (en) 2011-12-09 2014-10-15 Pronota NV Ltbp2 as a biomarker for lung injury
GB2513732B (en) 2011-12-10 2020-12-02 Veracyte Inc Methods and compositions for sample identification
WO2013088457A1 (en) 2011-12-13 2013-06-20 Decode Genetics Ehf Genetic variants useful for risk assessment of thyroid cancer
CA2799163A1 (en) 2011-12-18 2013-06-18 20/20 Genesystems, Inc. Methods and algorithms for aiding in the detection of cancer
US20130184999A1 (en) 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
AU2013229762A1 (en) 2012-03-09 2014-09-25 Caris Life Sciences Switzerland Holdings Gmbh Biomarker compositions and methods
WO2013138726A1 (en) 2012-03-15 2013-09-19 Sabiosciences Corp. Thyroid cancer biomarker
JP2013212052A (ja) 2012-03-30 2013-10-17 Yale Univ Krasバリアントおよび腫瘍生物学
US20140010861A1 (en) * 2012-04-02 2014-01-09 modeRNA Therapeutics Modified polynucleotides for the production of proteins associated with human disease
EP2841603A4 (en) 2012-04-26 2016-05-25 Allegro Diagnostics Corp METHODS OF ASSESSING THE STATUS OF LUNG CANCER
WO2013169858A1 (en) 2012-05-08 2013-11-14 The Broad Institute, Inc. Diagnostic and treatment methods in patients having or at risk of developing resistance to cancer therapy
US9677138B2 (en) 2012-05-20 2017-06-13 Trustees Of Boston University Methods and systems for monitoring, diagnosing, and treating chronic obstructive pulmonary disease
WO2013182951A1 (en) 2012-06-08 2013-12-12 Koninklijke Philips N.V. Method and system for monitoring the lung function of a patient
WO2013190092A1 (en) 2012-06-21 2013-12-27 Philip Morris Products S.A. Gene signatures for copd diagnosis
US10047401B2 (en) 2012-08-20 2018-08-14 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Expression protein-coding and noncoding genes as prognostic classifiers in early stage lung cancer
US9994907B2 (en) 2012-09-20 2018-06-12 Genomedx Biosciences, Inc. Thyroid cancer diagnostics
EP2906712A1 (en) 2012-10-10 2015-08-19 Stichting Het Nederlands Kanker Instituut- Antoni van Leeuwenhoek Ziekenhuis Methods and means for predicting resistance to anti-cancer treatment
BR102013027577A2 (pt) 2012-10-25 2016-03-29 Memorialsloan Kettering Cancer Ct método de detecção de um nível aumentado de axl ou gas6 e método de identificação de um paciente com câncer resistente a inibidor de egfr
US20140143188A1 (en) 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
AU2013352339B2 (en) 2012-11-27 2019-07-04 Pontificia Universidad Catolica De Chile Compositions and methods for diagnosing thyroid tumors
AU2013355260B2 (en) 2012-12-04 2019-07-25 Caris Mpi, Inc. Molecular profiling for cancer
EP3542850A1 (en) 2012-12-14 2019-09-25 Mindera Corporation Methods and devices for detection and acquisition of biomarkers
US20140220006A1 (en) 2013-02-01 2014-08-07 Meso Scale Technologies, Llc Lung cancer biomarkers
CA2902871A1 (en) 2013-03-12 2014-10-09 Cepheid Methods of detecting cancer
US10526655B2 (en) 2013-03-14 2020-01-07 Veracyte, Inc. Methods for evaluating COPD status
CA2905620A1 (en) 2013-03-15 2014-10-02 Biotheranostics, Inc. Neuroendocrine tumors
JP6577873B2 (ja) 2013-03-15 2019-09-18 フンダシオ、インスティトゥト、デ、レセルカ、ビオメディカ(イエレベ、バルセロナ)Fundacio Institut De Recerca Biomedica (Irb Barcelona) がんの転移の予後診断および処置のための方法
BR112015022490A2 (pt) 2013-03-15 2017-07-18 Veracyte Inc métodos e composições para classificação de amostras
CN105378110B (zh) 2013-04-17 2024-06-25 生命技术公司 与癌症相关的基因融合体和基因变异体
EP2993980B1 (en) 2013-05-10 2023-11-01 Memorial Sloan Kettering Cancer Center Lipid scavenging in ras cancers
US11031105B2 (en) 2013-11-07 2021-06-08 Medial Research Ltd. Methods and systems of evaluating a risk of lung cancer
PL406033A1 (pl) 2013-11-14 2015-05-25 Warszawski Uniwersytet Medyczny Sposób diagnozowania raka brodawkowatego tarczycy, zastosowanie markera mikroRNA do diagnozowania nowotworu tarczycy, oceny stopnia zaawansowania choroby oraz oceny podatności pacjenta i/lub choroby na zaproponowane leczenie oraz zawierający takie markery zestaw diagnostyczny
US9708667B2 (en) 2014-05-13 2017-07-18 Rosetta Genomics, Ltd. MiRNA expression signature in the classification of thyroid tumors
US20160130656A1 (en) 2014-07-14 2016-05-12 Allegro Diagnostics Corp. Methods for evaluating lung cancer status
CN114606309A (zh) * 2014-11-05 2022-06-10 威拉赛特公司 使用机器学习和高维转录数据的诊断系统和方法
WO2016094330A2 (en) 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
EP3265588A4 (en) 2015-03-04 2018-10-10 Veracyte, Inc. Methods for assessing the risk of disease occurrence or recurrence using expression level and sequence variant information
US20170127976A1 (en) 2015-06-11 2017-05-11 Michael Phillips Method and apparatus for identification of biomarkers in breath and methods of usng same for prediction of lung cancer
WO2017065959A2 (en) 2015-09-25 2017-04-20 Veracyte, Inc. Methods and compositions that utilize transcriptome sequencing data in machine learning-based classification
EP4180531A3 (en) 2016-05-12 2023-08-23 Trustees of Boston University Nasal epithelium gene expression signature and classifier for the prediction of lung cancer
US10927417B2 (en) 2016-07-08 2021-02-23 Trustees Of Boston University Gene expression-based biomarker for the detection and monitoring of bronchial premalignant lesions
CA3033241A1 (en) 2016-09-07 2018-03-15 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
CN110958853B (zh) 2017-06-02 2023-08-25 威拉赛特公司 用于鉴定或监测肺病的方法和系统
US11217329B1 (en) 2017-06-23 2022-01-04 Veracyte, Inc. Methods and systems for determining biological sample integrity
GB2581584A (en) 2017-07-27 2020-08-26 Veracyte Inc Genomic sequencing classifier

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620309A (zh) * 2001-12-18 2005-05-25 蒙多生物技术实验室 用于结合分子诊断法改进间质性肺疾病的治疗的干扰素γ或甲苯吡啶酮的新型药物组合物
EP2295599A1 (en) * 2008-06-05 2011-03-16 Saga University Method for detection of idiopathic interstitial pneumonia
WO2013148232A1 (en) * 2012-03-27 2013-10-03 Genentech, Inc. Methods of prognosing, diagnosing and treating idiopathic pulmonary fibrosis
WO2014144564A2 (en) * 2013-03-15 2014-09-18 Veracyte, Inc. Biomarkers for diagnosis of lung diseases and methods of use thereof
WO2014144821A1 (en) * 2013-03-15 2014-09-18 Intermune, Inc. Proteomic ipf markers

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IVANA V YANG等: "Expression of cilium-associated genes defines novel", 《THORAX》 *
IVANA V.YANG等: "Epigenetics of idiopathic pulmonary fibrosis", 《TRANSLATIONAL RESEARCH》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838363A (zh) * 2018-08-16 2020-02-25 宏达国际电子股份有限公司 控制方法以及医学系统
CN110838363B (zh) * 2018-08-16 2023-02-21 宏达国际电子股份有限公司 控制方法以及医学系统
CN112602153A (zh) * 2018-08-30 2021-04-02 生命科技股份有限公司 用于对pcr测定进行基因分型的机器学习系统
CN111401214A (zh) * 2020-03-12 2020-07-10 四川大学华西医院 一种基于深度学习的多分辨率集成her2判读方法
CN111401214B (zh) * 2020-03-12 2023-04-18 四川大学华西医院 一种基于深度学习的多分辨率集成her2判读方法
CN113607941A (zh) * 2020-10-22 2021-11-05 广州中医药大学顺德医院(佛山市顺德区中医院) 一种新型冠状病毒肺炎重症区分与疗效评价系统

Also Published As

Publication number Publication date
US20210324464A1 (en) 2021-10-21
JP2021164484A (ja) 2021-10-14
CN114606309A (zh) 2022-06-10
EP3215170A1 (en) 2017-09-13
EP3770274A1 (en) 2021-01-27
US20210079471A1 (en) 2021-03-18
EP3215170A4 (en) 2018-04-25
JP2018504138A (ja) 2018-02-15
US11639527B2 (en) 2023-05-02
US20240110242A1 (en) 2024-04-04
US20170335396A1 (en) 2017-11-23
JP7356788B2 (ja) 2023-10-05
WO2016073768A1 (en) 2016-05-12

Similar Documents

Publication Publication Date Title
CN107206043A (zh) 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法
CN105247075B (zh) 用于诊断肺病的生物标记物及其使用方法
US11932910B2 (en) Combinatorial DNA screening
CN107475375B (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
US20190249260A1 (en) Method for Using Gene Expression to Determine Prognosis of Prostate Cancer
CN103403181B (zh) ncRNA及其用途
CN110313034A (zh) 用于具有非均匀分子长度的独特分子索引集合的生成和错误校正的方法和系统
CN109790583A (zh) 对肺腺癌亚型分型的方法
US8574832B2 (en) Methods for preparing sequencing libraries
CN109689892A (zh) 用于检测寻常型间质性肺炎的方法和系统
CN106795565A (zh) 用于评估肺癌状态的方法
CN110177886A (zh) 基于胃癌生物学特征的集群分类及预后预测系统
CN105849279A (zh) 用于识别疾病诱导的突变的方法和系统
WO2014071279A2 (en) Gene fusions and alternatively spliced junctions associated with breast cancer
KR20140006898A (ko) 결장암 유전자 발현 시그니처 및 이용 방법
KR20110057188A (ko) 바이오마커 프로파일 측정 시스템 및 방법
TW200914623A (en) Prognosis prediction for melanoma cancer
AU2020201779B2 (en) Method for using gene expression to determine prognosis of prostate cancer
IL296316A (en) Systems and methods for deconvolution of expression data
CN113889187B (zh) 单样本等位基因拷贝数变异检测方法、探针组和试剂盒
Zhou et al. SCAPE: a mixture model revealing single-cell polyadenylation diversity and cellular dynamics during cell differentiation and reprogramming
CN101400804A (zh) 用于结肠直肠癌预后的基因表达标志物
WO2020194057A1 (en) Biomarkers for disease detection
Wood et al. Reticulate evolution in Conidae: Evidence of nuclear and mitochondrial introgression
CN104561015B (zh) Myl4基因突变体及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Veracyte Inc.

Address before: American California

Applicant before: VERACYTE INC