CN114634985A

CN114634985A - 使用表达水平和序列变体信息评估疾病发生或复发风险的方法

Info

Publication number: CN114634985A
Application number: CN202210267696.9A
Authority: CN
Inventors: G·C·肯尼迪; M·帕甘; 林竹芳; 黄静; P·肖恩·沃尔什; 松崎新; 凯文·特拉弗斯; 金洙延
Original assignee: Veracyte Inc
Current assignee: Veracyte Inc
Priority date: 2015-03-04
Filing date: 2016-03-03
Publication date: 2022-06-17
Also published as: WO2016141127A1; US20180016642A1; AU2016226253A1; CN107636171A; EP3265588A4; CA2978442A1; JP2022050571A; EP3265588A1; JP2018514187A

Abstract

本文提供了通过组合两个或更多个特征空间对从受试者获得的样品的疾病发生风险进行分层从而改善受试者管理个体化的方法、系统和试剂盒。

Description

使用表达水平和序列变体信息评估疾病发生或复发风险的方法

本申请是申请日为2016年03月03日、申请号为201680026050.4、发明名称为“使用表达水平和序列变体信息评估疾病发生或复发风险的方法”的中国专利申请(其对应PCT申请的申请日为2016年03月03日、申请号为PCT/US2016/020583)的分案申请。

交叉引用

本申请要求于2015年3月4日提交的美国临时申请62/128,463、于2015年3月4日提交的美国临时申请62/128,469和于2015年10月8日提交的美国临时申请62/238,893的优先权，每个申请均通过引用而整体并入本文。

背景技术

疾病治疗如甲状腺癌治疗的风险调整方法，除了改善疾病特异性生存之外，还可使疾病发生风险减至最小。目前，这种用于初始受试者管理的风险调整方法在很大程度上基于采用2009年美国甲状腺协会(ATA)分级系统进行的将受试者分类为高、中或低疾病复发风险的术后分类。虽然这种解剖学分级系统已被证明在临床上有用，但其不能在侵入性甲状腺切除术之前得到准确的评估，并且不包括疾病结果的任何分子预测因子。

发明内容

本文提供了用于对疾病发生和/或复发的风险进行评估或分层的各种方法。在预诊断或诊断性评估如细针抽吸(FNA)期间获得的转录数据可改善疾病如甲状腺癌发生的术前风险预测，并且可进一步提供受试者疗法和治疗的个体化。本公开内容的方法可以以相对非侵入性方式以及使用低样品体积来提供针对于疾病发生和/或复发风险的评估。

本公开内容的一个方面提供了一种用于评估受试者的组织样品以确定所述受试者的疾病发生风险的方法。所述方法包括(a)获得与从所述受试者获得的针抽吸样品中的核酸样品中第一组基因的一个或多个基因中的每一个相对应的表达水平，所述第一组基因与所述受试者的所述疾病发生风险相关；(b)确定与所述核酸样品中第二组基因的一个或多个基因中的每一个相对应的核酸序列的存在，所述第二组基因与所述受试者的所述疾病发生风险相关；(c)分别将(i)在(a)中获得的所述表达水平以及(ii)在(b)中获得的所述核酸序列与对照进行比较，以提供所述表达水平以及所述核酸序列与所述对照的比较，其中所述核酸序列与所述对照中的参考序列的比较指示针对于所述第二组基因的给定基因的一个或多个序列变体的存在；以及(d)使用采用经训练的算法编程的计算机处理器，(i)分析所述比较，以及(ii)基于所述比较确定所述疾病的发生风险。

在一些实施方案中，所述针抽吸样品为细针抽吸样品。在一些实施方案中，所述疾病为癌症。在一些实施方案中，所述方法进一步包括在(a)之前，从所述受试者获得所述针抽吸样品。在一些实施方案中，所述方法进一步包括在(a)之前，从所述针抽吸样品中的所述核酸样品确定所述表达水平。在一些实施方案中，所述方法进一步包括在(b)之前，从所述针抽吸样品中的所述核酸样品确定所述核酸序列。在一些实施方案中，所述方法进一步包括将所述核酸序列与所述参考序列进行比较，以鉴定所述一个或多个序列变体。在一些实施方案中，所述参考序列为来自所述受试者的管家基因。在一些实施方案中，所述第一组或第二组基因中的所述一个或多个基因包括多个基因。

在一些实施方案中，所述针抽吸样品已被发现是细胞学上不明确的或可疑的。在一些实施方案中，所述针抽吸样品具有约1微升或更小的体积。在一些实施方案中，所述针抽吸样品具有约9.0或更小的RNA完整性指数(RIN)值。在一些实施方案中，从针抽吸样品纯化的RNA具有约9.0或更小的RNA RIN值。在一些实施方案中，所述针抽吸样品具有约6.0或更小的RIN值。在一些实施方案中，所述RNA样品具有约6.0或更小的RIN值。

在一些实施方案中，所述疾病的发生风险包括所述受试者的所述疾病的复发风险。在一些实施方案中，所述癌症的发生风险包括在所述受试者中转移的风险。在一些实施方案中，所述癌症的发生风险包括疾病进展加速的风险。在一些实施方案中，所述癌症的发生风险包括治疗失败的风险。

在一些实施方案中，所述经训练的算法采用来自至少25名或至少100名已被诊断为患有所述疾病的受试者的组织样品进行训练。在一些实施方案中，所述经训练的算法采用来自至少200名已被诊断为患有所述疾病的受试者的组织样品进行训练。

在一些实施方案中，(d)发生在术前。在一些实施方案中，(d)发生在所述受试者具有阳性疾病诊断之前。在一些实施方案中，(d)进一步包括将所述发生风险分层为低发生风险或中高发生风险，其中所述低发生风险具有约50％至约80％的发生概率，并且其中所述中高发生风险具有约80％至100％的发生概率。

在一些实施方案中，所述方法进一步包括将一个或多个过滤器、一个或多个包装器、一个或多个嵌入式协议或其任意组合应用于所述比较。在一些实施方案中，将所述一个或多个过滤器应用于所述比较。在一些实施方案中，所述一个或多个过滤器包括t检验、方差分析(ANOVA)、贝叶斯框架、伽马分布、Wilcoxon秩和检验、类间内平方和检验、秩乘积法、随机置换法、误分类数目阈值(TNoM)、双变量法、基于相关性的特征选择(CFS)法、最小冗余最大相关性(MRMR)法、Markov毯过滤法、非相关收缩重心法(uncorrelated shrunkencentroid method)或其任意组合。在一些实施方案中，所述一个或多个序列变体包含点突变、融合基因、置换、缺失、插入、倒位、转变(conversion)、易位或其任意组合中的一种或多种。在一些实施方案中，所述一个或多个点突变为约5个至约4000个点突变。在一些实施方案中，所述一个或多个融合基因为至少两个融合基因。

在一些实施方案中，所述分层具有约80％的准确度。在一些实施方案中，所述分层具有约80％的特异性。在一些实施方案中，所述第一组或第二组的所述一个或多个基因为少于约15个基因或少于约10个基因。在一些实施方案中，所述第一组或第二组的所述一个或多个基因为少于约75个基因。在一些实施方案中，所述第一组或第二组的所述一个或多个基因为约50个至约400个基因。

在一些实施方案中，(b)中的获得包括对所述针抽吸样品中的核酸样品进行测序以获得核酸序列。在一些实施方案中，所述测序包括富集第二组基因的所述一个或多个基因或其变体。在一些实施方案中，(a)包括使用具有对所述第一组基因的所述一个或多个基因具有选择性的探针的微阵列。在一些实施方案中，(a)包括使用靶向测序平台(如IonTorrent Ampliseq或Illumina TruSeq Custom Amplicon)。

在一些实施方案中，所述组织样品为甲状腺组织样品。在一些实施方案中，所述第一组和第二组基因包含COL1A1、THBS2或其任意组合。在一些实施方案中，所述第二组基因包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1或其任意组合。在一些实施方案中，所述第一组基因包含COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1或其任意组合。在一些实施方案中，所述第二组基因包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24或其任意组合。在一些实施方案中，所述第二组基因包含AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP或其任意组合。

在一些实施方案中，所述第一组基因和所述第二组基因是不同的。在一些实施方案中，所述方法进一步包括鉴定所述疾病的新型遗传生物标志物。

在一些实施方案中，(a)中的获得包括测定与所述一个或多个基因中的每一个相对应的表达水平。在一些实施方案中，所述测定包括使用针对所述一个或多个基因中的每一个所选择的标志物进行的阵列杂交、核酸测序或核酸扩增。在一些实施方案中，所述标志物为针对所述一个或多个基因中的每一个所选择的引物。

在一些实施方案中，所述测定包括逆转录聚合酶链反应(PCR)。在一些实施方案中，所述确定包括测定所述核酸样品中所述第二组基因的所述一个或多个基因中的每一个。在一些实施方案中，所述测定包括使用针对所述一个或多个基因中的每一个所选择的标志物进行的阵列杂交、核酸测序或核酸扩增。在一些实施方案中，所述标志物为针对所述一个或多个基因中的每一个所选择的引物。在一些实施方案中，所述测定包括逆转录聚合酶链反应(PCR)。

本公开内容的另一个方面提供了一种包含机器可执行代码的计算机可读介质(例如，存储器)，该机器可执行代码在由一个或多个计算机处理器执行时实现本文上面或其他地方所述的任何方法。

本公开内容的另一个方面提供了一种包含一个或多个计算机处理器和与所述一个或多个计算机处理器耦合的计算机可读介质的计算机系统。所述计算机可读介质可包含机器可执行代码，该机器可执行代码在由所述一个或多个计算机处理器执行时实现本文上面或其他地方所述的任何方法。

通过下面的发明详述，本公开内容另外的方面和优点将变得对本领域技术人员而言显而易见，发明详述中仅示出并描述了本公开内容的说明性实施方案。应当认识到，本公开内容能够具有其他和不同的实施方案，并且其若干细节能够在各个明显的方面中进行修改，所有这些都不脱离本公开内容。因此，附图和详述将被视为在本质上是说明性的，而不是限制性的。

援引并入

在本说明书中所提及的所有出版物、专利和专利申请都通过引用并入本文，其程度犹如特别地和单独地指出每个单独的出版物、专利或专利申请通过引用而并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾时，本说明书旨在替代和/或优先于任何这类矛盾的材料。

附图说明

本发明的新特征在附加的权利要求书中详细阐明。通过参考对利用本发明原理的说明性实施方案加以阐述的以下详细说明和附图(本文中也称为“图”)，将会获得对本发明的特征和优点的更好的理解，附图中：

图1示出了被分层为低癌症发生风险和中高癌症发生风险的样品群组的细胞学数据和专家组织病理学数据；

图2示出了组织病理学风险特征以及每个特征的样品数目和百分比；

图3示出了以真阳性率针对假阳性率绘图的交叉验证；

图4示出了绘制预测值针对中高风险发生率的分类性能数据；

图5示出了低风险组和中高风险组中的分类性能数据；

图6示出了基于基因表达水平数据与甲状腺癌发生风险相关的基因的示例性列表；

图7示出了基于从核糖核酸(RNA)测序获得的基因表达水平数据与甲状腺癌发生风险相关的基因的示例性列表；

图8示出了基于序列变体数据与甲状腺癌发生风险相关的基因的示例性列表；

图9示出了被编程或以其他方式配置为实现本文提供的方法的计算机控制系统；

图10示出了确定准确的训练标记的流程图；

图11A示出了以真阳性率针对假阳性率绘图的交叉验证；

图11B示出了中/高风险组和低风险组中的分类性能数据；

图12示出了由分类器以每种倍数选择的变体的基因的示例性列表；

图13示出了由分类器以10倍选择8至10次的计数的基因的示例性列表；

图14示出了五个点突变组和融合对的表格；

图15示出了五组突变和融合对中的测试性能特异性和灵敏度的图；

图16示出了按照细胞学，图14和图15中组3的突变性能的表格；

图17示出了五组突变和融合对中的测试性能特异性和灵敏度的图；

图18A示出了表示临床实验室改进修正(CLIA)细针抽吸(FNA)样品的突变频率的图示；图18B示出了其表格；

图19A示出了表示FNA样品的突变频率的图示；图19B示出了其表格；以及

图20A示出了表示组织样品的突变频率的图示；图20B示出了其表格。

具体实施方式

尽管本文已经显示并描述了本发明的不同的实施方案，但对本领域技术人员而言显而易见的是，这些方案仅以举例的方式提供。在不脱离本发明的情况下，本领域技术人员可能想到许多变化、改变和替代。应理解，可采用本文描述的本发明实施方案的各种替代方案。

如本文所用的术语“受试者”通常是指任何动物或活生物体。动物可以是哺乳动物，如人类、非人类灵长类动物、啮齿动物如小鼠和大鼠、狗、猫、猪、羊、兔及其他动物。动物可以是鱼、爬行动物或其他动物。动物可以是新生、幼体(infant)、成年前(adolescent)或成年动物。人类可以大于约1、2、5、10、20、30、40、50、60、65、70、75岁或约80岁。受试者可以患有或疑似患有疾病，如癌症。受试者可以是患者，如接受疾病治疗的患者，如癌症患者。受试者可能容易具有发展疾病如癌症的风险。受试者可以处于疾病缓解中，如癌症患者。受试者可以是健康的。

如本文所用的术语“疾病”通常是指影响受试者的任何异常或病理状况。疾病的实例包括癌症，例如，甲状腺癌、甲状旁腺癌、肺癌、皮肤癌及其他癌症。疾病可以是可治疗的或不可治疗的。疾病可以是晚期的或非晚期的。疾病可以是由遗传基因、环境暴露或其任意组合引起。疾病可以是癌症、遗传病、增生性病症或如本文所述的其他疾病。

如本文所定义的术语“疾病发生风险”通常是指与受试者的疾病发生相关的风险或概率。发生风险可包括疾病在受试者中首次发生，或者可以包括随后的发生，如第二次、第三次、第四次或随后发生。疾病发生风险可包括：a)首次发展疾病的风险，b)复发或再次发展疾病的风险，c)将来发展疾病的风险，d)在受试者的一生中易于发展疾病的风险，或e)作为幼体、成年前或成年易于发展疾病的风险。疾病如癌症发生的风险可包括癌症变为转移性的风险。疾病如癌症发生的风险可包括I期癌症、II期癌症、III期癌症或IV期癌症发生的风险。癌症发生风险可包括血癌、组织癌(例如肿瘤)发生的风险，或癌症从其他部位转移到一个或多个器官部位的风险。

如本文所用的术语“序列变体”、“序列变异”、“序列改变”或“等位基因变体”通常是指与参考序列，如基因组脱氧核糖核酸(DNA)参考序列、编码DNA参考序列或蛋白质参考序列或其他参考序列有关的特定变化或变异。可从参考数据库获得参考DNA序列。序列变体可能影响功能。序列变体可能不影响功能。序列变体可在DNA水平下在一个或多个核苷酸、核糖核酸(RNA)水平下在一个或多个核苷酸、蛋白质水平下在一个或多个氨基酸或其任意组合中发生。可从数据库如NCBI参考序列数据库(RefSeq)获得参考序列。可构成序列变异的特定变化可包括一个或多个核苷酸或者一个或多个氨基酸中的置换、缺失、插入、倒位或转变。序列变体可以是点突变。序列变体可以是融合基因。融合对或融合基因可由序列变体，如易位、中间缺失(interstitial deletion)、染色体倒位或其任意组合产生。序列变异可构成重复序列数目的变异性，如三重复制、四重复制或其他数目复制。例如，序列变异可以是与给定序列相关的拷贝数的增加或减少(即拷贝数变异或CNV)。序列变异可包括不同等位基因中的两个或更多个序列变化或一个等位基因中的两个或更多个序列变化。序列变异可包括在一个等位基因中的一个位置处的两个不同的核苷酸，如镶嵌体。序列变异可包括在一个等位基因中的一个位置处的两个不同的核苷酸，如嵌合体。序列变体可存在于恶性组织中。序列变体可存在于良性组织中。变体的不存在可指示组织或样品是良性的。作为替代，变体的不存在可能不指示组织或样品是良性的。

如本文所用的术语“突变组”通常是指指定用风险分类器进行检测(或询问)的特定数目的基因组位点和融合对的组。例如，突变组可包含待询问的9个基因组位点和3个融合对。通过增加检测的点突变和融合对的数目来增加风险分类器的灵敏度可降低风险分类器的灵敏度。

突变组可包含一个或多个基因组位点和一个或多个融合对。突变组可包含多于约1、2、3、4或5个基因组位点。突变组可包含多于约15个基因组位点。突变组可包含多于约100个基因组位点。突变组可包含多于约200个基因组位点。突变组可包含多于约500个基因组位点。突变组可包含多于约1000个基因组位点。突变组可包含多于约2000个基因组位点。突变组可包含多于约3000个基因组位点。突变组可包含多于约1个或2个融合对。突变组可包含多于约5个融合对。突变组可包含多于约10个融合对。突变组可包含多于约15个融合对。突变组可包含多于约20个融合对。突变组可包含多于约25个融合对。

如本文所用的术语“疾病诊断”通常是指诊断或筛查疾病，以对疾病发生风险进行分层，监测疾病的进展或缓解，制定疾病的治疗方案，或上述的任意组合。疾病诊断可包括a)从来自受试者的一个或多个组织样品获得信息，b)基于所获得的信息或组织样品，确定受试者是否具有特定疾病，c)对受试者的疾病发生风险进行分层，d)确认受试者是否患有所述疾病，是否正在发展所述疾病，或是否处于疾病缓解中，或其任意组合。疾病诊断可为疾病提示特定治疗或治疗性干预。疾病诊断还可诸如通过p值、校正的p值或统计学置信度指标来提供指示例如疾病如癌症的严重程度或等级或准确诊断可能性的得分。疾病诊断还可指示特定类型的疾病。例如，用于甲状腺癌的疾病诊断可指示亚型如滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)、许特尔细胞腺瘤(HA)、滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、许特尔细胞癌(HC)、甲状腺未分化癌(ATC)、肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)、甲状旁腺(PTA)或增生性乳头状癌(HPC)。

用于评估疾病发生或复发风险的方法

本公开内容提供了用于评估受试者的组织样品以确定受试者的疾病发生或复发风险，并在一些情况下确定该疾病的新型遗传生物标志物的方法。这样的方法可包括获得与从受试者获得的核酸样品中第一组基因的一个或多个基因中的每一个相对应的表达水平。在一些情况下，使用具有对所述第一组基因的所述一个或多个基因具有选择性的探针的微阵列获得所述表达水平。可由受试者或另一个体如医学专业人员获得核酸样品。第一组基因可与受试者的疾病发生风险相关。在一些实例中，通过FNA、手术(例如，手术活检)或用于从受试者获得样品的其他方法获得核酸样品。核酸样品可在从受试者获得的组织样品(如甲状腺组织样品)、血液样品或流体样品中。在实例中，核酸样品可包含在从受试者获得的FNA样品中。

接下来，确定与所述核酸样品中第二组基因的一个或多个基因中的每一个相对应的核酸序列的存在。第二组基因可与受试者的疾病发生风险相关。在一些实例中，通过对FNA样品中的核酸进行测序以获得核酸序列，来确定所述序列的存在。测序还可富集第二组基因的一个或多个基因或其变体。

接下来，将所获得的表达水平和所获得的核酸序列与对照进行比较，以提供所述表达水平以及所述核酸序列与对照的比较。所述核酸序列与所述对照中的参考序列的比较可指示针对于第二组基因的给定基因的一种或多种序列变体的存在。参考序列可以是，例如，从受试者获得的管家基因。

接下来，对所述比较进行分析，并基于所述比较确定疾病发生或复发的风险。在一些实例中，使用由一个或多个编程的计算机处理器执行的算法来对所述比较进行分析并确定疾病发生或复发的风险。该算法可以是经训练的算法(例如，在至少10、200、100或500个参考样品上进行训练的算法)。可从已经被诊断为患有疾病的受试者或从健康受试者获得参考样品。

在一些实例中，可通过测定所述表达水平获得第一组基因的所述一个或多个基因中每一个的表达水平。在一些实例中，可通过测定所述一个或多个基因中的每一个来确定与第二组基因的所述一个或多个基因中的每一个相对应的核酸序列的存在。在这样的实例中，测定可包括阵列杂交、核酸测序、核酸扩增或其他测定。测定可包括测序，如DNA或RNA测序。这样的测序可以是下一代(NextGen)测序。测定可包括逆转录聚合酶链反应(PCR)。测定可利用针对第一组或第二组基因的所述一个或多个基因中的每一个所选择的标志物，如引物。

可在获得与第一组基因的所述一个或多个基因相对应的表达水平之前，从受试者获得样品。还可在获得与第一组基因的所述一个或多个基因相对应的表达水平之前确定核酸样品的多个基因的表达水平。在一些情况下，可在确定第二组基因的核酸序列的存在之前，确定样品中所述多个基因的核酸序列。

在一些实例中，所述疾病为癌症，如甲状腺癌、乳腺癌或其他癌症。确定发生或复发风险还可在非癌性疾病如遗传病、过度增生性病症或其他疾病中确定。

从受试者获得的样品可以是细胞学上不明确的或可疑的(或不确定的)。在一些情况下，样品可提示疾病的存在。从受试者获得的样品的体积可以是少量的，如约100微升、50微升、10微升、5微升、1微升或更少。样品可包含低数量或低质量的多核苷酸，如具有降解或部分降解的RNA的组织样品。例如，FNA样品可产生低数量或低质量的多核苷酸。在这样的实例中，样品的RNA完整性指数(RIN)值可以为约9.0或更小。在一些实例中，RIN值可以为约6.0或更小。

疾病发生风险可包括随后发生，如第二次、第三次、第四次或更往后发生的风险。疾病发生风险可包括以下的一种或多种：a)首次发展疾病的风险，b)复发或再次发展疾病的风险，c)将来发展疾病的风险，d)在受试者的一生中易于发展疾病的风险，e)作为婴儿、青少年或成年人易于发展疾病的风险。在疾病为癌症的情况下，发生风险可包括癌症变为转移性的风险。

风险的确定可在术前，如在患者的手术之前完成。临床医师可建议，例如，如果患者被确定为具有乳头状甲状腺癌低风险，则继续对患者进行观察而不是建议手术。在一些情况下，如果患者被确定为具有乳头状甲状腺癌高风险，则临床医师更可能建议患者进行手术。可在受试者具有阳性疾病诊断之前，如当受试者疑似患有疾病时或在常规临床程序期间进行确定。

风险的确定可进一步包括将风险分层为低发生风险或中高发生风险。在一些实例中，低风险可以是约50％至约80％的发生概率，而中高风险可以是约80％至100％的发生概率。

将风险准确分层为低风险组和中高风险组可发生在约80％的分析样品中。可在约50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％或约99％的分析样品，包括被鉴定为细胞学上不明确的或可疑的样品中准确地确定风险分层。将风险分层为低风险组和中高风险组可以为至少约80％特异的。在一些实例中，风险分层的特异性可以为约50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高，包括被鉴定为细胞学上不明确的或可疑的样品。

第一组或第二组基因中的所述一个或多个基因可包括多个基因，如约2、10、20、40个基因或更多个基因。第一组或第二组中的所述一个或多个基因可以为少于约10个基因、20个基因、50个基因、60个基因或约75个基因。第一组或第二组的所述一个或多个基因可以为约50个至约400个基因。第一组基因可包含图6或图7的基因。第二组基因可包含图8的基因。

第一组和第二组基因可以是相同的组。例如，第一组和第二组基因可包含COL1A1、THBS2或其任意组合。

第一组和第二组基因可以是不同的组。第二组基因可包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1或其任意组合。第一组基因可包含COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1或其任意组合。第二组基因可包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24或其任意组合。第二组基因可包含AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP或其任意组合。

样品

从受试者获得的样品可包括组织、细胞、细胞碎片、细胞器、核酸、基因、基因片段、表达产物、基因表达产物、基因表达产物片段或其任意组合。样品可以是异质的或均质的。样品可包括血液、尿液、脑脊液、精液、唾液、痰、粪便、淋巴液、组织或其任意组合。样品可以是组织特异性样品，如从甲状腺组织、皮肤、心脏、肺、肾脏、乳房、胰腺、肝脏、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、食道或前列腺获得的样品。

可通过各种方法，例如，细针抽吸(FNA)、芯针活检、真空辅助活检、切开活检、切除活检、钻取活检、刮取活检、皮肤活检或其任意组合获得本公开内容的样品。

FNA也称为细针抽吸活检(FNAB)或针抽吸活检(NAB)，其为从受试者获得少量组织的方法。FNA可以比组织活检具有更小的侵入性，而为了获得组织活检可能需要对受试者进行手术和住院治疗。可将FNA方法的针插入受试者的组织块中，以获得用于进一步分析的样品量。在一些情况下，可将两根针插入组织块中。可通过穿过组织块的针的一个或多个通道获取从组织块获得的FNA样品。在一些情况下，FNA样品可包含少于约6x10⁶、5x10⁶、4x10⁶、3x10⁶、2x10⁶、1x10⁶个细胞或更少的细胞。可通过超声或其他成像装置将针引导至组织块。针可以是中空的，以允许通过抽吸或真空或其他抽吸技术利用针来回收FNA样品。

使用本文公开的方法获得的样品，如FNA样品，可以包含低样品体积。样品体积可小于约500微升(uL)、400uL、300uL、200uL、100uL、75uL、50uL、25uL、20uL、15uL、10uL、5uL、1uL、0.5uL、0.1uL、0.01uL或更小。样品体积可小于约1uL。样品体积可小于约5uL。样品体积可小于约10uL。样品体积可小于约20uL。样品体积可以为约1uL至约10uL。样品体积可以为约10uL至约25uL。

使用本文公开的方法获得的样品，如FNA样品，可以包含低样品重量。样品重量，如组织重量，可小于约100毫克(mg)、75mg、50mg、25mg、20mg、15mg、10mg、9mg、8mg、7mg、6mg、5mg、4mg、3mg、2mg、1mg、0.5mg、0.1mg或更小。样品重量可小于约20mg。样品重量可小于约10mg。样品重量可小于约5mg。样品重量可以为约5mg至约20mg。样品重量可以为约1mg至约5ng。

使用本文公开的方法获得的样品，如FNA，可包含低细胞数目。单个样品的细胞数目可少于约10x10⁶、5.5x10⁶、5x10⁶、4.5x10⁶、4x10⁶、3.5x10⁶、3x10⁶、2.5x10⁶、2x10⁶、1.5x10⁶、1x10⁶、0.5x10⁶、0.2x10⁶、0.1x10⁶个细胞或更少。单个样品的细胞数目可少于约5x10⁶个细胞。单个样品的细胞数目可少于约4x10⁶个细胞。单个样品的细胞数目可少于约3x10⁶个细胞。单个样品的细胞数目可少于约2x10⁶个细胞。单个样品的细胞数目可以为约1x10⁶至约5x10⁶个细胞。单个样品的细胞数目可以为约1x10⁶至约10x10⁶个细胞。

使用本文公开的方法获得的样品，如FNA，可包含低脱氧核糖核酸(DNA)或核糖核酸(RNA)量。单个样品中DNA或RNA的量可少于约500纳克(ng)、400ng、300ng、200ng、100ng、75ng、50ng、45ng、40ng、35ng、30ng、25ng、20ng、15ng、10ng、5ng、1ng、0.5ng、0.1ng或更少。DNA或RNA的量可少于约40ng。DNA或RNA的量可少于约25ng。DNA或RNA的量可少于约15ng。DNA或RNA的量可以为约1ng至约25ng。DNA或RNA的量可以为约5ng至约50ng。

样品的RNA产量或RNA量可以测得为纳克到微克的量。可用于在实验室中测定核酸产量的设备的实例是

分光光度计、

荧光计或QUANTUS^TM荧光计。

测量的精确度在极低RNA浓度时可能显著降低。从本文所述方法获得的数据质量可能依赖于RNA量。可由通过

测量具有低RNA浓度或检测不到的RNA浓度的样品产生有意义的基因表达数据或序列变体数据或其他数据。在一些情况下，可从具有检测不到的RNA浓度的样品产生基因表达数据或序列变体数据或其他数据。

可以使用具有低数量或低质量的多核苷酸如DNA或RNA的样品进行本文所述的方法。具有低数量或低质量RNA的样品可以是例如降解或部分降解的组织样品。具有低数量或低质量RNA的样品可以是细针抽吸(FNA)样品。可以根据计算得到的RNA完整性指数(RIN)值来测定样品中的RNA质量。RIN值是用于将完整性值赋予RNA测量的算法。该算法可以赋予1到10的RIN值，其中RIN值10可以是完全完整的RNA。如本文所述的包含RNA的样品可具有约9.0、8.0、7.0、6.0、5.0、4.0、3.0、2.0、1.0或更小的RIN值。在一些情况下，包含RNA的样品可具有等于或小于约8.0的RIN值。在一些情况下，包含RNA的样品可具有等于或小于约6.0的RIN值。在一些情况下，包含RNA的样品可具有等于或小于约4.0的RIN值。在一些情况下，样品可具有小于约2.0的RIN值。

可由另一个体或实体如医疗保健(或医学)专业人员或机器人从受试者获得样品如FNA样品。医学专业人员可包括医师、护士、医学技师或其他人员。在一些情况下，医师可以是专家，如肿瘤学家、外科医生或内分泌学家。医学技师可以是专家，如细胞学家、抽血技师、放射科医师、肺脏学家或其他专家。医学专业人员可从受试者获得用于测试的样品，或指引受试者去测试中心或实验室以提交样品。医学专业人员可指示测试中心或实验室对样品进行合适的测试或测定，如本公开内容的方法，包括确定基因序列数据、基因表达水平、序列变体数据或其任意组合。

在一些情况下，医学专业人员不必参与疾病的初始诊断或初始样品获得。个体如受试者可以另行通过使用非处方的试剂盒来获得样品。所述试剂盒可以包含如本文所述的用于获得所述样品的收集单元或装置，用于在样品分析之前储存所述样品的储存单元，以及指导使用所述试剂盒的说明书。

可以a)在术前，b)在术后，c)在癌症诊断后，d)在疾病缓解或治愈后的常规筛查期间，e)在受试者疑似患有疾病时，f)在常规门诊就诊或临床筛查期间，g)遵循医学专业人员的要求，或以上述的任意组合获得样品。可在不同的时间从同一受试者获得多个样品，如在疾病治疗开始之前和治疗结束之后，如在一段时间进程内监测受试者。可在不同的时间从受试者获得多个样品，以监测受试者的疾病进展、消退或缓解的不存在或存在。

细胞学分析

如本文所述的方法(包括评估疾病发生风险)可包括样品的细胞学分析。细胞学分析的实例包括通过任何数目的方法和合适的试剂进行的细胞染色技术和/或显微镜检查，包括但不限于：曙红-天蓝(EA)染料、苏木精染料、CYTO-STAIN^TM、巴氏染料、曙红、尼斯尔染料(nissl stain)、甲苯胺蓝、银染料、偶氮胭脂红染料、中性红或詹纳斯绿。多于一种染料可与其他染料结合使用。在一些情况下，细胞完全没有染色。可在染色程序之前或期间用例如甲醇、乙醇、戊二醛或甲醛将细胞固定和/或通透化。在一些情况下，细胞可以不进行固定。染色程序还可用于测定样品的核酸含量，例如用溴化乙锭、苏木精、尼斯尔染料或任何其他核酸染料。

样品中的细胞的显微镜检查可以包括通过用于细胞学检查的标准方法将细胞涂抹在载玻片上。可以使用基于液体的细胞学(LBC)方法。在一些情况下，LBC方法提供改善的细胞学载玻片制备方法、更均匀的样品、提高的灵敏性和特异性，或改善的样品处理效率，或其任意组合。在LBC方法中，可以将样品从受试者转移到含有LBC制剂溶液例如CYTYC

SUREPATH^TM或

或任何其他LBC制剂溶液的容器或小瓶中。另外，可以用LBC制剂溶液将样品从收集装置冲洗到容器或小瓶中，以确保基本上定量地转移样品。然后可以将在LBC制剂溶液中含有样品的溶液储存和/或由机器或本领域技术人员处理，从而在载玻片上产生一层细胞。还可以用与常规细胞学制备相同的方法将样品染色并在显微镜下检查。

可以通过免疫组织化学染色来分析样品。免疫组织化学染色可以通过利用抗体提供对样品(例如细胞或组织)中的特定分子或抗原的存在、位置和分布的分析。抗原可以是小分子、蛋白质、肽、核酸或能够被抗体特异性识别的任何其他分子。可以在有或者没有预先固定和/或透化步骤的情况下通过免疫组织化学方法对样品进行分析。在一些情况下，可通过使样品与抗原特异性抗体接触来检测目的抗原，然后可以通过一次或多次洗涤除去非特异性结合。然后可以通过抗体检测试剂例如标记的第二抗体或标记的抗生物素蛋白/链霉抗生物素蛋白来检测特异性结合的抗体。可以直接标记抗原特异性抗体。用于免疫组织化学的合适的标记包括但不限于：荧光团，如荧光素和若丹明；酶，如碱性磷酸酶和辣根过氧化物酶；或放射性核素，如³²P和¹²⁵I。可通过免疫组织化学染色检测的基因产物标志物包括但不限于Her2/Neu、Ras、Rho、EGFR、VEGFR、UbcH10、RET/PTC1、细胞角蛋白20、降钙素、GAL-3、甲状腺过氧化酶或甲状腺球蛋白。

与如本文所公开的疾病发生风险相关的指标，如第一组基因的基因表达水平或第二组基因的序列变体数据，不必是被发现包含疾病发生风险的样品的每个细胞的特征。因此，本文公开的方法可用于评估组织内疾病如癌症发生的风险，其中在该组织中，并非样品中的所有细胞都表现出基因表达水平或序列变体数据或指示疾病发生风险的其他数据的完整模式。基因表达水平、序列变体数据或其他数据可以完全存在于、部分存在于或不存在于受影响的细胞内以及样品中未受影响的细胞内。基因表达水平、序列变体数据或其他数据可以以可变的量存在于受影响的细胞内。基因表达水平、序列变体数据或其他数据可以以可变的量存在于未受影响的细胞内。在一些情况下，可阳性地检测到与疾病发生风险相关的第一组基因的基因表达水平或第二组基因中一种或多种序列变体的存在。在一些情况下，阳性检测可发生在从样品得到的至少70％、75％、80％、85％、90％、95％或100％的细胞中。在一些情况下，可能检测不到第一组基因的基因表达水平或第二组基因中一个或多个序列变体的存在。在一些情况下，检测不到可以发生在对应的正常非疾病样品的至少70％、75％、80％、85％、90％、95％或100％的细胞中。

常规细胞学或其他测定可以指示样品为阴性的(无疾病)、诊断性的(疾病如癌症的阳性诊断)、不明确的或疑似的(提示疾病如癌症的存在)或非诊断性的(未提供充分的关于疾病的存在或不存在的信息)。如本文所述的方法可以确认从常规细胞学评估得到的结果，或者可在缺乏此种结果的情况下提供类似于常规细胞学评估的初始评估。如本文所述的方法可将样品分类为恶性的或良性的，包括被发现是不明确的或疑似的样品。所述方法可将样品如已知是恶性的样品进一步分层为疾病发生的低风险组和中高风险组，包括被发现是不明确的或疑似的样品。

疾病

如本文所公开的疾病可包括甲状腺癌。甲状腺癌可包括甲状腺癌的任何亚型，包括但不限于甲状腺的任何恶性肿瘤，如乳头状甲状腺癌(PTC)、滤泡性甲状腺癌(FTC)、乳头状甲状腺癌的滤泡变体(FVPTC)、甲状腺髓样癌(MTC)、滤泡性癌(FC)、许特尔细胞癌(HC)和/或甲状腺未分化癌(ATC)。在一些情况下，甲状腺癌可以是分化的。在一些情况下，甲状腺癌可以是未分化的。

可使用本公开内容的方法将甲状腺组织样品分类为包括一种或多种良性或恶性组织类型(例如癌症亚型)，包括但不限于滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)，和许特尔细胞腺瘤(HA)、滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、许特尔细胞癌(HC)，和甲状腺未分化癌(ATC)、肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)或甲状旁腺(PTA)。

本公开内容的其他类型的癌症可包括但不限于：肾上腺皮质癌、肛门癌、再生障碍性贫血、胆管癌、膀胱癌、骨癌、骨转移、中枢神经系统(CNS)癌、周围神经系统(PNS)癌、乳腺癌、Castleman病、宫颈癌、儿童非霍奇金淋巴瘤、淋巴瘤、结肠直肠癌、子宫内膜癌、食道癌、尤因肿瘤家族(例如尤因肉瘤)、眼癌、胆囊癌、胃肠道类癌瘤、胃肠道间质肿瘤、妊娠滋养细胞疾病、毛细胞白血病、霍奇金病、卡波西肉瘤、肾癌、喉癌和下咽癌、急性淋巴细胞性白血病、急性髓样白血病、儿童白血病、慢性淋巴细胞性白血病、慢性髓样白血病、肝癌、肺癌、肺类癌瘤、非何杰金淋巴瘤、男性乳腺癌、恶性间皮瘤、多发性骨髓瘤、脊髓增生异常综合征、骨髓增生性疾病、鼻腔和鼻旁癌、鼻咽癌、神经母细胞瘤、口腔和口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤(成人软组织癌)、黑色素瘤皮肤癌、非黑色素瘤皮肤癌、胃癌、睾丸癌、胸腺癌、子宫癌(例如子宫肉瘤)、阴道癌、外阴癌或瓦尔登斯特伦巨球蛋白血症。

如本文所公开的疾病可包括过度增生性病症。可将恶性过度增生性病症分层为风险组，如低风险组和中高风险组。过度增生性病症可以包括但不限于癌症、增生或肿瘤。在一些情况下，过度增生性癌症可以是乳腺癌，如乳腺导管组织中的导管癌、髓样癌、胶质癌、小管癌和炎性乳腺癌；卵巢癌，包括上皮性卵巢肿瘤，比如卵巢中的腺癌和从卵巢转移到腹腔的腺癌；子宫癌；宫颈癌，比如宫颈上皮中的腺癌，包括鳞状细胞癌和腺癌；前列腺癌，比如选自以下的前列腺癌：腺癌或转移到骨的腺癌；胰腺癌，比如胰管组织中的上皮样癌和胰腺管中的腺癌；膀胱癌，比如膀胱中的移行细胞癌、尿路上皮癌(移行细胞癌)、内衬于膀胱的尿路上皮细胞中的肿瘤、鳞状细胞癌、腺癌和小细胞癌；白血病，比如急性髓样白血病(AML)、急性淋巴细胞白血病、慢性淋巴细胞白血病、慢性髓样白血病、毛细胞白血病、脊髓发育不良、骨髓增生性疾病、急性髓性白血病(AML)、慢性髓性白血病(CML)、肥大细胞增多症、慢性淋巴细胞白血病(CLL)、多发性骨髓瘤(MM)和骨髓增生异常综合征(MDS)；骨癌；肺癌，如非小细胞肺癌(NSCLC)，其分为鳞状细胞癌、腺癌和大细胞未分化癌，以及小细胞肺癌；皮肤癌，如基底细胞癌、黑色素瘤、鳞状细胞癌和光化性角化病，这是一种皮肤病，有时发展成鳞状细胞癌；眼睛视网膜母细胞瘤；皮肤或眼内(眼睛)黑色素瘤；原发性肝癌(起始于肝脏的癌症)；肾癌；自身免疫缺陷综合征(AIDS)相关淋巴瘤，如弥漫性大B细胞淋巴瘤、B细胞免疫母细胞性淋巴瘤和小无裂细胞淋巴瘤；卡波西肉瘤；病毒诱发性癌症，包括乙型肝炎病毒(HBV)、丙型肝炎病毒(CBV)和肝细胞癌；1型人嗜淋巴细胞病毒(HTLV-1)和成人T细胞白血病/淋巴瘤；以及人乳头状瘤病毒(HPV)和宫颈癌；中枢神经系统(CNS)癌，如原发性脑肿瘤，其包括神经胶质瘤(星形细胞瘤、间变性星形细胞瘤或多形性胶质母细胞瘤)、少突神经胶质瘤、室管膜瘤、脑膜瘤、淋巴瘤、神经鞘瘤和髓母细胞瘤；周围神经细胞(PNS)癌，如听神经瘤和恶性周围神经鞘瘤(MPNST)，包括神经纤维瘤和神经鞘瘤、恶性纤维细胞瘤、恶性纤维组织细胞瘤、恶性脑膜瘤、恶性间皮瘤和恶性混合Müllerian瘤；口腔癌和口咽癌，如下咽癌、喉癌、鼻咽癌和口咽癌；胃癌，如淋巴瘤、胃基质瘤和类癌瘤；睾丸癌，如生殖细胞肿瘤(GCT)(其包括精原细胞瘤和非精原细胞瘤)和性腺基质细胞瘤(其包括莱迪希细胞瘤和塞尔托利细胞瘤)；胸腺癌，如胸腺瘤、胸腺癌和霍奇金病，非霍奇金淋巴瘤类癌瘤或类癌瘤；直肠癌；以及结肠癌。在一些情况下，通过本公开内容的方法分层、分类、表征或诊断的疾病包括但不限于甲状腺病，比如良性甲状腺病，包括但不限于滤泡性腺瘤、许特尔细胞腺瘤、淋巴细胞性甲状腺炎和甲状腺增生。在一些情况下，通过本公开内容的方法分层、分类、表征或诊断的疾病包括但不限于恶性甲状腺病，例如滤泡性癌、乳头状甲状腺癌的滤泡变型、髓样癌和乳头状癌。

本公开内容的疾病可包括遗传病。遗传病是由基因或染色体异常引起的疾病。遗传病可以分为两类：单基因病及多因子和多基因(复杂)病。单基因病可以是单个突变基因的结果。单基因病的遗传可以包括但不限于常染色体显性、常染色体隐性、X连锁显性、X连锁隐性、Y连锁和线粒体遗传。仅基因的一个突变拷贝就可使人患上常染色体显性病症。常染色体显性类型的病症的实例可以包括但不限于亨廷顿氏病、神经纤维瘤病1型、马方综合征、遗传性非息肉性结肠直肠癌或遗传性多发性外生骨疣。在常染色体隐性病症中，必须突变基因的两个拷贝以使受试者患上常染色体隐性病症。这一类型的病症的实例可以包括但不限于囊性纤维化、镰状细胞病(以及部分镰状细胞病)、泰-萨克斯(Tay-Sachs)病、Niemann-Pick病或脊髓性肌萎缩。X连锁显性病症由X染色体上的基因突变引起，如X连锁低血磷性佝偻症。一些X连锁显性病状如Rett综合征、2型色素失调症和艾卡迪(Aicardi)综合征可以是致死性的。X连锁隐性病症还由X染色体上的基因突变引起。这一类型的病症的实例可以包括但不限于血友病A、迪谢内(Duchenne)肌营养不良、红绿色盲、肌营养不良和雄激素性脱发。Y连锁病症由Y染色体上的突变引起。其实例可以包括但不限于男性不育症和耳廓多毛症(hypertrichosis pinnae)。线粒体遗传(又称为母体遗传)的遗传病可适用于线粒体DNA中的基因，如Leber遗传性视神经病变。

遗传病症也可以是复杂的、多因子的或者多基因的。多基因遗传病可能与多基因的效应结合生活方式和环境因素有关。虽然复杂遗传病可以在家族中集中出现，但他们不具有明确的遗传模式。多因子或多基因病症可以包括心脏病、糖尿病、哮喘、孤独症、自身免疫性疾病如多发性硬化、癌症、纤毛疾病(ciliopathies)、腭裂、高血压、炎性肠病、精神发育迟滞或肥胖。

其他遗传病可以包括但不限于1p36缺失综合征、21-羟化酶缺乏症、22q11.2缺失综合征、无铜蓝蛋白血症(aceruloplasminemia)、II型软骨成长不全、软骨发育不全、急性间歇性卟啉症、腺苷酸琥珀酸裂解酶缺陷、肾上腺脑白质营养不良、亚历山大病(Alexanderdisease)、黑尿酸尿症、α-1抗胰蛋白酶缺陷、阿耳斯特雷姆(Alstrom)综合征、阿尔茨海默病(1、2、3和4型)、釉质形成不全、肌萎缩侧索硬化、2型肌萎缩侧索硬化、4型肌萎缩侧索硬化、4型肌萎缩侧索硬化、雄激素不敏感综合征、贫血、Angelman综合征、阿佩尔(Apert)综合征、共济失调毛细血管扩张、比尔-史蒂文生皮肤回旋综合征(Beare-Stevenson cutisgyrata syndrome)、本杰明综合征、β地中海贫血、生物素酶缺陷、Birt-Hogg-Dubé综合征、膀胱癌、布卢姆(Bloom)综合征、骨疾病、乳腺癌、屈肢骨发育不全(Camptomelicdysplasia)、卡纳万(Canavan)病、癌症、乳糜泻、慢性肉芽肿病(CGD)、夏科-马里-图斯(Charcot-Marie-Tooth)病、1型夏科-马里-图斯病、4型夏科-马里-图斯病、2型夏科-马里-图斯病、4型夏科-马里-图斯病、科凯恩(Cockayne)综合征、科-勒二氏(Coffin-Lowry)综合征、II型和XI型胶原病(collagenopathy)、结肠直肠癌、先天性输精管缺如、先天性双侧输精管缺如、先天性糖尿病、先天性红细胞生成性卟啉症、先天性心脏病、先天性甲状腺功能减退、结缔组织病、考登(Cowden)综合征、猫叫(Cri du chat)综合征、克罗恩病、纤维性狭窄病(fibrostenosing)、克鲁宗(Crouzon)综合征、Crouzonodermoskeletal综合征、囊性纤维化、德格罗契(De Grouchy)综合征、退行性神经病、登特(Dent)病、发育障碍、迪格奥尔格(DiGeorge)综合征、V型远端脊髓性肌萎缩、唐氏综合征、侏儒症、埃勒斯-丹洛斯(Ehlers-Danlos)综合征、关节松弛型埃勒斯-丹洛斯(Ehlers-Danlos)综合征、经典型埃勒斯-丹洛斯综合征、皮肤脆裂型埃勒斯-丹洛斯综合征、脊柱后凸侧弯型脉管型埃勒斯-丹洛斯综合征、红细胞生成性原卟啉症、法布瑞氏(Fabry)病、面部损伤和病症、因子V Leiden血栓形成倾向、家族性腺瘤性息肉病、家族性自主神经异常、范科尼(fanconi)贫血、FG综合征、脆性X染色体综合征、弗里德赖希共济失调(Friedreich ataxia)、弗里德赖希氏共济失调、G6PD缺陷、半乳糖血症、戈谢(Gaucher)病(1、2和3型)、遗传性脑病、甘氨酸脑病、2型血色素沉着症、4型血色素沉着症、丑角样鱼鳞病(Harlequin Ichthyosis)、头脑畸形、听力障碍和耳聋、儿童听力问题、血色沉着病(新生儿、2型和3型)、血友病、肝红细胞生成性卟啉症、遗传性粪卟啉症、遗传性多发性外生骨疣、遗传性压迫易感性神经病、遗传性非息肉性结肠直肠癌、高胱氨酸尿症、亨廷顿病、早年衰老综合征(Hutchinson-Gilford Progeriasyndrome)、原发性高草酸尿症、高苯丙氨酸血症、软骨形成不足、软骨发育不良、idic15、色素失调症、婴儿型戈谢病、婴儿-发作上升型遗传性痉挛性瘫痪(infantile-onsetascending hereditary spastic paralysis)、不育症、Jackson-Weiss综合征、朱伯特(Joubert)综合征、青少年原发性侧索硬化、肯尼迪(Kennedy)病、Klinefelter综合征、Kniest发育不全、Krabbe病、学习障碍(Learning disability)、Lesch-Nyhan综合征、脑白质营养不良、Li-Fraumeni综合征、家族性脂蛋白脂酶缺陷、男性生殖器障碍、马方综合征、McCune-Albright综合征、McLeod综合征、家族性地中海热、Menkes病、Menkes综合征、代谢障碍、β-球蛋白型高铁血红蛋白血症、先天性高铁血红蛋白血症、甲基丙二酸血症、Micro综合征、小头畸形、运动障碍、Mowat-Wilson综合征、粘多糖贮积病(MPS I)、Muenke综合征、肌营养不良、Duchenne和Becker型肌营养不良症、Duchenne和Becker型肌萎缩症、肌强直性营养不良、1型和2型肌强直性营养不良、新生儿血色病、神经纤维瘤病、神经纤维瘤病1、神经纤维瘤病2、I型神经纤维瘤病、II型神经纤维瘤病、神经病、神经肌肉障碍、Niemann-Pick病、非酮性高甘氨酸血症、非综合征型耳聋、常染色体隐性非综合征型耳聋、Noonan综合征、成骨不全(I型和III型)、耳脊椎骨骺发育不良(otospondylomegaepiphyseal dysplasia)、泛酸激酶-相关神经退行性变、Patau综合征(13染色体三体)、Pendred综合征、Peutz-Jeghers综合征、Pfeiffer综合征、苯丙酮尿症、卟啉症、迟发性皮肤卟啉症、Prader-Willi综合征、原发性肺动脉高压、朊病毒病、早衰、丙酸血症、蛋白C缺陷、蛋白S缺陷、假性戈谢病(pseudo-Gaucher disease)、弹性假黄瘤、视网膜病、视网膜母细胞瘤、视网膜母细胞瘤FA-弗里德赖希共济失调、Rett综合征、Rubinstein-Taybi综合征、Sandhoff病、感觉和自主神经病III型、镰状细胞性贫血、骨骼肌再生、皮肤色素沉着异常、Smith Lemli Opitz综合征、语言和交流障碍、脊髓性肌萎缩、脊髓延髓肌萎缩、脊髓小脑共济失调、Strudwick型脊椎干骺端发育不良、先天性脊椎干骺端发育不良、Stickler综合征、Stickler综合征COL2A1、Tay-Sachs病、四氢生物蝶呤缺陷、致死性发育不良、硫胺反应性巨幼细胞性贫血伴糖尿病和感觉神经性耳聋、甲状腺病、Tourette综合征、Treacher Collins综合征、X染色体三体综合征、结节性硬化、Turner综合征、Usher综合征、多样性卟啉病、von Hippel-Lindau病、Waardenburg综合征、Weissenbacher-Zweymüller综合征、Wilson病、Wolf-Hirschhorn综合征、着色性干皮病、X-连锁重度联合免疫缺陷、X-连锁铁粒幼细胞性贫血或X-连锁脊髓延髓肌萎缩。

发生或复发风险的分层

疾病发生风险可将样品分层为风险亚组。亚组可包含具有低疾病发生风险概率的样品和具有中高疾病发生风险概率的样品。亚组可包括低风险组、中风险组和高风险组。低风险可包含具有约1％、5％、10％、15％、20％、25％、30％、35％、40％或约45％的疾病发生风险概率的样品。低风险可包含具有约1％至约25％的疾病发生风险概率的样品。低风险可包含具有约1％至约30％的疾病发生风险概率的样品。低风险可包含具有约1％至约40％的疾病发生风险概率的样品。中高风险可包含具有约55％、60％、65％、70％、75％、80％、85％、90％、95％或100％的疾病发生风险概率的样品。中高风险可包含具有约50％至约100％的疾病发生风险概率的样品。中高风险可包含具有约55％至约100％的疾病发生风险概率的样品。中高风险可包含具有约60％至约100％的疾病发生风险概率的样品。

可以以至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高的准确度将样品分层为低风险组或中高风险组，包括被鉴定为细胞学上不明确的或疑似的或不确定的样品。可以以至少70％的准确度对样品进行分层。可以以至少80％的准确度对样品进行分层。可以以至少90％的准确度对样品进行分层。可以以高于50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高的准确度将样品鉴定为良性的、恶性的或非诊断性的，包括被鉴定为细胞学上不明确的或疑似的或不确定的样品。可以使用分类器计算准确度。

可以以至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高的特异性将样品分层为低风险组或中高风险组，包括被鉴定为细胞学上不明确的或疑似的或不确定的样品。可以以至少70％的准确度对样品进行分层。可以以至少80％的准确度对样品进行分层。可以以至少90％的准确度对样品进行分层。可以以高于50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高的特异性将样品鉴定为良性的、恶性的或非诊断性的，包括被鉴定为细胞学上不明确的或疑似的或不确定的样品。可以使用分类器计算特异性。

如本文所述的用于将样品分类为良性的、恶性的或非诊断性的疾病发生风险分层的方法可具有至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更大的阳性预测值；和/或至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更大的阴性预测值。疾病的阳性预测值(PPV)，或准确率，或验后概率，可以是被正确诊断或正确分层为风险组的具有阳性测试结果的受试者的比例。其可以是重要的量度，因为它可以反映阳性测试反映出所测试的基础疾病的可能性。其值可依赖于可能发生变化的疾病的发生率。阴性预测值(NPV)可以是被正确诊断的具有阴性测试结果的受试者的比例。PPV和NPV量度可使用适当的疾病亚型发生率估计值获得。对于亚型特异性估计值，疾病发生率有时可能是无法计算的，因为可能没有任何可用的样品。

样品可分类为以下的一种或多种：良性的(无疾病)、恶性的(疾病的阳性诊断)或非诊断性的(未提供充分的关于疾病的存在或不存在的信息)。被发现是恶性的样品可分层为疾病发生风险，如低疾病发生风险或中高疾病发生风险。样品可分类为良性的与疑似的(被怀疑为疾病阳性的)类别。可以诸如通过鉴定一种或多种癌症亚型的存在或不存在将样品进一步分类为疾病亚型。某一分子途径可以指示与疾病，或特定疾病的某一等级或阶段(如I、II、III或IV期癌症)有关。在一些情况下，所分层的发生风险可以告知适当的治疗性干预，如特定的药物方案，或外科手术介入，如甲状腺切除术或偏侧甲状腺切除术。

本公开内容的分类器或经训练的算法可用于将样品分层为低风险组或中高风险组和/或将样品分类为良性的、恶性的、疑似的或非诊断性的或其他类别。可向分类器或经训练的算法单独提供或组合提供一个或多个选定的特征空间，如基因表达水平和序列变体数据。示例性的算法可包括但不限于减少变量数的方法，例如主成分分析算法、部分最小二乘法或独立成分分析算法。示例性的算法可包括直接处理大量变量的方法，例如统计方法或基于机器学习技术的方法。统计方法可包括惩罚逻辑回归、微阵列的预测分析(PAM)、基于收缩重心的方法、支持向量机分析或规范化线性判别分析。机器学习技术可包括装袋程序(bagging procedure)、加速程序(boosting procedure)、随机森林算法或其组合。

本公开内容的分类器或经训练的算法可包括两个或更多个特征空间。所述两个或更多个特征空间可以是独特的或彼此不同的。单个特征空间可包括针对于样品的信息类型，如基因表达水平数据或序列变体数据。相比于使用单个特征空间产生风险分层，在分类器中组合两个或更多个特征空间可以产生更高水平的风险分层或分类准确度。单个特征空间的动态范围可以不同，如至少1个或2个数量级差异。例如，基因表达水平特征空间的动态范围可以为0至约300，而序列变体特征空间的动态范围可以为0至约20。

单个特征空间可包含一组基因，如第一特征空间的第一组基因和第二特征空间的第二组基因。单个特征空间的一组基因可与发生风险相关。第一组基因和第二组基因可以是相同的组。第一组基因和第二组基因可以是不同的组。第一组基因或第二组基因可包含少于约1000、500、400、300、200、100、75、70、65、60、55、50、45、40、35、30、25、20、15、10、5个基因或更少的基因。第一组基因或第二组基因可包含少于约10个基因。第一组基因或第二组基因可包含少于约50个基因。第一组基因或第二组基因可包含少于约75个基因。第一组基因或第二组基因可包含约50个至约400个基因。第一组基因或第二组基因可包含约50个至约200个基因。第一组基因或第二组基因可包含约10个至约600个基因。

第一组基因可包含图6中列出的基因。第一组基因可包含图7中列出的基因。第一组基因可包含COL1A1、THBS2或其任意组合。第一组基因可包含COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1或其任意组合。

第一组基因可包含图13中列出的基因。第一组基因可包含COL1A1、NUP210L、TMEM92、C6orf136、SPAG4、EHF、RAPGEF5、COL3A1、GALNT15、PRICKLE1、LUM、COL6A3、ROBO1、SSC5D、PSORS1C1或其任意组合。第一组基因可选自COL1A1、NUP210L、TMEM92、C6orf136、SPAG4、EHF、RAPGEF5、COL3A1、GALNT15、PRICKLE1、LUM、COL6A3、ROBO1、SSC5D、PSORS1C1及其任意组合。第一组基因可包含COL1A1。第一组基因可包含NUP210L。第一组基因可包含TMEM92。第一组基因可包含C6orf136。第一组基因可包含SPAG4。第一组基因可包含EHF。第一组基因可包含RAPGEF5。第一组基因可包含COL3A1。第一组基因可包含GALNT15。第一组基因可包含PRICKLE1。第一组基因可包含LUM。第一组基因可包含COL6A3。第一组基因可包含ROBO1。第一组基因可包含SSC5D。第一组基因可包含PSORS1C1。

第二组基因可包含图8中列出的那些基因。第二组基因可包含COL1A1、THBS2或其任意组合。第二组基因可包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1或其任意组合。第二组基因可包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24或其任意组合。第二组基因可包含AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP或其任意组合。

第二组基因可包含图12中列出的基因。第二组基因可包含COL1A1、FITM2、AASDH、COX6C、COX10、VSIG10L、MAPK15、PAXIP1、AVL9、GIGYF2、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-H、MGAT1、SLC41A3、PTPRE、SRL、SLC30A5、BMP4、ICE2、DCAKD、TMX1、HAVCR2、TNFSF12、PER2、MCM3AP或其任意组合。第二组基因可选自COL1A1、FITM2、AASDH、COX6C、COX10、VSIG10L、MAPK15、PAXIP1、AVL9、GIGYF2、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-H、MGAT1、SLC41A3、PTPRE、SRL、SLC30A5、BMP4、ICE2、DCAKD、TMX1、HAVCR2、TNFSF12、PER2、MCM3AP及其任意组合。第二组基因可包含COL1A1。第二组基因可包含FITM2。第二组基因可包含AASDH。第二组基因可包含COX6C。第二组基因可包含COX10。第二组基因可包含VSIG10L。第二组基因可包含MAPK15。第二组基因可包含PAXIP1。第二组基因可包含AVL9。第二组基因可包含GIGYF2。第二组基因可包含HLA-DQA1。第二组基因可包含HLA-DQB1。第二组基因可包含HLA-DRA。第二组基因可包含HLA-H。第二组基因可包含MGAT1。第二组基因可包含SLC41A3。第二组基因可包含PTPRE。第二组基因可包含SRL。第二组基因可包含SLC30A5。第二组基因可包含BMP4。第二组基因可包含ICE2。第二组基因可包含DCAKD。第二组基因可包含TMX1。第二组基因可包含HAVCR2。第二组基因可包含TNFSF12。第二组基因可包含PER2。第二组基因可包含MCM3AP。

本公开内容的分类器或经训练的算法可使用一组样品如样品群组进行训练。样品群组可包含约5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、2000、3000、4000、5000个或更多个独立样品。样品群组可包含约100个独立样品。样品群组可包含约200个独立样品。样品群组可包含约100至约500个独立样品。独立样品可来自已被诊断为患有疾病如癌症的受试者，来自健康受试者，或其任意组合。

样品群组可包含来自约5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000个或更多个不同个体的样品。样品群组可包含来自约100个不同个体的样品。样品群组可包含来自约200个不同个体的样品。所述不同个体可以是已被诊断为患有疾病如癌症的个体、健康个体或其任意组合。

样品群组可包含从居住在至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75或80个不同地理位置(例如，分布在国家如美国、洲或世界的地点)的个体获得的样品。地理位置包括但不限于测试中心、医疗设施、医务所、邮局地址、城市、县、州、国家或洲。在一些情况下，使用来自美国的样品群组训练的分类器可能需要重新训练以用于来自其他地理区域(例如，印度、亚洲、欧洲、非洲等)的样品群组。

分类器或经训练的算法可在其每次运行时产生唯一的输出。例如，使用具有相同分类器的不同样品可在分类器每次运行时产生唯一的输出。使用具有相同分类器的相同样品可在分类器每次运行时产生唯一的输出。使用相同的样品训练分类器多于一次，可在分类器每次运行时产生唯一的输出。

可将样品的特征与参考组的特征进行比较。所述比较可由分类器执行。可对样品的多于一个特征进行组合，以制定疾病发生风险。所述组合可由分类器执行。例如，可将从样品获得的序列与参考组进行比较，以确定样品中一个或多个序列变体的存在。在一些情况下，可将来自样品的一个或多个基因的基因表达水平与基因参考组的表达水平进行比较，以确定一个或多个基因的差异基因表达的存在。参考组可包含一个或多个管家基因。参考组可包含已知的序列变体或已知与特定疾病相关或已知与非疾病状态相关的基因的表达水平。分类器或经训练的算法可进行结果的比较、组合、统计评估或进一步分析或其任意组合。可为不同的特征空间提供单独的参考组。例如，可将序列变体数据与序列变体数据参考组进行比较。可将基因表达水平数据与基因表达水平参考组进行比较。在一些情况下，可将多个特征空间与同一参考组进行比较。

在一些情况下，特定基因的序列变体可能影响或可能不影响该相同基因的基因表达水平。特定基因的序列变体可影响一个或多个不同基因的基因表达水平，该一个或多个不同基因可位于具有序列变体的特定基因的附近和远端。一个或多个序列变体的存在可对一个或多个基因具有下游效应。特定基因的序列变体可扰乱一个或多个信号传导途径，可导致核糖核酸(RNA)转录调控变化，可导致脱氧核糖核酸(DNA)的扩增，可导致产生多个转录物拷贝，可导致产生过量的蛋白质，可导致单个碱基对、多个碱基对、部分基因或者一个或多个基因从序列中除去。

可使用特征选择技术进一步分析来自所述方法的数据，如基因表达水平或序列变体数据，所述特征选择技术例如是可通过观察数据的本征性质来评估特定特征的相关性的过滤器技术；将模型假设嵌入特征子集检索内的包装器技术；或将最佳特征集的检索构建到分类器算法中的嵌入式协议。

可用于本公开内容的方法的过滤器技术可包括(1)参数法，例如采用双样本t-检验、方差分析(ANOVA)分析、贝叶斯框架或伽马分布模型；(2)无模型法，例如采用Wilcoxon秩和检验、类间内平方和检验、秩乘积法、随机置换法或误分类数目阈值(TNoM)，TNoM包括设置两个数据集之间表达的倍数变化差异的阈值点，然后检测使误分类数目最小化的各基因中的阈值点；或者(3)多变量法，例如双变量法、基于相关性的特征选择法(CFS)、最小冗余最大相关法(MRMR)、Markov毯过滤法和非相关收缩重心法。可用于本公开内容的方法的包装器技术可包括顺序检索法、遗传算法或分布算法的评估。嵌入式协议可包括随机森林算法、支持向量机算法的权向量或逻辑回归算法的权重。

从本文所述方法获得的结果的统计学评价可提供指示以下的一种或多种可能性的一个或多个定量值：风险评估准确性的可能性；诊断准确性的可能性；疾病如癌症的可能性；特定疾病如组织特异性癌症，例如甲状腺癌的可能性；以及特定治疗干预成功的可能性。因此，可能没有经过遗传学或分子生物学培训的医学专业人员不需要了解基因表达水平或序列变体数据结果。相反，数据可以以指导受试者医护或治疗的最有用的形式直接提供给医学专业人员。可通过分类器或经训练的算法来进行统计学评价、单独数据结果的组合和报告有用的结果。可使用多种方法进行结果的统计学评价，该方法包括但不限于：students T检验、双侧T检验、皮尔森秩和分析、隐马尔可夫模型分析、q-q图分析、主成分分析、单向方差分析(ANOVA)、双向ANOVA等。可通过分类器或经训练的算法进行统计学评价。

本文公开的方法可包括从来自受试者的一个或多个样品中提取并分析蛋白质或核酸(RNA或DNA)。可从获得的整个样品或可从一部分提取核酸。在一些情况下，未进行核酸提取的样品部分可以通过细胞学检查或免疫组织化学进行分析。从生物样品中提取RNA或DNA的方法可包括，例如，苯酚-氯仿提取(如硫氰酸胍苯酚-氯仿提取)、乙醇沉淀、基于旋转柱的纯化或其他方法。

用于测定基因表达产物水平的一般方法可包括但不限于以下一种或多种：其他的细胞学分析、对特定蛋白质或酶活性的分析、对包括蛋白质或RNA或特定RNA剪接变体在内的特定表达产物的分析、原位杂交、全基因组或部分基因组表达分析、微阵列杂交分析、基因表达的连续分析(SAGE)、酶联免疫吸附测定、质谱法、免疫组织化学、印迹法、测序、RNA测序、DNA测序(例如，从RNA获得的互补脱氧核糖核酸(cDNA)的测序)；下一代测序(Next-Gen)、纳米孔测序、焦磷酸测序或Nanostring测序。基因表达产物水平可以相对于内标如总信使核糖核酸(mRNA)或特定基因的表达水平进行归一化。彼此比较的样品之间，例如来自受试者的样品与参考样品之间的基因表达可存在特定差异或差异范围。基因表达水平的差异可以为至少5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更大。在一些情况下，基因表达水平的差异可以为至少2、3、4、5、6、7、8、9、10倍或更大。

RNA测序可产生两个或更多个特征空间，如特定样品的序列变体和基因表达的计数的存在。例如，RNA测序测量在特定组织或特定样品，如甲状腺组织或甲状腺结节中表达的基因的变体。下一代测序可提供特定样品的基因表达水平数据。可将测序结果，如RNA测序和下一代测序结果输入分类器中，该分类器可组合独特的特征空间，从而以比使用单个特征空间更高的准确度确定疾病发生风险。分类器或经训练的算法可包括使用已知恶性、良性和正常样品的参考组开发的算法。分类器或经训练的算法可包括使用已知低风险、中风险和高风险样品的参考组开发的算法。

用于阵列杂交、测序、扩增的标志物

用于进行阵列杂交、核酸测序、核酸扩增或其他扩增反应的合适试剂包括但不限于DNA聚合酶、标志物如正向和反向引物、脱氧核苷三磷酸(dNTP)以及一种或多种缓冲液。这样的试剂可包括针对感兴趣的给定序列，如第一组基因和/或第二组基因的一个或多个基因所选择的引物。

在这样的扩增反应中，引物对中的一个引物可以是与靶多核苷酸分子(例如，第一组或第二组的一个或多个基因)的序列互补的正向引物，而引物对中的另一个引物可以是与靶多核苷酸分子的第二序列互补的反向引物，并且靶基因座可位于第一序列和第二序列之间。

正向引物和反向引物的长度可取决于靶多核苷酸(例如第一组或第二组的一个或多个基因)和靶基因座的序列。在一些情况下，引物可以为大于或等于约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、65、70、75、80、85、90、95或约100个核苷酸的长度。作为替代方案，引物可以为少于约100、95、90、85、80、75、70、65、60、59、58、57、56、55、54、53、52、51、50、49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6个或其左右的核苷酸的长度。在一些情况下，引物可以为约15至约20、约15至约25、约15至约30、约15至约40、约15至约45、约15至约50、约15至约55、约15至约60、约20至约25、约20至约30、约20至约35、约20至约40、约20至约45、约20至约50、约20至约55、约20至约60、约20至约80或约20至约100个核苷酸的长度。

可根据已知参数设计引物，以避免二级结构和自杂交，如引物二聚体对。不同的引物对可在大约相同的温度下，例如，在另一引物对的1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃或10℃之内退火和解链。

靶基因座可以是多个模板多核苷酸从3'端或5'端开始的约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、650、700、750、800、850、900或1000个核苷酸。

用于所述方法的标志物(即引物)可以是一个或多个相同的引物。在一些情况下，标志物可以是一个或多个不同的引物，如约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个或更多个不同的引物。在这样的实例中，所述一个或多个引物中的每个引物可包含不同的靶特异性区域或序列或者模板特异性区域或序列，如第一组或第二组的一个或多个基因。

所述一个或多个引物可包括固定的引物组。所述一个或多个引物可包括至少一个或多个定制引物。所述一个或多个引物可包括至少一个或多个对照引物。所述一个或多个引物可包括至少一个或多个管家基因引物。在一些情况下，所述一个或多个定制引物与靶特异性区域或其互补区域退火。所述一个或多个引物可被设计用于扩增或进行引物延伸、逆转录、线性延伸、非指数扩增、指数扩增、PCR或者一种或多种靶多核苷酸或模板多核苷酸的任何其他扩增方法。

引物可并入允许对引物进行检测或固定但不改变引物的基本性质(例如，充当DNA合成起始点)的其他特征。例如，引物可包含不与靶核酸杂交但有助于对扩增产物进行克隆或进一步扩增或测序的在5'端的核酸序列。例如，该序列可包含引物结合位点，如PCR引发序列、样品条形码序列或通用引物结合位点等。

通用引物结合位点或序列可使通用引物与多核苷酸和/或扩增子连接。通用引物可包括-47F(M13F)、alfaMF、AOX3’、AOX5’、BGHr、CMV-30、CMV-50、CVMf、LACrmt、λgt10F、λgt10R、λgt11F、λgt11R、M13 rev、M13Forward(-20)、M13Reverse、male、p10SEQPpQE、pA-120、pet4、pGAP Forward、pGLRVpr3、pGLpr2R、pKLAC14、pQEFS、pQERS、pucU1、pucU2、reversA、seqIREStam、seqIRESzpet、seqori、seqPCR、seqpIRES-、seqpIRES+、seqpSecTag、seqpSecTag+、seqretro+PSI、SP6、T3-prom、T7-prom和T7-termInv。如本文所用的，连接可指共价相互作用和非共价相互作用两者或其任一者。通用引物与通用引物结合位点的连接可用于多核苷酸和/或扩增子的扩增、检测和/或测序。

风险测定的应用

可将分类器的结果如疾病发生风险或来自本文公开的方法的数据，如基因表达水平或序列变体数据输入数据库中以供分子谱分析企业的代表或代理人、个体、医学专业人员或保险提供者访问。可自动提供数据的计算机或算法分析。结果可呈现为计算机屏幕上的报告或作为纸件报告。在一些情况下，结果可自动上传至数据库或远程服务器。报告可包括但不限于如以下的一种或多种的信息：原始样品的适合性、差异表达的基因的名称和/或数目、具有序列变体的基因的名称和/或数目、序列变体的类型、差异表达的基因的表达水平、数值分类器得分、对受试者的诊断、诊断的统计学置信度、疾病发生风险、指定的疗法或其任意组合。

可使用本文所述的方法在单个时间点或多个时间点对受试者进行监测。例如，可使用本文所述的方法诊断受试者患有疾病如癌症或遗传病。在一些情况下，这种初步诊断可能不涉及使用本文所述的方法。随后可为具有阳性疾病诊断如甲状腺癌的受试者指定治疗性干预，如甲状腺切除术，或开始药物方案，如化疗。可通过使用本文所述的方法检测治疗性干预的效果，来持续地监测治疗性干预的结果。在另一个实例中，否则没有癌症的受试者可能被诊断为具有癌症发生的风险，并且可通过本文所述的方法来检测其健康状况的任何状态变化，来持续地对该受试者进行监测，以便确定癌症是否可能会在稍后的时间点出现或影响进行筛查方法的频率。

如本文所述的方法还可用于在对受试者施用特定治疗性干预之前确定该特定治疗性干预的潜在效果。例如，受试者可被诊断为患有癌症。如本文所述的方法可指示已知与癌症恶性有关的基因产物(例如RAS癌基因)的基因表达的高水平。可以获得来自具有所述高水平的受试者的样品并将该样品在体外培养。然后可测试应用异常活化的或失调的途径的各种抑制剂或已知抑制该途径活性的药物对样品的肿瘤细胞的生长抑制。分子谱分析也可用于监测这些抑制剂对例如有关途径的下游靶标的作用。分子谱分析也可用于预测这些抑制剂的效果。

本文所述的方法可用作研究工具，以鉴定用于诊断疾病如癌症的新标志物；监测药物或候选药物对于样品如肿瘤细胞、细胞系、组织或生物体的作用；或者揭示疾病进展或抑制如癌症发生和/或肿瘤抑制的新途径。

本文所述的方法可提供：1)包含少量和/或低质量的核酸的样品的基因表达分析；2)假阳性和假阴性的明显减少，3)导致所产生的病理学的基础遗传学、代谢或信号传导途径的确定，4)将统计学概率赋予疾病如遗传病的诊断准确性的能力，5)解析不明确的结果的能力，6)区分疾病如癌症的亚型的能力，以及7)区分低疾病发生风险与中高疾病发生风险的能力。

预测可依赖于准确的训练标记。例如，如图10中所示，使用美国甲状腺协会(ATA)分级系统将在Afirma基因表达分类器(GEC)第1版中被标记或分类为组织学恶性的样品进一步标记或分类为低发生风险或中/高发生风险。对于被标记为低发生风险的样品，组织病理学报告可描述一个或多个风险特征的缺乏。对于被标记为中/高发生风险的样品，组织病理学报告可将一个或多个风险特征描述为阳性存在。风险特征可以是淋巴结转移、血管浸润、甲状腺外延伸或其任意组合。

可使用包含特定癌症亚型的单个组织样品，例如，包含乳头状甲状腺癌(PTC)的组织样品来训练风险分类器。在一些情况下，使用包含两种、三种、四种或更多种癌症亚型，例如PTC、LCT、HA和FC的单个组织样品来训练风险分类器。在一些情况下，可使用多于一个组织样品，例如两个组织样品来训练风险分类器，其中该两个组织样品包含两种、三种、四种或更多种癌症亚型，例如PTC、LCT、HA和FC。

试剂盒

疾病诊断企业、分子谱分析企业、制药企业或与患者医疗保健相关的其他企业可提供用于进行疾病发生风险确定的试剂盒。试剂盒可包括分类器、用于训练算法的样品群组，以及每个特征空间的基因列表，如第一组基因和第二组基因。在一些情况下，试剂盒可包括分类器和每个特征空间的基因列表。试剂盒可以是用于所有疾病类型的通用试剂盒。试剂盒可以是用于特定疾病如癌症的特定试剂盒，或针对疾病亚型如甲状腺癌的特定试剂盒。试剂盒可提供已使用试剂盒中未提供的样品群组进行训练的分类器。试剂盒可提供样品群组的定期更新或与分类器一起使用的特征空间的基因列表。试剂盒可提供自动形成可由医学专业人员报告或展示或下载和/或输入数据库的结果概述的软件。所述结果概述可包括本文公开的任何结果，包括对患者治疗选择的建议和疾病发生风险。试剂盒还可提供用于从受试者获得样品的单元或装置(例如，具有与抽吸器耦合的针的装置)。试剂盒还可提供用于进行如本文所公开的方法的说明书，并且包括用于RNA测序和下一代(NextGen)测序的所有必需的缓冲液和试剂。试剂盒还可包括用于分析结果的说明书。这样的说明书可包括指导用户使用软件(例如，具有经训练的算法的软件)和数据库以分析结果。

计算机控制系统

本公开内容提供了计算机控制系统，其被编程为用以实现本公开内容的方法。图9显示了计算机系统9001，其被编程或以其他方式配置为实现本文提供的方法。计算机系统9001可以调节本公开内容的疾病发生风险分层的各个方面，例如，运行分类器或训练算法以及报告经分层的发生风险。计算机系统9001可以是用户或计算机系统的电子装置，该用户或计算机系统相对于该电子装置位于远处。该电子装置可以是移动电子装置。

计算机系统9001包括中央处理器(CPU，本文还称为“处理器”和“计算机处理器”)9005，其可以是单核或多核处理器或多个处理器进行并行处理。计算机系统9001还包括存储器或存储器位置9010(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元9015(例如，硬盘)、用于与一个或多个其他系统通信的通信接口9020(例如，网络适配器)和外围装置9025，外围装置9025诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器9010、存储单元9015、接口9020和外部装置9025通过通信总线(实线)与CPU9005进行通信，所述通信总线诸如为母板。存储单元9015可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统9001在通信接口9020的辅助下可以操作地耦合到计算机网络(“网络”)9030。网络9030可以是因特网、互联网和/或外联网或与因特网通信的内联网和/或外联网。在一些情况下，网络9030是远程通信和/或数据网络。网络9030可以包括一个或多个计算机服务器，这可使得分布计算(诸如云计算)称为可能。在一些情况下，网络9030在计算机系统9001的辅助下可以实现对等网络，其可使得装置耦合到计算机系统9001以起到客户端或服务器的作用。

CPU 9005可以执行一系列嵌入在程序或软件中的机器可读指令。所述指令可存储在存储器位置如存储器9010中。所述指令可被导向CPU 9005，其随后可对CPU 9005进行编程或以其他方式配置以实现本公开内容的方法。由CPU 9005执行的操作的实例可包括取指令、解码、执行和写回。

CPU 9005可以是电路如集成电路的一部分。系统9001的一个或多个其他组件可包含在该电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元9015可以存储文件，诸如存储驱动器、文库和已保存的程序。存储单元9015可以存储用户数据，例如存储用户偏好和用户程序。在一些情况下，计算机系统9001可以包括位于计算机系统9001外部的一个或多个附加的数据存储单元，所述数据存储单元诸如位于与计算机系统9001通过内联网或因特网通信的远程服务器上。

计算机系统9001可以与一个或多个远程计算机系统通过网络9030进行通信。例如，计算机系统9001可以与用户(例如，服务提供者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、平板或平板电脑(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、Android功能的装置，

)或个人数码助手。用户可以通过网络9030访问计算机系统9001。

如本文所述的方法可通过存储在计算机系统9001的电子存储单元上的机器(例如，计算机处理器)可执行代码来实现，所述机器可执行代码例如存储在存储器9010或电子存储单元9015上。该机器可执行或机器可读代码可以以软件的形式提供。在使用期间，所述代码可由处理器9005执行。在一些情况下，所述代码可以从存储单元9015中取回并存储到存储器9010中以供处理器9005访问。在一些情况下，可以不包括电子存储单元9015，而且机器可执行指令被存储在存储器9010上。

所述代码可以进行预编译并配置用于与具有适于执行代码的处理器的机器一起使用，或者可以在运行过程中进行编译。所述代码可以以编程语言来提供，所述编程语言可以被选择以使该代码能够以预编译或实时编译的方式来执行。

本发明提供的系统和方法的各方面，诸如计算机系统9001，可以以编程来实施。所述技术的各个方面可以被认为是“产品”或“制品”，一般以机器(或处理器)可执行代码和/或相关联数据的形式装载在或嵌入在一种类型的机器可读介质中。机器可执行代码可以被存储在电子存储单元，所述电子存储单元诸如是存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘。“存储”型介质可以包括计算机、处理器等等的任何或全部有形存储器或与其相关的模块，诸如包括各种半导体存储器、磁带驱动器、磁盘驱动器等等，这可以随时为软件编程提供非临时存储。该软件的全部或部分有时可以通过因特网或其他各种远程通信网络进行通信。这样的通信例如可以使软件能够从一台计算机或处理器加载到另一个，例如从管理服务器或主机加载到应用程序服务器的计算机平台。因此，可承载软件元件的另一种类型的介质包括光、电和电磁波，诸如通过有线和光学陆线网络以及经由各种空中链接跨越本地装置之间的物理接口。携带这些波(诸如有线或无线链接、光学链接等等)的物理元件也可以被认为是承载所述软件的介质。如本文所用，除非限于非临时的、有形的“存储”介质，诸如计算机或机器“可读介质”等术语指的是参与向处理器提供执行指令的任何介质。

因此，诸如计算机可执行代码的机器可读介质可以采取许多形式，其包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘，光盘或磁盘诸如在任何计算机等等中的任何存储装置，所述存储装置诸如可用于实现附图所示的数据库等等。易失性存储介质包括动态存储器，诸如包括这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，它们包括包含计算机系统内总线的导线。载波传输介质可采取诸如在射频(RF)和红外(IR)数据通信期间所生成的电或电磁信号或声波或光波的形式。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图形的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传送数据或指令的载波、传送这种载波的电缆或链接或计算机可以从其中读取程序代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可参与将一个或多个指令的一个或多个序列装载至处理器以供执行。

计算机系统9001可以包括电子显示器9035或与电子显示器9035通信，电子显示器9035包括用于例如提供分类器或经训练的算法的输出或读出的用户界面(UI)9040。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

本公开内容的方法和系统可以以一个或多个算法的方式来实现。算法可以通过软件经中央处理器9005执行来实现。该算法可以，例如，对疾病发生风险进行分层或将样品分类为良性的、恶性的、疑似的或非诊断性的。

实施例1：使用风险分类器对样品的风险分层

甲状腺癌初始管理的现有风险调整方法是基于采用2009年美国甲状腺协会(ATA)分级系统进行的将受试者分类为中高发生风险或低发生风险的术后分类。虽然这种解剖学分级系统可在临床上使用，但其不能在甲状腺切除术之前被准确地评估，并且不能包括受试者结果的任何分子预测因子。这项研究确定，是否可在甲状腺手术之前使用在恶性甲状腺结节诊断性细针抽吸(FNA)期间获得的转录数据来提高风险分层。

来自样品的FNA材料在术前收集(n＝79)，并由专家组在手术后诊断为乳头状甲状腺癌(PTC)，包括经典的组织学亚型(图1和图2)。使用既定的发生风险分层指南将每名患者归类为“低风险”或“中高风险”。获得全基因组RNA序列(RNASeq)数据(每个样品8000万个读取)，并使用监督式学习来训练分类器；该分类器包括支持向量机(SVM)、随机森林(RF)、惩罚逻辑回归(PLR)和这三者的集成。使用相同样品群组上的10倍交叉验证来测定分类器性能。

使用320个基因和针对BRAF基因状态控制的开源软件DESeq模型构建分类器。对于最大接受者工作特性(ROC)曲线下面积(AUC)为0.86的支持向量机(SVM)分类器，观察到“低风险”与“中高风险”的最大分类性能(图3和图4)。所有分类器均达到相似的AUC：RF0.82，PLR 0.82和集成0.84。被发现可用于分类中的基因属于多种跨膜信号传导途径，包括ECM-受体相互作用、粘着斑和细胞粘附分子(图5)。所评估的分类器使用优化总准确度而不偏向灵敏度或特异性的阈值。当支持向量机(SVM)分类器被应用于样品群组时，其正确地鉴定了79.3％(23/29)的美国甲状腺协会(ATA)低风险肿瘤和82.0％(41/50)的ATA中高风险肿瘤(图5)。

实施例2：交叉验证模型

采用具有突变组的基因表达分类器(GEC)测试不确定的甲状腺结节，以确定通过使用机器学习是否提高了术前风险分层。图10为示出训练标记确定的流程图。采用AfirmaGEC第1版训练标记来区分组织学良性样品和组织学恶性样品。使用美国甲状腺协会(ATA)风险训练标记将组织学恶性样品进一步区分为低发生风险和中/高发生风险。中/高风险特征包括淋巴结转移、血管浸润、甲状腺外延伸或其任意组合。风险训练样品群组在图1中示出。具有中/高组织学特征发生风险的样品的百分比在图2中示出。进行10倍交叉验证以评估包括线性支持向量机(SVM)、随机森林、GLMNet和集成分类器在内的不同学习模型的曲线下面积(AUC)。在该实施例中，最佳模型是集成分类器，其AUC为0.871(如图11A中所示)，灵敏度为86％(如图11B中所示)且特异性为86％(如图11B中所示)，阳性预测值为91.3％(PPV)且阴性预测值为78.3％(NPV)。初始特征空间为850个初始特征，包括50个计数和800个变体。最佳性能是使用240个组合特征。来自由分类器以每种倍数选择的变体的最优(top)特征在图12中示出。来自由分类器以10倍选择8至10次的计数的最优特征在图13中示出。

实施例3：突变分析

收集细针抽吸(FNA)样品(n＝81)，并由专家组在手术后诊断为恶性的(乳头状甲状腺癌(PTC)、多病灶乳头状甲状腺癌(mPTC)、乳头状甲状腺癌的滤泡变型(FVPTC)、具有高细胞特征的乳头状甲状腺癌(PTC-TCV)、甲状腺髓样癌(MTC)、分化良好但并未特化的癌(well-differentiated carcinoma-not otherwise specified，WDC-NOS)、肝细胞癌(HCC)、滤泡性癌(FC))或良性的(良性家族性嗜中性粒细胞减少症(BFN)、纤维腺瘤(FA)、肝细胞腺瘤(HCA)、玻璃样变性梁状腺瘤(HTA)、Leydig细胞瘤(LCT))。还分析了具有组织病理学真实性的手术组织样品(n＝57)。还分析了来自不具有组织病理学的临床实验室改进修正(CLIA)实验室的连续系列的不确定FNA(n＝101)。对样品进行下一代测序(NGS)，并且在五个不同突变组中用递增数目的探询基因组位点和融合对来评估14种基因(图14)。如图14中所示，上方的表格示出了五个突变组中每一组的基因组位点数目和融合对数目。突变组1由9个基因组位点和3个融合对组成。突变组2由19个基因组位点和25个融合对组成。突变组3由208个基因组位点和25个融合对组成。突变组4由929个基因组位点和25个融合对组成。突变组5由3670个基因组位点和25个融合对组成。图14的下方表格示出了一个或多个突变组中靶向的14种基因。

应用数个过滤器对数据进行评分。当没有融合或点突变存在时，将样品评分为阴性。如果检测到至少一个融合或点突变(除了鸟嘌呤核苷酸结合蛋白、α刺激(GNAS)突变、被视为良性肿瘤的标志物的标志物)，则将样品评分为阳性。

在所有样品群组中检测恶性肿瘤的灵敏度随着基因座数目的增加而提高。特异性显示出相反的趋势，在所有样品群组中随着基因座数目的增加而降低。在图15的FNA样品中，最小的9位点组达到了53％的灵敏度和93％的特异性。图15中的最大组(3670个位点)达到了100％的灵敏度和10％的特异性。

在图17的手术组织(n＝38)中，观察到类似的趋势。对总计57个组织进行了评估。然而，仅38个组织具有待用于测试性能计算的明确的组织学良性或组织学恶性病理学。在图17的最小的9位点组中，89％的特异性与45％的灵敏度相关联。在图17的最密集组(3670个位点)中，100％的灵敏度与0％的特异性相关联。

总体而言，图15和图17的两个较大组将87-90％的组织学良性FNA错误地判定为恶性，而图15和图17的两个较小组遗漏了48-58％的已知癌症。五个组中CLIA FNA样品的突变和融合频率分别为13％、4％、21％、89％和92％。通过检测数目逐渐增多的点突变和融合而获得的灵敏度以特异性为代价，并且在真正良性样品中具有过度评价为恶性的风险。

具有208个位点的组3中的细胞学突变性能在图16中示出。该组由Bethesda细胞学分类进行划分，Bethesda细胞学分类包括细胞学良性(Cyto B)、未确定意义的异型性/未确定意义的滤泡性病变(AUS/FLUS)、滤泡性肿瘤/疑似滤泡性肿瘤(FN/SFN)、疑似恶性肿瘤(SFM)、细胞学恶性(Cyto M)和所有样品。每个组的数个参数，包括样品总数、组织学良性突变数/总数、组织学恶性突变数/总数、灵敏度、特异性，在图16中示出。

观察到的CLIA FNA样品的突变频率的图示在图18A中示出。突变阳性样品(组3)以深灰色表示。GNAS阳性结节以浅灰色表示。百分比突变频率被细分为不同的组，包括整体组、AUS/FLUS组和FN/SFN组。图18B示出了也在图18A中示出的各亚组中用组3检测到的基因和突变的表格。

观察到的FNA样品的突变频率的图示在图19A中示出。突变阳性结节(组3)以深灰色表示。结节以大小比例示出，并且最小结节＝1厘米(cm)。百分比突变频率被细分为不同的组，包括整体组、组织学恶性组和组织学良性组。图19B示出了也在图19A中示出的各亚组中用组3检测到的基因和突变的表格。

观察到的组织样品的突变频率的图示在图20A中示出。突变阳性样品(组3)以深灰色表示。GNAS阳性结节以浅灰色表示。百分比突变频率被细分为不同的组，包括整体组、组织学恶性组、组织学良性组和组织学不符合要求组或非诊断组。图20B示出了也在图20A中示出的各亚组中用组3检测到的基因和突变的表格。

本发明提供了包括但不限于以下实施方式：

1.一种用于评估受试者的组织样品以确定所述受试者的疾病发生风险的方法，该方法包括：

(a)获得与从所述受试者获得的针抽吸样品中的核酸样品中第一组基因的一个或多个基因中的每一个相对应的表达水平，所述第一组基因与所述受试者的所述疾病发生风险相关；

(b)确定与所述核酸样品中第二组基因的一个或多个基因中的每一个相对应的核酸序列的存在，所述第二组基因与所述受试者的所述疾病发生风险相关；

(c)分别将(i)在(a)中获得的所述表达水平以及(ii)在(b)中获得的所述核酸序列与对照进行比较，以提供所述表达水平以及所述核酸序列与所述对照的比较，其中所述核酸序列与所述对照中的参考序列的比较指示针对于所述第二组基因的给定基因的一个或多个序列变体的存在；以及

(d)使用采用经训练的算法编程的计算机处理器，(i)分析所述比较，以及(ii)基于所述比较确定所述疾病的所述发生风险。

2.根据实施方式1所述的方法，其中所述疾病为癌症。

3.根据实施方式1所述的方法，其进一步包括在(a)之前，从所述受试者获得所述针抽吸样品。

4.根据实施方式1所述的方法，其进一步包括在(a)之前，从所述针抽吸样品中的所述核酸样品确定所述表达水平。

5.根据实施方式1所述的方法，其进一步包括在(b)之前，从所述针抽吸样品中的所述核酸样品确定所述核酸序列。

6.根据实施方式5所述的方法，其进一步包括将所述核酸序列与所述参考序列进行比较，以鉴定所述一个或多个序列变体。

7.根据实施方式6所述的方法，其中所述参考序列为来自所述受试者的管家基因。

8.根据实施方式1所述的方法，其中所述第一组或第二组基因中的所述一个或多个基因包括多个基因。

9.根据实施方式1所述的方法，其中所述针抽吸样品已被发现是细胞学上不明确的或可疑的。

10.根据实施方式1所述的方法，其中所述针抽吸样品具有约1微升或更小的体积。

11.根据实施方式1所述的方法，其中所述针抽吸样品具有约9.0或更小的RNA完整性指数(RIN)值。

12.根据实施方式10所述的方法，其中所述针抽吸样品具有约6.0或更小的RIN值。

13.根据实施方式1所述的方法，其中所述疾病的所述发生风险包括所述受试者的所述疾病的复发风险。

14.根据实施方式2所述的方法，其中所述癌症的所述发生风险包括在所述受试者中转移的风险。

15.根据实施方式1所述的方法，其中所述经训练的算法采用来自至少25名已被诊断为患有所述疾病的受试者的组织样品进行训练。

16.根据实施方式15所述的方法，其中所述经训练的算法采用来自至少200名已被诊断为患有所述疾病的受试者的组织样品进行训练。

17.根据实施方式1所述的方法，其中(d)发生在术前。

18.根据实施方式1所述的方法，其中(d)发生在所述受试者具有阳性疾病诊断之前。

19.根据实施方式1所述的方法，其中(d)进一步包括将所述发生风险分层为低发生风险或中高发生风险，其中所述低发生风险具有约50％至约80％的发生概率，并且其中所述中高发生风险具有约80％至100％的发生概率。

20.根据实施方式19所述的方法，其中所述分层具有至少80％的准确度。

21.根据实施方式19所述的方法，其中所述分层具有至少80％的特异性。

22.根据实施方式1所述的方法，其进一步包括将一个或多个过滤器、一个或多个包装器、一个或多个嵌入式协议或其任意组合应用于所述比较。

23.根据实施方式22所述的方法，其进一步包括将所述一个或多个过滤器应用于所述比较。

24.根据实施方式23所述的方法，其中所述一个或多个过滤器包括t检验、方差分析(ANOVA)、贝叶斯框架、伽马分布、Wilcoxon秩和检验、类间内平方和检验、秩乘积法、随机置换法、误分类数目阈值(TNoM)、双变量法、基于相关性的特征选择(CFS)法、最小冗余最大相关性(MRMR)法、Markov毯过滤法、非相关收缩重心法或其任意组合。

25.根据实施方式23所述的方法，其中所述一个或多个序列变体包含点突变、融合基因、置换、缺失、插入、倒位、转变、易位或其任意组合中的一种或多种。

26.根据实施方式25所述的方法，其中所述一个或多个点突变为约5个至约4000个点突变。

27.根据实施方式25所述的方法，其中所述一个或多个融合基因为至少两个融合基因。

28.根据实施方式1所述的方法，其中所述第一组或第二组的所述一个或多个基因为少于约15个基因。

29.根据实施方式1所述的方法，其中所述第一组或第二组的所述一个或多个基因为少于约75个基因。

30.根据实施方式1所述的方法，其中所述第一组或第二组的所述一个或多个基因为约50个至约400个基因。

31.根据实施方式1所述的方法，其中(b)中的所述获得包括对所述FNA样品中的核酸样品进行测序以获得所述核酸序列。

32.根据实施方式31所述的方法，其中所述测序包括富集第二组基因的所述一个或多个基因或其变体。

33.根据实施方式1所述的方法，其中(a)包括使用具有对所述第一组基因的所述一个或多个基因具有选择性的探针的微阵列。

34.根据实施方式1所述的方法，其中所述组织样品为甲状腺组织样品。

35.根据实施方式34所述的方法，其中所述第一组和第二组基因包含COL1A1、THBS2或其任意组合。

36.根据实施方式34所述的方法，其中所述第二组基因包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1或其任意组合。

37.根据实施方式34所述的方法，其中所述第一组基因包含COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1或其任意组合。

38.根据实施方式34所述的方法，其中所述第二组基因包含EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24或其任意组合。

39.根据实施方式34所述的方法，其中所述第二组基因包含AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP或其任意组合。

40.根据实施方式1所述的方法，其中所述第一组基因和所述第二组基因是不同的。

41.根据实施方式1所述的方法，其进一步包括鉴定所述疾病的新型遗传生物标志物。

42.根据实施方式1所述的方法，其中(a)中的所述获得包括测定与所述一个或多个基因中的每一个相对应的所述表达水平。

43.根据实施方式42所述的方法，其中所述测定包括使用针对所述一个或多个基因中的每一个所选择的标志物进行的阵列杂交、核酸测序或核酸扩增。

44.根据实施方式43所述的方法，其中所述标志物为针对所述一个或多个基因中的每一个所选择的引物。

45.根据实施方式43所述的方法，其中所述测定包括逆转录聚合酶链反应(PCR)。

46.根据实施方式1所述的方法，其中所述确定包括测定所述核酸样品中所述第二组基因的所述一个或多个基因中的每一个。

47.根据实施方式46所述的方法，其中所述测定包括使用针对所述一个或多个基因中的每一个所选择的标志物进行的阵列杂交、核酸测序或核酸扩增。

48.根据实施方式47所述的方法，其中所述标志物为针对所述一个或多个基因中的每一个所选择的引物。

49.根据实施方式47所述的方法，其中所述测定包括逆转录聚合酶链反应(PCR)。

50.根据实施方式1所述的方法，其中所述针抽吸样品为细针抽吸样品。

51.一种用于评估受试者的组织样品以确定所述受试者的疾病发生风险的系统，该系统包括：

一个或多个计算机存储器，该计算机存储器存储(a)与从所述受试者获得的针抽吸样品中的核酸样品中第一组基因的一个或多个基因中的每一个相对应的表达，所述第一组基因与所述受试者的所述疾病发生风险相关，以及(b)与所述核酸样品中第二组基因的一个或多个基因中的每一个相对应的核酸序列的存在的指示，所述第二组基因与所述受试者的所述疾病发生风险相关；以及

计算机处理器，其与所述一个或多个计算机存储器耦合并被编程为：

(i)分别将(1)所述计算机存储器中的所述表达水平以及(2)所述核酸序列与对照进行比较，以提供所述表达水平以及所述核酸序列与所述对照的比较，其中所述核酸序列与所述对照中的参考序列的比较指示针对于所述第二组基因的给定基因的一个或多个序列变体的存在；以及

(ii)使用经训练的算法(1)分析所述比较以及(2)基于所述比较确定所述疾病的所述发生风险。

52.一种非暂时性计算机可读介质，其包含机器可执行代码，所述机器可执行代码在由一个或多个计算机处理器执行时实现用于评估受试者的组织样品以确定所述受试者的疾病发生风险的方法，所述方法包括：

尽管本文已经显示并描述了本发明的优选实施方案，但对本领域技术人员而言显而易见的是，这些方案仅以举例的方式提供。它并不意味着本发明受到本说明书中提供的具体实施例的限制。虽然本发明已经参照上述的说明书进行了描述，本文实施方案的说明书和图示并不意味着以限制的意义来解释。在不脱离本发明的情况下，本领域技术人员将会想到许多变化、改变和替代。此外，应当理解的是，本发明的所有方面不限于本文所述的具体的描述、构造或相对比例，其依赖于各种条件和变量。应理解，本文描述的本发明实施方案的各种替代方案可用于实施本发明。因此可以预期的是，本发明还应当包括任何这样的替代、改变、变化或等同物。下列权利要求旨在限定本发明的范围，从而涵盖这些权利要求的范围内的方法和结构及其等同物。

Claims

2.根据权利要求1所述的方法，其中所述疾病为癌症。

3.根据权利要求1所述的方法，其进一步包括在(a)之前，从所述受试者获得所述针抽吸样品。

4.根据权利要求1所述的方法，其进一步包括在(a)之前，从所述针抽吸样品中的所述核酸样品确定所述表达水平。

5.根据权利要求1所述的方法，其进一步包括在(b)之前，从所述针抽吸样品中的所述核酸样品确定所述核酸序列。

6.根据权利要求5所述的方法，其进一步包括将所述核酸序列与所述参考序列进行比较，以鉴定所述一个或多个序列变体。

7.根据权利要求6所述的方法，其中所述参考序列为来自所述受试者的管家基因。

8.根据权利要求1所述的方法，其中所述第一组或第二组基因中的所述一个或多个基因包括多个基因。

9.一种用于评估受试者的组织样品以确定所述受试者的疾病发生风险的系统，该系统包括：

10.一种非暂时性计算机可读介质，其包含机器可执行代码，所述机器可执行代码在由一个或多个计算机处理器执行时实现用于评估受试者的组织样品以确定所述受试者的疾病发生风险的方法，所述方法包括：