CN105378104A

CN105378104A - 用于样品分类的方法和组合物

Info

Publication number: CN105378104A
Application number: CN201480016042.2A
Authority: CN
Inventors: G·C·肯尼迪; J·I·威尔德; 达里娅·丘多瓦; 丹尼尔·潘克拉茨; 卡塔林·巴尔巴西奥鲁; P·肖恩·沃尔什; M·帕甘
Original assignee: Veracyte Inc
Current assignee: Veracyte Inc
Priority date: 2013-03-15
Filing date: 2014-03-13
Publication date: 2016-03-02
Also published as: EP2971164A4; US20160068915A1; GB201515291D0; WO2014151764A2; SG11201506723XA; GB2525804A; IL240512A0; IL240512B; WO2014151764A3; BR112015022490A2; GB2525804B; EP2971164A2; EP2971164B1

Abstract

本文公开了涉及样品分类的试剂盒、组合物和方法。本文公开的方法还可用于诊断病状或支持治疗相关的决定。在一些实施方案中，所述方法包括从获自受试者的生物样品中分离核糖核酸(RNA)；鉴定在所述RNA样品中第一目的区域内的一个或多个突变；将所述RNA样品的第一目的区域中每个碱基对位置的变异频率与一个或多个参考值进行比较，以鉴定一个或多个与癌症相关的突变；将所述一个或多个鉴定的突变与一个或多个鉴定的突变进行比较，以鉴定至少一个突变的存在或不存在。

Description

用于样品分类的方法和组合物

交叉引用

本申请要求2013年3月15日提交的美国临时专利申请号61/798,941的优先权，其通过引用全文并入本文。

背景技术

癌症是全世界的主要死亡原因之一；然而对许多患者而言，简单地明确得到准确诊断这个第一步的过程常常是令人沮丧且耗时的经历。对于包括甲状腺癌在内的许多癌症而言是这样。对于相对罕见的疾病，比如占甲状腺肿瘤的大约5％的许特尔细胞腺瘤和许特尔细胞癌而言也尤其是这样。

对癌症的不准确诊断可能导致包括昂贵的外科手术在内的不必要的后续程序，更别说给患者带来的不必要的精神痛苦。就甲状腺癌而言，由于怀疑恶性肿瘤，据估计美国每年进行大约130,000例甲状腺切除手术，其中仅有约54,000例是必要的；因此，每年进行了数以万计的不必要的甲状腺切除手术。由于需要终身药物治疗来代替损失的甲状腺功能，持续增加的治疗费用和并发症可能导致进一步的经济和身体伤害。

发明内容

本公开内容提供了诊断和/或治疗疑似患有疾病如癌症的受试者的方法。在一些实施方案中，所述方法包括从获自受试者的生物样品中分离核糖核酸(RNA)；鉴定在所述RNA样品中第一目的区域内的一个或多个突变；将所述RNA样品的第一目的区域中每个碱基对位置的变异频率与一个或多个参考值进行比较，以鉴定一个或多个与所述癌症相关的突变；将所述一个或多个鉴定的突变与一个或多个鉴定的突变进行比较，以鉴定至少一个突变的存在或不存在；对RNA样品的第二区域重复前述步骤以产生所述RNA的突变谱，其中第二目的区域与第一目的区域不同；以及基于所述突变谱诊断和/或治疗所述受试者。在一些实施方案中，可重复所述步骤至少2、10或100次。

在一些实施方案中，一个或多个参考值包含参考序列中单碱基对的变异频率，其中参考序列中的变异频率来源于至少1000个个体。在一些实施方案中，一个或多个参考值包含参考序列中单碱基对的变异频率，其中参考序列中的变异频率来源于已知的癌症。在一些实施方案中，一个或多个参考值包含参考序列中单碱基对的变异频率，其中参考序列中的变异频率来源于至少40个样品。

在一些实施方案中，将判定(call)得分分配给在RNA中鉴定的每个突变。在一些实施方案中，使用癌症中体细胞变异的已知位点的COSMIC数据库产生突变谱。

在一些实施方案中，一个或多个突变的存在或不存在的鉴定至少是90％、95％或100％准确的。

本公开内容还提供了检测和归一化由来自受试者的核酸样品生成的微阵列样品数据中3’-5’扩增偏倚的方法，该方法包括从受试者获得生物样品，其中该生物样品包含核酸样品；扩增该核酸样品以产生一个或多个扩增子，其中在一个或多个探针的帮助下扩增该核酸样品；产生在所述一个或多个扩增子中的单独扩增子的核酸序列读取值；针对所述一个或多个扩增子中的每一个单独的扩增子，在计算机处理器的帮助下，经比较所述一个或多个探针中的给定探针的核酸序列与(c)中产生的单独扩增子的核酸序列，计算所述给定探针的3’偏倚程度。

在一些实施方案中，所述核酸是mRNA转录物。在一些实施方案中，计算3’偏倚程度进一步包括确定从所述mRNA转录物的3’端到给定探针的有效距离。在一些实施方案中，计算3’偏倚程度进一步包括确定从所述mRNA转录物中的一个或多个位点或序列到所述给定探针的有效距离。在一些实施方案中，计算3’偏倚程度进一步包括计算所述给定探针与所述mRNA转录物内的一个或多个下游polyA位点或序列之间的距离或中值加权距离，其中所述加权距离由与所述mRNA转录物中的每个polyA位点相关联的读取计数确定。在一些实施方案中，计算3’偏倚程度进一步包括比较两个或更多个相同探针的成对强度谱的变异性，其中所述强度谱从两个或更多个独立的微阵列数据集获得，其中每个微阵列数据集从相同的生物样品产生。

在一些实施方案中，比较两个或更多个相同探针的成对强度谱的变异性进一步包括在所述mRNA转录物内进行探针的全转录物比对(per-transcriptalignment)以计算有效距离。在一些实施方案中，所述归一化程序进一步包括生成归一化靶标分布。在一些实施方案中，所述归一化程序进一步包括分位数归一化，其中将探针分组为箱元(bin)，并且将分位数归一化应用到每个箱元内的每个探针以归一化整个箱元中的探针的中值强度。在一些实施方案中，所述归一化程序从样品数据中去除应用偏倚。

在一些实施方案中，将汇总(summarization)方法应用到归一化的探针强度并用来改善微阵列样品数据中差异基因表达的检测。

本公开内容还提供了用于检测微阵列数据中存在的异质性的方法，该方法包括在计算机中(insilico)从一个或多个样品的混合物产生假定的微阵列数据；从所述假定的微阵列数据产生一个或多个模型；从一个或多个在体外进行的样品的混合物获得微阵列数据；比较(b)的所述一个或多个模型与获得的数据，并基于所述比较，评估所述一个或多个模型的强度。

在一些实施方案中，所述一个或多个模型的强度通过比较所产生的模型与所获得的数据之间的均方差来确定。在一些实施方案中，选择产生的模型由该模型的预测能力来确定。在一些实施方案中，所述预测能力通过比较所述模型与实验数据来确定。在一些实施方案中，使用一个或多个模型来改善在检测样品中的异质性方面的选择性和/或灵敏度。

本公开内容还提供了在来自受试者的生物样品中鉴定癌症的方法，该方法包括从所述受试者获得生物样品；测定所述生物样品中的一种或多种基因表达产物的表达水平；使用一个或多个临床分类器来比较所述表达水平与表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和/或表27的多个基因的参考表达水平以生成表达水平的比较，其中所述比较是用算法进行的；基于所述一个或多个临床分类器的比较将所述生物样品分类为含有或不含癌症和/或特定组织类型以产生所述生物样品的分类；以及基于所述分类诊断和/或治疗所述受试者。

本公开内容还提供了在来自受试者的生物样品中鉴定癌症的方法，该方法包括从所述受试者获得生物样品；测定所述生物样品中的一种或多种基因表达产物的表达水平；使用一个或多个临床分类器来比较所述表达水平与表24、表25、表26和/或表27的多个基因的参考表达水平以生成表达水平的比较，其中所述比较是用算法进行的；基于所述一个或多个临床分类器的比较将所述生物样品分类为含有或不含癌症和/或特定组织类型，以产生所述生物样品的分类；以及基于所述分类诊断和/或治疗所述受试者。

在一些实施方案中，将所述生物样品分类为含有或不含癌症进一步包括预测与所述癌症相关的突变的存在或不存在。在一些实施方案中，训练所述算法或所述算法包含线性SVM分类器。

在一些实施方案中，所述经训练的算法使用组织样品、细针抽吸物或其组合来训练。

在一些实施方案中，使用包含从表11或表12中选出的多个基因的临床分类器将所述生物样品分类为含有或不含全血。

在一些实施方案中，所述癌症是甲状腺癌或淋巴瘤。

在一些实施方案中，所述癌症是甲状腺癌或淋巴瘤，并且与甲状腺癌或淋巴瘤相关的突变是BRAFV600E突变。在一些实施方案中，所述方法进一步包括基于所述比较将所述样品分类为具有侵袭性(aggressive)的预后。

在一些实施方案中，使用包含从表14或表15中选出的多个基因的临床分类器将所述生物样品分类为含有或不含滤泡组织或细胞。

在一些实施方案中，使用包含从表2、表9或表10中选出的多个基因的临床分类器将所述生物样品分类为含有或不含甲状腺癌。

在一些实施方案中，基于所述一个或多个临床分类器的比较将所述生物样品分类为含有或不含癌症和/或特定组织类型，进一步提供癌症和/或特定组织类型在所述样品中的比例的估计值。

在一些实施方案中，所述生物样品通过针抽吸、细针抽吸、芯针活检、真空辅助活检、大芯活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检获得。在一些实施方案中，所述生物样品是甲状腺组织的细针抽吸物。

在一些实施方案中，所述表达水平通过微阵列、SAGE、印迹法、RT-PCR、测序和/或定量PCR测定。

在一些实施方案中，所述基因表达产物是RNA、mRNA、rRNA、tRNA或miRNA。

在一些实施方案中，所述基因表达产物中的至少一种对应于在所述癌症中过表达的基因。

在一些实施方案中，方法以至少95％、99％或100％的准确度区分含癌的样品与不含癌的样品。

在一些实施方案中，在用一个或多个临床分类器分类前，使用所述方法来预筛选生物样品。

在一些实施方案中，所述方法降低由所述临床分类器返回的假阳性率。

在一些实施方案中，使用一个或多个临床分类器作为甲状腺癌的诊断工具。

在一些实施方案中，所述方法的受试者用手术治疗。

在一些实施方案中，使用包含从表1中选出的多个基因的临床分类器将所述生物样品分类为含有或不含淋巴瘤。

在一些实施方案中，通过两个或更多个本文上面或其他地方所述的临床分类器对所述生物样品进行分类，该临床分类器用于将所述生物样品分类为含有或不含疾病(例如，癌症)和/或特定组织类型。

本公开内容还提供了在来自受试者的生物样品中鉴定血液或滤泡组织的方法，该方法包括从所述受试者获得生物样品；测定所述生物样品中的一种或多种基因表达产物的表达水平；使用一种或多种临床统计学来比较所述表达水平与表11或表12、表14或表15的多个基因的参考表达水平以生成表达水平的比较，其中所述比较是用算法进行的；基于所述所述一个或多个临床统计学的比较将所述生物样品分类为含有血液或滤泡组织或不含血液或滤泡组织，以产生所述生物样品的分类；以及基于所述分类诊断和/或治疗所述受试者。

在一些实施方案中，所述生物样品通过针抽吸、细针抽吸、芯针活检、真空辅助活检、大芯活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检获得。

在一些实施方案中，所述生物样品是甲状腺组织的细针抽吸物。在一些实施方案中，所述表达水平通过微阵列、SAGE、印迹法、RT-PCR、测序和/或定量PCR测定。

在一些实施方案中，所述方法以至少95％、99％或100％的准确度区分含有血液或滤泡组织的样品与不含血液的样品。

在一些实施方案中，所述方法降低非血液组织的假阳性鉴定率。

本公开内容的另一方面提供了机器可执行代码，当由一个或多个计算机处理器执行时，该机器可执行代码执行本文上面或其他地方所述的任何方法。

本公开内容的另一方面提供了包含一个或多个计算机处理器和与所述一个或多个计算机处理器耦合的存储器位置的计算机系统。所述存储器位置包含机器可执行代码，当由所述一个或多个计算机处理器执行时，该机器可执行代码执行本文上面或其他地方所述的任何方法。

通过下面的发明详述，本公开内容另外的方面和优点将变得对本领域技术人员而言显而易见，发明详述中仅示出并描述了本公开内容的说明性实施方案。应当认识到，本公开内容能够具有其他和不同的实施方案，并且其若干细节能够在各个明显的方面中进行修改，所有这些都不脱离本公开内容。因此，附图和详述将被视为在本质上是说明性的，而不是限制性的。

援引并入

在本说明书中所提及的所有出版物、专利和专利申请都通过引用并入本文，其程度犹如特别地和单独地指出每个单独的出版物、专利或专利申请通过引用而并入。

附图说明

图1(A-C)是显示示例性实施方案(A和B)以及示例性系统架构(C)的流程图。

图2是列出可用于诊断甲状腺病状的16个生物标志物组的表格。

图3是列出可用于诊断甲状腺病状的7个分类组的表格。分类器7在本文中有时称为“主分类器”。

图4(A-H)是列出可分配给所示分类组的生物标志物的表格。

图5显示了一个示例性的试剂盒。

图6示出了一台计算机，其可用于显示、储存、取回或计算来自本文公开的方法的诊断结果；可用于显示、储存、取回或计算来自基因组或核酸表达分析的原始数据；或者可用于显示、储存、取回或计算任何样品或客户信息。

图7示出了被编程或配置用于实现本申请的方法的计算机控制系统。

图8是表示SLC4A1的表达的图。良性(B-RNA)和恶性(M-RNA)甲状腺组织RNA或全血(SC-001–SC-009)。

图9是表示FPR2的表达的图。良性(B-RNA)和恶性(M-RNA)甲状腺组织RNA或全血(SC-001–SC-009)。

图10是表示EMR3的表达的图。良性(B-RNA)和恶性(M-RNA)甲状腺组织RNA或全血(SC-001–SC-009)。

图11是表示标志物FPR2(纯的和混合的)的强度信号的图。在甲状腺和血液混合物实验中对于标志物FPR2在体外观察到的(点)和模拟的混合物值(线)。

图12是表示血液混合研究中估计的比例和体外设计的比例的比较的图。

图13是表示一组265个细胞学不确定的甲状腺样品中估计的血液比例的分布的图。

图14A是表示142种分类器标志物的所有体外混合物样品中的模型预测值和观察到的强度值之间归一化残差的分布的图。顶部的图(A)表示M₀模型预测值；

图14B是代表M₁模型预测值的图。灰色虚线是(-1,1)线，如果它们是正态分布则其应该包含～65％的残差。

图15是表示计算机模拟的图，其指示出精确地近似于线性的分类器得分。

图16是表示计算机模拟的图，其表明模拟在分类器得分的距离内不是线性的，但精确地近似于观察到的GEC得分。

图17是表示使用来自邻近正常组织的RNA，纯甲状腺PTC或混合物的计算机模拟和体外GEC得分。蓝色虚线表示由M₁模型(在log-2中为线性的)所显示的分类器得分预测值，黑色圆圈表示由M₀模型(在原始强度距离中为线性的)显示的分类器得分预测值。对于混合样品所观察的结果如红色点所示。虽然使用M₀模型预测的混合物的分类器得分没有被混合物比例所线性地解释，但使用此模型的计算机模拟精确地近似于体外GEC得分。

图18反映了显示可通过本发明推测未知混合比例的图。混合比例的先验(点线)和后验(实线)分布，用模型M₀和混合比例的beta先验由观察到的数据来估计。尽管在混合比例已知的研究中证明其有效，但可以推测，当混合比例未知时它基于观察到的数据。

图19是表示甲状腺RNA-seq样品中的已知突变的频率(COSMIC数据库)的图。一些样品用在数据处理期间没有聚集的多序列比对文件表示。在开始突变判定(calling)方法之前聚集是优选的。除了BRAF，多数突变都在仅一个样品中检测到(y轴＝带有突变的比对文件的数目，x轴＝检测到突变的基因)。

图20是表示甲状腺PTCRNA-seq中每个样品检测到的COSMIC突变的分布的图。使用本发明的方法和已经表征了其BRAFV600E突变状态(BRAF阳性或BRAF阴性)的一组良性(B)和恶性(N)甲状腺样品来检测突变。在图表中的条内列出的基因如下：RB1、FT140、RB1、FTM3、DYNCIH1、ITM2C、ILRRN3、MFAP1A、SHPRH、TP53、TRIM24、VLDLR、PCYT1A、AP1M1、POLR2I、SUPT5H、BRAF、EGFR、FITM3、ZNF507、IFITM3、PIK3CA、HIST1H4B、MDN1、RIN2、ACADSB、BAP1、PDPK1、APC、PTCH1、STAMBP、PRRG1、APBB1IP、C6ORF106、GALNT12、ATP9B、IFT122、FXYD6、FXYD6-FXYD2、LRRK1、ASXL1、ATM、BRPF3、LAMC1、CAD、EPS8、GGA3、SENP3、CCDC132、NF2、SENP3、TRRAP、C18ORF1、LRP1和OTX1。

图21是表示使用RNA-seq，在甲状腺PTC中每个样品检测到的COSMIC突变的分布的图。该分布与图14中的相似，除了应用更严格的数据质量要求外。在图表的条内列出的基因如下：RB1、IFITM3、PCYT1A、BRAF、EGFR、ACADSB、PDPK1、STAMBP、APBB1IP、GALN12、C6ORF106、ASXL1、BRPF3和EPS8。

图22是表示BRAF-样品中的ERBB2缺失(突出显示的列内的白色间隙)的图。

图23是表示BRAF+甲状腺PTC样品中的EGFR点突变的图。

图24是表示出探针强度信号中值的图，其示出了试剂特异性批效应，并且作为探针距转录物起点的距离的函数而系统地变化。每个图表示使用全转录组扩增系统用不同试剂批次测试多次的来自单一样品的对照RNA，以及甚至在同一批试剂内观察到的变化的程度。所有示出的对照RNA均从单一来源的冰冻人甲状腺组织块制备而成(示出的是来自两个良性和两个恶性结节的对照样品)。针对每个对照样品的RNA提取均同时进行，并且将多批洗脱的RNA立即合并、混合，然后等分至单次使用的小瓶中。

图25是表明信号作为探针距转录物起点的距离的函数而不同的图。对于在两次独立实验中测试的任何给定组群的样品，探针强度信号不同，并显示了作为探针距转录物起点的距离的函数而系统地变化的试剂特异性批效应。每个图表示使用单批全转录组扩增系统试剂测试的一组样品，与使用这些试剂的不同批次测试的同一组样品相比，观察到的强度信号的差异。

图26是表示出归一化的探针强度残差的图。归一化的探针强度的残差的实例按其到基因转录物3’端的距离分层。残差被定义为在两个不同实验批次中对同一生物样品获得的每个探针的强度值的成对差异。不是每个转录物都显示这样的值分布。每条线表示来自独特患者样品的探针强度；每个点表示落入3’距离的特定箱元内的所有探针的中值残差。距3’端的距离已经被分组到不同数目的核苷酸(X轴)的箱元中，每个箱元包含阵列上所有探针的5％。

图27A和27B表示探针位置影响探针强度残差。中值残差的大小由数据转换前(图27A)和转换后(图27B)转录物内的中值探针位置来示出。应用数据衍生的校正因子归一化3’偏倚影响并导致实验之间的再现性提高。

图28表示使用跨多个甲状腺亚型的BRAFmRNA特征的分类性能的图。ROC曲线在BRAF+对BRAF-的比较中使用前30位的基因(按FDRp-值排序)。

图29表示随转录物以依赖于试剂批的方式变化的探针集强度值的图。该图提供了在多个转录物簇间平均后的一组样品的归一化强度值的实例。使用了5个不同的WTA和微阵列批。批与批之间的差异主要位于转录物的3’端处。

图30表示信号强度谱对poly-dT引物浓度的剂量响应的图。该图提供了在多个转录物簇间平均后的信号强度值的实例。当相对于使用常规配制的引物混合物的正常/对照条件(1xdT，第7批)，WTA试剂盒中poly-dT的相对浓度增加(2xdT，第8批)或减少(0xdT，第6批)时，观察到在转录物的3’端处，但不是在5’端处信号强度的差异。尽管在1xdT第7批和1xdT第9批中的poly-dT组分有相同的配方，但每个扩增批次导致不同的结果。

图31表示poly-dT引物交换实验的图表结果。将之前显示不同3’偏倚谱(黑色和蓝色的线)的来自两个WTA试剂盒批次的poly-dT引物交换(红色和绿色的线)并重新处理对照RNA，以便评估该特异性试剂是否是观察到的变化的原因。结果清楚地表明，在每个试剂盒中的A1poly-dT引物组分导致了这些实验中大多数观察到的变化。

图32表示模拟(y轴)在不同得分再现性水平(x轴)上的比例的分布图，其中在几个候选判定边界值中的每一个处有多于3个假阳性(左)和多于13个假阴性(右)。水平的点线表示5％的风险阀值。

图33表示通过castPCR在BRAFV600E阳性的三个不同阀值处，在10倍交叉验证下，AfirmaBRAF分类器在训练数据上的受试者工作特征曲线的图。插图示出了ROC曲线左上角的更多细节，表明取决于使用的castPCR阀值，ROC曲线之间的分离的相对缺乏。

图34表示通过castPCR在BRAFV600E阳性的三个不同阀值处，AfirmaBRAF在测试集上的性能的ROC曲线的图。插图示出了ROC曲线左上角的更多细节，表明取决于使用的castPCR阀值，ROC曲线之间的分离的相对缺乏。

图35表示按AfirmaBRAF判定和castPCR判定的细胞学类别，改变castPCR％MUT阀值，阳性百分比一致性(左，PPA)和阴性百分比一致性(右，NPA)的图表结果。

图36表示按照平均castPCR结果(y轴)，castPCR结果在0％到10％之间的样品的最小值、平均值和最大值(x轴)的图。蓝线和绿线表示二项式置信区间，其限制出在各种推测的潜在样品等位基因计数处预期的变异性。

图37表示对于三个组织对照(前三个盒型图)和九个FNAB(后9个盒型图，x轴)，来自每个样品的平均得分(y轴)的AfirmaBRAF得分差异的图表结果。

图38表示BRAF+侵袭性或非侵袭性PTC样品的RNAseq和微阵列结果的图，其使用EdgeR分析了差异表达，并且用FDRp-值<0.1建立显著性。207个基因在侵袭性和非侵袭性BRAF+样品之间差异表达。

图39表示BRAF-侵袭性或非侵袭性PTC样品的RNAseq和微阵列结果的图，其使用EdgeR分析了差异表达，并且用FDRp-值<0.1建立显著性。162个基因在侵袭性和非侵袭性BRAF-样品之间差异表达。

发明详述

尽管本文已经显示并描述了本发明的不同的实施方案，但对本领域技术人员而言显而易见的是这些方案仅以举例的方式提供。在不脱离本发明的情况下，本领域技术人员可能想到许多变化、改变和替代。应理解，可采用本文描述的本发明实施方案的各种替代方案。

本公开内容提供了诊断和/或治疗疾病如癌症的方法。癌症可以是任何组织如甲状腺或淋巴组织的癌症。本公开内容提供了癌症的诊断和/或治疗的实例。这样的实例可应用于其他疾病。

I.引言

本公开内容提供了鉴定、分类或表征生物样品的方法和相关的试剂盒及组合物。本文公开的方法和相关试剂盒及组合物可用于鉴定生物测试样品中的异常细胞增殖。提供了区分良性组织和疑似(或恶性)组织的方法，以及鉴定明确的良性组织的方法，以及相关的试剂盒、组合物和商业方法。提供了用于鉴定良性或疑似组织的生物标志物集(set)，以及获得多个此类生物标志物集的方法。例如，本公开内容提供了可从对表现不同病理学的样品群组的基因表达分析中获得的新分类组。本公开内容也提供了将不确定的生物样品(例如，外科手术组织、血液组织、甲状腺组织、甲状腺FNA样品等)重新分类为良性以及疑似(或恶性)类别的方法，以及相关的组合物、商业方法和试剂盒。在一些情况下，本公开内容提供了可从使用生物标志物组的表达分析中获得且可用于指示样品为良性或疑似(或恶性)的“主分类器”。本公开内容也提供了可在将主分类器应用于来自生物样品如临床样品的表达水平数据之前的一系列步骤。这样的系列步骤可包括初期对生物样品的细胞学或组织病理学研究，以及随后对样品中的基因(或其他生物标志物)表达水平的分析。在一些实施方案中，细胞学或组织病理学研究在应用本文所述的任何分类器的步骤之前、同时或之后发生。本文提供的方法、试剂盒和组合物也可在应用主分类器之前，用于预测性别、预测基因突变和/或针对混杂病状的存在预筛选样品。

样品的表达水平可与两组或多组不同的生物标志物的基因表达数据进行比较，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考基因表达水平，其中所述表达水平与所述两组或多组生物标志物的基因表达数据以连续方式进行比较。表达水平与多组生物标志物的基因表达数据的比较可包括分类器的应用。例如，基因表达水平的分析可涉及将本文所述的不同分类器连续应用于基因表达数据。此类连续分析可涉及应用从病变组织群组的基因表达分析中获得的分类器，接着应用从不同生物样品的混合物的分析中获得的分类器，此类样品中的一些包含病变组织，其他样品包含良性组织。所述病变组织可为恶性或癌变组织(包括从另一个器官转移的组织)。所述病变组织可为甲状腺癌或已转移到甲状腺的非甲状腺癌。所述分类器可以是从带有或含有外来组织的样品(例如，包含甲状旁腺组织的甲状腺组织样品)的基因表达分析中获得的。

在连续分析中早期使用的分类器可用于将样品归为或者排除良性的或疑似的。在连续分析中使用的分类器也可用于鉴定样品混合物；筛选出不适合应用主分类器的样品；和/或提供进一步的诊断、治疗诊断或预后信息。在一些实施方案中，此类连续分析结束于将“主”分类器应用于来自未被前面的分类器排除的样品的数据，其中所述主分类器是从多种类型的组织中的基因表达水平的数据分析中获得的，并且其中所述主分类器能够指示样品为良性的或疑似的(或恶性的)。

也可使用分类器来预筛选源自样品的表达数据，以便确定将主分类器应用于样品是否合适。例如，可应用分类器来确定个体样品是否符合用来训练主分类器的样品的谱。也可使用分类器来预筛选样品以确定样品是否包含混杂病状。例如，可使用分类器来针对非甲状腺细胞类型(例如，从另一组织例如淋巴瘤转移过来的癌症)的存在预筛选甲状腺样品。预筛选分类器的使用可降低由主分类器返回的假阳性的百分比。也可使用分类器来筛选来自样品的表达数据，以便确定是否有样品混杂。

可利用本发明方法来鉴定或表征的病状的一个实例为甲状腺癌。甲状腺具有至少两种生成激素的细胞。滤泡细胞生成甲状腺激素，甲状腺激素影响心率、体温和能量水平。C细胞生成降钙素，一种帮助控制血液中的钙水平的激素。甲状腺中的异常生长可导致结节的形成，所述结节可能是良性的或疑似的(或恶性的)。甲状腺癌包括至少四种不同的甲状腺恶性肿瘤：乳头状肿瘤、滤泡性肿瘤、髓样肿瘤和未分化肿瘤。

使用生物标志物组的表达谱分析可用于将甲状腺组织表征为良性的、疑似的和/或恶性的。这些组可来源于对包含甲状腺亚型的群组的基因表达水平的分析，所述群组包含：良性(非癌性)甲状腺亚型，包括滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)和许特尔细胞腺瘤(HA)；恶性亚型，包括滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、许特尔细胞癌(HC)和甲状腺未分化癌(ATC)。此类组也可来源于包括肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)和甲状旁腺(PTA)的非甲状腺亚型。与正常甲状腺组织(NML)相关的生物标志物组也可在本文所提供的方法和组合物中使用。图2提供了示例性的生物标志物组，本文对此将有进一步描述。需要注意，图2中所列出的每个组涉及生物标志物表达(例如，基因表达)的特征或模式，该特征或模式与具有特定病理学或描述的样品相关。

本公开内容还提供了用于通过迭代过程(例如，鉴别诊断)来鉴定异常细胞增殖的类型的新方法和新组合物，所述异常细胞增殖例如是：癌，包括滤泡癌(FC)、乳头状甲状腺癌的滤泡变型(FVPTC)、许特尔细胞癌(HC)、许特尔细胞腺瘤(HA)；乳头状甲状腺癌(PTC)、甲状腺髓样癌(MTC)和未分化癌(ATC)；腺瘤,包括滤泡性腺瘤(FA)；结节增生(NHP)；胶质结节(CN)；良性结节(BN)；滤泡性瘤(FN)；淋巴细胞性甲状腺炎(LCT)，包括淋巴细胞性自身免疫性甲状腺炎；甲状旁腺组织；肾癌甲状腺转移；黑素瘤甲状腺转移；B细胞淋巴瘤甲状腺转移；乳腺癌甲状腺转移；良性(B)肿瘤、恶性(M)肿瘤和正常(N)组织。本公开内容还提供了在细胞增殖的表征、诊断和/或治疗中有用的新基因表达标志物以及新基因和标志物群。此外，本公开内容提供用于提供细胞增殖的强化诊断、鉴别诊断、监测和治疗的方法。

本公开内容提供了可用于组织(例如，甲状腺组织)分类的特异性生物标志物的列表。然而，本公开内容并不意味着仅限于本文所公开的特异性生物标志物。而是应当理解，本公开内容包括通过本文所述的方法鉴定的任何生物标志物、基因、基因的组或生物标志物的组。

说明书中使用的所有表示成分的量、反应条件等的数字应理解为在所有情况下均被术语“约”修饰。因此，除非有相反的指示，本文阐述的数值参数是近似值，其可根据试图获得的所需性质而变化。

在一些情况下，所述方法提供了大量或一定数目范围的可用于诊断或以其他方式表征生物样品的生物标志物(包括基因表达产物)。使用的生物标志物的数目可为约1到约500；例如约1-500、1-400、1-300、1-200、1-100、1-50、1-25、1-10、10-500、10-400、10-300、10-200、10-100、10-50、10-25、25-500、25-400、25-300、25-200、25-100、25-50、50-500、50-400、50-300、50-200、50-100、100-500、100-400、100-300、100-200、200-500、200-400、200-300、300-500、300-400、400-500、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500或任何包含的范围或整数。例如，可使用至少约1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200、300、400、500种或更多的总生物标志物。使用的生物标志物的数目可小于或等于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200、300、400、500或更多。

本发明的方法和组合物也涉及目的在于鉴定、分类、诊断或以其他方式表征生物样品的“生物标志物组”的使用。所述方法和组合物也可使用多组生物标志物组，在本文中其也被描述为“分类组”，它们的实例可见图3、图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18和表19。通常确定一组中的生物标志物的基因表达水平的模式(也称为特征)，然后用来评价生物样品中的同一组生物标志物的特征，例如通过测量样品特征和参考特征之间的相似性。在一些实施方案中，该方法涉及测量(或获得)生物标志物组内和/或分类组内的两种或多种基因表达产物的水平。该组中生物标志物的数目可为约1到约500；例如约1-500、1-400、1-300、1-200、1-100、1-50、1-25、1-10、10-500、10-400、10-300、10-200、10-100、10-50、10-25、25-500、25-400、25-300、25-200、25-100、25-50、50-500、50-400、50-300、50-200、50-100、100-500、100-400、100-300、100-200、200-500、200-400、200-300、300-500、300-400、400-500、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500或任何包含的范围或整数。例如，生物标志物组或分类组可包含至少约1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200、300、400、500种或更多的生物标志物。生物标志物组或分类组可包含不超过约1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200、300、400或500种生物标志物。分类组可包含约1到约25个不同的生物标志物组；例如，约1-25、1-20、1-15、1-10、1-5、5-25、5-20、5-15、5-10、10-25、10-20、10-15、15-25、15-20、20-25、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个不同的生物标志物组。分类组可包含至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个不同的生物标志物组。分类组可包含不超过约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个不同的生物标志物组。所述方法可包括针对混杂病状的存在预筛选样品；例如，针对淋巴瘤的存在预筛选甲状腺组织样品。所述方法可包括诊断患有癌症(例如，甲状腺癌)的受试者。所述方法可包括基于来自受试者的样品中的一组基因表达产物预测受试者是否具有基因突变(例如，BRAFV600E)。

本公开内容提供了鉴定、分类或诊断癌症的方法，包括以下步骤：获得生物样品的一种或多种基因表达产物的表达水平；以及确定该生物样品为良性的，其中所述基因表达水平指示在该生物样品中不存在癌。还提供了鉴定、分类或诊断癌症的方法，包括以下步骤：获得生物样品的一种或多种基因表达产物的表达水平；以及确定该生物样品为恶性的或疑似的，其中所述基因表达水平指示在该生物样品中存在癌。例如，这可以如下实现：通过将如本文所述分类组中所定义的基因表达水平的模式与样品中的基因表达水平进行关联，从而确定(或排除)生物样品中甲状腺癌的存在。鉴定甲状腺癌的方法也可包括一个或多个预筛选和/或后筛选步骤。筛选步骤可包括针对混杂病状如淋巴瘤的存在筛选样品；和/或针对基因突变(例如，BRAFV600E)的存在筛选样品。鉴定、表征、诊断和/或筛选样品的方法可包括协变量分析以解释样品异质性。所述基因表达产物可与图3、图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26或表27中的一种或多种生物标志物相关联。

本公开内容提供了鉴定、分类和/或表征样品(例如，诊断癌症或其他病状、预测基因突变、针对混杂病状预筛选等)的方法，其中特异性和/或灵敏度都在约50％到约100％之间；例如，约50-100％、50-99％、50-95％、50-90％、50-80％、50-70％、50-60％、60-100％、60-99％、60-95％、60-90％、60-80％、60-70％、70-100％、70-99％、70-95％、70-90％、70-80％、80-100％、80-99％、80-95％、80-90％、90-100％、90-99％、90-95％、95-100％、95-99％、99-100％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％或100％。在一些实施方案中，特异性或灵敏度在约40％到约100％之间。所述方法可包括将来自生物样品的基因表达产物水平(例如，谱)与生物标志物组和/或分类组进行比较；和基于该比较表征生物样品(例如，表征为癌性的、疑似的、良性的；表征为雄性或雌性；表征为突变体或野生型；等等)。本文公开的方法的特异性可为至少约45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％或100％。本文公开的方法的灵敏度可为至少约45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％或100％。在一些情况下，特异性可为至少约50％并且灵敏度可为至少约50％。在一些情况下，特异性可为至少约70％并且灵敏度可为至少约70％。在一些情况下，特异性可为至少约50％，并且灵敏度可为至少约70％。

本公开内容提供了鉴定、分类或表征样品(例如，诊断癌症或其他病状、预测基因突变、针对混杂病状预筛选等)的方法，其中阴性预测值(NPV)可大于或等于约90％；例如，NPV可以为至少约90％、90.5％、91％、91.5％、92％、92.5％、93％、93.5％、94％、94.5％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％或100％。所述方法的进一步特征可在于具有可为至少约30％的特异性(或阳性预测值(PPV))；例如，PPV可为至少约30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％或100％。在一些情况下，NPV可为至少95％，并且特异性可为至少50％。在一些情况下，NPV可为至少95％并且特异性可为至少70％。

可选择标志物组(例如，分类器、生物标志物组、分类器组)以适应病状(例如，良性与非良性或疑似表达谱；雄性与雌性表达谱；突变体与野生型表达谱；混合组织与组织特异谱；等等)的充分分离。这类多维分类器(例如，算法)的训练可在多个生物样品上进行。所述多个生物样品可包含约2个样品到4000个样品，或更多；例如，约2-4000、2-2500、2-1000、2-500、2-250、2-100、2-50、2-10、10-4000、10-2500、10-1000、10-500、10-250、10-100、10-50、50-4000、50-2500、50-1000、50-500、50-250、50-100、100-4000、100-2500、100-1000、100-500、100-250、250-4000、250-2500、250-1000、250-500、500-4000、500-2500、500-1000、1000-4000、1000-2500、2500-4000、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、225、250、300、350、400、450、500、600、700、800、900、1000、1250、1500、1750、2000、2250、2500、3000、3500、4000，诸如至少50、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500或4000个或更多个生物样品。所述生物样品可以是可从中获得遗传材料的任何样品。生物样品的示例性的来源包括细针抽吸、芯针活检、真空辅助活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检。在一些情况下，生物样品包含细针抽吸样品。在一些情况下，生物样品包含组织样品(例如，来自切除活检、切开活检或其他活检)。生物样品可包含两种或多种来源的混合物；例如，细针抽吸物和组织样品的混合物。通过FNA获得的总样品群体的百分比可大于10％、20％、30％、40％、50％、60％、70％、80％、90％或95％。所述生物样品可为源自任何组织类型的样品。在一些方面，所述生物样品包含甲状腺组织或细胞。

一种或多种训练/测试集可在开发算法或分类器中使用。算法总错误率可显示为分类亚型(例如，良性对非良性、雄性对雌性、突变体对野生型、靶标对混杂细胞类型等)的基因数的函数。可使用其他性能指标，比如为亚型或良性对恶性(B对M)的基因数的函数的性能指标。此类性能指标可使用CV或本领域已知的其他方法来获得。可使用在样品上以交叉验证模式训练和测试的支持向量机模型来获得所有结果。

相互比较的亚型或样品集之间的基因表达可能存在特定(或一定范围的)差异。在一些实例中，一些相似的亚型的基因表达可合并形成超类(super-class)，该超类然后与另一个亚型或另一个超类或所有其他亚型的集进行比较。基因表达水平的差异可为约至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％或更多。基因表达水平的差异可为至少约2、3、4、5、6、7、8、9、10倍或更多。

本公开内容提供了鉴定、分类或表征样品(例如，诊断癌症或其他病状、预测基因突变、针对混杂病状预筛选等)的方法，其准确度可为约50％到100％；例如，约50-100％、50-99％、50-95％、50-90％、50-80％、50-70％、50-60％、60-100％、60-99％、60-95％、60-90％、60-80％、60-70％、70-100％、70-99％、70-95％、70-90％、70-80％、80-100％、80-99％、80-95％、80-90％、90-100％、90-99％、90-95％、95-100％、95-99％、99-100％、50％、55％、60％、65％、70％、75％、80％、82％、84％、86％、88％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％、99.9％或100％。在一些方面，所述方法可将生物样品鉴定为疑似的或恶性的，准确度为至少约50％、60％、70％、75％、80％、85％、90％、95％、99％或更多。在一些方面，生物样品可被鉴定为良性的，准确度为大于约50％、60％、70％、75％、80％、85％、90％、95％、99％或更多。

本公开内容提供了与选自图4的生物标志物相对应的基因表达产物。本文所提供的方法和组合物可包括与任意组合的选自图4的任何或全部生物标志物以及它们的任何子集相对应的基因表达产物。例如，该方法可使用与图4中所提供的遗传标志物中的至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50、100、120、140、160种相对应的基因表达产物。在一些情况下，某些生物标志物可被排除，或者用其他生物标志物来替代，比如用呈现出与特定组织类型或亚型相似的表达水平谱的生物标志物来替代。

本公开内容提供了用于鉴定非淋巴起源的样品(例如，甲状腺样品)中的淋巴瘤的方法和组合物(例如，基因表达产物、生物标志物组合分类器组)。淋巴瘤是癌症，它可起源于淋巴结，但可以转移至其他组织(例如，甲状腺)。淋巴细胞性甲状腺炎是一组非恶性的病症，其特征在于由淋巴细胞浸润甲状腺而引起的甲状腺炎症。本文公开的方法和组合物可用于分离或分类来自淋巴细胞性甲状腺炎(LCT)样品的淋巴瘤。本文公开的方法和组合物可用于分离含淋巴瘤的甲状腺样品与其他甲状腺样品。本文公开的方法和组合物可用于在应用主甲状腺分类器之前(例如，在将甲状腺样品表征或诊断为疑似的/恶性的或良性的之前)，针对淋巴瘤的存在预筛选甲状腺样品。本文公开的方法和组合物可用于降低使用主甲状腺分类器时的假阳性率。用于鉴定样品中的淋巴瘤的方法和组合物可包括与来自表1的任何或所有生物标志物相对应的基因表达产物、生物标志物组和/或分类器组。用于鉴定样品中的淋巴瘤的方法和组合物可包括与来自表1的约1到约200种生物标志物；例如，来自表1的约1-200、1-150、1-100、1-75、1-50、1-25、25-200、25-150、25-100、25-75、25-50、50-200、50-150、50-100、50-75、75-200、75-150、75-100、100-200、100-150、150-200、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200种生物标志物相对应的基因表达产物、生物标志物组和/或分类器组。

本公开内容提供了用于从获自受试者的生物样品预测受试者的突变状态的方法和组合物(例如，基因表达产物、生物标志物组、分类器组、分析方法等)。该突变状态可以是BRAF突变；例如，该突变状态对于BRAFV600E可以是阳性或阴性的。该生物样品可以是甲状腺样品；例如，该生物样品可以是甲状腺组织的细针抽吸物。本文公开的方法和组合物可用于将生物样品分类为起源于对BRAF基因而言是野生型的受试者或起源于对BRAFV600E点突变而言是杂合的受试者。本文公开的方法和组合物可用于确定、诊断或预测乳头状甲状腺癌样品是否包含BRAFV600E点突变。可使用该BRAFV600E点突变状态，例如，来决定针对乳头状甲状腺癌的疗程。预测受试者的突变状态的方法和组合物可包括与表19、表23、表24、表25、表26或表27中的任何或所有生物标志物相对应的基因表达产物、生物标志物组和/或分类器组。该基因表达产物、生物标志物组和/或分类器组可对应于来自表19的约1到约477种生物标志物；例如，来自表19、表23、表24、表25、表26或表27的约1-477、1-300、1-150、1-100、1-50、1-10、10-477、10-300、10-150、10-100、10-50、50-477、50-300、50-150、50-100、100-477、100-300、100-150、150-477、150-300、300-477、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、110、120、130、140、150、175、200、225、250、275、300、325、350、375、400、425、450或477种生物标志物。

预测受试者的突变状态(例如，BRAFV600E突变状态)的方法和组合物(例如，基因表达产物、生物标志物组、分类器组等)可针对细胞内容物变化来调节；例如，通过使用引入细胞类型信号强度的协变量分析。例如，预测甲状腺样品中的突变状态的方法和组合物可针对滤泡细胞信号强度、淋巴细胞信号强度和/或许特尔细胞信号强度来调节。可使用表3中的任何或所有生物标志物(例如，来自表3的约1、2、3、4、5、6、7、8、9或10种生物标志物)来调节或估计滤泡细胞信号强度。可使用表4中的任何或所有生物标志物(例如，来自表12的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40或41种生物标志物)来调节或估计许特尔细胞信号强度。可使用表5中的任何或所有生物标志物(例如，来自表5的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22或23种生物标志物)来调节或估计淋巴细胞信号强度。包含协变量分析的预测突变状态(例如，BRAFV600E突变状态)的方法和组合物可包括与表2中的任何或所有生物标志物相对应的基因表达产物、生物标志物组和/或分类器组。预测突变状态如BRAFV600E突变状态的方法和组合物可包含与来自表2的约1到约36种生物标志物；例如，来自表2的约1-36、1-24、1-12、1-6、6-36、6-24、6-12、12-36、12-24、24-36、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36种生物标志物相对应的基因表达产物、生物标志物组和/或分类器组。

本公开内容的方法可改善现有癌症诊断方法的准确度。所述方法提供了改善的鉴别良性或明确良性样品(例如，甲状腺样品)的准确度。可通过使用经特定样品群组、大量样品和/或来自位于不同地理区域的个体的样品训练的算法来获得提高的准确度。样品群组可来自至少1、2、3、4、5、6、67、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75或80个不同的地理位置(例如，分布在国家如美国、洲或世界的地点)。地理位置可包括但不限于测试中心、医疗设施、医务所、邮局地址、城市、县、州、国家和洲。使用来自第一地理区域(例如，美国)的样品群组训练的分类器可重新训练以用于来自其他地理区域(例如，印度、亚洲、欧洲、非洲等)的样品群组。

本公开内容提供了对癌症进行分类的方法，其中该方法包括以下步骤：获得包含基因表达产物的生物样品；确定该生物样品的一种或多种在不同癌症亚型中差异表达的基因表达产物的表达水平；以及确定该生物样品为癌性的，其中所述基因表达水平指示癌症的亚型。在一些情况下，本方法将滤泡性癌与髓样癌区别开来。在一些情况下，本方法用于将甲状腺组织样品分类为包含一种或多种良性或恶性组织类型(例如，癌症亚型)，包括但不限于滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)和许特尔细胞腺瘤(HA)、滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、Hürthle细胞癌(HC)、甲状腺未分化癌(ATC)、肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)和甲状旁腺(PTA)。在一些情况下，本方法用于将甲状腺组织的样品分类为包含HC和/或HA组织类型。在一些情况下，本方法将良性甲状腺疾病与恶性甲状腺肿瘤/癌区别开来。

在一些情况下，将生物样品分类为癌性的或对于癌症亚型为阳性的，其准确度大于约75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％。本文所使用的分类准确度包括特异性、灵敏度、阳性预测值、阴性预测值和/或错误发现率。

通过以较低的数量和质量使用多种基因表达产物标志物，以及使用本公开内容的算法的统计分析，本公开内容的基因表达产物标志物可提供提高的鉴定、分类或表征样品(例如，诊断癌症或其他病状、预测基因突变、针对混杂病状预筛选等)的准确度。本公开内容提供了，但不限于表征、分类或诊断与甲状腺癌特征、淋巴瘤特征和BRAF突变特征相关的基因表达谱的方法。本公开内容还提供了用于表征和分类生物样品(例如，甲状腺组织样品)的算法，以及可用于所述方法的应用的试剂盒和组合物。本公开内容还包括用于运营分子谱分析企业的方法。

标志物和基因可以被鉴定为在病状之间(例如，在甲状腺癌样品中与在甲状腺良性样品中相比；在来自雄性的样品中与来自雌性的样品相比；在包含淋巴瘤的样品中与具有良性淋巴特征的样品相比；在具有基因突变如BRAFV600E的样品中与野生型BRAF相比；等等)具有差异表达。具有良性病理学的示例性实例包括：滤泡性腺瘤、许特尔细胞腺瘤、淋巴细胞性甲状腺炎和结节增生。具有恶性病理学的示例性实例包括：滤泡性癌、乳头状甲状腺癌的滤泡变型、髓样癌和乳头状甲状腺癌。

可以处理生物样品来提取核酸，例如DNA或RNA。核酸可在允许杂交的条件下与探针阵列接触，或者可通过本领域已知的任何方法对核酸进行测序。可以使用本领域已知的许多方法以定量方式分析杂交度。在一些情况下，探针位置处的杂交度可能与该分析提供的信号强度有关，因此其与样品中存在的互补核酸序列的量有关。可利用软件提取、归一化、汇总和/或分析探针在人基因组或转录组(包括表达的基因、外显子、内含子和miRNA)中的阵列强度数据。样品(例如，良性样品、恶性样品等)中的给定探针的强度可以与参考集进行比较以确定样品中是否发生差异表达。阵列上与表达序列对应的标志物位置处的相对强度的增加或降低可分别指示相应表达序列的表达的增加或降低。相对强度的增加或降低也可指示表达序列的突变。

可使用特征选择技术分析各样品的所得强度值，所述特征选择技术包括可通过观察数据的本征性质来评估特征的相关性的过滤器技术；将模型假设嵌入特征子集检索内的包装器方法(wrappermethod)；和/或将最佳特征集的检索构建到分类器算法中的嵌入技术。

用于本公开内容的方法的过滤器技术可包括(1)参数法，例如采用双样品t-检验、ANOVA分析、贝叶斯框架和伽马分布模型；(2)无模型法，例如采用Wilcoxon秩和检验、类间内平方和检验、秩乘积法、随机置换法和/或TNoM(误分类数目阈值(ThresholdNumberofMisclasifications))，TNoM包括设置两个数据集之间表达的倍数变化差异的阈值点，然后检测使误分类数目最小化的各基因中的阈值点；(3)和多变量法，例如二变量法、基于相关性的特征选择法(CFS)、最小冗余最大相关法(MRMR)、Markov毯过滤法和非相关收缩重心法(uncorrelatedshrunkencentroidmethod)。可用于本公开内容的方法的包装器方法可包括顺序检索法、遗传算法和分布式算法的评估。可用于本公开内容的方法的嵌入法可包括随机森林算法、支持向量机算法的权向量和逻辑回归算法的权重。Bioinformatics.2007年10月，1；23(19):2507-17，其通过引用全文并入本文，综述了以上提供的用于分析强度数据的过滤器技术的相对优点。

可使用分类器算法对选定的特征进行分类。示例性的算法可包括但不限于减少变量数的方法，例如主成分分析算法、部分最小二乘法和/或独立成分分析算法。示例性的算法还可包括但不限于直接处理大量变量的方法，例如统计方法和基于机器学习技术的方法。统计方法可包括惩罚逻辑回归、微阵列的预测分析(PAM)、基于收缩重心的方法、支持向量机分析和规范化线性判别分析。机器学习技术可包括装袋程序(baggingprocedure)、加速程序(boostingprocedure)、随机森林算法和/或其组合。CancerInform.2008；6:77-97，其通过引用全文并入本文，综述了以上提供的用于分析微阵列强度数据的分类技术。

本公开内容的标志物和基因可用于鉴定、分类和/或表征细胞或组织(例如，为癌性或良性、为来自雄性或雌性、为包含基因突变或野生型等)。本公开内容包括用于鉴定、分类和/或表征组织或细胞的方法，包括确定受试者的生物样品(例如，甲状腺样品)中一种或多种标志物或基因的差异表达，其中至少一种标志物或基因列于图3、图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中。

本公开内容还包括鉴定甲状腺病理学亚型的方法，包括确定受试者的甲状腺样品中一种或多种标志物或基因的差异表达，其中该标志物和基因列于图4、表2、表9、表10、表14、表15、表18、表19、表23、表24、表25、表26和表27中。

根据上文，可使用Northern印迹法以及应用本文所确定的用于开发针对此用途的探针的序列，来确定本文所公开的一个基因、多个基因、多种标志物、mRNA、miRNA或它们的组合的差异表达。此类探针可由DNA或RNA或合成核苷酸或它们的组合构成，并且有利地包含与对应于图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的遗传标志物的序列匹配或互补的核苷酸残基的连续延伸。此类探针可包含至少约10-500个或更多个残基的连续延伸；例如，约10-500、10-200、10-150、10-100、10-75、10-50、10-25、25-500、25-200、25-150、25-100、25-75、25-50、50-500、50-200、50-150、50-100、50-75、75-500、75-200、75-150、75-100、100-500、100-200、100-150、150-500、150-200、200-500、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475或500个或更多个核苷酸，所述残基来源于与图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的遗传标志物相对应的序列中的一个或多个。因此，如果单个探针与第一类别(例如，癌性、疑似癌性、倾向于变成癌性、雄性、突变体等)中的细胞的样品的转录组多次结合，而同一探针与来源于第二类别(例如，良性、非癌性、雌性、野生型等)中相同器官或组织的细胞的基因组的相似量转录组的结合导致明显更多或更少的结合，这指示包含或对应于与图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的遗传标志物相对应的序列(探针序列来源于该序列)的一个基因、多个基因、标志物或miRNA的差异表达。

细胞类型或类别之间改变的或差异的基因表达可通过测量基因表达产物的相对量来确定。基因表达产物可以是RNA。RNA转录的量可通过，例如，产生对应的cDNA并然后使用探针分析所得的DNA来确定，该探针从与图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的一种或多种遗传标志物相对应的基因序列开发而来。通过使用逆转录酶生成的cDNA可使用聚合酶链反应或一些其他方法，如线性扩增、等温扩增、NASB或滚环扩增来扩增所述cDNA，以确定所生成的cDNA的相对水平，从而确定基因表达的相对水平。

也可通过经由使用与该基因表达产物选择性结合，从而检测由本文公开的基因编码的蛋白质的存在的试剂，测量基因表达产物如蛋白质，来确定改变的或差异的基因表达。合适的试剂可包括抗体。抗体可结合至荧光标记或放射性同位素标记。可产生针对多肽中的一种的抗体，该多肽由与图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的遗传标志物相对应的基因序列之一的全部或片段编码。抗体与生物样品(例如，细胞或组织的蛋白质提取物)结合的相对水平可用作基因的表达或差异表达程度的量度。与抗体相关的检测蛋白质水平的示例性手段包括Western印迹法、酶联免疫测定法、蛋白质芯片阵列或其他任何本领域公知的手段。由于拷贝数增加、拷贝数减少和/或转录水平改变(例如，过度转录或转录不足，诸如在过表达是由于激活或抑制基因的转录因子的过度产生或产生不足而引起并且导致RNA聚合酶重复结合的情况下)，这可因此产生水平改变的RNA转录物，本文公开的基因和标志物可差异表达。翻译后，水平改变的RNA转录物可产生水平改变的多肽或蛋白质，诸如由与图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的遗传标志物相对应的多核苷酸序列的全部或一部分编码的多肽。蛋白质水平分析可提供确定根据本公开内容鉴定的基因的表达，并可从而使用于确定，或分类生物样品(例如，以诊断来源于接受测试的患者的样品中癌性状态的存在，或在此后的时间内在所述患者中发展为癌症的倾向；以预测所述患者的突变状态；等等)的其他方法。

在应用本公开内容的方法时，指示样品类别或分类(例如，癌性状态对良性、雄性对雌性、突变体对野生型、淋巴瘤对非淋巴瘤等)的基因或标志物表达不需要是样品中的每个细胞所特有的。因此，本文所公开的方法可用于检测其中并非所有细胞都表现出完全的差异表达模式的组织中病状或状态(例如，癌性病状)的存在。例如，使用合适的探针(例如，DNA或RNA探针)可发现一组选择的基因或标志物存在于大约、少于大约或多于大约20％、30％、40％、50％、60％、70％、80％、90％或更多的来源于生物样品(例如，肿瘤组织或恶性组织)的细胞中，所述选择的基因或标志物包含与对应于图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的遗传标志物的序列中的至少一个在严格条件下同源或至少90％相同、优选95％相同的序列；或与其全部或一部分互补的探针序列。在一些情况下，与癌性病状相关的且形成表达模式的一组选择的基因或标志物可能在大约、少于大约或多于大约20％、30％、40％、50％、60％、70％、80％、90％或更多的来源于对应的非癌性组织或其他正常组织的细胞中缺失。在一个实施方案中，癌性病状的表达模式在从癌组织获得的至少70％的细胞中检测到，而在至少70％的对应的正常、非癌组织样品中则不存在。在一些情况下，发现此表达模式存在于至少80％的从癌组织获得的细胞中，而在至少80％的对应的正常、非癌性组织样品中则不存在。在一些情况下，发现此表达模式存在于至少90％的从癌组织获得的细胞中，而在至少90％的对应的正常、非癌组织样品中则不存在。在一些情况下，发现此表达模式存在于至少100％的从癌组织获得的细胞中，而在至少100％的对应的正常、非癌组织样品中则不存在，虽然后一情况可能极少发生。还应当注意，所述表达模式可完全存在于、部分存在于或不存在于受影响的细胞以及未受影响的细胞中。因此，在一些情况下，所述表达模式以可变的量存在于受影响的细胞中；在一些情况下，所述表达模式以可变的量存在于未受影响的细胞中。

分子谱分析可包括一种或多种基因表达产物(例如，一种或多种核酸(例如，DNA或RNA)、一种多种蛋白质或其组合)的检测、分析或量化。将通过本公开内容的方法诊断或表征的疾病或病状例如可包括受试者的一种或多种组织中的异常生长的状况、突变状态和/或细胞内容物的异质性。所分析的组织可包括但不限于皮肤、心脏、肺、肾脏、乳房、胰腺、肝脏、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、食道或前列腺。通过本公开内容的方法分析的组织可包括甲状腺组织。

II.获得生物样品

本公开内容的方法提供从受试者获得生物样品。如本文所用，术语受试者是指任何动物(例如哺乳动物)，包括但不限于人、非人灵长类动物、啮齿类动物、狗、猫、猪、鱼等。本发明的方法和组合物可应用于来自人的生物样品。所述人可以是新生儿、婴儿、儿童、青少年、青年、成年人或老年人。所述人可以是约1到12个月大；例如，约1、2、3、4、5、6、7、8、9、10、11或12个月大。所述人可以是约1岁到约110岁；例如，约1-110、1-65、1-35、1-18、1-11、1-6、1-2、2-110、2-65、2-35、2-18、2-11、2-6、6-110、6-65、6-35、6-18、6-11、11-110、11-65、11-35、11-18、18-110、18-65、18-35、35-110、35-65、65-110、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、90、100、110岁。

本文提供的获得方法包括活检方法，包括细针抽吸、芯针活检、真空辅助活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检。在一些情况下，本文所提供的分类器应用于仅来自通过FNA获得的生物样品的数据。在一些情况下，本文所提供的分类器应用于仅来自通过FNA或手术活检获得的生物样品的数据。在一些情况下，本文所提供的分类器应用于仅来自通过手术活检获得的生物样品的数据。在一些情况下，分类器本身是对通过特定程序获得的样品的数据进行分析而获得的。例如，样品群组可能是针对本文所使用的分类器进行分析的样品的来源，其中所述样品群组中的一些是通过FNA获得的，而其他则是通过手术活检获得的。在其他情况下，仅使用来自通过FNA获得的样品的数据来获得本文中的分类器。在其他情况下，仅使用来自通过外科手术而获得的样品的数据来获得本文中的分类器。

生物样品可以获自本文提供的任何组织，包括但不限于皮肤、心脏、肺、肾脏、乳房、胰腺、肝脏、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、前列腺、食道或甲状腺。或者，样品可从任何其他来源获得，包括但不限于血液、汗液、毛囊、口腔组织、泪液、月经、粪便或唾液。生物样品可以由医学专业人员获得。医学专业人员可以指引受试者去测试中心或实验室以提交生物样品。受试者可以直接提供生物样品。在一些情况下，分子谱分析企业可以获得样品。在一些情况下，分子谱分析企业获得关于生物样品的数据，比如生物标志物表达水平数据，或此类数据的分析。

生物样品可通过本领域已知的方法获得，例如本文提供的活检法、拭取、刮取、放血或任何其他合适的方法。生物样品可使用本公开内容的试剂盒的组件获得、储存或运输。在一些情况下，可获得多个生物样品，例如多个甲状腺样品，以用于根据本公开内容的方法进行分析、表征或诊断。在一些情况下，可获得多个生物样品，例如来自一种组织类型(例如，甲状腺)的一个或多个样品和来自另一个组织类型(例如，口腔)的一个或多个样品，以用于通过本公开内容的方法进行诊断或表征。在一些情况下，可在相同或不同时间获得多个样品，例如来自一种组织类型(例如，甲状腺)的一个或多个样品和来自另一个组织(例如，口腔)的一个或多个样品。在一些情况下，在不同时间获得的样品通过不同方法储存和/或分析。例如，可通过细胞学分析(例如，使用常规染色)获得并分析样品。在一些情况下，可基于细胞学分析结果从受试者获得进一步的样品。癌症或其他病状的诊断可以包括医师、护士或其他医学专业人员对受试者的检查。所述检查可以是常规检查的一部分，或者所述检查可以源于特定的主诉，包括但不限于以下之一：疼痛、患病、预感到患病、存在疑似肿块或团块、疾病或病状。受试者可以意识到或没有意识到该疾病或病状。医学专业人员可以获得用于测试的生物样品。在一些情况下，医学专业人员可以指引受试者去测试中心或实验室以提交生物样品。

在一些情况下，可以指引受试者去看专家，例如肿瘤学家、外科医生或内分泌科医师以获得进一步的诊断。所述专家同样可以获得用于测试的生物样品，或指引个体去测试中心或实验室以提交生物样品。在任何情况下，可由医师、护士或其他医学专业人员例如医学技师、内分泌科医师、细胞学家、抽血者、放射科医师或胸腔科医师获得生物样品。医学专业人员可以指示对样品进行合适的测试或分析，或者本发明的分子谱分析企业可以咨询哪些分析或测试最适合。分子谱分析企业可以就其咨询工作、样品获得和/或储存、材料或者所提供的所有产品和服务向个体或其医学或保险提供者收费。

医学专业人员不必参与初始诊断或样品获得。或者个体可以通过使用非处方的试剂盒来获得样品。该试剂盒可以包含如本文所述的用于获得样品的手段，用于储存样品以供检验的手段，以及指导正确使用该试剂盒的说明书。在一些情况下，分子谱分析服务包括在试剂盒的购买价格中。在其他情况下，分子谱分析服务单独收费。

适于分子谱分析企业使用的生物样品可以是包含待测个体的组织、细胞、核酸、基因、基因片段、表达产物、基因表达产物和/或基因表达产物片段的任何材料。提供了用于确定样品适用性和/或充足性的方法。生物样品可以包括但不限于组织、细胞和/或来自细胞或由个体的细胞衍生的生物材料。样品可以是细胞或组织的异质群体或同质群体。可使用能够提供适于本文所述的分析方法的样品的本领域已知的任何方法获得生物样品。

生物样品可通过非侵入性方法获得，此类方法包括但不限于：皮肤或子宫颈的刮取、颊部的拭取、唾液收集、尿液收集、粪便收集、月经、泪液或精液的收集。生物样品可通过侵入性方法获得，此类方法包括但不限于：活检、肺泡或肺灌洗、针抽吸或放血。活检法还可包括切开活检、切除活检、钻取活检、刮取活检或皮肤活检。针抽吸法还可以包括细针抽吸、芯针活检、真空辅助活检或粗针活检。可通过本发明的方法获得多个生物样品以确保足量的生物材料。获得合适的甲状腺样品的方法是本领域已知的，并进一步描述在甲状腺结节处理ATA指南中(Cooper等人.ThyroidVol.16No.22006)，其通过引用全部并入本文。用于获得生物样品的一般方法也是本领域已知的，并进一步描述在例如Ramzy,IbrahimClinicalCytopathologyandAspirationBiopsy2001中，其通过引用全部并入本文。生物样品可以是甲状腺结节或疑似甲状腺瘤的细针抽吸物。细针抽吸物的采样程序可通过使用超声、X-射线或其他成像装置来指导。

分子谱分析企业可以直接从受试者、从医学专业人员、从第三方或从由分子谱分析企业和/或第三方提供的试剂盒获得生物样品。可在受试者、医学专业人员或第三方获得生物样品并将其递送给分子谱分析企业后由分子谱分析企业获得生物样品。分子谱分析企业可以提供用于将生物样品储存并运送给分子谱分析企业的合适的容器和/或赋形剂。

III.储存样品

本公开内容的方法提供在获得生物样品之后和通过本公开内容的一种或多种方法分析生物样品之前储存生物样品一段时间，其中这段时间可以是数秒、数分钟、数小时、数天、数周、数月、数年或更久。在储存步骤或进一步分析之前可细分从受试者获得的生物样品，使得生物样品的不同部分经受不同的下游方法或处理。所述下游方法或处理可包括但不限于储存、细胞学分析、充足性测试、核酸提取、分子谱分析和/或其组合。

可以储存生物样品的一部分而进一步操作生物样品的另一部分。这样的操作可以包括但不限于：分子谱分析；细胞学染色；核酸(RNA或DNA)提取、检测或定量；基因表达产物(例如，RNA或蛋白质)提取、检测或定量；固定(例如，福尔马林固定石蜡包埋的样品)；和/或检验。可在储存之前或期间通过本领域已知的任何方法来固定生物样品，此类方法包括但不限于戊二醛、甲醛或甲醇的使用。在其他情况下，获得、储存并在储存步骤之后细分样品用于进一步分析，使得样品的不同部分经受不同的下游方法或处理，包括但不限于储存、细胞学分析、充足性测试、核酸提取、分子谱分析或其组合。在一些情况下，获得一个或多个生物样品并通过细胞学分析进行分析，且通过本公开内容的一种或多种分子谱分析方法进一步分析所得的样品材料。在这样的情况下，可以在细胞学分析步骤和分子谱分析步骤之间储存生物样品。生物样品可以在获取时储存，例如，以利于运送或等待其他分析的结果。可以在等待医师或其他医学专业人员的指示的同时储存生物样品。

可以将生物样品置于合适的介质、赋形剂、溶液和/或容器中以用于短期或长期储存。该储存可能涉及将生物样品保持在冷藏或冷冻环境中。生物样品可以在储存在冷冻环境之前快速冷冻。生物样品可以在冷却或冷冻该生物样品之前、期间和/或之后与合适的低温贮藏介质或化合物接触。所述低温贮藏介质或化合物可包括但不限于：甘油、乙二醇、蔗糖或葡萄糖。合适的介质、赋形剂或溶液可以包括但不限于：Hanks盐溶液、盐水、细胞生长培养基、铵盐溶液例如硫酸铵或磷酸铵和/或水。合适的铵盐浓度可包括约0.1g/mL至2.5g/L或更高，例如，约0.1g/ml、0.2g/ml、0.3g/ml、0.4g/ml、0.5g/ml、0.6g/ml、0.7g/ml、0.8g/ml、0.9g/ml、1.0g/ml、1.1g/ml、1.2g/ml、1.3g/ml、1.4g/ml、1.5g/ml、1.6g/ml、1.7g/ml、1.8g/ml、1.9g/ml、2.0g/ml、2.2g/ml、2.3g/ml、2.5g/ml或更高浓度的溶液。所述介质、赋形剂或溶液可任选地是无菌的。

生物样品可以储存在室温；低温，例如寒冷温度(例如约20℃至约0℃)；和/或冷冻温度，包括例如约0℃、-1℃、-2℃、-3℃、-4℃、-5℃、-6℃、-7℃、-8℃、-9℃、-10℃、-12℃、-14℃、-15℃、-16℃、-20℃、-22℃、-25℃、-28℃、-30℃、-35℃、-40℃、-45℃、-50℃、-60℃、-70℃、-80℃、-100℃、-120℃、-140℃、-180℃、-190℃或-200℃。生物样品可以储存在冷藏箱中、冰或冷冻凝胶包上、冰箱中、低温冷藏箱中、干冰上、液氮中和/或与液氮平衡的蒸气相中。

用于储存生物样品的介质、赋形剂或溶液可以包含防腐剂以使样品维持在适当的状态以供持续的诊断或操作，或防止凝结。该防腐剂可以包括但不限于柠檬酸盐、乙二胺四乙酸、叠氮钠和/或硫柳汞。所述介质、赋形剂或溶液可以包含合适的缓冲液或盐，比如Tris缓冲液、磷酸盐缓冲液、钠盐(例如，NaCl)、钙盐、镁盐等。在一些情况下，样品可以储存在适于储存细胞以供随后的细胞学分析的商业制剂中，此类制剂包括但不限于CytycThinPrep、SurePath和/或Monoprep。

样品容器可以是适于储存和/或运输生物样品的任何容器，此类容器包括但不限于：杯子、带盖杯子、试管、无菌管、真空管、注射器、瓶子、显微镜载片或任何其他合适的容器。容器可任选地是无菌的。

IV.样品的运输

本公开内容的方法提供生物样品的运输。在一些情况下，将生物样品从诊所、医院、医生办公室或其他场所运送到可以储存所述样品和/或通过例如细胞学分析或分子谱分析对其进行分析的第二场所。在一些情况下，可以将生物样品运送到分子谱分析公司以进行本文所述的分析。在其他情况下，可以将生物样品运送到实验室，例如授权的或经其他方式能够进行本公开内容的方法的实验室，例如临床实验室改进法案(CLIA)实验室。生物样品可以由生物样品所来源的个体运输。个体的运输可以包括出现在分子谱分析企业或指定的样品接收点并提供生物样品的个体。生物样品的提供可以涉及任何本文所述的样品获取技术，或者所述生物样品可以早已获取并储存在如本文所述的合适的容器中。在其他情况下，可以使用快递服务、邮政服务、航运服务或能够以合适方式运送生物样品的任何方法将生物样品运送到分子谱分析企业。在一些情况下，可由第三方测试实验室(例如细胞学实验室)将生物样品提供给分子谱分析企业。在其他情况下，可由个体的初级护理医师、内分泌科医师或其他医学专业人员将生物样品提供给分子谱分析企业。运输成本可向个体、医疗提供者或保险提供者收费。分子谱分析企业可以在收到样品后立即开始分析，或者可以以本文所述的任何方式储存样品。储存方法可任选地与样品被分子谱分析企业接收之前所选择的方法相同。

生物样品可以在任何介质或赋形剂中运输，包括本文提供的适于储存生物样品的任何介质或赋形剂，例如低温贮藏介质或基于液体的细胞学制剂。在一些情况下，可以冷冻或冷藏运输生物样品，例如在本文所述的任何适当的样品储存温度下运输。

在分子谱分析企业、其代表或被许可方、医学专业人员、研究人员或第三方实验室或测试中心(例如细胞学实验室)收到生物样品时，可使用本领域已知的多种分析，例如细胞学分析和基因组分析，对生物样品进行测定。这类测定或测试可以指示癌症、癌症类型、任何其他疾病或病状、疾病标志物的存在、基因突变的存在或者癌症、疾病、病状或疾病标志物的不存在。所述测定可以采取细胞学检查形式，包括如下所述的显微镜检查。所述测定可以包括使用一种或多种细胞学染色。可以在进行该测定前通过本领域已知的任何用于生物样品制备的适当方法处理或制备生物样品以用于测定。所进行的具体测定可由分子谱分析企业、订购该测定的医师或第三方例如医学专业咨询人员、细胞学实验室、样品所来源的受试者和/或保险提供者来决定。可以基于获得明确诊断的可能性、测定成本、测定速度、测定对于所提供的材料类型的适用性来选择具体的测定。

V.充足性测试

获取生物样品之后或获取期间，包括在储存样品的步骤之前或之后，可以评估所述生物材料的充足性，例如，评估样品用于本公开内容的方法和组合物的适用性。所述评估可由获得样品的个体、分子谱分析企业、使用试剂盒的个体或第三方例如细胞学实验室、病理学家、内分泌科医师或研究人员来进行。可以确定样品对于进一步分析而言是充足的还是不充足的，这是由于许多因素，此类因素包括但不限于：不足的细胞；不足的遗传物质；不足的蛋白质、DNA或RNA；对于指定测试而言不合适的细胞；对于指定测试而言不合适的材料；样品的存在时间；获得样品的方式；和/或者样品储存或运输的方式。可使用本领域已知的多种方法例如细胞染色方法、细胞数目或组织量的测量、总蛋白质测量、核酸测量、目视检查、显微镜检查或者温度或pH测量来确定充足性。可以从进行基因表达产物水平分析实验的结果来确定样品充足性。可以通过测定样品充足性标志物的含量来确定样品充足性。此类标志物可包括：元素，例如碘、钙、镁、磷、碳、氮、硫、铁等；蛋白质，例如但不限于甲状腺球蛋白；细胞团；和细胞组分，例如蛋白质、核酸、脂质或碳水化合物。

可通过例如通过引用全部并入本文的美国专利号3645691描述的化学方法或通过本领域已知的其他用于测定碘含量的化学方法来测量碘。用于碘测量的化学方法包括但不限于基于Sandell和Kolthoff反应的方法。该反应按照以下反应式进行：

2Ce⁴⁺+As³+→2Ce³⁺+As⁵+I。

碘可对该反应过程具有催化作用，例如，待分析制剂中存在的碘越多，反应进行得越快。反应速度与碘浓度成正比。在一些情况下，该分析方法可以以下方式进行：将预定量的三氧化二砷As₂O₃在浓硫酸或硝酸中的溶液添加至生物样品中，并将混合物温度调节至反应温度，即，通常20℃到60℃的温度。再向其中加入预定量的硫酸铈(IV)在硫酸或硝酸中的溶液。随即，使混合物在预定温度下反应确定的一段时间。根据待测定碘量的数量级以及根据相应的选定反应温度来选择该反应时间。反应时间通常为大约1分钟到大约40分钟。此后，通过光度计法测定测试溶液的铈(IV)离子含量。光度计法测定的铈(IV)离子浓度越低，反应速度越快，且因此催化剂(即碘)的量越大。以这种方式可以直接和定量地测定样品中的碘。

也可通过检测碘的特定同位素例如¹²³I、¹²⁴I、¹²⁵I和¹³¹I来测定甲状腺组织样品的碘含量。在又一些情况下，所述标志物可以是另一种放射性同位素，例如碳、氮、硫、氧、铁、磷或氢的同位素。在有些情况下，可以在样品收集之前给予放射性同位素。适于充足性测试的给予放射性同位素的方法是本领域熟知的，包括向静脉或动脉内注射，或通过摄取。为了实现一部分同位素被吸收到甲状腺组织内，在给予同位素和获取甲状腺结节样品之间的合适的时间段可以包括约一分钟到几天或约一周之间的任何时间段，包括约1分钟、2分钟、5分钟、10分钟、15分钟、半小时、1小时、8小时、12小时、24小时、48小时、72小时，或约一周、一周半或两周，且可以由本领域技术人员容易地确定。或者，可以测定样品的同位素的天然水平，例如碘、钙、镁、碳、氮、硫、氧、铁、磷或氢的放射性同位素。

(i)细胞和/或组织含量充足性测试

用于测定生物样品中的组织量的方法可包括但不限于称重样品或测量样品体积。用于测定生物样品中的细胞量的方法可包括但不限于对细胞进行计数，其有时可以在生物样品的解聚(例如，利用酶如胰蛋白酶或胶原酶或通过物理手段如使用组织匀浆器)之后进行。用于测定生物样品中的细胞量的备选方法可包括但不限于定量与细胞材料结合的染料，或测量离心后获得的细胞团的体积。用于确定生物样品中是否存在充足数目的特定类型的细胞的方法也可包括PCR、Q-PCR、RT-PCR、免疫组织化学分析、细胞学分析、显微镜和/或目视分析。甲状腺组织的样品中不同细胞类型(例如，滤泡细胞、许特尔细胞、淋巴细胞等)的相对水平可通过表3、表4和/或表5中公开的一种或多种标志物的表达谱分析来确定。

(ii)核酸含量充足性测试

可通过使用本领域已知的多种方法测定从生物样品提取后的核酸含量来分析生物样品。可从其他核酸中提取核酸，如RNA或mRNA，然后进行核酸含量分析。可提取、纯化并使用分光光度计通过紫外线吸光度(包括但不限于在260纳米处的吸光度)来测定核酸含量。可在样品与染料接触后通过荧光计测定核酸含量或充足性。可在电泳后或者使用诸如Agilent生物分析仪等仪器来测定核酸含量或充足性。应理解本公开内容的方法不限于测定核酸含量和/或完整性的具体方法。

在一些情况下，在纯化后立刻使用NanoDrop分光光度计在纳克到微克范围内测定来自生物样品的RNA量或产量。可使用Agilent2100Bioanalyzer仪器测定RNA质量，其中质量根据计算得到的RNA完整性指数(RIN，1-10)进行表征。NanoDrop是无比色杯的分光光度计。它可以使用1微升来测定约5ng/μl到约3,000ng/μl样品。NanoDrop的特征包括低样品体积和没有比色杯；5ng/μl到3,000ng/μl的大动态范围；以及它允许DNA、RNA和蛋白质的定量。NanoDrop^TM2000c允许分析0.5μl-2.0μl的样品，而不需要比色杯或毛细管。

可以根据计算得到的RNA完整性指数(RIN)来测定生物样品中的RNA质量。RNA完整性指数(RIN)是用于将完整性值赋予RNA测量的算法。RNA的完整性可能是基因表达研究所主要关心的问题，且常规地使用28S：18SrRNA比(一种可能是不一致的方法)进行评价。RIN算法应用于电泳RNA测量并且基于贡献有关RNA完整性的信息的不同特征的组合，以提供更加稳健的通用量度。可使用Agilent2100Bioanalyzer仪器测定RNA质量。用于测定RNA质量的方案是已知的且可在例如Agilent网站上商购获得。简言之，第一步，研究人员将总RNA样品置于RNANanoLabChip中。第二步，将LabChip插入Agilent生物分析仪中并进行分析，从而生成数字电泳图。第三步，RIN算法随后分析RNA样品的整个电泳痕迹(包括降解产物的存在或不存在)以确定样品的完整性。然后，该算法赋予1到10的RIN得分，其中水平10的RNA是完全完整的。因为电泳图的解释是自动的且不经过个体解释，因此可以实现通用且无偏倚的样品比较，并可以改善实验再现性。使用神经网络和适应性学习结合主要从人、大鼠和小鼠组织获得的真核生物总RNA样品的大型数据库开发了RIN算法。RIN的优点可包括获得RNA完整性的数字评定；直接比较RNA样品(例如，在归档之前和之后，在不同实验室之间)；和确保实验的再现性[例如，如果RIN显示给定值并适于微阵列实验，则相同值的RIN可以一直用于类似实验，只要使用相同的生物体/组织/提取方法(SchroederA等,BMCMolecularBiology2006,7:3(2006))，其通过引用全文并入本文]。

可按RIN1到10的标度测定RNA质量，10是最高质量。一方面，本公开内容提供由RNARIN值等于或者小于6.0的样品分析基因表达的方法；例如，使用本公开内容的方法和算法可分析含有RIN值约为1.0、2.0、3.0、4.0、5.0或6.0的RNA的样品的微阵列基因表达。样品可以是甲状腺组织的细针抽吸物。样品可以包含，或在提取时产生，RIN低至2.0的RNA。

给定样品中的基因表达的测定是复杂的、动态的和昂贵的过程。RIN≤5.0的RNA样品通常不用于多基因微阵列分析，并且可以限于单基因RT-PCR和/或TaqMan分析。因此RNA的有用性按照质量的这种分歧可能限制了样品的可用性并妨碍了研究和/或诊断工作。本公开内容提供了可以使低质量的RNA可用于从包含低浓度RNA的样品中获得有意义的多基因表达结果的方法。

此外，可使用本公开内容的方法和算法测定并分析具有低RNA浓度和/或检测不到的RNA浓度的样品，根据NanoDrop，这种浓度通常视为不足以进行多基因表达谱分析。可用于测量核酸产量的灵敏的仪器是NanoDrop分光光度计。与这种类型的许多定量仪器类似，NanoDrop测量的准确度在极低RNA浓度时可能显著降低。输入微阵列实验所必需的最低RNA量也限制了给定样品的可用性。在本公开内容中，可以使用NanoDrop和Bioanalyzer两种仪器的测量组合来评估包含极低量核酸的样品，从而为多基因表达测定和分析优化样品。

(iii)蛋白质含量充足性测试

可使用本领域已知的多种方法测定生物样品中的蛋白质含量，包括但不限于：280纳米处的紫外线吸收，本文所述的细胞染色，或使用例如考马斯蓝或二辛可宁酸(bichichonicacid)的蛋白质染色。在一些情况下，在样品测量之前从生物样品中提取蛋白质。在一些情况下，样品充足性的多项测试可以并列地进行或一次进行一项。在一些情况下，样品可分成等分样品，用于在评估充足性之前、期间或之后进行多项诊断性测试。在一些情况下，用可能适合或可能不适合进一步的诊断性测试的少量样品进行充足性测试。在其他情况下，评估整个样品的充足性。在任何情况下，可以就充足性测试向受试者、医疗提供者、保险提供者或政府机构收费。

可在收集后不久或立即测试生物样品的充足性。在一些情况下，当样品充足性测试未能显示足够量的样品或足够质量的样品时，可以采集额外的样品。

VI.样品的分析

一方面，本公开内容提供利用少量和低质量的多核苷酸如DNA或RNA进行微阵列基因表达分析的方法。本公开内容描述了通过利用少量和/或低质量的RNA来分析基因表达以诊断、表征和/或监测癌症的方法。所述癌症可以是甲状腺癌。本公开内容还描述了通过预测基因突变(例如，BRAFV600E)，和/或通过用少量和/或低质量的RNA分析基因表达而针对混杂病状(例如，淋巴癌)的存在进行预筛选来鉴定、分类或表征样品。样品可以是甲状腺样品。甲状腺RNA可从细针抽吸物(FNA)获得。可从RNARIN值小于或等于约10.0、9.0、8.0、7.0、6.0、5.0、4.0、3.0、2.0、1.0或更小的样品获得基因表达谱。可从RIN等于或小于6(例如，约6.0、5.0、4.0、3.0、2.0、1.0或更小)的样品获得基因表达谱。本公开内容提供了可以使低质量的RNA可用于从包含低浓度核酸的样品例如甲状腺FNA样品获得有意义的基因表达结果的方法。

样品可用性的另一项评估是RNA产量，其在基因表达分析中通常测得为纳克到微克的量。可用于在实验室中测定核酸产量的仪器是NanoDrop分光光度计。与这种类型的许多定量仪器类似，NanoDrop测量的精确度在极低RNA浓度时可能显著降低。输入微阵列实验所需的RNA最低量也可能限制了给定样品的可用性。在一些方面，本公开内容通过使用NanoDrop和Bioanalyzer两种仪器的测量组合来评估样品输入，从而解决了低RNA浓度的问题。由于从基因表达研究获得的数据质量可能依赖于RNA量，可由通过NanoDrop测量具有低RNA浓度或检测不到的RNA浓度的样品产生有意义的基因表达数据。

所述方法和算法使得以下成为可能：1)包含少量和/或低质量的核酸的样品的基因表达分析；2)假阳性和假阴性的明显减少，3)导致所产生的病理学的基础遗传学、代谢或信号传导途径的确定，4)将统计学概率赋予遗传病的诊断准确性的能力，5)解析不明确的结果的能力，6)区分癌症亚型的能力，7)针对混杂病状(例如，淋巴瘤)的存在预筛选样品的能力，其可用于评估样品对主分类器的适合性，和8)预测样品是否包含基因突变(例如，BRAFV600E)的能力。本发明的方法和算法可包含协变量分析以解释样品中的不同细胞型信号强度。

细胞学分析

可以通过生物样品中细胞的细胞染色与显微镜检查相结合来分析样品。细胞染色或细胞学检查可通过本领域已知的许多方法和合适的试剂进行，包括但不限于：EA染料、苏木精染料、细胞染料、巴氏染料、曙红、尼斯尔染料(nisslstain)、甲苯胺蓝、银染料、偶氮胭脂红染料、中性红或詹纳斯绿。在一些情况下，在染色过程之前或期间用例如甲醇、乙醇、戊二醛或甲醛将细胞固定和/或通透化。在一些情况下，细胞不进行固定。在一些情况下，组合使用超过一种染料。在其他情况下根本不使用染料。在一些情况下，使用染色过程，例如用溴化乙锭、苏木精、尼斯尔染料或本领域已知的任何核酸染料进行核酸含量的测定。

在本公开内容的一些情况下，可以通过本发明熟知的用于细胞学检查的标准方法将细胞涂抹在载玻片上。在其他情况下，可以使用基于液体的细胞学(LBC)方法。在一些情况下，LBC方法提供改善的细胞学载玻片制备手段、更均匀的样品、提高的灵敏性和特异性，以及改善的样品处理效率。在基于液体的细胞学方法中，将生物样品从受试者转移到含有液体细胞学制剂溶液例如CytycThinPrep、SurePath或Monoprep或本领域已知的任何其他基于液体的细胞学制剂溶液的容器或小瓶中。另外，可以用液体细胞学制剂溶液将样品从收集装置冲洗到容器或小瓶中，以确保基本上定量地转移样品。然后可以将在基于液体的细胞学制剂溶液中含有生物样品的溶液储存和/或由机器或本领域技术人员处理，从而在载玻片上产生一层细胞。还可以用与常规细胞学制备相同的方法将样品染色并在显微镜下检查。

本公开内容的一些情况下，可以通过免疫组织化学染色来分析样品。免疫组织化学染色通过利用抗体提供对生物样品(例如细胞或组织)中的特定分子或抗原的存在、位置和分布的分析。抗原可以是小分子、蛋白质、肽、核酸或能够被抗体特异性识别的任何其他分子。可以在有或者没有预先固定和/或透化步骤的情况下通过免疫组织化学方法对样品进行分析。在一些情况下，可通过使样品与抗原特异性抗体接触来检测目的抗原，然后可以通过一次或多次洗涤除去非特异性结合。然后可以通过抗体检测试剂例如标记的第二抗体或标记的抗生物素蛋白/链霉抗生物素蛋白来检测特异性结合的抗体。在一些情况下，可以直接标记抗原特异性抗体。用于免疫组织化学的合适的标记包括但不限于：荧光团，如荧光素和若丹明；酶，如碱性磷酸酶和辣根过氧化物酶；和放射性核素，如³²P和¹²⁵I。可通过免疫组织化学染色检测的基因产物标志物包括但不限于Her2/Neu、Ras、Rho、EGFR、VEGFR、UbcH10、RET/PTC1、细胞角蛋白20、降钙素、GAL-3、甲状腺过氧化酶和甲状腺球蛋白。

VII.测定结果

常规细胞学或其他测定的结果可以指示样品为阴性的(无癌症、疾病或病状)、不明确的或疑似的(提示癌症、疾病或病状的存在)、诊断性的(癌症、疾病或病状的阳性诊断)或非诊断性的(提供的关于癌症、疾病或病状的存在或不存在的信息不充分)。诊断结果可以进一步分类为恶性或良性。诊断结果也可以例如通过p值、相关p值或统计置信度指示器来提供指示例如癌症的严重性或等级或精确诊断可能性的得分。在一些情况下，诊断结果可以指示特定类型的癌症、疾病或病状，例如滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)、许特尔细胞腺瘤(HA)、滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、许特尔细胞癌(HC)、甲状腺未分化癌(ATC)、肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)、甲状旁腺(PTA)、增生、乳头状癌或本文提供的任何疾病或病状。在一些情况下，诊断结果可以指示癌症、疾病或病状的特定阶段。诊断结果可包括与基因突变预测有关的信息，诸如BRVFV600E突变的异质性。诊断结果可以为所诊断的病状(例如，特定癌症疾病或病状的类型或阶段)提示特定治疗或治疗性干预。在一些情况下，可以将所进行的测定的结果输入数据库。分子谱分析公司可以就以下一项或多项服务向个体、保险提供者、医疗提供者或政府机构收费：所进行的测定、咨询服务、结果报告、数据库访问或数据分析。在一些情况下，除了分子谱分析之外的所有或一些步骤由细胞学实验室或医学专业人员进行。

VIII.分子谱分析

细胞学分析对于许多类型的疑似肿瘤(包括例如甲状腺瘤或结节)而言标志着当前的诊断标准。测定为阴性、不确定、诊断性或非诊断性的样品可以进行后续的分析以获得更多信息。在本公开内容中，这些后续的分析可包括基因组DNA、RNA、mRNA表达产物水平、miRNA水平、基因表达产物水平和/或基因表达产物可变剪接的分子谱分析步骤。分子谱分析可包含对生物样品中基因组DNA的数目(例如，拷贝数)和/或类型的测定。在一些情况下，所述数目和/或类型可以进一步与对照样品或被认为正常的样品进行比较。在一些情况下，可以分析基因组DNA的拷贝数变化，例如拷贝数的增加(扩增)或减少，或变体，例如插入、缺失、截短等。可以对相同样品、相同样品的一部分或可使用本文所述的任何方法获得的新样品进行分子谱分析。分子谱分析公司可以通过直接联系个体或通过中间方例如医师、第三方测试中心或实验室或者医学专业人员来要求额外的样品。在一些情况下，使用本公开内容的方法和组合物与一些或所有细胞学染色或其他诊断方法结合来分析样品。在其他情况下，不需要预先使用常规细胞学染色或其他诊断方法，而使用本公开内容的方法和组合物直接分析样品。在一些情况下，单独的分子谱分析结果或分子谱分析与细胞学或其他分析相结合的结果可以使本领域技术人员能够表征组织样品、诊断受试者或为受试者建议治疗。在一些情况下，分子谱分析可以单独使用或与细胞学方法结合使用，来监测肿瘤或疑似肿瘤随着时间的恶变。在一些情况下，可使用分子谱分析来预测样品是否包含基因突变；例如，样品是否是异源的或相对于BRAFV600E突变是野生型。在一些情况下，可使用分子谱分析来确定样品是否适合用主分类器进行分析；例如，样品是否包含指示混杂病状如淋巴瘤的细胞。

本公开内容的分子谱分析方法用于从来自受试者的一种或多种生物样品中提取并分析蛋白质或核酸(RNA或DNA)。在一些情况下，从获得的整个样品中提取核酸。在其他情况下，从获得的样品的一部分中提取核酸。在一些情况下，未进行核酸提取的样品部分可以通过细胞学检查或免疫组织化学进行分析。从生物样品提取RNA或DNA的方法是本领域公知的，包括例如使用商业试剂盒，例如QiagenDNeasyBlood和TissueKit或QiagenEZ1RNAUniversalTissueKit。

(i)组织类型指纹分析

在许多情况下，生物样品，例如通过本公开内容的方法提供的生物样品，可以包含若干细胞类型或组织，包括但不限于甲状腺滤泡细胞、甲状腺髓细胞、血细胞(RBC、WBC、血小板)、平滑肌细胞、管、管细胞、基底膜、腔、小叶、脂肪组织、皮肤细胞、上皮细胞及浸润巨噬细胞和淋巴细胞。在甲状腺样品的情况下，生物样品的诊断分类可以包括例如初级滤泡细胞(对于来源于滤泡细胞的癌症，例如乳头状癌、滤泡癌和甲状腺未分化癌)和髓细胞(对于髓样癌)。在一些情况下，来自甲状腺活检的不确定生物样品的诊断涉及滤泡性腺瘤与滤泡癌的区分。因此，例如滤泡细胞的分子谱信号可能被稀释并可能被存在于样品中的其他细胞类型所混淆。类似地，来自其他组织或器官的生物样品的诊断通常包括诊断可能存在于样品中的许多细胞类型中的一种或多种细胞类型。

本公开内容的方法提供用于确定特定生物样品的细胞构成的先期方法，这样所得的分子谱特征可以针对由于存在其他细胞和/或组织类型而导致的稀释效应进行校准。一方面，该先期方法是一种使用已知细胞和/或组织特异性基因表达模式的组合作为样品各组分的先期迷你分类器的算法。该算法可利用该分子指纹来根据样品的组成对样品进行预分类，然后应用校正/归一化因数(例如，协变量分析)。在一些情况下，随后可以将该数据输入到最终分类算法中，该算法可整合该信息以帮助最终诊断。

(ii)基因组分析

可以对生物样品进行基因组序列分析或基因分型。基因分型可采取突变分析的形式，例如单核苷酸多态性(SNP)分析、插入缺失多态性(InDel)分析、可变数目串联重复(VNT)分析、拷贝数变异(CNV)分析或者部分或全基因组测序。进行基因组分析的方法是本领域已知的并可以包括高通量测序，例如但不限于在美国专利号7,335,762、7,323,305、7,264,929、7,244,559、7,211,390、7,361,488、7,300,788和7,280,922中描述的那些方法。进行基因组分析的方法也可以包括如以下所述的微阵列方法。在一些情况下，基因组分析可与本文中的其他方法中的任一种结合进行。例如，可以获得样品，测试充足性，并分成等分样品。然后一个或多个等分样品可用于进行本公开内容的细胞学分析，一个或多个等分样品可用于进行本公开内容的RNA表达谱分析方法，而一个或多个等分样品可用于进行基因组分析。进一步应当理解，本公开内容预期本领域技术人员可对生物样品进行本文中没有明确记载的其他分析。

(iii)表达产物谱分析

基因表达谱分析可包括对一个或多个基因的活性(或表达)的测量。基因表达谱分析可包括一次对多个基因的活性或表达的测量，以产生细胞功能的全局概况。基因表达谱分析可包括测量约1到约20000个或更多基因的活性或表达；例如，约1-20000、1-10000、1-5000、1-1000、1-500、1-250、1-100、1-50、1-10、10-20000、10-10000、10-5000、10-1000、10-500、10-250、10-100、10-50、50-20000、50-10000、50-5000、50-1000、50-500、50-250、50-100、100-20000、100-10000、100-5000、100-1000、100-500、100-250、250-20000、250-10000、250-5000、250-1000、250-500、500-20000、500-10000、500-5000、500-1000、1000-20000、1000-10000、1000-5000、5000-20000、5000-10000、10000-20000、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、275、300、325、350、375、400、425、450、475、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2200、2400、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、11000、12000、13000、14000、15000、16000、17000、18000、19000、20000个或更多基因的活性或表达。基因表达谱例如可用于区分活跃分裂的细胞或用于显示细胞如何可预测对特定治疗作出反应。这种类型的许多实验同时测定整个基因组，即，存在于特定细胞中的每个基因。微阵列技术可用于测定以前鉴定的靶基因和其他表达序列的相对活性。基于序列的技术，如基因表达的系列分析(SAGE、SuperSAGE)，也用于基因表达谱分析。SuperSAGE是特别精确的，并且可以测定任何活性基因，而不仅仅是预先确定的组。在RNA、mRNA或基因表达谱分析微阵列中，可以同时监测数千个基因的表达水平以研究特定治疗、疾病和发育阶段对基因表达的影响。例如，基于微阵列的基因表达谱分析可以用于表征本文公开的遗传病或不同癌症类型、癌症亚型和/或癌症阶段的基因特征。

可通过以下一项或多项测定RNA(包括mRNA、miRNA、siRNA和cRNA)：微阵列、SAGE、印迹法、RT-PCR、定量PCR、测序、RNA测序、DNA测序(例如，从RNA获得的cDNA的测序)；下一代(Next-Gen)测序、纳米孔测序、焦磷酸测序或Nanostring测序。

表达谱分析实验可包括测定在两种或更多种实验条件下表达的基因表达产物例如mRNA的相对量。这是因为基因表达产物的特定序列水平的改变可能提示对由基因表达产物编码的蛋白质的需要改变，也许指示内环境稳定性反应或病理状态。例如，如果乳腺癌细胞比正常细胞表达更高水平的与特定跨膜受体相关的mRNA，则可能该受体在乳腺癌中发挥作用。本公开内容的一个方面包括基因表达谱分析作为生物样品的鉴定或表征过程的一部分，比如对遗传病和癌症(例如，甲状腺癌或淋巴瘤)的诊断测试，和/或预测提供生物样品的受试者的一个或多个基因的突变状态(例如，BRAFV600E点突变状态)的测试。本文公开的测试可以单独或组合使用。

在一些情况下，RIN≤5.0的RNA样品通常不用于多基因微阵列分析，而是仅可用于单基因RT-PCR和/或TaqMan分析。微阵列、RT-PCR和TaqMan分析是相关领域中公知的标准分子技术。基于TaqMan探针的分析广泛用于实时PCR中，包括基因表达分析、DNA定量和SNP基因分型。

在一个情况下，对本领域已知与癌症相关的基因表达产物进行谱分析。此类基因表达产物已有描述，包括但不限于在美国专利号7,358,061、7,319,011、5,965,360、6,436,642和美国专利申请2003/0186248、2005/0042222、2003/0190602、2005/0048533、2005/0266443、2006/0035244、2006/083744、2006/0088851、2006/0105360、2006/0127907、2007/0020657、2007/0037186、2007/0065833、2007/0161004、2007/0238119和2008/0044824(其每一个均通过引用全文并入本文)中详细描述的基因表达产物。

进一步预期，与癌症相关的其他基因表达产物可能变为已知，而且本文描述的方法和组合物可以包括这类新鉴定的基因表达产物。

在本公开内容的一些情况下，替代地或额外地分析基因表达产物除表达水平之外的特征。例如，可以分析基因产物的可变剪接。可变剪接，也称为选择性外显子使用(alternativeexonusage)，是其中初级基因转录物(pre-mRNA)的外显子分离并且重新连接(例如，剪接)从而由相同基因产生选择性的mRNA分子的RNA剪接变异机制。在一些情况下，这些线性组合然后经历翻译过程，在该翻译过程中，特定和独特的氨基酸序列由来自相同基因的各选择性mRNA分子确定，从而产生蛋白质同种型。可变剪接可以包括并入不同的外显子或不同组的外显子、保持特定内含子或利用可变剪接供体和受体位点。

在一些情况下，可以鉴定显示可诊断良性、恶性或正常样品的可变剪接的标志物或标志物集。另外，可变剪接标志物还可以提供针对甲状腺癌的特定类型(例如乳头状、滤泡性、髓样和未分化癌)的标识符(identifier)。本领域已知的可诊断恶性肿瘤的可变剪接标志物包括通过引用全文并入本文的美国专利号6,436,642中所列的那些。

在一些情况下，可通过本公开内容的方法测定不编码蛋白质的基因表达产物例如miRNA和siRNA的表达。这些基因表达产物的差异表达可以指示良性、恶性或正常样品。这些基因表达产物的差异表达可以进一步指示良性样品的亚型(例如FA、NHP、LCT、BN、CN、HA)或恶性样品的亚型(例如FC、PTC、FVPTC、ATC、MTC)。在一些情况下，可通过本公开内容的方法测定miRNA、siRNA、可变剪接RNA同种型、mRNA或其任何组合的差异表达。

(1)测定表达产物水平的体外方法

用于测定基因表达产物水平的一般方法是本领域已知的，且可以包括但不限于以下一种或多种：其他的细胞学分析、对特定蛋白质或酶活性的分析、对包括蛋白质或RNA或特定RNA剪接变体在内的特定表达产物的分析、原位杂交、全基因组或部分基因组表达分析、微阵列杂交分析、SAGE、酶联免疫吸附测定、质谱法、免疫组织化学、印迹法、测序、RNA测序、DNA测序(例如，从RNA获得的cDNA的测序)；下一代测序、纳米孔测序、焦磷酸测序或Nanostring测序。基因表达产物水平可以相对于内标(例如总mRNA)或特定基因(包括但不限于甘油醛-3-磷酸脱氢酶或微管蛋白)的表达水平进行归一化。

本方法的基因表达产物可以是蛋白质，并且可使用来源于从样品群组获得的蛋白质数据的分类器来分析特定生物样品中的蛋白质的量。可通过以下一种或多种方法测定蛋白质的量：ELISA、质谱法、印迹法、免疫组织化学、蛋白质芯片阵列或任何其他蛋白质定量技术。

可通过使用例如Affymetrix阵列、cDNA微阵列、寡核苷酸微阵列、点样微阵列或来自Biorad、Agilent或Eppendorf的其他微阵列产品的微阵列分析来分析基因表达产物标志物和可变剪接标志物。微阵列可以提供特别的优点，因为它们可以包含可以在单个实验中测定的大量基因或可变剪接变体。在一些情况下，微阵列装置可以包含允许综合评价基因表达模式、基因组序列或可变剪接的整个人基因组或转录组或其大部分。可使用如Sambrook,MolecularCloningaLaboratoryManual2001以及Baldi,P.和Hatfield,W.G.,DNAMicroarraysandGeneExpression2002(其通过引用全文并入本文)描述的标准分子生物学和微阵列分析技术发现标志物。

微阵列分析通常开始于使用本领域已知的方法从生物样品(例如，活检标本或细针抽吸物)提取和纯化核酸。对于表达和可变剪接分析，可以有利地从DNA提取和/或纯化RNA。此外可能有利的是从其他形式的RNA例如tRNA和rRNA中提取和/或纯化mRNA。

例如，可以通过逆转录、PCR、连接、化学反应或其他技术，用荧光标记、放射性核素或化学标记例如生物素、地高辛配基或地高辛来进一步标记纯化的核酸。标记可以是直接或间接的，其可能进一步需要偶联阶段。偶联阶段可以发生在杂交之前，例如，使用氨基烯丙基-UTP和NHS氨基反应性染料(如花青染料)，或在杂交之后，例如，使用生物素和标记的链霉抗生物素蛋白。在一个实例中，以低于正常核苷酸的速率酶促添加修饰的核苷酸(例如以1aaUTP：4TTP的比例)，从而通常导致每60个碱基中有1个修饰的核苷酸(用分光光度计测量)。然后，可用例如柱或渗滤装置纯化aaDNA。氨基烯丙基是连接到与反应性标签(例如荧光染料)反应的核碱基上的长接头上的胺基。

然后标记的样品可与杂交溶液混合，所述杂交溶液可以包含SDS、SSC、硫酸葡聚糖、封闭剂(例如COT1DNA、鲑精DNA、小牛胸腺DNA、PolyA或PolyT)、Denhardt溶液、甲酰胺(formamine)或其组合。

杂交探针可以是可变长度的DNA或RNA片段，其用于检测DNA或RNA样品中与探针中的序列互补的核苷酸序列的存在。因此所述探针与单链核酸(DNA或RNA)杂交，所述单链核酸的碱基序列由于探针和靶标间的互补性而允许探针-靶碱基配对。标记的探针可以首先(通过加热或在碱性条件下)变性成单DNA链，然后与靶DNA杂交。

为检测探针与其靶序列的杂交，可用分子标记物标示(或标记)所述探针；常用的标记物包括³²P或地高辛配基，后者是非放射性的基于抗体的标记物。然后可通过经由放射自显影或其他成像技术使杂交的探针可视化来检测与探针具有中等至高度序列互补性(例如，至少约70％、80％、90％、95％、96％、97％、98％、99％或更高的互补性)的DNA序列或RNA转录物。具有中等或高度互补性的序列的检测可取决于应用多严格的杂交条件—高严格性，例如高杂交温度和杂交缓冲液中的低盐，可能仅允许高度相似的核酸序列之间的杂交，而低严格性，例如较低温度和高盐，允许序列相似度较低时的杂交。DNA微阵列中使用的杂交探针可包含与惰性表面例如包被的载玻片或基因芯片共价连接且移动的cDNA靶标与之杂交的DNA。

可通过热或化学方法使包含与阵列上的探针杂交的靶核酸的混合物变性，并将其添加到微阵列中的口中。然后可以密封孔口或端口，并且微阵列例如在杂交烘箱中杂交，其中可通过旋转或在混合器中混合微阵列。杂交过夜后，可洗去非特异性结合(例如，用SDS和SSC)。然后可以干燥微阵列，并在包含激发染料的照射光源(例如，激光)和测量染料发射的检测器的机器中进行扫描。可用模板栅格覆盖图像，并可定量特征(例如，包含几个像素的特征)的强度。

各种试剂盒可用于所述方法的核酸扩增和探针产生。可在本公开内容中使用的试剂盒的例子包括但不限于NugenWT-OvationFFPE试剂盒、带有Nugen外显子模块和Frag/Label模块的cDNA扩增试剂盒。NuGENWT-Ovation^TMFFPESystemV2是全转录组扩增系统，使得能够对来源于FFPE样品的小的和降解的RNA的大量存档进行全面基因表达分析。该系统由扩增少至50ng总FFPERNA所需的试剂和方案组成。所述方案可用于qPCR、样品存档、片段化和标记。可以使用NuGEN的FL-Ovation^TMcDNA生物素模块V2将扩增的cDNA在不到两小时内片段化并标记，以用于3’表达阵列分析。对于使用AffymetrixExon和GeneST阵列的分析，扩增的cDNA可以和WT-Ovation外显子模块一起使用，然后使用FL-Ovation^TMcDNA生物素模块V2片段化并标记。对于Agilent阵列上的分析，可使用NuGEN的FL-Ovation^TMcDNA荧光模块使扩增的cDNA片段化并标记。关于NugenWT-OvationFFPE试剂盒的更多信息可在www.nugeninc.com/nugen/index.cfm/products/amplification-systems/wt-ovation-ffpe/上获得。

可在本发明方法中使用AmbionWT-表达试剂盒。AmbionWT-表达试剂盒允许直接扩增总RNA，而无需单独的核糖体RNA(rRNA)消耗步骤。用WT-表达试剂盒，可在人、小鼠和大鼠外显子和基因1.0ST阵列上分析少至50ng总RNA的样品。除较低的输入RNA要求及方法和实时PCR数据之间的高度一致性之外，表达试剂盒还提供灵敏度的明显提高。例如，由于信噪比增加，用表达试剂盒可以在外显子水平上获得检测的高于背景的更大量的探针集。AmbionWT-表达试剂盒可以和其他Affymetrix标记试剂盒组合使用。

AmpTecTrinucleotideNanomRNA扩增试剂盒(6299-A15)可以在本方法中使用。TRinucleotidemRNA扩增Nano试剂盒适用于大范围的、从1ng到700ng的输入总RNA。根据输入总RNA的量和所需的aRNA的产量，其可以用于1轮(输入量>300ng总RNA)或2轮(最小输入量1ng总RNA)，其中RNA产量在>10μg的范围内。mpTec的专有TRinucleotide引发技术导致与针对rRNA的选择结合的mRNA的优先扩增(与通用的真核3'-poly(A)-序列无关)。关于AmpTecTrinucleotideNanomRNA扩增试剂盒的更多信息可在www.amp-tec.com/products.htm上获得。该试剂盒可以和cDNA转化试剂盒和Affymetrix标记试剂盒结合使用。

然后可以例如通过减去背景强度，随后再除使得各通道上的特征总强度相等的强度或参考基因的强度，对来自微阵列的原始数据进行归一化，且之后可以计算所有强度的t值。更复杂的方法包括z比、局部加权最小二乘(loess)和局部加权(lowess)回归以及例如用于Affymetrix芯片的RMA(稳健多芯片分析)。

(2)测定基因表达产物水平的体内方法

还预期本公开内容的方法和组合物可用于测定个体的基因表达产物水平而无需首先获得样品。例如，可在体内，即在个体体内测定基因表达产物水平。用于体内测定基因表达产物水平的方法是本领域已知的，并包括成像技术，例如CAT、MRI、NMR、PET，和使用抗体或分子信标的蛋白质或RNA水平的光学、荧光或生物光子成像。此类方法在通过引用并入本文的US2008/0044824、US2008/0131892中描述。预期用于体内分子谱分析的其他方法也在本公开内容的范围内。

分子谱分析可包括使样品或样品的一部分与本公开内容的一种或多种探针结合的步骤。合适的探针与待测样品的组分(例如，基因表达产物，例如，多核苷酸、DNA、RNA、多肽和/或蛋白质)结合，此类探针包括但不限于抗体或抗体片段、适体、核酸和寡核苷酸。样品或样品组分与本公开内容的探针的结合代表物质从样品转化为与一种或多种探针结合的样品。在一种情况下，基于分子谱分析而鉴定、表征或诊断生物样品(例如，鉴定为癌性或良性的、为雄性或雌性的、为突变体或野生型)的方法还包括以下步骤：检测样品中的基因表达产物(例如，mRNA或蛋白质)水平；和通过将一种或多种差异基因表达产物水平输入本公开内容的训练算法中来对测试样品进行分类；使用本公开内容的选择和分类算法确认样品分类；以及确定样品属于所测试的类别(例如，对于遗传病、癌症类型或任何其他本文公开的测试为阳性的)。

(i)样品与正常品的比较

对来自受试者的样品(例如，测试样品或生物样品)进行的分子谱分析的结果可以与已知或怀疑为正常的生物样品进行比较。正常样品可以是不包含或期望不包含一种或多种所评价的癌症、疾病或病状的样品，或者在分子谱分析中对于一种或多种所评价的癌症、疾病或病状可能为测试阴性。正常样品可以是没有或期望没有任何癌症、疾病或病状的样品，或者在分子谱分析中对于任何癌症、疾病或病状均可能为测试阴性。正常样品可以来自与正测试的受试者不同的受试者，或来自同一受试者。在一些情况下，正常样品例如是从受试者如正测试的受试者的口腔拭子获得的样品。正常样品可以与测试样品同时分析或在不同的时间分析。

测试样品的分析结果可与正常样品的相同分析的结果进行比较。在一些情况下，正常样品的分析结果来自于数据库或参考文献。在一些情况下，正常样品的分析结果是本领域技术人员已知的或普遍接受的值或值的范围。在一些情况下，这种比较是定性的。在另一些情况下，这种比较是定量的。在一些情况下，定性或定量比较可以包括但不限于以下一种或多种：比较荧光值、斑点强度、吸光度值、化学发光信号、柱状图、临界阈值、统计显著性值、基因产物表达水平、基因产物表达水平变化、选择性外显子使用、选择性外显子使用的变化、蛋白质水平、DNA多态性、拷贝数变化、一种或多种DNA标志物或区域的存在或不存在的指示，或者核酸序列。

(ii)结果评估

可使用本领域已知的用于将基因表达产物水平或选择性外显子使用与特定表型相关联的方法评估分子谱分析结果，所述表型例如是恶性肿瘤、恶性肿瘤的类型(例如，滤泡癌)、良性、正常状态(例如，无疾病或病状)、雄性、雌性、杂合的、纯合的、突变体或野生型。可以确定规定的统计学置信水平以提供诊断置信水平。例如，可以确定大于90％的置信水平是恶性肿瘤、恶性肿瘤类型、良性、正常状态、雄性、雌性、杂合的、纯合的、突变体或野生型的有用预测器。在其他情况下，可以选择更严格或更不严格的置信水平。例如，可以选择大约或至少约50％、60％、70％、75％、80％、85％、90％、95％、97.5％、99％、99.5％或99.9％的置信水平作为可用的表型预测器。在一些情况下，所提供的置信水平可与样品质量、数据质量、分析质量、所用的具体方法和/或所分析的基因表达产物的数目有关。用于提供诊断的规定置信水平可基于假阳性或假阴性和/或成本的期望值来选择。为了达到规定的置信水平而选择参数或鉴定具有诊断能力的标志物的方法包括但不限于受试者工作特征(ROC)曲线分析、双正态ROC、主成分分析、部分最小二乘法分析、奇异值分解、最小绝对收缩和选择算子分析、最小角回归和阈值梯度定向正则化方法。

(iii)数据分析

在一些情况下，可通过应用为归一化和/或改善数据可靠性而设计的算法来改进原始基因表达水平和可变剪接数据。由于需处理大量个别的数据点，数据分析可能需要计算机或其他装置、机器或仪器以应用本文所述的多种算法。“机器学习算法”可指用于表征基因表达谱的基于计算的预测方法，本领域技术人员也称其为“分类器”。可通过例如基于微阵列的杂交分析获得的对应于某些表达水平的信号可以运行所述算法，从而对表达谱进行分类。监督的学习可包括“训练”分类器以识别各类别之间的区别，然后“测试”分类器对独立测试集的准确性。对于新的未知样品，分类器可用于预测样品所属的类别。

在一些情况下，稳健多阵列平均(RMA)法可用于将原始数据归一化。RMA法开始于计算多个微阵列上各匹配细胞的背景校正强度。背景校正的值可以限制为正值，如Irizarry等,Biostatistics2003April4(2)：249-64所述，其通过引用全文并入本文。背景校正后，可获得各背景校正的匹配细胞强度的以2为底的对数。然后可使用分位数归一化方法将各微阵列上的背景校正的、对数转化的匹配强度进行归一化，在该方法中，对于各输入阵列和各探针表达值，用所有阵列百分点的平均值替换阵列百分位探针值。该归一化方法由Bolstad等,Bioinformatics2003更充分地描述，其通过引用全文并入本文。分位数归一化后，归一化的数据可以拟合线性模型以获得各微阵列上的各探针的表达量值。然后可利用Tukey中值平滑算法(Tukey,J.W.,ExploratoryDataAnalysis.1977，其通过引用全文并入本文)确定归一化的探针集数据的对数级表达水平。

可以进一步过滤数据以去除可能认为是可疑的数据。在一些情况下，得自具有少于约4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针的数据由于其异常杂交倾向或二级结构问题而可能被认为是不可靠的。类似地，得自具有超过约12、13、14、15、16、17、18、19、20、21或22个鸟苷+胞嘧啶核苷酸的微阵列探针的数据由于其异常杂交倾向或二级结构问题而可能被认为是不可靠的。

在一些情况下，可以通过相对于一系列参考数据集对探针集可靠性进行排序而选择不可靠的探针集以从数据分析中排除。例如，RefSeq或Ensembl(EMBL)被认为是质量非常高的参考数据集。在一些情况下，来自与RefSeq或Ensembl序列匹配的探针集的数据由于其预期的高可靠性而可以特别地包括在微阵列分析实验中。类似地，来自匹配可靠性较低的参考数据集的探针集的数据可从进一步的分析中排除，或视情况而定包括在进一步的分析中。在一些情况下，可单独地或共同地使用Ensembl高通量cDNA(HTC)和/或mRNA参考数据集来确定探针集可靠性。在其他情况下，可以对探针集的可靠性进行排序。例如，可将与所有参考数据集如RefSeq、HTC和mRNA完全匹配的探针和/或探针集排序为最可靠的(1)。此外，可将与三分之二参考数据集匹配的探针和/或探针集排序为次最可靠的(2)，可将与三分之一参考数据集匹配的探针和/或探针集排序为下一级(3)，并可将不与参考数据集匹配的探针和/或探针集排序为最后(4)。然后可以根据其排序从分析中包括或排除探针和/或探针集。例如，可以选择包括来自1、2、3和4类探针集，1、2和3类探针集，1和2类探针集，或1类探针集的数据用于进一步分析。在另一个实例中，可根据与参考数据集项错配的碱基对数目对探针集进行排序。应理解存在许多本领域已知的、用于评估给定探针和/或探针集在分子谱分析中的可靠性的方法，且本公开内容的方法包括这些方法中的任一种及其组合。

如果来自探针集的数据不表达或以检测不到的水平(例如，不高于背景)表达，则可从分析中将其排除。如果任何组满足以下情况，则探针集可被判断为高于背景表达：

标准正态分布的T0到无穷大的积分<显著性(0.01)

其中：

T0＝Sqr(GroupSize)(T-P)/Sqr(Pvar)，

GroupSize＝组中的CEL文件数，

T＝探针集中探针得分的平均值，

P＝GC含量的背景探针平均的平均值，以及

Pvar＝背景探针变异之和/(探针集中的探针数)²。

这可以允许包括这样的探针集：其中组中探针集的平均值高于作为探针集背景中心的与该探针集具有类似GC含量的背景探针的平均表达，并且使得能够从背景探针集变异中导出探针集离差。

不显示变异或显示低变异的探针集可从进一步的分析中排除。低变异探针集可经由卡方(Chi-Square)检验从分析中排除。如果探针集的转化变异在具有(N-1)自由度的卡方分布的99％置信区间的左侧，则可认为它是低变异的。

(N-1)*探针集变异/(基因探针集变异)～卡方(N-1)

其中N是输入CEL文件数，(N-1)是卡方分布的自由度，“基因探针集变异”是基因间的探针集变异的平均值。

如果给定基因或转录物簇的探针集包含少于最小数目的通过了之前描述的针对GC含量、可靠性、变异等的过滤器步骤的探针，则它们可从进一步的分析中排除。例如，如果给定基因或转录物簇的探针集包含少于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或少于约20个探针，则它们可从进一步的分析中排除。

基因表达水平或可变剪接的数据分析方法还可以包括使用本文提供的特征选择算法。在一些情况下，通过利用LIMMA软件包(Smyth,G.K.(2005).Limma:linearmodelsformicroarraydata.In：BioinformaticsandComputationalBiologySolutionsusingRandBioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds.),Springer,NewYork,397-420页，其通过引用全文并入本文)提供特征选择。

基因表达水平和/或可变剪接的数据分析方法还可以包括使用预分类器算法。例如，算法可利用细胞特异性分子指纹根据其组成对样品进行预分类，然后应用校正/归一化因子。然后可将该数据/信息输入最终分类算法中，该算法可整合该信息以帮助最终诊断。在另一个实例中，在对另一病状(例如，甲状腺癌)应用主分类器之前，算法可使用混杂病状表达谱，如淋巴瘤特征。

基因表达水平和或可变剪接的数据分析方法还可以包括使用本文提供的分类器算法。提供对角线线性判别分析、k-最近邻算法、支持向量机(SVM)算法、线性支持向量机、随机森林算法或基于概率模型的方法或其组合用于差异基因表达数据(例如，微阵列数据)的分类。可基于目的类别之间表达水平差异的统计显著性选择能区分样品(例如，良性对恶性、正常对恶性、雄性对雌性、突变体对野生型)或区分亚型(例如PTC对FVPTC)的经鉴定的标志物。在一些情况下，通过将BenjaminiHochberg或另一种校正应用于错误发现率(FDR)来调整统计显著性。

在一些情况下，分类器算法可以补充荟萃分析法，例如由Fishel和Kaufman等，2007Bioinformatics23(13)：1599-606(其通过引用全文并入本文)描述的方法。在一些情况下，分类器算法可以补充荟萃分析法，例如再现性分析。在一些情况下，所述再现性分析选择出现在至少一个预测表达产物标志物集中的标志物。

用于导出后验概率并将后验概率应用于微阵列数据分析的方法已在例如Smyth,G.K.2004Stat.Appl.Genet.Mol.Biol.3：Article3(其通过引用全文并入本文)中描述。在一些情况下，后验概率可用于对由分类器算法提供的标志物进行排序。在一些情况下，可以根据其后验概率对标志物进行排序，并且可以选择那些通过了所选阈值的标志物作为其差异表达指示或诊断在所研究的类别(例如，良性、恶性、正常、ATC、PTC、MTC、FC、FN、FA、FVPTC、RCC、BCA、MMN、BCL、PTA、CN、HA、HC、LCT、NHP、雄性、雌性、BRAF野生型、BRAFV600E等)中的样品的标志物。示例性的阈值包括约0.7、0.75、0.8、0.85、0.9、0.925、0.95、0.975、0.98、0.985、0.99、0.995或更高的先验概率。

分子谱分析结果的统计学评估可以提供指示以下一种或多种可能性的一个或多个定量值：诊断准确性的可能性；癌症、疾病或病状的可能性；特定癌症、疾病或病状的可能性(例如，组织类型或癌症亚型)；特定突变状态的可能性；以及特定治疗性干预成功的可能性。因此，可能没有经过遗传学或分子生物学培训的医师不需要了解原始数据。相反，所述数据可以以指导患者医护的最有用的形式直接提供给医师。分子谱分析的结果可使用本领域已知的许多方法进行统计学评估，包括但不限于：studentsT检验、双侧T检验、皮尔森秩和分析、隐马尔可夫模型分析、q-q图分析、主成分分析、单向ANOVA、双向ANOVA、LIMMA等。

单独使用分子谱分析或者与细胞学分析结合使用分子谱分析可以提供约85％的准确性到约99％或约100％的准确性的分类、表征或诊断。在一些情况下，分子谱分析方法和/或细胞学分析提供准确性为大约或至少约85％、86％、87％、88％、90％、91％、92％、93％、94％、95％、96％、97％、97.5％、98％、98.5％、99％、99.5％、99.75％、99.8％、99.85％或99.9％的恶性、良性或正常的分类、鉴定或诊断。在一些情况下，分子谱分析方法和/或细胞学分析提供准确性为大约或至少约85％、86％、87％、88％、90％、91％、92％、93％、94％、95％、96％、97％、97.5％、98％、98.5％、99％、99.5％、99.75％、99.8％、99.85％或99.9％的特定组织类型(例如，NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和/或PTA)的存在的分类、鉴定或诊断。

在一些情况下，可通过随着时间的推移随访受试者来确定初始诊断的准确性，从而确定其准确性。在其他情况下，可通过确定性的方式或者使用统计学方法确定准确性。例如，可利用受试者工作特征(ROC)分析确定最优分析参数，从而实现特定水平的准确性、特异性、阳性预测值、阴性预测值和/或错误发现率。在癌症诊断中使用ROC分析的方法是本领域已知的，并且已在例如美国专利申请号2006/019615中描述，其通过引用全部并入本文。

可以选择如下所述的基因表达产物和编码此类产物的核苷酸组合物用作本公开内容的分子谱分析试剂，所述基因表达产物和编码此类产物的核苷酸组合物经测定在类别(例如，良性和正常、良性和恶性、恶性和正常、雄性和雌性、淋巴瘤和LCT、突变体和野生型等)之间表现出表达水平的最大差异或可变剪接的最大差异。这样的基因表达产物由于提供比本领域已知或使用的其他方法更宽的动态范围、更大的信噪比、改善的诊断能力、更低的假阳性或假阴性可能性或更高的统计学置信水平而可能特别地有用。

与使用本领域已知的标准细胞学技术相比，单独使用分子谱分析或者与细胞学分析结合使用分子谱分析可以使评定为非诊断性的样品的数目减少约或至少约100％、99％、95％、90％、80％、75％、70％、65％或约60％。在一些情况下，与本领域使用的标准细胞学方法相比，本公开内容的方法可以使评定为中间或疑似的样品的数目减少约或至少约100％、99％、98％、97％、95％、90％、85％、80％、75％、70％、65％或约60％。

可将分子谱分析的结果输入数据库中以供分子谱分析企业、测试受试者或个体、医疗提供者或保险提供者的代表或代理人访问。在一些情况下，分析结果包括企业的代表、代理人或顾问如医学专业人员的样品分类、鉴定或诊断。在其他情况下，自动提供数据的计算机或算法分析。在一些情况下，分子谱分析企业可以就以下一项或多项服务向个体、保险提供者、医疗提供者、研究人员或政府机构收费：所进行的分子谱分析、咨询服务、数据分析、结果报告或数据库访问。

分子谱结果可作为计算机屏幕上的报告或作为纸件报告提供。在一些情况下，所述报告可以包括但不限于以下一种或多种信息：差异表达的基因数、原始样品的适合性、显示差异可变剪接的基因数、诊断、诊断的统计学置信度、癌症或恶性肿瘤的可能性和指定的疗法。

(iv)基于分子谱分析结果的样品分类

分子谱分析结果可分类为以下之一：良性的(无恶性癌症、疾病或病状)、恶性的(癌症、疾病或病状的阳性诊断)或非诊断的(提供的关于癌症、疾病或病状的存在或不存在的信息不充分；或由于混杂的病状而不适合所选的测试)。也可使用分子谱分析的结果来根据突变状态(例如，BRAFV600E状态)对样品进行分类。在一些情况下，分子谱分析结果可分类为良性的对疑似的(怀疑为癌症、疾病或病状阳性的)类别。在一些情况下，诊断结果可以进一步分类癌症、疾病或病状的类型，比如通过鉴定一种或多种组织类型的存在或不存在，包括但不限于NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA。在其他情况下，诊断结果可以指示特定分子途径与癌症疾病或病状有关，或特定癌症疾病或病状的特定等级或阶段。在另外其他情况下，诊断结果可以告知适当的治疗性干预，例如特定的药物方案(如激酶抑制剂，例如Gleevec或本领域已知的任何药物)或外科手术介入(如甲状腺切除术或偏侧甲状腺切除术)。

可使用训练算法对结果进行分类。本公开内容的经训练的算法包括使用已知分类(例如，恶性、良性和正常样品，包括但不限于图2所列的具有一种或多种组织病理学的样品；突变体和野生型样品，等等)的两个或多个参考集开发的算法。可使用图3、表1、表2、表9、表10、表11、表12、表14、表15、表23、表24、表25、表26和表27中的一个或多个分类组和使用组的任意组合进一步训练算法。

训练可包括第一组一种或多种组织类型中的基因表达产物水平与第二组一种或多种组织类型中的基因表达产物水平的比较，其中第一组组织类型包含至少一种第二组所不包含的组织类型。在一些情况下，可使用分类组中的生物标志物组的表达水平与本算法所使用的所有其他生物标志物组(或所有其他生物标志物特征)进行比较来训练整个算法或部分算法。第一组组织类型和/或第一组组织类型可包括任意组合的1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个类型，所述类型选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA，以及来自包括外科手术和/或FNA样品在内的任何来源。

适于样品分类的算法包括但不限于k-最近邻算法、支持向量算法、朴素贝叶斯算法、神经网络算法、隐马尔可夫模型算法、遗传算法或其任何组合。

在一些情况下，本公开内容的经训练的算法可以整合除了基因表达数据或可变剪接数据以外的数据，例如但不限于DNA多态性数据、测序数据、本公开内容的细胞学家或病理学家的评分或诊断、由本公开内容的预分类器算法提供的信息或受试者的医疗史信息。

当对生物样品进行分类(例如，用于癌症诊断、为雄性或雌性、为突变体或野生型等)时，二元分类器通常出现两种可能的结果。当二元分类器与实际真值(例如，来自生物样品的已知值)相比时，通常存在四种可能的结果。如果预测结果为p(其中“p”是阳性分类器输出，比如恶性，或存在本文所述的特定病变组织)，并且实际值也为p，那么它被称为真阳性(TP)；然而如果实际值为n，那么它将是假阳性(FP)。相反，当预测结果和实际值二者都为n时(其中“n”是阴性分类器输出，比如良性，或不存在本文所述的特定病变组织)出现真阴性(例如，明确的良性)，而当预测结果为n而实际值为p时则出现假阴性。例如，考虑试图确定人是否患有某种疾病的诊断性测试。当该人测试为阳性，但实际上未患该疾病的情况时，出现假阳性。另一方面，当该人测试为阴性(提示他们是健康的)，但他们实际上确实患有该疾病时，出现假阴性。在一些情况下，可通过以相应比例对可用样品上获得的误差进行重采样而产生假设亚型的真实世界发生率的受试者工作特征(ROC)曲线。

分类或诊断(例如，疾病诊断)的阳性预测值(PPV)，或准确率，或验后概率，可以是正确诊断的具有阳性测试结果的患者的比例。PPV值可以是诊断方法的量度，因为它反映了阳性测试反映出所测试的基础病状的可能性；然而，其值可依赖于可能发生变化的所测试病状(例如，疾病)的发生率。在一个实例中，FP(假阳性)；TN(真阴性)；TP(真阳性)；FN(假阴性)。

假阳性率(α)＝FP/(FP+TN)-特异性

假阴性率(β)＝FN/(TP+FN)-灵敏度

能力＝灵敏度＝1–β

似然比阳性＝灵敏度/(1-特异性)

似然比阴性＝(1-灵敏度)/特异性

阴性预测值可被定义为正确诊断的具有阴性测试结果的患者的比例。PPV和NPV量度可使用适当的疾病亚型发生率估计值获得。合并的恶性疾病发生率的估计值可由通过外科手术大致分类为B与M的不确定结果的合并库来计算。在一些情况下，对于亚型特异性估计值，疾病发生率有时可能是无法计算的，因为没有任何可用的样品。在这些情况下，亚型疾病发生率可以用合并的疾病发生率估计值来代替。

表达产物或选择性外显子使用的水平可指示以下之一种：NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA。表达产物或选择性外显子使用的水平可指示以下之一种：滤泡性细胞癌、未分化癌、髓样癌或乳头状癌。在一些情况下，基因表达产物或选择性外显子使用的水平指示许特尔细胞癌或许特尔细胞腺瘤。在一些情况下，使用本公开内容的方法选择的一个或多个用于诊断癌症的基因包含与指示癌症的一组代谢途径或信号传导途径相对应的代表性序列。

本方法的表达分析结果可提供给定诊断或分类为正确的统计置信水平。此统计置信水平可以是至少约或大于约85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更高。

在另一方面，本公开内容提供用于诊断癌症的组合物，其包括包含一个或多个图4、表18、表23、表24、表25、表26或表27所列基因的一部分，或其互补序列的寡核苷酸和该寡核苷酸所共价连接的基质。本公开内容的组合物适用于在特定置信水平内使用经训练的算法来诊断癌症。在一个实例中，本公开内容的组合物用于诊断甲状腺癌。

例如，在甲状腺癌的特定情况下，本公开内容的分子谱分析可以进一步提供关于甲状腺癌的具体类型(例如，乳头状、滤泡性、髓样或未分化)或选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA的其他组织类型的诊断。本公开内容的方法也可以提供对许特尔细胞癌或许特尔细胞腺瘤的存在或不存在的诊断。分子谱分析的结果还可以使本领域技术人员例如科学家或医学专业人员能够提出或指定特定治疗性干预。生物样品的分子谱分析也可用于监测初始诊断后特定治疗的效果。此外，应理解在一些情况下，分子谱分析可代替已确立的癌症诊断方法使用，而不是作为其附加方法使用。

在另一方面，本公开内容提供了用于在包含多核苷酸的生物样品中鉴定淋巴瘤的组合物，该多核苷酸对应在表1中所见的一种或多种生物标志物的全部或片段。该多核苷酸可以附接于基质；例如，多核苷酸可附接于载玻片或微阵列芯片。可使用用于鉴定生物样品中的淋巴瘤的组合物来在应用主分类器前预筛选样品。在一个实例中，在应用诊断分类器来鉴定甲状腺癌之前，可针对淋巴瘤的存在预筛选生物样品。在这个实例中，生物样品中的淋巴瘤特征的存在可表明甲状腺癌分类器不应该在样品上使用。

在另一方面，本公开内容提供了用于预测受试者对于包含对应于表1、表2、表9、表10、表23、表24、表25、表26或表27中所见的一个或多个基因的全部或片段的多核苷酸的基因突变(例如，BRAFV600E突变)而言是否杂合、纯合或野生型的组合物。还提供了可用于在包含对应于表1或表23中所见的一个或多个基因的全部或片段的多核苷酸的生物样品中调节细胞内容物变异的组合物。该多核苷酸可附接于基质，诸如载玻片或微阵列芯片。用于预测基因突变的组合物和相关的方法可单独使用或与一种或多种本文公开的组合物和方法组合使用。例如，除了主甲状腺癌分类器外，还可使用用于预测生物样品是否包含BRAFV600E基因突变的组合物和方法。

(v)经由分子谱分析监测受试者或治疗性干预

可使用本公开内容的方法和组合物监测受试者。例如，受试者可被诊断为患有癌症或遗传病。该初始诊断可以任选地包括使用分子谱分析。可以为受试者指定治疗性干预，例如，对疑似具有甲状腺癌的受试者进行甲状腺切除术。可以通过分子谱分析来检测治疗性干预的效果，从而持续地监测治疗性干预的结果。在另一个实例中，受试者可能被诊断为患有良性肿瘤或癌前病变或结节，并且可以通过分子谱分析来检测肿瘤或病变状态的任何变化，从而持续地监测所述肿瘤、结节或病变。

分子谱分析也可以用于在对受试者施用特定治疗性干预之前确定该特定治疗性干预的潜在效果。例如，受试者可能被诊断为患有癌症。分子谱分析可指示已知与癌症恶性有关的基因表达产物(例如RAS癌基因)的上调。可以使用本领域已知的方法获得肿瘤样品并在体外培养。然后可以测试应用异常活化的或失调的途径的各种抑制剂或已知抑制该途径活性的药物对肿瘤细胞系的生长抑制。分子谱分析也可以用于监测这些抑制剂对于例如有关途径的下游靶标的作用。

(vi)分子谱分析作为研究工具

分子谱分析可用作研究工具，以鉴定用于诊断疑似肿瘤的新标志物；监测药物或候选药物对于生物样品例如肿瘤细胞、细胞系、组织或生物体的作用；或揭示肿瘤发生和/或肿瘤抑制的新途径。

(vii)基于分子谱分析的生物标志物分组

本公开内容提供了可用于表征、划归、排除、鉴定和/或诊断甲状腺中的病理学的生物标志物的分组或组。此类生物标志物组是通过基因(或生物标志物)表达水平的模式与样品的特定类型(例如，恶性亚型、良性亚型、正常组织或具有外来组织的样品)之间的关联而获得的。生物标志物组也可用于表征、划归、排除、鉴定和/或诊断甲状腺的良性病状。在一些情况下，生物标志物的组数为多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50、60、70、80、90或100个生物标志物组。生物标志物的组数可以多于12组(例如，16组生物标志物)。16组生物标志物的例子包括但不限于以下(它们也提供在图2中)：

1、正常甲状腺(NML)

2、淋巴细胞性自身免疫性甲状腺炎(LCT)

3、结节性增生(NHP)

4、滤泡性甲状腺腺瘤(FA)

5、许特尔细胞甲状腺腺瘤(HC)

6、甲状旁腺(非甲状腺组织)

7、甲状腺未分化癌(ATC)

8、滤泡性甲状腺癌(FC)

9、许特尔细胞甲状腺癌(HC)

10、乳头状甲状腺癌(PTC)

11、乳头状癌的滤泡变型(FVPTC)

12、甲状腺髓样癌(MTC)

13、肾癌甲状腺转移(RCC)

14、黑色素瘤甲状腺转移(MMN)

15、B细胞淋巴瘤甲状腺转移(BCL)

16、乳腺癌甲状腺转移(BCA)

每组包括可用于表征、划归、排除和/或诊断甲状腺中的给定病理学(或其缺乏)的一组生物标志物(例如，与特定细胞类型有关的基因表达产物或可变剪接外显子)。生物标志物可以与超过一种细胞类型有关。第1-6组描述良性病理学，而第7-16组描述恶性病理学。所述多个组可以组合起来(各自以不同的比例)，以产生可用于两类分类系统(例如良性对恶性)的优化的组。或者，生物标志物组可以单独使用或以任意组合使用，作为分类、鉴定或诊断甲状腺组织样品是否包含选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA的一种或多种组织的参考或分类器。生物标志物组的组合可包含至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16个或更多个生物标志物组。在分类、鉴定或诊断中使用两个或多个组的一些情况下，比较是连续的。连续比较可包括1、2、3、4、5、6、7、8、9、10个或更多个集，所述集包含2、3、4、5、6、7、8、9、10个或更多个生物标志物组，作为连续比较中的一个步骤，所述生物标志物组同时进行比较，且与该顺序中的其他步骤中相比，每个集包含至少一个不同的生物标志物组(并且可任选地为完全不重叠的)。

甲状腺的生物性质以及在其内发现的每种病理学提示在一组中的多种生物标志物与另一组中的多种生物标志物之间可能存在一定的冗余。对于每种病理学亚型，每个诊断组可以是异质的并且相对于另一组中的生物标志物是半冗余的，或非冗余的。一般而言，异质性和冗余可反映给定甲状腺样品(例如，外科手术样品或FNA样品)中的组织样品的生物学以及可将每个病理学亚型彼此进行区分的基因表达差异。

一方面，本公开内容的诊断价值在于比较i)一个组中的一种或多种标志物，相对于ii)各附加组中的一种或多种标志物。

特定生物标志物组所展示的基因表达模式反映了每组的“特征”。例如，淋巴细胞性自身免疫性甲状腺炎(LCT)组可具有某些表现出特定模式或特征的生物标志物集。在此类特征中，特定生物标志物可能上调，另外一些可能没有差异性表达，而还有一些可能下调。为了诊断或以其他方式表征甲状腺病状，特定生物标志物组的特征本身可进行分组；这样的分组可被称为“分类组”。每个“分类组”可包含至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个或多于20个生物标志物组。

分类组可包含指定的生物标志物(TCID)，并且使用在算法训练过程中保存的信息来划归或排除给定样品为“良性的”、“疑似的”或包含或不包含一种或多种组织类型(例如，NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA)。每个分类组可使用简单的判定规则来过滤引入的样品，如果满足判定规则(例如，可针对样品中所包含的一种或多种组织样品的身份或状态对样品进行表征)，则从后续评估中有效地移除任何标记样品。本文提供的生物标志物组和分类组可用于分类、表征、鉴定和/或诊断甲状腺癌或其他甲状腺病状(包括诊断甲状腺为正常的)。本文提供的生物标志物组和分类组也可用于根据性别、突变状态、细胞类型组成和/或混杂病状的存在对样品进行分类、表征、鉴定和/或诊断。然而，可使用类似的方法获得与这些组类似的生物标志物组和分类组，并且这些生物标志物和分类组可用于其他疾病或病症，比如本文所述的其他疾病或病症。

图3提供了可用于诊断甲状腺病状的一组分类组的实例。例如，如图3所示，一个分类组可包含一个生物标志物组，比如MTC生物标志物组(例如，1号分类组)；另一个分类组可包含一个生物标志物组，比如RCC生物标志物组(例如，2号分类组)；又一个分类组可包含一个生物标志物组，比如PTA生物标志物组(例如，3号分类组)；再一个分类组可包含一个生物标志物组，比如BCA生物标志物组(例如，4号分类组)；再一个分类组可包含一个生物标志物组，比如MMN生物标志物组(例如，5号分类组)；再一个分类组可包含两个生物标志物组，比如HA和HC生物标志物组(例如，6号分类组)；再一个分类组可包含FA、FC、NHP、PTC、FVPTC、HA、HC和LCT组的组合(例如，7号分类组，它也是“主”分类器的实例)。一个或多个这样的分类器可同时或依次使用，并且以任意组合使用，以分类、表征、鉴定或诊断甲状腺样品。在一些情况下，样品被鉴定为包含或不包含具有HA或HC组织类型的组织。

可用于表征、鉴定和/或诊断甲状腺癌的其他潜在的分类组可包括：1)从非甲状腺器官转移到甲状腺的生物标志物(例如，以下一种，或两种或更多种的任意组合：RCC、MTC、MMN、BCL和BCA组)；2)与来源于非甲状腺器官的甲状腺组织相关的生物标志物(例如，以下任一种，或两种或更多种的任意组合：RCC、MTC、MMN、BCL、BCA和PTA组)；3)可变基因剪接具有显著改变的生物标志物；4)KEGG途径；5)基因本体；6)与甲状腺癌相关的生物标志物组(例如，以下组中的一种，或两种或更多种的组合：FC、PTC、FVPTC、MTC、HC和ATC)；7)与良性甲状腺病状相关的生物标志物组(例如，以下的一种，或两种或更多种的组合：FA、NHP、LCT或HA)；8)与良性甲状腺病状或正常甲状腺组织相关的生物标志物组(例如，以下的一种，或两种或更多种的组合：FA、NHP、LCT、HA或NML)；9)与信号传导途径有关的生物标志物，比如粘着途径、焦点粘着途径和紧密连接途径，或于2009年11月17日提交的通过引用其全文并入本文的国际申请号PCT/US2009/006162中所述的其他途径。此外，在本方法和组合物中可使用指示从非甲状腺器官到甲状腺的转移的生物标志物。可用于诊断甲状腺病状的分类器的、转移到甲状腺的转移性癌症包括但不限于：转移性甲状旁腺癌、转移性黑色素瘤、转移性肾癌、转移性乳腺癌和转移性B细胞淋巴瘤。

可用于表征、鉴定和/或诊断甲状腺癌的分类组还可以包括用来鉴定样品混杂的组、提供有关癌症遗传基础的进一步信息的组和/或在应用甲状腺癌分类器组之前预筛选样品的组。在另一个实例中，预测生物样品对于BRAFV600E点突变是否为杂合的或野生型的分类器组可用于进一步对恶性诊断进行分类。在一些情况下，预测驱动突变(例如，BRAF突变)的存在的分类器组可用于进一步对癌症亚型进行分类。驱动突变可与肿瘤发生或肿瘤存活有因果联系。这样的突变可以在致癌作用过程中被正向选择并可在肿瘤类型之中或跨肿瘤类型表现出重复模式。存在推定地驱动癌症的侵袭形式如BRAF、KRAS等的DNA驱动突变。然而不是所有具有这些突变的受试者都演变为具有甲状腺外侵袭、淋巴结或远端转移以及加速进展为死亡的甲状腺的侵袭性疾病。同样，缺乏这些DNA驱动突变的很多受试者可能具有侵袭性甲状腺癌。本文描述的方法或分类组可用于鉴定所述一种或多种驱动突变的存在。所述BRAF突变可以是可导致更具侵袭性的肿瘤的驱动突变。在一些情况下，所述生物样品可以进一步分类为具有侵袭性预后或不具有侵袭性预后。所述受试者可以根据所述分类进行治疗。在另一个实例中，可以检测或诊断淋巴瘤的存在的分类器组可以先于甲状腺癌分类器进行使用；淋巴瘤分类器的使用可降低甲状腺癌分类器的假阳性率。

在一些情况下，所述方法提供了可用于诊断生物样品或以其他方式表征生物样品的许多或一定数量范围的生物标志物(包括基因表达产物)。如本文所述，可使用本文所提供的方法，尤其是将基因表达特征与特定组织类型例如图2所列的类型相关联的方法来鉴定此类生物标志物。可使用本发明描述的方法来获得图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27所示的生物标志物集。所述生物标志物也可转而用于对组织进行分类。在一些情况下，使用图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中的所有生物标志物来诊断或以其他方式表征甲状腺组织。在一些情况下，使用图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中的生物标志物的子集来诊断或以其他方式表征甲状腺组织。在一些情况下，使用图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中的所有生物标志物或其子集与其他生物标志物一起来诊断或以其他方式表征甲状腺组织。在一些情况下，总共使用至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物来诊断或以其他方式表征甲状腺组织。在其他情况下，总共使用至多2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物来诊断或以其他方式表征甲状腺组织。在另外其他情况下，使用图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中所确定的生物标志物中的至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190种或更多种来诊断或以其他方式表征甲状腺组织。

示例性的生物标志物和它们的相关联的分类组(和/或生物标志物组)的实例列在图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中。本文提供的方法和组合物可以使用在图3、图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中列出的任何或全部生物标志物。在一些情况下，在图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中列出的生物标志物用作图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中所示的相应分类组的部分。

在其他情况下，在图3、图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中的生物标志物可以用于与图4、表1、表2、表3、表4、表5、表9中、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中所示的分类组不同的分类组。

可为优化的分类组分配每个分类组特定数目的生物标志物。例如，可为优化的分类组分配约1至约500种；例如约1-500、1-400、1-300、1-200、1-100、1-50、1-25、1-10、10-500、10-400、10-300、10-20010-100、10-50、10-25、25-500、25-400、25-300、25-200、25-100、25-50、50-500、50-400、50-300、50-200、50-100、100-500、100-400、100-300、100-200、200-500、200-400、200-300、300-500、300-400、400-500、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500种或任何包括的范围或整数的生物标志物。例如，如图3所示，分类组可含有5、33或142种生物标志物。本公开内容的方法和组合物可以使用选自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或16个或更多个生物标志物组的生物标志物，并且每个这些生物标志物组可具有任意组合的多于1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200、300、400、500种或更多的生物标志物。在一些情况下，组合的标志物集给出了高于60％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的特异性或灵敏度，或至少90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更高的阳性预测值或阴性预测值。

基因表达水平的分析可包括将本文所述的不同分类器连续应用于基因表达数据。这样的连续分析可包括应用从病变甲状腺组织群组的基因表达分析获得的分类器，接着应用从不同甲状腺组织样品的混合物的分析获得的分类器，其中一些样品包含病变甲状腺组织而其他样品包含良性甲状腺组织。病变组织可以是恶性或癌性组织(包括从非甲状腺器官转移的组织)。病变组织可以是甲状腺癌或已转移到甲状腺的非甲状腺癌。所述分类器可以从良性组织、正常组织和/或非甲状腺组织(例如，甲状旁腺组织)中的基因表达模式的分析获得。病变组织可以是HA和/或HC组织。

当每个分类组接收来源于生物样品的生物标志物表达水平(例如，汇总的微阵列强度值、qPCR或测序数据)作为输入时，可开始分类过程。然后可评估分类组中指定的生物标志物和表达水平。如果来自给定样品的数据与分类组中指定的规则匹配(或以其他方式与分类组的特征相关)，它的数据输出可标记该样品并且阻止主(下游)分类器对其进行进一步的评估和评分。当分类组标记样品时，系统可配置为针对该样品自动返回“疑似”判定(call)。当分类组不标记样品时，评估可继续往下游推进到达下一个分类组，并且可被下一个分类组标记或不标记。在一些情况下，按特定顺序应用分类组；在其他情况下，应用顺序可以是任意顺序。在一些情况下，以任何特定顺序执行来自图3且处于甲状腺基因特征组的优化列表中的分类组1-5，不过接下来是分类组6，分类组6先于主分类器的应用(例如，分类组7)。在一些情况下，鉴定混杂病状的分类组可在应用主分类器之前用于预筛选样品。例如，包含表1中的任何或全部标志物的分类组可用于鉴定生物样品(例如，甲状腺样品)中淋巴瘤的存在。使用淋巴瘤分类器组预筛选样品能够降低由主分类器返回的假阳性的数目。

一个或多个分类组可用于进一步表征生物样品。例如，如果样品是癌症(例如，甲状腺癌)阳性的，则包含表19或表23中的任何或全部生物标志物的分类组可以用于预测该生物样品对于BRAFV600E点突变是否是杂合的、纯合的或野生型的。用于预测BRAFV600E点突变的分类组可另外地或替代地包含来自表10的任何或全部标志物，并且可以任选地包含协变量分析，以解释细胞异质性。对于甲状腺生物样品(例如，甲状腺的细针抽吸物或组织样品)，协变量分析可以包括任意组合的滤泡细胞信号强度(例如，使用表3中的任何或全部标志物)、许特尔细胞信号强度(例如，使用表4中的任何或全部标志物)和/或淋巴细胞信号强度(例如，使用表5中的任何或全部标志物)的评估。

图1A提供了根据本公开内容的方法的分类过程的示例。该过程起始于例如通过基因表达分析测定来自受试者的样品(例如，甲状腺组织样品)的一种或多种基因表达产物的表达水平。可单独分析一组或多组参考样品或训练样品，以确定至少两组不同的生物标志物的基因表达数据，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个基因表达水平。第一组生物标志物的基因表达数据可用于训练第一分类器；第二组的基因表达数据可用于训练第二分类器；对于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16组或更多组生物标志物和任选地对应的分类器，也是如此。在每组生物标志物的分析中使用的参考样品集或训练样品集可以是重叠的或非重叠的。在一些情况下，参考或训练样品包含HA和/或HC组织。在样品分类过程的下一个步骤中，在样品的基因表达水平和第一组生物标志物或第一分类器之间进行第一比较。如果该第一比较的结果匹配，则分类过程以例如指出该样品为疑似的、癌性的或包含特定组织类型(例如，HA或HC)的结果结束。如果比较的结果不匹配，则该样品的基因表达水平在第二轮比较中与第二组生物标志物或第二分类器进行比较。如果该第二比较的结果匹配，则分类过程以例如指出该样品为疑似的、癌性的或包含特定组织类型(例如，HA或HC)的结果结束。如果比较的结果不匹配，则该过程以类似的逐步比较过程继续，直到发现匹配，或直到分类过程中包含的所有组的生物标志物或分类器都用作比较的基础。如果在样品的基因表达水平与分类过程中所使用的任何生物标志物或分类器集之间未发现匹配，则可指定样品为“良性的”。在一些实例中，如本文所述，分类过程中的最后比较是样品的基因表达水平与主分类器之间的比较。

图1B图示了根据本公开内容的方法的分类过程的另一个实例。通过微阵列杂交进行基因表达分析。对微阵列103的扫描生成了以CEL文件(数据)和校验和文件(用于数据完整性的验证)形式的基因表达数据104。单独地分析用于训练样品的基因表达数据以生成分类器和参数文件108，分类器和参数文件108包含与一种或多种类型的存在相关的基因表达数据。将分类器盒编译成有序执行列表107。使用分类器盒对样品数据的分析起始于使用命令行接口101输入命令，执行哪个命令由管理程序102来协调。这个示例性过程中的分类分析在105和107处进一步详述。对基因表达数据104进行归一化和汇总，随后用每个分类器盒依照执行列表105中盒的顺序对基因表达数据104进行分析。在这个实例中，用包含与甲状腺髓样癌(MTC)相关的生物标志物表达数据的分类盒对基因表达数据进行分类，随后按顺序使用用于肾癌甲状腺转移(RCC)、甲状旁腺(PTA)、乳腺癌甲状腺转移(BCA)、黑色素瘤甲状腺转移(MMN)、许特尔细胞癌和/或许特尔细胞腺瘤(HC)的分类器盒进行比较，并以使用主分类器将良性组织样品与疑似组织样品区别开来(BS)而结束。然后以结果文件和任何其他报告信息或输出106的形式报告利用每个分类器盒连续分析基因表达数据所得的结果。

分类过程可使用主分类器(例如，分类器组7)来指定样品为“良性的”或“疑似的”，或为包含或不包含一种或多种特定类型(例如，HA或HC)的组织。从样品获得的基因表达数据可经历一系列“过滤”步骤，其中所述数据连续通过不同的分类组或生物标志物组。例如，可用MMN生物标志物组分析样品，随后用MTC生物标志物组分析样品。在一些情况下，分类组的次序为以任何顺序排列的分类组1-5，接着是分类组6，再接着是主分类器(如图3所示)。在一些情况下，使用一个分类组，接着使用主分类器。在一些情况下，使用1个、2个、3个、4个、5个、6个、7个、8个、9个或10个分类器组，接着使用主分类器。在一些情况下，在主分类器前直接使用分类器6(组合的HA和HC)。在一些情况下，以任意组合或次序应用分类器1-5中的一个或多个，接着应用分类器7。在一些情况下，以任意组合或次序应用分类器1-5中的一个或多个，接着应用分类器6，再接着应用分类器7。在一些情况下，以任何组合或次序应用分类器1-6中的一个或多个，接着应用分类器7(或其他主分类器)。

各组内的生物标志物可以是可互换的(模块化的)。所有组中的多种生物标志物可以替代、增加、减少或改善以适应新的病理亚型的定义(例如从其他器官转移到甲状腺的新病例报告)。本公开内容描述了定义在甲状腺中发现的16种异质、半冗余和独特的病理学中的每一种的多种生物标志物。此类生物标志物可允许分开所述16种异质甲状腺病理学的恶性代表和良性代表。在一些情况下，要求所有16组都得到准确诊断，且任一给定组单独不具有足以做出正确表征、分类、鉴定或诊断检测的能力。在其他情况下，仅要求所述组的子集得到准确的表征、分类、鉴定或诊断检测，比如少于2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或16个生物标志物组。在一些情况下，各组中的生物标志物与合适的生物标志物组合互换，使得在检验定义所有其他病理学亚型的多种生物标志物的背景下，各组中的多种生物标志物仍然定义给定的病理学亚型。

在连续分析的早期所使用的分类器可用于划归或排除样品为良性的或疑似的，或包含或不包含特定亚型(例如，HA或HC)的一种或多种组织的。在连续分析中使用的分类器还可用于鉴定样品混杂和/或针对混杂的病状(例如，在用于开发分类组的训练群组中没有代表的病状)预筛选样品和/或用于进一步表征分类的样品(例如，通过预测基因突变)连续分析可结束于将“主”分类器应用于来自未被前面的分类器排除的样品的数据，其中主分类器是从多个组织类型中的基因表达水平的数据分析中获得的，并且其中主分类器能够指定样品为良性的或疑似的(或恶性的)，或为包含或不包含特定类型(例如，HA或HC)的一种或多种组织的。连续分析可在主分类器应用之后继续；例如，以进一步表征疑似(或恶性的)生物样品。

本文提供了甲状腺生物标志物组。与选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA组织类型的组织类型相关的两个或多个生物标志物组可用于区分i)良性FNA甲状腺样品与恶性(或疑似)FNA甲状腺样品，ii)样品中NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA组织类型之一种或多种的存在与不存在，和/或iii)样品中HA和/或HC组织的存在与HA和/或HC组织的不存在。在检查和分析在所有其他亚型的背景下定义每种病理学亚型的差异基因表达之后，良性与恶性的表征可以更准确。本公开内容描述了可能在甲状腺FNA的准确分类中有用的多种标志物。

对图2所述的初始16个生物标志物组的分类优化和同时和/或连续检查可用于选择一组2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个(例如，图3中的7个分类组)，所述优化可包括使用此类分类组进行指定顺序的连续比较。亚型组的每个模块化系列可以是互相排斥的，且足以达到准确的甲状腺FNA分类。

图3、图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27显示了可用于分类、鉴定、诊断或以其他方式表征生物样品(例如，甲状腺样品，例如，甲状腺组织和/或细针抽吸物)的生物标志物的实例。在所述良性与恶性的比较中可能不需要使生物标志物达到统计显著性，其目的是可用于组的准确分类。在一些情况下，所述良性对恶性(或良性对疑似)比较不具有统计显著性。在一些情况下，所述良性对恶性(或良性对疑似)比较具有统计显著性。在一些情况下，特定亚型的比较或关联不具有统计显著性。在一些情况下，特定亚型的比较或关联具有统计显著性。

图2所描述的16个组代表在甲状腺中发现的不同病理学(无论是否起源于甲状腺)。然而，给定群体中的亚型发生率可变化。例如，NHP和PTC可能远比罕见亚型如FC或ATC更常见。随后可调整每个亚型组中的生物标志物的相对频率，以便给予分子测试足够的灵敏度和特异性。

本文所提供的生物标志物分组是可用于表征生物样品(例如，对于甲状腺病状、基因突变、淋巴瘤等)的生物标志物分组的实例。然而，生物标志物分组也可用于其他疾病或病症，例如本文所述的任何疾病或病症。

(viii)组织组分的表征：用于靶组织内容的一般方法

可以表征任何异源样品的特异性组分或靶组织。一般来说，这可以使用两步骤过程进行。首先，可以使用在科学文献中公开的标志物大清单来检查在高度组织化的样品群组内的差异基因表达。可以选择在样品内不同类型的组织亚型之间变化最小的标志物作为“种子”标志物。通常，在所有的组织亚型中只保留那些显示出稳定的、不饱和表达的标志物用于进一步评估。表达水平的变化可使用如本文所述的LIMMA方法进行评估。

在此过程中的下一个步骤使用种子列表作为“钓竿”来鉴定具有相关表达(阴性或阳性)的新型标志物，其对样品的组织亚型也不敏感。这可使用Pearson相关系数进行评估。可以进行这些相关搜索来鉴定从文献中无法获知，但在甲状腺亚型之间显示出一致的表达并与已知标志物良好相关的其他潜在标志物。

在一些情况下，可以确定具有强的无差别信号的一种或多种标志物。这些标志物的平均归一化表达水平可以用于生成特定组织或靶组织类型如本文所述的血液或滤泡细胞的统计值。该统计值也可用于推断特定靶组织在含有该组织的任何样品集中的相对强度。该方法可应用于任何其他异源细胞混合物的情况。

以这种方式得到的统计值可用来推断由特定靶组织所引起的基因信号的相对强度。该统计值可以在开发该统计值的经验截断值中使用，并且可以用作(a)质量控制机制，以除去具有特定靶组织含量不足的样品，或(b)使用关于样品的特定组织含量的信息修改恶性肿瘤的测试后风险估计值，并作为特定组织含量的函数有效地建立分类器决策截断边界。

此外，使用线性建模方法，统计值可用于调整其表达与混合物中特定组织或细胞的量相关的基因的表达水平。这可有助于搜索在目的变量中差异表达的基因。使用标准的线性建模方法，该统计值可以作为协变量加入到方程式中：

Y～表型+统计值

其中Y是给定标志物的表达强度。然后可以在针对特定靶组织含量的差异进行调整之后使用标准方法如LIMMA来鉴定由表型差异表达的基因。此外，新样品的强度谱可针对统计值的观测水平进行调整，以恢复真实表达谱，该真实表达谱在代表纯样品状态的统计值的给定目标值下表征给定样品的表达强度。

这可以使用如先前在专利申请12/964,666中所描述的科技因子去除模型来完成。在一些情况下，目的标志物的表达水平可以预先使用训练数据建模为Y～表型+统计值，并且该模型的系数被视为已知的和固定的。在由样品产生的真实数据集中，数千种标志物可能对统计值变量显示出显著的依赖性。对统计值的依赖性的系数可表示为β。此外，在“纯的”非污染状态，样品可具有“目标”统计值F_t。对于具有滤泡统计值F的引入测试样品，在目标滤泡统计水平下该标志物的预测强度值可以是Y_adj＝Y+(F_t-F)*β。在本公开内容的另一实施方案中，这些调整的强度值可用作分类器的输入来代替观测强度值。

(ix)组织组分的表征：血含量

甲状腺FNA可以是包含不可知的比例的不同细胞混合物的异源样品。在一些情况下，FNA样品可能含有污染物，诸如在活检期间可伴随样品的全血。各种标志物的表达可用于告知在给定样品中的污染的水平。该信息可用作质量控制衡量标准以拒绝具有高污染的样品或调整分类器的截断值。这种质量控制衡量标准可被称作“血液统计值”。在一些情况下，标志物的选择可来源于在文献中已知的标志物。在一些情况下，标志物的选择可来源于先前表征的样品的数据或实验数据。

通常，血液统计值在全血是疑似污染物的任何异源样品的分析中可以是适用的或有用的。在一些情况下，异源样品不限于甲状腺癌，除了任何细胞混合物，或异源肿瘤等。

(x)组织组分的表征：滤泡含量

鉴于甲状腺FNA样品的一般异质性，也可以确定样品的滤泡含量。在一些情况下，不是所有存在于FNA中的细胞类型都能对良性相对于恶性分类提供信息。根据结节的性质和抽吸的精确部位，可能未对足够的甲状腺滤泡细胞(相对于基质细胞、淋巴细胞、胶质或纤维变性组织)进行取样，从而对结节的性质产生不完全/不准确的概况。在一些情况下，标志物的选择可来源于在文献中已知的标志物。在一些情况下，标志物的选择可来源于先前表征的样品的数据或实验数据。

(xi)计算机模拟混合物建模

通常，样品分析的再现性是本公开内容的重要特征。本公开内容还提供了计算机模拟混合物建模以提高再现性的应用，由此来自混合样品的观测信号可用来重建纯组分的比例。这使用已知比例的混合的体外结果进行验证。

多项研究已探索了混合独立的RNA来源对产生微阵列信号的影响(AffymetrixWhitePaper“HumanGene1.0STArrayperformance”,2007；Robinson&Speed,2007；Chudova,2010)。在一些情况下，混合的RNA的信号可通过未混合的RNA来源的信号的线性组合来近似获得，除非该基因信号落入背景范围或在较高强度水平下变得饱和。在体外混合研究中生成的数据可用来证实用于在计算机中近似获得混合物信号的分析模型的选择。该模型选择对于由给定分子测试使用的标志物(转录物簇)可能是特异性的。

可以使用用于对混合样品测得的表达强度的两个备选分析模型并将其与实际观测的纯RNA来源的体外混合物的强度信号进行比较。

在第一个模型中，M₀可以是在原始(未对数转化的)强度空间中对应于来源的线性混合的空值模型。这是先前使用的模型，是本领域已知的。这个模型可在较高强度范围下适用或适用于纯样品之间的具有高对数倍数变化的基因[在这种情况下，良性和恶性状况]，其中乘性噪声在至少一种混合物组分中占主导地位。

在第二个模型中，M₁可以是假设在对数转化空间中来源的线性混合的备选模型。

这两种模型可以在其预测良性和恶性组织的实际混合物的观测强度谱的能力方面进行比较。在一些情况下，所述恶性组织可以是具有正常邻近甲状腺组织的FNA。可基于在两个备选模型下目的标志物的实测对数转化的和归一化的信号的可能性进行模型的比较。

在一些情况下，模型设定可使用以下方程式来确定。可以被定义为非混合样品A的分位数归一化的和对数转化的汇总潜在强度向量；可以被定义为非混合样品B的分位数归一化的和对数转化的汇总潜在强度向量。α可以被定义为非混合样品A在混合Y中的混合比例。在空值模型和备选模型下的混合样品Y的信号分布可以表示如下：

\begin{matrix} M_{0} : P (Y | α, Y_{A}^{T}, Y_{B}^{T}) = Π_{g = 1}^{G} N (\log_{2} (α * 2^{Y_{A g}^{T}} + (1 - α) * 2^{Y_{B g}^{T}}), σ^{2}) \\ M_{1} : P (Y | α, Y_{A}^{T}, Y_{B}^{T}) = Π_{g = 1}^{G} N (α * Y_{A g}^{T} + (1 - α) * Y_{B g}^{T}, σ^{2}) \end{matrix}

其中G是在Afirma-T分子分类器中的标志物的总数，σ²是技术重复的对数转化强度值的方差(两种模型下均相同)，N(μ,σ^2`)是具有平均值μ和方差σ²的正态分布。在Afirma-T芯片上运行的先验技术重复的分析表明，强度值的标准偏差可以被估计为σ＝0.15，这对于两个备选模型都将被视为固定值。

尽管可以预先指定一些混合比例，但是在产生的混合物中的实际比例可能依赖于总RNA在非混合来源中的定量准确度和移液的准确度。混合比例α可以被视为以设计中指定的混合比例为中心的随机变量。在M₀和M₁两种模型下，混合比例可以被给予相同的Beta先验(Betaprior)。先验混合物j的两个参数被设定为确保平均值匹配通过混合物j的设计指定的混合比例：

P(α_j)＝Beta(A_j*B,(1-A_j)*B)

在这种情况下，j为实验混合物的数目(j＝1,…,7)，B为先验的强度(采取B＝20)。

为了进行模型比较，可在这两种模型下计算相关标志物在实验混合物中的观测强度的边缘相似性。对于通过QC要求的每个实验混合物，在给出非混合组分的观测信号和的情况下，通过整合出混合比例可计算边缘相似性。

可进一步评估针对实验混合物产生更高边缘相似性的模型与针对体外混合物的线性分类器得分的一致性。具体而言，在给出非混合RNA和每一实验混合物的观测信号的情况下，可生成线性分类器得分的预测分布。在一些情况下，如果观测到的得分落入预测分布的平均值0.28以内，则该模型可被接受为足够精确地近似于线性分类器得分。在一些情况下，如果观测到的得分落入预测分布的平均值0.1、0.2、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29、0.30、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.38、0.39或0.4以内，则该模型可被接受。这个值可由先导数据来确定。

目的标志物的模型预测和观测数据之间的均方差的评估可作为用于细化分析模型的附加探索性分析的一部分来完成。

(xii)分类错误率

可将排名前列的生物标志物(例如，甲状腺生物标志物)细分为箱元(bin)(例如，每个箱元50种TCID)，以证明达到小于4％的总体分类错误率所需基因的最小数目。用于分类的原始TCID对应于AffymetrixHumanExon1.0ST微阵列芯片，并且每一个可映射到超过一个基因或根本不映射到基因(Affymetrixannotationfile:HuEx-1_0-st-v2.na29.hg18.transcript.csv)。当没有基因映射TCID时，生物标志物被标示为TCID-######。

IX.组合物

(i)本公开内容的基因表达产物和剪接变体

分子谱分析也可包括但不限于本公开内容的测定，包括对以下一种或多种的测定：蛋白质、蛋白质表达产物、DNA、DNA多态性、RNA、RNA表达产物、RNA表达产物水平，或图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27所提供的基因或标志物的RNA表达产物剪接变体。在一些情况下，本公开内容的方法提供通过至少约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、240、280、300、350、400、450、500、600、700、800、1000、1500、2000、2500、3000、3500、4000、5000种或更多种DNA多态性、表达产物标志物和/或可变剪接变体标志物的分子谱分析来改善癌症诊断。

分子谱分析可包括微阵列杂交，进行微阵列杂交是为了确定选自图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27的一个或多个基因的基因表达产物水平。在一些情况下，来自一个组的一个或多个基因的基因表达产物水平与另一个组或多个组中的一个或多个基因的基因表达产物水平进行比较。仅作为一个例子且非限制性地，基因TPO的表达水平可与基因GAPDH的表达水平进行比较。在另一情况下，针对与以下一个或多个代谢途径或信号传导途径有关的一个或多个基因测定其基因表达水平：甲状腺激素产生和/或释放、蛋白质激酶信号传导途径、脂质激酶信号传导途径和细胞周期蛋白。在一些情况下，本公开内容的方法提供对1种、2种、3种、4种、5种、6种、7种、9种、10种、11种、12种、13种、14种或15种或更多种不同代谢途径或信号传导途径的至少一个基因的基因表达产物水平和/或选择性外显子使用的分析。

(ii)本公开内容的组合物

本公开内容也提供本发明的组合物，所述组合物包含以下一种或多种：对应于图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27所提供的基因或基因的一部分的多核苷酸(例如，DNA或RNA)，和对应于图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27所提供的基因的互补序列或基因互补序列的一部分的核苷酸(例如，DNA或RNA)。本公开内容提供了探针的集合，诸如可与以下生物标志物结合的探针集：在图4、表1、表2、表3、表4、表5、表9、10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的约1至约500种生物标志物；例如在图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中确定的约1-500、1-400、1-300、1-200、1-100、1-50、1-25、1-10、10-500、10-400、10-300、10-200、10-100、10-50、10-25、25-500、25-400、25-300、25-200、25-100、25-50、50-500、50-400、50-300、50-200、50-100、100-500、100-400、100-300、100-200、200-500、200-400、200-300、300-500、300-400、400-500、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500种生物标志物。

本公开内容的核苷酸(包括探针)可为至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、100、150、200、250、300、350或约400或500个核苷酸的长度。本公开内容的核苷酸(包括探针)可为约10-500个残基或更多；例如，约10-500、10-200、10-150、10-100、10-75、10-50、10-25、25-500、25-200、25-150、25-100、25-75、25-50、50-500、50-200、50-150、50-100、50-75、75-500、75-200、75-150、75-100、100-500、100-200、100-150、150-500、150-200、200-500、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475或500个核苷酸或更多。所述核苷酸可以是核糖核酸或脱氧核糖核酸的天然或人工衍生物，包括但不限于肽核酸、吡喃糖基RNA(pyranosylRNA)、核苷、甲基化核酸、聚乙二醇化核酸、环核苷酸和化学修饰的核苷酸。本公开内容的核苷酸可被化学修饰从而包括可检测标记。来源于生物样品(例如，DNA、RNA、蛋白质，等等)的生物样品或基因表达产物可被化学修饰从而包括标记。

本发明的其他组合物包含用于检测和/或测定对应于图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27中提供的标志物或基因的基因表达产物的寡核苷酸和/或其互补序列。本公开内容的其他组合物包含用于检测和/或测定基因的多态性等位基因的基因表达产物的寡核苷酸和其互补序列。这样的多态性等位基因包括但不限于剪接位点变体、单核苷酸多态性、可变数目重复序列多态性、插入、缺失和同源物。在一些情况下，变异等位基因与图4中所列的基因约99.9％到约70％相同，包括大约、低于约或大于约99.75％、99.5％、99.25％、99％、97.5％、95％、92.5％、90％、85％、80％、75％和约70％相同。在一些情况下，变异等位基因与图4提供的基因相差约1个核苷酸到约500个核苷酸，包括大约、少于约或多于约1、2、3、5、7、10、15、20、25、30、35、50、75、100、150、200、250、300和约400个核苷酸。

在一些情况下，本公开内容的组合物可选自类别(例如，良性和恶性样品；正常的和良性或恶性样品；一种或多种特定组织类型如HA和/或HC的存在与不存在；雄性的和雌性的；突变体和野生型)之间排名前列的差异表达的基因产物，或(例如，良性和恶性样品；正常的和良性或恶性样品；一种或多种特定组织类型如HA和/或HC的存在与不存在；雄性的和雌性的；突变体和野生型)之间排名前列的差异剪接的基因产物。在一些情况下，所述排名前列的差异表达的基因产物可选自图4、表1、表2、表3、表4、表5、表9、表10、表11、表12、表14、表15、表18、表19、表23、表24、表25、表26和表27。

(iii)疾病和病状

在一些情况下，本发明的方法和算法用于诊断、表征、检测、排除和/或监测甲状腺癌。甲状腺癌包括任何类型的甲状腺癌，包括但不限于任何甲状腺恶性肿瘤，例如乳头状甲状腺癌、滤泡性甲状腺癌、甲状腺髓样癌和/或甲状腺未分化癌。在一些情况下，甲状腺癌是分化的。在一些情况下，甲状腺癌是未分化的。在一些情况下，本方法用于诊断、表征、检测、排除和/或监测一种或多种以下类型的甲状腺癌：乳头状甲状腺癌(PTC)、乳头状甲状腺癌的滤泡变型(FVPTC)、滤泡性癌(FC)、许特尔细胞癌(HC)或甲状腺髓样癌(MTC)。

可使用本公开内容的算法和方法来诊断、表征和/或检测的其他类型的癌症包括但不限于：肾上腺皮质癌、肛门癌、再生障碍性贫血、胆管癌、膀胱癌、骨癌、骨转移、中枢神经系统(CNS)癌、周围神经系统(PNS)癌、乳腺癌、Castleman病、宫颈癌、儿童非霍奇金淋巴瘤、淋巴瘤、结肠直肠癌、子宫内膜癌、食道癌、尤因肿瘤家族(例如尤因肉瘤)、眼癌、胆囊癌、胃肠道类癌瘤、胃肠道间质肿瘤、妊娠滋养细胞疾病、毛细胞白血病、霍奇金病、卡波西肉瘤、肾癌、喉癌和下咽癌、急性淋巴细胞性白血病、急性髓样白血病、儿童白血病、慢性淋巴细胞性白血病、慢性髓样白血病、肝癌、肺癌、肺类癌瘤、非何杰金淋巴瘤、男性乳腺癌、恶性间皮瘤、多发性骨髓瘤、脊髓增生异常综合征、骨髓增生性疾病、鼻腔和鼻旁癌、鼻咽癌、神经母细胞瘤、口腔和口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤(成人软组织癌)、黑色素瘤皮肤癌、非黑色素瘤皮肤癌、胃癌、睾丸癌、胸腺癌、子宫癌(例如子宫肉瘤)、阴道癌、外阴癌和瓦尔登斯特伦巨球蛋白血症。

使用生物标志物组的表达谱分析可用于将甲状腺组织表征为良性、疑似和/或恶性的。所述组可来源于对包含良性(非癌性)甲状腺亚型和恶性亚型的群组的基因表达水平的分析，所述良性甲状腺亚型包括滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)和许特尔细胞腺瘤(HA)；所述恶性亚型包括滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、Hürthle细胞癌(HC)和甲状腺未分化癌(ATC)。此类组也可来源于非甲状腺亚型，所述亚型包括肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)和甲状旁腺(PTA)。与正常甲状腺组织(NML)相关的生物标志物组也可在本文提供的方法和组合物中使用。图2提供了示例性的生物标志物组，本文将对其进行进一步描述。注意，图2列出的每个组涉及与特定病理学或描述的样品相关的生物标志物表达(例如，基因表达)的特征或模式。

本公开内容还提供了通过迭代过程(例如，鉴别诊断)来鉴定异常细胞增殖的类型的新方法和组合物，所述异常细胞增殖例如是癌，包括滤泡性癌(FC)、乳头状甲状腺癌的滤泡变型(FVPTC)、许特尔细胞癌(HC)、许特尔细胞腺瘤(HA)；乳头状甲状腺癌(PTC)、甲状腺髓样癌(MTC)和未分化癌(ATC)；腺瘤，包括滤泡性腺瘤(FA)；结节增生(NHP)；胶质结节(CN)；良性结节(BN)；滤泡性瘤(FN)；淋巴细胞性甲状腺炎(LCT)，包括淋巴细胞性自身免疫性甲状腺炎；甲状旁腺组织；肾癌甲状腺转移；黑色素瘤甲状腺转移；B细胞淋巴瘤甲状腺转移；乳腺癌甲状腺转移；良性(B)肿瘤、恶性(M)肿瘤和正常(N)组织。本公开内容还提供了在细胞增殖的表征、诊断和/或治疗中有用的新基因表达标志物和新基因和标志物组群。此外，本公开内容还提供用于提供细胞增殖的强化诊断、鉴别诊断、监测和治疗的商业方法。

在一些实施方案中，通过本公开内容的方法分类、表征或诊断的疾病或病状包括良性和恶性过增生性病症，包括但不限于癌症、增生或肿瘤。在一些情况下，通过本公开内容的方法分类、表征或诊断的过增生性病症包括但不限于：乳腺癌，比如乳腺导管组织中的导管癌、髓样癌、胶质癌、小管癌和炎性乳腺癌；卵巢癌，包括上皮性卵巢肿瘤，比如卵巢中的腺癌和从卵巢转移到腹腔的腺癌；子宫癌；宫颈癌，比如宫颈上皮中的腺癌，包括鳞状细胞癌和腺癌；前列腺癌，比如选自以下的前列腺癌：腺癌或转移到骨的腺癌；胰腺癌，比如胰管组织中的上皮样癌和胰腺管中的腺癌；膀胱癌，比如膀胱中的移行细胞癌、尿路上皮癌(移行细胞癌)、内衬于膀胱的尿路上皮细胞中的肿瘤、鳞状细胞癌、腺癌和小细胞癌；白血病，比如急性髓样白血病(AML)、急性淋巴细胞白血病、慢性淋巴细胞白血病、慢性髓样白血病、毛细胞白血病、脊髓发育不良、骨髓增生性疾病、急性髓性白血病(AML)、慢性髓性白血病(CML)、肥大细胞增多症、慢性淋巴细胞白血病(CLL)、多发性骨髓瘤(MM)和骨髓增生异常综合征(MDS)；骨癌；肺癌，如非小细胞肺癌(NSCLC)，其分为鳞状细胞癌、腺癌和大细胞未分化癌，以及小细胞肺癌；皮肤癌，如基底细胞癌、黑色素瘤、鳞状细胞癌和光化性角化病，这是一种皮肤病，有时发展成鳞状细胞癌；眼睛视网膜母细胞瘤；皮肤或眼内(眼睛)黑色素瘤；原发性肝癌(起始于肝脏的癌症)；肾癌；艾滋病相关淋巴瘤，如弥漫性大B细胞淋巴瘤、B细胞免疫母细胞性淋巴瘤和小无裂细胞淋巴瘤；卡波西肉瘤；病毒诱发性癌症，包括乙型肝炎病毒(HBV)、丙型肝炎病毒(CBV)和肝细胞癌；1型人嗜淋巴细胞病毒(HTLV-1)和成人T细胞白血病/淋巴瘤；以及人乳头状瘤病毒(HPV)和宫颈癌；中枢神经系统癌(CNS)，如原发性脑肿瘤，其包括神经胶质瘤(星形细胞瘤、间变性星形细胞瘤或多形性胶质母细胞瘤)、少突神经胶质瘤、室管膜瘤、脑膜瘤、淋巴瘤、神经鞘瘤和髓母细胞瘤；周围神经细胞(PNS)癌，如听神经瘤和恶性周围神经鞘瘤(MPNST)，包括神经纤维瘤和神经鞘瘤、恶性纤维细胞瘤、恶性纤维组织细胞瘤、恶性脑膜瘤、恶性间皮瘤和恶性混合Müllerian瘤；口腔癌和口咽癌，如下咽癌、喉癌、鼻咽癌和口咽癌；胃癌，如淋巴瘤、胃基质瘤和类癌瘤；睾丸癌，如生殖细胞肿瘤(GCT)(其包括精原细胞瘤和非精原细胞瘤)和性腺基质细胞瘤(其包括莱迪希细胞瘤和塞尔托利细胞瘤)；胸腺癌，如胸腺瘤、胸腺癌和霍奇金病，非霍奇金淋巴瘤类癌瘤或类癌瘤；直肠癌；以及结肠癌。在一些情况下，通过本公开内容的方法分类、表征或诊断的疾病或病状包括但不限于甲状腺病，比如良性甲状腺病，包括但不限于滤泡性腺瘤、许特尔细胞腺瘤、淋巴细胞性甲状腺炎和甲状腺增生。在一些情况下，通过本公开内容的方法分类、表征或诊断的疾病或病状包括但不限于恶性甲状腺病，例如滤泡性癌、乳头状甲状腺癌的滤泡变型、髓样癌和乳头状癌。在一些情况下，本公开内容的方法提供将组织分类、表征或诊断为病变或正常的。在其他情况下，本公开内容的方法提供正常、良性或恶性的分类、表征或诊断。在一些情况下，本公开内容的方法提供良性/正常或恶性的分类、表征或诊断。在一些情况下，本公开内容的方法提供本文所提供的一种或多种特定疾病或病状的分类、表征或诊断。

一方面，本公开内容提供了可用于分类、表征或诊断和监测遗传病的算法和方法。遗传病是由基因或染色体异常引起的疾病。而一些疾病，例如癌症，部分归因于遗传病，它们也可由环境因素引起。在一些情况下，本文公开内容的算法和方法用于癌症如甲状腺癌的分类、表征或诊断和监测。

遗传病通常可以分为两类：单基因病及多因子和多基因(复杂)病。单基因病是单个突变基因的结果。据估计有超过4000种人类疾病由单基因缺陷引起。单基因病可以以几种方式遗传给后代。单基因病的遗传有几种类型，包括但不限于常染色体显性、常染色体隐性、X连锁显性、X连锁隐性、Y连锁和线粒体遗传。仅基因的一个突变拷贝就可使人患上常染色体显性病症。常染色体显性类型的病症的例子包括但不限于亨廷顿氏病、神经纤维瘤病1型、马方综合征、遗传性非息肉性结肠直肠癌和遗传性多发性外生骨疣。在常染色体隐性病症中，可以突变基因的两个拷贝以使人患上常染色体隐性病症。这一类型的病症的例子包括但不限于囊性纤维化、镰状细胞病(以及部分镰状细胞病)、泰-萨克斯(Tay-Sachs)病、Niemann-Pick病、脊髓性肌萎缩和干耳垢。X连锁显性病症由X染色体上的基因突变引起。只有少数病症具有这种遗传模式，其主要的例子是X连锁低血磷性佝偻症。男性和女性都受这些病症的影响，通常男性所受影响比女性更严重。一些X连锁显性病状例如Rett综合征、2型色素失调症和艾卡迪(Aicardi)综合征对于男性而言在子宫内或出生后不久可能是致死性的，因此主要在女性中观察到。X连锁隐性病症也可能由X染色体上的基因突变所引起。这一类型的病症的例子包括但不限于血友病A、迪谢内(Duchenne)肌营养不良、红绿色盲、肌营养不良和雄激素性脱发。Y连锁病症可由Y染色体上的突变引起。其例子包括但不限于男性不育症和耳廓多毛症(hypertrichosispinnae)。线粒体遗传，又称为母体遗传，适用于线粒体DNA中的基因。这一类型的病症的例子是Leber遗传性视神经病变。

遗传病症也可以是复杂的、多因子的或者多基因的。多基因遗传病可能与多基因的效应结合生活方式和环境因素有关。虽然复杂病症经常在家族中集中出现，但他们可能缺乏明确的遗传模式。这可使得难以确定人遗传获得这些病症或将这些病症遗传给后代的风险。复杂病症还可能是难以研究和治疗的；在一些情况下，因为引起大部分这些病症的具体因素还没有被确认。可以用本公开内容的算法和方法诊断、表征和/或监测的多因子或多基因病症包括但不限于心脏病、糖尿病、哮喘、孤独症、自身免疫性疾病如多发性硬化、癌症、纤毛疾病(ciliopathies)、腭裂、高血压、炎性肠病、精神发育迟滞和肥胖。

可以用本公开内容的算法和方法诊断、表征和/或监测的其他遗传病包括但不限于1p36缺失综合征、21-羟化酶缺乏症、22q11.2缺失综合征、47,XYY综合征、48,XXXX、49,XXXXX、无铜蓝蛋白血症(aceruloplasminemia)、II型软骨成长不全、软骨发育不全、急性间歇性卟啉症、腺苷酸琥珀酸裂解酶缺陷、肾上腺脑白质营养不良、ALA缺陷性卟啉症、ALA脱水酶缺陷、亚历山大病(Alexanderdisease)、黑尿酸尿症、α-1抗胰蛋白酶缺陷、阿耳斯特雷姆(Alstrom)综合征、阿尔茨海默病(1、2、3和4型)、釉质形成不全、肌萎缩侧索硬化、2型肌萎缩侧索硬化、4型肌萎缩侧索硬化、4型肌萎缩侧索硬化、雄激素不敏感综合征、贫血、Angelman综合征、阿佩尔(Apert)综合征、共济失调毛细血管扩张、比尔-史蒂文生皮肤回旋综合征(Beare-Stevensoncutisgyratasyndrome)、本杰明综合征、β地中海贫血、生物素酶缺陷、Birt-Hogg-Dubé综合征、膀胱癌、布卢姆(Bloom)综合征、骨疾病、乳腺癌、CADASIL、屈肢骨发育不全(Camptomelicdysplasia)、卡纳万(Canavan)病、癌症、乳糜泻、CGD慢性肉芽肿病、夏科-马里-图斯(Charcot-Marie-Tooth)病、1型夏科-马里-图斯病、4型夏科-马里-图斯病、2型夏科-马里-图斯病、4型夏科-马里-图斯病、科凯恩(Cockayne)综合征、科-勒二氏(Coffin-Lowry)综合征、II型和XI型胶原病(collagenopathy)、结肠直肠癌、先天性输精管缺如、先天性双侧输精管缺如、先天性糖尿病、先天性红细胞生成性卟啉症、先天性心脏病、先天性甲状腺功能减退、结缔组织病、考登(Cowden)综合征、猫叫样哭泣(Criduchat)、克罗恩病、纤维性狭窄病(fibrostenosing)、克鲁宗(Crouzon)综合征、Crouzonodermoskeletal综合征、囊性纤维化、德格罗契(DeGrouchy)综合征、退行性神经病、登特(Dent)病、发育障碍、迪格奥尔格(DiGeorge)综合征、V型远端脊髓性肌萎缩、唐氏综合征、侏儒症、埃勒斯-丹洛斯(Ehlers-Danlos)综合征、关节松弛型埃勒斯-丹洛斯(Ehlers-Danlos)综合征、经典型埃勒斯-丹洛斯综合征、皮肤脆裂型埃勒斯-丹洛斯综合征、脊柱后凸侧弯型脉管型埃勒斯-丹洛斯综合征、红细胞生成性原卟啉症、法布瑞氏(Fabry)病、面部损伤和病症、因子VLeiden血栓形成倾向、家族性腺瘤性息肉病、家族性自主神经异常、范科尼(fanconi)贫血、FG综合征、脆性X染色体综合征、弗里德赖希共济失调(Friedreichataxia)、弗里德赖希氏共济失调、G6PD缺陷、半乳糖血症、戈谢(Gaucher)病(1、2和3型)、遗传性脑病、甘氨酸脑病、2型血色素沉着症、4型血色素沉着症、丑角样鱼鳞病(HarlequinIchthyosis)、头脑畸形、听力障碍和耳聋、儿童听力问题、血色沉着病(新生儿、2型和3型)、血友病、肝红细胞生成性卟啉症、遗传性粪卟啉症、遗传性多发性外生骨疣、遗传性压迫易感性神经病、遗传性非息肉性结肠直肠癌、高胱氨酸尿症、亨廷顿病、早年衰老综合征(Hutchinson-GilfordProgeriasyndrome)、原发性高草酸尿症、高苯丙氨酸血症、软骨形成不足、软骨发育不良、idic15、色素失调症、婴儿型戈谢病、婴儿-发作上升型遗传性痉挛性瘫痪(infantile-onsetascendinghereditaryspasticparalysis)、不育症、Jackson-Weiss综合征、朱伯特(Joubert)综合征、青少年原发性侧索硬化、肯尼迪(Kennedy)病、Klinefelter综合征、Kniest发育不全、Krabbe病、学习障碍(Learningdisability)、Lesch-Nyhan综合征、脑白质营养不良、Li-Fraumeni综合征、家族性脂蛋白脂酶缺陷、男性生殖器障碍、马方综合征、McCune-Albright综合征、McLeod综合征、家族性地中海热、MEDNIK、Menkes病、Menkes综合征、代谢障碍、β-球蛋白型高铁血红蛋白血症、先天性高铁血红蛋白血症、甲基丙二酸血症、Micro综合征、小头畸形、运动障碍、Mowat-Wilson综合征、粘多糖贮积病(MPSI)、Muenke综合征、肌营养不良、Duchenne和Becker型肌营养不良症、Duchenne和Becker型肌萎缩症、肌强直性营养不良、1型和2型肌强直性营养不良、新生儿血色病、神经纤维瘤病、神经纤维瘤病1、神经纤维瘤病2、I型神经纤维瘤病、II型神经纤维瘤病、神经病、神经肌肉障碍、Niemann-Pick病、非酮性高甘氨酸血症、非综合征型耳聋、常染色体隐性非综合征型耳聋、Noonan综合征、成骨不全(I型和III型)、耳脊椎骨骺发育不良(otospondylomegaepiphysealdysplasia)、泛酸激酶-相关神经退行性变、Patau综合征(13染色体三体)、Pendred综合征、Peutz-Jeghers综合征、Pfeiffer综合征、苯丙酮尿症、卟啉症、迟发性皮肤卟啉症、Prader-Willi综合征、原发性肺动脉高压、朊病毒病、早衰、丙酸血症、蛋白C缺陷、蛋白S缺陷、假性戈谢病(pseudo-Gaucherdisease)、弹性假黄瘤、视网膜病、视网膜母细胞瘤、视网膜母细胞瘤FA-弗里德赖希共济失调、Rett综合征、Rubinstein-Taybi综合征、SADDAN、Sandhoff病、感觉和自主神经病III型、镰状细胞性贫血、骨骼肌再生、皮肤色素沉着异常、SmithLemliOpitz综合征、语言和交流障碍、脊髓性肌萎缩、脊髓延髓肌萎缩、脊髓小脑共济失调、Strudwick型脊椎干骺端发育不良、先天性脊椎干骺端发育不良、Stickler综合征、Stickler综合征COL2A1、Tay-Sachs病、四氢生物蝶呤缺陷、致死性发育不良、硫胺反应性巨幼细胞性贫血伴糖尿病和感觉神经性耳聋、甲状腺病、Tourette综合征、TreacherCollins综合征、X染色体三体综合征、结节性硬化、Turner综合征、Usher综合征、多样性卟啉病、vonHippel-Lindau病、Waardenburg综合征、Weissenbacher-Zweymüller综合征、Wilson病、Wolf-Hirschhorn综合征、着色性干皮病、X-连锁重度联合免疫缺陷、X-连锁铁粒幼细胞性贫血和X-连锁脊髓延髓肌萎缩。

X.使用RNA-SEQ数据的突变检测

本公开内容的组合物和方法还提供了通用数据分析工具，其可用于使用RNA-SEQ数据提高一种或多种测定或测试的灵敏度和/或选择性。这些方法可适用于多种应用，包括但不限于疾病如癌症的样品分析。癌症可包括但不限于如本文所述的淋巴瘤或甲状腺癌。

通常，一种或多种算法如突变判定器(caller)可用于下一代DNA序列(DNA-Seq)数据集，以检测突变。然而，用于下一代RNA序列(RNA-Seq)数据的这类算法是受限制的，并且通常受限于难点和偏倚，诸如：1)与对于其他基因的高深度覆盖相比，对于一些基因的低覆盖(读取的总数)，和/或2)由文库制备、比对假像和/或其他测序假像引起的技术变异。本公开内容提供了用于鉴定和去除由技术变异引起的突变判定的改进方法。在本文所述的方法中，可以鉴定可能的体细胞变体，由此可在预处理步骤中除去生物群体变异。

在一些情况下，本公开内容提供了现有的算法或工具如本领域已知的GATK或samtools，以用于在对齐的RNA-Seq读取值中在多个样品间或在每一样品的基础上检测突变。在一些情况下，检查产生的输出并过滤出在正在研究的群体的种系DNA中也观测的突变判定可随后用于富集罕见的和体细胞的变体。这些突变可由于自然生物变异性而发生，并且可以通过在受影响的样品中发现的突变与跨参考样品观察到的突变的交叉相关基因组坐标来去除。在一些情况下，所述参考样品可包含至少1、10、100或1000个基因组。在一些情况下，所述参考样品可包含至多1、10、100或1000个基因组。在一些情况下，参考可按照由本领域公知的“1000基因组计划”所提供的那样来使用。在一些情况下，可以鉴定并过滤由技术变异性引起的假阳性突变判定。通常，文库制备和比对方法可导致技术变异性。

通常，跨样品的技术假像或技术变异性可通过分析并比较两个或更多个不同样品群组来鉴定。在一个实例中，通过比较受影响的样品中的基因组坐标或碱基位置与突变判定的基因组坐标或碱基位置来分析甲状腺样品群组，该突变判定使用第二个非甲状腺样品群组的类似的文库制备方法、类似的比对和类似的突变判定程序来产生。选择所述第二个样品群组以使得不希望携带与第一个目的群组相同的体细胞突变谱。

例如，以下方法可用来检测突变。在第一步中，可用编码序列的基因组坐标创建BED文件。接着，可用突变判定器在前一步骤中构建的目的区域内鉴定跨所有样品的突变(即，单一样品模式的samtools，或同时跨多个样品的GATK)。突变随后可与在1000基因组计划中跨>1000个个体观测到的正常生物变异进行比较，以使得检测到的单独变体与在正常种系DNA中没有检测到的单独变体进行比较。

在一些情况下，将在正常种系DNA中不鉴定为突变的变体保留，并进一步与另一参考的突变判定进行比较。通常，可以使用合适的参考以使得该参考有助于鉴定假阳性突变。在一个实例中，参考可以利用来自特定组织的样品来产生。在一些情况下，参考可用至少40个非甲状腺样品如胰腺、脑等来产生。与一个或多个参考的比较可去除技术文库制备和比对假像，并排除那些作为可能的假阳性的位点。在一些情况下，此方法可能不依赖于在非甲状腺和甲状腺中任何给定的转录物的相对表达水平(例如，在非甲状腺中唯一未表达的基因可不被滤出，并且会在候选突变判定池中保留)。

数据随后可跨多个样品聚集，并基于质量、链偏倚、变异等位基因频率和预测的变体影响等进行附加的过滤。在一些情况下，这可在后处理步骤的R层进行。聚集和过滤的数据可用于生成反映判定的突变的谱或突变谱，如图19-23所示。

在一些情况下，使用在疾病如癌症中的体细胞变异的已知位点的COSMIC数据库，突变判定可用于生成谱。在一些情况下，基于质量、变体的影响、链偏倚等可进行更多的过滤。

XI.3’-5’-扩增偏倚归一化

本公开内容还提供了用于归一化易受3’扩增偏倚影响的微阵列数据的组合物和方法。这些方法可适用于多种应用，包括但不限于癌症如本文所述的淋巴瘤或甲状腺的样品分析。

通常，核酸扩增可以引入对产生的扩增子的相对丰度的3’偏倚。通常，核酸如表达的mRNA转录物从来自受试者的样品中分离并进一步扩增。在一些情况下，mRNA转录物可使用RT-PCR和PCR或本文所述的其他方法的组合进行扩增以产生扩增产物。扩增可用一个或多个探针辅助。在一些情况下，扩增产物可以在微阵列上进行分析。在一些情况下，微阵列探针的强度信号可作为探针距转录物3’端的距离的函数系统地变化。在一些情况下，这可能由于在核酸模板的3’末端以外缺乏引发位点而发生。与此相反，远离给定模板3’末端的引发位点可受益于聚合酶的持续合成能力，这可产生重叠相同区域的多个扩增子。在一些情况下，尽管在扩增期间使用随机六聚体和聚-dT引物的组合，但是当探针集强度信号被映射到其在转录物上的坐标时，可观测到t3’偏倚。一些转录物对3’末端引发和扩增的偏倚可表现出比其他转录物更大的灵敏度。在一些情况下，在实验之间使用不同的随机六聚体/聚-dT引物的比率可偏倚一个或多个实验之间的数据分析。例如，在一个或多个实验之间计算的基因表达信号可受3’末端扩增偏倚的影响。这个实验变异性可限制在临床诊断设置中数据再现性的应用。

本公开内容提供了组合物和方法，其使用来自在至少两个不同微阵列实验中运行的相同生物样品的数据，能够对所有转录物计算3’偏倚的程度，并应用归一化程序以校正所述3’偏倚。可以在转录物汇总之前用分位数归一化并随后用差异基因表达分析进行归一化。在一些情况下，所述组合物和方法提供了归一化程序，该程序进一步提供了可用于表征对于映射到单独mRNA转录物的给定探针的有效3’距离的输出潜在变量。随后可对阵列中的所有转录物内的所有探针计算此3’变量。在一些情况下，可以计算相对的或有效的距离值。在一些情况下，可鉴定每个转录物内的探针对有效3’距离的响应模式并用来训练算法。经训练的算法可用于归一化或调整使用已确定有效3’距离的探针生成的数据。

在一些情况下，该训练信息随后可用作分析中另一个步骤的输入，由此计算出的3’变量可用于通过标准化对这种新估计的因素的响应来归一化来自未来(或过去)实验的引入微阵列数据。该方法可用于归一化探针强度并可用于除去由3’偏倚引起的系统偏差，如根据经验用训练集对每一转录物所表征的。在一些情况下，3’变量可以是数据衍生的校正因子的集合，其可用以补偿与核酸扩增相关的技术变异性。

用于建立到转录物3’端的有效距离的本公开内容的组合物和方法可以以多种方式进行。这可包括但不限于以下：

A.方法1：基因组注释的使用

在一种方法中，基因组注释、RefSeq数据以及沿基因组坐标的阵列探针的位置可用来装配全长转录物，估计探针沿转录物长度的位置，并计算到转录物3’端的转录组(transcriptomic)距离。到3’端的转录组距离可用作有效距离。在一些情况下，如果扩增程序的响应主要由poly-A位点的位置来驱动，这可能是适用的。

B.方法2：现有poly-A位点注释的使用

在另一种方法中，现有的poly-A位点注释(polyA-DB，通过基因组浏览器可公开获得)和沿基因组坐标的阵列探针位置可用来装配全长转录物，估计探针沿转录物长度的位置，并计算到最近的下游poly-A位点的转录组距离。到poly-A位点的距离可用作有效距离；在转录物内不存在poly-A位点的情况下，特定代码可用于有效距离。在一些情况下，poly-A位点的使用可以是组织特异性的，并且现有的注释可主要基于基序搜索。

C.方法3：基于RNA-Seq数据的polyA位点的使用

在另一方法中，基于RNA测序数据的poly-A位点位置的现有数据库(HELICOS数据集)和沿所述基因组坐标的阵列探针位置可用来装配全长转录物，估计探针沿转录物长度的位置，并计算到转录物内的下游poly-A位点的中值加权距离，其通过与每个poly-A位点相关的读取计数进行加权。中值加权距离可用作有效距离。在组织特异性表达的一些情况下，测量可以在一种组织(例如，人肝)中完成。在一些情况下，单一的组织可能不提供对于在人肝中不表达的基因中poly-A位点的覆盖。在一些情况下，由于poly-A位点的使用是组织特异性的，甚至在表达的mRNA序列的情况下，所述位置在目的组织中可能是不同的。

D.方法4：在两个试剂批次之间的变异性的使用

在另一方法中，在显示出探针位置变异性的两个试剂批次下在特定微阵列平台上获得的目的组织的成对强度谱可用于装配全长转录物，估计探针沿转录物长度的位置，并计算到转录物内的最3’侧探针的相对转录组距离。随后可在转录物内进行探针的全转录物比对，以提供所述有效距离变量。

随后可估计初始近似值并与逐探针中值残差对探针相对位置的依赖性的形状进行比较。如本文所述的注释方法之一可用于计算有效距离变量的“初始近似值”。然后可进行一系列的计算，包括但不限于：计算每一样品每一探针的成对残差矩阵；计算跨样品的每一探针的中值残差；以及计算中值谱的中值残差对有效距离变量的初始近似值的依赖性。随后可对转录物进行比对。使用对于相同的生物样品在两个不同试剂批次下获得的强度谱，可将每个转录物的比对细化到有效距离变量。然后可进行另一系列的计算，包括但不限于：计算每一样品每一探针的成对残差矩阵和计算每一探针的中值残差。在一些情况下，随后可使用本文所述的一种方法来估计从一个或多个探针到最3’侧探针的固定相对距离。在一些情况下，可以假设在沿有效距离变量的不同位置处转录物内的最3’侧探针的比对，以便最小化客观标准，该客观标准考虑特定的比对来表征观测到的每一转录物的中值残差谱相对于在先前步骤中获得的从所有探针估计的中值谱的偏差。客观标准可包括但不限于均方差。在此步骤之后，可使用最佳比对来调整对于转录物内所有探针的有效距离。

E.归一化

在这些步骤之后，在一些情况下，可以考虑计算的距离对数据进行归一化。鉴于向有效距离变量分配探针，归一化程序可应用于使用多种扩增试剂产生的微阵列数据，以最小化由沿转录物长度的变量扩增引起的变异性。

一种这样的程序可基于分位数归一化方法。例如，一组来自特定试剂批次的微阵列可被指定为“归一化种子集”，可由其衍生归一化靶标分布。在分位数归一化的一般应用中，可对阵列上的整组探针衍生这样的分布。为了实现扩增偏倚的去除，可将探针分箱(binned)至就有效距离变量而言代表均一行为的足够大的探针组。这样的分组可通过把有效距离分箱至大小相等的箱元中(每个箱元含有足够数目的探针(～10K))或设计可变大小的箱元(其最小化箱元内的种子集谱的变异性)来实现。建立探针的这种分组之后，可以在每个箱元内应用分位数归一化，以便对在图23-27反映的归一化种子集之中该箱元内的探针的中值强度进行归一化。

然后，可将标准汇总方法应用到归一化探针强度并随后对汇总的强度应用任何基因表达分析方法。

XII.商业方法

如本文所述，术语客户或潜在客户是指可能使用分子谱分析企业(例如，实施本公开内容的方法的企业)的方法或服务的个体或机构。本文描述的分子谱分析方法和服务的潜在客户包括，例如患者、受试者、医师、细胞学实验室、健康护理提供者、研究人员、保险公司、政府机构例如医疗补助机构(Medicaid)、雇主或对实现用于诊断、监测和治疗癌症的更经济或有效的系统感兴趣的任何其他机构。

例如，所述各方可以利用分子谱分析结果来选择性地为可能从药物或治疗性干预中获得最大益处的患者指定药物或治疗性干预，或鉴别不会从不必要地使用药物或其他治疗性干预中受益或甚至可能受害的个体。

(i)销售方法

本公开内容的分子谱分析企业的服务可以例如作为增强诊断和医护的方法销售给关心其健康的个体、医师或其他医学专业人员；例如作为为客户提供增强诊断的服务销售给细胞学实验室；例如作为通过消除不当的治疗性干预而降低成本的方法销售给健康护理提供者、保险公司和政府机构。销售给潜在客户的方法还包括将数据库访问权销售给试图找到基因表达产物与疾病或病状之间的新相关性的研究人员和医师。

销售方法可以包括面向潜在客户使用基于印刷品、广播、电视或因特网的广告。可通过特定媒介向潜在客户推销，例如，可通过在包括但不限于以下的商业杂志和医学期刊中投放广告来向内分泌科医师推销：TheJournaloftheAmericanMedicalAssociation、PhysiciansPractice、AmericanMedicalNews、Consultant、MedicalEconomics、Physician’sMoneyDigest、AmericanFamilyPhysician、MonthlyPrescribingReference、Physicians’TravelandMeetingGuide、PatientCare、CortlandtForum、InternalMedicineNews、HospitalPhysician、FamilyPracticeManagement、InternalMedicineWorldReport、Women’sHealthinPrimaryCare、FamilyPracticeNews、Physician’sWeekly、HealthMonitor、TheEndocrinologist、JournalofEndocrinology、TheOpenEndocrinologyJournal以及TheJournalofMolecularEndocrinology。销售也可以采取与医学专业人员合作的形式，从而使用本公开内容的方法和服务进行实验，并在一些情况下公开结果或寻求进一步的研究资助。在一些情况下，销售方法可包括使用医师或医学专业人员数据库，例如，美国医学会(AMA)数据库，来确定联系信息。

在一种情况下，销售方法包括与细胞学测试实验室合作，从而向不能使用常规方法明确诊断其样品的客户提供分子谱分析服务。

(ii)使用计算机的方法

分子谱分析企业可以在本公开内容的方法中使用一台或多台计算机，例如图6中所示的计算机800。计算机800可用于管理客户和样品信息(例如样品或客户追踪)、数据库管理、用于分析分子谱数据、用于分析细胞学数据、储存数据、发帐单、销售、报告结果或储存结果。该计算机可以包括监视器807或用于显示数据、结果、帐单信息、销售信息(例如人口统计数据)、客户信息或样品信息的其他图形界面。该计算机也可以包括用于数据或信息输入的装置815、816。该计算机可以包括处理单元801和固定介质803或可移动介质811或其组合。可由用户以物理邻近计算机的方式例如经由键盘和/或鼠标访问该计算机，或由不一定接触该物理计算机的用户822通过通信媒介805例如调制解调器、因特网连接、电话连接或者有线或无线通信信号载波访问该计算机。在一些情况下，该计算机可以连接到服务器809或其他通信装置，从而将信息从用户传递到计算机或从计算机传递到用户。在一些情况下，用户可以通过通信媒介805将从计算机获得的数据或信息储存在介质例如可移动介质812上。可以预见与本公开内容有关的数据可在这样的网络或连接上传输，从而被一方接收和/或阅览。接收方可以是但不限于个体、医疗保健提供者或医疗保健管理者。在一种情况下，计算机可读介质包括适合传输生物样品的分析结果(比如，基因表达谱或其他生物特征)的介质。所述介质可包含关于受试者的基因表达谱或其他生物特征的结果，其中使用本文所述的方法导出此结果。

图1C提供了用于根据本公开内容的方法进行分析的系统的示例构架。该系统包括许多用于处理、生成、存储和输出各种文件和信息的组件。在这个示例中，该过程使用命令行接口208起始，命令行接口208的命令经由调用接口205传输到管理程序204。管理程序204协调该系统的功能以执行该过程的分析和比较步骤。模块1201所示的分析的第一步包括通过比较甲状腺组织样品的基因表达数据文件(“CEL”文件)和相应的校验和文件而对待分析数据进行质量控制检查。如果数据完整性得到确认，则模块1201根据本领域已知的方法，比如通过利用AffymetrixPowerTools(APT)程序套件，对基因表达数据进行归一化和汇总。该系统还可包括APT处理所需的文件(例如，.pgf文件、.clf文件和其他文件)。模块1201也可应用于训练样品集所用的基因表达数据(“训练CEL文件”)，所述样品集可进行分组以生成包含生物标志物集的分类器，其中对于每个生物标志物集的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考基因表达水平。来自模块1201的基因表达数据接下来由模块2202处理，模块2202使用统计软件环境“R”来比较分类器和甲状腺组织样品的基因表达数据。每个分类器用于建立用于评估样品基因表达数据为匹配或不匹配的规则。用于比较的分类器集中的每个分类器相继应用于基因表达数据。由模块2202进行的比较的结果由模块3203处理，从而通过生成“测试结果文件”来报告结果，所述“测试结果文件”可包含针对每个CEL分析文件的CEL文件名、测试结果(例如，良性、疑似或特定组织类型)和/或注释(例如，使用的分类器、发现的匹配、遇到的错误或有关比较过程的其他详细信息)。在一些情况下，如果样品被评估为在一系列比较的任一点与任一分类器匹配，则报告“疑似”结果。在一些情况下，如果在样品基因表达数据和任何分类器之间未发现匹配，则报告“良性”结果。模块3203也分别生成将数据处理和分析的每一步所发生的事件编入目录的系统日志、运行日志和存储库文件，来自分析的所有阶段的输出(例如，数据完整性检查和任何错误信息)，以及每一步的结果的表格。所述日志和存储库文件可用于判断比较过程中的错误，比如，如果数据分析过程无法运行到完成和生成结果。模块3203可参考包含错误信息列表的系统信息文件。这个示例构架的系统也可包含用于避免同时对相同CEL文件进行多重分析的目录锁定组件205，以及包含关于文件位置的信息(例如，可执行文件和CEL文件)的config文件处理程序207，从而帮助管理系统进程的工作流程的执行。

分子谱分析企业可出于以下一种或多种目的将样品信息输入数据库中：库存追踪、分析结果追踪、订单跟踪、客户管理、客户服务、记帐和销售。样品信息可以包括但不限于：客户名、客户性别、唯一的客户标识、客户相关的医学专业人员、指示的一种或多种分析、分析结果、充足性状态、指示的充足性测试、个体医疗史、初步诊断、疑似诊断、样品史、保险提供者、医疗提供者、第三方测试中心或适于在数据库中储存的任何信息。样品史可以包括但不限于：样品存在时间、样品类型、获得方法、储存方法或运输方法。

客户、医学专业人员、保险提供者、第三方或分子谱分析企业授权访问的任何个体或机构可使用数据库。数据库访问可以采取电子通讯例如计算机或电话的形式。可通过中介例如客户服务代表、商业代表、顾问、独立测试中心或医学专业人员访问数据库。数据库访问或样品信息例如分析结果的可利用性或级别可根据提供或待提供的产品和服务的费用支付而改变。数据库访问或样品信息的级别可以限制为遵从患者或用户保密性的普遍接受的或合法的要求。分子谱分析公司可以就一种或多种以下服务向个体、保险提供者、医学提供者或政府机构收费：样品接收、样品储存、样品制备、细胞学测试、分子谱分析、将样品信息输入数据库和更新或数据库访问。

(iii)控制系统

本公开内容提供了计算机控制系统，其被编程为用以实施本公开的方法。图7显示了计算机系统701，其被编程或以其他方式配置为管理客户和样品信息(诸如样品或客户跟踪)、数据库管理、分析分子谱数据、分析细胞学数据、存储数据、计费、销售、报告结果、存储结果或本公开内容的其他方法。所述计算机系统701可以调节本公开内容的方法的各个方面，例如，管理客户和样品信息(诸如样品或客户跟踪)、数据库管理、分析分子谱数据、分析细胞学数据、存储数据、计费、销售、报告结果或存储结果。在优选的实施方案中，计算机系统701可用于分析在本申请其他地方所述的分子谱数据。

计算机系统701包括中央处理单元(CPU，本文还称为“处理器”和“计算机处理器”)705，其可以是单核或多核处理器或多个处理器进行并行处理。计算机系统1001还包括存储器或存储器位置710(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元715(例如，硬盘)、用于与一个或多个其他系统通信的通信接口720(例如，网络适配器)和外围装置725，外围装置725诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器710、存储单元715、接口720和外部装置725通过通信总线(实线)与CPU705进行通信，所述通信总线诸如为母板。存储单元715可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统1001在通信接口720的辅助下可以操作地耦合到计算机网络(“网络”)730。网络730可以是因特网、互联网和/或外联网或与因特网通信的内联网和/或外联网。在一些情况下，网络730是远程通信和/或数据网络。网络730可以包括一个或多个计算机服务器，这可使得分布计算(诸如云计算)称为可能。在一些情况下，网络730在计算机系统701的辅助下可以实现对等网络，其可使得装置耦合到计算机系统701以起到客户端或服务器的作用。

CPU705可以执行一系列嵌入在程序或软件中的机器可读指令。所述指令可存储在存储器位置如存储器710中。由CPU705执行的操作的实例可包括取指令、解码、执行和写回。

存储单元715可以存储文件，诸如存储驱动器、文库和已保存的程序。存储单元715可以存储用户数据，例如存储用户偏好和用户程序。在一些情况下，计算机系统701可以包括位于计算机系统701外部的一个或多个附加的数据存储单元，所述数据存储单元诸如位于与计算机系统701通过内联网或因特网通信的远程服务器上。

计算机系统701可以与一个或多个远程计算机系统通过网络730进行通信。例如，计算机系统701可以与用户(例如，患者或医疗保健提供者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、平板或平板电脑(例如，iPad、GalaxyTab)、电话、智能手机(例如，iPhone、Android功能的装置，)或个人数码助手。用户可以通过网络1030访问计算机系统701。

如本文所述的方法可通过存储在计算机系统701的电子存储单元上的机器(例如，计算机处理器)可执行代码来实现，所述机器可执行代码例如存储在存储器710或电子存储单元715上。该机器可执行或机器可读代码可以以软件的形式提供。在使用期间，所述代码可由处理器705执行。在一些情况下，所述代码可以从存储单元715中取回并存储到存储器710中以供处理器705访问。在一些情况下，可以不包括电子存储单元715，而且机器可执行指令被存储在存储器710上。

所述代码可以进行预编译并配置用于与具有适于执行代码的处理器的机器一起使用，或者可以在运行过程中进行编译。所述代码可以以编程语言来提供，所述编程语言可以被选择以使该代码能够以预编译或实时编译的方式来执行。

本发明提供的系统和方法的各方面，诸如计算机系统701，可以以编程来实施。所述技术的各个方面可以被认为是“产品”或“制品”，一般以机器(或处理器)可执行代码和/或相关联数据的形式装载在或嵌入在一种类型的机器可读介质中。机器可执行代码可以被存储在电子存储单元，所述电子存储单元诸如是存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘。“存储”型介质可以包括计算机、处理器等等的任何或全部有形存储器或与其相关的模块，诸如包括各种半导体存储器、磁带驱动器、磁盘驱动器等等，这可以随时为软件编程提供非临时存储。该软件的全部或部分有时可以通过因特网或其他各种远程通信网络进行通信。这样的通信例如可以使软件能够从一台计算机或处理器加载到另一个，例如从管理服务器或主机加载到应用程序服务器的计算机平台。因此，可承载软件元件的另一种类型的介质包括光、电和电磁波，诸如通过有线和光学陆线网络以及经由各种空中链接跨越本地装置之间的物理接口。携带这些波(诸如有线或无线链接、光学链接等等)的物理元件也可以被认为是承载所述软件的介质。如本文所用，除非限于非临时的、有形的“存储”介质，诸如计算机或机器“可读介质”等术语指的是参与向处理器提供执行指令的任何介质。

因此，诸如计算机可执行代码的机器可读介质可以采取许多形式，其包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘，光盘或磁盘诸如在任何计算机等等中的任何存储装置，所述存储装置诸如可用于实现附图所示的数据库等等。易失性存储介质包括动态存储器，诸如包括这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，它们包括包含计算机系统内总线的导线。载波传输介质可采取诸如在射频(RF)和红外(IR)数据通信期间所生成的电或电磁信号或声波或光波的形式。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图形的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传送数据或指令的载波、传送这种载波的电缆或链接或计算机可以从其中读取程序代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可参与将一个或多个指令的一个或多个序列装载至处理器以执行。

计算机系统701可以包括电子显示器或与电子显示器通信，所述电子显示器包括用于例如提供分子谱分析的结果的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

本公开内容的方法和系统可以以一个或多个算法的方式来实现。算法可以以软件的方式通过一个或多个计算机处理器执行来实现。所述算法的非限制性实例在本申请说明书的其他地方进行了描述。

(iv)商业流程

例如，可由内分泌科医师可能通过细针抽吸来获得生物样品(例如甲状腺细胞)。样品可经历常规细胞学染色过程。例如，常规细胞学染色可提供四种不同的可能的初步诊断：非诊断性的、良性的、不明确或疑似的或恶性的。然后分子谱分析企业可以分析如本文所述的基因表达产物水平。基因表达产物水平的分析，分子谱分析，可以导致恶性或良性的明确诊断。在一些情况下，仅样品的子集通过分子谱分析进行分析，例如在常规细胞学检查期间提供不明确的和非诊断性结果的那些样品。

在一些情况下，分子谱分析结果证实常规细胞学测试结果。在其他情况下，分子谱分析结果不同。在结果不同的这些情况下，可以进一步测试样品、再检查数据或可将分子谱分析结果或细胞学分析结果作为正确的分类、表征或诊断。分类、表征或诊断为良性也可以包括尽管不是恶性癌症但可能指示进一步的监测或治疗的疾病或病状(例如，HA)。类似地，分类、表征或诊断为恶性也可以包括对癌症的具体类型(例如，HC)或与疾病或病状有关的特定代谢或信号传导途径的分类、表征或诊断。分类、表征或诊断可以指示治疗或治疗性干预，例如放射性碘消融术、外科手术、甲状腺切除术、施用一种或多种治疗剂，或进一步监测。

施用一种或多种治疗剂可包括施用一种或多种化疗剂。一般而言，“化疗剂”指用于肿瘤治疗的任何药剂。“化疗”的意思是通过各种方法(包括静脉内、经口、肌肉内、腹膜内、膀胱内、皮下、经皮、含服或者吸入或以栓剂形式)向癌症患者施用一种或多种化疗药物和/或其他药剂。在一些情况下，所述化疗剂选自有丝分裂抑制剂、烷化剂、抗代谢物、嵌入抗生素、生长因子抑制剂、细胞周期抑制剂、酶、拓扑异构酶抑制剂、生物反应调节剂、抗激素、血管生成抑制剂和抗雄激素。非限制性实例是化疗剂、细胞毒性药物和非肽类小分子，如Gleevec(甲磺酸伊马替尼)、Velcade(硼替佐米)、Casodex(比卡鲁胺)、Iressa(吉非替尼)和阿霉素(Adriamycin)以及许多化疗剂。化疗剂的非限制性实例包括：烷化剂，例如噻替派和环磷酰胺(CYTOXAN^TM)；烷基磺酸酯，例如白消安、英丙舒凡、哌泊舒凡；氮丙啶类，例如，苯并多巴(benzodopa)、卡波醌、meturedopa和uredopa；乙烯亚胺和甲基蜜胺，包括六甲蜜胺、三乙撑蜜胺、三乙撑磷酸胺、三亚乙基硫代磷酰胺和三羟甲基蜜胺；氮芥，例如，苯丁酸氮芥、chlomaphazine、氯代磷酰胺、雌莫司汀、异环磷酰胺、氮芥、盐酸氧化氮芥、美法仑、新氮芥、胆甾醇对苯乙酸氮芥、泼尼莫司汀、曲磷胺、乌拉莫司汀；亚硝基脲，例如，卡莫司汀、氯脲菌素、福莫司汀、洛莫司汀、尼莫司汀、雷莫司汀；抗生素，例如，阿克拉霉素、放线菌素、authramycin、重氮丝氨酸、博来霉素、放线菌素C、卡奇霉素、carabicin、洋红霉素、嗜癌菌素、Casodex^TM、色霉素、放线菌素D、柔红霉素、地托比星、6-重氮-5-氧代-L-正亮氨酸、多柔比星、表柔比星、依索比星、伊达比星、麻西罗霉素、丝裂霉素、霉酚酸、诺拉霉素、橄榄霉素、培洛霉素、甲基丝裂霉素、嘌呤霉素、三铁阿霉素、罗多比星、链黑菌素、链脲菌素、杀结核菌素、乌苯美司、净司他丁、佐柔比星；抗代谢物，例如，甲氨蝶呤和5-氟尿嘧啶(5-FU)；叶酸类似物，例如，二甲叶酸、甲氨蝶呤、蝶罗呤、三甲曲沙；嘌呤类似物，例如，氟达拉滨、6-巯基嘌呤、硫咪嘌呤、硫鸟嘌呤；嘧啶类似物，例如，安西他宾、阿扎胞苷、6-氮杂尿苷、卡莫氟、阿糖胞苷、二脱氧尿苷、去氧氟尿苷、依诺他滨、氟尿苷；雄激素，例如，卡芦睾酮、丙酸屈他雄酮、环硫雄醇、美雄烷、睾内酯；抗肾上腺素，例如，氨鲁米特、米托坦、曲洛司坦；叶酸补充物，例如，亚叶酸(frolinicacid)；醋葡醛内酯；醛磷酰胺糖苷；氨基酮戊酸；安吖啶；bestrabucil；比生群；依打曲沙；defofamine；地美可辛；地吖醌；elfomithine；依利醋铵；依托格鲁；硝酸镓；羟基脲；香菇多糖；氯尼达明；米托胍腙；米托蒽醌；莫哌达醇；尼曲吖啶；喷司他丁；蛋氨氮芥；吡柔比星；鬼臼酸2-乙基酰肼；丙卡巴肼；PSK.R^TM；雷佐生；西佐喃；螺旋锗；替奴佐酸；三亚胺醌；2,2′,2″-三氯三乙胺；乌拉坦；长春地辛；达卡巴嗪；甘露莫司汀；二溴甘露醇；二溴卫矛醇；哌泊溴烷；gacytosine；阿拉伯糖苷(“Ara-C”)；环磷酰胺；塞替派；紫杉醇类，例如，紫杉醇(TAXOL^TM,Bristol-MyersSquibbOncology,Princeton,N.J.)和多烯紫杉醇(TAXOTERE^TM,Rhone-PoulencRorer,Antony,France)；视黄酸；埃斯波霉素；卡培他滨；以及任何以上药物的药学上可接受的盐、酸或衍生物。也包括作为合适的化疗细胞调节物的抗激素药剂，其用于调节或抑制激素对肿瘤的作用，比如抗雌激素，例如，包括他莫昔芬(Nolvadex^TM)、雷洛昔芬、抑制4(5)-咪唑的芳香酶、4-羟基他莫昔芬、曲沃昔芬、凯奥昔芬、LY117018、奥那司酮和托瑞米芬(法乐通(Fareston))；以及抗雄激素类，例如，氟他胺、尼鲁米特、比卡鲁胺、亮丙瑞林和戈舍瑞林；苯丁酸氮芥；吉西他滨；6-硫鸟嘌呤；疏嘌呤；甲氨蝶呤；铂类似物，例如顺铂和卡铂；长春碱；铂；依托泊苷(VP-16)；异环磷酰胺；丝裂霉素C；米托蒽醌；长春新碱；长春瑞滨；诺维本；诺消灵；替尼泊苷；道诺霉素；氨基蝶呤；希罗达；伊班膦酸盐；喜树碱-11(CPT-11)；拓扑异构酶抑制剂RFS2000；二氟甲基鸟氨酸(DMFO)。如果需要，本发明的组合物或药物组合物可与常开的抗癌药物(例如，和)联合使用。

XIII.试剂盒

分子谱分析企业可以提供用于获得合适的样品的试剂盒。该试剂盒可包括容器、用于获得样品的装置、用于储存样品的试剂和/或指导使用该试剂盒的说明书。图5描绘了示例性的试剂盒203，其包括容器202、用于获得样品的装置200、用于储存样品的试剂205以及指导使用该试剂盒的说明书201。该试剂盒可进一步包含用于进行分子谱分析的试剂和材料。在一些情况下，所述试剂和材料包括用于分析由分子谱分析方法所产生的数据的计算机程序。在又一些情况中，所述试剂盒包含储存生物样品并将其运送到测试设施例如分子谱分析企业或第三方测试中心的装置。

分子谱分析企业也可以提供用于进行分子谱分析的试剂盒。该试剂盒可以包含用于提取蛋白质或核酸的材料，包括任何或所有必要的缓冲剂和试剂；以及用于分析蛋白质或核酸的水平的材料，包括对照和试剂。该试剂盒还可以包含软件或获得并使用软件以分析使用本公开内容的方法和组合物提供的数据的许可。

实施例

实施例1：淋巴瘤特征标志物

在本实施例中，提供了基因标志物的列表，其表示淋巴瘤特征生物标志物(如先前在美国申请13/708,439中所述)。

表1.淋巴瘤特征标志物。

实施例2：用于BRAFmRNA特征分类器的生物标志物

在本实施例中，提供了基因标志物的4个列表(如先前在美国申请13/708,439中所述)。表2提供了BRAF特征生物标志物。表3、4和5提供了关于可在癌症的分类中使用的滤泡细胞信号强度、淋巴细胞细胞信号强度和许特尔细胞信号强度的标志物。

表2.BRAF特征生物标志物。PTChetmut对PTC野生型，带有协变量。

将来自LIMMA分析的结果(在针对额外的混杂协变量调整后)基于FDRp-值(≤0.05)过滤。以下列出了通过过滤器的36个基因。

表3.滤泡细胞信号强度的标志物。

表4.许特尔细胞信号强度的标志物。

表5.淋巴细胞信号强度的标志物。

实施例3：用于备选BRAFmRNA特征分类器的生物标志物

V600E是乳头状甲状腺癌(PTC)中最常见的体细胞点突变，在全部PTC的约70％中可检测到。BRAF突变状态在前瞻性收集的甲状腺FNA(n＝206)群组中进行表征，对其可以获得诊断为PTC的明确手术后组织病理学诊断。为了鉴定BRAF-特异性mRNA特征，样品也可以使用AffymetrixExon1.0ST微阵列在基因水平上进行检测。

进行两个LIMMA分析，以比较全部可获得的BRAFV600E突变阳性(BRAF+)和BRAF阴性(BRAF-)甲状腺样品之间的基因表达谱。使用这些数据训练线性SVM分类器以便预测BRAFDNA突变状态。

先前的mRNA/基因水平分类器已得到开发并在甲状腺PTC样品上进行专门训练(如先前在美国申请13/708,439中所述)。用于分类器的生物标志物的样品列表显示在实施例2中。在该实施例中，用于BRAFmRNA特征分类器的生物标志物的备选列表用于检测甲状腺癌。在该实施例中，分类器用来辅助鉴定多个恶性亚型如FVPTC、PTC-TCV、Hurthle-PTC以及良性亚型BFN、LCT、HCA、NHP等等。

使用差异基因表达模型进行标准LIMMA比较，并且不同于在其他分析中(如先前在美国申请13/708,39中所述)，其没有调整滤泡细胞信号强度、淋巴细胞细胞信号强度或许特尔细胞信号强度的协变量。该模型根据下面的方程式运行。这个模型用于训练线性SVM分类器，以便预测未知样品的BRAFDNA突变状态。

Y_g＝α.BRAF+ε

FNA活检可能包含高度变异的(异质的)细胞内容物和以不可知比例混合在一起的多种数量的不同细胞类型。在解释多个样品中的基因表达谱方面，甲状腺FNA样品造成了困难。为了提取出高度准确的BRAFmRNA特征，使用BRAFhetmut与BRAF野生型的LIMMA比较对基因表达数据进行分析。每个分析的基因列表输出由LIMMAFDRp-值≤0.1进行过滤。在分类器(图8)中使用的优选标志物示于表9，而差异表达的标志物的综合列表示于表10。

表6.训练中使用的样品群组的FNA细胞学结果(n＝206)。

DNA突变状态	良性的	不确定的	恶性的	NA
					BRAF het mut	0	0	25	3
BRAF野生型	74	66	27	11

合计(n＝59)

74

66

52

14

表7.训练中使用的样品群组的手术后组织病理学结果(n＝206)。

DNA突变状态	良性的	恶性的	NA
				BRAF杂合突变	2	26	0
BRAF野生型	128	49	1

表8.训练中使用的样品群组的组织病理学亚型(n＝206)。

表9.跨多个甲状腺亚型的BRAF+对BRAF-分类器中优选的基因。

TCID	基因符号	排名
			2828441	PDLIM4	1
2809245	ITGA2	2
			3863640	CXCL17	3
2414958	TACSTD2	4
			3417249	ERBB3	5
3868828	KLK10	6
			3351200	TMPRSS4	7
3110608	TM7SF4	8
			2884845	GABRB2	9
2783596	PDE5A	10
			2827645	SLC27A6	11
2430163	VTCN1	12
			3154002	KCNQ3	13
2497082	IL1RL1	14
			2608469	ITPR1	15
3638204	MFGE8	16
			3040518	7A5,MACC1	17
2685304	PROS1	18
			3497195	CLDN10	19
3757108	KRT19	20
			2562435	SFTPB	21
2635906	PHLDB2	22
			2805078	CDH6	23
3335894	CST6	24
			2738664	SGMS2	25
2708855	LIPH	26
			3326461	EHF	27
3832280	C19orf33	28
			3581221	AHNAK2	29
3726154	ITGA3	30

使用突变BRAFmRNA表达特征标志物的分类。

在交叉验证过程中使用留一法(leave-one-outmethod)对BRAF+与BRAF-分类性能进行估算。特征选择使用LIMMA并且排名前列的差异表达标志物基于最低FDRp-值进行排序。所用的分类器是线性SVM。使用30倍交叉验证在训练过程中估算错误率。

表10.BRAF特征生物标志物。所有BRAF+对所有BRAF-。

将来自LIMMA分析的结果(没有针对额外的混杂协变量进行调整)基于FDRp-值(≤0.01)过滤。以下列出了通过过滤器的按FDRp-值排序的1192个基因。具有正LogFC值的基因在BRAF+样品中过表达。

实施例4：血液污染的检测

在本实施例中，开发了用于检测由血液污染物贡献的表达水平的系统。在一些情况下，这被称为“血液统计值”。在一种情况下，血液统计值可以反映在红细胞中可检测的从文献中已知的各种基因的表达值。在血液统计值的一个版本中，选择了6种分子标志物(AffymetrixExon/AfirmaTranscriptClusterID，表11)。对这些标志物的表达值进行平均以产生表征样品的一维统计值。

表11.血液统计学生物标志物的列表。

TCID	基因符号	说明
			3360401	HBB	血红蛋白，β
3360417	HBB	血红蛋白，β
			3360456	HBG2	血红蛋白，γG
3642654	HBM	血红蛋白，μ
			3642687	HBQ1	血红蛋白，θ1
3642643	HBZ	血红蛋白，ζ

作为使用如表11中的红细胞的文献标志物的备选，数据驱动的方法也用来定义对具有全血的甲状腺样品的污染敏感的标志物集。通过比较新鲜血液样品中的表达水平与甲状腺组织样品中的表达水平，鉴定此标志物集。具体而言，使用LIMMA方法进行了这两种样品类型之间的差异表达分析。在此分析中鉴定的排名前列的标志物随后针对于对甲状腺恶性肿瘤组织病理学亚型的敏感度进行了检查，并且过滤成小集合，随后用其表征测试样品中的未知血液比例。

具体而言，该方法包括以下步骤：

1.比较纯血样品与组织对照并分析在这两种样品类型之间由LIMMA显示差异基因表达的标志物；

2.鉴定在血液样品中显示一贯高的表达并在外科甲状腺组织中不表达的标志物(LIMMA)；

3.在大的甲状腺组织数据集中验证这些标志物在甲状腺恶性肿瘤的整个总体中是活性的；

4.使用排名前列的上调的血液标志物来估算每个样品中血液的比例。

在一些情况下，下调的标志物可与甲状腺滤泡细胞的缺乏相关。在一些情况下，这些标志物降低的表达可能不直接用于估算血液比例。

在一些情况下，上调的标志物在高的血液水平下可能饱和，并且这可能导致在高的血液比例下低估血液。

由文献(Su等人，2004)已知一些使用该方法鉴定的排名前列的标志物(表12)在血液中唯一地表达。为进一步证实这一点，使用基因图谱组织特异性表达数据集对这些标志物的表达水平进行评估。代表性标志物在甲状腺组织和全血中的表达水平示于图8-10。使用标准计算机建模，与甲状腺样品混合的全血样品的体外混合物与源自纯血和纯甲状腺组织样品的预测表达水平很好地相关联(图11和12)。

表12.血红素统计学标志物的列表(版本2)

已鉴定这些标志物，在甲状腺组织样品和新鲜血液样品中使用这些标志物的表达水平来用以下方式估算目的样品中全血的混合比例：

1.求得血液的比例，其导致观测的表达和预测的表达之间最小误差，其基于在甲状腺组织表达(用作没有血液污染的纯甲状腺样品的替代)和新鲜全血表达之间原始强度空间中线性内插。

2.让Y_i,mTH表示甲状腺组织内的标志物i的中值表达，并让Y_i,mWB表示新鲜全血样品中标志物i的中值表达。

3.然后可以求得在一些测试样品Y中全血细胞α的比例作为将这些标志物的观察和期望强度值之间的总误差最小化的一个值：

α = argmin Σ_{i = 1}^{N m} (l o g 2 (α \times 2^{Y_{i, m W B}} + (1 - α) \times 2^{Y_{i, m T H}}) - Y_{i})^2

纯全血和甲状腺组织样品中目的标志物的中值表达值提供于表3。应用此方法来估算在已知混合物中混合物的比例，经验估算与在体外混合试验中的设计比例进行比较。该对照的结果示于图13中。虽然具有良好的相关性，由于在阵列上的血液-特异性标志物的饱和，在高端处估算可能是不可靠的。此外，这种分析(以及使用此前所述的血液统计进行分析)表明，一些用于体外混合实验的一些原始FNA样品在与血液混合之前包含一些不可忽略的血液比例[通过设计，绿色数据点在零血液比例处]。

表13:纯全血和甲状腺组织样品中血液统计标志物的中值表达值。

实施例5：滤泡含量的检测

在本实施例中，检测由于滤泡细胞贡献的表达水平的系统得到开发，以检测样品中的滤泡组织内容物的量。在一些情况下，这被称为“滤泡统计值”。在本实施例中，滤泡统计值包括被开发为辅助估算给定FNA中存在的滤泡内容物的量的10种分子标志物集(AffymetrixExon/AfirmaTranscriptClusterID)。这些源自以下两步骤程序，由此第一步骤包括使用发表在科学文献中的滤泡标志物大列表、检查其在高度组织化甲状腺FNA样品群组内的差异基因表达和只选择那些在所有甲状腺组织病理学亚型(PTC、FC、BFN等)之间改变最小的。此种子标志物列表示于表14中。在一些情况下，这些标志物中的一些可显示在微阵列上饱和，即使当滤泡细胞以非常低的量存在。因此，这些标志物可能不能准确地跟踪混合物(例如，TG)中的滤泡内容物。其他的可能受恶性细胞转化(上调)影响并且已经改变在恶性状态中的表达水平(诸如TPO)，而在良性样品中是不提供信息的。因此，进行在大且高度组织化的甲状腺组织样品群组中的表达模式的检查。只有那些显示稳定、不饱和表达的标志物跨所有甲状腺组织病理学亚型(PTC、FC、BFN等)被保留用于进一步评估。使用LIMMA方法评估表达水平的变化。

此过程中的下一个步骤使用种子基因列表(表14)作为“钓竿”来鉴定具有相关表达(阴性或阳性)的新型标志物，其对于样品的组织病理学亚型也是敏感的。这使用Pearson相关系数、使用甲状腺FNA和非滤泡组织学的样品(诸如甲状旁腺腺瘤、髓样癌，癌症转移至甲状腺的样品)进行评估。这些非滤泡样品包含在分析中以表示来自非滤泡细胞群体的信号并增加目的标志物的表达的动态范围。该相关搜索得到完成以鉴定文献中未知的其他潜在标志物，但其显示跨甲状腺亚型的一致表达并与已知标志物很好地相关。

具有最强未分化信号的标志物是KRT7，在种子集中的基因之一。十个最高度相关的标志物示于下表15中。他们的平均归一化表达水平被用作滤泡统计值以推断在任何甲状腺FNA样品集中的滤泡细胞信号的相对强度。在此异质FNA实例中，将归一化表达水平进行平均足以得出有用的滤泡统计值。

滤泡统计值允许推断由滤泡细胞引起的基因信号的相对强度。尽管滤泡统计值不能直接解释为滤泡细胞在混合物中的比例，它被表征为滤泡细胞的量的单调函数。关于更低的滤泡细胞量，使用基因表达分类器(GEC)或其他学习预测方法的机器可能更难以从良性病症中区分恶性病症。因此，该统计值可以在开发该统计值的经验截断值中使用，并且可以用作(a)质量控制机制，以除去具有特定靶组织含量不足的样品，或(b)使用关于样品的特定组织含量的信息修改恶性肿瘤的测试后风险估计值，并作为特定组织含量的函数有效地建立分类器决策截断边界。

此外，使用线性建模方法，滤泡统计值用于调整其表达与混合物中滤泡细胞的量相关的基因的表达水平。这有助于搜索在目的变量中差异表达的基因(诸如BRAF+和BRAF-样品)。使用标准的线性建模方法，滤泡统计值可以作为协变量加入到方程式中：

Y～表型+滤泡统计值

其中Y是给定标志物的表达强度。然后可以在针对特定滤泡含量的差异进行调整之后使用标准方法如LIMMA来鉴定由表型差异表达的基因。此外，新样品的强度谱可针对统计值的观测水平进行调整，以恢复真实表达谱，该真实表达谱在代表纯样品状态的滤泡统计值的给定目标值下表征给定样品的表达强度。

这可以使用如先前在2010年12月9日提交的美国专利申请序列号12/964,666中所述的科技因子去除模型来完成，其通过引用全文并入本文。具体而言，使用训练数据将目的标志物的表达水平预先建模为Y～表型+滤泡统计值，并且该模型的系数被视为已知的和固定的。在由FNA样品生成的真实数据集中，数千种标志物显示显著依赖于滤泡统计变量。依赖于滤泡统计值的系数为β。在“纯的”非污染状态，样品具有“目标”滤泡统计值F_t。对于具有滤泡统计值F的引入测试样品，在目标滤泡统计水平的该标志物的预测强度值可以是Y_adj＝Y+(F_t-F)*β。

表14.在科学文献中报道的且用作种子组以找出更多以便实现本发明的方法的滤泡标志物。

TCID	标志物	特定细胞类型	通用细胞类型
				2336891	DIO1	滤泡	滤泡
3573870	DIO2	滤泡	滤泡
				3002640	EGFR	滤泡	滤泡
2387483	KRT18	滤泡	滤泡
				2663326	KRT18	滤泡	滤泡
2698434	KRT18	滤泡	滤泡
				3211115	KRT18	滤泡	滤泡
3415576	KRT18	滤泡	滤泡
				3469238	KRT18	滤泡	滤泡
3668077	KRT18	滤泡	滤泡
				3953556	KRT18	滤泡	滤泡
3983549	KRT18	滤泡	滤泡
				4028716	KRT18	滤泡	滤泡
3757108	KRT19	滤泡	滤泡
				3415320	KRT7	滤泡	滤泡
3455186	KRT7	滤泡	滤泡
				2697231	KRT8	滤泡	滤泡
2873168	KRT8	滤泡	滤泡
				3100563	KRT8	滤泡	滤泡
3455516	KRT8	滤泡	滤泡
				2437118	MUC1	滤泡	滤泡
3561381	NKX2-1	滤泡	滤泡
				3824623	SLC5A5	滤泡	滤泡
3116614	TG	滤泡	滤泡
				2466554	TPO	滤泡	滤泡
3236958	VIM	滤泡	滤泡

表15.滤泡统计学标志物的列表。

实施例6：计算机建模

在本实施例中，进行计算机建模以提高FNA分析的选择性。如本文所述，开发混合模型。如表16中所述指定已知组分的混合比例。在选择混合物样品的分析模型之后，进行计算机模拟正常邻近组织的谱的混合和此前作为另一研究的一部分得到谱分析的临床FNA以表征分类器判定对变化结节细胞比例的公差(tolerance)。

伴随相同的实验室方案的谱分析的附加邻近正常组织样品的CEL文件可用于补充计算机模拟中正常邻近组织的来源。

用于本研究的样品选择基于来自正常甲状腺FNA的总RNA的数量和质量。使用导频数据和从两种备选模型模拟的数据的模拟显示足够的样品大小以在基于边缘相似性的两种备选模型之间区分(假设模型的正确性)。

本研究的实验设计(包括混合物的比例)以以下方法进行选择：(a)允许在高稀释水平下评估分类器性能，和(b)将解释清楚上述两种备选模型的能力最大化。除了来自同一患者的手术前FNA和离体的正常邻近组织FNA，添加来自两个不同患者的80％正常甲状腺FNA/20％结节FNA样品混合以研究两种备选模型之间在线性分类器得分中的最大预期差异的区域。

表16.体外混合物实验设计。

*注：阵列上没有运行无模板对照(NTC)

此处模型M₀和M₁在以下方面进行比较(a)预测观测的表达强度值的能力和(b)预测观测的体外混合样品的分类器得分的能力，假定纯的未混合样品的谱是已知的。

为了比较强度值的预测质量，目的标志物的强度预测分布使用生成模型M₀和M₁构成。归一化残差然后按照预测强度减去观测强度进行估算，由所述预测分布的标准偏差进行归一化。图14a和14b显示了142个标志物跨所有混合物样品的归一化残差，所述标志物是Afirma-T分类器的一部分，所述残差鉴定了模型M₀₀为更加适合观测数据的一个模型。不适合模型预测的单一混合物(231P与231X，每组的中心)具有低的杂交后的质量控制衡量标准(HAAUC～0.87)，这解释了所述差异。

该分类器得分随后与来自两个模型的预测进行比较。结果示于图15-17；图15显示跨所有样品的模型M₀结果；图16显示了跨恶性和正常甲状腺组织的混合物的混合比例的结果；图17比较了一种混合物的两种模型的预测。这些结果还表明根据跨所有混合物样品的模型的准确的得分近似值。尽管使用M₀模型预测的混合物分类器得分不是由混合物比例线性地解释的，但使用该模型的计算机模拟精确地近似体外GEC得分。

最后，模型M₀用来估算所有混合物的混合比例的后验分布，并证明这些估算能够精确地恢复实际设计比例。这些结果示于图18中并表明混合比例的低的方差估算给定的观测数据，其表明标志物的此数量足以精确地还原来自所述数据的比例。在本质上，本发明的方法和图18表明，计算机建模框架可以用来估计模型中混合比例变量的后验概率(阿尔法)并准确地推断出在实验设计中使用的混合比例。这可以应用到AfirmaGEC中的142-标志物组。

表17.体外和计算机模拟混合物结果。

实施例7：在基因表达分类器中的实例基因，或“主分类器”

在本实施例中，提供了代表基因表达分类器的基因的列表或“主分类器”(如先前在美国申请13/708,439中所述)。

表18:基因表达分类器和其基因注释中167转录物簇识别号(TCID)的列表。

实施例8：BRAF标志物的实例

在本实施例中，提供了代表BRAF标志物的基因的列表(如先前在美国申请13/708,439中所述)。

表19.BRAF特征生物标志物。PTChetmut对PTC野生型，无协变量。

将来自LIMMA分析的结果(没有校正额外的混杂协变量)基于FDRp-值(≤0.001)进行过滤。下列是通过过滤器的477个基因。

实施例9：引物混合：实现3’-5’-扩增偏倚正常化的实施例

当相同的RNA样品在时间上分开的实验中使用不同的试剂批次(图29)运行时，在微阵列测定中的基因信号强度可能变化。在本实施例中，进行实验以观测3’端扩增偏倚并应用归一化程序以校正所述偏倚。

在本实施例中，两个不同的技术因素有助于3’端偏倚，其包括在全转录组RNA扩增(WTA)过程中的批次至批次的变异和所用微阵列芯片的批次至批次的变异。当跨越所有转录物的整个长度测得的一个信号得到观测时，在WTA扩增中批次至批次的差异得到直接观测。由于聚-dT中的变异和WTA试剂盒(图30)的randomer引发活性，明显的3引发转录物信号偏倚(增强的信号)可以在很大程度上在所述转录物的长度内追溯到差异的扩增。交换引物在两个试剂盒之间混合，所述试剂盒产生了非常明显的3引发偏倚模式，其提供了引起该偏倚的证据(图31)。尽管poly-dT引物可占大部分观测到的变异，涉及到所有原材料的复杂的相互作用或因素可有助于可测量的3引发偏倚。这些相互作用或因素可在任何时间发生，其包括在酶反应之前、之中或之后。

实施例10：使用高维RNA表达数据检测在7,066甲状腺结节-细针抽吸活检(FNAB)的连续群组中的BRAFV600E突变

BRAFV600E状态可使用基于DNA的方法进行评估，但是基于免疫组织化学(IHC)染色的方法也已经得到开发。这些染色剂的阐释可以是定性的且被证明具有不完美的观测器之间的一致性和高比率的不确定的染色强度。基因表达特征已被用来预测在数种癌症的DNA中存在或不存在点突变或重排。报道了检测PTC结节小群组中的BRAFV600E的基因表达特征。在准确分类甲状腺结节中BRAFV600E突变状态的基因表达特征的分析和临床的有效性如下所示。

材料和方法

FNAB可从716个患者作为集合的任一部分(n＝360，VERA001)获得或从连续提交至VeracyteCLIA认证的临床实验室用于GEC测试(N＝356，CLIA)的去除鉴定样品获得。每位患者具有根据FNAB制备的载玻片并由细胞病理学家读取。用于分子测试的第二个FNAB从相同的结节进行收集。从FNAB中提取RNA和DNA。总RNA进行扩增并与定制微阵列以及测量的基因表达进行杂交。

针对在核苷酸1799(V600E)处BRAF胸腺嘧啶与腺嘌呤(T>A)颠换的竞争的等位基因特异性TaqManPCR(castPCT)测定，其用于确定在先前报道的每一DNA样品中存在的BRAFV600E百分比突变(％MUT)。分类器训练标记进行分配以使得％MUT大于2.5％的样品被标记为BRAFV600E-阳性(BRAF-阳性)，而2.5％或更低的％MUT的样品被标记为BRAFV600E-阴性(BRAF-阴性)。在源自FNAB的甲状腺DNA中castPCR测定的分析灵敏度的此临界值是先前建立的，并在这里得到实现以将低拷贝数样品中扩增的随机(即，随机的)效果引起的不可靠的训练种类标记最小化。

分类器训练和验证

所有的BRAF-阳性BethesdaV和BRAF-阴性BethesdaVI样品被随机分配到分类器训练集或独立的测试集(表20)，且同等数量的更多大量的BRAF-阴性BethesdaV和BRAF-阳性BethesdaVI样品被随机选入各集合，以确保细胞学类种类特异性表示在训练和测试性能评估中。所有BRAF-阳性BethesdaIII/IV结节在训练和测试集之间被随机等分。在BethesdaV和VI内，患者年龄和性别、结节尺寸、细胞学亚型(PTC等)和％MUT在随机选择后进行评估，以确保训练和测试集之间的均匀性。负责测试集得分的研究者不参与随机选择且看不到测试集castPCR结果，直到测试集得分之后。

使用强大的多芯片平均(RMA)归一化转录物簇水平基因表达总结和10倍交叉验证(CV)跨各种分类方法和基因计数进行AfirmaBRAFRNA分类器的训练。基因选择通过半度(limma)发生在每一CV回路中以鉴定从BRAF-阴性样品中区分BRAF-阳性的基因。用源自castPCR的训练集标记评估分类器的阳性-(PPA)和阴性百分比一致性(NPA)。当进行替代对照以由第二个测试(在此情况下，castPCR)代替临床参考标准(见补编)产生时，使用PPA和NPA。得分最高的分类方法和基因集随后在产生AfirmaBRAFRNA分类器的所有181训练样品的最后一轮训练中使用。

该AfirmaBRAF判定临界值随后通过基于变异性的模拟进行调整，以最小化测试集假阳性的可能性(图32)。该分类器和调整的决策临界值在评分测试集和评估对castPCR的性能前被锁定。为了在测定分析灵敏度和预测临床相关性之间取得平衡，AfirmaBRAF判定的PPA和NPA用castPCR以从0％至10％变化的％MUT临界值进行估算。分析验证研究表征了所述AfirmaBRAF分类器的准确度、再现性(实验室之间和交互运行和内部运行)以及稳健性。对于测试集中FNAB的子集(n＝213)，其中GEC和castPCR结果先前进行了报道且源自专家的组织病理学是可利用的，组织病理学用于评估AfirmaBRAF和castPCR两者的临床灵敏度和特异性，以通过检测BRAFV600E突变和相关的基因表达特征来检测甲状腺结节中的恶性肿瘤。

AfirmaBRAF还用来预测在去除鉴定的源自CLIA的连续反折到AfirmaGEC的FNAB大(n＝7248)群组中V600E的存在。这些样品中，由于不令人满意的细胞学检查从进一步考虑中去除32个。触发过滤出罕见肿瘤的AfirmaGEC瘤盒”之后去除51个另外的FNAB。由于良性细胞学去除93个FNAB，因为这些样品由于低流行的疾病在AfirmaBRAF和AfirmaGEC两者的指示范围之外。这剩下的7066个FNAB可用于进一步的研究。对于这些样品，castPCR结果和组织病理学事实均是不可利用的，但AfirmaGEC测试结果是已知的。来自这两个测试的结果由Bethesda细胞学类别以及由细胞学的来源进行估算，即根据甲状腺细胞病理学合作伙伴(TCP，n＝4,824)或根据主要学术机构的收集，其每一个都现场进行细胞学检查(Afirma-启用，A/E，n＝2242)。使用具有BRAF-阴性和阳性样品之间(n＝2502，错误发现率(FDR)<0.1通过limma)差异表达的AfirmaBRAF基因或全部基因的GeneTrail软件进行上/下代表性分析(ORA)作为ORA测试集。该ORA参考集包括在KEGG路径数据库(27)中的全部人类基因(n＝44829)和注释。通过以p<0.05的校正FDR临界值的Fisher精密试验评估显著性。

结果：分类器与castPCR对照

我们在10倍的CV(使用训练集)下计算PPA和NPA，并发现线性支持向量机(28)(SVM)中的128个转录物(从127个基因，表S1)将在接收机-运算符特性(ROC)曲线(AUC)下的面积最大化，同时将运行到运行得分变异性最小化(图33)。锁定的AfirmaBRAF分类器(和相关的决策临界值)随后用来评分测试集，并且评估了跨一系列castPCR标记临界值的AfirmaBRAF和castPCR之间的一致性。当BRAF-阳性状态临界值≥性％MUT时，所有细胞学类别的最大PPA和NPA得到观测(图34，图35)。该结果可以被解释为表明AfirmaBRAF的有效分析灵敏度等同于由castPCR得到的5％MUT。鉴于除了以下讨论的假阳性(0％MUT)之外没有AfirmaBRAF-阳性样品被鉴定为castPCR％MUT值小于5％，此5％的临界值代表了AfirmaBRAF的分析灵敏度的保守下界。在5％分析灵敏度处，AfirmaBRAF表示具有90.4％的castPCR的PPA(95％准确二项式置信区间[CI]83.5-95.1％)和99％的NPA(95％CI97.6-99.7％)(表21)。

NPA跨细胞学类别并非显著不同，但PPA在BethesdaV样品中更低(接近显著性，p＝0.059)。PPA和NPA在训练和测试集或在每个细胞学类别之内总体上两者都并非显著不同。在训练集中的两个样品和在测试集中的四个(n＝535)被鉴定为AfirmaBRAF-阳性，除了明确地由castPCR得到0％MUT以外。这种不一致可能是由在任一测定中的技术变异性(图36，37)引起，或者可能由于不同于V600E突变的突变导致了类似基因表达变化。这些样品通过BRAF基因的深的、靶向DNA测序，和其他一些真BRAF-阳性和BRAF-阴性样品作为对照来进行评估。这些六个有差异的样品中的一个被鉴定为在核苷酸位置1798至1799处具有双重突变，其导致在最常见的BRAF突变中发现相同的缬氨酸至谷氨酸氨基酸的改变。在其他五个有差异的样品中没有鉴定到BRAF突变。

临床表现

使用样品子集与相关的黄金标准组织病理学一起，我们评估了用BethesdaIII-VI细胞病理学评估的结节的BRAFV600E状态的诊断价值。病理学专家不了解分子结果。AfirmaBRAF和castPCR均判定所有的组织病理学良性样品为BRAFV600E-阴性(特异性100％，95％CI97.4％-100％)，扼要重述此前报道的BRAFV600E突变的高特异性。

尽管AfirmaBRAF和castPCR两者鉴定32个恶性样品为BRAF-阳性，但由castPCR判定为BRAF-阳性的两个样品(检测到有4.2％和20.2％MUT)为AfirmaBRAF-阴性。两个另外的样品通过AfirmaBRAF被判定为阳性，但由castPCR显示0％MUT。根据组织病理学所有这四个样品是恶性的。

根据细胞学的AfirmaBRAF和AfirmaGEC结果

AfirmaBRAF和AfirmaGEC测试结果在7,066去除鉴定的FNAB上进行评估，所述FNAB来自连续涉及用于AfirmaGEC测试的VeracyteCLIA实验室的患者。在根据AfirmaGEC的3,187良性样品中，没有一个是AfirmaBRAF-阳性(NPA100％，95％CI为99.9％-100％)。此外，尽管从常规分析中排除，没有任何细胞学良性结节由AfirmaBRAF判定为阳性。在AfirmaGEC疑似结节中AfirmaBRAF-阳性判定率随细胞学类别而变化并且与BethesdaIV样品相比其在BethesdaIII样品中显著更高(2.4％和0.5％，p＝0.004)。在4,809个BethesdaIII和IVFNAB中，观测到1％(95％CI为0.8％-1.4％)的AfirmaBRAF-阳性判定率，而在这些FNAB的2,684个(56％)中由AfirmaGEC判定为疑似的，观测到1.9％(95％CI为1.4％-2.5％)的AfirmaBRAF阳性判定率，统计上显著增加(p＝0.004)。AfirmaBRAF-阳性结节的比例在由TCP进行的细胞学检查(4,824中的55，1.1％)和由大部分学术Afirma-启动机构的收集进行的细胞学检查(2,242中的34，1.5％)之间没有显著不同。并没有显著相差TCP进行细胞学差异(P＝0.22)由主要学术Afirma功能的机构的集合进行(1.5％)。

对于稀释的再现性和稳健性

使用选自训练样品中的9个FNAB和三个组织对照，对分类器的内部运行和交互运行的再现性进行了评估，所述样品具有高(BRAF-阳性)或低(BRAF-阴性)分类器得分和邻近分类器决策边界的得分。根据总RNA，跨天、操作者和试剂批次的三种不同运行中的每一种一式三份对每个FNAB和组织进行处理。AfirmaBRAF得分的内部测定标准偏差(SD)为0.171(95％CI0.146-0.204)。产生的106个AfirmaBRAF判定中，106个导致了跨所有三个运行的一致判定(100％一致)。得分的内部测定SD为0.204(95％CI0.178-0.237)，对于在6点规模上测得的得分(图37)。FNAB通常含有可能干扰或稀释BRAF-阳性细胞的淋巴细胞、血液或良性甲状腺组织。为了评估该稀释对AfirmaBRAF信号的影响，AfirmaBRAF-阳性PTC样品用计算机模拟(使用先前报道的混合物模型)增加稀释液样品的比例进行混合。这些计算机模拟混合物包括用淋巴细胞性甲状腺炎(LCT)、纯血或良性甲状腺组织样品进行稀释。BRAF-阳性样品在混合物中至少80％的时间被正确判定，该混合物分别表示36％、38％和42％BRAF-阳性PTC含量。纯血、LCT和良性甲状腺组织样品的AfirmaBRAF结果均为BRAF-阴性，并且不管混合物的比例如何所有的BRAF-阴性FNAB混合物正确地判定为BRAF-阴性，因此在甲状腺FNAB中通常遇到的稀释液的存在不会导致AfirmaBRAF假阳性。

表20：训练集和测试集中通过细胞学、样品来源和castPCR衍生的BRAF标签的样品数。所有样品均可能收集于前面的研究(VERA001)或来自送到VeracyteCLIA实验室(CLIA)的连续患者中。

表21.训练集(交叉验证(CV)下)和测试集的阳性百分比一致性(PPA)、阴性百分比一致性(NPA)和在ROC曲线下的面积(AUC)。BethesdaII和III/IV群组的AUC在训练中全等于1，但测试由于小数量的BRAF-阳性样品，仅报告了剩余细胞学群组的AUC。

表22：通过细胞学分类预测恶性(切除后通过组织学定义)中AfirmaBRAF和castPCR(在分析灵敏度中的不同阀值)的表现。使用研究的患病率(34.3％，合计213个结节中73个恶性结节)计算得到NPV和PPV。

实施例11：在AfirmaBRAF分类器中使用生物标志物

在本实施例中，提供了基因标志物的5个列表。在AfirmaBRAF分类器中使用的128个转录物(来自127个基因)与RefSeq基因57个符号和Ensembl标识符一起列于表23中。表24、25、26和27提供了生物标志物的备选列表，其可在BRAF分类器中使用。表24、25、26和27是表23的子集。

表23.来源于Affymetrix外显子阵列的128转录物簇ID(TCID)以及由每个TCID表示的RefSeq和EnsemblID。

表24.来源于Affymetrix外显子阵列的39个转录物簇ID(TCID)以及基因符号和由每个TCID表示的EnsemblID(新生物标志物，表23的子集)。

#	TCID	基因符号	Ensembl
				1	3338192	CCND1	ENSG00000110092
2	2657808	CLDN16	ENSG00000113946
				3	2884845	GABRB2	ENSG00000145864
4	2442008	RXRG	ENSG00000143171
				5	3494629	SCEL	ENSG00000136155
6	3984945	ARMCX3	ENSG00000102401
				7	4015838	ARMCX6	ENSG00000198960

8	2711225	ATP13A4	ENSG00000127249
				9	2711205	ATP13A4	ENSG00000127249
10	2381249	C1orf115	ENSG00000162817
				11	3223425	CDK5RAP2	ENSG00000136861
12	4012178	CITED1	ENSG00000125931
				13	3743551	CLDN7	ENSG00000181885
14	3125116	DLC1	ENSG00000164741
				15	3263743	DUSP5	ENSG00000138166
16	3837431	EHD2	ENSG00000024422
				17	3445908	EPS8	ENSG00000151491
18	2523045	FZD7	ENSG00000155760
				19	3187686	GSN	ENSG00000148180
20	3250278	HK1	ENSG00000156515
				21	2598828	IGFBP5	ENSG00000115461
22	3415744	IGFBP6	ENSG00000167779
				23	3416895	METTL7B	ENSG00000170439
24	3393720	MPZL2	ENSG00000149573
				25	3744463	MYH10	ENSG00000133026
26	3323052	NAV2	ENSG00000166833
				27	3136178	PLAG1	ENSG00000181690
28	2650393	PPM1L	ENSG00000163590
				29	3451375	PRICKLE1	ENSG00000139174
30	2994981	PRR15	ENSG00000176532
				31	3126368	PSD3	ENSG00000156011
32	3126191	PSD3	ENSG00000156011
				33	3907234	SDC4	ENSG00000124145
34	2742224	SPRY1	ENSG00000164056
				35	2979871	SYNE1	ENSG00000131018
36	3973891	SYTL5	ENSG00000147041
				37	4018327	TRPC5	ENSG00000072315
38	3988596	ZCCHC12	ENSG00000174460
				39	3987607	ZCCHC16	ENSG00000187823

表25.来源于Affymetrix外显子阵列的119个转录物簇ID(TCID)以及基因符号和由每个TCID表示的EnsemblID(BRAF-V600E-特异生物标志物，表23的子集)。

表26.来源于Affymetrix外显子阵列的100个转录物簇ID(TCID)以及基因符号和由每个TCID表示的EnsemblID(甲状腺结节的BRAF-V600E-特异生物标志物，表23的子集)。

表27.来源于Affymetrix外显子阵列的20个转录物簇ID(TCID)以及基因符号和由每个TCID表示的EnsemblID(生物标志物，表23的子集)。

#	TCID	基因符号	Ensembl
				1	2884845	GABRB2	ENSG00000145864
2	3984945	ARMCX3	ENSG00000102401
				3	4015838	ARMCX6	ENSG00000198960
4	2711225	ATP13A4	ENSG00000127249
				5	2711205	ATP13A4	ENSG00000127249
6	2381249	C1orf115	ENSG00000162817
				7	3223425	CDK5RAP2	ENSG00000136861
8	3743551	CLDN7	ENSG00000181885
				9	3125116	DLC1	ENSG00000164741
10	3837431	EHD2	ENSG00000024422
				11	3250278	HK1	ENSG00000156515
12	3416895	METTL7B	ENSG00000170439
				13	3323052	NAV2	ENSG00000166833
14	2650393	PPM1L	ENSG00000163590
				15	3451375	PRICKLE1	ENSG00000139174
16	2994981	PRR15	ENSG00000176532
				17	2742224	SPRY1	ENSG00000164056
18	4018327	TRPC5	ENSG00000072315
				19	3988596	ZCCHC12	ENSG00000174460
20	3987607	ZCCHC16	ENSG00000187823

实施例12：癌症侵袭性

在本实施例中，使用BRAFV600E阳性(BRAF+)和BRAF突变阴性(BRAF-阴性)样品的高度组织化群组和深的RNA测序，鉴定了两个不同但略微重叠的侵袭性特征。来自具有侵袭性PCT表型的受试者的十个BRAF+样品群组与来自不具有侵袭性PCT受试者的五个BRAF+样品群组进行对比。类似地，还研究了来自BRAF-阴性受试者的样品。七个侵袭性-BRAF-阴性PTC样品群组与八个非侵袭性-BRAF-阴性PTC进行比较。针对差异表达，归一化和对齐的RNAseq数据使用EdgeR(生物导体)进行了分析，并且建立了FDRp-值<0.1的显著性。BRAF+侵袭性特征显示了207个生物标志物基因(表28，图38)，而BRAF-阴性侵袭性特征具有162个基因(表29，图39)。只有八个基因在两个列表(表30)之间共享。最近开发的128个基因BRAFV600E分类器与在BRAF+侵袭性特征中发现的基因共享了单个基因(CST6)。尽管这种分类器得到开发以准确地把样品分类为BRAF+和BRAF-阴性类别，但不管BRAF突变状态如何，这些侵袭性特征的发现可能在预测甲状腺疾病中是有用的。第三个多变量逻辑回归分析使用所有30个PTC样品并模拟恶性肿瘤、BRAF状态和侵袭性表型作为独立变量与五个良性样品相比较，揭示了与侵袭性表型(列表1)特别相关的另外32种生物标志物。

表28.BRAFV600E阳性样品中侵袭性PTC的由基因符号和EnsemblID表示的生物标志物。

表29：BRAF阴性样品中侵袭性PTC的由基因符号和EnsemblID表示的生物标志物。

表30.BRAF-阴性和BRAF+阳性样品中共有的侵袭性PTC的由基因符号和EnsemblID表示的生物标志物。

Ensembl ID	基因符号	染色体
			ENSG00000182492	BGN	chrX
ENSG00000156466	GDF6	chr8
			ENSG00000151892	GFRA1	chr10
ENSG00000167749	KLK4	chr19
			ENSG00000125414	MYH2	chr17
ENSG00000225698	NA	chr14
			ENSG00000211630	NA	chr2
ENSG00000171246	NPTX1	chr17

列表1.由侵袭性表型的EnnsemblID表示的另外的生物标志物

ENSG00000065320、ENSG00000069188、ENSG00000081248、ENSG00000103546、ENSG00000104237、ENSG00000106689、ENSG00000114805、ENSG00000119698、ENSG00000130176、ENSG00000130540、ENSG00000132972、ENSG00000134533、ENSG00000149403、ENSG00000150594、ENSG00000152092、ENSG00000154165、ENSG00000158458、ENSG00000163638、ENSG00000164116、ENSG00000164946、ENSG00000166923、ENSG00000167105、ENSG00000171509、ENSG00000178031、ENSG00000204262、ENSG00000206755、ENSG00000213938、ENSG00000226738、ENSG00000227844、ENSG00000232680、ENSG00000238337、ENSG00000253168

在这些实验中生成的数据可用来测量用不同WTA试剂盒和微阵列批次观测到的变异的量，以便训练算法，所述算法计算并系统地归一化信号强度以使得独立的实验可以直接进行比较。

本公开的装置、方法和系统可与其他装置、方法和系统相结合/或进行修改，诸如在2011年12月9日提交的美国临时专利申请序列号61/568,870和2012年12月7日提交的美国专利申请序列号13/708,439中描述的那些，其中的每一个通过引用其全文并入本文。

由前述应当理解，虽然已说明和描述了具体的实施，各种改变可以在此处做出并且是本文预期的。它也并不意味着本发明受到本说明书中提供的具体实施例的限制。虽然本发明已经参照上述的说明书进行了描述，本文优选实施方案的说明书和图示并不意味着以限制的意义来解释。此外，应当理解的是，本发明的所有方面不限于本文所述的具体的描述、构造或相对比例，其依赖于各种条件和变量。在本发明实施方案的形式和细节中的许多改变对本领域技术人员会是显而易见的。因此可以预期的是，本发明还应当包括任何这样的改变、变化和等同物。下列权利要求旨在限定本发明的范围，从而涵盖这些权利要求的范围内的方法和结构及其等同物。

Claims

1.一种用于诊断和/或治疗疑似患有疾病的受试者的方法，该方法包括：

(a)从所述受试者获得生物样品；

(b)测定该生物样品中的一种或多种基因表达产物的表达水平；

(c)使用一个或多个临床分类器比较(b)的所述表达水平与从表24-27中选出的多个基因的参考表达水平以生成表达水平的比较，其中该比较是由计算机处理器进行的；

(d)基于所述一个或多个临床分类器的所述比较将所述生物样品分类为含有或不含所述疾病和/或特定组织类型，以产生所述生物样品的分类；和

(e)基于(d)的分类诊断和/或治疗所述受试者。

2.根据权利要求1所述的方法，其中将所述生物样品分类为含有或不含所述疾病进一步包括预测与所述疾病相关的突变的存在或不存在。

3.根据权利要求1所述的方法，其中使用经训练的算法或包含线性支持向量机分类器的算法进行所述比较。

4.根据权利要求3所述的方法，其中所述经训练的算法使用组织样品、细针抽吸物或其组合来训练。

5.根据权利要求1所述的方法，其进一步包括使用包含从表11或表12中选出的多个基因的临床分类器将所述生物样品分类为含有或不含全血。

6.根据权利要求1所述的方法，其中所述疾病是甲状腺癌或淋巴瘤。

7.根据权利要求6所述的方法，其中所述疾病是甲状腺癌或淋巴瘤，并且与甲状腺癌或淋巴瘤相关的突变是BRAFV600E突变。

8.根据权利要求1所述的方法，其进一步包括使用包含从表14或表15中选出的多个基因的临床分类器将所述生物样品分类为含有或不含滤泡组织或滤泡细胞。

9.根据权利要求1所述的方法，其中所述疾病是甲状腺癌，并且其中所述方法进一步包括使用包含从表2、表9或表10中选出的多个基因的临床分类器将所述生物样品分类为含有或不含甲状腺癌。

10.根据权利要求1的方法，其中基于所述一个或多个临床分类器的所述比较将所述生物样品分类为含有或不含所述疾病和/或特定组织类型进一步提供所述疾病和/或特定组织类型在所述样品中的比例的估计值。

11.根据权利要求1所述的方法，其中所述生物样品通过针抽吸、细针抽吸、芯针活检、真空辅助活检、大芯活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检获得。

12.根据权利要求1所述的方法，其中所述生物样品是甲状腺组织的细针抽吸物。

13.根据权利要求1所述的方法，其中所述表达水平通过微阵列、SAGE、印迹法、RT-PCR、测序和/或定量PCR测定。

14.根据权利要求1所述的方法，其中所述一种或多种基因表达产物是RNA。

15.根据权利要求14所述的方法，其中所述RNA是mRNA、rRNA、tRNA和/或iRNA。

16.根据权利要求14所述的方法，其中所述基因表达产物中的至少一种对应于在所述疾病中过表达的基因。

17.根据权利要求1所述的方法，其中所述分类以至少95％的准确度区分含疾病的样品与不含疾病的样品。

18.根据权利要求1所述的方法，其中所述分类以至少99％的准确度区分含疾病的样品与不含疾病的样品。

19.根据权利要求1所述的方法，其中所述分类以100％的准确度区分含疾病的样品与不含疾病的样品。

20.根据权利要求1所述的方法，其进一步包括在用所述一个或多个临床分类器分类之前预筛选所述生物样品。

21.根据权利要求20所述的方法，其中基于所述预筛选，由所述一个或多个临床分类器返回的假阳性率相比较而言降低。

22.根据权利要求1所述的方法，其中所述疾病是甲状腺癌，并且其中所述一个或多个临床分类器用作甲状腺癌的诊断工具。

23.根据权利要求1所述的方法，其中(e)的所述治疗进一步包括进行手术。

24.根据权利要求1所述的方法，其进一步包括使用包含从表1中选出的多个基因的临床分类器将所述生物样品分类为含有或不含淋巴瘤。

25.根据权利要求1所述的方法，其中所述一个或多个临床分类器包括至少两个或更多个临床分类器，其中至少两个或更多个临床分类器用于将所述生物样品分类为含有或不含所述疾病和/或特定组织类型。

26.根据权利要求1或2所述的方法，其进一步包括基于所述比较将所述样品分类为具有侵袭性的预后。

27.一种用于诊断和/或治疗疑似患有疾病的受试者的方法，该方法包括：

(a)从获自所述受试者的生物样品中分离核糖核酸(RNA)样品；

(b)鉴定所述RNA样品中第一目的区域内的一个或多个突变；

(c)使用计算机处理器，将所述RNA样品中所述第一目的区域内每一个碱基对位置的变异频率与一个或多个参考值进行比较，以鉴定与所述疾病相关的一个或多个突变；

(d)比较在(b)中鉴定的所述一个或多个突变与在(c)中鉴定的所述一个或多个突变，以鉴定所述RNA样品中至少一个突变的存在或不存在；

(e)针对所述RNA样品的第二目的区域重复(a)-(d)以产生所述RNA的突变谱，其中所述第二目的区域不同于所述第一目的区域；和

(f)基于所述突变谱诊断和/或治疗所述受试者。

28.根据权利要求27所述的方法，其中(c)的所述一个或多个参考值包括在参考序列中的单碱基对的变异频率，其中该参考序列中的变异频率与至少1000个个体相关联。

29.根据权利要求27所述的方法，其中(c)的所述一个或多个参考值包括在参考序列中的单碱基对的变异频率，其中该参考序列中的变异频率与已知疾病相关联。

30.根据权利要求27的方法，其中所述生物样品从疑似具有所述疾病的组织中获得，其中(c)的所述一个或多个参考值包括在参考序列中的单碱基对的变异频率，并且其中在该参考序列中的变异频率与来自一种类型的组织的至少40个样品相关联，该组织类型不同于所述疑似具有所述疾病的组织的类型。

31.根据权利要求27所述的方法，其进一步包括为所述RNA样品中鉴定的每一个突变分配判定得分。

32.根据权利要求27所述的方法，其中(e)的突变谱使用癌症中体细胞变异的已知位点的COSMIC数据库生成。

33.根据权利要求27所述的方法，其中一个或多个突变的存在或不存在的鉴定是至少90％准确的。

34.根据权利要求27所述的方法，其中一个或多个突变的存在或不存在的鉴定是至少95％准确的。

35.根据权利要求27所述的方法，其中一个或多个突变的存在或不存在的鉴定是至少99％准确的。

36.根据权利要求27所述的方法，其进一步包括重复(e)至少2次。

37.根据权利要求27所述的方法，其进一步包括重复(e)至少10次。

38.根据权利要求27所述的方法，其进一步包括重复(e)至少100次。

39.一种用于检测和归一化由来自受试者的核酸样品生成的微阵列样品数据中3’-5’扩增偏倚的方法，该方法包括：

(a)从受试者获得生物样品，其中所述生物样品包含核酸样品；

(b)使用一个或多个探针，扩增所述核酸样品以产生一个或多个扩增子；

(c)产生在所述一个或多个扩增子中的单独扩增子的核酸序列读取值；

(d)针对所述一个或多个扩增子中的每一个单独的扩增子，在计算机处理器的帮助下，经比较所述一个或多个探针中的给定探针的核酸序列与(c)中产生的所述单独扩增子的核酸序列，计算所述给定探针的3’偏倚程度；和

(e)应用归一化程序针对给定探针校正所述3’偏倚。

40.根据权利要求39所述的方法，其中所述核酸样品是mRNA转录物。

41.根据权利要求40所述的方法，其中计算所述3’偏倚程度进一步包括确定从所述mRNA转录物的3’端到所述给定探针的有效距离。

42.根据权利要求40所述的方法，其中计算所述3’偏倚程度进一步包括确定从所述mRNA转录物中的一个或多个位点或序列到所述给定探针的有效距离。

43.根据权利要求40所述的方法，其中计算所述3’偏倚程度进一步包括计算所述给定探针与所述mRNA转录物内的一个或多个下游polyA位点或序列之间的距离或中值加权距离，其中所述加权距离由与所述mRNA转录物中每个polyA位点相关的读取计数来确定。

44.根据权利要求40所述的方法，其中计算所述3’偏倚程度进一步包括比较两个或更多个相同探针的成对强度谱的变异性，其中所述强度谱从两个或更多个独立的微阵列数据集获得，其中每个微阵列数据集从相同的生物样品产生。

45.根据权利要求44所述的方法，其中比较两个或更多个相同探针的成对强度谱的变异性进一步包括在所述mRNA转录物内进行探针的全转录物比对以计算有效距离。

46.根据权利要求39所述的方法，其中所述归一化程序进一步包括生成归一化靶标分布。

47.根据权利要求39所述的方法，其中所述归一化程序进一步包括分位数归一化，其中将探针分组为箱元，并且其中将分位数归一化应用到每个箱元内的每个探针以归一化整个箱元中的探针的中值强度。

48.根据权利要求39所述的方法，其中所述归一化程序从样品数据中去除应用偏倚。

49.根据权利要求39所述的方法，其进一步包括将汇总方法应用到归一化的探针强度。

50.根据权利要求49所述的方法，其中将所述汇总方法应用到归一化的探针强度改善了所述微阵列样品数据中差异基因表达的检测。

51.一种用于检测微阵列数据中的异质性的方法，该方法包括：

(a)在计算机中从一个或多个样品的混合物产生假定的微阵列数据；

(b)从所述假定的微阵列数据产生一个或多个模型；

(c)从一个或多个在体外进行的样品的混合物获得微阵列数据；

(d)在计算机处理器的辅助下，比较(b)的所述一个或多个模型与在(c)中获得的数据；和

(e)基于(d)的比较，评估所述一个或多个模型的强度。

52.根据权利要求51所述的方法，其中评估所述一个或多个模型的强度包括比较在(b)中产生的模型与在(c)中获得的数据之间的均方差。

53.根据权利要求51所述的方法，其进一步包括选择(b)中产生的模型，其中所述选择由该模型的预测能力来确定。

54.根据权利要求53所述的方法，其中所述模型的预测能力通过比较所述模型与实验数据来确定。

55.根据权利要求51所述的方法，其进一步包括使用所述一个或多个模型来改善在检测样品中的异质性方面的选择性和/或灵敏度。

56.一种用于诊断和/或治疗疑似患有疾病的受试者的方法，该方法包括：

(a)从所述受试者获得生物样品；

(b)测定所述生物样品中的一种或多种基因表达产物的表达水平；

(c)使用一种或多种临床统计学来比较(b)的所述表达水平与来自表11和/或表12的多个基因的参考表达水平以生成表达水平的比较，其中所述比较是由计算机处理器进行的；

(d)基于所述比较将所述生物样品分类为含有或不含血液组分，以产生所述生物样品的分类；和

(e)基于(d)的分类诊断和/或治疗所述受试者。

57.根据权利要求56所述的方法，其中使用经训练的算法或包含线性支持向量分类器的算法进行所述比较。

58.根据权利要求57所述的方法，其中所述经训练的算法使用组织样品、细针抽吸物或其组合来训练。

59.根据权利要求56所述的方法，其中所述生物样品通过针抽吸、细针抽吸、芯针活检、真空辅助活检、大芯活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检获得。

60.根据权利要求56所述的方法，其中所述生物样品是甲状腺组织的细针抽吸物。

61.根据权利要求56所述的方法，其中所述表达水平通过微阵列、SAGE、印迹法、RT-PCR、测序和/或定量PCR来测定。

62.根据权利要求56所述的方法，其中所述一种或多种基因表达产物包含RNA。

63.根据权利要求62所述的方法，其中所述RNA是mRNA、rRNA、tRNA和/或miRNA。

64.根据权利要求56所述的方法，其中所述生物样品以至少95％准确的准确度被分类为含有或不含血液组分。

65.根据权利要求56所述的方法，其中所述生物样品以至少99％准确的准确度被分类为含有或不含血液组分。

66.根据权利要求56所述的方法，其中(c)的比较产生了非血液组织的降低的假阳性鉴定率。

67.一种用于诊断和/或治疗疑似患有疾病的受试者的方法，该方法包括：

(a)从所述受试者获得生物样品；

(c)使用一种或多种临床统计学来比较(b)的所述表达水平与表14和/或表15的多个基因的参考表达水平以生成表达水平的比较，其中所述比较是由计算机处理器进行的；

(d)基于所述比较将所述生物样品分类为含有或不含滤泡组织，以产生所述生物样品的分类；和

(e)基于(d)的分类诊断和/或治疗所述受试者。

68.根据权利要求67所述的方法，其中使用经训练的算法或包含线性支持向量机分类器的算法进行所述比较。

69.根据权利要求68所述的方法，其中所述经训练的算法使用组织样品、细针抽吸物或其组合来训练。

70.根据权利要求67所述的方法，其中所述生物样品通过针抽吸、细针抽吸、芯针活检、真空辅助活检、大芯活检、切开活检、切除活检、钻取活检、刮取活检或皮肤活检获得。

71.根据权利要求67所述的方法，其中所述生物样品是甲状腺组织的细针抽吸物。

72.根据权利要求67所述的方法，其中所述表达水平通过微阵列、SAGE、印迹法、RT-PCR、测序和/或定量PCR来测定。

73.根据权利要求67所述的方法，其中所述一种或多种基因表达产物包含RNA。

74.根据权利要求73所述的方法，其中所述RNA是mRNA、rRNA、tRNA和/或miRNA。

75.根据权利要求67所述的方法，其中所述生物样品以至少95％的准确度被分类为含有或不含滤泡组织。

76.根据权利要求67所述的方法，其中所述生物样品以至少99％的准确度被分类为含有或不含滤泡组织。

77.根据权利要求67所述的方法，其中(c)的比较产生了非滤泡组织的降低的假阳性鉴定率。

78.根据权利要求1、27、56或67所述的方法，其中所述疾病是癌症。