CN102333888B

CN102333888B - 用于肿瘤样本起源组织分类的基因表达签名

Info

Publication number: CN102333888B
Application number: CN200980157378XA
Authority: CN
Inventors: R·阿哈龙; N·罗森菲尔德; S·罗森瓦尔德
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-12-24
Filing date: 2009-12-23
Publication date: 2013-07-10
Anticipated expiration: 2029-12-23
Also published as: WO2010073248A3; WO2010073248A2; CN102333888A

Abstract

本发明提供一种通过分析特异性microRNA及与其相关的核酸分子的表达模式对癌症和起源组织进行分类的方法。根据基于microRNA树的表达框架的分类允许治疗的优化和特定疗法的确定。

Description

用于肿瘤样本起源组织分类的基因表达签名

相关申请的交叉参考

根据美国法典35编119条(e)项，本申请要求美国临时申请号为61/140,642(2008年12月24日提交)的优先权，其全部内容在此引入作为参考。

技术领域

本发明涉及癌症分类及其组织起源确定的方法。具体来说，本发明涉及与特定癌症相关的微RNA(microRNA)，以及与microRNA有关或由其衍生的各种核酸分子。

背景技术

微RNA(miRs，miRNAs)是一类新发现的非编码、调控型RNA基因^1-3，其与肿瘤发生相关⁴且表现出显著的组织特异性^5-7。它们已作为高度组织特异性的生物标志物，并推测在编码分化发育的决定中起着很重要的作用^2，5，6。许多研究结果都显示了微RNA与特定恶性肿瘤的关联⁴。微RNA在组织中、储存的冷冻样本或福尔马林固定样本、石蜡包埋(FFPF)样本和血清中也都是稳定的。

在美国，每年有成千上万的患者被诊断为已经转移的癌症，却不能清楚的确定原发部位。肿瘤学家和病理学家在试图确定转移患者的原发灶(primary origin)时，经常面临诊断困境。由于需要根据原发灶来治疗转移，所以精确确定原发灶对决定适合的治疗至关重要。

一旦发现转移肿瘤，患者可能经历一系列昂贵，费时且低效的测试，包括患者的身体检查，活检病理组织学分析，如胸部X光片，CT和PET扫描的成像方法，以确定转移的原发灶。

原发灶不明转移癌(CUP)占所有新的癌症病例的3-5％，是组非常具有侵略性的预后性很低的疾病¹⁰。

CUP的概念来自于确定癌症起源的现有方法的局限，尽管通常采用复杂和昂贵的方法，适合这类患者的治疗却明显被耽误。由于缺少基于CUP的证据¹¹，最新的研究显示临床管理具有高度可变性。对很多操作步骤进行了评估¹²，但是成效甚微¹³。因此，确定肿瘤起源组织成为一项重要的临床分子诊断应用⁹。

肿瘤起源组织^14-17的分子分类研究一般使用分类算法，而没有利用特定领域的知识：组织被视为先验等值(priori equivalents)，忽视了在胚胎发育中具有共同发育起源的组织类型之间的潜在的相似性。值得注意的是谢登和同事¹⁸的研究，该研究基于病理分类树。这些研究使用机器学习方法，平均生物特征(例如，mRNA表达水平)的影响，这是更适合自动化处理的方法，但不使用或生成机理的见解。

已提出各种标志物以标示特定类型的癌症和肿瘤组织的起源，然而，肿瘤标志物的诊断准确性，至今尚未被确定，因此需要一个更有效率的诊断和分类特定类型癌症的有效方法。

发明内容

本发明提供了用于特定癌症和肿瘤起源组织的确定、分类和诊断的特定核酸序列。基于生物学样本中的大量的核酸序列，该核酸序列也可作为受试者预后评估和确定合适治疗的预后标志物。本发明进一步提供了精确地确定肿瘤组织起源的方法。

本发明部分基于用于肿瘤分类的、基于microRNA的分类器(classifier)的发展。测量了来自26个不同的肿瘤类(包括原发肿瘤和转移肿瘤)，对应于18个不同的组织和器官的903个石蜡包埋样本的microRNA的表达水平。样本的microRNA微阵列以及qRT-PCR数据用于构建所述分类器，基于48个组织特异性的microRNA，每个与特定的差异诊断作用相关联。

独立的确定肿瘤起源组织的盲测的总灵敏度为84％，特异性为97％。高可信度的预测达到90％的敏感性和99％的特异性。

研究结果表明了microRNA的效用，该microRNA作为转移肿瘤的起源组织的新的生物标志物。所述分类器具有广泛的生物学以及诊断应用。

根据第一方面，本发明提供了一种确定生物样本起源组织的方法，该方法包括：从受试者中获得生物样本；确定针对预定的一系列microRNA的单独核酸的表达图谱；和通过分类器对所述样本的起源组织进行分类。根据一种实施方式，所述分类器是决策树模型(decision tree model)。

根据另一个方面，本发明提供了一种生物样本起源组织的分类方法，该方法包括：从受试者中获得生物样本；确定所述样本中选择由SEQ ID NOS：1-49组成的组的核酸序列的表达图谱，或与所述核酸序列具有至少约80％同一性的序列的表达图谱；使用分类器算法比较所述表达图谱与参考表达图谱；通过所述核酸序列中任意的一种或组合的表达来确定所述样本的起源组织。

根据一种实施方式，所述分类器算法是决策树分类器，逻辑回归分类器，线性回归分类器，最近邻分类器(包括K近邻)，神经网络分类器，高斯混合模型(GMM)分类器和支持向量机(SVM)分类器，最近重心(nearestcentroid)分类器，随机森林分类器或这些分类器的任何boosting算法或拔靴集成法(bagging)。

根据某些实施方式，所述组织选自由肝，肺，膀胱，前列腺，乳腺，结肠，卵巢，睾丸，胃，甲状腺，胰腺，脑，头颈部，肾脏，黑色素细胞，胸腺，胆道和食管组成的组。

根据一些实施方式，所述生物样本为癌样本。

根据另一个方面，本发明提供一种癌症的分类方法，该方法包括：从受试者中获得生物样本，测量所述样本中选自由SEQ ID NOS：1-49组成的组中核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；使用分类器算法比较得到的测量值与表征所述核酸序列丰度的参考值；根据所述核酸序列的丰度对所述样本进行分类。

根据一些实施方式，所述参考值是预先确定的阈值。

根据一种实施方式，所述样本从患有转移癌的受试者中获得。根据另一种实施方式，所述样本从患有原发灶不明癌(CUP)的受试者中获得。根据再一种实施方式，所述样本从患有原发癌的受试者中获得。根据再另一种实施方式，所述样本为未确定起源的肿瘤、转移肿瘤或原发肿瘤。

根据某些实施方式，所述癌症选自由肝癌，胆道癌，肺癌，膀胱癌，前列腺癌，乳腺癌，结肠癌，卵巢癌，睾丸癌，胃癌，甲状腺癌，胰脏癌，脑癌，头颈癌，肾癌，黑色素瘤，胸腺癌和食管癌组成的组。

根据一些实施方式，所述肺癌选自由肺类癌、肺小细胞癌、肺腺癌、肺鳞癌组成的组。

根据一些实施方式，所述脑癌选自由脑星形胶质细胞瘤和脑少突胶质细胞瘤组成的组。

根据一些实施方式，所述甲状腺癌选自由甲状腺滤泡癌、甲状腺乳头状癌和甲状腺髓样癌组成的组。

根据一些实施方式，所述卵巢癌选自由卵巢子宫内膜样癌和卵巢浆液性癌组成的组。

根据一些实施方式，所述睾丸癌选自由睾丸非精原细胞瘤和睾丸精原细胞瘤组成的组。

根据一些实施方式，所述食管癌选自由食管腺癌和食管鳞状细胞癌组成的组。

根据一些实施方式，所述头颈癌选自由喉癌、咽癌和鼻癌组成的组。

根据一些实施方式，所述胆道癌选自由胆道癌和胆囊癌组成的组。

根据其他的实施方式，所述生物样本选自由体液，细胞株，组织样本，活检样本，穿刺活检样本，手术切除的样本，组织取样过程获得的样本组成的组。根据一些实施方式，所述生物样本为细针穿刺(FNA)样本。根据一些实施方式，所述组织为新鲜的组织、冷冻的组织、固定的组织、石蜡包埋的组织或福尔马林固定石蜡包埋(FFPE)的组织。

本发明的分类方法包括使用至少一种分类器算法，所述分类器算法选自由决策树分类器，逻辑回归分类器，线性回归分类器，最近邻分类器(包括K近邻)，神经网络分类器，高斯混合模型(GMM)分类器和支持向量机(SVM)分类器，最近重心分类器，随机森林分类器组成的组，或这些分类器的任何boosting算法或拔靴集成法(bagging)。

所述分类器可使用决策树结构(包括二叉树)或投票(包括加权投票)方案以比较一种或多种分类器算法的分类，以便得出统一或符合多数的决策。

本发明进一步提供了一种对肝起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，9，25，26组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明肝起源的癌症。

本发明还提供一种对睾丸起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，26，41组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明睾丸起源的癌症。

本发明还提供一种对睾丸精原细胞瘤起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，26，31，41，45，48组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明睾丸精原细胞瘤起源的癌症。

本发明还提供一种对黑色素瘤起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，15，17，26，41，46组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明黑色素瘤起源的癌症。

本发明还提供一种对肾起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，7，15，17，26，41，46，47组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明肾起源的癌症。

本发明还提供一种对脑起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，7，15，17，26，41，46，47组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明脑起源的癌症。

本发明还提供一种对脑星形胶质细胞瘤起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，7，10，15，17，26，41，46，47组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明脑星形胶质细胞瘤起源的癌症。

本发明还提供一种对脑少突胶质细胞瘤起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，7，10，15，17，26，41，46，47组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明脑少突胶质细胞瘤起源的癌症。

本发明还提供一种对甲状腺髓样起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：6，17-19，24，26，32，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明甲状腺髓质起源的癌症。

本发明还提供一种对肺类癌起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，6，17-19，24，26，32，36，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明肺类癌起源的癌症。

本发明还提供一种对肺小细胞癌起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，6，17-19，24，26，32，36，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明肺小细胞癌起源的癌症。

本发明还提供一种对结肠起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：1，3，4，6，17-19，21，26，29，34，37，41，42，48组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明结肠起源的癌症。

本发明还提供一种对胃起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：1，3，4，6，17-19，21，26，29，34，37，41，42，48组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明胃起源的癌症。

本发明还提供一种对胰腺起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：1，3，6，17-19，21，26，28，29，33，37，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明了胰腺起源的癌症。

本发明还提供一种对胆道起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：1，3，6，9，17-19，21，25，26，28，29，33，37，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明胆道起源的癌症。

本发明还提供一种对前列腺起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，6，17-21，26，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明前列腺起源的癌症。

本发明还提供一种对卵巢起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，5，6，11，17-21，26，30，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明卵巢起源的癌症。

本发明还提供一种对卵巢子宫内膜样起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：2，3，5，6，11，17-22，26，30，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明卵巢子宫内膜样起源的癌症。

本发明还提供一种对卵巢浆液性起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：2，3，5，6，11，17-22，26，30，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明卵巢浆液性起源的癌症。

本发明还提供一种对乳腺起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，5，6，11，17-22，26，30，39，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明乳腺起源的癌症。

本发明还提供一种对肺腺癌起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，5，6，8，11，16-22，26，27，30，37，39，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明肺腺癌起源的癌症。

本发明还提供一种对乳头状甲状腺起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，5，6，8，11，16-22，26，27，29，30，37-39，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明乳头状甲状腺起源的癌症。

本发明还提供一种对滤泡甲状腺起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，5，6，8，11，16-22，26，27，29，30，37-39，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明滤泡甲状腺起源的癌症。

本发明还提供一种对胸腺起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3，5，6，11，16-22，26，27，29，30，35，39，41，42组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明胸腺起源的癌症。

本发明还提供一种对膀胱起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3-6，11，16-22，26，27，29，30，35，39，41，42，44组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明膀胱起源的癌症。

本发明还提供一种对肺鳞状起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3-6，11，16-23，26，27，29，30，32，35，39，41，42，44组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明肺鳞状起源的癌症。

本发明还提供一种对头颈起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3-6，11，14，16-23，26，27，29，30，32，35，37，39，41，42，44，45组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明头颈起源的癌症。

本发明还提供一种对食管起源的癌症进行分类的方法，该方法包括，测量来自受试者的样本中选自由SEQ ID NOS：3-6，11，14，16-23，26，27，29，30，32，35，37，39，41，42，44，45组成的组的核酸序列的相对丰度，或与所述核酸序列具有至少约80％同一性的序列的相对丰度；其中，所述核酸序列的丰度表明食管起源的癌症。

根据一些实施方式，所述核酸序列的表达图谱或相对丰度通过选自由核酸杂交和核酸扩增组成的组中的方法确定。根据一些实施方式，所述核酸杂交使用固相核酸生物芯片(biochip)阵列或原位杂交进行。

根据一些实施方式，所述核酸扩增方法为实时PCR。所述实时PCR方法可包括正向引物和反向引物。根据一些实施方式，所述正向引物包括选自由SEQ ID NOS：50-98和150组成的组中的序列。根据一些实施方式，所述反向引物包括SEQ ID NO：288。

根据另外的实施方式，所述实时PCR方法还包括探针。根据一些实施方式，所述探针包括选自由与选自SEQ ID NOS：1-49中的序列互补的序列所组成的组中的序列；或这些序列的片段和与它们具有至少约80％同一性的序列。根据另外的实施方式，所述探针包括选自由SEQ ID NOS：99-149和151组成的组中的序列。

根据另一个方面，本发明提供用于癌症分类的试剂盒，该试剂盒含有探针，该探针含有由与选自SEQ ID NOS：1-49的序列互补的序列组成的组中的序列；它们的片段和与它们具有至少约80％同一性的序列。

根据另外的实施方式，所述探针含有选自由SEQ ID NOS：99-149和151组成的组中的序列。

本发明的这些和其他实施方式将会通过以下的图，描述和权利要求书进一步明确。

附图说明

图1A-图1C示出了二元决策树分类器的结构，有26个节点(编号见表3)和27个叶。每个节点是两套样本的二元决策，所述两套样品位于该节点的左侧和右侧。一系列的二元决策，从节点1(node#1)开始向下，导出一种可能的肿瘤类型，为所述树的“叶”。样本在节点1被分类到左分支，继续到节点2，否则到节点3。样本到达节点2，在节点2进一步分类到左分支，被指定为“肝”类，或者在节点2进入右分支，被指定为“胆道癌”类。

在连续性的节点，利用微RNA表达水平做出决策，直到到达终点(end-point)(所述树的“叶”)，则表明了这个样本的预测类。在具体的所述树结构中，训练集(training set)数据中观察到的性质还要结合临床病理学的考虑。

开发不同的分类器，如针对男性和女性案例或针对不同的肿瘤位点，会影响利用测量数据的效率并需要庞大数量的样本。作为替代的，考虑几种特殊案例作为例外：对于来自女性患者的样本，睾丸或前列腺起源会从KNN数据库中排除，决策树中，在节点3和节点16会自动选择右分支。对于来自男性患者的样本，排除卵巢起源，在节点17选择右分支。对于已经确定恶性转移到肝的样本，肝起源(来自肝脏内的肝细胞癌和胆道癌)被排除，在节点1选择右分支。对于已经确定为脑转移癌的样本，排除脑起源，在节点7选择右分支。在不损害完整性或需要重新训练分类器时，可向分类决策中引入额外的信息。

图2示出了在决策树节点#1的二元决策。当训练针对给定节点的决策算法时，仅有来自该节点可能的输出(“叶”)的类中的样本被用于训练。利用线性分类器(斜线)的hsa-miR-200c(SEQ ID NO：26)和hsa-miR-122(SEQ IDNO：6)(有一个异常值)的表达水平，起源于节点1的左分支的组织的肿瘤，包括“肝”类和“胆道”类(肝-胆道，菱形)很容易和非肝非胆道起源的肿瘤(节点2的右分支，灰色方块)区分开来。

图3示出了决策树节点5的二元决策。利用has-miR-200c(SEQ ID NO：26)和has-miR-148b(SEQ ID NO：17)的表达水平，很容易将上皮起源的肿瘤(节点5的左分支，菱形标识)和非上皮起源的肿瘤(节点5的右分支，方块标识)区分开来。灰色区域(高水平的has-miR-200c)表示被分类为上皮(在该节点的左分支)的区域。

图4示出了决策树节点7的二元决策。利用has-miR-124(SEQ ID NO：7)和has-miR-9*(SEQ ID NO：47)的表达水平，很容易将脑起源的肿瘤(菱形)和肾起源的肿瘤(方块)区分开来。

图5示出了决策树节点10的二元决策。利用has-miR-200a(SEQ ID NO：24)和has-miR-222(SEQ ID NO：32)的表达水平，很容易将肺起源的神经内分泌肿瘤(菱形)和甲状腺髓样起源的肿瘤(方型)区分开来。

图6示出了决策树节点12的二元决策。利用has-miR-106a(SEQ ID NO：3)和has-miR-192(SEQ ID NO：21)的表达水平，很容易将胃肠道起源的肿瘤(节点12的左分支，菱形标识)与非消化系统起源的肿瘤(节点12的右分支，方块标识)区分开来。

图7示出了决策树节点16的二元决策。利用has-miR-185(SEQ ID NO：20)和has-miR-375(SEQ ID NO：42)的表达水平，很容易将前列腺起源的肿瘤(节点16的左分支，菱形标识)和其他起源的肿瘤(节点16的右分支，方块标识)区分开来。

图8A-图8B示出了分类实例。图8A显示比较has-miR-200c(SEQ ID NO：26)和has-miR-122(SEQ ID NO：6)的测量水平(归一化的C_t，与log(丰度)成反比)用于所有的训练集样本，表明节点1的左分支和右分支(分别为圆圈和星形)。一个从大脑切下的转移肿瘤(方块)，来自于患有肺部并发肿瘤的患者，因此起初被诊断为肺癌。然而，这个样本表现出非典型的has-miR-122的高表达，这是个很强的肝癌标志物，故而被微RNA分类器分类为可能起源于肝。图8B显示通过免疫组织化学法重新检查这个脑转移肿瘤(在不知道微RNA诊断结果前提下)，发现该肿瘤实际上为肺特异性标识物阴性：该样品对于CK7和TTF1，以及CK20、CEA、CA125、s-100、甲状腺球蛋白、嗜铬粒蛋白、突触素、CD56、GFAP、降钙素和垂体前叶激素组化染色均为阴性，而用CAM5.5’和AE1/AE3染色则为阳性。这染色模式与肝细胞癌吻合，进一步促使HEPAl和甲胎蛋白染色。用这两种染色肿瘤也是阳性，与诊断为肝细胞癌一致(图8B)。H&E染色(上图)显示转移是由具有丰富的嗜酸性粒细胞细胞质和圆形至椭圆形核的一片细胞组成。在许多用于评估肿瘤起源的免疫染色中，HEPA-1表现强且特异性的免疫阳性(下图)。

具体实施方式

确定肿瘤的起源组织对其管理是至关重要的。本发明部分基于特异性核酸序列的发现，所述核酸序列能用于确定肿瘤的起源组织。本发明提供一种敏感、特异和精确的方法，该方法可以用来区分不同的组织和肿瘤起源。发展了新的基于微RNA的分类器，令人惊讶的是，该分类器仅用少量的48个微RNA标志物就可以确定肿瘤的起源组织。该分类器利用特殊的算法，清晰地解释了特异性标志物。高可信度的预测达到90％的灵敏度和99％的特异性。

根据本发明，所述分类树中的每个节点可作为独立的差异诊断工具，比如，可以用于确定不同类型的肺癌。使用少量的标识物的实施展示了微RNA作为组织特异性癌症标志物的效用，提供了促进CUP诊断，更具体的确定转移癌的起源的有效手段。

区分不同肿瘤起源的可能性促进了为患者提供最佳最妥的治疗。

本发明提供了诊断试验和方法，通过比较本发明的特异性microRNA分子的水平，既可定性也可定量地对癌症进行检测、诊断、监测、分期和预测。所述水平优选在活体样本、肿瘤样本、细针穿刺(FNA)、细胞、组织和/或体液中的至少一种中测得。本发明提供一种方法，该方法通过分析活检样本、肿瘤样本、细胞、组织或体液中的所述微RNA的水平，来诊断特定癌症的存在与否。

本发明中，测定活检样本、肿瘤样本、细胞、组织或体液中所述微RNA的水平，特别适用于区分不同的癌症。

本发明的所有方法可选的还包括测量其他癌症标志物的水平。除所述的微RNA分子外，可用于本发明的其他癌症标志物依赖于被检测的癌症，且这些其他癌症标志物均为本领域技术人员公知。

可用于测定来自患者的样本中的基因(例如本发明的所述核酸序列)表达水平的试验技术为本领域技术人员公知。这样的试验方法包括并不限于：逆转录PCR(RT-PCR)，核酸微阵列，生物芯片分析，免疫组化试验，原位杂交试验，竞争结合试验，Northern blot分析和酶联免疫试验(ELISA)。

根据一种实施方式，试验基于从FFPE转移肿瘤组织中提取的RNA中48种微RNA的表达水平。该测试使用定量实时逆转录聚合酶链式反应(qRT-PCR)。RNA首先多聚腺嘌呤化，然后用通用多聚T适配子进行反转录生成cDNA。该cDNA用特异性正向引物和通用的反向引物(和多聚T适配子5’末端序列互补)，用特异性MGB探针检测(见表1中的特异性序列)。

通过表达水平以推断样本起源的分析技术包括但不局限于：决策树分类器，逻辑回归分类器，线性回归分类器，近邻分类器(包括K近邻)，神经网络分类器和近重心分类器。

表达水平根据预先定义的二元决策树(使用训练集定义)做出二元决策(在每个相关节点)。在每一个节点，将一个或多个微RNA的表达进行结合，公式为：P＝exp(b0+b1*mir1+b2*mir2+b3*mir3...)，其中，b0、b1、b2....的数值和微RNA都是预先测定的(用训练集)。得到的P将和阈值水平PTH(也是用训练集测定)进行比较，根据这个节点的P值是大于PTH还是小于PTH来决定分类继续往左分支进行还是往右分支进行。这样继续下去，直到到达树的终点(“叶”)。

训练树的算法是指要测定：该树的结构(节点是什么和节点两侧是什么)，在每个节点处使用miRs和b0、b1、b2...及PTH的值。这些要由机器学习和诊断算法的专家通过结合机器学习，优化算法，试验和误差来测定。

在本发明一些实施方式中，相关性和/或分层集群可以用来评估特定样本和不同癌症样本之间本发明的核酸序列表达水平的相似度。对任意一个或多个核酸序列的表达水平的阈值可设置用于指定样本或癌症样本为两组中的一组。或者，在优选实施方式中，本发明的一个或多个核酸序列的表达水平通过例如逻辑回归法组合以定义度量，然后与以前测量的样本或与阈值进行比较。指定的该阈值作为参数处理，其可用于定量被指定为每类的样品的可信度。该指定的阈值的灵敏度和特异性还可以根据临床的需要做调整。相对于参考数据的关联值产生的连续的得分可被度量以提供关于样本属于特定类癌症起源或种类的可能性的诊断信息。在多变量分析中，该微RNA签名提供了高水平的预后信息。

在另一优选实施方式中，通过与训练集样本进行比较，所述核酸的表达水平用于对测试样本进行分类。在该实施方式中，测试样本依次与每一个训练集样本比较。每次这样的两两比较都通过比较测试样本和特定训练样本中一个或多个核酸的表达水平来进行。每次这样的两两比较都产生针对多种核酸的综合度量(combined metric)，其可由不同的数值方法进行计算，如相关度、余弦、欧氏距离、均方距离、或任何本领域技术人员公知的其他方法。根据该度量，可对训练样本排列，确认获得最高度量值的样本(或最低值，根据度量的类型)，表明这些就是与测试样本最相近的样本。通过选择参数K，得到包括K训练样本在内的与测试样本最接近的列表。然后，许多不同的方法都可以用于从该列表中验证预测的测试样本类。在一种优选实施方式中，测试样本被预测与K最相似的训练样本的列表所表现出的最高数值同属一类(这个方法被称为K近邻法)。其他的实施方式可提供预测的列表，包括所有或部分该列表中表现出的类，这些类显示出多于给定的次数或其他投票方案的最小值，这些类被归类为一组。

定义

应理解，本文中使用的术语仅为描述特定实施方式之用，并非意为受到限制。必须指出的是，用于本说明书和随附的权利要求数中的单数形式“a，”“an”和“the”除非另行标明否则包括复数的所指对象。

对于本文的数字范围列举，每个具有同样精确度的中间数值都是明确被包括的。例如，对于6-9的范围，除6和9以外，数值7和8也是明确被包括的，以及对于6.0-7.0，数值6.0、6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9、7.0是明确被包括的。

约

如本文所用的，“约”指+/-10％。

附着的

如本文所用的，“附着的”或“固定的”，涉及探针和固相支持物，意思是该探针和该固相支持物之间的结合在结合、洗涤、分析和去除条件下都足够稳定。所述结合可以是共价或非共价的。共价键可以在所述探针和所述固相支持物间直接形成，也可通过交联剂、或在探针和固相支持物上或者在两个分子上引入特异性活性基团来形成。非共价结合可以为一个或多个静电、亲水性和疏水性相互作用。包括在非共价结合中的是在固相支持物上共价附着分子，如链霉亲和素，然后生物素标记的探针可以通过非共价键与链霉亲和素结合。固相化也可涉及共价与非共价相互作用的组合。

基线

如本文所用的，“基线(baseline)”是指PCR的初始循环，其中，荧光信号的变化不大。

生物样本

如本文所用的，“生物样本”意味着包括核酸的生物组织或液体的样本。这些样本包括但不仅限于，从受试者中分离的组织或液体。生物样本也可包括组织的切片，如活检和尸检样本，FFPE样本，为组织学目的采取的冰冻切片，血液，血液组分，血浆，血清，痰，粪便，眼泪，粘液，毛发，皮肤，尿液，渗出液，腹水，羊水，唾液，脑脊液，宫颈分泌物，阴道分泌物，子宫内膜分泌物，胃肠道的分泌物，支气管分泌物，细胞株，组织样本，或乳房分泌物。生物样本可由细针穿刺(FNA)提供。生物样本可以是从受试者身上分离的细胞，但也可以使用以前分离的细胞(例如，在其他时间和/或用于其他目的，从其他人中分离的)完成，或用本文描述的体内方法完成。也可使用存档组织，如有治疗或结果历史的样本。生物样本还包括来自动物或人体组织的植入物和原生和/或转化的细胞培养物。

癌症

术语“癌症”是指包括所有类型的癌细胞的生长或致癌过程，转移组织或恶变的细胞，组织或器官，无论侵袭的病理组织学类型或阶段。癌症的例子包括，但不仅限于，实体瘤和白血病，包括：APUD瘤(apudoma)，迷芽瘤，鳃原瘤，恶性类癌综合征，类癌心脏病，癌(例如，沃克，基底细胞，鳞状细胞基底细胞(basosquamous)，布朗-皮尔斯，导管，埃利希腹水瘤，非小细胞肺癌(如肺鳞癌，肺腺癌和肺未分化大细胞癌)，燕麦细胞，乳头状，细支气管，支气管，鳞状上皮细胞，移行细胞)，组织细胞紊乱，白血病(如B细胞，混合细胞，空细胞，T细胞，慢性T细胞，HTLV-II相关，急性淋巴细胞，慢性淋巴细胞，肥大细胞和骨髓)，恶性组织细胞增生症，霍奇金病，小免疫增生，非霍奇金淋巴瘤，浆细胞瘤，网状内皮组织增殖，黑色素瘤，软骨母细胞瘤，软骨瘤，软骨肉瘤，纤维瘤，纤维肉瘤，巨细胞瘤，组织细胞瘤，脂肪瘤，脂肪肉瘤，间皮瘤，粘液瘤，粘液肉瘤，骨瘤，骨肉瘤，尤文肉瘤，滑膜瘤，腺纤维瘤，腺淋巴瘤，癌肉瘤，脊索瘤，颅咽管瘤，无性细胞瘤，错构瘤，间叶瘤，中肾瘤，肌肉瘤，成釉细胞瘤，牙骨质瘤，牙瘤，畸胎瘤，胸腺瘤，滋养细胞肿瘤，腺癌，腺瘤，胆道癌，胆脂瘤，圆柱瘤，囊腺癌，囊腺瘤，颗粒细胞瘤，两性母细胞瘤，肝细胞瘤，汗腺腺瘤，胰岛细胞瘤，睾丸间质细胞瘤，乳头状瘤，塞特利氏细胞瘤，卵泡膜细胞瘤，平滑肌瘤，平滑肌肉瘤，成肌细胞瘤，肌肉瘤，横纹肌瘤，横纹肌肉瘤，室管膜瘤，神经节细胞瘤，神经胶质瘤，髓母细胞瘤，脑膜瘤，神经鞘瘤，神经母细胞瘤，神经上皮瘤，神经纤维瘤，神经瘤，副神经节瘤，非嗜铬副神经节瘤，血管角化瘤，与嗜酸性粒细胞浸润的血管淋巴增生，硬化性血管瘤，多发性血管瘤，血管球瘤，血管内皮细胞瘤，血管瘤，血管外皮细胞瘤，血管肉瘤，淋巴管瘤，淋巴管肌瘤，淋巴管肉瘤，松果体瘤，癌肉瘤，软骨肉瘤，囊性肉瘤，叶状瘤，纤维肉瘤，血管肉瘤，平滑肌肉瘤，白色肉瘤，脂肪肉瘤，淋巴管肉瘤，肌肉瘤，粘液肉瘤，卵巢癌，横纹肌肉瘤，肉瘤(例如，尤文，实验，卡波西和肥大细胞)，神经纤维瘤病，宫颈非典型增生，和在其他条件下变成永生的或转移的细胞。

分类

术语分类是指过程或算法，其中，根据项目内在特有的一种或多种性质(所指如特点，变量，特性，特征等等)的量化信息以及根据统计学模型和/或事先标记该项目的训练集，将该项目划分在组或类中。“分类树”就是将分类的变量划分到类的决策树。

互补

本文所用的“互补”或“互补的”是指核酸分子中核苷或核苷类似物之间的核酸形成Watson-Crick(例如，A-T/U和C-G)或Hoogsteen碱基配对。完全互补或完全互补的指核酸分子中的核苷或核苷类似物的碱基对100％配对。在一些实施方式中，所述互补序列是反向的(5’-3’)。

Ct

Ct信号代表PCR的第一循环，其中，扩增跨越荧光阈值(循环阈值)。因此，Ct值低代表微RNA丰度高或表达水平高。

在一些实施方式中，所述PCR的Ct信号要归一化，这样归一化后的Ct值与表达水平成反比。在另外一些实施方式中，所述PCR的Ct信号可归一化，然后反转，这样反转归一化后的低Ct值代表微RNA的丰度低和表达水平低。

数据处理程序

如本文所用的，“数据处理程序”是指能利用软件，确定所测数据的生物学意义的处理(即，试验或分析的最终结果)。比如基于采集的数据，对数据的处理程序可以帮助确定起源组织。在本文的系统和方法中，所述数据处理程序还可以控制基于预定结果的数据采集程序。所述数据处理程序和数据采集程序能整合一起提供操作获取数据的反馈，从而提供基于试验的判读方法。

数据集

如本文所用的，术语数据集是指从分析中得到的数值。这些与分析相关的数值可被评估，例如峰高和曲线下面积。

数据结构

如本文所用的，术语“数据结构”指结合两个或多个数据集的组合，在一个或多个数据集上应用一种或多种数学运算模式，以获得一个或多个新的数据集，或操作两个或多个数据集成为表格，来以新的方式提供可视化数据演示。分层集群就是操作两个或多个数据集制得的数据结构的例子。

检测

“检测”是指检测样本中的组分的存在。检测也意味着检测组分的不存在。检测还意味着定量或定性地确定组分的水平。

差异表达

“差异表达”指在细胞和组织中，时间和/或空间上，基因表达的定性或定量的差异。因此，差异表达的基因可以定性的改变表达模式，包括激活或灭活，如正常组织相对于疾病组织。相对于其他的阶段，基因可能在特定的阶段被开启或关闭，因此，这可用来比较两个或多个阶段。定量调控的基因会在某阶段或细胞类型中展示出表达图谱，可通过标准技术测出。有些基因可在一个阶段或一种类型的细胞中表达，而不会在两者中都有。另外，表达的差异可被量化，例如，如果表达被上调调节，其结果是转录子量的增加，而下调的结果是转录子量的减少。表达水平的差异只要大到可以用标准的鉴定方法定量即可，比如表达阵列，定量逆转录PCR，northern blot分析，实时PCR，原位杂交和RNA酶保护试验。

表达图谱

术语“表达图谱”被广泛使用包括基因组表达图谱，例如，微RNA表达图谱。图谱可用任何能决定核酸序列水平的合适的方法生成，例如微RNA的定量杂交，微RNA标记，微RNA扩增，cDNA等等。定量PCR，定量ELISA等都可用于分析两组样本中基因表达的差异。受试者或患者的肿瘤样本，例如，细胞或其收集物，例如组织，都可被试验。样本可用任何本领域已知的方法进行采集。感兴趣的核酸序列是指被证实能够预测的核酸序列，包括上述提供的核酸序列，表达图谱可包括5，10，20，25，50，100或更多的核酸序列的表达数据。根据一些实施方式，术语“表达图谱”是指测量核酸序列在所检样本中的相对丰度。

表达率

如本文所用的，“表达率”，是指通过检测生物样本中相关核酸的相对表达水平而决定出两个或多个核酸的相对表达水平。

FDR

当执行多个统计测试时，例如在多个数据特征上比较两组之间的信号，因组间的随机差异可能达到被认为具有统计学意义，会导致获得假阳性结果的可能性增加。为了限制这些假发现的比率，统计学意义仅被定义为数据特征的差别达到低于阈值的p-值(根据两边t-test)，其依赖于实施测试的次数和在这些测试中得到的p-值的分布。

片段

本文所用的“片段”是指核酸的非全长的部分，因此，片段本身也是核酸。

基因

如本文所用的，“基因”，可以是天然的(例如基因组基因)或是合成的基因，其包括转录和/或翻译调节序列和/或编码区和/或非翻译序列(例如，内含子，5’-和3’-非翻译序列)。所述基因编码区可以是编码氨基酸或功能RNA(比如tRNA、rRNA、催化RNA、siRNA、miRNA或反义RNA)的核苷酸序列。基因也可以是mRNA或cDNA相应的编码区(比如，外延子和miRNA)可选择性地含有与其连接的5’-或3’-非翻译序列。基因也可以是体外得到的扩增的核酸分子，包括所有或部分编码区和/或与其连接的5’-或3’-非翻译序列。

槽沟结合物/小沟结合物(MGB)

“槽沟结合物”和/或“小沟结合物”，可交替使用，是指典型的能以序列特异性方式契合进双链DNA小沟的小分子。小沟结合物可以是长的平面分子，可以采取类新月的形状来紧贴契合进双螺旋的小沟，经常取代水。小沟结合物分子通常含有由具有扭转自由度的键连接的多个芳香环，如呋喃，苯或吡咯环。小沟结合物可以是抗生素，如纺锤菌素，远霉素，重氮氨苯脒乙酰甘氨酸盐，喷他脒和其他芳香联脒，Hoechst 33258，SN 6999，金霉类抗肿瘤药物，如色霉素和光神霉素，CC-1065，DPI₃(dihydrocyclopyrroloindoletripeptide)，1，2-二氢-(3H)-吡咯并[3，2-e]吲哚-7-羧酸(CDPI₃)，及相关化合物和类似物，包括那些在《化学和生物学中的核酸》(第二版，布莱克本和步态编，牛津大学出版社，1996年)和PCT公开号：WO 03/078450中所描述的，其内容引入本文作为参考。小沟结合物可以是引物，探针，杂交标记的互补链的组分，或它们的组合。小沟结合剂可能会增加所连接的引物或探针的Tm，让这些引物或探针在更高温度下有效地杂交。

宿主细胞

如本文所用的，“宿主细胞”，可能是天然发生的细胞或可含有载体且可支持该载体复制的转化细胞。宿主细胞可以是培养的细胞，外植体，体内细胞，等等。宿主细胞可以是原核细胞，比如大肠杆菌，或真核细胞，比如酵母细胞，昆虫细胞，两栖动物细胞，或者哺乳动物细胞，例如CHO细胞和HeLa细胞。

同一性

如本文所用的，在两个或多个核酸或多肽序列中的“同一性的”或“同一性”，是指序列具有一定百分比的残基，这些残基在特定区域内相同。所述百分比可通过优化的两个序列的比对计算得到，在所述特定区域内比较这两条序列，得到在两条序列中出现的同样残基的位置的数目以得到匹配位置的总数，再除以特定区域位置的总数，结果乘100得出序列同一性的百分比。如果两个序列的长度不同或比较结果出现一个或多个交错的末端且比较的特定区域仅包括单一序列，单一序列的残基包括在计算的分母上而不算在分子上。当比较DNA和RNA序列时，胸腺嘧啶(T)和尿嘧啶(U)可以认为等同。可以手工完成同一性也可以使用计算机软件算法，例如BLAST或BLAST 2.0。

原位检测

如本文所用的，“原位检测”是指在原始位点(指在组织样本中，如活检中)检测表达或表达水平。

K最近邻

短语“K最近邻(k-Nearest Neighbor)”是指一种分类方法，通过计算训练数据集中点和点之间的距离来对点进行分类。然后，将该点指定到类，该点在类的K-近邻(其中k为整数)中是最常见的。

标记

本文所用的“标记”，是指可被光谱，光化学，生化，免疫组织化学，化学或其他物理手段检测到的组分。例如，可用的标记包括³²P，荧光染料，电子致密(electron dense)试剂，酶(如ELISA中常用的)，生物素，地高辛，或半抗原，及其他可检测到的实体。标签可在任何位置被引入核酸和蛋白中。

逻辑回归

逻辑回归是称为广义线性模型的统计模型的分支部分。逻辑回归分析可以从一系列变量，可以是连续的，离散的，二分法的，或它们的混合来预测离散的结果。因变量或响应变量可以是二分法的，例如，两种可能的癌症类型之一。逻辑回归可模拟比值比(odds ratio)的自然对数作为不同表达水平的线性组合，所述比例即，属于第一组(P)的概率与属于第二组(1-P)的概率的比例。所述逻辑回归的结果能作为前述的分类器，如果P值大于0.5或50％的案例或样本将被分类到第一类型。另外，计算出的概率P能用作其他情况下的变量，如一维或二维(1D或2D)阈值分类器。

1D/2D阈值分类器

如本文所用的，“1D/2D阈值分类”，可指一种算法，该算法用于将案例或样本(如癌症样本)分类为两种可能的类型(如两类癌症)中的一种。对于1D阈值分类器，决策基于一个变量和一个预先确定的阈值，如果变量超过阈值，样本会被分配到一类，如果变量小于阈值，样本会被分配到其他类。2D阈值分类器是基于两个变量的值，分类至两种类型之一的算法。阈值可作为第一变量的函数(通常是连续的，甚至是单调函数)计算出，然后通过比较第二变量与计算得到的阈值来决策，类似1D阈值分类器。

转移

“转移”是指癌症从它第一次出现作为原发肿瘤的位置向身体的其他位置扩散的过程。原发肿瘤的转移进展反映为多个阶段，包括从邻近原发肿瘤细胞的分离，在循环系统的生存，和在第二位置的生长。

节点

“节点”是在分类(即决策)树上的决策点。此外，也指在神经网络中结合从其他节点的输入，通过激活功能的应用，并产生输出的点。“叶”是不能进一步分裂的节点，是分类树或决策树的末端。

核酸

如本文所用的，“核酸”或“寡核苷酸”或“多聚核苷酸”，是指至少有两个核苷酸共价连接在一起。对单链的描述也定义了互补链的序列。因此，核酸也包括描述的单链的互补链。因为核酸的很多变体可用于与给定的核酸同样的目的。所以核酸也包括基本同一性的核酸及其互补序列。单链提供了可以在严格的杂交条件下与目标序列杂交的探针。因此，核酸还包括在严格的杂交条件下可以杂交的探针。

核酸可以是单链或双链，或可能含有部分双链和单链序列。核酸可以是DNA，基因组和cDNA，RNA，或杂合核酸，其中，所述核酸可含有脱氧核糖核苷酸及核糖核苷酸的组合，和不同碱基的组合，包括尿嘧啶，腺嘌呤，胸腺嘧啶，胞嘧啶，鸟嘌呤，次黄苷，黄嘌呤，次黄嘌呤，异胞嘧啶和异鸟嘌呤。核酸可通过化学合成方法或重组方法获得。

核酸通常含有磷酸二酯键，虽然核酸类似物可能包含可具有至少一个不同的键，例如，磷酰胺键，硫代磷酸酯键，二硫代磷酸酯(phosphorodithioate)，O-甲基亚磷酰胺键和肽核酸骨架和键。其他核酸类似物包括那些具有正电荷的骨架，非离子型骨架和非核糖骨架的，包括在美国专利5235033和5034506中描述的那些，在此引入作为参考。核酸的一种定义还包括含有一个或多个非天然或修饰的核苷酸的核酸。修饰的核苷酸类似物可能位于核酸分子的5′端和/或3′-末端。核酸类似物的代表性例子可选自糖或骨架修饰的核糖核苷酸。但是，应该指出的是，碱基修饰的核糖核苷酸也是适合的，即，含有非天然碱基取代天然碱基的核糖核苷酸，如5位修饰的尿苷或胞苷，例如，5-(2-氨基丙基)尿苷，5-溴尿苷；8位修饰的腺苷和鸟苷，8-溴鸟苷；去氮核苷酸，如7-去氮-腺苷；O-和N-烷基化核苷酸，例如，N6甲基腺苷。2′-OH基团可被选自以下基团组成的组中的基团取代：H，OR，R，卤素，SH，SR，NH₂，NHR，NR₂或CN，其中，R是C1-C6的烷基、烯基或炔基，卤素可以是氟、氯、或碘。修饰的核苷酸还包括与胆固醇通过例如羟基脯氨醇(hydroxyprolinol)连接的核苷酸，例如，Krutzfeldt等在2005年的《自然》中描述的(Krutzfeldt et.al，Nature 2005，438：685-689)，Soutschek等在2004年《自然》中描述的(Soutschek et.al，Nature 2004，432：173-178和美国专利公开号20050107325中描述的，在此引入本文作为参考。在美国专利公开号20050182005中描述的其他的修饰的核苷酸和核酸，在此引入作为参考。核糖-磷酸骨架的修饰可用于多种原因，例如，增加该分子在生理环境中的稳定性和半衰期，加强跨细胞膜的扩散，或作为一个生物芯片的探针。骨架修饰也可增强细胞对降解的抵抗力，如在内吞的恶劣环境下。所述骨架修饰也可减少如肝脏和肾脏中的肝细胞对核酸的降解。天然核酸及类似物的混合物可被制备，此外，不同的核酸类似物的混合物，以及天然核酸及类似物的混合物都可以制备。

探针

如本文所用的，“探针”是指可以与目标核酸的互补序列通过一个或多个类型的化学键(通常是通过形成氢键的互补碱基配对)结合的寡核苷酸。取决于杂交条件的严格与否，探针可能可以结合与探针序列缺少完全互补的靶序列。任何数量的碱基错配都有可能会干扰此处所描述的单链核酸与目标序列之间的杂交。但是，如果突变的数量是大到即使在最不严格的条件下也不会杂交的话，这样的序列就不是互补的靶序列。探针可以是单链的或部分单和部分双链的。探针的链型取决于目标序列的结构，组成和属性。探针可被直接标记或间接标记。比如带有生物素，之后便可集合链霉亲和素复合物。

参考值

如本文所用的，术语“参考值”或“参考表达图谱”，是指标准表达值，将测量值与其进行比较以确定特定癌症的检测。所述参考值可以基于核酸的丰度，或基于其总的度量得分。

在优选的实施方式中，所述参考值是通过比较已知的临床结果与microRNA表达的统计分析来确定的。

灵敏度

如本文所用的，“灵敏度”，可指二元分类测试是否能正确地验证条件的统计测量，例如，多频繁的可正确地将癌症划分为两种可能类型中的正确类型。对于“A”类，所述灵敏度是指，根据一些绝对或金标准确定为“A”类的样本中，通过测试确定属于“A”类的样本的比例。

特异性

如本文所用的，“特异性”可指二元分类测试是否能正确地验证条件的统计测量，例如，多频繁的可正确地将癌症划分为两种可能类型癌症中的正确类型。对于“A”类的灵敏度是指，根据一些绝对或金标准确定为“非A”类的样本中，通过测试确定属于“非A”类的样本的比例。

严格的杂交条件

如本文所用的，“严格的杂交条件”是指在该条件下，第一核酸序列(例如，探针)将与第二核酸序列(例如，目标)杂交，形成复杂的核酸混合物的条件。严格的杂交条件是序列依赖的，在不同的情况下有所不同。在确定的离子强度pH值下，严格的杂交条件可以选择为比特定序列的热熔点(T_m)低约5-10℃。所述T_m可为50％的与目标互补的探针与靶序列的杂交处于平衡状态的温度(在确定的离子强度，pH值，和核酸浓度下)(因为靶序列是过量的，在热熔点(T_m)，50％的探针处于杂交平衡状态)。严格的杂交条件可以是这些：其中，盐浓度在1.0M钠离子浓度以下，如约0.01-1.0M的钠离子浓度(或其他盐类)，pH值为7.0至8.3，对短探针(例如，约10-50个核苷酸)的温度至少为约30℃，对长探针(例如，大于约50个核苷酸)的温度至少为约60℃。严格的杂交条件也可通过加入不稳定试剂，如甲酰胺来实现。对于选择性或特异性杂交，阳性信号应至少为杂交背景的2至10倍。示例性的严格的杂交条件包括以下：50％甲酰胺，5×SSC，和1％SDS，在42℃孵育，或5×SSC，1％SDS，在65℃孵育，用65℃的0.2×SSC和0.1％SDS洗涤。

基本互补

如本文所用的，“基本互补”是指第一序列与第二序列的互补链在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多个核苷酸的区域内具有至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％或99％的同一性，或两个序列能在严格的杂交条件下的杂交。

基本相同

如本文所用的，“基本相同”是指第一序列与第二序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多个核苷酸或氨基酸的区域内具有至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％或99％的相同，或针对核酸的话，是指第一序列与第二序列的互补链基本互补。

受试者

如本文所用的，术语“受试者”是指哺乳动物，包括人类和其他哺乳动物。本发明的方法优选适用于人类受试者。

目标核酸

如本文所用的，“目标核酸”是指可以被由另一核酸结合的核酸或其变体。目标核酸可以是DNA序列。所述目标核酸可以是RNA。所述目标核酸可以包括mRNA，tRNA，shRNA，siRNA或与PiIWi-相互作用的RNA，或pri-miRNA，pre-miRNA，miRNA，或抗miRNA。

所述目标核酸可包括目标miRNA的结合位点或其变体。一个或多个探针可以结合所述目标核酸。所述目标结合位点可含有5-100个或10-60个核苷酸。所述目标结合位点可含有全部的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30-40、40-50、50-60、61、62或63个核苷酸。所述目标位点序列可包括至少5个如美国专利申请号11/384,049，11/418,870或11/429,720(其内容在此引入作为参考)中所披露的目标miRNA结合位点序列的核苷酸。

阈值

如本文所用的，术语“阈值”是指为每次运行指定的数值，该数值反映高于计算出的PCR基线的统计学显著的点。

组织样本

如本文所用的，组织样本是使用医药相关领域的技术人员公知的方法，从组织活检获得的组织。如本文所用的，短语“怀疑癌变”，是指根据一种医药领域的普通技术，相信癌组织样本中含有癌细胞。从活检获得样本的方法包括，总值的摊派(gross apportioning of a mass)，显微切割，激光显微切割，或其他本领域已知的细胞分离方法。

肿瘤

如文本所用的，“肿瘤”是指所有的肿瘤细胞的生长和增殖，无论是恶性还是良性的，所有的癌前病变及癌变的细胞和组织。

变体

如本文所用的，“变种”是指一种核酸：(i)引用的核苷酸序列的部分；(ii)引用的核苷酸序列的互补链或其部分；(iii)与引用的核酸序列或其互补链基本相同的序列；或(iv)在严格的杂交条件下，与引用的核酸或其互补链或与其基本相同的序列能杂交的核酸。

野生型

如本文所用的，术语“野生型”序列是指编码、非编码或接口序列，这些序列是执行该序列的天然或正常功能的等位基因形成的序列。野生型序列包括同源序列的多个等位基因的形式，例如，野生型序列的多个等位基因可编码由编码序列编码的蛋白序列的沉默或保守改变。

本发明采用miRNA来进行特定癌症的确定，分类和诊断以及它们的起源组织的确定。

1、microRNA的处理

编码的microRNA(miRNA)基因可被转录产生已知为miRNA一级转录物的pri-miRNA。该pri-miRNA可含带有茎和环的发夹结构。所述发夹的茎可包括错配的碱基。该pri-miRNA可包括多顺反子结构中的几个发夹。

所述pri-miRNA的发夹结构可被核糖核酸酶III内切酶Drosha识别。Drosha可以识别pri-miRNA的末端环，并切割茎中约两个螺旋转弯(helicalturns)，产生60-70nt的miRNA前体，已知为pre-miRNA。Drosha可能以RNase III内切酶典型的交错切法将pri-miRNA切成5’磷酸和3’约2个核苷酸突出(overhang)的pre-miRNA茎环。延伸超出Drosha切割位点大约一个螺旋转弯(约10个核苷酸)的延伸是高效处理的关键。所述pre-miRNA可通过ran-GTP和出口受体Ex-portin-5从细胞核运向细胞质。

Pre-miRNA可以被另一种核糖核酸酶III内切酶Dicer所识别。Dicer可识别pre-miRNA的双链茎。Dicer酶也可从茎环的碱基中切掉末端和两个螺旋转弯，留下额外的5’磷酸和约2个核苷酸的3’突出。由此产生的类似siRNA的双螺旋(可含有错配)包括成熟的miRNA和类似大小的片段，被称为miRNA^*。所述miRNA和miRNA^*可能源于pri-miRNA与pre-miRNA相对的臂。MiRNA^*序列可在克隆的miRNA库中找到，但通常出现的频率比miRNA低。

虽然miRNA最初与miRNA^*形成双链，miRNA最终会以单链RNA的形式被引入核蛋白复合体，被称为RNA诱导的沉默复合体(RISC)。各种蛋白质都可形成RISC，导致miRNA/miRNA^*双链特异性、目标基因的结合位点、miRNA的活性(抑制或激活)的可变性，以及miRNA/miRNA双螺旋中的哪条链定位到RISC上。

当miRNA/miRNA^*双链的miRNA链定位到RISC时，miRNA^*可能被去除和降解。miRNA：miRNA^*双链中加载到RISC的链是5′端配对不太紧密的那条。如果miRNA：miRNA^*的两端具有大体相同的5’端配对，则miRNA与miRNA^*都可具有基因沉默活性。

RISC可以通过miRNA和mRNA之间高水平的互补来确定目标核酸，尤其是通过miRNA的2-7位的核苷酸。只有一宗个案在动物miRNA和其目标之间的相互作用包括全部长度的miRNA。表示为miR-196和Hox B8，进一步表明，miR-196介导了Hox B8的mRNA的切割(Yekta等《科学》2004；304：594-596)。除此之外，这种相互作用只有在植物中存在(巴特尔&巴特尔，2003；132：709-717)。

对miRNA及其mRNA目标之间的碱基配对如何能实现有效的翻译抑制有许多研究(2004年巴特尔综述；116：281-297)。在哺乳动物细胞中，miRNA的前8个核苷酸可能是重要的(Doench & Sharp GenesDev 2004；18：504-511)。然而，microRNA的其他部分也可参与mRNA的结合。此外，3’端充分的碱基配对可以弥补5’端配对的不足(Brennecke等人，2005年PLoS Biol；3：e85)。分析miRNA与整个基因组结合的计算研究发现，miRNA5’端的2-7个碱基在与目标结合中具有特殊作用，而且第一个通常是“A”的核苷酸的作用也得到了承认(Lewis等人《细胞》2005；120：15-20)。同样地，核苷酸1-7或2-8个也被克列等人用于确定和验证目标。(NAT Genet 2005；37：495-500)。

mRNA的目标位点可能会在5’非翻译区(5’UTR区)，3’UTR区或编码区。有趣的是，多个miRNA可能通过识别同一个或多个位点来调节同一个目标mRNA。在大多数遗传学确定的目标中多个miRNA结合位点的存在可能表明多个RISCs的协同作用能提供最有效的翻译抑制。

miRNA可通过两种机制中的一种指导RISC下调基因表达：mRNA的切割或翻译抑制。如果mRNA与miRNA有一定程度的互补，miRNA可以指定mRNA的切割。当miRNA引导切割时，切断可能在miRNA配对核苷酸的残基10和11之间。此外，如果miRNA没有达到所需要的miRNA的互补程度的话，miRNA可能抑制翻译。翻译的抑制在动物中可能更为普遍，因为动物miRNA和结合位点之间的互补程度可能更低。

应该指出，任何miRNA/miRNA^*对的5’和3’端都具有可变性。这种可变性可能与Drosha和Dicer切割位点的处理的可变性有关。miRNA/miRNA^*的5’和3’端的可变性也可能是由于pri-miRNA与pre-miRNA的茎链的不匹配。所述茎链的不匹配可能会导致大量不同的发夹结构。茎结构的可变性也可能导致Drosha和Dicer切割产物的可变性。

2、核酸

本发明提供了核酸。所述核酸包括SEQ ID NOS：1-288所示的序列或其变体。所述变体可为引用的核苷酸序列的补充。该变体也可为与引用的核苷酸序列或其互补链基本相同的核苷酸序列。该变体也可为在严格的条件下能与引用的核苷酸序列、或其互补链、或与其基本相同的核苷酸序列杂交的核苷酸序列。

所述核酸的长度可为约10至约250个核苷酸。所述核酸的长度可为至少10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、60、70、80、90、100、125、150、175、200或250个核苷酸。所述核酸可以是合成的，或使用本文所描述的合成的基因在细胞(体外或体内)中表达的。所述核酸可合成为单链分子，并与基本互补的核酸杂交形成双螺旋。所述核酸可以通过本领域技术人员公知的方法(包括美国专利号No.6506559，引入本文作为参考)，以单链或双链形式，或能够被合成基因表达，被引入细胞，组织或器官。

表1：miR的序列ID号(SEQ ID NOS)，正向引物和MGB探针

桑格MIR名称：miR数据库的注册名称(9-12发布)

3、核酸复合物

所述核酸可以进一步包括以下的一种或多种：肽，蛋白，RNA-DNA杂交体，抗体，抗体片段，Fab片段，适配子。

4、Pri-miRNA

所述核酸可包括pri-miRNA或其变体的序列。所述pri-miRNA序列可包括45-30000，50-25000，100-20000，1000-1500或80-100个核苷酸。pri-miRNA的序列可包括本文所述的pre-miRNA，miRNA与miRNA^*，及其它们的变体。pri-miRNA的序列可包括SEQ ID NOS：1-49或其变体序列中的任何序列。

所述pri-miRNA可含有发夹结构。所述发夹可含有基本互补的第一和第二核酸序列。所述第一和第二的核酸序列可为37-50个核苷酸。所述第一和第二核酸序列可被8-12个核苷酸的第三序列分开。根据维也纳算法利用默认参数(霍法克等，1994年Monatshefte F.Chemie；125：167-188，其内容在此引入作为参考)计算出，所述发夹结构具有低于-25千卡/摩尔的自由能。所述发夹可含有4-20，8-12或10个核苷酸的末端环。所述pri-miRNA可含有至少19％的腺苷核苷酸，至少16％的胞嘧啶核苷酸，至少23％的胸腺嘧啶核苷酸和至少19％的鸟嘌呤核苷酸。

5、Pre-miRNA

所述核酸还可包括pre-miRNA或其变体序列。所述pre-miRNA序列可含有45-90，60-80或60-70个核苷酸。所述pre-miRNA的序列可包括本文所述的miRNA及miRNA^*。所述pre-miRNA的序列也可为排除从pri-miRNA的5’到3’端为0-160个核苷酸的pri-miRNA的序列。所述pre-miRNA的序列可包括SEQ ID NOS：1-49或其变体的序列。

6、miRNA

所述核酸还可包括miRNA(包括miRNA^*)或其变体的序列。所述miRNA的序列可含有13-33，18-24或21-23个核苷酸。所述miRNA还可含有总数为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个核苷酸。所述miRNA的序列可以是所述pre-miRNA的前13-33个核苷酸。所述miRNA的序列也可以是所述pre-miRNA的后13-33个核苷酸。所述miRNA的序列可以包括SEQ ID NOS：1-49或其变体的序列。

7、探针

本文还提供含有所述核酸的探针。探针可用于概述如下的筛选和诊断方法。所述探针可以附着或固定到固相基体，如生物芯片上。

所述探针的长度可以为8-500，10-100或20-60个核苷酸。所述探针的长度也可为至少8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、220、240、260、280或300个核苷酸。所述探针可进一步含有10-60个核苷酸的连接体(linker)。所述探针可包括与选自由SEQ ID NOS：1-49或其变体的序列组成的组的序列互补的核酸。所述探针可包括选自由SEQ ID NOS：99-149和151组成的组中的序列。

8、生物芯片

本发明还提供了生物芯片。所述生物芯片可包括固相基体，该固相基体包括附着的本文所述的一个或多个探针。所述探针能够在严格的杂交条件下与目标序列杂交。所述探针可附着在基体上空间确定的位置。对于每个目标序列使用多于一个的探针，要么为重叠的探针或为针对特定目标序列的不同部分的探针。所述探针可与本领域技术人员鉴别的单一紊乱相关的目标序列杂交。所述探针可以先合成、随后附着于生物芯片，或可直接在生物芯片上合成。

固相基体可以是修饰为含有适合附着或结合探针的离散独立位点的材料，并能够适应至少一种检测方法。有代表性的基体的例子包括玻璃和修饰的或官能化的玻璃，塑料(包括丙烯酸树脂，聚苯乙烯和苯乙烯和其他材料的聚合物，聚丙烯，聚乙烯，聚丁烯，聚氨酯，TeflonJ等)，多糖，尼龙或硝化纤维素，树脂，硅胶或硅基材料包括硅胶和改性硅胶，碳，金属，无机玻璃和塑料。所述基体可适于光学检测，无明显的发荧光。

所述基体可以是平面的，虽然其他构型的基体也可使用。例如，对于流动样本的分析，探针可置于管的内表面，以减少样本体积。同样地，所述基体可为柔性的，如软质泡沫，包括特殊塑料制成的闭孔泡沫。

所述生物芯片和探针可用化学官能团衍生化，用于下一步二者的附着。例如，所述生物芯片可用化学官能团(包括但不仅限于：氨基，羧基，氧基(oxo)或巯基)衍生化。使用这些官能团，所述探针可使用探针上的官能团直接附着或间接使用连接体附着。所述探针可通过5’端，3’端，或内部核苷酸附着于固相支持物。

所述探针也可通过非共价附着于固相支持物。例如，可制备生物素标记的寡核苷酸，其可共价结合到包覆链霉亲和素的表面，实现附着。另外，可使用例如光聚合和光刻法的技术在表面合成探针。

9、诊断

如本文所用的，术语“诊断”是指分类病理、或症状，确定病理的严重程度(等级或阶段)，监测病理进展，预测病理的结果和/或痊愈的前景。

如文本所用的，短语“需要的受试者”指的是已知患有癌症的动物或人类的受试者，具有患癌风险的受试者(例如，具有遗传倾向的受试者，具有医药和/或癌症家族史的的受试者，曾接触致癌物的受试者，职业危害、环境危害的受试者)和/或表现出可疑临床癌症迹象的受试者(如便血或黑便，不明原因的疼痛，出汗，不明原因的发热，不明原因的体重损失直至厌食，排便习惯的改变(便秘和/或腹泻)，里急后重(不完全的排便感，特别是直肠癌)，贫血和/或全身无力)。此外或可选择的，需要的受试者可以是例行健康检查的健康人类受试者。

分析恶性肿瘤或癌前病变细胞的存在可以在体内或体外进行，使生物样本(例如，活检)被恢复。这种活检样本包括细胞，可能是一个切口或切除活检。另外，细胞可从完整的切除中恢复。

利用目前的教导，更多的信息可被收集用于确定治疗方案(treatmentregimen)，治疗过程和/或疾病严重程度的测量。

如本文所用的，短语“治疗方案”是指提供给需要的受试者(例如，经过病理诊断的受试者)的治疗计划，确定治疗的类型，剂量，时间表和/或持续时间。选择的治疗方案可以是积极的，这预期导致最佳的临床结果(例如，病理的彻底治愈)，或是较为温和的，这可以缓解病理症状，但导致不完全的病理治愈。可以预期的是，在某些案例中，所述治疗方案会伴随着受试者的不适或不良副作用(例如，损害健康的细胞或组织)。治疗的类型可以包括外科干预(例如，切除病变，病变的细胞，组织或器官)，细胞替代疗法，局部或全身模式下的治疗药物(如受体激动剂，拮抗剂，激素，化疗试剂)的管理，使用外部源(例如，外部束)和/或内部源(例如，近距离放疗)和/或任何组合的放射疗法。所述治疗的剂量，时间表和持续时间可根据病理的严重程度和选择的治疗类型变化，本领域技术人员能够调整治疗类型的治疗剂量，时间表和持续时间。

本发明还提供了一种诊断方法。该方法包括检测生物样本中特异性癌症相关核酸的表达水平。所述样本可来自受试者。患者中特定癌症阶段的诊断可允许预后和治疗策略的选择。此外，可确定特异性癌症相关核酸的表达来对细胞的发育阶段进行分类。

可实施标记的探针与组织阵列的原位杂交。当比较独立的样本之间的指纹时，本领域技术人员可以基于这些发现做出诊断，预后和预测。可进一步理解的是，指示诊断的所述核酸序列与指示预后的核酸序列不同，细胞状况的分子图谱会导致反应性或难治性情况的差别，或可预测的结果。

10、试剂盒

本文还提供了试剂盒，该试剂盒可包括本文所述的核酸及下列物质中的一种或多种：试验试剂，缓冲液，探针和/或引物，和无菌生理盐水或其他药学上可接受的的乳化剂和悬浮剂基底。此外，所述试剂盒可包括说明材料，包括实践本文所述的方法的指导(例如，实验方案)。该试剂盒可进一步包括用于表达图谱数据分析的软件包。

例如，该试剂盒可为用于目标核酸序列的扩增、检测、确定或定量的试剂盒。该试剂盒可包括聚(T)的引物，正向引物，反向引物和探针。

任何本文所描述的组分都可以包括在试剂盒中。在非限制的实施例中，分离miRNA、标记miRNA和/或用阵列评估miRNA的量的试剂都包含在试剂盒中。该试剂盒可进一步包括用于创建或合成miRNA探针的试剂。因此，该试剂盒将包括，在适当的容器装置内，用于通过引入标记的核苷酸或引入未标记核苷酸，然后再标记以标记miRNA的酶。它也可包括一种或多种缓冲液，如反应缓冲液、标记缓冲液、洗涤液或杂交缓冲液，用于制备miRNA探针的化合物，用于原位杂交的组分和分离miRNA的组分。本发明的其他试剂盒可包括制备含有miRNA的核酸阵列的组分，从而可包括，例如，固相支持物。

提供的以下实施例是为了更充分地说明发明的一些实施方式。他们不应该被理解为限制本发明的保护范围。

实施例

方法

1、肿瘤样本

这项研究采用了903个肿瘤样本。这些包括252个初步研究的样本和额外的651个福尔马林固定石蜡包埋(FFPE)的样本。肿瘤样本是从多个来源获得的。所有样本都获得了符合每个研究所的学术审查委员会或IRB相同的指南的学术审查许可。样本包括根据临床记录已知起源的原发肿瘤和转移。基于苏木精-伊红(H&E)染色片病理学家确定，多于95％的样本中，肿瘤含量至少为50％。903个样本中有204个仅用在验证阶段，作为一个独立的盲法测试集。这些来自原始临床记录的这些样本的参考诊断被额外的病理样本检查所证实。

2、RNA的提取

对于FFPE样本，从7至10个10微米厚的组织切片中提取总RNA，使用罗塞塔金诺米克斯开发的miRNA提取操作步骤。简言之，样本在二甲苯中，57℃下孵育几次，以除去多余的石蜡，然后用乙醇洗涤。蛋白被蛋白酶K在45℃下降解几个小时。用酚：氯仿提取RNA，并用乙醇沉淀和DNase消化。总RNA的数量和质量用分光光度计(Nanodrop ND-1000)检测。

3、miR阵列平台

定制的芯片(安捷伦科技公司，圣克拉拉，加利福尼亚州)是通过将多于900个人类microRNA的DNA寡核苷酸探针印在芯片上生产的。每个探针印三份，在microRNA互补序列的3’端带有22个核苷酸(nt)的连接体，此外，氨基用于偶联探针以包覆玻片。20μM的每个探针溶解在2×SSC+0.0035％SDS中，根据微电网制造商的指示，使用基因组的解决方

仿生机器人微网II，在肖特

片E包覆的微阵列片上设置三份。使用不同microRNA的正义序列设置54个阴性对照探针。设置两组阳性对照探针以杂交miR阵列：(i)在标记之前，将合成的小RNA加入到RNA中，以验证标记效率；及(ii)丰富的小RNA探针(例如，小核RNA分子(U43，U49，U24，Z30，U6，U48，U44)，5.8S和5S核糖体RNA)加入到阵列上，以验证RNA的质量。玻片用含有50mM乙醇胺，1M的Tris(pH9.0)和0.1％SDS的溶液，在50℃下封闭20min。然后彻底用清水漂洗，悬干。

4、用于miR阵列的CY-染料标记的miRNA

5μg的总RNA通过连接(汤姆逊等，Nature Method，2004，1：47-53)，RNA-连接体、p-rCrU-Cy/dye(Dharmacon)，将Cy3或Cy5连接到3’端。标记反应含有：总RNA，尖峰(spikes)(0.1-20fmoles)，300ng的RNA连接体-染料，15％的DMSO，1×连接酶缓冲液和20个单位的T4RNA连接酶(NEB)，并在4℃进行1小时，然后在37℃进行1小时。标记的RNA与3×杂交缓冲液(Ambion公司)混合，加热至95℃，3分钟，然后添加到miR阵列上。片在42℃杂交12-16h，然后在室温下，用1×SSC和0.2％的SDS洗涤两次，并最终用1×SSC洗涤一次。

使用安捷伦微阵列扫描仪收集G2565BA(100％功率下，分辨率为10μm)扫描阵列。阵列图像使用SpotReader软件(奈尔斯科学)进行分析。

5、阵列信号计算和归一化

对于每个探针，通过可靠点的对数平均值，结合三点以产生一个信号。所有数据均进行对数转换(自然基础)和进行对数空间分析。用于归一化的参考数据向量R利用每个探针在所有样本的中间的表达水平来计算。对于每个样本，寻找数据向量S，二次多项式f被发现，以提供样本数据和参考数据之间的最佳契合，使得R≈F(S)。远程数据点(“离群值”)不用于契合多项式F。对于样本中的每个探针(向量S中的元素Si)，归一化值(对数空间中)Mi通过用多项式函数F转换初始值Si得到，因此Mi＝F(Si)。数据转换回线性空间(用指数)。仅使用训练集样本以生成参考数据向量，不会影响结果。

6、逻辑回归

逻辑回归模型的目的是利用多个特征，如多个微RNA的表达水平，分配为属于两种可能的组中的一个，如二进制决策树的节点的两个分支。逻辑回归模拟了比值比的自然对数，所述比值比即属于第一组的概率(例如，二元决策树的节点的左分支(P))与属于第二组的概率的(例如在该节点的右分支(1-P))比，作为不同的表达水平(对数空间)的线性组合。所述逻辑回归假设：

\ln (\frac{P}{1 - P}) = β_{0} + Σ_{i = 1}^{N} β_{i} \cdot M_{i} = β_{0} + β_{1} \cdot M_{1} + β_{2} \cdot M_{2} + . . .,

其中β₀是偏置(bias)，M_i是在决策节点中使用的第i个microRNA的表达水平(归一化，对数空间)，β_i是其对应的系数，β_i＞0表明，当这个微RNA的表达水平(Mi)增加时，选择左分支的概率(P)增加，对于β_i＜0则相反。如果节点只使用单一的微RNA，则得到的P结果为：

P = \frac{e^{β_{0} + β_{1} \cdot M}}{1 + e^{β_{0} + β_{1} \cdot M}} .

每个样本的回归误差是选定的概率P和该样本真正的“概率”的差别，即，如果样本是在左分支组则为1，否则为0。逻辑回归模型的训练和优化计算出参数β和P-值(针对每个microRNA使用Wald统计，针对整体模型使用x 2(卡方)差异)，最大化模型给出的数据的可能，和最小化总的回归误差

通过比较P与阈值，记为P_TH，逻辑模型输出的概率在这里转换成二进制决策，即，如果P＞P_TH，样本属于左分支(”第一基团“)，反之亦然。在每个节点上选择分支，它有大于0.5的概率，即，使用了阙值为0.5的概率，导致了最小化的总回归误差。但由于目标是错误分类总数的最小化(不是他们的概率)，需要修改来调整概率阈值(P_TH)，以最小化在每个节点的错误的总数(见表3)。对于每个节点，对新的概率阙值P_TH的阈值被优化，这样分类错误的数目最小化，这种概率阈值的变化相当于偏置β₀的修改，这可能反映了该类之前频率的变化。

7、逐步逻辑回归和特征选择

原始数据包含每个样本多个微RNA的表达水平，即，多个数据特征。只每个节点的分类器训练中，这些特征中仅有一小部分被选择和使用以优化逻辑回归模型。在最初的训练中，这是使用向前逐步完成的。为了减少对数可能性，这些特征被排序，并启动逻辑模型和用第一特征优化。然后加入第二特征，并且重新优化模型。比较两个模型的回归误差：如果该特征的加入没有提供显著的优势(x 2差异小于7.88，p值为0.005)，则不再使用该新特征。反之，则保留新特征。加入新特征可能会使以前的功能冗余(例如，如果他们高度相关)。为了对此进行检查，反复的检查该过程，如果该功能具有最低的可能性，则可以丢弃(如上所述，没有失去x 2差异)。在确保当前的特征集是简洁的以后，在这个意义上，这个过程继续测试排序表中的下一个特征，直到穷尽特征。算法中没有设置对特征数目的限制，但在大多数情况下，选择2-3个特征。

逐步逻辑回归方法被用在训练集样本的子集，重新取样重复训练集(“引导”)，使20次运行中每次包括约三分之二的样本(至少一次)，任何一个样本有＞99％的机会至少有一次被留下。这导致每个节点平均有2-3个特征(在更困难的节点有4-8个)。通过比较特征选择每个节点的2-3个特征的强大集，该特征在以前证据的引导集中反复选择，并考虑到它们的信号强度和可靠性。当使用这些选定的特征来构造分类器时，不会使用循序渐进过程，其仅用于训练优化逻辑回归模型参数。

8、K-最近邻(KNN)分类算法

所述KNN算法(参见，例如，马等，Arch Pathol Lab Med，2006；130：465-73)计算训练集中，任何样本与所有样本的距离(Pearson相关性)，并通过最相似的K样本的大多数投票来分类样本(K作为分类器的参数)。在预先确定的微RNA集(决策树使用的48个微RNA)的基础上计算相关性。比较K＝1；10的KNN算法，选择最佳的表现，使用K＝7。

9、qRT-PCR

将总RNA(1微克)加入到之前所述的聚腺苷酸化反应(吉拉德等人，2008，PLoS ONE；3：e3148)。简言之，在聚(A)聚合酶(PAP)(宝生物-2180A)，MnCl₂，和ATP的存在下，将RNA于37℃孵育1小时。进行总RNA的逆转录。oligodT引物具有共识序列(与反向引物互补，oligodT淀粉，N核苷酸(所有A，C和G的混合物)和V核苷酸(四种核苷酸的混合物)用于逆转录反应。所述引物首先与聚A-RNA退火，然后加入到SuperScript II RT(Invitrogen公司)进行逆转录反应。然后通过实时PCR反应扩增cDNA，使用特异性的microRNA的正向引物，TaqMan探针和通用反向引物(与寡dT尾巴的3’序列互补)。反应在95℃孵育10分钟，然后在95℃，15秒和60℃，1分钟，进行42个循环。qRT-PCR使用104个候选微RNA的探针进行，其中，5个用两种不同的正向引物进行测试，并为U6snoRNA的探针。

10、特征选择和训练

保持训练样本的平均Ct低于36，至少有30个微RNA的检测(CT＜38)。每个微RNA的Ct减去样本中所有微RNA的平均Ct，并加回比例常数(整个样本集的平均Ct)，从而对每个样本进行归一化。特征选择和分类器训练使用定比Ct作为输入信号。特征选择得到了48个微RNA的集。决策树(图1)在每个节点的2-3个微RNA的组合上使用逻辑回归以做出二元决策。KNN基于每个样本中所有48个microRNA的表达与训练数据库中的所有其他样本的比较。适当时，每个决策树和KNN返回预测的起源组织和病理类型。分类器返回两个不同的预测，或当预测意见一致时，返回单一的一致预测。当决策树和KNN预测的相同起源组织的不同组织类型时，返回起源组织作为一致预测而不表明病理类型。

11、试验操作步骤

分批提取RNA与阴性对照。所述阴性对照是一个无RNA样本，检测潜在的污染，在PCR反应中不应给出任何信号。所述提取的RNA，连同阳性对照样本，进行cDNA的制备，和在96孔板中通过qRT-PCR测量每个样品中的48个微RNA，重复两次。所述阳性对照是特异性RNA样本，其应在试验中符合定义的Ct范围。基于荧光扩增曲线对每个孔进行定性，在最大荧光处使用阙值，线性斜率作为测量的Ct的函数。对于每个微RNA，

通过两次重复的平均值进行计算。对每个样本的定量评价基于表达的微RNA(CT＜38)的数目和特性和测量的微RNA的平均Ct。每个样本的

值通过如上所述的重新调整进行归一化。所述重新调整的值用于分类器的输入，用qRT-PCR数据进行训练(如上所述)。

实施例1

样本和图谱

在阵列平台上进行描绘数百个样本的发现过程，以确定候选生物标志物。使用约400个FFPE样本的训练集。从这些样本中提取RNA并进行qRT-PCR。用48个微RNA构建试验(表3，图1-7)，以区分代表18种起源组织的26个类。构建替代的试验，没有确认膀胱作为起源，即，区分代表17个起源组织的25个类。

255个新的FFPE样本的验证集用来评估试验的表现，代表26种不同的肿瘤起源或“类”(见表2，样本的总结)。在该集中，约一半的样本是转移到不同位点的肿瘤(例如，肺，骨，脑和肝)。对于该集中所有的样本，肿瘤的比例至少为50％。

表2：癌症类型，类和组织学

实施例2

决策树分类算法

使用microRNA表达水平，应用二叉树的分类方案(图1)构建肿瘤分类器。构建这个框架以利用microRNA在组织分化和胚胎发育中的特异性：不同的microRNA参与不同的组织加工阶段，被算法在不同的决策点或“节点”使用。所述树把复杂的多组织的分类问题分解为一系列简单的二元决策。在每个节点上，不用考虑哪一类的分支更早的伸出树外，减少不相关样本的干扰，并进一步简化决策。然后，只使用少量的microRNA生物标志物(其具有定义好的作用)就可以完成在每个节点上的决策(见表3)。二叉树的结构是基于组织发育的等级和形态相似性¹⁸，其被microRNA表达模式的突出特点所修改。例如，microRNA的表达模式表明肝-胆道肿瘤和非肝源性肿瘤之间的显著差异，因此，这些在节点1(node#1，图2)被分为独立的分支(图1)。

对每个独立的节点使用逻辑回归模型，经常在流行病学和临床研究中使用的强大的家族分类器，将连续的数据特征组合为二元决策(图2-7和方法)。由于基因表达器在选择基因特征中有内在的冗余，我们在训练样本集中使用引导方法，来为每个节点选择稳定的mircoRNA(方法)。这导致对于全部分类器的48个microRNA，每个节点的microRNA具有少量的特征(通常2-3个)(见表3)。这种方法提供了确定新的生物标志物差异表达的系统化过程。

实施例3

定义高可信度的分类

在临床实践中，评估不同程度的可信度信息通常是有益的(17，18)。特别是在肿瘤起源的诊断中，当不能做出明确诊断时，短的高度可靠的可能性列表是现实的选择。由于决策树和KNN算法不同的设计和独立的训练，通过结合和比较它们的分类可以提高精确度和得到更大的可信度。当两个分类器吻合时，诊断被认为是具有高可信度的，可以确定单一起源。当两个不吻合时，分类是低可信度的，建议了两个起源。联合的灵敏度是指，其中至少有一个分类器(树和KNN)是正确的百分比。

实施例4

盲法验证试验性能

测试性能是使用独立的204个验证样本集进行评估的。这些档案样本包括原发以及转移肿瘤样本，保存为FFPE块，其原始临床诊断(“参考诊断”)为分类器被训练的起源之一。样本被不知道这些样本的原始参考诊断的人员进行处理，由专用软件自动生成分类。204个样本中的16个(8％)没达到QA标准。包括87个转移肿瘤样本(46％)的188个样本(92％)成功完成了测试，并得到了起源组织的预测。对于159个这些样本(84％)，起源组织的参考诊断至少被两个分类器中的一个预测出(表4)。对于124个样本(66％)，两个分类器吻合，得到了单一起源组织的一致预测。对于这些单一预测的情况，灵敏度(阳性一致)是90％(124个分类中的111个与参考诊断吻合)，对于大多数组织类型，超过90％。该组的特异性(阴性一致)从94％至100％。

在第二个实验室中，独立和盲法处理73个验证样本的FFPE切片。比较两个实验室中这些样本的数据和分类。qRT-PCR信号的平均相关系数为0.979(4个样本的相关系数在0.91和0.95之间，所有其他的相关系数均大于0.95)。这两个实验室只在4个样本上不一致。对于另外8个，他们两个答案中的一个是相同的，对于其余的61个，两个实验室的分类完全吻合，证明了测试的精确度。

表3：在每个节点使用的决策树的节点和微RNA(#SEQ ID NO.)

节点号	节点的数目(1-26)
		左节点号或类	左分支-节点数目或达到的类
右节点号或类	右分支-节点数目或到达的类
		节点miR1	用于节点-#1的miRs
节点miR2	用于节点-#2的miRs(可以为空)
		节点miR3	用于节点-#3的miRs(可以为空)
节点Beta0	beta0的值(截距)
		节点Beta1	beta1的值，对应于节点Mir1
节点Beta2	Beta2的值，对应于节点Mir2，可为NaN(空)
		节点Beta3	Beta3的值，对应于节点Mir3，可为NaN(空)
节点左侧的所有类	所有在左分支的类的列表
		节点右侧的所有类	所有在右分支的类的列表

表4：盲法验证的测试性能

实施例5

分类实施例

原本作为来自肺脑转移瘤的临床诊断的训练集样本之一，被树分类为来源于肝脏(留一法交叉验证)。该分类追溯到节点#1，肺和肝起源分歧的分支点(图1)。该节点使用Hsa-miR-122(SEQ ID NO：6)，连同Hsa-miR-200C(SEQ ID NO：26)。在该样本中的这些微RNA的表达，特别是非常高的Hsa-miR-122(图8A)的表达，是该样本可能为肝起源的有力指标。基于重新检查的临床记录，发现这个样本最初被分类为肺转移的癌症，是基于在该患者的肺中发现了已知肿块的事实。原始的临床诊断和我们的测试的分歧接着又通过盲法病理学重新检验。事实上，样本的免疫组织化学染色模式与肺腺癌起源不一致，但与肝癌的诊断一致(图8B)。因此，这名患者的试验表明另一种诊断，即原发肝癌转移扩散到肺和大脑。

实施例6

变体microRNA

对于表3中的一些微RNA，其他的变体microRNA具有类似的起源序列(相同的核苷酸2-8)，在人类基因组中是已知的(见表5)，并因此被视为靶向非常相似的一系列基因(mRNA编码)(通过RISC机制)。具有相同的起源序列的这些微RNA可以替代指明的miRs。

表5：具有相同种子序列的microRNA

对于表3中的一些微RNA，是已知的人类基因组中的其他的microRNA，是位于基因组上接近的位置(基因组集群)(见表6)，并与相应的的miRs一起转录。这些来自于几乎相同的基因组位置的这些微RNA可以替代指明的miRs。

表6：相同基因组集群内的微RNA

对于表3中的一些微RNA，人类基因组中已知的其他微RNA具有类似序列(序列中少于6个错配)(见表7)，可能因此也被具有相同设计的探针捕获。这些具有整体相似序列的微RNA可能替代指明的miRs。

表7：具有类似序列的microRNA

前面描述的具体实施方案，充分揭示了本发明的一般性质，其他人可以应用现有的知识，很容易修改和/或适应各种应用，这些特定的实施方式，没有过度的实验也没有背离普遍概念，因此，这样的调整和修改应当以及意图被理解为在本发明公开的实施方式的等价的含义和范围内。虽然已描述了本发明及其具体实施方案，显而易见的是，很多替代、修饰和改变对本领域技术人员来说是明显的。因此，本文包括在随附权利要求书的精神和保护范围内的所有这些替代、修饰和改变。

应该被理解的是，表明本发明的优选实施方式的详细描述和具体的实施例仅以示例性的方式给出，因为根据这些详细描述，在本发明的精神和范围内的各种改变和修饰对本领域技术人员来说是很明显的。

参考文献：

1.Bentwich，I.et al.Identification of hundreds of conserved andnonconserved human microRNAs.Nat Genet(2005).

2.Farh，K.K.et al.The Widespread Impact of Mammalian MicroRNAs onmRNA Repression and Evolution.Science(2005).

3.Griffiths-Jones，S.，Grocock，R.J.，van Dongen，S.，Bateman，A.&Enright，AJ.miRBase：microRNA sequences，targets and gene nomenclature.NucleicAcids Res 34，D 140-4(2006).

4.He，L.et al.A microRNA polycistron as a potential human oncogene.Nature 435，828-33(2005).

5.Baskerville，S.&Bartel，D.P.Microarray profiling of microRNAs revealsfrequent coexpression with neighboring miRNAs and host genes.Rna 11，241-7(2005).

6.Landgraf，P.et al.A Mammalian microRNA Expression Atlas Based onSmall RNA Library Sequencing.Cell 129，1401-14(2007).

7.Volinia，S.et al.A microRNA expression signature of human solid tumorsdefines cancer gene targets.Proc Natl Acad Sci USA(2006).

8.Lu，J.et al.MicroRNA expression profiles classify human cancers.Nature435，834-8(2005).9.Varadhachary，G.R.，Abbruzzese，J.L.&Lenzi，R.Diagnostic strategies for unknown primary cancer.Cancer 100，1776-85(2004).

10.Pimiento，J.M.，Teso，D.，Malkan，A.，Dudrick，SJ.&Palesty，J.A.Cancer of unknown primary origin：a decade of experience in a community-basedhospital.Am J Surg 194，833-7；discussion 837-8(2007).11.Shaw，P.H.，Adams，R.，Jordan，C.& Crosby，T.D.A clinical review of the investigation andmanagement of carcinoma of unknown primary in a single cancer network.ClinOncol(R Coll Radiol)19，87-95(2007).12.Hainsworth，J.D.&Greco，F.A.Treatment of patients with cancer of an unknown primary site.NEnglJMed 329，257-63(1993).13.Blaszyk，H.，Hartmann，A.& Bjornsson，J.Cancer ofunknown primary：clinicopathologic correlations.Apmis 111，1089-94(2003).

14.Bloom，G.et al.Multi-platform，multi-site，microarray-based humantumor classification.Am J Pathol 164，9-16(2004).

15.Ma，XJ.et al.Molecular classification of human cancers using a 92-generealtime quantitative polymerase chain reaction assay.Arch Pathol Lab Med 130，465-73(2006).

16.Talantov，D.et al.A quantitative reverse transcriptase-polymerase chainreaction assay to identify metastatic carcinoma tissue of origin.J MoI Diagn 8，320-9(2006).

17.Tothill，R.W.et al.An expression-based site of origin diagnostic methoddesigned for clinical application to cancer of unknown origin.Cancer Res 65，4031-40(2005).

18.Shedden，K.A.et al.Accurate molecular classification of human cancersbased on gene expression using a simple classifier with a pathological tree-basedframework.Am J Pathol 163，1985-95(2003).

19.Raver-Shapira，N.et al.Transcriptional Activation of miR-34aContributes to p53-Mediated Apoptosis.MoI Cell(2007).

20.Xiao，C.et al.MiR-150Controls B Cell Differentiation by Targeting theTranscription Factor c-Myb.Cell 131，146-59(2007).

Claims

1.一种核酸组，其特征在于，该核酸组由序列分别为SEQ ID NOS：1-49的核酸组成。

2.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，9，25和26的核酸组成。

3.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，26和41的核酸组成。

4.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，26，31，41，45和48的核酸组成。

5.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，15，17，26，41和46的核酸组成。

6.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，7，15，17，26，41，46和47的核酸组成。

7.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，7，10，15，17，26，41，46和47的核酸组成。

8.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：6，17-19，24，26，32，41和42的核酸组成。

9.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，6，17-19，24，26，32，36，41和42的核酸组成。

10.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：1，3，4，6，17-19，21，26，29，34，37，41，42和48的核酸组成。

11.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：1，3，6，17-19，21，26，28，29，33，37，41和42的核酸组成。

12.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：1，3，6，9，17-19，21，25，26，28，29，33，37，41和42的核酸组成。

13.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，6，17-21，26，41和42的核酸组成。

14.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，5，6，11，17-21，26，30，41和42的核酸组成。

15.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：2，3，5，6，11，17-22，26，30，41和42的核酸组成。

16.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，5，6，11，17-22，26，30，39，41和42的核酸组成。

17.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，5，6，8，11，16-22，26，27，30，37，39，41和42的核酸组成。

18.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，5，6，8，11，16-22，26，27，29，30，37-39，41和42的核酸组成。

19.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3，5，6，11，16-22，26，27，29，30，35，39，41和42的核酸组成。

20.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3-6，11，16-22，26，27，29，30，35，39，41，42和44的核酸组成。

21.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3-6，11，16-23，26，27，29，30，32，35，39，41，42和44的核酸组成。

22.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：3-6，11，14，16-23，26，27，29，30，32，35，37，39，41，42，44和45的核酸组成。

23.一种核酸组，其特征在于，该核酸组由序列分别与SEQ ID NOS：1-49的序列互补的核酸组成。

24.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：99-149和151的核酸组成。

25.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，107，124，125和126的核酸组成。

26.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，125，126和141的核酸组成。

27.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，125，126，131，141，145和148的核酸组成。

28.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，113，115，125，126，141和146的核酸组成。

29.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，105，113，115，125，126，141，146和147的核酸组成。

30.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，105，108，113，115，125，126，141，146和147的核酸组成。

31.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：104，115-117，123，125，126，132，141和142的核酸组成。

32.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，104，115-117，123，125，126，132，136，141和142的核酸组成。

33.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：99，101，102，104，115-117，119，120，125，126，129，134，137，141，142和148的核酸组成。

34.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：99，101，104，115-117，119，120，125，126，128，129，133，137，141和142的核酸组成。

35.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：99，101，104，107，115-117，119，120，124，125，126，128，129，133，137，141和142的核酸组成。

36.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，104，115-120，125，126，141和142的核酸组成。

37.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，103，104，109，115-120，125，126，130，141和142的核酸组成。

38.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：100，101，103，104，109，115-121，125，126，130，141和142的核酸组成。

39.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，103，104，109，115-121，125，126，130，139，141和142的核酸组成。

40.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，103，104，106，109，114-121，125，126，127，130，137，139，141和142的核酸组成。

41.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，103，104，106，109，114-121，125，126，127，129，130，137-139，141和142的核酸组成。

42.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101，103，104，109，114-121，125，126，127，129，130，135，139，141和142的核酸组成。

43.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101-104，109，114-121，125，126，127，129，130，135，139，141，142和144的核酸组成。

44.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101-104，109，114-122，125，126，127，129，130，132，135，139，141，142和144的核酸组成。

45.一种核酸组，其中，所述核酸组由序列分别为SEQ ID NOS：101-104，109，112，114-122，125，126，127，129，130，132，135，137，139，141，142，144和145的核酸组成。

46.一种试剂盒，其特征在于，所述试剂盒包括探针，所述探针包括权利要求23-45中任意一项所述的核酸组。

47.权利要求23-45中任意一项所述的核酸或权利要求46所述的试剂盒在制备癌症分类系统中的应用。

48.根据权利要求47所述的应用，其中，所述癌症选自由肝癌、胆道癌、肺癌、膀胱癌、前列腺癌、乳腺癌、结肠癌、卵巢癌、睾丸癌、胃癌、甲状腺癌、胰腺癌、脑癌、头颈癌、肾癌、黑色素瘤、胸腺癌和食管癌组成的组。

49.根据权利要求48所述的应用，其中，所述睾丸癌选自由睾丸非精原细胞瘤和睾丸精原细胞瘤组成的组。

50.根据权利要求48所述的应用，其中，所述肺癌选自由肺类癌、肺小细胞癌、肺腺癌和肺鳞癌组成的组。

51.根据权利要求48所述的应用，其中，所述卵巢癌选自由卵巢浆液性癌和卵巢子宫内膜样癌组成的组。

52.根据权利要求48所述的应用，其中，所述脑癌选自由脑星形胶质细胞瘤和脑少突胶质细胞瘤组成的组。

53.根据权利要求48所述的应用，其中，所述甲状腺癌选自由甲状腺乳头状癌，甲状腺滤泡癌和甲状腺髓样癌组成的组。