CN105378110A

CN105378110A - 与癌症相关的基因融合体和基因变异体

Info

Publication number: CN105378110A
Application number: CN201480034585.7A
Authority: CN
Inventors: D·瑞欧德斯; S·萨迪斯; P·万恩哥阿德; N·卡茨阿诺; S·班德拉; M·托米罗; S·阿迪; E·波欧登
Original assignee: Life Technologies Inc
Current assignee: Life Technologies Inc; Life Technologies Corp
Priority date: 2013-04-17
Filing date: 2014-03-14
Publication date: 2016-03-02
Also published as: WO2014172046A3; EP2986736A2; US20140315199A1; WO2014172046A9; EP2986736B1; JP2016518123A; AU2014254394A1; WO2014172046A2; AU2014254394A9; AU2014254394B2

Abstract

本发明提供基因融合体、基因变异体和与疾病病况的新颖相关性以及使用其的试剂盒、探针和方法。

Description

与癌症相关的基因融合体和基因变异体

技术领域

本发明大体上涉及与癌症相关的基因融合体和基因变异体。

背景技术

人类癌细胞中经常发现如染色体易位和基因变异体的畸变。染色体易位可能产生表达融合体转录物的嵌合基因，所述嵌合基因接着翻译成融合蛋白，所述融合蛋白会影响正常调节路径且刺激癌细胞生长。基因变异体还可产生会影响正常调节路径的异常蛋白。

新融合体基因、已知融合体基因之新变异体和基因变异体或等位基因之鉴别为其他诊断和癌症治疗目标提供机会。

发明内容

本发明提供新颖基因融合变异体和基因融合体-疾病病况相关性。本文提供的基因融合体与特定癌症相关。本发明进一步提供探针(如扩增引物组和检测探针)以及检测、诊断和治疗的方法和系统以及包括或检测本文所公开的基因融合体的试剂盒。

在一个实施例中，本发明提供一种反应混合物，其包含特异性地识别选自表1-表3、表19和表22的基因融合体的一个探针或一个探针组。所述探针组可例如为一个扩增引物组。在另一实施例中，本文提供一种反应混合物，其包括侧接目标核酸中选自表1-表3、表19和表22的基因融合体的一个引物组。举例来说，所述引物组可以各自在表4-6、20和23中鉴别的融合体断裂点中的一者的相对侧的1000、750、500、250、100、90、80、75、70、65、50或25个核苷酸内结合于人类基因组中的目标序列。此实施例的反应混合物可以进一步包括检测器探针，所述检测器探针结合于选自表1-表3、表19和表22的基因融合体中的断裂点的任一侧，或结合跨越选自表1-表3、表19和表22的基因融合体中的断裂点的结合区，包括其中断裂点鉴别于表4-6、20和23中的特定实施例。在例示性实施例中，检测器探针在表4-6、20和23中鉴别的融合体断裂点中的一者的1000、750、500、250、100、90、80、75、70、60、50或25个核苷酸内结合于人类基因组中的目标序列。包括检测器探针或不包括检测器探针的反应混合物可以进一步包括聚合酶、逆转录酶、dNTP和/或尿嘧啶DNA去糖基化酶(UDG)。聚合酶、逆转录酶和UDG通常不来自人类来源。说明性实施例中的聚合酶是热稳定聚合酶，如Taq聚合酶。在某些实施例中，反应混合物中的dNTP包括dUTP，且在某些实例中，反应混合物可以没有dTTP。此外，反应混合物可以包括扩增子，如DNA扩增子，其包括一个或多个脱氧尿苷(“dU”)残基。在某些实施例中，反应混合物包括DNA扩增子，其包括针对对应人类基因组序列中的每一脱氧胸苷残基的一个或多个dU残基。在某些实施例中，扩增子包括所对应序列并未在人类基因组中发现的区段，如DNA条形码序列。非人类区段的长度可例如为5-10,000、5-5000、5-1000、5-500、5-100、5-50、5-25、5-10、10-10,000、10-5000、10-1000、10-500、10-100、10-50或10-25个核苷酸。在某些实施例中，扩增子包括对应于人类基因组中跨越内含子的区域的区段，但扩增子并不包括对应于内含子的区段。反应混合物可以进一步包括目标核酸，例如人类目标核酸。人类目标核酸可例如从怀疑患有选自以下各者的癌症的个体的生物样品中分离：BLCA＝膀胱癌、BRCA＝乳癌、CESC＝子宫颈细胞癌、COAD＝结肠腺癌、GBM＝多形性成胶质细胞瘤、HNSC＝头颈鳞状细胞癌、KIRK＝透明细胞肾细胞癌、KIRP＝肾脏肾乳头状细胞癌、LAML＝急性骨髓性白血病、LGG＝脑低级别胶质瘤、LIHC＝肝脏肝细胞癌、LUAD＝肺腺癌、LUSC＝鳞状细胞肺癌、OV＝卵巢浆液性腺癌、PRAD＝前列腺腺癌、READ＝直肠腺癌、SKCM＝皮肤黑素瘤、STAD＝胃腺癌、THCA＝甲状腺癌和UCEC＝子宫体子宫内膜样癌。在某些实施例中，目标核酸来自肿瘤，例如先前句子中列出的癌症类型中的一者的肿瘤。

在另一实施例中，提供一种探针组，其特异性地识别包含SEQIDNO：1-257中的至少一者(基因融合体)的核酸。在另一实施例中，本文提供一种引物组，其特异性地扩增包括SEQIDNO：1-257中的至少25、30、40、50、75、100、125、150、200个或全部的目标核酸，或扩增SEQIDNO：1-257中的最多25、30、40、50、75、100、125、150、200个或全部。在另一实施例中，本文提供一种qPCR分析，如TaqMan^TM分析或MolecularBeacons^TM分析，其特异性地扩增且检测包括SEQIDNO：1-257中的至少25、30、40、50、75、100、125、150、200个或全部的目标核酸。

本发明还提供一种经分离核酸，其包含选自包括SEQIDNO：1-257中的至少25、30、40、50、75、100、125、150、200个或全部或包括SEQIDNO：1-257中的最多25、30、40、50、75、100、125、150、200个或全部的区段的至少一个序列。经分离核酸可以在5′末端上包括第一引物。此外，核酸可能为单链或双链的。在某些实施例中，经分离核酸包括所对应序列并未在人类基因组中发现的区段，如DNA条形码序列。区段的长度可例如为5-10,000、5-5000、5-1000、5-500、5-100、5-50、5-25、5-10、10-10,000、10-5000、10-1000、10-500、10-100、10-50或10-25个核苷酸。

在其他实施例中，本发明提供一种试剂盒，其包括一个检测器探针和/或一个探针组，例如一个扩增引物组，其特异性地识别包含选自表1-表3、表19和表22的基因融合体的断裂点的核酸。举例来说，在某些实施例中，所述检测器探针或扩增引物组经设计以扩增和/或检测包括SEQIDNO：1-29257中的至少一者的最多25、30、40、50、75、100、125、150、200个或全部的核酸。所述试剂盒可以进一步在一个或多个各别容器中或在相同容器中包括来自扩增反应混合物的至少一种组分，如聚合酶、dNTP、逆转录酶和/或UDG，通常逆转录酶、聚合酶和UDG不来自人类来源。在某些实施例中，dNTP包括dUTP，且在说明性实例中没有dTTP。说明性实施例中的聚合酶是热稳定聚合酶，如Taq聚合酶。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含选自表1-表3、表19和表22的基因融合体中的断裂点的序列，如包括SEQIDNO：1-257中的至少25、30、40、50、75、100、125、150、200个或全部的核酸或包括SEQIDNO：1-257中的最多25、30、40、50、75、100、125、150、200个或全部的核酸。

提供一种检测癌症的方法，其包含扩增跨越选自表1-表3、表19和表22的基因融合体中的断裂点的核酸，例如，所述核酸可以包括选自SEQIDNO：1-257的序列；以及检测所述核酸的存在，其中所述核酸的存在指示癌症存在于样品中。在另一方法中，本文提供一种检测选自膀胱癌、结肠癌、乳癌、子宫内膜癌、黑素瘤、卵巢癌、成胶质细胞瘤、神经胶瘤、白血病、肾细胞癌、甲状腺癌和前列腺腺癌的癌症的方法，其包括产生包括选自SEQIDNO：1-257的序列的扩增子，以及检测所述扩增子的存在，其中所述扩增子的存在指示膀胱癌、结肠癌、黑素瘤、卵巢癌、成胶质细胞瘤、肺癌、神经胶瘤、白血病、肾细胞癌、甲状腺癌、子宫内膜子宫内膜样腺癌、乳癌和前列腺腺癌存在于样品中。所述扩增子通常包括经延伸以形成所述扩增子的引物。所述癌症是选自膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤和甲状腺腺体癌。在特定说明性实施例中，所产生的扩增子是DNA扩增子，其包括dU残基，且在某些实例中不包括dT残基。在此段落中所提供的方法中，扩增子可使用本文提供的反应混合物产生。在某些实施例中，所述方法包括检测跨越选自表1-表3、表19和表22的基因融合体中的断裂点的核酸的表达。用于检测表达的方法通常包括从样品(如肿瘤样品，在说明性实施例中，其可为福尔马林(formalin)固定的样品)分离RNA的步骤。

在一个实施例中，反应混合物包括选自SYBRGreen、SBYRGreener、荧光素(Fluorescein)、俄勒冈绿(OregonGreen)、FAM、TET、JOE、VIC、雅基马黄(YakimaYellow)、HEX、Cy3、BodipyTMR、NED、TAMRA、Cy3.5、ROX、德克萨斯红(TexasRed)、LightCyclerRed、Bodipy630/650、AlexaFluor647、Cy5、AlexaFluor660或Cy5.5的染料。在某些实施例中，染料连接于反应混合物中的可检测标记的探针。在其他实施例中，染料直接或经由可检测标记的探针结合于扩增子。

提供一种试剂盒，其包含一个探针或一个探针组，例如一个可检测探针或一个扩增引物组，其特异性地识别包含来自表4-6、20和23的断裂点的核酸。所述试剂盒可以在同一容器中或在某些优选实施例中在另一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含选自表4-6、20和23的断裂点的序列。

在另一实施例中，本文提供一种基因融合体，其包括表1-3、19和22中鉴别的基因融合体。在说明性实施例中，基因融合体包括表4-6、20和23中鉴别的断裂点中的一者。因此，本文提供一种经分离基因融合体核酸，其长度在100与10,000个核苷酸之间且在表4-6、20和23中的断裂点中的一者的任一侧上包含至少25个核苷酸。

在一个相关实施例中，本文提供一种经分离基因融合体核酸，其包含表4-6、20和23中的断裂点中的至少一者。在某些实施例中，经分离基因融合体核酸包含SEQIDNO：1-257中的至少25、30、40、50、75、100、125、150、200个或全部或包括SEQIDNO：1-257中的最多25、30、40、50、75、100、125、150、200个或全部的核酸。经分离基因融合体核酸的长度可例如在50与100,000个核苷酸之间、在100与50,000个核苷酸之间、在100与25,000个核苷酸之间、在100与10,000个核苷酸之间、在100与5,000个核苷酸之间、在100与2500个核苷酸之间、在100与1,000个核苷酸之间、在100与500个核苷酸之间、在100与250个核苷酸之间、在100与200个核苷酸之间、在250与10,000个核苷酸之间、在250与5,000个核苷酸之间、在250与1,000个核苷酸之间或在250与500个核苷酸之间。在某些方面中，经分离基因融合体核酸是DNA。在某些说明性实施例中，经分离核酸基因融合体没有内含子序列但跨越包括一个或多个内含子的基因组中的区域。在某些实施例中，经分离基因融合体核酸是cDNA。

在另一实施例中，提供经分离基因融合体核酸，其包含表4-6、20和23中的断裂点中的至少一者。

在另一实施例中是一种方法，其通过检测选自表1-表3、表19和表22的基因融合体的存在来检测样品中的选自膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤和甲状腺腺体癌的癌症。

本发明提供新颖基因变异体和基因变异体-疾病病况相关性。基因变异体可以具有一个或多个产生变异蛋白的突变。本文提供的基因变异体与某些癌症相关。基因变异体产生蛋白变异体。本发明进一步提供探针(如扩增引物组和检测探针)以及检测、诊断和治疗的方法以及包括或检测本文所公开的基因变异体的试剂盒。

在一个实施例中，本发明提供一种组合物和一种试剂盒，其包含特异性地识别编码选自表7和/或表11的基因变异体的核苷酸序列的一个探针组。所述探针组可例如为一个扩增引物组。在另一实施例中，本文提供一种组合物，其包括侧接编码表7和/或表11中的一种或多种变异体的基因变异体的一个引物组。此实施例的反应混合物可以进一步包括检测器探针，其结合于包括选自表7和/或表11的基因变异体的核苷酸序列。包括检测器探针或不包括检测器探针的反应混合物可以进一步包括聚合酶、dNTP和/或尿嘧啶DNA去糖基化酶(UDG)。聚合酶和UDG通常不来自人类来源。反应混合物可以进一步包括目标核酸，例如人类目标核酸。人类目标核酸可例如从来自怀疑患有癌症的个体的生物样品中分离。所述癌症可选自：BLCA＝膀胱癌、BRCA＝乳癌、CESC＝子宫颈细胞癌、COAD＝结肠腺癌、GBM＝多形性成胶质细胞瘤、HNSC＝头颈鳞状细胞癌、KIRK＝透明细胞肾细胞癌、KIRP＝肾脏肾乳头状细胞癌、LAML＝急性骨髓性白血病、LGG＝脑低级别胶质瘤、LIHC＝肝脏肝细胞癌、LUAD＝肺腺癌、LUSC＝鳞状细胞肺癌、OV＝卵巢浆液性腺癌、PRAD＝前列腺腺癌、READ＝直肠腺癌、SKCM＝皮肤黑素瘤、STAD＝胃腺癌、THCA＝甲状腺癌和UCEC＝子宫体子宫内膜样癌。

编码表7和/或表11中的一种或多种基因变异体的核苷酸序列可为涵盖所述变异的任何大小。举例来说，核苷酸序列可为可容易地使用引物拷贝和/或使用探针检测的任何大小。

在另一实施例中，提供一种探针组，其特异性地识别编码选自表7和/或表11(基因变异体)的基因变异体的核酸。在另一实施例中，本文提供一种引物组，其特异性地扩增编码选自表7和/或表11的基因变异体的目标核酸。在另一实施例中，本文提供qPCR分析，如(但不限于)TaqMan^TM分析、Scorpions分析或MolecularBeacons^TM分析，其特异性地扩增且检测编码选自表7和/或表11的基因变异体的目标核酸。

本发明还提供一种经分离核酸，其包含编码选自表7和/或表11的一种或多种基因变异体的至少一个序列。经分离核酸可以在5′末端上包括第一引物。此外，核酸可能为单链或双链的。

在其他实施例中，本发明提供一种试剂盒，其包括一个检测器探针和/或一个探针组，例如一个扩增引物组，其特异性地识别编码选自表7和/或表11的基因变异体的核酸。举例来说，在某些实施例中，检测器探针或扩增引物组经设计以扩增和/或检测编码表7和/或表11中的变异体的核酸。所述试剂盒可以在另一容器中或在同一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含选自表7和/或表11的基因变异体的序列。

提供一种检测癌症的方法，其包含扩增编码选自表7和/或表11的基因变异体的核酸，例如所述核酸可以包括来自表7和/或表11中的登录号中的一者的序列，除了所述序列含有编码表7和/或表11中的基因变异体的变异体以外；以及检测所述核酸的存在，其中所述核酸的存在指示癌症存在于样品中。在另一方法中，本文提供一种检测癌症的方法，其包括产生包括编码选自表7和/或表11的变异体的序列的扩增子，以及检测所述核酸的存在，其中所述核酸的存在指示癌症或癌细胞存在于样品中。所述扩增子通常包括经延伸以形成所述扩增子的引物。所述癌症是选自膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌。

提供一种试剂盒，其包含特异性地识别包含来自表7和/或表11的基因变异体的核酸的一个探针组(例如一个扩增引物组)。所述试剂盒可以在另一容器中或在同一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含来自表7和/或表11的基因变异体的序列。

在某些实施例中，提供一种探针组，其特异性地识别包含来自表7和/或表11的基因变异体的核酸。

在另一实施例中，提供一种基因变异体，其包含表7和/或表11中的基因变异体中的至少一者。

在另一实施例中是一种方法，其通过检测选自表7和/或表11的基因变异体的存在来检测样品中的选自膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌的癌症。基因变异体可以包括(但不限于)ZNF479变异体R11Q、R295K、R295T、R295I、R345I、R345T、K438T和T466K。

在另一实施例中，提供一种向受试者递送药物的方法，其中所述方法包括检测表15中鉴别的基因事件，且用药物治疗受试者，其中所述药物被认为积极地影响具有所述基因事件的患者的临床结果。在说明性实施例中，基因事件与表8中发现的基因相关，且所述药物在表8中列为所述基因的伴侣。在另一实施例中，本文提供一种判定受试者是否接受药物的方法，所述方法包括检测表15中鉴别的基因事件，且接着如果所检测的基因事件在表15中列为与较差的预后相关，那么向所述受试者递送药物，其中所述药物被认为积极地影响具有所述基因事件的患者的临床结果。在说明性实施例中，基因事件与表8中发现的基因相关，且所述药物在表8中列为所述基因的伴侣。

在一个实施例中，提供一种试剂盒，其中所述试剂盒包含一个探针组，其中每一探针与包含来自表4-6、20和23的断裂点的核酸特异性地杂交。

在一个实施例中，提供一种方法，所述方法包含：扩增来自样品的包含至少一种来自表1-3、19和22的基因融合体的核酸；以及通过以下各项中的至少一者检测所述至少一种基因融合体的存在：使组合物与至少一种探针接触，其中每一探针与所述核酸特异性地杂交，或观察所述核酸中非天然或非原生化学结构的存在；其中检测所述至少一种基因融合体的存在指示至少一种来自表1-3、19和22的癌症存在于样品中。

在一个实施例中，提供一种系统，所述系统包含核酸扩增器，其经配置以扩增来自样品的包含来自表1-3、19和22的至少一种基因融合体的核酸，得到经扩增核酸；检测器，其经配置以通过以下各项中的至少一者检测所述经扩增核酸中的所述至少一种基因融合体的存在：(i)使组合物与至少一种探针接触，其中每一探针与所述核酸特异性地杂交，或(ii)观察所述核酸中非天然或非原生化学结构的存在，且经进一步配置以发送检测指示；以及计算机系统，其经配置以接收所述检测指示且基于所述检测指示来确定来自表1-3、19和22的至少一种癌症存在于所述样品中。

在一个实施例中，提供一种非暂时性计算机可读程序存储单元，所述非暂时性计算机可读程序存储单元经指令编码，所述指令当由计算机执行时执行一种方法，所述方法包含：接收包含至少一种癌症类型和事件类型的输入，其中所述癌症类型选自表15，且所述事件类型选自表15；在数据库中查询至少一个包含多个字段的条目，其中所述多个字段包含所述癌症类型和所述事件类型中的至少一者；以及发送包含来自所述至少一个条目的所述多个中的至少一个字段的输出，其中所述至少一个字段包含至少一种基因、至少一种可药化基因、至少一种靶向所述至少一种可药化基因的药物、或预后。

在一个实施例中，提供一种方法，其中所述方法包含向具有选自表1-3、19和22中列出的基因融合体的至少一种基因融合体的患者投与选自表8、16-17、21和24中列出的药物的至少一种药物。

在一个实施例中，提供一种方法，其中所述方法包含使来自患者的核酸样品与包含与第一基因互补的第一引物和与第二基因互补的第二引物的反应混合物接触，其中所述第一基因和所述第二基因的融合体可通过由所述第一引物和所述第二引物生成的扩增子的存在来检测，其中所述融合体包含选自表4-6、20和23中列出的断裂点的断裂点。

在一个实施例中，提供一种非暂时性计算机可读程序存储单元，所述非暂时性计算机可读程序存储单元经指令编码，所述指令当由计算机执行时执行一种方法，所述方法包含：接收来自至少一种癌细胞系的RNA序列数据；对所述序列数据运行至少一种基因融合体调用程序，以鉴别所述经处理数据中的融合基因之间的可能的断裂点；过滤所述可能的断裂点以保留候选断裂点，其中每一候选断裂点是在功能基因区的5′非翻译区(UTR)或编码DNA序列(CDS)中，且每一候选断裂点不出现在内含子中；用适用于针对癌症诊断、癌症预后或癌症治疗中的至少一者测定基因融合体的相关性的至少一种注释对所述候选断裂点进行注释，其中所述基因融合体包含所述候选断裂点。

在一个实施例中，提供一种非暂时性计算机可读程序存储单元，所述非暂时性计算机可读程序存储单元经指令编码，所述指令当由计算机执行时执行一种方法，所述方法包含：接收来自至少一种癌细胞系的突变数据；用变异体分类、变异体位置或变异体变化中的至少一者对所述突变数据进行注释，得到经注释的突变数据；过滤所述经注释的突变数据，得到基因区域突变数据；将所述基因区域突变数据归类为热点、有害或其他；以及基于所述基因中的突变相对频率和所述基因中所有基因区域突变的分类，将包含所述基因区域突变的基因命名为获得功能、失去功能或再现的其他基因。

在一个实施例中，提供一种方法，所述方法包含检测来自受试者的样品中的一种或多种基因融合体，得到基因融合体检测数据，其中所述基因融合体中的至少一者是选自表1-3、19和22中列出的基因融合体，通过计算机系统接收所述基因融合体检测数据，以及基于所述基因融合体检测数据，通过所述计算机系统确认推荐给所述受试者的至少一种治疗选择。

在一个实施例中，提供一种系统，所述系统包含检测器，其经配置以(i)检测来自受试者的样品中的一种或多种基因融合体，得到基因融合体检测数据，其中所述基因融合体中的至少一者选自表1-3、19和22中列出的基因融合体和(ii)发送所述基因融合体检测数据；以及计算机系统，其经配置以接收所述基因融合体检测数据且基于所述基因融合体检测数据来确认推荐给所述受试者的至少一种治疗选择。

在另一实施例中，提供新颖TP53WT基因标签以及检测表40中的TP53WT基因标签基因中的一者或多者的表达水平的方法。

附图说明

图1提供基因融合体RNASeq数据处理的工作流。

图2展示获得功能和失去功能的基因的基因变异体的分类流程。

图3概述将各种数据类型整合到基因事件数据库(GEDB)中的数据流。

图4是展示基因事件的上卷的流程图

图5是展示与含有TP53点突变的乳癌样品相比TP53WT表达标签在TP53WT乳癌中显著升高的图式。

图6是展示与含有TP53突变的肺癌样品相比TP53WT表达标签在TP53WT肺癌中显著升高的图式。

图7是展示与含有TP53突变的卵巢癌样品相比TP53WT表达标签在HP53WT卵巢癌中显著升高的图式。

图8A-D为描绘浆液性卵巢癌患者中的PLXNB21和COL7A1的粗RPKM表达值(A-B)对比z分数归一化值(C-D)的曲线。在外显子12、17和23处的PLXNB1表达中的广泛群体突降在归一化数据中被平滑处理。被预测为具有这些基因之间的融合体的样品，红色菱形指示调用程序预测的断裂点外显子。

图9是利用氨基酸位置的常见TP53突变的表。显示在泛癌症分析中以在患者中＞0.25％的整体频率出现的突变。再现的剪接位点突变在影响T-125的内含子-外显子连接点处鉴别

图10是Tp53框内插入和缺失突变的表。所鉴别的最大的检测到的框内插入-缺失为21bp。基因组上的大于99％的非转座子插入缺失＜100bp。

具体实施方式

本发明提供新颖基因融合体和变异体，以及基因融合体和/或基因变异体与某些癌症类型的新颖相关性。进一步提供涉及本文所公开的基因融合体和/或变异体的探针、反应混合物、分析和试剂盒。

定义

术语“标记物”或“生物标记物”是指细胞中所表达的、癌细胞表面上所表达的或与非癌细胞相比由癌细胞所分泌的分子(通常是蛋白质、核酸、碳水化合物或脂质)，且其适用于诊断癌症，用于提供预后，以及用于药物对癌细胞的优选靶向。时常，所述标记物为与非癌细胞相比在癌细胞中过度表达的分子，例如与正常细胞相比1倍过度表达、2倍过度表达、3倍过度表达或更多。另外，标记物可以是在癌细胞中不适当地合成的分子，例如与在正常细胞上表达的分子相比含有缺失、添加或突变的分子。可替代地，此类生物标记物是与非癌细胞相比在癌细胞中表达不足的分子，例如1倍表达不足、2倍表达不足、3倍表达不足或更多。另外，标记物可以是在癌症中不适当地合成的分子，例如与在正常细胞上表达的分子相比含有缺失、添加或突变的分子。

熟练的业内人士应了解，标记物可与其他标记物或测试组合用于本文中所公开的用途(例如癌症的预测、诊断或预后)中的任一个。

“生物样品”包括组织切片，如活检和尸检样品，以及为了组织学目的获取的冷冻切片。举例来说，生物样品可以包括新鲜冷冻的石蜡包埋的(FFPE)样品。可替代地，生物样品可以包括血液和血液级分或产物(例如血清、血浆、血小板、红细胞等)、痰液、支气管肺泡灌洗液、经培养细胞(例如原代培养物、外植体和转化细胞)、粪便、尿液等。生物样品通常从真核生物体获得，最优选地是哺乳动物，如灵长类动物，例如黑猩猩或人类；牛；犬；猫；啮齿动物，例如豚鼠、大鼠、小鼠；兔；或鸟；爬行动物；或鱼。

“活检”是指移出组织样品以便诊断或预后评估的过程，以及是指组织样本自身。所属领域中已知的任何活检技术均可应用于本发明的诊断和预后方法。所应用的活检技术将取决于待评估的组织类型(例如肺等)、肿瘤的大小和类型以及其他因素。代表性活检技术包括(但不限于)切除活检、切取活检、针活检、手术活检和骨髓活检。“切除活检”是指移出整个肿瘤块体，围绕所述肿瘤块体有较小边缘的正常组织。“切取活检”是指从肿瘤内移出楔形组织。通过内窥镜检查或放射照相引导进行的诊断或预后可能需要“核心针活检”或“细针抽吸活检”，其通常从目标组织内获得细胞悬浮液。活检技术例如论述在《哈里森内科学原理》(Harrison′sPrinciplesofInternalMedicine)，卡斯珀(Kasper)等人编，第16版，2005，第70章，和整个第V部分中。

术语“过度表达(overexpress/overexpression)”或“过度表达的”可互换地指与正常细胞相比通常在癌细胞中以可检测地更大水平翻译或转录的蛋白质或核酸(RNA)。所述术语包括与正常细胞相比因转录、转录后加工、翻译、翻译后加工、细胞定位(例如细胞器、细胞质、细胞核、细胞表面)以及RNA和蛋白质稳定性所致的过度表达。过度表达可以使用检测mRNA(即，RT-PCR、PCR杂交)或蛋白质(即，ELISA、免疫组织化学技术)的常规技术检测。过度表达可以是与正常细胞相比10％、20％、30％、40％、50％、60％、70％、80％、90％或更多。在某些情况下，过度表达是与正常细胞相比1倍、2倍、3倍、4倍或更高水平的转录或翻译。

术语“表达不足(underexpress/underexpression)”或“表达不足的”或“下调”可互换地指与正常细胞相比在癌细胞中以可检测地较低水平翻译或转录的蛋白质或核酸。所述术语包括与对照相比因转录、转录后加工、翻译、翻译后加工、细胞定位(例如细胞器、细胞质、细胞核、细胞表面)以及RNA和蛋白质稳定性所致的表达不足。表达不足可以使用检测mRNA(即，RT-PCR、PCR杂交)或蛋白质(即，ELISA、免疫组织化学技术)的常规技术检测。表达不足可以是与对照相比10％、20％、30％、40％、50％、60％、70％、80％、90％或更小。在某些情况下，表达不足是与对照相比1倍、2倍、3倍、4倍或更低水平的转录或翻译。

术语“有差异地表达的”或“有差异地调节的”通常是指与至少一种其他样品相比在一种样品中(在本发明的上下文中通常是与非癌性组织的样品相比在癌症患者中)过度表达(上调)或表达不足(下调)的蛋白质或核酸。

阐述一组组分的术语“系统”(真实或抽象)包含一个整体，其中每一组分与整体内的至少一个其他组分相互作用或与其相关。

术语“多肽”、“肽”和“蛋白质”在本文中可互换使用以指氨基酸残基的聚合物。这些术语适用于氨基酸聚合物，其中一个或多个氨基酸残基是相应天然存在的氨基酸的人造化学模拟剂，以及适用于天然存在的氨基酸聚合物和非天然存在的氨基酸聚合物。

术语“氨基酸”是指天然存在的和合成氨基酸，以及以与天然存在的氨基酸类似的一种方式起作用的氨基酸类似物和氨基酸模拟物。天然存在的氨基酸是由遗传密码编码的氨基酸、以及后来被修饰的那些氨基酸，例如羟基脯氨酸、γ-羧基谷氨酸以及O-磷酸丝氨酸。氨基酸类似物是指具有与天然存在氨基酸相同的基本化学结构(即与氢、羧基、氨基以及R基团结合的α碳)的化合物，例如高丝氨酸、正亮氨酸、蛋氨酸亚砜、蛋氨酸甲基锍。此类类似物具有被修饰的R基团(例如正亮氨酸)或被修饰的肽主链，但保持与天然存在的氨基酸相同的基本化学结构。氨基酸模拟物是指具有与氨基酸的一般化学结构不同的结构但以与天然存在的氨基酸类似的方式起作用的化合物。

氨基酸在本文中可以由其通常已知的三字母符号或由IUPAC-IUB生物化学命名法委员会(BiochemicalNomenclatureCommission)所推荐的单字母符号来提及。同样地，核苷酸可以由其通常接受的单字母密码来提及。

关于氨基酸序列，技术人员将认识到改变、添加或缺失编码序列中的单个氨基酸或较小百分比的氨基酸的核酸、肽、多肽或蛋白质序列的个别取代、缺失或添加是“经保守修饰的变异体”，其中所述变化引起氨基酸经化学上类似的氨基酸取代。提供功能上类似的氨基酸的保守取代表在所属领域中众所周知。所述经保守修饰的变异体另外为且不排除本发明的多晶型变异体、种间同系物和等位基因。

以下八组各自含有彼此是保守取代的氨基酸：1)丙氨酸(A)、甘氨酸(G)；2)天冬氨酸(D)、谷氨酸(E)；3)天冬酰胺(N)、谷氨酰胺(Q)；4)精氨酸(R)、赖氨酸(K)；5)异亮氨酸(I)、亮氨酸(L)、蛋氨酸(M)、缬氨酸(V)；6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；7)丝氨酸(S)、苏氨酸(T)；和8)半胱氨酸(C)、蛋氨酸(M)。参见例如，克赖顿(Creighton)，《蛋白质》(Proteins)(1984)。

当提及蛋白质、核酸、抗体或小分子化合物时，短语“特异性地(或选择性地)结合”是指通常在蛋白质或核酸与其他生物制剂的异质群体中决定蛋白质或核酸(如本发明的差异表达基因)的存在的结合反应。在抗体的情况下，在指定的免疫分析条件下，指定抗体可以至少两倍背景且更通常超过10到100倍背景结合于特定蛋白质。在此类条件下特定结合于抗体需要针对其对特定蛋白质的特异性选择的抗体。举例来说，多克隆抗体可以经选择以仅获得与所选抗原而不与其他蛋白质特异性免疫反应的那些多克隆抗体。这一选择可以通过去掉与其他分子交叉反应的抗体来实现。多种免疫分析形式可以用于选择与特定蛋白质特异性免疫反应的抗体。举例来说，固相ELISA免疫分析常规地用于选择与蛋白质特异性免疫反应的抗体(参见例如，哈洛(Harlow)和莱恩(Lane)，《抗体实验指南》(Antibodies，ALaboratoryManual)(1988)关于可以用于测定特异性免疫反应的免疫分析形式和条件的描述)。

在用于调节标记物蛋白的测试化合物的分析的情形下，短语“功能效应”包括测定间接或直接受到本发明的生物标记物的影响的参数，例如化学物或表型。因此，功能效应尤其包括配体结合活性、转录活化或抑制、细胞增殖的能力、迁移的能力。“功能效应”包括体外、体内和离体活性。

“测定功能效应”意指针对增大或减小间接或直接受到本发明的生物标记物的影响的参数的化合物的分析，例如测量物理和化学或表型效应。此类功能效应可以通过所属领域的技术人员已知的任何手段测量，例如光谱特征的变化(例如荧光、吸光度、折射率)；水动力(例如形状)、色谱；或蛋白质的溶解度特性；配体结合分析，例如结合于抗体；测量诱导型标记物或标记物的转录活化；测量酶活性的变化；增加或减少细胞增殖、细胞凋亡、细胞周期停滞的能力，测量细胞表面标记物的变化。功能效应可以通过所属领域的技术人员已知的许多手段评估，例如显微镜用于定量或定性测量形态特征的变化，测量在胎盘组织中表达的其他基因的RNA或蛋白质水平的变化，测量RNA稳定性，鉴别下游或报导基因表达(CAT、荧光素酶、β-gal、GFP等)，例如经由化学发光、荧光、比色反应、抗体结合、诱导型标记物等。

标记物的“抑制剂”、“活化剂”和“调节剂”用于指使用癌症生物标记物的体外和体内分析所鉴别的活化性、抑制性或调节性分子。抑制剂是例如结合以部分或完全阻断活性、降低、阻止、延时活化、灭活、钝化或下调癌症生物标记物的活性或表达的化合物。“活化剂”是增加、打开、启动、促进、增加活化、敏化、激动或上调癌症生物标记物的活性的化合物，例如激动剂。抑制剂、活化剂或调节剂还包括癌症生物标记物的经基因修饰型式(例如具有改变活性的型式)以及天然存在和合成配体、拮抗剂、激动剂、抗体、肽、环肽、核酸、反义分子、核酶、RNAi和siRNA分子、小有机分子等。针对抑制剂和活化剂的此类分析包括例如在体外、在细胞或细胞提取物中表达癌症生物标记物，施加推定的调节剂化合物，且接着测定对活性的功能效应，如上文所述。

“探针(probe或probes)”是指长度为至少八(8)个核苷酸的聚核苷酸，且其因探针中的至少一个序列与目标区域中的序列的互补性而与目标序列形成杂合结构。聚核苷酸可由DNA和/或RNA构成。在某些实施例中，探针经可检测地标记，如本文中更详细地论述。探针的大小可显著变化。一般来说，探针的长度是例如至少8到15个核苷酸。其他探针是例如至少20、30或40个核苷酸长。其他探针稍微更长，为至少例如50、60、70、80、90个核苷酸长。其他探针还更长，且是至少例如100、150、200个或更多个核苷酸长。探针也可以是落在前述范围内的任何特定长度。优选地，探针不含与在聚合酶链反应期间用于目标序列的引物的序列互补的序列。

术语“互补”或“互补性”用于提及通过碱基对规则相关的聚核苷酸(即，核苷酸序列)。举例来说，序列“A-G-T”与序列“T-C-A”互补。互补可以“部分”，其中仅一些核酸的碱基根据碱基配对规则匹配。可替代地，可能存在核酸之间的“完整”或“完全”互补性。核酸链之间的互补性程度对核酸链之间杂交的效率和强度具有显著影响。

术语“寡核苷酸”或“聚核苷酸”是指任何长度的核苷酸的聚合形式，为脱氧核糖核苷酸或核糖核苷酸。这些术语包括(但不限于)单链、双链或三链DNA、基因组DNA、cDNA、RNA、DNA-RNA杂混物或包含嘌呤和嘧啶碱基或其他天然化学、生物化学修饰的非天然或衍生核苷酸碱基的聚合物。

“扩增检测分析”是指定义扩增子的引物对和匹配的探针，其中引物对侧接目标核酸区(通常为目标基因)，且其中探针结合于扩增子。

术语“基因变异体”和“核苷酸变异体”在本文中可互换使用以指在特定基因座处相对于参考人类基因或cDNA序列的变化或改变，包括(但不限于)编码区和非编码区中的核苷酸碱基缺失、插入、倒位和取代。缺失可为单个核苷酸碱基、基因的核苷酸序列的一部分或一个区域、或整个基因序列的缺失。插入可为一个或多个核苷酸碱基的插入。“基因变异体”或“核苷酸变异体”可出现在转录调节区、mRNA的非翻译区、外显子、内含子或外显子/内含子连接点中。“基因变异体”或“核苷酸变异体”可能产生或可能不产生终止密码子、框移、氨基酸缺失、改变的基因转录物剪接形式或改变的氨基酸序列。

术语“基因”是指聚核苷酸(例如DNA区段)，其编码多肽且包括编码区之前和之后的区域以及个别编码区段(外显子)之间的插入序列(内含子)。亲本基因或蛋白质序列以EntrezGeneID或登录号形式呈现。举例来说，ZNF479EntrezGeneID是90827。如果已对Entrez中的GeneID中的序列作出任何改变，那么在所述GeneID之后用一个小数点和改变数量指示(例如90827.1)。另外，举例来说，TPM1具有登录号NM_004304。

术语“等位基因”或“基因等位基因”在本文中用以大体上指具有参考序列的天然存在的基因或含有特定核苷酸变异体的基因。

如本文所用，“单倍型”是在个体中发现的染色体上的mRNA或基因组DNA的区域中的基因(核苷酸)变异体的组合。因此，单倍型包括通常作为一个单元一起遗传的许多基因连接的多态变异体。

如本文所用，术语“氨基酸变异体”用于指由编码参考蛋白质的参考人类基因的“基因变异体”或“核苷酸变异体”产生的相对于参考人类蛋白质序列的氨基酸变化。术语“氨基酸变异体”不仅打算涵盖单个氨基酸取代，而且打算涵盖氨基酸缺失、插入和参考蛋白质中的氨基酸序列的其他显著变化。本发明的变异体通过以下命名法描述：[原始氨基酸残基/位置/取代的氨基酸残基]。举例来说，在位置76处的亮氨酸取代精氨酸表示为R76L。

如本文所用的术语“基因型”意指在基因(或特定染色体区域)的任一等位基因或两个等位基因中的特定核苷酸变异体标记物(或基因座)处的核苷酸字符。就相关基因的特定核苷酸位置来说，在一个或两个等位基因中的所述基因座或其等效物处的核苷酸形成基因在所述基因座处的基因型。基因型可为纯合或杂合的。因此，“基因分型”意指测定基因型，即，在特定基因座处的核苷酸。基因分型也可通过测定在蛋白质的特定位置处的氨基酸变异体来进行，其可以用于推导对应的核苷酸变异体。

一个探针组通常是指一个引物组，通常是引物对，和/或用于检测目标遗传变异的可检测标记的探针。引物对用于扩增反应以定义跨越上述基因中的每一种的目标遗传变异区域的扩增子。所述扩增子组通过一组匹配的探针检测。在一个例示性实施例中，本发明是一组TaqMan^TM(加利福尼亚州普莱森顿的罗氏分子系统公司(RocheMolecularSystems，Pleasanton，CA)分析，其用于检测用于本发明的方法的一组目标遗传变异。

在一个实施例中，所述探针组是一组用于生成扩增子的引物，所述扩增子通过核酸测序反应(如下一代测序反应)检测。举例来说，在这些实施例中，可使用AmpliSEQ^TM(加利福尼亚州卡尔斯巴德的生命技术/离子激流公司(LifeTechnologies/IonTorrent，Carlsbad，CA))或TruSEQ^TM(加利福尼亚州圣地亚哥的伊路米那公司(Illumina，SanDiego，CA))技术。在其他实施例中，两个或更多个探针是引物对。

经修饰的核糖核苷酸或脱氧核糖核苷酸是指可以代替核酸中天然存在的碱基使用的分子，且包括(但不限于)经修饰嘌呤和嘧啶；稀有碱基；可转化核苷；嘌呤和嘧啶的结构类似物；经标记、经衍生和经修饰的核苷和核苷酸；结合的核苷和核苷酸；序列修饰剂；末端修饰剂；间隔子修饰剂；和具有主链修饰的核苷酸，包括(但不限于)核糖经修饰的核苷酸、氨基磷酸酯、硫代磷酸酯、膦酰胺酸酯、甲基膦酸酯、甲基亚磷酰胺、甲基膦酰胺酸酯、5′-β-氰基乙基亚磷酰胺、亚甲基膦酸酯、二硫代磷酸酯、肽核酸、非手性和中性核苷酸间键。

“杂交(Hybridize/hybridization)”是指核酸之间的结合。杂交的条件可以根据待结合的核酸的序列同源性改变。因此，如果受试核酸之间的序列同源性较高，那么使用严格条件。如果序列同源性较低，那么使用温和条件。当杂交条件严格时，杂交特异性增加，且杂交特异性的这一增加引起非特异性杂交产物的产率的降低。然而，在温和杂交条件下，杂交特异性减小，且杂交特异性的这一减小引起非特异性杂交产物的产率的增加。

“严格条件”是指探针将与其目标子序列(通常在核酸的复杂混合物中)但不与其他序列杂交的条件。严格条件与序列相关，并且会随情况不同而不同。更长序列在更高温度下特异性地杂交。有关核酸杂交的详尽指导可见于迪杰森(Tijssen)，《生物化学和分子生物学技术--核酸探针杂交》(TechniquesinBiochemistryandMolecularBiology--HybridizationwithNucleicProbes)，“杂交原理和核酸分析策略综述(Overviewofprinciplesofhybridizationandthestrategyofnucleicacidassays)”(1993)中。通常，选择严格条件比所定义的离子强度pH值下的特定序列的热熔点(T_m)低约5℃-10℃。T_m是50％的与目标互补的探针与目标序列在平衡(当目标序列过量存在时，在T_m下，在平衡下占据50％探针)下杂交的温度(在所定义的强度、pH值和核浓度下)。严格条件也可以用添加去稳定化剂(如甲酰胺)来实现。对于选择性或特异性杂交，正信号是至少两倍背景、优选地10倍背景杂交。例示性严格杂交条件可以如下：50％甲酰胺、5×SSC和1％SDS，在42℃下孵育，或5×SSC、1％SDS，在65℃下孵育，在0.2×SSC和0.1％SDS中在65℃下洗涤。

如果核酸所编码的多肽实质上相同，那么在严格条件下并不彼此杂交的所述核酸仍实质上相同。这在例如使用由遗传密码准许的最大密码简并形成核酸拷贝时出现。在此类情况下，核酸通常在中等严格杂交条件下杂交。例示性“中等严格杂交条件”包括在40％甲酰胺、1MNaCl、1％SDS的缓冲液中在37℃下杂交，且在1×SSC中在45℃下洗涤。阳性杂交是至少两倍背景。所属领域的技术人员将易于认识到替代杂交和洗涤条件可以用于提供类似严格度的条件。测定杂交参数的其他指导原则提供于许多参考文献例如和《最新分子生物学实验方法汇编》(CurrentProtocolsinMolecularBiology)版中。

核酸之间的杂交可以在DNA分子与DNA分子之间进行，在DNA分子与RNA分子之间杂交，以及在RNA分子与RNA分子之间杂交。

“突变蛋白质”或“变异体”是指分别通过一个或多个核苷酸或氨基酸的交换、缺失或插入而相对于个体群体中的野生型或最流行形式不同的聚核苷酸或多肽。所交换、缺失或插入的核苷酸或氨基酸的数量可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个，如25、30、35、40、45或50个。术语突变蛋白质还可涵盖易位，例如由ALK和TPM1基因编码的多肽的融合体(TPM1/ALK)。

“基因融合体”是指由第一基因的至少一部分与第二基因的一部分的融合产生的嵌合基因组DNA。融合体中来自第一基因的序列与融合体中来自第二基因的序列之间的过渡点被称为“断裂点”或“融合点”。

基因融合体的转录产生嵌合mRNA。

“单核苷酸多态性”或“SNP”是指当生物物种成员或人类的成对染色体之间的基因组中的单核苷酸(A、T、G或C)不同时出现的DNA序列变异。

“突变”在本文中定义为基因组位置处的特定变化，即：染色体、启动、终止、参考碱基、替代碱基、变异体类型(SNP、INS、DEL)等。

“注释”在本文中定义为一组转录物特有的特性，其描述突变的效应，即：基因、转录物、变异体分类、变异体变化、变异体密码子位置等。

“引物”或“引物序列”是指与目标核酸序列(例如待扩增的DNA模板)杂交以引发核酸合成反应的寡核苷酸。引物可以是DNA寡核苷酸、RNA寡核苷酸或嵌合序列。引物可含有天然、合成或经修饰核苷酸。引物长度的上限和下限凭经验确定。引物长度的下限是在杂交时与目标核酸在核酸扩增反应条件下形成稳定双螺旋所需的最低长度。极短引物(通常是小于3-4个核苷酸长)并不与目标核酸在此类杂交条件下形成热力学上稳定的双螺旋。上限通常是由目标核酸中除预定核酸序列以外的区域中形成双螺旋的可能性来确定的。一般来说，适合的引物长度在约10到约40个核苷酸长范围内。在某些实施例中，举例来说，引物可以是10-40个、15-30个或10-20个核苷酸长。当置放在适当条件下时，引物能够充当聚核苷酸序列上合成的起始点。

引物将与待拷贝的目标聚核苷酸序列的区域完全或实质上互补。因此，在有助于杂交的条件下，引物将粘接到目标序列的互补区域上。在添加适合的反应物(包括(但不限于)聚合酶、核苷酸三磷酸酯等)后，引物通过聚合试剂延长以形成目标序列的拷贝。引物可以是单链或可替代地可以是部分地双链。

“检测”、“可检测”和其语法等效者是指测定目标核酸序列的存在和/或量和/或身份的方式。在一些实施例中，检测进行，扩增目标核酸序列。在其他实施例中，目标核酸的测序的特征可以为“检测”目标核酸。连接于探针的标记可以包括所属领域中已知的可以通过例如化学或物理手段检测的多种不同标记中的任一个。可以连接于探针的标记可以包括例如荧光和发光材料。

“扩增(Amplifying/amplification)”和其语法等效者是指目标核酸序列中的至少一部分以模板依赖性方式复制的任何方法，包括(但不限于)线性或指数扩增核酸序列的广泛范围的技术。执行扩增步骤的例示性方式包括连接酶链式反应(LCR)、连接酶检测反应(LDR)、接合继之以Q-复制酶扩增、PCR、引物延伸、链置换扩增(SDA)、超支化链置换扩增、多重置换扩增(MDA)、基于核酸链的扩增(NASBA)、两步多重扩增、滚环扩增(RCA)、重组酶-聚合酶扩增(RPA)(英国剑桥的推斯特克斯公司(TwistDx，Cambridg，UK))和自维持序列复制(3SR)，包括多重型式或其组合，例如(但不限于)OLA/PCR、PCR/OLA、LDR/PCR、PCR/PCR/LDR、PCR/LDR、LCR/PCR、PCR/LCR(也被称作组合链式反应-CCR)等。此类技术的描述可以见于萨姆布鲁克(Sambrook)等人《分子克隆》(MolecularCloning)，第3版；奥苏贝尔(Ausbel)等人；《PCR引物：实验室手册》(PCRPrimer：ALaboratoryManual)，迪芬巴赫(Diffenbach)编，冷泉港出版社(ColdSpringHarborPress)(1995)；《电子方案图书》(TheElectronicProtocolBook)，常生物科学(ChangBioscience)(2002)，苏(Msuih)等人，《临床微生物学》(J.Clin.Micro.)34：501-07(1996)；《核酸方案手册》(TheNucleicAcidProtocolsHandbook)，R.瑞雷(R.Rapley)编，纽约州托托瓦的胡马纳出版社(HumanaPress，Totowa，N.J.)(2002)以及其他地方。

核酸标记物的分析可以使用所属领域中已知的技术执行，包括(但不限于)序列分析和电泳分析。序列分析的非限制性实例包括马克塞姆-吉尔伯特测序(Maxam-Gilbertsequencing)、桑格测序(Sangersequencing)、毛细管阵列DNA测序、热循环测序(西尔(Sears)等人，《生物技术》(Biotechniques)，13：626-633(1992))、固相测序(齐默曼(Zimmerman)等人，《分子细胞生物学方法》(MethodsMolCellBiol)，3：39-42(1992))、测序伴以质谱如基质辅助激光解吸/电离飞行时间质谱(MALDI-TOF/MS；付(Fu)等人，《自然·生物技术》(Nat.Biotechnol)，16：381-384(1998))和杂交测序。奇(Chee)等人，《科学》(Science)，274：610-614(1996)；德尔马纳茨(Drmanac)等人，《科学》(Science)，260：1649-1652(1993)；德尔马纳茨等人，《自然·生物技术》，16：54-58(1998)。电泳分析的非限制性实例包括平板凝胶电泳(如琼脂糖或聚丙烯酰胺凝胶电泳)、毛细管电泳和变性梯度凝胶电泳。另外，下一代测序方法可以使用商业上可获得的试剂盒和仪器(来自公司如生命技术/离子激流公司PGM或Proton、伊路米那公司HiSEQ或MiSEQ和罗氏公司(Roche)/454下一代测序系统)执行。

在一些实施例中，回应于激发光给出荧光信号的探针的量通常与扩增反应中产生的核酸的量有关。因此，在一些实施例中，荧光信号的量与扩增反应中形成的产物的量有关。在所述实施例中，可以因此通过测量来自荧光指示剂的荧光信号的强度来测量扩增产物的量。

“可检测标记的探针”或“检测器探针”是指用于扩增反应的分子，通常用于定量或实时PCR分析以及终点分析。所述检测器探针可以用于监测目标核酸序列的扩增。在一些实施例中，扩增反应中所存在的检测器探针适用于监测随时间产生的扩增子的量。此类检测器探针包括(但不限于)5′-核酸外切酶分析(本文所述的探针(也参见美国专利号5,538,848)各种茎环分子信标(参见例如美国专利号6,103,476和5,925,517以及亚吉(Tyagi)和克拉默(Kramer)，1996，《自然·生物技术》14：303-308)、无茎或线性信标(参见例如WO99/21881)、PNAMolecularBeacons^TM(参见例如美国专利号6,355,421和6,593,091)、线性PNA信标(参见例如库比斯塔(Kubista)等人，2001，SPIE4264：53-58)、非FRET探针(参见例如美国专利号6,150,097)、/Amplifluor^TM探针(美国专利号6,548,250)、茎环和双螺旋蝎型探针(索利纳斯(Solinas)等人，2001，《核酸研究》(NucleicAcidsResearch)29：E96和美国专利号6,589,743)、凸环探针(美国专利号6,590,091)、假结探针(美国专利号6,589,250)、环化子(cyclicon)(美国专利号6,383,752)、MGBEclipse^TM探针(爱博克生物科学公司(EpochBiosciences))、发夹探针(美国专利号6,596,490)、肽核酸(PNA)光探针、自组装纳米粒子探针和二茂铁修饰探针，例如描述在美国专利号6,485,901；马哈郎加(Mhlanga)等人，2001，《方法》(Methods)25：463-471；惠特科姆(Whitcombe)等人，1999，《自然·生物技术》.17：804-807；伊萨克森(Isacsson)等人，2000，《分子细胞探针》(MolecularCellProbes).14：321-328；斯万维克(Svanvik)等人，2000，《分析生物化学》(AnalBiochem.)281：26-35；沃尔夫(Wolffs)等人，2001，《生物技术》(Biotechniques)766：769-771；特索卡斯(Tsourkas)等人，2002，《核酸研究》(NucleicAcidsResearch).30：4208-4215；里切利(Riccelli)等人，2002，《核酸研究》30：4088-4093；张(Zhang)等人，2002上海(Shanghai).34：329-332；麦克斯维尔(Maxwell)等人，2002，《美国化学学会杂志》(J.Am.Chem.Soc.)124：9606-9612；布劳德(Broude)等人，2002，《生物技术趋势》(TrendsBiotechnol.)20：249-56；黄(Huang)等人，2002，《毒理学化学研究》(Chem.Res.Toxicol.)15：118-126；和余(Yu)等人，2001，《美国化学学会杂志》14：11155-11161。

检测器探针还可以包括淬灭剂，包括(但不限于)黑洞淬灭剂(生物谷猎头(Biosearch))、爱荷华黑(IowaBlack)(IDT)、QSY淬灭剂(分子探针公司(MolecularProbes))以及二甲氨基偶氮苯甲酰(Dabsyl)和Dabcel磺酸酯/甲酸酯淬灭剂(爱博克公司(Epoch))。

检测器探针还可以包括两个探针，其中例如荧光剂在一个探针上，并且淬灭剂在另一个探针上，其中两个探针在目标上杂交在一起淬灭信号，或其中在目标上杂交通过改变荧光改变了信号特征。检测器探针还可以包含具有SO₃而非羧酸酯基团的荧光素染料的磺酸酯衍生物、荧光素的亚磷酰胺形式、CY5的亚磷酰胺形式(商业上可例如从安玛西亚公司(Amersham)获得)。在一些实施例中，使用嵌入螯合剂标记，如溴化乙锭、GreenI(分子探针公司)和(分子探针公司)，由此允许在不存在检测器探针的情况下实时或终点观测扩增产物。在一些实施例中，实时观测可以包含插入检测器探针并且可以采用基于序列的检测器探针。在一些实施例中，检测器探针在扩增反应中未杂交到互补序列时被至少部分淬灭，并且在扩增反应中杂交到互补序列时至少部分未淬灭。在一些实施例中，本发明教示的检测器探针的Tm是63-69℃，但是应了解，通过本发明教示的引导，常规实验可以产生具有其他Tm的检测器探针。在一些实施例中，探针可以进一步包含各种修饰，如小沟结合物(参见例如美国专利号6,486,308)，用于进一步提供所要热力学特征。

在一些实施例中，检测可以基于不同被分析物质之间的迁移速率差异经由多种运动性相关分析技术中的任一种进行。例示性运动性相关分析技术包括电泳、色谱、质谱、沉降(例如梯度离心)、场流分级、多级提取技术等。在一些实施例中，运动性探针可以与扩增产物杂交，且目标核酸序列的身份经由洗脱运动性探针的迁移率依赖性分析技术测定，如例如公开的P.C.T.申请案WO04/46344(罗森布拉姆(Rosenblum)等人)和WO01/92579(文茨(Wenz)等人)所述。在一些实施例中，检测可以通过各种微阵列和相关软件实现，尤其如应用生物系统公司(AppliedBiosystems)阵列系统与应用生物系统公司1700化学发光微阵列分析仪和其他商业上可获得的可自昂飞公司(Affymetrix)、安捷伦公司(Agilent)、伊路米那(Illumina)和安玛西亚生物科学公司(AmershamBiosciences)获得阵列系统(也参见格里(Gerry)等人，《分子生物学杂志》(J.Mol.Biol.)292：251-62，1999；德百里斯(DeBellis)等人，《密涅瓦生物技术》(MinervaBiotec)14：247-52，2002；和斯蒂尔斯(Stears)等人，自然·医学《Nat.Med.》9：14045，包括增刊，2003)。还应了解，检测可包含报告基因，其结合到反应产物中，作为经标记引物的一部分或归因于扩增期间经标记dNTP的结合，或例如(但不限于)经由包含报告基因的杂交标签互补序列或经由整体的或连接于反应产物的连接子臂连接于反应产物。未标记反应产物例如使用质谱的检测也在当前教示内容的范围内。

“畸变”意指DNA的基因组结构性变异或变化。实例包括：过度表达/表达不足；拷贝数扩增/缺失；突变；基因融合体；等。

“驱动事件”意指基因组畸变，代表获得功能(GoF)的突变、融合体或拷贝数峰值。

“再现的”意指事件在3个或更多个肿瘤样品中出现。

“Mitelman”意指从文献中人工管理的癌症中的染色体畸变和基因融合体的数据库。http：//goo.gl/PnXMT

基因融合体

表1：基因融合体

表2：基因融合体

表3：基因融合体

本发明提供新颖基因融合体和基因融合变异体(即，搭配物基因中的一者或两者上的不同断裂点位置)，其选自基因融合体的表1-表3、表19和表22中所展示的那些，如TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN、TTC13/JAK2、SEC16A/NOTCH1、ERC1/RET、GTF2IRD1/ALK、HTATSF1/BRS3、CDH1/CCDC132、CCDC132/CDH1、ERBB2/SLC29A3、MET/TFG；TFG/MET、NOTCH2/MNDA、IRF2BP2/NTRK1、EIF2C2/PTK2、RARA/HOXB3、STAT3/ETV4、以及GFAP/VIM；VIM/GFAP、TOP1/C17orf64、以及TP53/KIAA0753。由于这些发现，本发明提供经分离基因融合体核酸和与其互补的序列、扩增子、转录物、反应混合物以及特异性地识别基因融合体、与其互补的序列、扩增子和转录物的核酸序列的探针。本发明进一步涵盖用于治疗相关疾病的反义核苷酸。

表1-表3、表19和表22提供基因融合体的列表(基因A/基因B)，表明所涉及的基因(基因A和基因B)、染色体位置、断裂点位置、融合体类型和距离。基因融合体与相关TCGA疾病一起展示(癌症基因组图谱(TheCancerGenomeAtlas))。癌症用3-4个字母的缩写展示，所述缩写更详细地阐述在诊断学部分中。

一般来说，表1-3、19和22提供一种或多种新颖基因融合体和/或基因融合体与TCGA疾病的相关性。举例来说，表19呈现新颖基因融合体，且表22呈现基因融合体与TCGA疾病的新颖相关性。

表4-6、20和23提供表1-3、19和22中的基因融合体的断裂点序列。断裂点序列被鉴别为SEQIDNO：1-257。

分析和试剂盒

在某些实施例中，提供检测的分析和方法。本文提供的检测基因融合体的方法是所属领域中已知的。作为非限制性实例，所述分析可以包括5′核酸酶PCR分析(加利福尼亚州福斯特市的应用生物系统公司(AppliedBiosystems，FosterCity，CA))、下一代测序分析(加利福尼亚州卡尔斯巴德的离子激流公司；加利福尼亚州圣地亚哥的伊路米那公司)或微阵列分析(斯科泰姆(Skotheim)等人，《分子癌症》(MolecularCancer)2009，8：5)。在至少一个实施例中，所述分析或方法包括至少一种引物或探针，其与表1-6中的基因融合体和/或断裂点互补或编码所述基因融合体和/或断裂点。

在至少一个实施例中，提供定量基因融合体的表达量的分析和方法。所述方法可能涉及一种或多种外显子的定量表达。举例来说，TaqMan^TM基因表达分析可经设计以用于一组已知融合体转录物以便定量分析。所述分析可经设计使得引物和探针跨越断裂点区域，不过在某些说明性实施例中，引物和探针不直接置放在断裂点上。

在某些实施例中，本发明提供一种引物、一种探针或一种探针或引物组，其特异性地识别本文所公开的基因融合体和/或断裂点中的一者或多者。

在一个实施例中，本发明提供一种组合物和一种试剂盒，其包含特异性地识别选自表1-3、19和22的基因融合体和/或表4-6、20和23中的断裂点的一个探针组。所述探针组可例如为一个扩增引物组。在另一实施例中，本文提供一种组合物，其包括侧接目标核酸中选自表1-3、19和22的基因融合体的一个引物组。此实施例的反应混合物可以进一步包括检测器探针，所述检测器探针结合于选自表1-3、19和22的基因融合体中的断裂点的任一侧，或结合跨越选自表1-3、19和22的基因融合体中的断裂点的结合区。包括检测器探针或不包括检测器探针的反应混合物可以进一步包括聚合酶、dNTP和/或尿嘧啶DNA去糖基化酶(UDG)。聚合酶和UDG通常不来自人类来源。反应混合物可以进一步包括目标核酸，例如人类目标核酸。人类目标核酸可例如从来自怀疑患有癌症的个体的生物样品中分离。

在另一实施例中，本文提供qPCR分析，如TaqMan^TM分析或MolecularBeacons^TM分析，其特异性地扩增并检测包括SEQIDNO：1-257的目标核酸。

本发明还提供一种经分离核酸，其包含至少一种选自SEQIDNO：1-257的序列。经分离核酸可以在5′末端上包括第一引物。此外，核酸可能为单链或双链的。

在其他实施例中，本发明提供一种试剂盒，其包括一个检测器探针和/或一个探针组，例如一个扩增引物组，其特异性地识别包含选自表1-3、19和22的基因融合体的断裂点的核酸。举例来说，在某些实施例中，检测器探针或扩增引物组经设计以扩增和/或检测包括SEQIDNO：1-257中的至少一者的核酸。所述试剂盒可以在另一容器中或在同一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含选自表1-3、19和22的基因融合体中的断裂点的序列。

在一些实施例中，提供一种试剂盒，其涵盖至少2个引物对和2种可检测标记的探针。在这些非限制性实施例中，2个引物对和/或2种可检测标记的探针形成2种扩增检测分析。

本发明的试剂盒还可包含用于执行本文所述的一种或多种方法的说明和/或本文所述的一种或多种组合物或试剂的描述。说明和/或描述可以呈印刷形式且可以包括于试剂盒插页中。试剂盒还可以包括提供此类说明或描述的互联网位置的书面描述。

在一些实施例中，所述试剂盒和分析包含一种或多种特异性地识别目标(如基因融合体核酸序列)的探针。在至少一个实施例中，所述试剂盒和分析为诊断试剂盒和分析。

提供一种试剂盒，其包含特异性地识别包含来自表4-6、20和23的断裂点的核酸的一个探针组(例如一个扩增引物组)。所述试剂盒可以在另一容器中或在同一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含选自表4-6、20和23的断裂点的序列。

在另一实施例中，提供一种基因融合体，其包含表4-6、20和23中的断裂点中的至少一者。

在一些实施例中，提供一种反应混合物和一种试剂盒。在一些实施例中，所述试剂盒涵盖选择性结合基因融合体的可检测探针。在一些实施例中，基因融合体是表4、表5、表6、表20或表23中的基因融合体中的任一者。

因此，在一些实施例中，提供一种试剂盒，其涵盖选择性结合基因融合体的反应混合物和可检测探针，所述基因融合体为表4、表5、表6、表20或表23中的基因融合体中的任一者。

诊断学

本文中涵盖诊断、治疗和检测基因融合体和相关疾病的方法。所述方法可以包括检测受试者样品中的基因融合体。

受试者样品可为包括来自受试者的核酸的任何身体组织或体液。在某些实施例中，样品将是包含循环肿瘤细胞或无细胞DNA的血液样品。在其他实施例中，样品可为组织，如癌组织。癌组织可以来自肿瘤组织，并且可以经新鲜冷冻或福尔马林固定、石蜡包埋(FFPE)。

所述疾病可为癌症或肿瘤。癌症可以包括(但不限于)黑素瘤、宫颈癌、胰脏癌、头颈鳞状癌、肺腺癌、结肠腺癌、子宫癌、卵巢癌、成胶质细胞瘤、低级别胶质瘤、肺腺癌、甲状腺癌和胃癌。

癌症可以包括(但不限于)膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌。如本文所用，BLCA＝膀胱癌、BRCA＝乳癌、CESC＝子宫颈细胞癌、COAD＝结肠腺癌、GBM＝多形性成胶质细胞瘤、HNSC＝头颈鳞状细胞癌、KIRK＝透明细胞肾细胞癌、KIRP＝肾脏肾乳头状细胞癌、LAML＝急性骨髓性白血病、LGG＝脑低级别胶质瘤、LIHC＝肝脏肝细胞癌、LUAD＝肺腺癌、LUSC＝鳞状细胞肺癌、OV＝卵巢浆液性腺癌、PRAD＝前列腺腺癌、READ＝直肠腺癌、SKCM＝皮肤黑素瘤、STAD＝胃腺癌、THCA＝甲状腺癌和UCEC＝子宫体子宫内膜样癌。

在一些实施例中，提供一种检测新颖基因变异体或基因融合体的方法，所述方法涵盖反应混合物，其中所述新颖基因变异体或基因融合体通过生成延伸产物来检测。

在另一实施例中，本发明提供利用所公开的基因融合体和基因变异体的诊断和治疗目标。基因融合体、基因变异体和相关疾病病况为诊断和治疗两者提供目标。举例来说，基因融合体目标或基因变异体的存在、不存在、或表达升高或降低可以用于诊断疾病病况或可以用于预测或检测疾病病况。在至少一个实施例中，基因融合体或基因变异体可在特定癌症中具有高发生率(频率)、中等发生率或低发生率。在至少一个实施例中，基因融合体或基因变异体可在一种癌症或肿瘤中具有高频率，而在另一种癌症或肿瘤中具有低或中等发生率。在至少一个实施例中，基因融合体或基因变异体可以具有与癌症或肿瘤相关联的中等或低频率。在至少一个实施例中，低或中等频率基因融合体或基因变异体可与癌症的一种或多种不同高频率生物标记物组合使用以有助于诊断、预测或鉴别疾病的倾向性。所述方法可用于筛选患者的癌症或预测癌症的特定结果的相对展望。举例来说，BRCA1或BRCA2突变的存在可与乳癌的基因融合体JAK2/TTC13组合分析。

提供一种检测癌症的方法，其包含扩增跨越选自表1-3、19和22的基因融合体中的断裂点的核酸，例如，所述核酸可以包括选自SEQIDNO：1-257的序列；以及检测所述核酸的存在，其中所述核酸的存在指示癌症存在于样品中。在另一方法中，本文提供一种检测癌症的方法，其包括产生包括选自SEQIDNO：1-257的序列的扩增子，以及检测所述核酸的存在，其中所述核酸的存在指示癌症或癌细胞存在于样品中。所述扩增子通常包括经延伸以形成所述扩增子的引物。所述癌症是选自膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌。

在另一实施例中是一种方法，其通过检测选自表1-3、19和22的基因融合体的存在来检测样品中的选自膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌的癌症。

新基因融合体

尽管先前已报导基因融合体中的一些，但本文提供其中断裂点不同和/或并非先前已知的基因融合体的许多变化。其中断裂点不同和/或并非先前已知的基因融合体的非限制性实例包括：TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN以及TTC13/JAK2为具有在表4和5中以SEQIDNO：1-257形式提供的断裂点的新颖变异体。

本文还提供与一种或多种癌症相关的许多基因融合变异体。

癌症相关性

本文中呈现与癌症相关的新基因融合体。基因融合体中的一些可能已经与先前的特异癌症或疾病病况相关。本文中的方法已鉴别出可以用于帮助诊断和/或治疗特定癌症的新相关性。表1-3、19和22中所展示的基因融合体提供与融合体有关的基因以及基因融合体与一种或多种特定癌症的相关性。举例来说，融合体PRKACA/AKT1展示出与结肠腺癌和子宫内膜子宫内膜样腺癌相关。

表3中所展示的基因融合体为已展示出与新癌症相关的先前已知的基因融合体。举例来说，SEC16A/NOTCH1先前经鉴别与乳癌相关。当前方法鉴别出基因融合体SEC16A/NOTCH1与甲状腺腺体癌的相关性。另外，ERC1/RET先前经鉴别与甲状腺癌相关。当前方法鉴别出基因融合体ERC1/RET与侵袭性乳癌的相关联(参见表3和6)。

反应混合物和扩增子

在另一实施例中，本发明提供一种反应混合物，其包含特异性地识别选自表1-表3、表19和表22的基因融合体的一个探针或一个探针组。所述探针组可为例如一个扩增引物组或一个经标记探针。在另一实施例中，本文提供一种反应混合物，其包括侧接目标核酸中选自表1-表3、表19和表22的基因融合体的一个引物组。举例来说，所述引物组可以各自在表4-6、20和23中鉴别的融合体断裂点中的一者的相对侧的1000、750、500、250、100、90、80、75、70、65、50或25个核苷酸内结合于人类基因组中的目标序列。此实施例的反应混合物可以进一步包括检测器探针，所述检测器探针结合于选自表1-表3、表19和表22的基因融合体中的断裂点的任一侧，或结合跨越选自表1-表3、表19和表22的基因融合体中的断裂点的结合区，包括其中断裂点鉴别于表4-6、20和23中的特定实施例。在例示性实施例中，检测器探针在表4-6、20和23中鉴别的融合体断裂点中的一者的1000、750、500、250、100、90、80、75、70、60、50或25个核苷酸内结合于人类基因组中的目标序列。包括检测器探针或不包括检测器探针的反应混合物可以进一步包括聚合酶、逆转录酶、dNTP和/或尿嘧啶DNA去糖基化酶(UDG)。聚合酶、逆转录酶和UDG通常不来自人类来源。说明性实施例中的聚合酶是热稳定聚合酶，如Taq聚合酶。在某些实施例中，反应混合物中的dNTP包括dUTP，且在某些实例中，反应混合物可以没有dTTP。

反应混合物可以进一步包括目标核酸，例如人类目标核酸。人类目标核酸可例如从怀疑患有选自以下各者的癌症的个体的生物样品(如肿瘤样品)中分离：BLCA＝膀胱癌、BRCA＝乳房癌、CESC＝子宫颈细胞癌、COAD＝结肠腺癌、GBM＝多形性成胶质细胞瘤、HNSC＝头颈鳞状细胞癌、KIRK＝透明细胞肾细胞癌、KIRP＝肾脏肾乳头状细胞癌、LAML＝急性骨髓性白血病、LGG＝脑低级别胶质瘤、LIHC＝肝脏肝细胞癌、LUAD＝肺腺癌、LUSC＝鳞状细胞肺癌、OV＝卵巢浆液性腺癌、PRAD＝前列腺腺癌、READ＝直肠腺癌、SKCM＝皮肤黑素瘤、STAD＝胃腺癌、THCA＝甲状腺癌和UCEC＝子宫体子宫内膜样癌。在某些实施例中，目标核酸来自肿瘤，例如先前句子中列出的癌症类型中的一者的肿瘤。此外，目标核酸可从来自肿瘤的生物样品(如FFPE样品)中提取。

本发明的反应混合物可以包括扩增子。扩增子可为例如经分离核酸。扩增子的长度可例如在25与2500个核苷酸之间、在25与2000个核苷酸之间、在25与1000个核苷酸之间、在50与1000个核苷酸之间、在50与500个核苷酸之间、在50与250个核苷酸之间、在50与200个核苷酸之间、在50与150个核苷酸之间、在50与100个核苷酸之间或在50与75个核苷酸之间。

扩增子可在表4-6、20和23中鉴别的融合体断裂点中的一者的相对侧的1000、750、500、250、100、90、80、75、70、65、50或25个核苷酸内具有与人类基因组中的目标序列一致或互补的核苷酸序列。在某些实施例中，扩增子包括图4-6中所提供的核苷酸序列中的25到250个、25到100个、25到75个、50到250个、50到200个、50到150个、50到100个或50到75个或其互补序列。在某些实施例中，扩增子包括自然界中出现的序列变异体。举例来说，扩增子可以包括对应于单核苷酸变异体或天然存在的等位基因的可变的核苷酸序列。

在某些说明性实施例中，本发明的扩增子具有未自然界中发现和/或未在哺乳动物(如人类)中发现的化学结构。举例来说，某些说明性扩增子包括未自然界中发现的或未在哺乳动物中发现的或被发现可能不结合于扩增子的糖-磷酸酯主链的类型的碱基。举例来说，扩增子可能是DNA扩增子，其包括结合于糖磷酸酯主链的尿嘧啶碱基，由此在模板中含有一个胸苷残基的至少一个位置且在说明性实例中所有位置处具有一个尿苷残基。

因此，在说明性实施例中，扩增子是DNA扩增子，其包括一个或多个脱氧尿苷(“dU”)残基。dU残基可通过在用于生成扩增子的引物中包括所述残基来添加。在某些实施例中，反应混合物包括DNA扩增子，其包括针对对应人类基因组序列中的每一脱氧胸苷残基的一个或多个dU残基。当使用扩增反应(如PCR)产生扩增子时，这些扩增子可例如通过使用包括dUTP而非dTTP的dNTP混合物产生。

在某些实施例中，扩增子包括所对应序列并未在人类基因组中发现的区段，如寡核苷酸序列，例如DNA条形码序列。非人类区段的长度可例如为5-10,000、5-5000、5-1000、5-500、5-100、5-50、5-25、5-10、10-10,000、10-5000、10-1000、10-500、10-100、10-50或10-25个核苷酸。

在某些实施例中，扩增子包括对应于人类基因组中跨越内含子的区域的区段，但扩增子并不包括对应于内含子的区段。

变异体在表7和11中用所提供的亲本或野生型基因的登录号或Entrez核苷酸和/或蛋白质序列显示为氨基酸变异体。与各种癌症的相关性展示在表7和11中。表7和11提供使用实例2中概述的方法鉴别的超过99种基因的列表。在对应的正常组织中未发现所述变异或突变。这是重要的，因为在典型患者中，肿瘤样品可以具有10′s-100′s的肿瘤特定变异。然而，在多个患者中在同一位置处(且不在正常组织中)出现的变异更显著。分析4445个样品(来自4445个患者)，且制备热点列表。许多再现的突变在15-20种不同癌症类型中在同一位置处发现。

诊断学和试剂盒

本文中涵盖诊断、治疗和检测基因变异体和相关疾病的方法。所述方法可以包括检测受试者样品中的基因融合体和/或基因变异体。可在本文所公开的反应混合物、组合物和试剂盒中的任一者中检测任何数量和组合的基因融合体和/或基因变异体。

在一些实施例中，提供一种试剂盒，其中所述试剂盒涵盖一个或多个探针。在一些实施例中，所述试剂盒涵盖1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、150、200、250、500种或更多种融合体基因的探针。在一些实施例中，探针经可检测标记。在一些实施例中，所述探针与基因融合体中所存在的断裂点杂交。

在一些实施例中，表7和11中所公开的基因变异体中的任一者的检测可与那些表中所公开的基因变异体中的另一者或本文所公开的基因融合体中的任一个的检测组合。也就是说，可在同一反应中检测2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、150、200、250、500种或更多种基因变异体。在一些实施例中，所检测的基因变异体为表4-6、7和11、20和23中所公开的那些，且可与那些表中所公开的基因融合体中的另一者的检测组合。也就是说，可在同一反应中检测2、3、使得4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、100、150、200、250、500种或更多种基因融合体。

在另一实施例中，提供一种探针组，其特异性地识别编码选自表7和/或表11(基因变异体)的基因变异体的核酸。在另一实施例中，本文提供一种引物组，其特异性地扩增编码选自表7和/或表11的基因变异体的目标核酸。在另一实施例中，本文提供qPCR分析，如TaqMan^TM分析或MolecularBeacons^TM分析，其特异性地扩增且检测编码选自表7和/或表11的基因变异体的目标核酸。

本发明还提供一种经分离核酸，其包含至少一种包括在选自表7和/或表11的一种或多种基因变异体中发现的变异的序列。经分离核酸可以在5′末端上包括第一引物。此外，核酸可能为单链或双链的。

在其他实施例中，本发明提供一种试剂盒，其包括一个检测器探针和/或一个探针组，例如一个扩增引物组，其特异性地识别编码选自表7和/或表11的基因变异体的核酸。举例来说，在某些实施例中，检测器探针或扩增引物组经设计以扩增和/或检测包括编码表7和/或表11中的基因变异体的核酸中的至少一者的核酸。所述试剂盒可以在另一容器中或在同一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含选自表7和/或表11的基因变异体的序列。

提供一种检测癌症的方法，其包含扩增编码选自表7和/或表11的基因变异体的核酸，例如所述核酸可以包括来自表7和/或表11中的登录号中的一者的序列，除了所述序列含有编码表7和/或表11中的基因变异体的变异体以外；以及检测所述核酸的存在，其中所述核酸的存在指示癌症存在于样品中。在另一方法中，本文提供一种检测癌症的方法，其包括产生包括选自编码表7和/或表11中的基因变异体的序列的序列的扩增子，以及检测所述核酸的存在，其中所述核酸的存在指示膀胱癌、头颈癌或肺鳞状细胞癌存在于样品中。所述扩增子通常包括经延伸以形成所述扩增子的引物。所述癌症是选自膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌。

提供一种试剂盒，其包含特异性地识别包含来自表7和/或表11的基因变异体的核酸的一个探针组(例如一个扩增引物组)。所述试剂盒可以在另一容器中或在同一容器中进一步包括来自扩增反应混合物的组分，如聚合酶(通常不来自人类来源)、dNTP和/或UDG。此外，所述试剂盒可以包括对照核酸。举例来说，对照核酸可以包括包含来自表7和/或表11的基因变异体的序列。在某些实施例中，提供一种探针组，其特异性地识别包含来自表7和/或表11的基因变异体的核酸。

在另一实施例中是一种方法，其通过检测选自表7和/或表11的基因变异体的存在来检测样品中的选自膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌和子宫体子宫内膜样癌的癌症。基因变异体例如可以包括(但不限于)ZNF479变异体R11Q、R295K、R295T、R295I、R345I、R345T、K438T和T466K(参见表8)。

表18

癌症类型	基因符号	可药化性	KM证据
				星形细胞瘤	CXCR2	Y
子宫内膜子宫内膜样腺癌	CXCR2	Y
				鳞状细胞肺癌	CXCR2	Y
皮肤黑素瘤	CXCR2	Y
				皮肤黑素瘤	CXCR2	Y
结肠直肠腺癌	IL3	Y
				胃腺癌	IL3	Y
皮肤黑素瘤	KCNK9	Y	有利的结果
				子宫内膜子宫内膜样腺癌	KCNK9	Y
肺腺癌	KCNK9	Y
				鳞状细胞肺癌	KCNK9	Y	较差的结果
非小细胞肺癌，NOS	S100A8	Y
				成胶质细胞瘤	S100A8	Y
头颈鳞状细胞癌	S100A8	Y
				甲状腺乳头状癌	S100A8	Y
皮肤黑素瘤	SHH	Y
				肺腺癌	SHH	Y
皮肤黑素瘤	CCDC61		较差的结果
				皮肤黑素瘤	CCDC61		较差的结果
皮肤黑素瘤	CNTN5		较差的结果
				皮肤黑素瘤	CNTN5		较差的结果
皮肤黑素瘤	CNTN5		较差的结果
				皮肤黑素瘤	CNTN5		较差的结果
结肠直肠腺癌	CNTN5		较差的结果
				结肠直肠腺癌	CNTN5		较差的结果
皮肤黑素瘤	CNTN5		较差的结果
				皮肤黑素瘤	CNTN5		较差的结果
皮肤黑素瘤	CNTN5		较差的结果
				皮肤黑素瘤	EDDM3A		较差的结果
皮肤黑素瘤	FABP1		较差的结果
				肺腺癌	OR2L13		较差的结果
皮肤黑素瘤	OR4E2		较差的结果
				皮肤黑素瘤	OR4E2		较差的结果
皮肤黑素瘤	OR4E2		较差的结果
				皮肤黑素瘤	PRSS37		较差的结果
皮肤黑素瘤	PRSS37		较差的结果
				皮肤黑素瘤	SPINK13		较差的结果
子宫内膜子宫内膜样腺癌	ST6GAL2		较差的结果

表18提供从表11过滤的可药化性或预后相关性。表18提供癌症类型、在表11中鉴别为可药化的基因的基因符号、可药化性(Y＝有)和KM证据。KM证据栏提供卡普兰-迈耶证据(Kaplan-Meierevidence)。KM证据指示所述事件类型是否支持特定癌症类型中的良好或较差的预后。

靶向治疗

在至少一个实施例中，基因融合体和/或基因变异体可以用于鉴别靶向疗法。靶向疗法可以包括鉴别与基因融合体和/或基因变异体特异性地相互作用的试剂。靶向疗法可以包括(但不限于)抗体疗法、反义疗法和小分子疗法。反义疗法更详细地在标题“反义”下论述。

用于使核酸分子失活的组合物和方法在某种程度上涉及使用具有具备与作为期望失活的对象的核酸分子(即，目标核酸分子)互补的序列的核酸区域的分子。本发明的方法可用于使与特定癌症相关的基因融合体和/或基因变异体失活。因此，可鉴别与本文中鉴别的基因融合体或基因变异体中的任一个互补的反义分子。

小分子为可用作酶底物或生物过程的调节剂的低分子量(＜800道尔顿(Dalton))有机化合物，且大小约为10^-9m。在药理学中，所述术语通常用于结合于蛋白质或核酸且充当效应子(改变蛋白质或核酸的活性或功能)的分子。可通过在细胞分析中表达基因融合体或变异体且鉴别抑制基因融合体或变异体的表达或活性的小分子来测试小分子的效应子功能。

可药化性是用于药物发现的术语，用以描述以高亲和力已知会结合或预测会结合于药物的生物目标，如蛋白质。此外，药物结合于可药化目标会以对患者的治疗效益改变目标的功能。本文中的术语“药物”包括小分子(低分子量有机物质)，而且已经扩展到包括生物医学产品，如治疗性单克隆抗体。在至少一个实施例中，基因融合体或基因变异体可以用于鉴别可药化目标。表8提供已从表1-3和7中鉴别的可药化目标的列表。举例来说，TPM1/ALK基因融合体是可药化目标，因为如表8中所示，涉及ALK的疾病可用克卓替尼(crizotinib)治疗。因此，如果基因融合体包括ALK，那么癌症可用克卓替尼治疗。另外，如果基因变异体包括ALK中的突变，那么癌症可用克卓替尼治疗。

类似地，表21提供已从表19中鉴别的可药化目标的列表，且表24提供已从表22中鉴别的可药化目标的列表。

表8：来自表1的可药化基因

表8提供在表1-3中的基因融合体或表7和11中的基因变异体中鉴别的11个可药化目标的列表。表16和17提供表1-3或表7和11中的基因变异体内的其他可药化目标的分析。表8、16和17提供关于可药化目标的信息，包括基因名称、药物是否已经被美国食品和药物管理局(U.S.FoodandDrugAdministration，FDA)批准(N＝否)，如果药物尚未被批准，那么临床试验处于哪个阶段(注册前、III期、II期、I期和临床前)。举例来说，与NOTCH1基因相关的药物尚未被批准，但到此次编写为止处于1期临床试验(参见OMP-52M51)。

已批准的药物包括(但不限于)用于具有ALK基因融合体的疾病的克卓替尼以及用于具有CASR基因融合体的疾病的盐酸西那卡塞。许多被批准的药物已经鉴别用于具有EGFR的基因融合体，包括(但不限于)埃罗替尼；帕尼单抗；西妥昔单抗；奈皮德明；吉非替尼；尼妥珠单抗；凡德他尼；二甲苯磺酸拉帕替尼；以及盐酸埃克替尼。已批准的药物帕纳替尼已经鉴别用于具有FGFR3的疾病，芦可替尼已经鉴别用于具有JAK2基因融合体的疾病。许多已批准的药物已经鉴别用于具有RET的基因融合体，包括(但不限于)索拉非尼；凡德他尼；苹果酸舒尼替尼；卡博替尼；以及瑞格非尼。已批准的药物克卓替尼已经鉴别用于具有ROS1的疾病。可证明适用的其他药物包括(但不限于)克卓替尼、阿法替尼、马赛替尼、扎鲁突木单抗、来那替尼、多韦替尼乳酸盐、XL647、林多派皮姆、莱西突木单抗、达可替尼、SAR-302503、帕瑞替尼、哌立福新、布帕昔布、二磷酸莫替沙尼和阿帕替尼。

本文中提供的方法可以包括向受试者或患者递送药物。所述药物可为根据政府药物监管部门(如FDA)已获批准的药物，或者所述药物可处于批准阶段之前的任何一个阶段。在说明性方面中，所述药物是FDA批准的药物。在其他方面中，所述药物可处于临床前、I期、II期、III期或批准前阶段。在某些方面中，本文中提供的方法包括向受试者递送表8、16和17中列出的一种或一种以上药物。当在受试者中鉴别出涉及表8、16和17中列出的一种以上基因的基因事件时，本文中提供的方法可以包括递送一种以上药物，尤其递送与通过所鉴别的基因事件影响的不同基因相关的药物。

反义

反义技术已应用于抑制各种致癌基因的表达。举例来说，相对于经对照正义转染物转染的细胞，在腺病毒2晚期启动子的控制下引入到人类鳞状癌中的呈反义定向的Craf-1cDNA片段使得致瘤潜能极大地降低。类似地，Cmyc反义构筑体在弗兰德鼠类红白血病细胞(FriendMurineErythroleukemiacell)中加速分化且抑制G1进展。反义方法采用核酸倾向于与“互补”序列配对的优点。互补序列为根据标准沃森-克里克互补规则(Watson-Crickcomplementarityrules)能够碱基配对的那些聚核苷酸。用聚核苷酸靶向双链(ds)DNA引起三螺旋形成；靶向RNA将引起双螺旋形成。反义聚核苷酸当引入到目标细胞中时特异性地结合于其目标聚核苷酸且干扰转录、RNA加工、转运、翻译和/或稳定性。反义RNA构筑体或编码所述反义RNA的DNA可用于在体外或体内(如在宿主动物包括人类受试者内)抑制宿主细胞内的基因转录或翻译或两者。

反义可在启动子的转录控制下。“启动子”是指通过细胞的合成机制或引入的合成机制所识别的、为启动基因的特定转录所需要的DNA序列。短语“在转录控制下”意指启动子处于相对于核酸的正确位置和定向以控制RNA聚合酶启动以及基因的表达。

在某些情况下，反义表达构筑体将包含病毒或来源于病毒基因组的经工程化构筑体。当采用cDNA插入时，可包括实现基因转录物的适当聚腺苷酸化的聚腺苷酸化信号。聚腺苷酸化信号的性质并未被认为是至关重要的且可采用任何所述序列。终止子可以用于增强信使水平且使从盒到其他序列中的同步读取减到最少。

反义构筑体可经设计以结合于本文所公开的基因融合体或基因变异体的启动子和其他控制区、外显子、内含子或甚至外显子-内含子界限。最有效的反义构筑体包括与内含子/外显子剪接点互补的区域。一个实施例包括与在内含子-外显子剪接点的50-200个碱基内的区域互补的反义构筑体。已观察到一些外显子序列可在不严重地影响其目标选择性的情况下包括于构筑体中。所包括的外显子材料的量将变化，取决于所使用的特定外显子和内含子序列。可容易地通过在体外测试构筑体来测试是否有过多的外显子DNA简单地包括在内，以测定正常细胞功能是否受影响或者具有互补序列的相关基因的表达是否受影响。

词语“互补”就反义来说意指在其全部长度上实质上互补且具有极少碱基错配的聚核苷酸序列。举例来说，长度为十五个碱基的序列当其在十三或十四个位置处具有互补核苷酸时可称为互补的。天然地，完全互补的序列将为在其整个长度中完全互补且不具有碱基错配的序列。还涵盖具有较低同源程度的其他序列。举例来说，可设计具备有限高同源区域而且含有非同源区域(例如核糖核酸酶)的反义构筑体。这些分子尽管具有小于50％的同源性，仍将在适当条件下结合于目标序列。

反义的体内、离体或体外递送可涉及载体的使用。一种用于反义递送的有效载体是腺病毒表达载体。“腺病毒表达载体”意指包括含有足以支持构筑体包装以及表达已在其中克隆的反义聚核苷酸的腺病毒序列的那些构筑体。表达载体可以包括腺病毒的经基因工程化的形式。腺病毒因为其中等大小的基因组、易于操纵、高效价、宽目标细胞范围和高感染性而尤其适用作基因转移载体。病毒基因组的两个末端含有100-200个碱基对反转重复序列(ITR)，其为病毒DNA复制和包装所必需的顺式元件。

腺病毒易于生长和操控，且在体外和体内展现较宽的宿主范围。此病毒群组可以高效价(例如10⁹-10¹¹个噬斑形成单元/ml)获得，且其是高度感染性的。腺病毒的生命周期并不需要整合到宿主细胞基因组中。通过腺病毒载体递送的外来基因为游离型的，且因此对宿主细胞具有低基因毒性。在野生型腺病毒的情况下在疫苗接种研究中已报导无副作用，展示其作为体内基因转移载体的安全性和治疗潜力。

逆转录病毒为一组单链RNA病毒，其具有能够通过逆转录方法在经感染细胞中将其RNA转化成双链DNA的特征。所得DNA接着以原病毒形式稳定整合到细胞染色体中且引导病毒蛋白质的合成。所述整合引起病毒基因序列保留在接受体细胞和其后代中。逆转录病毒基因组含有三种基因gag、pol和env，其分别编码衣壳蛋白、聚合酶和包膜组分。从gag基因上游发现的序列含有用于将基因组包装到病毒粒子中的信号。两个长末端重复(LTR)序列存在于病毒基因组的5′和3′末端。这些含有强启动子和增强子序列，且其也为在宿主细胞基因组中的整合所需。

为了构筑逆转录病毒载体，将编码相关基因的核酸插入到病毒基因组中的某些病毒序列的位置中以产生有复制缺陷的病毒。为了产生病毒粒子，构筑含有gag、pol和env基因但没有LTR和包装组分的包装细胞系。当含有人类cDNA以及逆转录病毒LTR和包装序列的重组质粒被引入到细胞系中(例如通过磷酸钙沉淀)时，所述包装序列允许重组质粒的RNA转录物被包装到病毒粒子中，其接着分泌到培养基中。重组逆转录病毒接着被收集，任选地浓缩，且用于基因转移。逆转录病毒载体能够感染广泛的各种细胞类型。然而，整合和稳定表达需要宿主细胞的分裂。

基于通过将乳糖残基化学添加到病毒包膜中来化学修饰逆转录病毒，近来开发了被设计成用于允许逆转录病毒载体的特定靶向的新颖方法。此修饰可允许经由唾液酸糖蛋白受体特异性感染肝细胞。

其他病毒载体可用作表达载体。可采用来源于病毒(如牛痘病毒、腺相关病毒(AAV)和疱疹病毒)的载体。

为了实现正义或反义基因构筑体的表达，表达载体可递送到细胞中。此递送可在体外(如在用于转化细胞系的实验室程序中)或在体内或离体(如在某些疾病病况的治疗中)实现。如上文所述，一种递送机制是经由病毒感染进行，其中表达构筑体在感染性病毒粒子中衣壳化。

还涵盖用于将表达构筑体转移到经培养哺乳动物细胞中的数种非病毒方法。这些方法包括磷酸钙沉淀DEAE-葡聚糖、电穿孔、直接微注射、装载DNA的脂质体和脂染胺-DNA复合物、细胞超声处理、使用高速微粒的基因轰击以及受体介导的转染。这些技术中的一些可成功地经调适用于体内或离体用途。

医药组合物-当涵盖临床应用时，可制造医药组合物，基因递送载体或经工程化细胞，呈适合于既定应用的形式。一般来说，这需要制备基本上不含热原质以及其他可能对人类或动物有害的杂质的组合物。

适当盐和缓冲液用于使得递送载体稳定且允许被目标细胞摄取。当将重组细胞引入到患者中时，也将采用缓冲液。本发明的水性组合物包含有效量的到细胞的载体，其溶解或分散于医药学上可接受的载剂或水性介质中。短语“医药学上或药理学上可接受的”是指当投与动物或人时不生产不利、过敏或其他不良反应的分子实体和组合物。如本文所使用，“医药学上可接受的载剂”包括任何和所有溶剂、分散介质、涂料、抗细菌剂和抗真菌剂、等张剂以及吸收延迟剂等。此类介质和药剂用于医药学上活性物质的使用是本领域中熟知的。除非任何常规介质或试剂与本发明的载体或细胞不相容，预期其在治疗组合物中的用途。

表达载体和递送媒剂可经由任何常见途径投与，只要目标组织经由所述途径可用即可。这包括了经口、经鼻、颊内、经直肠、经阴道或局部。可替代地，投与可通过原位、皮内、皮下、肌内、腹膜内或静脉内注射进行。所述组合物通常将以医药学上可接受的组合物形式投与。

基于既定目的，确定治疗剂的有效量。术语“单位剂量”是指适用于受试者的物理上分散的单位，每一单位含有经计算以产生与其投与有关的所需反应的预定量的治疗性组合物，即，适当途径和治疗方案。待投与的量(均根据疗法数量和单位剂量)取决于待治疗的受试者、受试者的状态和所需保护。治疗性组合物的确切量还取决于医师的判断并且对于每一个体都是特有的。

治疗试剂盒-抑制肿瘤细胞增殖所需的所有必需的材料和试剂可共同组装在试剂盒中。这通常将包含所选择的表达载体、病毒或细胞。还包括的可为供表达载体复制和用于所述复制的宿主细胞用的各种培养基。所述试剂盒将包含用于每一个别试剂的不同容器。所述试剂盒还可以包括说明书页，其定义(i)投与反义表达载体构筑体；(ii)反义表达病毒；以及(iii)反义表达细胞。

在一些实施例中，提供干扰(iRNA或siRNA)。在一些实施例中，iRNA与融合体基因的断裂点互补。

与临床结果发现相关的方法

本文提供的表15和39含有各种癌症类型的超过100种基因事件，包括获得功能的突变、失去功能的突变、峰内基因扩增/缺失和融合体事件，其以高统计显著性(q＜0.1)与临床结果相关。因此，本文提供了用于向受试者递送治疗的方法、用于判定受试者是否接受治疗的方法、用于判定是否递送治疗的方法以及用于递送报导的方法。在某些说明性实施例中，所述治疗是药物。作为非限制性实例，药物可为表8、16和17中列出的药物，特别是当方法涉及会影响针对表8、16和17中的药物列出的基因的基因事件时。在其他实例中，如本文中所论述，药物可为由监管机构批准的任何药物，或处于批准之前开发阶段的任何药物。

因此，在另一实施例中，提供一种向受试者递送治疗的方法，其中所述方法包括检测表15中鉴别的基因事件，以及治疗所述受试者，其中所述治疗被认为积极地影响具有所述基因事件的癌症患者的临床结果和/或被认为影响与所述基因事件相关的生物学路径。此实施例可视为一种用于判定受试者是否接受治疗的方法或一种用于判定是否对受试者递送治疗或执行治疗的方法。因此，本文提供一种判定受试者是否接受药物的方法，所述方法包括检测表15和/或39中鉴别的基因事件，且接着如果所检测的基因事件在表15和/或39中列出，那么向所述受试者递送药物，其中所述药物被认为积极地影响具有所述基因事件的患者的临床结果。在这些实施例的说明性方面中，基因事件与表8、16和17中发现的基因相关，且药物在表8、16和17中列出，作为所述基因的伴侣。受试者通常是患有表15和/或39中列出的类型的癌症的受试者。在此实施例的说明性方面中，基因事件与受试者的较差的预后相关，所述受试者罹患癌症，通常是表15和/或39中列出的癌症，所述受试者的较差的预后与所述基因事件相关。

在另一实施例中，本文提供一种递送报导的方法，其中所述方法包括检测表15和/或39中鉴别的基因事件，且向医学专业人士递送会提供与受试者的癌症的所述基因事件相关的预测临床结果的报导。作为非限制性实例，医学专业人士可为医师、基因顾问或其他医学专业人士。通常，医师、基因顾问或其他医学专业人士与受试者具有专业关系，如患者/医生关系。所述报导可为纸质报导或可为经计算机网络递送给医学专业人士的电子报导。所述方法和报导可以包括表15和/或39中鉴别的基因事件和相关的预后中的一者或多者。

在另一实施例中，本文提供一种确定向受试者投与哪种治疗的方法，所述方法包括检测表15中列出的基因事件，且取决于所检测的基因事件，投与治疗。在说明性实施例中，如果所检测的基因事件与较差的预后相关，那么治疗是侵袭性治疗，如患者将由于治疗而陷入更多疼痛和痛苦的治疗。在相关实施例中，如果所检测的基因事件与较差的预后相关，那么所述治疗是侵袭性较高的治疗，且如果所检测的基因事件是另一基因事件，特别是如果所检测的基因事件在表15和/或39中鉴别为表明良好的预后，那么所述治疗是侵袭性较低的治疗。举例来说，如果在肺癌腺癌患者中检测到AADAC基因缺失、CHD1L基因、FMO5基因或PRKAB2基因的扩增或其组合，那么患者可用侵袭性化学治疗药物方案治疗。如果在患者中未检测到这些基因事件，那么患者可被监测，但可能不投与化学治疗药物。

在另一实施例中，本文提供一种用于判定是否治疗癌症患者的方法，所述方法包括检测表15和/或39中列出的基因事件，以及如果检测到在表15中与较差的预后相关的基因事件，那么治疗所述受试者。在另一实施例中，本文提供一种用于判定是否治疗癌症患者的方法，所述方法包括检测表15和/或39中列出的基因事件，以及如果检测到在表15和/或23中与良好的预后相关的基因事件，那么不治疗所述受试者。在另一实施例中，本文提供一种用于判定是否治疗或监测癌症患者的方法，所述方法包括检测表15和/或39中列出的基因事件，以及如果检测到在表15和/或39中与良好的预后相关的基因事件，那么监测但不治疗所述受试者。如果监测检测到癌症的复发或进展，那么可稍后投与治疗。

在基于与表15和/或39中的基因事件相关的临床结果涉及本文中提供的方法(例如向受试者递送治疗的方法、或判定是否向受试者递送治疗的方法、或确定投与或递送哪种治疗的方法或用于递送报导的方法)的本发明的这些实施例的某些方面中，受试者可被鉴别为具有表15和/或39中列出的任何一种类型的基因事件和任何一种特异基因事件。举例来说，基因事件可为获得功能的突变、失去功能的突变、基因扩增或缺失(通常是峰内基因扩增/缺失)、或融合体事件。在某些说明性实施例中，在表15和/或39中鉴别出q值为1×10^-3或更小、1×10^-4或更小或1×10^-5或更小的基因事件。在某些方面中，基因事件在表15和/或39被列为涉及可药化基因。举例来说，基因事件可为表15和/或39中列出的与作为临床前药物目标的基因相关的基因事件。作为一个非限制性实例，本文提供一种确定向患有卵巢癌(例如卵巢浆液性囊腺癌)的患者投与哪种治疗或治疗疗程的方法，其中所述方法包括检测或以其他方式测定ID1或BCL2L1基因的扩增以及投与治疗。在说明性实施例中，治疗是用于BCL2L1的经批准的治疗，如目前FDA批准的BCL2L1治疗，其中检测到BCL2L1扩增。

熟练的业内人士已知用于检测表15和/或39中列出的基因事件的类型的方法。那些方法可以包括核酸测序方法或扩增方法，如PCR或等温扩增方法或其组合。那些方法可以包括提供引物，所述引物经设计以结合于表15和/或39中鉴别的基因或结合表15和/或39中鉴别的基因的上游。因此，本文提供了反应混合物和试剂盒，其包括受试者的核酸样品以及结合于表15和/或39中鉴别的基因或其上游的一种或多种引物。通常，所述基因与表15和/或39中的基因事件相关，且所述受试者患有在表15和/或39中鉴别为具有与所述基因事件相关的预后的癌症。所述试剂盒还可包括通过如本文中针对本发明的各种实施例所公开的引物结合的对照核酸。所述反应混合物还可包括如本文中针对本发明的各种实施例所公开的聚合酶。

在基于与表15和/或39中的基因事件相关的临床结果涉及本文中提供的方法(例如向受试者递送治疗的方法、或判定是否向受试者递送治疗的方法、确定递送哪种治疗的方法或用于向医学专业人士递送报导的方法)的本发明的这些实施例的某些方面中，基因事件可以包括表15和/或39中鉴别的一种以上基因事件。在某些方面中，根据这一实施例的方法检测表15中鉴别的2、3、4、5、6、7、8、9、10种或更多种基因事件，特别是被鉴别为对于既定癌症类型具有相同预后的那些基因事件。举例来说，所述方法可以包括检测乳癌患者中的基因事件，以及当所检测的基因事件包括BRF2、ERLIN2、GPR124、PROSC和TAB11FI基因中的两者或更多者的基因扩增时，向所述患者投与治疗。在另一实例中，所述方法包括检测罹患低级别胶质瘤的受试者中的两种或更多种基因事件，以及向所述受试者投与治疗，其中所述基因事件是以下各项中的至少两者：EGFR或SEC61G基因的扩增；CDK4、CYP27B1、MARCH9、TSPAN31或AGAP2基因的扩增；EGFR基因中的获得功能的突变；或CDKN2A、CDKN2B或MTAP基因的缺失。在另一方面中，所述方法包括检测与较差的预后相关的基因事件，且所述基因事件在表8、16、17、表15和/或39中被鉴别为当前临床前试验中的药物或已批准的药物(如FDA批准的药物)的目标。

在基于与表15和/或39中的基因事件相关的临床结果涉及本文中提供的方法(例如向受试者递送治疗的方法、或判定是否向受试者递送治疗的方法、或确定投与或递送哪种治疗的方法或用于递送报导的方法)的本发明的这些实施例的某些方面中，基因事件可为本文中其他表中的一者中鉴别的特定基因事件。熟练的业内人士可以鉴别出表15和/或39中的哪种一般类型基因事件将落在其他表中的一者中的特定基因事件中。

计算机实施的系统

计算机系统可用于本发明的某些实施例中。在各种实施例中，计算机系统可以包括用于传达信息的总线或其他通信机制，以及与总线耦合以用于处理信息的处理器。在各种实施例中，计算机系统100还可包括耦合到总线以便测定碱基调用的存储器(其可为随机存取存储器(RAM)或其他动态存储装置)以及待通过处理器执行的指令。存储器也可以用于在执行打算由处理器执行的指令期间存储临时变量或其他中间信息。在各种实施例中，计算机系统可以进一步包括耦合到总线以便存储用于处理器的静态信息和指令的只读存储器(ROM)或其他静态存储装置。可提供存储装置(如磁盘或光盘)，且其耦合到总线以便存储信息和指令。

在各种实施例中，计算机系统可以经由总线耦合到显示器，如阴极射线管(CRT)或液晶显示器(LCD)以将信息显示给计算机用户。输入装置(包括字母数字和其他按键)可为与总线耦合以便将信息和命令选择传达给处理器。另一类型的用户输入装置是用于将方向信息和命令选择传达到处理器且用于控制显示器上的光标移动的光标控制件，如鼠标、轨迹球或光标方向键。这一输入装置通常具有在两个轴线(第一轴线(例如，x)和第二轴线(例如，y))上的两个自由度，其允许所述装置指定一个平面中的位置。

计算机系统可以执行本发明教示。与本发明教示的某些实施方式一致，结果可通过计算机系统100回应于执行含于存储器中的一个或多个指令的一个或多个序列的处理器来提供。此类指令可以从另一计算机可读媒体(如存储装置)读取到存储器中。存储器中含有的指令序列的执行可以使得处理器执行本文所描述的方法。或者，可以使用硬连线电路代替或结合软件指令以实现本发明教示。因此，本发明教示的实施方式不限于硬件电路和软件的任何特定组合。

在各种实施例中，如本文所用的术语“计算机可读媒体”是指参与为处理器提供指令以便执行的任何媒体。此类媒体可以呈许多形式，包括(但不限于)非易失性媒体、易失性媒体和传输媒体。非易失性媒体的实例可以包括(但不限于)光盘或磁盘，如存储装置。易失性媒体的实例可以包括(但不限于)动态存储器，如存储器。传输媒体的实例可以包括(但不限于)同轴电缆、铜线和光纤，包括包含总线的导线。

非暂时性计算机可读媒体的常见形式包括(例如)软盘、软磁盘、硬盘、磁带、或任何其他磁性媒体、CD-ROM、任何其他光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其他物理媒体、RAM、PROM和EPROM、闪存EEPROM、任何其他存储器芯片或盒带或计算机可以读取的任何其他有形媒体。

根据各种实施例，被配置成被处理器执行以进行方法的指令存储在计算机可读媒体上。计算机可读媒体可以是存储数字信息的装置。举例来说，计算机可读媒体包括用于存储软件的如所属领域中已知的只读光盘(CD-ROM)。计算机可读媒体被适合于执行被配置成被执行的指令的处理器访问。

根据体现在本申请案中的教示和原理，提供可以在多个地点和实体中有效收集、分析、存储、转移、检索和/或分发信息(包括基因组学和/或患者信息)的方法、系统和计算机可读媒体。

在一个实施例中，提供一种用于测定一种或多种基因融合体和/或变异体是否存在于样品中的系统。所述系统可以进一步确定鉴别与一种或多种基因融合体和/或基因变异体相关的疾病病况(如癌症)以及根据所述突变状态确定适当的治疗。在某些实施例中，所述系统包含与接收测序数据的测序仪器通信的处理器。

在一些实施例中，所述处理器可以执行一次或多次变异体调用。在一些实施例中，处理器可以提供过滤和/或注释预测。

实例

在以下实例中，方法用于鉴别4,225个癌症患者样品中与一组19种癌症相关的基因融合体和基因变异体。所述基因融合体和基因变异体接着用于产生用以确认癌症倾向性、诊断癌症、癌症分期、提供预后以及鉴别可药化癌症的诊断方法。提供方法以基于基因融合体的鉴别来提供癌症的靶向疗法。

实例1：表征癌症中的基因融合体景观的双端下一代测序数据的高通量系统分析

跨越19种疾病的4,225个癌症患者样品用deFuse(麦克弗森(McPherson)等人“deFuse：用于肿瘤RNASeq数据中的基因融合体发现的算法(deFuse：analgorithmforgenefusiondiscoveryintumorRNASeqdata)”《公共科学图书馆·比较生物学》(PLoSComp.Bio.)2011)和TopHat(金(Kim)等人“TopHat-Fusion：用于发现新颖融合体转录物的算法(TopHat-Fusion：analgorithmfordiscoveryofnovelfusiontranscripts)”《基因组生物学》(GenomeBiology)2011)基因融合体调用软件使用基于云的计算基础设施处理。确认基因融合体事件的过滤准则，其富集高置信度的化学上经验证的基因融合体事件。

基因融合体编码血液学和实体肿瘤中的致癌驱动基因，且通常与显著临床反应和适当靶向试剂相关。大规模平行双端测序可以鉴别肿瘤基因组和转录组中的结构重排。然而，鉴别基因融合体的计算方法会变化(仍然在演进中)且基本上对细胞系数据进行训练。已开发了表征已知致癌基因融合体以及发现癌症中的新颖基因融合体的系统方法。从癌症基因组图谱(theCancerGenomeAtlas，TCGA)的癌症基因组学中心(CancerGenomicsHub，CGHub)获得来自16种癌症类型的约3,400个临床病例的RNASeq数据。调查数种基因融合体调用程序的性能，且选择两种(deFuse和TopHat)以用于目标是支持单端和双端数据两者的进一步方法开发。开发分析流水线，且在高性能计算簇上平行执行。对聚集的数据进行过滤和注释，作为允许探索性分析各种过滤的后处理步骤。对包括已知标准物(例如前列腺腺癌中的TMPRSS2.ERG、急性骨髓性白血病中的PML.RARA等)的数据集优化过滤方法，从而富集具有正确5′-3′定向的这些和其他基因融合体，同时排除具有模糊断裂点以及来自相邻基因的跨越读段、比对错误和通读转录物的情况。基于与多个搭配物一起参与融合体的独特基因和独特基因对各自在特定疾病内的出现，概述所预测的融合体。在所预测的融合体和所添加的重要验证证据阳性的情况下，在3′基因的所预测的断裂点之后观察到表达升高。泛疾病融合体和多搭配物融合体事件加宽基因融合体事件的临床群体范围。

所有单端数据均使用TopHat处理，且所有双端数据均使用deFuse处理。TopHat已展示出在较长的75bp单端数据的情况下有效。deFuse算法与单端数据并不相容且已被设计成用于充分利用读段对。预处理数据且检测融合体：对高性能计算簇平行执行所有样品的deFuseTopHat步骤。对聚集的数据进行过滤和注释，作为启用过滤准则以使假阳性融合体减到最少的后处理步骤。用RNASeq外显子表达数据验证优先融合体的列表。

TCGA数据来源：从癌症基因组学中心(CGHub，当前的TCGA基因组数据的存储库-安全超文本传输协议：//cghub.ucsc.edu/)获得基因融合体分析的所有RNASeq数据。表9列出针对M2和M3下载和处理的TCGA样品计数：

表9：经处理的TCGA样品

癌症类型	癌症类型缩写	样品	中心	仪器
					膀胱尿道上皮癌	BLCA	122	UNC-LCCC	Illumina HiSeq 2000
侵袭性乳癌	BRCA	841	UNC-LCCC	Illumina HiSeq 2000
					宫颈鳞状细胞癌和宫颈内腺癌	CESC	88	UNC-LCCC	Illumina HiSeq 2000
结肠腺癌	COAD*	196	UNC-LCCC	Illumina GA IIx
					多形性成胶质细胞瘤	GBM	167	UNC-LCCC	Illumina HiSeq 2000
头颈鳞状细胞癌	HNSC	302	UNC-LCCC	Illumina HiSeq 2000
					嫌色性肾癌	KICH	66	UNC-LCCC	Illumina HiSeq 2000
肾脏肾透明细胞癌	KIRC	480	UNC-LCCC	Illumina HiSeq 2000
					肾脏肾乳头状细胞癌	KIRP	76	UNC-LCCC	Illumina HiSeq 2000
急性骨髓性白血病	LAML	179	BCCAGSC	Illumina GA IIx
					脑低级别胶质瘤	LGG	184	UNC-LCCC	Illumina HiSeq 2000
肝脏肝细胞癌	LIHC	34	UNC-LCCC	Illumina HiSeq 2000
					肺腺癌	LUAD	345	UNC-LCCC	Illumina HiSeq 2000
肺鳞状细胞癌	LUSC	221	UNC-LCCC	Illumina HiSeq 2000
					卵巢浆液性囊腺癌	OV	417	BCCAGSC	Illumina HiSeq 2000
胰腺癌	PAAD	31	UNC-LCCC	Illumina HiSeq 2000
					前列腺腺癌	PRAD	140	UNC-LCCC	Illumina HiSeq 2000
直肠腺癌	READ*	71	UNC-LCCC	Illumina GA IIx
					皮肤黑素瘤	SKCM	267	UNC-LCCC	Illumina HiSeq 2000
胃腺癌	STAD	41	BCCAGSC	Illumina HiSeq 2000
					甲状腺癌	THCA	373	UNC-LCCC	Illumina HiSeq 2000
子宫体子宫内膜样癌	UCEC*	317	UNC-LCCC	Illumina GA IIx

*单端TCGA疾病

BAM文件从CGHub使用其基因激流软件(GeneTorrentSoftware)下载

在支持单端和双端数据两者的目标下，4,374个双端样品用deFuse处理，且584个单端样品用TopHat处理。

广泛地，分析流水线由5个主要步骤组成：1.预处理原始数据以获得FASTQ文件；2.运行融合体调用程序；3.过滤断裂点到相关基因区域；4.用Oncomine转录物组注释断裂点；以及5.对可能令人感兴趣的新颖融合体进行概述和优先级排序。

进到融合体调用程序中的输入由呈FASTQ格式的RNASeq读段组成，其需要将由TCGA提供的BAM文件转换成(分别)单端或双端数据的一或两个FASTQ文件。

开发了定制SamToFastq转换器以从TCGABAM文件生成FASTQ文件。除了允许系统地转换所有双端RNASeqTCGABAM之外，SamToFASTQ转换器具有优于其他转换工具的其他优点。首先，其以C编写且经编译以运行较快且减少处理时间。其次，其结合了数个验证步骤以确保适当的配偶配对和输出FASTQ文件中一致的配偶对排序，其两者均为融合体调用程序的输入需求。

有3种癌症类型(COAD、READ、UCEC)仅以单端RNASeq数据形式可用。对于单端BAM文件转换，使用程序BamTools(安全超文本传输协议：//github.com/pezmaster31/bamtools)来生成FASTQ文件。

整合-图1图式是通过两种调用程序进行的结果过滤的相对层面。作为分析的一部分，整合“层面I”数据，来自TopHat-FusionPost的输出potential_fusion.txt文件和来自deFuse的输出results.classify.tsv文件。整合步骤涉及将所报导的断裂点转化成基于基因组学坐标系的断裂点且合并成常见文件格式。

断裂点过滤-过滤来自调用程序的“层面I”输出的约550万预测，仅保留其中每一断裂点是在RefSeq转录物的5′UTR或CDS区中的那些调用(refGene大约于2012年7月18日，从UCSC获得)。如此进行以针对含有功能基因区域的融合体富集所预测的融合体。还排除经预测会出现在内含子序列中的断裂点，产生423,587个所预测嵌合体的集合。

断裂点注释-对于每对断裂点，每EntrezID仅保留一种转录物。这确保了在相同位置处的注释断裂点中的一致性。然而，相同基因搭配物的不同位置处的所预测的断裂点仍可产生多个代表一对基因的转录物，这是替代转录物的可能的证据。

丢弃来自调用程序的基本注释，因为其是基于每一对应调用程序的默认注释源。然而，保留TopHat和deFuse两者的某些输出字段以帮助对所预测的融合体进行优先级排序。另外，从其他调用程序特性推断未由调用程序明确报导的某些注释特性。

推断的特性-从每一调用程序获得支持和跨越读段计数，且概述在读段跨度(ReadsSpan)和读段跨度支持(ReadsSpanSupport)中。后者是跨越融合体的读段和支持融合体的读段的总和。将由调用程序报导的断裂点序列修整以在融合体的每一侧上包括50个碱基，且合并为断裂点序列。融合体断裂点通过“|”描绘。由于调用程序两者中无一提供决定性的‘5′’或‘3′’标记，故通过将调用程序参数与基因链注释组合来推断融合体搭配物的相对5′-3′定向。如果存在既定基因融合体调用的推断的5′和3′搭配物，那么将有效定向字段标记为“Y”。

RepeatMasker注释-每一预测的断裂点位置还用在断裂点附近的RepeatMasker特征注释。如此进行以鉴别高度重复的基因组区域中的断裂点，其中比对错误很可能会影响嵌合转录物的预测。在每一融合体预测中，如果侧接序列的断裂点中的任一者通过12个或更多个碱基与RepeatMasker元件重叠，那么将RepeatMasker重叠字段设定为1。重叠融合体调用的频率用于下文所述的Oncomine优先级排序，使得将具有较低重叠频率的基因融合体预测视为较高质量。

融合体外显子表达不平衡-再现的Oncomine优先级融合体使用利用GDACFirehose工具下载的RNASeq外显子表达数据观测，以通过寻找在断裂点调用之前和之后的外显子表达不平衡来提供真阳性融合体事件的次要证据。具体来说，如果3′搭配物的表达受到5′搭配物的启动子区影响，那么外显子表达应在所预测的断裂点之后增强。当查看融合对比非融合患者样品时，这一效应尤其可见。

将每一患者的RPKMRNASeq值以对应于来自数个不同基因定义(包括Refseq)的UCSC外显子的复合物的基因注释格式(GAF)特征形式列出。肯潘迪亚公司(Compendia)处理的融合体断裂点映射到GAF特征。396,298个Refseq外显子中的80.8％完美地映射到下文展示的曲线中的GAF特征。选择且报导会产生最大重叠的Refseq外显子和GAF特征对。

称为rg_pct的值基于下式提供给定Refseq外显子与GAF特征的映射质量的量度：rg_pct＝重叠/长度_refseq*重叠/长度_GAF特征

rg_pct值为1的映射完美地重叠，而值小于1指示refseq外显子或GAF特征不映射到严格相同的基因组区域，且RPKM值可为可疑的。归因于条形图中展示的疾病覆盖率，除了OV、STAD和LAML，为所有疾病选择RNASeqV2数据。

针对满足以下准则的Oncomine优先级融合体子集的表达不平衡人工地审查融合体外显子表达：1.再现的Oncomine优先级融合体；2.在Mitelman数据库中列出的Oncomine优先级融合体；3.一种融合体搭配物是Oncomine获得功能的致癌基因且涉及至少3种Oncomine优先级融合体；以及4.一种融合体搭配物在桑格癌症基因普查(SangerCancerGeneCensus，超文本传输协议：//www.sanger.ac.uk/genetics/CGP/Census/)中列出且涉及至少3种Oncomine优先级融合体。

总共994种基因融合体满足这些准则，且通过将“支持的”、“反驳的”、“中立的”或“不经测试的”评级分配给基因融合体调用来人工地审查其外显子表达不平衡。

专家使用以下准则来分配评级：支持的：融合的样品在断裂点之后具有高度表达的3′融合体搭配物，使得融合的样品是患者群体的离群值。在断裂点之前，3′搭配物的表达与在断裂点之后相比应较低。反驳的：5′搭配物的极低平均表达(＜5RPKM)或一种搭配物的平均表达与其他相比远为较低(约1/10)。中立的：既不满足支持也不满足反驳准则。将未经人工审查的融合体分配不经测试的评级。

融合体概述-基于独特基因对的出现以及基于个别基因(有可能与多个搭配物一起)的出现，概述疾病内的融合体。

融合体层面概述-对于独特融合体对(根据EntrezID对唯一)，根据任一调用程序具有至少一个融合体预测的疾病内的样品数量是融合的样品计数。由于在一个样品中以及跨越多个样品可报导相同基因对的多个断裂点，故由424K+融合体调用代表的每种疾病内的独特融合体对的数量为49,588个。表10展示针对跨越个别预测的给定融合体搭配物对概述的特性：

表10：

如果基因组上的基因相隔＜1Mb，那么为融合体设定邻近标记，且在这些融合体搭配物的≤75％的个别融合体预测中设定defuse翻转标记。

Mitelman交叉参考-个别独特融合体交叉参考基因组学畸变的Mitelman数据库(超文本传输协议：//cgap.nci.nih.gov/Chromosomes/Mitelman，2013年2月25日下载)。匹配基于基因名称而非疾病类型进行。因此，Mitelman中报导的某一疾病中的基因融合体可能已出现在TCGA数据集中的不同疾病类型中。在基因层面处概述的基因融合体基于基因名称交叉参考Mitelman数据库。因此，如在Mitelman中报导为与所预测的独特融合体对相比具有不同组织学或完全不同畸变类型(例如较大染色体层面缺失而非融合体)的基因有更多潜力。

正常样品融合体黑名单-为了减少假阳性融合体的数量，跨越10种疾病的344个双端正常样品使用上文所述相同的deFuse流水线处理。观察由6,024个独特融合体组成的总共56,579个总融合体调用。在49,588个独特基因融合体事件中，在正常样品中观察到这些调用中的11,801个。这些正常样品融合体调用用于生成黑名单，且由此从Oncomine优先级基因融合体中移除这些假阳性。

平行同源融合体搭配物黑名单-在平行同源基因家族成员之间的融合体的黑名单使用两种策略汇编：1)人工地检测高频率融合体搭配物基因名称以及2)比较所有优先级融合体搭配物基因名称的前3个字符。在后一种策略中，融合体搭配物使用HomoloGene、Ensembl和SIMAP验证为“平行同源”，随后包括在最终黑名单中。黑名单由375个独特平行同源基因融合体组成且用于从Oncomine优先级基因融合体中移除假阳性。

实例2：用于鉴别与癌症相关的基因变异体的NGS突变方法

基因变异体的数据整合的目的是为了形成目前可从TCGA获得的一组最完整的突变数据。

数据来源-对此版本，整合以下各者：来自博德GDACMutation_Packager2013_02_22stddatabuild的TCGA突变数据、到2013年3月1日为止可从TCGADCC获得的2级(公共的、实验上未经验证的)数据，以及针对前列腺腺癌的由来自TCGA原始数据的肯潘迪亚公司生成的突变数据。

肯潘迪亚公司(CBI)突变调用-存在可从TCGA获得的前列腺腺癌突变调用具有低质量且产生假阳性‘获得功能’预测的问题。因此，对此疾病的所有调用均来源于肯潘迪亚公司的自身突变调用流水线，其与由TCGA癌症类型工作组使用的用于生成公开可获得的突变调用的方法紧密相似。

表12：数据来源选择

数据清洗-执行一些简单净化操作以移除源数据中存在的一式两份突变记录。移除来自同一患者样品的各种肿瘤/正常等分试样对的一式两份突变。还从下游分析流水线中排除总共25个“超突变基因”样品(每个样品突变计数＞5,000)。在某些疾病(如子宫体子宫内膜样癌)中，数个高度突变的样品可能在整体突变计数中占主导地位且稀释肯潘迪亚公司突变和基因分类流程所必需的突变再现分析的结果。

突变注释：A.肯潘迪亚公司注释-因此，定义突变的肯潘迪亚公司方法依赖于准确的变异体注释；突变使用标准注释流水线再注释，所述标准注释流水线确保跨越疾病类型的突变被一致地评估且在潜在致癌基因或肿瘤抑制基因的提名期间经受共同的解释。

从TCGA获得的突变通过肯潘迪亚公司根据以下通用步骤处理：1.每一突变首先使用肯潘迪亚公司转录物组再注释。成功注释的突变接受源于肯潘迪亚公司的注释，而其余部分保留从TCGA获得的注释。注释包括：变异体分类、变异体位置、变异体变化。2.移除多种转录物中的突变的冗余注释。3.移除位于相关基因区域外的突变。4.移除无有效基因EntrezID的突变。

在突变注释步骤中，针对通过肯潘迪亚公司编译的一组标准转录物再注释从TCGA获得的突变。这个转录物组包括从UCSC获得的来自hg18和hg19基因组构建的RefGene转录物。

每一突变个别地针对规定的基因组构建内的CBI转录物组中的重叠群映射。SNP突变直接映射到其起始位置，同时针对小插入(INS)和缺失(DEL)突变选择相关位置以便映射。

对于成功地映射到转录物的突变，相对于所述转录物推断CBI突变注释。对于无法映射的突变，保留更有限的TCGA注释，且基于基因组学坐标构筑用于热点计算的变异体位置。

下文是用于注释映射到CBI转录物组的突变的准则的描述：

变异体分类：对于成功映射到转录物的每一突变，使用突变的位置和序列变异体类型推断变异体分类。此方法鉴别出以下主要突变变异体分类：

表13：主要突变变异体分类：

变异体位置：突变的变异体位置是用于鉴别具有热点突变的基因的位置，热点突变为在多个肿瘤样品中在同一位置处观察到的某一分类的突变。为了有效地鉴别再现且定义每一突变的热点，构筑涵盖突变位置、所影响的氨基酸或碱基身份以及变异体分类的突变点识别符。使在同一位置处出现的与其产生的特定碱基变化无关的突变聚集。因此，仅参考碱基或氨基酸用于定义变异体位置。这确保了将针对可能的热点对会影响同一密码子或基因组位置的突变进行计数，即使其产生的替代等位基因不同。举例来说，对于给定基因，错义突变V600E、V600F和V600G将均具有V600的变异体位置，且将由此在鉴别热点突变时聚集在一起。在氨基酸层面位置不可获得时，使用RNA层面或基因组学层面位置。

对于并不映射到CBI转录物组且因此并不具有基于转录物的位置的突变，将基因组位置(起始位置)和参考核苷酸(参考等位基因)用作与编码区或剪接位点接近性无关的变异体位置。接着，将TCGA注释的变异体分类作为后缀添加。这些突变的变异体变化(参见下文)未经定义。

变异体变化：变异体变化提供关于突变的替代等位基因变化(例如V600E)的HGVS样信息。对于编码区中的SNP突变，变异体变化为完整HGVS蛋白质层面序列变异体描述，指示替代氨基酸。对于在编码区之外的SNP，提供替代等位基因核苷酸碱基。对于并不映射到CBI转录物组的突变，保留来自TCGA的变异体分类。

转录物过滤：为了避免检索多种转录物，且因此避免检索一种基因内单一突变的多个注释，保持每一基因(唯一EntrezID)每一突变仅一种转录物。如果突变映射到一种基因的数种转录物，那么仅选择一种转录物。然而，如果突变映射到数种基因，那么每一基因仅选择一种转录物。因此，一种突变可接受两种不同注释，但仅当其来自具有不同EntrezID的转录物时才如此。实际上，在同一基因组位置处的相同变异体分类的任何突变总是分配给相同转录物，且因此在计算热点鉴别的再现时将处于同一参考框架中。

基因区域过滤：所有突变均通过变异体类型和类别进一步过滤以避免将较不相关的突变包括到基因功能分析中。滤除并不解析到基因区域的突变，或者因为其显著远落在转录物之外，或者因为其处于与RefSeq基因不相关的位置中。这些突变通过其缺乏基因识别符或以下变异体类别中的成员资格而为明显的：内含子、5’侧接序列、IGR和miRNA。还滤除具有DNP、TNP、ONP、复杂取代(Complex_substitution)和Indel的变异体类型的突变，因为其注释不被流水线所支持。

将突变归类为热点、有害或其他-分析流水线中的下一个步骤基于突变的变异体位置鉴别出多个样品中重现的突变，且将其归类到热点、有害或其他变异体类别中。对于此步骤和后续频率计算，独立地处理每种疾病类型的突变。仅将相同变异体分类的突变共同运算，因此例如分别计数在相同位置处的错义突变和沉默突变。

为了鉴别驱动基因事件，将给定EntrezGeneId的每一突变归类为“有害”或“热点”。如果在3个或更多个肿瘤样品的相同变异体位置中观察到一种突变，那么认为所述突变是‘再现的’。如果一种突变是再现的且经以下变异体分类中的一者注释：框内插入/缺失、无终止、错义、非编码外显子，那么所述突变属于“热点”变异体类别。如果一种突变经以下变异体分类中的一者注释：框移插入/缺失、无义，那么所述突变属于“有害”类别。如果一种突变不符合上述准则，那么所述突变被视为在“其他”变异体类别中。

命名“获得功能”和“失去功能”基因-将个别基因归类到所预测的功能类别中，即“获得功能”、“再现的其他”和“失去功能”，以反映其在潜在活化或有害突变中的相对富集。

突变的频率：相对于一种疾病类型内的所有样品中的给定变异体分类和变异体类别计算每一基因的突变频率。一种疾病内的一种基因的整体突变频率通过组合所有突变来计算。

突变显著性：通过选择再现最多的突变m且使用取样来计算一种疾病内的每一基因的热点p值，以测定在所述位置处观察r个或更多个突变的概率p。更确切地说，其中c_m是具有最大多重性m的重复的计数。最大多重性为一的转录物的P值被定义为1.0。具有从未观察到的最大多重性的转录物的P值被定义为le-5。

通过对突变至少一次的转录物的数量(N)进行计数且计算每一p值的等级来计算每种疾病内的热点Q值。给定p值的q值则是Q＝p*N/等级。

为了评估一种基因与其他基因相比是否针对有害突变显著富集，鉴于背景突变率，执行费舍尔精确检验(Fisher′sexacttest)，比较所讨论的基因的有害突变频率与其他基因的有害突变频率。将无义突变、框移插入和框移缺失归类为有害突变，而任何其他类型(错义等，但非基因间)的突变作为其他计数。

通过计数具备有害突变的基因的数量(N)且计算每一相关的等级来计算每种疾病内的有害Q值。给定p值的q值则为Q＝p*N/等级。

基因分类：一旦将突变分类，就将个别基因命名为三种类别中的一种：“获得功能”、“失去功能”和“再现的其他”。分类是基于在基因中观察到的突变的相对频率和显著性的组合。每一基因突变的显著性通过p值评估。图2中的分类流程指明用于获得功能和失去功能基因的准则。

“获得功能”基因将具有相对较高的热点错义突变频率和较低的有害突变频率，而“失去功能”基因含有较大部分的有害突变。“再现的其他”倾向于含有再现的插入/缺失突变，其中的一些(例如1个碱基的再现的框移插入缺失)展现出可能由局部比对错误引起的潜在假阳性调用的迹象。

泛癌症分析-为了概述跨越疾病的突变，对于疾病内分析执行相同的计算，但不根据疾病将突变记录分层。对于泛疾病基因分类，概述所有癌症类型中的基因(根据EntrezID唯一)。

实例3：用于鉴别癌症中的基因融合体和/或基因变异体的诊断分析

文库制备

PCR扩增基因组DNA目标

所公开的变异体和融合体聚核苷酸可通过核酸的测序来检测。这可通过下一代测序(以下是其描述)来实现。用于下一代测序的核酸来源可以包括新鲜冷冻的石蜡包埋的(FFPE)样品。

执行多重聚合酶链反应以扩增一个基因组DNA样品内的384个个别扩增子。开发大于32,000个引物的池，涵盖超过100种基因变异体或融合体聚核苷酸。引物池中的每个引物经设计以在每个引物末端附近含有至少一个尿苷核苷酸。每个引物还经设计以通过形成引物对来与核酸样品的特定基因、基因变异体或融合多肽选择性地杂交，且促进扩增。

向96孔PCR板的单一孔中添加5微升引物池(含有浓度为15μM于TE中的384个引物对)、10-50ng基因组DNA和10微升扩增反应混合物(2×AmpliSeqHiFiMasterMix，其可以包括甘油、dNTP和Taq高保真度DNA聚合酶，英杰公司(Invitrogen)，目录号11304)与无DNA酶/RNA酶的水(加利福尼亚州的生命技术公司，部件号600004)达到20微升的最终体积。

将PCR板密封且装载到热循环仪(PCR系统9700双重96孔热循环仪(加利福尼亚州的生命技术公司，部件号N8050200和4314445))中，且使用以下温度特性曲线运行以产生预扩增的扩增子文库。

初始保持阶段在98℃下执行2分钟，接着16个变性循环在98℃下执行15秒，且粘接和延伸阶段在60℃下执行4分钟。在循环之后，将预扩增的扩增子文库保持在4℃下，直到前进到下文概述的纯化步骤。

纯化来自输入DNA和引物的扩增子

发现两轮的XP试剂(加利福尼亚州的贝克曼库尔特公司(BeckmanCoulter，CA)结合，洗涤以及以0.6×和1.2×体积比洗脱会移除基因组DNA和未结合或过量的引物。本文中概述的扩增和纯化步骤产生长度为约100bp到约600bp的扩增子。

在1.5mlLoBind试管(艾本德公司(Eppendorf)，部件号022431021)中，预扩增的扩增子文库(20微升)与12微升(0.6×体积)的XP试剂(加利福尼亚州的贝克曼库尔特公司)组合。上下吹吸珠粒悬浮液以将珠粒悬浮液与预扩增的扩增子文库彻底混合。接着，将样品脉冲自旋且在室温下孵育5分钟。

将含有样品的试管置于磁性机架(如DynaMag^TM-2自旋磁体(加利福尼亚州的生命技术公司，部件号123-21D)上2分钟以捕获珠粒。一旦溶液澄清，就将上清液转移到新试管中，其中向上清液中添加24微升(1.2×体积)的XP珠粒(加利福尼亚州的贝克曼库尔特公司)。吹吸混合物以确保珠粒悬浮液与预扩增的扩增子文库混合。接着，将样品脉冲自旋且在室温下孵育5分钟。将含有样品的试管置于磁性机架上2分钟以捕获珠粒。一旦溶液澄清，就将上清液小心地丢弃，且不扰乱珠粒集结粒。所需预扩增的扩增子文库接着结合于珠粒。在不从磁性机架移出试管的情况下，将200微升新鲜制备的70％乙醇引入到样品中。将样品孵育30秒，同时将试管在磁性机架上温和地旋转。在溶液澄清之后，丢弃上清液，且不扰乱集结粒。执行第二次乙醇洗涤，且丢弃上清液。通过脉冲自旋试管来移除任何剩余乙醇，且小心地移出残余乙醇而不扰乱集结粒。将集结粒在室温下风干约5分钟。

一旦试管干燥，就将试管从磁性机架移出，且添加20微升无DNA酶/RNA酶的水(加利福尼亚州的生命技术公司，部件号600004)。对试管进行涡旋和吹吸以确保样品彻底混合。将样品脉冲自旋且置于磁性机架上两分钟。在溶液澄清之后，将含有洗脱的DNA的上清液转移到新试管中。

磷酸化扩增子

向洗脱的DNA(约20微升)中添加3微升DNA连接酶缓冲液(英杰公司，目录号15224041)、2微升dNTP混合物和2微升FuP试剂。将反应混合物彻底混合以确保均匀性且在37℃下孵育10分钟。

将衔接子连接于扩增子且纯化经连接的扩增子

在孵育之后，反应混合物直接进行到连接步骤。这里，将现含有磷酸化的扩增子文库的反应混合物与1微升A/P1衔接子(各自20μm)(作为Ion片段文库试剂盒的组分销售，生命技术公司，部件号4466464)和1微升DNA连接酶(作为Ion片段文库试剂盒的组分销售，生命技术公司，部件号4466464)组合，且在室温下孵育30分钟。

在孵育步骤之后，将52微升(1.8×样品体积)试剂(加利福尼亚州的贝克曼库尔特公司)添加到经连接的DNA中。将混合物彻底吹吸以将珠粒悬浮液与经连接的DNA混合。将混合物脉冲自旋且在室温下孵育5分钟。样品再经历脉冲自旋且置于磁性机架(如DynaMag^TM-2自旋磁体(加利福尼亚州的生命技术公司，部件号123-21D))上两分钟。在溶液澄清之后，丢弃上清液。在不从磁性机架移出试管的情况下，将200微升新鲜制备的70％乙醇引入到样品中。将样品孵育30秒，同时将试管在磁性机架上温和地旋转。在溶液澄清之后，丢弃上清液，且不扰乱集结粒。执行第二次乙醇洗涤，且丢弃上清液。通过脉冲自旋试管来移除任何剩余乙醇，且小心地移出残余乙醇而不扰乱集结粒。将集结粒在室温下风干约5分钟。

将集结粒再悬浮在20微升无DNA酶/RNA酶的水(加利福尼亚州的生命技术公司，部件号600004)中且涡旋，以确保样品彻底混合。将样品脉冲自旋且置于磁性机架上两分钟。在溶液澄清之后，将含有经连接的DNA的上清液转移到新Lobind试管(艾本德公司，部件号022431021)中。

缺口翻移且扩增扩增子文库并纯化文库

将经连接的DNA(约20微升)与76微升PCR高保真度超混合液(SuperMixHighFidelity)(加利福尼亚州的生命技术公司，部件号12532-016，作为Ion片段文库试剂盒的组分销售，生命技术公司，部件号4466464)和4微升文库扩增引物混合物(各自5μM)(加利福尼亚州的生命技术公司，部件号602-1068-01，作为Ion片段文库试剂盒的组分销售，生命技术公司，部件号4466464)组合，将混合物彻底吹吸以确保均匀的溶液。将溶液施加到96孔PCR板的单一孔中且密封。将板装载到热循环仪(PCR系统9700双重96孔热循环仪(加利福尼亚州的生命技术公司，部件号N8050200和4314445))中，且在以下温度特性曲线上运行以产生最终扩增子文库。

缺口翻译在72℃下执行1分钟，接着酶活化阶段在98℃下执行2分钟，接着5-10个循环的变性在98℃下执行15秒，且粘接和延伸阶段在60℃下执行1分钟。在循环之后，将最终的扩增子文库保持在4℃下，直到行进到下文概述的最终纯化步骤。

在1.5mlLoBind试管(艾本德公司，部件号022431021)中，最终扩增子文库(约100微升)与180微升(1.8×样品体积)的XP试剂(加利福尼亚州的贝克曼库尔特公司)组合。上下吹吸珠粒悬浮液以将珠粒悬浮液与最终扩增子文库彻底混合。接着，将样品脉冲自旋且在室温下孵育5分钟。

将含有最终扩增子文库的试管置于磁性机架(如DynaMag^TM-2自旋磁体(加利福尼亚州的生命技术公司，部件号123-21D))上2分钟以捕获珠粒。一旦溶液澄清，就将上清液小心地丢弃，且不扰乱珠粒集结粒。在不从磁性机架移出试管的情况下，将400微升新鲜制备的70％乙醇引入到样品中。将样品孵育30秒，同时将试管在磁性机架上温和地旋转。在溶液澄清之后，丢弃上清液，且不扰乱集结粒。执行第二次乙醇洗涤，且丢弃上清液。通过脉冲自旋试管来移除任何剩余乙醇，且小心地移出残余乙醇而不扰乱集结粒。将集结粒在室温下风干约5分钟。

一旦试管干燥，就将试管从磁性机架移出，且添加20微升LowTE(加利福尼亚州的生命技术公司，部件号602-1066-01)。对试管进行吹吸和涡旋以确保样品彻底混合。将样品脉冲自旋且置于磁性机架上两分钟。在溶液澄清之后，将含有最终扩增子文库的上清液转移到新Lobind试管(艾本德公司，部件号022431021)中。

评估文库大小分布且测定模板稀释系数

对最终扩增子文库进行定量以测定文库稀释度(模板稀释系数)，其产生用于模板制备的优化目标范围内的浓度(例如将文库分子PCR介导的添加到IonSphere^TM粒子上)。最终扩增子文库通常针对下游模板制备程序使用Ion文库定量试剂盒(qPCR)(生命技术公司，部件号4468802)和/或Bioanalyzer^TM(安捷伦技术公司(AgilentTechnologies)，Agilent2100生物分析仪)定量，以测定扩增子文库的摩尔浓度，由其计算模板稀释系数。举例来说，可在Ion文库定量试剂盒使用者指导(生命技术公司，部件号4468986)中发现通过定量实时PCR(qPCR)测定模板稀释系数的说明书，其以全文引用的方式并入本文中。

在此实例中，在2100Bioanalyzer^TM上用Agilent高敏感DNA试剂盒(安捷伦技术公司，部件号5067-4626)分析1微升最终扩增子文库制备物，以产生大小在135-205bp范围内且浓度为每微升约5×10⁹个拷贝的峰值。

继续进行到模板制备

最终文库的等分试样用于制备DNA模板，所述DNA模板在IonSphere^TM粒子上使用乳液PCR(emPCR)以克隆的方式扩增。本发明实例中的模板的制备根据制造商的说明书使用IonXpress模板试剂盒(生命技术公司，部件号4466457)制备，所述说明书以全文引用的方式并入本文中。一旦模板阳性IonSphere粒子被富集，就如Ion测序使用者指导(部件号4467391，其全文并在本文中)中所述将IonSpheres的等分试样装载到Ion314^TM芯片(生命技术公司，部件号4462923)上，且如IonTorrentPGM测序仪使用者指导(生命技术公司，部件号4462917，其全文并在本文中)中所述经历分析和测序。

实例4：鉴别与临床结果相关的基因事件的OncomineNGS整合分析方法

OncomineNGS整合分析经设计以使得最大可能的核心NGS数据集在一起，从而启用询问数据类型和疾病间的关系的科学工作流，在多个抽象生物学层面(如基因和路径)下概述所述分析。

数据来源(Oncomine可从生命技术公司/肯潘迪亚生物科学公司(CompendiaBiosciences)-密歇根州安娜堡(AnnArbor，Michigan)和超文本传输协议：//www.oncomine.org获得)

整合分析的数据从以下来源获取：

融合体：Oncomine驱动基因融合体

突变：Oncomine泛癌症驱动基因突变

CNV：由Oncomine处理的拷贝数数据获得的峰值扩增和缺失数据

DNA：Oncomine处理的DNA序列(DNA-seq)连续数据

RNA：归一化的基因层面RNA序列(RNAseq)连续数据

临床：Oncomine管理的临床和结果元数据

路径：Oncomine路径定义

融合体数据和过滤

用于整合分析的融合体数据从OncomineNGS融合体数据获得。Oncomine优先级排序的融合体是在肯潘迪亚公司开发的优先级流程，其用于捕获已知真阳性融合体事件的属性且将所观察到的基因融合体的子集表征为高置信度优先级融合体。用于定义优先级融合体的准则包括：有效的5′到3′定向、非邻近融合体搭配物、独特映射跨越读段、非平行同源融合体搭配物、在正常组织中观察不到、以及不与基因组中的冗余区域重叠。

如果融合体通过deFuse或Tophat调用，具有“支持的”或“中立的”的外显子表达证据且满足以下4个准则中的一者，那么将所述融合体包括在内且视为驱动基因融合体：

Oncomine优先级排序的融合体+再现的

Oncomine优先级排序的融合体+Mitelman注释的

Oncomine优先级排序的融合体+一种搭配物是涉及3种或更多种泛疾病优先级融合体的Oncomine获得功能的基因

Oncomine优先级排序的融合体+一种搭配物是涉及3种或更多种泛疾病优先级融合体的桑格致癌基因(http：//goo.gl/JQBw9)

突变数据和过滤

用于整合分析的突变数据从OncomineNGS突变数据获得。将个别基因归类到所预测的功能类别中，即“获得功能”和“失去功能”，以反映其在潜在活化或有害突变中的相对富集。此分类是基于在通过p值评估的基因中观察到的突变的相对频率和显著性的组合。“获得功能”基因将具有相对较高的热点错义突变频率和较低的有害突变频率，而“失去功能”基因含有较大部分的有害突变。

拷贝数区段化和定量

每一TCGA样品的DNA拷贝数数据从Oncomine获得。将单一基因的多个报告基因的测量值平均化。

最小共有区域(MCR)峰值生成

在复现性扩增(4个或更多个拷贝)或缺失(1个或更少的拷贝)的基因中，在25种癌症类型中通过对Oncomine临床样品应用MCR分析来独立地鉴别峰值。为了定义峰值，首先鉴别多个基因显著异常的连续基因组区域(共有区域)。在每一共有区域中，峰值被定义为异常样品计数满足或超出峰值阈值的一种或多种基因。在每种癌症中，共有区域被定义为异常样品计数满足或超出共有区域阈值的区域。计算每种癌症中的每一染色体的每一臂的所有基因中观察到的异常样品的基线平均数。

mRNA基因表达

表达数据从博德GDAC的TCGA标准数据获得。

临床数据管理

患者临床数据从TCGA获得且由肯潘迪亚公司管理。管理的数据类型包括人口统计资料、主要临床和组织学疾病亚型以及临床结果数据。将所有特性标准化以在各疾病中一致。

临床上相关的子集的构筑

使用从TCGA获得的经管理的临床数据和OncomineNGS数据，且应用表14中的规则以定义临床子集：

表14-定义临床子集的规则

路径

人工管理的肯潘迪亚公司路径定义用于概述整合分析中的基因层面畸变。所述路径代表临床上相关的路径模块，且数个模块可覆盖主要生物学路径，且单一基因可存在于一个或多个路径模块定义中。

数据整合

图3中的图式概述将各种数据类型整合到基因事件数据库(GeneticEventDatabase，GEDB)中的数据流。所有进一步分析均使用GEDB进行。所述方法具有4个主要步骤。

将数据映射到内部IA基因和患者维度

定义每一数据类型中的事件和驱动基因事件

将个别事件上卷到基因和路径层面

将事件合并到基因事件数据库中。

基因和患者维度

构筑涵盖在所有疾病和数据类型中测量的所有患者和基因的单一基因和患者维度。给予基因和患者内部识别符，且IA中的所有数据相对于这些识别符参考以实现基因名称和患者条形码一致性。一种基因的唯一识别符是所述基因的EntrezID。一个患者的唯一识别符是TCGA患者条形码(TCGA条形码的前12个数位)。

驱动基因事件定义

突变、融合体和拷贝数事件基于基因组学事件的以下准则定义：

融合体：Oncomine再现的优先级融合体

突变：来自泛癌症驱动基因的Oncomine驱动基因突变

CNV：CBI鉴别的峰值和峰值内的基因扩增/缺失

基因事件定义和上卷

基因事件是基因组学畸变，代表个别突变、融合体或拷贝数事件、或在基因或路径层面下的事件的组合。所述事件根据图4中展示的流程图‘上卷’。当组合多个事件以构筑上卷事件时，所述上卷事件的所测量的患者组变为针对所有3种数据类型测量的患者的相交点。患者阳性仅在被完全测量时才包括在内。

分析

一旦构筑所有驱动基因事件，就对每一基因事件执行一组分析，计算疾病(且适当时为泛癌症)内的频率、相关性和关系。以下为每一分析的简短描述：

频率

频率是驱动基因事件在被测量所述驱动基因事件的患者当中的出现率。计算疾病和泛癌症内的频率。

临床相关性分析

测试每一驱动基因事件相对于一组可获得的临床亚型的相关性。通过比较一种临床亚型对比另一种临床亚型的患者中的基因事件的出现率，使用费舍尔精确检验对每一相关性进行测试。举例来说，可在吸烟者对比非吸烟者中、或在I期对比II期肺癌中测试功能缺失突变的过度表达。针对每一事件测试总共136个亚型对，下文列出定义所述亚型的特性(一些特性可为疾病特有的)。需要总共至少4个患者(且每种类别中至少1个患者)来执行测试。

临床结果分析

使用对数秩检验对每一驱动基因事件与临床结果的相关性进行测试。仅具有可用的临床数据的患者组才用于计算，故包括于测试中的患者数量可能少于针对驱动基因事件测量的患者数量。需要至少4个对驱动基因事件阳性的患者来执行所述测试。存活时间以年呈现，且个别存活/死亡事件清楚地标记在卡普兰-迈耶曲线(Kaplan-Meiercurve)上。校正多个测试的p值(q值)。考虑q值小于0.1的事件。

分析的结果展示在表15和39中。在表15和39中，各栏提供以下信息：

“子集”栏提供临床上相关的癌症类型。

p值栏是p值。

q值栏是经校正的p值。q＜0.1的事件包括于表中。

阳性数量栏是对一种事件类型阳性的患者数量。

患者总数量栏是所评估的患者总数。

Cytoband栏是基因的染色体位置。

基因(EntrezID)栏是基因和对应Entrezid的列表。

可药化基因栏指示任何基因是否为处于活性试验、已批准或以其他方式市售的药物的目标。

KM证据栏提供卡普兰-迈耶证据。KM证据指示所述事件类型是否支持特定癌症类型中的良好或较差的预后。

表15和39含有q＜0.1的各种癌症类型的超过100个获得功能的突变、失去功能的突变、峰内基因扩增/缺失和融合体事件。每一事件和癌症类型内的基因与其染色体位置、可药化性信息和临床结果相关性一起包括在内，如上述栏信息中所指示。

实例5-整合的数据分析

OncomineNGS整合的分析.OncomineNGS整合分析经设计以使得最大可能的核心整合的基因组学和phenomic数据集在一起，从而启用询问数据类型和疾病间的关系的科学工作流，在多个抽象生物学层面(如基因和路径)下概述所述分析。

术语：

畸变-DNA的基因组学结构变异或变化；实例包括：mRNA过度表达/表达不足、拷贝数扩增/缺失、突变和基因融合体。

驱动基因-通过本文档中描述的Oncomine方法鉴别为潜在癌症驱动基因的畸变；实例包括获得功能的突变、峰值扩增区域中的基因扩增、或基因融合体。

上卷-基因或路径的所有突变、融合体或拷贝数畸变的的概述；仅针对所有三种畸变类型测量的患者包括于所述上卷中。

热点突变-再现的(n≥3)且归类为框内插入/缺失、无终止或错义的突变。

患者空组-针对一种基因畸变测量的患者组

患者阳性组-含有基因畸变的患者组

基因空组-通过用于评估基因畸变的实验平台测量的基因组

Mitelman-从文献中人工管理的癌症中的染色体畸变和基因融合体的数据库(超文本传输协议：//goo.gl/PnXMT)

RPKM-“每百万每千碱基读段”；用于将测序读段的总读段长度和数量归一化的RNASeq数据定量的方法(莫塔扎维(Mortazavi)等人2008)

RSEM-“通过期望最大化的RNA-Seq”用于估计预期的转录物之间的读段的最佳可能的分布的RNASeq数据定量的方法提供相对转录物丰度作为总读段池的一部分(李(Li)和杜威(Dewey)2011)

数据来源.努力收集可用于每一样品的数据的最大重叠组。NGS整合分析浏览器的此版本中的数据从癌症基因组图谱(TCGA)、癌细胞系百科全书(CancerCellLineEncyclopedia，CCLE)、COSMIC细胞系项目和许多研究出版物直接或在经历Oncomine处理和分析方法之后获得。由于来源数据集中所有数据类型的不均匀覆盖率，一些癌症类型具有多种数据类型中覆盖的更多的患者数量。

用于整合分析的OncomineNGS突变版本含有从同行审查的出版物中的NGS突变研究获得的许多人工管理的数据集。关于为整合分析贡献突变数据的出版物的完整列表，请参见OncomineNGS突变方法资料。以下数据集含有多维度NGS数据，提供突变和拷贝数数据两者。这些数据集的拷贝数数据以与从TCGA获得的拷贝数数据相同的方式处理。

细胞系数据包括突变、融合体和拷贝数数据集。细胞系数据以与临床肿瘤数据相同的方式处理，且突变和融合体细胞系数据分别从Oncomine^TMNGS突变和Oncomine^TMNGS融合体动力工具获得。细胞系的拷贝数数据使用标准Oncomine拷贝数流水线处理。尽管使用两种迥然不同的细胞系数据集CCLE和COSMIC，但我们对细胞系疾病类型和名称的标准化已使得我们能够交叉参考两个数据集且合并CCLE拷贝数数据、COSMIC突变数据和Oncomine融合体调用(基于CCLERNASeq数据)。因此，此版本中的许多细胞系的外显子组已针对所有三种类型的畸变进行系统地表征。细胞系数据使用将与肿瘤数据直接可比的Oncomine癌症类型定义概述，不过分别针对肿瘤和细胞系执行概述。

Phenomic数据

临床患者元数据管理.患者临床数据从原始来源获得且由肯潘迪亚公司管理。管理的数据类型包括人口统计资料、主要临床和组织学疾病亚型以及临床结果数据。将所有癌症类型无关的特性(如年龄或存活率)标准化以实现癌症类型中的一致性。合并某些疾病分期以获得一个分期内的较高患者计数。举例来说，Ia期和Ib期可组合为经修改的I期。

以下是通过管理方法捕获的人口最稠密的特性和对应值的列表。不是所有特性都是可用于所有患者的。

前缀为“TCGA”的特性是由定义侵袭性乳癌、成胶质细胞瘤、鳞状细胞肺癌和结肠直肠癌的分子亚型的TCGA出版物获得和管理的。

基因组学事件数据：融合体数据过滤.整合分析浏览器的融合体数据从2013年11月发行的OncomineNGS融合体数据获得。仅将鉴别为Oncomine优先级融合体的融合体包括于整合分析浏览器中。

Oncomine优先级排序的融合体是在肯潘迪亚公司开发的优先级流程，其用于捕获已知真阳性融合体事件的属性且将所观察到的基因融合体的子集表征为高置信度优先级融合体。用于定义优先级融合体的准则包括：有效的5′到3′定向、非邻近融合体搭配物、独特映射跨越读段、非平行同源融合体搭配物、在正常组织中观察不到、以及不与基因组中的冗余区域重叠。

融合体数据的患者空组是在融合体分析中处理的完整的患者肿瘤样品组；每个患者仅保留一个肿瘤样品(优选地，原发性、非复发性肿瘤)的数据。基因空组是到2012年5月为止的RefGene中的基因组。如果融合体是Oncomine优先级融合体，具有“支持的”或“中立的”的外显子表达证据且满足以下准则中的一者，那么将所述融合体包括在整合分析浏览器中：

再现(在2个或更多个患者中出现)

在已知结构变异的Mitelman数据库中注释

含有作为涉及3种或更多种泛疾病优先级融合体的Oncomine获得功能基因的基因搭配物

含有作为涉及3种或更多种泛疾病优先级融合体的桑格致癌基因(超文本传输协议：//goo.gl/JQBw9)的基因搭配物。

突变数据过滤.整合分析的突变数据从2013年11月发行的OncomineNGS突变数据获得。仅将编码基因区域中的非沉默突变包括于整合分析浏览器中。

患者空组是突变分析中处理的完整患者组；每个患者仅保留一个肿瘤样品(优选地，原发性、非复发性肿瘤)的数据。基因空组是到2012年3月为止的RefGene中的基因组。

具有以下变异体分类的突变不包括于整合分析浏览器中：沉默、5′UTR、3′UTR、RNA、非编码外显子。

调用扩增/缺失.每一样品的DNA拷贝数数据从2013Q4Oncomine标准数据构建获得，其中将可从TCGA和到2013年10月为止的人工管理的出版物获得的所有拷贝数数据标准化。

此分析的患者空组为到2013年10月为止针对拷贝数数据测量的患者组以及在人工管理的出版物中测量的患者组。每个患者仅保留一个肿瘤样品(优选地，原发性、非复发性肿瘤)的数据。此数据的基因空组为OncomineDNA拷贝数平台，基于由UCSCRefGene构建2009年7月提供的RefSeq座标(hg18)，且测量18,796个基因。将单一基因的多个报告基因的测量值平均化。

估计的拷贝值的log₂用于进行扩增/缺失(amp/del)调用，且截断值分别为＞1.0和＜-1.0。没有amp/del调用作出≥-1.0或≤+1.0的log₂(估计的拷贝)。

基因组学连续数据：拷贝数区段化和定量.每一样品的DNA拷贝数数据从2013Q4Oncomine标准数据构建获得，其中将到2013年9月为止可从TCGA获得的所有拷贝数数据以及来自人工管理的出版物的所有拷贝数数据标准化。

此分析的患者空组为到2013年10月为止针对拷贝数数据测量的TCGA患者组以及在人工管理的出版物中测量的患者组。每个患者仅保留一个肿瘤样品(优选地，原发性、非复发性肿瘤)的数据。此数据的基因空组为OncomineDNA拷贝数平台，基于由UCSCRefGene构建2009年7月提供的RefSeq座标(hg18)，且测量18,796个基因。将单一基因的多个报告基因的测量值平均化。

拷贝数数据使用标准Oncomine处理流水线区段化且定量。区段化是一种用于鉴别扩增或缺失的连续区域的方法。这些区域或“区段”可以包括多个基因或单个基因。基于含于区段中的报告基因的平均值，计算每个区段的拷贝数值。基因被映射到区段且分配一个值。接着报导此基因层面数据。更多信息请参见OncomineDNA处理流水线白皮书(OncomineDNAProcessingPipelineWhitePaper)。

mRNA表达数据.表达数据从来自2013年9月的博德GDAC的TCGA标准数据构建获得。

此数据的患者空组是在博德GDAC2013_08_09stddatabuild中具有可用的RNASeq数据的患者组；每患者仅保留一个肿瘤样品(优选地，原发性、非复发性肿瘤)的数据。此数据的基因空组根据疾病不同且对应于用于RNASeq定量的TCGA基因注释文件(GeneAnnotationFile，GAF)。

TCGA目前采用两种RNASeq定量方法V1(RPKM)和V2(RSEM)，其在数值上不是直接可比的。为了避免可能不精确的数值转换，我们以每种疾病为基础使用来自单一定量方法的数据，基于最大覆盖率选择格式。符合TCGA使用RSEM(V2)处理(和再处理)所有可用的RNASeq数据的努力，RSEM(V2)数据可用于大部分样品。例外是胃腺癌，其中使用RPKM(V1)数据。获得RSEM和RPKM两者的归一化的基因层面定量值，且将其转换成log₂值(将最小非零RPKM或RSEM值设定在-12)。如果基因的log₂值＞-12，那么所述基因被认为是表达的。

Oncomine驱动基因参考数据：最小共有区域(MCR)峰值生成和基因选择.为了鉴别经历扩增和缺失的癌症驱动基因，执行峰值簇聚方法以选择在多个癌症类型中经常异常的基因。定义许多癌症类型内的最大可用的拷贝数数据集(即，超出其的数据包括于整合分析中)中的第一拷贝数峰值。接着，将由峰值定义的基因列表聚集，以便鉴别在多个样品和多种疾病中的拷贝数峰值中出现的基因。下文更详细地描述部分方法。

畸变可归类为“驱动基因”畸变，或根据数据类型特有的Oncomine分类方法中的一者考虑为可能令人感兴趣的畸变。驱动基因畸变将作为与其他畸变(非驱动基因畸变被称为“任何”)无关的事件捕获。举例来说，具有“驱动基因”突变的患者将是两种畸变(“驱动基因”突变和“任何”突变)阳性的。所测量的数据类型中的每一者具有一组确定驱动基因事件的规则。

经历扩增或缺失的一组连续基因组区域使用OncomineMCR分析通过将其应用于分组到25种癌症中的Oncomine的10,249个临床样品来鉴别。

峰值定义的患者空组为来自Oncomine的10,249个临床样品(参见下表)。此数据的基因空组为OncomineDNA拷贝数平台，基于由UCSCrefGene构建2009年7月提供的RefSeq座标(hg18)，且测量18,796个基因。

最小共有区域(MCR)分析的数据来源于跨越不同癌症类型的含有＞20,000个临床样本、异种移植物和细胞系的OncomineDNA拷贝数浏览器。MCR分析通过分析以下三个层面下的数据来鉴别再现的拷贝数扩增或缺失的区域：泛癌症(在所有癌症类型中)、普通癌症类型(在多个癌症类型中)和中期癌症类型或特定癌症亚型。简单来说，所述方法首先计算被定义为在2个或更多个样品中扩增或缺失的连续基因组区域的共有区域(CR)。将扩增和缺失的最小阈值分别设定为log2≥0.9(3.7个拷贝或更多个)和log2≤-0.9(1个拷贝或更少)。接着，将这些共有区域内的峰值区域定义为(i)在最高数量样品(n)中异常的一种或多种基因以及在比最高数量小一的样品(n-1)中异常的一种或多种基因以及(ii)在90％的最高异常样品计数中异常的基因。

鉴别共有峰值区域的聚类分析.执行MCR分析。使用下表中列出的准则在三种分析类型(即，泛癌症、普通癌症类型和特定癌症类型分析)中进一步过滤通过MCR分析鉴别的峰值区域。应注意，仅包括所选数量(约40)的中期或特定癌症类型(下文也进一步列出)。

鉴别来自MCR分析的高度扩增/缺失区域的过滤准则：

包括于上文描述的过滤准则中的所选择的中期或特定癌症类型：

接着，为了鉴别跨越多种癌症类型的再现最多的峰值区域和基因，我们使用Cytoscape2.8.3[马克尔(Markiel)等人2003；斯姆特(Smoot)等人2001]以构建网络簇。简单来说，所述分析比较给定峰值区域中的每一基因与其他峰值区域中的基因，且使峰值与至少一个共有基因聚类。接着，将每一簇内再现最多的扩增或缺失的基因视为潜在的候选驱动基因。所述方法概述在下文示意图中：

临床上相关的癌症亚型的鉴别和形成.为了提供患者子集以用于更集中的分析，使用临床表型和类别基因组数据的组合鉴别和管理数种临床上相关的癌症亚型。表型数据来源于TCGA网络门户(TCGAWebPortal)或人工管理的出版物的补充方法。

应用以下规则以定义临床子集：

路径.人工管理的肯潘迪亚公司路径定义用于概述整合分析浏览器中的基因层面畸变。所述路径代表临床上相关的路径模块，且数种模块可覆盖主要生物学路径。单一基因可存在于一个或多个路径定义中，但需小心地消除基本上冗余的路径，所述路径中一个模块是另一个模块的完全子集。存在总共67个路径，大小在42个基因(例如MAPK路径)到2个基因(例如IGF1/IGF1R和数个其他路径)范围内。

数据整合.此部分概述了数据流，所述数据流将原始数据整合到共有的患者和基因维度上且构筑包含将经受整合分析的所有畸变的基因事件数据库(GEDB)。所述方法具有4个主要步骤：(1)使用通用基因和患者维度整合原始数据；(2)调用每一数据类型的畸变事件且定义驱动基因畸变；(3)将个别事件上卷到基因和路径层面且整合事件；以及(4)通过定义每一事件的患者状态来构筑基因事件数据库。

构筑且映射到基因和患者维度.可能已在不同实验平台上且对不完全重叠的患者组测量整合分析中所包括的变化的数据类型。因此，小心地包括所测量的所有患者和基因，同时避免一式两份或冲突的条目。

对于每一数据类型，构筑基因和患者“维度”，枚举数据中测量的基因和患者。每一数据类型的维度可能不同，如通过以下患者维度重叠图式所指示(数量仅用于说明)，在这种情况下，对于侵袭性乳癌而言。

从每一癌症和数据类型收集基因和患者维度，且在整合分析中构筑所有患者和基因识别符的非冗余超集。下文图中的条柱代表针对某些畸变类型测量的患者的患者识别符(如果是通过所述识别符分选的的)的数据块。

患者的冗余基于独特患者识别符(目前为TCGA肿瘤样品条形码的前12个字符(例如TCGA-AB-1234))确定。

基因的冗余基于独特基因识别符(目前为EntrezGeneID)确定。基因还相对于Oncomine基因组比较，且当发现基因符号冲突(一个EntrezID分配两个或更多个基因符号)时，使用来自Oncomine的基因符号。数种(12种)所测量基因含有已停止的EntrezID，且因此可能不代表最准确的基因模型。这些基因的基因符号标记有词语“停止”。

一旦构筑，就将非冗余基因和患者维度编索引以在数据集中为每一基因和患者提供一致的内部识别符。接着，将原始数据中的所有独特患者和基因识别符映射到维度患者和基因识别符。因此，基因和患者元数据(如基因符号和患者临床数据)总是经由对应的维度映射，提供命名和注释方面的一致性。整合分析中的独特基因和患者的总数如下：

患者维度与患者的数据集特有的映射一起有助于正确鉴别完全野生型患者(测量了所有畸变类型但并不含有任何畸变的患者)。

患者可因此测量任何数量的畸变，且可仅对于所测量的那些事件是异常的。为了确定分析类型测量患者畸变，所述患者将包括于以下各者中：

*“针对临床测量”指示为患者呈现临床元数据。

事件模型.将来自突变、融合体和拷贝数数据集的每一基因组学畸变鉴别为畸变事件(用于定义将经历各种预定义整合分析的相关事件的术语)。每一畸变是三个宽广层面事件(数据类型特有的事件、基因特有的但数据类型无关的事件以及路径特有的但基因或数据类型无关的事件)的一部分。后两个层面被视为“上卷”事件。

下文描述畸变事件定义的特有规则以及“层面”和“驱动基因”流程。

突变事件调用程序.Oncomine泛癌症突变分类：如果突变是：再现的(在3个或更多个样品中在相同的氨基酸位置处出现)且经以下变异体分类中的一者注释：框内插入/缺失、无终止错义，那么将所述归类为“热点”。如果突变是：不再现的且经以下变异体分类中的一者注释：框移插入/缺失、无义，那么所述突变被归类为“有害”。再现性在所分析的所有癌症类型作为OncomineNGS突变浏览器的一部分测量。

Oncomine泛癌症基因分类.作为OncomineNGS突变浏览器流水线的一部分，将个别基因归类到所预测的功能类别中，即“获得功能”和“失去功能”，以反映其在潜在活化或有害突变中的相对富集。此分类是基于在通过p值评估的基因中观察到的突变的相对频率和显著性的组合。“获得功能”基因将具有相对较高频率的热点(在3个或更多个样品中再现的)错义突变和较低频率的有害突变，而“失去功能”基因含有较大部分的有害突变。泛癌症基因分类是基于在所有癌症类型中观察到的突变。

突变畸变事件.对于每一患者基因突变(如由突变数据过滤部分所定义)，将形成一个或两个突变事件，取决于所述突变是否归类为驱动基因畸变。驱动基因突变畸变被定义为存在于“获得功能”基因中的“热点”突变、或存在于“失去功能”基因中的“热点”或“有害”突变。对于驱动基因突变，形成驱动基因事件和任何事件两者。对于非驱动基因突变，仅形成一个任何事件。将泛癌症突变和基因分类用于所有分析子集；因此，基因分类可能有时在整合分析与OncomineNGS突变浏览器之间不同。

下表给出可针对每一基因形成的突变事件的描述和实例：

融合体事件调用程序.仅Oncomine优先级融合体包括于整合分析中。在优先级融合体中，驱动基因融合体被定义为通过Mitelman数据库标记已知致癌基因的融合体、或不具有充分外显子表达数据且再现的融合体、或具有外显子表达数据和两种基因搭配物的外显子表达不平衡的显著p值的融合体(关于外显子不平衡分类的细节参见OncomineNGS融合体方法资料)。对于每一基因，将针对基因搭配物的每一独特观察到的5′-3′组合形成一个事件。举例来说，对于PML-RARA平衡易位，观察到两种同工型，且因此将分别针对PML-RARA和RARA-PML调用两个融合体事件。

拷贝数事件调用程序.所调用的每一扩增/缺失(参见调用扩增/缺失)被定义为异常基因的任何事件。如果扩增/缺失出现在某一癌症类型中的作为峰值定义(参见MCR峰值生成)的一部分的基因中，那么还形成所述基因的驱动基因扩增缺失事件。因此，拷贝数事件的驱动基因定义是癌症类型特有的。

以下为可针对基因扩增或缺失调用的拷贝数畸变事件：

基因事件上卷.驱动基因和任何事件均“上卷”到基因层面和路径层面事件以捕获数据类型无关的畸变统计和相关性。举例来说，可能令人感兴趣的是看到肿瘤抑制基因中的任何畸变与临床结果的相关性，而不仅仅是有害突变的相关性。

针对具有任何数据类型的至少一个畸变的每一基因形成基因层面畸变事件。针对其中组分基因中的至少一者具有任何数据类型的畸变的每一路径形成路径层面畸变事件。驱动基因和任何畸变独立地上卷到基因层面或路径层面驱动基因或任何事件中。以下图式展示各种畸变事件类型之间的层级关系。

患者事件状态.患者可测量任何数量的畸变，但可仅对于所测量的那些事件是异常的。因此，将每一事件层面畸变的患者状态记录为异常、野生型或不经测量的。

当基因层面和路径层面事件经定义时，仅将测量了所有3种基因数据类型(突变、融合体和拷贝数)的患者针对所述事件标记为“异常”或“野生型”。此假设具有与数据类型特有的事件层面畸变相比可能减少针对基因或路径层面畸变概述的患者数量的作用。如果患者的事件层面畸变类型(融合体、突变、扩增或缺失)中的至少一者异常，那么将所述患者视为基因层面事件异常。如果患者在作为路径定义的一部分的至少一种基因中具有畸变，那么将所述患者视为路径层面事件异常。在每一种情况下，患者必须已测量所有事件类型。

在获得功能和融合体的情况下，畸变频率是约50％。对于驱动基因畸变事件，畸变频率也是约50％，但仅一半的患者包括于频率的分子和分母中。

分析.一旦构筑了所有驱动基因基因事件，就对每一基因事件执行一组分析，计算癌症类型、临床上相关亚型之内和癌症类型之间(泛癌症)的频率、相关性和关系。以下为每一分析的简短描述，包括使用何种数据以及对报导的结果放置何种限制(如果有的话)：频率、表达的频率、共同出现率和相互排他性、临床相关性分析等。

频率.频率是畸变在被测量所述畸变的患者之间的出现率。计算在癌症类型、临床上相关癌症亚型和泛癌症内的频率。报导具有至少一个异常患者的所有事件。

表达的频率.表达的频率是基因在事件阳性患者当中表达的频率。对于每一事件，基因的表达水平用于确认表达的频率。计算在癌症类型和临床上相关癌症亚型但非泛癌症内的频率。

共同出现率和相互排他性.使用费舍尔精确检验计算每对事件的共同出现率和相互排他性。需要至少2个对每一事件阳性的患者和5个测量全部事件的患者用于计算。两个个别拷贝数缺失或扩增事件的共同出现率或排他性未经计算。此外，并未计算具有“任何”驱动基因状态的事件对之间的共同出现率和相互排他性(即，仅比较驱动基因对比驱动基因和驱动基因对比任何)。计算在癌症类型和临床上相关癌症亚型但非泛癌症内的相关性。

临床相关性分析.测试每一驱动基因事件相对于一组可获得的临床亚型的相关性。通过比较一种临床亚型对比另一种临床亚型的患者中的基因事件的出现率，使用费舍尔精确检验对每一相关性进行测试。举例来说，可在吸烟者对比非吸烟者中、或在I期对比II期肺癌中测试功能缺失突变的过度表达。针对每一事件测试总共136个亚型对，且下文列出定义所述亚型的特性(一些特性可为疾病特有的)。需要总共至少4个患者(且每种类别中至少1个患者)来执行测试。计算在癌症类型、临床上相关癌症亚型和泛癌症内的相关性。

临床亚型特性名称：

人种/种族

经修改的吸烟状态

ERBB2状态

雌激素受体状态

孕酮受体状态

TCGAPAM50亚型

BRAF突变状态

经修改的T期

经修改的N期

经修改的M期

经修改的分期

KRAS突变状态

EGFR扩增状态

TCGA亚型

微卫星状态

人乳头瘤病毒感染状态

临床结果分析.使用对数秩检验对每一事件与临床结果的相关性进行测试。仅具有可用的临床数据的患者组才用于计算，故包括于测试中的患者数量可能少于针对驱动基因事件测量的患者数量。需要至少4个对事件异常的患者来执行所述测试。存活时间以年呈现，且个别存活/死亡事件清楚地标记在卡普兰-迈耶曲线上。计算在癌症类型和临床上相关癌症亚型但非泛癌症内的相关性。

DNA-RNA相关性分析.对于每一基因，使用皮尔森氏相关性(Pearson′scorrelation)针对测量疾病的这些数据类型的所有患者当中的相关性测试RNA表达和DNA拷贝数值。计算在癌症类型和临床上相关癌症亚型但非泛癌症内的相关性。

差异表达分析.对于每一事件，使用斯图登氏T检验(Student′sT-Test)针对事件阳性患者对比事件阴性患者中的差异表达测试与事件相关的每一基因。对于涉及数种基因的事件，如融合体，测试每一基因。计算在癌症类型和临床上相关癌症亚型但非泛癌症内的差异表达。

实例5：其他融合体方法

临床数据来源.用于基因融合体分析的所有RNASeq数据均从癌症基因组学中心(CGHub，当前的TCGA基因组数据的存储库-https：//cghub.ucsc.edu/)中获得。

细胞系数据来源.用于基因融合体分析的所有CCLERNASeq数据均从癌症基因组学中心(CGHub，当前的CCLENGS数据的存储库-https：//cghub.ucsc.edu/)中获得。

BAM到FASTQ转换.到融合体调用程序中的输入由呈FASTQ格式的RNASeq读段组成，其需要将由TCGA提供的BAM文件转换成一个或两个FASTQ文件以(分别)用于单端或双端数据。

BAM文件在出处和处理方面变化，且许多需要特殊处理。举例来说，由UNC提供的较早的BAM文件使用BWA(巴罗斯-惠勒对准器(Burrows-WheelerAligner))对准，而含有读段的较新BAM通过MapSplice对齐。TCGA近来更新了RNASeq流水线以支持替代基因表达报导。(之前的流水线依赖于基因表达的RPKM测量值，而后者使用RSEM。)这些不同的RNASeq分析流水线由UNC分别提及为V1和V2(https：//wiki.nci.nih.gov/display/TCGA/RNASeq+Version+2)。当两种格式均可用于同一TCGA样品时，我们使用以下BAM优先级排序流水线来选择单一“原始BAM”：1)相对于V1BAM选择V2BAM；和2)当呈现相同情况的多个文件时，选择上传日期较新的BAM。

上文描述的定制SamToFastq转换器用于从TCGABAM文件生成FASTQ文件。

有2种癌症类型(COADREAD和UCEC)仅以单端RNASeq数据形式可用。对于单端BAM文件转换，使用程序BamTools(安全超文本传输协改：//github.com/pezmaster31/bamtools)来生成FASTQ文件。

在支持单端和双端数据两者的目标下，我们使用TopHat处理所有单端数据，且使用deFuse处理所有双端数据。

广泛地，我们的分析流水线由5个主要步骤组成：

预处理原始数据以获得FASTQ文件

运行融合体调用程序

过滤断裂点到相关基因区域

用Oncomine转录物组注释断裂点

对可能令人感兴趣的新颖融合体进行概述并区分优先级

基于高性能云端计算簇对所有样品平行执行步骤1和2。对聚集的数据进行过滤和注释作为后处理步骤，以启用各种过滤和注释流程的作用的探索性分析。在完成过滤准则以使假阳性融合体减到最少(步骤5)之后，Oncomine优先级排序融合体的列表用RNASeq外显子表达数据验证。

TopHat.TopHat-Fusion从作者超文本传输协议：//tophat.cbcb.umd.edu中获得。软件和参考数据相依性如由TopHat资料所规定配置：

软件：

TopHat：2.0.4，包括TopHat-FusionPost(04/09/2012发行)

bowtie：0.12.8(05/06/2012发行)

samtools：0.1.18(09/02/2011发行)

blast(2.2.26)(03/03/2012发行)

blast+(2.2.26)(10/21/11发行)

参考和注释：

参考基因组：UCSChg19(2012年5月下载)

基因模型：refGene、ensGene(2012年5月下载)

BLASTDB：nt、人类、其他(2012年5月下载)

参数：

我们用基本上默认的参数如TopHat资料中所规定的对单端和双端TCGAIllumina数据运行TopHat。以下是所用参数的列表。

表25

--mate-inner-dist和--mate-std-dev参数不具有默认值。第一参数规定RNASeq双端读段的预期插入大小，而第二参数规定所述值的预期标准偏差。TopHat作者为大部分数据集推荐0和80的值。

表26

对一个样品同时执行TopHat-融合体，紧接着执行TopHat-FusionPost。我们保留未过滤的TopHat-Fusion输出和过滤的TopHat-FusionPost输出两者以启用更深的分析。

deFuse.deFuse从作者：超文本传输协议：//defuse.sf.net获得。软件和参考数据相依性如由deFuse资料所规定配置：

软件：

deFuse：0.5.0(04/07/2012发行)

bowtie：0.12.8(05/06/2012发行)

R2.15.0(03/30/2012发行)

blat、faToTwoBit(05/01/2012获得)

参考和注释：

参考基因组：EnsemblGRCh37.62fa(2012年5月下载)

基因模型：Ensemblgtf(2012年5月下载)

基因组数据：

UCSCESTfasta、EST比对和重复序列(2012年5月下载)

NCBIUniGene(2012年5月下载)

参数：

我们用默认参数如deFuse程序资料中所规定运行deFuse。

表27

同时对一个样品执行deFuse。我们保持deFuse输出的过滤和未过滤的结果两者以启用更深的分析。

整合.我们整合“层面I”数据，来自TopHat-FusionPost的potential_fusion.txt文件的输出和来自deFuse的results.classify.tsv文件的输出。deFuse报导了与TopHat相比在此层面下许多更潜在的调用，且因此还可报导更多假阳性预测。选择层面I数据以在利用调用程序的内置过滤和允许遍及足够的结果之间力求平衡以鉴别具有稍微较弱证据的可能的真正融合体。

由于每一调用程序为融合体调用提供不同层面的注释和支持证据，提取来自两种调用程序的所预测的融合体的断裂点，且将其整合成常见格式以便过滤和注释。整合步骤由以下组成：将所报导的断裂点转化成基于基因组学坐标系的断裂点且合并成常见文件格式。

断裂点过滤.过滤来自调用程序的“层面I”输出的所预测的融合体，仅保留其中每一断裂点是在RefSeq转录物的5′UTR或CDS区中的那些调用(refGene大约于2012年7月18日，从UCSC获得)。如此进行以为含有功能基因区域的那些富集所预测的融合体，滤除例如其中一种基因的3′UTR被预测为与另一种基因的3′UTR融合的融合体调用。尽管在基因组DNA层面，断裂点可能出现在内含子中，但在RNASeq数据中，在最接近的外显子-内含子边界处将观察到所述断裂点。因此，还排除被预测会出现在内含子序列中的断裂点。

断裂点注释.在排除在RefSeq转录物的5′UTR或CDS区域外的融合体之后，将来自RefSeq转录物的注释转移到具有相对于多个EntrezID注释的一些预测的剩余断裂点。

对于每对断裂点，每个EntrezID仅保留一个转录物。在多个转录物的情况下，选择具有最短转录物登录号的转录物；通过以字母数字方式分选登录号且保留第一个登录号来打破进一步联系。这个流程确保了在相同位置处的注释断裂点中的一致性。然而，相同基因搭配物的不同位置处的所预测的断裂点仍可产生多个代表一对基因的转录物，这是替代转录物的可能的证据。

丢弃来自调用程序自身的基本注释，因为其是基于每一对应的调用程序的默认注释来源。然而，保留TopHat和deFuse两者的某些输出字段以帮助对所预测的融合体进行优先级排序。另外，从其他调用程序特性推断未由调用程序明确报导的某些注释特性。

推断的特性.从每一调用程序获得支持和跨越读段计数，且概述在读段跨度和读段跨度支持两栏中。后一栏是跨越融合体的读段和支持融合体的读段的总和(不与“其中一端跨越融合体的跨越配对物对”的TopHat的计数混淆，其有时被称为‘跨越和支持读段’)。

将通过调用程序报导的断裂点序列修整以包括在融合体每一侧上的50个碱基，且合并到断裂点序列一栏中。融合体断裂点通过“|”描绘。应注意，此是如通过调用程序推断的断裂点序列，且并非是简单地从参考基因组获得的。因为推断的序列可能反映通过跨越读段观察到的实际序列，所以此序列可能代表参考基因组序列的互补序列。

由于调用程序两者中无一提供决定性的‘5′’或‘3′’标记，故我们通过将调用程序参数与基因链注释组合来推断融合体搭配物的相对5′-3′定向。对于deFuse，基于基因链和deFuse输出特性‘基因组_链’的以下组合，推断每一搭配物的定向：

表28

TopHat报导不同的量度，即，映射到基因搭配物的读段的相对定向，因此需要不同的规则集合来推断基因对的5′-3′顺序：

表29

如果存在既定基因融合体调用的推断的5′和3′搭配物，那么将有效定向字段标记为“Y”。

RepeatMasker注释.每一预测的断裂点位置还用在断裂点附近的RepeatMasker特征注释。如此进行以鉴别高度重复的基因组区域中的断裂点，其中比对错误很可能会影响嵌合转录物的预测。

具体来说，将5′和3′搭配物断裂点的25bp序列上游或下游分别选择为‘断裂点侧接序列’。这些侧接序列相对于在2012年8月24日从UCSC表浏览器下载的RepeatMasker元件组(超文本传输协议：//www.repeatmasker.org/)相交。我们报导了每一断裂点中与26个碱基断裂点侧接区域重叠的元件名称、元件长度和量。目前，未针对特定元件类型(LINES、SINES、简单重复序列等)过滤RepeatMasker元件。

对于每一融合体预测，我们设定RepeatMasker重叠字段以等于断裂点侧接序列与RepeatMasker元件重叠的碱基数量，且将12个或更多个碱基的重叠视为显著的。显著重叠融合体调用的频率用于下文所述的Oncomine优先级排序，使得将具有较低重叠频率的基因融合体视为较高质量。

融合体外显子表达不平衡.融合体使用RNASeq外显子表达数据观测，以通过寻找在断裂点调用之前和之后的外显子表达不平衡来提供真阳性融合体事件的次要证据。具体来说，如果3′搭配物的表达受到5′搭配物的启动子区影响，那么外显子表达应在所预测的断裂点之后增强。当查看融合对比非融合患者样品时，这一效应尤其可见。

TCGA外显子表达数据.TCGA外显子表达数据从博德GDACFirehose位置下载。将每一患者的RPKMRNASeq值以对应于来自数个不同基因定义(包括RefSeq)的UCSC外显子的复合物的基因注释格式(GAF)特征形式列出。在下载21种疾病的数据之后，我们发现4组不同的GAF特征用于注释RPKM表达。最后，患者表达数据的可用性在上文描述的V1和V2RNASeq分析流水线中按疾病变化。

为了解决这些挑战，我们首先将UCSCRefSeq外显子映射到可用的GAF特征，且计算每一RefSeq外显子与GAF特征之间的重叠百分比。此步骤至关重要，因为所有CBI处理的融合体断裂点均映射到在7/18/2012下载的UCSCRefgene定义，且这些断裂点必须又映射到GAF特征。396,298个RefSeq外显子中的80.8％完美地映射到下文展示的曲线中的GAF特征。我们选择且报导会产生最大重叠的RefSeq外显子和GAF特征对。

称为rg_pct的值基于下式提供给定RefSeq外显子与GAF特征的映射质量的量度：

rg_pct＝重叠/长度_refseq*重叠/长度_GAF特征

rg_pct值为1的映射完美地重叠，而值小于1指示RefSeq外显子或GAF特征不映射到严格相同的基因组区域，且RPKM值可为可疑的。

我们选择除STAD以外(归因于V2数据的不可用性)的所有疾病的RNASeqV2数据。

细胞系外显子表达数据.细胞系样品的外显子表达数据由从CGHub获得的CCLEBAM文件产生。所采用的方法与步骤18类似，如这里可用的“UNC数据的TCGAmRNA-seq流水线”方法中所述：安全超文本传输协议：//webshare.bioinf.unc.edu/public/mRNAseqTCGA/ UNCmRNAseqsummary.pdf。

UNC方法与我们的方法之间的差异在于在我们的方法中使用RefSeq外显子BED而非由TCGA使用的复合外显子BED。

外显子表达不平衡计算.系统地分析每一样品中的3′搭配物表达中的潜在5′启动子诱发的不平衡的证据。首先，将每一基因的表达水平转换成对数标度，且接着将z分数在每一疾病的样品组中归一化。此归一化在外显子层面执行以顾及广泛群体趋势，如3′偏差或较差RefSeq外显子/GAF特征匹配(参见下文)。

浆液性卵巢癌患者中的PLXNB21和COL7A1的粗RPKM表达值(顶部)对比z分数归一化值(参见图8A-D)。在外显子12、17和23处的PLXNB1表达中的广泛群体突降在归一化数据中被平滑处理。被预测具有这些基因之间的融合体的样品以红色突出显示；野生型患者以蓝色展示。红色菱形指示调用程序预测的断裂点外显子。

在归一化之前，将被视为考虑中的融合体的野生型但被预测具有涉及基因搭配物中的一者的其他融合体的样品从野生型群体中移出，以便不会污染z分数计算。

在归一化之后，基于样品的断裂点后归一化的表达值(群体A)与断裂点前值相比具有较高平均值的假设，每一样品被分配经由单边斯图登氏t检验计算的p值(H₀：μ_A≤μ_B)。调用程序预测的断裂点用于分离通过任一融合体调用程序鉴别的样品的表达群体。

还计算每一野生型样品的P值以在整个群体的情形下促进融合体阳性样品的p值的分析。这允许我们将涉及展现并非融合体诱发的广泛群体外显子不平衡趋势的基因的融合体丢弃。将p值不在野生型样品p值的最前部分内评级的任何样品丢弃。将使断裂点前和断裂点后表达水平之间的差异最大化的断裂点用于野生型样品p值计算。

融合体概述.基于独特基因对的出现以及基于个别基因(有可能与多个搭配物一起)的出现，概述疾病内的融合体。

对于独特融合体对(根据EntrezID对唯一)，根据任一调用程序具有至少一个融合体预测的疾病内的样品数量是融合的样品计数。由于在一个样品中以及跨越多个样品可报导相同基因对的多个断裂点，故每一疾病内的独特融合体对的数量远远小于融合体调用的总数。为了在基因对层面而非融合体调用层面对融合体进行过滤并区分优先级，概述数种融合体调用程序特性。下表展示针对跨越个别预测的给定融合体搭配物对概述的特性：

表30

特性	概述方法
		DEFUSE翻转	总融合体调用％＝‘Y’
DEFUSE有效定向	总融合体调用％＝‘Y’
		DEFUSE多重映射数量	总融合体调用％＞0
topHAT有效定向	总融合体调用％＝‘Y’
		3P/5P_REPEATMASKER重叠	总融合体调用％≥12

基因层面概述.融合的样品计数还在每一疾病类型和跨越疾病(泛癌症)内的基因层面(根据EntrezgeneID唯一)概述。此概述方法与融合体内推断的定向无关。另外，仅运算Oncomine优先级融合体的融合的样品计数(如下所述)。

个别独特融合体对交叉参考基因组畸变的Mitelman数据库(超文本传输协议：//cgap.nci.nih.gov/Chromosomes/Mitelman)。匹配基于基因名称而非疾病类型进行。因此，Mitelman中报导的某一疾病中的基因融合体可能已出现在TCGA数据集中的不同疾病类型中。

在基因层面处概述的基因融合体基于基因名称交叉参考Mitelman数据库。因此，如在Mitelman中报导为与所预测的独特融合体对相比具有不同组织学或完全不同畸变类型(例如较大染色体层面缺失而非融合体)的基因有更多潜力。

正常样品融合体黑名单.假设TCGA正常样品中调用的所有融合体均为假阳性，我们提出以下问题：1)肿瘤样品中的融合体调用是否在正常样品中鉴别？2)肿瘤样品中鉴别的Oncomine优先级排序的融合体是否也在正常样品中鉴别？回答第一个问题提供肿瘤基因融合体调用中的技术性假阳性率的基线意义。第二个问题是对Oncomine优先级融合体过滤怎样很好地克服此问题的健全检查。下载10种疾病内的344个双端正常样品，且使用上文描述的相同的deFuse流水线处理。观察由6,024个独特融合体组成的总共56,579个总融合体调用。这些正常样品融合体调用用于生成黑名单，且从Oncomine优先级基因融合体中移除这些假阳性。

平行同源融合体搭配物黑名单.在平行同源基因家族成员之间的融合体的黑名单使用两种策略汇编：1)人工地检测高频率融合体搭配物基因名称以及2)比较所有优先级融合体搭配物基因名称的前3个字符。在后一种策略中，融合体搭配物使用HomoloGene、Ensembl、SIMAP和GeneDecksV3验证为“平行同源”，随后包括在最终黑名单中。下表展示出前10个最常观察到的在平行同源融合体搭配物之间的基因融合体调用。整个表由超过400个独特平行同源基因融合体组成且用于从我们的Oncomine优先级基因融合体中移除这些假阳性。

表31

融合体优先级排序-Oncomine优先级流程.下文概述的Oncomine优先级流程通过以下方式设计：迭代探索层面I融合体预测中的最前结果，且系统地消除可疑的假阳性融合体，同时保留先前发现的‘真阳性’(Mitelman)融合体。此流程意欲将符合‘真阳性’融合体预期的某些特征且相反地缺乏许多‘假阳性’融合体中观察到的特征的融合体突出。

在以下情况中时，融合体是Oncomine优先级融合体：

表32

实例6：OncomineNGS突变方法

突变整合.数据整合的目的是形成目前可用的最完整的NGS突变数据组。我们考虑以下来源：

原始数据来源

COSMIC细胞系项目

来自博德GDACMutation_Packager(stddatabuild)的TCGA数据

来自DCC2级的TCGA数据

基于TCGA数据的肯潘迪亚公司突变调用

含有NGS突变数据的出版物

COSMIC细胞系项目

癌症基因组项目已针对突变表征了超过1000种癌细胞系的外显子组。数据库提供针对质量过滤的突变数据，呈平面文件格式。细胞系数据经历用于临床突变数据的相同Oncomine管理和注释方法。细胞系名称相对于Oncomine本体审查，且将癌症类型标准化以便与临床突变数据相当。

数据集当其在2013年11月呈现时从维康信托桑格研究所细胞系项目(WellcomeTrustSangerInstituteCellLinesProject)网站：超文本传输协议：//cancer.sanger.ac.uk/cancergenome/ projects/celllines/获得。

博得GDACMutation_Packager.博得自2011年第三季度起已致力于收集和整合来自多个来源的突变数据。

https：//docs.google.com/document/d/18XlWv-a9xLBOflNikOa9rCXOyiravMM8- PVJxAQPPo/edit

上述文献详述了博德整合到Mutation_Packager标准数据运行中的MAF文件的出处。博德已整合了许多MAF文件，所述MAF文件维持在中央TCGADCC系统外，通常由分析工作组自身的成员维持。我们已执行了在对我们可用的所有MAF文件之间的深入比较。我们相信，博德具有最完整的可用的突变数据。

对此版本，我们整合来自2013_08_09stddatabuild的数据。

TCGADCC2级.此是可从DCC获得的受控制的访问突变数据。TCGA在其维基(wiki)上具有提供关于可用的MAF文件的额外细节的页面：

https：//wiki.nci.nih.gov/display/TCGA/TCGA+MAF+Files

对此版本，我们考虑到2013年9月15日为止可用的所有MAF文件。

肯潘迪亚公司NGSDNASeq突变调用.我们感觉到可从TCGA获得的PRAD突变调用具有低质量且产生假阳性‘获得功能’预测。因此，对此疾病的所有调用均来源于肯潘迪亚公司的自身突变调用流水线。作出肯潘迪亚公司突变调用以符合MAF文件格式以便整合。关于更多详情，请参见附录：肯潘迪亚公司NGSDNASeq突变调用(CompendiaNGS DNASeqMutationCalling)。在此版本中包括170个前列腺腺癌患者。

所有NGS数据的人工管理.TCGA和非TCGANGS数据集由Oncomine管理小组直接从其原始来源(主要是同行审查的癌症出版物和上述公开可访问的数据库)获得。使补充材料中通常可用的突变数据达到突变再注释和分类所需的标准作为整个NGS突变处理流水线的一部分。癌症类型使用Oncomine癌症类型本体管理，基于出版物中存在的最佳可用的临床元数据，分配适当Oncomine癌症类型。由于所有公开的实验均要求全基因组(‘NGS’)覆盖率，故假设每一数据集的空基因组包括所有人类RefSeq基因。非TCGA数据以与用于突变分析流水线的其余部分的TCGAMAF文件数据完全相同的方式处理。

移除一式两份突变.我们执行一些简单净化操作以移除源数据中存在的一式两份突变记录。我们还执行若干文件-栏名称再映射，因为许多来源并不遵守MAF文件标准。移除来自同一患者样品的各种肿瘤/正常等分试样对的一式两份突变。

突变注释.从TCGA和非TCGA来源获得的数据含有由通过不同基因组测序中心或作者经若干年的过程处理和注释的数据集产生的突变。这产生使用不同基因模型和使用不同的变异体分类约定注释的突变调用。由于肯潘迪亚公司定义突变的方法依赖于准确的变异体注释，我们相对于单一转录物组和一致的变异体分类规则再注释突变。标准注释流水线确保跨越疾病类型的突变被一致地评估且在潜在致癌基因或肿瘤抑制基因的提名期间经受共同的解释。还提供不可从原始来源一致地获得的重要注释，如HGVS样式突变命名法(例如V600E)。

从原始来源获得的突变通过肯潘迪亚公司根据以下通用步骤处理(下文提供详情)。

我们首先使用肯潘迪亚公司的Oncomine转录物组再注释每一突变。成功注释的突变接受源于肯潘迪亚公司的注释，而其余部分保留从原始来源获得的注释。注释包括：

变异体分类

变异体位置

变异体变化

实施若干过滤步骤以移除多个转录物中的冗余注释以及位于相关基因区域之外的突变。

排除“超突变基因”样品.在某些疾病(如子宫内膜癌)中，数个高度突变的样品可能在整个突变计数中占主导地位。我们还在肺腺癌、胃癌、黑素瘤和结肠直肠癌中观察到所述“超突变基因”样品。基于通过分析数种癌症类型中的超突变基因离群值确定的截断值，我们决定将＜5,000个非沉默外显子突变作为用于将样品包括在我们的再现分析中的阈值。我们因此从我们的下游分析流水线中排除此数据集中的许多超突变基因样品。

在突变注释步骤中，我们试图相对于通过肯潘迪亚公司编译的标准转录物组再注释从原始来源获得的突变。这组转录物包括来自2012年2月19日从UCSC获得的hg18和hg19基因组构建的RefGene转录物。

每一突变个别地针对规定的基因组构建内的Oncomine转录物组中的重叠群映射。SNP突变直接映射到其起始位置，同时针对小插入(INS)和缺失(DEL)突变选择相关位置以便映射。对于插入，相关位置是出现插入的碱基。取决于转录物的方向，这可以是突变的起始或终止坐标，取决于基因分别是在正链上还是在负链上。对于缺失，相关位置在转录物位于正链上时为缺失的碱基或在转录物位于负链上时为缺失的最后一个碱基。此调节确保突变位置被定义为相对于转录物翻译的方向(即5′→3′)受到插入/缺失影响的第一个碱基。

对于成功地映射到转录物的突变，相对于所述转录物推断肯潘迪亚公司突变注释。对于未能映射的突变，保留来自原始数据来源的注释，且基于基因组坐标构筑用于热点计算的变异体位置(更多详情如下)。由于仅23个染色体的标准组包括于我们的转录物组中，故位于线粒体或其他非标准重叠群上的突变不经映射。

下文是用于注释映射到Oncomine转录物组的突变的准则的描述。

变异体分类.对于成功映射到转录物的每一突变，使用突变和注释特性的组合推断变异体分类。我们的方法鉴别了六个主要突变变异体分类，所有均位于转录物内。目前不考虑在基因区域外部(例如基因间)的突变的变异体分类(参见下文过滤部分)。下文是用于推断变异体分类的准则：

表33

变异体分类的此列表是由TCGA针对MAF文件格式规定的允许的变异体分类的子集。

https：//wiki.nci.nih.gov/display/TCGA/Mutation+Annotation+Format+％28MAF％29+Spec ification

此子集覆盖相关突变类别以用于潜在获得或失去功能基因的再现分析和鉴别，且因此对于映射到Oncomine转录物组的绝大部分突变是足够的。下表描述了将对比原始作者分类(假设突变映射到与用于定义分类的转录物相同的转录物)分配的可能的变异体分类以及来源数据集中的所述突变类型的相对丰度：

表34

变异体位置.当前分析的初始目的之一是鉴别具有热点突变的基因，热点突变为在多个肿瘤样品中在同一位置处观察到的某一分类的突变。为了有效地鉴别再现且界定每一突变的热点，我们必须构筑涵盖突变位置、所影响的氨基酸或碱基身份以及变异体分类的突变点识别符。我们使在同一位置处出现的与其产生的特定碱基变化无关的突变聚集。因此，我们仅使用参考碱基或氨基酸来定义变异体位置。这确保了将针对可能的热点对会影响同一密码子或基因组位置的突变进行计数，即使其产生的替代等位基因不同。举例来说，对于给定基因，错义突变V600E、V600F和V600G将均具有V600的变异体位置，且将由此在鉴别热点突变时聚集在一起。因此，我们的变异体位置如下定义：

变异体位置＝突变点{碱基|密码子}+参考{碱基|AA}+[变异体分类]

如果突变是在编码区中，那么在相关碱基处的密码子数量和对应的氨基酸用于鉴别突变点，例如p.L116_框内缺失。如果突变是在非编码区(如UTR)中，那么在相关碱基处的参考核苷酸的位置和身份用于鉴别突变点，例如c.*110C。

对于在编码区外的剪接位点突变，相对于剪接边界规定变异体位置。相对位置使用+{1|2}或-{1|2}鉴别(剪接位点突变为在剪接点的2个碱基内的那些)。如同插入和缺失，为剪接位点突变添加“_剪接位点”的后缀。对于插入和缺失突变，向变异体位置中添加指示框内(“_框内插入”或“_框内缺失”)或框移(“_框移插入”或“_框移缺失”)的后缀。

总之，以下为不同可能的变异体位置格式的实例：

表35

对于并不映射到Oncomine转录物组且因此并不具有基于转录物的位置的突变，将基因组位置(起始位置)和参考核苷酸(参考等位基因)用作与编码区或剪接位点接近性无关的变异体位置。由原始数据提供的变异体分类接着作为后缀添加。举例来说，SNP错义突变将具有变异体位置，如“chr19_c.C22952756_错义突变”，且剪接位点SNP将具有变异体位置“chr1_c.A155025094_剪接位点”。这些突变的变异体变化(参见下文)未经定义。

尽管变异体位置的后缀通常隐含地结合变异体分类，当计算热点时，变异体位置和变异体分类两者明确地用于聚集突变。因此，分别运算可能产生相同变异体位置但具有不同变异体分类(如错义和无义SNP)的突变。

变异体变化.变异体变化提供关于突变的替代等位基因变化的HGVS样信息。对于编码区中的SNP突变，变异体变化为完整HGVS蛋白质层面序列变异体描述，指示替代氨基酸。对于在编码区之外的SNP，提供替代等位基因核苷酸碱基。

对于插入和缺失变异体类型，将变异体位置(参见上文)用作变异体变化。在这些情况下，不推断在氨基酸层面的变化的后果。因而，插入/缺失的变异体变化并不绝对地遵循HGVS规格。

下文为源于肯潘迪亚公司的突变注释的变异体变化的说明性实例：

表36

突变	变异体分类	变异体位置	变异体变化
				SNP于CDS中，E＞K，残基137	错义突变	p.E137	p.E137K
SNP于内含子C＞2中距剪接位点两个bp	剪接位点	c.4913-1_剪接位点	c.4913-1
				插入于CDS中，在残基Gly 264处	框移插入	p.G264_框移插入	p.G264_框移插入
UTR中一个碱基的缺失	3′UTR	c.*1007A_框移缺失	c.*1007A_框移缺失

对于并不映射到Oncomine转录物组的突变，保留来自原始数据来源的变异体分类。

转录物过滤.为了避免检索多个转录物，且因此避免检索一个基因内单一突变的多个注释，我们保持每一基因(唯一EntrezID)每一突变仅一种转录物。如果突变映射到一种基因的数种转录物，那么仅选择一种转录物。然而，如果突变映射到数种基因，那么每一基因仅选择一种转录物。因此，一种突变可接受两种不同注释，但仅当其来自具有不同EntrezID的转录物时才如此。

我们基于以下优先级流程选择突变的代表转录物：

具有最具影响力的变异体分类的转录物：

在编码中的较高影响：错义、无义、无终止、框移

在编码中的较低影响：框内、沉默

在编码区外：剪接位点、3′或5′UTR、非编码外显子

在外显子外：内含子

如果存在基于优先级的联系，那么选择具有最短(根据长度)RefSeq转录物登录号的转录物，接着选择进一步联系的事件中在字母数字上最小的转录物登录号。举例来说，在TTN基因的转录物NM_003319、NM_133378和NM_00125685中，我们将选择NM_003319作为代表转录物。

这些步骤允许我们为在一个位置处的相同类型的突变反复地选择一致的转录物。选择最具影响力的转录物的一个结果是多个转录物可用于在单一基因中的多个位置处的突变。然而，此流程的益处是在相同位置处的相同变异体分类的任何突变总是分配给相同转录物，且因此当计算用于热点鉴别的再现时将处于相同的参考框架中。

通过突变类别和类型过滤.所有突变通过变异体类型和类别进一步过滤。为了避免将较不相关的突变包括到基因功能分析中，我们滤除并不解析到基因区域的突变，或者因为其显著远落在转录物之外，或者因为其处于与RefSeq基因不相关的位置中。这些突变通过其缺乏基因识别符(EntrezID＝0或空白)或以下变异体类别中的成员资格而为明显的：内含子、5′侧接序例、IGR和miRNA。

我们还滤除具有DNP、TNP、ONP、复杂取代和Indel的变异体类型的突变，因为其注释不被我们的流水线所支持。

由于某些数据来源包括广泛量的内含子和基因间突变，故此过滤步骤显著减小数据集的大小，因为许多NGS数据集并不应用这些过滤预出版物。

将突变归类为热点、有害或其他.我们的分析流水线中的下一个步骤基于突变的变异体位置鉴别出多个样品中重现的突变，且将其归类到热点、有害或其他变异体类别中。对于此步骤和后续频率计算，独立地处理每种疾病类型的突变。仅将相同变异体分类的突变共同运算，因此例如分别计数在相同位置处的错义突变和沉默突变。

为了鉴别驱动基因事件，取决于以下准则，将给定EntrezGeneID的每一突变归类为“有害”或“热点”：

如果在3个或更多个肿瘤样品的相同变异体位置中观察到一种突变，那么认为所述突变是‘再现的’。

如果突变是以下各者，那么所述突变属于“热点”变异体类别：

再现的且

经以下变异体分类中的一者注释：

框内插入/缺失

无终止

错义

非编码外显子

如果突变是以下各者，那么所述突变属于“有害”类别：

非再现的且

经以下变异体分类中的一者注释：

框移插入/缺失

无义

如果一种突变不符合上述准则，那么所述突变被视为在“其他”变异体类别中。

Oncomine突变分类和变异体分类可以用于在基因层面概述各种突变的相对频率。

命名“获得功能”和“失去功能”基因.将个别基因归类到所预测的功能类别中，即“获得功能”、“再现的其他”和“失去功能”，以反映其在潜在活化或有害突变中的相对富集。下文提供用于进行分类的流程的详情。

突变的样品频率计算.相对于一种疾病类型内的所有样品中的给定变异体分类和变异体类别计算每一基因的突变频率。通过将所有变异体分类的突变组合来计算疾病内的基因的总体突变频率。

总体突变频率.通过将在一种基因中具有任何变异体分类的至少一个突变的样品的总数(突变的样品计数)除以给定癌症类型中的样品的总数(样品计数)来获得所述基因的总体突变频率。

热点频率.通过将具有属于“热点”Oncomine突变分类的至少一个突变的样品的总数除以突变的样品计数(具有给定基因的至少一个突变的样品的总数)来获得基因的热点频率。举例来说，如果样品具有热点错义和热点框内缺失两者，那么其将仅计数一次。

热点错义频率.为了获得基因的热点错义频率，将含有具有“热点”的Oncomine突变分类的至少一个错义突变的样品的数量除以突变的样品计数(在此基因中具有至少一个任何类型的突变的样品数量)。具有一个以上所述类型的突变的样品仅计数一次。

有害频率.为了获得基因的有害频率，将含有具有“有害”的Oncomine突变分类的至少一个突变的样品的数量除以突变的样品计数(具有给定基因的至少一个突变的样品数量)。具有一个以上所述类型的突变的样品仅计数一次。

其他频率.为了获得基因的其他频率，将具有具备“其他”的Oncomine突变分类的至少一个突变的样品的总数除以突变的样品计数(具有给定基因的至少一个突变的样品总数)。举例来说，如果样品含有剪接位点和UTR突变两者，那么其将仅计数一次。

热点、其他、和有害频率考量.热点、其他和有害频率应并不预期总计为100％，因为样品可能已在这些类别中的一种以上中计数。

评估热点和有害突变的显著性.通过两种独立的方法计算疾病内的每一基因的热点和有害p值。

有害突变富集的显著性.为了评估一种基因与其他基因相比是否针对有害突变显著富集，鉴于背景突变率，我们使用以下列联表执行费舍尔精确检验：

表37

	有害	其他
			相关基因	A	B
所有其他基因	C	D

其中A、B、C和D为跨越疾病的突变计数。将无义突变、框移插入和框移缺失归类为有害突变，而任何其他类型(UTR、沉默、错义等，但非基因间)的突变作为其他计数。

通过计数具备有害突变的基因的数量(N)且计算每一相关的等级来计算每种疾病内的Q值。给定p值的q值则是Q＝p*N/等级。

再现的热点突变的显著性.为了计算基因特有的p值，评估所述基因上再现最多的热点的显著性。鉴于每一序列位置很可能同等地突变的假设，可测试每一基因，再现最多的是否显著大于使用多项式检验所预期的。这是已在先前版本中实施的取样算法的精确检验。此检验的优点之一是p值精确度升高到1E-16，因此不出现取底。为了获得热点突变，我们过滤突变以移除不影响编码序列的任何(即，通过移除沉默、UTR、终止密码子和剪接位点突变进行)，且接着移除我们可能不用RefSeq转录物识别符注释的基因的突变数据。我们接着计数针对在每一疾病中的每一转录物观察到的突变。我们通过将CDS长度除以三且减去1来计算氨基酸序列长度。

p值的确切计算制定如下。给出长度x的氨基酸序列、观察到的热点突变的数量n，在再现最多的点处偶然观察到r个或更多个突变的可能性是多少。对于每一基因，通过下式计算p值：

\begin{matrix} p = \Pr (y_{(X)} &GreaterEqual; r) \\ = 1 - \Pr (y_{1} < r, y_{2} < r, ..., y_{X} < r) \\ = 1 - Σ_{0}^{r - 1} \frac{n!}{y_{1}! y_{2}! ... y_{X}!} {(1 / x)}^{n} \end{matrix}

其中y(x)是在再现最多的热点处的突变计数，且y₁，...，y_X表示在每一点1，...，x处的突变计数。

当n和x较大时，上式可极慢，使用具有邦弗朗尼-马洛斯(Bonferroni-Mallows，BM)界限的近似值：

1 - \frac{n!}{n^{n} e^{- n}} {Π_{i = 1}^{X} P (y_{i} \leq r - 1)} P (W = n)

其中y_i是具有平均值n/x的泊松随机变量(Poissonrandomvariable)，且其中Y是截尾泊松(truncatedPoisson)。P(W＝n)通过埃奇沃思展开(EdgeworthExpansion)估算。p值的邦弗朗尼-马洛斯上限和下限是：

如果近似值落在BM界限之外，那么使用下限或上限。其很少出现在我们的数据中，且其主要针对较小p值(p＜le-16)或较大p值(p约等于1)出现。

Q值使用本亚明-霍赫贝格方法(Benjamini-Hochbergmethod)计算，其是Q＝p*N/等级，其中N是转录物数量且等级是每一p值的等级。

沉默热点突变.再现的沉默突变-沉默热点似乎是测序错误的指示，出现在低序列质量的区域中且对于邻近核苷酸中的假阳性错义突变峰值来说充当‘煤矿中的金丝雀’。基于检查具有沉默热点的基因以及邻近沉默峰值的评估，我们相信这些基因经受系统测序错误，且这些基因中的热点突变应不会有助于基因分类。

Oncomine基因分类规则.一旦突变已经分类，就将个别基因命名为三种类别中的一种：“获得功能”、“失去功能”和“再现的其他”。分类是基于在基因中观察到的突变的相对频率和显著性的组合。每一基因突变的显著性通过p值评估。

再现的沉默突变.“获得功能”基因将具有相对较高的热点错义突变频率和较低的有害突变频率，而“失去功能”基因含有较大部分的有害突变。“再现的其他”倾向于含有再现的插入/缺失突变，其中的一些(例如1个碱基的再现的框移插入缺失)展现可能由局部比对错误引起的潜在假阳性调用的迹象。一般来说，我们更确信关于归类为获得/失去功能的基因的功能重要性。

泛癌症分析.为了概述跨越疾病的突变，我们执行了与我们对于疾病内分析所执行的相同的计算，但不根据疾病将突变记录分层。将所有突变记录聚集，且在此泛癌症情形中计算频率、变异体类别和基因类别。对于泛疾病概述，概述所有癌症类型中的基因(根据EntrezID唯一)，且每个疾病一排。然而，还提供疾病内但在泛癌症情形中的基因的概述。此意指例如总计疾病内的具有热点突变的样品，但仅针对视为在泛癌症情形中的热点的突变。＜20个样品的癌症类型包括于泛癌症分析中，尽管其归因于低样品计数而不符合条件疾病内分析。

细胞系注释.细胞系突变数据经历上文描述的相同的Oncomine管理和注释方法，除了突变和基因分类。取而代之，每当细胞系中的突变也在临床样品中被观察到，来自细胞系的突变就用Oncomine突变分类和基因分类注释。此注释仅针对具有热点或有害或其他Oncomine突变分类的突变执行。如果在肿瘤中观察不到突变，那么其将接受“在肿瘤中观察不到”的突变分类。

如果来自细胞系和肿瘤样品的突变属于相同基因，且具有相同变异体位置和变异体分类，那么将其视为等效物。

细胞系名称相对于内部Oncomine本体审查，且将细胞系癌症类型标准化以便与临床突变数据相当。将在整个数据库或出版物中可能不经独立地验证的身份或癌症类型的数种细胞系从我们的分析中移除。来自临床数据的突变注释在泛癌症和疾病内情形中执行。

肯潘迪亚公司NGSDNASeq突变调用

BAM文件选择.我们查询TCGA的CGHub以鉴别具有单一肿瘤-正常BAM对的患者。我们如此做以移除归因于不同肿瘤-正常对的突变调用差异的可能性。

参考基因组构建.我们通过解析SAM标题来鉴别用于对准BAM文件中的读段的参考基因组构建。我们对如输入到突变调用程序包中所需的所有参考基因组构建进行定位、下载且编索引。

突变调用.我们对此分析采用以下体细胞突变调用包：

MuTect(1.0.27783)，博德研究所(BroadInstitute)，癌症基因组分析组(CancerGenomeAnalysisGroup，CGA)(齐布尔斯基(Cibulskis)，2013)

SomaticIndelDetector(1.6-13-g91f02df)，博德研究所，基因组分析工具包(GenomeAnalysisToolkit，GATK)

MuTect.MuTect执行初始预处理以移除“具有太多错配或极低质量分数的读段”(MuTect资料)。接着，对于候选突变，计算描述存在于肿瘤样品中的突变(LOD_T)和在正常样品中不突变(LOD_N)的可能性的两个对数差异(LOD)分数：

MuTect预期体细胞突变以约1的速率以Mb出现且需要LOD_T＞＝6.3。MuTect要求突变不在dbSNP中且具有LOD_N＞＝2.3，因为预期非dbSNP以每Mb100个的速率出现。选择两个截断值以保证假阳性率小于预期的体细胞突变速率的一半。最后，执行其他后处理步骤，包括测试替代等位基因在两个读段方向中观察到。针对待考虑的突变，MuTect要求至少14个肿瘤读段和8个正常读段。

SomaticIndeIDetector(SID).对于给定突变位点，SID使用基于计数的阈值和indel一致表决流程考虑候选插入缺失。选择具有最大数量的支持读段或投票的indel作为推定的indel调用。如果存在以下各者，那么报导此调用：

足够的覆盖率(默认：正常＞＝4个读段，肿瘤＞＝6个读段)，

在所述位点的大部分读段支持推定的调用(默认：＞＝30％)

此部分与支持indel的任何位点的那些相比足够大(默认：＞＝70％)

如果在正常样品中存在相同indel的甚至较弱的证据，那么将肿瘤样品中的Indel调用注释为“生殖系”；否则的话，将其标记为“体细胞”。忽略仅在正常样品中观察到的调用。SID采用BAM文件作为输入和输出VCF和BED格式化的推定的调用。

突变过滤.调用程序输出所有候选突变调用，包括具有低统计置信度的生殖系突变和其他调用。我们将突变调用程序输出过滤到仅体细胞突变、由MuTect标示“保留(KEEP)”的突变以及出现在RefSeq基因的CDS内的突变。下表详述应用到MuTect和SomaticIndelDetector输出的特定过滤器：

表38

参考文献

齐布尔斯基K.(Cibulskis，K.)等人不纯和异质癌症样品中的体细胞点突变的敏感性检测(Sensitivedetectionofsomaticpointmutationsinimpureandheterogeneouscancersamples).《自然·生物技术》(NatBiotechnology)(2013).doi：10.1038/nbt.2514

MuTect：超文本传输协议：//www.broadinstitute.org/cancer/cga/mutect

SID：超文本传输协议：//gatkforums.broadinstitute.org/discussion/35/somatic-indel-detection

表16：表2基因/融合体的可药化状态

表17：表3基因/融合体的可药化性状态

表19：基因融合体

实例7鉴别TP53的状态

在分子诊断学和理解癌症生物学两方面的进展以更有效的患者分层将改进结果且加快有效癌症药物的批准的期望提高临床试验范例的门槛。

TP53的突变状态已被鉴别为治疗反应和预后的预测生物标记物。举例来说，TP53野生型(WT)患者已展示出与含有TP53突变的患者相比在包括佐剂5-氟尿嘧啶和西妥昔单抗组合疗法的疗法之后展现显著延长的无进展存活期。

TP53突变注释从ONCOMINE^TMNGS突变浏览器(密歇根州的肯潘迪亚生物科学公司(CompendiaBiosciences，MI)获得。在评估TP53突变状态的总共776个患者中；259个患者含有TP53中的至少一个突变且被注释为TP53突变体，而519个患者缺乏检测的TP53突变且被注释为TP53野生型。TP53野生型和TP53突变体注释接着在患者层面映射到来自TCGA乳癌数据集的对应微阵列样品。当突变注释映射到具有对应微阵列数据的患者时，327个患者被注释为TP53野生型，且188个被注释为TP53突变体。TP53野生型和TP53突变标记由TCGA乳癌数据集的差异表达分析产生。基因列表通过p值根据史都登氏两类t检验定等级。在TP53野生型患者中有差异地上调的基因贡献到TP53野生型标记，而在TP53突变体患者中上调的基因贡献到TP53突变体标记。每一标记含有定等级的基因(n＝204)中的前1％。TP53野生型和TP53突变标记中的所有基因在校正假发现之后高度显著(Q＜0.0001)。Q值计算为(p值/p值评级)*所测量的基因数量。

五种ONCOMINE^TM癌症类型含有足够的TP53突变状态数据以完成分析。在这些当中，与来自乳癌(p＜0.001；n＝189WT，37个突变体)、肺癌(p＝0.0003；n＝23WT，18个突变)、肝癌(p＝0.0069；n＝74WT，11个突变)和卵巢癌(p＝0.05；n＝22WT，15个突变)癌症患者的TP53突变的临床样品相比，在TP53WT中发现显著升高的标记表达，且在淋巴瘤患者(p＝0.068；n＝65WT，16个突变)内发现趋势(参见图5-7和9-10)。表40含有TP53WTTCGA乳癌标记。

临床来源的表达标记有效地区分TP53WT与突变体肿瘤样品。

表40

除非另外指明，否则本说明书和权利要求书中所用的表示成分量、特性(如分子量)、反应条件等的所有数量应理解为在所有情况下都由术语“约”修饰。因此，除非指明为相反的，否则在说明书和所附权利要求书中所阐述的数值参数是可能取决于试图通过本发明获得的所需性质而变化的近似值。最低限度地，并且不试图限制等效物原则对权利要求书范围的应用，每一个数值参数都应至少根据所报告的有效数字的数量并且通过应用一般四舍五入技术来解释。尽管阐述本发明广泛范围的数值范围和参数是近似值，但具体实例中所阐述的数值是尽可能精确报导的。但是，任何数值固有地含有某些由其各别测试测量值中所发现的标准偏差必然造成的误差。

除非本文另外指示或明显与上下文相矛盾，否则在描述本发明的情形下(尤其在随附权利要求书的情形下)所用的术语“一(a/an)”、“所述”和类似指示物应解释为涵盖单数和复数两者。本文中值的范围的叙述仅旨在充当个别地提及处于所述范围内的每个单独值的简写方法。除非本文另外指示，否则每一个个别值并入到本说明书中，如同其在本文中个别地列举一般。除非本文另外指出或另外明显与内容相矛盾，否则本文所描述的所有方法可以任何适合顺序执行。本文中提供的任何和所有实例或例示性语言(例如，“如”)的使用，仅打算更好地阐明本发明，并且不对以其他方式所要求的本发明范围造成限制。本说明书中的任何语言都不应被解释为指示任何未要求的要素对于实践本发明而言是必需的。

本文所公开的本发明的替代性要素或实施例的分组不应解释为限制。每一个群组成员都可以个别地或以与所述群组中其他成员或本文中所见其他要素的任何组合形式来提及和要求。预期，群组中的一个或多个成员可以出于便利性和/或专利性的原因而包括于群组中或由群组删除。当任何所述包括或删除发生时，本说明书被认为如所修改地含有群组，因此满足所附权利要求书中所用的所有马库什(Markush)群组的书面描述。

本文中描述了本发明的某些实施例，包括本发明人已知的用于进行本发明的最佳模式。当然，在阅读以上描述之后，这些所描述实施例的变化对于所属领域的技术人员将变得显而易见。本发明人期望熟练的技术人员在适当时采用这类变化，并且本发明人打算以不同于本文中具体描述的其他方式来实践本发明。因此，本发明包括可适用法律所允许的随附权利要求书中所引述的主题的所有修改和等效物。此外，除非本文另外指示或另外明显与内容相矛盾，否则本发明涵盖上述要素以其所有可能的变化形式的任何组合。

此外，已经在本说明书通篇中大量参考专利和印刷出版物。上文所引用的参考文献和印刷出版物中的每一个都个别地以全文引用的方式并入本文中。

应理解本文所公开的本发明实施例说明本发明的原理。可以采用的其他修改处于本发明的范围内。因此，作为实例而非限制，可以根据本文中的教示来利用本发明的替代性配置。因此，本发明不限于如所精确展示和描述的内容。

本文中所公开的具体实施例可以在权利要求书中使用由……组成或基本上由……组成语言来进一步限制。当用于权利要求书中时，不论如所提交还是根据修改添加，过渡术语“由……组成”排除权利要求书中未指定的任何要素、步骤或成分。过渡术语“基本上由……组成”将权利要求书的范围限制于规定材料或步骤和不实质上影响基本和新颖特征的材料或步骤。如此要求的本发明实施例固有地或明确地描述并实现于本文中。

提及序列识别符(如从NM_开始的那些)是指数据库登录号和下面的序列，如其见于2013年4月18日。

Claims

1.一种试剂盒，其包含一个探针组，其中所述探针组特异性地识别选自以下各者的两种基因的融合体：TPM1和ALK、PRKAR1A和ALK、NCOA1和ALK、LPP和CASR、MDM2和EGFR、FGFR3和ELAVL3、B2M和GNAS、DOCK8和JAK2、HNF1B和NOTCH1、NFASC和NTRK1、SSBP2和NTRK1、SQSTM1和NTRK1、TBL1XR1和PIK3CA、AKAP13和RET、FKBP15和RET、TBL1XR1和RET、CEP85L和ROS1、CLCN6和RAF1、TRAK1和RAF1、PRKACA和AKT1、PRKACA和AKT2、MLL和FYN、TTC13和JAK2、SEC16A和NOTCH1、ERC1和RET、GTF2IRD1和ALK、HTATSF1和BRS3、CDH1和CCDC132、CCDC132和CDH1、ERBB2和SLC29A3、MET和TFG；TFG和MET、NOTCH2和MNDA、IRF2BP2和NTRK1、EIF2C2和PTK2、RARA和HOXB3、STAT3和ETV4、以及GFAP和VIM、VIM和GFAP、TOP1和C17orf64、以及TP53和KIAA0753。

2.一种组合物，其包含一个探针组，所述探针组特异性地识别选自以下各者的两种基因的基因融合体：TPM1和ALK、PRKAR1A和ALK、NCOA1和ALK、LPP和CASR、MDM2和EGFR、FGFR3和ELAVL3、B2M和GNAS、DOCK8和JAK2、HNF1B和NOTCH1、NFASC和NTRK1、SSBP2和NTRK1、SQSTM1和NTRK1、TBL1XR1和PIK3CA、AKAP13和RET、FKBP15和RET、TBL1XR1和RET、CEP85L和ROS1、CLCN6和RAF1、TRAK1和RAF1、PRKACA和AKT1、PRKACA和AKT2、MLL和FYN、TTC13和JAK2、SEC16A和NOTCH1、ERC1和RET、GTF2IRD1和ALK、HTATSF1和BRS3、CDH1和CCDC132、CCDC132和CDH1、ERBB2和SLC29A3、MET和TFG；TFG和MET、NOTCH2和MNDA、IRF2BP2和NTRK1、EIF2C2和PTK2、RARA和HOXB3、STAT3和ETV4、以及GFAP和VIM、VIM和GFAP、TOP1和C17orf64、以及TP53和KIAA0753。

3.一种探针组，其特异性地识别包含SEQIDNO:1-257中的至少一者的核酸。

4.一种经分离核酸，其包含选自SEQIDNO:1-257的序列。

5.一种检测样品中的膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤和甲状腺腺体癌的方法，所述方法包含：

扩增包含选自SEQIDNO:1-257的序列的核酸；以及

检测所述包含选自SEQIDNO:1-257的序列的核酸的存在；

其中检测所述包含选自SEQIDNO:1-257的序列的核酸，指示膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤和甲状腺腺体癌存在于所述样品中。

6.一种试剂盒，其包含一个探针组，所述探针组与包含来自表4-6、20和23的断裂点的核酸特异性地杂交。

7.一种探针组，其与包含来自表4-6、20和23的断裂点的核酸特异性地杂交。

8.根据权利要求6或7所述的试剂盒，其中所述核酸为选自以下各者的基因融合体：TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN、TTC13/JAK2、SEC16A/NOTCH1、ERC1/RET、GTF2IRD1/ALK、HTATSF1/BRS3、CDH1/CCDC132、CCDC132/CDH1、ERBB2/SLC29A3、MET/TFG；TFG/MET、NOTCH2/MNDA、IRF2BP2/NTRK1、EIF2C2/PTK2、RARA/HOXB3、STAT3/ETV4、以及GFAP/VIM；VIM/GFAP、TOP1/C17orf64、以及TP53/KIAA0753。

9.一种检测样品中的膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤和甲状腺腺体癌的方法，所述方法包含：

使用一个探针组扩增选自TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN、TTC13/JAK2、SEC16A/NOTCH1、ERC1/RET、GTF2IRD1/ALK、HTATSF1/BRS3、CDH1/CCDC132、CCDC132/CDH1、ERBB2/SLC29A3、MET/TFG；TFG/MET、NOTCH2/MNDA、IRF2BP2/NTRK1、EIF2C2/PTK2、RARA/HOXB3、STAT3/ETV4、以及GFAP/VIM；VIM/GFAP、TOP1/C17orf64、以及TP53/KIAA0753的基因融合体或融合基因产物，所述探针组特异性地识别选自TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN、TTC13/JAK2、SEC16A/NOTCH1、ERC1/RET、GTF2IRD1/ALK、HTATSF1/BRS3、CDH1/CCDC132、CCDC132/CDH1、ERBB2/SLC29A3、MET/TFG；TFG/MET、NOTCH2/MNDA、IRF2BP2/NTRK1、EIF2C2/PTK2、RARA/HOXB3、STAT3/ETV4、以及GFAP/VIM；VIM/GFAP、TOP1/C17orf64、以及TP53/KIAA0753的所述基因融合体或融合基因产物中的至少一种核酸；以及

检测所述样品中选自TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN、TTC13/JAK2、SEC16A/NOTCH1、ERC1/RET、GTF2IRD1/ALK、HTATSF1/BRS3、CDH1/CCDC132、CCDC132/CDH1、ERBB2/SLC29A3、MET/TFG；TFG/MET、NOTCH2/MNDA、IRF2BP2/NTRK1、EIF2C2/PTK2、RARA/HOXB3、STAT3/ETV4、以及GFAP/VIM；VIM/GFAP、TOP1/C17orf64、以及TP53/KIAA0753的所述基因融合体或融合基因产物的存在；

其中检测选自TPM1/ALK、PRKAR1A/ALK、NCOA1/ALK、LPP/CASR、MDM2/EGFR、FGFR3/ELAVL3、B2M/GNAS、DOCK8/JAK2、HNF1B/NOTCH1、NFASC/NTRK1、SSBP2/NTRK1、SQSTM1/NTRK1、TBL1XR1/PIK3CA、AKAP13/RET、FKBP15/RET、TBL1XR1/RET、CEP85L/ROS1、CLCN6/RAF1、TRAK1/RAF1、PRKACA/AKT1、PRKACA/AKT2、MLL/FYN、ECHD1/FYN、TTC13/JAK2、SEC16A/NOTCH1、ERC1/RET、GTF2IRD1/ALK、HTATSF1/BRS3、CDH1/CCDC132、CCDC132/CDH1、ERBB2/SLC29A3、MET/TFG；TFG/MET、NOTCH2/MNDA、IRF2BP2/NTRK1、EIF2C2/PTK2、RARA/HOXB3、STAT3/ETV4、以及GFAP/VIM；VIM/GFAP、TOP1/C17orf64、以及TP53/KIAA0753的所述基因融合体的存在，指示选自膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤和甲状腺腺体癌的癌症存在于所述样品中。

10.一种经分离基因融合体核酸，其长度在100与10,000个核苷酸之间，且在表4-6、20和23中的断裂点中的一者的任一侧上包含至少25个核苷酸。

11.根据权利要求10所述的基因融合体，其中基因融合体搭配物为选自以下各者的两种基因：TPM1和ALK、PRKAR1A和ALK、NCOA1和ALK、LPP和CASR、MDM2和EGFR、FGFR3和ELAVL3、B2M和GNAS、DOCK8和JAK2、HNF1B和NOTCH1、NFASC和NTRK1、SSBP2和NTRK1、SQSTM1和NTRK1、TBL1XR1和PIK3CA、AKAP13和RET、FKBP15和RET、TBL1XR1和RET、CEP85L和ROS1、CLCN6和RAF1、TRAK1和RAF1、PRKACA和AKT1、PRKACA和AKT2、MLL和FYN、以及TTC13和JAK2、SEC16A和NOTCH1、ERC1和RET、GTF2IRD1和ALK、HTATSF1和BRS3、CDH1和CCDC132、CCDC132和CDH1、ERBB2和SLC29A3、MET和TFG；TFG和MET、NOTCH2和MNDA、IRF2BP2和NTRK1、EIF2C2和PTK2、RARA和HOXB3、STAT3和ETV4、以及GFAP和VIM、VIM和GFAP、TOP1和C17orf64、以及TP53和KIAA0753。

12.根据权利要求5或9所述的方法，其中所述样品为患者样品。

13.根据权利要求12所述的方法，其进一步包含当包含选自SEQIDNO:1-257的序列的核酸存在于所述患者样品时，将所述患者诊断为患有膀胱尿道上皮癌、乳癌、子宫内膜子宫内膜样腺癌、结肠腺癌、多形性成胶质细胞瘤、透明细胞肾细胞癌、乳头状肾细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肺腺癌、卵巢浆液性囊腺癌、前列腺腺癌、直肠皮肤黑素瘤或甲状腺腺体癌。

14.一种试剂盒，其包含一个探针组，其中所述探针组特异性地识别选自表7和/或表11的基因变异体。

15.一种组合物，其包含一个探针组，所述探针组特异性地识别来自表7和/或表11的基因变异体。

16.一种探针组，其特异性地识别来自表7和/或表11的基因变异体。

17.一种检测膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌或子宫体子宫内膜样癌的方法，所述方法包含：

扩增包含选自表7和/或表11的变异体的核酸；以及

检测所述选自表7和/或表11的变异体的存在；

其中检测所述选自表7和/或表11的变异体，指示膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌或子宫体子宫内膜样癌存在于所述样品中。

18.一种试剂盒，其包含一个探针组，所述探针组与选自表7和/或表11的变异体特异性地杂交。

19.一种探针组，其与选自表7和/或表11的基因变异体特异性地杂交。

20.根据权利要求17所述的方法，其中所述样品为患者样品。

21.根据权利要求20所述的方法，其进一步包含当选自表7和/或表11的变异体存在于所述患者样品中时，将所述患者诊断为患有膀胱癌、乳癌、子宫颈细胞癌、结肠腺癌、多形性成胶质细胞瘤、头颈鳞状细胞癌、透明细胞肾细胞癌、肾脏肾乳头状细胞癌、急性骨髓性白血病、脑低级别胶质瘤、肝脏肝细胞癌、肺腺癌、鳞状细胞肺癌、卵巢浆液性腺癌、前列腺腺癌、直肠腺癌、皮肤黑素瘤、胃腺癌、甲状腺癌或子宫体子宫内膜样癌。

22.一种经分离基因构筑体，其包含选自SEQIDNO:1-257的序列的反义聚核苷酸序列。

23.根据权利要求22所述的经分离基因构筑体，其进一步包含可操作地连接于所述反义聚核苷酸的启动子。

24.根据权利要求23所述的经分离基因构筑体，其为载体。

25.根据权利要求24所述的经分离基因构筑体，其中所述载体为病毒载体。

26.一种包含使包含基因融合体的细胞与药物接触的方法，其中所述基因融合体公开于表4和/或表5中且所述药物为表8中的药物中的一者或多者。

27.一种包含向具有基因融合体的患者投与药物的方法，其中所述基因融合体公开于表4、表5、表6、表20和/或表23中，且所述药物为表8、表16、表17、表21和/或表24中的药物中的一者或多者。

28.根据权利要求27所述的方法，其中所述患者经诊断患有癌症。

29.根据权利要求28所述的方法，其中所述癌症为公开于表1、2、3、19和/或22中的任一者中的癌症类型。

30.一种包含使来自患者的核酸样品与包含两种引物的反应混合物接触的方法，其中第一引物与一种基因互补，且第二引物与第二基因互补，其中所述第一基因和所述第二基因的融合体可通过利用所述第一引物和所述第二引物生成的扩增子的存在来检测，其中所述融合体断裂点为表4、表5、表6、表20或表23的断裂点中的一者，且其中具有扩增子的患者被投与表8、表16、表17、表21或表24中的药物中的一者或多者。

31.一种包含执行生物分析以检测来自受试者的样品中的一种或多种基因融合体的方法，其中所述基因融合体中的至少一者是选自表1、表2、表3、表19和表22中的那些，将所述生物分析的结果接收到计算机系统中，处理所述结果以确定输出，将所述输出呈现在可读媒体上，其中所述输出基于所述基因融合体的存在或不存在来确认推荐给所述受试者的治疗选择。

32.根据权利要求31所述的方法，其中所述生物分析包含对表4、表5、表6、表20和表23的断裂点中的一者或多者具有特异性的探针。

33.一种试剂盒，其包含：

一个探针组，其中每一探针与包含来自表4-6、20和23的断裂点的核酸特异性地杂交。

34.根据权利要求33所述的试剂盒，其中每一非天然存在的探针包含：

经配置以与所述包含来自表4-6、20和23的断裂点的核酸特异性地杂交的核酸序列，和

共价键结于所述核酸序列的可检测部分。

35.根据权利要求33所述的试剂盒，其中每一非天然存在的探针包含：

脱氧核糖核酸序列，其包含至少一个脱氧尿苷(dU)残基代替一个脱氧胸苷残基。

36.一种方法，其包含：

扩增来自样品的包含来自表1-3、19和22的至少一种基因融合体的核酸；以及

通过以下各项中的至少一者检测所述至少一种基因融合体的存在：使组合物与至少一种探针接触，其中每一探针与所述核酸特异性地杂交，或观察所述核酸中的非天然或非原生化学结构的存在；

其中检测所述至少一种基因融合体的存在指示至少一种来自表1-3、19和22的癌症存在于所述样品中。

37.一种系统，其包含：

核酸扩增器，其经配置以扩增来自样品的包含来自表1-3、19和22的至少一种基因融合体的核酸，得到经扩增核酸；

检测器，其经配置以通过以下各项中的至少一者检测所述经扩增核酸中的所述至少一种基因融合体的存在：(i)使组合物与至少一种探针接触，其中每一探针与所述核酸特异性地杂交，或(ii)观察所述核酸中的非天然或非原生化学结构的存在，且经进一步配置以发送检测指示；以及

计算机系统，其经配置以接收所述检测指示，且基于所述检测指示来确定来自表1-3、19和22的至少一种癌症存在于所述样品中。

38.一种非暂时性计算机可读程序存储单元，其经指令编码，所述指令当由计算机执行时执行一种方法，所述方法包含：

接收包含至少一种癌症类型和事件类型的输入，其中所述癌症类型选自表15或表39，且所述事件类型选自表15；

在数据库中查询至少一个包含多个字段的条目，其中所述多个字段包含所述癌症类型和所述事件类型中的至少一者；

发送包含来自所述至少一个条目的所述多个中的至少一个字段的输出，其中所述至少一个字段包含至少一种基因、至少一种可药化基因、至少一种靶向所述至少一种可药化基因的药物、或预后。

39.一种方法，其包含：

向具有选自表1-3、19和22中列出的基因融合体的至少一种基因融合体的患者投与选自表8、16-17、21和24中列出的药物的至少一种药物。

40.一种方法，其包含：

使来自患者的核酸样品与包含与第一基因互补的第一引物和与第二基因互补的第二引物的反应混合物接触，其中所述第一基因和所述第二基因的融合体可通过由所述第一引物和所述第二引物生成的扩增子的存在来检测，其中所述融合体包含选自表4-6、20和23中列出的断裂点的断裂点。

41.根据权利要求40所述的方法，其中回应于所述融合体的检测，将选自表8、16-17、21和24中列出的药物的至少一种药物投与所述患者。

42.一种非暂时性计算机可读程序存储单元，其经指令编码，所述指令当由计算机执行时执行一种方法，所述方法包含：

接收来自至少一种癌细胞系的RNA序列数据；

对所述序列数据运行至少一种基因融合体调用程序，以鉴别所述经处理数据中的融合基因之间的可能的断裂点；

过滤所述可能的断裂点以保留候选断裂点，其中每一候选断裂点是在功能基因区的5'非翻译区(UTR)或编码DNA序列(CDS)中，且每一候选断裂点不出现在内含子中；

用适用于针对癌症诊断、癌症预后或癌症治疗中的至少一者测定基因融合体的相关性的至少一种注释对所述候选断裂点进行注释，其中所述基因融合体包含所述候选断裂点。

43.根据权利要求42所述的非暂时性计算机可读程序存储单元，其中所述至少一种基因融合体调用程序选自TopHat和deFuse。

44.一种非暂时性计算机可读程序存储单元，其经指令编码，所述指令当由计算机执行时执行一种方法，所述方法包含：

接收来自至少一种癌细胞系的突变数据；

用变异体分类、变异体位置或变异体变化中的至少一者对所述突变数据进行注释，得到经注释的突变数据；

过滤所述经注释的突变数据，得到基因区域突变数据；

将所述基因区域突变数据归类为热点、有害或其他；以及

基于所述基因中的突变相对频率和所述基因中所有基因区域突变的分类，将包含所述基因区域突变的基因命名为获得功能、失去功能或再现的其他基因。

45.根据权利要求44所述的非暂时性计算机可读程序存储单元，其中所述变异体分类选自剪接位点、3'非翻译区(UTR)、5'UTR、内含子、错义、无义、无终止、沉默、框移插入、框移缺失、框内插入、框内缺失或非编码外显子。

46.根据权利要求44所述的非暂时性计算机可读程序存储单元，其中过滤所述经注释的突变数据包含将在已知转录物外的突变和与已知基因不相关的突变排除。

47.根据权利要求44所述的非暂时性计算机可读程序存储单元，其中将所述突变归类为热点包含测定其在至少三种癌细胞系中的相同变异体位置处的存在，其中所述变异体分类是错义、无终止、框内插入、框内缺失或非编码外显子。

48.根据权利要求44所述的非暂时性计算机可读程序存储单元，其中将所述突变归类为有害包含观察所述变异体分类是无义、框移插入或框移缺失。

49.一种方法，其包含：

检测来自受试者的样品中的一种或多种基因融合体，得到基因融合体检测数据，其中所述基因融合体中的至少一者是选自表1-3、19和22中列出的基因融合体，

通过计算机系统接收所述基因融合体检测数据，

基于所述基因融合体检测数据，通过所述计算机系统确认推荐给所述受试者的至少一种治疗选择。

50.一种系统，其包含：

检测器，其经配置以(i)检测来自受试者的样品中的一种或多种基因融合体，得到基因融合体检测数据，其中所述基因融合体中的至少一者选自表1-3、19和22中列出的基因融合体和(ii)发送所述基因融合体检测数据；以及

计算机系统，其经配置以接收所述基因融合体检测数据且基于所述基因融合体检测数据来确认推荐给所述受试者的至少一种治疗选择。

51.根据权利要求10所述的基因融合体，其中所述基因融合体通过一种方法制备，所述方法包含：

分离包含所述基因融合体的RNA分子；以及

合成与所述经分离RNA分子互补的互补DNA(cDNA)分子。

52.一种包含执行生物分析以检测来自受试者的样品中的一种或多种基因的表达的方法，其中所述基因中的至少一者是选自表40中的那些，将所述生物分析的结果接收到计算机系统中，处理所述结果以确定输出，将所述输出呈现在可读媒体上。

53.根据权利要求52所述的方法，其中所述输出基于所述基因的表达水平确认推荐给所述受试者的治疗选择。

53.根据权利要求52所述的方法，其中所述生物分析检测TP53WT标签。

54.根据权利要求53所述的方法，其中所述样品来自肺癌、乳癌、卵巢癌或其组合。