CN107341364A

CN107341364A - 包含mdm2的双微染色体及其方法

Info

Publication number: CN107341364A
Application number: CN201710189263.5A
Authority: CN
Inventors: J·Z·桑伯恩; C·J·瓦斯克; S·C·本茨
Original assignee: Five3 Genomics LLC
Current assignee: Five3 Genomics LLC
Priority date: 2011-12-08
Filing date: 2012-12-07
Publication date: 2017-11-10
Also published as: KR101768652B1; JP6268230B2; JP6672250B2; US20140350130A1; EP2788770A1; KR20150006413A; KR101906254B1; JP2018075024A; KR20160099726A; AU2012347522A1; JP2016195604A; US20170011167A1; EP2788770B1; JP6072819B2; AU2015238811B2; CN104094120B; US20170159133A1; JP2015500034A; AU2015238811A1; US10774384B2

Abstract

构思的系统和方法允许利用利用配对末端序列分析和拆分读数细化来进行计算基因组分许，从而标识与重排的高拷贝数和取向相关联的高置信度断裂点，然后将这些高置信度断裂点作为双微体(DM)全重构的基础。在特别优选的方案中，DM还包括致癌基因或肿瘤抑制基因，和/或可见于血液或从血液中获得的流体中。

Description

包含MDM2的双微染色体及其方法

本申请是申请号为201280068336.0、发明名称为“包含MDM2的双微染色体及其方法”的发明专利申请的分案申请。

本申请要求递交于2011年12月8日的序号为61/568,513以及递交于2012年3月28日的序号为61/616,535的美国临时专利申请的优先权。该文献以及本文中所论述的所有其他外来材料的全部内容通过引用合并于此。在并入的参考文献中的术语的定义或使用与本文所提供的该术语的定义不一致或相悖的情况下，在本文中提供的该术语的定义适用，而参考文献中该术语的定义不适用。

技术领域

本发明的领域是分子诊断，特别涉及基因组重排的分析和标识。

背景技术

全基因组测序的引入已经为研究者提供了前所未有的测量大多数癌症的基因组重排特性的复杂状态的能力。已经开发出多种从配对末端测序数据推断结构变化的方法(Bioinformatics(2009)；25:i222-i230；Nature Methods 2009August；6:677-681；NatureGenetics 2011March；43:964–968)，但是这种方法所谓的结构变化通常仅隔离地考虑，主要用来标识潜在的融合基因。发现所有真正的结构变化以及滤除虚假肯定的难度使得难以利用当前已知方法的输出来重装肿瘤基因组的大部分区域。这种难度特别不幸，因为正确的肿瘤基因组装配有助于展现出肿瘤基因组的复杂结构并且可用于推断诸如致癌基因的放大和肿瘤抑制因子的删除的体细胞变更出现的机制。

快速地降低成本以及全基因组测序的增加的数据分辨率也指望涌现出从血液进行癌症诊断的新种类。例如，Leary等人(SciTransl Med 2010Feb.；2(20):20ra14)开发了重排末尾(PARE)的个性化分析，其利用了体细胞重排来构建对于复发的基于血液的诊断化验。虽然该新颖的方法提供了用于监控的有力骨架，但是通常需要活体检视的肿瘤组织的分析来发现待在血液中测量的特定标记物。其他监控技术，诸如测量循环肿瘤细胞，需要仅当具有转移性潜能的肿瘤存在时才可能的大的富集努力(Cancer Lett.2007Aug.；253(2):180–204)。这两种技术提出了技术挑战，这使得它们不适合初期肿瘤诊断。

公知的是，双链DNA在细胞的细胞质中会变得极度放大且成环状，形成了所谓的双微体(Cancer Genet.Cytogenet.1982Feb.；5(1):81–94)。已表明，双微体(DM)对于一些药物给予阻力，而且沿着该阻力非均匀地传递给子细胞。经观察，它们的尺寸已高达几兆碱基，并且包含类似于实际染色体的染色质，但是缺少在正常染色体中可见的着丝粒或端粒。因为DM缺少着丝粒，它们在细胞分裂过程中随机分布到子细胞，并且它们在未来的代中会丢失，除非存在某种选择性压力来保持它们。然而，DM的随机分布还提供了简单的快速放大继代中的致癌基因DM的机制，其中细胞可累积双微体的数百拷贝。虽然多形性成胶质细胞瘤(GBM)中的双微体的频率大部分未知，但是Fan等人的近期研究(J.Appl.Genet.2011Feb.；52(1):53–59)已经将成神经细胞瘤标识为具有次高的DM量，提供了如下可能性：在GBM肿瘤中的频率放大的致癌基因中的一些可能通过致癌基因双微体的形成和累积来解释。

尽管存在三十年前最初标识了DM的事实，但是在文献中没有证据表明，已经进行过DM的全面序列分析。因此，对于改进的诊断方法，尤其是对于改进的可能与DM的存在相关联的肿瘤组织的基因分析的方法，仍存在需求。

发明概述

发明主题涉及到方法和计算系统，其中全基因组配对末端序列分析使得能够经由高置信度的断裂点和关联的高拷贝数的标识来进行基因重排的快速且全面的标识，从而完全重构通常包含与赘生物相关联的极度放大的致癌基因的完整DM。

在本发明主题的一个特别优选的方案中，分析基因组数据的方法，包括：确定肿瘤基因组序列与匹配的正常基因组序列之间的相对拷贝数的步骤；以及标识肿瘤基因组序列和匹配的正常基因组序列中的推定断裂点的另一步骤。在另一步骤中，细化推定断裂点，优选地利用将肿瘤基因组序列分段并且将片段与基准数据库进行比较，从而肿瘤基因组序列的断裂点位置和取向，而且在另一步骤中，使用读数支持阈值(例如，用户确定的)来将断裂点确认为显著断裂点。在又一步骤中，利用相对拷贝数、所述显著断裂点和所述取向来确定具有环形解的基因组排列(其可指示双微染色体)。

在特别优选的方案中，确定相对拷贝数的步骤是利用动态加窗来执行的，和/或其中利用不一致配对读数来执行标识推定断裂点的步骤。虽然不限于该发明主题，通常优选的是，通过生成断裂点图并且求解断裂点图而达到环形解来确定基因组排列。

在另一构思的方案中，肿瘤基因组序列来自实体瘤，而肿瘤基因组序列与存在于生物流体(例如，血液、血清、血浆、抽出物等)中的遗传物质隔离。例如，实体瘤可以是多形性成胶质细胞瘤或非小细胞肺癌。

从不同的视角看，构思的分析基因组数据的方法可以包括：在达到断裂点的读数支持阈值(优选地为用户定义的)时，将肿瘤基因组序列的拷贝数与肿瘤基因组序列中的断裂点相关联的步骤；以及确定肿瘤基因组序列的取向的步骤。这些方法还包括：利用拷贝数、断裂点的位置和肿瘤基因组序列的取向来确定基因组排列的步骤。典型地，但不是必要的，通过利用肿瘤基因组序列的拷贝数、断裂点在基因组内的位置以及肿瘤基因组序列的取向生成断裂点图来执行确定基因组排列的步骤，其中在断裂点图中，拷贝数表达为边缘，并且其中断裂点位置表达为顶点。

在发明主题的另一方案中，分析实体瘤的基因组数据的方法包括：将实体瘤标识为其中肿瘤基因组的至少部分存在于生物流体中的步骤；以及从患者体中获得生物流体并且隔离肿瘤基因组的至少部分的另一步骤，然后使用其来分析基因组数据，如上文和在发明详述中所描述的。最常见的是，肿瘤基因组的部分作为可能包括致癌基因或肿瘤抑制基因的双微染色体而存在。因此，构思的方法还可以包括：标识肿瘤基因组的隔离的至少部分内的致癌基因或肿瘤抑制基因的步骤。在该情形下，该方法还包括：利用以致癌基因或肿瘤抑制基因为目标的药用方案来治疗或建议治疗患者的步骤。

在发明主题的又一方案中，分析实体瘤(例如，多形性成胶质细胞瘤或非小细胞肺癌)的基因组数据的方法将包括：从患者体中获得生物流体(例如，血液、血清、血浆等)并且将肿瘤基因组的至少部分与生物流体隔离的步骤；以及判定致癌基因(例如，野生型或EGFR、c-Myc或MDM2的突变体形式)周围的区域是否展现出指示放大的双微体的成簇断裂点图案的另一步骤。优选地，如上文所描述的且如发明详述中所描述的，执行判定。

因此，发明人还构思了从头诊断肿瘤病(例如，胃癌、结肠癌、前列腺癌、肺癌、白血病或乳腺癌)的方法，其包括：从患者体中获得生物样本以及将核酸与样本隔离的步骤，以及对于基因组样本的拷贝数以及基因组样本中的断裂点来分析核酸的另一步骤。在又一步骤中，在达到断裂点的读数支持阈值时，基因组序列的拷贝数与基因组序列中的断裂点相关联，并且确定基因组序列的取向。在又一步骤中，利用拷贝数、断裂点的位置和基因组序列的取向来确定基因组排列，并且如此标识出的基因组排列用来确定肿瘤病的可能性。在发明主题的至少一些方案中，基因组排列被标识为双微体，和/或包含致癌基因或肿瘤抑制基因。

本发明主题的各个目的、特征、方案和优点将从下面连同其中相似标记表示相似部件的附图的图一起对优选实施方案的详细描述中变得更加清晰。

附图说明

图1是描绘根据本发明主题的推定结构变型例的初始标识的示例图。

图2是描绘图1的推定结构变型例中断裂点的细化分析的示例图。

图3是根据本发明主题的示例性的断裂点图。

图4是用于体细胞断裂点的读数支持的示例性的直方图。

图5是描绘高拷贝数和高度支持的断裂点的示例性的基因组浏览器显示。

图6是图5所示的数据和用于断裂点图的环形解的详细试图。

图7描绘了描绘出染色体7和12上的高的拷贝数以及高度支持的断裂点的示例性的基因组浏览器显示。

图8是图7所示的所选数据和断裂点图的环形解的详细试图。

图9是示例性地描绘根据本发明主题的用于基因组分析的构造和系统的示意图。

图10A和10B是用于第一肿瘤样本中的重排模式和对应的环形解的示例性图示。

图11A和11B是用于第二肿瘤样本中的重排模式和对应的环形解的示例性图示。

图12A和12B是用于另一肿瘤样本中的重排模式和对应的环形解的示例性图示。

发明详述

发明人已经发现，通过标识高置信度的断裂点和关联的高拷贝数，以及通过分析数据以达到重排绘图中的环形解，能够进行基因组分析以标识出全基因组序列数据中的一个或多个DM。

为此目的，发明人开发并使用能够标识出高置信度断裂迪娜、片段取向以及全基因组测序数据的分析的算法，这最终使得对在多种情况下包含极度放大的致癌基因的完整DM进行完全重构。例如，发明人使用了从Cancer Genome Atlas(Nature 2008Oct.；455(7216):1061–1068)获得的两个多形性成胶质细胞瘤(GBM)样本序列来用于完整DM的完全重构。另外，发明人还发现了同一患者的血液样本中的DM的证据，表明GBM肿瘤细胞正将致癌DM脱落于血流中。特别优选的算法包括BAMBAM，其描述域通过引用合并于此的US 2012/0066001和US 2012/0059670中。本文所提出的方法和计算系统使得能够经由全基因组配对末尾测序来进行基因重排的快速且全面的标识。更特别地，发明人采用了下面描述的系统和方法来分析全基因组测序数据，从而达到表示描述完全重构的DM的结果。

在下面的论述中，多次提到由计算设备形成的服务器、服务、接口、入口、平台或其他系统。应当理解，这些术语的使用视为代表具有配置为执行存储在计算机可读有形、非暂态介质上的软件指令的至少一个处理器的一个或多个计算设备。例如，服务器能够包括以实现所描述的作用、职责或功能的方式作为网页服务器、数据库服务器或其他类型的计算机服务器而运行的一个或多个计算机。

在发明主题的一个示例性方案中，确定拷贝数和推断结构变化如下。

计算肿瘤与匹配的正常之间的相对拷贝数：利用动态加窗方法来计算肿瘤对正常相对拷贝数，动态加窗方法根据肿瘤或正常测序数据集中的读数覆盖率来扩大和缩小窗的基因组宽度。用零宽度的窗来初始化该过程。来自肿瘤和匹配的正常序列数据两者的每个超过某些品质阈值(例如，读数映射品质)的读数将被分别计数为肿瘤计数N_tumor和正常计数N_normal。第一读数的起始位置和停止位置限定了初始的窗宽，并且随着更多的读数被采集，窗宽扩大以包含所处理的所有读数的最小起始位置和最大停止位置。

当满足下面的条件时进行相对拷贝数计算：来自肿瘤或匹配正常数据集的读数计数超过了固定为100个读数的用户定义的上下阈值。当这种情况发生时，记录窗的尺寸和位置、原始读数计数N_tumor,N_normal以及相对拷贝数计算N_tumor/N_normal。然后，对于下一次采集和计算，将所有的值复位。通过根据局部读数覆盖率来修整N_normal的尺寸，该方法在低覆盖率区域中产生了大的窗以提高信噪比，而极度放大的区域将产生较小的窗，提高扩增子边界的分辨率。

利用配对末端成簇来推断结构变化的区域：为了标识推定染色体内和染色体间重排，bambam搜索存储在一对按坐标分类的BAM文件中的不一致配对读数，一个来自肿瘤样本，另一个来自匹配的正常样本，其中不一致配对中的每个读数映射到基准序列的不同区域。染色体内一致配对是那些具有异常大的插入尺寸(即，基准上将配对读数分开的基因组距离超过了用户定义的阈值)的配对或者那些在不正确取向上映射(即，倒位)的配对。通过映射到不同染色体的配对读数来定义染色体间不一致配对。在图1中示出了该过程的概览，该图示意性地描绘了结构变化调用的概览。bambam利用不一致映射的读数配对来识别推定结构变化的初始标识，其中两个读数完全映射到基准基因组，但是以异常的、非基准的方式来这样做。随后通过称为bridget的程序利用在断裂点邻近处的任何可用拆分读数来细化bambam所发现的推定断裂点。

来自肿瘤和正常数据集的所有不一致的配对末尾读数根据其基因组位置而成簇以定义断裂点所被视为的适当的基因组区域。聚集过程包括将在推定断裂点的两侧上与其他读数重叠且具有相同取向的读数群集在一起，同时对来自于肿瘤和正常数据集的读数的数量进行跟踪。当簇中重叠的不一致配对的数量超过了用户定义的阈值时，在输出中定义和记录了描述重排的断裂点。

如果断裂点被来自肿瘤数据集的读数显著地支持，则断裂点被分类为“体细胞”。允许来自匹配的正常数据集的“体细胞”断裂点的最小量的读数支持适应一定水平的肿瘤DNA存在于匹配的正常样本的情况。当存在于实体瘤的DNA中的极度放大的区域以低的而可检测的水平脱落到血流中时，这种情况会发生。可替代地，在为血液性癌症的情况下，期望在匹配的正常样本(通常是表皮)中存在高水平的肿瘤渐渗现象。能够根据在匹配的正常样本中期望的肿瘤“污染”量来调节匹配的正常数据集中所允许的体细胞断裂点的支持量。“自然突变”断裂点是那些在肿瘤和匹配的正常数据集中都具有显著支持或者仅在匹配的正常数据集中具有支持的断裂点。在该分析中不考虑这些断裂点，因为这些重排与所着手的问题无关。而且，由于测序仪器所引发的伪迹、样本制备(诸如全基因组放大)或所采用的短读数映射算法中的系统偏差，这些断裂中的许多断裂点被视为假性的。

利用拆分读数进行结构变化的细化：bambam最初发现的断裂点是恰当的，因为它们使用了全映射读数，全映射读数本质上基本不覆盖断裂点的实际接合处，因为这代表了不存在于基准(或者在体细胞重排的情况下为匹配的正常数据集)中的序列。为了细化断裂点的位置，开发了称为Bridget的程序。

Bridget被给予bambam所发现的适当的断裂点并且搜索通过完全映射配对锚定在推定断裂点附近的所有未对齐读数。这些未映射读数中的每一个都具有成为与重排的断裂点接合处重叠的“拆分读数”的可能。围绕断裂点两侧的局部的基因组序列被分裂成一组独特小区(当前小区尺寸＝16bp)，并且构建小区序列及其在基准基因组中的位置的小区数据库。通过将读数分裂成相同尺寸的小区并且标记它们在读数内的位置，对于每个未对齐的读数来构造类似的小区数据库。将基准小区数据库和未对齐小区数据库相比较，确定基准中的每个未对准小区的基因组位置。通过确定在基准读数和未对齐读数中毗连的最大的一组小区，断裂点的每侧各一个，来计算这些位置的“双跨越集合”。

基准坐标中的双跨越集合的最小和最大基因组位置精确地确定了断裂点位置，以及接合处两侧的取向(或链向)。通过描述断裂点的左右边界的信息，完全地定义重排的序列，即，左侧由(例如，染色体＝chr1,位置＝1000bp,链＝正向)定义，右侧由(例如，染色体＝chr5,位置＝500,000bp,strand＝反向)定义。还通过这些双跨越集合来确定断裂点的序列同源性(即，短序列，诸如“CA”，在断裂点的两个边界上观察到为相同，但是在两个序列的接合处的对齐读数上仅观察到一次)。

对于每个未对齐的读数，双跨越集合确定了断裂点的潜在位置。因为每个未对齐读数可以确定断裂点的略微不同的位置(由于靠近断裂点的序列误差、重复参照等)，根据双跨越集合确定的所有断裂点位置用来生成可能的接合序列。所有的未映射读数与这些可能的接合序列中的每一个重新对齐，并且针对读数与原始序列对齐的良好程度来测量其对齐度的整体改进。产生了对齐得分的最大改进的接合序列被判断为真实重排的最佳候选。如果该最佳接合序列产生了对齐得分的可忽略的改进，则该接合序列被抛弃，因为其不大可能代表真实重排。在该情况下，还可以确定，拆分读数确认的缺乏是bambam所发现的原始结构重排可能为假性的证据。图2示意性地描绘了精确地标识发生了结构重排的基因组中的位置的示例性方法。对于潜在拆分读数和基准基因组两者都确定小区(或kmer)。确定双跨越集合(在该图的底部表示为深红色和紫色框)，其完全地定义了如何构造重排序列。双跨越集合对于拆分读数中的序列误差或SNP是稳健的。

一旦已经如上文所述利用拆分读数细化了结构变化，驱动实际上与极度放大的区域有关的一个或多个断裂点。更具体地，既定断裂点的支持与其连接的区域的拷贝数成正比。因此，通过需要断裂点具有高水平的读数支持，能够滤除作为拷贝中立重排的部分或导致低拷贝放大和删除而相反集中于肿瘤中作为极度放大区域的部分的断裂点上的断裂点。选择特定的读数支持阈值，使得去除具有肿瘤基因组的拷贝中立区域所期望的读数支持的断裂点。

然后，通过遍行断裂点图来重构扩增子。例如，类似于近期公开的方法(GenomeRes.，2011年10月12日)，发明人通过描述代表肿瘤基因组的放大片段的一组边缘和将边缘彼此连接的一组有向顶点来构造断裂点图。此处，边缘被定义为在相对拷贝数中观察到的肿瘤基因组的放大片段，而顶点是以上述方式发现的极度被支持的断裂点。如果放大片段被断裂点中断，则该片段将在中断断裂点的位置处拆分成两个边缘。

通过根据基因位置来布置片段，发明人通过从第一放大片段的最左侧位置开始且朝向右侧前进直到遇到向右取向的顶点来确定代表重排的肿瘤序列的边缘排列。通过跟随顶点到达其所连接的片段且沿出射顶点所规定的方向(左或右)移动，路径继续。当已经遍历通过所有边缘和顶点的路径至少一次时，得到了断裂点图的解。在图3中示出了玩具实施例的断裂点图及其解，证实了遍行断裂点图来重构重排序列。以片段“a”起始，将跟随离开的断裂点1到达右侧，进入片段“b”的左手侧。继续向右，将跟随离开的断裂点2，进入片段“c”的右手侧。该断裂点指向左，指示在重排序列的倒置取向中发现片段“c”。跟随最后的断裂点3回到片段“a”的左手侧，解释了拷贝数中的所有额外拷贝。因此，所发现的最后的解是“a b-c”。

给定这样松弛的约束，显然可以得到断裂点图的许多令人满意的解。然而，通过图的最优路径是那些与所观测到的相对拷贝数最密切一致的路径。解遍历既定片段的次数产生了该片段的拷贝数的估计。计算对于每个解所观测到的相对拷贝数的片段遍历计数的均方根偏差(RMSD)，然后，将具有最小RMSD值的解被标记为最优。

实施例

发明人将上述方法应用于两个多形性成胶质细胞瘤(GBM)样本，标示为TCGA-06-0648和TCGA-06-0152，两者均通过Cancer Genome Atlas(TCGA)项目测序。来自这些样本的肿瘤和匹配的正常(血液)测序数据集按如方法中所描述地进行处理，产生肿瘤对正常相对拷贝数估计，标识断裂点，并且执行拆分读数分析。两个样本的肿瘤基因组和正常基因组被测序成近似30x的平均覆盖率。

bambam标识出总共3,696个断裂点，其中bridget发现132个断裂点具有直接跨越推定断裂点的拆分读数。图4示出了在样本TCGA-06-0648中发现的所有体细胞断裂点的读数支持的直方图。通过将最小读数支持阈值设定成100，去除了bridget所支持的除了16个体细胞断裂点之外的全部体细胞断裂点。有益的是，这些高度支持的全部16个断裂点靠近染色体12的成簇区域中的极度放大的片段的边界，如图5所示，其中基因组浏览器显示样本TCGA-06-0648的相对拷贝数(“Overall Copy Number”，以灰度表示)以及高度支持的断裂点(“染色体间重排”和“染色体内重排”，断裂点支持>100个读数)。发现总共16个放大的片段，一个片段包含GBM肿瘤发生所涉及到的已知致癌基因MDM2。实际上，每一个放大的片段的边界能够与正确取向而使得其进入放大部或从放大部离开的单个断裂点相关联。这表明了，高度支持的断裂点和放大部相关并且实际上可代表肿瘤基因组中的放大片段的重排构造。

图6是因为它们靠的太近而不能在图5的浏览器绘图中可见而夸大了一些片段的尺寸和位置的这些相同数据的图。图6描绘了TCGA-06-0648断裂点图的环形解，表明了包含MDM2的放大后的双微染色体的存在。断裂点读数支持列为肿瘤读数计数/布尔读数计数，例如，1365/9意味着1,365个读数支持肿瘤中的断裂点，在血液中发现了9个支持读数。解列出了其新构造中片段的次序和取向，负号用于指示倒置取向上的片段。放大片段的拷贝数表示，在平均肿瘤细胞中存在的每个片段至少有40个拷贝。该图是断裂点图的直观表示，并且通过遍行断裂点图，找到了单个最优解。该解的令人关注的方面是，其是环形的，因为最后一个片段的最后遍历返回到起始位置，即，第一个顶点也是最后一个顶点。环形解确切通过每个片段一次，然而拷贝数表明存在肿瘤基因组中的每个片段的近似40个拷贝。为了解释那些额外拷贝，必须循环通过片段另外39遍。这些额外的拷贝可存在于多种不同的构造中，通过两个极端例证：(1)复制40个拷贝以按该精确的次序和取向来形成这些片段的未断裂的串联阵列，或者(2)形成单个自复制双微染色体，其中平均肿瘤细胞具有累积的40个拷贝。显然，后一选择更加节俭，因为其不需要在重排序列的近似同一位置(即，初始扩增子的边界顶点)发生40次接连的串联复制，而使得不丢失放大片段或者不以不同的浓度存在放大片段。因此，数据表明，包含MDM2的致癌基因DM存在于该GBM肿瘤样本中。

还显示在图6中的是用于肿瘤和血液测序数据集中的全部高度支持的断裂点的读数支持。首先要注意的是，断裂点在肿瘤中具有极高的支持度，一些断裂点由多于2,000个拆分读数支持。这是所期望的，因为重排限定了扩增子，并且扩增子以极高的拷贝数存在。更关注的是，每个断裂点还在患者血液中显示出惊人的高支持量。假设DM在一连串有丝分裂阶段之后丢失的倾向，DM起初存在于突变体中且保持数十年是不大可能的，仅仅在肿瘤生成过程中经过了放大。考虑到致癌基因DM不大可能为非癌症细胞提供选择性优势，这点尤其为真。更节俭的解决方案是，该致癌基因DM起初不是体细胞，在肿瘤生成之前或肿瘤生成过程中的某点被构造和放大。该DM为出现的肿瘤细胞提供的选择性优势导致累积更多DM拷贝的细胞相对于那些具有较少拷贝的细胞具有不同的生长优势，使得在假设为该DM的部分的区域中观察到具有均匀的高的拷贝数的肿瘤细胞群体。MDM2常见于致癌基因DM中的事实使得更加支持该假设(Genomics.1993Feb；15(2):283-90)。

通过在此处描述的方法处理另一GBM肿瘤样本TCGA-06-0152中的类似结果。图7显示的是染色体12的包括致癌基因CDK4和MDM2的极度放大区域以及染色体7的包括EGFR致癌基因的区域的浏览器截图。此处，显示了染色体(a)12和(b)7上的样本TCGA-06-0152的放大的片段和高度支持的结构变体(读数支持>100)的基因组浏览器绘图。注意，在图8中给出了将染色体12上的小的放大区域与染色体7上的放大区域连接的紫色的染色体间断裂点，这些断裂点包含了这些区域的EGFRA图。此处，显示出用于GBM样本TCGA-06-0152的断裂点图的环形解，其表明存在在肿瘤中放大的两个单独的致癌基因DM。MDM2+CDK4双微体的解遍历了一些片段多次，但是在观测到的相对拷贝数中解释了所有额外的遍历。20个断裂点中的11个断裂点表明了患者血液样本中的不一致读数证据。放大了两个染色体上总共29个片段，一些片段比其他片段显示出更高的相对拷贝数。发现了20个高度支持的断裂，如之前样本TCGA-06-0648那样，所有断裂能够唯一地与相对拷贝数中的不连续相关联。通过求解断裂点图，发现了两个独立的环形解。解(1)使用染色体12上除了两个染色体内断裂点之外的所有断裂点并且包含了致癌基因CDK4的一个拷贝以及致癌基因MDM2的两个拷贝。解(2)合并了跨越染色体7和12上的放大区域的两个染色体间断裂点以及染色体12上的两个染色体内断裂点，并且包含了致癌基因EGFR。这两个解表明，在该样本中形成并放大了两个DM，两个DM都包含了不同的致癌基因并且可能对于生长的肿瘤细胞提供显著的选择性优势。

解(1)还描述了通过放大片段的比在样本TCGA-06-0648中观测到的更复杂的路径。为了在解中合并所有高度支持的断裂点，一些片段必须被遍历多次。29个片段中的11个片段被遍历两次，一个小的片段被遍历三次。在相对拷贝数中观测到了由于这些遍历预期到的增加的拷贝数，其中平均肿瘤细胞包含该DM的近似35个拷贝。被遍历两次的片段具有大概70个拷贝数。被遍历三次的片段表现为与被遍历两次的片段相比具有增加的拷贝数(～85对～75)，但是该片段的小尺寸使其难以精确地计算出相对拷贝数。

如之前所述，在患者血液样本TCGA-06-0152中存在肿瘤断裂点的证据，但是比在血液样本TCGA-06-0648中观测到的程度更轻。20个断裂点中的11个断裂点具有较低水平的读数支持，而9个断裂点在血液中无读数支持。出现这种情况可能有多种原因。例如，血液数据可能在较低覆盖率下进行测序，使得经过任意既定体细胞断裂点的测序机率更低。可替代地，原因可能是生物固有的，由此一些机制诱发TCGA-06-0152肿瘤以比TCGA-06-0648低的速率将DM脱落到血流中，降低了血液中DM的观测浓度。

在DM特定断裂点的血液中存在肿瘤不一致读数则表明，这些GBM带来的DM经过血脑屏障且进入患者的血流中。最令人着急的是，血液中GBM带来的DM的数量使得利用仅从患者血液得到的平均覆盖率的测序数据就能够检测到DM特定的断裂点。虽然测序证据强有力地表明了致癌基因DM的存在，但是不得不对肿瘤和匹配的正常样本执行放大的致癌基因的FISH(荧光原位杂交)分析来确认该假设。

从另一视角看，应当理解的是，基因组不稳定性和结构重排是癌症集中于的区别性印记。通过下一代测序技术，发明人的测量由于肿瘤生成和发展而出现的结构重排的能力已显著提高，然而，对于辅助这些事件的更好理解的重排发现、分析和可视化方法产生了迫切的需求。

为解决这些难题，发明人的测序分析流水线使得各个肿瘤突变的发现、小的插入缺失、拷贝数改变、等位基因特定的放大和删除以及基因组重排合理化。例如，在一个代表性分析中，利用在可用的断裂点附近发现的未映射的】推定的拆分读数来将重排细化成断裂点精度。然后，呈现结果，优选地以交互式的、基于网络的基因组浏览器来呈现，提供高水平的、经处理的结果以及由其获得这些的原始数据的分析和可视化，这示意性地图示在图9中。

利用其匹配的正常序列来标识体细胞重排，测序分析流水线用来发现来自TheCancer Genome Atlas(TCGA)项目的17个全基因组多形性成胶质细胞瘤(GBM)肿瘤样本中的高置信度的、小规模和大规模的体细胞事件。在这些样本中标识出的＝的众多受关注的结构变型中，发明人发现了在可装配以便以碱基级别的精度构造环形双微染色体的极度放大区域中的具有复杂重排模式的两个肿瘤，如图10A/B和11A/B中所看到的。在血液测序数据中发现了双微体所特有的断裂点的证据，提高了可开发针对具体患者的基于PCR的化验以量化体细胞重排的存在从而用作监控脑肿瘤的进展的代理的可能性。

而且，发现了四个GBM肿瘤，它们展现出EGFR放大和重排，表明EGFRvIII突变基因的存在，由此删除了EGFR的外显子2-6。将EGFRvIII关联的断裂点的读数支持与邻近处正常映射的读数的量相比较，表明EGFRvIII突变出现在野生型EGFR的放大之后，作为肿瘤中EGFR拷贝的总数的小部分而存在。示例性的结果提供在图12A/B中。

因此，应当理解的是，将相对拷贝数与断裂点整合的能力提供了一种理解癌症细胞的基因组拓扑结构的新方式。更具体地，发明人证实，在肿瘤的极度放大的区域的情况下，观测到的拷贝数和高度支持的断裂点两者都能够通过求解简单的断裂点图来解释，断裂点图描述了肿瘤基因组中的极度放大的片段的次序和取向。

在此处论述的GBM样本中，放大的片段的断裂点图的最优解是环形的。这些环形解表明了，观测到的放大区域可能已经形成了称为双微体的环形染色体。在每个双微体上致癌基因的存在及其极度放大的状态表明了，双微体具有强的致癌基因潜能，将选择性优势赋予肿瘤细胞，并且它们的形成很可能是两个GBM肿瘤的肿瘤生成中的关键事件。

对于这些在两个肿瘤的发展中可能具有巨大影响的这些肿瘤基因组的部分的重构同等重要的是，专用于DM的几乎每个断裂点同样在该患者血液中具有可检测的读数支持。该发现表明，GBM带来的DM正通过某种机制进入血流，这特别重要，因为这表明了以致癌基因DM为特征的GBM肿瘤可利用血液样本来检测和监控，而无序在先的肿瘤测序。

这些致癌基因DM的一种可能的传输机制是经由微泡，微泡是从可包含各种细胞成分的大多数细胞了类型脱落的血浆膜的细胞外片段。研究表明，肿瘤细胞释放大量的包含多个子细胞微粒的微泡，包括核酸和蛋白质，其具有用于诊断和监控的潜能。起初，在从患有GBM肿瘤的患者体中提取的血清中标识出mRNA、miRNA和生血管蛋白质(Nat.CellBiol.2008Dec.；10(12):1470–1476)。近期，Balaj等人(Nat Commun 2011；2:180)已经隔离出包含具有放大的致癌基因序列的单链DNA(ssDNA)的微泡，特别是c-Myc。

检测血流中的DM的能力应当扩展至通常以包含已知致癌基因的极度放大DM为特征的其他癌症，诸如非小细胞肺癌中的EGFR和急性粒细胞性白血病中的EGFR。实际上，对于血流更可接近的肿瘤类型，通过这种方法检测DM的能力可以提高。此外，可以基于仅从血流中采集的的证据来规定特别地以通常经由基于DM的机制放大的基因为目标的药物，避免疼痛，并且在为GBM肿瘤的情况下，避免危险的肿瘤活体检视。

可以设想基于测序的化验，其并入了血液样本的全基因组测序数据以可靠地判定诸如EGFR、c-Myc、MDM2等已知的致癌基因周围的区域是否呈现出指示放大双微体的成簇的断裂点图案。将经过这些区域的不一致读数组合应当提高标识这些区域的能力，即使当血流中DM的浓度低时。如果微泡实际上传输DM，则富集微泡的技术将进一步提高从血液样本中检测低水平致癌基因DM的能力。

因此，基于上述，应当理解本文所提供的分子诊断工具能够用于无需疾病先验知识的肿瘤病的诊断和/或确认。最优选的是，生物样本是血液或血液的血清/血浆微量，但是还可以包括活体检视材料或抽出物。此外，可构思的是，这种诊断工具可适用于所有类型肿瘤病，特别是癌症(例如，各种癌、淋巴瘤和肉瘤)。

因此，发明人特别地构思了基因信息的一种或多种重排模式的用途和/或标识，最优选地，基因信息直接从全血(或经处理的其中的小部分)获得。最典型地，重排模式包括基因组重排，特别是环形分子由基因组物质形成(通常具有等于或小于3Mb的尺寸)。在特别构思的用途和方法中，环形重排的遗传物质包括致癌基因和/或肿瘤抑制基因的至少部分。然而，最典型地，环形重排的遗传物质将包括全功能或至少可全表达形式的致癌基因和/或肿瘤抑制基因。因此，能够通过各种治疗、诊断或预后方法哺乳动物的样本进行分析，优选地利用检测双微体的、特别是包括致癌基因和/或肿瘤抑制基因的双微体的简单血液测试。相反，以患肿瘤个体的血流中具有双微体(特别是包括致癌基因和/或肿瘤抑制基因的双微体)的观察为前提，应当认识到，通过对从患肿瘤个体(或者甚至是细胞培养或动物模型)隔离出的双微体进行分析，可以发现新的或至今未识别的致癌基因和/或肿瘤抑制基因。

基于进一步的观察，发明人还构思了，双微体相对于基因组信息的数值比例可用作疾病、特别是肿瘤病的指示的阈值。因此，双微体的分析可用作预测癌症危险或扩散的指导性指示符。当然，值得注意的是，双微体不一定需要包括用于这种分析的致癌基因和/或肿瘤抑制基因。

而且，可构思的是双微体中的致癌基因的类型还可能与特定类型的疾病相关联，特别是与肿瘤病相关联。因此，从全血进行基因重排的分析以及双微体中致癌基因和/或肿瘤抑制基因的标识/量化可以提供关于特定赘生物的类型、进展和/或危险。因此，多种基于全血的测试(例如，无分离、过滤等)被认为在疾病的诊断或预测中对于致癌基因的检测特别有利。例如，在确立具体断裂迪娜和以特定肿瘤类型为特征的重排时，可设计专门帮助标识这种重排(和DM)的存在和/或量的引子。类似地，可以在利用双微体的分析的方法中确定治疗效率或药物效果，特别是那些包括致癌基因和/或肿瘤抑制基因的双微体。这种测试方法在基于双链断裂(或其修复抑制)的一定的化学治疗剂和/或放射治疗的背景下特别有用。

基于能够从全血中大量地分离双微体的观察，发明人还构思了，双微体可与蛋白质、脂蛋白、脂类和/或囊泡结构以及特别是微泡相关联。因此，在双微体被包封在微泡中的情况下，应当理解的是，来自微泡的表面表位代表了微泡所源起的细胞。因此，能够基于微泡薄膜成分的分析来标识肿瘤起源(例如，组织类型)。

本领域技术人员显而易见的是，除了已经描述的之外，可以有更多的变型例，而不偏离本文中的发明构思。因此，除了在随附权利要求书的精神下之外，发明主题不受限制。而且，在解释说明书和权利要求书时，所有的术语应当以与上下文一致的尽可能宽泛的方式来解释。特别地，术语“包括”和“包含”应当解释为以非穷尽方式指代要素、部件或步骤，表明了所指代的要素、部件或步骤可以存在或利用或与未明确指代的其他要素、部件或步骤相结合。在说明书的权利要求书提到从由A，B，C...和N构成的组中选出的至少一个某物的情况下，该文本应当解释为仅需要来自该组的一个要素，而不是A加N、或B加N，等等。

Claims

1.分析基因组数据的方法，该方法包括：

确定肿瘤基因组序列与匹配的正常基因组序列之间的相对拷贝数；

标识所述肿瘤基因组序列与所述匹配的正常基因组序列中的推定断裂点；

细化所述推定断裂点以标识断裂点位置和所述肿瘤基因组序列的取向；

利用读数支持阈值将所述断裂点确认为显著断裂点；

利用所述相对拷贝数、所述显著断裂点和所述取向来确定具有环形解的基因组排列。

2.如权利要求1所述的方法，其中利用动态加窗来执行确定所述相对拷贝数的步骤，和/或其中利用不一致配对读数来执行标识推定断裂点的步骤。

3.如权利要求1所述的方法，其中通过生成断裂点图且求解所述断裂点图而达到所述环形解来确定所述基因组排列。

4.如权利要求1所述的方法，其中利用将所述肿瘤基因组序列分段且将片段与基准数据库进行比较来执行细化所述推定断裂点的步骤。

5.如权利要求1所述的方法，其中所述读数支持阈值是用户确定的。

6.如权利要求1所述的方法，其中所述环形解指示双微染色体作为所述基因组排列。

7.如权利要求1所述的方法，其中所述肿瘤基因组序列来自作为实体瘤的肿瘤，并且其中所述肿瘤基因组序列与存在于生物流体中的遗传物质隔离。

8.如权利要求7所述的方法，其中所述生物流体是血液。

9.如权利要求8所述的方法，其中所述实体瘤是多形性成胶质细胞瘤或非小细胞肺癌。

10.分析基因组数据的方法，该方法包括：

在达到所述断裂点的读数支持阈值时，将肿瘤基因组序列的拷贝数与所述肿瘤基因组序列中的断裂点相关联；

确定所述肿瘤基因组序列的取向；以及

利用所述拷贝数、所述断裂点的位置和所述肿瘤基因组序列的取向来确定基因组排列。

11.如权利要求10所述的方法，其中所述读数支持阈值是用户定义的读数支持阈值。

12.如权利要求10所述的方法，其中通过利用所述肿瘤基因组序列的所述拷贝数、所述断裂点在基因组内的位置以及所述肿瘤基因组序列的所述取向生成断裂点图来执行确定基因组排列的步骤，其中在所述断裂点图中所述拷贝数表达为边缘，并且其中所述断裂点位置表达为顶点。

13.分析实体瘤的基因组数据的方法，包括：

将所述实体瘤标识为其中肿瘤基因组的至少部分存在于生物流体中的肿瘤；

从患者体中获得所述生物流体并且将所述肿瘤基因组的所述至少部分隔离；以及

根据权利要求1或权利要求10的方法，利用所述肿瘤基因组的隔离的至少部分来分析所述基因组数据。

14.如权利要求13所述的方法，其中所述肿瘤基因组的所述至少部分作为双微染色体而存在。

15.如权利要求13所述的方法，还包括：标识所述肿瘤基因组的隔离的至少部分内的致癌基因或肿瘤抑制基因的步骤。

16.如权利要求15所述的方法，还包括：利用以致癌基因或肿瘤抑制基因为目标的药用方案来治疗患者的步骤。

17.分析实体瘤的基因组数据的方法，该方法包括：

从患者体中获得生物流体并且将肿瘤基因组的至少部分与所述生物流体隔离；以及

判定致癌基因周围的区域是否展示出指示放大双微体的成簇断裂点图案。

18.如权利要求17所述的方法，其中致癌基因是野生型或EGFR、c-Myc或MDM2的突变体形式。

19.如权利要求17所述的方法，其中确定步骤包括使用根据权利要求1或权利要求10的方法。

20.如权利要求17所述的方法，其中所述实体瘤是多形性成胶质细胞瘤或非小细胞肺癌，并且其中所述生物流体是血液。

21.从头诊断肿瘤病的方法，包括：

从患者体中获得生物样本并且将核酸与所述样本隔离；

对于基因组样本的拷贝数和所述基因组样本中的断裂点来分析所述核酸；

在达到所述断裂点的读数支持阈值时，将所述基因组序列的所述拷贝数与所述基因组序列中的所述断裂点相关联；

确定所述基因组序列的取向；以及

利用所述拷贝数、所述断裂点的位置和所述基因组序列的所述取向来确定基因组排列；以及

利用所述基因组排列来确定所述肿瘤病的可能性。

22.如权利要求21所述的方法，还包括将所述基因组排列标识为双微体的步骤。

23.如权利要求22所述的方法，还包括标识所述基因组排列中的致癌基因或肿瘤抑制基因的步骤。

24.如权利要求21所述的方法，其中所述肿瘤病是胃癌、结肠癌、前列腺癌、肺癌、白血病或乳腺癌。