CN104885090A

CN104885090A - 肿瘤克隆性分析的系统和方法

Info

Publication number: CN104885090A
Application number: CN201380061475.5A
Authority: CN
Inventors: J·Z·桑伯恩
Original assignee: Five3 Genomics LLC
Current assignee: Five3 Genomics LLC
Priority date: 2012-10-09
Filing date: 2013-11-07
Publication date: 2015-09-02
Also published as: CA2892308A1; IN2015DN03223A; US11183269B2; WO2014058987A4; EP2907062A4; WO2014058987A1; KR20150093658A; AU2013329356A1; EP2907062A1; EP2907062B1; US20150261912A1; JP2015531240A; IL238178A0; AU2013329356B2; AU2019201246A1

Abstract

本发明提供了基因组分析的系统和方法，提供了一种框架来确定肿瘤的克隆性、所有主要克隆的数目和比例以及用于区分它们的变异体。该探讨的系统和方法也允许将突变定相到亲本等位基因，从而确定它们在肿瘤细胞群体出现的时间，以及对于存在肿瘤活检中的污染正常组织的量提供准确的估计。

Description

肿瘤克隆性分析的系统和方法

本申请请求保护我们共同审理中的序列号为61/711467的美国临时申请的优先权，该申请于2012年10月9日提交，在此通过引用并入全文。

技术领域

本发明的领域是基因组数据的计算分析，特别是其涉及混合细胞群的克隆性状态的鉴定。

背景技术

随着全基因组数据的日益普及和全基因组测序的不断提速，如今可以得到大批量的数据，这便要求有意义的分析以将信息提供给临床医生或科学家来实现更有效的治疗或药物开发。

例如，现在可以从像“癌症基因组图谱”(TCGA)项目获得多种肿瘤和匹配的正常全基因组序列，而难以提取相关的信息。为了获得统计学相关数据，基因组测序的高覆盖度(例如，大于30倍)的需要，使问题变得更加复杂。这样的基因组信息即使以压缩的形式，通常可以达到数百GB，并在许多情况下，对多个这样的大数据集进行比较的有意义的分析是非常缓慢，并难以管理的，但是，对于发现相对于第二样本在任何给定样品中发生的许多基因组变化，是绝对必要的。最近，正如WO2013/074058中描述的，已经开发了系统和方法，通过避免大量输出文件的格式来实现信息的快速产生。该专利公布和本文中涉及的所有其它公布均通过引用并入全文，其程度相当于每个单独的公告或专利申请被特定地和单独地指出通过引用并入全文。如果并入的参考文献中的定义或术语的使用与本文提供的该术语的定义不一致或相反，本文提供的该术语的定义适用，引用文献中的术语的定义不适用。

尽管'048应用的系统比其它已知系统有了显著改进，但仍存在着各种各样的困难。例如，大多数的乳腺癌是临床异质性和基因组异质性的，是由几个不同病理和分子亚型组成的，所述不同病理和分子亚型往往使得基因组分析变得复杂。此外，为了洞察组织的肿瘤细胞中可能的肿瘤细胞演变和导致的克隆性，目前已知的方法不允许对这种基因组多样性去卷积。

因此，尽管基因组分析的许多方法是已知的现有技术，但所有的或几乎所有的方法都苦于一些缺点。最显著地，迄今已知的方法无法允许在分子水平上的肿瘤进展的鉴定，从而不能洞察克隆性和潜在的治疗功效。从另一个角度看，迄今已知的方法无法允许鉴定含有多个非同质细胞的样本中的克隆性和细胞群的克隆的关系。因此，仍然有需要提供一种改进的用于基因组分析的系统和方法，特别是提供关于克隆性、克隆比例、分子肿瘤进展的信息的，和/或基于这样的信息提供治疗方案的系统和方法。

发明内容

本发明涉及用于遗传分析的各种系统、装置和方法，特别是涉及用于鉴定样品中不同细胞克隆的存在和分布的基因组分析的各种系统、装置和方法，其中，所述样品包含一个或多个细胞的克隆群，所述鉴定样品中不同细胞克隆的存在和分布的基因组分析基于从样品中获得的基因组数据。在特别优选的方面中，所述分析基于来自肿瘤或其它异常细胞群的基因组DNA，并且不仅能够确定肿瘤或细胞群中的多个克隆，还能识别可能的克隆演变和/或克隆关系。

在本发明主题的一个方面，根据从肿瘤中获得的测序数据来体外确定肿瘤克隆性的方法，包括从测序数据确定测序数据中等位基因的拷贝数和等位基因比例的步骤，以及基于确定的拷贝数和确定的等位基因比例计算等位基因的等位基因状态的另一步骤。等位基因状态随后被用来确定肿瘤的克隆性。不限于本发明的主题，一般优选地，等位基因状态绘制或显示在等位基因状态图中(其可以是单或双等位基因状态图)。

在本发明的主题的至少一些实施方式中，拷贝数和等位基因比例的确定是通过序列分析程序(例如，BAMBAM)实施的，所述序列分析程序通过序列串的增量同步产生局部比对。在其他状态中，预期等位基因状态包括正常的拷贝数、单拷贝扩增、单拷贝/半合子缺失、拷贝中性杂合子缺失和两个等位基因扩增。

在本发明主题的进一步预期实施方式中，等位基因状态的计算包括正常污染的纠正，对于肿瘤和正常细胞使用主要与次要等位基因状态，和/或包括对于等位基因的混合比例Mb的确定(对于单克隆肿瘤是0或1，或者当肿瘤是多克隆时，大于0且小于1)。仍然可以进一步预期的是，等位基因状态的计算也可以包括测序覆盖水平的纠正，特别是在对肿瘤的覆盖水平比同一患者的相应的非肿瘤(例如，健康)样品的覆盖水平更高的情况下。

在需要时，预期的方法将进一步包括确定等位基因状态的地标(landmark)的步骤，其优选用于确定肿瘤中的一些不同的(相关或不相关的)克隆和/或肿瘤中的一部分克隆。此外，或可替代地，仍然可以进一步预期的是，突变可以与主要等位基因或次要等位基因有关，并且该突变等位基因比例可用于确定相对于等位基因状态的变化的突变发生的时间。

在本发明主题的另一个方面，肿瘤中的等位基因状态的体外可视的方法，包括：确定测序数据中等位基因的拷贝数和等位基因比例的步骤，以及基于确定的拷贝数和确定的等位基因比例计算等位基因的等位基因状态的步骤。在更进一步的步骤中，等位基因的等位基因状态绘制在等位基因状态图中，所述等位基因状态图为拷贝数-等位基因比例图(通常是主要等位基因比例)。

最典型地，等位基因状态图呈现使得等位基因状态图中的每个顶点对应于一个肿瘤等位基因状态，在多克隆肿瘤图中，具有等位基因的增加或缺失的克隆沿顶点间绘制的边缘绘制，和/或在多克隆肿瘤图中，具有除了等位基因的增加或缺失外的其他变化的克隆在顶点间绘制的边缘之间绘制。仍然可以进一步预期的是，对于正常污染，等位基因状态图可调。当然，应该理解的是，等位基因状态图可以是双等位基因状态图。

因此，从不同的角度来看，发明人也考虑了BAM服务器中接收多个基因组序列的读取的分析基因测序数据的方法，其中，所述多个基因组序列的读取是从同一患者肿瘤样品的基因组和正常样品的基因组中获得的。所述BAM服务器随后处理多个基因组序列的读取，以产生多个差分序列对象，所述差分序列对象包括肿瘤基因组中的等位基因的拷贝数和等位基因比例。分析工具(其耦合到BAM服务器)随后处理等位基因的拷贝数和等位基因比例，从而确定等位基因的等位基因状态。

在此类方法的典型实施方式中，差分序列数据库被耦合到所述BAM服务器和分析工具，使得所述BAM服务器将差分序列对象提供到差分序列数据库，并且使得所述差分序列数据库将所述差分序列对象提供到所述分析工具。此外，可以预期，分析工具生成图像输出，所述图像输出绘制了等位基因状态图中等位基因的等位基因状态。

在本发明主题的另一个预期的方面中，体外表征来自肿瘤的基因组信息的方法，包括确定肿瘤基因组中等位基因的等位基因状态的步骤，以及通过确定的等位基因状态识别肿瘤为单克隆肿瘤或为包括至少两个不同肿瘤克隆的步骤。

在这样的方法中，还考虑到使用所确定的等位基因状态，以识别肿瘤克隆的关系(例如，为不同且不相关的或相关的)。在克隆为相关的情况下，可以考虑到，所确定的等位基因状态可被用于确定不同肿瘤克隆的克隆来历。

因此，发明人也考虑体外表征肿瘤块中的肿瘤克隆的方法，在其中一个步骤中(如从BAM服务器)获取来自肿瘤块的基因组序列信息。在另一步骤中，所述基因组信息被用来确定肿瘤基因组序列信息中的等位基因的等位基因状态。在进一步的步骤中，确定等位基因状态图中等位基因的等位基因状态的位置(例如，通过图形显示设备或经由计算机模拟，或用数字表示)，并且通过所述位置识别克隆为单克隆或多克隆。例如，当等位基因状态的位置处于等位基因状态图的顶点上时，克隆为单克隆。

在本发明主题的又一个方面，发明人考虑提供用于治疗肿瘤的治疗信息的方法。在这样的方法中可以确定肿瘤的等位基因状态的信息，并且确定该肿瘤内(a)克隆或(b)克隆的演化模式的存在或出现，所述存在或出现表明了以下至少一种情况：(1)肿瘤对于药物治疗的敏感性，以及；(2)增加的耐药性或转移潜能的风险。最典型地，确定存在或出现的步骤基于以前的治疗数据，或经验的已知数据。

本发明主题的各种目的、特征、方面和优点将通过以下优选实施例的详细说明，连同所附附图变得更加清楚，附图中相同标号表示相同组成。

附图说明

图1A为肿瘤的演化的示例性图示，所述肿瘤起始于种系细胞，到初始肿瘤细胞，再到由肿瘤活检取样得到一群主要和次要克隆。

图2为单克隆肿瘤样品的模拟数据的示例性等位基因状态图(ASD)，所述样品为零正常污染(α＝0)。展示出不同的拷贝数变化的染色体区域被绘制成不同的阴影。该模拟肿瘤基因组展示了6种等位基因状态：正常、单拷贝扩增、半合子缺失、纯合子缺失、拷贝中性杂合性缺失(LOH)和多拷贝双等位基因扩增。

图3A-3D通过不同程度的正常污染物示出了图2的模拟单克隆肿瘤基因组的一组示例性的等位基因状态图：图3A示出0％正常污染物，图3B示出10％正常污染物，图3C示出50％正常污染物,以及图3D示出90％正常污染物，说明不同之处在于作为正常污染水平的函数的分辨率。

图4是图2的等位基因状态图图示,示出等位基因状态之间的一些可能的双向和单向过渡，其中单向过渡是那些涉及亲本染色体的不可逆损失的。

图5是肿瘤基因组的等位基因状态图，所述肿瘤基因组从前述附图表示的等位基因状态过渡到只有一个单拷贝缺失或增加的新的等位基因状态。这里当肿瘤包括两种不同的克隆/亚克隆的混合物时，过渡等位基因状态创建：克隆A由原始等位基因状态(2,1)、(5,2)和(1,0)定义。克隆B通过扩增和缺失改变这些状态以产生等位基因状态(2,2)、(4,2)和(2,0)。百分比表示克隆B存在于肿瘤群中的百分比，其中0％为克隆A的单克隆群，100％是克隆B的单克隆群。

图6是图2的等位基因状态图的示例性图示，其示出当等位基因状态被“跳过”时所产生的过渡等位基因状态，此情况在当肿瘤包括两个或多个不相关的，或远缘相关的克隆时会发生。在这种情况下，如果两个主要克隆的等位基因状态在主要和次要等位基因均不同时，在连接等位基因状态的边缘不能发现过渡状态。

图7A和7B是两个GBM肿瘤——GBM-06-0145(图7A)和GBM-06-0185(图7B)的等位基因状态图的示例性图示。拟合参数发现正常的污染分别为21.5％和14.6％。图7A仅描述克隆的等位基因状态，而没有证据表明过渡等位基因状态，说明GBM-06-0145是单克隆肿瘤；而图7B描述克隆状态以及多个过渡等位基因状态。由于过渡等位基因状态(标有(*))设有三个不同的混合物的百比例，此多克隆肿瘤必然由至少三个子克隆构成。图7B中描绘的黑色X代表“地标”等位基因状态，所述“地标”等位基因状态适用于确定GBM-06-0185的克隆混合物。

图8是描绘GBM-06-0145的单克隆核型的示例性图示。在该图的顶部示出的“相对覆盖度”和“等位基因比例”同时显示由BamBam观察到的结果输出，以及通过由单克隆和正常污染的混合物建模产生的计算出的覆盖度和等位基因比例。该真实数据与模拟数据的对比显示出很明显的一致性。下面的克隆核型显示肿瘤基因组的主要与次要等位基因状态，呈现出整个chr7和chr19的一个拷贝的扩增、chr10的一个拷贝的完全缺失以及chr9p的染色体臂水平缺失。

图9是GBM-06-0185的多克隆核型的示例性图示。该肿瘤中共鉴定有4个不同的克隆，其中克隆D确定为这群克隆的主要克隆，占肿瘤样品的42.7％。所有克隆都具有chr7、chr19和chr20的单拷贝扩增，chr10和chr22的单拷贝缺失和chr9p缺失。克隆B、C和D都在chr6缺失，但克隆B的缺失是灶缺失(focus loss)，而克隆C和D显示chr6q的染色体臂水平损失。克隆D进一步显示了chr9的整个拷贝的扩增。

图10是GBM-06-0152的多克隆核型的示例性图示。该肿瘤样本中鉴定有3个克隆，该肿瘤样本计算有24.1％的正常污染。所有克隆均含有chr1、chr19和chr20的扩增，chr10和chr22的缺失，以及与类似chromothripsis(染色体碎裂)的事件有关的chr12的灶缺失，所述事件创造了在前面的章节描述的两个DM。克隆B和C表现出chr7的扩增，以及chr1和chr2、chr3、chr4、chr8、chr13、chr17的非扩增性拷贝的缺失。克隆C进一步扩增chr8剩余的拷贝。

图11是GBM-06-1086的多克隆核型的示例性图示。该肿瘤样本中鉴定有4个克隆，该肿瘤样本计算有7.5％的正常污染。所有克隆均含有chr21的扩增，以及chr9和chr11的缺失。克隆C和D表现出显著的染色体缺失，缺失chr1、chr3、chr4、chr5、chr6、chr8、chr10、chr13、chr14、chr15、chr17、chr18和chr20。主要克隆D，占肿瘤样本的41.6％，进一步缺失chr18仅剩余的拷贝，并扩增chr19。黑箭头说明CDK2NA在克隆A和B中的位置，强调了后一克隆中CDKN2A的灶缺失的出现。

图12为双ASD相突变的示例性示图。肿瘤基因组的代表区域如图所示，由单拷贝增加的等位基因状态的区域、“正常”等位基因状态的区域、呈现CN-LOH的区域和呈现LOH的区域构成。扩增区域发现有三个突变，两个主要-相(红星)和一个次要-相(蓝星)。“正常”等位基因状态发现有两个突变，一个是主要-相，另一个是次要-相。两个呈现LOH的区域均有一个突变位于仅剩余的等位基因，并因此为主要-相。下面的双ASD示出了每个突变发现的位置，通过每个突变的经纠正的等位基因比例，MAFc来确定突变沿x轴的位置。注意单拷贝增加的等位基因状态的两个主要-相的突变的不同位置，其中只有存在在两个主要等位基因上的突变等位基因(即扩增前突变)在靠近单拷贝增加的主要等位基因状态的地方发现。另一个是在靠近单拷贝增加的次要等位基因状态的地方被发现，其正确地标明了突变存在在主要等位基因的仅一个拷贝上。最后，注意蓝色的次要-相突变发现都朝向双ASD的左半部。

图13为肿瘤GBM-06-0145的双ASD中的相突变的示意图。7个区域在图中被圈出：(A)扩增的等位基因状态的主要-相，其中呈现的MAFc表明突变仅存在在两个拷贝中的一个，(B)扩增的等位基因状态的主要-相，其中呈现的MAFc表明突变存在于两个扩增拷贝上，(C)主要-相，其中等位基因比例与LOH等位基因状态保持一致，(D)主要扩增的等位基因状态的次要-相，其中具有的MAFc与单一拷贝一致，(E)非定相的突变，其中具有的MAFc与扩增等位基因状态保持一致，以及(F)非定相的突变，其中具有的MAFc与LOH等位基因状态保持一致。

图14为肿瘤LUSC-34-2596的双ASD的相突变的示意图。这两个被包围的区域(a)和(b)展示了一些在平衡扩增的等位基因状态(2,2)的分别处于主要等位基因相和次要等位基因相的若干突变。在NDRG1的一个主要-相的突变发现处于具有匹配的MAFc的过渡等位基因状态。在BRAF和DNMT3A中的两个错义突变的位置，以及在TP53中的一个无义突变的位置在非相图显示，其中BRAF被置于高度扩增的等位基因状态，DNMT3A在“正常”的等位基因状态，TP53在CN-LOH状态。

具体实施方式

经发明人发现，一种遗传异质样品的克隆性可以通过一种使用等位基因状态模型(例如，表示为等位基因状态图)的方法可以容易地得到辨识，并且如此获得的克隆性的信息可以用于各种用途，包括分析、预后和诊断用途。

例如，本文预期的方法和系统提供了通过全基因组测序数据计算分析肿瘤群的能力，并且在需要的情况下，使用等位状态图可视评估肿瘤样品的克隆性。换个角度来看，现在可以通过肿瘤群的分解形成肿瘤细胞群的主要克隆并通过正常污染的预估，确定肿瘤的克隆混合物，以解释拷贝数和等位基因比例(优选使用如在WO2013/074058里描述的BamBam实施)。更进一步地，设想的系统和方法全用于所有主要克隆的全基因组核型确定和定相，这又允许推断多克隆肿瘤基因组的系统发生树，以确定克隆特异性拷贝数改变的出现的时间。最后，通过使用定相和突变等位基因比例，可以确定相对于它们包含拷贝数的改变突变出现的时间。

因此，在本发明主题的一个方面，应当理解的是，克隆性和计时信息将有助于更好地理解单个肿瘤的动态性质，其可以反映肿瘤类型，或者个体或组织对于肿瘤的存在或发展的反应。值得注意的是，所有的这些信息都可以从仅仅一个肿瘤活检中被发现，使得预期的系统和方法在体外诊断方法方面特别有用。

在本发明主题的另一个方面，应当理解的是，可以采用本文所考虑的基于系统发育的突变模型来分析相关样品的突变(例如，原发肿瘤和其转移)，来如此重建癌症扩散时的突变史。确定肿瘤的克隆性并鉴定所有包含该生长肿瘤块的主要克隆的能力开启了广泛的潜在临床应用，该克隆性和主要克隆全部来自单一活检的全基因组测序数据。例如，在新诊断病人的肿瘤被活检的情形下，所有主要的克隆通过克隆性分析法鉴定。然后，医生可以根据具体到进化树最远一端的克隆——祖肿瘤细胞的改变，使用这个克隆性分析来调整患者的治疗，有希望治疗初始肿瘤块时，衍生克隆也将成为攻击目标。另一方面，在患者被诊断为携有缓慢生长的肿瘤的情形下，在手术前一段较长的时间或化疗的开始的情况下可以安全地监测该肿瘤，可以执行一系列活检的克隆性分析，或者，通过长时期跟踪肿瘤的克隆组成，临床医生可以鉴定增长最快的克隆。通过设计治疗方案，其靶向并非目前的占优势克隆，而是靶向将成为占优势克隆的克隆，可会更有效地治疗癌症。

克隆性分析法还考虑到证明可用于更好地理解癌症的转移扩散。在这样的情况下，原发肿瘤和一系列转移的克隆性分析用于确定所有存在于所述扩散肿瘤的主要克隆。通过监测原发肿瘤和每个转移的克隆组成，可以确定每个克隆是如何扩散，并可以发现是否存在一个或多个特定的显示出增加的转移潜力的克隆。通过确定转移性克隆特有的特征，发明人考虑到，在另一病人的原发肿瘤的少数克隆中关于这些特征的出现的鉴定，“预警”信号可以被用于开发对于即将发生的转移的可能性的确定。

对于克隆性分析的数据采集的方法，优选地，通过系统和方法可以确定用以测定拷贝数和等位基因比例的基因组分析，在所述系统和方法中，从第一和第二组织样品(例如，健康和患病组织)中可以得到各自较大的基因序列字符串的多个相对较小的基因组序列的子字符串(例如，序列运行的短距离测序读数)。基因序列串随后通过至少一个对应的子字符串的一个或多个已知位置被增量同步，以产生局部比对。然后分析如此产生的局部比对(通常使用参考基因组序列)来生成局部比对内的第一和第二序列串之间的局部差分串，所述局部比对因此包含重要的差分信息(通常相对于参考基因组序列)。然后，使用本地差分字符串创建一部分或者甚至整个基因组的差分基因序列对象，最典型地，使用多个局部差分字符串。应当注意的是，产生局部比对和差分信息的增量同步，提供了各种技术优点，其包括整个基因组的处理速度的明显加快，以及产生等位基因的特定信息的能力(例如，拷贝数和等位基因比例等)。

在所述系统和方法中，应该理解的是，代替处理两个非常大的文件来产生另一个非常大的中间(甚或输出)文件，基因组范围的分析可以以多个明显较小的部分的形式实现，在基因组范围的分析中，所述较小的部分可以通过一个或多个子字符串的基因组内的已知位置与参照基因组比对。从另一个角度来看，比对是使用子字符串和参照基因组序列的已知位置，通过序列串的增量同步进行的，并且可以生成包括相对于参照基因组唯一的相关的变化的输出文件。因此，处理速度得到了显著提高，为获得有意义的输出产生所需的数据的量显著减少。更进一步地，应该注意的是，所述系统和方法还特别允许单体型/体细胞和种系变异召唤(germline variant calling)以及确定等位基因特异性拷贝数。此外，本文所提出的系统和方法适合用于SAM/BAM格式的序列信息。

例如，多个测序片段(例如，从同一供体的肿瘤样品和相应的非肿瘤样品的短读取)与相同的参考基因组比对，所述参考基因组用来系统化来自样品的测序片段。因此，所述方法使用来自同一患者和参考基因组的两个测序片段数据集(一个来自肿瘤，另一个来自相应的正常“种系”组织)，并读取数据集，使得在两个数据集中与相同的基因组位置重叠的所有序列(基于参照基因组和以子字符串的注释)都在同一时间被处理。这是处理此类数据最有效率的方法，同时也实现复杂的分析，而以序列化的形式完成所述复杂的分析是困难的或者不可能。序列化的形式是每个数据集自身处理，而仅仅在此之后合并结果。WO2013/074058中描述了一个特别合适的系统，通过引用将其并入本文。

基本思路

在第一近似中，肿瘤的生长是癌症细胞的群体。这个群体可以均质的，在那里所有的肿瘤细胞共享实质相同的遗传特征。据说此类肿瘤是单克隆的，因为与肿瘤细胞从其中增殖的祖肿瘤细胞相比，所有的肿瘤细胞拥有实质上相同的遗传变异体(例如，拷贝数改变、结构变异体、突变)。该祖肿瘤细胞可以是激发该肿瘤的第一个癌细胞，或者可以是获得了有利的突变之后的肿瘤细胞，所述有利的突变可以帮助得到完整的肿瘤群。

在另一方面，多克隆肿瘤生长被视为由肿瘤细胞的至少两个基因不同的克隆群体组成的肿瘤。在多克隆肿瘤中，每个克隆群从各自的祖克隆产生；每个祖克隆彼此间通过一些可观察到的变化而不同。因此，多个克隆群体可以是彼此显著不同，或(作为更常见的情况)，克隆群体是相关的，共享一组存在于所有肿瘤细胞或肿瘤细胞的一个大子集中的变体。例如，多克隆肿瘤可以包括多个主要克隆，其中主要克隆代表计算可检测的克隆(通常代表肿瘤群体的10％)，而同样的多克隆肿瘤可进一步包括用任何给定的方法都不可检测的许多次要克隆。

此外，应当注意，单个突变可以分类为克隆或亚克隆。在这种情况下，当特定肿瘤的占优势克隆被发现时，克隆变体是那些由任何或所有占优势克隆的所有肿瘤细胞共享的变体。从不同的角度看，克隆变体在细胞的整个群体或多克隆亚群实现完全外显。亚克隆变体是那些只以属于克隆群体的一小部分的细胞存在的变体。

图1提供了上述肿瘤模型及其演化的例子，其中初始生殖系细胞获得了关键的肿瘤抑制基因(M1)的无义突变，并扩增支持肿瘤的初始生长的致癌基因(A1)。在这种肿瘤的发展初期，另一种肿瘤抑制基因缺失(D1)导致肿瘤细胞生长甚至更为迅速，使得该缺失发生的细胞迅速反超整个肿瘤群体。在获得D1缺失之后不久，细胞还获得了一组中性的突变(M2、M3)，中性的扩增(A2、A3)和中性的缺失(D2，D3)。因为这些变体发生在此肿瘤细胞变体的克隆扩增的初期，但不提供任何选择性优势，肿瘤细胞群体被分成两个“主要克隆”，其中25％的肿瘤细胞具有中性变体(M2，M3，A2，A3，D2和D3)，75％的肿瘤细胞则没有。在这种肿瘤的更进一步的发展过程中，额外的突变(M4，M5)上出现在两个主要克隆之一，但没有机会在病人死亡和/或组织活检之前通过群体蔓延。

在图1的例子中，肿瘤群体是多克隆的，其两个主要的克隆定义如下：克隆(1)具有变体M1、A1和D1，克隆(2)共享克隆(1)的变体，但除此之外，还具有变体M2、M3、A2、A3、D2和D3。克隆混合物被确定为75％的克隆(1)和25％的克隆(2)。突变M1、M2和M3全部被归类为“克隆”，因为它们都在各自的克隆实现完全外显，而M4和M5被归类为“亚克隆”突变。此外，正如可以从图1中看出，除了肿瘤异质组织之外，活检通常还包括正常组织。

数据提取和合成

以下给出各种系统和方法来提取和合成数据，从单个肿瘤活检的全基因组测序数据重建肿瘤的克隆演变。这些系统和方法提供了强大的框架，以确定肿瘤的克隆性、在肿瘤中的所有主要克隆的数量和比例，以及区分主要克隆的可能的变体。此外，提供的系统和方法可用于亲本等位基因的相位突变，从而测定其在群体中出现的时间。此外，考虑的系统和方法将提供存在于肿瘤活检的污染的正常组织的量的精确估计。

拷贝数变化、等位基因比例和等位基因状态图

为了发现和描述群体的主要克隆，使用相对拷贝数和等位基因比例的预估。这样的数据可使用WO2013/074058中所述算法和方法获得。所述方法用以确定克隆性以及预估正常污染的基础是“等位基因状态图”(ASD)，这将在下面进行更详细地描述。应当特别理解的是，使用拷贝数改变的相对拷贝数和等位基因比例，ASD描述等位基因特异性拷贝数变体的克隆位置的位置，从而展示出对于所有等位基因状态，拷贝数和等位基因比例之间的关系。在ASD中克隆的等位基因状态的位置由下列等式I和II来确定：

CN (t_{maj}, t_{\min}, n_{maj}, n_{\min}, α) = \frac{(1 - α) (t_{maj} + t_{\min}) + α (n_{maj} + n_{\min})}{n_{maj} + n_{\min}} - - - Ea . I

AF (t_{maj}, t_{\min}, n_{maj}, n_{\min}, α) = \frac{(1 - α) t_{maj} + α n_{maj}}{(1 - α) (t_{maj} + t_{\min}) + α (n_{maj} + n_{\min})} - - - Ea . II

其中，CN是相比匹配正常的肿瘤的相对拷贝数，AF是肿瘤的等位基因比例，α是肿瘤样品中正常污染的比例，t_maj,t_min,n_maj,和n_min分别是在肿瘤和正常的主要和次要等位基因状态。因为单个基因组只能具有离散的等位基因状态，例如，他们含有给定的染色体片段的0、1、2或多个拷贝，t_maj和t_min的可能值被限制到正整数集，ti∈(0,1,2,...,n)。此外，正常的主要与次要等位基因状态设置为1，n_i＝1，这是适用于正常的人类基因组中的所有常染色体。性染色体，X和Y，在ASD中被忽略。注意，由于上述式一定需要两个等位基因，在匹配的正常基因组只有杂合的位点可以用于ASD。

在下图中，特别显著的等位基因状态是正常拷贝数、单拷贝扩增、单拷贝/半合子缺失、纯合子缺失、拷贝中性杂合子缺失(CN-LOH)，以及两个亲本的等位基因的扩增。例如，图2示出上述没有正常的污染的等位基因状态的示例性的拷贝数和等位基因比例数据，展示ASD如何用于测定每个点群的等位基因状态。在此，ASD的网格的每个顶点都标有其肿瘤等位基因状态，(t_maj,t_min)，并且位置由上述方程决定。图3展示了等位基因状态的位置如何受到正常污染的量α的增加的影响。图3A没有正常污染(α＝0)，图3B-D具有增加的正常污染(3B：α＝0.1；3C：α＝0.5；3D：α＝0.9)。很明显，因为正常的污染增加，等位基因状态的位置越来越靠在一起，分辨不同的等位基因状态的能力下降。应当特别指出的是，以纵坐标为拷贝数，横坐标为等位基因比例绘图，产生的ASD提供了各种有益技术效果，包括观察和识别肿瘤的克隆性状态的能力，以及观察和识别肿瘤的克隆性状态的(单向和双向)变化的能力。

应当指出的是，图3的例子描绘了单克隆肿瘤静态快照。然而，众所周知，伴随着小的和大的染色体片段的增加或缺失，肿瘤基因组可以是非常动态的。图4示例性地示出了之前的附图中描述的等位基因状态之间的一些可能过渡。应当理解，所述一些过渡是“单向的”，因为它们涉及染色体片段的不可逆缺失。例如，正常的等位基因状态(1,1)和半合子缺失状态(1,0)之间的过渡是“单向的”，因为该缺失等位基因不能被恢复。然而，在这种情况下，保留的等位基因可以被扩增，允许过渡到拷贝中性杂合子缺失(CN-LOH)状态并超过(2+，0)。请注意，其他等位基因状态之间的过渡所必需的缺失不被视为“单向”，因为每个等位基因至少有一个拷贝保留在基因组中。

基于上述内容，应当认识到，等位基因状态现在可以以一个相对简单的方式来识别。例如，图5示出肿瘤基因组的ASD，所述肿瘤基因组从之前附图所示的等位基因状态过渡到只有一个单一的拷贝缺失或增加的新的等位基因状态。在如此的过渡中，肿瘤细胞的群体将成为肿瘤细胞混合物，其中所述肿瘤细胞混合物含有处于原始等位基因状态的肿瘤细胞和处于新等位基因状态的肿瘤细胞。图5中所示例子，可以把该“过渡”肿瘤视为在两个主要克隆A和B之间分配的群体，其中克隆A由原始等位基因状态定义，克隆B由新等位基因状态定义。该图中所示的混合物比例，M_b，代表群体中克隆B的比例，从而使得当M_b＝0时肿瘤群体仅由克隆A构成，当M_b＝1时肿瘤群体仅由克隆B构成。需要重点注意的是，两个克隆的等位基因状态t_i,a和t_i,b仍只限于正整数集。

在图5中，当混合物比例Mb为使得该肿瘤是细胞的异源群体，M_b＝0.25，0.5，0.75时，等位基因状态不位于ASD的顶点，而是在连接两个顶点的边缘上。肿瘤群体在这样的状态将被归类为多克隆。比如图4中的点群。在基因组的该区域，克隆A具有半合子缺失的等位基因状态，或(1,0)，而克隆B已扩增克隆A的保留等位基因，将其在该区域的等位基因状态改变为拷贝中性杂合子缺失，或(2，0)。当M_b＝0时，红点的等位基因状态被发现聚集在ASD顶点，所述顶点表示半合子缺失的等位基因状态。当M增加(即随着群体中克隆B的量的增加)，点群沿边缘向CN-LOH状态发展。在M_b＝0.5时，其中克隆A和B在群体内的量相同，点群可以精确地在LOH和CN-LOH等位基因状态之间的边缘的中间被找到。

如图6所示，如果肿瘤群体包含非衍生的克隆，或者彼此间远缘相关，使得它们的等位基因状态因为单拷贝增加或缺失而不同，等位基因状态的混合物的位置不会位于ASD的边缘上。正如下面将更详细地讨论，当多克隆肿瘤中存在2个以上的主要克隆，这种异常的等位基因状态也可以发生。因此，应该认识到，ASD可以很容易地指示肿瘤样品的一个或多个主要克隆的存在，帮助确定主要克隆的等位基因状态，并提供肿瘤群体中每个主要克隆的比例的可视估计，使ASD成为确定肿瘤样本的克隆性的强大的诊断工具。此外，应该理解的是，以纵坐标为拷贝数，横坐标为等位基因比例绘图，产生的等位状态图有利地允许测定非单克隆相关/衍生或非相关/非衍生的肿瘤中的混合物比例。

ASD的序列数据拟合

所述ASD背后的数学结构由上述公式I和II表达，是对理想化的情况的建模，其中相对拷贝数为1.0，正常(1，1)的等位基因状态的主要等位基因比例为0.5。然而，通过对现实世界数据的序列分析产生的结果往往不能精确拟合所述理想化的情况。为了估计相对拷贝数，序列分析(例如，如WO2013/074058中所述)计算肿瘤和正常之间的相对覆盖度。如果对肿瘤和正常样品在相同的覆盖水平进行测序，相对覆盖度是对相对拷贝数的准确测量。然而，如果为了提高对于突变，尤其肿瘤样品中的亚克隆突变的检测，肿瘤样品以比匹配的正常样品高得多的覆盖度进行测序，情况将不会是这样。

例如，假设没有正常污染，如果肿瘤以其匹配的正常的覆盖度的两倍进行测序，则“正常”的等位基因状态的区域将对肿瘤进行相对于正常样品的两倍的读数。所以，该区域的相对覆盖度为2.0，相对拷贝数为1.0，并且这样确定的相对覆盖度将不适合ASD。不幸的是，给定测序数据集的精确覆盖水平是未知的，因为测序服务往往以所需的覆盖水平为目标，但不能保证实现它。使用在肿瘤和配对正常数据集发现的原始的读数作为整体覆盖水平的估计，可以帮助纠正不平衡，但会因为肿瘤样品的倍性而变复杂。如果对四倍体肿瘤(倍性＝4.0)及其匹配正常(倍性＝2.0)在相同的物理覆盖度进行测序，肿瘤将有相对于匹配正常的两倍的原始读数。因此，通过它们的原始读数的比例来缩放本地相对覆盖度，四倍体肿瘤看来具有正常的拷贝数。

由序列分析产生的等位基因比例的估计中的错误(例如，正如在WO2013/074058中描述地)是由主要等位基因如何在等位基因平衡区域被选择的限制造成的，如“正常”的等位基因状态。理想的情况下，这样的区域的等位基因比例应该是大约0.5，但是，只有当两个等位基因有相等的读取纵深时才会发生。更多的时候，由于杂合等位基因从基因组DNA池取样的随机性质，两个等位基因之一可能将有比另外一个稍高的读取纵深，造成了估计的主要等位基因比例略微增加。

例如，假设没有正常污染，在30倍的覆盖度下，整个基因组将理想化地产生15倍的处于杂合“正常”等位基因状态的两个等位基因。然而，如果一个等位基因的读取纵深通过仅一次读取被转移，使得等位基因A的读取支持为16，序列分析(例如，如在WO2013/074058中所述)将预估主要等位基因比例为16/30＝0.53，与实际等位基因比例之间的偏差为0.03。一般在多个位置取平均值可以减少这种误差的影响，这些平衡的等位基因状态的主要等位基因比例的误差不能被平均化，因为顾名思义，主要等位基因比例从未能跌破0.5。幸运的是，取样误差对于扩增和缺失的等位基因状态的影响不太明显。在这些情况下，主要等位基因是易于识别的，而取样误差可通过在多个位置上平均而减小。

为了拟合序列分析结果(例如，如在WO2013/074058中所述)到理想化的ASD，上述误差可被建模，并从数据中纠正过来。该模型有四个参数：正常污染α、等位基因比例变化量AF_d、覆盖度变化量COV_d和覆盖比例因子COVs。如图3A-D所示，α参数仅影响ASD的网格布局。后三个参数转化序列分析结果。根据下列等式，参数COV_d和COV_s影响拷贝数数据的y轴偏移，以及来自“正常”等位基因状态的拷贝数的数值范围：

CN_corr(CN，COV_d，COV_s)＝COV_s(CN-COV_d)+1.0

其中，CN是由序列分析产生的相对拷贝数估计，CN_corr是用来比较ASD的纠正后的拷贝数。最后一个参数，AF_d对等位基因平衡状态的等位基因比例估计有最强的影响。其通过下面的公式起作用：

A F_{corr} (AF, A F_{d}, C N_{corr}, x) = AF - \frac{A F_{d}}{C N_{corr}} {(\frac{1.0 - (AF - A F_{d})}{0.5})}^{x}

其中，x被设置为一个大的整数(例如X＝20)，当它们偏离平衡的等位基因状态时，可以迅速降低偏离的程度到等位基因比例预估被纠正。应当指出的是，等位基因比例估计在缺失的状态不应该明显地改变，因为它们是用于估计正常污染的决定性因素。

采用梯度最速下降搜索法(gradient steepest descent search)发现该四个参数的最佳值，在由正常污染参数α限定的ASD中，优化纠正后的拷贝数和等位基因比例预估CN_corr和AF_corr的RMSD(均方根偏差)。搜索开始于用一组每个参数的初始值，和一组每个参数的增量，COVⁱ _d,COVⁱ _s,AFⁱ _d和αⁱ。对于每个参数p和参数增量pⁱ，计算ASD中p,p+pⁱ和p-pⁱ的RMSD。在所有四个参数中产生RMSD最大减少量的参数值，被选择为该参数新的当前值，该循环重复。如果当前参数的增量下RMSD不可能减少，该增量分成两半，然后继续搜索。一旦已经发生三轮分半时，搜索结束，报告最佳拟合参数。因为梯度下降往往会卡在局部最小值，使用多个不同的初始参数执行梯度搜索，直到发现一组稳定一致的拟合参数。因此，应该注意的是，考虑到如上所述的序列读取的实际覆盖(例如，肿瘤读取与正常读取的比较)，甚至将允许在肿瘤和正常之间的覆盖度是不相同的(或者甚至是不清楚)的情况下识别等位基因状态，。

肿瘤样本的克隆混合物的建模

该ASD随后可用于确定一组等位基因状态“地标”，所述等位基因状态“地标”帮助确定不同克隆的数目和它们在肿瘤群体内的比例，L_i＝(CN_corr,i,AF_corr,i)。在此分析中所用的地标将由ASD上的大型点群限定，它们表明肿瘤的主要部分，所述肿瘤在整个肿瘤群体显著的部分已经经历拷贝数变化。参见图7B用于分析GBM-06-0185的地标等位基因状态。对于ASD上的每一个地标，考虑到所有形似的克隆的混合物，所述克隆的混合物会形成其被观察到的拷贝数和等位基因比例，然后选择最佳克隆混合物，这样它可以最精简化地适用于所有ASD地标。

正如在图5中所看到的，可以期望单克隆肿瘤群体的地标都坐落在ASD顶点。然而，在包括两个主要的克隆的多克隆肿瘤中，其中克隆B继承克隆A所有的等位基因状态，并具有与克隆A不同的另外的等位基因状态，可以期望在ASD的顶点和边缘都能找到地标。那个坐落在顶点的地标是指那些代表着被克隆A和B共享的等位基因状态，而在ASD边缘的地标代表不同的等位基因状态的混合物。该连接边缘上的位置决定了克隆A和B在混合物中的比例。如果多个地标在边缘，而不是顶点的话，则沿其各自的边缘的位置的变化将决定克隆数。

例如，如果所有的地标是两个等位基因状态之间中途找到的，这个例子可以很简单地解释为两个在群体内占相等比例的主要的克隆。然而，如果一个地标位于中点线，另一个被发现位于沿着朝向等位基因状态的路径的25％的地方，该群体内肯定多于两个克隆。对此简单的解释是，有三个克隆，A，B，C，其中A占肿瘤群体50％，克隆B和C各占25％。推测克隆B和C都示出相对于克隆A的单拷贝等位基因状态的变化，则可解释中点线上的地标。25％的地标则可被解释为，如果在该染色体片段，克隆B(或C)经历了克隆A和C(或B)中未发现的单拷贝等位基因状态的变化。因此，目前的问题是确定可解释观察到的n个地标的主要克隆的最小数，可表示为：

L^{obs} &Element; (L_{0}^{obs}, L_{1}^{obs}, . ., L_{n}^{obs})

而L^obs _i＝(CN^obs _i,AF^obs _i)。那么假设，m个克隆的混合物，每一个具有整数k的主要和次要等位基因状态C_i＝[(t⁰ _maj,i,t⁰ _min,i),(t¹ _maj,i,t¹ _min,i),...,(t^k _maj,i,t^k _min,i)]；混合物比例M_i，使得ΣM_i＝1.0-α。每个地标的相对拷贝数和等位基因比例L^mix _i是用i为索引的跨过克隆混合物的等位基因状态的线性组合：

C N_{i}^{mix} = \frac{2 α + Σ_{k}^{m} M_{k} (t_{maj, i}^{k} + t_{\min, i}^{k})}{2}

A F_{i}^{mix} = \frac{α + Σ_{k}^{m} M_{k} (t_{maj, i}^{k})}{2 α + Σ_{k}^{m} M_{k} (t_{maj, i}^{k} + t_{\min, i}^{k})}

其中，假设所有克隆的正常的等位基因状态为n^k _maj,i＝n^k _min,i＝1，最佳方案是在最简单的主要克隆的混合物中最接近所观察到的地标，或优化所述目标函数：

O (L^{obs}, L^{mix}) = \frac{1}{n} \sqrt{Σ_{i}^{n} {(C N_{i}^{obs} - C N_{i}^{mix})}^{2} + {(A F_{i}^{obs} - A F_{i}^{mix})}^{2}} + m^{x}

其为观测数据的RMSD加上群体内的克隆数的偿付(penalty)，由强度参数x调节。

在找到最佳拟合参数后执行所述方法。首先确定所有“共享的”地标等位基因状态，其为混合物中的每个克隆都必须展示的。如果我们假设肿瘤是逐步演进的，这些共享的等位基因状态代表了肿瘤进化树的“根”。如果ASD的边缘没有地标，过程完成，肿瘤群体被归类为单克隆。

如果路标存在于ASD连接的边缘上，并在两个边界等位基因状态之间，那么必然存在额外的克隆。该过程在混合物中增加了一个附加的“子代”(“daughter”)克隆，所述“子代”克隆继承所有共享的等位基因状态，并获得等位基因状态以及用以解释边缘限制的地标所必需的混合物比例。如果一个以上的边缘限制的地标可以用相同的混合物比例进行解释，则这些新的等位基因状态被添加到新的克隆。重复这一过程，直到所有的非顶点地标使用克隆混合物来解释，其中每个附加的“子代”克隆可以邻近未经解释的地标的一侧的混合物中任何当前克隆衍生。一旦所有地标可以被合理解释，报告克隆的等位基因状态和混合比例。

应当注意的是，上式中等位基因状态的组合可以独特地确定ASD的每一个地标的位置，也可确定基因组中与地标对应的所有位置的定相的等位基因状态。后者只有当混合物的比例对每个克隆是唯一的情况下可以实现，即主要的克隆必须不均匀地划分肿瘤群体。在这种情况下，这可以实现肿瘤群体中每个克隆的整个基因组克隆特异性核型的推断。因此，使用等位基因方位提供的技术优点在于，现在可以确定一些不同的克隆的数目和它们在肿瘤群体内的比例。

突变与克隆特异的等位基因状态的关联

为了更进一步地理解肿瘤的演化，不必限制于拷贝数变化的排他性分析。通过将体细胞突变引入上面所讨论的框架，现在可以测定在肿瘤的发展过程中突变何时产生。要做到这一点，一个或多个突变将直接与ASD中包含式染色体区域的主要或次要等位基因有关。然后将突变的等位基因比例用于确定是否该突变发生在等位基因状态的变化之前，还是等位基因状态的变化不久之后，或者更晚。这样的分析可以用两种不同的方式来执行。

通过直接定相：对于通过序列分析发现的每个突变，所有附近的种系的杂合变异体可以成对读取而识别，该成对读取物理连接或称为“定相”突变等位基因到特定种系等位基因。术语“附近”在本文中被定义为被分开不超过成对的读取库的插入大小的两倍，通常对全基因组文库而言大小为1,000bp，因为可以充分置于分开两个成对读取的期望距离之外。

收集所有与突变和种系变异体的位置都重叠的读取，并记录突变被定为任一种系变异体等位基因的相的次数。如果突变多于一次发现与同一的种系变异体等位基因关联，同时也没有发现其定相于该种系变异体的另一等位基因，可以考虑将其直接定相于该种系变异体等位基因。当突变和种系变异体被分开少于一个读取长度的距离，单个读取内可以定相，或者定相也可以发生在一个读取对的成员中。突变也可以定相于多个种系变异体的位置。

对于可以直接定相到种系变异体的每个突变，种系变异的等位基因比例用于确定该突变是否定相为主要等位基因或次要等位基因。如果种系变异体的等位基因比例被确定为大于或等于0.5，则该突变被认为是“主要-相，”否则被定相为次要等位基因，或“次要-相”。请注意，在这样的情况下，当两个等位基因状态是相等的，如正常(1，1)或双等位基因，平衡扩增(2,2)，突变体分配为“主要”或“次要”等位基因取决于其测序数据中哪个等位基因的取样稍微更深点。因此，在这种情况下，对于突变“主要-相”或“次要-相”的分类是没有意义的。

通过扩增等位基因比例：当直接定相不能进行时，确定突变与哪个等位基因关联的能力受到严重限制。然而，当在扩增的染色体片段内发现突变时，可以使用突变的等位基因比例，以确定突变可能与哪个等位基因关联。当突变的等位基因比例大约等于主要等位基因比例时，只有突变在扩增前存在于扩增的等位基因上，这才能发生。如果突变是未扩增的等位基因上，突变的等位基因比例必然会低得多。

然而，低突变等位基因比例并不一定表明他们不是“主要-相”，因为突变可以在扩增后发生。例如，如果一个区域扩增单一拷贝，等位基因状态(2，1)时，扩增后突变能至多存在于主要等位基因的一个拷贝上，并具有1/(2+1)＝0.33的最大等位基因比例，相比而言，先于扩增的突变的预期等位基因比例为2/(2+1)＝0.67。

因此，当突变在扩增之前发生时，将未定相的突变与扩增的片段联系在一起是被限制的。然而，这仍然可以是有用的，正如人们所预料的，致癌突变在肿瘤发展的早期发生，因为它们可能推动肿瘤生长。如果这些致癌基因突变的多个拷贝是选择性地有利于肿瘤细胞，那么可以预料突变拷贝数和等位基因比例的必要增加，以使得用户能够使用所述方法。

比较等位基因比例来推断突变时机

在将突变分配给主要或次要等位基因后，可以再比较突变的等位基因比例与染色体片段的主要或次要等位基因比例的等位基因比例，所述染色体片段包含种系变异体等位基因。优选地，一般使用染色体片段的等位基因比例代替种系变异体等位基因，因为由于平均了该染色体片段内所有种系杂合子位置，染色体片段的等位基因比例的估计变得更准确。为了准确地比较突变的等位基因比例以及杂合位置的主要或次要等位基因比例，必须在突变的等位基因增加一些“正常”污染。需要注意的是，主要等位基因比例，AF，在其分子和分母两者都含有正常污染。这是由于这样的事实，即在这些方程考虑的位置是正常细胞中的杂合，因而可以期望得到来自两个等位基因的正常污染。然而，对于体细胞突变，突变等位基因没有正常污染，因为突变不存在在正常细胞中：

MAF = \frac{(1 - α) m t_{maj}}{(1 - α) (m t_{maj} + (1 - m) t_{maj} + t_{\min}) + α (n_{maj} + n_{\min})}

其中，MAF是突变等位基因比例，m是突变的肿瘤等位基因t_maj的拷贝比例，以及t_maj,t_min,n_maj,和n_min表示相同的纯合等位基因。为了公平比较MAF与预估的杂合位置的等位基因比例，使用下面的纠正：

\begin{matrix} MA F_{c} = MAF + \frac{α n_{maj}}{(1 - α) (t_{maj} + t_{\min}) + α (n_{maj} + n_{\min})} \\ = \frac{(1 - α) m t_{maj} + α n_{maj}}{(1 - α) (t_{maj} + t_{\min}) + α (n_{maj} + n_{\min})} \end{matrix}

其中，MAFc是被纠正的突变等位基因比例。值得注意的是，虽然在上述方程中，m允许为小于或等于零的比例，m的一些值有特殊的意义。如果m＝1，则所有的t_maj等位基因进行了突变，并且在t_maj表示扩增的等位基因的情况下，当m＝1时突变必须在扩增之前发生。当m＝1t_maj时，其中t_maj表示扩增的等位基因的拷贝数，则可以知道，突变肯定在扩增之后很快发生，因为它存在在扩增的等位基因的单一拷贝上，但却在大多数肿瘤细胞中在该状态下被发现。然而，如果m<<1/t_maj，则突变必须在扩增之后发生，可能在肿瘤的生长过程的非常晚的时期，因为其非常低的等位基因比例说明它仅在一小部分的肿瘤细胞中被发现。

如果该突变被定相为少数等位基因t_min，可以期望找到最大突变比例，m＝t_min/t_maj，其说明该次要等位基因的所有拷贝都被转换。所以，当次要等位基因状态存在于单一拷贝，它的所有拷贝均突变，m＝1t_maj，正是技术人员能计算存在于单拷贝的“主要-相”突变的相同的突变比例。因此，只有直接定相可以区别早期“次要-相”突变和后扩增突变。

实施例

GBM(胶质母细胞瘤)：12个全基因组的GBM样品用上述方法来处理，用于测定存在于每个肿瘤活检的正常污染水平和克隆性。对于其他5个在前面部分讨论过的全基因组GBM样品，由BamBam产生的相对覆盖度和等位基因比例通过这些方法分析的话会具有太多可变性。表1总结了克隆性分析的结果。

令人惊讶地，仅3个GBM肿瘤样品被发现是单克隆的，而其它9个样品包括至少两个主要的克隆。对于7个GBM肿瘤，测定克隆的精确混合物，而对剩下的5个肿瘤进行图视检查，以确定它们的克隆性。

两个克隆GBM-06-0145和GBM-06-0185的结果如图7A和7B所示。该两个样品的相对覆盖度和等位基因比例数据通过上述最佳拟合参数转化，展示出与ASD紧密的拟合，估计的正常污染水平分别为21.5％和14.6％。通过监测数据集群的位置，可以在图视上确定这些肿瘤的克隆性是否在顶点或边缘上。由于所有GBM-06-0145的(图7A)数据集群围绕ASD的顶点，则很可能该肿瘤是单克隆的。另一方面，GBM-06-0185(图7B)显然是多克隆的，因为几个沿ASD边缘的大型集群说明至少两个主要克隆存在于该肿瘤中。事实上，由于边缘绑定的集群沿其边缘的不同位置被发现(例如，一些集群是在中点标记上，而其他集群分别为朝向单拷贝缺失状态的路径的大约0.75和0.80的位置)，这种情况仅可以从含有至少三个主要的克隆的混合物中发生。

为了准确确定这些样品中克隆数，发明人使用上述的方法来确定克隆的数目以及它们的等位基因状态。对于每个推断的克隆混合物，发明人计算确定在衍生克隆混合物的情况时基因组中每一个位置的相对拷贝数和等位基因比例，并将其与序列分析产生的结果进行了比较。这提供了一种度量标准来确定克隆混合物有多好地作为模型展示所观察到的数据。

如图8所示，正如所预料的，本发明人发现了GBM-06-0145的单个克隆。在计算上衍生的相对拷贝数和等位基因比例数据显示出与观测数据非常好的拟合。GBM-06-0185一共有四个主要的克隆被发现，其克隆等位基因状态如图9所示。对于这里所示的四种克隆，要注意两件重要的事情。首先，如之前所描述的，每个克隆的混合物的比例与所有其它的不同这个事实有助于从整个基因组中定相等位基因状态到克隆特异性核型。其次，所有克隆似乎都源自克隆A。每个衍生克隆共享克隆A中发现的所有的事件，这表明克隆A是克隆B、C和D的祖克隆。然而，还不清楚是否该组克隆以逐步进展的方式线性演变，或者是否克隆B、C和D代表不同的谱系。

后三个克隆不同在于chr6q的缺失，其中克隆B的特征为一组灶缺失，而克隆的C和D已经缺失了所有的chr6q。这些都不是相互排斥的事件，因此可以是克隆C衍生于B，继承了其灶缺失，并接着缺失了chr6q的剩余部分。然而，也不排除克隆B和C直接从克隆A衍生并独立地缺失chr6q的部分。有趣的是，克隆D，进化树的最后克隆，根据混合物比例成为在肿瘤群体中的优势性克隆，表明对于该克隆独特的事件(例如chr9的扩增)可能提供了该克隆的生长优势。

GBM-06-0152的克隆的核型如图10所示。这种肿瘤是有趣的，因为chr7的扩增作为约40％GBM肿瘤的特性，直到克隆B才会发生。值得注意的是，在独立的分析中该样品也显示出有两个双微染色体，一条带有MDM2和CDK4，另一条含有EGFR表皮生长因子受体，都来自于类似chromothripsis(染色体碎裂)的事件。而极端扩增的基因组区域是很难在这些克隆的核型进行建模，可以看出涉及与克隆A中chr12发生的这些事件有关的缺失的证据，这表明这些双微染色体发生在肿瘤发展早期。这可能是表皮生长因子受体的早期灶扩增可能已经对之后chr7扩增的出现发挥了作用。

对于样品GBM-06-1086由核型表示的克隆演变，有一些有趣的方面是值得在这里描述。在它的核型中第一个值得注意的微妙的之处在于，如图11所示，CDKN2A的灶缺失，直到克隆B出现才发生，表明它在首次在克隆A中观察到的chr9的完全缺失后发生。这是有力的证据，支持了在chr9的染色体臂水平缺失或整个染色体缺失之后可能出现了CDKN2A灶损失的假说。第二个有趣的方面是，克隆C和D有13个不同的染色体全部缺失。克隆D更进一步，缺失chr18的最后一个拷贝，以及扩增chr19。这将两个克隆C和D的倍性从由另两个克隆共享的大约正常倍性(倍性＝1.95)减少到1.31。值得注意的是，已失去基因组含量几乎30％的细胞，是如何不仅可以生存，还在肿瘤细胞群体中很明显地兴旺生长，考虑到克隆D占混合物的比例为41.8％。

肺鳞状细胞癌(LUSC)：由TCGA测序得到的9个肺鳞状细胞癌(LUSC)的全基因组数据通过所述方法进行分析，以推断克隆性。两个肿瘤的等位基因状态图，如图7C和7D所示。从该两个样品明显的更大数量的过渡等位基因状态看来，相比于上述GBM肿瘤，这些LUSC肿瘤表现出程度高得多的克隆性。

如图7D所示，在ASD顶点(在所有主要的克隆中常见的状态)和ASD边缘(主要通过克隆的一个子集共享的状态)，肿瘤样品LUSC-66-2756呈现出许多高度扩增的状态。从几乎连续的一组点群不同的位置，其中点群沿着ASD边缘并在两者之间，各种各样的混合比例是显而易见的，这表明该样品是高度多克隆的。该样本的另一个有趣的特点是，它的基因组没有发现有单拷贝丢失的等位基因状态(1,0)。通过基因组倍增事件这可能会发生，其中肿瘤基因组是暂时的四倍体(N＝4)，则一系列的染色体缺失导致了要么单拷贝增加，要么“正常”，要么CN-LOH等位基因状态。基因组加倍事件被认为是常发生在浆液性卵巢癌中，这解释了它们基因组的大部分是如何呈CN-LOH等位基因状态的。

将突变定相到等位基因状态：为了将向等位基因状态的定相的突变形象化，发明人使用稍微改进的等位基因状态图，双等位基因状态图(双ASD)。从上述方程注意到，因为次要等位基因比例是主要等位基因比例的互补(AF_min＝1.0-AF_maj)，可以通过放置ASD的镜像构造双ASD图，来显示次要等位基因状态的位置。定相到种系变异体的突变，对应于主要等位基因、次要等位基因或两者都不是，突变标绘在双ASD图上。通过确定突变离哪些等位基因状态(主要或次要)最近，并通过其定相状态(如果有的话)，可以推断出突变发生的时间。

图12示出双ASD图的示例图，其呈现了一系列定相到种系变异体的突变，所述种系变异体属于以两种不同等位基因状态存在的任一主要或次要等位基因。如上所述，每个突变的等位基因比例被纠正，并标注在双ASD图上。根据它们的相位和突变等位基因比例，双ASD图能帮助识别突变存在在多少主要(或次要)等位基因的拷贝上。在图12所呈现的扩增的情况下，可以很容易地区别存在于两个等位基因的突变，与只存在于扩增的拷贝中的一个的突变，实现了图视确定突变是否在扩增之前或之后发生。同样，对于定相为次要等位基因的突变，可以看到除了“正常”等位基因状态外所有的“正常”等位基因状态的MAFc≤0.5，因为“正常”等位基因状态中它们的定相分配是没有意义的。

肿瘤GBM-06-0145的双ASD，如图13所示。图上6个区域上的这些图被突出显示，以帮助说明这些真实数据的图。区域(a)和(b)表示直接经由附近的种系变异体定相到主要等位基因的突变，但只有(b)中的2个突变被发现含有对应于扩增突变的MAFc。大多数主要-相的突变在区域(a)被发现，对应于单拷贝数的突变，发现这些突变发生在扩增之后。在DOCK8的一个非定相的错义突变在单拷贝缺失的等位基因状态被发现的，这意味着剩余在肿瘤中的DOCK8的唯一拷贝是突变的状态。通过纯合子缺失失活DOCK8已被联系到肺癌的进展，所以在这个GBM肿瘤中野生型DOCK8的缺失可能在肿瘤发生中发挥作用。图13也显示出来自这些平均覆盖整个基因组的MAFc估计的高度多样性。

关于肿瘤LUSC-34-2596的双ASD，如图14所示，最引人注目的是不论定相或非定相的，遍及所有预期的等位基因状态的突变的绝对数量。相比之前的GBM肿瘤，很显然LUSC-34-2596的突变率明显更高。这是意料之中的，因为在TCGA迄今为止研究的癌症中，肺部肿瘤表现出呈现最高的突变率癌症。

发明人观察到在平衡-扩增等位基因状态(2,2)大量的主要-相和次要-相的突变,预期的MAFc≈0.5，在图14上被标记(a)和(b)。发明人还在这些区域的左侧观察到突变的群集，所述突变对应于单拷贝数的突变。在NDRG1的主要-相的错义突变的位置，最近发现在鳞状细胞肺癌上调表达的基因，被发现在“正常”和单拷贝缺失等位基因状态之间的基因组区域中。其MAFc近似等于所述基因组区域的等位基因比例，这表明该突变存在于两个克隆(即“正常”等位基因状态的克隆，以及单拷贝缺失等位基因状态的克隆)。这个证据表明，突变发生较早，在具有新的缺失的第二克隆出现之前发生，并且缺失包含NDRG1的野生型版本。

BRAF，DNMT3A和TP53，三个非定相的突变的位置，也在图14中被突出显示。在TP53的无义突变被发现在CN-LOH状态，并且其突变等位基因比例精确地对应于CN-LOH等位基因比例，这意味着该肿瘤已经缺失了TP53的一个拷贝，经由突变敲除了剩余的拷贝，然后扩增了突变等位基因。包含BRAF的该区域被高度扩增，从BRAF的MAFc可以很清楚地知道，突变发生在其扩增之前或早期。BRAF的突变经常发生在黑色素瘤，但最近已经在小百分比的非小细胞肺癌中发现了。由于一半以上的拷贝发生突变，所述突变不会在扩增过程已经完成后发生，除非一个高度不可能事件——BRAF独立地，在多个拷贝完全一致地突变。DNMT3A，一个基因，其缺失牵涉到肺癌和其它肿瘤类型，在该“正常”等位基因状态被发现，预期的MAFc≈0.5。在所有这些情况下，这些基因的突变必须在肿瘤发生过程的早期发生，因为它们存在于肿瘤所有的(或者，在BRAF的情况下，至少大多数)主要的克隆中。加上一个事实，即这些已知会牵涉到多重肿瘤类型的基因增加了下面的可能性：这些突变中的一个或多个是这种特定肿瘤的驱动器。

下面的表2总结了12个GBM和8个LUSC肿瘤的可定相的突变。应该要再次注意的是，相对于所述GBM肿瘤，LUSC肿瘤突变的整体速率更高。并且很显然地是，明显更多的突变在GBM肿瘤的扩增区域内的单拷贝上被发现，而可以发现突变均匀地遍布在LUSC肿瘤的扩增的等位基因状态。

其中，“总计”：定相和非定相的突变数；

“主要-相”：主要-相突变数；

“扩增状态”：扩增的等位基因状态区域的主要-相突变数；

“单拷贝”：扩增的等位基因状态区域的次要-相突变数，但其具有的MAFc对应于单拷贝；

“少数相”：次要-相突变数。

假设在这些肿瘤的发展过程中突变率保持恒定，则扩增发生在GBM肿瘤发展初期，在大多数突变发生之前。同样的道理，随着大量突变发生在扩增事件之前和之后，突变和拷贝数的变化在LUSC肿瘤的发展过程频繁出现。

另一种解释突变模式不同的可能性是，在发展过程中突变率没有保持恒定。假设该生长因子的EGFR的扩增，作为在这些GBM肿瘤中常见的事件，增加细胞的生长速率，并随后降低了细胞纠正基因组复制期间错误的能力，从而增加每细胞分裂的突变率。这可以解释在扩增的等位基因状态内的单拷贝上呈现的突变的富集。然而，如果不知道在EGFR扩增之前和之后发生的遗传代数，就不能确定突变率是否增加。然而，应该理解的是，通过本文所介绍的ASD和双ASD的方法，可以以前所未有的方式从序列分析输出中获取重要的以及临床相关的信息。

本领域技术人员应当清楚是，除了那些已经描述的，许多更多的修改在不偏离本文的发明观念的前提下是可能的。因此，除了所附权利要求的精神，本发明的主题不被限制。此外，在解释说明书和权利要求时，所有术语应当以与上下文一致的尽可能最宽泛的方式解释。特别是，术语“包括”应当被解释为以非排他的方式引用元素、成分或步骤，表明所引用的元素、成分或步骤可以存在或被使用，或与其他未明确引用的元素、成分或步骤组合。其中，本说明书的权利要求指的是至少一个从由A、B、C……和N构成的组中选出的某物，文字应当被解释为只要求来自该组的一个元素，而不是A加N或B加N等。

权利要求书(按照条约第19条的修改)

1.一种通过从肿瘤获得的测序数据体外测定肿瘤的克隆性的方法，包括：

从所述测序数据确定测序数据内的等位基因的拷贝数和等位基因比例；

基于所述确定的拷贝数和确定的等位基因比例计算所述等位基因的等位基因状态；以及

使用所述等位基因状态识别不同细胞克隆的存在和分布，从而确定肿瘤的克隆性。

2.根据权利要求1所述的方法，其中，所述确定拷贝数和等位基因比例的步骤是通过序列分析程序实施的，所述序列分析程序通过序列串的增量同步产生局部比对。

3.根据前述权利要求任一项所述的方法，其中，所述等位基因状态被确定为选自于下组的一种状态，包括：正常的拷贝数、单拷贝扩增、单拷贝/半合子缺失、杂合子缺失同时跟随剩余等位基因的一个或多个扩增，以及两个等位基因扩增。

4.根据前述权利要求任一项所述的方法，其中，所述计算等位基因状态的步骤包括正常污染的纠正。

5.根据前述权利要求任一项所述的方法，其中，所述计算等位基因状态的步骤包括肿瘤和正常细胞的主要和次要等位基因状态。

6.根据前述权利要求任一项所述的方法，其中，所述计算等位基因状态的步骤包括对于等位基因的混合比例Mb的确定。

7.根据权利要求6所述的方法，其中，当所述等位基因的Mb为0或1时所述肿瘤为单克隆。

8.根据权利要求6所述的方法，其中，当所述等位基因的Mb为大于0且小于1时所述肿瘤为多克隆。

9.根据前述权利要求任一项所述的方法，其中，所述计算等位基因状态的步骤包括测序覆盖度水平的纠正。

10.根据前述权利要求任一项所述的方法,其中，所述方法进一步包括确定等位基因状态地标的步骤。

11.根据权利要求10所述的方法，其中，所述方法进一步包括使用所述等位基因状态地标确定肿瘤的一些克隆的至少一个以及肿瘤的一部分克隆。

12.根据前述权利要求任一项所述的方法，其中，所述方法进一步包括以下步骤：关联突变到主要等位基因或次要等位基因，以及使用所述突变的等位基因比例确定相对于等位基因状态的变化突变发生的时间。

13.根据前述权利要求任一项所述的方法，其中，所述方法进一步包括绘制等位基因状态图中的所述等位基因状态的步骤。

14.根据前述权利要求任一项所述的方法，其中，所述方法进一步包括绘制双等位基因状态图中的所述等位基因状态的步骤。

15.一种肿瘤中等位基因状态的体外可视化的方法，包括：

从多个测序数据中确定在所述测序数据内等位基因的拷贝数和等位基因比例；

基于所述确定的拷贝数和确定的等位基因比例计算等位基因的等位基因状态；以及

将所述等位基因的等位基因状态绘制在等位基因状态图中，所述等位基因状态图是拷贝数-等位基因比例图。

16.根据权利要求15所述的方法，其中，所述等位基因状态图是拷贝数-主要等位基因比例图。

17.根据权利要求15-16中任意一项所述的方法，其中所述等位基因状态图呈现使得等位基因状态图中的每个顶点对应于一个肿瘤等位基因状态。

18.根据权利要求15-17中任意一项所述的方法，其中所述方法进一步包括对于正常污染，调整等位基因状态图的步骤。

19.根据权利要求15-18中任意一项所述的方法，其中所述等位基因状态图呈现使得具有多克隆肿瘤中等位基因的增加或缺失的克隆的子集，沿顶点间绘制的边缘绘制。

20.根据权利要求15-19中任意一项所述的方法，其中所述等位基因状态图呈现使得具有除了多克隆肿瘤中等位基因的增加或缺失以外的变化的克隆在顶点间绘制的边缘之间绘制。

21.根据权利要求15-20中任意一项所述的方法，其中所述等位基因状态图为双等位基因状态图。

22.一种分析基因组序列数据的方法，包括：

使用BAM服务器接收多个基因组的序列的读取，其中，所述多个基因组的序列的读取是从同一患者肿瘤样品的基因组和正常样品的基因组中获得的；

使用所述BAM服务器随后处理多个基因组的序列的读取，以产生多个差分序列对象，其中所述差分序列对象包括肿瘤基因组内等位基因的拷贝数和等位基因比例；以及

使用耦合所述到BAM服务器的分析工具处理所述等位基因的拷贝数和等位基因比例，从而确定所述等位基因的等位基因状态。

23.根据权利要求22所述的方法，其中所述方法进一步包括耦合到所述BAM服务器和分析工具的差分序列数据库，使得所述BAM服务器将差分序列对象提供到所述差分序列数据库，并且使得所述差分序列数据库将所述差分序列对象提供到所述分析工具。

24.根据权利要求22-23中任意一项所述的方法，其中所述方法进一步包括所述分析工具生成图像输出的步骤，所述图像输出绘制了等位基因状态图中所述等位基因的等位基因状态。

25.一种体外表征来自肿瘤的基因组信息的方法，包括：

确定肿瘤基因组中等位基因的等位基因状态；以及

使用所述确定的等位基因状态识别不同细胞克隆的存在和分布，从而识别肿瘤为单克隆肿瘤或为包括至少两个不同肿瘤克隆。

26.根据权利要求25中所述的方法，其中所述方法进一步包括使用所述确定的等位基因状态识别至少两个不同的肿瘤克隆为非相关的步骤。

27.根据权利要求25-26中任意一项所述的方法，其中所述方法进一步包括使用确定的等位基因状态，鉴定至少两个不同肿瘤克隆的克隆来历。

28.一种体外表征肿瘤块中的肿瘤克隆的方法，包括：

获取来自肿瘤块的基因组序列信息；

使用所述基因组信息确定所述肿瘤基因组序列信息中等位基因的等位基因状态；

确定等位基因状态图中等位基因的等位基因状态的位置；以及

通过该位置从而识别克隆为单克隆或多克隆。

29.根据权利要求28中所述的方法，其中所述基因组序列信息从BAM服务器获得。

30.根据权利要求28中所述的方法，其中所述确定等位基因状态的位置的步骤通过图形显示形式完成。

31.根据权利要求28中所述的方法，其中当所述等位基因状态的位置处于所述等位基因状态图的顶点上时，所述克隆为单克隆。

32.一种提供用于治疗肿瘤的治疗信息的方法，包括：

确定肿瘤的等位基因的等位基因状态的信息，其中所述等位基因状态的信息包括等位基因的拷贝数和等位基因比例；以及

使用所述等位基因状态的信息鉴定所述肿瘤内(a)克隆或(b)克隆的演化模式的存在或出现，所述存在或出现表明了以下至少一种情况：(1)肿瘤对于药物治疗的敏感性；以及(2)增加的耐药性或转移潜能的风险。

33.根据权利要求32中所述的方法，其中所述鉴定存在或出现的步骤基于以前的治疗数据，或经验的已知数据。

Claims

使用所述等位基因状态确定肿瘤的克隆性。