CN109219853A

CN109219853A - 检测样品中的突变特征的方法

Info

Publication number: CN109219853A
Application number: CN201780027314.2A
Authority: CN
Inventors: S·尼克-扎因; M·斯特拉顿; D·格洛德齐艾克
Original assignee: Genome Research Ltd
Current assignee: Genome Research Ltd
Priority date: 2016-05-01
Filing date: 2017-04-28
Publication date: 2019-01-15
Also published as: EP3452938A1; WO2017191068A1; US20200126635A1; JP7117289B2; GB2555765A; CA3021737A1; JP2019519872A; GB201607628D0; US11929144B2

Abstract

本发明提供了检测DNA样品中突变特征的方法。本发明涉及检测由样品的DNA中重排产生的特征，并确定已知重排特征对所述重排的贡献的方法。在特定实施方式中，通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度来确定所述贡献。重排特征根据它们是否成簇、是否是串联重复、缺失，倒位或易位以及基于它们的大小进行分类。

Description

检测样品中的突变特征的方法

技术领域

本发明涉及检测DNA样品中突变特征(mutational signature)的方法。本发明特别涉及检测DNA样品中重排特征的方法。

背景技术

体细胞突变存在于人体的所有细胞中并且在整个生命中发生。它们是多个突变过程的结果，包括DNA复制机制的固有轻微失真、外源性或内源性诱变剂暴露、DNA的酶促修饰和缺陷DNA修复。不同的突变过程产生突变类型的独特组合，称为“突变特征”。

在过去几年中，大规模分析在人类癌症类型谱图中揭示了许多突变特征。

癌症的突变理论提出，DNA序列的变化称为“驱动”突变，赋予细胞增殖优势，导致肿瘤克隆的生长[1]。一些驱动突变在种系中遗传，但大多数在癌症患者的一生中与许多癌症发展无关的“过客”突变一起出现在体细胞中[1]。多个突变过程，包括内源性和外源性诱变剂暴露，异常DNA编辑，拷贝错误和缺陷DNA维持，都是造成这些突变的原因[1-3]。

在过去的五十年中，几波技术推动了癌症基因组突变的表征。核型分析揭示了重排的染色体和拷贝数改变。随后，杂合性缺失分析，癌症衍生DNA与微阵列的杂交和其他方法以更高分辨率了解拷贝数变化[4-8]。最近，DNA测序已经能够系统表征突变类型的完整文库，包括碱基替换、小插入/缺失、重排和拷贝数变化[9-13]，从而实质性了解突变的癌症基因和人类癌症中的突变过程。

产生体细胞突变的突变过程在癌症基因组上印记了特定的突变模式，称为特征[2,15,16]。先前应用数学方法[15]提取突变特征揭示了乳腺癌中的五碱基替换特征；特征1,2,3,8和13[2,14]。

虽然已经研究了碱基替换特征并且提出了它们的检测方法，但是重排突变过程的特征先前没有被正式研究过，特别是没有提出用于表征重排突变特征和鉴定取自单个患者的DNA样品中一个或多个重排特征存在的方法。

鉴定取自单个患者的DNA样品中重排特征的存在的方法将提供相当大的益处，因为其可提供诊断该患者体内可能的癌症类型的潜在途径或可鉴定潜在缺陷并因此能为特定类型的治疗选择患者。

发明内容

本发明的一个示例性实施方式提供了检测先前获得的DNA样品中的重排特征的方法，该方法包括以下步骤：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。

本发明的另一示例性实施例提供了一种计算机程序产品，其包含存储计算机程序的非暂时性存储器，所述计算机程序在计算机上运行时执行以下步骤：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。本发明的另一个示例性实施方式提供了一种具有处理器的计算机，其中处理器配置成：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。

附图和表格简述

图1是以示意图形式示出根据本发明的一个实施方式检测单个患者的DNA中重排特征的方法的流程图；和

图2示出了七个主要亚组，其显示出与其他基因组、组织学或基因表达特征的明显关联，以及从数据中提取的六个重排特征。

表1示出了一些重排特征的定量定义。

详细说明

本发明的第一方面提供了检测先前获得的DNA样品中的重排特征的方法，该方法包括以下步骤：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。

优选地，该方法还包括以下步骤：在所述确定步骤之前，过滤所述目录中的突变以去除残留的种系结构变异或已知的测序假象或两者。这种过滤非常有利于从目录中去除已知由体细胞突变以外的机制产生并因此可能使重排特征的贡献变得混乱或模糊的，或者导致假阳性结果的重排。

例如，过滤可以使用已知种系重排或拷贝数多态性的列表，并在确定重排特征的贡献之前从目录中去除那些多态性所致的体细胞突变。

作为另一个实施例，过滤可以使用通过与DNA样品相同的过程测序的不匹配的正常人组织的BAM文件，并丢弃至少两个所述BAM文件中的至少两个良好映射读数中存在的任何体细胞突变。该方法可以去除由用于获得样品的测序技术产生的假象。

重排突变的分类可以包括将突变鉴定为成簇或非成簇。这可以通过分段常数拟合(“PCF”)算法来确定，所述算法是顺序数据的分段方法。在特定实施方式中，如果区段内的重排断点的平均密度大于个体患者样品的重排全基因组平均密度的某个因子，则可以将重排识别为成簇。例如，因子可以是至少8倍，优选至少9倍，并且在特定实施例中是10倍。重排间距离是重排断点与参考基因组中紧接其的之前一个重排断点的距离。对于任何给定的断点，这种测量是已知的。

重排突变的分类可以包括将重排鉴定为以下之一：串联重复、缺失、倒位或易位。这种重排突变的分类是已知的。

重排突变的分类可以进一步包括通过大小将鉴定为串联重复、缺失或倒位的突变分组。例如，可以通过重排中的碱基数将突变分组为多个大小组。

优选地，大小组是以对数为基础的，例如1-10kb，10-100kb，100kb-1Mb，1Mb-10Mb和大于10Mb。易位不能按大小分类。

在特定的实施方式中，在每个DNA样品中，与第i个突变特征相关的重排数E_i被确定为在该样品的目录和之间的余弦相似度成比例：

其中

其中，和是同等大小的矢量，其中非负分量分别为已知的重排特征和突变目录，且q是所述多个已知重排特征中的特征数。

该方法可以进一步包括通过将与目录较不相关的特征中的一个或多个重排重新分配给与目录更相关的特征来过滤确定要分配给每个特征的重排数的步骤。这种过滤可以用于将仅具有少量与其相关重排(并且因此可能不存在)的特征的重排重新分配到具有更多与其相关重排的特征。这可以减少分配过程中的“噪音”。

在一个实施例中，过滤步骤使用贪婪算法(greedy algorithm)迭代地找到重排到特征的替代分配，其改进或不改变目录与重建目录之间的余弦相似度，其中是通过将突变从特征i移动到特征j而获得的矢量的版本。其中，在每次迭代中，估计特征之间所有可能的移动的影响，并且当所有这些可能的重新分配对余弦相似度具有负面影响时，过滤步骤终止。

受试者可以是癌症患者或疑似癌症患者。例如，该方法可用于确定或鉴定重排序列以预测受试者是否患有癌症或患者患有何种类型的癌症，或为特定治疗形式选择受试者。

该方法可以进一步包括确定重排目录中确定为与所述重排特征中每一个或组合的一个或多个相关联的重排数目或比例是否超过预定阈值的步骤，如果超过，则确定所述重排特征存在于样品中。

本发明人已经确定，通过成簇/非成簇、类型和大小(适当时)对重排突变进行分类，可以在许多肿瘤中鉴定明确的重排特征。因此，这些分类结合本实施方式的方法可以提供识别特定重排特征的存在的能力，并因此确定来自患者的样品指示肿瘤存在的可能性和/或导致肿瘤的癌症的形式。由于已知不同形式的癌症对特定治疗的反应不同，因此鉴定样品中存在的癌症的可能形式可指导对受试者的治疗的选择。

本发明人还确定了重排特征与导致癌症的潜在机制之间的明确联系。因此，特定重排特征(或重排特征的集合)的存在(或不存在)可以替代地或另外地用于确定导致采集的样品中的肿瘤的潜在机制。

本方面的方法可包括上述优选和任选特征中的一些、全部或一个也没有的任何组合。

本发明的另一方面包括用于在执行上述方面的方法的计算机系统上运行的计算机程序，包括该方面的优选和任选特征中的一些、全部或一个也没有。

本发明的另一方面提供一种计算机程序产品，其包含存储计算机程序的非暂时性存储器，所述计算机程序在计算机上运行时执行以下步骤：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。

本发明的另一方面的示例性实施方式提供一种具有处理器的计算机，其中处理器配置成：对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。

上述两个方面的计算机程序和处理器还可以执行上面关于第一方面描述的一些或所有任选或优选步骤。

下面进一步详细描述本发明的这些和其他方面。

识别与癌症相关的重排特征

对来自每个个体(556个女性和4个男性)的560个乳腺癌和非肿瘤组织的完整基因组进行测序。检测到3,479,652个体细胞碱基替换，371,993个小插入缺失和77,695个重排，各样品之间各数目有很大差异。

为了能够调查重排突变过程的特征，采用了包括32个子类的重排分类。

在许多癌症基因组中，大量重排区域成簇，例如在基因扩增区域中。因此，重排首先被分类为成簇或分散的形式，进一步细分为缺失、倒位和串联重复，然后根据重排的片段的大小作分类。两组中的最终类别是染色体间易位。

应用碱基替换特征[2,14,15]所用的数学框架提取了六个重排特征。基于归因于各乳腺癌中各特征的重排比例的无监督层次成簇产生了七个主要亚组，其显示出与其他基因组、组织学或基因表达特征的不同关联，如图2所示。

重排特征1(所有重排的9％)和重排特征3(18％重排)主要通过串联重复来表征。与重排特征1相关的串联重复大多数>100kb，而重排特征3相关的那些<10kb。超过95％的重排特征3串联重复集中在15％的癌症中，其中许多具有数百种此类重排。几乎所有(91％)具有BRCA1突变或启动子高甲基化的癌症都在该组中，其富含基底样、三重阴性癌和高同源重组缺陷(HRD)指数的拷贝数分类[17-19]。因此，BRCA1而非BRCA2的失活可能是重排特征3小串联重复突变体表型的原因。

超过35％的重排特征1串联重复仅在8.5％的乳腺癌中发现，有些病例中有数百个这样的。这种大串联重复突变体表型的原因尚不清楚。表现出该大串联重复突变体表型的癌症通常是TP53突变，相对晚期诊断、三阴性乳腺癌，显示碱基替换特征3的富集和高同源重组缺陷(HRD)指数但不具有BRCA1/2突变或BRCA1启动子高甲基化。

重排特征5(占重排的14％)的特征是缺失<100kb。它与BRCA1突变或启动子高甲基化(图2，簇D)、BRCA2突变(图2，簇G)和重排特征1大串联重复(图2，簇F)的存在密切相关。

重排特征2(占重排的22％)的特征是非成簇缺失(>100kb)、倒位和染色体间易位，在大多数癌症中存在，但特别富集在具有安静拷贝数谱的ER阳性癌症中(图2，簇E，GISTIC簇3)。重排特征4(占重排的18％)的特征在于染色体间易位聚集，而重排特征6(占重排的19％)的特征在于成簇倒位和缺失(图2，聚集A、B、C)。

以下列出的根据本发明实施方式的方法确定从单个患者获得的DNA样品中是否存在重排特征。优选地，这些是全基因组样品，并且可以通过全基因组测序确定突变特征的存在或不存在。

DNA样品优选从患者获得的肿瘤和正常组织中获得，例如，通过活组织检查获得患者的血样和乳腺肿瘤组织。标准地，通过将其基因组序列与正常组织之一进行比较，检测肿瘤样品中的体细胞突变。

单个患者的重排特征检测方法

在本发明的实施方式中，检测从单个患者获得的DNA中的重排特征。在这些实施方式中，该检测通过计算机实施的方法或工具进行，该方法或工具检查体细胞突变的列表，所述体细胞突变列表通过从代表患者的疑似或已知肿瘤的新鲜冷冻衍生DNA，福尔马林固定的循环肿瘤DNA石蜡包埋(FFPE)DNA获得的核酸材料的高覆盖度或低通测序产生。该方法的步骤在图1中示意性地示出。

这些实施方式的体细胞突变列表可以以各种不同的形式提供(包括VCF，BEDPE，文本等)，但至少需要包含以下信息：基因组装版本，较低断点染色体，较低断点坐标，更高的断点染色体，更高的断点坐标和重排类别(倒位、串联重复缺失、易位)或更低和更高断点的链信息，以实现重排断点的定向，以便正确地对它们进行分类。

从广义上讲，在加载DNA样品的体细胞突变列表(S101)后，该工具首先过滤掉任何已知的种系和/或假象体细胞突变(S102)，然后生成样品的重排目录，然后根据下面描述的分类对重排作分类(S103)，然后评估已知共有重排突变特征对该样品的贡献(S104)，并最终确定在样品中操作性的重排过程特征集及其各自的贡献(S105)

默认情况下，共有重排特征的模式如表1所示，但突变特征的这些模式也可以是用户提供的，并且该方法不限于已知特征，并且可以容易地应用于在未来发现的新特征或修改的特征。

过滤初始数据

在分析数据之前，对体细胞重排的输入列表进行了广泛过滤，以去除任何残留的种系突变以及技术特异性测序假象。使用来自dbSNP[21]、1000个基因组项目[22]、NHLBIGO外显子组测序项目[23]和69个完整基因组学小组(http://www.completegenomics.com/ public-data/69-Genomes/)的种系突变完整列表，从报告的体细胞突变列表中过滤出种系重排或拷贝数多态性。

通过使用包含至少100个正常完整的基因组的不匹配正常人组织的BAM文件组过滤掉技术特异性测序假象(与文库制作或测序化学相关)和由参考基因组中的错误或偏差引起的绘图相关的假象。剩余的体细胞突变用于构建检查样品的突变目录。

生成样品的突变目录

剩余(即，过滤后的)体细胞重排的列表用于产生样品的重排突变目录。

(1)成簇与非成簇

应用于突变的第一个分类是它们是否成簇(紧密成组)。

为了区分在患者的癌症基因组中成簇或靠近的重排集合与在整个基因组中分布或分散的其他重排，通过基于PCF的算法解析数据。PCF(分段常数拟合)算法是一种顺序数据的分段方法。.

在应用PCF之前，对重排数据执行多个步骤。

与具有单个基因组坐标以表示其位置的替换或插入缺失不同，重排具有两个坐标或“断点”，其识别通过大结构突变事件聚集在一起的两个远距离基因组基因座。

首先，每个重排的两个断点都是独立处理的。然后根据每个样品中的参考基因组坐标对断点进行分类。将针对每个断点计算交换距离(IMD)，所述交换距离被定义为从一个重排断点到参考基因组中紧接在其之前的一个重排断点的碱基对数目。然后将计算的IMD馈送到PCF算法。

为了从“非成簇”重排中识别“成簇”重排的区域，要求一组重排的重排断点平均密度比个体患者样品的整个基因组平均重排密度大至少10倍。另外，规定了伽马参数(分段平滑度的度量)，γ＝25，并且要求在每个区域中存在最少10个断点，然后才能将其分类为重排簇。在生物学上，涉及成簇区域的任何重排的相应伙伴断裂点可能在相同的机制瞬间出现，因此即使根据参考基因组位于远端基因组位点，也可以认为其参与成簇。

因此，重排首先被分类为“成簇的”或“非成簇的”

(2)类型和大小

随后，在成簇和非成簇类别中，根据提供给主要重排类别的信息对重排进行分类：

-串联重复

-缺失

-倒位

-易位

然后可以将串联重复、缺失和倒位分类为以下5个大小组，其中通过从较高的断点减去较低断点坐标来获得重排的大小。

-1-10kb

-10-100kb

-100kb-1Mb

-1Mb-10Mb

->10Mb

易位是例外，不能按大小分类。

总之，有16个成簇重排亚组和16个非成簇重排亚组，因此共有32个类别。这些列于表1中。

然后可以将该分类的结果馈入潜在变量分析，例如NNMF，以获得描述每个重排特征的32个元素的非负矢量。

评估在检查样品的突变目录中归因于重排特征的体细胞突变的数目

通过估计与样品中所有操作性突变过程的特征的共有模式相关的突变数目来计算所有突变特征的贡献。下面列出了使用非负矩阵因子分解(NNMF)估计这种情况的方法，尽管可以同样使用诸如EMU或分层狄利克雷过程(HDP)的替代方法。

更具体地，所有共有重排特征被视为包含矢量的集合P，其中各矢量是反映共有重排特征的离散概率密度函数。对于目前已知的重排特征，这些矢量在表1的各列中列出。这里，s指的是已知的共有重排特征的数目(当前为6)，并且各矢量的32个非负分量对应于这些共有重排特征不同的重排类别(即，成簇/非成簇，类型和大小)。

为所检查样品的突变目录独立估计所有共有重排特征的贡献。估计算法包括计算每个特征和检查样品之间的余弦相似度。对于一组矢量S_1..q，q≤s，余弦相似度由下式给出：

与第i个突变特征相关的重排数E_i与余弦相似度成比例：

在上面的等式中，和表示具有32个非负分量(对应于成簇/非成簇特征以及重排的类型和大小)的矢量，分别反映了共有突变特征和所检查样品的突变目录。因此，同时此外，两个矢量都具有来自共有突变特征(即)的已知数值或来自样品产生的原始突变目录(即)的已知数值。相反，E_i对应于一个未知的标量，反映了突变目录中特征所贡献的重排数目。

上述等式在参数E_i方面受到普遍限制。更具体地，由样品中的重排特征贡献的体细胞重排的数量必须是非负的，并且它不得超过该样品中体细胞突变的总数。此外，样品中所有特征所贡献的突变必须等于该样品的体细胞突变的总数。这些限制可以在数学上表示为且

当没有先前的生物学知识可用时，整个特征的集合Q用于确定E_i，并且过滤步骤用于从最不相关的特征移动最佳解释所考虑的样品的突变(特征高度相关)。给定目录并给出在两个特征和i和j(i≠j and i，j＝1，...，Q)之间的所有||Q^Q||可能的移动，过滤步骤使用贪婪算法迭代地选择改善或不改变目录和重建目录之间的余弦相似度的移动。(是通过将突变从特征i移动到特征j而获得的矢量的版本)。当特征之间的所有移动对余弦相似度具有负面影响时，过滤步骤终止。

因此，过滤步骤可以减少DNA样品中的“噪音”，这可能最初导致少量重排归因于实际上不存在的特征。过滤允许将这种重排重新分配给更普遍的特征。

然后可以确定样品是否表现出来自已知重排特征的一个或多个重排特征，这些重排特征来自样品中存在的重排数并且与特定特征相关联。可以根据环境和结果的所需确定性来设置用于该确定的不同阈值。通常，阈值将组合在样品中检测到的重排总数(以确保分析是代表性的)以及与通过上述方法确定的特定特征相关的重排比例。

例如，对于从测序到30-40倍深度的基因组获得的数据，检测的要求可以是至少20个，优选至少40个，更优选至少50个重排，并且如果重排的至少10％，优选至少20％，更优选至少30％的比例与其相关，则认为特征存在。如下所示，可以根据构成样品中重排的显著部分的其他特征的数量来调整比例阈值(例如，如果存在4个特征，每个特征具有25％的重排，那么它可以是确定所有4个都存在，而不是根本没有特征存在，即使检测的一般要求设置高于25％)。

重排特征通常相对于彼此是“相加的”(即肿瘤可能受与多于一个特征相关的潜在突变过程的影响，并且如果是这种情况，来自该肿瘤的样品通常将显示更高的整体重排数目(与每个潜在过程相关的单独重排的总和)，但是该比例的重排分布在存在的特征上)。结果，在确定特定特征的存在或不存在时，可以注意样品中与特定特征相关联的重排的绝对数目(如通过上述方法计算的)。这种检测的替代要求可以更好地解决存在多个特征的情况。在该方法下，如果至少10个并且优选地至少20个重排与其相关联，则可以确定存在特征。

除了所描述的结构组件和用户交互之外，上述实施例的系统和方法可以在计算机系统(特别是计算机硬件或计算机软件)中实现。

术语“计算机系统”包括用于实现系统或执行根据上述实施例的方法的硬件、软件和数据存储设备。例如，计算机系统可以包括中央处理单元(CPU)，输入装置，输出装置和数据存储器。优选地，计算机系统具有监视器以提供视觉输出显示(例如，在业务过程的设计中)。数据存储器可以包括RAM，磁盘驱动器或其他计算机可读介质。计算机系统可以包括通过网络连接并且能够通过该网络彼此通信的多个计算设备。

上述实施例的方法可以作为计算机程序或承载计算机程序的计算机程序产品或计算机可读介质提供，该计算机程序在计算机上运行时被安排来执行上述方法。

术语“计算机可读介质”包括但不限于可由计算机或计算机系统直接读取和访问的任何非暂时性媒介或介质。所述介质可以包括但不限于磁存储介质，例如软盘、硬盘存储介质和磁带；光存储介质，如光盘或CD-ROM；电子存储介质如存储器，包括RAM、ROM和闪存；以及上述的混合物和组合，例如磁/光存储介质。

参考文献

1 Stratton,M.R.,Campbell,P.J.&Futreal,P.A.癌症基因组.自然458,719-724,doi:10.1038/自然07943(2009).

2 Nik-Zainal,S.等.模拟21例乳腺癌基因组的突变过程.细胞149,979-993,doi:10.1016/j.cell.2012.04.024(2012).

3 Nik-Zainal,S.等.21例乳腺癌的生活史.细胞149,994-1007,doi:10.1016/j.cell.2012.04.023(2012).

4 Hicks,J.等.新的基因组重排模式及其与乳腺癌生存的关系.基因组研究16,1465-1479,doi:10.1101/gr.5460106(2006).

5 Bergamaschi,A.等.细胞外基质特征识别具有不同临床结果的乳腺癌亚组.病理学杂志214,357-367,doi:10.1002/path.2278(2008).

6 Ching,H.C.,Naidu,R.,Seong,M.K.,Har,Y.C.&Taib,N.A.使用高密度SNP阵列综合分析原发性乳腺癌的拷贝数和杂合性缺失.国际肿瘤学杂志39,621-633,doi:10.3892/ijo.2011.1081(2011).

7 Fang,M.等.通过单核苷酸多态性阵列比较基因组杂交分析鉴定雌激素受体(ER)阳性和阴性人乳腺癌之间的基因组差异.癌症117,2024-2034,doi:10.1002/cncr.25770(2011).

8 Curtis,C.等.2000个乳腺肿瘤的基因组和转录组学结构揭示了新的亚组.自然Nature 486,346-352,doi:10.1038/nature10983(2012).

9 Pleasance,E.D.等.来自人类癌症基因组的体细胞突变的综合目录.自然463,191-196,doi:10.1038/nature08658(2010).

10 Pleasance,E.D.等.烟草暴露下，一种具有复杂特征的小细胞肺癌基因组.自然463,184-190,doi:10.1038/nature08629(2010).

11 Banerji,S.等.跨乳腺癌亚型突变和易位的序列分析.自然486,405-409,doi:10.1038/nature11154(2012).

12 Ellis,M.J.等.全基因组分析告知乳腺癌对芳香酶抑制的反应.自然486,353-360,doi:10.1038/nature11143(2012).

13 Shah,S.P.等.原发性三阴性乳腺癌的克隆和突变进化图谱.自然486,395-399,doi:10.1038/nature10933(2012).

14 Alexandrov,L.B.等.人类癌症中突变过程的特征.自然500,415-421,doi:10.1038/nature12477(2013).

15 Alexandrov,L.B.,Nik-Zainal,S.,Wedge,D.C.,Campbell,P.J.&Stratton,M.R.解读在人类癌症中有效的突变过程的特征.细胞报告3,246-259,doi:10.1016/j.celrep.2012.12.008(2013).

16 Helleday,T.,Eshtad,S.&Nik-Zainal,S.人类癌症中突变特征的机制.自然评论.遗传学15,585-598,doi:10.1038/nrg3729(2014).

17 Birkbak,N.J.等.端粒等位基因失衡表明缺陷DNA修复和对DNA损伤剂的敏感性.癌症发现2,366-375,doi:10.1158/2159-8290.CD-11-0206(2012).

18 Abkevich,V.等.基因组杂合性缺失模式预测上皮性卵巢癌中的同源重组修复缺陷.英国癌症杂志107,1776-1782,doi:10.1038/bjc.2012.451(2012).

19 Popova,T.等.倍性和大规模基因组不稳定性一致地鉴定具有BRCA1/2失活的基底样乳腺癌.癌症研究72,5454-5462,doi:10.1158/0008-5472.CAN-12-1470(2012).

20 Fischer A,Illingworth CJ,Campbell PJ,Mustonen V.EMu：突变过程的概率推断及其在癌症基因组中的定位.基因组生物学2013Apr 29；14(4):R39.doi:10.1186/gb-2013-14-4-r39.

21 Sherry,S.T.等.dbSNP：遗传变异的NCBI数据库.核酸研究29,308-311(2001).

22 Abecasis,G.R.等.来自1,092个人类基因组的遗传变异的综合图谱.自然491,56-65,doi:10.1038/nature11632(2012).

23 Fu,W.等.对6,515个外显子组的分析揭示了大多数人类蛋白质编码变体的近期起源.自然493,216-220,doi:10.1038/nature11690(2013).

所有上述参考文献在此引入作为参考。

表1

Claims

1.一种检测先前获得的DNA样品中的重排特征的方法，该方法包括以下步骤：

对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；和

通过计算所述目录中的重排突变与重排突变特征之间的余弦相似度，确定已知重排特征对所述重排目录的贡献。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括以下步骤：在所述确定步骤之前，过滤所述目录中的突变以除去一个或多个：残留的种系突变；拷贝数多态性；和已知的测序假象。

3.根据权利要求2所述的方法，其特征在于，所述过滤使用已知种系多态性的列表。

4.根据权利要求2所述的方法，其特征在于，所述过滤使用通过与DNA样品相同的过程测序的不匹配的正常人组织的BAM文件，并丢弃存在于至少两个所述BAM文件中的至少两个良好映射读数中的任何体细胞突变。

5.根据前述权利要求中任一项所述的方法，其特征在于，所述重排突变的分类包括将突变鉴定为成簇或非成簇。

6.根据权利要求5所述的方法，其特征在于，如果突变的重排断点的平均密度比个体患者样品重排的全基因组平均密度至少高10倍，则突变被鉴定为成簇。

7.根据前述权利要求中任一项所述的方法，其特征在于，所述重排突变的分类包括将突变鉴定为以下之一：串联重复、缺失、倒位或易位。

8.根据权利要求7所述的方法，其特征在于，所述重排突变的分类包括将鉴定为串联重复、缺失或倒位的突变通过大小分组。

9.根据前述权利要求中任一项所述的方法，还包括确定与第i个已知突变特征相关的重排目录中的重排数E_i的步骤，所述重排数E_i与该样品的目录和之间的余弦相似度成比例：

其中

其中，和是同等大小的矢量，其中非负分量分别为所述已知的重排特征和突变目录，且q是所述多个已知重排特征中的特征数，并且其中E_i进一步受到下述要求的限制且

10.根据权利要求9所述的方法，其特征在于，所述确定重排数目的步骤还包括通过将与目录较不相关的特征中的一个或多个重排重新分配给与目录更相关的特征来过滤确定要分配给每个特征的重排的数目的步骤。

11.根据权利要求10所述的方法，其特征在于，所述过滤步骤使用贪婪算法迭代地找到重排到特征的替代分配，所述算法改进或不改变目录与重建目录之间的余弦相似度，其中是通过将突变从特征i移动到特征j而获得的矢量版本，其中，在每次迭代中，估计特征之间所有可能的移动的影响，并且当所有这些可能的重新分配对余弦相似度具有负面影响时，过滤步骤终止。

12.根据前述权利要求中任一项所述的方法，还包括确定重排目录中经确定与所述重排特征之一相关联的重排的数目或比例是否超过预定阈值的步骤，如果超过，则确定所述重排特征存在于样品中。

13.一种计算机程序产品，其包含存储计算机程序的非暂时性存储器，所述计算机程序在计算机上运行时执行以下步骤：

对所述样品中的体细胞突变进行编目以产生该样品的重排目录，所述目录将样品中鉴定的重排突变分为多个类别；

14.一种具有处理器的计算机，其特征在于，所述处理器配置成：