CN110383385A

CN110383385A - 从肿瘤样品中检测突变负荷的方法

Info

Publication number: CN110383385A
Application number: CN201780075938.1A
Authority: CN
Inventors: R·查达瑞; F·海兰德
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2016-12-08
Filing date: 2017-12-07
Publication date: 2019-10-25
Anticipated expiration: 2037-12-07
Also published as: US20180165410A1; US20210343367A1; US11101019B2; WO2018106884A1; EP3552128A1; CN110383385B

Abstract

可以处理一种对仅肿瘤样品具有低样品输入要求的靶向组以估计肿瘤样品中的突变负荷。所述方法包括检测对应于所述肿瘤样品基因组中的靶向位置的核酸序列读数中的变体；用来自群体数据库的注释信息注释检测到的变体；过滤所述检测到的变体，其中所述过滤规则集保留所述体细胞变体并去除种系变体；对所述所识别的体细胞变体进行计数，以得到体细胞变体的数量；确定所述肿瘤样品基因组中所述靶向位置的覆盖区域中的碱基的数量；和计算每兆碱基的体细胞变体的数量，提供所述肿瘤样品基因组中每兆碱基的所述突变负荷的估计值。

Description

从肿瘤样品中检测突变负荷的方法

交叉参考

本申请要求2016年12月8日提交的美国临时申请第62/431,493号；2017年10月31日提交的美国临时申请第62/579,645号；2017年11月14日提交的美国临时申请第62/585,598号在35U.S.C.§119(e)下的权益。上述申请的全部内容以引用的方式并入本文中。

发明内容

高肿瘤突变负荷是一种生物标志物，其在一些癌症类型中显示出预测对免疫检查点抑制剂的阳性反应。目前估计肿瘤突变负荷的方法可能需要大量的DNA来支持全外显子组测序和匹配的肿瘤和正常样品。来自肿瘤样品的具有低样品输入要求的靶向组可用于估计肿瘤样品基因组中的突变负荷。

根据示例性实施例，提供了分析肿瘤样品基因组的突变负荷的方法，包括以下步骤：(1)检测多个核酸序列读数中的变体以产生多个检测到的变体，其中核酸序列读数对应于肿瘤样品基因组中的多个靶向位置，其中检测到的变体包括体细胞变体和种系变体；(2)用来自一个或多个群体数据库的注释信息注释多个检测到的变体的一个或多个检测到的变体，其中群体数据库包括与群体中变体相关的信息，其中注释信息包括与给定变体相关的次要等位基因频率；(3)过滤多个检测到的变体，其中过滤将规则集施加到检测到的变体以保留体细胞变体，所述规则集包括保留其次要等位基因频率(MAF)在MAF范围内的检测到的变体，其中过滤产生所识别的体细胞变体；(4)计数所识别的体细胞变体以得到体细胞变体的数量；(5)确定肿瘤样品基因组中靶向位置的覆盖区域中的碱基的数量；和(6)通过将所识别的体细胞变体的数量除以覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生肿瘤样品基因组的突变负荷。

根据示例性实施例，提供了一种用于分析肿瘤样品基因组的突变负荷的系统，其包含处理器和与所述处理器通信连接的数据存储器，所述处理器配置成进行包括以下步骤：检测多个核酸序列读数中的变体以产生多个检测到的变体，其中核酸序列读数对应于肿瘤样品基因组中的多个靶向位置，其中检测到的变体包括体细胞变体和种系变体；用来自存储在数据存储器中的一个或多个群体数据库的注释信息注释多个检测到的变体的一个或多个检测到的变体，其中群体数据库包括与群体中变体相关的信息，其中注释信息包括与给定变体相关的次要等位基因频率；过滤多个检测到的变体，其中过滤将规则集施加到检测到的变体以保留体细胞变体，规则集包括保留其次要等位基因频率(MAF)在MAF范围内的检测到的变体，其中过滤产生所识别的体细胞变体；计数所识别的体细胞变体，以得到体细胞变体的数量；确定肿瘤样品基因组中靶向位置的覆盖区域中的碱基的数量；和通过将所识别的体细胞变体的数量除以覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生肿瘤样品基因组的所述突变负荷。

根据示例性实施例，提供了一种包含指令的非暂时性机器可读存储媒体，所述指令在由处理器执行时使处理器进行分析肿瘤样品基因组的突变负荷的方法，所述方法包括：(1)检测多个核酸序列读数中的变体以产生多个检测到的变体，其中核酸序列读数对应于肿瘤样品基因组中的多个靶向位置，其中检测到的变体包括体细胞变体和种系变体；(2)用来自一个或多个群体数据库的注释信息注释多个检测到的变体的一个或多个检测到的变体，其中群体数据库包括与群体中变体相关的信息，其中注释信息包括与给定变体相关的次要等位基因频率；(3)过滤多个检测到的变体，其中过滤将规则集施加到检测到的变体以保留体细胞变体，规则集包括保留其次要等位基因频率(MAF)在MAF范围内的检测到的变体，其中过滤产生所识别的体细胞变体；(4)计数所识别的体细胞变体，以得到体细胞变体的数量；(5)确定肿瘤样品基因组中靶向位置的覆盖区域中的碱基的数量；和(6)通过将所识别的体细胞变体的数量除以覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生肿瘤样品基因组的突变负荷。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。将通过参考阐述其中使用本发明原理的说明性实施例和其附图的以下具体实施方式来获得对本发明特征和优势的更佳理解：

图1是根据示例性实施例的检测肿瘤突变负荷的方法的框图。

图2A是每等位基因比率的变体的数量的直方图的实例，包括所有检测到的变体、种系和体细胞变体。

图2B是施加过滤规则集以去除种系变体后每等位基因比率的变体的数量的直方图的实例。

图3A是每等位基因比率的变体的数量的直方图的实例，包括所有检测到的变体、种系和体细胞变体。

图3B是施加过滤规则集以去除种系变体后每个等位基因比率的变体的数量的直方图的实例。

图4A是每等位基因比率的变体的数量的直方图的实例，包括所有检测到的变体、种系和体细胞变体。

图4B是施加过滤规则集以去除种系变体后每个等位基因比率的变体的数量的直方图的实例。

图5显示了由仅肿瘤样品分析与匹配的肿瘤正常样品分析得到的体细胞SNV突变计数的比较实例。

图6显示了由仅肿瘤样品分析与匹配的肿瘤正常样品分析得到的体细胞SNV突变计数的比较实例。

图7显示了测试体细胞突变计数的再现性的结果。

图8显示了比较通过TML的靶向组的突变计数与通过WES的突变计数的图。

图9A显示了针对黑素瘤的靶向组和WES之间的突变计数的比较。

图9B显示了针对肺癌的靶向组和WES之间的突变计数的比较。

图9C显示了针对结肠直肠癌的靶向组和WES之间的突变计数的比较。

图9D显示了针对子宫内膜癌的靶向组和WES之间的突变计数的比较。

图10A显示WES TML计数与临床反应的箱形图的实例。

图10B显示了与靶向组相对于临床反应交叉的体细胞突变计数的箱形图的实例。

图11A显示了WES TML计数与临床反应的箱形图的实例。

图11B显示了与靶向组相对于临床反应交叉的体细胞突变计数的箱形图的实例。

图12显示MSI高和MSI低样品的每Mb突变计数的实例。

图13是表4中给出的百分比值的实例的体细胞突变模式的饼图。

图14是根据各种实施例的用于重构核酸序列的示例性系统的示意图。

图15是根据各种实施例的用于注释基因组变体的系统的示意图。

具体实施方式

根据教示和实施于本申请的原则，提供通过分析来自仅肿瘤样品基因组的核酸序列读数估计肿瘤突变负荷的方法、系统和非暂时性机器可读存储媒体。

在各种实施例中，DNA(脱氧核糖核酸)可以称为由4种类型的核苷酸组成的核苷酸链；A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)，并且RNA(核糖核酸)包含4种类型的核苷酸；A、U(尿嘧啶)、G和C。某些对的核苷酸以互补方式彼此特异性结合(称作互补碱基配对)。也就是说，腺嘌呤(A)与胸腺嘧啶(T)配对(但是，在RNA的情况下，腺嘌呤(A)与尿嘧啶(U)配对)，并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸构成的第二核酸链时，两个链结合以形成双链。在各种实施例中，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”、“核酸序列读数”或“核酸测序读数”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的次序的任何信息或数据。应理解，本教示涵盖使用包括但不限于以下的所有可用种类的技巧、平台或技术获得的序列信息：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。

短语“碱基空间”是指核酸序列数据模式，其中核酸序列信息由核酸序列的实际核苷酸碱基组成表示。举例来说，核酸序列“ATCGA”在碱基空间中通过核酸序列的实际核苷酸碱基一致性(例如，A、T/或U、C、G)表示。

短语“流动空间”是指核酸序列数据模式，其中核酸序列信息由核苷酸碱基识别(或已知核苷酸碱基流的识别)与表示核酸序列的核苷酸并入事件的信号或数字定量组分相结合。定量组分可以与连续碱基重复的相对数量相关，如均聚物，其并入与相应的核苷酸碱基流相关。举例来说，核酸序列“ATTTGA”可以由以下表示：核苷酸碱基识别A、T、G和A(基于核苷酸碱基流动顺序)加上用于指示碱基存在/不存在的各种流动的定量组分以及可能存在均聚物。因此，对于上述实例序列中的“T”，定量组分可对应于比单个“T”预期的更大幅度的信号或数字识别符，并且可以被解析为表示在“ATTTGA”核酸序列中存在“T”的均聚物延伸(在这种情况下为3聚体)。

“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常，聚核苷酸包含至少三个核苷。通常，寡核苷酸的大小在几个单体单元，例如3-4个至几百个单体单元范围内。每当聚核苷酸(如寡核苷酸)由一序列字母(如“ATGCCTG”)表示时，应理解，除非另外指出，否则核苷酸按从左到右的5'->3'次序并且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，且“T”表示胸苷。如在本领域中标准的，字母A、C、G和T可以用于指碱基本身、核苷或包含碱基的核苷酸。

短语“基因组变体(genomic variants/genome variants)”表示由于突变、重组/交换或基因变动而对标记为特定物种内的特定物种或亚群进行了变化的单个或一组序列(在DNA或RNA中)。基因组变体类型的实例包括但不限于：单核苷酸多态性(SNP)、拷贝数变体(CNV)、插入/缺失(插入缺失)、倒位等。

在各种实施例中，可以使用核酸测序系统和/或测序数据的分析来检测基因组变体。测序工作流程可以开始于将测试样品剪切或消化至数百、数千或数百万个较小的片段，这些片段在核酸测序仪上测序以提供数百、数千或数百万的序列读数，如核酸序列读数。然后可以将每个读数映射到参考或靶向基因组，并且在配对片段的情况下，可以配对读数，从而允许询问基因组的重复区域。映射和配对的结果可以用作各种独立或整合的基因组变体(例如，SNP、CNV、插入缺失、反转等)分析工具的输入。

短语“样品基因组”可以表示生物体的全或部分基因组。

如本文所用，术语“等位基因”是指与基因或DNA链段相关的基因变异，即，占据相同基因座的DNA序列的两种或更多种替代形式中的一种。

如本文所用，术语“基因座”是指在染色体或核酸分子上的特定位置。基因座的等位基因位于同源染色体上的相同位点处。

如本文所用，“靶向组”是指一组靶特异性引物，其被设计用于选择性扩增样品中的靶基因序列。在一些实施例中，至少一种靶序列的以下选择性扩增、工作流程还包括扩增的靶序列的核酸测序。

如本文所用，“靶序列”或“靶基因序列”和其派生物是指可根据本公开扩增或合成的任何单链或双链核酸序列，包括怀疑或预期样品中存在的任何核酸序列。在一些实施例中，在添加靶特异性引物或附接衔接子之前，靶序列以双链形式存在并且包括待扩增或合成的具体核苷酸序列的至少一部分或其补体。靶序列可包括可与适用于扩增或合成反应的引物在聚合酶延伸之前杂交的核酸。在一些实施例中，所述术语指核酸序列，其序列一致性、核苷酸的次序或位置由本公开的方法中的一种或多种测定。

如本文所用，“靶特异性引物”和其派生物是指单链或双链聚核苷酸，通常是寡核苷酸，其包括至少一个与包括靶序列的核酸分子的至少一部分至少50％互补，通常至少75％互补或至少85％互补，更通常至少90％互补，更通常至少95％互补，更通常至少98％或至少99％互补或一致的序列。在这类情况下，靶特异性引物和靶序列描述成彼此“相应”。在一些实施例中，靶特异性引物能够与其相应靶序列的至少一部分(或靶序列的补体)杂交；这类杂交可任选地在标准杂交条件下或在严格杂交条件下进行。在一些实施例中，靶特异性引物不能与靶序列或其补体杂交，但能够与包括靶序列的核酸链的一部分或其补体杂交。在一些实施例中，正向靶特异性引物和反向靶特异性引物定义靶特异性引物对，其可用于经由模板依赖性引物延伸来扩增靶序列。通常，靶特异性引物对中的每个引物包括至少一个与包括相应靶序列的核酸分子的至少一部分基本上互补，但与样品中的至少一个其它靶序列小于50％互补的序列。在一些实施例中，扩增可在单次扩增反应中使用多个靶特异性引物对进行，其中每个引物对包括正向靶特异性引物和反向靶特异性引物，各自包括至少一个与样品中的相应靶序列基本上互补或基本上相同的序列，并且每个引物对具有不同的相应靶序列。

肿瘤突变负荷(TML)是肿瘤基因组内突变数量的测量，定义为肿瘤基因组每编码区域的突变总数。最近的研究显示肿瘤突变负荷是一种敏感的标志物，其可以帮助预测对某些癌症免疫疗法的反应。免疫疗法已显示出对黑素瘤、非小细胞肺癌(NSCLC)和膀胱癌以及其它癌症的抗癌作用。高肿瘤突变负荷与免疫检查点抑制剂的阳性反应相关。因此，肿瘤的高突变负荷可以作为免疫疗法的预测生物标志物。然而，估计肿瘤突变负荷的现有方法具有大的输入DNA和广泛的基础设施要求，并且由于将珍贵的活检样品运送到中心实验室而导致的延迟有关。

在一些实施例中，具有低样品输入要求的靶向组可用于估计肿瘤样品中的突变负荷。用于肿瘤突变负荷或TML组的靶向组提供了全外显子组测序(WES)的可行替代方案。在一些实施例中，靶向组可包含可购自赛默飞世尔科技(Thermo Fisher Scientific(SKU4477685))的综合癌症组(CCP)。CCP使用高度多重扩增来询问409个癌基因，如致癌基因和肿瘤遏制基因，其中4池引物对靶向组基因。在一些实施例中，可改性CCP以使用两个组合池而不是四个池来起作用以减少DNA样品大小。去除组合池中的重叠引物可以减少改性的CCP组中的引物数量，以产生包括与CCP相同的基因的TML的靶向组。靶向组询问了覆盖约1.7兆碱基(Mb)基因组空间的409个关键癌症基因。在一些实施例中，工作流程可能需要来自福尔马林固定的石蜡包埋(FFPE)或其它样品类型的高达20ng DNA。在其它实施例中，工作流程可使用约1ng至约40ng的样品DNA。在其它实施例中，工作流程可使用约1ng至约20ng或约10ng至约20ng的样品DNA。本文描述的实施例不需要分析匹配的正常样品来估计肿瘤突变负荷。

在一些实施例中，组可包含可购自赛默飞世尔科技(SKU A35806或SKU A36111)的Oncomine综合测定v3(Oncomine Comprehensive Assay v3)(OCAv3)。OCAv3组询问了161个癌症相关基因，并且能够使用靶向组基因的引物对检测SNV(单核苷酸变体)、CNV(拷贝数变体)、基因融合体和插入缺失。在一些实施例中，组可包含定制组或癌症驱动基因或与癌症相关的其它基因的其它靶向组。

图1是根据示例性实施例的检测肿瘤突变负荷的方法的框图。在变体调用步骤102中，处理器接收由肿瘤样品的靶向测序产生的比对序列读数。举例来说，可以使用BAM文件格式从文件中检索比对的序列读数。比对的序列读数可以对应于肿瘤样品基因组中的多个靶向位置。变体调用步骤102可以由一个或多个变体调用者参数配置。在一些实施例中，变体调用者参数可包括最小等位基因频率、链偏移和数据质量严格性的参数。最小等位基因频率参数设定非参考变体调用所需的最小观察到的等位基因频率。链偏移表示正向和反向测序中变体读数的相对比例。链偏移参数设定链偏移的最大水平，使得如果在一个定向测序中观察到的变体读数的比例超过链偏移参数，则不调用变体。数据质量严格性参数设定进行变体调用所需的读数质量的阈值。在一些实施例中，单核苷酸变体(SNV)检测的变体调用者参数可以设定为表1中给出的值。

表1.

变体调用者参数	值	范围
			最小等位基因频率	0.05或0.1	0.001至0.15
链偏移	0.9	0.54至0.95
			数据质量严格性	20	5至25

在一些实施例中，变体调用者参数可以包括最小覆盖参数或最小读数深度参数，其设定调用变体所需的最小覆盖度。可以将最小覆盖参数设定为降低C>T或G>A类型非系统噪声的水平。最小覆盖参数可以设定在20至60的范围内。最小覆盖参数20给出10％的检测水平(LOD)，并且最小覆盖参数60给出5％的LOD水平。

在一些实施例中，比对的序列读数由关于图15描述的映射引擎308提供。在一些实施例中，变体调用步骤102可以由关于图15描述的变体调用引擎310实现。在一些实施例中，与本教示一起使用的变体检测方法可以包括在2013年12月26日公布的美国专利申请公开案第2013/0345066号、2014年10月2日公布的美国专利申请公开案第2014/0296080号和2014年2月20日公布的美国专利申请公开案第2014/0052381号中描述的一种或多种特征，其每个均以全文引用的方式并入本文中在一些实施例中，可以使用其它变体检测方法。在各种实施例中，变体调用者可以被配置为用于样品基因组的变体调用以*.vcf、*.gff或*.hdf数据文件进行通信。调用的变体信息可使用任何文件格式通信，只要调用的变体信息可以解析和/或抽取用于分析。

返回到图1，在变体注释步骤104中，处理器使用与来自一个或多个群体数据库的相应变体相关联的信息来注释检测到的变体。在一些实施例中，注释信息可包括变体的次等位基因频率(MAF)。群体数据库可以提供公共注释信息内容或专有注释信息内容。举例来说，公开可用的群体数据库包括：5000个外显子组--NHLBI外显子组测序项目(http://evs.gs.washington.edu/EVS/)、1000个基因组-国际基因组样品资源(IGSR)(http://www.internationalgenome.org/home)和ExAC-外显子组聚集联合体(http://exac.broadinstitute.org)和UCSC公共SNP(https://genome.ucsc.edu/)。可以使用除了这些数据库之外或代替这些数据库的来自其它群体数据库的注释信息。可以理解，随着基因信息资源的开发，可以获得新的和更广泛的数据库。

在一些实施例中，注释步骤106可以在注释器组件314中实施，并且群体数据库信息可以存储在关于图15描述的注释数据存储器324中。在一些实施例中，与本教示一起使用的注释方法可以包括在2016年1月28日公布的美国专利申请案第2016/0026753号中描述的一个或多个特征，其以全文引用的方式并入本文中。

在过滤步骤106中，处理器施加规则集以保留体细胞变体并从检测到的变体中去除种系变体。在一些实施例中，过滤规则集被施加到每个检测到的变体，并且包括表2中列出的至少一些规则。

表2.

在一些实施例中，保留特定类型的变体，如仅SNV，用于进一步分析，同时滤出其它类型的变体。任选地，可以保留其它类型的变体，如插入缺失，用于进一步分析。在一些实施例中，滤出均聚物长度大于7的区域中的变体，以降低用于长均聚物的碱基调用中的较低准确度。在过滤规则3、4和5中，如果由群体数据库指示的MAF在给定的MAF范围内，则保留检测到的变体。通过注释步骤104将MAF包括在与检测到的变体相关联的注释信息中。在优选实施例中，MAF范围是[0 10^-6]，或MAF小于或等于10^-6。在一些实施例中，MAF范围可以是[00.001]、[0 0.002]或[0 0.01]。群体数据库的MAF范围可以相同或不同，如1000个基因组、5000个外显子组和ExAC数据库。在过滤规则6中，滤出在UCSC公共SNP数据库中找到的变体。施加到检测到的变体的过滤规则集去除了种系变体并保留了体细胞变体以产生所识别的体细胞变体。

在计数步骤108中，处理器对所识别的体细胞变体进行计数以产生体细胞突变计数。在确定步骤110中，处理器确定比对的序列读数的覆盖区域，其中给定碱基位置的覆盖范围至少是阈值覆盖度。在一些实施例中，阈值覆盖度可以在20至60个序列读数的范围内。阈值覆盖度20对应于10％LOD的工作流程。阈值覆盖度60对应于5％LOD的工作流程。处理器计数覆盖区域中的碱基的数量，以产生以兆碱基(Mb)为单位的覆盖碱基计数。在计算步骤112中，处理器将体细胞突变计数除以覆盖的碱基计数，以形成肿瘤样品基因组中每Mb的体细胞突变的数量的肿瘤突变负荷的估计。可以在向用户的报告中提供肿瘤突变负荷估计。

图2A-2B、3A-3B和4A-4B显示在施加关于图1描述的过滤规则集106之前和之后的结果的实例。图2A、3A是4A显示每等位基因比率的变体的数量的直方图，包括所有检测到的变体、种系和体细胞变体。等位基因的等位基因比率是支持此等位基因的读数的数量与相应位置的读数的总数的比率。在等位基因比率为0.5附近的检测到的变体的簇可以指示来自一个亲本的种系等位基因。在等位基因比率为1.0附近的检测到的变体的簇可以指示来自两个亲本的种系等位基因。图2B、3B是4B，其显示在施加过滤规则集以通过过滤步骤106去除种系变体之后每等位基因比率的变体的数量的直方图。变体的数量显著减少，如图2B、3B和4B以及表3中所示。表3还给出了每兆碱基的体细胞突变或每兆碱基的突变负荷的结果。

表3.

为了测试仅肿瘤分析在计数体细胞变体中的有效性，比较了由仅肿瘤分析和匹配的肿瘤正常分析产生的突变计数。图5和6显示了由仅肿瘤分析和匹配的肿瘤正常分析产生的体细胞SNV突变计数的比较实例。在使用关于图1描述的方法测定的仅FFPE肿瘤样品中的体细胞突变计数与通过匹配的肿瘤正常测序测定的体细胞突变计数高度一致。仅肿瘤分析的突变计数与肿瘤正常分析的突变计数密切相关。对于图5的结果，确定系数，r2＝0.80。对于图6的结果，相关系数，r＝0.9233。

图7显示了测试体细胞突变计数的再现性的结果。结果显示使用关于图1描述的方法估计的体细胞突变负荷具有高度再现性。样品类型包括细胞系、FFPE和新鲜冷冻(FF)肺样品。

细胞系样品获自用于内科研究的考瑞尔研究所(Coriell Institute forMedical Research)下的NIGMS人基因细胞存储库(NIGMS Human Genetic CellRepository)。FFPE和FF样品获自Biochain、Bioreclamation和Conversant。对照样品获自Acrometrix。

计算机分析显示靶向组与突变计数的全外显子组测序结果很好地相关。WES数据的体细胞变体数据集衍生自COSMIC v80数据库，其含有衍生自22种主要癌症类型(http://cancer.sanger.ac.uk/cosmic)的21,056个外显子组。体细胞变体数据集中的体细胞突变限于由用于TML的靶向组覆盖的那些。图8显示了比较通过TML的靶向组的突变计数与通过WES的突变计数的图。绘制的突变计数表示癌症类型，包括膀胱癌、脑和中枢神经系统(CNS)癌症、乳腺癌、宫颈癌、结肠直肠癌、子宫内膜癌、食道癌、胃癌、头颈癌、肾癌、白血病、肝癌、肺癌、淋巴瘤、黑素瘤、骨髓瘤、其它癌症、卵巢癌、胰腺癌、前列腺癌、肉瘤和甲状腺癌。WES中的体细胞突变计数与针对TML的靶向组中的突变计数强烈相关，其中r2＝0.968。

图9A-9D显示了比较通过针对TML的靶向组的突变计数与通过WES从图8中抽取的单个癌症类型的突变计数的图。图9A显示了针对黑素瘤的靶向组和WES之间的突变计数的比较，其中r2＝0.976。图9B显示了针对肺癌的靶向组和WES之间的突变计数的比较，其中r2＝0.935。图9C显示了针对结肠直肠癌的靶向组和WES之间的突变计数的比较，其中r2＝0.975。图9D显示了针对子宫内膜癌的靶向组和WES之间的突变计数的比较，其中r2＝0.995。参照图8和图9A-9D描述的结果，其显示了靶向组适合于TML估计。

在Rizvi等人(2016《科学(Science)》)的研究中，348:124-128))和Snyder等人(2014《新英格兰医学杂志(N Eng J Med.)》371:2189-2199)的研究中，较高的体细胞突变计数与免疫检查点阻断抑制剂的临床反应相关。图10A-10B和11A-11B显示了使用全外显子组测序(WES)在Rizvi和Snyder研究中报告的结果的计算机分析。图10A和11A分别显示了WES TML计数与Rizvi结果和Snyder结果的临床反应的箱形图。为了与靶向组比较，确定与包括409个基因的靶向组交叉的体细胞突变计数并绘图。图10B和11B显示了与临床反应相对的靶向组交叉的体细胞突变计数的箱形图。结果表明，靶向组足以预测潜在的临床结果。在没有假设的情况下，使用曼惠特尼精确测试(Mann-Whitney Exact test)测定P值。

高突变负荷与结直肠癌中的微卫星不稳定性(MSI)相关。因此，MSI状态可用于基准测试。使用关于图1描述的TML检测方法测试一批7个结肠直肠癌(CRC)肿瘤样品，其中三个具有已知的MSI高状态，且四个具有已知的MSI低状态。图12显示MSI高和MSI低样品的每Mb的突变计数。MSI高状态与CRC肿瘤样品中每Mb的高突变计数相关。结果显示，TML检测方法基于每Mb的突变计数成功地对MSI高和MSI低样品进行分层。

在一些实施例中，可以在向用户的报告中提供与由过滤步骤106所识别的体细胞变体相关的DNA损伤的来源。DNA损伤的来源可包括但不限于紫外(UV)光、烟草烟雾、FFPE脱氨基和5-甲基胞嘧啶的自发脱氨基。表4列出了与这些源的损伤一致的体细胞突变类型。

表4.

损伤的来源	体细胞突变的类型
		(1)5-甲基胞嘧啶的自发脱氨基	在<u>C</u>pG下，高C>T
(2)UV损伤	在<u>C</u>pC、Cp<u>C</u>、Tp<u>C下，高</u>C>T、T>A和T>C
		(3)抽烟损伤	高C>A
(4)FFPE处理损伤	高C>T(独立位点)

表4中给出的关系的参考文献是(1)Alexandrov LB等人《自然(Nature)》，2013；(2)Hayward NK等人《自然(Nature)》，2017；(3)Alexandrov LB等人《癌症病源学(CancerEtiology)》，2016；和(4)Wong SQ等人《BMC内科基因组学(BMC Medical Genomics)》，2014。

在一些实施例中，处理器可计算由过滤步骤106所识别的体细胞突变的百分比，其与各种损伤的来源一致的体细胞突变类型相匹配。表5给出了针对与表4中给出的体细胞突变类型匹配的所识别的体细胞变体计算的百分比的实例。“休息”用于那些与表4中给出的任何类型的体细胞突变不匹配的体细胞变体。

表5.

体细胞突变的类型	百分比	图13扇区
			T>A且T>C	54.2％	1304
休息	20.8％	1305
			C>A	16.7％	1303
在NCC、CC[ACT]、TC[ACT]下，C>T	4.2％	1302
			在[AG]CG下C>T	4.2％	1301

图13是表4中给出的百分比值的实例的体细胞突变模式的饼图。饼图中的扇区1301、1302、1303、1304和1305在表4中记录。在一些实施例中，图13的饼图和表4和5的信息可以包括在用户的报告中。

在一些实施例中，可以进一步分析由过滤步骤106所识别的体细胞突变以产生报告的各种图、饼图和直方图。举例来说，可以计算具有某些类型的取代的所识别的体细胞突变的百分比并以饼图显示。取代类型的实例包括C>A、C>G、C>T、T>A、T>C和T>G。

本文所述的用于估计肿瘤突变负荷的靶向组和方法提供了对全外显子组测序(WES)的技术的改进。序列组装方法必须能够有效地组装和/或映射大量读数，如通过最小化计算资源的使用。举例来说，人类大小基因组的测序可导致需要组装的数千万或数亿个读数，之后可对其进一步分析。来自靶向测序的核酸序列读数的计算机处理减少了与WES数据的处理相比的计算要求和存储器要求。对于WES，将覆盖30Mb的肿瘤基因组。由核酸序列读数得到的30Mb的数据需要计算以检测变体和存储。比较起来，覆盖约1.7Mb的肿瘤基因组的靶向组将需要用于检测变体的基本上更少的计算和用于存储的核酸序列读数和变体数据的基本上更少的存储器。

用于估计本文所述的仅肿瘤样品的肿瘤突变负荷的靶向组和方法提供了对匹配的肿瘤正常样品处理的技术的改进。在某些情况下，可能无法获得肿瘤样品的匹配正常样品。当匹配的正常样品可用时，检测来自正常样品的核酸序列读数中的变体需要至少与肿瘤样品相同的处理量，从而至少使计算和存储器要求加倍。

根据示例性实施例，提供了分析肿瘤样品基因组的突变负荷的方法，包括以下步骤：(1)检测多个核酸序列读数中的变体以产生多个检测到的变体，其中核酸序列读数对应于肿瘤样品基因组中的多个靶向位置，其中检测到的变体包括体细胞变体和种系变体；(2)用来自一个或多个群体数据库的注释信息注释多个检测到的变体的一个或多个检测到的变体，其中群体数据库包括与群体中变体相关的信息，其中注释信息包括与给定变体相关的次要等位基因频率；(3)过滤多个检测到的变体，其中过滤将规则集施加到检测到的变体以保留体细胞变体，所述规则集包括保留其次要等位基因频率(MAF)在MAF范围内的检测到的变体，其中过滤产生所识别的体细胞变体；(4)计数所识别的体细胞变体以得到体细胞变体的数量；(5)确定肿瘤样品基因组中靶向位置的覆盖区域中的碱基的数量；和(6)通过将所识别的体细胞变体的数量除以覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生肿瘤样品基因组的突变负荷。MAF范围可以是0至10^-6。群体数据库可以包括1000个基因组数据库、5000个外显子组数据库和外显子组聚集联合体(ExAC)数据库中的一个或多个。用于过滤步骤的规则集可以进一步包含保留检测到的变体，所述变体是单核苷酸变体(SNV)。规则集可以进一步包含保留是SNV的检测到的变体、插入变体和缺失变体(插入缺失)。规则集可以进一步包含去除所述检测到的变体，所述变体是与UCSC公共SNP数据库中的SNP相对应的SNV。规则集可以进一步包含在均聚物长度大于7的区域中去除检测到的变体。检测变体可以由变体调用者参数配置，所述变体调用者参数包括最小等位基因频率参数、链偏移参数和数据质量严格性参数。最小等位基因频率参数可以在0.001至0.15范围内，链偏移参数可以在0.54至0.95范围内，并且数据质量严格性参数可以在5至25范围内。所述方法可以进一步包含使体细胞突变损伤的来源与所识别的体细胞变体相关联。

根据示例性实施例，提供了一种用于分析肿瘤样品基因组的突变负荷的系统，其包含处理器和与所述处理器通信连接的数据存储器，所述处理器配置成进行包括以下步骤：检测多个核酸序列读数中的变体以产生多个检测到的变体，其中核酸序列读数对应于肿瘤样品基因组中的多个靶向位置，其中检测到的变体包括体细胞变体和种系变体；用来自存储在数据存储器中的一个或多个群体数据库的注释信息注释多个检测到的变体的一个或多个检测到的变体，其中群体数据库包括与群体中变体相关的信息，其中注释信息包括与给定变体相关的次要等位基因频率；过滤多个检测到的变体，其中过滤将规则集施加到检测到的变体以保留体细胞变体，规则集包括保留其次要等位基因频率(MAF)在MAF范围内的检测到的变体，其中过滤产生所识别的体细胞变体；计数所识别的体细胞变体，以得到体细胞变体的数量；确定肿瘤样品基因组中靶向位置的覆盖区域中的碱基的数量；和通过将所识别的体细胞变体的数量除以覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生肿瘤样品基因组的所述突变负荷。MAF范围可以是0至10^-6。群体数据库可以包括1000个基因组数据库、5000个外显子组数据库和外显子组聚集联合体(ExAC)数据库中的一个或多个。用于过滤步骤的规则集可以进一步包含保留检测到的变体，所述变体是单核苷酸变体(SNV)。规则集可以进一步包含保留是SNV的检测到的变体、插入变体和缺失变体(插入缺失)。规则集可以进一步包含去除所述检测到的变体，所述变体是与UCSC公共SNP数据库中的SNP相对应的SNV。规则集可以进一步包含在均聚物长度大于7的区域中去除检测到的变体。检测变体可以由变体调用者参数配置，所述变体调用者参数包括最小等位基因频率参数、链偏移参数和数据质量严格性参数。最小等位基因频率参数可以在0.001至0.15范围内，链偏移参数可以在0.54至0.95范围内，并且数据质量严格性参数可以在5至25范围内。这些步骤可以进一步包含使体细胞突变损伤的来源与所识别的体细胞变体相关联。

根据示例性实施例，提供了一种包含指令的非暂时性机器可读存储媒体，所述指令在由处理器执行时使处理器进行分析肿瘤样品基因组的突变负荷的方法，所述方法包括：(1)检测多个核酸序列读数中的变体以产生多个检测到的变体，其中核酸序列读数对应于肿瘤样品基因组中的多个靶向位置，其中检测到的变体包括体细胞变体和种系变体；(2)用来自一个或多个群体数据库的注释信息注释多个检测到的变体的一个或多个检测到的变体，其中群体数据库包括与群体中变体相关的信息，其中注释信息包括与给定变体相关的次要等位基因频率；(3)过滤多个检测到的变体，其中过滤将规则集施加到检测到的变体以保留体细胞变体，规则集包括保留其次要等位基因频率(MAF)在MAF范围内的检测到的变体，其中过滤产生所识别的体细胞变体；(4)计数所识别的体细胞变体，以得到体细胞变体的数量；(5)确定肿瘤样品基因组中靶向位置的覆盖区域中的碱基的数量；和(6)通过将所识别的体细胞变体的数量除以覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生肿瘤样品基因组的突变负荷。MAF范围可以是0至10^-6。群体数据库可以包括1000个基因组数据库、5000个外显子组数据库和外显子组聚集联合体(ExAC)数据库中的一个或多个。用于过滤步骤的规则集可以进一步包含保留检测到的变体，所述变体是单核苷酸变体(SNV)。规则集可以进一步包含保留是SNV的检测到的变体、插入变体和缺失变体(插入缺失)。规则集可以进一步包含去除所述检测到的变体，所述变体是与UCSC公共SNP数据库中的SNP相对应的SNV。规则集可以进一步包含在均聚物长度大于7的区域中去除检测到的变体。检测变体可以由变体调用者参数配置，所述变体调用者参数包括最小等位基因频率参数、链偏移参数和数据质量严格性参数。最小等位基因频率参数可以在0.001至0.15范围内，链偏移参数可以在0.54至0.95范围内，并且数据质量严格性参数可以在5至25范围内。这些步骤可以进一步包含使体细胞突变损伤的来源与所识别的体细胞变体相关联。

在各种实施例中，核酸序列数据可以使用包括但不限于以下的各种技巧、平台或技术产生：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统、基于荧光的系统、单分子方法等。

核酸测序平台如核酸测序仪的各种实施例可以包括如图14的框图中显示的组件。根据各种实施例，测序仪器200可以包括流体递送和控制单元202、样品处理单元204、信号检测单元206以及数据采集、分析和控制单元208。用于下一代测序的仪表、试剂、库和方法的各种实施例描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中。仪器200的各种实施例可以提供可以用于并行地，如基本上同时从多个序列收集序列信息的自动化测序。

在各种实施例中，流体学递送和控制单元202可以包括试剂递送系统。试剂递送系统可以包括用于存储各种试剂的试剂储集器。试剂可以包括基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。另外，试剂递送系统可以包括移液系统或连续流动系统，其将样品处理单元与试剂储集器连接。

在各种实施例中，样品处理单元204可以包括样品室，如流槽、基板、微阵列、多孔盘等。样品处理单元204可以包括多个通道、多个槽道、多个孔或其它基本上同时处理多个样品组的手段。另外，样品处理单元可以包括多个样品室以使得能够同时处理多个轮次。在特定实施例中，系统可以对一个样品室进行信号检测，并基本上同时处理另一个样品室。另外，样品处理单元可以包括用于移动或操纵样品室的自动化系统。

在各种实施例中，信号检测单元206可以包括成像或检测传感器。举例来说，成像或检测传感器可以包括CCD、CMOS、离子传感器(如覆盖CMOS的离子敏感层)、电流检测器等。信号检测单元206可以包括励磁系统以引起探针(如荧光染料)发射信号。期望系统可以包括照明源，如弧光灯、激光、发光二极管(LED)等。在特定实施例中，信号检测单元206可以包括用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。替代地，信号检测单元206可以不包括照明源，例如，当由于测序反应而自发产生信号时。举例来说，信号可以通过释放部分的相互作用产生，如与离子敏感层相互作用的释放离子，或与酶或其它催化剂反应产生化学发光信号的焦磷酸盐。在另一个实例中，电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。

在各种实施例中，数据采集分析和控制单元208可以监视各种系统参数。系统参数可以包括仪器200的各部分(如样品处理单元或试剂储集器)的温度、各种试剂的体积、各种系统子组件(如操纵器、步进式电机、泵等)的状态、或其任何组合。

本领域的技术人员应了解，仪器200的各种实施例可以用于实践多种测序方法，包括基于连接的方法、合成测序、单分子方法、纳米孔测序以及其它测序技术。

在各种实施例中，测序仪器200可以测定核酸，如聚核苷酸或寡核苷酸的序列。核酸可以包括DNA或RNA，并且可以是单链的，如ssDNA和RNA，或双链的，如dsDNA或RNA/cDNA对。在各种实施例中，核酸可以包括或衍生自片段库、配对库、ChIP片段等。在特定实施例中，测序仪器200可以从单一核酸分子或从基本上相同的核酸分子的群组获得序列信息。

在各种实施例中，测序仪器200可以以包括但不限于以下的多种不同输出数据文件类型/格式输出核酸测序读数数据：*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

如本文所描绘，注释系统300可以包括核酸序列分析装置304(例如核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等)、分析学计算服务器/节点/装置302、显示器338和/或客户端装置终端336和一个或多个公开330和专有332注释内容源。

在各种实施例中，分析学计算服务器/节点/装置302可以经由网络连接334通信连接到核酸序列分析装置304、客户端装置终端336、公开注释内容源330和/或专有注释内容源332，所述网络连接可以是“固线式”物理网络连接(例如因特网、LAN、WAN、VPN等)或无线网络连接(例如Wi-Fi、WLAN等)。

在各种实施例中，分析学计算装置/服务器/节点302可以是工作站、主机计算机、分布式计算节点(“云端计算”或分布式网络系统的一部分)、个人计算机、移动装置等。在各种实施例中，核酸序列分析装置304可以是核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等。但是，应理解，核酸序列分析装置304基本上可以是任何类型的可以从获自个体306的样品产生核酸序列数据的仪器。

分析学计算服务器/节点/装置302可以被配置为托管映射引擎308、变体调用引擎310、决策支持模块312和报告基因模块316。

映射引擎308可以被配置成相对于参考序列比对或映射查询核酸序列读数。一般来说，序列读数的长度基本上小于参考序列的长度。在参考序列映射/比对中，序列读数可相对于现有骨干序列(例如参考序列等)组装以建立与骨干序列类似但不一定相同的序列。一旦对于有机体发现骨干序列，比较测序或再测序可以用于表征有机体物种内或紧密相关物种之间的基因多样性。在各种实施例中，参考序列可以是全/部分基因组、全/部分外显子组、全/部分转录组等。

在各种实施例中，序列读数和参考序列可以表示为碱基空间中的一序列核苷酸碱基符号。在各种实施例中，序列读数和参考序列可以表示为颜色空间中的一种或多种颜色。在各种实施例中，序列读数和参考序列可以表示为在流动空间中具有信号或数值定量分量的核苷酸碱基符号。

在各种实施例中，序列读数和参考序列的比对可以包括包含序列读数的碱基与包含参考序列的碱基之间有限数目的失配。通常，序列读数的至少一部分可以与参考序列的一部分如参考核基因组、参考线粒体基因组、参考原核基因组、参考叶绿体基因组等比对，以便最小化序列片段和参考序列之间的失配数量。

变体调用引擎310可以被配置为从映射引擎308接收比对的序列读数，并分析比对的序列读数以检测和调用或识别读数内的一个或多个变体。可以由变体调用引擎310调用的变体的实例包括但不限于：单核苷酸变体(SNV)、单核苷酸多态性(SNP)、核苷酸插入或缺失(插入缺失)、拷贝数变体(CNV)识别、反转多态性等。

报告基因模块316可以与决策支持模块312通信，并且被配置为生成已经由注释器组件314注释的被调用基因组变体的总结报告，所述注释器组件314可以是决策支持模块312的一部分。

决策支持模块可以包括注释器组件314、变量数据存储器322、注释数据存储器324、过滤组件328和/或注释导入器组件326。在各种实施例中，注释器组件314可以与变体调用引擎310、变量数据存储器322和/或注释数据存储器324通信。也就是说，注释器组件314可以从变体调用引擎310、变量数据存储器322和注释数据存储器324请求和接收数据和信息(通过例如数据流、数据文件、文本文件等)。在各种实施例中，变体调用引擎310可以被配置为以各种格式通信用于样品基因组的变体调用，所述格式如但不限于变异呼叫格式(VCF)、通用特征格式(GFF)、分层数据格式(HDF)、基因组变体格式(GVF)或HL7格式化数据。然而，应理解在被调用的变体信息可以解析和/或抽取用于随后处理/分析的情况下，被调用的变体可以使用任何文件格式通信。

变量数据存储器322可以被配置为以可以进行挖掘的格式存储从变体调用引擎310和/或注释器组件314接收的变体调用。

也就是说，被调用的变体数据可以被保持为数据库或者在分析学计算服务器/节点/装置302的装置存储器(例如，硬盘驱动器、RAM、ROM等)中的一些其它持久(和可查询)电子形式中被实例化。被调用的变体数据可以被构造并且在整个过程中使用公共语法和语义模式，或者在格式之间包括适当的解释器，其允许术语和数据类型之间的一对一映射。在各种实施例中，变量数据存储器322可以是变体的索引数据库表。在特定实施例中，索引数据库可以被配置用于快速查询和过滤操作。

注释数据存储器324可以与注释导入器组件326通信，并且被配置为存储可以由注释器组件314用来注释被调用的变体的数据和信息。也就是说，注释数据存储器324可以存储注释数据和可以与被调用的变体在功能中起作用的信息相关的信息，如在染色体水平、基因水平、转录水平、蛋白质水平等，(例如，功能类型注释)和/或被调用变体的生物学影响(例如，解释类型注释)。在各种实施例中，功能类型注释可包括但不限于：被调性变体的基因座分类、被调性变体的蛋白质功能影响评分、由被调性变体产生的氨基酸变化、受被调性变体影响的基因/转录物。在各种实施例中，解释类型注释可以包括但不限于：疾病状态或与被调用变体相关的疾病(例如，癌症、糖尿病、高血压、心脏病等)的易感性、被调用变体对特定治疗方案(例如，药物、手术选择、医疗装置、精神治疗、生活方式改变、药物敏感性等)的影响，变体在注释变体列表上的存在等。举例来说，SNP变体调用可以用功能类型注释来注释，所述功能类型注释指向被调用SNP影响的转录物并且涉及诊断具体疾病状态或对疾病的易感性的解释类型注释。

注释导入器组件326可以被配置为从一个或多个公共330或专有332注释内容源接收注释内容，并将注释内容转换为可以存储在注释数据存储器324中并且可以进行挖掘的格式。也就是说，注释导入器组件326可以将注释数据和/或信息转换为可以存储到数据库中的格式，或者以分析学计算服务器/节点/装置302的装置存储器(例如，硬盘驱动器、RAM、ROM等)中的一些其它持久(和可查询)电子形式中被实例化。

在各种实施例中，注释内容可以由用户经由通信连接到分析学计算服务器/节点/装置302的计算机可读存储媒体(例如，经由串行数据总线连接、并行数据总线连接、因特网/内联网网络连接等)手动输入或上载到注释导入器组件326。也就是说，用户可以根据特定应用的要求选择性地将注释内容上载到注释数据存储器324。计算机可读媒体的实例包括但不限于：硬盘驱动器、网络连接存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带、快闪存储器以及其它光学和非光学数据存储装置。

在各种实施例中，可以通过使用数据刷新可执行文件或脚本来自动地请求注释内容并将其从公共330和/或专有332注释内容源发送到注释导入器组件326。也就是说，随着用新的或改性注释内容更新公共330和/或专有332注释内容源，可以连续更新注释数据存储器324中的注释内容。

在各种实施例中，注释器组件314可包括功能注释引擎318和解释注释引擎320。

功能注释引擎318可以被配置为从变量数据存储器322接收被调用的变体、将一个或多个功能类型注释(存储在注释数据存储器324中)与被调用的变体相关联并且在具有相关的功能类型注释的变量数据存储器322中更新被调用的变体记录。在各种实施例中，功能注释引擎318可以被配置为同时注释落入重叠转录物块(在样品基因组中)内的所有被调用变体。也就是说，功能注释引擎318可以将重叠的转录物一起分组为“基因块”，并且然后一起注释基因块中的所有变体。这里的优点是所有可能相互作用的被调用变体可以被分组和注释在一起，以使研究人员/临床医生更深入地了解变体之间的协同或拮抗相互作用。

在各种实施例中，功能注释引擎318可以被选择性地配置为仅注释落入被注释的样品基因组的编码区域(例如，外显子、密码子)内的被调用的变体。在各种实施例中，功能注释引擎318可以选择性地配置为仅注释落入被注释的样品基因组的基因内区域(如内含子)内的被调用变体。在各种实施例中，功能注释引擎318可以选择性地配置为仅注释被注释的样品基因组的基因间区域中的被调用变体。

在各种实施例中，功能注释引擎318可以以被调用的变体数据文件(例如，*.vcf或其它文件格式)的形式接收被调用的变体，关联功能类型注释，并将变体和注释存储到变量数据存储器322。在各种实施例中，功能注释引擎318可以接收被调用的变体作为变体数据(例如，变体碱基一致性和基因组位置等)，将一个或多个功能类型注释与被调用的变体相关联并直接更新在具有相关的功能类型注释信息的变量数据存储器322中的被调用的变体记录。也就是说，功能注释引擎318可以直接从变量数据存储器322接收被调用的变体，对其进行注释并将其保存回变量数据存储器322或替代的数据存储器。

解释注释引擎320可以被配置为从变量数据存储器322接收被调用的变体，将一个或多个解释类型注释(存储在注释数据存储器324中)与被调用的变体相关联并且在具有相关的解释类型注释的变量数据存储器322中更新被调用的变体记录。

在各种实施例中，解释注释引擎320以被调用的变体数据文件(例如，*.vcf或其它文件格式)的形式接收被调用的变体，将解释类型注释相关联，并将变体和注释存储到变量数据存储器322。在各种实施例中，解释注释引擎318接收被调用的变体作为变体数据(例如，变体碱基一致性和基因组位置等)，将一个或多个解释类型注释与被调用的变体相关联并直接在具有相关的解释类型注释信息的变量数据存储器322中更新被调用的变体记录。

在各种实施例中，系统可以被配置为自动化样品数据的处理。举例来说，可以选择工作流程。来定义如何由映射引擎308、变体调用引擎310和注释器组件314处理数据。在特定实施例中，可以在核酸序列分析装置304上设置运行时选择工作流程，并且数据可以自动上载到分析学计算装置302。此外，可以在上载数据时自动启动工作流程。在其它实施例中，可以从核酸序列分析装置304手动或自动上载数据，并且可以手动选择和启动工作流程。通常，一旦选择并启动了工作流程，就可以通过映射引擎308、变体调用引擎310和注释器组件314进行分析，而无需用户进一步干预。

过滤组件328可以被配置为允许用户设定过滤条件以过滤由报告基因模块316生成的总结报告中包括的被调用变体。过滤条件的实例包括但不限于过滤：非同义并且属于特定基因的变体、与特定疾病状况相关的变体、具有大于或小于所选择的值的功能评分的变体、功能类型注释源中不存在的新变体、落入基因组区域的变体(由用户定义)等。在各种实施例中，过滤组件328可以使用过滤器的组合，例如过滤对于属于特定基因并具有指示显著效果的功能评分的变体。

在各种实施例中，过滤组件328可以配置有过滤器集合，以选择具有可能的功能重要性的高可能性的变体。举例来说，过滤组件328可以选择错义突变和无义突变并排除同义突变。此外，过滤组件328可以选择影响等位基因频率的变体。此外，过滤组件328可以选择或排除已知重要位置处的变体，如已知在癌症中具有高突变率的位置、具有低或大量假阳性变体调用的位置、已知具有最小功能影响的位置等。

在各种实施例中，变量数据322和注释数据324存储可以组合成单个数据存储器，所述单个数据存储被配置为存储被调用的变体数据和变体注释信息。

客户端终端336可以是瘦客户端或胖客户端计算装置。在各种实施例中，客户端终端336可具有Web浏览器(例如，INTERNET EXPLORER^TM、FIREFOX^TM、SAFARI^TM等)，其可以用于通信到和/或控制操作映射引擎308、变体调用引擎310、决策支持模块312、注释器组件314、过滤组件328、注释导入器组件326、变量数据存储器322、注释数据存储器324、功能注释引擎318和/或解释注释引擎320，其使用浏览器来控制其功能。举例来说，取决于特定应用的要求，客户端终端336可以用于配置各种模块的操作参数(例如匹配评分参数、注释参数、过滤参数、数据安全和保留参数等)。类似地，客户端终端336也可以被配置成用于显示由决策支持模块312和核酸测序仪304进行的分析的结果。

应理解，公开为系统300的一部分的各种数据存储器可以表示基于硬件的存储装置(例如硬盘驱动器、快闪存储器、RAM、ROM、网络连接存储等)或存储在独立或网络计算装置上的数据库的实例化。

还应了解，取决于特定应用或系统架构的要求，显示为系统300的一部分的各种数据存储器和模块/引擎可以组合或折叠为单一模块/引擎/数据存储器。此外，在各种实施例中，系统300可包含特定应用或系统架构或至延伸功能需要的额外模块、引擎、组件或数据存储器。

在各种实施例中，系统300可以被配置成在颜色空间中处理核酸读数。在各种实施例中，系统300可以经配置以在碱基空间中处理核酸读数。在各种实施例中，系统300可以经配置以在流动空间中处理核酸序列读数。然而，应理解，本文所公开的系统300可以任何模式或格式处理或分析核酸序列数据，只要所述模式或格式可以表达参考序列内的核酸序列的碱基一致性和位置即可。

在各种实施例中，系统300可以被配置为区分具有被调用变体的位置、已被调用作为参考的位置和没有调用的位置。具有被调用变体的位置可以包括通过读数提供足够证据以指示标本序列含有变体的位置。已被调用作为参考的位置可包括有足够证据支持结论的位置，即标本序列与所述位置处的参考序列基本相同。没有调用的位置可以包括没有足够证据确定标本序列是否与参考序列相同或不同的位置。举例来说，没有调用的位置可以包括具有低覆盖度的位置、具有低碱基质量的位置，或者读数序列指示具有不充分均一性的不同碱基以确定具有足够置信度的序列的位置。通常，没有调用的位置可以被指示为与参考序列匹配，并且可以从变体的报告中排除。

根据各种示例性实施例，可以使用适当配置和/或编程的硬件和/或软件元件来进行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。确定是否使用硬件和/或软件元件来实施实施例可以基于任何数量的因素，如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等以及其它设计或性能限制。

硬件元件的实例可以包括通过以下各项通信耦合的处理器、微处理器、一个或多个输入装置和/或一个或多个输出装置(I/O)(或外围装置)：本地接口电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片组等。本地接口可以包括例如一个或多个总线或其它有线或无线连接、控制器、缓冲器(高速缓存器)、驱动器、中继器和接收器等以允许硬件组件之间的适当通信。处理器是用于执行软件，尤其是存储在存储器中的软件的硬件装置。处理器可以是任何定制的或市售的处理器、中央处理单元(CPU)、与计算机相关联的若干处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组的形式)、宏处理器、或通常用于执行软件指令的任何装置。处理器还可以表示分布式处理架构。I/O装置可以包括输入装置，例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗装置和/或实验室仪器的接口、条形码读数器、触笔、激光读数器、射频装置读数器等。此外，I/O装置还可以包括输出装置，例如打印机、条形码打印机、显示器等。最后，I/O装置可以进一步包括作为输入件和输出件进行通信的装置，例如调制器/解调器(调制解调器；用于访问另一个装置、系统或网络)、射频(RF)或其它收发器、电话接口、桥接器、路由器等。

软件的实例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号或其任何组合。存储器中的软件可以包括一个或多个单独的程序，所述程序可以包括用于实施逻辑函数的有序的可执行指令列表。存储器中的软件可以包括用于根据本教导内容识别数据流的系统和任何合适的定制或市售的操作系统(O/S)，其可以控制其它计算机程序如系统的执行，并提供调度、输入输出控制、文件和数据管理、存储管理、通信控制等。

根据各种示例性实施例，可以使用可以存储指令或指令集的适当地配置和/或编程的非暂时性机器可读媒体或物件来进行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征，所述指令或指令集如果由机器执行，则可以使机器进行根据示例性实施例的方法和/或操作。这类机器可以包括例如任何合适的处理平台、计算平台、计算装置、处理装置、计算系统、处理系统、计算机、处理器、科学或实验室仪器等，并且可以使用硬件和/或软件的任何合适的组合来实施。机器可读媒体或物件可以包括例如任何合适类型的存储器单元、存储器装置、存储器物件、存储器媒体、存储装置、存储物件、存储媒体和/或存储单元，例如存储器、可移动媒体或不可移动媒体、可擦除媒体或不可擦除媒体、可写或可重写媒体、数字或模拟媒体、硬盘、软盘、只读存储器光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁媒体、磁光媒体、可移动存储卡或磁盘、各种类型的数字多功能光盘(DVD)、磁带、磁带盒等，包括适用于计算机的任何媒体。存储器可以包括易失性存储器元件(例如随机存取存储器(RAM，如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如ROM、EPROM、EEROM、闪存器、硬盘驱动器、磁带、CDROM等)中的任一个或组合。此外，存储器可以并入电子、磁性、光学和/或其它类型的存储媒体。存储器可以具有分布式架构，其中各种组件远离彼此定位，但仍然通过处理器访问。指令可以包括使用任何合适的高级的、低级的、面向对象的、可视的、编译的和/或解释的编程语言实施的任何合适类型的代码，如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。

根据各种示例性实施例，可以至少部分地使用分布式、群集、远程或云计算资源来进行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。

根据各种示例性实施例，可以使用源程序、可执行程序(对象代码)、脚本或包含一组待进行指令的任何其它实体来进行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。当源程序时，所述程序可以通过可以包括或不包括在存储器中的编译器、组装器、解释器等翻译以便与O/S一起正确地操作。指令可以使用以下各项来书写：(a)具有数据类和方法类的面向对象的编程语言；或(b)具有例程、子例程和/或函数的过程编程语言，可以包括例如C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。

根据各种示例性实施例，上述示例性实施例中的一个或多个可以包括向用户接口装置、计算机可读存储媒体、本地计算机系统或远程计算机系统发送、显示、存储、打印或输出与可以通过这类示例性实施例生成、访问或使用的任何信息、信号、数据和/或中间结果或最终结果有关的信息。举例来说，这类发送、显示、存储、打印或输出的信息可以采用可搜索和/或可过滤的运行和报告、图片、表格、图表、图形、电子表格、相关性、序列和其组合列表的形式。

虽然已经在本文中显示和描述本发明的优选实施例，但本领域的技术人员应清楚这类实施例仅是作为实例而提供的。本领域的技术人员现在将在不脱离本发明的情况下想到众多变化、改变和取代。应理解，本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。预期随附权利要求限定本发明的范围并且因此覆盖这些权利要求和其同等物的范围内的方法和结构。

Claims

1.一种分析肿瘤样品基因组的突变负荷的方法，其包含：

检测多个核酸序列读数中的变体以产生多个检测到的变体，其中所述核酸序列读数对应于所述肿瘤样品基因组中的多个靶向位置，其中所述检测到的变体包括体细胞变体和种系变体；

用来自一个或多个群体数据库的注释信息注释所述多个检测到的变体中的一个或多个检测到的变体，其中所述群体数据库包括与群体中变体相关的信息，其中所述注释信息包括与给定变体相关的次要等位基因频率；

过滤所述多个检测到的变体，其中所述过滤将规则集施加到所述检测到的变体以保留所述体细胞变体，所述规则集包括保留次要等位基因频率(MAF)在MAF范围内的所述检测到的变体，其中所述过滤产生所识别的体细胞变体；

计数所述所识别的体细胞变体，以得到体细胞变体的数量；

确定所述肿瘤样品基因组中所述靶向位置的覆盖区域中的碱基的数量；和

通过将所识别的体细胞变体的数量除以所述覆盖区域中的碱基的数量来计算每兆碱基的体细胞变体的数量，以产生所述肿瘤样品基因组的所述突变负荷。

2.根据权利要求1所述的方法，其中所述MAF范围是0到10^-6。

3.根据权利要求1所述的方法，其中所述群体数据库包括1000个基因组数据库、5000个外显子组数据库和外显子组聚集联合体(ExAC)数据库中的一个或多个。

4.根据权利要求1所述的方法，其中所述规则集还包含保留所述检测到的变体，其中所述检测到的变体是单核苷酸变体(SNV)。

5.根据权利要求1所述的方法，其中所述规则集还包含保留所述检测到的变体、插入变体和缺失变体(插入缺失),其中所述检测到的变体是SNV。

6.根据权利要求1所述的方法，其中所述规则集还包含去除所述检测到的变体，所述检测到的变体是与UCSC公共SNP数据库中的SNP相对应的SNV。

7.根据权利要求1所述的方法，其中所述规则集还包含在均聚物长度大于七的区域中去除所述检测到的变体。

8.根据权利要求1所述的方法，其中所述检测变体由变体调用者参数配置，所述变体调用者参数包括最小等位基因频率参数、链偏移参数和数据质量严格性参数。

9.根据权利要求8所述的方法，其中所述最小等位基因频率参数在0.001到0.15范围内，所述链偏移参数在0.54到0.95范围内，并且所述数据质量严格性参数在5到25范围内。

10.根据权利要求1所述的方法，其还包含使体细胞突变损伤的来源与所述所识别的体细胞变体相关联。

11.一种用于分析肿瘤样品基因组的突变负荷的系统，其包含处理器和与所述处理器通信连接的数据存储器，所述处理器配置成进行以下步骤,包括：

用来自存储在所述数据存储器中的一个或多个群体数据库的注释信息注释所述多个检测到的变体中的一个或多个检测到的变体，其中所述群体数据库包括与群体中变体相关的信息，其中所述注释信息包括与给定变体相关的次要等位基因频率；

对所述所识别的体细胞变体进行计数，以得到体细胞变体的数量；

12.根据权利要求11所述的系统，其中所述MAF范围是0到10^-6。

13.根据权利要求11所述的系统，其中所述群体数据库包括1000个基因组数据库、5000个外显子组数据库和外显子组聚集联合体(ExAC)数据库中的一个或多个。

14.根据权利要求11所述的系统，其中所述规则集还包含保留所述检测到的变体，所述检测到的变体是单核苷酸变体(SNV)。

15.根据权利要求11所述的系统，其中所述规则集还包含去除所述检测到的变体，所述检测到的变体是与UCSC公共SNP数据库中的SNP相对应的SNV。

16.根据权利要求11所述的系统，其中所述规则集还包含在均聚物长度大于七的区域中去除所述检测到的变体。

17.根据权利要求11所述的系统，其中所述检测变体由变体调用者参数配置，所述变体调用者参数包括最小等位基因频率参数、链偏移参数和数据质量严格性参数。

18.根据权利要求17所述的系统，其中所述最小等位基因频率参数在0.001到0.15范围内，所述链偏移参数在0.54到0.95范围内，并且所述数据质量严格性参数在5到25范围内。

19.根据权利要求11所述的系统，其还包含使体细胞突变损伤的来源与所述所识别的体细胞变体相关联。

20.一种包含指令的非暂时性机器可读存储媒体，所述指令在由处理器执行时引起所述处理器进行分析肿瘤样品基因组的突变负荷的方法，所述方法包含：

计数所述所识别的体细胞变体，以得到体细胞变体的数量；