CN104346539A

CN104346539A - 从目标测序面板中寻找变异的方法

Info

Publication number: CN104346539A
Application number: CN201410355823.6A
Authority: CN
Inventors: A.阿舒特什; D.乔希; C.A.勒科克
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2013-07-29
Filing date: 2014-07-24
Publication date: 2015-02-11
Anticipated expiration: 2034-07-24
Also published as: JP6882373B2; JP2019164830A; JP2015035212A; CN104346539B

Abstract

本文提供了在富集样本中识别序列变异的方法。在某些实施例中，这种方法可以包含：(a)获取：(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因组区的参考序列；(b)组装序列读数以便获取与潜在变异相对应的多个离散序列集合；(c)通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的，哪些是赝生物；(d)可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变；以及(e)输出指示该样本是否包含序列变异的报告。

Description

从目标测序面板中寻找变异的方法

交叉引用

本申请要求2013年7月29日提交的美国临时专利申请第61/859,625号的利益，在此通过引用全文并入该申请。

背景技术

对突变的全面详述是理解，诊断和治疗包括癌症在内的许多疾病所不可缺少的。人们已经提出了从测序数据中寻找突变的许多方法，这些方法通常由与参考物相比统计评估变异碱基的存在组成。但是，在只在小部分读数中寻找突变的状况下精确确定突变仍然是一种挑战。描绘这样的突变是重要的，尤其在癌症中。这样的突变不仅对于肿瘤含量低的样本是重要的，而且对于捕获微小肿瘤子克隆以便理解肿瘤异质性，因此复发和抗治疗性的根本原因也是重要的。

因此，由于可能的高均匀性和读取深度，研究这样样本的富集技术是吸引人的。然而，尽管该实验技术精确地捕获信息，但现有分析方法不适合检测低频变异。

存在可以调用序列变异、开源和商用两者的许多其它工具。将这样的工具用于目标富集(enrichment)数据的尝试往往会变得繁琐，不使用导致错误调用或假肯定以及丢失调用的所有数据特性。更进一步，如文献所述，每种方法不仅存在其自身的缺点，而且该调用在不同方法之间也不一致。当供应匹配的正常样本时，一些方法只尝试检测低频突变，而其它方法只调用SNP(单核苷酸多态性)，不调用插入、缺失或多核苷酸多态性(MNP)。

在高读取深度上的目标测序中，在低频变异的情况下，这些问题更加严重。大多数方法通过查找各个变异地点和评估那个位置上的突变的统计显著性来工作。例如，如果单个基因座具有1000读取深度，则平均而言，预计要用500个读数覆盖杂合子调用，以便支持突变位基因。但是，有一些地方真正存在杂合子但被采样的次数极少。在马赛克状样本的情况下，作为微量成分的特性的突变具有低得多的频率。在统计上，虽然采样这样的大样本空间，但会发生罕见事件，以及难以将低频调用与测序误差区分开。扩增和捕获的其它赝生物(artifact)的存在使问题进一步错综复杂。在在基因组区中存在复杂事件和插缺(插入-缺失)的情况下，参考序列不能准确地代表变异分布，这导致进一步的赝生物。许多现有解决方案试图通过使用多种独立方法来解决这些问题，但在当前文献当中，还没有可以可靠地调用这些变异的解决方案。

发明内容

本文提供的是在富集样本中识别序列变异的方法。在某些实施例中，这种方法可以包含：(a)获取：(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因组区的参考序列；(b)组装序列读数以便获取与潜在变异相对应的多个离散序列集合；(c)通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的，哪些是赝生物；(d)可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变；以及(e)输出指示该样本是否包含序列变异的报告。

此外还提供了包含存储器的计算机系统，包含：a)序列的数据库；以及b)执行本方法的可执行程序。

此外还提供了包含执行本方法的指令的计算机可读存储介质。

此外还提供了识别变异序列的方法。在某些实施例中，该方法可以包含：a)将序列信息输入包含程序的计算机系统中，该程序包含执行本方法的指令；b)执行该程序；以及c)接收来自该计算机系统的输出。

本文阐述本教导的这些和其它特征。

附图说明

本领域的普通技术人员应当明白，下面所述的附图只是为了例示的目的。这些附图无意以任何方式限制本教导的范围。

图1是例示本方法的一个实施例的流程图；以及

图2是例示本方法的另一个实施例的流程图。

定义

除非另有定义，本文使用的所有科学和技术术语具有与本公开所属的领域的普通技术人员通常所理解相同的含义。尽管与本文所述的那些类似或等效的任何方法和材料也可以用在本教导的实践或测试中，但现在描述一些示范性方法和材料。

如本文所使用的术语“扩增”指的是将目标核酸用作模板，生成目标核酸的一个或多个副本。

如本文所使用，术语“单核苷酸多态性”或缩写“SNP”指的是在一个群体中以可观频率(例如，至少1％)存在两个或更多个可替代等位基因的基因组序列中的单核苷酸位置。

就基因组而言，术语“富集”指的是将基因组的一个或多个区域与基因组的其余区域分开，以便得出与基因组的其余区域隔离的产物。可以使用包括描述在，例如，如下文献中的那些的多种方法进行富集：Hedges et al(Comparison of three targeted enrichment strategies on the SOLiD sequencingplatform.PLoS One 20116:e18595)和Shearer et al(Solution-based targetedgenomic enrichment for precious DNA samples BMC Biotechnol.201212:20)。

术语“富集样本”指的是包含与基因组的其余区域隔离的基因组DNA的片段的样本。富集片段可以具有取决于使用的分段方法的任何长度。在某些实施例中，该片段可以在长度100bp到1kb，例如，长度200bp到500bp的范围内，但也可以使用在这个范围之外的片段。取决于如何进行分段和/或富集，对于任何一个富集区域，片段分子的末端可以相同或不同。

术语“基因组区”如本文所使用，指的是基因组，例如，像人、猴子、大鼠、鱼或昆虫或植物那样的动物或植物基因组的区域。

“多个”至少包含2个成员。在某些情况下，多个可以含有至少10个，至少100个，至少1000个，至少10,000个，至少100,000个，至少10⁶个，至少10⁷个，至少10⁸个或至少10⁹个或更多个成员。

术语“测序”如本文所使用，指的是获取多核苷酸的至少10个连贯核苷酸的身份(例如，至少20个，至少50个，至少100个或至少200个或更多个连贯核苷酸)的方法。

术语“下一代测序”指的是启迪(Illumina)、生命技术(Life Technologies)、和罗氏(Roche)公司当前采用的所谓并行化边合成边测序(sequencing-by-synthesis)或边连接边测序(sequencing-by-ligation)平台。下一代测序方法也可以包括纳米孔测序方法或像生命技术公司商业化的离子激流技术那样的基于电子检测方法。

术语“序列读数”指的是测序进程的输出。序列读数可能伴随着有关序列的质量的度量。例如，序列读数中的每个核苷酸可以与那个核苷酸的碱基调用，即，核苷酸是G，A，T还是C的确定的置信度相联系。

术语“序列变异”指的是至少在一个位置上与参考序列不同的核酸序列。序列变异的例子包括包含SNP和体细胞突变的序列。

术语“低频序列变异”、“少数物种”和“少数变异”指的是相对于序列的非变异形式只以小于10％(例如，小于5％或小于1％)的频率存在于样本中的变异序列。在许多情况下，低频序列变异可以通过基因中的核酸替代或插缺来表示。低频序列变异可以由，例如，体细胞突变生成。

术语“参考序列”指的是可以与候选序列比较的已知序列，例如，来自公共或内部数据库的序列。

如本文所使用，术语“组装”指的是涉及如下的多步过程：对准代表较长核酸的分段的序列。在某些情况下，组装可能涉及合并序列，以便构建节段的序列。

如本文所使用，术语“锚”指的是存在于可以用于对准那些序列的较长序列中的序列。在某些情况下，锚可以足以使较长序列正确对准。

如本文所使用，术语“序列重叠群”指的是通过组装重叠序列产生的核苷酸的相连序列。

如本文所使用，术语“与癌症相联系”指的是包含与癌症表型相关联的突变的基因组区，例如，基因。在一些情况下，认为突变在癌症中起成因作用。

具体实施方式

在描述各种实施例之前，要明白的是，本公开的教导不局限于所述的具体实施例，这样，当然可以改变。还要明白的是，本文所使用的术语只是为了描述具体实施例的目的，而无意限制本公开，因为本教导的范围只由所附权利要求书限定。

本文使用的段落标题只是为了组织目的，而不要理解为以某种方式限制所述的主题。虽然本教导结合各种实施例来描述，但并不是打算使本教导局限于这样的实施例。相反，如本领域的普通技术人员所懂得，本教导包含各种替代例、修改例、和等效例。

在提供数值的范围的情况下，不言而喻，在本公开中包含在那个范围的上下限之间、除非上下文另有明确指示，精确到该下限的单位的十分之一的每个中间值和那个所述范围中的任何其它所述或中间值。

对任何公告的引用是为了其在提交日之前的公开，不应该理解为承认本权利要求书无权通过在先发明提前这样公开的日期。进一步，提供的公告的日期可以不同于可能需要独立确认的实际公告日期。

必须注意到，如本文所使用以及在所附权利要求书中，单个形式“一个”、“一种”和“该”包括复数指代物，除非上下文另有明确指示。还要注意到，可以将权利要求书撰写成排除任何可选元素。这样，这种陈述旨在用作先行基础，以便结合要求保护元素的阐述使用像“仅仅”、“只有”等那样的排它术语，或使用“否定”限制。

如本领域的普通技术人员所明显看出，一旦阅读了本公开，本文所述和所例示的每个单独实施例可以具有可以不偏离本教导的范围或精神地容易与任何其它几个实施例的特征分开或组合的分立成分和特征。任何所述的方法都可以按所述事件的次序或按逻辑上可能的任何其它次序来执行。

本领域的普通技术人员要懂得，本发明在其应用中不局限于在本文的描述或附图中阐述的结构的细节、组件的排列、类别选择、加权、预定信号极限、或步骤。本发明能够拥有其它实施例以及能够以许多不同方式加以实践或实施。

如上所述，本方法可以对已经从对于特定基因组区已经富集了的样本，即，包含与特定基因组区相对应的基因组DNA的片段的样本中获得的序列读数执行，其中该片段是从分段总基因组DNA富集的。在一些情况下，富集基因组区可能包含存在与一种或多种癌症，例如，乳腺癌、黑色素瘤、肾癌、子宫内膜癌、卵巢癌、胰腺癌、白血病、结肠直肠癌、前列腺癌、间皮瘤、神经胶质瘤、成神经管细胞瘤、红细胞增多症、淋巴瘤、肉瘤或多发性骨髓瘤等相联系的突变的基因(参见，例如，Chial Proto-oncogenes to oncogenes tocancer.Nature Education20081:1)。感兴趣的基因包括，但不限于，PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT和ERBB2。在特定情况下，样本可能包含与已经富集的多个不同基因组区(例如，几个不同区域，例如，至少2个，至少5个，至少10个，至少50个，至少100个或至少1,000个或更多个不同、非重叠区域)相对应的基因组DNA的片段，其中每个区域可能对应于一个基因，例如，一个致癌基因。

富集基因组区可以使用任方便方法，例如，使用与寡核苷酸杂交探针或使用基于连接的方法从初始基因组样本中富集。在一些实施例中，基因组区可以通过在溶液中与长度可以从20到200nt，例如，长度100到150nt的一个或多个生物素化寡核苷酸(在某些情况下，可以是RNA寡核苷酸)杂交来富集，以便捕获感兴趣的区域。在这些实施例中，在捕获之后，可以使用，例如，链霉亲和珠将包含与寡核苷酸杂交的基因组DNA的片段的双链与其它片段隔离。在其它实施例中，可以使用下面文献所述的方法富集感兴趣的区域：Dahl et al(Multiplex amplification enabled by selective circularization of largesets of genomic DNA fragments.Nucleic Acids Res.200533:e71)。在这种方法中，可以使用一种或多种限制性内切酶分段并变性基因组样本。在这种方法中，将探针库与目标片段杂交。每个探针是设计成与目标DAN限制性片段的两端杂交，从而引导目标片段形成环形DNA分子的寡核苷酸。该探针还包含在环化期间并入的方法特有测序基序。在一些情况下，将该探针生物素化，并且可以使用链霉亲和珠检测目标片段。然后通过连接，即，保证只环化完全杂交片段的非常精确反应闭合环形分子。接着，扩增环形DNA目标。其它富集方法可能描述在，例如，如下文献中：Hedges et al(Comparison of threetargeted enrichment strategies on the SOLiD sequencing platform.PLoS One20116:e18595)和Shearer et al(Solution-based targeted genomic enrichment forprecious DNA samples BMC Biotechnol.201212:20)。

可以将基因组DNA与任何生物体隔离。该生物体可以是原核生物或真核生物。在某些情况下，该生物体可以是植物，例如，拟南芥或玉米，或动物，包括爬行动物、哺乳动物、鸟类、鱼类、两栖类。在一些情况下，可以将初始基因组样本与人类或像小鼠或大鼠那样的啮齿动物隔离。在示范性实施例中，初始基因组样本可以包含来自像从人类、小鼠，大鼠或猴细胞的哺乳动物细胞的基因组DNA。为分析制备基因组DNA的方法像如下文献所述的那些那样，在现有技术中是常规的和已知的：Ausubel,F.M.et al.,(Short protocolsin molecular biology,3rd ed.,1995,John Wiley&Sons,Inc.,New York)和Sambrook,J.et al.(Molecular cloning:A laboratory manual,2nd ed.,1989,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,New York)。初始基因组样本可以包含基因组DNA或其扩增形式(例如，通过使用，例如，如下文献的方法的全基因组扩增方法扩增的基因组DNA：Lage et al(Genome Res.200313:294-307)、Zong et al(Science.2012338:1622-1626)、或已公布专利申请US20040241658)。片段可以使用物理方法(例如，超声波、喷雾、或剪切)，化学地，酶促地(例如，使用罕见-切割限制性内切酶)或使用转座因子分段基因组来制作(参见，例如，Caruccio Methods Mol.Biol.2011733:241-55；Kaper et al,Proc.Natl.Acad.Sci.2013110:5552-7；Marine et al,Appl.Environ.Microbiol.201177:8071-9和US20100120098)。

样本可以从培养的细胞或临床样本的细胞，例如，组织活检、刮除或灌洗或法医样本的细胞(即，在犯罪现场收集的样本的细胞)中制作。在具体实施例中，核酸样本可从像细胞、组织、体液、和粪便那样的生物样本中获得。感兴趣的体液包括，但不限于，血液、血清、血浆、唾液、粘液、粘痰、脑脊髓液、胸膜液、泪液、乳白管液、淋巴液、痰、脑脊液、滑膜液、尿液、羊水、和精液。在具体实施例中，样本可以从受试者，例如，人身上获得，并且可以在用在本方法中之前加以处理。例如，可以在使用已知的方法之前从样本中提取核酸。在具体实施例中，基因组样本可以来自福尔马林固定石蜡包埋(FFPE)样本。

取决于实现哪种方法，初始样本(即，在富集之前)可以包含已经衔接子连接的基因组DNA的片段。在其它实施例中，可以在它们已被富集之后将片段与衔接子连接。

在一些情况下，可以汇集样本。在这些实施例中，片段可以含有指示它们来源的分子条形码。在一些实施例中，正被分析的DNA可以源自单个源(例如，单个生物体、病毒、组织、细胞、受试者等)，而在其它实施例中，核酸样本可以是从多个源提取的核酸池(例如，来自多个生物体、组织、细胞、受试者等的核酸池)，其中“多个”的意思是两个或更多个。这样，在某些实施例中，样本可以包含来自2个或更多个源，3个或更多个源，5个或更多个源，10个或更多个源，50个或更多个源，100个或更多个源，500个或更多个源，1000个或更多个源，5000个或更多个源，至少和包括大约10,000个或更多个源的核酸。分子条形码可以允许来自不同源的序列在它们被分析之后得到区分。

在获得富集样本之后，对其加以扩增和测序。在某些实施例中，使用与用在，例如，启迪公司的可逆终止子方法、罗氏公司的焦磷酸测序方法(454)、生命技术公司的边连接边测序(SOLiD平台)、或生命技术公司的离子激流平台中兼容的引物扩增片段。这样的方法的例子描述在如下文献中：Margulies etal(Nature2005437:376–80)；Ronaghi et al(Analytical Biochemistry1996242:84–9)；Shendure et al(Science2005309:1728-32)；Imelfort et al(BriefBioinform.200910:609-18)；Fox et al(Methods Mol Biol.2009；553:79-108)；Appleby et al(Methods Mol Biol.2009；513:19-39)和Morozova et al(Genomics.200892:255-64)，这些文献通过引用并入用于方法以及方法的具体步骤，包括每个步骤的所有起始产物、试剂、和最终产物的一般性描述。

在一个实施例中，可以使用纳米孔测序来测序隔离产物(例如，如文献Soni et al.2007Clin.Chem.53:1996-2001所述，或如牛津纳米孔技术公司(Oxford Nanopore Technologies)所述)。纳米孔测序是随着通过纳米孔直接测序DAN的单个分子的单分子测序技术。纳米孔是直径为1纳米的数量级的小孔。将纳米孔浸在导管中并在其两端施加电位(电压)导致由离子通过纳米孔的传导引起的微小电流。流过的电流的数量对纳米孔的尺寸和形状敏感。随着DNA分子通过纳米孔，DNA分子上的每个核苷酸不同程度地阻挡纳米孔，以不同程度改变通过纳米孔的电流的幅度。因此，这种电流随着DAN分子通过纳米孔的改变代表DAN序列的读取。纳米孔测序技术公开在如下文献中：美国专利第5,795,782、6,015,714、6,627,067、7,238,485和7,258,838号、和美国专利申请第2006003171和20090029477号。

在一些实施例中，对于每个富集区域，该测序可以得出至少100个，至少1,000个，至少10,000个或直到100,000个或更个多序列读数。序列读数的长度可能随，例如，使用的平台变化很大。在一些实施例中，序列读数的长度可以在30到800个碱基的区域中，并且在一些情况下，可以包括配对末端读数。

可以使用多种不同方法组装序列读数来获取每一个与潜在变异相对应的多个离散序列集合。序列读数可以使用任何适当方法来组装，该方法的基本步骤描述在像如下那样的多种出版物中：Myers et al(Science2000287:2196–204)、Batzoglou et al(Genome Research200212:177–89)、Dohm et al(Genome Research200717:1697–706)和Boisvert et al(Journal ofComputational Biology201017:1519–33)，通过引用全部并入这些文献以便公开那些方法。在一些实施例中，对于每个富集区域，可以组合序列读数以便得出加以检查以识别在特定位置上存在核苷酸变异(例如，替代、插入或缺失)的单个堆积物。然后可以将在特定核苷酸位置上存在核苷酸变异的序列读数重新组装成离散序列集合。在其它实施例中，可以高度严格地，即，以存在相同变化的序列读数使序列相互聚集的方式组装序列。在另外的其它实施例中，可以将每个读数与像参考基因组那样的参考序列对准地组装序列读数。在某些情况下，将从序列读数中获得的至少一个组装序列与参考序列对准。

在一些情况下以及如下面更详细所述，将图论用于组装读数。在特定情况下，组装序列读数可以包含制作像德布鲁(de Bruijn)图那样的有向图。例如，构建序列读数的德布鲁图可能涉及：从目标区域中，在读数中包括长度k的子序列的测序读数中收集重叠k-聚体；将每个k-聚体分解成两个重叠(k-1)-聚体；以及将图像的顶点或节点指定给每个(k-1)-聚体和将连接图形中的两个节点的边指定给k-聚体。因此，每个序列在图形中被表示成通过k-聚体的路径，潜在序列重叠群在图形中可以通过连接通过k-聚体的多条路径来表示。将德布鲁图用于组装读数描述在如下文献中：美国专利8,209,130；以及美国公开2011/0004413、美国公开2011/0015863和美国公开2010/0063742，在此通过引用并入这些文献。

在某些情况下，有向图可以是有向加权图。在某些方面，有向加权图使用相同长度的k-聚体形成。在某些实施例中，在特定节点或连接节点的边上不使用作为读数覆盖范围的函数的截断值地作出将哪个边选来构建节点上的潜在序列的选择。

潜在序列通过欧拉(Euler)路径表示在有向加权图中。因此，组装序列读数可能进一步涉及寻找通过由序列读数构成的有向加权图的欧拉路径。寻找通过有向加权图的欧拉路径可能包含在带有禁止字符串的语言中寻找最小德布鲁序列(例如，具有尺寸k的的给定字母A的循环序列，A中长度n的每个可能子序列恰好一次地表现为连贯字符的序列)。有关内容参见，例如，Moreno et al.,Graph-Theoretic Concepts in Computer Science20043353:168。在这样的情况下，最小德布鲁序列可以使用BEST((de Bruijn、Ehrenfest、Smith和Tutte)定理(提供有向(定向)图中的欧拉(Eulerian)回路的数量的乘积公式，以及在给定顶点上将欧拉回路的数量与有根跨越树的数量相联系)，通过跨越子图，或有向加权图的树来定义。确定有向图的跨越树可以通过任何方便方法来实现(参见，例如，Tarjan et al.Proc FOCS198412-20)。利用禁止字将有向加权图表示成德布鲁序列得出可能在图形中的单词的最大数量的估计值，并且反映有向图的信息熵。这种熵边界也是有向图的转换矩阵的本征值的极限。由于信息熵的边界通过由序列读数构成的有向图确定，所以将丢弃给定测序读数的集合，不能不超过信息熵边界地从参考物或另一种潜在变异中导出的任何潜在变异序列(即，如果潜在变异与另一种变异或参考物之间的转换矩阵的本征值超过上面建立的边界)。

在某些情况下，可以将序列读数锚定在参考序列上，下面将对此作更详细讨论。在一些实施例中，序列组装方法涉及在每个序列读数中，划界认为测序可靠的区域，每个集合可以使用参考序列，以及参考序列本地的序列来锚定。

在这种方法中，序列组装步骤导致多个离散集合，每个集合对应于一种潜在变异。每种潜在变异通过在序列读数中找到的序列变化来定义。这样，离散集合中的所有候选序列存在相同变化。任何一个富集区域可以通过至少2个，至少5个，至少10个，至少15个，至少20个，至少30个，至少50个，至少100个或更多个离散集合来表示。每个集合中序列读数的数量可能相差很大。在几种情况下，可以将大多数序列读数组装成代表样本中的显性变异的一个或多个集合(对于富集区域中的种系差异，例如，SNP，取决于最初获得基因组DNA的原始样品是纯合的还是杂合的)。其余集合可能对应于低频变异序列(例如，从体细胞突变的细胞中获得的序列)，可能源于PCR误差，和/或可能包含错误调用碱基。在某些情况下，这些集合可以通过包含变化的较少序列读数(例如，取决于获得的序列读数的总数，10到1,000或更多个)来表示。

在该方法的下一个步骤中，筛选离散集合以确定哪些潜在变异是“真”的(即，正确提供样本中的分子的序列，而不是测序反应或数据处理中的错误，例如，碱基错误调用的结果)，以及哪些候选分子是赝生物(即，是测序反应或数据处理中的错误，例如，碱基错误调用的结果，而不是样本中的分子的实际序列)。这个步骤可以通过检查构成每个离散序列集合的序列读数来完成。在一些实施例中，这个步骤可以通过检查包括读数质量、碱基调用的置信度、和对准的置信度(即，是否将序列映射到正确地点)的多种参数来完成。可以分解弱定义的候选分子(例如，通过差序列读数定义的候选分子、通过低置信度碱基调用表示序列变异的候选分子等)，以及可以将该序列与其它队列合并。在某些实施例中，给定序列读数的集合，使用隐式马尔可夫(Hidden Markov)模型指定每种潜在变异的似然度。在一些实施例中，这个步骤可以包含检查序列的质量、读数的数量、碱基调用的质量和它们与参考序列的匹配，以便为每种潜在变异提供得分。

一旦识别出真正潜在变异，就可以可选地将通过潜在变异定义的突变与参考序列的已知突变相比较，其中该参考序列是来自公共或内部数据库的序列。在某些实施例中，该比较涉及确定每种真正潜在变异是否包含已知与参考序列相联系的突变。例如，可以在桑格(Sanger)中心的COSMIC数据库中寻找几百种基因中的几千种与癌症有关突变的身份(也参见Jung et alSystematic investigation of cancer-associated somatic point mutations in SNPdatabases Nature Biotechnology201331:787–789)。例如，如果富集序列包括来自KRAS基因的序列，则可以分析真正突变来确定它们的某一个是否含有如下突变的某一种：35G>A、35G>T、38G>A、34G>T、35G>C、34G>A、34G>C、37G>T、183A>C、37G>A、182A>T、183A>T、436G>A、37G>C、182A>G、34_35GG>TT、38G>C、181C>A、38_39GC>AT或38G>T。这些突变可以高频率地在白血病、结肠直肠癌(Burmer et al.Proc.Natl.Acad.Sci.198986:2403–7)、胰腺癌(Almoguera et al.Cell198853:549–54)和肺癌(Tamet al.Clin.Cancer Res.200612:1647–53)中找到。同样，如果富集序列包括来自NRAS基因的序列，则可以分析真正候选分子来确定它们的某一个在NRAS中是否含有如下突变的某一种：182A>G、181C>A、35G>A、182A>T、38G>A、34G>A、37G>C或1849G>T。

在某些实施例中，该方法可以涉及为一对或多对基因组区富集，其中每对基因组区由感兴趣的基因组区(例如，与癌症相联系的基因)和与感兴趣的基因组区相邻(以及在一些情况下，重叠)的区域组成。在这些实施例中，可以分开富集和在扩增之前组合该对。可以一起分析每对的序列读数。第二基因组区的读数使人们可以在较长长度上求统计平均，得出更好的结果。在一些情况下，相邻区域的序列读数可以用于，例如，调整结果以便接纳任何采样偏差。

该方法可以包含输出指示样本是否包含特定序列变异的报告。该报告可以包含样本是否包含突变的指示，以及有关参考序列和突变的可用公开信息。在一些情况下，该报告可以指示在样本中存在突变的置信度。

上述方法可以应用于表征，分类，分化，分级，分期，诊断或预诊病情，或预测对治疗的反应。在特定情况下，该方法可以用于研究患癌症状或其它乳动物疾病，包括，但不限于，白血病、腺癌、前列腺癌、阿尔茨海默氏病、帕金森氏病、癫痫、肌萎缩性侧索硬化、多发性硬化、中风、孤独症、精神发育迟缓、和发育障碍。许多核苷酸多态性都与这些病症相联系，并且被认为是产生这些病症的因素。知道核苷酸多态性的类型和地点可以大大有助于对各种哺乳动物疾病的诊断、预诊和理解。另外，本文所述的测定条件可以用在其它核酸检测应用中，例如，对于传染性疾病的检测，包括病毒载量监测、病毒基因分型、环境检测、食品检测、取证、流行病学、和正在使用特定核酸序列检测的其它领域。

在一些实施例中，可以从患者身上获取生物样本，例如，活体组织切片，并且可以使用该方法分析该样本。在具体实施例中，该方法可以应用于识别和/或估计处在生物样本中的基因座的突变副本的数量，该生物样本包含基因座的野生型副本、和相对于基因座的野生型副本具有点突变的基因座的突变副本两者。在本例中，该样本可以包含比基因座的突变副本多至少100倍(例如，至少1,000倍，至少5,000倍，至少10,000倍，至少50,000倍，或至少100,000倍的基因座的野生型副本。

在这些实施例中，该方法可以应用于检测，例如，PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT和ERBB2中的致癌基因突变(可以是体细胞突变)，该突变可能与乳腺癌、黑色素瘤、肾癌、子宫内膜癌、卵巢癌、胰腺癌、白血病、结肠直肠癌、前列腺癌、间皮瘤、神经胶质瘤、成神经管细胞瘤、红细胞增多症、淋巴瘤、肉瘤或多发性骨髓瘤等相联系(参见，例如，Chial Proto-oncogenes to oncogenesto cancer.Nature Education20081:1)。

因为基因座中的点突变可能与癌症存在直接联系，所以本主题的方法可以单独地，或与其它临床技术(例如，像结肠镜检查或乳腺X光照片那样的身体检查)或分子技术(例如，免疫组织化学分析)结合应用于诊断患有癌症或存在癌前病情(例如，腺瘤)的患者。例如，可以将从被检体测定法中获得的结果与其它信息，例如，有关其它座位的甲基化状态的信息、有关相同基因座中或不同基因座上的重排或替代的信息、细胞遗传学信息、有关重排的信息、基因表达信息或有关端粒的长度的信息结合，以提供癌症或其它疾病的全面诊断。

在一个实施例中，可以在第一地点上，例如，像在医院中或在医生的办公室那样，在临床环境中从患者身上收集样本，然后可以将样本转送给第二地点，例如，对其加以处理以及执行上述方法以生成报告的实验室。如本文所述的“报告”是包括提供测试结果的报告元素的电子或有形文件，该测试结果可以包括指示在样本中存在基因座的突变副本的Ct值、Cp值等。一旦生成，就可以将该报告转送到作为临床诊断的一部分，健康专家(例如，临床医生、实验室技术人员、或像肿瘤学家、外科医生、病理学家那样的医生)可以对其加以解释的另一个地点(可以是与第一地点相同的地点)。

在图1和2的流程图中描述了该方法的一种实现。第一流程描述了该方法的总体设置，例如，总体工作流程。第二流程描述了该方法本身的流程。接着详述该方法的每个组成部分。下面所述的方法是步骤B3的实现，也与步骤B4和步骤C的第6和7部分有关。在一种实现中，该方法涉及B3，即，单核苷酸多态性和插入缺失两者的变异的识别。在图2中详细描述了本发明的流程。

在步骤1中，收集设计信息，并将其用于注释感兴趣的区域。该设计信息按如下方式使用：划界感兴趣区域，并在感兴趣区域内指定放置诱饵的子区。获取和标记测序可靠的区域。可选地，可以将区域填补成在感兴趣区域的两端包括指定数量的碱基，以便评估读数的偏离目标匹配，以及为随后步骤指出参考锚点。获取典型的参考序列作为模板。如果想要包括有关给定区域中的变异的任何以前已知信息，则在指定区域内也标记这样的变异。为了有效使用计算资源，使用Java7Fork-Join框架并行地(在随后步骤中)构建和分析每个非重叠区域。在这个步骤中，“区域”只是一个基因组模板，以及如有需要和在需要时按需装载数据。在第二步骤中，尝试寻找可以在这样的区域中可靠构建的分子序列的所有相关可替代伸展物。从供应的参考序列中读取第一候选参考序列。该方法假设存在至少一种与参考物完全相同的可用分子表示。如果存在不止一种这样的可用表示，则接着构建和评估所有表示。然后，构建所有可替代表示。这是通过在目标区域中局部重新组装读数完成的。对于这种重新组装，我们使用来自导致候选分子序列得到优化和快速确定的符号序列的许多结果。首先，出自重叠k-聚体地构建有向加权图。任何候选分子在这个图形中都必须表示成欧拉路径(即，访问每个边，或换句话说，完成边遍历)。假设“遗漏”或“非测序”区域与参考物相同，以及在可用时利用配对末端运行的两个配对物。在只可靠地映射一对的情况下，该方法查找所有未映射读数，并试图利用k-聚体构建候选表示，以便隐性地进行局部重新对准。

为了有效地做到这一点，使用理论结果。当识别到寻找候选解决方案的问题相当于在带有禁止字符串的语言中寻找最小德布鲁序列时，我们注意到存在将特定长度的“单词”的数量与信息熵的估计量相联系的边界。这个熵边界也是规定不同k-聚体之间的转换的转移矩阵的最大本征值的边界(即，该最大本征值是该信息的自然对数)。因此，在构建代表各种候选者的图形的同时，可以考虑给定长度的允许单词的数量的计数。在一些情况下，可以考虑与可能单词的总数一起向我们提供所希望信息的禁止单词(不出现的单词)的数量的读数。在构建图形本身的同时可以容易地寻找禁止单词。最大本征值的边界可以用于加速下一步骤中对似然度的计算。

使用的第二结果依赖于BEST定理或de Bruijn、Ehrenfest、Smith和Tutte定理。这个定理将可能欧拉路径与图形中的跨越树的数量相联系。由于我们的目的是构建欧拉路径，所以该定理将该问题转换成寻找跨越树的问题—可快速获得解的众所周知问题。Vishkin公式化可以用于寻找跨越树。

由于图形可以是非平衡的，所以上面的结果尽管大大地加快了计算，但可能遗漏一些路径。尤其在存在许多相乘匹配读数或存在结构和复制数变化的状况下。为了防止这样的极端情况，我们计数传入和传出权重显著不同于平均值的路径。如果找到这样的路径，则我们在表示在这样的路径中的k-聚体的子集上穷尽地搜索欧拉路径。

在找到候选分子表示之后，使用马尔可夫模型对每一种指定似然度。在此我们查找读数(配对)，并评估最有可能将数据赋予哪个候选分子。首先根据映射质量，通过指定过滤准则过滤用于这种评估的读数。将候选者之间的转换表示成转移矩阵，并根据区域中的读取数据优化该转换。在这样做的同时，我们使用上面的本征值边界迅速终止导致与该边界不一致的解的任何迭代。除了这种加速之外，还通过标准维特比(Viterbi)迭代确定排放和转换概率。可以检查指定数量的最佳得分候选者。

在这个步骤之后，可以检查存在于候选解之中的各种等位基因，以便作出变异调用。过滤掉发现与读数的末端太接近(通过参数定义的“接近”)地受到碱基支持的等位基因。此外，如果变异候选者在扩增子片段的末端上，以及只有一个扩增子覆盖基因座，则过滤掉它。在不止一个扩增子支持基因座的情况下，只有当受到不止一个扩增子支持时才保留这样的候选者。

对每种变异评分。换句话说，给定读数的集合{R}和基因型的集合“G”，我们想寻找P({G}|{R})。为了做到这一点，我们使用贝叶斯(Bayes)定理，即，获取P({R}|{G})和P({G})，并组合它们以获取所希望结果：

P (R_{i} | G_{i}) = \underset{&ForAll; (R_{i} &Element; G_{i})}{Σ} (\frac{s_{i}!}{Π_{j = 1}^{k_{i}} o_{j}^{'}!} Π_{j = 1}^{k_{i}} {(\frac{f_{i_{j}}}{m_{i}})}^{o_{j}^{'}} Π_{l = 1}^{s_{i}} P (b_{l}^{'} | b_{l}))

也就是说，给定基本基因型获得一组读取的概率与按我们的读数正确的概率缩放、从基本基因型中采样该组观察值的概率成比例。在乘积P(b′|b)下面的项是给定基因座上的给定可替代调用正确的概率。由于给定读数中碱基的质量向我们提供了那个读数中的特定碱基正确并且我们已过滤掉差映射读数的概率，所以我们假设等位基因的质量是碱基的中值质量和中值映射质量的最小值。可选地，我们可以将碱基等位基因质量(BAQ)用于这种估计。然后，如果b∈{G}，则P(b′|b)是1–q，否则是q。

来自候选分子似然度(看见G1...Gn的似然度)的P({G})已经获得。为了调用基因座上的变异，我们想查找跨过候选区域存在不止一个等位基因以及P({Gi}|{Ri})显著的地点。我们已经拥有不同于参考物的各种候选者的概率，因此，

P(K>1|R1,...,Rn)＝1-P(K＝1|R1,...,Rn)

向我们提供了变异调用的概率。

这种方法可以被临床研究人员用于为目标富集面板查找快速、准确和易于使用分析工具。这种软件通过提供端到端数据分析解：从对准到突变的分类，将时间缩短成从几天到几小时的结果。这种方法优于以前的算法，因为对于大多数测试样本，调用突变时的假否定的比率不影响假肯定的比率地降低很多，该方法甚至在涉及多个等位基因的复杂情况下，也可以检测等位基因频率低的变异，同时不会使假肯定比率显著增大，并且在检测低频突变时，不会使效率和速度显著下降。

上述方法可以在计算机上实现。在某些实施例中，可以将通用计算机配置成用于本文公开的方法和程序的功能装置。这样计算机的硬件架构是本领域的普通技术人员所熟知的，可以包含包括一个或多个处理器(CPU)、随机访问存储器(RAM)、只读存储器(ROM)、内部或外部数据存储介质(例如，硬盘驱动器)的硬件组件。计算机系统还可以包含处理和向显示部件输出图形信息的一个或多个图形线路板。上述组件可以经由计算机内部的总线适当地互连。该计算机可以进一步包含与像监视器、键盘、鼠标、网络等那样的通用外部组件通信的适当接口。在一些实施例中，该计算机能够并行处理，或可以是配置成并行或分布式计算的网络的一部分，以便提高本方法和程序的处理能力。在一些实施例中，可以将从存储介质中读取的程序代码写入配备在插入计算机中的扩展板或与计算机连接的扩展单元中的存储器中，以及配备在扩展板或扩展单元中的CPU等可以按照程序代码的指令实际执行部分或所有操作，以便完成下面所述的功能。在其它实施例中，可以使用云计算系统执行该方法。在这些实施例中，可以将数据文件和程序输出到云计算机，该云计算机运行该程序，并将结果返回给用户。

在某些实施例中系统可以包含包括如下的计算机：a)中央处理单元；b)主非易失性存储驱动器，其可以包括一个或多个硬盘驱动器，用于存储软件和数据，其中该存储驱动器受盘控制器控制；c)系统存储器，例如，高速随机访问存储器(RAM)，用于存储系统控制程序、数据、和应用程序，包括从非易失性存储驱动器装载的程序和数据，系统存储器也可以包括只读存储器(ROM)；d)用户接口，包括像鼠标、小键盘、和显示器那样的一个或多个输入或输出设备；e)与任何有线或无线通信网络，例如，打印机连接的可选网络接口卡；以及f)互连系统的上述元件的内部总线。

计算机系统的存储器可以是可以存储可代处理器检索的信息的任何器件，可以包括磁或光器件、或固态存储器件(像易失性或非易失性RAM那样)。存储器或存储单元可以含有相同或不同类型的一个或多个物理存储器件(例如，存储器可以含有像多个驱动器、存储卡、或多个固态存储器件或它们的某种组合体那样的多个存储器件)。关于计算机可读介质，“永久存储器”指的是永久存储的存储器。永久存储器不会因计算机或处理器的供电终止而被擦除。计算机硬驱动器ROM(即，不用作虚拟存储器的ROM)、CD-ROM、软盘和DVD都是永久存储器的例子。随机访问存储器(RAM)是非永久(即，易失性)存储器的例子。永久存储器中的文件是可编辑的和可重写的。

计算机的操作主要通过中央处理单元执行的操作系统来控制。该操作系统可以存储在系统存储器中。在一些实施例中，该操作系统包括文件系统。除了操作系统之外，系统存储器的一种可能实现包括实现下面所述的方法多种编程文件和数据文件。在某些情况下，编程可以包含程序，其中该程序可以由各种模块、和允许用户人工选择或改变程序的输入或程序使用的参数的用户接口模块组成。该数据文件可以包括程序的各种输入。

在某些实施例中，可以以“编程”的形式将依照本文所述的方法的指令编码到计算机可读介质中。其中如本文所使用的术语“计算机可读介质”指的是参与到将指令和/或数据提供给计算机以便加以执行和/或处理之中的任何存储或传输介质。存储介质的例子包括软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM、DVD-ROM、蓝光盘、固态盘、和附在网络上存储体(NAS)，无论这样的器件是在计算机的内部还是外部。可以将包含信息的文件“存储”在计算机可读介质上，其中“存储”指的是记录信息，以便计算机日后可访问和检索。

本文所述的计算机实现方法可以使用程序来执行，该程序可以用任何多种计算机编程语言的一种或多种编写。这样的语言包括，例如，Java(太阳微系统公司(Sum Microsystems,Inc.,Santa Clara,CA))、Visual Basic(微软公司(Microsoft Corp.,Redmond,WA))、C++(AT％T公司(AT％T Corp.,Bedmister,NJ)，以及任何其它许多语言。

在任何实施例中，可以将数据转发给“远程地点”，其中“远程地点”指的是除了执行程序的地点之外的其它地点。例如，远程地点可以是相同城市中的另一个地点(例如，办公室、实验室等)、不同城市中的另一个地点、不同州中的另一个地点、或不同国家中的另一个地点等。这样，当一个项目被指示成相互“遥远”时，则意味着两个项目可以处在同一个房间中但相互分开，或至少在不同房间或不同建筑物中，并且可以相隔至少一公里，10公里，或至少100公里。“传送”信息指的是在适当通信信道(例如，专用或公用网络)上发送将那个信息表示成电信号的数据。“转发”项目指的是无论通过物理地输送那个项目还是其它方式(在可能的情况下)，让那个项目从一个地点转到另一个地点的任何手段，并且在数据的情况下，包括物理地输送携带数据或传送数据的介质。通信介质的例子包括无线电或红外线传输信道，以及与另一个计算机或联网设备、和互联网的网络连接，或包括电子邮件传输和将信息记录在网站上等。

一些实施例包括在单台计算机上、跨过计算机的网络、跨过计算机的网络的网络，例如，跨过网络云、跨过局域网、在手持计算机设备上等的实现。优选实施例包括在执行本文所述的一个或多个步骤的计算机程序上的实现。这样的计算机程序执行本文所述的一个或多个步骤。本发明的优选实施例包括本文所述、编码在计算机可读介质上和可在通信网络上传输的各种数据结构、类别和修改量。

本发明的软件、万维网、互联网、云、或其它存储和计算机网络实现可以利用标准编程技术来完成，以便完成各种数据库搜索、修改、关联、比较、判定、传信、评分、监督、或评级步骤。

在本说明书中引用的所有公告和专利申请都通过引用并入本文中，犹如具体和分别指明每个单独公告或专利申请以便通过引用并入似的。对任何公告的引用是为了其在提交日之前的公开，不应该理解为承认本发明无权通过在先发明提前这样公开的日期。

Claims

1.一种识别序列变异的方法，包含：

(a)获取：(i)来自对于基因组区已经富集的样本的多个序列读数以及(ii)基因组区的参考序列；

(b)组装序列读数以便获取多个离散序列集合，其每个与潜在变异相对应；

(c)通过检查构成每个离散序列集合的序列读数确定哪些潜在变异是真的，哪些是赝生物；

(d)可选地确定每种真潜在变异是否包含已知与参考序列相联系的突变；以及

(e)输出指示所述样本是否包含序列变异的报告。

2.如权利要求1所述的方法，其中该基因组区与癌症相联系。

3.如权利要求1所述的方法，其中该基因组区包含如下基因的至少一种的至少一部分：PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT和ERBB2。

4.如权利要求1所述的方法，其中该序列变异是与体细胞突变相对应的低频序列变异。

5.如权利要求1所述的方法，其中该富集基因组区从由临床样本中获得的总DNA中富集。

6.如权利要求1所述的方法，其中该报告提供该样本是否包含突变的指示以及有关参考序列的可用公开信息。

7.如权利要求1所述的方法，其中所述组装包含划界其中认为序列可靠的每个序列读数中的区域。

8.如权利要求1所述的方法，其中所述组装使用图论。

9.一种包含存储器的计算机系统，包含：

a)来自对于基因组区已经富集的样本的序列读数的数据库；

b)基因组区的参考序列；以及

c)执行如权利要求1所述的方法的可执行程序。

10.一种包含执行如权利要求1所述方法的指令的计算机可读存储介质。