CN106661613B

CN106661613B - 用于验证测序结果的系统和方法

Info

Publication number: CN106661613B
Application number: CN201580023686.9A
Authority: CN
Inventors: D·布林扎
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2014-05-13
Filing date: 2015-05-13
Publication date: 2020-12-08
Anticipated expiration: 2035-05-13
Also published as: CN106661613A; WO2015175691A1; EP3143159B1; US11021734B2; US9957551B2; EP3143159A1; US20180298424A1; US20150329899A1

Abstract

用于验证测序结果的系统和方法可以在包括目标特异性和变异体特异性引物的引物池存在下使核酸样品的目标区扩增。变异体特异性引物可以包括变异体特异性条码和变异体特异性序列。可以对扩增子进行测序以确定变异体特异性条码的序列。可以基于变异体特异性条码的序列来鉴别变异体，并且可以通过相对于参考序列定位扩增子来确定变异体的位置。

Description

用于验证测序结果的系统和方法

相关申请的交叉参考

本申请案要求2014年5月13号提交的美国临时申请第61/992,306号的优先权，其公开内容以全文引用的方式并入本文中。

在本申请中，引用各种公开案、专利和/或专利申请。这些公开案、专利和/或专利申请的公开内容在此以全文引用的方式并入本申请中以便更充分地描述本发明所涉及的目前最先进的水平。

技术领域

本发明大体上涉及核酸测序领域，包括用于验证测序结果的系统和方法。

背景技术

在完成人类基因组项目(Human Genome Project)后，测序行业的一个焦点已转移到发现较高通量和/或较低成本核酸测序技术，有时称为“下一代”测序(NGS)技术。在使得测序通量更高和/或更便宜中，目标是使得技术更可获得。这些目标可以通过使用对具有显著复杂度的样品提供样品制备、并行地对较大数目的样品测序(例如通过使用条码和多重分析)和/或有效处理大量信息并且以及时方式完成分析的测序平台和方法达到。进化形成各种方法，如合成测序、杂交测序以及连接测序来满足这些挑战。

并入NGS技术的超高通量核酸测序系统通常产生大量短序列读数。序列处理方法应合意地快速并且有效地汇编和/或定位大量读数，以使得计算资源的使用最小化。举例来说，由对哺乳动物基因组测序产生的数据可以产生数千万或数亿读数，所述读数在其可以进一步进行分析以确定其生物、诊断和/或治疗相关性之前通常需要加以汇编。

NGS技术的示例性应用包括(但不限于)：基因组变异体检测，如插入/缺失、拷贝数变异、单核苷酸多态性等；基因组重测序；基因表达分析；以及基因组剖析。

从前文应了解的是，需要可以验证测序结果的系统和方法。

附图说明

为了更完整地理解本文所公开的原理和其优点，现在参考下文结合附图进行的描述，其中：

图1是说明根据各种实施例的示例性计算机系统的框图。

图2是根据各种实施例的用于重构核酸序列的示例性系统的示意图。

图3是说明根据各种实施例的扩增产物的示意图。

图4是根据各种实施例的示例性基因分析系统的示意图。

图5是说明根据各种实施例的验证测序结果的示例性方法的流程图。

图6是说明根据各种实施例的验证同聚体测序结果的示例性方法的概述和示意图。

应理解，图式不一定按比例绘制，图式中的物体也不一定相对于彼此按比例绘制。图式是打算使得对本文所公开的设备、系统以及方法的各种实施例明晰和理解的描绘。在可能的情况下，将整个附图中使用相同的参考标号来指代相同或相似零件。此外，应了解，附图并不打算以任何方式限制本发明传授内容的范围。

具体实施方式

本文描述用于检测低频变异体的系统和方法的实施例，其包括附图。

本文所用的章节标题仅用于组织目的，并且不应解释为以任何方式限制所描述的主题。

在各种实施例的此详细描述中，出于解释的目的，阐述许多具体细节以提供所公开的实施例的透彻理解。然而，所属领域的技术人员将了解，这些各种实施例可以在具有或不具有这些具体细节的情况下实践。在其它情况下，结构和装置以框图形式示出。此外，所属领域的技术人员可以容易地了解，用以呈现和进行方法的具体顺序是说明性的，并且预期所述顺序可以变化而仍保持在本文所公开的各种实施例的精神和范围内。

本申请中引用的所有文献和类似材料(包括(但不限于)专利、专利申请、文章、书籍、论文和因特网网页)出于任何目的明确以全文引用的方式并入。除非另外描述，否则本文所用的所有技术和科学术语具有与本文所描述的各种实施例所属的领域的一般技术人员通常所理解相同的含义。

应了解，在本发明传授内容中论述的温度、浓度、时间、碱基数目、覆盖度等之前存在隐含的“约”，使得略微和非实质偏差处于本发明传授内容的范围内。在本申请中，除非另外具体陈述，否则单数的使用包含复数。此外，“包括(comprise/comprises/comprising)”、“含有(contain/contains/containing)”和“包含(include/includes/including)”的使用并不打算是限制性的。应理解，以上大体描述和以下详细描述均仅是示例性和说明性的，并且并不限制本发明传授内容。

如本文所用，“一(a/an)”也可指“至少一”或“一或多”。此外，“或”的使用是包括性的，使得当“A”真实、“B”真实，或“A”和“B”都真实时，短语“A或B”真实。

此外，除非上下文另外需要，否则单数术语应包括复数并且复数术语应包括单数。一般来说，本文所描述的与细胞和组织培养、分子生物学以及蛋白质和寡核苷酸或聚核苷酸化学和杂交结合使用的命名法和技术为所属领域中众所周知并且常用的命名法和技术。标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如所属领域中通常所实现或如本文所描述来进行。本文所描述的技术和程序一般根据所属领域中众所周知和如本发明的说明书通篇中所引用和论述的各种一般性和较具体参考文献中所描述的常规方法来进行。参看例如Sambrook等人,《分子克隆：实验指南(Molecular Cloning:A Laboratory Manual)》(第三版,Cold SpringHarbor Laboratory Press,Cold Spring Harbor,N.Y.2000)。结合本文所描述的实验室程序和技术使用的命名法是所属领域中众所周知并且常用的命名法。

在各种实施例中，阐述一组组件的术语“系统”(真实或抽象)包含一个整体，其中每一组件与整体内的至少一个其它组件相互作用或与其相关。

在各种实施例中，“生物分子”可指由生物有机体产生的任何分子，包括较大聚合分子，如蛋白质、多糖、脂质和核酸(DNA和RNA)以及小分子，如初级代谢物、次级代谢物和其它天然产物。

在各种实施例中，短语“下一代测序”或NGS是指相比于传统的基于桑格(Sanger)和毛细电泳法的方法具有增加的通量，例如具有一次产生数十万相对较小序列读数的能力的测序技术。下一代测序技术的一些实例包括(但不限于)合成测序、连接测序以及杂交测序。更具体地说，Life Technologies Corp.的Personal Genome Machine(PGM)和Proton提供精确性增强的大规模平行测序。PGM和Proton系统以及相关工作流、方案、化学物质等更详细地描述于美国专利申请公开案第2009/0127589号和第2009/0026082号，这些申请中每一个的全部内容以引入的方式并入本文中。

在各种实施例中，短语“测序轮次”是指经进行以测定涉及至少一种生物分子(例如核酸分子)的一些信息的测序实验的任何步骤或部分。

在各种实施例中，短语“碱基空间”是指核苷酸序列的表示。短语“流动空间”是指特定核苷酸流动的并入事件或非并入事件的表示。举例来说，流动空间可以是表示特定核苷酸流动的核苷酸并入事件(如一，“1”)或非并入事件(如零，“0”)的一系列值。具有非并入事件的核苷酸流动可以称为空流，并且具有核苷酸并入事件的核苷酸流动可以称为正流。应理解，零和一为非并入事件和核苷酸并入事件的方便表示；但是，任何其它符号或标识可以替代性地用于表示和/或鉴别这些事件和非事件。确切地说，当多个核苷酸在给定位置并入时，如对于同聚体链段，所述值可以与核苷酸并入事件数目并且因此与同聚体链段成比例。

DNA(脱氧核糖核酸)可以称为由4种类型的核苷酸组成的核苷酸链；A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)，并且RNA(核糖核酸)由4种类型的核苷酸组成；A、U(尿嘧啶)、G和C。某些对的核苷酸以互补方式彼此特异性结合(称作互补碱基配对)。也就是说，腺嘌呤(A)与胸腺嘧啶(T)配对(但是，在RNA的情况下，腺嘌呤(A)与尿嘧啶(U)配对)，并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸组成的第二核酸链时，两个链结合以形成双链。在各种实施例中，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读数”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的次序的任何信息或数据。应理解，本发明传授内容涵盖使用包括(但不限于)以下的所有可用种类的技巧、平台或技术获得的序列信息：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统(如IlluminaHiSeq、MiSeq和Genome Analyzer)、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序(如454Life Science GS FLX和GS Junior)、基于离子或pH的检测系统(如IonTorrent)、基于电子签名的系统(如Oxford Nanopore GridION和MinION)等。

在各种实施例中，“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常，聚核苷酸包含至少三个核苷。通常，寡核苷酸的大小在几个(例如3-4个)单体单元到几百个单体单元范围内。每当聚核苷酸(如寡核苷酸)由一连串字母(如“ATGCCTG”)表示时，应理解，除非另外指出，否则核苷酸按从左到右的5'->3'次序并且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，且“T”表示胸苷。如在所属领域中标准的，字母A、C、G和T可以用于指碱基本身、核苷或包含碱基的核苷酸。

在各种实施例中，“结构变异体”是指染色体结构的变异。结构变异体可以包括缺失、复制、拷贝数变异体、插入、基因融合体、倒位和易位。许多结构变异体与基因疾病相关联，然而，更多的不是。

多重扩增方法：

在各种实施例中，可以对由扩增来自核酸分子群体的多个目标特异性序列产生的目标核酸测序。在一些实施例中，扩增可以包括将一个或多个目标特异性引物对杂交到目标序列，延伸引物对的第一引物，使来自核酸分子群体的延伸第一引物产物变性，将引物对的第二引物杂交到延伸第一引物产物，延伸第二引物以形成双链产物，和远离双链产物消化目标特异性引物对来产生多个扩增目标序列。在一些实施例中，扩增目标序列可以连接到一个或多个衔接子。在一些实施例中，衔接子可以包括一个或多个核苷酸条码或标记序列。在一些实施例中，扩增目标序列一旦连接到衔接子，可以经历切口平移反应和/或进一步扩增来产生衔接子连接的扩增目标序列库。多重扩增的示例性方法描述于2012年11月12日提交并且标题为“多重PCR的方法和组合物(Methods and Compositions for MultiplexPCR)”的美国申请第13/458,739号中，

在各种实施例中，进行多重PCR扩增的方法包括使具有正向和反向引物的多个目标特异性引物对与目标序列群体接触以形成多个模板/引物双螺旋；持续足够时间并在足够温度下将DNA聚合酶和dNTP混合物添加到所述多个模板/引物双螺旋中以经由模板依赖性合成延伸每一目标特异性引物对中的正向或反向引物(或两者)，进而产生多个延伸引物产物/模板双螺旋；使延伸引物产物/模板双螺旋变性；将来自目标特异性引物对的互补引物结合到延伸引物产物；以及在DNA聚合酶和dNTP存在下延伸结合引物以形成多个目标特异性双链核酸分子。

衔接子接合方法：

在一些实施例中，本发明传授内容是针对用于制备聚核苷酸构筑体库的方法，其可以包括衔接子接合步骤。在一些实施例中，多个聚核苷酸片段可以包括至少两个通过杂交(例如在具有或不具有引物延伸反应的情况下)或酶促连接(例如连接酶反应)接合到一个或多个核酸衔接子来产生衔接子-片段构筑体的聚核苷酸片段。在一些实施例中，聚核苷酸片段的一端或两端可以接合到至少一种类型的衔接子。聚核苷酸片段的一端或两端可以接合到至少一个核酸衔接子，包括带条码的衔接子、测序引物衔接子、扩增引物衔接子、通用衔接子、阻断寡核苷酸衔接子和/或其它。

在一些实施例中，衔接子可以包括与测序引物(例如P1、P2和/或A)、扩增引物、通用序列和/或条码序列互补的核苷酸序列。举例来说，释放的配对构筑体可以在每一端接合到不同测序衔接子以制备用于使用SOLiD^TM测序反应测序(WO 2006/084131)或使用离子敏感测序反应测序(例如来自生命技术公司的Ion Torrent PGM^TM和Proton^TM测序仪，参见例如美国专利公开案第2010/0301398号、第2010/0300895号、第2010/0300559号、第2010/0197507号、第2010/0137143号、第2009/0127589号；和第2009/0026082号，其以全文引用的方式并入)的核酸库。

带条码的衔接子序列

在一些实施例中，本发明传授内容是针对用于制备聚核苷酸构筑体库的方法，其可以包括将多个聚核苷酸片段的至少一端接合到具有条码序列的衔接子。条码序列可以是聚核苷酸链中的用以鉴别聚核苷酸链和/或将其与其它聚核苷酸链(例如含有不同相关目标序列的聚核苷酸链)区分开的核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷或其类似物)的选择序列。在一些实施例中，条码衔接子可以包括独特鉴别序列(例如条码序列)。条码序列可以用于各种目的，如追踪、分选和/或鉴别样品。

由于不同条码序列可以与不同聚核苷酸链相关，这些条码序列可以适用于不同样品的多重测序。在一些实施例中，条码衔接子可以用于构筑多重核酸库。在一些实施例中，一个或多个条码序列可以允许在具有不同条码序列的不同衔接子的混合物之中鉴别特定衔接子。举例来说，混合物可以包括2个、3个、4个、5个、6个、7-10个、10-50个、50-100个、100-200个、200-500个、500-1000个或更多个具有独特条码序列的不同衔接子。各种具有条码序列的衔接子的实例可以发现于PCT/US2011/054053中，其以全文引用的方式并入。

在各种高通量DNA测序技术(如合成测序)中，需要准许对汇集在一起用于同步分析的不同样品测序(有时称为多重测序)。

当进行多重测序时，一般需要鉴别每一样品的来源，且这可能需要测序数据对于每一样品解卷积。确切地说，可能需要独特地鉴别源自多重样品的序列数据的来源(例如以鉴别与不同样品群体相关的特定核酸种类)。一种促进样品鉴别的方法是使用独特核酸标识符序列(条码衔接子)，所述序列嵌入在样品构筑体内以使得测序数据可以得到正确地鉴别或与其源样品相关联。

计算机实施的系统

图1是说明示例性计算机系统100的框图，本发明传授内容的实施例可以在所述系统上实施。在各种实施例中，计算机系统100可以包括总线102或其它用于传达信息的通信机构，和与总线102耦合用于处理信息的处理器104。在各种实施例中，计算机系统100也可以包括耦合到总线102以用于确定碱基调用的存储器106，其可以是随机存取存储器(RAM)或其它动态存储装置，和待由处理器104执行的指令。存储器106也可以用于在执行待由处理器104执行的指令期间存储临时变量或其它中间信息。在各种实施例中，计算机系统100可以进一步包括耦合到总线102以存储用于处理器104的静态信息和指令的只读存储器(ROM)108或其它静态存储装置。可以提供存储装置110(如磁盘或光盘)且耦合到总线102以存储信息和指令。

在各种实施例中，计算机系统100可以经由总线102耦合到显示器112，如阴极射线管(CRT)或液晶显示器(LCD)以将信息显示给计算机用户。包括字母数字键和其它键的输入装置114可以耦合到总线102以用于将信息和命令选择传达到处理器104。另一种类型的用户输入装置是光标控制器116，如鼠标、轨迹球或光标方向键，其用于将方向信息和命令选择传达到处理器104并且用于控制显示器112上的光标移动。此输入装置通常具有在两个轴线(第一轴线(即，x)和第二轴线(即，y))上的两个自由度，其允许所述装置指定平面中的位置。

计算机系统100可以进行本发明传授内容。与本发明传授内容的某些实施方案一致，结果可以由计算机系统100响应于处理器104执行含于存储器106中的一个或多个指令的一个或多个序列来提供。此类指令可以从另一个计算机可读媒体(如存储装置110)读取到存储器106中。执行含于存储器106中的指令序列可以使得处理器104进行本文所描述的方法。替代性地，可以使用固线式电路代替或结合软件指令以实施本发明传授内容。因此，本发明传授内容的实施方式不限于硬件电路和软件的任何特定组合。

在各种实施例中，如本文所用的术语“计算机可读媒体”是指参与将指令提供给处理器104以供执行的任何媒体。这类媒体可以呈许多形式，包括(但不限于)非易失性媒体、易失性媒体以及传输媒体。非易失性媒体的实例可以包括(但不限于)光盘或磁盘，如存储装置110。易失性媒体的实例可以包括(但不限于)动态存储器，如存储器106。传输媒体的实例可以包括(但不限于)同轴电缆、铜线和光纤，包括包含总线102的导线。

非暂时性计算机可读媒体的常见形式包括(例如)软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM和EPROM、闪存EEPROM、任何其它存储器芯片或盒带或计算机可以读取的任何其它有形媒体。

根据各种实施例，被配置成由处理器执行以进行方法的指令存储在计算机可读媒体上。计算机可读媒体可以是存储数字信息的装置。举例来说，计算机可读媒体包括如所属领域中已知的用于存储软件的只读光盘(CD-ROM)。计算机可读媒体由适合于执行被配置成待执行的指令的处理器访问。

核酸测序平台

核酸序列数据可以使用包括(但不限于)以下的各种技巧、平台或技术产生：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。

核酸测序平台的各种实施例，如核酸测序仪可以包括如图2的框图中显示的组件。根据各种实施例，测序仪器200可以包括流体递送和控制单元202、样品处理单元204、信号检测单元206以及数据采集、分析和控制单元208。用于下一代测序的仪表、试剂、库和方法的各种实施例描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中，其以引用的方式并入本文中。仪器200的各种实施例可以提供可以用于并行地，如大体上同时从多个序列收集序列信息的自动化测序。

在各种实施例中，流体学递送和控制单元202可以包括试剂递送系统。试剂递送系统可以包括用于存储各种试剂的试剂储集器。试剂可以包括基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。另外，试剂递送系统可以包括移液系统或连续流动系统，其将样品处理单元与试剂储集器连接。

在各种实施例中，样品处理单元204可以包括样品室，如流槽、基板、微阵列、多孔盘等。样品处理单元204可以包括多个通道、多个槽道、多个孔或其它大体上同时处理多个样品组的手段。另外，样品处理单元可以包括多个样品室以使得能够同时处理多个轮次。在特定实施例中，系统可以对一个样品室进行信号检测，并大体上同时处理另一个样品室。另外，样品处理单元可以包括用于移动或操纵样品室的自动化系统。

在各种实施例中，信号检测单元206可以包括成像或检测传感器。举例来说，成像或检测传感器可以包括CCD、CMOS、离子或化学传感器(如覆盖CMOS或FET的离子敏感层)、电流或电压检测器等。信号检测单元206可以包括励磁系统以引起探针(如荧光染料)发射信号。励磁系统可以包括照明源，如弧光灯、激光、发光二极管(LED)等。在特定实施例中，信号检测单元206可以包括用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。替代性地，信号检测单元206可以提供基于电子或非光子的检测方法并且因此不包括照明源。在各种实施例中，基于电子的信号检测可以在测序反应期间产生可检测信号或物质时进行。举例来说，信号可以通过与离子或化学敏感层相互作用的释放副产物或部分(如释放离子，如氢离子)的相互作用产生。在其它实施例中，可检测信号可以由于如用于焦磷酸测序(参见例如美国专利申请公开第2009/0325145号，其全部内容以引用的方式并入本文中)中的酶促级联产生，其中焦磷酸酯通过聚合酶的碱基并入产生，所述聚合酶进一步与ATP硫酸化酶在腺苷5′磷酰硫酸存在下反应来产生ATP，其中产生的ATP可以在荧光素酶介导的反应中耗尽来产生化学发光信号。在另一个实例中，电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。

在各种实施例中，数据采集分析和控制单元208可以监视各种系统参数。系统参数可以包括仪器200的各部分(如样品处理单元或试剂储集器)的温度；各种试剂的体积；各种系统子组件(如操纵器、步进式电机、泵等)的状态；或其任何组合。

所属领域的技术人员应了解，仪器200的各种实施例可以用于实践多种测序方法，包括基于连接的方法、合成测序、单分子方法、纳米孔测序以及其它测序技术。

在各种实施例中，测序仪器200可以测定核酸，如聚核苷酸或寡核苷酸的序列。核酸可以包括DNA或RNA，并且可以是单链的，如ssDNA和RNA，或双链的，如dsDNA或RNA/cDNA对。在各种实施例中，核酸可以包括或源自片段库、配对库、ChIP片段等。在特定实施例中，测序仪器200可以从单一核酸分子或从大体上相同的核酸分子的群组获得序列信息。

在各种实施例中，测序仪器200可以包括(但不限于)以下的多种不同输出数据文件类型/格式输出核酸测序读取数据：*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

用于鉴别序列变异的系统和方法

图3是展示示例性扩增产物的图。目标区302可以使用目标特异性引物304、目标特异性引物306和变异体特异性引物308来扩增。变异体特异性引物308可以包括变异体特异性条码区310和变异体序列区312。目标区的扩增可以产生扩增子314。具体地说，通过目标特异性引物304和306扩增可以产生全长目标扩增子316，而通过变异体特异性引物308和目标特异性引物306扩增可以产生变异体特异性扩增子318。

在各种实施例中，可以使用使用多种变异体特异性引物的引物池。举例来说，为了检验同聚体区的长度，可以使用具有多个同聚体长度的变异体特异性引物，其中不同变异体特异性条码区对应于每一不同长度。用于检验同聚体区的示例性变异体特异性引物在图6中示出，并且进一步详细描述于本文中。

借助于另一个实例，为了检验SNP，可以使用对应于参考序列和所述SNP的变异体特异性引物。也可以使用在所述位置处对应于其它替代性碱基的其它序列特异性引物。

在各种实施例中，变异体特异性条码之间的序列差异可以在来自测序仪器的原始数据中提供比变异体更大的差异，以使得对于条码的区分能力比对于变异体大。举例来说，同聚体长度的变化可以在原始数据中仅产生可能是测序错误结果的较小变化，但条码中多个碱基的变化可以在原始数据中产生将需要偶然发生多个测序错误以特定次序发生的变化。

在各种实施例中，全长目标扩增子可以通过在第一PCR反应中在不具有变异体特异性引物的情况下使目标序列扩增来产生，并且变异体特异性扩增子可以通过在第二PCR反应中在具有变异体特异性引物的情况下使目标序列扩增来产生。替代性地，全长目标扩增子和变异体特异性扩增子可以通过在目标特异性引物和变异体特异性引物存在的情况下进行多重PCR反应来大体上同时产生。相对于变异体特异性引物大过量的目标特异性引物可以用于确保产生足够量的全长目标扩增子。

图6展示说明根据各种实施例的用于鉴别或检验同聚体变异体的方法的概述和示意图。

同聚体区的精确测序在测序系统中可能造成困难，尤其当对较长同聚体链段(如大约或长于六(6)聚体)进行测序时可能困难。因此，当鉴别或检验同聚体区时，测序系统可能得到错误肯定(FP)或错误否定(FN)。

在各种实施例中，如在图6中所例示，一组同聚体特异性变异体引物可以用于鉴别和/或检验同聚体区。在各种实施例中，变异体引物包括(但不限于)条码区、左(上游)锚定区(anchor region)、查询(例如同聚体)区以及右(下游)锚定区。在所描绘的实例中，条码由两(2)个碱基对形成，左锚由两(2)个碱基对形成，查询区由(5)个碱基对形成，并且右锚由一(1)个碱基对形成。在各种实施例中设想其它序列长度和组成，并且变异体特异性引物中任何给定区的长度或序列不一定相关于或依赖于任何其它区的长度或序列。在各种实施例中，给定变异体特异性引物中条码区的长度或序列相关于或依赖于一个或多个给定查询区的长度或序列。

在各种实施例中，一组变异体特异性引物包括各种区的多种排列。举例来说，如图6中所示，所描绘类型的一组变异体特异性引物将包括指示特定同聚体长度的特异性条码序列。在此实例中，“CG”的条码序列对应于将检验或鉴别具有四个天然碱基中任一个的六聚同聚体区的变异体特异性引物组。因此，对于此类组，变异体特异性引物组将包括(a)不含有符合下游查询序列同聚体的第二碱基的所有可能二核苷酸左锚定序列(即，12种可能序列)，(b)查询区中的所有可能同六聚序列(即，4种可能序列：六-A、六-G、六-T和六-C)，(c)不含有符合上游查询序列同聚体的碱基的所有可能单核苷酸右锚定序列(即，3种可能序列)，从而得到用于此示例性组的总计144种可能引物。

在各种实施例中，为形成可以鉴别或检验介于6聚体到12聚体范围内的任何同聚体的变异体特异性引物组，可以类似方式产生一组144种排列。

在各种实施例中，条码区可以延长以允许检验或鉴别大量查询序列。在各种实施例中，条码可以变化以使得可以用不同条码鉴别不同序列的同聚体。

如在图6中示意性地描绘并且描述在本文中的，可以使变异体特异性引物与彼此和与一个或多个目标特异性引物并行或依序扩增。以此方式，变异体特异性引物将与相对目标特异性引物结合产生对应于同聚体区的一组扩增子。以此方式，对所产生扩增子组的测序将引起鉴别与条码序列对应同聚体查询区结合的条码序列。

图4是根据各种实施例的用于鉴别变异体的系统的示意图。

如本文所描绘，变异体分析系统400可以包括核酸序列分析装置404(例如核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等)、分析学计算服务器/节点/装置402以及显示器410和/或客户端装置终端408。

在各种实施例中，分析学计算服务器/节点/装置402可以经由网络连接424通信连接到核酸序列分析装置404和客户端装置终端408，所述网络连接可以是“固线式”物理网络连接(例如因特网、LAN、WAN、VPN等)或无线网络连接(例如Wi-Fi、WLAN等)。

在各种实施例中，分析学计算装置/服务器/节点402可以是工作站、主机计算机、分布式计算节点(如“云端计算”或分布式网络系统的一部分)、个人计算机、移动装置等。在各种实施例中，核酸序列分析装置404可以是核酸测序仪、实时/数字/定量PCR仪器、微阵列扫描仪等。然而，应理解，核酸序列分析装置404基本上可以是任何类型的可以从获自个体的样品产生核酸序列数据的仪器。

分析学计算服务器/节点/装置402可以被配置成用于主控任选的预处理模块412、定位模块414以及测序模块416。

预处理模块412可以被配置成用于从核酸序列分析装置404接收和进行处理步骤，如从流动空间到碱基空间、从颜色空间到碱基空间或从流动空间到碱基空间的转化，确定调用质量值，通过定位模块414制备供使用的读取数据等。

定位模块414可以被配置成用于相对于参考序列比对(即，定位)核酸序列读数。一般来说，序列读数的长度大体上小于参考序列的长度。在参考序列定位/比对中，序列读数相对于现有骨干序列(例如参考序列等)汇编以建立与骨干序列类似但不一定相同的序列。一旦对于有机体发现骨干序列，比较测序或再测序可以用于表征有机体物种内或紧密相关物种之间的基因多样性。在各种实施例中，参考序列可以是全/部分基因组、全/部分外显子组等。

在各种实施例中，序列读数和参考序列可以表示为碱基空间中的一连串核苷酸碱基符号。在各种实施例中，序列读数和参考序列可以表示为颜色空间中的一种或多种颜色。在各种实施例中，序列读数和参考序列可以表示为在流动空间中具有信号或数值定量分量的核苷酸碱基符号。

在各种实施例中，序列片段和参考序列的比对可以包括包含序列片段的碱基与包含参考序列的碱基之间有限数目的失配。一般来说，序列片段可以与参考序列的一部分比对以便使序列片段与参考序列之间的失配数目最小化。

测序模块416可以包括变异体调用引擎418、变异体检验引擎420以及任选的后处理引擎422。在各种实施例中，测序模块416可以与定位模块414通信。也就是说，测序模块416可以从定位模块414请求和接收数据和信息(经由例如数据流、数据文件、文本文件等)。

变异体调用引擎418可以被配置成用于从定位模块414接收定位读数并且鉴别比对读数与参考序列之间的差异。鉴别变异的示例性方法描述于2013年5月9日提交并且标题为“用于鉴别序列变异的系统和方法(SYSTEMS AND METHODS FOR IDENTIFYING SEQUENCEVARIATION)”的美国申请第13/890,923号中。

变异体检验引擎420可以被配置成用于从定位模块414接收定位读数。变异体检验引擎420可以鉴别与相对于候选变异体位置定位的变异体特异性读数相关联的变异体特异性条码。变异体检验引擎420可以使用所述条码来检验由变异体调用引擎418鉴别的候选变异体。

后处理引擎422可以被配置成用于接收由变异体调用引擎418和变异体检验引擎420鉴别的变异体并且进行额外处理步骤，如过滤缺失和对读取数据进行格式化以用于在显示器410上显示或由客户端装置408使用。

客户端装置408可以是瘦客户端或胖客户端计算装置。在各种实施例中，客户端终端408可以具有网页浏览器(例如INTERNET EXPLORER^TM、FIREFOX^TM、SAFARI^TM等)，其可以用于将信息传达到使用浏览器的预处理模块412、定位模块414、断裂点检测引擎418、拷贝数分析器420、评估引擎422和后处理引擎424和/或控制所述组件的操作以控制其功能。举例来说，取决于特定应用的要求，客户端终端408可以用于配置各种模块的操作参数(例如匹配评分参数、注释参数、过滤参数、数据安全和保留参数等)。类似地，客户端终端408也可以被配置成用于显示由结构变异体模块416和核酸测序仪404进行的分析的结果。

应理解，公开为系统400一部分的各种数据存储器可以表示基于硬件的存储装置(例如硬盘驱动器、闪存、RAM、ROM、网络连接存储等)或存储在独立或连网计算装置上的数据库的具现化。

还应了解，取决于特定应用或系统架构的需要，显示为系统400一部分的各种数据存储器和模块/引擎可以组合或折叠为单一模块/引擎/数据存储器。此外，在各种实施例中，如特定应用或系统架构所需要，系统400可以包含额外模块、引擎、组件或数据存储器。

在各种实施例中，系统400可以被配置成用于在颜色空间中处理核酸读数。在各种实施例中，系统400可以被配置成用于在碱基空间中处理核酸读数。在各种实施例中，系统400可以被配置成用于在流动空间中处理核酸序列读数。然而，应理解，本文所公开的系统400可以任何模式或格式处理或分析核酸序列数据，只要所述模式或格式可以表达核酸序列的碱基标识和位置即可。

图5是说明在核酸样品中鉴别和检验变异体的示例性方法500的流程图。在502，可以使用目标特异性引物使核酸样品的目标区扩增以产生全长目标扩增子。目标特异性引物可以侧接目标区，从而使目标特异性引物之间的核酸序列扩增。在各种实施例中，用于多个目标的目标特异性引物可以在多重PCR反应中组合。

在504，变异体特异性扩增子可以通过使用目标特异性引物与变异体特异性引物的组合使目标区扩增来产生。变异体特异性引物可以包括变异体特异性条码区和变异体序列区。变异体特异性条码区可以用于独特地鉴别变异体。此外，可以指派变异体特异性条码区以在由测序仪器检测的信号或信号系列中提供比单独的变异体更大的差异。举例来说，变异体特异性引物可以包括覆盖一系列同聚体长度的一组引物，如用于介于6与12之间每一长度的变异体特异性引物。在各种实施例中，每一变异体特异性引物可以包括含有对应于相同引物中同聚体长度的条码序列的条码区。在各种实施例中，变异体序列区可以包括对应于变异体两侧序列的左和右锚定区。

在各种实施例中，变异体特异性引物可以与全长目标扩增子大体上同时产生，如通过在PCR反应混合物中组合目标特异性引物和变异体特异性引物来产生。一般来说，当组合以在同一反应中产生全长目标扩增子和变异体特异性扩增子两者时，目标特异性引物的量应相对于变异体特异性引物过量以产生足够量的全长目标扩增子。替代性地，足够的全长目标扩增子可以使用与反应物分离的目标特异性引物通过扩增产生以产生变异体特异性扩增子，所述产生过程通过依序进行不同扩增或在不同反应容器中在大体上相同的时间进行。

在506，衔接子序列可以接合到扩增子。在各种实施例中，衔接子序列可以包括样品特异性条码序列。当使用样品特异性条码序列时，来自多个样品的扩增子可以合并并且在一起测序，在较晚分析期间依赖于样品特异性条码序列来区别测序数据。

在508，可以对全长目标扩增子和变异体特异性扩增子进行测序，并且在510，可以相对于参考序列定位或比对测序读数。

在512，全长目标扩增子的比对读数可以用于确定目标区的序列。可以鉴别出其中读数序列不同于参考序列的候选变异体。另外，可以基于各种因素对候选变异体进行评分，如支撑候选变异体的读数的数目，将候选变异体测序数据对比参考序列拟合时的差异，支撑候选变异体的数据可能是测序错误结果的机率等。

在514，可以鉴别对应于候选变异体位置的变异体特异性扩增子。变异体特异性扩增子可以短于全长目标扩增子，并且其长度对应于候选变异体与目标特异性引物之一的位置之间的距离。可以基于变异体特异性扩增子与候选变异体与目标特异性引物之间区的比对来鉴别对应于候选变异体的变异体特异性扩增子。另外，可以测定变异体特异性扩增子的变异体特异性条码序列，并且可以基于变异体特异性条码序列来确定变异体特异性序列的一致性。

在516，可以基于存在对应于候选变异体位置的变异体特异性扩增子来确认候选变异体，所述变异体特异性扩增子包括匹配候选变异体的变异体特异性序列。举例来说，当含有对应于长度为8的同聚体‘A’的变异体特异性条码的变异体特异性扩增子存在并且定位到长度为8的同聚体‘A’的位置时，可以确认包括长度为8的同聚体‘A’的候选变异体。替代性地，如果全长目标扩增子未能区分长度为8的同聚体与长度为9的同聚体，那么存在对应于长度为8的同聚体的变异体特异性扩增子而不存在对应于长度为9的同聚体的变异体特异性扩增子可以用于确认核酸样品的同聚体长度是8而非9。

在各种实施例中，可以基于存在和不存在对应的变异体特异性扩增子来确认临床上显著位置的序列。举例来说，当指示药物用于在特定基因组位置处具有‘A’的个体而对在所述位置处不具有‘A’的个体为禁忌时，可以使用对应于‘A’、‘C’、‘G’和‘T’以及所述位置的变异体特异性引物。存在‘A’变异体特异性扩增子可以用于检验指示在所述位置处存在‘A’并且所述个体可以是所述药物候选人的测序结果。替代性地，存在‘C’、‘G’或‘T’变异体特异性扩增子而不存在‘A’变异体特异性扩增子可以用于检验指示在所述位置处不存在‘A’并且所述个体不会是所述药物候选人的序列结果。

在各种实施例中，本发明传授内容的方法可以在以如C、C++等的常规编程语言编写的软件程序和应用中实施。

虽然结合各种实施例来描述本发明传授内容，但是并不打算将本发明传授内容限于此类实施例。相反地，如所属领域的技术人员应了解，本发明传授内容涵盖各种替代方案、修改和等效物。

此外，在描述各种实施例中，说明书可能将方法和/或过程呈现为特定顺序的步骤。然而，在方法或过程不依赖于本文所阐述的步骤的特定次序的程度上，所述方法或过程不应限于所描述的步骤的特定顺序。如所属领域的技术人员将了解，步骤的其它顺序可以是可能的。因此，在说明书中阐述的步骤的特定次序不应解释为对权利要求书的限制。另外，针对方法和/或过程的权利要求书不应限于以书写的次序进行其步骤，并且所属领域的技术人员可以易于了解的是顺序可以变化并且仍保持在各种实施例的精神和范围内。

本文所描述的实施例可以用包括以下的其它计算机系统配置实践：手持式装置、微处理器系统、基于微处理器或可编程消费型电子装置、微型计算机、大型主机计算机等。实施例也可以在其中通过经网络连接的远程处理装置进行任务的分布式计算环境中实践。

还应了解，本文所描述的实施例可以采用涉及存储在计算机系统中的数据的各种计算机实施操作。这些操作为需要物理量的物理操纵的操作。通常(尽管未必)，这些量呈能够被存储、转移、组合、比较以及以其它方式操纵的电或磁信号的形式。此外，进行的操纵通常以如产生、鉴别、确定或比较的术语提及。

形成本文所描述的实施例的一部分的操作中的任一个是适用的机器操作。本文所描述的实施例也涉及进行这些操作的装置或设备。本文所描述的系统和方法可以出于所需目的专门构筑或其可以是通过存储在计算机中的计算机程序选择性地激活或配置的通用计算机。确切地说，各种通用机器可以与根据本文中的传授内容编写的计算机程序一起使用，或可能更方便的是构筑更专门设备以进行所需操作。

某些实施例也可以体现为计算机可读媒体上的计算机可读代码。计算机可读媒体是可以存储此后可以通过计算机系统读取的数据的任何数据存储装置。计算机可读媒体的实例包括硬盘驱动器、网络连接存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学和非光学数据存储装置。计算机可读媒体也可以分布在网路耦合的计算机系统上，以使得计算机可读代码以分布方式存储和执行。

Claims

1.一种检验核酸样品中的变异体的方法，其包含：

在引物池存在下使核酸样品的目标区扩增以产生多个扩增子，所述引物池包括第一和第二目标特异性引物以及变异体特异性引物，所述变异体特异性引物包括变异体特异性条码序列和变异体序列；

对所述扩增子进行测序，以产生多个读数；

将所述读数与参考序列比对；

鉴别出作为候选变异体的目标区中的定位的位置处目标读数序列与参考序列的差异；

以及

基于鉴别定位到候选变异体位置的含有所述变异体特异性条码序列和变异体序列的读数来检验变异体在目标区的候选变异体位置处的存在。

2.根据权利要求1所述的方法，其中所述变异体包括同聚体。

3.根据权利要求1所述的方法，其中所述变异体包括单核苷酸多态性。

4.根据权利要求1所述的方法，其进一步包含在所述第一和第二目标特异性引物存在下使核酸样品的所述目标区扩增以产生全长目标扩增子。

5.根据权利要求4所述的方法，其进一步包含基于来自所述全长目标扩增子的读数序列来确定所述核酸样品的所述目标区的序列。

6.根据权利要求1所述的方法，其进一步包含在测序之前将衔接子接合到扩增子。

7.根据权利要求6所述的方法，其中所述衔接子包括样品特异性条码序列。

8.根据权利要求7所述的方法，其进一步包含基于存在所述样品特异性条码序列来鉴别读数对应于所述核酸样品。

9.一种验证核酸样品中变异体的方法，其包含：

在第一和第二目标特异性引物存在下使核酸样品的目标区扩增以产生多个全长目标扩增子；

在第一和第二目标特异性引物以及变异体特异性引物存在下使核酸样品的所述目标区扩增以产生多个变异体特异性扩增子，变异体特异性引物包括变异体特异性条码和变异体序列；

对所述全长目标扩增子进行测序，以产生多个全长目标读数；

对所述变异体特异性扩增子进行测序，以产生多个变异体特异性读数；

将所述全长目标读数和变异体特异性读数与参考序列比对；

基于所述全长目标的序列来确定所述目标区的序列；

鉴别出作为候选变异体的目标区中的定位的位置处全长目标读数序列与参考序列的差异；

以及

10.根据权利要求9所述的方法，其中所述变异体包括同聚体。

11.根据权利要求9所述的方法，其中所述变异体包括单核苷酸多态性。

12.根据权利要求9所述的方法，其中扩增以产生全长目标扩增子和扩增以产生变异体特异性扩增子在同一多重PCR反应中发生。

13.如权利要求12所述的方法，其中相对于所述特异性引物存在过量的所述第一和第二目标特异性引物。

14.根据权利要求9所述的方法，其进一步包含在测序之前将衔接子接合到所述全长目标扩增子和变异体特异性扩增子。

15.根据权利要求14所述的方法，其中所述衔接子包括样品特异性条码序列。

16.根据权利要求15所述的方法，其进一步包含基于存在所述样品特异性条码序列来鉴别读数对应于所述核酸样品。

17.如权利要求2所述的方法，其中变异体特异性引物的变异体序列包括

具有特定同聚体长度的同聚体区，变异体特异性引物的变异体特异性条码序列指示特定同聚体长度。

18.如权利要求10所述的方法，其中变异体特异性引物的变异体序列包括