CN107075571B

CN107075571B - 用于检测结构变异体的系统和方法

Info

Publication number: CN107075571B
Application number: CN201580036958.9A
Authority: CN
Inventors: R·K·哥蒂姆卡拉; F·C·L·海兰
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2014-07-18
Filing date: 2015-07-17
Publication date: 2022-01-04
Anticipated expiration: 2035-07-17
Also published as: US20160019340A1; EP3169806B1; WO2016011378A1; US20190385698A1; EP3169806A1; CN107075571A

Abstract

用于鉴别基因融合体的系统和方法可以从核酸样品获得多个扩增子的测序信息。所述测序信息可以包括首先部分映射到参考序列的多个读段。片段可以通过将部分映射的读段分成映射片段和未映射片段而产生，并且所述片段可以再映射到所述参考序列。基因融合体可以根据其中第一片段映射到第一基因且第二片段映射到第二基因的读段而鉴别。

Description

用于检测结构变异体的系统和方法

本申请案主张2014年7月18日申请的美国临时申请案第62/026,300号的优先权，该案以全文引用的方式并入本文中。

技术领域

本发明大体上涉及包括用于检测基因融合体的系统和方法的核酸测序领域。

背景技术

在完成人类基因组项目(Human Genome Project)后，测序行业的一个焦点已转移到发现较高通量和/或较低成本核酸测序技术，有时称为“下一代”测序(NGS)技术。在使测序通量更高和/或更便宜中，一个目标为使技术更可获得。这一目标可以通过使用向具有显著复杂度的样品提供样品制备、并行地对较大数目的样品进行测序(例如通过使用条码和多重分析)和/或有效处理大量信息且以及时方式完成分析的测序平台和方法而达到。进化形成各种方法，如合成测序、杂交测序和连接测序来迎接这些挑战。

并入NGS技术的超高通量核酸测序系统通常产生大量短序列读段。序列处理方法应合意地快速且有效地组装和/或映射大量读段，以使计算资源的使用降到最低。举例来说，由对哺乳动物基因组测序产生的数据可以产生数千万或数亿读段，所述读段通常需要在其可以经过进一步分析以确定其生物、诊断和/或治疗相关性之前得到组装。

NGS技术的示例性应用包括(但不限于)：基因组变异体检测，如插入/缺失、拷贝数变异、单核苷酸多态性、基因组重测序、基因表达分析、基因组剖析等。

结构变异体，如大规模缺失、插入、倒位、基因组重排、基因融合体等可能与各种基因病症和癌症相关。结构变异体可能通常在细胞适当功能所必需的蛋白质的产生中引起显著中断。举例来说，基因组重排和基因融合体可能引起嵌合蛋白的mRNA编码，其具有来自一个蛋白质的第一部分和来自另一个蛋白质的第二部分。通常，这些嵌合蛋白不再像第一或第二蛋白一样起作用，并且可能引起规则性通路的中断。在癌细胞中，遭到中断的调节通路可能涉及细胞凋亡、细胞生长等的调节，并且由于基因融合体，癌细胞能够不受限制地生长。

从前文应了解，需要可以使用核酸测序数据检测基因融合体的系统和方法。

附图说明

为了更加全面地理解本文所公开的原理和其优点，现在参考下文结合附图进行的描述，其中：

图1是根据各种实施例说明示例性计算机系统的框图。

图2是根据各种实施例重构核酸序列的示例性系统的示意图。

图3是根据各种实施例的示例性基因分析系统的示意图。

图4是根据各种实施例说明示例性基因融合体的图解。

图5是根据各种实施例说明检测基因融合体的示例性方法的流程图。

图6是根据各种实施例说明示例性合成对照物的图解。

应理解，图式未必按比例绘制，图式中的物件也未必关于彼此按比例绘制。图式是打算为本文所公开的设备、系统和方法的各种实施例带来清晰性和理解的描绘。在可能的情况下，将在整个附图中使用相同参考数字来指代相同或类似部分。此外，应了解，附图并不打算以任何方式限制本教示内容的范围。

具体实施方式

用于检测基因融合体的系统和方法的实施例描述并说明于本文中。

本文所用的章节标题仅用于组织目的并且不应理解为以任何方式限制所描述的主题。

在各种实施例的这一详细描述中，出于解释的目的，阐述许多特定细节以提供所公开的实施例的透彻理解。然而，所属领域的技术人员应了解，这些各种实施例可以在具有或不具有这些特定细节的情况下实践。在其它情况下，结构和装置以框图形式显示。此外，所属领域的技术人员可以容易地了解，呈现和进行方法的特定顺序是说明性的，并且预期顺序可以改变且仍保持在本文所公开的各种实施例的范围内。

在本申请案中，引用的所有文献和类似材料(包括(但不限于)专利、专利申请案、文章、书籍、论文和因特网网页)出于任何目的明确地以全文引用的方式并入。除非另外描述，否则本文所用的所有技术和科学术语具有与本文所描述的各种实施例所属领域的一般技术人员通常所理解相同的含义。

应了解，本教示内容中所论述的温度、浓度、时间、碱基数目、覆盖度等之前存在隐含的“约”，使得细微和非实质偏差在本教示内容的范围内。在本申请案中，除非另外明确陈述，否则单数的使用包括复数。此外，“包含(comprise/comprises/comprising)”、“含有(contain/contains/containing)”和“包括(include/includes/including)”的使用并不打算是限制性的。应理解，前文一般描述和以下详细描述均仅是示例性和解释性的并且并不限制本教示内容。

如本文所用，“一(a/an)”也可指“至少一”或“一或多”。此外，使用的“或 (or)”是包含性的，使得当“A”真实、“B”真实，或“A”和“B”两者均真实时，短语“A或B”真实。

此外，除非上下文另外需要，否则单数术语应包括复数并且复数术语应包括单数。通常，本文所描述的与细胞和组织培养、分子生物学以及蛋白质和寡核苷酸或聚核苷酸化学和杂交结合使用的命名法和技术是所属领域中众所周知并常用的命名法和技术。标准技术用于例如核酸纯化和制备、化学分析、重组核酸和寡核苷酸合成。酶促反应和纯化技术根据制造商的说明书或如所属领域中通常所实现或如本文所描述来进行。本文所描述的技术和程序通常根据所属领域中众所周知以及如本发明的说明书通篇中所引用和论述的各种一般性和较特定的参考文献中所描述的常规方法来进行。参见例如萨姆布鲁克(Sambrook)等人,《分子克隆:实验指南(Molecular Cloning:A Laboratory Manual)》 (第三版,冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),纽约冷泉港(Cold SpringHarbor,N.Y.)2000)。结合本文所描述的实验室程序和技术使用的命名法是所属领域中众所周知并且常用的命名法。

在各种实施例中，阐述一组组分的“系统”(真实或抽象)包含一个整体，其中每一组分与整体内的至少一个其它组分相互作用或与其相关。

在各种实施例中，“生物分子”可指通过生物有机体产生的任何分子，包括大聚合分子，如蛋白质、多糖、脂质和核酸(DNA和RNA)，以及小分子，如初级代谢物、次级代谢物和其它天然产物。

在各种实施例中，短语“下一代测序”或NGS是指相比于传统的基于桑格(Sanger)和毛细电泳法的方法，具有增加的通量，例如具有一次产生数十万相对较小序列读段能力的测序技术。下一代测序技术的一些实例包括(但不限于)合成测序、连接测序和杂交测序。更确切地说，生命技术公司(Life Technologies Corp.)的个人基因组机器(PersonalGenome Machine；PGM)和质子(Proton)提供具有增强的精确性的大规模平行测序。 PGM和Proton系统和相关工作流、方案、化学反应等更详细地描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中，这些申请案中的每一者的全部内容以引用的方式并入本文中。

在各种实施例中，短语“测序运行”是指经进行以确定与至少一个生物分子(例如核酸分子)相关的一些信息的测序实验的任何步骤或部分。

在各种实施例中，短语“碱基空间”是指核苷酸序列的表示。短语“流动空间”是指特定核苷酸流动的并入事件或非并入事件的表示。举例来说，流动空间可以是表示特定核苷酸流动的核苷酸并入事件(如一，“1”)或非并入事件(如零，“0”)的一系列值。具有非并入事件的核苷酸流动可以称为空流。具有核苷酸并入事件的核苷酸流动可以称为正流。应理解，零和一是非并入事件和核苷酸并入事件的方便表示；然而，任何其它符号或标识可以替代地用于表示和/或标识并入和非并入事件。确切地说，当多个核苷酸在给定位置并入时，如对于均聚物拉伸，值可以与核苷酸并入事件数目且因此与均聚物拉伸长度成比例(例如大于一)。

在各种实施例中，DNA(脱氧核糖核酸)可称为由4种类型的核苷酸组成的核苷酸链；A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)，且RNA(核糖核酸) 由4种类型的核苷酸组成；A、U(尿嘧啶)、G和C。某些对的核苷酸以互补方式特定地彼此结合(称为互补碱基配对)。也就是说，腺嘌呤(A)与胸腺嘧啶(T)配对(然而，在RNA的情况下，腺嘌呤(A)与尿嘧啶(U)配对)，且胞嘧啶(C)与鸟嘌呤(G) 配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸组成的第二核酸链时，两个链结合以形成双链。在各种实施例中，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读段”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的排序的任何信息或数据。应理解，本教示内容涵盖使用包括(但不限于)以下的所有可用种类的技术、平台或科技所获得的序列信息：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统(如Illumina HiSeq、MiSeq和Genome Analyzer)、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序(如454Life Science GS FLX和GS Junior)、基于离子或pH的检测系统(如Ion Torrent)、基于电子签名的系统(如Oxford Nanopore GridION和MinION)等。

在各种实施例中，“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键连接的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常，聚核苷酸包含至少三个核苷酸。通常，寡核苷酸的大小在几个单体单元，例如3-4个到几百个单体单元范围内。每当聚核苷酸(如寡核苷酸)表示为一连串字母时，如“ATGCCTG”，应了解，除非另外指出，否则核苷酸按从左到右的5'-3'次序且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，且“T”表示胸苷。如在所属领域中标准的，字母 A、C、G和T可以用于指代碱基本身、核苷或包含碱基的核苷酸。

在各种实施例中，“结构变异体”是指染色体结构的变异。结构变异体可以包括缺失、复制、拷贝数变异体、插入、基因融合体、倒位和易位。许多结构变异体与基因疾病相关，然而更多的不是。

多重扩增方法：

在各种实施例中，可以对由扩增来自核酸分子群体的多个目标特异性序列产生的目标核酸测序。在一些示例性实施例中，扩增可以包括将一个或多个目标特异性引物对杂交到目标序列，延伸引物对的第一引物，使来自核酸分子群体的延伸的第一引物产物变性，将引物对的第二引物杂交到延伸的第一引物产物，延伸第二引物以形成双链产物，并且远离双链产物消化目标特异性引物对以产生多个扩增的目标序列。在一些实施例中，扩增的目标序列可以连接到一个或多个衔接子。在一些实施例中，衔接子可以包括一个或多个核苷酸条码或标记序列。在一些实施例中，扩增的目标序列一旦连接到衔接子，即可进行切口平移反应和/或进一步扩增以产生衔接子连接的扩增的目标序列库。多重扩增的示例性方法描述于2012年11月12日申请且标题为“多重PCR的方法和组合物(Methods andCompositions for Multiplex PCR)”的美国申请案第13/458,739号中，其现公开为US2012/0295819 A1。

在各种示例性实施例中，进行多重PCR扩增的方法包括使具有正向和反向引物的多个目标特异性引物对与目标序列群体接触以形成多个模板/引物双螺旋；持续足够时间且在足够温度下将DNA聚合酶和dNTP的混合物添加到所述多个模板/引物双螺旋中以经由模板依赖性合成来延伸每一目标特异性引物对中的正向或反向引物(或两者)，进而产生多个延伸的引物产物/模板双螺旋；使延伸的引物产物/模板双螺旋变性；将来自目标特异性引物对的互补引物结合到延伸的引物产物上；并且在DNA聚合酶和dNTP存在下延伸结合的引物以形成多个目标特异性双链核酸分子。

计算机实施系统

图1是说明示例性计算机系统100的框图，本发明的实施例可以在所述系统上实施。在各种实施例中，计算机系统100可以包括总线102或其它传达信息的通信机构，以及与总线102耦接以处理信息的处理器104。在各种实施例中，计算机系统100也可以包括耦接于总线102以确定基础呼叫的存储器106，其可以是随机存取存储器(RAM)或其它动态存储装置，以及将由处理器104执行的指令。存储器106也可以用于在执行由处理器104执行的指令期间存储临时变量或其它中间信息。在各种实施例中，计算机系统100可以进一步包括耦接于总线102以存储用于处理器104的静态信息和指令的只读存储器(ROM)108或其它静态存储装置。可以提供如磁盘或光盘的存储装置110并使其耦接于总线102以存储信息和指令。

在各种实施例中，计算机系统100可以经由总线102耦接到显示器112，如阴极射线管(CRT)、液晶显示器(LCD)或其它显示器或机构，以向计算机用户显示或者提供信息。包括字母数字键和其它键的输入装置114可以耦接于总线102以将信息和命令选择传达到处理器104。另一种类型的用户输入装置是光标控制器116，如鼠标、轨迹球、光标方向键等，其用于将方向信息和命令选择传达到处理器104并且用于控制显示器112 上的光标移动。这一输入装置通常具有在两个轴线，第一轴线(即x)和第二轴线(即 y)中的两个自由度，其允许装置在平面中指定位置。

在各种示例性实施例中，计算机系统100可以进行至少部分根据本发明的方法。与本教示内容的某些实施方案一致，结果可以由计算机系统100响应于处理器104执行包含于存储器106中的一个或多个指令的一个或多个序列来提供。所述指令可以从如存储装置110的另一个计算机可读媒体读取到存储器106中。执行包含于存储器106中的指令序列可使处理器104进行本文所描述的方法。或者，可以使用硬连线电路替代或结合软件指令以实施本教示内容。因此，本教示内容的实施方案不限于硬件电路和软件的任何特定组合。

在各种实施例中，如本文所使用，术语“计算机可读媒体”是指参与向处理器104提供指令以执行的任何媒体。所述媒体可以呈许多形式，包括(但不限于)非易失性媒体、易失性媒体和传输媒体。非易失性媒体的实例可以包括(但不限于)光盘或磁盘，如存储装置110。易失性媒体的实例可以包括(但不限于)动态存储器，如存储器106。传输媒体的实例可以包括(但不限于)同轴电缆、铜线和光纤，包括包含总线102的电线。

非暂时性计算机可读媒体的常见形式包括(例如)软盘、软磁盘、硬盘、磁带或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM和EPROM、闪存EPROM、任何其它存储器芯片或盒带或计算机可以读取的任何其它有形媒体。

根据各种实施例，被配置成由处理器执行以进行方法的指令存储在计算机可读媒体上。计算机可读媒体可以是存储数字信息的装置。举例来说，计算机可读媒体包括用于存储软件的如所属领域中已知的只读光盘(CD-ROM)。计算机可读媒体被适于执行被配置成被执行的指令的处理器访问。

核酸测序平台

核酸序列数据可以使用包括(但不限于)以下的各种技术、平台或科技产生：毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。

核酸测序平台的各种实施例，如核酸测序仪可以包括如图2的框图中所显示的组件。根据各种实施例，测序仪器200可以包括射流传递和控制单元202、样品处理单元204、信号检测单元206以及数据获取、分析和控制单元208。用于下一代测序的仪器、试剂、库和方法的各种实施例描述于美国专利申请公开案第2009/0127589号和第 2009/0026082号中，其以引用的方式并入本文中。仪器200的各种实施例可以提供可用于并行地，如基本上同时从多个序列收集序列信息的自动化测序。

在各种实施例中，射流传递和控制单元202可以包括试剂传递系统。试剂传递系统可以包括用于存储各种试剂的试剂储集器。试剂可以包括基于RNA的引物、正向/反向 DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的 ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。所实施的引物可以被设计用于特定目标或可以是通用类引物。此外，试剂传递系统可以包括移液系统或连续流动系统，其连接样品处理单元与试剂储集器。

在各种实施例中，样品处理单元204可以包括样品室，如流槽、基质、微阵列、多孔盘、通孔等。样品处理单元204可以包括多个泳道、多个槽道、多个孔或其它基本上同时处理多个样品集的手段。此外，样品处理单元可以包括多个样品室以使得能够同时处理多个运行。在特定实施例中，系统可以对一个样品室进行信号检测，并基本上同时处理另一样品室。此外，样品处理单元可以包括用于移动或操纵样品室的自动化系统。

在各种实施例中，信号检测单元206可以包括成像或检测传感器。举例来说，成像或检测传感器可以包括CCD、CMOS、离子或化学传感器，如覆盖CMOS或FET的离子敏感层、电流或电压检测器等。信号检测单元206可以包括励磁系统以使如荧光染料的探针发射信号。励磁系统可以包括照明源，如弧光灯、激光、发光二极管(LED)等。在特定实施例中，信号检测单元206可以包括用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。或者，信号检测单元206可以提供基于电子或非光子的检测方法且因此不包括照明源。在各种实施例中，基于电子的信号检测可以在测序反应期间产生可检测信号或物质时进行。举例来说，信号可以通过与离子或化学敏感层相互作用的释放的副产物或部分，如释放的离子，如氢离子的相互作用而产生。在其它实施例中，可检测信号可以由如用于焦磷酸测序(参见例如美国专利申请公开案第 2009/0325145号，其全部内容以引用的方式并入本文中)中的酶促级联产生，其中焦磷酸酯通过由聚合酶引起的碱基并入产生，所述聚合酶进一步在腺苷5′磷酰硫酸存在下与 ATP硫酸化酶反应以产生ATP，其中产生的ATP可以在荧光素酶介导的反应中耗尽以产生化学发光信号。在另一实例中，电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。

在各种实施例中，数据获取分析和控制单元208可以监测各种系统参数。系统参数可以包括仪器200的各种部分，如样品处理单元或试剂储集器的温度；各种试剂的体积；各种系统子组件，如操纵器、步进式电机、泵等的状态；或其任何组合。

所属领域的技术人员应了解，仪器200的各种实施例可以用于实践多种测序方法，包括基于连接的方法、合成测序、单分子方法、纳米孔测序和其它测序技术。

在各种实施例中，测序仪器200可以测定核酸，如聚核苷酸或寡核苷酸的序列。核酸可以包括DNA或RNA，并且可以是单链，如ssDNA和RNA；或双链，如dsDNA或 RNA/cDNA对。在各种实施例中，核酸可以包括或衍生自片段库、配对库、ChIP片段等。在特定实施例中，测序仪器200可以从单一核酸分子或从基本上相同的核酸分子的群组获得序列信息。

在各种实施例中，测序仪器200可以包括(但不限于)以下的各种不同输出数据文件类型/格式输出核酸测序读取数据：*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、 *prb.txt、*.sms、*.srs、*.bam和/或*.qv。

鉴别序列变异的系统和方法

图3是根据各种实施例的用于鉴别变异体的系统的示意图。

如本文中所描绘，变异体分析系统300可以包括核酸序列分析装置304(例如核酸测序仪、实时PCR仪器、数字PCR(dPCR)仪器、定量PCR(qPCR)仪器、微阵列扫描仪等)、分析学计算装置302以及显示器310和/或客户端装置终端308。

在各种实施例中，分析学计算装置302可以经由网络连接326通信连接到核酸序列分析装置304和客户端装置终端308，所述网络连接可以是有线物理网络连接(例如因特网、LAN、WAN、VPN等)或无线网络连接(例如Wi-Fi、WLAN等)。

在各种实施例中，分析学计算装置302可以是工作站、主机计算机、分布式计算节点(如“云端计算”或分布式网络系统的一部分)、个人计算机、移动装置、服务器等。在各种实施例中，核酸序列分析装置304可以是核酸测序仪、实时PCR仪器、数字PCR (dPCR)仪器、定量PCR(qPCR)仪器、微阵列扫描仪等。然而，应理解，核酸序列分析装置304可以是可从获自个体的样品(例如含有核酸分子)产生核酸序列数据的任何类型的仪器。

分析学计算装置302可以被配置成主控任选的预处理模块312、映射模块314和融合体检测模块316。

预处理模块312可以被配置成从核酸序列分析装置304接收和进行处理步骤，如从f空间到碱基空间、颜色空间到碱基空间或从流动空间到碱基空间的转化，确定呼叫质量值，通过映射模块314制备供使用的读取数据等。质量值可以是测序精确性的每个碱基或每次流动估测。

映射模块314可以被配置成将核酸序列读段比对(即映射)到参考序列。在一些实例中，序列读段的长度大体上小于参考序列的长度。在参考序列映射或比对中，序列读段相对于现有骨干序列(例如参考序列等)组装以建立与骨干序列类似但未必相同的序列。一旦在有机体中发现骨干序列，比较测序或再测序可以用于表征有机体物种内或紧密相关物种之间的基因多样性。在各种实施例中，参考序列可以是全/部分基因组、全/ 部分外显子组等。

在各种实施例中，序列读段和参考序列可以表示为碱基空间中的一连串核苷酸碱基符号。在各种实施例中，序列读段和参考序列可以表示为颜色空间中的一种或多种颜色。在各种实施例中，序列读段和参考序列可以表示为在流动空间中具有信号或数值定量分量的核苷酸碱基符号。

在各种实施例中，序列读段和参考序列的比对可以包括包含序列读段的碱基与包含参考序列的碱基之间有限数目的失配。在一些实例中，序列读段可以比对到一部分参考序列以使序列读段与参考序列之间的失配数目降到最低。

融合体检测模块316可以包括再映射引擎318、评估引擎322和任选的后处理引擎324。在各种实施例中，融合体检测模块316可以与映射模块314通信。也就是说，融合体检测模块316可以(通过例如数据流、数据文件、本文文件等)从映射模块314请求和接收数据和信息。

再映射引擎318可以被配置成从映射模块314接收映射读段，并且鉴别经过部分比对(部分映射)的读段。举例来说，可以在读段的开端或末端比对读段，并且可以比对不大于60％读段长度、不大于50％读段长度或不大于40％读段长度。此外，再映射引擎 318可以分割从未映射部分分离映射部分的读段以产生一组读段片段。读段片段可以映射到参考基因组，并且一组候选融合体可以通过组合读段的第一片段和第二片段所映射的位置而产生。

评估引擎322可以被配置成从再映射引擎318接收数据。评估引擎322可以获得负载候选融合体的读段的计数。任选地，评估引擎322可以使用基因组基因位点的标注以固结并筛选候选融合体。根据从再映射引擎318接收的数据，评估引擎可以对变异体进行分类并测定可信度值。在各种实施例中，评估引擎322可以根据统计数目、具有基因名称的候选融合体的两种基因位点的标注、具有外显子编号的至少一种基因座的标注等筛选候选融合体。

后处理引擎324可以被配置成接收通过评估引擎318鉴别的基因融合体并且进行额外处理步骤，如选择和格式化数据以在显示器310上显示或由客户端装置308使用。

客户端装置308可以是瘦客户端或厚客户端计算装置。在各种实施例中，客户端装置308可以具有网页浏览器(例如INTERNET EXPLORERTM、FIREFOXTM、SAFARITM 等)，其可以用于将信息传达到使用浏览器的预处理模块312、映射模块314、再映射引擎318、评估引擎322和后处理引擎324和/或控制所述组件的操作以控制其功能。网页浏览器可以执行被配置成操作核酸序列分析装置304的软件(例如网页应用程序、小程序等)。举例来说，取决于特定应用的要求，客户端装置308可以用于配置各种模块的操作参数(例如匹配评分参数、标注参数、筛选参数、数据安全和保留参数等)。类似地，客户端装置308也可以被配置成显示由融合体检测模块316和核酸测序仪304进行的分析的结果。客户端装置308可以执行被配置成操作核酸序列分析装置304的任何其它适合软件(例如独立申请案)。

应理解，公开为系统300的一部分的各种数据存储器可以表示基于硬件的存储装置 (例如硬盘驱动器、快闪存储器、RAM、ROM、网络连接存储等)或存储在独立或联网计算装置(例如虚拟数据存储器)上的数据库的实例化。还应了解，取决于所实施的特定应用或系统架构的配置，显示为系统300的一部分的各种数据存储器和模块或引擎可以组合或崩解成单一模块、引擎和/或数据存储器，或膨胀成多个模块、引擎和/或数据存储器。此外，在各种实施例中，如特定应用或系统架构所需要，系统300可以包含额外模块、引擎、组件或数据存储器。

在各种实施例中，系统300可以被配置成处理颜色空间中的核酸读段。在各种实施例中，系统300可以被配置成处理碱基空间中的核酸读段。在各种实施例中，系统300 可以被配置成处理流动空间中的核酸序列读段。然而，所属领域的一般技术人员应理解，本文所公开的系统300可以任何模式或格式处理或分析核酸序列数据，只要所述模式或格式可以表达核酸序列的碱基标识和位置即可。

在各种实施例中，系统300可以用于鉴别基因融合体的候选物。举例来说，基因可能已经历融合事件，如易位、填隙式缺失、染色体倒位等。产生于这一组合的基因可能为测序分析带来复杂性。

图4是显示示例性基因融合体400的图解。在基因融合事件之前，可以将示例性基因402转录成含有外显子406和408以及内含子410的RNA 404。剪接RNA 404可以去除内含子410并产生包括外显子406和408的mRNA 412。

类似地，可以将示例性基因414转录成含有外显子418和420以及内含子422的 RNA416。剪接RNA 416可以去除内含子422并产生包括外显子418和420的mRNA 424。融合事件426可以将基因402的部分与基因414组合成融合体基因428。可以将融合体基因428转录成含有外显子432和434以及内含子436的RNA 430。在各种实施例中，外显子432可以对应于基因402的外显子406，并且外显子434可以对应于基因414的外显子420。剪接RNA 430可以去除内含子436并产生包括外显子432和434的mRNA 438。样品中存在mRNA 438可以指示融合体基因428的存在。此外，产生融合体基因 428的融合事件426可以打断mRNA 412和424的产生，以及任何由mRNA 412和424 编码的蛋白质的产生。

在各种实施例中，检测技术可有助于对已经历融合事件的基因进行测序。举例来说，对特定映射情况(例如相对于读段的开端或末端经过部分比对的读段)的检测可能指示基因已经历融合事件。根据所述情况的检测，可以进行额外处理以鉴别融合事件所涉及的融合的基因部分或候选基因部分。

图5是说明检测基因融合体的示例性方法500的流程图。在502处，读段可以映射到参考物上，如参考基因组或转录组。举例来说，在引物池的存在下可以产生多个扩增子。在各种实施例中，读段可以通过对产生自多重扩增的扩增子进行测序而产生。扩增可以包括对应于第一多个外显子的3'端的第一组引物，以及对应于第二多个外显子的5' 端的第二组引物。在各种实施例中，扩增子可以产生自基因中多个已知的外显子-外显子接合处。此外，扩增子可以产生自基因融合体，其中如本文所论述，来自第一基因的外显子连接到第二基因的一部分上。

在各种实施例中，扩增子可能进行各种导致信号发射的测序反应，使得多个读段可以根据所检测的信号而产生。序列读段和参考序列可以表示为碱基空间中的一连串核苷酸碱基符号、颜色空间中的一种或多种颜色、在流动空间中具有信号或数值定量分量的核苷酸碱基符号或任何其它适合表示。

在各种实施例中，映射可以包括将核酸序列读段比对到参考基因组。在一些实例中，序列读段的长度大体上小于参考基因组的长度。在参考序列映射或比对中，序列读段可以相对于现有骨干序列(例如参考序列)组装以建立与骨干序列类似但未必相同的序列。

在各种实施例中，序列读段和参考基因组的比对可以包括包含序列读段的碱基与包含参考序列的碱基之间有限数目的失配。在一些实例中，序列读段可以比对到一部分参考序列以使序列读段与参考序列之间的失配数目降到最低。

在504处，可以鉴别出部分映射到参考基因组的读段子集。确切地说，读段可以具有映射部分和未映射部分。映射部分可以接近读段的开端且未映射部分接近读段的末端，或者未映射部分可以接近读段的开端且映射部分可以接近读段的末端。举例来说，映射部分可以位于距读段的开端或末端的阈值距离(例如碱基的阈值绝对数或百分比数)内。在各种实施例中，映射部分可以不大于50％读段长度，如不大于50％读段长度、不大于40％读段长度或任何其它适合百分比。映射部分可以在距参考序列的阈值距离内进行映射，以使映射部分包括阈值数的与参考序列的失配。

在506处，子集的读段可以分成映射部分和未映射部分，以使子集的读段产生两种读段片段。举例来说，可以对读段进行软剪切，以使第一读段片段包括读段的映射部分并且第二读段片段包括读段的未映射部分。在一示例性实施例中，每个读段片段可以与鉴别产生片段的部分映射读段的键标(例如R1、R2、R3等)相关。

在508处，产生自部分映射读段的读段片段可以比对到参考基因组。在一实例中，部分映射读段的第一片段(例如被鉴别为R1)将映射到参考基因组内的第一基因座，并且部分映射读段的第二片段(例如被鉴别为R1)将映射到参考基因组内的第二基因座。基因座可以是每个读段片段在参考基因组上的映射位置。在一些实例中，位置可以对应于已知基因(例如具有基因名称)和/或已知基因的部分(例如已知基因的已知外显子)。类似于前述映射/比对，每个片段映射可以在距参考基因组的阈值距离内。

在510处，一候选列表的融合体可以根据读段片段的基因位点有序对而产生。举例来说，可以选择每个读段片段都映射到参考基因组上的基因位点的读段片段子集。所述候选者列表的融合体可以是一系列部分映射读段，其中为子集选择产生自部分映射读段的每个片段。举例来说，可以分析读段片段子集，以使含有匹配键标(鉴别产生片段的部分映射读段)的片段可以添加到候选者列表中。根据选择，当来自部分映射读段的每个片段映射到参考基因组时，可以选择来自相同部分映射读段的读段片段。

以下数据组说明例如作为数据库表的示例性候选融合体列表。表项可以包括具有随附数据的读段片段的每个基因位点以及特定基因位点组合的计数。

[chr2:29446338-29446396,chr2:42491846-42491869]1689

[chr4:39259398-39259419,chr6:170871271-170871321]64

[chr2:29446338-29446396,chr2:42492057-42492089]70

[chr12:128904278-128904299,chr6:170871271-170871321]31

[chr19:55857939-55857959,chr1:156104280-156104320]37

[chr2:29446327-29446396,chr2:42491846-42491869]55

[chr1:156104594-156104644,chrX:137308905-137308925]70

在512处，可以评估候选融合体。举例来说，一或多种筛选可以应用于候选融合体列表。在一实施例中，可以统计片段映射到特定基因位点对的读段的数目。举例来说，可以统计产生映射到相同(或大体上相同)基因位点的片段的读段。示例性筛选可以包含所统计的配对的阈值数。

在一示例性实施例中，基因位点可以标注有诸如基因名称和外显子标识。举例来说，参考基因组可以包括与基因位点相关的随附元数据，如基因名称和外显子标识。一或多种筛选可以包括至少一个基因位点标注有基因名称、两个基因位点都标注有基因名称、至少一个基因位点标注有外显子编号、两个基因位点都标注有外显子编号以及筛选的任何适合组合。在一些实施例中，筛选可以包括距(已知)外显子边界的最大距离(例如读段片段中的最大碱基数目或最大碱基百分比)。

以下数据组可以说明例如作为数据库表的经过筛选和标注的候选融合体列表。表项可以包括具有随附标注数据(例如基因名称、外显子编号、序列位置等)的读段片段的每个基因位点(如果已知的话)，以及特定基因位点组合的计数。

[LMNA,SUV420H2E8]45

[TBP,TMEM132C]49

[TBP,WDR19]91

[ALKE21,EML4E5]1774

[ALKE21,EML4]238

[LMNA,chrX:137308905-137308925]105

在各种实施例中，可以向用户报导筛选和固结后的其余候选融合体。在一些实施例中，一或多种数据库可以使用基于经过筛选的候选融合体列表的数据来更新。举例来说，存储已知基因融合体的数据库可以根据候选融合体列表来更新。数据库更新可以是标注有已知融合体数据(例如基因名称、外显子编号和其它鉴别信息)的表项。在一些实例中，来自候选融合体列表的标注数据可以包括先前未知的关于已知基因融合体的信息 (例如基因融合体与外显子边界的距离等)，并且数据库可以使用先前未知信息来更新。在一些实施例中，一或多种来自候选融合体列表的融合体可能是未知的(例如可能未存储在已知基因融合体的数据库中)。在这一实例中，已知基因融合体的数据库可以使用未知基因融合体和来自候选融合体列表的任何随附标注数据来更新。

在一些实施例中，可以产生一或多个数据文件，因此用户可以使基因融合体显象。举例来说，候选基因融合体的标注数据可以用于鉴别已知基因，并且可以产生根据已知基因的基因融合事件的显像。显像可以根据在与一或多个显示器相连接的计算装置上执行的软件来进行，因此显像(如动画)可以得到显示。

在一些实施例中，在测序之前，候选基因融合体的断裂点可能是未知的。在一些实施例中，对于基因融合体，有限数目的断裂点可能是已知的(例如两个已知断裂点之一)。在一些实施例中，关于断裂点的已知信息可能是有限的(例如断裂点的准确位置可能是未知的)。举例来说，基因名称可能是已知的，但断裂点的精确座标可能是未知的。在这些实例中，可以根据对断裂点的有限了解来设计引物池。举例来说，当已知一个断裂点时，可以根据已知断裂点设计第一引物，并且第二引物可以是通用类引物。

图5示例性工作流可以包括优于先前基因融合体检测方法的技术优点。举例来说，一些方法可能需要精确了解融合体断裂点以设计用于测序的引物池。其它方法可能不需要所述了解，但可能是低效、缓慢、不精确的，或者因需要分析的过多数据而需要大量处理。根据各种所公开的实施例的技术可以提供增强的基因融合体检测方法，其不需要断裂点的先验知识或至少可以仅充分利用对断裂点的有限了解，且/或在无需过多处理的情况下有效检测基因融合体。

举例来说，如本文所描述的鉴别读段子集、对读段子集进行软剪切、根据匹配键标产生候选融合体列表和/或筛选候选融合体列表中的一或多者可以减少分析中的误报数目，并且随后减少检测候选基因融合体所需要的处理量。在一些实施例中，筛选可以使候选融合体列表的大小减小90％、80％、70％等。在其它实例中，例如当已知关于候选基因融合体的数据时，筛选可以使列表的大小减小较少百分比。

图6是显示示例性合成核苷酸对照物的图解。在各种实施例中，合成核苷酸对照物是可以用于融合体转录本的合成RNA对照物。合成核苷酸可以在多重扩增之前加入样品中。“天然”加入的序列可以与融合体转录本的序列相同或大体上相同。“杂乱”加入的序列可以仅在相应引物结合位点处与融合体转录本的序列相同或大体上相同；其余内部序列可以是杂乱的以使其区别于天然融合体转录本。举例来说，其余内部序列可以是任意序列的碱基。

在各种实施例中，融合体分析可以包括不产生扩增子的多个引物对。举例来说，仅有限数目的融合体种类可以正面样品的形式存在，并且一些RNA样品可能不具有任何目标融合体种类。因此，因为不触发正面指示物，所以数据可能产生“负面”迹象，并且如果引物存在且起作用，那么可能难以进行测定。“杂乱”加入的序列可以为多重扩增提供质量控制机构。

对于RNA融合扩增子，杂乱加入的序列(“杂乱子(scramblicon)”)可以具有适当的引物结合序列，但两个引物结合位点之间的序列是杂乱的，以维持GC含量和长度。这些合成模板可以明显区别于天然融合体种类。如果“天然”模板用于验证RNA 引物，那么可能难以区分模板以及样品中融合体的存在。此外，少量“天然”模板可能污染样品并且导致误报结果。

在各种实施例中，本教示内容的方法可以在用如C、C++等常规编程语言所编写的软件程序和应用中实施。

虽然本发明阐述各种实施例，但并不打算将本发明的范围和权利要求书限制于这些实施例。相反地，所属领域的一般技术人员应了解，各种替代方案、修改和等效物包含在内。

此外，在描述各种实施例中，本说明书可能将方法和/或工艺呈现为特定顺序的步骤。然而，在方法或工艺不依赖于本文中所阐述的步骤的特定次序的程度上，方法或工艺不应限于所描述的步骤的特定顺序或实践。如所属领域的一般技术人员将了解，步骤的其它顺序可以是可能的。因此，在说明书中所阐述的任何步骤的特定次序和包含物不应理解为对权利要求书的限制。此外，针对方法和/或工艺的权利要求书不应限于以所书写的次序进行其步骤，并且所属领域的技术人员可以易于了解，顺序可以改变并且仍保持在各种实施例的精神和范围内。

本文所描述的实施例可以用包括以下的其它计算机系统配置实践：手持式装置、微处理器系统、基于微处理器或可编程消费型电子装置、微型计算机、大型主机计算机等。实施例也可以在任务通过经网络连接的远程处理装置进行的分配计算环境中实践。

还应理解，本文所描述的实施例可以使用涉及存储在计算机系统中的数据的各种计算机实施操作。这些操作是需要物理量的物理操纵的操作。通常(尽管未必)，这些量呈能够被存储、转移、组合、比较和以其它方式操纵的电或磁性信号的形式。此外，进行的操纵通常以如产生、鉴别、测定或比较的术语提及。

形成本文所描述的实施例的一部分的任何操作是有用的机器操作。本文所描述的实施例也涉及进行这些操作的装置或设备。本文所描述的系统和方法可以出于所需目的专门构建或其可以是通过存储在计算机中的计算机程序选择性地激活或配置的通用计算机。确切地说，各种通用机器可以与根据本文中的教示编写的计算机程序一起使用，或可能更方便的是构建更专门设备以进行所需操作。

某些实施例也可以体现为计算机可读媒体上的计算机可读代码。计算机可读媒体是可以存储此后可以通过计算机系统读取的数据的任何数据存储装置。计算机可读媒体的实例包括硬盘驱动器、网络连接存储(NAS)、只读存储器、随机存取存储器、CD-ROM、 CD-R、CD-RW、磁带以及其它光学和非光学数据存储装置。计算机可读媒体也可以分布在网络耦接的计算机系统上，以使计算机可读代码以分布方式存储和执行。

Claims

1.一种用于检测基因融合体的非诊断性方法，其包含：

在引物池存在下扩增核酸样品以产生多个扩增子，所述引物池包括对应于第一多个外显子的3’端的第一组引物以及对应于第二多个外显子的5’端的第二组引物，其中所述第一组引物和所述第二组引物中的一者根据基因融合体的已知断裂点而设计，并且所述第一组引物和所述第二组引物中的另一者包含通用类引物集；

通过检测指示核苷酸并入事件的多个信号对所述扩增子进行测序以产生多个读段；

根据所述读段与参考基因组之间的比对，将所述读段映射到所述参考基因组上；

鉴别部分映射到所述参考基因组的读段的子集；

通过将子集中所述部分映射读段分成第一读段片段的映射区域和第二读段片段的未映射区域而产生第一读段片段和第二读段片段，其中第一读段片段具有针对所述参考基因组的映射的碱基长度，第二读段片段具有针对未映射到参考基因组的未映射碱基长度；

将子集中部分读段的第一读段片段和第二读段片段比对到参考基因组，以将部分映射读段的第一读段片段映射到参考基因组内的第一基因位点，部分映射读段的第二读段片段映射到参考基因组内的第二基因位点；

针对子集内每个部分映射读段的第一和第二读段片段的所述映射区域和所述未映射区域，根据所述参考基因组上的第一和第二基因位点，鉴别候选融合体；

筛选所述鉴别的候选融合体，以获得对应于每个特定基因位点组合的具有第一读段片段和第二读段片段的所述映射部分的计数子集；

用包含基因名称和外显子标识中的一或多者的已知信息标注所述候选融合体形成标注数据；和

根据对应于每个特定基因组合的具有第一读段片段和第二读段片段的所述部分映射部分的所述计数以及所述标注数据，形成筛选的和标注的候选融合物列表。

2.根据权利要求1所述的方法，其中部分映射到所述参考基因组的所述鉴别的读段包含映射部分，所述映射部分不大于所述鉴别的读段的50％读段长度或不大于40％所述读段长度。

3.根据权利要求1所述的方法，其中所产生的第一片段和第二片段中的每一者包含与产生所述片段的所述读段相关的键标。

4.根据权利要求3所述的方法，其进一步包含选择所产生的读段片段和具有相同键标的相应读段片段的子集，所述所产生的读段片段包含针对所述参考基因组的映射，所述相应读段片段同样包含针对所述参考基因组的映射，其中所述读段片段子集被鉴别为候选融合体。

5.根据权利要求1所述的方法，其中所述鉴别的候选融合体根据以下至少一者进行筛选：所述读段片段中的至少一种的基因名称的可用性、所述读段片段两者的基因名称的可用性、所述读段片段中的至少一种的外显子标识的可用性以及所述读段片段两者的外显子标识的可用性。

6.根据权利要求1所述的方法，其进一步包含用基于所述筛选的和标注的候选融合体的信息更新融合体基因数据库。

7.一种用于检测基因融合体的系统，其包含：

核酸测序装置，其被配置成：

接受多个读数；

通过检测指示核苷酸并入事件的多个信号对多个扩增子进行测序以产生多个读段，其中所述扩增子通过在引物池存在下扩增核酸样品而产生，所述引物池包括对应于第一多个外显子的3’端的第一组引物以及对应于第二多个外显子的5’端的第二组引物，其中所述第一组引物和所述第二组引物中的一者根据基因融合体的已知断裂点而设计，并且所述第一组引物和所述第二组引物中的另一者包含通用类引物集；和

包含处理器的分析学计算装置，其被配置成：

根据所述读段和所述参考基因组之间的比对，将所述读段映射到参考基因组上；

鉴别部分映射到所述参考基因组的读段；

将子集中部分读段的第一读段片段和第二读段片段比对到参考基因组，以将部分映射读段的第一读段片段映射到参考基因组内的第一基因座，部分映射读段的第二读段片段映射到参考基因组内的第二基因座；

8.根据权利要求7所述的系统，其中部分映射到所述参考基因组的所述鉴别的读段包含映射部分，所述映射部分小于或等于所述鉴别的读段的50％读段长度或者小于或等于40％所述读段长度。

9.根据权利要求7所述的系统，其中第一片段和第二片段中的每一者包含与产生第一和第二读段片段的部分映射读段相关的键标。

10.根据权利要求9所述的系统，其中所述分析学计算装置被进一步配置成选择所产生的读段片段和具有相同键标的相应读段片段的子集，所述所产生的读段片段包含针对所述参考基因组的映射，所述相应读段片段同样包含针对所述参考基因组的映射，其中所述读段片段子集被鉴别为候选融合体。

11.根据权利要求7所述的系统，其中标注信息包含对应于基因位点的基因名称和外显子标识中的一或多者。

12.根据权利要求7所述的系统，其中所述鉴别的候选融合体根据以下至少一者进行筛选：所述读段片段中的至少一种的基因名称的可用性、所述读段片段两者的基因名称的可用性、所述读段片段中的至少一种的外显子标识的可用性以及所述读段片段两者的外显子标识的可用性。

13.根据权利要求7所述的系统，其中所述分析学计算装置被进一步配置成用基于所述筛选的和标注的候选融合体的信息更新融合体基因数据库。