CN110178184A

CN110178184A - 致癌剪接变体确定

Info

Publication number: CN110178184A
Application number: CN201880006222.0A
Authority: CN
Inventors: 琼·斯内德克; 庄涵宇; 格温·贝里; 陈晓
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2017-01-17
Filing date: 2018-01-16
Publication date: 2019-08-27
Anticipated expiration: 2038-01-16
Also published as: US20200090784A1; CN110178184B; AU2021201007B2; JP2020506684A; EP3571613A1; CA3045498C; BR112019014042A2; KR20190098233A; AU2021201007A1; KR102326612B1; WO2018136416A1; CA3045498A1; SG11201905640XA; AU2018210316A1; JP2021036895A; JP6806909B2

Abstract

本文呈现了用于鉴定剪接变体的系统和方法。所述技术包括从来自单个生物样品的多个RNA序列读段确定一个或多个样品剪接点，检索从多个健康RNA样品确定的一组基线剪接点和比较一个或多个样品剪接点与基线剪接点组以鉴定包括不与基线剪接点重叠的样品剪接点在内的一个或多个过滤的样品剪接点，其中一个或多个过滤的样品剪接点是候选致癌事件。

Description

致癌剪接变体确定

通过引用优先权申请并入

本申请要求2017年1月17日提交的美国临时申请第62/447,382号的优先权权益，其在此通过引用并入。

背景

剪接变体是基因转录物的单一变异。许多基因具有多种可能的剪接变体，其允许单个基因根据细胞环境或功能编码多种可能的蛋白质。在翻译成蛋白质之前，mRNA转录物被剪接以除去不在蛋白序列中编码的mRNA转录物区域。如图1所示，降钙素基因相关肽(CGRP)102和降钙素104由相同的源基因转录物产生，表达为前体mRNA(前-mRNA)106，并且根据基因转录物的表达位置被差别剪接。作为非限制性实例，前-mRNA 106可以在存在神经元细胞中时剪接为CGRP102，或者在存在于甲状腺细胞中时剪接为降钙素104。

传统上，致癌剪接变体可以通过获取一组非肿瘤样品和一组肿瘤样品来从患者测定。然后，对每个样品进行测序并映射至参考(DNA或RNA)。随后，从头鉴定整个剪接转录物，并基于剪接转录物评估正常(非肿瘤)和异常(肿瘤)样品之间的表达差异。

由于需要多个样品，测定致癌剪接变体的传统方法并不理想。此外，为单个患者跑多个样品会大大增加试剂和测序成本。例如，如果需要配对的肿瘤/非肿瘤样品，成本可能至少翻倍。

概述

提供概述是为了以简化的形式介绍精选的概念，这些概念将在下面的详述中进一步描述。概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

本公开的一方面提供了用于鉴定剪接变体的多种方法和系统。在一个实施方式中，方法包括：从来自单个生物样品的多个RNA序列读段确定一个或多个样品剪接点，检索从多个健康RNA样品确定的一组基线剪接点；比较一个或多个样品剪接点与基线剪接点组并鉴定一个或多个过滤的样品剪接点，所述过滤的样品剪接点包括不与基线剪接点重叠的样品剪接点，其中一个或多个过滤的样品剪接点是候选致癌事件。

一些实施方案还包括输出候选致癌事件列表。

在一些实施方案中，多个健康RNA样品包括取自以下中的一种或多种的交叉样品(cross section)的健康RNA样品：地理区域、年龄、性别、族群、组织类型或样品保存质量类型。

在一些实施方案中，多个健康RNA样品包括来自选自以下的一种或多种组织类型的样品：肺、肾上腺、膀胱、乳房、卵巢、肝脏、前列腺、皮肤和脾。在一些实施方案中，多个健康RNA样品包括来自跨越年龄段的供体的样品。

在一些实施方案中，来自多个健康RNA样品的基线剪接点在确定来自单个样品的样品结点之前进行确定。

在一些实施方案中，用于基线剪接点的多个健康RNA样品不是从与单个生物样品相同的生物对象获得的。

在一些实施方案中，基线结点来自与样品结点相同的基因组区域。

在一些实施方案中，单个生物样品来自肿瘤样品。

在一些实施方案中，样品剪接点和基线剪接点均使用共同的测定来确定。

在一些实施方案中，确定一个或多个样品结点包括：确定来自单个生物样品的多个RNA序列读段；检索与来自单个生物样品的RNA序列读段对齐的DNA参考序列；和确定一个或多个样品结点为与DNA参考相比在RNA读段中缺失的连续位置。

在一些实施方案中，过滤的样品剪接点与第三方结点不重叠，所述第三方结点从捕获给定基因的外显子的多个可替代组合的剪接图中确定。

在一些实施方案中，基线剪接点组在不确定捕获给定基因的外显子的多个可替代组合的剪接图的情况下确定。

一些实施方案提供了鉴定剪接变体的系统。该系统包括存储器，至少一个处理器；和至少一个非暂时性计算机可读介质，其含有指令，所述指令当由至少一个处理器执行时导致至少一个处理器执行操作，所述操作包括：从来自单个生物样品的多个RNA序列读段确定一个或多个样品剪接点；检索从多个健康RNA样品确定的一组基线剪接点；比较一个或多个样品剪接点与基线剪接点组；和鉴定一个或多个过滤的样品剪接点，所述过滤的样品剪接点包括不与基线剪接点组重叠的样品剪接点，其中过滤的样品剪接点是候选致癌事件。

如本文所述，各种其他特征和优势可以根据需要并入到技术中。

附图简述

图1是说明剪接变体的示例性特征的概念图。

图2是说明包括剪接变体确定的操作环境的实施方案的方框图。

图3是说明根据图2的操作环境使用的剪接变体确定服务的示例组件的实施方案的方框图。

图4是说明结点分析的实施方案的流程图。

图5是说明确定可能的致癌结点的实施方案的流程图。

图6是说明确定样品结点的实施方案的流程图。

图7是说明确定基线结点的实施方案的流程图。

图8是说明确定过滤的样品结点的实施方案的流程图。

图9是说明验证过滤的样品结点的实施方案的流程图。

图10是流程图，其附有确定可能的致癌结点的实施方案的概念图。

图11是说明图10的实施方案的实验结果的表。

图12A和图12B是说明验证过滤的样品结点的特征的概念图。

详述

一般而言，本公开对应于经由基线分析进行致癌剪接变体确定的方法和系统。

剪接可能经常在癌细胞中被破坏。如通过引用整体并入本文的Dvinge,H.,&Bradley,R.K.(2015),“Widespread intron retention diversifies most cancertranscriptomes”Genome Medicine,7(1),45.所述，已在许多癌症中发现导致剪接变异的破坏。另外，制药公司已将这些变体的产物鉴定为药物疗法的潜在靶标。鉴定携带受影响的变体的患者的能力对于研究用于癌症治疗的药物的功效可能是重要的。

在DNA水平上有许多突变可导致癌症中的异常剪接(剪接变体)。非限制性实例可见于Jung,H.,Lee,D.,Lee,J.,Park,D.,Kim,Y.J.,Park,W.-Y.,…Lee,E.(2015),“Intronretention is a widespread mechanism of tumor-suppressor inactivation”,NatureGenetics,47(11),1242–1248.中，其通过引用整体并入本文。

癌症基因组图谱(TCGA)(由总部位于美国马里兰州罗克维尔的美国国家癌症研究所癌症基因组学中心以及总部位于美国马里兰州贝塞斯达的美国国家人类基因组研究所管理)已经鉴定了多种突变机制(剪接变体)，包括至少以下内容：(1)直接剪接位点突变；(2)发生在外显子最后一个碱基的30个碱基对(bp)内的突变；(3)在受影响的外显子附近不发生但剪接发生改变的转录物变化；和(4)与剪接无直接关系的致癌变化(诸如但不限于Myc突变)。

因此，对于至少部分地由于可导致剪接破坏的各种机制而引起的相关变化，直接检查RNA而不是DNA来鉴定剪接变体可能是有利的。

此外，根据本文所述的各种实施方案的用于经由基线分析进行致癌剪接变体确定的系统和方法简单地确定可能的致癌剪接变体，并且没有传统方法的缺点。如上所述，剪接变体确定的传统方法由于至少部分地采用来自患者的多个活检或样品而更具侵入性、计算密集且成本高。相比之下，如下面进一步描述的，可以从患者采集单个肿瘤样品并将其与健康样品的基线参考进行比较。使用单一肿瘤样品而没有匹配的正常健康样品的这种类型的变体鉴定降低了分析的复杂性，从而集中于在正常的健康样品中不表达的可验证的异常事件。

因此，经由基线分析进行致癌剪接变体确定着重于如下进一步描述的剪接变体确定、诸如剪接点确定的相关因素，并避免了从头确定基因组表达的复杂(和计算资源密集)过程。换句话说，不是构建以单个结构多个(或所有)替代方式捕获整个转录物的剪接图(其中可以组装给定基因的外显子)，而是可以在结点水平上评价剪接变体。

剪接点(也称为结点)将剪接变体定义为DNA参考上的坐标，当与DNA参考对齐时，其不出现在RNA序列中。结点可以经由测定来确定，该测定是对特定内容(诸如用于RNA测定的RNA)的测试。结点将至少结合图4在下面进一步讨论。作为非限制性实例，对于肺癌中的MET外显子14跳跃突变，13和15之间的结点可以被确定为剪接变体。

如上所介绍，基线参考是来自健康的非肿瘤样品的交叉样品的结点的集合。在健康的非肿瘤组织的各个交叉样品中观察到的结点(或剪接变体)的这种基线参考可以通过用于对研究中的肿瘤样品进行测序的相同RNA测定来测序。基线参考可用于捕获正常生理学中的剪接事件或由测定伪影引起的剪接事件。基线参考的使用补充了文献中转录同种型的有限管理，并减少了福尔马林固定的石蜡包埋(FFPE)保存中的伪影或其他系统误差。基线分析，或通过基线参考的基线结点过滤，捕获更可能与癌症相关的新型剪接点。基线参考的基线结点将至少结合图7在下面进一步讨论。

然而，可以注意到，计算资源的这些节省可以与确定在正常组织中组成型表达的与癌症相关的剪接变体的难度相平衡，诸如但不限于如通过引用整体并入本文的Ben-Hur,V.,Denichenko,P.,Siegfried,Z.,Maimon,A.,Krainer,A.,Davidson,B.,&Karni,R.(2013),“S6K1 Alternative Splicing Modulates Its Oncogenic Activity andRegulates mTORC1”,Cell Reports,3(1),103–115中所述的RPS6KB1的某些变体。然而，如上所介绍，经由基线分析进行致癌剪接变体确定具有许多优于传统工具的优势，可能会克服这些困难。

示例性实施方案综述

图2说明了剪接变体确定环境200的实施方案，其可以在示例剪接变体确定服务202的背景下实施本文所述的特征。在一些实施方案中，剪接变体确定环境200包括剪接变体确定服务20、剪接变体确定数据仓库204、网络206、本地数据提供者208A、远程数据提供者208B、参考提供者210、本地数据消费者212A和远程数据消费者212B。在一些实施方案中，剪接变体确定环境200的各组件经由网络206彼此通信互连。剪接变体确定环境200可包括不同的组件，更多或更少数量的组件，并且可以被以不同方式构造。例如，可以存在一个以上与剪接变体确定服务202相结合的数据仓库或其他计算设备。作为另一个实例，剪接变体确定环境200的组件可以在有或没有网络206的情况下彼此通信。

剪接变体确定服务202可以对应于能够执行本文描述的过程的任何系统。剪接变体确定服务202可以由一个或多个计算设备实现。例如，剪接变体确定服务202可以由计算设备实现，所述计算设备包括执行存储器中存储的一个或多个指令的一个或多个处理器，以及通过网络206发送和接收数据的通信设备。在一些实施方案中，剪接变体确定服务是在一个或多个能够通过网络进行通信的后端服务器上实现的。在其他实施方案中，剪接变体确定服务202由托管计算环境(如，“云计算环境”)中的一个或多个虚拟机实现。托管计算环境可以包括一个或多个供应和释放的计算资源，该计算资源可以包括计算、网络和/或存储设备。

在一方面，剪接变体确定服务202可以实现一个或多个应用，所述应用单独地或组合地执行本文所述的剪接变体确定功能，包括确定样品结点、确定基线结点、确定基线参考、确定过滤的样品结点、确定来自组织的RNA读段、去除结点重叠、验证过滤的样品结点、确定足够的重叠计数等。这些剪接变体确定功能可以在剪接变体确定服务的不同时间和不同方面进行，诸如(但不限于)当剪接变体确定服务不在确定样品过滤结点或样品结点的同时确定基线参考的基线结点，而是先确定并存储基线结点(收集为基线参考)并然后在确定样品过滤结点时检索存储的基线结点时。在另一方面，剪接变体确定服务202可以经配置以在剪接变体确定数据存储204处存储或更新基线结点、样品结点。在一些实施方案中，剪接变体确定服务可以与网络或基于网络的服务提供商或供应商关联。

在所示的实施方案中，剪接变体确定服务202可以通信地连接到剪接变体确定数据仓库204。剪接变体确定数据仓库204通常可以包括任何存储库、数据库或可以存储剪接数据和相关的元数据的信息存储系统。存储在剪接变体确定数据仓库204中的剪接数据可以是基线参考的基线结点(包括从健康样品的交叉样品确定的结点)、来自单个肿瘤样品的肿瘤样品数据、来自健康或非肿瘤样品的交叉样品的健康样品数据、来自单个肿瘤样品的样品结点和/或根据致癌剪接变体确定经由基线分析处理的过滤的样品结点。剪接数据可以以各种格式或数据结构存储，诸如列表、载体、数组、矩阵等。例如元数据可以与单个样品或结点、或结点的样品集合相关联，用于以下目的：表明其格式、语义、特征、条件、来源、创建数据、录入日期、注释日期、处理日期、相关的交叉样品(如，地理区域、年龄、性别、族群、FFPE伪影、FFPE质量、同源物伪影、聚合酶通读伪影、非肿瘤学选择性剪接、组织类型)等。例如，元数据可以将经由共同的测定确定的来自单个肿瘤样品的样品结点与经由共同的测定确定的基线结点连接。可替代地或此外，元数据可以表示与结点集合(诸如但不限于基线参考、基线结点的集合、过滤的样品结点的集合或样品结点的集合)中的结点相关的分类中的类别或位置。

网络206可以包括在剪接变体确定环境200内建立通信所必需的网络硬件和方案的任何适合组合。例如，网络206可以包括专用网络，诸如局域网(LAN)或广域网(WAN)，以及公共或专用有线或无线网络、卫星网络、有线网络、蜂窝网络或因特网。在此类实施方案中，网络206可以包括硬件(如，调制解调器、路由器、交换机、负载平衡器、代理服务器等)和由硬件实现的在剪接变体确定环境200内建立网络连接的软件(如，协议堆栈、计费软件、防火墙/安全软件等)。另外，网络206可以执行用于在剪接变体确定环境200的组件之间传输数据的各种通信协议之一。

数据提供者208A，208B可以对应于本地数据提供者208A站点的主机(诸如但不限于当剪接变体确定服务202在也确定来自仪器上RNA测序的数据的仪器上时，或者在存储来自RNA测序的此类数据的设备上时)，或网络或其他远程数据提供者208B站点的主机(诸如但不限于当确定来自RNA测序的数据的仪器或存储来自RNA测序的此类数据的设备远离剪接变体确定服务202时)等。因此，数据提供者208A，208B可以与任何一个或多个计算设备相关联，所述计算设备可以经由或代替网络206促进与剪接变体确定服务202的通信。仅举几例，此类计算设备通常可以包括测序仪器、无线移动设备(如智能电话、PDA、平板、可穿戴计算设备等)、服务器、台式机、笔记本电脑和计算机化设备等。此外，此类计算设备可以实现可以促进上述通信的任何类型的软件(诸如浏览器或移动应用程序)。

数据消费者212A，212B可以对应于本地数据消费者208A站点的主机(诸如但不限于当剪接变体确定服务202在其他服务或过程所依赖的仪器上时)或网络或其他远程数据提供者208B站点的主机(诸如但不限于当剪接变体确定服务202在这样的仪器上，该仪器远离依赖于它的服务或过程时)等。数据消费者212A，212B可以对应于临床或研究网络站点的访问者、科学家、医生、生物信息学家、工程师等，并且可以与能够经由或代替网络206促进与剪接变体确定服务202通信的任何一个或多个计算设备相关联。仅举几例，此类计算设备通常可以包括无线移动设备(如智能电话、PDA、平板、可穿戴计算设备等)、服务器、台式机、笔记本电脑、仪器和计算机化设备。此外，此类计算设备可以执行可以促进上述通信的任何类型的软件(诸如浏览器或移动应用程序)。

参考提供者210可以对应于提供与剪接变体确定服务202相关的参考数据的任何实体，诸如但不限于参考基因组、DNA参考、RNA参考、RNA转录物的剪接图和第三方结点。在某些实施方案中，参考提供者210将参考数据提供给剪接变体确定服务202，并且剪接变体确定服务202将参考数据本地存储在剪接变体确定数据仓库204中。参考提供者210可以对应于参考数据库网络站点等，并且可以与能经由网络206促进与剪接变体确定服务202通信的任何一个或多个计算设备相关联。仅举几例，此类计算设备通常可以包括无线移动设备(如，智能手机、PDA、平板、可穿戴计算设备等)、服务器、台式机、笔记本电脑、仪器和计算机化设备等。此外，此类计算设备可以执行可以促进上述通信的任何类型的软件(诸如浏览器或移动应用程序)。

相关领域的技术人员将理解，图2中提供的组件和构造本质上是说明性的。因此，可以使用另外或替代的组件和/或构造，包括用于促进本文公开的功能的另外的组件、系统和子系统。

图3是示出根据图2的操作环境使用的变体召集服务的示例组件的实施方案的方框图。示例计算系统300包括可用于实现本公开的各方面的计算机硬件和软件组件的布置。本领域技术人员将理解，计算系统300可以包括比图3中描绘的那些组件更多(或更少)的组件。然而，为了提供一种可行的公开，显示所有这些通常常规的组件不是必需的。

在所示的实施方案中，计算系统300包括处理单元302、网络界面304、非暂时性计算机可读介质驱动器306和输入/输出设备界面308，所有这些都可以通过通信总线的方式彼此通信。网络界面304可以为剪接变体确定服务202(参见图2)提供与一个或多个网络或计算系统的连接。因此，处理单元302可以经由网络接收来自其他计算设备、系统或服务的信息和指令。处理单元302还可以与存储器310通信，并且还经由输入/输出设备界面308提供输出信息。输入/输出设备界面308还可以接受来自各种输入设备(诸如键盘、鼠标、数码笔、触摸屏等)的输入。

存储器310可以包含计算机程序指令，所述处理单元302可以执行所述计算机程序指令以便实现本公开的一个或多个实施方案。存储器310通常包括RAM、ROM和/或其他持久或非暂时性计算机可读存储介质。存储器310可以存储操作系统314，所述操作系统314提供计算机程序指令以供处理单元302在剪接变体确定服务302的一般管理和操作中使用。存储器310还可以包括其他用于实现本公开的各方面的信息。

在一个实施方案中，存储器310包括界面模块312。界面模块312可以被配置为促进生成一个或多个用户界面，数据提供者208A，208B、参考提供者210或数据消费者212A，212B通过所述用户界面，利用兼容的计算设备可以发送或接收剪接变体确定服务202剪接数据、参考数据、指令数据、元数据等，或以其他方式与剪接变体确定服务202通信。具体地，界面模块312可以被配置为促进处理本文所述的功能，包括获得剪接数据、处理剪接数据、存储剪接数据、发送剪接数据、注释剪接数据等。例如，数据提供者208A，208B，或者数据消费者212A，212B可以存储、注释或检索经由特定测定所确定的结点，以便在一致的测定下执行时可以追踪经由基线分析进行的剪接变体确定。这可以经由一个或多个生成的用户界面来完成。用户界面可以实现为图形用户界面(GUI)，基于网络的用户界面，计算机程序，智能手机或桌面程序，或应用程序，触摸屏，可穿戴计算设备界面，命令行界面，手势，语音或文本界面等，或以上的任何组合。此外，用户界面可以包括当已经处理样品以确定作为候选致癌事件的过滤的样品结点的指示符等。

此外，存储器310可以包括可以由处理单元302执行的数据处理模块316。在一个实施方案中，数据处理模块316实现本公开的各方面。作为非限制性实例，数据处理模块316可以被配置为处理剪接数据、指令、参考数据或元数据。具体地，数据处理模块316可以被配置为用于执行本文所述的功能，包括确定样品结点、确定基线结点、确定过滤的样品结点、确定来自组织的RNA读段、去除结点重叠、验证过滤的样品结点、确定足够的重叠计数等。

应注意，剪接变体确定服务202可以由如本文结合图3所讨论的计算系统300中存在的一些或所有组件实现。此外，计算系统300可以包括图3中不存在的另外组件。上述模块或组件还可以包括另外的模块或者可以由可能在图2或图3中未示出的计算设备实现。例如，尽管界面模块312和数据处理模块316在图3中被标识为单个模块，相关领域的技术人员将理解，模块可以由两个或更多个模块以分布式方式实现。而且，尽管剪接变体确定服务202和剪接变体确定数据仓库204在图2中被标识为单个组件，但是相关领域的技术人员将理解，所述组件可以由两个或更多个组件以分布式方式实现。作为另一个实例，计算系统300及其组件可以由网络服务器、应用程序服务器、数据库服务器、它们的组合等实现，所述网络服务器、应用程序服务器、数据库服务器、它们的组合经配置以便于经由或代替网络206来将数据传输至数据提供者208A，208B或数据消费者212A，212B或者从数据提供者208A，208B或数据消费者212A，212B传输数据。因此，模块和组件的描绘本质上是说明性的。

结点

如上所介绍，结点是一种鉴定特定剪接变体的方式。结点被鉴定位于读段对齐物的上游，并通过DNA基因组上的坐标识别。在正常组织中，结点通常发生在外显子(作为DNA序列的一部分，在剪接后保留)而不是内含子(DNA序列的一部分，其被剪接掉)之间的边界处。

图4是说明由(图2的)剪接变体确定服务202实现的结点分析的实施方案的流程图。进一步参考图4，结点分析400的过程开始于框402，其中剪接变体确定服务检索RNA读段。RNA读段是通过使用测序仪从处理RNA样品确定的核苷酸序列。参考图2，可以从剪接变体确定数据仓库204或从数据提供者208A，208B检索RNA读段。RNA读段可以从组织样品确定，并且具体地可以来自健康组织样品(如结合图7进一步讨论)或来自肿瘤组织样品(如结合图6进一步讨论)。RNA读段可以经由下面进一步讨论的测序方法从测序仪确定。

进一步参考图4，在框404处，可以比对RNA读段。RNA读段可以通过检索RNA读段并将RNA读段与DNA参考比对来进行比对。比对确定了RNA读段相对于DNA参考的位置。参考图2，DNA参考可以由参考提供者210提供，但是在剪接变体确定数据仓库204中本地存储(和检索)以便于访问。回到图4，参考DNA序列可以是作为人类的一组基因的交叉样品的数字核酸序列数据库的参考基因组的一部分，并且通常是来自多个供体的不同DNA序列的单倍体嵌合体。RNA读段和DNA序列可以使用比对器对齐，诸如但不限于由美国马里兰州巴尔的摩市约翰霍普金斯大学维护的Bowtie序列比对器(结合Langmead B,Trapnell C,Pop M,Salzberg SL,“Ultrafast and memory-efficient alignment of short DNA sequencesto the human genome”,Genome Biol 10:R25.进行进一步描述，其通过引用整体并入本文)，由美国马里兰州巴尔的摩市约翰霍普金斯大学维护的Top Hat序列比对器(结合Trapnell C,Pachter L,Salzberg SL.“TopHat:discovering splice junctions withRNA-Seq”,Bioinformatics doi:10.1093/bioinformatics/btp120.进行进一步描述，其通过引用整体并入本文)或在GitHub上维护的STAR序列比对器(结合Dobin,Davis CA,Schlesinger F,Drenkow J,Zaleski C,Jha S,Batut P,Chaisson M,Gingeras TR.,“STAR:ultrafast universal RNA-seq aligner”,Bioinformatics.2013年1月1日；29(1):15-21.doi:10.1093/bioinformatics/bts635.Epub 2012年10月25日进行进一步描述，其通过引用整体并入本文)。与DNA序列比对的RNA读段中的空位表示剪接事件，并用于生成待处理的结点列表。在当前的实现方式中，比对器在下游处理之前鉴定剪接点。

在框406处，剪接变体确定服务202基于与比对的DNA序列的比较来确定RNA读段中是否存在缺失的连续位置。可以使用如上所述的比对器来执行该确定。而且，如上所介绍，来自RNA读段的这些缺失的连续位置是在比对的RNA序列中除去的DNA序列上的坐标。而且，这些可能发生在外显子和内含子之间的边界处。

如果确定RNA读段中存在缺失的连续区域，那么结点分析400的过程进行到框408，其中RNA读段中缺失的连续区域被归属为结点。

在框420处，该结点可以存储在剪接变体确定数据仓库204中。该结点可以与染色体的注释和RNA读段中缺失的DNA序列中的位置一起存储。作为非限制性实例，可以将结点存储为这样的注释，即RNA读段中缺失的连续区域发生在染色体21的位置12和15之间。

如果未检测到RNA读段中缺失的连续区域，则确定结点的过程进行到框410，并且结点不归属于从RNA读段进行评价的部分。

框416涵盖框406、408和410，并且可以统称为随后至少结合图6和图7参考的确定结点的过程。

致癌结点确定

图5是说明由(图2的)剪接变体确定服务202实现的确定可能的致癌结点的实施方案的流程图。图5示出了在前面和后面的图中更详细地讨论的经由基线分析过程进行的致癌剪接变体确定的概述。

确定可能的致癌结点的过程500开始于框502，其中确定样品结点。结合图6更详细地讨论样品结点的确定。

返回图5，在框504处，确定基线参考的基线结点。结合图7进一步详细讨论基线结点的确定。

在框506中，确定过滤的样品结点。结合图8进一步详细地讨论过滤的样品结点的确定。

样品结点

如上所介绍，经由基线分析进行的致癌剪接变体确定使用来自患者的单个肿瘤样品，并且有利地比使用来自患者的多个样品(肿瘤样品和健康的非肿瘤样品)的传统剪接变体确定更简单。

图6是示出由剪接变体确定服务202实现的确定样品结点的实施方案的流程图。

图6中所示的样品结点502的确定开始于框612处，其中检索反映来自患者的单个肿瘤样品的肿瘤样品读段。可以从肿瘤组织收集单个肿瘤样品，用于鉴定指示异常剪接变体的异常结点。在某些实施方案中，肿瘤样品读段可以通过对单个肿瘤样品进行测序以常规方式确定，如下面结合测量方法进一步讨论的。在某些实施方案中，可以从数据提供者208A，208B中检索肿瘤样品读段，(结合图2进一步讨论)，其中数据提供者自己产生肿瘤样品读段(诸如但不限于，经由下面进一步讨论的测序方法)，或者是剪接变体确定服务从其中检索肿瘤样品读段的肿瘤样品读段的存储库。

进一步参考图6，在框614处，将肿瘤样品RNA读段与DNA参照比对。肿瘤样品RNA读段可以经由比对器确定，如上面结合图4进一步讨论的。

进一步参考图6，在框616处，从框614的肿瘤样品RNA读段确定样品结点。可以经由比对器确定样品结点，如上面结合图4进一步讨论。作为参考图4的说明性和非限制性实例，可以类似于结点分析400的过程的确定结点框416来确定样品结点，如结合图4所示，其中框402中的检索到的RNA读段是在框614中从单个样品确定的RNA读段，并且归属于框408中的结点是从框616确定的样品结点。

进一步参考图6，在框618处，样品结点可以存储在剪接变体确定数据仓库204中，结合图2进一步讨论，以供剪接变体确定服务202进一步检索和处理。

在某些实施方案中，在经由基线分析进行的致癌剪接变体确定会话期间，确定样品结点可以与剪接变体确定服务202执行的其他过程(诸如但不限于确定过滤的样品结点和/或确定基线结点)一起发生。在其他实施方案中，在经由基线分析进行的致癌剪接变体确定会话期间，样品结点的确定可以晚于或早于由剪接变体确定服务202执行的其他过程(诸如但不限于确定过滤的样品结点和/或确定基线结点)独立地进行。

基线结点

如上所介绍，经由基线分析进行的致癌剪接变体确定很大程度上是涉及针对致癌事件的结点召集，而不是从头的剪接变体召集。当经由从头的剪接变体召集执行剪接变体确定时，可能会引入许多错误。这些错误可能包括算法或测定问题，所述问题可能会妨碍针对致癌事件的剪接变体召集的精确度。作为非限制性实例，由于所考虑的肿瘤样品是FFPE，因此在从头的剪接变体召集中可能存在由测定或样品制备引入的伪影。此外，由于从头的剪接变体召集依赖于使用RNA比对器的读段比对，因此可能存在比对伪影。

然而，固有地，存在转录组尚未被全面注释的问题，导致报告的事件与肿瘤进展无关。这些可能是尚未表征的正常健康细胞中的真实组成型事件。假设可以通过消除来自测定和算法的错误来处理算法或测定问题。然而，由于没有全面注释转录组而没有试图表征正常的健康组织中的实际情况，可能很难消除错误。

此外，如上所述，从头的剪接变体召集通常需要来自单个患者的至少两个样品(至少一个来自健康组织的样品和至少一个来自肿瘤组织的样品)。必须处理另外的样品是侵入性的并且在临床上是不合需要的。此外，为单个患者跑多个样品会大大增加试剂和测序成本。

因此，当经由基线分析执行致癌剪接变体确定时，可以克服传统的从头的剪接变体召集的至少这些缺点。基线分析是指当评价来自患者的单个样品时用作参考的来自正常、健康的非肿瘤组织样品的多个交叉样品的基线结点的基线参考进行的分析。这些交叉样品可以跨越任何数量的标准，诸如但不限于地理区域、年龄、性别、族群、FFPE伪影、FFPE质量、同源物伪影、聚合酶通读伪影、非肿瘤学选择性剪接、组织类型等。交叉样品可以是特定标准内的变异。例如，年龄的交叉样品可包括来自跨越不同年龄的多个供体的样品，包括(但不限于)1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110岁等。作为另一个实例，组织类型的交叉样品可以包括来自不同身体部位的组织，包括(但不限于)来自肺、肾上腺、膀胱、乳房、卵巢、肝脏、前列腺、皮肤、脾等的各种位置的组织。作为另一个实例，FFPE伪影的交叉样品可以包括(但不限于)脱氨基、片段化、碱基修饰、无碱基位点等的不同值。作为另一个实例，FFPE质量的交叉样品可以包括(但不限于)具有不同尺寸的RNA片段的不同样品。

此外，基线参考可以足够全面，以捕获许多不同组织类型的组成型剪接。尽管基线参考中的样品可来自可能没有完全重叠的剪接变体表达的许多不同的组织类型，但在组织中发现的剪接变体的类型将有显著和充分的重叠，以使基线分析有效，如结合图10和图11所述。通过更全面的基线参考来减少假的或正常的生理剪接点被误鉴定为致癌事件可能更有效。

经由基线分析进行的剪接变体确定可能以牺牲灵敏度为代价，因为与测定或比对错误重叠的真实致癌剪接事件也将被过滤。然而，随着比对和样品处理的改进，基线参考也可以更新以反映改进的方法，同时从正常的健康(非肿瘤)样品中捕获正常的组成型结点。

图7是说明由剪接变体确定服务202实现的确定基线参考的基线结点的实施方案的流程图。

图7中所示的基线结点504的确定开始于框712处，其中检索来自健康(非肿瘤组织)样品的交叉样品的健康样品读段。如上所述，交叉样品可以是来自在评价来自患者的单个样品时用作参考的健康(非肿瘤组织)样品的结点的任何交叉样品。这些交叉样品可以跨越任何数量的标准，诸如但不限于地理区域、年龄、性别、族群、FFPE伪影、FFPE质量、同源物伪影、聚合酶通读伪影、非肿瘤学选择性剪接、组织类型等。

在某些实施方案中，健康样品读段可以通过对各个健康组织样品进行测序以常规方式确定。测序方法将在下面进一步讨论。在某些实施方案中，可以从数据提供者208A，208B中检索健康样品读段，(结合图2进一步讨论)，其中数据提供者自己产生健康样品数据(诸如但不限于，经由下面进一步讨论的测序)，或者是剪接变体确定服务从其中检索健康样品读段的健康样品读段存储库。

进一步参考图7，在框714处，将健康样品读段与参考序列比对。健康样品读段可以经由比对器比对，如上面结合图4进一步讨论。

在框716处，从框714的健康样品RNA读段确定基线结点。基线结点可以经由比对器确定，如上面结合图4进一步讨论。作为参考图4的说明性和非限制性实例，可以类似于结点分析400的确定结点框416来确定基线结点，如结合图4所示，其中在框402中的检索到的RNA读段是在框712中从健康样品确定的健康样品读段，并且归属于框408中的结点是从框716确定的基线结点。

进一步参考图7，在框718处，基线结点的集合可以作为基线参考存储在结合图2进一步讨论的剪接变体确定数据仓库204中，用于通过剪接变体确定服务202来进一步检索和处理。

在某些实施方案中，可以在确定过滤的样品结点和/或确定样品结点之前执行基线结点或基线参考的确定。因此，当基线参考是从剪接变体确定数据仓库204中根据需要进行检索，而不是用经由基线分析进行的剪接变体确定的每个会话动态或临时确定时，可以实现计算资源的节省。

此外，在具体的实施方案中，确定基线结点可以包括从剪接变体确定数据仓库204中检索存储的基线参考。在另外的实施方案中，确定基线参考并构成基线结点可在经由基线分析进行的致癌剪接变体确定的会话期间发生。

过滤的样品结点

经由基线分析进行的剪接变体确定产生过滤的样品结点。这些过滤的样品结点可以表示样品结点为可能的致癌剪接变体。当使用相同的测定确定样品结点和基线结点时，过滤的样品结点可以是不与基线结点重叠的样品结点。此外，由于是已知并非由健康的非致癌组织引起的结点，过滤的样品结点可被鉴定为新的，并因此被鉴定为可能致癌或可能与癌症相关。这些过滤的样品结点可以被鉴定为药物疗法的剪接变体和潜在目标。

在某些实施方案中，过滤的样品结点可以另外通过支持过滤的样品结点如何无错的证据来验证。这种类型的过滤的样品结点可以是结合图9进一步讨论的经验证的过滤的样品结点。

在另外的实施方案中，过滤的样品结点可被确定为除了不与如上所讨论的基线结点重叠之外还不与第三方结点重叠的样品结点。结合图10进一步讨论，这种类型的过滤的样品结点可以被称为基线第三方过滤的样品结点。此外，如结合图10进一步讨论，这种类型的过滤的样品结点可被另外验证并可被称为经验证的基线第三方过滤的样品结点。

图8是示出由剪接变体确定服务202实现的确定过滤的样品结点的实施方案的流程图。图7中所示的过滤的样品结点506的确定开始于框812处，其中检索样品结点。结合图6进一步讨论样品结点的确定。此外，可以从剪接变体确定数据仓库204检索样品结点，如结合图2和图6进一步讨论的。

返回图8，在框814处，检索基线结点的基线参考(使用与框812的样品结点共同的测定进行确定)。结合图7进一步讨论基线参考的确定。而且，可以从剪接变体确定数据仓库204检索基线参考，如结合图2和图7进一步讨论的。

在框816处，剪接变体确定服务202确定了样品结点是否与基线结点重叠。在某些实施方案中，该确定可以基于将每个样品结的值与基线参考的每个基线结点进行比较以确定它们是否重叠。重叠是指确定在被比较的结点之间存在相同的值或坐标。作为非限制性实例，这可以在将第二样品结点与每个基线结点进行比较之前将第一样品结点与每个基线结点进行比较的情况下进行。

进一步参考框816，在某些实施方案中，可以在框816中单独参考基线参考的所有基线结点以确定是否存在与样品结点的重叠。然而，在另外的实施方案中，所参考的基线结点可取决于在框812中检索的样品结点的坐标。具体地，参考可以与框812中检索的样品结点重叠的基线结点，而不参考不与框812中确定的样品结点重叠的基线结点。作为非限制性实例，可以将特定染色体的样品结点与此染色体的基线结点进行比较。有利地，当与检索或处理不取决于样品结点的坐标的基线参考的所有基线结点相比时，参考取决于样品结点的坐标的基线结点可以提高计算效率。

如果确定样品结点与基线参考的基线结点重叠，则该过程前进到框822，其中重叠的样品结点被收集为重叠样品结点而不是过滤的样品结点。

如果确定样品结点不与基线参考的任何基线结点重叠，则该过程前进到框818，其中不与任何基线结点重叠的样品结点被收集为过滤的样品结点。

框824是指通过去除具有基线结点重叠的样品结点来收集过滤的样品结点的集合步骤，并且总的来说是框816、框818和框822的重述。框822可以在后面结合图10来参考。

在框820处，验证过滤的样品结点。结合图9进一步讨论过滤的样品结点的验证。在某些实施方案中，过滤的样品结点的验证可以是任选的(如框820的虚线所示)，并且可以使用过滤的样品结点而无需如结合图9所述的验证。可替代地，验证可以发生在经由基线分析进行的剪接变体确定的过程的其他部分处诸如但不限于确定哪些结点之后的任何点。

进一步参考图8，在框830处，过滤的样品结点可以存储在结合图2进一步讨论的剪接变体确定数据仓库204中，以供剪接变体确定服务202进一步检索和处理或以供数据消费者208A，208B进一步检索和处理。

验证

可以执行结点验证以确定不与任何基线结点重叠的过滤的样品结点是否是错误的。在许多实施方案中，可以对经由图8的框824确定的过滤的样品结点进行结点验证，其中不与基线结点重叠的样品结点被收集为过滤的样品结点。这样做可能是有利的，因为如果要验证样品结点，则过滤的样品结点的数量可以小于样品结点的数量。然而，另外的实施方案也考虑了验证样品结点而不是过滤的样品结点和/或验证样品结点和过滤的样品结点两者。

如上所述，结点可以经由来自单个样品的至少一个RNA读段来确定。如下面结合测序方法进一步解释的，在测序过程中可以扩增或复制来自样品的RNA。经扩增的RNA可用于在测序期间增加信噪比。此外，来自经扩增的RNA的读段可用于确认或支持来自RNA的特定读段。类似地，来自经扩增的RNA的读段可以是确认或支持从RNA读段确定的特定结点的精确度的支持结点读段。这些支持结点读段可以是这样的读段，其包括与从RNA读段确定的特定结点相比过剩的来自其他读段的结点。因此，当针对验证下的特定结点确定支持结点读段的阈值数量时，可以确定特定结点的验证。

图12A和图12B是示出验证过滤的样品结点的特征的概念图。如图12A和图12B所示，支持结点读段1202可以是分开的读段，其中比对在验证下的结点的开始1204处结束，并且在验证下的结点的另一端1206处再次开始。这可以通过评价1210比对是否跨越在验证下的结点、评价1212比对是否在验证下的结点的一端结束和/或评估1214比对是否在验证下的结点的另一端处开始来确定。

因此，如图12A所示，如果在结点内存在读段的任何比对区域，则读段将不被计为支持结点读段。而且，如以另一种方式所示和图12B所示，外显子1220必须与在验证下的结点末端对齐，不与在验证下的结点的中部对齐。

在某些实施方案中，结点可以通过将评分归属在验证下的结点来验证。评分可以是0-1，其中为每个支持结点读段添加1分，如下式所表示：

评分＝(min(u,M)–N)*1/(M-N)，

其中M＝跨越在验证下的结点的最大读段数(默认为10)，N＝跨越在验证下的结点的最小读段数(默认为0)，u＝支持结点读段的数量。如该等式所支持的那样，当针对在验证下的结点确定至少10个支持结点读段时，实现验证。

图9是说明由剪接变体确定服务202实现的验证结点的实施方案的流程图。验证图9中所示的结点900的过程开始于框902处，其中确定来自样品的第一RNA读段的结点。在具体的实施方案中，该样品可以是上面结合图6进一步讨论的单个样品和如结合框612、614和616讨论的由单个样品确定的结点。此外，在验证分析下的结点可以是从第一RNA读段确定的结点。此外，结合图4进一步讨论确定结点的过程。

进一步参考图9，在框904处，可以从样品确定来自RNA读段的另外结点。如上所讨论，单个样品可具有多个RNA读段。这些RNA读段可以用作支持结点读段，其包括与第一读段相比过剩的结点。此外，样品可以是上面结合图6进一步讨论的单个样品和如结合框612、614和616讨论的从单个样品确定的结点。此外，结合图4进一步讨论确定结点的过程。

进一步参考图9，在框906处，剪接变体确定服务202确定来自另外的RNA读段的另外结点是否存在足够的重叠计数。足够的重叠计数可以是能够归属为验证的重叠支持结点读段的阈值计数(诸如但不限于2、3、4、5、6、7、8、9或10个重叠支持结点读段)。

如果确定存在足够的重叠计数，则该过程前进到框908，其中框902中参考的结点被归属为经验证(或经验证的过滤的样品结点)。

如果确定不存在足够的重叠计数，则该过程返回到框904，其中可以从样品确定来自RNA读段的另外结点。

示例性实施方案

图10是流程图，其附有确定可能的致癌结点的实施方案的概念图。图10的流程图示出了实施方案，其中指示非癌性剪接变体的第三方结点被用作经由基线分析进行的剪接变体确定的一部分。这些指示非癌性剪接变体的第三方结点可以从从头的剪接变体召集来确定，与从健康(非肿瘤组织)样品的交叉样品确定的基线结点形成对比。

与流程图1000并置的是图示1050，其表示流程图1000的每个框。

图10中所示的致癌剪接变体确定1000的过程开始于框614处，其中比对来自单个肿瘤样品的RNA读段，如以上结合图6所讨论的。

在框616处，从框614的RNA读段确定样品结点，如以上结合图6进一步讨论的。

在框1002处，去除与第三方结点重叠的样品结点。如上所讨论，这些表示非癌性剪接变体的第三方结点可以从从头的剪接变体召集确定，与由健康(非肿瘤组织)样品的交叉样品确定的基线结点的基线参考形成对比。根据框1002去除与第三方结点重叠的样品结点可以以类似于如结合图8所讨论的去除样品结点和基线结点重叠824的过程的方式执行，但其中(图8的)基线结点是第三方结点，并且(图8的)过滤的样品结点是去除与第三方结点重叠的样品结点后剩余的第三方过滤的样品结点。

进一步参考图10，在框1004处，通过去除具有基线结点重叠的第三方过滤的样品结点来收集基线第三方过滤的样品结点。根据框1004去除与基线结点重叠的第三方过滤的样品结点可以以与如结合图8所讨论的去除样品结点和基线结点重叠824的过程类似的方式执行，但是其中(图8的)样品结点是第三方过滤的样品结点，并且(图8的)过滤的样品结点是去除与基线结点重叠的第三方过滤的样品结点后剩余的基线第三方过滤的样品结点。

进一步参考图10，在框1006处，验证基线第三方过滤的样品结点。根据框1006对基线第三方过滤的样品结点的验证可以以与如结合图9所讨论的验证结点900的过程类似的方式执行，但是其中来自(图9的)第一RNA读段的结点是基线第三方过滤的样品结点，并且在框908中归属为验证的结点是经验证的基线第三方过滤的样品结点。

在框1008处，可以存储经验证的基线第三方过滤的样品结点。经验证的基线第三方过滤的样品结点的存储可以以与结合图8的框830讨论的过滤的样品结点的存储类似的方式执行，但是其中存储经验证的基线第三方过滤的样品结点，而不是过滤的样品结点。经验证的基线第三方过滤的样品结点可存储在任何数据结构中，诸如但不限于所示实施方案中的变体召集格式(VCF)文件。VCF文件包含至少元-信息行、标题行，并然后包含数据行，其各自含有与至少一个验证的过滤的样品结点相关联的坐标。

如上所述，过滤的样品结点(诸如如上所讨论的经验证的基线第三方过滤的样品结点)可以被确定为除了不与如上所讨论的基线结点重叠之外还不与第三方结点重叠的样品结点。尽管框1002、框1004和框1006以图10的流程图1000内的特定顺序发生，但框1002、框1004和框1006可以在确定过滤的样品结点的任何点处发生，其中依赖性被相应地调整。

图11是示出来自图10的实施方案的实验结果的表格。如图11所示，剪接变体(结点)针对跨越组织类型(肺、肾上腺、膀胱、乳房、卵巢、肝脏、前列腺、皮肤和脾)的交叉样品的，71种不同的交叉验证的正常、健康(非肿瘤)样品进行作图。生成由10个样品组成的七个不同的交叉验证集以测试并从剩余的61个生成基线参考。通过首先去除第三方结点重叠并然后去除基线结点重叠来执行过滤。如图11所示，相对于去除第三方结点重叠后，在去除基线结点重叠后，具有更少数量的剪接变体。这表示与去除与第三方结点重叠的样品结点相比，新结点(过滤的样品结点或候选致癌事件)的数量有更大程度的减少。实际上，在经历经由基线分析进行的致癌剪接变体确定后，很少有新结点仍然为过滤的样品结点。

检测表现/极限

对于RNA中的变体，检测极限可以是除了表达的特定剪接变体之外，受影响的转录物表达多少的函数。可以使用数字液滴PCR(ddPCR)检测每ng RNA的融合拷贝数中的有效检测极限，以估计在特定FFPE样品中表达了多少剪接变体转录物。

为了证明经由基线分析进行的致癌剪接变体确定的表现，在FFPE肿瘤样品中鉴定了三种剪接变体(EGFRviii、ARv7和MET外显子14跳跃)，然后使用ddPCR测量。如果剪接变体的表达水平足够高，则将这些样品滴定低至每ng RNA 2个拷贝。根据这一数据，经由基线分析进行的致癌剪接变体确定在低至每ng RNA13个拷贝的情况下召集至少一种剪接变体(EGFRviii)。在每ng RNA 5个拷贝时，经由基线分析进行的致癌剪接变体确定正确鉴定了所有三个剪接变体。

测序方法

本文所述的方法可以与各种核酸测序技术结合使用。特别适用的技术是其中核酸附着在阵列中的固定位置使得它们的相对位置不改变并且其中阵列被重复成像的那些技术。这样的实施方案是特别适用的，其中在例如与用于区分一种核苷酸碱基类型与另一种的不同标记一致的不同颜色通道中获得图像。在一些实施方案中，确定目标核酸的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(“SBS”)技术。

SBS技术通常涉及通过针对模板链的重复添加核苷酸对新生核酸链的酶促延伸。在传统的SBS方法中，可以在每次递送中在聚合酶存在下向靶核苷酸提供单个核苷酸单体。然而，在本文所述的方法中，可以在递送中在聚合酶存在下向靶核酸提供多于一种类型的核苷酸单体。

SBS可以利用具有终止子部分的核苷酸单体或缺乏任何终止子部分的那些核苷酸单体。利用缺乏终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸根-标记的核苷酸的测序，如下文进一步详述。在使用缺乏终止子的核苷酸单体的方法中，每个循环中添加的核苷酸的数量通常是可变的并且取决于模板序列和核苷酸递送的模式。对于利用具有终止子部分的核苷酸单体的SBS技术，终止子在如利用双脱氧核苷酸的传统Sanger测序的情况所使用的测序条件下可以是有效不可逆的，或终止子在如由Solexa(现为Illumina,Inc.)开发的测序方法的情况下可以是可逆的。

SBS技术可以利用具有标签部分的核苷酸单体或缺乏标签部分的那些核苷酸单体。因此，可以根据标签的特征来检测掺入事件，诸如标签的荧光；核苷酸单体的特征诸如分子量或电荷；掺入核苷酸的副产物，诸如焦磷酸根的释放等。在其中两种或更多种不同的核苷酸存在于测序试剂的实施方案中，不同的核苷酸可以彼此区分，或者可替代地，在所使用的检测技术下，两种或更多种不同的标签可以是不可区分的。例如，测序试剂中存在的不同核苷酸可以具有不同的标签，并且可以使用适当的光学器件来区分它们，如由Solexa(现为Illumina,Inc.)开发的测序方法所例证的。

优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测特定的核苷酸被掺入新生链时，无机焦磷酸盐(PPi)的释放(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.和Nyren,P.(1996)"Real-time DNA sequencing using detection of pyrophosphaterelease."Analytical Biochemistry 242(1),84-9；Ronaghi,M.(2001)"Pyrosequencingsheds light on DNA sequencing."Genome Res.11(1),3-11；Ronaghi,M.,Uhlen,M.和Nyren,P.(1998)"A sequencing method based on real-time pyrophosphate."Science281(5375),363；美国专利第6,210,891号；美国专利第6,258,568号和美国专利第6,274,320号，其公开内容通过引用整体并入本文)。在焦磷酸测序中，释放的PPi可以通过ATP硫酸化酶立即转化为三磷酸腺苷(ATP)来检测，并且经由荧光素酶产生的光子检测产生的ATP水平。待测序的核酸可以附着到阵列中的特征，并且可以对阵列进行成像以捕获由于在阵列的特征处掺入核苷酸而产生的化学发光信号。在用特定核苷酸类型(如A、T、C或G)处理阵列后，可以获得图像。在添加每种核苷酸类型后获得的图像将根据检测到阵列中的哪些特征而不同。图像中的这些差异反映了阵列上的特征的不同序列内容。然而，每个特征的相对位置在图像中将保持不变。可以使用本文所述的方法存储、处理和分析图像。例如，用每种不同的核苷酸类型处理阵列后获得的图像可以用与本文中针对基于可逆终止子的测序方法从不同检测通道获得的图像所例举的相同的方式处理。

在另一种示例性的SBS类型中，循环测序通过逐步添加可逆终止子核苷酸来实现，所述可逆终止子核苷酸含有例如如例如WO 04/018497和美国专利第7,057,026号(其公开内容通过引用并入本文)中所述的可切割或可光漂白的染料标签。该方法由Solexa(现为Illumina Inc.)商业化，并且还描述于WO 91/06678和WO 07/123,744中，其各自通过引用并入本文。荧光标记的终止子的可用性，其中终止可被逆转并且经裂解的荧光标签促进有效的循环可逆终止(CRT)测序。聚合酶也可以是共同工程化的，以有效地掺入这些修饰的核苷酸和从这些修饰的核苷酸延伸。

优选地，在基于可逆终止子的测序实施方案中，标签在SBS反应条件下基本上不抑制延伸。然而，检测标签可以是例如通过切割或降解可去除的。在将标签掺入阵列核酸特征后，可以捕获图像。在具体的实施方案中，每个循环涉及将四种不同核苷酸类型同时递送至阵列，并且每种核苷酸类型具有光谱上不同的标签。然后可以获得四个图像，每个使用对四种不同标签之一具有选择性的检测通道。可替代地，可以依序添加不同的核苷酸类型，并且可以在每个添加步骤之间获得阵列的图像。在此类实施方案中，每个图像将显示具有特定类型的掺入核苷酸的核酸特征。由于每个特征的不同序列内容，在不同的图像中将存在或不存在不同的特征。然而，特征的相对位置在图像中将保持不变。从此类可逆终止子-SBS方法获得的图像可以如本文所述进行储存、处理和分析。在图像捕获步骤之后，可以去除标签并且可以去除可逆终止子部分用于随后的核苷酸添加和检测循环。在特定循环中和在后续循环之前检测标签之后去除标签可以提供减少本底信号和循环之间串扰的优点。有用标签和去除方法的实例如下所述。

在具体的实施方案中，核苷酸单体的一些或全部可以包括可逆的终止子。在此类实施方案中，可逆终止子/可切割的荧光可包括经由3'酯键与核糖部分连接的荧光(Metzker,Genome Res.15:1767-1776(2005)，其通过引用并入本文)。其他方法将终止子化学与荧光标签的切割分开(Ruparel等人，Proc Natl Acad Sci USA 102:5932-7(2005)，其通过引用整体并入本文)。Ruparel等人描述了使用小的3'烯丙基基团进行框延伸的可逆终止子的发展，但是可以通过用钯催化剂的短暂处理容易地解封。荧光团通过光可裂解的接头附接至碱基，所述接头可以通过30秒暴露于长波长紫外线轻易地切割。因此，二硫化物还原或光裂解可用作可切割的接头。可逆终止的另一种方法是使用在dNTP上放置大体积染料后随后发生的自然终止。在dNTP上存在带电的大体积染料可以通过空间和/或静电阻碍用作有效的终止子。除非染料被去除，否则一种掺入事件的存在阻止进一步的掺入。染料的切割去除了荧光并有效地逆转了终止。美国专利第7,427,673号和美国专利第7,057,026号中也描述了经修饰的核苷酸的实例，其公开内容通过引用整体并入本文。

可以与本文所述的方法和系统一起使用的另外的示例性SBS系统和方法描述于美国专利申请公布第2007/0166705号、美国专利申请公布第2006/0188901号、美国专利第7,057,026号、美国专利申请公布第2006/0240439号、美国专利申请公布第2006/0281109号、PCT公布第WO 05/065814号、美国专利申请公布第2005/0100900号、PCT公布第WO 06/064199号、PCT公布第WO 07/010,251号、美国专利申请公布第2012/0270305号和美国专利申请公布第2013/0260372号，其公开内容通过引用整体并入本文。

一些实施方案可以利用使用少于四种不同的标签进行的四种不同核苷酸的检测。例如，SBS可以利用美国专利申请公布第2013/0079232号的引入材料中描述的方法和系统进行。作为第一个实例，可以在相同波长下检测一对核苷酸类型，但是基于该对中的一个成员与另一个成员相比的强度差异，或者基于导致与对该对中的另一成员检测到的信号相比明显的信号出现或消失的针对该对的一个成员的变化(如经由化学修饰、光化学修饰或物理修饰)来区分。作为第二个实例，在特定条件下可以检测到四个不同的核苷酸类型中的三个，而第四核苷酸类型缺少在那些条件下可检测或者在那些条件下最低限度地检测到(如，由于本底荧光导致的最低限度的检测等)的标签。可以基于它们各自信号的存在来确定前三个核苷酸类型掺入核酸，并且可以基于任何信号的不存在或最低限度的检测来确定第四核苷酸类型掺入核酸。作为第三个实例，一个核苷酸类型可以包含在两个不同通道中检测到的一个或多个标签，而在不多于一个通道中检测到其他核苷酸类型。上述三个示例性构造不被认为是相互排斥的，并且可以以各种组合使用。组合所有三个实例的示例性实施方案是基于荧光的SBS方法，其使用在第一通道中检测到的第一核苷酸类型(如具有当被第一激发波长激发时在第一通道中检测到的标签的dATP)、在第二通道中检测到的第二核苷酸类型(如具有当被第二激发波长激发时在第二通道中检测到的标签的dCTP)、在第一和第二通道中检测到的第三核苷酸类型(如具有当被第一和/或第二激发波长激发时在两个通道中检测到的至少一个标签的dTTP)和在任一通道中检测不到或以最低限度检测到的缺少标签的第四核苷酸类型(如没有标签的dGTP)。

此外，如美国专利申请公布第2013/0079232号的并入材料所述，可以使用单个通道获得测序数据。在此类所谓的单染料测序方法中，第一核苷酸类型被标记，但标签在生成第一图像后被去除，并且第二核苷酸类型仅生成在第一图像后被标记。第三核苷酸类型在第一图像和第二图像中都保留了它的标签，并且第四核苷酸类型在两个图像中仍然保持不标记。

一些实施方案可以利用通过连接技术进行的测序。此类技术利用DNA连接酶掺入寡核苷酸并鉴定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的身份相关的不同标签。与其他SBS方法一样，可以在用标记的测序试剂处理核酸特征阵列后获得图像。每个图像将显示掺入特定类型的标签的核酸特征。由于每个特征的不同序列内容，在不同的图像中将存在或不存在不同的特征，但是特征的相对位置在图像中将保持不变。从基于连接的测序方法获得的图像可以如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法描述于美国专利第6,969,488号、美国专利第6,172,218号和美国专利第6,306,597号，其公开内容通过引用整体并入本文。

一些实施方案可以利用纳米孔测序(Deamer,D.W.&Akeson,M."Nanopores andnucleic acids:prospects for ultrarapid sequencing."Trends Biotechnol.18,147-151(2000)；Deamer,D.和D.Branton,"Characterization of nucleic acids by nanoporeanalysis".Acc.Chem.Res.35:817-825(2002)；Li,J.,M.Gershow,D.Stein,E.Brandin,和J.A.Golovchenko,"DNA molecules and configurations in a solid-state nanoporemicroscope"Nat.Mater.2:611-615(2003)，其公开内容通过引用整体并入本文)。在此类实施方案中，靶核酸通过纳米孔。纳米孔可以是合成的孔或生物膜蛋白，诸如α-溶血素。当靶核酸通过纳米孔时，可以通过测量孔的电导的波动来鉴定每个碱基对。(美国专利第7,001,792号；Soni,G.V.&Meller,"A.Progress toward ultrafast DNA sequencing usingsolid-state nanopores."Clin.Chem.53,1996-2001(2007)；Healy,K."Nanopore-basedsingle-molecule DNA analysis."Nanomed.2,459-481(2007)；Cockroft,S.L.,Chu,J.,Amorin,M.&Ghadiri,M.R."A single-molecule nanopore device detects DNApolymerase activity with single-nucleotide resolution."J.Am.Chem.Soc.130,818-820(2008)，其公开内容通过引用整体并入本文)。可以如本文所述存储、处理和分析从纳米孔测序获得的数据。特别地，根据光学图像和本文所述的其他图像的示例性处理，可以将数据处理为图像。

一些实施方案可以利用涉及DNA聚合酶活性的实时监测的方法。核苷酸掺入可以如美国专利第7,329,492号和第7,211,414号(各自通过引用并入本文)所述通过携带荧光团的聚合酶和γ-磷酸根标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测，或核苷酸掺入可以用如美国专利第7,315,019号(其通过引用并入本文)所述的零模式波导和使用如例如美国专利第7,405,281号和美国专利申请公布第2008/0108082号(各自通过引用并入本文)所述的荧光核苷酸类似物和经工程化的聚合酶来检测。可以将照射限制在表面束缚聚合酶周围的仄升规模(zeptoliter-scale)体积，使得可以在低本底下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人"Zero-mode waveguides for single-moleculeanalysis at high concentrations."Science 299,682-686(2003)；Lundquist,P.M.等人"Parallel confocal detection of single molecules in real time."Opt.Lett.33,1026-1028(2008)；Korlach,J.等人"Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures."Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)，其公开内容通过引用整体并入本文)。从此类方法获得的图像可以如本文所述进行储存、处理和分析。

一些SBS实施方案包括在将核苷酸掺入延伸产物中后释放的质子的检测。例如，基于检测释放的质子的测序可以使用可从Ion Torrent(Guilford，CT，Life Technologies子公司)商购获得的电子检测器和相关技术，或US 2009/0026082 A1；US 2009/0127589 A1；US 2010/0137143 A1；或US 2010/0282617 A1中描述的测序方法和系统，其各自通过引用并入本文。本文所述的使用动力学排除法扩增靶核酸的方法可以容易地应用于用于检测质子的底物。更具体地，本文所述的方法可用于产生用于检测质子的扩增子克隆群。

以上SBS方法可以有利地以多重格式进行，使得多个不同的靶核酸被同时操作。在具体的实施方案中，可以在共同的反应容器中或在特定基板的表面上处理不同的靶核酸。这允许方便地递送测序试剂，去除未反应的试剂和以多重方式检测掺入事件。在使用表面结合的靶核酸的实施方案中，靶核酸可以呈阵列格式。在阵列格式中，靶核酸通常可以以空间可区分的方式结合到表面。靶核酸可以通过直接共价附接、附接至珠或其他颗粒或者结合至聚合酶或附接至表面的其他分子来结合。阵列可以包括每个位点(还被称为特征)处的靶核酸的单个拷贝，或者可以在每个位点或特征处存在具有相同序列的多个拷贝。多个拷贝可以通过扩增方法产生，诸如桥扩增或乳液PCR，如下面进一步详细描述的。

本文所述的方法可使用具有各种密度中任一种的特征的阵列，包括例如至少约10个特征/cm2、100个特征/cm2、500个特征/cm2、1,000个特征/cm2、5,000个特征/cm2、10,000个特征/cm2、50,000个特征/cm2、100,000个特征/cm2、1,000,000个特征/cm2、5,000,000个特征/cm2或更高。

本文所述的方法的一个优点是它们并行地提供多个靶核酸的快速且有效的检测。因此，本公开提供了能够使用本领域已知的技术如上面例举的那些制备和检测核酸的集成系统。因此，本公开的集成系统可以包括能够递送扩增试剂和/或测序试剂至一个或多个固定的DNA片段的流体组件，该系统包括组件，诸如泵、阀、贮存器、流体线等。流动池可以被配置和/或用于集成系统中以检测靶核酸。例如，在US 2010/0111768 A1和US系列号13/273,666中描述了示例性流动池，其各自通过引用并入本文。如流动池所示例，集成系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序实施方案为例，集成系统的一个或多个流体组件可用于本文所述的扩增方法，并用于测序方法中的测序试剂递送，诸如上文所例举的那些。可替代地，集成系统可以包括单独的流体系统来执行扩增方法和执行检测方法。能够产生扩增核酸并且还确定核酸序列的集成测序系统的实例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)和US系列号13/273,666(其通过引用并入本文)中描述的设备。

如上所介绍，经由诸如以上测序方法的方法从样品中检测到的核苷酸可以被称为来自样品的读段。

可替代的方案

根据实施方案，本文描述的任何算法的某些动作、事件或功能可以以不同的顺序执行，可以被添加、合并或完全省略(如，并非所有描述的动作或事件都必需用于算法的实践)。此外，在某些实施方案中，动作或事件可以同时执行，如通过多线程读取处理、中断处理或多处理器、或处理器核或其他并行体系结构，而不是依序执行。

结合本文公开的实施方案描述的各种说明性逻辑块、模块和算法步骤可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上面已经就其功能性一般性地描述了各种说明性的组、块、模块和步骤。此类功能性是否实现为硬件或软件取决于特定应用和强加于整个系统的设计约束。所描述的功能性可以针对每个特定应用以不同方式实现，但是此类实现决策不应被解释为导致脱离本公开的范围。

结合本文公开的实施方案描述的各种说明性逻辑块和模块可以由经设计用于执行本文所述的功能的机器实现或执行，诸如通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件组件或其任何组合。通用处理器可以是微处理器，但是在替代方案中，处理器可以是控制器、微控制器或状态机、它们的组合等。处理器也可以实现为计算设备的组合，如，DSP和微处理器的组合，多个微处理器，一个或多个微处理器结合DSP核，或者任何其他此类构造。

结合本文公开的实施方案描述的方法、过程或算法的元件可直接体现为硬件、由处理器执行的软件模块或两者的组合。软件模块可以驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中已知的任何其他形式的计算机可读存储介质中。存储介质可以耦合到处理器，使得处理器可以从存储介质读取信息，并将信息写入存储介质。在替代方案中，存储介质可以集成至处理器。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，处理器和存储介质可以作为离散组件驻留在用户终端中。

除非另有明确说明或者在所使用的上下文中以其他方式理解，否则本文使用的条件语言，尤其诸如“可以”、“可能”、“可以”、“如”等通常旨在表达某些实施方案包括，而其他实施方案不包括某些方面、要素和/或状态。因此，此类条件语言通常不意在暗示一个或多个实施方案以任何方式需要特征、要素和/或状态，或者一个或多个实施方案必须包括用于决定的逻辑，无论是否有作者输入或者提示，是否包括这些特征、要素和/或状态，或者是否要在任何特定的实施方案中执行这些特征、要素和/或状态。术语“包含”、“包括”、“具有”、“涉及”等是同义词并且以开放式方式包含使用，并且不排除另外的要素、特征、动作、操作等。此外，术语“或”就其包含意义使用(而不是就其独有意义)，因此当使用以例如连接元素列表时时，术语“或”意指列表中的一个、部分或全部要素。

除非另外特别说明，否则析取语言诸如短语”X、Y或Z中的至少一个”在上下文中被理解为通常用于表示项目，术语等可以是X、Y或Z，或其任何组合(如，X，Y和/或Z)。因此，此类析取语言通常并不意味着，也不应该暗示某些实施方案要求每个存在至少一个X、至少一个Y或至少一个Z。

除非另有明确说明，否则诸如“一个”或“一种”的不定冠词通常应被解释为包括一个或多个所描述的项目。因此，短语诸如“一种经配置的设备”旨在包括一个或多个所述设备。此类一个或多个所述设备也可以共同地配置以执行所述的叙述。例如，“一种经配置以执行叙述A、B和C的处理器”可以包括经配置以执行叙述A的第一处理器结合经配置以执行叙述B和C的第二处理器工作。

虽然以上详述已经示出、描述并指出了应用于各种实施方案的新特征，但是应当理解，所示设备或算法的形式和细节的各种省略、取代和变化可以在不脱离本公开的精神的情况下做出。如将认识到的，本文描述的某些实施方案可以体现为不提供本文所述的所有特征和益处的形式，因为一些特征可以与其他特征分开使用或实践。在权利要求的等同含义和范围内的所有变化都应包含在其范围内。

来自任何实例的技术可以与任何一个或多个其他实例中描述的技术组合。鉴于可以应用所公开技术的原理的许多可能的实施方案，应该认识到所示的实施方案是所公开的技术的实例，并且不应该被视为对所公开的技术的范围的限制。相反，所公开的技术的范围包括以下权利要求所涵盖的内容。所有属于权利要求的范围和精神的内容都是因此要求保护的。

Claims

1.用于鉴定剪接变体的系统，其包括：

存储器；

至少一个处理器；和

至少一个非暂时性计算机可读介质，其含有指令，所述指令当由所述至少一个处理器执行时导致所述至少一个处理器执行操作，所述操作包括：

从来自单个生物样品的多个RNA序列读段确定一个或多个样品剪接点；

检索基线剪接点组，所述基线剪接点组从多个健康RNA样品确定；

比较所述一个或多个样品剪接点与所述基线剪接点组；和

鉴定一个或多个过滤的样品剪接点，所述过滤的样品剪接点包括不与所述基线剪接点组重叠的样品剪接点，

其中所述过滤的样品剪接点是候选致癌事件。

2.如权利要求1所述的系统，其还包括输出候选致癌事件列表。

3.如权利要求1或权利要求2所述的系统，其中所述多个健康RNA样品包括取自以下中的一种或多种的交叉样品的健康RNA样品：地理区域、年龄、性别、族群、组织类型或样品保存质量。

4.如权利要求1-3中任一项所述的系统，其中所述多个健康RNA样品包括来自选自以下的一个或多个组织类型的样品：肺、肾上腺、膀胱、乳房、卵巢、肝脏、前列腺、皮肤和脾。

5.如权利要求1-4中任一项所述的系统，其中所述多个健康RNA样品包括来自跨越年龄段的供体的样品。

6.如权利要求1-5中任一项所述的系统，其中来自所述多个健康RNA样品的所述基线剪接点在确定来自所述单个样品的所述样品结点之前进行确定。

7.如权利要求1-6中任一项所述的系统，其中用于所述基线剪接点的所述多个健康RNA样品不是从与所述单个生物样品相同的生物对象获得的。

8.如权利要求1-7中任一项所述的系统，其中所述基线结点来自与所述样品结点相同的基因组区域。

9.如权利要求1-8中任一项所述的系统，其中所述单个生物样品来自肿瘤样品。

10.如权利要求9所述的系统，其中所述多个健康RNA样品来自非肿瘤组织。

11.如权利要求1-10中任一项所述的系统，其中所述样品剪接点和所述基线剪接点均使用共同的测定来确定。

12.如权利要求1-11中任一项所述的系统，其中确定所述一个或多个样品结点包括：

确定来自所述单个生物样品的所述多个RNA序列读段；

检索与来自所述单个生物样品的所述RNA序列读段对齐的DNA参考序列；和

确定一个或多个样品结点为与所述DNA参考相比在所述RNA读段中缺失的连续位置。

13.如权利要求1-12中任一项所述的系统，其中所述过滤的样品剪接点不与第三方结点重叠，所述第三方结点从捕获给定基因的外显子的多个可替代组合的剪接图中确定。

14.如权利要求1-13中任一项所述的系统，其中所述基线剪接点组在不确定捕获给定基因的外显子的多个可替代组合的剪接图的情况下确定。

15.计算机实施的方法，其包括：

使用至少一个处理器从来自单个生物样品的多个RNA序列读段确定一个或多个样品剪接点；

由所述至少一个处理器从存储器检索从多个健康RNA样品确定的基线剪接点组；

比较所述一个或多个样品剪接点与所述基线剪接点组；和

由所述至少一个处理器鉴定一个或多个过滤的样品剪接点，所述过滤的样品剪接点包括不与所述基线剪接点重叠的样品剪接点，

其中所述一个或多个过滤的样品剪接点是候选致癌事件。

16.如权利要求15所述的方法，其还包括输出候选致癌事件列表。

17.如权利要求15或权利要求16所述的方法，其还包括：

由所述至少一个处理器确定来自所述单一样品的RNA读段；

由所述至少一个处理器从所述存储器检索与来自所述单个样品的RNA序列读段对齐的DNA参考；和

由所述至少一个处理器确定所述样品结点为与所述DNA参考相比在所述RNA读段中缺失的连续位置。

18.如权利要求15-17中任一项所述的方法，其中所述多个健康RNA样品包括取自以下中的一种或多种的交叉样品的健康RNA样品：地理区域、年龄、性别、族群、组织类型或样品保存质量。

19.如权利要求15-18中任一项所述的方法，其中用于所述基线剪接点的所述多个健康RNA样品不是从与所述单个生物样品相同的生物对象获得的。

20.如权利要求15-19中任一项所述的方法，其中所述过滤的样品剪接点不与第三方结点重叠，所述第三方结点从捕获给定基因的外显子的多个可替代组合的剪接图中确定。