CN114730611A

CN114730611A - 用于增强变异体识别性能和表征变异体表达状态的组合dna-rna测序分析的方法和系统

Info

Publication number: CN114730611A
Application number: CN202080078668.1A
Authority: CN
Inventors: 张贻谦; 吴捷; N·迪米特洛瓦
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-11-12
Filing date: 2020-11-05
Publication date: 2022-07-08
Also published as: US20220399079A1; WO2021094175A1

Abstract

一种用于表征从基因组样品中鉴定的变异体的变异体表达状态的方法(100)，包括：(i)获取(110)基因组样品的DNA测序数据；(ii)获取(110)基因组样品的RNA测序数据，其中所获取的RNA测序数据还包括每个变异体的表达数据；(iii)将比对DNA和RNA测序数据合并(130)成合并比对；(iv)相对于参考基因组来鉴定(140)多个变异体以生成一组变异体；(v)表征(150)至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类，多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息和变异体的参考等位基因的表达信息(如果有的话)；以及(vi)生成(160)包括变异体的所表征的表达状态的报告。

Description

用于增强变异体识别性能和表征变异体表达状态的组合DNA- RNA测序分析的方法和系统

技术领域

本公开总体上涉及用于改进遗传变异体识别和表征变异体表达的方法和系统。

背景技术

随着利用不同类型的分子信息的技术变得更容易以更低成本可获取，为同一样品生成多种类型的组学数据(例如，基因组、转录组、蛋白质组和表观基因组)变得越来越普遍。这可以更好地理解潜在的复杂生物系统。诸如

Vantage 3D和

TruSight Tumor 170(其分别基于

和下一代测序(NGS)技术，支持同时提取DNA、RNA和甚至蛋白质数据)等商业化检测产品的推出进一步推动了对多组学数据分析的需求。虽然可以通过不同生物信息学管道在单独的孤岛(silo)中分析不同类型的组学数据，但这种主流方法未能利用这些数据在分子水平的功能关系。它也未能对个体异常的功能或甚至病理影响生成新的见解。

DNA和RNA测序是用于分析(profile)基因组和转录组的主要技术。DNA测序主要用于变异体识别，而RNA测序主要用于测量基因和转录表达水平。然而，诸如单核苷酸变异体(SNV)等突变也可以从RNA测序数据中获取，并且RNA测序变异体的信息与DNA测序变异体的信息相似。特别是对于基因融合检测，RNA测序实际上是主流方法。以这种方式使用RNA测序数据提供了交叉验证或改进突变检测的机会，并且提供了进一步研究它们的转录丰度和功能影响的机会。这种改进是必要的，因为变异体识别可能是有问题的，并且它们的功能多半是未知的。事实上，诸如样品质量、实验过程和测序覆盖率等因素都会影响变异体识别质量、灵敏度和特异性。

发明内容

持续地需要能够整合多组学数据以改进变异体识别和表征的方法和系统。本公开涉及用于表征从基因组样品中鉴定的多个变异体的变异体表达状态的创造性方法和系统。本文中的各种实施例和实现涉及一种将比对RNA测序数据和比对DNA测序数据合并成单个合并比对的系统和方法。然后在单个合并比对中鉴定变异体，并且鉴定满足预定最小读段计数阈值的变异体子集。使用来自RNA测序的表达数据来表征变异体子集，以将RNA编辑和表达状态分配给每个变异体。表达状态包括多个等位基因特异性表达分类中的一个，多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息，并且如果有的话，包括变异体的参考等位基因的表达信息。生成包括子集内的多个变异体中的一个或多个变异体的所表征的表达状态的报告。

总体上，在一方面中，一种用于使用变异体分析系统表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法。该方法包括：(i)获取基因组样品的DNA测序数据，DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据；(ii)获取基因组样品的RNA测序数据，RNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对RNA测序数据，并且其中所获取的RNA测序数据还包括每个变异体的表达数据；(iii)将比对RNA测序数据和比对DNA测序数据合并成单个合并比对，其中每个读段包括源鉴定符；(iv)在单个合并比对中鉴定相对于参考基因组的多个变异体以生成一组变异体，多个变异体包括多个不同变异体类型；(5)使用表达数据表征该组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中表达状态包括多个等位基因特异性表达分类中的一个，等位基因特异性表达分类包括变异体的替代等位基因的表达信息，并且如果有的话，包括变异体的参考等位基因的表达信息；以及(vi)生成报告，该报告包括该组变异体内的多个变异体的所表征的表达状态。

根据一个实施例，多个变异体是使用RNA测序数据变异体识别基本流程来鉴定的。

根据一个实施例，多个不同变异体类型至少包括单核苷酸变异体、插入、缺失、拷贝数变异体和基因融合。

根据一个实施例，所获取的RNA测序数据包括基因表达数据、转录表达数据、外显子表达数据、剪接数据和/或等位基因特异性表达数据。

根据一个实施例，多个等位基因特异性表达分类中的每个包括相对于变异体的参考等位基因的表达信息来描述变异体的替代等位基因的表达信息的鉴定符，并且其中存在多个不同鉴定符。根据一个实施例，多个不同鉴定符包括以下中的一项或多项：未表达位点、未表达变异体、纯合表达变异体、上调表达变异体、下调表达变异体、中性表达变异体、具有不一致性的表达变异体、具有不一致性的未表达变异体、低置信度的RNA编辑和高置信度的RNA编辑。

根据另一方面，一种用于表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的系统。该系统包括：基因组样品的DNA测序数据，DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据；基因组样品的RNA测序数据，RNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对RNA测序数据，其中所获取的RNA测序数据还包括每个变异体的表达数据；处理器，被配置为：(i)将比对RNA测序数据和比对DNA测序数据合并成单个合并比对；(ii)在单个合并比对中鉴定相对于参考基因组的多个变异体以生成一组变异体，多个变异体包括多个不同变异体类型；(iii)使用表达数据表征该组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中表达状态包括多个等位基因特异性表达分类中的一个，等位基因特异性表达分类包括变异体的替代等位基因的表达信息和变异体的参考等位基因的表达信息(如果有的话)；以及(iv)生成报告，该报告包括该组变异体内的多个变异体的所表征的RNA编辑和/或表达状态；以及被配置为提供所生成的报告的用户接口。

根据另一方面，是一种用于使用变异体分析系统表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法。该方法包括：(i)获取基因组样品的DNA测序数据，DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据；(ii)获取基因组样品的RNA测序数据，RNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对RNA测序数据，并且其中所获取的RNA测序数据还包括每个变异体的表达数据；(iii)鉴定DNA测序数据中的多个变异体和RNA测序数据中的多个变异体以生成一组DNA变异体和一组RNA变异体，多个变异体中的每个变异体包括多个不同变异体类型；(iv)将该组DNA变异体和该组RNA变异体合并成单组变异体，或者使用另一测序数据类型的变异体验证DNA测序数据中的多个变异体或RNA测序数据中的多个变异体以生成单组变异体；(v)使用表达数据表征该组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中表达状态包括多个等位基因特异性表达分类中的一个，等位基因特异性表达分类包括变异体的替代等位基因的表达信息，并且如果有的话，包括变异体的参考等位基因的表达信息；(vi)生成报告，该报告包括一组变异体内的多个变异体的所表征的RNA编辑和/或表达状态。

在各种实现中，处理器或控制器可以与一种或多种存储介质(在本文中通常称为“存储器”，例如易失性和非易失性计算机存储器，诸如RAM、PROM、EPROM和EEPROM、软盘、光盘、光盘、磁带等)相关联。在一些实现中，存储介质可以用一个或多个程序编码，该程序当在一个或多个处理器和/或控制器上执行时执行本文中讨论的功能中的至少一些。各种存储介质可以固定在处理器或控制器内，或者可以是可运输的，使得存储在其上的一个或多个程序可以加载到处理器或控制器中，从而实现如本文中讨论的各个方面。术语“程序”或“计算机程序”在本文中以一般意义使用以指代可以用于对一个或多个处理器或控制器进行编程的任何类型的计算机代码(例如，软件或微代码)。

应当理解，前述概念和以下更详细讨论的附加概念的所有组合(假定这样的概念不相互矛盾)被认为是本文中公开的发明主题的一部分。特别地，出现在本公开末尾的所要求保护的主题的所有组合都被认为是本文中公开的发明主题的一部分。还应当理解，本文中明确使用的也可能出现在通过引用并入的任何公开中的术语应当被赋予与本文中公开的特定概念最一致的含义。

各种实施例的这些和其他方面将从下文描述的实施例中变得明显并且参考下文中描述的实施例来阐明。

附图说明

在附图中，相同的附图标记在整个不同视图中通常指代相同的部分。此外，附图不一定按比例绘制，而是通常将重点放在说明各种实施例的原理上。

图1是根据一个实施例的用于改进基因组样品中的变异体检测和表征变异体的变异体表达状态的方法的流程图。

图2是根据一个实施例的用于改进基因组样品中的变异体检测和表征变异体的变异体表达状态的方法的流程图。

图3是根据一个实施例的用于改进基因组样品中的变异体检测和表征变异体的变异体表达状态的方法的流程图。

图4是根据一个实施例的用于改进基因组样品中的变异体检测和表征变异体的变异体表达状态的方法的流程图。

图5是根据一个实施例的用于表征变异体的等位基因特异性表达的方法的流程图。

图6A是根据一个实施例的由于低DNA覆盖率而导致的假阳性RNA编辑变异体的RNA(上轨道)和DNA(下轨道)读段比对的示例。

图6B是根据一个实施例的由于低质量或不明确的DNA读段而导致的假阳性RNA编辑变异体的RNA(上轨道)和DNA(下轨道)读段比对的示例。

图6C是根据一个实施例的由足够数目的良好质量DNA读段支持的真实RNA编辑变异体的RNA(上轨道)和DNA(下轨道)读段比对的示例。

图7是根据一个实施例的用于分析可能的RNA编辑的方法的流程图。

图8是根据一个实施例的用于分析基因组的系统的示意图。

具体实施方式

本公开描述了用于将RNA编辑和表达状态分配给在合并的DNA和RNA测序中鉴定的变异体的系统和方法的各种实施例。更一般地，申请人已经认识到并且理解，提供一种整合DNA和RNA测序数据以改进变异体识别和表征的方法将是有益的。可以可选地包括测序平台的该系统生成或接收基因组样品的DNA测序数据和RNA测序数据。该系统将比对DNA测序数据和比对RNA测序数据合并成单个合并比对。然后在单个合并比对中鉴定变异体，并且鉴定满足预定最小读段计数阈值的具有足够质量的变异体子集。该系统使用来自RNA测序的表达数据来表征子集中的每个变异体，以将RNA编辑和表达状态分配给每个变异体。表达状态包括多个等位基因特异性表达分类中的一个，多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息，并且如果有的话，包括变异体的参考等位基因的表达信息。该系统然后生成报告，该报告包括子集内的多个变异体中的一个或多个变异体的所表征的表达状态。

根据一个实施例，本文中描述或以其他方式设想的方法可以：(i)通过使用质量控制(QC)过滤合并变异体，提高变异体识别准确性，包括从多个数据源(诸如DNA测序和RNA测序数据)检测到的SNV、插入缺失、融合，以及(ii)基于其等位基因特异性读段计数或表达来提供有关每个变异体的RNA编辑和表达状态的信息，诸如未表达位点/变异体、表达变异体(纯合/上调/下调/中性)、具有不一致性的表达/未表达变异体、和高/低置信度的RNA编辑，以及其他改进和目标。

参考图1，在一个实施例中，是一种用于使用变异体分析系统表征基因组样品中的变异体的变异体表达状态的方法100的流程图。变异体分析系统可以是本文中描述或以其他方式设想的任何系统，并且可以包括本文中描述或以其他方式设想的任何组件。

在该方法的步骤110，变异体分析系统生成和/或接收遗传样品的DNA和RNA测序数据。遗传样品可以是来自任何生物体的任何遗传样品，包括人类、致病和非致病生物体等。众所周知，对遗传样品的来源没有限制。

根据一个实施例，变异体分析系统包括DNA和/或RNA测序平台，该DNA和/或RNA测序平台被配置为从遗传样品中获取测序数据。测序平台可以是任何测序平台，包括但不限于本文中描述或以其他方式设想的任何系统。用于测序的样品和/或其中的核酸可以使用任何制备方法制备，这可以至少部分取决于测序平台。根据一个实施例，在很多其他制备或处理中，可以提取、提纯和/或扩增核酸。对于一些平台，可以使用用于核酸片段化的任何方法对核酸进行片段化，诸如剪切、超声、酶促片段化和/或化学片段化等，并且可以将核酸连接到测序接头或任何其他分子或连接伙伴。根据一个实施例，变异体分析系统接收遗传样品的DNA和/或RNA测序数据。例如，变异体分析系统可以与包括一个或多个遗传样品的数据库通信或以其他方式从其接收DNA和/或RNA测序数据。

所生成和/或接收的DNA和/或RNA测序数据可以存储在本地或远程数据库中以供变异体分析系统使用。例如，变异体分析系统可以包括用于存储遗传样品的DNA和/或RNA测序数据的数据库，和/或可以与存储测序数据的数据库通信。这些数据库可以与变异体分析系统一起定位或位于变异体分析系统内，或者可以远离变异体分析系统定位，诸如在云存储装置和/或其他远程存储装置中。

所生成和/或接收的DNA和/或RNA测序数据可以包括完整的或大部分完整的基因组，或者可以是部分基因组，或者可以是基因组的一小部分。例如，所生成和/或接收的测序数据可以是组装体、全基因组构建体、不完整基因组、部分基因组、外显子组和/或任何其他测序数据。

所生成和/或接收的DNA和/或RNA测序数据每个包括多个不同变异体类型，包括但不限于单核苷酸变异体、插入、缺失、拷贝数变异体和基因融合。很多其他变异体类型是可能的。可以使用多种系统检测基因融合，包括但不限于带有Breakpointer、FusionMap和/或其他工具的dRanger。可以使用各种系统检测诸如倒位、易位等其他结构变异体，包括但不限于SVDetect、BreakDancer和/或其他工具。

所生成和/或接收的RNA测序数据还包括每个变异体的表达数据，包括但不限于基因表达数据、转录表达数据、外显子表达数据、剪接数据和/或等位基因特异性表达数据。表达数据使用用于从RNA测序数据这样做的任何方法获取、分析、报告和/或存储。表达数据可以包括关于以下各项的信息：等位基因特异性表达(ASE)；等位基因特异性剪接(ASS)；外显子、转录本和基因(包括长链非编码RNA，即lncRNA)表达；差异外显子、转录本和基因(包括lncRNA)表达，或者基于与匹配的正常样品的比较和/或平均表达及其在无关正常组织中的标准偏差；和/或通过运行诸如飞利浦OncoSignal等方法对基因表达和所需要的其他数据进行基因通路活性预测。

如果来源是种系，则所获取的数据可以包括基因型(诸如纯合多数、杂合、纯合少数)、拷贝数(可以与相同背景的健康群体进行比较)和/或其他信息。如果来源是体细胞，则所获取的数据可以包括变异体等位基因频率(VAF)、差异拷贝数变化(与匹配或不相关的正常组织相比)和/或其他信息。

在该方法的可选步骤120，使用质量检查将DNA和RNA测序数据与参考基因组进行比对。用于比对的参考基因组可以是任何参考基因组，诸如标准参考基因组或选自多个可能参考基因组的参考基因组。参考基因组可以从公共或私人参考基因组数据库或储存库中获取，并且可以是变异体分析系统可利用的任何格式。根据一个实施例，参考基因组是FASTA文件，尽管很多其他文件类型是可能的。在其他可能性中，参考基因组可以是基于图的基因组。使用任何比对方法，包括但不限于当前和未来的比对算法或方法，将包括多个测序读段在内的测序数据与参考基因组进行比对。有多种不同工具可用于序列比对，包括专有软件和开源软件两者，并且这些工具中的任何一种都可以用于将多个测序读段与参考基因组进行比对。DNA测序数据和RNA测序数据可以分别与参考基因组进行比对。

该步骤可以是可选的，例如，在DNA和/或RNA测序数据是从其中数据已经与参考数据库进行比对的来源或数据库中获取的情况下。

在该方法的步骤130，将比对RNA测序数据和比对DNA测序数据合并成单个合并比对。因此，将得到单个比对文件，该比对文件具有来自RNA测序数据和DNA测序数据两者的比对读段。可以使用用于整理从多个文件中读取的数据的任何方法将RNA测序数据和DNA测序数据组合成单个比对文件。

根据一个实施例，每个读段与提供读段的来源的鉴定符相关联，使得在变异体识别之后，每个读段可以追溯到源文件或原始文件。例如，来自RNA测序数据的读段可以与指示RNA测序作为读段来源的鉴定符相关联。类似地，来自DNA测序数据的读段可以与指示DNA测序作为读段来源的鉴定符相关联。

在该方法的步骤140，在单个合并比对中鉴定变异体。因此，在单个比对中使用RNA测序和RNA测序数据鉴定变异体。可以使用任何变异体识别算法来鉴定变异体，包括但不限于

Samtools和

等。对于每个变异体，变异体识别算法可以鉴定例如等位基因变异体的位置、该位置的变异体等位基因、和/或该位置的变异体等位基因的频率。变异体等位基因通常包括与参考基因组相对应的一个等位基因(“参考等位基因”)和不同的第二等位基因(“非参考等位基因”或“替代等位基因”)。

虽然主要从DNA测序数据检测基因组变异体，但也可以使用RNA测序数据检测所表达(即，转录成RNA)的变异体。一般地，从RNA测序中提取的变异体信息与DNA测序中的相似。在一些实施例中，当使用RNA测序数据时，可能存在一些差异。例如，突变可能主要位于表达区域(即，主要是外显子区域)，尽管有时突变也可能存在于内含子区域(即，未剪接的转录本)、基因间区域(诸如DNA污染)。这些可能是具有良好质量数据的一小部分。此外，高表达基因将具有更好的突变识别覆盖率，而在DNA测序数据中，覆盖率相对更均匀。特别是对于基因融合检测，RNA测序实际上是使用诸如TopHat-Fusion、STAR-fusion等工具的主流方法。从RNA测序中检测CNV的能力可能仅限于更大规模的CNV。根据一个实施例，通过对变异体识别进行适当的质量控制(QC)，通过在将DNA测序数据和RNA测序数据合并成单个合并比对文件之后来检测变异体，可以提高检测准确性。

根据一个实施例，可以部分地基于预定或可变阈值来确定特定位置处的变异体的确定。因此，仅当在该位置处鉴定出高置信度变异体时，才能确定该位置为变异体。例如，变异体识别算法可能要求在特定位置比对的最小百分比的良好质量读段中鉴定变异体，其中最小百分比可以是或可以基于预定或可变阈值。该阈值可以被编程到变异体分析系统中，或者可以由变异体分析系统的用户或由与变异体分析系统一起工作的另一系统确定或修改。

根据一个实施例，对于一些应用，变异体分析系统和/或变异体识别算法可以被编程或以其他方式指示或设计为要求在至少25％的读段中在特定位置处鉴定变异体，使得在不到25％的读段中被鉴定的变异体被认为是噪声并且不会被鉴定为变异体等位基因或杂合位置。根据另一应用，诸如需要更严格的变异体识别方案的应用，变异体分析系统和/或变异体识别算法可以被编程或以其他方式指示或设计为要求在至少40％的读段中在特定位置处鉴定变异体。根据一个实施例，该阈值可以可选地完全或部分地取决于分析位置处的读段深度。这些和很多其他阈值和变化可以由系统和/或用户编程、选择或以其他方式确定。

根据一个实施例，变异体分析系统根据由变异体识别算法或方法进行的分析生成输出。例如，输出可以是由变异体识别算法或方法生成的任何信息。例如，输出可以包括一个或多个变异体位置和每个位置的变异体等位基因的值。输出可以包括附加信息，包括但不限于每个位置处的变异体等位基因的频率、以及其他类型的信息。该输出可以用于如本文中描述或以其他方式设想的变异体分析系统的下游功能。

参考图2，在一个实施例中，是一个流程图，其示出了用于使用变异体分析系统表征基因组样品中的变异体的变异体表达状态的方法200。变异体分析系统可以是本文中描述或以其他方式设想的任何系统，并且可以包括本文中描述或以其他方式设想的任何组件。在210，从转录组数据中获取RNA测序数据，并且在220，从基因组数据中获取DNA测序数据。在230和240，单独比对RNA测序数据和DNA测序数据，如本文所述。在250，合并单独比对以创建单个合并比对。在260，使用单个合并比对来在数据中鉴定变异体。

根据另一实施例，该方法从该方法的步骤120进行到该方法的步骤132，而不执行步骤130。在该实施例中，在RNA和DNA测序比对中分别鉴定变异体。在该方法的步骤132，在RNA和DNA测序比对中分别鉴定变异体，然后将变异体合并成单个变异体文件或编译。在合并之前，RNA和DNA测序比对可以包括例如每个变异体的质量得分和/或统计数据，诸如参考和替代等位基因的读段计数。合并的输出可以包括例如合并变异体识别的输出文件、合并变异体的质量控制统计数据、和/或丢弃变异体的文件或列表。

根据一个实施例，可以基于来自不同数据源的变异体的识别统计、质量得分和用户定义的质量标准对来自不同数据源的变异体列表执行质量控制分析。变异体可以用诸如“低质量”、“中质量”和“高质量”等质量状态来鉴定。可以执行来自不同数据源的变异体识别的联合合并，并且在单独的列中指示其来源，诸如“RNA测序”、“DNA测序”或“这两者”。可以添加或使用来自不同数据源的质量信息。最终质量状态可以根据来自两个来源或来自个体来源的质量状态来确定。合并的变异体识别可以例如以期望的输出文件格式保存为“merged_variants”文件。也可以有合并变异体的质量控制数据的输出。

根据一个实施例，变异体的合并可以涉及若干考虑。例如，如果变异体得到多个来源的支持，则其质量可以提升到下一水平。类似地，可能有不太严格的过滤器可以用于报告来自每个来源的更多变异体，因为后面的组合步骤将重新审视质量，并且可以通过这种方式恢复更多变异体。

参考图3，在一个实施例中，图3是一个流程图，其示出了用于使用变异体分析系统表征基因组样品中的变异体的变异体表达状态的方法300。变异体分析系统可以是本文中描述或以其他方式设想的任何系统，并且可以包括本文中描述或以其他方式设想的任何组件。在310，从转录组数据中获取RNA测序数据，并且在320，从基因组数据中获取DNA测序数据。在330，单独比对RNA测序数据和DNA测序数据，如本文所述，然后，在单独的比对中单独鉴定变异体。在340，将单独的变异体合并成单个变异体文件，其中本文中描述或以其他方式设想一个或多个可能的输出。

根据另一实施例，该方法从该方法的步骤120进行到该方法的步骤134，而不执行步骤130。在该实施例中，一种类型的测序数据被用于验证来自另一种类型的测序数据的变异体识别。在该方法的步骤134，在DNA或RNA测序比对中鉴定变异体，然后利用另一测序数据(如果首先使用DNA，则为RNA，或者如果首先使用RNA，则为DNA)来验证变异体识别。

根据一个实施例，步骤134的输入可以包括来自DNA测序或RNA测序数据的变异体识别，其具有每个变异体的质量得分和/或统计数据，诸如参考和替代等位基因的读段计数。输入还可以包括来自另一技术的原始读段(即，如果首次使用DNA，则为RNA，如果首次使用RNA，则为DNA)。输出可以是组合变异体识别的文件、以及组合变异体的质量控制数据。

根据一个实施例，该系统不是从原始读段中识别变异体(即，如果首先使用DNA，则对原始读段进行RNA测序，或者如果首先使用RNA，则对原始读段进行DNA测序)，该系统在第二来源中寻找从第一来源识别的变异体。如果在第二来源中找到从第一来源识别的变异体，则报告该变异体。根据一个实施例，如果在两个来源中都找到变异体——也就是说，如果通过在第二来源中发现变异体来验证变异体，则全部或部分基于其识别统计数据、质量得分和/或用户定义的质量标准，可以将其标记为质量状态，诸如“低质量”、“中质量”、和“高质量”等。

根据一个实施例，该方法比当前方法更快并且对来自第二验证源的非常低质量的变异体特别敏感。此外，当人们知道从第一来源识别的变异体可以被视为标准时，这种方法可能特别有用。例如，如果第一来源是高覆盖率DNA测序数据，第二来源是来自同一样品的RNA测序数据，在这种情况下，从第二来源识别的突变将是近似子集(考虑RNA编辑等)。这种方法不是再次识别突变，而是更侧重于验证已知突变。

参考图4，在一个实施例中，图4是一个流程图，其示出了用于使用变异体分析系统表征基因组样品中的变异体的变异体表达状态的方法400。变异体分析系统可以是本文中描述或以其他方式设想的任何系统，并且可以包括本文中描述或以其他方式设想的任何组件。在410，从转录组数据中获取RNA测序数据，并且在420，从基因组数据中获取DNA测序数据。在430，单独比对RNA测序数据和DNA测序数据，如本文所述，然后，在DNA测序数据中鉴定变异体。虽然图4示出了在430处使用DNA测序数据鉴定变异体，然后在440处使用RNA测序数据验证变异体，但是可以理解，相反的情况可能是正确的。因此，可以在430处使用RNA测序数据鉴定变异体，然后可以在440处使用DNA测序数据验证变异体。在450，输出验证的变异体列表作为单个文件。

返回到图1中描述的方法，在该方法的步骤150，利用表达数据为该组变异体中的至少多个变异体中的每个生成或表征表达状态。所生成或表征的表达状态包括多个等位基因特异性表达分类中的一个，多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息，并且如果有的话，包括变异体的参考等位基因的表达信息。

表达状态确定——第一实施例

根据一个实施例，使用用于参考和替代等位基因的良好质量RNA测序读段的计数以及等位基因特异性表达来确定该组变异体中的一个或多个变异体的表达状态。表达状态包括确定多个等位基因特异性表达分类中的一个，多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息和/或变异体的参考等位基因的表达信息。

根据一个实施例，用于参考和替代等位基因的良好质量RNA测序读段的计数可以通过诸如ASEReadCounter等工具来获取，诸如具有易于定制的读段处理选项。质量控制处理步骤可以包括去除具有低碱基质量的读段、去除重复、以及对读段数据的其他分析或修改。

根据一个实施例，来自步骤150的输出包括每个变异体的等位基因特异性表达分类(“ase_status”)，其中分类变量或鉴定符指示变异体的表达状态。等位基因特异性表达分类可以包括多种不同的变量、标签或鉴定符。尽管本文中确定了某些可能的标记，但应当理解，这些只是示例，等位基因特异性表达分类不限于这些示例。

根据一个实施例，等位基因特异性表达分类可以包括：(1)“US”，其指示既没有参考等位基因的表达也没有替代等位基因的表达的未表达位点；(2)“UV”，其指示仅参考等位基因的未表达变异体和表达；(3)“EV-Hom”，其指示仅具有替代等位基因的表达的纯合表达变异体；(4)“EV-Up”，其指示具有替代等位基因相对于参考等位基因的显著更高表达的表达变异体；(5)“EV-Dn”，其指示具有替代等位基因相对于参考等位基因的显著降低表达的表达变异体；以及(6)“EV-N”，其指示具有替代等位基因和参考等位基因的相似表达的表达变异体。根据一个实施例，来自步骤150的输出还包括参考等位基因(“ase_ref”)的表达或读段计数、和/或替代等位基因(“ase_alt”)的表达或读段计数、以及其他可能的信息。

等位基因特异性表达分类可以使用多种可能的方法或算法中的任何一种来生成。根据一个实施例，等位基因特异性表达分类使用下述算法生成，尽管可以使用很多其他方法或算法。以下仅作为一种示例算法提供，并不旨在限制可以使用的方法或算法。

根据这种等位基因特异性表达分类算法，可以使用以下变量和参数：

·n_r和n_a是分别具有参考和替代等位基因的映射读段的数目；

·n是映射到变异体位点的读段总数，即，n_r+n_a；

·e_r和e_a分别是参考等位基因和替代等位基因的表达水平；

·e是变异体位点的总体表达水平；

·t_r、t_a和t分别是通常的参考等位基因、替代等位基因和变异体位点的非平凡表达的用户定义的映射读段阈值数目；

·s_r、s_a和s分别是通常的参考等位基因、替代等位基因和

变异体位点的用户定义的最小非平凡表达水平；

·v是替代等位基因的VAF；

·v_u和v_d分别是替代等位基因的上调或下调表达的用户定义的VAF界限；

·u是替代等位基因的差异表达水平；以及

·u_u和u_d分别是替代等位基因的向上或向下差异表达的用户定义的差异表达界限。

使用这些变量和参数，这种等位基因特异性表达分类算法通过以下分析对表达状态进行分类：

·如果n＜t或e＜s，则ase_status＝“US”(即，未表达位点)；

·否则，如果n_a＜t_a或e_a＜s_a，则ase_status＝“UV”(即，未表达变异体)；

·否则，如果n_r＜t_r或e_r＜s_r，则ase_status＝“EV-Hom”(即，表达变异体——纯合)；

·否则，如果v＞v_u或u＞u_u，则ase_status＝“EV-Up”(即，表达变异体——上调)；

·否则，如果v＜v_d或u＜u_d，则ase_status＝“EV-Dn”(即，表达变异体——下调)；以及

·否则ase_status＝“EV-N”(即，表达变异体——中性)。

此外：

·ase_ref＝n_r(或ase_ref＝e_r)；以及

·ase_alt＝n_a(或ase_alt＝e_a)。

因此，根据一个实施例，步骤150的输出是表达分类(“ase_status”)、以及参考等位基因的表达或读段计数(“ase_ref”)和替代等位基因的表达或读段计数(“ase_alt”)、以及其他可能的信息。这些和其他输出是可能的。除了其他可能修改，上述算法中提出的变量或参数中的一个或多个可以被修改或消除以调节算法。

表达状态确定——第二实施例

根据另一实施例，一个或多个变异体的所表征的表达状态包括等位基因特异性表达状态、表达状态和/或RNA编辑状态中的一项或多项。根据另一实施例，所表征的表达状态包括一个或多个变异体的等位基因特异性表达状态、表达状态和RNA编辑状态。参考图5，图5是一个流程图，该流程图描绘了用于检测等位基因特异性表达(ASE)的可能方法或算法的一个实施例。

如本文中描述或以其他方式设想的，执行DNA测序和RNA测序，并且分析沿着一个或多个可能的实施例进行，直到生成使用DNA测序和/或RNA测序数据的变异体列表。

该方法利用某些输入来确定变异体的等位基因特异性表达状态、表达状态和/或RNA编辑状态。该方法或系统需要在该方法的先前步骤中鉴定的变异体识别的列表。对于列表中的这些变异体中的每个变异体，或至少要从列表中分析的变异体(可以是一些或所有变异体)，还需要用于确定的某些信息。例如，这可以包括以下中的一项或多项：(1)在步骤510，对参考和变异体等位基因的RNA测序读段的计数；(2)在步骤510，对参考和变异体等位基因的DNA测序读段的计数；(3)在步骤520，参考和变异体等位基因的总体表达水平，可选地包括有关等位基因特异性表达的信息，诸如用于评估等位基因特异性表达的方法和相关参数的名称(诸如二项分布Binomial或Fisher)，和/或表达状态分类中涉及的参数列表；和/或(4)在步骤530，多重假定检验校正；以在540创建最终的一组基因或变异体。根据一个实施例，存在指向用于确认RNA编辑变异体的变异体和/或参考等位基因的DNA测序读段比对文件的指针或其他链接或信息。

RNA测序读段的计数

根据一个实施例，参考和变异体等位基因的RNA测序读段的计数可以是所有读段的计数或满足预定质量阈值的读段的计数。因此，RNA测序读段的计数可以包括变异体或基因组中任何其他位置的参考等位基因(rna_ref)和变异体等位基因(rna_alt)的良好质量RNA测序读段。参考和替代等位基因的RNA测序读段计数可以通过诸如ASEReadCounter等工具来获取，诸如具有易于定制的读段处理选项，以分析BAM文件或其他类型的比对文件中的比对读段。质量控制处理步骤可以包括去除具有低碱基质量的读段、去除重复、以及对读段数据的其他分析或修改。根据一个实施例，“良好质量RNA测序读段”可以定义为通过读段比对工具的质量检查的读段或比对得分高于预定阈值的读段。除了其他可能性，预定阈值可以由软件、硬件和/或用户确定或编程。

DNA测序读段的计数

根据一个实施例，参考和变异体等位基因的DNA测序读段的计数可以是所有读段的计数或满足预定质量阈值的读段的计数。因此，DNA测序读段的计数可以包括变异体或基因组中任何其他位置的参考等位基因(dna_ref)和变异体等位基因(dna_alt)的良好质量DNA测序读段。参考和替代等位基因的DNA测序读段计数可以通过诸如Samtools/BCFtools等工具来获取，以分析BAM文件或其他类型的比对文件中的比对读段。根据一个实施例，“良好质量DNA测序读段”可以定义为通过读段比对工具的质量检查的读段或比对得分高于预定阈值的读段。除了其他可能性，预定阈值可以由软件、硬件和/或用户确定或编程。

根据一个实施例，该方法利用变异体的参考和/或替代等位基因的总体表达水平(expr)。该系统还可以使用关于用于评估或确定等位基因特异性表达(ASE)的方法和相关参数的名称的信息。例如，可以使用诸如“Binomial”或“Fisher”等方法来确定或评估ASE。该系统还可以使用或包括关于变异体的表达状态分类中涉及的参数的信息。该系统还可以包括或使用指向用于确认RNA编辑变异体的变异体和/或参考等位基因的DNA测序读段比对文件的指针或其他链接或信息。

生成或表征一个或多个变异体的表达状态的步骤包括例如检测等位基因特异性表达。有很多检测等位基因特异性表达的方法，并且该方法或系统可以利用这些方法中的任何一种。尽管本文中描述了若干方法，但应当理解，这些方法仅作为非限制性示例提供。

根据一种方法，使用二项分布检验相对于预定义比率来检测ASE。参考读段和替代等位基因的预定义比率可以是例如1:1或其他可能的比率。例如，用于检测等位基因失衡的一种方法是应用二项式检验来评估比率：

是否已经显著偏离预期值，通常预定义为0.5，假定携带参考和替代等位基因的读段相等的零假定。

根据另一方法，使用Fisher精确检验相对于观察到的DNA计数来检测ASE。如果目标是检测仅归因于转录过程的ASE，则必须在分析中去除以下因素的影响：(1)映射偏差，其中与替代等位基因相比，参考等位基因具有更高的概率映射到参考基因组上的正确位置；和/或(2)DNA水平的拷贝数变化(CNV)，其导致RNA转录本失衡。这里，变化的真正原因是拷贝数变化，并且不希望将其鉴定为ASE。根据一个实施例，可以通过应用Fisher精确检验来检测ASE，以评估RNA读段的比率(rna_alt:rna_ref)是否显著偏离DNA读段的比率(dna_alt:dna_ref)。这背后的原因是，映射偏差和拷贝数变化会影响DNA和RNA计数，因此通过将RNA计数与DNA计数进行比较，可以消除这些混杂效应。根据一个实施例，在这种情况下，作为Fisher精确检验的输入的2×2列联表应当由列中的参考和替代等位基因的读段计数以及行中的DNA和RNA数据的读段计数组成。

根据一个实施例，在计算所有杂合DNA变异体的p值之后，可以通过多重假设检验校正(诸如Bonferroni或错误发现速率(FDR)调节等)来鉴定具有ASE的显著统计证据的那些变异体。

ASE归类/分类

根据一个实施例，该方法基于上述ASE检验的结果确定每个变异体的表达状态。表达状态可以包括例如归类或分类。表达状态归类或分类可以使用多种可能的方法或算法中的任何一种来生成。根据一个实施例，表达状态归类或分类是使用下述算法生成的，尽管可以使用很多其他方法或算法。以下仅作为一种示例算法提供，并不旨在限制可以使用的方法或算法。

根据这个表达状态归类或分类算法，可以使用以下变量和参数：

·m_r、m_a和m——分别是通常的参考等位基因、替代等位基因和变异体位点的映射DNA读段的数目，其中m＝m_r+m_a；

·n_r、n_a和n——分别是参考等位基因、替代等位基因和整体变异体位点的映射RNA读段的数目，其中n＝n_r+n_a；

·n′_r、n′_r和n′——分别是参考等位基因、替代等位基因和整体变异体位点的非平凡表达的映射RNA读段阈值数目；

·e_r、e_a和e——分别是参考等位基因、替代等位基因和整

体变异体位点的表达水平；

·e′——变异体位点的最小非平凡表达水平；

·e_a-H、e_a-L——分别是替代等位基因的高表达水平和低表达水平的界限；

·p——ASE的调节后的p值；

·p′——ASE的统计显著性的p值阈值；

·S——用于衡量ASE程度的得分；以及

·s_u、s_n和s_d——分别是替代等位基因的上/中/下调节的界限。

根据一个实施例，如果基于Binomial方法检测到ASE，则ASE得分可以简单地通过替代等位基因的读段比例来测量，即，s＝n_a/n，其范围从0到1，0表明降低的ASE，没有替代等位基因的读段，1表明增加的ASE，具有替代等位基因的所有读段。

根据一个实施例，如果基于关于DNA数据的Fisher精确检验检测到ASE，则ASE得分可以定义为

其范围从-1到1，-1表明极端下调，1表明极端上调。

根据一个实施例，替代等位基因的表达水平可以定义为

尽管其他定义是可能的。

根据一个实施例，ASE状态分类规则可以包括以下各项，尽管很多其他规则是可能的：

·如果p＜p′，则存在统计学显著的等位基因失衡；

·如果s＞s_u，则ase_status＝“Up-S”(强烈上调的替代等位基因)；

ο否则，如果s＜_sd，则ase_status＝“Dn-S”(强烈下调的替代等位基因)；

ο否则，如果s＞s_n，则ase_status＝“Up”(中度上调的替代等位基因)；

ο否则，ase_status＝“Dn”(中度下调的替代等位基因)；

·否则，ase_status＝“N”(没有显著的等位基因失衡)。

根据一个实施例，表达状态分类可以包括以下各项，尽管很多其他规则是可能的：

·如果n＜n′或e＜e′，则expr_status＝“U”(未表达变异体位点)；

·否则，如果e_a＞e_a-H，则expr_status＝“H”(替代等位基因的高级表达)；

·否则，如果e_a＞e_a-L，则expr_status＝“L”(替代等位基因的低级表达)；

·否则，expr_status＝“M”(替代等位基因的中等水平表达)。

因此，根据一个实施例，步骤540的输出是变异体列表，其中的至少一些变异体与以下各项相关联：(1)等位基因失衡的指示，范围从无显著等位基因失衡到不同的统计学显著的等位基因失衡(强烈上调、强烈下调、中度上调、中度下调等)；以及(2)表达状态分类，范围从未表达变异体位点到不同表达类别(高水平表达、中等水平表达、低水平表达等)。这些和其他输出是可能的。除了其他可能的修改，上述算法中提出的变量或参数中的一个或多个可以被修改或消除以调节算法。根据一个实施例，定量地测量(1)ASE和(2)表达两者。对于ASE，定量测量是上面的得分。对于表达，定量测量是替代等位基因的读段n_a或表达水平e_a的数目。

根据一个实施例，所表征的表达状态包括一个或多个变异体的RNA编辑状态。RNA编辑表示对RNA的转录后修改，换言之，存在于RNA中但不存在于DNA中的突变。出于这个原因，只能通过对DNA和RNA数据的综合分析来发现RNA编辑。RNA编辑发现的第一步是鉴定仅在RNA中发现的变异体。虽然这些变异体是潜在候选，但无法在DNA中找到对应突变也可能是由于低覆盖率(如图6A所示)或低质量/不明确的DNA读段(如图6B所示)。实际上，参考图6，是仅RNA变异体的若干不同示例，上轨道示出了比对RNA读段，下轨道示出了DNA读段。图6A和图6B两者都是假阳性的示例，其分别是由于DNA覆盖率较低和读段不明确。只有图6C示出了真正的RNA编辑变异体。

根据一个实施例，可以对候选变异体应用一些附加步骤以减少假阳性的数目。例如，该方法或系统可以通过放宽用于DNA读段过滤的标准来双重检查对应DNA区域是否有任何变异体迹象。例如，在图6B中，尽管该变异体存在于DNA中，但它仅存在于不明确(透明)的读段中，因此未被正确识别。如果在放宽过滤标准之后在DNA中发现变异体，则报告无RNA编辑(rna_edit_status＝“N”)。作为另一示例，该方法或系统可以检查以确定变异体的位点是否对DNA测序数据中的参考等位基因具有足够的读段覆盖率。因此，如果覆盖率不足，则报告没有RNA编辑(rna_edit_status＝“N”)。如果覆盖率足够但较低，则报告低置信度RNA编辑(rna_edit_status＝“LC”)。如果覆盖率较高，则报告高置信度RNA编辑(rna_edit_status＝“HC”)。很多其他分类是可能的。

参考图7，图7是用于鉴定RNA编辑变异体的过程或方法700的流程图。在710，使用本文中描述或以其他方式设想的任何方法或实施例整合DNA变异体和RNA变异体。在720，鉴定仅RNA变异体。在730，对于所鉴定的仅RNA变异体中的一个或多个，该系统或方法确定仅RNA变异体的位点是否被任何DNA测序数据覆盖。在740，如果该位点未被任何DNA测序数据覆盖，则报告没有RNA编辑(rna_edit_status＝“N”)和/或报告遗漏DNA变异体。如果该位点被DNA测序数据覆盖，则该系统或方法在750确定变异体的位点是否具有DNA测序数据中参考等位基因的足够读段覆盖率，和/或DNA序列数据中是否存在变异体。如果读段覆盖率不足或读段覆盖率足够并且变异体存在于DNA测序数据中，则在740处报告遗漏DNA变异体。如果读段覆盖率足够，并且DNA测序数据中不存在变异体，则在770处报告可能的RNA编辑。作为可选的中间步骤760，该系统或方法可以放宽用于DNA读段过滤的标准，然后可以返回到步骤750，以在750处使用放宽的标准和修订的DNA测序数据来确定变异体的位点是否具有DNA测序数据中参考等位基因的足够读段覆盖率，和/或DNA测序数据中是否存在变异体。

根据图1中的方法100的步骤150的这个第二实施例，步骤150的输出是所鉴定的变异体的表达状态。这种表征的表达状态可以包括一个或多个变异体的等位基因特异性表达状态、表达状态和/或RNA编辑状态。等位基因特异性表达状态、表达状态和/或RNA编辑状态每个可以可选地包括附加信息。

例如，根据一个实施例，等位基因特异性表达状态可以包括等位基因的调节的分类。因此，特定表达状态可以包括以下中的一项或多项：

·ase_status：分类变量，其指示杂合DNA变异体的ASE状态，作为以下类别中的一个以及其他可能的类别：

οN＝无ASE或中性监管；

οUp＝确认的ASE，具有上调的替代等位基因；

οUp-S＝确认的ASE，具有强烈上调的替代等位基因；

οDn＝确认的ASE，具有下调的替代等位基因；和/或

οDn-S＝确认的ASE，具有强烈下调的替代等位基因。

·ase_score,ase_pval：衡量ASE程度和两侧的p值的统计显著性的得分。

类似地，例如，根据一个实施例，表达状态可以包括变异体的表达状态的分类。因此，表达状态可以包括以下中的一项或多项以及其他可能的类别：

·expr_status：分类变量，其将变异体的表达状态指示为以下类

别中的一个以及其他可能的类别：

οH＝替代等位基因的高水平表达；

οM＝替代等位基因的中等水平表达；

οL＝替代等位基因的低水平表达；和/或

οU＝未表达的变异体位点。

·expr_alt：替代等位基因的表达水平。

类似地，例如，根据一个实施例，RNA编辑状态可以包括RNA数据中变异体的鉴定。因此，RNA编辑状态可能包括以下中的一项或多项以及其他可能的类别：

·rna_edit_status：分类变量，其指示是否在RNA数据中检测到新变异体，其可以是以下各项以及其他可能的类别：

οN＝无RNA编辑；

οLC＝低置信度RNA编辑(DNA测序读段中的低覆盖率)；和/或

οHC＝高置信度RNA编辑(DNA测序读段中的高覆盖率)。

·rna_edit_allele：RNA编辑等位基因的鉴定(如果有的话)。

这些和很多其他类别和标签对于方法的步骤150的输出是可能的。

在该方法的步骤160，生成和报告包括一组变异体内的多个变异体中的一个、一些或全部变异体的所表征的表达状态的报告。该报告可以包括例如表达分类、参考等位基因的表达或读段计数、和/或替代等位基因的表达或读段计数、以及其他可能的信息。该报告可以是电子的或印刷的，并且可以被存储。例如，该报告可以包括基于文本的文件或其他格式。该报告可以包括可搜索特定变异体或基因组位置的数据库。该报告可以是可分类的或以其他方式被配置用于组织以允许轻松分析和提取信息。

根据一个实施例，变异体分析系统可以在屏幕或其他显示方法上可视地显示关于一个或多个变异体的信息和所表征的表达状态。临床医生或研究人员可能只对一个或几个变异体感兴趣，因此可以指示或以其他方式设计或编程变异体分析系统以仅显示为一个或多个变异体而获取的信息。

根据一个实施例，报告或信息可以存储在临时和/或长期存储器或其他存储装置中。另外地和/或替代地，报告或信息可以被传送或以其他方式传输到另一系统、接收者、过程、设备和/或其他本地或远程位置。

根据一个实施例，一旦生成报告或信息，就可以将其提供给研究人员、临床医生或其他用户，以基于所提供的信息审查和实现动作或响应。例如，研究人员或临床医生可以利用该信息来挖掘遗传样品中的变异体，诸如患者或研究对象的基因组。用户可以手动查看报告以查看所有变异体，或者基于其ASE/表达/RNA编辑状态和得分通过过滤和排名来鉴定特定变异体，或者可以使用软件或其他方法来鉴定一个或多个变异体。鉴定变异体是疾病研究、疾病诊断和疾病治疗的一个重要方面。因此，例如，临床医生可以诊断遗传疾病或基于报告的输出假定特定遗传疾病的存在。临床医生可以基于报告的输出另外地或替代地选择特定治疗。

作为另一示例，用户可以查看报告或信息以确定目标基因组内的特定位置是否包括变异体。例如，研究人员、临床医生或其他用户可能对用于研究、治疗或其他目的的特定变异体等位基因感兴趣，并且可以查看报告和/或生成针对感兴趣的等位基因位置的报告。如报告所示，变异体的存在或不存在为用户提供了必要的研究或治疗信息。很多其他下游用途是可能的。

通常使用从全基因组或全外显子组测序的DNA测序数据来识别变异体，例如，通过比较患者肿瘤与匹配的正常组织来识别体细胞突变。然而，生物和技术噪声使得难以获取敏感和准确的结果。根据本文中描述或以其他方式设想的方法和系统，来自多个来源的测序数据用于提高变异体识别准确性和灵敏度，这显著提高了临床可用性。事实上，使用多个来源来识别突变增加了对变异体的附加验证层。DNA和RNA样品的制备方法不同，并且基因组的某些区域的覆盖率较低可能会给鉴定突变带来困难，尤其是等位基因频率较低的区域。然而，这些区域可以在RNA测序数据中以更高深度被放大，这提供了更多突变证据。换言之，结合来自RNA测序和DNA测序的读段增加了变异体识别的读段覆盖率。从DNA和RNA识别组合突变的下一步是告知突变的表达状态，并且突变的功能可以在坚定其表达状态后进行解释。

参考图8，在一个实施例中，是变异体分析系统500的示意图，该变异体分析系统500被配置为表征从基因组样品中鉴定的多个变异体的变异体表达状态。系统800可以是本文中描述或以其他方式设想的任何系统，并且可以包括本文中描述或以其他方式设想的任何组件。

根据一个实施例，系统800包括经由一个或多个系统总线812互连的处理器820、存储器830、用户接口840、通信接口850和存储装置860中的一个或多个。在一些实施例中，诸如在其中系统包括或直接实现DNA和/或RNA测序仪或测序平台的实施例中，硬件可以包括附加的测序硬件815。应当理解，图8在某些方面构成了一种抽象，并且系统500的组件的实际组织可以与所示出的不同并且更复杂。

根据一个实施例，系统800包括处理器820，该处理器820能够执行存储在存储器830或存储装置860中的指令或以其他方式处理数据以例如执行该方法的一个或多个步骤。处理器820可以由一个或多个模块形成。处理器820可以采用任何合适的形式，包括但不限于微处理器、微控制器、多个微控制器、电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器或多个处理器。

存储器830可以采取任何合适的形式，包括非易失性存储器和/或RAM。存储器830可以包括各种存储器，例如L1、L2或L3高速缓存或系统存储器。因此，存储器830可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或其他类似的存储器设备。存储器可以存储操作系统等。RAM由处理器使用以临时存储数据。根据一个实施例，操作系统可以包含在由处理器执行时控制系统800的一个或多个组件的操作的代码。显然，在其中处理器以硬件实现本文中描述的一个或多个功能的实施例中，可以省略在其他实施例中描述为与这样的功能相对应的软件。

用户接口840可以包括用于实现与用户的通信的一个或多个设备。用户接口可以是允许传送和/或接收信息的任何设备或系统，并且可以包括用于接收用户命令的显示器、鼠标和/或键盘。在一些实施例中，用户接口840可以包括可以经由通信接口850呈现给远程终端的命令行接口或图形用户接口。用户接口可以与系统的一个或多个其他组件一起定位，或者可以远离系统并且经由有线和/或无线通信网络进行通信。

通信接口850可以包括用于实现与其他硬件设备通信的一个或多个设备。例如，通信接口850可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。另外，通信接口850可以实现用于根据TCP/IP协议进行通信的TCP/IP栈。用于通信接口850的各种替代或附加硬件或配置将是很清楚的。

存储装置860可以包括一种或多种机器可读存储介质，诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备或类似存储介质。在各种实施例中，存储装置860可以存储供处理器820执行的指令或处理器820可以对其进行操作的数据。例如，存储装置860可以存储用于控制系统800的各种操作的操作系统861。在系统800实现测序器并且包括测序硬件815的情况下，存储装置860可以包括用于操作测序硬件815的测序指令862、以及由测序硬件815获取的测序数据863，尽管测序数据863可以从相关的测序平台以外的其他来源获取。

存储装置860还可以存储一个或多个参考基因组864，和/或系统800可以与参考基因组数据库通信。参考基因组数据库可以是公共数据库或私人数据库，并且可以远程存储并且经由通信接口访问。参考基因组数据库可以包括一个或多个参考基因组。

显然，描述为存储在存储装置860中的各种信息可以另外地或替代地存储在存储器830中。在这点上，存储器830也可以被认为构成存储设备并且存储装置860可以被认为是存储器。各种其他布置将是很清楚的。此外，存储器830和存储装置860都可以被认为是非暂态机器可读介质。如本文中使用的，术语非暂态将被理解为排除暂态信号，但包括所有形式的存储装置，包括易失性和非易失性存储器。

虽然变异体分析系统800被示出为包括每个描述的组件中的一个，但是在各种实施例中可以复制各种组件。例如，处理器820可以包括多个微处理器，该微处理器被配置为独立地执行本文中描述的方法或者被配置为执行本文中描述的方法的步骤或子例程，使得多个处理器协作以实现本文中描述的功能。此外，在系统800的一个或多个组件在云计算系统中实现的情况下，各种硬件组件可以属于单独的物理系统。例如，处理器820可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。很多其他变化和配置是可能的。

根据一个实施例，变异体分析系统800的存储装置860可以存储用于执行本文中描述或以其他方式设想的方法的一个或多个功能或步骤的一个或多个算法和/或指令。例如，处理器820可以包括比对指令或软件865、合并指令或软件866、变异体识别指令或软件867、等位基因特异性表达分类指令或软件868、和/或报告生成指令或软件869、以及用于执行本文中描述或以其他方式设想的方法的一个或多个功能或步骤的很多其他算法和/或指令。

根据一个实施例，比对指令或软件865指示该系统将DNA和RNA测序数据与参考基因组比对。测序数据可以是来自遗传样品的任何测序数据，并且可以由系统生成或以其他方式获取。例如，变异体分析系统可以包括被配置为从遗传样品获取测序数据的测序平台，或者可以与另一系统从遗传样品生成的测序数据通信或以其他方式接收该测序数据。所生成和/或接收的测序数据可以存储在本地或远程数据库中以供变异体分析系统使用。所生成和/或接收的测序数据可以包括完整的或大部分完整的基因组，或者可以是部分基因组。例如，所生成和/或接收的测序数据可以是组装体、全基因组构建体、不完整基因组、部分基因组、外显子组和/或任何其他测序数据。

由该系统用于比对的参考基因组可以是任何参考基因组，诸如标准参考基因组或选自多个可能参考基因组的参考基因组。参考基因组可以由系统存储或者可以由系统获取、检索或以其他方式接收。根据一个实施例，参考基因组是FASTA文件，尽管很多其他文件类型是可能的。

一旦该系统具有测序数据和参考基因组，比对指令或软件865就指示该系统将测序数据与参考基因组比对。使用任何比对方法将测序数据与参考基因组比对，包括但不限于当前和未来的比对算法或方法。有多种不同的工具可用于序列比对，包括专有软件和开源软件，并且这些工具中的任何一种都可以用于将多个测序读段与参考基因组进行比对。因此，系统800可以包括被配置为将测序数据与参考基因组比对的专有和/或开源软件或算法。比对指令或软件865因此指示该系统800生成由该系统的其他功能使用的基因组比对。

根据一个实施例，合并指令或软件866指示该系统使用用于合并两个或更多个比对的任何方法将比对RNA测序数据和比对DNA测序数据合并成单个合并比对文件。根据其他实施例，合并指令或软件866指示该系统将两个变异体文件合并成单个变异体文件。例如，在方法的步骤132，在每种类型的测序数据中分别鉴定变异体，并且合并指令或软件866指示该系统将变异体合并成单个变异体编译。合并指令或软件866可以另外地或替代地指示该系统使用第二类型的测序数据来验证在一种类型的测序数据中鉴定的变异体，从而产生变异体的单个合并鉴定。例如，在方法的步骤132，在一种类型(DNA或RNA)的测序数据中鉴定变异体，并且使用第二类型(DNA或RNA中的另一种)的测序数据来验证变异体。

根据一个实施例，变异体识别指令或软件867指示该系统在比对中鉴定变异体。可以使用任何变异体识别方法来鉴定变异体，包括但不限于Varscan、Samtools和GATK等。变异体等位基因识别指令或软件867因此可以包括专有和/或开源软件或算法。指令可以指示该系统鉴定例如等位基因变异体的位置、该位置的变异体等位基因、和/或该位置的变异体等位基因的频率。变异体等位基因通常包括与参考基因组相对应的等位基因、和不同的第二等位基因。

根据一个实施例，变异体等位基因识别指令或软件867指示该系统仅鉴定满足特定阈值的变异体，因此是高置信度变异体。例如，变异体识别算法可能要求以最小频率(诸如25％、50％、75％或任何其他百分比)鉴定变异体。这可以取决于如本文中描述的变异体位置的读段深度。阈值可以由系统和/或用户编程、选择或以其他方式确定。例如，用户可以经由用户接口840以及其他输入方法来选择频率阈值。

根据一个实施例，表达表征指令或软件868指示该系统利用表达数据为该组变异体内的至少多个变异体中的每个变异体生成或表征表达。根据一个实施例，所生成或表征的表达状态包括多个等位基因特异性表达分类中的一个，多个等位基因特异性表达分类包括变异体的替代等位基因的表达信息和变异体的参考等位基因的表达信息(如果有的话)。表达表征指令或软件868可以指示该系统生成包括每个变异体的等位基因特异性表达分类(“ase_status”)的输出，其中分类变量或鉴定符指示变异体的表达状态。等位基因特异性表达分类可以包括多种不同的变量、标签或鉴定符。等位基因特异性表达分类还可以包括参考等位基因(“ase_ref”)的表达或读段计数和替代等位基因(“ase_alt”)的表达或读段计数、以及其他可能的信息。这些和其他输出是可能的。

根据一个实施例，报告生成指令或软件569指示该系统生成用户报告，该用户报告包括关于由系统执行的分析的信息。例如，报告可以包括每个变异体的等位基因特异性表达分类、以及参考等位基因的表达或读段计数和/或替代等位基因的表达或读段计数、以及其他信息。可以为任何格式或输出方法生成报告，诸如文件格式、视觉显示或任何其他格式。报告可以包括基于文本的文件或包含报告信息的其他格式。

报告生成指令或软件869可以指示该系统将所生成的报告或信息存储在临时和/或长期存储器或其他存储装置中。这可以是系统800内的或与系统800相关联的本地存储装置，或者可以是从或经由系统800接收报告或信息的远程存储装置。另外地和/或替代地，报告或信息可以被传送或以其他方式传输到另一系统、接收者、过程、设备和/或其他本地或远程位置。

报告生成指令或软件869可以指示该系统将所生成的报告提供给用户或其他系统。例如，变异体分析系统可以在用户接口上可视地显示关于一个或多个变异体的信息，用户接口可以是屏幕或其他显示器。临床医生或研究人员可能只对一个或几个变异体感兴趣，因此可以指示或以其他方式设计或编程变异体分析系统以仅显示为一个或多个变异体而获取的信息。

根据一个实施例，本文中描述或以其他方式设想的变异体分析系统和方法使得研究人员、临床医生或其他用户能够更准确地确定遗传样品的基因型，并且因此在研究、诊断、治疗和/或其他决定时实现该信息。这显著改进了研究人员、临床医生或其他用户的研究、诊断和/或治疗决策。

虽然本文中描述或以其他方式设想的实施例描述了更常见类型的组学数据，特别是DNA测序和RNA测序，但是本发明不限于对所涵盖的组学类型的分析。该方法和系统通过考虑潜在的分子生物学和关于其相互关系和疾病关联的广泛先验知识来汇总不同数据模式的证据。重要的不是数据生成的手段，而是组学数据和提取的信息的生物学意义。本公开中未提及的任何新类型的组学数据，如果它们具有相似/相同的生物学意义，则可以用来替代上述那些，或者通过使用基于新数据而建立的附加功能证据层对变异体进行信息提取、功能评估以及过滤和排序过程集成到我们的解决方案框架中。

值得注意的是，本文中描述的方法和系统包括不同的限制，每个限制包括和分析数百万条信息。例如，下一代DNA测序数据包括数以百万计甚至数十亿的读段。同样，根据Illumina，“大多数[RNA测序研究)需要每个样品有5百万-2亿个读段，具体取决于生物体的复杂性和大小。”因此，将RNA测序数据和DNA测序数据合并成单个合并比对将包括数百万甚至数十亿的读段，每个读段具有不同数量的测序核苷酸。事实上，根据RNA和DNA测序的深度，整个基因组将被覆盖无数次。这是人类大脑无法完成的事情，即使是用钢笔和铅笔也是如此。此外，一旦将RNA测序数据和DNA测序数据合并成单个比对，该系统必须分析这数百万甚至数十亿的比对读段以鉴定变异体。这同样需要数十亿个比较点。然后，该系统使用表达数据表征每个鉴定变异体的RNA编辑和表达状态，这同样需要数百万个分析点。这些步骤包括数百万或数十亿个比较点，这是人类大脑无法完成的事情，即使是用钢笔和铅笔也是如此。

如本文中定义和使用的所有定义应当理解为控制字典定义、通过引用并入的文件中的定义和/或所定义的术语的普通含义。

除非明确指出相反，否则本文中在说明书和权利要求书中使用的不定冠词“一个(a)”和“一个(an)”应当理解为意指“至少一个”。

本文中在说明书和权利要求中使用的短语“和/或”应当理解为意指如此结合的元素中的“一个或两个”，即，在一些情况下结合地存在而在其他情况下不结合地存在的元素。用“和/或”列出的多个元素应当以相同方式解释，即，如此连接的“一个或多个”元素。除了由“和/或”子句具体标识的元素之外，可以可选地存在其他元素，无论与这些具体标识的元素相关或不相关。

如本文中在说明书和权利要求中使用的，“或”应当理解为与如上定义的“和/或”具有相同的含义。例如，当分隔列表中的项目时，“或”或“和/或”应当被解释为具有包括性，即，包括至少一个，但也包括多个元素或元素列表中的一个以上，以及可选地包括其他未列出的项目。只有明确指出相反的术语(诸如“仅一个”或“恰好一个”，或在权利要求中使用时，“由……组成”)将指代包括多个元素或元素列表中的恰好一个元素。一般而言，本文中使用的术语“或”仅在前面带有排他性术语(诸如“任何一个”、“其中一个”、“只有一个”或“恰好一个”)时应当解释为表示排他性的替代方案(即，“一个或另一个但不是两者”)。

如本文中在说明书和权利要求书中使用的，短语“至少一个”在提及一个或多个元素的列表时，应当理解为表示选自元素列表中的元素中的任何一个或多个元素的至少一个元素，但不一定包括元素列表中具体列出的每个元素中的至少一个，并且不排除元素列表中的元素的任何组合。该定义还允许除了在短语“至少一个”所指的元素列表中具体标识的元素之外的其他元素可以可选地存在，无论是否与那些具体标识的元素相关。

还应当理解，除非明确指出相反，否则在本文中要求保护的包括一个以上的步骤或动作的任何方法中，该方法的步骤或动作的顺序不一定限于叙述该方法的步骤或动作的顺序。

在权利要求以及上述说明书中，所有过渡短语，诸如“包括(comprising)”、“包括(including)”、“携带(carrying)”、“具有(having)”、“包含(containing)”、“涉及(involving)”、“持有(holding)”、“组成(composed of)”等应当理解为是开放式的，即，表示包括但不限于。只有过渡短语“由……组成(consisting of)”和“基本上由……组成(consisting of essential of)”分别为封闭或半封闭过渡短语。尽管本文中已经描述和说明了若干创造性实施例，但是本领域普通技术人员将容易地设想用于执行功能和/或获取结果和/或本文所述的优点中的一个或多个优点的各种其他装置和/或结构，并且这样的变化和/或修改中的每个都被认为在本文所述的创造性实施例的范围内。更一般地，本领域技术人员将容易理解，本文所述的所有参数、尺寸、材料和配置都是示例性的，并且实际参数、尺寸、材料和/或配置将取决于使用本发明的教导的一个或多个具体应用。本领域技术人员将认识到或能够仅使用常规实验来确定本文所述的特定创造性实施例的很多等同物。因此，应当理解，前述实施例仅作为示例呈现，并且在所附权利要求及其等同物的范围内，本创造性实施例可以以不同于具体描述和要求保护的方式实践。本公开的创造性实施例涉及本文所述的每个个体特征、系统、物品、材料、套件和/或方法。此外，两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合在这样的特征、系统、文章、材料、套件和/或方法不相互矛盾的情况下被包括在本公开的创造性范围内。

Claims

1.一种用于使用变异体分析系统(500)来表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法(100)，包括：

获取(110)所述基因组样品的DNA测序数据，所述DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据；

获取(110)所述基因组样品的RNA测序数据，所述RNA测序数据包括多个不同变异体类型并且与所述参考基因组比对以生成比对RNA测序数据，并且其中所获取的RNA测序数据还包括每个变异体的表达数据；

将所述比对RNA测序数据和所述比对DNA测序数据合并(130)成单个合并比对，其中每个读段包括源鉴定符；

在所述单个合并比对中鉴定(140)相对于所述参考基因组的多个变异体以生成一组变异体，所述多个变异体包括多个不同变异体类型；

使用所述表达数据表征(150)所述一组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中所述表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类，所述等位基因特异性表达分类包括所述变异体的替代等位基因的表达信息，并且如果有的话，包括所述变异体的参考等位基因的表达信息；以及

生成(160)报告，所述报告包括所述一组变异体内的所述多个变异体的所表征的RNA编辑和/或表达状态。

2.根据权利要求1所述的方法，其中所述多个变异体是使用RNA测序数据变异体识别基本流程来鉴定的。

3.根据权利要求1所述的方法，其中所述多个不同变异体类型至少包括单核苷酸变异体、插入、缺失、拷贝数变异体和基因融合。

4.根据权利要求1所述的方法，其中所获取的RNA测序数据包括基因表达数据、转录表达数据、外显子表达数据、剪接数据和/或等位基因特异性表达数据。

5.根据权利要求1所述的方法，其中所述多个等位基因特异性表达分类中的每个等位基因特异性表达分类包括相对于所述变异体的所述参考等位基因的所述表达信息来描述所述变异体的所述替代等位基因的所述表达信息的鉴定符，并且其中存在多个不同鉴定符。

6.根据权利要求5所述的方法，其中所述多个不同鉴定符包括以下一项或多项：未表达位点、未表达变异体、纯合表达变异体、上调表达变异体、下调表达变异体、中性表达变异体、具有不一致性的表达变异体、具有不一致性的未表达变异体、高置信度的RNA编辑和低置信度的RNA编辑。

7.一种用于表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的系统(800)，包括：

参考基因组；

所述基因组样品的DNA测序数据，所述DNA测序数据包括多个不同变异体类型并且与参考基因组比对以生成比对DNA测序数据；

所述基因组样品的RNA测序数据，所述RNA测序数据包括多个不同变异体类型并且与所述参考基因组比对以生成比对RNA测序数据，其中所获取的RNA测序数据还包括每个变异体的表达数据；

处理器(820)，被配置为：

(i)将所述比对RNA测序数据和所述比对DNA测序数据合并成单个合并比对；

(ii)在所述单个合并比对中鉴定相对于所述参考基因组的多个变异体以生成一组变异体，所述多个变异体包括多个不同变异体类型；

(iii)使用所述表达数据表征所述一组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中所述表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类，所述等位基因特异性表达分类包括所述变异体的替代等位基因的表达信息，并且如果有的话，包括所述变异体的参考等位基因的表达信息；以及

(iv)生成报告，所述报告包括所述一组变异体内的所述多个变异体的所表征的表达状态；以及

用户接口(840)，被配置为提供所生成的报告。

8.根据权利要求7所述的系统，其中所述多个等位基因特异性表达分类中的每个等位基因特异性表达分类包括相对于所述变异体的所述参考等位基因的所述表达信息来描述所述变异体的所述替代等位基因的所述表达信息的鉴定符，并且其中存在多个不同鉴定符。

9.根据权利要求8所述的系统，其中所述多个不同鉴定符包括以下一项或多项：未表达位点、未表达变异体、纯合表达变异体、上调表达变异体、下调表达变异体、中性表达变异体、具有不一致性的表达变异体、具有不一致性的未表达变异体、高置信度的RNA编辑和低置信度的RNA编辑。

10.一种用于使用变异体分析系统(800)表征从基因组样品中鉴定的多个变异体的变异体RNA编辑和/或表达状态的方法(100)，包括：

鉴定(132，134)所述DNA测序数据中的多个变异体和所述RNA测序数据中的多个变异体，以生成一组DNA变异体和一组RNA变异体，所述多个变异体中的每个变异体包括多个不同变异体类型；

将所述一组DNA变异体和所述一组RNA变异体合并(132)成单组变异体，或者用另一测序数据类型的所述变异体验证(134)所述DNA测序数据中的所述多个变异体或所述RNA测序数据中的所述多个变异体以生成单组变异体；

使用所述表达数据表征(150)所述一组变异体内的至少多个变异体中的每个变异体的RNA编辑和/或表达状态，其中所述表达状态包括多个等位基因特异性表达分类中的一个等位基因特异性表达分类，所述等位基因特异性表达分类包括所述变异体的替代等位基因的表达信息，并且如果有的话，包括所述变异体的参考等位基因表达信息；以及

生成(160)报告，所述报告包括所述一组变异体内的所述多个变异体的所表征的表达状态。

11.根据权利要求10所述的方法，其中所述多个变异体是使用RNA测序数据变异体识别基本流程来鉴定的。

12.根据权利要求10所述的方法，其中所述多个不同变异体类型至少包括单核苷酸变异体、插入、缺失、拷贝数变异体和基因融合。

13.根据权利要求10所述的方法，其中所获取的RNA测序数据包括基因表达数据、转录表达数据、外显子表达数据、剪接数据和/或等位基因特异性表达数据。

14.根据权利要求10所述的方法，其中所述多个等位基因特异性表达分类中的每个包括相对于所述变异体的所述参考等位基因的所述表达信息来描述所述变异体的所述替代等位基因的所述表达信息的鉴定符，并且其中存在多个不同鉴定符。

15.根据权利要求14所述的方法，其中所述多个不同鉴定符包括以下中的一项或多项：未表达位点、未表达变异体、纯合表达变异体、上调表达变异体、下调表达变异体、中性表达变异体、具有不一致性的表达变异体、具有不一致性的未表达变异体、高置信度的RNA编辑和低置信度的RNA编辑。