CN109979526A

CN109979526A - 用于功能证实癌症突变的rna分析的系统和方法

Info

Publication number: CN109979526A
Application number: CN201910149264.6A
Authority: CN
Inventors: J·Z·桑伯恩
Original assignee: Van F 3 Genome Co Ltd
Current assignee: Van F 3 Genome Co Ltd
Priority date: 2014-03-25
Filing date: 2015-03-25
Publication date: 2019-07-05
Anticipated expiration: 2035-03-25
Also published as: EP3129908A1; JP6384930B2; KR20180094150A; AU2015236054B2; IL260314A; IL248021B; CA2946289C; AU2015236054A1; JP2017522661A; EP3129908B1; JP2019003667A; CN106852176A; KR101890792B1; US20190121937A1; CN109979526B; US10192027B2; US20150278435A1; EP3129908A4; AU2020201237A1; IL260314B

Abstract

所设想的系统和方法通过使基因组/外显子组中的癌症相关的突变与携带该突变的受影响的基因的转录水平相关联来整合基因组/外显子组数据与转录组数据，如果突变是3‑端无义突变时尤其如此。

Description

用于功能证实癌症突变的RNA分析的系统和方法

本申请是申请日为2015年03月25日，申请号为“201580027070.9”，发明名称为“用于功能证实癌症突变的RNA分析的系统和方法”的申请的分案申请。

本申请要求2015年03月25日提交的美国专利申请14/668518的优先权权益，美国专利申请14/668518要求2015年03月25日提交的美国临时申请61/970054的优先权权益。此专利申请和本文引用的所有其他外部参考文献在此通过引用全文并入。而且，如果所并入的参考文献中的术语的定义或用途与本文提供的该术语的定义不一致或相反，那么本文提供的该术语的定义是适用的，而参考文献中的该术语的定义不适用。

发明领域

本发明的领域是组学分析，且尤其是当本发明的领域涉及癌症诊断和治疗中的RNA组学。

发明背景

本背景描述包括可以用于理解本发明的信息。本背景并不是承认本文提供的任何信息是现有技术或与目前要求保护的本发明相关，或不承认具体或隐含引用的出版物是现有技术。

随着可负担得起的且相对快速的全基因组测序的出现，已经获得了有关DNA层面上的大量详实的知识。然而，在大多数情形中，因数量庞大的信息以及缺乏基础结构和计算算法阻碍了对数据进行有意义的分析。如果额外的组学信息可用于分析，且尤其是组织水平的且甚至细胞水平的RNA组学和蛋白组学，那么这样的困难被进一步加重。因而，整合这种额外的数据在许多预测、诊断和治疗方法中成为限速步骤。

最近，且例如，如US 2012/0059670和US 2012/0066001中描述的，用于基因组数据的高处理量的序列分析通过增量差分比对(incremental differential alignment)和患者肿瘤与匹配的健康组织的比较已经变得明显更有效。这样的信息随后可以使用如先前也描述在WO/2011/139345和WO/2013/062505中的通路识别算法被进一步分析。然而，即使借助这些先进的工具，肿瘤基因组中存在特定系列的突变也不一定能预测到突变基因实际上被表达，且如果这样，也不一定能预测到突变可能具有的影响。虽然来自RNA组学的发现本身可能是有帮助的，但这样的独立的结果通常将不具有高的信息价值且没有来自基因组学和蛋白组学的上下文的额外数据。

因而，即使用于分析组学数据的许多系统和方法是本领域已知的，但是仍存在对改善组学分析和整合从不同组学平台搜集的信息的需求。

发明内容

本发明主题涉及整合RNA组学信息与各种分析系统且尤其是基因组学分析以及识别用于肿瘤疾病的各种标记的系统和方法。更具体地，发明人已经发现基因组或外显子组水平的患者和肿瘤特异性突变可以用相应的RNA的转录水平的分析而被文字化，如果突变是具有与恶性肿瘤已知的关联性的选定基因内的无义突变时尤其如此。

在本发明主题的一个方面中，一种处理组学数据的方法，包括步骤：使数据库与分析引擎在信息上连接(informationally coupling)，其中数据库存储基因组数据集合和转录组数据集合。在通常设想的方法中，基因组数据集合代表患者的患病组织(如癌组织)中的至少一个基因的突变，其中突变是相对于患者的正常组织，且转录组数据集合代表患者的患病组织中的至少一个基因的突变和表达水平，其中突变和表达水平是相对于患者的正常组织。在所设想的方法的另一个步骤中，序列分析引擎用于使用突变(如，当突变处于同一位置时)使转录组数据集合与基因组数据集合相关联，并用于识别突变为无义突变。当识别突变为无义突变时，序列分析引擎被进一步用于识别在至少一个基因的3’-端部分内的突变位置，且用于识别至少一个基因的表达水平。在所设想的方法的另一个步骤中，分析引擎利用突变的位置和表达水平更新或生成组学数据库中的组学记录。

虽然不限于本发明的主题，进一步设想的方法可以包括步骤：使序列数据库或测序设备与序列分析引擎在信息上连接，和使用序列分析引擎生成转录组数据集合和基因组数据集合的另一个步骤。更通常但不一定地，转录组数据集合和基因组数据集合是不同的序列对象。通常进一步设想的，转录组数据由cDNA或多聚A⁺RNA获得。

在所设想的方法的另外的方面，当所识别的位置是在基因的3-端部分(如端3外显子、端2外显子)中的位置时和/或当所识别的表达水平在高于相对于正常组织的表达水平时，将更新组学记录。在被设想的其他基因中，示例性的合适的基因包括CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1以及MRPL32。

因此，且从另一个角度看，组学记录计算机系统将包括至少一个处理器和与处理器连接的至少一个存储器且存储器被配置成存储(1)代表患者的患病组织中的至少一个基因的突变的基因组数据集合，其中突变是相对于患者的正常组织，和(2)代表患者的患病组织中的至少一个基因的突变和表达水平的转录组数据集合，其中突变和表达水平是相对于患者的正常组织。所设想的系统还将包括分析引擎，该分析引擎在信息上连接于组学数据库，且能够根据存储在至少一个存储器中的软件指令在至少一个处理器上执行，且处理器配置成(a)利用突变使基因组数据集合和转录组数据集合相关联；(b)识别突变为无义突变，且当识别突变为无义突变时：识别在至少一个基因的3’-端部分内的突变位置；且识别至少一个基因的表达水平；(c)利用所识别的位置和表达水平来更新组学数据库中的组学记录。

在所设想的计算机系统的另外的方面，转录组数据集合和基因组数据集合中的至少一个是不同的序列对象，和/或患病组织是癌组织。更通常地，转录组数据集合基于多聚A⁺RNA或cDNA的分析。正如上面已经注意到的，当所识别的位置是基因的3-端部分中的位置时和/或当所识别的表达水平在高于相对于正常组织的表达水平时，可以更新组学记录。

还设想基因是癌症相关的基因，例如CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1和/或MRPL32。因此，组学记录可以被更新以证实诊断(如肿瘤疾病的)或提议治疗选项(如，对于肿瘤疾病)。

本发明的一个方面提供了一种识别癌症标记的方法，包括：

获得基因组数据集合和转录组数据集合；

其中所述基因组数据集合代表患者的患病组织中的至少一个基因的突变；

其中所述转录组数据集合代表所述患者的所述患病组织中的所述至少一个基因的表达水平；

使至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联；

将所述至少一个突变的基因中的突变识别为无义突变且识别具有所述无义突变的所述至少一个突变的基因的表达水平；以及

一旦识别出具有所述无义突变的所述至少一个突变的基因的表达水平高于所述患者的正常组织的表达水平，则更新或生成组学数据库中的组学记录而将所述至少一个突变的基因识别为癌症标记。

本发明的另一个方面提供了一种组学记录计算机系统，包括：

至少一个处理器；

至少一个存储器，其与所述处理器连接且被配置成存储：

基因组数据集合，所述基因组数据集合代表患者的患病组织中的至少一个基因的突变；

转录组数据集合，所述转录组数据集合代表所述患者的所述患病组织中的至少一个基因的表达水平；

分析引擎，其在信息上连接至存储有基因组数据集合和转录组数据集合的组学数据库，且能够根据存储在所述至少一个存储器中的软件指令在所述至少一个处理器上执行，且所述处理器配置成：

(a)使至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联；

(b)将所述至少一个突变的基因中的突变识别为无义突变且识别具有所述无义突变的所述至少一个突变的基因的表达水平；以及

(c)识别出具有所述无义突变的所述至少一个突变的基因的表达水平高于所述患者的正常组织的表达水平；

(d)通过所述分析引擎更新或生成组学数据库中的组学记录而将所述至少一个突变的基因识别为癌症标记。

本发明的又一个方面提供了一种非暂时性计算机可读介质，其包含用于使计算机系统执行方法的程序指令，其中所述方法包括下述步骤：

获得基因组数据集合和转录组数据集合；

本发明的又一个方面提供了患者的基因组数据集合和转录组数据集合识别罹患肿瘤的患者的癌症标记的用途，包括：

获得和生成基因组数据集合和转录组数据集合；

其中所述基因组数据集合包括代表所述患者的患病组织的至少一个肿瘤相关的基因中的突变的DNA序列数据，且其中所述突变是相对于所述患者的正常组织；

其中所述转录组数据集合包括1)代表所述至少一个肿瘤相关的基因中的突变的RNA序列数据和2)所述患者的所述患病组织的所述至少一个肿瘤相关的基因的RNA表达水平数据，且其中所述突变和表达水平是相对于所述患者的正常组织；

利用所述突变使所述转录组数据集合与所述基因组数据集合相关联；

将所述突变识别为无义突变，且识别出所述突变为无义突变；以及

识别所述至少一个基因的表达水平高于所述患者的正常组织的表达水平。

从下面的优选实施方案的详细描述以及附图，本发明主题的各种目的、特征、方面以及优势将变得更明显，在附图中相同的数字表示相同的部件。

附图说明

图1是根据本发明主题的组学记录计算机系统的示例性示意图。

图2是阐释了选定癌症的体细胞突变曲线的图。

图3-1到3-4是提供了特定癌症的选定基因中的突变类型和发生的详细视图的图。

图4是描绘了同义突变相对于所有突变的突变等位基因分数(DNA对RNA)的散点图。

图5是描绘了错义突变相对于所有突变的突变等位基因分数(DNA对RNA)的散点图。

图6是描绘了无义突变相对于所有突变的突变等位基因分数(DNA对RNA)的散点图。

图7是阐释了同义突变的表达水平随突变位置变化的图。

图8是阐释了错义突变的表达水平随突变位置变化的图。

图9是阐释了无义突变的表达水平随突变位置变化的图。

图10是绘制了具有无义突变的高表达RNA相对于CDKN2A基因中的无义突变的位置的图。

图11是绘制了具有无义突变的高表达RNA相对于ARID1A基因中的无义突变的位置的图。

图12是绘制了具有无义突变的高表达RNA相对于FAT1基因中的无义突变的位置的图。

图13是绘制了具有无义突变的高表达RNA相对于TP53基因中的无义突变的位置的图。

图14是绘制了具有无义突变的高表达RNA相对于PTEN基因中的无义突变的位置的图。

具体实施方式

发明人发现癌组织中的基因组突变并不同等地转录成RNA，而是癌症相关基因中的选定突变类型，且尤其是无义突变以较高的比率被转录，如果突变位于癌症相关基因的3-端部分内尤其如此。甚至更值得注意的，发现这样高转录的基因涉及了不止一种癌症种类。因此，发明人设想了基于整合的基因组信息和转录组信息来检测用于诊断并治疗各种癌症的分子标记的系统和方法。从另一个角度看，患者特异性的高转录的突变RNA(且尤其是无义突变RNA)可以被识别为和/或被用作针对各种癌症的存在、治疗和/或预防的诊断工具。为此，下面更详细地设想并讨论了处理组学数据的各种方法和组学记录计算机系统。

应注意到，涉及计算机的任何表述应该被理解为包括计算设备的任何合适的组合，计算设备包括服务器、接口、系统、数据库、代理、同位体(peer)、引擎、控制器、模块或单独操作或集中操作的其它类型的计算设备。应理解，计算设备包括处理器，该处理器被配置成执行存储在有形的、永久性的计算机可读存储介质(如硬驱、FPGA、PLA、固态驱动器、RAM、flash、ROM等)上的软件指令。软件指令配置或另外编程计算设备以提供正如下面关于所公开的装置所讨论的作用、职责或其它功能。此外，所公开的技术可以具体体现为包括永久性计算机可读介质的计算机程序产品，该计算机可读介质存储使处理器执行所公开的与基于计算机的算法、过程、方法或其它指令的执行相关的步骤的软件指令。在一些实施方案中，各种服务器、系统、数据库或接口使用可能基于HTTP、HTTPS、AES、公钥-私钥交换、web服务API、已知的财务交易协议或其它电子信息交换方法的标准协议或算法来交换数据。设备中的数据交换可以通过下述网络进行：分组交换网络、互联网、LAN、WAN、VPN或其它类型的分组交换网络；电路交换网络；蜂窝交换网络；或其它类型的网络。

正如在本文的说明书和下面的整个权利要求中使用的，当系统、引擎、服务器、设备、模块或其他计算元件被描述为配置成对存储器中的数据施行或执行功能，“配置成”或“编程为”被定义为由存储在计算元件的存储器中的软件指令集合编程的计算元件的一个或多个处理器或核以执行功能集合或对存储在存储器中的目标数据或数据对象操作。

例如，图1显示了组学记录计算机系统和处理组学数据的方法的一种所设想的实施。此处，组学记录计算机系统100包括存储器110和连接至存储器的处理器140。存储器110中存储的是基因组数据集合120和转录组数据集合130。可选择地或另外，基因组和/或转录组数据集合还可以由分析引擎150的数据集合生成器151提供。在这样的情形中，原始序列数据可以由序列数据库和/或产生组学数据的测序设备170提供。不考虑基因组数据集合120和转录组数据集合130的来源，设想软件指令112被存储在用于存储器中以便对处理器140执行以将处理器配置成作为分析引擎150来操作，分析引擎150提供对数据集合的各种功能和操作。例如，分析引擎150包括用于数据集合相关联152的模块以利用突变使基因组数据集合与转录组数据集合相关联(如使数据集合与基因组内的共同位置中的突变成对或以其他方式使两者相关联)。分析引擎还可以包括识别突变类型(如为同义突变或无义突变)的突变识别模块154、识别基因或转录物内的突变位置的位置识别模块156以及识别突变的转录物的表达水平(如，相对于同一患者的匹配的未突变的转录物)的表达水平识别模块158。当识别的突变为无义突变时，突变位置被识别(如位于基因的3'-端部分内)且基因的表达水平被识别。最后，识别位置和表达水平随后用于更新组学数据库160中的组学记录。

本文设想的基因组数据集合可以包括各种信息且可以以多种方式被格式化。因此，合适的基因组数据集合可以包括来自测序设备或原始数据存储设备的原始数据。当然，应理解，原始数据可以以多种方式被处理。例如，原始数据可以被预处理以便改进数据传输(如，正如PCT/US14/65562中描述的)和/或被格式化以有利于下游处理。特别优选的格式包括BAM、SAM以及FASTA格式。如果原始数据或预处理的数据被提供，那么数据集合生成器可以将这样的数据转换成如上所述的合适的格式。在一些方面中，基因组数据集合是包括患病组织和健康组织两者的匹配的DNA序列信息的数据集合。虽然这样的数据集合中的特定序列长度并不被限制到本发明的主题，但是应注意到，数据集合可以包括相对小的片段(如30直至100、30直至300、30直至500、30直至700等)，或较长的片段(如lkb直至10kb、l0kb直至100kb、100kb直至500kb、500kb直至2mb、2mb直至10mb等。)的比对。在其他方面，基因组数据集合是不同的序列对象，通常从正如在US20120059670和US20120066001中讨论的BAM文件的同步且增量的比对获得的。特别设想的不同的序列对象将包括突变(如转换、颠换、缺失、插入、重排等)的识别，通常关于基因组或外显子组中的特定位置(如关于染色体上的碱基位置、特定基因内的位置、特定外显子内的位置等)，其中突变是相对于来自同一位患者的匹配的相应样品(如突变是同一供体的患病组织对相应的健康组织)。应进一步认识到，基因组数据集合可以从许多来源材料生成，且优选的来源材料包括全基因组序列和富集外显子组的基因组序列(或经由电脑模拟计算的外显子组序列)。不考虑来源材料，所设想的基因组数据集合将包括至少一种，且更通常至少两种序列信息、位置信息、基因信息、参考基因组的参考信息、拷贝数、读长支撑(read support)以及质量分数。基因组数据集合将优选包括匹配序列的这样的信息，匹配序列即患病组织的序列和健康组织的相应序列。从不同的角度看，基因组数据集合将提供关于从同一位患者的健康组织和患病组织获得的DNA序列的差异的特异性的不同信息。

类似地，设想转录组数据集合可以显著变化，且可以包括来自测序设备或原始数据存储设备的原始数据。正如之前的，这样的数据可以被预处理用于分组，正如描述在PCT/US14/65562中的或被格式化以有利于下游处理。特别优选的格式包括BAM、SAM以及FASTA格式。如果提供原始数据或预处理过的数据，数据集合生成器可以将这样的数据转换成如上所述的合适的格式。在一些方面，转录组数据集合是包括患病组织和健康组织两者的匹配的RNA序列信息的数据集合。虽然在这样的数据集合中的特定的序列长度并未被限制到本发明的主题，但是应注意到，数据集合可以包括相对小的片段(如30直至100、30直至300、30直至500、30直至700等)或较长的片段(如lkb直至5kb、5kb直至20kb、20kb直至100kb等)的比对。在其他方面，基因组数据集合是不同的序列对象，通常从正如在US20120059670和US20120066001中讨论的BAM文件的同步且增量的比对获得的。正如上文，特别设想的不同序列对象将包括突变(如转换、颠换、缺失、插入、重排等)的识别，通常关于RNA、mRNA或原发性RNA转录物中的特定位置(如关于染色体或原发性转录物上的碱基位置、特定基因内的位置、特定外显子内的位置，特定剪接变异体等)，其中突变是相对于来自同一患者的匹配的相应样品(如，突变是同一供体的患病组织对相应的健康组织)。转录组数据集合可以从许多源材料产生，优选的材料是(优选逆转录的)mRNA和原发性转录物(hnRNA)。RNA序列信息从逆转录多聚A⁺-RNA获得，这又从同一位患者的肿瘤样品和匹配的正常(健康)样品获得。此外，应注意到，同一位患者样品还可以被用于DNA分析以及基于组织或细胞的蛋白组学分析。类似地，应注意到，虽然多聚A⁺-RNA是通常优选的转录组的代表，但其他形式的RNA(hn-RNA、非聚腺苷酸化的RNA、siRNA、miRNA等)也被适合于用在本文。不考虑材料，转录组数据集合将包括至少序列信息、位置信息、基因信息、参考基因组的参考信息、拷贝数、读长支撑以及质量分数等。此外，转录组数据集合通常将包括匹配序列的这样的信息，匹配序列即同一位患者的患病组织的序列和健康组织的相应序列。

在仍另外设想的方面，基因组数据集合和转录组数据集合可以被合并成包括患病组织和对应的健康组织(通常来自同一供体/患者)的DNA和RNA序列信息的单个数据集合。在这样的情形中，特别优选的是合并的组学数据集合由位置同步增量比对中的各自的DNABAM文件和RNA BAM文件制备，产生了含有患病组织和匹配的健康组织的DNA序列和RNA序列两者的关于至少序列、突变位置、拷贝数、表达水平等的特定序列或基因的差异的不同的序列对象。

关于生成基因组数据集合和/或转录组数据集合的特别设想的方面，因此，设想利用如描述在US 2012/0059670和US 2012/0066001(它们在此通过引用并入)中的算法和方法来优先进行肿瘤和匹配的RNA的同时分析。此外，应理解肿瘤和匹配的DNA分析可以利用同一位患者的样品来进行，因而提供了同一位患者的且来自同一份样品的基因组数据和转录组(RNA组学)数据。这些数据随后可以利用如描述在WO/2011/139345和WO/2013/062505(它们在此通过引用并入)中的系统和方法被进一步处理以获得通路相关的数据。因而，应注意到，针对一位患者的单通路分析可以由单个患者的样品和匹配的对照来进行，这将比单个组学分析显著改善并完善分析数据。此外，同样的分析方法可以借助额外的组学数据(如蛋白组学数据)和/或患者特异性的历史数据(如先前的组学数据、当前的或过去的药物治疗等)被进一步完善。此外，应注意到，还可以从多种其它来源获得进一步的数据，这些来源包括各种商业测序中心和/或学术机构。基于这些数据，可以做出更准确的诊断或预测，以及基于完善的通路分析的治疗选项。

关于本文的系统和方法中使用的相应的组织，通常设想至少两种不同的组织来用于生成基因组数据集合和转录组数据集合。例如，如果第一组织是患病组织(如，肿瘤的、癌症的、受感染的、受创伤的等)，那么第二组织是可以从或可以不从同一个器官或组织类型获得的非患病组织。可选择地或另外，第一组织和第二组织可以都是患病的且来自不同的部位，以便及时识别或表征治疗效果、疾病进展或逆转等。

所设想的分析引擎通常将包括用于数据集合相关联的模块，该模块利用突变使基因组数据集合与转录组数据集合相关联(如，使基因组数据集合和转录组数据集合与基因组内的共同位置中的突变成对或以其他方式使两者相关联)。从另一角度看，基因组数据集合和转录组数据集合被比对，从而可以比较基因组数据集合与转录组数据集合之间对应的序列或位置，且从而基因组数据集合和转录组数据集合包括共同的突变。因而，相关联模块使患病组织和健康组织两者的DNA信息通常与相应的RNA信息保持一致，或如果提供不同的序列对象，那么相关联模块使患病组织的DNA和健康组织的DNA之间的不同序列对象中的相应突变与患病组织的相应RNA序列和健康组织的相应RNA序列之间的不同序列对象保持一致。这样，应理解，关于特定位置的特异性突变的所有相关的信息(如突变类型、突变的序列信息、拷贝数信息、转录水平信息等)可以被相关联以便用于进一步的分析。

所设想的分析引擎还将包括用于突变识别的模块，该模块识别和/或分类基因组数据集合和转录组数据集合中的任何突变，其中识别和分类包括识别至少无义突变，且进一步识别错义突变和/或同义突变。当然，应注意到，也可以识别和/或分类与突变相关联的额外的信息，且这样的额外信息的典型示例包括移码信息、易位信息、选择性剪接信息、重排信息等。

在本发明主题的进一步设想的方面中，分析引擎将包括被配置成识别在受突变影响的基因内的所识别的突变的位置的模块和被配置成识别携带突变的基因的表达(转录)水平的另外的模块(通常利用转录组数据集合中提供的信息)。例如，且正如下面更详细描述的，位置识别可能与评估突变是无义突变时的突变的重要性相关。因此，位置信息可以包括识别或证实突变位于基因和/或转录物的3'-端部分内。正如在本文中使用的，术语“在3'-端部分内”指的是具有序列的3'-端50％、或3'-端40％、或3'-端30％、或3'-端20％或3'-端10％的位置。从另一个角度看，术语“在3'-端部分内”还可以指3'-端外显子或最后两个3'-端外显子或最后三个3'-端外显子。

基于下面的发明人的发现，患者的组学记录可以基于从相配合的基因组/转录物组学分析获得的信息来更新或生成。例如，如果基因组和转录组中的突变是基因中的无义突变且如果该基因的转录水平大于相应的未突变基因的转录水平，那么可以更新组学记录。合适的组学数据库通常将包括来自多位患者的组学记录且可以用于存储组学原始数据或处理过的数据、基因组数据集合、转录组数据集合、不同的序列对象、BAM文件等。

因此，鉴于上文和下面的实施例，应该认识到，所设想的系统和方法将易于提供一条新的途径来基于基因组信息和转录组信息识别用于治疗和诊断癌症的潜在的分子标记。从不同的角度看，发明人设想通过患者特异性地识别基因组突变和相应的RNA表达水平，那么高转录的突变RNA(且尤其是无义突变RNA)可以被证实作为和/或用作各种癌症的存在、治疗或预防的诊断工具。

例如，正如表1中示例性显示的，TCGA提供了针对13种不同种类癌症的大量的外显子对数据(总共>5,000)以及相应的RNA序列(总共>3,900)。利用这些数据，可以进行正如下面更详细描述的许多DNA/匹配的RNA的分析。

表1

来自TCGA的数据的进一步分析提供了上面的表1中列出的癌症的各种体细胞突变曲线，且每Mb的突变频率示例性地描绘在图2中。正如可以看到的，大多数突变频率在一个数量级内且具有基本上类似的s形分布图案。图3示例性地提供了癌症种类内的选定基因的体细胞突变曲线的更详细视图，矩形图中列出了具有各突变类型(错义、无义、移码、整码)的每一种肿瘤类型的受影响最大的基因。此外，图3还阐释了在受影响最大的基因中的单个肿瘤种类中的突变类型的潜在关联。正如可以看到的，在整个所有肿瘤种类中，没有看到明显的偏倚或特异性的关联。

关于转录，发明人注意到，正如从下面的表2获得的，基因组中的大量(>80％)的突变也被表达/存在于转录组中，且没有对特定类型(如同义、错义、无义)的突变具有表观上明显的偏好或反对。正如可以从表2获得的，无义突变的总分数是全部检测到的突变的约5％，同义突变的总分数是全部检测到的突变的约28％以及错义突变的总分数是全部检测到的突变的约67％。正如本文中使用的，术语“检测到的”意指在RNA-序列数据中存在至少一个支持突变等位基因的读长，而术语“不存在”意指在RNA-序列数据中未检测到突变等位基因。此外，表2中的数据仅仅考虑了具有置信度>＝20的突变，且至少20个读长覆盖RNA-序列中的位置。

表2

图4-6提供了同义突变(图4)、错义突变(图5)以及无义突变(图6)的DNA突变等位基因分数(MAF)对RNA的基因组宽度分析，表明与所有突变相比，在转录中没有对无义突变和错义突变明显的偏好。然而，应注意到，正如从上面的表2中反映出来的，一部分突变DNA并未被转录成RNA，正如在图5中也具体标示的。值得注意的是，图6描绘了对较低转录/不转录的突变DNA的中等偏好，这引导发明人对这样明显的偏好分析可能的机理。令人惊奇地，当绘制转录比率对每一种突变类型的突变位置的图时，发明人注意到，正如可以从图7-9看到的，观察到对同义突变和错义突变同样缺乏显著的偏好，但正如图9中显示的，在无义突变的情形中，在基因的3'-端部分内且尤其是最后两个端外显子，无义突变是明显高表达的。

在更密切的研究后，且当研究涉及基因组宽度的转录时，与表观上缺乏偏好的突变类型相比，癌症样品中的若干个选定基因的确显示出明显高表达的图案，其中基因具有无义突变，正如下面的表3中列出的。

表3

令人惊奇地，这些突变基因中的大部分与鳞状细胞恶性肿瘤相关联。图10-14示例性地描绘了转录比率高于正常值且这样的高表达与位于基因/转录物的3-端部分内的无义突变相关联的选定基因的分析。在这些附图中，虚线表示高表达基因的阈值，(即突变体读长支撑排名高于参考的50％)。基于这些数据，应理解，上述突变基因将易于起到相关癌症的预测或诊断标记的作用。因此，应理解，高转录的无义突变(尤其是突变位于基因的3-端部分内时)可以被用在检测用于诊断和治疗各种癌症的分子标记的系统和方法中。

因而，已经公开了组学分析方法的具体实施方案和应用。对本领域技术人员应该明显的是，除了已经描述的之外的许多更多的改变是可能的而并不偏离本文的本发明的构想。因此，除了在所附权利要求的范围内，本发明的主题并不受限制。此外，在解释说明书和权利要求时，所有的术语应该以与上下文一致的、尽可能宽泛的方式被解释。具体地，术语“包括(comprises)”和“包括(comprising)”应该被解释为以非唯一的方式涉及要素、部件或步骤，表示所涉及的要素、部件或步骤可以存在或利用或与未明确涉及的其他要素、部件或步骤结合。如果说明书和权利要求涉及选自由A、B、C…以及N组成的组中的至少一者的情况下，那么该文字应被解释为仅要求该组中的一个要素，而不是A加上N或B加上N等。

Claims

1.一种识别癌症标记的方法，包括：

获得基因组数据集合和转录组数据集合；

2.如权利要求1所述的方法，其中所述基因组数据集合中的所述至少一个基因的突变是相对于所述患者的正常组织。

3.如权利要求1所述的方法，其中所述基因组数据集合中的所述至少一个基因的突变是患者特异性的。

4.如权利要求1所述的方法，其中所述至少一个基因的表达水平是相对于所述患者的所述正常组织。

5.如权利要求1所述的方法，其中序列分析引擎进一步用于识别所述至少一个基因的所述突变的位置。

6.如权利要求1所述的方法，其中所述组学记录还表示所述至少一个突变的基因确定所述癌症的存在、治疗或预防的用途。

7.如权利要求1所述的方法，其中所述至少一个突变的基因在至少两种不同的癌症中突变。

8.如权利要求1所述的方法，其中所述至少一个突变的基因在至少四种不同的癌症中突变。

9.如权利要求1所述的方法，其中使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联通过比对从而能够在所述基因组数据集合和所述转录组数据集合之间比较相应的序列或位置来进行。

10.如权利要求1所述的方法，其中使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联通过合并所述基因组数据集合和所述转录组数据集合来进行。

11.如权利要求1所述的方法，其中所述方法由序列分析引擎执行。

12.一种组学记录计算机系统，包括：

至少一个处理器；

至少一个存储器，其与所述处理器连接且被配置成存储：

13.如权利要求12所述的计算机系统，其中所述基因组数据集合中的所述至少一个基因的所述突变是相对于所述患者的正常组织。

14.如权利要求12所述的计算机系统，其中所述基因组数据集合中的所述至少一个基因的所述突变是患者特异性的。

15.如权利要求12所述的计算机系统，其中所述至少一个基因的所述表达水平是相对于所述患者的所述正常组织。

16.如权利要求12所述的计算机系统，其中序列分析引擎进一步用于识别所述至少一个基因的所述突变的位置。

17.如权利要求12所述的计算机系统，其中所述组学记录还表示所述至少一个突变的基因确定所述癌症的存在、治疗或预防的用途。

18.如权利要求12所述的计算机系统，其中所述至少一个突变的基因在至少两种不同的癌症中突变。

19.如权利要求12所述的计算机系统，其中所述至少一个突变的基因在至少四种不同的癌症中突变。

20.如权利要求12所述的计算机系统，其中使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联通过比对从而能够在所述基因组数据集合和所述转录组数据集合之间比较相应的序列或位置来进行。

21.如权利要求12所述的计算机系统，其中使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联通过合并所述基因组数据集合和所述转录组数据集合来进行。

22.一种非暂时性计算机可读介质，其包含用于使计算机系统执行方法的程序指令，其中所述方法包括下述步骤：

获得基因组数据集合和转录组数据集合；

23.如权利要求22所述的非暂时性计算机可读介质，其中所述基因组数据集合中的所述至少一个基因的所述突变是相对于所述患者的正常组织。

24.如权利要求22所述的非暂时性计算机可读介质，其中所述基因组数据集合中的所述至少一个基因的所述突变是患者特异性的。

25.如权利要求22所述的非暂时性计算机可读介质，其中所述至少一个基因的所述表达水平是相对于所述患者的所述正常组织。

26.如权利要求22所述的非暂时性计算机可读介质，其中序列分析引擎进一步用于识别所述至少一个基因的所述突变的位置。

27.如权利要求22所述的非暂时性计算机可读介质，其中所述组学记录还表示所述至少一个突变的基因确定所述癌症的存在、治疗或预防的用途。

28.如权利要求22所述的非暂时性计算机可读介质，其中所述至少一个突变的基因在至少两种不同的癌症中突变。

29.如权利要求22所述的非暂时性计算机可读介质，其中所述至少一个突变的基因在至少四种不同的癌症中突变。

30.如权利要求22所述的非暂时性计算机可读介质，其中使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联通过比对从而能够在所述基因组数据集合和所述转录组数据集合之间比较相应的序列或位置来进行。

31.如权利要求22所述的非暂时性计算机可读介质，其中使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联通过合并所述基因组数据集合和所述转录组数据集合来进行。

32.患者的基因组数据集合和转录组数据集合识别罹患肿瘤的患者的癌症标记的用途，包括：

获得和生成基因组数据集合和转录组数据集合；

33.如权利要求32所述的用途，其中所述转录组数据集合和所述基因组数据集合是不同的序列对象。

34.如权利要求32所述的用途，其中所述患病组织是癌组织。

35.如权利要求32所述的用途，其中当所述突变在同一位置时，所述转录组数据集合与所述基因组数据集合相关联。

36.如权利要求32所述的用途，其中所述转录组数据从cDNA或多聚A+-RNA获得。

37.如权利要求32所述的用途，其中所述基因组数据集合中的所述至少一个基因的所述突变是患者特异性的。

38.如权利要求32所述的用途，还包括识别所述至少一个基因的所述突变的位置的步骤。

39.如权利要求38所述的用途，其中所述突变的所述位置在所述至少一个基因的3’-端部分内。

40.如权利要求38所述的用途，其中所述突变的所述位置在所述至少一个基因的最后两个外显子内。

41.如权利要求32所述的用途，其中所述至少一个突变的基因在至少两种不同的癌症中突变。

42.如权利要求32所述的用途，其中所述至少一个突变的基因在至少四种不同的癌症中突变。

43.如权利要求32所述的用途，其中所述基因选自由CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1以及MRPL32组成的组。

44.如权利要求32所述的用途，其中通过比对从而能够在所述基因组数据集合和所述转录组数据集合之间比较相应的序列或位置来使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联。

45.如权利要求32所述的用途，其中通过合并所述基因组数据集合和所述转录组数据集合来使所述至少一个突变的基因的所述转录组数据集合与所述至少一个突变的基因的所述基因组数据集合相关联。

46.如权利要求32所述的用途，还包括当所识别的突变是无义突变且所识别的表达水平在相对于所述正常组织的表达水平之上时，利用所述突变的位置和所述表达水平由序列分析引擎来更新或生成所述组学记录的步骤。

47.如权利要求46所述的用途，所述组学记录还表示所述至少一个突变的基因确定所述癌症的存在、治疗或预防的用途。