CN111670255A

CN111670255A - 来自液体瘤和实体瘤的bam特征及其用途

Info

Publication number: CN111670255A
Application number: CN201980011035.6A
Authority: CN
Inventors: 沙赫鲁兹·拉比扎德; 派翠克·松吉翁
Original assignee: Nantes Intellectual Property Holding Co ltd; Nantomics LLC
Current assignee: Nantes Intellectual Property Holding Co ltd; Nant Holdings IP LLC; Nantomics LLC
Priority date: 2018-02-12
Filing date: 2019-02-11
Publication date: 2020-09-15
Also published as: EP3752638A1; US20190249229A1; WO2019157470A1

Abstract

通过将来自在治疗期间和/或之后获得的液体活检物的序列数据与来自在治疗之前获得的实体瘤的肿瘤和患者特异性序列数据进行比较来监测被诊断患有癌症的患者的治疗。

Description

来自液体瘤和实体瘤的BAM特征及其用途

技术领域

本发明的领域是监测各种肿瘤性疾病的治疗，并且尤其涉及使用液体活检物监测正在进行的治疗。

背景技术

背景描述包括可用于理解本发明的信息。并不承认本文提供的任何信息是现有技术或与当前要求保护的发明相关，也不承认具体地或隐含地提到的任何出版物是现有技术。

本文中的所有出版物和专利申请都通过引用并入，其程度如同每个单独的出版物或专利申请被具体地且单独地指明通过引用并入一样。在并入的参考文献中的术语的定义或用法与本文提供的该术语的定义不一致或相反时，适用本文提供的该术语的定义，而不适用该术语在该参考文献中的定义。

在治疗被诊断患有癌症的患者之前对肿瘤组织进行基因测试已经变得相对普遍，并且常常包括癌基因集(gene panels)、外显子组测序、以及甚至全基因组测序。这种检测在至少一些情况下实现高度个性化的治疗。然而，在进行肿瘤组织的全基因组或外显子组测序时，大量采集的数量常常呈现出逻辑和/或计算方面的挑战(例如，30x覆盖度的肿瘤基因组FASTQ序列文件为大约220GB)。此外，尤其是由于重复肿瘤活检产生的风险和不适以及生成以用于处理的甚至更大量的序列数据等因素，通常不对肿瘤组织进行持续基因检测来监测治疗进展。

为了规避与重复肿瘤活检相关联的问题，游离或循环DNA最近已经用作肿瘤活检物的代替物并且获得关注以监测或检测肿瘤生长。例如，使用参考基因组(hg19)针对热点突变分析来自肿瘤组织的DNA和来自血液的游离DNA(cfDNA)，并且显示至少对于一些标记物而言，cfDNA是适用的(Clin Canc Res.[临床癌症研究]2016,OF1-9)。然而，虽然特异性为约95％，但是该检测仅具有55％的敏感度。在其他报告中，在血浆和与总体存活率相关的循环DNA的总量中追踪所选突变(NEJM[新英格兰医学期刊]2013,368:1199-1209)，并且在又另一个研究中，使用鸟枪测序检测并定量针对参考基因组(hg18)的全基因组集合的等位基因缺失和点突变。在此，确定血浆中肿瘤来源的DNA的分数浓度，且由此获得的值与肿瘤大小和手术治疗相关(Clin Chem.[临床化学]2013,59:1,211-224)。在其他地方，针对所选的妇科癌症报告了某些循环肿瘤DNA(ctDNA)生物标记物(PLoS ONE 10(12):e0145754)以鉴定肿瘤状态。

为了选择肿瘤标记物，US 2016/0032396传授了鉴定可以由循环肿瘤DNA检测的癌症相关突变模式的统计学方法。在又一种方法中，在US 2017/0211153中描述了用于使用尿液和血浆样品预测治疗应答的拷贝数变异分析。虽然此类方法实现对于肿瘤存在或状态的一定窥测，但是仍然存在各种困难。除其他问题以外，肿瘤常常是遗传异质性的并且往往在治疗期间改变和/或经历克隆选择，这典型地不易于使用分析游离DNA的常规方法来监测。此外，使用参考基因组(例如，hg18或19)将使与鉴定对于肿瘤而言为真的突变相关联的问题进一步加重。

因此，虽然对于被诊断患有癌症的患者，本领域中许多对游离DNA的基因检测的方法是已知的，但是仍然存在各种缺点。因此，仍然需要基于cfDNA的测试、并且尤其是其中采用这种测试来监测患者的正在进行的治疗的改进的系统和方法。

发明内容

本发明主题涉及使用在治疗之前采集的实体瘤的序列信息以及在治疗期间和之后来自液体活检物的后续序列信息来监测癌症治疗的方法和系统，其中这些液体活检物的序列信息优选地通过深度(例如，至少50x，或至少100x)全外显子组测序获得。此外，通常优选的是，针对实体瘤的肿瘤和患者特异性序列信息以及针对同一患者的匹配的正常序列信息比较这些液体活检物的序列信息，以便有利地实现对新产生的突变和/或克隆选择或扩增的鉴定。

在本发明主题的一方面，发明人设想一种监测患者治疗的方法，该方法包括在治疗之前获得患者的实体瘤的患者和肿瘤特异性突变数据的步骤，其中该突变数据由该患者的实体瘤组织的第一序列数据和该患者的匹配的正常组织的第二序列数据生成。在另一个步骤中，并且在治疗期间，获得该患者的液体活检物的第三序列数据，并且在又一个步骤中，使用该第三序列数据以及该突变数据和该第一序列数据中的至少一个来确定治疗特征。最典型地，该治疗特征代表对于该治疗的应答。

虽然不限于本发明主题，但是通常优选的是，该突变数据通过该第一序列数据与该第二序列数据的增量同步比对来生成，并且该治疗特征通过该第一序列数据与该第三序列数据的增量同步比对以及该第二序列数据与该第三序列数据的增量同步比对中的至少一个来生成。例如，该突变数据可以呈VCF格式，并且该治疗特征可以通过该突变数据针对该第三序列数据的差异分析来生成。最典型地，该第一和第二序列数据是全基因组序列数据或全外显子组序列数据，并且该第一和第二序列数据具有10x与50x之间的读取深度，而该第三序列数据具有20x与500x之间的读取深度。在需要的情况下，该突变数据和该治疗特征呈VCF格式。

在另外设想的方面，该第一和第二序列数据是全基因组序列数据，并且该第三序列数据是全外显子组序列数据。此外，设想到该第一和第二序列数据具有的读取深度小于该第三序列数据的读取深度。通常，该液体活检物取自全血、脊髓液、腹水、或尿液。如容易地理解的，该液体活检物可以进一步被处理以分离外泌体、游离DNA、游离RNA、或循环肿瘤细胞，并且从这些分离的外泌体、游离DNA、游离RNA、或循环肿瘤细胞获得该第三序列数据。

另外，设想到该治疗特征可以通过将该第三序列数据与该突变数据进行比较来确定，或者该治疗特征可以通过将该第三序列数据与该第一和第二序列数据进行比较来确定。在这种情况下，优选该第一、第二、和第三序列数据通过增量同步比对来比较。在又另外设想的方面，该方法可以另外包括在治疗期间获得该患者的另一个液体活检物的第四序列数据的步骤，以及使用该第四序列数据以及该突变数据、该第一序列数据、和该第三序列数据中的至少一个来计算代表对于该治疗的后期应答的第二治疗特征的另一个步骤。在需要的情况下，所设想的方法还可以包括鉴定该突变数据和/或该治疗特征中的克隆亚群的步骤。此外，设想到该计算治疗特征的步骤可以包括比较该第一与第三序列数据之间的对应突变的丰度或等位基因分数的步骤，并且/或者该计算治疗特征的步骤可以包括比较该第一、第二、和第三序列数据之间的对应突变的丰度或等位基因分数的步骤。另外，该计算治疗特征的步骤可以包括鉴定该第三序列数据中相对于该第一和第二序列数据中的至少一个的新突变的步骤，和/或在治疗之后从该患者的液体活检物获得治疗后序列数据的步骤。

根据优选实施例的以下详细描述，本发明主题的各种目标、特征、方面和优点将变得更显而易见。

具体实施方式

发明人现在发现癌症治疗可以使用从肿瘤和匹配的正常物获得的序列信息结合从液体活检物获得的序列信息的组学分析来监测。在本发明主题的优选方面，首先典型地在第一治疗之前通过患者的肿瘤和匹配的正常组织的增量同步比对来采集肿瘤突变或肿瘤突变特征。在治疗开始之后，优选地由例如来自外周血或其他生物液体的液体活检物的深度测序获得另外的序列信息。然后将液体活检物的如此获得的序列信息与从肿瘤(以及任选地还从匹配的正常物)获得的序列信息或者与来自肿瘤相对于匹配的正常物的压缩输出(诸如VCF文件)进行比较，以便得到代表治疗应答的第一治疗特征。此外，在癌症的免疫疗法包括DNA疫苗接种或使用重组病毒(例如，使用重组腺病毒)的治疗的情况下，也可以使用液体活检物的深度测序来监测来自该疗法的重组DNA。

当然，应当理解，液体活检物含有来自各种不同的隔室的核酸(例如，来自循环肿瘤细胞的DNA和/或RNA，来自外泌体的DNA和/或RNA，和游离DNA和/或RNA)。因此，本文设想的分析不仅可以提供关于来自液体活检物的序列读取中的变化的信息，还提供关于变化的序列读取的来源的信息(例如，循环肿瘤细胞和/或外泌体减少)。另外，本文设想的分析还允许鉴定肿瘤和/或液体活检物中的亚克隆群体(例如，经由(相对)丰度或等位基因频率的确定)，并且由此提供关于该治疗针对亚克隆群体的选择性或选择性功效的信息。

有利地，来自所有来源(即，肿瘤组织、正常组织、液体活检物)的组学数据将具有足够的读取深度，以便实现等位基因频率和/或倍性(等位基因/基因/染色体拷贝数)的统计学上显著的确定。这种确定将有利地通过比对的读取进行，其中这种比对是针对人参考序列和/或针对匹配的正常物。例如，可以针对人参考序列(例如，hg18或hg19)分析原始序列读取以鉴定样品(相对于参考突变)，可以BAM或SAM格式比对原始序列读取以用于随后与另一组呈BAM或SAM格式的序列读取进行比较，以便在例如增量同步比对中鉴定患者和肿瘤特异性突变。因此，组学数据最优选地呈GAR、SAM、或BAM格式。关于来自液体活检物的组学数据的读取深度，通常设想到该读取深度等于或大于，并且在大部分情况下显著大于同一患者的肿瘤和匹配的正常组织的读取深度。例如，来自液体活检物的组学数据的合适读取深度为至少20x、或至少50x、或至少70x、或至少100x、或至少150x、或至少150x、或至少200x、或至少250x、或至少300x、或至少400x、或至少500x。从不同的角度来看，设想的读取深度在20-50x之间、或在50-100x之间、或在100-200x之间、或在200-500x之间、或甚至更高。因此，肿瘤/匹配的正常组织的读取深度与液体活检物的读取深度的比率为至少1:2、或至少1:3、或至少1:5、或至少1:10、或至少1:15、或至少1:20。

在大部分情况下，肿瘤/匹配的正常组织的组学数据优选为遵循本领域熟知的标准方案可以来源于全基因组测序(例如，双端测序)或全外显子组测序的DNA组学数据。替代性地，测序可以更局限于所选的基因或感兴趣的区域，并且合适的所选的基因包括癌症驱动基因、遗传性癌症风险基因、和先前在患者中被鉴定为突变的基因(不论突变的功能影响如何)。同样，液体活检物的组学数据优选为遵循本领域熟知的标准方案可以来源于从液体活检物获得的DNA(进行或不进行富集在特定隔室诸如外泌体或循环癌细胞中的处理，或前扩增步骤)的全外显子组测序(例如，双端测序)或全外显子组测序的DNA组学数据。与之前一样，来自液体活检物的DNA的测序也可以更局限于所选的基因或感兴趣的区域，并且合适的所选的基因也包括癌症驱动基因、遗传性癌症风险基因、和先前在患者中被鉴定为突变的基因(不论突变的功能影响如何)。

因此，肿瘤/匹配的正常组织和液体活检物的组学数据可以全部是全基因组或全外显子组序列数据，或者肿瘤/匹配的正常组织和液体活检物的组学数据可以是全基因组或全外显子组序列数据，而液体活检物的组学数据可以局限于所选的基因或感兴趣的区域(例如，局限于癌症驱动基因、遗传性癌症风险基因、在肿瘤/匹配的正常物分析中被鉴定为突变的基因)。另外或替代性地，还设想到液体活检物的组学数据还可以包括转录组学数据，并且尤其是基本上覆盖整个(即，至少90％，或至少95％)转录组的转录组学数据。除序列信息以外，这种RNA信息还可以有利地提供关于表达强度的数据或关于携带在肿瘤/匹配的正常物分析中鉴定的突变的基因的绝对或相对丰度的数据。此外，在设想的方法中使用RNA和转录组学还将允许在新的和/或复发的突变变得使用常规成像和/或活检程序可临床观察到之前检测这些新的和/或复发的突变。

更具体地，并且关于游离DNA和/或RNA，设想到肿瘤细胞和/或与肿瘤细胞相互作用或在肿瘤细胞周围的一些免疫细胞将游离DNA和/或RNA释放到患者的体液中，并且因此与健康个体相比可以增加患者的体液中特定游离DNA/RNA的量。如本文所用，患者的体液包括患者的血液、血清、血浆、粘液、脑脊髓液、腹水、唾液、和尿液。替代性地，应注意的是，也认为各种其他体液是适当的，只要游离DNA/RNA存在于此类体液中即可。此外，患者的体液可以是新鲜的或保存的/冷冻的。

游离DNA/RNA典型地包括全基因组、全外显子组、和/或全转录组核酸，并且因此可以包括在人的体液中循环而不封入细胞体或核中的任何类型的DNA/RNA。最典型地，游离DNA/RNA的来源是肿瘤细胞。然而，还设想到游离DNA/RNA的来源是免疫细胞(例如，NK细胞、T细胞、巨噬细胞等)。因此，游离DNA/RNA可以是循环肿瘤DNA/RNA(ctDNA/RNA)和/或循环游离DNA/RNA(cf DNA/RNA，非衍生自肿瘤的循环核酸)。虽然不希望受特定理论约束，但是认为当肿瘤细胞与免疫细胞相互作用时或者当肿瘤细胞经历细胞死亡(例如，坏死、细胞凋亡、自体吞噬等)时，源自肿瘤细胞的游离DNA/RNA的释放可能增加。因此，在一些实施例中，游离DNA/RNA可以封入泡状结构中(例如，经由细胞质物质的外泌体释放)，因此它可以被保护而免受一些类型的体液中核酸酶(例如，RNA酶)活动的影响。然而，还设想，在其他方面中，游离DNA/RNA是没有被封入任何膜结构中但是可以独自呈稳定形式或者通过与一种或多种非核苷酸分子(例如，任何RNA结合蛋白等)相互作用而稳定的裸DNA/RNA。

游离DNA可以包括任何全或片段化基因组DNA或线粒体DNA，并且游离RNA可以包括mRNA、tRNA、microRNA、小干扰RNA、长的非编码RNA(lncRNA)。最典型地，游离DNA是典型地具有至少50个碱基对(bp)、100个碱基对(bp)、200bp、500bp或1kbp的长度的片段化DNA。而且，设想游离RNA是mRNA的全长或片段(例如，全长的至少70％、全长的至少50％、全长的至少30％等)。如较早指出的，游离DNA/RNA可以包括编码任何细胞、细胞外蛋白质或非蛋白质元素的任何类型的DNA/RNA。然而，在至少一些方面，DNA和/或RNA的分析可以局限于或关注于一种或多种癌症相关蛋白或炎症相关蛋白。例如，游离DNA/mRNA可以是癌症相关基因、或编码炎症相关蛋白的全长或片段的基因、或编码DNA修复相关蛋白或RNA修复相关蛋白的基因、或携带突变(例如，其可能产生编码的新表位)的基因的全长或片段(或来源于这些基因)。当然，应理解，上文基因可以是野生型或突变形式，包括错义或无义突变、插入、缺失、融合和/或易位，这些突变在转录时都可能引起或者可能不引起全长mRNA的形成。

设想了分离和扩增游离DNA/RNA的任何合适方法。最典型地，游离DNA/RNA是从体液(例如全血)中分离的，该体液是在合适的条件，包括稳定游离RNA的条件下加工的。优选地，同时从患者体液的同一标志(badge)中分离出游离DNA和RNA。然而，还可以设想的是，体液样品可以分为两个或更多个较小的样品，可以从这些样品中单独分离DNA或RNA。一旦与非核酸组分分离，则优选使用实时定量PCR或实时定量RT-PCR对游离RNA进行定量。

液体活检典型地使用患者的体液，并且应当理解，根据组学分析的目的，可以在一个或多个任何所需的时间点处获得任何这种液体。例如，患者的体液可以在确认患者具有肿瘤之前和/或之后和/或在此之后定期地(例如，每周、每月等)获得，以便使游离DNA/RNA数据癌症的预后关联起来。在一些实施例中，患者的体液可以在癌症治疗(例如，化疗、放疗、药物治疗、癌症免疫疗法等)之前和之后从患者获得。虽然这可能根据治疗类型和/或癌症类型而变，但是患者的体液可以在癌症治疗之后至少24小时、至少3天、至少7天时获得。为了进行更准确的比较，在癌症治疗之前来自患者的体液可以在开始癌症治疗之前小于1小时、之前小于6小时、之前小于24小时、小于一周时获得。另外，患者的体液的多个样品可以在癌症治疗之前和/或之后的时间段期间获得(例如，在24小时后一天一次，持续7天，等等)。

关于来自肿瘤组织、匹配的正常组织(例如，来自同一患者的对应非癌组织或血液)、和液体活检物的组学数据的序列分析，应当理解，序列比较的所有方式均被认为适于在本文中使用，并且包括针对外部参考序列(例如，hg18或hg19)的序列比较、针对内部参考序列(例如，匹配的正常物)的序列比较、和针对已知的常见突变模式(例如，SNV)的序列加工。因此，在肿瘤与匹配的正常物、肿瘤与液体活检物以及匹配的正常物与液体活检物之间检测突变的设想到的方法和程序包括iCallSV(URL：github.com/rhshah/iCallSV)、VarScan(URL：varscan.sourceforge.net)、MuTect(URL：github.com/broadinstitute/mutect)、Strelka(URL：github.com/Illumina/strelka)、Somatic Sniper(URL：gmt.genome.wustl.edu/somatic-sniper/)和BAMBAM(US 2012/0059670)。

然而，在本发明主题的尤其优选的方面，例如使用如例如在Cancer Res[癌症研究]2013年10月1日；73(19):6036-45、US 2012/0059670和US 2012/0066001中所述的算法通过第一序列数据(肿瘤样品)与第二序列数据(匹配的正常物)的增量同步比对以生成患者和肿瘤特异性突变数据来进行序列分析。如容易地理解的，序列分析还可以在此类方法中进行，这些此类方法将来自液体活检物的组学数据与肿瘤组学数据和/或匹配的正常物组学数据进行比较以得到一种分析，该分析不仅为使用者提供对于患者内的肿瘤而言为真的突变的信息，还提供在治疗期间新产生的突变的信息(例如，经由匹配的正常物/液体活检物与匹配的正常物/肿瘤的比较，或经由肿瘤与液体活检物的比较)。另外，使用此类算法(尤其是BAMBAM)，可以容易地确定特定突变的等位基因频率和/或克隆群体，这可以有利地提供关于特定肿瘤细胞部分或群体的治疗成功的指示。

更具体地，在用于将变体区分为体细胞的(即，仅存在于肿瘤中的变体序列)或生殖细胞的(即，遗传的或可遗传的变体序列)的先前已知的突变分析中，必须将代表重构肿瘤基因组和匹配的正常物(或其他参考)基因组的大量数据进行比较。这种任务典型地通过在肿瘤和生殖系的每个基因组位置处进行比对和总结数据并且然后合并结果以用于分析来顺序地进行。遗憾的是，因为全基因组BAM文件在其压缩形式(未压缩为1-2兆兆字节)中为数百千兆字节，所以需要存储以用于分析的中间结果极大且合并和分析起来很慢。

相比之下，增量同步比对方法(例如，BAMBAM)可以同时读取两个、三个、或更多个文件(例如，肿瘤组学BAM文件、匹配的正常物组学BAM文件、液体活检物组学BAM文件)，始终保持每个BAM文件与其他文件同步，并且累积使每个两个文件之间的共同基因组位置部分重叠的基因组读取。对于每对累积，可以进行统计分析以使匹配的正常物基因型(鉴于生殖系读取和参考核苷酸)、肿瘤基因型(鉴于生殖系基因型，简单的突变模型，污染肿瘤样品中的正常组织的分数的估计，和肿瘤序列数据)、和/或液体活检物基因型(鉴于生殖系基因型，简单的突变模型，污染肿瘤样品中的正常组织的分数的估计，和肿瘤和/或正常物序列数据)的联合概率最大化。

通过用此方法处理这些大量BAM文件，计算机的RAM使用最小化，并且处理速度主要受限于文件系统可以读取可用于分析的文件的速度。这使得能够快速处理大量数据，同时足够灵活以在单个计算机上或在计算机集群之间运行。此外，应当理解，分析输出相当小，优选地仅包括每个文件中存在的差异(例如，呈变体调用格式(VCF)文件的形式)。这种表现形式是进一步有益的，因为标注了需要的数据存储比如果每个文件的所有基因组信息单独存储所需要的数据存储显著更小的全基因组差异。实际上，应当理解，如此获得的呈VCF格式的突变数据仅代表非常小部分的全基因组数据，然而，那小部分数据与患者肿瘤是高度相关的。

甚至更进一步，应当注意，增量同步比对方法不需要将相应的序列读取重构成全基因组，而是可以通过存储在BAM或SAM文件格式中的读取来进行。因此，此类设想的方法在计算上是有效的，并且允许对同一患者的三个、四个、和甚至更多个数据集进行快速比较而不进行基因组重构，甚至在读取深度非常高(例如，>50x)的情况下也是如此。

在另外设想的方法中，液体活检物组学数据不需要经受全基因组或外显子组测序，但是可以被用于使用特定于具体突变的方法追踪患者和肿瘤特异性突变的存在和/或量。例如，设想到特定突变可以通过以下来检测：使用突变序列的定量rtPCT以定量突变，或使用等位基因特异性杂交或等位基因特异性扩增或单核苷酸引物延伸以检测来自液体活检样品的特定突变(例如，通过肿瘤/匹配的正常物测序检测的突变)的存在。

例如，将来自被诊断患有乳腺癌的患者的实体瘤活检样品经受25x深度的全基因组测序，使用匹配的正常组织(例如，来自同一患者的PMBC)的全基因组测序作为对照，以便获得患者和肿瘤特异性突变数据。最典型地，例如使用BAMBAM作为增量同步比对算法，通过第一序列数据(肿瘤样品)与第二序列数据(匹配的正常物)的增量同步比对来生成突变数据。应当理解，如此获得的突变数据还可以被用于进一步分析，并且尤其是途径活性分析，以基于从突变数据获得的信息针对患者发展治疗方案。例如，优选的途径活性数据分析可以使用如以下中所述的PARADIGM来进行：Bioinformatics[生物信息学]2010年6月15日；26(12):i237-i245，Bioinformatics[生物信息学]2013年7月1日；29(13):i62-i70，和WO2013/062505。因此，使用突变信息和/或途径活性分析以及另外合适的方法为患者建立治疗方案，这些方法包括转录组学或转录组分析(例如，使用RNAseq)、蛋白质组学分析(使用所选的反应监测或其他质谱法)、免疫组织化学分析(例如，FISH，ELISA)和/或所选的酶促活性测定(例如，以确定激酶或磷酸酶活性)。

在治疗开始之后，然后设想到从患者取一个或多个液体活检物，并且将如此获得的活检物经受进一步的遗传分析。例如，合适的液体活检样品包括各种生物液体，并且尤其是全血、全血的白细胞级分、脊髓液、腹水、和尿液。已知所有的此类生物液体包括各种核酸，并且预期至少小部分的核酸来源于实体瘤，例如呈循环肿瘤细胞、外泌体、微囊泡、和/或游离(典型地脂蛋白缔和的)DNA的形式。应当注意，核酸的来源可以提供实体瘤状态(或来自肿瘤的转移)的信息。例如，已知受压的肿瘤细胞流出外泌体和微囊泡，而已知凋亡细胞产生游离DNA。同样，肿瘤可以(进展以建立转移)释放循环肿瘤细胞。因此，应当注意，可以进一步处理液体活检物质以分离或富集外泌体、游离DNA、或循环肿瘤细胞，由其可以获得第三序列数据。当然，在不需要的情况下，不需要进行这种处理。

关于从液体活检样品获得第三序列的步骤，设想到由全基因组测序、由全外显子组测序、和/或由如上指出的转录组测序生成序列数据。因为预期液体活检物中肿瘤相关核酸分数相对较低，因此典型地优选的是，对液体活检物中核酸进行测序至大于如以上已经讨论的实体瘤的测序深度(用于生成突变数据)的深度。例如，第一和第二序列数据的合适测序深度典型地在1x与100x之间，并且更典型地在10x与70x之间，并且最典型地在20x与50x之间。因此，第一和第二序列数据的合适测序深度等于或小于70x，更典型地等于或小于50x，并且最典型地等于或小于30x。相反，优选的是，用于生成第三序列数据的测序深度为至少20x，更典型地为至少50x，甚至更典型地为至少100x，并且最典型地为至少150x。例如，设想的用于生成第三序列数据的测序深度在25x-50x之间，或在50x-100x之间，或在100x与300x之间，并且甚至更高。

此外，并且也如上指出，虽然全基因组或全外显子组测序通常是优选的，但是应当理解，本文还设想仅覆盖突变数据中鉴定的突变的靶向测序。因此，应当认识到，在设想的系统和方法中，肿瘤数据(来自突变数据)被用作针对来自液体活检物的随后序列数据的参考。这种分析极大地减少核酸数据的计算时间和储存要求，并且允许实质上简化的下游分析。

例如，第一和第二序列数据可以是全基因组序列数据，而第三序列数据可以是全外显子组序列数据。在此类系统中，第三序列数据可以与突变数据进行比较以获得治疗特征。替代性地，治疗特征也可以通过优选地使用如上讨论的增量同步比对将第三序列数据与第一和第二序列数据进行比较来计算。无论比较的具体方式如何，应当认识到，除第三序列数据以外，可以从一个或多个随后的液体活检物获得另外的第四、第五、第六序列数据等。因此，液体活检物可以在治疗期间且甚至治疗后以任何时间间隔进行，以产生多个治疗特征，其可以用于生成、修改或更新治疗方案。还可以针对癌症对于治疗的应答和/或为了鉴定在循环肿瘤细胞、游离DNA、和/或外泌体中的趋势分析这些治疗特征，这些趋势可以提供关于产生这些实体的肿瘤细胞的来源和状态的信息。

此外，应当认识到，突变数据还可以为从业人员提供关于实体瘤内克隆亚群的存在和/或量的信息。因为遗憾地预期实体瘤中并非所有亚群的所有细胞对于治疗有同等的应答，所以可以容易地使用设想的系统和方法监测治疗期间亚群的增加和/或减少。例如，使用增量同步比对方法，可以检测到关于特定突变的等位基因频率和/或丰度的信息，其与肿瘤细胞数量或肿瘤大小并且与由特定突变表征的克隆分数关联起来。此外，此类方法还允许追踪由肿瘤细胞群体产生的或重新作为新的肿瘤克隆的新突变。因此，新亚群的出现和新发的转移可以通过与突变数据和/或第一和/或第二序列数据比较的第三和随后的序列数据的定量和/或定性分析来追踪。在许多情况下，液体活检物的组学数据是可以临床上检测到新的肿瘤克隆或转移(例如，通过成像方法或活检/手术)很久之前可定量的指示物。然后可以响应于新确定的治疗特征调整或更新治疗。最后，设想到可以获得第三和随后的序列数据，例如以便确定或确认无进展存活。

通常，并且关于序列数据的文件格式，优选的是，该格式是BAM、SAM、或FASTA格式。无论具体序列格式的性质如何，通常设想到，本文指代的所有核酸序列存储在数据库上以用于通过分析引擎检索，并且这种数据库可以是单个数据库或分布式数据库。因此，术语‘数据库’应当被理解为不限于单个物理装置，而是包括彼此在信息上连接的多个且不同的存储装置。还应当注意，关于计算机的任何语言应当被解读为包括计算装置的任何合适的组合，包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、或单独地或共同地操作的其他类型的计算装置。应当理解，计算装置包括处理器，该处理器被配置为执行存储在有形的非暂时性计算机可读存储介质(例如，硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。软件指令优选地配置计算装置，以提供如下文关于所披露的设备所讨论的角色、职责或其他功能。在特别优选的实施例中，多种服务器、系统、数据库或接口交换数据使用标准化协议或算法，可能地基于HTTP、HTTPS、AES、公钥-私钥交换、web服务API、已知的金融交易协议、或其他电子信息交换方法。优选地，数据交换通过包交换网络、因特网、LAN、WAN、VPN或其他类型的包交换网络进行。

因此，本发明还设想一种方法，其中分析引擎与存储第一、第二、和/或第三序列数据的序列数据库在信息上连接。然后对分析引擎进行程序化以生成来自第一和第二序列数据的患者的实体瘤的突变数据，其中第一序列数据来自患者的实体瘤组织，并且第二序列数据来自患者的匹配的正常组织。对分析引擎进行进一步程序化以计算代表对于治疗的应答的治疗特征，其中治疗特征由液体活检物的第三序列数据与突变数据和第一序列数据中的至少一个之间的比较计算。当然，在如以上讨论的此类系统和方法中，应当理解，不一定需要来自第一和第二序列数据的患者的实体瘤的突变数据，但是可以在此类方法的一个步骤中一起分析第一、第二、和第三序列数据。

应当认识到，设想的系统和方法，尤其是在与如上所述的增量同步比对结合使用时，明显增加用于这种分析的计算系统的处理速度。应当注意，分析的复杂性和序列数据文件的超大尺寸使得这种方法完全不适于人类实践，因为这种文件分析将容易地超过人类寿命，即使一个人每天分析10,000个碱基。此外，与额外的序列数据的进一步比较，即使可能远远更小，也将进一步增加人类行为的不可能性。另外，应当指出，使用突变数据作为来自液体活检的随后的第三和另外的序列数据的参考具有极大地提高分析时间的技术作用，因为此类文件(a)与将整个序列加载到存储器中相比，可以快速处理而没有很多的存储器需求，(b)允许随时间推移快速分析基因组变化而不由于多个活检造成患者不适，并且(c)允许鉴定新突变、突变丰度、和等位基因分数。另外，设想的系统和方法首次允许实时且动态地分析如通过液体活检物中的核酸内容物观察到的治疗应答。最后，注意到在鉴定到液体活检物的序列数据的另外变化时，如此获得的结果可以用于对新治疗方案的潜在影响进行计算机建模。

因此，应当理解，代表对于治疗的应答的治疗特征可以通过来自一个或多个液体活检物的各种组学数据与突变数据(典型地通过肿瘤与匹配的正常物的比较生成)的比较，和/或通过与匹配的正常物组学数据和/或与肿瘤数据的比较来建立。从不同的角度来看，治疗特征可以反映与突变数据相比液体活检物数据中特定突变的存在、不存在、增加、和/或减少。这种指示有利地允许追踪关于一个或多个特定突变(并且在此情况下可能还关于肿瘤中的一个或多个亚克隆)的治疗努力。另外，治疗特征还可以指示由正常细胞产生的新突变(例如，相对于匹配的正常物组学数据，液体活检物组学数据中的新突变)和/或由肿瘤细胞产生的新突变(例如，相对于肿瘤组学数据，液体活检物组学数据中的新突变)。同样，在该分析是基于来自肿瘤、匹配的正常物、和一个或多个液体活检物的组学数据的情况下，治疗特征还可以提供关于在治疗期间或之后突变的存在和不存在以及它们的等位基因分数的动态分析。

实施例

从肿瘤和匹配的正常物分离DNA：在切除术期间或通过遵循常规临床方案进行的活检，经由手术程序获得新鲜的肿瘤组织样品。使用如此获得的组织样本，遵循可商购的DNA分离试剂盒(例如，QIAGEN DNeasy Blood&Tissue试剂盒)的说明书分离基因组DNA。

从液体活检物分离DNA/RNA：将10ml全血吸取到测试管中，并且遵循可商购的DNA分离试剂盒(STRECK CELL-FREE DNA BCT和CELL-FREE RNA BCT)的说明书分离游离DNA和RNA。游离RNA在游离RNA BCT管中的全血中稳定七天，而游离RNA在游离DNA BCT管中的全血中稳定十四天，从而允许用于从全世界的位置运输患者样品且不发生游离RNA降解的时间。

此外，通常优选使用不使或基本上不使血细胞裂解(例如，裂解等于或小于1％、或等于或小于0.1％、或等于或小于0.01％、或等于或小于0.001％)的RNA稳定剂来分离游离RNA。从不同的角度来看，在RNA稳定试剂与血液合并后，这些试剂不会导致血清或血浆中的RNA量显著增加(例如，总RNA增加不超过10％、或不超过5％、或不超过2％、或不超过1％)。同样，这些试剂也会保存血液中的细胞的物理完整性，以减少或甚至消除在血细胞中发现的细胞RNA的释放。此类保存可以呈可能已经被分离或可能未被分离的所收集血液的形式。在不太优选的方面，所设想的试剂将使游离RNA在并非血液的所收集组织中稳定至少2天，更优选至少5天，且最优选至少7天。当然，应该认识到许多其他收集方式也被认为是适当的，并且可以将游离RNA至少部分地纯化或吸附到固相上，以便在进一步加工之前增加稳定性。

将10mL管中的全血以1600rcf离心20分钟以分级出血浆。然后将如此获得的血浆分离并以16,000rcf离心10分钟，以去除细胞碎片。当然，各种替代性离心方案也被认为是适合的，只要离心不会导致实质性细胞裂解(例如，全部细胞裂解不超过1％、或不超过0.1％、或不超过0.01％、或不超过0.001％)即可。使用Qiagen试剂从2mL血浆中提取游离RNA。提取方案被设计为去除潜在的污染血细胞、其他杂质，并在提取期间维持核酸的稳定性。将所有核酸保存在带条形码的矩阵储存管中，其中DNA储存在-4℃且RNA储存在-80℃，或逆转录为cDNA然后储存在-4℃。值得注意的是，可以在进一步加工之前将如此分离的游离RNA冷冻。

测序：在Illumina NovaSeq 6000系统测序仪上，使用下一代测序的标准方案，将肿瘤和匹配的正常物的DNA样品经受全基因组测序。同样，在从液体活检物获得RNA序列的情况下，在Illumina HiSeq 4000系统上使用下一代测序的标准方案进行RNA-seq。使用SAM工具将原始数据(例如，BCL或FASTQ格式)转化为相应的BAM文件以用于进一步分析。

特定突变基因的RNA分析：关于转录强度(表达水平)，可以通过定量游离RNA来检查游离RNA的转录强度。游离RNA的定量可以以多种方式进行，然而，分析物的表达优选地通过使用对每种基因具有特异性的引物对游离RNA进行定量实时RT-PCR来测量。例如，可以使用在包含2μL游离RNA、引物和探针的10μL反应混合物中的测定进行扩增。α-肌动蛋白的mRNA可用作游离RNA的输入水平的内部对照。在每个PCR板中包括具有已知浓度的每种分析物的样品的标准曲线以及每种基因的阳性对照和阴性对照。通过扫描含有核酸的矩阵管上的2D条形码来鉴定测试样品。ΔCt(dCT)是通过用每种分析物的定量PCR(qPCR)扩增得到的Ct值减去各个体患者血液样品的肌动蛋白的Ct值来计算。使用基因表达值为10的通用人参考RNA的连续稀释物的ΔCt的标准曲线计算患者样本的相对表达(当将ΔCT针对每种分析物的对数浓度作图时)。替代性地，可以使用RNA-seq进行如上所述的RNA分析。

组学分析：使用Contraster(NantOmics有限责任公司，圣克鲁斯，加利福尼亚州，美国(NantOmics,LLC,Santa Cruz,CA,USA))处理BAM文件，以鉴定突变和肿瘤与匹配的正常物之间的突变(以鉴定患者和肿瘤特异性突变)，液体活检物与匹配的正常物之间的突变(以鉴定关于正常物的新产生的突变)，液体活检物与肿瘤之间的突变(以鉴定关于肿瘤的新产生的突变)，以及匹配的正常物、肿瘤、和液体活检物之间的突变(以随时间和组织鉴定和定量所有突变)的丰度/等位基因频率。

显而易见地，并且基于比较，治疗特征可以指示特定肿瘤细胞成功地通过治疗根除，或者特定肿瘤细胞对于治疗保持抗性，和/或新突变由已存在的肿瘤和/或由健康细胞产生。因此，可以调整患者治疗。

在一些实施例中，用于描述和要求保护本发明某些实施例的表示成分、特性(如浓度)、反应条件等的量的数字应被理解为在一些情况下由术语“约”来修饰。因此，在一些实施例中，书面说明书和所附权利要求中列出的数值参数是近似值，其可以根据特定实施例试图获得的所需特性而变化。在一些实施例中，数值参数应按照报告的有效数字的数量以及通过应用普通的舍入技术来解释。

如本文的说明书和随后的整个权利要求中所使用，“一个/一种(a)”、“一个/一种(an)”以及“该(the)”的含义包括复数参照物，除非上下文清楚地另外指明。而且，如本文的说明书中所使用，“在……中(in)”的含义包括“在……中(in)”和“在……上(on)”，除非上下文另有明确说明。除非上下文指示相反，否则本文所列出的所有范围应被解释为包括其端点，并且开放式范围应被解释为包括商业实用值。类似地，除非上下文指出相反的情况，否则应将所有值的列表视为包含中间值。

本文所述的所有方法都能够以任何合适的顺序进行，除非本文另外指示或另外与上下文明显矛盾。关于本文某些实施例而提供的任何和所有实例或示例性语言(如“例如”)的应用仅旨在更好地说明本发明，而不对另外要求保护的本发明范围做出限制。说明书中的语言不应当被解释为指示任何未要求保护的要素为实践本发明所必需的。

对于本领域技术人员应当清楚的是，在不脱离本文的发明构思的情况下，除了已经描述的那些之外，更多修改是可能的。因此，本发明主题仅受限于所附权利要求的范围。此外，在解释说明书和权利要求时，所有术语应当以与上下文一致的尽可能广泛的方式解释。特别地，术语“包含”(“comprises”和“comprising”)应当被解释为以非排他性方式提及要素、组分或步骤，从而指示所提及的要素、组分或步骤可以与未明确提及的其他要素、组分或步骤一起存在、或使用、或组合。在说明书权利要求书提及选自由A、B、C……和N组成的组的某物的至少一种的情况下，该文字应当被解释为只需要该组中的一个要素，而不是A加N、或B加N等。

Claims

1.一种监测患者治疗的方法，该方法包括：

在治疗之前获得患者的实体瘤的患者和肿瘤特异性突变数据；

其中该突变数据由该患者的实体瘤组织的第一序列数据和该患者的匹配的正常组织的第二序列数据生成；

在治疗期间获得该患者的液体活检物的第三序列数据；并且

使用该第三序列数据以及该突变数据、该第一序列数据、和该第二序列数据中的至少一个来确定代表对于该治疗的应答的治疗特征。

2.如权利要求1所述的方法，其中，该突变数据通过该第一序列数据与该第二序列数据的增量同步比对来生成，并且其中该治疗特征通过该第一序列数据与该第三序列数据的增量同步比对以及该第二序列数据与该第三序列数据的增量同步比对中的至少一个来生成。

3.如权利要求1所述的方法，其中，该突变数据呈VCF格式，并且其中该治疗特征通过该突变数据针对该第三序列数据的差异分析来生成。

4.如权利要求1所述的方法，其中，该第一和第二序列数据是全基因组序列数据或全外显子组序列数据，并且其中该第一和第二序列数据具有10x与50x之间的读取深度。

5.如权利要求1所述的方法，其中，该第三序列数据具有20x与500x之间的读取深度。

6.如权利要求1所述的方法，其中，该突变数据和该治疗特征呈VCF格式。

7.如权利要求1所述的方法，其中，该第一和第二序列数据是全基因组序列数据，并且其中该第三序列数据是全外显子组序列数据。

8.如权利要求1所述的方法，其中，该第一和第二序列数据具有的读取深度小于该第三序列数据的读取深度。

9.如权利要求1所述的方法，其中，该液体活检物取自全血、脊髓液、腹水、或尿液。

10.如权利要求1所述的方法，其中，该治疗特征通过将该第三序列数据与该突变数据进行比较来确定。

11.如权利要求1所述的方法，其中，该治疗特征通过将该第三序列数据与该第一和第二序列数据进行比较来确定。

12.如权利要求11所述的方法，其中，该第一、第二、和第三序列数据通过增量同步比对来比较。

13.如权利要求1所述的方法，该方法还包括在治疗期间获得该患者的另一个液体活检物的第四序列数据，并且使用该第四序列数据以及该突变数据、该第一序列数据、和该第三序列数据中的至少一个来计算代表对于该治疗的后期应答的第二治疗特征的步骤。

14.如权利要求1所述的方法，该方法还包括鉴定该突变数据或该治疗特征中的克隆亚群的步骤。

15.如权利要求14所述的方法，该方法还包括使用该第三序列数据来计算代表该克隆亚群对于该治疗的应答的治疗特征的步骤。

16.如权利要求1所述的方法，该方法还包括处理该液体活检物以分离外泌体、游离DNA、游离RNA、或循环肿瘤细胞，并且从这些分离的外泌体、游离DNA、游离RNA、或循环肿瘤细胞获得该第三序列数据的步骤。

17.如权利要求1所述的方法，其中，该计算治疗特征的步骤包括比较该第一与第三序列数据之间的对应突变的丰度或等位基因分数。

18.如权利要求1所述的方法，其中，该计算治疗特征的步骤包括比较该第一、第二、和第三序列数据之间的对应突变的丰度或等位基因分数。

19.如权利要求1所述的方法，其中，该计算治疗特征的步骤包括鉴定该第三序列数据中相对于该第一和第二序列数据中的至少一个的新突变。

20.如权利要求1所述的方法，该方法还包括在治疗之后从该患者的液体活检物获得治疗后序列数据的步骤。