CN109906485A

CN109906485A - Mds向aml的转变及其预测方法

Info

Publication number: CN109906485A
Application number: CN201780066752.XA
Authority: CN
Inventors: 斯蒂芬·查尔斯·本茨; 安德鲁·纽伦; A·J·塞奇威克; C·司徒
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2016-10-27
Filing date: 2017-10-27
Publication date: 2019-06-18
Also published as: JP2019537790A; KR20190077417A; AU2017348373A1; EP3532964A4; US20190304570A1; CA3042028A1; WO2018081584A1; EP3532964A1

Abstract

能够使用基于在MDS与AML细胞之间具有显著的差异表达水平和/或途径活性的所选特征的预测模型来预测MDS转变至AML的时间的预期的系统和方法。

Description

MDS向AML的转变及其预测方法

本申请要求2016年10月27日提交的序列号62/413917和2016年12月1日提交的序列号62/429036的美国临时申请的优先权。

技术领域

本发明的领域是用于预测和分析MDS(骨髓增生异常综合征)进展至AML(急性骨髓性白血病)的组学分析方法。

背景技术

以下描述包括可用于理解本发明的信息。并不承认本文提供的任何信息是现有技术或与当前要求保护的发明相关，或者具体地或隐含地引用的任何出版物是现有技术。

本文中确定的所有出版物和专利申请均通过引用并入本文，其程度如同每个单独的出版物或专利申请被具体和单独地指出以通过引用将其并入。如果并入的参考文献中术语的定义或用法与本文提供的该术语的定义不一致或相反，则适用本文提供的该术语的定义，而不适用参考文献中的该术语的定义。

骨髓增生异常综合征(MDS)是一组以骨髓衰竭、发育不良和进展为急性骨髓性白血病(AML)的可能性增加为特征的克隆性造血异常。MDS通常分为“原发性的”(或原发)和“治疗相关性的”(继发于先前的细胞毒性化学治疗)，并且认为两者都是由于造血干细胞自我更新和分化的异常而产生的。

基于共同的临床特征，许多不同的疾病被归为“MDS”范畴，从而解释了所观察到的广泛的异质性。有时对患有这种疾病的患者的诊断可能很困难。类似地，预后的分配和适当治疗的选择需要仔细应用预后评分系统，同时考虑临床特征(例如，血细胞减少、年龄、体能状况)和细胞学参数(例如，母细胞计数、形态、核型)。细胞遗传学差等因素与MDS的存活率降低有关。

已经确定了可以显著影响MDS患者的预后和治疗选择的几个因素，例如细胞遗传学、患者体能状况和红细胞(RBC)输注依赖。大量研究表明，在接受针对MDS或AML的密集化疗的患者特别是老年人中，患者体能状况与总体生存率或无事件生存率呈负相关。MDS的恰当诊断和分类取决于对临床特征和实验室/病理结果(例如，母细胞计数、外周血细胞计数、细胞遗传学)的准确评估。为此，充分准备的骨髓涂片和活检标本是必不可少的。遗憾的是，这些方法需要大量时间并由经过培训的专业人员检查，这增加了大量的成本。

最近，各种遗传条件与MDS和AML的治疗敏感性、预后、存活时间等相关。例如，在使用来那度胺治疗后未能达到持续红细胞或细胞遗传学缓解的患有del(5q)MDS的患者显示出增加克隆进化和AML进展的风险(参见Ann Hematol.2010Apr；89(4):365-74)。在另一项研究中，据报道，肾母细胞瘤基因WT1是诊断骨髓增生异常综合征疾病进展的良好标志物(参见Leukemia 1999Mar；13(3):393-9)，并且据报道，诊断时的WT1和BAALC基因表达的联合评估可能改善患有骨髓增生异常综合征患者的无白血病生存预测(参见LeukRes.2015Aug；39(8):866-73)。类似地，据报道，TET2基因中的个体突变是MDS或AML的诊断标志物，如WO2010/087702中所讨论的。

在更进一步已知的测试中，报道了体细胞非沉默突变特征预测MDS的存活率，如US2014/0127690中所讨论的，并且WO2013/056184教导了用于测试药物、化合物、饮食、治疗或处理对于预防、改善、减缓肿瘤、肿瘤干细胞或白血病肿瘤干细胞的进展，阻止或减缓肿瘤、肿瘤干细胞或白血病肿瘤干细胞的转移，或引起肿瘤、肿瘤干细胞或白血病肿瘤干细胞的完全或部分缓解是否是有效的或奏效的。然而，没有一种已知方法能够对从MDS进展至AML的时间进行稳健预测。

因此，仍然需要可以预测从MDS进展至AML的时间的改进预后测试，这有助于指导医生为诊断为MDS的患者选择合适的治疗方案。

发明内容

本发明的主题涉及可以基于一些组学特征特别是通过在基于回归的模型中使用差异表达的基因和/或推断的途径活性来预测MDS进展至AML的时间的各种方法。

在本发明主题的一个方面，发明人考虑了预测从MDS进展至AML的时间的方法，该方法包括量化含有骨髓增生异常细胞的样品的多个基因的表达的步骤，其中，针对mRNA表达和推断的途径活性中的至少一个方面，多个基因在MDS和AML之间具有高于平均值的差异。在另一步骤中，在预测模型中使用在MDS和AML之间具有高于平均值的差异的多个基因来计算从MDS进展至AML的可能时间。

在一些实施方案中，针对mRNA表达，多个基因在MDS和AML之间具有高于平均值的差异，而在其他实施方案中，针对推断的途径活性，多个基因在MDS和AML之间具有高于平均值的差异。进一步预期多个基因选自CHD4、GPATCH2L、FAM212A、EXT2、MACF1、RTKN、ZSCAN2、RNF220、YEATS2、ERGIC1、ZNF618、MBTD1、CXXC5和DUSP10。从不同的角度来看，预测模型可以基于多个差异表达的基因，其中通过t检验和0.05的α确定至少50个基因具有差异表达(例如图7中所示)。

在不限于本发明的主题的情况下，可以使用回归算法来构建预测模型，并且更优选地，使用lasso最小角回归算法来构建预测模型。进一步优选的是预测模型提供多达至少120个月的预测，和/或量化多个基因的表达的步骤使用全转录组RNA测序数据。此外，考虑了所预期的方法可以进一步包括在全转录组RNA测序数据中鉴定可成药靶标的步骤，以及任选地生成或更新具有治疗建议的报告的步骤。

因此，在本发明主题的又一个方面，发明人还预期了生成用于预测MDS转变至AML的时间的模型的方法。优选的模型通常包括量化含有MDS细胞的样品的多个基因的表达的步骤，以及量化含有AML细胞的样品的多个基因的表达的另一个步骤(通常使用全转录组RNA测序数据进行)。任选地，然后计算含有MDS细胞的样品的多个基因和含有AML细胞的样品的多个基因的推断的途径活性。在另一个步骤中，针对mRNA表达和推断的途径活性中的至少一个方面，识别出在MDS细胞和AML细胞之间具有高于平均值的差异的多个基因，并且使用在MDS细胞和AML细胞之间具有高于平均值的差异的多个基因构建预测模型，该预测模型计算从MDS进展至AML的可能时间。

最典型地，针对mRNA表达，多个基因在MDS和AML之间具有高于平均值的差异，和/或针对推断的途径活性，多个基因在MDS和AML之间具有高于平均值的差异。如上所述，考虑了预测模型可以基于多个差异表达的基因，其中如通过t检验和0.05的α所确定的，至少50个基因具有差异表达。例如，MDS细胞和AML细胞之间具有高于平均值的差异的合适基因包括CHD4、GPATCH2L、FAM212A、EXT2、MACF1、RTKN、ZSCAN2、RNF220、YEATS2、ERGIC1、ZNF618、MBTD1、CXXC5和DUSP10。在进一步考虑的方面中，使用回归算法(例如，lasso最小角回归算法)来构建预测模型。

根据以下优选实施方案的详细描述以及附图，本发明主题的各种目的、特征、方面和优点将变得更加明显，同时附图中相同的数字表示相同的组分。

附图说明

图1是描绘突变负荷随MDS至AML的转变时间而变化的图。

图2是描绘AML患者肿瘤中新表位的克隆和亚克隆部分的图。

图3是描绘AML细胞中所有基因表达相对于MDS中基因表达的变化的图。

图4是描绘AML细胞中所选基因表达相对于MDS中基因表达的变化的图。

图5是描绘AML细胞中所选基因的推断途径活性相对于MDS中基因表达的变化的一幅图。

图6是描绘AML细胞中所选基因的推断途径活性相对于MDS中基因表达的变化的另一幅图。

图7是同一患者MDS和AML细胞之间的显著差异表达基因的热图。

图8A是描绘时间-进展函数的图，图8B是列出函数中使用的基因和用于函数的性能参数的表。

具体实施方式

发明人现已发现，使用建立在差异表达基因和/或具有差异途径活性的基因上的预测算法，可以以相对高的准确度预测MDS进展至AML的时间。值得注意的是，所选基因的差异表达和/或差异途径活性比从MDS进展至AML中的突变所产生的总体突变率、单基因突变以及新表位的存在或类型具有显著更强的预测能力。本发明人还发现，尽管MDS中的编码克隆突变负荷相对较低，但随着疾病由MDS发展至AML，总体基因表达(CD34除外)中存在普遍的显著变化。

关于所选基因中的特定突变，发明人还发现了一小子集的突变，其可能与MDS向AML的进展相关(因果关联或间接关联)。具体而言，如下面更详细所示，大多数AML细胞在Myc、FLT3(其也在Myb中表现出更高的表达)和APF2中表现出更高的表达。另一方面，随着疾病的进展和GATA1表达的降低，转录减少了FOXM1的大量下调。

因此，基于这些观察，使用这些观察结果考虑了各种方式或预测进展，尤其是MDS进展至AML的时间。在最优选的方面，预测不会简单地基于单个标志物的量化来预测，因为单个标志物的可变性不可能提供分级预测(例如，在3个月、2个月、或1个月、或2周、或甚至1周的时间分辨率内)。因此，发明人研究了使用大多数差异表达的基因和/或途径活性的多因素分析是否可以用于生成预测模型，该预测模型可以提供关于患者从MDS进展到AML所需的可能时间的信息。这种分级信息对于选择恰当的治疗尤为重要。此外，多因素预测算法也是有利的，因为MDS是各种亚疾病的集合，其个体诊断和预后指标很难识别。

基于许多基因在从MDS转变为AML时具有阴性表达偏差的意外发现，本发明人研究了是否存在针对一种或多于一种基因的差异表达模式。值得注意的是，并且如下更详细显示的，在MDS和AML之间具有显著差异表达的基因在将从MDS进展至AML的时间与这些基因的表达值相关联的分析中用作机器学习中有统计学意义的特征。因此，可以定义统计模型，其能够以定量方式(与简单地诊断MDS或AML的状态相反)预测MDS至AML的进展。令人惊讶的是，并且如下更详细显示的，所得模型相对简单并且仅需要相对低数量的所选基因的表达数据。

实施例

在首次尝试识别MDS进展至AML的预测标志物时，发明人将患者数据与不同的进展时间和突变负荷特别是编码蛋白质的遗传序列的突变负荷进行了比较。使用来自同一患者的MDS和AML细胞的全基因组测序和使用BAMBAM的增量定位引导同步对齐进行组学分析，例如US9721062中所述的。图1描绘了这种分析的示例性结果。显而易见的是，在进展时间小于38个月的患者群体中，中值突变变化为约+2.5个编码突变，而在进展时间超过38个月且少于80个月的患者群体中中值突变变化为约-2.0个编码突变。另一方面，在进展时间超过80个月的患者中，中值突变变化约为+15.0个编码突变。虽然这种增长至少看似显著，但数据未能为定量预测模型提供可靠的基础。

当分析所有基因的突变变化作为预测MDS转变至AML的时间的可能指导时，发明人注意到几个基因具有显著的差异突变负担。有趣的是，一些基因在MDS向AML的进展中失去了突变，而其他基因则获得了突变，如表1所示。值得注意的是，一些患者具有FLT3和IDH1突变。此外，人们注意到，NBPF基因等大基因受到的影响更大，这可能是由于偶然的突变。因此，这些突变似乎代表乘客突变而不是驱动突变。虽然在特异性方面具有重要意义，但这些突变变化对于定量预测模型来说还不够。最值得注意的是，在AML阶段的大量基因的关闭将与其中出现母细胞群体情况一致，其中细胞完成以下两个里程碑事件：它们不分化，也不凋亡。因此，这些特定基因和途径被认为对于诊断和预后用途具有重要意义。例如，与生存力相关的基因例如BCL2家族和与细胞凋亡相关的基因例如CASPASE途径或促炎细胞因子发生级联反应。单倍体剂量不足假说而非基因突变的核糖体蛋白的参与及其剂量效应已经在MDS中得到证实，并且该现象也在先天性贫血中发现。核糖体问题与先天性和后天性贫血有关。

表1

使用相同的比较全基因组分析并进一步考虑突变序列的表达，发明人进一步研究了编码和表达的DNA片段中的新表位是否可以作为定量预测模型的基础，并且示例性结果显示在图2中，其中每个条形代表个体患者的差异记录(MDS与AML)。图中每个条形的较暗部分代表克隆新表位(新表位的克隆部分至少90％)，而较亮部分代表亚克隆新表位(新表位的克隆部分小于90％)。事实证明，无论是克隆还是亚克隆的新表位都不能作为定量预测模型的基础。

然而，出乎意料地，发明人在分析基因表达时观察到，大部分基因表达的程度显著较低，如图3所示。这里，描绘为圆圈的每个数据点表示针对数据点的-log₁₀FDR调整的p值(q值)绘制的单个基因(作为n倍mRNA)的表达强度差异。从图中可以容易地看出，虽然很大一部分基因以基本相同的比率表达，但是在从MDS转变为AML时，几个基因强烈过表达，而许多其他基因显著低表达。因此，采用一级近似，考虑基因的总体表达水平可以用作计算从MDS转变至AML的时间的基础。虽然不排除从大量RNA测序数据(例如，至少100个基因、至少500个基因、至少1000个基因、至少5000个基因)生成定量预测模型，发明人认为所选基因可能是定量预测模型的候选特征，该定量预测模型可以在期望的预测准确度下使用少量数据点。

为此，本发明人基于RNA测序数据(以及在一些情况下还有全基因组或外显子组测序数据)研究了哪些差异表达的基因在表达中具有显著和强烈的差异。此外，本发明人还在途径分析算法中使用差异表达基因的函数来识别那些产生最大推断的途径活性差异的表达基因。更具体地，发明人使用如WO2013/062505中描述的遗传模型上的数据整合的途径识别算法确定差异表达基因的影响。当然，应当理解，许多替代途径分析模型也被认为是合适的，并且本文考虑了所有已知的途径分析模型。

更具体地，表2列出了具有mRNA表达的最大中值配对差异的基因(AML与MDS)，而表3列出了具有推断的途径活性的最大中值配对差异的基因(AML与MDS)。表4列出了具有最大中值推断的途径活性的基因(AML相对于配对的MDS进行归一化)。

表2

表3

表4

从上面的数据和表2至表4中可以容易地看出，发现了基因表达的显著差异和推断的途径活性的变化。因此，可以在模型中使用改变的基因以区分MDS和AML、和/或预测进展时间和/或进展的可能性。此外，发明人注意到所选择的具有高差异表达和/或推断的途径活性差异的基因是转录因子或与这些因子的转录因子和/或靶标密切相关。因此，在本发明主题的至少一些方面，发明人考虑在MDS/AML转变的诊断和/或预测模型中使用这些基因和/或这些因子的靶标。

图4是示例性地描绘MDS与AML中所选基因的基因表达的倍数变化的图，并且图5至图6是描绘所选基因的AML和MDS之间的推断的途径活性的示例性配对差异的图。基于AML和MDS之间显著的表达差异，发明人研究了一些基因是否可用于定量预测模型，图7是95个基因表达具有统计学上显著性差异的差异表达基因的示例性热图。在这里，使用t检验比较AML和MDS之间的表达，并且显示具有0.05的α值，假设检验的Bonferroni校正＞19K。当然，应该理解，可以改变统计截止和特定的比较方法。因此，认为所有替代方法都适用于本文。在另一个计算中，发明人随后使用95个差异表达的基因来构建进展预测因子。

更具体地，在一个实施例中，将4/26的样品拿来用于验证。比较了三种归一化，并且在六倍交叉验证中测试了十种回归算法。如图8所示，具有Lasso最小角回归(LassoLARS)的原始表达数据在测试样品中表现最佳(平均RMSE＝65.04，平均一致性指数为0.58)。有趣的是，Lasso将特征从最初的95减少到14，这使得预测和定量分析相对简单。从图8A可以看出，可以构建完全训练的回归函数，其根据图8B中列出的基因的表达值进行定量预测。

应当注意，应该读取针对计算机的任何语言以包括任何合适的计算设备组合，其包括服务器、接口、系统、数据库、代理、对等、引擎、控制器或单独或共同操作的其他类型的计算设备。应当理解，计算设备包括处理器，该处理器被配置为执行存储在有形的、非暂时性的计算机可读存储介质(例如，硬盘驱动器、固态驱动器、RAM、闪存、ROM等)中的软件指令。软件指令优选地将计算设备配置为提供角色、职责或其他功能，如下面关于所公开的设备所讨论的。在特别优选的实施方案中，各种服务器、系统、数据库或接口使用标准化协议或算法交换数据，该标准化协议或算法可能基于HTTP、HTTPS、AES、公钥-私钥交换、web服务API、已知金融交易协议或其他电子信息交换方式。优选地，数据交换通过分组交换网，因特网、LAN、WAN、VPN，或其他类型的分组交换网进行。

在一些实施方案中，数值参数应根据报告的有效数字的数并通过应用通常的舍入方法来解释。尽管阐述本发明的一些实施方案的宽范围的数值范围和参数是近似值，但具体实施例中列出的数值尽可能精确地报告。在本发明的一些实施方案中呈现的数值可能包含必然由其各自的测试测量中发现的标准偏差引起的一些误差。此外，除非上下文指出相反的情况，否则本文所述的所有范围应解释为包括其端点，并且开放式范围应解释为包括商业实用值。同样，除非上下文指出相反的情况，否则应将所有值的列表视为包含中间值。

对于本领域技术人员显而易见的是，在不脱离本文的发明构思的情况下，除了已经描述的那些之外的更多修改是可能的。因此，除了所附权利要求的范围之外，本发明的主题不受限制。此外，在解释说明书和权利要求时，所有术语应以与上下文一致的最广泛的方式解释。特别地，术语“包括”和“包含”应该被解释为以非排他的方式引用元素、组件或步骤，表示所引用的元素、组件或步骤可以存在，或者被利用或与未明确引用的其他元素、组件或步骤组合。如本文的描述和整个权利要求中所使用的，除非上下文另有明确说明，要素前无数量词包括复数指代。此外，如本文的描述中所使用的，除非上下文另有明确规定，否则“在……中”的含义包括“在……中”和“在……上”。

Claims

1.一种预测从MDS进展至AML的时间的方法，其包括：

量化含有骨髓增生异常细胞的样品的多个基因的表达；

其中，针对mRNA表达和推断的途径活性中的至少一种，所述多个基因在MDS和AML之间具有高于平均值的差异；和

在预测模型中使用在MDS和AML之间具有高于平均值的差异的多个基因来计算从MDS进展至AML的可能时间。

2.根据权利要求1所述的方法，其中针对mRNA表达，所述多个基因在MDS和AML之间具有高于平均值的差异。

3.根据前述权利要求中任一项所述的方法，其中针对推断的途径活性，所述多个基因在MDS和AML之间具有高于平均值的差异。

4.根据前述权利要求中任一项所述的方法，其中所述多个基因选自CHD4、GPATCH2L、FAM212A、EXT2、MACF1、RTKN、ZSCAN2、RNF220、YEATS2、ERGIC1、ZNF618、MBTD1、CXXC5和DUSP10。

5.根据前述权利要求中任一项所述的方法，其中所述预测模型基于多个差异表达的基因，其中通过t检验和0.05的α确定至少50个基因具有差异表达。

6.根据权利要求5所述的方法，其中所述多个差异表达的基因选自图7的差异表达的基因。

7.根据前述权利要求中任一项所述的方法，其中使用回归算法构建所述预测模型。

8.根据权利要求7所述的方法，其中所述回归算法是lasso最小角回归。

9.根据前述权利要求中任一项所述的方法，其中所述预测模型提供多达至少120个月的预测。

10.根据前述权利要求中任一项所述的方法，其中量化多个基因表达的步骤使用全转录组RNA测序数据。

11.根据权利要求10所述的方法，其还包括识别整个转录组RNA测序数据中的可成药靶标的步骤。

12.根据前述权利要求中任一项所述的方法，其还包括生成或更新具有治疗建议的报告的步骤。

13.一种生成用于预测MDS转变至AML的时间的模型的方法，其包括：

量化含有MDS细胞的样品的多个基因的表达；

量化含有AML细胞的样品的多个基因的表达；

任选地计算含有MDS细胞的样品的多个基因的推断的途径活性和含有AML细胞的样品的多个基因的推断的途径活性；

针对mRNA表达和推断的途径活性中的至少一种，识别在MDS细胞和AML细胞之间具有高于平均值的差异的多个基因；和

使用在MDS细胞和AML细胞之间具有高于平均值的差异的多个基因来构建预测模型，所述预测模型计算从MDS进展至AML的可能时间。

14.根据权利要求13所述的方法，其中针对mRNA表达，所述多个基因在MDS和AML之间具有高于平均值的差异。

15.根据权利要求13至14中任一项所述的方法，其中针对推断的途径活性，所述多个基因在MDS和AML之间具有高于平均值的差异。

16.根据权利要求13至15中任一项所述的方法，其中所述预测模型基于多个差异表达的基因，其中通过t检验和0.05的α确定至少50个基因具有差异表达。

17.根据权利要求13至16中任一项所述的方法，其中在MDS细胞和AML细胞之间具有高于平均值的差异的多个基因选自CHD4、GPATCH2L、FAM212A、EXT2、MACF1、RTKN、ZSCAN2、RNF220、YEATS2、ERGIC1、ZNF618、MBTD1、CXXC5和DUSP10。

18.根据权利要求13至18中任一项所述的方法，其中使用回归算法构建所述预测模型。

19.根据权利要求18所述的方法，其中所述回归算法是lasso最小角回归。

20.根据权利要求13至19中任一项所述的方法，其中量化表达的步骤使用全转录组RNA测序数据。