CN117352061A

CN117352061A - 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统

Info

Publication number: CN117352061A
Application number: CN202311162935.5A
Authority: CN
Inventors: 何莉; 刘雯; 吴三云; 晋佩佩; 詹卓
Original assignee: Zhongnan Hospital of Wuhan University
Current assignee: Zhongnan Hospital of Wuhan University
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-01-05

Abstract

本发明公开了一种急性淋巴细胞白血病预后相关基因的筛选方法及应用，首先观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件，选择结局事件发生最为显著的CC小鼠系；并在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因，将SNP所处的基因与小鼠体内存在的基因相对应，确定出小鼠所具有的相关基因，并进一步确定出在人类体内相对应的所有相关基因；然后从TCGA数据库中获取患者信息，采用无监督聚类方法将患者分为不同的类别，最后根据获取的患者信息，通过COX比例风险模型对相关基因进行单变量生存分析，筛选出15个显著相关基因，然后进行多变量COX回归分析调整，确定出7个最佳预后相关基因，并在数据库和临床真实患者中进一步验证。

Description

一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统

技术领域

本发明涉及生物医药技术领域，尤其涉及一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统。

背景技术

急性淋巴细胞白血病是一种因淋系造血干细胞恶性克隆导致的血液系统疾病，ALL的发病机制目前仍不明确，肿瘤细胞克隆的异质性很大，超过50％的患者会复发，因此，进一步评估患者预后和选择个体化治疗方案尤为重要。

目前，针对急性淋巴细胞白血病的预测模型仍基于患者的临床特点、骨髓细胞遗传学等，对预后的预测能力和辅助临床治疗的能力有限，特别是针对相关基因的表达水平在ALL中的预后和治疗重要价值目前无相应的权威研究报道。因此，建立基于基因表达水平的ALL预后评分系统为获取新的更精准的预后评价指标、个体化治疗、新药开发具有重要临床意义。

发明内容

本发明提出一种急性淋巴细胞白血病预后相关基因的筛选方法及应用，用以解决或者至少部分解决现有技术中对急性淋巴细胞白血病预后能力有限的技术问题。

为了解决上述技术问题，本发明技术方案为：

第一方面提供了一种急性淋巴细胞白血病预后相关基因的筛选方法，包括：

S1：观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件，选择结局事件发生最为显著的CC小鼠系；

S2：在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因，将SNP所处的基因与小鼠体内存在的基因相对应，确定出小鼠所具有的相关基因，并进一步确定出在人类体内相对应的所有相关基因；

S3：从TCGA数据库中获取患者信息，其中，获取的患者信息包括预后信息和相关基因表达信息，采用无监督聚类方法将患者分为不同的类别，明确不同基因特征的患者是否存在明显的预后差异；

S4：根据获取的患者信息，通过COX比例风险模型对相关基因进行单变量生存分析，筛选出15个显著相关基因，然后进行多变量COX回归分析调整，确定出7个最佳预后相关基因。

在一种实施方式中，在步骤S2之后，所述方法还包括：

对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析，以识别相关基因所富集的特征性功能通路。

在一种实施方式中，S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。

基于同样的发明构思，本发明第二方面提供了一种急性淋巴细胞白血病患者预后风险评估模型，所述模型通过第一方面所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分，预后风险评分的计算方式为：

预后风险评分＝beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平；

其中，预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平，beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。

在一种实施方式中，预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。

在一种实施方式中，各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。

基于同样的发明构思，本发明第三方面提供了一种急性淋巴细胞白血病患者预后风险评估系统，所述的系统包括计算单元，所述计算单元用于利用实施例二所述的预后风险评估模型计算预后风险评分。

基于同样的发明构思，本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序运行时控制计算机可读存储介质所在装置执行第二方面所述的风险评估模型。

相比于现有技术，本发明公开的技术方案至少具有以下优点或者技术效果：

本发明提供了急性淋巴细胞白血病预后相关基因的筛选方法，确定出在人类体内相对应的所有相关基因后，从TCGA数据库中获取患者信息，采用无监督聚类方法将患者分为不同的类别，明确不同基因特征的患者是否存在明显的预后差异，并进一步根据获取的患者信息，通过COX比例风险模型对相关基因进行单变量和多变量COX回归分析调整，最终确定出7个最佳预后相关基因，进一步地，本发明还提供了急性淋巴细胞白血病患者预后风险评估模型，使用该模型可以对急性淋巴细胞白血病患者的预后风险进行评估。本发明更清楚的区分了个体急性淋巴细胞白血病患者的预后差异，从而指导患者治疗方案的选择，早期预警不良预后，避免过度医疗，为患者的精准治疗提供个体化依据和理论基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的急性淋巴细胞白血病预后相关基因的筛选方法的流程图；

图2为本发明实施例中11种不同品系CC小鼠的Kaplan-Meier生存曲线图，结局事件为发生胸腺淋巴瘤和(或)脾脏淋巴瘤；

图3为本发明实施例中淋巴瘤相关SNP的曼哈顿图，其中界定-log10(p)>8为显著相关SNP；

图4为本发明实施例中ARGET-ALL-P2数据集急性淋巴细胞白血病患者的无监督聚类图；

图5为本发明实施例中两组聚类患者的Kaplan-Meier生存曲线；

图6为本发明实施例中预后相关基因单因素分析结果的散点图，数据集为TARGET-ALL-P2；

图7为本发明实施例中为预后相关基因COX多因素回归结果，数据集为TARGET-ALL-P2，确定了7个最佳预后相关基因；

图8为本发明实施例中最佳预后基因在肿瘤组织与正常组织中的表达水平差异图；

图9为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线图；

图10为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的受试者工作特征曲线(ROC)图；

图11为本发明实施例中急性淋巴细胞白血病患者最佳预后基因在肿瘤组织与正常组织中的表达水平差异；

图12为本发明实施例中验证集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线；

图13为本发明实施例中预后相关基因在不同药物中的耐药情况气泡图。

具体实施方式

本发明提出了一种急性淋巴细胞白血病预后相关基因的筛选方法及应用，解决了现有技术中无法对急性淋巴细胞白血病预后信息进行跟踪或者对预后进行评估的技术问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提供了一种急性淋巴细胞白血病预后相关基因的筛选方法，包括：

关于本申请涉及的部分英文缩写的释义或者含义如下：

CC(Collaborative Cross，复杂性状遗传)；

SNP(Single nucleotide polymorphism)单核苷酸多态性；

TCGA(The Cancer Genome Atlas)癌症基因组图谱；

COX比例风险模型是由COX提出的一种半参数回归模型；

ALL(Acute lymphocyte Leukemia)急性淋巴细胞白血病；

Cluego：网络绘制工具Cytoscape的一个插件。

请参见图1，是本发明提供的急性淋巴细胞白血病预后相关基因的筛选方法的流程图。

具体来说，若干组不同系别的CC包括CC001，CC002，CC008，CC013，CC019，CC028，CC032，CC036，CC037，CC040和CC041。结局事件发生最为显著即与急性淋巴细胞白血病相关的脾脏淋巴瘤和胸腺淋巴瘤事件发生最为显著。

然后得到与淋巴瘤显著相关的SNP，将这些SNP的Pvalue值取负对数值以便绘制曼哈顿图，选取Pvalue<10^-8的SNP。

请参见图2-5，其中，图2为11种不同品系CC小鼠的Kaplan-Meier生存曲线图，结局事件为发生胸腺淋巴瘤和(或)脾脏淋巴瘤；图3为淋巴瘤相关SNP的曼哈顿图，其中界定-log10(p)>8为显著相关SNP(即图3虚线以上的SNP)。图4为ARGET-ALL-P2数据集急性淋巴细胞白血病患者的无监督聚类图(根据基因表达信息及预后相关信息将患者聚为两类)；图5为两组聚类患者的Kaplan-Meier生存曲线。

TCGA数据库为癌症基因图谱数据库。将TCGA数据库获取的具有预后信息(生存时间、生存状态)及基因表达信息的205名急性淋巴细胞白血病患者对应到S2中得到的在人类体内相对应的所有相关基因(人类的152个基因的特征)进行无监督聚类，以确定对患者进行的聚类是否有临床意义，即不同类别组间生存是否有差异，从而证明按照本发明找到的基因对患者进行分组，组间预后差异有意义。

COX比例风险模型，是一种半参数回归模型。该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。

在一种实施方式中，在步骤S2之后，所述方法还包括：

具体来说，富集分析是了解一个基因集功能倾向性的一个方式，一般用于组学研究领域应。

实施例二

基于同样的发明构思，本实施例公开了一种急性淋巴细胞白血病患者预后风险评估模型，所述模型通过实施例一所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分，预后风险评分的计算方式为：

具体来说，提供的一种急性淋巴细胞白血病患者预后风险评估模型，为急性淋巴细胞白血病预后相关基因的现实应用，可以对急性淋巴细胞白血病患者的预后风险进行评估。具体实施过程中，通过预后风险评分的计算，评分越高，预后风险越大。

COX多因素回归，也称为比例风险回归模型，是对生存资料进行多因素分析的统计方法。由预后相关基因的mRNA水平进行COX多因素回归分析后获得的beta值作为权重系数。

具体实施过程中，由于样本不同、检测手段不同使得所获得基因的表达水平不同，因此所获得的基因权重系数会有所变化。

具体实施过程中，提供了数据库数据集及本院患者数据集的验证支持，所述数据库数据集为TARGET-ALL-P3，以及本院患者44名，将患者按照评分模型分为高风险预后组与低风险预后组，验证了模型可靠性。

具体地，按照预后风险评估模型对每个患者进行评分，取这些评分的中位数，分为高风险组和低风险组，然后对他们做KM曲线比较，验证了低分组预后效果好。

请参见图6-图11，图6为本发明实施例中预后相关基因单因素分析结果的散点图，数据集为TARGET-ALL-P2，具体地，通过单因素风险比例模型分析(COX)筛选预后相关基因。

图7为本发明实施例中为预后相关基因COX多因素回归结果，数据集为TARGET-ALL-P2，确定了7个最佳预后相关基因。

图8为本发明实施例中最佳预后基因在肿瘤组织与正常组织中的表达水平差异图(其中，****表示差异有意义)。

图9为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线图；根据基因表达信息分为高风险评分组与低风险评分组，高风险组预后较差。

图10为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的受试者工作特征曲线(ROC)图；该模型的1年、3年、5年诊断准确性均较高。

图11为本发明实施例中急性淋巴细胞白血病患者最佳预后基因在肿瘤组织与正常组织中的表达水平差异(****表示差异有意义)；

图12为本发明实施例中验证集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线；根据基因表达信息分为高风险评分组与低风险评分组，高风险组预后较差，验证模型可靠。

图13为本发明实施例中预后相关基因在不同药物中的耐药情况气泡图，纵坐标为不同药物，横坐标为7个基因，可知基因NNT、PDLIM5的表达与靶向药物BCL-2抑制剂(Venetoclax)的耐药密切相关。可为发现靶向药物提供相关耐药信息。

进一步地，本发明还进一步提供了所述7个最佳预后基因的耐药相关信息，为急性淋巴细胞白血病患者治疗方案的选择提供指导，避免非必要的无效治疗，缩短治疗时长。

本发明与参考专利文献CN116024343A(一组急性淋巴细胞白血病预后相关的免疫细胞或基质细胞浸润基因标志物及其应用)相比，主要区别点包括：

1、研究对象和目的不相同：参考专利文献是针对ALL患者的免疫细胞或基质细胞，主要目的是研究免疫功能，而本发明是针对肿瘤细胞，主要目的是研究肿瘤细胞特性。

2、主要的技术手段不相同，参考专利文献的7个目的基因直接来自于公共数据库分析后得出，而本发明则通过观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件，选择结局事件发生最为显著的CC小鼠系；然后在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因，将SNP所处的基因与小鼠体内存在的基因相对应，确定出小鼠所具有的相关基因，并进一步确定出在人类体内相对应的所有相关基因；再从TCGA数据库中获取患者信息；最后根据获取的患者信息，通过COX比例风险模型对相关基因进行单变量生存分析，筛选出15个显著相关基因，然后进行多变量COX回归分析调整，确定出7个最佳预后相关基因。也就是说，参考专利直接从公共数据库分析得出，本发明则是通过对动物模型进行转换，然后确定各SNP所处的基因，再进一步确定出在人类体内相对应的所有相关基因后得出。利用CC小鼠可以对复杂性疾病、复杂性疾病的严重表型以及发病分子机制进行遗传影响因素的研究，特别是有关肿瘤的遗传易感性分析方面，CC小鼠作为一种新的资源，在实验设计、数据分析、应用领域等方面发挥在个体化诊治中的作用。本申请的数据来自于CC小鼠，模仿不同人群的对疾病的易感性，比来自数据库(往往是同一个地域的单一人群)的数据，更有说服力。

3、数据验证证据级别不同：参考文献中在数据库和4位患者中验证，而本申请在ALL数据库、44位真实临床患者、耐药基因数据库中反复验证相关预后基因的特异度和敏感度。

总体来说，本发明提供了一组急性淋巴细胞白血病最佳预后相关基因及基于最佳基因建立的预后风险评分模型，更清楚的区分了个体急性淋巴细胞白血病患者的预后差异，从而可能指导患者的治疗方案选择，早期预防不良预后或避免过度医疗，从而为患者提供个体化医疗。

由于本发明实施例二所介绍的急性淋巴细胞白血病患者预后风险评估模型，为本发明实施例一中急性淋巴细胞白血病预后相关基因的筛选方法的具体应用，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该模型的具体结构及变形，故而在此不再赘述。凡是基于本发明实施例一中方法所构建的模型都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种急性淋巴细胞白血病患者预后风险评估系统，所述的系统包括计算单元，所述计算单元用于利用实施例二所述的预后风险评估模型计算预后风险评分。

由于本发明实施例三所介绍的系统为实施本发明实施例二中急性淋巴细胞白血病患者预后风险评估模型所采用的系统，故而基于本发明实施例二所介绍的模型，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是实施本发明实施例二的模型所采用的系统都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序运行时控制计算机可读存储介质所在装置执行实施例二所述的风险评估模型。

由于本发明实施例四所介绍的计算机可读存储介质为实施本发明实施例二中急性淋巴细胞白血病患者预后风险评估模型所采用的计算机可读存储介质，故而基于本发明实施例二所介绍的模型，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是实施本发明实施例二的模型所采用的计算机可读存储介质都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种急性淋巴细胞白血病预后相关基因的筛选方法，其特征在于，包括：

S2：在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因，将SNP所处的基因与小鼠体内存在的基因相对应，确定出小鼠所具有的相关基因，并进一步确定出在人类相对应的所有相关基因；

2.如权利要求1所述的急性淋巴细胞白血病预后相关基因的筛选方法，其特征在于，在步骤S2之后，所述方法还包括：

3.如权利要求1或2所述的急性淋巴细胞白血病预后相关基因的筛选方法，其特征在于，S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。

4.一种急性淋巴细胞白血病患者预后风险评估模型，其特征在于，所述模型通过权利要求3所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分，预后风险评分的计算方式为：

5.如权利要求4所述的急性淋巴细胞白血病患者预后风险评估模型，其特征在于，预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。

6.如权利要求4或5所述的急性淋巴细胞白血病患者预后风险评估模型，其特征在于，各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。

7.一种急性淋巴细胞白血病患者预后风险评估系统，其特征在于，所述的系统包括计算单元，所述计算单元用于利用权利要求4至6任一项中所述的预后风险评估模型计算预后风险评分。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在所述计算机程序运行时控制计算机可读存储介质所在装置执行权利要求4至6任一项中所述的风险评估模型。