CN117352061A - 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 - Google Patents

一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 Download PDF

Info

Publication number
CN117352061A
CN117352061A CN202311162935.5A CN202311162935A CN117352061A CN 117352061 A CN117352061 A CN 117352061A CN 202311162935 A CN202311162935 A CN 202311162935A CN 117352061 A CN117352061 A CN 117352061A
Authority
CN
China
Prior art keywords
prognosis
lymphoblastic leukemia
acute lymphoblastic
genes
expression level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311162935.5A
Other languages
English (en)
Inventor
何莉
刘雯
吴三云
晋佩佩
詹卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongnan Hospital of Wuhan University
Original Assignee
Zhongnan Hospital of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongnan Hospital of Wuhan University filed Critical Zhongnan Hospital of Wuhan University
Priority to CN202311162935.5A priority Critical patent/CN117352061A/zh
Publication of CN117352061A publication Critical patent/CN117352061A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Abstract

本发明公开了一种急性淋巴细胞白血病预后相关基因的筛选方法及应用,首先观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;并在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;然后从TCGA数据库中获取患者信息,采用无监督聚类方法将患者分为不同的类别,最后根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因,并在数据库和临床真实患者中进一步验证。

Description

一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险 评估模型及系统
技术领域
本发明涉及生物医药技术领域,尤其涉及一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统。
背景技术
急性淋巴细胞白血病是一种因淋系造血干细胞恶性克隆导致的血液系统疾病,ALL的发病机制目前仍不明确,肿瘤细胞克隆的异质性很大,超过50%的患者会复发,因此,进一步评估患者预后和选择个体化治疗方案尤为重要。
目前,针对急性淋巴细胞白血病的预测模型仍基于患者的临床特点、骨髓细胞遗传学等,对预后的预测能力和辅助临床治疗的能力有限,特别是针对相关基因的表达水平在ALL中的预后和治疗重要价值目前无相应的权威研究报道。因此,建立基于基因表达水平的ALL预后评分系统为获取新的更精准的预后评价指标、个体化治疗、新药开发具有重要临床意义。
发明内容
本发明提出一种急性淋巴细胞白血病预后相关基因的筛选方法及应用,用以解决或者至少部分解决现有技术中对急性淋巴细胞白血病预后能力有限的技术问题。
为了解决上述技术问题,本发明技术方案为:
第一方面提供了一种急性淋巴细胞白血病预后相关基因的筛选方法,包括:
S1:观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;
S2:在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;
S3:从TCGA数据库中获取患者信息,其中,获取的患者信息包括预后信息和相关基因表达信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异;
S4:根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。
在一种实施方式中,在步骤S2之后,所述方法还包括:
对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析,以识别相关基因所富集的特征性功能通路。
在一种实施方式中,S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。
基于同样的发明构思,本发明第二方面提供了一种急性淋巴细胞白血病患者预后风险评估模型,所述模型通过第一方面所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分,预后风险评分的计算方式为:
预后风险评分=beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平;
其中,预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平,beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。
在一种实施方式中,预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。
在一种实施方式中,各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。
基于同样的发明构思,本发明第三方面提供了一种急性淋巴细胞白血病患者预后风险评估系统,所述的系统包括计算单元,所述计算单元用于利用实施例二所述的预后风险评估模型计算预后风险评分。
基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序运行时控制计算机可读存储介质所在装置执行第二方面所述的风险评估模型。
相比于现有技术,本发明公开的技术方案至少具有以下优点或者技术效果:
本发明提供了急性淋巴细胞白血病预后相关基因的筛选方法,确定出在人类体内相对应的所有相关基因后,从TCGA数据库中获取患者信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异,并进一步根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量和多变量COX回归分析调整,最终确定出7个最佳预后相关基因,进一步地,本发明还提供了急性淋巴细胞白血病患者预后风险评估模型,使用该模型可以对急性淋巴细胞白血病患者的预后风险进行评估。本发明更清楚的区分了个体急性淋巴细胞白血病患者的预后差异,从而指导患者治疗方案的选择,早期预警不良预后,避免过度医疗,为患者的精准治疗提供个体化依据和理论基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的急性淋巴细胞白血病预后相关基因的筛选方法的流程图;
图2为本发明实施例中11种不同品系CC小鼠的Kaplan-Meier生存曲线图,结局事件为发生胸腺淋巴瘤和(或)脾脏淋巴瘤;
图3为本发明实施例中淋巴瘤相关SNP的曼哈顿图,其中界定-log10(p)>8为显著相关SNP;
图4为本发明实施例中ARGET-ALL-P2数据集急性淋巴细胞白血病患者的无监督聚类图;
图5为本发明实施例中两组聚类患者的Kaplan-Meier生存曲线;
图6为本发明实施例中预后相关基因单因素分析结果的散点图,数据集为TARGET-ALL-P2;
图7为本发明实施例中为预后相关基因COX多因素回归结果,数据集为TARGET-ALL-P2,确定了7个最佳预后相关基因;
图8为本发明实施例中最佳预后基因在肿瘤组织与正常组织中的表达水平差异图;
图9为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线图;
图10为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的受试者工作特征曲线(ROC)图;
图11为本发明实施例中急性淋巴细胞白血病患者最佳预后基因在肿瘤组织与正常组织中的表达水平差异;
图12为本发明实施例中验证集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线;
图13为本发明实施例中预后相关基因在不同药物中的耐药情况气泡图。
具体实施方式
本发明提出了一种急性淋巴细胞白血病预后相关基因的筛选方法及应用,解决了现有技术中无法对急性淋巴细胞白血病预后信息进行跟踪或者对预后进行评估的技术问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明提供了一种急性淋巴细胞白血病预后相关基因的筛选方法,包括:
S1:观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;
S2:在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;
S3:从TCGA数据库中获取患者信息,其中,获取的患者信息包括预后信息和相关基因表达信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异;
S4:根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。
关于本申请涉及的部分英文缩写的释义或者含义如下:
CC(Collaborative Cross,复杂性状遗传);
SNP(Single nucleotide polymorphism)单核苷酸多态性;
TCGA(The Cancer Genome Atlas)癌症基因组图谱;
COX比例风险模型是由COX提出的一种半参数回归模型;
ALL(Acute lymphocyte Leukemia)急性淋巴细胞白血病;
Cluego:网络绘制工具Cytoscape的一个插件。
请参见图1,是本发明提供的急性淋巴细胞白血病预后相关基因的筛选方法的流程图。
具体来说,若干组不同系别的CC包括CC001,CC002,CC008,CC013,CC019,CC028,CC032,CC036,CC037,CC040和CC041。结局事件发生最为显著即与急性淋巴细胞白血病相关的脾脏淋巴瘤和胸腺淋巴瘤事件发生最为显著。
然后得到与淋巴瘤显著相关的SNP,将这些SNP的Pvalue值取负对数值以便绘制曼哈顿图,选取Pvalue<10-8的SNP。
请参见图2-5,其中,图2为11种不同品系CC小鼠的Kaplan-Meier生存曲线图,结局事件为发生胸腺淋巴瘤和(或)脾脏淋巴瘤;图3为淋巴瘤相关SNP的曼哈顿图,其中界定-log10(p)>8为显著相关SNP(即图3虚线以上的SNP)。图4为ARGET-ALL-P2数据集急性淋巴细胞白血病患者的无监督聚类图(根据基因表达信息及预后相关信息将患者聚为两类);图5为两组聚类患者的Kaplan-Meier生存曲线。
TCGA数据库为癌症基因图谱数据库。将TCGA数据库获取的具有预后信息(生存时间、生存状态)及基因表达信息的205名急性淋巴细胞白血病患者对应到S2中得到的在人类体内相对应的所有相关基因(人类的152个基因的特征)进行无监督聚类,以确定对患者进行的聚类是否有临床意义,即不同类别组间生存是否有差异,从而证明按照本发明找到的基因对患者进行分组,组间预后差异有意义。
COX比例风险模型,是一种半参数回归模型。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。
在一种实施方式中,在步骤S2之后,所述方法还包括:
对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析,以识别相关基因所富集的特征性功能通路。
具体来说,富集分析是了解一个基因集功能倾向性的一个方式,一般用于组学研究领域应。
在一种实施方式中,S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。
实施例二
基于同样的发明构思,本实施例公开了一种急性淋巴细胞白血病患者预后风险评估模型,所述模型通过实施例一所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分,预后风险评分的计算方式为:
预后风险评分=beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平;
其中,预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平,beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。
具体来说,提供的一种急性淋巴细胞白血病患者预后风险评估模型,为急性淋巴细胞白血病预后相关基因的现实应用,可以对急性淋巴细胞白血病患者的预后风险进行评估。具体实施过程中,通过预后风险评分的计算,评分越高,预后风险越大。
在一种实施方式中,预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。
COX多因素回归,也称为比例风险回归模型,是对生存资料进行多因素分析的统计方法。由预后相关基因的mRNA水平进行COX多因素回归分析后获得的beta值作为权重系数。
具体实施过程中,由于样本不同、检测手段不同使得所获得基因的表达水平不同,因此所获得的基因权重系数会有所变化。
在一种实施方式中,各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。
具体实施过程中,提供了数据库数据集及本院患者数据集的验证支持,所述数据库数据集为TARGET-ALL-P3,以及本院患者44名,将患者按照评分模型分为高风险预后组与低风险预后组,验证了模型可靠性。
具体地,按照预后风险评估模型对每个患者进行评分,取这些评分的中位数,分为高风险组和低风险组,然后对他们做KM曲线比较,验证了低分组预后效果好。
请参见图6-图11,图6为本发明实施例中预后相关基因单因素分析结果的散点图,数据集为TARGET-ALL-P2,具体地,通过单因素风险比例模型分析(COX)筛选预后相关基因。
图7为本发明实施例中为预后相关基因COX多因素回归结果,数据集为TARGET-ALL-P2,确定了7个最佳预后相关基因。
图8为本发明实施例中最佳预后基因在肿瘤组织与正常组织中的表达水平差异图(其中,****表示差异有意义)。
图9为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线图;根据基因表达信息分为高风险评分组与低风险评分组,高风险组预后较差。
图10为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的受试者工作特征曲线(ROC)图;该模型的1年、3年、5年诊断准确性均较高。
图11为本发明实施例中急性淋巴细胞白血病患者最佳预后基因在肿瘤组织与正常组织中的表达水平差异(****表示差异有意义);
图12为本发明实施例中验证集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线;根据基因表达信息分为高风险评分组与低风险评分组,高风险组预后较差,验证模型可靠。
图13为本发明实施例中预后相关基因在不同药物中的耐药情况气泡图,纵坐标为不同药物,横坐标为7个基因,可知基因NNT、PDLIM5的表达与靶向药物BCL-2抑制剂(Venetoclax)的耐药密切相关。可为发现靶向药物提供相关耐药信息。
进一步地,本发明还进一步提供了所述7个最佳预后基因的耐药相关信息,为急性淋巴细胞白血病患者治疗方案的选择提供指导,避免非必要的无效治疗,缩短治疗时长。
本发明与参考专利文献CN116024343A(一组急性淋巴细胞白血病预后相关的免疫细胞或基质细胞浸润基因标志物及其应用)相比,主要区别点包括:
1、研究对象和目的不相同:参考专利文献是针对ALL患者的免疫细胞或基质细胞,主要目的是研究免疫功能,而本发明是针对肿瘤细胞,主要目的是研究肿瘤细胞特性。
2、主要的技术手段不相同,参考专利文献的7个目的基因直接来自于公共数据库分析后得出,而本发明则通过观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;然后在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;再从TCGA数据库中获取患者信息;最后根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。也就是说,参考专利直接从公共数据库分析得出,本发明则是通过对动物模型进行转换,然后确定各SNP所处的基因,再进一步确定出在人类体内相对应的所有相关基因后得出。利用CC小鼠可以对复杂性疾病、复杂性疾病的严重表型以及发病分子机制进行遗传影响因素的研究,特别是有关肿瘤的遗传易感性分析方面,CC小鼠作为一种新的资源,在实验设计、数据分析、应用领域等方面发挥在个体化诊治中的作用。本申请的数据来自于CC小鼠,模仿不同人群的对疾病的易感性,比来自数据库(往往是同一个地域的单一人群)的数据,更有说服力。
3、数据验证证据级别不同:参考文献中在数据库和4位患者中验证,而本申请在ALL数据库、44位真实临床患者、耐药基因数据库中反复验证相关预后基因的特异度和敏感度。
总体来说,本发明提供了一组急性淋巴细胞白血病最佳预后相关基因及基于最佳基因建立的预后风险评分模型,更清楚的区分了个体急性淋巴细胞白血病患者的预后差异,从而可能指导患者的治疗方案选择,早期预防不良预后或避免过度医疗,从而为患者提供个体化医疗。
由于本发明实施例二所介绍的急性淋巴细胞白血病患者预后风险评估模型,为本发明实施例一中急性淋巴细胞白血病预后相关基因的筛选方法的具体应用,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该模型的具体结构及变形,故而在此不再赘述。凡是基于本发明实施例一中方法所构建的模型都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明还提供了一种急性淋巴细胞白血病患者预后风险评估系统,所述的系统包括计算单元,所述计算单元用于利用实施例二所述的预后风险评估模型计算预后风险评分。
由于本发明实施例三所介绍的系统为实施本发明实施例二中急性淋巴细胞白血病患者预后风险评估模型所采用的系统,故而基于本发明实施例二所介绍的模型,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是实施本发明实施例二的模型所采用的系统都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序运行时控制计算机可读存储介质所在装置执行实施例二所述的风险评估模型。
由于本发明实施例四所介绍的计算机可读存储介质为实施本发明实施例二中急性淋巴细胞白血病患者预后风险评估模型所采用的计算机可读存储介质,故而基于本发明实施例二所介绍的模型,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是实施本发明实施例二的模型所采用的计算机可读存储介质都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种急性淋巴细胞白血病预后相关基因的筛选方法,其特征在于,包括:
S1:观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;
S2:在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类相对应的所有相关基因;
S3:从TCGA数据库中获取患者信息,其中,获取的患者信息包括预后信息和相关基因表达信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异;
S4:根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。
2.如权利要求1所述的急性淋巴细胞白血病预后相关基因的筛选方法,其特征在于,在步骤S2之后,所述方法还包括:
对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析,以识别相关基因所富集的特征性功能通路。
3.如权利要求1或2所述的急性淋巴细胞白血病预后相关基因的筛选方法,其特征在于,S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。
4.一种急性淋巴细胞白血病患者预后风险评估模型,其特征在于,所述模型通过权利要求3所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分,预后风险评分的计算方式为:
预后风险评分=beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平;
其中,预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平,beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。
5.如权利要求4所述的急性淋巴细胞白血病患者预后风险评估模型,其特征在于,预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。
6.如权利要求4或5所述的急性淋巴细胞白血病患者预后风险评估模型,其特征在于,各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。
7.一种急性淋巴细胞白血病患者预后风险评估系统,其特征在于,所述的系统包括计算单元,所述计算单元用于利用权利要求4至6任一项中所述的预后风险评估模型计算预后风险评分。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序运行时控制计算机可读存储介质所在装置执行权利要求4至6任一项中所述的风险评估模型。
CN202311162935.5A 2023-09-08 2023-09-08 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 Pending CN117352061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311162935.5A CN117352061A (zh) 2023-09-08 2023-09-08 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311162935.5A CN117352061A (zh) 2023-09-08 2023-09-08 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统

Publications (1)

Publication Number Publication Date
CN117352061A true CN117352061A (zh) 2024-01-05

Family

ID=89356483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311162935.5A Pending CN117352061A (zh) 2023-09-08 2023-09-08 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统

Country Status (1)

Country Link
CN (1) CN117352061A (zh)

Similar Documents

Publication Publication Date Title
JP5570516B2 (ja) 遺伝子コピー数の変化のパターンに基づいた結腸直腸癌のゲノム分類
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20140040264A1 (en) Method for estimation of information flow in biological networks
CN108377651A (zh) 染色体互相作用的检测
US7370021B2 (en) Medical applications of adaptive learning systems using gene expression data
CN105279369A (zh) 一种基于二代测序的冠心病遗传风险评估方法
Chen Key aspects of analyzing microarray gene-expression data
Luo et al. hsa‐mir‐3199‐2 and hsa‐mir‐1293 as novel prognostic biomarkers of papillary renal cell carcinoma by COX ratio risk regression model screening
US20230063506A1 (en) Small rna disease classifiers
US20230348980A1 (en) Systems and methods of detecting a risk of alzheimer&#39;s disease using a circulating-free mrna profiling assay
Gründner et al. Predicting Clinical Outcomes in Colorectal Cancer Using Machine Learning.
Kaur et al. An integrated approach for cancer survival prediction using data mining techniques
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
US20190073445A1 (en) Identifying false positive variants using a significance model
CN114913919A (zh) 一种单基因病遗传变异智能解读及报告的方法、系统及服务器
CN115836349A (zh) 用于评估纵向生物特征数据的系统和方法
Fazal et al. RExPRT: a machine learning tool to predict pathogenicity of tandem repeat loci
Tadesse et al. Bayesian error-in-variable survival model for the analysis of genechip arrays
CN117352061A (zh) 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统
Lu et al. An algorithm for classifying tumors based on genomic aberrations and selecting representative tumor models
JP2004030093A (ja) 遺伝子発現データ解析方法
KR102042823B1 (ko) 류마티스관절염 예후 예측용 snp 마커 세트
CN116529835A (zh) 预测癌症进展的方法
WO2005052181A2 (en) Methods for molecular toxicology modeling
JP2022534236A (ja) 多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination