CN117352061A - 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 - Google Patents
一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 Download PDFInfo
- Publication number
- CN117352061A CN117352061A CN202311162935.5A CN202311162935A CN117352061A CN 117352061 A CN117352061 A CN 117352061A CN 202311162935 A CN202311162935 A CN 202311162935A CN 117352061 A CN117352061 A CN 117352061A
- Authority
- CN
- China
- Prior art keywords
- prognosis
- lymphoblastic leukemia
- acute lymphoblastic
- genes
- expression level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 127
- 238000004393 prognosis Methods 0.000 title claims abstract description 108
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 title claims abstract description 60
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 title claims abstract description 60
- 208000006664 Precursor Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012216 screening Methods 0.000 title claims abstract description 22
- 238000012502 risk assessment Methods 0.000 title claims description 22
- 230000004083 survival effect Effects 0.000 claims abstract description 22
- 206010025323 Lymphomas Diseases 0.000 claims abstract description 16
- 241000699666 Mus <mouse, genus> Species 0.000 claims abstract description 15
- 241000282414 Homo sapiens Species 0.000 claims abstract description 12
- 241000699670 Mus sp. Species 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000000611 regression analysis Methods 0.000 claims abstract description 9
- 210000000952 spleen Anatomy 0.000 claims abstract description 8
- 201000002341 thymus lymphoma Diseases 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 10
- 101000988394 Homo sapiens PDZ and LIM domain protein 5 Proteins 0.000 claims description 7
- 108020004999 messenger RNA Proteins 0.000 claims description 7
- 102100026437 Branched-chain-amino-acid aminotransferase, cytosolic Human genes 0.000 claims description 6
- 102100025942 Chemokine-like protein TAFA-5 Human genes 0.000 claims description 6
- 101000766268 Homo sapiens Branched-chain-amino-acid aminotransferase, cytosolic Proteins 0.000 claims description 6
- 101000788164 Homo sapiens Chemokine-like protein TAFA-5 Proteins 0.000 claims description 6
- 101000603161 Homo sapiens NAD(P) transhydrogenase, mitochondrial Proteins 0.000 claims description 6
- 101000986786 Homo sapiens Orexin/Hypocretin receptor type 1 Proteins 0.000 claims description 6
- 101001134134 Homo sapiens Oxidation resistance protein 1 Proteins 0.000 claims description 6
- 101000652172 Homo sapiens Protein Smaug homolog 1 Proteins 0.000 claims description 6
- 102100038943 NAD(P) transhydrogenase, mitochondrial Human genes 0.000 claims description 6
- 102100028141 Orexin/Hypocretin receptor type 1 Human genes 0.000 claims description 6
- 102100029181 PDZ and LIM domain protein 5 Human genes 0.000 claims description 6
- 102100030591 Protein Smaug homolog 1 Human genes 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000037361 pathway Effects 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 238000010201 enrichment analysis Methods 0.000 claims description 4
- 101000813163 Homo sapiens Protein ELFN1 Proteins 0.000 claims description 3
- 102100039245 Protein ELFN1 Human genes 0.000 claims description 3
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 3
- 238000012795 verification Methods 0.000 abstract description 3
- 206010028980 Neoplasm Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 210000001519 tissue Anatomy 0.000 description 8
- 206010059866 Drug resistance Diseases 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000004881 tumor cell Anatomy 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000002536 stromal cell Anatomy 0.000 description 2
- 239000012664 BCL-2-inhibitor Substances 0.000 description 1
- 229940123711 Bcl2 inhibitor Drugs 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000002559 cytogenic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 230000036737 immune function Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 238000011119 multifactor regression analysis Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 229960001183 venetoclax Drugs 0.000 description 1
- LQBVNQSMGBZMKD-UHFFFAOYSA-N venetoclax Chemical compound C=1C=C(Cl)C=CC=1C=1CC(C)(C)CCC=1CN(CC1)CCN1C(C=C1OC=2C=C3C=CNC3=NC=2)=CC=C1C(=O)NS(=O)(=O)C(C=C1[N+]([O-])=O)=CC=C1NCC1CCOCC1 LQBVNQSMGBZMKD-UHFFFAOYSA-N 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Abstract
本发明公开了一种急性淋巴细胞白血病预后相关基因的筛选方法及应用,首先观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;并在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;然后从TCGA数据库中获取患者信息,采用无监督聚类方法将患者分为不同的类别,最后根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因,并在数据库和临床真实患者中进一步验证。
Description
技术领域
本发明涉及生物医药技术领域,尤其涉及一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统。
背景技术
急性淋巴细胞白血病是一种因淋系造血干细胞恶性克隆导致的血液系统疾病,ALL的发病机制目前仍不明确,肿瘤细胞克隆的异质性很大,超过50%的患者会复发,因此,进一步评估患者预后和选择个体化治疗方案尤为重要。
目前,针对急性淋巴细胞白血病的预测模型仍基于患者的临床特点、骨髓细胞遗传学等,对预后的预测能力和辅助临床治疗的能力有限,特别是针对相关基因的表达水平在ALL中的预后和治疗重要价值目前无相应的权威研究报道。因此,建立基于基因表达水平的ALL预后评分系统为获取新的更精准的预后评价指标、个体化治疗、新药开发具有重要临床意义。
发明内容
本发明提出一种急性淋巴细胞白血病预后相关基因的筛选方法及应用,用以解决或者至少部分解决现有技术中对急性淋巴细胞白血病预后能力有限的技术问题。
为了解决上述技术问题,本发明技术方案为:
第一方面提供了一种急性淋巴细胞白血病预后相关基因的筛选方法,包括:
S1:观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;
S2:在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;
S3:从TCGA数据库中获取患者信息,其中,获取的患者信息包括预后信息和相关基因表达信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异;
S4:根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。
在一种实施方式中,在步骤S2之后,所述方法还包括:
对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析,以识别相关基因所富集的特征性功能通路。
在一种实施方式中,S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。
基于同样的发明构思,本发明第二方面提供了一种急性淋巴细胞白血病患者预后风险评估模型,所述模型通过第一方面所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分,预后风险评分的计算方式为:
预后风险评分=beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平;
其中,预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平,beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。
在一种实施方式中,预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。
在一种实施方式中,各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。
基于同样的发明构思,本发明第三方面提供了一种急性淋巴细胞白血病患者预后风险评估系统,所述的系统包括计算单元,所述计算单元用于利用实施例二所述的预后风险评估模型计算预后风险评分。
基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序运行时控制计算机可读存储介质所在装置执行第二方面所述的风险评估模型。
相比于现有技术,本发明公开的技术方案至少具有以下优点或者技术效果:
本发明提供了急性淋巴细胞白血病预后相关基因的筛选方法,确定出在人类体内相对应的所有相关基因后,从TCGA数据库中获取患者信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异,并进一步根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量和多变量COX回归分析调整,最终确定出7个最佳预后相关基因,进一步地,本发明还提供了急性淋巴细胞白血病患者预后风险评估模型,使用该模型可以对急性淋巴细胞白血病患者的预后风险进行评估。本发明更清楚的区分了个体急性淋巴细胞白血病患者的预后差异,从而指导患者治疗方案的选择,早期预警不良预后,避免过度医疗,为患者的精准治疗提供个体化依据和理论基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的急性淋巴细胞白血病预后相关基因的筛选方法的流程图;
图2为本发明实施例中11种不同品系CC小鼠的Kaplan-Meier生存曲线图,结局事件为发生胸腺淋巴瘤和(或)脾脏淋巴瘤;
图3为本发明实施例中淋巴瘤相关SNP的曼哈顿图,其中界定-log10(p)>8为显著相关SNP;
图4为本发明实施例中ARGET-ALL-P2数据集急性淋巴细胞白血病患者的无监督聚类图;
图5为本发明实施例中两组聚类患者的Kaplan-Meier生存曲线;
图6为本发明实施例中预后相关基因单因素分析结果的散点图,数据集为TARGET-ALL-P2;
图7为本发明实施例中为预后相关基因COX多因素回归结果,数据集为TARGET-ALL-P2,确定了7个最佳预后相关基因;
图8为本发明实施例中最佳预后基因在肿瘤组织与正常组织中的表达水平差异图;
图9为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线图;
图10为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的受试者工作特征曲线(ROC)图;
图11为本发明实施例中急性淋巴细胞白血病患者最佳预后基因在肿瘤组织与正常组织中的表达水平差异;
图12为本发明实施例中验证集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线;
图13为本发明实施例中预后相关基因在不同药物中的耐药情况气泡图。
具体实施方式
本发明提出了一种急性淋巴细胞白血病预后相关基因的筛选方法及应用,解决了现有技术中无法对急性淋巴细胞白血病预后信息进行跟踪或者对预后进行评估的技术问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明提供了一种急性淋巴细胞白血病预后相关基因的筛选方法,包括:
S1:观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;
S2:在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;
S3:从TCGA数据库中获取患者信息,其中,获取的患者信息包括预后信息和相关基因表达信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异;
S4:根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。
关于本申请涉及的部分英文缩写的释义或者含义如下:
CC(Collaborative Cross,复杂性状遗传);
SNP(Single nucleotide polymorphism)单核苷酸多态性;
TCGA(The Cancer Genome Atlas)癌症基因组图谱;
COX比例风险模型是由COX提出的一种半参数回归模型;
ALL(Acute lymphocyte Leukemia)急性淋巴细胞白血病;
Cluego:网络绘制工具Cytoscape的一个插件。
请参见图1,是本发明提供的急性淋巴细胞白血病预后相关基因的筛选方法的流程图。
具体来说,若干组不同系别的CC包括CC001,CC002,CC008,CC013,CC019,CC028,CC032,CC036,CC037,CC040和CC041。结局事件发生最为显著即与急性淋巴细胞白血病相关的脾脏淋巴瘤和胸腺淋巴瘤事件发生最为显著。
然后得到与淋巴瘤显著相关的SNP,将这些SNP的Pvalue值取负对数值以便绘制曼哈顿图,选取Pvalue<10-8的SNP。
请参见图2-5,其中,图2为11种不同品系CC小鼠的Kaplan-Meier生存曲线图,结局事件为发生胸腺淋巴瘤和(或)脾脏淋巴瘤;图3为淋巴瘤相关SNP的曼哈顿图,其中界定-log10(p)>8为显著相关SNP(即图3虚线以上的SNP)。图4为ARGET-ALL-P2数据集急性淋巴细胞白血病患者的无监督聚类图(根据基因表达信息及预后相关信息将患者聚为两类);图5为两组聚类患者的Kaplan-Meier生存曲线。
TCGA数据库为癌症基因图谱数据库。将TCGA数据库获取的具有预后信息(生存时间、生存状态)及基因表达信息的205名急性淋巴细胞白血病患者对应到S2中得到的在人类体内相对应的所有相关基因(人类的152个基因的特征)进行无监督聚类,以确定对患者进行的聚类是否有临床意义,即不同类别组间生存是否有差异,从而证明按照本发明找到的基因对患者进行分组,组间预后差异有意义。
COX比例风险模型,是一种半参数回归模型。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。
在一种实施方式中,在步骤S2之后,所述方法还包括:
对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析,以识别相关基因所富集的特征性功能通路。
具体来说,富集分析是了解一个基因集功能倾向性的一个方式,一般用于组学研究领域应。
在一种实施方式中,S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。
实施例二
基于同样的发明构思,本实施例公开了一种急性淋巴细胞白血病患者预后风险评估模型,所述模型通过实施例一所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分,预后风险评分的计算方式为:
预后风险评分=beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平;
其中,预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平,beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。
具体来说,提供的一种急性淋巴细胞白血病患者预后风险评估模型,为急性淋巴细胞白血病预后相关基因的现实应用,可以对急性淋巴细胞白血病患者的预后风险进行评估。具体实施过程中,通过预后风险评分的计算,评分越高,预后风险越大。
在一种实施方式中,预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。
COX多因素回归,也称为比例风险回归模型,是对生存资料进行多因素分析的统计方法。由预后相关基因的mRNA水平进行COX多因素回归分析后获得的beta值作为权重系数。
具体实施过程中,由于样本不同、检测手段不同使得所获得基因的表达水平不同,因此所获得的基因权重系数会有所变化。
在一种实施方式中,各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。
具体实施过程中,提供了数据库数据集及本院患者数据集的验证支持,所述数据库数据集为TARGET-ALL-P3,以及本院患者44名,将患者按照评分模型分为高风险预后组与低风险预后组,验证了模型可靠性。
具体地,按照预后风险评估模型对每个患者进行评分,取这些评分的中位数,分为高风险组和低风险组,然后对他们做KM曲线比较,验证了低分组预后效果好。
请参见图6-图11,图6为本发明实施例中预后相关基因单因素分析结果的散点图,数据集为TARGET-ALL-P2,具体地,通过单因素风险比例模型分析(COX)筛选预后相关基因。
图7为本发明实施例中为预后相关基因COX多因素回归结果,数据集为TARGET-ALL-P2,确定了7个最佳预后相关基因。
图8为本发明实施例中最佳预后基因在肿瘤组织与正常组织中的表达水平差异图(其中,****表示差异有意义)。
图9为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线图;根据基因表达信息分为高风险评分组与低风险评分组,高风险组预后较差。
图10为本发明实施例中TARGET-ALL-P2训练集急性淋巴细胞白血病患者的受试者工作特征曲线(ROC)图;该模型的1年、3年、5年诊断准确性均较高。
图11为本发明实施例中急性淋巴细胞白血病患者最佳预后基因在肿瘤组织与正常组织中的表达水平差异(****表示差异有意义);
图12为本发明实施例中验证集急性淋巴细胞白血病患者的Kaplan-Meier生存曲线;根据基因表达信息分为高风险评分组与低风险评分组,高风险组预后较差,验证模型可靠。
图13为本发明实施例中预后相关基因在不同药物中的耐药情况气泡图,纵坐标为不同药物,横坐标为7个基因,可知基因NNT、PDLIM5的表达与靶向药物BCL-2抑制剂(Venetoclax)的耐药密切相关。可为发现靶向药物提供相关耐药信息。
进一步地,本发明还进一步提供了所述7个最佳预后基因的耐药相关信息,为急性淋巴细胞白血病患者治疗方案的选择提供指导,避免非必要的无效治疗,缩短治疗时长。
本发明与参考专利文献CN116024343A(一组急性淋巴细胞白血病预后相关的免疫细胞或基质细胞浸润基因标志物及其应用)相比,主要区别点包括:
1、研究对象和目的不相同:参考专利文献是针对ALL患者的免疫细胞或基质细胞,主要目的是研究免疫功能,而本发明是针对肿瘤细胞,主要目的是研究肿瘤细胞特性。
2、主要的技术手段不相同,参考专利文献的7个目的基因直接来自于公共数据库分析后得出,而本发明则通过观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;然后在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类体内相对应的所有相关基因;再从TCGA数据库中获取患者信息;最后根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。也就是说,参考专利直接从公共数据库分析得出,本发明则是通过对动物模型进行转换,然后确定各SNP所处的基因,再进一步确定出在人类体内相对应的所有相关基因后得出。利用CC小鼠可以对复杂性疾病、复杂性疾病的严重表型以及发病分子机制进行遗传影响因素的研究,特别是有关肿瘤的遗传易感性分析方面,CC小鼠作为一种新的资源,在实验设计、数据分析、应用领域等方面发挥在个体化诊治中的作用。本申请的数据来自于CC小鼠,模仿不同人群的对疾病的易感性,比来自数据库(往往是同一个地域的单一人群)的数据,更有说服力。
3、数据验证证据级别不同:参考文献中在数据库和4位患者中验证,而本申请在ALL数据库、44位真实临床患者、耐药基因数据库中反复验证相关预后基因的特异度和敏感度。
总体来说,本发明提供了一组急性淋巴细胞白血病最佳预后相关基因及基于最佳基因建立的预后风险评分模型,更清楚的区分了个体急性淋巴细胞白血病患者的预后差异,从而可能指导患者的治疗方案选择,早期预防不良预后或避免过度医疗,从而为患者提供个体化医疗。
由于本发明实施例二所介绍的急性淋巴细胞白血病患者预后风险评估模型,为本发明实施例一中急性淋巴细胞白血病预后相关基因的筛选方法的具体应用,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该模型的具体结构及变形,故而在此不再赘述。凡是基于本发明实施例一中方法所构建的模型都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明还提供了一种急性淋巴细胞白血病患者预后风险评估系统,所述的系统包括计算单元,所述计算单元用于利用实施例二所述的预后风险评估模型计算预后风险评分。
由于本发明实施例三所介绍的系统为实施本发明实施例二中急性淋巴细胞白血病患者预后风险评估模型所采用的系统,故而基于本发明实施例二所介绍的模型,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是实施本发明实施例二的模型所采用的系统都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序运行时控制计算机可读存储介质所在装置执行实施例二所述的风险评估模型。
由于本发明实施例四所介绍的计算机可读存储介质为实施本发明实施例二中急性淋巴细胞白血病患者预后风险评估模型所采用的计算机可读存储介质,故而基于本发明实施例二所介绍的模型,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是实施本发明实施例二的模型所采用的计算机可读存储介质都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种急性淋巴细胞白血病预后相关基因的筛选方法,其特征在于,包括:
S1:观察随访若干组不同系别的CC小鼠是否发生脾脏淋巴瘤和胸腺淋巴瘤事件,选择结局事件发生最为显著的CC小鼠系;
S2:在与淋巴瘤性状显著相关的SNPS中确定出各SNP所处的基因,将SNP所处的基因与小鼠体内存在的基因相对应,确定出小鼠所具有的相关基因,并进一步确定出在人类相对应的所有相关基因;
S3:从TCGA数据库中获取患者信息,其中,获取的患者信息包括预后信息和相关基因表达信息,采用无监督聚类方法将患者分为不同的类别,明确不同基因特征的患者是否存在明显的预后差异;
S4:根据获取的患者信息,通过COX比例风险模型对相关基因进行单变量生存分析,筛选出15个显著相关基因,然后进行多变量COX回归分析调整,确定出7个最佳预后相关基因。
2.如权利要求1所述的急性淋巴细胞白血病预后相关基因的筛选方法,其特征在于,在步骤S2之后,所述方法还包括:
对所述确定出的在人类体内相对应的所有相关基因进行cluego功能通路富集分析,以识别相关基因所富集的特征性功能通路。
3.如权利要求1或2所述的急性淋巴细胞白血病预后相关基因的筛选方法,其特征在于,S4确定出的7个最佳预后相关基因包括OXR1、BCAT1、TAFA5、SAMD4A、PDLIM5、NNT、ELFN1。
4.一种急性淋巴细胞白血病患者预后风险评估模型,其特征在于,所述模型通过权利要求3所述的急性淋巴细胞白血病预后相关基因的筛选方法筛选出的预后相关基因的表达水平与各基因权重系数乘积之和计算预后风险评分,预后风险评分的计算方式为:
预后风险评分=beta1*OXR1的表达水平+beta2*BCAT1的表达水平+beta3*TAFA5的表达水平+beta4*SAMD4A的表达水平+beta5*PDLIM5的表达水平+beta6*NNT的表达水平+beta7*ELFN1的表达水平;
其中,预后相关基因的表达水平急性淋巴细胞白血病预后相关基因的mRNA表达水平,beta1、beta2、beta3、beta4、beta5、beta6和beta7分别为对应预后相关基因的表达水平的权重系数。
5.如权利要求4所述的急性淋巴细胞白血病患者预后风险评估模型,其特征在于,预后相关基因的表达水平的权重系数由急性淋巴细胞白血病预后相关基因的mRNA水平进行COX多因素回归分析后获得。
6.如权利要求4或5所述的急性淋巴细胞白血病患者预后风险评估模型,其特征在于,各预后相关基因的表达水平的权重系数分别为-0.1716、0.0657、0.0506、-0.0472、-0.2943、-0.0400、0.0493。
7.一种急性淋巴细胞白血病患者预后风险评估系统,其特征在于,所述的系统包括计算单元,所述计算单元用于利用权利要求4至6任一项中所述的预后风险评估模型计算预后风险评分。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,在所述计算机程序运行时控制计算机可读存储介质所在装置执行权利要求4至6任一项中所述的风险评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311162935.5A CN117352061A (zh) | 2023-09-08 | 2023-09-08 | 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311162935.5A CN117352061A (zh) | 2023-09-08 | 2023-09-08 | 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117352061A true CN117352061A (zh) | 2024-01-05 |
Family
ID=89356483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311162935.5A Pending CN117352061A (zh) | 2023-09-08 | 2023-09-08 | 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117352061A (zh) |
-
2023
- 2023-09-08 CN CN202311162935.5A patent/CN117352061A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5570516B2 (ja) | 遺伝子コピー数の変化のパターンに基づいた結腸直腸癌のゲノム分類 | |
JP2024016039A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US20140040264A1 (en) | Method for estimation of information flow in biological networks | |
CN108377651A (zh) | 染色体互相作用的检测 | |
US7370021B2 (en) | Medical applications of adaptive learning systems using gene expression data | |
CN105279369A (zh) | 一种基于二代测序的冠心病遗传风险评估方法 | |
Chen | Key aspects of analyzing microarray gene-expression data | |
Luo et al. | hsa‐mir‐3199‐2 and hsa‐mir‐1293 as novel prognostic biomarkers of papillary renal cell carcinoma by COX ratio risk regression model screening | |
US20230063506A1 (en) | Small rna disease classifiers | |
US20230348980A1 (en) | Systems and methods of detecting a risk of alzheimer's disease using a circulating-free mrna profiling assay | |
Gründner et al. | Predicting Clinical Outcomes in Colorectal Cancer Using Machine Learning. | |
Kaur et al. | An integrated approach for cancer survival prediction using data mining techniques | |
CN110010195A (zh) | 一种探测单核苷酸突变的方法及装置 | |
US20190073445A1 (en) | Identifying false positive variants using a significance model | |
CN114913919A (zh) | 一种单基因病遗传变异智能解读及报告的方法、系统及服务器 | |
CN115836349A (zh) | 用于评估纵向生物特征数据的系统和方法 | |
Fazal et al. | RExPRT: a machine learning tool to predict pathogenicity of tandem repeat loci | |
Tadesse et al. | Bayesian error-in-variable survival model for the analysis of genechip arrays | |
CN117352061A (zh) | 一种急性淋巴细胞白血病预后相关基因筛选方法、预后风险评估模型及系统 | |
Lu et al. | An algorithm for classifying tumors based on genomic aberrations and selecting representative tumor models | |
JP2004030093A (ja) | 遺伝子発現データ解析方法 | |
KR102042823B1 (ko) | 류마티스관절염 예후 예측용 snp 마커 세트 | |
CN116529835A (zh) | 预测癌症进展的方法 | |
WO2005052181A2 (en) | Methods for molecular toxicology modeling | |
JP2022534236A (ja) | 多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |