CN114220487A - 一种新型9基因risk急性髓系白血病预后模型的构建方法 - Google Patents

一种新型9基因risk急性髓系白血病预后模型的构建方法 Download PDF

Info

Publication number
CN114220487A
CN114220487A CN202111548495.8A CN202111548495A CN114220487A CN 114220487 A CN114220487 A CN 114220487A CN 202111548495 A CN202111548495 A CN 202111548495A CN 114220487 A CN114220487 A CN 114220487A
Authority
CN
China
Prior art keywords
prognosis
model
aml
risk
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111548495.8A
Other languages
English (en)
Inventor
黄涛
林晓英
付悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202111548495.8A priority Critical patent/CN114220487A/zh
Publication of CN114220487A publication Critical patent/CN114220487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Microbiology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

本发明公开了一种新型9基因RISK急性髓系白血病预后模型的构建方法以及基于预后模型的试剂盒和列线图模型的应用。本发明利用急性髓系白血病转录组通过加权基因共表达网络分析筛选与疾病预后相关基因模块,利用单变量Cox回归分析联合WGCNA模块分析确定AML预后核心相关基因,将上述筛选的AML预后核心基因使用Lasso回归进行模型构建,得到新型9基因RISK急性髓系白血病预后模型。经过各种验证,新的预后模型具有更好的评估效果。

Description

一种新型9基因RISK急性髓系白血病预后模型的构建方法
技术领域
本发明涉及医学生物技术领域,具体涉及一种新型9基因RISK急性髓系白血病预后模型的构建方法。
背景技术
急性髓性白血病(AML)是一种复杂的高异质性疾病,呈现不同的遗传背景和对治疗的反应。风险分层和预后评估对于AML患者的治疗具有重要意义。目前的评估系统主要取决于患者相关因素,例如增加年龄,以及预后相关的细胞遗传学和基因突变等。研究表明,单染色体核型和RUNX1、ASXL1和TP53突变由于其与AML预后的的独立关联而被认为是AML预后不良的特征。此外,根据2017年欧洲白血病(ELN)建议,仍有约30%的AML患者因不携带具有预后价值的核型异常或基因突变被归类为中风险患者,这类患者尤其缺乏有效的风险分层指导临床治疗。因此,目前对AML 患者的风险分层和预后评估需要进一步改善。
主要取决于患者相关因素以及预后相关的细胞遗传学和基因突变等的评估系统是非常不充分的,而在某种程度上,基于基因表达谱的异常可能能够弥补前述缺陷。基于高通量测序和基因微阵列技术的AML患者表达谱的变化具有重要的预后指示价值。研究表明,基因表达鉴定衍生的评分系统对AML的预后具有临床意义,例如86探针集基因表达特征,24-基因预后模型和11基因风险评分系统。然而,由于应用范围和技术等问题,这些评分系统并未在临床实践中广泛使用。虽然有些研究表明单个基因在AML中具有预后价值,但这些结果仍不充分。研究出新的具有临床推广价值的AML预后模型是目前亟待结果的临床问题。
发明内容
为解决以上技术上的不足,本发明提供了一种新型9基因RISK急性髓系白血病预后模型的构建方法,所构建的AML预后模型具有良好评估效能并且易于临床推广。
本发明是通过以下技术方案实现的:
本发明使用151例AML患者全基因组基因表达数据进行WGCNA(weightedcorrelation network analysis)加权基因共表达网络分析,用于提取与AML患者生存相关的基因模块,解析影响AML预后的核心基因。同时,申请者进行了全基因组的单变量Cox回归分析,从另一侧面探究AML预后相关基因。将筛选出的两组基因取交集,得到了10个AML预后核心基因。将筛选得到的预后相关基因的基因表达矩阵作为输入文件,使用机器学习中的经典算法之一的Lasso回归进行模型构建,得到了新的AML预后评估模型:
RISK=0.0145*CALCRL+0.00147*FAM30A+0.0280*MRPL16+0.0495*PLA2G4A+0.00794*SEL1L3+0.000641*SLC2A5+0.0962*SOCS1+0.0349*TBCC+0.0301*TREML2。
通过生存发现,高RISKscore评分(Riskscore)预示着AML患者(包括其中的非急性早幼粒细胞白血病患者及正常核型AML患者)更差的总生存、无事件生存和无复发生存。
RISK模型对AML患者的预后评估能力在其他3个独立队列中也得到了验证。
此外,申请者发现RISK模型可作为独立于患者年龄、WBC、细胞遗传学异常和FLT3、DNMT3A、 TP53、RUNX1突变的AML总生存、无事件生存和无复发生存的预测指标。
在此基础上,申请者设计了基于RISK模型的AML预后评估试剂盒,包含RISK模型包含的9 种基因的特异性引物及所需的SYBRGreen和无DNA水。本试剂盒使用实时定量PCR的方法进行基因表达检测,将基因检测结果进行标准化后带入RISK模型计算公式,根据基于RISK模型的列线图计算患者的1年、3年和5年总生存概率,列线图的校准曲线显示此模型具有良好效能以易于临床推广。
本发明的有益效果是:1.本发明提供的方法构建的AML预后模型具有良好效果具有良好的评估效能,易于临床推广。本发明提供的RISK模型与其他已报道的3基因、7基因及24基因模型相比较显示出更好的评估效能,也优于年龄、WBC计数和细胞遗传学异常等临床病理特征,具有良好的临床推广前景。2.本发明提供的方法构建的AML预后模型具有多种用途。发现RISK模型可作为独立于患者年龄、WBC、细胞遗传学异常和FLT3、DNMT3A、TP53、RUNX1突变的AML总生存、无事件生存和无复发生存的预测指标。3.本发明提供的方法构建的AML预后模型稳定客观,得到了实验验证。RISK模型对AML患者的预后评估能力在其他3个独立队列中也得到了验证。
附图说明
图1是急性髓系白血病(AML)患者转录组的加权基因共表达网络分析(WGCNA)。
其中:A.AML样本转录组的分层聚类图;其基于基因表达谱的相似性的聚类,并显示了样品之间基因表达模式的相似性。每个患者的总生存(OS)时间、OS状态、无事件生存(EFS)时间和 EFS状态显示在底部。B.无尺度拟合指标分析和软阈值的确定。C.不同模块中基因的层次聚类树状图。D.WGCNA中的1000个选定基因拓扑重叠矩阵的热图。E.模块与存活特征之间的相关分析。每行对应不同模块,列代表不同的存活特征。每个模块与相应存活条件的相关性的p值显示在括号中(Pearson相关系数)显示。
图2是AML患者预后Lasso模型构建。
其中A.Lasso回归筛选变量,竖线中黑点代表均方误差和上下一倍标准差,均方误差越小模型越好;上方数量表明模型仍存在的自变量个数(不一定是单调递减),第一条虚线处表明均方误差最小值。B.图中的每一条曲线代表了每一个自变量系数的变化轨迹,纵坐标是系数的值,下横坐标是log(λ),上横坐标是此时模型中非零系数的个数。
图3表示高Riskscore评分预示AML患者生存期较差。
其中A-C.Riskscore评分高的AML患者总生存(OS)、无事件生存(EFS)及无复发生存(RFS) 时间均短于低评分患者;D-F.Riskscore评分高的非APL的AML患者总生存OS、无事件生存及无复发生存时间均短于低评分患者;G-I.Riskscore评分高的核型正常的AML患者总生存OS、无事件生存及无复发生存时间均短于低评分患者。
图4表示3个独立验证队列均表明高Riskscore评分的AML患者预后更差。
图5表示多变量Cox回归表明RISK模型可作为AML总生存、无事件生存和无复发生存的预后评估因素,独立于患者年龄、白细胞数(WBC)、细胞遗传学分层、FLT3突变、DNMT3A突变、 RUNX1突变和TP53突变。
图6表示ROC曲线表明申请者构建的RISK模型对于AML患者总生存评估效能明显优于患者年龄、细胞遗传学风险分层及白细胞数。
图7是ROC曲线表明申请者构建的RISK模型对于AML患者无事件生存评估效能明显优于患者年龄、细胞遗传学风险分层及白细胞数。
图8是ROC曲线表明申请者构建的RISK模型对于AML患者无复发生存评估效能明显优于患者年龄、细胞遗传学风险分层及白细胞数。
图9是基于RISK模型的更适宜临床应用的列线图的构建。
其中A.基于RISK模型评分,并包含患者年龄和TP53突变信息的综合列线图模型;B,C.列线图模型的校准曲线显示综合列线图模型具有良好的评估效能。
具体实施方式
实施例1一种新型9基因RISK急性髓系白血病预后模型的构建方法及其验证
一、研究方法:
1.加权基因共表达网络(WGCNA)分析
WGCNA是用于描述不同样品之间基因相关模式的系统生物学方法,可以通过基因组和表型之间的关联来鉴定候选生物标志物基因或治疗靶标。在本研究中,申请者构建了151例AML患者的转录组基因表达矩阵,选择了25%的具有最大方差的基因作为输入数据。用R软件中的“WGCNA”包进行了WGCNA,构造了邻接矩阵和拓扑重叠矩阵(TOM),并计算了相应的不同(1-TOM)。通过动态树切割进行基因树木结构和模块识别,计算模块和存活条件之间的相关性,选择与AML患者生存密切相关的模块进行进一步分析。
2.单变量Cox回归分析
为了鉴定AML预后相关基因,我们使用R软件中"survival"和"survminer"包对上述150例AML 样本(生存时间为0的样本被去除)的全基因组表达数据进行单变量Cox回归分析,得到各个基因与患者生存的假定风险比(HR,HR=1无效应;HR<1基因高表达患者预后较好;HR>1基因高表达患者预后较差),以FDR校正后P值<0.001作为统计边界,得到50个与AML预后相关基因。
3.Lasso模型的构建与验证
Lasso回归又称为套索回归,是Robert Tibshirani于1996年提出的一种新的变量选择技术。Lasso 是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,进一步得到可以解释的模型。以WGCNA 得到的与AML患者生存密切相关的模块基因和单变量Cox回归FDR<0.001的预后相关基因的10 个交集基因的表达矩阵为输入文件,使用R软件的“GLMNET“包进行Lasso回归,建立RISK风险模型。
4.生存曲线分析
与患者所属队列Riskscore的中位数相比,分为高Riskscore组和低Riskscore组,使用 Kaplan-Meier生存曲线验证150AML患者、非急性早幼粒细胞白血病AML患者和正常核型的AML 患者的总生存(OS)、无事件生存(EFS)和无复发生存的差异。其中,EFS指AML患者初始诊断和复发或死亡之间的间隔。使用log-rank检验计算Riskscore对OS,EFS和RFS的影响是否有统计学差异。
5.ROC
受试者工作曲线(ROC曲线)分析是用于评估一个因素预测能力的手段,是用于连续型变量分组的有效方法。而在生存分析中,疾病状态和因素取值均会随时间发生变化。在这种情况下,使用时间依赖性ROC无疑是更好的选择。本研究中时间依赖的ROC分析和曲线下面积的计算由R软件的“SURVCOMP”和“SURVIVAL”包进行。
6.实时荧光定量PCR
使用AML患者样本cDNA进行实时荧光定量PCR通过SYBR Green反应进行(20μL体系),配比如下:
Figure RE-GDA0003459029890000041
实时荧光定量PCR过程在CFX96荧光定量PCR仪中完成,每个样本设置3个副孔,反应程序如下:第一阶段:95℃10s;第二阶段:95℃5s60℃31s,重复40个循环;第三阶段:溶解曲线采集65℃-95℃,共5s。
引物序列如下:
表1实时荧光定量PCR引物序列(其核苷酸序列如SEQ ID No.1-18所示)
Forward primer Reverse primer
FAM30A 5′-TTGAATAGAGTAGTTCCTTGCGCTG-3′ 5′-GGCTACTTCACCCAGCTGTCTAG-3′
CALCRL 5′-CAGCAAGCAACAGAACATGGA-3′ 5′-TGCCAAGCGAGATAAGCAGTG-3′
PLA2G4A 5′-TACCAGCACATTATAGTGGAGCA-3′ 5′-GCTGTCAGGGGTTGTAGAGAT-3′
TREML2 5′-CCTATAAGGGCTACAAAAACCGC-3′ 5′-CCCATCAAGGGGTACAGGA-3′
SOCS1 5′-CACGCACTTCCGCACATTC-3′ 5′-TAAGGGCGAAAAAGCAGTTCC-3′
SLC2A5 5′-ACGTTGCTGTGGTCTGTAACC-3′ 5′-CATTAAGATCGCAGGCACGATA-3′
MRPL16 5′-TGCTGGCGTAAAGACACTGC-3′ 5′-TCTTACTTTTGGCACAAGTGGTG-3′
SEL1L3 5′-TTCAGAAGTAGCATTCCCGTGT-3′ 5′-TTTCCGCCTTTCAACTTCCAG-3′
TBCC 5′-CAGGACCGGAGACATGGAGT-3′ 5′-TTTCCGCCTTTCAACTTCCAG-3′
7.列线图的构建和评估
列线图(Alignment Diagram),又称诺莫图(Nomogram图),它是建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系。申请者使用RMS R包来构建基于RISK模型的列线图和校准图,其中校准图用于评估列线图的准确性。
二、研究结果:
1.急性髓系白血病(AML)转录组通过加权基因共表达网络分析(WGCNA)筛选与疾病预后相关基因模块。
WGCNA是一种基于基因表达模式的相似性将基因分成不同簇或模块的系统生物学方法,可用于分析基因的潜在功能。为了鉴定AML预后相关的模块,我们基于AML患者基因表达谱和生存信息进行WGCNA分析。除去具有基因表达模式的大差异的样品(图1A)。我们将无尺度R2=0.8 作为软阈值构建无尺度网络(图1B),并在动态树切割合并后得到了32个基因共表达模块(图1C)。绘制WGCNA中的1000个选定基因拓扑重叠矩阵的热图,表明每个模块彼此独立地被验证(图1D)。我们计算每个模块与AML患者的存活之间(总生存时间、总生存状态,无事件生存时间和无事件生存状态)的相关性,识别出五个模块与AML患者生存具有统计上显着的关联,分别为:darkgrey 模块、green模块、grey60模块、lightyellow模块和red模块(图1E)。
2.单变量Cox回归分析联合WGCNA模块分析确定AML预后核心相关基因
对AML基因全基因组表达数据进行单变量Cox回归分析,并对相应P值进行FDR校正,得到 50个基因与AML的预后显著密切相关(FDR<0.001)(表2)。将单变量Cox回归筛选出的基因与上述WGCNA得到的预后相关模块基因取交集,得到与AML患者预后相关的10个核心基因,分别为FAM30A、CALCRL、PLA2G4A、TREML2、CCDC6、SOCS1、SLC2A5、MRPL16、SEL1L3和TBCC(表3)。
表2.AML患者转录组的单变量Cox回归分析(FDR校正后P值<0.001)
Figure RE-GDA0003459029890000061
Figure RE-GDA0003459029890000071
表3.AML转录组数据单变量Cox回归与WGCNA预后相关模块交集基因
Gene HR PValue FDR moduleColor
FAM30A 1.011 4.35E-10 2.67E-06 red
CALCRL 1.072 2.38E-08 4.32E-05 red
PLA2G4A 1.095 1.55E-08 4.32E-05 grey60
TREML2 1.147 1.91E-08 4.32E-05 grey60
CCDC6 1.123 5.57E-08 8.56E-05 red
SOCS1 1.167 9.58E-08 0.000105489 red
SLC2A5 1.041 4.53E-07 0.000261531 red
MRPL16 1.052 1.15E-06 0.000455919 red
SEL1L3 1.043 1.32E-06 0.000487985 grey60
TBCC 1.100 2.00E-06 0.000630256 grey60
3.AML预后核心相关基因的Lasso模型构建
Lasso这种方法是在最小二乘基础上增加了一个惩罚项来对估计参数进行压缩,当参数缩小到小于一个阈值的时候,就令它变为0,从而选择出对因变量影响较大的自变量并计算出相应的回归系数,最终能得到一个比较精简的模型。LASSO方法在处理存在多重共线性的样本数据时有明显的优势。申请者将上述筛选的10个AML预后核心基因使用Lasso回归进行模型构建,得到模型如下(图 2A,B):
RISK=0.0145*CALCRL+0.00147*FAM30A+0.0280*MRPL16+0.0495*PLA2G4A+0.00794*SEL1L3+0.000641*SLC2A5+0.0962*SOCS1+0.0349*TBCC+0.0301*TREML2
计算得到150名患者的风险模型得分(Riskscore),并按照中位数分为高低两组(表4)。
表4.AML转录组Lasso模型Riskscore计算及分组
Figure RE-GDA0003459029890000072
Figure RE-GDA0003459029890000081
Figure RE-GDA0003459029890000091
Figure RE-GDA0003459029890000101
Figure RE-GDA0003459029890000111
4.Riskscore得分较高提示AML患者预后更差
根据Riskscore得分的中位数将AML患者分为两组,首先对150名AML初诊患者进行生存分析,结果表明Riskscore评分高的AML患者总生存(OS)、无事件生存(EFS)及无复发生存(RFS) 时间均短于低评分患者(图3A-C)。AML中急性早幼粒细胞白血病(APL)患者的治疗和预后与其他类型AML相比具有很大差异,我们对非APL的AML患者进行了预后分析,同样发现Riskscore 评分高的非APL的AML患者总生存OS、无事件生存及无复发生存时间均短于低评分患者(图 3D-F)。细胞遗传学异常是AMLf危险分层的重要依据,但仍有一部分AML患者并不携带异常核型,因此这部分患者的预后评估仍是亟待解决的临床问题。我们发现Riskscore评分高的核型正常的 AML患者总生存OS、无事件生存及无复发生存时间均短于低评分患者(图3G-I)。3个独立验证队列均表明高Riskscore评分的AML患者预后更差。为了进一步评估RISK模型在AML中的评估效能,我们在3个独立验证队列中进行了验证,结果表明高Riskscore评分的AML患者预后更差(图 4)。
5.高Riskscore得分是AML预后不良的独立预测因子
多种临床因素对AML的预后具有显著影响,以年龄、白细胞(WBC)计数和细胞遗传学异常等为代表。此外,许多基因突变也具有对AML预后有重要影响,如DNMT3A、TP53等。我们将患者年龄Riskscore与患者年龄、WBC、细胞遗传学异常和FLT3、DNMT3A、TP53、RUNX1突变同时纳入多变量Cox回归,结果表明当与多变量分析中的所有这些预后因素结合时,较高的FHL1表达仍然是AML总生存、无事件生存和无复发生存的预后因子,并独立于患者的临床特征及基因突变(表5,图5)。
表5.多变量Cox回归表明RISK模型可作为AML总生存、无事件生存和无复发生存的独立预后评估因素。
Overall survival
Figure RE-GDA0003459029890000112
Figure RE-GDA0003459029890000121
Event-free survival
Figure RE-GDA0003459029890000122
Relapse-free survival
Figure RE-GDA0003459029890000123
6.RISK模型与其他已报道的模型相比较显示出良好的评估效能
多种转录组相关模型被报道可以评估AML患者的预后,如3基因、7基因及24基因模型等。为了对比申请者构建的RISK模型与已报道模型的评估效能,我们将RISK模型和3基因、7基因、 24基因模型纳入同一个Cox回归模型进行比较。结果表明,RISK模型与这3种已报道的AML预后模型相比显示出更好的评估效果(表6)。
表6.申请者构建的RISK模型在AML预后评估效能方面明鲜优于已报道的3基因、7基因及24基因模型。
Figure RE-GDA0003459029890000124
7.RISK模型的评估效能优于年龄、WBC计数和细胞遗传学异常
为了进一步明确RISK模型的评估价值,我们使用受试者曲线(ROC)将RISK模型与目前AML 评估中重要的临床因素对于患者生存的影响进行比较。我们发现无论是患者的总生存、无事件生存还是无进展生存,RISK模型均显示出优于患者年龄、白细胞计数及细胞遗传学异常的对于AML预后的指示作用(图6-8)。上述结果表明,RISK模型是有效的、独立的AML预后指标。
8.设计基于RISK模型的试剂盒
基于上述前期结果,申请者设计了基于RISK模型的试剂盒,主要包含:SYBRGreen、不含DNA 的水及RISK模型包含的9种基因引物,其核苷酸序列如SEQ ID No.1-18所示。
9.构建RISK模型为基础的列线图以应用于临床
为了进一步易化RISK模型的临床推广,申请者构建了基于RISK模型模型的列线图模型(图 9A)。通过将AML患者的cDNA使用上述RISK试剂盒进行实时荧光定量PCR,得到相应的循环数并进行标准化,计算Riskscore,匹配构建的列线图的相应分数,配合患者年龄及TP53突变情况得到患者最终的预后得分,在列线图中患者对应的1年、3年和5年的生存率。校准曲线显示出此列线图具有较为准确的预测效能(图9B)。综合上述结果,申请者提出的RISK模型能够较为准确地预测AML患者的预后,具有很好的临床应用前景。
以上所述仅是本专利的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本专利的保护范围。
序列表
<110> 山东大学
<120> 一种新型9基因RISK急性髓系白血病预后模型的构建方法
<141> 2021-12-17
<160> 18
<170> SIPOSequenceListing 1.0
<210> 1
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
ttgaatagag tagttccttg cgctg 25
<210> 2
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
ggctacttca cccagctgtc tag 23
<210> 3
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
cagcaagcaa cagaacatgg a 21
<210> 4
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
tgccaagcga gataagcagt g 21
<210> 5
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
taccagcaca ttatagtgga gca 23
<210> 6
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
gctgtcaggg gttgtagaga t 21
<210> 7
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
cctataaggg ctacaaaaac cgc 23
<210> 8
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
cccatcaagg ggtacagga 19
<210> 9
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
cacgcacttc cgcacattc 19
<210> 10
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
taagggcgaa aaagcagttc c 21
<210> 11
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
acgttgctgt ggtctgtaac c 21
<210> 12
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
cattaagatc gcaggcacga ta 22
<210> 13
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
tgctggcgta aagacactgc 20
<210> 14
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
tcttactttt ggcacaagtg gtg 23
<210> 15
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
ttcagaagta gcattcccgt gt 22
<210> 16
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
tttccgcctt tcaacttcca g 21
<210> 17
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
caggaccgga gacatggagt 20
<210> 18
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
tttccgcctt tcaacttcca g 21

Claims (10)

1.一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于包括以下步骤:
STP1.急性髓系白血病转录组通过加权基因共表达网络分析筛选与疾病预后相关基因模块。
STP2.单变量Cox回归分析联合WGCNA模块分析确定AML预后核心相关基因;
STP3.将上述筛选的AML预后核心基因使用Lasso回归进行模型构建,得到新型9基因RISK急性髓系白血病预后模型:
RISK=0.0145*CALCRL+0.00147*FAM30A+0.0280*MRPL16+0.0495*PLA2G4A+0.00794*SEL1L3+0.000641*SLC2A5+0.0962*SOCS1+0.0349*TBCC+0.0301*TREML2;
STP4.进行生存曲线分析,新型9基因RISK急性髓系白血病预后模型的风险模型得分表明高,AML患者预后更差;
STP5多变量Cox回归验证新型9基因RISK急性髓系白血病预后模型中和现存其他验证因素的独立性;
STP6.新型9基因RISK急性髓系白血病预后模型与其他现存的基因预后模型相比较,验证评估效能;
STP7.使用受试者曲线将RISK模型与AML评估中重要的临床因素对于患者生存的影响进行比较,验证评估效能。
2.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP1中,识别出五个模块与AML患者生存具有统计上显着的关联,分别为:darkgrey模块、green模块、grey60模块、lightyellow模块和red模块。
3.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP2中,对AML基因全基因组表达数据进行单变量Cox回归分析,以FDR校正后P值<0.001作为统计边界,得到50个与AML预后显著密切相关基因;将单变量Cox回归筛选出的基因与上述WGCNA得到的预后相关模块基因取交集,得到与AML患者预后相关的10个核心基因,分别为FAM30A、CALCRL、PLA2G4A、TREML2、CCDC6、SOCS1、SLC2A5、MRPL16、SEL1L3和TBCC。
4.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP3中,所述Lasso回归进行模型构建以WGCNA得到的与AML患者生存密切相关的模块基因和单变量Cox回归FDR<0.001的预后相关基因的10个交集基因的表达矩阵为输入文件,使用R软件的“GLMNET“包进行Lasso回归,建立新型9基因RISK急性髓系白血病预后模型。
5.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP4中,所述生存曲线分析为3个独立验证队列,分别为:AML患者、非APL的AML患者、核型正常的AML患者。
6.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP5中,多变量Cox回归表明RISK模型可作为AML总生存、无事件生存和无复发生存的预后评估因素,独立于患者年龄、白细胞数WBC、细胞遗传学分层、FLT3突变、DNMT3A突变、RUNX1突变和TP53突变。
7.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP6中,将RISK模型和3基因、7基因、24基因模型纳入同一个Cox回归模型进行比较。结果表明,RISK模型与这3种已报道的AML预后模型相比显示出更好的评估效果。
8.根据权利要求1所述一种新型9基因RISK急性髓系白血病预后模型的构建方法,其特征在于,所述STP7中,RISK模型的评估效能优于年龄、白细胞数WBC计数和细胞遗传学异常。
9.一种基于RISK模型的试剂盒,其特征在于:包含SYBR Green、不含DNA的水和RISK模型包含的9种基因引物,序列下表,其核苷酸序列如SEQ ID No.1-18所示,
Forward primer Reverse primer FAM30A 5′-TTGAATAGAGTAGTTCCTTGCGCTG-3′ 5′-GGCTACTTCACCCAGCTGTCTAG-3′ CALCRL 5′-CAGCAAGCAACAGAACATGGA-3′ 5′-TGCCAAGCGAGATAAGCAGTG-3′ PLA2G4A 5′-TACCAGCACATTATAGTGGAGCA-3′ 5′-GCTGTCAGGGGTTGTAGAGAT-3′ TREML2 5′-CCTATAAGGGCTACAAAAACCGC-3′ 5′-CCCATCAAGGGGTACAGGA-3′ SOCS1 5′-CACGCACTTCCGCACATTC-3′ 5′-TAAGGGCGAAAAAGCAGTTCC-3′ SLC2A5 5′-ACGTTGCTGTGGTCTGTAACC-3′ 5′-CATTAAGATCGCAGGCACGATA-3′ MRPL16 5′-TGCTGGCGTAAAGACACTGC-3′ 5′-TCTTACTTTTGGCACAAGTGGTG-3′ SEL1L3 5′-TTCAGAAGTAGCATTCCCGTGT-3′ 5′-CCAGGCGCGTACTATCACTG-3′ TBCC 5′-CAGGACCGGAGACATGGAGT-3′ 5′-TTTCCGCCTTTCAACTTCCAG-3′
10.一种基于RISK模型模型的列线图模型的应用,通过将AML患者的cDNA使用权利要求9所述RISK试剂盒进行实时荧光定量PCR,得到相应的循环数并进行标准化,计算Riskscore,匹配构建的列线图的相应分数,配合患者年龄及TP53突变情况得到患者最终的预后得分,在列线图中患者对应的1年、3年和5年的生存率;使用校准图评估列线图的准确性。
CN202111548495.8A 2021-12-17 2021-12-17 一种新型9基因risk急性髓系白血病预后模型的构建方法 Pending CN114220487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111548495.8A CN114220487A (zh) 2021-12-17 2021-12-17 一种新型9基因risk急性髓系白血病预后模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548495.8A CN114220487A (zh) 2021-12-17 2021-12-17 一种新型9基因risk急性髓系白血病预后模型的构建方法

Publications (1)

Publication Number Publication Date
CN114220487A true CN114220487A (zh) 2022-03-22

Family

ID=80703370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548495.8A Pending CN114220487A (zh) 2021-12-17 2021-12-17 一种新型9基因risk急性髓系白血病预后模型的构建方法

Country Status (1)

Country Link
CN (1) CN114220487A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168843A (zh) * 2023-01-17 2023-05-26 重庆医科大学附属儿童医院 一种儿童急性髓系白血病预后模型及其构建方法和应用
CN117737251A (zh) * 2024-02-21 2024-03-22 北京医院 一种aml诊断和预后的组合分子标志物

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168843A (zh) * 2023-01-17 2023-05-26 重庆医科大学附属儿童医院 一种儿童急性髓系白血病预后模型及其构建方法和应用
CN116168843B (zh) * 2023-01-17 2024-04-23 重庆医科大学附属儿童医院 一种儿童急性髓系白血病预后模型及其构建方法和应用
CN117737251A (zh) * 2024-02-21 2024-03-22 北京医院 一种aml诊断和预后的组合分子标志物
CN117737251B (zh) * 2024-02-21 2024-05-28 北京医院 一种aml诊断和预后的组合分子标志物

Similar Documents

Publication Publication Date Title
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
Feng et al. Research issues and strategies for genomic and proteomic biomarker discovery and validation: a statistical perspective
EP3704264B1 (en) Using nucleic acid size range for noninvasive prenatal testing and cancer detection
US20170228496A1 (en) System and method for process control of gene sequencing
US20140040264A1 (en) Method for estimation of information flow in biological networks
CN114220487A (zh) 一种新型9基因risk急性髓系白血病预后模型的构建方法
CN104968802B (zh) 作为诊断标志物的新miRNA
JP2016165286A (ja) 転写物測定値数が減少した、遺伝子発現プロファイリング
EP4128244A1 (en) Determining tumor fraction for a sample based on methyl binding domain calibration data
CN110714078A (zh) 一种用于ii期结直肠癌复发预测的标记基因及应用
CN116434843A (zh) 一种碱基测序质量评估方法
Saei et al. A glance at DNA microarray technology and applications
JP7506060B2 (ja) 検出限界ベースの品質管理メトリック
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
CN107075586B (zh) 用于鉴定多种癌症类型和亚型的糖基转移酶基因表达谱
CN116987778A (zh) 脓毒症凝血相关预后标志基因及其在制备脓毒症预后预测诊断产品中的应用
CN116895380A (zh) 基于多因素特征融合的疾病风险预测方法MFF-DeepPRS
CN113782087B (zh) 一种慢性淋巴细胞白血病sscr风险模型及其建立方法和应用
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
CN114267411A (zh) Dtc预后标志物及其应用、dtc预后评估模型的构建方法
CN114678062A (zh) 基于多组学特征的肝细胞癌预后预测系统及其预测方法
Zhong et al. Optimized cross-study analysis of microarray-based predictors
CN117625793B (zh) 一种卵巢癌生物标志物的筛选方法及其应用
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
CN113257354B (zh) 基于高通量实验数据挖掘进行关键rna功能挖掘的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination