CN111899889A - 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 - Google Patents
一种基于可变剪接事件的胃癌预后模型的构建方法及应用 Download PDFInfo
- Publication number
- CN111899889A CN111899889A CN202010803241.5A CN202010803241A CN111899889A CN 111899889 A CN111899889 A CN 111899889A CN 202010803241 A CN202010803241 A CN 202010803241A CN 111899889 A CN111899889 A CN 111899889A
- Authority
- CN
- China
- Prior art keywords
- psi
- value
- psi value
- alternative splicing
- gastric cancer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000005718 Stomach Neoplasms Diseases 0.000 title claims abstract description 68
- 206010017758 gastric cancer Diseases 0.000 title claims abstract description 68
- 201000011549 stomach cancer Diseases 0.000 title claims abstract description 68
- 238000004393 prognosis Methods 0.000 title claims abstract description 59
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 230000004083 survival effect Effects 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000000611 regression analysis Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 11
- 206010028980 Neoplasm Diseases 0.000 claims description 10
- 201000011510 cancer Diseases 0.000 claims description 7
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 abstract description 2
- 230000008602 contraction Effects 0.000 abstract 1
- 108090000623 proteins and genes Proteins 0.000 description 29
- 230000014759 maintenance of location Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 3
- 238000003559 RNA-seq method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000012049 whole transcriptome sequencing Methods 0.000 description 2
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 description 1
- 102100033934 DNA repair protein RAD51 homolog 2 Human genes 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 102100022893 Histone acetyltransferase KAT5 Human genes 0.000 description 1
- 101000924577 Homo sapiens Adenomatous polyposis coli protein Proteins 0.000 description 1
- 101001046996 Homo sapiens Histone acetyltransferase KAT5 Proteins 0.000 description 1
- 101000972291 Homo sapiens Lymphoid enhancer-binding factor 1 Proteins 0.000 description 1
- 101000587434 Homo sapiens Serine/arginine-rich splicing factor 3 Proteins 0.000 description 1
- 101000700735 Homo sapiens Serine/arginine-rich splicing factor 7 Proteins 0.000 description 1
- 101000864761 Homo sapiens Splicing factor 1 Proteins 0.000 description 1
- 101000585255 Homo sapiens Steroidogenic factor 1 Proteins 0.000 description 1
- 241000701044 Human gammaherpesvirus 4 Species 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 102100022699 Lymphoid enhancer-binding factor 1 Human genes 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 101710018890 RAD51B Proteins 0.000 description 1
- 108010017324 STAT3 Transcription Factor Proteins 0.000 description 1
- 102000004495 STAT3 Transcription Factor Human genes 0.000 description 1
- 102100029665 Serine/arginine-rich splicing factor 3 Human genes 0.000 description 1
- 102100029287 Serine/arginine-rich splicing factor 7 Human genes 0.000 description 1
- 102100029856 Steroidogenic factor 1 Human genes 0.000 description 1
- 102100024121 U1 small nuclear ribonucleoprotein 70 kDa Human genes 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000000104 diagnostic biomarker Substances 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000001156 gastric mucosa Anatomy 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000007859 posttranscriptional regulation of gene expression Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 101150083938 snrnp70 gene Proteins 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物医学和医学信息学技术领域,具体涉及一种基于可变剪接事件的胃癌预后模型的构建方法及应用。申请人通过合理的选取样本,通过单因素Cox回归分析确定与胃癌患者的总生存期显著相关的可变剪接事件,再利用最小绝对收缩和选择算子(LASSO)以及多因素Cox分析来建立预后模型,基于7种类型的可变剪接事件的最终预后模型可以作为胃癌患者的独立预后指标。
Description
技术领域
本发明属于生物医学和医学信息学技术领域,具体涉及一种基于可变剪接事件的胃癌预后模型的构建方法及应用。
背景技术
可变剪接(Alternative splicing,AS)可以编辑单个前体mRNA分子,并在真核生物中产生不同的成熟mRNA,这些转录变异体随后可以产生具有不同结构和生物功能的蛋白质。因此,可变剪接是基因表达转录后调控的重要机制,在转录组和编码的蛋白质的多样性中起着至关重要的作用。通常,可变剪接事件有7种主要类型,如外显子跳跃(Exon skip,ES)、内含子保留(Retained intron,RI)、可变供体位点(Alternate donor,AD)、可变受体位点(A lternate acceptor,AA)、可变启动子(Alternate promoter,AP)、可变终止子(Alternate termin ator,AT)和外显子互斥(Mutually exclusive exon,ME)等。最近的高通量测序研究表明,95%以上的基因发生可变剪接,并产生至少两种可变的前体mRNA亚型。异常的可变剪接事件可能与多种疾病有关,尤其是在癌症的发生、发展、转移和产生治疗耐药性等方面。可变剪接事件可作为诊断或预后的生物标志物,以及用于开发癌症的治疗靶点。
胃癌(Gastric cancer,GC)是起源于胃黏膜上皮的最常见的恶性肿瘤之一。据报道,胃癌在我国各种癌症中发病率位居第二,是全球癌症相关死亡的第三大原因。在发现可变剪接事件在EB病毒相关胃癌中的重要性之后,有研究开展了简单的预后分析并证明可变剪接事件在胃癌中起作用。然而,关于可变剪接事件的预后价值仍缺乏临床参考,与存活相关的可变剪接事件的调控机制和预后价值需要进一步研究。
利用可变剪接事件构建预后模型可用于癌症患者的预后判断。在模型构建过程中,样本的选择及参数的设置对预后模型的结果影响比较大。针对上述问题,申请人首先通过生存期和样本质量对样本进行了筛选,并对波动比较小的AS事件进行了过滤。对胃癌患者存活相关的可变剪接事件进行深入和系统的调查,采用全基因组转录组分析方法阐明了胃癌中不同可变剪接模式的影响。使用肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)中的全转录组测序数据分析7种可变剪接模式的发生率,探究胃癌患者的剪接变异体功能和存活相关的可变剪接事件。在构建预后模型时,我们利用LASSO回归进行了筛选,并将所有的预后相关事件纳入候选事件进行筛选,避免只挑选一部分事件作为候选事件导致精确度降低等问题,最后通过整合7种可变剪接事件成功构建了最终的预后模型,在对临床参数进行综合考虑后其仍然是一个独立的预后指标,可用于胃癌患者生存期的预测。
发明内容
本发明的目的在于提供了一种基于可变剪接事件的胃癌预后模型的构建方法,申请人通过合理的选取样本,通过单因素Cox回归分析确定与胃癌患者的总生存期显著相关的可变剪接事件,再利用最小绝对收缩和选择算子(LASSO)以及多因素Cox分析来建立预后模型。
本发明的另一个目的在于提供了一种基于可变剪接事件的胃癌预后模型的构建方法的应用,利用本发明的方法,可构建其他的胃癌预后模型,基于7种类型的可变剪接事件的最终预后模型可以作为胃癌患者的独立预后指标。
为实现上述目的,本发明采取以下技术措施:
一种基于可变剪接事件的胃癌预后模型的构建方法,包括下述步骤:
1)从SpliceSeq数据库中下载胃癌样本中发生超过75%的可变剪接事件,同时从TCGA的泛癌图谱数据库中下载胃癌患者相应的临床数据,通过TCGA ID确认和匹配可变剪接事件的数据和临床资料,将同时具有临床随访和可变剪接事件数据的胃癌患者的数据作为模型构建样本;
2)在生存期相关性分析中,排除总生存期小于30天的患者,同时排除缺失20%以上的可变剪接事件的患者,在排除标准差(SD)<0.01的可变剪接事件后,通过单因素Cox回归分析评估每个可变剪接事件与胃癌患者总生存期之间的关系;
3)选择存活相关的可变剪接事件进行LASSO和多因素Cox分析,根据AA、AD、AP、AT、ES、ME和RI事件建立预后模型;然后,整合7种可变剪接事件,构建最终的预后模型,同时,绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),评价预后模型的有效性。
以上所述的方法中,优选的,利用上述方法构建的胃癌预后模型为:
[ID_9102的PSI值×(-58.33629063)]+[ID_9101的PSI值×(-59.06067583)]+[ID_86515的PSI值×2.418509368]+[ID_78909的PSI值×0.214341929]+[ID_88465的PSI值×2.394363565]+[ID_72984的PSI值×0.385100639]+[ID_73263的PSI值×(-2.680279551)]+[ID_62286的PSI值×4.971898841]+[ID_941210的PSI值×2.916894855]+[ID_60494的PSI值×0.471701404]+[ID_65103的PSI值×(-0.829574889)]+[ID_56755的PSI值×(-2.096492656)]+[ID_23717的PSI值×2.063481875]+[ID_64462的PSI值×1.276668521]+[ID_1263的PSI值×(-1.816662854)]+[ID_85484的PSI值×0.460283528]+[ID_58637的PSI值×3.559292944]+[ID_11264的PSI值×1.698968372]+[ID_7613的PSI值×(-0.119578167)]+[ID_22234的PSI值×2.499147893]+[ID_63994的PSI值×1.972464847]+[ID_28109的PSI值×6.990019357]+[ID_62533的PSI值×(-0.285798354)]+[ID_30319的PSI值×1.293507749]+[ID_47967的PSI值×2.222108866]+[ID_44852的PSI值×0.128062967]+[ID_83730的PSI值×1.540568003]+[ID_42828的PSI值×2.681443495]+[ID_88217的PSI值×0.11292787]+[ID_46490的PSI值×(-4.933742758)]+[ID_316125的PSI值×(-9.064566295)]+[ID_46241的PSI值×0.175632836]+[ID_31619的PSI值×(-0.636462275)]+[ID_40839的PSI值×2.359102963]+[ID_17140的PSI值×(-1.476864715)]+[ID_73262的PSI值×(-0.463635067)]+[ID_64990的PSI值×(-0.51812321)]+[ID_11433的PSI值×0.650197175]+[ID_27757的PSI值×0.886571904]+[ID_42359的PSI值×4.326590479]+[ID_45391的PSI值×1.019907533]+[ID_20977的PSI值×3.199966004]+[ID_848204的PSI值×1.789483579]+[ID_72866的PSI值×0.406382339]+[ID_66544的PSI值×1.553760084]+[ID_53284的PSI值×0.185107874]+[ID_270123的PSI值×14.91405642]+[ID_57559的PSI值×5.126817779]+[ID_70578的PSI值×1.098919204]+[ID_88097的PSI值×(-0.351262966)]+[ID_61793的PSI值×(-0.464734392)]+[ID_16799的PSI值×(-13.48580022)]+[ID_102657的PSI值×15.44672719]+[ID_70553的PSI值×1.27908778]+[ID_42038的PSI值×0.889131445]+[ID_76162的PSI值×4.219617265]+[ID_192的PSI值×8.340260912]+[ID_24873的PSI值×0.811349235]+[ID_64653的PSI值×(-1.532502423)]+[ID_20883的PSI值×2.672526023]+[ID_67218的PSI值×0.734172981]+[ID_11261的PSI值×0.677052706]+[ID_78606的PSI值×0.882821922]+[ID_42963的PSI值×(-0.394049502)]+[ID_58052的PSI值×(-2.573294323)]+[ID_16143的PSI值×0.423452111]+[ID_81887的PSI值×7.429090287]+[ID_68559的PSI值×1.468443575]+[ID_47541的PSI值×0.747472207]+[ID_74570的PSI值×(-1.620142652)]+[ID_71339的PSI值×0.273680246]+[ID_32161的PSI值×3.924433511]+[ID_33195的PSI值×0.379964981]+[ID_87889的PSI值×(-0.024723153)]+[ID_62997的PSI值×1.565593971]+[ID_41041的PSI值×6.371995569]+[ID_13459的PSI值×2.948836824]+[ID_16367的PSI值×0.098310547]+[ID_633的PSI值×0.484507071]+[ID_48045的PSI值×0.787234756]+[ID_44280的PSI值×(-1.039192896)]+[ID_3136的PSI值×6.097063356]+[ID_16083的PSI值×(-0.431207842)]+[ID_22932的PSI值×3.087985893]+[ID_48542的PSI值×4.213436126]+[ID_11245的PSI值×(-3.503272444)]+[ID_73776的PSI值×(3.710875112)].
PSI:percent spliced in,指拼接百分比;
ID:代表可变剪接事件的编号,来源于https://bioinformatics.mdanderson.org/TCGASpliceSeq/index.jsp。
一种基于可变剪接事件的胃癌预后模型的构建方法在制备胃癌预后模型中的应用,包括利用上述方法,在选取合适的样本后,构建出其他的胃癌预后模型。
本发明的有益结果:
1、本发明有益效果之一,经单因素Cox回归分析确定有1383个与胃癌患者的总生存期显著相关的可变剪接事件。
2、本发明有益效果之二,基于7种AS事件单独建立的7个预后模型均可预测胃癌患者的生存率。
3、本发明有益效果之三,基于7种可变剪接事件整合构建的最终预后模型通过多个临床参数进行多变量评估后,被证明可以作为胃癌患者的独立预后指标。
附图说明
图1为本发明的技术路线图。
图2为胃癌样本中总的可变剪接基因发生情况;
纵向柱形图表示一种或多种剪接事件单一或同时发生的基因数,横向柱形图表示每类剪接事件发生的基因数。
图3为胃癌样本中最重要的前20个可变剪接事件;
其中(A)为可变剪接事件与预后的关联分析;
(B)-(H)分别为AA、AD、AP、AT、ES、ME和RI中主要的与存活相关的可变剪接事件。
图4为胃癌样本中与生存相关的可变剪接基因和蛋白网络互作图。
其中(A),纵向柱形图表示一种或多种剪接事件单一或同时发生的基因数,横向柱形图表示每类剪接事件发生的基因数;
(B)为蛋白网络互作图。
图5为最小绝对收缩和选择算子(LASSO)分析各种类型的可变剪接事件。
其中,(A)、(C)、(E)、(G)、(I)、(K)和(M)分别为AA、AD、AP、AT、ES、ME和RI的系数曲线;
(B)、(D)、(F)、(H)、(J)、(L)和(N)分别为AA、AD、AP、AT、ES、ME和RI的部分似然偏差;
(O)为7种类型可变剪接事件的系数曲线;
(P)为7种类型可变剪接事件的部分似然偏差。
图6为基于单个可变剪接事件构建的预后模型的Kaplan-Meier图和ROC曲线;
其中(A)、(C)、(E)、(G)、(I)、(K)和(M)分别为根据AA、AD、AP、AT、ES、ME和RI构建的预后模型的存活概率随时间变化的Kaplan-Meier图,每张图都分为高风险组和低风险组;
(B)、(D)、(F)、(H)、(J)、(L)和(N)分别为根据AA、AD、AP、AT、ES、ME和RI构建的预后模型的ROC分析示意图。
图7为基于7种可变剪接事件整合构建的最终预后模型的Kaplan-Meier图和ROC曲线;
其中(A)为Kaplan-Meier图;(B)为ROC曲线。
图8为最终构建的预后模型对本发明表1中的低风险组和高风险组胃癌患者的识别能力。
(A)为337例患者的风险评分;
(B)为胃癌患者的生存状况和生存时间,用虚线区分高风险组和低风险组的患者,左边代表低风险组的患者,而右边代表高风险组的患者;红点代表死亡的患者,而蓝点代表存活的患者。
(C)为用于建立最终预后指标的可变剪接事件的PSI值的热图。
图9为根据临床参数校正后的最终预后模型的预后价值评估情况。
图10预后模型预测白种人和亚洲人胃癌患者的Kaplan-Meier图和ROC曲线;
其中(A)为白种人生存率的Kaplan-Meier图;
(C)为亚洲人生存率的Kaplan-Meier图;
(B)为白种人生存率曲线对应的ROC曲线;
(D)为亚洲人生存率曲线对应的ROC曲线。
具体实施方式
本发明所述技术方案,如未特别说明,均为本领域的常规方式。
实施例1:胃癌样本中的可变剪接事件分析
TCGA的SpliceSeq根据全转录组测序数据提供可变剪接事件的图谱(Ryan M,WongWC,Brown R,Akbani R,Su X,Broom B,Melott J and Weinstein J.TCGASpliceSeq acompendium of alternative mRNA splicing in cancer.Nucleic Acids Res.2016;44(D1):D1018-22)。从SpliceSeq数据库中下载胃癌样本中发生超过75%的可变剪接事件,同时从TCGA的泛癌图谱数据库中下载胃癌患者相应的临床数据。通过TCGA ID确认和匹配可变剪接事件的数据和临床资料,并且仅同时具有临床随访和可变剪接事件数据的胃癌患者才最终纳入本研究。胃癌患者的临床资料见表1。数据处理的流程见图1。在415例胃癌患者的10610个基因中检测到48141个可变剪接事件,表明单个基因可能有不止一种类型的mRNA剪接事件。单个基因可能包含多达6种类型的剪接事件。ES是7种可变剪接类型中最常见的剪接事件,其次是AT和AP。具体而言,在6972个基因中发生19121个ES事件,在3666个基因中发生8390个AT事件,在4025个基因中发生10004个AP事件,在2799个基因中发生4006个AA事件,在2401个基因中发生3450个AD事件,在1956个基因中发生2944个RI事件,在219个基因中发生226个ME事件(图2)。
AA:alternate acceptor site可变受体位点
AD:alternate donor site可变供体位点
AP:alternate promoter可变启动子
AT:alternate terminator可变终止子
ES:exon skip外显子跳跃
ME:mutually exclusive exons外显子互斥
RI:retained intron内含子保留
表1胃癌患者的临床信息
实施例2:胃癌中与存活相关的可变剪接事件
在生存期相关性分析中,排除了总生存期小于30天的47例患者,然后将剩余的368例患者与SpliceSeq数据库中相应的条目进行匹配,31例患者由于缺失20%以上的可变剪接事件再次被排除。因此,本研究共包括337例患者。在排除标准差(SD)<0.01的可变剪接事件后,通过单因素Cox回归分析评估每个可变剪接事件与胃癌患者总生存期之间的关系。应用UpSet将基因与每种类型的可变剪接事件之间的关联进行可视化(图2)。利用Reactome绘制了蛋白的网络互作图,以探究存活相关的可变剪接事件与对应基因之间的相互作用。图3显示了7种可变剪接事件中20个最重要的与存活相关的基因。值得注意的是,这些可变剪接事件中大多数与预后相关,胃癌患者中一个基因可能有两个或两个以上与存活相关的剪接事件。因此,在胃癌患者中,7种可变剪接类型中的重叠可变剪接事件被进一步分析。如图4中A中的UpSet显示与生存相关的可变剪接基因的情况,这些基因共发生1383个与胃癌患者的生存状况显著相关的可变剪接事件,包括517个ES事件,354个AP事件,225个AT事件,98个AA事件,104个AD事件,72个RI事件和13个ME事件。因此,一个基因可能发生两种或三种类型的可变剪接事件,这些事件与患者的生存率显著相关。图4中B显示了与存活相关的可变剪接事件的关键基因,如STAT3、SRSF7、KAT5、SRSF3、SF1、LEF1、APC、RAD51B、SNRNP70、COL1A1和DLG4。
实施例3:
胃癌患者的预后模型的构建
选择存活相关的可变剪接事件进行LASSO和多因素Cox分析,根据AA、AD、AP、AT、ES、ME和RI事件建立预后模型。随后,采用Kaplan-Meier分析绘制7种类型的可变剪接事件的预后模型随时间变化的存活率。然后,整合7种可变剪接事件,构建最终的预后模型。同时,绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),评价预后模型的有效性,构建预后模型预测胃癌患者的临床结果。基于AA、AD、AP、AT、ES、ME和RI事件进行了LASSO和多因素Cox分析(图5),开发出7个基于单个可变剪接事件的预后模型(图6)以及1个基于7种可变剪接事件的最终预后模型(图7)。如图6所示,建立在每种类型的可变剪接事件上的7个预后模型都显示出预测胃癌患者预后的潜力。同时,每个预后模型对生存概率的预测均有显著差异,而基于AA的模型在7个预后模型中表现出最好的结果预测。AA模型的ROC曲线的AUC值为0.939,其次是ES、AT、RI、AP、AD和ME模型,其AUC值分别为0.860、0.808、0.806、0.802、0.789和0.698(图6)。此外,将7种不同类型的预后相关的可变剪接事件整合,以建立最终的预后模型,其公式为:[ID_9102的PSI值×(-58.33629063)]+[ID_9101的PSI值×(-59.06067583)]+[ID_86515的PSI值×2.418509368]+[ID_78909的PSI值×0.214341929]+[ID_88465的PSI值×2.394363565]+[ID_72984的PSI值×0.385100639]+[ID_73263的PSI值×(-2.680279551)]+[ID_62286的PSI值×4.971898841]+[ID_941210的PSI值×2.916894855]+[ID_60494的PSI值×0.471701404]+[ID_65103的PSI值×(-0.829574889)]+[ID_56755的PSI值×(-2.096492656)]+[ID_23717的PSI值×2.063481875]+[ID_64462的PSI值×1.276668521]+[ID_1263的PSI值×(-1.816662854)]+[ID_85484的PSI值×0.460283528]+[ID_58637的PSI值×3.559292944]+[ID_11264的PSI值×1.698968372]+[ID_7613的PSI值×(-0.119578167)]+[ID_22234的PSI值×2.499147893]+[ID_63994的PSI值×1.972464847]+[ID_28109的PSI值×6.990019357]+[ID_62533的PSI值×(-0.285798354)]+[ID_30319的PSI值×1.293507749]+[ID_47967的PSI值×2.222108866]+[ID_44852的PSI值×0.128062967]+[ID_83730的PSI值×1.540568003]+[ID_42828的PSI值×2.681443495]+[ID_88217的PSI值×0.11292787]+[ID_46490的PSI值×(-4.933742758)]+[ID_316125的PSI值×(-9.064566295)]+[ID_46241的PSI值×0.175632836]+[ID_31619的PSI值×(-0.636462275)]+[ID_40839的PSI值×2.359102963]+[ID_17140的PSI值×(-1.476864715)]+[ID_73262的PSI值×(-0.463635067)]+[ID_64990的PSI值×(-0.51812321)]+[ID_11433的PSI值×0.650197175]+[ID_27757的PSI值×0.886571904]+[ID_42359的PSI值×4.326590479]+[ID_45391的PSI值×1.019907533]+[ID_20977的PSI值×3.199966004]+[ID_848204的PSI值×1.789483579]+[ID_72866的PSI值×0.406382339]+[ID_66544的PSI值×1.553760084]+[ID_53284的PSI值×0.185107874]+[ID_270123的PSI值×14.91405642]+[ID_57559的PSI值×5.126817779]+[ID_70578的PSI值×1.098919204]+[ID_88097的PSI值×(-0.351262966)]+[ID_61793的PSI值×(-0.464734392)]+[ID_16799的PSI值×(-13.48580022)]+[ID_102657的PSI值×15.44672719]+[ID_70553的PSI值×1.27908778]+[ID_42038的PSI值×0.889131445]+[ID_76162的PSI值×4.219617265]+[ID_192的PSI值×8.340260912]+[ID_24873的PSI值×0.811349235]+[ID_64653的PSI值×(-1.532502423)]+[ID_20883的PSI值×2.672526023]+[ID_67218的PSI值×0.734172981]+[ID_11261的PSI值×0.677052706]+[ID_78606的PSI值×0.882821922]+[ID_42963的PSI值×(-0.394049502)]+[ID_58052的PSI值×(-2.573294323)]+[ID_16143的PSI值×0.423452111]+[ID_81887的PSI值×7.429090287]+[ID_68559的PSI值×1.468443575]+[ID_47541的PSI值×0.747472207]+[ID_74570的PSI值×(-1.620142652)]+[ID_71339的PSI值×0.273680246]+[ID_32161的PSI值×3.924433511]+[ID_33195的PSI值×0.379964981]+[ID_87889的PSI值×(-0.024723153)]+[ID_62997的PSI值×1.565593971]+[ID_41041的PSI值×6.371995569]+[ID_13459的PSI值×2.948836824]+[ID_16367的PSI值×0.098310547]+[ID_633的PSI值×0.484507071]+[ID_48045的PSI值×0.787234756]+[ID_44280的PSI值×(-1.039192896)]+[ID_3136的PSI值×6.097063356]+[ID_16083的PSI值×(-0.431207842)]+[ID_22932的PSI值×3.087985893]+[ID_48542的PSI值×4.213436126]+[ID_11245的PSI值×(-3.503272444)]+[ID_73776的PSI值×(3.710875112)].
PSI:percent spliced in,指拼接百分比;
ID:代表可变剪接事件的编号,来源于https://bioinformatics.mdanderson.org/TCGASpliceSeq/index.jsp。
图7中的(A)显示,利用最终的预后模型分析高风险和低风险患者的生存曲线,显示高风险患者组的生存情况明显好于低风险患者组(P=1×10-16)。图7的(B)显示,基于7种可变剪接事件的最终预后模型的ROC曲线的AUC值达到0.948,表明在预测胃癌患者的预后方面表现出更好的效果。
通过表1的样本分析发现胃癌患者体内这些可变剪接事件的发生与患者的预后有关联性,所以将这些可变剪接事件分析得出的拼接百分比(PSI)乘以一个系数来评价,后续在判定患者预后的时候,计算出患者的风险值(以1.48为临界值,大于1.48则患者属于高风险,小于1.48则患者属于低风险),患者风险值越低,表示预后越好(生存期可能越长)
实施例4:
预后模型的价值评估
为进一步验证最终预后模型的有效性,以表1中的数据为样本,验证实施例3构建的模型的准确性,采用Kaplan-Meier绘制高风险评分和低风险评分中胃癌患者存活结果之间的关系。最终构建的预后模型为预测胃癌患者提供了一个预后指标(图8中A),最终预后模型的风险值中位数为1.48。Kaplan-Meier曲线表明,高风险组的胃癌患者的总生存期明显低于低风险组(图8中B),表明该指标可以有效地区分胃癌患者。用于构建最终预后模型的可变剪接事件的PSI值如图8中C所示。图9显示,在考虑临床参数(性别、分期、年龄和肿瘤分期)的影响后,构建的预后指标仍然是一个独立的预后因素(HR=1.136,95%CI:1.116~1.156,P<0.001)。
因此,在判定预后的时候,用患者的穿刺样本进行RNA-seq测序,然后利用SpliceSeq工具分析得到最终预后模型公式中这些可变剪接事件的PSI值,进一步计算出患者的风险值(以1.48为临界值,大于1.48则患者属于高风险,小于1.48则患者属于低风险),患者风险值越低,表示预后越好(生存期可能越长)。
HR:hazard ratio风险率
CI:confidence interval置信区间
实施例5:预后模型的应用
应用最终的预后模型分别预测白种人和亚洲人胃癌患者的预后情况,自TCGA数据库得到白种人和亚洲人肺癌患者的RNA-seq序列,再通过SpliceSeq工具可计算出可变剪接事件的PSI值,带入本发明构建的模型,结果如图10所示,其AUC值分别达到0.945和0.898,而且二者间无显著性差异(P=0.73),表示该模型能够很好的预测不同种群的胃癌患者的预后,可应用于临床病人的预后分析。
Claims (3)
1.一种基于可变剪接事件的胃癌预后模型的构建方法,包括下述步骤:
1)从SpliceSeq数据库中下载胃癌样本中发生超过75%的可变剪接事件,同时从TCGA的泛癌图谱数据库中下载胃癌患者相应的临床数据,通过TCGA ID确认和匹配可变剪接事件的数据和临床资料,将同时具有临床随访和可变剪接事件数据的胃癌患者的数据作为模型构建样本;
2)在生存期相关性分析中,排除总生存期小于30天的患者,同时排除缺失20%以上的可变剪接事件的患者,在排除标准差(SD)<0.01的可变剪接事件后,通过单因素Cox回归分析评估每个可变剪接事件与胃癌患者总生存期之间的关系;
3)选择存活相关的可变剪接事件进行LASSO和多因素Cox分析,根据AA、AD、AP、AT、ES、ME和RI事件建立预后模型;然后,整合7种可变剪接事件,构建最终的预后模型,同时,绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),评价预后模型的有效性。
2.根据权利要求1所述的方法,其特征在于,利用上述方法构建的胃癌预后模型为:
[ID_9102的PSI值×(-58.33629063)]+[ID_9101的PSI值×(-59.06067583)]+[ID_86515的PSI值×2.418509368]+[ID_78909的PSI值×0.214341929]+[ID_88465的PSI值×2.394363565]+[ID_72984的PSI值×0.385100639]+[ID_73263的PSI值×(-2.680279551)]+[ID_62286的PSI值×4.971898841]+[ID_941210的PSI值×2.916894855]+[ID_60494的PSI值×0.471701404]+[ID_65103的PSI值×(-0.829574889)]+[ID_56755的PSI值×(-2.096492656)]+[ID_23717的PSI值×2.063481875]+[ID_64462的PSI值×1.276668521]+[ID_1263的PSI值×(-1.816662854)]+[ID_85484的PSI值×0.460283528]+[ID_58637的PSI值×3.559292944]+[ID_11264的PSI值×1.698968372]+[ID_7613的PSI值×(-0.119578167)]+[ID_22234的PSI值×2.499147893]+[ID_63994的PSI值×1.972464847]+[ID_28109的PSI值×6.990019357]+[ID_62533的PSI值×(-0.285798354)]+[ID_30319的PSI值×1.293507749]+[ID_47967的PSI值×2.222108866]+[ID_44852的PSI值×0.128062967]+[ID_83730的PSI值×1.540568003]+[ID_42828的PSI值×2.681443495]+[ID_88217的PSI值×0.11292787]+[ID_46490的PSI值×(-4.933742758)]+[ID_316125的PSI值×(-9.064566295)]+[ID_46241的PSI值×0.175632836]+[ID_31619的PSI值×(-0.636462275)]+[ID_40839的PSI值×2.359102963]+[ID_17140的PSI值×(-1.476864715)]+[ID_73262的PSI值×(-0.463635067)]+[ID_64990的PSI值×(-0.51812321)]+[ID_11433的PSI值×0.650197175]+[ID_27757的PSI值×0.886571904]+[ID_42359的PSI值×4.326590479]+[ID_45391的PSI值×1.019907533]+[ID_20977的PSI值×3.199966004]+[ID_848204的PSI值×1.789483579]+[ID_72866的PSI值×0.406382339]+[ID_66544的PSI值×1.553760084]+[ID_53284的PSI值×0.185107874]+[ID_270123的PSI值×14.91405642]+[ID_57559的PSI值×5.126817779]+[ID_70578的PSI值×1.098919204]+[ID_88097的PSI值×(-0.351262966)]+[ID_61793的PSI值×(-0.464734392)]+[ID_16799的PSI值×(-13.48580022)]+[ID_102657的PSI值×15.44672719]+[ID_70553的PSI值×1.27908778]+[ID_42038的PSI值×0.889131445]+[ID_76162的PSI值×4.219617265]+[ID_192的PSI值×8.340260912]+[ID_24873的PSI值×0.811349235]+[ID_64653的PSI值×(-1.532502423)]+[ID_20883的PSI值×2.672526023]+[ID_67218的PSI值×0.734172981]+[ID_11261的PSI值×0.677052706]+[ID_78606的PSI值×0.882821922]+[ID_42963的PSI值×(-0.394049502)]+[ID_58052的PSI值×(-2.573294323)]+[ID_16143的PSI值×0.423452111]+[ID_81887的PSI值×7.429090287]+[ID_68559的PSI值×1.468443575]+[ID_47541的PSI值×0.747472207]+[ID_74570的PSI值×(-1.620142652)]+[ID_71339的PSI值×0.273680246]+[ID_32161的PSI值×3.924433511]+[ID_33195的PSI值×0.379964981]+[ID_87889的PSI值×(-0.024723153)]+[ID_62997的PSI值×1.565593971]+[ID_41041的PSI值×6.371995569]+[ID_13459的PSI值×2.948836824]+[ID_16367的PSI值×0.098310547]+[ID_633的PSI值×0.484507071]+[ID_48045的PSI值×0.787234756]+[ID_44280的PSI值×(-1.039192896)]+[ID_3136的PSI值×6.097063356]+[ID_16083的PSI值×(-0.431207842)]+[ID_22932的PSI值×3.087985893]+[ID_48542的PSI值×4.213436126]+[ID_11245的PSI值×(-3.503272444)]+[ID_73776的PSI值×(3.710875112)];
PSI:percent spliced in,指拼接百分比;
ID:代表可变剪接事件的编号,来源于https://bioinformatics.mdanderson.org/TCGASplic eSeq/index.jsp。
3.权利要求1所述的构建方法在制备胃癌预后模型中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010803241.5A CN111899889B (zh) | 2020-08-11 | 2020-08-11 | 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010803241.5A CN111899889B (zh) | 2020-08-11 | 2020-08-11 | 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899889A true CN111899889A (zh) | 2020-11-06 |
CN111899889B CN111899889B (zh) | 2024-03-08 |
Family
ID=73228860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010803241.5A Active CN111899889B (zh) | 2020-08-11 | 2020-08-11 | 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899889B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113161000A (zh) * | 2021-05-06 | 2021-07-23 | 复旦大学附属中山医院 | 混合细胞型肝癌的预后评分模型及其构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407689A (zh) * | 2016-09-27 | 2017-02-15 | 牟合(上海)生物科技有限公司 | 一种基于基因表达谱的胃癌预后标志物筛选及分类方法 |
CN110390996A (zh) * | 2019-08-18 | 2019-10-29 | 段艺 | 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 |
-
2020
- 2020-08-11 CN CN202010803241.5A patent/CN111899889B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407689A (zh) * | 2016-09-27 | 2017-02-15 | 牟合(上海)生物科技有限公司 | 一种基于基因表达谱的胃癌预后标志物筛选及分类方法 |
CN110390996A (zh) * | 2019-08-18 | 2019-10-29 | 段艺 | 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 |
Non-Patent Citations (3)
Title |
---|
JIE LIU,ET AL.: "Identification of potential biomarkers and their clinical significance in gastric cancer using bioinformatics analysis methods", 《PEER J》, pages 1 - 17 * |
SHICHAO ZHANG, ET AL.: "Prognostic significance of survival-associated alternative splicing events in gastric cancer", 《AGING》, vol. 12, no. 21, pages 21923 - 21941 * |
杨飞龙等: "基于长链非编码RNA 的生物信息学分析构建膀胱癌预后模型并确定预后生物标志物", 《北京大学学报(医学版)》, vol. 51, no. 4, pages 615 - 622 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113161000A (zh) * | 2021-05-06 | 2021-07-23 | 复旦大学附属中山医院 | 混合细胞型肝癌的预后评分模型及其构建方法 |
CN113161000B (zh) * | 2021-05-06 | 2024-05-28 | 复旦大学附属中山医院 | 混合细胞型肝癌的预后评分模型及其构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111899889B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859801B (zh) | 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法 | |
CN110580956B (zh) | 一组肝癌预后标志物及其应用 | |
CN110241221B (zh) | 用于转移性结直肠癌预后预测的试剂盒以及系统 | |
Xu et al. | Development and clinical validation of a novel 9-gene prognostic model based on multi-omics in pancreatic adenocarcinoma | |
CN111128299A (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN108559777B (zh) | 一种新型分子标记及其在制备用于肾透明细胞癌诊断和预后的试剂盒中的应用 | |
CN110305964A (zh) | 一种前列腺癌患者预后复发风险预测标志工具及其风险评估模型的建立 | |
CN113517073B (zh) | 肺癌手术后生存率预测模型构建方法和预测模型系统 | |
CN110791565A (zh) | 一种用于ii期结直肠癌复发预测的预后标记基因及随机生存森林模型 | |
Li et al. | A seven immune-related lncRNA signature predicts the survival of patients with colon adenocarcinoma | |
CN115497552A (zh) | 一种基于内质网应激特征基因的胃癌预后风险模型和应用 | |
CN111899889A (zh) | 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 | |
CN114974417A (zh) | 一种甲基化测序方法和装置 | |
CN110390996A (zh) | 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 | |
CN113502330A (zh) | m6A相关lncRNA在制备预测结直肠癌预后产品中的应用 | |
CN114220487A (zh) | 一种新型9基因risk急性髓系白血病预后模型的构建方法 | |
CN113493829A (zh) | 生物标志物在肺动脉高压诊疗中的应用 | |
Rasche et al. | ARH-seq: identification of differential splicing in RNA-seq data | |
Liu et al. | Systematic profiling of alternative splicing events in ovarian cancer | |
CN110010198A (zh) | 一种基于全转录组的肝细胞癌可变剪切事件系统分析的方法及预后模型应用 | |
CN116153387A (zh) | 一种肺鳞癌患者总体生存率预后模型及应用 | |
Liu et al. | The comprehensive and systematic identification of BLCA-specific SF-regulated, survival-related AS events | |
CN115820860A (zh) | 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用 | |
CN113234823B (zh) | 胰腺癌预后风险评估模型及其应用 | |
CN115029430A (zh) | 一组评估主动脉夹层风险的生物标志物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |