CN111899889A - 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 - Google Patents

一种基于可变剪接事件的胃癌预后模型的构建方法及应用 Download PDF

Info

Publication number
CN111899889A
CN111899889A CN202010803241.5A CN202010803241A CN111899889A CN 111899889 A CN111899889 A CN 111899889A CN 202010803241 A CN202010803241 A CN 202010803241A CN 111899889 A CN111899889 A CN 111899889A
Authority
CN
China
Prior art keywords
psi
value
psi value
alternative splicing
gastric cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010803241.5A
Other languages
English (en)
Other versions
CN111899889B (zh
Inventor
胡祖权
欧阳燕
张世超
曾柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Medical University
Original Assignee
Guizhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Medical University filed Critical Guizhou Medical University
Priority to CN202010803241.5A priority Critical patent/CN111899889B/zh
Publication of CN111899889A publication Critical patent/CN111899889A/zh
Application granted granted Critical
Publication of CN111899889B publication Critical patent/CN111899889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物医学和医学信息学技术领域,具体涉及一种基于可变剪接事件的胃癌预后模型的构建方法及应用。申请人通过合理的选取样本,通过单因素Cox回归分析确定与胃癌患者的总生存期显著相关的可变剪接事件,再利用最小绝对收缩和选择算子(LASSO)以及多因素Cox分析来建立预后模型,基于7种类型的可变剪接事件的最终预后模型可以作为胃癌患者的独立预后指标。

Description

一种基于可变剪接事件的胃癌预后模型的构建方法及应用
技术领域
本发明属于生物医学和医学信息学技术领域,具体涉及一种基于可变剪接事件的胃癌预后模型的构建方法及应用。
背景技术
可变剪接(Alternative splicing,AS)可以编辑单个前体mRNA分子,并在真核生物中产生不同的成熟mRNA,这些转录变异体随后可以产生具有不同结构和生物功能的蛋白质。因此,可变剪接是基因表达转录后调控的重要机制,在转录组和编码的蛋白质的多样性中起着至关重要的作用。通常,可变剪接事件有7种主要类型,如外显子跳跃(Exon skip,ES)、内含子保留(Retained intron,RI)、可变供体位点(Alternate donor,AD)、可变受体位点(A lternate acceptor,AA)、可变启动子(Alternate promoter,AP)、可变终止子(Alternate termin ator,AT)和外显子互斥(Mutually exclusive exon,ME)等。最近的高通量测序研究表明,95%以上的基因发生可变剪接,并产生至少两种可变的前体mRNA亚型。异常的可变剪接事件可能与多种疾病有关,尤其是在癌症的发生、发展、转移和产生治疗耐药性等方面。可变剪接事件可作为诊断或预后的生物标志物,以及用于开发癌症的治疗靶点。
胃癌(Gastric cancer,GC)是起源于胃黏膜上皮的最常见的恶性肿瘤之一。据报道,胃癌在我国各种癌症中发病率位居第二,是全球癌症相关死亡的第三大原因。在发现可变剪接事件在EB病毒相关胃癌中的重要性之后,有研究开展了简单的预后分析并证明可变剪接事件在胃癌中起作用。然而,关于可变剪接事件的预后价值仍缺乏临床参考,与存活相关的可变剪接事件的调控机制和预后价值需要进一步研究。
利用可变剪接事件构建预后模型可用于癌症患者的预后判断。在模型构建过程中,样本的选择及参数的设置对预后模型的结果影响比较大。针对上述问题,申请人首先通过生存期和样本质量对样本进行了筛选,并对波动比较小的AS事件进行了过滤。对胃癌患者存活相关的可变剪接事件进行深入和系统的调查,采用全基因组转录组分析方法阐明了胃癌中不同可变剪接模式的影响。使用肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)中的全转录组测序数据分析7种可变剪接模式的发生率,探究胃癌患者的剪接变异体功能和存活相关的可变剪接事件。在构建预后模型时,我们利用LASSO回归进行了筛选,并将所有的预后相关事件纳入候选事件进行筛选,避免只挑选一部分事件作为候选事件导致精确度降低等问题,最后通过整合7种可变剪接事件成功构建了最终的预后模型,在对临床参数进行综合考虑后其仍然是一个独立的预后指标,可用于胃癌患者生存期的预测。
发明内容
本发明的目的在于提供了一种基于可变剪接事件的胃癌预后模型的构建方法,申请人通过合理的选取样本,通过单因素Cox回归分析确定与胃癌患者的总生存期显著相关的可变剪接事件,再利用最小绝对收缩和选择算子(LASSO)以及多因素Cox分析来建立预后模型。
本发明的另一个目的在于提供了一种基于可变剪接事件的胃癌预后模型的构建方法的应用,利用本发明的方法,可构建其他的胃癌预后模型,基于7种类型的可变剪接事件的最终预后模型可以作为胃癌患者的独立预后指标。
为实现上述目的,本发明采取以下技术措施:
一种基于可变剪接事件的胃癌预后模型的构建方法,包括下述步骤:
1)从SpliceSeq数据库中下载胃癌样本中发生超过75%的可变剪接事件,同时从TCGA的泛癌图谱数据库中下载胃癌患者相应的临床数据,通过TCGA ID确认和匹配可变剪接事件的数据和临床资料,将同时具有临床随访和可变剪接事件数据的胃癌患者的数据作为模型构建样本;
2)在生存期相关性分析中,排除总生存期小于30天的患者,同时排除缺失20%以上的可变剪接事件的患者,在排除标准差(SD)<0.01的可变剪接事件后,通过单因素Cox回归分析评估每个可变剪接事件与胃癌患者总生存期之间的关系;
3)选择存活相关的可变剪接事件进行LASSO和多因素Cox分析,根据AA、AD、AP、AT、ES、ME和RI事件建立预后模型;然后,整合7种可变剪接事件,构建最终的预后模型,同时,绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),评价预后模型的有效性。
以上所述的方法中,优选的,利用上述方法构建的胃癌预后模型为:
[ID_9102的PSI值×(-58.33629063)]+[ID_9101的PSI值×(-59.06067583)]+[ID_86515的PSI值×2.418509368]+[ID_78909的PSI值×0.214341929]+[ID_88465的PSI值×2.394363565]+[ID_72984的PSI值×0.385100639]+[ID_73263的PSI值×(-2.680279551)]+[ID_62286的PSI值×4.971898841]+[ID_941210的PSI值×2.916894855]+[ID_60494的PSI值×0.471701404]+[ID_65103的PSI值×(-0.829574889)]+[ID_56755的PSI值×(-2.096492656)]+[ID_23717的PSI值×2.063481875]+[ID_64462的PSI值×1.276668521]+[ID_1263的PSI值×(-1.816662854)]+[ID_85484的PSI值×0.460283528]+[ID_58637的PSI值×3.559292944]+[ID_11264的PSI值×1.698968372]+[ID_7613的PSI值×(-0.119578167)]+[ID_22234的PSI值×2.499147893]+[ID_63994的PSI值×1.972464847]+[ID_28109的PSI值×6.990019357]+[ID_62533的PSI值×(-0.285798354)]+[ID_30319的PSI值×1.293507749]+[ID_47967的PSI值×2.222108866]+[ID_44852的PSI值×0.128062967]+[ID_83730的PSI值×1.540568003]+[ID_42828的PSI值×2.681443495]+[ID_88217的PSI值×0.11292787]+[ID_46490的PSI值×(-4.933742758)]+[ID_316125的PSI值×(-9.064566295)]+[ID_46241的PSI值×0.175632836]+[ID_31619的PSI值×(-0.636462275)]+[ID_40839的PSI值×2.359102963]+[ID_17140的PSI值×(-1.476864715)]+[ID_73262的PSI值×(-0.463635067)]+[ID_64990的PSI值×(-0.51812321)]+[ID_11433的PSI值×0.650197175]+[ID_27757的PSI值×0.886571904]+[ID_42359的PSI值×4.326590479]+[ID_45391的PSI值×1.019907533]+[ID_20977的PSI值×3.199966004]+[ID_848204的PSI值×1.789483579]+[ID_72866的PSI值×0.406382339]+[ID_66544的PSI值×1.553760084]+[ID_53284的PSI值×0.185107874]+[ID_270123的PSI值×14.91405642]+[ID_57559的PSI值×5.126817779]+[ID_70578的PSI值×1.098919204]+[ID_88097的PSI值×(-0.351262966)]+[ID_61793的PSI值×(-0.464734392)]+[ID_16799的PSI值×(-13.48580022)]+[ID_102657的PSI值×15.44672719]+[ID_70553的PSI值×1.27908778]+[ID_42038的PSI值×0.889131445]+[ID_76162的PSI值×4.219617265]+[ID_192的PSI值×8.340260912]+[ID_24873的PSI值×0.811349235]+[ID_64653的PSI值×(-1.532502423)]+[ID_20883的PSI值×2.672526023]+[ID_67218的PSI值×0.734172981]+[ID_11261的PSI值×0.677052706]+[ID_78606的PSI值×0.882821922]+[ID_42963的PSI值×(-0.394049502)]+[ID_58052的PSI值×(-2.573294323)]+[ID_16143的PSI值×0.423452111]+[ID_81887的PSI值×7.429090287]+[ID_68559的PSI值×1.468443575]+[ID_47541的PSI值×0.747472207]+[ID_74570的PSI值×(-1.620142652)]+[ID_71339的PSI值×0.273680246]+[ID_32161的PSI值×3.924433511]+[ID_33195的PSI值×0.379964981]+[ID_87889的PSI值×(-0.024723153)]+[ID_62997的PSI值×1.565593971]+[ID_41041的PSI值×6.371995569]+[ID_13459的PSI值×2.948836824]+[ID_16367的PSI值×0.098310547]+[ID_633的PSI值×0.484507071]+[ID_48045的PSI值×0.787234756]+[ID_44280的PSI值×(-1.039192896)]+[ID_3136的PSI值×6.097063356]+[ID_16083的PSI值×(-0.431207842)]+[ID_22932的PSI值×3.087985893]+[ID_48542的PSI值×4.213436126]+[ID_11245的PSI值×(-3.503272444)]+[ID_73776的PSI值×(3.710875112)].
PSI:percent spliced in,指拼接百分比;
ID:代表可变剪接事件的编号,来源于https://bioinformatics.mdanderson.org/TCGASpliceSeq/index.jsp。
一种基于可变剪接事件的胃癌预后模型的构建方法在制备胃癌预后模型中的应用,包括利用上述方法,在选取合适的样本后,构建出其他的胃癌预后模型。
本发明的有益结果:
1、本发明有益效果之一,经单因素Cox回归分析确定有1383个与胃癌患者的总生存期显著相关的可变剪接事件。
2、本发明有益效果之二,基于7种AS事件单独建立的7个预后模型均可预测胃癌患者的生存率。
3、本发明有益效果之三,基于7种可变剪接事件整合构建的最终预后模型通过多个临床参数进行多变量评估后,被证明可以作为胃癌患者的独立预后指标。
附图说明
图1为本发明的技术路线图。
图2为胃癌样本中总的可变剪接基因发生情况;
纵向柱形图表示一种或多种剪接事件单一或同时发生的基因数,横向柱形图表示每类剪接事件发生的基因数。
图3为胃癌样本中最重要的前20个可变剪接事件;
其中(A)为可变剪接事件与预后的关联分析;
(B)-(H)分别为AA、AD、AP、AT、ES、ME和RI中主要的与存活相关的可变剪接事件。
图4为胃癌样本中与生存相关的可变剪接基因和蛋白网络互作图。
其中(A),纵向柱形图表示一种或多种剪接事件单一或同时发生的基因数,横向柱形图表示每类剪接事件发生的基因数;
(B)为蛋白网络互作图。
图5为最小绝对收缩和选择算子(LASSO)分析各种类型的可变剪接事件。
其中,(A)、(C)、(E)、(G)、(I)、(K)和(M)分别为AA、AD、AP、AT、ES、ME和RI的系数曲线;
(B)、(D)、(F)、(H)、(J)、(L)和(N)分别为AA、AD、AP、AT、ES、ME和RI的部分似然偏差;
(O)为7种类型可变剪接事件的系数曲线;
(P)为7种类型可变剪接事件的部分似然偏差。
图6为基于单个可变剪接事件构建的预后模型的Kaplan-Meier图和ROC曲线;
其中(A)、(C)、(E)、(G)、(I)、(K)和(M)分别为根据AA、AD、AP、AT、ES、ME和RI构建的预后模型的存活概率随时间变化的Kaplan-Meier图,每张图都分为高风险组和低风险组;
(B)、(D)、(F)、(H)、(J)、(L)和(N)分别为根据AA、AD、AP、AT、ES、ME和RI构建的预后模型的ROC分析示意图。
图7为基于7种可变剪接事件整合构建的最终预后模型的Kaplan-Meier图和ROC曲线;
其中(A)为Kaplan-Meier图;(B)为ROC曲线。
图8为最终构建的预后模型对本发明表1中的低风险组和高风险组胃癌患者的识别能力。
(A)为337例患者的风险评分;
(B)为胃癌患者的生存状况和生存时间,用虚线区分高风险组和低风险组的患者,左边代表低风险组的患者,而右边代表高风险组的患者;红点代表死亡的患者,而蓝点代表存活的患者。
(C)为用于建立最终预后指标的可变剪接事件的PSI值的热图。
图9为根据临床参数校正后的最终预后模型的预后价值评估情况。
图10预后模型预测白种人和亚洲人胃癌患者的Kaplan-Meier图和ROC曲线;
其中(A)为白种人生存率的Kaplan-Meier图;
(C)为亚洲人生存率的Kaplan-Meier图;
(B)为白种人生存率曲线对应的ROC曲线;
(D)为亚洲人生存率曲线对应的ROC曲线。
具体实施方式
本发明所述技术方案,如未特别说明,均为本领域的常规方式。
实施例1:胃癌样本中的可变剪接事件分析
TCGA的SpliceSeq根据全转录组测序数据提供可变剪接事件的图谱(Ryan M,WongWC,Brown R,Akbani R,Su X,Broom B,Melott J and Weinstein J.TCGASpliceSeq acompendium of alternative mRNA splicing in cancer.Nucleic Acids Res.2016;44(D1):D1018-22)。从SpliceSeq数据库中下载胃癌样本中发生超过75%的可变剪接事件,同时从TCGA的泛癌图谱数据库中下载胃癌患者相应的临床数据。通过TCGA ID确认和匹配可变剪接事件的数据和临床资料,并且仅同时具有临床随访和可变剪接事件数据的胃癌患者才最终纳入本研究。胃癌患者的临床资料见表1。数据处理的流程见图1。在415例胃癌患者的10610个基因中检测到48141个可变剪接事件,表明单个基因可能有不止一种类型的mRNA剪接事件。单个基因可能包含多达6种类型的剪接事件。ES是7种可变剪接类型中最常见的剪接事件,其次是AT和AP。具体而言,在6972个基因中发生19121个ES事件,在3666个基因中发生8390个AT事件,在4025个基因中发生10004个AP事件,在2799个基因中发生4006个AA事件,在2401个基因中发生3450个AD事件,在1956个基因中发生2944个RI事件,在219个基因中发生226个ME事件(图2)。
AA:alternate acceptor site可变受体位点
AD:alternate donor site可变供体位点
AP:alternate promoter可变启动子
AT:alternate terminator可变终止子
ES:exon skip外显子跳跃
ME:mutually exclusive exons外显子互斥
RI:retained intron内含子保留
表1胃癌患者的临床信息
Figure BDA0002628159080000061
Figure BDA0002628159080000071
Figure BDA0002628159080000081
Figure BDA0002628159080000091
实施例2:胃癌中与存活相关的可变剪接事件
在生存期相关性分析中,排除了总生存期小于30天的47例患者,然后将剩余的368例患者与SpliceSeq数据库中相应的条目进行匹配,31例患者由于缺失20%以上的可变剪接事件再次被排除。因此,本研究共包括337例患者。在排除标准差(SD)<0.01的可变剪接事件后,通过单因素Cox回归分析评估每个可变剪接事件与胃癌患者总生存期之间的关系。应用UpSet将基因与每种类型的可变剪接事件之间的关联进行可视化(图2)。利用Reactome绘制了蛋白的网络互作图,以探究存活相关的可变剪接事件与对应基因之间的相互作用。图3显示了7种可变剪接事件中20个最重要的与存活相关的基因。值得注意的是,这些可变剪接事件中大多数与预后相关,胃癌患者中一个基因可能有两个或两个以上与存活相关的剪接事件。因此,在胃癌患者中,7种可变剪接类型中的重叠可变剪接事件被进一步分析。如图4中A中的UpSet显示与生存相关的可变剪接基因的情况,这些基因共发生1383个与胃癌患者的生存状况显著相关的可变剪接事件,包括517个ES事件,354个AP事件,225个AT事件,98个AA事件,104个AD事件,72个RI事件和13个ME事件。因此,一个基因可能发生两种或三种类型的可变剪接事件,这些事件与患者的生存率显著相关。图4中B显示了与存活相关的可变剪接事件的关键基因,如STAT3、SRSF7、KAT5、SRSF3、SF1、LEF1、APC、RAD51B、SNRNP70、COL1A1和DLG4。
实施例3:
胃癌患者的预后模型的构建
选择存活相关的可变剪接事件进行LASSO和多因素Cox分析,根据AA、AD、AP、AT、ES、ME和RI事件建立预后模型。随后,采用Kaplan-Meier分析绘制7种类型的可变剪接事件的预后模型随时间变化的存活率。然后,整合7种可变剪接事件,构建最终的预后模型。同时,绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),评价预后模型的有效性,构建预后模型预测胃癌患者的临床结果。基于AA、AD、AP、AT、ES、ME和RI事件进行了LASSO和多因素Cox分析(图5),开发出7个基于单个可变剪接事件的预后模型(图6)以及1个基于7种可变剪接事件的最终预后模型(图7)。如图6所示,建立在每种类型的可变剪接事件上的7个预后模型都显示出预测胃癌患者预后的潜力。同时,每个预后模型对生存概率的预测均有显著差异,而基于AA的模型在7个预后模型中表现出最好的结果预测。AA模型的ROC曲线的AUC值为0.939,其次是ES、AT、RI、AP、AD和ME模型,其AUC值分别为0.860、0.808、0.806、0.802、0.789和0.698(图6)。此外,将7种不同类型的预后相关的可变剪接事件整合,以建立最终的预后模型,其公式为:[ID_9102的PSI值×(-58.33629063)]+[ID_9101的PSI值×(-59.06067583)]+[ID_86515的PSI值×2.418509368]+[ID_78909的PSI值×0.214341929]+[ID_88465的PSI值×2.394363565]+[ID_72984的PSI值×0.385100639]+[ID_73263的PSI值×(-2.680279551)]+[ID_62286的PSI值×4.971898841]+[ID_941210的PSI值×2.916894855]+[ID_60494的PSI值×0.471701404]+[ID_65103的PSI值×(-0.829574889)]+[ID_56755的PSI值×(-2.096492656)]+[ID_23717的PSI值×2.063481875]+[ID_64462的PSI值×1.276668521]+[ID_1263的PSI值×(-1.816662854)]+[ID_85484的PSI值×0.460283528]+[ID_58637的PSI值×3.559292944]+[ID_11264的PSI值×1.698968372]+[ID_7613的PSI值×(-0.119578167)]+[ID_22234的PSI值×2.499147893]+[ID_63994的PSI值×1.972464847]+[ID_28109的PSI值×6.990019357]+[ID_62533的PSI值×(-0.285798354)]+[ID_30319的PSI值×1.293507749]+[ID_47967的PSI值×2.222108866]+[ID_44852的PSI值×0.128062967]+[ID_83730的PSI值×1.540568003]+[ID_42828的PSI值×2.681443495]+[ID_88217的PSI值×0.11292787]+[ID_46490的PSI值×(-4.933742758)]+[ID_316125的PSI值×(-9.064566295)]+[ID_46241的PSI值×0.175632836]+[ID_31619的PSI值×(-0.636462275)]+[ID_40839的PSI值×2.359102963]+[ID_17140的PSI值×(-1.476864715)]+[ID_73262的PSI值×(-0.463635067)]+[ID_64990的PSI值×(-0.51812321)]+[ID_11433的PSI值×0.650197175]+[ID_27757的PSI值×0.886571904]+[ID_42359的PSI值×4.326590479]+[ID_45391的PSI值×1.019907533]+[ID_20977的PSI值×3.199966004]+[ID_848204的PSI值×1.789483579]+[ID_72866的PSI值×0.406382339]+[ID_66544的PSI值×1.553760084]+[ID_53284的PSI值×0.185107874]+[ID_270123的PSI值×14.91405642]+[ID_57559的PSI值×5.126817779]+[ID_70578的PSI值×1.098919204]+[ID_88097的PSI值×(-0.351262966)]+[ID_61793的PSI值×(-0.464734392)]+[ID_16799的PSI值×(-13.48580022)]+[ID_102657的PSI值×15.44672719]+[ID_70553的PSI值×1.27908778]+[ID_42038的PSI值×0.889131445]+[ID_76162的PSI值×4.219617265]+[ID_192的PSI值×8.340260912]+[ID_24873的PSI值×0.811349235]+[ID_64653的PSI值×(-1.532502423)]+[ID_20883的PSI值×2.672526023]+[ID_67218的PSI值×0.734172981]+[ID_11261的PSI值×0.677052706]+[ID_78606的PSI值×0.882821922]+[ID_42963的PSI值×(-0.394049502)]+[ID_58052的PSI值×(-2.573294323)]+[ID_16143的PSI值×0.423452111]+[ID_81887的PSI值×7.429090287]+[ID_68559的PSI值×1.468443575]+[ID_47541的PSI值×0.747472207]+[ID_74570的PSI值×(-1.620142652)]+[ID_71339的PSI值×0.273680246]+[ID_32161的PSI值×3.924433511]+[ID_33195的PSI值×0.379964981]+[ID_87889的PSI值×(-0.024723153)]+[ID_62997的PSI值×1.565593971]+[ID_41041的PSI值×6.371995569]+[ID_13459的PSI值×2.948836824]+[ID_16367的PSI值×0.098310547]+[ID_633的PSI值×0.484507071]+[ID_48045的PSI值×0.787234756]+[ID_44280的PSI值×(-1.039192896)]+[ID_3136的PSI值×6.097063356]+[ID_16083的PSI值×(-0.431207842)]+[ID_22932的PSI值×3.087985893]+[ID_48542的PSI值×4.213436126]+[ID_11245的PSI值×(-3.503272444)]+[ID_73776的PSI值×(3.710875112)].
PSI:percent spliced in,指拼接百分比;
ID:代表可变剪接事件的编号,来源于https://bioinformatics.mdanderson.org/TCGASpliceSeq/index.jsp。
图7中的(A)显示,利用最终的预后模型分析高风险和低风险患者的生存曲线,显示高风险患者组的生存情况明显好于低风险患者组(P=1×10-16)。图7的(B)显示,基于7种可变剪接事件的最终预后模型的ROC曲线的AUC值达到0.948,表明在预测胃癌患者的预后方面表现出更好的效果。
通过表1的样本分析发现胃癌患者体内这些可变剪接事件的发生与患者的预后有关联性,所以将这些可变剪接事件分析得出的拼接百分比(PSI)乘以一个系数来评价,后续在判定患者预后的时候,计算出患者的风险值(以1.48为临界值,大于1.48则患者属于高风险,小于1.48则患者属于低风险),患者风险值越低,表示预后越好(生存期可能越长)
实施例4:
预后模型的价值评估
为进一步验证最终预后模型的有效性,以表1中的数据为样本,验证实施例3构建的模型的准确性,采用Kaplan-Meier绘制高风险评分和低风险评分中胃癌患者存活结果之间的关系。最终构建的预后模型为预测胃癌患者提供了一个预后指标(图8中A),最终预后模型的风险值中位数为1.48。Kaplan-Meier曲线表明,高风险组的胃癌患者的总生存期明显低于低风险组(图8中B),表明该指标可以有效地区分胃癌患者。用于构建最终预后模型的可变剪接事件的PSI值如图8中C所示。图9显示,在考虑临床参数(性别、分期、年龄和肿瘤分期)的影响后,构建的预后指标仍然是一个独立的预后因素(HR=1.136,95%CI:1.116~1.156,P<0.001)。
因此,在判定预后的时候,用患者的穿刺样本进行RNA-seq测序,然后利用SpliceSeq工具分析得到最终预后模型公式中这些可变剪接事件的PSI值,进一步计算出患者的风险值(以1.48为临界值,大于1.48则患者属于高风险,小于1.48则患者属于低风险),患者风险值越低,表示预后越好(生存期可能越长)。
HR:hazard ratio风险率
CI:confidence interval置信区间
实施例5:预后模型的应用
应用最终的预后模型分别预测白种人和亚洲人胃癌患者的预后情况,自TCGA数据库得到白种人和亚洲人肺癌患者的RNA-seq序列,再通过SpliceSeq工具可计算出可变剪接事件的PSI值,带入本发明构建的模型,结果如图10所示,其AUC值分别达到0.945和0.898,而且二者间无显著性差异(P=0.73),表示该模型能够很好的预测不同种群的胃癌患者的预后,可应用于临床病人的预后分析。

Claims (3)

1.一种基于可变剪接事件的胃癌预后模型的构建方法,包括下述步骤:
1)从SpliceSeq数据库中下载胃癌样本中发生超过75%的可变剪接事件,同时从TCGA的泛癌图谱数据库中下载胃癌患者相应的临床数据,通过TCGA ID确认和匹配可变剪接事件的数据和临床资料,将同时具有临床随访和可变剪接事件数据的胃癌患者的数据作为模型构建样本;
2)在生存期相关性分析中,排除总生存期小于30天的患者,同时排除缺失20%以上的可变剪接事件的患者,在排除标准差(SD)<0.01的可变剪接事件后,通过单因素Cox回归分析评估每个可变剪接事件与胃癌患者总生存期之间的关系;
3)选择存活相关的可变剪接事件进行LASSO和多因素Cox分析,根据AA、AD、AP、AT、ES、ME和RI事件建立预后模型;然后,整合7种可变剪接事件,构建最终的预后模型,同时,绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),评价预后模型的有效性。
2.根据权利要求1所述的方法,其特征在于,利用上述方法构建的胃癌预后模型为:
[ID_9102的PSI值×(-58.33629063)]+[ID_9101的PSI值×(-59.06067583)]+[ID_86515的PSI值×2.418509368]+[ID_78909的PSI值×0.214341929]+[ID_88465的PSI值×2.394363565]+[ID_72984的PSI值×0.385100639]+[ID_73263的PSI值×(-2.680279551)]+[ID_62286的PSI值×4.971898841]+[ID_941210的PSI值×2.916894855]+[ID_60494的PSI值×0.471701404]+[ID_65103的PSI值×(-0.829574889)]+[ID_56755的PSI值×(-2.096492656)]+[ID_23717的PSI值×2.063481875]+[ID_64462的PSI值×1.276668521]+[ID_1263的PSI值×(-1.816662854)]+[ID_85484的PSI值×0.460283528]+[ID_58637的PSI值×3.559292944]+[ID_11264的PSI值×1.698968372]+[ID_7613的PSI值×(-0.119578167)]+[ID_22234的PSI值×2.499147893]+[ID_63994的PSI值×1.972464847]+[ID_28109的PSI值×6.990019357]+[ID_62533的PSI值×(-0.285798354)]+[ID_30319的PSI值×1.293507749]+[ID_47967的PSI值×2.222108866]+[ID_44852的PSI值×0.128062967]+[ID_83730的PSI值×1.540568003]+[ID_42828的PSI值×2.681443495]+[ID_88217的PSI值×0.11292787]+[ID_46490的PSI值×(-4.933742758)]+[ID_316125的PSI值×(-9.064566295)]+[ID_46241的PSI值×0.175632836]+[ID_31619的PSI值×(-0.636462275)]+[ID_40839的PSI值×2.359102963]+[ID_17140的PSI值×(-1.476864715)]+[ID_73262的PSI值×(-0.463635067)]+[ID_64990的PSI值×(-0.51812321)]+[ID_11433的PSI值×0.650197175]+[ID_27757的PSI值×0.886571904]+[ID_42359的PSI值×4.326590479]+[ID_45391的PSI值×1.019907533]+[ID_20977的PSI值×3.199966004]+[ID_848204的PSI值×1.789483579]+[ID_72866的PSI值×0.406382339]+[ID_66544的PSI值×1.553760084]+[ID_53284的PSI值×0.185107874]+[ID_270123的PSI值×14.91405642]+[ID_57559的PSI值×5.126817779]+[ID_70578的PSI值×1.098919204]+[ID_88097的PSI值×(-0.351262966)]+[ID_61793的PSI值×(-0.464734392)]+[ID_16799的PSI值×(-13.48580022)]+[ID_102657的PSI值×15.44672719]+[ID_70553的PSI值×1.27908778]+[ID_42038的PSI值×0.889131445]+[ID_76162的PSI值×4.219617265]+[ID_192的PSI值×8.340260912]+[ID_24873的PSI值×0.811349235]+[ID_64653的PSI值×(-1.532502423)]+[ID_20883的PSI值×2.672526023]+[ID_67218的PSI值×0.734172981]+[ID_11261的PSI值×0.677052706]+[ID_78606的PSI值×0.882821922]+[ID_42963的PSI值×(-0.394049502)]+[ID_58052的PSI值×(-2.573294323)]+[ID_16143的PSI值×0.423452111]+[ID_81887的PSI值×7.429090287]+[ID_68559的PSI值×1.468443575]+[ID_47541的PSI值×0.747472207]+[ID_74570的PSI值×(-1.620142652)]+[ID_71339的PSI值×0.273680246]+[ID_32161的PSI值×3.924433511]+[ID_33195的PSI值×0.379964981]+[ID_87889的PSI值×(-0.024723153)]+[ID_62997的PSI值×1.565593971]+[ID_41041的PSI值×6.371995569]+[ID_13459的PSI值×2.948836824]+[ID_16367的PSI值×0.098310547]+[ID_633的PSI值×0.484507071]+[ID_48045的PSI值×0.787234756]+[ID_44280的PSI值×(-1.039192896)]+[ID_3136的PSI值×6.097063356]+[ID_16083的PSI值×(-0.431207842)]+[ID_22932的PSI值×3.087985893]+[ID_48542的PSI值×4.213436126]+[ID_11245的PSI值×(-3.503272444)]+[ID_73776的PSI值×(3.710875112)];
PSI:percent spliced in,指拼接百分比;
ID:代表可变剪接事件的编号,来源于https://bioinformatics.mdanderson.org/TCGASplic eSeq/index.jsp。
3.权利要求1所述的构建方法在制备胃癌预后模型中的应用。
CN202010803241.5A 2020-08-11 2020-08-11 一种基于可变剪接事件的胃癌预后模型的构建方法及应用 Active CN111899889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010803241.5A CN111899889B (zh) 2020-08-11 2020-08-11 一种基于可变剪接事件的胃癌预后模型的构建方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010803241.5A CN111899889B (zh) 2020-08-11 2020-08-11 一种基于可变剪接事件的胃癌预后模型的构建方法及应用

Publications (2)

Publication Number Publication Date
CN111899889A true CN111899889A (zh) 2020-11-06
CN111899889B CN111899889B (zh) 2024-03-08

Family

ID=73228860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010803241.5A Active CN111899889B (zh) 2020-08-11 2020-08-11 一种基于可变剪接事件的胃癌预后模型的构建方法及应用

Country Status (1)

Country Link
CN (1) CN111899889B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113161000A (zh) * 2021-05-06 2021-07-23 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407689A (zh) * 2016-09-27 2017-02-15 牟合(上海)生物科技有限公司 一种基于基因表达谱的胃癌预后标志物筛选及分类方法
CN110390996A (zh) * 2019-08-18 2019-10-29 段艺 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407689A (zh) * 2016-09-27 2017-02-15 牟合(上海)生物科技有限公司 一种基于基因表达谱的胃癌预后标志物筛选及分类方法
CN110390996A (zh) * 2019-08-18 2019-10-29 段艺 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIE LIU,ET AL.: "Identification of potential biomarkers and their clinical significance in gastric cancer using bioinformatics analysis methods", 《PEER J》, pages 1 - 17 *
SHICHAO ZHANG, ET AL.: "Prognostic significance of survival-associated alternative splicing events in gastric cancer", 《AGING》, vol. 12, no. 21, pages 21923 - 21941 *
杨飞龙等: "基于长链非编码RNA 的生物信息学分析构建膀胱癌预后模型并确定预后生物标志物", 《北京大学学报(医学版)》, vol. 51, no. 4, pages 615 - 622 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113161000A (zh) * 2021-05-06 2021-07-23 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法
CN113161000B (zh) * 2021-05-06 2024-05-28 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法

Also Published As

Publication number Publication date
CN111899889B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN109859801B (zh) 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN110580956B (zh) 一组肝癌预后标志物及其应用
CN110241221B (zh) 用于转移性结直肠癌预后预测的试剂盒以及系统
Xu et al. Development and clinical validation of a novel 9-gene prognostic model based on multi-omics in pancreatic adenocarcinoma
CN111128299A (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN108559777B (zh) 一种新型分子标记及其在制备用于肾透明细胞癌诊断和预后的试剂盒中的应用
CN110305964A (zh) 一种前列腺癌患者预后复发风险预测标志工具及其风险评估模型的建立
CN113517073B (zh) 肺癌手术后生存率预测模型构建方法和预测模型系统
CN110791565A (zh) 一种用于ii期结直肠癌复发预测的预后标记基因及随机生存森林模型
Li et al. A seven immune-related lncRNA signature predicts the survival of patients with colon adenocarcinoma
CN115497552A (zh) 一种基于内质网应激特征基因的胃癌预后风险模型和应用
CN111899889A (zh) 一种基于可变剪接事件的胃癌预后模型的构建方法及应用
CN114974417A (zh) 一种甲基化测序方法和装置
CN110390996A (zh) 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用
CN113502330A (zh) m6A相关lncRNA在制备预测结直肠癌预后产品中的应用
CN114220487A (zh) 一种新型9基因risk急性髓系白血病预后模型的构建方法
CN113493829A (zh) 生物标志物在肺动脉高压诊疗中的应用
Rasche et al. ARH-seq: identification of differential splicing in RNA-seq data
Liu et al. Systematic profiling of alternative splicing events in ovarian cancer
CN110010198A (zh) 一种基于全转录组的肝细胞癌可变剪切事件系统分析的方法及预后模型应用
CN116153387A (zh) 一种肺鳞癌患者总体生存率预后模型及应用
Liu et al. The comprehensive and systematic identification of BLCA-specific SF-regulated, survival-related AS events
CN115820860A (zh) 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用
CN113234823B (zh) 胰腺癌预后风险评估模型及其应用
CN115029430A (zh) 一组评估主动脉夹层风险的生物标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant