CN110390996A - 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 - Google Patents

一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 Download PDF

Info

Publication number
CN110390996A
CN110390996A CN201910755282.9A CN201910755282A CN110390996A CN 110390996 A CN110390996 A CN 110390996A CN 201910755282 A CN201910755282 A CN 201910755282A CN 110390996 A CN110390996 A CN 110390996A
Authority
CN
China
Prior art keywords
alternative splicing
hepatocellular carcinoma
events
model
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910755282.9A
Other languages
English (en)
Inventor
张东
段艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910755282.9A priority Critical patent/CN110390996A/zh
Publication of CN110390996A publication Critical patent/CN110390996A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种肝细胞癌的可变剪接事件预后模型及其构建方法和应用。本发明系统地评估了肝细胞癌患者的预后可变剪接变异,构建了基于26个可变剪切事件的肝细胞癌可变剪接预后模型,进一步结合临床病理变量验证其独立预后能力,并获得了肝细胞癌患者总体生存相关的关键可变剪接事件。本发明研究结果表明,纳入最终可变剪接预后模型的候选事件与肝细胞癌调控有关,并且相关的关键事件可能作为肝细胞癌潜在的生物标志物或是治疗靶点,对破译肝细胞癌在肿瘤形成和发病机制的潜在机制上具有临床意义。

Description

一种肝细胞癌可变剪接事件预后模型及其构建方法和应用
技术领域
本发明涉及肝细胞癌领域,尤其是涉及一种肝细胞癌的可变剪接事件预后模型及其构建方法和应用。
背景技术
肝细胞癌(HCC)是全球癌症高发病率和死亡率的主要原因之一,据统计每年有大约一百万人死于肝细胞癌。此外,肝细胞癌复发率很高,即使是已经接受早期肝细胞癌切除治疗的病人,5年存活率也只有近30%。由于肝细胞癌的异质性和复杂性,传统的临床病理学和分子标志物难以全面识别肝细胞癌的癌变、进展、侵袭和转移特征。目前,肝细胞癌的风险评估、治疗决策以及预后预测均主要依靠传统的TNM分期和Child-Pugh评分系统,然而,传统的临床病理的特点难以准确个性化地预测肝细胞癌患者的预后。因此,我们需要找到能够对肝细胞癌患者的诊断和预后做出高精度评估的新型生物标志物。
可变剪接(Alternative splicing)作为一种转录后调控机制,能够在近90%的人类蛋白编码基因中产生各种亚型。实质上,前体mRNA可以被剪接成不同的排列组合,通过去除内含子区域、选择性纳入或排除含多个外显子的基因内的特定外显子来产生结构和功能不同的蛋白变体,这进一步促进了蛋白质组的多样性并导致疾病表型的复杂性。近年来,随着高通量测序技术的进步,人们逐渐认识到特异性可变剪接事件与上皮间质转化、抗凋亡、迁移和侵袭等多种癌症相关特征之间的相关性。因此,特异性可变剪接事件可能作为肝细胞癌的预后标志物以及治疗靶点,探索其在肝细胞癌预后和治疗方面的临床应用是有意义的。
发明内容
鉴于此,有必要提供一种肝细胞癌的可变剪接事件预后模型及其构建方法和应用。
本发明的一个技术方案是一种肝细胞癌的可变剪接事件预后模型的构建方法,包括以下步骤:
步骤1:整合公共癌症基因组图谱(TCGA)数据库中的肝细胞癌RNA测序样本数据,根据纳入标准选定研究样本;
步骤2:数据的处理及转化,检测RNA测序数据中每种基因对应的可变剪接类型和数目;
步骤3:肝细胞癌患者生存相关可变剪接事件的鉴定,挑选与生存显著关联的事件作为模型构建候选事件;
步骤4:肝细胞癌可变剪接事件预后模型的构建,并进一步验证模型的预测效力和独立预测能力。
优选的,所述构建方法中,步骤1中,包括三级RNA测序数据和相应的临床信息通过TCGAbiolinks工具从TCGA数据集下载,整合具有相应临床病理信息和RNA测序数据的样本纳入研究。
优选的,所述构建方法中,步骤2中,每个肝细胞癌病人的可变剪接事件表达谱是使用SpliceSeq工具对RNA测序数据集进行评估和计算得到的拼接指数(spliced-inindex,PSI)来表示,并将可变剪接事件分为7种类型。为了得到尽可能可靠的一组事件,我们设置了一个严格的过滤器,只纳入PSI值不小于75百分比的样本且PSI平均值不小于0.05。
优选的,所述构建方法中,步骤3中,用Kaplan-Meier生存分析方法鉴定肝细胞癌生存相关的可变剪接事件。采用单因素生存分析,将生存相关亚组(P<0.05)事件与生存无关亚组(p>0.05)事件进行区分。
优选的,所述构建方法中,步骤3中,分别选择7种可变剪接类型中的前20与生存相关性最显著的事件,使用单因素Cox回归分析方法计算风险比(Hazard Ratio,HR)和95%可信区间(95%confidence intervals,95%CI),用以判定该事件对肝细胞癌患者是生存有利因素或是生存不利因素。
优选的,所述构建方法中,步骤4中,分别收集步骤3得到的与生存相关性最显著的事件,采用多元变量Cox风险回归方法对7种可变剪接类型事件分别进行拟合,采用后向逐步变量选择的方法,将Akaike信息准则(AIC)降至最小作为停止准则,避免模型过度拟合,得到7种分别由单一种类可变剪接事件组成的单一事件预后模型。
优选的,所述构建方法中,步骤4中,整合步骤3中得到的7种可变剪接类型中与生存相关性最显著的事件,用多元变量Cox风险回归方法对其整体进行拟合,采用以零模型为起点的前向逐步方法寻找最简洁的可变剪接事件集,建立最终事件预后模型。
优选的,所述构建方法中,步骤4中,为了评估上述每个预测模型的预测精度,通过使用R语言的timeROC程序包对动态时间依赖性受试者工作特征(ROC)的曲线下面积(AUC)进行Uno截尾加权估计的逆概率计算(时间跨度为3-8年)。
优选的,所述构建方法中,步骤4中,采用分层Cox比例风险分析方法,从肝细胞癌队列中的年龄、性别、饮酒史、乙型肝炎、丙型肝炎、家族史、血清甲胎蛋白(AFP)水平、Child-Pugh分级、残余肿瘤情况、血管浸润程度、组织学分级及病理分期等临床病理因素中验证最终可变剪接事件预测模型的独立预测能力。
本发明的又一个技术方案是采用上述构建方法组合所得到的肝细胞癌可变剪接事件预后模型在预测肝细胞癌患者预后方面的临床应用。
优选的,构建的最终可变剪接预后模型可作为独立预后因素,对肝细胞癌患者预后指导和治疗具有潜在临床意义。优选的,3年、5年或8年的ROC曲线显示构建的预后模型在预测患者长期生存概率方面具有较强的临床实用性。
通过对肝细胞癌患者总体生存率相关的可变剪接事件进行功能富集分析,我们发现候选事件在一些肝细胞癌相关调控通路上显著富集。为了探索最终预测模型中可变剪接事件在肿瘤发生发展方面的参与途径,我们利用JAVA程序通过访问MSigDB的规范通路基因集,进行了基因集变异分析(GSVA)。优选的,根据高、低风险亚组间的差异显著性对基因进行排序,并在肝细胞癌队列中采用基于事件的分类器进行分类,认为P<0.05和FDR<0.1的基因组为显著富集组。GSEA结果证实了潜在的剪接相关机制,并有助于进一步揭示肝细胞癌的发病机制和进展。
上述构建方法筛选得到了肝细胞癌相关的关键可变剪接事件,可能作为肝细胞癌的潜在生物标志物或是治疗靶点,进一步,由于标本量大且预测效果稳定而强健,上述预后模型的构建方法所构建的由26个可变剪接事件组成的肝细胞癌预后模型可作为独立预后因素,对肝细胞癌患者的预后预测和临床治疗具有重要的指导意义。
附图说明
图1为本发明一个实施例的构建方法示意图。
图2为7种可变剪接模式示意图。
图3为亲本基因与对应可变剪接事件数量及类型的交集图。
图4为应用最终可变剪接预后模型对肝细胞癌队列患者进行生存分析图。
图5为最终可变剪接预后模型效应的ROC曲线图。
图6为对肝细胞癌队列单因素Cox回归分析图。
图7为分层分析验证最终可变剪接预后模型为独立预后因素。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例对本发明进行更详细的说明。除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。本发明可以利用本领域内已知的任何方法测定所构建模型中包含的26个可变剪接事件的表达,本领域技术人员应当理解,测定事件表达的手段不是本发明的重要方面,可以在转录后水平上检测生物标志物的表达水平。
本发明旨在通过对肝细胞癌患者癌症组织的RNA测序数据进行系统分析,找到与总体生存率相关联的可变剪接事件并构建预后模型,发现其临床病例特征以及探索新的可能的诊断或预后生物标志物。如图1所示,本发明的一个实施例是,肝细胞癌可变剪接事件预后模型的构建方法,包括以下步骤:步骤1:整合公共癌症基因组图谱(TCGA)数据库中的肝细胞癌RNA测序样本数据,根据纳入标准选定研究样本;步骤2:数据处理及转化,检测RNA测序数据中每种基因对应的可变剪接类型和数目;步骤3:肝细胞癌患者生存相关可变剪接事件的鉴定,挑选生存相关的事件作为模型构建候选事件;步骤4:肝细胞癌可变剪接事件预后模型的构建,并进一步验证模型的预测效力和独立预测能力。
又一个实施例是,如图1所示,肝细胞癌可变剪接事件预后模型的构建方法及应用,其包括以下步骤:
步骤1:整合公共癌症基因组图谱(TCGA)数据库中的肝细胞癌RNA测序样本数据,根据纳入标准选定研究样本;优选的,包括三级RNA测序数据和相应的临床信息均通过TCGAbiolinks工具从TCGA数据集下载。
例如,纳入标准包括(1)患者性别为女性;(2)有组织学诊断为肝细胞癌;(3)患者没有接受新辅助治疗;(4)患者具有完整和明确的临床特征,包括年龄、性别、饮酒史、乙型肝炎、丙型肝炎、家族史、血清甲胎蛋白(AFP)水平、Child-Pugh分级、残余肿瘤情况、血管浸润程度、组织学分级及病理分期;(5)患者在初次病理检查后至少有30天的存活时间;(6)患者具有相应的RNA-seq可变剪接数据,排除信息不明或不明确的患者。经以上标准筛选,我们共纳入290例肝细胞癌患者,其中中位随访时间为15.75个月(范围为1-122.5个月),进一步对他们的剪接变异谱和临床资料整合后进行后续分析。
步骤2:数据处理及转化,使用SpliceSeq工具检测RNA测序数据中每种基因对应的可变剪接类型和数目;
优选的,采用stepaic方法对RNA测序数据进行降维,每个肝细胞癌病人的可变剪接事件表达谱是使用SpliceSeq工具对降维数据集进行评估和计算得到的拼接指数(spliced-in index,PSI)来表示。SpliceSeq是一种Java应用程序,能够准确量化的每个外显子和接头连接的含量,用于评估每个肝细胞癌样本的RNA剪接模式并计算百分比拼接指数(PSI)值,以此代表亲本基因的经修饰成为7种剪接类型事件的水平。
优选的,为了得到尽可能可靠的一组事件,我们设置了一个严格的过滤器,只纳入PSI值不小于75百分比的样本事件,且PSI平均值不小于0.05。
例如,如图2所示,选择性剪接事件大致分为7种类型,包括外显子跳过(ExonSkip,ES)、交替启动子(Alternate Promoter,AP)、交替终止子(Alternate Terminator,AT)、交替供体位点(Alternate Donor site,AD)、交替受体位点(Alternate Acceptorsite,AA)、互斥外显子(Mutually Exclusive Exons,ME)和保留内含子(Retained Intron,RI)。
例如,通过剪接类型、SpliceSeq数据库中的ID号和匹配的基因符号,我们为每个可变剪接事件分配了一个唯一的注释名以精确区别和描述它们。例如,在注释术语RI_C9orf9_ID_87994中,保留内含子(RI)为剪接类型,ID_87994为剪接事件对应的特定ID号,而C9orf9为对应基因符号。
步骤3:肝细胞癌患者生存相关可变剪接事件的鉴定,挑选生存相关的事件作为模型构建候选事件;优选的,用Kaplan–Meier生存分析方法鉴定肝细胞癌生存相关的可变剪接事件,对于每一种AS事件,根据PSI值的中位切分,将肝细胞癌患者分为低PSI组和高PSI组。优选的,采用单因素生存分析,将生存相关亚组(p<0.05)事件与生存无关亚组(p>0.05)事件进行区分。
如图3所示,对生存相关亚组内的可变剪接事件进一步分析,使用R语言中的UpsetR程序包鉴定生存相关的7种AS事件与各自对应的亲本基因之间的交集及对应关系。
优选的,分别选择7种可变剪接类型中的前20与生存相关性最显著的事件,使用单因素Cox回归分析方法计算风险比(Hazard Ratio,HR)和95%可信区间(95%confidenceintervals,95%CI),用以判定该事件对肝细胞癌患者是生存有利因素或是生存不利因素。
步骤4:肝细胞癌可变剪接事件预后模型的构建,并进一步验证模型的预测效力和独立预测能力;
优选的,分别收集步骤3得到的与生存相关性最显著的事件,采用多元变量Cox风险回归方法对7种可变剪接类型事件分别进行拟合,采用后向逐步变量选择的方法,将Akaike信息准则(AIC)降至最小作为停止准则,避免模型过度拟合,得到7种分别由单一种类可变剪接事件组成的单一事件预后模型。
优选的,整合步骤3中得到的7种可变剪接类型中与生存相关性最显著的事件,用多元变量Cox风险回归方法对其整体进行拟合,采用以零模型为起点的前向逐步方法寻找最简洁的可变剪接事件集,建立最终事件预后模型。
表1涉及每种可变剪接模型和最终预后模型的可变剪接事件的详细信息。
如表1所示,所有纳入肝细胞癌可变剪接预后模型的可变剪接事件均与生存显著相关(P值<0.05),其中纳入最终可变剪接预后模型的26个事件用“*”标示,其特征在于,所述最终可变剪接事件预后模型中,包括AA_RNH1_ID_13668、AA_NOP16_ID_117545、AA_CES1_ID_655795、AA_ABI1_ID_11044、AA_RALB_ID_55155、AA_RNF19B_ID_1647、AP_FAM107B_ID_10823、AP_FXN_ID_86525、AD_TXNDC17_ID_38768、AD_RPL13_ID_392312、AD_TRMT1_ID_47921、AD_CAPG_ID_54273、AD_PLEKHH3_ID_41103、AD_IP6K2_ID_64746、ES_STARD3NL_ID_79286、ES_ERBB2IP_ID_72261、ES_C14orf2_ID_29536、ES_MRPL2_ID_76237、ES_AFMID_ID_43807、RI_PRR23C_ID_67029、RI_MOK_ID_29380、ME_FAM92A1_ID_84527、ME_PPP2R1B_ID_18676、ME_KIAA1468_ID_45699、ME_MTFR1L_ID_1211和ME_RAB6A_ID_17707共26个事件。进一步,如图4生存分析结果所示,构建的最终模型能够显著地将预后较好的患者亚组与预后交叉的患者亚组区分开来(High vs.Low=827vs 3125days,p<2e-16)。
优选的,为了评估上述每个预测模型的预测精度,通过使用R语言的timeROC包对动态时间依赖性受试者工作特征(ROC)的曲线下面积(AUC)进行Uno截尾加权估计的逆概率计算(时间跨度为3-8年)。
例如:我们采用3-8年生存率的ROC曲线比较不同可变剪接事件模型的预测效率。在不同的剪接类型模型中,曲线下面积值(AUC)有明显的差异。如图5所示,与其他基于特定AS类型的签名相比,最终的可变剪接模型显示出最强健和稳定的预测效率,随着时间的推移,曲线下面积始终能够保持在0.9以上,因此,最终的可变剪接预后模型在性能上不劣于其他任何单一预后模型,具有更稳健预测效率。
例如,我们对TCGA肝细胞癌队列中的数据进行单变量和多变量Cox危险回归分析,以进一步研究最终的可变剪接预后模型是否为独立预后因素;优选的,将最终可变剪接预后模型作为二元变量进行处理。例如,如图6所示,单因素分析结果显示,年龄、乙型肝炎、家族史、血清甲胎蛋白(AFP)水平、血管浸润程度、病理分期、可变剪接预后模型均与肝细胞癌患者总体生存率均显著相关。进一步,将这些显著的危险因素纳入多元分析;优选的,影响肝细胞癌预后的三个独立因素分别是:最终可变剪接预后模型(HR=12.573;95%置信区间:4.957—31.893;p=9.79e-08)、血清甲胎蛋白(AFP)水平和血管浸润。
此外,为了探讨我们的最终可变剪接预后模型在分层队列中的预后价值,我们根据相对完整的临床特征将患者分为不同的亚组,然后进行分层分析。例如,使用我们的预后模型能够识别出所有队列中预后不同的患者,从而证实其对独立预测肝细胞癌预后的稳健性,无论临床参数如何,用最终可变剪接预后模型对肝细胞癌患者进行亚组分类可以保持其在识别预后不良患者的生存影响方面的准确性(p<2E-16)。
进一步,如图7所示,我们采用分层Cox比例风险分析方法,对肝细胞癌队列中的年龄、性别、饮酒史、乙型肝炎、丙型肝炎、家族史、血清甲胎蛋白(AFP)水平、Child-Pugh分级、残余肿瘤情况、血管浸润程度、组织学分级及病理分期等临床病理因素进行验证,发现最终可变剪接事件预测模型具有较强的独立预测能力。
采用上述构建方法组合所得到的肝细胞癌可变剪接事件预后模型在预测肝细胞癌患者预后方面的临床应用。
例如,在不同的可变剪接模型中,曲线下面积值(AUC)有明显的差异。如图5所示,与其他基于特定AS类型的签名相比,最终的可变剪接模型显示出最强健和稳定的预测效率,随着时间的推移,曲线下面积能够保持在0.9以上(1年,3年和5年分别对应AUC为0.937,0.902和0.985),优选的,最终的可变剪接预后模型在性能上不劣于其他任何单一预后模型,具有更稳健预测效率。进一步,对上述临床病理因素以及最终可变剪接预后模型进行单因素Cox比例风险分析,统计结果表明,在肝细胞癌队列中,年龄、性别、饮酒史、乙型肝炎、丙型肝炎、家族史、血清甲胎蛋白(AFP)水平、Child-Pugh分级、残余肿瘤情况、血管浸润程度、组织学分级及病理分期均与肝癌患者总体生存有显著关联;进一步,无论临床参数如何,用最终可变剪接预后模型对肝细胞癌患者进行亚组分类可以保持其在准确识别预后不良患者方面的生存影响(p<2E-16)。因此,构建的最终可变剪接预后模型可作为独立预后因素,对肝细胞癌患者预后指导和治疗具有潜在临床意义。
生存相关的可变剪接事件参与调控肝细胞癌的发生发展。基因本体论(GO)是一种整合性、统一化、动态开放实时更新的分类系统。它包括三大独立的本体(Ontology):基因参与的生命过程(biologicalprocess,BP),所处的细胞组份和元件(cellular component,CC)及发挥的分子生物学功能(molecularfunction,MF)。这三个本体下面又可以独立出不同的亚层次,层层向下构成一个本体的树型分支结构。例如,通过对肝细胞癌患者总体生存率相关的可变剪接事件进行功能富集分析,我们发现候选事件在一些肝细胞癌相关调控通路上显著富集,包括泛素介导的蛋白水解(FDR<0.0067)、p53信号通路(FDR<0.028)、AMPK信号通路(FDR<0.017)、HIF-1信号通路(FDR<0.0059)、EGFR酪氨酸激酶抑制剂耐药(FDR<0.017)等相关通路。优选的,基因本体论(Gene Ontology,GO)术语和KEGG通路的分析结果中,满足差异倍数|logFC|>0.4以及错误发现率(FDR)<0.05的条目被认为是显著富集的。
进一步,为了探索最终预测模型中可变剪接事件在肿瘤发生发展方面的参与途径,我们利用JAVA程序通过访问MSigDB的规范通路基因集,进行了候选事件亲本基因集变异分析(GSVA)。将这些相关的亲本基因进行GSVA检测,并对肿瘤与相邻正常样本进行差异富集分析。优选的,根据高、低风险亚组间的差异显著性对基因进行排序,我们认为|logFC|>0.2且FDR<0.05的通路集差异有统计学意义。例如,分析结果显示,与正常组织相比,肿瘤组织在细胞增殖和细胞周期方面活性增加,而在免疫反应和细胞粘附活性方面下降。总之,GSVA结果证实了潜在的剪接相关机制,并有助于进一步揭示肝细胞癌的发病机制和进展。
综上所述,本发明系统地评估了肝细胞癌患者的预后可变剪接变异,构建了基于26个可变剪接事件的肝细胞癌可变剪接预后模型,并获得了肝细胞癌患者总体生存相关的关键可变剪接事件。本发明研究结果表明,纳入最终可变剪接预后模型的候选事件与肝细胞癌调控有关,并且相关的关键事件可能作为肝细胞癌潜在的生物标志物或是治疗靶点,对破译肝细胞癌在肿瘤形成和发病机制的潜在机制上具有临床意义。然而,本发明的研究数据只是初步提出可靠的预后模型,需要更多的临床标本验证以及更深入的研究。虽然可变剪接事件是广泛存在的,但是在深入进行后续研究之后,很有可能确定其中可能存在作为中间结果的信息,从而发现肝细胞癌的诊断和预后的生物标志物。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.肝细胞癌可变剪接事件预后模型的构建方法,其特征在于,包括以下步骤:
步骤1:整合公共癌症基因组图谱(TCGA)数据库中的肝细胞癌RNA测序样本数据,根据纳入标准选定研究样本;
步骤2:数据处理及转化,检测RNA测序数据中每种基因对应的可变剪接类型和数目;
步骤3:肝细胞癌患者生存相关可变剪接事件的鉴定,挑选生存相关的事件作为模型构建候选事件;
步骤4:肝细胞癌可变剪接事件预后模型的构建,并进一步验证模型的预测效力和独立预测能力。
2.根据权利要求1所述构建方法,其特征在于,步骤2中,采用SpliceSeq工具对降维后的RNA测序数据集进行评估和计算得到的拼接指数(spliced-in index,PSI)来表示每个肝细胞癌病人的可变剪接事件表达谱,纳入标准设置为PSI值不小于75百分比。
3.根据权利要求1所述构建方法,其特征在于,步骤4中,采用多元变量Cox风险回归方法对步骤3中鉴定的7种类型事件分别进行拟合,采用后向逐步变量选择的方法,将Akaike信息准则(AIC)降至最小作为停止准则,构建7种分别由单一种类可变剪接事件组成的单一事件预后模型。
4.根据权利要求1所述构建方法,其特征在于,步骤4中,整合步骤3中得到的7种可变剪接类型中与生存相关性最显著的事件,用多元变量Cox风险回归方法对其整体进行拟合,采用以零模型为起点的前向逐步方法寻找最简洁的可变剪接事件集,建立最终可变剪接事件预后模型。
5.根据权利要求4所述构建方法,其特征在于,所述最终可变剪接事件预后模型中,包括AA_RNH1_ID_13668、AA_NOP16_ID_117545、AA_CES1_ID_655795、AA_ABI1_ID_11044、AA_RALB_ID_55155、AA_RNF19B_ID_1647、AP_FAM107B_ID_10823、AP_FXN_ID_86525、AD_TXNDC17_ID_38768、AD_RPL13_ID_392312、AD_TRMT1_ID_47921、AD_CAPG_ID_54273、AD_PLEKHH3_ID_41103、AD_IP6K2_ID_64746、ES_STARD3NL_ID_79286、ES_ERBB2IP_ID_72261、ES_C14orf2_ID_29536、ES_MRPL2_ID_76237、ES_AFMID_ID_43807、RI_PRR23C_ID_67029、RI_MOK_ID_29380、ME_FAM92A1_ID_84527、ME_PPP2R1B_ID_18676、ME_KIAA1468_ID_45699、ME_MTFR1L_ID_1211和ME_RAB6A_ID_17707共26个事件。
6.根据权利要求1所述构建方法,其特征在于,步骤4中,对动态时间依赖性受试者工作特征(ROC)的曲线下面积(AUC)进行Uno截尾加权估计的逆概率计算。
7.根据权利要求1所述构建方法,其特征在于,步骤4中,采用分层Cox比例风险分析方法,从肝细胞癌队列的各临床病理因素中验证最终可变剪接事件预测模型的独立预测能力。
8.采用如权利要求1至8任一所述构建方法所得到的肝细胞癌可变剪接预后模型。
9.根据权利要求1至9所述的肝细胞癌可变剪接预后模型在获取肝细胞癌标志物,以及用该预后模型在个性化预测肝细胞癌病人预后的临床应用。
CN201910755282.9A 2019-08-18 2019-08-18 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用 Pending CN110390996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910755282.9A CN110390996A (zh) 2019-08-18 2019-08-18 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910755282.9A CN110390996A (zh) 2019-08-18 2019-08-18 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用

Publications (1)

Publication Number Publication Date
CN110390996A true CN110390996A (zh) 2019-10-29

Family

ID=68288821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910755282.9A Pending CN110390996A (zh) 2019-08-18 2019-08-18 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN110390996A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402949A (zh) * 2020-04-17 2020-07-10 北京恩瑞尼生物科技股份有限公司 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法
CN111899889A (zh) * 2020-08-11 2020-11-06 贵州医科大学 一种基于可变剪接事件的胃癌预后模型的构建方法及应用
CN112907555A (zh) * 2021-03-11 2021-06-04 中国科学院深圳先进技术研究院 一种基于影像基因组学的生存预测方法和系统
CN113161000A (zh) * 2021-05-06 2021-07-23 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402949A (zh) * 2020-04-17 2020-07-10 北京恩瑞尼生物科技股份有限公司 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法
CN111402949B (zh) * 2020-04-17 2023-12-22 北京恩瑞尼生物科技股份有限公司 一种肝细胞肝癌患者诊断、预后和复发统一模型的构建方法
CN111899889A (zh) * 2020-08-11 2020-11-06 贵州医科大学 一种基于可变剪接事件的胃癌预后模型的构建方法及应用
CN111899889B (zh) * 2020-08-11 2024-03-08 贵州医科大学 一种基于可变剪接事件的胃癌预后模型的构建方法及应用
CN112907555A (zh) * 2021-03-11 2021-06-04 中国科学院深圳先进技术研究院 一种基于影像基因组学的生存预测方法和系统
CN113161000A (zh) * 2021-05-06 2021-07-23 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法
CN113161000B (zh) * 2021-05-06 2024-05-28 复旦大学附属中山医院 混合细胞型肝癌的预后评分模型及其构建方法

Similar Documents

Publication Publication Date Title
US20210040562A1 (en) Methods for evaluating lung cancer status
CN110390996A (zh) 一种肝细胞癌可变剪接事件预后模型及其构建方法和应用
US11079384B2 (en) Biomarkers and methods for diagnosis of early stage pancreatic ductal adenocarcinoma
CN103502473B (zh) 胃肠胰神经内分泌肿瘤(gep-nen)的预测
DK2922967T3 (en) PROCEDURE FOR VIEWING A PRESENCE OR NON-PRESENCE OF AGGRESSIVE PROSTATANCES
CN111128299A (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
US20200010912A1 (en) Prognostic method for individuals with prostate cancer
Zhang et al. A systems biology-based classifier for hepatocellular carcinoma diagnosis
CN111653314B (zh) 一种分析识别淋巴管浸润的方法
US20210262040A1 (en) Algorithms for Disease Diagnostics
WO2021127610A1 (en) Cancer signatures, methods of generating cancer signatures, and uses thereof
EP3353324A1 (en) Novel biomarkers for pancreatic diseases
WO2012046191A2 (en) Identification of multi-modal associations between biomedical markers
WO2014052930A2 (en) Biomarkers for prostate cancer prognosis
Meng et al. [Retracted] Identification and Validation of a Novel Prognostic Gene Model for Colorectal Cancer
Zhou et al. Expression and prognostic value of AIM1L in esophageal squamous cell carcinoma
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
Zhang et al. Sequencing and validation of exosomal miRNAs panel as novel plasma biomarkers for early diagnosis and prognosis prediction in laryngeal cancer
Lu et al. Three Survival‐Related Genes of Esophageal Squamous Cell Carcinoma Identified by Weighted Gene Coexpression Network Analysis
Hao et al. Establishing a Prognostic Model in Prostate Adenocarcinoma through Comprehensive scRNA-Seq and Bulk RNA-Seq Analysis and Validation
Pan et al. Controversial T1G3 bladder cancer is the key to revealing the changes in the biological functions of bladder cancer cells
CN116377065A (zh) 一组基因组合及其在制备肾透明细胞癌预后评估试剂盒中的应用
CN117737237A (zh) 用于前列腺癌预后评估的试剂盒及其应用
McGuire et al. BIOMEDICAL ANALYTICS AND MORPHOPROTEOMICS: AN INTEGRATIVE APPROACH FOR MEDICAL DECISION MAKING FOR RECURRENT OR REFRACTORY
Moskowitz et al. Oncogenomics/Proteomics of Head and Neck Cancers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination