CN114678062B - 基于多组学特征的肝细胞癌预后预测系统及其预测方法 - Google Patents

基于多组学特征的肝细胞癌预后预测系统及其预测方法 Download PDF

Info

Publication number
CN114678062B
CN114678062B CN202111598100.5A CN202111598100A CN114678062B CN 114678062 B CN114678062 B CN 114678062B CN 202111598100 A CN202111598100 A CN 202111598100A CN 114678062 B CN114678062 B CN 114678062B
Authority
CN
China
Prior art keywords
score
hepatocellular carcinoma
ges
tissues
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111598100.5A
Other languages
English (en)
Other versions
CN114678062A (zh
Inventor
熊远妍
黄璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111598100.5A priority Critical patent/CN114678062B/zh
Publication of CN114678062A publication Critical patent/CN114678062A/zh
Application granted granted Critical
Publication of CN114678062B publication Critical patent/CN114678062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了基于多组学特征的肝细胞癌预后预测系统,属于生物医学技术领域,所述预测系统包括数据输入模块、预测模块和显示模块;所述数据输入模块用于输入肝细胞癌患者数据并上传至所述预测模块,肝细胞癌患者数据包括GES评分水平、IS评分水平和TNM分期;所述预测模块为列线图模型;所述显示模块用于显示肝细胞癌患者24和/或36个月总体生存概率;通过同时使用癌和癌旁组织,并整合使用两种组学数据以及肝细胞癌常用临床指标,通过列线图模型对肝细胞癌预后进行预测,可广泛用于肝细胞癌患者的临床预后评估,该预测系统相比现有预后模型而言更加全面可靠。本发明还提供了基于多组学特征的肝细胞癌预后预测系统的预测方法及应用。

Description

基于多组学特征的肝细胞癌预后预测系统及其预测方法
技术领域
本发明属于生物医学技术领域,特别涉及一种基于多组学特征的肝细胞癌预后预测系统及其预测方法。
背景技术
肝癌是全球范围内癌症相关死亡的主要原因之一,肝细胞癌(Hepatocellularcarcinoma,HCC)占肝癌病例中的大部分(大于4/5)。中国作为HCC的高发地区,发病率高达20例/10万例,每年新增患者数量占全球一半以上。在过去数十年间,人类关于HCC的流行病学、分子机理等方面的研究已经有了长足的进展,也开发出了一系列举措来对其进行预防、诊断、早期检测和治疗,然而HCC在很多国家仍然表现出高的发病率以及致死率,这和HCC病人潜在的肝脏病变以及HCC独特的生物学特征有关。因此,对患者预后进行评估和风险分层可以有效地指导临床治疗。
随着基因芯片和第二代测序技术等高通量方法的出现,转录组和蛋白质组等组学数据与日俱增,基于组学水平的生物标记物鉴定也成为了新的趋势。通过使用高通量的方法,能方便快捷地对成百上千个样品的转录组(包括基因表达量、差异剪切、RNA编辑)、基因组(包括CNV、杂合度和SNP)、蛋白质组和代谢组学等方面的分析。目前已经有大量研究尝试基于基因表达或者其它组学特征进行HCC预后预测。例如,专利CN107502659B中,通过比较肝癌组织和配对的癌旁组织,首次发现了VIPR1基因在实体瘤肝组织中存在异常表达,并将其用作肝癌预后预测的特异标志基因。专利CN108728534B中,通过对127对肝癌组织及配对癌旁组织中差异表达的lncRNA进行分析,有218个差异表达倍数超过1.25倍的lncRNA,并进一步构建了基于4种lncRNA分子(RP11-134021.1、XLOC_012786、XLOC_000917和XLOC_010457)的模型用于评估肝癌患者预后。目前已经有若干用于肝细胞癌患者预后评估的模型,但大多数在独立临床数据集的验证中可重复性不高。
发明内容
为了解决现有肝细胞癌预后评估模型可靠性不高的技术问题,本发明提供了一种基于多组学特征的肝细胞癌预后预测系统,通过同时使用癌和癌旁组织,并整合使用两种组学数据以及肝细胞癌常用临床指标,通过列线图模型对肝细胞癌预后进行预测,可以广泛用于肝细胞癌患者的临床预后评估中,该预测系统相比现有预后模型而言更加全面可靠。
本发明还提供了基于多组学特征的肝细胞癌预后预测系统的预测方法及应用。
本发明通过以下技术方案实现:
本发明提供一种基于多组学特征的肝细胞癌预后预测系统,所述预测系统包括数据输入模块、预测模块和显示模块;
所述数据输入模块用于输入肝细胞癌患者数据并上传至所述预测模块,所述肝细胞癌患者数据包括GES评分水平、IS评分水平和TNM分期;
所述预测模块为列线图模型,所述预测模块基于所述肝细胞癌患者数据对肝细胞癌患者预后进行预测分析;
所述显示模块用于显示肝细胞癌患者24和/或36个月总体生存概率;
所述GES评分水平为癌组织和癌旁组织的70个基因表达量数据经GES评分模型判定所得,所述IS评分水平为癌组织和癌旁组织的12种免疫细胞相对浸润水平数据经IS评分模型判定所得。
进一步的,所述70个基因表达量数据包括44个肝细胞癌组织的基因表达量数据和26个癌旁组织的基因表达量数据;
所述44个肝细胞癌组织的基因表达量数据包括以下基因的表达量数据:
DEF6、ZFR、CYLD、ZNF446、TGM1、WHRN、CATSPERG、IL2RB、IMPAD1、ANAPC15、NEDD9、VEGFA、TBCCD1、IRF1、NECAB3、MYH10、P2RX4、KLHL36、ANGPTL2、SNRPF、MFGE8、CDH13、SECTM1、PRIM2、RPP30、DAB2、FAIM、MSX1、NUDT2、DAPK3、TCTN2、CXCL10、CD52、NDUFA3、ZNF415、ZNF24、LSM1、SMTN、SETD4、ZNF124、NMB、SPRED2、ZNF652、ZSCAN31;
所述26个癌旁组织的基因表达量数据包括以下基因的表达量数据:
ENTPD2、PIBF1、BAX、GPATCH2、CDKN3、RBM28、CUEDC2、TNFAIP1、DNMT3A、EGR2、GTF2F1、PRKRIP1、ACE2、IDO1、PATJ、VPS45、RSU1、NCAM1、KDM8、RNF111、ZNF230、ICOS、SPATA5L1、IQCK、RPLP2、CEBPD。
进一步的,所述12种免疫细胞相对浸润水平数据包括8种肝细胞癌组织的免疫细胞相对浸润水平数据和4种癌旁组织的免疫细胞相对浸润水平数据;
所述8种肝细胞癌组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
浆细胞、CD8 T细胞、初始CD4 T细胞、滤泡辅助T细胞、M0巨噬细胞、M1巨噬细胞、M2巨噬细胞、中性粒细胞;
所述4种癌旁组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
初始B细胞、静息树突状细胞、活化树突状细胞、活化肥大细胞。
基于同一发明构思,本发明还提供一种基于多组学特征的肝细胞癌预后预测系统的预测方法,所述方法包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平;
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平;
将所述GES评分水平、所述IS评分水平和TNM分期输入并上传至预测模块;
所述预测模块为列线图模型,所述列线图模型基于GES评分水平、所述IS评分水平和所述TNM分期对肝细胞癌患者预后进行预测分析;
通过显示模块显示肝细胞癌患者24和/或36个月总体生存概率。
进一步的,所述测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,根据GES评分模型,计算70个基因表达量数据各自经相应特异性权重加权后的总和与各系数总和的比值,获得GES评分;
所述GES评分的具体计算方法如公式(1):
其中n是GES评分模型的基因数量,xi是各基因的表达量,wi是各基因相应的特异性权重;
根据GES评分模型的最佳分割点0.067,基于所述GES评分判定肝细胞癌患者的GES评分水平为评分高或评分低。
进一步的,所述测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,根据IS评分模型,计算12种免疫细胞相对浸润水平数据各自经相应特异性权重加权后的总和,获得IS评分;
所述IS评分的具体计算方法如公式(2):
其中n是IS评分模型的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,wi为各免疫细胞相应的特异性权重;
根据IS评分模型的最佳分割点1.96,基于所述IS评分判定肝细胞癌患者的IS评分水平为评分高或评分低。
进一步的,所述GES评分模型通过以下方法构建:
选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,获取所述样本在12,749个基因中的表达谱,并获取所述样本22种免疫细胞的相对浸润水平数据;
使用Cox比例风险模型分别对12,749个基因进行标准单变量回归分析,将表达量和病人生存存在显著关联的基因作为候选基因,对所述候选基因进行LASSO回归分析,构建一个基于70个基因表达水平的GES评分模型;
基于GES评分模型,计算所述样本的GES评分,将所述样本集的GES评分水平分为GES评分高和GES评分低的两组,得到GES评分模型的最佳分割点0.067。
进一步的,所述IS评分模型通过以下方法构建:
使用Cox比例风险模型获得22种免疫细胞作为候选免疫细胞,对22种免疫细胞进行LASSO回归分析,构建一个基于12种免疫细胞相对浸润水平的IS评分模型;
基于IS评分模型,计算所述样本的IS评分,将所述样本集的IS评分水平分为IS评分高和IS评分低的两组,得到IS评分模型的最佳分割点1.96。
进一步的,所述选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,获取所述样本在12,749个基因中的表达谱,并获取所述样本22种免疫细胞的相对浸润水平数据,具体包括:
从GEO(https://www.ncbi.nlm.nih.gov/gds)中选择由复旦大学肝癌研究所发布的基于Affymetrix GeneChip HG-U133A 2.0(Affymetrix,Santa Clara,CA)芯片的基因表达数据,筛选209名病人构成样本集,获得209名病人的肝细胞癌组织及配对癌旁组织样本在12,749个基因中的表达谱;
使用CIBERSORTx算法(https://cibersortx.stanford.edu/),利用209名病人的所述样本在12,749个基因中的表达谱,对所述样本的22种免疫细胞的相对浸润水平进行定量。
基于同一发明构思,本发明还提供一种基于多组学特征的肝细胞癌预后预测系统在制备预测肝细胞癌患者预后生存概率的试剂盒中的应用。
进一步的,所述试剂盒包括基于碱基互补配对来进行基因表达量测定所使用的探针、基于聚合酶链式反应测定基因表达量所使用的引物、通过转录组测序获得所述基因表达量所需的试剂,以及通过免疫组织化学染色方法测定所述免疫细胞相对浸润水平所需的试剂。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明基于多组学特征的肝细胞癌预后预测系统,该预测系统通过同时利用来自癌组织和癌旁组织的多组学数据,包括基因表达量数据,免疫细胞相对浸润水平数据,提供了一个更全面可靠的分析肝细胞癌患者预后生存的评估系统,相对于单一利用癌组织特征的模型而言,准确性更高,相较于单一组学数据构建的模型而言,本发明整合多组学数据构建的模型能更好地预测病人预后,在肝细胞癌病人的生存预测中有着更高的特异性和灵敏度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为GSE14520组GES评分不同分割点时标准化的log-rank统计量的分布图。
图2为GSE14520组IS评分不同分割点时标准化的log-rank统计量的分布图。
图3为整合GES评分模型、IS评分模型器和TNM分期构建的列线图。
图4为列线图的预测结果和临床实际结果关联的校准图。
图5为24个月(左图)和36个月(右图)时列线图模型相对于单独GES分类器、IS分类器和TNM分期的预测性能。
图6为使用列线图、GES分类器、IS分类器和TNM分期分别预测GSE14520组(图A、B)、LIHC组(图C、D)和LIRI组(图E、F)在24和36个月病人总体生存预测中的性能ROC曲线。
图7为分别使用TGS1模型、TGS2模型、PGS1模型和PGS2模型评分分别对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线图:其中,图A-C分别对应为使用TGS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图D-F分别对应为使用TGS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图G-I分别对应为使用PGS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图J-L分别对应为使用PGS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线。
图8为使用GES、TGS1、TGS2、PGS1、PGS2模型和其它已发表的模型预测LIHC数据集患者预后的PEC分析图。
图9为使用TIS1模型、TIS2模型、PIS1模型和PIS2模型评分分别对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线图:其中,图A-C分别对应为使用TIS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图D-F分别对应为使用TIS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图G-I分别对应为使用PIS1模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线;图J-L分别对应为使用PIS2模型评分对GSE14520数据集、LIHC数据集和LIRI数据集构建的Kaplan–Meier生存曲线。
具体实施方式
下文将结合具体实施方式和实施例,具体阐述本发明,本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解,这些具体实施方式和实施例是用于说明本发明,而非限制本发明。
在整个说明书中,除非另有特别说明,本文使用的术语应理解为如本领域中通常所使用的含义。因此,除非另有定义,本文使用的所有技术和科学术语具有与本发明所属领域技术人员的一般理解相同的含义。若存在矛盾,本说明书优先。
除非另有特别说明,本发明中用到的各种原材料、试剂、仪器和设备等,均可通过市场购买得到或者可通过现有方法制备得到。
本申请提供的技术方案为解决上述技术问题,总体思路如下:
申请人认为,目前现有用于肝细胞癌患者预后评估的模型大多数在独立临床数据集的验证中可重复性不高,其原因是多方面的,首先,目前的癌症生物标记物鉴定相关的研究中,大部分研究者倾向于使用癌旁组织作为对照组进行差异表达分析,进而鉴定出在肿瘤组织中特异性的突变或者筛选出存在特异性高/低表达的基因。申请人认为,这一做法有很大的局限性,因为这需要基于一个前提假设,即癌旁组织和正常组织在组织学和分子生物学特征上没有差异。根据区域癌化理论,即使组织学上正常的癌旁组织,其分子特征上可能已经出现畸变,因而传统的肝细胞癌预后模型难以为其发生发展提供全面的信息。另一方面,肝癌是一种多因素参与的系统性疾病,而现有的肝细胞癌预后标记大多基于单一组学特征(如转录组中的若干基因表达量或者甲基化组中的若干位点甲基化状态)甚至是单一特征,忽略了多组学特征整合在病人预后评估中的潜在价值。
基于此,本发明建立一种基于多组学特征的肝细胞癌预后预测系统,使用癌+癌旁相结合的数据,训练获得了基于基因表达量和免疫细胞浸润的评分模型,并将二者结合,进一步利用了可用于临床预后评估的列线图(nomogram)模型,该预测系统相比现有预后模型而言更加全面可靠。
下面将结合实施例及实验数据对本申请基于多组学特征的肝细胞癌预后预测系统进行详细说明。
实施例1
基于区域癌化多组学特征的肝细胞癌预后预测系统的构建
一、肝细胞癌数据来源
(1)基因表达量数据。申请人从现有已公布的数据库中对现有的HCC的基因表达谱数据集进行了检索和筛选,选择了三组数据用于本研究:
1)从GEO(https://www.ncbi.nlm.nih.gov/gds)中选择了由复旦大学肝癌研究所(登录号GSE14520)发布的基于Affymetrix GeneChip HG-U133A 2.0(Affymetrix,SantaClara,CA)芯片的基因表达数据,该组研究共包含247位病人。经筛选后获得了209名病人的癌-癌旁配对样本在12,749个基因中的表达谱,记为GSE14520组。
2)从TCGA数据库(https://cancergenome.nih.gov/)下载了肝细胞癌的III级基因表达数据。经筛选获得了来自49位病人的癌-癌旁配对样本的表达谱,包含57,988个基因,记为LIHC组。3)从ICGC数据库(https://icgc.org/)下载了来自日本理化研究所(RIKEN)LIRI项目的肝细胞癌表达量数据,项目共搜集了232位病人的样本。经筛选获得了来自199位病人在22,370个基因中的表达谱,记为LIRI组。其中GSE14520组用于模型构建,LIHC组和LIRI组用于对模型进行外部验证。
(2)免疫细胞浸润水平数据。由于GSE14520数据中未提供现成的免疫细胞浸润水平数据,为了获得样本中各类免疫细胞如巨噬细胞、CD8 T细胞、CD4 T细胞等所占比例,申请人使用了CIBERSORTx(https://cibersortx.stanford.edu/),该算法基于线性支持向量回归(linear support vector regression)的原理进行去卷积分析。通过利用前面的每位病人的癌组织和癌旁组织的表达谱,申请人使用LM22标记(由547个特征基因组成)和1,000次抽样检验来对每位病人的肿瘤和周围组织中的22种免疫细胞的相对浸润水平进行定量。
二、基于区域癌化基因表达特征的GES分类器(GES评分模型)构建
与此前报道的方法不同,申请人在GES分类器构建的过程中同时考虑了癌组织和癌旁组织的表达谱。使用两步法来对能表征病人风险高低的最佳标记基因进行确定。第一步,对GSE14520表达量数据集,使用Cox比例风险模型分别对12,749个基因进行标准单变量回归分析,将其中表达量和病人生存存在显著关联(p值低于0.05)的基因作为候选基因,以利于后续更有效的特征选择。经过分析在癌组织和癌旁组织中分别获得了1,876和1,940个与病人生存呈现显著相关的基因。第二步,对步骤一中获得的候选基因进行了进一步的特征选择,以区分病人群体中的高风险组和低风险组,最小绝对收缩和选择算子(The leastabsolute shrinkage and selection operator,LASSO)可用于从高维度数据中挑选其中最优的子集,从而避免了多重共线性的干扰。LASSO Cox回归模型分析使用了R包“glmnet”来完成。最后,构建了一个基于70个基因表达水平的基因表达评分(gene expressionscore,GES)模型并将其标准化(如表1所示),根据模型中各基因的回归系数可以计算每位病人的GES评分。
为了使GES在不同的分析平台之间具有可比性,例如微阵列表达数据的信号强度和RNAseq表达数据的FPKM值,使用以下公式(1)计算GES评分:
其中n是GES评分模型(GES分类器)的基因数量,xi是各基因的表达量,另外,wi为各基因相应的特异性权重。
基于GES模型,本研究根据这70个基因的表达量及其对应的系数可以得出一个GES评分。基于“maxstat”的结果,将GSE14520数据集分为GES高和GES低的两组,最佳分割点取为0.067,在该分割点时两组间存在最大生存差异(如图1所示)。
表1基于LASSO选择用于计算GES评分的基因信息
三、基于区域癌化基因表达特征的IS分类器(IS评分模型)构建
通过使用LASSO Cox回归,建立同时基于癌和癌旁组织的IS分类器。采用两步法,通过单变量Cox回归中确定的22个候选特征中,使用LASSO选取了其中的12个,其中包括来自癌组织的8个免疫细胞成分(滤泡辅助T细胞、M0巨噬细胞、M2巨噬细胞、静息树突状细胞、嗜酸性粒细胞和嗜中性粒细胞),以及来自癌旁组织的4个免疫细胞成分(M0巨噬细胞、活化树突状细胞、静息树突状细胞、嗜酸性粒细胞和活化肥大细胞)。表2中列出了用于IS分类器构建的免疫细胞的系数。IS评分的计算公式如公式(2):
其中n是IS评分模型(IS分类器)的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,另外,wi为各免疫细胞相应的特异性权重。
使用R包“maxstat”为GSE14520中的IS评分生成最佳分割点(本发明中为1.96)(如图2所示),在该分割点时两组间存在最大生存差异。
表2基于LASSO选择用于IS模型构建的免疫细胞信息
四、基于区域癌化多组学特征的列线图模型及预测系统的构建
整合GES评分模型、IS评分模型以及与病人预后显著关联的临床病理特征TNMstage作为数据输入模块,使用R软件包“rms”生成了可以方便在临床上用于病人预后评估的列线图(nomogram)模型(如图3)。基于列线图模型(预测模块)预测分析,能够预测并通过显示模块显示HCC病人的24个月和36个月总体生存(OS)。
具体的,将GES group(GES分类器分组)、IS group(IS分类器分组)以及TNM stage(TNM分期)纳入列线图,其中,依据各自最佳分割点,GES评分水平和IS评分水平均分为risklow(评分低或风险低)和risk high(评分高或风险高),比对刻度获取各自对应的points,随后将各自points(分值)求和,根据total points(总分值)刻度与下方刻度的对应关系即可查出病人24个月和36个月的临床生存概率。
实施例2
基于区域癌化多组学特征的肝细胞癌预后预测系统的评估和验证
一、对构建的预后预测系统的可靠性评估
校准图显示,在24个月和36个月OS的预测上,基于列线图的预测系统的预测能力与理想模型存在相当高的一致性(C index=0.834,SE=0.02,如图4)。如图5所示,决策曲线分析(DCA)结果表明,在24个月和36个月OS的预测上,列线图的预测准确性更高,这表明列线图预测系统在临床预测能力上比单纯的GES分类器,IS分类器或者TNM分期更有用。
二、对构建的预后模型的外部数据验证
首先,对来自外部验证数据集的病人,使用GES分类器和IS分类器分别评估各位病人基于基因表达的风险和基于免疫细胞浸润的风险,具体方法为对应组织(癌或者癌旁)的特定基因(或者免疫细胞类型)的数值代入模型中获得评分,将评分与各自阈值进行比较(GES分类器的阈值为0.067,IS分类器的阈值为1.96),低于该值为低风险组,高于该值为高风险组。随后将GES分类器分组、IS分类器分组以及TNM分级纳入列线图(图3),比对刻度获取各自对应的points,随后将各自points求和,根据total points刻度与下方刻度的对应关系即可查出病人的临床生存概率。
基于ROC曲线对三个数据集中列线图,GES分组,IS分组和TNM分期的性能比较的分析也表明,列线图的AUC始终优于其他单个模型(如图6),表明列线图预测系统在病人生存预测上具有出色的功能。
实施例3
验证本发明区域癌化(癌组织+癌旁组织)特征在预后评估的过程中相对于单一利用癌组织特征的优越性。
如图7所示,在两个验证数据集中,GES分类器评估的准确性(以分组间生存差异显著性p值来衡量)明显高于其它四个备选模型,备选模型包括肿瘤基因评分1(tumor genescore 1,TGS1)、肿瘤基因评分2(tumor gene score 2,TGS2)、癌旁基因评分1(peritumorgene score 1,PGS1)和癌旁基因评分2(peritumor gene score 2,PGS2)。其中TGS1模型由GES中的癌组织基因部分构成,系数与GES相同。TGS2模型使用了仅肿瘤水平的基因表达数据来从头构建,并使用了与GES相同的两步程序选择模型基因。与TGS1和TGS2类似,PGS1模型使用了GES中的癌旁组织基因部分构成,系数与GES相同。PGS2模型使用了仅癌旁水平的基因表达数据来从头构建,并使用了与GES相同的两步程序选择模型基因。同时也优于目前已发表的若干肝细胞癌预测模型(如图8)。
与GES中情况类似,为了与IS进行比较,我们构建了四个模型,包括肿瘤免疫评分1(tumor immune score 1,TIS1)、肿瘤免疫评分2(tumor immune score 2,TIS2)、癌旁免疫评分1(peritumor immune score 1,PIS1)和癌旁免疫评分2(peritumor immune score 2,PIS2)。其中TIS1模型由IS模型中的癌组织的免疫细胞部分构成,系数与IS相同。TIS2则直接使用了全部22个癌组织水平的免疫细胞浸润特征通过多元Cox回归构建模型。与TIS1和TIS2类似,PIS1模型由IS模型中的癌旁组织的免疫细胞部分构成,系数与IS相同。PIS2则直接使用了全部22个癌旁组织水平的免疫细胞浸润特征通过多元Cox回归构建模型。同样,在IS分类器中也观察到了这种优越性(如图9)。
验证本发明整合多组学模型构建的预后预测系统能更好地预测病人预后:如实施例2中的图6所示,本发明结合了基于多维组学数据构建的GES分类器、IS分类器以及临床TNM分级信息,比较显示联合构建的基于列线图模型的预测系统相较于单一组学数据模型在肝细胞癌病人的生存预测中有着更高的灵敏度和特异性。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.基于多组学特征的肝细胞癌预后预测系统,其特征在于,所述预测系统包括数据输入模块、预测模块和显示模块;
所述数据输入模块用于输入肝细胞癌患者数据并上传至所述预测模块,所述肝细胞癌患者数据包括GES评分水平、IS评分水平和TNM分期;
所述预测模块为列线图模型,所述预测模块基于所述肝细胞癌患者数据对肝细胞癌患者预后进行预测分析;
所述显示模块用于显示肝细胞癌患者24和/或36个月总体生存概率;
所述GES评分水平为癌组织和癌旁组织的70个基因表达量数据经GES评分模型判定所得,所述IS评分水平为癌组织和癌旁组织的12种免疫细胞相对浸润水平数据经IS评分模型判定所得;
所述70个基因表达量数据包括44个肝细胞癌组织的基因表达量数据和26个癌旁组织的基因表达量数据;
所述44个肝细胞癌组织的基因表达量数据包括以下基因的表达量数据:
DEF6、ZFR、CYLD、ZNF446、TGM1、WHRN、CATSPERG、IL2RB、IMPAD1、ANAPC15、NEDD9、VEGFA、TBCCD1、IRF1、NECAB3、MYH10、P2RX4、KLHL36、ANGPTL2、SNRPF、MFGE8、CDH13、SECTM1、PRIM2、RPP30、DAB2、FAIM、MSX1、NUDT2、DAPK3、TCTN2、CXCL10、CD52、NDUFA3、ZNF415、ZNF24、LSM1、SMTN、SETD4、ZNF124、NMB、SPRED2、ZNF652、ZSCAN31;
所述26个癌旁组织的基因表达量数据包括以下基因的表达量数据:
ENTPD2、PIBF1、BAX、GPATCH2、CDKN3、RBM28、CUEDC2、TNFAIP1、DNMT3A、EGR2、GTF2F1、PRKRIP1、ACE2、IDO1、PATJ、VPS45、RSU1、NCAM1、KDM8、RNF111、ZNF230、ICOS、SPATA5L1、IQCK、RPLP2、CEBPD;
所述12种免疫细胞相对浸润水平数据包括8种肝细胞癌组织的免疫细胞相对浸润水平数据和4种癌旁组织的免疫细胞相对浸润水平数据;
所述8种肝细胞癌组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
浆细胞、CD8 T细胞、初始CD4 T细胞、滤泡辅助T细胞、M0巨噬细胞、M1巨噬细胞、M2巨噬细胞、中性粒细胞;
所述4种癌旁组织的免疫细胞相对浸润水平数据包括以下免疫细胞的相对浸润水平数据:
初始B细胞、静息树突状细胞、活化树突状细胞、活化肥大细胞;
其中,所述GES评分水平为癌组织和癌旁组织的70个基因表达量数据经GES评分模型判定所得,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,根据GES评分模型,计算70个基因表达量数据各自经相应特异性权重加权后的总和与各系数总和的比值,获得GES评分;
所述GES评分的具体计算方法如公式(1):
其中n是GES评分模型的基因数量,xi是各基因的表达量,wi是各基因相应的特异性权重;
根据GES评分模型的最佳分割点0.067,基于所述GES评分判定肝细胞癌患者的GES评分水平为评分高或评分低;
其中,所述IS评分水平为癌组织和癌旁组织的12种免疫细胞相对浸润水平数据经IS评分模型判定所得,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,根据IS评分模型,计算12种免疫细胞相对浸润水平数据各自经相应特异性权重加权后的总和,获得IS评分;
所述IS评分的具体计算方法如公式(2):
其中n是IS评分模型的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,wi为各免疫细胞相应的特异性权重;
根据IS评分模型的最佳分割点1.96,基于所述IS评分判定肝细胞癌患者的IS评分水平为评分高或评分低。
2.如权利要求1所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述方法包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平;
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平;
将所述GES评分水平、所述IS评分水平和TNM分期输入并上传至预测模块;
所述预测模块为列线图模型,所述列线图模型基于GES评分水平、所述IS评分水平和所述TNM分期对肝细胞癌患者预后进行预测分析;
通过显示模块显示肝细胞癌患者24和/或36个月总体生存概率。
3.根据权利要求2所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,计算获得GES评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的70个基因表达量数据,根据GES评分模型,计算70个基因表达量数据各自经相应特异性权重加权后的总和与各系数总和的比值,获得GES评分;
所述GES评分的具体计算方法如公式(1):
其中n是GES评分模型的基因数量,xi是各基因的表达量,wi是各基因相应的特异性权重;
根据GES评分模型的最佳分割点0.067,基于所述GES评分判定肝细胞癌患者的GES评分水平为评分高或评分低。
4.根据权利要求2所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,计算获得IS评分水平,具体包括:
测定肝细胞癌患者癌组织及癌旁组织的12种免疫细胞相对浸润水平数据,根据IS评分模型,计算12种免疫细胞相对浸润水平数据各自经相应特异性权重加权后的总和,获得IS评分;
所述IS评分的具体计算方法如公式(2):
其中n是IS评分模型的免疫细胞数量,xi是各免疫细胞占免疫细胞总量的分数,wi为各免疫细胞相应的特异性权重;
根据IS评分模型的最佳分割点1.96,基于所述IS评分判定肝细胞癌患者的IS评分水平为评分高或评分低。
5.根据权利要求3所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述GES评分模型通过以下方法构建:
选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,获取所述样本在12,749个基因中的表达谱,并获取所述样本22种免疫细胞的相对浸润水平数据;
使用Cox比例风险模型分别对12,749个基因进行标准单变量回归分析,将表达量和病人生存存在显著关联的基因作为候选基因,对所述候选基因进行LASSO回归分析,构建一个基于70个基因表达水平的GES评分模型;
基于GES评分模型,计算所述样本的GES评分,将所述样本集的GES评分水平分为GES评分高和GES评分低的两组,得到GES评分模型的最佳分割点0.067。
6.根据权利要求4所述的基于多组学特征的肝细胞癌预后预测系统的预测方法,其特征在于,所述IS评分模型通过以下方法构建:
选取若干组肝细胞癌组织及配对癌旁组织样本,构成样本集,使用Cox比例风险模型获得22种免疫细胞作为候选免疫细胞,获取所述样本22种免疫细胞的相对浸润水平数据,对22种免疫细胞进行LASSO回归分析,构建一个基于12种免疫细胞相对浸润水平的IS评分模型;
基于IS评分模型,计算所述样本的IS评分,将所述样本集的IS评分水平分为IS评分高和IS评分低的两组,得到IS评分模型的最佳分割点1.96。
7.如权利要求1所述的基于多组学特征的肝细胞癌预后预测系统在制备预测肝细胞癌患者预后生存概率的试剂盒中的应用。
8.根据权利要求7所述的应用,其特征在于,所述试剂盒包括基于碱基互补配对来进行基因表达量测定所使用的探针、基于聚合酶链式反应测定基因表达量所使用的引物、通过转录组测序获得所述基因表达量所需的试剂,以及通过免疫组织化学染色方法测定所述免疫细胞相对浸润水平所需的试剂。
CN202111598100.5A 2021-12-24 2021-12-24 基于多组学特征的肝细胞癌预后预测系统及其预测方法 Active CN114678062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111598100.5A CN114678062B (zh) 2021-12-24 2021-12-24 基于多组学特征的肝细胞癌预后预测系统及其预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111598100.5A CN114678062B (zh) 2021-12-24 2021-12-24 基于多组学特征的肝细胞癌预后预测系统及其预测方法

Publications (2)

Publication Number Publication Date
CN114678062A CN114678062A (zh) 2022-06-28
CN114678062B true CN114678062B (zh) 2024-04-26

Family

ID=82070086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111598100.5A Active CN114678062B (zh) 2021-12-24 2021-12-24 基于多组学特征的肝细胞癌预后预测系统及其预测方法

Country Status (1)

Country Link
CN (1) CN114678062B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110577998A (zh) * 2019-01-31 2019-12-17 上海交通大学医学院附属仁济医院 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN112331343A (zh) * 2020-11-04 2021-02-05 复旦大学附属中山医院 建立肝细胞癌术后风险评估模型的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110577998A (zh) * 2019-01-31 2019-12-17 上海交通大学医学院附属仁济医院 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN112331343A (zh) * 2020-11-04 2021-02-05 复旦大学附属中山医院 建立肝细胞癌术后风险评估模型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DNA 甲基化驱动的转录表达特征作为肝癌预后预测标志物的价值;骆红波等;《遗传》;20200831;第42卷(第8期);第775-787页 *

Also Published As

Publication number Publication date
CN114678062A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
Feng et al. Research issues and strategies for genomic and proteomic biomarker discovery and validation: a statistical perspective
CN111564214B (zh) 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN107025384A (zh) 一种复杂数据预测模型的构建方法
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
US9020934B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
CN111653314B (zh) 一种分析识别淋巴管浸润的方法
Nelson Predicting prostate cancer behavior using transcript profiles
CN113270188A (zh) 食管鳞癌根治术后患者预后预测模型构建方法及装置
KR101765999B1 (ko) 암 바이오마커의 성능 평가 장치 및 방법
Tschodu et al. Comparative analysis of molecular signatures reveals a hybrid approach in breast cancer: combining the Nottingham Prognostic Index with gene expressions into a hybrid signature
Zhang et al. Bayesian penalized cumulative logit model for high‐dimensional data with an ordinal response
CN114678062B (zh) 基于多组学特征的肝细胞癌预后预测系统及其预测方法
CN115798703A (zh) 基于新型脂肪酸代谢相关基因预测肾透明细胞癌预后的装置和计算机可读存储介质
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
US9734122B2 (en) System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management
CN108220445A (zh) 一种评价三阴性乳腺癌风险评估方法
Dehal et al. Accuracy of nodal staging is influenced by sidedness in colon cancer
Boufaied et al. Development of a predictive model for stromal content in prostate cancer samples to improve signature performance
CN113234823A (zh) 胰腺癌预后风险评估模型及其应用
CN112626216A (zh) 一种检测肿瘤微卫星不稳定性状态的组合物及其应用
Zhong et al. Distinguishing kawasaki disease from febrile infectious disease using gene pair signatures
Kuznetsov et al. Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
Lin et al. A novel assessing system for predicting the prognosis of gastric cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant