CN116564420A

CN116564420A - 一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统

Info

Publication number: CN116564420A
Application number: CN202211481723.9A
Authority: CN
Inventors: 刘艳丽; 陈静琦
Original assignee: Second Affiliated Hospital of Guangzhou Medical University
Current assignee: Second Affiliated Hospital of Guangzhou Medical University
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-08-08

Abstract

本发明提供了一种基于6个中心体扩增相关基因的肝癌患者风险评估系统，该肝癌患者风险评估系统准确性好。本发明联合这些基于中心体扩增相关基因的肝癌患者风险评分、病理分期、T分期及M分期，构建了肝癌患者风险综合评分模型以及基于该模型的肝癌预后预测系统，该风险综合评分模型和系统可以指导临床医生准确预测肝癌患者的预后，指导临床治疗。

Description

一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统

技术领域

本发明涉及一种基于中心体扩增相关基因的肝癌患者风险评估系统和预后预测系统。

背景技术

肝细胞癌(Hepatocellular carcinoma,HCC)是原发性肝癌最常见的类型，约占所有肝癌病例的75-85％。近年来，随着血清甲胎蛋白联合腹部超声的早期筛查及贝伐珠单抗联合阿特珠单抗或信迪利单抗的免疫治疗方案的批准，肝癌患者的生存率有所提高，但预后依然较差，5年生存率不足30％。基于肿瘤数量大小、组织学分级、门脉血栓、肿瘤转移、甲胎蛋白、肝功能及体力评分的预后模型，如TNM分期和BCLC分期已用于指导临床工作，但由于HCC患者的高度异质性，现有预后模型都存在局限，预测准确性有待提高。高通量转录组测序技术(RNA-Seq)的迅猛发展加速了研究者对肿瘤发生发展的基因特征的全面解读，并能够将肿瘤的基因特征与患者的临床表型及预后评估全面整合，从而为肿瘤治疗及预后提供了新的分子靶标。近年来的多项研究表明，联合肝癌患者的特征基因和传统预后体系如TNM分期等可以显著提高肝癌患者的预后准确性，并可为肝癌患者提供个体化诊疗方案，显著延长肝癌患者的生存期。

中心体异常扩增可以诱发细胞骨架及染色体的不稳定性，导致非整倍体的形成，是肿瘤的恶性特征之一。然而，目前尚缺乏对于介导中心体异常扩增的基因图谱的系统研究，因此中心体扩增相关基因在肝癌预后中的作用尚不明确。

由于肝癌患者的高度异质性，目前尚缺乏可以指导临床医生的肝癌预后标记物。

发明内容

基于现有技术存在的问题，本发明系统分析了653个中心体扩增相关基因在肝癌预后中的作用，并通过lasso和Cox多变量回归模型筛选了6个肝癌中心体扩增相关的预后标记基因，提供了一种基于6个中心体扩增相关基因的肝癌患者风险评估系统。联合这些基于中心体扩增相关基因的肝癌患者风险评分、病理分期、T分期及M分期，构建了风险综合评分模型以及基于该模型的肝癌患者预后预测系统。

为实现上述目的，所采取的技术方案：本发明提供了SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌患者风险评估系统中的应用。

本发明提供了SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌预后预测系统中的应用。

本发明提供了一种基于中心体扩增相关基因的肝癌患者风险评估系统，包括：

数据输入模块，用于将肝癌患者的中心体扩增相关基因基因表达量的检测结果输入模型计算模块，所述中心体扩增相关基因包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55；

模型计算模块，包括肝癌患者风险评分模型，用于根据肝癌患者中心体扩增相关基因基因表达量检测结果以及肝癌患者风险评分模型计算肝癌患者风险评分结果；

所述肝癌患者风险评分模型包括风险评分公式，风险评分＝0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NP M1+0.34935588*CSNK1D+0.26475163*CEP55；

结果输出模块，用于根据肝癌患者风险评分结果来判定肝癌患者预后情况；当患者风险评分高于等于0.9672时，该患者预后良好、生存期长的可能性低；当患者风险评分低于0.9672时，该患者预后良好、生存期长的可能性高。

本发明提供了一种基于中心体扩增相关基因的肝癌患者预后预测系统，包括：

数据输入模块，用于将肝癌患者的T分期、M分期、病理分期及中心体扩增相关基因风险等级结果输入模型计算模块，所述中心体扩增相关基因包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55；

模型计算模块，包括肝癌患者风险综合评分模型，用于根据肝癌患者的T分期、M分期、病理分期及中心体扩增相关基因风险等级结果以及肝癌患者风险综合评分模型计算肝癌患者风险综合评分结果；

所述肝癌患者风险综合评分模型包括风险综合评分公式，风险综合评分＝中心体扩增相关基因风险等级得分+T分期得分+病理分期得分+M分期得分；

中心体扩增相关基因风险等级得分的规则为低风险＝0分，高风险＝51分；T分期得分的规则为T1＝35分，T2＝54分，T3＝73分，T4＝92分；病理分期得分的规则为stage1＝43分，stage2＝52分，stage3＝62分，stage4＝71分；M分期得分规则为0＝50分，1＝100分；

中心体扩增相关基因风险评分

＝0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NPM1+0.34935588*CSNK1D+0.26475163*CEP55；当患者中心体扩增相关基因风险评分高于等于0.9672时，患者中心体扩增相关基因风险等级为高风险；当患者中心体扩增相关基因风险评分低于0.9672时，患者中心体扩增相关基因风险等级为低风险；

结果输出模块，根据患者的风险综合评分预测患者的生存率，风险综合评分越低，患者生存率越高，提示患者预后良好的可能性越高；其中风险综合评分为120-180分时，患者的1年生存率大于0.85，3年生存率大于0.7，5年生存率大于0.6，提示患者的整体预后较好，生存期长；综合评分为181-220分时，患者的1年生存率大于0.7，3年生存率大于0.5，5年生存率大于等于0.4，提示患者的预后良好，生存期中等；综合评分为221-250分时，患者的1年生存率大于0.5，3年生存率大于0.25，5年生存率大于等于0.18，提示患者的3年和5年预后较差；综合评分为>250分，患者的1年生存率小于0.5，3年生存率小于0.25，5年生存率小于0.18，提示患者的整体预后较差，生存期短。

有益效果：

由于现有技术主要基于肿瘤数量大小、组织学分级、门脉血栓、肿瘤转移、甲胎蛋白、肝功能及体力评分等临床特征预测并指导肝癌患者的治疗，存在局限。本发明基于肝癌发生发展中普遍观察到的中心体异常扩增为切入点，提供了6个在肝癌组织中表达增加且与肝癌不良预后相关的中心体扩增相关基因，并建立了基于中心体扩增6基因的风险评分模型以及肝癌患者风险评估系统，肝癌患者的Kaplan-Meier生存曲线，生存状态及ROC曲线都验证了该风险评分模型以及肝癌患者风险评估系统的准确性。此外，该风险评分模型与肝癌患者临床病理分级及T分期显著正相关。联合肝癌患者临床特征及中心体扩增6基因风险评分的多因素cox比例风险回归分析进一步揭示了风险评分模型的预后独立性和显著性。本发明进一步整合病理分期、T分期、M分期及中心体扩增6基因风险评分，构建了风险综合评分模型以及基于该模型的肝癌患者预后预测系统，该风险综合评分模型和系统可以指导临床医生准确预测肝癌患者的预后，指导临床治疗。

附图说明

图1是中心体扩增6基因在肝癌组织和正常组织中的差异表达。

图2是中心体扩增6基因与肝癌患者生存时间的相关性。

图3是中心体扩增6基因风险评分模型在训练数据集中的性能评价。其中A为中心体扩增6基因在训练数据集不同风险评分患者中的表达热图；B为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者的生存状态分析；C为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者生存时间的分析；D为ROC曲线评价中心体扩增6基因风险模型预测肝癌患者的准确性和特异性。

图4是中心体扩增6基因风险评分模型在测试数据集中的性能评价。其中A为中心体扩增6基因在测试数据集不同风险评分患者中的表达热图；B为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者的生存状态分析；C为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者生存时间的分析；D为ROC曲线评价中心体扩增6基因风险模型预测肝癌患者的准确性和特异性。

图5是中心体扩增6基因风险评分模型在所有数据集中的性能评价。其中A为中心体扩增6基因在整个数据集不同风险评分患者中的表达热图；B为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者的生存状态分析；C为基于中心体扩增6基因的肝癌患者风险评分与肝癌患者生存时间的分析；D为ROC曲线评价中心体扩增6基因风险模型预测肝癌患者的准确性和特异性。

图6为中心体扩增6基因在肝癌患者中的风险评分与肝癌患者临床病理分级及T分期的相关性。其中A为中心体扩增6基因在肝癌患者中的风险评分与肝癌患者临床病理分级的相关性；B为中心体扩增6基因在肝癌患者中的风险评分与肝癌患者临床T分期的相关性。

图7为整合临床病理特征及中心体扩增6基因风险评分的预后列线图。其中A为肝癌临床特征包括年龄、性别、病理分级、病理分期和TNM分期及中心体扩增6基因风险评分与肝癌患者预后相关性的单因素cox比例风险回归分析。B为整合病理分期、T分期、M分期和中心体扩增6基因风险评分的多因素cox比例风险回归分析。C为整合病理分期、T分期、M分期及中心体扩增6基因风险评分的预后列线图。D为预后列线图预测肝癌患者1，3，5年生存率的Calibration校正曲线。

具体实施方式

为更好的说明本发明的目的、技术方案和优点，下面将结合具体实施例对本发明作进一步说明。

首先，本发明提供了与肝癌预后相关的6个中心体扩增相关基因，包括SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55。

其次，本发明提供了肝癌预后标记物的筛选鉴定方法以及构建肝癌风险评分模型和肝癌预后预测系统的方法，具体包括以下步骤：

(1)从Gene Ontology和KEGG上查找到参与中心体扩增的基因共653个。

(2)从TCGA上下载了421例肝癌样本，其中肝癌组织371例，癌旁组织50例；以变化倍数大于1.5且p<0.05为标准，筛选出肝癌组织和癌旁组织的差异基因。将这些差异基因与中心体扩增的653个基因取交集，找出在肝癌组织中表达上调的中心体扩增相关基因。利用单因素cox比例风险回归模型，在这些肝癌组织中表达上调的中心体扩增相关基因中筛选出134个影响肝癌患者不良预后的基因。为避免过度拟合，基于Lasso回归筛选出TUBA4A、SSX2IP、SPAG4、SAC3D1、RAN、PSRC1、NPM1、NAT10、FAM83D、CSNK1D、CHORDC1、CEP55、CDT1和BRSK114个预后关键基因。多因素cox比例风险回归进一步筛选出6个能够独立影响患者预后的基因：SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55。

(3)建立基于中心体扩增6基因的肝癌风险评分模型：利用r语言survminer包的“coxph”函数计算每个基因的风险系数，并利用“predict”函数计算每个肝癌患者的风险评分(Riskscore)，风险评分由中心体扩增6基因集中的各个基因表达量与对应系数的乘积之和构成，公式如下：

Riskscore＝0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NPM1+0.34935588*CSNK1D+0.26475163*CEP55。

(4)验证基于中心体扩增6基因的肝癌风险评分模型：1)合并TCGA和ICGC数据集，将合并数据集中的肝癌样本划分为训练数据集和测试数据集；按照步骤(3)中的公式计算每个患者的风险评分，使用r语言中的median函数确定训练数据集中所有患者风险评分的中位值(0.9672)。基于此风险评分中位值，将训练数据集，测试数据集及整个数据集中的患者进行分组，患者风险评分高于该中位值的为高风险组，该患者预后良好、生存期长的可能性低；患者风险评分低于该中位值的为低风险组，该患者预后良好、生存期长的可能性高。2)绘制中心体扩增6基因在高风险组和低风险组的表达热图，风险评分图，生存时间及生存状态图以评估所构建模型的准确性。3)绘制高低风险组患者的Kaplan-Meier生存曲线，并以Log-rank(Mantel-Cox)检验方法比较两组间的患者生存时间的差异；ROC曲线进一步验证所构建肝癌风险评分模型的准确性和特异性。

(5)基于中心体扩增6基因的肝癌患者风险模型与肝癌患者临床特征的分析：1)基于中心体扩增6基因的肝癌患者风险模型与肝癌患者病理分级和病理分期的相关性分析。2)单因素cox比例风险回归分析肝癌患者风险模型及肝癌临床特征，包括年龄、性别、病理分级、病理分期及TNM分期，与肝癌患者预后的相关性。3)将上述单因cox比例风险回归中p<0.1的变量纳入多因素cox风险回归分析。4)根据肝癌患者的T分期、M分期、病理分期及中心体扩增6基因风险等级构建一个新的预后列线图。该列线图模型的患者评分＝风险等级得分+T分期得分+病理分期得分+M分期得分。风险等级得分的规则为低风险＝0分，高风险＝51分；T分期得分的规则为T1＝35分，T2＝54分，T3＝73分，T4＝92分；病理分期得分的规则为stage1＝43分，stage2＝52分，stage3＝62分，stage4＝71分；M分期得分规则为0＝50分，1＝100分。根据患者的综合评分可以预测患者的生存率，综合评分越低，患者生存率就越高，提示患者预后良好的可能性就越大。其中综合评分为120-180分，患者的1年生存率大于0.85，3年生存率大于0.7，5年生存率大于0.6，提示患者的整体预后较好，生存期长。综合评分为181-220分，患者的1年生存率大于0.7，3年生存率大于0.5，5年生存率大于等于0.4，提示患者的预后良好，生存期中等。综合评分为221-250分，患者的1年生存率大于0.5，3年生存率大于0.25，5年生存率大于等于0.18，提示患者的3年和5年预后较差。综合评分为>250分，患者的1年生存率小于0.5，3年生存率小于0.25，5年生存率小于0.18，提示患者的整体预后较差，生存期短。5)Calibration曲线被进一步用来评估预后列线表的特异性和准确性。

实施例1：筛选出中心体扩增相关基因中与肝癌患者预后显著相关的新的生物标志基因。

从Gene Ontology和KEGG网站上共搜集了参与中心体扩增的基因653个。从TCGA上下载了421例肝癌样本，其中肝癌组织371例，癌旁组织50例；以变化倍数大于1.5且p<0.05为标准，筛选出肝癌组织和癌旁组织的差异基因。然后将这些差异基因与中心体扩增的653个基因取交集，找出在肝癌组织中表达上调的中心体扩增相关基因。利用单因素cox比例风险回归模型，在这些肝癌组织中表达上调的中心体扩增相关基因中筛选出134个影响肝癌患者不良预后的基因。为避免过度拟合，基于Lasso回归筛选出TUBA4A、SSX2IP、SPAG4、SAC3D1、RAN、PSRC1、NPM1、NAT10、FAM83D、CSNK1D、CHORDC1、CEP55、CDT1和BRSK1共14个预后关键基因。多因素cox比例风险回归进一步筛选出6个能够独立影响患者预后的基因：SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55。如图1所示，与正常组织相比，这6个基因在肝癌组织中表达上调。如图2所示，这6个基因与肝癌患者的不良预后显著呈正相关。

实施例2：中心体扩增6基因的风险评分模型的建立与验证。

利用r语言survminer包的“coxph”函数计算每个基因的风险系数如表1所示。我们将TCGA和ICGC数据集去除批次差异并整合，并利用“predict”函数计算每个肝癌患者的风险评分，风险评分由中心体扩增6基因集中的各个基因表达量与对应系数的乘积之和构成，公式如下：

然后将整合数据集中的肝癌样本划分为训练数据集和测试数据集，使用r语言中的median函数确定训练数据集中所有患者风险评分的中位值(0.9672)。基于此风险评分中位值，将训练数据集，测试数据集及整个数据集中的患者进行分组，患者风险评分高于该中位值的为高风险组，患者风险评分低于该中位值的为低风险组。如图3所示，在训练数据集中，基于所有患者的风险评分中位值，152个患者被分为高风险组，153个患者被分为低风险组。表达热图显示中心体扩增6基因在高风险组中的表达显著高于低风险组(图3A)，且高风险组发生死亡的患者人数更多(图3B)。Kaplan-Meier生存曲线显示高风险组的患者生存时间显著低于低风险组(图3C)。ROC受试者工作曲线显示中心体扩增6基因肝癌患者风险模型预测患者1年，3年及5年死亡的AUC(ROC曲线下面积)值均大于0.5，显示了该肝癌患者风险评分模型的准确性和特异性(图3D)。如图4所示，在测试数据集中，基于上述定义的风险评分中位值，160个患者被分为高风险组，145个患者被分为低风险组。表达热图显示中心体扩增6基因在高风险组中的表达显著高于低风险组(图4A)，且高风险组发生死亡的患者人数更多(图4B)。Kaplan-Meier生存曲线显示高风险组的患者生存时间显著低于低风险组(图4C)。ROC受试者工作曲线显示中心体扩增6基因肝癌患者风险模型预测患者1年，3年及5年死亡的AUC(ROC曲线下面积)值均大于0.5，显示了该模型的准确性和特异性(图4D)。如图5所示，在包含训练数据集和测试数据集的整个数据集中，基于上述定义的风险评分中位值，312个患者被分为高风险组，298个患者被分为低风险组。表达热图显示中心体扩增6基因在高风险组中的表达显著高于低风险组(图5A)，且高风险组发生死亡的患者人数更多(图5B)。Kaplan-Meier生存曲线显示高风险组的患者生存时间显著低于低风险组(图5C)。ROC受试者工作曲线显示中心体扩增6基因肝癌患者风险评分模型预测患者1年，3年及5年死亡的AUC(ROC曲线下面积)值均大于0.5，显示了该模型的准确性和特异性(图5D)。

表1:中心体扩增6基因的风险系数

实施例3：基于中心体扩增6基因的肝癌风险模型与肝癌患者临床特征的相关性分析。

为了研究中心体扩增6基因对肝癌患者恶性临床特征的预测作用，我们进一步分析了中心体扩增6基因与肝癌病理分级及病理分期的相关性。如图6A所示，中心体扩增6基因风险评分随着肿瘤分级的增加而增加，G3和G4期的肝癌患者的风险评分显著高于G1和G2期的肝癌患者。如图6B所示，中心体扩增6基因风险评分随着肿瘤分期的增加而增加，T2、T3和T4期的肝癌患者的风险评分显著高于T1期的肝癌患者。

实施例4:建立中心体扩增6基因风险评分联合临床特征的预后列线图。

单因素cox比例风险回归分析中心体扩增6基因和传统临床特征包括年龄、性别、病理分级、病理分期及TNM分期对肝癌患者预后的重要性。如图7A所示,病理分期、T分期、M分期及中心体扩增6基因风险评分与肝癌患者的预后具有显著相关性(p<0.05)。将上述单因素cox回归中具有预后显著相关性的病理分期、T分期、M分期及中心体扩增6基因风险评分纳入多因素cox回归分析，如图7B所示,与其他临床特征相比，中心体扩增6基因可以作为独立的肝癌预后标记物。如图7C所示,我们联合肝癌患者的T分期、M分期、病理分期及中心体扩增6基因风险等级构建一个新的预后列线图。该列线图模型的患者评分＝风险等级得分+T分期得分+病理分期得分+M分期得分。风险等级得分的规则为低风险＝0分，高风险＝51分；T分期得分的规则为T1＝35分，T2＝54分，T3＝73分，T4＝92分；病理分期得分的规则为stage1＝43分，stage2＝52分，stage3＝62分，stage4＝71分；M分期得分规则为0＝50分，1＝100分。具体计算方式借助r语言程序，由数据输入、模型计算和结果输出三个模块构成。首先，根据中心体扩增6基因的表达计算患者的风险评分，并根据风险评分的中位值划分为低风险和高风险，随后将患者的生存时间、生存状态、风险等级、病理分期、T分期、M分期临床信息录入为命名为“患者信息”的txt文档中。加载r包Survival、regplot和rms，读入“患者信息”文档，如表2所示；利用cox风险回归coxph函数得到列线图模型的计算参数，之后利用regplot函数可视化列线图。具体的r语言代码如下所示：

图7C中的红色指示线指示的是“患者信息”信息表第16行的患者的风险等级得分为51分、T分期得分为54分、病理分期得分为52分、M分期得分为50分，四者相加的总得分为207分。根据该评分，可以推测患者1年生存率为0.752，3年生存率为0.558，5年生存率为0.449。Calibration曲线进一步验证了该预后列线图预测肝癌患者1年、3年及5年的生存概率具有非常高的特异性和准确性，如图7D所示。

表2:患者信息表

最后所应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌患者风险评估系统中的应用。

2.SSX2IP、SPAG4、SAC3D1、NPM1、CSNK1D和CEP55在制备基于中心体扩增相关基因的肝癌预后预测系统中的应用。

3.一种基于中心体扩增相关基因的肝癌患者风险评估系统，其特征在于，包括：

4.一种基于中心体扩增相关基因的肝癌患者预后预测系统，其特征在于，包括：

中心体扩增相关基因风险评分＝0.21543891*SSX2IP+0.17165441*SPAG4+0.42787335*SAC3D1+0.31027313*NP M1+0.34935588*CSNK1D+0.26475163*CEP55；当患者中心体扩增相关基因风险评分高于等于0.9672时，患者中心体扩增相关基因风险等级为高风险；当患者中心体扩增相关基因风险评分低于0.9672时，患者中心体扩增相关基因风险等级为低风险；