CN117457069A

CN117457069A - 一种基于m7G相关基因突变对肝癌进行分型的方法和生存预测模型构建

Info

Publication number: CN117457069A
Application number: CN202311423921.4A
Authority: CN
Inventors: 雷文雄; 徐靖; 王赞智
Original assignee: Southern Hospital Southern Medical University
Current assignee: Southern Hospital Southern Medical University
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-26

Abstract

本发明公开了一种基于m7G相关基因突变对肝癌进行分型的方法和生存预测模型构建。本发明中的方法通过检测原发肿瘤和正常组织中表达存在显著差异的m7G相关基因，并基于算法实现肝癌的准确分型，分型得到的3种亚型能够很好的将肝癌患者分为3种类型，从而给予合理且合适的治疗或处理，提高治疗有效性。本申请进一步基于在3种亚型中表达具有显著性差异的基因构建生存预测模型，在肝癌预后效果评估具有极好的应用效果。

Description

一种基于m7G相关基因突变对肝癌进行分型的方法和生存预测模型构建

技术领域

本发明涉及分子生物学领域，特别涉及一种基于m7G相关基因突变对肝癌进行分型的方法和生存预测模型构建。

背景技术

肝癌是一种严重威胁人类健康的恶性肿瘤,其发病率和死亡率持续上升。全球每年约有80多万新发肝癌病例,并因肝癌导致了近80万人死亡。肝癌发病机制十分复杂，与HBV或HCV慢性感染、酒精摄入、非酒精性脂肪肝病等许多因素相关。肝癌又可分为多种病理亚型,各有不同的临床表现。目前肝癌的治疗手段包括手术切除、射频消融、体外放化疗等,但肝癌易复发转移，预后较差。如何提高肝癌的诊断率、制定精准的个体化治疗方案，是当前的研究热点和难点。

近年来，学者们尝试从分子层面分类肝癌，以期个体化治疗。例如，根据基因表达谱数据，可以将肝癌分为增殖型和非增殖型两类，也可利用mRNA表达谱数据分为三种亚型，还可通过DNA甲基化谱分为三类等。这些分子分类为指导个体化治疗提供了帮助，但仍需进一步优化。此外，利用生存分析方法评估患者预后，以及构建预后模型预测患者生存，也取得了一定进展。但现有模型的预测效力还需改善，且缺乏针对肝癌分子亚型进行的预后模型。

RNA表观遗传修饰已被证实与多种癌症的发病和进展密切相关。m7G是指RNA鸟嘌呤的第7个N被甲基修饰。N7-甲基鸟苷(m7G)修饰可以通过影响基因表达和其他生物过程来影响肿瘤的形成和发展。

发明内容

本发明旨在至少解决现有技术中存在的上述技术问题之一。为此，本发明的目的在于提供一种基于m7G相关基因突变对肝癌进行分型的方法和生存预测模型构建。本发明的分型方法和生存预测模型能够精准预测疾病的发展走向和患者预后情况，从而施展更加有效的治疗手段或方式，有效降低肝癌死亡率。

本发明的第一个方面，提供一种肝癌的分型方法，包括如下步骤：

检测样品中与m7G相关基因的表达情况，选取与肝癌相关的m7G相关突变基因，使用算法对样本进行分型，其中所述算法为分区聚类算法(partitioning around medoids,pam)、pam算法以pearson相关系数作为距离度量方法。

根据本发明的第一个方面，在本发明的一些实施方式中，所述与肝癌相关的m7G相关突变基因包括：DCP2、NUDT10、NUDT11、NUDT16、NUDT3、NUDT4、NUDT4B、AGO2、CYFIP1、DCPS、EIF4E、EIF4E1B、EIF4E2、EIF4E3、GEMIN5、LARP1、NCBP1、NCBP2、NCBP3、EIF3D、EIF4A1、EIF4G3、IFIT5、LSM1、NCBP2L、SNUPN、METTL1、NSUN2、WDR4。

在本发明中，与肝癌相关的m7G相关突变基因来自分子特征数据库MSigDB(https://www.gsea-msigdb.org/gsea/msigdb/)的3个m7G相关基因集(GOMF_M7G_5_PPPN_DIPHOSPHATASE_ACTIVITY、GOMF_RNA_7_METHYLGUANOSINE_CAP_BINDING和GOMF_RNA_CAP_BINDING)和公开文献(Tomikawa,Chie(2018).7-Methylguanosine Modifications inTransfer RNA(tRNA).International Journal of Molecular Sciences,19(12),4080–.doi:10.3390/ijms19124080)；当然，本领域技术人员也可以根据实际使用需求，选择来自其它数据库或公开文献的与肝癌相关的m7G相关突变基因。

在本发明中，与肝癌相关的m7G相关突变基因是指与正常细胞或组织相比，在肝癌中差异化表达的m7G相关突变基因。

在本发明的一些实施方式中，所述算法的聚类数K为3。

在本发明的一些实施方式中，聚类的数量由一致性累积分布函数(CDF)图和CDFDelta面积图决定，标准为聚类内的一致性高，变异系数低，CDF曲线下的面积未有显著增加，而经过发明人的测试发现，K＝3时产生了稳定的聚类结果。

在本发明的一些实施方式中，所述肝癌被分型为C1型、C2型和C3型。

在本发明的一些实施方式中，所述分型的定义标准是基于训练集生存时间得到的，具体地，不同分型的生存时间上，C1<C2<C3，即训练集中患者总生存时间最长的分群定义为C3，次之为C2，再次之为C1。

对于本发明的方法而言，在训练集、聚类方法和条件均完全公开的情况下，本领域技术人员能够基于本发明中的训练集、聚类方法和条件复现本发明中的分型标准，从而以复现的分型标准为依据，通过将受试者实际检测得到的表达谱带入本发明中提供的矩阵后得到对应参数，通过比较欧式距离即可实现准确的分型。

在本发明中，发明人在对GSE14520数据集应用相同的分子亚型判断方法后，也形成了对应的三种分子亚型，并且在生存分析中观察到三种亚型之间的生存时间同样存在显著和相似的差异情况。

在本发明的一些实施方式中，所述分型的判断标准为：

通过表达谱计算受试者样品与三种分型聚类中心的欧式距离，根据距离判断分型；其中，若受试者样品的质心与C3型聚类中心的欧式距离短于其与C2和C1的欧式距离，则受试者为肝癌C3型；若受试者样品的质心与C2型聚类中心的欧式距离短于其与C1和C3的欧式距离，则受试者为肝癌C2型；若受试者样品的质心与C1型聚类中心的欧式距离短于其与C2和C3的欧式距离，则受试者为肝癌C1型。

在本发明中，发明人对三种分子亚型进行免疫分析，每个队列中的三个分子亚型之间的免疫评分都显示出高度的显著差异，无论采用三种评分的哪一个，C1亚型的免疫评分都显著低于其它两种亚型；每个队列中的三个分子亚型之间的免疫检查点表达也显示出显著性差异，大部分免疫检查点基因在C1亚型中显著高表达。在本发明中，采用TIDE算法评估三个分子亚型的免疫逃逸可能性，提示C1亚型免疫逃逸的可能性较高，从免疫治疗中获益的可能性较小。

在本发明中，发明人探索了基于三种分子亚型的通路特征，发现与肿瘤发生相关的10条通路在三个分子亚型间都存在显著差异，除PI3K通路外，在其余通路在C1亚型的评分更高。

在本发明中，采用C1、C2、C3三个分子亚型分型的肝癌患者的生存率、预后效果估计、免疫效果、临床治疗有效性等方面相互对应，即本发明的分型方法能够按照生存时间精准将肝癌患者分为3个类型；根据患者生存率、预后效果估计、免疫效果、临床治疗有效性等方面的显著差异性给予合理且合适的治疗或处理，提高治疗有效性。

在本发明的一些实施方式中，按照生存率计，C3型人群>C2型人群>C1型人群。

在本发明的一些实施方式中，按照预后效果计，C3型人群优于C2型人群优于C1型人群。

在本发明的一些实施方式中，按临床治疗效果计，C3型人群优于C2型人群优于C1型人群。

本发明的第三个方面，提供检测如下与肝癌相关的m7G相关突变基因的表达量的检测产品在制备肝癌诊断和/或分型产品中的应用：

其中，所述与肝癌相关的m7G相关突变基因包括：DCP2、NUDT10、NUDT11、NUDT16、NUDT3、NUDT4、NUDT4B、AGO2、CYFIP1、DCPS、EIF4E、EIF4E1B、EIF4E2、EIF4E3、GEMIN5、LARP1、NCBP1、NCBP2、NCBP3、EIF3D、EIF4A1、EIF4G3、IFIT5、LSM1、NCBP2L、SNUPN、METTL1、NSUN2、WDR4。

在本发明的一些实施方式中，所述检测与肝癌相关的m7G相关突变基因的表达量的检测产品包括但不限于基于半定量RT-PCR、Northern blot、实时荧光定量PCR等方法构建的检测产品，相关特异性引物或探针等可基于本领域常规得到。

在本发明的一些实施方式中，所述检测产品包括但不限于检测试剂、检测试剂盒、基因芯片。

本发明的第四个方面，提供基于C1、C2、C3三个分子亚型的差异化表达基因的风险评估模型构建方法，包括如下步骤：

1)对于C1、C2、C3三个分子亚型的差异化表达基因，通过survival包的coxph函数进行单因素cox分析，得到初筛的分型差异化表达基因；

2)使用R软件包glmnet对初筛的分型差异化表达基因进行Lasso-cox回归，得到复筛的分型差异化表达基因；

3)利用AIC赤池信息准则，对步骤2)中复筛的分型差异化表达基因进行逐步多因素回归分析，得到关键基因；

4)构建风险评估模型。

在本发明的一些实施方式中，步骤2)中所述复筛的分型差异化表达基因包括：CDCA8、MEX3A、G6PD、SPP1、ADH4、PON1、CFHR3、FAM83D、ANXA10。

在本发明的一些实施方式中，所述复筛的分型差异化表达基因是在10倍交叉验证过程中筛选得到的。

在本发明的一些实施方式中，所述关键基因为MEX3A、G6PD、FAM83D、SPP1和ADH4。

在本发明的一些实施方式中，所述风险评估模型为：

RiskScore＝0.2×MEX3A表达量+0.15×G6PD表达量+0.301×FAM83D表达量+0.106×SPP1表达量+(-0.07×ADH4表达量)。

在本发明中，所述风险评估模型是基于RiskScore＝Σβi×Expi得到的。其中，Expi是指基因表达水平，βi是相应基因Cox的回归系数。通过zscore处理，根据RiskScore阈值“0”将患者划进行分组，其中RiskScore阈值大于“0”的样本划分为高风险组，RiskScore小于“0”的样本为低风险组；

在本发明的一些实施方式中，用于检测差异化表达基因表达量的检测产品包括但不限于基于半定量RT-PCR、Northern blot、实时荧光定量PCR等方法构建的检测产品，相关特异性引物或探针等可基于本领域常规得到。

本发明的第五个方面，提供本发明第四个方面所述的构建方法构建得到的风险评估模型在生存预测中的应用。

在本发明的一些实施方式中，RiskScore低风险组预后生存率显著高于RiskScore高风险组。

在本发明中，发明人通过试验验证，RiskScore低风险组显示出显著有利的生存结果。而且该结论在多个训练集以及验证集中都得到了有效的验证和证明。

在本发明中，发明人通过试验发现，在GSE76427验证集中，模型的AUC值在1、2、3、4年时分别为0.77、0.73、0.7、0.7；在ICGC验证集中，模型的AUC值在1、2、3、4年时分别为0.76、0.67、0.66、0.64；具有良好的准确性和有效性。

在本发明的一些实施方式中，高风险组和低风险组的区分基于对风险评估模型RiskScore进行zscore处理进行定义。

在本发明的一些实施方式中，zscore处理通过阈值进行限定，RiskScore中大于阈值的样本划分为高风险组，小于阈值的样本为低风险组。

在本发明的一些实施方式中，所述阈值为0。

在本发明中，发明人对RiskScore高风险和低风险组进行免疫分析，RiskScore高风险和低风险组之间的免疫评分显示出高度的显著差异，RiskScore高风险组的免疫评分显著低于RiskScore低风险组；RiskScore高风险和低风险组之间的免疫检查点表达也显示出显著性差异，免疫检查点基因在RiskScore高风险组中显著高表达。在本发明中，采用TIDE算法评估RiskScore高风险和低风险组的免疫逃逸可能性，提示RiskScore高风险组免疫逃逸的可能性较高，从免疫治疗中获益的可能性较小。

在本发明中，发明人探索了RiskScore高风险和低风险组之间的通路特征，发现DNA损伤和细胞增殖相关通路与RiskScore呈现正相关，代谢相关通路与RiskScore呈负相关。

在本发明中，RiskScore高风险组基因突变频率显著高于RiskScore低风险组。

在本发明中，RiskScore风险评估模型的高风险和低风险组中肝癌患者的生存率、预后效果估计、免疫效果、临床治疗有效性等方面相互对应，即本发明的风险评估模型能够按照生存时间精准将肝癌患者分为高低风险组两组，达到精准预测肝癌患者生存率的效果。

本发明的有益效果是：

本发明提供了一种基于m7G相关基因突变对肝癌进行分型的方法和生存预测模型构建。本发明中的方法通过检测原发肿瘤和正常组织中表达存在显著差异的m7G相关基因，并基于算法实现肝癌的准确分型，分型得到的3种亚型能够很好的将肝癌患者分为3种类型，从而根据3种亚型对应的生存率、预后效果估计、免疫效果、临床治疗有效性等方面的显著差异性给予合理且合适的治疗或处理，提高治疗有效性。

本发明提供了一种风险评估模型的构建方法，通过该方法能够构建出一种基于C1、C2、C3三个分子亚型的差异化表达基因的评估模型，通过利用该模型对肝癌患者的基因表达参数进行分析，可以有效且准确预测患者预后生存期，预测出疾病的发展走向，从而施展更加有效的治疗手段或方式，有效降低肝癌的死亡率。

本发明中的风险评估模型在肝癌预后效果评估具有极好的应用效果，其AUC值高，能够准确且高效的得到不同风险组，从而对于不同的风险人群的划分提供了有效的技术支持，从而进一步及早的提示医疗工作者给予合适的分类管理和个性化的治疗方案。

附图说明

图1为m7G相关基因在肝癌中的突变情况，其中，A为TCGA-LIHC队列中m7G相关基因的突变频率；B为TCGA-LIHC队列中m7G相关基因的拷贝数变异(CNV)；C为TCGA-LIHC队列中m7G相关基因在肿瘤和癌旁正常组织表达情况；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图2为基于m7G相关基因在肝癌中的三种分子亚型识别结果，其中，A为验证29个m7G基因之间的相关性结果；B为TCGA队列中样本一致聚类的增量-面积曲线(CDF Delta面积图)；C为K＝2-10时的一致聚类累积分布函数(CDF)图；D为一致性K＝3时样本聚类热图；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图3为TCGA-LIHC队列中的三种亚型的生存率的Kaplan-Meier分析图。

图4为GSE14520数据集中三种亚型的生存率的Kaplan-Meier分析图。

图5为TCGA-LIHC队列中三种亚型关于样本年龄、性别、T分期、Stage分期、Grade分级和样本生存状态(Status)的临床信息分布；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图6为在TCGA-LIHC队列中使用不同计算方法对三种亚型的免疫微环境情况的评估，其中，A为使用ESTIMATE评估三种亚型的免疫细胞浸润；B为使用MCP-count计算方法评估三种亚型的免疫细胞浸润；C为使用TIMER计算方法评估三种亚型的免疫细胞浸润；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图7为评估TCGA-LIHC队列中三种亚型的免疫治疗差异，其中，A为免疫检查点基因在三种亚型中的表达；B为使用TIDE软件分析三种亚型的潜在临床效应；C为三种亚型对已知化疗药物的响应性；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图8为TCGA-LIHC队列的三种亚型的肿瘤相关通路的ssGSEA评分；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图9为TCGA-LIHC队列中三种亚型的基因组改变情况，其中，A为三种亚型的基因组改变差异；B为三种亚型中，使用fisher检验筛选的前20个显著高频突变基因的突变特征；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图10为TCGA-LIHC队列中三种亚型的差异化表达基因，其中，A、B和C分别为C1相对于其它两组、C2相对于其它两组和C3相对于其它两组之间差异化表达的基因；D为C1亚型中差异化上调表达基因的GO通路富集结果；E为C1亚型中差异化上调表达基因的KEGG通路富集结果。

图11中的A为对预后显著差异化表达基因的Lasso-cox回归分析；B为预后显著差异化表达基因的拟合Lasso-cox回归模型曲线；C为最终确定作为影响预后的5个关键基因的风险比率图；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图12为基于Kaplan-Meier和时间依赖性ROC曲线比较TCGA-LIHC队列、GSE76427队列和ICGC队列中RiskScore分组对样本生存率估计结果和预测能力，其中，A和B分别为TCGA-LIHC队列中RiskScore分组的Kaplan-Meier分析图和时间依赖性ROC曲线；C和D分别为GSE76427队列中RiskScore分组的Kaplan-Meier分析图和时间依赖性ROC曲线；E和F分别为ICGC队列中RiskScore分组的Kaplan-Meier分析图和时间依赖性ROC曲线。

图13为TCGA-LIHC队列中RiskScore分组关于样本年龄、性别、T分期、Stage分期、Grade分级和三种亚型(Cluster)的临床特征分布。

图14为TCGA-LIHC队列中基于不同临床特征评价RiskScore分组可靠性，其中，A为不同Stage分期的RiskScore高低风险组的Kaplan-Meier分析图；B为不同Grade分级的RiskScore高低风险组的Kaplan-Meier分析图；C为不同年龄分组的RiskScore高低风险组的Kaplan-Meier分析图；D为不同性别分组的RiskScore高低风险组的Kaplan-Meier分析图。

图15为TCGA-LIHC队列中使用不同计算方法对RiskScore分组的免疫特征的评估，其中，A为使用MCP-count评估RiskScore高低风险组的免疫细胞浸润；B为使用TIMER计算方法评估RiskScore高低风险组的免疫细胞浸润；C为RiskScore分组与MCP-count免疫评分相关性；D为使用CIBERSORT计算方法评估RiskScore高低风险组的免疫细胞浸润；E为RiskScore高低风险组的ImmuneScore免疫评分差异；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图16为评估TCGA-LIHC队列中RiskScore分组的免疫治疗差异，其中，A为使用TIDE软件分析RiskScore高低风险组的潜在临床效应；B为免疫检查点基因在不同RiskScore分组中的表达；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图17为TCGA-LIHC队列中RiskScore分组间的富集通路差异，其中，A为使用GSEA分析RiskScore高低风险组中显著富集的通路；B为RiskScore分组与富集通路间相关性；C为各富集通路在RiskScore高低风险组中的分布；D为RiskScore分组中显著高频突变的基因对比；ns:p>0.05，*p<0.05，**p<0.01，***p<0.001，****p<0.0001。

图18为RiskScore分组结合临床病理特征的预后模型和生存预测，其中，A为RiskScore分组与临床特征的单因素cox分析；B为RiskScore分组与临床特征的多因素cox分析；C为结合RiskScore分组与临床特征的列线图；D为列线图对1、3、5年生存率预测的校准曲线；E为列线图模型的决策曲线；F为与样本年龄、性别、Stage分期和Grade分级的临床特征相比，列线图和RiskScore分组的生存预测能力。

具体实施方式

以下通过具体的实施例对本发明的内容作进一步详细的说明。实施例和对比例中所用的原料、试剂或装置如无特殊说明，均可从常规商业途径得到，或者可以通过现有技术方法得到。除非特别说明，试验或测试方法均为本领域的常规方法。

所使用的实验材料和试剂，若无特别说明，均为常规可从商业途径所获得的耗材和试剂。

实施例1：临床数据收集和处理

使用数据库TCGA，软件GDC，接口API获得TCGA数据库肝细胞癌数据集(TCGA-LIHC)的转录组测序技术(RNA-Seq)数据。TCGA(The Cancer Genome Atlas)项目是美国国立癌症研究所(NCI)和美国国立人类基因组研究所(NHGRI)于2006年联合启动的项目，该项目对大于20种人类恶性肿瘤的样本进行了全面的基因组学分析,其中包括基因组序列、DNA甲基化、mRNA表达谱、miRNA表达谱等多组学数据。这些数据对理解肿瘤发生的分子机制具有重要意义。TCGA-LIHC是TCGA项目中收集的肝细胞癌(LIHC，liver hepatocellularcarcinoma)样本相关的数据集。该数据集包含377例原发肝癌患者的临床样本及其多组学数据。样本来源包括美国和东亚多个医疗中心。这是目前公开的肝癌样本量最大、数据类型最全面的数据集之一，可以进一步开发利用。其中RNA-Seq数据的处理步骤如下：

1)去除没有临床随访信息的样本；2)保留生存时间大于0的样本；3)去除没有状态的样本；4)将Ensembl转换为Gene symbol；5)当具有多个Gene Symbol的表达情况时，取中值；

经过以上筛选获得包含365例原发肿瘤样本和50例癌旁正常样本的样本组。从HCCDB(Hepatocellular Carcinoma Cell DataBase，肝癌细胞数据库，网址：HCCDB:Integrative Molecular Database of Hepatocellular Carcinoma(lifeome.net))数据库获得ICGC-LIRI-JP数据集，经过筛选获得共212例肝癌样本；并从基因表达综合数据库(Gene Expression Omnibus，GEO，https://www.ncbi.nlm.nih.gov/geo/)数据库中的GSE14520数据集获得221例肿瘤样本，从GSE76427数据集获得115例肿瘤样本。GEO(GeneExpression Omnibus)是一个公共基因表达数据集仓库,由美国国立生物技术信息中心(NCBI)管理，用于存放和共享高通量基因组、转录组、蛋白组等多组学数据。GEO数据库按照不同数据类型组织数据集，其中GEO Series是原始提交的数据集，GEO Samples和GEOProfiles是对数据进行再处理后生成的。本申请从GEO Series数据库中下载了两个独立的肝癌表达谱数据集GSE14520和GSE76427。这两个数据集分别包含221例和115例肝癌患者的基因表达数据，可以用来验证所构建模型的鲁棒性。

对于GEO数据处理如下：下载对应芯片平台的注释信息，根据注释信息将探针映射到基因上，去除一个探针匹配到多个基因的探针。当多个探针匹配到一个基因时取均值作为该基因表达值。

实施例2：m7G相关基因获取及在肝癌中的突变情况

从分子特征数据库MSigDB(https://www.gsea-msigdb.org/gsea/msigdb/)获得3个m7G相关基因集(GOMF_M7G_5_PPPN_DIPHOSPHATASE_ACTIVITY、GOMF_RNA_7_METHYLGUANOSINE_CAP_BINDING和GOMF_RNA_CAP_BINDING)；从已公开文献(Tomikawa C.7-Methylguanosine Modifications in tRNA[J].Preprints,2018.DOI:10.20944/preprints201811.0384.v1.)获得3个m7G相关基因，最终共得到如下29个m7G相关基因进行后续分析：DCP2、NUDT10、NUDT11、NUDT16、NUDT3、NUDT4、NUDT4B、AGO2、CYFIP1、DCPS、EIF4E、EIF4E1B、EIF4E2、EIF4E3、GEMIN5、LARP1、NCBP1、NCBP2、NCBP3、EIF3D、EIF4A1、EIF4G3、IFIT5、LSM1、NCBP2L、SNUPN、METTL1、NSUN2、WDR4。

通过29个m7G相关基因在体细胞中的突变情况进一步确定29个m7G相关基因在肝癌中的改变。在364个TCGA-LIHC的肿瘤样本中，32个样本(8.79％)发生体细胞突变(图1A)，这些突变在GEMIN5基因中最为常见，其次是EIF4E1B和EIF4G3。之后通过检查肝癌中这些m7G相关基因的体细胞拷贝数变化，发现这些基因具有较低的拷贝数变异(CNV)扩增/缺失频率(图1B)。

通过比较原发肿瘤样本和癌旁正常组织样本之间m7G相关基因的mRNA变化进一步确定原发肿瘤和正常组织中m7G相关基因是否存在差异表达。结果显示29个m7G相关基因表达均存在显著差异，多数基因在肿瘤组织中高表达(图1C)。

实施例3：基于m7G相关基因的分子分型

通过一致性聚类(ConsensusClusterPlus)构建一致性矩阵，对样本进行聚类分型。利用m7G相关基因的表达数据，得到样本的分子亚型。具体地，通过PAM算法，以pearson相关系数作为距离度量单位，将每个样本分为K组，并使每个引导程序涉及80％的样本，共500个重复。设定聚类数K为2到10，通过计算一致性矩阵和一致性累积分布函数(CDF)确定最佳聚类数量，得到样本的分子亚型。聚类的数量由一致性累积分布函数(CDF)图和CDFDelta面积图决定，标准为聚类内的一致性高，变异系数低，CDF曲线下的面积未有显著增加。

结果如下。

通过分析29个m7G基因之间的相关性，可以发现大部分基因表达之间均存在显著的相关性(图2A)。基于29个m7G相关基因表达谱的一致聚类对样本进行分类，通过PAM算法，以pearson相关系数作为距离度量单位，按K值进行分型。一致聚类累积分布函数(CDF)图和CDF Delta面积图表明K＝3时具有较稳定的聚类结果(图2B和图2C)，因此K＝3被选为最终选项并得到三种分子亚型(图2D)。分型的定义标准是基于训练集生存时间得到的，在不同分型的生存时间上，C1<C2<C3。即训练集中患者总生存时间最长的分群定义为C3，其次为C2，再次之为C1。之后，通过表达谱计算受试者样品与三种分型聚类中心的欧式距离，根据距离判断分型；其中，若受试者样品的质心与C3型聚类中心的欧式距离短于其与C2和C1的欧式距离，则受试者为肝癌C3型；若受试者样品的质心与C2型聚类中心的欧式距离短于其与C1和C3的欧式距离，则受试者为肝癌C2型；若受试者样品的质心与C1型聚类中心的欧式距离短于其与C2和C3的欧式距离，则受试者为肝癌C1型。而后对TCGA-LIHC队列预后特征的进一步分析表明，三种亚型之间的预后存在显著差异。其中C1的生存率最为不利，C3的生存率是三种亚型中最长的，C2的生存率介于两种亚型之间(图3)。此外，发明人在对GSE14520(验证集)的肝癌患者应用相同的分子亚型判断方法后，也形成了对应的三种分子亚型，并且在生存分析中观察到三种亚型之间的预后同样存在显著和相似的差异情况(图4)。

实施例4：分子亚型之间的临床特征

发明人进一步分析了TCGA队列中C1、C2和C3三种不同分子亚型之间的临床病理特征差异，比较不同临床特征在三种分子亚型中的分布。结果显示T分期、Stage分期、Grade分级和样本生存状态(Status)在三个分子亚型中存在显著性差异，预后最差的C1临床等级较高(图5)。

实施例5：分子亚型之间的免疫特征和免疫治疗差异

通过CIBERSORT算法(https://cibersort.stanford.edu/)量化肝癌中22种免疫细胞的相对丰度。同时，发明人也通过采用ESTIMATE评估免疫细胞浸润情况表明C1、C2和C3三种不同分子亚型之间免疫微环境，结果显示C1亚型的免疫评分(ImmuneScore)显著低于其它两种亚型，说明C1亚型具有较低的免疫细胞浸润(图6A)。同时发明人还采用MCP-count(图6B)和TIMER(图6C)计算C1、C2和C3三种不同分子亚型的免疫浸润评分，结果显示多数免疫细胞评分在亚型之间存在显著差异。

发明人进一步分析了TCGA队列中C1、C2和C3三种不同分子亚型对免疫治疗的差异。从m7GHub数据库(http://180.208.58.19/m7g/index.html)中筛选具有m7G甲基化的免疫检查点，并比较亚型之间的免疫检查点表达是否存在差异。结果显示大部分免疫检查点基因在C1亚型中高表达(图7A)。

接着，发明人通过采用TIDE(http://tide.dfci.harvard.edu/)软件评估免疫治疗在上述定义的分子亚型中的潜在临床效应。TIDE算法是一种利用基因表达谱预测免疫检查点阻断(ICB)反应性的计算方法。TIDE算法评估了三种限制肿瘤中T细胞浸润的细胞类型，包括肿瘤相关成纤维细胞(CAF)的M2亚型、髓源性抑制细胞(MDSCs)和肿瘤相关巨噬细胞(TAM)，以及两种不同的肿瘤免疫逃逸机制，包括肿瘤浸润细胞毒性T淋巴细胞(CTL)的功能障碍评分和免疫抑制因子对CTL的排斥评分。TIDE预测评分越高，表示免疫逃逸可能性越高，提示患者从免疫治疗中获益的可能性越小。实验结果显示TCGA队列中预后最差的C1亚型TIDE评分显著高于C2和C3，提示C1亚型免疫逃逸的可能性较高，从免疫治疗当中获益的可能性较小(图7B)。此外，发明人进一步分析了TCGA队列中不同分子亚型对6种传统化疗药物的响应程度，发现C1对这些药物更为敏感(图7C)。

实施例6：分子亚型之间的通路特征

通过使用单样本基因集富集分析(single sample gene set enrichmentanalysis，ssGSEA)计算方法对TCGA队列的肿瘤相关的10条通路进行评分，从而比较三种不同的分子亚型C1、C2和C3的肿瘤相关通路的差异。其中使用KEGG数据库中c2.cp.kegg.v7.5.1.symbols.gmt基因集进行基因集富集分析。通路评分越高，表示与该肿瘤通路相关性越大。肿瘤相关通路信息来源于。实验结果显示10条通路在3个分子亚型间都存在显著差异，除PI3K通路外，在其余通路中预后最差的C1亚型通路评分更高(图8)。

实施例7：分子亚型之间的突变特征

发明人进一步分析了TCGA队列中C1、C2和C3三种不同的分子亚型之间基因组改变的差异。通过已公开的泛癌研究(Vésteinn Thorsson,Gibbs D L,Brown SD,et al.TheImmune Landscape of Cancer[J].Immunity,2018,48(4).DOI:10.1016/j.immuni.2018.03.023.)获取TCGA-LIHC的分子特征信息。结果显示C1亚型显示出较高的非整倍体评分(Aneuploidy Score)、同源重组缺陷(Homologous Recombination Defects)和改变比例(Fraction Altered)；这些结果提示预后最差的C1亚型基因组改变较大(图9A)。进一步通过下载mutect2软件处理的TCGA突变数据集筛选出突变频次大于3的共2564个基因，使用fisher检验筛选在各个亚型中显著高频突变的基因，筛选阈值为p<0.05。前20个基因在各个亚型中的突变特征如图9B所示。

上述实施例4-7的实验结果说明根据m7G相关基因建立的三个分子亚型C1、C2和C3在预后情况、临床特征、免疫特征、通路特征以及基因组突变特征上存在差异。

实施例8：分子亚型之间的差异基因

使用差异分析limma包计算C1与其它两组亚型、C2与其它两组亚型以及C3与其它两组亚型之间存在差异表达的基因，设置FDR<0.05和|log2FC|>1。最终，在C1组中共鉴定出320个差异表达基因，其中有235个上调基因和85个下调基因(图10A)；在C2组共鉴定出191个差异表达基因，其中有9个上调基因和182个下调基因(图10B)；在C3组中共鉴定出114个差异表达基因，其中69个上调基因和45个下调基因(图10C)，最终筛选出507个差异基因。发明人进一步通过R软件包clusterProfiler对差异表达基因分别进行功能富集分析，设定FDR<0.05，在C1亚型中差异上调表达基因的GO和KEGG通路富集结果分别见图10D和图10E。

实施例9：建立风险模型

风险模型建立步骤如下：

1)对于实施例8中筛选出的507个差异化表达基因，通过survival包的coxph函数进行单因素cox分析；

2)选取98个预后显著差异化表达的基因(p<0.001)，其中包括85个“Risk”和13个“Protective”基因；

3)通过Lasso回归和逐步多因素回归分析对步骤2)的98个预后显著差异化表达的基因进行进一步压缩，以减少风险模型的基因数量；

4)风险模型的建立：采用以下公式计算每个患者的风险评分：RiskScore＝Σβi×Expi，其中Expi是指基因表达水平，βi是相应基因Cox的回归系数。通过zscore处理，根据阈值“0”将患者划分为高风险组和低风险组，其中RiskScore大于“0”的样本划分为高风险组，小于“0”的样本为低风险组，采用Kaplan-Meier法绘制生存曲线进行预后情况分析，并采用对数秩检验确定差异的显著性。

其中步骤3)的Lasso(参见Least absolute shrinkage and selectionoperator，Tibshirani(1996))方法是一种压缩估计。Lasso法保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计，可以在参数估计的同时实现变量的选择，较好的解决回归分析中的多重共线性问题。在本申请中使用R软件包glmnet进行Lasso-cox回归。首先分析每个自变量的变化轨迹如图11A所示。结果显示随着lambda逐渐增大，自变量系数趋于0的个数也逐渐增多。通过10倍交叉验证进行模型构建，分析每个lambda下的置信区间如图11B所示，结构显示当lambda＝0.051时模型达到最优，因此选择lambda＝0.051时的9个基因作为下一步的目标基因，9个分别为：CDCA8、MEX3A、G6PD、SPP1、ADH4、PON1、CFHR3、FAM83D、ANXA10。接着进行逐步多因素回归分析，逐步回归分析利用AIC赤池信息准则。最终从9个基因中选择MEX3A、G6PD、FAM83D、SPP1和ADH4共5个基因被确定作为影响预后的关键基因(图11C)。

最终模型公式为：

RiskScore＝0.2×MEX3A表达量+0.15×G6PD表达量+0.301×FAM83D表达量+0.106×SPP1表达量+(-0.07×ADH4表达量)

接着，通过利用5个基因的表达水平分别计算TCGA-LIHC队列中每个样本的风险评分。对RiskScore进行zscore处理，将zscore处理后的RiskScore中大于“0”的样本划分为高风险组，小于“0”的样本为低风险组，并绘制Kaplan-Meier曲线，结果发现高风险组和低风险组之间存在显著差异(p<0.0001，图12A)。然后使用R软件包timeROC对RiskScore进行预后分类的ROC分析，分别分析1-5年的预后预测分类效率，ROC曲线的曲线下面积(AUC)在1、2、3、4、5年时分别为0.8、0.71、0.7、0.71和0.69(图12B)。使用来自GSE76427和ICGC的数据集(验证集)进一步验证模型的鲁棒性，发现在这两个数据集中高风险组和低风险组之间存在显著差异(图12C、图12E)，GSE76427的ROC曲线的曲线下面积(AUC)在1、2、3、4年时分别为0.77、0.73、0.7、0.7(图12D)；ICGC的ROC曲线的曲线下面积(AUC)在1、2、3、4年时分别为0.76、0.67、0.66、0.64(图12F)。

实施例10：RiskScore分组间临床特征

发明人进一步分析了在TCGA-LIHC队列中不同临床病理分组之间RiskScore评分的差异，从而验证RiskScore评分与TCGA-LIHC队列临床特征之间的关系。其中临床病理分组分别以样本性别、样本年龄、T分期、Stage分期、Grade分级和分子亚型为分组依据。

结果显示临床等级，即T分期等级、Stage分期等级和Grade分级等级越高的样本，具有更高的RiskScore评分(图13)。通过比较不同分子亚型C1、C2和C3之间的RiskScore评分差异显示预后最差的分子亚型C1具有最高的RiskScore评分(图13)。此外，针对TCGA-LIHC队列中不同Stage分期、Grade分级、年龄分组和性别分组的RiskScore高风险组和低风险组之间的Kaplan-Meier曲线如图14A-D所示。以上结果均说明RiskScore分组能够良好地区别TCGA-LIHC队列临床特征，是一种可靠的分组方法。

实施例11：RiskScore分组间免疫特征和免疫治疗差异

通过分别采用CIBERSORT算法、MCP-count和TIMER算法计算免疫浸润情况从而阐明RiskScore分组间免疫微环境情况。结果显示RiskScore与大部分免疫细胞呈现显著的正相关(图15A-D)。采用ESTIMATE评估免疫细胞浸润情况，结果显示RiskScore高风险组的“ImmuneScore”显著高于低风险组(图15E)。以上结果均说明RiskScore高风险组具有较高的免疫细胞浸润。

采用TIDE(http://tide.dfci.harvard.edu/)软件评估免疫治疗在RiskScore分组中潜在的临床效应，结果显示RiskScore高风险组的TIDE评分显著高于低风险组(图16A)，提示高风险组发生免疫逃逸的可能性较高，从免疫治疗当中获益的可能性较小。接着，发明人进一步比较了RiskScore分组之间免疫检查点的表达是否存在差异。结果显示免疫检查点基因在RiskScore高风险组中高表达(图16B)。

实施例12：RiskScore分组间通路差异和基因突变特征

为了进一步观察RiskScore分组与生物学功能的关系，使用基因集富集分析(geneset enrichment analysis，GSEA)方法分析了RiskScore高风险和低风险分组中显著富集的通路，富集的通路选取的阈值为FDR<0.25。结果显示低风险组中代谢相关的通路富集较多(图17A)。

发明人选择TCGA-LIHC数据集，以h.all.v7.5.1.symbols.gmt为基因集，使用R软件包的GSVA进行ssGSEA分析，计算每个样本在不同功能上的得分即得到每个功能对应各个样本的ssGSEA富集评分，进一步计算这些通路与RiskScore的相关性，选择相关性大于0.4的通路。结果显示DNA损伤和细胞增殖相关通路与RiskScore呈现正相关，代谢相关通路与RiskScore呈负相关(图17B)。各个通路在RiskScore的分布如图17C所示。

此外，在RiskScore分组中基因TP53的变异率最高，高风险组突变率为44％，低风险组突变率为15％(图17D)。

实施例13：RiskScore结合临床病理特征进一步改善预后模型和生存预测

RiskScore和临床特征的单因素和多因素Cox回归分析显示RiskScore为显著的预后因素(p<0.001)(图18A、图18B)。为了量化患者的风险评估和生存概率，通过结合RiskScore和其它临床病理特征，建立了列线图(图18C)。根据模型结果得出RiskScore对生存率预测具有最大影响。进一步利用校准曲线评估模型的预测准确率，可以观察到1、3、5年校准点的预测校准曲线与标准曲线接近重合(图18D)，这提示了列线图具有良好的预测性能。此外发明人还使用DCA(Decision curve)评估了模型的可靠性，可以观察到RiskScore和列线图获益均明显高于极端曲线，与其它临床病理特征，如性别、年龄、Stage分期和Grade分级相比，列线图和RiskScore均表现出最强大的生存预测能力(图18E、图18F)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种肝癌的分型方法，包括如下步骤：

检测样品中与m7G相关基因的表达情况，选取与肝癌相关的m7G相关突变基因，使用算法对样本进行分型，其中所述算法为pam算法、以“pearson”作为度量距离和聚类算法。

2.根据权利要求1中的分析方法，其特征在于，所述与肝癌相关的m7G相关突变基因包括：DCP2、NUDT10、NUDT11、NUDT16、NUDT3、NUDT4、NUDT4B、AGO2、CYFIP1、DCPS、EIF4E、EIF4E1B、EIF4E2、EIF4E3、GEMIN5、LARP1、NCBP1、NCBP2、NCBP3、EIF3D、EIF4A1、EIF4G3、IFIT5、LSM1、NCBP2L、SNUPN、METTL1、NSUN2、WDR4。

3.根据权利要求1中的分析方法，其特征在于，所述算法的聚类数K为3。

4.根据权利要求1中的分析方法，其特征在于，所述肝癌被分型为C1型、C2型和C3型。

5.根据权利要求4中的分析方法，其特征在于，所述分型的判断标准为：

通过表达谱计算受试者样品与三种分型聚类中心的欧式距离，根据距离判断分型；

其中，

若受试者样品的质心与C3型聚类中心的欧式距离短于其与C2和C1的欧式距离，则受试者为肝癌C3型；

若受试者样品的质心与C2型聚类中心的欧式距离短于其与C1和C3的欧式距离，则受试者为肝癌C2型；

若受试者样品的质心与C1型聚类中心的欧式距离短于其与C2和C3的欧式距离，则受试者为肝癌C1型。

6.一种肝癌预后风险评估模型的构建方法，包括如下步骤：

1)对如权利要求4所述分型中差异化表达基因进行单因素cox分析，得到初筛的分型差异化表达基因；

4)构建风险评估模型，根据RiskScore阈值“0”将患者划进行分组，其中RiskScore阈值大于“0”的样本划分为高风险组，RiskScore小于“0”的样本为低风险组；

所述关键基因包括MEX3A、G6PD、FAM83D、SPP1和ADH4；所述风险评估模型为：

7.根据权利要求6中的构建方法，其特征在于，步骤2)中复筛的分型差异化表达基因包括：CDCA8、MEX3A、G6PD、SPP1、ADH4、PON1、CFHR3、FAM83D、ANXA10。

8.权利要求1-5中任一项所述的分型方法在肝癌患病人群划分中的应用。

9.根据权利要求8所述的应用，其特征在于，按照生存率计，C3型人群>C2型人群>C1型人群；按临床治疗效果计，C3型人群优于C2型人群优于C1型人群。

10.权利要求6-7中任一项所述的构建方法构建得到的风险评估模型在肝癌患病人群预后风险评估和生存预测中的应用。