CN111951893B

CN111951893B - 构建肿瘤突变负荷tmb面板的方法

Info

Publication number: CN111951893B
Application number: CN202010856670.9A
Authority: CN
Inventors: 谢婵; 彭亮; 吴和维; 郑杏容; 高志良
Original assignee: Third Affiliated Hospital Sun Yat Sen University
Current assignee: Third Affiliated Hospital Sun Yat Sen University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2022-11-15
Anticipated expiration: 2040-08-24
Also published as: CN111951893A

Abstract

本发明公开了构建肿瘤突变负荷TMB面板的方法，包括下列步骤：1)获取肿瘤患者的转录组数据，分为高TMB组和低TMB组；2)筛选所述高TMB组和低TMB组两组间的免疫相关差异表达基因DEGs，并进行富集分析；3)通过ImmuneCellAI进行免疫细胞浸润分析，筛选出潜在的关键免疫细胞；4)筛选出与患者预后的肿瘤免疫相关基因；5)建立不同颜色的模块和可能影响预后的免疫性状的相关矩阵；6)选择WCGNA中与巨噬细胞、DC、MAIT和浸润积分具有较好相关性的基因，初步得到TMB‑IF基因面板。本发明还提供了肿瘤突变负荷TMB面板的使用方法。本发明构建出的肿瘤突变负荷TMB面板在使用时测序成本低，对DNA输入要求低，具有更短的周转时间，可进行更深层次的测序，提高突变检测灵敏度。

Description

构建肿瘤突变负荷TMB面板的方法

技术领域

本发明涉及构建肿瘤突变负荷TMB面板的方法及其使用方法的技术。

背景技术

目前，PD-1抑制剂主要被批准用于对索拉菲尼反应不良的晚期肝癌患者的二线治疗，但是由于治疗反应不同，能够很好地预测免疫治疗效果的生物标志物仍然在寻找中。目前PD-1/PD-L1表达水平、肿瘤突变负荷(TMB)、高微卫星不稳定性(MSI-H)、肿瘤浸润性T细胞含量和中性粒细胞-淋巴细胞比率(NLR)是相对广泛接受的反映免疫治疗疗效的预测指标。不过这些指标在不同的肿瘤中其预测效能不一，在肺癌、黑色素瘤中应用较广，而在其他肿瘤中其预测性一直受到质疑。随后的研究和大多数临床试验表明，肿瘤突变负荷在预测免疫治疗的疗效方面确实有一定价值。肿瘤突变负荷高的患者更有可能在免疫治疗中获益。全外显子组测序是评价肿瘤突变负荷的金标准，但是全外显子组测序应用到临床试验有以下难点：1、样本数量有限；2、送检时间限制；3、检测结果准确性较低；4、高费用。

发明内容

为了克服现有技术的缺陷，本发明的目的是提供一种构建肿瘤突变负荷TMB面板的方法，构建出的肿瘤突变负荷面板在使用时测序成本低，对DNA输入要求低，具有更短的周转时间，可进行更深层次的测序，提高突变检测灵敏度。本发明的目的是还提供肿瘤突变负荷面板的使用方法。

本发明通过以下技术路线来实现：本发明构建肿瘤突变负荷TMB面板的方法，其特征在于，构建肿瘤突变负荷TMB面板的方法包括下列步骤：1)获取肿瘤患者的转录组数据，所述转录组是指miRNA表达的定量转录组，依据影响患者生存的最佳肿瘤突变负荷临界值，将转录组数据分为高肿瘤突变负荷组和低肿瘤突变负荷组；2)筛选步骤1)中的高肿瘤突变负荷组和低肿瘤突变负荷组两组间的免疫相关差异表达基因DEGs，并且对DEGs的基因本体进行富集分析，得到差异基因间的蛋白质相互作用PPI信息，绘制PPI网络图，并以此筛选出排名靠前的若干个节点；3)步骤1)中的高肿瘤突变负荷组和低肿瘤突变负荷组两组的转录组表达数据通过ImmuneCellAI进行免疫细胞浸润分析，并以此绘制所有免疫细胞的Kaplan-Meier生存曲线，最终筛选出潜在的关键免疫细胞；4)将步骤3)中潜在的关键免疫作为独立的免疫性状纳入到加权基因共表达网络分析WCGNA，筛选出与患者预后的肿瘤免疫相关基因；5)建立不同颜色的模块和可能影响预后的免疫性状的相关矩阵；6)选择WCGNA中与巨噬细胞、DC、MAIT和浸润积分具有统计学意义上显著性的基因，用正向和反向似然比法进行多元Cox回归筛选，初步得到肿瘤突变负荷基因面板。

筛选出15个具有统计学意义的基因：DCN、EVI2A、FPR3、DSE、FYB1、P2RY13、CSF2RB、GEM、PMP22、SLC9A9、CTSS、CYBB、VCAM1、DOCK8和SYK，构成最终的肿瘤突变负荷基因面板。

步骤2)中筛选出排名靠前的节点数为10节点。

进一步，本发明肿瘤突变负荷面板的使用方法，其特征在于，所述肿瘤突变负荷面板的使用方法包括下列步骤：1)样本采集，DNA提取和纯化；2)全基因组文库的制备与测序；3)外显子序列作图与变异检测；4)患者分组及预后分析：根据肿瘤突变负荷定义，每百万个碱基中检测到的体细胞基因编码错误总数，包括碱基替换、插入或缺失；计算肿瘤患者的突变频率和变异数/外显子长度，得到肿瘤患者肿瘤突变负荷值；按照影响患者生存的最佳肿瘤突变负荷临界值4.9，将患者分为高肿瘤突变负荷组和低肿瘤突变负荷组；同时，分析肿瘤患者的肿瘤突变负荷基因分布及免疫相关基因的体细胞突变；高肿瘤突变负荷组肿瘤患者，若伴随着肿瘤突变负荷值升高和肿瘤突变负荷浸润模型中更多的突变，则提示患者预后不佳。

所述肿瘤患者为肝癌患者。

本发明相比于现有技术，明显具有以下优点：

首先，肿瘤突变负荷面板与全外显子组测序相比测序成本更低、速度更快。全外显子组测序技术是检测一个人基因全部可能致病的基因，它检测时间长、费用高，市场价格普遍在1.5万到2万。但是，肿瘤突变负荷面板只需检测肝癌患者体细胞基因中对预后具有统计学意义的15个基因。

其次，肿瘤突变负荷面板对肝癌患者生存预后的预测优于传统的TNM(Tumor NodeMetastasis)分期。比较该肿瘤突变负荷面板和肝细胞癌TNM分期1.5年总生存率预测值，绘制ROC(Receiver Operating Characteristic Curve)曲线，计算AUC(Area Under Curve)值，得到肿瘤突变面板AUC＝0.908，TNM AUC＝0.684。

总之，本发明具有如下优势：1、测序成本更低；2、对DNA输入要求较低；3、具有更短的周转时间；4、可进行更深层次的测序，提高突变检测灵敏度。

附图说明

图1为本发明中森林图显示多元回归结果和可能纳入肿瘤突变负荷面板的基因的示意图；

图2为随访8例肝癌复发患者的突变谱图。

具体实施方式

本发明构建肿瘤突变负荷TMB面板的方法，包括下列步骤：

1)获取肿瘤患者的转录组数据，所述转录组是指miRNA表达的定量转录组，依据影响患者生存的最佳肿瘤突变负荷临界值，将转录组数据分为高肿瘤突变负荷组和低肿瘤突变负荷组；

2)筛选步骤1)中的高肿瘤突变负荷组和低肿瘤突变负荷组两组间的免疫相关差异表达基因DEGs，并且对DEGs的基因本体进行富集分析，得到差异基因间的蛋白质相互作用PPI信息，绘制PPI网络图，并以此筛选出排名靠前的若干个节点；

3)步骤1)中的高肿瘤突变负荷组和低肿瘤突变负荷组两组的转录组表达数据通过ImmuneCellAI数据库进行免疫细胞浸润分析，并以此绘制所有免疫细胞的Kaplan-Meier生存曲线，最终筛选出潜在的关键免疫细胞；

4)将步骤3)中潜在的关键免疫作为独立的免疫性状纳入到加权基因共表达网络分析WCGNA，筛选出与患者预后的肿瘤免疫相关基因；

5)建立不同颜色的模块和可能影响预后的免疫性状的相关矩阵；

6)选择WCGNA中与巨噬细胞、DC、MAIT和浸润积分具有较好相关性的基因，用正向和反向似然比法进行多元Cox回归筛选，初步得到肿瘤突变负荷基因面板。

下面以肝细胞癌肿瘤突变负荷基因面板更加详细描述。

1、肝细胞癌肿瘤突变负荷基因面板制造方法：

(1)体细胞突变，转录组，微阵列数据采集和预处理

通过GDC数据门户从公开的TCGA数据库下载(https://portal.gdc.cancer.gov/)375例LIHC患者的体细胞突变数据相应的数据。miRNA表达定量转录组分析，临床数据包括年龄、性别、肿瘤分级、病理分期、AJCCTNM分期和生存结果都被下载以进行唯一性匹配。同时，还从ICGC官方网站下载了203例来自日本的HCC患者的转录组miRNA表达文件和相关临床结果数据(https://dcc.icgc.org/)。此外，从The Gene Expression Omnibus(GEO；http://www.ncbi.nlm.nih.gov/geo/)获取验证组的GSE20017(n＝135)和GSE76427(n＝115)数据集的基因表达芯片图谱。除了系列矩阵文件外，还下载了相应的平台文件"GPL8432"和"GPL10558"。

利用R语言(The R Programming Language)"maftools"软件包可视化从TCGA下载的体细胞变体的突变注释格式(MAF)。转录组数据的唯一性匹配、ICGC的表达式绘制和GEO微阵列数据的整理都是使用Perl script(5.28版)完成的。肿瘤突变负荷被定义为每百万个碱基中检测到的体细胞基因编码错误总数，包括碱基替换、插入或缺失。计算374例TCGA肝癌患者的突变频率和变异数/外显子长度(3800万)。在肝细胞癌病人临床结果完全匹配的情况下，对这些患者的肿瘤突变负荷(TMB)值进行X-tile分析，确定影响患者生存的最佳肿瘤突变负荷临界值。然后，根据年龄和性别，在SPSS软件(Statistical Product andService Solutions)(26.0版)中对高、低肿瘤突变负荷组体细胞突变基因进行倾向评分匹配(PSM)，得到VCF格式的体细胞突变谱以进行后续分析。

(2)差异表达基因及功能富集分析

根据X-tile分析和倾向评分匹配(PSM分析)结果，将374例肝细胞癌患者的转录组数据通过R语言分为高肿瘤突变负荷组和低肿瘤突变负荷组。利用R语言"limma"软件包鉴定两组间的差异表达基因(DEGs)。为了不漏掉潜在重要的免疫相关差异基因，我们将筛选标准设为|折叠变化(FC)|>1，错误发现率(FDR)<0.05，这也有利于进一步的加权基因共表达网络分析(WCGNA)。在筛选出DEGs之后，我们用R语言"org.HS.Eg.db"、"clusterProfiler"、"enrichplot"、"ggplot2"软件包实现了差异表达基因(DEGs)的基因本体(GO)富集分析。同样，京都基因与基因组百科全书(KEGG)的差异表达基因(DEGs)途径富集分析也通过上述4r软件包实现。利用STRING在线数据库初步探讨了差异基因间的蛋白质相互作用(PPI)信息(http://string-db.org)。随后，将包含节点信息的文件导入到Cytoscape软件(3.6.1版)中，用于绘制PPI网络图。用CytohHubba plug-in在Cytoscape中筛选出排名靠前的10个基因。

(3)ImmuneCellAI与免疫细胞预后分析

在综合权衡TIMER数据库和CIBERSORT算法后，我们进一步在ImmuneCellAI数据库中进行了免疫细胞浸润分析。ImmuneCellAI在肿瘤免疫浸润估计和免疫治疗反应预测方面显示了强大而独特的功能(http://bioinfo.life.hust.edu.cn/ImmuCellAI/)。将两组的转录组表达数据提交给ImmuneCellAI，接着下载所有包含渗透免疫信息的原始矩阵。用R语言"ggpubr"软件包绘制所有箱线图，采用双侧WilCoxon秩和检验与P值比较两组间的差异。然后，用百分比法对所有免疫细胞的评分进行标准化，用R语言"ggplot2"软件包绘制一个叠图。同时，根据平均浸润分数绘制所有免疫细胞的Kaplan-Meier生存曲线，最终具有潜在性免疫细胞是：CD8+T细胞(P＝0.03)、B细胞(P＝0.05)和Tfh(P＝0.02)。使用R语言"survival"软件包，P<0.05被认为具有统计学意义。

(4)WCGNA与肿瘤免疫相关基因鉴定

筛选出潜在的关键免疫细胞后，将其作为独立的免疫性状纳入到加权基因共表达网络分析(WCGNA)。背景基因为差异表达基因，使用的R语言"WGCNA"软件包。通过pickSoftThreshold函数预测功率参数，计算多个功率的无标度拓扑拟合指数，为网络建设提供合适的软阈值功率。利用剪切动态函数对基因级聚类树进行修剪，得到共表达模块。利用R语言"WGCNA"软件包中的ModuleEigengenes函数计算各模块特征基因之间的差异。用皮尔逊相关系数分析模块与免疫性状的相关性。在模块成员数>0.8，基因显著性相关>0.4的条件下，进一步提取免疫细胞相关基因。将统计上有显著性的基因进一步纳入多元Cox回归分析，筛选与患者预后相关的基因。

(5)肿瘤突变负荷基因面板的生成与验证

采用"LR forward"和"LR backward"两种方法进行变量筛选，将多元Cox回归分析确定的独立预后因素纳入肿瘤突变负荷-浸润模型，研究0.5-、1-和1.5-总生存率(OS)的概率。计算一致性指数(C-指数)，以评估实际观测频率与肿瘤突变负荷基因面板预测概率之间的一致性，采用引导法1000次重采样。使用R语言"survivalROC"软件包，利用ROC曲线对肿瘤突变负荷基因面板预测的0.5、0.5-、1-、1.5-和3-总生存率(OS)进行比较。然后，比较肿瘤突变负荷基因面板与传统TNM分期对1.5-总生存率(OS)的预测，绘制ROC曲线，计算AUC值。其他三个验证队列(ICGC-JP、GSE76427、GSE20017)使用了与验证模型类似的方法。使用R语言"rms"软件包绘制列线图和校准图。

(6)统计分析

用Student’s t检验估计正态分布变量间差异的统计显著性，用Mann-Whitney U检验分析非正态分布变量之间的差异。定性变量采用Pearsonχ2检验或Fisher精确检验。相关分析采用Spearman和距离相关分析计算。用Kaplan-Meier法计算生存率，用对数秩检验生存曲线差异的显著性。多元分析采用Cox比例风险模型，变量滤波的方法为最大偏似然估计的似然比检验(正向：LR，向后：LR)。采用受试者工作特性曲线(ROC)分析和Harrell一致性指数(c指数)分析评价生存预测的准确性。所有的统计分析均采用R语言(The RProgramming Language)(3.6.2版)和SPSS软件(Statistical Product and ServiceSolutions)(26.0版)进行。双尾P<0.05被认为具有统计学意义。

筛选出15个具有统计学意义的基因：DCN、EVI2A、FPR3、DSE、FYB1、P2RY13、CSF2RB、GEM、PMP22、SLC9A9、CTSS、CYBB、VCAM1、DOCK8和SYK(均P<0.05)，构成最终的肿瘤突变负荷基因面板。

2、肝细胞癌肿瘤突变负荷基因面板使用方法：

(1)样本采集和DNA提取

对肝细胞癌患者进行肿瘤组织和癌旁正常组织活检。根据DNeasy血液和组织试剂盒(Qiagne，德国)制造商的说明，从组织中提取和纯化DNA。使用NanoDropND-1000分光光度计测定DNA的浓度和质量。使用0.8％琼脂糖凝胶电泳检测DNA质量。所有样本均通过严格的质量监督测试，可用于全外显子组测序。

(2)全基因组文库的制备与测序

使用Covaris技术合成库将符合条件的肿瘤基因组DNA及与之匹配的癌旁正常组织DNA片段化为200-300bp，然后将适配器连接到片段两端。提取的DNA经连接介导PCR(Polymerase Chain Reaction)扩增，纯化后与Agilent人外显子阵列杂交富集。非杂交片段被清除。所有产物均进行实时PCR以估计富集程度。最后，在HiSeq 2500平台上加载捕获的文库，并以150bp的成对端读生成每个个体的序列。根据Illumina HiSeq 2500用户手册，所有测序过程均由数据采集软件控制。

(3)外显子序列作图与变异检测

BWA(1)(Burrows–Wheeler Alignment，5.9版)软件设置默认参数，再对NCBI人类参考基因组(hg19)进行配对末端读取。然后使用Samtools 0.1.19对每个库中对齐的BAM(Burrows–Wheeler Alignment，5.9版)文件进行排序和合并。利用Flagstat工具对地图信息进行评估。使用GATK(2)(基因组分析工具包v4.0.8.1)对原始BAM(Burrows–WheelerAlignment，5.9版)比对进行局部重新校准，然后使用Picard标记重复读取。利用MuTect2检测基于BWA(Burrows–Wheeler Alignment，5.9版)比对的体细胞突变。如果符合以下标准，则称为高度可靠的体细胞单核苷酸变异：1、肿瘤和正常样本在基因组位置(≥10×)均应被充分覆盖；2、突变应至少由肿瘤总读数的5％支持，但在正常情况下应低于1％；3、肿瘤中至少有5个读数支持这些变异。然后，对插入和缺失突变进行处理：1、用GATK体细胞指数检测器预测候选体细胞指标；2、用dbSNP(147版)位点筛选出所有体细胞突变，该位点通常具有多态性，没有已知的医疗效果。最后，用ANNOVAR(3)对其余突变进行注释，以备后续分析。

(4)患者分组及预后分析

根据肿瘤突变负荷定义，每百万个碱基中检测到的体细胞基因编码错误总数，包括碱基替换、插入或缺失。计算肝癌患者的突变频率和变异数/外显子长度(3800万)，得到肝癌患者肿瘤突变负荷值。按照影响患者生存的最佳肿瘤突变负荷临界值4.9，将患者分为高肿瘤突变负荷组和低肿瘤突变负荷组。同时，分析肝癌患者的肿瘤突变负荷分布及免疫相关基因的体细胞突变。高肿瘤突变负荷组肝癌患者，若伴随着肿瘤突变负荷升高和肿瘤突变负荷浸润模型中更多的突变，则提示患者预后不佳。

本发明通过TCGA数据库获得374例HCC患者的转录组数据，经过微阵列数据采集和预处理、差异表达基因及功能富集分析、ImmuneCellAI与免疫细胞预后分析以及WCGNA(加权基因共表达网络分析)与肿瘤免疫相关基因鉴定等步骤，建立10个不同颜色的模块和10个可能影响预后的免疫性状的相关矩阵。然后，选择WCGNA中与巨噬细胞、DC、MAIT和浸润积分具有较好相关性的基因(r＝0.62，0.62，0.59，0.68；P＜0.05)，用正向和反向似然比法进行多元Cox回归筛选，初步得到TMB-IF基因面板。

根据增加的风险评分将患者分为高风险组和低风险组。用新模型重新进行Kaplan-Meier生存率分析，结果显示对患者有很好的区分(P<0.01)。为了确定肿瘤突变负荷基因面板模型的预测准确性，进行了受试者操作特性(ROC)曲线分析，结果表明曲线下面积(AUC)为0.5年生存期0.85，1年生存期0.89，1.5年生存期0.90，3年生存期0.91。此外，比较新的肿瘤突变负荷基因面板与阈值为1.5年的传统TNM分期的优越性，结果显示TNM的AUC值为0.68(0.90vs 0.68)。

为了验证肿瘤突变负荷面板的准确性，引入来自ICGC数据库的203例肝细胞癌患者进行统计分析。分析得到的生存曲线具有良好区分性(P<0.01)，1年和1.5年生存概率的校准曲线显示肿瘤突变负荷面板预测值与实际观察值之间具有最佳一致性，C指数为0.785(95％CI，0.700-0.870)。此外，来自GSE76427数据集的115例患者的生存曲线也表明肿瘤突变负荷面板模型具有良好的风险判别能力。为了进一步探讨肿瘤突变负荷面板的可扩展性，将其应用于GSE20017数据集，以研究肝细胞癌中的血管侵袭。GSE20017的ROC曲线显示AUC值为0.847(95％CI，0.778-0.916)。最终生成的肿瘤突变负荷基因面板由筛选出15个具有统计学意义的基因：DCN、EVI2A、FPR3、DSE、FYB1、P2RY13、CSF2RB、GEM、PMP22、SLC9A9、CTSS、CYBB、VCAM1、DOCK8和SYK(均P<0.05)组成。

如图1，森林图显示多元回归结果和可能纳入肿瘤突变负荷面板的基因，P<0.05被认为具有统计学意义。筛选出15个具有统计学意义的基因：DCN、EVI2A、FPR3、DSE、FYB1、P2RY13、CSF2RB、GEM、PMP22、SLC9A9、CTSS、CYBB、VCAM1、DOCK8和SYK，构成肿瘤突变负荷面板。

随访8例男性慢性乙型肝炎相关的射频消融治疗的肝癌患者，巴塞罗那临床肝癌(BCLC)分级为A～B级，肝功能Child-Pugh评分为5～7分，总体状况良好。全外显子组测序应用于8例患者肝癌组织及癌旁正常组织。统计每个样本前100个累积突变的遗传信息，单核苷酸多态性的频率高于插入或缺失，C>A在这些患者中更常见。2例复发患者的样本分析发现，复发患者中肿瘤突变负荷升高，肿瘤突变负荷浸润模型中存在更多的突变。因此提示本发明是一个良好的预后预测方法。如图2，随访8例肝癌复发患者的突变谱图：

(A)每个样本前100个基因的突变信息。底部不同的颜色和注释代表了突变的类型。

(B)变体分类、变体类型和SNV(单核苷酸变异)分类信息汇总。

(C)P7和P11复发的时间点和病变部位。

(D)肝癌患者的肿瘤突变负荷分布及免疫相关基因的体细胞突变。

计算肝癌患者肿瘤突变负荷值，按照影响肝癌患者生存的最佳肿瘤突变负荷临界值4.9，将患者分为高肿瘤突变负荷组和低肿瘤突变负荷组。同时，分析肝癌患者的肿瘤突变负荷分布及免疫相关基因的体细胞突变，如图2D。高肿瘤突变负荷组肝癌患者，若伴随着肿瘤突变负荷升高和肿瘤突变负荷浸润模型中更多的突变，则提示患者预后不佳。

本发明涉及的相关部分术语解释如下：missense_mutation错义突变；nonsense_mutation无义突变；splice_site剪接位点；missense_mutation:错义突变；frame_shift_del：移码缺失突变；nonsense_mutation：无义突变；frame_shift_ins：移码插入突变；splice_site：剪接位点；in_frame_ins：框内插入；in_frame_del：框内缺失；translation_start_site:转录起始位点；nonstop_mutation：终止密码子突变；variantclassification突变的分类；variant type突变的类型。

Claims

1.一种构建肿瘤突变负荷TMB面板的方法，其特征在于，构建肿瘤突变负荷TMB面板的方法包括下列步骤：

1)获取肿瘤患者的转录组数据，所述转录组是指miRNA表达的定量转录组，依据影响患者生存的最佳TMB临界值，将转录组数据分为高TMB组和低TMB组；

2)筛选步骤1)中的高TMB组和低TMB组两组间的免疫相关差异表达基因DEGs，并且对DEGs的基因本体进行富集分析，得到差异基因间的蛋白质相互作用PPI信息，绘制PPI网络图，并以此筛选出排名靠前的若干个节点；

3)步骤1)中的高TMB组和低TMB组两组的转录组表达数据通过ImmuneCellAI进行免疫细胞浸润分析，并以此绘制所有免疫细胞的Kaplan-Meier生存曲线，最终筛选出潜在的关键免疫细胞；

6)选择WCGNA中与巨噬细胞、DC、MAIT和浸润积分具有统计学意义上显著性的基因，用正向和反向似然比法进行多元Cox回归筛选，初步得到TMB-IF基因面板。

2.根据权利要求1所述构建肿瘤突变负荷TMB面板的方法，其特征在于，筛选出15个具有统计学意义的基因：DCN、EVI2A、FPR3、DSE、FYB1、P2RY13、CSF2RB、GEM、PMP22、SLC9A9、CTSS、CYBB、VCAM1、DOCK8和SYK，构成最终的TMB-IF面板。

3.根据权利要求1所述构建肿瘤突变负荷TMB面板的方法，其特征在于，步骤2)中筛选出排名靠前的节点数为10节点。