CN118448038A

CN118448038A - 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法

Info

Publication number: CN118448038A
Application number: CN202410509225.3A
Authority: CN
Inventors: 段小红; 龚燕华; 李宁; 乔欧; 候颖杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-08-06

Abstract

本发明公开一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，包括步骤：S1、对ctDNA靶向测序数据和cfMeDIP‑seq数据进行分析；S2、WGBS差异甲基化区域鉴定；S3、TCGA450K甲基化芯片差异甲基化探针鉴定；S4、cfMeDIP‑seq差异甲基化区域鉴定；S5、甲基化风险评分；S6、定义甲基化免疫指数作为评价指标，用于评价新辅助免疫治疗的预后；S7、利用Logistic Regression方法，构建多组学混合模型，从而得到模型风险打分。本发明整合多个时间点的基因组学和表观遗传学的动态特征，构建机器学习模型，预测食管鳞状细胞癌新辅助免疫治疗的反应，及评估食管癌预后的引物、探针组合及分类模型。

Description

一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法

技术领域

本发明属于癌细胞治疗监测技术领域，具体来说，涉及一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法。

背景技术

食管癌主要的组织学亚型为食管鳞状细胞癌(ESCC)。美国国家综合癌症网络指南推荐的局部晚期食管癌的标准治疗方案是新辅助放化疗加食管切除术。根据CROSS和NEOCRTEC5010研究，食管癌接受新辅助放化疗之后的复发率在30％～50％之间，尤其是远处转移。因此，改善疗效的临床需求仍未得到满足。

新辅助免疫治疗在黑色素瘤、肺癌、膀胱癌、结直肠癌等早期肿瘤中已经显示出有效的病理反应，在一定程度上改善患者的预后。新辅助免疫治疗为实时监测肿瘤反应和评估药物疗效提供了良好的机会。目前，越来越多的临床试验来评估新辅助免疫治疗对ESCC的作用。因此，准确预测患者对新辅助免疫治疗的反应是这方面的一个关键问题。

血液中的循环肿瘤DNA(ctDNA)的检测是一种非侵入性检测方法，可以多次获取，并且可以实时监测的一种微创方法，是疾病监测和评估治疗反应的一种有效手段。有临床研究结果表明，ctDNA可能在早期乳腺癌中检测分子残留病灶(MRD)和新出现的治疗耐药性(即分子复发(MR))，以及在监测晚期癌症患者的疾病进展中发挥作用。在高危早期乳腺癌中，新辅助化疗期间个性化监测ctDNA可用于评估治疗反应，帮助微调病理完全缓解，作为改善预后的替代终点。

循环游离DNA 5'端基序结合MRI肿瘤消退等级(mrTRG)可能预测局部晚期直肠癌对新辅助放化疗的反应。通过连续血浆取样对可切除食管腺癌进行纵向跟踪，发现术后ctDNA可以识别出有复发风险的患者，这些患者可以从强化辅助化疗中获益。还有一些研究对肿瘤的异常DNA甲基化进行了评估，以获得诊断或预后相关的生物标志物。然而，ctDNA在评估局部晚期ESCC患者对新辅助免疫治疗的肿瘤反应和预后中的作用尚未阐明。

发明内容

针对现有技术存在的什么问题，本发明提供了一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法。

为实现上述技术目的，本发明采用的技术方案如下：

一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，包括步骤：

S1、对ctDNA靶向测序数据和cfMeDIP-seq数据进行分析；

S2、WGBS差异甲基化区域鉴定；

S3、TCGA450K甲基化芯片差异甲基化探针鉴定；

S4、cfMeDIP-seq差异甲基化区域鉴定；

S5、甲基化风险评分；

S6、定义甲基化免疫指数作为评价指标，用于评价新辅助免疫治疗的预后；

S7、利用Logistic Regression方法，构建多组学混合模型，从而得到模型风险打分。

进一步地，步骤S1中ctDNA靶向测序数据分析：

采用Fastp软件对原始测序fastq数据做过滤，去除接头序列、poly-N序列以及低质量的reads，得到clean reads；

采用Burrows-Wheeler Aligner将clean reads比对到Ensemble GRCh37/hg19参考基因组；

采用Picard处理PCR重复，得到唯一比对的reads；

采用GenomeAnalysis Toolkit(GATK)进行局部比对和碱基再校准；

应用GATKMuTect2、VarDict和VarScan鉴定单核苷酸变异(SNVs)、小插入和缺失(Indels)；

采用ANNOVAR基于多个数据库进行变异注释，包括群体频率数据库(1000G和ExAC)，疾病或表型数据库(COSMIC,InterVar和ClinVar)以及变异预测工具(PolyPhen2和SIFT)。

进一步地，cfMeDIP-seq数据分析：

采用FastQC评估cfMeDIP-seq原始fastq数据质量；

采用Fastp软件去除接头序列、poly-N序列以及低质量的reads，得到cleanreads；

利用Picardmarkduplates去除PCR重复reads；

采用MACS2软件的callpeak函数获得每个样本的峰区域。

进一步地，WGBS差异甲基化区域鉴定：

从GEO数据库中下载了ESCC肿瘤和匹配的健康组织的全基因组重亚硫酸盐测序的原始数据；

使用Bismark软件将clean reads比对到Ensemble GRCh37/hg19参考基因组上，并去除PCR重复的reads；

将参考基因组拆分成300bp非重叠的窗口，每个窗口上WGBS数据的甲基化水平定义为该窗口中发生甲基化的reads总数除以发生甲基化和未发生甲基化的reads之和；

计算完每个窗口的甲基化水平之后，对窗口进行过滤，要求在至少70％的样本中其甲基化水平高于0.7或者低于0.25；

对于过滤之后的窗口，利用ROTS软件识别差异甲基化区域，作为WGBS-DMRs；

最后，共得到182,338个WGBS-DMRs。

进一步地，TCGA450K甲基化芯片差异甲基化探针鉴定：

从TCGA数据门户网站下载食管鳞状细胞癌的infinium HumanMethylation450BeadChips数据，并下载相关的临床信息；

从Gene Expression Omnibus下载了包含656个个体的450K人类全血队列的微阵列数据；

采用ChAMP软件对TCGA肿瘤与邻近正常样本或血源性正常样本进行差异甲基化分析，得到135,653个差异甲基化探针。

进一步地，cfMeDIP-seq差异甲基化区域鉴定：

在进行DMRs检测之前，先将Ensemble GRCh37/hg19版本的参考基因组拆分成300bp非重叠的窗口；

对于每一个样本，利用featureCounts计算每个bin的reads计数；

对bin做如下过滤：仅保留至少在80％样本中reads数目大于5的bin；

使用total reads数目作为library大小，计算每个bin上的RPKM；

使用ROTS方法鉴定DMRs，阈值为pvalue<0.05，得到DMRs计数数据量；

对所有DMRs做进一步的过滤。采用如下标准做进一步的过滤：(1)与WGBS的DMRs或者TCGA 450K芯片的差异甲基化探针有重叠；(2)与免疫相关基因(https://www.innatedb.com/)、ESCC driver基因或者ESCC甲基化相关基因的启动子区域完全重叠。最终，共得到13个DMRs。

进一步地，甲基化风险评分详细流程：

计算以上步骤得到的cfMeDIP-seq的DMRs区域的RPKM个数；

利用随机森林模型，在T0时间点的训练集队列中评估这些DMRs对预后效果的重要性，取top 60％作为候选DMRs区域；

在T0时间点的训练集队列中基于候选DMRs区域构建LASSO回归模型，并得到甲基化风险评分。

进一步地，甲基化免疫指数计算公式：

Meti＝∑PIIP/∑NI，

PIIP表示与免疫基因启动子有重叠的峰的数目，NI为免疫基因的数目。

进一步地，对于训练集样本，T1和T0时间点甲基化风险评分的差异(ΔT1-T0Mets)和T1时间点的ctDNA状态作为输入，采用模型风险打分对患者的疗效进行预测，使用Youden指数作为风险打分的阈值；

风险打分公式如下：

公式中，α和β分别是ctDNA状态和ΔT1-T0 Mets在该混合模型中的系数，b是混合模型的截距。α、β和b分别等于47.8、48.7和-24.5。

本发明相比现有技术，具有如下有益效果：

整合多个时间点的基因组学和表观遗传学的动态特征，构建机器学习模型，预测食管鳞状细胞癌新辅助免疫治疗的反应，及评估食管癌预后的引物、探针组合及分类模型。

附图说明

图1为本发明实施例中一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法的整体流程图；

图2为本发明实施例中实验流程中性能验证示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

如图1所示，本实施例提供了一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，包括步骤：

S1、对ctDNA靶向测序数据和cfMeDIP-seq数据进行分析。

ctDNA靶向测序数据分析：

对于原始测序fastq数据，我们使用Fastp软件对数据做过滤，去除接头序列、poly-N序列以及低质量的reads(默认参数)，得到clean reads。使用Burrows-WheelerAligner(BWA)将clean reads比对到Ensemble GRCh37/hg19参考基因组。使用Picard处理PCR重复，得到唯一比对的reads。使用Genome Analysis Toolkit(GATK)进行局部比对和碱基再校准。应用GATK MuTect2、VarDict和VarScan鉴定单核苷酸变异(SNVs)、小插入和缺失(Indels)。使用ANNOVAR基于多个数据库进行变异注释，包括群体频率数据库(1000G和ExAC)，疾病或表型数据库(COSMIC,InterVar和ClinVar)以及变异预测工具(PolyPhen2和SIFT)。为了去除克隆性造血，对每个样本的配对白细胞也进行测序。将注释为良性和可能良性或PopFreqMax>0.005的SNVs排除。非热点区域的VAF>5‰且有至少4个高质量reads支持的非同义SNVs，驱动基因或者数据库中癌症热点区域的VAF>3‰且有至少2个高质量reads支持的突变被保留，做后续的分析。为了确保突变的可靠性，我们基于大量内部对照样本进行预处理并建立黑名单数据库，并用该黑名单数据过对上述突变做了进一步过滤。如果在血浆中检测到一个以上的变异，则认为是ctDNA阳性，否则是ctDNA阴性。以每毫升血浆单倍体基因组当量(hGE/mL)来测定血浆中ctDNA的浓度。CNVKit用于检测拷贝数变异。

cfMeDIP-seq数据进行分析：

对于cfMeDIP-seq原始fastq数据，我们使用FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)评估数据质量。采用Fastp软件去除接头序列、poly-N序列以及低质量的reads(默认参数)，得到clean reads。使用Burrows-WheelerAligner(BWA)将clean reads比对到Ensemble GRCh37/hg19参考基因组(默认参数)。利用Picard markduplates(http://picard.sourceforge.net)去除PCR重复reads。然后，使用MACS2软件的callpeak函数获得每个样本的峰区域(qvalue<0.05)。

S2、WGBS差异甲基化区域鉴定；

从GEO数据库中下载了ESCC肿瘤和匹配的健康组织的全基因组重亚硫酸盐测序(WGBS)的原始数据，包括10个肿瘤样本和9个健康样本。使用Fastp软件[PMID:30423086]去除接头序列、poly-N序列以及低质量的reads(默认参数)，得到clean reads。然后，使用Bismark软件将clean reads比对到Ensemble GRCh37/hg19参考基因组上，并去除PCR重复的reads。将参考基因组拆分成300bp非重叠的窗口(bin)，每个bin上WGBS数据的甲基化水平定义为该bin中发生甲基化的reads总数除以发生甲基化和未发生甲基化的reads之和。计算完每个bin的甲基化水平之后，对bin进行过滤，要求在至少70％的样本中其甲基化水平高于0.7或者低于0.25。对于过滤之后的bin，利用ROTS软件识别差异甲基化区域(p<0.05)，称为WGBS-DMRs。最后，共得到182,338个WGBS-DMRs。这些WGBS-DMRs用于后续的cfMeDIP-seq DMRs的过滤。

S3、TCGA450K甲基化芯片差异甲基化探针鉴定；

从TCGA数据门户网站(https://tcga-data.nci.nih.gov/tcga/)下载食管鳞状细胞癌(ESCC)的infinium HumanMethylation 450BeadChips(450K)数据(基于hg19)，共包括96例肿瘤样本和16例邻近正常样本，并下载相关的临床信息。此外，我们还从GeneExpression Omnibus(GSE40279)下载了包含656个个体的450K人类全血队列的微阵列数据。采用ChAMP软件对TCGA肿瘤与邻近正常样本或血源性正常样本进行差异甲基化分析(FDR<0.05，|deltaBeta|>0.1)。最后，共得到135,653个差异甲基化探针(DMPs)。这些DMPs用于后续的cfMeDIP-seq DMRs的过滤。

S4、cfMeDIP-seq差异甲基化区域鉴定；

T0时间点的训练集队列有4例pCR和9例non-pCR患者，我们对pCR组vs non-pCR组之间进行差异甲基化区域的鉴定。在进行DMRs检测之前，先将Ensemble GRCh37/hg19版本的参考基因组拆分成300bp非重叠的窗口(bin)。对于每一个样本，利用featureCounts计算每个bin的reads计数，然后对bin做如下过滤：仅保留至少在80％样本中reads数目大于5的bin。经过滤，共保留了424,561个bin，并使用total reads数目作为library大小，计算每个bin上的RPKM。接下来，使用ROTS方法鉴定DMRs，阈值为pvalue<0.05，共得到23,297个DMRs，对于所有的这些DMRs，采用如下标准做进一步的过滤：(1)与WGBS的DMRs或者TCGA450K芯片的差异甲基化探针有重叠；(2)与免疫相关基因(https://www.innatedb.com/)、ESCCdriver基因或者ESCC甲基化相关基因的启动子区域完全重叠。最终，共得到13个DMRs。

S5、甲基化风险评分；

首先，计算以上步骤得到的13个cfMeDIP-seq的DMRs区域的RPKM，然后利用随机森林模型，在T0时间点的训练集队列中评估这些DMRs对预后效果的重要性，取top 60％作为候选DMRs区域。同样地，在T0时间点的训练集队列中基于候选DMRs区域构建LASSO回归模型，并得到甲基化风险评分(Mets)。

甲基化免疫指数(Meti)，如下列公式。

Meti＝∑PIIP/∑NI

PIIP表示与免疫基因启动子有重叠的峰的数目。NI为免疫基因的数目。

对于训练集样本，T1和T0时间点甲基化风险评分的差异(ΔT1-T0 Mets)和T1时间点的ctDNA状态作为输入，利用Logistic Regression方法，构建多组学混合模型，从而得到模型风险打分，详见公式(2)。用模型风险打分对患者的疗效进行预测，使用Youden指数作为风险打分的阈值，高分认为是non-pCR，低分认为是pCR。

如图2所示，多重甲基化qPCR法验证结果：

分别选取13个DMR中的13个基因、12个基因、11个基因、10个基因、9个基因、8个基因、7个基因、6个基因、5个基因、4个基因、3个基因、2个基因、1个基因，组合可能情况8190种，使用不同种基因组合形式分别计算non-pCR和pCR分类模型效果。随着组合基因的减少分类性能逐渐下降，最终选取其中6个基因组合，使分类效果AUC可以维持在1。分别设计这6个DMR区域及内参基因ACTB的引物及探针，序列如下：

用以上引物组合验证15例食管癌non-pCR和12例食管癌pCR，患者的血浆得分。

实验过程如下：

使用血浆DNA提取试剂盒提取cfDNA(恺硕)；

使用BS转化试剂盒进行cfDNA转化(ZYMO RESEARCH)；

将转化后的DNA产物平分成两份作为模板，分别用ARL8B,SHOX2,RASSF1A,PTGER4(管1)，和EMX1,ZNF497,ACTB(管2)进行多重qPCR；

将ARL8B,SHOX2,RASSF1A,PTGER4,EMX1,ZNF497 CT值分别减去ACTB CT值，得到每个基因的均一化CT值，未检出信号的基因默认CT值为45；

划分数据集：随机抽取non-pCR和pCR的70％样本作为训练集、其余30％样本作为测试集。

模型建立和优化：为建立食管癌预后模型，使用Python3的sklearn包，根据训练集进行模型构建和参数优化，LogisticRegression模型参数包括：正则化系数(C)、惩罚项(penalty)、损失函数(solver)，本研究以网格搜索的方式对参数进行调优，最终参数设置为：(C＝1.0，penalty＝’l2’,solver＝sag)，模型公式为：y＝0.8206-0.1756*F1+0.1135*F2+0.4061*F3-0.0951*F4-0.0837*F5-1.3159*F6。(F1:ARL8B,F2:SHOX2,F3:RASSF1A,F4:PTGER4,F5:EMX1,F6:ZNF497)

阈值确定：通过2中建立模型预测训练集样本患癌概率值和金标准结果输入ROC曲线确定最优阈值，选择约登指数最大的概率值作为模型的概率值，预测概率值为0.36时，约登指数(Youden指数)最高。

检测情况：

	临床non-pCR	临床pCR
			分类模型non-pCR	14	2
分类模型pCR	1	10

结果显示分类模型效果优异，准确度达88％。

以上对本申请提供的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，包括步骤：

S1、对ctDNA靶向测序数据和cfMeDIP-seq数据进行分析；

S2、WGBS差异甲基化区域鉴定；

S3、TCGA 450K甲基化芯片差异甲基化探针鉴定；

S4、cfMeDIP-seq差异甲基化区域鉴定；

S5、甲基化风险评分；

2.根据权利要求1所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，步骤S1中ctDNA靶向测序数据分析：

采用Picard处理PCR重复，得到唯一比对的reads；

采用Genome Analysis Toolkit进行局部比对和碱基再校准；

应用GATK MuTect2、VarDict和VarScan鉴定单核苷酸变异、小插入和缺失；

采用ANNOVAR基于多个数据库进行变异注释，包括群体频率数据库，疾病或表型数据库以及变异预测工具。

3.根据权利要求2所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，cfMeDIP-seq数据分析：

采用FastQC评估cfMeDIP-seq原始fastq数据质量；

采用Fastp软件去除接头序列、poly-N序列以及低质量的reads，得到clean reads；

利用Picardmarkduplates去除PCR重复reads；

采用MACS2软件的callpeak函数获得每个样本的峰区域。

4.根据权利要求3所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，WGBS差异甲基化区域鉴定：

对于过滤之后的窗口，利用ROTS软件识别差异甲基化区域，作为WGBS-DMRs。

5.根据权利要求4所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，TCGA450K甲基化芯片差异甲基化探针鉴定：

6.根据权利要求5所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，cfMeDIP-seq差异甲基化区域鉴定：

对于每一个样本，利用featureCounts计算每个bin的reads计数；

使用total reads数目作为library大小，计算每个bin上的RPKM；

对所有DMRs做进一步的过滤。

7.根据权利要求6所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，甲基化风险评分详细流程：

计算以上步骤得到的cfMeDIP-seq的DMRs区域的RPKM个数；

8.根据权利要求7所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，甲基化免疫指数计算公式：

Meti＝∑PIIP/∑NI，

9.根据权利要求8所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法，其特征在于，对于训练集样本，T1和T0时间点甲基化风险评分的差异(ΔT1-T0 Mets)和T1时间点的ctDNA状态作为输入，采用模型风险打分对患者的疗效进行预测，使用Youden指数作为风险打分的阈值；

风险打分公式如下：

risk score＝α*ctDNA status+β*ΔTx-T0 Mets+b