CN118448038A - 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 - Google Patents
一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 Download PDFInfo
- Publication number
- CN118448038A CN118448038A CN202410509225.3A CN202410509225A CN118448038A CN 118448038 A CN118448038 A CN 118448038A CN 202410509225 A CN202410509225 A CN 202410509225A CN 118448038 A CN118448038 A CN 118448038A
- Authority
- CN
- China
- Prior art keywords
- methylation
- reads
- ctdna
- cell carcinoma
- squamous cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 title claims abstract description 34
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 title claims abstract description 34
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012544 monitoring process Methods 0.000 title claims abstract description 22
- 230000000694 effects Effects 0.000 title claims abstract description 14
- 230000011987 methylation Effects 0.000 claims abstract description 65
- 238000007069 methylation reaction Methods 0.000 claims abstract description 65
- 239000000523 sample Substances 0.000 claims abstract description 26
- 238000004393 prognosis Methods 0.000 claims abstract description 14
- 238000009169 immunotherapy Methods 0.000 claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 238000007477 logistic regression Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 230000036039 immunity Effects 0.000 claims abstract description 4
- 101000782147 Homo sapiens WD repeat-containing protein 20 Proteins 0.000 claims description 30
- 108090000623 proteins and genes Proteins 0.000 claims description 29
- 206010028980 Neoplasm Diseases 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 210000004369 blood Anatomy 0.000 claims description 6
- 239000008280 blood Substances 0.000 claims description 6
- 108010034596 procollagen Type III-N-terminal peptide Proteins 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 239000002671 adjuvant Substances 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 102100030379 Acyl-coenzyme A synthetase ACSM2A, mitochondrial Human genes 0.000 claims description 3
- 238000001369 bisulfite sequencing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000002493 microarray Methods 0.000 claims description 3
- 239000002773 nucleotide Substances 0.000 claims description 3
- 125000003729 nucleotide group Chemical group 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 206010030155 Oesophageal carcinoma Diseases 0.000 abstract description 8
- 230000004044 response Effects 0.000 abstract description 8
- 238000013145 classification model Methods 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 2
- 208000017897 Carcinoma of esophagus Diseases 0.000 abstract 1
- 201000005619 esophageal carcinoma Diseases 0.000 abstract 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 7
- 201000004101 esophageal cancer Diseases 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 5
- 102100028357 ADP-ribosylation factor-like protein 8B Human genes 0.000 description 3
- 102100023823 Homeobox protein EMX1 Human genes 0.000 description 3
- 101000769042 Homo sapiens ADP-ribosylation factor-like protein 8B Proteins 0.000 description 3
- 101001048956 Homo sapiens Homeobox protein EMX1 Proteins 0.000 description 3
- 101001117509 Homo sapiens Prostaglandin E2 receptor EP4 subtype Proteins 0.000 description 3
- 101000703741 Homo sapiens Short stature homeobox protein 2 Proteins 0.000 description 3
- 101000744943 Homo sapiens Zinc finger protein 497 Proteins 0.000 description 3
- 102100024450 Prostaglandin E2 receptor EP4 subtype Human genes 0.000 description 3
- 102100031976 Short stature homeobox protein 2 Human genes 0.000 description 3
- 102100039946 Zinc finger protein 497 Human genes 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- -1 RASSF1A Proteins 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000011226 adjuvant chemotherapy Methods 0.000 description 2
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011227 neoadjuvant chemotherapy Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101150084750 1 gene Proteins 0.000 description 1
- 101150039504 6 gene Proteins 0.000 description 1
- 208000036764 Adenocarcinoma of the esophagus Diseases 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 101000756632 Homo sapiens Actin, cytoplasmic 1 Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010030137 Oesophageal adenocarcinoma Diseases 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 238000011353 adjuvant radiotherapy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000002659 cell therapy Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 208000028653 esophageal adenocarcinoma Diseases 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 208000013210 hematogenous Diseases 0.000 description 1
- 230000011132 hemopoiesis Effects 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011127 radiochemotherapy Methods 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,包括步骤:S1、对ctDNA靶向测序数据和cfMeDIP‑seq数据进行分析;S2、WGBS差异甲基化区域鉴定;S3、TCGA450K甲基化芯片差异甲基化探针鉴定;S4、cfMeDIP‑seq差异甲基化区域鉴定;S5、甲基化风险评分;S6、定义甲基化免疫指数作为评价指标,用于评价新辅助免疫治疗的预后;S7、利用Logistic Regression方法,构建多组学混合模型,从而得到模型风险打分。本发明整合多个时间点的基因组学和表观遗传学的动态特征,构建机器学习模型,预测食管鳞状细胞癌新辅助免疫治疗的反应,及评估食管癌预后的引物、探针组合及分类模型。
Description
技术领域
本发明属于癌细胞治疗监测技术领域,具体来说,涉及一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法。
背景技术
食管癌主要的组织学亚型为食管鳞状细胞癌(ESCC)。美国国家综合癌症网络指南推荐的局部晚期食管癌的标准治疗方案是新辅助放化疗加食管切除术。根据CROSS和NEOCRTEC5010研究,食管癌接受新辅助放化疗之后的复发率在30%~50%之间,尤其是远处转移。因此,改善疗效的临床需求仍未得到满足。
新辅助免疫治疗在黑色素瘤、肺癌、膀胱癌、结直肠癌等早期肿瘤中已经显示出有效的病理反应,在一定程度上改善患者的预后。新辅助免疫治疗为实时监测肿瘤反应和评估药物疗效提供了良好的机会。目前,越来越多的临床试验来评估新辅助免疫治疗对ESCC的作用。因此,准确预测患者对新辅助免疫治疗的反应是这方面的一个关键问题。
血液中的循环肿瘤DNA(ctDNA)的检测是一种非侵入性检测方法,可以多次获取,并且可以实时监测的一种微创方法,是疾病监测和评估治疗反应的一种有效手段。有临床研究结果表明,ctDNA可能在早期乳腺癌中检测分子残留病灶(MRD)和新出现的治疗耐药性(即分子复发(MR)),以及在监测晚期癌症患者的疾病进展中发挥作用。在高危早期乳腺癌中,新辅助化疗期间个性化监测ctDNA可用于评估治疗反应,帮助微调病理完全缓解,作为改善预后的替代终点。
循环游离DNA 5'端基序结合MRI肿瘤消退等级(mrTRG)可能预测局部晚期直肠癌对新辅助放化疗的反应。通过连续血浆取样对可切除食管腺癌进行纵向跟踪,发现术后ctDNA可以识别出有复发风险的患者,这些患者可以从强化辅助化疗中获益。还有一些研究对肿瘤的异常DNA甲基化进行了评估,以获得诊断或预后相关的生物标志物。然而,ctDNA在评估局部晚期ESCC患者对新辅助免疫治疗的肿瘤反应和预后中的作用尚未阐明。
发明内容
针对现有技术存在的什么问题,本发明提供了一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法。
为实现上述技术目的,本发明采用的技术方案如下:
一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,包括步骤:
S1、对ctDNA靶向测序数据和cfMeDIP-seq数据进行分析;
S2、WGBS差异甲基化区域鉴定;
S3、TCGA450K甲基化芯片差异甲基化探针鉴定;
S4、cfMeDIP-seq差异甲基化区域鉴定;
S5、甲基化风险评分;
S6、定义甲基化免疫指数作为评价指标,用于评价新辅助免疫治疗的预后;
S7、利用Logistic Regression方法,构建多组学混合模型,从而得到模型风险打分。
进一步地,步骤S1中ctDNA靶向测序数据分析:
采用Fastp软件对原始测序fastq数据做过滤,去除接头序列、poly-N序列以及低质量的reads,得到clean reads;
采用Burrows-Wheeler Aligner将clean reads比对到Ensemble GRCh37/hg19参考基因组;
采用Picard处理PCR重复,得到唯一比对的reads;
采用GenomeAnalysis Toolkit(GATK)进行局部比对和碱基再校准;
应用GATKMuTect2、VarDict和VarScan鉴定单核苷酸变异(SNVs)、小插入和缺失(Indels);
采用ANNOVAR基于多个数据库进行变异注释,包括群体频率数据库(1000G和ExAC),疾病或表型数据库(COSMIC,InterVar和ClinVar)以及变异预测工具(PolyPhen2和SIFT)。
进一步地,cfMeDIP-seq数据分析:
采用FastQC评估cfMeDIP-seq原始fastq数据质量;
采用Fastp软件去除接头序列、poly-N序列以及低质量的reads,得到cleanreads;
采用Burrows-Wheeler Aligner将clean reads比对到Ensemble GRCh37/hg19参考基因组;
利用Picardmarkduplates去除PCR重复reads;
采用MACS2软件的callpeak函数获得每个样本的峰区域。
进一步地,WGBS差异甲基化区域鉴定:
从GEO数据库中下载了ESCC肿瘤和匹配的健康组织的全基因组重亚硫酸盐测序的原始数据;
采用Fastp软件去除接头序列、poly-N序列以及低质量的reads,得到cleanreads;
使用Bismark软件将clean reads比对到Ensemble GRCh37/hg19参考基因组上,并去除PCR重复的reads;
将参考基因组拆分成300bp非重叠的窗口,每个窗口上WGBS数据的甲基化水平定义为该窗口中发生甲基化的reads总数除以发生甲基化和未发生甲基化的reads之和;
计算完每个窗口的甲基化水平之后,对窗口进行过滤,要求在至少70%的样本中其甲基化水平高于0.7或者低于0.25;
对于过滤之后的窗口,利用ROTS软件识别差异甲基化区域,作为WGBS-DMRs;
最后,共得到182,338个WGBS-DMRs。
进一步地,TCGA450K甲基化芯片差异甲基化探针鉴定:
从TCGA数据门户网站下载食管鳞状细胞癌的infinium HumanMethylation450BeadChips数据,并下载相关的临床信息;
从Gene Expression Omnibus下载了包含656个个体的450K人类全血队列的微阵列数据;
采用ChAMP软件对TCGA肿瘤与邻近正常样本或血源性正常样本进行差异甲基化分析,得到135,653个差异甲基化探针。
进一步地,cfMeDIP-seq差异甲基化区域鉴定:
在进行DMRs检测之前,先将Ensemble GRCh37/hg19版本的参考基因组拆分成300bp非重叠的窗口;
对于每一个样本,利用featureCounts计算每个bin的reads计数;
对bin做如下过滤:仅保留至少在80%样本中reads数目大于5的bin;
使用total reads数目作为library大小,计算每个bin上的RPKM;
使用ROTS方法鉴定DMRs,阈值为pvalue<0.05,得到DMRs计数数据量;
对所有DMRs做进一步的过滤。采用如下标准做进一步的过滤:(1)与WGBS的DMRs或者TCGA 450K芯片的差异甲基化探针有重叠;(2)与免疫相关基因(https://www.innatedb.com/)、ESCC driver基因或者ESCC甲基化相关基因的启动子区域完全重叠。最终,共得到13个DMRs。
进一步地,甲基化风险评分详细流程:
计算以上步骤得到的cfMeDIP-seq的DMRs区域的RPKM个数;
利用随机森林模型,在T0时间点的训练集队列中评估这些DMRs对预后效果的重要性,取top 60%作为候选DMRs区域;
在T0时间点的训练集队列中基于候选DMRs区域构建LASSO回归模型,并得到甲基化风险评分。
进一步地,甲基化免疫指数计算公式:
Meti=∑PIIP/∑NI,
PIIP表示与免疫基因启动子有重叠的峰的数目,NI为免疫基因的数目。
进一步地,对于训练集样本,T1和T0时间点甲基化风险评分的差异(ΔT1-T0Mets)和T1时间点的ctDNA状态作为输入,采用模型风险打分对患者的疗效进行预测,使用Youden指数作为风险打分的阈值;
风险打分公式如下:
公式中,α和β分别是ctDNA状态和ΔT1-T0 Mets在该混合模型中的系数,b是混合模型的截距。α、β和b分别等于47.8、48.7和-24.5。
本发明相比现有技术,具有如下有益效果:
整合多个时间点的基因组学和表观遗传学的动态特征,构建机器学习模型,预测食管鳞状细胞癌新辅助免疫治疗的反应,及评估食管癌预后的引物、探针组合及分类模型。
附图说明
图1为本发明实施例中一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法的整体流程图;
图2为本发明实施例中实验流程中性能验证示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
如图1所示,本实施例提供了一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,包括步骤:
S1、对ctDNA靶向测序数据和cfMeDIP-seq数据进行分析。
ctDNA靶向测序数据分析:
对于原始测序fastq数据,我们使用Fastp软件对数据做过滤,去除接头序列、poly-N序列以及低质量的reads(默认参数),得到clean reads。使用Burrows-WheelerAligner(BWA)将clean reads比对到Ensemble GRCh37/hg19参考基因组。使用Picard处理PCR重复,得到唯一比对的reads。使用Genome Analysis Toolkit(GATK)进行局部比对和碱基再校准。应用GATK MuTect2、VarDict和VarScan鉴定单核苷酸变异(SNVs)、小插入和缺失(Indels)。使用ANNOVAR基于多个数据库进行变异注释,包括群体频率数据库(1000G和ExAC),疾病或表型数据库(COSMIC,InterVar和ClinVar)以及变异预测工具(PolyPhen2和SIFT)。为了去除克隆性造血,对每个样本的配对白细胞也进行测序。将注释为良性和可能良性或PopFreqMax>0.005的SNVs排除。非热点区域的VAF>5‰且有至少4个高质量reads支持的非同义SNVs,驱动基因或者数据库中癌症热点区域的VAF>3‰且有至少2个高质量reads支持的突变被保留,做后续的分析。为了确保突变的可靠性,我们基于大量内部对照样本进行预处理并建立黑名单数据库,并用该黑名单数据过对上述突变做了进一步过滤。如果在血浆中检测到一个以上的变异,则认为是ctDNA阳性,否则是ctDNA阴性。以每毫升血浆单倍体基因组当量(hGE/mL)来测定血浆中ctDNA的浓度。CNVKit用于检测拷贝数变异。
cfMeDIP-seq数据进行分析:
对于cfMeDIP-seq原始fastq数据,我们使用FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)评估数据质量。采用Fastp软件去除接头序列、poly-N序列以及低质量的reads(默认参数),得到clean reads。使用Burrows-WheelerAligner(BWA)将clean reads比对到Ensemble GRCh37/hg19参考基因组(默认参数)。利用Picard markduplates(http://picard.sourceforge.net)去除PCR重复reads。然后,使用MACS2软件的callpeak函数获得每个样本的峰区域(qvalue<0.05)。
S2、WGBS差异甲基化区域鉴定;
从GEO数据库中下载了ESCC肿瘤和匹配的健康组织的全基因组重亚硫酸盐测序(WGBS)的原始数据,包括10个肿瘤样本和9个健康样本。使用Fastp软件[PMID:30423086]去除接头序列、poly-N序列以及低质量的reads(默认参数),得到clean reads。然后,使用Bismark软件将clean reads比对到Ensemble GRCh37/hg19参考基因组上,并去除PCR重复的reads。将参考基因组拆分成300bp非重叠的窗口(bin),每个bin上WGBS数据的甲基化水平定义为该bin中发生甲基化的reads总数除以发生甲基化和未发生甲基化的reads之和。计算完每个bin的甲基化水平之后,对bin进行过滤,要求在至少70%的样本中其甲基化水平高于0.7或者低于0.25。对于过滤之后的bin,利用ROTS软件识别差异甲基化区域(p<0.05),称为WGBS-DMRs。最后,共得到182,338个WGBS-DMRs。这些WGBS-DMRs用于后续的cfMeDIP-seq DMRs的过滤。
S3、TCGA450K甲基化芯片差异甲基化探针鉴定;
从TCGA数据门户网站(https://tcga-data.nci.nih.gov/tcga/)下载食管鳞状细胞癌(ESCC)的infinium HumanMethylation 450BeadChips(450K)数据(基于hg19),共包括96例肿瘤样本和16例邻近正常样本,并下载相关的临床信息。此外,我们还从GeneExpression Omnibus(GSE40279)下载了包含656个个体的450K人类全血队列的微阵列数据。采用ChAMP软件对TCGA肿瘤与邻近正常样本或血源性正常样本进行差异甲基化分析(FDR<0.05,|deltaBeta|>0.1)。最后,共得到135,653个差异甲基化探针(DMPs)。这些DMPs用于后续的cfMeDIP-seq DMRs的过滤。
S4、cfMeDIP-seq差异甲基化区域鉴定;
T0时间点的训练集队列有4例pCR和9例non-pCR患者,我们对pCR组vs non-pCR组之间进行差异甲基化区域的鉴定。在进行DMRs检测之前,先将Ensemble GRCh37/hg19版本的参考基因组拆分成300bp非重叠的窗口(bin)。对于每一个样本,利用featureCounts计算每个bin的reads计数,然后对bin做如下过滤:仅保留至少在80%样本中reads数目大于5的bin。经过滤,共保留了424,561个bin,并使用total reads数目作为library大小,计算每个bin上的RPKM。接下来,使用ROTS方法鉴定DMRs,阈值为pvalue<0.05,共得到23,297个DMRs,对于所有的这些DMRs,采用如下标准做进一步的过滤:(1)与WGBS的DMRs或者TCGA450K芯片的差异甲基化探针有重叠;(2)与免疫相关基因(https://www.innatedb.com/)、ESCCdriver基因或者ESCC甲基化相关基因的启动子区域完全重叠。最终,共得到13个DMRs。
S5、甲基化风险评分;
首先,计算以上步骤得到的13个cfMeDIP-seq的DMRs区域的RPKM,然后利用随机森林模型,在T0时间点的训练集队列中评估这些DMRs对预后效果的重要性,取top 60%作为候选DMRs区域。同样地,在T0时间点的训练集队列中基于候选DMRs区域构建LASSO回归模型,并得到甲基化风险评分(Mets)。
S6、定义甲基化免疫指数作为评价指标,用于评价新辅助免疫治疗的预后;
甲基化免疫指数(Meti),如下列公式。
Meti=∑PIIP/∑NI
PIIP表示与免疫基因启动子有重叠的峰的数目。NI为免疫基因的数目。
S7、利用Logistic Regression方法,构建多组学混合模型,从而得到模型风险打分。
对于训练集样本,T1和T0时间点甲基化风险评分的差异(ΔT1-T0 Mets)和T1时间点的ctDNA状态作为输入,利用Logistic Regression方法,构建多组学混合模型,从而得到模型风险打分,详见公式(2)。用模型风险打分对患者的疗效进行预测,使用Youden指数作为风险打分的阈值,高分认为是non-pCR,低分认为是pCR。
公式中,α和β分别是ctDNA状态和ΔT1-T0 Mets在该混合模型中的系数,b是混合模型的截距。α、β和b分别等于47.8、48.7和-24.5。
如图2所示,多重甲基化qPCR法验证结果:
分别选取13个DMR中的13个基因、12个基因、11个基因、10个基因、9个基因、8个基因、7个基因、6个基因、5个基因、4个基因、3个基因、2个基因、1个基因,组合可能情况8190种,使用不同种基因组合形式分别计算non-pCR和pCR分类模型效果。随着组合基因的减少分类性能逐渐下降,最终选取其中6个基因组合,使分类效果AUC可以维持在1。分别设计这6个DMR区域及内参基因ACTB的引物及探针,序列如下:
用以上引物组合验证15例食管癌non-pCR和12例食管癌pCR,患者的血浆得分。
实验过程如下:
使用血浆DNA提取试剂盒提取cfDNA(恺硕);
使用BS转化试剂盒进行cfDNA转化(ZYMO RESEARCH);
将转化后的DNA产物平分成两份作为模板,分别用ARL8B,SHOX2,RASSF1A,PTGER4(管1),和EMX1,ZNF497,ACTB(管2)进行多重qPCR;
将ARL8B,SHOX2,RASSF1A,PTGER4,EMX1,ZNF497 CT值分别减去ACTB CT值,得到每个基因的均一化CT值,未检出信号的基因默认CT值为45;
划分数据集:随机抽取non-pCR和pCR的70%样本作为训练集、其余30%样本作为测试集。
模型建立和优化:为建立食管癌预后模型,使用Python3的sklearn包,根据训练集进行模型构建和参数优化,LogisticRegression模型参数包括:正则化系数(C)、惩罚项(penalty)、损失函数(solver),本研究以网格搜索的方式对参数进行调优,最终参数设置为:(C=1.0,penalty=’l2’,solver=sag),模型公式为:y=0.8206-0.1756*F1+0.1135*F2+0.4061*F3-0.0951*F4-0.0837*F5-1.3159*F6。(F1:ARL8B,F2:SHOX2,F3:RASSF1A,F4:PTGER4,F5:EMX1,F6:ZNF497)
阈值确定:通过2中建立模型预测训练集样本患癌概率值和金标准结果输入ROC曲线确定最优阈值,选择约登指数最大的概率值作为模型的概率值,预测概率值为0.36时,约登指数(Youden指数)最高。
检测情况:
临床non-pCR | 临床pCR | |
分类模型non-pCR | 14 | 2 |
分类模型pCR | 1 | 10 |
结果显示分类模型效果优异,准确度达88%。
以上对本申请提供的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (9)
1.一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,包括步骤:
S1、对ctDNA靶向测序数据和cfMeDIP-seq数据进行分析;
S2、WGBS差异甲基化区域鉴定;
S3、TCGA 450K甲基化芯片差异甲基化探针鉴定;
S4、cfMeDIP-seq差异甲基化区域鉴定;
S5、甲基化风险评分;
S6、定义甲基化免疫指数作为评价指标,用于评价新辅助免疫治疗的预后;
S7、利用Logistic Regression方法,构建多组学混合模型,从而得到模型风险打分。
2.根据权利要求1所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,步骤S1中ctDNA靶向测序数据分析:
采用Fastp软件对原始测序fastq数据做过滤,去除接头序列、poly-N序列以及低质量的reads,得到clean reads;
采用Burrows-Wheeler Aligner将clean reads比对到Ensemble GRCh37/hg19参考基因组;
采用Picard处理PCR重复,得到唯一比对的reads;
采用Genome Analysis Toolkit进行局部比对和碱基再校准;
应用GATK MuTect2、VarDict和VarScan鉴定单核苷酸变异、小插入和缺失;
采用ANNOVAR基于多个数据库进行变异注释,包括群体频率数据库,疾病或表型数据库以及变异预测工具。
3.根据权利要求2所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,cfMeDIP-seq数据分析:
采用FastQC评估cfMeDIP-seq原始fastq数据质量;
采用Fastp软件去除接头序列、poly-N序列以及低质量的reads,得到clean reads;
采用Burrows-Wheeler Aligner将clean reads比对到Ensemble GRCh37/hg19参考基因组;
利用Picardmarkduplates去除PCR重复reads;
采用MACS2软件的callpeak函数获得每个样本的峰区域。
4.根据权利要求3所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,WGBS差异甲基化区域鉴定:
从GEO数据库中下载了ESCC肿瘤和匹配的健康组织的全基因组重亚硫酸盐测序的原始数据;
采用Fastp软件去除接头序列、poly-N序列以及低质量的reads,得到clean reads;
使用Bismark软件将clean reads比对到Ensemble GRCh37/hg19参考基因组上,并去除PCR重复的reads;
将参考基因组拆分成300bp非重叠的窗口,每个窗口上WGBS数据的甲基化水平定义为该窗口中发生甲基化的reads总数除以发生甲基化和未发生甲基化的reads之和;
计算完每个窗口的甲基化水平之后,对窗口进行过滤,要求在至少70%的样本中其甲基化水平高于0.7或者低于0.25;
对于过滤之后的窗口,利用ROTS软件识别差异甲基化区域,作为WGBS-DMRs。
5.根据权利要求4所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,TCGA450K甲基化芯片差异甲基化探针鉴定:
从TCGA数据门户网站下载食管鳞状细胞癌的infinium HumanMethylation450BeadChips数据,并下载相关的临床信息;
从Gene Expression Omnibus下载了包含656个个体的450K人类全血队列的微阵列数据;
采用ChAMP软件对TCGA肿瘤与邻近正常样本或血源性正常样本进行差异甲基化分析,得到135,653个差异甲基化探针。
6.根据权利要求5所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,cfMeDIP-seq差异甲基化区域鉴定:
在进行DMRs检测之前,先将Ensemble GRCh37/hg19版本的参考基因组拆分成300bp非重叠的窗口;
对于每一个样本,利用featureCounts计算每个bin的reads计数;
对bin做如下过滤:仅保留至少在80%样本中reads数目大于5的bin;
使用total reads数目作为library大小,计算每个bin上的RPKM;
使用ROTS方法鉴定DMRs,阈值为pvalue<0.05,得到DMRs计数数据量;
对所有DMRs做进一步的过滤。
7.根据权利要求6所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,甲基化风险评分详细流程:
计算以上步骤得到的cfMeDIP-seq的DMRs区域的RPKM个数;
利用随机森林模型,在T0时间点的训练集队列中评估这些DMRs对预后效果的重要性,取top 60%作为候选DMRs区域;
在T0时间点的训练集队列中基于候选DMRs区域构建LASSO回归模型,并得到甲基化风险评分。
8.根据权利要求7所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,甲基化免疫指数计算公式:
Meti=∑PIIP/∑NI,
PIIP表示与免疫基因启动子有重叠的峰的数目,NI为免疫基因的数目。
9.根据权利要求8所述的一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法,其特征在于,对于训练集样本,T1和T0时间点甲基化风险评分的差异(ΔT1-T0 Mets)和T1时间点的ctDNA状态作为输入,采用模型风险打分对患者的疗效进行预测,使用Youden指数作为风险打分的阈值;
风险打分公式如下:
risk score=α*ctDNA status+β*ΔTx-T0 Mets+b
公式中,α和β分别是ctDNA状态和ΔT1-T0 Mets在该混合模型中的系数,b是混合模型的截距。α、β和b分别等于47.8、48.7和-24.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410509225.3A CN118448038A (zh) | 2024-04-26 | 2024-04-26 | 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410509225.3A CN118448038A (zh) | 2024-04-26 | 2024-04-26 | 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118448038A true CN118448038A (zh) | 2024-08-06 |
Family
ID=92318877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410509225.3A Pending CN118448038A (zh) | 2024-04-26 | 2024-04-26 | 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118448038A (zh) |
-
2024
- 2024-04-26 CN CN202410509225.3A patent/CN118448038A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3704264B1 (en) | Using nucleic acid size range for noninvasive prenatal testing and cancer detection | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
US20230126920A1 (en) | Method and device for classification of urine sediment genomic dna, and use of urine sediment genomic dna | |
EP3973080B1 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
US20210310075A1 (en) | Cancer Classification with Synthetic Training Samples | |
EP4372751A1 (en) | Cancer detection model and construction method therefor, and reagent kit | |
CN114026254A (zh) | 侦测癌症、癌症来源组织及/或一癌症细胞类型 | |
CN112941180A (zh) | 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用 | |
CN111833963A (zh) | 一种cfDNA分类方法、装置和用途 | |
CN106156541B (zh) | 分析个体两类状态的免疫差异的方法和装置 | |
CN112397153A (zh) | 一种用于预测食管鳞癌预后的生物标志物的筛选方法 | |
CN112382341B (zh) | 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
CN110570951A (zh) | 构建乳腺癌新辅助化疗疗效分类模型的方法 | |
CN115831355A (zh) | 多癌种wgs的肿瘤早期筛查方法 | |
EP4318493A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
CN118448038A (zh) | 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 | |
CN115678999B (zh) | 标志物在肺癌复发预测中的应用和预测模型构建方法 | |
US20240170099A1 (en) | Methylation-based age prediction as feature for cancer classification | |
US20240136018A1 (en) | Component mixture model for tissue identification in dna samples | |
US20240296920A1 (en) | Redacting cell-free dna from test samples for classification by a mixture model | |
US20240312564A1 (en) | White blood cell contamination detection | |
CN117976060A (zh) | 基于外周血的基因风险评分模型构建方法 | |
CN118119718A (zh) | 利用血浆游离dna预测孕期肿瘤组织来源的模型及其构建方法 | |
WO2024020036A1 (en) | Dynamically selecting sequencing subregions for cancer classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |