CN112992354B

CN112992354B - 一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统

Info

Publication number: CN112992354B
Application number: CN202110275345.8A
Authority: CN
Inventors: 梁莉; 王蔚; 蓝孝亮; 丁彦青; 张学聪
Original assignee: Southern Medical University
Current assignee: Southern Medical University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2024-01-19
Anticipated expiration: 2041-03-15
Also published as: CN112992354A

Abstract

本发明涉及一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统，具体公开了一种结直肠癌转移和或复发风险监测的方法，包含以下步骤：S1)形成训练集数据库；S2)采用随机森林模型对训练集数据库中的数据进行训练，获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系以及关联模型S3)以待测预测患者的的ctDNA甲基化区块(block)的甲基化信号值为输入值，通过关联模型预测其复发进展风险。本发明的预测模型能无创、敏感、快捷地预测CRC的进展，实现CRC患者根治术后的进展风险监测，指导临床优化治疗方案，提高患者生存率和生活质量。

Description

一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统

技术领域

本发明属于生物信息学领域，具体涉及基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统。

背景技术

结直肠癌(Colorectal cancer,CRC)患者死亡的主要原因是肿瘤复发和转移。目前Ⅲ期CRC的主要治疗手段是肿瘤根治切除术辅助以CapeOX(卡培他滨+奥沙利铂)或FOLFOX(奥沙利铂、氟尿嘧啶和亚叶酸钙)为基础的化学治疗，但综合治疗后的CRC患者仍约有30％-50％复发。如果这些综合治疗未受益或出现进展的患者能进行风险预测并及时调整治疗方案(如二次手术切除、靶向治疗或免疫治疗)，则有望提高患者的总体生存率和生活质量。然而，目前尚缺乏无创、有效的检测手段筛选Ⅲ期CRC复发转移风险高的患者亚组，以指导CRC的临床精准诊疗。

目前，结直肠癌术后复发和转移监测的主要手段是血清CEA和影像学检查。影像检查可能会出现结论不确切、制定新治疗方案延迟以及造影剂暴露等潜在副作用，且不能早期发现隐匿病灶。CEA对CRC复发转移风险预测的敏感性和特异性也十分有限，以至于许多复发事件发现时已为时过晚，仅10％-20％的异时转移得以根治性治疗。因此，迫切需要开发高效、灵敏的血液标记物，实现CRC患者的早期复发风险评估和动态监测。

基于血浆中循环肿瘤细胞(Circulating tumor cell，CTC)、循环肿瘤DNA(Circulating tumor DNA，ctDNA)及外泌体检测的“液体活检”已被证实可用于肿瘤的早期筛查、复发转移监测和预后评估等。与传统的组织活检相比，该技术具有创伤小、可重复取材、可实现实时和动态监测和不受肿瘤内部异质性影响等优点。目前市场使用最广泛的ctDNA突变检测是基于数字PCR和突变阻滞扩增系统(Amplification refractorymutation system,ARMS)的技术，它们无法克服其低通量和不能检测未知突变的弊端，且DNA突变位点和类型在治疗过程中常发生改变。对于无法进行验证的复发患者的突变，需利用二代测序技术(Next generation sequencing,NGS)发现新的患者特异性突变，昂贵且耗时，难以在临床工作中推广应用。

血浆ctDNA甲基化检测监测肿瘤复发和转移的优势

DNA甲基化检测比体细胞突变更有优势：1)更高的临床灵敏性和动态范围；2)DNA中存在多个甲基化靶向区域；3)每个靶向基因组区域内多个CpG位点同时甲基化。更为重要的是同一类型肿瘤的体细胞突变差异很大，但甲基化模式却非常一致。因此，ctDNA甲基化检测用于癌症诊断和复发风险评估更为可靠。2014年，FDA批准血浆Septin9基因甲基化检测(Epi proColon)应用于CRC的早筛，识别CRC高风险人群。Garlan等发现WIF1和NPY甲基化联合监测KRAS/BRAF/TP53转移性结直肠癌(Metastatic colorectal cancer,mCRC)患者的准确率为69.2％。Garrigou等联合血浆WIF1和NPY甲基化可检测到80％的mCRC和45％的局限性CRC。Barault等也提出包含EYA4、GRIA4、ITGA4、MAP3K14-AS1和MSC的5基因甲基化标签能监测mCRC患者的肿瘤负荷。单个标记物监测转移的阳性率约为65％，但5基因panel联合检测的阳性率提高至86％。然而，当前对ctDNA甲基化的研究大都是基于甲基化特异PCR或数字PCR对单个基因或几个基因甲基化的定量分析，敏感性和稳定性欠佳。徐瑞华等建立了高效敏感的肝细胞肝癌诊断和预后预测ctDNA甲基化模型，为开展ctDNA甲基化在肿瘤的早期诊断和预后评估等研究开辟了新思路。

发明内容

本发明为克服现有技术的不足，提供一种基于高通量靶向甲基化检测和分析方法，预测结直肠癌远处转移和Ⅲ期转移复发风险的ctDNA甲基化模型。

本发明一个方面提供了一种结直肠癌转移和或复发风险监测的方法，所述方法包含以下步骤：

S1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块(mblock)的甲基化信号值以及对应样本的无复发生存期信息，形成训练集数据库；

S2)采用随机森林模型对步骤S1)中的训练集数据库中的数据进行训练，获得结直肠癌患者血浆样本的ctDNA甲基化区块(block)的甲基化信号值与对应样本的无复发生存期信息之间的映射关系以及关联模型；所述关联模型以5个ctDNA甲基化区块(block)的甲基化信号值为特征，所述5个ctDNA甲基化区块(block)包括cg20506550、cg04865180、cg12537168、cg11977686和cg19776201；

S3)以待测预测患者的的ctDNA甲基化区块(block)的甲基化信号值为输入值，通过关联模型预测复发进展风险。

在一个具体实施例中，在步骤S2)中，5个ctDNA甲基化区块(block)通过以下方法筛选：

S211)以训练集数据库中的血浆样本中结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值的集合作为特征集合，使用Python的sklearn包建立随机森林模型，然后根据特征对应的权重进行降序排序，同时用obb score来评定模型性能；

S212)按照一定删除比例，从特征组合中进行删除权重排名最低的一个或几个特征，得到新的特征组合；所述删除比例为每次删除1-3个特征；

S213)用新的特征组合再次建立新的随机森林模型，依据每个特征权重再次对其进行降序排序，并获得obb score来评估新的模型；

S214)重复步骤S212)和S123)，直至特征组合只剩下1个特征；

S215)每个特征组合都对应到一个随机森林模型，选择obb score最高的特征组合作为最后特征组合；

S216)重复S211)至S215)全部步骤80-120次，从每次得到的最后特征组合中选取出现次数≥90的特征，得到预测特征组合，即用于预测的ctDNA甲基化区块的组合。

在一个具体实施例中，训练集数据库中的结直肠癌患者血浆样本来自于ⅠII期和IV期的结直肠癌患者。

在一个具体实施例中，无复发生存期为从结直肠癌手术之日到经过验证的第一次放射学复发或由于结直肠癌导致的死亡，为无复发生存期。

在一个具体实施例中，所述第一次放射学复发选自局部复发或远处转移。

在一个具体实施例中，步骤S2)中还包括采用GridSearch CV方法选取对随机森林模型2-4个参数进行调整的步骤；优选地，针对不同的参数组合，用得到的无复发生存期信息的准确度来对每个参数组合进行评估，从中筛选最优的参数组合，用于最终模型的建立。

在一个具体实施例中，甲基化信号值为甲基化比例，如公式(1)所示，

在一个具体实施例中，在步骤S211)中，ctDNA甲基化区块的甲基化信号值的集合为第一甲基化区块集合，所述第一甲基化区块集合通过以下方法筛选：

S2111)从一期二期和三期四期肠癌血浆标本按3:1比例随机抽取独立样本进行T检验，其中；重复t-test 100次；同时进行肠癌组织和正常肠粘膜甲基化数据的独立样本T-检验；血液100次筛选结果中抽取重复次数≥80次的甲基化位点；与组织T检验结果取交集，得到第一甲基化位点的集合；

S2112)TCGA数据库下载结直肠癌和正常肠粘膜的转录本数据，对结直肠癌与正常肠黏膜做T检验；选择在肠癌组织中下调表达的基因作为第一基因组合；

S2113)选择在步骤S2111)中获得的第一甲基化位点对应的基因在步骤S2112)中第一基因组合中的下调表达的基因出现过的甲基化位点，并组装成第一甲基化区块集合。

在一个具体实施例中，甲基化信号值通过以下方法获得，采用靶向富集和高通量测序的方法对基因组DNA和ctDNA进行靶向甲基化检测；优选地，采用10K甲基化芯片，所述10k甲基化芯片是基于TCGA甲基化数据库中＞10000例肿瘤甲基化数据库。

本发明另一个方面提供了一种结直肠癌转移和或复发风险的预测系统，所述系统包含以下模块：

1)血浆处理模块，该模块包括通过血浆获得ctDNA；

2)亚硫酸氢盐转化模块，通过该模块能够实现ctDNA的亚硫酸氢盐转化；

3)甲基化测序模块，通过该模块能够对亚硫酸氢盐转化的ctDNA上甲基化程度进行检测；

4)数据分析模块，通过该模块能够对甲基化测序模块获得的数据进行分析，判断结直肠癌转移和或复发风险；

其中数据分析模块包括训练模块和预测模块，所述训练模块用于搭建随机森林模型，输入来源于结直肠癌患者血浆样本的ctDNA甲基化区块(mblock)的甲基化信号值以及对应样本的无复发生存期信息；通过训练模型学习得直肠癌患者血浆样本的ctDNA甲基化区块(mblock)的甲基化信号值与对应样本的无复发生存期信息之间映射关系，并对模型参数进行调整，选择最优的参数，获得预测模型；所述预测模块用于根据训练模块获得的预测模型。

本发明再一个方面提供了计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现上述方法的步骤。

在本发明的技术方案中，所述的结直肠癌转移和或复发风险指III期结直肠癌转移和或复发风险。

本发明再一个方面提供了一种用于预测结直肠癌转移和复发风险的甲基化面板(panel)，所述面板中具有以下ctDNA甲基化区块(block)：cg20506550(SFMBT2)、cg04865180(SGCG)、cg12537168(ZNF568)、cg11977686(ZNF671)和cg19776201(ZNF132)。

本发明再一个方面提供了一种预测结直肠癌转移和复发风险的试剂盒，所述试剂盒包含上述的甲基化面板。

本发明再一个方面提供了一种预测结直肠癌转移和复发风险的试剂盒，所述试剂盒包含检测以下ctDNA甲基化标志物的试剂：所述ctDNA甲基化差异区域(block)为由cg20506550(SFMBT2)、cg04865180(SGCG)、cg12537168(ZNF568)、cg11977686(ZNF671)和cg19776201(ZNF132)组成的组。

本发明再一个方面提供了上述试剂盒或预测系统或计算机可读存储介质在结直肠癌转移、复发的预测或动态监测诊断中的应用。

有益效果

1)本发明通过对血浆ctDNA进行高通量靶向甲基化测序和生信分析，建立了评估结直肠癌复发转移风险和动态监测的预测模型，该模型可以无创、敏感、快捷地-对Ⅲ期CRC患者根治术后的进展(复发)风险进行监测，指导临床优化治疗方案，提高患者生存率和生活质量。

2)多因素分析示本发明的ctDNA甲基化预测模型是Ⅲ期患者复发风险的独立危险因素，提高了本发明的可用性。

3)该发明可同时监测CRC患者的病情进展及治疗反应，敏感性优于影像学检查和血清CEA。

附图说明

图1为无监督聚类分析示2437个DMLs位于正常肠粘膜与肠癌间差异最显著的区域，IV期原发灶与转移灶间甲基化信号亦高度一致(1A)；CRC原发灶及转移灶间未鉴定出显著差异的CpG甲基化位点(1B和1C)；配对样本相关性分析示原发灶与转移灶间的甲基化信号高度相关(1D)。

图2为血浆中1185个DMLs在健康人群与Ⅰ-IV期CRC患者间的无监督聚类热图。

图3为无监督聚类分析示5个差异甲基化标志物在训练集(A)和验证集(B)中均可区分早期和晚期肠癌。列：每一位患者，列：一个甲基化标志物；转移预测模型在训练集(C)和验证集(D)中的ROC曲线和相应的AUC曲线下面积。

图4为无监督聚类分析示5个甲基化标志物的转移预测模型在Ⅲ期CRC中的热图(A)；CEA和复发预测模型在Ⅲ期CRC中的ROC曲线及相应的AUC曲线下面积比较。

图5为模型高风险CRC患者复发风险显著增加(HR，18.7；95％CI，5.7-61.1，P＜.00001)；术前CEA及术后血清CEA高者复发风险亦增加(HR 2.6，95％ CI:0.998-6.77，P＝0.0507)和(HR 3.04，95％CI:1.06-8.67，P＝0.038)

图6为4例CRC患者连续血浆标本CEA和ctDNA甲基化模型的动态监测，模型具有监测疾病进展和治疗反应的能力，且敏感性优于CEA。(PD:肿瘤进展；PR:部分反应；SD:病情稳定；chemo：化疗)。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明一些具体是实施方案中，通过对大规模配对结直肠癌组织和血浆样品的平行测序，结合严格的统计分析处理，利用高通量DNA靶向甲基化测序技术及独立样本T-test、随机森林模型及交叉验证等多种生信分析建立了含5个甲基化标志物的CRC远处转移预测模型区分早期(Ⅰ/II期)和晚期(IV期)CRC，在验证队列中该模型诊断晚期肠癌达到84.21％的敏感性；50例Ⅲ期CRC患者转移监测模型显示16例呈复发高风险，随访16例患者有14例出现复发或远处转移，其中11例进展为IV期后5-11个月死亡，而预测模型呈低风险的34例患者中仅2例出现肿瘤进展，该转移预测模型预测Ⅲ期CRC进展的敏感性达87.5％，特异性达94.12％。生存曲线分析显示转移预测模型高风险Ⅲ期患者的预后差(HR，18.7；95％CI，5.3-66.2；P＜.00001)，3年RFI仅为13.3％(95％CI，3.6％-48％)，而模型呈低风险患者3年RFI达91.4％(95％CI，82％-100％)，显著优于血清CEA(预测Ⅲ期CRC转移复发风险的敏感性仅56.2％)。表明该甲基化模型可实现Ⅲ期CRC患者根治术后的进展(复发)风险监测，指导临床优化治疗方案，提高患者生存率和生活质量。多因素分析示ctDNA甲基化风险预测模型是Ⅲ期患者复发风险的独立危险因素(HR,18.9；95％ CI,5.14-69.7；P＝9.86e^-6)。而且，研究已经证实本发明中包含的5个甲基化标志物是肿瘤诊断及预后判断有用的标志物。有望成为肿瘤治疗的标志物靶点。

综上，基于高通量靶向测序建立的含有5个甲基化标签的c进展预测模型可实现Ⅲ期CRC的转移复发风险评估，监测CRC肿瘤进展的敏感性达87.5％，特异性达94.12％。生存曲线分析显示Ⅲ期患者进展预测模型高风险者预后差(HR，18.7；3年RFI 13.3％vs91.4％)，连续血标本的监测显示该模型可提前监测到疾病进展和治疗反应，敏感性优于CEA和影像检查。因此，该模型可用于(1)对Ⅲ期CRC患者行复发风险分层，提醒临床医生针对性地调整治疗方案，改善患者预后。(2)有效地监测肿瘤负荷的动态变化，评估辅助治疗的有效性；(3)对于辅助治疗无明显反应的患者可及时调整治疗策略；(4)对临床上影像不能明确的远处转移灶，ctDNA甲基化预测模型可术前协助临床医生进行肿瘤分期，是对影像检查和CEA的有益补充。

实施例1组织及血浆样品的收集：

(1)福尔马林固定石蜡包埋组织(Formaldehyde-fixed and paraffin embeddedtissues，FFEP)标本191例和血浆标本263例，标本来自南方医院和南部战区总医院病理科和普通外科。

FFEP组织：正常肠粘膜52例(肿瘤周围＞1cm外肠粘膜)和139例结直肠癌组织(Ⅰ期27例、II期30例，Ⅲ期33例、IV期原发灶35例，IV期远处转移灶40例)；其中IV期原发灶和转移灶配对样本25例。男性患者86人、女性53人，平均58岁(25～79岁)。选取肿瘤组织占比30％以上的组织块，切片厚度5～6μm，切6～8张，捞片贴于处理过的干净防脱载玻片上，对准HE切片肿瘤的位置和范围将肿瘤组织圈出后以备DNA提取刮片用。

血浆：CRC患者血浆共219份，男性136人，女性83人，平均58岁(25～83岁)，Ⅰ、II、Ⅲ和IV期分别41、55、50和73例；正常对照人群40人，男性22人，女性18人，平均51岁(27～73岁)。

(2)取血及血浆分离要求Ⅰ-IV期结直肠癌患者血液，术前或放化疗前1-3天取血；清晨空腹采血并存放至4℃冰箱；取血后2-3小时内两步离心法实现血浆分离后储存于-80℃冰箱待用。

(3)组织DNA(Genomic DNA,gDNA)和血浆cfDNA(Cell-free DNA，cfDNA)提取

组织gDNA提取根据QIAamp石蜡组织DNA提取试剂盒(Qiagen,Cat#56404)说明书进行操作。运用Covaris M220超声波破碎仪打碎成200bp左右的DNA片段，取100ng打断后的DNA片段进行文库构建；血浆cfDNA提取根据QIAamp游离核酸提取试剂盒(Qiagen,Cat#55114)说明书进行操作；进一步利用Bioo NextPrep-MagTMcfDNA分离试剂盒进行cfDNA的分离和捕获；利用QubitTMdsDNA HS Assay Kit(Thermo Fisher Scientific,Cat#Q32854)测定cfDNA浓度；Agilent High Sensitivity DNA Kit(Cat#5067-4626)检测cfDNA质量和完整度。Qubit dsDNA定量cfDNA产量＞3ng，Agilent 2100质检cfDNA在100-300bp内的分子数≥1000pmol/l，且100-300bp主峰占比≥30％，cfDNA平均片段大小170bp-190bp之间，且无基因组DNA污染的血浆标本定义为合格，可用于文库构建。

实施例2亚硫酸氢盐转化

亚硫酸盐转化根据EZ DNA甲基化修饰试剂盒((Cat#D5031,Zymo Research)说明书进行亚硫酸盐转化。

实施例3基准医疗IRIS^TM靶向甲基化测序

AnchorIRIS^TM预文库构建采用Anchor Dx EpiVisio^TM甲基化预文库构建试剂盒(Anchor Dx,Cat#A0UX00019)和EpiVisio^TM indexing PCR试剂盒(Anchor Dx,Cat#A2DX00025)进行预文库构建。随后使用IPB1磁珠纯化扩增预文库，Qubit ^TM dsDNA HS测定试剂盒检测预文库浓度。预文库中DNA含量超过400ng可进一步行靶向富集。

AnchorIRIS^TM靶向富集基准医疗公司EpiVision^TM靶向DNA富集试剂盒(AnchorDx,Cat#A0UX00031)对预文库中的DNA进行高效的液相捕获以富集靶向区域。选用10K甲基化panel含9921个癌症特异性甲基化的预选区域，最终获得富集后的终文库。10K panel是基于TCGA甲基化数据库中＞10000例肿瘤甲基化数据库，涵盖食管癌、肺癌、乳腺癌、胰腺癌、胃癌、结直肠癌及肝癌等20个癌种，35个病理亚型中筛选出14万余个肿瘤特异的甲基化位点，包括9921个针对癌症特异性甲基化而富集的预选区域)，将包含多达4个预库的总共1000ng DNA汇集起来用于靶向富集。然后将探针添加到每个预文库池中，按照制造商的说明书，将其快速转移至热循环仪中进行杂交培养。

杂交后，使用链霉亲和素偶联的Dynabeads M270磁珠(Thermo FisherScientific，Cat#65306)将与生物素化探针结合的DNA预文库捕获下来。使用KAPA HiFiHotStart Ready Mix(KAPA Biosystems，目录号KK2602)，使用P5和P7引物进一步扩增富集的文库：1个周期：98℃，45s；98℃，15s+60℃，30s和72℃，30s共12个周期，以及1个周期：72℃，1min。然后用Agencourt AMPure XP Magnetic Beads(Beckman Coulter，Cat#A63882)纯化PCR产物，并在40μL EB缓冲液中洗脱。使用Qubit dsDNA HS测定法确定终文库浓度。

高通量测序高通量测序平台为Illumina HiSeq 2500，测序深度为3000X；

实施例4靶向甲基化测序数据分析程序的开发

①质量控制与DNA甲基化比对

使用Trim Galore 0.4.1版本(https://github.com/Felix Krueger/TrimGalore)从原始测序数据中剪裁了测序接头和3'-低质量碱基。然后使用bismark(Version0.16.3)软件在Linux下进行比对操作。这里bismark所调用的是bowtie2比对软件，使用版本为hg19的参考基因组并先建立了index用于后面的分析，然后进行了read和基因组的mapping操作，其后提取每个样本对应的甲基化信息，得到了所有样本各自对应比对到的CpG位置及其甲基化比例。

②甲基化信号值的确定

用甲基化比例来作为每个CpG位点的甲基化信号值，如公式(1)所示。对于reads小于50的甲基化标志物，输出同一分期CRC或正常对照人群的平均甲基化值。

公式(1)：甲基化信号值计算方法

③利用甲基化相关的Block(methylation block，mBlock)建立转移及复发风险监测模型

因为甲基转移酶或脱甲基酶可同时修饰同一DNA链中的相邻CpG位点，类似于DNA中相邻单核苷酸多态性的单倍型模块的概念，这些相邻的CpG甲基化片段增加了确定等位基因甲基化状态的准确性，称为甲基化区块(methylation block，mBlock)。其定义：1)相邻两个位点距离＜200bp；2)每个block至少含3个CpG甲基化位点；3)两相邻位点Pearson’s系数γ²≥0.5。

实施例5转移及复发预测模型的建立

①差异甲基化位点的筛选从早期(I,II期)和晚期(IV)肠癌血浆标本(分别为97例和73例)按3:1比例随机抽取128例行独立样本T检验(P≤0.00005，均值差＞0.15)，重复t-test 100次。同时进行肠癌组织和正常肠粘膜甲基化数据(P≤0.00001，均值差＞0.23)的独立样本T-检验。血液100次筛选结果中抽取重复次数≥80次的甲基化位点有1185个，与组织T检验结果(2437个DMLs)取交集，得到768个甲基化位点；为了减少和选择有功能的甲基化位点，TCGA数据库下载结直肠癌和正常肠粘膜的转录本数据[TCGA colonadenocarcinama(COAD)gene expression by RNAseq(polyA+IlluminalHiSeq)]，对结直肠癌与正常肠黏膜(比值≤0.8，P＜1e-15)做同样的T检验，选择在肠癌组织中下调表达的基因1420个。选择768个位点对应基因在1420个下调基因出现过的甲基化位点共计197个，进一步组装成21个甲基化区块。

②随机森林模型优化特征：用随机森林模型进行特征组合的优化选择，最后得到最优的blocks特征组合，用于模型建立。

接下来对128例训练集血浆样本(来自于I,II和IV期CRC患者血浆样本)随机抽取2/3来进行优化特征：

(一)用选取的血浆样本使用Python的sklearn包建立随机森林模型，然后根据每个特征对应的重要性(权重)进行降序排序，同时用obb_score来评定模型性能。

(二)按照一定删除比例(这里设置为一次删除1个)，从特征组合中进行删除，得到新的特征组合。

(三)用新的特征组合再次建立新的随机森林模型，依据每个特征重要性再次对其进行降序排序，并获得obb_score来评估新的模型。

(四)重复步骤(二)和(三)，直至特征组合只剩下1个。

(五)每个特征组合都对应到一个随机森林模型，选择oob_score最高的特征组合作为最后选定的block组合。

(六)重复上述全部步骤100次，从得到的100个特征集中选取出现次数≥90的特征，获得5个甲基化blocks。

(七)将169例血浆样品(I,II期和IV期)以3：1比例设定训练集和验证集，用选择的最终blocks通过随机森林建立晚期肠癌预测模型和参数优化，同时对Ⅲ期CRC血浆样本的转移复发和进展风险进行预测。

③模型调参采用GridSearch CV方法选取对随机森林模型影响较大的三个参数进行调整。全部血浆样本用来建模训练，用得到的训练集预测准确度来对每个参数组合进行评估，从中筛选最优的参数组合，用于最终模型的建立。

(7)随访条件从手术之日到经过验证的第一次放射学复发(局部复发或远处转移)或由于CRC导致的死亡，定为无复发生存期(Recurrence-free Interval，RFI)。采血日期2015年10月到2017年11月，随访至2020年8月1日，随访时间34～60个月，平均随访时间47.4个月。

结果

1.正常肠黏膜和结直肠癌组织中差异甲基化位点的鉴定

52例正常肠粘膜和139例结直肠癌组织间基于独立样本T-test筛选出2437个DMLs。无监督聚类热图显示2437个DMLs分布在肠癌和正常粘膜间差异最显著的区域(图1A)，不同分期肠癌以及IV期肠癌原发灶与转移灶的甲基化信号值相似。IV期CRC原发灶和远处转移灶(Primary vs Metastasis)经多重检验校正后，未得到具有显著差异的甲基化标志物(如图1B和1C示)。25例IV期CRC配对原发灶和转移灶间行相关性分析(Spearson’srho)显示CRC原发灶和肿瘤灶间甲基化信号大部分一致(下表，图1D)，表明结直肠癌转移灶与原发灶间甲基化模式相似。

25例IV期CRC配对原发灶和转移灶的临床信息

附注：N代表Normal，指CEA＜5μg/L，CA199＜37ng/ml；H代表High，指CEA≥5μg/L，CA199≥37ng/ml。

2.早期和晚期CRC患者血浆间甲基化差异位点(DMLs)的鉴定

之前关于CRC早期诊断及预后评估的甲基化研究忽略了CRC组织和血浆间甲基化信号的差异，基于高通量靶向甲基化测序探索正常人群和不同分期CRC血浆间的DMLs，Ⅰ/II期CRC血浆甲基化信号低，与正常人差异不显著，Ⅲ期部分患者信号高，而IV期CRC与Ⅰ/II期和正常人间差异显著(图2)。早期和晚期CRC血液100次t-test筛选结果中抽取重复次数≥80次的甲基化差异位点(DML)，共得到1185个DMLs，这样就获得了与CRC转移进展相关的血浆甲基化特征。

3.转移及复发风险ctDNA甲基化模型的建立

血浆重复100次得到的1185个DMLs与组织间2437个取交集得到768个DMLs，选择定位于CpG岛启动子区域的DMLs。进一步选取定位于结直肠癌组织中下调表达基因[TCGAcolon adenocarcinoma(COAD)gene expression by RNAseq(polyA+IlluminaHiSeq),https://www.nature.com/articles/nature11252]启动子区域的DMLs有197个，因为研究显示所有DMLs在癌组织中上调表达。利用mBlock研究相邻CpG岛共甲基化的程度，197个DMLs组装成21个mBlock。进一步利用随机森林优化参数和建模，建立含5个mBlocks的转移相关ctDNA甲基化标志物，包括cg20506550(SFMBT2),cg04865180(SGCG),cg12537168(ZNF568),cg11977686(ZNF671)和cg19776201(ZNF132)。无监督聚类热图显示无论在训练集还是验证集中转移模型预测的结果和最后的病理诊断高度一致(图3A与B)。ROC曲线显示训练集和验证集AUC曲线下面积分别为0.998和0.8925(图3C与D)；诊断晚期CRC的准确性和特异性在训练集中分别为94.44％和94.59％，验证集中分别为81.81％与82.93％(见下表)。转移预测模型在训练集(左)和验证集(右)的敏感性和特异性分析。

4.转移预测ctDNA标志物对Ⅲ期CRC转移复发风险的评估

癌转移可分为两个期：临床潜伏期和表现期。临床无法检测到的微小残留灶是癌症转移的首要原因。猜想如果在III期CRC的血液样本中检测到转移相关的甲基化标记物，则患者处于潜伏期并易于转移和进展。因此，评估了含5甲基化标志物的转移预测模型在Ⅲ期患者血浆中的表现(图4A)。模型显示为高风险的患者有16例，其中14例出现疾病进展(出现肝和(或肺转移)，11例在进展为IV期3-11月后死亡，阳性进展率为(87.5％，95％CI：61.6％-98.4％，图4B)，显著高于预测模型为低风险的患者(5.88％)(2/34，95％CI，0.72％-19.6％)，因此可作为Ⅲ期CRC的转移复发风险预测模型。该模型监测Ⅲ期CRC复发的敏感性达80％，特异性达97.5％，AUC曲线下面积达到0.92(95％ CI：0.82-1)而同期Ⅲ期样本血清CEA值监测进展的AUC曲线下面积仅0.57(95％ CI：0.38-0.76)，术前癌胚抗原(CEA)升高者18例，9例经历了肿瘤进展，进展率为50％(95％CI:24.7％-71.1％)，CEA阴性患者的肿瘤进展率为(7/32，21.9％，95％CI:9.3％-40％)；而术后8例高CEA患者中5例经历了进展(62.5％，95％CI:24.5％-91.5％)，其余42例术后CEA正常者有11例CRC患者进展(26.2％，95％CI:13.9％-42％)。表明进展风险监测模型在预测Ⅲ期CRC进展上较CEA显示出显著的优越性(图4B)。

5.复发风险预测模型对CRC患者预后评估的效率

进一步基于Kaplan-Meier曲线3年无复发间隔(Recurrence-Free Interval，RFI)评估复发风险预测模型对Ⅲ期CRC的预后预测效率。相比于低风险患者，模型预测为高风险的患者复发风险显著增加(HR，18.7；95％CI，5.7-61.1；P＜.00001图5A)，高风险患者3年RFI为13.3％(95％CI，3.6％-48％)，当模型预测为低风险时，Kaplan-Meier估计3年RFI达到91.4％(95％CI，82％-100％)。进展监测模型高风险患者3年RFI显著下降。术前高CEA者有高复发趋势，3年RFI为49.4％，CEA正常者为74.2％(HR 2.6，95％ CI:0.998-6.77，P＝0.0507)(图5B)。而术后高CEA的3年RFI为37.5％，CEA正常者为73.8％(HR 3.04，95％CI:1.06-8.67，P＝0.038)(图5C)。

6.转移预测甲基化模型与CRC临床病理变量的单因素和多因素分析

在包括ctDNA甲基化预测模型和各种临床病理参数(如年龄、肿瘤位置、分化程度、肿瘤类型、T分期、N分期、临床风险分期、神经侵犯、血管浸润以及BRAF V600E突变)的单因素分析中，ctDNA甲基化预测模型和术后CEA是与RFI相关的重要预后因素(P＜.00001和P＜0.05)。年龄、性别、T分期、N分期、临床风险、肿瘤类型、神经侵犯、血管侵犯、BRAFV600E突变及术前CEA存在复发高风险趋势，但无统计学意义。多变量Logistic回归模型分析表明ctDNA甲基化预测模型对预后的影响似乎与其他已知的病理危险因素无关系，是Ⅲ期患者复发风险的独立危险因素。

7.进展监测模型在连续血标本中的应用

由于ctDNA甲基化在血浆中半衰期较短，仅2小时，可以基于cfDNA相对快速地了解疾病进展、治疗效果，以便调整治疗计划。4例CRC患者的连续血浆标本(临床资料见下表)分析显示从术前到术后或化疗后，进展预测模型甲基化值下降，反映出手术或化学治疗降低了肿瘤负荷。该预测模型在患者的连续血浆标本中具有监测疾病进展和治疗反应的能力，且敏感性优于CEA，可以提前影像学检查和血清CEA(病例1提前30个月，病例3提前3个月)出现信号的异常波动，提示远处转移风险，协助临床医师调整治疗方案或及时影像学检查。ctDNA甲基化预测模型对于评估治疗反应和复发监测可能特别有用。更有趣的是。病例4患者术前见肝占位，不除外肝转移(T4N2M_X？)，但术前CEA和ctDNA进展监测模型的双阴性给了临床医生治疗提示：对肝内转移灶随访。随访39月患者肝内占位未见进展，病理检测证实为血管瘤。

临床参数与ctDNA风险预测模型的无复发生存率分析

*：高临床风险:pT4 or pN2,低风险:pT1-3 and pN1.

总述：

本专利含5个甲基化标签的ctDNA进展监测模型可对Ⅲ期CRC进行转移复发风险评估，预测Ⅲ期CRC肿瘤进展的敏感性达87.5％，特异性达94.12％，进展预测模型呈高风险者预后差(HR，18.7；3年RFI 13.3％vs 91.4％)；该专利模型同时可反映肿瘤负荷，提前监测到疾病进展和治疗反应，敏感性优于CEA和影像学检查。该模型含5个ctDNA甲基化标志物，包括cg20506550,cg04865180,cg12537168,cg11977686和cg19776201，分别对应肿瘤抑制基因SFMBT2、SGCG、ZNF568、ZNF671和ZNF132。后期可以运用以下几种方法对该模型进行验证和试剂盒开发。

1.高通量测序：血浆cDNA经过亚硫酸氢盐处理后，通过目标基因组捕获技术和高通量测序，明确CpG甲基化位点的甲基化水平。

2.甲基化特异性PCR(MS-PCR)：在cDNA经过亚硫酸氢盐处理后，使用分别针对甲基化和非甲基化的序列设计的引物开展MS-PCR，用电泳检测MSP扩增产物。若针对甲基化序列设计的引物能扩增出片段，则说明该检测位点存在甲基化；反之则则说明该检测位点不存在甲基化。

3.荧光定量PCR(Methylight)：利用亚硫酸氢盐处理cDNA样本，设计分别针对待测序列甲基化和非甲基化状态的Taqman探针和引物进行荧光定量PCR扩增，以检测CpG位点的甲基化状态。

4.微滴式数字PCR(Droplet Digital PCR,DDPCR)：即第三代PCR(PolymeraseChain Reaction，聚合酶链式反应)技术，DDPCR的原理是在PCR扩增前对样品进行微滴化处理，即将含有核酸分子的反应体系分成成千上万个纳升级的微滴，其中每个微滴或不含待检核酸靶分子，或者含有一个至数个待检核酸靶分子。经PCR扩增后，逐个对每个微滴进行检测，有荧光信号的微滴判读为1，没有荧光信号的微滴判读为0，根据泊松分布原理及阳性微滴的个数与比例即可得出靶分子的起始拷贝数或浓度，是一种对核酸分子进行绝对定量的方法。

运用上述任何一种方法对该5个甲基化标志物进行检测来预测结直肠癌复发进展风险均属于该专利的保护范围。

为了使本发明的上述目的、特征和优点能够更加明显易懂，下面对本发明的具体实施方式做详细的说明，但不能理解为对本发明的可实施范围的限定。

Claims

1.一种结直肠癌转移和/或复发风险的预测系统，其特征在于，所述系统包含以下模块：

1)血浆处理模块，该模块包括通过血浆获得ctDNA；

4)数据分析模块，通过该模块能够对甲基化测序模块获得的数据进行分析，判断结直肠癌转移和/或复发风险；

其中数据分析模块包括训练模块和预测模块，所述训练模块采用搭建随机森林模型，输入来源于结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值以及对应样本的无复发生存期信息；通过训练模型学习结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间映射关系，进而获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间关联模型；所述关联模型以5个ctDNA甲基化区块的甲基化信号值为特征，所述5个ctDNA甲基化区块为cg20506550、cg04865180、cg12537168、cg11977686和cg19776201；并对模型参数进行调整，选择最优的参数，获得预测模型；所述预测模块采用根据训练模块获得的预测模型。

2.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现结直肠癌转移和/或复发风险的监测方法的步骤，所述方法包含以下步骤：

S1)收集来源于结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值以及对应样本的无复发生存期信息，形成训练集数据库；

S2)采用随机森林模型对步骤1)中的训练集数据库中的数据进行训练，获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间的映射关系；进而获得结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值与对应样本的无复发生存期信息之间关联模型；所述关联模型以5个ctDNA甲基化区块的甲基化信号值为特征，所述5个ctDNA甲基化区块为cg20506550、cg04865180、cg12537168、cg11977686和cg19776201；

S3)使用步骤S2)的关联模型，通过待预测患者的ctDNA甲基化区块的甲基化信号值预测其结直肠癌转移和/或复发进展风险。

3.根据权利要求2所述的计算机可读存储介质，其特征在于，在步骤S2)中，5个ctDNA甲基化区块通过以下方法筛选：

S211)以训练集数据库中的血浆样本中结直肠癌患者血浆样本的ctDNA甲基化区块的甲基化信号值的集合作为特征集合，使用Python建立随机森林模型，然后根据特征对应的权重进行降序排序，同时用obb_score来评定模型性能；

S213)用新的特征组合再次建立新的随机森林模型，依据每个特征权重再次对其进行降序排序，并采用obb_score来评估新的模型；

S214)重复步骤S212)和S123)，直至特征组合只剩下1个特征；

S215)每个特征组合都对应到一个随机森林模型，选择obb_score最高的特征组合作为最后特征组合；

4.根据权利要求3所述的计算机可读存储介质，其特征在于，训练集数据库中的结直肠癌患者血浆样本来自于Ⅰ、Ⅱ期和Ⅳ期的结直肠癌患者。

5.根据权利要求2所述的计算机可读存储介质，其特征在于，步骤S2)中还包括采用GridSearch CV方法对随机森林模型2-4个参数进行调整的步骤。

6.根据权利要求5所述的计算机可读存储介质，其特征在于，针对步骤S2)中不同的参数组合，用得到的无复发生存期信息的准确度来对每个参数组合进行评估，从中筛选最优的参数组合，用于最终模型的建立。

7.根据权利要求3所述的计算机可读存储介质，其特征在于，在步骤S211)中，ctDNA甲基化区块的甲基化信号值的集合为第一甲基化区块集合，所述第一甲基化区块集合通过以下方法筛选：

S2111)从一期、二期、三期和四期结直肠癌血浆标本按3:1比例随机抽取独立样本进行T检验，其中；重复t-test 100次；同时进行肠癌组织和正常肠粘膜甲基化数据的独立样本T-检验；血液100次筛选结果中抽取重复次数≥80次的甲基化位点；与组织T检验结果取交集，得到第一甲基化位点的集合；

8.根据权利要求3所述的计算机可读存储介质，其特征在于，甲基化信号值通过以下方法获得，采用靶向富集和高通量测序的方法对基因组DNA和ctDNA进行靶向甲基化检测。

9.根据权利要求8所述的计算机可读存储介质，其特征在于，采用10K甲基化芯片，所述10k甲基化芯片是基于TCGA甲基化数据库中＞10000例肿瘤甲基化数据库。

10.一种检测ctDNA甲基化标志物的试剂在制备预测结直肠癌转移和/或复发风险的试剂盒中的用途，其特征在于，所述ctDNA甲基化标志物为cg20506550、cg04865180、cg12537168、cg11977686和cg19776201。