CN117821585A

CN117821585A - 结直肠癌早期诊断标志物及应用

Info

Publication number: CN117821585A
Application number: CN202211129987.8A
Authority: CN
Inventors: 孙津; 谢可辉; 李威; 何其晔; 苏志熙; 刘蕊
Original assignee: Jiangsu Huayuan Biotechnology Co ltd
Current assignee: Jiangsu Huayuan Biotechnology Co ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2024-04-05

Abstract

本发明涉及结直肠癌早期诊断标志物及应用，具体提供筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的方法，包括：(1)检测对象的样品中标志物的甲基化水平，(2)比较步骤(1)中标记物的甲基化水平和相应的参考水平，(3)根据比较结果筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后。

Description

结直肠癌早期诊断标志物及应用

技术领域

本发明涉及癌症诊断领域，具体涉及结直肠癌早期诊断和筛查方法。

背景技术

结直肠癌是世界上第三高发和致死癌症，而且近年来随着饮食结构等生活方式变化，结直肠癌的发病率逐渐提高，极大危害人类的身体健康(Siegel R,Ma J,Zou Z,JemalA.Cancer statistics,2014.CA Cancer J Clin.2014；64:9–29.doi:10.3322/caac.21208.)。结直肠癌治愈率与癌症分期密切相关，I期和II期结直肠癌患者五年生存期达到80％，而III期患者五年生存期下降至50％，IV期患者五年生存期仅为8％(O'ConnellJB,Maggard MA,Ko CY.Colon cancer survival rates with the new American JointCommittee on Cancer sixth edition staging.J Natl Cancer Inst.2004；96:1420–5.doi:10.1093/jnci/djh275.)。遗憾的是，多数患者在结直肠癌早期无明显症状，就诊时已处于癌症中晚期，错失最佳治疗时期。因此，风险人群定期筛查结直肠癌，对于提高结直肠癌治疗效果，挽救患者生命具有重要意义。研究表明结直肠癌定期筛查降低约40％的结直肠癌致死率(W.S.Atkin,R.Edwards,I.Kralj-Hans,et al.Once-only flexiblesigmoidoscopy screening in prevention of colorectal cancer:a multicentrerandomised controlled trial.Lancet,375(2010),pp.1624-1633)。

临床应用中，肠镜(colonoscopy)是结直肠癌诊断的金标准，但其具有操作难度高，前期准备耗时久，患者痛苦较大，花费高等缺点，不适合进行大规模筛查。目前有多种无创检测的方式可用于结直肠癌筛查，如基于粪便的粪便免疫化学试验(FIT)等，这些方法具有方便快捷等优点，但其检测性能较差，容易受到饮食等因素干扰，灵敏性和特异性都比较低(T.F.Imperiale,D.F.Ransohoff,S.H.Itzkowitz,et al.Multitarget stool DNAtesting for colorectal-cancer screening.N Engl J Med,370(2014),pp.1287-1297)。

近年来研究发现癌症病人血液中含有癌症组织释放的游离肿瘤DNA(ctDNA)，其基因组特征如突变、片段化长度分布、末端基序、DNA甲基化等可作为生物标志物用于早期癌症诊断(Lo YMD等.Epigenetics,fragmentomics,and topology of cell-free DNA inliquid biopsies.2021)。目前已存在部分基于结直肠癌甲基化生物标志物的检测手段，如基于血液的检测血浆ctDNA甲基化septin9，或基于多靶点ctDNA甲基化检测试剂盒等(N.T.Potter,P.Hurban,M.N.White,et al.Validation of a real-time PCR-basedqualitative assay for the detection of methylated SEPT9 DNA in humanplasma.Clin Chem,60(2014),pp.1183-1191；Cai Guo-Xiang等.A Multilocus Blood-Based Assay Targeting Circulating Tumor DNA Methylation Enables EarlyDetection and Early Relapse Prediction of Colorectal Cancer.2021)。这些方法也存在一定的检测性能限制，检测的灵敏性约为50％，还需继续开发具有高灵敏性结直肠检测方法。

本专利中，从结直肠癌患者血浆DNA中，开发一组高效准确灵敏性高的的结直肠癌甲基化标志物，具有重要的临床价值。

发明内容

本发明中，从结直肠癌患者血浆DNA中，开发了高效准确灵敏性高的结直肠癌甲基化标志物，具有重要的临床价值。

本发明第一方面提供了一种结直肠癌甲基化标志物，其是分离的来自哺乳动物的核酸分子，所述核酸分子的序列包括：(1)SEQ ID NO:1-47中任一种或多种(例如至少6个、至少7个、至少8个或至少9个)或全部所示的序列或其互补序列或变体，所述变体是与相应序列具有至少70％相同性的变体，并且所述变体中的甲基化位点未发生突变，或(2)(1)的经处理的序列，所述处理使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基。

在一个或多个实施方案中，所述(1)选自以下任一组：

(1.1)以下序列中任一种或多种或全部：SEQ ID NO:4或其互补序列或变体、SEQID NO:11或其互补序列或变体、SEQ ID NO:15或其互补序列或变体、SEQ ID NO:18或其互补序列或变体、SEQ ID NO:19或其互补序列或变体、SEQ ID NO:30或其互补序列或变体、SEQ ID NO:34或其互补序列或变体、SEQ ID NO:37或其互补序列或变体、SEQ ID NO:41或其互补序列或变体，任选还包括SEQ ID NO:1-47中其余序列的任一种或多种或其互补序列或变体，

(1.2)以下序列中任一种或多种或全部：SEQ ID NO:1或其互补序列或变体、SEQID NO:21或其互补序列或变体、SEQ ID NO:29或其互补序列或变体、SEQ ID NO:36或其互补序列或变体、SEQ ID NO:44或其互补序列或变体、SEQ ID NO:47或其互补序列或变体，任选还包括SEQ ID NO:1-47中其余序列的任一种或多种或其互补序列或变体，

(1.3)以下序列中任一种或多种或全部：SEQ ID NO:6或其互补序列或变体、SEQID NO:10或其互补序列或变体、SEQ ID NO:13或其互补序列或变体、SEQ ID NO:14或其互补序列或变体、SEQ ID NO:22或其互补序列或变体、SEQ ID NO:28或其互补序列或变体、SEQ ID NO:43或其互补序列或变体，任选还包括SEQ ID NO:1-47中其余序列的任一种或多种或其互补序列或变体。

在一个或多个实施方案中，所述甲基化位点是连续的CpG。

在一个或多个实施方案中，所述甲基化标志物可以是所述序列区域中任意一个或者多个CpG位点。

在一个或多个实施方案中，所述核酸分子用作检测样品中相应序列的DNA甲基化水平的内标或对照。

本发明第二方面提供检测DNA甲基化的试剂，用于筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后，所述试剂包含检测对象的样品中标志物的甲基化水平的试剂，所述标志物是DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，所述DNA序列包括以下基因序列中的一种或多种或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。

在一个或多个实施方案中，所述DNA序列包括选自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部。

在一个或多个实施方案中，所述DNA序列包括选自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部。

在一个或多个实施方案中，所述DNA序列包括选自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部。

在一个或多个实施方案中，所述标志物包含至少3个CpG二核苷酸。

在一个或多个实施方案中，所述DNA序列包括DNA正义链或反义链。

在一个或多个实施方案中，所述的片段长度为1-1000bp，优选1-700bp。在一个或多个实施方案中，所述片段是基因序列的启动子区域或其部分。在一个或多个实施方案中，所述片段包含至少1个，优选至少3个CpG二核苷酸。优选地，所述标志物具有本发明第一方面所述的核酸分子的序列。

在一个或多个实施方案中，所述试剂是与所述标志物或其经转化的序列杂交的引物分子。所述引物分子能扩增出所述标志物或其经转化的变体。在一个或多个实施方案中，所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中，所述试剂是与标志物或其经转化的序列杂交的探针分子。在一个或多个实施方案中，所述探针还含有可检测物。在一个或多个实施方案中，所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中，所述荧光报告基因选自Cy5、FAM和VIC。所述探针分子至少12bp。

在一个或多个实施方案中，所述样品来自哺乳动物，优选人。

本发明第三方面提供记载有DNA序列或其片段和/或其甲基化信息的介质，所述DNA序列包括：

(i)以下基因序列中的一种或多种或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2，

或(ii)(i)的经处理的序列，所述处理使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基。

在一个或多个实施方案中，所述介质用于与基因甲基化测序数据比对以确定含所述序列或其片段的核酸分子的存在、含量和/或甲基化水平。

在一个或多个实施方案中，所述介质是印有所述DNA序列或其片段和/或其甲基化信息的载体，包括卡片，例如纸质、塑料、金属、玻璃卡片。

在一个或多个实施方案中，所述介质是存储有所述序列和/或其甲基化信息和计算机程序的计算机可读介质，当所述计算机程序被处理器执行时，实现下述步骤：将样品的甲基化测序数据与所述序列或信息比较，从而获得所述样品中含所述序列的核酸分子的存在、含量和/或甲基化水平。含所述序列的核酸分子的存在、含量和/或甲基化水平用于筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后。

本发明另一方面还提供以下(a)和任选的(b)在制备用于筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后的试剂盒中的用途，

(a)用于确定对象的样品中标志物的甲基化水平的试剂或装置，所述标志物是DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，

(b)所述标志物或其经处理的核酸分子，所述处理使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基，

其中，所述DNA序列包括以下基因序列中的一种或多种或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。

在一个或多个实施方案中，所述片段长度为1-1000bp，优选1-700bp。在一个或多个实施方案中，所述片段是基因序列的启动子区域或其部分。在一个或多个实施方案中，所述片段包含至少1个，优选至少3个CpG二核苷酸。优选地，所述标志物具有本发明第一方面所述的核酸分子的序列。

在一个或多个实施方案中，(b)所述核酸分子是本文第一方面所述的核酸分子。

在一个或多个实施方案中，所述试剂包含引物分子和/或探针分子。

在一个或多个实施方案中，所述试剂包含与所述标志物或其经转化的序列杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段或它们的经转化的变体。在一个或多个实施方案中，所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中，所述试剂是与所述标志物或其经转化的序列杂交的探针分子。在一个或多个实施方案中，所述探针还含有可检测物。在一个或多个实施方案中，所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中，所述荧光报告基因选自Cy5、FAM和VIC。所述探针分子至少12bp。

在一个或多个实施方案中，所述试剂包含本文任一实施方案所述的介质。

在一个或多个实施方案中，所述试剂盒是非侵入性诊断试剂盒。

在一个或多个实施方案中，所述对象是哺乳动物，优选人。

在一个或多个实施方案中，所述样品来自哺乳动物的组织、细胞或体液，例如肠组织样本、血液、血清或血浆。所述哺乳动物优选为人。在一个或多个实施方案中，所述样品包括基因组DNA。优选地，所述样品是血液。

在一个或多个实施方案中，所述DNA序列是：相应标志物在基因组中的序列、或其经转化的序列、或其经甲基化敏感型限制性内切酶处理的序列，所述转化使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基。所述转化使用酶促方法进行，优选脱氨酶处理，或所述转化使用非酶促方法进行，优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

在一个或多个实施方案中，所述试剂盒还包括PCR反应试剂。优选地，所述PCR反应试剂包括DNA聚合酶、PCR缓冲液、dNTP、Mg2+。

在一个或多个实施方案中，所述试剂盒还包括检测DNA甲基化的其他试剂，所述其他试剂是选自以下方法的一个或多个中所用的试剂：基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。优选地，所述其他试剂选自以下一种或多种：重亚硫酸盐、亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其衍生物，甲基化敏感或不敏感的限制性内切酶，酶切缓冲液，荧光染料，荧光淬灭剂，荧光报告剂，外切核酸酶，碱性磷酸酶，内标，对照物。

在一个或多个实施方案中，PCR的反应液包含Taq DNA聚合酶、PCR缓冲液、dNTPs、KCl、MgCl₂和(NH₄)₂SO₄。优选地，Taq DNA聚合酶为热启动Taq DNA聚合酶。优选地，Mg²⁺终浓度为1.0-10.0mM。

在一个或多个实施方案中，所述筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后包括：比较标记物的甲基化水平和相应的参考水平，并根据评分筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后。

在一个或多个实施方案中，所述比较包括：直接比较标记物的甲基化水平和参考水平，或者通过计算得出评分并比较标记物的甲基化水平的评分和相应的参考评分。优选地，所述计算通过构建逻辑回归模型进行。

本发明另外一方面还提供一种用于筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的方法，包括：

(1)检测对象的样品中标志物的甲基化水平，所述标志物是DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，所述DNA序列包括以下基因序列中的一个或多个或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2，

(2)比较步骤(1)中标记物的甲基化水平和相应的参考水平，

(3)根据比较结果筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后。

在一个或多个实施方案中，所述片段长度为1-1000bp，优选1-700bp。在一个或多个实施方案中，所述片段是基因的启动子区域。在一个或多个实施方案中，所述片段包含至少1个，优选至少3个CpG二核苷酸。优选地，所述标志物具有本发明第一方面所述的核酸分子的序列。

在一个或多个实施方案中，所述方法在步骤(1)之前还包含从对象获取含有DNA的生物样品的步骤，例如DNA抽提和/或质检。

在一个或多个实施方案中，步骤(1)包括使用本文所述的引物分子、探针分子和/或介质，和任选的本文所述的核酸分子，进行所述检测。

在一个或多个实施方案中，所述检测包括但不限于：基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。

在一个或多个实施方案中，所述检测是DNA测序。在一个或多个实施方案中，所述DNA测序的测序深度至少10X，优选20X，更优选30X。

在一个或多个实施方案中，所述样品来自哺乳动物的组织、细胞、体液，例如肠组织样本、血液、血清或血浆。所述哺乳动物优选为人。优选地，所述样品是血液。

在一个或多个实施方案中，所述样品包括基因组DNA。

在一个或多个实施方案中，所述DNA序列是：相应标志物在基因组中的序列、或其经转化的序列、或其经甲基化敏感型限制性内切酶处理的序列，所述转化使其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述转化使用酶促方法进行，优选脱氨酶处理，或所述转化使用非酶促方法进行，优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

在一个或多个实施方案中，步骤(2)中的比较包括：直接比较步骤(1)中标记物的甲基化水平和参考水平，或者通过计算得出评分并比较标记物的甲基化水平的评分和相应的参考评分。优选地，所述评分通过逻辑回归模型进行计算。

在一个或多个实施方案中，步骤(3)包括：当标记物的甲基化水平大于参考水平，或者甲基化水平的评分大于参考评分，则所述对象有形成结直肠癌的风险、患有结直肠癌或结直肠癌预后不良。

本发明另一方面还提供筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的试剂盒，包含：

(a)用于确定对象的样品中标志物的甲基化水平的试剂或装置，所述标志物是DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，和

任选的(b)所述标志物或其经处理的核酸分子，所述处理使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基，

在一个或多个实施方案中，所述片段长度为1-1000bp，优选1-700bp。在一个或多个实施方案中，所述片段是基因的启动子区域。在一个或多个实施方案中，所述片段包含至少1个，优选至少3个CpG二核苷酸。优选地，所述标志物包含本发明第一方面所述的核酸分子的序列。

在一个或多个实施方案中，所述试剂盒适用于本文任一实施方案所述的用途。

在一个或多个实施方案中，所述核酸分子是本文第一方面所述的核酸分子。

在一个或多个实施方案中，所述试剂包含与所述DNA序列或其片段或它们的经转化的序列杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段或它们的经转化的变体。在一个或多个实施方案中，所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中，所述试剂是与所述DNA序列或其片段或它们的经转化的序列杂交的探针分子。在一个或多个实施方案中，所述探针还含有可检测物。在一个或多个实施方案中，所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中，所述荧光报告基因选自Cy5、FAM和VIC。所述探针分子至少12bp。

在一个或多个实施方案中，所述对象是哺乳动物，优选人。

在一个或多个实施方案中，所述样品来自哺乳动物的组织、细胞或体液，例如肠组织样本、血液、血清或血浆。所述哺乳动物优选为人。所述样品包括基因组DNA。优选地，所述样品是血液。

在一个或多个实施方案中，所述试剂盒还包括检测DNA甲基化的试剂，所述试剂是选自以下方法的一个或多个中所用的试剂：基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。优选地，所述试剂选自以下一种或多种：重亚硫酸盐及其衍生物、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。

本发明另一方面还提供一种用于筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的装置，所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

(1)获取对象的样品中标志物的甲基化水平，所述标志物是DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，所述DNA序列包括以下基因序列中的一个或多个或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2，

(2)比较步骤(1)中标记物的甲基化水平和相应的参考水平，

在一个或多个实施方案中，所述DNA序列包括以下基因序列：

在一个或多个实施方案中，步骤(1)之前还包含获取DNA的步骤，例如DNA抽提和/或质检。

在一个或多个实施方案中，步骤(1)包括使用本文所述的引物分子、探针分子和/或介质，和任选的本文所述的核酸分子，检测样品中所述序列的甲基化水平。在一个或多个实施方案中，所述检测包括但不限于：基于重亚硫酸盐转化的PCR、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。在一个或多个实施方案中，所述检测是DNA测序。优选地，所述DNA测序的测序深度至少10X，优选20X，更优选30X。

在一个或多个实施方案中，所述DNA序列是：相应标志物在基因组中的序列、或其经转化的序列、或其经甲基化敏感型限制性内切酶处理的序列，所述转化使未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述转化使用酶促方法进行，优选脱氨酶处理，或所述转化使用非酶促方法进行，优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

本发明优点：

本发明提供一种早期非侵入性鉴别结直肠癌的甲基化标志物及应用，基于本发明的生物标志物组群在血浆中的甲基化水平，可以便捷、准确、高效地鉴别结直肠癌患者，为结直肠癌的早期诊断提供了新方法，本发明检测过程无创，安全性高，便于大规模临床应用。

本发明只需检测数个甚至一个基因的甲基化水平即可检测良恶性，显著减少了目标检测区域，提升了技术的应用范围，可以囊括更多的样本。

附图说明

图1显示筛选甲基化标志物流程。

图2显示训练集结直肠癌和非结直肠癌样品甲基化水平分布。

图3显示测试集结直肠癌和非结直肠癌样品甲基化水平分布。

图4显示ALLMODEL预测值分布。

图5显示ALLMODEL ROC曲线图。

图6显示SUBMODEL1预测值分布。

图7显示SUBMODEL1 ROC曲线。

图8显示SUBMODEL2预测值分布。

图9显示SUBMODEL2 ROC曲线图。

图10显示SUBMODEL3预测值分布。

图11显示SUBMODEL3 ROC曲线图。

具体实施方式

应理解，在本发明范围中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成优选的技术方案。

本发明的目的是针对目前结直肠癌诊断灵敏度和特异性低、易受影响等问题，提供一种用基因组合早期非侵入性诊断结直肠癌的分子检测方法。本发明提供DNA甲基化标志物，通过对患者样品的DNA甲基化标志物甲基化水平进行检测，利用检测的甲基化水平数据根据诊断模型预测评分，用以区分结直肠癌患者和非结直肠癌患者，实现早期筛查过程中更高准确率、更低成本的结直肠癌早期诊断的目的。

如本文所用，术语“甲基化标志物”是指这样的目的核酸或基因区域、甲基化位点：其甲基化水平或基于甲基化水平的计算模型的得分指示结直肠癌状态。术语“甲基化标志物”应被认为包括其所有转录变体及其所有启动子和调控元件。如本领域技术人员所理解的，已知某些基因在个体之间表现出等位基因变异或单核苷酸多态性(“SNP”)。SNP包括不同长度的简单的重复序列(例如二核苷酸和三核苷酸重复)的插入和缺失。因此，本申请应被理解为扩展到由任何其他突变、多态性或等位基因变异产生的标志物/基因的所有形式。另外，应当理解，术语“甲基化标志物”应既包括标志物或基因的正义链序列，也包括标志物或基因的反义链序列。

本文所用的术语“甲基化标志物”被宽泛地解释为既包括1)在生物样品或基因组DNA中发现的原始标志物(处于特定的甲基化)，也包括2)其经过处理的序列(例如亚硫酸氢盐转化后的对应区域或甲基化敏感的限制性内切酶MSRE处理后的对应区域)。亚硫酸氢盐转化后的对应区域与基因组序列中的目标标志物不同之处在于，一个或多个未甲基化的胞嘧啶残基被转化为尿嘧啶碱基、胸腺嘧啶碱基或在杂交行为上与胞嘧啶不同的其他碱基。经MSRE处理的对应区域与基因组序列中的目标标志物不同之处在于，该序列在一个或多个MSRE切割位点处被切割。

发明人经过研究，从大量基因中筛选出47个基因，发现这些基因(例如启动子区域)的甲基化水平与结直肠癌的性质有关：TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2。本发明提供了对样品(特别是血液)的上述基因进行甲基化检测，基于其甲基化水平利用数学模型分辨结直肠癌，实现结直肠癌非侵入性精准诊断的目的。

因此，本文中，甲基化标志物包括DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，所述DNA序列包括上述基因序列中的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46或47种，例如至少6个、至少7个、至少8个或至少9个。在一个或多个实施方案中，所述DNA序列包括选自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的1、2、3、4、5、6、7或8种，任选还包括(p)中的其他基因序列中的一种或多种或全部。在一个或多个实施方案中，所述DNA序列包括选自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的1、2、3、4、5或6种，任选还包括(p)中的其他基因序列中的一种或多种或全部。在一个或多个实施方案中，所述DNA序列包括选自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的1、2、3、4、5、6或7种，任选还包括(p)中的其他基因序列中的一种或多种或全部。本发明提供这些标志物及其检测试剂在筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后中的用途和方法。本文中所使用的术语“结直肠癌”具有本领域通常的含义，包括存在于结肠、直肠和/或阑尾的肿瘤。

本文所用的术语“样品”是指包含DNA的获自或衍生自目标个体的生物组合物，包括但不限于通过本领域技术人员已知的任何方法获得的个体的细胞、组织、器官和/或生物体液。在一些实施方式中，所述生物样品选自下组：组织学切片、组织活检、石蜡包埋的组织、体液、结肠流出物、手术切除样本、分离的血细胞、分离自血液的细胞，及其任意组合。在一些实施方式中，所述体液选自下组：全血、血清、血浆、尿液、粘液、唾液、腹膜液、胸腔液、胸膜积液、滑液、脑脊髓液、胸腔穿刺液、腹腔积液，及其任意组合。在一些实施方式中，所述结肠流出物选自下组：粪便样品和灌肠洗涤样品。在一些实施方式中，所述生物样品获自个体的全血。在示例性实施方式中，所述生物样品获自个体的血浆。本领域技术人员知道从全血制备血浆的各种方法。例如，在一些实施方式中，血浆通过将来自个体的全血离心一次、两次、三次、四次、五次或更多次来获得。

生物样品中包含的DNA可以是细胞DNA或循环游离DNA(cfDNA)。从生物样品中分离和纯化DNA可以通过使用本领域已知的各种方法来实施，包括使用可商购的试剂盒。例如，通过以下方式从细胞和组织中分离DNA：在高度变性和还原条件下裂解原材料、部分使用蛋白质降解酶、纯化通过苯酚/氯仿提取工艺获得的核酸组分，并通过渗析或乙醇沉淀从水相中回收核酸。

本文所用的术语“对象”或“个体”包括人类和非人类的动物。非人类动物包括所有脊椎动物，例如哺乳动物和非哺乳动物。在一些实施方式中，对象是人类。

本文中，术语“基因”包括所涉基因的在基因组上的编码序列和非编码序列。其中非编码序列包括内含子、启动子和调节元件或序列等。

在一个或多个实施方案中，结直肠癌的性质与上述基因的片段的甲基化有关。这样的片段可以来自一种或多种所述基因序列。所述片段的长度为1bp-1kb，优选1bp-700bp；所述片段包含相应基因的染色体区域中的一个或多个甲基化位点。所述片段例如是上述基因的启动子区域。通常，转录起始位点(Transcription Start Sites，TSS)上游1k bp、下游200bp的DNA序列界定为启动子区。如果一个基因有多个转录本(即有多个启动子区)，则可选择其中任意启动子区。在一些实施方案中，检测的片段含有至少3个CpG二核苷酸。因此，进一步地，结直肠癌的性质与表1所示的各基因的SEQ ID NO:1-47所示的片段的甲基化水平相关。

本文所述“结直肠癌相关序列”包括上述47个基因中任意、其上游或下游20kb以内(优选5kb以内)的序列、或它们的片段、或上述47个序列(SEQ ID NO:1-47)或其互补序列的任意组合。在公共数据库(例如NCBI网站)中可以获得上述基因在Hg19基因组中的序列，以及各基因上游或下游20kb的序列。

上述基因在人染色体中的位置如下表所示，其中碱基编号对应于参考基因组HG19：

表1，甲基化标志物基因及位置

本文中，检测DNA甲基化的方法本领域周知，例如基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR(Methylation-specific PCR,MSP)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、全基因组甲基化测序、简化甲基化测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。在一个或多个实施方案中，检测包括检测基因或位点处的任一条链。

因此，本发明涉及检测DNA甲基化的试剂。本领域周知上述检测DNA甲基化的方法中所用的试剂。在涉及DNA扩增的检测方法中，检测DNA甲基化的试剂包括引物。本文所述“引物”是指在核苷酸聚合作用起始时，引导合成的一种具有特定核苷酸序列的核酸分子。引物通常至少9bp。引物序列可为甲基化特异的或非特异的。所述引物的序列可以包括非甲基化特异的封闭序列(Blocker)。封闭序列可以提高甲基化检测的特异性。通常，引物被设计为扩增的产物长度为1-2000bp、10-1000bp、30-900bp、40-800bp、50-700bp、或至少150bp、至少140bp、至少130bp、至少120bp。

检测DNA甲基化的试剂还可包括与待测序列杂交的探针。通常，探针的序列的5’端标记荧光报告基团，3’端标记淬灭基团。示例性地，所述探针的序列包含MGB(Minor groovebinder)或者LNA(Locked nucleic acid)。MGB和LNA用于提高Tm值，增加分析的特异性，提高探针设计的灵活性。本文所述“杂交”主要指在严谨条件下的核酸序列配对。示例性严谨条件为在0.1×SSPE(或0.1×SSC)、0.1％SDS的溶液中，65℃条件下杂交并洗膜。

检测DNA甲基化的试剂还可包括甲基化敏感的限制性内切酶(MSRE)，其可以选择性地切割甲基化的残基，或者选择性地切割未甲基化的残基。在一些实施方式中，所述MSRE选自下组：HpaII酶、SalI酶、酶、ScrFI酶、BbeI酶、NotI酶、SmaI酶、XmaI酶、MboI酶、BstBI酶、ClaI酶、MluI酶、NaeI酶、NarI酶、PvuI酶、SacII酶、HhaI酶及其任意组合。

本文术语“变体”或“突变体”是指与参照序列相比，通过一个或多个核苷酸的插入、缺失或取代使核酸序列发生变化同时保留其与其他核酸杂交能力的多核苷酸。本文任一实施方案所述的突变体包括与参照序列具有至少70％，优选至少80％，优选至少85％，优选至少90％，优选至少95％，优选至少97％的序列相同性并保留参照序列的生物学活性的核苷酸序列。可采用例如NCBI的BLASTn计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的和核苷酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留参照序列生物学活性的核苷酸序列。所述多个突变通常指1-10个以内，例如1-8个、1-5个或1-3个。取代可以是嘌呤核苷酸与嘧啶核苷酸之间的取代，也可以是嘌呤核苷酸之间或嘧啶核苷酸之间的取代。取代优选是保守性取代。例如，在本领域中，用性能相近或相似的核苷酸进行保守性取代时，通常不会改变多核苷酸的稳定性和功能。保守性取代例如嘌呤核苷酸之间的(A与G)的互换，嘧啶核苷酸之间的(T或U与C)的互换。因此，在本发明多核苷酸中用来自同一残基替换一个或几个位点，将不会在实质上影响其活性。此外，本发明的变体中的甲基化位点(例如连续的CG)未发生突变。即本发明方法检测的是相应序列中的可甲基化位点的甲基化情况，对于非可甲基化位点的碱基可以发生突变。通常，甲基化位点是连续的CpG二核苷酸。

如本文所述，DNA或RNA的碱基可发生转化。本文所述“转化”、“胞嘧啶转化”或“CT转化”是利用非酶促或酶促方法处理DNA，将未修饰的胞嘧啶碱基(cytosine,C)转化为与鸟嘌呤结合能力低于胞嘧啶的碱基(例如尿嘧啶碱基(uracil,U))的过程。本领域周知进行胞嘧啶转化的非酶促或酶促方法。示例性地，非酶促方法包括使用转化试剂例如亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐处理，例如亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、亚硫酸氢镁、亚硫酸氢铝、亚硫酸氢根离子、重硫酸钠、重硫酸钾和重硫酸铵，及其任意组合。示例性地，酶促方法包括脱氨酶处理。经转化的DNA任选经纯化。适用于本文的DNA纯化方法本领域周知。

本发明还提供一种用于筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后的甲基化检测试剂盒，所述试剂盒包括本文所述的引物和/或探针，用于检测发明人发现的结直肠癌相关序列的甲基化水平。所述试剂盒还可包含本文所述，特别是第一方面所述的核酸分子作为内标或阳性对照。

除了所述引物、探针、核酸分子之外，试剂盒还包含检测DNA甲基化所需的其他试剂。示例性地，检测DNA甲基化的其他试剂可包含以下的一种或多种：重亚硫酸盐及其衍生物、PCR缓冲液、聚合酶、dNTP、引物、探针、Mg²⁺、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。所述试剂盒还可包括经转化的阳性标准品，其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述阳性标准品可以是完全甲基化的。试剂盒还可包含适合存放生物样品的容器和/或使用说明书。

基于发明人的发现，本发明提供一种用于筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后的方法，包括：(1)检测对象的样品中本文所述结直肠癌相关序列(一个或多个标志物)的甲基化水平，例如通过测序；(2)比较步骤(1)中标记物的甲基化水平和相应的参考水平，(3)根据比较结果筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后。通常，所述方法在步骤(1)之前还包括：样品DNA的抽提、质检、和/或将DNA上未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。

本发明中的“诊断”，除了结直肠癌的早期诊断，还包括结直肠癌晚期诊断，且也包括结直肠癌筛选、风险评估、预后、疾病识别。早期诊断指的是在转移之前发现癌症的可能性，优选在可观察到组织或者细胞的形态学变化之前。

步骤(1)的检测可以是任何适用于检测基因组DNA甲基化的检测方法。在具体实施方案中，步骤(1)包括：用转化试剂处理基因组DNA，使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基(例如尿嘧啶)；使用引物进行PCR扩增，所述引物适用于扩增本文所述结直肠癌相关序列的经转化的序列；通过扩增产物的有或无、或者序列鉴定(例如基于探针的PCR检测鉴定或DNA测序鉴定)确定至少一个CpG的甲基化水平。或者步骤(1)还可包括：用甲基化敏感的限制性内切酶处理基因组DNA；使用引物进行PCR扩增，所述引物适用于扩增具有本文所述结直肠癌相关序列中含有至少一个CpG二核苷酸的序列；通过扩增产物的含量确定至少一个CpG的甲基化水平。

在一些实施方案中，步骤(2)中的比较包括：直接比较步骤(1)中标记物的甲基化水平和参考水平，或者通过计算得出评分并比较标记物的甲基化水平的评分和相应的参考评分。优选地，所述评分通过逻辑回归模型进行计算。在一些实施方案中，步骤(3)包括：当标记物的甲基化水平大于参考水平，或者甲基化水平的评分大于参考评分，则所述对象有形成结直肠癌的风险、患有结直肠癌或结直肠癌预后不良。

本文中，参考水平或参考评分是可作为诊断或筛查依据的参照甲基化水平或评分。这样的水平或评分可以通过基于结直肠癌或风险对象的样品与健康对象、无结直肠癌或风险的对象的样品之间的比较来获得。此外，参考水平或参考评分也可以是健康对象、无结直肠癌或风险的对象的水平或评分。参考水平或参考评分可以源自一个对象或至少两个对象的群。本领域技术人员可以根据期望的灵敏度和特异性来选择参考水平。

本文所述“甲基化水平”指所涉CpG位点的甲基化水平或所涉序列中多个或所有CpG位点的平均甲基化水平。本发明的示例性实施方案中，位点的甲基化水平通常是指该位点甲基化C的百分比，如果该CpG位点所有C都是未甲基化的，其甲基化水平就为零。甲基化水平还可以是其他类型的计算结果，这在本领域技术人员的知识范围内。此外，序列的甲基化水平上升或下降并不表示区域中所有CpG位点的甲基化水平都上升或下降。本领域知晓将检测DNA甲基化的方法(例如简化甲基化测序)所得结果转化为甲基化水平的过程。例如，根据每个基因启动子区检测到的CpG位点的甲基化水平，计算平均甲基化，将其作为该基因启动子区DNA甲基化水平。在一些实施方案中，通过MethylTitan(CN201910515830，鹍远)甲基化测序方法获得甲基化水平。甲基化水平可经标准化。

本文所述“甲基化信息”包括与序列中可能被甲基化的胞嘧啶相关的特征信息。所述可能被甲基化的胞嘧啶通常是CpG中的C。此类特征包括但不限于：序列内的任何胞嘧啶(C)残基是否为甲基化的，一个或多个甲基化位点(如CpG二核苷酸)的位置和/或其甲基化水平，核酸的任何特定区域的甲基化水平、甲基化C的频率或百分比、甲基化C或未甲基化C的相对浓度、绝对浓度或模式、甲基化单倍型比值(MHL)、平均甲基化水平(AMF)，以及由于例如等位基因起点的差异而导致的甲基化等位基因差异。例如，如果核酸序列内的一个或多个胞嘧啶(C)残基是甲基化的，则其可称为“超甲基化”或具有“增加的甲基化”，而如果DNA序列内的一个或多个胞嘧啶(C)残基是未甲基化的，则其可称为“去甲基化”或具有“减少的甲基化”。

可对所测基因的甲基化水平进行数学分析，获得评分。术语“甲基化评分”表示使用数学方法(例如数学模型)对甲基化水平进行计算获得的数值。对于检测的样品而言，当评分大于阈值，则判定结果为阳性，即为结直肠癌或具有患结直肠癌风险或结直肠癌预后不良，否则为阴性。本领域知晓常规数学分析的方法以及确定阈值的过程，示例性的方法是数学模型，包括但不限于回归模型、支持向量机、随机森林等。例如，对于差异甲基化标志物，对训练组样本构建支持向量机(SVM)，利用模型统计检测结果的准确率，敏感性和特异性以及预测值特征曲线(ROC)下面积(AUC)，统计测试集样本预测得分。又如，对于差异甲基化标志物的甲基化水平构建逻辑回归(Logistic Regression)，利用模型统计检测结果的准确率，敏感性和特异性以及预测值特征曲线(ROC)下面积(AUC)，统计测试集样本预测得分。

在示例性实施例中，通过如下过程针对训练集构建逻辑回归模型。

使用逻辑回归模型：model＝LogisticRegression()，该模型的公式如下，其中x为样本目标marker的甲基化水平值，w为不同marker的系数，b为截距值，y为模型预测分值:

y＝1/(1+e^(-w^T x+b))

使用训练集的样本进行训练，数据包括训练集样本中目标甲基化位点的数据和训练集样本的性状(有或无结直肠癌)，并根据训练集的样本确定模型的相关阈值。然后使用使用测试集的样本进行测试，获得模型预测分值，使用该预测分值并根据上述阈值对样本是否是结直肠癌进行判断。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。

实施例

实验样本

收集了总计108个结直肠癌血液样本、108个年龄性别匹配的无结直肠癌血液样本，所有入组患者签署知情同意书，样本信息见表2：

表2

实验方法

1.样本cfDNA提取

所有血液样本均在Streck管中采集，为了提取血浆，首先将血液样本在4℃下以1600g离心10min。为了防止破坏buffy coat层，需要设置了平滑制动模式。然后将上清液转移到新的1.5ml锥形管中，并在4℃下以16000g离心10min。将上清液再次转移到新的1.5ml锥形管中，并在-80℃下储存。

为了提取循环游离DNA(cfDNA)，根据制造商的说明，将血浆等分解冻并立即使用QIAamp循环核酸提取试剂盒(Qiagen 55114)进行处理。提取的cfDNA浓度用qubit3.0定量。

2.亚硫酸氢盐转化与文库制备

亚硫酸氢钠转化胞嘧啶碱基进行了使用亚硫酸氢盐转化试剂盒(ThermoFisher，MECOV50)。根据制造商的说明，将20ng基因组DNA或ctDNA转化并纯化以用于下游应用。

样品DNA的抽提、质检、和将DNA上未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。在一个或多个实施方案中，所述转化使用酶促方法进行，优选脱氨酶处理，或所述转化使用非酶促方法进行，优选用亚硫酸氢盐或重硫酸盐处理，更优选使用亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵处理。

使用MethylTitan(CN201910515830)方法建库，MethylTitan方法，具体如下，被亚硫酸氢盐转化的DNA去磷酸化后连接到带有分子标签(UMI)的通用illumina测序接头上。在进行第二链合成和纯化后，对转化后的DNA进行半靶向PCR反应，以靶向扩增需要的目标区域。再次纯化后，通过PCR反应将样本特异的条形码和全长Illumina测序接头加到目标DNA分子上。最终形成的文库然后使用Illumina的KAPA文库定量试剂盒进行定量(KK4844)，并在Illumina测序仪进行测序，MethylTitan建库方式在使用较少DNA量，尤其是cfDNA的情况下可以有效的富集需要的目标片段，同时改方法可以很好的保留原始DNA的甲基化状态，最终通过分析相邻的CpG甲基化胞嘧啶(一个给定的目标可能有几个到几十个CpG，这取决于给定的区域)，该特定区域的整个甲基化模式可以作为一个独特的标记，而不是对单个碱基的状态进行比较。

3.测序及数据预处理

1)使用Illumina Hiseq 2500测序仪进行双端测序，测序量为每个样本25～35M；使用Trim_galore v 0.6.0、cutadapt v2.1软件对Illumina Hiseq 2500测序仪下机的双端150bp测序数据进行去接头处理。在Read 1的3’端去除接头序列为“AGATCGGAAGAGCACACGTCTGAACTCCAGTC”，在Read 2的3’端去除接头序列“AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT”，并去除两端测序质量值低于20的碱基。如果5’端有3bp的接头序列则去掉整条read。去接头后短于30个碱基的read也被去掉。

2)使用Pear v0.9.6软件合并双端序列为单端序列。合并至少重叠20个碱基的两端reads，如果合并之后的reads短于30个碱基则舍弃。

4.测序数据比对

本发明使用的参考基因组数据来自UCSC数据库(UCSC:hg19,http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。

1)首先将hg19使用Bismark软件分别进行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鸟嘌呤(GA)的转化，并且分别对转换后的基因组使用Bowtie2软件构建索引。

2)将预处理的数据同样进行CT和GA转化。

3)使用Bowtie2软件分别将转化后的序列比对到转化后的HG19参考基因组，最短种子序列长度20，种子序列不允许错配。

5.提取甲基化信息

对于每个目标区域hg19的CpG位点，根据上述比对结果，获取每个位点对应的甲基化水平。本发明涉及到的位点的核苷酸编号对应于hg19的核苷酸位置编号。

1)甲基化单倍型比例(MHF)的计算，对于每个目标区域hg19的CpG位点，根据上述比对结果，获取reads中每个位点对应的碱基序列，C表示该位点发生甲基化，T表示该位点未甲基化状态。本文中位点的核苷酸编号对应于HG19的核苷酸位置编号。一个目标甲基化区域可能有多个甲基化haplotype，对于目标区域内的每一个甲基化haplotype都需要进行该值的计算，MHF的计算公式示例如下：

MHFi,h＝(Ni,h)/Ni

其中i表示目标甲基化区间，h表示目标的甲基化haplotype，Ni表示位于目标甲基化区间的reads数目，Ni,h表示包含目标甲基化haplotype的reads数目

2)平均甲基化水平(AMF)的计算，对于每个目标区域计算区域内甲基化的平均水平。公式如下：

其中m为该目标中总的CpG位点数，i为区间内每个CpG位点，N_C,i为该CpG位点碱基为C的reads数(即该位点发生甲基化的reads数)，N_T,i为该CpG位点碱基为T的reads数(即该位点未甲基化的测序reads数)

6.特征矩阵构建

1)将训练集和测试集的各个样本的甲基化单倍型比例(MHF)和平均甲基化水平(AMF)数据分别合并成数据矩阵，对每个深度低于200的位点做缺失值处理。

2)去除缺失值比例高于10％的位点。

3)对于数据矩阵的缺失值，利用KNN算法进行缺失数据插补。首先使用训练集利用KNN算法训练插补器，然后分别对训练集矩阵和测试集矩阵进行插补。

7.根据特征矩阵筛选甲基化标志物(图1)

1)对训练集随机分成3折，取其中2份作为训练集构建逻辑回归模型，其中1份作为验证数据，对验证数据进行预测。重复5次后，计算每个目标区域验证集平均AUC。对每个目标区域筛选AUC最大的特征作为该区域的代表特征，并按照AUC从大到小排序。

2)将训练集随机分成5份做5折交叉验证，重复10次，进行增量特征筛选。具体过程为：留出训练集中的一份数据作为验证数据，其余训练集数据作为训练数据。按照上述顺序依次将每个区域的代表特征加入特征组合，使用4份训练数据构建逻辑回归模型，对验证数据进行预测。重复10次后计算验证数据平均AUC。

3)如果训练数据的AUC增加则保留该甲基化标志物，否则则去掉，循环过后将得到的特征组合作为甲基化标志物组合，使用所有训练集数据训练新的模型，并使用测试集数据进行验证。

实施例1，甲基化靶向测序筛选结直肠癌特异性的甲基化位点

发明人从大量候选区域中筛选出47个甲基化标志物，其基因组位置和关联基因如表1所示，甲基化标志物基因组位置指该甲基化标志物在UCSC(https://genome.ucsc.edu/cgi-bin/hgTracks？db＝hg19)HG19基因组位置。甲基化标志物关联基因指TSS距离甲基化标志物100Kb内，并且距离最近的基因。

选择SEQ ID NO:1-47所示的序列作为实施例中使用的甲基化标志物，每个甲基化标志物的所有CpG位点的甲基化水平都可以通过MethylTitan甲基化测序的方法获得。每个区域中所有CpG位点甲基化水平的均值，单个CpG位点的甲基化水平，以及区域内CpG位点甲基化单倍型组合都可以作为结直肠癌的标志物。

图2箱线图展示训练集结直肠癌和非结直肠癌47个甲基化标志物甲基化水平分布。图3箱线图展示测试集结直肠癌和非结直肠癌47个甲基化标志物甲基化水平分布。从图2和图3的箱线图中可以看出，甲基化标志物区域内的平均甲基化水平在结直肠癌癌与无结直肠癌cfDNA样品中的分布显著不同，具备良好的区分效果。

表3中P值为Mann Whitney U Test P value，甲基化水平表示该组cfDNA样品甲基化水平中位数。表3的统计结果也显示本专利的47个甲基化标志物，甲基化水平在结直肠癌和非结直肠癌样本间具有显著性的差异(P<0.001)，是良好的结直肠癌甲基化标志物。

表3，在训练集和测试集中甲基化标志物在结直肠癌中的甲基化水平

实施例2，单个甲基化标志物判别性能

为了验证单个甲基化标志物的区分结直肠癌和无结直肠癌的性能，使用单个marker的甲基化水平数据在实施例1训练集数据中训练模型，并使用测试集样本对模型的性能进行验证。

使用python(V3.9.7)中的sklearn(V1.0.1)包中的逻辑回归模型：model＝LogisticRegression()，该模型的公式如下，其中x为样本目标marker的甲基化水平值，w为不同marker的系数，b为截距值，y为模型预测分值:

使用训练集的样本进行训练:model.fit(Traindata,TrainPheno),其中TrainData是训练集样本中目标甲基化位点的数据，TrainPheno是训练集样本的性状(结直肠癌为1，无结直肠癌为0)，并根据训练集的样本确定模型的相关阈值。

使用测试集的样本进行测试:TestPred＝model.predict_proba(TestData)[:,1]，其中TestData为测试集样本中目标甲基化位点的数据，TestPred为模型预测分值，使用该预测分值并根据上述阈值对样本是否是结直肠癌进行判断。

本实施例中单个甲基化标志物逻辑回归模型的效果见表4，从该表中可看出，所有的甲基化标志物的不论在测试集和训练集都可以达到0.75以上的AUC，都是较好的结直肠癌标志物。

本专利中单个甲基化标志物均可作为结直肠癌标志物，采用逻辑回归建模，根据训练集设置阈值，大于阈值则预测为结直肠癌，反之则预测为非结直肠癌，训练集和测试集都能达到很好的准确性，特异性和灵敏性，采用其它机器学习模型也可达到相似效果。

表4.单个甲基化标志物逻辑回归模型的表现

实施例3，所有目标甲基化标志物的机器学习模型ALLMODEL

本实施例使用所有的47个甲基化标志物的甲基化水平构建了逻辑回归的机器学习模型ALLMODEL，数据中准确区分出结直肠癌和非结直肠癌的样本。具体的步骤与实施例2基本一致，不同之处是使用了所有47个目标甲基化标志物组合(SEQ ID NO:1-47)的数据输入模型。

训练集和测试集中模型预测分值分布见图4。ROC曲线见图5，在训练集中结直肠癌和无结直肠癌样本区分的AUC达到了0.965，测试集中，结直肠癌和无结直肠癌样本区分的AUC达到了0.965，设置阈值为0.441，大于该值预测为结直肠癌，反之则预测为无结直肠癌，在该阈值下，训练集准确性为0.894，训练集特异性为0.932，训练集敏感性为0.859，测试集准确性为0.892，测试集特异性为0.914，测试集敏感性为0.867，该模型可以较好地从样本中区分出结直肠癌和无结直肠癌样本。

实施例4，甲基化标志物组合1的机器学习模型SUBMODEL1

为了验证相关标志物组合的效果，本实施例从所有的47个甲基化标志物的甲基化水平中挑选SEQ ID NO:4,SEQ ID NO:11,SEQ ID NO:15,SEQ ID NO:18,SEQ ID NO:19,SEQID NO:30,SEQ ID NO:34,SEQ ID NO:37,SEQ ID NO:41共9个甲基化标志物构建了逻辑回归的机器学习模型SUBMODEL1。

机器学习模型构建的方法也同实施例2一致，但相关样本只使用了该实施例中的以上9个标志物的数据，该模型在训练集和测试集中的模型得分见图6，该模型ROC曲线见图7。可看出该模型在训练集和测试集中，结直肠癌和无结直肠癌样本分值同其他癌种分值具有显著差异，该模型训练集中腺癌和无结直肠癌样本区分的AUC达到了0.921，测试集中，结直肠癌和无结直肠癌样本区分的AUC达到了0.917，设置阈值为0.502，大于该值预测为结直肠癌，反之则预测为无结直肠癌，在该阈值下，训练集准确性为0.854，训练集特异性为0.822，训练集敏感性为0.885，测试集准确性为0.800，测试集特异性为0.800，测试集敏感性为0.800，说明了该组合模型良好的性能。

实施例5，甲基化标志物组合2的机器学习模型SUBMODEL2

为了验证相关标志物组合的效果，本实施例从所有的47个甲基化标志物的甲基化水平中挑选SEQ ID NO:1,SEQ ID NO:21,SEQ ID NO:29,SEQ ID NO:36,SEQ ID NO:44,SEQID NO:47共6个甲基化标志物构建了逻辑回归的机器学习模型SUBMODEL2。

机器学习模型构建的方法也同实施例2一致，但相关样本只使用了该实施例中的以上6个标志物的数据，该模型在训练集和测试集中的模型得分见图8，该模型ROC曲线见图9。可看出该模型在训练集和测试集中，结直肠癌和无结直肠癌样本分值具有显著差异，该模型训练集中结直肠癌和无结直肠癌样本区分的AUC达到了0.916，测试集中，结直肠癌和无结直肠癌样本区分的AUC达到了0.879，设置阈值为0.392，大于该值预测为结直肠癌，反之则预测为无结直肠癌，在该阈值下，训练集准确性为0.841，训练集特异性为0.877，训练集敏感性为0.822，测试集准确性为0.785，测试集特异性为0.714，测试集敏感性为0.867，说明了该组合模型良好的性能。

实施例6，甲基化标志物组合3的机器学习模型SUBMODEL3

为了验证相关标志物组合的效果，本实施例从所有的47个甲基化标志物的甲基化水平中挑选SEQ ID NO:6,SEQ ID NO:10,SEQ ID NO:13,SEQ ID NO:14,SEQ ID NO:22,SEQID NO:28,SEQ ID NO:43共7个甲基化标志物构建了逻辑回归的机器学习模型SUBMODEL3。

机器学习模型构建的方法也同实施例2一致，但相关样本只使用了该实施例中的以上7个标志物的数据，该模型在训练集和测试集中的模型得分见图10，该模型ROC曲线见图11。可看出该模型在训练集和测试集中，结直肠癌和无结直肠癌样本分值同其他癌种分值具有显著差异，该模型训练集中腺癌和无结直肠癌样本区分的AUC达到了0.911，测试集中，结直肠癌和无结直肠癌样本区分的AUC达到了0.932，设置阈值为0.507，大于该值预测为结直肠癌，反之则预测为无结直肠癌，在该阈值下，训练集准确性为0.848，训练集特异性为0.973，训练集敏感性为0.731，测试集准确性为0.815，测试集特异性为0.971，测试集敏感性为0.633，说明了该组合模型良好的性能。

Claims

1.一种结直肠癌甲基化标志物，其是分离的来自哺乳动物的核酸分子，所述核酸分子的序列包括：(1)SEQ ID NO:1-47中任一种或多种或全部所示的序列或其互补序列或变体，所述变体是与相应序列具有至少70％相同性的变体，并且所述变体中的甲基化位点未发生突变，或(2)(1)的经处理的序列，所述处理使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基，

优选地，项目(1)选自以下任一组：

(1.1)以下序列中任一种或多种或全部：SEQ ID NO:4、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:30、SEQ ID NO:34、SEQ ID NO:37、SEQ ID NO:41，或其互补序列或变体，任选还包括SEQ ID NO:1-47中其余序列的任一种或多种或其互补序列或变体，

(1.2)以下序列中任一种或多种或全部：SEQ ID NO:1、SEQ ID NO:21、SEQ ID NO:29、SEQ ID NO:36、SEQ ID NO:44、SEQ ID NO:47，或其互补序列或变体，任选还包括SEQ IDNO:1-47中其余序列的任一种或多种，

(1.3)以下序列中任一种或多种或全部：SEQ ID NO:6、SEQ ID NO:10、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:22、SEQ ID NO:28、SEQ ID NO:43，或其互补序列或变体，任选还包括SEQ ID NO:1-47中其余序列的任一种或多种或其互补序列或变体。

2.通过检测DNA甲基化筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后的试剂，所述试剂包含检测对象的样品中标志物的甲基化水平的试剂，所述标志物是DNA序列以及该DNA序列的上游5kb和下游5kb、或其片段、或其中一个或多个CpG二核苷酸，所述DNA序列包括以下基因序列中的一种或多种或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2，

优选地，

所述DNA序列包括选自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部；或者

所述DNA序列包括选自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部；或者

所述DNA序列包括选自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部，

更优选地，所述试剂具有选自以下的一项或多项特征：

所述标志物包含至少3个CpG二核苷酸，

所述片段长度为1-1000bp，优选1-700bp，

所述片段是基因序列的启动子区域或其部分，

所述试剂包含与所述标志物或其经转化的序列杂交的引物分子，

所述试剂包含与标志物或其经转化的序列杂交的探针分子，

所述样品来自哺乳动物。

3.记载有DNA序列或其片段和/或其甲基化信息的介质，所述DNA序列包括：

或(ii)(i)的经处理的序列，所述处理使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基，

优选地，

更优选地，所述介质具有选自以下的一项或多项特征：

所述标志物包含至少3个CpG二核苷酸，

所述的片段长度为1-1000bp，优选1-700bp，

所述片段是基因序列的启动子区域或其部分，

所述介质是印有所述DNA序列或其片段和/或其甲基化信息的载体，包括卡片，例如纸质、塑料、金属、玻璃卡片，

所述介质是存储有所述序列和/或其甲基化信息和计算机程序的计算机可读介质，当所述计算机程序被处理器执行时，实现下述步骤：将样品的甲基化测序数据与所述序列或信息比较，从而获得所述样品中含所述序列的核酸分子的存在、含量和/或甲基化水平，并据此筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后。

4.以下(a)和任选的(b)在制备用于筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后的试剂盒中的用途，

5.如权利要求4所述的用途，其特征在于，

所述DNA序列包括选自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部，或者

所述DNA序列包括选自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部，或者

所述DNA序列包括选自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部。

6.如权利要求4或5所述的用途，其特征在于，所述试剂包含与所述标志物或其经转化的序列杂交的引物分子，和/或所述试剂包含与所述标志物或其经转化的序列杂交的探针分子，

优选地，所述用途还具有选自以下的一项或多项特征：

所述标志物包含至少3个CpG二核苷酸，

所述片段长度为1-1000bp，优选1-700bp，

所述片段是基因序列的启动子区域或其部分，

所述装置包含权利要求3所述的介质，

所述对象是哺乳动物，

所述样品来自哺乳动物的组织、细胞或体液，优选血液，

所述DNA序列是：相应标志物在基因组中的序列、或其经转化的序列、或其经甲基化敏感型限制性内切酶处理的序列，所述转化使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基，

所述试剂盒还包括PCR反应试剂，

所述试剂盒还包括检测DNA甲基化的其他试剂，所述其他试剂是选自以下方法的一个或多个中所用的试剂：基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱；优选地，所述其他试剂选自以下一种或多种：重亚硫酸盐、亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其衍生物，甲基化敏感或不敏感的限制性内切酶，酶切缓冲液，荧光染料，荧光淬灭剂，荧光报告剂，外切核酸酶，碱性磷酸酶，内标，对照物，

所述筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后包括：比较标记物的甲基化水平和相应的参考水平，并根据评分筛查结直肠癌风险、诊断结直肠癌、评估结直肠癌预后。

7.一种用于筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的方法，包括：

(2)比较步骤(1)中标记物的甲基化水平和相应的参考水平，

(3)根据比较结果筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后，

优选地，

所述DNA序列包括选自CACNA1E、PITX2、CRHBP、TBX20、SORCS3、B3GAT1、GLT1D1和LRRK1的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部，或

在一个或多个实施方案中，所述DNA序列包括选自TTLL10、ACTR3B、BARX1、CUX2、DNM2和SIM2的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部，或

在一个或多个实施方案中，所述DNA序列包括选自UBE2F、HMX1、IRX4、IRX1、VIPR2、OSR2和MYO15B的一种或多种或全部，任选还包括(p)中的其他基因序列中的一种或多种或全部，

更优选地，所述方法具有选自以下的一项或多项特征：

所述标志物包含至少3个CpG二核苷酸，

所述片段长度为1-1000bp，优选1-700bp，

所述片段是基因序列的启动子区域或其部分，

所述方法在步骤(1)之前还包含从对象获取含有DNA的生物样品的步骤；优选地，步骤(1)包括使用本文所述的引物分子、探针分子和/或介质进行所述检测，

步骤(2)中的比较包括：直接比较步骤(1)中标记物的甲基化水平和参考水平，或者通过计算得出评分并比较标记物的甲基化水平的评分和相应的参考评分；优选地，所述评分通过逻辑回归模型进行计算，

步骤(3)包括：当标记物的甲基化水平大于参考水平，或者甲基化水平的评分大于参考评分，则所述对象有形成结直肠癌的风险、患有结直肠癌或结直肠癌预后不良，

所述检测包括但不限于：基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱，

所述样品来自哺乳动物的组织、细胞或体液，优选血液，

所述DNA序列是：相应标志物在基因组中的序列、或其经转化的序列、或其经甲基化敏感型限制性内切酶处理的序列，所述转化使其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。

8.用于筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的试剂盒，包含：

其中，所述DNA序列包括以下基因序列中的一种或多种或全部：(p)TTLL10、ST6GALNAC5、KCNA3、CACNA1E、TRAPPC12、UBE2F、ZIC4、ZNF595、EVC2、HMX1、PITX2、POU4F2、IRX4、IRX1、CRHBP、KCNMB1、KCNQ5、TBX20、ACTR3C、ACTR3B、VIPR2、SOX17、MOS、PREX2、GDF6、OSR2、BARX1、SORCS3、VAX1、DPYSL4、UTF1、B3GAT1、HOXC13、CUX2、GLT1D1、ITGBL1、SKOR1、TM6SF1、LRRK1、FOXL1、MYO15B、DNM2、ZNF536、YTHDF1、SIM2，

优选地，

更优选地，所述方法具有选自以下的一项或多项特征：

所述标志物包含至少3个CpG二核苷酸，

所述片段长度为1-1000bp，优选1-700bp，

所述片段是基因序列的启动子区域或其部分，

所述试剂包含与所述标志物或其经转化的序列杂交的探针分子，

所述装置包含权利要求3所述的介质，

所述对象是哺乳动物，

所述样品来自哺乳动物的组织、细胞或体液，优选血液，

所述DNA序列是：相应标志物在基因组中的序列、或其经转化的序列、或其经甲基化敏感型限制性内切酶处理的序列，所述转化使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基。

9.如权利要求8所述的试剂盒，其特征在于，

所述试剂盒还包括PCR反应试剂，或

所述试剂盒还包括检测DNA甲基化的其他试剂，所述其他试剂是选自以下方法的一个或多个中所用的试剂：基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱，

优选地，所述检测DNA甲基化的其他试剂选自以下一种或多种：重亚硫酸盐、亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其衍生物，甲基化敏感或不敏感的限制性内切酶，酶切缓冲液，荧光染料，荧光淬灭剂，荧光报告剂，外切核酸酶，碱性磷酸酶，内标，对照物。

10.一种用于筛查结直肠癌风险、诊断结直肠癌或评估结直肠癌预后的装置，所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

(2)比较步骤(1)中标记物的甲基化水平和相应的参考水平，

优选地，

更优选地，所述方法具有选自以下的一项或多项特征：

所述标志物包含至少3个CpG二核苷酸，

所述片段长度为1-1000bp，优选1-700bp，

所述片段是基因序列的启动子区域或其部分，

所述装置包含权利要求3所述的介质，

所述对象是哺乳动物，

所述样品来自哺乳动物的组织、细胞或体液，优选血液，

所述检测包括但不限于：基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。