CN112210602A

CN112210602A - 基于粪便样本的结直肠癌筛查方法

Info

Publication number: CN112210602A
Application number: CN201910634063.5A
Authority: CN
Inventors: 刘蕊
Original assignee: Singlera Genomics Inc
Current assignee: Singlera Genomics Inc
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-01-12
Anticipated expiration: 2039-07-12
Also published as: CN112210602B

Abstract

本申请公开了一种能够准确检测结直肠癌或结直肠癌前病变腺瘤的方法、试剂盒以及相关的非暂态计算机可读介质和计算机系统。本申请提供的方案通过从至少四个维度综合分析受试者的粪便样本中的血液成分、基因突变、DNA甲基化及肠道细菌含量，从而实现结直肠癌的早期检测，特别是在腺瘤阶段的准确检测。

Description

基于粪便样本的结直肠癌筛查方法

发明领域

本发明涉及癌症筛查领域，具体涉及基于粪便样本分析的结直肠癌无创筛查。

背景技术

结直肠癌是全球第三位常见恶性肿瘤，也是我国常见恶性肿瘤。根据疾病的发展阶段，结直肠癌被分为I-IV期。对于IV期结直肠癌患者，总体生存率非常低，5年生存率不足10％。而I期的患者能达到90％以上的生存率。因此，为了改善肠癌的整体预后，早期诊治显得至关重要。

现阶段，中国的大肠癌筛查技术主要包括粪便隐血试验、肿瘤标记物检测和肠镜检查。虽然结肠镜仍然是确诊肠癌的根本方法，但其高昂的费用、较差的可依从性以及可能的致伤性使得结肠镜难以大规模应用于无症状人群的筛查。粪便隐血试验(FOBT)和外周血癌胚抗原(CEA)虽然易被接受，但其较差的灵敏度和特异度也给肠癌早期诊治带来了挑战。

近年来，发现肠上皮细胞内的表观遗传学和遗传学的改变可能有助于结直肠癌的诊断。目前，Septin9基因甲基化已经拥有了商业化试剂盒Epi proColon 2.0。综合检测BMP3和NDRG4基因甲基化以及KRAS和B-actin基因突变的粪便DNA试剂盒Cologuard也已经在美国上市。但是它们共同的问题是结直肠癌的检测效率有待进一步提高，且对早期腺瘤的检测效率极低。

也有研究表明，肠道菌群可能在促进肠癌的发生发展的过程中发挥着重要作用。随着全基因组测序技术的发展，越来越多的肠道细菌被发现并证明与结直肠癌的发生密切相关。研究发现具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)在肠癌患者的粪便中异常增多，并且与肠癌的发生关系密切相关。因此粪便样本中细菌DNA含量的分析，可能可以作为结直肠癌筛查的标志物。

但是，目前的方法对肠癌特别是早期腺瘤的诊断仍然存在缺陷，因此需要更好的肠癌早期诊断分析方法或系统。

发明内容

在一方面，本申请提供了一种用于分析粪便样品以检测结直肠癌或结直肠癌前病变腺瘤的试剂盒，其包含以下成分：

a)能够检测所述样品中的血红蛋白含量或存在的试剂，

b)能够检测所述样品中的基因突变的试剂，所述基因包括KRAS和一种或多种选自下组的基因：BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR，

c)能够检测所述样品中的甲基化位点的甲基化的试剂，所述甲基化位点包括BMP3和NDRG4基因中的甲基化位点，和一种或多种选自SEPT9，ALX4、APC、MLH1、ITGA4、SFRP2、SFRP5、Vimentin、HIC1，和HLTF基因中的甲基化位点，和

d)能够检测所述样品中的细菌含量的试剂，所述细菌包括一种或多种选自下组的细菌：具核梭杆菌(F.nucleatum)、微小微单胞菌(P.micra)、Peptostreptococcusstomatis(P.stomatis)和Solobacterium moorei(S.moorei)。

在某些实施方式中，所述检测包括：

a)检测所述粪便样品中是否存在血红蛋白或者血红蛋白的含量或存在；

b)检测所述粪便样品中的所述基因是否存在突变；

c)检测所述粪便样品在所述甲基化位点的甲基化程度；和

d)检测所述粪便样品中的所述细菌的含量。

在某些实施方式中，所述的试剂盒中能够检测所述样品中的血红蛋白含量或存在的所述试剂包括特异性结合血红蛋白的抗体。

在某些实施方式中，所述的试剂盒中能够检测所述基因突变的所述试剂包括：能够扩增所述基因的突变区域的第一组寡核苷酸引物，或者能够区分性结合所述基因的突变区域的第一组寡核苷酸探针。

在某些实施方式中，所述的试剂盒中所述基因包括KRAS，BRAF和PI3KCA。

在某些实施方式中，所述的试剂盒中所述KRAS基因的所述突变区域包括KRAS中的一个或多个选自下组的突变：hg19 chr12：g.[25398284C＞A]，hg19 chr12：g.[25398285C＞A]；hg19 chr12：g.[25398285C＞G]；hg19 chr12：g.[25398285C＞T]；hg19 chr12：g.[25398284C＞G]；hg19 chr12：g.[25398282C＞A]；hg19 chr12：g.[25398281C＞A]；hg19chr12：g.[25398255G＞T]；hg19 chr12：g.[25398284C＞T]；hg19 chr12：g.[25398281C＞T]；和hg19chr12：g.[25398275C＞T]，所述BRAF基因中的所述突变区域包括hg19chr7：g.[140453136A＞T]，和所述PI3KCA中的所述突变区域包括一个或多个选自下组的突变：hg19chr3：g.[178936082G＞A]；hg19 chr3：g.[178936091G＞A]；hg19 chr3：g.[178936092A＞G]；hg19 chr3：g.[178936095A＞T]；hg chr3：g.[178936092A＞C]；hg19 chr3：g.[178952085A＞G]；和hg19 chr3：g.[178952003G＞A]。

在某些实施方式中，所述的试剂盒中所述基因还包括一种或多种选自下组的基因：TP53、APC、PTEN、ERBB2、和EGFR。

在某些实施方式中，所述的试剂盒中能够检测所述甲基化位点的甲基化的所述试剂包括：能够扩增含有所述甲基化位点的甲基化区域的第三组寡核苷酸引物。

在某些实施方式中，所述的试剂盒中所述甲基化位点包括BMP3，NDRG4，和SEPT9基因中的甲基化位点。

在某些实施方式中，所述的试剂盒中所述能够检测所述细菌含量的试剂包括：能够扩增所述细菌含有的特异性核酸的第四组寡核苷酸引物，和能够扩增细菌的通用核酸的第五组寡核苷酸引物。

在某些实施方式中，所述的试剂盒中所述通用核酸包括存在于16s rDNA中的保守序列。

在某些实施方式中，所述试剂盒还包括适用于二代测序的试剂。

在某些实施方式中，所述试剂盒还包括适用于将所述样品中的核酸以甲基化敏感的方式进行扩增的试剂。

在另一方面，本申请还提供了所述的试剂盒在制备用于诊断结直肠癌或结直肠癌前病变腺瘤的用途的诊断试剂盒中用途。

在另一方面，本申请还提供了一种非暂态计算机可读介质，其包括计算机可执行的指令，当所述计算机可执行的指令在处理器上被运行时将执行以下方法：

a)接收检测数据集，所述检测数据集包括分别表征来自受试者的粪便样品的血红蛋白含量或存在、基因突变、甲基化位点的甲基化和细菌含量的数据，其中：

i)所述基因突变包括KRAS和一种或多种选自下组的基因的突变：AKT1、NRAS、SMAD4、BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR，

ii)所述甲基化位点的甲基化包括BMP3和NDRG4基因中的甲基化位点，和一种或多种选自SEPT9，ALX4、APC、MLH1、ITGA4、SFRP2、SFRP5、Vimentin、HIC1，和HLTF基因中的甲基化位点，以及

iii)所述细菌含量选自以下组的一种或多种细菌的含量：具核梭杆菌(F.nucleatum)、微小微单胞菌(P.micra)、Peptostreptococcus stomatis(P.stomatis)和Solobacterium moorei(S.moorei)，

b)将经训练的分类器应用于所述检测数据集，所述经训练的分类器经过的训练包括：

i)将分类器应用于参比数据库，所述参比数据库包括多个参比数据集和与每个所述参比数据集相对应的类别标签，每个所述参比数据集包括分别表征来自某个对照受试者的参比粪便样品的血红蛋白含量或存在、基因突变、甲基化位点的甲基化、和细菌含量的数据，所述类别标签选自：腺瘤、腺癌(I/II期)、腺癌(III/IV期)和正常样本，以及

ii)使所述分类器建立从所述参比数据集到与之对应的所述类别标签的映射；

c)通过所述经训练的分类器建立所述检测数据集与所述类别标签的映射。

在某些实施方式中，所述的非暂态计算机可读介质中的所述方法进一步包括：根据所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结直肠癌或结直肠癌前病变腺瘤的风险，其中：如果所述检测数据集被映射为正常，则评估所述受试者为低风险；和/或如果所述检测数据集被映射为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。

在又一方面，本申请还提供了一种用于数据分析的系统，包括：

a)数据接收器，其被配置为接收检测数据集，所述检测数据集包括分别表征来自于受试者的粪便样品的血红蛋白含量或存在、基因突变、甲基化位点的甲基化和细菌含量的数据，其中：

ii)所述甲基化位点包括BMP3和NDRG4基因中的甲基化位点，和一种或多种选自SEPT9，ALX4、APC、MLH1、ITGA4、SFRP2、SFRP5、Vimentin、HIC1，和HLTF基因中的甲基化位点，以及

iii)所述细菌选自：具核梭杆菌(F.nucleatum)、微小微单胞菌(P.micra)、Peptostreptococcus stomatis(P.stomatis)和Solobacterium moorei(S.moorei)，

b)数据处理装置，其被配置为将经训练的分类器应用于所述检测数据集，并且建立所述检测数据集与所述类别标签的映射，其中所述经训练的分类器经过的训练包括：

ii)使所述分类器建立从所述参比数据集到与之对应的所述类别标签的映射。

在某些实施方式中，所述的系统中的所述数据处理装置进一步被配置为：根据所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结肠癌的风险，其中：如果所述检测数据集被映射为正常，则评估所述受试者为低风险；和/或如果所述检测数据集被映射为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。

在又一方面，本申请还提供了一种用于诊断结直肠癌或结直肠癌前病变腺瘤的方法，包括：

a)将来自受试者的粪便样品进行检测以获得如下数据：分别表征所述粪便样品中血红蛋白的含量或存在、基因突变、甲基化位点的甲基化、和一种或多种细菌的含量的数据，其中：

i)所述基因包括KRAS和一种或多种选自下组的基因：AKT1、NRAS、SMAD4、BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR，

b)将测得的所述数据输入检测数据集中，

c)将经训练的分类器应用于所述检测数据集，所述经训练的分类器经过的训练包括：

i)将分类器应用于参比数据库，所述参比数据库包括多个参比数据集和与所述每个参比数据集相对应的类别标签，每个参比数据集包括分别表征来自某个对照受试者的参比粪便样品的血红蛋白含量或存在、基因突变、甲基化位点的甲基化、和细菌含量的数据，所述类别标签选自：腺瘤、腺癌(I/II期)、腺癌(III/IV期)和正常样本，以及

ii)使所述分类器建立从所述参比数据集到与之对应的所述类别标签的映射，

d)建立所述检测数据集与所述类别标签的映射。

在某些实施方式中，其中所述方法进一步包括：根据所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结直肠癌或结直肠癌前病变腺瘤的风险，其中：如果所述检测数据集被映射为正常，则评估所述受试者为低风险；和/或如果所述检测数据集被映射为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。

在某些实施方式中，所述细菌包括具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)，所述基因包括KRAS，BRAF和PI3KCA，和/或所述甲基化位点包括SEPT9、BMP3和NDRG4。

在某些实施方式中，所述分类器采用至少一种下述算法：随机森林模型、分类和回归树(C&RT)、提升树、神经网络(NN)、支持向量机(SVM)、常规卡方自动交互检测模型、交互树、多元自适应回归样条、机器学习分类器。

在某些实施方式中，所述经训练的分类器建立的所述映射包括对表征所述血红蛋白含量或存在、所述基因突变、所述甲基化位点的甲基化、和所述细菌含量的数据进行重要性排序。

在某些实施方式中，在所述重要性排序中，重要性最高的是表征所述血红蛋白含量或存在的数据，和/或重要性第二的是表征所述具核梭杆菌(F.nucleatum)的含量的数据，和/或重要性第三的是表征KRAS基因的突变的数据，和/或重要性第四的是表征SEPT9和/或BMP3的甲基化的数据，和/或重要性第五的是表征微小微单胞菌(P.micra)的含量的数据。

附图说明

图1显示了粪便隐血检测结直肠腺瘤和腺癌试验结果。

图2显示了粪便DNA突变检测结直肠腺瘤和腺癌试验结果。

图3显示了粪便DNA甲基化检测结直肠腺瘤和腺癌试验结果。

图4显示了粪便细菌含量分析检测结直肠腺瘤和腺癌试验结果。

图5显示了单一病理指征检测结直肠腺瘤和腺癌的权重分析图。

图6显示了单一项目检测与多维度检测对腺瘤、腺癌的检测灵敏度和特异性比较结果。

具体实施方式

本申请提供了准确检测结直肠癌的方法、试剂盒以及相关的非暂态计算机可读介质和计算机系统。本申请提供的方案通过从至少四个维度综合分析受试者的粪便样本中的血液成分、基因突变、DNA甲基化及肠道细菌含量，从而实现结直肠癌的早期检测，特别是在腺瘤阶段的准确检测。“受试者”在本申请中是指动物，例如人类和非人类的动物(例如哺乳动物)，如狗、猫、牛、羊、猪、兔、鼠、马、骆驼等。在某些实施方式中，受试者可以是需要筛查癌症或肿瘤风险的人，处于肿瘤高危风险的人群，正在进行治疗的病人、或患有癌症但处于恢复阶段的病人。

方法和试剂盒

在一方面，本申请提供了用于分析粪便样品以检测结直肠癌或结直肠癌前病变腺瘤的方法和试剂盒。在某些实施方式中，所述试剂盒包括以下成分：a)能够检测所述样品中的血红蛋白含量或存在的试剂，b)能够检测所述样品中的基因突变的试剂，所述基因包括KRAS和一种或多种选自下组的基因：BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR，c)能够检测所述样品中的甲基化位点的甲基化的试剂，所述甲基化位点包括BMP3和NDRG4基因中的甲基化位点，和一种或多种选自SEPT9、ALX4、APC、MLH1、ITGA4、SFRP2、SFRP5、Vimentin、HIC1，和HLTF基因中的甲基化位点，和d)能够检测所述样品中的细菌含量的试剂，所述细菌包括一种或多种选自下组的细菌：具核梭杆菌(Fusobacterium nucleatum，通常缩写为F.nucleatum)、微小微单胞菌(Parvimonas micra，通常缩写为P.micra)、Peptostreptococcus stomatis(P.stomatis)和Solobacterium moorei(S.moorei)。

在某些实施方式中，本申请提供了检测粪便样品的方法，其包括：a)检测所述粪便样品中是否存在血红蛋白或者血红蛋白的含量；b)检测所述粪便样品中的所述基因是否存在突变；c)检测所述粪便样品在所述甲基化位点的甲基化程度；和d)检测所述粪便样品中的所述细菌的含量。

I.粪便隐血

在某些实施方式中，本申请提供的所述方法和试剂盒可以检测粪便样品中的血液成分(例如血红蛋白)。

粪便样品中血液成分(也称为粪便隐血)的存在和/或含量可以反映出消化道出血的情况。血液成分例如，血红蛋白、红细胞或转铁蛋白。粪便隐血与消化道肿瘤的存在具有一定的相关性，因此是消化道肿瘤筛查中的一种指标。粪便样品中血液成分可以通过本领域公知的试剂和方法进行检测。例如，可以使用能够检测所述样品中的血红蛋白含量或存在的试剂(例如，特异性结合人血红蛋白的抗体)，以检测血红蛋白的存在和/或含量。任何适合的检测方法都可以使用，例如但不限于，ELISA，侧流免疫层析法等。在一种实施方式中，通过血红蛋白检测法(FOB)检测粪便中的隐血。例如，可以使用预置了抗血红蛋白抗体和检测试剂的试纸条，对粪便样品中的血红蛋白进行检测。在某些实施方式中，所述抗血红蛋白抗体能够检测低至0.2ug/ml的血红蛋白。

在某些实施方式中，本申请提供的试剂盒包括能够检测所述样品中的血液成分的试剂，例如可以包括特异性结合人血红蛋白的抗体。在某些实施方式中，所述试剂盒可以包括带有特异性结合人血红蛋白的抗体的试纸条。

II.基因突变

在某些实施方式中，本申请提供的所述方法和试剂盒可以检测粪便样品中的某些基因突变。“基因突变”对于某个特定的基因而言，是指在该特定的基因中，和/或在该基因的一个或多个特定的位点处，具有一种或多种突变。

粪便样品中含有个体的细胞或基因组DNA。粪便样品中个体的某些基因突变可以反映出个体的消化道肿瘤的情况。有文献报道，在150名结直肠癌患者中，KRAS突变率为32％，BRAF突变率为8％，PI3KCA突变率为12％(李洪涛等，“KRAS、BRAF及PIK3CA基因突变与转移性结直肠癌的关系”，科技导报，2012年第19期)。在某些实施方式中，所述基因包括KRAS。在某些实施方式中，所述基因进一步包括一种或多种选自下组的基因：AKT1、NRAS、SMAD4、BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR。

在某些实施方式中，所述基因包括KRAS，BRAF和PI3KCA。在某些实施方式中，所述KRAS基因突变包括一个或多个选自下组的突变：hg19 chr12：g.[25398284C＞A]，hg19chr12：g.[25398285C＞A]；hg19 chr12：g.[25398285C＞G]；hg19 chr12：g.[25398285C＞T]；hg19 chr12：g.[25398284C＞G]；hg19 chr12：g.[25398282C＞A]；hg19 chr12：g.[25398281C＞A]；hg19 chr12：g.[25398255G＞T]；hg19 chr12：g.[25398284C＞T]；hg19chr12：g.[25398281C＞T]；和hg19 chr12：g.[25398275C＞T]。在某些实施方式中，所述BRAF基因突变包括hg19chr7：g.[140453136A＞T]。在某些实施方式中，所述PI3KCA基因突变包括一个或多个选自下组的突变：hg19 chr3：g.[178936082G＞A]；hg19 chr3：g.[178936091G＞A]；hg19 chr3：g.[178936092A＞G]；hg19 chr3：g.[178936095A＞T]；hgchr3：g.[178936092A＞C]；hg19 chr3：g.[178952085A＞G]；和hg19 chr3：g.[178952003G＞A]。在本申请中，对于基因突变的位置使用的是Human Genome Variation Society的标准命名规则(网站请参见：http：//vamomen.hgvs.org/)。

粪便样品中的基因突变可以通过已知的任何适合的方法进行检测，例如，但不限于，通过使用适当的核酸扩增引物或者核酸探针。

在本申请中，核酸扩增可以通过本领域公知的多种方法，包括，但不限于，基于聚合酶链式反应(PCR)的技术(例如，固相PCR、逆转录PCR、实时荧光定量PCR、多重PCR、降落PCR、纳米PCR、巢式PCR、热启动PCR等)，解旋酶依赖性扩增(HDA)，环介导等温扩增(LAMP)，自主序列复制(3SR)，基于核酸序列的扩增(NASBA)，链置换扩增(SDA)，滚环扩增(RCA)，连接酶链式反应(LCR)和任何其他合适的扩增技术。

以PCR为例，简单地说，PCR通过使用交替加热和冷却的循环以进行DNA扩增，一个循环通常包括在变性温度下使模板DNA分子解链成单链、在退火温度下使引物与单链的模板DNA分子通过碱基互补结合、和在延伸温度下使DNA聚合酶延伸引物。根据具体的情况不同，退火温度和延伸温度可以相同或不同。在PCR扩增过程中，引物中的一条可以与基因的5’-3’链的第一位置结合，另一条可以与基因的3’-5’链的第二位置结合，当通过DNA扩增反应延伸这对引物时，可以扩增从第一位置开始到第二位置结束的区域，该区域也叫模板序列，扩增得到的核酸分子称为扩增产物(本申请中也称为扩增子，两者可互换使用)。通过对扩增产物进行测序，并与野生型序列进行比较，可以知道其中是否具有突变，以及具有何种突变。

相应地，在某些实施方式中，本申请提供的试剂盒包括能够检测所述样品中的基因突变的试剂，例如，能够扩增所述基因的突变区域的第一组寡核苷酸引物。本申请所述的“引物”是指能够和/或用于启动核酸模板的复制的寡聚核苷酸分子，其通常具有7-40个核苷酸、10-38个核苷酸、15-30个核苷酸、15-25个核苷酸，或者17-20个核苷酸，并且与核酸模板有足够的互补性。例如，引物可以是长度为7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30的寡聚核苷酸。引物可以包含DNA、RNA、核酸类似物、或其任意的组合。示例性引物可以是化学合成的。

在某些实施方式中，所述第一组寡核苷酸引物能够扩增KRAS基因、BRAF基因和/或PI3KCA基因中的基因突变区域。在某些实施方式中，所述第一组寡核苷酸引物包含一个或多个选自表A中的序列。

表A

扩增的KRAS基因突变区域中可能包含的突变包括hg19 chr12：g.[25398285C＞A]；hg19 chr12：g.[25398285C＞G]；hg19 chr12：g.[25398285C＞T]；hg19 chr12：g.[25398284C＞G]；hg19 chr12：g.[25398282C＞A]；hg19 chr12：g.[25398281C＞A]；hg19chr12：g.[25398255G＞T]；hg19 chr12：g.[25398284C＞A]；hg19 chr12：g.[25398284C＞T]；hg19 chr12：g.[25398281C＞T]；和hg19 chr12：g.[25398275C＞T]等。

扩增的BRAF基因突变区域可能包含的突变包括hg19 chr7：g.[140453136A＞T]等。

扩增的PI3KCA基因突变区域可能包含的突变包括hg19 chr3：g.[178936082G＞A]；hg19 chr3：g.[178936091G＞A]；hg19 chr3：g.[178936092A＞G]；hg19 chr3：g.[178936095A＞T]；hg19 chr3：g.[178936092A＞C]；hg19 chr3：g.[178952085A＞G]；hg19chr3：g.[178952003G＞A]等。

在某些实施方式中，本申请提供的试剂盒还包括PCR扩增所需的试剂，例如但不限于，DNA聚合酶(例如不具有3’-5’核酸外切酶活性的DNA聚合酶)、单核苷酸混合物、适当的PCR扩增缓冲液等。

在某些实施方式中，所述粪便样品中的基因突变还可以通过其他适合的方法检测，例如探针结合的方法等。探针结合的方法通常使用带有检测标记的核酸探针与所述基因突变的区域特异性杂交，通过检测杂交产物的存在，检测基因突变的存在。

在某些实施方式中，本申请提供的试剂盒包括能够区分性结合所述基因的突变区域的第一组寡核苷酸探针。所述核酸探针可以特异性地结合待检测的基因突变区域。

III.DNA甲基化

在某些实施方式中，本申请提供的所述方法和试剂盒可以检测粪便样品中的某些甲基化位点是否存在甲基化。DNA甲基化是基因的表观修饰方式之一。真核生物中的甲基化可以发生于胞嘧啶，即在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5’-端的胞嘧啶转变为5’-甲基胞嘧啶。“甲基化位点”是指在基因组中的一段DNA序列，其中含有一个或多个可能存在5-甲基胞嘧啶(5-mC或5-mCyt)的CpG二核苷酸位点。在某些实施方式中，甲基化位点可以存在于基因组序列中，例如一个或多个基因的基因组序列中(例如外显子，内含子，调控序列等)。

粪便样品中含有个体的细胞或基因组DNA。粪便样品中个体的某些甲基化位点的甲基化情况可以反映出个体的消化道肿瘤的情况。在某些实施方式中，所述甲基化位点包括BMP3和NDRG4基因中甲基化位点。结直肠癌组织NDRG4基因甲基化异常发生率高，粪便和尿中NDRG4甲基化异常可作为结直肠癌早期诊断的肿瘤标志物。BMP3和NDRG4甲基化检测被应用于FDA批准的产品Cologuard中用于结直肠癌粪便样本检测。

在某些实施方式中，所述甲基化位点进一步包括存在于基因组的一种或多种选自SEPT9、ALX4、APC、MLH1、ITGA4、SFRP2、SFRP5、Vimentin、HIC1、和HLTF基因中的甲基化位点。临床筛查实验证明，甲基化SEPT9基因是结直肠癌发生过程中早期的特异性生物标志物。在结直肠癌早期阶段，甲基化SEPT9基因从坏死或凋亡的肿瘤细胞被释放到外周循环血液，通过检测外周血SEPT9基因的甲基化水平可以判断结直肠癌的患病风险。目前SEPT9基因甲基化检测已被应用于FDA批准的产品Epi proColon中，用于结直肠癌血液样本检测。

在某些实施方式中，所述甲基化位点包括BMP3，NDRG4，和SEPT9基因中的甲基化位点。

粪便样品中的甲基化位点甲基化可以通过已知的任何适合的方法进行检测，例如，但不限于，质谱法、甲基化特异性PCR(MSP)、甲基化敏感测序(例如亚硫酸氢盐测序)、通过连接介导的PCR进行HapII小片段富集测定(HELP测定)、Glal水解和连接接头依赖性PCR测定(GLAD-PCR测定)、限制性标记基因组扫描(RLGS)、甲基化DNA免疫共沉淀(MeDIP或mDIP)、焦磷酸测序、对DNA腺嘌呤甲基转移酶活性进行分子断裂光分析、甲基敏感DNA印迹法或高分辨率熔解(HRM)分析等。

在某些实施方式中，本申请提供的所述方法可以包括将粪便样品中的DNA通过甲基化敏感的方式进行处理。例如，可以使用亚硫酸氢盐，或甲基化敏感限制性内切酶处理粪便样品中的DNA。亚硫酸氢盐法涉及使用亚硫酸氢盐处理基因组DNA，以使得未发生甲基化的胞嘧啶被转化为尿嘧啶，而甲基化的胞嘧啶保持不变。甲基化敏感限制性内切酶(MSRE)可以以甲基化敏感的方式识别其酶切位点。例如，有的MSRE可以选择性地切割不具有甲基化的酶切位点；有的MSRE可以选择性地切割具有甲基化的酶切位点。示例性的MSRE可以选自，例如，HpaII、SalI、

ScrFI、BbeI、NotI、SmaI、XmaI、MboI、BstBI、ClaI、MluI、NaeI、NarI、PvuI、SacII、HhaI、或其任意组合。

在某些实施方式中，本申请提供的所述方法可以进一步包括对所述甲基化敏感的方式处理后的样品进行核酸扩增。例如，可以使用适当的引物，扩增包含所述甲基化位点的甲基化区域。

在某些实施方式中，本申请提供的试剂盒包括适用于将所述样品中的核酸以甲基化敏感的方式进行扩增的试剂。例如，亚硫酸氢盐(例如亚硫酸氢钠)，和甲基化敏感限制性内切酶。在某些实施方式中，本申请提供的试剂盒可以包括能够检测所述样品中的甲基化位点甲基化的试剂，例如，能够扩增所述甲基化位点的第三组寡核苷酸引物。

在某些实施方式中，所述第三组寡核苷酸引物能够扩增SEPT9基因、BMP3基因和/或NDRG4基因中包含所述甲基化位点的甲基化区域。在某些实施方式中，所述第三组寡核苷酸引物包含一个或多个选自表B中的序列。

表B

上述引物扩增的SEPT9甲基化区域包含hg19 chr17：75369421到chr17：75369590。这段区域的长度为170个碱基。在某些实施方式中，所述第三组寡核苷酸引物检测的所述样品中的甲基化位点包括hg19 chr17：75369421到chr17：75369590范围内的所有可能被甲基化的位点。

上述引物扩增的NDRG4甲基化区域包含hg19 chr16：58547533到chr16：58547714。这段扩增区域的长度为182个碱基。在某些实施方式中，所述第三组寡核苷酸引物检测的所述样品中的甲基化位点包括hg19 chr16：58547533到chr16：58547714范围内的所有可能被甲基化的位点。

上述引物扩增的BMP3甲基化区域包含hg19 chr4：81952329：到chr4：81952525。这段扩增区域的长度为197个碱基。在某些实施方式中，所述第三组寡核苷酸引物检测的所述样品中的甲基化位点包括hg19 chr4：81952329：到chr4：81952525范围内的所有可能被甲基化的位点。

IV.细菌含量

在某些实施方式中，本申请提供的所述方法和试剂盒可以检测粪便样品中的某些细菌的含量。大量的研究已经表明，肠道菌群的作用十分广泛，可以影响肠道上皮细胞的重塑与分化、促进上皮间质转化；可以调控细胞的增殖和凋亡；甚至可以直接导致DNA损伤、染色体不稳定性、影响表观遗传修饰。因此，肠道菌群被认为在促进肠癌的发生发展的过程中发挥着重要作用。随着全基因组测序技术的发展，越来越多的肠道细菌被发现并证明与结直肠癌的发生密切相关。因此粪便样本中细菌DNA含量的分析，可作为结直肠癌筛查的标志物。

粪便中某些细菌含量与结直肠腺瘤和腺癌有重要关系。在晚期的结肠癌中发现了具核梭杆菌，这种具核梭杆菌已深入到结肠癌肿瘤中。结直肠癌中梭杆菌的富集，可能提示这些微生物有助于肿瘤的发生，可能为预防、诊断和预后策略提供依据。在一些实施方案中，所述细菌包括一种或多种选自下组的细菌：具核梭杆菌(F.nucleatum)，微小微单胞菌(P.micra)，P.stomatis和S.moorei。在一些实施方案中，所述细菌包括具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)。研究发现具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)在肠癌患者的粪便中异常增多，并且与肠癌的发生关系密切相关。

可以通过任何合适的方法检测粪便中的特定细菌的含量。在某些实施方式中，本申请提供的所述方法可以包括一种或多种以下方法，例如，处理粪便样品以裂解其中的细胞(例如通过破坏细胞的细胞膜)，分离得到其中的核酸分子(例如DNA)，确定所述核酸分子(例如DNA)中目标核酸分子的含量。

在某些实施方式中，所述方法包括扩增一种或多种目标核酸分子。在某些实施方式中，所述目标核酸分子可以包括在生物分类学上指示细菌的通用核酸。所述通用核酸可以是保守存在于细菌中的核酸序列。在一些实施方式中，所述通用核酸包括存在于16srDNA中的保守序列。16S rDNA编码细菌核糖体的一个亚基，长度约1.5Kb左右。16S rDNA存在于所有的细菌染色体中，其中具有高度保守的区域，在不同种类的细菌中都能找到。针对16S rDNA中的此类保守序列设计通用引物，可以通过PCR扩增，反映细菌的总量。例如，通过检测粪便样品中的细菌的通用核酸(例如16S rDNA中保守序列)，可以反映粪便样品中所含的细菌的总量。16S rDNA中的保守序列的例子包括，但不限于SEQ ID NO：39

在某些实施方式中，所述目标核酸分子还可以包括目标菌种特异性的核酸。目标菌种特异性的核酸是指在目标菌种中存在、但是在非目标菌种中不存在的核酸。通过检测粪便中目标菌种特异性的核酸，可以反映粪便样品中所含的目标菌种的总量。在某些实施方式中，所述目标菌种包括具核梭杆菌(F.nucleatum)和/或微小微单胞菌(P.micra)。在某些实施方式中，所述目标菌种特异性核酸包括16S rDNA中的菌种特异性序列。16S rDNA中除了高度保守的区域外，还有高度可变的区域，该可变区域能体现不同菌属之间的差异，常常被用于鉴定细菌的菌种。在某些实施方式中，具核梭杆菌(F.nucleatum)特异性的核酸包括，例如但不限于，SEQ ID NO：37

微小微单胞菌(P.micra)特异性的核酸包括，例如但不限于，SEQ ID NO：38

可以通过任何适当的方法检测粪便样品中存在的所述目标核酸分子的含量。例如，可以通过实时定量PCR(RT-PCR)的方法测定目标核酸分子的含量。例如，可以在PCR的反应体系中加入DNA双链染料(例如SYBR)，指示PCR反应体系中DNA双链的含量，随着PCR的进行，DNA双链增加，染料的信号也相应增加。再例如，可以在PCR的反应体系中加入能够特异性结合目标核酸单链的探针，在探针的两端分别标记报告荧光基团和淬灭荧光基团。PCR扩增时会导致与模板DNA结合的探针被降解，相应产生游离的荧光基团以及荧光信号。

在某些实施方式中，所述方法还包括基于细菌通用核酸的量和目标菌种特异性核酸的量，得到目标菌种在细菌中的含量百分比。

本申请提供的试剂盒包括能够检测所述样品中的某些细菌的含量的试剂，例如，能够扩增所述细菌含有的特异性核酸的第四组寡核苷酸引物，和能够扩增细菌的通用核酸的第五组寡核苷酸引物。在某些实施方式中，所述通用核酸包括16S rDNA中的保守序列。16S rDNA中的保守序列的例子包括，但不限于SEQ ID NO：39。在某些实施方式中，所述特异性核酸包括16S rDNA中的微小微单胞菌特异性的核酸序列，或16S rDNA中的具核梭杆菌特异性的核酸序列。任何能够特异性存在于微小微单胞菌或具核梭杆菌中的核酸序列都可以适用于本发明。具核梭杆菌特异性核酸序列的例子包括：SEQ ID NO：37；微小微单胞菌特异性核酸序列的例子包括：SEQ ID NO：38。在某些实施方式中，所述第四组和第五组寡核苷酸引物包含一个或多个选自表C中的序列。

表C

上述引物扩增得到的16S rDNA中的保守序列扩增子包含SEQ ID NO：39。这段扩增区域的长度为144个碱基。

上述引物扩增得到的16S rDNA中的具核梭杆菌(F.nucleatum)特异区域的扩增子包含SEQ ID NO：37。这段扩增区域的长度为90个碱基。

上述引物扩增得到的16S rDNA中的微小微单胞菌(P.micra)特异区域的扩增子包含SEQ ID NO：38。这段扩增区域的长度为99个碱基。

V.核酸提取

本申请提供的方法涉及检测粪便样品中的核酸，例如DNA突变、DNA甲基化以及细菌DNA的含量。在某些实施方式中，本申请提供的方法包括提取粪便样品中的核酸(例如DNA)。所述核酸可以包括宿主(例如人类)的DNA，也可以包括宿主肠道中的共生微生物(例如细菌)的DNA。从粪便样品中提取DNA的方法是本领域公知的。在某些实施方式中，样品可以经过处理，以裂解其中的细胞并释放出细胞中的DNA。可选地，还可以使用RNA酶进行处理，以除去RNA。可选地，还可以对样品中的DNA进行进一步的纯化或浓缩，例如，通过乙醇沉淀法、酚氯仿提取法、磁珠分离法等。示例性的从粪便样品中提取DNA的方法可参见，例如，Coll et al(J.of Clinical Microbiology 1989 27：2245-2248)、Sidransky et al(Science 1992 256：102-105)、Villa(Gastroenterology 1996 110：1346-1353)以及Nollau(BioTechniques 1996 20：784-788)等。

相应地，本申请提供的试剂盒可以进一步含有与核酸提取相关的试剂，例如但不限于，DNA纯化柱、乙醇、酚氯仿、磁珠等。

VI.二代测序

在某些实施方式中，本申请提供的所述方法通过二代测序的方法检测所述基因突变、甲基化位点甲基化和/或所述细菌含量。

“二代测序”在本申请中是指，采用以基本上并行的方式测定众多(通常数千至数十亿)核酸序列的方法。即，在制备DNA模板用于测序时，不是一次制备一个，而是批量制备，并且优选地以并行的方式读取众多序列，或者可选地，采用超高通量的串行过程并且其该过程本身可并行运行。这些方法包括但不限于焦磷酸测序(例如，来自于454生命科学公司(布兰福德，康涅狄格州)的商业化技术)；通过连接测序(例如，商业化的SOLiD^TM技术(生命科技公司，卡尔斯巴德，加利福尼亚州))；通过使用修饰的核苷酸合成进行测序(例如，商业化的TruSeq^TM和HiSeq^TM技术(Illumina，公司，圣地亚哥，加利福尼亚州)；HeliScope^TM技术(Helicos生物科学公司，剑桥，马萨诸塞州)；以及PacBio RS技术(加利福尼亚州的太平洋生物科学公司，门洛帕克，加利福尼亚州)；通过离子检测技术进行测序(例如，IonTorrent^TM技术(生命科技公司，卡尔斯巴德，加利福尼亚州))；DNA纳米球测序(全基因组学公司，芒廷维尤，加利福尼亚州)；基于纳米孔的测序技术(例如，由牛津纳米孔科技有限公司(牛津，英国)开发的技术)，以及其他类似的高度并行化的测序方法。

在某些实施方式中，本申请提供的所述方法中，所述步骤b)，和/或步骤c)通过二代测序的方法进行检测。

在某些实施方式中，所述二代测序的方法包括建立文库。文库的建立可以通过使用扩增引物对目标序列进行扩增，所述扩增引物在3’端具有能够特异性结合靶区域的互补序列，在5’端带有测序引物的结合部分。所述扩增引物得到的扩增产物将在两端都具有测序引物的结合部分。测序引物的结合部分的例子包括，但不限于，SEQ ID NO：46：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG，SEQ ID NO：47：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。

为了实现本申请所述方法中步骤b)和/或步骤c)中的检测，可以对待检测的基因突变区域和/或待检测的甲基化位点区域建立文库，从而选择性地扩增所需的目标序列。例如，为检测步骤b)中的所述基因突变，可以加入能够扩增所述基因的突变区域的并且在5’端带有测序引物结合部分的扩增引物，这样可以选择性地扩增待检测的基因突变区域。同样地，为检测步骤c)中的所述甲基化位点的甲基化，可以加入能够扩增所述甲基化位点的甲基化区域并且在5’端带有测序引物结合部分的扩增引物，由此实现对所述甲基化区域的选择性扩增。在某些实施方式中，本申请表A到表B中的特异性引物的5’端可以进一步包括测序引物的结合部分SEQ ID NO：46或SEQ ID NO：47。例如，当用于二代测序时，本申请表A和表B中的引物可以包括如表D所示的一个或多个引物序列：

表D用于二代测序的引物例子

在某些实施方式中，可以进一步使用测序引物对上述扩增产物进行进一步的扩增。测序引物包括测序引物部分和接头序列结合部分。测序引物部分可以结合扩增产物5’端或3’端的测序引物结合部分，通过扩增，可以得到两端具有接头序列结合部分的扩增产物。接头序列结合部分可以用于在测序中与接头序列结合，以便于测序的进行。

为对建立的文库进行测序，可以将文库中的核酸分子加入到测序用的固相基底中(例如测序芯片)。简单来说，在固相基底上固定有空间上分离的单链接头序列，而文库中的核酸分子两端具有接头序列结合部分，当其退火为单链序列后可以结合固定在固相基底上的接头序列，从而形成单链桥状结构，其中的扩增产物部分为单链。在存在单核苷酸混合物(dNTP)、DNA聚合酶时进行扩增，使得单链桥状结构中的单链扩增成双链，形成双链桥状结构。通过变性，释放出互补的单链，其再次锚定到附近的固相表面，形成单链桥状结构。通过不断循环，在固相表面上将得到成簇分布的双链扩增产物。在测序过程中，加入四种荧光标记的dNTP、DNA聚合酶以及接头引物进行扩增，在每一个测序簇延伸互补链时，每加入一个被荧光标记的dNTP就能释放出相对应的荧光，测序仪通过捕获荧光信号，并通过计算机软件将光信号转化为序列信息。

在某些实施方式中，本申请提供的试剂盒还包含对照参比物，例如用于扩增内部参照物的引物，或者已知成分和/或含量的对照DNA。

在某些实施方式中，本申请提供的试剂盒中包含的各种试剂可以分别置于不同的容器中(例如小管、小瓶)，或者其中至少部分试剂以混合物的形式置于容器中(例如PCR的反应混合物、二代测序的反应混合物等)。

在某些实施方式中，本申请提供的试剂盒还包含对所述粪便样品取样的装置。

检测结果分析和计算机系统

本申请提供的方法和试剂盒可以用于检测或诊断结直肠癌或结直肠癌前病变腺瘤。在某些实施方式中，本申请提供了所述试剂盒用于制备诊断结直肠癌或结直肠癌前病变腺瘤的用途的诊断试剂盒中的用途。可以将本申请提供的方法和试剂盒对测试样品进行检测，并对得到的检测数据进行进一步的分析，以获得对于受试者是否患有结直肠癌或结直肠癌前病变腺瘤的诊断。

i.获得检测数据

在某些实施方式中，可以使用本申请提供的方法或试剂盒获得受试者的粪便样品的检测数据，例如，但不限于，分别表征所述粪便样品中血红蛋白的含量或存在、基因突变、甲基化位点甲基化、和一种或多种细菌的含量的数据。

在本申请中，“表征基因突变”的数据是指能够反映某个特定的基因突变区域的突变的存在或者量的数据。表征基因突变的数据的一个实例是对于某个特定的基因突变区域而言，在该基因突变区域具有突变的DNA数量占检测到该区域的所有DNA的数量的百分比。为确定在某个区域是否存在突变，以hg19在该区域的标准序列作为野生型序列，将特定基因突变区域的测序结果与之比对，如果完全相同，则不存在突变，如果存在不同，则具有突变。在某些实施方式中，所述基因包括KRAS和一种或多种选自下组的基因：BRAF、P13KCA、TP53、APC、PTEN、ERBB2、和EGFR。在某些实施方式中，所述基因包括KRAS，BRAF和PI3KCA。在某些实施方式中，所述KRAS基因突变区域包括一个或多个选自下组的突变：hg19 chr12：g.[25398284C＞A]，，hg19 chr12：g.[25398285C＞A]；hg19 chr12：g.[25398285C＞G]；hg19chr12：g.[25398285C＞T]；hg19 chr12：g.[25398284C＞G]；hg19 chr12：g.[25398282C＞A]；hg19 chr12：g.[25398281C＞A]；hg19 chr12：g.[25398255G＞T]；hg19 chr12：g.[25398284C＞T]；hg19 chr12：g.[25398281C＞T]；和hg19 chr12：g.[25398275C＞T]；和/或所述BRAF基因突变包括hg19 chr7：g.[140453136A＞T]，和/或所述PI3KCA基因突变包括一个或多个选自下组的突变：hg19 chr3：g.[178936082G＞A]；hg19 chr3：g.[178936091G＞A]；hg19 chr3：g.[178936092A＞G]；hg19 chr3：g.[178936095A＞T]；hg chr3：g.[178936092A＞C]；hg19 chr3：g.[178952085A＞G]；和hg19 chr3：g.[178952003G＞A]。

在本申请中，“表征甲基化位点的甲基化”的数据是指能够反映某个特定的甲基化位点的甲基化的存在或者程度的数据。表征甲基化位点的甲基化的数据的一个实例是对于某个特定的甲基化位点而言，在该甲基化位点中的甲基化程度。甲基化程度是指某个靶甲基化位点在样品中的甲基化水平与某个参比位点在所述样品中的甲基化水平的比值。参比位点可以是，例如KRAS位点等。

“甲基化水平”是指，在样品中，某个甲基化位点在经甲基化敏感酶处理后的数量与未经处理时的数量的比值。任何适当的甲基化敏感酶都可以使用，一个示例性的例子是HapII。

在某些实施方式中，所述甲基化位点包括BMP3和NDRG4基因中的甲基化位点。在某些实施方式中，所述甲基化位点进一步包括一种或多种选自SEPT9、ALX4、APC、MLH1、ITGA4、SFRP2、SFRP5、Vimentin、HIC1、和HLTF基因中的甲基化位点。在某些实施方式中，所述甲基化位点包括BMP3，NDRG4，和SEPT9基因中的甲基化位点。

在本申请中，“表征细菌含量”的数据是指能够反映某种或某几种特定的细菌的存在或含量的数据。表征细菌含量的数据的一个实例是细菌含量，即某种或某几种特定的细菌的数量占样品中细菌总量的百分比。在某些实施方式中，所述细菌包括一种或多种选自下组的细菌：具核梭杆菌(F.nucleatum)，微小微单胞菌(P.micra)，P.stomatis，和S.moorei。在某些实施方式中，所述细菌包括具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)。

在某些实施方式中，本申请进一步包括将上述检测数据输入到检测数据集中。在某些实施方式中，检测数据集可以存储于非暂态计算机可读介质中。可以通过本领域公知的方法，例如可以使用扫描设备扫描样品的条形码，获得相应样品的检测数据并导入到检测数据集中。在某些实施方式中，检测设备在对样品进行相应的检测时，可以在检测结束后将检测数据存储在非暂态计算机可读介质中，或者传输到指定的非暂态计算机可读介质中。

ii.分类器及其训练

在某些实施方式中，所述检测数据集可以使用分类器分析。“分类器”在本申请中是指包括能够适应于包括多种参数的数据集(例如多种不同的检测标记的检测结果和/或结直肠癌的多种不同阶段)，且基于此数据集作出决定的机器学习的算法技术。分类器可以采用选自下组的至少一种算法或其组合：随机森林(RF)、分类和回归树(C&RT)、提升树、神经网络(NN)、支持向量机(SVM)、常规卡方自动交互检测模型、交互树、多元自适应回归样条、和机器学习分类器。

在某些实施方式中，所述分类器采用的算法是随机森林。随机森林的介绍和描述在本领域是公知的，例如可参见Breiman，L.Random Forests，Machine Learning 2001，45(1)，5-32。在某些实施方式中，使用随机森林数据分析模型，对所述检测数据集构建如下矩阵：每个样本是一行，每一列是样本的一种属性，样本的属性包括粪便样本隐血结果(阳性/阴性)、DNA位点突变参数(例如突变频率的数值)、DNA区域甲基化水平(数值)和细菌含量(数值)等。

在某些实施方案中，本申请方法中使用的分类器可以是经过训练的。所述经训练的分类器经过的训练可以包括用已知检测结果和已知诊断结果的样品的数据进行训练。在某些实施方案中，所述训练使用参比数据库进行。

参比数据库中可包括来自健康个体、已知患有结肠癌的个体、或已知患有结肠癌腺瘤的个体的已知样品的检测数据。例如，已知样品可以包括经活检、结肠镜检查、基因突变检测、DNA甲基化检测、或粪便隐血检测等方法，由医师且优选由胃肠病学家诊断为患有结肠癌、或患有结肠癌腺瘤、或者健康的个体的样品。来自健康个体的样品可包括那些未被鉴定为患有结肠癌或结肠癌腺瘤的个体的样品。

参比数据库可以用于训练和测试本申请的分类器。参比数据库包括多个参比数据集和与所述每个参比数据集相对应的类别标签。所述参比数据集相当于已知样品的已知检测结果，类别标签对应于已知样品的已知鉴定结果。参比数据集包括分别表征来自某个对照受试者的参比粪便样本的血红蛋白的含量(例如数值)或存在(例如阳性/阴性)、基因突变、甲基化位点的甲基化、和细菌含量的数据，其中所述的表征基因突变、甲基化位点的甲基化和细菌含量的数据，如本申请上文所述。在某些实施方式中，所述参比数据集中的表征基因突变的数据包括表征KRAS、BRAF和PI3KCA的突变的数据。在某些实施方式中，所述参比数据集中的表征甲基化位点的甲基化的数据包括表征BMP3，NDRG4，和SEPT9基因中的甲基化位点的甲基化程度的数据。在某些实施方式中，所述参比数据集中的表征细菌含量的数据包括表征具核梭杆菌和微小微单胞菌的细菌含量。类别标签可以包括，例如，腺瘤、腺癌(I/II期)、腺癌(III/IV期)和正常样本。

在某些实施方案中，所述训练包括将分类器应用于参比数据库，并且使所述分类器建立从所述参比数据集到与之对应的所述参比类别标签的映射。分类器通过学习参比数据集中的每个参数及其数据，以及每个参比数据集对应的参比类别标签，得出从每个参比数据集到其对应的参比类别标签的映射。在某些实施方式中，所述分类器采用的算法是随机森林算法。随机森林算法包括使用参比数据集和与之对应的参比类别标签，学习其中的关联关系，并由此建立多个决策树，由每个决策树对参比数据进行投票。在训练过程中，通过用多个参比数据库和多个参比类别标签使决策树和投票不断进行优化，将参比数据库中的多个检测指标的不同范围与不同的类别标签建立正确的关联，从而得到从参比数据集到类别标签的映射。

在某些实施方式中，所述经训练的分类器建立的所述映射包括对表征所述血红蛋白含量或存在、所述基因突变、所述甲基化位点的甲基化、和所述细菌含量的数据进行重要性排序。在训练过程中，分类器可以根据参比数据库中的不同检测数据与已知诊断结果之间的关系，评估不同检测数据的改变对诊断结果影响的大小。对于改变小但影响大的检测数据而言，其重要性更高，因此在分类器中占有更高的权重；反之，对于需要较大改变才能影响诊断结果的检测数据，其重要性相对较低，在分类器中占有的权重相对也较低。

在某些实施方式中，在所述重要性排序中，重要性最高的是表征所述血红蛋白含量或存在的数据。在某些实施方式中，重要性第二的是表征所述具核梭杆菌(F.nucleatum)的含量的数据。在某些实施方式中，重要性第三的是表征KRAS基因(例如hg19 chr12：g.[25398275C＞T]突变)的突变的数据。在某些实施方式中，重要性第四的是表征SEPT9和/或BMP3的甲基化程度的数据。在某些实施方式中，重要性第五的是表征微小微单胞菌(P.micra)的含量的数据。在某些实施方式中，重要性比第五次之的是表征NDRG4甲基化程度、PI3KCA hg19 chr3：g.[178936092A＞C]突变等的数据。所述重要性排序在一定程度上表征了不同检测数据与不同类别标签之间的映射关系。该重要性排序也表明了所述四个检测数据并不是同样的重要，而且需要根据其正确的权重对其检测结果进行综合分析，才能得到高准确性和高特异性的诊断结果。

通过用参比数据库的训练，可以使分类器对参比数据集的类别标签映射达到至少约75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的准确性、灵敏度、和/或特异性。

iii.对检测数据应用经训练的分类器

在某些实施方式中，将经训练的分类器应用于所述检测数据集，并且建立所述检测数据集与所述类别标签的映射。

当输入某个待测样品的检测数据时，随机森林中的每个决策树将投票确定该待测样品归属于哪一个类别标签，得票最多的类别标签将被用于待测样品的分类。在某些实施方式中，得票最多的类别标签被鉴定为所述待测样品的类别标签。

在某些实施方式中，经训练的分类器在对所述检测数据集与所述类别标签建立映射时，会按照本申请所述的重要性排序考虑所述检测数据集中的所述检测参数。在某些实施方式中，所述经训练的分类器按照以下重要性顺序(从高到低)分析所述检测数据集中的检测数据：血红蛋白含量＞具核梭杆菌(F.nucleatum)的含量＞KRAS基因的突变参数＞SEPT9和/或BMP3的甲基化参数＞微小微单胞菌(P.micra)的含量。

在某些实施方式中，可以根据所述分类器建立的所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结直肠癌或结直肠癌前病变腺瘤的风险。如果所述检测数据集被映射的类别标签为正常样本，则将所述受试者评估为低风险。或者，如果所述检测数据集被映射的类别标签为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。在某些实施方式中，被鉴定为高风险的受试者可以进一步进行更多的临床检查，以得到更多更具体的临床信息，用于对疾病进一步的诊断。

不受理论限制，本发明的优势在于，能够以高特异性、高准确性检测出结直肠癌以及结直肠癌前病变腺瘤，甚至对于目前在临床上难以检测出的、或者准确性和特异性较差的结直肠癌前病变腺瘤也能准确和特异地检出。在某些实施方式中，本发明提供的试剂盒和方法和系统能够以至少75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的准确性、灵敏度、和/或特异性检测出患有结直肠癌和/或患有结直肠癌前病变腺瘤的病人。

iv.非暂态计算机可读介质和计算机系统

本申请还提供了非暂态计算机可读介质，其包括计算机可执行的指令，当所述计算机可执行的指令在处理器上被运行时将执行以下方法：a)接受检测数据集，所述检测数据集包括分别表征来自受试者的粪便样品的血红蛋白含量或存在、基因突变、甲基化位点甲基化和细菌含量的的数据，b)将经训练的分类器应用于所述检测数据集，从而评估所述检测数据集的类别标签，所述类别标签选自：腺瘤、腺癌(I/II期)、腺癌(III/IV期)和正常样本。

计算机可执行的指令可以利用任何合适的计算机语言编写，如Java、C++或使用例如常规或面向对象技术的Perl、python。本申请所述的任何软件组件或函数可以作为由处理器运行的软件代码来执行。计算机可执行的指令可存储在非暂态计算机可读介质上，合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、诸如硬盘或软盘的磁性介质或诸如光盘(CD)或DVD(多功能数码光盘)的光学介质、闪存等。非暂态计算机可读介质可以用于存储或传输所述指令，可以是此类存储或传输装置或其任意组合。

所述计算机可执行的指令也可以利用适合通过有线、光学和/无线网络传播的载波信号来编码和传输，该网络符合包括国际互联网在内的各种协议。因此，本发明实施方案的非暂态计算机可读介质，可以利用此类程序编码的数据信号产生。用程序代码编码的非暂态计算机可读介质可以与兼容的装置组装，或由其他装置(如经由互联网下载)独立地提供。任何此类非暂态计算机可读介质可以位于一个计算机程序产品上或在该产品内(例如，硬盘或整个计算机系统)，并且可以存在于系统或网络内不同计算机程序产品上或在该产品内。

本申请还提供了系统(例如计算机系统)，其包括a)数据接收器，其被配置为接收检测数据集，所述检测数据集包括分别表征来自于受试者的粪便样品的血红蛋白含量或存在、基因突变、甲基化位点的甲基化和细菌含量的数据，和b)数据处理装置，其被配置为将经训练的分类器应用于所述检测数据集，从而评估所述检测数据集的类别标签，所述类别标签选自：腺瘤、腺癌(I/II期)、腺癌(III/IV期)和正常样本。

在某些实施方式中，所述分类器经过本申请所述的方法进行训练。在某些实施方式中，所述检测数据包括如本申请前面所述的分别表征血红蛋白含量或存在、基因突变、甲基化位点的甲基化、和细菌含量的数据。

计算机系统还可以包括显示屏、打印机或向用户提供本申请所提到的任何结果的其他合适的显示器。

计算机系统的实例可以包括由系统总线连接的多个子系统，如中央处理器、系统内存、串行端口、输入/输出(I/O)控制器、打印机、键盘、硬盘、与显示适配器连接的显示屏、外部界面等。与I/O控制器连接的外围装置和输入/输出(I/O)装置，可以通过本领域已知的任何适当的方式连接至计算机系统，如串行端口。例如，串行端口或外部界面可用于将计算机装置连接至诸如互联网的广域网、鼠标输入装置或扫描仪。经由系统总线互联允许中央处理器与每个子系统通讯，并控制系统内存或硬盘的指令的执行以及子系统间信息的交换。系统内存和/或硬盘是非暂态计算机可读介质的具体实施方式。

实施例

参照如下实施例可更好地理解本发明，然而，如下实施例旨在说明本发明，不应理解为限制本发明的范围。考虑到本文的教导可能进行多种修改和改变，因此这些修改和改变在本发明的范围内。

实施例1：实验方法

1.粪便样本DNA提取及人源DNA定量

收集的粪便样本立即用STE缓冲溶液(500mM Tris-HCl，10mM NaCl，100mM EDTA)保存。每次以3.2克粪便量，采用E.Z.N.A.

Stool DNA Kit(Omega)抽提DNA。将10ng/μl人源细胞基因组DNA NA12878按10倍进行梯度稀释(10，1，0.1，0.01，0.001ng/μl)，同时将抽提的粪便DNA，用水稀释1000倍。采用KAPA SYBR FAST Master Mix进行qPCR定量，以hLine基因为检测位点，测定粪便抽提DNA中，人源DNA浓度及含量。

2.粪便隐血检测

采用q-FOB sample collection tube(Epitope Diagnostics，30210)随机收集三次少许粪便样本，用消康保便隐血检测试纸(胶体金法)检测粪便隐血结果。

3.突变位点检测

加入含10ng人源DNA的样本量，采用Phusion Blood Direct PCR Master Mix(ThermoFisher，F175L)和含有特异识别靶区域位点和突出测序引物结合位点的引物池(即表D中的引物SEQ ID NO：48-SEQ ID NO：77)，依据试剂供应商操作规程，特异扩增KRAS、BRAF和PI3KCA中的目标区域。用包含结合测序引物序列和突出结合测序平台检测芯片短序列的引物(引物序列如下SEQ ID NO：78和SEQ ID NO：79所示)进行第二次PCR扩增，形成能够被二代测序仪读取的靶区域文库。然后通过二代测序获得靶区域文库的序列信息。

正向PCR引物序列(SEQ ID NO：78)：

反向PCR引物序列(SEQ ID NO：79)：

其中每个M代表一个随机碱基，MMMMMMMM代表8个随机碱基构成的用于区分样本的索引序列。

4.甲基化位点检测

各加入含10ng人源DNA的样本量，一份DNA用HpaII进行酶切，一份不加HpaII进行相同流程处理。以处理后的DNA为模板，用含有特异识别靶区域位点和突出测序引物结合位点的引物池(即表B中的引物SEQ ID NO：31-SEQ ID NO：36)，依据试剂供应商操作规程，以KRAS基因为定量内参，采用Phusion Blood Direct PCR Master Mix(ThermoFisher，F175L)，特异扩增SEPT9、NDRG4和BMP3中的目标区域。用包含结合测序引物序列和突出结合测序平台检测芯片短序列的引物(引物序列同SEQ ID NO：78和SEQ ID NO：79所示)进行第二次PCR扩增，形成能够被二代测序仪读取的靶区域文库。然后通过二代测序获得靶区域文库的序列信息。

5.具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)细菌定量

以具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)特异16S rDNA序列引物(即表C中的引物SEQ ID NO：42-SEQ ID NO：45)，和16S rDNA的通用序列引物(即表C中的引物SEQ ID NO：40-SEQ ID NO：41)，以1ng粪便DNA作为扩增模板，通过荧光定量PCR测定两种细菌的相对含量。测定扩增Cq值Cq(target)和通用16S引物扩增Cq值Cq(universal)，计算公式为目标细菌含量＝2^-[Cq(target)-Cq(universal)]。定量结果归一化到通用16SrDNA序列测定的值。

6.突变和甲基化二代测序检测方法

文库测序流程：将在上述第3步或第4步获得靶区域文库的分子加入到测序芯片中，与固着与芯片上的短序列进行互补配对结合，经桥式PCR扩增，形成可被仪器读取的分子簇。在测序过程中，加入四种荧光标记的dNTP、DNA聚合酶以及接头引物进行扩增，在每一个测序簇延伸互补链时，每加入一个被荧光标记的dNTP就能释放出相对应的荧光，测序仪通过捕获荧光信号，并通过计算机软件将光信号转化为序列信息。

突变文库测序数据分析流程：将测序序列比对hg19目标区域标准序列，将大于0.1％突变率位点进行标注，汇总突变矩阵。

甲基化文库文库数据分析流程：将测序序列比对hg19目标区域标准序列，甲基化程度是指在所述甲基化位点在甲基化敏感酶处理后，测序所得读数，相较于未处理文库读数经KRAS基因位点归一化后比值。具体计算公式如下：

7.数据分析算法

将样本粪便隐血检测、DNA突变检测、DNA甲基化检测和细菌含量分析结果进行整合，采用ipython notebook随机森林机器学习算法，将所测试样本随机70％数据作为训练集，剩余30％数据作为测试集，进行结直肠腺瘤和腺癌检出分析。

实施例2：粪便隐血对结直肠腺瘤检出效率低

本次实验一共收集到36份健康志愿者，18份结直肠腺瘤患者，57份结直肠癌I、II期患者和51份结直肠癌III、IV期患者样本。所采集样本按实施例1的实验方法，进行了粪便DNA提取，做了粪便隐血检测，结果如图1所示。

健康志愿者中未发现粪便隐血阳性者，腺瘤患者中有2例患者检测结果为阳性(11.1％)，结直肠癌I、II期患者共有41例样本检测结果为阳性(71.9％)，结直肠癌III、IV期患者共有34例样本为阳性(66.7％)。结果表明粪便隐血检测对结直肠腺瘤和腺癌的检出效率仅为66-72％左右，对于腺瘤和腺癌患者都存在未检出的假阴性情况。使用粪便隐血检测进行单一诊断的特异性和灵敏度的数据如图6所示。

实施例3：结直肠腺瘤和腺癌患者粪便DNA累积更多突变

本次实验一共收集到36份健康志愿者，18份结直肠腺瘤患者，57份结直肠癌I、II期患者和51份结直肠癌III、IV期患者样本。所采集样本按实施例1的实验方法，进行了粪便DNA提取，做了DNA突变检测，结果图2所示。

用靶区域引物库构建测序文库，检测KRAS、BRAF和PI3KCA特定位点突变。将测序文库得到的序列与靶序列进行比对，分析所测区域序列的突变频率，选取0.1％为最低检测下限。试验发现结直肠腺瘤和腺癌较健康志愿者样本均检出更多DNA突变。使用DNA突变检测进行单一诊断的特异性和灵敏度的数据如图6所示。

实施例4：结直肠腺瘤和腺癌患者粪便DNA累积更多甲基化变异

本次实验一共收集到36份健康志愿者，18份结直肠腺瘤患者，57份结直肠癌I、II期患者和51份结直肠癌III、IV期患者样本。所采集样本按实施例1的实验方法，进行了粪便DNA提取，做了DNA甲基化检测，结果如3所示。

用靶区域引物库构建测序文库，检测SEPT9、NDRG4和BMP3特定位点甲基化程度。将测序文库得到的序列与靶序列进行比对，以KRAS基因为内参，分析所测区域序列的甲基化程度。试验发现结直肠腺瘤和腺癌较健康志愿者样本DNA甲基化程度高于健康志愿者。使用DNA甲基化检测进行单一诊断的特异性和灵敏度的数据如图6所示。

实施例5：结直肠腺瘤和腺癌患者粪便DNA中具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)含量升高

本次实验一共收集到36份健康志愿者，18份结直肠腺瘤患者，57份结直肠癌I、II期患者和51份结直肠癌III、IV期患者样本。所采集样本按实施例1的方法，进行了粪便DNA提取，做细菌含量分析检测，结果如图4所示。

以具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)特异16S rDNA序列引物，通过荧光定量PCR测定两种细菌的相对含量。定量结果归一化到通用16S rDNA序列测定的值。试验发现结直肠腺瘤和腺癌患者粪便DNA中具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)含量相较于健康志愿者均有升高。使用细菌含量分析进行单一诊断的特异性和灵敏度的数据如图6所示。

实施例6：粪便样本多维度分析，随机森林机器学习算法多结直肠腺瘤和腺癌具有高效检出

本次实验一共收集到36份健康志愿者，18份结直肠腺瘤患者，57份结直肠癌I、II期患者和51份结直肠癌III、IV期患者样本。所采集样本按实施例1的方法，进行了粪便DNA提取，做了粪便隐血、DNA突变、DNA甲基化和细菌含量分析检测。结果汇总如下：

通过检测粪便隐血、基因突变、DNA甲基化及肠道细菌DNA，随机选取70％数据作为训练集，剩下的30％作为测试集进行机器学习分类。结果如表1所示，在训练集中，对腺瘤和腺癌的检测灵敏度都达到了100％，特异性同样达到100％。如表2所示，在测试集中，对腺瘤和腺癌的检测灵敏度依然为100％，特异性为80％。

表1：粪便样本多维度分析，随机森林机器学习算法检测结直肠腺瘤和腺癌的训练集结果

表2：粪便样本多维度分析，随机森林机器学习算法检测结直肠腺瘤和腺癌的测试集结果

相比较于单一项目检测，本发明与粪便隐血阳性、DNA甲基化，DNA突变和细菌含量进行比较。结果如图6所示，发现多维度检测加机器学习算法分析，相较于单一检测显著提高检测效率，对腺瘤、腺癌的检测灵敏度都能达到100％，检测特异性为94.4％。

随机森林机器学习算法计算了各检测指标在评估结直肠腺瘤和腺癌患者中的相对重要性分析，结果如图5所示，其每个指标的权重从大到小依次为：粪便隐血、具核梭杆菌(F.nucleatum)细菌含量、KRAS hg19 chr12：g.[25398275C＞T]突变、BMP3甲基化、SEPT9甲基化、微小微单胞菌(P.micra)细菌含量、NDRG4甲基化、PI3KCA hg19 chr3：g.[178936092A＞C等。

综上所述，利用本发明进行筛查，不仅提高了腺癌的检测效率，更重要的是极大提高了腺瘤的检测效率，为更好的实现早诊早治提供了基础。

本发明不限于本文所述的具体实施方案的范围。事实上，根据上述说明，本发明的各种修改和改变对本领域技术人员而言是容易想到的。这些修改和改变也落在所附权利要求的范围内。

序列表

<110> 上海鹍远生物技术有限公司

<120> 基于粪便样本的结直肠癌筛查方法

<130> 071918-8001CN01

<160> 79

<170> PatentIn version 3.5

<210> 1

<211> 22

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 1

catgtactgg tccctcattg ca 22

<210> 2

<211> 28

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 2

gtaataatcc agactgtgtt tctccctt 28

<210> 3

<211> 29

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 3

tacctctatt gttggatcat attcgtcca 29

<210> 4

<211> 30

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 4

tattataagg cctgctgaaa atgactgaat 30

<210> 5

<211> 22

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 5

cctcacctct atggtgggat ca 22

<210> 6

<211> 23

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 6

acaggttctt gctggtgtga aat 23

<210> 7

<211> 23

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 7

caaatacaca gaggaagcct tcg 23

<210> 8

<211> 29

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 8

ccaggattct tacagaaaac aagtggtta 29

<210> 9

<211> 29

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 9

tattatgact tgtcacaatg tcaccacat 29

<210> 10

<211> 25

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 10

gactcgagtg atgattggga gattc 25

<210> 11

<211> 29

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 11

tcagtggaaa aatagcctca attcttacc 29

<210> 12

<211> 30

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 12

cttcatgaag acctcacagt aaaaataggt 30

<210> 13

<211> 31

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 13

gctagagaca atgaattaag ggaaaatgac a 31

<210> 14

<211> 28

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 14

acagagaatc tccattttag cacttacc 28

<210> 15

<211> 27

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 15

agaggctttg gagtatttca tgaaaca 27

<210> 16

<211> 30

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 16

agagtgagct ttcattttct cagttatctt 30

<210> 17

<211> 28

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 17

tggaatgcca gaactacaat cttttgat 28

<210> 18

<211> 28

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 18

gtggaagatc caatccattt ttgttgtc 28

<210> 19

<211> 20

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 19

gcctcacgtt ggtccacatc 20

<210> 20

<211> 19

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 20

tctcaccacc cgcacgtct 19

<210> 21

<211> 32

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 21

gtgtaatgat atgtgcatat ttattacatc gg 32

<210> 22

<211> 32

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 22

atccaggaag aggaaaggaa aaacatcaaa aa 32

<210> 23

<211> 27

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 23

agacaagttc atgtactttg agttccc 27

<210> 24

<211> 33

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 24

cttattttgg atatttctcc caatgaaagt aaa 33

<210> 25

<211> 22

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 25

ggttccttca agctgcccta tt 22

<210> 26

<211> 30

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 26

tgactataca atcaatacct tgctctctca 30

<210> 27

<211> 25

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 27

gtggagtgca agtgaaagcc ttata 25

<210> 28

<211> 27

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 28

aaggaacctt aaatgtctct cctacct 27

<210> 29

<211> 26

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 29

gattacccaa gacagagcat caaaga 26

<210> 30

<211> 26

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 30

aacggtaaaa gacctcagtc taaagg 26

<210> 31

<211> 20

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 31

ttcattcagc tgagccaggg 20

<210> 32

<211> 20

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 32

gtccgacatg atggctggtg 20

<210> 33

<211> 18

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 33

ggatcgaccg gggtgtcc 18

<210> 34

<211> 18

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 34

gtgggtttgg cgggtgtg 18

<210> 35

<211> 18

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 35

ctcgccccag ctggtttg 18

<210> 36

<211> 20

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 36

aaaggtggct tcggtctctc 20

<210> 37

<211> 163

<212> DNA

<213> 具核梭杆菌

<400> 37

ggatttattg ggcgtaaagc gcgtctaggt ggttatgtaa gtctgatgtg aaaatgcagg 60

gctcaactct gtattgcgtt ggaaactgta taactagagt actggagagg taagcggaac 120

tacaagtgta gaggtgaaat tcgtagatat ttgtaggaat gcc 163

<210> 38

<211> 207

<212> DNA

<213> 微小微单胞菌

<400> 38

agagtttgat cctggctcag gacgaacgct ggcggcgtgc ttaacacatg caagtcgaac 60

gtgatttttg tggaaattct ttcgggaatg gaaatgaaat gaaagtggcg aacgggtgag 120

taacacgtga gcaacctacc ttacacaggg ggatagccgt tggaaacgac gattaatacc 180

gcatgagacc acagaatcgc atgatat 207

<210> 39

<211> 144

<212> DNA

<213> 细菌

<400> 39

ggtgaatacg ttcccgggcc ttgtacacac cgcccgtcac accacgagag tttgtaacac 60

ccgaagtcgg tgaggtaacc ttttggagcc agccgccgaa ggtgggatag atgattgggg 120

tgaagtcgta acaaggtagc cgta 144

<210> 40

<211> 17

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 40

ggtgaatacg ttcccgg 17

<210> 41

<211> 22

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 41

tacggctacc ttgttacgac tt 22

<210> 42

<211> 25

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 42

tgtaagtctg atgtgaaaat gcagg 25

<210> 43

<211> 20

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 43

ttgtagttcc gcttacctct 20

<210> 44

<211> 22

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 44

cgtgcttaac acatgcaagt cg 22

<210> 45

<211> 21

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 45

gggtgagtaa cacgtgagca a 21

<210> 46

<211> 33

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 46

tcgtcggcag cgtcagatgt gtataagaga cag 33

<210> 47

<211> 34

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 47

gtctcgtggg ctcggagatg tgtataagag acag 34

<210> 48

<211> 55

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 48

tcgtcggcag cgtcagatgt gtataagaga cagcatgtac tggtccctca ttgca 55

<210> 49

<211> 62

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 49

gtctcgtggg ctcggagatg tgtataagag acaggtaata atccagactg tgtttctccc 60

tt 62

<210> 50

<211> 62

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 50

tcgtcggcag cgtcagatgt gtataagaga cagtacctct attgttggat catattcgtc 60

ca 62

<210> 51

<211> 64

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 51

gtctcgtggg ctcggagatg tgtataagag acagtattat aaggcctgct gaaaatgact 60

gaat 64

<210> 52

<211> 55

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 52

tcgtcggcag cgtcagatgt gtataagaga cagcctcacc tctatggtgg gatca 55

<210> 53

<211> 57

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 53

gtctcgtggg ctcggagatg tgtataagag acagacaggt tcttgctggt gtgaaat 57

<210> 54

<211> 56

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 54

tcgtcggcag cgtcagatgt gtataagaga cagcaaatac acagaggaag ccttcg 56

<210> 55

<211> 63

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 55

gtctcgtggg ctcggagatg tgtataagag acagccagga ttcttacaga aaacaagtgg 60

tta 63

<210> 56

<211> 62

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 56

tcgtcggcag cgtcagatgt gtataagaga cagtattatg acttgtcaca atgtcaccac 60

at 62

<210> 57

<211> 59

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 57

gtctcgtggg ctcggagatg tgtataagag acaggactcg agtgatgatt gggagattc 59

<210> 58

<211> 62

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 58

tcgtcggcag cgtcagatgt gtataagaga cagtcagtgg aaaaatagcc tcaattctta 60

cc 62

<210> 59

<211> 64

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 59

gtctcgtggg ctcggagatg tgtataagag acagcttcat gaagacctca cagtaaaaat 60

aggt 64

<210> 60

<211> 64

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 60

tcgtcggcag cgtcagatgt gtataagaga caggctagag acaatgaatt aagggaaaat 60

gaca 64

<210> 61

<211> 62

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 61

gtctcgtggg ctcggagatg tgtataagag acagacagag aatctccatt ttagcactta 60

cc 62

<210> 62

<211> 60

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 62

tcgtcggcag cgtcagatgt gtataagaga cagagaggct ttggagtatt tcatgaaaca 60

<210> 63

<211> 64

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 63

gtctcgtggg ctcggagatg tgtataagag acagagagtg agctttcatt ttctcagtta 60

tctt 64

<210> 64

<211> 61

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 64

tcgtcggcag cgtcagatgt gtataagaga cagtggaatg ccagaactac aatcttttga 60

t 61

<210> 65

<211> 62

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 65

gtctcgtggg ctcggagatg tgtataagag acaggtggaa gatccaatcc atttttgttg 60

tc 62

<210> 66

<211> 53

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 66

tcgtcggcag cgtcagatgt gtataagaga caggcctcac gttggtccac atc 53

<210> 67

<211> 53

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 67

gtctcgtggg ctcggagatg tgtataagag acagtctcac cacccgcacg tct 53

<210> 68

<211> 65

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 68

tcgtcggcag cgtcagatgt gtataagaga caggtgtaat gatatgtgca tatttattac 60

atcgg 65

<210> 69

<211> 66

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 69

gtctcgtggg ctcggagatg tgtataagag acagatccag gaagaggaaa ggaaaaacat 60

caaaaa 66

<210> 70

<211> 60

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 70

tcgtcggcag cgtcagatgt gtataagaga cagagacaag ttcatgtact ttgagttccc 60

<210> 71

<211> 67

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 71

gtctcgtggg ctcggagatg tgtataagag acagcttatt ttggatattt ctcccaatga 60

aagtaaa 67

<210> 72

<211> 55

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 72

tcgtcggcag cgtcagatgt gtataagaga cagggttcct tcaagctgcc ctatt 55

<210> 73

<211> 64

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 73

gtctcgtggg ctcggagatg tgtataagag acagtgacta tacaatcaat accttgctct 60

ctca 64

<210> 74

<211> 58

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 74

tcgtcggcag cgtcagatgt gtataagaga caggtggagt gcaagtgaaa gccttata 58

<210> 75

<211> 61

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 75

gtctcgtggg ctcggagatg tgtataagag acagaaggaa ccttaaatgt ctctcctacc 60

t 61

<210> 76

<211> 59

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 76

tcgtcggcag cgtcagatgt gtataagaga caggattacc caagacagag catcaaaga 59

<210> 77

<211> 60

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<400> 77

gtctcgtggg ctcggagatg tgtataagag acagaacggt aaaagacctc agtctaaagg 60

<210> 78

<211> 47

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<220>

<221> misc_feature

<222> (25)..(32)

<223> m可以为任意核苷酸

<400> 78

caagcagaag acggcatacg agatmmmmmm mmgtctcgtg ggctcgg 47

<210> 79

<211> 51

<212> DNA

<213> 人造序列

<220>

<223> 合成的

<220>

<221> misc_feature

<222> (30)..(37)

<223> m可以为任意核苷酸

<400> 79

aatgatacgg cgaccaccga gatctacacm mmmmmmmtcg tcggcagcgt c 51

Claims

1.一种非暂态计算机可读介质，其包括计算机可执行的指令，当所述计算机可执行的指令在处理器上被运行时将执行以下方法：

i)所述基因突变包括KRAS和一种或多种选自下组的基因的突变：BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR，

iii)所述细菌含量选自以下组的一种或多种细菌的含量：具核梭杆菌(F.nucleatum)、微小微单胞菌(P.micra)、Peptostreptococcus stomatis(P.stomatis)和Solobacteriummoorei(S.moorei)，

2.如权利要求1所述的非暂态计算机可读介质，其中所述方法进一步包括：根据所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结直肠癌或结直肠癌前病变腺瘤的风险，其中：如果所述检测数据集被映射为正常，则评估所述受试者为低风险；和/或如果所述检测数据集被映射为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。

3.一种用于数据分析的系统，包括：

i)将分类器应用于参比数据库，所述参比数据库包括多个参比数据集和与每个所述参比数据集相对应的类别标签，每个参比数据集包括分别表征来自某个对照受试者的参比粪便样品的血红蛋白含量或存在、基因突变、甲基化位点的甲基化、和细菌含量的数据，所述类别标签选自：腺瘤、腺癌(I/II期)、腺癌(III/IV期)和正常样本，以及

4.如权利要求3所述的系统，其中所述数据处理装置进一步被配置为：根据所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结肠癌的风险，其中：如果所述检测数据集被映射为正常，则评估所述受试者为低风险；和/或如果所述检测数据集被映射为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。

5.一种用于诊断结直肠癌或结直肠癌前病变腺瘤的方法，包括：

i)所述基因包括KRAS和一种或多种选自下组的基因：BRAF、PI3KCA、TP53、APC、PTEN、ERBB2、和EGFR，

b)将测得的所述数据输入检测数据集中，

d)建立所述检测数据集与所述类别标签的映射。

6.如权利要求5所述的方法，其中所述方法进一步包括：根据所述检测数据集与所述类别标签的映射，评估所述检测数据集来源的所述受试者患有结直肠癌或结直肠癌前病变腺瘤的风险，其中：如果所述检测数据集被映射为正常，则评估所述受试者为低风险；和/或如果所述检测数据集被映射为腺瘤、腺癌(I/II期)、或腺癌(III/IV期)的任一种，则评估所述受试者为高风险。

7.如权利要求1-2任一所述的非暂态计算机可读介质，如权利要求3-4任一所述的系统，或如权利要求5-6任一所述的方法，其中所述细菌包括具核梭杆菌(F.nucleatum)和微小微单胞菌(P.micra)，其中所述基因包括KRAS，BRAF和PI3KCA，和/或其中所述甲基化位点包括SEPT9、BMP3和NDRG4。

8.如权利要求1-2任一所述的非暂态计算机可读介质，如权利要求3-4任一所述的系统，或如权利要求5-6任一所述的方法，其中所述KRAS基因的所述突变区域包括KRAS中的一个或多个选自下组的突变：hg19 chr12:g.[25398284C>A]，hg19 chr12:g.[25398285C>A]；hg19 chr12:g.[25398285C>G]；hg19 chr12:g.[25398285C>T]；hg19 chr12:g.[25398284C>G]；hg19 chr12:g.[25398282C>A]；hg19 chr12:g.[25398281C>A]；hg19 chr12:g.[25398255G>T]；hg19 chr12:g.[25398284C>T]；hg19 chr12:g.[25398281C>T]；和hg19chr12:g.[25398275C>T]，所述BRAF基因中的所述突变区域包括hg19 chr7:g.[140453136A>T]，和所述PI3KCA中的所述突变区域包括一个或多个选自下组的突变：hg19 chr3:g.[178936082G>A]；hg19 chr3:g.[178936091G>A]；hg19 chr3:g.[178936092A>G]；hg19chr3:g.[178936095A>T]；hg chr3:g.[178936092A>C]；hg19 chr3:g.[178952085A>G]；和hg19 chr3:g.[178952003G>A]。

9.如权利要求1-2任一所述的非暂态计算机可读介质，如权利要求3-4任一所述的系统，或如权利要求5-6任一所述的方法，其中所述基因还包括一种或多种选自下组的基因：TP53、APC、PTEN、ERBB2、和EGFR。

10.如权利要求1-2任一所述的非暂态计算机可读介质，如权利要求3-4任一所述的系统，或如权利要求5-6任一所述的方法，其中所述分类器采用至少一种下述算法：随机森林模型、分类和回归树(C&RT)、提升树、神经网络(NN)、支持向量机(SVM)、常规卡方自动交互检测模型、交互树、多元自适应回归样条、或机器学习分类器。

11.如权利要求1-2任一所述的非暂态计算机可读介质，如权利要求3-4任一所述的系统，或如权利要求5-6任一所述的方法，其中所述经训练的分类器建立的所述映射包括对表征所述血红蛋白含量或存在、所述基因突变、所述甲基化位点的甲基化、和所述细菌含量的数据进行重要性排序。

12.如权利要求1-2任一所述的非暂态计算机可读介质，如权利要求3-4任一所述的系统，或如权利要求5-6任一所述的方法，其中在所述重要性排序中，重要性最高的是表征所述血红蛋白含量或存在的数据，和/或重要性第二的是表征所述具核梭杆菌(F.nucleatum)的含量的数据，和/或重要性第三的是表征KRAS基因的突变的数据，和/或重要性第四的是表征SEPT9和/或BMP3的甲基化的数据，和/或重要性第五的是表征微小微单胞菌(P.micra)的含量的数据。

13.如权利要求5或6所述的方法，其中所述检测包括：

b)检测所述粪便样品中的所述基因是否存在突变；

c)检测所述粪便样品在所述甲基化位点的甲基化程度；和

d)检测所述粪便样品中的所述细菌的含量。