CN114369673A

CN114369673A - 结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法

Info

Publication number: CN114369673A
Application number: CN202210011544.2A
Authority: CN
Inventors: 朱瑞新; 高文星
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-19
Anticipated expiration: 2042-01-06
Also published as: CN114369673B

Abstract

本发明公开结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法，结直肠腺瘤生物标志物包括内脏奥德氏杆菌Odoribacter splanchnicus_62174、解纤维素拟杆菌Bacteroides cellulosilyticus_58046、沙氏别样杆菌Alistipes shahii_62199等；肿瘤生物标志物的筛选方法，包括：S1、获取疾病和正常对照组微生物测序数据及临床信息数据，并进行预处理；S2、将预处理后的微生物测序数据进行筛选，对具有足够测序深度和覆盖度的菌株进行SNV水平的注释，获得每个菌株的SNV突变频率等信息；S3、对疾病患者和健康对照组的微生物SNV数据进行差异分析，获得不同菌株中差异显著的SNV位点；S4、对差异SNV位点进行筛选，确定SNV最优生物标志物；综上，本发明提供的生物标志物及筛选方法更好地进行癌症早诊早治，具有重要的意义和临床应用价值。

Description

结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法

技术领域

本发明涉及医药技术领域，具体是结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法。

背景技术

近年来，世界癌症发病率和死亡率呈逐年上升趋势，对肿瘤的早期筛查与早期干预可以有效降低其发病率与死亡率。

以结直肠癌为例，在全世界范围内，约10％的新确诊癌症为结直肠癌，给全球社会带来了巨大的健康和经济负担。结直肠腺瘤是结直肠癌最主要的癌前病变，在结直肠腺瘤阶段进行癌症的早期筛查和干预可以显著降低结直肠癌的发病率，提高患者的五年生存率，具有重大的临床意义。当前对结直肠肿瘤进行筛查的主要手段包括影像学检查、内镜、免疫粪便潜血检测等，但这些手段存在具有放射性损害、高侵入、灵敏度较低和依从性较低等局限，迫切需要技术革新。

肠道菌群，作为人体肠道内微生物群落的总称，与多种疾病密切相关，是近年来肿瘤筛查，尤其是消化道肿瘤筛查和早期诊断的重要生物标志物。基于肠道菌群对结直肠肿瘤进行早筛的研究大多采用肠道微生物的丰度，例如根据细菌丰度来进行诊断模型的构建，但这些方法存在一定的局限性。

单核苷酸变异(Single-Nucleotide Variant,SNV)作为最常见的遗传变异类型，与微生物的结构、功能等密切相关，对肠道微生物的稳态维持至关重要。近年来研究表明，微生物SNV可以用于诊断多种疾病，是一种新颖且有价值的肿瘤早筛生物标志物。SNV有望成为肿瘤早筛的潜在诊断标志物，用于早筛模型的构建，亟待研究。

发明内容

本发明提供了结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法。对于更好地进行癌症早诊早治，具有重要的意义和临床应用价值。

为达此目的，本发明提供如下的技术方案：

本发明的第一个方面，提供了一种结直肠腺瘤生物标志物，包括内脏奥德氏杆菌Odoribacter splanchnicus_62174、解纤维素拟杆菌Bacteroides cellulosilyticus_58046、沙氏别样杆菌Alistipes shahii_62199、琥珀酸杆菌Phascolarctobacteriumsuccinatutens_61948、假小链双歧杆菌Bifidobacterium pseudocatenulatum_57754、毛螺科菌Lachnospiraceae bacterium_51870、嗜热链球菌Streptococcus thermophilus_54772、解木聚糖拟杆菌Bacteroides xylanisolvens_57185、两歧双歧杆菌Bifidobacterium bifidum_55065、罗氏弧菌Roseburia intestinalis_56239、粪拟杆菌Bacteroides caccae_53434、昂氏另枝菌Alistipes onderdonkii_55464、Bacteroidesfragilis_54507、多形拟杆菌Bacteroides thetaiotaomicron_56941、二环瘤胃球菌Ruminococcus bicirculans_59300、卵形拟杆菌Bacteroides ovatus_58035、嗜黏蛋白艾克曼氏菌Akkermansia muciniphila_55290、大肠杆菌Escherichia coli_58110、狄氏副拟杆菌Parabacteroides distasonis_56985、普拉梭菌Faecalibacterium prausnitzii_57453、普拉梭菌Faecalibacterium prausnitzii_61481、普拉梭菌Faecalibacteriumprausnitzii_62201、长双歧杆菌Bifidobacterium longum_57796、青春双岐杆菌Bifidobacterium adolescentis_56815、产丁酸菌Anaerostipes hadrus_55206、单形拟杆菌Bacteroides uniformis_57318、普通拟杆菌Bacteroides vulgatus_57955。

优选的，结直肠腺瘤生物标志物包括上述菌株的随机组合。

进一步优选的，结直肠腺瘤生物标志物包括E.coli_58110、F.prausnitzii_57453、F.prausnitzii_61481、P.distasonis_56985、F.prausnitzii_62201、B.longum_57796、B.adolescentis_56815、A.hadrus_55206、B.uniformis_57318、B.vulgatus_57955，10种菌株的组合。

本发明的第二个方面，提供了一种肿瘤早筛系统，其特征在于，包括：

1)正常及疾病人群肠道微生物的测序数据库；

2)微生物分离、培养试剂盒；

3)微生物单核苷酸检测试剂盒或基因检测设备；

4)生物信息学分析、比对设备。

优选的，所述数据库包括美国国家生物技术信息中心SRA数据库、欧洲生物信息研究所ENA数据库。

优选的，所述微生物包括细菌。

本发明的第三个方面，提供了一种肿瘤生物标志物的筛选方法，包括以下步骤：

S1、获取疾病和正常对照组微生物测序数据及临床信息数据，并进行预处理；

S2、将预处理后的微生物测序数据进行筛选，对具有足够测序深度和覆盖度的菌株进行SNV水平的注释，获得每个菌株的SNV突变频率等信息；

S3、对疾病患者和健康对照组的微生物SNV数据进行差异分析，获得不同菌株中差异显著的SNV位点；

S4、对差异SNV位点进行筛选，确定SNV最优生物标志物。

优选的，步骤S1的预处理包括：

S11、去除低质量测序数据，保留高质量测序数据，从reads的5’端开始，4bp为一个滑窗进行滑动滑窗质量过滤，去除碱基质量平均值低于阈值的滑窗；reads长度最小为50；切除首端质量小于3的碱基，切除尾端质量小于3的碱基；

S12、将保留的高质量测序数据与人类基因组数据进行比对，去除来自人类基因组的污染。

优选的，步骤S2中的测序深度大于3X和/或覆盖度大于10％。

优选的，步骤S4中的差异SNV位点筛选包括：对每个差异SNV进行机器学习分类模型的构建，获得每个差异SNV的AUC，保留AUC大于0.5的差异SNV；对所有AUC大于0.5的差异SNV进行相关性分析，保留相关性系数绝对值小于0.7的SNV组合；利用递归特征消除的方法，进行最优SNV组合的筛选，确定肿瘤早筛的SNV生物标志物。

优选的，本发明的肿瘤生物标志物的筛选方法还包括以下步骤：对SNV最优生物标志物进行验证与评估；进一步优选的，所述的验证与评估方法包括交叉验证、留一法验证及特异性评估。

优选的，所述疾病包括结直肠肿瘤。

优选的，所述微生物包括细菌。

本发明的第四个方面，提供了一种肿瘤早筛模型构建方法，包括以下步骤：

R1、根据权利要求6-10任意一项筛选的早筛标志物进行模型的构建，并调整模型的超参数，对模型进行优化；

R2、对构建的早筛模型进行验证与评估。

优选的，步骤R1包括：标志物采用随机森林模型进行训练，通过贝叶斯优化算法对随机森林模型进行超参数的优化。

优选的，步骤R2所述的验证与评估方法包括交叉验证、留一法验证及特异性评估。

优选的，临床信息包括但不限于年龄，性别，疾病状态和BMI(身体质量指数)。

通过本发明提供的肿瘤早筛模型构建方法将本发明筛选的肿瘤生物标志物构建模型，形成特异性更高、筛选效率和准确性更好的早筛模型。

与现有技术相比，本发明有益效果及显著进步在于：

1、本发明首次发现了结直肠腺瘤生物标志物，具体该生物标志物为细菌，通过检测细菌的单核苷酸，然后与正常生物载体的细菌单核苷酸进行比对，根据单核苷酸的突变(SNV)的频率评价肿瘤发生的概率。本发明经过大量实验证明，本申请筛选的生物标志物对于肿瘤的筛选具有较高的准确性。

2、本发明首次提出筛选肿瘤标志物的新方法，利用简单的提取微生物遗传物质，然后进行比对，再经过严格的数据筛选、降噪处理、实验验证，最终能够筛选出高效的肿瘤标志物。

3、本发明进一步提供了肿瘤早筛模型构建方法，通过肿瘤早筛模型构建方法可以以本发明筛选的肿瘤生物标志物为基础构建特异性更高、筛选效率和准确性更好的模型，从而更加有效的进行肿瘤早筛。

附图说明

为更清楚地说明本发明的技术方案，下面将对本发明的实施例所需使用的附图作一简单介绍。

显而易见地，下面描述中的附图仅是本发明中的部分实施例的附图，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，但这些其他的附图同样属于本发明实施例所需使用的附图之内。

图1为本发明实施例1的最优菌株组合5折交叉验证结果图；

图2为本发明实施例2的不同队列内部交叉验证结果图；

图3为本发明实施例2的不同队列间交叉验证结果图；

图4为本发明实施例2的不同队列间留一法验证结果图；

图5为本发明实施3的特异性评估实验的结果图。

具体实施方式

为使本发明实施例的目的、技术方案、有益效果及显著进步更加清楚，下面，将结合本发明实施例中所提供的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

显然，所有描述的这些实施例仅是本发明的部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明中的术语“菌株”是指任何由一个独立分离的单细胞(或单个病毒粒子)繁殖而成的纯种群体及其后代。因此，一种微生物的每一个不同来源的纯培养物均可称为该菌种的一个菌株。根据菌株的定义，菌株实际上是某一微生物达到"遗传性纯"的标志，一旦菌株发生变异，均应标上新的菌株名称。当进行菌种保藏、筛选或科学研究时，在进行学术交流或发表论文时，在利用菌种进行生产时，都必须同时标明该菌种及菌株名称。

本发明中的术语“微生物”是指包括：细菌、病毒、真菌以及一些小型的原生生物、显微藻类等在内的一大类生物群体，它个体微小，与人类关系密切。涵盖了有益跟有害的众多种类，广泛涉及食品、医药、工农业、环保、体育等诸多领域。在我国教科书中，将微生物划分为以下8大类:细菌、病毒、真菌、放线菌、立克次氏体、支原体、衣原体、螺旋体。有些微生物是肉眼可以看见的，像属于真菌的蘑菇、灵芝、香菇等。还有微生物是一类由核酸和蛋白质等少数几种成分组成的“非细胞生物”。

本发明中的术语“肿瘤”是指在细胞形态和组织结构上，都与其发源的正常组织有不同程度的差异，这种差异称为异型性。异型性是肿瘤异常分化在形态上的表现。异型性小，说明分化程度高，异型性大，说明分化程度低。区别这种异型性的大小是诊断肿瘤，确定其良、恶性的主要组织学依据。良性肿瘤细胞的异型性不明显，一般与其来源组织相似。恶性肿瘤常具有明显的异型性。

还需要说明的是，以下的具体实施例可以相互结合，对于其中相同或相似的概念或过程可能在某些实施例中不再赘述。

下面，以具体的实施例对本发明的技术方案进行详细说明。

实施例1基于微生物SNV的结直肠腺瘤早筛标志物筛选及早筛模型构建

1.1、收集数据

从美国国家生物技术信息中心SRA数据库(网址：https://www.ncbi.nlm.nih.gov/sra)及欧洲生物信息研究所ENA数据库(网址：https://www.ebi.ac.uk/ena)获取结直肠腺瘤患者和健康对照样本的粪便微生物宏基因组测序数据及临床信息数据(临床信息主要包括：疾病状态、年龄、性别和BMI)。

纳入本实施例的队列为：日本JAP队列(DRA006684，DRA008156)，奥地利AUS队列(ERP008729)，法国FRA队列(ERP005534)和意大利ITA队列(SRP136711)，纳入实际分析的样本数为622个，包括183例结直肠腺瘤样本和439例健康对照样本。

1.2、数据预处理

使用KneadData(http://huttenhower.sph.harvard.edu/kneaddata)对测序数据进行质量控制。首先，利用Trimmomatic去除低质量测序数据，保留高质量测序数据，具体参数为“SLIDINGWINDOW:4:20MINLEN:50LEADING:3TRAILING:3”(从reads的5’端开始，4bp为一个滑窗进行滑动滑窗质量过滤，去除碱基质量平均值低于阈值(20)的滑窗；reads长度最小为50；切除首端质量小于3的碱基；切除尾端质量小于3的碱基)。接着，使用bowtie2(http://bowtie-bio.sourceforge.net/bowtie2)将保留的高质量测序数据与人类基因组数据(https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39)进行比对，去除来自人类基因组的污染，保留高质量微生物测序数据。

1.3、SNV注释

使用MIDAS(https://github.com/snayfach/MIDAS)的对高质量微生物测序数据进行SNV注释，对达到测序深度要求(默认参数：大于3X)和样本覆盖率(大于10％的样本)的菌种构建数据库。然后，将预处理之后的微生物测序数据与数据库进行比对，获得所有样本的微生物SNV数据。接着，使用MIDAS的整合功能(默认参数：“—core_snps”)将不同样本的SNV数据进行整合，获得每个菌种的SNV数据，如下表1所示为部分SNV数据较高的菌种。

表1微生物SNV统计

1.4、挑选差异SNV

由于本实施例中的样本来自不同的队列，具有不同的地域特点，可能存在一定的批次效应，即可能会存在不同的混杂因素。因此在挑选疾病组与健康组的差异SNV时，需要进行混杂因素的校正。我们采用R包MMUPHin(https://huttenhower.sph.harvard.edu/mmuphin/)进行差异SNV的挑选，其中，我们将队列信息设置为主要的混杂因素，样本年龄、性别和BMI设置为协变量，每个菌种中p值小于0.05的SNV为差异SNV，具体差异SNV数目如表2所示。

表2微生物差异SNV统计

1.5、筛选不同菌种SNV诊断标志物

利用scikit-learn对不同菌株的差异SNV分别进行早筛标志物的筛选。首先，用scikit-learn中随机森林模型对每一个差异SNV进行分类模型的构建，保留GroupKfold交叉验证AUC大于0.5的差异SNV；接着，对上一步保留的差异SNV进行相关性计算，分别计算两两SNV的斯皮尔曼等级相关系数(Spearman rank correlation coefficient)，只保留相关系数绝对值小于0.7的差异SNV；最后，利用迭代特征消除方法，筛选出最优的诊断标志物组合，具体SNV标志物数目如下表所示：

表3微生物SNV标志物数目统计

1.6、诊断模型的构建与评估

针对不同菌株的SNV生物标志物，我们首先对每个菌株构建了单独的结直肠腺瘤早筛模型，利用贝叶斯优化算法对随机森林模型的超参数进行优化，主要包括：决策树个数，决策树最大深度，最大分离特征数，最大样本数等。不同菌株的早筛模型5折交叉验证的平均AUC、灵敏度和特异度如下表4所示。为了获得更优的模型，我们将不同菌株的SNV标志物进行结合，获得多菌株的整合模型5折交叉验证的平均AUC、灵敏度和特异度(表5)，依此确定最终最优的SNV标志物组合和肿瘤早筛模型，如图1所示，最优菌株SNV模型最高5折交叉验证平均AUC可达到0.85。

表4微生物单菌株SNV早筛模型

表5微生物多菌株组合SNV早筛模型

实施例2不同队列交叉验证及留一法验证

实验材料：利用公共数据中来自不同国家的队列进行交叉验证及留一法验证，检验微生物生物标志物的鲁棒性和通用性。

实验方法：

2.1、不同队列内部5折交叉验证

针对来自不同国家的队列，基于我们确认的最优菌株SNV组合(E.coli_58110、F.prausnitzii_57453、F.prausnitzii_61481、P.distasonis_56985、F.prausnitzii_62201、B.longum_57796、B.adolescentis_56815、A.hadrus_55206、B.uniformis_57318、B.vulgatus_57955，10种菌株)，对每一个队列进行内部5折交叉验证，即每个队列内部随机平均分成5折，每一折依次作为测试集，剩下的4折作为训练集进行模型构建，获得5折的平均AUC。

2.2、不同队列间交叉验证

针对来自不同国家的队列，基于我们确认的最优菌株SNV组合，将每一个队列分别作为训练集，剩下的所有队列依次作为测试集，即每两个队列都进行了互为训练集和测试集的模型构建获得其AUC，并获得平均AUC。

2.3、不同队列留一法验证

针对来自不同国家的队列，基于我们确认的最优菌株SNV组合，依次将其中一个队列留下作为测试集，其余所有队列作为训练集进行模型的构建，获得其AUC，并获得平均AUC；

实验结果：不同队列内部5折交叉验证结果如图2所示，不同队列内部5折交叉验证的平均AUC最低为0.73，最高为0.85；不同队列间交叉验证结果如图3所示，不同队列间交叉验证的结果，可见最低为0.78，最高为0.85，平均为0.81；不同队列留一法验证如图4所示，不同队列留一法验证的AUC，可见最低为0.76，最高为0.90，平均为0.84，以上结果说明本实例的早筛标志物和早筛模型具有较高的鲁棒性和通用性，可适用于不同人群，具有很高的临床价值。

实施例3特异性验证

实验材料：收集数据库中除结直肠腺瘤之外的其他肠道疾病微生物测序数据进行特异性验证，包括结直肠癌(队列ERP008729，ERP005534，DRA006684，DRA008156，SRP136711，疾病样本数为386，健康对照样本数为439)、克罗恩病(队列PRJNA400072，疾病样本数为68，健康对照样本数为34)及溃疡性结肠炎(队列PRJNA400072，疾病样本数为53，健康对照样本数为34)。

实验方法：针对不同疾病测序数据，基于我们确认的最优菌株SNV组合，分别对每一个疾病进行模型的构建，获得10折交叉验证的结果，即每个疾病数据内部随机平均分成10折，每一折依次作为测试集，剩下的9折作为训练集进行模型构建，获得10折平均AUC；

实验结果：如图5所示，图中每个疾病的每个箱形图上边缘为10折中最高的AUC，下边缘为10折中最低的AUC，箱体的上下边缘分别为10折AUC的两个四分位数，箱体中间的线为10折AUC的中位数，可见结直肠腺瘤的AUC显著高于其他肠道疾病，说明特异性验证证实早筛标志物和早筛模型对结直肠腺瘤有高度特异性，在临床应用上可以避免假阳性的出现，也可辅助进行鉴别诊断。

在上述说明书的描述过程中：

术语“本实施例”、“本发明实施例”、“如……所示”、“进一步的”、“进一步改进的技术分方案”等的描述，意指该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中；在本说明书中，对上述术语的示意性表述不是必须针对相同的实施例或示例，而且，描述的具体特征、结构、材料或者特点等可以在任意一个或者多个实施例或示例中以合适的方式结合或组合；此外，在不产生矛盾的前提下，本领域的普通技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合或组合。

最后应说明的是：

以上各实施例仅用以说明本发明的技术方案，而非是对其的限制；

尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，本领域技术人员根据本说明书内容所做出的非本质改进和调整或者替换，均属本发明所要求保护的范围。

Claims

1.一种结直肠腺瘤生物标志物，其特征在于，包括内脏奥德氏杆菌Odoribactersplanchnicus_62174、解纤维素拟杆菌Bacteroides cellulosilyticus_58046、沙氏别样杆菌Alistipes shahii_62199、琥珀酸杆菌Phascolarctobacterium succinatutens_61948、假小链双歧杆菌Bifidobacterium pseudocatenulatum_57754、毛螺科菌Lachnospiraceae bacterium_51870、嗜热链球菌Streptococcus thermophilus_54772、解木聚糖拟杆菌Bacteroides xylanisolvens_57185、两歧双歧杆菌Bifidobacteriumbifidum_55065、罗氏弧菌Roseburia intestinalis_56239、粪拟杆菌Bacteroidescaccae_53434、昂氏另枝菌Alistipes onderdonkii_55464、Bacteroides fragilis_54507、多形拟杆菌Bacteroides thetaiotaomicron_56941、二环瘤胃球菌Ruminococcusbicirculans_59300、卵形拟杆菌Bacteroides ovatus_58035、嗜黏蛋白艾克曼氏菌Akkermansia muciniphila_55290、大肠杆菌Escherichia coli_58110、狄氏副拟杆菌Parabacteroides distasonis_56985、普拉梭菌Faecalibacterium prausnitzii_57453、普拉梭菌Faecalibacterium prausnitzii_61481、普拉梭菌Faecalibacteriumprausnitzii_62201、长双歧杆菌Bifidobacterium longum_57796、青春双岐杆菌Bifidobacterium adolescentis_56815、产丁酸菌Anaerostipes hadrus_55206、单形拟杆菌Bacteroides uniformis_57318、普通拟杆菌Bacteroides vulgatus_57955。

2.一种结直肠腺瘤检测试剂盒，其特征在于，包括用于检测一种或多种权利要求1所述的生物标志物的单核苷酸变异的试剂。

3.一种肿瘤早筛系统，其特征在于，包括：

1)正常及疾病人群肠道微生物的数据库；

2)微生物分离、培养试剂盒；

3)微生物单核苷酸变异检测试剂盒或基因检测设备；

4)生物信息学分析、比对设备。

4.如权利要求3所述的系统，其特征在于，所述数据库包括美国国家生物技术信息中心SRA数据库、欧洲生物信息研究所ENA数据库。

5.如权利要求3所述的系统，其特征在于，所述微生物包括细菌。

6.一种肿瘤生物标志物的筛选方法，其特征在于，包括以下步骤：

S2、将预处理后的微生物测序数据进行筛选，对具有足够测序深度和覆盖度的菌株进行SNV水平的注释，获得每个菌株的SNV突变频率信息；

S4、对差异SNV位点进行筛选，确定SNV最优生物标志物。

7.如权利要求6所述的肿瘤生物标志物的筛选方法，其特征在于，步骤S1的预处理包括：

8.权利要求6所述的肿瘤生物标志物的筛选方法，其特征在于，步骤S2中的测序深度大于3X和/或覆盖度大于10％。

9.权利要求6所述的肿瘤生物标志物的筛选方法，其特征在于，步骤S4中的差异SNV位点筛选包括：对每个差异SNV进行机器学习分类模型的构建，获得每个差异SNV的AUC，保留AUC大于0.5的差异SNV；对所有AUC大于0.5的差异SNV进行相关性分析，保留相关性系数绝对值小于0.7的SNV组合；利用递归特征消除的方法，进行最优SNV组合的筛选，确定肿瘤早筛的SNV生物标志物。

10.如权利要求6所述的肿瘤生物标志物的筛选方法，其特征在于，还包括以下步骤：对SNV最优生物标志物进行验证与评估。

11.如权利要求10所述的肿瘤生物标志物的筛选方法，其特征在于，所述的验证与评估方法包括交叉验证、留一法验证和特异性评估。

12.如权利要求6所述的肿瘤生物标志物的筛选方法，其特征在于，所述疾病包括结直肠肿瘤。

13.如权利要求6所述的肿瘤生物标志物的筛选方法，其特征在于，所述微生物包括细菌。

14.一种肿瘤早筛模型构建方法，其特征在于，包括以下步骤：

R1、根据权利要求6-13任意一项筛选的肿瘤生物标志物进行模型的构建，并调整模型的超参数，对模型进行优化；

R2、对构建的早筛模型进行验证与评估。

15.权利要求14所述的肿瘤早筛模型构建方法，其特征在于，步骤R1包括：标志物采用随机森林模型进行训练，通过贝叶斯优化算法对随机森林模型进行超参数的优化。

16.如权利要求14所述的肿瘤早筛模型构建方法，其特征在于，步骤R2所述的验证与评估方法包括交叉验证、留一法验证和特异性评估。