CN113314211A

CN113314211A - 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用

Info

Publication number: CN113314211A
Application number: CN202010118005.XA
Authority: CN
Inventors: 陈卫华; 江浦滋; 罗奇斌
Original assignee: Shenzhen Qiyun Biological Information Technology Co ltd
Current assignee: Shenzhen Qiyun Biological Information Technology Co ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2021-08-27

Abstract

本发明涉及医疗筛查领域，且公开了一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，包括人体肠道微生物在线数据库的构建、数据预处理、相关通路丰度鉴定、机器学习模型的建立、真实样本应用。以相关DNA含量作为衡量对象，增加测量的全面性，同时利用多个数据集通过荟萃（Meta）分析，所得到的差异菌群、差异通路具有很强的跨人种适用性，除了根据微生物群落的变化，还可以根据代谢网络的变化来预测受试者肠道健康状况，并通过机器学习模型对肠道微生物和粪便中人类DNA含量进行计算，使得整个流程更加实用和精确，保证计算结果的准确性，该综合粪便人类DNA信息与粪便菌群标志物的预测风险模型，只需要采粪便样本并进行宏基因组测序就可以得到两者的信息，而不需要结合其他检测，依存性强，同时所选取的实验载体粪便是临床使用和体检机构中最常见的，获取难度小成本低，解释程度高。

Description

一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用

技术领域

本发明涉及医疗筛查领域，尤其涉及利用结直肠癌相关菌以及粪便人DNA含量作为标记物在结直肠癌早期筛查的应用。

背景技术

结直肠癌（Colorectal Cancer, CRC），是人类常见的恶性肿瘤，目前被列为世界第三大癌症。随着人们生活水平的提高和饮食结构的改变，其发病率和死亡率呈上升趋势，严重威胁着人类的健康。已有大量研究报道CRC与多种因素有关，如遗传、饮食、久坐、吸烟等，但其确切的发病机制仍不明确。有数据表示，Ⅲ-Ⅳ结直肠癌的五年生存率仅10%，而Ⅰ-Ⅱ期结直肠癌的五年生存率高达90%。并且，结直肠癌作为在中老年人里的高发癌症，在年轻人中的发病率也逐年上升。因此，针对结直肠癌的预防和筛查至关重要，及早发现和剔除癌病变可以极大的降低发病率和死亡率。

目前已有的结直肠癌筛查技术有基于愈创木脂粪便潜血检测（Faecal OccultBlood Test, FOBT）,免疫化学粪便潜血检测（Immunochemical FOBT, FIT），多靶标粪便DNA检测（Multitarget Stool DNA Testing, FIT-DNA）以及侵入式肠镜。FOBT与FIT都是根据粪便里是否含有血红蛋白来进行检测，要进行多次采样，而且针对无症状的结直肠癌患者的灵敏度分别只有49%与73.8%。与铁发生化学作用的特点使得FOBT与FIT存在假阳性高的问题。相比FOBT与FIT，通过检测粪便中所含有的脱落细胞含量以及癌细胞中基因突变和甲基化来进行评估的FIT-DNA，在检测I-II期结直肠癌具有更高的灵敏度，高达90%，但是FIT-DNA价格高昂（2500元左右），需要测试者提供完整的粪便，性价比低。肠镜作为筛查方法的金标准，虽然通过可视化方式检测腺瘤与息肉等病变，但是高价格、前期准备工作、侵入式方式、以及肠穿孔和肠道出血等并发症的风险，使得民众对肠镜的接受度不高。除此之外，肠镜在病变方面检测存在不足，还会破坏已有的肠道菌群结构，无法作为最优的可推广的筛查方法。

肠道微生物作为人体免疫系统的一部分，附着于肠道内壁，通过消耗来源于人类宿主与其他微生物的底物来产生对宿主有益或有害的代谢产物，是炎症反应和免疫应答重要的参与者。在许多研究中发现，在腺瘤和结直肠癌患者当中都发生了肠道微生物的紊乱，具体表现为一些正常人富集菌的减少和有害菌的增加，例如优杆菌属中的凸腹真杆菌（Eubacterium Ventriosum）与丝状真杆菌（Eubacterium Eligens）在CRC患者中减少，而具核梭杆菌（Fusobacterium Nucleotum）与一些单胞菌属（Parvimonas）和梭菌属（Clostridium），在CRC患者体内显著增加，其中具核梭杆菌被证明参与了致癌的过程。

在结直肠癌变的过程中，肠道上皮细胞的脱落物也显著增多，具体表现为粪便当中人类DNA含量的上升。已经有人利用肠道菌群建立肠癌筛查模型，利用AUC作为评估能达到0.85的效果，但是这是基于单一的数据集中全部肠道菌群信息的结果，可能不适用于其他人群。鉴于目前结直肠癌发病率与死亡率的上升，以及发病年龄的年轻化，亟待开发一个测试手段和价格都易被人群接受、并能达到高准确率的肠癌的筛查方式，从而促进肠道筛查方法的推广，提早发现肠道病变。

发明内容

针对上述背景技术的不足，本发明提供了一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，即结合微生物与人类DNA信息，通过荟萃分析（Meta-Analysis）鉴定相对稳定的常见肠道疾病的相关菌群，以及鉴定粪便中人类DNA含量的分布情况，开发了一个通过综合肠道菌群结构与粪便人类DNA含量来评估鉴定是否患结直肠癌的筛查模型。

本发明提供如下技术方案：一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，其特征在于：包括人体肠道微生物在线数据库的构建、数据预处理、相关通路丰度鉴定、机器学习模型的建立、真实样本应用，所述数据收集后对其进行数据预处理，然后经过机器学习模型计算后得出结果，所述DNA含量指标按以下方法计算相关疾病风险：

第一步，人体肠道微生物在线数据库的构建，该数据库共计收入253个项目，涉及58903个人体肠道样本，我们从中搜索并下载了7个包括了正常人和结直肠癌症患者的宏基因组数据集，一共得到了354个结直肠癌样本（Colorectal Cancer）与357个正常人样本的粪便宏基因组数据；

第二步数据预处理，用Trimmomatic软件对数据进行质量控制，即修剪和去除原始数据中的接头（Adapter）和低质量序列，并采用Bowtie2软件进行比对，利用宏基因组数据鉴定粪便中所含有的人类DNA含量（Host DNA Contents, HDC），比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析，MetaPhIAn2 整理了17000多个参考基因组，包括13500个细菌和古菌，3500个病毒和110种真核生物；

第三步相关通路丰度鉴定，通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平，同时可以利用HUMAnN2软件对通路水平进行鉴定，从而可以从代谢水平上了解人的身体状况，再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度，根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度，采用Wilcoxon Rank Sum Test鉴定组间存在差异的菌群与代谢通路，并利用fdr方法来校正每个数据集的p值，筛选fdr<0.05的菌群和通路，从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物（Biomarkers），参照图2，为粪便人类DNA含量在正常人与结直肠癌患者中的分布图；

第四步机器学习模型的建立与评估，我们采用随机森林算法，利用多棵决策树的集成学习策略，对样本进行训练并进行预测，参照图3和图4,利用通过荟萃（Meta）分析所得到的相对稳定的差异菌与差异通路。所谓meta分析，又称为荟萃分析，是指收集分析不同来源、不同人群的多组研究，鉴定出有相同变化趋势的差异菌与差异通路；减少单个研究的偏差，增加结果的普遍适用性，并可提高结果的准确性和特异性。结合前面鉴定所得到的HDC作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，可以避免一次交叉验证所导致的误差，最终得到可以较准确的识别癌症患者和正常人的机器学习模型和预测的结果，模型测试结果参照图5。

优选的，所述数据预处理采用Trimmomatic软件对数据进行质量控制，采用MetaPhlAn2软件进行宏基因组物种注释，采用HUMAnN2软件对通路水平进行鉴定，采用Wilcoxon Rank Sum Test鉴定组间差异。

优选的，所述HDC（Host DNA Contents）含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量，计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。

优选的，所述机器学习模型主要前面鉴定所得到的HDC作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，避免一次交叉验证所导致的误差。

本发明具备以下有益效果：

以相关DNA含量作为衡量对象，增加测量的全面性，同时利用多个数据集通过Meta分析，所得到的差异菌群、差异通路具有很强的跨人种适用性，除了根据微生物群落的变化，还可以根据代谢网络的变化来预测受试者肠道健康状况，并通过机器学习模型对肠道微生物和粪便中人类DNA含量进行计算，使得整个流程更加实用和精确，保证计算结果的准确性，该综合粪便人类DNA信息与粪便菌群标志物的预测风险模型，只需要采粪便样本并进行宏基因组测序就可以得到两者的信息，而不需要结合FIT、FOBT检测，依存性强，同时所选取的实验载体粪便是临床使用和体检机构中最常见的，获取难度小成本低，解释程度高。

附图说明

图1为本发明流程示意图；

图2为粪便人类DNA含量在正常人与结直肠癌患者中的分布图；

图3为Meta分析得到的结直肠癌相关的差异菌种；

图4为Meta分析得到的结直肠癌相关的差异代谢通路；

图5为基于鉴定的差异菌、差异通路以及HDC作为特征的二分类模型预测结果

图6为样本分类结果；

图7为预测结果总体评估。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，但本发明的保护范围不受具体的实施方式所限制，以权利要求书为准，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，该方法是一种仅利用粪便宏基因组数据中的粪便人DNA含量（HDC）和微生物数据对受试者进行无创非侵入检测方法，基于我们前期构建的人体肠道微生物组数据库（GMrepo）来获得测试数据，同时结合Meta分析和Wilcoxon统计学检验得到结果可靠且不具有数据特异性的疾病相关菌群特征。并且，只利用宏基因组数据就可以得到粪便中人DNA的相关信息，无需再进行例如粪便潜血的检测方式。另外，我们结合HDC与菌群标志物作为特征，利用随机森林来构建具有不同用途的机器学习模型，并进行内部测试，得到了具有高准确率的预测模型，这里我们利用基于HDC、菌种标志物和通路标志物的机器学习模型，阐述如何对外部数据进行验证：

第一步，收集原始数据，对照样本与结直肠癌宏基因组数据获取：我们与广西医科大学附属医学院肛肠科合作，获得了35例正常样本与29例各期结直肠癌样本的宏基因组双端测序数据，该数据为保密数据；

第二步，数据预处理：获取原始宏基因组双端测序数据后，用Trimmomatic软件对数据进行质量控制，去除低质量序列和接头，并用Fastqc软件评价质控后的数据，将质控后的数据采用Bowtie2软件比对到人类参考基因组（hg19）上，计算和鉴定粪便中人类DNA含量（HDC），并去除匹配上的人类Reads；

第三步，相关通路丰度鉴定，宏基因组菌群丰度与代谢通路丰度鉴定：参照图2，采用MetaPhIAn2软件与HUMAnN2对最后得到的clean数据，进行宏基因组物种注释与代谢通路注释进行分析；

第四步，机器学习模型的建立与结果预测：合并我们得到的所有样本的丰度数据并进行预处理，随后与我们的模型特征名进行匹配，如有缺乏的特征则将其补齐，并准备好样本的分组数据，用于对模型预测结果的评估，将物种丰度、通路丰度、HDC与分组数据整理成一个行名为样本，列为HDC、菌种标志物和通路标志物、组别的表格，依托R软件，按要求输入该表格后即可得预测结果；

第五步，预测结果展示：

1.样本分类结果：请参阅图6，第i行第j列的方块内的数字表示第i行分类对应的样本有多少个被预测为第j列表示的分类。CTR表示正常样本，CRC表示患癌样本。真阳性率（TruePositive Rate, TPR =正确阳性分类/阳性分类总数）与真阴性率（True Negative Rate,TNR =正确阴性分类/阴性分类总数）均能达到0.8以上。其结果好于普通的粪便潜血检测与免疫组学检测（FOBT：TPR=0.49; FIT：TPR=0.73）;

2.预测结果总体评估：请参阅图7，根据每个样本的分类情况，综合评估真阳性率、假阳性率（False Positive Rate, FPR = 错误阳性分类/阳性分类总数）评估总体分类的结果。如图所示，对外来的结直肠癌数据验证可以达到 0.87的AUC值，其中，所述数据预处理采用Trimmomatic软件对数据进行质量控制，采用MetaPhlAn2软件进行宏基因组物种注释，采用HUMAnN2软件对通路水平进行鉴定，采用Wilcoxon rank sum test鉴定组间差异，其中，所述HDC（Host DNA Contents）含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量，计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量，其中，所述机器学习模型主要前面鉴定所得到的HDC作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，避免一次交叉验证所导致的误差。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，其特征在于：包括人体肠道微生物在线数据库的构建、数据预处理、相关通路丰度鉴定、机器学习模型的建立、真实样本应用，所述数据收集后对其进行数据预处理，然后经过机器学习模型计算后得出结果，所述DNA含量指标按以下方法计算相关疾病风险：

第三步相关通路丰度鉴定，通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平，同时可以利用HUMAnN2软件对通路水平进行鉴定，从而可以从代谢水平上了解人的身体状况，再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度，根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度，采用Wilcoxon Rank Sum Test鉴定组间存在差异的菌群与代谢通路，并利用fdr方法来校正每个数据集的p值，筛选fdr<0.05的菌群和通路，从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物（Biomarkers）；

第四步机器学习模型的建立与评估，我们采用随机森林算法，利用多棵决策树的集成学习策略，对样本进行训练并进行预测，同时利用通过荟萃（Meta）分析所得到的相对稳定的差异菌与差异通路，结合前面鉴定所得到的HDC作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，可以避免一次交叉验证所导致的误差，最终得到可以较准确的识别癌症患者和正常人的机器学习模型和预测的结果。

2.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，其特征在于：所述数据预处理采用Trimmomatic软件对数据进行质量控制，采用MetaPhlAn2软件进行宏基因组物种注释，采用HUMAnN2软件对通路水平进行鉴定，采用Wilcoxon Rank Sum Test鉴定组间差异。

3.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，其特征在于：所述HDC（Host DNA Contents）含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量，计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。

4.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用，其特征在于：所述机器学习模型主要前面鉴定所得到的HDC作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，避免一次交叉验证所导致的误差。