CN113380396A

CN113380396A - 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用

Info

Publication number: CN113380396A
Application number: CN202010115449.8A
Authority: CN
Inventors: 陈卫华; 江浦滋; 罗奇斌
Original assignee: Shenzhen Qiyun Biological Information Technology Co ltd
Current assignee: Shenzhen Qiyun Biological Information Technology Co ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-09-10

Abstract

本发明涉及医疗筛查领域，且公开了一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用。鉴定到的标志物菌群与通路，结合人类粪便DNA含量，增加了分类模型的全面性；利用多个数据集通过Meta分析，可以减小背景噪音和其他因素的影响，得到更加稳定结果;同时考虑多种常见肠道疾病，挖掘其可能的致病机制，可避免因其有相似表型而误诊的可能；根据实际需求，根据不同目的建立了不同的机器分类器，便于使用者根据自己的需求使用或进一步验证。综合考虑上述因素，本发明机器学习模型有优良预测效果，更适用于实际应用场景，可得到更精确的结果。并且所选取的实验载体粪便是临床使用和体检机构中最常见的，获取难度小成本低，解释程度高。

Description

一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用

技术领域

本发明涉及医疗筛查领域，尤其涉及利用常见肠病的相关菌以及粪便人DNA含量作为标记物对多种肠道疾病进行风险评估的应用。

背景技术

近几年来，西方常见肠病如炎症性肠炎（Inflammatory bowel disease, IBD）在亚洲、南非、中东等地区的发展中国家的发病率激增。先前被认为具有低风险的印度人与日本人肠炎的发病率也显著增加。另外，结直肠癌（Colorectal cancer, CRC）作为发生于结直肠部位的恶性肿瘤，每年可导致60万人的死亡，并且在西方国家的年轻人中风险也逐年提升。

IBD与CRC作为常见的肠道疾病，具有类似的疾病症状，包括直肠出血、腹部疼痛、腹泻、体重减轻与贫血等。患有IBD的患者相比正常人来说，患有CRC的风险是显著高的，并会随着发作时长累积。然而目前针对肠道疾病的筛查主要为粪便隐血与肠道内窥镜。在就诊时，患者对自身患病症状的描述容易造成医生诊断的误差。粪便隐血检测因其对铁离子的敏感度，具有较高的假阳性。而内窥镜在对肠道损伤和病变检测方面也存在不足，探入式手段对患者造成的心理压力较大，并且价格昂贵，无法作为长期坚持的筛查手段。为了降低误诊率、错诊率，并给IBD患者提供更加便捷的跟踪筛查方式，开发新的非侵入式的检测手段是有必要的。

随着科学技术的发展与科研的进步，国内外许多研究发现IBD与CRC与患者遗传、环境因子、免疫系统与肠道微生物之间的复杂相互作用有关联。肠道微生物通过消耗宿主残留的底物产生营养与抗生素等，为宿主抵御外来侵入菌、调整免疫系统与炎症反应从而达到肠道内环境稳态。因此，肠道微生物发生紊乱会对宿主的健康产生一定的影响。

普遍认为，是肠道损伤和有害菌的入侵共同导致的整体代谢的失调从而造成肠道微生物的紊乱。肠道损伤主要体现为患有肠病的人脱落的肠道细胞的增多，粪便当中人类DNA含量（host DNA contents，HDC）上升。在IBD患者中，肠道微生物的紊乱主要体现为厚壁菌门（Firumicutes）的微生物的减少，例如凸腹真杆菌（Eubacterium ventriosum）和丝状真杆菌（Eubacterium eligens），与一些有害菌如大肠杆菌（Escherichia coli）、肺炎克雷伯菌（Klebsiella pneumoniae）的增加。IBD的两个主要的亚型，克罗恩病（Crohn’sdisease, CD）与溃疡性肠炎（Ulcerative colitis, UC）两者在病理上的区别尚不明确，但所展现出来的微生物改变趋势和代谢谱图有一定的差别。在CRC患者中，已经有meta分析鉴定出一系列微生物作为有潜力的疾病标志物，例如具核梭杆菌（Fusobacteriumnucleotum）与一些单胞菌属（Parvimonas）。在IBD和CRC中，利用肠道微生物丰度可以对疾病预测与分层起到良好的效果，有望用于肠病的非侵入式检测。

但是目前现有的研究大部分都是基于单个数据集的结果，而且只集中于某一个疾病，所得到的分类模型比较单薄，存在由于单个人种或者地区等因素所导致的误差。例如，如果患者患有某一个疾病，但因为模型的错误运用和疾病共有菌会错误的判断为其他疾病。这里我们利用多个肠病的多个数据集进行meta分析有助于减小其他因素的影响，得到一个更加稳定的结果。荟萃（Meta）分析将多个不同来源的数据进行整合分析，尽可能的减少单个研究所引起的偏差。另外，现有的模型都是基于肠道微生物所建的模型，实际上在一些具有缓解症状的IBD患者中，往往是因为肠道屏障的修复，他们的肠道微生物结构并没有恢复正常。因此在本专利中，提出将肠道微生物与粪便人类DNA含量作为综合特征，利用机器学习的方法建立预测肠病风险的模型，为肠病非侵入式检测提供基础。

发明内容

针对上述背景技术的不足，本发明提供了一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，即结合微生物与人类DNA信息，通过荟萃分析（meta-analysis）鉴定相对稳定的常见肠道疾病的相关菌群，以及鉴定粪便中人类DNA含量的分布情况，从而评估鉴定是否患有肠病，以及针对炎症性肠病患者评估是否患有结直肠癌风险的筛查模型。

本发明提供如下技术方案：一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，其特征在于：包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用，所述数据收集后对其进行数据预处理，然后经过机器学习模型计算后得出评估结果，计算方法如下：

第一步，常见肠道相关细菌与相关通路的收集，我们从公共数据库中搜索并下载了11个包括了正常人和肠病患者的宏基因组数据集，一共得到了285个溃疡性结肠炎样本（ulcerative colitis，UC），324个克罗恩病样本（Crohn’s disease, CD），354个结直肠癌样本（Colorectal cancer）与357个正常人样本的粪便宏基因组数据；

第二步数据预处理，用Trimmomatic软件对数据进行质量控制，即修剪和去除原始数据中的接头（adapter）和低质量序列，包含双端测序和单端测序两种模式，并用Fastqc软件评价质控后的数据；

第三步粪便人类DNA的鉴定，采用Bowtie2软件与人类参考基因组（hg19）进行比对，利用宏基因组数据鉴定粪便中所含有的人类DNA含量（host DNA contents, HDC），计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。随后去除匹配上的人类DNA片段，避免后续分析出现错误的匹配。比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析，MetaPhIAn2 整理了17000多个参考基因组，包括13500个细菌和古菌，3500个病毒和110种真核生物；

第四步肠病相关菌群与相关通路丰度鉴定，通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平，同时可以利用HUMAnN2软件对通路水平进行鉴定，从而可以从代谢水平上了解人的身体状况，再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度，根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度，采用Wilcoxon ranksum test鉴定组间存在差异的菌群与代谢通路，并利用fdr方法来校正每个数据集的p值，筛选至少在2个数据集中fdr<0.05的菌群和通路，从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物（biomarkers）；

第五步机器学习模型的建立与评估，我们采用随机森林算法，利用多棵决策树的集成学习策略，对样本进行训练并进行预测，同时利用通过meta分析所得到的相对稳定的差异菌与差异通路，结合前面鉴定所得到的HDC共同作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，可以避免一次交叉验证所导致的误差，根据不同的目的，我们创建了三个机器学习模型：可以将患有肠病的样本从正常样本中区分出来的二次模型（binary model），可以将样本分类为正常样本或者患有具体某一个肠病（UC、CD、CRC）的四分类模型（four-class model），以及可以帮助肠炎患者评估患癌风险，将患有肠炎的患者与肠癌患者区分开的三分类模型（three-class model），在使用模型进行计算时，将待测样本的预处理后的数据直接传入模型中，输出为三个模型对其进行计算所得到的风险评估。

优选的，所述数据预处理采用Trimmomatic软件对数据进行质量控制，采用MetaPhlAn2软件进行宏基因组物种注释，采用HUMAnN2软件对通路水平进行鉴定，采用Wilcoxon rank sum test与meta分析鉴定差异菌群与差异通路。

优选的，所述HDC（host DNA contents）利用Bowtie2将宏基因组数据比对到人类参考基因组上，鉴定粪便中所含有的人类DNA含量，计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。

优选的，所述机器学习模型主要将前面鉴定所得到的差异菌群、差异通路与HDC共同作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证得到模型的准确性，避免一次交叉验证所导致的误差。

优选的，所述疾病风险根据不同目的、不同参数选择最优机器学习算法模型（二次模型、四分类模型、三分类模型）进行分析，可以给出全面的预测结果，保证计算结果的准确性。

本发明具备以下有益效果：

鉴定到的标志物菌群与通路，结合人类粪便DNA含量，增加了分类模型的全面性；利用多个数据集通过Meta分析，可以减小其他因素的影响，得到更加稳定的结果；同时考虑多种常见肠道疾病，挖掘其可能的致病机制，可避免因其有相似表型而误诊的可能；根据实际需求，根据不同目的建立了不同的机器分类器，便于使用者根据自己的需求使用或进一步验证。综合考虑上述因素，使得本发明机器学习模型有优良预测效果，更适用于实际应用场景，可得到更精确的结果。并且，同时所选取的实验载体粪便是临床使用和体检机构中最常见的，获取难度小成本低，解释程度高。

附图说明

图1（发明流程示意图）；

图2（数据内部验证二分类模型预测结果）；

图3（数据内部验证四分类模型预测结果）；

图4（数据内部验证三分类模型预测结果）；

图5（外部数据二分类模型预测结果）；

图6（外部数据四分类模型预测结果）；

图7（外部数据三分类模型预测结果）。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，但本发明的保护范围不受具体的实施方式所限制，以权利要求书为准，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，该方法基于我们前期构建的人体肠道微生物组数据库（GMrepo）来获得测试数据，同时结合meta分析和Wilcoxon统计学检验得到结果可靠且不具有数据特异性的疾病相关菌群特征。并且，只利用宏基因组数据就可以得到粪便中人DNA的相关信息，无需再进行例如粪便潜血的检测方式。另外，我们结合HDC与菌群标志物作为特征，利用随机森林来构建具有不同用途的机器学习模型，并进行内部测试，得到了具有高准确率的预测模型，这里我们利用基于HDC、菌种标志物和通路标志物的机器学习模型，阐述如何对外部数据进行验证：

第一步，收集原始数据：对照样本与结直肠癌宏基因组数据获取：我们与广西医科大学附属医学院肛肠科合作，获得了35例对照样本与29例各期结直肠癌样本的宏基因组双端测序数据，该数据为保密数据；

第二步，数据预处理：获取原始宏基因组双端测序数据后，用Trimmomatic软件对数据进行质量控制，去除低质量序列和接头，并用Fastqc软件评价质控后的数据；

第三步，粪便人类DNA的鉴定：将质控后的数据采用Bowtie2软件比对到人类参考基因组（hg19）上，计算和鉴定粪便中人类DNA含量（HDC），并去除匹配上的人类reads；

第四步，肠病相关菌群与相关通路丰度鉴定：采用MetaPhIAn2软件与HUMAnN2对最后得到的clean数据，进行宏基因组物种注释与代谢通路注释进行分析；

第五步，机器学习模型的建立与结果预测：合并我们得到的所有样本的丰度数据并进行预处理，随后与我们的模型特征名进行匹配，如有缺乏的特征则将其补齐，并准备好样本的分组数据，用于对模型预测结果的评估，将物种丰度、通路丰度、HDC与分组数据整理成一个行名为样本，列为HDC、菌种标志物和通路标志物、组别的表格，依托R软件，按要求输入该表格后即可得预测结果，模型内部验证结果展示：

请参阅图2，为二分类模型（binary model）结果：经过十次十倍交叉验证建立的二分类模型进行预测，区分正常人与肠病患者的模型AUC可高达0.90；

请参阅图3，为四分类模型（four-class model）结果：经过十次十倍交叉验证建立的四分类模型进行预测，综合来看，被准确预测到某一个分类的准确率有0.77；

请参阅图4，为三分类模型（three-class model）结果：经过十次十倍交叉验证建立的三分类模型进行预测，能把肠炎患者和肠癌患者很好的区分开，三分类模型预测的准确率有89%；

第五步，外部数据预测结果展示：

请参阅图5，为二分类模型（binary model）结果：我们用于验证的数据中有35例对照样本（Control）与29例结直肠癌（CRC），经过建立的二分类模型预测，有26个结直肠癌数据被准确预测为Case，准确率高达90%。综合评估数据分类预测的结果，AUC可高达0.85；

请参阅图6，为四分类模型（four-class model）结果：我们将用于验证的数据投入四分类模型中，经过预测发现，有23例结直肠癌样本被预测为肠炎或者肠癌，有23个正常对照被正确预测为正常样本，综合来看，被准确预测到某一个分类的准确率有0.72；

请参阅图7，为三分类模型（three-class model）结果：我们将用于验证的数据投入三分类模型中，该结果只展示29个患病数据的预测结果，其中有28例结直肠癌样本被准确预测为肠癌，三分类模型预测的准确率有97%。

其中，所述数据预处理采用Trimmomatic软件对数据进行质量控制，采用MetaPhlAn2软件进行宏基因组物种注释，采用HUMAnN2软件对通路水平进行鉴定。

其中，所述HDC（host DNA contents）含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量，计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。

其中，所述机器学习模型为前面鉴定所得到的HDC、菌群标志物与通路标志物作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证所得到的机器学习模型。

其中，根据不同目的、不同参数构建了三个机器学习算法模型（二次模型、四分类模型、三分类模型）进行分析，全面评估外部数据，保证计算结果的准确性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，其特征在于：包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用，所述数据收集后对其进行数据预处理，然后经过机器学习模型计算后得出结果，计算方法如下：

第一步，常见肠道相关细菌信息的收集，我们从公共数据库中搜索并下载了11个包括了正常人和肠病患者的宏基因组数据集，一共得到了285个溃疡性结肠炎样本（ulcerativecolitis，UC），324个克罗恩病样本（Crohn’s disease, CD），354个结直肠癌样本（Colorectal cancer）与357个正常人样本的粪便宏基因组数据；

第三步粪便人类DNA的鉴定，采用Bowtie2软件与人类参考基因组（hg19）进行比对，利用宏基因组数据鉴定粪便中所含有的人类DNA含量（host DNA contents, HDC），计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量，随后去除匹配上的人类DNA片段，避免后续分析出现错误的匹配，比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析，MetaPhIAn2 整理了17000多个参考基因组，包括13500个细菌和古菌，3500个病毒和110种真核生物；

第四步肠病相关菌群与相关通路丰度鉴定，通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平，同时可以利用HUMAnN2软件对通路水平进行鉴定，从而可以从代谢水平上了解人的身体状况，再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度，根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度，采用Wilcoxon ranksum test鉴定组间存在差异的菌群与代谢通路，并利用fdr方法来校正每个数据集的p值，筛选在两个以上数据集中fdr<0.05的菌群和通路，从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物（biomarkers）；

第五步机器学习模型的建立与评估，我们采用随机森林算法，利用多棵决策树的集成学习策略，对样本进行训练并进行预测，同时利用通过meta分析所得到的相对稳定的差异菌与差异通路，所谓meta分析，又称为荟萃分析，是指收集分析不同来源、不同人群的多组研究，鉴定出有相同变化趋势的差异菌与差异通路；减少单个研究的偏差，增加结果的普遍适用性，并可提高结果的准确性和特异性，结合前面鉴定所得到的HDC作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，可以避免一次交叉验证所导致的误差，根据不同的目的，我们创建了三个机器学习模型：可以将患有肠病的样本从正常样本中区分出来的二次模型（binary model），可以将样本分类为正常样本或者患有具体某一个肠病（UC、CD、CRC）的四分类模型（four-class model），以及可以帮助肠炎患者评估患癌风险，将患有肠炎的患者与肠癌患者区分开的三分类模型（three-class model），在使用模型进行计算时，将待测样本的预处理后的数据直接传入模型中，经过计算后，输出为三个模型对其进行计算所得到的风险评估。

2.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，其特征在于：所述数据预处理采用Trimmomatic软件对数据进行质量控制，采用MetaPhlAn2软件进行宏基因组物种注释，采用HUMAnN2软件对通路水平进行鉴定，采用Wilcoxon rank sum test与荟萃（meta-）分析鉴定差异菌群与差异通路。

3.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，其特征在于：所述HDC（host DNA contents）利用Bowtie2将宏基因组数据比对到人类参考基因组上，鉴定粪便中所含有的人类DNA含量，计算方法为：HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。

4.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，其特征在于：所述机器学习模型主要将前面鉴定所得到的差异菌群、差异通路与HDC共同作为机器学习模型所要使用的特征，利用随机森林进行十次十倍交叉验证，避免一次交叉验证所导致的误差。

5.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用，其特征在于：根据不同目的、不同参数构建了三种机器学习算法模型（二次模型、四分类模型、三分类模型）进行分析，更贴近实际应用场景，可给出全面的预测结果，保证计算结果的准确性。