CN113380396A - 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 - Google Patents

一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 Download PDF

Info

Publication number
CN113380396A
CN113380396A CN202010115449.8A CN202010115449A CN113380396A CN 113380396 A CN113380396 A CN 113380396A CN 202010115449 A CN202010115449 A CN 202010115449A CN 113380396 A CN113380396 A CN 113380396A
Authority
CN
China
Prior art keywords
data
human dna
intestinal
model
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010115449.8A
Other languages
English (en)
Inventor
陈卫华
江浦滋
罗奇斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qiyun Biological Information Technology Co ltd
Original Assignee
Shenzhen Qiyun Biological Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qiyun Biological Information Technology Co ltd filed Critical Shenzhen Qiyun Biological Information Technology Co ltd
Priority to CN202010115449.8A priority Critical patent/CN113380396A/zh
Publication of CN113380396A publication Critical patent/CN113380396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及医疗筛查领域,且公开了一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用。鉴定到的标志物菌群与通路,结合人类粪便DNA含量,增加了分类模型的全面性;利用多个数据集通过Meta分析,可以减小背景噪音和其他因素的影响,得到更加稳定结果;同时考虑多种常见肠道疾病,挖掘其可能的致病机制,可避免因其有相似表型而误诊的可能;根据实际需求,根据不同目的建立了不同的机器分类器,便于使用者根据自己的需求使用或进一步验证。综合考虑上述因素,本发明机器学习模型有优良预测效果,更适用于实际应用场景,可得到更精确的结果。并且所选取的实验载体粪便是临床使用和体检机构中最常见的,获取难度小成本低,解释程度高。

Description

一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风 险评估的方法及应用
技术领域
本发明涉及医疗筛查领域,尤其涉及利用常见肠病的相关菌以及粪便人DNA含量作为标记物对多种肠道疾病进行风险评估的应用。
背景技术
近几年来,西方常见肠病如炎症性肠炎(Inflammatory bowel disease, IBD)在亚洲、南非、中东等地区的发展中国家的发病率激增。先前被认为具有低风险的印度人与日本人肠炎的发病率也显著增加。另外,结直肠癌(Colorectal cancer, CRC)作为发生于结直肠部位的恶性肿瘤,每年可导致60万人的死亡,并且在西方国家的年轻人中风险也逐年提升。
IBD与CRC作为常见的肠道疾病,具有类似的疾病症状,包括直肠出血、腹部疼痛、腹泻、体重减轻与贫血等。患有IBD的患者相比正常人来说,患有CRC的风险是显著高的,并会随着发作时长累积。然而目前针对肠道疾病的筛查主要为粪便隐血与肠道内窥镜。在就诊时,患者对自身患病症状的描述容易造成医生诊断的误差。粪便隐血检测因其对铁离子的敏感度,具有较高的假阳性。而内窥镜在对肠道损伤和病变检测方面也存在不足,探入式手段对患者造成的心理压力较大,并且价格昂贵,无法作为长期坚持的筛查手段。为了降低误诊率、错诊率,并给IBD患者提供更加便捷的跟踪筛查方式,开发新的非侵入式的检测手段是有必要的。
随着科学技术的发展与科研的进步,国内外许多研究发现IBD与CRC与患者遗传、环境因子、免疫系统与肠道微生物之间的复杂相互作用有关联。肠道微生物通过消耗宿主残留的底物产生营养与抗生素等,为宿主抵御外来侵入菌、调整免疫系统与炎症反应从而达到肠道内环境稳态。因此,肠道微生物发生紊乱会对宿主的健康产生一定的影响。
普遍认为,是肠道损伤和有害菌的入侵共同导致的整体代谢的失调从而造成肠道微生物的紊乱。肠道损伤主要体现为患有肠病的人脱落的肠道细胞的增多,粪便当中人类DNA含量(host DNA contents,HDC)上升。在IBD患者中,肠道微生物的紊乱主要体现为厚壁菌门(Firumicutes)的微生物的减少,例如凸腹真杆菌(Eubacterium ventriosum)和丝状真杆菌(Eubacterium eligens),与一些有害菌如大肠杆菌(Escherichia coli)、肺炎克雷伯菌(Klebsiella pneumoniae)的增加。IBD的两个主要的亚型,克罗恩病(Crohn’sdisease, CD)与溃疡性肠炎(Ulcerative colitis, UC)两者在病理上的区别尚不明确,但所展现出来的微生物改变趋势和代谢谱图有一定的差别。在CRC患者中,已经有meta分析鉴定出一系列微生物作为有潜力的疾病标志物,例如具核梭杆菌(Fusobacteriumnucleotum)与一些单胞菌属(Parvimonas)。在IBD和CRC中,利用肠道微生物丰度可以对疾病预测与分层起到良好的效果,有望用于肠病的非侵入式检测。
但是目前现有的研究大部分都是基于单个数据集的结果,而且只集中于某一个疾病,所得到的分类模型比较单薄,存在由于单个人种或者地区等因素所导致的误差。例如,如果患者患有某一个疾病,但因为模型的错误运用和疾病共有菌会错误的判断为其他疾病。这里我们利用多个肠病的多个数据集进行meta分析有助于减小其他因素的影响,得到一个更加稳定的结果。荟萃(Meta)分析将多个不同来源的数据进行整合分析,尽可能的减少单个研究所引起的偏差。另外,现有的模型都是基于肠道微生物所建的模型,实际上在一些具有缓解症状的IBD患者中,往往是因为肠道屏障的修复,他们的肠道微生物结构并没有恢复正常。因此在本专利中,提出将肠道微生物与粪便人类DNA含量作为综合特征,利用机器学习的方法建立预测肠病风险的模型,为肠病非侵入式检测提供基础。
发明内容
针对上述背景技术的不足,本发明提供了一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,即结合微生物与人类DNA信息,通过荟萃分析(meta-analysis)鉴定相对稳定的常见肠道疾病的相关菌群,以及鉴定粪便中人类DNA含量的分布情况,从而评估鉴定是否患有肠病,以及针对炎症性肠病患者评估是否患有结直肠癌风险的筛查模型。
本发明提供如下技术方案:一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用,所述数据收集后对其进行数据预处理,然后经过机器学习模型计算后得出评估结果,计算方法如下:
第一步,常见肠道相关细菌与相关通路的收集,我们从公共数据库中搜索并下载了11个包括了正常人和肠病患者的宏基因组数据集,一共得到了285个溃疡性结肠炎样本(ulcerative colitis,UC),324个克罗恩病样本(Crohn’s disease, CD),354个结直肠癌样本(Colorectal cancer)与357个正常人样本的粪便宏基因组数据;
第二步数据预处理,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(adapter)和低质量序列,包含双端测序和单端测序两种模式,并用Fastqc软件评价质控后的数据;
第三步粪便人类DNA的鉴定,采用Bowtie2软件与人类参考基因组(hg19)进行比对,利用宏基因组数据鉴定粪便中所含有的人类DNA含量(host DNA contents, HDC),计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。随后去除匹配上的人类DNA片段,避免后续分析出现错误的匹配。比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析,MetaPhIAn2 整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物;
第四步肠病相关菌群与相关通路丰度鉴定,通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平,同时可以利用HUMAnN2软件对通路水平进行鉴定,从而可以从代谢水平上了解人的身体状况,再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度,根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度,采用Wilcoxon ranksum test鉴定组间存在差异的菌群与代谢通路,并利用fdr方法来校正每个数据集的p值,筛选至少在2个数据集中fdr<0.05的菌群和通路,从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物(biomarkers);
第五步机器学习模型的建立与评估,我们采用随机森林算法,利用多棵决策树的集成学习策略,对样本进行训练并进行预测,同时利用通过meta分析所得到的相对稳定的差异菌与差异通路,结合前面鉴定所得到的HDC共同作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,可以避免一次交叉验证所导致的误差,根据不同的目的,我们创建了三个机器学习模型:可以将患有肠病的样本从正常样本中区分出来的二次模型(binary model),可以将样本分类为正常样本或者患有具体某一个肠病(UC、CD、CRC)的四分类模型(four-class model),以及可以帮助肠炎患者评估患癌风险,将患有肠炎的患者与肠癌患者区分开的三分类模型(three-class model),在使用模型进行计算时,将待测样本的预处理后的数据直接传入模型中,输出为三个模型对其进行计算所得到的风险评估。
优选的,所述数据预处理采用Trimmomatic软件对数据进行质量控制,采用MetaPhlAn2软件进行宏基因组物种注释,采用HUMAnN2软件对通路水平进行鉴定,采用Wilcoxon rank sum test与meta分析鉴定差异菌群与差异通路。
优选的,所述HDC(host DNA contents)利用Bowtie2将宏基因组数据比对到人类参考基因组上,鉴定粪便中所含有的人类DNA含量,计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。
优选的,所述机器学习模型主要将前面鉴定所得到的差异菌群、差异通路与HDC共同作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证得到模型的准确性,避免一次交叉验证所导致的误差。
优选的,所述疾病风险根据不同目的、不同参数选择最优机器学习算法模型(二次模型、四分类模型、三分类模型)进行分析,可以给出全面的预测结果,保证计算结果的准确性。
本发明具备以下有益效果:
鉴定到的标志物菌群与通路,结合人类粪便DNA含量,增加了分类模型的全面性;利用多个数据集通过Meta分析,可以减小其他因素的影响,得到更加稳定的结果;同时考虑多种常见肠道疾病,挖掘其可能的致病机制,可避免因其有相似表型而误诊的可能;根据实际需求,根据不同目的建立了不同的机器分类器,便于使用者根据自己的需求使用或进一步验证。综合考虑上述因素,使得本发明机器学习模型有优良预测效果,更适用于实际应用场景,可得到更精确的结果。并且,同时所选取的实验载体粪便是临床使用和体检机构中最常见的,获取难度小成本低,解释程度高。
附图说明
图1(发明流程示意图);
图2(数据内部验证二分类模型预测结果);
图3(数据内部验证四分类模型预测结果);
图4(数据内部验证三分类模型预测结果);
图5(外部数据二分类模型预测结果);
图6(外部数据四分类模型预测结果);
图7(外部数据三分类模型预测结果)。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,但本发明的保护范围不受具体的实施方式所限制,以权利要求书为准,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,该方法基于我们前期构建的人体肠道微生物组数据库(GMrepo)来获得测试数据,同时结合meta分析和Wilcoxon统计学检验得到结果可靠且不具有数据特异性的疾病相关菌群特征。并且,只利用宏基因组数据就可以得到粪便中人DNA的相关信息,无需再进行例如粪便潜血的检测方式。另外,我们结合HDC与菌群标志物作为特征,利用随机森林来构建具有不同用途的机器学习模型,并进行内部测试,得到了具有高准确率的预测模型,这里我们利用基于HDC、菌种标志物和通路标志物的机器学习模型,阐述如何对外部数据进行验证:
第一步,收集原始数据:对照样本与结直肠癌宏基因组数据获取:我们与广西医科大学附属医学院肛肠科合作,获得了35例对照样本与29例各期结直肠癌样本的宏基因组双端测序数据,该数据为保密数据;
第二步,数据预处理:获取原始宏基因组双端测序数据后,用Trimmomatic软件对数据进行质量控制,去除低质量序列和接头,并用Fastqc软件评价质控后的数据;
第三步,粪便人类DNA的鉴定:将质控后的数据采用Bowtie2软件比对到人类参考基因组(hg19)上,计算和鉴定粪便中人类DNA含量(HDC),并去除匹配上的人类reads;
第四步,肠病相关菌群与相关通路丰度鉴定:采用MetaPhIAn2软件与HUMAnN2对最后得到的clean数据,进行宏基因组物种注释与代谢通路注释进行分析;
第五步,机器学习模型的建立与结果预测:合并我们得到的所有样本的丰度数据并进行预处理,随后与我们的模型特征名进行匹配,如有缺乏的特征则将其补齐,并准备好样本的分组数据,用于对模型预测结果的评估,将物种丰度、通路丰度、HDC与分组数据整理成一个行名为样本,列为HDC、菌种标志物和通路标志物、组别的表格,依托R软件,按要求输入该表格后即可得预测结果,模型内部验证结果展示:
请参阅图2,为二分类模型(binary model)结果:经过十次十倍交叉验证建立的二分类模型进行预测,区分正常人与肠病患者的模型AUC可高达0.90;
请参阅图3,为四分类模型(four-class model)结果:经过十次十倍交叉验证建立的四分类模型进行预测,综合来看,被准确预测到某一个分类的准确率有0.77;
请参阅图4,为三分类模型(three-class model)结果:经过十次十倍交叉验证建立的三分类模型进行预测,能把肠炎患者和肠癌患者很好的区分开,三分类模型预测的准确率有89%;
第五步,外部数据预测结果展示:
请参阅图5,为二分类模型(binary model)结果:我们用于验证的数据中有35例对照样本(Control)与29例结直肠癌(CRC),经过建立的二分类模型预测,有26个结直肠癌数据被准确预测为Case,准确率高达90%。综合评估数据分类预测的结果,AUC可高达0.85;
请参阅图6,为四分类模型(four-class model)结果:我们将用于验证的数据投入四分类模型中,经过预测发现,有23例结直肠癌样本被预测为肠炎或者肠癌,有23个正常对照被正确预测为正常样本,综合来看,被准确预测到某一个分类的准确率有0.72;
请参阅图7,为三分类模型(three-class model)结果:我们将用于验证的数据投入三分类模型中,该结果只展示29个患病数据的预测结果,其中有28例结直肠癌样本被准确预测为肠癌,三分类模型预测的准确率有97%。
其中,所述数据预处理采用Trimmomatic软件对数据进行质量控制,采用MetaPhlAn2软件进行宏基因组物种注释,采用HUMAnN2软件对通路水平进行鉴定。
其中,所述HDC(host DNA contents)含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量,计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。
其中,所述机器学习模型为前面鉴定所得到的HDC、菌群标志物与通路标志物作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证所得到的机器学习模型。
其中,根据不同目的、不同参数构建了三个机器学习算法模型(二次模型、四分类模型、三分类模型)进行分析,全面评估外部数据,保证计算结果的准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:包括常见肠道相关细菌信息的收集、数据预处理、粪便人类DNA鉴定、肠病相关菌群与相关通路丰度鉴定、机器学习模型的建立、真实样本应用,所述数据收集后对其进行数据预处理,然后经过机器学习模型计算后得出结果,计算方法如下:
第一步,常见肠道相关细菌信息的收集,我们从公共数据库中搜索并下载了11个包括了正常人和肠病患者的宏基因组数据集,一共得到了285个溃疡性结肠炎样本(ulcerativecolitis,UC),324个克罗恩病样本(Crohn’s disease, CD),354个结直肠癌样本(Colorectal cancer)与357个正常人样本的粪便宏基因组数据;
第二步数据预处理,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(adapter)和低质量序列,包含双端测序和单端测序两种模式,并用Fastqc软件评价质控后的数据;
第三步粪便人类DNA的鉴定,采用Bowtie2软件与人类参考基因组(hg19)进行比对,利用宏基因组数据鉴定粪便中所含有的人类DNA含量(host DNA contents, HDC),计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量,随后去除匹配上的人类DNA片段,避免后续分析出现错误的匹配,比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析,MetaPhIAn2 整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物;
第四步肠病相关菌群与相关通路丰度鉴定,通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平,同时可以利用HUMAnN2软件对通路水平进行鉴定,从而可以从代谢水平上了解人的身体状况,再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度,根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度,采用Wilcoxon ranksum test鉴定组间存在差异的菌群与代谢通路,并利用fdr方法来校正每个数据集的p值,筛选在两个以上数据集中fdr<0.05的菌群和通路,从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物(biomarkers);
第五步机器学习模型的建立与评估,我们采用随机森林算法,利用多棵决策树的集成学习策略,对样本进行训练并进行预测,同时利用通过meta分析所得到的相对稳定的差异菌与差异通路,所谓meta分析,又称为荟萃分析,是指收集分析不同来源、不同人群的多组研究,鉴定出有相同变化趋势的差异菌与差异通路;减少单个研究的偏差,增加结果的普遍适用性,并可提高结果的准确性和特异性,结合前面鉴定所得到的HDC作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,可以避免一次交叉验证所导致的误差,根据不同的目的,我们创建了三个机器学习模型:可以将患有肠病的样本从正常样本中区分出来的二次模型(binary model),可以将样本分类为正常样本或者患有具体某一个肠病(UC、CD、CRC)的四分类模型(four-class model),以及可以帮助肠炎患者评估患癌风险,将患有肠炎的患者与肠癌患者区分开的三分类模型(three-class model),在使用模型进行计算时,将待测样本的预处理后的数据直接传入模型中,经过计算后,输出为三个模型对其进行计算所得到的风险评估。
2.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:所述数据预处理采用Trimmomatic软件对数据进行质量控制,采用MetaPhlAn2软件进行宏基因组物种注释,采用HUMAnN2软件对通路水平进行鉴定,采用Wilcoxon rank sum test与荟萃(meta-)分析鉴定差异菌群与差异通路。
3.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:所述HDC(host DNA contents)利用Bowtie2将宏基因组数据比对到人类参考基因组上,鉴定粪便中所含有的人类DNA含量,计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。
4.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:所述机器学习模型主要将前面鉴定所得到的差异菌群、差异通路与HDC共同作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,避免一次交叉验证所导致的误差。
5.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的多种肠道疾病风险评估的方法及应用,其特征在于:根据不同目的、不同参数构建了三种机器学习算法模型(二次模型、四分类模型、三分类模型)进行分析,更贴近实际应用场景,可给出全面的预测结果,保证计算结果的准确性。
CN202010115449.8A 2020-02-25 2020-02-25 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 Pending CN113380396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115449.8A CN113380396A (zh) 2020-02-25 2020-02-25 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115449.8A CN113380396A (zh) 2020-02-25 2020-02-25 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用

Publications (1)

Publication Number Publication Date
CN113380396A true CN113380396A (zh) 2021-09-10

Family

ID=77568498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115449.8A Pending CN113380396A (zh) 2020-02-25 2020-02-25 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用

Country Status (1)

Country Link
CN (1) CN113380396A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111808939A (zh) * 2020-03-23 2020-10-23 昆明医科大学第一附属医院 一种辅助诊断溃疡性结肠炎的诊断标志物
CN114038501A (zh) * 2021-12-21 2022-02-11 广州金匙医学检验有限公司 一种基于机器学习的背景菌判定方法
CN114283890A (zh) * 2021-12-15 2022-04-05 南京医科大学 一种基于瘤胃球菌微生物群的疾病风险预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012090555A (ja) * 2010-10-26 2012-05-17 Sapporo Medical Univ Rasgrf1の定量的メチル化測定を用いた発癌リスク予測
US20160153054A1 (en) * 2013-08-06 2016-06-02 Bgi Shenzhen Co., Limited Biomarkers for colorectal cancer
CN108690864A (zh) * 2017-10-31 2018-10-23 中山大学 一种粪便样本中菌群稳态评价方法及在结直肠癌筛查中的应用
CN109706235A (zh) * 2019-01-29 2019-05-03 广州康昕瑞基因健康科技有限公司 一种肠道微生物菌群的检测和分析方法及其系统
CN109943636A (zh) * 2019-04-11 2019-06-28 上海宝藤生物医药科技股份有限公司 一种结直肠癌微生物标志物及其应用
CN110607262A (zh) * 2019-09-25 2019-12-24 君维安(武汉)生命科技有限公司 一种干预炎性肠炎的益生菌组合物及其筛选方法和应用
CN110718271A (zh) * 2019-09-25 2020-01-21 君维安(武汉)生命科技有限公司 一种抑制结直肠癌致病菌的益生菌配方及其筛选方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012090555A (ja) * 2010-10-26 2012-05-17 Sapporo Medical Univ Rasgrf1の定量的メチル化測定を用いた発癌リスク予測
US20160153054A1 (en) * 2013-08-06 2016-06-02 Bgi Shenzhen Co., Limited Biomarkers for colorectal cancer
CN108690864A (zh) * 2017-10-31 2018-10-23 中山大学 一种粪便样本中菌群稳态评价方法及在结直肠癌筛查中的应用
CN109706235A (zh) * 2019-01-29 2019-05-03 广州康昕瑞基因健康科技有限公司 一种肠道微生物菌群的检测和分析方法及其系统
CN109943636A (zh) * 2019-04-11 2019-06-28 上海宝藤生物医药科技股份有限公司 一种结直肠癌微生物标志物及其应用
CN110607262A (zh) * 2019-09-25 2019-12-24 君维安(武汉)生命科技有限公司 一种干预炎性肠炎的益生菌组合物及其筛选方法和应用
CN110718271A (zh) * 2019-09-25 2020-01-21 君维安(武汉)生命科技有限公司 一种抑制结直肠癌致病菌的益生菌配方及其筛选方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111808939A (zh) * 2020-03-23 2020-10-23 昆明医科大学第一附属医院 一种辅助诊断溃疡性结肠炎的诊断标志物
CN114283890A (zh) * 2021-12-15 2022-04-05 南京医科大学 一种基于瘤胃球菌微生物群的疾病风险预测方法及装置
CN114038501A (zh) * 2021-12-21 2022-02-11 广州金匙医学检验有限公司 一种基于机器学习的背景菌判定方法
CN114038501B (zh) * 2021-12-21 2022-05-27 广州金匙医学检验有限公司 一种基于机器学习的背景菌判定方法

Similar Documents

Publication Publication Date Title
CN105296590B (zh) 大肠癌标志物及其应用
CN109943636B (zh) 一种结直肠癌微生物标志物及其应用
CN105368944B (zh) 可检测疾病的生物标志物及其用途
CN104603283B (zh) 确定异常状态相关生物标志物的方法及系统
CN113380396A (zh) 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用
CN112111586A (zh) 一种克罗恩病相关微生物标志物集及其应用
CN105506115B (zh) 一种检测诊断遗传性心肌病致病基因的dna文库及其应用
CN107423578A (zh) 检测体细胞突变的装置
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN107217089A (zh) 确定个体状态的方法及装置
CN105132518A (zh) 大肠癌标志物及其应用
CN113355421B (zh) 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
CN110241205A (zh) 一种基于肠道菌群的精神分裂症生物标志物组合及其应用与筛选
CN108256292A (zh) 一种拷贝数变异检测装置
CN111833963B (zh) 一种cfDNA分类方法、装置和用途
CN110838365A (zh) 肠易激综合症相关菌群标志物及其试剂盒
CN115064215B (zh) 一种通过相似度进行菌株溯源及属性鉴定的方法
CN105473739A (zh) 结直肠癌生物标志物
CN115424666A (zh) 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统
CN107217088A (zh) 强直性脊柱炎微生物标志物
CN115691813A (zh) 基于基因组学和微生物组学的遗传性胃癌评估方法及系统
Cotton et al. A model using clinical and endoscopic characteristics identifies patients at risk for eosinophilic esophagitis according to updated diagnostic guidelines
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN115376706A (zh) 一种基于预测模型的乳腺癌药物方案的预测方法及装置
CN111254207A (zh) 用于区别自身免疫性肝炎和健康人群的肠道微生物标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230915