CN113314211A - 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 - Google Patents
一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 Download PDFInfo
- Publication number
- CN113314211A CN113314211A CN202010118005.XA CN202010118005A CN113314211A CN 113314211 A CN113314211 A CN 113314211A CN 202010118005 A CN202010118005 A CN 202010118005A CN 113314211 A CN113314211 A CN 113314211A
- Authority
- CN
- China
- Prior art keywords
- data
- human dna
- colorectal cancer
- software
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 40
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000002550 fecal effect Effects 0.000 title claims abstract description 16
- 244000005700 microbiome Species 0.000 title claims abstract description 15
- 238000012502 risk assessment Methods 0.000 title claims abstract description 10
- 238000010801 machine learning Methods 0.000 claims abstract description 21
- 230000000968 intestinal effect Effects 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 15
- 230000000813 microbial effect Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000002503 metabolic effect Effects 0.000 claims abstract description 4
- 230000037361 pathway Effects 0.000 claims description 18
- 241000894007 species Species 0.000 claims description 14
- 238000003908 quality control method Methods 0.000 claims description 11
- 238000002790 cross-validation Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 241000894006 Bacteria Species 0.000 claims description 8
- 238000010197 meta-analysis Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 208000005016 Intestinal Neoplasms Diseases 0.000 claims description 7
- 210000003608 fece Anatomy 0.000 claims description 7
- 201000002313 intestinal cancer Diseases 0.000 claims description 7
- 206010028980 Neoplasm Diseases 0.000 claims description 6
- 239000000090 biomarker Substances 0.000 claims description 6
- 201000011510 cancer Diseases 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 5
- 230000037353 metabolic pathway Effects 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 241000203069 Archaea Species 0.000 claims description 2
- 241000206602 Eukaryota Species 0.000 claims description 2
- 241000700605 Viruses Species 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000003066 decision tree Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000009966 trimming Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 9
- 239000003550 marker Substances 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 4
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 230000007413 intestinal health Effects 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 241000605986 Fusobacterium nucleatum Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 208000003200 Adenoma Diseases 0.000 description 2
- 206010001233 Adenoma benign Diseases 0.000 description 2
- 241000193403 Clostridium Species 0.000 description 2
- 241000186394 Eubacterium Species 0.000 description 2
- 241001531192 Eubacterium ventriosum Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000009534 blood test Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 1
- 241000147041 Guaiacum officinale Species 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 206010022653 Intestinal haemorrhages Diseases 0.000 description 1
- 241000122116 Parvimonas Species 0.000 description 1
- 208000037062 Polyps Diseases 0.000 description 1
- 241001531273 [Eubacterium] eligens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000004732 colorectal carcinogenesis Effects 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 230000000378 dietary effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 229940091561 guaiac Drugs 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000000984 immunochemical effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000028709 inflammatory response Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 208000028774 intestinal disease Diseases 0.000 description 1
- 210000002490 intestinal epithelial cell Anatomy 0.000 description 1
- 230000003903 intestinal lesions Effects 0.000 description 1
- 206010022694 intestinal perforation Diseases 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000000276 sedentary effect Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及医疗筛查领域,且公开了一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,包括人体肠道微生物在线数据库的构建、数据预处理、相关通路丰度鉴定、机器学习模型的建立、真实样本应用。以相关DNA含量作为衡量对象,增加测量的全面性,同时利用多个数据集通过荟萃(Meta)分析,所得到的差异菌群、差异通路具有很强的跨人种适用性,除了根据微生物群落的变化,还可以根据代谢网络的变化来预测受试者肠道健康状况,并通过机器学习模型对肠道微生物和粪便中人类DNA含量进行计算,使得整个流程更加实用和精确,保证计算结果的准确性,该综合粪便人类DNA信息与粪便菌群标志物的预测风险模型,只需要采粪便样本并进行宏基因组测序就可以得到两者的信息,而不需要结合其他检测,依存性强,同时所选取的实验载体粪便是临床使用和体检机构中最常见的,获取难度小成本低,解释程度高。
Description
技术领域
本发明涉及医疗筛查领域,尤其涉及利用结直肠癌相关菌以及粪便人DNA含量作为标记物在结直肠癌早期筛查的应用。
背景技术
结直肠癌(Colorectal Cancer, CRC),是人类常见的恶性肿瘤,目前被列为世界第三大癌症。随着人们生活水平的提高和饮食结构的改变,其发病率和死亡率呈上升趋势,严重威胁着人类的健康。已有大量研究报道CRC与多种因素有关,如遗传、饮食、久坐、吸烟等,但其确切的发病机制仍不明确。有数据表示,Ⅲ-Ⅳ结直肠癌的五年生存率仅10%,而Ⅰ-Ⅱ期结直肠癌的五年生存率高达90%。并且,结直肠癌作为在中老年人里的高发癌症,在年轻人中的发病率也逐年上升。因此,针对结直肠癌的预防和筛查至关重要,及早发现和剔除癌病变可以极大的降低发病率和死亡率。
目前已有的结直肠癌筛查技术有基于愈创木脂粪便潜血检测(Faecal OccultBlood Test, FOBT),免疫化学粪便潜血检测(Immunochemical FOBT, FIT),多靶标粪便DNA检测(Multitarget Stool DNA Testing, FIT-DNA)以及侵入式肠镜。FOBT与FIT都是根据粪便里是否含有血红蛋白来进行检测,要进行多次采样,而且针对无症状的结直肠癌患者的灵敏度分别只有49%与73.8%。与铁发生化学作用的特点使得FOBT与FIT存在假阳性高的问题。相比FOBT与FIT,通过检测粪便中所含有的脱落细胞含量以及癌细胞中基因突变和甲基化来进行评估的FIT-DNA,在检测I-II期结直肠癌具有更高的灵敏度,高达90%,但是FIT-DNA价格高昂(2500元左右),需要测试者提供完整的粪便,性价比低。肠镜作为筛查方法的金标准,虽然通过可视化方式检测腺瘤与息肉等病变,但是高价格、前期准备工作、侵入式方式、以及肠穿孔和肠道出血等并发症的风险,使得民众对肠镜的接受度不高。除此之外,肠镜在病变方面检测存在不足,还会破坏已有的肠道菌群结构,无法作为最优的可推广的筛查方法。
肠道微生物作为人体免疫系统的一部分,附着于肠道内壁,通过消耗来源于人类宿主与其他微生物的底物来产生对宿主有益或有害的代谢产物,是炎症反应和免疫应答重要的参与者。在许多研究中发现,在腺瘤和结直肠癌患者当中都发生了肠道微生物的紊乱,具体表现为一些正常人富集菌的减少和有害菌的增加,例如优杆菌属中的凸腹真杆菌(Eubacterium Ventriosum)与丝状真杆菌(Eubacterium Eligens)在CRC患者中减少,而具核梭杆菌(Fusobacterium Nucleotum)与一些单胞菌属(Parvimonas)和梭菌属(Clostridium),在CRC患者体内显著增加,其中具核梭杆菌被证明参与了致癌的过程。
在结直肠癌变的过程中,肠道上皮细胞的脱落物也显著增多,具体表现为粪便当中人类DNA含量的上升。已经有人利用肠道菌群建立肠癌筛查模型,利用AUC作为评估能达到0.85的效果,但是这是基于单一的数据集中全部肠道菌群信息的结果,可能不适用于其他人群。鉴于目前结直肠癌发病率与死亡率的上升,以及发病年龄的年轻化,亟待开发一个测试手段和价格都易被人群接受、并能达到高准确率的肠癌的筛查方式,从而促进肠道筛查方法的推广,提早发现肠道病变。
发明内容
针对上述背景技术的不足,本发明提供了一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,即结合微生物与人类DNA信息,通过荟萃分析(Meta-Analysis)鉴定相对稳定的常见肠道疾病的相关菌群,以及鉴定粪便中人类DNA含量的分布情况,开发了一个通过综合肠道菌群结构与粪便人类DNA含量来评估鉴定是否患结直肠癌的筛查模型。
本发明提供如下技术方案:一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,其特征在于:包括人体肠道微生物在线数据库的构建、数据预处理、相关通路丰度鉴定、机器学习模型的建立、真实样本应用,所述数据收集后对其进行数据预处理,然后经过机器学习模型计算后得出结果,所述DNA含量指标按以下方法计算相关疾病风险:
第一步,人体肠道微生物在线数据库的构建,该数据库共计收入253个项目,涉及58903个人体肠道样本,我们从中搜索并下载了7个包括了正常人和结直肠癌症患者的宏基因组数据集,一共得到了354个结直肠癌样本(Colorectal Cancer)与357个正常人样本的粪便宏基因组数据;
第二步数据预处理,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(Adapter)和低质量序列,并采用Bowtie2软件进行比对,利用宏基因组数据鉴定粪便中所含有的人类DNA含量(Host DNA Contents, HDC),比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析,MetaPhIAn2 整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物;
第三步相关通路丰度鉴定,通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平,同时可以利用HUMAnN2软件对通路水平进行鉴定,从而可以从代谢水平上了解人的身体状况,再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度,根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度,采用Wilcoxon Rank Sum Test鉴定组间存在差异的菌群与代谢通路,并利用fdr方法来校正每个数据集的p值,筛选fdr<0.05的菌群和通路,从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物(Biomarkers),参照图2,为粪便人类DNA含量在正常人与结直肠癌患者中的分布图;
第四步机器学习模型的建立与评估,我们采用随机森林算法,利用多棵决策树的集成学习策略,对样本进行训练并进行预测,参照图3和图4,利用通过荟萃(Meta)分析所得到的相对稳定的差异菌与差异通路。所谓meta分析,又称为荟萃分析,是指收集分析不同来源、不同人群的多组研究,鉴定出有相同变化趋势的差异菌与差异通路;减少单个研究的偏差,增加结果的普遍适用性,并可提高结果的准确性和特异性。结合前面鉴定所得到的HDC作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,可以避免一次交叉验证所导致的误差,最终得到可以较准确的识别癌症患者和正常人的机器学习模型和预测的结果,模型测试结果参照图5。
优选的,所述数据预处理采用Trimmomatic软件对数据进行质量控制,采用MetaPhlAn2软件进行宏基因组物种注释,采用HUMAnN2软件对通路水平进行鉴定,采用Wilcoxon Rank Sum Test鉴定组间差异。
优选的,所述HDC(Host DNA Contents)含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量,计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。
优选的,所述机器学习模型主要前面鉴定所得到的HDC作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,避免一次交叉验证所导致的误差。
本发明具备以下有益效果:
以相关DNA含量作为衡量对象,增加测量的全面性,同时利用多个数据集通过Meta分析,所得到的差异菌群、差异通路具有很强的跨人种适用性,除了根据微生物群落的变化,还可以根据代谢网络的变化来预测受试者肠道健康状况,并通过机器学习模型对肠道微生物和粪便中人类DNA含量进行计算,使得整个流程更加实用和精确,保证计算结果的准确性,该综合粪便人类DNA信息与粪便菌群标志物的预测风险模型,只需要采粪便样本并进行宏基因组测序就可以得到两者的信息,而不需要结合FIT、FOBT检测,依存性强,同时所选取的实验载体粪便是临床使用和体检机构中最常见的,获取难度小成本低,解释程度高。
附图说明
图1为本发明流程示意图;
图2为粪便人类DNA含量在正常人与结直肠癌患者中的分布图;
图3为Meta分析得到的结直肠癌相关的差异菌种;
图4为Meta分析得到的结直肠癌相关的差异代谢通路;
图5为基于鉴定的差异菌、差异通路以及HDC作为特征的二分类模型预测结果
图6为样本分类结果;
图7为预测结果总体评估。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,但本发明的保护范围不受具体的实施方式所限制,以权利要求书为准,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,该方法是一种仅利用粪便宏基因组数据中的粪便人DNA含量(HDC)和微生物数据对受试者进行无创非侵入检测方法,基于我们前期构建的人体肠道微生物组数据库(GMrepo)来获得测试数据,同时结合Meta分析和Wilcoxon统计学检验得到结果可靠且不具有数据特异性的疾病相关菌群特征。并且,只利用宏基因组数据就可以得到粪便中人DNA的相关信息,无需再进行例如粪便潜血的检测方式。另外,我们结合HDC与菌群标志物作为特征,利用随机森林来构建具有不同用途的机器学习模型,并进行内部测试,得到了具有高准确率的预测模型,这里我们利用基于HDC、菌种标志物和通路标志物的机器学习模型,阐述如何对外部数据进行验证:
第一步,收集原始数据,对照样本与结直肠癌宏基因组数据获取:我们与广西医科大学附属医学院肛肠科合作,获得了35例正常样本与29例各期结直肠癌样本的宏基因组双端测序数据,该数据为保密数据;
第二步,数据预处理:获取原始宏基因组双端测序数据后,用Trimmomatic软件对数据进行质量控制,去除低质量序列和接头,并用Fastqc软件评价质控后的数据,将质控后的数据采用Bowtie2软件比对到人类参考基因组(hg19)上,计算和鉴定粪便中人类DNA含量(HDC),并去除匹配上的人类Reads;
第三步,相关通路丰度鉴定,宏基因组菌群丰度与代谢通路丰度鉴定:参照图2,采用MetaPhIAn2软件与HUMAnN2对最后得到的clean数据,进行宏基因组物种注释与代谢通路注释进行分析;
第四步,机器学习模型的建立与结果预测:合并我们得到的所有样本的丰度数据并进行预处理,随后与我们的模型特征名进行匹配,如有缺乏的特征则将其补齐,并准备好样本的分组数据,用于对模型预测结果的评估,将物种丰度、通路丰度、HDC与分组数据整理成一个行名为样本,列为HDC、菌种标志物和通路标志物、组别的表格,依托R软件,按要求输入该表格后即可得预测结果;
第五步,预测结果展示:
1.样本分类结果:请参阅图6,第i行第j列的方块内的数字表示第i行分类对应的样本有多少个被预测为第j列表示的分类。CTR表示正常样本,CRC表示患癌样本。真阳性率(TruePositive Rate, TPR =正确阳性分类/阳性分类总数)与真阴性率(True Negative Rate,TNR =正确阴性分类/阴性分类总数)均能达到0.8以上。其结果好于普通的粪便潜血检测与免疫组学检测(FOBT:TPR=0.49; FIT:TPR=0.73);
2.预测结果总体评估:请参阅图7,根据每个样本的分类情况,综合评估真阳性率、假阳性率(False Positive Rate, FPR = 错误阳性分类/阳性分类总数)评估总体分类的结果。如图所示,对外来的结直肠癌数据验证可以达到 0.87的AUC值,其中,所述数据预处理采用Trimmomatic软件对数据进行质量控制,采用MetaPhlAn2软件进行宏基因组物种注释,采用HUMAnN2软件对通路水平进行鉴定,采用Wilcoxon rank sum test鉴定组间差异,其中,所述HDC(Host DNA Contents)含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量,计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量,其中,所述机器学习模型主要前面鉴定所得到的HDC作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,避免一次交叉验证所导致的误差。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,其特征在于:包括人体肠道微生物在线数据库的构建、数据预处理、相关通路丰度鉴定、机器学习模型的建立、真实样本应用,所述数据收集后对其进行数据预处理,然后经过机器学习模型计算后得出结果,所述DNA含量指标按以下方法计算相关疾病风险:
第一步,人体肠道微生物在线数据库的构建,该数据库共计收入253个项目,涉及58903个人体肠道样本,我们从中搜索并下载了7个包括了正常人和结直肠癌症患者的宏基因组数据集,一共得到了354个结直肠癌样本(Colorectal Cancer)与357个正常人样本的粪便宏基因组数据;
第二步数据预处理,用Trimmomatic软件对数据进行质量控制,即修剪和去除原始数据中的接头(Adapter)和低质量序列,并采用Bowtie2软件进行比对,利用宏基因组数据鉴定粪便中所含有的人类DNA含量(Host DNA Contents, HDC),比对完后采用MetaPhlAn2软件进行宏基因组物种注释分析,MetaPhIAn2 整理了17000多个参考基因组,包括13500个细菌和古菌,3500个病毒和110种真核生物;
第三步相关通路丰度鉴定,通过MetaPhlAn2软件预处理的数据可以鉴定得到的物种丰度水平,同时可以利用HUMAnN2软件对通路水平进行鉴定,从而可以从代谢水平上了解人的身体状况,再根据MetaCyc数据库收集的微生物通路计算微生物通路丰度,根据MetaPhlAn2的物种丰度数据我们还可以得到种水平的通路丰度,采用Wilcoxon Rank Sum Test鉴定组间存在差异的菌群与代谢通路,并利用fdr方法来校正每个数据集的p值,筛选fdr<0.05的菌群和通路,从而筛选出正常人与肠病患者和肠癌患者间具有统计学差异的微生物标志物(Biomarkers);
第四步机器学习模型的建立与评估,我们采用随机森林算法,利用多棵决策树的集成学习策略,对样本进行训练并进行预测,同时利用通过荟萃(Meta)分析所得到的相对稳定的差异菌与差异通路,结合前面鉴定所得到的HDC作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,可以避免一次交叉验证所导致的误差,最终得到可以较准确的识别癌症患者和正常人的机器学习模型和预测的结果。
2.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,其特征在于:所述数据预处理采用Trimmomatic软件对数据进行质量控制,采用MetaPhlAn2软件进行宏基因组物种注释,采用HUMAnN2软件对通路水平进行鉴定,采用Wilcoxon Rank Sum Test鉴定组间差异。
3.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,其特征在于:所述HDC(Host DNA Contents)含量利用宏基因组数据鉴定粪便中所含有的人类DNA含量,计算方法为:HDC=鉴定到的人类DNA总片段数量/质控后的总片段数量。
4.根据权利要求1所述的一种基于粪便微生物标志物和人DNA含量的结直肠癌风险评估的方法及应用,其特征在于:所述机器学习模型主要前面鉴定所得到的HDC作为机器学习模型所要使用的特征,利用随机森林进行十次十倍交叉验证,避免一次交叉验证所导致的误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010118005.XA CN113314211A (zh) | 2020-02-26 | 2020-02-26 | 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010118005.XA CN113314211A (zh) | 2020-02-26 | 2020-02-26 | 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113314211A true CN113314211A (zh) | 2021-08-27 |
Family
ID=77369908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010118005.XA Pending CN113314211A (zh) | 2020-02-26 | 2020-02-26 | 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314211A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114530249A (zh) * | 2022-02-15 | 2022-05-24 | 北京浩鼎瑞生物科技有限公司 | 一种基于肠道微生物的疾病风险评估模型构建方法及应用 |
CN115064218A (zh) * | 2022-08-17 | 2022-09-16 | 中国医学科学院北京协和医院 | 一种构建病原微生物数据鉴定平台的方法及装置 |
CN115873956A (zh) * | 2022-12-30 | 2023-03-31 | 深圳未知君生物科技有限公司 | 用于预测受试者患有结直肠癌风险的试剂盒、系统、应用和预测模型的建模方法 |
CN117789981A (zh) * | 2023-12-26 | 2024-03-29 | 康美华大基因技术有限公司 | 一种脂肪肝风险预测方法、装置、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066835A (zh) * | 2017-01-19 | 2017-08-18 | 东南大学 | 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 |
CN110718271A (zh) * | 2019-09-25 | 2020-01-21 | 君维安(武汉)生命科技有限公司 | 一种抑制结直肠癌致病菌的益生菌配方及其筛选方法 |
-
2020
- 2020-02-26 CN CN202010118005.XA patent/CN113314211A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066835A (zh) * | 2017-01-19 | 2017-08-18 | 东南大学 | 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 |
CN110718271A (zh) * | 2019-09-25 | 2020-01-21 | 君维安(武汉)生命科技有限公司 | 一种抑制结直肠癌致病菌的益生菌配方及其筛选方法 |
Non-Patent Citations (2)
Title |
---|
JIANG P ET AL: "Host DNA contents in fecal metagenomics as a biomarker for intestinal diseases and effective treatment", BMC GENOMICS, vol. 21, pages 348 * |
KLAASSEN, CHW ET AL: "Quantification of Human DNA in Feces as a Diagnostic Test for the Presence of Colorectal Cancer", CLINICAL CHEMISTRY, vol. 49, no. 7, pages 1186 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114530249A (zh) * | 2022-02-15 | 2022-05-24 | 北京浩鼎瑞生物科技有限公司 | 一种基于肠道微生物的疾病风险评估模型构建方法及应用 |
CN115064218A (zh) * | 2022-08-17 | 2022-09-16 | 中国医学科学院北京协和医院 | 一种构建病原微生物数据鉴定平台的方法及装置 |
CN115873956A (zh) * | 2022-12-30 | 2023-03-31 | 深圳未知君生物科技有限公司 | 用于预测受试者患有结直肠癌风险的试剂盒、系统、应用和预测模型的建模方法 |
CN117789981A (zh) * | 2023-12-26 | 2024-03-29 | 康美华大基因技术有限公司 | 一种脂肪肝风险预测方法、装置、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113314211A (zh) | 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 | |
CN105368944B (zh) | 可检测疾病的生物标志物及其用途 | |
CN105296590B (zh) | 大肠癌标志物及其应用 | |
US20070255113A1 (en) | Methods and apparatus for identifying disease status using biomarkers | |
CN105132518B (zh) | 大肠癌标志物及其应用 | |
CN104271033A (zh) | 一种评价胃肠癌风险的方法和系统 | |
CN110904213B (zh) | 一种基于肠道菌群的溃疡性结肠炎生物标志物及其应用 | |
CN110241205A (zh) | 一种基于肠道菌群的精神分裂症生物标志物组合及其应用与筛选 | |
CN113355421B (zh) | 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 | |
CN113380396A (zh) | 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 | |
CN111020020A (zh) | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 | |
CN110838365A (zh) | 肠易激综合症相关菌群标志物及其试剂盒 | |
CN112466402A (zh) | 一种使用血液标志物预测年龄的方法 | |
CN115862838A (zh) | 一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用 | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理系统 | |
CN114758719B (zh) | 一种结直肠癌预测系统及其应用 | |
CN114755422B (zh) | 一种结直肠癌检测的生物标志物及其应用 | |
CN110890131A (zh) | 一种基于遗传性基因突变预测癌症风险的方法 | |
CN116913382A (zh) | 一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法 | |
CN110396538A (zh) | 偏头痛生物标志物及其用途 | |
CN109492690B (zh) | 一种基于卷积神经网络检测ct图像的方法 | |
US20240290431A1 (en) | Biomarker and diagnosis system for colorectal cancer detection | |
JP2007513399A (ja) | 生化学画像の生成及びその使用方法 | |
CN115678999B (zh) | 标志物在肺癌复发预测中的应用和预测模型构建方法 | |
CN109943635A (zh) | 一种用于flt3-itd定量检测的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210827 |