CN114023386A - 宏基因组数据分析及特征菌筛选方法 - Google Patents
宏基因组数据分析及特征菌筛选方法 Download PDFInfo
- Publication number
- CN114023386A CN114023386A CN202111246832.8A CN202111246832A CN114023386A CN 114023386 A CN114023386 A CN 114023386A CN 202111246832 A CN202111246832 A CN 202111246832A CN 114023386 A CN114023386 A CN 114023386A
- Authority
- CN
- China
- Prior art keywords
- sample
- characteristic
- analysis
- flora
- bacteria
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000894006 Bacteria Species 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012216 screening Methods 0.000 title claims abstract description 19
- 238000007405 data analysis Methods 0.000 title claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 69
- 239000000203 mixture Substances 0.000 claims abstract description 65
- 244000005700 microbiome Species 0.000 claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 36
- 238000012163 sequencing technique Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 14
- 241000894007 species Species 0.000 claims description 45
- 238000013145 classification model Methods 0.000 claims description 26
- 238000007637 random forest analysis Methods 0.000 claims description 21
- 230000001580 bacterial effect Effects 0.000 claims description 18
- 230000000813 microbial effect Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 5
- 238000003908 quality control method Methods 0.000 claims description 5
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 description 25
- 230000000968 intestinal effect Effects 0.000 description 10
- 241000186394 Eubacterium Species 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 241000203069 Archaea Species 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 4
- 241000186660 Lactobacillus Species 0.000 description 4
- 241000194017 Streptococcus Species 0.000 description 4
- 241000700605 Viruses Species 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 229940039696 lactobacillus Drugs 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000001712 DNA sequencing Methods 0.000 description 3
- 240000006024 Lactobacillus plantarum Species 0.000 description 3
- 235000013965 Lactobacillus plantarum Nutrition 0.000 description 3
- 241000194019 Streptococcus mutans Species 0.000 description 3
- 241000202221 Weissella Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010835 comparative analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 210000004251 human milk Anatomy 0.000 description 3
- 235000020256 human milk Nutrition 0.000 description 3
- 229940072205 lactobacillus plantarum Drugs 0.000 description 3
- 241000186046 Actinomyces Species 0.000 description 2
- 241001453380 Burkholderia Species 0.000 description 2
- 241000193403 Clostridium Species 0.000 description 2
- 241000186216 Corynebacterium Species 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 241000194034 Lactococcus lactis subsp. cremoris Species 0.000 description 2
- 241000192132 Leuconostoc Species 0.000 description 2
- 235000014962 Streptococcus cremoris Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000589220 Acetobacter Species 0.000 description 1
- 241001468182 Acidobacterium Species 0.000 description 1
- 241000193830 Bacillus <bacterium> Species 0.000 description 1
- 241000606125 Bacteroides Species 0.000 description 1
- 241001105998 Bacteroides dorei Species 0.000 description 1
- 241000606124 Bacteroides fragilis Species 0.000 description 1
- 241000606123 Bacteroides thetaiotaomicron Species 0.000 description 1
- 241000606215 Bacteroides vulgatus Species 0.000 description 1
- 241000605059 Bacteroidetes Species 0.000 description 1
- 241000186000 Bifidobacterium Species 0.000 description 1
- 241001202853 Blautia Species 0.000 description 1
- 241000588923 Citrobacter Species 0.000 description 1
- 241001112696 Clostridia Species 0.000 description 1
- 241000193470 Clostridium sporogenes Species 0.000 description 1
- 241000192700 Cyanobacteria Species 0.000 description 1
- 241000192095 Deinococcus-Thermus Species 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 241000588722 Escherichia Species 0.000 description 1
- 241001440029 Escherichia coli 79 Species 0.000 description 1
- 241001137858 Euryarchaeota Species 0.000 description 1
- 241001608234 Faecalibacterium Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- 241001453172 Fusobacteria Species 0.000 description 1
- 241000205062 Halobacterium Species 0.000 description 1
- 241000588748 Klebsiella Species 0.000 description 1
- 241000588747 Klebsiella pneumoniae Species 0.000 description 1
- 240000001046 Lactobacillus acidophilus Species 0.000 description 1
- 235000013956 Lactobacillus acidophilus Nutrition 0.000 description 1
- 241001147746 Lactobacillus delbrueckii subsp. lactis Species 0.000 description 1
- 241000186870 Lactobacillus ruminis Species 0.000 description 1
- 241000194036 Lactococcus Species 0.000 description 1
- 241001468192 Leuconostoc citreum Species 0.000 description 1
- 241001467578 Microbacterium Species 0.000 description 1
- 108020002230 Pancreatic Ribonuclease Proteins 0.000 description 1
- 102000005891 Pancreatic ribonuclease Human genes 0.000 description 1
- 241000160321 Parabacteroides Species 0.000 description 1
- 241000605861 Prevotella Species 0.000 description 1
- 241000192142 Proteobacteria Species 0.000 description 1
- 241001180364 Spirochaetes Species 0.000 description 1
- 241000191981 Streptococcus cristatus Species 0.000 description 1
- 241000131694 Tenericutes Species 0.000 description 1
- 241001261005 Verrucomicrobia Species 0.000 description 1
- 239000002535 acidifier Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229940039695 lactobacillus acidophilus Drugs 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000008223 sterile water Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000003260 vortexing Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了宏基因组数据分析及特征菌筛选方法。本发明所要保护的一个技术方案是宏基因组测序数据分析和/或特征菌群鉴定方法。所述方法包括如下步骤:对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据;对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果;对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果;对所述细菌谱构成结果进行特征菌群分析,得到所述每个样本的特征菌群;对所述细菌谱构成结果进行特征菌群鉴定,得到所述待测样本之间的差异基因和特征菌群。
Description
技术领域
本发明涉及生物信息技术领域,具体涉及宏基因组数据分析及特征菌筛选方法。
背景技术
无论是人类肠道还是母乳微生物,DNA测序技术的快速发展改变了人们对这类复杂环境中微生物群落组成和动态变化的认识。这些技术上的发展推动从临床研究到生物技术等科学领域微生物组研究数量激增。
很多与微生物研究相关的基本问题都来自于统计和数据分组设计问题,所以数据收集分类和分析方法的标准仍需要不断变化创新。复杂的微生物群落形成动态、多变的自然环境,包括人类肠道、母乳等。DNA测序技术和数据分析发展极大地推动了微生物组学物种鉴定、假阳性率控制等方面的研究。该方法从分子技术选择、数据分析方法以及综合多种组学数据集等不同方面,对如何实现最优的微生物组学研究进行创新。利用近期快速发展的机器学习(machine learning)算法随机森林(random forest)建立分类模型对传统的差异菌群分析做补充,将宏基因组学基本OTU聚类分析和数据多维度统计相结合,组成宏基因组数据特征菌筛选创新方法。
考虑到微生物组数据的特殊性,比如,属于组成数据(compositional data)、数据异质性(heterogeneous)高、稀疏性(sparse)强等特点,为充分利用这些生物学数据的所有信息,需要引入新的数据分析方法。基于分类学(taxa)信息的特征选取进行宿主表型预测,建立微生物组之间的关联关系、预测各种疾病状态、或者改善人类健康,这些都可能促进个体化医疗(personalized medicine)的发展。事实上,肠道微生物组、母乳微生物组等已成为个体化医疗不可或缺的一部分。它们不仅对健康和疾病的个体差异有显著性提示,而且代表了一种潜在的可改变因素,可通过个体化方式进行靶向治疗。而随机森林(randomforest)等机器学习(machine learning)方法可以通过适切模型的训练开发,为生物医学分析提供新的见解。
发明内容
本发明所要解决的技术问题是如何对宏基因组数据中的特征菌群进行鉴定筛选或如何对宏基因组数据进行分析。
为了解决上述技术问题,本发明首先提供了宏基因组测序数据分析和/或特征菌群鉴定(筛选)方法。所述方法可包括如下步骤:对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据;对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果;对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果;对所述细菌谱构成结果进行特征菌群分析,得到所述每个样本的特征菌群;对所述细菌谱构成结果进行特征菌群鉴定,得到所述待测样本之间的差异基因和特征菌群。
上文所述方法中,所述特征菌群鉴定的过程可包括:使用随机森林方法建立特征菌群分类模型,通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。
上文所述方法中,所述使用随机森林方法建立特征菌群分类模型的过程可包括如下步骤:随机选取80%的所述待测样本作为训练集,20%的所述待测样本作为测试集,使用所述训练集构建所述特征菌群分类模型,使用所述测试集验证所述特征菌群分类模型;对所述特征菌群分类模型绘制ROC曲线,使用AUC值确定所述特征菌群分类模型的准确性。
上文所述方法中,所述特征菌群分析可包括α多样性分析和β多样性分析。
所述α多样性分析可使用物种Chao1丰富度指数和/或Shannon指数描述所述待测样本的微生物物种多样性。
所述β多样分析可包括如下步骤:采用Bray-Curtis不相似系数进行度量,采用主坐标分析方法和非度量多维尺度分析方法分析所述待测样本的微生物组的整体变异。
上文所述方法中,所述微生物组可指所述待测样本的微生物物种组成。
为了解决上述技术问题,本发明还提供了宏基因组数据分析装置。所述装置可包括如下模块:
(1)数据预处理模块:用于将所有的待测样本的宏基因组数据进行质量控制和过滤得到高质量数据。
(2)微生物组组成分析模块:用于基于所述高质量数据分析每个所述待测样本的微生物群体中种水平精度的组成(物种组成)和相对丰度,得到每个所述待测样本的细菌的组成及相对丰度分布结果。
(3)细菌谱构成比较模块:用于基于所述细菌的组成及相对丰度分布结果获得每个所述待测样本的细菌谱构成结果。
(4)特征菌群分析模块:用于基于所述细菌谱构成结果得到每个所述待测样本的特征菌群。
(5)特征菌群筛选模块:用于基于所述细菌谱构成结果获得每个所述待测样本分组间的特征菌群和差异基因。
上文所述装置中,所述相对丰度可为种水平的相对丰度。
上文所述装置中,所述特征菌群筛选模块可通过包括如下步骤的方法建立:利用随机森林方法建立所述待测样本的特征菌群分类模型,通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。
上文所述装置中,(4)中所述特征菌群分析模块可包括如下模块:
(4-1)α多样性分析模块:用于获得每个待测样本微生物组的整体变异;通过包括如下步骤的方法建立:采用物种Chao1丰富度指数和Shannon指数描述所述待测样本的微生物物种多样性;采用Wilcoxon rank-sum检验进行待测样本分组间的比较。
(4-2)β多样性分析模块:用于获得每个待测样本微生物组的整体变异;通过包括如下步骤的方法建立:采用Bray-Curtis不相似系数进行度量;采用主坐标分析方法和非度量多维尺度分析方法分析。
为了解决上述技术问题,本发明还提供了宏基因组数据特征菌筛选装置。所述装置可包括上文所述的特征菌群筛选模块。
为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机运行如上文所述方法的步骤。所述计算机程序也可使计算机运行如上文所述计算机程序使计算机运行如上文所述装置或上文所述装置的模块。
为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机建立如上文所述方法的步骤。所述计算机程序也可使计算机建立如上文所述装置或上文所述装置的模块。
本发明就宏基因组数据特征菌筛选方向提出了一种在宏基因组分类和功能方面、从多个测序数据中整合数据集、进一步改善机器学习、组成型数据分析创新方法。本方法所提供出的宏基因组生物信息分析方法,从宏基因组测序的原始大数据结果中挖掘目标特征菌并进行筛选,使用机器学习在微生物组宏基因组领域基于当前状态区分样品分类,由己知的分类与结果学习,预测末知分类。
一般微生物组数据经过处理,可以获得特征(物种不同分类级)与样本的丰度矩阵。但通常这一结果是存在迷惑性,因为微生物组数据通常是高维数据,包括几千个不同物种,矩阵数据存在许多零值。本发明提出一种有效的统计处理方法,以挖掘有意义的结果。本发明中对特征菌群分析使用α多样性分析和β多样性分析。α多样性分析使用物种Chao1丰富度指数和/或Shannon指数描述所述待测样本的微生物物种多样性;β多样分析包括如下步骤:采用Bray-Curtis不相似系数进行度量,采用主坐标分析方法和非度量多维尺度分析方法分析所述待测样本的微生物组的整体变异。
附图说明
图1为宏基因组测序数据预处理流程。
图2为每个样本测序数据及其预处理结果。High quality non-human reads代表高质量非人类宿主序列;Human reads代表人类宿主序列;QC filtered reads代表质控过滤掉的序列。纵坐标为序列数量,横坐标代表不同样本。
图3为超界水平上物种相对丰度构成。k_Bacteria代表细菌相对丰度,k_Archaea代表古细菌相对丰度,k_Viruses代表病毒相对丰度。纵坐标为物种相对丰度占比,横坐标代表不同样本。
图4为门水平的细菌谱构成。Firmicutes厚壁菌门,Bacteroidetes拟杆菌门,Proteobacteria变形杆菌门,Actinobacteria放线菌门,Fusobacteria梭杆菌门,Tenericutes软壁菌门,Cyanobacteria蓝菌门,Euryarchaeota广古菌门,Spirochaetes螺旋体门,Deinococcus-Thermus异常球菌-栖热菌门,Chlorflexi绿弯菌门,Synergistetes互养菌门,疣Verrucomicrobia微菌门,Acidobacteria酸杆菌门,Chlorobi绿菌门,Other其他。纵坐标为物种相对丰度占比,横坐标代表不同样本。
图5为属水平的细菌谱构成。拟杆菌属Bacteroides、粪杆菌属Faecalibacterium、埃希菌属Escherichia、厌氧棒杆菌属Anaerostipes、真杆菌属Eubacterium、双歧杆菌属Bifidobacterium、普氏菌属Prevotella、柠檬酸细菌属Citrobacter、链球菌属Streptococcus、梭状杆菌属Clostridium、柯林斯氏菌Collinsella、布劳特氏菌属Blautia、克雷白氏杆菌Klebsiella、小杆菌属Dialister、副拟杆菌属Parabacteroides、其他Other。纵坐标为物种相对丰度占比,横坐标代表不同样本。
图6为种水平的细菌谱构成。普氏栖粪杆菌Faecalibacterium prausnitzii、普通拟杆菌Bacteroides vulgatus、直肠真杆菌[Eubacterium]rectale、大肠埃希氏杆菌Escherichia coli、hadrus厌氧棒杆菌Anaerostipes hadrus、多氏拟杆菌Bacteroidesdorei、多形拟杆菌Bacteroides thetaiotaomicron、产气柯林斯菌Collinsellaaerofaciens、挑剔真杆菌[Eubacterium]eligens、生孢梭菌Clostridium sporogenes、霍氏真杆菌[Eubacterium]hallii、毛螺旋菌GAM79 Lachnospiraceae bacterium GAM79、戴阿李斯特Marseille-p5638 Dialistersp.Marseille-p5638、汉氏Blautia菌Blautiahansenii、脆弱拟杆菌Bacteroides fragilis、其他Other。纵坐标为物种相对丰度占比,横坐标代表不同样本。
图7为物种水平α多样性Chao1指数。纵坐标为Chao1指数,横坐标代表不同分组。
图8为物种水平α多样性Shannon指数。纵坐标为Shannon指数,横坐标代表不同分组。
图9为PCoA分析结果。
图10为NMDS分析结果。
图11为按重要性排序的种水平的特征菌群。柠檬色明串珠菌Leuconostoc.citreum、类鼻疽伯克霍尔德菌Burkholderia.pseudomallei、融合魏斯氏乳酸菌Weissella.cibaria、,乳脂乳酸乳球菌Lactococcus.garvieae、肺炎克雷伯菌Klebsiella.pneumoniae、瘤胃乳杆菌Lactobacillus.ruminis、麻疹孪生球菌Gemella.morbillorum、香港放线菌Actinomyces.hongkongensis、沟迹真杆菌.Eubacterium..sulci、嵴链球菌Streptococcus,cristatus、链球菌oral.taxon.431Streptococcus.sp..oral.taxon.431、屎肠球菌Enterococcus.faecium、芽孢杆菌.Bacillus..selenitireducens、血链球菌Streptococcus.sanguinis、澳大利亚链球菌Streptococcus.australis、lutetiensis链球菌Streptococcus.lutetiensis、沙克乳酸杆菌Lactobacillus.sakei、棉子糖乳球菌Lactococcus.raffinolactis、亨氏丁酸弧菌Butyrivibrio.hungatei、粘膜乳杆菌Lactobacillus.mucosae、divergens肉杆菌Carnobacterium.divergens、口腔链球菌Streptococcus.oralis、garlicum明串珠菌Leuconostoc.garlicum、链球菌oral taxon 064Streptococcus.sp..oral.taxon.064、饲用发酵乳酸杆菌Lactobacillus.fermentum、明串珠菌Leuconostoc.carnosum、星群链球菌Streptococcus.constellatus、微单胞菌Parvimonas.micra、松鼠葡萄球菌Staphylococcus.sciuri、溶纤维真杆菌.Eubacterium..cellulosolvens。
图12为基于训练集的随机森林分类模型效果评价ROC曲线。纵坐标为真阳率,横坐标为假阳率。
图13基于测试集的随机森林分类模型效果评价ROC曲线。纵坐标为真阳率,横坐标为假阳率。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例一、宏基因组测序数据分析及特征菌筛选方法
1、宏基因组测序数据的获得
收集研究对象为34例人类粪便样本(均经知情同意),进行宏基因组测序。将34例样本分为两组,其中17例样本(治疗前组)来源于肥胖组患者经贝那鲁肽治疗前的粪便样本,其余17例样本(治疗后组)来源于肥胖患者经贝那鲁肽治疗3月后的粪便样本。
样本处理:DNA提取,即进行粪便样本DNA提取。样本中加入300μL裂解液和1μL蛋白酶K,涡旋10min后65℃孵育15min;加入5μg核糖核酸酶A混匀,去除RNA,37℃孵育30min后置于冰上3~5min。加入150μL MPC蛋白沉淀剂,用力涡旋10s后,10 000g、4℃离心10min沉淀蛋白。离心后取上清,加500μL异丙醇,翻转混匀30~40次后4℃离心10min沉淀DNA。体积分数70%乙醇洗2次,将DNA沉淀溶解于15μL无菌水中,即得到34例样本的DNA溶液。
宏基因组测序:分别取每例样本DNA溶液中的100ng DNA作为起始量,使用非接触式超声破碎仪将其打断为300~400bp的DNA片段,进行DNA测序文库的构建。使用测序试剂盒在测序平台进行2x 150双端宏基因组测序,得到样本的图像数据。最后获得34例样本的宏基因组测序数据。
2、宏基因组数据分析
2.1测序数据的预处理
将步骤1中测序获得的图像数据处理成原始的FASTQ数据,即原始数据。
然后对原始数据进行预处理,预处理后获得高质量数据用于后续数据分析。原始数据的预处理见图1,包括两个主要步骤:(1)首先对数据进行质量控制分析:去除引物和接头,低质量碱基,仅保留读长超过45bp的序列数据;(2)去除人类宿主序列,获得非人类宿主序列:考虑到粪便样本中微生物占绝对优势,第一个步骤去除人类宿主序列,具体将序列数据比对到标准人类参考基因组(hg19),去除能比对上的序列,对于单端序列比对到hg19的数据,另一端序列也从数据中去除。
通过对34例样本进行宏基因组测序,共获得原始数据为31.7亿条长度为150bp的双端序列数据,平均每个样本9316.1万条双端序列数据。
通过对获得的34例样本的原始数据进行预处理,共留下31.3亿条(98.8%)高质量数据用于下游分析,平均每个样本9203.9万条双端序列数据用于下游分析。图2展示了每个样本测序获得原始数据量以及数据预处理的结果。
测序数据汇总
表1给出了数据预处理前后分组汇总的结果。
表1.序列汇总
注:Total yields:总量统计;Reads after quality trimming:质控后序列统计;Reads after human subtraction:去除人类宿主序列后统计。
2.2微生物组组成分析
2.2.1微生物组表征
将步骤2.1得到的高质量数据进行微生物组表征,获得各样本微生物群体中种(species)水平精度的组成。使用精确匹配算法进行微生物群体组成表征,可以获得每个样本测序数据中直至种水平的细菌、古菌、真核生物和病毒的构成信息。
2.2.2微生物组构成
在超界(super kingdom)水平上,所有样本都以细菌占比为主,结果见图3(图3中baseline代表治疗前组样本;post_3month代表治疗后组的样本)。基于上述事实,接下来的分析将集中关注细菌的组成及其相对丰度分布。
2.3细菌谱构成比较
通过对步骤2.1中得到的34例样本的高质量数据进行分析,在门、属、种水平分析细菌谱的构成,得到每个样本的细菌谱构成结果。
2.3.1门水平比较
门(phylum)水平上的肠道细菌谱,以FDR<0.10为检验水准,检测差异菌。
34例样本中,治疗前组和治疗后组的样本在门(phylum)水平上的肠道细菌谱如图4(baseline代表治疗前组样本;post_3month代表治疗后组的样本)和表2所示,通过比较分析,结果显示治疗前组和治疗后组样本在门水平无差异菌。
表2.门水平比较相对丰度
注:“-”代表无差异菌或无结果。
2.3.2属水平比较
属(genus)水平上的肠道细菌谱,以FDR<0.10为检验水准,检测治疗前组和治疗后组样本的差异菌。
34例样本中,治疗前组和治疗后组样本在属(genus)水平上的肠道细菌谱如图5(baseline代表治疗前组样本;post_3month代表治疗后组的样本)和表3所示,通过比较分析,结果显示差异菌为表3中列出属中的细菌。
表3.属水平比较相对丰度(平均值±标准差)
注:第一列代表不同的种名。
2.3.3种水平比较
种(species)水平上的肠道细菌谱,以FDR<0.10为检验水准,检测治疗前组和治疗后组样本的差异菌。
34例样本中,治疗前组和治疗后组样本的在种(species)水平上的肠道细菌谱如图6(baseline代表治疗前组样本;post_3month代表治疗后组的样本)和表4所示,通过比较分析,结果显示差异菌为表4列出种中的细菌。
表4.种水平比较相对丰度(平均值±标准差)
注:第一列代表不同的种名。
2.4特征菌群分析
通过对步骤2.1中得到的34例样本的细菌谱构成结果进行分析,经过2.3得到的治疗前组和治疗后组的特征菌群(分组样本特有的物种种类及数目),即特征菌群(物种不同分类级)与疾病分组(治疗前组和治疗后组)样本的丰度矩阵。
2.4.1α多样性分析
微生物物种多样性指数(α多样性)用于评估每个样本微生物组的整体变异。α多样性可以量化样本内的特征多样性,也可以进行样本组间(治疗前组和治疗后组)比较。
所述微生物组是指待测样本的微生物物种组合。
α多样性分析采用菌落丰度度量指标Chao1丰富度指数和菌落多样性度量指标Shannon指数对物种丰富度和均匀度进行描述。其中,物种丰富度指样本中出现的物种种类数目;而Shannon指数不仅考虑了物种的种类数目,而且考虑了其在样本中的相对丰度,Shannon指数越大,表示样本中出现的物种数目越多,而且均匀程度越高。α多样性采用Wilcoxon rank-sum检验进行组间比较。
使用R语言对治疗前组和治疗后组共34例样本的细菌谱构成结果进行分析,得到治疗前组和治疗后组样本的物种水平α多样性Chao1指数如图7所示(图7中baseline代表治疗前组,post_3month代表治疗后组),结果显示菌落丰富度差异不显著。两组样本物种水平α多样性Shannon指数如图8所示(图8中baseline代表治疗前组,post_3month代表治疗后组),结果显示菌落多样性差异性显著。
2.4.2β多样性分析
β多样性也用于评估微生物组的整体变异。β多样性比较样本组间(治疗前组和治疗后组)特异的差异,产生所有成对样品间的距离矩阵。β多样性采用Bray-Curtis不相似系数进行度量,并分别采用主坐标分析方法(PCoA,Principal Co-ordinates Analysis)和非度量多维尺度分析方法(NMDS,Non-Metric Multi-Dimensional Scaling)进行分析。
使用R语言对治疗前组和治疗后组共34例样本的细菌谱构成结果进行分析,得到两组样本的PCoA分析结果如图9所示(图9中baseline代表治疗前组,post_3month代表治疗后组),结果显示组间差异不显著。
两组样本的NMDS分析结果如图10所示(图10中baseline代表治疗前组,post_3month代表治疗后组),结果显示组间差异不显著。
2.5特征菌群筛选
通过对步骤2.1中得到的34例样本的细菌谱构成结果进行分析,筛选得到两组样本之间的差异基因和特征菌群。
利用随机森林(random forest)方法建立(特征菌群)分类模型。随机选取80%的样本作为训练集(training set),20%的样本作为测试集(test set)。利用训练集样本构建分类模型,并在测试集中验证模型的可靠性。对随机森林分类模型采用接受者操作特征曲线(eceiver operating characteristic curve,ROC)进行评价,并计算曲线下面积(area under the curve,AUC)。从而通过分类模型获得待测样本分组(治疗前组和治疗后组)间的特征菌群和差异基因。
通过使用随机森林的方法对治疗前组和治疗后组样本建立特征菌群分类模型,最终得到两组样本的差异特征菌群分类(图11),通过图11基尼指数每个节点观测值间距结果表明前四个为差异菌群,分别为柠檬色明串珠菌(Leuconostoc.citreum),类鼻疽伯克霍尔德菌(Burkholderia.pseudomallei),融合魏斯氏乳酸菌(Weissella.cibaria)和乳脂乳酸乳球菌(Lactococcus.garvieae)。
基于训练集(80%的样本)的随机森林分类模型效果评价ROC曲线图如图12所示,AUC值为0.961;基于测试集(20%的样本)的随机森林分类模型效果评价ROC曲线图如图13所示,AUC值为0.8。
上述结果表明,宏基因组测序数据分析及特征菌筛选方法能有效获得待测样本间的特征差异菌群。
实施例二、宏基因组数据分析装置
(1)数据预处理模块:用于将所有待测样本的宏基因组原始数据进行质量控制和过滤得到高质量数据。
(2)微生物组组成分析模块:用于基于高质量数据分析每个待测样本微生物群体中种水平精度的组成和微生物组构成,得到每个待测样本的细菌的组成及相对丰度分布结果。
(2-1)微生物组表征模块:用于获得每个待测样本微生物群体中种水平精度的组成。
通过包括如下步骤的方法建立:基于高质量数据,使用精确匹配算法进行微生物群体组表征,可以获得每个样本测序数据中直至种水平的细菌、古菌、真核生物和病毒的构成信息。
(2-2)微生物组构成分析模块:用于基于微生物群体组表征结果确定待测样本的微生物群体以细菌为主要组成,并获得每个待测样本的细菌的组成及其相对丰度分布。
(3)细菌谱构成比较模块:用于基于每个待测样本的细菌的组成及其相对丰度分布获得每个待测样本的细菌谱构成结果。
(3-1)门水平比较模块:用于获得每个待测样本的门(phylum)水平上的肠道细菌谱;
(3-2)属水平比较模块:用于获得每个待测样本的属(genus)水平上的肠道细菌谱;
(3-3)种水平比较模块:用于获得每个待测样本的种(species)水平上的肠道细菌谱。
(4)特征菌群分析模块:用于基于细菌谱构成结果得到每个待测样本的特征菌群。
(4-1)α多样性分析模块:用于基于细菌谱构成结果获得每个待测样本微生物组的整体变异;
通过包括如下步骤的方法建立:采用物种Chao1丰富度(Chao1 richness)指数和Shannon指数进行描述;采用Wilcoxon rank-sum检验进行待测样本分组间的比较。
(4-2)β多样性分析模块:用于基于细菌谱构成结果获得每个待测样本微生物组的整体变异;
通过包括如下步骤的方法建立:采用Bray-Curtis不相似系数进行度量;采用主坐标分析方法(PCoA,Principal Co-ordinates Analysis)和非度量多维尺度分析方法(NMDS,Non-Metric Multi-Dimensional Scaling)进行分析。
(5)特征菌群筛选模块:用于基于每个待测样本的细菌谱构成结果获得所有待测样本分组间的差异基因和特征菌群。
通过包括如下步骤的方法建立:利用随机森林(random forest)方法建立特征菌群分类模型,从而通过分类模型获得所有待测样本分组间的特征菌群和差异基因。
具体为随机选取80%的样本作为训练集(training set),20%的样本作为测试集(test set)。利用训练集样本构建(特征菌群)分类模型,并在测试集中验证模型的可靠性。对随机森林分类模型采用接受者操作特征曲线(eceiver operating characteristiccurve,ROC)进行评价,并计算曲线下面积(area under the curve,AUC),通过AUC值确定模型的准确性。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
Claims (8)
1.宏基因组测序数据分析和/或特征菌群鉴定方法,其特征在于:所述方法包括如下步骤:对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据;对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果;对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果;对所述细菌谱构成结果进行特征菌群分析,得到所述每个样本的特征菌群;对所述细菌谱构成结果进行特征菌群鉴定,得到所述待测样本之间的差异基因和特征菌群;
所述特征菌群鉴定的过程包括:使用随机森林方法建立特征菌群分类模型,通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。
2.根据权利要求1所述的方法,其特征在于:所述使用随机森林方法建立特征菌群分类模型的过程包括如下步骤:随机选取80%的所述待测样本作为训练集,20%的所述待测样本作为测试集,使用所述训练集构建所述特征菌群分类模型,使用所述测试集验证所述特征菌群分类模型;对所述特征菌群分类模型绘制ROC曲线,使用AUC值确定所述特征菌群分类模型的准确性。
3.根据权利要求1或2所述的方法,其特征在于:所述特征菌群分析包括α多样性分析和β多样性分析;
所述α多样性分析使用物种Chao1丰富度指数和/或Shannon指数描述所述待测样本的微生物物种多样性;
所述β多样分析包括如下步骤:采用Bray-Curtis不相似系数进行度量,采用主坐标分析方法和非度量多维尺度分析方法分析所述待测样本的微生物组的整体变异。
4.宏基因组数据分析装置,其特征在于:所述装置包括如下模块:
(1)数据预处理模块:用于将所有的待测样本的宏基因组数据进行质量控制和过滤得到高质量数据;
(2)微生物组组成分析模块:用于基于所述高质量数据分析每个所述待测样本的微生物群体中种水平精度的组成和相对丰度,得到每个所述待测样本的细菌的组成及相对丰度分布结果;
(3)细菌谱构成比较模块:用于基于所述细菌的组成及相对丰度分布结果获得每个所述待测样本的细菌谱构成结果;
(4)特征菌群分析模块:用于基于所述细菌谱构成结果得到每个所述待测样本的特征菌群;
(5)特征菌群鉴定模块:用于基于所述细菌谱构成结果获得每个所述待测样本分组间的特征菌群和差异基因;
所述特征菌群筛选模块通过包括如下步骤的方法建立:利用随机森林方法建立所述待测样本的特征菌群分类模型,通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。
5.根据权利要求4所述的装置,其特征在于:(4)中所述特征菌群分析模块包括如下模块:
(4-1)α多样性分析模块:用于获得每个待测样本微生物组的整体变异;通过包括如下步骤的方法建立:采用物种Chao1丰富度指数和Shannon指数描述所述待测样本的微生物物种多样性;采用Wilcoxon rank-sum检验进行待测样本分组间的比较;
(4-2)β多样性分析模块:用于获得每个待测样本微生物组的整体变异;通过包括如下步骤的方法建立:采用Bray-Curtis不相似系数进行度量;采用主坐标分析方法和非度量多维尺度分析方法分析。
6.宏基因组数据特征菌筛选装置,其特征在于:所述装置包括权利要求5中所述的特征菌群筛选模块。
7.存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机运行如权利要求1-3中任一权利要求所述方法的步骤或所述计算机程序使计算机运行如权利要求4-6中任一权利要求所述装置或权利要求7中所述装置的模块。
8.存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机建立如权利要求1-3中任一权利要求所述方法的步骤或所述计算机程序使计算机建立如权利要求4-6中任一权利要求所述装置或权利要求7中所述装置的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246832.8A CN114023386A (zh) | 2021-10-26 | 2021-10-26 | 宏基因组数据分析及特征菌筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246832.8A CN114023386A (zh) | 2021-10-26 | 2021-10-26 | 宏基因组数据分析及特征菌筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114023386A true CN114023386A (zh) | 2022-02-08 |
Family
ID=80057671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111246832.8A Pending CN114023386A (zh) | 2021-10-26 | 2021-10-26 | 宏基因组数据分析及特征菌筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023386A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114736970A (zh) * | 2022-03-09 | 2022-07-12 | 中国人民解放军总医院 | 一种鉴别不同人群的方法 |
CN115116542A (zh) * | 2022-07-04 | 2022-09-27 | 厦门大学 | 基于宏基因组的样本特异的物种互作网络构建方法及系统 |
WO2024138691A1 (zh) * | 2022-12-30 | 2024-07-04 | 深圳华大生命科学研究院 | 微生物物种鉴定方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202989A (zh) * | 2015-04-30 | 2016-12-07 | 中国科学院青岛生物能源与过程研究所 | 一种基于口腔微生物群落获得儿童个体生物年龄的方法 |
CN110176275A (zh) * | 2019-05-22 | 2019-08-27 | 中国药科大学 | 基于高通量测序的口腔宏基因组数据分析方法 |
CN110827917A (zh) * | 2019-11-06 | 2020-02-21 | 华中科技大学鄂州工业技术研究院 | 一种基于snp鉴定个体肠道菌群类型的方法 |
CN111261231A (zh) * | 2019-12-03 | 2020-06-09 | 康美华大基因技术有限公司 | 肠道菌群宏基因组数据库构建方法、分析方法及装置 |
CN112375832A (zh) * | 2020-11-09 | 2021-02-19 | 浙江省立同德医院 | 一种用于表征肺腺癌气阴两虚证的肠道菌群组合及筛选及模型建立方法 |
CN112614540A (zh) * | 2021-01-05 | 2021-04-06 | 天津奇云诺德生物医学有限公司 | 一种粪便微生物多样性的自动化分析方法 |
-
2021
- 2021-10-26 CN CN202111246832.8A patent/CN114023386A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202989A (zh) * | 2015-04-30 | 2016-12-07 | 中国科学院青岛生物能源与过程研究所 | 一种基于口腔微生物群落获得儿童个体生物年龄的方法 |
CN110176275A (zh) * | 2019-05-22 | 2019-08-27 | 中国药科大学 | 基于高通量测序的口腔宏基因组数据分析方法 |
CN110827917A (zh) * | 2019-11-06 | 2020-02-21 | 华中科技大学鄂州工业技术研究院 | 一种基于snp鉴定个体肠道菌群类型的方法 |
CN111261231A (zh) * | 2019-12-03 | 2020-06-09 | 康美华大基因技术有限公司 | 肠道菌群宏基因组数据库构建方法、分析方法及装置 |
CN112375832A (zh) * | 2020-11-09 | 2021-02-19 | 浙江省立同德医院 | 一种用于表征肺腺癌气阴两虚证的肠道菌群组合及筛选及模型建立方法 |
CN112614540A (zh) * | 2021-01-05 | 2021-04-06 | 天津奇云诺德生物医学有限公司 | 一种粪便微生物多样性的自动化分析方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114736970A (zh) * | 2022-03-09 | 2022-07-12 | 中国人民解放军总医院 | 一种鉴别不同人群的方法 |
CN115116542A (zh) * | 2022-07-04 | 2022-09-27 | 厦门大学 | 基于宏基因组的样本特异的物种互作网络构建方法及系统 |
WO2024138691A1 (zh) * | 2022-12-30 | 2024-07-04 | 深圳华大生命科学研究院 | 微生物物种鉴定方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114023386A (zh) | 宏基因组数据分析及特征菌筛选方法 | |
Wu et al. | Guild-based analysis for understanding gut microbiome in human health and diseases | |
CN109706235A (zh) | 一种肠道微生物菌群的检测和分析方法及其系统 | |
CN110892081A (zh) | 诊断菌群失调的方法 | |
Minot et al. | Clustering co-abundant genes identifies components of the gut microbiome that are reproducibly associated with colorectal cancer and inflammatory bowel disease | |
Dong et al. | Predictive analysis methods for human microbiome data with application to Parkinson’s disease | |
CN110241205A (zh) | 一种基于肠道菌群的精神分裂症生物标志物组合及其应用与筛选 | |
CN111206079B (zh) | 基于微生物组测序数据和机器学习算法的死亡时间推断方法 | |
WO2023098152A1 (zh) | 一种微生物基因数据库的构建方法及系统 | |
Khademi et al. | Phylogenetic relationships among Staphylococcus aureus isolated from clinical samples in Mashhad, Iran | |
CN112852916A (zh) | 肠道微生态的标志物组合、辅助诊断模型及其应用 | |
CN116741268B (zh) | 筛选病原体关键突变的方法、装置及计算机可读存储介质 | |
CN108268752B (zh) | 一种染色体异常检测装置 | |
Terrat et al. | Improving soil bacterial taxa–area relationships assessment using DNA meta-barcoding | |
CN113793647A (zh) | 一种基于二代测序宏基因组数据分析装置及方法 | |
CN117275657A (zh) | 基于肠菌移植的体重管理效果预测方法和菌属的应用 | |
CN116590381A (zh) | 一种筛选再生水补水影响河道生物多样性的关键水质因子的方法 | |
CN104109719B (zh) | 一种基于箱线图鉴别大曲质量的方法 | |
CN114317725B (zh) | 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 | |
CN114369673B (zh) | 结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法 | |
CN113284558B (zh) | 一种区分rna测序数据中基因表达差异与长拷贝数变异的方法 | |
CN110211629A (zh) | 一种评估微生物群落宏基因(或普通生物群落宏遗传)多样性和相似性的概念和方法 | |
CN113470752A (zh) | 一种基于纳米孔测序仪的细菌测序数据鉴定方法 | |
CN111128378B (zh) | 一种用于评估婴幼儿肠道菌群发育年龄的预测方法 | |
CN113355438A (zh) | 一种血浆微生物物种多样性评估方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |