CN114023386A

CN114023386A - 宏基因组数据分析及特征菌筛选方法

Info

Publication number: CN114023386A
Application number: CN202111246832.8A
Authority: CN
Inventors: 郑明权; 侯晓帆; 刘裕
Original assignee: Edvance Beijing Medical Laboratory Co ltd
Current assignee: Edvance Beijing Medical Laboratory Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-08

Abstract

本发明公开了宏基因组数据分析及特征菌筛选方法。本发明所要保护的一个技术方案是宏基因组测序数据分析和/或特征菌群鉴定方法。所述方法包括如下步骤：对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据；对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果；对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果；对所述细菌谱构成结果进行特征菌群分析，得到所述每个样本的特征菌群；对所述细菌谱构成结果进行特征菌群鉴定，得到所述待测样本之间的差异基因和特征菌群。

Description

宏基因组数据分析及特征菌筛选方法

技术领域

本发明涉及生物信息技术领域，具体涉及宏基因组数据分析及特征菌筛选方法。

背景技术

无论是人类肠道还是母乳微生物，DNA测序技术的快速发展改变了人们对这类复杂环境中微生物群落组成和动态变化的认识。这些技术上的发展推动从临床研究到生物技术等科学领域微生物组研究数量激增。

很多与微生物研究相关的基本问题都来自于统计和数据分组设计问题，所以数据收集分类和分析方法的标准仍需要不断变化创新。复杂的微生物群落形成动态、多变的自然环境，包括人类肠道、母乳等。DNA测序技术和数据分析发展极大地推动了微生物组学物种鉴定、假阳性率控制等方面的研究。该方法从分子技术选择、数据分析方法以及综合多种组学数据集等不同方面，对如何实现最优的微生物组学研究进行创新。利用近期快速发展的机器学习(machine learning)算法随机森林(random forest)建立分类模型对传统的差异菌群分析做补充，将宏基因组学基本OTU聚类分析和数据多维度统计相结合，组成宏基因组数据特征菌筛选创新方法。

考虑到微生物组数据的特殊性，比如，属于组成数据(compositional data)、数据异质性(heterogeneous)高、稀疏性(sparse)强等特点，为充分利用这些生物学数据的所有信息，需要引入新的数据分析方法。基于分类学(taxa)信息的特征选取进行宿主表型预测，建立微生物组之间的关联关系、预测各种疾病状态、或者改善人类健康，这些都可能促进个体化医疗(personalized medicine)的发展。事实上，肠道微生物组、母乳微生物组等已成为个体化医疗不可或缺的一部分。它们不仅对健康和疾病的个体差异有显著性提示，而且代表了一种潜在的可改变因素，可通过个体化方式进行靶向治疗。而随机森林(randomforest)等机器学习(machine learning)方法可以通过适切模型的训练开发，为生物医学分析提供新的见解。

发明内容

本发明所要解决的技术问题是如何对宏基因组数据中的特征菌群进行鉴定筛选或如何对宏基因组数据进行分析。

为了解决上述技术问题，本发明首先提供了宏基因组测序数据分析和/或特征菌群鉴定(筛选)方法。所述方法可包括如下步骤：对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据；对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果；对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果；对所述细菌谱构成结果进行特征菌群分析，得到所述每个样本的特征菌群；对所述细菌谱构成结果进行特征菌群鉴定，得到所述待测样本之间的差异基因和特征菌群。

上文所述方法中，所述特征菌群鉴定的过程可包括：使用随机森林方法建立特征菌群分类模型，通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。

上文所述方法中，所述使用随机森林方法建立特征菌群分类模型的过程可包括如下步骤：随机选取80％的所述待测样本作为训练集，20％的所述待测样本作为测试集，使用所述训练集构建所述特征菌群分类模型，使用所述测试集验证所述特征菌群分类模型；对所述特征菌群分类模型绘制ROC曲线，使用AUC值确定所述特征菌群分类模型的准确性。

上文所述方法中，所述特征菌群分析可包括α多样性分析和β多样性分析。

所述α多样性分析可使用物种Chao1丰富度指数和/或Shannon指数描述所述待测样本的微生物物种多样性。

所述β多样分析可包括如下步骤：采用Bray-Curtis不相似系数进行度量，采用主坐标分析方法和非度量多维尺度分析方法分析所述待测样本的微生物组的整体变异。

上文所述方法中，所述微生物组可指所述待测样本的微生物物种组成。

为了解决上述技术问题，本发明还提供了宏基因组数据分析装置。所述装置可包括如下模块：

(1)数据预处理模块：用于将所有的待测样本的宏基因组数据进行质量控制和过滤得到高质量数据。

(2)微生物组组成分析模块：用于基于所述高质量数据分析每个所述待测样本的微生物群体中种水平精度的组成(物种组成)和相对丰度，得到每个所述待测样本的细菌的组成及相对丰度分布结果。

(3)细菌谱构成比较模块：用于基于所述细菌的组成及相对丰度分布结果获得每个所述待测样本的细菌谱构成结果。

(4)特征菌群分析模块：用于基于所述细菌谱构成结果得到每个所述待测样本的特征菌群。

(5)特征菌群筛选模块：用于基于所述细菌谱构成结果获得每个所述待测样本分组间的特征菌群和差异基因。

上文所述装置中，所述相对丰度可为种水平的相对丰度。

上文所述装置中，所述特征菌群筛选模块可通过包括如下步骤的方法建立：利用随机森林方法建立所述待测样本的特征菌群分类模型，通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。

上文所述装置中，(4)中所述特征菌群分析模块可包括如下模块：

(4-1)α多样性分析模块：用于获得每个待测样本微生物组的整体变异；通过包括如下步骤的方法建立：采用物种Chao1丰富度指数和Shannon指数描述所述待测样本的微生物物种多样性；采用Wilcoxon rank-sum检验进行待测样本分组间的比较。

(4-2)β多样性分析模块：用于获得每个待测样本微生物组的整体变异；通过包括如下步骤的方法建立：采用Bray-Curtis不相似系数进行度量；采用主坐标分析方法和非度量多维尺度分析方法分析。

为了解决上述技术问题，本发明还提供了宏基因组数据特征菌筛选装置。所述装置可包括上文所述的特征菌群筛选模块。

为了解决上述技术问题，本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机运行如上文所述方法的步骤。所述计算机程序也可使计算机运行如上文所述计算机程序使计算机运行如上文所述装置或上文所述装置的模块。

为了解决上述技术问题，本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序可使计算机建立如上文所述方法的步骤。所述计算机程序也可使计算机建立如上文所述装置或上文所述装置的模块。

本发明就宏基因组数据特征菌筛选方向提出了一种在宏基因组分类和功能方面、从多个测序数据中整合数据集、进一步改善机器学习、组成型数据分析创新方法。本方法所提供出的宏基因组生物信息分析方法，从宏基因组测序的原始大数据结果中挖掘目标特征菌并进行筛选，使用机器学习在微生物组宏基因组领域基于当前状态区分样品分类，由己知的分类与结果学习，预测末知分类。

一般微生物组数据经过处理，可以获得特征(物种不同分类级)与样本的丰度矩阵。但通常这一结果是存在迷惑性，因为微生物组数据通常是高维数据，包括几千个不同物种，矩阵数据存在许多零值。本发明提出一种有效的统计处理方法，以挖掘有意义的结果。本发明中对特征菌群分析使用α多样性分析和β多样性分析。α多样性分析使用物种Chao1丰富度指数和/或Shannon指数描述所述待测样本的微生物物种多样性；β多样分析包括如下步骤：采用Bray-Curtis不相似系数进行度量，采用主坐标分析方法和非度量多维尺度分析方法分析所述待测样本的微生物组的整体变异。

附图说明

图1为宏基因组测序数据预处理流程。

图2为每个样本测序数据及其预处理结果。High quality non-human reads代表高质量非人类宿主序列；Human reads代表人类宿主序列；QC filtered reads代表质控过滤掉的序列。纵坐标为序列数量，横坐标代表不同样本。

图3为超界水平上物种相对丰度构成。k_Bacteria代表细菌相对丰度，k_Archaea代表古细菌相对丰度，k_Viruses代表病毒相对丰度。纵坐标为物种相对丰度占比，横坐标代表不同样本。

图4为门水平的细菌谱构成。Firmicutes厚壁菌门，Bacteroidetes拟杆菌门，Proteobacteria变形杆菌门，Actinobacteria放线菌门，Fusobacteria梭杆菌门，Tenericutes软壁菌门，Cyanobacteria蓝菌门，Euryarchaeota广古菌门，Spirochaetes螺旋体门，Deinococcus-Thermus异常球菌-栖热菌门，Chlorflexi绿弯菌门，Synergistetes互养菌门，疣Verrucomicrobia微菌门，Acidobacteria酸杆菌门，Chlorobi绿菌门，Other其他。纵坐标为物种相对丰度占比，横坐标代表不同样本。

图5为属水平的细菌谱构成。拟杆菌属Bacteroides、粪杆菌属Faecalibacterium、埃希菌属Escherichia、厌氧棒杆菌属Anaerostipes、真杆菌属Eubacterium、双歧杆菌属Bifidobacterium、普氏菌属Prevotella、柠檬酸细菌属Citrobacter、链球菌属Streptococcus、梭状杆菌属Clostridium、柯林斯氏菌Collinsella、布劳特氏菌属Blautia、克雷白氏杆菌Klebsiella、小杆菌属Dialister、副拟杆菌属Parabacteroides、其他Other。纵坐标为物种相对丰度占比，横坐标代表不同样本。

图6为种水平的细菌谱构成。普氏栖粪杆菌Faecalibacterium prausnitzii、普通拟杆菌Bacteroides vulgatus、直肠真杆菌[Eubacterium]rectale、大肠埃希氏杆菌Escherichia coli、hadrus厌氧棒杆菌Anaerostipes hadrus、多氏拟杆菌Bacteroidesdorei、多形拟杆菌Bacteroides thetaiotaomicron、产气柯林斯菌Collinsellaaerofaciens、挑剔真杆菌[Eubacterium]eligens、生孢梭菌Clostridium sporogenes、霍氏真杆菌[Eubacterium]hallii、毛螺旋菌GAM79 Lachnospiraceae bacterium GAM79、戴阿李斯特Marseille-p5638 Dialistersp.Marseille-p5638、汉氏Blautia菌Blautiahansenii、脆弱拟杆菌Bacteroides fragilis、其他Other。纵坐标为物种相对丰度占比，横坐标代表不同样本。

图7为物种水平α多样性Chao1指数。纵坐标为Chao1指数，横坐标代表不同分组。

图8为物种水平α多样性Shannon指数。纵坐标为Shannon指数，横坐标代表不同分组。

图9为PCoA分析结果。

图10为NMDS分析结果。

图11为按重要性排序的种水平的特征菌群。柠檬色明串珠菌Leuconostoc.citreum、类鼻疽伯克霍尔德菌Burkholderia.pseudomallei、融合魏斯氏乳酸菌Weissella.cibaria、，乳脂乳酸乳球菌Lactococcus.garvieae、肺炎克雷伯菌Klebsiella.pneumoniae、瘤胃乳杆菌Lactobacillus.ruminis、麻疹孪生球菌Gemella.morbillorum、香港放线菌Actinomyces.hongkongensis、沟迹真杆菌.Eubacterium..sulci、嵴链球菌Streptococcus,cristatus、链球菌oral.taxon.431Streptococcus.sp..oral.taxon.431、屎肠球菌Enterococcus.faecium、芽孢杆菌.Bacillus..selenitireducens、血链球菌Streptococcus.sanguinis、澳大利亚链球菌Streptococcus.australis、lutetiensis链球菌Streptococcus.lutetiensis、沙克乳酸杆菌Lactobacillus.sakei、棉子糖乳球菌Lactococcus.raffinolactis、亨氏丁酸弧菌Butyrivibrio.hungatei、粘膜乳杆菌Lactobacillus.mucosae、divergens肉杆菌Carnobacterium.divergens、口腔链球菌Streptococcus.oralis、garlicum明串珠菌Leuconostoc.garlicum、链球菌oral taxon 064Streptococcus.sp..oral.taxon.064、饲用发酵乳酸杆菌Lactobacillus.fermentum、明串珠菌Leuconostoc.carnosum、星群链球菌Streptococcus.constellatus、微单胞菌Parvimonas.micra、松鼠葡萄球菌Staphylococcus.sciuri、溶纤维真杆菌.Eubacterium..cellulosolvens。

图12为基于训练集的随机森林分类模型效果评价ROC曲线。纵坐标为真阳率，横坐标为假阳率。

图13基于测试集的随机森林分类模型效果评价ROC曲线。纵坐标为真阳率，横坐标为假阳率。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例一、宏基因组测序数据分析及特征菌筛选方法

1、宏基因组测序数据的获得

收集研究对象为34例人类粪便样本(均经知情同意)，进行宏基因组测序。将34例样本分为两组，其中17例样本(治疗前组)来源于肥胖组患者经贝那鲁肽治疗前的粪便样本，其余17例样本(治疗后组)来源于肥胖患者经贝那鲁肽治疗3月后的粪便样本。

样本处理：DNA提取，即进行粪便样本DNA提取。样本中加入300μL裂解液和1μL蛋白酶K，涡旋10min后65℃孵育15min；加入5μg核糖核酸酶A混匀，去除RNA，37℃孵育30min后置于冰上3～5min。加入150μL MPC蛋白沉淀剂，用力涡旋10s后，10 000g、4℃离心10min沉淀蛋白。离心后取上清，加500μL异丙醇，翻转混匀30～40次后4℃离心10min沉淀DNA。体积分数70％乙醇洗2次，将DNA沉淀溶解于15μL无菌水中，即得到34例样本的DNA溶液。

宏基因组测序：分别取每例样本DNA溶液中的100ng DNA作为起始量，使用非接触式超声破碎仪将其打断为300～400bp的DNA片段，进行DNA测序文库的构建。使用测序试剂盒在测序平台进行2x 150双端宏基因组测序，得到样本的图像数据。最后获得34例样本的宏基因组测序数据。

2、宏基因组数据分析

2.1测序数据的预处理

将步骤1中测序获得的图像数据处理成原始的FASTQ数据，即原始数据。

然后对原始数据进行预处理，预处理后获得高质量数据用于后续数据分析。原始数据的预处理见图1，包括两个主要步骤：(1)首先对数据进行质量控制分析：去除引物和接头，低质量碱基，仅保留读长超过45bp的序列数据；(2)去除人类宿主序列，获得非人类宿主序列：考虑到粪便样本中微生物占绝对优势，第一个步骤去除人类宿主序列，具体将序列数据比对到标准人类参考基因组(hg19)，去除能比对上的序列，对于单端序列比对到hg19的数据，另一端序列也从数据中去除。

通过对34例样本进行宏基因组测序，共获得原始数据为31.7亿条长度为150bp的双端序列数据，平均每个样本9316.1万条双端序列数据。

通过对获得的34例样本的原始数据进行预处理，共留下31.3亿条(98.8％)高质量数据用于下游分析，平均每个样本9203.9万条双端序列数据用于下游分析。图2展示了每个样本测序获得原始数据量以及数据预处理的结果。

测序数据汇总

表1给出了数据预处理前后分组汇总的结果。

表1.序列汇总

注：Total yields：总量统计；Reads after quality trimming：质控后序列统计；Reads after human subtraction：去除人类宿主序列后统计。

2.2微生物组组成分析

2.2.1微生物组表征

将步骤2.1得到的高质量数据进行微生物组表征，获得各样本微生物群体中种(species)水平精度的组成。使用精确匹配算法进行微生物群体组成表征，可以获得每个样本测序数据中直至种水平的细菌、古菌、真核生物和病毒的构成信息。

2.2.2微生物组构成

在超界(super kingdom)水平上，所有样本都以细菌占比为主，结果见图3(图3中baseline代表治疗前组样本；post_3month代表治疗后组的样本)。基于上述事实，接下来的分析将集中关注细菌的组成及其相对丰度分布。

2.3细菌谱构成比较

通过对步骤2.1中得到的34例样本的高质量数据进行分析，在门、属、种水平分析细菌谱的构成，得到每个样本的细菌谱构成结果。

2.3.1门水平比较

门(phylum)水平上的肠道细菌谱，以FDR<0.10为检验水准，检测差异菌。

34例样本中，治疗前组和治疗后组的样本在门(phylum)水平上的肠道细菌谱如图4(baseline代表治疗前组样本；post_3month代表治疗后组的样本)和表2所示，通过比较分析，结果显示治疗前组和治疗后组样本在门水平无差异菌。

表2.门水平比较相对丰度

注：“-”代表无差异菌或无结果。

2.3.2属水平比较

属(genus)水平上的肠道细菌谱，以FDR<0.10为检验水准，检测治疗前组和治疗后组样本的差异菌。

34例样本中，治疗前组和治疗后组样本在属(genus)水平上的肠道细菌谱如图5(baseline代表治疗前组样本；post_3month代表治疗后组的样本)和表3所示，通过比较分析，结果显示差异菌为表3中列出属中的细菌。

表3.属水平比较相对丰度(平均值±标准差)

注：第一列代表不同的种名。

2.3.3种水平比较

种(species)水平上的肠道细菌谱，以FDR<0.10为检验水准，检测治疗前组和治疗后组样本的差异菌。

34例样本中，治疗前组和治疗后组样本的在种(species)水平上的肠道细菌谱如图6(baseline代表治疗前组样本；post_3month代表治疗后组的样本)和表4所示，通过比较分析，结果显示差异菌为表4列出种中的细菌。

表4.种水平比较相对丰度(平均值±标准差)

注：第一列代表不同的种名。

2.4特征菌群分析

通过对步骤2.1中得到的34例样本的细菌谱构成结果进行分析，经过2.3得到的治疗前组和治疗后组的特征菌群(分组样本特有的物种种类及数目)，即特征菌群(物种不同分类级)与疾病分组(治疗前组和治疗后组)样本的丰度矩阵。

2.4.1α多样性分析

微生物物种多样性指数(α多样性)用于评估每个样本微生物组的整体变异。α多样性可以量化样本内的特征多样性，也可以进行样本组间(治疗前组和治疗后组)比较。

所述微生物组是指待测样本的微生物物种组合。

α多样性分析采用菌落丰度度量指标Chao1丰富度指数和菌落多样性度量指标Shannon指数对物种丰富度和均匀度进行描述。其中，物种丰富度指样本中出现的物种种类数目；而Shannon指数不仅考虑了物种的种类数目，而且考虑了其在样本中的相对丰度，Shannon指数越大，表示样本中出现的物种数目越多，而且均匀程度越高。α多样性采用Wilcoxon rank-sum检验进行组间比较。

使用R语言对治疗前组和治疗后组共34例样本的细菌谱构成结果进行分析，得到治疗前组和治疗后组样本的物种水平α多样性Chao1指数如图7所示(图7中baseline代表治疗前组，post_3month代表治疗后组)，结果显示菌落丰富度差异不显著。两组样本物种水平α多样性Shannon指数如图8所示(图8中baseline代表治疗前组，post_3month代表治疗后组)，结果显示菌落多样性差异性显著。

2.4.2β多样性分析

β多样性也用于评估微生物组的整体变异。β多样性比较样本组间(治疗前组和治疗后组)特异的差异，产生所有成对样品间的距离矩阵。β多样性采用Bray-Curtis不相似系数进行度量，并分别采用主坐标分析方法(PCoA，Principal Co-ordinates Analysis)和非度量多维尺度分析方法(NMDS，Non-Metric Multi-Dimensional Scaling)进行分析。

使用R语言对治疗前组和治疗后组共34例样本的细菌谱构成结果进行分析，得到两组样本的PCoA分析结果如图9所示(图9中baseline代表治疗前组，post_3month代表治疗后组)，结果显示组间差异不显著。

两组样本的NMDS分析结果如图10所示(图10中baseline代表治疗前组，post_3month代表治疗后组)，结果显示组间差异不显著。

2.5特征菌群筛选

通过对步骤2.1中得到的34例样本的细菌谱构成结果进行分析，筛选得到两组样本之间的差异基因和特征菌群。

利用随机森林(random forest)方法建立(特征菌群)分类模型。随机选取80％的样本作为训练集(training set)，20％的样本作为测试集(test set)。利用训练集样本构建分类模型，并在测试集中验证模型的可靠性。对随机森林分类模型采用接受者操作特征曲线(eceiver operating characteristic curve，ROC)进行评价，并计算曲线下面积(area under the curve，AUC)。从而通过分类模型获得待测样本分组(治疗前组和治疗后组)间的特征菌群和差异基因。

通过使用随机森林的方法对治疗前组和治疗后组样本建立特征菌群分类模型，最终得到两组样本的差异特征菌群分类(图11)，通过图11基尼指数每个节点观测值间距结果表明前四个为差异菌群，分别为柠檬色明串珠菌(Leuconostoc.citreum)，类鼻疽伯克霍尔德菌(Burkholderia.pseudomallei)，融合魏斯氏乳酸菌(Weissella.cibaria)和乳脂乳酸乳球菌(Lactococcus.garvieae)。

基于训练集(80％的样本)的随机森林分类模型效果评价ROC曲线图如图12所示，AUC值为0.961；基于测试集(20％的样本)的随机森林分类模型效果评价ROC曲线图如图13所示，AUC值为0.8。

上述结果表明，宏基因组测序数据分析及特征菌筛选方法能有效获得待测样本间的特征差异菌群。

实施例二、宏基因组数据分析装置

(1)数据预处理模块：用于将所有待测样本的宏基因组原始数据进行质量控制和过滤得到高质量数据。

(2)微生物组组成分析模块：用于基于高质量数据分析每个待测样本微生物群体中种水平精度的组成和微生物组构成，得到每个待测样本的细菌的组成及相对丰度分布结果。

(2-1)微生物组表征模块：用于获得每个待测样本微生物群体中种水平精度的组成。

通过包括如下步骤的方法建立：基于高质量数据，使用精确匹配算法进行微生物群体组表征，可以获得每个样本测序数据中直至种水平的细菌、古菌、真核生物和病毒的构成信息。

(2-2)微生物组构成分析模块：用于基于微生物群体组表征结果确定待测样本的微生物群体以细菌为主要组成，并获得每个待测样本的细菌的组成及其相对丰度分布。

(3)细菌谱构成比较模块：用于基于每个待测样本的细菌的组成及其相对丰度分布获得每个待测样本的细菌谱构成结果。

(3-1)门水平比较模块：用于获得每个待测样本的门(phylum)水平上的肠道细菌谱；

(3-2)属水平比较模块：用于获得每个待测样本的属(genus)水平上的肠道细菌谱；

(3-3)种水平比较模块：用于获得每个待测样本的种(species)水平上的肠道细菌谱。

(4)特征菌群分析模块：用于基于细菌谱构成结果得到每个待测样本的特征菌群。

(4-1)α多样性分析模块：用于基于细菌谱构成结果获得每个待测样本微生物组的整体变异；

通过包括如下步骤的方法建立：采用物种Chao1丰富度(Chao1 richness)指数和Shannon指数进行描述；采用Wilcoxon rank-sum检验进行待测样本分组间的比较。

(4-2)β多样性分析模块：用于基于细菌谱构成结果获得每个待测样本微生物组的整体变异；

通过包括如下步骤的方法建立：采用Bray-Curtis不相似系数进行度量；采用主坐标分析方法(PCoA，Principal Co-ordinates Analysis)和非度量多维尺度分析方法(NMDS，Non-Metric Multi-Dimensional Scaling)进行分析。

(5)特征菌群筛选模块：用于基于每个待测样本的细菌谱构成结果获得所有待测样本分组间的差异基因和特征菌群。

通过包括如下步骤的方法建立：利用随机森林(random forest)方法建立特征菌群分类模型，从而通过分类模型获得所有待测样本分组间的特征菌群和差异基因。

具体为随机选取80％的样本作为训练集(training set)，20％的样本作为测试集(test set)。利用训练集样本构建(特征菌群)分类模型，并在测试集中验证模型的可靠性。对随机森林分类模型采用接受者操作特征曲线(eceiver operating characteristiccurve，ROC)进行评价，并计算曲线下面积(area under the curve，AUC)，通过AUC值确定模型的准确性。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

Claims

1.宏基因组测序数据分析和/或特征菌群鉴定方法，其特征在于：所述方法包括如下步骤：对所有待测样本的宏基因组原始数据进行预处理获得每个待测样本的高质量数据；对所述高质量数据进行微生物组组成分析获得所述每个待测样本的细菌的组成及相对丰度分布结果；对所述细菌的组成及相对丰度分布结果进行细菌谱构成比较得到所述每个待测样本的细菌谱构成结果；对所述细菌谱构成结果进行特征菌群分析，得到所述每个样本的特征菌群；对所述细菌谱构成结果进行特征菌群鉴定，得到所述待测样本之间的差异基因和特征菌群；

所述特征菌群鉴定的过程包括：使用随机森林方法建立特征菌群分类模型，通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。

2.根据权利要求1所述的方法，其特征在于：所述使用随机森林方法建立特征菌群分类模型的过程包括如下步骤：随机选取80％的所述待测样本作为训练集，20％的所述待测样本作为测试集，使用所述训练集构建所述特征菌群分类模型，使用所述测试集验证所述特征菌群分类模型；对所述特征菌群分类模型绘制ROC曲线，使用AUC值确定所述特征菌群分类模型的准确性。

3.根据权利要求1或2所述的方法，其特征在于：所述特征菌群分析包括α多样性分析和β多样性分析；

所述α多样性分析使用物种Chao1丰富度指数和/或Shannon指数描述所述待测样本的微生物物种多样性；

所述β多样分析包括如下步骤：采用Bray-Curtis不相似系数进行度量，采用主坐标分析方法和非度量多维尺度分析方法分析所述待测样本的微生物组的整体变异。

4.宏基因组数据分析装置，其特征在于：所述装置包括如下模块：

(1)数据预处理模块：用于将所有的待测样本的宏基因组数据进行质量控制和过滤得到高质量数据；

(2)微生物组组成分析模块：用于基于所述高质量数据分析每个所述待测样本的微生物群体中种水平精度的组成和相对丰度，得到每个所述待测样本的细菌的组成及相对丰度分布结果；

(3)细菌谱构成比较模块：用于基于所述细菌的组成及相对丰度分布结果获得每个所述待测样本的细菌谱构成结果；

(4)特征菌群分析模块：用于基于所述细菌谱构成结果得到每个所述待测样本的特征菌群；

(5)特征菌群鉴定模块：用于基于所述细菌谱构成结果获得每个所述待测样本分组间的特征菌群和差异基因；

所述特征菌群筛选模块通过包括如下步骤的方法建立：利用随机森林方法建立所述待测样本的特征菌群分类模型，通过所述特征菌群分类模型获得所述待测样本分组间的特征菌群和差异基因。

5.根据权利要求4所述的装置，其特征在于：(4)中所述特征菌群分析模块包括如下模块：

(4-1)α多样性分析模块：用于获得每个待测样本微生物组的整体变异；通过包括如下步骤的方法建立：采用物种Chao1丰富度指数和Shannon指数描述所述待测样本的微生物物种多样性；采用Wilcoxon rank-sum检验进行待测样本分组间的比较；

6.宏基因组数据特征菌筛选装置，其特征在于：所述装置包括权利要求5中所述的特征菌群筛选模块。

7.存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机运行如权利要求1-3中任一权利要求所述方法的步骤或所述计算机程序使计算机运行如权利要求4-6中任一权利要求所述装置或权利要求7中所述装置的模块。

8.存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机建立如权利要求1-3中任一权利要求所述方法的步骤或所述计算机程序使计算机建立如权利要求4-6中任一权利要求所述装置或权利要求7中所述装置的模块。