CN114999574A

CN114999574A - 一种肠道菌群大数据的并行识别分析方法及系统

Info

Publication number: CN114999574A
Application number: CN202210917101.XA
Authority: CN
Inventors: 衡益; 王晨; 万北宸; 韩熠南
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-09-02
Anticipated expiration: 2042-08-01
Also published as: CN114999574B

Abstract

本发明涉及肠道菌群数据量化分析技术领域，提出一种肠道菌群大数据的并行识别分析方法及系统，其中包括以下步骤：获取肠道菌群样本的相对丰度数据并以子数据集进行数据划分，得到子数据集相应的菌群相对丰度矩阵；利用贝奥武夫集群并利用R语言的parallel包并行执行以下识别分析步骤：1）对所述菌群相对丰度矩阵进行预处理，去除所述菌群相对丰度矩阵中的缺失数据和空值数据；2）执行热聚类分析，输出热聚类图；3）执行相关性分析，输出相关性网络图；4）执行特殊菌类识别，输出特殊菌类识别结果；以及，根据经过预处理的菌群相对丰度矩阵执行菌群分布分析和多样性分析，生成肠道菌群相对丰度分布图和多样性分析图。

Description

一种肠道菌群大数据的并行识别分析方法及系统

技术领域

本发明涉及肠道菌群数据量化分析技术领域，更具体地，涉及一种肠道菌群大数据的并行识别分析方法及系统。

背景技术

研究肠道菌群中不同菌类的含量分布差异、相关关系、聚类关系等十分重要，这些量化分析可以为研究者提供更直观的参考，为预防治疗疾病提供一部分依据。肠道菌群的检测主要依赖于16s rRNA测序技术。肠道样本相对丰度数据的获取过程较为复杂，涉及到一系列的非通用流程，即通过对16s rRNA扩增子测序数据进行：序列拆分、割库、去除引物、质控、OTU运算分类单位(Operational Taxonomic Unit)聚类等处理，从而获得不同物种分类层面，以及不同采样位置或组别的菌群丰度数据。

目前，对肠道菌群相对丰度数据的挖掘，主要是利用一些固有的方法和算法进行数据特征抓取，例如：主成分分析、因子分析、相关性分析、聚类分析等等。能够实现上述算法分析功能的软件有很多，常见的有matlab、Excel、SAS、R、SPSS、Tableau Software和Python等，上述软件中提供一些相应函数和包可用于实现算法分析。目前关于肠道菌群相对丰度大数据的通用分析技术并不多。相关领域的研究者大多数都是根据自己的研究需求借助不同的软件进行分析处理。这个过程在实践操作中非常复杂，涉及到多个软件的操作和学习，经常会出现不兼容等问题。其次，随着实验条件的改善、采样个体的增加，研究者所收集到的肠道菌群相对丰度数据规模会非常大，但是现有专业领域内的分析软件并没有并行处理模块，当数据量过大、分析需求多样的情况下，此类分析的效率非常低。

发明内容

本发明为克服上述现有技术所述的肠道菌群量化分析数据量过大且分析需求多样，导致分析效率低的缺陷，提供一种肠道菌群大数据的并行识别分析方法及系统。

为解决上述技术问题，本发明的技术方案如下：

一种肠道菌群大数据的并行识别分析方法，包括以下步骤：

获取肠道菌群样本的相对丰度数据并以子数据集进行数据划分，得到子数据集相应的菌群相对丰度矩阵；

利用贝奥武夫集群并利用R语言的parallel包并行执行以下识别分析步骤：

1）对所述菌群相对丰度矩阵进行预处理，去除所述菌群相对丰度矩阵中的缺失数据和空值数据；

2）根据经过预处理的菌群相对丰度矩阵执行热聚类分析，输出热聚类图；

3）根据经过预处理的菌群相对丰度矩阵执行相关性分析，输出相关性网络图；

4）根据经过预处理的菌群相对丰度矩阵执行特殊菌类识别，输出特殊菌类识别结果；

根据经过预处理的菌群相对丰度矩阵执行优势菌群分析和菌群多样性分析，生成肠道菌群相对丰度分布图和多样性分析图。

进一步地，本发明还提出一种肠道菌群大数据的并行识别分析系统，应用上述技术方案提出的肠道菌群大数据的并行识别分析方法。其中包括：

数据采集模块，用于获取肠道菌群样本的相对丰度数据；

并行模块，用于并行置执行预处理、热聚类分析、相关性分析和特殊菌类识别；

量化分析模块，用于根据经过预处理的菌群相对丰度矩阵执行菌群分布分析和多样性分析，生成肠道菌群相对丰度分布图和多样性分析图；

可视化模块，用于将并行模块和量化分析模块输出的热聚类图、相关性网络图和特殊菌类识别结果，以及肠道菌群相对丰度分布图和多样性分析图进行可视化。

其中，所述并行模块中包括：

数据划分单元，用于对肠道菌群样本数据集以子数据集进行数据划分，得到子数据集相应的菌群相对丰度矩阵；

通用设置单元，用于设置执行预处理、热聚类分析、相关性分析和特殊菌类识别的通用函数；

并行分配单元，用于利用R语言的parallel包对集群进行设置，将所述通用函数分配到相应的节点进行并行运算处理；

和，结果存储单元，用于存储各节点的并行运算处理结果，包括热聚类图、相关性网络图和特殊菌类识别结果。

与现有技术相比，本发明技术方案的有益效果是：本发明利用R语言的并行处理包，针对肠道菌群相对丰度大数据实现了预处理、相关性分析、热聚类分析以及特殊菌类识等功能。此并行处理模式大幅度提升了数据分析效率，在相同的计算条件下，对于大量的肠道菌群分析任务，此并行处理模式的计算效率远高于研究者的自主分析计算。

附图说明

图1为实施例1的肠道菌群大数据的并行识别分析方法的流程图。

图2为ggtree函数返回的树状结构示意图。

图3为肠道菌群相对丰度分布图。

图4为Rank Abundance曲线图。

图5为Alpha多样性分析Observed OTU指数箱线图。

图6为Alpha多样性分析Shannon指数箱线图。

图7为Alpha多样性分析Simpson指数箱线图。

图8为UPMF组别的聚类热度分析图。

图9为PPMF组别的聚类热度分析图。

图10为UPMF 和PPMF组别的相关网络图。

图11为UPMF组相关性网络识别图。

图12为实施例2的肠道菌群大数据的并行识别分析系统的架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种肠道菌群大数据的并行识别分析方法，如图1所示，为本实施例的肠道菌群大数据的并行识别分析方法的流程图。

本实施例提出的肠道菌群大数据的并行识别分析方法中，包括以下步骤：

S1、获取肠道菌群样本的相对丰度数据并以子数据集进行数据划分，得到子数据集相应的菌群相对丰度矩阵。

S2、利用贝奥武夫集群并利用R语言的parallel包并行执行以下识别分析步骤：

4）根据经过预处理的菌群相对丰度矩阵执行特殊菌类识别，输出特殊菌类识别结果。

同时，根据经过预处理的菌群相对丰度矩阵执行优势菌群分析和菌群多样性分析，生成肠道菌群相对丰度分布图和多样性分析图。

本实施例中，采用parallel包进行热聚类分析、相关性分析和特殊菌类识别的并行加速运算处理。parallel包可以很容易的在计算集群上实施并行计算，在多个CPU核心的单机上，也能发挥并行计算的功能。一个典型的例子是将其用于在许多不同的数据集上计算相同的R函数，其中，所计算的数据通常是在bootstrap计算中模拟的数据或者“数据”是随机数流。关键是这些计算块是不相关的，不需要以任何方式进行通信。其基本的计算模型是：

步骤1：启动若干个worker进程，并对worker进行任何需要的初始化；

步骤2：将每个任务所需的任何数据发送给worker；

步骤3：将任务分成大致相等大小的块，并将块，包括所需的R代码发送给worker；

步骤4：等待所有worker完成他们的工作，并询问他们的结果；

步骤5：对任何进一步的任务重复步骤2-4；

步骤6：关闭工作进程。

基于以上计算模型，本实施例的具体流程依次为数据划分，数据预处理，热聚类分析、相关性分析和特殊菌类识别等通用设置，并行分配以及结果存储。

在一可选实施例中，利用集群并基于parallel包进行热聚类分析、相关性分析和特殊菌类识别的并行加速运算处理的步骤包括，采用SOCK集群进行并行加速运算处理。

其具体步骤包括：

1）设置用于指定启动的节点数量或节点命名的spec参数；

2）设置并行参数和通用函数；所述并行参数包括存储为k维列表对象的肠道菌群样本数据集W，所述通用函数包括用于执行热聚类分析、相关性分析和特殊菌类识别的函数；

3）启动SOCK集群，利用clusterMap函数进行并行计算；计算完成后关闭集群，并以列表格式存储并行计算结果。

在具体实施过程中，本实施例借助parallel包中的makeCluster函数开启集群并设置集群类型。在并行计算之前，先用detectCores函数确定系统核心数目，对于window系统下的intel I5或I7处理器，一般使用detectCores(logical = F)来获得实际的物理核心数量。

不同的集群类型对于计算机系统具有不同的要求，本实施例采用SOCK集群，需要在启用集群前需要设置spec参数，用于指定要创建的从节点数量的整数。

对于本实施例所采用的SOCK集群，spec应该是一个字符向量，命名从节点上应该启动的主机。向量中的每个元素都启动一个节点。spec也可以是一个整数，指定要在本地机器上创建的从节点数量。

启动集群后利用clusterMap函数进行并行计算。此过程需要提前设置并行参数和通用函数，并行参数即储存成k维列表对象的肠道菌群样本数据集W，通用函数则为执行热聚类分析、相关性分析和特殊菌类识别等通用模块的集成。

运行完毕后利用stopCluster关闭集群，最终将运行的结果以列表格式储存方便之后对于结果的可视化。

本实施例中，利用R语言的并行处理包，针对肠道菌群相对丰度大数据实现了预处理、相关性分析、热聚类分析以及特殊菌类识等功能。此并行处理模式大幅度提升了数据分析效率，在相同的计算条件下，对于大量的肠道菌群分析任务，此并行处理模式的计算效率远高于研究者的自主分析计算。

进一步地，在一可选实施例中，获取肠道菌群样本的相对丰度数据并以子数据集进行数据划分的步骤包括：

S1.1、根据获取的肠道菌群样本数据集W中的h个样本组别划分为h个子数据集；

S1.2、根据每一子数据集中肠道菌群样本的菌群相对丰度数据a _ij，以肠道菌群样本的菌类为行，以肠道菌群样本的样本个体为列，构建菌群相对丰度矩阵A _m×n；其表达式如下：

式中，a _ij表示菌类i在样本j中的相对丰度数据，其中，i=1,2,...,m；j=1,2,...,n；m为肠道菌群样本的菌类总数，n为肠道菌群样本的样本个体总数。

则肠道菌群样本数据集W划分为h个子数据集相应的菌群相对丰度矩阵

，并将其存储为h维的R列表对象。

其中，肠道菌群样本的菌群相对丰度数据是量化分析中最直接和有效的输入数据。相对丰度为从0到1的数值，对应每个菌在样本中的相对含量大小，每个样本中所包含的所有菌类的相对丰度之和为1。由此，菌群相对丰度矩阵A _m×n中每一列向量求和为1。

通常情况下，肠道菌群样本的菌群相对丰度数据的获取过程较为复杂，涉及到一系列的非通用流程，即通过对16s rRNA扩增子测序数据进行：序列拆分、割库、去除引物、质控、OTU聚类等处理，从而获得不同物种分类层面，即界、门、纲、目、科、属、种，以及不同采样位置 (粪便、阴道分泌物、胎盘等)或组别(对照组、实验组)的菌群丰度数据。为了方便描述，本实施例对于同一采样位置或组别的菌群相对丰度数据用矩阵A _m×n表示。

在一可选实施例中，本实施例对所述菌群相对丰度矩阵进行预处理的步骤包括：

S2.1、对子数据集k对应的菌群相对丰度矩阵

进行描述性统计，以矩阵

的行向量为单位得到m组描述性统计结果，生成关于矩阵

的描述性统计汇总表；其中，k=1,2,...,h。

S2.2、根据所述描述性统计结果，对矩阵

中方差或标准差为0的组别相应的行向量进行删除，得到经过预处理的矩阵

；其中，矩阵

中的行向量数目m _k ' ≤m _k。

在具体实施过程中，采用R语言pastecs和backports包中的stat.desc和anyNA函数，先对子数据集k对应的菌群相对丰度矩阵

进行描述性统计，并以

的行向量为单位分别返回m组描述性统计结果。

其中，描述性统计结果包括：向量规模nbr.val，空值个数nbr.null，缺失值个数nbr.na，最小值min，最大值max，极差range，求和sum，中位数median，平均值mean，标准误差平均值SE.mean，95%置信度的均值置信区间长度CI.mean.0.95，方差var，标准偏差std.dev，方差分析变异系数coef.var。

本实施例考虑到由于菌群相对丰度数据的获取涉及到一系列测量和检测流程，因此数据集中会存在因测量失误或其他原因所产生的缺失数据NA和空值数据体现为某一行的数据值全部为零，这些缺失数据和空值数据的存在会对后续的分析造成不便的影响。因此，上述菌群相对丰度矩阵A _m×n不能直接用于并行识别分析及多样性分析。

对于上述两种类型的缺失数据，本实施例将其归类为完全随机缺失 (MissingCompletely At Random, MCAR)，即数据的缺失不依赖于观测到的或缺失的数据的值。对于此种类型的缺失数据，将含有缺失数据的行指标删除是可行的。其中，缺失数据和空值数据在A _m×n中的索引可通过上述“描述性分析”结果获得。

在一可选实施例中，根据经过预处理的菌群相对丰度矩阵并行执行热聚类分析的步骤包括：

1）采用ward2层次聚类法对菌群相对丰度矩阵

进行聚类。

其具体步骤包括：

以矩阵

中的每个菌类变量作为初始聚类团

，

，...，

；

根据初始聚类团集合，计算任意两个初始聚类团的欧式距离，将欧氏距离最小的聚类团进行聚合得到一组新的聚类团集合

。

其中，本实施例采用欧几里得平方根距离作为初始迭代步的度量δ ⁽⁰⁾：

式中，

表示初始聚类团i和初始聚类团j；a _ip表示菌类i在样本p中的相对丰度数据，i,j=1,2,...,m _k ' ，且i≠j。

根据新的聚类团集合，计算任意两个新的聚类团之间的兰氏距离，将兰氏距离最小的聚类团进行聚合得到一组新的聚类团集合；重复该步骤至满足预设的迭代步数t，得到聚类树状结构的热聚类图。

其中，本实施例根据Lance-Williams公式更新度量变量，在迭代步数为t时，考虑由

已经聚类为一个新团的集合

，然后考虑定义其与外部团

的度量：

其中权重w _i是团集合的基数，单个元素的团集合w _i=1。上述迭代步骤持续进行，最终会得到一个聚类树状结构。

2）根据菌群相对丰度矩阵

构建热度图，所述热度图中每一个像素代表对应位置的相对丰度数据。

3）将菌群相对丰度矩阵

的热度图与聚类树状图结合，生成热聚类图。

可选地，在具体实施过程中，采用stats包中的hclust函数对数据集

进行ward 2层次聚类，hclust函数使用被聚类的对象的一组度量值来执行层次聚类分析。

最初，每个对象被分配到自己的集群，然后算法迭代进行，在每个阶段连接两个最相似的集群，一直持续到只有一个集群。在每一阶段，根据所使用的聚类方法，用Lance-Williams不同相似度更新公式重新计算聚类之间的距离。需要说明的是，度量δ ⁽⁰⁾的生成采用stats包中的dist函数生成，且以R矩阵对象存储储在R环境中。然后将δ ⁽⁰⁾作为hclust函数的输入，计算并返回关于

的ward 2层次聚类结果，hclust函数所产生的ward 2层次聚类结果以R列表对象（hc）存储在R环境中，其中hc包含了ward 2层次聚类树状结构的所有信息元素，包括，树的高度、节点标签、排序等。

hclust函数中使用的算法是对子树进行排序，使更紧密的团集合于左侧，单个元素团是最紧密的星系团，而合并两个观测值则按照观测序列的顺序排列。

最终，对于聚类结果的可视化，采用ggtree函数基于图形语法的系统发育树及其异构关联数据可视化，ggtree可以结合ggplot绘图功能，将热度图与聚类树状图结合。

其中，采用ggtree函数用于对hclust函数所生成的列表对象hc进行可视化，将hc作为ggtree函数的输入，得到如图2所示的ggtree函数返回的树状结构示意图，此图会以R列表对象储存在环境中。

在一可选实施例中，根据经过预处理的菌群相对丰度矩阵并行执行相关性分析的步骤包括，以菌群相对丰度矩阵

的行向量为变量进行相关性检验。

其具体步骤如下：

1）计算菌群相对丰度矩阵

的spearman相关系数，构建相应的相关系数矩阵

；其表达式如下：

式中，i,j=1,2,...,m _k ' ，且i≠j；cov(·,·)表示变量间的协方差，rank(·)表示变量的秩，sd(·)表示变量的标准差；a _i·表示菌群相对丰度矩阵

中菌类i对应的行向量；

2）根据所述相关系数矩阵

进行相关系数显著性检验，得到菌群相对丰度矩阵

中任意两个变量样本a _i·和a _j·的相关系数检验值p _ij，进一步构建得到相关系数矩阵

相应的检验矩阵

；

3）根据检验矩阵

和相关系数矩阵

构建相关性网络图并输出。

进一步地，在3）步骤中，还包括以下步骤：

根据检验矩阵

，以及预设的显著性水平α值，对相关系数矩阵

进行初步筛选，得到

；其中：

；

根据矩阵

，以及预设的阈值r*，对矩阵

进行二次筛选，得到

；其中：

；

根据检验矩阵

和经过二次筛选的相关系数矩阵

构建相关性网络图并输出。

本实施例中通过相关性分析得到菌群相对丰度矩阵

中任意两个行向量所代表的变量总体的关系，主要是以

的行指标为变量对其进行相关性检验，返回检验结果并为后续的识别模块提供分析基础。

在一具体实施过程中，采用R语言psych包中的corr.test函数对数据集

进行Spearman相关性分析，包括Spearman相关系数的计算和相关系数显著性检验。

对于相关系数显著性检验，考虑对两个菌类变量的样本a _i·和a _j·是否具有统计意义的相互影响关系进行T检验，步骤如下：

步骤1：建立双边检验的假设，原假设H ₀：总体相关系数ρ=0，备择假设H ₁：总体相关系数ρ≠0；

步骤2：确定显著水平α；

步骤3：计算统计量t，假设统计量t服从自由度为l-2的T分布，表示如下：

步骤4：查临界值表，根据双侧检验决定是否拒绝原假设。

对于检验结果，若拒绝原假设H ₀，则表示在α的显著水平下，我们认为该相关系数r具有显著性，即总体中两个变量确实存在相关性；否则,则认为该相关系数仅为样本误差，不能代表总体水平。

对于上述假设检验结果的判断，可以通过计算参数p来程序进行。在统计检验中，p可以用来衡量原假设H ₀发生的概率，如果p值很小，说明原假设情况的发生的概率很小，且p值越小表明结果越显著。

在一可选实施例中，根据经过预处理的菌群相对丰度矩阵并行执行特殊菌类识别的步骤包括：

1）根据经过预处理的菌群相对丰度矩阵

，对单个样本的同一菌类的相对丰度数据进行求和，得到m _k '个菌类在样本中的丰度分布向量

；

2）根据相关性分析结果，对单个样本的同一菌类的相关性系数进行求和，得到m _k '个菌类在样本中的影响程度向量

；

3）根据丰度分布向量

与影响程度向量

的比值得到样本中所有菌类的特殊值，并对菌群相对丰度矩阵

相应样本中的m _k '个菌类根据特殊值的大小进行降序排序，取排序前q个菌类作为特殊菌类识别结果进行输出。

本实施例中，为了量化某种菌类在整个样本中的相对丰度值，将其单个样本的统一菌类丰度进行求和即可，即对菌群相对丰度矩阵

的行变量累计求和得到m _k '个菌类在样本中的丰度分布向量

。

为了量化菌群相对丰度矩阵

中单个菌类对于整体菌群的影响，考虑将其相关系数矩阵进行或列求和得到

作为单个菌类对菌群的总影响。

在一可选实施例中，根据经过预处理的菌群相对丰度矩阵执行优势菌群分析和菌群多样性分析的步骤包括：

1）根据菌群相对丰度矩阵

，对单个样本的同一菌类的相对丰度数据进行求和，得到第k个子数据集中m个菌类在样本中的丰度分布向量

，以丰度分布向量

中的元素值作为权重绘制累计柱状图，并以子数据集组别为横坐标将所有组别的累计柱状图组合在一个坐标体系中，得到肠道菌群样本数据集W的肠道菌群相对丰度分布图并输出；

2）根据肠道菌群样本数据集W中的菌类名称，按子数据集组别绘制h条RankAbundance曲线，得到Rank Abundance曲线图并输出；

3）根据肠道菌群样本数据集W中h个子数据集对应的菌群相对丰度矩阵

，计算样本的Observed OTU指标、Shannon指数和Simpson指数，构建箱线统计图，并以子数据集组别为横坐标将所有组别的箱线统计图组合在一个坐标体系中，得到alpha多样性分析图并输出。

针对肠道菌群的多样性分析，本实施例采用菌群丰度分布分析与聚类热度图分析，两者可以观察不同位置和组别的优势菌类分布与聚类情况。

针对优势菌类分布分析，本实施例采用横向跨组别的菌群丰度分布分析技术，可以为研究者提供清晰直观的菌类分布信息，以此显示菌群相对丰度分布的大致情况。如图3所示，为本实施例的肠道菌群相对丰度分布图。

本实施例中的菌群多样性分析包括Rank Abundance曲线分析、菌群Alpha多样性分析。

其中，Rank Abundance 曲线构建方法是统计单一样品中每一个OTU所含的序列数，将其按丰度由大到小排序生成秩，再以秩为横坐标，以每个OTU所对应的相对丰度为纵坐标进行作图，并将所有组别的曲线绘制在统一坐标系中进行横向比较。如图4所示，为本实施例的Rank Abundance曲线图。

Rank abundance曲线可用来解释多样性的两个方面，即物种丰度和物种均匀度。在水平方向，物种的丰度由曲线的宽度来反映，物种的丰度越高，曲线在横轴上的范围越大；曲线的平滑程度反映了样品中物种的均度，曲线越平缓，物种分布越均匀。

而Alpha多样性是指一个特定区域或者生态系统内的多样性，是反映丰富度和均匀度的综合指标。菌群的Alpha多样性分析需要计算样本的Observed OTU指标、Shannon指数和Simpson指数。

Observed OTU指标直接对应每组数据所观测到的菌种数目，用于直观的反映数据中的物种多样性。Observed OTU指标反应的是样本中单个个体的OTU观测数，即统计肠道菌群样本数据集W中h个子数据集分别对应的菌群相对丰度矩阵

中单个列向量值不为零的个数，得到观测数向量

：

其中，count(·)表示返回向量a _·1,a _·2,...,a _·n中不为零的元素个数；a _·n表示矩阵

中第n个列向量。

Shannon指数来源于信息论，其定义如下：

。

其中，P _i是指在单个样本中所有OTU相对丰度的比值，即

中列向量每个元素值占其总和的比例。Shannon 指数反映的是优势种在群落中的地位和作用，若一个群落中优势种占的多，其他非优势物种所占的比例则会减少，那么Shannon 指数值较小，群落所含的信息量愈小，说明群落多样性较低。

Simpson 的定义如下：

。

Simpson指数为用来估算样品中微生物多样性指数之一，它与Shannon多样性指数常用于反映菌群多样性。Simpson指数被定义为随机取样的两个个体属于不同种的概率，指数越高说明菌群多样性越高。对于

中的所有个体样本a _·1,a _·2,...,a _·n，通过上述计算可得到其Shannon和Simpson指数向量。对于Shannon和Simpson指数，本实施例采用vegan包的diversity函数进行计算。

最终，为了提供一个直观的多样性分析结果，本发明将观测数向量

，以及Shannon和Simpson指数向量三个指标做箱线统计图，并且将需要一起对比的组别箱线图绘制在统一坐标系下进行横向对比。如图5~7所示，为本实施例的alpha多样性分析箱线图。图5~7中，左图均为实验组数据的Alpha多样性分析箱线图，右图均为对照组数据的Alpha多样性分析箱线图。其中，实验组为实验期间每日服用2次双歧杆菌乳酸菌三联活菌片，每次2片直至分娩的肠道菌群相对丰度数据，对照组为实验期间不服用益生菌的肠道菌群相对丰度数据。

在一可选实施例中，对输出的热聚类图、相关性网络图和特殊菌类识别结果，以及肠道菌群相对丰度分布图和多样性分析图进行可视化。

具体地，在一具体实施过程中，借助ggplot2绘图功能和igraph网络图功能，采用igraph包进行相关性网络图的可视化。

利用igraph包作为技术支撑，相关网络可视化可以分量两个步骤：第一步，构造igraph对象。利用graph_from_adjacency_matrix函数即可构造igraph对象，只需指定邻接矩阵。邻接矩阵中的元素值r _ij决定了其所在行变量i(节点i )和列变量j(节点j )之间是否存在一条边。本发明所设置的邻接矩阵为数据集

的相关系数矩阵

。需要说明的是，

反应了数据集

中任意两个行变量之间的相关系数，因此网络图的节点标签就设置为

的行变量名称。第二步，设置igraph对象属性。本实施例中的igraph属性为颜色、大小、连通团以及网络图分布。

对于节点的颜色属性，本实施例利用cluster_walktrap函数寻找igraph所构造的图中的所有紧密子图，并使得每个子图中的所有节点颜色一致，以此来区分不同的子图。

对于边的颜色属性，将大于零的邻接矩阵元素对应的边设为红色表示正相关，小于零的设为蓝色表示负相关。

对于节点的大小属性，本实施例分别将设置为两个标准，第一是以菌类对菌群的总影响D _m'×1的数值作为节点大小；第二则是以菌类在样本中的丰度分布向量B _m'×1值作为节点大小。然后，在其余设置保持不变的前提下，分别以上述两个标准为节点大小，绘制两张相关性网络图进行对比，就可以直观的识别出一些满足条件的特殊菌类。

对于连通团属性，利用components函数对igraph网络图中的所有的连通团进行可视化标注，不同的连通团采用不同的颜色进行划分，方便研究者快速识别网络图中的孤立子团。对于网络图分布，当网络图的节点数量较大时，网络图的分布尤为重要。igraph图中的layout属性提供了几种不同的分布选项函数，其中可以用作本实施例的有：layout_with_kk、layout_with_gem、layout_with_graphopt、layout_with_lgl、layout_with_mds和layout_with_sugiyama这些函数分别对应不同的网络图分布，本实施例将上述函数作为外置参数供选择。

实施例2

本实施例将实施例1提出的肠道菌群大数据的并行识别分析方法应用于孕妇围产期间属层面肠道菌群受益生菌服用的影响。

首先，获取孕妇围产期间人体肠道粪便样本的数据，并根据数据划分为实验组和对照组，其中，实验组为实验期间每日服用2次双歧杆菌乳酸菌三联活菌片，每次2片直至分娩的肠道菌群相对丰度数据，对照组为实验期间不服用益生菌的肠道菌群相对丰度数据。

对采集肠道菌群样本的相对丰度数据进行编号。样品编号采用四段式编号：首段字母为样品来源组别，字母含义U(对照组)，P(实验组)。第二段代表样品来源对象，字母含义P(孕妇)。第三段代表样品来源时间，字母含义M(受孕32周)，L(足月分娩)。第四段代表样品类型，字母含义F(粪便)，L(阴道分泌物)，P(胎盘组织)。以这种方式采集到的样本共有10个组别，其编号分别为：UPMF、PPMF、UPML、PPML、UPLF、PPLF、UPLL、PPLL、UPP和PPP。获得样本在属层面的相对丰度数据集W。

根据10个组别对数据集W进行数据划分，得到10组数据

，并将其储存为一个10维的R列表对象。

对10个组的数据并行处理，分别删除空值数据与缺失数据，得到10组预处理后数据

，接着，对于处理前的数据，输出10个以组别名称为开头命名的统计表。

利用集群并基于parallel包进行热聚类分析、相关性分析和特殊菌类识别的并行加速运算处理。

其中，在热聚类分析并行处理过程中，以

(k=1,2,...,10)为例，先绘制热度图，再将ward2层次聚类法得树状结构图添加至热度图中，这样就构成了聚类热度图。以UPMF与PPMF组为例，如图8、9所示，分别为UPMF和PPMF 组别的聚类热度分析图。

由图可知，孕32周粪便样本UPMF与PPMF中，UPMF组以人肠道细菌(Feacalibacterium)，双歧杆菌(Bifidobacterium)，链球菌(Streptococcus)和布劳特氏菌属(Blautia)聚落为主；PPMF组以双歧杆菌(Bifidobacterium)，人肠道细菌(Feacalibacterium)和巨单胞菌属(Megamonas)聚落为主。

在相关性分析并行处理过程中，对

(k=1,2,...,10)进行Spearman相关系数计算并且对其相关系数做显著性T检验，输出10组以组别标签为开头命名的相关系数和p值表格，计算并保存可视化模块所需要的图对象，并且对10组相关性网络图进行可视化，以UPMF和PPMF组为例，得到如图10所示的UPMF (左) 和PPMF (右) 组别的相关网络图

其中每组网络图中的几何信息都会以组别标签为开头命名的表格输出，包括网络图的节点标签、节点大小以及连通团信息，分别以“Taxonomy.csv”“Weigh.csv”“Group.csv”文件输出。

在特殊菌类识别并行处理过程中，对

(k=1,2,...,10)分别产生10组特殊菌属排序表，以UPMF组为例，表中特殊性排序靠前的菌类依次是：赭黄嗜盐囊菌(Haliangium)、斯巴达杆菌(Chthoniobacter)、副流感嗜血杆菌(Haemophilus)、动胞囊菌(Kineosporia)、嗜热光合细菌(Roseiflexus)、陶厄氏菌(Thauera)、假黄体单胞菌属(Silanimonas)、异斯卡多维亚氏菌属(Alloscardovia)。

进一步地，本实施例根据特殊菌类识别结果产生10组相关性网络识别图，以UPMF组为例，如图11所示，为UPMF组相关性网络识别图。其中，左图中的节点大小代表每个菌属对于其余所有菌属相关性的叠加，右图的节点大小代表每个菌属相对丰度的大小。对应特殊菌属排序表就可以找出UPMF组的特殊菌属。

在菌群分布分析中，对输入的肠道菌群样本数据集W进行优势菌群分析。丰度分析结果如图3的累计柱状图所示，在实验组与对照组来自粪便的样本中，菌群主要以拟杆菌门(Bacteroides)，双歧杆菌(Bifidobacterium)和人肠道细菌(Feacalibacterium)为主。在实验组与对照组来自阴道分泌物的样本中，菌群主要以副拟杆菌(Parabacteroides)和加德纳氏菌属(Gardnerella)为主。在实验组与对照组来自胎盘的样本中，菌群以普雷沃氏菌属(Prevotella_9)为主。比较对照组与实验组，发现来自不同样本的样本中菌群的分布均发生了一定的变化。

在多样性分析中，对输入的肠道菌群样本数据集W进行Rank Abundance曲线分析，得到如图4所示的Rank Abundance曲线图。由图可知，在水平横轴方向上UPP与PPP在该方向的跨度最大，说明物种的丰富度较高；而UPMF、UPML、UPLF、UPLL、PPMF、PPML、PPLF和PPLL组别在该方向跨度较小，说明物种丰富度相对较低，最低的为PPML组。在竖直纵轴的方向上，UPP与PPP代表的曲线最为平滑，说明物种分布比较均匀；其次是UPMF、PPMF、UPLF、PPLF组的曲线相对平滑；曲线最为不平滑的是UPML、PPML、UPLL、PPLL组，说明在这些组别中物种分布最不均匀。

在Alpha多样性分析中，分别对输入的肠道菌群样本数据集W进行Observed OTU指标、Simpson指数与Shannon指数的箱线图分析。其中Observed OTU指标的箱线图如图5所示，可以看出在服用益生菌干预后MF、ML、LF、LL与P组中该指标均升高。说明服用益生菌后，每组样本中实验观测到的菌种数量有增加。而Simpson指数与Shannon指数分析如图6、7所示，在服用益生菌干预后，ML组LF组以及LL组的菌群多样性均有降低的情况，而在MF组与PP组中菌群多样性反而上升了。

实施例3

本实施例提出一种肠道菌群大数据的并行识别分析系统，应用于实施例1提出的肠道菌群大数据的并行识别分析方法。如图12所示，为本实施例的肠道菌群大数据的并行识别分析系统的架构图。

本实施例提出的肠道菌群大数据的并行识别分析系统中，包括：

数据采集模块1，用于获取肠道菌群样本的相对丰度数据；

并行模块2，用于并行执行预处理、热聚类分析、相关性分析和特殊菌类识别；

量化分析模块3，用于根据经过预处理的菌群相对丰度矩阵执行菌群分布分析和多样性分析，生成肠道菌群相对丰度分布图和多样性分析图；

可视化模块4，用于将并行模块2和量化分析模块3输出的热聚类图、相关性网络图、特殊菌类识别结果、肠道菌群相对丰度分布图和多样性分析图进行可视化。

其中，所述并行模块2中包括：

数据划分单元201，用于对肠道菌群样本数据集以子数据集进行数据划分，得到子数据集相应的菌群相对丰度矩阵；

通用设置单元202，用于设置执行预处理、热聚类分析、相关性分析和特殊菌类识别的通用函数；

并行分配单元203，用于基于parallel包对集群进行设置，将所述通用函数分配到相应的节点进行并行运算处理；

和，结果存储单元204，用于存储各节点的并行运算处理结果，包括热聚类图、相关性网络图和特殊菌类识别结果；

本实施例中的并行模块2采用R语言的parallel并行包，将数据预处理、热聚类、识别以及相关性分析功能集在通用设置单元202中，实现了上述功能在不同组别数据中的并行分配，同时还设置有特殊菌类的识别功能，可直观的提供肠道菌群特殊菌类的信息。对于大量肠道菌群相对丰度数据的分析，大幅度提升了处理效率。

本实施例中的通用设置单元202设置执行预处理、热聚类分析、相关性分析和特殊菌类识别的通用函数，所述通用函数分别根据经过预处理的菌群相对丰度矩阵并行执行热聚类分析、相关性分析和特殊菌类识别，并分别输出热聚类图、相关性网络图和特殊菌类识别结果。

本实施例的量化分析模块3是通用的，对于具有相同格式的肠道菌群相对丰度数据均适用，并且可以为此类领域的各类研究方向提供直观的分析结果作为参考依据。

相同或相似的标号对应相同或相似的部件；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。