CN112151118B

CN112151118B - 一种多时间序列肠道菌群数据分析流程控制方法

Info

Publication number: CN112151118B
Application number: CN202010801028.0A
Authority: CN
Inventors: 邓煜盛; 韩丽娟; 周勇
Original assignee: Kmbgi Gene Tech Co ltd
Current assignee: Kmbgi Gene Tech Co ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2022-06-28
Anticipated expiration: 2040-08-11
Also published as: CN112151118A

Abstract

本发明公开了一种多时间序列肠道菌群数据分析流程控制方法，该分析流程主要包括以下阶段：样本获取、肠道菌群数据预处理、多样性分析、(时序序列)聚类分析，关联分析、菌落互作网络构建、单一菌种变化趋势(序列)预测。用户根据流程文件要求输入文件及相应的参数，系统将自动化分析数据，输出相应的文件及可视化结果。让科研人员，包括不懂数据分析的科研人员能高效地完成一套标准化的基于时间序列肠道菌群数据分析流程，获得最终结果。从而达到提高科研工作效率，降低科研成本的目的。

Description

一种多时间序列肠道菌群数据分析流程控制方法

技术领域

本发明涉及生物分析技术领域，具体涉及一种多时间序列肠道菌群数据分析流程控制方法。

背景技术

越来越多研究人员发现，肠道微生物与人类健康息息相关。许多疾病，比如炎症性肠病、癌症、肥胖、糖尿病、过敏和风湿免疫疾病等的发生发展，被陆续发现同肠道菌群组成异常引起的微生态失调存在密切联系。尽管越来越多证据发现肠道菌群与人类健康相关，但是由于肠道菌群影响因素众多，肠道菌群的研究结果重复性不佳，其证据级别较低。为了增强证据可信度，越来越多的纵向研究设计被应用于肠道菌群的研究中。

然而基于时间序列的分析方法比横断面研究所用的方法更加复杂，需要考虑的因素也更多，对于一般科研人员来说，需要花费更多的时间和精力来处理数据。目前并没有关于宏基因组时间序列数据分析流程，部分仅包含一个或两个功能，并没有一个相对完整的分析流程。因此对于科研人员，尤其是不懂数据分析的科学人员，带来了挑战和困难。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种多时间序列肠道菌群数据分析流程控制方法，其能为现有技术提供一个相对完善的分析流程，便于科研人员通过简单步骤即可获得相应结果，提高工作效率，降低科研成本。

本发明的目的采用如下技术方案实现：

一种多时间序列肠道菌群数据分析流程控制方法，包括以下步骤：

1)样本获取：获取同一个体不同时间点的人体肠道粪便样本和对应的个体基本信息；以及分别对每个样本进行肠道菌群基因提取，测序，与参考基因组比对注释方法获得每个样本对应的肠道菌群信息，并获得肠道菌群相对丰度信息；

2)肠道菌群信息预处理：分析汇总肠道菌群相对丰度数据，进行物种过滤，筛除低出现频次及低丰度物种；

3)多样性分析：流程计算样本alpha多样性和beta多样性，绘制alpha多样性指标误差折线图和物种组成图，以及降维后二维散点图和三维散点图；

4)聚类分析：根据肠道菌落相对丰度信息进行标准化处理和去除波动较小的物种相对丰度时间序列，根据序列波动情况进行序列聚类及可视化；

5)关联分析：分析肠道菌种与表型间的关联性，绘制关联结果热图；

6)菌落互作网络构建：计算两两样本间相似性、相关性和平移时间，获得物种互作网络关系，筛选出相似且相关物种，结合聚类结果和降维信息，绘制基于主坐标轴分析和聚类的互作关系网络图；

7)单一菌种变化趋势预测：对指定菌种进行平稳性及白噪声检验，符合条件的序列进一步进行差分整合移动平均自回归模型分析，根据贝叶斯信息准则筛选最佳模型，使用模型对指定菌种进行趋势预测。

进一步，步骤1)中，时间点至少选取4个。

再进一步，步骤2)中，对步骤1)所得的肠道菌落数据进行归一化处理，每个样本所有种水平物种相对丰度加和为100％；低出现频次物种为在3％样品中出现，低丰度物种为所有样本相对丰度第90百分位数小于1的物种。

进一步，步骤3)中，alpha多样性指标包括Shannon指数和Simpson指数，beta多样性是基于braycurtis距离进行主坐标分析降维，获得各样本的坐标信息；指定分组变量及时间变量后，绘制Shannon指数和Simpson指数误差折线图，各组物种组成图，以及嵌入核密度分布的二维散点图和三维散点图。

再进一步，步骤4)中，将肠道菌群相对丰度信息矩阵转成宽格式数据形式，即每行代表一个物种，每列为时间点，列按时间顺序排序；接着，对每个物种进行标准化处理：去除低波动物种，即标准差为0的物种，最终获得待分析候选菌种；然后使用欧式距离和动态时间规整计算两两序列间的距离，使用层次聚类进行序列聚类，绘制聚类热图；再分别使用层次聚类，Dbscan和Kmeans+方法进行聚类，绘制聚类折线图。

进一步，步骤5)中，使用广义估计方程模型和/或混合线性模型进行肠道菌种与表型间关联分析及绘制关联结果热图；当选用广义估计方程模型时，指定工作矩阵；当选用混合线性模型时，指定固定效应及随机效应变量；若需要调整基线水平，将基线水平作为协变量进行模型分析；分析后对结果进行可视化，绘制关联热图，热图方格颜色表示关联系数大小，‘*’号表示关联系数对应P值，P＜0.05。

再进一步，步骤6)中，选取2个菌种时间序列，使用动态时间规整分析两个菌种序列间的距离及路径；根据路径对两个序列进行伸缩，填补丰度信息，获得伸缩后的新序列；接着使用Pearson检验对新序列进行关联分析，获得两新序列的关联系数及对应P值；分别以两个序列中之一为参照，另一个序列平移，计算不同参照不同平移时间的关联系数，选择最大值为其关联系数；其中，平移次数＝(平移序列时间长度-3)×2+1；平移序列保留3个原始时间点；序列不进行平移，即原始位置为0，向左平移取负值，向右平移，取正值；关联系数为相似系数、相似大小和相似方向；关联系数最大值对应平移时间即两序列的平移时间。

然后筛选出相似且相关的菌种对，是根据Pearson检验P值和CORT关联系数进行筛选，选择P值小于0.05，CORT相关系数大于0.7的菌种对；绘制菌群降维后PCOA图；接着，根据聚类结果和菌群互作关系，在PCOA图中添加类别标识及互作关系。其中，在PCOA图中两两间互作关系直线大小表示相关程度，不同直线类型表示关联正负方向，带箭头的直线表示两者前后关系；若无平移，则用无箭头直线表示

进一步，步骤7)中，选取至少20个时间点作为时间序列时间点；对时间序列进行平稳性检验，若符合平稳性，进一步进行白噪声检验，否则需要进行差分处理，再进行平稳性检验，直到平稳为止，再对其进行白噪声检验；若不为白噪声，可进行差分整合移动平均自回归模型分析，根据贝叶斯信息准则筛选出最佳模型，使用最佳模型对序列进行趋势预测，并绘制趋势变化图，添加趋势曲线及置信范围。

相比现有技术，本发明的有益效果在于：

本发明通过对同一个体不同时间点肠道粪便样本连续收集，获得肠道菌群变化波动情况。用户根据流程文件要求输入文件及相应的参数，系统将自动化分析数据，输出相应的文件及可视化结果。让科研人员，包括不懂数据分析的科研人员能高效地完成一套标准化的基于时间序列肠道菌群数据分析流程，获得最终结果。从而达到提高科研工作效率，降低科研成本的目的。本发明不仅仅可用于宏基因组时间序列分析，还可用于16S，18S和ITS等时间序列数据的分析，其实现操作简单，应用广泛。

附图说明

图1为多时间序列肠道菌群数据分析流程控制方法流程图；

图2为实施例1的Shannon指数误差折线图；

图3为实施例1的物种组成图；

图4为实施例1的不同时间的降维图；

图5为实施例1的不同分组的降维图；

图6为实施例1的物种时间序列聚类热图

图7为实施例1的聚类折线图；

图8为本发明提供的实施例中物种与表型关联热图；

图9为本发明提供的实施例中菌群互作网络图；

图10为本发明提供的时间序列趋势预测图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

一种多时间序列肠道菌群数据分析流程控制方法。该分析流程主要包括以下阶段：样本获取、肠道菌群数据预处理、多样性分析、(时序序列)聚类分析，关联分析、菌落互作网络构建、单一菌种变化趋势(序列)预测。用户根据流程文件要求输入文件及相应的参数，系统将自动化分析数据，输出相应的文件及可视化结果。让科研人员，包括不懂数据分析的科研人员能高效地完成一套标准化的基于时间序列肠道菌群数据分析流程，获得最终结果。从而达到提高科研工作效率，降低科研成本的目的。

实施例1

如图1所示，本发明提供一优选实施例，一种基于人肠道时间序列宏基因组数据的菌群互作关系检测方法，包括以下步骤：

本实施例以来源于某个体连续收集的4个时间点的肠道粪便作为样本进行说明：

步骤1)获取每个样本的肠道菌群信息及对应的人体基本信息。

其中，样本的肠道菌群信息是通过对粪便样本进行DNA提取，建库测序获得的肠道菌群序列信息。优选地，本实施例对测序得到的菌群序列信息，使用Biobakery分析流程进行质控和物种注释。质控过程包括过滤低质量序列，去除宿主污染序列，获得高质量的序列信息。接着将其比对到marker基因库进行物种注释及丰度计算，获得每个样本肠道菌群相对丰度信息。对应人体基本信息通过调查问卷或检测获得。

步骤2)肠道菌群信息预处理。

该步骤需要输入物种相对丰度表格和样本表型表格。流程会生成三个文件，一个为过滤后相对丰度表格，一个为样本表型表格，一个为归一化后相对丰度表格。本实施例使用属水平丰度信息进行分析。每个样本所有属水平相对丰度加和为100。优选地，本实施例默认删除仅在一个样本中出现的低出现率物种(出现频率少于等于0.3)，以及删除其相对丰度第90百分位数小于1的低丰度物种。过滤后再进行归一化处理。

本实施例执行脚本：

python.\Datacleaning.py-i.\Genus_tsdemo.txt-l.\metadata_tsdemo.txt-o.\dataclean\

步骤(3)多样性分析步骤。

该步骤需要输入相对丰度表格和样本表型表格，同时需要指定时间变量和分组变量。流程会输出shannon指数和simpson指数的误差折线图，以及二维和三维降维图。本实施例输入的是预处理后进行归一化的相对丰度表。输出结果为图2的Shannon指数误差折线图。优选地，还可以输出目标组别或样本的物种组成图，如图3。进一步进行beta多样性分析，使用基于braycurtis距离进行PCOA降维，绘制图4的不同时间降维图及图5的不同分组的降维图。

本实施例执行脚本：

python.\alphadiversity.py-i.\dataclean\relativeabundance_filter.txt-l.\dataclean\metadata.txt-o.\alphadiversity\-t Time-c Treatment

python.\betadiversity.py-i.\dataclean\relativeabundance_filter.txt-l.\dataclean\metadata.txt-o.\betadiversity\-t Time-c Treatment

步骤4)聚类分析步骤。

该步骤计算前需要对数据进行数据格式转换，将长格式转换成宽格式，即每行为一个物种，每列为一个时间。优选地，用户可以对数据进行标准化处理，以及删除低波动物种。接着再进行物种序列聚类。聚类分析输入需要聚类的相对丰度表格，流程会输出基于层次聚类，Kmeans+聚类和dbscan聚类的结果，并绘制聚类热图及聚类折线图。本实施例对相对丰度数据进行格式转换，并进行标准化，删除标准差等于0的序列。接着，筛选出个体为5002的四个样本的数据进行聚类分析。绘制如6所示基于欧式距离和基于DTW距离的时间序列聚类热图。根据Kmeans++聚类效果评估图和层次聚类热图的结果，确定最终聚类数为4类，最终绘制如图7所示的聚类折线图。

本实施例执行脚本：

python.\df2longdata.py-i.\dataclean\relativeabundance_filter.txt-l.\dataclean\metadata.txt-o.\longformat\-t Time-c Subject-s True-f0

python.\data_select.py-i.\longformat\df_long_relab.txt-o.\dataselect\--group_by'Subject'--group_by_value_list 5002--index True

python.\Cluster.py-i.\dataselect\data_selected.txt-o.\cluster\-n 4

步骤5)关联分析步骤。

该步骤使用广义估计方程模型和混合线性模型进行菌种与表型关联分析及绘制关联结果热图。输入文件为物种相对丰度表格和样本表型表格，同时需要选择分析所用的方法，以及对应的参数。流程会输出关联系数以及P值表，并绘制关联热图。热图方格颜色表示关联系数大小，‘*’号表示关联系数对应P值，P＜0.05。本实施例选择广义估计方程模型进行每个物种与时间和治疗处理的关联性。得到如图8所示的物种与表型关联热图。

本实施例执行脚本：

python.\corr_ts.py-i.\dataclean\relativeabundance_filter.txt-l.\dataclean\metadata.txt-o.\corr_ts\-c Treatment-m GEE-T Time--geecovTreatment+Time

步骤6)菌群互作网络构建步骤。

本步骤使用DTW+Pearson进行两两物种时间序列相似性分析，获得序列间相关系数(即相似系数，相似大小和相似方向)及对应P值。接着使用CORT分析序列平移的相关性，根据相关性大小确定序列平移时间。最终结合聚类结果和降维结果，绘制互作网络图。流程中需要输入聚类后包含类别和相对丰度的表格，输出一个互作关系网络信息表和互作网络图。本实施例中，优选地，筛选出相似且相关的菌种对，是根据Pearson检验P值和CORT关联系数进行筛选，一般情况下选择P值小于0.05，CORT相关系数大于0.7的菌种对。结合层次聚类和物种降维图，绘制互作网络，如图9。

本实施例执行脚本：

python.\Corr_network.py-i.\cluster\clustervis_hierarchy.txt-o.\corr_network\hierarchy\

步骤7)菌种变化趋势预测步骤。

该步骤需要时间序列时间点大于等于20个时间点。对该序列进行平稳性检验，若符合平稳性，进一步进行白噪声检验，否则需要进行差分处理，再进行平稳性检验，直到平稳为止，再对其进行白噪声检验。若不为白噪声，可进行ARIMA分析，根据BIC筛选出最佳模型，使用最佳模型对序列进行趋势预测，并绘制趋势变化图，添加趋势曲线及置信范围。本实施例选取一例采样时间点超过20例的样本中的一个物种丰度序列，经过一阶差分后，序列符合平稳性，且非白噪声序列。优选地，使用ARIMA模型进行拟合，根据BIC最小原则，选择最优模型，最终模型参数p为1，d为1，q为0时，模型BIC最小，为265.925。最后，使用该模型对序列后5个时间点进行预测，绘制出预测折线图，包含预测值及其置信范围，如图10。

本实施例执行脚本：

python.\ts_prediction.py-i.\ts_predict.txt-o.\ts_prediction\

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种多时间序列肠道菌群数据分析流程控制方法，其特征在于，包括以下步骤：

5)关联分析：分析肠道菌种与表型间的关联性，绘制关联结果热图；具体地，使用广义估计方程模型或混合线性模型进行肠道菌种与表型间关联分析及绘制关联结果热图；

2.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤1)中，时间点至少选取4个。

3.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤2)中，对步骤1)所得的肠道菌落数据进行归一化处理，每个样本所有种水平物种相对丰度加和为100％；低出现频次物种为在3％样品中出现，低丰度物种为所有样本相对丰度第90百分位数小于1的物种。

4.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤3)中，alpha多样性指标包括Shannon指数和Simpson指数，beta多样性是基于braycurtis距离进行主坐标分析降维，获得各样本的坐标信息；指定分组变量及时间变量后，绘制Shannon指数和Simpson指数误差折线图，各组物种组成图，以及嵌入核密度分布的二维散点图和三维散点图。

5.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤4)中，将肠道菌群相对丰度信息矩阵转成宽格式数据形式，即每行代表一个物种，每列为时间点，列按时间顺序排序；接着，对每个物种进行标准化处理：去除低波动物种，即标准差为0的物种，最终获得待分析候选菌种；然后使用欧式距离和动态时间规整计算两两序列间的距离，使用层次聚类进行序列聚类，绘制聚类热图；再分别使用层次聚类，Dbscan和Kmeans+方法进行聚类，绘制聚类折线图。

6.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤5)中，当选用广义估计方程模型时，指定工作矩阵；当选用混合线性模型时，指定固定效应及随机效应变量；若需要调整基线水平，将基线水平作为协变量进行模型分析；分析后对结果进行可视化，绘制关联热图，热图方格颜色表示关联系数大小，‘*’号表示关联系数对应的Pearson检验P值，P＜0.05。

7.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤6)中，选取2个菌种时间序列，使用动态时间规整分析两个菌种序列间的距离及路径；根据路径对两个序列进行伸缩，填补丰度信息，获得伸缩后的新序列；接着使用Pearson检验对新序列进行关联分析，获得两新序列的关联系数及对应P值；分别以两个序列中之一为参照，另一个序列平移，计算不同参照不同平移时间的关联系数，选择最大值为其关联系数；筛选出相似且相关的菌种对，是根据Pearson检验P值和CORT关联系数进行筛选，选择P值小于0.05，CORT相关系数大于0.7的菌种对；绘制菌群降维后PCOA图；接着，根据聚类结果和菌群互作关系，在PCOA图中添加类别标识及互作关系。

8.如权利要求7所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤6)中，平移次数＝(平移序列时间长度-3)×2+1；平移序列保留3个原始时间点；序列不进行平移，即原始位置为0，向左平移取负值，向右平移，取正值；关联系数为相似系数、相似大小和相似方向；关联系数最大值对应平移时间即两序列的平移时间。

9.如权利要求7所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤6)中，在PCOA图中两两间互作关系直线大小表示相关程度，不同直线类型表示关联正负方向，带箭头的直线表示两者前后关系；若无平移，则用无箭头直线表示。

10.如权利要求1所述的多时间序列肠道菌群数据分析流程控制方法，其特征在于，步骤7)中，选取至少20个时间点作为时间序列时间点；对时间序列进行平稳性检验，若符合平稳性，进一步进行白噪声检验，否则需要进行差分处理，再进行平稳性检验，直到平稳为止，再对其进行白噪声检验；若不为白噪声，可进行差分整合移动平均自回归模型分析，根据贝叶斯信息准则筛选出最佳模型，使用最佳模型对序列进行趋势预测，并绘制趋势变化图，添加趋势曲线及置信范围。