CN112071366B

CN112071366B - 一种基于二代测序技术的宏基因组数据分析方法

Info

Publication number: CN112071366B
Application number: CN202011089931.5A
Authority: CN
Inventors: 刘健; 田妹; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2024-02-27
Anticipated expiration: 2040-10-13
Also published as: CN112071366A

Abstract

本发明公开了一种基于二代测序技术的宏基因组数据分析方法，包括以下步骤：1）对原始测序数据进行质量控制，得到clean reads；2）对质量控制后的clean reads进行物种注释；3）基于物种丰度矩阵对样本多样性进行统计分析；4）基于物种丰度矩阵对样本组间差异显著物种进行统计分析；5）对clean reads拼接组装得到contigs序列；6）对拼接组装得到的contigs分箱，得到bins；7）对分箱后的bins进行基因注释；8）基于基因丰度矩阵对样本组间差异显著基因进行统计分析；9）基于基因注释结果，对序列进行功能及物种注释；提供了从宏基因组二代测序数据处理到物种组成分析、基因组成分析与功能注释的全部流程，为研究人员提供准确的分析结果、全面解析宏基因组学问题。

Description

一种基于二代测序技术的宏基因组数据分析方法

技术领域

本发明一般有关二代测序技术领域，具体为一种基于二代测序技术的宏基因组数据分析方法。

背景技术

1977年，Frederick Sanger和Walter Gilbert发明了第一台测序仪，并应用其测定了第一个基因组序列，噬菌体X174，全长5375个碱基，由此开始，人类获得了探索生命遗传本质的能力，生命科学的研究进入了基因组学的时代。Sanger所发明的测序方法被称为第一代测序技术，该技术直到现在依然被广泛使用，但是其一次只能获得一条长度在700-1000bp的序列，通量太低，导致在很多情况下成本太高，无法满足现代科学发展对生物基因序列获取的迫切需求。高通量测序是对传统Sanger测序的革命性变革，其解决了一代测序技术一次只能测一条序列的限制，一次运行即可同时得到几十万到几百万条核酸分子的序列，因此被称为第二代测序技术。第二代测序技术虽然测序的通量大大增加，但是其获得单条序列长度太短，只有200-500bp，想要得到准确的基因序列信息，依赖于较高的测序覆盖度和准确的拼接技术。

宏基因组是基因组学一个新兴的科学研究方向，宏基因组学的研究对象是整个微生物群落，宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外，微生物通常是以群落方式共生与某一环境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此宏基因组学相比于做单个个体的研究更能发现其特性。

由于测序技术原理的有限性，二代测序原始序列通常有较短、可能存在污染等缺点，如何有效处理原始测序数据进而得到完整准确的基因组序列，以及如何将测序数据与生物学原理相联系是生物信息领域的一直关注也一直在尽力解决的问题。随着宏基因组学的发展，越来越多针对微生物测序数据的分析工具层出不穷，但能同时完成物种分析、功能分析以及多样性分析的工具并不多见，因此整合现有的这些工具，完成上述分析模块以及使分析尽量高效准确已经成为迫切需求。

发明内容

本发明的目的在于提供一种基于二代测序技术的宏基因组数据分析方法，以解决上述背景技术中提出的需求。

为实现上述目的，本发明提供如下技术方案：一种基于二代测序技术的宏基因组数据分析方法,包括以下步骤：

1）对原始测序数据进行质量控制，得到clean reads；

2）对经过质量控制的序列clean reads进行物种注释；

3）基于物种丰度矩阵对样本多样性进行统计分析；

4）基于物种丰度矩阵对样本组间差异显著物种进行统计分析；

5）对经过质量控制的clean reads进行拼接组装得到contigs序列；

6）对拼接组装得到的contigs进行分箱，得到bins；

7）对分箱得到的bins进行基因注释；

8）基于基因丰度矩阵对样本组间差异显著基因进行统计分析；

9）基于基因注释的结果，对序列进行功能注释以及物种注释。

优选的，所述步骤1）具体过程如下：

a、根据测序实验信息与碱基质量信息对原始测序数据进行过滤，去除接头序列与低质量碱基序列以及读长太短的测序序列；

b、对上述经过质量过滤的序列，以环境中可能存在的污染源的序列作为参考序列，通过序列比对，对非微生物DNA进行过滤筛除，得到clean reads。

优选的，所述步骤2）具体过程如下：

a、使用基于kmer的参考数据库比对算法进行物种注释并得出物种丰度；

b、对物种丰度进行热图可视化；

c、基于物种丰度矩阵，可视化物种相对丰度柱状图；

d、将物种进化分支树进行可视化。

优选的，所述步骤3）具体过程如下：

a、根据各样本的物种丰度矩阵，对指定分类水平的群落组成结构进行CA主成分分析，并且以二维和三维图像描述样本间的自然分布特征；

b、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行PcoA主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征；

c、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行NMDS主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征。

d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线;

优选的，所述步骤4）具体过程如下：

a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种；

b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较；

c、使用线性判别分析（LDA）对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化，并提供可视化结果。

优选的，所述步骤5）具体过程如下：

a、将clean reads打断成一定长度的kmer；

b、使用基于de Bruiju图的组装算法进行组装得到contigs。

优选的，所述步骤6）具体过程如下：

a、将clean reads比对到组装得到的contigs上，统计contigs的丰度，根据contigs的丰度及其GC含量进行分箱；

b、对上述步骤a分箱结果根据完成度与污染度进行过滤；

c、将上述步骤b的过滤进过进行重组装，得到最终分箱结果bins。

优选的，所述步骤7）具体过程如下：

a、基于动态规划算法对bins进行基因结构预测；

b、计算基因丰度矩阵。

优选的，所述步骤8）具体过程如下：

优选的，所述步骤9）具体过程如下：

a、对上述基因结构预测得到的编码基因序列进行去冗余；

b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对，对编码基因序列进行功能注释以及物种注释。

c、根据功能注释的结果，统计针对每个功能的丰度，并进行柱状图可视化。

与现有技术相比，本发明的有益效果是：分析流程更加合理、全面，分析结果也更加准确，解决了当前分析工具内容不全面的问题，为研究人员提供便利。

附图说明

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：本发明提供如下技术方案：一种基于二代测序技术的宏基因组数据分析方法,包括以下步骤：

1）对原始测序数据进行质量控制，得到clean reads；

2）对经过质量控制的序列clean reads进行物种注释；

3）基于物种丰度矩阵对样本多样性进行统计分析；

5）对经过质量控制的clean reads进行拼接组装得到contigs序列；

6）对拼接组装得到的contigs进行分箱，得到bins；

7）对分箱得到的bins进行基因注释；

本发明中，所述步骤1）具体过程如下：

具体地，使用fastqc首先对原始测序数据进行评估，根据评估结果使用KneadData软件进行过滤

本发明中，所述步骤2）具体过程如下：

a、使用基于kmer的参考数据库比对算法进行物种注释并得出物种丰度，具体的使用Metatheothello软件；

b、对物种丰度进行热图可视化，具体的使用R语言实现；

c、基于物种丰度矩阵，可视化物种相对丰度柱状图，具体的使用R语言实现；

d、将物种进化分支树进行可视化，具体的步骤4使用LEfSe软件会产生该可视化结果。

本发明中，所述步骤3）具体过程如下：

a、根据各样本的物种丰度矩阵，对指定分类水平的群落组成结构进行CA主成分分析，并且以二维和三维图像描述样本间的自然分布特征，具体使用R语言实现；

b、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行PcoA主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征，具体使用R语言实现；

c、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行NMDS主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征，具体使用R语言实现；

d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线，具体使用R语言实现。

本发明中，所述步骤4）具体过程如下：

具体地使用LEfSe软件完成上述分析过程。

本发明中，所述步骤5）具体过程如下：

a、将clean reads打断成一定长度的kmer；

b、使用基于de Bruiju图的组装算法进行组装得到contigs。

具体地，使用UDBA-UD软件实现上述分析过程。

本发明中，所述步骤6）具体过程如下：

b、对上述步骤a分箱结果根据完成度与污染度进行过滤；

具体地，使用MetaWrap软件实现上述分析过程。

本发明中，所述步骤7）具体过程如下：

a、基于动态规划算法对bins进行基因结构预测；

b、计算基因丰度矩阵。

具体地，使用MetaProdigal实现上述分析过程。

本发明中，所述步骤8）具体过程如下：

具体地，使用LEfSe软件实现上述分析过程。

本发明中，所述步骤9）具体过程如下：

a、对上述基因结构预测得到的编码基因序列进行去冗余；

具体地，使用DIAMOND软件进行比对注释，使用R语言进行可视化。

综上所述，本发明通过整合分析结果更为准确的分析方法较为全面的分析模块的方法，本发明开发基于二代测序的宏基因组数据分析方法，从而解决宏基因组同时整合物种分析、功能分析以及多样性分析的工具较少的问题，并且分析结果更为准确。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于二代测序技术的宏基因组数据分析方法，其特征在于，包括以下步骤：

1)对原始测序数据进行质量控制，得到cleanreads；

2)对经过质量控制的序列cleanreads进行物种注释；

3)基于物种丰度矩阵对样本多样性进行统计分析；

4)基于物种丰度矩阵对样本组间差异显著物种进行统计分析；

5)对经过质量控制的clean reads进行拼接组装得到contigs序列；

6)对拼接组装得到的contigs进行分箱，得到bins；

7)对分箱得到的bins进行基因注释；

8)基于基因丰度矩阵对样本组间差异显著基因进行统计分析；

9)基于基因注释的结果，对序列进行功能注释以及物种注释。

2.根据权利要求1所述的一种基于二代测序技术的宏基组数据分析方法，其特征在于：所述步骤1)具体过程如下：

3.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤2)具体过程如下：

b、对物种丰度进行热图可视化；

c、基于物种丰度矩阵，可视化物种相对丰度柱状图；

d、将物种进化分支树进行可视化。

4.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤3)具体过程如下：

a、根据各样本的物种丰度矩阵，对指定分类水平的群落组成结构进行CCA主成分分析，并且以二维和三维图像描述样本间的自然分布特征；

c、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行NMDS主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征；

d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。

5.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤4)具体过程如下：

a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种；

c、使用线性判别分析LDA对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化，并提供可视化结果。

6.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤5)具体过程如下：

a、将clean reads打断成一定长度的kmer；

b、使用基于de Bruiju图的组装算法进行组装得到contigs。

7.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤6)具体过程如下：

b、对上述步骤a分箱结果根据完成度与污染度进行过滤

c、将上述步骤b的过滤进行重组装，得到最终分箱结果bins。

8.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤7)具体过程如下：

a、基于动态规划算法对bins进行基因结构预测；

b、计算基因丰度矩阵。

9.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤8)具体过程如下：

10.根据权利要求8所述的一种基于二代测序技术的宏基因组数据分析方法，其特征在于，所述步骤9)具体过程如下：

a、对上述基因结构预测得到的编码基因序列进行去冗余；

b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对，对编码基因序列进行功能注释以及物种注释；