CN112133368B

CN112133368B - 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Info

Publication number: CN112133368B
Application number: CN202011090802.8A
Authority: CN
Inventors: 刘健; 田妹; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2024-02-23
Anticipated expiration: 2040-10-13
Also published as: CN112133368A

Abstract

本发明公开了一种基于三代测序技术的宏基因组测序数据自动化分析方法，包括以下步骤：1）原始三代测序数据进行质量控制，得到clean reads；2）对clean reads拼接组装得到contigs序列；3）对contigs进行纠错优化；4）对优化后的contigs进行物种注释；5）基于物种丰度矩阵对样本多样性进行统计分析；6）基于物种丰度矩阵对样本组间差异显著物种进行统计分析；7）对优化后的contigs进行分箱；8）对分箱得到的bins进行基因注释；9）基于基因丰度矩阵对样本组间差异显著基因进行统计分析；10）基于基因注释结果，完成功能注释以及物种注释；本发明提供了从三代宏基因组测序数据处理到物种组成分析、基因组成分析与功能注释的分析方法，解决了宏基因组数据自动化精准分析难题。

Description

一种基于三代测序技术的宏基因组测序数据的自动化分析方法

技术领域

本发明一般有关三代测序技术领域，具体为一种基于三代测序技术的宏基因组测序数据的自动化分析方法。

背景技术

基于基因组序列的生物信息学已经应用在生物界的方方面面，从动物、植物再到微生物，人们投入大量资金组织实施着各种基因组计划。测序技术也因此不断更新发展，虽然二代测序在当下使用的更为频繁普遍，但由于其读长太短的特点，使得最终得到的基因组序列缺失大量片段，基因组信息不完整，对于后续的分析造成了很大的困扰。以PacBio公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为代表的新一代测序技术被称为第三代测序技术，与前两代测序技术相比，其最大的特点就是单分子测序，测序过程无需进行PCR扩增，并且理论上可以测定无限长度的核酸序列。相比于二代测序技术200-500bp的测序读长，三代测序技术的读长可达几十kb，甚至100kb，并且三代测序技术的速度也远远快于二代测序技术。

宏基因组是基因组学一个新兴的科学研究方向，宏基因组学的研究对象是整个微生物群落，宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外，微生物通常是以群落方式共生与某一环境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此宏基因组学相比于做单个个体的研究更能发现其特性。

虽然三代测序技术解决了二代测序技术读长短的问题，但其错误率较高，并且有关三代测序技术的分析工具也较少。在宏基因组领域，虽然已经发明了一些基于三代测序技术的分析工具，但是一个相对完善的分析流程还未被设计与开发。

发明内容

本发明的目的在于提供一种基于三代测序技术的宏基因组测序数据的自动化分析方法，以解决上述背景技术中提出的需求。

为实现上述目的，本发明提供如下技术方案：一种基于三代测序技术的宏基因组测序数据的自动化分析方法,包括以下步骤：

1）对原始测序数据进行质量控制得到clean reads；

2）对经过质量控制的clean reads进行拼接组装得到contigs序列；

3）对拼接组装得到的contigs序列进行纠错优化；

4）对经过纠错优化的contigs进行物种注释；

5）基于物种丰度矩阵对样本多样性进行统计分析；

6）基于物种丰度矩阵对样本组间差异显著物种进行统计分析；

7）对经过纠错优化的contigs进行分箱；

8）对分箱得到的bins进行基因注释；

9）基于基因丰度矩阵对样本组间差异显著基因进行统计分析；

10）基于基因注释的结果，对序列进行功能注释以及物种注释。

优选的，所述步骤1）具体过程如下：

a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选，通过设置阈值的方式过滤掉超出阈值范围的序列；

b、对上述经过质量过滤的序列，以环境中可能存在的污染源的序列作为参考序列，通过序列比对，对非微生物DNA进行过滤筛除，得到clean reads。

优选的，所述步骤2）具体过程如下：

a、对所有clean reads进行两两比对，找到片段间的重叠信息；

b、根据得到的重叠信息将存在的重叠片段建立一种组合关系，形成重叠群；

c、在重叠群众找一条最优的序列路径，并获得与路径对应的序列，从而得到最终的contigs。

优选的，所述步骤3）具体过程如下：

a、将clean reads与拼接组装产生的contigs进行比对对齐；

b、根据每个位点的一致性信息进行修正；

c、将上述步骤b得到的结果作为更新的contigs，进行多轮纠正。

优选的，所述步骤4）具体过程如下：

a、将经过纠错优化的contigs与基因组数据库进行比对；

b、根据比对结果对contigs进行物种注释，并统计各物种的丰度；

c、对物种丰度进行热图可视化；

d、基于物种丰度矩阵，可视化物种相对丰度柱状图；

e、将物种进化分支树进行可视化。

优选的，所述步骤5）具体过程如下：

a、根据各样本的物种丰度矩阵，对指定分类水平的群落组成结构进行CCA主成分分析，并且以二维和三维图像描述样本间的自然分布特征；

b、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行PcoA主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征；

c、根据各样本的物种丰度与群落物种的群落发育树，基于Unifrac距离计算样本间的距离矩阵，由加权及非加权距离矩阵分别进行NMDS主坐标分析，并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征；

d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。

优选的，所述步骤6）具体过程如下：

a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种；

b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较；

c、使用线性判别分析（LDA）对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化，并提供可视化结果。

优选的，所述步骤7）具体过程如下：

a、将clean reads比对到组装得到的contigs上，统计contigs的丰度，根据contigs的丰度及其GC含量进行分箱；

b、对上述步骤a分箱结果根据完成度与污染度进行过滤；

c、将上述步骤b的过滤进过进行重组装，得到最终分箱结果bins。

优选的，所述步骤8）具体过程如下：

a、基于动态规划算法对bins进行基因结构预测；

b、计算基因丰度矩阵。

优选的，所述步骤9）具体过程如下：

优选的，所述步骤10）具体过程如下：

a、对上述基因结构预测得到的编码基因序列进行去冗余；

b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对，对编码基因序列进行功能注释以及物种注释；

c、根据功能注释的结果，统计针对每个功能的丰度，并进行柱状图可视化。

与现有技术相比，本发明的有益效果是：解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求，为研究人员提供便利。

附图说明

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：本发明提供如下技术方案：一种基于三代测序技术的宏基因组分析的自动化分析方法,包括以下步骤：

1）对原始测序数据进行质量控制得到clean reads；

2）对经过质量控制的clean reads进行拼接组装得到contigs序列；

3）对拼接组装得到的contigs序列进行纠错优化；

4）对经过纠错优化的contigs进行物种注释；

5）基于物种丰度矩阵对样本多样性进行统计分析；

7）对经过纠错优化的contigs进行分箱；

8）对分箱得到的bins进行基因注释；

本发明中，所述步骤1）具体过程如下：

具体地可以使用NanoFilt软件进行过滤。

本发明中，所述步骤2）具体过程如下：

a、对所有clean reads进行两两比对，找到片段间的重叠信息；

具体地地可以使用Flye软件进行实现。

本发明中，所述步骤3）具体过程如下：

a、将clean reads与拼接组装产生的contigs进行比对对齐；

b、根据每个位点的一致性信息进行修正；

具体地可以使用medaka软件实现。

本发明中，所述步骤4）具体过程如下：

a、将经过纠错优化的contigs与基因组数据库进行比对；

c、对物种丰度进行热图可视化；

d、基于物种丰度矩阵，可视化物种相对丰度柱状图；

e、将物种进化分支树进行可视化。

具体地可以使用DIAMOND比对软件以及R语言实现可视化。

本发明中，所述步骤5）具体过程如下：

d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。

具体地，上述步骤可以使用R语言实现。

本发明中，所述步骤6）具体过程如下：

具体地上述步骤可以使用LEfSe软件实现。

本发明中，所述步骤7）具体过程如下：

b、对上述步骤a分箱结果根据完成度与污染度进行过滤；

具体地，上述步骤可以使用metaWrap软件实现。

本发明中，所述步骤8）具体过程如下：

a、基于动态规划算法对bins进行基因结构预测；

b、计算基因丰度矩阵。

具体地，可以使用metaProdigal软件实现。

本发明中，所述步骤9）具体过程如下：

具体地，上述步骤可以使用LEfSe软件实现。

本发明中，所述步骤10）具体过程如下：

a、对上述基因结构预测得到的编码基因序列进行去冗余；

具体地，可以使用minimap2软件进行比对，使用R语言进行可视化。

综上所述，本发明通过整合分析结果更为准确的分析方法以及较为全面的分析模块的方法，开发了基于三代测序的宏基因组测序数据的自动化分析方法，从而解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求，为研究人员提供便利。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，包括以下步骤：

1)对原始测序数据进行质量控制得到clean reads；

2)对经过质量控制的clean reads进行拼接组装得到consensus序列；

3)对拼接组装得到的consensus序列进行纠错优化；

4)对经过纠错优化的consensus进行物种注释；

5)基于物种丰度矩阵对样本多样性进行统计分析；

6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析；

7)对经过纠错优化的consensus进行分箱；

8)对分箱得到的bins进行基因注释；

9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析；

10)基于基因注释的结果，对序列进行功能注释以及物种注释。

2.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤1)具体过程如下：

b、对上述经过质量过滤的序列，以环境中可能存在的污染源的序列作为参考序列，通过长序列比对，对非微生物DNA进行过滤筛除，得到clean reads。

3.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤2)具体过程如下：

a、Overlap：对所有clean reads进行两两比对，找到片段间的重叠信息；

b、Layout：根据得到的重叠信息将存在的重叠片段建立一种组合关系，形成重叠群，即contig；

c、在重叠群中寻找一条最优的序列路径，并获得与路径对应的序列，即Consensus。

4.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤3)具体过程如下：

a、将clean reads与拼接组装产生的contigs进行比对对齐；

b、根据每个位点的一致性信息进行修正；

5.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤4)具体过程如下：

a、将经过纠错优化的contigs与基因组数据库进行比对；

c、对物种丰度进行热图可视化；

d、基于物种丰度矩阵，可视化物种相对丰度柱状图；

e、将物种进化分支树进行可视化。

6.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤5)具体过程如下：

d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。

7.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤6)具体过程如下：

a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种；

c、使用线性判别分析LDA对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化，并提供可视化结果。

8.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤7)具体过程如下：

b、对上述步骤a分箱结果根据完成度与污染度进行过滤；

c、将上述步骤b的过滤进行重组装，得到最终分箱结果bins。

9.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤8)具体过程如下：

a、基于动态规划算法对bins进行基因结构预测；

b、计算基因丰度矩阵。

10.根据权利要求9所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法，其特征在于，所述步骤9)具体过程如下：

c、使用线性判别分析LDA对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化，并提供可视化结果；

d、对上述基因结构预测得到的编码基因序列进行去冗余；

e、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对，对编码基因序列进行功能注释以及物种注释；

f、根据功能注释的结果，统计针对每个功能的丰度，并进行柱状图可视化。