CN112133368B - 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 - Google Patents
一种基于三代测序技术的宏基因组测序数据的自动化分析方法 Download PDFInfo
- Publication number
- CN112133368B CN112133368B CN202011090802.8A CN202011090802A CN112133368B CN 112133368 B CN112133368 B CN 112133368B CN 202011090802 A CN202011090802 A CN 202011090802A CN 112133368 B CN112133368 B CN 112133368B
- Authority
- CN
- China
- Prior art keywords
- species
- abundance
- annotation
- carrying
- sequencing data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 238000005516 engineering process Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 36
- 238000007671 third-generation sequencing Methods 0.000 claims abstract description 20
- 238000012937 correction Methods 0.000 claims abstract description 16
- 238000007619 statistical method Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 238000003908 quality control method Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 19
- 230000000813 microbial effect Effects 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 7
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 6
- 230000018109 developmental process Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000033772 system development Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 5
- 102000004169 proteins and genes Human genes 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000001427 coherent effect Effects 0.000 claims 2
- 238000011156 evaluation Methods 0.000 claims 1
- 241000894007 species Species 0.000 description 52
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002906 microbiologic effect Effects 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 1
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于三代测序技术的宏基因组测序数据自动化分析方法,包括以下步骤:1)原始三代测序数据进行质量控制,得到clean reads;2)对clean reads拼接组装得到contigs序列;3)对contigs进行纠错优化;4)对优化后的contigs进行物种注释;5)基于物种丰度矩阵对样本多样性进行统计分析;6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;7)对优化后的contigs进行分箱;8)对分箱得到的bins进行基因注释;9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;10)基于基因注释结果,完成功能注释以及物种注释;本发明提供了从三代宏基因组测序数据处理到物种组成分析、基因组成分析与功能注释的分析方法,解决了宏基因组数据自动化精准分析难题。
Description
技术领域
本发明一般有关三代测序技术领域,具体为一种基于三代测序技术的宏基因组测序数据的自动化分析方法。
背景技术
基于基因组序列的生物信息学已经应用在生物界的方方面面,从动物、植物再到微生物,人们投入大量资金组织实施着各种基因组计划。测序技术也因此不断更新发展,虽然二代测序在当下使用的更为频繁普遍,但由于其读长太短的特点,使得最终得到的基因组序列缺失大量片段,基因组信息不完整,对于后续的分析造成了很大的困扰。以PacBio公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为代表的新一代测序技术被称为第三代测序技术,与前两代测序技术相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增,并且理论上可以测定无限长度的核酸序列。相比于二代测序技术200-500bp的测序读长,三代测序技术的读长可达几十kb,甚至100kb,并且三代测序技术的速度也远远快于二代测序技术。
宏基因组是基因组学一个新兴的科学研究方向,宏基因组学的研究对象是整个微生物群落,宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外,微生物通常是以群落方式共生与某一环境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此宏基因组学相比于做单个个体的研究更能发现其特性。
虽然三代测序技术解决了二代测序技术读长短的问题,但其错误率较高,并且有关三代测序技术的分析工具也较少。在宏基因组领域,虽然已经发明了一些基于三代测序技术的分析工具,但是一个相对完善的分析流程还未被设计与开发。
发明内容
本发明的目的在于提供一种基于三代测序技术的宏基因组测序数据的自动化分析方法,以解决上述背景技术中提出的需求。
为实现上述目的,本发明提供如下技术方案:一种基于三代测序技术的宏基因组测序数据的自动化分析方法,包括以下步骤:
1)对原始测序数据进行质量控制得到clean reads;
2)对经过质量控制的clean reads进行拼接组装得到contigs序列;
3)对拼接组装得到的contigs序列进行纠错优化;
4)对经过纠错优化的contigs进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的contigs进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。
优选的,所述步骤1)具体过程如下:
a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到clean reads。
优选的,所述步骤2)具体过程如下:
a、对所有clean reads进行两两比对,找到片段间的重叠信息;
b、根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群;
c、在重叠群众找一条最优的序列路径,并获得与路径对应的序列,从而得到最终的contigs。
优选的,所述步骤3)具体过程如下:
a、将clean reads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
优选的,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的 丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
优选的,所述步骤5)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。
优选的,所述步骤6)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
优选的,所述步骤7)具体过程如下:
a、将clean reads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;
b、对上述步骤a分箱结果根据完成度与污染度进行过滤;
c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。
优选的,所述步骤8)具体过程如下:
a、基于动态规划算法对bins进行基因结构预测;
b、计算基因丰度矩阵。
优选的,所述步骤9)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
优选的,所述步骤10)具体过程如下:
a、对上述基因结构预测得到的编码基因序列进行去冗余;
b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;
c、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。
与现有技术相比,本发明的有益效果是:解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求,为研究人员提供便利。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:本发明提供如下技术方案:一种基于三代测序技术的宏基因组分析的自动化分析方法,包括以下步骤:
1)对原始测序数据进行质量控制得到clean reads;
2)对经过质量控制的clean reads进行拼接组装得到contigs序列;
3)对拼接组装得到的contigs序列进行纠错优化;
4)对经过纠错优化的contigs进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的contigs进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。
本发明中,所述步骤1)具体过程如下:
a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到clean reads。
具体地可以使用NanoFilt软件进行过滤。
本发明中,所述步骤2)具体过程如下:
a、对所有clean reads进行两两比对,找到片段间的重叠信息;
b、根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群;
c、在重叠群众找一条最优的序列路径,并获得与路径对应的序列,从而得到最终的contigs。
具体地地可以使用Flye软件进行实现。
本发明中,所述步骤3)具体过程如下:
a、将clean reads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
具体地可以使用medaka软件实现。
本发明中,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
具体地可以使用DIAMOND比对软件以及R语言实现可视化。
本发明中,所述步骤5)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。
具体地,上述步骤可以使用R语言实现。
本发明中,所述步骤6)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
具体地上述步骤可以使用LEfSe软件实现。
本发明中,所述步骤7)具体过程如下:
a、将clean reads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;
b、对上述步骤a分箱结果根据完成度与污染度进行过滤;
c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。
具体地,上述步骤可以使用metaWrap软件实现。
本发明中,所述步骤8)具体过程如下:
a、基于动态规划算法对bins进行基因结构预测;
b、计算基因丰度矩阵。
具体地,可以使用metaProdigal软件实现。
本发明中,所述步骤9)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
具体地,上述步骤可以使用LEfSe软件实现。
本发明中,所述步骤10)具体过程如下:
a、对上述基因结构预测得到的编码基因序列进行去冗余;
b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;
c、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。
具体地,可以使用minimap2软件进行比对,使用R语言进行可视化。
综上所述,本发明通过整合分析结果更为准确的分析方法以及较为全面的分析模块的方法,开发了基于三代测序的宏基因组测序数据的自动化分析方法,从而解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求,为研究人员提供便利。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,包括以下步骤:
1)对原始测序数据进行质量控制得到clean reads;
2)对经过质量控制的clean reads进行拼接组装得到consensus序列;
3)对拼接组装得到的consensus序列进行纠错优化;
4)对经过纠错优化的consensus进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的consensus进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。
2.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤1)具体过程如下:
a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过长序列比对,对非微生物DNA进行过滤筛除,得到clean reads。
3.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤2)具体过程如下:
a、Overlap:对所有clean reads进行两两比对,找到片段间的重叠信息;
b、Layout:根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群,即contig;
c、在重叠群中寻找一条最优的序列路径,并获得与路径对应的序列,即Consensus。
4.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤3)具体过程如下:
a、将clean reads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
5.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
6.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤5)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。
7.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤6)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析LDA对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
8.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤7)具体过程如下:
a、将clean reads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;
b、对上述步骤a分箱结果根据完成度与污染度进行过滤;
c、将上述步骤b的过滤进行重组装,得到最终分箱结果bins。
9.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤8)具体过程如下:
a、基于动态规划算法对bins进行基因结构预测;
b、计算基因丰度矩阵。
10.根据权利要求9所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤9)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析LDA对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果;
d、对上述基因结构预测得到的编码基因序列进行去冗余;
e、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;
f、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011090802.8A CN112133368B (zh) | 2020-10-13 | 2020-10-13 | 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011090802.8A CN112133368B (zh) | 2020-10-13 | 2020-10-13 | 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112133368A CN112133368A (zh) | 2020-12-25 |
CN112133368B true CN112133368B (zh) | 2024-02-23 |
Family
ID=73852867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011090802.8A Active CN112133368B (zh) | 2020-10-13 | 2020-10-13 | 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112133368B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035277A (zh) * | 2021-03-12 | 2021-06-25 | 南开大学 | 真菌基因组测序数据自动分析方法及系统 |
CN112863603A (zh) * | 2021-03-12 | 2021-05-28 | 南开大学 | 细菌全基因组测序数据的自动化分析方法及系统 |
CN113035269B (zh) * | 2021-04-16 | 2022-11-01 | 北京计算科学研究中心 | 基于高通量测序技术的基因组代谢模型构建、优化及可视化的方法 |
CN113122642A (zh) * | 2021-04-16 | 2021-07-16 | 中国农业科学院兰州畜牧与兽药研究所 | 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法 |
CN113005189A (zh) * | 2021-04-16 | 2021-06-22 | 中国农业科学院兰州畜牧与兽药研究所 | 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 |
CN113257348A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 一种宏转录组测序数据处理方法及系统 |
CN113793647A (zh) * | 2021-09-17 | 2021-12-14 | 艾德范思(北京)医学检验实验室有限公司 | 一种基于二代测序宏基因组数据分析装置及方法 |
CN114300055B (zh) * | 2021-12-28 | 2023-04-25 | 江苏先声医学诊断有限公司 | 优化的宏基因组纳米孔测序数据定量方法 |
CN114937472A (zh) * | 2022-03-03 | 2022-08-23 | 上海市食品药品检验研究院 | 一种基于扩增子测序的微生物群落多样性分析方法及其系统 |
CN114937475A (zh) * | 2022-04-12 | 2022-08-23 | 桂林电子科技大学 | 一种PacBio测序数据纠错结果的自动化评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577919A (zh) * | 2017-08-21 | 2018-01-12 | 上海派森诺生物科技股份有限公司 | 一种基于高通量测序技术的宏基因组数据分析方法 |
US10528875B1 (en) * | 2015-04-06 | 2020-01-07 | EMC IP Holding Company LLC | Methods and apparatus implementing data model for disease monitoring, characterization and investigation |
CN110838341A (zh) * | 2019-11-05 | 2020-02-25 | 广州基迪奥生物科技有限公司 | 一种ATAC-seq测序数据的生物信息分析方法 |
CN111192630A (zh) * | 2019-12-24 | 2020-05-22 | 中国科学院生态环境研究中心 | 一种宏基因组数据挖掘方法 |
CN111564181A (zh) * | 2020-04-02 | 2020-08-21 | 北京百迈客生物科技有限公司 | 一种基于二代和三代ont技术进行宏基因组组装方法 |
-
2020
- 2020-10-13 CN CN202011090802.8A patent/CN112133368B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10528875B1 (en) * | 2015-04-06 | 2020-01-07 | EMC IP Holding Company LLC | Methods and apparatus implementing data model for disease monitoring, characterization and investigation |
CN107577919A (zh) * | 2017-08-21 | 2018-01-12 | 上海派森诺生物科技股份有限公司 | 一种基于高通量测序技术的宏基因组数据分析方法 |
CN110838341A (zh) * | 2019-11-05 | 2020-02-25 | 广州基迪奥生物科技有限公司 | 一种ATAC-seq测序数据的生物信息分析方法 |
CN111192630A (zh) * | 2019-12-24 | 2020-05-22 | 中国科学院生态环境研究中心 | 一种宏基因组数据挖掘方法 |
CN111564181A (zh) * | 2020-04-02 | 2020-08-21 | 北京百迈客生物科技有限公司 | 一种基于二代和三代ont技术进行宏基因组组装方法 |
Non-Patent Citations (1)
Title |
---|
宏基因组样本数据的分析比较与分类;程福东;丁啸;李晟;孙啸;生物技术通报;第32卷(第5期);1-10 * |
Also Published As
Publication number | Publication date |
---|---|
CN112133368A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112133368B (zh) | 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 | |
CN112071366B (zh) | 一种基于二代测序技术的宏基因组数据分析方法 | |
Sereika et al. | Oxford Nanopore R10. 4 long-read sequencing enables the generation of near-finished bacterial genomes from pure cultures and metagenomes without short-read or reference polishing | |
Mikheenko et al. | MetaQUAST: evaluation of metagenome assemblies | |
Marx | A dream of single-cell proteomics | |
Tang et al. | ANPELA: analysis and performance assessment of the label-free quantification workflow for metaproteomic studies | |
Ge et al. | Correlation between transcriptome and interactome mapping data from Saccharomyces cerevisiae | |
Buzzard et al. | Continental scale structuring of forest and soil diversity via functional traits | |
Alneberg et al. | Ecosystem-wide metagenomic binning enables prediction of ecological niches from genomes | |
de Vienne et al. | Phylo-MCOA: a fast and efficient method to detect outlier genes and species in phylogenomics using multiple co-inertia analysis | |
Lee et al. | Environmental adaptation contributes to gene polymorphism across the Arabidopsis thaliana genome | |
Hahn et al. | A three-sample test for introgression | |
CN107292123A (zh) | 一种基于高通量测序的微生物群落组成的方法和装置 | |
Saheb Kashaf et al. | Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data | |
Weilguny et al. | Dynamic, adaptive sampling during nanopore sequencing using Bayesian experimental design | |
CN105740650A (zh) | 一种快速准确鉴定高通量基因组数据污染源的方法 | |
CN112669899B (zh) | 一种16s和宏基因组测序数据关联分析方法、系统及设备 | |
CN110706750B (zh) | 一种动态交互式微生物组学在线分析云平台及其生成方法 | |
Cartwright et al. | Reconstructing spatiotemporal gene expression data from partial observations | |
Blanco et al. | Productive visualization of high-throughput sequencing data using the SeqCode open portable platform | |
Yang et al. | CyanOmics: an integrated database of omics for the model cyanobacterium Synechococcus sp. PCC 7002 | |
Mattock et al. | A comparison of single-coverage and multi-coverage metagenomic binning reveals extensive hidden contamination | |
Batut et al. | Hands-on: Hands-on: Reference-based RNA-Seq data analysis | |
CN109582292B (zh) | 一种基于基因组学以及生物信息学的在线交互云平台 | |
Razban et al. | ProteomeVis: a web app for exploration of protein properties from structure to sequence evolution across organisms’ proteomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |