CN112133368A - 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 - Google Patents

一种基于三代测序技术的宏基因组测序数据的自动化分析方法 Download PDF

Info

Publication number
CN112133368A
CN112133368A CN202011090802.8A CN202011090802A CN112133368A CN 112133368 A CN112133368 A CN 112133368A CN 202011090802 A CN202011090802 A CN 202011090802A CN 112133368 A CN112133368 A CN 112133368A
Authority
CN
China
Prior art keywords
species
abundance
contigs
annotation
sequencing data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011090802.8A
Other languages
English (en)
Other versions
CN112133368B (zh
Inventor
刘健
田妹
陈娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202011090802.8A priority Critical patent/CN112133368B/zh
Publication of CN112133368A publication Critical patent/CN112133368A/zh
Application granted granted Critical
Publication of CN112133368B publication Critical patent/CN112133368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于三代测序技术的宏基因组测序数据自动化分析方法,包括以下步骤:1)原始三代测序数据进行质量控制,得到clean reads;2)对clean reads拼接组装得到contigs序列;3)对contigs进行纠错优化;4)对优化后的contigs进行物种注释;5)基于物种丰度矩阵对样本多样性进行统计分析;6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;7)对优化后的contigs进行分箱;8)对分箱得到的bins进行基因注释;9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;10)基于基因注释结果,完成功能注释以及物种注释;本发明提供了从三代宏基因组测序数据处理到物种组成分析、基因组成分析与功能注释的分析方法,解决了宏基因组数据自动化精准分析难题。

Description

一种基于三代测序技术的宏基因组测序数据的自动化分析 方法
技术领域
本发明一般有关三代测序技术领域,具体为一种基于三代测序技术的宏基因组测序数据的自动化分析方法。
背景技术
基于基因组序列的生物信息学已经应用在生物界的方方面面,从动物、植物再到微生物,人们投入大量资金组织实施着各种基因组计划。测序技术也因此不断更新发展,虽然二代测序在当下使用的更为频繁普遍,但由于其读长太短的特点,使得最终得到的基因组序列缺失大量片段,基因组信息不完整,对于后续的分析造成了很大的困扰。以PacBio公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为代表的新一代测序技术被称为第三代测序技术,与前两代测序技术相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增,并且理论上可以测定无限长度的核酸序列。相比于二代测序技术200-500bp的测序读长,三代测序技术的读长可达几十kb,甚至100kb,并且三代测序技术的速度也远远快于二代测序技术。
宏基因组是基因组学一个新兴的科学研究方向,宏基因组学的研究对象是整个微生物群落,宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外,微生物通常是以群落方式共生与某一环境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此宏基因组学相比于做单个个体的研究更能发现其特性。
虽然三代测序技术解决了二代测序技术读长短的问题,但其错误率较高,并且有关三代测序技术的分析工具也较少。在宏基因组领域,虽然已经发明了一些基于三代测序技术的分析工具,但是一个相对完善的分析流程还未被设计与开发。
发明内容
本发明的目的在于提供一种基于三代测序技术的宏基因组测序数据的自动化分析方法,以解决上述背景技术中提出的需求。
为实现上述目的,本发明提供如下技术方案:一种基于三代测序技术的宏基因组测序数据的自动化分析方法,包括以下步骤:
1)对原始测序数据进行质量控制得到clean reads;
2)对经过质量控制的clean reads进行拼接组装得到contigs序列;
3)对拼接组装得到的contigs序列进行纠错优化;
4)对经过纠错优化的contigs进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的contigs进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。
优选的,所述步骤1)具体过程如下:
a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到clean reads。
优选的,所述步骤2)具体过程如下:
a、对所有clean reads进行两两比对,找到片段间的重叠信息;
b、根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群;
c、在重叠群众找一条最优的序列路径,并获得与路径对应的序列,从而得到最终的contigs。
优选的,所述步骤3)具体过程如下:
a、将clean reads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
优选的,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的 丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
优选的,所述步骤5)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。
优选的,所述步骤6)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
优选的,所述步骤7)具体过程如下:
a、将clean reads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;
b、对上述步骤a分箱结果根据完成度与污染度进行过滤;
c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。
优选的,所述步骤8)具体过程如下:
a、基于动态规划算法对bins进行基因结构预测;
b、计算基因丰度矩阵。
优选的,所述步骤9)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
优选的,所述步骤10)具体过程如下:
a、对上述基因结构预测得到的编码基因序列进行去冗余;
b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;
c、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。
与现有技术相比,本发明的有益效果是:解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求,为研究人员提供便利。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:本发明提供如下技术方案:一种基于三代测序技术的宏基因组分析的自动化分析方法,包括以下步骤:
1)对原始测序数据进行质量控制得到clean reads;
2)对经过质量控制的clean reads进行拼接组装得到contigs序列;
3)对拼接组装得到的contigs序列进行纠错优化;
4)对经过纠错优化的contigs进行物种注释;
5)基于物种丰度矩阵对样本多样性进行统计分析;
6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7)对经过纠错优化的contigs进行分箱;
8)对分箱得到的bins进行基因注释;
9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10)基于基因注释的结果,对序列进行功能注释以及物种注释。
本发明中,所述步骤1)具体过程如下:
a、根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到clean reads。
具体地可以使用NanoFilt软件进行过滤。
本发明中,所述步骤2)具体过程如下:
a、对所有clean reads进行两两比对,找到片段间的重叠信息;
b、根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群;
c、在重叠群众找一条最优的序列路径,并获得与路径对应的序列,从而得到最终的contigs。
具体地地可以使用Flye软件进行实现。
本发明中,所述步骤3)具体过程如下:
a、将clean reads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
具体地可以使用medaka软件实现。
本发明中,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
具体地可以使用DIAMOND比对软件以及R语言实现可视化。
本发明中,所述步骤5)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。
具体地,上述步骤可以使用R语言实现。
本发明中,所述步骤6)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
具体地上述步骤可以使用LEfSe软件实现。
本发明中,所述步骤7)具体过程如下:
a、将clean reads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;
b、对上述步骤a分箱结果根据完成度与污染度进行过滤;
c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。
具体地,上述步骤可以使用metaWrap软件实现。
本发明中,所述步骤8)具体过程如下:
a、基于动态规划算法对bins进行基因结构预测;
b、计算基因丰度矩阵。
具体地,可以使用metaProdigal软件实现。
本发明中,所述步骤9)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
具体地,上述步骤可以使用LEfSe软件实现。
本发明中,所述步骤10)具体过程如下:
a、对上述基因结构预测得到的编码基因序列进行去冗余;
b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;
c、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。
具体地,可以使用minimap2软件进行比对,使用R语言进行可视化。
综上所述,本发明通过整合分析结果更为准确的分析方法以及较为全面的分析模块的方法,开发了基于三代测序的宏基因组测序数据的自动化分析方法,从而解决了当前宏基因组领域对于基于三代测序技术的自动化分析流程的需求,为研究人员提供便利。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,包括以下步骤:
1) 对原始测序数据进行质量控制得到clean reads;
2) 对经过质量控制的clean reads进行拼接组装得到consensus序列;
3) 对拼接组装得到的consensus序列进行纠错优化;
4) 对经过纠错优化的consensus进行物种注释;
5) 基于物种丰度矩阵对样本多样性进行统计分析;
6) 基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
7) 对经过纠错优化的consensus进行分箱;
8) 对分箱得到的bins进行基因注释;
9) 基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
10) 基于基因注释的结果,对序列进行功能注释以及物种注释。
2.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤1)具体过程如下:
a. 根据测序实验信息、序列长度、碱基质量以及序列的GC百分比对原始测序数据进行过滤筛选,通过设置阈值的方式过滤掉超出阈值范围的序列;
b. 对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过长序列比对,对非微生物DNA进行过滤筛除,得到clean reads。
3.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤2)具体过程如下:
a、Overlap:对所有clean reads进行两两比对,找到片段间的重叠信息;
b、Layout:根据得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群,即contig;
c、在重叠群中寻找一条最优的序列路径,并获得与路径对应的序列,即Consensus。
4.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤3)具体过程如下:
a、将clean reads与拼接组装产生的contigs进行比对对齐;
b、根据每个位点的一致性信息进行修正;
c、将上述步骤b得到的结果作为更新的contigs,进行多轮纠正。
5.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤4)具体过程如下:
a、将经过纠错优化的contigs与基因组数据库进行比对;
b、根据比对结果对contigs进行物种注释,并统计各物种的丰度;
c、对物种丰度进行热图可视化;
d、基于物种丰度矩阵,可视化物种相对丰度柱状图;
e、将物种进化分支树进行可视化。
6.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤5)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线。
7.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤6)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。
8.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤7)具体过程如下:
a、将clean reads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;
b、对上述步骤a分箱结果根据完成度与污染度进行过滤;
c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。
9.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤8)具体过程如下:
a、基于动态规划算法对bins进行基因结构预测;
b、计算基因丰度矩阵。
10.根据权利要求1所述的一种基于三代测序技术的宏基因组测序数据的自动化分析方法,其特征在于,所述步骤9)具体过程如下:
a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;
b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;
c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果;
d、对上述基因结构预测得到的编码基因序列进行去冗余;
e、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释;
f、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。
CN202011090802.8A 2020-10-13 2020-10-13 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 Active CN112133368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011090802.8A CN112133368B (zh) 2020-10-13 2020-10-13 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011090802.8A CN112133368B (zh) 2020-10-13 2020-10-13 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Publications (2)

Publication Number Publication Date
CN112133368A true CN112133368A (zh) 2020-12-25
CN112133368B CN112133368B (zh) 2024-02-23

Family

ID=73852867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011090802.8A Active CN112133368B (zh) 2020-10-13 2020-10-13 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Country Status (1)

Country Link
CN (1) CN112133368B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863603A (zh) * 2021-03-12 2021-05-28 南开大学 细菌全基因组测序数据的自动化分析方法及系统
CN113005189A (zh) * 2021-04-16 2021-06-22 中国农业科学院兰州畜牧与兽药研究所 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN113035277A (zh) * 2021-03-12 2021-06-25 南开大学 真菌基因组测序数据自动分析方法及系统
CN113035269A (zh) * 2021-04-16 2021-06-25 北京计算科学研究中心 基于高通量测序技术的基因组代谢模型构建、优化及可视化的方法
CN113122642A (zh) * 2021-04-16 2021-07-16 中国农业科学院兰州畜牧与兽药研究所 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
CN113257348A (zh) * 2021-05-26 2021-08-13 南开大学 一种宏转录组测序数据处理方法及系统
CN113793647A (zh) * 2021-09-17 2021-12-14 艾德范思(北京)医学检验实验室有限公司 一种基于二代测序宏基因组数据分析装置及方法
CN114300055A (zh) * 2021-12-28 2022-04-08 江苏先声医学诊断有限公司 优化的宏基因组纳米孔测序数据定量方法
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577919A (zh) * 2017-08-21 2018-01-12 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的宏基因组数据分析方法
US10528875B1 (en) * 2015-04-06 2020-01-07 EMC IP Holding Company LLC Methods and apparatus implementing data model for disease monitoring, characterization and investigation
CN110838341A (zh) * 2019-11-05 2020-02-25 广州基迪奥生物科技有限公司 一种ATAC-seq测序数据的生物信息分析方法
CN111192630A (zh) * 2019-12-24 2020-05-22 中国科学院生态环境研究中心 一种宏基因组数据挖掘方法
CN111564181A (zh) * 2020-04-02 2020-08-21 北京百迈客生物科技有限公司 一种基于二代和三代ont技术进行宏基因组组装方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528875B1 (en) * 2015-04-06 2020-01-07 EMC IP Holding Company LLC Methods and apparatus implementing data model for disease monitoring, characterization and investigation
CN107577919A (zh) * 2017-08-21 2018-01-12 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的宏基因组数据分析方法
CN110838341A (zh) * 2019-11-05 2020-02-25 广州基迪奥生物科技有限公司 一种ATAC-seq测序数据的生物信息分析方法
CN111192630A (zh) * 2019-12-24 2020-05-22 中国科学院生态环境研究中心 一种宏基因组数据挖掘方法
CN111564181A (zh) * 2020-04-02 2020-08-21 北京百迈客生物科技有限公司 一种基于二代和三代ont技术进行宏基因组组装方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程福东;丁啸;李晟;孙啸: "宏基因组样本数据的分析比较与分类", 生物技术通报, vol. 32, no. 5, pages 1 - 10 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863603A (zh) * 2021-03-12 2021-05-28 南开大学 细菌全基因组测序数据的自动化分析方法及系统
CN113035277A (zh) * 2021-03-12 2021-06-25 南开大学 真菌基因组测序数据自动分析方法及系统
CN113005189A (zh) * 2021-04-16 2021-06-22 中国农业科学院兰州畜牧与兽药研究所 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN113035269A (zh) * 2021-04-16 2021-06-25 北京计算科学研究中心 基于高通量测序技术的基因组代谢模型构建、优化及可视化的方法
CN113122642A (zh) * 2021-04-16 2021-07-16 中国农业科学院兰州畜牧与兽药研究所 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
CN113257348A (zh) * 2021-05-26 2021-08-13 南开大学 一种宏转录组测序数据处理方法及系统
CN113793647A (zh) * 2021-09-17 2021-12-14 艾德范思(北京)医学检验实验室有限公司 一种基于二代测序宏基因组数据分析装置及方法
CN114300055A (zh) * 2021-12-28 2022-04-08 江苏先声医学诊断有限公司 优化的宏基因组纳米孔测序数据定量方法
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

Also Published As

Publication number Publication date
CN112133368B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN112133368B (zh) 一种基于三代测序技术的宏基因组测序数据的自动化分析方法
CN112071366B (zh) 一种基于二代测序技术的宏基因组数据分析方法
US11898206B2 (en) Systems and methods for clonotype screening
Mikheenko et al. MetaQUAST: evaluation of metagenome assemblies
de Vienne et al. Phylo-MCOA: a fast and efficient method to detect outlier genes and species in phylogenomics using multiple co-inertia analysis
Lee et al. Environmental adaptation contributes to gene polymorphism across the Arabidopsis thaliana genome
Saheb Kashaf et al. Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data
Wang hppRNA—a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples
JP6066924B2 (ja) Dna配列のデータ解析法
CN107292123A (zh) 一种基于高通量测序的微生物群落组成的方法和装置
CN105740650A (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN109559780A (zh) 一种高通量测序的rna数据处理方法
CN112669899B (zh) 一种16s和宏基因组测序数据关联分析方法、系统及设备
Blanco et al. Productive visualization of high-throughput sequencing data using the SeqCode open portable platform
Tremblay et al. High-resolution shotgun metagenomics: the more data, the better?
Tae et al. ReviSTER: an automated pipeline to revise misaligned reads to simple tandem repeats
Chen et al. Tree2GD: a phylogenomic method to detect large-scale gene duplication events
Hickl et al. binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets
JP5403563B2 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
CN112908413A (zh) 一种基于abo基因的血型分型方法
Albrecht et al. Single-cell specific and interpretable machine learning models for sparse scChIP-seq data imputation
Wright et al. “Serpentinomics”—An emerging new field of study
CN116312786B (zh) 一种基于多组比较的单细胞表达模式差异评估方法
Tekman et al. Hands-on: Hands-on: Pre-processing of Single-Cell RNA Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant