CN113611359B - 一种提高宏基因组纳米孔测序数据菌种组装效率的方法 - Google Patents

一种提高宏基因组纳米孔测序数据菌种组装效率的方法 Download PDF

Info

Publication number
CN113611359B
CN113611359B CN202110927474.0A CN202110927474A CN113611359B CN 113611359 B CN113611359 B CN 113611359B CN 202110927474 A CN202110927474 A CN 202110927474A CN 113611359 B CN113611359 B CN 113611359B
Authority
CN
China
Prior art keywords
sequence
clustering
dimension reduction
sequencing
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110927474.0A
Other languages
English (en)
Other versions
CN113611359A (zh
Inventor
李振中
陈莉
李珊
戴岩
李诗濛
任用
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xiansheng Medical Devices Co ltd
Nanjing Xiansheng Diagnostic Technology Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Original Assignee
Jiangsu Xiansheng Medical Devices Co ltd
Nanjing Xiansheng Diagnostic Technology Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Xiansheng Medical Devices Co ltd, Nanjing Xiansheng Diagnostic Technology Co ltd, Jiangsu Xiansheng Medical Diagnosis Co ltd filed Critical Jiangsu Xiansheng Medical Devices Co ltd
Priority to CN202110927474.0A priority Critical patent/CN113611359B/zh
Publication of CN113611359A publication Critical patent/CN113611359A/zh
Application granted granted Critical
Publication of CN113611359B publication Critical patent/CN113611359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Abstract

本发明提供一种通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法,所述方法通过k‑mer频率或频数统计,在组装前进行降维预分群,能够显著提高宏基因组组装效率,组装时间至少减少一半以上,同时保证生信鉴定的有效性和准确性。

Description

一种提高宏基因组纳米孔测序数据菌种组装效率的方法
技术领域
本发明涉及生信分析领域,具体涉及一种通过降维提高宏基因组纳米孔测序数据菌种组装效率的方法。
背景技术
宏基因组学(Metagenomics,又称元基因组学)是对微生物在其原始生活场所的基因组学研究。宏基因组学直接从环境样品中提取全部微生物的DNA或RNA,构建宏基因组文库并测序,系统分析该环境中微生物的遗传多样性和功能多样性,以探索分类学、功能和进化等领域。宏基因组学允许我们越过可培养性和分类学特性的限制,直接调查细菌,病毒和真菌等微生物群落的遗传组成。宏基因组学的分析内容主要包括微生物群落的物种组分与差异分析、功能组分与差异分析、以及环境因子与微生物组的关系等。
纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。这项技术开始于90年代,经历了三个主要的技术革新:一、单分子DNA从纳米孔通过;二、纳米孔上的酶对于测序分子在单核苷酸精度的控制;三、单核苷酸的测序精度控制。目前市场上广泛接受的纳米孔测序平台是Oxford Nanopore Technologies(以下简称ONT)公司的MinION和GridION纳米孔测序仪。它的特点是单分子测序,有测序读长长,文库制备方便,测序速度快,测序数据实时获取等特点。
基于纳米孔测序宏基因组学研究对象是整个生境中的总DNA,为了获取环境样品中完整基因组的信息,需要复原每个微生物的全长基因组序列,显然这是理想情况。但是利用宏基因组从头组装技术,即宏基因组reads首先组装成contigs,通过与参考基因组的序列比对,将分类或系统发育信息归于每个contig,得到微生物群落的物种组分,进而进行群落的差异分析,功能分析等。
目前纳米孔测序数据的组装分析流程如下:
1)在测序运行过程中,使用ONT MinKNOW软件收集原始测序数据;
2)使用ONT Albacore或ONT Guppy软件对原始数据进行碱基序列生成;
3)使用自编python脚本过滤掉长度小于500bp和平均测序质量值小于8的序列;
4)使用Consent软件,进行序列自矫正;
5)使用medaka软件进行序列polish;
6)使用Canu/meta-Flye软件进行菌种组装。
然而实践中测序reads数据量具大,组装运行时间长,reads利用率低。具体来说由于宏基因组测序针对的是复杂环境下的所有微生物序列,由于物种的多样性和近缘物种的高序列相似性,会给组装增加难度,进而增加组装运行时间。
有鉴于此,特提出本发明。
发明内容
本发明的目的是寻求提高宏基因组纳米孔测序数据菌种组装效率。为实现上述目的,本发明提供一种全新思路,在序列组装前通过降维聚类预分群的方式进行测序数据鉴定。
具体技术方案如下:
本发明首先提供一种通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法,其特征在于,包括如下步骤:
步骤1)序列生成:宏基因组测序下机数据生成fastq格式序列信息;
步骤2)样本拆分:根据文库标签序列进行样本拆分;
步骤3)序列质控:包括但不限于序列长度和/或质量的质控;
步骤4)k-mer频率或频数矩阵计算:基于序列进行进行k-mer频率或频数矩阵计算;
步骤5)降维聚类分群处理:基于频率或频数矩阵对所有测序序列进行降维聚类分群处理;
步骤6)序列组装:降维聚类后分群的每个cluster的序列分别组装。
进一步的,所述步骤2)样本拆分为:根据文库的标签序列(比如barcode)将序列拆分成属于不同样本的序列集合,同时还可包括去除接头序列。
进一步的,所述步骤3)序列质控为:统计序列的长度和质量值;
在一些实施方式中,比如对于纳米孔长读长数据,过滤掉长度小于500bp和平均测序质量值小于8的序列。
进一步的,所述步骤4)所述k=2~20000,优选的,所述k=5-75;更优选的,所述k=5,具体的:5-mer的序列种类数为4*4*4*4*4/2=512种,计算每种reads中512种mer的频率或频数,得到5-mer频率或频数矩阵。
进一步的,所述步骤5)的降维聚类使用包括但不限于:Umap、t-SNE、KNN进行序列降维聚类;
在一些实施方式中,使用Umap包进行序列降维聚类;降维聚类的参数设置如下:random_state=42,n_neighbors=30,min_dist=0.0,n_components=2;随后使用python的hdbscan包依据Umap降维聚类的结果进行聚类分群并给每条read确定归属于某个cluster。
进一步的,所述步骤5)降维聚类分群后的reads序列还可以包括分别进一步做polish处理;优选的,对于每个cluster的reads,使用medaka软件分别进行polish处理。
进一步的,所述步骤6)中组装为对每个做过polish的分群cluster的reads分别进行组装;
在一些实施方式中,所述组装使用包括但不限于:Canu/meta-Flye、wtdbg2、NECAT软件进行。
本发明还提供一种物种鉴定的生信分析方法,其特征在于,所述方法包括上述方法,并进一步包括:步骤9)物种鉴定:基于组装后的序列进行物种鉴定。
本发明还提供一种物种鉴定的生信分析装置,包括:至少一个存储器,用于存储程序;至少一个处理器,用于加载所述程序以执行如上所述方法。
本发明还提供一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如上述方法。
进一步的,上述测序数据为一代、二代、三代或四代测序数据;优选的,为四代纳米孔测序数据。
本发明有益的技术效果:
本发明通过降维聚类分群把宏基因组数据按照菌种分到不同的cluster里,然后再对每个cluster分别组装,能够显著提高宏基因组组装效率,组装时间至少减少一半以上,与不分群组装的物种鉴定结果一致。
本发明有效提高了宏基因组的鉴定效率,同时保证菌种鉴定的有效性和准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明方法的流程图;
图2实施例2中1h的Umap降维聚类分群结果图;在四代纳米孔测序平台测得1h产出数据根据本发明中Umap降维聚类得到的分群结果,其中每个聚在一起的点是同一个分群;
图3实施例2中2h的Umap降维聚类分群结果图;在四代纳米孔测序平台测得2h产出数据根据本发明中Umap降维得到的分群结果,其中每个聚在一起的点是同一个分群;
图4实施例2中3h频率Umap降维聚类分群结果图;在四代纳米孔测序平台测得3h产出数据根据本发明中Umap降维聚类得到的分群结果,其中每个聚在一起的点是同一个分群;
图5实施例2中4h的Umap降维聚类分群结果图;在四代纳米孔测序平台测得4h产出数据根据本发明中Umap降维聚类得到的分群结果,其中每个聚在一起的点是同一个分群;
图6实施例2中5h的Umap降维聚类分群结果图;在四代纳米孔测序平台测得5h产出数据根据本发明中Umap降维聚类得到的分群结果,其中每个聚在一起的点是同一个分群。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围,并且所述实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
部分术语定义
除非在下文中另有定义,本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本发明。
如本发明中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。
本发明所述的数据降维聚类是一系列相关的高维变量减少为一系列低维变量,这些低维数据会尽可能地反应原始数据的特征,并将相似特征的数据聚为一类。本发明优选采用UMAP降维聚类算法,基于测序序列的5-mer频数矩阵降维聚类。所述UMAP(UniformManifold Approximation and Projection for Dimension Reduction,一致的流形逼近和投影以进行降维)是一种降维技术,类似于t-SNE,可用于可视化,但也可用于一般的非线性降维聚类。
本发明所述的宏基因组学(Metagenomics,又称元基因组学)是对微生物在其原始生活场所的基因组学研究。宏基因组学直接从环境样品中提取全部微生物的DNA或RNA,构建宏基因组文库并测序,系统分析该环境中微生物的遗传多样性和功能多样性,以探索分类学、功能和进化等领域。宏基因组学的分析内容主要包括微生物群落的物种组分与差异分析、功能组分与差异分析、以及环境因子与微生物组的关系等。
本发明所述的纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。它的特点是单分子测序,有测序读长长,文库制备方便,测序速度快,测序数据实时获取等特点。
本发明的通过降维分群提高宏基因组测序数据菌种组装效率的方法,核心在于基于预分群的方式,大体包括如下步骤:步骤1)序列生成:宏基因组测序下机数据生成fastq格式序列信息;步骤2)样本拆分:根据文库标签序列将序列拆分成属于不同样本的序列集合;步骤3)序列质控:比如序列长度和/或质量的质控等;步骤4)k-mer频率或频数矩阵计算,所述k=2~20000;步骤5)降维聚类分群(cluster)处理:基于频率或频数矩阵对所有测序序列进行降维分群处理;步骤6)序列组装:降维后分群cluster的序列分别组装。
在一些方面,所述步骤3)包括比如统计序列的长度和质量值。示例性的,对于纳米孔测序数据而言,过滤掉长度小于500bp和平均测序质量值小于8的序列。本领域根据实际测序数据可以适当选择质控标准。
在一些方面,所述步骤3)序列质控后还可以进一步包括序列矫正步骤:将过滤后的序列进行自矫正,矫正测序错误的碱基。
在一些方面,所述步骤4)中的k=2~20000,优选k=5-75。
可以理解本发明中所述的k-mer为一段生物序列中的长度为k的子序列,对于本发明方法中而言k的取值可以是任一正整数,只要满足可以计算k-mer频率都是允许的,因此k的取值原则上可以是>2的正整数当然,当考虑到实际序列长度的限制,k的优选取值2~20000;更优选的为5~75。
在一些具体的实例中,以所述k=5为例,5-mer的序列种类数为4*4*4*4*4/2=512种,计算每种reads中512种mer的频率或频数,得到5-mer频率或频数矩阵。
在一些方面,所述步骤5)降维聚类分群后的reads分别进一步做polish处理,比如使用medaka软件分别进行polish处理。
在一些具体的实例中,所述步骤5)的降维聚类使用包括但不限于:Umap、t-SNE、KNN进行序列降维聚类;这些不同的降维算法都可以进行聚类操作,并不影响本发明核心。
以Umap为例,降维的参数设置如下:random_state=42,n_neighbors=30,min_dist=0.0,n_components=2;随后依据Umap降维的结果进行聚类分群并给每条read确定归属于某个cluster。
在一些方面,所述步骤6)中组装为对每个做过polish的分群cluster的reads分别进行组装;
在一些具体的实例中,所述组装使用包括但不限于:Canu/meta-Flye、wtdbg2、NECAT软件进行;这些不同的降维聚类算法都可以进行分群聚类,并不影响本发明核心。
根据文库的标签序列将序列拆分成属于不同样本的序列集合,同时去除接头序列。
可以理解的是本发明的核心思路并不受限于测序平台,理由在于对序列进行k-mer频率或频数的计算并不受测序平台的限制,因此本发明的降维聚类组装方法适用的测序数据包括一代、二代、三代或四代测序数据;优选的,所述测序数据为四代纳米孔测序数据。
实施例1本专利方法构建
本专利的关注点在于,宏基因组数据预分群后,基于分群后的reads组装提升组装效率。
一、方法优化过程
首先需要说明两个方面:从reads序列到5-mer频率矩阵,以及每条reads得到的分群cluster标签。
在具体计算中,
1.首先基于reads序列计算5-mer频率矩阵:
-5-mer的序列种类数为4*4*4*4*4/2=512种;
-计算每种reads中这512种5-mer的频率;
-得到5-mer频率矩阵;
2.然后用Umap基于频率矩阵降维,用hdbscan给每条reads分配cluster标签。
3.然后用Canu/meta-Flye软件针对每一个cluster组装。
4.最后针对组装结果用blast与nt数据库进行比对,进行物种鉴定。
本发明选取了ZymoBIOMICSTM Microbial Community DNA Standard(物种已知,为8个细菌和2个真菌)的官方ONT的测序数据,按测序时间选取了前5个小时的测序数据,分别为测序1h,2h,3h,4h,5h的下机数据,碱基数据量分别为458M,919M,1.3G,1.7G,2.2G。针对5个时间点的序列来验证降维分群在不同时间点、不同数据量的情况下对组装效率和菌种鉴定的准确性的影响。
测试Canu软件直接组装全部reads的时间和菌种鉴定结果,与降维聚类分群后用Canu分别组装的组装时间和菌种鉴定结果做对比。
二、确立本发明分析鉴定流程如下:
1.序列生成:ONT GridION测序平台产生的数据,通过ONT Guppy软件将电信号转换为碱基信号,得到fastq格式的序列信息。
2.样本拆分:使用ONT Guppy软件,根据文库的barcode序列将序列拆分成属于不同样本的序列集合,同时去除接头序列。
3.序列质控:统计序列的长度和质量值(quality score),对于Nanopore长读长数据,过滤掉长度小于500bp或平均测序质量值小于8的序列。
4.序列矫正:使用consent软件,将过滤后的序列进行自矫正,矫正测序错误的碱基。
5.频率矩阵:使用python脚本计算512种5-mer频率矩阵。
6.Umap降维:使用python的Umap包进行序列降维聚类。参数设置如下:random_state=42,n_neighbors=30,min_dist=0.0,n_components=2。
7.hdbscan确定cluster:使用python的hdbscan包依据Umap降维的结果给每条read确定归属于某个cluster。
8.组装:对于每个cluster的reads,使用Canu/meta-Flye软件分别进行组装。
9.物种鉴定:组装后的contig序列与nt库进行比对,得到物种鉴定结果。
实施例2本专利方法Umap分群效果
本发明通过基于预分群的方式,使zymo官方ONT测序数据,在不同时间/数据量梯度下进行分群,来源于相同物种的reads倾向于分到同一个cluster中,具体实施方式基于实施例1的流程进行。
Umap分群后的降维分群结果见图2-6,图2是1h的降维分群结果图,图3是2h的降维分群结果图,图4是3h的降维分群结果图,图5是4h的降维分群结果图,图6是5h的降维分群结果图。可以看出,通过预分群将全部reads分到不同的cluster中。
实施例3本专利方法组装效率评估
本发明通过基于预分群的方式,使zymo官方ONT测序数据,在不同时间/数据量梯度,如1h~5h的碱基数据量下组装效率有明显提升。具体实施方式基于实施例1的流程进行。
组装时间结果表1,可以看出使用Umap预分群组装时间缩短接近一半。
表1
时间 base(bp) 组装(no_Umap) 组装时间(Umap)
1h 458,473,600 45m47.655s 14m36.602s
2h 919,961,649 503m13.250s 36m54.974s
3h 1,375,306,551 749m23.833s 65m43.655s
4h 1,796,485,159 1126m10.946s 154m36.229s
5h 2,205,881,698 1359m9.468s 179m0.873s
实施例4本专利方法的有效性和准确性
本发明用的是zymo的官方数据,此数据中包含的菌种种类已知,所以菌种鉴定结果与zymo菌种进行对比即可验证组装、物种鉴定的准确性。为了验证Umap预分群的菌种鉴定的准确性,我们对分群组装后的序列与nt库比对,并与直接组装序列的菌种鉴定结果做对比。
菌种鉴定结果表2(以1h下机数据的结果为例),可以看出菌种鉴定基本一致,并且鉴定出的物种与zymo的物种完全一致,这充分证明了本发明方法的有效性和准确性。
表2 1h下机数据物种鉴定结果
Figure BDA0003209672350000091
Figure BDA0003209672350000101
Figure BDA0003209672350000111
Figure BDA0003209672350000121
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法,其特征在于,包括如下步骤:
步骤1)序列生成:宏基因组测序下机数据生成fastq格式序列信息;
步骤2)样本拆分:根据文库标签序列进行样本拆分;
步骤3)序列质控:包括但不限于序列长度和/或质量的质控;
步骤4)k-mer频率或频数矩阵计算:基于每种reads序列进行k-mer频率或频数矩阵计算;
步骤5)降维聚类分群处理:基于频率或频数矩阵直接对所有reads序列进行降维聚类分群处理;
步骤6)序列组装:降维聚类分群后每个聚类cluster的reads序列分别组装;
所述步骤4)中,所述k=5-75;
所述步骤5)的降维聚类使用Umap进行reads序列降维聚类分群;所述步骤5)降维分群后的reads序列分别进一步做polish处理;
所述测序数据为四代纳米孔测序数据。
2.如权利要求1所述的通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法,其特征在于,所述步骤6)中组装为对每个做过polish的分群后每个cluster的reads序列分别进行组装;所述组装使用包括但不限于:Canu/meta-Flye、wtdbg2、NECAT软件进行。
3.如权利要求1-2任一所述的通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法,其特征在于,所述步骤2)样本拆分为:根据文库的标签序列将序列拆分成属于不同样本的序列集合,同时去除接头序列。
4.如权利要求1-2任一所述的通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法,其特征在于,所述步骤3)序列质控后进一步包括序列矫正步骤:将过滤后的序列进行自矫正,矫正测序错误的碱基。
5.一种物种鉴定的生信分析方法,其特征在于,所述方法包括权利要求1-4任一所述方法,并进一步包括:
步骤7)物种鉴定:基于组装后的序列进行物种鉴定。
6.一种物种鉴定装置,其特征在于,包括:至少一个存储器,用于存储程序;至少一个处理器,用于加载所述程序以执行如权利要求5所述方法。
7.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-5任一项所述方法。
CN202110927474.0A 2021-08-13 2021-08-13 一种提高宏基因组纳米孔测序数据菌种组装效率的方法 Active CN113611359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110927474.0A CN113611359B (zh) 2021-08-13 2021-08-13 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110927474.0A CN113611359B (zh) 2021-08-13 2021-08-13 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Publications (2)

Publication Number Publication Date
CN113611359A CN113611359A (zh) 2021-11-05
CN113611359B true CN113611359B (zh) 2022-08-05

Family

ID=78340602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110927474.0A Active CN113611359B (zh) 2021-08-13 2021-08-13 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Country Status (1)

Country Link
CN (1) CN113611359B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114300055B (zh) * 2021-12-28 2023-04-25 江苏先声医学诊断有限公司 优化的宏基因组纳米孔测序数据定量方法
CN115527612B (zh) * 2022-10-28 2023-11-14 四川天瓴创新科技集团有限公司 基于数值特征表达的基因组二四代融合组装方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246829A (zh) * 2012-02-10 2013-08-14 塔塔咨询服务有限公司 宏基因组序列的组装
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
CN109273053A (zh) * 2018-09-27 2019-01-25 华中科技大学鄂州工业技术研究院 一种高通量测序的微生物数据处理方法
CN110349629A (zh) * 2019-06-20 2019-10-18 广州赛哲生物科技股份有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111564181A (zh) * 2020-04-02 2020-08-21 北京百迈客生物科技有限公司 一种基于二代和三代ont技术进行宏基因组组装方法
CN112071366A (zh) * 2020-10-13 2020-12-11 南开大学 一种基于二代测序技术的宏基因组数据分析方法
CN112466404A (zh) * 2020-12-14 2021-03-09 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN112599198A (zh) * 2020-12-29 2021-04-02 上海派森诺生物科技股份有限公司 一种用于宏基因组测序数据的微生物物种与功能组成分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137243A1 (en) * 2016-11-17 2018-05-17 Resilient Biotics, Inc. Therapeutic Methods Using Metagenomic Data From Microbial Communities
AU2019346427A1 (en) * 2018-09-24 2021-05-13 Tempus Ai, Inc. Methods of normalizing and correcting RNA expression data
WO2020252320A1 (en) * 2019-06-13 2020-12-17 Icahn School Of Medicine At Mount Sinai Dna methylation based high resolution characterization of microbiome using nanopore sequencing
CN112599199A (zh) * 2020-12-29 2021-04-02 上海派森诺生物科技股份有限公司 一种适用于10x单细胞转录组测序数据的分析方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246829A (zh) * 2012-02-10 2013-08-14 塔塔咨询服务有限公司 宏基因组序列的组装
CN104039982A (zh) * 2012-08-01 2014-09-10 深圳华大基因研究院 一种分析微生物群落组成的方法和装置
CN109273053A (zh) * 2018-09-27 2019-01-25 华中科技大学鄂州工业技术研究院 一种高通量测序的微生物数据处理方法
CN110349629A (zh) * 2019-06-20 2019-10-18 广州赛哲生物科技股份有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111564181A (zh) * 2020-04-02 2020-08-21 北京百迈客生物科技有限公司 一种基于二代和三代ont技术进行宏基因组组装方法
CN112071366A (zh) * 2020-10-13 2020-12-11 南开大学 一种基于二代测序技术的宏基因组数据分析方法
CN112466404A (zh) * 2020-12-14 2021-03-09 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN112599198A (zh) * 2020-12-29 2021-04-02 上海派森诺生物科技股份有限公司 一种用于宏基因组测序数据的微生物物种与功能组成分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于优化k-mer频率的宏基因组聚类方法;刘富等;《吉林大学学报(工学版)》;20180930;全文 *
基于共标签标记的单管长片段测序技术研发;程小芳;《中国优秀硕士学位论文全文数据库》;20200215;第2.2.3节 *
宏基因组序列分析优化研究;李科学;《中国优秀硕士学位论文全文数据库》;20210215;第一章1.2-1.3节、第二章、第四章 *

Also Published As

Publication number Publication date
CN113611359A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN113611359B (zh) 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN111276185B (zh) 一种基于二代高通量测序的微生物鉴定分析系统及装置
Kelly et al. Exploring giant plant genomes with next-generation sequencing technology
CN109949863B (zh) 一种基于随机森林模型鉴别大曲质量的方法
CN112863599B (zh) 一种病毒测序序列的自动化分析方法及系统
CN113257364B (zh) 基于多目标进化的单细胞转录组测序数据聚类方法及系统
Jiang et al. DEPP: deep learning enables extending species trees using single genes
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN107832584B (zh) 宏基因组的基因分析方法、装置、设备及存储介质
CN109920480A (zh) 一种校正高通量测序数据的方法和装置
Lu et al. scRNA‐seq data analysis method to improve analysis performance
Deng et al. iCREPCP: A deep learning-based web server for identifying base-resolution cis-regulatory elements within plant core promoters
CN116469462A (zh) 一种基于双重测序的超低频dna突变识别方法和装置
CN114300055B (zh) 优化的宏基因组纳米孔测序数据定量方法
CN115101130A (zh) 一种基于网络对抗学习的单细胞数据插补方法及系统
US20170372004A1 (en) Methods for classifying organisms based on dna or protein sequences
CN112626240A (zh) 一种判断复杂菌群中细菌相互作用强弱关系的方法
JP2003028855A (ja) クラスタリング結果評価方法及びクラスタリング結果表示方法
CN116469468B (zh) 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统
Wani et al. Evaluation of computational methods for single cell multi-omics integration
Садовский et al. Triplet Frequencies Implementation in Total Transcriptome Analysis
Passalacqua et al. Coexpression enhances cross-species integration of scRNA-seq across diverse plant species
Pham Genomic Methods for Bacterial Infection Identification
CN110066862A (zh) 一种基于高通量测序读数的重复dna序列识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant