CN113611359B

CN113611359B - 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Info

Publication number: CN113611359B
Application number: CN202110927474.0A
Authority: CN
Inventors: 李振中; 陈莉; 李珊; 戴岩; 李诗濛; 任用
Original assignee: Jiangsu Xiansheng Medical Devices Co ltd; Nanjing Xiansheng Diagnostic Technology Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Current assignee: Jiangsu Xiansheng Medical Devices Co ltd; Nanjing Xiansheng Diagnostic Technology Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2022-08-05
Anticipated expiration: 2041-08-13
Also published as: CN113611359A

Abstract

本发明提供一种通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法，所述方法通过k‑mer频率或频数统计，在组装前进行降维预分群，能够显著提高宏基因组组装效率，组装时间至少减少一半以上，同时保证生信鉴定的有效性和准确性。

Description

一种提高宏基因组纳米孔测序数据菌种组装效率的方法

技术领域

本发明涉及生信分析领域，具体涉及一种通过降维提高宏基因组纳米孔测序数据菌种组装效率的方法。

背景技术

宏基因组学(Metagenomics，又称元基因组学)是对微生物在其原始生活场所的基因组学研究。宏基因组学直接从环境样品中提取全部微生物的DNA或RNA，构建宏基因组文库并测序，系统分析该环境中微生物的遗传多样性和功能多样性，以探索分类学、功能和进化等领域。宏基因组学允许我们越过可培养性和分类学特性的限制，直接调查细菌，病毒和真菌等微生物群落的遗传组成。宏基因组学的分析内容主要包括微生物群落的物种组分与差异分析、功能组分与差异分析、以及环境因子与微生物组的关系等。

纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。这项技术开始于90年代，经历了三个主要的技术革新：一、单分子DNA从纳米孔通过；二、纳米孔上的酶对于测序分子在单核苷酸精度的控制；三、单核苷酸的测序精度控制。目前市场上广泛接受的纳米孔测序平台是Oxford Nanopore Technologies(以下简称ONT)公司的MinION和GridION纳米孔测序仪。它的特点是单分子测序，有测序读长长，文库制备方便，测序速度快，测序数据实时获取等特点。

基于纳米孔测序宏基因组学研究对象是整个生境中的总DNA，为了获取环境样品中完整基因组的信息，需要复原每个微生物的全长基因组序列，显然这是理想情况。但是利用宏基因组从头组装技术，即宏基因组reads首先组装成contigs，通过与参考基因组的序列比对，将分类或系统发育信息归于每个contig，得到微生物群落的物种组分，进而进行群落的差异分析，功能分析等。

目前纳米孔测序数据的组装分析流程如下：

1)在测序运行过程中，使用ONT MinKNOW软件收集原始测序数据；

2)使用ONT Albacore或ONT Guppy软件对原始数据进行碱基序列生成；

3)使用自编python脚本过滤掉长度小于500bp和平均测序质量值小于8的序列；

4)使用Consent软件，进行序列自矫正；

5)使用medaka软件进行序列polish；

6)使用Canu/meta-Flye软件进行菌种组装。

然而实践中测序reads数据量具大，组装运行时间长，reads利用率低。具体来说由于宏基因组测序针对的是复杂环境下的所有微生物序列，由于物种的多样性和近缘物种的高序列相似性，会给组装增加难度，进而增加组装运行时间。

有鉴于此，特提出本发明。

发明内容

本发明的目的是寻求提高宏基因组纳米孔测序数据菌种组装效率。为实现上述目的，本发明提供一种全新思路，在序列组装前通过降维聚类预分群的方式进行测序数据鉴定。

具体技术方案如下：

本发明首先提供一种通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法，其特征在于，包括如下步骤：

步骤1)序列生成：宏基因组测序下机数据生成fastq格式序列信息；

步骤2)样本拆分：根据文库标签序列进行样本拆分；

步骤3)序列质控：包括但不限于序列长度和/或质量的质控；

步骤4)k-mer频率或频数矩阵计算：基于序列进行进行k-mer频率或频数矩阵计算；

步骤5)降维聚类分群处理：基于频率或频数矩阵对所有测序序列进行降维聚类分群处理；

步骤6)序列组装：降维聚类后分群的每个cluster的序列分别组装。

进一步的，所述步骤2)样本拆分为：根据文库的标签序列(比如barcode)将序列拆分成属于不同样本的序列集合，同时还可包括去除接头序列。

进一步的，所述步骤3)序列质控为：统计序列的长度和质量值；

在一些实施方式中，比如对于纳米孔长读长数据，过滤掉长度小于500bp和平均测序质量值小于8的序列。

进一步的，所述步骤4)所述k＝2～20000，优选的，所述k＝5-75；更优选的，所述k＝5，具体的：5-mer的序列种类数为4*4*4*4*4/2＝512种，计算每种reads中512种mer的频率或频数，得到5-mer频率或频数矩阵。

进一步的，所述步骤5)的降维聚类使用包括但不限于：Umap、t-SNE、KNN进行序列降维聚类；

在一些实施方式中，使用Umap包进行序列降维聚类；降维聚类的参数设置如下：random_state＝42,n_neighbors＝30,min_dist＝0.0,n_components＝2；随后使用python的hdbscan包依据Umap降维聚类的结果进行聚类分群并给每条read确定归属于某个cluster。

进一步的，所述步骤5)降维聚类分群后的reads序列还可以包括分别进一步做polish处理；优选的，对于每个cluster的reads，使用medaka软件分别进行polish处理。

进一步的，所述步骤6)中组装为对每个做过polish的分群cluster的reads分别进行组装；

在一些实施方式中，所述组装使用包括但不限于：Canu/meta-Flye、wtdbg2、NECAT软件进行。

本发明还提供一种物种鉴定的生信分析方法，其特征在于，所述方法包括上述方法，并进一步包括：步骤9)物种鉴定：基于组装后的序列进行物种鉴定。

本发明还提供一种物种鉴定的生信分析装置，包括：至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行如上所述方法。

本发明还提供一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现如上述方法。

进一步的，上述测序数据为一代、二代、三代或四代测序数据；优选的，为四代纳米孔测序数据。

本发明有益的技术效果：

本发明通过降维聚类分群把宏基因组数据按照菌种分到不同的cluster里，然后再对每个cluster分别组装，能够显著提高宏基因组组装效率，组装时间至少减少一半以上，与不分群组装的物种鉴定结果一致。

本发明有效提高了宏基因组的鉴定效率，同时保证菌种鉴定的有效性和准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明方法的流程图；

图2实施例2中1h的Umap降维聚类分群结果图；在四代纳米孔测序平台测得1h产出数据根据本发明中Umap降维聚类得到的分群结果，其中每个聚在一起的点是同一个分群；

图3实施例2中2h的Umap降维聚类分群结果图；在四代纳米孔测序平台测得2h产出数据根据本发明中Umap降维得到的分群结果，其中每个聚在一起的点是同一个分群；

图4实施例2中3h频率Umap降维聚类分群结果图；在四代纳米孔测序平台测得3h产出数据根据本发明中Umap降维聚类得到的分群结果，其中每个聚在一起的点是同一个分群；

图5实施例2中4h的Umap降维聚类分群结果图；在四代纳米孔测序平台测得4h产出数据根据本发明中Umap降维聚类得到的分群结果，其中每个聚在一起的点是同一个分群；

图6实施例2中5h的Umap降维聚类分群结果图；在四代纳米孔测序平台测得5h产出数据根据本发明中Umap降维聚类得到的分群结果，其中每个聚在一起的点是同一个分群。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围，并且所述实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

部分术语定义

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

本发明所述的数据降维聚类是一系列相关的高维变量减少为一系列低维变量，这些低维数据会尽可能地反应原始数据的特征，并将相似特征的数据聚为一类。本发明优选采用UMAP降维聚类算法，基于测序序列的5-mer频数矩阵降维聚类。所述UMAP(UniformManifold Approximation and Projection for Dimension Reduction，一致的流形逼近和投影以进行降维)是一种降维技术，类似于t-SNE，可用于可视化，但也可用于一般的非线性降维聚类。

本发明所述的宏基因组学(Metagenomics，又称元基因组学)是对微生物在其原始生活场所的基因组学研究。宏基因组学直接从环境样品中提取全部微生物的DNA或RNA，构建宏基因组文库并测序，系统分析该环境中微生物的遗传多样性和功能多样性，以探索分类学、功能和进化等领域。宏基因组学的分析内容主要包括微生物群落的物种组分与差异分析、功能组分与差异分析、以及环境因子与微生物组的关系等。

本发明所述的纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。它的特点是单分子测序，有测序读长长，文库制备方便，测序速度快，测序数据实时获取等特点。

本发明的通过降维分群提高宏基因组测序数据菌种组装效率的方法，核心在于基于预分群的方式，大体包括如下步骤：步骤1)序列生成：宏基因组测序下机数据生成fastq格式序列信息；步骤2)样本拆分：根据文库标签序列将序列拆分成属于不同样本的序列集合；步骤3)序列质控：比如序列长度和/或质量的质控等；步骤4)k-mer频率或频数矩阵计算，所述k＝2～20000；步骤5)降维聚类分群(cluster)处理：基于频率或频数矩阵对所有测序序列进行降维分群处理；步骤6)序列组装：降维后分群cluster的序列分别组装。

在一些方面，所述步骤3)包括比如统计序列的长度和质量值。示例性的，对于纳米孔测序数据而言，过滤掉长度小于500bp和平均测序质量值小于8的序列。本领域根据实际测序数据可以适当选择质控标准。

在一些方面，所述步骤3)序列质控后还可以进一步包括序列矫正步骤：将过滤后的序列进行自矫正，矫正测序错误的碱基。

在一些方面，所述步骤4)中的k＝2～20000，优选k＝5-75。

可以理解本发明中所述的k-mer为一段生物序列中的长度为k的子序列，对于本发明方法中而言k的取值可以是任一正整数，只要满足可以计算k-mer频率都是允许的，因此k的取值原则上可以是>2的正整数当然，当考虑到实际序列长度的限制，k的优选取值2～20000；更优选的为5～75。

在一些具体的实例中，以所述k＝5为例，5-mer的序列种类数为4*4*4*4*4/2＝512种，计算每种reads中512种mer的频率或频数，得到5-mer频率或频数矩阵。

在一些方面，所述步骤5)降维聚类分群后的reads分别进一步做polish处理，比如使用medaka软件分别进行polish处理。

在一些具体的实例中，所述步骤5)的降维聚类使用包括但不限于：Umap、t-SNE、KNN进行序列降维聚类；这些不同的降维算法都可以进行聚类操作，并不影响本发明核心。

以Umap为例，降维的参数设置如下：random_state＝42,n_neighbors＝30,min_dist＝0.0,n_components＝2；随后依据Umap降维的结果进行聚类分群并给每条read确定归属于某个cluster。

在一些方面，所述步骤6)中组装为对每个做过polish的分群cluster的reads分别进行组装；

在一些具体的实例中，所述组装使用包括但不限于：Canu/meta-Flye、wtdbg2、NECAT软件进行；这些不同的降维聚类算法都可以进行分群聚类，并不影响本发明核心。

根据文库的标签序列将序列拆分成属于不同样本的序列集合，同时去除接头序列。

可以理解的是本发明的核心思路并不受限于测序平台，理由在于对序列进行k-mer频率或频数的计算并不受测序平台的限制，因此本发明的降维聚类组装方法适用的测序数据包括一代、二代、三代或四代测序数据；优选的，所述测序数据为四代纳米孔测序数据。

实施例1本专利方法构建

本专利的关注点在于，宏基因组数据预分群后，基于分群后的reads组装提升组装效率。

一、方法优化过程

首先需要说明两个方面：从reads序列到5-mer频率矩阵，以及每条reads得到的分群cluster标签。

在具体计算中，

1.首先基于reads序列计算5-mer频率矩阵：

-5-mer的序列种类数为4*4*4*4*4/2＝512种；

-计算每种reads中这512种5-mer的频率；

-得到5-mer频率矩阵；

2.然后用Umap基于频率矩阵降维，用hdbscan给每条reads分配cluster标签。

3.然后用Canu/meta-Flye软件针对每一个cluster组装。

4.最后针对组装结果用blast与nt数据库进行比对，进行物种鉴定。

本发明选取了ZymoBIOMICS^TM Microbial Community DNA Standard(物种已知，为8个细菌和2个真菌)的官方ONT的测序数据，按测序时间选取了前5个小时的测序数据，分别为测序1h，2h，3h，4h，5h的下机数据，碱基数据量分别为458M，919M，1.3G，1.7G，2.2G。针对5个时间点的序列来验证降维分群在不同时间点、不同数据量的情况下对组装效率和菌种鉴定的准确性的影响。

测试Canu软件直接组装全部reads的时间和菌种鉴定结果，与降维聚类分群后用Canu分别组装的组装时间和菌种鉴定结果做对比。

二、确立本发明分析鉴定流程如下：

1.序列生成：ONT GridION测序平台产生的数据，通过ONT Guppy软件将电信号转换为碱基信号，得到fastq格式的序列信息。

2.样本拆分：使用ONT Guppy软件，根据文库的barcode序列将序列拆分成属于不同样本的序列集合，同时去除接头序列。

3.序列质控：统计序列的长度和质量值(quality score)，对于Nanopore长读长数据，过滤掉长度小于500bp或平均测序质量值小于8的序列。

4.序列矫正：使用consent软件，将过滤后的序列进行自矫正，矫正测序错误的碱基。

5.频率矩阵：使用python脚本计算512种5-mer频率矩阵。

6.Umap降维：使用python的Umap包进行序列降维聚类。参数设置如下：random_state＝42,n_neighbors＝30,min_dist＝0.0,n_components＝2。

7.hdbscan确定cluster：使用python的hdbscan包依据Umap降维的结果给每条read确定归属于某个cluster。

8.组装：对于每个cluster的reads，使用Canu/meta-Flye软件分别进行组装。

9.物种鉴定：组装后的contig序列与nt库进行比对，得到物种鉴定结果。

实施例2本专利方法Umap分群效果

本发明通过基于预分群的方式，使zymo官方ONT测序数据，在不同时间/数据量梯度下进行分群，来源于相同物种的reads倾向于分到同一个cluster中，具体实施方式基于实施例1的流程进行。

Umap分群后的降维分群结果见图2-6，图2是1h的降维分群结果图，图3是2h的降维分群结果图，图4是3h的降维分群结果图，图5是4h的降维分群结果图，图6是5h的降维分群结果图。可以看出，通过预分群将全部reads分到不同的cluster中。

实施例3本专利方法组装效率评估

本发明通过基于预分群的方式，使zymo官方ONT测序数据，在不同时间/数据量梯度，如1h～5h的碱基数据量下组装效率有明显提升。具体实施方式基于实施例1的流程进行。

组装时间结果表1，可以看出使用Umap预分群组装时间缩短接近一半。

表1

时间	base(bp)	组装(no_Umap)	组装时间(Umap)
				1h	458,473,600	45m47.655s	14m36.602s
2h	919,961,649	503m13.250s	36m54.974s
				3h	1,375,306,551	749m23.833s	65m43.655s
4h	1,796,485,159	1126m10.946s	154m36.229s
				5h	2,205,881,698	1359m9.468s	179m0.873s

实施例4本专利方法的有效性和准确性

本发明用的是zymo的官方数据，此数据中包含的菌种种类已知，所以菌种鉴定结果与zymo菌种进行对比即可验证组装、物种鉴定的准确性。为了验证Umap预分群的菌种鉴定的准确性，我们对分群组装后的序列与nt库比对，并与直接组装序列的菌种鉴定结果做对比。

菌种鉴定结果表2(以1h下机数据的结果为例)，可以看出菌种鉴定基本一致，并且鉴定出的物种与zymo的物种完全一致，这充分证明了本发明方法的有效性和准确性。

表2 1h下机数据物种鉴定结果

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，但本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法，其特征在于，包括如下步骤：

步骤1）序列生成：宏基因组测序下机数据生成fastq格式序列信息；

步骤2）样本拆分：根据文库标签序列进行样本拆分；

步骤3）序列质控：包括但不限于序列长度和/或质量的质控；

步骤4）k-mer频率或频数矩阵计算：基于每种reads序列进行k-mer频率或频数矩阵计算；

步骤5）降维聚类分群处理：基于频率或频数矩阵直接对所有reads序列进行降维聚类分群处理；

步骤6）序列组装：降维聚类分群后每个聚类cluster的reads序列分别组装；

所述步骤4）中，所述k=5-75；

所述步骤5）的降维聚类使用Umap进行reads序列降维聚类分群；所述步骤5）降维分群后的reads序列分别进一步做polish处理；

所述测序数据为四代纳米孔测序数据。

2.如权利要求1所述的通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法，其特征在于，所述步骤6）中组装为对每个做过polish的分群后每个cluster的reads序列分别进行组装；所述组装使用包括但不限于：Canu/meta-Flye、wtdbg2、NECAT软件进行。

3.如权利要求1-2任一所述的通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法，其特征在于，所述步骤2）样本拆分为：根据文库的标签序列将序列拆分成属于不同样本的序列集合，同时去除接头序列。

4.如权利要求1-2任一所述的通过降维聚类分群提高宏基因组测序数据菌种组装效率的方法，其特征在于，所述步骤3）序列质控后进一步包括序列矫正步骤：将过滤后的序列进行自矫正，矫正测序错误的碱基。

5.一种物种鉴定的生信分析方法，其特征在于，所述方法包括权利要求1-4任一所述方法，并进一步包括：

步骤7）物种鉴定：基于组装后的序列进行物种鉴定。

6.一种物种鉴定装置，其特征在于，包括：至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行如权利要求5所述方法。

7.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-5任一项所述方法。