CN112802554B

CN112802554B - 一种基于二代数据的动物线粒体基因组组装方法

Info

Publication number: CN112802554B
Application number: CN202110120253.2A
Authority: CN
Inventors: 李家堂; 宋梦洹; 严超超
Original assignee: Chengdu Institute of Biology of CAS
Current assignee: Chengdu Institute of Biology of CAS
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-09-22
Anticipated expiration: 2041-01-28
Also published as: CN112802554A

Abstract

本发明属于基因组测序技术领域，具体涉及一种基于二代数据的动物线粒体基因组组装方法。本发明组装方法包括如下步骤：首先通过profile HMM对庞大的数据进行快速筛选，获得潜在的线粒体编码DNA片段，然后，利用线性迭代算法对片段进行组装获取并利用profile HMM打分获得种子序列；最后，选用线性迭代的算法，快速从测序数据中将线粒体DNA reads组装到种子序列上，直至实现线粒体全基因组的组装。本发明实现了无需人工投递种子序列并实现快速、准确、完整组装线粒体基因组的目的，且对不同物种，数据量大小和DNA reads长度的二代数据具有很好的兼容性。

Description

一种基于二代数据的动物线粒体基因组组装方法

技术领域

本发明属于基因组测序技术领域，具体涉及一种基于二代数据的动物线粒体基因组组装方法。

背景技术

对于动物来说，线粒体DNA因具有母系遗传、进化速率快，缺乏重组等特点，是生物学研究中重要的标记，被广泛应用于系统发育、进化生物学、生物多样性检测、群体遗传等不同研究领域。相比于线粒体片段，线粒体全基因组因具备完整，不易受趋同影响等特征，相比对线粒体片段，其更为客观、可靠的标记。

随着二代测序技术的不断更新，生物研究领域已经进入了一个数据爆炸式增长的时代，不论是模式动物或者是非模式动物都可以获取相当量的二代数据。线粒体基因组，作为细胞器基因组，其在单个细胞内的数目较多，因此，在进行测序的过程中，被捕捉并测序的概率更大，因此，一定倍数下二代数据中往往会包含有此物种的完整线粒体基因组。通过合适的生物信息学的方法将线粒体基因组从二代数据中提取，对于不同研究领域都深有裨益。

二代测序技术的其中一个特点是高通量，一次上机测序可以得到数据量以T为单位的二代数据。因此，对二代数据进行线粒体基因组组装需要借助软件进行。目前，已经有许多已发表研究尝试通过不同的算法及组合拼接方式来尝试获取完整的线粒体基因组，比如，NOVOPlasty，Assembly by Reduced Complexity，MITOBim，MitoZ以及Norgal等软件。这些软件基于不同的组装算法和流程，但是都存在一定的缺陷。

比如，基于线性延展算法(NOVOPlasty)，需要人工提供种子序列以引导组装。基于比对manpping算法(Assembly by Reduced Complexity和MITOBim)需要提供更长的参考线粒体基因组(即近缘物种的完整的线粒体基因组序列)。人工提供的种子序列需要从数据库(例如，NCBI)中对特定物种进行检索得到，但是由于数据库中的数据都是研究者自行上传的，其包含的物种数量是有限的，因此对于很多物种，在数据库中并不一定能够检索到结果。因此，人工提供种子序列的要求限制了这类算法的应用。

无需提供种子序列的算法(MitoZ和Norgal)，其是利用了线粒体数据在二代数据中预期测序深度更高的特性，将低深度数据过滤后进行组装，但是这样会导致组装结果不完全，且由于可能的二次组装导致非常耗时。

除了上述问题，前述算法还存在数据兼容性的问题。在发明人之前的工作中，尝试使用采用上述算法的软件处理动物线粒体基因的二代数据，但是由于数据无法兼容，总是无法完整提取线粒体全基因组。此外，前述各算法的组装速度及完整性很难同时得到满足。

发明内容

针对现有技术中基因测序二代数据的组装算法的缺陷，本发明提供一种基于二代数据的动物线粒体基因组组装方法，其目的在于：提供一种适用于线粒体基因组，不依赖于人工提供种子序列的，高效、多类型数据兼容、准确的二代数据组装方法。

一种基于二代数据的动物线粒体基因组组装方法，包括如下步骤：

(1)利用线粒体DNA保守域数据库，对二代数据进行筛选得到潜在的线粒体编码DNA片段；所述筛选过程为将二代数据中的DNA reads与线粒体DNA保守域数据库进行对比，筛选出对比成功的DNA reads即为潜在的线粒体编码DNA片段；

(2)将步骤(1)得到的潜在的线粒体编码DNA片段进行预组装，将预组装结果与线粒体DNA保守域数据库进行对比，获取比对率最高的预组装结果；

(3)将步骤(2)得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列，实现线粒体全基因组的组装。

优选的，步骤(1)中，所述二代数据是通过seqtk进行数据质控及类型转换后的二代测序数据。

优选的，步骤(1)和步骤(2)中，所述线粒体DNA保守域数据库为基于隐马可夫链预测构建的线粒体DNA保守域数据库。

优选的，步骤(1)中，所述对比成功的标准为E≤10.0，E值的计算方法为：

E＝K*m*n*(e^-lambda*S)

其中，E为S值的可靠性评价，S为两个序列的同源性，K和lambda为常量，m为目标序列的长度，n为数据库的大小。

优选的，步骤(2)中，所述预组装通过线性迭代算法进行，优选的采用SSAKE组装算法。

优选的，所述线性迭代算法使用C++语言编写。

优选的，步骤(3)具体过程如下：将步骤(2)得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列，将二代数据中的线粒体DNA reads组装到种子序列上，直至实现线粒体全基因组的组装。

优选的，步骤(3)中，所述组装通过线性迭代算法进行，优选的采用SSAKE组装算法。

优选的，所述线性迭代算法使用C++语言编写。

优选的，步骤(3)组装得到的线粒体全基因组后，将线粒体全基因组与线粒体DNA保守域数据库进行对比，对编码基因进行注释。

优选的，用于注释编码基因的所述保守域数据库为基于隐马可夫链预测构建的线粒体DNA保守域数据库。

采用本发明提供的组装方法，能够在算法中实现对种子序列的组装，不需要人工提供种子序列，从而简化研究人员的工作。此外，本发明方法对线粒体基因组的组装高效、准确，能够提高研究人员的工作效率。且对于不同质量(例如DNA reads读长不同、测序总量不同、模式物种或非模式物种的不同等)的二代数据，本发明方法兼容性强，保证了发明的普适性和多用性。

显然，根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1本发明实施例的流程示意图；

图2为现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)各项性能的对比；

图3为现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)对各种类型数据的兼容情况。

具体实施方式

实施例

本实施例包括一种无需提供种子序列的使用二代数据提取动物线粒体基因组的软件，包括以下模块：

1、隐马可夫链预测构建的线粒体DNA保守域数据库(profile HMM)，该数据库由MitoZ等(A toolkit for animal mitochondrial genome assembly，annotation andvisualization.Nucleic acids research，2019，47(11)，e63.)所搭建；

2、SSAKE线性组装模块，基于线性算法使用C++语言编写的组装代码，用于组装线粒体种子序列及线粒体基因组，线性组装技术本身属于现有技术，该模块代码可由本领域技术人员基于现有技术实现。

本实施例基于二代数据的动物线粒体基因组组装方法的算法流程如下：

步骤1，取测序获得的二代数据，首先通过seqtk进行数据质控及类型转换，得到二代数据中的线粒体DNA reads。数据类型转换指的是从fastq转换为fasta。Fasta数据相对于fastq数据去除了不必要的质量信息行，只保留了可操作数据的内容，方便后续对数据进行筛选、组装。

步骤2，基于隐马可夫链预测构建的线粒体DNA保守域数据库(profile HMM)对数据进行一次筛选，从数据中获取潜在的线粒体编码DNA片段；

具体的筛选过程为：将二代数据中的线粒体DNA reads与profile HMM进行对比，符合标准E≤10.0，则对比成功，对比成功的线粒体DNA reads即为潜在的线粒体编码DNA片段。

E值的计算方法为：

E＝K*m*n*(e^-lambda*S)

其中，E为S值的可靠性评价，E越小证明同源性越好。S为两序列的同源性，S值越高表明它们之间相似程度越高。K和lambda为与算法及profile HMM相关的常量，其取值为现有技术已知。m为目标序列的长度，目标序列的长度，是指测序得到的序列的长度，不同测序方法得到的序列的长度是固定的，比如illumina测序平台得到的序列的长度为150bp。n为数据库的大小，数据库的大小是指数据库中所含序列的数量，比如，本实施例是指基于隐马可夫链预测构建的线粒体DNA保守域数据库中序列的数量。

步骤3，取步骤2所得潜在的线粒体编码DNA片段，通过线性组装模块，将片段进行预组装，组装结果同时利用profile HMM进行比对，获取比对率最高的预组装结果，设置为下一步线粒体全基因组组装的种子序列。对比是指将两个核酸序列的碱基按照顺序一一对应比较，对比率是指匹配程度，比如，80％的位置的碱基相同，则对比率为80％。

步骤4，以步骤3获得的种子序列作为种子序列，再次使用线性组装模块，将步骤1数据质控后的二代数据中线粒体DNA reads通过线性组装模块组装到种子序列上，最终实现线粒体全基因组的组装。本步骤中筛选过程为：尝试将所有线粒体DNA reads与待组装的序列(种子序列或已组装了部分线粒体DNA reads的种子序列)进行组装(双向延展)，无法组装的情况下则选择下一个DNA reads再次尝试，能够组装的情况下则将组装后的结果作为待组装的序列重新尝试组装所有的DNA reads，直到组装完成或无法组装为止，即得待测动物线粒体基因组。

步骤5，组装完成后，针对线粒体基因组中存在的编码基因，再次通过profile HMM进行比对，对编码基因进行注释。

利用本实施例的方法(MEANGS)和现有技术中的几种方法(Norgal、NOVOPlasty和MitoZ)对动物线粒体基因组进行组装并对其结果进行对比。所测试的物种都具有二代数据和线粒体参考基因组。

其中，“完成度”代表给出的8组数据中，软件流程运行完成的情况，例如，MEANGS 8次运行都成功了，那么完成度为8/8＝100％

“组装时间”代表从软件开始运行到输出结果的时间。

“覆盖度”代表组装出来的序列与参考序列进行对比，在确定同为线粒体的情况下的比值，例如，一条序列参考为10000,MEANGS组装长度为9998，在比对过保证序列正确的前提下，覆盖度为9998/10000＝99.98％

“准确性”表示如下参数：由于二代数据与参考基因组虽然是同一物种，但非同一个体，序列上可能存在差异，通过预先对二代数据与参考基因组进行比对，了解相关变异情况，进行汇总，随后对于组装的结果进行准确性评估。例如，预比对表明，二代数据与参考基因组在120个位点存在差异，MEANGS组装为10000其中没有变异完全一致的为9880计算准确率为，9880+120/10000＝100％

图2给出了现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)各项性能的对比，其中，本发明方法的覆盖度(coverage)、组装的准确性(accurracy)、组装时间(runtime)和组装完成度(completeness)等性能均显著优于现有技术的方法。

图3给出了现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)对各种类型数据(不同的二代数据量和DNA reads长度)的兼容情况。其中，本方法对考察的所有类型的数据均能够进行处理，而现有技术中的其他方法则存在部分类型数据无法处理的情况。证明本实施例的方法对多类型数据的兼容性好。

通过以上实施例可以看出，本发明提供的方法能够在无需人工投递种子序列的前提下实现快速、准确、完整组装基因组的目的。此外，本发明的方法对多类型数据兼容，适用范围广。

Claims

1.一种基于二代数据的动物线粒体基因组组装方法，其特征在于，包括如下步骤：

（1）利用线粒体DNA保守域数据库，对二代数据进行筛选得到潜在的线粒体编码DNA片段；所述筛选过程为将二代数据中的所有DNA reads与线粒体DNA保守域数据库进行对比，筛选出对比成功的DNA reads即为潜在的线粒体编码DNA片段；

（2）将步骤（1）得到的潜在的线粒体编码DNA片段进行预组装，将预组装结果与线粒体DNA保守域数据库进行对比，获取比对率最高的预组装结果；

（3）将步骤（2）得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列，实现线粒体全基因组的组装；

步骤（1）中，所述对比成功的标准为E≤ 10.0， E值的计算方法为：

E=K*m*n*(e^-lambda*S)

2.按照权利要求1所述的组装方法，其特征在于：步骤（1）中，所述二代数据是通过seqtk进行数据质控及类型转换后的二代测序数据。

3.按照权利要求1或2所述的组装方法，其特征在于：步骤（1）和步骤（2）中，所述线粒体DNA保守域数据库为基于隐马可夫链预测构建的线粒体DNA保守域数据库。

4.按照权利要求1所述的组装方法，其特征在于：步骤（2）中，所述预组装通过SSAKE组装算法进行。

5.按照权利要求4所述的组装方法，其特征在于：所述SSAKE组装算法使用C++语言编写。

6.按照权利要求1所述的组装方法，其特征在于：步骤（3）具体过程如下：将步骤（2）得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列，将二代数据中的线粒体DNA reads组装到种子序列上，直至实现线粒体全基因组的组装。

7.按照权利要求1或6所述的组装方法，其特征在于：步骤（3）中，所述组装通过SSAKE组装算法进行。

8.按照权利要求7所述的组装方法，其特征在于：所述SSAKE组装算法使用C++语言编写。

9.按照权利要求1所述的组装方法，其特征在于：步骤（3）组装得到的线粒体全基因组后，将线粒体全基因组与线粒体DNA保守域数据库进行对比，对编码基因进行注释。