CN105653899A

CN105653899A - 同时确定多种样本的线粒体基因组序列信息的方法和系统

Info

Publication number: CN105653899A
Application number: CN201410642012.4A
Authority: CN
Inventors: 周欣; 唐敏; 刘山林; 苏旭; 谭美华
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-09-30
Filing date: 2014-11-13
Publication date: 2016-06-08
Anticipated expiration: 2034-11-13
Also published as: CN105653899B

Abstract

本发明公开了同时确定多种样本的线粒体基因组序列信息的方法和系统，其中该多种样本所属种相互不同，该方法包括以下步骤：提供所述多种样本中每一种的基因组DNA并混合；将DNA混合物进行文库构建；对DNA测序文库进行测序；将多个测序序列进行筛选，以便获得目标序列；将目标序列进行序列组装，以便获得多个组装序列；将多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将该组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。

Description

同时确定多种样本的线粒体基因组序列信息的方法和系统

技术领域

本发明涉及生物技术领域，具体地，涉及同时确定多种样本的线粒体基因组序列信息的方法和系统。

背景技术

线粒体(mitochondrion)是真核生物细胞内的重要细胞器，几乎存在于各类真核生物细胞内，处于新陈代谢和生物能量转换的中心地位。在后生动物中，大部分物种线粒体的基因组大小大概在16Kb左右，编码13个蛋白质，2个rRNA以及22个tRNA。并且其基因组具有相当一致的结构特点：十分细小和致密，基因的排列紧密，没有或很少的基因间隔序列，所有的基因都不含有内含子。

线粒体因其独特的系统发育历史常被用作系统发育研究的重要分子标记物。例如，国际生命条形码项目(theInternationalBarcodeofLife,iBOL,http://ibol.org)利用线粒体的cox1基因作为动物的物种鉴别序列，已经获得近15万个物种的数据库，线粒体上的其他蛋白基因，如CYTB、ND1等都是有助于物种鉴定和系统发育关系的构建的很好的分子标记。

然而，如何快速有效的获得大量物种的线粒体基因组仍然是个难题。

发明内容

需要说明的是，本发明是基于发明人的下列发现而完成的：

传统的线粒体的基因组测序一般都是通过物理分离线粒体、常规PCR或LA-PCR的方法分离得到研究者所关注物种的线粒体DNA，然后通过酶切或超声打断的方法得到短的DNA片段，通过第一代测序仪(基于Sanger测序原理)测序并通过软件进行组装得到全长线粒体基因组序列。而这些传统方法都不可避免的需要针对单个物种设计引物，并逐个进行扩增和测序。受到引物设计和测序通量的限制，该过程非常耗时，成本高，无法快速的用于大量生物的全线粒体基因组测序。近年来第二代测序技术(thenextgenerationsequencingtechnology,NGS)使人们有能力完成大量样品的线粒体基因组测序。同时，也使低廉地获取大量不同物种的全线粒体基因组成为可能。NGS所能够提供的测序通量大大超过任何单个线粒体基因组的测序需求，以IlluminaHiSeq2000为例，单个run的测序通量达到600G，足以对30万个线粒体基因组进行100X的测序。虽然将不同的样品混合可以解决通量浪费的问题，但是怎样将混合的测序结果一一对应回混合样本中的原初个体是目前研究的瓶颈。目前常用的技术采用物理分隔或在样本测序前添加带有索引标签的接头来区分同一个测序反应中的多个样品。此技术的应用虽然能够极大的增加一次测序反应中测序样本的数量，但由于此方法需要对每一个样本单独建库，其成本会随着所需测序样本的数量呈线性增长，因此大大限制了索引标签序列在混合样本中的应用。

从测序技术发展的早期开始，研究人员们就在找寻一种能够大规模测序和分析物种的方法。不同的研究人员都从理论的角度上验证了混合测序分析的可行性。2010年Timmermans等人将该思路应用在了30个鞘翅目的线粒体全基因组测序上，证实了宏线粒体基因组测序分析的可行性，他们利用大片段PCR扩增富集线粒体基因组，并利用罗氏454测序30个混合的甲虫线粒体，扩增特定基因片段以辅助组装。然而该研究中使用的LA-PCR受引物的限制很大，尤其对于不同科目的物种需要针对性的设计引物。而且因为，其混合的物种亲缘关系较近，导致混合组装过程中产生钳合体的概率大大增加，同时也需要一系列特定基因片段的sanger测序结果辅助组装，进一步增加了人力物力成本。

因而，现阶段大量物种的线粒体基因组组装的方法仍有待改进。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种能够快速有效的同时确定大量物种的线粒体基因组信息的手段。具体地，本发明旨在通过利用NGS的高通量和低成本的优势，结合宏基因组分析技术，通过生物信息学的方法混合组装动物线粒体基因组。

根据本发明的一个方面，本发明提供了一种同时确定多种样本的线粒体基因组序列信息的方法，所述多种样本所属种相互不同。根据本发明的实施例，该方法包括以下步骤：提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物；将所述DNA混合物进行文库构建，以便获得DNA测序文库；对所述DNA测序文库进行测序，以便获得多个测序序列；将所述多个测序序列进行筛选，以便获得目标序列；将所述目标序列进行序列组装，以便获得多个组装序列；将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。

发明人惊奇地发现，利用本发明的方法能够一次性平行获得大量物种的线粒体基因组。并且，根据本发明的实施例，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用。

根据本发明的另一方面，本发明还提供了一种用于同时确定多种样本的线粒体基因组序列信息的系统，所述多种样本所属种相互不同。根据本发明的实施例，该系统包括：DNA混合物提供装置，所述DNA混合物提供装置用于提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物；文库构建装置，所述文库构建装置与所述DNA混合物提供装置相连，用于将所述DNA混合物进行文库构建，以便获得DNA测序文库；测序装置，所述测序装置与所述文库构建装置相连，用于对所述DNA测序文库进行测序，以便获得多个测序序列；筛选装置，所述筛选装置与所述测序装置相连，用于将所述多个测序序列进行筛选，以便获得目标序列；序列组装装置，所述序列组装装置与所述筛选装置相连，用于将所述目标序列进行序列组装，以便获得多个组装序列；形态学物种分类装置，所述形态学物种分类装置用于将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；组装序列物种分配装置，所述组装序列物种分配装置分别与所述序列组装装置和所述形态学物种分类装置相连，用于基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及线粒体基因组构建装置，所述线粒体基因组构建装置与所述组装序列物种分配装置相连，用于基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。

根据本发明的实施例，利用本发明的系统能够一次性平行获得大量物种的线粒体基因组。并且，发明人发现，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用。

其中，需要说明的是，在本文中所采用的表达方式“蛋白基因”、“蛋白编码基因”、“线粒体蛋白基因”均是指线粒体蛋白编码基因。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明一个实施例的同时确定多种样本的线粒体基因组序列信息的方法的流程示意图；

图2显示了根据本发明一个实施例，组装序列物种分配的流程示意图；

图3显示了根据本发明一个实施例，49个物种样本的线粒体基因组组装结果示意图；

图4显示了根据本发明一个实施例，49个物种样本的组装序列涵括线粒体蛋白基因情况的示意图；

图5显示了根据本发明一个实施例，49个物种样本中其中三个果蝇种的COI基因进化距离及其组装质量示意图；

图6显示了根据本发明一个实施例，利用软件Geneious注释6个组装线粒体基因组的结果示意图；

图7显示了根据本发明一个实施例的用于同时确定多种样本的线粒体基因组序列信息的系统的结构示意图；

图8显示了根据本发明一个实施例，筛选装置400的结构示意图；

图9显示了根据本发明一个实施例，序列组装装置500的结构示意图；

图10显示了根据本发明一个实施例，组装序列物种分配装置700的结构示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

根据本发明的一个方面，本发明提供了一种同时确定多种样本的线粒体基因组序列信息的方法，所述多种样本所属种相互不同。发明人惊奇地发现，利用本发明的方法能够一次性平行获得大量物种的线粒体基因组。并且，根据本发明的实施例，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用。

具体地，根据本发明的实施例，本发明的同时确定多种样本的线粒体基因组序列信息的方法包括以下步骤：

首先，提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物。

其次，将所述DNA混合物进行文库构建，以便获得DNA测序文库。根据本发明的实施例，所述DNA测序文库的插入片段长度为250bp。

再次，对所述DNA测序文库进行测序，以便获得多个测序序列。根据本发明的实施例，利用HiSeq2000测序平台进行所述测序。由此，前述的DNA测序文库也将按照HiSeq2000测序平台的文库构建策略构建。

接着，将所述多个测序序列进行筛选，以便获得目标序列。根据本发明的实施例，将所述多个测序序列进行筛选，进一步包括：将所述多个测序序列进行去接头污染和质量控制处理，以便获得经过去接头污染和质量控制处理的测序序列；将所述经过去接头污染和质量控制处理的测序序列进行第一比对，以便获得第一比对序列；将所述第一比对序列分剪成长度为51bp的Kmer片段；以及从所述多个测序序列中寻找与所述Kmer片段匹配的序列，并与所述第一比对序列合并，以便获得所述目标序列。由此，能够有效地筛选获得目标序列，从而能够提高后续线粒体基因组组装的准确性。根据本发明的一些具体示例，利用Blast将所述经过去接头污染和质量控制处理的测序序列与所述线粒体蛋白基因数据库进行所述第一比对。由此，比对结果准确可靠。

接下来，将所述目标序列进行序列组装，以便获得多个组装序列。根据本发明的实施例，将所述目标序列进行序列组装，进一步包括：将所述目标序列进行一次组装，以便获得多个一次组装序列；将所述多个一次组装序列进行线粒体注释，以便筛选获得注释为线粒体蛋白基因的一次组装序列；将所述注释为线粒体蛋白基因的一次组装序列进行聚类以及再整合组装，以便获得多个二次组装序列；对所述注释为线粒体蛋白基因的一次组装序列进行手动检查，以便确定可整合的序列；以及将所述多个二次组装序列和所述可整合的序列进行合并组装，以便获得多个所述组装序列。由此，能够有效地实现目标序列的组装，且组装效果好，进而有利于后续线粒体基因组的组装构建。根据本发明的一些具体示例，所述多个一次组装序列是通过分别利用SOAPdenovo2.0、SOAPdenovo-Trans和IDBA-UD进行所述一次组装获得的。由此，组装结果可靠，效果好，进而有利于后续线粒体基因组的组装构建。根据本发明的一些具体示例，利用TGICL进行所述聚类以及再整合组装。由此，聚类组装效果好，结果可靠。

接着，将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息。根据本发明的实施例，通过物种的形态学分类知识，对所述样本进行形态学物种分类，确定各样本的物种分类信息，即各样本来源的物种所属的门、纲、目、科、属的信息，由此，能够有效作为后续组装序列的物种分配的参考，以便辅助组装序列的物种分配，进而有利于后续线粒体基因组的组装构建。

接下来，基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列。根据本发明的实施例，所述线粒体蛋白基因数据库来自GenBank。根据本发明的实施例，将所述组装序列进行物种分配，进一步包括：将所述组装序列与所述线粒体蛋白基因数据库进行第二比对，以便获得所述组装序列与线粒体蛋白基因的最佳匹配信息；基于所述组装序列与线粒体蛋白基因的最佳匹配信息，确定所述组装序列的线粒体蛋白基因全分类阶元信息；基于多种样本的形态学物种分类信息和所述组装序列的线粒体蛋白基因全分类阶元信息，确定所述组装序列的线粒体蛋白基因的最佳分类阶元；以及基于所述组装序列的线粒体蛋白基因的最佳分类阶元，确定多种样本中每一种的组装序列。由此，能够有效对组装序列进行物种分配，并且分配结果可信度高，从而有利于后续线粒体基因组的组装构建。根据本发明的实施例，利用megablast进行所述第二比对。由此，能够比对结果准确、可靠。

根据本发明的实施例，按照选自下列至少之一的原则，将所述组装序列进行物种分配：

(1)优先选取匹配最低阶元且最多线粒体蛋白基因匹配该样本的组装序列；

(2)如果所述组装序列中含有CO1基因，优先选取CO1基因匹配最好的组装序列；

(3)基于已选择的组装序列所含有的线粒体蛋白基因，筛选只含有剩余线粒体蛋白基因并且丰度相近的组装序列；

(4)将未分配的组装序列作为Sanger测序匹配的对象，用于补全线粒体基因组；

(5)针对经过以上步骤没有找到任何线粒体蛋白基因序列或者是仍有线粒体蛋白基因缺失的样本，测序得到CO1、ND1和ND5三个基因的片段序列，以便确定并筛选出缺失的线粒体蛋白基因序列。

由此，能够提高组装序列生物物种分配效率和分配结果的可信度，从而有利于后续线粒体基因组的组装构建。

然后，基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。

此外，如前所述，本发明所述的多种样本所属种相互不同，这是因为混合物种间的亲缘关系有可能影响到组装和后续组装序列的物种归类。因此，为保证最终线粒体结果的质量，本发明的方法要求根据先验的物种分类知识，一次实验中的混合物种里不出现同科的物种，即要求本发明所述的多种样本所属种相互不同。

根据本发明的另一些实施例，参照图1，本发明的同时确定多种样本的线粒体基因组序列信息的方法还可以包括以下步骤：

1、DNA的获取

所有多种样本分别单独提取DNA，DNA提取方法可以依照已知的提取DNA的方法。DNA提取完成后，利用Qubit2.0(Invitrogen,Lifetechnologies)进行定量检测。DNA的质量根据其总量、浓度及降解程度归为A、B、C和D类。每个样本取100ngDNA混合用于后续的实验。

2、测序文库构建和序列获取

依照的HiSeq2000平台的文库构建策略，将混合DNA构建插入片段为250bp的小片段文库。

然后，则利用边合成边测序原理的HiSeq2000平台，采用150bp两端测序的策略，对构建获得DNA测序文库进行测序。

3、线粒体基因组的获取

所有样本物种线粒体基因组的获取需要通过序列筛选、筛选结果的组装，序列的物种分配。具体如下：

1)序列筛选：

首先，将HiSeq下机数据进行低质量过滤，遵循标准包括，滤去有接头污染的、含有多于5个N和含有多于10个低质量(质量分<20)碱基的短序列(reads)得到高质量序列。

其次，用BLAST(相似度高于30％且e值小于等于10-5)将高质量reads比对到从GenBank上下载的线粒体数据库得到可能属于线粒体基因组的序列，称为经过比对的序列。

接着，将经过比对的序列打断成51bp的Kmer片段，再一次从下机序列中匹配序列寻找更多的可能属于线粒体的序列，与经过比对的序列合并称为目标序列，用于组装。

2)筛选结果的组装

将上述获得的目标序列分别用SOAPdenovo2.0(-K61，-k45)、SOAPdenovo-Trans(-K71，-L100，-t1)和IDBA-UD(kMaxShortSequence＝256,--num_threads12)分别进行组装。三种组装结果经过注释筛选出能注释为线粒体蛋白基因的组装序列用软件TGICL将以上筛选出来的组装序列经过聚类再整合组装(-l100-c10-v10000-p99-O'-repeat_stringency0.95-minmatch35-minscore35')，随后手动检查并整合上一步的序列，排除TGICL遗漏的可整合序列。

3)序列的物种分配

组装序列物种分配的流程如图2所示。具体地：

首先，用软件megablast将所有注释出来的基因比对到从GenBank下载线粒体蛋白基因数据库。对于单个基因，将其在数据库里匹配最好的物种的分类信息赋予它，如果该分类信息与各样本的形态学分类信息在科或更低阶元(一般而言样本可以从形态学上鉴定到科，如果由于缺乏专家意见等原因没有鉴定到科阶元则匹配目阶元信息依次类推)一致，则将该基因所属序列归为该样本。未被归类的cox1基因及其序列在生命条形码数据库(BOLD,http://boldsystems.org)中找分类信息之后再与各样本形态学分类信息匹配。最后为每个样本物种从匹配的序列中挑选出最可能的线粒体序列，主要原则有：一，优先选取匹配最低阶元且最多蛋白基因匹配该样本的序列；二，如果序列含有CO1基因，优先选取CO1基因匹配最好的序列；三，根据已选择的序列所含蛋白基因筛选只含有剩余蛋白基因、并且丰度相近的序列。最后针对未归类的序列将作为Sanger测序匹配的对象用于补全基因组。针对经过以上归类步骤没有找到任何线粒体序列或者是仍有蛋白基因缺失的物种，扩增并利用第一代测序得到基因CO1、ND1和ND5三个基因片段序列。这些序列用来确定并筛选出其样本所缺少的序列。最终每个样本找到的对应的序列被用来构建其线粒体基因组。

根据本发明的另一方面，本发明还提供了一种用于同时确定多种样本的线粒体基因组序列信息的系统，所述多种样本所属种相互不同。发明人发现，本发明的方法所需人力、物力和时间成本低，对实验材料即各物种样本DNA的要求不高，易于推广应用，利用该系统能够一次性平行获得大量物种的线粒体基因组。

根据本发明的一些实施例，参照图7，本发明的用于同时确定多种样本的线粒体基因组序列信息的系统1000包括：DNA混合物提供装置100、文库构建装置200、测序装置300、筛选装置400、序列组装装置500、形态学物种分类装置600、组装序列物种分配装置700和线粒体基因组构建装置800。

具体地，根据本发明的实施例，DNA混合物提供装置100用于提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物；文库构建装置200与DNA混合物提供装置100相连，用于将所述DNA混合物进行文库构建，以便获得DNA测序文库；测序装置300与文库构建装置200相连，用于对所述DNA测序文库进行测序，以便获得多个测序序列；筛选装置400与测序装置300相连，用于将所述多个测序序列进行筛选，以便获得目标序列；序列组装装置500与筛选装置400相连，用于将所述目标序列进行序列组装，以便获得多个组装序列；形态学物种分类装置600用于将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；组装序列物种分配装置700分别与序列组装装置500和形态学物种分类装置600相连，用于基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；线粒体基因组构建装置800与组装序列物种分配装置700相连，用于基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息。

根据本发明的实施例，所述线粒体蛋白基因数据库来自GenBank。

根据本发明的实施例，所述DNA测序文库的插入片段长度为250bp。

根据本发明的实施例，所述测序装置300为HiSeq2000测序平台。由此，前述的DNA测序文库也将按照HiSeq2000测序平台的文库构建策略构建。

根据本发明的实施例，参照图8，所述筛选装置400包括：序列处理单元401、第一比对单元402、分剪单元403和序列匹配合并单元404。根据本发明的一些具体示例，所述序列处理单元401用于将所述多个测序序列进行去接头污染和质量控制处理，以便获得经过去接头污染和质量控制处理的测序序列；所述第一比对单元402与所述序列处理单元401相连，用于将所述经过去接头污染和质量控制处理的测序序列进行第一比对，以便获得第一比对序列；所述分剪单元403与所述第一比对单元402相连，用于将所述第一比对序列分剪成长度为51bp的Kmer片段；所述序列匹配合并单元404分别与所述分剪单元403和所述第一比对单元402相连，用于从所述多个测序序列中寻找与所述Kmer片段匹配的序列，并与所述第一比对序列合并，以便获得所述目标序列。由此，能够有效地筛选获得目标序列，从而能够提高后续线粒体基因组组装的准确性。

根据本发明的一些实施例，所述第一比对单元402中设置有线粒体蛋白基因数据库，适于利用Blast将所述经过去接头污染和质量控制处理的测序序列与所述线粒体蛋白基因数据库进行所述第一比对。由此，比对结果准确可靠。

根据本发明的实施例，参照图9，所述序列组装装置500包括：一次组装单元501、线粒体注释单元502、聚类再整合组装单元503、手动检查单元504和合并组装单元505。根据本发明的一些具体示例，所述一次组装单元501用于将所述目标序列进行一次组装，以便获得多个一次组装序列；所述线粒体注释单元502与所述一次组装单元501相连，用于将所述多个一次组装序列进行线粒体注释，以便筛选获得注释为线粒体蛋白基因的一次组装序列；所述聚类再整合组装单元503与所述线粒体注释单元502相连，用于将所述注释为线粒体蛋白基因的一次组装序列进行聚类以及再整合组装，以便获得多个二次组装序列；所述手动检查单元504与所述聚类再整合组装单元502相连，用于对所述注释为线粒体蛋白基因的一次组装序列进行手动检查，以便确定可整合的序列；所述合并组装单元505分别与所述聚类再整合组装单元503和所述手动检查单元504相连，用于将所述多个二次组装序列和所述可整合的序列进行合并组装，以便获得多个所述组装序列。由此，能够有效地实现目标序列的组装，且组装效果好，进而有利于后续线粒体基因组的组装构建。

根据本发明的实施例，所述多个一次组装序列是通过分别利用SOAPdenovo2.0、SOAPdenovo-Trans和IDBA-UD进行所述一次组装获得的。由此，组装结果可靠，效果好，进而有利于后续线粒体基因组的组装构建。

根据本发明的实施例，所述聚类再整合组装单元503适于利用TGICL进行所述聚类以及再整合组装。由此，聚类组装效果好，结果可靠。

根据本发明的实施例，所述形态学物种分类装置600适于通过物种的形态学分类知识，对所述样本进行形态学物种分类，确定各样本的物种分类信息，即各样本来源的物种所属的门、纲、目、科、属的信息，由此，能够有效作为后续组装序列的物种分配的参考，以便辅助组装序列的物种分配，进而有利于后续线粒体基因组的组装构建。

根据本发明的实施例，参照图10，所述组装序列物种分配装置700包括：第二比对单元701、全分类阶元确定单元702、最佳分类阶元确定单元703和序列分配单元704。根据本发明的一些具体示例，所述第二比对单元701中设置有线粒体蛋白基因数据库，并接收有组装序列，用于将所述组装序列与所述线粒体蛋白基因数据库进行第二比对，以便获得所述组装序列与线粒体蛋白基因的最佳匹配信息；所述全分类阶元确定单元702与所述第二比对单元701相连，用于基于所述组装序列与线粒体蛋白基因的最佳匹配信息，确定所述组装序列的线粒体蛋白基因全分类阶元信息；所述最佳分类阶元确定单元703与所述全分类阶元确定单元702相连，用于基于多种样本的形态学物种分类信息和所述组装序列的线粒体蛋白基因全分类阶元信息，确定所述组装序列的线粒体蛋白基因的最佳分类阶元；所述序列分配单元704与所述最佳分类阶元确定单元703相连，用于基于所述组装序列的线粒体蛋白基因的最佳分类阶元，确定多种样本中每一种的组装序列。由此，能够有效对组装序列进行物种分配，并且分配结果可信度高，从而有利于后续线粒体基因组的组装构建。

根据本发明的实施例，所述第二比对单元701适于利用megablast进行所述第二比对。由此，能够比对结果准确、可靠。

根据本发明的一些实施例，所述组装序列物种分配装置700适于按照选自下列至少之一的原则，将所述组装序列进行物种分配：

由此，能够显著提高组装序列生物物种分配效率和分配结果的可信度，从而有利于后续线粒体基因组的组装构建。

此外，还需要说明的是，本发明能够一次性平行获得大量物种的线粒体基因组，并且其有益效果至少还体现在以下两个方面：

第一，降低了获得线粒体基因组的人力，物力和时间成本。多个物种的混合有效规避了重复的文库构建工作，并能利用第二代测序仪，因为极大的降低了产生线粒体基因组生产的单位成本和时间，节省了大量的人力物力。根据公布的HiSeq2000化学试剂成本、现阶段测序通量、HiSeq2000平均建库成本、目前研究得到的线粒体DNA比例和得到较好组装结果的最低丰度(此研究建议10乘到20乘)计算得出生成单位线粒体基因组的化学试剂成本小于100元。成本较现有的第一代测序仪逐个基因测序下降10倍有余，更可贵的是其在时间和人力成本方面的下降，对加快科研及其相关领域的蓬勃发展将做出可预见的贡献。

第二，降低了对实验材料的要求。因为高通量测序的文库构建对DNA的在数量和质量上都有一定的要求，例如，对于小片度DNA文库的构建，要求起始量为1ug，DNA降解不严重。对于这样的标准，很多稀缺样品，或者是博物馆的样品，或者是因为个体微小，或者样品保存之初并未考虑到分子实验，导致这些样品能够提取到的DNA量很细微并且降解严重，因此这些样品无法获得其分子生物学的数据，对生物领域无疑是一个巨大的损失，而利用现有的方法和体系，能够获得其全线粒体基因组，是对目前生物多样性数据库的内容丰富程度起到了雪中送炭的作用。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以采购自Illumina公司。

实施例1

本实施例选择了49个物种(大多为昆虫，见表1)，包括47个属和42个科，大多数物种来自不同的科，有少数来自同一个科或亚科(如Cheilomenessexmaculata&Propyleajaponica,Letheconfusa&Mycalesismineus)甚至同属，如果蝇属的三个果蝇种。该选样策略可用于探索近缘物种混合测序对后续分析的影响。49个样本包括近期采集的样品和过往保存样本(收集于2009和2010年，详见表2)。

参照图1，根据本发明的同时确定多种样本的线粒体基因组序列信息的方法，按照以下步骤确定各样本的线粒体基因组：

1、DNA的获取

所有多种样品分别单独提取DNA，DNA提取方法可以依照已知的快速提取DNA的方法(参见：Ivanova,N.V.,Dewaard,J.R.andHebert,P.D.(2006)Aninexpensive,automation‐friendlyprotocolforrecoveringhigh‐qualityDNA.Mol.Ecol.Notes,6,998-1002.，通过参照将其全文并入本文)。DNA提取完成后，利用Qubit2.0(Invitrogen,Lifetechnologies)进行定量检测。DNA的质量根据其总量、浓度及降解程度归为A、B、C和D类(详见表1备注)。每个样本取100ngDNA混合用于后续的实验。

2、测序文库构建和序列获取

3、线粒体基因组的获取

1)序列筛选：

其次，用BLAST(相似度高于30％且e值小于等于10^-5)将高质量reads比对到从GenBank上下载的线粒体数据库(716个去冗余线粒体全基因组，分属699个节肢动物、7个海星和10个鲤科鱼，截止于2014年3月10日)得到可能属于线粒体基因组的序列，称为经过比对的序列。

2)筛选结果的组装

将上述获得的目标序列分别用SOAPdenovo2.0(-K61，-k45)(可参见：Li,R.,Zhu,H.,Ruan,J.,Qian,W.,Fang,X.,Shi,Z.,Li,Y.,Li,S.,Shan,G.,Kristiansen,K.etal.(2010)Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing.GenomeRes.,20,265-272.；Luo,R.,Liu,B.,Xie,Y.,Li,Z.,Huang,W.,Yuan,J.,He,G.,Chen,Y.,Pan,Q.,Liu,Y.etal.(2012)SOAPdenovo2:anempiricallyimprovedmemory-efficientshort-readdenovoassembler.Gigascience,1,18.，通过参照将其全文并入本文)、SOAPdenovo-Trans(-K71，-L100，-t1)(参见：Xie,Y.,Wu,G.,Tang,J.,Luo,R.,Patterson,J.,Liu,S.,Huang,W.,He,G.,Gu,S.,Li,S.etal.(2014)SOAPdenovo-Trans:denovotranscriptomeassemblywithshortRNA-Seqreads.Bioinformatics,arXiv:1305.6760.，通过参照将其全文并入本文)和IDBA-UD(kMaxShortSequence＝256,--num_threads12)(参见：Peng,Y.,Leung,H.C.,Yiu,S.M.andChin,F.Y.(2012)IDBA-UD:adenovoassemblerforsingle-cellandmetagenomicsequencingdatawithhighlyunevendepth.Bioinformatics,28,1420-1428.，通过参照将其全文并入本文)分别进行组装。三种组装结果经过注释(参见：Zhou,X.,Li,Y.,Liu,S.,Yang,Q.,Su,X.,Zhou,L.,Tang,M.,Fu,R.,Li,J.andHuang,Q.(2013)Ultra-deepsequencingenableshigh-fidelityrecoveryofbiodiversityforbulkarthropodsampleswithoutPCRamplification.GigaScience,2,4.，通过参照将其全文并入本文)筛选出能注释为线粒体蛋白基因的组装序列用软件TGICL(参见：Pertea,G.,Huang,X.,Liang,F.,Antonescu,V.,Sultana,R.,Karamycheva,S.,Lee,Y.,White,J.,Cheung,F.,Parvizi,B.etal.(2003)TIGRGeneIndicesclusteringtools(TGICL):asoftwaresystemforfastclusteringoflargeESTdatasets.Bioinformatics,19,651-652.，通过参照将其全文并入本文)将以上筛选出来的组装序列经过聚类再整合组装(-l100-c10-v10000-p99-O'-repeat_stringency0.95-minmatch35-minscore35')，随后手动检查并整合上一步的序列，排除TGICL遗漏的可整合序列。

3)序列的物种分配

组装序列物种分配的流程如图2所示。首先用软件megablast将所有注释出来的基因比对到从GenBank下载线粒体蛋白基因数据库(包含886,010条序列，包括所有的节肢动物、海星和斑马鱼，截止于2014年2月25日下载)。对于单个基因，将其在数据库里匹配最好的物种的分类信息赋予它，如果该分类信息与49个样本的形态学分类信息在科或更低阶元(一般而言样本可以从形态学上鉴定到科，如果由于缺乏专家意见等原因没有鉴定到科阶元则匹配目阶元信息依次类推)一致，则将该基因所属序列归为该样本。未被归类的cox1基因及其序列在生命条形码数据库(BOLD,http://boldsystems.org)中找分类信息之后再与49个样品形态学分类信息匹配。最后为每个样本物种从匹配的序列中挑选出最可能的线粒体序列，主要原则有：一，优先选取匹配最低阶元且最多蛋白基因匹配该样本的序列；二，如果序列含有CO1基因，优先选取CO1基因匹配最好的序列；三，根据已选择的序列所含蛋白基因筛选只含有剩余蛋白基因、并且丰度相近的序列。最后针对未归类的序列将作为Sanger测序匹配的对象用于补全基因组。针对经过以上归类步骤没有找到任何线粒体序列或者是仍有蛋白基因缺失的物种，扩增并利用第一代测序得到基因CO1、ND1和ND5三个基因片段序列。这些序列用来确定并筛选出其样本所缺少的序列。最终每个样本找到的对应的序列被用来构建其线粒体基因组。

简而言之，分别提取DNA，按照其总量、浓度及降解程度归为A、B、C和D类(详见表1及其备注)。每个样本DNA取100ng混合用于构建250bp插入片段的文库，并在Hiseq2000测序仪上完成150PE测序。结果，共产生1个lane(约35G下机数据)产生的230百万对序列，经过去除被接头序列污染、低质量的和非线粒体的数据后，筛选得到22百万对(3.3G，包含了候选的线粒体reads)高质量reads用于组装。采用了3种组装软件SOAPdenovo、SOAPdenovo-Trans和IDBA-UD进行组装，分别得到884,000、208,000和270,000条组装结果，分别包含了691、383和416条线粒体的序列。TGICL软件进一步将这3种软件得到的线粒体组装序列组装得到658条线粒体组装序列。经过手工检查之后，得到649条线粒体序列用于后续的分析。

将649条线粒体组装序列与NCBI线粒体蛋白数据库进行megablast比对，得到这649条线粒体组装序列的蛋白编码基因注释结果(包含118条含CO1基因序列和531条无CO1基因序列)。第一轮的物种鉴定得到了蛋白编码基因的47条线粒体组装序列，对应于输入物种(inputtaxa)当中的38个物种。这47条线粒体组装序列后续将被用来构建线粒体基因组。此外，4条包含CO1基因的组装序列通过与BOLD数据库中的CO1条码序列进行比对，得到了其物种鉴定信息。经过前面2个步骤之后，未能找到49个输入物种中的7个物种(均为蜉蝣目)对应的线粒体组装序列。然后，通过对这7个物种的CO1条码序列进行Sanger测序，发明人鉴定得到了这7个物种。前面的步骤未能区分开这些蜉蝣，是因为公共数据库中蜉蝣目参考序列非常稀缺。

最后，包含有632个蛋白编码基因的60条组装被鉴定到49个输入物种，并且大多数(44个)物种只有1条序列(图3和表1)。组装得到的大部分(36个)物种线粒体基因组均长于15Kb(其中包含20个完整线粒体基因组)，其余物种的线粒体基因组长度均长于10Kb。这些蛋白编码基因序列的完整性非常的高(全长的99.6％)；637个蛋白编码基因中只有5个基因片段被丢失了(图4)。蛋白编码基因和其它线粒体基因的注释结果(利用软件Geneious进行注释)总结在图3和图6。

实施例2

发明人对实施例1的最终结果进行了验证，方法和结果如下：

利用上述实施例1获得的各样本的DNA，针对每个物种，利用Sanger测序技术，对来自CO1、ND1和ND5基因的共129条片段进行了测序，产生的序列用于验证组装得到的线粒体组装结果。结果，未发现与实施例的组装结果不一致的地方，也没有观察到嵌合体(表1和图5)。其中3个果蝇组装结果的验证更证明了本发明的组装流程的高效性(图5)。这3个同属物种两两之间在线粒体基因组长度方向上表现出显著的变异性，其中D.erecta和D.melanogaster存在微小的种间差异。低变异度区间的验证表明本发明的组装流程能够正确地重建这3个物种高度相似的同源序列中的每一条序列。因此，利用本发明获取的线粒体序列结果的准确性经过了双重考验：(1)129条第一代测序序列的验证；(2)不同物种之间的氨基酸序列的保守性和蛋白基因长度的验证。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种同时确定多种样本的线粒体基因组序列信息的方法，所述多种样本所属种相互不同，其特征在于，包括以下步骤：

提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物；

将所述DNA混合物进行文库构建，以便获得DNA测序文库；

对所述DNA测序文库进行测序，以便获得多个测序序列；

将所述多个测序序列进行筛选，以便获得目标序列；

将所述目标序列进行序列组装，以便获得多个组装序列；

将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；

基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及

基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息，

任选地，所述线粒体蛋白基因数据库来自GenBank。

2.根据权利要求1所述的方法，其特征在于，所述DNA测序文库的插入片段长度为250bp，

任选地，利用HiSeq2000测序平台进行所述测序。

3.根据权利要求1所述的方法，其特征在于，将所述多个测序序列进行筛选，进一步包括：

将所述多个测序序列进行去接头污染和质量控制处理，以便获得经过去接头污染和质量控制处理的测序序列；

将所述经过去接头污染和质量控制处理的测序序列进行第一比对，以便获得第一比对序列；

将所述第一比对序列分剪成长度为51bp的Kmer片段；以及

从所述多个测序序列中寻找与所述Kmer片段匹配的序列，并与所述第一比对序列合并，以便获得所述目标序列，

任选地，利用Blast将所述经过去接头污染和质量控制处理的测序序列与所述线粒体蛋白基因数据库进行所述第一比对。

4.根据权利要求1所述的方法，其特征在于，将所述目标序列进行序列组装，进一步包括：

将所述目标序列进行一次组装，以便获得多个一次组装序列；

将所述多个一次组装序列进行线粒体注释，以便筛选获得注释为线粒体蛋白基因的一次组装序列；

将所述注释为线粒体蛋白基因的一次组装序列进行聚类以及再整合组装，以便获得多个二次组装序列；

对所述注释为线粒体蛋白基因的一次组装序列进行手动检查，以便确定可整合的序列；以及

将所述多个二次组装序列和所述可整合的序列进行合并组装，以便获得多个所述组装序列，

任选地，所述多个一次组装序列是通过分别利用SOAPdenovo2.0、SOAPdenovo-Trans和IDBA-UD进行所述一次组装获得的，

任选地，利用TGICL进行所述聚类以及再整合组装。

5.根据权利要求1所述的方法，其特征在于，将所述组装序列进行物种分配，进一步包括：

将所述组装序列与所述线粒体蛋白基因数据库进行第二比对，以便获得所述组装序列与线粒体蛋白基因的最佳匹配信息；

基于所述组装序列与线粒体蛋白基因的最佳匹配信息，确定所述组装序列的线粒体蛋白基因全分类阶元信息；

基于多种样本的形态学物种分类信息和所述组装序列的线粒体蛋白基因全分类阶元信息，确定所述组装序列的线粒体蛋白基因的最佳分类阶元；以及

基于所述组装序列的线粒体蛋白基因的最佳分类阶元，确定多种样本中每一种的组装序列，

任选地，利用megablast进行所述第二比对，

任选地，按照选自下列至少之一的原则，将所述组装序列进行物种分配：

6.一种用于同时确定多种样本的线粒体基因组序列信息的系统，所述多种样本所属种相互不同，其特征在于，包括：

DNA混合物提供装置，所述DNA混合物提供装置用于提供所述多种样本中每一种的基因组DNA并混合，以便获得DNA混合物；

文库构建装置，所述文库构建装置与所述DNA混合物提供装置相连，用于将所述DNA混合物进行文库构建，以便获得DNA测序文库；

测序装置，所述测序装置与所述文库构建装置相连，用于对所述DNA测序文库进行测序，以便获得多个测序序列；

筛选装置，所述筛选装置与所述测序装置相连，用于将所述多个测序序列进行筛选，以便获得目标序列；

序列组装装置，所述序列组装装置与所述筛选装置相连，用于将所述目标序列进行序列组装，以便获得多个组装序列；

形态学物种分类装置，所述形态学物种分类装置用于将所述多种样本中每一种进行形态学物种分类，以便获得多种样本的形态学物种分类信息；

组装序列物种分配装置，所述组装序列物种分配装置分别与所述序列组装装置和所述形态学物种分类装置相连，用于基于多种样本的形态学物种分类信息，参考线粒体蛋白基因数据库，将所述组装序列进行物种分配，以便确定多种样本中每一种的组装序列；以及

线粒体基因组构建装置，所述线粒体基因组构建装置与所述组装序列物种分配装置相连，用于基于所述多种样本中每一种的组装序列，分别构建各样本的线粒体基因组，确定线粒体基因组序列信息，

任选地，所述线粒体蛋白基因数据库来自GenBank。

7.根据权利要求6所述的系统，其特征在于，所述DNA测序文库的插入片段长度为250bp，

任选地，所述测序装置为HiSeq2000测序平台。

8.根据权利要求6所述的系统，其特征在于，所述筛选装置包括：

序列处理单元，所述序列处理单元用于将所述多个测序序列进行去接头污染和质量控制处理，以便获得经过去接头污染和质量控制处理的测序序列；

第一比对单元，所述第一比对单元与所述序列处理单元相连，用于将所述经过去接头污染和质量控制处理的测序序列进行第一比对，以便获得第一比对序列；

分剪单元，所述分剪单元与所述第一比对单元相连，用于将所述第一比对序列分剪成长度为51bp的Kmer片段；以及

序列匹配合并单元，所述序列匹配合并单元分别与所述分剪单元和所述第一比对单元相连，用于从所述多个测序序列中寻找与所述Kmer片段匹配的序列，并与所述第一比对序列合并，以便获得所述目标序列，

任选地，所述第一比对单元中设置有线粒体蛋白基因数据库，适于利用Blast将所述经过去接头污染和质量控制处理的测序序列与所述线粒体蛋白基因数据库进行所述第一比对。

9.根据权利要求6所述的系统，其特征在于，所述序列组装装置包括：

一次组装单元，所述一次组装单元用于将所述目标序列进行一次组装，以便获得多个一次组装序列；

线粒体注释单元，所述线粒体注释单元与所述一次组装单元相连，用于将所述多个一次组装序列进行线粒体注释，以便筛选获得注释为线粒体蛋白基因的一次组装序列；

聚类再整合组装单元，所述聚类再整合组装单元与所述线粒体注释单元相连，用于将所述注释为线粒体蛋白基因的一次组装序列进行聚类以及再整合组装，以便获得多个二次组装序列；

手动检查单元，所述手动检查单元与所述聚类再整合组装单元相连，用于对所述注释为线粒体蛋白基因的一次组装序列进行手动检查，以便确定可整合的序列；以及

合并组装单元，所述合并组装单元分别与所述聚类再整合组装单元和所述手动检查单元相连，用于将所述多个二次组装序列和所述可整合的序列进行合并组装，以便获得多个所述组装序列，

任选地，所述聚类再整合组装单元适于利用TGICL进行所述聚类以及再整合组装。

10.根据权利要求6所述的系统，其特征在于，所述组装序列物种分配装置包括：

第二比对单元，所述第二比对单元用于将所述组装序列与所述线粒体蛋白基因数据库进行第二比对，以便获得所述组装序列与线粒体蛋白基因的最佳匹配信息；

全分类阶元确定单元，所述全分类阶元确定单元与所述第二比对单元，用于基于所述组装序列与线粒体蛋白基因的最佳匹配信息，确定所述组装序列的线粒体蛋白基因全分类阶元信息；

最佳分类阶元确定单元，所述最佳分类阶元确定单元与所述全分类阶元确定单元相连，用于基于多种样本的形态学物种分类信息和所述组装序列的线粒体蛋白基因全分类阶元信息，确定所述组装序列的线粒体蛋白基因的最佳分类阶元；以及

序列分配单元，所述序列分配单元与所述最佳分类阶元确定单元相连，用于基于所述组装序列的线粒体蛋白基因的最佳分类阶元，确定多种样本中每一种的组装序列，

任选地，所述第二比对单元适于利用megablast进行所述第二比对，

任选地，所述组装序列物种分配装置适于按照选自下列至少之一的原则，将所述组装序列进行物种分配：