CN108866173A

CN108866173A - 一种标准序列的验证方法、装置及其应用

Info

Publication number: CN108866173A
Application number: CN201710344471.8A
Authority: CN
Inventors: 邓天全; 高强; 杨林峰; 贺丽娟; 王娟
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2018-11-23

Abstract

本申请公开了一种标准序列的验证方法及装置，还公开了一种基因组组装序列的评估方法及装置。本申请提供的标准序列的验证方法，其标准序列中包含样品DNA的片段，其验证方法包括：获取reads数据库，该reads数据库通过将样品DNA片段化处理后构建测序文库并测序得到。将标准序列与上述reads数据库进行比对，计算标准序列的准确度。本申请的有益效果在于：通过将样品DNA测序的得到的reads数据库与标准序列进行对比，即对标准序列进行辅助验证，根据比对结果过滤掉有误的标准序列，确保了用于验证基因组组装序列的标准序列的准确性，进而提高了利用标准序列对基因组组装序列的评估效率。

Description

一种标准序列的验证方法、装置及其应用

技术领域

本发明涉及分子生物学领域，具体涉及一种标准序列的验证方法及装置，还涉及一种基因组组装序列的评估方法及装置。

背景技术

随着生物技术的不断发展，基因检测成为了临床诊断和科学研究的热点，而DNA测序技术也得到了极大的发展。De Novo测序也叫从头测序，不需要任何基因序列信息即可对某个物种进行测序。其主要是采用生物信息学的分析方法对序列进行拼接、组装，从而获得该物种的基因组序列图谱。目前广泛应用于从头解析未知物种的基因组序列、基因组成、进化特点等。在De Novo测序中，首先将样品基因组DNA打断成一定固定长度的片段，采用第二代测序技术对这些片段进行序列测定得到reads(读长，高通量测序平台产生的序列)，再将这些测定后的reads进行组装，先将reads拼接获得Contig(重叠群)后，再将得到的Contig进一步组装成Scaffold，进而得到完整的组装后的基因组组装序列。

细菌人工染色体(Bacterial Artificial Chromosome，简写为BAC)是一种承载DNA大片段的克隆载体系统，用于人、动物和植物基因组文库构建。BAC具有插入片段大、嵌合率低、遗传稳定性好、易于操作等优点。BAC文库的构建是基因组较大的真核生物基因组学研究的重要基础，可用于真核生物重要基因及全基因组物理作图、重要性状基因的图位克隆、基因结构及功能分析。Fosmid文库和BAC文库类似，只是比之小很多。Fosmid文库中，插入片段的大小一般是30～40Kb，而BAC文库中的插入片段大小一般是100～200Kb。

在De Novo测序中，基因组组装指标的好坏直接影响着整个基因组的质量。目前，评估基因组组装结果的准确性的方法之一，是用标准序列对基因组组装序列进行评估。具体的，将样品基因组DNA打断成一定大小的片段插入BAC或Fosmid构成BAC或Fosmid文库，从中随机挑选一定数量的BAC或Fosmid克隆序列作为标准序列，将标准序列与基因组组装序列进行比对，检查基因组组装序列对标准序列的覆盖度到什么水平，进而判断基因组组装序列的准确性。基因组组装序列和标准序列比对评价结果一般出现三种情况，如图1所示，图1中除标识序列大小的比例尺外，在上方的红色线段代表Fosmid序列，在下方的蓝色线段代表基因组组装序列Scaffold，两线段之间的部分则表示两者的匹配情况。具体的，图1中，A是组装结果Scaffold基本上和BAC或Fosmid序列完全比对上，准确非常高的情况；B是BAC或Fosmid序列的中间部分比对不上，是由于基因组组装序列的Scaffold中间序列组装不起来造成的，但可证明基因组组装序列的本段Scaffold序列组装结果的结构是准确的；C是BAC或Fosmid序列大部分区域比对不上基因组组装序列的结果。出现上述第三种情况时，可能的原因有二个，一是基因组组装错误，二是作为标准序列的BAC或Fosmid序列本身有误，即BAC或Fosmid序列在建库、测序或组装过程中存在问题，导致BAC或Fosmid序列有误。因此通常情况下，采用标准序列进行比对的评估效率或评估结果的有效性仅60-80％。

如何提高上述比对的评估效率，使得基因组组装的评估结果更具可靠性，是目前亟待解决的一个问题。

发明内容

针对上述问题，本申请提供一种标准序列的验证方法及装置，还提供了一种基因组组装序列的评估方法及装置。

根据第一方面，本申请提供了一种标准序列的验证方法，该标准序列中包含样品DNA的片段，该验证方法包括：获取reads数据库，该reads数据库通过将样品DNA片段化处理后构建测序文库并测序得到。将标准序列与上述reads数据库进行比对，计算标准序列的准确度。

上述获取reads数据库包括：将样品DNA片段化处理构建测序文库，其中，测序文库中的样品DNA片段长度在测序可测通范围内。对该测序文库进行测序得到原始reads数据。对原始reads数据进行数据处理即可得到reads数据库。

需要说明的是，上述测序可测通范围是对应所选择的测序策略而言的。采用单端测序时，测序可测通范围即测序读长本身，此时，样品DNA片段的长度不能超过测序读长，测序读长本身覆盖了样品DNA片段的长度，可确保这一片段能被完整测出。而采用双末端测序时，测序可测通范围则并不完全等于实际测序中的测序读长，在本申请的一种具体实施方式中，该测序可测通范围实际是第一读长和第二读长的总和再减去第一读长和第二读长的重叠部分，采用这样的测序方法时，得到的第一读长和第二读长可直接通过两个数据对应的重叠部分进行拼接得到该片段的测序结果，尽管需进行拼接，但实质上仍是对该片段的全长进行测序，且能获得该片段全长的完整数据。此外，上述对原始reads数据进行数据处理包括对原始reads数据进行杂质数据过滤，具体包括去除接头序列和去除低质量序列，其目的在于提高数据的有效性。

上述reads数据库获取时采用的测序方法为双末端测序法，测序文库中的每个片段在测序时生成有重叠部分的第一读长和第二读长。

进一步的，原始reads数据的数据处理包括：对原始reads数据进行杂质数据过滤。对过滤后的reads数据进行拼接，所述拼接是指：对于测序文库中的每个片段，将通过双末端测序得到的第一读长和第二读长数据根据重叠部分进行拼接得到所述片段的拼接序列。所有拼接序列的集合构成reads数据库。

上述计算标准序列的准确度包括计算reads数据库对标准序列的覆盖度。具体的，覆盖度为reads数据库覆盖的标准序列的比例。

需要说明的是，上述reads数据库覆盖的标准序列的比例是指在比对后可与标准序列的匹配的reads实际覆盖的标准序列的长度与标准序列本身的长度的比值。通常情况下认为，当上述覆盖度达到90％及以上时，可判定该标准序列的准确度是可以接受的，即可将其进一步作为基因组组装序列的标准序列。

进一步的，上述标准序列为BAC和Fosmid序列中的至少一种。具体的，上述BAC和Fosmid序列的获得包括：将样品DNA打断后构建BAC或Fosmid文库；从BAC或Fosmid文库中挑选BAC或Fosmid克隆序列；对被挑选的BAC或Fosmid克隆序列构建测序文库并进行测序组装得到BAC或Fosmid序列。

需要说明的是，在本申请中标准序列的获取与reads数据库的获取之前并没有先后关系的限制。先获取了reads数据库，再得到标准序列，或者先有了标准序列再获取reads数据库，并不影响本申请。本申请的实质在于，将两者进行比对以达到验证标准序列的目的。

根据第二方面，本申请提供了一种用于验证标准序列的装置，该装置包括：数据获取单元和准确度计算单元。其中，数据获取单元用于获取reads数据库和标准序列的信息并向准确度计算单元发送相关信息。准确度计算单元，则用于将接收到的标准序列与reads数据库进行比对并计算输出准确度。

需要说明的是，在数据获取单元中，reads数据库和标准序列的相关信息的具体储存方式，例如是分别储存，或者是通过对两类数据增加特殊标签以示区别的混合储存，均不构成对本申请的限制，本领域技术人员可根据常用的数据存储方式对相关信息进行处理以方便使用。此外，准确度计算单元中关于标准序列与reads数据库的比对方法，可采用现有的通用的比对标准进行比对，或直接通过连接现有的软件进行比对，例如比对软件可用bwa、SOAPaligner等。比对后的结果进行计算时，计算准确度的具体方法在之前已有描述故在此不再累述，前述方法中的相关计算描述在装置中依然适用，该计算也可通过输入现有的软件进行计算。

根据本申请提供的第三方面，本申请提供了一种基因组组装序列的评估方法，该方法包括将通过测序组装得到样品DNA的基因组组装序列与标准序列进行比对，而上述标准序列按照上述本申请第一方面提供的验证方法进行验证并满足预先设定的准确度的要求。优选的，在评估比对前，上述标准序列先按照上述的验证方法进行验证并满足预先设定的准确度的要求。

需要说明的是，在本申请中，标准序列的构建和获得是在基因组组装序列获取之前还是之后，并不构成对本申请的限制。而标准序列的验证是在基因组组装序列的评估前或评估后，也并不构成对本申请的限制。当然，本申请优选的方案是在评估前进行验证，以删除有误的标准序列，这样有利于一次得出更有效的评估结果。但在评估后再删除有误的标准序列，从而再调整评估结果也并非不可以实现本申请的目的。因此，若在评估后再根据验证结果进行调整，并不对最终的评估效率的结果本身产生影响。本领域技术人员可以根据实际情况来选择验证的顺序问题。此外，当选择在评估后再进行验证时，是否需对所有用于评估的标准序列均进行验证，也可以选择。事实上不难理解，对于评估结果的现实匹配度很高时，该标准序列是否需要进行验证的意义不大。因此，可仅对于匹配度不高的、或匹配度处于临界状态的标准序列做进一步的验证以确认该标准序列的准确性。此时，并不是全部的标准序列都必须经过验证而是其中有需要的部分标准序列进行验证。换而言之，在本申请中，鉴于标准序列往往不止一条，存在多条标准序列时，需验证的标准序列可以是全部，也可以是部分，标准序列是否需要验证可选择预先进行全部验证也可以选择在第一次评估后根据评估结果对个别标准序列进行验证。

根据本申请的第四方面，本申请提供了一种用于评估基因组组装序列的装置，该装置包括：数据获取单元、准确度计算单元和组装评估单元。其中，数据获取单元用于获取reads数据库、基因组组装序列和标准序列的信息并向准确度计算单元和/或组装评估单元发送相关信息。准确度计算单元，用于将接收到的标准序列与reads数据库进行比对并计算准确度，并向组装评估单元发送准确度相关信息。组装评估单元用于接收基因组组装序列的相关信息，并根据接收到的准确度计算单元的相关数据完成对标准序列的筛选，将基因组组装序列与筛选后的标准序列进行比对并计算输出组装的评估结果。

需要说明的是，准确度相关信息可以仅仅是准确度符合要求的标准序列名称，此时，组装评估单元需根据接收到的标准序列名称从数据获取单元中对应获取该序列的信息。准确度相关信息也可以包括准确度符合要求的标准序列的全部信息，此时，组装评估单元不需要再从数据获取单元获取标准序列的信息。因此，组装评估单元获取标准序列信息的方式是多种途径的，该不同的获取方式不构成对本申请的限制。在该装置中，采用的策略是先对全部的标准序列进行筛选再将通过验证筛选的标准序列引入后续的组装评估中。

同时，本申请还提供了另一种用于评估基因组组装序列的装置，该装置包括：数据获取单元、准确度计算单元和组装评估单元。其中，数据获取单元用于获取reads数据库、基因组组装序列和标准序列的信息并向准确度计算单元和/或组装评估单元发送相关信息。不同的是，该装置中，组装评估单元用于将接收到的基因组组装序列与标准序列进行比对；根据比对结果，将需要进行验证的标准序列的相关信息发送给准确度计算单元；从准确度计算单元接收数据；计算输出组装的评估结果。而准确度计算单元，接收组装评估单元发送的需要验证的标准序列的相关信息，并将需要验证的标准序列与reads数据库进行比对并计算输出准确度。

需要说明的是，在该装置中，采取了先进行评估再进行验证的策略，关于这一顺序的相关方法性描述在此前的方法描述中已经有所说明，故在此不再累述。同时，关于准确度计算单元获取的标准序列的相关信息可以仅是该标准序列的名称，此时准确度计算单元仍需从数据获取单元中提取相关标准序列的数据，另一方面，准确度计算单元获取的标准序列的相关信息也可以包括该序列本身的全部信息，此时准确度计算单元并不需要再另外从数据获取单元中提取相关标准序列的数据。此外，关于评估的比对结果，在哪种情况下需要进行对该标准序列进行验证，可由本领域技术人员根据实际情况，例如组装序列的精确度要求来选择和设定。

由于采用了上述技术方案，本申请的有益效果在于：通过将样品DNA测序得到的reads数据库与标准序列进行对比，即对标准序列进行辅助验证，根据比对结果过滤掉有误的标准序列，确保了用于验证基因组组装序列的标准序列的准确性，进而提高了利用标准序列对基因组组装序列的评估效率。

附图说明

图1为标准序列评估基因组组装序列的几种评估结果；

图2为本申请的具体实施方式中关于双末端测序的方法示意图；

图3为本申请的具体实施方式中对标准序列进行验证后，剔除覆盖度低的Fosmid序列后的基因组组装序列的比对评估结果示意图；

图4为本申请的具体实施方式中未对标准序列进行的验证时，采用全部14条Fosmid序列对基因组组装序列的比对评估结果示意图。

具体实施方式

目前，用于评估基因组组装序列的标准序列，例如最常使用的BAC和Fosmid序列，其本身也是通过测序得到的，因此，在建库、测序和组装过程中若存在问题，很可能导致最终组装得到的BAC和Fosmid序列有误，这是导致采用标准序列对基因组组装序列进行的评估效率相对较低的重要原因。因此，如能对标准序列的准确性进行验证，则能有效提高评估效率。基于这一发明思路，申请人进行了大量的研究和设计，发现可将De Novo测序过程中生成的reads数据用于验证标准序列的准确性，实现不同途径获得的序列信息的交叉验证。具体来说，De Novo测序过程中生成的reads数据是根据样品DNA得到的，而标准序列也是根据样品DNA得到的，因此，两者的本质上来自同样的样品DNA，可以相互验证。

关于Reads数据库，其在De Novo测序过程中即可生成，是基本且直接的数据，是后续组装的数据来源，具有较高的准确性。通常De Novo测序中，会构建不同长度片段的测序文库，包括小片段文库和大片段文库，其小片段文库的插入片段可选100-800bp之间的若干种，大片段文库的插入片段则可选2kb、5kb、10kb、20kb等。事实上，无论小片段文库或大片段文库都会得到各自的reads数据。通常情况下，小片段文库的测序深度较深，其获得的reads数据通常作为后续组装的基础数据，而大片段文库的测序深度则较浅，其获得的reads数据主要用于在组装过程为Contig和/或Scaffold的连接、定位等提供信息。本领域技术人员熟知，测序深度越深，则得到reads数据相对更丰富，用其作为验证标准序列的数据源时，其验证效果更好。因此，在本申请中优选从小片段文库获取reads数据库。本领域技术人员可以根据本申请的说明，选择使用测序文库中的一种片段长度或多种片段长度的reads数据获取reads数据库。关于De Novo测序可根据样品DNA的情况，选择适当的测序策略进行操作。具体的，本申请中的样品DNA片段化处理可采用超声方式将待测序的样品DNA打断，也可采用其他方法，例如机械剪切或酶解等方法。将打断后的样品DNA片段进行处理并切胶回收构建成测序文库。构建测序文库的具体方法及步骤应根据所采用的测序策略而定，例如对打断后的DNA片段进行碱基修补，进行接头连接，进行PCR等。在现有的技术条件下，在测序反应中，随着测序读长的增加，测序出现错误的概率也增加。而reads的长度太短时，则可能因为样品DNA本身的序列特性，例如大量的重复片段等，可能影响验证结果的准确性。因此为获得更好的验证结果，在进行De Novo测序时，应在尽可能增加reads长度的同时确保reads本身的准确性。因此，本申请提供了一个优选的测序方法——双末端测序法，基于该测序策略，关于对样品DNA的片段化处理和测序文库的建立可参考表1。

DNA打断片段范围	切胶范围	测序策略	读长(读1，读2)
				100-300bp	250bp-270bp	双末端测序	150bp,150bp
100bp-500bp	450bp-470bp	双末端测序	250bp,250bp
				100bp-600bp	550bp-570bp	双末端测序	300bp,300bp

表1样品DNA的片段化处理、测序文库建立和测序策略

在采用双末端测序时，应注意结合切胶范围，选取相应测序读长进行测序，获取第一读长(即表1中的读1)和第二读长(即表1中的读2)，且读1和读2有重叠区域的序列，同时，读1和读2可基于其重叠区域拼接得到该段DNA片段的拼接序列。为更好的说明这一测序和拼接，请参考图2，图2中包括三个步骤及其状态，其中，步骤101表示获得切胶，此时图2中的1表示切胶后的DNA分子。步骤102表示双末端测序，此时，测序中得到两个读长，即第一读长2和第二读长3，2和3分别从DNA分子1的两端进行测序，两端读长存在一定的重叠区域。步骤103表示测序后的拼接，将步骤102中得到的2和3进行拼接得到拼接序列4。应注意的是，表1仅是根据现有的测序设备的测序读长给出的参考，当测序读长更长时，可进一步调整建库和切胶范围。调整过程中，需注意满足以下适用条件：DNA片段大小可保证读1和读2有10bp以上的重叠区域。

关于标准序列，目前主要是采用BAC和/或Fosmid序列。BAC和/或Fosmid序列的获取，可具体根据实际情况选择采用多种方式进行操作。在本申请的具体实施方式中，提供了以Fosmid克隆序列作为标准序列的情况。而关于标准序列的挑选，一般采用从构建的文库中随机挑选的方式。

下面通过具体实施方式结合附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

实施例1样品基因组DNA的测序及组装

本例是关于一个大小约950MB物种的基因组测序及组装。本例中De Novo测序中插入片段及相关测序信息如表2所示：

插入片段	测序平台	测序长度	数据量(G)
				350bp	Hiseq2000	PE100	12
450-470bp	Hiseq2500	PE250	63
				500bp	Hiseq2000	PE100	20
800bp	Hiseq2000	PE100	8
				2K	Hiseq2000	PE50	9
5K	Hiseq2000	PE50	5
				10K	Hiseq2000	PE50	6
20K	Hiseq2000	PE50	5
				40K	Hiseq2000	PE50	0.9

表2测序相关信息

采用platanus软件对上述测得的数据进行组装，该基因组测序的组装结果大小为915MB，Scaffold N50＝1.33MB，Contig N50＝50KB。

本例中，片段为450-470bp的测序结果用于构建reads数据库。下面对reads数据库的构建过程特补充说明如下：

1)提取样本物种的DNA并随机打断，经电泳后，分别切取450bp-470bp范围的凝胶纯化。纯化后的DNA片段连接测序接头，PCR，然后分别使用Hiseq2500测序仪进行双末端250bp序列读长的测序，获得读1和读2数据。

2)某些原始序列带有接头序列，或含有少量低质量序列。首先使用软件经过一系列数据处理以去除杂质数据，得到有效数据。过滤步骤：

(1)去除接头序列

(2)去除低质量序列(质量值小于等于20的碱基数占整个序列的20％以上)

(3)获得过滤后的序列

3)序列拼接：通过PEAR软件分别对过滤后的序列进行比对拼接，获得拼接后的序列，由于切胶峰值有偏差，故拼接序列平均长度为412bp。拼接序列的数据量约为45G。至此，reads数据库的获取完成。

其中，PEAR软件可从http://sco.h-its.org/exelixis/web/software/pear/获得。

实施例2标准序列的获取

本例的主要内容是构建实施例1中的样品物种的Fosmid文库，并从中挑选14条Fosmid克隆序列作为标准序列对实施例1中获得基因组组装序列进行组装效果评估。

1)关于Fosmid质粒文库的构建，具体的包括如下步骤。

(1)提取样品基因组DNA。

(2)将样品基因组DNA打断到约40kb的片段。

(3)将打断的DNA末端修复为5'-磷酸化的末端。

(4)通过LMP琼脂糖凝胶电泳分离30-40Kb之间的末端修复后的DNA。

(5)用乙醇纯化回收片段选择后的DNA。

(6)将平端DNA连接到CopyControl pCC1FOS或pCC2FOS载体上。

(7)体外包装连接好的DNA并导入受体细胞，涂平板，过夜培养。

(8)筛选合格的克隆，进行二次摇菌培养，诱导它们产生高拷贝数。

(9)从菌液中提取质粒备用(即Fosmid质粒)。

2)从上述Fosmid质粒文库中随机挑选14条Fosmid克隆序列，通过AgilentBravo自动化液体处理平台和Agilent BenchCel微孔板操纵器，构建插入片段为250bp-700bp的Fosmid克隆序列样品的PE Index文库，构建的文库用IlluminaHiSeq 2000测序。具体步骤如下：

(1)样品打断

从被选择的克隆序列样品中取适量DNA样品，使用Covaris打断仪对样品进行打断,样品打断的长度为250-700bp。

(2)末端修复

T4DNA聚合酶和Klenow聚合酶修复末端，制备平末端；

(3)DNA3’端加“A”

在聚合酶体系的作用下，使上一步得到的修复产物在3’末端加上A碱基，为下一步的接头连接做准备；

(4)加接头

配置接头反应体系，配制好的反应体系与样品混合，设定相应的时间与温度进行孵育，使DNA片段连接上PE index adapter(引入第一个index)。

(5)连接产物pooling

将不同index adapter的样品进行pooling，pooling产物使用磁珠纯化回收。

(6)连接产物片段选择

将纯化后的Pooling产物进行琼脂糖凝胶电泳，选择450-470bp片段胶块，切取的胶块使用试剂盒纯化回收。

(7)PCR扩增反应2/2

配制PCR反应体系，根据使用的试剂与文库片段，设置相应的PCR反应程序，进行PCR扩增(引入第二个index)。

(8)PCR产物片段选择

将PCR产物进行琼脂糖凝胶电泳，选择450-470bp片段胶块，切取的胶块使用试剂盒纯化回收。回收后产物贴上文库标签，至此PE Index文库构建完成。

(9)PE Index文库质检

PE Index文库使用Agilent 2100Bioanalyzer和ABI StepOnePlus Real-TimePCRSystem进行文库质量检测。

(10)上机测序

检测合格并定量完成的PE Index文库在cBot上进行Flow Cell芯片制备后，在Illumina HiSeq 2000测序仪上进行测序。

(11)数据过滤

去除低质量序列，根据index拆分每条Fosmid克隆序列样品的序列并归类。再去除index。

(12)序列组装

对归类的每条Fosmid克隆序列样品的序列单独用Soapdenovo软件组装，获得每条Fosmid克隆序列的组装结果。总计14条Fosmid序列。

3)将得到14条组装后的Fosmid序列与实施例1中得到的reads数据库进行比对，本例中采用SOAPAligner软件将两者进行比对，并用SOAPcoverage软件统计覆盖度和覆盖深度，得到如表3的Fosmid序列覆盖度统计数据。

其中，SOAPaligner比对软件可从http://soap.genomics.org.cn/获得。

SOAPcoverage软件可从http://soap.genomics.org.cn/获得。

Fosmid ID：reads覆盖的长度/Fosmid长度	覆盖度
		kjtadxa:41678/41788	99％
kjtbmxa:36417/36546	99％
		kjtbjxa:32045/32068	99％
kjtbvxa:42776/42898	99％
		kjtbkxa:37812/37969	99％
kjtsxa:1419/32340	4.4％
		kjtbdxa:36276/36301	99％
kjtaaxa:32951/32969	99％
		kjtwxa:32421/32428	99％
kjtbzxa:35956/36087	99％
		kjtbaxa:32388/32397	99％
kjtbpxa:35912/35918	99％
		kjtajxa:1179/32174	3.7％
kjtrxa:0/27842	0％

表3 Fosmid序列覆盖度统计表

4)根据覆盖度和覆盖深度判断准确性。从表3中可以看出kjtrxa:0/27842、kjtsxa:1419/32340、kjtajxa:1179/32174这三条Fosmid序列的覆盖度分别为0％，4％，3.7％。由于reads数据库即拼接序列有45G的数据，47层的平均覆盖深度。加之二代测序具有很高的准确性，因而可以判断这三条Fosmid有误，其可能是实验或组装过程导致的错误，不可用于组装结果的评价。而其余的11条则均具有99％的覆盖度，符合大于90％的一般标准，可以作为标准序列对实施例1中的基因组组装序列进行评估。

实施例3基因组组装序列的评估

采用实施例2中经验证后挑选得到的11条Fosmid序列对实施例1中的基因组组装序列进行比对，其比对情况如图3所示。图3中除标识序列大小的比例尺外，在上方的红色线段代表Fosmid序列，在下方的蓝色线段代表基因组组装序列Scaffold，两线段之间的部分则表示两者的匹配情况。删除掉实施2中3条覆盖度很低的Fosmid序列后，从图3可知，剩余的11条除了部分GAP区域没有组装起来，整体没有结构性错误，可以认为组装结果很好，此时评估结果为实施例1中组装得到基因组装序列的结构准确率为100％。

为更好的说明本申请，特进行了对照实验，若不采用实施2中的标准序列验证步骤，将随机挑选的全部14条Fosmid序列对实施例1中的基因组组装序列进行比对，其比对情况如图4所示。图4中除标识序列大小的比例尺外，在上方的红色线段代表Fosmid序列，在下方的蓝色线段代表基因组组装序列Scaffold，两线段之间的部分则表示两者的匹配情况。此时，计算得到的评估结果为实施例1中组装得到的基因组组装序列的结构准确率为78.5％。

对比上述两个评估结果，采用本申请提供的标准序列验证方法后，该基因组组装序列的评估结果由78.5％提升至100％，其评估结果的有效性提升了21.5％。由于排除了有误的标准序列，使得最终的评估结果更加可信。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种标准序列的验证方法，所述标准序列中包含样品DNA的片段，该验证方法包括：

获取reads数据库，所述reads数据库通过将样品DNA片段化处理后构建测序文库并测序得到；

将标准序列与所述reads数据库进行比对，计算标准序列的准确度。

2.如权利要求1所述的验证方法，其特征在于，所述获取reads数据库包括：

将样品DNA片段化处理构建测序文库，所述测序文库中的样品DNA片段长度在测序可测通范围内；

对测序文库进行测序得到原始reads数据；

对原始reads数据进行数据处理得到reads数据库。

3.如权利要求2所述的验证方法，其特征在于，所述测序采用双末端测序法，测序文库中的每个片段在测序时生成有重叠部分的第一读长和第二读长。

4.如权利要求3所述的验证方法，其特征在于，所述原始reads数据的数据处理包括：

对原始reads数据进行杂质数据过滤；

对过滤后的reads数据进行拼接，所述拼接是指：对于测序文库中的每个片段，将通过双末端测序得到的第一读长和第二读长数据根据重叠部分进行拼接得到所述片段的拼接序列；

所有拼接序列的集合构成reads数据库。

5.如权利要求1所述的验证方法，其特征在于，所述计算标准序列的准确度包括计算reads数据库对标准序列的覆盖度，所述覆盖度为reads数据库覆盖的标准序列的比例。

6.如权利要求1至5中任一项所述的验证方法，其特点在于，所述标准序列为BAC和Fosmid序列中的至少一种。

7.如权利要求6所述的验证方法，其特点在于，所述BAC和Fosmid序列的获得包括：

将样品DNA打断后构建BAC或Fosmid文库；

从BAC或Fosmid文库中挑选BAC或Fosmid克隆序列；

对被挑选的BAC或Fosmid克隆序列构建测序文库并进行测序组装得到BAC或Fosmid序列。

8.一种基因组组装序列的评估方法，包括将通过测序组装得到样品DNA的基因组组装序列与标准序列进行比对，其特征在于，所述标准序列按照如权利要求1-7中任一项所述的验证方法进行验证并满足预先设定的准确度的要求；

优选的，所述标准序列在与基因组组装序列比对前先按照如权利要求1-7中任一项所述的验证方法进行验证并满足预先设定的准确度的要求。

9.一种用于验证标准序列的装置，其特征在于，包括：

数据获取单元，获取reads数据库和标准序列的信息并向准确度计算单元发送相关信息；

准确度计算单元，将接收到的标准序列与reads数据库进行比对并计算输出准确度。

10.一种用于评估基因组组装序列的装置，其特征在于，包括：

数据获取单元，获取reads数据库、基因组组装序列和标准序列的信息并向准确度计算单元和/或组装评估单元发送相关信息；

准确度计算单元，将接收到的标准序列与reads数据库进行比对并计算准确度，并向组装评估单元发送准确度相关信息；

组装评估单元，接收基因组组装序列的相关信息，并根据接收到的准确度计算单元的相关数据完成对标准序列的筛选，将基因组组装序列与筛选后的标准序列进行比对并计算输出组装的评估结果；或，

所述装置包括：

数据获取单元，获取reads数据库、基因组组装序列和标准序列的原信息，并向准确度计算单元和/或评估单元发送相关信息；

组装评估单元，将接收到的基因组组装序列与标准序列进行比对；根据比对结果，将需要进行验证的标准序列的相关信息发送给准确度计算单元；从准确度计算单元接收数据；计算输出组装的评估结果；

准确度计算单元，接收组装评估单元发送的需要验证的标准序列的相关信息，并将需要验证的标准序列与reads数据库进行比对并计算输出准确度。