CN107403076B

CN107403076B - Dna序列的处理方法及设备

Info

Publication number: CN107403076B
Application number: CN201610330331.0A
Authority: CN
Inventors: 邓利群; 魏建生; 张军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2020-06-02
Anticipated expiration: 2036-05-18
Also published as: WO2017198182A1; EP3418927A4; US20190050531A1; EP3418927A1; CN107403076A

Abstract

一种DNA序列的处理方法及设备，用以解决现有技术对DNA样本进行变异检测的效率低下的问题。包括：对每个Read集合分别并行执行以下操作：根据染色体的参考序列对Read集合中的每个Read进行比对计算，得到每个Read相对该参考序列的比对结果记录；根据该比对结果记录确定每个Read所处的染色体区域；将处于同一染色体区域的Read的比对结果记录合并成一个中间结果文件；在对N个Read集合分别执行完上述操作后，每个染色体区域分别对应N个中间结果文件；根据每个染色体区域分别对应的N个中间结果文件，确定每个染色体区域的目标序列文件；根据每个该染色体区域的目标序列文件确定每个染色体区域的变异点信息。

Description

DNA序列的处理方法及设备

技术领域

本发明涉及基因工程领域，尤其涉及一种DNA序列的处理方法及设备。

背景技术

基因是DNA(Deoxyribonucleic acid，脱氧核糖核酸)分子上携带有遗传信息的功能片段，基因支持着生命的基本构造和性能，DNA分子不一定都是基因。现有技术对于DNA样本已经有了一套成熟的处理流程，该流程通常由DNA测序、DNA序列定序、基因定位和变异检测三个步骤组成。

其中，DNA测序是指利用DNA测序仪将生物样本的DNA提取并转换成计算机能识别的数据序列Read，具体地，通过化学方法将DNA序列中的由A、C、T和G四种碱基链接而成的碱基序列识别出来，继而转换成由A、C、T、G四个字符组成的计算机可识别的字符串序列，一个Read即为一个长度固定的DNA片段，是后续DNA序列处理的基本单位。例如，一个Read的长度为10BP(Base Pair，碱基对)，则读出的数据序列ATCTGTCCTA即为一个Read。

DNA测序的结果是生成一大堆的DNA Read，但是这些Read之间顺序未知。DNA序列的定序的作用就是将这些无序的DNA Read一一同公认的DNA参考序列进行回贴(即比对计算)，以得到各Read在参考序列中的最佳匹配位置。

基因定位及变异检测是利用数据库预存的基因信息，确定该DNA序列中的各基因，并计算它们相对于数据库基因模板的变异点以及变异程度。

现有技术中存在多种不同的测序仪，不同测序仪的测序文库可能不同，测序文库可以理解成是一类化学培养试剂，用于帮助测序仪从生物样本中提取和识别DNA，不同的化学培养试剂对于DNA中各碱基的识别精度不同。现有的DNA序列处理流程从DNA序列定序到基因变异检测都是每次只针对一个测序文库的Read集合进行处理，其效率低下。

发明内容

本发明的目的是提供一种DNA序列的处理方法及设备，用以解决现有技术中对DNA样本进行的基因变异检测的效率低下的问题。

为了达到上述目的，本发明采用如下的技术方案：

第一方面，提供一种DNA序列的处理方法，所述方法用于对脱氧核糖核酸DNA样本的N个Read集合进行处理，其中，每个所述Read集合中包括由对应的测序文库对所述DNA样本测序得到的序列片段Read，N为大于1的正整数，所述方法包括：对每个所述Read集合分别并行执行以下操作：根据染色体的参考序列对Read集合中的每个Read进行比对计算，得到每个所述Read相对所述参考序列的比对结果记录；根据所述比对结果记录确定每个所述Read所处的染色体区域；所述染色体包括至少一个所述染色体区域；将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件；其中，用于与每个所述Read集合进行比对计算的染色体的参考序列相同，且所述染色体包括的染色体区域相同，在对每个所述Read集合执行完上述操作后，每个所述染色体区域分别对应N个所述中间结果文件；进一步地，根据每个所述染色体区域分别对应的N个所述中间结果文件，确定每个所述染色体区域的目标序列文件；对每个所述染色体区域的目标序列文件进行变异检测，确定每个所述染色体区域的变异点信息。

上述第一方面提供的DNA序列处理方法并行执行对每个测序文库的Read集合的比对计算操作，缩短了处理DNA样本的时间，提高了DNA序列的处理的效率。并且，由于检测DNA样本的基因变异情况依据了多个测序文库对所述DNA样本的测序结果，相比单一的测序文库，本发明提供的DNA序列处理方法提高了检测精度。

结合所述第一方面，在第一方面的第一种可能的实现方式中，在对每个所述Read集合分别并行执行所述操作之前，还包括：将每个所述Read集合分别独立存储到分布式存储系统中。独立存储有利于对不同的Read集合进行区分，并且有利于处理过程中产生的中间文件的存储。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述将每个所述Read集合分别独立存储到分布式存储系统中，包括：将每个所述Read集合划分为至少一个数据块进行存储；所述根据染色体的参考序列对Read集合中的每个Read进行比对计算，包括：针对每个所述Read对应的数据块，并行执行与所述参考序列的比对计算。这样，每个测序文库的Read集合之间，以及Read集合中的每个数据块之间，均进行并行处理，提高了处理效率。

结合第一方面，或者以上第一方面的任一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述比对结果记录包括每个所述Read所处染色体的标识以及所述Read在所述染色体上的位置信息，所述根据所述比对结果记录确定每个所述Read所处的染色体区域，包括：根据所述染色体的标识以及所述位置信息确定每个所述Read在所述染色体上的染色体区域。在第一方面的第三种可能的实现方式中，可选地，所述参考序列包括所述染色体的全部序列，将DNA序列片段Read与所述参考序列进行比对，确定所述参考序列中与所述Read相似度最高的区域，进而确定所述Read在所述染色体上的位置信息。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件，包括：对处于同一染色体区域的所述Read的比对结果记录进行至少包括排序和去重的操作，得到所述中间结果文件。可选地，上述第一方面的第四种可能的实现方式可以采用Picard工具进行对比对结果记录的排序、去重等规整操作，得到所述中间结果文件，其中，所述中间结果文件表明单个测序文库测得的Read集合经过DNA序列定序后确定的染色体区域的数据序列。

第二方面，提供一种计算设备，所述计算设备用于执行上述第一方面或第二方面的任一可能的实现方式中的方法。在所述计算设备的一种实现方式中，所述计算设备包括用于执行上述第一方面或第一方面的任一可能的实现方式中的方法的单元。在所述计算设备的另一种实现方式中，所述计算设备包括：处理器、存储器、通信端口和通信总线；所述处理器，所述存储器和所述通信端口通过所述通信总线通信；所述处理器用于执行上述第一方面或第一方面的任一可能的实现方式中的方法。

第五方面，提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任一可能的实现方式中的方法的指令。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种DNA序列的处理方法的流程示意图；

图2为本发明实施例提供的一种Read集合的存储结构的示意图；

图3为本发明实施例提供的一种中间序列信息的存储结构的示意图；

图4为本发明实施例提供的另一种DNA序列的处理方法的流程示意图；

图5为本发明实施例提供的又一种DNA序列的处理方法的流程示意图；

图6为本发明实施例提供的一种计算设备的结构示意图；

图7为本发明实施例提供的另一种计算设备的结构示意图。

具体实施方式

为了使本领域的技术人员更容易理解本发明实施例对现有技术进行改进的部分，下面首先对现有技术中的方案进行简单介绍。

基于BWA-Picard-GATK的处理流程是现今业界公认的实现DNA定序和变异检测的最佳实践，其中，BWA(Burrows-Wheeler Aligner)负责根据参考序列对各DNA的数据序列Read进行比对计算，Picard工具用于负责比对结果记录的排序、去重以及格式转换等几个步骤，而GATK(The Genome Analysis Toolkit，基因分析工具集)则负责变异检测，包括局部重比对，碱基质量校正和变异识别三个步骤。在具体操作中，这些子步骤由用户通过命令行提交而按序执行。

Halvade是对BWA-Picard-GATK流程在Hadoop MapReduce系统上的一种实现。其中，所述Halvade充分利用MapReduce框架特点，将DNA序列处理的各个步骤融入MapReduce的相应步骤，具体如下：

预处理及上传：将待处理的DNA Read划分成各个独立的特定大小数据块，以使得数据在上传至HDFS后，每个数据块能完全被写入单个HDFS块；

Map阶段：map任务的数量由HDFS块数目决定，即每个HDFS块对应为一个map任务的输入，而每个map任务的计算内容是调用BWA对其所负责的DNA Reads进行回贴操作，并输出回贴结果，即<染色体区域，SAM记录>，其中SAM(Sequence Alignment Map，序列对比图)记录是一种DNA Read回贴至参考DNA序列的结果格式，记录着Read本身以及该Read同该染色体区域的比对情况。

中间数据分发阶段：Map阶段之后，MapReduce系统会根据中间结果的键值排序并分发给集群各个节点以供Reduce阶段处理。

Reduce阶段：Reduce任务的个数等于染色体区域的数目，即为每个染色体区域启动一个reduce任务，且这些任务在集群中并行执行。而在各个reduce任务中，将依次运行Picard和GATK完成它们相应的计算步骤。每个reduce任务最终生成一个针对于该染色体区域的变异点检测结果文件，该检测结果文件以vcf文件格式存储。

结果汇合：所有Reduce阶段生成的vcf文件汇合成统一的vcf文件作为整个流程的输出。

然而，Halavde目前每次只能处理一个测序文库生成的数据，在具有多个测序文库的情况下，现有的Halavde只能针对每个文库生成的数据执行一遍上述流程，其效率低下。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种DNA序列的处理方法，该方法用于对DNA样本的N个Read集合进行处理，其中，每个所述Read集合中包括由对应的测序文库对所述DNA样本测序得到的序列片段Read，N为大于1的正整数，也就是说，N个测序文库分别对同一DNA样本测序，每个测序文库测序后得到的多个序列片段的集合即为一个Read集合，如图1所示，该方法包括：

S101、计算设备对N个Read集合中的每个Read集合分别并行执行步骤S1011至步骤S1013。

值的说明的是，同一测序文库可能包括多个甬道，每个甬道的配置不同，针对DNA测序的侧重方向不同。上述Read集合包括同一文库的所有甬道的数据序列Read。本发明对于测序文库的构建不做限定。

S1011、该计算设备根据染色体的参考序列对Read集合中的每个Read进行比对计算，得到每个所述Read相对所述参考序列的比对结果记录。

其中，该参考序列可以是用作参考的染色体的全部数据序列，具体实施时，该参考序列可以采用现今业界公认的DNA参考序列，且该参考序列可以是预先存储在该计算设备中的。该比对结果记录的格式可以与现有技术中的记录格式相同，例如，SAM记录。

本文将Read与参考序列的比对计算也称为回帖，在具体实施时，上述步骤S1011可以是计算设备利用BWA实现。

S1012、该计算设备根据所述比对结果记录确定每个所述Read所处的染色体区域。

其中，所述染色体包括至少一个所述染色体区域。

具体地，该计算设备根据预设的比对数据划分方式为每个所述比对结果记录确定对应的数据划分。示例地，该比对结果包括Read所处染色体的标识以及该Read在该染色体上的位置信息，例如，起始坐标。这样，该计算设备根据预设的比对数据划分方式即可确定每个比对结果记录所处的染色体区域所代表的中间结果数据集。

值得说明的是，所述比对数据划分方法，可以是将参考染色体分成多个不等(或均等)长度的染色体区域，这样，由于该参考序列是参考染色体的全部数据序列，因此，每个比对结果记录便可根据其所在染色体位置(由染色体标识和起始坐标共同决定)确定该记录所比对的染色体区域。

另外，每个比对结果记录在确定数据划分的同时，所述计算设备还可以将其转换成计算设备所需的中间结果记录格式。这种中间结果记录格式可以是键值对，以染色体标识及起始坐标的组合为Key(键)，而SAM记录为Value(值)。

S1013、该计算设备将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件。

具体地，该计算设备将各个染色体区域所代表的中间结果数据集分别执行回贴结果记录规整操作，得到所述中间结果文件。其中，本文将对比对结果数据进行排序(Sort)，去重(Mark Duplicates)，以及变异检测前所需的各种准备操作等组成的过程称为回帖结果记录规整。在具体实施时，上述的排序、去重操作可以是该计算设备利用Picard工具完成。所述的变异检测前所需的各种准备操作可以包括生成BAM文件，该操作也可以是由计算设备利用SAMtools工具完成。

值得说明的是，每个染色体区域所代表的中间结果数据集可能分布于不同的计算节点。这样，在对该染色体区域所代表的中间结果数据集执行回贴结果记录规整操作前需要将不同位置的数据收集成一个临时的中间结果文件(该文件可以是SAM文件或BAM文件)。上述的排序操作也可以在收集的过程中通过归并排序实现。

每个染色体区域所代表的中间结果数据集在经过回贴结果记录规整操作之后得到一个SAM或BAM文件，该文件即为所述的中间结果文件。

值得说明的是，用于与每个所述Read集合进行比对计算的染色体的参考序列相同，且所述染色体包括的染色体区域相同，在对每个所述Read集合执行完上述操作后，每个所述染色体区域分别对应N个所述中间结果文件。也就是说，该计算设备针对每个测序文库的Read集合执行完上述步骤S1011至步骤S1013后，均会得到每个染色体区域的一个中间结果文件，因此，该计算设备执行完上述并行操作后，可以得到每个染色体区域对应的N个中间结果文件。

S102、该计算设备根据每个所述染色体区域对应的N个中间结果文件，确定每个所述染色体区域的目标序列文件。

具体地，对每个所述染色体区域对应的N个中间结果文件，进行合并生成所述的目标序列文件。值得说明的是，把N个中间结果文件合并的操作可以通过Picard的MergeSamFiles工具实现。在合并的过程中也可以同时执行排序及去重操作。合并的结果是一个目标序列文件，该文件可以是SAM文件或BAM文件。

S103、该计算设备对每个所述染色体区域的目标序列文件进行变异检测，确定每个所述染色体区域的变异点信息。

具体地，该计算设备根据预存的基因数据库和/或变异点数据库对每个所述染色体区域的目标序列文件进行变异检测，得到每个所述染色体区域的目标序列文件的变异检测结果。

在具体实施时，该计算设备可以调用GATK工具实施上述步骤S104。

采用上述方法，该计算设备可以依据多个测序文库对DNA样本的测序结果检测该DNA样本上的基因变异情况。由于该计算设备可以并行执行对每个测序文库的Read集合的比对计算操作，缩短了处理DNA样本的时间，提高了DNA序列的处理的效率。

为了使本领域的技术人员更加理解本发明提供的技术方案，下面对上述方法步骤进行详细说明。

在本发明实施例的一种可能的实现方式中，该计算设备在获取到由N个文库测序而得的N个Read集合后，可以将每个所述Read集合分别独立存储到分布式存储系统中。具体地，每个Read集合可以是以单个文件的形式存储在独立存储到分布式存储系统中。

其中，所述分布式存储系统可以是该计算设备自身的分布式存储系统，也可以与该计算设备相连的其他设备的分布式存储系统。

并且，该分布式存储系统可以是Hadoop平台提供的分布式存储系统HDFS，也可以是其他分布式存储系统。本发明对此不做限定。

采用分布式存储有利于计算设备对每个测序文库的Read集合进行区分，示例地，该计算设备可以获取到该DNA样本的名称，每个测序文库的名称，每个测序文库包括的每个甬道的名称。这样，该计算设备可以按照图2所示的目录结构存储Read集合，如图2所示，以DNA样本名命名的文件夹下，包括分别以N个测序文库的名称命名的N个文件夹，所述N个文件夹中的每个文件夹下，又包括以该文件夹对应的测序文库中的每个甬道的名称命名的L个文件夹，所述L个文件夹内存储有经过该甬道测序的Read的数据块。其中，每个数据块的大小可以根据实际需求设定，以HDFS为例，一个数据块的大小为64MB(兆字节)。

由上述举例可知，该计算设备可以将所述的每个Read集合划分为至少一个数据块进行存储，这样，该计算设备根据参考序列对所述Read集合中的每个Read进行比对计算时，可以针对每个所述Read对应的数据块，并行执行与所述参考序列的比对计算。

值的说明的是，上述数据块可以为Fastq格式的数据块。Fastq是一种存储了生物序列以及相应的质量评价的文本格式。这样，在对同一个Read进行回帖操作时，可以是并行执行该Read的所有Fastq数据块与参考序列的对比计算。

上述只是举例说明，本发明对于每个测序文库中包括的甬道数不做限定，每个甬道下均存储有经过该甬道测序的Read的数据块，图2中未完全示出。

可选地，所述比对结果包括每个Read所处染色体的标识以及在该染色体中的位置信息，这样，该计算设备根据染色体的标识及该位置信息，该计算设备就可以确定每个所述Read所处的染色体区域。

可选地，所述比对结果还包括相似度信息，则该计算设备在确定染色体区域的中间结果文件时，若存在多个Read对应的染色体标识以及在该染色体上的位置信息相同，则该计算设备在去重操作中根据所述相似度信息选取相似度高的Read组成所述染色体区域的所述中间结果文件。

示例地，该计算设备运行Picard软件以对应同一染色体区域的比对结果数据集所构成的数据流作为输入，该比对结果的记录格式可以为SAM或BAM，依次运行AddOrReplaceReadGroups、MarkDuplicates命令完成添加ReadGroup信息和去除重复记录的操作。最终得到一个由MarkDuplicates运行所生成的SAM或BAM文件，即所述中间结果文件。进一步地，所述中间结果文件可以被上传至分布式存储系统进行存储，其存储组织形式可以如图3所示，染色体区域的数量为R个，采用二级文件目录形式，为每个染色体区域建立一个文件夹，其对应的SAM文件便存放至该文件夹下。

进一步地，该计算设备运行Picard MergeSamFiles命令将染色体区域的中间序列信息合并成单一的目标序列文件，其中，该目标序列信息以BAM格式记录，BAM是SAM的二进制表示格式，并运行Picard BuildBamIndex命令为目标序列文件建立索引，然后依次运行GATK的RealignerTargetCreator，IndelRealigner，BaseRecalibrator，HaplotypeCaller等命令分别用于执行局部重比对，碱基质量校正以及变异识别等子步骤，生成该染色体区域的变异检测结果的VCF文件。

进一步地，该计算设备还可以根据每个所述染色体区域的基因变异点信息生成所述DNA样本的变异检测结果。具体地，该计算设备将每个染色体区域的VCF文件合并成单一的VCF文件输出。

图4为本发明实施例提供的一种DNA序列的处理方法的流程示意图，其详细示出了计算设备在获取到N个测序文库的N个Read集合后执行的各个步骤，其中，图4示出的每个DNA Reads文件即包括DNA经过一个测序文库测序后得到的一个Read集合。图4所示的分布式存储系统中，每个测序文库的Read集合进行独立存储，并且，Read集合的每个Read划分为数据块存储。

这样，该计算设备在进行回帖以及回帖结果规整时采用了一种粗细粒度任务混合执行的计算方式，即粗粒度的文库间并行和细粒度的文库内数据块并行。如图4所示，该计算设备并行为每个测序文库所对应的Read集合启动一个运行实例以执行回贴以及回贴结果记录规整等操作，并且，在对每个测序文库的Read集合处理过程中，该计算设备以Read的单个数据块为单位并行进行回贴操作处理，如图4所示，每个Read集合包括n个数据块，在进行回帖操作时，并行对同一Read集合的每个数据块进行回帖操作。

在执行完回贴操作后，所生成的回贴结果记录继而根据其相对参考序列所回贴的染色体区域而被划分至相应的中间结果集合，如图4所示的，针对R个染色体区域，每个染色体区域对应X个回帖结果记录，从而之后的结果记录规整操作便也以染色体区域为单位并行执行，针对所述X个回帖结果记录进行规整即可得到上述步骤S1013中所述的中间结果文件。

进一步地，在执行完回贴和结果记录规整操作之后，该计算设备将有一个同步等待的过程，即等待所有文库的数据均被处理完毕才进入下一步骤。由于对于每个染色体区域，每个测序文库的数据处理均会产生一个中间结果文件，图4中示出的结果记录规整到染色体区域的合并操作即为该计算设备将N个中间结果文件合并成一个文件(即上述目标序列文件)的操作。

进一步地，该计算设备根据R个目标序列文件，并行执行对每个染色体区域的变异检测操作，分别生成各自对应染色体位置的变异点检测结果。待所有变异检测操作执行完毕后，汇总并输出这些变异检测结果给用户或其他应用。

图5为本发明实施例提供的DNA序列的处理方法运行在Hadoop MapReduce系统上的示意图，图5中计算设备执行的方法步骤可以参照上述对图4的描述，此处不再赘述，图5主要是示出了计算设备在DNA序列的处理方法的流程中需要启动的MapReduce任务，以及每一方法步骤可以使用的软件工具，体现了BWA-Picard-GATK流程在本发明实施例中的应用。

由图5可知，本发明实施例提供的DNA序列的处理方法的流程在Hadoop MapReduce系统上实现，共需要1+N+1个MapReduce任务，即1个MapReduce任务用于DNA序列数据的上传，N个MapReduce任务用于对N个Read集合的回贴及记录结果规整，在此过程中，BWA负责根据参考序列对各DNA的数据序列Read进行比对计算，利用MapReduce中的数据分发机制实现结果记录的排序，Picard工具用于负责比对结果记录的去重以及格式转换等步骤，最终一个MapReduce任务用于采用GATK对基因序列进行变异检测。

采用图4或图5所示的方法，计算设备可以依据多个测序文库对DNA样本的测序结果检测该DNA样本上的变异情况，提高了检测精度。并且该计算设备针对多个测序文库，可以并行执行对每个测序文库的Read集合的回帖以及回帖记录规整操作，缩短了处理DNA样本的时间，提高了检测变异基因的效率。

本发明实施例还提供一种计算设备60，该计算设备60用于实施上述方法实施例提供的一种DNA序列的处理方法，对DNA样本的N个Read集合进行处理，其中，每个所述Read集合中包括由对应的测序文库对所述DNA样本测序得到的序列片段Read，N为大于1的正整数，如图6所示，该计算设备60包括：

回帖处理单元61，对每个所述Read集合分别并行执行以下操作：根据染色体的参考序列对Read集合中的每个Read进行比对计算，得到每个所述Read相对所述参考序列的比对结果记录；根据所述比对结果记录确定每个所述Read所处的染色体区域；所述染色体包括至少一个所述染色体区域；将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件；其中，用于与每个所述Read集合进行比对计算的染色体的参考序列相同，且所述染色体包括的染色体区域相同，在对每个所述Read集合执行完上述操作后，每个所述染色体区域分别对应N个所述中间结果文件。

合并单元62，用于根据每个所述染色体区域分别对应的N个所述中间结果文件，确定每个所述染色体区域的目标序列文件。

变异检测单元63，用于对每个所述染色体区域的目标序列文件进行变异检测，确定每个所述染色体区域的变异点信息。

采用上述计算设备60，该计算设备60并行执行对每个测序文库的Read集合的比对计算操作，缩短了处理DNA样本的时间，提高了DNA序列的处理的效率。并且，由于检测DNA样本的基因变异情况依据了多个测序文库对所述DNA样本的测序结果，相比单一的测序文库，本发明提供的DNA序列处理方法提高了检测精度。

可选地，所述计算设备60还包括存储单元64，用于在所述回帖处理单元61对所述N个Read集合分别并行执行所述操作之前，将所述N个Read集合中的每个所述Read集合独立存储到分布式存储系统中。独立存储有利于对不同的Read集合进行区分，并且有利于处理过程中产生的中间文件的存储。

可选地，所述存储单元64具体用于：将每个所述Read集合划分为至少一个数据块进行存储；所述回帖处理单元61用于，针对每个所述Read对应的数据块，并行执行与所述参考序列的比对计算。这样，每个测序文库的Read集合之间，以及Read集合中的每个数据块之间，均进行并行处理，提高了处理效率。

可选地，所述对比结果记录包括所述Read集合中的每个Read所处染色体的标识以及所述Read在所述染色体上的位置信息，所述回帖处理单元61用于：根据所述染色体的标识以及所述位置信息确定每个所述Read在所述染色体上的染色体区域。在本发明实施例的一种可能的实现方式中，所述参考序列包括所述染色体的全部序列，将DNA序列片段Read与所述参考序列进行比对，确定所述参考序列中与所述Read相似度最高的区域，进而确定所述Read在所述染色体上的位置信息。

可选地，所述合并单元62具体用于，对同一染色体区域的所有比对结果记录进行至少包括排序和去重的操作，得到所述中间结果文件。具体地，可以采用Picard工具进行对比对结果记录的排序、去重等规整操作，得到所述中间结果文件，其中，所述中间结果文件表明单个测序文库测得的Read集合经过DNA序列定序后确定的染色体区域的数据序列。

以上对计算设备60进行的单元划分，仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如将上述回帖处理单元61以及所述合并单元62划分为一个处理单元，并且，上述各功能单元的物理实现也可能有多种实现方式。本发明对此不做限定。

所属本领域的技术人员应该清楚地了解到，为描述的方便和简洁，上述描述的计算设备的各单元的具体工作过程，可以参考前述方法实施例中的对应过程，此处不再赘述。

本发明实施例还提供另一种计算设备70，如图7所示，该计算设备70包括：处理器71、存储器72、通信端口73和通信总线74；所述处理器71，所述存储器72和所述通信端口73通过所述通信总线74完成相互间的通信。

处理器71可能是一个多核CPU(Center Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器72用于存放程序代码，所述程序代码包括计算机操作指令和网络流图。存储器72可能包含高速RAM(Random Access Memory，随机存储器)，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

所述通信端口73，用于实现该计算设备70与其他设备之间的通信。

所述处理器71用于执行所述存储器72中的程序代码，以实现上述方法实施例提供的一种DNA序列的处理方法，所述方法用于对脱氧核糖核酸DNA样本的N个Read集合进行处理，其中，每个所述Read集合中包括由对应的测序文库对所述DNA样本测序得到的序列片段Read，N为大于1的正整数，包括：

对每个所述Read集合分别并行执行以下操作：

根据染色体的参考序列对Read集合中的每个Read进行比对计算，得到每个所述Read相对所述参考序列的比对结果记录；

根据所述比对结果记录确定每个所述Read所处的染色体区域；所述染色体包括至少一个所述染色体区域；

将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件；

其中，用于与每个所述Read集合进行比对计算的染色体的参考序列相同，且所述染色体包括的染色体区域相同，在对每个所述Read集合执行完上述操作后，每个所述染色体区域分别对应N个所述中间结果文件；

根据每个所述染色体区域分别对应的N个所述中间结果文件，确定每个所述染色体区域的目标序列文件；

对每个所述染色体区域的目标序列文件进行变异检测，确定每个所述染色体区域的变异点信息。

可选地，在对每个所述Read集合分别并行执行所述操作之前，还包括：

将每个所述Read集合分别独立存储到分布式存储系统中。

可选地，所述将每个所述Read集合分别独立存储到分布式存储系统中，包括：

将每个所述Read集合划分为至少一个数据块进行存储；

所述根据染色体的参考序列对Read集合中的每个Read进行比对计算，包括：

针对每个所述Read对应的数据块，并行执行与所述参考序列的比对计算。

可选地，所述比对结果记录包括每个所述Read所处染色体的标识以及所述Read在所述染色体上的位置信息，所述根据所述比对结果记录确定每个所述Read所处的染色体区域，包括：

根据所述染色体的标识以及所述位置信息确定每个所述Read在所述染色体上的染色体区域。

可选地，所述将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件，包括：

对处于同一染色体区域的所述Read的比对结果记录进行至少包括排序和去重的操作，得到所述中间结果文件。

本发明实施例中的处理器71可以是中央处理单元CPU，为节省CPU的计算资源，处理器71也可以是FPGA(Field Programmable Gate Array，现场可编程门阵列)或其他硬件。并且，所属本领域的技术人员应该了解到，上述处理器71执行的操作可能是由其他器件的配合共同完成的，为了方便描述，本发明实施例中统一描述为处理器71执行的DNA序列处理的操作。具体可参照方法实施例中描述的计算设备执行的方法步骤，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种DNA序列的处理方法，其特征在于，所述方法用于对脱氧核糖核酸DNA样本的N个Read集合进行处理，其中，每个所述Read集合中包括由对应的测序文库对所述DNA样本测序得到的序列片段Read，N为大于1的正整数，所述方法包括：

对每个所述Read集合分别并行执行以下操作：

对每个所述染色体区域的目标序列文件进行变异检测，确定每个所述染色体区域的变异点信息；

其中，根据每个所述染色体区域分别对应的N个所述中间结果文件，确定每个所述染色体区域的目标序列文件，包括：对每个所述染色体区域对应的N个中间结果文件，进行合并生成所述的目标序列文件。

2.根据权利要求1所述的方法，其特征在于，在对每个所述Read集合分别并行执行所述操作之前，还包括：

将每个所述Read集合分别独立存储到分布式存储系统中。

3.根据权利要求2所述的方法，其特征在于，所述将每个所述Read集合分别独立存储到分布式存储系统中，包括：

将每个所述Read集合划分为至少一个数据块进行存储；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述比对结果记录包括每个所述Read所处染色体的标识以及所述Read在所述染色体上的位置信息，所述根据所述比对结果记录确定每个所述Read所处的染色体区域，包括：

5.根据权利要求4所述的方法，其特征在于，所述将处于同一染色体区域的所述Read的比对结果记录合并成一个中间结果文件，包括：

6.一种计算设备，其特征在于，所述计算设备用于对脱氧核糖核酸DNA样本的N个Read集合进行处理，其中，每个所述Read集合中包括由对应的测序文库对所述DNA样本测序得到的序列片段Read，N为大于1的正整数，所述计算设备包括：

回帖处理单元，对每个所述Read集合分别并行执行以下操作：

合并单元，用于根据每个所述染色体区域分别对应的N个所述中间结果文件，确定每个所述染色体区域的目标序列文件；

变异检测单元，用于对每个所述染色体区域的目标序列文件进行变异检测，确定每个所述染色体区域的变异点信息；

其中，所述合并单元具体用于：对每个所述染色体区域对应的N个中间结果文件，进行合并生成所述的目标序列文件。

7.根据权利要求6所述的计算设备，其特征在于，所述计算设备还包括存储单元，用于在所述回帖处理单元对每个所述Read集合分别并行执行所述操作之前，将每个所述Read集合分别独立存储到分布式存储系统中。

8.根据权利要求7所述的计算设备，其特征在于，所述存储单元具体用于：

将每个所述Read集合划分为至少一个数据块进行存储；

所述回帖处理单元用于，针对每个所述Read对应的数据块，并行执行与所述参考序列的比对计算。

9.根据权利要求6至8任一项所述的计算设备，其特征在于，所述比对结果记录包括每个所述Read所处染色体的标识以及所述Read在所述染色体上的位置信息，所述回帖处理单元用于：根据所述染色体的标识以及所述位置信息确定每个所述Read在所述染色体上的染色体区域。

10.根据权利要求9所述的计算设备，其特征在于，所述合并单元具体用于，对处于同一染色体区域的所述Read的比对结果记录进行至少包括排序和去重的操作，得到所述中间结果文件。