CN110136777A

CN110136777A - 一种基于Spark框架的重测序序列比对方法

Info

Publication number: CN110136777A
Application number: CN201810133759.5A
Authority: CN
Inventors: 郑志春; 郭宁; 魏彦杰; 冯圣中; 周家秀
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2019-08-16

Abstract

本发明涉及计算机科学与生物信息学技术领域，特别涉及一种基于Spark框架的重测序序列比对方法；在本发明中包括三个步骤，分别为RDDs创建步骤、Map步骤和Reduce步骤，先是基于FASTQ文件创建相应的RDDs，并储存在HDFS中；再将BWA的序列比对算法应用到每一个RDDs上，同时RDDs进行多节点映射；最后根据处理需求选择是否执行最后的合并阶段；本发明将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中，通过分布式计算的方式完成重测序的比对流程优化，从而有效提高重测序数据分析的效率。

Description

一种基于Spark框架的重测序序列比对方法

技术领域

本发明涉及计算机科学与生物信息学技术领域，特别涉及一种基于Spark框架的重测序序列比对方法。

背景技术

全基因组重测序是对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序，并以此为基础进行个体或群体水平的差异性分析。通过全基因组重测序，研究者可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation，CNV)、插入缺失(InDel，Insertion/Deletion)、结构变异(Structure Variation，SV)等变异位点，这在人类疾病及动植物育种研究等方面具有重大的指导意义。随着测序成本的降低，可以预见我们将积累大量的生物个体的基因组重测序数据。

随着第二代测序信息技术(Next-Generation Sequencing,NGS)的发展,我们已经能够在很短的时间内完成一个人的全基因组测序，然而，目前NGS测序仪器单次测序通量可达到数十亿DNA序列，对应于数千亿个字节的原始测序数据，并且测序数据产出和测序成本正在分别以远超摩尔定律的速度快速增加和降低，存储与分析这些数据正面临着极大的考验。

在基因组重测序中，有许多基因比对工具如SOAP、BWA、bowtie2等，SOAP是最先出现的基因比对工具，它能够使用较小的计算机内存对基因序列进行比对，但是其对paired-end数据的支持较差，而BWA和bowtie2较SOAP出现的时间晚，但是能够很好地处理single-end和paired-end两种格式的基因测序数据，在数据处理速度方面，bowtie2较BWA有明显的速度优势，但是准确率略微不足，然而这些比对工具的方法大多基于单节点，目前形势多样、来源不一的测序数据集的预处理、管理和分析已经超出了很多生物信息科学家的能力范围，目前要完成一个病人的全基因组测序数据分析往往需要数天，极大地延缓了后续生命、医学科学研究的进程。

发明内容

为了克服上述所述的不足，本发明的目的是提供一种基于Spark框架的重测序序列比对方法，将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中，通过分布式计算的方式完成重测序的比对流程优化，从而有效提高重测序数据分析的效率。

本发明解决其技术问题的技术方案是：

一种基于Spark框架的重测序序列比对方法，其中，包括如下步骤：

步骤S1、RDDs创建步骤，基于FASTQ文件创建相应的RDDs，并储存在HDFS中；

步骤S2、Map步骤，将BWA的序列比对算法应用到每一个RDDs上，同时RDDs进行多节点映射；

步骤S3、Reduce步骤，根据处理需求选择是否执行最后的合并阶段。

作为本发明的一种改进，在步骤S1内，包括并列的步骤S101和步骤S102；步骤S101用于单端测序序列，步骤S102用于双端测序序列。

作为本发明的进一步改进，步骤S101、通过HDFS文件存储创建相应的RDDs，并以FASTQ文件格式的读取标识符作为RDDs中的键，形成<序列ID,序列内容>的键值对。

作为本发明的更进一步改进，步骤S102、在HDFS上读取和写入的方式对双端数据进行预处理。

作为本发明的更进一步改进，在步骤S102内，通过Spark驱动程序的HDFS Hadoop库直接访问FASTQ文件，完成双端序列的合并且合并成一份新的HDFS文件，并通过添加分隔符的方式来协助区分这两条序列。

作为本发明的更进一步改进，在步骤S2内，包括步骤S201、采取双独立软件层的设计，一个用来对接BWA软件包，另一个负责处理RDDs。

作为本发明的更进一步改进，在步骤S2内，还包括处于步骤S201之后的步骤S202、将输入数据传输进入BWA层，并从Map处采集结果。

作为本发明的更进一步改进，在步骤S3内，根据不同的处理需求选择是否对Map处理记过执行最后的合并阶段。

作为本发明的更进一步改进，在步骤S101内，序列内容包含与序列ID相对应的所有信息。

作为本发明的更进一步改进，在步骤S202，映射的多节点并行及每个单映射过程的多线程并行。

在本发明中包括三个步骤，分别为RDDs创建步骤、Map步骤和Reduce步骤，先是基于FASTQ文件创建相应的RDDs，并储存在HDFS中；再将BWA的序列比对算法应用到每一个RDDs上，同时RDDs进行多节点映射；最后根据处理需求选择是否执行最后的合并阶段；本发明将重测序流程中使用的序列比对BWA集成到Spark大数据处理框架中，通过分布式计算的方式完成重测序的比对流程优化，从而有效提高重测序数据分析的效率。

附图说明

为了易于说明，本发明由下述的较佳实施例及附图作以详细描述。

图1为本发明的流程步骤框图；

图2为本发明内步骤S1的内部流程步骤框图；

图3为本发明内步骤S2的内部流程步骤框图；

图4为本发明内Spark框架下序列比对处理流程示意图；

图5为本发明内双段测序序列处理流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统；HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

FASTQ是基于文本的，保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准；FASTQ文件中每个序列通常有四行：第一行是序列标识以及相关的描述信息，以‘@’开头；第二行是序列；第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加；第四行是质量信息，其和第二行的序列相对应，每一个序列都有一个质量评分，根据评分体系的不同，每个字符的含义表示的数字也不相同。

如图1所示，本发明的一种基于Spark框架的重测序序列比对方法，包括如下步骤：

如图2所示，在本发明中，在步骤S1内，包括并列的步骤S101和步骤S102；步骤S101用于单端测序序列，步骤S102用于双端测序序列；步骤S101、通过HDFS文件存储创建相应的RDDs，并以FASTQ文件格式的读取标识符作为RDDs中的键，形成<序列ID,序列内容>的键值对。步骤S102、在HDFS上读取和写入的方式对双端数据进行预处理。在步骤S102内，通过Spark驱动程序的HDFS Hadoop库直接访问FASTQ文件，完成双端序列的合并且合并成一份新的HDFS文件，并通过添加分隔符的方式来协助区分这两条序列。在步骤S101内，序列内容包含与序列ID相对应的所有信息。

如图3所示，在本发明中，在步骤S2内，包括步骤S201和步骤S202；步骤S201、采取双独立软件层的设计，一个用来对接BWA软件包，另一个负责处理RDDs；步骤S202、将输入数据传输进入BWA层，并从Map处采集结果。在步骤S202，映射的多节点并行及每个单映射过程的多线程并行。

在本发明中，在步骤S3内，根据不同的处理需求选择是否对Map处理记过执行最后的合并阶段。

本发明提供一个实施例，并进行详解：如图4和图5所示，该实施例基于Spark的序列比对流程主要分为三个阶段，分别是RDDs创建、Map以及Reduce。首先通过HDFS文件存储创建相应的RDDs，并以FASTQ文件格式的读取标识符作为RDDs中的键，考虑到测序时会产生单端及双端的测序数据，单端测序中FASTQ文件格式的读取标识符用作RDDs中的键，形成<序列ID,序列内容>的键值对，其中序列内容包含与序列ID相对应的所有信息；而双段测序的两条序列的取标识符相同，通过从HDFS读取和写入对输入文件预处理的方式完成双端序列的合并，并通过添加分隔符的方式来协助区分这两条序列。然后便可以进行第二阶段的Map，Mappers将在RDDs上使用BWA的比对算法并在每个映射过程创建一个输出SAM格式的文件；最后可以根据处理需求选择是否执行最后的合并阶段。

该实施例的具体流程如下：

1、RDDs创建步骤：首先是基于FASTQ文件创建相应的RDDs，并储存在HDFS中；在这一步我们假设HDFS是分布式文件系统，这样，数据就会分布在计算节点上，然后在Map阶段进行并行处理。FASTQ文件格式的读取标识符用作RDDs中的键，形成<序列ID,序列内容>的键值对，其中序列内容包含与序列ID相对应的所有信息，但是这只适用于单端测序序列。针对双端测序序列，拟采用一种直接在HDFS上读取和写入的方式对双端数据进行预处理，通过Spark驱动程序的HDFS Hadoop库直接访问FASTQ文件，双端序列被合并成一份新的HDFS文件，由于BWA比对过程中需要对双端序列的每一条作区分，我们通过添加分隔符的方式来完成区分；在此基础上，我们可以创建RDDs并产生形如<序列ID，合并内容>的键值对。

2、Map步骤：一旦所有的RDDs创建完成，就会进入第二阶段Map；Mappers会将BWA的序列比对算法应用到每一个RDDs上，Map步骤采取双独立软件层的设计，一个用来对接BWA软件包，另一个负责处理RDDs，将输入数据传输进入BWA层，并从Map处采集结果。这样做的好处是可以实现跨集群分布的映射的多节点并行以及每个单映射过程的多线程并行。

3、Reduce步骤：最后可以根据不同的处理需求选择是否对Map处理记过执行最后的合并阶段。

在该实施例中，其将重测序比对软件BWA集成到Spark大数据处理框架中，还提出一种基于HDFS读取写入的预处理方式，解决双端测序两条序列ID读取标识符一样的问题；而且Map步骤中提出一种双独立软件层的设计，实现两层的并行，进一步提高效率；该实施例的两大优势为：一、与使用Hadoop、MapReduce相比，在内存计算策略和先进的DAG调度等机制的帮助下，基于Spark集群的比对可以用更快速度处理相同的数据集；二、重要优势在于多样性，可作为独立集群部署，或与现有Hadoop集群集成；该产品可运行批处理和流处理，运行一个集群即可处理不同类型的任务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Spark框架的重测序序列比对方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S1内，包括并列的步骤S101和步骤S102；步骤S101用于单端测序序列，步骤S102用于双端测序序列。

3.根据权利要求2所述的一种基于Spark框架的重测序序列比对方法，其特征在于，步骤S101、通过HDFS文件存储创建相应的RDDs，并以FASTQ文件格式的读取标识符作为RDDs中的键，形成<序列ID,序列内容>的键值对。

4.根据权利要求3所述的一种基于Spark框架的重测序序列比对方法，其特征在于，步骤S102、在HDFS上读取和写入的方式对双端数据进行预处理。

5.根据权利要求4所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S102内，通过Spark驱动程序的HDFS Hadoop库直接访问FASTQ文件，完成双端序列的合并且合并成一份新的HDFS文件，并通过添加分隔符的方式来协助区分这两条序列。

6.根据权利要求5所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S2内，包括步骤S201、采取双独立软件层的设计，一个用来对接BWA软件包，另一个负责处理RDDs。

7.根据权利要求6所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S2内，还包括处于步骤S201之后的步骤S202、将输入数据传输进入BWA层，并从Map处采集结果。

8.根据权利要求7所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S3内，根据不同的处理需求选择是否对Map处理记过执行最后的合并阶段。

9.根据权利要求3所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S101内，序列内容包含与序列ID相对应的所有信息。

10.根据权利要求6所述的一种基于Spark框架的重测序序列比对方法，其特征在于，在步骤S202，映射的多节点并行及每个单映射过程的多线程并行。