CN107665291B

CN107665291B - 一种基于云计算平台Spark的变异检测方法

Info

Publication number: CN107665291B
Application number: CN201710886300.8A
Authority: CN
Inventors: 董守斌; 吴宗泽; 袁华; 付佳兵; 张铃启
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2020-05-22
Anticipated expiration: 2037-09-27
Also published as: CN107665291A

Abstract

本发明公开了一种基于云计算平台Spark的变异检测方法，包括步骤：1)Spark主节点截取部分的输入序列比对映射格式文件，分发到各个Spark工作节点中；2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理，获取片段的预处理信息并返回到Spark主节点；3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分，并分发到各个Spark工作节点；4)Spark工作节点对片段序列比对映射格式文件进行变异检测，Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

Description

一种基于云计算平台Spark的变异检测方法

技术领域

本发明属于生物信息学技术领域，尤其是指一种基于云计算平台Spark的变异检测方法。

背景技术

近年来，随着第二代测序技术高通量测序技术(High Throughput Sequencing)的深入发展，人类个体测序的时间与成本已经减少到一个相对较低的水平。从原本每个碱基1美元的成本到现在1000～5000美元测序一套基因组，从耗时13年完成第一个人类基因组图谱到现在只需数星期的时间，人类基因组的研究已经进入了低成本高通量的测序时代。但是因为基因数据的急剧增长，海量数据也使得传统的基因处理软件有些无能为力，只有数据的获取速度和处理速度相匹配，才能更好地利用高通量测序技术带来的优势。

以参考序列为基准进行的个体或群体差异性分析被称为全基因组重测序(Resequencing)。研究人员通过全基因组重测序可以获得个体或群体的变异信息，包括单核苷酸多态(Single Nucleotide Polymorphism)、结构变异(Structure Variant)以及拷贝数变异(Copy Number Variant)等。其中结构变异细分为插入(Insertion)、删除(Deletion)、倒位(Inversion)、重复(Duplication)和移位(Translocation)。一般小段的插入和删除统称为InDel。后续这些变异信息可以用于临床医药研究、关联分析、群体遗传学研究等多种领域。全基因组重测序包括比对、重比对、去重、重校准、变异检测等步骤。变异检测步骤将中间的序列比对信息转换为最终的变异信息，是一个重要且耗时的步骤。

常用的变异检测工具有Samtools、FreeBayes、GATK UnifiedGenotyper、GATKHaplotypeCaller。在这些变异检测工具中，GATK的HaplotypeCaller工具因为其较高的准确性(特别是在InDel的检测)，因此使用最为广泛。HaplotypeCaller算法主要包含四个步骤：1)定义活动区域(active region)；2)通过活动区域的局部组装确定单倍体(haplotype)；3)计算单倍体的似然性；4)分配样本的基因型。

当前主流的HaplotypeCaller多线程解决方案有GATK MapReduce、HugeSeqpipeline、Churchill pipeline等。但是GATK MapReduce适用于单节点，适用于共享存储的计算框架，不能较好地扩展到多个节点；HugeSeq pipeline按照染色体划分任务，而常规染色体中最长的染色体(chr1)的长度是最短的染色体(chrY)的4.2倍。如果考虑到众多未能完全匹配的染色体数据(如chr1_gl000191_random等)，长度比最高可以达到58.5倍，因此按照染色体进行任务划分会导致负载较为不均衡；Churchill pipeline对染色体取长补短，将所有数据分割成定长的子染色体，对子染色体并行处理。但是它适用于FreeBayes、HaplotypeCaller等多个变异检测算法，并没有针对性地进行负载均衡处理，而HaplotypeCaller算法中，为了简化计算，其首先会检测其内较为可能有变异的activeregion(活动区域)，并只对active region进行变异检测。因此即使输入数据长度一致，但是因为其内active region数量及其内序列数量的不同也会导致计算耗时有较大的区别。

与此同时，计算机领域诞生的面向大数据处理的云计算平台(如Hadoop、Spark)也日渐成熟，在各行各业都得到了广泛的应用。与Hadoop相比，Spark基于内存计算的架构，极大地减少了网络IO开销，特别适合于迭代计算。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于云计算平台Spark的变异检测方法，能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

为实现上述目的，本发明所提供的技术方案为：一种基于云计算平台Spark的变异检测方法，包括以下步骤：

1)Spark主节点截取部分的输入序列比对映射格式文件，分发到各个Spark工作节点中；

2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理，获取片段的预处理信息并返回到Spark主节点；

3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分，并分发到各个Spark工作节点；

4)Spark工作节点对片段序列比对映射格式文件进行变异检测，Spark主节点接收所有工作节点的返回数据并写入文件。

在步骤1)中，输入的序列比对映射格式文件包括两种，SAM(Sequence Alignment/Map)格式及其二进制压缩的BAM格式。所述输入文件按照一定粒度划分成数据块，并存储在NFS(网络文件系统)中或者HDFS(Hadoop文件系统)等可以被多个节点访问的文件系统。所使用的Spark集群包括主节点和工作节点，其中主节点也可以是其中一个工作节点。

Spark主节点截取所述序列比对映射格式文件数据块的数量为n_seg。根据公式(1-1)和(1-2)获得。

s×T_avg＝T_max (1-1)

n_seg＝s×(p-1) (1-2)

其中，p是工作节点的个数，T_avg和T_max都是先验值，分别是事先统计的一个文件块变异检测的平均耗时和最大耗时，s是执行的回合数。

在步骤2)中Spark工作节点对片段序列比对映射格式文件执行的预处理步骤为HaplotypeCaller算法的前两步：定义活动区域(active region)和通过活动区域的局部组装确定haplotype，返回的预处理信息为预估时间复杂度O_predicted。计算公式如下：

O_predicted＝n×m×r×h (2-1)

其中，n为数据块中active region内reads的数量，m为候选haplotype的数量，r为reads的总长度，h为候选haplotype的总长度。

在步骤3)中，根据预先拟合的转换函数将步骤2)返回的预估时间复杂度转换为预估耗时T_predicted：

其中，a、b、c为拟合的多项式函数的参数。

第i块预处理数据块的后续切分粒度n_i的计算如公式(3-2)，其余未预处理的数据按照默认的文件块粒度进行划分。

其中T_i,predicted为第i个预处理数据块的预估耗时，T_avg为数据块的平均耗时。

在步骤4)中，所使用的变异检测算法是HaplotypeCaller。该步骤中需要执行HaplotypeCaller算法完整的四个步骤：定义活动区域(active region)、通过活动区域的局部组装确定单倍体(haplotype)、计算单倍体的似然性、分配样本的基因型。最终获得VCF(Variant Call Format)格式的变异信息。主节点将VCF格式数据写入磁盘前，可以按照染色体位置对其进行排序。

本发明与现有技术相比，具有如下优点与有益效果：

1、基于Spark分布式技术。Spark是一种优秀的开源分布式计算框架，使用分布式的内存抽象RDD(Resilient Distributed Datasets)作为数据结构，具备自动容错、位置感知调度和伸缩性强的特点。同时Spark的求值运算是惰性的，框架会自动将连续的、不涉及节点间数据交换的多个转换操作合并起来，以减少计算数据的步骤。

2、细粒度与自适应粒度的任务划分。相比传统的按照染色体粒度划分、平均染色体长度划分等粗粒度的任务划分。本发明使用较小的粒度进行划分，有利于任务的负载均衡，同时还考虑到了HaplotypeCaller变异检测方法在相同长度的不同数据块中耗时的区别，对部分数据块做进一步的细粒度划分。因此本发明在负载均衡方面有较好的表现。

附图说明

图1为本发明方法流程图。

图2为相邻两个数据块重叠区域示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于云计算平台Spark的变异检测方法，包括以下步骤：

1)Spark主节点截取部分的输入序列比对映射格式文件，分发到各个Spark工作节点中。

本发明方法的输入是序列比对文件。序列比对文件常见的格式为SAM格式(Sequence Alignment/Map)，以文本的方式记录测序序列reads到参考序列的比对信息。此外通常为了节约存储空间和提高传输速率，SAM文件会被二进制压缩处理成BAM文件。BAM文件是一种基于块压缩的格式，由一系列不超过64Kb的数据块组成。这种特性允许在压缩的格式下能够有效地通过索引文件进行随机访问，同时这也允许将数据进行切分，有利于结合HDFS在Spark框架中并行读取。

虽然Spark支持传统的网络文件系统NFS，但本发明推荐使用Hadoop文件系统HDFS。HDFS优点在于其分布式的特性，其默认将数据内容分成多个128Mb大小的数据块(如需修改，可以修改$HADOOP_HOME/conf/hdfs-site.xml中的dfs.block.size参数)，并且这些数据块会均匀的保存到多个节点中。计算时，Spark的mapPartitions算子将会以一个数据块为任务粒度并行执行。同时Spark计算节点会优先使用当前节点的数据块进行计算，此时仅需要从本地磁盘读取而无需占用网络带宽，能充分利用多节点的磁盘IO。

HaplotypeCaller算法为了简化计算，首先会检测输入数据中较为可能有变异的active region(活动区域)，并只对active region进行变异检测。虽然HDFS将数据分成等大小的数据块，但是每个数据块中active region的数量及其内序列reads的长度等信息不尽相同，而这些会直接影响这段数据变异检测的计算耗时。如果差异过大会极大的影响最终的性能。因此需要通过简单计算提前知晓数据段大约的计算耗时，以便对其进行细粒度划分。

在大数据的情况下，按默认数据块进行划分时，前期的数据块任务即时不均衡也不会造成太大的差异，仅需要对靠后的数据进行细粒度划分以保证在总体任务即将结束依旧是负载均衡的。通过这样能够避免最后结束时，其他工作节点都完成计算，而有一个工作节点还需要运行很久，进而拖慢总体性能的情况。

如何选择数据截取数量可以根据以下公式获取：

s×T_avg＝T_max (1-1)

n_seg＝s×(p-1) (1-2)

其中，p是工作节点的个数，T_avg和T_max都是先验值，事先根据计算粒度统计的平均一个计算粒度的耗时和最大耗时。s是执行的回合数。n_seg为需要预处理的数据块数量。因为切分点后的数据块会经过简单计算来估算耗时，而切分点前的不做预处理，因此考虑到最差的情况，即切分点前的一个分块刚好是耗时最多的数据块。此时需要其余的p-1个节点的每个节点在经过s轮计算后耗时与前面这个数据块耗时相同。

在默认情况下，HDFS数据块为128Mb，T_max/T_avg大约为19。假设集群有10个计算节点，那么需要预处理的数据块有171个。如果输入文件小于21.375Gb，则需要对所有的数据块进行预处理。

2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理，获取片段的预处理信息并返回到Spark主节点。

HaplotypeCaller算法主要的四个步骤为：一、定义活动区域(active region)；二、通过活动区域的局部组装确定单倍体(haplotype)；三、计算单倍体的似然性；四、分配样本的基因型。其中耗时占比最高的为第三步，其时间复杂度大致为：

O(N×M×R×H) (2-1)

其中，N是输入reads的数量，M为候选haplotype的数量，R为reads的总长度，H为候选haplotype的总长度。

因为第三步耗时占比较高，可以用其时间复杂度对整体时间复杂度进行估算。其中用于计算第三步时间复杂度的需要的参数由前两步的计算获得。因此Spark并行对n_seg个数据块进行初步计算，执行HaplotypeCaller算法的第一步和第二步。即可获得数据块中active region的数量及其内reads的长度、haplotype的数量及其内reads的长度，接下来将这些数据相乘便能得到该数据块的估算时间复杂度O_predicted。

O_predicted＝n×m×r×h (2-2)

其中，n为数据块中active region内reads的数量，m为候选haplotype的数量，r为reads的总长度，h为候选haplotype的总长度。值得注意的是，实际中相乘的结果通常会比较大，为了防止溢出，所有乘数都进行一个固定的移位操作。

3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分，并分发到各个Spark工作节点。

在本发明方法实施前，需要预先进行实验，采集测试数据块的估算时间复杂度和对应HaplotypeCaller耗时，绘制散点图并拟合曲线。获得转换函数如下：

其中，a、b、c为拟合的多项式函数的参数，O_predicted为数据块的估算时间复杂度，T_predicted为数据块的估算耗时。

然后将上一步获取的各个预处理块的估算时间复杂度转换成预处理块的预估耗时。对于预估耗时较多的预处理块，可以进一步的细粒度划分，以达到较好的负载均衡。第i块预处理数据块的后续切分粒度n_i的计算如公式3-2，其余没有进行预处理的数据按照默认的文件块粒度进行划分。

其中，T_i,predicted为第i个预处理数据块的预估耗时，T_avg为数据块的平均耗时。

数据块的细粒度划分，可以通过自定义的InputFormat(Spark读取文件的类)进行。如果输入文件是BAM文件，分块大小需要是64Kb倍数以保证的每个BAM分块的完整性。此外，如果只是简单的将比对数据进行分割并分别进行变异检测，那么数据块边界上的位点信息将会有可能不完整，导致边界的变异丢失，为了解决这个问题，相邻的两个数据块需要有一定的重叠区域(如图2所示，条纹相同矩形内的数据内容相同)。最后数据块通过Spark的调度机制按序分发给工作节点。

这一步中，工作节点将会对每个接收到的数据块进行完整的HaplotypeCaller变异检测算法。包括定义活动区域(active region)、通过活动区域的局部组装确定单倍体(haplotype)、计算单倍体的似然性、分配样本的基因型。最终获得VCF(Variant CallFormat)格式的变异信息。当所有工作节点的任务完成后，主节点获取所有的VCF格式数据，并按照染色体位置对其进行排序。上一步中相邻的两个数据块设置了一定的重叠区域，虽然解决了变异信息不完整的问题，但也有可能会导致两个数据块都检测出同一个变异信息，因此在写入文件前，需要对结果数据进行去重。最终写入文件的是完整的、排序的、去重的、VCF格式的变异信息。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于云计算平台Spark的变异检测方法，其特征在于，包括以下步骤：

2)Spark工作节点并行对片段序列比对映射格式文件进行预处理，获取片段的预处理信息并返回到Spark主节点；

其中，Spark工作节点对片段序列比对映射格式文件执行的预处理步骤为HaplotypeCaller算法的前两步：定义活动区域和通过活动区域的局部组装确定单倍体，返回的预处理信息为预估时间复杂度O_predicted，计算公式如下：

O_predicted＝n×m×r×h (2-1)

式中，n为数据块中活动区域内reads的数量，m为候选单倍体的数量，r为reads的总长度，h为候选单倍体的总长度；

其中，根据预先拟合的转换函数将步骤2)返回的预估时间复杂度转换为预估耗时T_predicted：

式中，a、b、c为拟合的多项式函数的参数；

第i块预处理数据块的后续切分粒度n_i的计算如公式(3-2)，其余未预处理的数据按照默认的文件块粒度进行划分；

式中，T_i,predicted为第i个预处理数据块的预估耗时，T_avg为数据块的平均耗时；

2.根据权利要求1所述的一种基于云计算平台Spark的变异检测方法，其特征在于：在步骤1)中，输入的序列比对映射格式文件包括SAM格式及其二进制压缩的BAM格式，所述输入的序列比对映射格式文件按照设定粒度划分成数据块，并存储在能够被多个节点访问的文件系统中，所使用的Spark集群包括主节点和工作节点，其中主节点也能够是其中一个工作节点；

Spark主节点截取所述序列比对映射格式文件数据块的数量为n_seg，根据下面公式(1-1)和(1-2)获得；

s×T_avg＝T_max (1-1)

n_seg＝s×(p-1) (1-2)

式中，p是工作节点的个数，T_avg和T_max都是先验值，分别是事先统计的一个文件块变异检测的平均耗时和最大耗时，s是执行的回合数。

3.根据权利要求1所述的一种基于云计算平台Spark的变异检测方法，其特征在于：在步骤4)中，所使用的变异检测算法是HaplotypeCaller，该步骤中需要执行HaplotypeCaller算法完整的四个步骤：定义活动区域、通过活动区域的局部组装确定单倍体、计算单倍体的似然性、分配样本的基因型；最终获得VCF格式的变异信息；其中，主节点将VCF格式数据写入磁盘前，能够按照染色体位置对其进行排序。