CN108287983A

CN108287983A - 一种用于对基因组进行压缩和解压缩的方法和装置

Info

Publication number: CN108287983A
Application number: CN201710012515.7A
Authority: CN
Inventors: 朱瑞星
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-01-09
Filing date: 2017-01-09
Publication date: 2018-07-17

Abstract

基于参考基因组的压缩方法并非没有办法解决它压缩速度慢的问题，可以通过并行解压缩的方式来提高速度。序列比对到参考基因组上的过程是可以高度并行化的，很多基于参考基因组的压缩算法也是可以并行化的，那么利用集群进行解压缩，可提高冷存储转为热存储的速度，减少因为冷存储压缩算法带来的时间成本，如果选用传统的多核心计算机来做并行化，必然面临瓶颈，而本发明采用hadoop集群，充分利用mapreduce的优势，将压缩比高的压缩算法在集群上达到高速度，同时又能获得很高的压缩比，虽然这样的集群需要很好的计算资源，但是商业云的弹性计算都能提供这种服务，或许不远的将来这些工具都能成为商业云的配套服务。

Description

一种用于对基因组进行压缩和解压缩的方法和装置

技术领域

本发明涉及对基因组进行压缩和解压缩技术领域，尤其是涉及对人类基因组数据fastq文件的压缩，是基于hadoop集群的压缩和解压缩的方法和装置。

背景技术

随着二代测序的迅猛发展，测序成本大幅降低，越来越多的基因组数据不断涌现，无论是对于存储还是网络传输都成了重大负担，如何对数据进行有效的压缩就显得迫在眉睫。高效的压缩方法不但能带来存储空间的节省，也给减少了网络传输的压力。压缩方法主要分为两个方向，一个是基于参考基因组的压缩，一个是非基于参考基因组的压缩，基于参考基因组的压缩能够带来更好的压缩效果，但是更为耗时，因为需要进行比对，这在一定程度带来计算资源的消耗，而且这类方法，往往也依赖于参考基因组的质量，当基因组很好的情况下才能达到良好的压缩效果，但是由于存储的需要，加上fastq文件并不是经常需要，可以对数据采用冷存储。出于这方面的考虑，基于参考基因组的压缩开始受到更多关注。

基于参考基因组的压缩方法并非没有办法解决它压缩速度慢的问题，可以通过并行解压缩的方式来提高速度。序列比对到参考基因组上的过程是可以高度并行化的，很多基于参考基因组的压缩算法也是可以并行化的，目前的对基因组进行压缩和解压缩的方法中冷存储转为热存储的速度慢，因冷存储压缩算法带来的时间成本较高，如果选用传统的多核心计算机来做并行化，必然面临瓶颈，所以一种采用采用hadoop集群，充分利用mapreduce的优势，将压缩比高的压缩算法在集群上达到高速度，同时又能获得很高的压缩比的压缩方法和解压缩方法是在本领域迫切需要的。。

发明内容

为解决以上现有难题，本发明公开了一种基于hadoop集群的对基因组进行压缩和解压缩的方法和装置。

在hadoop集群上搭建生物信息平台，能够充分利用并行效果，达到理想的运算速度，这样给生物信息平台带来了优势，同时它的可扩展性也带来的巨大的方便。生物信息最基本的需求有两个，一个是数据存储和一个数据的分析，而hadoop集群能同时满足这两个需求。基于参考基因组的压缩办法并非没有办法解决它压缩速度很慢的问题，可以通过并行解压缩的方式来提高速度。首先，序列比对到参考基因组上的过程是可以高度并行化的，很多基于参考基因组的压缩算法都是可以并行化的，那么就可以考虑充分利用集群进行解压缩，从而提高冷存储转为热存储的速度，减少因为冷存储压缩算法带来的时间成本。如果选用传统的多核心计算机来做并行化，必然面临瓶颈，如果采用hadoop集群，充分利用mapreduce的优势，是可以把这些非常耗时，但是压缩比却很好的压缩算法在集群上达到很快速度，而又能同时收获很高的压缩比。虽然这样的集群需要很好的计算资源，但是商业云的弹性计算很多都能提供这种服务，或许不远的将来这些工具都能成为商业云的配套服务。

一种用于对基因组进行压缩的方法，包括：

从参考数据库中选择与所述基因组相匹配的参考基因组；

对参考基因组创建基于bwt算法的索引；

基于hadoop集群将短序列fastq文件与参考基因组进行比对，将短序列比对到参考基因组的过程是在hadoop集群上完成的，是基于hadoop集群对bwt算法的改写；根据短序列在参考基因组中的位置来定位，并获取与参考基因组不同的部分；

对短序列fastq文件进行预处理，比对align，以标识基因组与参考基因组之间的差异数据；以及生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据，生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。

进一步地，其中从参考数据库中选择与所述基因组相匹配的参考基因组包括：

选用人类参考基因组，选择所述压缩过程专门针对人类数据进行压缩的算法；

基于人类基因数据参考数据库中的参考基因组的特征进行计算，算出不同于其他物种的特征，将这些特征放置于hadoop集群的每个结点中。

进一步地，其中所述基因组相匹配的参考基因组包括：

基于人类基因组的全部22条常染色体数据以及XY染色体以及线粒体基因组，选用人类基因组hg19版本。

进一步地，其中压缩过程包括：通过序列比对过程，将fastq文件分解成多个部分，其中包括ID部分、序列部分以及碱基质量值部分，并对fastq文件建立索引、分发，根据fastq文件中read所处在的文件位置进行分发，然后对fastq文件进行压缩。

参考数据库中的参考基因组中包括的至少一个预定序列中的至少任一项，选择参考基因组，少量提取基因组序列特征，然后充分保留这些特征。

在本发明中，参考基因fastq数据文件是需要进行排序调整的，所以记录fastq文件中序列本来的顺序是很重要的，要对fastq文件中的序列的顺序进行记录，以便保证fastq能够被还原。

进一步地，其中将fastq文件进行分解， fastq文件处理后分成三个子文件：

文件1：fastq文件的碱基部分，这部分为序列，这些序列来自于高通量测序仪；

文件2：ID部分，ID部分是fastq文件中每个短序列的唯一标识符，同时对这些标识符进行处理，使得记录下每个短序列在原来文件中的位置，以及选择与所述基因组的差异最小的参考基因组；

文件3：序列的质量值部分，这部分来自于测序仪器的质量控制环节，对这部分没有进行预处理，保留原始状态；

最后，对文件1、文件2、文件3构建索引，从而提高读取速度。

进一步地，进一步包括：将参考基因组经过索引处理，这些索引是为了应对hadoop集群的特征而建立的，是专门针对mapreduce的HDFS文件系统而打造的方法。

进一步地，包括：针对hadoop集群而进行的比对分析处理过程，这个过程是对waterman算法的改写，将传统的用于单节点的比对算法进行改写，使之能与hadoop集群体系整合。

进一步地，其中针对hadoop集群而进行的比对分析处理过程包括：使用hadoop集群中的mapreduce接口对比对过程进行改写，对HDFS文件系统进行充分利用；比对过程充分并行， hadoop集群的每个结点都会产生一个fastq文件的比对子集，也就是map的过程，最终要将这些子集通过reduce的过程合成一个大的比对集合，然后根据这些比对的结果进行smatools mileup 处理，从而找到序列之间与参考基因组相同的部分和不同的部分。

进一步地，其中对fastq文件进行压缩包括：将这其中的短序列与参考基因相同的部分都删除，只保留不相同的部分，这样大量减少的数据的冗余，从而实现了压缩。

进一步地，将这其中的短序列与参考基因相同的部分都删除，只保留不相同的部分，包括对质量部分的压缩处理，通常采用通用压缩技术，并未做特别处理。

一种用于对基因组进行解压缩的方法，包括：经上述的方法进行压缩的经压缩的基因组，从参考基因组中获取与短序列比对位置相同的序列，并将这些序列提取出来，替换掉与短序列差异的部分，这样就还原了原始的短序列。

进一步地，包括：

首先，将用通用压缩方法压缩后的差异文件解压缩；

然后，利用差异文件的文本内容去到参考基因组上寻找和参考基因组不同的部分；

最后，将这些不同的部分和与参考基因组相同的部分进行整合与保留。

一种用于对fastq文件进行压缩和解压缩的装置，包括：

拆分模块，配置用于对fastq文件进行拆分，先是按照文件内容进行拆分，最后对fastq文件进行水平拆分然后分发，分发到集群的每个结点上；

Map过程模块，配置用于将比对过程map到每个结点上，从而完成快速完成比对过程；

Reduce过程模块，配置用于将最终的结果整理整合，最终得到每个短序列与参考基因组的差异，并记录这些差异，从而完成压缩；

还原模块，配置用于获取差异文件也就gcmp文件的压缩文件后进行解压缩。

拆分模块包括至少以下任一项：fastq文件的竖直拆分，以及fastq的水平拆分，fastq文件需要能够拆分后保持原有的拆分前的信息，保证拆分后能够按照要求合并回原始状态。

Map过程模块包括：fastq文件必须能够map到每个结点上，通过特定的方式保证fastq文件能够在均匀map到每个节点上，避免出现数据倾斜，从而导致无法充分利用hadoop集群的优势，Map过程应当将fastq文件中的短序列均匀map到每个结点上，Map的过程是利用hadoop自身的架构，并结合HDFS文件系统对文件进行存储。

其中Reduce过程模块包括：

第一Reduce过程模块，配置用于需要将比对到多处的短序列进行去冗余处理，挑选短序列比对到参考基因组上结果最好的位置，生成sam文件，这些大文件需要能够存储在HDFS文件系统之上，能够保证文件可以进行reduce过程；

第二Reduce过程模块，配置用于将sam文件转化为bam文件，节省临时的存储空间；

第三Reduce过程模块，配置用于bam文件进行压缩，读取文件中序列和参考基因组不同的地方，然后提取并进行压缩，仅仅保留和参考基因组不同的文件部分，生成新的gcmp文件，然后使用通用压缩算法对gcmp文件进行二次压缩。从而达到了最低的压缩比。

其中还原模块应该包括：

第一还原模块，配置用于用gcmp文件中差异部分对数据文件进行还原，因为只保留了与参考基因组的差异部分，还原过程依旧要通过mapreduce的方式来进行；

第二还原模块，配置用于将gcmp差异文件部分分发到hadoop集群上，使得hadoop集群能够利用map过程对数据进行还原；

第三还原模块配置用于将Map过程得到的结果再利用reduce进行还原，从而最终得到原始序列文件，最后根据文件中保留的短序列排序信息对文件进行还原。

在本发明中，提供的一种用于对基因数据fastq文件进行压缩的装置，还包括：分发装置，配置用于将fastq文件分出的每个部分分发到hadoop集群的每个结点上，并在hadoop集群的每个结点上进行比对的大数据运算。

在本发明中，在hadoop集群中进行比对的过程中，需要将序列map到参考基因组上，比对过程中充分利用hadoop集群的性能优势。

在本发明中，要将map到各个结点的序列的比对结果进行reduce。

通过reduce把所有的结果整合，最终得到最后的比对文件转化成压缩文件。然后使用通用压缩技术将压缩文件进行二次压缩。

在本发明中，提供了将文件解压缩的最终步骤：

将使用通用解压缩算法的文件解压缩后，再根据解压缩后得到的文本文件，根据文本文件中的与参考基因组的差异内容，然后再根据差异来恢复原始数据，恢复之后基因组进行解压缩，从而恢复出原始的序列信息。

采用根据本发明所述的技术方案，可以将基因fastq数据文件中的其他部分进行恢复，ID部分以及序列质量部分进行解压缩，最后根据三个部分的关联关系进行整个文件的恢复，从而实现文件的压缩和解压缩。

有益效果：本发明利用hadoop集群进行压缩和解压缩，可提高冷存储转为热存储的速度，减少因为冷存储压缩算法带来的时间成本，如果选用传统的多核心计算机来做并行化，必然面临瓶颈，而本发明采用hadoop集群，充分利用mapreduce的优势，将压缩比高的压缩算法在集群上达到高速度，同时又能获得很高的压缩比，采用本发明的技术方案，可以提高数据压缩率，同时提高压缩速度，能够充分利用分布式的计算能力。利用hadoop集群进行压缩和解压缩具有适用于大数据、灵活的可扩展性、成本低廉、故障容错能力强的特点，全方位适用于对基因组数据的有效压缩。

附图说明

图1示意性示出了适于实现本发明实施方式的示例性hadoop集群的结点关系示意图以及文件块的组织方式示意图。

图2示意性示出了hadoop集群对结点进行管理的架构示意图。

图3示意性示出了map reduce 过程中的数据流的过程方案，包含了hadoop集群的数据流通过程图。

图4示意性示出了建设hadoop集群的服务器架构以及硬件体系布置的架构图。

图5示意性示出了hadoop集群中bwa的数据流的过程，bwa通过比对最终生成bam、sam文件的过程图。

图6示意性示出了整个压缩过程的流程图。

图7示意性示出了压缩和解压缩装置的框图。

其中，10为拆分模块，20为Map过程模块，30为reduce过程模块，301为第一reduce过程模块，302为第二reduce过程模块，303为第三reduce过程模块，40为还原模块，401为第一还原模块，402为第二还原模块，403为第三还原模块。

具体实施方式

结合附图并参考以下详细说明，本发明各实施方式的特征、优点及其他方面将变得更加明显。虽然附图中显示了本方案的相对合适的实施方案，但部分细节并未清晰描述，接下来将结合附图对这个方案进行更加详尽的描述，以便将本方案更完整的传达给本领域的相关技术人员。

基于本发明实施的方案，hadoop集群必须和bwa进行整合，bwa在本来固有传统生物信息集群上并不能发挥优势，需要进行整合，对代码进行重新编译，将代码嵌入hadoop集群需要的接口和实现方式。

相关领域技术人员都清楚，这是一个主要针对fastq文件进行压缩的方法和方案。fastq文件是一种文本文件，主要用来保存各种测序仪产生的数据（大多数情况都是DNA序列）和其测序质量信息的一种事实标准的格式。这种数据格式是由Sanger提出的，目的是把DNA序列和质量数据信息整合在一起。

fastq文本文件中的所有序列一般都是包含有4个部分：标识序列的ID以及与此有关的描述，通常情况下都是以‘@’开头。第二部分是DNA序列。第三部分以‘+’开头，后面是序列的一个专用标识符、一些描述性信息，或者什么也没有。第四部分，是质量的信息，和第二部分的序列一一对应，序列碱基的质量得分都包含在这里。依据评分质量体系的不同，每个字符所表示的质量值的范围也大不相同。由于illumina测序仪目前的优异表现，目前大部分科研机构都是选择illumina作为首选的测序仪，大量的fastq文件也都是由illumina测序仪产出的。事实上也正是illumina的贡献才有了现在测序数据量的井喷。illumina测序仪的数据结构@SEQ_ID与其他测序仪的含义并不相同，其内容主要是保存的是测序数据与测序仪的关系。许多使用ASCII码保存的原始数据的文本文件，一般都是FASTQ文件，每个FASTQ文件的子集都是由序列id、序列本身、还有伴随碱基的质量值。因此对这样的文本文件的压缩就需要分成三部分去处理：read IDs、碱基序列以及质量。对于read IDs的压缩标准的方法就能完美的适用，因为read IDs 通常彼此之间都非常相似，然而序列部分的压缩和质量部分的压缩就是完全不同的两个问题了。序列部分随着测序深度的加深，会出现重复度很高的冗余，这样留给压缩的空间就更大了，而质量部分却不是这样子，它呈现更不规律的特征，但是通常可以考虑利用有损压缩，可以在某种程度提高压缩率。在这里主要介绍FASTQ文件的压缩，很多针对FASTQ文件压缩的算法都吸取了很多以往的压缩DNA序列算法的经验。基于非参考基因组的压缩算法很多都考虑了denovo assembly的方法。

基于本发明需要参考FQCOMP,SCALE,FASTQZ,DSRC,ORCOM,BEETL,MINCE等的实现方式。这些工具通过denovo的方式建立debuijn图，然后通过debruijn图来寻找序列彼此之间相似的部分，这与以往的算法中仅仅去靠编辑距离和统计的方法有其独特的优势。基于参考基因组的压缩算法也开始涌现，与以往不同的是这时候已经有很多完整的拼接好的基因组提供使用。这时候相关算法才开始兴起，基于参考基因组压缩的算法通常都要把fastq文件中的序列部分比对到参考基因组上去，然后尽量保存少量信息用来恢复fastq文件。这些信息仅仅包含参考基因组上比对位置和与参考基因组的差异。尽管这种方法压缩效果很好，但却非常耗费时间，首先就有很多时间要耗费在比对上。解压缩的时候也必须有参考基因组的存在，这也给基于参考基因组的压缩算法带来了瓶颈，尤其是当参考基因组发生改变或者丢失，压缩后的文件也就失去了意义。

大部分denovo方法也吸取了专门针对DNA序列的压缩算法，要么用上下文模式来预测然后再利用二进制编码方式来编码(FASTQZ, FQZCOMP,DSRC)，要么通过排序reads来实现寻找相邻的序列之间存在最大的相似性来进行压缩(SCALCE, ORCOM,MINCE). FASTQZ和FQZCOMP是对通用文本压缩算法的一种改进。对于很简单的基因组，这种上下文模式能够在基因组中找寻它的规律，然后得到一个较好的压缩结果。DSRC用了差不多相似的技术，但是它能高速地进行压缩和进行解压缩。PATHENC 同样使用上下文模式然后用算术编码，通过两步处理。在工作之初上下文模式使用参考基因组初始化产生压缩用的k-mer编码形成一棵bit树。也需要重新排序reads，尽管他们也在一定理念上将reads的关联关系用图表示，但是并没有使用deBruijn 图来做压缩。

目前为我们所知，完成最好的序列压缩工具是reads 重排序算法：BEETL 和BEETL-FASTQ，这个工具是利用reads的BWT转换来完成压缩的，这个方法似乎看起来更适合用来做在压缩文档中做检索，而不是一个压缩和解压缩工具。

ORCOM 则使用一种在NGS 数据处理中广为应用的方法，快速地把reads集合重排序并根据相似程度而放置在一起，这是非常有效的方法同时能兼顾压缩比率和执行速度，他们的方法仅局限于序列压缩，头部都被去掉了。MINCE 也是同样的思路，同样对reads进行重排序通过minimizers的方法，最后reads都通过minimizer来消除冗余后进行编码，最后再使用通用的压缩工具进行压缩。然而当我们记录reads的时候同时也需要记录reads的pair-end等信息，否则将无法使用NGS工具进行下游分析。重排序后不能保留pair-end这类信息的不能被称作是无损压缩。MINCE也有专门的参数提供给pair数据，通过把pairedreads合并在仪器压缩，解压缩的时候再分离。SCALCE 也有同样的选项去处理pair-end数据，但是会大幅度降低压缩比率。QUIP（在它的referrence-free 模式）使用了不同的方法，基于为NGS定制的分析方法。利用短序列通过denovo 拼接去建立一个参考基因组。这些参考基因组序列大都是contigs，然后再利用基于参考基因组的压缩办法，但是这个方法高度依赖产生的contigs的质量，在最近的压缩竞争中表现卓越。质量得分的压缩技术主要被分为两个流派，一个是有损压缩，一个无损压缩，有损压缩利用质量数据的损失来换取高压缩率，据以往的观察发现，质量值通常都与该碱基在reads上的位置和附近的质量值有关。许多无损压缩算法都是充分利用这个特性，然后利用上下文模式进行接下来的算数编码。

本发明充分改进了其他的无损方法，都把质量值转变成用更少的比特来编码，比如gap translating、min shifting 和frequency ordering等等。经典的有损方法主要包括减少质量值的范围，这使得接下来的压缩更加容易。图1示意性示出了适于实现本发明实施方式的示例性hadoop集群的结点关系示意图以及文件块的组织方式，通常的方法是把质量值分成几个区间，落在区间中的质量值会被替换成跟区间边界一样的值。FQZCOMP、LIBC等方法都是这样做的。其他有损压缩将不是很重要的质量值是利用DNA序列中包含的信息来进行巧妙地差值，从而减少质量集合的的信息熵。设想一下一个给定的序列它的质量值可以由它的上下文预测，那么它的质量值就没那么重要了甚至可以被抛弃，但是这个过程耗费时间和内存用来进行BWT转换和用来保存reads以及最大前缀数组。RQS 也使用了同样的思路，与计算BWT不同的是，它计算了一个kmer的字典并计算kmer在这个字典集中的频率。然后以此为根据进行压缩，压缩与这些kmer汉明距离很近的reads。这些碱基有差异的位置一般被认为是SNP或者是测序错误并且他们的质量也被保留下来，其他位点如果和别的reads一样一般就不会再保留他们的质量值。在一些金标准的测试集上，RQS改进了SNP-calling的精确度。随着参考基因组越来越完善，越来越多的压缩算法开始考虑使用参考基因组来做压缩，这样可以带来意想不到的压缩效果。起初参考基因组的数量很少，拼接的也不是很好，很多reads无法mapping的到基因组上，这也在某种度上限制了基于参考基因组压缩算法的应用空间。

本发明利用此类方式，将现在这个局面有了很大改善，越来越多的物种有了自己的参考基因组。而基因组的拼接质量随着三代测序的发展，大幅度提升了参考基因组的可靠性，会有越来越多质量很好的参考基因组出现。这样无疑给基于参考基因组的压缩算法提供了很好的基础。目前基于参考基因组的压缩算法大都集中在人类等拼接的非常好的参考基因组上，很多拼接质量较差的基因组，还是要使用很多别的方法来进行弥补的。比如，将没有mapping到参考基因组上的序列进行denovo分析，然后构建很多条有没有mapping到参考基因组上的序列组成contigs，最后利用这些contigs来进行参考基因组的压缩，或者采用reads间编辑距离较近的序列进行共享片段的压缩。当然每一种方法都对序列有一定要求，要根据序列的实际情况来定夺采用哪一种算法最为合理。起初基本上基于参考基因组的压缩算法都是基于run-length encoding的压缩方法，run-length encoding 是一种常用的压缩方法，比如，字符串AAAAGGGT一般会被记录为A4G3T，这样在某种程度上也减少了数据冗余，对于序列中比对到参考基因组上并与参考基因组完全相同的部分通常被记录为M。一般是这样记录的，比如一段序列AAAGGCTGGCCC，序列AAAGGC完美匹配到了参考基因组上，GGCCC也完美匹配到了参考基因组上，只有T与参考基因组不同，那么这个字符串就会被记录为M5TM5，这样就达到了很好的额压缩效果，缺点是增加了M5这样的字符串，也增加了冗余。将在本文中提出一种算法可以不记录这些长度信息和M字符，达到很好的压缩效果。NGC是另外一个基于参考基因组的压缩算法，它并没有简单的利用参考基因组的比对结果。而是重复利用比对结果中经常出现几个reads共享一个变异，这一方面可能确实是这个个体样本的一个snp，也有可能是比对算法造成的这种结果，但是这样比对结果非常的多，尤其是当测序质量好，参考基因组质量好的情况下，这个结果更是有明显的优势。在人类这样有90%以上的比对率的数据，此类压缩有着独到的优势。人们开始努力挖掘生物特征应用到压缩中，基于参考基因组的压缩把这个目标贯彻地更为彻底。然而目前参考基因组都普遍存在重复序列的问题，重复序列往往是参考基因组的软肋，这无论是在压缩还是比对上都带来了困扰，但是这些问题是否有更好的解决方案，在以往的压缩算法中，很少考虑这些问题，因为这些问题序列所占比重不是很大，对全局压缩效果的影响还算比较小，所以就暂时没有进行相应的处理，但是在未来压缩算法需要更多的考虑这类因素，这类因素都被充分考虑到才能有更好的压缩结果。压缩领域的工作也由粗放式的压缩向精耕细作转变，充分利用各种细节，以便达到更好的压缩效果。

图2示意性示出了hadoop集群对结点进行管理的架构。本发明首先需要对数据进行预处理，按照reads本来在文件中的顺序，在reads identifier 的@后边加上reads的排序顺序。比如，第一个的reads则编号为1，第二个reads编号为2，依次类推，通过这种编号记录reads的顺序从而保证无论reads如何变化顺序都可以通过这些编号恢复最开始的顺序，接下来要用bwa（Burrows-Wheeler Alignment）比对工具将reads比对到参考基因组上，bwa这些软件在比对时候默认参数是两个编辑距离，这样比对上的reads片段大部分都是与参考基因组相同的部分。而由于这些比对算法的原因，经常会出现多条reads共享一个位点的不同，这样就可以充分利用这个来做压缩，从而提供很好的压缩比率。bwa 的输出结果是不唯一的，很多时候一个reads都会比对到多个位置，这样就需要根据比对结果的GIGAR字段进行过滤，没有进行特别处理，仅仅是简单选取GIGAR字段最短的，这样能保证reads比对都是reads长度加上M字符的比对结果不会被过滤掉，这样的比对结果往往是比对结果中较好的。

本发明需要将得到比对软件得到的结果，需要将比对结果的sam（SequenceAlignment/Map）文件用samtools的mpileup命令来处理，将得到一个文本文件，这个文本文件都是有关于fastq序列与参考基因组不同的地方，把相同的部分去除，留下相同的部分，然后把有变异的位点抽取出来。预处理的主要目的是把与参考基因组有共同变异的位点找出来，由于samtools不能使用默认参数，要把对碱基质量进行过滤的参数关闭，让samtools不考虑碱基的质量进行mpileup命令处理。

本发明除了这些比对上参考基因组的序列，还有很多无法比对到参考基因组上的序列，这些序列的处理就成了很重大问题，大部分工具都是采用denovo 对这些reads 进行拼接，利用k-mer对这些序列构建debruijn图，最后基于这个debruijn图的结构去个构建contigs，再将这些contigs视为参考基因组，然后进行比对，最后再进行压缩。本文并未对这些未比对上的数据进行特殊处理，因为默认这些reads大部分都能很好的比对到参考基因组上，在测试过程中我们选用的食管癌的数据90%以上的reads都较好的比对到了参考基因组上。对于人类的相关的数据大都能很好的比对到参考基因组上，因为人类的参考基因组相对较为完整，拼接的较好。所以这些没有比对上的reads 单独弄一个未比对成功的结果文件，然后用lzma（Lempel-Ziv-Markov chain-Algorithm的缩写）对生成的所有文件进行最后一次压缩。

本发明利用Hadoop集群的从一降生就是为了处理大数据的优势，它设计之初发现大量的非结构化数据的存储困难，比如视频、图片等内容。hadoop集群的研发就是为了解决这类问题，但随着时间推移，hadoop在结构化的海量数据上也表现十分优异。图3示意性示出了map reduce 过程中的数据流的过程方案。包含了hadoop集群的数据流通过程。虽然无论从哪一种角度来看，hadoop集群都是计算集群，可以把数据分发到集群的每个结点上，充分利用每个子节点的计算资源，从而能够并行的处理数据。hadoop集群的优点具有以下优点，其一为：适于大数据处理。大数据的非结构化特性，以及它有着分布广泛的特征，这些一般都是现代互联网产生的数据类型，之所以hadoop 会适合这类数据的分析，是因为hadoop的独特架构和组成。

图4示意性示出了建设hadoop集群的服务器架构，如何布置硬件体系的架构。在本发明的实现中，充分利用 Hadoop通常会把数据拆分成许多个数据块的特点，并将每个块制造多个副本，将每个块按照一定的算法分配到集群的一些结点上，同时也要保证数据的每个副本都在不同的结点上。

图5示意了hadoop集群中bwa的数据流的过程，bwa通过比对最终生成bam、sam文件的过程。同时，结合图6示意性示出了整个压缩过程的流程图，压缩过程所有的细节和处理方法。由于这些数据都被做成64MB大小的块，每个块都有三个副本分别放置在三个结点上，这样数据呈现均匀分布，从而保证了数据访问和处理的并发性。hadoop集群的优点，其二为：灵活的可扩展性。和其它任何类型的数据一样，大数据分析面临的一个重要问题也是数据量的不断增加，而大数据最大的需求就在于可以实时或接近实时地进行分析处理，而Hadoop集群的并行处理能力能明显提高分析速度，但随着要分析的数据量的增加，集群的处理能力可能会受到影响。但是，通过添加额外的集群节点可以有效的扩展集群。hadoop集群的优点，其三为：成本低廉。Hadoop集群的两个主要原因，一个是软件本身开源，另一个对通用硬件的兼容。hadoop隶属于apache下属的开源社区，它的源代码都是公开的，并且都是免费使用的，这样就可以有效降低成本。事实上，可以免费下载Apache hadoop的官方发布的版本。同时，Hadoop集群通过支持通用商用硬件支持通用协议有效地控制了成本。正因为不必购买服务器级的硬件，便可以搭建一个强大的Hadoop集群。所以，经过各大互联网公司是的实践证明，Hadoop集群的确实是一个性价比非常高的实施方案。hadoop集群的优点，其四为：故障容错能力强。当一个数据块64MB左右发送到某个节点进行分析时，该数据在集群其它节点上会同时生成这个文件快的副本。通过这种方式，即使一个结点的数据块的发生问题，该结点数据块因为另外几个拷贝的存在，使得数据分析得以继续进行下去，等结点修复或者补上新结点之后数据块又会在结点上生成，保证集群的高可用性。虽然这种容错方式牺牲了一定的一致性，但是对于生物信息这种几乎没有OLTP事务的数据分析平台，一致性对于这种平台并不迫切紧要，hadoop的最终一致性完全可以满足需求，所以hadoop集群上构建生物信息运算平台将有其独到的优势。在hadoop集群上搭建生物信息平台，能够充分利用并行效果，达到理想的运算速度，这样给生物信息平台带来了优势。同时它的可扩展性也带来的巨大的方便的。生物信息最基本的需求有两个，一个是数据存储和一个数据的分析，而hadoop集群能同时满足这两个需求。基于参考基因组的压缩办法并非没有办法解决它压缩速度很慢的问题，可以通过并行解压缩的方式来提高速度。首先序列比对到参考基因组上的过程是可以高度并行化的，很多基于参考基因组的压缩算法都是可以并行化的。那么就可以考虑充分利用集群进行解压缩，从而提高冷存储转为热存储的速度，减少因为冷存储压缩算法带来的时间成本。如果选用传统的多核心计算机来做并行化，必然面临瓶颈。如果采用hadoop集群，充分利用mapreduce的优势，是可以把这些非常耗时，但是压缩比却很好的压缩算法在集群上达到很快速度，而又能同时收获很高的压缩比。虽然这样的集群需要很好的计算资源，但是商业云的弹性计算很多都能提供这种服务，或许不远的将来这些工具都能成为商业云的配套服务。

本发明集成了所有功能后，要考虑对现在所有的参考基因组都不是为了压缩而存在的，参考基因组能提供用来压缩的信息本身就有冗余，能否去掉这些冗余，提供一种专门用于压缩的参考基因组，创造一条专为压缩使用的参考基因组，或许也是一个解决方案，这样可以减少参考基因组带来存储和数据传输问题带来的困扰。当然了，这种专门为压缩而制造的参考基因组本身可以比原参考基因组减少多少体积都是未知数，目前还没有人专门做这个的研究，另外即使有了这样的参考基因组，这样的参考基因组仅仅存有压缩的价值，这样缺失参考基因组其他功能的参考基因组是否是另外的一种存储浪费呢，所以建立的专门为压缩而打造的参考基因组。

本发明最后将所有的结果进行最后的综合，最后进行综合的压缩。压缩后的数据符合一定的标准格式，这标准格式为后续的解压提供了巨大方便。

本发明最终会将所有的结果进行解压缩，解压缩的过程充分利用hadoop集群的优势，将所有的文件进行处理，将各个压缩部分进行整合，从而实现完整的解压缩。

图7示意性示出了用于对fastq文件进行压缩和解压缩的装置的框图，从图7上可知，本装置包括：

拆分模块10，配置用于对fastq文件进行拆分，先是按照文件内容进行拆分，最后对fastq文件进行水平拆分然后分发，分发到集群的每个结点上；

Map过程模块20，配置用于将比对过程map到每个结点上，从而完成快速完成比对过程；

Reduce过程模块30，配置用于将最终的结果整理整合，最终得到每个短序列与参考基因组的差异，并记录这些差异，从而完成压缩；

还原模块40，配置用于获取差异文件也就gcmp文件的压缩文件后进行解压缩。

拆分模块10包括至少以下任一项：fastq文件的竖直拆分，以及fastq的水平拆分，fastq文件需要能够拆分后保持原有的拆分前的信息，保证拆分后能够按照要求合并回原始状态。

Map过程模块包括20：fastq文件必须能够map到每个结点上，通过特定的方式保证fastq文件能够在均匀map到每个节点上，避免出现数据倾斜，从而导致无法充分利用hadoop集群的优势，Map过程应当将fastq文件中的短序列均匀map到每个结点上，Map的过程是利用hadoop自身的架构，并结合HDFS文件系统对文件进行存储。

其中Reduce过程模块30包括：

第一Reduce过程模块301，配置用于需要将比对到多处的短序列进行去冗余处理，挑选短序列比对到参考基因组上结果最好的位置，生成sam文件，这些大文件需要能够存储在HDFS文件系统之上，能够保证文件可以进行reduce过程；

第二Reduce过程模块302，配置用于将sam文件转化为bam文件，节省临时的存储空间；

第三Reduce过程模块303，配置用于bam文件进行压缩，读取文件中序列和参考基因组不同的地方，然后提取并进行压缩，仅仅保留和参考基因组不同的文件部分，生成新的gcmp文件，然后使用通用压缩算法对gcmp文件进行二次压缩。从而达到了最低的压缩比。

其中还原模块40应该包括：

第一还原模块401，配置用于用gcmp文件中差异部分对数据文件进行还原，因为只保留了与参考基因组的差异部分，还原过程依旧要通过mapreduce的方式来进行；

第二还原模块402，配置用于将gcmp差异文件部分分发到hadoop集群上，使得hadoop集群能够利用map过程对数据进行还原；

第三还原模块403，配置用于将Map过程得到的结果再利用reduce进行还原，从而最终得到原始序列文件，最后根据文件中保留的短序列排序信息对文件进行还原。

以上显示和描述了本发明的基本原理和主要特征及本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于对基因组进行压缩的方法，其特征在于，包括：

从参考数据库中选择与所述基因组相匹配的参考基因组；

对参考基因组创建基于bwt算法的索引；

基于hadoop集群将短序列fastq文件与参考基因组进行比对，将短序列比对到参考基因组的过程是在hadoop集群上完成的，是基于hadoop集群对bwt算法的改写；

对短序列fastq文件进行预处理，并进行压缩；

生成压缩数据文件，生成的压缩产生的数据文件能够利用hadoop集群mapreduce完成解压缩过程。

2.根据权利要求1所述的一种用于对基因组进行压缩的方法，其特征在于，其中从参考数据库中选择与所述基因组相匹配的参考基因组包括：

3.根据权利要求2 所述的一种用于对基因组进行压缩的方法，其特征在于，其中所述基因组相匹配的参考基因组包括：

4.根据权利要求2 所述的一种用于对基因组进行压缩的方法，其特征在于，其中压缩过程包括：通过序列比对过程，将fastq文件分解成多个部分，其中包括ID部分、序列部分以及碱基质量值部分，并对fastq文件建立索引、分发，根据fastq文件中read所处在的文件位置进行分发，然后对fastq文件进行压缩。

5.根据权利要求4 所述的一种用于对基因组进行压缩的方法，其特征在于，其中将fastq文件进行分解， fastq文件处理后分成三个子文件：

6.根据权利要求1-5 中的任一项所述的一种用于对基因组进行压缩的方法，其特征在于，进一步包括：将参考基因组经过索引处理，这些索引是为了应对hadoop集群的特征而建立的，是专门针对mapreduce的HDFS文件系统而打造的方法。

7.根据权利要求1-5 中的任一项所述的一种用于对基因组进行压缩的方法，其特征在于，进一步包括：针对hadoop集群而进行的比对分析处理过程，这个过程是对waterman算法的改写，将传统的用于单节点的比对算法进行改写，使之能与hadoop集群体系整合。

8.根据权利要去7所述的一种用于对基因组进行压缩的方法，其特征在于，其中针对hadoop集群而进行的比对分析处理过程包括：使用hadoop集群中的mapreduce接口对比对过程进行改写，对HDFS文件系统进行充分利用；比对过程充分并行， hadoop集群的每个结点都会产生一个fastq文件的比对子集，也就是map的过程，最终要将这些子集通过reduce的过程合成一个大的比对集合，然后根据这些比对的结果进行smatools mileup 处理，从而找到序列之间与参考基因组相同的部分和不同的部分。

9.根据权利要去4所述的一种用于对基因组进行压缩的方法，其特征在于，其中对fastq文件进行压缩包括：将这其中的短序列与参考基因相同的部分都删除，只保留不相同的部分，这样大量减少的数据的冗余，从而实现了压缩。

10.根据权利要去9所述的一种用于对基因组进行压缩的方法，其特征在于，将这其中的短序列与参考基因相同的部分都删除，只保留不相同的部分，包括对质量部分的压缩处理，通常采用通用压缩技术，并未做特别处理。

11.一种用于对基因组进行解压缩的方法，其特征在于，包括：响应于接收到根据权利要求1-10 中的任一项所述的方法进行压缩的经压缩的基因组，从参考基因组中获取与短序列比对位置相同的序列，并将这些序列提取出来，替换掉与短序列差异的部分，这样就还原了原始的短序列。

12.根据权利要去11所述的一种用于对基因组进行解压缩的方法，其特征在于，进一步包括：

首先，将用通用压缩方法压缩后的差异文件解压缩；

13.一种用于对fastq文件进行压缩和解压缩的装置，其特征在于，包括：

还原模块，配置用于获取差异文件也就gcmp文件的压缩文件后进行解压缩；

拆分模块包括至少以下任一项：fastq文件的竖直拆分，以及fastq的水平拆分，fastq文件需要能够拆分后保持原有的拆分前的信息，保证拆分后能够按照要求合并回原始状态；

Map过程模块包括：fastq文件必须能够map到每个结点上，通过特定的方式保证fastq文件能够在均匀map到每个节点上，避免出现数据倾斜，从而导致无法充分利用hadoop集群的优势，Map过程应当将fastq文件中的短序列均匀map到每个结点上，Map的过程是利用hadoop自身的架构，并结合HDFS文件系统对文件进行存储；

其中Reduce过程模块包括：

第三Reduce过程模块，配置用于bam文件进行压缩，读取文件中序列和参考基因组不同的地方，然后提取并进行压缩，仅仅保留和参考基因组不同的文件部分，生成新的gcmp文件，然后使用通用压缩算法对gcmp文件进行二次压缩，从而达到了最低的压缩比；

其中还原模块应该包括：