CN107565975A

CN107565975A - Fastq格式文件无损压缩的方法

Info

Publication number: CN107565975A
Application number: CN201710761520.8A
Authority: CN
Inventors: 袁晓辉
Original assignee: Wuhan Ancient Gene Technology Co Ltd
Current assignee: Wuhan Ancient Gene Technology Co Ltd
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2018-01-09

Abstract

本发明属于生物信息领域，涉及一种DNA测序数据的标准存储方式FASTQ格式文件无损压缩的方法。首先，将原FASTQ文件按序列进行提取，第三行丢弃。然后，将提取的序列按照行重新生成新的文件，分别为保存第一行的序列标志文件、保存第二行的序列数据文件和保存第四行的质量评分文件。其次，对第二步生成的三个文件分别利用进行压缩处理：对序列数据文件进行压缩、对质量评分文件进行压缩、将序列标志文件进行处理之后再进行压缩。最后，对第三步生成的压缩文件，用tar将其压缩为一个文件，并且删除中间过程文件。通过本发明方法可以对下一代测序技术产生的海量DNA测序数据进行经济性存储和快速传输。

Description

FASTQ格式文件无损压缩的方法

技术领域

本发明属于生物信息领域，涉及一种DNA测序数据的标准存储方式FASTQ格式文件无损压缩的方法。

背景技术

由于DNA数据与一般的文本、图像、视频等格式不同，它只包含四种碱基符号{A,G,C,T}。若将其看成随机字符串，则每个碱基符号需要2bits(log₂ 4)。故对DNA数据进行压缩，每个碱基需少于2bits存储才能达到有效的压缩结果。传统的压缩算法如gzip、bzip2、7-Zip等虽然可以用来压缩测序数据，但是其每个碱基的存储空间大于2bits。因此，研究人员致力于专用于DNA数据的压缩算法的研究。

2010年Tembe等人提出的基因组序列和质量数据的紧凑编码G-SQZ(GenomicSQueeZ)，是一种基于霍夫曼编码的排序读取特定表示方案，可以在不改变相对顺序的情况下压缩数据。它在组合碱基和各自的质量上使用零级霍夫曼编码，无法处理具有可变长度读数的数据集。

2011年Deorowicz等人提出的算法，其C++实现为DSRC(DNA Sequence ReadsCompressor)，兼容分别由Sange和加利福尼亚大学综合基因组生物学研究所提供的两种标准化格式的FASTQ格式。该算法处理DNA读数而不是基因组序列，它将FASTQ格式识别为有序的记录集合，并对记录进行数据流(分别为标题、DNA序列和质量评分)独立处理。其压缩效率和性能明显优于处理相同数据格式的G-SQZ算法。

2012年，Jones等人提出了Quip算法，基于统计模型，使用算术编码，可以对FASTQ和SAM/BAM格式的下一代测序数据进行无损压缩。对于FASTQ的不同行，使用不同的统计模型，这样就能取得更高的压缩比。尽管有这些优点，但是实际应用中却由于算术编码的专利权的限制，没有霍夫曼算法使用广泛。

Roguski于2014年提出面向工业的解决方案DSRC2，其压缩率远高于gzip/bzip2，虽然比此前的最佳程序低，但是压缩(解压)速度要比所有的竞争对手快几倍，支持任何FASTQ格式的变体，并且可以进行管道集成。

2015年，詹科等人基于Pthreads对DSRC算法进行了并行实现，将DSRC分为数据读入和数据压缩两个独立的任务。当使用4线程时，加速比达到3.5，能够显著提高压缩FASTQ格式的DNA数据的效率，但当线程数继续增加时，其性能下降，压缩时间增加。

2015年，Dutta等人提出了一种压缩算法FQC，除了在gzip上提供显着更高的压缩增益外，还包含数据存储库/最终用户普遍采用所必需的功能，该研究还提出了一种新颖的归档策略，允许序列存储库同时存储和传播fastq文件的无损和多重有损变体，而不需要额外的存储要求。

已经出现的实验性压缩工具共同存在的一些缺点：压缩(解压)缓慢、不能被其他软件直接使用、不支持某些类型的FASTQ文件(如在颜色空间或可变读数长度上)和不稳定容易崩溃。并且目前对FASTQ格式文件的传输大多利用TCP协议，传输速度很慢，很少有人针对传输协议进行优化。

发明内容

本发明所要解决的技术问题是提供一种FASTQ格式文件无损压缩的方法。

针对FASTQ格式文件的压缩，解决方案如下：

首先，将原FASTQ文件按序列进行提取，由于第三行没有太多实际意义，将其丢弃。然后，将提取的序列按照行重新生成新的文件，分别为保存第一行的序列标志文件、保存第二行的序列数据文件和保存第四行的质量评分文件。其次，对第二步生成的三个文件分别利用进行压缩处理：对序列数据文件进行压缩、对质量评分文件进行压缩、将序列标志文件进行处理之后再进行压缩。最后，对第三步生成的压缩文件，用tar将其压缩为一个文件，并且删除中间过程文件。

具体的解决方案如下：

一、原文件分割重组

读取原文件，将其按每四行作为一个记录，丢弃第三行没有意义的数据，并将第一行、第二行和第四行单独生成文件，分别为序列标志文件、序列数据文件和质量评分文件；

二、分割文件处理

对序列数据文件和质量评分文件分别直接使用压缩工具进行压缩，序列标志文件再次进行分割处理，分割后的文件再进行压缩，对序列标志文件的处理过程如下：

1)构建标志集：根据关键符号对标识符进行分割将其标记化，标记化算法是将标识符内两个关键符号之间的数字和字母从T₁开始按序号利用T_i进行标记，得到由占位符组成的正则表达式，其中关键符号包括：点(.)，空格()，下划线(_)，连字符(-)，斜杠(/)，等号(＝)和冒号(:)；假设每个标识符中存在的标记的数量为t，每个T_i叫做一个标志集，1≤i≤t；

2)对标志集进行压缩处理：使用游程编码压缩带有字母数字值的标志集，如果游程编码不能将标志集的大小减小到原始值的90％以下，则标志集保持未压缩状态；通过存储连续标记之间的差异来压缩具有整数值的标志集，如果该方法不能将标志集的大小减小到原始值的90％以下，则标志集保持未压缩状态；如果标志集没有被上述任何方法转换，则取每个标志集并将其反转；

3)对变换后的标志集应用混合压缩：使用上下文混合算法zpaq，对变换后的标志集进行压缩，参数为-method 5-threads 8或-method 5-threads 12。

三、文件打包及二次压缩

在对分割文件处理之后，使用gzip的tar命令进行打包处理，修改tar命令的参数为zcf，并对算法执行过程中生成的中间文件进行清理操作。

通过本发明方法可以对下一代测序技术产生的海量DNA测序数据进行经济性存储和快速传输。

附图说明

图1，FASTQ格式文件压缩和传输流程示意图。

具体实施方式

针对FASTQ格式文件的压缩，首先，将原FASTQ文件按序列进行提取，由于第三行没有太多实际意义，将其丢弃。然后，将提取的序列按照行重新生成新的文件，分别为保存第一行的序列标志文件、保存第二行的序列数据文件和保存第四行的质量评分文件。其次，对第二步生成的三个文件分别利用进行压缩处理：对序列数据文件进行压缩、对质量评分文件进行压缩、将序列标志文件进行处理之后再进行压缩。最后，对第三步生成的压缩文件，用tar将其压缩为一个文件，并且删除中间过程文件。

具体的解决方案如下：

一、原文件分割重组

二、分割文件处理

该部分将对分割后的文件进行处理，其中序列数据文件和质量评分文件分别直接使用压缩工具进行压缩。序列标志文件再次进行分割处理，分割后的文件再进行压缩。其中，对序列标志文件的处理方式如下：

1)构建标志集：根据关键符号对标识符进行分割将其标记化(标记化算法是将标识符内两个关键符号之间的数字和字母从1开始按序号利用T_i进行标记。)，并得到由占位符组成的正则表达式，其中关键符号包括：点(.)，空格()，下划线(_)，连字符(-)，斜杠(/)，等号(＝)和冒号(:)。如：针对标识符@SRR007215.1135HWUSI-EAS 687_61DAJ:8:1:1055:3384/1，将其标记化得到的正则表达式为：T₁.T₂T₃-T_{4_}T₅:T₆：T₇∶T₈：T₉/T₁₀，其中T₁到T₁₀分别为@SRR007215、1135、HWUSI、EAS687、61DAJ、8、1、1055、3384、1。假设每个标识符中存在的标记的数量为t，每个T_i叫做一个标志集(1≤i≤t)，该步骤构造了这些标志集。

2)对标志集进行压缩处理(标志集压缩算法是使用标记化算法构建的T₁T₂…标志集用适当的编码进行压缩，将得到τ₁τ₂…附加到正则表达式RegEx中，然后将T_i的关键符号集加到RegEx中。具体思路为：使用游程编码压缩带有字母数字值的标记集。如果游程编码不能将标记集的大小减小到原始值的90％以下，则标记集保持未压缩状态。通过存储连续标记之间的差异来压缩具有整数值的标记集。如果该方法不能将标记集的大小减小到原始值的90％以下，则标记集保持未压缩状态。如果标记集没有被上述任何方法转换，则取每个标记集并将其反转(从右到左读取)。我们已经观察到这能够提高下游应用的上下文混合算法的压缩率。

3)对变换后的标志集应用混合压缩：使用上下文混合算法zpaq，对变换后的标志集进行压缩，参数为“-method 5-threads 8”或“-method 5-threads 12”。三、文件打包及二次压缩

目前，FASTQ格式文件大多利用TCP/IP协议传输，这种传输协议是应答式传输，优点是传输安全可靠。由于程序应答方式要在两台服务器之间建立连接，造成了网络负担，速度势必大减。改用UDP协议这一面向无连接的传输协议，可以显著提升数据的传输速度。

本发明分别针对文件压缩和文件传输两个部分进行了压缩算法以及传输协议上的优化。

结果对比

进行压缩传输测试时的网速平均为4M/s，可以发现加速后传输时间明显减少。

加速前：

数据集	原始大小	压缩后大小	压缩率	传输速率	传输时间
						SRR554369	788017922	170393600	4.625	4.23M/s	596s
SRR1284073	1308957142	407777280	3.210	4.31M/s	1016s
						MH0001.081026	1880433138	278999040	6.740	4.27M/s	1009s
SRR327342	6166561880	1247692800	4.942	4.34M/s	3285s
						SRR870667	33232737208	6766366720	4.911	4.22M/s	19416s

加速后：

数据集	原始大小	压缩后大小	压缩率	传输速率	传输时间
						SRR554369	788017922	107770500	7.312	4.13M/s	495s
SRR1284073	1308957142	185509790	7.056	4.35M/s	835s
						MH0001.081026	1880433138	224932190	8.360	4.30M/s	831s
SRR327342	6166561880	818,932,520	7.531	4.28M/s	2830s
						SRR870667	33232737208	4466765750	7.440	4.26M/s	12610s

Claims

1.一种FASTQ格式文件的压缩方法，其特征在于，包括如下步骤：

一、原文件分割重组

二、分割文件处理

3)对变换后的标志集应用混合压缩：使用上下文混合算法zpaq，对变换后的标志集进行压缩，参数为-method 5-threads 8或-method 5-threads 12；

三、文件打包及二次压缩

2.根据权利要求1所述的压缩方法，其特征在于，压缩后的文件采用UDP协议传输。