CN111370070B

CN111370070B - 一种针对大数据基因测序文件的压缩处理方法

Info

Publication number: CN111370070B
Application number: CN202010122429.3A
Authority: CN
Inventors: 张中海; 谭光明; 张春明; 姚二林
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-10-27
Anticipated expiration: 2040-02-27
Also published as: CN111370070A

Abstract

本发明涉及高性能计算领域，特别涉及一种大数据基因测序文件的压缩处理方法，使得在减小测序数据占用的存储资源的同时，可以方便的进行数据划分，从而方便后续的并行分析处理，提高了分析效率。

Description

一种针对大数据基因测序文件的压缩处理方法

技术领域

本发明涉及高性能计算领域，特别涉及一种大数据基因测序文件的压缩处理方法。

背景技术

随着基因测序技术的发展，尤其是二代测序甚至三代测序的技术突破，基因数据变得越来越容易获取。基因数据测序文件通常采用fastq文件格式存储，使用bwa工具进行后续分析。每个测序文件少则几G，多则几十G到上百G。如何高效的存储和分析海量基因测序数据，成为了一项新的挑战。

减少存储空间的现有技术手段是采用传统的压缩技术，提高分析效率的技术手段是将数据划分后进行多线程或多节点并行计算。

传统的压缩技术虽然可以减少测序数据的存储空间，却不利于数据划分，需要先将测序数据完全解压之后，才能对数据进行划分，由此导致了数据分析的低效率。

发明内容

本发明提供一种对fastq文件压缩的方法，包括：

步骤1，遍历fastq文件，统计序列数量，确定每个压缩块所包含的序列数量P；

步骤2，依次读取fastq文件，每读取P个序列进行处理形成一个压缩块，以及将该压缩块包含的序列数量，压缩块大小和压缩后的内容一起写入压缩文件；

步骤3，重复步骤2，记录每个压缩块在压缩文件中的起始位置信息，直到读取完毕；

步骤4，将压缩块总数、序列总数和每个压缩块块的起始位置信息写入所述压缩文件。

优选地，上述压缩文件包括数据文件和索引文件，其中，

所述数据文件由多个压缩块构成，每个压缩块内包含当前压缩块对应的测序序列的数量，该压缩块所占用的字节数，以及采用压缩算法压缩后的测序序列数据。

所述索引文件包含两部分，一个部分是索引首行的内容，包含压缩块总数以及序列总数；另一个部分是索引内容，由一行或者多行文本数据组成，每行包含对应的一个压缩块信息。

优选地，上述压缩方法中的压缩算法采用gzip压缩算法。

优选地，上述压缩块信息包含三个数据，分别是压缩块的编号、该压缩块在压缩数据文件中的起始位置以及压缩块的大小。

一种用于上述压缩文件的解压缩方法，包括：

步骤1，顺序读取一个压缩块的信息；

步骤2，根据压缩块信息对该压缩块进行解压读取；

步骤3，如果读取完毕则结束，否则回到步骤1继续处理下一压缩块。

一种用于上述压缩文件的解压缩方法，包括：

步骤1，根据索引文件信息，确定每个压缩块在压缩文件的数据文件中的起始位置和结束位置；

步骤2，启动多个线程，每个线程一次解压处理一个压缩块数据；

步骤3，解压后的数据按照压缩块编号放入缓冲队列，各线程继续处理后续未解压的压缩块直到处理完毕所有压缩块；

步骤4，将缓冲队列中的数据写入解压文件。

一种处理上述压缩文件的方法，包括如下步骤：

步骤2，根据节点或进程的数量，确定每个节点或进程读取的压缩块数量和范围；

步骤3，根据每个节点读取的范围进行解压缩处理。

一种构建上述压缩文件的索引文件的方法，包括：

步骤1，通过读取压缩文件的数据文件，获取每个压缩块对应的序列数量和压缩块大小信息；

步骤2，将所述序列数量和压缩块大小信息写入到索引文件。

一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的任一方法。

一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于所述处理器执行所述程序时实现上述的任一方法。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是根据本发明的一个实施例的压缩文件结构示例。

图2是根据本发明的一个实施例的压缩方法。

图3是根据本发明的一个实施例的单线程读取方法。

图4是根据本发明的一个实施例的多线程读取方法。

图5是根据本发明的一个实施例的对基因测序数据并行处理的方法。

图6是根据本发明的一个实施例的重建索引的方法。

具体实施方式

本发明提出的压缩处理方法包含对文件结构的定义、压缩处理过程、串行和并行解压处理过程、并行划分过程和重建索引过程。下面参照附图，进行具体阐述。

发明人经过研究，首先设计了一种压缩文件结构，将普通的fastq格式的基因测序文件转换为此种压缩文件结构后，可以不需要解压数据就可进行数据划分。

如图1所示的测序数据文件压缩结构，包含两个部分，分别是数据文件结构和索引文件结构。

数据文件结构是由多个压缩块构成，每个压缩块内包含当前压缩块对应的测序序列(即fastq文件中的read)的数量，该压缩块所占用的字节数，以及压缩后的数据，该压缩后的数据是采用gzip或者其他压缩算法进行压缩后的数据。

索引文件是一个文本文件，包含两个部分，一个是索引首行的内容，包含压缩块总数以及序列总数；另一个是索引内容，由一行或者多行文本数据组成，每行包含对应的一个压缩数据块信息，具体是包含三个数据，分别是压缩块的编号、该压缩块在压缩文件中的起始位置以及压缩块的大小。

根据本发明的一个实施例，基于上述测序数据文件压缩结构，提出了将普通的fastq文件压缩成所述测序数据文件压缩结构的方法。

如图2所示，压缩写入过程主要包含四个步骤：

1)遍历fastq文件，统计序列数量，根据输入参数确定压缩块的总数，并根据以下公式计算每个压缩块所包含的序列数量P；

其中P为每个压缩块包含的序列数量；

P_t为fastq文件中包含的全部序列数量；

b为每个压缩块解压后的大小，是输入参数；

L为fastq文件的大小；

2)读取fastq文件，每读取P个序列则进行处理形成一个压缩块，包括通过gzip等压缩算法将该P个序列进行压缩，以及，将该压缩块包含的序列数量，压缩块大小和压缩后的内容依次写入数据文件；

3)按照上述步骤依次对fastq文件内容进行处理，记录每个压缩块在数据文件中的起始位置信息，直到将fastq文件读取完毕；

4)将压缩块总数、序列总数和每个压缩块的起始位置等信息写入索引文件。

通过以上压缩方法将fastq文件压缩存储后，在单节点上可通过单线程或多线程读取所述压缩文件转给后续工具处理。

根据本发明的一个实施例，结合图3说明单线程串行读取过程。具体来说，串行读取过程分为以下步骤：

1)顺序读取一个压缩块的信息；

2)根据压缩块信息对该压缩块进行解压读取；

3)如果读取完毕则结束，否则回到步骤1继续处理下一压缩块。

根据本发明的一个实施例，结合图4说明多线程并行读取过程。具体来说，并行读取过程分为以下四个步骤：

1)根据索引文件信息，确定每个压缩块在数据文件中的起始位置和结束位置；

2)启动多个线程，每个线程一次解压处理一个压缩块数据；

3)解压后的数据按照压缩块编号放入缓冲队列，各线程继续处理后续未解压的压缩块直到处理完毕所有压缩块；

4)将缓冲队列中的数据写入解压文件。

为了更快的对基因数据进行分析，数据并行处理是非常重要的方法，然而传统的测序压缩文件并不支持在压缩状态下直接对数据进行划分，本发明提出的数据文件加索引文件的方式，支持在压缩状态下直接对文件数据进行划分，从而更好地支持并行分析。

根据本发明的一个实施例，以下结合图5说明多节点或多进程划分过程。具体来说，包括以下步骤：

2)根据节点的数量，确定每个节点读取的压缩块数量和范围；其中，每个节点读取的压缩块数量根据以下公式计算得出；

其中，B_i为第i个节点读取的压缩块数量；

c_i为第i个节点的核数；

B_t为总的压缩块数量；

n为总的节点数；

j为整数，范围为1到n；

c_j为第j个节点的核数。

3)根据每个节点读取的范围进行解压处理，并进行后续的分析计算。

根据本发明的一个实施例，提供一种从本发明产生的压缩文件的数据文件中重建索引文件的方法，该方法可以用于当索引文件损坏或者缺失时，方便地重建索引文件。

重建索引的具体过程如图6所示，包括以下步骤：

1)读取数据文件，定位到第一个压缩块；

2)读取压缩块的序列数量和压缩块的字节数，将压缩块对应的序列数量和压缩块字节数写入到索引文件；

3)如果读取完毕则结束，否则根据上一个压缩块的字节数，跳过上一个压缩块的压缩数据段，回到步骤2)继续处理。

本发明的有益效果是，在减小测序数据占用的存储资源的同时，可以方便的进行数据划分，从而方便后续的并行分析处理，从而提高了分析效率。

需要说明的是，上述实施例中介绍的各个步骤并非都是必须的，本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种对fastq文件压缩的方法，包括：

步骤1，遍历fastq文件，统计序列数量，确定每个压缩块所包含的序列数量P，所述序列数量P根据以下公式计算：

其中P为每个压缩块包含的序列数量；

为fastq文件中包含的全部序列数量；

b为每个压缩块解压后的大小，是输入参数；

L为fastq文件的大小，

步骤2，依次读取fastq文件，每读取P个序列进行处理形成一个压缩块，包括通过gzip压缩算法将所述P个序列进行压缩，以及将所述压缩块包含的序列数量，压缩块大小和压缩后的内容一起写入压缩文件；

步骤4，将压缩块总数、序列总数和每个压缩块块的起始位置信息写入所述压缩文件，

其中，所述压缩文件包括数据文件和索引文件，

所述数据文件由多个压缩块构成，每个压缩块内包含当前压缩块对应的测序序列的数量，该压缩块所占用的字节数，以及采用压缩算法压缩后的测序序列数据；

所述索引文件包含两部分，一个部分是索引首行的内容，包含压缩块总数以及序列总数；另一个部分是索引内容，由一行或者多行文本数据组成，每行包含对应的一个压缩块信息;其中所述压缩块信息包含三个数据，分别是压缩块的编号、所述压缩块在压缩数据文件中的起始位置以及压缩块的大小。

2.一种用于权利要求1产生的压缩文件的解压缩方法，包括：

步骤1，顺序读取一个压缩块的信息；

步骤2，根据压缩块信息对所述压缩块进行解压读取；

3.一种用于权利要求1产生的压缩文件的解压缩方法，包括：

步骤4，将缓冲队列中的数据写入解压文件。

4.一种处理基于权利要求1生成的压缩文件的方法，包括如下步骤：

步骤3，根据每个节点读取的范围进行解压缩处理。

5.一种构建基于权利要求1产生的压缩文件的索引文件的方法，包括：

步骤2，将所述序列数量和压缩块大小信息写入到索引文件。

6.一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现根据权利要求1-5中任意一项所述的方法。

7.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于所述处理器执行所述程序时实现根据权利要求1-5任意一项所述的方法。