CN114416666B

CN114416666B - 多核平台下bam文件解析还原方法及系统

Info

Publication number: CN114416666B
Application number: CN202210308495.9A
Authority: CN
Inventors: 刘卫国; 赵展; 殷泽坤; 闫立峰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-09-20
Anticipated expiration: 2042-03-28
Also published as: CN114416666A

Abstract

本发明提供了一种多核平台下BAM文件解析还原方法及系统，其属于生物信息技术领域，所述方案包括：获取待解析的BAM文件；通过读取线程对BAM文件进行读取，并通过若干解压线程对BAM文件进行并行解压，并将解压后的bam_block数据输入到第一任务队列；通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析，满足每个bam_block中包括一个或多个完整的bam1_t数据结构，并将解析后的bam_block数据输入到第二任务队列；通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析，获得bam1_t结构数据。

Description

多核平台下BAM文件解析还原方法及系统

技术领域

本发明属于生物信息技术领域，尤其涉及一种多核平台下BAM文件解析还原方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

测序数据的分析大致分为三个阶段，第一阶段是将测序过程中的物理或光学信号解析识别为碱基序列，碱基识别结果的常用格式是 FASTQ 格式。第二阶段是对 FASTQ 文件中的碱基序列信息和质量分数进行质量控制，预处理以及定位到参考基因组上。测序数据的质量控制需要使用质量分数和碱基序列的信息，进行去掉低质量读段，去掉接头序列等相关操作，对处理过的FASTQ文件进行定位到参考基因组上得到 SAM/BAM 文件，提供第三阶段分析所需的关键信息。第三阶段的分析需要根据具体应用进行对应的专门分析，例如，转录组特征和可变碱基检测，遗传突变和变异的发现，组装基因组，蛋白质与DNA互作分析，表观基因组与DNA甲基化和宏基因组学。

发明人发现，BAM文件具有以下特性：BAM文件使用自己独有的一套压缩和解压缩方式，不同于市面上常见的压缩和解压缩算法；为了减少测序时产生的随机误差，会对测序序列反复测量多次，导致BAM文件普遍较大，对内存提出了较高的要求；BAM文件存在一定的顺序关系，由于BAM压缩文件的压缩方式为分块压缩，每个压缩块中存在多个记录，但是一个记录可能被分在两个相邻的压缩块之中（即前一个压缩块存在一个记录的前一部分，后一个压缩块存在一个记录的后一部分），因此不利于多线程预处理相同的BAM文件。基于BAM文件的上述特性，现有的解析还原方法存在以下问题：

（1）当前广泛使用的HTSLIB库的多线程读取BAM文件是使用多线程解压，然后解压完成之后，再使用单独线程解析成bam1_t文件，其具体流程如图1所示；但是，由于baml_t的文件解析复杂度较高，单一线程解析会导致解析线程成为程序的性能瓶颈。

（2）由于BAM 文件普遍较大，直接将其放入内存中，会占据大量内存，但是个人电脑无法提供如此大的内存，甚至导致用户电脑无法正常使用，并且也会大幅降低程序运行速度。

发明内容

本发明为了解决上述问题，提供了一种多核平台下BAM文件解析还原方法及系统，所述方案针对BAM文件的读取方式进行改进，采用一种新型的BAM文件的读取方法，在读取效率上能够比当前的BAM读取方法效率更高，并且考虑到了内存的影响，使用缓冲池技术减少了对内存的占用。

根据本发明实施例的第一个方面，提供了一种多核平台下BAM文件解析还原方法，包括：

获取待解析的BAM文件；

通过读取线程对BAM文件进行读取，并通过若干解压线程对BAM文件进行并行解压，并将解压后的bam_block数据输入到第一任务队列；

通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析，满足每个bam_block中包括一个或多个完整的bam1_t数据结构，并将解析后的bam_block数据输入到第二任务队列；

通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析，获得bam1_t结构数据。

根据本发明实施例的第二个方面，提供了一种多核平台下BAM文件解析还原系统，包括：

数据获取单元，其用于获取待解析的BAM文件；

解压单元，其用于通过读取线程对BAM文件进行读取，并通过若干解压线程对BAM文件进行并行解压，并将解压后的bam_block数据输入到第一任务队列；

简单解析单元，其用于通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析，满足每个bam_block中包括一个或多个完整的bam1_t数据结构，并将解析后的bam_block数据输入到第二任务队列；

并行解析单元，其用于通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析，获得bam1_t结构数据。

与现有技术相比，本发明的有益效果是：

（1）本发明提供了一种多核平台下BAM文件解析还原方法及系统，所述方案针对BAM文件的读取方式进行改进，提出一种新型的BAM文件的读取方法。在读取效率上能够比当前的BAM读取方法效率更高，并且考虑到了内存的影响，使用缓冲池技术减少了对内存的占用。

（2）本发明参考FASTQC对于BAM文件的预处理工作，进行BAM预处理操作，使得处理速度大幅提高；同时增加BAM文件转FASTQ文件的功能，并使用内存池和线程管理进行优化。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例所述的BAM文件解析还原现有方法的处理流程图；

图2为本发明实施例所述的一种多核平台下BAM文件解析还原方法流程图；

图3为本发明实施例所述的引入双重缓冲内存池后的程序运行流程示意图；

图4为本发明实施例所述的现有方法与本发明所述方案BAM文件基准测试速度对比结果示意图；

图5为本发明实施例所述的FASTQC软件与本发明所述方案的BAM预处理软件加速比对比结果示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种多核平台下BAM文件解析还原方法。

一种多核平台下BAM文件解析还原方法，包括：

获取待解析的BAM文件；

进一步的，所述读取线程、解压线程均采用HTSLIB库中的库函数实现；其具体过程为：利用HTSLIB库函数，采用单线程读取，多线程解压，并将多线程解压之后的BGZF块，按照读取顺序排列，并使用单线程将其解析成bam1_t格式。所利用到的库函数包括：

bam_read1函数：将解压完成的BGZF块解析成bam1_t格式；

bgzf_read函数：获取解压完成的BGZF块的部分数据，如果获取数据长度超过当前BGZF块的大小，则通过调用bgzf_read_block函数获取下一个BGZF块；

bgzf_read_block函数：读取Bam文件中的BGZF块，并将其解压。

其中，Bam文件使用的压缩方法为GZIP压缩方式。

进一步的，所述第一解析线程，具体执行如下步骤：

根据BAM文件格式，通过解析开头的四个字节，获得每个bam1_t所占的字节数；并将不足的部分从下一个BGZF块中补足；从而满足得到的bam_block存在完整的bam1_t数据结构；其中，bam1_t存储bam文件中一条完整的记录，而由于BGZF块的大小限制，每个BGZF块最大为64KB，存在单条记录超过64KB的情况，故需进行上述处理。

进一步的，所述第二解析线程，具体执行如下步骤：按照顺序对bam_block进行解析，通过解析开头的四个字节，根据其获取的字节数，跳过整块bam1_t区域，不断重复上述过程，直到读取到bam_block的结尾，解析完毕。

进一步的，若需要跳过的区域超过当前的bam_block，需要将剩余的部分补齐。

进一步的，所述并行解压，具体采用GZIP库中的相关函数进行解压，具体采用的函数为inflate函数，同时，需要使用线管函数进行简单检查，具体采用crc32函数。

进一步的，Bam文件是Sam文件的压缩版本，Bam文件为了提高压缩率，对Sam文件进行了调整，故对于解压的bam_block还需要进行进一步的解析，才能得到能够处理和理解的数据；将存在整数个bam1_t的bam_block解析出来，然后对其进行质控等相关操作。

进一步的，所述BAM文件的读取和解压过程中引入双重缓存内存池机制，减少内存的占用。

具体的，为了便于理解，以下结合附图对本发明所述方案进行详细说明：

当前广泛使用的HTSLIB库的多线程读取BAM文件是使用多线程解压，然后解压完成之后，再使用单独线程解析成bam1_t文件，如图1所示展示了其具体处理流程；但是，由于bam1_t的文件解析较为复杂，单一线程解析会导致解析线程成为程序的性能瓶颈。

通过分析BAM文件的解压缩和解析方法以及HTSLIB库的实现方式，提出新型的读取方案。通过图1发现第一个任务队列中存储的为解压完成的bam_block数据，其中存在一个或者多个bam1_t数据结构。通过单一线程完成解析，适合BAM文件的各种形式，但是会导致程序读取效率下降。改进解析线程，使其能够确保每个bam_block存在完整的数个bam1_t，将修改之后的bam_block交给工作线程，由工作线程将bam_block解析为bam1_t，然后进行工作线程（即数据具体应用的后续处理流程）应该完成的工作。如图2所示，本发明提供了一种多核平台下BAM文件解析还原方法，包括：

获取待解析的BAM文件；

进一步的，通过上述的BAM文件解析还原方法，提高了BAM文件读取速度，提供了良好的线程拓展性。

进一步的，由于BAM文件普遍较大，直接将其放入内存中，会占据大量内存，但是个人电脑无法提供如此大的内存，甚至导致用户电脑无法正常使用，并且也会大幅降低程序运行速度。因此，本发明在所述BAM文件的读取和解压过程中引入内存池机制。预先占用一部分内存，通过对于该内存进行分配，可以避免占满内存的情况发生。同时预先占用内存，可以减少程序创建存储 BGZF 块数据结构的时间，并且减少内存碎片的出现，能够更好的保证程序的稳定运行，并进一步降低程序要求的硬件环境。

进一步的，本发明还可以采用双重缓冲内存池（即内存池技术和双缓冲技术结合）来管理内存，双重缓冲内存池相较于创建两个内存池进行分别管理，可以有效减少内存池的大小。双重缓冲内存池中的第一重管理没有存放BGZF（Blocked GNU Zip Format）块的数据结构，第二重管理存放BGZF块的数据管理。通过双重缓冲机制，可以减少内存的占用情况，并降低软件要求的硬件环境，能够适用不同配置的主机，笔记本等；如图3所示为引入双重缓冲内存池后，程序运行流程展示；其中，内存池是一种技术，双缓冲也是一种技术。二者同时使用，就是双缓冲内存池机制；内存池就是事先申请一块内存使用，减少内存申请和删除的工作，双缓冲机制是为了减缓生产者和消费者能力不平衡的情况，通过队列进行缓冲，降低二者的性能差别；引入双重缓冲内存池之后，BAM文件中读取线程读取的数据会先进入队列，然后解压线程会从队列中获取数据，并将使用完毕之后的内存块交还给另一个队列，然后读取线程从该队列获取内存块来进行接下来的读取工作。

其中，所述附图3中的分析数据过程具体为分析解压和解析完成的bam1_t文件中的内容，进行质控等相关操作；

输出线程：输出分析结果；

分析结果：html文件，代表质控信息。

进一步的，由于BAM文件的压缩方式，决定BAM文件解压缩速度是单线程解压BGZF（Blocked GNU Zip Format）块的时间。需要着重提高单线程的解压缩效率。通过分析BAM文件解压缩方式，选取合适的解压缩库提高解压缩速率。通过分析BAM文件使用的ZLIB压缩的方法，选择使用libdeflate类提高解压缩速度。

进一步的，BAM文件预处理需要给出相关分析指标，帮助科研人员了解数据分布，辅助确认数据是否有问题。为了达到上述目的，需要选择一些分析指标，并选择合适的展现方式进行展现。目前已经存在软件能够对BAM文件进行处理和解析。选择业界公认的FastQC软件作为目标，选取相关的分析指标进行分析。根据FastQC软件，对于BAM文件的分析分为十个方面，分别是基础分析，测序序列AGCT比例分析，碱基位置质量分析，碱基序列质量分析，测序序列GC比例（guanine-cytosine content：测序序列中G和C占的比例）分析，测序序列N 比例（即测序序列中N占的比例）分析，测序序列长度分析，测序序列重复度分析，测序序列过度代表分析，测序序列适配器分析。通过上述分析，可以对于该BAM文件有一个较为全面的了解。

进一步的，为了证明本发明所述方案的可行性，以下进行了实验证明：

本实施例中在相同线程数，相同机器上进行性能测试，如图4所示，本发明提出的方法（RabbitBAM）都优于当前的htslib，samtools，sambamba以及scramble，并且在40线程时，读取效率大幅度超过其他软件。

同时，根据BAM文件的其他方面，进行了BAM文件的读取与解析，BAM文件转换成FASTQ文件，基准测试，BAM预处理四个方面进行了极限性能测试，具体结果如表1所示。

表1、极限性能测试结果

测试项目	线程数	BAM处理效率（MB/S）	等效I/O(MB/S)
				BAM文件读取与解压	96	3382.3	3382.3
BAM转换FastQ	96	284.8	1468.8
				基准测试	96	2861.2	2861.2
BAM预处理	96	2391.2	2391.2

进一步的，本实施例将FASTQC软件与本发明所述方案进行加速比比较，在处理单一软件时，如图5所示，本发明所述方案能够提供线性加速比，但FastQC软件增加线程并不能提高运行效率。

实施例二：

本实施例的目的是提供一种多核平台下BAM文件解析还原系统。

一种多核平台下BAM文件解析还原系统，包括：

数据获取单元，其用于获取待解析的BAM文件；

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种多核平台下BAM文件解析还原方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多核平台下BAM文件解析还原方法，其特征在于，包括：

获取待解析的BAM文件；

通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析，获得bam1_t结构数据；

所述第一解析线程，具体执行如下步骤：根据BAM文件格式，通过解析开头的四个字节，获得每个bam1_t所占的字节数；并将不足的部分从下一个BGZF块中补足；从而满足得到的bam_block存在完整的bam1_t数据结构；所述第二解析线程，具体执行如下步骤：按照顺序对bam_block进行解析，通过解析开头的四个字节，根据其获取的字节数，跳过整块bam1_t区域，不断重复上述过程，直到读取到bam_block的结尾，解析完毕；所述BAM文件的读取和解压过程中引入双重缓存内存池机制，减少内存的占用。

2.如权利要求1所述的一种多核平台下BAM文件解析还原方法，其特征在于，所述读取线程、解压线程均采用HTSLIB库中的库函数实现。

3.一种多核平台下BAM文件解析还原系统，其特征在于，包括：

数据获取单元，其用于获取待解析的BAM文件；

并行解析单元，其用于通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析，获得bam1_t结构数据；

其中，所述第一解析线程，具体执行如下步骤：根据BAM文件格式，通过解析开头的四个字节，获得每个bam1_t所占的字节数；并将不足的部分从下一个BGZF块中补足；从而满足得到的bam_block存在完整的bam1_t数据结构；所述第二解析线程，具体执行如下步骤：按照顺序对bam_block进行解析，通过解析开头的四个字节，根据其获取的字节数，跳过整块bam1_t区域，不断重复上述过程，直到读取到bam_block的结尾，解析完毕；所述BAM文件的读取和解压过程中引入双重缓存内存池机制，减少内存的占用。

4.如权利要求3所述的一种多核平台下BAM文件解析还原系统，其特征在于，所述读取线程、解压线程均采用HTSLIB库中的库函数实现。