CN108197433A

CN108197433A - 快速dna测序数据分析平台的数据内存和硬盘分流存储方法

Info

Publication number: CN108197433A
Application number: CN201711484262.XA
Authority: CN
Inventors: 张翔; 杨文娴; 俞容山
Original assignee: Xiamen Polar Technology Co Ltd
Current assignee: Xiamen Polar Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22

Abstract

本发明公开一种快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，包括：将序列比对数据分成索引数据和其他数据，将索引数据全部存放于计算机内存；对其他数据，按照一定的比例，以基因段为单位，分别放入计算机内存和和硬盘文件中。本发明降低了IMP算法分析海量基因测序数据时对计算机内存扩大的需求，同时降低了基因测序平台的搭建成本。

Description

快速DNA测序数据分析平台的数据内存和硬盘分流存储方法

技术领域

本发明涉及数据存储技术领域，特别涉及快速DNA测序数据分析平台的数据内存和硬盘分流存储方法。

背景技术

随着人类基因组计划的顺利实施和测序技术的快速发展，测序的成本显著降低，而测序速度得到了显著提高，人类全基因组测序的测序成本已经降至$1000以内，DNA序列的数据量呈指数增长。如何快速的利用、表达这些数据，进而分析与解释基因序列里的潜在问题，从海量数据里发掘出对人类有利的信息，成为一个迫切需要解决的问题。应用越来越广泛的人类全基因组测序（WGS）产生的序列数据、以及对海量序列数据进行快速分析处理的持续需求，使数据分析形成了一个新的技术瓶颈，对二代测序技术的临床应用成为制约。

同时，为了推动精准医疗，二代测序技术的临床应用对数据分析工具有如下的要求。第一，对程序运行时间上的要求，数据分析方法速度要快。由于二代测序技术产出数据的通量越来越高，检测数据分析方法的速度需要与之相匹配，才能够达到快速确认，快速应对的目的。第二，对数据的私密性的要求，基因数据的隐秘性和安全性需要得到保证。第三，分析精度上的要求。

目前在国际上生物信息学领域最广泛使用的短读长序列比对的工具包括SOAP3-dp，BWA-aln，BWA-mem，Bowtie等，最常用的变异检测工具包括GATK HaplotypeCaller，Samtools-mpileup ，freebayes等。这些工具整个流程的实现是采用文件I/O系统，序列比对将比对结果导出到硬盘，作为后续处理模块的输入，因而在数据读写方面耗费了大量的时间。

IMP测序数据分析平台采用的是内存存储与计算技术，即在IMP测序数据分析平台的整个数据分析流程中，所有的数据处理都是基于内存的数据存储和计算，从而避免了在流程的多个处理步骤之间使用基于文件的中间结果的导入导出，减少了I/O开销，由于所有的序列比对记录经过压缩，全部以共享内存的方式实现各进程/线程间的通信，将数据处理速度加快了100倍左右，极大的提高了运行效率。

但是，基因数据的存储量非常大，以30倍深度的人类全基因组数据来说，输出的SAM文件达到200GB，IMP经过数据压缩后，可以在256GB的服务器上完全用内存来存储所有的序列比对数据，省去了I/O存储开销，但是当系统内存大量被用于存储基因数据时，系统的运行效率开始变慢。同时，随着基因数据量的加大，内存的需求量也随之增加，如处理50倍甚至更高深度的WGS数据时，需要把系统内存增加到484GB甚至512GB，因此IMP测序数据分析平台能够同时处理的数据量受限于工作站的硬件配置，要求系统配备大容量，内存基因分析成本大幅增加了。

有鉴于此，本发明人特别研制出一种优化的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，本案由此产生。

发明内容

本发明的目的在于提供快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，以降低IMP算法分析海量基因测序数据时对计算机内存扩大的需求，以及降低基因测序平台的搭建成本。

为了实现上述目的，本发明的技术方案如下：

快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，包括：

将序列比对数据分成索引数据和其他数据，其中索引数据是指在数据分析处理的过程中需要反复读写的数据，且索引数据占所有数据的少部分，其他数据是指只需要一次性读写的数据；再对前述分类的数据按如下方式进行处理：

1）将索引数据全部存放于计算机内存；

2）对其他数据，按照一定的比例，以基因段为单位，分别放入计算机内存和内存硬盘文件中，

进一步，将索引数据全部存放于共享内存；

对于其他数据，按照一定的比例，以基因段为单位，部分放入共享内存和内存映射文件，另一部分通过内存映射文件转移至硬盘。

进一步，序列对比数据包括：

必须的字段，以CORE数据结构表示，仅包括变异检测所需的字段；

可选的字段，以EXT数据结构表示，包括如果指定为输出BAM文件，则要写入BAM文件的其他字段；

对于单端和双端短读长序列，前述序列对比记录的CORE数据结构包括以下字段：

NEXT READ ID，按序列顺序下一个比对记录的索引ID，为零时表示没有下一个比对；

SIZE，当前序列比对记录在内存中所需的总字节数；

OFFSET，当前序列比对记录在当前内存块中的相对地址；

POSITION，该序列在参考序列中的比对位置，是从0到（N-1）的全局位置，其中N是参考序列的长度；

TLEN，该值仅用于双端测序序列比对，表示该序列的比对位置与相应的mate序列的比对位置之间的距离；

FLAG，位标志，每一个bit代表一种比对情况，与标准SAM文件里的FLAG一致；

MAPQ，由比对算法给出的比对质量， MAPQ的值范围为0到60，并使用单个字节表示；

CIGAR，简要比对信息表达式，以参考序列为基础，使用数字加字母表示比对结果；

SUBREAD，比对序列的子序列，指完全重建该短读长序列本身所需的原始序列的子集；子序列中的每个碱基对使用3位进行无损编码；

QUAL，序列的质量信息，使用Rice编码进行无损压缩；

对于单端和双端序列，前述其序列比对记录EXT数据结构包含以下字段：

RNAME，当参考序列包括多条染色体时，该字段指出序列在参考序列中对应的染色体名称；

MD，该字符串用于从该序列完全重构相应位置的参考序列的子序列

QNAME，即该序列的名称；

AS，序列比对的分数；

XS，序列比对可以给出多个结果，将该序列映射到参考序列的不同位置，XS表达第二位的比对结果的分数；

NM，从该序列到参考序列的编辑距离，即从序列变换到参考序列对应位置的子序列所需的编辑次数；

双端测序序列还包括以下的附加字段：

RNEXT，是该序列的mate在参考序列中对应的染色体名称；

PNEXT，是该序列的mate在参考序列中的比对位置；

将前述NEXT READ ID、OFFSET、POSITION及FLAG 4个字段作为序列比对记录的索引数据，并将其他所有字段，包括CORE数据的其他字段以及EXT数据的所有字段，都作为其他数据。

进一步的，按照比对记录的全局比对位置分成不同的基因段，每一个段有自己的哈希表，数据分流基于基因段实现；

在做序列比对时，需要写入所有的序列比对记录，具体的分流存储包括以下几个步骤。

A1.根据需要处理的基因测序数据的数据量，估算需要写往硬盘部分的数据大小，设定一个比例，按照比例将部分基因段的其他数据写往内存，而另一部分基因段的其他数据通过内存文件映射的方式写往硬盘；

B1.建立起一个从段的标识符到不同存储方案的映射函数，对某一个具体的基因段，其存储方式由该映射函数决定，基因段的标识符由全局比对位置决定；

C1.对某一个具体的基因段，如果其存储方式映射为内存，则比对到该基因段上的序列比对记录的数据将被直接写入内存，包括索引数据和其他数据；

D1.如果该基因段的存储方式映射为硬盘，则比对到该基因段上的序列比对记录的索引数据仍然写入内存，而其他数据将被写入该基因段对应的硬盘文件；

在做变异分析时，需要读取所有的序列比对记录，从分流存储读取比对记录包括以下几个步骤：

A2.给定比对记录的全局比对位置，计算对应的基因段的标识符，找到该比对位置对应的基因段，通过从段的标识符到不同存储方案的映射函数，确定该基因段的存储方式；

B2.如果该基因段被写入内存，则直接从内存读取该比对记录的全部数据，包括索引数据和其他数据。

C2.如果该基因段被写入硬盘文件，则从内存读取该比对记录的索引数据，并判断该硬盘文件数据是否已经被加载到内存，如果已经加载到内存，则从该基因段对应的当前内存块读取该比对记录的其他数据，否则，便将硬盘文件全部加载到当前内存块，再读取该比对记录的其他数据。

本发明的有益效果为：本发明提出的快速DNA测序数据分析平台IMP的数据内存和硬盘分流存储方法，利用共享内存和内存映射文件的灵活应用，结合了内存和硬盘存储的优点，从而降低了IMP算法在分析海量基因测序数据时对计算机配置的要求，减少了对昂贵计算机内存的使用，为基因测序平台低成本、桌面化提供了可能。

附图说明

图1是本发明在做序列比对时的数据分流存储流程图；

图2是本发明在做变异分析时从分流存储读取比对记录的流程图。

具体实施方式

测序数据分析流程的设计及实现中的一个重要问题是实现多个进程之间或多个线程之间的数据通信。硬盘文件读写效率低，随机读写速度尤其慢，因此处理数据量大的应用程序通常采用内存进程通信方式（Inter-Process Communication， IPC）。内存进程通信中常用的方案包括使用共享内存和使用内存映射文件。

共享内存区域（IPC shared memory region）是系统出于多个进程之间通讯的考虑而预留的一块内存区。共享内存指的是把所有共享数据放在共享内存区域，任何想要访问该数据的进程都必须在本进程的地址空间新增一块内存区域，用来映射存放共享数据的物理内存页面。每个共享内存区域对应shm文件系统的一个文件。共享内存是一种快速高效的IPC方法，它是一个双向过程，共享区域内的任何进程都可以读写内存。

内存映射文件就是把文件逐字节对应的映射到进程的虚拟内存地址空间之内，应用程序就可以如同访问主内存直接使用输入输出的地址空间，从而提高读写的效率。使用内存映射文件处理存储于硬盘上的文件时，将首先对文件进行映射，就如同将整个文件从磁盘加载到内存。因此，使用内存映射文件处理存储于磁盘上的文件时，将不必再对文件执行I/O操作，这意味着在对文件进行处理时将不必再为文件申请并分配缓存，所有的文件缓存操作均由系统直接管理，由于取消了将文件数据加载到内存、数据从内存到文件的回写以及释放内存块等步骤，使得内存映射文件在处理大数据量的文件时能起到相当重要的作用。

一般来说，内存映射文件的读写速度因为需要同步硬盘文件不如共享内存的读写速度快，但是，由于测序数据分析的数据量巨大，仅仅使用共享内存的方式实现进程间的数据共享，对内存容量的需求很高。如果仅仅用内存映射文件实现数据共享，效率又太低。因此本文中提出数据分流存储的办法，根据数据的特点，同时使用这两种方案来实现进程间的数据共享。

本领域技术人员应当理解数据存储分流是指将数据分流，分别存储在不同的介质，以解决单一介质I/O或容量不足的问题，比如把数据分别存储在内存和硬盘。

如图1和2所示，为本发明揭示的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，包括：

1）将索引数据全部存放于计算机内存，具体是存放于计算机内存中的共享内存；

索引数据的数据量较小，只占所有数据的一小部分（通常少于10%），同时，在测序数据数据分析处理过程中，比如序列对比，序列对比结果的排序和去除重复序列的处理需要随机/反复读写其他序列比对结果的索引数据，因此实施例将索引数据全部存放于计算机内存，以提高读写效率。

2）对其他数据，按照一定的比例，以基因段（section）为单位，分别放入计算机内存和硬盘文件中，具体是部分放入共享内存和内存映射文件，另一部分通过内存映射文件转移至硬盘。

在内存映射文件的工作方式下，应用程序仍将数据先写入内存缓冲区，当写入或更新的数据足够多时，操作系统会在后台把数据按顺序写入硬盘文件，同时释放内存缓存区，提高了内存的使用效率。数据放入共享内存和内存映射文件的比例则根据系统配置和程序需要决定。因为共享内存的访问效率要高于内存映射文件，在一般情况下，我们会尽可能的把其他数据放入共享内存，以保证测序数据分析的速度，同时，安装合适的比例，将部分其他数据通过内存映射文件转移至硬盘，以保证内存的使用不超过系统可用内存总量。比如其他数据的总量为 X GB, 系统可以使用的空闲内存为 F GB, 则写入内存映射文件的其他数据的比例可以设为 max(0, 1-F/X)。

通过上述的数据分流存储方案，可实现最大利用内存进行高速测序数据分析，同时可以在内存总量固定的情况下，突破测序数据分析总量的限制。

下面结合更具体的数据结构进一步说明本发明的分流存储方法，本发明涉及到的IMP测序数据处理平台中，主要的基因数据是序列比对记录，序列对比数据包括：

SIZE，当前序列比对记录在内存中所需的总字节数；

OFFSET，当前序列比对记录在当前内存块中的相对地址；

QUAL，序列的质量信息，使用Rice编码进行无损压缩；

QNAME，即该序列的名称；

AS，序列比对的分数；

双端测序序列还包括以下的附加字段：

RNEXT，是该序列的mate在参考序列中对应的染色体名称；

PNEXT，是该序列的mate在参考序列中的比对位置；

对于具有可变长度的数据字段，该字段的长度也被编码为单独的变量，总的来说，对其记录的大小（其指示存储器中当前对齐记录的总字节数）被添加到对齐记录的开头；

在序列比对的过程中，通过哈希表插入新的比对记录时，需要访问到已经写入的其他序列比对记录的字段仅包括NEXT READ ID、POSITION、FLAG。其中访问NEXT READ ID是为了找到应当插入当前比对记录的合适的位置，访问POSITION是为了所有比对记录通过哈希表实现排序，FLAG字段则可能需要读和写，在去除重复序列的处理时，如果认为已经写入的比对记录是应当被去除的重复序列，则程序需要将该记录的FLAG标记为重复序列。

在变异检测的过程中，通过哈希表查找比对记录时，需要访问OFFSET找到要读出的比对记录数据的位置。

基于以上的序列比对记录数据特点以及应用程序要求，本实施例将前述NEXTREAD ID、OFFSET、POSITION及FLAG 4个字段作为序列比对记录的索引数据，并将其他所有字段，包括CORE数据的其他字段以及EXT数据的所有字段，都作为其他数据。

在IMP数据处理过程中，所有的比对记录都通过哈希表进入存储系统。哈希表是根据键值而直接访问数据存储位置的数据结构，它通过哈希函数将输入数据对应的键值转换为哈希值，通过哈希值将所需查询的数据映射到表中一个位置来访问记录，加快查找速度。序列比对记录通过哈希表寻址，每一条记录以全局的比对位置做为键值，用来计算该记录的哈希值。因此，更为具体的，我们按照比对记录的全局比对位置（POSITION）分成不同的基因段，每一个段有自己的哈希表，数据分流基于基因段实现；

在做序列比对时，需要写入所有的序列比对记录，结合图1，具体的分流存储包括以下几个步骤。

B1.建立起一个从段的标识符（section ID）到不同存储方案的映射函数，对某一个具体的基因段，其存储方式由该映射函数决定，基因段的标识符由全局比对位置决定；

D1.如果该基因段的存储方式映射为硬盘，则比对到该基因段上的序列比对记录的索引数据仍然写入共享内存，而其他数据将被写入该基因段对应的硬盘文件；

在做变异分析时，需要读取所有的序列比对记录，结合图2，从分流存储读取比对记录包括以下几个步骤：

A2.给定比对记录的全局比对位置，计算对应的基因段的标识符（section ID），找到该比对位置对应的基因段，通过从段的标识符到不同存储方案的映射函数，确定该基因段的存储方式；

以上仅为本发明的具体实施例，并非对本发明的保护范围的限定。凡依本案的设计思路所做的等同变化，均落入本案的保护范围。

Claims

1.快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，其特征在于，包括以下步骤：

1）将索引数据全部存放于计算机内存；

如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，其特征在于：

将索引数据全部存放于共享内存；

2.如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，其特征在于，序列对比数据包括：

SIZE，当前序列比对记录在内存中所需的总字节数；

OFFSET，当前序列比对记录在当前内存块中的相对地址；

QUAL，序列的质量信息，使用Rice编码进行无损压缩；

QNAME，即该序列的名称；

AS，序列比对的分数；

双端测序序列还包括以下的附加字段：

RNEXT，是该序列的mate在参考序列中对应的染色体名称；

PNEXT，是该序列的mate在参考序列中的比对位置；

3.如权利要求1所述的快速DNA测序数据分析平台的数据内存和硬盘分流存储方法，其特征在于：

按照比对记录的全局比对位置分成不同的基因段，每一个段有自己的哈希表，数据分流基于基因段实现；

在做序列比对时，具体的分流存储包括以下几个步骤。

4.A1.根据需要处理的基因测序数据的数据量，估算需要写往硬盘部分的数据大小，设定一个比例，按照比例将部分基因段的其他数据写往内存，而另一部分基因段的其他数据通过内存文件映射的方式写往硬盘；

在做变异分析时，从分流存储读取比对记录包括以下几个步骤：

5.C2.如果该基因段被写入硬盘文件，则从内存读取该比对记录的索引数据，并判断该硬盘文件数据是否已经被加载到内存，如果已经加载到内存，则从该基因段对应的当前内存块读取该比对记录的其他数据，否则，便将硬盘文件全部加载到当前内存块，再读取该比对记录的其他数据。