CN110120247A

CN110120247A - 一种分布式基因大数据存储平台

Info

Publication number: CN110120247A
Application number: CN201810024030.4A
Authority: CN
Inventors: 陈墩金; 祁建明; 周峻松; 徐继峰
Original assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Current assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date: 2018-01-14
Filing date: 2018-01-14
Publication date: 2019-08-13

Abstract

本发明公开了一种分布式基因大数据存储平台，涉及基因大数据压缩平台领域，该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流，并根据它们自身特点分别独立地压缩：去除元数据流中的重复片段并使用LZMA算法进行压缩；对质量分数流使用游程编码和算术编码压缩；使用匹配工具BWA将短读与参考基因组比对，提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩；最后采用分布式框架将数据放在不同的数据节点中存储，既保证了数据的可靠性，同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩，减少了压缩所需的存储空间。

Description

一种分布式基因大数据存储平台

技术领域

本发明涉及数据压缩领域，特别涉及一种基因大数据压缩平台领域。

背景技术

计算机作为处理DNA数据的主要工具面临着前所未有的挑战，DNA测序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度。计算机自诞生以来，其性能提高速度基本符合摩尔定律，微处理器性能和存储容量每18和12个月翻一番，然而DNA序列数据每9个月就增加一倍。急剧膨胀的DNA测序数据日益增加，使得存储这些数据的成本亦越来越高。如何高效地存储和管理高通量DNA测序技术和大型基因组项目产生的DNA数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要因素。

发明内容

本发明所要解决的技术问题是提供一种分布式基因大数据存储平台，该平台针对DNA序列本身具有的冗余性进行压缩，减少了压缩所需的存储空间。

为实现上述目的，本发明提供以下的技术方案：一种分布式基因大数据存储平台，其特征在于：所述平台包括数据读取模块、数据压缩模块、数据存储模块；所述数据读取模块用于读取DNA测序仪得到的FASTQ数据；所述数据压缩模块用于将FASTQ数据分割成元数据、碱基和质量分数三个数据流，并采用不同的压缩算法进行数据压缩；所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。

优选的，所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流，分别采用LZMA算法、游程编码、算术编码进行压缩。

优选的，所述数据存储模块由多个数据节点DataNode和中心节点NameNode组成，由中心节点NameNode将数据分发至各个DataNode节点进行存储。

采用以上技术方案的有益效果是：该分布式基因大数据存储平台将FASTQ数据分割成元数据、碱基和质量分数三个数据流，针对不同数据流的特点，采用不同的压缩算法进行数据压缩，已到达最大可压缩率，实现无损高效压缩，比传统的压缩算法平台具有更好的压缩效率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1是本发明分布式基因大数据存储平台的原理图。

图2是本发明分布式基因大数据存储平台数据存储模块的原理图。

具体实施方式

下面结合附图详细说明本发明一种分布式基因大数据存储平台的优选实施方式。

结合图1出示本发明一种分布式基因大数据存储平台的具体实施方式：该平台包括数据读取模块、数据压缩模块、数据存储模块，如图1所示，数据读取模块用于从数据库中读取DNA测序仪的FASTQ数据流，并将数据流导入至数据压缩模块；数据压缩模块将FASTQ数据流分割为元数据、碱基和质量分数三个数据流，采用不同的压缩算法进行数据压缩，然后将压缩后的数据汇总导入至数据存储模块；数据存储模块由多个数据节点DataNode和中心节点NameNode组成，NameNode维护所有文件的命名空间，以及每个文件所映射的文件块信息，负责寻找合适的DataNode存放数据块。DataNode就是数据最终存放的地方，数据文件被分割成多个文件块,每个文件块以文件形式存放到多个DataNode之上。

数据压缩模块将将FASTQ数据流分割为元数据、碱基和质量分数三个数据流，对不同的数据流采用不同的压缩方法，具体如下：

(1)元数据开始于字符‘@’并通常被空格符分隔成三部分。第一部分为短读ID。第二部分由字符串组成，用来记录如测序设备名，流通池及坐标等信息。最后一部分包含关键字‘length＝’，用来表示短读长度。第一部分及第三部分的元数据对于每个短读来说高度相同或相似，因此仅存储它们一次。每条短读中元数据的第二部分差异较大，这部分数据将被提取并直接使用LZMA(Lempel-Ziv-Markov chain-Algorithm)算法压缩。

(2)碱基数据按照短读的形式分段提取，提取的短读与同源参考基因组比对，将匹配结果编码成‘[POS]<PAL><MLength><MType><MisValues>’的形式，编码的表示如下：POS匹配位置，PAL互补回文匹配标记，MLength匹配长度，MType匹配类型，MisValues差异值。

每个短读都必须有匹配位置POS，短读未匹配时，POS将被设为0。当互补回文匹配时，PAL将被设为0，否则PAL将被省略。MLength表示匹配或错误匹配的长度并紧跟着匹配类型MType。匹配类型MType包含匹配(M)，插入(I)，删除(D)或替换(S)。当匹配类型为插入或替换时，差异值MisValues将由一个或多个{‘A’，‘C’，‘G’，‘T’，‘N’}组成，以确保数据的完整性。将匹配位置使用算术编码进行压缩，将其他信息如PAL，Mlength，Mtype，和MisValues组合在一起并使用霍夫曼编码压缩。

(3)质量分数包含很长的连续相同字符，采用对连续相同字符进行游程编码后进行压缩，如连续的二十二个字符‘#’将被编码成‘22#’。

如图2所示，数据存储模块由多个数据节点DataNode和中心节点NameNode组成，当数据流来到NameNode时，NameNode根据当前所保存的各个DataNode的状态表，计算出当前各个DataNode节点存储容量和吞吐量的优先次序，并返回当前最优的两个DataNode节点所在IP地址，将数据流发送至这两个DataNode节点。DataNode会周期性心跳向NameNode报告以示服务状态，对于长时间没有回应的DataNode，NameNode会把此DataNode作为失效、不可读或不可写的DataNode，或直接从DataNode状态表中删除。

以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种分布式基因大数据存储平台，其特征在于：所述平台包括数据读取模块、数据压缩模块、数据存储模块；所述数据读取模块用于读取DNA测序仪得到的FASTQ数据；所述数据压缩模块用于将FASTQ数据分割成元数据、碱基和质量分数三个数据流，并采用不同的压缩算法进行数据压缩；所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。

2.根据权利要求1所述的一种分布式基因大数据存储平台，其特征在于：所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流，分别采用LZMA算法、游程编码、算术编码进行压缩。

3.根据权利要求1所述的一种分布式基因大数据存储平台，其特征在于：所述数据存储模块由多个数据节点DataNode和中心节点NameNode组成，由中心节点NameNode将数据分发至各个DataNode节点进行存储。