CN108650298A

CN108650298A - 面向基因测序大数据的云存储方法

Info

Publication number: CN108650298A
Application number: CN201810314885.0A
Authority: CN
Inventors: 刘辉
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-10-12

Abstract

本发明提供一种面向基因测序大数据的云存储方法，针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点，提出条块化多副本，分布式多副本以及分布式单副本三种存储模式来保存不同的数据文件。本发明提供的面向基因测序大数据的云存储方法，采用基于GlusterFS分布式文件系统实现，具有强大的横向扩展能力，通过扩展能够支持数PB存储容量和处理数千客户端。

Description

面向基因测序大数据的云存储方法

技术领域

本发明涉及基因测序大数据处理技术领域，特别是涉及一种面向基因测序大数据的云存储方法。

背景技术

随着生物医疗技术特别是大规模基因测序的耗时与成本大大降低，精准医学与基因检测已从实验室逐步走进临床应用和普通人的生活。伴随着基因检测与精准医疗向着大规模、商业化方向发展，个人基因测序数据将出现井喷趋势，海量基因测序数据的云存储是一项具有挑战性的任务；与此同时，人们通过网络访问基因测序数据及其相关数据资源的需求也必将随之兴起。国外一些科研服务机构，包括ENCODE，ATGC提供了面向学术研究服务的基因测序大数据存储与数据挖掘工具，他们将文件存储在RAID5或者RAID10磁盘阵列存储上，这种方法缺点是单节点失效导致文件无法访问，存储空间难以扩展；而国内的基因测序机构现阶段侧重于市场开发，尚未开展对面向普通消费者的基因测序数据的云存储与检索业务。

发明内容

本发明所要解决的技术问题是：为了克服现有技术中的不足，本发明提供一种面向基因测序大数据的云存储方法，所述云存储方法可动态扩展存储空间，为基因测序大数据及其分析产生的数据文件提出了一种高性能、高可用性且经济的存储系统。

本发明解决其技术问题所要采用的技术方案是：一种面向基因测序大数据的云存储方法，包括以下步骤：首先，根据数据文件的特点对基因测序大数据进行分类，然后根据分类结果选择存储策略的类型，将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时，将文件名、文件大小以及存储路径保存至关系数据库中，其中，关系数据库包括SQL server、Mysql、oracle等都是关系型管理数据库；检索数据文件时只需从关系数据库中读取对应的记录即可，从而加快数据检索速度；从客户端下载数据文件时，先从关系数据库中读取该文件的存储路径，再从云存储服务器中读取文件内容发送给客户端。

针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点，提出条块化多副本、分布式多副本以及分布式单副本三种存储策略来保存不同访问特征的文件。

不同存储策略的存储过程为：

(1)条块化多副本存储策略：将单个大文件分割成若干数据块，每个数据块保存在不同存储节点上，提高并发访问性能；每个数据块都存储在至少三个不同存储节点上，以提高数据可用性；

(2)分布式多副本存储策略：构建分布式集群扩展存储空间以保存海量数据，每个文件在至少两个不同存储节点保存完整副本，提高数据可用性；

(3)分布式单副本存储策略：构建分布式集群扩展存储空间以存储海量数据，每个文件只在一个节点上保存完整副本。

许多物种的基因组、转录组与表观遗传组已经通过测序并构建了图谱，测序数据分析过程中使用已知的基因组作为参考可大大提高分析的准确性；由于基因组比较大，将测序片段(read)比对到参考基因组坐标是一项非常耗时的工作。因此，比对算法(aligner)基于参考基因组构建所需要的索引文件，能大大加快比对速度；对于模式生物特别是人类，许多基因的功能以及位点变异导致的疾病都已经被揭示，形成了许多注释文件。参考基因组、转录组、比对算法需要的索引文件以及功能注释文件的特点是单个文件大，并发性能要求高，访问频率高，可用性要求高。针对这类数据文件的访问特点，本发明采用条块化多副本存储策略，将单个大文件分割成若干数据块，每个数据块保存在不同存储节点上提高并发访问性能，且每个数据块都存储在至少三个不同存储节点上以提高数据可用性。

条块化多副本存储策略的优势在于访问某一文件时，多个存储节点并行地读取该文件的不同数据块，读取速度成倍增加，在访问频率很高的应用条件下极大地提升访问性能；每个数据块在不同存储节点上保存多个副本，单一节点故障不影响数据的访问，而多个节点同时失效的概率极低，从而大大提高了数据的可用性。

原始高通量基因测序数据通常是fastq格式，通常包含了测序平台、flowcell、lane以及相关信息。随着参考基因组以及分析算法的提高，对原始数据进行二次或三次分析能更准确地解读基因变异与表达水平，因此原始测序数据需要长期保存；分析过程产生的重要中间文件(例如比对生成的bam文件)以及分析结果(如表达水平FPKM文件与变异事件vcf文件)，用户通常会多次访问下载，也需要长期保存。原始测序数据文件与重要的分析结果数据规模很大，原始测序数据的单个文件大，数据可用性要求高，但使用频率低，访问性能要求不高。针对这类数据文件的访问特点，本发明采用分布式多副本存储策略，构建分布式存储集群扩展存储空间，每个文件在至少两个不同存储节点，每个节点保存一份完整副本。

分布式多副本存储策略的优点是能根据需求动态扩展存储空间以存储海量测序数据；其次，在不同存储节点上保存多个副本提高了数据的可用性，单个节点故障不影响数据的访问；最后，可使用普通台式机硬盘构建大规模存储空间，适用于使用频率低与访问性能要求高的大规模数据归档。

基因测序数据分析过程会产生大量的中间文件，如日志文件、配置文件和临时文件等。这类数据文件的特点是文件数量非常多，整体容量大，但单个文件较小，访问频率低，数据可用性要求低。本发明采用分布式单副本存储策略保存这些数据，构建分布式集群扩展存储空间以存储分析过程产生的海量数据，每个文件只在一个节点上保存完整副本，从一个存储节点即可完整地读取一个文件的内容。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明数据文件存储系统的结构示意图；

图2是本发明条块化多副本存储策略的结构示意图；

图3是本发明分布式多副本存储策略的结构示意图；

图4是本发明分布式单副本存储策略的结构示意图。

具体实施方式

现在结合附图对本发明作详细的说明。此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种面向基因测序大数据的云存储系统，包括客户端、云存储管理系统、关系数据库和云存储服务器，所述云存储服务器包括多个存储节点，关系数据库包括SQL server、Mysql、oracle等关系型管理数据库。本实施例采用基于GlusterFS分布式文件系统，使用GlusterFS可从物理存储池进行独立划分创建不同类型的逻辑卷，并且支持POSIX文件系统规范。本发明提出的面向基因测序大数据的云存储方法包含一个Mysql数据库云存储管理系统，云存储上的所有文件详细信息都记录在Mysql数据库中，用户检索文件时可避免低效的磁盘目录读取操作，而是从Mysql数据库中获取文件信息与存储路径，根据存储路径读取文件内容。

基于该云存储系统提出一种面向基因测序大数据的云存储方法，包括以下步骤：首先，根据数据文件的特点对基因测序大数据进行分类，然后根据分类结果选择存储策略的类型，将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时，将文件名、文件大小以及存储路径保存至关系数据库中，检索数据文件时只需从关系数据库中读取对应的记录即可，从而加快数据检索速度；从客户端下载数据文件时，先从关系数据库中读取该文件的存储路径，再从云存储服务器中读取文件内容发送给客户端。

参考基因组、转录组、比对算法需要的索引文件以及功能注释文件的特点是单个文件大，并发性能要求高，访问频率高，可用性要求高。针对这类数据文件的访问特点采用条块化多副本存储策略。

原始测序数据文件与重要的分析结果数据规模很大，原始测序数据的单个文件大，数据可用性要求高，但使用频率低，访问性能要求不高。针对这类数据文件的访问特点采用分布式多副本存储策略。

基因测序数据分析过程会产生大量的中间文件，如日志文件、配置文件和临时文件等。这类数据文件的特点是文件数量非常多，整体容量大，但单个文件较小，访问频率低，数据可用性要求低，针对这类数据文件的访问特点采用分布式单副本存储策略。

下面结合附图对上述三种存储策略进行详细的介绍。

条块化多副本存储策略是将每个文件分割为若干个数据块进行存储。当通过客户端向云存储服务器写文件时，文件将被GlusterFS自动分割成若干数据块，每个数据块存储至少三个副本，且每个副本位于不同的存储节点上，因此，这种策略的云存储系统需要构建至少三个存储节点；条块化多副本的优势在于多个存储节点协同并发读取文件的不同数据块，从而提高数据读取速度；条块化多副本存储模式如图1所示，图中挂载点指云存储访问点，并且包括存储节点1、存储节点2和存储节点3三个存储节点，文件被分割成为数据块1和数据块2两个数据块，每个数据块存储三个副本，且每个数据块的副本保存在三个不同的节点上，以提高数据的并发访问性能和可用性。

如图3所示，分布式多副本存储策略构建分布式集群扩展存储空间以保存海量数据，每个文件在至少两个不同存储节点保存完整副本，提高数据可用性；向云存储写文件时，文件被自动存储两个副本，每个副本是一个完整的文件且存储于不同的节点；从云存储读取文件时，其中某一个存储节点响应并读取数据返回给应用程序；文件1与文件2都包含两个副本，每个副本是一个完整的文件。

如图4所示，分布式单副本存储策略构建分布式集群扩展存储空间以存储海量数据，每个文件只在一个存储节点上保存完整副本。向云存储写文件时，系统根据文件大小选择合适的存储节点，将文件写入该存储节点；从云存储读取文件时，对应节点响应并读取数据返回给应用程序；每个文件只包含一个副本，每个副本是一个完整的文件，文件1和文件2存储在节点1上，文件3和文件4存储在节点2上，文件5和文件6存储在节点3上。

上述存储策略上传与下载文件使用相同的过程，当上传文件时，将文件名、文件大小、文件存储路径写入到Mysql数据库的DataFile表中。从云存储读取文件时，先从Mysql数据库的DataFile表检索该文件对应的记录，得到文件的存储路径，根据路径读取文件内容。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关的工作人员完全可以在不偏离本发明的范围内，进行多样的变更以及修改。本项发明的技术范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种面向基因测序大数据的云存储方法，其特征在于：包括以下步骤：

首先，根据数据文件的特点对基因测序大数据进行分类，然后根据分类结果选择存储策略的类型，将基因测序大数据上传到云存储服务器的各个存储节点进行存储；

其中，针对单个文件大、并发性能要求高、访问频率高以及可访问性要求高的数据文件采用条块化多副本存储策略；针对单个文件大、并发访问频率低、数据可用性要求高以及数据规模大的数据文件采用分布式多副本存储策略；针对文件数量大、整体容量大、但大多数文件较小、访问频率低以及数据可用性要求低的数据文件采用分布式单副本存储策略；

不同存储策略的存储过程为，

条块化多副本存储策略：将单个大文件分割成若干数据块，每个数据块保存在不同存储节点上，提高并发访问性能；每个数据块都存储在至少三个不同存储节点上，以提高数据可用性；

分布式多副本存储策略：构建分布式集群扩展存储空间以保存海量数据，每个文件在至少两个不同存储节点保存完整副本，提高数据可用性；

分布式单副本存储策略：构建分布式集群扩展存储空间以存储海量数据，每个文件只在一个节点上保存完整副本。

2.如权利要求1所述的面向基因测序大数据的云存储方法，其特征在于：上传数据文件至云存储服务器时，将文件名、文件大小以及存储路径保存至关系数据库中；检索数据文件时只需从关系数据库中读取对应的记录即可，从而加快数据检索速度；从客户端下载数据文件时，先从关系数据库中读取该文件的存储路径，再从云存储服务器中读取文件内容发送给客户端。