CN108650298A - 面向基因测序大数据的云存储方法 - Google Patents

面向基因测序大数据的云存储方法 Download PDF

Info

Publication number
CN108650298A
CN108650298A CN201810314885.0A CN201810314885A CN108650298A CN 108650298 A CN108650298 A CN 108650298A CN 201810314885 A CN201810314885 A CN 201810314885A CN 108650298 A CN108650298 A CN 108650298A
Authority
CN
China
Prior art keywords
data
file
copy
cloud storage
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810314885.0A
Other languages
English (en)
Inventor
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN201810314885.0A priority Critical patent/CN108650298A/zh
Publication of CN108650298A publication Critical patent/CN108650298A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Signal Processing (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向基因测序大数据的云存储方法,针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本,分布式多副本以及分布式单副本三种存储模式来保存不同的数据文件。本发明提供的面向基因测序大数据的云存储方法,采用基于GlusterFS分布式文件系统实现,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。

Description

面向基因测序大数据的云存储方法
技术领域
本发明涉及基因测序大数据处理技术领域,特别是涉及一种面向基因测序大数据的云存储方法。
背景技术
随着生物医疗技术特别是大规模基因测序的耗时与成本大大降低,精准医学与基因检测已从实验室逐步走进临床应用和普通人的生活。伴随着基因检测与精准医疗向着大规模、商业化方向发展,个人基因测序数据将出现井喷趋势,海量基因测序数据的云存储是一项具有挑战性的任务;与此同时,人们通过网络访问基因测序数据及其相关数据资源的需求也必将随之兴起。国外一些科研服务机构,包括ENCODE,ATGC提供了面向学术研究服务的基因测序大数据存储与数据挖掘工具,他们将文件存储在RAID5或者RAID10磁盘阵列存储上,这种方法缺点是单节点失效导致文件无法访问,存储空间难以扩展;而国内的基因测序机构现阶段侧重于市场开发,尚未开展对面向普通消费者的基因测序数据的云存储与检索业务。
发明内容
本发明所要解决的技术问题是:为了克服现有技术中的不足,本发明提供一种面向基因测序大数据的云存储方法,所述云存储方法可动态扩展存储空间,为基因测序大数据及其分析产生的数据文件提出了一种高性能、高可用性且经济的存储系统。
本发明解决其技术问题所要采用的技术方案是:一种面向基因测序大数据的云存储方法,包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时,将文件名、文件大小以及存储路径保存至关系数据库中,其中,关系数据库包括SQL server、Mysql、oracle等都是关系型管理数据库;检索数据文件时只需从关系数据库中读取对应的记录即可,从而加快数据检索速度;从客户端下载数据文件时,先从关系数据库中读取该文件的存储路径,再从云存储服务器中读取文件内容发送给客户端。
针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本、分布式多副本以及分布式单副本三种存储策略来保存不同访问特征的文件。
不同存储策略的存储过程为:
(1)条块化多副本存储策略:将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上,提高并发访问性能;每个数据块都存储在至少三个不同存储节点上,以提高数据可用性;
(2)分布式多副本存储策略:构建分布式集群扩展存储空间以保存海量数据,每个文件在至少两个不同存储节点保存完整副本,提高数据可用性;
(3)分布式单副本存储策略:构建分布式集群扩展存储空间以存储海量数据,每个文件只在一个节点上保存完整副本。
许多物种的基因组、转录组与表观遗传组已经通过测序并构建了图谱,测序数据分析过程中使用已知的基因组作为参考可大大提高分析的准确性;由于基因组比较大,将测序片段(read)比对到参考基因组坐标是一项非常耗时的工作。因此,比对算法(aligner)基于参考基因组构建所需要的索引文件,能大大加快比对速度;对于模式生物特别是人类,许多基因的功能以及位点变异导致的疾病都已经被揭示,形成了许多注释文件。参考基因组、转录组、比对算法需要的索引文件以及功能注释文件的特点是单个文件大,并发性能要求高,访问频率高,可用性要求高。针对这类数据文件的访问特点,本发明采用条块化多副本存储策略,将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上提高并发访问性能,且每个数据块都存储在至少三个不同存储节点上以提高数据可用性。
条块化多副本存储策略的优势在于访问某一文件时,多个存储节点并行地读取该文件的不同数据块,读取速度成倍增加,在访问频率很高的应用条件下极大地提升访问性能;每个数据块在不同存储节点上保存多个副本,单一节点故障不影响数据的访问,而多个节点同时失效的概率极低,从而大大提高了数据的可用性。
原始高通量基因测序数据通常是fastq格式,通常包含了测序平台、flowcell、lane以及相关信息。随着参考基因组以及分析算法的提高,对原始数据进行二次或三次分析能更准确地解读基因变异与表达水平,因此原始测序数据需要长期保存;分析过程产生的重要中间文件(例如比对生成的bam文件)以及分析结果(如表达水平FPKM文件与变异事件vcf文件),用户通常会多次访问下载,也需要长期保存。原始测序数据文件与重要的分析结果数据规模很大,原始测序数据的单个文件大,数据可用性要求高,但使用频率低,访问性能要求不高。针对这类数据文件的访问特点,本发明采用分布式多副本存储策略,构建分布式存储集群扩展存储空间,每个文件在至少两个不同存储节点,每个节点保存一份完整副本。
分布式多副本存储策略的优点是能根据需求动态扩展存储空间以存储海量测序数据;其次,在不同存储节点上保存多个副本提高了数据的可用性,单个节点故障不影响数据的访问;最后,可使用普通台式机硬盘构建大规模存储空间,适用于使用频率低与访问性能要求高的大规模数据归档。
基因测序数据分析过程会产生大量的中间文件,如日志文件、配置文件和临时文件等。这类数据文件的特点是文件数量非常多,整体容量大,但单个文件较小,访问频率低,数据可用性要求低。本发明采用分布式单副本存储策略保存这些数据,构建分布式集群扩展存储空间以存储分析过程产生的海量数据,每个文件只在一个节点上保存完整副本,从一个存储节点即可完整地读取一个文件的内容。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明数据文件存储系统的结构示意图;
图2是本发明条块化多副本存储策略的结构示意图;
图3是本发明分布式多副本存储策略的结构示意图;
图4是本发明分布式单副本存储策略的结构示意图。
具体实施方式
现在结合附图对本发明作详细的说明。此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,一种面向基因测序大数据的云存储系统,包括客户端、云存储管理系统、关系数据库和云存储服务器,所述云存储服务器包括多个存储节点,关系数据库包括SQL server、Mysql、oracle等关系型管理数据库。本实施例采用基于GlusterFS分布式文件系统,使用GlusterFS可从物理存储池进行独立划分创建不同类型的逻辑卷,并且支持POSIX文件系统规范。本发明提出的面向基因测序大数据的云存储方法包含一个Mysql数据库云存储管理系统,云存储上的所有文件详细信息都记录在Mysql数据库中,用户检索文件时可避免低效的磁盘目录读取操作,而是从Mysql数据库中获取文件信息与存储路径,根据存储路径读取文件内容。
基于该云存储系统提出一种面向基因测序大数据的云存储方法,包括以下步骤:首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储。上传数据文件至云存储服务器时,将文件名、文件大小以及存储路径保存至关系数据库中,检索数据文件时只需从关系数据库中读取对应的记录即可,从而加快数据检索速度;从客户端下载数据文件时,先从关系数据库中读取该文件的存储路径,再从云存储服务器中读取文件内容发送给客户端。
针对高通量测序大数据以及分析过程中的并发访问性能、访问频率、可用性等特点,提出条块化多副本、分布式多副本以及分布式单副本三种存储策略来保存不同访问特征的文件。
参考基因组、转录组、比对算法需要的索引文件以及功能注释文件的特点是单个文件大,并发性能要求高,访问频率高,可用性要求高。针对这类数据文件的访问特点采用条块化多副本存储策略。
原始测序数据文件与重要的分析结果数据规模很大,原始测序数据的单个文件大,数据可用性要求高,但使用频率低,访问性能要求不高。针对这类数据文件的访问特点采用分布式多副本存储策略。
基因测序数据分析过程会产生大量的中间文件,如日志文件、配置文件和临时文件等。这类数据文件的特点是文件数量非常多,整体容量大,但单个文件较小,访问频率低,数据可用性要求低,针对这类数据文件的访问特点采用分布式单副本存储策略。
下面结合附图对上述三种存储策略进行详细的介绍。
条块化多副本存储策略是将每个文件分割为若干个数据块进行存储。当通过客户端向云存储服务器写文件时,文件将被GlusterFS自动分割成若干数据块,每个数据块存储至少三个副本,且每个副本位于不同的存储节点上,因此,这种策略的云存储系统需要构建至少三个存储节点;条块化多副本的优势在于多个存储节点协同并发读取文件的不同数据块,从而提高数据读取速度;条块化多副本存储模式如图1所示,图中挂载点指云存储访问点,并且包括存储节点1、存储节点2和存储节点3三个存储节点,文件被分割成为数据块1和数据块2两个数据块,每个数据块存储三个副本,且每个数据块的副本保存在三个不同的节点上,以提高数据的并发访问性能和可用性。
如图3所示,分布式多副本存储策略构建分布式集群扩展存储空间以保存海量数据,每个文件在至少两个不同存储节点保存完整副本,提高数据可用性;向云存储写文件时,文件被自动存储两个副本,每个副本是一个完整的文件且存储于不同的节点;从云存储读取文件时,其中某一个存储节点响应并读取数据返回给应用程序;文件1与文件2都包含两个副本,每个副本是一个完整的文件。
如图4所示,分布式单副本存储策略构建分布式集群扩展存储空间以存储海量数据,每个文件只在一个存储节点上保存完整副本。向云存储写文件时,系统根据文件大小选择合适的存储节点,将文件写入该存储节点;从云存储读取文件时,对应节点响应并读取数据返回给应用程序;每个文件只包含一个副本,每个副本是一个完整的文件,文件1和文件2存储在节点1上,文件3和文件4存储在节点2上,文件5和文件6存储在节点3上。
上述存储策略上传与下载文件使用相同的过程,当上传文件时,将文件名、文件大小、文件存储路径写入到Mysql数据库的DataFile表中。从云存储读取文件时,先从Mysql数据库的DataFile表检索该文件对应的记录,得到文件的存储路径,根据路径读取文件内容。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关的工作人员完全可以在不偏离本发明的范围内,进行多样的变更以及修改。本项发明的技术范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (2)

1.一种面向基因测序大数据的云存储方法,其特征在于:包括以下步骤:
首先,根据数据文件的特点对基因测序大数据进行分类,然后根据分类结果选择存储策略的类型,将基因测序大数据上传到云存储服务器的各个存储节点进行存储;
其中,针对单个文件大、并发性能要求高、访问频率高以及可访问性要求高的数据文件采用条块化多副本存储策略;针对单个文件大、并发访问频率低、数据可用性要求高以及数据规模大的数据文件采用分布式多副本存储策略;针对文件数量大、整体容量大、但大多数文件较小、访问频率低以及数据可用性要求低的数据文件采用分布式单副本存储策略;
不同存储策略的存储过程为,
条块化多副本存储策略:将单个大文件分割成若干数据块,每个数据块保存在不同存储节点上,提高并发访问性能;每个数据块都存储在至少三个不同存储节点上,以提高数据可用性;
分布式多副本存储策略:构建分布式集群扩展存储空间以保存海量数据,每个文件在至少两个不同存储节点保存完整副本,提高数据可用性;
分布式单副本存储策略:构建分布式集群扩展存储空间以存储海量数据,每个文件只在一个节点上保存完整副本。
2.如权利要求1所述的面向基因测序大数据的云存储方法,其特征在于:上传数据文件至云存储服务器时,将文件名、文件大小以及存储路径保存至关系数据库中;检索数据文件时只需从关系数据库中读取对应的记录即可,从而加快数据检索速度;从客户端下载数据文件时,先从关系数据库中读取该文件的存储路径,再从云存储服务器中读取文件内容发送给客户端。
CN201810314885.0A 2018-04-10 2018-04-10 面向基因测序大数据的云存储方法 Pending CN108650298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810314885.0A CN108650298A (zh) 2018-04-10 2018-04-10 面向基因测序大数据的云存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810314885.0A CN108650298A (zh) 2018-04-10 2018-04-10 面向基因测序大数据的云存储方法

Publications (1)

Publication Number Publication Date
CN108650298A true CN108650298A (zh) 2018-10-12

Family

ID=63745700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810314885.0A Pending CN108650298A (zh) 2018-04-10 2018-04-10 面向基因测序大数据的云存储方法

Country Status (1)

Country Link
CN (1) CN108650298A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499073A (zh) * 2008-01-29 2009-08-05 国际商业机器公司 基于访问频率的连续存储数据的存储管理方法和系统
CN102419775A (zh) * 2011-12-22 2012-04-18 厦门雅迅网络股份有限公司 一种海量小文件的存储与检索方法
CN103118133A (zh) * 2013-02-28 2013-05-22 浙江大学 基于文件访问频次的混合云存储方法
US20140258360A1 (en) * 2012-04-17 2014-09-11 Nimbix, Inc. Reconfigurable cloud computing
CN105808589A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 文件处理的方法和装置
CN107506618A (zh) * 2017-07-07 2017-12-22 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法
WO2018010530A1 (zh) * 2016-07-13 2018-01-18 杭州海康威视数字技术股份有限公司 一种对多个多媒体文件的存储、读取和显示方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499073A (zh) * 2008-01-29 2009-08-05 国际商业机器公司 基于访问频率的连续存储数据的存储管理方法和系统
CN102419775A (zh) * 2011-12-22 2012-04-18 厦门雅迅网络股份有限公司 一种海量小文件的存储与检索方法
US20140258360A1 (en) * 2012-04-17 2014-09-11 Nimbix, Inc. Reconfigurable cloud computing
CN103118133A (zh) * 2013-02-28 2013-05-22 浙江大学 基于文件访问频次的混合云存储方法
CN105808589A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 文件处理的方法和装置
WO2018010530A1 (zh) * 2016-07-13 2018-01-18 杭州海康威视数字技术股份有限公司 一种对多个多媒体文件的存储、读取和显示方法及装置
CN107506618A (zh) * 2017-07-07 2017-12-22 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨冬菊等: "存储中的副本分级存储调度策略", 《计算机科学》 *
蒋浩: "分布式文件存储系统副本管理方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
Abdennur et al. Cooler: scalable storage for Hi-C data and other genomically labeled arrays
Li et al. A spatiotemporal indexing approach for efficient processing of big array-based climate data with MapReduce
Terzo et al. Data as a service (DaaS) for sharing and processing of large data collections in the cloud
US10381106B2 (en) Efficient genomic read alignment in an in-memory database
Dadi et al. DREAM-Yara: an exact read mapper for very large databases with short update time
EP2759952B1 (en) Efficient genomic read alignment in an in-memory database
US8756198B2 (en) Enhancing data store backup times
Nagaraj et al. Emerging trend of big data analytics in bioinformatics: a literature review
Wang et al. Large-scale multimodal mining for healthcare with mapreduce
CN112071385A (zh) 基于人工智能的罕见病辅助分析方法、装置及存储介质
Castro-Medina et al. Application of dynamic fragmentation methods in multimedia databases: a review
US20200278980A1 (en) Database processing apparatus, group map file generating method, and recording medium
Blamey et al. Adapting the secretary hiring problem for optimal hot-cold tier placement under top-K workloads
CN108650298A (zh) 面向基因测序大数据的云存储方法
Post et al. A method for EHR phenotype management in an i2b2 data warehouse
Zhang et al. A distributed storage model for healthcare big data designed on HBase
US8812453B2 (en) Database archiving using clusters
Lichtenwalter et al. Genotypic data in relational databases: efficient storage and rapid retrieval
Becla et al. Report from the 3rd workshop on extremely large databases
Zhang et al. Data storage and sharing for the long tail of science
Boja et al. Distributed parallel architecture for storing and processing large datasets
Suleykin et al. Efficient Data Exchange Between Typical Data Lake and DWH Corporate Systems
Yu et al. A framework of write optimization on read-optimized out-of-core column-store databases
Scarfò et al. How the big data is leading the evolution of ICT technologies and processes
Wang et al. Concentric layout, a new scientific data layout for matrix data-set in Hadoop file system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181012

RJ01 Rejection of invention patent application after publication