CN103984507A - 一种生物信息学高性能计算平台的存储配置以及优化策略 - Google Patents

一种生物信息学高性能计算平台的存储配置以及优化策略 Download PDF

Info

Publication number
CN103984507A
CN103984507A CN201410203845.0A CN201410203845A CN103984507A CN 103984507 A CN103984507 A CN 103984507A CN 201410203845 A CN201410203845 A CN 201410203845A CN 103984507 A CN103984507 A CN 103984507A
Authority
CN
China
Prior art keywords
storage
data
file
bioinformatics
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410203845.0A
Other languages
English (en)
Inventor
金莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410203845.0A priority Critical patent/CN103984507A/zh
Publication of CN103984507A publication Critical patent/CN103984507A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种生物信息学高性能计算平台的存储配置以及优化策略,先确定适用于生物信息学平台的的存储方案配置,确定存储空间,存储节点内和计算节点的网络链接方式,磁盘配额的设定,磁盘区间划分;对于存储性能优化方面使用自动精简存储容量、重复数据删除、选择性数据压缩方法对存储系统进行优化。本发明结合目前生物信息学计算的特点,存储需求,提出计算平台的存储配置思路,以及存储优化方法,提供了生物信息学高性能计算平台存储方案,可以为集群方案配置提供参考,并给出存储优化的一些方法,可以作为存储系统优化的思路。

Description

一种生物信息学高性能计算平台的存储配置以及优化策略
技术领域
本发明涉及一种生物信息学高性能计算平台的存储配置思路以及存储优化策略,属于计算机科学和生物信息学的交叉学科。
技术背景
生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术(尤其是互联网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
在基因组学研究方向,测序技术是重要的研究手段,对于测序数据的分析就需要借助高性能计算平台完成,且需要一个高性能、高可扩展的统一数据存储池,来提供大数据的持续访问、处理、加工和共享等功能,也要对存储池进行优化的配置以及合理的管理。
由于二代测序数据激增,近年生物信息的数据存储已经成为生物信息学者,高性能计算制造者,存储生成商头痛的问题,因为没有一套完善的方案能够解决生物信息数据量大,读写频繁,数据安全,数据备份等诸多问题,因此存储是生物信息学集群的主要瓶颈。由于熟悉生物信息学的专家不熟悉具体的计算系统的配置,高性能计算专家对生物信息分析的流程和资源需求也知之甚少,所以设计生物信息学的存储配置方案以及优化方法十分必要。
本发明主要就生物信息计算中存储这一主要瓶颈展开说明,首先提出一种存储配置策略,随后给出存储优化方法。
由于生物信息学的数据量增长迅速,数据读写频繁,用户量大,并发度高,且有大量的中间文件存放,输出文件保存时间长,因此存储方案选择是需要满足大容量,高性能,高可用,可扩展,可管理,按需服务的特点。目前常用的NFS文件系统,由于扩展性差,维护困难的特点,很难满足生物信息学集群的需求。
发明内容
本发明要解决的技术问题是:提出一种生物信息学计算平台的存储配置方案,并提出存储系统的优化方案。
本发明所采用的技术方案为:
一种生物信息学高性能计算平台的存储配置以及优化策略,先确定适用于生物信息学平台的的存储方案配置,确定存储空间,存储节点内和计算节点的网络链接方式,磁盘配额的设定,磁盘区间划分;对于存储性能优化方面使用自动精简存储容量、重复数据删除、选择性数据压缩方法对存储系统进行优化。
在生物信息学计算中数据主要分为短生命周期数据和长生命周期数据两类。短生命周期周期数据主要是计算过程生成的中间结果数据,长生命周期数据是计算的原始数据和计算结果数据。不同类型的数据对服务品质的要求大相径庭:计算中间结果数据生命周期很短,使用后就可以清除,不过中间结果数据存取更为频繁,容量也比原始数据和结果数据大很多,因此更看重数据带宽和存储容量。原始数据和最终结果数据比中间结果数据保存时间更长,不过存取相对频率低,因此数据带宽略低于中间结果,但可靠性要求更高。因此,将整个计算存储空间至少划分成两个不同的文件系统实例:计算文件系统和数据文件系统,保存不同类型的数据。
选用目前全球最佳可扩展性的并行文件系统—Lustre,该文件系统包括三个组件:Lustre客户端、元数据服务器(MDS)和对象存储服务器(OSS),所述存储配置以及优化策略实现步骤如下:
1)首先进行元数据服务环境的搭建,包括元数据服务器和元数据存储两部分; 
2)搭建对象存储服务环境:对象存储服务环境的功能组件是对象存储服务器和对象存储设备,其中,对象存储服务器接收和处理客户端的数据对象请求;对象存储设备保存Lustre文件系统的数据对象;对象存储服务环境采用I/O节点配合FC SAN存储环境的方式,计算文件系统和数据文件系统配置不同的节点数目,生物信息学计算的存储,按照1:1的比例分配计算文件系统和数据文件系统的比例;计算文件系统配置raid5,数据文件系统配置raid6;机器的配置要满足:CPU高主频,不少于8个物理核心,内存每核不低于4GB;
3)配置网络:IO节点配置IB HCA卡,IO节点和SAN存储系统通过光纤网络互连,IO节点和计算节点间通过IB交换机互连;
4)划分磁盘配额,可以将常用的共有数据,如数据库文件,参考序列等,以及常用软件划分一块空间,不同的课题组按照使用人数以及测序的频率等划分配额;
5)优化存储系统,针对不同情况分别采取下述存储系统优化方法:
a)自动精简存储容量:对于存储系统中存储着大量内容为空的文件,采用Linux 自带的find命令和rm 命令组合解决;
存储系统中存储着大量内容为空的文件,产生的原因是用户忘了删除,或是掉电后,内存中的内容没有及时地写入到文件,导致了文件虽然存在,但是文件内容却不存在。由于文件内容。由于文件内容虽然为空,但是文件却占有存储空间,操作系统虽然具有空闲空间回收管理功能,但是不具备把一个存在文件名而文件内容为空的文件删除。
b ) 存储系统中的数据副本,存储系统中存在着大量的数据副本,占据着大量的存储空间,是存储空间利用率低的一个主要原因。可以通过两个方法来删除重复数据:
第一个方法通过ls -alR directory >> tmpfile 命令将某个具体目录及其递归目录下的所有文件信息写入到临时文件中,然后通过扫描临时文件,对于相同大小的文件采用两个步骤来操作,一是读取它们的文件名看是否相同,如果相同则删除重复文件; 二是如果文件名不同但是大小相同则读取它们的一个固定的偏移量32 字节,判断它们是否相同,如果相同则删除其中的副本;
第二个方法通过简化多余目录来减少存储空间,例如某个目录下只用一个文件,可以把这个文件放到它的父目录里面,然后删除子目录;
c ) 选择性数据压缩:存储系统中存在着大量的文件,其中大部分文件都是没有经过压缩的,且存在着压缩空间,利用现有的技术( Linux 下tar) ,采用选择性的压缩,来减少存储空间。tar 是一个无损压缩,压缩比高。
在所述步骤1)中元数据服务环境的搭建,Lustre文件系统通过双机热备方式实现元数据服务的高可靠运行,计算文件系统和数据文件系统分别配置两台元数据服务器。
在所述步骤5)中存储系统优化方法c) 选择性数据压缩中,在压缩前采用一个过滤方法,过滤掉所有的多媒体文件,然后再进行压缩。主要原因是多媒体文件压缩比不高,而且解压需要大量空间,这样有效地降低了文件所占有的存储空间。
本发明的有益效果为:本发明结合目前生物信息学计算的特点,存储需求,提出计算平台的存储配置思路,以及存储优化方法,提供了生物信息学高性能计算平台存储方案,可以为集群方案配置提供参考,并给出存储优化的一些方法,可以作为存储系统优化的思路。
附图说明
图1为本发明配置及优化的流程图。
具体实施方式
下面参照附图,通过具体实施方式对本发明进一步说明:
1)首先进行元数据服务环境的搭建,由元数据服务器和元数据存储两部分组成,Lustre文件系统通过双机热备方式实现元数据服务的高可靠运行,计算文件系统和数据文件系统分别配置两台元数据服务器,元数据存储使用具有较高IOPS指标和Random Access性能的存储设备,建议使用SSD存储设备;
2)对象存储服务环境搭建,对象存储服务环境的功能组件是对象存储服务器和对象存储设备,其中,对象存储服务器接收和处理客户端的数据对象请求,对象存储设备保存Lustre文件系统的数据对象;对象存储服务环境采用I/O节点配合FC SAN存储环境的方式,计算文件系统和数据文件系统配置不同的节点数目,生物信息学计算的存储,按照1:1的比例分配计算文件系统和数据文件系统的比例;计算文件系统配置raid5,数据文件系统配置raid6;机器的配置要满足:CPU高主频,不少于8个物理核心,内存每核不低于4GB;
3) IO节点配置IB HCA卡,IO节点和SAN存储系统通过光纤网络互连,IO节点和计算节点间通过IB交换机互连;
4)划分磁盘配额,可以将常用的共有数据,如数据库文件,参考序列等,以及常用软件划分一块空间;不同的课题组按照使用人数以及测序的频率等划分配额;
5)存储系统优化:在存储系统运行过程中,随着使用时间的增加,会出现占用空间激增,或是出现重复数据等,可以采用下述优化存储系统方法:
a)自动精简存储容量。存储系统中存储着大量内容为空的文件,产生的原因是用户忘了删除,或是掉电后,内存中的内容没有及时地写入到文件,导致了文件虽然存在,但是文件内容却不存在。由于文件内容。由于文件内容虽然为空,但是文件却占有存储空间,操作系统虽然具有空闲空间回收管理功能,但是不具备把一个存在文件名而文件内容为空的文件删除。可以采用Linux 自带的find命令和rm 命令组合解决上述问题;
b)存储系统中存在着大量的数据副本,占据着大量的存储空间,是存储空间利用率低的一个主要原因。本文通过两个方法来删除重复数据,第一个方法通过ls -alR directory >> tmpfile 命令将某个具体目录及其递归目录下的所有文件信息写入到临时文件中,然后通过扫描临时文件,对于相同大小的文件采用两个步骤来操作,一是读取它们的文件名看是否相同,如果相同则删除重复文件; 二是如果文件名不同但是大小相同则读取它们的一个固定的偏移量32 字节,判断它们是否相同,如果相同则删除其中的副本。第二个方法通过简化多余目录来减少存储空间,例如某个目录下只用一个文件,可以把这个文件放到它的父目录里面,然后删除子目录。
c)选择性数据压缩:存储系统中存在着大量的文件,其中大部分文件都是没有经过压缩的,且存在着压缩空间,利用现有的技术( Linux 下tar) ,采用选择性的压缩,来减少存储空间。tar 是一个无损压缩,压缩比高。在压缩前采用一个过滤方法,过滤掉所有的多媒体文件,然后再进行压缩。主要原因是多媒体文件压缩比不高,而且解压需要大量空间,这样有效地降低了文件所占有的存储空间。

Claims (4)

1.一种生物信息学高性能计算平台的存储配置以及优化策略,其特征在于:先确定适用于生物信息学平台的的存储方案配置,再确定存储空间,存储节点内和计算节点的网络链接方式,磁盘配额的设定,磁盘区间划分;对于存储性能优化方面使用自动精简存储容量、重复数据删除、选择性数据压缩方法对存储系统进行优化。
2.根据权利要求1所述的一种生物信息学高性能计算平台的存储配置以及优化策略,其特征在于:选用可扩展性的并行文件系统Lustre,所述存储配置以及优化策略实现步骤如下:
1)首先进行元数据服务环境的搭建,包括元数据服务器和元数据存储两部分, 
2)搭建对象存储服务环境:对象存储服务环境的功能组件是对象存储服务器和对象存储设备,其中,对象存储服务器接收和处理客户端的数据对象请求;对象存储设备保存Lustre文件系统的数据对象;对象存储服务环境采用I/O节点配合FC SAN存储环境的方式,计算文件系统和数据文件系统配置不同的节点数目,生物信息学计算的存储,按照1:1的比例分配计算文件系统和数据文件系统的比例;计算文件系统配置raid5,数据文件系统配置raid6;机器的配置要满足:CPU高主频,不少于8个物理核心,内存每核不低于4GB;
3)配置网络:IO节点配置IB HCA卡,IO节点和SAN存储系统通过光纤网络互连,IO节点和计算节点间通过IB交换机互连;
4)划分磁盘配额,将常用的共有数据划分一块空间,不同的课题组按照使用人数以及测序的频率等划分配额;
5)优化存储系统,针对不同情况分别采取下述存储系统优化方法:
a)自动精简存储容量:对于存储系统中存储着大量内容为空的文件,采用Linux 自带的find命令和rm 命令组合解决;
b ) 存储系统中的数据副本,通过下述两个方法来删除重复数据:
第一个方法通过ls -alR directory >> tmpfile 命令将某个具体目录及其递归目录下的所有文件信息写入到临时文件中,然后通过扫描临时文件,对于相同大小的文件采用两个步骤来操作,一是读取它们的文件名看是否相同,如果相同则删除重复文件; 二是如果文件名不同但是大小相同则读取它们的一个固定的偏移量32 字节,判断它们是否相同,如果相同则删除其中的副本;
第二个方法通过简化多余目录来减少存储空间;
c ) 选择性数据压缩:存储系统中存在着大量的文件,其中大部分文件都是没有经过压缩的,且存在着压缩空间,利用现有的技术( Linux 下tar) ,采用选择性的压缩,来减少存储空间。
3.根据权利要求2所述的一种生物信息学高性能计算平台的存储配置以及优化策略,其特征在于:在所述步骤1)中元数据服务环境的搭建,Lustre文件系统通过双机热备方式实现元数据服务的高可靠运行,计算文件系统和数据文件系统分别配置两台元数据服务器。
4.根据权利要求2或3所述的一种生物信息学高性能计算平台的存储配置以及优化策略,其特征在于:在所述步骤5)中存储系统优化方法c) 选择性数据压缩中,在压缩前采用一个过滤方法,过滤掉所有的多媒体文件,然后再进行压缩。
CN201410203845.0A 2014-05-15 2014-05-15 一种生物信息学高性能计算平台的存储配置以及优化策略 Pending CN103984507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410203845.0A CN103984507A (zh) 2014-05-15 2014-05-15 一种生物信息学高性能计算平台的存储配置以及优化策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410203845.0A CN103984507A (zh) 2014-05-15 2014-05-15 一种生物信息学高性能计算平台的存储配置以及优化策略

Publications (1)

Publication Number Publication Date
CN103984507A true CN103984507A (zh) 2014-08-13

Family

ID=51276502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410203845.0A Pending CN103984507A (zh) 2014-05-15 2014-05-15 一种生物信息学高性能计算平台的存储配置以及优化策略

Country Status (1)

Country Link
CN (1) CN103984507A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243443A (zh) * 2015-11-16 2016-01-13 国网天津市电力公司 一种大型企业非结构化平台的性能优化方法
CN105573677A (zh) * 2015-12-16 2016-05-11 浪潮(北京)电子信息产业有限公司 一种高效存储的实现方法
CN108845764A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种io数据的处理方法及装置
CN109254731A (zh) * 2018-08-29 2019-01-22 郑州云海信息技术有限公司 一种存储空间处理的方法和装置
CN109753243A (zh) * 2018-12-26 2019-05-14 深圳市网心科技有限公司 副本部署方法、云服务器及存储介质
CN110275865A (zh) * 2019-06-20 2019-09-24 珠海天燕科技有限公司 文件存储优化方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324577A (zh) * 2013-06-08 2013-09-25 北京航空航天大学 基于最小化io访问冲突和文件分条的大规模分条文件分配系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324577A (zh) * 2013-06-08 2013-09-25 北京航空航天大学 基于最小化io访问冲突和文件分条的大规模分条文件分配系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
尤红桃 等: "Linux下高效存储优化的研究", 《计算机与现代化》 *
王勇涛: "《中国优秀硕士学位论文全文数据库》", 31 January 2014 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243443A (zh) * 2015-11-16 2016-01-13 国网天津市电力公司 一种大型企业非结构化平台的性能优化方法
CN105573677A (zh) * 2015-12-16 2016-05-11 浪潮(北京)电子信息产业有限公司 一种高效存储的实现方法
CN108845764A (zh) * 2018-05-30 2018-11-20 郑州云海信息技术有限公司 一种io数据的处理方法及装置
CN109254731A (zh) * 2018-08-29 2019-01-22 郑州云海信息技术有限公司 一种存储空间处理的方法和装置
CN109753243A (zh) * 2018-12-26 2019-05-14 深圳市网心科技有限公司 副本部署方法、云服务器及存储介质
CN110275865A (zh) * 2019-06-20 2019-09-24 珠海天燕科技有限公司 文件存储优化方法和装置
CN110275865B (zh) * 2019-06-20 2021-08-27 珠海天燕科技有限公司 文件存储优化方法和装置

Similar Documents

Publication Publication Date Title
US11593037B2 (en) File system block-level tiering and co-allocation
CN102332029B (zh) 一种基于Hadoop 的海量可归类小文件关联存储方法
US11586366B2 (en) Managing deduplication characteristics in a storage system
CN103984507A (zh) 一种生物信息学高性能计算平台的存储配置以及优化策略
CN101567003B (zh) 并行文件系统中资源的管理和分配方法
CN103116661B (zh) 一种数据库的数据处理方法
Hauglid et al. DYFRAM: dynamic fragmentation and replica management in distributed database systems
CN104462389B (zh) 基于分级存储的分布式文件系统实现方法
KR20170054299A (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
CN104239377A (zh) 跨平台的数据检索方法及装置
CN103176754A (zh) 一种海量小文件读取存储方法
CN101963977A (zh) 无城市搜索方法及移动终端
CN116185308B (zh) 一种数据集处理方法、装置、设备、介质及模型训练系统
Lu et al. TridentKV: A read-optimized LSM-tree based KV store via adaptive indexing and space-efficient partitioning
CN117677943A (zh) 用于混合数据处理的数据一致性机制
CN104391961A (zh) 千万级小文件数据的一种读写解决策略
CN113609090B (zh) 数据存储方法及装置、计算机可读存储介质、电子设备
CN104375782A (zh) 千万级小文件数据的一种读写解决方法
CN104331525B (zh) 基于重复数据删除的共享方法
Lu et al. Design and implementation of the tianhe-2 data storage and management system
US8818970B2 (en) Partitioning a directory while accessing the directory
Blamey et al. Adapting the secretary hiring problem for optimal hot-cold tier placement under top-K workloads
CN103970671B (zh) 用于在存储器中分配管理数据集的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140813

RJ01 Rejection of invention patent application after publication