CN103984507A

CN103984507A - 一种生物信息学高性能计算平台的存储配置以及优化策略

Info

Publication number: CN103984507A
Application number: CN201410203845.0A
Authority: CN
Inventors: 金莲
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2014-08-13

Abstract

本发明公开了一种生物信息学高性能计算平台的存储配置以及优化策略，先确定适用于生物信息学平台的的存储方案配置，确定存储空间，存储节点内和计算节点的网络链接方式，磁盘配额的设定，磁盘区间划分；对于存储性能优化方面使用自动精简存储容量、重复数据删除、选择性数据压缩方法对存储系统进行优化。本发明结合目前生物信息学计算的特点，存储需求，提出计算平台的存储配置思路，以及存储优化方法，提供了生物信息学高性能计算平台存储方案，可以为集群方案配置提供参考，并给出存储优化的一些方法，可以作为存储系统优化的思路。

Description

一种生物信息学高性能计算平台的存储配置以及优化策略

技术领域

本发明涉及一种生物信息学高性能计算平台的存储配置思路以及存储优化策略，属于计算机科学和生物信息学的交叉学科。

技术背景

生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术（尤其是互联网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。目前主要的研究方向有：序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测，以及建立进化模型。

生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。

在基因组学研究方向，测序技术是重要的研究手段，对于测序数据的分析就需要借助高性能计算平台完成，且需要一个高性能、高可扩展的统一数据存储池，来提供大数据的持续访问、处理、加工和共享等功能，也要对存储池进行优化的配置以及合理的管理。

由于二代测序数据激增，近年生物信息的数据存储已经成为生物信息学者，高性能计算制造者，存储生成商头痛的问题，因为没有一套完善的方案能够解决生物信息数据量大，读写频繁，数据安全，数据备份等诸多问题，因此存储是生物信息学集群的主要瓶颈。由于熟悉生物信息学的专家不熟悉具体的计算系统的配置，高性能计算专家对生物信息分析的流程和资源需求也知之甚少，所以设计生物信息学的存储配置方案以及优化方法十分必要。

本发明主要就生物信息计算中存储这一主要瓶颈展开说明，首先提出一种存储配置策略，随后给出存储优化方法。

由于生物信息学的数据量增长迅速，数据读写频繁，用户量大，并发度高，且有大量的中间文件存放，输出文件保存时间长，因此存储方案选择是需要满足大容量，高性能，高可用，可扩展，可管理，按需服务的特点。目前常用的NFS文件系统，由于扩展性差，维护困难的特点，很难满足生物信息学集群的需求。

发明内容

本发明要解决的技术问题是：提出一种生物信息学计算平台的存储配置方案，并提出存储系统的优化方案。

本发明所采用的技术方案为：

一种生物信息学高性能计算平台的存储配置以及优化策略，先确定适用于生物信息学平台的的存储方案配置，确定存储空间，存储节点内和计算节点的网络链接方式，磁盘配额的设定，磁盘区间划分；对于存储性能优化方面使用自动精简存储容量、重复数据删除、选择性数据压缩方法对存储系统进行优化。

在生物信息学计算中数据主要分为短生命周期数据和长生命周期数据两类。短生命周期周期数据主要是计算过程生成的中间结果数据，长生命周期数据是计算的原始数据和计算结果数据。不同类型的数据对服务品质的要求大相径庭：计算中间结果数据生命周期很短，使用后就可以清除，不过中间结果数据存取更为频繁，容量也比原始数据和结果数据大很多，因此更看重数据带宽和存储容量。原始数据和最终结果数据比中间结果数据保存时间更长，不过存取相对频率低，因此数据带宽略低于中间结果，但可靠性要求更高。因此，将整个计算存储空间至少划分成两个不同的文件系统实例：计算文件系统和数据文件系统，保存不同类型的数据。

选用目前全球最佳可扩展性的并行文件系统—Lustre，该文件系统包括三个组件：Lustre客户端、元数据服务器（MDS）和对象存储服务器（OSS），所述存储配置以及优化策略实现步骤如下：

1）首先进行元数据服务环境的搭建，包括元数据服务器和元数据存储两部分；

2）搭建对象存储服务环境：对象存储服务环境的功能组件是对象存储服务器和对象存储设备，其中，对象存储服务器接收和处理客户端的数据对象请求；对象存储设备保存Lustre文件系统的数据对象；对象存储服务环境采用I/O节点配合FC SAN存储环境的方式，计算文件系统和数据文件系统配置不同的节点数目，生物信息学计算的存储，按照1:1的比例分配计算文件系统和数据文件系统的比例；计算文件系统配置raid5，数据文件系统配置raid6；机器的配置要满足：CPU高主频，不少于8个物理核心，内存每核不低于4GB；

3）配置网络：IO节点配置IB HCA卡，IO节点和SAN存储系统通过光纤网络互连，IO节点和计算节点间通过IB交换机互连；

4）划分磁盘配额，可以将常用的共有数据，如数据库文件，参考序列等，以及常用软件划分一块空间，不同的课题组按照使用人数以及测序的频率等划分配额；

5）优化存储系统，针对不同情况分别采取下述存储系统优化方法：

a)自动精简存储容量：对于存储系统中存储着大量内容为空的文件，采用Linux 自带的find命令和rm 命令组合解决；

存储系统中存储着大量内容为空的文件，产生的原因是用户忘了删除，或是掉电后，内存中的内容没有及时地写入到文件，导致了文件虽然存在，但是文件内容却不存在。由于文件内容。由于文件内容虽然为空，但是文件却占有存储空间，操作系统虽然具有空闲空间回收管理功能，但是不具备把一个存在文件名而文件内容为空的文件删除。

b ) 存储系统中的数据副本，存储系统中存在着大量的数据副本，占据着大量的存储空间，是存储空间利用率低的一个主要原因。可以通过两个方法来删除重复数据：

第一个方法通过ls -alR directory >> tmpfile 命令将某个具体目录及其递归目录下的所有文件信息写入到临时文件中，然后通过扫描临时文件，对于相同大小的文件采用两个步骤来操作，一是读取它们的文件名看是否相同，如果相同则删除重复文件; 二是如果文件名不同但是大小相同则读取它们的一个固定的偏移量32 字节，判断它们是否相同，如果相同则删除其中的副本；

第二个方法通过简化多余目录来减少存储空间，例如某个目录下只用一个文件，可以把这个文件放到它的父目录里面，然后删除子目录；

c ) 选择性数据压缩：存储系统中存在着大量的文件，其中大部分文件都是没有经过压缩的，且存在着压缩空间，利用现有的技术( Linux 下tar) ，采用选择性的压缩，来减少存储空间。tar 是一个无损压缩，压缩比高。

在所述步骤1）中元数据服务环境的搭建，Lustre文件系统通过双机热备方式实现元数据服务的高可靠运行，计算文件系统和数据文件系统分别配置两台元数据服务器。

在所述步骤5）中存储系统优化方法c) 选择性数据压缩中，在压缩前采用一个过滤方法，过滤掉所有的多媒体文件，然后再进行压缩。主要原因是多媒体文件压缩比不高，而且解压需要大量空间，这样有效地降低了文件所占有的存储空间。

本发明的有益效果为：本发明结合目前生物信息学计算的特点，存储需求，提出计算平台的存储配置思路，以及存储优化方法，提供了生物信息学高性能计算平台存储方案，可以为集群方案配置提供参考，并给出存储优化的一些方法，可以作为存储系统优化的思路。

附图说明

图1为本发明配置及优化的流程图。

具体实施方式

下面参照附图，通过具体实施方式对本发明进一步说明：

1)首先进行元数据服务环境的搭建，由元数据服务器和元数据存储两部分组成，Lustre文件系统通过双机热备方式实现元数据服务的高可靠运行，计算文件系统和数据文件系统分别配置两台元数据服务器，元数据存储使用具有较高IOPS指标和Random Access性能的存储设备，建议使用SSD存储设备；

2)对象存储服务环境搭建，对象存储服务环境的功能组件是对象存储服务器和对象存储设备，其中，对象存储服务器接收和处理客户端的数据对象请求，对象存储设备保存Lustre文件系统的数据对象；对象存储服务环境采用I/O节点配合FC SAN存储环境的方式，计算文件系统和数据文件系统配置不同的节点数目，生物信息学计算的存储，按照1:1的比例分配计算文件系统和数据文件系统的比例；计算文件系统配置raid5，数据文件系统配置raid6；机器的配置要满足：CPU高主频，不少于8个物理核心，内存每核不低于4GB；

3) IO节点配置IB HCA卡，IO节点和SAN存储系统通过光纤网络互连，IO节点和计算节点间通过IB交换机互连；

4)划分磁盘配额，可以将常用的共有数据，如数据库文件，参考序列等，以及常用软件划分一块空间；不同的课题组按照使用人数以及测序的频率等划分配额；

5)存储系统优化：在存储系统运行过程中，随着使用时间的增加，会出现占用空间激增，或是出现重复数据等，可以采用下述优化存储系统方法:

a)自动精简存储容量。存储系统中存储着大量内容为空的文件，产生的原因是用户忘了删除，或是掉电后，内存中的内容没有及时地写入到文件，导致了文件虽然存在，但是文件内容却不存在。由于文件内容。由于文件内容虽然为空，但是文件却占有存储空间，操作系统虽然具有空闲空间回收管理功能，但是不具备把一个存在文件名而文件内容为空的文件删除。可以采用Linux 自带的find命令和rm 命令组合解决上述问题；

b)存储系统中存在着大量的数据副本，占据着大量的存储空间，是存储空间利用率低的一个主要原因。本文通过两个方法来删除重复数据，第一个方法通过ls -alR directory >> tmpfile 命令将某个具体目录及其递归目录下的所有文件信息写入到临时文件中，然后通过扫描临时文件，对于相同大小的文件采用两个步骤来操作，一是读取它们的文件名看是否相同，如果相同则删除重复文件; 二是如果文件名不同但是大小相同则读取它们的一个固定的偏移量32 字节，判断它们是否相同，如果相同则删除其中的副本。第二个方法通过简化多余目录来减少存储空间，例如某个目录下只用一个文件，可以把这个文件放到它的父目录里面，然后删除子目录。

c)选择性数据压缩：存储系统中存在着大量的文件，其中大部分文件都是没有经过压缩的，且存在着压缩空间，利用现有的技术( Linux 下tar) ，采用选择性的压缩，来减少存储空间。tar 是一个无损压缩，压缩比高。在压缩前采用一个过滤方法，过滤掉所有的多媒体文件，然后再进行压缩。主要原因是多媒体文件压缩比不高，而且解压需要大量空间，这样有效地降低了文件所占有的存储空间。

Claims

1.一种生物信息学高性能计算平台的存储配置以及优化策略，其特征在于：先确定适用于生物信息学平台的的存储方案配置，再确定存储空间，存储节点内和计算节点的网络链接方式，磁盘配额的设定，磁盘区间划分；对于存储性能优化方面使用自动精简存储容量、重复数据删除、选择性数据压缩方法对存储系统进行优化。

2.根据权利要求1所述的一种生物信息学高性能计算平台的存储配置以及优化策略，其特征在于：选用可扩展性的并行文件系统Lustre，所述存储配置以及优化策略实现步骤如下：

1）首先进行元数据服务环境的搭建，包括元数据服务器和元数据存储两部分，

4）划分磁盘配额，将常用的共有数据划分一块空间，不同的课题组按照使用人数以及测序的频率等划分配额；

b ) 存储系统中的数据副本，通过下述两个方法来删除重复数据：

第二个方法通过简化多余目录来减少存储空间；

c ) 选择性数据压缩：存储系统中存在着大量的文件，其中大部分文件都是没有经过压缩的，且存在着压缩空间，利用现有的技术( Linux 下tar) ，采用选择性的压缩，来减少存储空间。

3.根据权利要求2所述的一种生物信息学高性能计算平台的存储配置以及优化策略，其特征在于：在所述步骤1）中元数据服务环境的搭建，Lustre文件系统通过双机热备方式实现元数据服务的高可靠运行，计算文件系统和数据文件系统分别配置两台元数据服务器。

4.根据权利要求2或3所述的一种生物信息学高性能计算平台的存储配置以及优化策略，其特征在于：在所述步骤5）中存储系统优化方法c) 选择性数据压缩中，在压缩前采用一个过滤方法，过滤掉所有的多媒体文件，然后再进行压缩。