CN104391961A

CN104391961A - 千万级小文件数据的一种读写解决策略

Info

Publication number: CN104391961A
Application number: CN201410718009.6A
Authority: CN
Inventors: 张砚波; 吴丙涛
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2015-03-04

Abstract

本发明提供一种千万级小文件数据的一种读写解决策略，设计在存储小文件时通过采用开辟大块的连续磁盘空间的方式来存储大量的小文件；首先将磁盘空间划分为多个块，大文件的连续磁盘空间就由这一系列块所组成，遇到的文件比较小时，每个小文件只能存放在单个块中，不能跨越2个块存放，每个文件数据都存放在连续的磁盘空间上。本发明主要是通过将逻辑上连续的小文件数据尽可能的存储在物理磁盘的连续空间之内，这样就提高用户对文件访问的并发性操作，从而提高了小文件的访问性能；采用Cache技术充当元数据服务器的角色，同时通过设计一种简化的小文件信息节点数据结构Node，大大提高Cache利用率和小文件读取性能。

Description

千万级小文件数据的一种读写解决策略

技术领域

本发明涉及计算机应用技术领域，具体地说是一种千万级小文件数据的一种读写解决策略。

背景技术

在现阶段的读取、存储领域小文件是数据访问、使用的最常见的数据形式。相对于大文件的条带化技术进行切片，来提高用户对文件访问的并发性，小文件（≤64KB）由于其不利于条带化，传统的方法一般是采用将单个文件存储在单个数据服务器上的策略，但是当小文件的数量到达一定程度之后，对小文件的大量地重复访问将会给数据服务器带来性能上的负担及I/O瓶颈问题，由于互联网上的数据信息大多以高频率的小文件形式表现出来，而且在一般用户的信息读取、存储中，对小文件的读取、存储较多，因此对互联网上高频率的小文件读/写性能的研究有重要的现实意义。

在现阶段，传统的针对千万级小文件的处理、操作等管理上主要存在以下3个方面的问题：

1、由于小文件的访问频率较高，需要多次访问磁盘，所以磁盘I/O的性能较低；

2、因为文件比较小，容易形成文件碎片而造成磁盘空间的浪费；

3、为每个小文件请求建立一个连接时容易产生网络时延，降低了小文件的读取速率。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种千万级小文件数据的一种读写解决策略。

本发明的技术方案是按以下方式实现的，其特点是设计在存储小文件时通过采用开辟大块的连续磁盘空间的方式来存储大量的小文件；首先将磁盘空间划分为多个块，每个块的大小为64KB，大文件的连续磁盘空间就由这一系列块所组成，当遇到的文件比较小时，每个小文件只能存放在单个块中，不能跨越2个块存放，每个文件数据都存放在连续的磁盘空间上，在一个块中存放多个小文件A1，A2，A3，A4和A5为5个文件，文件与文件之间连续存放， A1与A2，A3与A4，红色部分为此块的碎片，当出现文件的大小小于这些碎片的大小时，应优先把文件存放在这些碎片中，本发明的存储布局中设计的是将逻辑上连续的数据尽可能地存储在物理磁盘的连续空间上，将同一个文件的数据或将同一个文件夹下的文件数据尽可能地存储在连续的磁盘空间块上，每一个文件夹将拥有一个或多个块，这些块都只存放此文件夹的文件；

在本系统的数据存储结构中，我们将文件信息节点的属性信息存放在元数据服务器上，在I/O服务器上，只需要知道文件的磁盘空间信息即可进行访问，在I/O服务器上，只需要记录文件的磁盘空间信息，而不需要记录文件的其他属性；对Node的数据结构进行简化设计，只保留文件的磁盘空间信息以及属于它的少量数据成员；

针对本系统的数据存储访问频率问题，首先，设计一个全局变量NodeList，NodeList是对Node的一个排序链表，根据文件的访问频率进行排序，它是为了实现优化文件传输而设计的，为整个小文件读取、存储解决方案服务。NodeList是对与每个文件夹而服务的，根据文件夹里的每个文件的访问频率形成一个排序列表，当用户访问该文件夹里的某个文件时，系统会自动地将这个列表里高访问频率的文件一起发送过去设定一个高访问频率的阈值，并将所有访问频率高于的文件顺序分成多个组，每个组可能包含多个文件，组中所有文件大小之和不超过64KB，每当用户请求当前文件夹中的一个文件时，系统会按照顺序将一个组的文件一起发送过去，从而降低文件传输时延，，的计算公式如下：

为文件夹每个文件的访问频率，n为当前文件夹中的文件个数，Ｎ由用户自己设置数值。

本发明的优点是：

（1）、主要是通过将逻辑上连续的小文件数据尽可能的存储在物理磁盘的连续空间之内，这样就提高用户对文件访问的并发性操作，从而提高了小文件的访问性能；

（2）、采用Cache技术充当元数据服务器的角色，同时通过设计一种简化的小文件信息节点数据结构Node，大大提高Cache利用率和小文件读取性能；

（3）、设计的策略中针对充当元数据服务器的cache的频繁I/O请求，读取时采用提前发送批量的高访问率的小文件方式来降低频繁的I/O操作，提升了小文件传输性能，可以更好的为小文件用户提供更好服务。

实施方式

下面对本发明的千万级小文件数据的一种读写解决策略作以下详细说明。

本发明的千万级小文件数据的一种读写解决策略，本发明设计在存储小文件时通过采用开辟大块的连续磁盘空间的方式来存储大量的小文件；首先将磁盘空间划分为多个块，每个块的大小为64KB，大文件的连续磁盘空间就由这一系列块所组成，当遇到的文件比较小时，每个小文件只能存放在单个块中，不能跨越2个块存放，每个文件数据都存放在连续的磁盘空间上，在一个块中存放多个小文件A1，A2，A3，A4和A5为5个文件，文件与文件之间连续存放，A1与A2，A3与A4，红色部分为此块的碎片，当出现文件的大小小于这些碎片的大小时，应优先把文件存放在这些碎片中，本发明的存储布局中设计的是将逻辑上连续的数据尽可能地存储在物理磁盘的连续空间上，将同一个文件的数据或将同一个文件夹下的文件数据尽可能地存储在连续的磁盘空间块上，每一个文件夹将拥有一个或多个块，这些块都只存放此文件夹的文件；

本发明的千万级小文件数据的一种读写解决策略其加工制作非常简单方便，按照说明书所示即可加工。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.千万级小文件数据的一种读写解决策略，其特征在于设计在存储小文件时通过采用开辟大块的连续磁盘空间的方式来存储大量的小文件；首先将磁盘空间划分为多个块，每个块的大小为64KB，大文件的连续磁盘空间就由这一系列块所组成，当遇到的文件比较小时，每个小文件只能存放在单个块中，不能跨越2个块存放，每个文件数据都存放在连续的磁盘空间上，在一个块中存放多个小文件A1，A2，A3，A4和A5为5个文件，文件与文件之间连续存放， A1与A2，A3与A4，红色部分为此块的碎片，当出现文件的大小小于这些碎片的大小时，应优先把文件存放在这些碎片中，本发明的存储布局中设计的是将逻辑上连续的数据尽可能地存储在物理磁盘的连续空间上，将同一个文件的数据或将同一个文件夹下的文件数据尽可能地存储在连续的磁盘空间块上，每一个文件夹将拥有一个或多个块，这些块都只存放此文件夹的文件；

针对本系统的数据存储访问频率问题，首先，设计一个全局变量NodeList，NodeList是对Node的一个排序链表，根据文件的访问频率进行排序，它是为了实现优化文件传输而设计的，为整个小文件读取、存储解决方案服务；

NodeList是对与每个文件夹而服务的，根据文件夹里的每个文件的访问频率形成一个排序列表，当用户访问该文件夹里的某个文件时，系统会自动地将这个列表里高访问频率的文件一起发送过去设定一个高访问频率的阈值，并将所有访问频率高于的文件顺序分成多个组，每个组可能包含多个文件，组中所有文件大小之和不超过64KB，每当用户请求当前文件夹中的一个文件时，系统会按照顺序将一个组的文件一起发送过去，从而降低文件传输时延，，的计算公式如下：