CN105354250A

CN105354250A - 一种面向云存储的数据存储方法及装置

Info

Publication number: CN105354250A
Application number: CN201510673883.7A
Authority: CN
Inventors: 魏坤
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-10-16
Filing date: 2015-10-16
Publication date: 2016-02-24

Abstract

本发明公开了一种面向云存储的数据存储方法及装置，包括：接收客户端发起的数据写请求；获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中；在HDFS存储节点上创建新的数据块；根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。本发明所提供的面向云存储的数据存储方法及装置中，控制流和数据流是分离的，这样一方面降低了MongoDB元数据服务的负担，使得其处理能力更强，另一方面将数据读写的负担分担到各存储节点，使得系统的整体性能得到了提高。

Description

一种面向云存储的数据存储方法及装置

技术领域

本发明涉及云计算数据技术领域，特别是涉及一种面向云存储的数据存储方法及装置。

背景技术

云存储是是一种新兴的网络存储技术，是指通过集群应用、网络技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时，云计算系统中就需要配置大量的存储设备，那么云计算系统就转变成为一个云存储系统，所以云存储是一个以数据存储和管理为核心的云计算系统。简单来说，云存储就是将储存资源放到云上供人存取的一种新兴方案。使用者可以在任何时间、任何地方，透过任何可连网的装置连接到云上方便地存取数据。

由于云存储服务面向的是用户，以用户为单位。因此在Hadoop上即HDFS架构的基础上，引入MongoDB非关系型数据库进行相应的改进，能够优化HDFS的存储。

发明内容

本发明的目的是提供一种面向云存储的数据存储方法及装置，目的在于在Hadoop云平台上搭建HDFS和MongoDB存储系统来实现非结构化海量资源的存储。

为解决上述技术问题，本发明提供一种面向云存储的数据存储方法，包括：

接收客户端发起的数据写请求；

获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中；

在HDFS存储节点上创建新的数据块；

根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。

可选地，所述获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中包括：

获取所述客户端的用户的元数据信息、文件存储大小以及偏移值，将所述元数据信息、所述文件存储大小以及偏移值保存至所述MongoDB非关系型数据库中。

可选地，所述在HDFS存储节点上创建新的数据块包括：

MongoDB元数据服务器根据各个HDFS存储节点的工作和使用信息，基于负载均衡原理，在所述HDFS存储节点上创建新的数据块。

可选地，所述根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储包括：

所述客户端根据得到的HDFS存储节点的信息，向对应HDFS存储节点发出数据写请求，并向所述HDFS存储节点发送数据；

所述HDFS存储节点接收所述数据并存储到对应数据块，同时向其他存储节点进行备份；

当本地写以及备份成功后，所述HDFS存储节点将成功信息返回至所述客户端。

可选地，还包括：

当集合的数据量较大时，采用自动分片的方式进行数据处理。

本发明还提供了一种面向云存储的数据存储装置，包括：

接收模块，用于接收客户端发起的数据写请求；

获取模块，用于获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中；

创建模块，用于在HDFS存储节点上创建新的数据块；

存储模块，用于根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。

可选地，所述获取模块具体用于：获取所述客户端的用户的元数据信息、文件存储大小以及偏移值，将所述元数据信息、所述文件存储大小以及偏移值保存至所述MongoDB非关系型数据库中。

可选地，所述创建模块具体用于：根据各个HDFS存储节点的工作和使用信息，基于负载均衡原理，在所述HDFS存储节点上创建新的数据块。

可选地，所述存储模块包括：

发送单元，用于根据得到的HDFS存储节点的信息，向对应HDFS存储节点发出数据写请求，并向所述HDFS存储节点发送数据；

备份单元，用于接收所述数据并存储到对应数据块，同时向其他存储节点进行备份；

返回单元，用于当本地写以及备份成功后，所述HDFS存储节点将成功信息返回至所述客户端。

可选地，还包括：

分片模块，用于当集合的数据量较大时，采用自动分片的方式进行数据处理。

本发明所提供的面向云存储的数据存储方法及装置，通过接收客户端发起的数据写请求，获取客户端的用户的元数据信息，并将该元数据信息保存至MongoDB非关系型数据库中；在HDFS存储节点上创建新的数据块；根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。本发明所提供的面向云存储的数据存储方法及装置中，控制流和数据流是分离的，这样一方面降低了MongoDB元数据服务的负担，使得其处理能力更强，另一方面将数据读写的负担分担到各存储节点，使得系统的整体性能得到了提高。

附图说明

图1为本发明所提供的面向云存储的数据存储方法的一种具体实施方式的流程图；

图2为本发明所提供的面向云存储的数据存储方法的另一种具体实施方式的流程图；

图3为本发明所提供的面向云存储的数据存储装置的一种具体实施方式的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的面向云存储的数据存储方法的一种具体实施方式的流程图如图1所述，该方法包括：

步骤S101：接收客户端发起的数据写请求；

步骤S102：获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中；

作为一种具体实施方式，步骤S102可以为：获取所述客户端的用户的元数据信息、文件存储大小以及偏移值，将所述元数据信息、所述文件存储大小以及偏移值保存至所述MongoDB非关系型数据库中。

步骤S103：在HDFS存储节点上创建新的数据块；

步骤S104：根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。

本发明所提供的面向云存储的数据存储方法，通过接收客户端发起的数据写请求，获取客户端的用户的元数据信息，并将该元数据信息保存至MongoDB非关系型数据库中；在HDFS存储节点上创建新的数据块；根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。本发明所提供的面向云存储的数据存储方法及装置中，控制流和数据流是分离的，这样一方面降低了MongoDB元数据服务的负担，使得其处理能力更强，另一方面将数据读写的负担分担到各存储节点，使得系统的整体性能得到了提高。

具体地，本发明在原有HDFS架构的基础上，采用MongoDB存储每个用户数据的元数据信息，用HDFS存储实际的数据。在云存储系统中，当新用户成功注册后，在HDFS中为该用户建立一个专有的用户文件userlD.file，用户文件中存放该用户所有的数据，用户文件名与用户ID—一对应。用户文件中的所有数据的详细元数据信息则存储在MongoDB中，MongoDB中的数据结构记录了每个用户的所有数据在该用户文件中的偏移值(offset)和大小(length)，具体定义为userld.meta。

当用户需要在HDFS添加一个非结构化数据文件时，应用服务器获取该用户的的元数据信息，获知该用户的文件存储大小，以作为新添加文件的偏移值。新的文件元数据信息，连同该文件的偏移值和大小等信息作为一条记录写入MongoDB数据结构中。然后应用服务器获取HDFS系统上该用户文件的输出流，以追加的方式将新添加的文件写入到该用户文件中。

请参照图2，图2为本发明所提供的面向云存储的数据存储方法的另一种具体实施方式的流程图，该方法包括：

步骤S201：客户端向MongoDB元数据服务器发起数据写请求；

步骤S202：MongoDB元数据服务器根据其管理的存储节点的工作和使用情况，根据负载均衡的原理，在HDFS存储节点上创建一些新的数据块；

步骤S203：HDFS存储节点服务器创建成功，将结果返回给MongoDB元数据服务器；

步骤S204：MongoDB元数据服务器一方面备份和同步此元数据信息，另一方面将相关存储节点信息返回给客户端；

步骤S205：客户端根据得到的HDFS存储节点信息，向对应HDFS存储节点发出数据写请求，并向HDFS存储节点发送数据；

步骤S206：HDFS存储节点接收数据并存储到相应块，同时也向其他存储节点发起备份；

步骤S207：当本地写以及备份均成功后，HDFS存储节点将成功信息返回给客户端；

步骤S208：客户端收到成功信号后，即完成数据的存储。

当用户读文件时，先向MongoDB服务器发送请求，获取该文件的相关元数据信息，根据所读文件的偏移值和文件大小，获取HDFS中用户文件的输入流，从而读出文件。

作为一种优选实施方式，本发明实施例还可以进一步包括：

本发明所提供的面向云存储的数据存储装置的一种具体实施方式的结构框图如图3所示，该装置包括：

接收模块100，用于接收客户端发起的数据写请求；

获取模块200，用于获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中；

创建模块300，用于在HDFS存储节点上创建新的数据块；

存储模块400，用于根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储。

上述获取模块200可以具体用于：获取所述客户端的用户的元数据信息、文件存储大小以及偏移值，将所述元数据信息、所述文件存储大小以及偏移值保存至所述MongoDB非关系型数据库中。

上述创建模块300可以具体用于：根据各个HDFS存储节点的工作和使用信息，基于负载均衡原理，在所述HDFS存储节点上创建新的数据块。

上述存储模块400可以具体包括：

此外，本发明所提供的装置还可以进一步包括：

本发明所提供的面向云存储的数据存储装置与上述方法相对应，可相互参照，在此不再赘述。

基于本发明提供的面向云存储的数据存储方法及装置所建立的非结构化云存储平台具体可以包括：

Client：包含访问MongoDB的接口，维护缓存数据来加快数据的访问速度，如集合位置信息。

协调服务：任何时候保证集群中只有一个控制节点，存储所有集合的寻址入口；实时监控集合服务的状态，将集合服务的状态信息实时发送控制节点；存储和管理MongoDB的模式信息，包括有哪些集合，每个集合有哪些文档。

控制节点：分配集合空间，负责元数据存储的负载均衡；发现失效的数据节点时，进行故障转移；处理MongoDB上的垃圾文件回收和schema更新请求。

集合服务：数据的I/O请求；对数据量较大的集合进行自动分片。

从实际的实验数据可以看出，未引入MongoDB的HDFS文件系统，文件数量从10万到50万不等，NameNode中所存储的文件相关元数据信息也是相应的数据量级。每条元数据记录都要消耗100字节左右的内存空间。因此，随着文件数量的不断增加，NameNode节点的内存消耗也呈线性增长趋势。而在引入MongoDB后，MongoDB存储了所有用户的文件元数据信息，NameNode节点元数据数量只是相应的用户数量。实验数据显示，即使文件数量等比增加，NameNode节点的内存消耗基本保持不变，内存占用率也并不高。实验结果还表明，采用MongoDB和HDFS结合的方案，对缓解NameNode节点的内存耗费有很好的改进。

综上所述，本发明在原有HDFS架构的基础上，引入MongoDB非关系型数据库进行改进，优化了HDFS的存储。具体地，其具有以下优点：

一是MongoDB存储架构具有高可靠性、高并发、高效存储等功能特性，访问速度比关系型数据库更加优越，并且提供了丰富的查询检索方案，可以很好的满足非结构化数据的元数据信息的需求，在文档中添加字段非常方便；

二是提供自动分片机制，不同的Shard之间的数据可以负载均衡；基于低成本的水平扩展模式，所有的内部机制对客户端都是透明的，相对于传统的纵向扩展方式，系统具有更好的数据处理性能和可靠性；

三是MongoDB的数据底层实现是列式存储，与关系数据库不同，即使某个文档记录包含空列，也不会占用实际的资源空间，MongoDB存储可以大大节省存储资源；

四是传统关系型数据库无法部署在集群中，若采用数据库的形式存放用户空间元数据信息不仅可能造成因数据库访问开销而造成的性能延迟，而且也有可能因为单点限制的问题，使数据库成为了整个方案架构的性能瓶颈，引入MongoDB能够比较好地解决单点限制问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向云存储的数据存储方法，其特征在于，包括：

接收客户端发起的数据写请求；

在HDFS存储节点上创建新的数据块；

2.如权利要求1所述的面向云存储的数据存储方法，其特征在于，所述获取所述客户端的用户的元数据信息，并将所述元数据信息保存至MongoDB非关系型数据库中包括：

3.如权利要求2所述的面向云存储的数据存储方法，其特征在于，所述在HDFS存储节点上创建新的数据块包括：

4.如权利要求1至3任一项所述的面向云存储的数据存储方法，其特征在于，所述根据得到的HDFS存储节点的信息，向对应HDFS存储节点发送数据，以进行存储包括：

5.如权利要求4所述的面向云存储的数据存储方法，其特征在于，还包括：

6.一种面向云存储的数据存储装置，其特征在于，包括：

接收模块，用于接收客户端发起的数据写请求；

创建模块，用于在HDFS存储节点上创建新的数据块；

7.如权利要求6所述的面向云存储的数据存储装置，其特征在于，所述获取模块具体用于：获取所述客户端的用户的元数据信息、文件存储大小以及偏移值，将所述元数据信息、所述文件存储大小以及偏移值保存至所述MongoDB非关系型数据库中。

8.如权利要求7所述的面向云存储的数据存储装置，其特征在于，所述创建模块具体用于：根据各个HDFS存储节点的工作和使用信息，基于负载均衡原理，在所述HDFS存储节点上创建新的数据块。

9.如权利要求6至8任一项所述的面向云存储的数据存储装置，其特征在于，所述存储模块包括：

10.如权利要求9所述的面向云存储的数据存储装置，其特征在于，还包括：