CN103077221A

CN103077221A - 一种海量数据自动放置装置和方法

Info

Publication number: CN103077221A
Application number: CN2012105901626A
Authority: CN
Inventors: 张森林; 冯圣中
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-29
Filing date: 2012-12-29
Publication date: 2013-05-01

Abstract

本发明适用于互联网通信领域，提供了一种海量数据自动放置装置，所述装置包括：节点识别模块，用于识别不同访问性能的节点，并将其划分为不同的层次；数据甄别模块，用于根据数据的访问操作得到的参数，计算出数据的特性值；匹配模块，用于将数据依照特性值高低，存放在相应的节点上；调整模块，用于根据数据与节点的匹配情况，对原有的数据位置进行调整。本发明使得活跃数据总是存放于层次高的节点上，系统在处理数据访问请求时的操作大部分使用的是优质存储介质，使得数据的访问性能提高，整体的访问延迟降低。

Description

一种海量数据自动放置装置和方法

技术领域

本发明属于互联网通信领域，尤其涉及一种海量数据自动放置装置和方法。

背景技术

随着数据的爆炸性增长，存储海量数据的集群应运而生。因为集群中存储的数据量很大，有的已达PB级，同一时刻可能会有大量的数据访问。因此，数据的存放位置是否合理，直接影响到数据的访问延迟。

现在的集群，通过将多台普通服务器协作服务，实现超级计算机的功能。集群一般都有在线扩展的能力，即可以通过添加新节点的方式存储数据，因此其扩展能力很强大。但是，新加入的节点的访问性能往往与原有节点的访问性能有差别，这种差别可能是由于存储技术的发展，使得集群能够使用更快的硬盘用来存储数据，也可能是因为使用了同样规格的硬盘，但是原有的硬盘由于使用时间较长，访问性能已经比不上新硬盘的性能。于是，集群中节点在一段时间之后，其性能就会不完全一致。另外，由于集群的规模可能很大，完全一样的配置往往比较难以实现，也有可能出现配置不一的情形。因此，集群中的各服务器节点访问性能不一致，是个比较现实的问题，不容忽视。

集群中的节点访问性能不一，则必然有高有低，但是集群更多的是关注于负载均衡，忽略这种性能不一的问题，这就使得数据的放置使用最简单的平均策略，很少考虑数据本身的特性。以hadoop集群为例，集群将文件分成固定大小的块，然后将块存放在多个节点上。在放置数据块时，会考虑到客户端与目标节点的距离以及目标节点的负载等情况，主要是为了减少对网络带宽的消耗和保持节点间的负载均衡。但是，对于集群中的节点，尤其是访问性能不一的节点，却没有作有效的区分，反而是同等对待。而且，数据的访问频率也不一致，工业研究表明，只有20%的数据是活跃的，而剩余80%的数据是不活跃的，即某一时间段内被大量访问的只是少量数据。而hadoop集群并没有对这些数据进行有效识别，更多的是，集群将所有的数据同等对待，对所有的服务器节点也是同等对待，将数据存放于节点上的时候，也只是考虑到带宽与负载等因素，最后在数据读取的时候，只是考虑了带宽的因素（一个数据块会有多个副本供选择）。可以说，集群在存放数据和读取数据的时候，除了考虑带宽等因素外，其实使用的是随机策略。而这种随机策略，使得集群的数据访问性能处于不稳定的状态，尤其是各个服务器节点访问性能不一的时候。

鉴于集群中的服务器节点在很多情况下可能处于访问性能不一的情况下，且数据的访问特性不一致，因此有必要采用一种比较合理的数据放置策略，使得数据能在合适的节点上存放，使得系统在处理活跃数据时的效率提高，最终使得数据的访问性能提高，而整体的访问延迟降低。

发明内容

本发明实施例提供一种海量数据自动放置装置和方法，旨在解决当前集群在节点访问性能不同且数据的访问特性不一致时，无法使数据在合适的节点上存放，导致数据的访问性能不高的问题。

为此，本发明实施例提供了如下技术方案：

一种海量数据自动放置装置，包括：

节点识别模块，用于识别不同访问性能的节点，并将其划分为不同的层次；

数据甄别模块，用于根据数据的访问操作得到的参数，计算出数据的特性值；

匹配模块，用于将数据依照特性值高低，存放在相应的节点上；

调整模块，用于根据数据与节点的匹配情况，对原有的数据位置进行调整。

本发明实施例还提供了一种海量数据自动放置方法，包括：

识别不同访问性能的节点，并将其划分为不同的层次；

根据数据的访问操作得到的参数，计算出数据的特性值；

将数据依照特性值高低，存放在相应的节点上；

根据数据与节点的匹配情况，对原有的数据位置进行调整。

与现有技术相比，本发明的实施例具有如下优点：

本发明实施例通过识别不同访问性能的节点，并将其划分为不同的层次，根据数据的访问操作得到的参数，计算出数据的特性值，将数据依照特性值高低，存放在相应的节点上，并根据数据与节点的匹配情况，对原有的数据位置进行调整。使得活跃数据总是存放于层次高的节点上，系统在处理数据访问请求时的操作大部分使用的是优质存储介质，使得数据的访问性能提高，整体的访问延迟降低。

附图说明

图1是本发明实施例提供的海量数据自动放置方法的方法流程图；

图2是本发明实施例提供的海量数据自动放置装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的海量数据自动放置方法的方法流程图，为了便于说明，仅示出了与本发明实施例相关的部分。

如图1所示，该方法包括以下步骤：

步骤101，识别不同访问性能的节点，并将其划分为不同的层次。

具体的，识别不同访问性能的节点，可以是根据不同的主机名标识特征进行的。

优选的，这些标识由管理员根据节点情况提前设定好。

步骤102，根据数据的访问操作得到的参数，计算出数据的特性值。

具体的，根据数据的访问操作得到的参数，可以是访问次数、访问时间，以及数据大小中的一项或多项。

优选的，如果是新写入的数据，则默认有最高的特性值。

步骤103，将数据依照特性值高低，存放在相应的节点上。

具体的，将数据依特性值高低存放在相应的节点上时，以节点的剩余空间为依据。

步骤104，根据数据与节点的匹配情况，对原有的数据位置进行调整。

具体的，根据数据与节点的匹配情况对原有的数据位置进行调整时，可以周期性地检查数据与节点的匹配情况。若匹配有误，如特性值高的数据存放于性能差的节点上，此时就调用调整模块，对原有的数据位置进行调整。使得数据越热，其所在的存储层次越高。

具体的,所述检查周期是一个根据系统需要确定的固定时间段。

优选的，周期可以选取10小时，至3天之间的任意一个值。

基于相同的构思，本发明实施例还提供一种海量数据自动放置装置，如图2所示，该装置包括：

节点识别模块201，用于识别不同访问性能的节点，并将其划分为不同的层次。

具体的，节点识别模块可以根据不同的主机名标识特征,识别不同访问性能的节点。

优选的，这些标识由管理员根据节点情况提前设定好。

数据甄别模块202，用于根据数据的访问操作得到的参数，计算出数据的特性值。

具体的，数据甄别模块根据数据访问操作得到的参数，可以是访问次数、访问时间，以及数据大小中的一项或多项。

优选的，如果是新写入的数据，则默认有最高的特性值。

匹配模块203，用于将数据依照特性值高低，存放在相应的节点上。

具体的，匹配模块将数据依照特性值高低存放在相应的节点上时，以节点的剩余空间为依据。

调整模块204，用于根据数据与节点的匹配情况，对原有的数据位置进行调整。

具体的，调整模块根据数据与节点的匹配情况对原有的数据位置进行调整时，周期性地检查数据与节点的匹配情况。若匹配有误，如特性值高的数据存放于性能差的节点上，此时就调用调整模块，对原有的数据位置进行调整。使得数据越热，其所在的存储层次越高。

优选的，周期可以选取10小时，至3天之间的任意一个值。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种海量数据自动放置装置，其特征在于，所述装置包括：

2.如权利要求1所述的海量数据自动放置装置，其特征在于，所述节点识别模块，通过主机名标识特征，识别不同访问性能的节点。

3.如权利要求1或2所述的海量数据自动放置装置，其特征在于，所述数据甄别模块根据数据访问操作得到的参数，可以是访问次数、访问时间，以及数据大小中的一项或多项。

4.如权利要求1或2所述的海量数据自动放置装置，其特征在于，所述匹配模块将数据依照特性值高低存放在相应的节点上时，以节点的剩余空间为依据。

5.如权利要求1或2所述的海量数据自动放置装置，其特征在于，所述调整模块周期性地检查数据与节点的匹配情况。

6.一种海量数据自动放置方法，其特征在于，所述方法包括：

识别不同访问性能的节点，并将其划分为不同的层次；

根据数据的访问操作得到的参数，计算出数据的特性值；

将数据依照特性值高低，存放在相应的节点上；

根据数据与节点的匹配情况，对原有的数据位置进行调整。

7.如权利要求6所述的海量数据自动放置方法，其特征在于，通过主机名标识特征，识别不同访问性能的节点。

8.如权利要求6或7所述的海量数据自动放置方法，其特征在于，所述根据数据的访问操作得到的参数，可以是访问次数、访问时间，以及数据大小中的一项或多项。

9.如权利要求6或7所述的海量数据自动放置方法，其特征在于，所述将数据依特性值高低存放在相应的节点上时，以节点的剩余空间为依据。

10.如权利要求6或7所述的海量数据自动放置方法，其特征在于，所述根据数据与节点的匹配情况对原有的数据位置进行调整时，可以周期性地检查数据与节点的匹配情况。