CN103049559A

CN103049559A - 一种海量数据自动放置方法和装置

Info

Publication number: CN103049559A
Application number: CN2012105894891A
Authority: CN
Inventors: 张森林; 冯圣中
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-29
Filing date: 2012-12-29
Publication date: 2013-04-17

Abstract

本发明适用于互联网通信领域，提供了一种海量数据自动放置装置，所述装置包括：服务器配置模块，用于配置高性能服务器；数据甄别模块，用于根据数据的属性特征，获取活跃数据；匹配模块，用于判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。本发明使得活跃数据总是存放于高性能服务器，系统在处理数据访问请求时的操作使用的是优质存储介质，使得数据的访问性能提高，整体的访问延迟降低。

Description

一种海量数据自动放置方法和装置

技术领域

本发明属于互联网通信领域，尤其涉及一种海量数据自动放置方法和装置。

背景技术

随着数据的爆炸式增长，存储与处理海量数据的集群，应运而生。集群通常由多台服务器组成，通过应用软件使得这些服务器协同工作，达到超级计算机的功能。数据的吞吐率，指的是单位时间内处理的数据量，是衡量集群性能的一个重要指标。对于集群来讲，因为存储的数据量很大，因此很有可能在某一时间段内有大量的用户访问数据，数据的吞吐率越高，单位时间内集群能够处理的用户请求就越多，服务质量也就越好。同时，数据的活跃性是不均匀的，即20%的数据是活跃的，而剩余80%的数据是不活跃的，且这种活跃性也是随着时间而变化的，即某一部分数据可能这段时间活跃，但是过了这段时间就不活跃了。因此，在集群中，一段时间内，用户对数据的访问请求可能就集中于个别数据上，而不是平均分散到所有的数据上。

用户请求数据，系统一般需要先找到相关数据，然后进行处理，最后传输给用户。找到相关数据，是磁盘寻址的过程，一般的寻址需要转动磁头，在用户请求多时，很有可能导致磁头频繁移动而造成较大的延迟；数据处理多与内存和CPU相关，不会耗费过多的时间；最耗时间的部分是传输，这与网络带宽有关。由上可知，集群中数据访问时最耗时间的操作，主要磁盘寻址和网络传输，因此只要缩短了这两个过程花费的时间，就会使得数据的平均处理时间减少，而单位时间内集群就能处理更多的数据。缩短磁盘寻址时间，可以使用转速更快的磁盘，或者使用SSD固态硬盘；缩短网络传输时间，可以配置更快的网络。

目前，集群中提高数据吞吐率的方法集中于缩短等待时间，即不能使得某个节点有太多的请求要处理，而其他的请求处于长期的等待状态。通过转移负载的方法，使得数据的访问请求，尽可能并发执行，从而使得整体的等待时间尽可能缩短。实现这种方法的技术是负载均衡，即集群中每个节点上存在的数据量基本相同。但是，这种数据量上的均衡，并不会保证负载的真正均衡，因为数据的活跃性是不均匀的，同一时刻，只有20%的数据处于活跃状态，而剩余80%的数据处于不活跃的状态，处于不活跃的状态，所以考虑将活跃的数据存放在少量硬盘寻址速度快的节点上，使得集群的数据吞吐率大幅提高，而只需增加少许的成本。

发明内容

本发明实施例提供一种海量数据自动放置方法和装置，旨在解决当前负载均衡技术无法使活跃的数据总是存放在少量硬盘寻址速度快的节点上，使得集群的数据吞吐率大幅提高，而不需要增加太多成本。

为此，本发明实施例提供了如下技术方案：

一种海量数据自动放置装置，包括：

服务器配置模块，用于配置高性能服务器；

数据甄别模块，用于根据数据的属性特征，获取活跃数据；

匹配模块，用于判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。

本发明实施例还提供了一种海量数据自动放置方法，包括：

配置高性能服务器；

根据数据的属性特征，获取活跃数据；

判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。

与现有技术相比，本发明的实施例具有如下优点：

本发明实施例通过配置高性能服务器，同时根据数据的属性特征，获取活跃数据，然后判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。将活跃度高的数据存放于性能好的存储节点上，使得集群中的数据访问请求多在这些节点上发生，从而提高了单位时间内处理数据请求的能力，即提高了数据的吞吐率。

附图说明

图1是本发明实施例提供的海量数据自动放置方法的方法流程图；

图2是本发明实施例提供的海量数据自动放置装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的海量数据自动放置方法的方法流程图，为了便于说明，仅示出了与本发明实施例相关的部分。

如图1所示，该方法包括以下步骤：

步骤101，配置高性能服务器。

具体的，包括以下步骤：根据系统中的数据总量，乘以给定的比例系数；根据单个高性能硬盘容量大小，确定所需硬盘数；将所述高性能硬盘，分配给高性能服务器，确定高性能服务器数量。

优选的，使用特殊的标识标记所述高性能服务器，使之与普通服务器区分开。

优选的，为所述高性能服务器配置网速高的网络。

步骤102，根据数据的属性特征，获取活跃数据。

具体的，所述数据的属性特征，包括动态属性和静态属性。

优选的，静态属性包括数据的大小、创建时间，拥有者中的一种或者多种。

优选的，动态属性包括访问次数，访问时间点中的一种或者多种。

优选的，根据所述数据的属性特征构建模型，计算所述数据的活跃度值，将所述活跃度值高的数据设定为活跃数据。

步骤103，判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。

具体的，判断活跃数据是否已存在于高性能服务器上，如果不存在，则从普通服务器上向高性能服务器上迁移。

步骤104，周期性地重复步骤102至步骤103。

基于相同的构思，本发明实施例还提供一种海量数据自动放置装置，如图2所示，该装置包括：

服务器配置模块201，用于配置高性能服务器。

优选的，为所述高性能服务器配置网速高的网络。

数据甄别模块202，用于根据数据的属性特征，获取活跃数据。

具体的，所述数据的属性特征，包括动态属性和静态属性。

匹配模块203，用于判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。

调整模块204，分别与数据甄别模块202和匹配模块203相连接，用于周期性地重复步骤B至步骤C。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备（可以是手机，个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种海量数据自动放置方法，其特征在于，所述方法包括以下步骤：

A：配置高性能服务器；

B：根据数据的属性特征，获取活跃数据；

C：判断所述活跃数据是否存在于所述高性能服务器，若不存在，则将所述活跃数据存放于所述高性能服务器。

2.如权利要求1所述的海量数据自动放置方法，其特征在于，还包括以下步骤：

D：周期性地重复步骤B至步骤C。

3.如权利要求1或2所述的海量数据自动放置方法，其特征在于，所述步骤A包括：

A1：根据系统中的数据总量，乘以给定的比例系数；

A2：根据单个高性能硬盘容量大小，确定所需硬盘数；

A3：将所述高性能硬盘，分配给高性能服务器，确定高性能服务器数量。

4.如权利要求3所述的海量数据自动放置方法，其特征在于，所述步骤A还包括：

A4：使用特殊的标识标记所述高性能服务器，使之与普通服务器区分开；

A5：为所述高性能服务器配置网速高的网络。

5.如权利要求1或2所述的海量数据自动放置方法，其特征在于，所述数据的属性特征，包括动态属性和静态属性。

6.如权利要求5所述的海量数据自动放置方法，其特征在于，所述步骤B包括：

B1：根据所述数据的属性特征构建模型，计算所述数据的活跃度值，将所述活跃度值高的数据设定为活跃数据。

7.一种海量数据自动放置装置，其特征在于，包括：

服务器配置模块，用于配置高性能服务器；

数据甄别模块，用于根据数据的属性特征，获取活跃数据；

8.如权利要求7所述的海量数据自动放置装置，其特征在于，包括：调整模块，分别与数据甄别模块和匹配模块相连接，用于周期性地重复步骤B至步骤C。