CN103049559A - 一种海量数据自动放置方法和装置 - Google Patents

一种海量数据自动放置方法和装置 Download PDF

Info

Publication number
CN103049559A
CN103049559A CN2012105894891A CN201210589489A CN103049559A CN 103049559 A CN103049559 A CN 103049559A CN 2012105894891 A CN2012105894891 A CN 2012105894891A CN 201210589489 A CN201210589489 A CN 201210589489A CN 103049559 A CN103049559 A CN 103049559A
Authority
CN
China
Prior art keywords
data
server
performance server
performance
alive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105894891A
Other languages
English (en)
Inventor
张森林
冯圣中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN2012105894891A priority Critical patent/CN103049559A/zh
Publication of CN103049559A publication Critical patent/CN103049559A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于互联网通信领域,提供了一种海量数据自动放置装置,所述装置包括:服务器配置模块,用于配置高性能服务器;数据甄别模块,用于根据数据的属性特征,获取活跃数据;匹配模块,用于判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。本发明使得活跃数据总是存放于高性能服务器,系统在处理数据访问请求时的操作使用的是优质存储介质,使得数据的访问性能提高,整体的访问延迟降低。

Description

一种海量数据自动放置方法和装置
技术领域
本发明属于互联网通信领域,尤其涉及一种海量数据自动放置方法和装置。
背景技术
随着数据的爆炸式增长,存储与处理海量数据的集群,应运而生。集群通常由多台服务器组成,通过应用软件使得这些服务器协同工作,达到超级计算机的功能。数据的吞吐率,指的是单位时间内处理的数据量,是衡量集群性能的一个重要指标。对于集群来讲,因为存储的数据量很大,因此很有可能在某一时间段内有大量的用户访问数据,数据的吞吐率越高,单位时间内集群能够处理的用户请求就越多,服务质量也就越好。同时,数据的活跃性是不均匀的,即20%的数据是活跃的,而剩余80%的数据是不活跃的,且这种活跃性也是随着时间而变化的,即某一部分数据可能这段时间活跃,但是过了这段时间就不活跃了。因此,在集群中,一段时间内,用户对数据的访问请求可能就集中于个别数据上,而不是平均分散到所有的数据上。
用户请求数据,系统一般需要先找到相关数据,然后进行处理,最后传输给用户。找到相关数据,是磁盘寻址的过程,一般的寻址需要转动磁头,在用户请求多时,很有可能导致磁头频繁移动而造成较大的延迟;数据处理多与内存和CPU相关,不会耗费过多的时间;最耗时间的部分是传输,这与网络带宽有关。由上可知,集群中数据访问时最耗时间的操作,主要磁盘寻址和网络传输,因此只要缩短了这两个过程花费的时间,就会使得数据的平均处理时间减少,而单位时间内集群就能处理更多的数据。缩短磁盘寻址时间,可以使用转速更快的磁盘,或者使用SSD固态硬盘;缩短网络传输时间,可以配置更快的网络。
目前,集群中提高数据吞吐率的方法集中于缩短等待时间,即不能使得某个节点有太多的请求要处理,而其他的请求处于长期的等待状态。通过转移负载的方法,使得数据的访问请求,尽可能并发执行,从而使得整体的等待时间尽可能缩短。实现这种方法的技术是负载均衡,即集群中每个节点上存在的数据量基本相同。但是,这种数据量上的均衡,并不会保证负载的真正均衡,因为数据的活跃性是不均匀的,同一时刻,只有20%的数据处于活跃状态,而剩余80%的数据处于不活跃的状态,处于不活跃的状态,所以考虑将活跃的数据存放在少量硬盘寻址速度快的节点上,使得集群的数据吞吐率大幅提高,而只需增加少许的成本。
发明内容
本发明实施例提供一种海量数据自动放置方法和装置,旨在解决当前负载均衡技术无法使活跃的数据总是存放在少量硬盘寻址速度快的节点上,使得集群的数据吞吐率大幅提高,而不需要增加太多成本。
为此,本发明实施例提供了如下技术方案:
一种海量数据自动放置装置,包括:
服务器配置模块,用于配置高性能服务器;
数据甄别模块,用于根据数据的属性特征,获取活跃数据;
匹配模块,用于判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。
本发明实施例还提供了一种海量数据自动放置方法,包括:
配置高性能服务器;
根据数据的属性特征,获取活跃数据;
判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。
与现有技术相比,本发明的实施例具有如下优点:
本发明实施例通过配置高性能服务器,同时根据数据的属性特征,获取活跃数据,然后判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。将活跃度高的数据存放于性能好的存储节点上,使得集群中的数据访问请求多在这些节点上发生,从而提高了单位时间内处理数据请求的能力,即提高了数据的吞吐率。
附图说明
图1是本发明实施例提供的海量数据自动放置方法的方法流程图;
图2是本发明实施例提供的海量数据自动放置装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的海量数据自动放置方法的方法流程图,为了便于说明,仅示出了与本发明实施例相关的部分。
如图1所示,该方法包括以下步骤:
步骤101,配置高性能服务器。
具体的,包括以下步骤:根据系统中的数据总量,乘以给定的比例系数;根据单个高性能硬盘容量大小,确定所需硬盘数;将所述高性能硬盘,分配给高性能服务器,确定高性能服务器数量。
优选的,使用特殊的标识标记所述高性能服务器,使之与普通服务器区分开。
优选的,为所述高性能服务器配置网速高的网络。
步骤102,根据数据的属性特征,获取活跃数据。
具体的,所述数据的属性特征,包括动态属性和静态属性。
优选的,静态属性包括数据的大小、创建时间,拥有者中的一种或者多种。
优选的,动态属性包括访问次数,访问时间点中的一种或者多种。
优选的,根据所述数据的属性特征构建模型,计算所述数据的活跃度值,将所述活跃度值高的数据设定为活跃数据。
步骤103,判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。
具体的,判断活跃数据是否已存在于高性能服务器上,如果不存在,则从普通服务器上向高性能服务器上迁移。
步骤104,周期性地重复步骤102至步骤103。
基于相同的构思,本发明实施例还提供一种海量数据自动放置装置,如图2所示,该装置包括:
服务器配置模块201,用于配置高性能服务器。
具体的,包括以下步骤:根据系统中的数据总量,乘以给定的比例系数;根据单个高性能硬盘容量大小,确定所需硬盘数;将所述高性能硬盘,分配给高性能服务器,确定高性能服务器数量。
优选的,使用特殊的标识标记所述高性能服务器,使之与普通服务器区分开。
优选的,为所述高性能服务器配置网速高的网络。
数据甄别模块202,用于根据数据的属性特征,获取活跃数据。
具体的,所述数据的属性特征,包括动态属性和静态属性。
优选的,静态属性包括数据的大小、创建时间,拥有者中的一种或者多种。
优选的,动态属性包括访问次数,访问时间点中的一种或者多种。
优选的,根据所述数据的属性特征构建模型,计算所述数据的活跃度值,将所述活跃度值高的数据设定为活跃数据。
匹配模块203,用于判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。
具体的,判断活跃数据是否已存在于高性能服务器上,如果不存在,则从普通服务器上向高性能服务器上迁移。
调整模块204,分别与数据甄别模块202和匹配模块203相连接,用于周期性地重复步骤B至步骤C。
本发明实施例通过配置高性能服务器,同时根据数据的属性特征,获取活跃数据,然后判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。将活跃度高的数据存放于性能好的存储节点上,使得集群中的数据访问请求多在这些节点上发生,从而提高了单位时间内处理数据请求的能力,即提高了数据的吞吐率。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (8)

1.一种海量数据自动放置方法,其特征在于,所述方法包括以下步骤:
A:配置高性能服务器;
B:根据数据的属性特征,获取活跃数据;
C:判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。
2.如权利要求1所述的海量数据自动放置方法,其特征在于,还包括以下步骤:
D:周期性地重复步骤B至步骤C。
3.如权利要求1或2所述的海量数据自动放置方法,其特征在于,所述步骤A包括:
A1:根据系统中的数据总量,乘以给定的比例系数;
A2:根据单个高性能硬盘容量大小,确定所需硬盘数;
A3:将所述高性能硬盘,分配给高性能服务器,确定高性能服务器数量。
4.如权利要求3所述的海量数据自动放置方法,其特征在于,所述步骤A还包括:
A4:使用特殊的标识标记所述高性能服务器,使之与普通服务器区分开;
A5:为所述高性能服务器配置网速高的网络。
5.如权利要求1或2所述的海量数据自动放置方法,其特征在于,所述数据的属性特征,包括动态属性和静态属性。
6.如权利要求5所述的海量数据自动放置方法,其特征在于,所述步骤B包括:
B1:根据所述数据的属性特征构建模型,计算所述数据的活跃度值,将所述活跃度值高的数据设定为活跃数据。
7.一种海量数据自动放置装置,其特征在于,包括:
服务器配置模块,用于配置高性能服务器;
数据甄别模块,用于根据数据的属性特征,获取活跃数据;
匹配模块,用于判断所述活跃数据是否存在于所述高性能服务器,若不存在,则将所述活跃数据存放于所述高性能服务器。
8.如权利要求7所述的海量数据自动放置装置,其特征在于,包括:调整模块,分别与数据甄别模块和匹配模块相连接,用于周期性地重复步骤B至步骤C。
CN2012105894891A 2012-12-29 2012-12-29 一种海量数据自动放置方法和装置 Pending CN103049559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105894891A CN103049559A (zh) 2012-12-29 2012-12-29 一种海量数据自动放置方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105894891A CN103049559A (zh) 2012-12-29 2012-12-29 一种海量数据自动放置方法和装置

Publications (1)

Publication Number Publication Date
CN103049559A true CN103049559A (zh) 2013-04-17

Family

ID=48062200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105894891A Pending CN103049559A (zh) 2012-12-29 2012-12-29 一种海量数据自动放置方法和装置

Country Status (1)

Country Link
CN (1) CN103049559A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744791A (zh) * 2013-12-20 2014-04-23 华为技术有限公司 一种内存迁移的方法和装置
CN103984737A (zh) * 2014-05-22 2014-08-13 武汉大学 一种基于计算相关度的多数据中心数据布局优化方法
CN106845708A (zh) * 2017-01-20 2017-06-13 北京理工大学 一种基于不确定度的数据流处理系统多目标优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013387A (zh) * 2007-02-09 2007-08-08 华中科技大学 基于对象存储设备的负载平衡方法
CN101431475A (zh) * 2008-11-20 2009-05-13 季鹏程 高性能的流媒体服务器的设置以及进行高性能节目读取的方法
CN101916289A (zh) * 2010-08-20 2010-12-15 浙江大学 支持海量小文件和动态备份数的数字图书馆存储系统的构建方法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
CN102411542A (zh) * 2011-10-26 2012-04-11 上海文广互动电视有限公司 动态分级存储系统和方法
CN102523285A (zh) * 2011-12-15 2012-06-27 杭州电子科技大学 一种基于对象分布式文件系统的存储缓存方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013387A (zh) * 2007-02-09 2007-08-08 华中科技大学 基于对象存储设备的负载平衡方法
CN101431475A (zh) * 2008-11-20 2009-05-13 季鹏程 高性能的流媒体服务器的设置以及进行高性能节目读取的方法
CN101916289A (zh) * 2010-08-20 2010-12-15 浙江大学 支持海量小文件和动态备份数的数字图书馆存储系统的构建方法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
CN102411542A (zh) * 2011-10-26 2012-04-11 上海文广互动电视有限公司 动态分级存储系统和方法
CN102523285A (zh) * 2011-12-15 2012-06-27 杭州电子科技大学 一种基于对象分布式文件系统的存储缓存方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744791A (zh) * 2013-12-20 2014-04-23 华为技术有限公司 一种内存迁移的方法和装置
CN103744791B (zh) * 2013-12-20 2017-01-11 华为技术有限公司 一种内存迁移的方法和装置
CN103984737A (zh) * 2014-05-22 2014-08-13 武汉大学 一种基于计算相关度的多数据中心数据布局优化方法
CN103984737B (zh) * 2014-05-22 2017-01-25 武汉大学 一种基于计算相关度的多数据中心数据布局优化方法
CN106845708A (zh) * 2017-01-20 2017-06-13 北京理工大学 一种基于不确定度的数据流处理系统多目标优化方法
CN106845708B (zh) * 2017-01-20 2019-12-06 北京理工大学 一种基于不确定度的数据流处理系统多目标优化方法

Similar Documents

Publication Publication Date Title
CN107566533B (zh) 一种基于nas实现的内外网文件共享系统
CN108023967B (zh) 一种数据平衡方法、装置及分布式存储系统中的管理设备
US20140149590A1 (en) Scaling computing clusters in a distributed computing system
CN103036979A (zh) 一种服务器负载均衡方法及负载均衡器
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
CN105592123B (zh) 存储管理系统、管理装置及方法
JP2008507201A5 (zh)
CN101557427A (zh) 提供分流信息、实现客户端分流的方法、系统及服务器
CN110727738B (zh) 基于数据分片的全局路由系统、电子设备及存储介质
CN105227489A (zh) 一种带宽管理方法及电子设备
CN106302640A (zh) 数据请求处理方法及装置
CN109151028A (zh) 一种分布式存储系统容灾方法及装置
CN104657435A (zh) 一种应用数据的存储管理方法和网络管理系统
CN111371704B (zh) 一种数据缓存方法、装置、终端设备和存储介质
CN105653463B (zh) 存储管理系统、管理装置及方法
CN103049559A (zh) 一种海量数据自动放置方法和装置
CN111225003B (zh) 一种nfs节点配置方法和装置
CN105487946B (zh) 一种故障计算机自动切换方法及装置
WO2013126072A1 (en) Geolocation-based load balancing
US11314559B2 (en) Method for balanced scale out of resources in distributed and collaborative container platform environment
US20160117107A1 (en) High Performance Hadoop with New Generation Instances
CN106020732A (zh) 节点的磁盘空间确定方法及系统
CN105656794A (zh) 数据分发方法及装置
CN113971163A (zh) 一种小文件合并存储方法、读取方法以及服务器
CN105653529B (zh) 存储管理系统、管理装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130417

RJ01 Rejection of invention patent application after publication