CN103077221A - 一种海量数据自动放置装置和方法 - Google Patents

一种海量数据自动放置装置和方法 Download PDF

Info

Publication number
CN103077221A
CN103077221A CN2012105901626A CN201210590162A CN103077221A CN 103077221 A CN103077221 A CN 103077221A CN 2012105901626 A CN2012105901626 A CN 2012105901626A CN 201210590162 A CN201210590162 A CN 201210590162A CN 103077221 A CN103077221 A CN 103077221A
Authority
CN
China
Prior art keywords
data
node
module
access
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105901626A
Other languages
English (en)
Inventor
张森林
冯圣中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN2012105901626A priority Critical patent/CN103077221A/zh
Publication of CN103077221A publication Critical patent/CN103077221A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于互联网通信领域,提供了一种海量数据自动放置装置,所述装置包括:节点识别模块,用于识别不同访问性能的节点,并将其划分为不同的层次;数据甄别模块,用于根据数据的访问操作得到的参数,计算出数据的特性值;匹配模块,用于将数据依照特性值高低,存放在相应的节点上;调整模块,用于根据数据与节点的匹配情况,对原有的数据位置进行调整。本发明使得活跃数据总是存放于层次高的节点上,系统在处理数据访问请求时的操作大部分使用的是优质存储介质,使得数据的访问性能提高,整体的访问延迟降低。

Description

一种海量数据自动放置装置和方法
技术领域
本发明属于互联网通信领域,尤其涉及一种海量数据自动放置装置和方法。
背景技术
随着数据的爆炸性增长,存储海量数据的集群应运而生。因为集群中存储的数据量很大,有的已达PB级,同一时刻可能会有大量的数据访问。因此,数据的存放位置是否合理,直接影响到数据的访问延迟。
现在的集群,通过将多台普通服务器协作服务,实现超级计算机的功能。集群一般都有在线扩展的能力,即可以通过添加新节点的方式存储数据,因此其扩展能力很强大。但是,新加入的节点的访问性能往往与原有节点的访问性能有差别,这种差别可能是由于存储技术的发展,使得集群能够使用更快的硬盘用来存储数据,也可能是因为使用了同样规格的硬盘,但是原有的硬盘由于使用时间较长,访问性能已经比不上新硬盘的性能。于是,集群中节点在一段时间之后,其性能就会不完全一致。另外,由于集群的规模可能很大,完全一样的配置往往比较难以实现,也有可能出现配置不一的情形。因此,集群中的各服务器节点访问性能不一致,是个比较现实的问题,不容忽视。
集群中的节点访问性能不一,则必然有高有低,但是集群更多的是关注于负载均衡,忽略这种性能不一的问题,这就使得数据的放置使用最简单的平均策略,很少考虑数据本身的特性。以hadoop集群为例,集群将文件分成固定大小的块,然后将块存放在多个节点上。在放置数据块时,会考虑到客户端与目标节点的距离以及目标节点的负载等情况,主要是为了减少对网络带宽的消耗和保持节点间的负载均衡。但是,对于集群中的节点,尤其是访问性能不一的节点,却没有作有效的区分,反而是同等对待。而且,数据的访问频率也不一致,工业研究表明,只有20%的数据是活跃的,而剩余80%的数据是不活跃的,即某一时间段内被大量访问的只是少量数据。而hadoop集群并没有对这些数据进行有效识别,更多的是,集群将所有的数据同等对待,对所有的服务器节点也是同等对待,将数据存放于节点上的时候,也只是考虑到带宽与负载等因素,最后在数据读取的时候,只是考虑了带宽的因素(一个数据块会有多个副本供选择)。可以说,集群在存放数据和读取数据的时候,除了考虑带宽等因素外,其实使用的是随机策略。而这种随机策略,使得集群的数据访问性能处于不稳定的状态,尤其是各个服务器节点访问性能不一的时候。
鉴于集群中的服务器节点在很多情况下可能处于访问性能不一的情况下,且数据的访问特性不一致,因此有必要采用一种比较合理的数据放置策略,使得数据能在合适的节点上存放,使得系统在处理活跃数据时的效率提高,最终使得数据的访问性能提高,而整体的访问延迟降低。
发明内容
本发明实施例提供一种海量数据自动放置装置和方法,旨在解决当前集群在节点访问性能不同且数据的访问特性不一致时,无法使数据在合适的节点上存放,导致数据的访问性能不高的问题。
为此,本发明实施例提供了如下技术方案:
一种海量数据自动放置装置,包括:
节点识别模块,用于识别不同访问性能的节点,并将其划分为不同的层次;
数据甄别模块,用于根据数据的访问操作得到的参数,计算出数据的特性值;
匹配模块,用于将数据依照特性值高低,存放在相应的节点上;
调整模块,用于根据数据与节点的匹配情况,对原有的数据位置进行调整。
本发明实施例还提供了一种海量数据自动放置方法,包括:
识别不同访问性能的节点,并将其划分为不同的层次;
根据数据的访问操作得到的参数,计算出数据的特性值;
将数据依照特性值高低,存放在相应的节点上;
根据数据与节点的匹配情况,对原有的数据位置进行调整。
与现有技术相比,本发明的实施例具有如下优点:
本发明实施例通过识别不同访问性能的节点,并将其划分为不同的层次,根据数据的访问操作得到的参数,计算出数据的特性值,将数据依照特性值高低,存放在相应的节点上,并根据数据与节点的匹配情况,对原有的数据位置进行调整。使得活跃数据总是存放于层次高的节点上,系统在处理数据访问请求时的操作大部分使用的是优质存储介质,使得数据的访问性能提高,整体的访问延迟降低。
附图说明
图1是本发明实施例提供的海量数据自动放置方法的方法流程图;
图2是本发明实施例提供的海量数据自动放置装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的海量数据自动放置方法的方法流程图,为了便于说明,仅示出了与本发明实施例相关的部分。
如图1所示,该方法包括以下步骤:
步骤101,识别不同访问性能的节点,并将其划分为不同的层次。
具体的,识别不同访问性能的节点,可以是根据不同的主机名标识特征进行的。
优选的,这些标识由管理员根据节点情况提前设定好。
步骤102,根据数据的访问操作得到的参数,计算出数据的特性值。
具体的,根据数据的访问操作得到的参数,可以是访问次数、访问时间,以及数据大小中的一项或多项。
优选的,如果是新写入的数据,则默认有最高的特性值。
步骤103,将数据依照特性值高低,存放在相应的节点上。
具体的,将数据依特性值高低存放在相应的节点上时,以节点的剩余空间为依据。
步骤104,根据数据与节点的匹配情况,对原有的数据位置进行调整。
具体的,根据数据与节点的匹配情况对原有的数据位置进行调整时,可以周期性地检查数据与节点的匹配情况。若匹配有误,如特性值高的数据存放于性能差的节点上,此时就调用调整模块,对原有的数据位置进行调整。使得数据越热,其所在的存储层次越高。
具体的,所述检查周期是一个根据系统需要确定的固定时间段。
优选的,周期可以选取10小时,至3天之间的任意一个值。
基于相同的构思,本发明实施例还提供一种海量数据自动放置装置,如图2所示,该装置包括:
节点识别模块201,用于识别不同访问性能的节点,并将其划分为不同的层次。
具体的,节点识别模块可以根据不同的主机名标识特征,识别不同访问性能的节点。
优选的,这些标识由管理员根据节点情况提前设定好。
数据甄别模块202,用于根据数据的访问操作得到的参数,计算出数据的特性值。
具体的,数据甄别模块根据数据访问操作得到的参数,可以是访问次数、访问时间,以及数据大小中的一项或多项。
优选的,如果是新写入的数据,则默认有最高的特性值。
匹配模块203,用于将数据依照特性值高低,存放在相应的节点上。
具体的,匹配模块将数据依照特性值高低存放在相应的节点上时,以节点的剩余空间为依据。
调整模块204,用于根据数据与节点的匹配情况,对原有的数据位置进行调整。
具体的,调整模块根据数据与节点的匹配情况对原有的数据位置进行调整时,周期性地检查数据与节点的匹配情况。若匹配有误,如特性值高的数据存放于性能差的节点上,此时就调用调整模块,对原有的数据位置进行调整。使得数据越热,其所在的存储层次越高。
具体的,所述检查周期是一个根据系统需要确定的固定时间段。
优选的,周期可以选取10小时,至3天之间的任意一个值。
本发明实施例通过识别不同访问性能的节点,并将其划分为不同的层次,根据数据的访问操作得到的参数,计算出数据的特性值,将数据依照特性值高低,存放在相应的节点上,并根据数据与节点的匹配情况,对原有的数据位置进行调整。使得活跃数据总是存放于层次高的节点上,系统在处理数据访问请求时的操作大部分使用的是优质存储介质,使得数据的访问性能提高,整体的访问延迟降低。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种海量数据自动放置装置,其特征在于,所述装置包括:
节点识别模块,用于识别不同访问性能的节点,并将其划分为不同的层次;
数据甄别模块,用于根据数据的访问操作得到的参数,计算出数据的特性值;
匹配模块,用于将数据依照特性值高低,存放在相应的节点上;
调整模块,用于根据数据与节点的匹配情况,对原有的数据位置进行调整。
2.如权利要求1所述的海量数据自动放置装置,其特征在于,所述节点识别模块,通过主机名标识特征,识别不同访问性能的节点。
3.如权利要求1或2所述的海量数据自动放置装置,其特征在于,所述数据甄别模块根据数据访问操作得到的参数,可以是访问次数、访问时间,以及数据大小中的一项或多项。
4.如权利要求1或2所述的海量数据自动放置装置,其特征在于,所述匹配模块将数据依照特性值高低存放在相应的节点上时,以节点的剩余空间为依据。
5.如权利要求1或2所述的海量数据自动放置装置,其特征在于,所述调整模块周期性地检查数据与节点的匹配情况。
6.一种海量数据自动放置方法,其特征在于,所述方法包括:
识别不同访问性能的节点,并将其划分为不同的层次;
根据数据的访问操作得到的参数,计算出数据的特性值;
将数据依照特性值高低,存放在相应的节点上;
根据数据与节点的匹配情况,对原有的数据位置进行调整。
7.如权利要求6所述的海量数据自动放置方法,其特征在于,通过主机名标识特征,识别不同访问性能的节点。
8.如权利要求6或7所述的海量数据自动放置方法,其特征在于,所述根据数据的访问操作得到的参数,可以是访问次数、访问时间,以及数据大小中的一项或多项。
9.如权利要求6或7所述的海量数据自动放置方法,其特征在于,所述将数据依特性值高低存放在相应的节点上时,以节点的剩余空间为依据。
10.如权利要求6或7所述的海量数据自动放置方法,其特征在于,所述根据数据与节点的匹配情况对原有的数据位置进行调整时,可以周期性地检查数据与节点的匹配情况。
CN2012105901626A 2012-12-29 2012-12-29 一种海量数据自动放置装置和方法 Pending CN103077221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105901626A CN103077221A (zh) 2012-12-29 2012-12-29 一种海量数据自动放置装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105901626A CN103077221A (zh) 2012-12-29 2012-12-29 一种海量数据自动放置装置和方法

Publications (1)

Publication Number Publication Date
CN103077221A true CN103077221A (zh) 2013-05-01

Family

ID=48153751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105901626A Pending CN103077221A (zh) 2012-12-29 2012-12-29 一种海量数据自动放置装置和方法

Country Status (1)

Country Link
CN (1) CN103077221A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336844A (zh) * 2013-07-22 2013-10-02 广西师范大学 大数据rd分割方法
CN103905544A (zh) * 2014-03-25 2014-07-02 华为技术有限公司 一种集群存储系统及集群存储系统中的节点分配方法
CN106506665A (zh) * 2016-11-18 2017-03-15 郑州云海信息技术有限公司 一种分布式视频监控系统的负载均衡方法及平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582013A (zh) * 2009-06-10 2009-11-18 成都市华为赛门铁克科技有限公司 一种在分布式存储中处理存储热点的方法、装置及系统
CN101794199A (zh) * 2010-03-26 2010-08-04 山东高效能服务器和存储研究院 基于高速磁盘缓存的计算机磁盘性能加速方法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
CN102388358A (zh) * 2011-09-30 2012-03-21 华为技术有限公司 在混合存储环境下配置存储设备的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582013A (zh) * 2009-06-10 2009-11-18 成都市华为赛门铁克科技有限公司 一种在分布式存储中处理存储热点的方法、装置及系统
CN101794199A (zh) * 2010-03-26 2010-08-04 山东高效能服务器和存储研究院 基于高速磁盘缓存的计算机磁盘性能加速方法
CN102388374A (zh) * 2011-09-28 2012-03-21 华为技术有限公司 存储数据的方法和装置
CN102388358A (zh) * 2011-09-30 2012-03-21 华为技术有限公司 在混合存储环境下配置存储设备的方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336844A (zh) * 2013-07-22 2013-10-02 广西师范大学 大数据rd分割方法
CN103905544A (zh) * 2014-03-25 2014-07-02 华为技术有限公司 一种集群存储系统及集群存储系统中的节点分配方法
CN106506665A (zh) * 2016-11-18 2017-03-15 郑州云海信息技术有限公司 一种分布式视频监控系统的负载均衡方法及平台
CN106506665B (zh) * 2016-11-18 2019-09-24 郑州云海信息技术有限公司 一种分布式视频监控系统的负载均衡方法及平台

Similar Documents

Publication Publication Date Title
US9836517B2 (en) Systems and methods for mapping and routing based on clustering
CN109947668A (zh) 存储数据的方法和装置
CN113010818A (zh) 访问限流方法、装置、电子设备及存储介质
CN104572727A (zh) 一种数据查询方法及装置
US20150100661A1 (en) Systems and methods for mapping and routing based on clustering
CN103368986A (zh) 一种信息推荐方法及信息推荐装置
KR102068788B1 (ko) 사용자 타겟 서비스를 제공하는 서버 및 그 서비스 제공방법
CN104657435A (zh) 一种应用数据的存储管理方法和网络管理系统
CN110727738B (zh) 基于数据分片的全局路由系统、电子设备及存储介质
CN104410700A (zh) 下发骚扰电话列表的方法、骚扰电话拦截方法及系统
CN103067479A (zh) 一种基于文件冷热的网盘同步方法及系统
CN103019891A (zh) 一种还原被删除文件的方法及系统
CN106302659A (zh) 一种基于云存储系统中提升访问数据快速存储方法
CN112053105A (zh) 划分服务区域的方法和装置
CN105809552A (zh) 基于搜索关键字的保险精算系统及方法
CN111652685A (zh) 信息处理方法、装置、计算机设备及计算机可读存储介质
CN103077221A (zh) 一种海量数据自动放置装置和方法
CN108400884B (zh) 一种提高网站服务稳定性的方法、系统及装置
CN103685485A (zh) 移动终端VoIP通讯音频管理系统
CN109271438A (zh) 一种数据库访问方法及其系统
CN112286930A (zh) redis业务方资源共享的方法、装置、存储介质及电子设备
CN104883394A (zh) 一种均衡服务器负载的方法和系统
CN116886626A (zh) 一种业务数据限流方法、装置、计算机设备及存储介质
CN109739438A (zh) 一种大数据云存储系统
CN115295164A (zh) 医保数据的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130501