CN103186566A - 一种数据分级存储方法、装置及系统 - Google Patents

一种数据分级存储方法、装置及系统 Download PDF

Info

Publication number
CN103186566A
CN103186566A CN2011104487709A CN201110448770A CN103186566A CN 103186566 A CN103186566 A CN 103186566A CN 2011104487709 A CN2011104487709 A CN 2011104487709A CN 201110448770 A CN201110448770 A CN 201110448770A CN 103186566 A CN103186566 A CN 103186566A
Authority
CN
China
Prior art keywords
data
tables
frequency
described tables
memory storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104487709A
Other languages
English (en)
Other versions
CN103186566B (zh
Inventor
易剑光
霍绍博
蒋瑞文
曹健
王海通
王娜
姚春芬
岳瑞
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Hebei Co Ltd
Original Assignee
China Mobile Group Hebei Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Hebei Co Ltd filed Critical China Mobile Group Hebei Co Ltd
Priority to CN201110448770.9A priority Critical patent/CN103186566B/zh
Publication of CN103186566A publication Critical patent/CN103186566A/zh
Application granted granted Critical
Publication of CN103186566B publication Critical patent/CN103186566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分级存储方法、装置及系统。其中该方法包括:从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;根据所述数据表的热度对所述数据表进行分级存储。本发明通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。

Description

一种数据分级存储方法、装置及系统
技术领域
本发明涉及一种业务支撑技术,尤其涉及一种数据分级存储方法、装置及系统。
背景技术
分级存储是当今数据仓库项目中被普遍采用的存储高效利用策略,它的主要意图在于:在不降低效率的同时,兼顾能耗的投入及产出的消费比,是最具优秀性价比的存储策略。分级存储的提出是基于一种高效率、低成本的思想,追求的是最高的性价比投入产出。在经营分析系统中,引入分级存储技术的优点在于:
1、降低总体存储成本:不经常访问的数据驻留在较低成本的存储设备中,可综合发挥高性能存储设备的性能优势和低价格存储设备的成本优势;
2、优化性能:高频访问数据和有快速访问响应要求的数据存入内存存储设备中,可改善系统性能。
3、改善数据可用性:将原来部分归档数据存入低性能存储设备中,可保证在线数据的可用性。
对于分级存储的落地方案,在数据仓库系统建设中并不是一个固定的解决方案,各局点的分级存储策略在当前需要解决的问题、实施方法、技术方案上各有差异。分级存储在海量级数据的经营分析系统中大致存在如下几种解决方案:
一、多实例化,实例间数据迁移
购置较廉价的硬件设备搭建一个新的应用集群,创新新的实例。将在线数据存放在当前高性能应用集群上,近线数据从高性能存储导入低性能存储。该方案的优点是实施简单,对原先系统的影响也最小,但缺点也最多:不同实例之间,海量数据的迁移本身就是一种巨大的开销,这个问题由于DB2数据迁移工具速度缓慢变得相当突出,且随着数据量的增长,不同实例间的数据导入、导出对系统的压力日益增大;不同实例之间的数据无法同时共享访问,在应用上无法进行关联访问,历史比对分析无法实现,不同实例之间的数据其实被割裂了;多个实例之间会带来数据冗余;实例数量增加,维护成本上升。目前大都认为多实例化是分级存储的一种低效率的解决方法。
二、同实例内数据按时间片分割,按时间片进行迁移
该方案是将不同性能存储并入到同一个数据库实例中,由于数据表本身可以跨表空间,同一张数据表的数据存放按照时间片进行跨表空间分割。近几个月的数据放入高性能存储,过期数据放入低性能存储,每日将高性能存储的数据迁移至低性能存储上。该方案最大的问题是不同类型间的数据迁移带来巨大的I/O开销,快速增加的事务日志开销、独占锁对系统的日常生产都有很大的影响,需要兼顾诸多迁移工程和日常任务,增加了系统设计的复杂度;再次,将哪些数据归为在线数据、近线数据,按时间维度一刀切的做法是过于主观。
三、同实例内的按业务进行分布
这种方案其实是对上述方案的一种改进,比较相似。基于对数据仓库中数据结构的了解,按业务将数据划分为若干主题,每种业务主题的数据定义为高使用频率和低利用频率。高使用频率的数据存放高效存储,低使用频率存放低性能存储。该方案的基本思想是依经验将数据按热度进行分类,按热度选择存储类型,以匹配数据热度与之对应的存储。该方案在数据热度的评估上缺乏客观的依据,如何评估数据热度,依据的是业务经验和对系统的熟悉程度,这虽然在某些情况下是正确的,但实际上缺少定量、可供计算的依据,对结果的执行情况往往也缺少评价的依据。
现有技术中,分级存储在数据仓库项目实施中存在的技术缺陷有以下几点:
(1)牺牲硬件效率、带来数据冗余;
(2)增加系统的复杂度,带来巨大的数据迁移,进而浪费整个系统的系统;
(3)全凭业务经验和主观判断来进行决断,对于分级存储实施的结果也缺少客观的测算依据。
发明内容
本发明的目的在于,提供一种数据分级存储方法、装置及系统,以客观的测算为依据,分级存储更加准确,提高系统的性能。
为实现上述目的,根据本发明的一个方面,提供一种数据表分级存储方法,包括:
从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;
根据所述数据表的使用频率和出现频率计算所述数据表的热度;
根据所述数据表的热度对所述数据表进行分级存储。
优选地,该方法还包括:
获取所述数据表的更新频率;
进一步根据所述数据表的更新频率对所述数据进行分级存储。
更优地,所述数据表中包含多个周期的数据,该方法还包括:
获取数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;
进一步根据所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值对所述数据表进行分级存储。
具体地,所述根据所述数据表的使用频率和出现频率计算所述数据表的热度包括:
根据预设的权重对所述数据表的使用频率和出现频率进行加权计算,得到所述数据表的热度。
更优地,该方法还包括:
根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;
根据所述数据表的迁移值将所述数据表在高性能存储装置和低性能存储装置之间迁移。
具体地,所述根据所述数据表的迁移值将所述数据表迁移至高性能存储装置或低性能存储装置包括:
将所述数据表按照迁移值进行排序,根据所述高性能存储装置和低性能存储装置的存储容量比值,选择需要迁移到高性能存储装置或低性能存储装置的数据表。
为实现上述目的,根据本发明的另一个方面,提供一种数据表评价装置,其特征在于,包括:
第一获取模块,用于从ETL调度表中获取数据表的使用频率;
第二获取模块,用于从缓冲池中获取所述数据表的出现频率;
热度计算模块,用于根据所述数据表的使用频率和出现频率计算所述数据表的热度。
该装置还包括:
第三获取模块,用于获取所述数据表的更新频率;
和/或第四获取模块,用于获取数据表的空间占用值;
和/或第五获取模块,用于获取所述数据表中当前周期数据的空间占用值;
迁移值计算模块,用于根据预设的权值对所述数据表的热度、数据表的更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值。
为实现上述目的,根据本发明的另一个方面,提供一种数据分级存储系统,其特征在于,包括:高性能存储装置、低性能存储装置、数据表评价装置和存储控制装置,其中,
所述数据表评价装置,用于从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;
所述存储控制装置,用于根据所述数据表的热度选择需要迁移到高性能存储装置和低性能存储装置中的数据表;
所述高性能存储装置和低性能存储装置,用于存储数据表。
其中,所述数据表评价装置,用于获取所述数据表的更新频率、所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;
所述存储控制装置,用于根据所述迁移值选择需要迁移到高性能存储装置和低性能存储装置中的数据表。
本发明的数据分级存储方法、装置及系统,通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。
另外,进一步根据数据表更新频率、数据表的空间占用值和数据表中每个周期数据的空间占用值等参数计算数据表的迁移值,判断其是否需要从高性能存储装置迁移到低性能存储装置或从低性能存储装置迁移到高性能存储装置。通过根据数据表迁移的代价进行迁移,减少数据大量迁移的工作量,提升系统性能的使用率。
附图说明
图1是本发明数据分级存储方法实施例的流程图;
图2是本发明ETL调度关系示意图;
图3是本发明数据分级存储方法另一实施例的流程图;
图4是本发明数据表评价装置实施例的结构图;
图5是本发明数据分级存储系统实施例的结构图;
图6是本发明高性能存储装置和低性能存储装置示意图。
具体实施方式
数据热度,即数据在抽取转换加载(Extraction Transformation Loading,简称ETL)生产中被依赖、被使用的频度,用来评价数据库中的数据的活跃情况。
数据仓库系统经过扩容建设以后,在同一个运算集群中存在不同类型的存储,这些存储的输入/输出(input/output,简称I/O)性能是存在差别。其中磁盘阵列的I/O性能对联机分析处理(On-Line Analytical Processing,简称OLAP)数据库系统的整体性能有很大的制约关系,不同于联机事务处理系统(On-Line Transaction Processing,简称OLTP)的系统,其I/O吞吐量、带宽、高速磁盘的个数、磁阵I/O出口等指标非常重要,甚至影响了整个数据仓库的处理能力。
对于大规模并行处理(Massively parallel processing,简称MPP)架构的数据仓库系统,遵循木桶原理,某节点的性能短板会严重拖累集群的整体性能,不同型号的磁盘在进行数据分布时尽量避免混用。本发明设计将DATABASE 2(DB2)数据库不同类型的I/O分别占用不同的磁盘组,并且保证高性能的磁盘组被优先使用,充分发挥磁阵的整体I/O性能。
以下结合附图对本发明进行详细说明。
如图1所示,本发明数据分级存储方法实施例包括:
步骤102,从ETL调度表中获取数据表的使用频率;
步骤104,从缓冲池中获取数据表的出现频率;
步骤106,根据数据表的使用频率和出现频率计算数据表的热度;
步骤108,根据热度对数据表进行分级存储。
具体地,步骤102,如图2所示,在实际生产中,ETL调度表对应的每个调用任务,每个调用任务针对一张表数据的生成。通过ETL调度表获得数据表的使用频率比较直接,获取手段也相对简单。
步骤104,DB2的结构化查询语言(Structured Query Language,简称SQL)缓冲池保留了当前运行过的SQL语句,但SQL运行的缓冲池空间比较有限,SQL的缓冲遵循了最近最少使用算法(Least Recently Used,简称LRU)算法,即最近热度的SQL才具备保留价值,热度较低的被淘汰出缓冲池。每天对数据仓库的缓冲池进行刷新重置,到每天固定时间点0点统计缓冲池中存在的SQL,并从对SQL的解析提取数据表的使用,统计数据表的出现频率。
由于数据仓库在停机维护后SQL缓冲池没有SQL语句驻留,导致这段时间的热度计算没有参考价值,由于是按月进行统计,可以将明显低于平均值的几天统计舍弃,以保证出现频率的计算数据更准确。
从DB2SQL缓冲池中分析数据表出现频率的步骤描述如下:
(1)获取当前DB2SQL缓冲池的命令:db2pd db dbnamedynamic dbp
(1)执行该命令后获取的DB2SQL缓冲池列表;
(2)编写程序脚本对SQL语句进行解析,提取有效的表访问信息
(3)利用程序脚本将缓冲池内容导出,获取SQL文本信息;
(4)对文本信息进行分析,因用于事务处理的语句都是数据操纵语言(Data Manipulation Language,DML)语句,需要过滤掉数据定义语言(Data Definition Language,DDL)语句;对剩余的DML进行SQL语法分析,解析的具体方法可以使用from,join等关键字做为提取要素,最终结果是要得出具体目标表名称;
(5)对表名称进行汇总统计,得出数据表的出现频率。
步骤106,假设由ETL获取的数据表使用频率为X1,由缓冲池获取的数据表出现频率为X2,按经验这两个值实际上对数据表热度的贡献并不是一样的。考虑到X1产生都来自正式生产,X1的产生时间大约在8小时内,即ETL调度任务的生产时间;而X2的产生时间在24小时内。在生产高峰时段内,对性能的争用才能做为评判依据,即X2在生产8小时内的贡献只有X1的1/3。整个数据热度的计算按权重分配比例为3∶1,计算数据表的热度X为:
X = 3 4 × X 1 + 1 4 × X 2 .
步骤108,根据预设的阈值,选择热度大于等于该阈值的数据表放到高性能存储装置中,热度小于该阈值的数据表放到低性能存储装置中。
本发明的数据分级存储方法、装置及系统,通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。并且,按照同一个数据仓库系统实例实现分级存储,减少了数据冗余和不同实例直接的数据迁移代价。
另外,数据仓库中的数据存放基本上是按时间片进行分割的,往往同一张表中存放了半年甚至一年以上的数据,当前日、当前月的数据使用频繁,活跃度较高,其它数据的使用随时间冷却。数据表的更新频率也是分级存储需要考虑的参数之一。
优选地,获取数据表的更新频率,即每次更新数据量占总数据量的比例,更新频率直接反映了数据的业务活动量。首先从DB2数据库系统字典表中获取数据表的总日期周期个数及每次更新的日期个数,再计算数据表的更新频率。例如:表A存储30天数据,如按每日更新,则每周期数据使用比率为1/30=3.33%。对于更新频率较高的数据表,也应该优先考虑将其存储到高性能存储装置中,避免出现同一数据表跨多种存储的情况。
再者,一般情况下,当前所有数据都存储在高性能存储装置中,需要把热度较低且更新频率较低的数据表迁移到低性能存储装置中去。由于数据表的空间占用情况不同,考虑到数据表迁移所产生的工作量,在迁移时,需要进一步考虑数据表的空间占用情况。
更优地,获取数据表的空间占用值和/或数据表中当前周期数据的空间占用值;对空间占用值较大的数据表,可不进行迁移。
如下表1所示,
表1
  数据表名称   热度   更新频率   当前周期空间占用值   数据表空间占用
  A表   31   3.30%   229260   6947267
  B表   33   4.10%   124356   3033073
  C表   55   1.40%   3951975   282283900
  D表   62   1.10%   4659344   423576700
  E表   81   50.00%   679753   1359505
  F表   74   10.00%   6447545   64475450
  G表   92   12.00%   6994578   58288150
  H表   105   3.30%   596799   18084818
  I表   139   2.90%   1629003   56172501
  J表   157   3.30%   1345678   40778121
对于数据表C和数据表D,虽然数据表热度和更新频率较低,但是其当前周期空间占用值和数据表的空间占用值较大,如果迁移到低性能存储装置,需要花费大量的时间,工作量较大,因此,仍然将数据表C和数据表D保存在高性能存储装置中。
本实施例中,如图3所示,为了更精确的判断是否对数据表进行迁移,可以根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到数据表的迁移值;根据该迁移值确定迁移的数据表。
例如,可以对热度、更新频率、数据表空间占用值和当前周期数据的空间占用值这四个参数进行排序,每个数据表四个参数对应四个排序序号x、y、z和l,对于每个参数分配的权值为A、B、C、D,则计算的迁移值Q=Ax+By+Cz+Dl。
另外,由于系统扩容后,高性能存储装置和低性能存储装置的容量的是一定的,如图6所示,假设为2∶3的比率。根据计算的迁移值,选择空间占用值占总空间占用值40%的数据表仍存储到高性能存储装置中,剩下的数据表迁移到低性能存储装置中。
本实施例,通过进一步根据数据表更新频率、数据表的空间占用值和数据表中每个周期数据的空间占用值等参数计算数据表的迁移值,判断其是否需要从高性能存储装置迁移到低性能存储装置或从低性能存储装置迁移到高性能存储装置。通过根据数据表迁移的代价进行迁移,减少数据大量迁移的工作量,提升系统性能的使用率。
考虑到实际生产中对于临时空间的开销,需要再结合的存储情况,将磁盘I/O尽量由更多的磁盘组来负载。下面再结合实际对DB2中数据存储空间的设计再进行如下优化调整。
在线日志和临时与数据都放在同一独立冗余磁盘阵列(RedundantArray of Independent Disk,简称RAID)组里,是当前的存储使用设计方案。但是,在硬件条件允许,以及当前存储向I/O通道送出的数据速度偏低的情况下,能将在线日志与临时表空间与数据分离开,将能够提高数据的访问速度。目前数据仓库的典型应用场景分为如下几种:
A)日间大量的OLAP查询中常见的selece...from xxx,yyy group by...order by...,此过程中涉及到table join,group by,order by等排序过程,由于数据量很大,基本上一定会出现排序堆溢出,从而需要使用临时表空间,而且临时表空间一般也会因为数据缓冲池不够而被I/O同步进程写入磁盘,并在后续的排序过程中再次从磁盘中被I/O服务进程读入数据缓冲池,即出现写、读各一次;该临时表空间的读写与表中数据的读发生在同一个RAID组里,由于表空间一般连续分配,客观上导致在RAID组中每一块磁盘上,用户表空间与临时表空间相隔较远,会引起磁头大量的不规则来回移动,这进一步减慢了I/O速率。如果能将临时表空间与用户表空间分别放在不同的磁盘上(即不同的磁盘组上),将有助于提高数据页面的读速度。
B)数据日常加载,目前因为采用Load Non-recovery方式,因此不计日志,将在线日志与临时表空间放在单独的存储上对数据页面的生成没有影响;但是如果Load时表上带索引,则因为建索引需要进行排序,与前面日间Select操作类似,极有可能使用临时表空间,则分离临时表空间部分可能产生好的影响。
C)ETL过程中常见的生成基础汇总表、中度汇总表等操作,每天都要运行,且数据量巨大,其操作多为insert into tableA select...from tableB,tableC group by...,此过程与期间的Select情况相类似,且还增加了对目标表的insert;由于Insert操作时在线日志中写入的数据量与数据页面中新增的数据量基本相当,而日志缓冲区又远小于数据缓冲区,且Commit必须在该笔交易所污染的日志缓冲区全部溢出到磁盘后才可完成,因此在生成目标表时,要发生一次同步日志写,以及若干延数据缓冲池溢出。此时相当于约两倍于目标表新增数据的写操作发生在在线日志和用户表空间上,将在线日志与用户表空间分放在不同RAID组上,将可能有助于Insert的执行速度。
由于扩容新增存储分配给单个数据库分区的I/O速度与当前单分区的I/O速度有一些差异,依照I/O分散均摊的设计思路,保证扩容后的带宽被充分利用,设计将临时表空间和在线日志放在新增存储上可以给现网系统带来较大的性能提升。
如图4所示,本发明数据表评价装置实施例包括:
第一获取模块401,用于从ETL调度表中获取数据表的使用频率;
第二获取模块402,用于从缓冲池中获取所述数据表的出现频率;
热度计算模块403,用于根据所述数据表的使用频率和出现频率计算所述数据表的热度。
优选地,该装置还包括:第三获取模块404,用于获取所述数据表的更新频率;
和/或第四获取模块405,用于获取数据表的空间占用值;
和/或第五获取模块406,用于获取所述数据表中当前周期数据的空间占用值;
迁移值计算模块407,用于根据预设的权值对所述数据表的热度、数据表的更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值。
本实施例的数据表评价装置,通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。
另外,进一步根据数据表更新频率、数据表的空间占用值和数据表中每个周期数据的空间占用值等参数计算数据表的迁移值,判断其是否需要从高性能存储装置迁移到低性能存储装置或从低性能存储装置迁移到高性能存储装置。通过根据数据表迁移的代价进行迁移,减少数据大量迁移的工作量,提升系统性能的使用率。
如图5和图6所示,本发明数据分级存储系统实施例包括:高性能存储装置61(高性能磁盘)、低性能存储装置62(低性能磁盘)、数据表评价装置40和存储控制装置50,其中,
数据表评价装置40,用于从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;
存储控制装置50,用于根据所述数据表的热度选择需要迁移到高性能存储装置和低性能存储装置中的数据表;
高性能存储装置61和低性能存储装置62,用于存储数据表。
其中,数据表评价装置40,用于获取所述数据表的更新频率、所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;
存储控制装置50,用于根据所述迁移值选择需要迁移到高性能存储装置和低性能存储装置中的数据表。
本实施例的数据分级存储系统,通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。
另外,进一步根据数据表更新频率、数据表的空间占用值和数据表中每个周期数据的空间占用值等参数计算数据表的迁移值,判断其是否需要从高性能存储装置迁移到低性能存储装置或从低性能存储装置迁移到高性能存储装置。通过根据数据表迁移的代价进行迁移,减少数据大量迁移的工作量,提升系统性能的使用率。
应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。

Claims (10)

1.一种数据表分级存储方法,其特征在于,包括:
从抽取转换加载ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;
根据所述数据表的使用频率和出现频率计算所述数据表的热度;
根据所述数据表的热度对所述数据表进行分级存储。
2.根据权利要求1所述的数据分级存储方法,其特征在于,还包括:
获取所述数据表的更新频率;
进一步根据所述数据表的更新频率对所述数据进行分级存储。
3.根据权利要求2所述的数据分级存储方法,其特征在于,所述数据表中包含多个周期的数据,该方法还包括:
获取数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;
进一步根据所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值对所述数据表进行分级存储。
4.根据权利要求1所述的数据分级存储方法,其特征在于,所述根据所述数据表的使用频率和出现频率计算所述数据表的热度包括:
根据预设的权重对所述数据表的使用频率和出现频率进行加权计算,得到所述数据表的热度。
5.根据权利要求4所述的数据分级存储方法,其特征在于,还包括:
根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;
根据所述数据表的迁移值将所述数据表在高性能存储装置和低性能存储装置之间迁移。
6.根据权利要求5所述的数据分级存储方法,其特征在于,所述根据所述数据表的迁移值将所述数据表迁移至高性能存储装置或低性能存储装置包括:
将所述数据表按照迁移值进行排序,根据所述高性能存储装置和低性能存储装置的存储容量比值,选择需要迁移到高性能存储装置或低性能存储装置的数据表。
7.一种数据表评价装置,其特征在于,包括:
第一获取模块,用于从ETL调度表中获取数据表的使用频率;
第二获取模块,用于从缓冲池中获取所述数据表的出现频率;
热度计算模块,用于根据所述数据表的使用频率和出现频率计算所述数据表的热度。
8.根据权利要求7所述的数据表评价装置,其特征在于,还包括:
第三获取模块,用于获取所述数据表的更新频率;
和/或第四获取模块,用于获取数据表的空间占用值;
和/或第五获取模块,用于获取所述数据表中当前周期数据的空间占用值;
迁移值计算模块,用于根据预设的权值对所述数据表的热度、数据表的更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值。
9.一种数据分级存储系统,其特征在于,包括:高性能存储装置、低性能存储装置、数据表评价装置和存储控制装置,其中,
所述数据表评价装置,用于从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;
所述存储控制装置,用于根据所述数据表的热度选择需要迁移到高性能存储装置和低性能存储装置中的数据表;
所述高性能存储装置和低性能存储装置,用于存储数据表。
10.根据权利要求9所述的数据分级存储系统,其特征在于,所述数据表评价装置,用于获取所述数据表的更新频率、所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;
所述存储控制装置,用于根据所述迁移值选择需要迁移到高性能存储装置和低性能存储装置中的数据表。
CN201110448770.9A 2011-12-28 2011-12-28 一种数据分级存储方法、装置及系统 Active CN103186566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110448770.9A CN103186566B (zh) 2011-12-28 2011-12-28 一种数据分级存储方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110448770.9A CN103186566B (zh) 2011-12-28 2011-12-28 一种数据分级存储方法、装置及系统

Publications (2)

Publication Number Publication Date
CN103186566A true CN103186566A (zh) 2013-07-03
CN103186566B CN103186566B (zh) 2017-11-21

Family

ID=48677735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110448770.9A Active CN103186566B (zh) 2011-12-28 2011-12-28 一种数据分级存储方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103186566B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183391A (zh) * 2015-09-18 2015-12-23 北京京东尚科信息技术有限公司 一种分布式数据平台下数据存储的方法和装置
CN105677650A (zh) * 2014-11-18 2016-06-15 中国移动通信集团公司 一种缓存数据存储方法及装置
CN106407274A (zh) * 2016-08-26 2017-02-15 曾美枝 评估模型方法和装置
CN106502789A (zh) * 2016-10-12 2017-03-15 阔地教育科技有限公司 一种资源访问方法及装置
CN106557469A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 一种处理数据仓库中数据的方法及装置
CN106599121A (zh) * 2016-11-30 2017-04-26 海尔优家智能科技(北京)有限公司 一种用于物联网的数据处理方法及系统
CN106682020A (zh) * 2015-11-10 2017-05-17 北京京东尚科信息技术有限公司 评估模型重要性的方法和装置
CN106933927A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 数据表的连接方法和装置
WO2017143824A1 (zh) * 2016-02-24 2017-08-31 华为技术有限公司 事务执行方法、装置及系统
CN107729570A (zh) * 2017-11-20 2018-02-23 北京百度网讯科技有限公司 用于服务器的数据迁移方法和装置
CN107870735A (zh) * 2016-09-28 2018-04-03 杭州华为数字技术有限公司 数据管理方法、装置和设备
WO2018119976A1 (zh) * 2016-12-30 2018-07-05 日彩电子科技(深圳)有限公司 应用于数据仓库系统的高效优化数据布局方法
CN108509147A (zh) * 2017-02-28 2018-09-07 慧与发展有限责任合伙企业 数据块迁移
CN109151196A (zh) * 2018-08-18 2019-01-04 王梅 基于当前位置在移动互联网内进行数据预取的方法及系统
CN109189737A (zh) * 2018-08-18 2019-01-11 王梅 根据时间分段在移动互联网内进行文件预取的方法及系统
CN109240987A (zh) * 2018-08-18 2019-01-18 王梅 用于移动互联网的基于时间进行数据预取的方法及系统
CN109271352A (zh) * 2018-08-18 2019-01-25 王梅 在移动互联网内根据状态信息进行文件预取的方法及系统
CN109710616A (zh) * 2018-12-29 2019-05-03 郑州春泉节能股份有限公司 一种数据的存放方法
CN112231367A (zh) * 2020-12-14 2021-01-15 腾讯科技(深圳)有限公司 基于人工智能的业务处理方法、装置及电子设备
CN112380217A (zh) * 2020-11-17 2021-02-19 安徽鸿程光电有限公司 数据处理方法、装置、设备及介质
CN112559531A (zh) * 2020-12-22 2021-03-26 平安银行股份有限公司 数据收集方法、装置、电子设备及存储介质
CN114201119A (zh) * 2022-02-17 2022-03-18 天津市天河计算机技术有限公司 一种超级计算机作业数据分层存储系统及方法
CN114722243A (zh) * 2022-04-15 2022-07-08 北京科杰科技有限公司 一种数据表排序方法及装置、电子设备、存储介质
WO2022217987A1 (zh) * 2021-04-12 2022-10-20 华为云计算技术有限公司 数据表热度区分方法、装置以及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5506986A (en) * 1992-07-14 1996-04-09 Electronic Data Systems Corporation Media management system using historical data to access data sets from a plurality of data storage devices
US6622142B1 (en) * 1999-04-13 2003-09-16 Staktek Group, L.P. Database utilities
CN1996311A (zh) * 2006-01-02 2007-07-11 国际商业机器公司 管理存储系统的方法和数据处理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5506986A (en) * 1992-07-14 1996-04-09 Electronic Data Systems Corporation Media management system using historical data to access data sets from a plurality of data storage devices
US6622142B1 (en) * 1999-04-13 2003-09-16 Staktek Group, L.P. Database utilities
CN1996311A (zh) * 2006-01-02 2007-07-11 国际商业机器公司 管理存储系统的方法和数据处理系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吕帅: ""基于对象的分级存储系统数据迁移技术研究"", 《CNKI中国优秀硕士学位论文全文数据库》 *
吕帅: ""海量信息分级存储数据迁移策略研究"", 《计算机科学与工程》 *
江菲 等: ""基于价值评估的数据迁移策略研究"", 《电子设计工程》 *
江菲 等: ""基于价值评估的数据迁移策略研究"", 《电子设计工程》, vol. 19, no. 7, 15 April 2011 (2011-04-15) *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677650A (zh) * 2014-11-18 2016-06-15 中国移动通信集团公司 一种缓存数据存储方法及装置
CN105677650B (zh) * 2014-11-18 2019-06-25 中国移动通信集团公司 一种缓存数据存储方法及装置
CN105183391B (zh) * 2015-09-18 2018-12-28 北京京东尚科信息技术有限公司 一种分布式数据平台下数据存储的方法和装置
CN105183391A (zh) * 2015-09-18 2015-12-23 北京京东尚科信息技术有限公司 一种分布式数据平台下数据存储的方法和装置
CN106557469B (zh) * 2015-09-24 2020-11-20 创新先进技术有限公司 一种处理数据仓库中数据的方法及装置
CN106557469A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 一种处理数据仓库中数据的方法及装置
CN106682020B (zh) * 2015-11-10 2021-01-26 北京京东尚科信息技术有限公司 评估模型重要性的方法和装置
CN106682020A (zh) * 2015-11-10 2017-05-17 北京京东尚科信息技术有限公司 评估模型重要性的方法和装置
CN106933927A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 数据表的连接方法和装置
CN106933927B (zh) * 2015-12-31 2019-12-10 北京国双科技有限公司 数据表的连接方法和装置
WO2017143824A1 (zh) * 2016-02-24 2017-08-31 华为技术有限公司 事务执行方法、装置及系统
US10891286B2 (en) 2016-02-24 2021-01-12 Huawei Technologies Co., Ltd. Transaction execution method, apparatus, and system
CN106407274A (zh) * 2016-08-26 2017-02-15 曾美枝 评估模型方法和装置
CN107870735A (zh) * 2016-09-28 2018-04-03 杭州华为数字技术有限公司 数据管理方法、装置和设备
CN107870735B (zh) * 2016-09-28 2021-01-05 华为技术有限公司 数据管理方法、装置和设备
CN106502789A (zh) * 2016-10-12 2017-03-15 阔地教育科技有限公司 一种资源访问方法及装置
CN106599121A (zh) * 2016-11-30 2017-04-26 海尔优家智能科技(北京)有限公司 一种用于物联网的数据处理方法及系统
CN106599121B (zh) * 2016-11-30 2020-11-10 海尔优家智能科技(北京)有限公司 一种用于物联网的数据处理方法及系统
WO2018119976A1 (zh) * 2016-12-30 2018-07-05 日彩电子科技(深圳)有限公司 应用于数据仓库系统的高效优化数据布局方法
CN108509147A (zh) * 2017-02-28 2018-09-07 慧与发展有限责任合伙企业 数据块迁移
CN107729570A (zh) * 2017-11-20 2018-02-23 北京百度网讯科技有限公司 用于服务器的数据迁移方法和装置
CN107729570B (zh) * 2017-11-20 2021-06-08 北京百度网讯科技有限公司 用于服务器的数据迁移方法和装置
CN109189737B (zh) * 2018-08-18 2021-11-26 北京合思信息技术有限公司 根据时间分段在移动互联网内进行文件预取的方法及系统
CN109151196A (zh) * 2018-08-18 2019-01-04 王梅 基于当前位置在移动互联网内进行数据预取的方法及系统
CN109271352A (zh) * 2018-08-18 2019-01-25 王梅 在移动互联网内根据状态信息进行文件预取的方法及系统
CN109271352B (zh) * 2018-08-18 2021-10-22 上海豹云网络信息服务有限公司 在移动互联网内根据状态信息进行文件预取的方法及系统
CN109240987A (zh) * 2018-08-18 2019-01-18 王梅 用于移动互联网的基于时间进行数据预取的方法及系统
CN109240987B (zh) * 2018-08-18 2021-10-22 上海豹云网络信息服务有限公司 用于移动互联网的基于时间进行数据预取的方法及系统
CN109189737A (zh) * 2018-08-18 2019-01-11 王梅 根据时间分段在移动互联网内进行文件预取的方法及系统
CN109151196B (zh) * 2018-08-18 2021-04-20 朗森特科技有限公司 基于当前位置在移动互联网内进行数据预取的方法及系统
CN109710616B (zh) * 2018-12-29 2021-10-22 郑州春泉节能股份有限公司 一种数据的存放方法
CN109710616A (zh) * 2018-12-29 2019-05-03 郑州春泉节能股份有限公司 一种数据的存放方法
CN112380217A (zh) * 2020-11-17 2021-02-19 安徽鸿程光电有限公司 数据处理方法、装置、设备及介质
CN112380217B (zh) * 2020-11-17 2024-04-12 安徽鸿程光电有限公司 数据处理方法、装置、设备及介质
CN112231367B (zh) * 2020-12-14 2021-03-09 腾讯科技(深圳)有限公司 基于人工智能的业务处理方法、装置及电子设备
CN112231367A (zh) * 2020-12-14 2021-01-15 腾讯科技(深圳)有限公司 基于人工智能的业务处理方法、装置及电子设备
CN112559531A (zh) * 2020-12-22 2021-03-26 平安银行股份有限公司 数据收集方法、装置、电子设备及存储介质
CN112559531B (zh) * 2020-12-22 2023-07-25 平安银行股份有限公司 数据收集方法、装置、电子设备及存储介质
WO2022217987A1 (zh) * 2021-04-12 2022-10-20 华为云计算技术有限公司 数据表热度区分方法、装置以及相关设备
CN114201119A (zh) * 2022-02-17 2022-03-18 天津市天河计算机技术有限公司 一种超级计算机作业数据分层存储系统及方法
CN114201119B (zh) * 2022-02-17 2022-05-13 天津市天河计算机技术有限公司 一种超级计算机作业数据分层存储系统及方法
CN114722243A (zh) * 2022-04-15 2022-07-08 北京科杰科技有限公司 一种数据表排序方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN103186566B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN103186566A (zh) 一种数据分级存储方法、装置及系统
CN103678519B (zh) 一种支持Hive DML增强的混合存储系统及其方法
CN103593422A (zh) 一种异构数据库的虚拟访问管理方法
CN108027763A (zh) 关系型数据库的调整装置和方法
Mustafa et al. A machine learning approach for predicting execution time of spark jobs
CN106681823A (zh) 一种处理MapReduce数据倾斜的负载均衡方法
CN111858759A (zh) 一种基于共识算法的htap数据库
CN103984595A (zh) 一种异构cmp的静态任务调度方法
CN103019855A (zh) MapReduce作业执行时间预测方法
CN111639121A (zh) 一种构建客户画像的大数据平台及构建方法
Cheng Evaluation and Analysis of High‐Quality Development of New Urbanization Based on Intelligent Computing
CN110990340B (zh) 一种大数据多层次存储架构
Ji et al. Query execution optimization in spark SQL
CN103246539A (zh) 基于用户使用习惯的gis系统模块加载方法
Averkieva et al. Urban shrinkage in Russia: Concepts and causes of urban population loss in the post-Soviet period
CN114676208A (zh) 一种数据仓库
US20140229512A1 (en) Discounted future value operations on a massively parallel processing system and methods thereof
Zhai et al. Query optimization approach with shuffle intermediate cache layer for spark SQL
Derzko et al. Optimal exploration and consumption of a national resource-stochastic case
CN112434010A (zh) 一种用电信息采集系统主站数据库的交互方法
CN101650803A (zh) 一种添加预算完成信息的方法、装置及预算控制系统
CN117707742B (zh) 基于负载预测的能耗均衡作业调度方法及系统
CN112965665B (zh) 一种基于sas和ssd的gp数据库数据存储方法
Guo et al. The Application Research about Data Warehouse Based on ERP
CN111523990B (zh) 一种账务数据的多维核算处理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant