CN112230860B - 一种提高数据分层效率的方法及装置 - Google Patents

一种提高数据分层效率的方法及装置 Download PDF

Info

Publication number
CN112230860B
CN112230860B CN202011150241.6A CN202011150241A CN112230860B CN 112230860 B CN112230860 B CN 112230860B CN 202011150241 A CN202011150241 A CN 202011150241A CN 112230860 B CN112230860 B CN 112230860B
Authority
CN
China
Prior art keywords
read
cycle
period
association degree
write data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011150241.6A
Other languages
English (en)
Other versions
CN112230860A (zh
Inventor
葛宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011150241.6A priority Critical patent/CN112230860B/zh
Publication of CN112230860A publication Critical patent/CN112230860A/zh
Application granted granted Critical
Publication of CN112230860B publication Critical patent/CN112230860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Semiconductor Memories (AREA)

Abstract

本发明公开一种提高数据分层效率的方法及装置,在一统计周期内,统计前端发起的任意两个读写数据块的本周期关联度;对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层。本发明以数据块关联度为出发点,增加预热数据层,通过将关联度高的数据块调整到预热数据层,优化数据分层,统计周期粒度小、且贴近当前周期,反馈实时输入输出需求,提升分层效果。

Description

一种提高数据分层效率的方法及装置
技术领域
本发明涉及数据分层领域,具体涉及一种提高数据分层效率的方法及装置。
背景技术
目前,存储产品将数据划分为热数据和冷数据,热数据存放在高速层,冷数据存放在低速层。并通过周期性统计数据访问情况区分热数据和冷数据,制定数据调整计划,实现冷热数据的动态迁移,但统计和调整周期偏长(一般为24小时),不能反映输入输出的实时需求,从而导致输入输出效率提升效果弱化。
发明内容
为解决上述问题,本发明提供一种提高数据分层效率的方法及装置,反馈实时输入输出需求,提升分层效果。
本发明的技术方案是:一种提高数据分层效率的方法,包括以下步骤:
在一统计周期内,统计前端发起的任意两个读写数据块的本周期关联度;
对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;
若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层。
进一步地,在一统计周期内,将前端发起的任意两个读写数据块的本周期关联度记为1。
进一步地,对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度,具体为:
本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数;
其中, 0<预设退化系数≤1。
进一步地,上周期累计关联度乘以预设退化系数后向下取整再与本周期关联度相加获得本周期累计关联度。
进一步地,统计单位时间内的读写次数,根据读写密度调整统计周期;读写密度越大,统计周期越短。
本发明的技术方案还包括一种提高数据分层效率的装置,包括,
本周期关联度统计模块:在一统计周期内,统计前端发起的任意两个读写数据块的本周期关联度;
本周期累计关联度计算模块:对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;
数据迁移模块:若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层。
进一步地,本周期关联度统计模块将前端发起的任意两个读写数据块的本周期关联度记为1。
进一步地,本周期累计关联度计算模块对每两个读写数据块利用其本周期关联度与其上周期累计关联度获得本周期累计关联度,具体为:
本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数;
其中,0<预设退化系数≤1。
进一步地,该装置还包括,
统计周期调整模块:统计单位时间内的读写次数,根据读写密度调整统计周期;读写密度越大,统计周期越短。
本发明提供的一种提高数据分层效率的方法及装置,以数据块关联度为出发点,增加预热数据层,通过将关联度高的数据块调整到预热数据层,优化数据分层,统计周期粒度小、且贴近当前周期,反馈实时输入输出需求,提升分层效果。
附图说明
图1是本发明具体实施例一方法流程示意图;
图2是本发明具体实施例二结构示意框图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,本实施例提供一种提高数据分层效率的方法,包括以下步骤:
S1,在一统计周期内,统计前端发起的任意两个读写数据块的本周期关联度;
需要说明的是,统计周期预先设定,比如设置为1小时,每1小时统计计算一次数据块关联度。当然也可根据读写密度动态调整统计周期,即统计单位时间内的读写次数,单位时间内的读写次数即读写密度,读写密度越大,即读写越频繁,设置统计周期越短。具体地,可预先设置统计周期,若单位时间内的读写次数为1-100,则设置统计周期为T1,若单位时间内的读写次数为100-200,则设置统计周期为T2,T1长于T2。
本实施例中,在一统计周期内,将前端发起的任意两个读写数据块的本周期关联度记为1。
例如,某次统计周期内,读写包含3个数据块:A、B、C;则数据块本周期关联度记为(A,B)=1、(A,C)=1、(B, C) = 1。
S2,对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;
本实施例累计统计两个读写数据块之间的关联度,根据读写数据块之间的累计关联度判断是否需要迁移。
具体地,在每一统计周期,将本周期的两个读写数据块的关联度与上周期累计关联度相加获得本周期累计关联度,即到目前为止的累计关联度,以该累计关联度判断迁移情况。
另外,本实施例还考虑两个读写数据块之间的关联度退化,进而对每两个读写数据块,其本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数。
其中,0<预设退化系数≤1,可选取预设退化系数为0.5,其可根据业务实际情况调整。为简化计算,将上周期累计关联度乘以预设退化系数后向下取整作为上周期关联度退化值。需要说明的是,预设退化系数取1时,则为不考虑关联度退化的情况。
例如,某次统计周期内,读写包含3个数据块:A、B、C;则数据块本周期关联度记为(A,B)=1、(A,C)=1、(B, C) = 1。若A、B读写数据块的上周期累计关联度(A,B)=5;
则目前该周期,A、B两个读写数据块的上周期关联度退化值=向下取整(上周期累计关联度*预设退化系数)=向下取整(5*0.5)=2;
进一步,A、B读写数据块的本周期累计关联度=本周期关联度+上周期关联度退化值=1+2=3。
S3,若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层;
例如,假定预设关联度阈值为8,某次统计周期,A、B读写数据块的本周期累计关联度为10,超过预设关联度阈值,若A、B读写数据块其中一个在热数据层,另一个在冷数据层,则将冷数据层的数据迁移到预热数据层。需要说明的是,若两者都在冷数据层、预热数据层或者一个在预热数据层、一个在冷数据层,则不进行移动。
通过上述方法,在原冷热数据迁移的一个周期内(一般设置为24小时),通过多个粒度较小的统计周期(例如设置为1小时),将处于冷数据层内的与热数据关联度较高的数据迁移到预热数据层,优化数据分层,反映实时输入输出需求。预热数据层的读写效率高于冷数据层,通过增加预热数据层提高数据访问效率,提升分层效果。
实施例二
如图2所示,本实施例提供一种提高数据分层效率的装置,包括以下功能模块。
本周期关联度统计模块101:在一统计周期内,统计任意两个读写数据块的本周期关联度;
本周期累计关联度计算模块102:对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;
数据迁移模块103:若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层。
其中,本周期关联度统计模块101任意两个读写数据块的本周期关联度记为1。
本周期累计关联度计算模块102每两个读写数据块利用其本周期关联度与其上周期累计关联度获得本周期累计关联度,具体为:本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数;其中,0<预设退化系数≤1,具体可将预设退化系数设置为0.5。另外,具体实施时,上周期累计关联度*预设退化系数之后向下取整再与本周期关联度相加,以简化运算。需要说明的是,预设退化系数取1时,则为不考虑关联度退化的情况。
另外,统计周期可设置为固定值,也可动态调整统计周期,设置以下功能模块:
统计周期调整模块104:统计单位时间内的读写次数,根据读写密度调整统计周期;读写密度越大,统计周期越短。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (7)

1.一种提高数据分层效率的方法,其特征在于,包括以下步骤:
在一统计周期内,统计前端发起的任意两个读写数据块的本周期关联度;
对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;
若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层;
其中,对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度,具体为:
本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数;
其中, 0<预设退化系数≤1。
2.根据权利要求1所述的提高数据分层效率的方法,其特征在于,在一统计周期内,将前端发起的任意两个读写数据块的本周期关联度记为1。
3.根据权利要求2所述的提高数据分层效率的方法,其特征在于,上周期累计关联度乘以预设退化系数后向下取整再与本周期关联度相加获得本周期累计关联度。
4.根据权利要求1、2或3所述的提高数据分层效率的方法,其特征在于,统计单位时间内的读写次数,根据读写密度调整统计周期;读写密度越大,统计周期越短。
5.一种提高数据分层效率的装置,其特征在于,包括,
本周期关联度统计模块:在一统计周期内,统计前端发起的任意两个读写数据块的本周期关联度;
本周期累计关联度计算模块:对每两个读写数据块,利用其本周期关联度与其上周期累计关联度获得本周期累计关联度;
数据迁移模块:若某两个读写数据块的本周期累计关联度大于预设关联度阈值,且其中一个读写数据块在热数据层,另一个读写数据块在冷数据层,则将在冷数据层的读写数据块迁移到预热数据层;
其中,本周期累计关联度计算模块对每两个读写数据块利用其本周期关联度与其上周期累计关联度获得本周期累计关联度,具体为:
本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数;
其中,0<预设退化系数≤1。
6.根据权利要求5所述的提高数据分层效率的装置,其特征在于,本周期关联度统计模块将前端发起的任意两个读写数据块的本周期关联度记为1。
7.根据权利要求5或6所述的提高数据分层效率的装置,其特征在于,该装置还包括,
统计周期调整模块:统计单位时间内的读写次数,根据读写密度调整统计周期;读写密度越大,统计周期越短。
CN202011150241.6A 2020-10-23 2020-10-23 一种提高数据分层效率的方法及装置 Active CN112230860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011150241.6A CN112230860B (zh) 2020-10-23 2020-10-23 一种提高数据分层效率的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011150241.6A CN112230860B (zh) 2020-10-23 2020-10-23 一种提高数据分层效率的方法及装置

Publications (2)

Publication Number Publication Date
CN112230860A CN112230860A (zh) 2021-01-15
CN112230860B true CN112230860B (zh) 2022-07-22

Family

ID=74109923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011150241.6A Active CN112230860B (zh) 2020-10-23 2020-10-23 一种提高数据分层效率的方法及装置

Country Status (1)

Country Link
CN (1) CN112230860B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473335A (zh) * 2013-09-18 2013-12-25 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN105892942A (zh) * 2016-03-30 2016-08-24 中国联合网络通信集团有限公司 混合存储系统的操作方法、控制器和电子设备
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473335A (zh) * 2013-09-18 2013-12-25 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN105892942A (zh) * 2016-03-30 2016-08-24 中国联合网络通信集团有限公司 混合存储系统的操作方法、控制器和电子设备
CN106709068A (zh) * 2017-01-22 2017-05-24 郑州云海信息技术有限公司 一种热点数据识别方法及其装置

Also Published As

Publication number Publication date
CN112230860A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
US10776263B2 (en) Non-deterministic window scheduling for data storage systems
CN111324303B (zh) Ssd垃圾回收方法、装置、计算机设备及存储介质
CN104516471B (zh) 一种管理存储器系统的电源的方法和装置
CN108776614B (zh) 存储块的回收方法和装置
CN103019887B (zh) 数据备份方法及装置
US10908839B2 (en) Storage device throttling amount of communicated data depending on suspension frequency of operation
CN102521260B (zh) 数据预热方法及装置
CN111052067A (zh) 具有电源管理的存储器装置
CN104268099B (zh) 一种管理数据读写的方法及装置
CN103688247A (zh) 混合slc/mlc存储器中的块管理方案
CN105487823A (zh) 一种数据迁移的方法及装置
CN108845768A (zh) 一种数据存储方法、装置、设备及存储介质
CN102789403B (zh) 一种闪存控制器及其控制方法
CN103092531A (zh) 一种消除固态存储系统读取错误的方法
US10324959B2 (en) Garbage collection in storage system
CN110969481B (zh) 产品数据预测方法、装置、计算机设备和存储介质
CN112527746A (zh) 日志存储方法、装置、设备及存储介质
CN112230860B (zh) 一种提高数据分层效率的方法及装置
CN115794446B (zh) 一种消息处理方法、装置、电子设备和存储介质
CN112463048B (zh) 一种compact处理速度的调整方法、装置、电子设备和介质
US6233700B1 (en) Method for management of cache page and medium having a cache page management program stored therein
CN112732189A (zh) 数据存储方法、装置、存储介质及电子设备
CN111752704B (zh) 一种分布式存储文件系统mds日志落盘方法及装置
CN101770426B (zh) 存储方法及存储设备
CN109725841A (zh) 数据写入方法、装置、存储系统、存储介质与控制器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant