CN112230860B

CN112230860B - 一种提高数据分层效率的方法及装置

Info

Publication number: CN112230860B
Application number: CN202011150241.6A
Authority: CN
Inventors: 葛宁
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-07-22
Anticipated expiration: 2040-10-23
Also published as: CN112230860A

Abstract

本发明公开一种提高数据分层效率的方法及装置，在一统计周期内，统计前端发起的任意两个读写数据块的本周期关联度；对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度；若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层。本发明以数据块关联度为出发点，增加预热数据层，通过将关联度高的数据块调整到预热数据层，优化数据分层，统计周期粒度小、且贴近当前周期，反馈实时输入输出需求，提升分层效果。

Description

一种提高数据分层效率的方法及装置

技术领域

本发明涉及数据分层领域，具体涉及一种提高数据分层效率的方法及装置。

背景技术

目前，存储产品将数据划分为热数据和冷数据，热数据存放在高速层，冷数据存放在低速层。并通过周期性统计数据访问情况区分热数据和冷数据，制定数据调整计划，实现冷热数据的动态迁移，但统计和调整周期偏长（一般为24小时），不能反映输入输出的实时需求，从而导致输入输出效率提升效果弱化。

发明内容

为解决上述问题，本发明提供一种提高数据分层效率的方法及装置，反馈实时输入输出需求，提升分层效果。

本发明的技术方案是：一种提高数据分层效率的方法，包括以下步骤：

在一统计周期内，统计前端发起的任意两个读写数据块的本周期关联度；

对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度；

若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层。

进一步地，在一统计周期内，将前端发起的任意两个读写数据块的本周期关联度记为1。

进一步地，对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度，具体为：

本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数；

其中， 0＜预设退化系数≤1。

进一步地，上周期累计关联度乘以预设退化系数后向下取整再与本周期关联度相加获得本周期累计关联度。

进一步地，统计单位时间内的读写次数，根据读写密度调整统计周期；读写密度越大，统计周期越短。

本发明的技术方案还包括一种提高数据分层效率的装置，包括，

本周期关联度统计模块：在一统计周期内，统计前端发起的任意两个读写数据块的本周期关联度；

本周期累计关联度计算模块：对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度；

数据迁移模块：若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层。

进一步地，本周期关联度统计模块将前端发起的任意两个读写数据块的本周期关联度记为1。

进一步地，本周期累计关联度计算模块对每两个读写数据块利用其本周期关联度与其上周期累计关联度获得本周期累计关联度，具体为：

其中，0＜预设退化系数≤1。

进一步地，该装置还包括，

统计周期调整模块：统计单位时间内的读写次数，根据读写密度调整统计周期；读写密度越大，统计周期越短。

本发明提供的一种提高数据分层效率的方法及装置，以数据块关联度为出发点，增加预热数据层，通过将关联度高的数据块调整到预热数据层，优化数据分层，统计周期粒度小、且贴近当前周期，反馈实时输入输出需求，提升分层效果。

附图说明

图1是本发明具体实施例一方法流程示意图；

图2是本发明具体实施例二结构示意框图。

具体实施方式

下面结合附图并通过具体实施例对本发明进行详细阐述，以下实施例是对本发明的解释，而本发明并不局限于以下实施方式。

实施例一

如图1所示，本实施例提供一种提高数据分层效率的方法，包括以下步骤：

S1，在一统计周期内，统计前端发起的任意两个读写数据块的本周期关联度；

需要说明的是，统计周期预先设定，比如设置为1小时，每1小时统计计算一次数据块关联度。当然也可根据读写密度动态调整统计周期，即统计单位时间内的读写次数，单位时间内的读写次数即读写密度，读写密度越大，即读写越频繁，设置统计周期越短。具体地，可预先设置统计周期，若单位时间内的读写次数为1-100，则设置统计周期为T1，若单位时间内的读写次数为100-200，则设置统计周期为T2，T1长于T2。

本实施例中，在一统计周期内，将前端发起的任意两个读写数据块的本周期关联度记为1。

例如，某次统计周期内，读写包含3个数据块：A、B、C；则数据块本周期关联度记为（A，B）=1、（A，C）=1、(B, C) = 1。

S2，对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度；

本实施例累计统计两个读写数据块之间的关联度，根据读写数据块之间的累计关联度判断是否需要迁移。

具体地，在每一统计周期，将本周期的两个读写数据块的关联度与上周期累计关联度相加获得本周期累计关联度，即到目前为止的累计关联度，以该累计关联度判断迁移情况。

另外，本实施例还考虑两个读写数据块之间的关联度退化，进而对每两个读写数据块，其本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数。

其中，0＜预设退化系数≤1，可选取预设退化系数为0.5，其可根据业务实际情况调整。为简化计算，将上周期累计关联度乘以预设退化系数后向下取整作为上周期关联度退化值。需要说明的是，预设退化系数取1时，则为不考虑关联度退化的情况。

例如，某次统计周期内，读写包含3个数据块：A、B、C；则数据块本周期关联度记为（A，B）=1、（A，C）=1、(B, C) = 1。若A、B读写数据块的上周期累计关联度（A，B）=5；

则目前该周期，A、B两个读写数据块的上周期关联度退化值=向下取整（上周期累计关联度*预设退化系数）=向下取整（5*0.5）=2；

进一步，A、B读写数据块的本周期累计关联度=本周期关联度+上周期关联度退化值=1+2=3。

S3，若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层；

例如，假定预设关联度阈值为8，某次统计周期，A、B读写数据块的本周期累计关联度为10，超过预设关联度阈值，若A、B读写数据块其中一个在热数据层，另一个在冷数据层，则将冷数据层的数据迁移到预热数据层。需要说明的是，若两者都在冷数据层、预热数据层或者一个在预热数据层、一个在冷数据层，则不进行移动。

通过上述方法，在原冷热数据迁移的一个周期内（一般设置为24小时），通过多个粒度较小的统计周期（例如设置为1小时），将处于冷数据层内的与热数据关联度较高的数据迁移到预热数据层，优化数据分层，反映实时输入输出需求。预热数据层的读写效率高于冷数据层，通过增加预热数据层提高数据访问效率，提升分层效果。

实施例二

如图2所示，本实施例提供一种提高数据分层效率的装置，包括以下功能模块。

本周期关联度统计模块101：在一统计周期内，统计任意两个读写数据块的本周期关联度；

本周期累计关联度计算模块102：对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度；

数据迁移模块103：若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层。

其中，本周期关联度统计模块101任意两个读写数据块的本周期关联度记为1。

本周期累计关联度计算模块102每两个读写数据块利用其本周期关联度与其上周期累计关联度获得本周期累计关联度，具体为：本周期累计关联度=本周期关联度+上周期累计关联度*预设退化系数；其中，0＜预设退化系数≤1，具体可将预设退化系数设置为0.5。另外，具体实施时，上周期累计关联度*预设退化系数之后向下取整再与本周期关联度相加，以简化运算。需要说明的是，预设退化系数取1时，则为不考虑关联度退化的情况。

另外，统计周期可设置为固定值，也可动态调整统计周期，设置以下功能模块：

统计周期调整模块104：统计单位时间内的读写次数，根据读写密度调整统计周期；读写密度越大，统计周期越短。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种提高数据分层效率的方法，其特征在于，包括以下步骤：

若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层；

其中，对每两个读写数据块，利用其本周期关联度与其上周期累计关联度获得本周期累计关联度，具体为：

其中， 0＜预设退化系数≤1。

2.根据权利要求1所述的提高数据分层效率的方法，其特征在于，在一统计周期内，将前端发起的任意两个读写数据块的本周期关联度记为1。

3.根据权利要求2所述的提高数据分层效率的方法，其特征在于，上周期累计关联度乘以预设退化系数后向下取整再与本周期关联度相加获得本周期累计关联度。

4.根据权利要求1、2或3所述的提高数据分层效率的方法，其特征在于，统计单位时间内的读写次数，根据读写密度调整统计周期；读写密度越大，统计周期越短。

5.一种提高数据分层效率的装置，其特征在于，包括，

数据迁移模块：若某两个读写数据块的本周期累计关联度大于预设关联度阈值，且其中一个读写数据块在热数据层，另一个读写数据块在冷数据层，则将在冷数据层的读写数据块迁移到预热数据层；

其中，本周期累计关联度计算模块对每两个读写数据块利用其本周期关联度与其上周期累计关联度获得本周期累计关联度，具体为：

其中，0＜预设退化系数≤1。

6.根据权利要求5所述的提高数据分层效率的装置，其特征在于，本周期关联度统计模块将前端发起的任意两个读写数据块的本周期关联度记为1。

7.根据权利要求5或6所述的提高数据分层效率的装置，其特征在于，该装置还包括，