CN107967306B

CN107967306B - 一种存储系统中关联块的快速挖掘方法

Info

Publication number: CN107967306B
Application number: CN201711113802.3A
Authority: CN
Inventors: 谭支鹏; 周炜; 冯丹; 徐高翔; 张鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2020-07-03
Anticipated expiration: 2037-11-13
Also published as: CN107967306A

Abstract

本发明公开了一种存储系统中关联块的快速挖掘方法，属于计算机信息存储领域。本发明首先将被频繁顺序访问的连续数据块识别出来，然后被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区，简化原始的数据访问记录，采用关联数据块挖掘算法对简化后的数据访问记录进行挖掘，将挖掘出的频繁序列中的顺序访问连续数据区域替换为其所对应的各数据块，得到最终的关联块挖掘结果，通过大量减少关联数据块挖掘过程中顺序访问的频繁连续数据所需的时间和空间开销，本方法可以大幅提高存储系统中关联块的挖掘效率。

Description

一种存储系统中关联块的快速挖掘方法

技术领域

本发明属于计算机信息存储领域，更具体地，涉及一种存储系统中关联块的快速挖掘方法。

背景技术

关联数据块在存储系统中有很大的研究价值，例如在预取一个数据块是将关联访问的数据块一起预取，后续请求的数据在缓存中命中则会提高响应速度，又例如将关联访问的数据块存放在存储设备的同一区域，访问这些关联的数据块时能达到更快的速度。

经典的关联块挖掘算法要消耗大量的计算和存储资源，现有方法在存储系统中往往以较低的频率进行关联块挖掘，对负载的变化响应不及时。尤其在大数据时代随着数据量的急剧增长，关联数据块挖掘的开销问题变得尤为明显。采用高效快速的关联块挖掘算法，是存储系统适应负载变化的关键，也是提高存储效率的关键。

存储系统中有很大部分的关联访问是由顺序访问请求产生的，例如一些较大的文件包含的多个数据块，这些数据块存放在一片连续的区域；或者多个连续访问的文件，它们的数据块存放在一片连续的空间。当这些文件被访问时，它们所包含的数据块也被顺序访问。现有关联块挖掘算法在历史访问记录中挖掘这些顺序访问的关联块时，需要消耗大量的计算时间和存储空间。减少关联块挖掘过程中对顺序访问数据块的挖掘开销，能够有效减少挖掘的整体开销，提高效率。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种存储系统中关联块的快速挖掘方法，其目的在于首先将频繁顺序访问数据区识别出来，之后将每个频繁顺序访问数据区当作一个整体，简化访问记录，再采用关联数据块挖掘算法对简化后的访问记录进行挖掘，得到最终挖掘结果，由此解决现有的关联块挖掘算法效率不高的技术问题。

为实现上述目的，本发明提供了一种存储系统中关联块的快速挖掘方法，所述方法包括一下步骤：

(1)根据访问记录识别出所有被频繁顺序访问的连续数据块，所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区；

(2)为每个频繁顺序访问数据区指定一个代号；

(3)在访问记录中，用所述代号替换对应频繁顺序访问数据区中的数据块，生成一个替换访问记录；

(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块；所述关联数据块挖掘算法可采用prefixspan算法或clospan算法，优选clospan算法；

(5)在挖掘结果中，将代号替换回对应频繁顺序访问数据区的数据块，得到最终挖掘结果。

进一步地，所述访问记录记录了一段时间内存储系统收到的访问请求，每一个访问请求按时间先后顺序对应一条记录信息，记录信息包括但不限于被请求访问的数据块的地址。

进一步地，所述被频繁顺序访问的连续数据块是地址上连续的多个数据块，且所述多个数据块被顺序访问，访问次数大于访问阈值；所述访问阈值取值范围为[8～1024]，优选32，访问阈值根据具体应用场景设定。

进一步地，所述步骤(1)具体包括一下步骤：

(11)遍历访问记录，记录每个数据块的访问次数和顺序访问次数，有请求访问数据块时，当前请求所访问的数据块的访问次数加1，并判断当前请求与上一个请求所访问的数据块地址是否连续，若连续，则将当前请求所访问的数据块的顺序访问次数加1，否则不增加；

(12)若数据块被访问次数大于访问阈值，并且它的访问次数与顺序访问次数相等，则将该数据块标记为被频繁顺序访问的数据块；

(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。

进一步地，所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值，且每个代号各不相同。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：

(1)采用了基于频繁顺序访问数据区的历史记录约简方法，能够大幅减少关联块挖掘过程中的时间和空间开销；

(2)采用了顺序访问计数与访问计数比对的方法，能够快速识别频繁顺序访问数据区。

附图说明

图1是本发明方法实施例的实施流程图；

图2是本发明方法实施例中识别频繁顺序访问数据区的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明方法实施例包括以下步骤：

(2)为每个频繁顺序访问数据区指定一个代号；

(4)对替换访问记录使用clospan算法挖掘关联数据块；

其中，所述访问记录记录了一段时间内存储系统收到的访问请求，每一个访问请求按时间先后顺序对应一条记录信息，记录信息包括但不限于被请求访问的数据块的地址。

其中，所述被频繁顺序访问的连续数据块是地址上连续的多个数据块，且所述多个数据块被顺序访问，访问次数大于访问阈值；所述访问阈值取值32。

其中，实施例中识别频繁顺序访问数据区如图2所示，具体包括一下步骤：

(12)若数据块被访问次数大于32，并且它的访问次数与顺序访问次数相等，则将该数据块标记为被频繁顺序访问的数据块；

(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区，如图2中频繁顺序访问数据区1和频繁顺序访问数据区2。

其中，为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值，且每个代号各不相同。

以上内容本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种存储系统中关联块的快速挖掘方法，其特征在于，所述方法包括以下步骤：

(2)为每个频繁顺序访问数据区指定一个代号；

(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块；

(5)在挖掘结果中，将代号替换回对应频繁顺序访问数据区的数据块，得到最终挖掘结果；

所述步骤(1)具体包括以下步骤：

2.根据权利要求1所述的一种关联块的快速挖掘方法，其特征在于，所述访问记录记录了一段时间内存储系统收到的访问请求，每一个访问请求按时间先后顺序对应一条记录信息，记录信息包括但不限于被请求访问的数据块的地址。

3.根据权利要求1所述的一种关联块的快速挖掘方法，其特征在于，所述被频繁顺序访问的连续数据块是地址上连续的多个数据块，且所述多个数据块被顺序访问，访问次数大于访问阈值。

4.根据权利要求1所述的一种关联块的快速挖掘方法，其特征在于，所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值，且每个代号各不相同。