CN107967306B - 一种存储系统中关联块的快速挖掘方法 - Google Patents

一种存储系统中关联块的快速挖掘方法 Download PDF

Info

Publication number
CN107967306B
CN107967306B CN201711113802.3A CN201711113802A CN107967306B CN 107967306 B CN107967306 B CN 107967306B CN 201711113802 A CN201711113802 A CN 201711113802A CN 107967306 B CN107967306 B CN 107967306B
Authority
CN
China
Prior art keywords
access
accessed
data
data block
frequently
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711113802.3A
Other languages
English (en)
Other versions
CN107967306A (zh
Inventor
谭支鹏
周炜
冯丹
徐高翔
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711113802.3A priority Critical patent/CN107967306B/zh
Publication of CN107967306A publication Critical patent/CN107967306A/zh
Application granted granted Critical
Publication of CN107967306B publication Critical patent/CN107967306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种存储系统中关联块的快速挖掘方法,属于计算机信息存储领域。本发明首先将被频繁顺序访问的连续数据块识别出来,然后被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区,简化原始的数据访问记录,采用关联数据块挖掘算法对简化后的数据访问记录进行挖掘,将挖掘出的频繁序列中的顺序访问连续数据区域替换为其所对应的各数据块,得到最终的关联块挖掘结果,通过大量减少关联数据块挖掘过程中顺序访问的频繁连续数据所需的时间和空间开销,本方法可以大幅提高存储系统中关联块的挖掘效率。

Description

一种存储系统中关联块的快速挖掘方法
技术领域
本发明属于计算机信息存储领域,更具体地,涉及一种存储系统中关联块的快速挖掘方法。
背景技术
关联数据块在存储系统中有很大的研究价值,例如在预取一个数据块是将关联访问的数据块一起预取,后续请求的数据在缓存中命中则会提高响应速度,又例如将关联访问的数据块存放在存储设备的同一区域,访问这些关联的数据块时能达到更快的速度。
经典的关联块挖掘算法要消耗大量的计算和存储资源,现有方法在存储系统中往往以较低的频率进行关联块挖掘,对负载的变化响应不及时。尤其在大数据时代随着数据量的急剧增长,关联数据块挖掘的开销问题变得尤为明显。采用高效快速的关联块挖掘算法,是存储系统适应负载变化的关键,也是提高存储效率的关键。
存储系统中有很大部分的关联访问是由顺序访问请求产生的,例如一些较大的文件包含的多个数据块,这些数据块存放在一片连续的区域;或者多个连续访问的文件,它们的数据块存放在一片连续的空间。当这些文件被访问时,它们所包含的数据块也被顺序访问。现有关联块挖掘算法在历史访问记录中挖掘这些顺序访问的关联块时,需要消耗大量的计算时间和存储空间。减少关联块挖掘过程中对顺序访问数据块的挖掘开销,能够有效减少挖掘的整体开销,提高效率。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种存储系统中关联块的快速挖掘方法,其目的在于首先将频繁顺序访问数据区识别出来,之后将每个频繁顺序访问数据区当作一个整体,简化访问记录,再采用关联数据块挖掘算法对简化后的访问记录进行挖掘,得到最终挖掘结果,由此解决现有的关联块挖掘算法效率不高的技术问题。
为实现上述目的,本发明提供了一种存储系统中关联块的快速挖掘方法,所述方法包括一下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;所述关联数据块挖掘算法可采用prefixspan算法或clospan算法,优选clospan算法;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
进一步地,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
进一步地,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值范围为[8~1024],优选32,访问阈值根据具体应用场景设定。
进一步地,所述步骤(1)具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。
进一步地,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)采用了基于频繁顺序访问数据区的历史记录约简方法,能够大幅减少关联块挖掘过程中的时间和空间开销;
(2)采用了顺序访问计数与访问计数比对的方法,能够快速识别频繁顺序访问数据区。
附图说明
图1是本发明方法实施例的实施流程图;
图2是本发明方法实施例中识别频繁顺序访问数据区的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明方法实施例包括以下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用clospan算法挖掘关联数据块;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
其中,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
其中,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值32。
其中,实施例中识别频繁顺序访问数据区如图2所示,具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于32,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区,如图2中频繁顺序访问数据区1和频繁顺序访问数据区2。
其中,为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种存储系统中关联块的快速挖掘方法,其特征在于,所述方法包括以下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果;
所述步骤(1)具体包括以下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。
2.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
3.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值。
4.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
CN201711113802.3A 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法 Active CN107967306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711113802.3A CN107967306B (zh) 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711113802.3A CN107967306B (zh) 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法

Publications (2)

Publication Number Publication Date
CN107967306A CN107967306A (zh) 2018-04-27
CN107967306B true CN107967306B (zh) 2020-07-03

Family

ID=62001031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711113802.3A Active CN107967306B (zh) 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法

Country Status (1)

Country Link
CN (1) CN107967306B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442555B (zh) * 2019-07-26 2021-08-31 华中科技大学 一种选择性预留空间的减少碎片的方法及系统
CN111208944B (zh) * 2019-12-30 2023-06-27 深圳佰维存储科技股份有限公司 数据预判方法、装置和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020256A (zh) * 2012-12-21 2013-04-03 电子科技大学 一种大规模数据的关联规则挖掘方法
CN104881467A (zh) * 2015-05-26 2015-09-02 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN105183841A (zh) * 2015-09-06 2015-12-23 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636860B2 (en) * 2001-04-26 2003-10-21 International Business Machines Corporation Method and system for data mining automation in domain-specific analytic applications
US7509337B2 (en) * 2005-07-05 2009-03-24 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020256A (zh) * 2012-12-21 2013-04-03 电子科技大学 一种大规模数据的关联规则挖掘方法
CN104881467A (zh) * 2015-05-26 2015-09-02 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN105183841A (zh) * 2015-09-06 2015-12-23 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于MFSP-DG 的个性化推荐算法;张忠平等;《计算机工程与应用》;20081231;全文 *

Also Published As

Publication number Publication date
CN107967306A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
US9767140B2 (en) Deduplicating storage with enhanced frequent-block detection
EP3229142B1 (en) Read cache management method and device based on solid state drive
KR101599177B1 (ko) 복합식 비휘발성 저장 디바이스를 위한 데이터 이송
US11314689B2 (en) Method, apparatus, and computer program product for indexing a file
CN111930316B (zh) 一种内容分发网络的缓存读写系统和方法
CN108073527B (zh) 一种缓存替换的方法和设备
CN107665095B (zh) 存储器空间管理的设备、方法及可读存储介质
CN112214420A (zh) 数据缓存方法、存储控制装置、及存储设备
CN103399823A (zh) 业务数据的存储方法、设备和系统
CN107967306B (zh) 一种存储系统中关联块的快速挖掘方法
CN109002400B (zh) 一种内容感知型计算机缓存管理系统及方法
CN112799590B (zh) 一种针对在线主存储重删的差异化缓存方法
CN115934002B (zh) 固态硬盘的访问方法、固态硬盘、存储系统及云服务器
KR102071072B1 (ko) 데이터 저장장치의 주소 맵핑 테이블 운용 방법
US11132128B2 (en) Systems and methods for data placement in container-based storage systems
CN110658999B (zh) 一种信息更新方法、装置、设备及计算机可读存储介质
KR20220154612A (ko) 파일 속성에 따른 캐시 관리 방법 및 파일 속성에 따라 동작하는 캐시 관리 장치
CN116069752A (zh) 一种面向分布式文件系统的混合预取方法
CN107506156B (zh) 一种块设备的io优化方法
CN111796757A (zh) 一种固态硬盘缓存区管理方法和装置
US11829341B2 (en) Space-efficient persistent hash table data structure
US20220147265A1 (en) Metadata management for extent-based storage system
CN107122264B (zh) 海量数据容灾备份方法
CN116910314A (zh) 基于键值分离的键值存储系统中范围查询优化方法及装置
CN116974472A (zh) 面向存储架构的重复数据删除方法、装置及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant