CN107967306A - 一种存储系统中关联块的快速挖掘方法 - Google Patents

一种存储系统中关联块的快速挖掘方法 Download PDF

Info

Publication number
CN107967306A
CN107967306A CN201711113802.3A CN201711113802A CN107967306A CN 107967306 A CN107967306 A CN 107967306A CN 201711113802 A CN201711113802 A CN 201711113802A CN 107967306 A CN107967306 A CN 107967306A
Authority
CN
China
Prior art keywords
access
data block
data
block
sequential access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711113802.3A
Other languages
English (en)
Other versions
CN107967306B (zh
Inventor
谭支鹏
周炜
冯丹
徐高翔
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711113802.3A priority Critical patent/CN107967306B/zh
Publication of CN107967306A publication Critical patent/CN107967306A/zh
Application granted granted Critical
Publication of CN107967306B publication Critical patent/CN107967306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种存储系统中关联块的快速挖掘方法,属于计算机信息存储领域。本发明首先将被频繁顺序访问的连续数据块识别出来,然后被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区,简化原始的数据访问记录,采用关联数据块挖掘算法对简化后的数据访问记录进行挖掘,将挖掘出的频繁序列中的顺序访问连续数据区域替换为其所对应的各数据块,得到最终的关联块挖掘结果,通过大量减少关联数据块挖掘过程中顺序访问的频繁连续数据所需的时间和空间开销,本方法可以大幅提高存储系统中关联块的挖掘效率。

Description

一种存储系统中关联块的快速挖掘方法
技术领域
本发明属于计算机信息存储领域,更具体地,涉及一种存储系统中关联块的快速挖掘方法。
背景技术
关联数据块在存储系统中有很大的研究价值,例如在预取一个数据块是将关联访问的数据块一起预取,后续请求的数据在缓存中命中则会提高响应速度,又例如将关联访问的数据块存放在存储设备的同一区域,访问这些关联的数据块时能达到更快的速度。
经典的关联块挖掘算法要消耗大量的计算和存储资源,现有方法在存储系统中往往以较低的频率进行关联块挖掘,对负载的变化响应不及时。尤其在大数据时代随着数据量的急剧增长,关联数据块挖掘的开销问题变得尤为明显。采用高效快速的关联块挖掘算法,是存储系统适应负载变化的关键,也是提高存储效率的关键。
存储系统中有很大部分的关联访问是由顺序访问请求产生的,例如一些较大的文件包含的多个数据块,这些数据块存放在一片连续的区域;或者多个连续访问的文件,它们的数据块存放在一片连续的空间。当这些文件被访问时,它们所包含的数据块也被顺序访问。现有关联块挖掘算法在历史访问记录中挖掘这些顺序访问的关联块时,需要消耗大量的计算时间和存储空间。减少关联块挖掘过程中对顺序访问数据块的挖掘开销,能够有效减少挖掘的整体开销,提高效率。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种存储系统中关联块的快速挖掘方法,其目的在于首先将频繁顺序访问数据区识别出来,之后将每个频繁顺序访问数据区当作一个整体,简化访问记录,再采用关联数据块挖掘算法对简化后的访问记录进行挖掘,得到最终挖掘结果,由此解决现有的关联块挖掘算法效率不高的技术问题。
为实现上述目的,本发明提供了一种存储系统中关联块的快速挖掘方法,所述方法包括一下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;所述关联数据块挖掘算法可采用prefixspan算法或clospan算法,优选clospan算法;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
进一步地,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
进一步地,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值范围为[8~1024],优选32,访问阈值根据具体应用场景设定。
进一步地,所述步骤(1)具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。
进一步地,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)采用了基于频繁顺序访问数据区的历史记录约简方法,能够大幅减少关联块挖掘过程中的时间和空间开销;
(2)采用了顺序访问计数与访问计数比对的方法,能够快速识别频繁顺序访问数据区。
附图说明
图1是本发明方法实施例的实施流程图;
图2是本发明方法实施例中识别频繁顺序访问数据区的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明方法实施例包括以下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用clospan算法挖掘关联数据块;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
其中,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
其中,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值32。
其中,实施例中识别频繁顺序访问数据区如图2所示,具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于32,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区,如图2中频繁顺序访问数据区1和频繁顺序访问数据区2。
其中,为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种存储系统中关联块的快速挖掘方法,其特征在于,所述方法包括一下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
2.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
3.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值。
4.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述步骤(1)具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。
5.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
CN201711113802.3A 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法 Active CN107967306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711113802.3A CN107967306B (zh) 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711113802.3A CN107967306B (zh) 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法

Publications (2)

Publication Number Publication Date
CN107967306A true CN107967306A (zh) 2018-04-27
CN107967306B CN107967306B (zh) 2020-07-03

Family

ID=62001031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711113802.3A Active CN107967306B (zh) 2017-11-13 2017-11-13 一种存储系统中关联块的快速挖掘方法

Country Status (1)

Country Link
CN (1) CN107967306B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442555A (zh) * 2019-07-26 2019-11-12 华中科技大学 一种选择性预留空间的减少碎片的方法及系统
CN111208944A (zh) * 2019-12-30 2020-05-29 深圳佰维存储科技股份有限公司 数据预判方法、装置和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198889A1 (en) * 2001-04-26 2002-12-26 International Business Machines Corporation Method and system for data mining automation in domain-specific analytic applications
US20070011135A1 (en) * 2005-07-05 2007-01-11 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications
CN103020256A (zh) * 2012-12-21 2013-04-03 电子科技大学 一种大规模数据的关联规则挖掘方法
CN104881467A (zh) * 2015-05-26 2015-09-02 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN105183841A (zh) * 2015-09-06 2015-12-23 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198889A1 (en) * 2001-04-26 2002-12-26 International Business Machines Corporation Method and system for data mining automation in domain-specific analytic applications
US20070011135A1 (en) * 2005-07-05 2007-01-11 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications
CN103020256A (zh) * 2012-12-21 2013-04-03 电子科技大学 一种大规模数据的关联规则挖掘方法
CN104881467A (zh) * 2015-05-26 2015-09-02 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN105183841A (zh) * 2015-09-06 2015-12-23 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张忠平等: "一种基于MFSP-DG 的个性化推荐算法", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442555A (zh) * 2019-07-26 2019-11-12 华中科技大学 一种选择性预留空间的减少碎片的方法及系统
CN110442555B (zh) * 2019-07-26 2021-08-31 华中科技大学 一种选择性预留空间的减少碎片的方法及系统
CN111208944A (zh) * 2019-12-30 2020-05-29 深圳佰维存储科技股份有限公司 数据预判方法、装置和可读存储介质
CN111208944B (zh) * 2019-12-30 2023-06-27 深圳佰维存储科技股份有限公司 数据预判方法、装置和可读存储介质

Also Published As

Publication number Publication date
CN107967306B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
US8738861B2 (en) Data prefetching method for distributed hash table DHT storage system, node, and system
US8738850B2 (en) Flash-aware storage optimized for mobile and embedded DBMS on NAND flash memory
CN103984640B (zh) 实现数据预取方法及装置
EP3229142A1 (en) Read cache management method and device based on solid state drive
CN102902762B (zh) 一种删除重复数据的方法、装置和系统
CN104461632A (zh) 一种Web App加载方法及装置
CN110147204B (zh) 一种元数据落盘方法、装置、系统及计算机可读存储介质
CN105190573A (zh) 存储数据的减少冗余
CN104281533A (zh) 一种存储数据的方法及装置
CN109766312A (zh) 一种区块链存储方法、系统、装置及计算机可读存储介质
CN110321325A (zh) 文件索引节点查找方法、终端、服务器、系统及存储介质
CN103049393B (zh) 内存空间管理方法和装置
CN109240611A (zh) 小文件冷热数据分层方法、小文件数据访问方法及其装置
CN109981659A (zh) 基于数据去重技术的网络资源预取方法以及系统
CN112307263A (zh) 一种文件存储方法、装置、设备及介质
CN110018996A (zh) 一种分布式存储系统的快照回滚方法及相关装置
CN107967306A (zh) 一种存储系统中关联块的快速挖掘方法
CN112148217B (zh) 全闪存储系统的重删元数据的缓存方法、装置及介质
CN107168891A (zh) 一种i/o特征识别方法以及装置
CN106021566A (zh) 一种提高单台数据库并发处理能力的方法、装置及系统
Bahjat et al. Deleted file fragment dating by analysis of allocated neighbors
CN107506466A (zh) 一种小文件存储方法及系统
CN107037988B (zh) 一种基于文件级粒度的闪存安全删除方法及系统
CN109819013B (zh) 一种基于云存储的区块链存储容量优化方法
CN111309702A (zh) 一种文件内、文件间聚合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant