CN107967306B - 一种存储系统中关联块的快速挖掘方法 - Google Patents
一种存储系统中关联块的快速挖掘方法 Download PDFInfo
- Publication number
- CN107967306B CN107967306B CN201711113802.3A CN201711113802A CN107967306B CN 107967306 B CN107967306 B CN 107967306B CN 201711113802 A CN201711113802 A CN 201711113802A CN 107967306 B CN107967306 B CN 107967306B
- Authority
- CN
- China
- Prior art keywords
- access
- accessed
- data
- data block
- frequently
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种存储系统中关联块的快速挖掘方法,属于计算机信息存储领域。本发明首先将被频繁顺序访问的连续数据块识别出来,然后被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区,简化原始的数据访问记录,采用关联数据块挖掘算法对简化后的数据访问记录进行挖掘,将挖掘出的频繁序列中的顺序访问连续数据区域替换为其所对应的各数据块,得到最终的关联块挖掘结果,通过大量减少关联数据块挖掘过程中顺序访问的频繁连续数据所需的时间和空间开销,本方法可以大幅提高存储系统中关联块的挖掘效率。
Description
技术领域
本发明属于计算机信息存储领域,更具体地,涉及一种存储系统中关联块的快速挖掘方法。
背景技术
关联数据块在存储系统中有很大的研究价值,例如在预取一个数据块是将关联访问的数据块一起预取,后续请求的数据在缓存中命中则会提高响应速度,又例如将关联访问的数据块存放在存储设备的同一区域,访问这些关联的数据块时能达到更快的速度。
经典的关联块挖掘算法要消耗大量的计算和存储资源,现有方法在存储系统中往往以较低的频率进行关联块挖掘,对负载的变化响应不及时。尤其在大数据时代随着数据量的急剧增长,关联数据块挖掘的开销问题变得尤为明显。采用高效快速的关联块挖掘算法,是存储系统适应负载变化的关键,也是提高存储效率的关键。
存储系统中有很大部分的关联访问是由顺序访问请求产生的,例如一些较大的文件包含的多个数据块,这些数据块存放在一片连续的区域;或者多个连续访问的文件,它们的数据块存放在一片连续的空间。当这些文件被访问时,它们所包含的数据块也被顺序访问。现有关联块挖掘算法在历史访问记录中挖掘这些顺序访问的关联块时,需要消耗大量的计算时间和存储空间。减少关联块挖掘过程中对顺序访问数据块的挖掘开销,能够有效减少挖掘的整体开销,提高效率。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种存储系统中关联块的快速挖掘方法,其目的在于首先将频繁顺序访问数据区识别出来,之后将每个频繁顺序访问数据区当作一个整体,简化访问记录,再采用关联数据块挖掘算法对简化后的访问记录进行挖掘,得到最终挖掘结果,由此解决现有的关联块挖掘算法效率不高的技术问题。
为实现上述目的,本发明提供了一种存储系统中关联块的快速挖掘方法,所述方法包括一下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;所述关联数据块挖掘算法可采用prefixspan算法或clospan算法,优选clospan算法;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
进一步地,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
进一步地,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值范围为[8~1024],优选32,访问阈值根据具体应用场景设定。
进一步地,所述步骤(1)具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。
进一步地,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)采用了基于频繁顺序访问数据区的历史记录约简方法,能够大幅减少关联块挖掘过程中的时间和空间开销;
(2)采用了顺序访问计数与访问计数比对的方法,能够快速识别频繁顺序访问数据区。
附图说明
图1是本发明方法实施例的实施流程图;
图2是本发明方法实施例中识别频繁顺序访问数据区的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明方法实施例包括以下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用clospan算法挖掘关联数据块;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。
其中,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
其中,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值32。
其中,实施例中识别频繁顺序访问数据区如图2所示,具体包括一下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于32,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区,如图2中频繁顺序访问数据区1和频繁顺序访问数据区2。
其中,为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种存储系统中关联块的快速挖掘方法,其特征在于,所述方法包括以下步骤:
(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;
(2)为每个频繁顺序访问数据区指定一个代号;
(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;
(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;
(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果;
所述步骤(1)具体包括以下步骤:
(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;
(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;
(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。
2.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。
3.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值。
4.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711113802.3A CN107967306B (zh) | 2017-11-13 | 2017-11-13 | 一种存储系统中关联块的快速挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711113802.3A CN107967306B (zh) | 2017-11-13 | 2017-11-13 | 一种存储系统中关联块的快速挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967306A CN107967306A (zh) | 2018-04-27 |
CN107967306B true CN107967306B (zh) | 2020-07-03 |
Family
ID=62001031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711113802.3A Active CN107967306B (zh) | 2017-11-13 | 2017-11-13 | 一种存储系统中关联块的快速挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967306B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442555B (zh) * | 2019-07-26 | 2021-08-31 | 华中科技大学 | 一种选择性预留空间的减少碎片的方法及系统 |
CN111208944B (zh) * | 2019-12-30 | 2023-06-27 | 深圳佰维存储科技股份有限公司 | 数据预判方法、装置和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN105183841A (zh) * | 2015-09-06 | 2015-12-23 | 南京游族信息技术有限公司 | 大数据环境下结合频繁项集和深度学习的推荐方法 |
CN105608135A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种基于Apriori算法的数据挖掘方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6636860B2 (en) * | 2001-04-26 | 2003-10-21 | International Business Machines Corporation | Method and system for data mining automation in domain-specific analytic applications |
US7509337B2 (en) * | 2005-07-05 | 2009-03-24 | International Business Machines Corporation | System and method for selecting parameters for data mining modeling algorithms in data mining applications |
-
2017
- 2017-11-13 CN CN201711113802.3A patent/CN107967306B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN105183841A (zh) * | 2015-09-06 | 2015-12-23 | 南京游族信息技术有限公司 | 大数据环境下结合频繁项集和深度学习的推荐方法 |
CN105608135A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种基于Apriori算法的数据挖掘方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种基于MFSP-DG 的个性化推荐算法;张忠平等;《计算机工程与应用》;20081231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107967306A (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9767140B2 (en) | Deduplicating storage with enhanced frequent-block detection | |
EP3229142B1 (en) | Read cache management method and device based on solid state drive | |
KR101599177B1 (ko) | 복합식 비휘발성 저장 디바이스를 위한 데이터 이송 | |
US11314689B2 (en) | Method, apparatus, and computer program product for indexing a file | |
CN107430551B (zh) | 数据缓存方法、存储控制装置、及存储设备 | |
CN111930316B (zh) | 一种内容分发网络的缓存读写系统和方法 | |
CN108073527B (zh) | 一种缓存替换的方法和设备 | |
CN107665095B (zh) | 存储器空间管理的设备、方法及可读存储介质 | |
CN107967306B (zh) | 一种存储系统中关联块的快速挖掘方法 | |
CN115470157A (zh) | 预取方法、电子设备、存储介质及程序产品 | |
KR102071072B1 (ko) | 데이터 저장장치의 주소 맵핑 테이블 운용 방법 | |
CN109002400B (zh) | 一种内容感知型计算机缓存管理系统及方法 | |
CN112799590B (zh) | 一种针对在线主存储重删的差异化缓存方法 | |
CN116910314A (zh) | 基于键值分离的键值存储系统中范围查询优化方法及装置 | |
US11132128B2 (en) | Systems and methods for data placement in container-based storage systems | |
CN110658999B (zh) | 一种信息更新方法、装置、设备及计算机可读存储介质 | |
KR20220154612A (ko) | 파일 속성에 따른 캐시 관리 방법 및 파일 속성에 따라 동작하는 캐시 관리 장치 | |
CN116069752A (zh) | 一种面向分布式文件系统的混合预取方法 | |
CN107506156B (zh) | 一种块设备的io优化方法 | |
CN111796757A (zh) | 一种固态硬盘缓存区管理方法和装置 | |
US11829341B2 (en) | Space-efficient persistent hash table data structure | |
CN107506445A (zh) | 云数据系统中数据查询的响应方法和装置 | |
US20220147265A1 (en) | Metadata management for extent-based storage system | |
CN116974472A (zh) | 面向存储架构的重复数据删除方法、装置及可读介质 | |
CN117331860A (zh) | 基于位图和布谷鸟过滤器的多流固态硬盘地址映射方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |