CN101788995B - 一种热点数据识别方法及装置 - Google Patents

一种热点数据识别方法及装置 Download PDF

Info

Publication number
CN101788995B
CN101788995B CN200910217194XA CN200910217194A CN101788995B CN 101788995 B CN101788995 B CN 101788995B CN 200910217194X A CN200910217194X A CN 200910217194XA CN 200910217194 A CN200910217194 A CN 200910217194A CN 101788995 B CN101788995 B CN 101788995B
Authority
CN
China
Prior art keywords
granule
access frequency
statistical form
mean value
primary granule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910217194XA
Other languages
English (en)
Other versions
CN101788995A (zh
Inventor
董浩
龚涛
张翔
杜小华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN200910217194XA priority Critical patent/CN101788995B/zh
Publication of CN101788995A publication Critical patent/CN101788995A/zh
Application granted granted Critical
Publication of CN101788995B publication Critical patent/CN101788995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种热点数据识别方法及装置,包括:根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值;当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒;将所述热一级颗粒划分为二级颗粒;在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息;根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值;当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。本发明实施例可以利用有限的内存空间完成对热点数据的识别。

Description

一种热点数据识别方法及装置
技术领域
本发明涉及存储领域,尤其涉及一种热点数据识别方法及装置。 
背景技术
在计算机的使用过程中会产生大量数据,这些数据都需要被存储在磁盘上以备其他业务使用,许多业务在访问存储系统时,对随机IO并发性都有很高的要求。为满足业务应用的要求,提高存储系统的每秒钟处理IO请求(I/Oper second,IOPS)的能力,引入了热点数据迁移、二级缓存等新技术,而这些技术都依赖于热点数据识别技术。 
现有的热点数据识别技术主要包括,将存储区域划分为若干数据块,对所有数据块做精细化统计,统计若干块被访问的次数,根据被访问的次数计算被访问的频率,再根据块的被访问的频率判断其是否是热点数据区域。例如,以块的大小为32M为例,一个存储空间为2T的存储区域具有2T/32M=64K个块,如果一个存储阵列同时存在2K个这样的存储区域,那么这个存储阵列的存储空间为2T*2K=4P字节,假设块的管理单元是64字节,那么管理4P存储空间需要的统计信息空间为2K*64K*64=8G字节。这些统计信息是存放在高速介质上的,只有最近被访问的数据库的统计信息才会调入内存中,所以对统计信息而言就需要支持换入换出机制。可见,现有的热点数据识别技术较难利用有限的内存空间完成对热点数据的识别,统计信息必须采用换入换出方式实现数据的统计,降低了热点数据识别的效率。 
发明内容
本发明实施例提供了一种热点数据识别方法及装置,可以利用有限的内存空间完成对热点数据的识别。 
本发明实施例提供的热点数据识别方法,包括:根据预置的在内存中创建的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值,所述第一统计表用于存储所述一级颗粒的信息; 
当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒; 
将所述热一级颗粒划分为二级颗粒; 
在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息; 
根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值; 
当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。 
本发明实施例提供的热点数据识别装置,包括: 
第一计算模块,用于根据预置的在内存中创建的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值,所述第一统计表用于存储所述一级颗粒的信息; 
第一确定模块,用于当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒; 
第二划分模块,用于将所述热一级颗粒划分为二级颗粒; 
第二创建模块,用于在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息; 
第二计算模块,用于根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值; 
第二确定模块,用于当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。 
从以上技术方案可以看出,本发明实施例具有以下优点: 
本发明实施例不需要对所有数据块都做精细化的统计,采用分级的方法识别热点数据,动态创建二级颗粒,根据与二级颗粒对应的第二统计表,计算该二级颗粒的周期访问频率加权平均值,当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗粒确定为热点数据区域,由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒,而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒,相应的不属于热一级颗粒的一级颗粒则不需要在内存中建立二级统计表进行管理,而一级颗粒不属于精细化的划分,所以其统计表占用内存的资源较少,并且二级统计表是动态建立的,所以本 发明实施例可以利用有限的内存空间完成对热点数据的识别。 
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 
图1为本发明实施例中数据访问方法一个实施例示意图; 
图2为本发明实施例中数据访问方法另一实施例示意图; 
图3为本发明实施例中数据访问装置实施例的结构示意图; 
图4为本发明实施例中数据访问装置另一个实施例的结构示意图。 
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。 
本发明实施例提供了一种热点数据识别方法及装置,可以利用有限的内存空间完成对热点数据的识别。 
请参阅图1,本发明实施例中数据处理方法一个实施例包括: 
S100、根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值; 
众所周知,计算机硬盘是通过磁介质来存储信息的。一块计算机硬盘内部包含若干个磁盘片,磁盘片上的磁涂层是由数量众多的、体积极为细小的颗粒组成,若干个颗粒组成一个记录单元来记录1比特(bit)信息,即0或1; 
本发明实施例预先将存储区域划分为若干个一级颗粒,每一个一级颗粒可以被看做一个单独的数据块,同时,在内存中创建一级颗粒对应的第一统计表,第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
具体的,步骤S100可以按照以下步骤执行: 
a、统计当前周期内,一级颗粒的访问频率,需要说明的是,周期的大小是预先设定的,并且可以根据业务需要进行动态调整; 
b、根据一级颗粒的访问频率,以及第一统计表中存储的历史周期访问频率加权平均值等信息计算获得当前周期内一级颗粒的周期访问频率加权平均值,具体的计算公式如下: 
bn=an+kan-1+k2an-2+.........+k(n-1)a1, 
cn=bn/(1+k+k2+.........+kn-1); 
其中,a表示当前周期内数据块的访问频率,b表示数据块所有历史访问频率的加权值,c表示数据块所有历史访问频率的加权平均值,下标n表示第n个统计周期,k表示加权系数,其取值范围为0≤k<1,k取值越小,cn受以前访问频率影响就越小,受当前周期访问频率影响就越大,热点数据识别就越灵敏,但波动也比较大;反之k取值越大,数据块冷热变化就越平缓。 
下表是加权系数与历史访问记录的关系: 
Figure G200910217194XD00041
S105、当一级颗粒的周期访问频率加权平均值达到第一阈值时,将该一级颗粒确定为热一级颗粒; 
具体的,这里的第一阈值是指一级颗粒的热点门限值,可以根据数据块热点门限公式,计算出一级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该一级颗粒的周期访问频率加权平均值达到第一阈值,则将其标识为热一级颗粒。 
S110、将该热一级颗粒划分为二级颗粒; 
与一级颗粒不同的是,二级颗粒是动态划分的,只有被确定为热一级颗粒的一级颗粒,才会被划分为若干个二级颗粒,而一级颗粒是预先划分的。 
S115、在内存中创建第二统计表,该第二统计表用于存储二级颗粒的信息; 
具体的,第二统计表中可以包括二级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
第一统计表和第二统计表在内存中可以用二级哈希表的形式进行维护,也可以用二叉树的形式进行维护,在此不做限定。 
S120、根据第二统计表,获得下一个周期内该二级颗粒的周期访问频率加权平均值; 
在步骤S110将该热一级颗粒划分为二级颗粒后,当前周期结束,开始下一个周期; 
具体的,步骤S120可以按照以下步骤执行: 
a、计算该周期内,一级颗粒的周期访问频率加权平均值; 
一级颗粒的周期访问频率加权平均值的计算公式如步骤S100所述,这里不再赘述; 
b、根据该周期内一级颗粒的周期访问频率加权平均值,计算获得该周期内二级颗粒的周期访问频率加权平均值,具体的计算公式如下: 
若该二级颗粒是第一次参与统计,计算公式是: 
S=S1+k×(F/total_num), 
其中,S1为该周期内该二级颗粒的访问频率;k为加权系数;F是该周期 内,一级颗粒的周期访问频率加权平均值;total_num为该一级颗粒中所包含的二级颗粒的个数; 
若该二级颗粒不是第一次参与统计,其计算公式可参考步骤100中的周期访问频率加权平均值的计算公式,这里不再赘述。 
S125、当二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据; 
具体的,这里的第二阈值是指二级颗粒的热点门限值,可以根据数据块热点门限公式,计算出二级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该二级颗粒的周期访问频率加权平均值达到第二阈值,那么该二级颗粒属于热点数据区域,热点数据区域中的数据为热点数据。 
从以上技术方案可以看出,本发明实施例具有以下优点: 
本发明实施例不需要对所有数据块都做精细化的统计,采用分级的方法识别热点数据,动态创建二级颗粒,根据与二级颗粒对应的第二统计表,计算该二级颗粒的周期访问频率加权平均值,当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗粒确定为热点数据区域,由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒,而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒,相应的不属于热一级颗粒的一级颗粒则不需要在内存中建立二级统计表进行管理,而一级颗粒不属于精细化的划分,所以其统计表占用内存的资源较少,并且二级统计表是动态建立的,所以本发明实施例可以利用有限的内存空间完成对热点数据的识别。 
请参阅图2,本发明实施例中数据访问方法另一个实施例包括: 
S200、将存储区域划分为一级颗粒; 
具体的,将存储区域划分为若干个一级颗粒,每一个一级颗粒可以被看做一个单独的数据块。 
S205、在内存中创建第一统计表,该第一统计表用于存储该一级颗粒的信息; 
具体的,在存储区域被划分为一级颗粒后,在内存中创建一级颗粒对应 的第一统计表,第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
S210、根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值; 
具体的计算方法及计算公式请参考上一实施例,这里不再赘述。 
S215、将计算获得的一级颗粒的周期访问频率加权平均值写入第一统计表; 
具体的,将步骤S210中计算获得的一级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第一统计表,以备下一次计算一级颗粒的周期访问频率加权平均值时使用。 
S220、当一级颗粒的周期访问频率加权平均值达到第一阈值时,将该一级颗粒确定为热一级颗粒; 
具体的,这里的第一阈值是指一级颗粒的热点门限值,可以根据数据块热点门限公式,计算出一级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该一级颗粒的周期访问频率加权平均值达到第一阈值,则将其标识为热一级颗粒; 
需要说明的是步骤S215和步骤S220没有前后顺序之分,可以先将一级颗粒的周期访问频率加权平均值写入第一统计表,也可以先用该一级颗粒的周期访问频率加权平均值判断该一级颗粒是否是热一级颗粒。 
S225、将该热一级颗粒划分为二级颗粒; 
与一级颗粒不同的是,二级颗粒是动态划分的,只有被确定为热一级颗粒的一级颗粒,才会被划分为若干个二级颗粒,而一级颗粒是预先划分的。 
S230、在内存中创建第二统计表,该第二统计表用于存储二级颗粒的信息; 
具体的,第二统计表中可以包括二级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
第一统计表和第二统计表在内存中可以用二级哈希表的形式进行维护,也可以用二叉树的形式进行维护,在此不做限定。 
S235、根据第二统计表,获得下一个周期内该二级颗粒的周期访问频率加权平均值; 
在步骤S225将该热一级颗粒划分为二级颗粒后,当前周期结束,开始下一个周期; 
具体的,该二级颗粒的周期访问频率加权平均值的计算方法及计算公式请参见上一实施例,这里不再赘述。 
S240、将计算获得的二级颗粒的周期访问频率加权平均值写入第二统计表; 
具体的,将步骤S235中计算获得的二级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第二统计表,以备下一次计算二级颗粒的周期访问频率加权平均值时使用。 
S245、当二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据; 
具体的,这里的第二阈值是指二级颗粒的热点门限值,可以根据数据块热点门限公式,计算出二级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该二级颗粒的周期访问频率加权平均值达到第二阈值,那么该二级颗粒属于热点数据区域,热点数据区域中的数据为热点数据。 
需要说明的是,步骤S240和步骤S245没有前后顺序之分,可以先将二级颗粒的周期访问频率加权平均值写入第二统计表,也可以先用该二级颗粒的周期访问频率加权平均值判断该二级颗粒是否是热点数据区域。 
S250、将该热点数据区域中的数据迁移至高速硬盘或二级缓存;释放该第二统计表所占用的内存; 
可选的,如果该热点数据区域中的数据存储在低速硬盘,则可以将其迁移至高速硬盘;如果该热点数据区域中的数据存储在磁盘,则可以将其迁移至二级缓存,因为这些热点数据的访问频率较高,将其迁移至高速硬盘或者二级缓存,可以提高其访问速度; 
在将该热点数据区域中的数据迁移至高速硬盘或二级缓存后,释放该热点数据区域对应的第二统计表所占用的内存,以达到节省内存资源的目的。 
从以上技术方案可以看出,本发明实施例具有以下优点: 
本发明实施例不需要对所有数据块都做精细化的统计,采用分级的方法识别热点数据,动态创建二级颗粒,根据与二级颗粒对应的第二统计表,计算该二级颗粒的周期访问频率加权平均值,当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗粒确定为热点数据区域,由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒,而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒,相应的不属于热一级颗粒的一级颗粒则不需要在内存中建立二级统计表进行管理,而一级颗粒不属于精细化的划分,所以其统计表占用内存的资源较少,并且二级统计表是动态建立的,所以本发明实施例可以利用有限的内存空间完成对热点数据的识别。 
进一步地,本发明实施例还可以包括: 
当热点数据区域中的数据迁移至高速硬盘或二级缓存,并释放该热点数据区域对应的第二统计表所占用的内存后,可以在一级颗粒对应的第一统计表中增加该被迁移的热点数据区域,即被迁移的二级颗粒的信息,计算被迁移的二级颗粒的周期访问频率加权平均值; 
当该被迁移的二级颗粒的周期访问频率加权平均值满足下列条件时,重新将该一级颗粒划分为二级颗粒,并进行热点数据的识别: 
1、该一级颗粒的周期访问频率加权平均值达到第一阈值;以及, 
2、该被迁移的二级颗粒的周期访问频率加权平均值小于第三阈值,第三阈值是指该一级颗粒中的迁移数据块的热点门限值; 
具体的一级颗粒中的迁移数据块的热点门限值的计算公式属于现有技术,这里不再赘述。 
当该被迁移的二级颗粒的周期访问频率加权平均值满足以上条件时,说明该一级颗粒中的热点数据发生变化,需要重新将该一级颗粒划分为二级颗粒进行热点数据识别。 
进一步地,当一级颗粒的周期访问频率加权平均值小于第一阈值时,说明该一级颗粒已不是热点区域,需要将该一级颗粒保存在高速硬盘中的数据迁出至低速硬盘,或者将该一级颗粒保存在二级缓存中的数据迁出至磁盘。 
请参阅图3,本发明实施例中数据访问装置的一个实施例包括: 
第一计算模块31,用于根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值; 
众所周知,计算机硬盘是通过磁介质来存储信息的。一块计算机硬盘内部包含若干个磁盘片,磁盘片上的磁涂层是由数量众多的、体积极为细小的颗粒组成,若干个颗粒组成一个记录单元来记录1比特(bit)信息,即0或1; 
本发明实施例预先将存储区域划分为若干个一级颗粒,每一个一级颗粒可以被看做一个单独的数据块,同时,在内存中创建一级颗粒对应的第一统计表,第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
具体的,第一计算模块31可以按照以下步骤执行: 
a、统计当前周期内,一级颗粒的访问频率,需要说明的是,周期的大小是预先设定的,并且可以根据业务需要进行动态调整; 
b、根据一级颗粒的访问频率,以及第一统计表中存储的历史周期访问频率加权平均值等信息计算获得当前周期内一级颗粒的周期访问频率加权平均值,具体的计算公式如下: 
bn=an+kan-1+k2an-2+.........+k(n-1)a1, 
cn=bn/(1+k+k2+.........+kn-1); 
其中,a表示当前周期内数据块的访问频率,b表示数据块所有历史访问频率的加权值,c表示数据块所有历史访问频率的加权平均值,下标n表示第n个统计周期,k表示加权系数,其取值范围为0≤k<1,k取值越小,cn受以前访问频率影响就越小,受当前周期访问频率影响就越大,热点数据识别就越灵敏,但波动也比较大;反之k取值越大,数据块冷热变化就越平缓。 
下表是加权系数与历史访问记录的关系: 
Figure G200910217194XD00101
Figure G200910217194XD00111
第一确定模块32,用于当一级颗粒的周期访问频率加权平均值达到第一阈值时,将该一级颗粒确定为热一级颗粒; 
具体的,这里的第一阈值是指一级颗粒的热点门限值,可以根据数据块热点门限公式,计算出一级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果第一计算模块31获得的一级颗粒的周期访问频率加权平均值达到第一阈值,则将其标识为热一级颗粒。 
第二划分模块33,用于将该热一级颗粒划分为二级颗粒; 
与一级颗粒不同的是,二级颗粒是动态划分的,只有被确定为热一级颗粒的一级颗粒,才会被划分为若干个二级颗粒,而一级颗粒是预先划分的。 
第二创建模块34,用于在内存中创建第二统计表,该第二统计表用于存储该二级颗粒的信息; 
具体的,第二统计表中可以包括二级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
第一统计表和第二统计表在内存中可以用二级哈希表的形式进行维护,也可以用二叉树的形式进行维护,在此不做限定。 
第二计算模块35,用于根据该第二统计表,获得下一个周期内该二级颗粒的周期访问频率加权平均值; 
在第二划分模块34将该热一级颗粒划分为二级颗粒后,当前周期结束,开始下一个周期; 
具体的,第二计算模块35可以按照以下步骤执行: 
a、计算该周期内,一级颗粒的周期访问频率加权平均值; 
一级颗粒的周期访问频率加权平均值的计算公式如步骤S100所述,这里不再赘述; 
b、根据该周期内一级颗粒的周期访问频率加权平均值,计算获得该周期内二级颗粒的周期访问频率加权平均值,具体的计算公式如下: 
若该二级颗粒是第一次参与统计,计算公式是: 
S=S1+k×(F/total_num), 
其中,S1为该周期内该二级颗粒的访问频率;k为加权系数;F是该周期内,一级颗粒的周期访问频率加权平均值;total_num为该一级颗粒中所包含的二级颗粒的个数; 
若该二级颗粒不是第一次参与统计,其计算公式可参考第一计算模块31中的周期访问频率加权平均值的计算公式,这里不再赘述。 
第二确定模块36,用于当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗粒确定为热点数据区域,该热点数据区域中的数据为热点数据; 
具体的,这里的第二阈值是指二级颗粒的热点门限值,可以根据数据块热点门限公式,计算出二级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该二级颗粒的周期访问频率加权平均值达到第二阈值,那么该二级颗粒属于热点数据区域,热点数据区域中的数据为热点数据。 
从以上技术方案可以看出,本发明实施例具有以下优点: 
本发明实施例不需要对所有数据块都做精细化的统计,采用分级的方法识别热点数据,动态创建二级颗粒,根据与二级颗粒对应的第二统计表,计算该二级颗粒的周期访问频率加权平均值,当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗粒确定为热点数据区域,由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒,而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒,相应的不属于热一级颗粒的一级颗粒则不需要在内存中建立二级统计表进行管理,而一级颗粒不属于精细化的划分,所以其统计表占用内存的资源较少,并且二级统计表是动态建立的,所以本 发明实施例可以利用有限的内存空间完成对热点数据的识别。 
请参阅图4,本发明实施例中数据访问装置另一个实施例包括: 
第一划分模块401,用于将存储区域划分为一级颗粒; 
具体的,将存储区域划分为若干个一级颗粒,每一个一级颗粒可以被看做一个单独的数据块。 
第一创建模块402,用于在内存中创建第一统计表,该第一统计表用于存储该一级颗粒的信息; 
具体的,在第一划分模块401将存储区域划分为一级颗粒后,在内存中创建一级颗粒对应的第一统计表,第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
第一计算模块403,用于根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值; 
具体的计算方法及计算公式请参考上一实施例,这里不再赘述。 
第一确定模块404,用于当一级颗粒的周期访问频率加权平均值达到第一阈值时,将该一级颗粒确定为热一级颗粒; 
具体的,这里的第一阈值是指一级颗粒的热点门限值,可以根据数据块热点门限公式,计算出一级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该一级颗粒的周期访问频率加权平均值达到第一阈值,则将其标识为热一级颗粒。 
第一写入模块405,用于将计算获得的一级颗粒的周期访问频率加权平均值写入第一统计表; 
具体的,将第一计算模块403计算获得的一级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第一统计表,以备下一次计算一级颗粒的周期访问频率加权平均值时使用。 
第二划分模块406,用于将该热一级颗粒划分为二级颗粒; 
与一级颗粒不同的是,二级颗粒是动态划分的,只有被确定为热一级颗粒的一级颗粒,才会被划分为若干个二级颗粒,而一级颗粒是预先划分的。 
第二创建模块407,用于在内存中创建第二统计表,该第二统计表用于存储二级颗粒的信息; 
具体的,第二统计表中可以包括二级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 
第一统计表和第二统计表在内存中可以用二级哈希表的形式进行维护,也可以用二叉树的形式进行维护,在此不做限定。 
第二计算模块408,用于根据第二统计表,获得下一个周期内该二级颗粒的周期访问频率加权平均值; 
在第二划分模块406将该热一级颗粒划分为二级颗粒后,当前周期结束,开始下一个周期; 
具体的,该二级颗粒的周期访问频率加权平均值的计算方法及计算公式请参见上一实施例,这里不再赘述。 
第二确定模块409,用于当二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据; 
具体的,这里的第二阈值是指二级颗粒的热点门限值,可以根据数据块热点门限公式,计算出二级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 
如果该二级颗粒的周期访问频率加权平均值达到第二阈值,那么该二级颗粒属于热点数据区域,热点数据区域中的数据为热点数据。 
第二写入模块410,用于将计算获得的二级颗粒的周期访问频率加权平均值写入第二统计表; 
具体的,将第二计算模块408计算获得的二级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第二统计表,以备下一次计算二级颗粒的周期访问频率加权平均值时使用。 
迁移模块411,用于将该热点数据区域中的数据迁移至高速硬盘或二级缓存; 
释放模块412,用于释放该第二统计表所占用的内存; 
可选的,如果该热点数据区域中的数据存储在低速硬盘,则可以将其迁 移至高速硬盘;如果该热点数据区域中的数据存储在磁盘,则可以将其迁移至二级缓存,因为这些热点数据的访问频率较高,将其迁移至高速硬盘或者二级缓存,可以提高其访问速度; 
在将该热点数据区域中的数据迁移至高速硬盘或二级缓存后,释放该热点数据区域对应的第二统计表所占用的内存,以达到节省内存资源的目的。 
从以上技术方案可以看出,本发明实施例具有以下优点: 
本发明实施例不需要对所有数据块都做精细化的统计,采用分级的方法识别热点数据,动态创建二级颗粒,根据与二级颗粒对应的第二统计表,计算该二级颗粒的周期访问频率加权平均值,当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗粒确定为热点数据区域,由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒,而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒,相应的不属于热一级颗粒的一级颗粒则不需要在内存中建立二级统计表进行管理,而一级颗粒不属于精细化的划分,所以其统计表占用内存的资源较少,并且二级统计表是动态建立的,所以本发明实施例可以利用有限的内存空间完成对热点数据的识别。 
进一步地,本发明实施例还可以包括:第一处理模块和第二处理模块; 
该第一处理模块,用于当热点数据区域中的数据迁移至高速硬盘或二级缓存,并释放该热点数据区域对应的第二统计表所占用的内存后,可以在一级颗粒对应的第一统计表中增加该被迁移的热点数据区域,即被迁移的二级颗粒的信息,计算被迁移的二级颗粒的周期访问频率加权平均值; 
当该被迁移的二级颗粒的周期访问频率加权平均值满足下列条件时,重新将该一级颗粒划分为二级颗粒,并进行热点数据的识别: 
1、该一级颗粒的周期访问频率加权平均值达到第一阈值;以及, 
2、该被迁移的二级颗粒的周期访问频率加权平均值小于第三阈值,第三阈值是指该一级颗粒中的迁移数据块的热点门限值; 
具体的一级颗粒中的迁移数据块的热点门限值的计算公式属于现有技术,这里不再赘述。 
当该被迁移的二级颗粒的周期访问频率加权平均值满足以上条件时,说明该一级颗粒中的热点数据发生变化,需要重新将该一级颗粒划分为二级颗 粒进行热点数据识别。 
第二处理模块,用于当一级颗粒的周期访问频率加权平均值小于第一阈值时,说明该一级颗粒已不是热点区域,需要将该一级颗粒保存在高速硬盘中的数据迁出至低速硬盘,或者将该一级颗粒保存在二级缓存中的数据迁出至磁盘。 
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。 
以上对本发明所提供的一种信息处理方法以及信息处理服务器进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。 

Claims (10)

1.一种热点数据识别方法,其特征在于,包括:
根据预置的在内存中创建的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值,所述第一统计表用于存储所述一级颗粒的信息;
当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒;
将所述热一级颗粒划分为二级颗粒;
在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息;
根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值;
当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。
2.如权利要求1所述的方法,其特征在于,还包括:
预先将所述存储区域划分为一级颗粒;
在内存中创建第一统计表。
3.如权利要求2所述的方法,其特征在于,还包括:
将计算获得的所述一级颗粒的周期访问频率加权平均值写入所述第一统计表。
4.如权利要求1所述的方法,其特征在于,还包括:
将计算获得的下一个周期内所述二级颗粒的周期访问频率加权平均值写入所述第二统计表。
5.如权利要求1所述的方法,其特征在于,还包括:
将所述热点数据区域中的数据迁移至高速硬盘或二级缓存;
释放所述第二统计表所占用的内存。
6.一种热点数据识别装置,其特征在于,包括:
第一计算模块,用于根据预置的在内存中创建的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值,所述第一统计表用于存储所述一级颗粒的信息;
第一确定模块,用于当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒;
第二划分模块,用于将所述热一级颗粒划分为二级颗粒;
第二创建模块,用于在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息;
第二计算模块,用于根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值;
第二确定模块,用于当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。
7.如权利要求6所述的装置,其特征在于,还包括:
第一划分模块,用于预先将所述存储区域划分为一级颗粒;
第一创建模块,用于在内存中创建第一统计表。
8.如权利要求7所述的装置,其特征在于,还包括:
第一写入模块,用于将计算获得的所述一级颗粒的周期访问频率加权平均值写入所述第一统计表。
9.如权利要求6所述的装置,其特征在于,还包括:
第二写入模块,用于将计算获得的下一个周期内所述二级颗粒的周期访问频率加权平均值写入所述第二统计表。
10.如权利要求6所述的装置,其特征在于,还包括:
迁移模块,用于将所述热点数据区域中的数据迁移至高速硬盘或二级缓存;
释放模块,用于释放所述第二统计表所占用的内存。
CN200910217194XA 2009-12-31 2009-12-31 一种热点数据识别方法及装置 Active CN101788995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910217194XA CN101788995B (zh) 2009-12-31 2009-12-31 一种热点数据识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910217194XA CN101788995B (zh) 2009-12-31 2009-12-31 一种热点数据识别方法及装置

Publications (2)

Publication Number Publication Date
CN101788995A CN101788995A (zh) 2010-07-28
CN101788995B true CN101788995B (zh) 2011-11-09

Family

ID=42532211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910217194XA Active CN101788995B (zh) 2009-12-31 2009-12-31 一种热点数据识别方法及装置

Country Status (1)

Country Link
CN (1) CN101788995B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156738B (zh) * 2011-04-13 2012-12-19 成都市华为赛门铁克科技有限公司 数据块处理方法、数据块存储设备及系统
CN102821113B (zh) * 2011-06-07 2016-06-29 阿里巴巴集团控股有限公司 缓存方法及系统
WO2012149776A1 (zh) * 2011-09-28 2012-11-08 华为技术有限公司 存储数据的方法和装置
CN102629236B (zh) * 2012-02-22 2015-02-25 哈尔滨工程大学 基于不等长计数器的存储器保护方法
CN102799534B (zh) * 2012-07-18 2015-11-25 上海宝存信息科技有限公司 基于固态存储介质的存储系统及方法、冷热数据识别方法
CN103905267B (zh) * 2012-12-28 2017-12-15 腾讯科技(北京)有限公司 一种数据监控方法和装置
US9336294B2 (en) * 2013-09-04 2016-05-10 International Business Machines Corporation Autonomically defining hot storage and heavy workloads
CN103473335B (zh) * 2013-09-18 2016-08-17 浪潮(北京)电子信息产业有限公司 一种热点数据检测方法及装置
CN103593444B (zh) * 2013-11-15 2017-06-06 北京国双科技有限公司 网络关键词识别处理方法和装置
CN105493024B (zh) * 2014-11-28 2019-03-08 华为技术有限公司 一种数据阈值预测方法与相关装置
CN107239474B (zh) * 2016-03-29 2021-05-04 创新先进技术有限公司 一种数据记录方法及装置
CN106502789A (zh) * 2016-10-12 2017-03-15 阔地教育科技有限公司 一种资源访问方法及装置
CN106569577A (zh) * 2016-10-18 2017-04-19 上海新储集成电路有限公司 一种异构存储系统及数据存储中心
CN108540367B (zh) * 2017-03-06 2021-01-15 中国移动通信有限公司研究院 一种消息处理方法及系统
CN110795026B (zh) * 2018-08-03 2021-04-27 杭州海康威视系统技术有限公司 热点数据的识别方法、装置、设备及存储介质
CN109558337B (zh) * 2018-11-30 2023-09-19 北京同有飞骥科技股份有限公司 高速缓存的动态访问方法、装置及存储介质
CN110309180B (zh) * 2019-06-11 2021-06-11 暨南大学 一种基于数据资源转化效率模型的缓存方法
CN113420093A (zh) * 2021-06-30 2021-09-21 北京小米移动软件有限公司 热点检测方法、装置、存储服务器及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483668A (zh) * 2009-02-10 2009-07-15 成都市华为赛门铁克科技有限公司 热点数据的网络存储和访问方法、设备及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483668A (zh) * 2009-02-10 2009-07-15 成都市华为赛门铁克科技有限公司 热点数据的网络存储和访问方法、设备及系统

Also Published As

Publication number Publication date
CN101788995A (zh) 2010-07-28

Similar Documents

Publication Publication Date Title
CN101788995B (zh) 一种热点数据识别方法及装置
CN101777026B (zh) 一种存储管理方法、硬盘及存储系统
CN105095116A (zh) 缓存替换的方法、缓存控制器和处理器
CN101981551B (zh) 用于高速缓存利用的设备和方法
CN106874213B (zh) 一种融合多种机器学习算法的固态硬盘热数据识别方法
CN102096556B (zh) 拷贝数据的方法、读取数据的方法和装置及系统
CN107092563B (zh) 一种垃圾回收方法及装置
US20120246394A1 (en) Flash Memory Device and Data Writing Method for a Flash Memory
CN109491616B (zh) 数据的存储方法和设备
CN101419573A (zh) 一种存储管理的方法、系统和存储设备
CN103399823A (zh) 业务数据的存储方法、设备和系统
CN101719099A (zh) 减小固态硬盘写入放大的方法及装置
CN103324533A (zh) 分布式数据处理方法、装置及系统
US20240143219A1 (en) Software-hardware combination method for internal mapping address query of zoned namespace
CN107015888B (zh) 一种基于子模模型的数据备份方法和系统
CN112882663B (zh) 一种随机写的方法、电子设备及存储介质
CN101373445A (zh) 一种内存调度方法及装置
CN111367469A (zh) 一种分层存储数据迁移方法和系统
CN107515728A (zh) 发挥闪存设备内部并发特性的数据管理方法和装置
WO2023000536A1 (zh) 一种数据处理方法、系统、设备以及介质
CN104298615B (zh) 一种存储器交换分区损耗的均衡方法
CN108664217B (zh) 一种降低固态盘存储系统写性能抖动的缓存方法及系统
CN104932830A (zh) 信息处理方法及电子设备
CN103246615A (zh) 一种闪存存储设备中数据管理的方法及装置
US20040123039A1 (en) System and method for adatipvely loading input data into a multi-dimensional clustering table

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

DD01 Delivery of document by public notice

Addressee: He Xinru

Document name: Notification of Passing Examination on Formalities

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.