CN101788995B

CN101788995B - 一种热点数据识别方法及装置

Info

Publication number: CN101788995B
Application number: CN200910217194XA
Authority: CN
Inventors: 董浩; 龚涛; 张翔; 杜小华
Original assignee: Huawei Symantec Technologies Co Ltd
Current assignee: Chengdu Huawei Technology Co Ltd
Priority date: 2009-12-31
Filing date: 2009-12-31
Publication date: 2011-11-09
Anticipated expiration: 2029-12-31
Also published as: CN101788995A

Abstract

本发明实施例公开了一种热点数据识别方法及装置，包括：根据预置的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值；当所述一级颗粒的周期访问频率加权平均值达到第一阈值时，将所述一级颗粒确定为热一级颗粒；将所述热一级颗粒划分为二级颗粒；在内存中创建第二统计表，所述第二统计表用于存储所述二级颗粒的信息；根据所述第二统计表，获得下一个周期内所述二级颗粒的周期访问频率加权平均值；当所述二级颗粒的周期访问频率加权平均值达到第二阈值时，将所述二级颗粒确定为热点数据区域，所述热点数据区域中的数据为热点数据。本发明实施例可以利用有限的内存空间完成对热点数据的识别。

Description

一种热点数据识别方法及装置

技术领域

本发明涉及存储领域，尤其涉及一种热点数据识别方法及装置。

背景技术

在计算机的使用过程中会产生大量数据，这些数据都需要被存储在磁盘上以备其他业务使用，许多业务在访问存储系统时，对随机IO并发性都有很高的要求。为满足业务应用的要求，提高存储系统的每秒钟处理IO请求(I/Oper second，IOPS)的能力，引入了热点数据迁移、二级缓存等新技术，而这些技术都依赖于热点数据识别技术。

现有的热点数据识别技术主要包括，将存储区域划分为若干数据块，对所有数据块做精细化统计，统计若干块被访问的次数，根据被访问的次数计算被访问的频率，再根据块的被访问的频率判断其是否是热点数据区域。例如，以块的大小为32M为例，一个存储空间为2T的存储区域具有2T/32M＝64K个块，如果一个存储阵列同时存在2K个这样的存储区域，那么这个存储阵列的存储空间为2T*2K＝4P字节，假设块的管理单元是64字节，那么管理4P存储空间需要的统计信息空间为2K*64K*64＝8G字节。这些统计信息是存放在高速介质上的，只有最近被访问的数据库的统计信息才会调入内存中，所以对统计信息而言就需要支持换入换出机制。可见，现有的热点数据识别技术较难利用有限的内存空间完成对热点数据的识别，统计信息必须采用换入换出方式实现数据的统计，降低了热点数据识别的效率。

发明内容

本发明实施例提供了一种热点数据识别方法及装置，可以利用有限的内存空间完成对热点数据的识别。

本发明实施例提供的热点数据识别方法，包括：根据预置的在内存中创建的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值，所述第一统计表用于存储所述一级颗粒的信息；

当所述一级颗粒的周期访问频率加权平均值达到第一阈值时，将所述一级颗粒确定为热一级颗粒；

将所述热一级颗粒划分为二级颗粒；

在内存中创建第二统计表，所述第二统计表用于存储所述二级颗粒的信息；

根据所述第二统计表，获得下一个周期内所述二级颗粒的周期访问频率加权平均值；

当所述二级颗粒的周期访问频率加权平均值达到第二阈值时，将所述二级颗粒确定为热点数据区域，所述热点数据区域中的数据为热点数据。

本发明实施例提供的热点数据识别装置，包括：

第一计算模块，用于根据预置的在内存中创建的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值，所述第一统计表用于存储所述一级颗粒的信息；

第一确定模块，用于当所述一级颗粒的周期访问频率加权平均值达到第一阈值时，将所述一级颗粒确定为热一级颗粒；

第二划分模块，用于将所述热一级颗粒划分为二级颗粒；

第二创建模块，用于在内存中创建第二统计表，所述第二统计表用于存储所述二级颗粒的信息；

第二计算模块，用于根据所述第二统计表，获得下一个周期内所述二级颗粒的周期访问频率加权平均值；

第二确定模块，用于当所述二级颗粒的周期访问频率加权平均值达到第二阈值时，将所述二级颗粒确定为热点数据区域，所述热点数据区域中的数据为热点数据。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例不需要对所有数据块都做精细化的统计，采用分级的方法识别热点数据，动态创建二级颗粒，根据与二级颗粒对应的第二统计表，计算该二级颗粒的周期访问频率加权平均值，当该二级颗粒的周期访问频率加权平均值达到第二阈值时，将该二级颗粒确定为热点数据区域，由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒，而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒，相应的不属于热一级颗粒的一级颗粒则不需要在内存中建立二级统计表进行管理，而一级颗粒不属于精细化的划分，所以其统计表占用内存的资源较少，并且二级统计表是动态建立的，所以本发明实施例可以利用有限的内存空间完成对热点数据的识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中数据访问方法一个实施例示意图；

图2为本发明实施例中数据访问方法另一实施例示意图；

图3为本发明实施例中数据访问装置实施例的结构示意图；

图4为本发明实施例中数据访问装置另一个实施例的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中数据处理方法一个实施例包括：

S100、根据预置的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值；

众所周知，计算机硬盘是通过磁介质来存储信息的。一块计算机硬盘内部包含若干个磁盘片，磁盘片上的磁涂层是由数量众多的、体积极为细小的颗粒组成，若干个颗粒组成一个记录单元来记录1比特(bit)信息，即0或1；

本发明实施例预先将存储区域划分为若干个一级颗粒，每一个一级颗粒可以被看做一个单独的数据块，同时，在内存中创建一级颗粒对应的第一统计表，第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息；

具体的，步骤S100可以按照以下步骤执行：

a、统计当前周期内，一级颗粒的访问频率，需要说明的是，周期的大小是预先设定的，并且可以根据业务需要进行动态调整；

b、根据一级颗粒的访问频率，以及第一统计表中存储的历史周期访问频率加权平均值等信息计算获得当前周期内一级颗粒的周期访问频率加权平均值，具体的计算公式如下：

b_n＝a_n+ka_n-1+k²a_n-2+.........+k^(n-1)a₁，

c_n＝b_n/(1+k+k²+.........+k^n-1)；

其中，a表示当前周期内数据块的访问频率，b表示数据块所有历史访问频率的加权值，c表示数据块所有历史访问频率的加权平均值，下标n表示第n个统计周期，k表示加权系数，其取值范围为0≤k＜1，k取值越小，c_n受以前访问频率影响就越小，受当前周期访问频率影响就越大，热点数据识别就越灵敏，但波动也比较大；反之k取值越大，数据块冷热变化就越平缓。

下表是加权系数与历史访问记录的关系：

S105、当一级颗粒的周期访问频率加权平均值达到第一阈值时，将该一级颗粒确定为热一级颗粒；

具体的，这里的第一阈值是指一级颗粒的热点门限值，可以根据数据块热点门限公式，计算出一级颗粒的热点门限值，具体的计算公式属于现有技术，这里不再赘述；

如果该一级颗粒的周期访问频率加权平均值达到第一阈值，则将其标识为热一级颗粒。

S110、将该热一级颗粒划分为二级颗粒；

与一级颗粒不同的是，二级颗粒是动态划分的，只有被确定为热一级颗粒的一级颗粒，才会被划分为若干个二级颗粒，而一级颗粒是预先划分的。

S115、在内存中创建第二统计表，该第二统计表用于存储二级颗粒的信息；

具体的，第二统计表中可以包括二级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息；

第一统计表和第二统计表在内存中可以用二级哈希表的形式进行维护，也可以用二叉树的形式进行维护，在此不做限定。

S120、根据第二统计表，获得下一个周期内该二级颗粒的周期访问频率加权平均值；

在步骤S110将该热一级颗粒划分为二级颗粒后，当前周期结束，开始下一个周期；

具体的，步骤S120可以按照以下步骤执行：

a、计算该周期内，一级颗粒的周期访问频率加权平均值；

一级颗粒的周期访问频率加权平均值的计算公式如步骤S100所述，这里不再赘述；

b、根据该周期内一级颗粒的周期访问频率加权平均值，计算获得该周期内二级颗粒的周期访问频率加权平均值，具体的计算公式如下：

若该二级颗粒是第一次参与统计，计算公式是：

S＝S1+k×(F/total_num)，

其中，S1为该周期内该二级颗粒的访问频率；k为加权系数；F是该周期内，一级颗粒的周期访问频率加权平均值；total_num为该一级颗粒中所包含的二级颗粒的个数；

若该二级颗粒不是第一次参与统计，其计算公式可参考步骤100中的周期访问频率加权平均值的计算公式，这里不再赘述。

S125、当二级颗粒的周期访问频率加权平均值达到第二阈值时，将所述二级颗粒确定为热点数据区域，所述热点数据区域中的数据为热点数据；

具体的，这里的第二阈值是指二级颗粒的热点门限值，可以根据数据块热点门限公式，计算出二级颗粒的热点门限值，具体的计算公式属于现有技术，这里不再赘述；

如果该二级颗粒的周期访问频率加权平均值达到第二阈值，那么该二级颗粒属于热点数据区域，热点数据区域中的数据为热点数据。

从以上技术方案可以看出，本发明实施例具有以下优点：

请参阅图2，本发明实施例中数据访问方法另一个实施例包括：

S200、将存储区域划分为一级颗粒；

具体的，将存储区域划分为若干个一级颗粒，每一个一级颗粒可以被看做一个单独的数据块。

S205、在内存中创建第一统计表，该第一统计表用于存储该一级颗粒的信息；

具体的，在存储区域被划分为一级颗粒后，在内存中创建一级颗粒对应的第一统计表，第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息；

S210、根据预置的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值；

具体的计算方法及计算公式请参考上一实施例，这里不再赘述。

S215、将计算获得的一级颗粒的周期访问频率加权平均值写入第一统计表；

具体的，将步骤S210中计算获得的一级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第一统计表，以备下一次计算一级颗粒的周期访问频率加权平均值时使用。

S220、当一级颗粒的周期访问频率加权平均值达到第一阈值时，将该一级颗粒确定为热一级颗粒；

如果该一级颗粒的周期访问频率加权平均值达到第一阈值，则将其标识为热一级颗粒；

需要说明的是步骤S215和步骤S220没有前后顺序之分，可以先将一级颗粒的周期访问频率加权平均值写入第一统计表，也可以先用该一级颗粒的周期访问频率加权平均值判断该一级颗粒是否是热一级颗粒。

S225、将该热一级颗粒划分为二级颗粒；

S230、在内存中创建第二统计表，该第二统计表用于存储二级颗粒的信息；

S235、根据第二统计表，获得下一个周期内该二级颗粒的周期访问频率加权平均值；

在步骤S225将该热一级颗粒划分为二级颗粒后，当前周期结束，开始下一个周期；

具体的，该二级颗粒的周期访问频率加权平均值的计算方法及计算公式请参见上一实施例，这里不再赘述。

S240、将计算获得的二级颗粒的周期访问频率加权平均值写入第二统计表；

具体的，将步骤S235中计算获得的二级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第二统计表，以备下一次计算二级颗粒的周期访问频率加权平均值时使用。

S245、当二级颗粒的周期访问频率加权平均值达到第二阈值时，将所述二级颗粒确定为热点数据区域，所述热点数据区域中的数据为热点数据；

需要说明的是，步骤S240和步骤S245没有前后顺序之分，可以先将二级颗粒的周期访问频率加权平均值写入第二统计表，也可以先用该二级颗粒的周期访问频率加权平均值判断该二级颗粒是否是热点数据区域。

S250、将该热点数据区域中的数据迁移至高速硬盘或二级缓存；释放该第二统计表所占用的内存；

可选的，如果该热点数据区域中的数据存储在低速硬盘，则可以将其迁移至高速硬盘；如果该热点数据区域中的数据存储在磁盘，则可以将其迁移至二级缓存，因为这些热点数据的访问频率较高，将其迁移至高速硬盘或者二级缓存，可以提高其访问速度；

在将该热点数据区域中的数据迁移至高速硬盘或二级缓存后，释放该热点数据区域对应的第二统计表所占用的内存，以达到节省内存资源的目的。

从以上技术方案可以看出，本发明实施例具有以下优点：

进一步地，本发明实施例还可以包括：

当热点数据区域中的数据迁移至高速硬盘或二级缓存，并释放该热点数据区域对应的第二统计表所占用的内存后，可以在一级颗粒对应的第一统计表中增加该被迁移的热点数据区域，即被迁移的二级颗粒的信息，计算被迁移的二级颗粒的周期访问频率加权平均值；

当该被迁移的二级颗粒的周期访问频率加权平均值满足下列条件时，重新将该一级颗粒划分为二级颗粒，并进行热点数据的识别：

1、该一级颗粒的周期访问频率加权平均值达到第一阈值；以及，

2、该被迁移的二级颗粒的周期访问频率加权平均值小于第三阈值，第三阈值是指该一级颗粒中的迁移数据块的热点门限值；

具体的一级颗粒中的迁移数据块的热点门限值的计算公式属于现有技术，这里不再赘述。

当该被迁移的二级颗粒的周期访问频率加权平均值满足以上条件时，说明该一级颗粒中的热点数据发生变化，需要重新将该一级颗粒划分为二级颗粒进行热点数据识别。

进一步地，当一级颗粒的周期访问频率加权平均值小于第一阈值时，说明该一级颗粒已不是热点区域，需要将该一级颗粒保存在高速硬盘中的数据迁出至低速硬盘，或者将该一级颗粒保存在二级缓存中的数据迁出至磁盘。

请参阅图3，本发明实施例中数据访问装置的一个实施例包括：

第一计算模块31，用于根据预置的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值；

具体的，第一计算模块31可以按照以下步骤执行：

b_n＝a_n+ka_n-1+k²a_n-2+.........+k^(n-1)a₁，

c_n＝b_n/(1+k+k²+.........+k^n-1)；

其中，a表示当前周期内数据块的访问频率，b表示数据块所有历史访问频率的加权值，c表示数据块所有历史访问频率的加权平均值，下标n表示第n个统计周期，k表示加权系数，其取值范围为0≤k＜1，k取值越小，cn受以前访问频率影响就越小，受当前周期访问频率影响就越大，热点数据识别就越灵敏，但波动也比较大；反之k取值越大，数据块冷热变化就越平缓。

下表是加权系数与历史访问记录的关系：

第一确定模块32，用于当一级颗粒的周期访问频率加权平均值达到第一阈值时，将该一级颗粒确定为热一级颗粒；

如果第一计算模块31获得的一级颗粒的周期访问频率加权平均值达到第一阈值，则将其标识为热一级颗粒。

第二划分模块33，用于将该热一级颗粒划分为二级颗粒；

第二创建模块34，用于在内存中创建第二统计表，该第二统计表用于存储该二级颗粒的信息；

第二计算模块35，用于根据该第二统计表，获得下一个周期内该二级颗粒的周期访问频率加权平均值；

在第二划分模块34将该热一级颗粒划分为二级颗粒后，当前周期结束，开始下一个周期；

具体的，第二计算模块35可以按照以下步骤执行：

a、计算该周期内，一级颗粒的周期访问频率加权平均值；

若该二级颗粒是第一次参与统计，计算公式是：

S＝S1+k×(F/total_num)，

若该二级颗粒不是第一次参与统计，其计算公式可参考第一计算模块31中的周期访问频率加权平均值的计算公式，这里不再赘述。

第二确定模块36，用于当该二级颗粒的周期访问频率加权平均值达到第二阈值时，将该二级颗粒确定为热点数据区域，该热点数据区域中的数据为热点数据；

从以上技术方案可以看出，本发明实施例具有以下优点：

请参阅图4，本发明实施例中数据访问装置另一个实施例包括：

第一划分模块401，用于将存储区域划分为一级颗粒；

第一创建模块402，用于在内存中创建第一统计表，该第一统计表用于存储该一级颗粒的信息；

具体的，在第一划分模块401将存储区域划分为一级颗粒后，在内存中创建一级颗粒对应的第一统计表，第一统计表可以包括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息；

第一计算模块403，用于根据预置的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值；

第一确定模块404，用于当一级颗粒的周期访问频率加权平均值达到第一阈值时，将该一级颗粒确定为热一级颗粒；

第一写入模块405，用于将计算获得的一级颗粒的周期访问频率加权平均值写入第一统计表；

具体的，将第一计算模块403计算获得的一级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第一统计表，以备下一次计算一级颗粒的周期访问频率加权平均值时使用。

第二划分模块406，用于将该热一级颗粒划分为二级颗粒；

第二创建模块407，用于在内存中创建第二统计表，该第二统计表用于存储二级颗粒的信息；

第二计算模块408，用于根据第二统计表，获得下一个周期内该二级颗粒的周期访问频率加权平均值；

在第二划分模块406将该热一级颗粒划分为二级颗粒后，当前周期结束，开始下一个周期；

第二确定模块409，用于当二级颗粒的周期访问频率加权平均值达到第二阈值时，将所述二级颗粒确定为热点数据区域，所述热点数据区域中的数据为热点数据；

第二写入模块410，用于将计算获得的二级颗粒的周期访问频率加权平均值写入第二统计表；

具体的，将第二计算模块408计算获得的二级颗粒的周期访问频率加权平均值作为历史周期访问频率加权平均值写入第二统计表，以备下一次计算二级颗粒的周期访问频率加权平均值时使用。

迁移模块411，用于将该热点数据区域中的数据迁移至高速硬盘或二级缓存；

释放模块412，用于释放该第二统计表所占用的内存；

从以上技术方案可以看出，本发明实施例具有以下优点：

进一步地，本发明实施例还可以包括：第一处理模块和第二处理模块；

该第一处理模块，用于当热点数据区域中的数据迁移至高速硬盘或二级缓存，并释放该热点数据区域对应的第二统计表所占用的内存后，可以在一级颗粒对应的第一统计表中增加该被迁移的热点数据区域，即被迁移的二级颗粒的信息，计算被迁移的二级颗粒的周期访问频率加权平均值；

第二处理模块，用于当一级颗粒的周期访问频率加权平均值小于第一阈值时，说明该一级颗粒已不是热点区域，需要将该一级颗粒保存在高速硬盘中的数据迁出至低速硬盘，或者将该一级颗粒保存在二级缓存中的数据迁出至磁盘。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种信息处理方法以及信息处理服务器进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种热点数据识别方法，其特征在于，包括：

根据预置的在内存中创建的第一统计表，获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值，所述第一统计表用于存储所述一级颗粒的信息；

将所述热一级颗粒划分为二级颗粒；

2.如权利要求1所述的方法，其特征在于，还包括：

预先将所述存储区域划分为一级颗粒；

在内存中创建第一统计表。

3.如权利要求2所述的方法，其特征在于，还包括：

将计算获得的所述一级颗粒的周期访问频率加权平均值写入所述第一统计表。

4.如权利要求1所述的方法，其特征在于，还包括：

将计算获得的下一个周期内所述二级颗粒的周期访问频率加权平均值写入所述第二统计表。

5.如权利要求1所述的方法，其特征在于，还包括：

将所述热点数据区域中的数据迁移至高速硬盘或二级缓存；

释放所述第二统计表所占用的内存。

6.一种热点数据识别装置，其特征在于，包括：

第二划分模块，用于将所述热一级颗粒划分为二级颗粒；

7.如权利要求6所述的装置，其特征在于，还包括：

第一划分模块，用于预先将所述存储区域划分为一级颗粒；

第一创建模块，用于在内存中创建第一统计表。

8.如权利要求7所述的装置，其特征在于，还包括：

第一写入模块，用于将计算获得的所述一级颗粒的周期访问频率加权平均值写入所述第一统计表。

9.如权利要求6所述的装置，其特征在于，还包括：

第二写入模块，用于将计算获得的下一个周期内所述二级颗粒的周期访问频率加权平均值写入所述第二统计表。

10.如权利要求6所述的装置，其特征在于，还包括：

迁移模块，用于将所述热点数据区域中的数据迁移至高速硬盘或二级缓存；

释放模块，用于释放所述第二统计表所占用的内存。